CN115017337B

CN115017337B - 一种面向深度学习模型的隐语义解释方法

Info

Publication number: CN115017337B
Application number: CN202210924149.3A
Authority: CN
Inventors: 孟楠; 刘敬一; 姚晨; 陈金勇; 朱进; 郭琦
Original assignee: CETC 54 Research Institute
Current assignee: CETC 54 Research Institute
Priority date: 2022-08-03
Filing date: 2022-08-03
Publication date: 2022-11-01
Anticipated expiration: 2042-08-03
Also published as: CN115017337A

Abstract

本发明属于深度学习可解释性领域，特别涉及一种面向深度学习模型的隐语义解释方法。本发明通过解析描述目标任务领域中的多源数据，抽取其中蕴含的人类认知语义，实现多源数据的语义构建。在领域相关知识的基础上，进行典型任务数据的语义标签构建，并在此基础上对深度学习模型内部神经元进行语义解释，即模型的隐语义解释，完成“黑盒”模型的理解，提高模型结果的可信度，同时提升人对可解释结果的直观认知。

Description

一种面向深度学习模型的隐语义解释方法

技术领域

本发明属于深度学习可解释性领域，特别涉及一种面向深度学习模型的隐语义解释方法。

背景技术

随着深度学习模型的发展，在日常生活的各种任务中扮演着越来越重要的角色，模型的可解释性成为了决定用户是否能信任模型的关键因素，尤其是模型对人类的健康、财产安全等重要任务给出预测和决策结果时。如何对深度学习模型进行解释，成为当前研究的重点。

现在关于深度学习可解释性的研究方法大概分为两类主流的研究方法，第一类是对模型内部包含的参数、神经元或卷积核进行可视化，通过良好的可视化帮助人类理解深度网络模型的内部结构；第二类构建可解释模型进行深度学习模型的解释，比如线性模型、决策树模型通过将深层的神经网络模型迁移到人类可理解的可解释模型中，从而解构不可解释的模型。第一类方法大多是最直观的解释性方法，但是可视化神经网络得到的结果有时也会造成人类的难以理解，并且缺少对这种解释方法的评价标准。第二类方法并未对模型内部进行解释，而是建立模型输入输出的关系，完成模型的理解。但是现有方法很少从人类对任务分析任务的认知语义角度出发，构建模型神经元与人类语义关系的映射，故而本发明从语义角度出发，解决深度神经网络不可解释的问题。

发明内容

本发明的目的在于提供一种面向深度学习模型的隐语义解释方法，针对多源数据，引入隐语义的概念，建立网络神经元与人类语义的映射关系，完成“黑盒”模型的理解，提高模型结果的可信度，同时提升人对可解释结果的直观认知。

本发明采用的技术方案为：

一种面向深度学习模型的隐语义解释方法，包含如下步骤：

步骤1，在领域相关知识的基础上，抽取目标任务数据集中蕴含的人类认知语义，然后对多源任务数据集中每个数据的要素进行像素级语义标签构建，得到像素级语义解释数据集合；其中多源任务数据集包括图像、文本和点位数据；

步骤2，提取待解释深度学习模型某一隐藏层的尺寸及像素级语义解释数据集合的尺寸，并使隐藏层尺寸与像素级语义解释数据集合尺寸保持一致，然后计算单个隐藏层和像素级语义解释数据集合的契合度，得到待解释深度学习模型某一隐藏层潜在的语义表征；

步骤3，将隐藏层中真正表示语义的神经元分解出来，得到解耦神经元的编码及对应语义，完成深度学习模型的隐语义解释。

进一步的，步骤1中抽取多源任务数据集中蕴含的人类认知语义，具体为：

将多源任务数据以要素语义为核心，对数据的主体、任务类型、部件和时空属性进行语义认知。

进一步的，步骤1中，多源任务数据集包括复杂分析场景中目标识别任务数据、目标轨迹预测任务数据和文本解析任务数据。

进一步的，步骤2包括如下步骤：

步骤201，将数据输入到待解释深度学习模型，获取某个隐藏层在所有数据上的隐藏层特征，提取隐藏层特征尺寸和像素级语义解释数据集合尺寸，对隐藏层特征或像素级语义解释数据集合进行上采样或下采样，使隐藏层特征和像素级语义解释数据集合尺寸保持一致；

步骤202，利用相似度计算函数计算某个隐藏层在单个数据下的隐藏层特征和像素级语义解释数据集合的契合度，选择契合度大于设定阈值的语义作为单个数据下隐藏层特征的备选语义，最终统计所有数据下隐藏层特征对应的备选语义集中出现次数最多的语义，定义为隐藏层所代表的语义，得到待解释深度学习模型某一隐藏层潜在的语义表征。

进一步的，步骤3包括如下过程：

利用生成对抗网络将隐藏层二值化表示为空间掩膜，其中掩膜中值为1的位置所对应的神经元被激活，并将空间掩膜与隐藏层点乘，得到只包含部分神经元的隐藏层，定义为与步骤2得到的隐藏层具有相同语义表征的解耦神经元；将解耦神经元位置进行向量化编码，然后将解耦神经元位置编码与语义进行映射，完成解耦神经元与语义对应关系的构建。

本发明具有如下有益效果：

（1）、本发明通过人类认知语义的角度对深度学习模型进行可解释性研究，完成了具体神经元语义内涵的解释。

（2）、本发明针对包含图像、文本、点位多源数据的多种任务模型进行可解释性研究，完成了对多种模型的解释。

（3）、本发明分析归纳不同语义与神经元激活之间的知识规律，完成了具体神经元语义概念的映射。

附图说明

图1 为本发明一种面向深度学习模型的隐语义解释方法流程示意图。

图2为本发明神经元解耦步骤示意图。

具体实施方式

下面结合附图及具体实施方式对本发明做进一步详细的说明。

如图1所示，一种面向深度学习模型的隐语义解释方法，包括以下步骤：

步骤1，在领域相关知识的基础上，抽取多源任务数据集中蕴含的人类认知语义，然后对多源任务数据集中每个数据的要素进行像素级语义标签构建，得到像素级语义解释数据集合；其中多源任务数据集包括图像、文本和点位数据；

其中，抽取多源任务数据集中蕴含的人类认知语义，具体为：将多源任务数据以要素语义为核心，对数据的主体、任务类型、部件和时空属性进行语义认知；

多源任务数据集包括复杂任务分析场景中目标识别任务数据、目标轨迹预测任务数据和文本解析任务数据；

具体包括如下步骤：

步骤202，利用相似度计算函数计算某个隐藏层在单个数据下的隐藏层特征和像素级语义解释数据集合的契合度，选择契合度大于设定阈值的语义作为单个数据下隐藏层特征的备选语义，最终统计所有数据下隐藏层特征对应的备选语义集中出现次数最多的语义，定义为隐藏层所代表的语义，得到待解释深度学习模型某一隐藏层潜在的语义表征；

步骤3，将隐藏层中真正表示语义的神经元分解出来，得到解耦神经元的编码及对应语义，完成深度学习模型的隐语义解释，如图2所示。

具体包括如下过程：

步骤301，构建位置可解释性模块，模块网络结构为生成对抗网络，输入为任务分析模型中的特定隐藏层，输出为二值化表示的空间掩膜。其中掩膜中值为1的位置所对应的神经元被激活，通过空间二值化掩膜与隐藏层的点乘操作得到只包含部分神经元的隐藏层，将其定义为与原隐藏层具有相同语义的解耦神经元。

步骤302，在步骤2得出的隐藏层语义概念表征基础上，针对某一隐藏层，基于位置可解释性模块得到只包含部分神经元的隐藏层替换原有的隐藏层，重新进行任务分析模型及生成对抗网络模型训练，当任务分析任务损失及GAN损失稳定时，得到包含部分神经元的隐藏层，定义为与步骤2得到的隐藏层具有相同语义表征的解耦神经元，即完成神经元解耦，并将解耦神经元位置进行向量化编码，最终将神经元位置编码与语义进行映射，完成神经元与语义对应关系的构建。

下面以一个具体例子进行阐述：

以目标识别任务及图像数据为例，以图像中船舶数据为主体，对船头、船尾、甲板等组成单元，纹理、背景等进行图像像素级的语义标签的构建，完成图像数据像素级的语义理解，构建针对每种语义的图像像素级语义标签数据集合。构建二值化表示的语义图像掩码，其中图像上包含特定语义标签的部位设置为1，其余设置为0。将语义图像掩码与原始图像点乘得到图像像素级语义标签数据。可得到船头语义图像、船尾语义图像、甲板语义图像、纹理语义图像、背景语义图像等。

针对目标识别任务模型中特定隐藏层进行上/下采样，使其与得到的图像像素级语义标签数据集合中图像具有相同尺寸。计算两者契合度，契合度大于阈值，则对应的语义即为隐藏层的备选语义，最终统计备选语义中出现次数最多的语义，得到隐藏层的语义。如船头语义出现100次，甲板语义出现50次，则该隐藏层对应的语义为船头。

以代表船头（特定）语义的隐藏层为输入，利用GAN生成二进制掩膜，以二进制掩膜点乘船头语义的隐藏层得到的新隐藏层，重新训练任务分析模型及GAN，当模型稳定时，得到的以二进制掩膜点乘特定语义隐藏层的神经元即为船头语义。将二进制掩膜向量、特定隐藏层位置及语义同时输出，完成神经元与语义对应关系的构建。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种面向深度学习模型的隐语义解释方法，其特征在于，包含如下步骤：

2.根据权利要求1所述的一种面向深度学习模型的隐语义解释方法，其特征在于，步骤1中抽取多源任务数据集中蕴含的人类认知语义，具体为：

3.根据权利要求1所述的一种面向深度学习模型的隐语义解释方法，其特征在于，步骤1中，多源任务数据集包括复杂分析场景中目标识别任务数据、目标轨迹预测任务数据和文本解析任务数据。

4.根据权利要求1所述的一种面向深度学习模型的隐语义解释方法，其特征在于，步骤2具体包括如下步骤：

5.根据权利要求1所述的一种面向深度学习模型的隐语义解释方法，其特征在于，步骤3具体包括如下过程：