CN110598573A

CN110598573A - 一种基于多域异质图引导的视觉问题常识推理模型及方法

Info

Publication number: CN110598573A
Application number: CN201910772828.1A
Authority: CN
Inventors: 王青; 周静文; 余伟江; 梁小丹; 林倞; 肖侬
Original assignee: National Sun Yat Sen University
Current assignee: National University of Defense Technology; Sun Yat Sen University
Priority date: 2019-08-21
Filing date: 2019-08-21
Publication date: 2019-12-20
Anticipated expiration: 2039-08-21
Also published as: CN110598573B

Abstract

本发明公开了一种基于多域异质图引导的视觉问题常识推理模型及方法，所述模型包括：预训练模型初始化单元，利用预训练模型对基础骨架网络和分类器参数进行初始化；视觉信息提取单元，用于利用检测器来提取输入图像的视觉信息的初始特征；上下文投票单元，用于提取全局视觉信息中未被标注的视觉隐含信息结合到视觉信息的局部特征之中；语言特征提取单元，用于利用自然语言预训练模型提取语言部分问题和答案的特征表示；多域特征推理融合单元，用于构造多域异质图，将视觉信息特征和语言信息特征利用多域异质图进行多域特征推理融合获得最终特征表示；分类单元，用于利用分类器对获得的特征处理后进行打分，选取得分高的选项为答案。

Description

一种基于多域异质图引导的视觉问题常识推理模型及方法

技术领域

本发明涉及自然语言处理、图像识别和深度学习等技术领域，特别是涉及一种基于多域异质图引导的视觉问题常识推理模型及方法。

背景技术

视觉问题常识推理任务是对给定的图像和文本问题以及相应的选项进行学习，选出对应问题的正确选项同时能推理出选择这一答案的原因，实现认知推理的关键之一是模型要能够分析出场景中各个物体之间的内在关联。视觉问题常识推理任务的核心内容是从认知的层面去提升视觉问题，即对于输入的有标注图片，根据提出的视觉问题预测出问题的答案同时要预测出选择这一答案的原因，其中包含一条完整的推理路径。这项任务的推理基础是要能在多模态输入的视觉领域和语言(问题和答案)领域进行联合推理得到正确答案选项，同时，也要能给出选择这一选项的推理过程。

然而，现存的大部分推理模型要么基于黑盒子一样的端到端神经网络，而不能提供具有说服力的推理步骤，而是过度依赖过拟合数据偏差来实现准确性的提升，这样的模型不能给模型及其做出的选择充分的可解释性；要么是仅仅考虑类内关系建立图神经网络模型，这样就忽视了跨域融合视觉信息和语言信息同时对齐两种语义信息的可能。但是对于认知领域的问题而言，能够对齐视觉领域和语言领域是能够进行类间关系挖掘的关键，因为对于同域知识信息而言，一般会只使用同质图的关系表征方式，基于同质图的推理会产生信息隔离区。例如，“从中倒液体到中”，在这里存在功能性的动词“倒入”，它和其他词所能表征的视觉信息是不同的，其中都是能再视觉图像中找到相应的对照位置的视觉实体。在这里如果仅仅使用域内同质图就会阻碍两种信息的对齐融合，也就大大限制了模型的正确预测能力。

发明内容

为克服上述现有技术存在的不足，本发明之目的在于提供一种基于多域异质图引导的视觉问题常识推理模型及方法，通过基于异质图学习网络结构(HGL)，对基于语言领域和视觉领域分别建立动态异质图，最终将建好的两个异质图对齐融合形成一个整体特征空间，并基于此特征空间进行常识推理，能够打破语言领域和视觉领域的壁垒，完整融合并对齐任务中涉及到的多种模态信息，高效执行推理流程。

为达上述目的，本发明提出一种基于多域异质图引导的视觉问题常识推理模型，包括：

预训练模型初始化单元，利用预训练模型对基础骨架网络和分类器参数进行初始化；

视觉信息提取单元，用于利用检测器来提取输入图像的视觉信息的初始特征；

上下文投票单元，用于提取全局视觉信息中未被标注的视觉隐含信息结合到视觉信息的局部特征之中；

语言特征提取单元，用于利用自然语言预训练模型提取语言部分问题和答案的特征表示；

多域特征推理融合单元，用于构造多域异质图，将视觉信息特征和语言信息特征利用多域异质图进行多域特征推理融合获得最终特征表示；

分类单元，用于利用分类器对获得的特征处理后进行打分，选取得分高的选项为答案。

优选地，所述视觉信息提取单元进一步包括：

图片获取模块，用于获取有标注信息的图片；

视觉特征提取模块，用于提取所述基础骨架网络的conv4特征层，将已知候选框和特征层输入所述检测器，提取图片中各个候选区域的视觉特征；

优选地，所述上下文投票单元基于全局视角对上下文相关信息进行再提取并补充到局部语义信息当中。

优选地，所述上下文投票单元进行逐像素点投票获得与其相关的像素点并累加相关像素点的特征，以此来强化局部视觉信息。

优选地，所述上下文投票单元通过级联的三次投票选择机制融合上下文中相关位置上的信息对初始视觉特征的局部特征进行增强。

优选地，所述语言特征提取单元进一步包括：

初始语言特征提取模块，用于使用自然语言预训练模型BERT初步提取语言特征；

编码器模块，用于利用双向长短期记忆网络将初步语言特征编码为与视觉特征最低维维度数相等的特征矩阵。

优选地，所述多域特征推理融合单元利用异质图处理多模态特征的能力将视觉特征表示迁移到语言模态并融合答案的特征表示，同时利用异质图将问题和答案的语义特征进行对齐，在分别进行相应的引导机制之后再融合视觉-答案特征和问题-答案特征得到最终的多域推理融合特征。

优选地，所述多域特征推理融合单元进一步包括：

视觉-答案跨域异质图构建模块，用于对所述上下文投票单元和语言特征提取单元获得的视觉特征和答案特征构建视觉-答案跨域异质图，分别将视觉物体特征和答案中的单词特征作为异质图的两种类型节点构建异质图，通过异质图邻接矩阵学习图片中每个物体和答案每个单词之间存在的关联，同时将视觉特征迁移到语言特征，在此过程中，两个领域的特征融合生成提升版的视觉表征Y_o；

第一引导机制模块，用于将视觉-答案跨域异质图构建模块获得的两领域融合特征Y_o通过特定引导机制来生成最终的视觉信息特征Y^v；

问题-答案同域对齐异质图构建模块，用于对所述语言特征提取单元104获得的问题特征和答案特征构建问题-答案同域对齐异质图，分别将问题中的单词特征和答案中的单词特征作为异质图的两种类型节点构建异质图，通过异质图邻接矩阵问题中每个物体和答案每个单词之间存在的关联，同时将问题中的单词特征和答案中的单词特征对齐，在此过程中，两种类型的语言特征对齐融合生成提升版的问题表征Y_q；

第二引导机制模块，用于将所述问题-答案同域对齐异质图构建模块获得的两领域融合特征Y_q通过特定引导机制来生成最终的问题信息特征Y^q；

异质图解析器模块，用于将所述第一引导机制模块和第二引导机制模块得到的视觉特征Y^v和问题特征Y^q通过解析器进行解析融合。

优选地，所述分类单元进一步包括：

特征映射模块，用于将得到的多域推理融合特征通过全连接层映射成一个四维特征向量；

归一化模块，用于将所诉四维特征向量经过一个softmax将得分值压缩到[0,1]之间来归一化得到四个选项的得分值，选取得分最高的选项组为模型的选择结果。

为达到上述目的，本发明还提供一种基于多域异质图引导的视觉问题常识推理方法，包括如下步骤：

步骤S1，利用预训练模型对基础骨架网络和分类器参数进行初始化；

步骤S2，利用检测器提取输入图像的视觉部分信息的初始特征；

步骤S3，利用上下文投票单元提取全局视觉信息中未被标注的视觉隐含信息结合到视觉信息的局部特征之中；

步骤S4，利用自然语言预训练模型提取语言部分问题和答案的特征表示；

步骤S5，构造多域异质图，将视觉信息和语言信息利用多域异质图进行多域特征推理融合获得最终特征表示；

步骤S6，利用分类器对获得的特征处理后进行打分，选取得分高的选项为答案。

与现有技术相比，本发明一种基于多域异质图引导的视觉问题常识推理模型及方法实现了可解释的视觉问题常识推理系统，其遵循由异质图结构引导语言领域和视觉领域知识的无缝融合同时包含一个上下文投票模块来拓宽全局推理的感知区域，增强了上下文信息理解；本发明通过视觉-语言跨域异质图模块和问题-答案同域对齐异质图模块来分别对视觉领域和语言领域进行语义对齐操作，再利用异质图推理和综合特征引导机制分别对两个模块进行联合推理，最后，把联合推理得到的融合特征进行加权融合，从而得到最终的增强特征。

附图说明

图1为本发明一种基于多域异质图引导的视觉问题常识推理模型的系统架构图；

图2为本发明具体实施例中基于异质图引导的视觉问题常识推理模型的整体网络框架示意图；

图3为本发明一种基于多域异质图引导的视觉问题常识推理方法的步骤流程图；

图4为本发明具体实施例中基于异质图引导的视觉问题常识推理模型的上下文投票模块(CVM)效果说明图。

图5为本发明具体实施例中基于异质图引导的视觉问题常识推理模型的异质图网络结构图。

具体实施方式

以下通过特定的具体实例并结合附图说明本发明的实施方式，本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用，本说明书中的各项细节亦可基于不同观点与应用，在不背离本发明的精神下进行各种修饰与变更。

图1为本发明一种基于多域异质图引导的视觉问题常识推理模型的系统架构图，图2为本发明具体实施例中基于异质图引导的视觉问题常识推理模型的整体网络框架示意图。如图1及图2所示，本发明一种基于多域异质图引导的视觉问题常识推理模型，包括：

预训练模型初始化单元101，利用预训练模型对基础骨架网络和分类器参数进行初始化。

具体地，预训练模型初始化单元101使用的基础骨架网络选用残差网络ResNet-50，利用大型数据集ImageNet上预训练的卷积神经网络模型参数来进行初始化。

在本发明中，模型的基础骨架网络F的输入由三部分组成，分别是关于图像I的物体区域集合问题单词集合答案单词集合根据已知特征构建的异质图节点定义分别为其中，可以代表独立存在的d维物体特征向量，问题单词特征向量和答案单词特征向量，N,M,B则分别表示图片中物体数量，问题句子中单词数量和答案句子中单词数量，将它们分别进行级联表示成矩阵形式就分别成为了本发明网络模型的三种特征输入X_o∈R^N×d，X_q∈R^M×d，X_a∈R^B×d，最终模型输出一个对4个备选答案各自的打分的四维向量Y_a∈R⁴，最终选择得分最高的选项作为答案。

视觉信息提取单元102，用于利用基于传统检测模型(Fast-RCNN)的检测器来提取输入图像的视觉部分信息的初始特征。

具体地，视觉信息提取单元102进一步包括：

图片获取模块，用于获取有标注信息的图片。也就是说，将原始图像以及其对应的标注信息一起输入网络当中。

视觉特征提取模块，提取骨架网络的conv4特征层，将已知候选框和特征层输入检测模块，提取图片中各个候选区域的视觉特征。进一步地，将检测模块的输出经过一个ROI对齐操作，对齐初始视觉特征。

上下文投票单元103，用于提取全局视觉信息中未被标注的视觉隐含信息结合到视觉信息的局部特征之中。

为了更好的获得局部区域的上下文信息，例如，“下雨”，“下雪”，“湿”这种在形态上很不固定，且一般不会被标注出来的特殊存在物体也会出现在语句当中，为了使模型能够很好的处理这种情况，本发明引入了上下文投票单元(CVM)来获得并融合上下文中的相关部分特征来增强局部特征的表征能力，提升模型对未标注部分的敏感程度。

在本发明中上下文投票单元103的作用是以全局视角来补充信息到局部信息当中，以弥补形态不固定背景的未标注情况，其具体实施过程可表示为：

其中分别是第l层卷积层的输入和输出，代表j位置上和相关位置上的图像内容，对于任意位置i都会针对全局学习相关关系同时选择最为相关的位置特征进行融合，其中W^a,都是可训练更新矩阵，函数f,g,都是1×1卷积操作。

具体地说，上下文投票单元103，进一步包括：

局部相关特征选取模块，用于在全局视角下，利用投票机制来选取得分最高也就是最相关部分像素点的特征。

局部特征增强模块，用于利用将得分最高的特征融合到局部特征上，这样，局部特征融合了全局特征。

优选地，上下文投票单元103通过级联的三次投票选择机制融合上下文中相关位置上的信息对局部特征进行增强，即利用连续3层上下文投票操作对邻近像素点打分并融合得分最高的邻近像素点特征信息以结合全局信息，增强局部特征表征能力。

语言特征提取单元104，利用自然语言预训练模型提取语言部分问题和答案的特征表示，在本发明具体实施例中，语言特征提取单元104使用BERT预训练模型提取语言部分问题和答案的特征表示

具体地，语言特征提取单元104进一步包括：

初始语言特征提取模块，用于使用现有的自然语言预训练模型BERT初步提取语言特征，具体地，将原始问题和答案选项输入BERT预训练模型得到提取的初始语言特征，输入嵌入表示之后的问题和答案选项，得到问题和答案的特征表示集合其中M，B分别表示问题句子和答案句子中单词的个数，并将集合中的特征级联表示为：X_q∈R^M×d，X_a∈R^B×d。

编码器模块，在经过BERT模型提取特征后将初始语言特征再输入一个双向长短期记忆网络得到词编码向量Q,A。具体来说，问题中的每个单词首先被编码成一个768维向量，进一步地，将问题单词向量逐个输入到双向长短期记忆网络中被处理成和O向量维度相同的d＝512的单词向量，本发明中，统一了视觉和语言的特征表示长度。

多域特征推理融合单元105，用于构造多域异质图，将视觉信息和语言信息利用多域异质图进行多域特征推理融合获得最终特征表示。在本发明具体实施例中，多域特征推理融合单元105利用异质图处理多模态特征的能力将视觉特征表示迁移到语言模态并融合答案的特征表示，同时利用异质图将问题和答案的语义特征进行对齐，在分别进行相应的引导机制之后再融合视觉-答案特征和问题-答案特征得到最终的多域推理融合特征。

也就是说，本发明将两个领域的三种信息输入多域特征推理融合单元105，分别是将视觉特征、语言特征中的问题特征与答案选项特征结合构建视觉-回答跨域异质图和问题-答案同域对齐异质图，并将两个异质图通过引导机制进行协作推理并融合，就得到最终需要的全体异质图，基于全体异质图执行全局推理：1)提问到回答部分(Q->A)：输入图像和问题以及问题的答案；2)回答到推理部分(QA->R)：输入图像和正确答案以及对应的四个推理原因选项。最终本发明在任务给定的选择空间中动态建立并更新异质图网络结构，然后通过推理异质图选择出一个从答案到选择原因的合理推理路径。值得注意的是，与以前的方法相比，本发明旨在建立一个通用且可解释的有效结合对齐视觉领域和语言领域的视觉常识推理框架，它不需要任何复杂的手工规则或实况注释来获得特定的布局

具体地，多域特征推理融合单元105进一步包括：

视觉-答案跨域异质图构建模块，用于对上下文投票单元103和语言特征提取单元104获得的视觉特征和答案特征构建视觉-答案跨域异质图，分别将视觉物体特征和答案中的单词特征作为异质图的两种类型节点构建异质图，通过异质图邻接矩阵学习图片中每个物体和答案每个单词之间存在的关联，同时将视觉特征迁移到语言特征，在这个过程中，两个领域的特征融合生成提升版的视觉表征Y_o。

第一引导机制模块，用于将视觉-答案跨域异质图构建模块获得的两领域融合特征Y_o通过特定引导机制来生成最终的视觉信息特征Y^v。

问题-答案同域对齐异质图构建模块，对语言特征提取单元104获得的问题特征和答案特征构建问题-答案同域对齐异质图，分别将问题中的单词特征和答案中的单词特征作为异质图的两种类型节点构建异质图，通过异质图邻接矩阵问题中每个物体和答案每个单词之间存在的关联，同时将问题中的单词特征和答案中的单词特征对齐，在这个过程中，两种类型的语言特征对齐融合生成提升版的问题表征Y_q。

第二引导机制模块，用于将问题-答案同域对齐异质图构建模块获得的两领域融合特征Y_q通过特定引导机制来生成最终的问题信息特征Y^q。

异质图解析器模块,用于将第一引导机制模块和第二引导机制模块得到的视觉特征Y^v和问题特征Y^q通过解析器进行解析融合，在这里解析器组成为二者矩阵加后再接一个全连接层操作，得到的特征也就是最终的融合推理特征。

分类单元106，用于分类备选答案，做出模型选择。在本发明具体实施例中，分类单元106通过对获得的特征处理后进行打分，选取得分高的选项为答案。

具体来说，分类单元106进一步包括：

特征映射模块，用于将得到的多域推理融合特征通过全连接层映射成一个四维特征向量。

归一化模块，用于将四维特征向量经过一个softmax将得分值压缩到[0,1]之间来归一化得到四个选项的得分值，选取得分最高的选项组为模型的选择。

优选地，本发明使用多类交叉熵损失函数对于分类的损失(loss)反向传播来更新模型参数，由于利用损失函数更新模型参数为常用技术手段，因此具体的更新过程在此不予赘述。

图3为本发明一种基于多域异质图引导的视觉问题常识推理方法的步骤流程图。如图3所示，本发明一种基于多域异质图引导的视觉问题常识推理方法，包括如下步骤：

步骤S1，利用预训练模型对基础骨架网络和分类器参数进行初始化。

具体地，使用在大型数据集ImageNet上预先训练的卷积神经网络模型参数来初始化本发明的基础骨架网络参数，本发明使用的基础骨架网络选用残差网络ResNet-50。

步骤S2，利用基于传统检测模型(Fast-RCNN)的检测器提取输入图像的视觉部分信息的初始特征。

具体地，步骤S2进一步包括：

步骤S200，获取有标注信息的图片。也就是说，将原始图像以及其对应的标注信息一起输入网络当中。

步骤S201，提取经过骨架网络后的conv4层特征，将图片对应的标注信息，例如候选框及分类标注，物体分割标注输入检测模块，提取图片的初始视觉特征。进一步地，对检测模块的输出经过一个ROI对齐操作后，提取初始视觉特征。

步骤S3，利用上下文投票单元提取全局视觉信息中未被标注的视觉隐含信息结合到视觉信息的局部特征之中。

具体地，在网络基础骨架卷积神经网络读取初始视觉特征之后接上下文投票单元，以下简称CVM，来增强视觉特征。为了更好的融合上下文视觉信息，在这里进行逐像素点的上下文特征捕捉，这样做可以强化值得关注区域同时弱化不重要部分有助于模型关注到重要的未标注背景信息，例如“下雪”，“湿”这类形态不固定信息，且一般不会被标注出来的特殊存在物体也会出现在语句当中，为了使模型能够很好的处理这种情况，本发明引入了上下文投票单元(CVM)来获得并融合上下文中的相关部分特征来增强局部特征的表征能力，提升模型对未标注部分的敏感程度。如图4所示，箭头指向的部位可视化出了模型中关注的未标注出的全局语义信息，通过可视化图可以发现，与baseline可视化效果相比，CVM单元将值得注意的部分特征更加突出，而不算重要的部分进行了弱化。这对于接下来的视觉和语言部分信息的融合具有积极作用。

步骤S4，利用自然语言预训练模型提取语言部分问题和答案的特征表示，在本发明具体实施例中，使用BERT预训练模型提取语言部分问题和答案的特征表示

具体地，步骤S4进一步包括：

步骤S400，使用现有的自然语言预训练模型BERT初步提取语言特征，具体地，将原始问题和答案选项输入BERT预训练模型得到提取的初始语言特征，输入嵌入表示之后的问题和答案选项，得到问题和答案的特征表示集合其中M，B分别表示问题句子和答案句子中单词的个数，并将集合中的特征级联表示为：X_q∈R^M×d，X_a∈R^B×d。

步骤S401，在经过BERT模型提取特征后将初始语言特征再输入一个双向长短期记忆网络得到词编码向量Q,A。具体来说，问题中的每个单词首先被编码成一个768维向量，进一步地，将问题单词向量逐个输入到双向长短期记忆网络中被处理成和O向量维度相同的d＝512的单词向量，本发明中，统一了视觉和语言的特征表示长度。

步骤S5，构造多域异质图，将视觉信息和语言信息利用多域异质图进行多域特征推理融合获得最终特征表示。在本发明具体实施例中，利用异质图处理多模态特征的能力将视觉特征表示迁移到语言模态并融合答案的特征表示，同时利用异质图将问题和答案的语义特征进行对齐，在分别进行相应的引导机制之后再融合视觉-答案特征和问题-答案特征得到最终的多域推理融合特征。

具体地，步骤S5进一步包括：

步骤S500，对步骤S3和步骤S4获得的视觉特征和答案特征构建视觉-答案跨域异质图，分别将视觉物体特征和答案中的单词特征作为异质图的两种类型节点构建异质图，通过异质图邻接矩阵学习图片中每个物体和答案每个单词之间存在的关联，同时将视觉特征迁移到语言特征，在这个过程中，两个领域的特征融合生成提升版的视觉表征Y_o。

步骤S501，将步骤S500获得的两领域融合特征Y_o通过特定引导机制来生成最终的视觉信息特征Y^v。

步骤S502，对步骤S4获得的问题特征和答案特征构建问题-答案同域对齐异质图，分别将问题中的单词特征和答案中的单词特征作为异质图的两种类型节点构建异质图，通过异质图邻接矩阵问题中每个物体和答案每个单词之间存在的关联，同时将问题中的单词特征和答案中的单词特征对齐，在这个过程中，两种类型的语言特征对齐融合生成提升版的问题表征Y_q。

步骤S503，将步骤S502获得的两领域融合特征Y_q通过特定引导机制来生成最终的问题信息特征Y^q。

步骤S504，将步骤S502和步骤S503得到的视觉特征Y^v和问题特征Y^q通过解析器进行解析融合，在这里解析器组成为二者矩阵加后再接一个全连接层操作，得到的特征也就是最终的融合推理特征。

步骤S6，对获得的特征处理后进行打分，选取得分高的选项为答案。

具体来说，步骤S6进一步包括：

步骤S600，将得到的多域推理融合特征通过全连接层映射成一个四维特征向量。

步骤S601，将四维特征向量经过一个softmax将得分值压缩到[0,1]之间来归一化得到四个选项的得分值，选取得分最高的选项组为模型的选择。

实施例：

以下将配合图5通过具体实施的网络结构变化来说明本发明：在本发明具体实施例中，通过构建并更新融合两个异质图来最终融合视觉领域和语言领域信息得到最终的融合特征。具体过程如下：

在进行异质图构建的介绍之前，使用上下文投票模块(CVM)增强视觉信息：

(1)上下文投票单元(CVM)(即图2中的(a)部分)

具体来说，根据视觉特征和语言特征分别建视觉-答案跨域异质图和问题-答案同域对齐异质图，通过异质图推理模块和相应的引导机制融合特征后进行分类获得最终的推理结果。

本单元的作用是以全局视角来补充信息到局部信息当中，弥补形态不固定背景的未标注情况，具体实施过程可表示为：

其中分别是第l层卷积层的输入和输出，代表j位置上和相关位置上的图像内容。对于任意位置i都会针对全局学习相关关系同时选择最为相关的位置特征进行融合。其中W^a,都是可训练更新矩阵，函数f,g,都是1×1卷积操作。

然后，则进行异质图的构建，本发明要建立两个异质图，分别是视觉-答案跨域异质图和问题-答案同域对齐异质图。

(2)视觉-答案跨域异质图(VAHG)的构建与更新(图5上半部分虚线框内)

具体而言，视觉-答案跨域异质图构建模块中，主要进行的是对视觉信息进行处理对齐到基于答案的语言特征当中，主要使用的是基于异质图神经网络的学习方法，首先会经过异质图推理，而后在特定引导机制的指导下生成对齐后的视觉特征。

异质图推理具体如下：

Y_o＝δ(A^TX_oW_o) (4)

即，对于输入的初始视觉特征X_o，利用异质图邻接矩阵A联结传播不同的异质图节点信息，此时得到提升版的视觉表征Y_o。

第一引导机制模块：

具体而言，引导机制中会通过两个步骤来生成最终的视觉信息特征Y^v。主要对得到的提升版视觉表征Y_o进行处理与答案的语言特征表示X_a相结合。引导机制主要分两步进行：

第一步，利用单词级别的注意力值生成一个中间级别的单词特征表示X_middle，具体过程为：

X_a'＝F(X_a) (6)

X_middle＝f([X_m,Y_o]) (8)

其中，F是视觉引导函数MLP对语言特征X_a进行编码，a_n是单词级别的带权注意力值，在这里x_a'∈X_a'，最终得到的x_m组成X_m。将X_m与Y_O进行级联再经过一个MLP的f函数，这样就得到了注意力值强化后的视觉-答案中间特征信息X_middle。

第二步，将第一步生成的基于注意力强化后的X_middle与视觉特征Y_o通过多种映射矩阵来更好的结合X_middle和Y_o，具体流程如下：

Y^v＝ψ(φ(Y_oW_o'+X_middleW_a)W) (9)

其中W_o',W_a都是可学习的特征对齐矩阵，将语言领域和视觉领域的特征更好的融合。ψ，φ均为视觉引导函数(例如MLP)，融合之后的特征再乘上一个W矩阵，将特征维度映射到目标值。至此，就获得了视觉到答案的引导后特征Y^v。

(3)问题-答案同域对齐异质图(QAHG)的构建与更新(图5下半部分虚线框内)

问题-答案同域对齐异质图构建如图5所示，与视觉-答案跨域异质图的处理方法大致相同，都要经过异质图推理和相应的引导机制，在这里会获得Y^q。

具体而言，在问题-答案同域对齐异质图中，与视觉-答案跨域异质图使用的构建流程相似，不同在于，在这里基于语言领域对问题特征和答案特征进行域内对齐操作。模块的输入是问题X_q和侯选答案X_a。处理过程中的邻接矩阵替换成问题和答案对应的关系矩阵。最终获得问题到答案的引导后特征Y^q。

(4)异质图解析器模块(图5中两虚线框之后的操作)

进一步地，在构建好两种类型异质图之后，会得到基于答案特征生成的两种引导后的特征引导后视觉特征Y^v和引导后文体特征Y^q。紧接着需要将两种特征进行解析融合得到需要的Y^a来进一步进行分类，解析器形式如下：

Y^a＝F(w^oY^v+w^qY^q) (10)

其中，W^o,W^q是根据原始输入的视觉和问题特征得到的重要性矩阵，使用点乘的形式将重要性叠加到获得的Y^v和Y^v之上，有助于更好的注意到重要的特征位置。

然后，经过一个线性映射模块F(例如全连接层)将维度映射到四维，再通过softmax将得到的四维向量归一化，就得到了本发明最终需要的待分类Y^a得分，本发明会选取得分最高的选项作为模型选择。具体地，本发明会使用多类交叉熵损失函数来更新网络参数权重。

可见，本发明一种基于多域异质图引导的视觉问题常识推理模型及方法实现了可解释的视觉问题常识推理系统，其遵循由异质图结构引导语言领域和视觉领域知识的无缝融合同时包含一个上下文投票模块来拓宽全局推理的感知区域，增强了上下文信息理解；本发明通过视觉-语言跨域异质图模块和问题-答案同域对齐异质图模块来分别对视觉领域和语言领域进行语义对齐操作，再利用异质图推理和综合特征引导机制分别对两个模块进行联合推理，最后，把联合推理得到的融合特征进行加权融合，从而得到最终的增强特征，本发明能够打破语言领域和视觉领域的壁垒，完整融合并对齐任务中涉及到的多种模态信息，高效执行推理流程，而不是像之前的工作那样受限于同质图内推理或者对两种领域的信息进行简单级联没有考虑到信息的对齐过程，本发明对基于语言领域和视觉领域分别建立动态异质图，最终将建好的两个异质图对齐融合形成一个整体特征空间，并基于此特征空间进行实现常识推理，本发明的推理过程可进行可视化，具有很强的可解释性。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下，对上述实施例进行修饰与改变。因此，本发明的权利保护范围，应如权利要求书所列。

Claims

1.一种基于多域异质图引导的视觉问题常识推理模型，包括：

2.如权利要求1所述的一种基于多域异质图引导的视觉问题常识推理模型，其特征在于，所述视觉信息提取单元进一步包括：

图片获取模块，用于获取有标注信息的图片；

视觉特征提取模块，用于提取所述基础骨架网络的conv4特征层，将已知候选框和特征层输入所述检测器，提取图片中各个候选区域的视觉特征。

3.如权利要求1所述的一种基于多域异质图引导的视觉问题常识推理模型，其特征在于：所述上下文投票单元基于全局视角对上下文相关信息进行再提取并补充到局部语义信息当中。

4.如权利要求3所述的一种基于多域异质图引导的视觉问题常识推理模型，其特征在于：所述上下文投票单元进行逐像素点投票获得与其相关的像素点并累加相关像素点的特征，以此来强化局部视觉信息。

5.如权利要求4所述的一种基于多域异质图引导的视觉问题常识推理模型，其特征在于：所述上下文投票单元通过级联的三次投票选择机制融合上下文中相关位置上的信息对初始视觉特征的局部特征进行增强。

6.如权利要求1所述的一种基于多域异质图引导的视觉问题常识推理模型，其特征在于，所述语言特征提取单元进一步包括：

初始语言特征提取模块，用于使用自然语言预训练模型BERT初步提取初始语言特征；

编码器模块，用于利用双向长短期记忆网络将初始语言特征编码为与视觉特征最低维维度数相等的特征矩阵。

7.如权利要求1所述的一种基于多域异质图引导的视觉问题常识推理模型，其特征在于：所述多域特征推理融合单元利用异质图处理多模态特征的能力将视觉特征表示迁移到语言模态并融合答案的特征表示，同时利用异质图将问题和答案的语义特征进行对齐，在分别进行相应的引导机制之后再融合视觉-答案特征和问题-答案特征得到最终的多域推理融合特征。

8.如权利要求7所述的一种基于多域异质图引导的视觉问题常识推理模型，其特征在于，所述多域特征推理融合单元进一步包括：

9.如权利要求1所述的一种基于多域异质图引导的视觉问题常识推理模型，其特征在于，所述分类单元进一步包括：

10.一种基于多域异质图引导的视觉问题常识推理方法，包括如下步骤：