CN116704198A

CN116704198A - 一种基于多模态信息引导的知识增强视觉问答方法

Info

Publication number: CN116704198A
Application number: CN202210174858.4A
Authority: CN
Inventors: 张文强; 王建峰; 王昊奋; 李紫延; 张安达
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2022-02-24
Filing date: 2022-02-24
Publication date: 2023-09-05

Abstract

本发明公开了一种基于多模态信息引导的知识增强视觉问答方法，具有这样的特征，包括以下步骤：步骤1，构建图像的全局视觉模态特征并提取视觉模态信息；步骤2，基于所述视觉模态信息的问题实体进行注意力操作，提取需要引入外部知识的所述问题实体，并对提取的所述问题进行知识引入，得到增强问题；步骤3，将增强问题的编码为推理指令，以图卷积网络的方法在图像生成的场景图中以推理指令为引导进行推理，最后获取相应的答案。

Description

一种基于多模态信息引导的知识增强视觉问答方法

技术领域

本发明涉及计算机视觉问答技术领域，具体涉及一种基于多模态信息引导的知识增强视觉问答方法。

背景技术

视觉问答是一种多模态信息处理技术，涉及到自然语言处理及计算机视觉等相关领域的研究，是一个典型的多模态分析推理任务，其可以应用在不同的领域，包括视觉障碍辅助、辅助诊断等领域。现有的大部分视觉问答模型专注于分析数据集中所包含的现有信息，包括问题、图片及答案信息，而这些信息是不足以完全覆盖回答问题所需的全部知识，人们在回答问题时会自动联想到与之相关的先验知识，而模型因为缺乏这些常识知识而不能准确的回答出这类问题，因此对于这类问题，需要引入外部知识进行信息的补全，这也是获取通用的视觉问答系统所必须的。

现有的一些涉及外部知识的视觉问答工作主要分为下面几种类型：第一种是构造与问题和答案相关的事实三元组，作为数据集的一部分，并通过问题图片编码生成查询语句，在事实数据集中检索事实三元组，作为候选答案进行筛选，这种研究方法获取相关外部知识的方式比较单一，无法很好的覆盖复杂结构下的外部知识信息。

第二种是基于大规模的外部知识检索方法的知识引入视觉问答方法，通过图片和问题抽取相应的概念，再通过这些概念多个外部知识库检索相应的结构化及非结构化知识，这类方法通过在视觉问答的不同阶段融入一些检索到的知识，以此来回答需要外部知识的问题，这类方法主要通过搜索引擎等服务支持来进行外部知识检索，引入的知识比较粗糙，没有经过细粒度的选择，最终将引入噪声。

第三种是通过结构化图片概念，并依据外部知识构建视觉概念的相关属性及概念间的关系，然后通过以问题引导的方式在结构化视觉概念网络上进行推理，关注到与正确答案最相关的视觉概念实体上，以获得最终的答案，这种方法在视觉模态引入了部分外部知识，且推理过程是显式的，但是其没有很好的处理模态之间的信息交互，且外部知识的引入没有考虑到问题对知识需求的作用，不能很好的理解问题的语义信息。

综上可以看到现有的方法存在的一些问题：引入的知识内容单一，一般是以三元组或者对应的事实实体的嵌入特征方式引入，没有考虑复杂关联的外部知识关联方式，而大规模检索的方式引入非细粒度知识带来了噪声，单一模态的外部知识引入没有考虑到模态间的信息互补与相互引导，模型不能全面的参考多模态信息以对外部知识进行引入。

发明内容

本发明是为了解决上述问题而进行的，目的在于提供一种基于多模态信息引导的知识增强视觉问答方法。

本发明提供了一种基于多模态信息引导的知识增强视觉问答方法，具有这样的特征，包括以下步骤：步骤1，构建图像的全局视觉模态特征并提取视觉模态信息；步骤2，基于视觉模态信息的问题进行注意力操作，提取需要引入外部知识的问题实体，并对提取的问题实体进行知识引入，得到增强问题；步骤3，将增强问题的编码为推理指令，以图卷积网络的方法在图像生成的场景图中以推理指令为引导进行推理，最后获取相应的答案。

在本发明提供的基于多模态信息引导的知识增强视觉问答方法中，还可以具有这样的特征：其中，步骤1包括以下步骤：步骤1-1，输入原始彩色图像I，并对图像I进行裁剪及缩放；步骤1-2，采用VGG16预训练模型的特征层对图像I进行特征提取，获得提取后的图像特征I_n；步骤1-3，以提取的图像特征I_n作为视觉模态信息I_v。

在本发明提供的基于多模态信息引导的知识增强视觉问答方法中，还可以具有这样的特征：其中，步骤2包括以下步骤：步骤2-1，将提取的视觉模态信息I_v进行特征空间转换得到视觉信息I_p，映射到问题q对应空间；步骤2-2，基于视觉信息I_p对问题q进行注意力操作，获得需补充外部信息的实体E；步骤2-3，对实体E中的实体引入外部知识k_e，将嵌入后的知识特征空间转换后进行合并得到增强问题q_k。

在本发明提供的基于多模态信息引导的知识增强视觉问答方法中，还可以具有这样的特征：其中，步骤3包括以下步骤：步骤3-1，对于视觉模态信息I_v，通过DETR生成场景图，以获取图中视觉实体及实体间相关信息；步骤3-2，将增强问题q_k进行编码，获取问题推理所需指令；步骤3-3，在指令的引导下，利用图卷积网络，通过问题引导方式对场景图进行推理，获得相应的答案。

在本发明提供的基于多模态信息引导的知识增强视觉问答方法中，还可以具有这样的特征：其中，步骤1-2包括以下步骤：步骤1-2-1，计算通过预训练模型VGG16的特征层提取的图像I的全局信息：在图像I上，对于每一个区域像素L，采用不同感受野的卷积网络和池化网络最大池化操作对图像特征I_n进行提取,获取7*7*512维度的特征；步骤1-2-2，利用平均池化层和全连接层对图像特征I_n进行进一步的提取和压缩，获取大小为4096的一维向量的图像特征I_v。

在本发明提供的基于多模态信息引导的知识增强视觉问答方法中，还可以具有这样的特征：其中，步骤2-2包括以下步骤：步骤2-2-1，将提取的图像特征I_n通过多层感知机网络进行空间转换映射为视觉信息I_p,使得其与问题编码空间保持一致；步骤2-2-2，将视觉信息I_p连接到问题特征q_I中，t_vi＝[t_i,I_p],其中t_i为问题中每一个实体特征,然后对基于视觉信息特征的q_v进行注意力操作，以获取需要补充外部知识的实体E。

在本发明提供的基于多模态信息引导的知识增强视觉问答方法中，还可以具有这样的特征：其中，步骤2-3的具体过程为：对实体E中的实体e_i，查询对应的外部知识，获得相应的外部知识嵌入的高维向量k_e，并通过多层感知网络将k_e进行特征空间转换映射为k_ep，之后将k_ep融合到对应的e_i特征中。

在本发明提供的基于多模态信息引导的知识增强视觉问答方法中，还可以具有这样的特征：其中，步骤3-1的具体过程为：采用DETR进行场景图生成，首先通过图卷积网络对图片进行特征提取，其次对图像的位置信息进行编码，其次将两者进行序列化后相加，送入Transformer网络进行编码和解码,最后使用前馈网络进行类别及物体边界框预测。

在本发明提供的基于多模态信息引导的知识增强视觉问答方法中，还可以具有这样的特征：其中，步骤3-2的具体过程为：对步骤2-2-2中融入了外部知识的问题特征q_I＝[q₁,q₂,…,q_n]向量，通过Transformer进行编码，编码为M个指令向量。

在本发明提供的基于多模态信息引导的知识增强视觉问答方法中，还可以具有这样的特征：其中，步骤3-3包括以下步骤：步骤3-3-1，对于步骤3-1中所生成的场景图，使用基于注意力机制的图卷积网络进行推理，推理过程中依据步骤3-2中所生成的问题指令进行引导：步骤3-3-2，对于场景图中的对象节点及其属性和边进行编码，获取相应的特征向量，属性的特征向量加入到节点特征向量中，基于节点及边特征向量构建场景图结构；步骤3-3-3，在注意力图卷积神经网络上基于问题指令引导进行图卷积推理操作，其中指令的引导方式为：先通过转换特征空间矩阵W_i进行空间变换获得I_np，保持与图中特征向量相同的维度，然后将I_np与节点及边进行拼接，获得融入了指令的节点和边，然后基于图注意力的方式进行图卷积操作，最后获得图中所有节点的输出特征向量，在所有节点上做最大池化操作，获得图卷积运算的最后输出特征，然后通过全连接层映射到对于的答案类别，获取最终的预测答案。

发明的作用与效果

根据本发明所涉及的基于多模态信息引导的知识增强视觉问答方法，因为具体步骤为：步骤1，构建图像的全局视觉模态特征并提取视觉模态信息；步骤2，基于视觉模态信息的问题进行注意力操作，提取需要引入外部知识的问题实体，并对提取的问题实体进行知识引入，得到增强问题；步骤3，将增强问题的编码为推理指令，以图卷积网络的方法在图像生成的场景图中以推理指令为引导进行推理，最后获取相应的答案。

因此，本发明通过构造图片的全局特征，然后利用多模态信息引导的外部知识引入，通过对融合了视觉模态特征的问题执行注意力操作，获取需要补充事实或常识等外部知识的实体，并通过对应实体查询聚合了子图信息的外部知识实体特征，将外部知识实体特征融合到问题特征中，将问题特征编码为对应指令，并基于问题指令在图片所提取的场景图上通过注意力图卷积网络进行视觉实体节点更新，将最后的视觉实体节点进行答案空间的概率映射，以概率最大的答案为问题答案。本发明在基于图片信息及问题信息的多模态信息引导下的外部知识引入，通过更细粒度的外部知识引入，通过外部知识增强提高了模型的泛化能力，获得更高的答案准确率。

附图说明

图1是本发明的实施例中基于多模态信息引导的知识增强视觉问答方法流程图；

图2是本发明的实施例中基于多模态信息引导的知识增强视觉问答方法的总流程框图；

图3是本发明的实施例中的多模态信息引导的外部知识引入流程图；

图4是本发明的实施例中的基于知识增强的视觉问答过程图；

图5是本发明的实施例中的问题指令编码流程图；

图6是本发明的实施例中的场景图提取的流程图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，以下实施例结合附图对本发明一种基于多模态信息引导的知识增强视觉问答方法作具体阐述。

在本实施例中，提供了一种基于多模态信息引导的知识增强视觉问答方法，该方法参考了图片和问题的信息，针对外部知识进行引入，提供更加精准和细粒度的方式引入外部知识。

图1是本实施例中基于多模态信息引导的知识增强视觉问答方法流程图。

图1是本实施例中基于多模态信息引导的知识增强视觉问答方法的总流程框图。

如图1～图2所示，本实施例所涉及的基于多模态信息引导的知识增强视觉问答方法包括以下步骤：

步骤S1，构建图像的全局视觉模态特征并提取视觉模态信息。

图3本实施例中的多模态信息引导的外部知识引入流程图。

如图3(a)部分所示，本实施例中步骤S1包括以下步骤：

步骤S1-1，输入原始彩色图像I，并对图像I进行裁剪及缩放。

步骤S1-2，采用VGG16预训练模型的特征层对图像I进行特征提取，获得提取后的图像特征I_n。具体实施方式为：

步骤S1-2-1，计算通过预训练模型VGG16的特征层提取的图像I的全局信息：在图像I上，对于每一个区域像素L，采用不同感受野的卷积网络和池化网络最大池化操作对图像特征I_n进行提取,获取7*7*512维度的特征。

步骤S1-2-2，利用平均池化层和全连接层对图像特征I_n进行进一步的提取和压缩，获取大小为4096的一维向量的图像特征I_v。

步骤S2，如图3(b)、(c)部分所示，基于视觉模态信息的问题进行注意力操作，提取需要引入外部知识的问题实体，并对提取的问题实体进行知识引入，得到增强问题。具体实施方式为：

步骤S2-1，将提取的视觉模态信息I_v进行特征空间转换得到视觉信息I_p，映射到问题q对应空间，其具体步骤如下：

对经过特征提取的图像特征进行信息压缩：经过卷积层及池化层处理之后的图像特征14*14*512维度，通过平均池化及一层全连接层压缩为一维向量：

I_7*7*512＝AvgPooling_7*7(I_n)

I_v＝FC₄₀₉₆(I_7*7*512)

其中,I_n为预训练模型提取的特征，维度为14*14*512，为了获取图片整体的视觉信息，I_v为通过全连接层映射为4096的一维特征向量。

利用MLP对视觉特征进行映射转换，将I_v映射到与问题编码一致的特征空间：

I_p＝MLP(I_v)

其中，I_v为经过预训练模型提取后的特征，I_p为视觉特征转换后的特征，维度d＝300。

步骤S2-2，基于视觉信息I_p对问题q进行注意力操作，获得需补充外部信息的实体E。具体实施方式为：

在综合图像全局视觉特征I_p的基础上，对嵌入后的问题特征q_I＝[t₀,t₁,…,t_n]进行注意力操作，其具体步骤如下：

将图像特征融合到问题特征q_I中，操作如下；

t_vi＝concat(t_i,I_p)

其中t_i∈q_o，将特征拼接为600维度，获得融合了图全局信息的问题特征q_v，t_vi为融合了视觉模态特征的问题实体。

对融合了视觉特征的问题特征q_v执行注意力操作，操作如下：

其中Q、K的值为q_v经过矩阵W_Q,W_K转换之后的映射向量。

步骤S2-3，对实体E中的实体引入外部知识k_e，将嵌入后的知识特征空间转换后进行合并得到增强问题q_k。

对经过注意力计算后的q_s，选取其中概率值最高的前m个实体引入相应的知识，操作如下：

选取经过注意力操作之后获得的前m个注意力分数表示的概率对应的问题实体：

t_m＝Top_m(qs)

其中q_s为问题中实体的注意力概率，t_m为选取的前m个问题实体。

对选取的前m个问题实体进行外部知识查询，获取对应的外部知识特征向量：

k_em＝ConceptNet_{GCN-embedding}(t_m)

对外部知识特征进行特征空间映射转换，并将其融合到对应的实体中：

其中k_em为外部知识库经过图卷积方式嵌入之后的关联实体信息，t_m为选取的对应实体，表示向量相加，k_em是知识图谱数据库中聚合了知识图谱结构中局部子图相关联的信息，相比单一的实体引入具有更加丰富的知识信息，然后将查询到的m个相关外部知识库的实体特征映射到问题特征空间中，并将其以加合的方式融入问题特征中得到知识信息增强的融合表征q_k。

图4是本实施例中的基于知识增强的视觉问答过程图。

步骤S3，如图4所示，将增强问题的编码为推理指令，以图卷积网络的方法在图像生成的场景图中以推理指令为引导进行推理，最后获取相应的答案。

其中，包括以下步骤：

步骤S3-1，对于视觉模态信息I_v，通过DETR生成场景图，以获取图中视觉实体及实体间相关信息。具体过程为：

使用ResNet网络作为骨干网络对原始图像特征进行抽取获得图片的特征,然后将其降维之后与空间位置特征编码相加，然后送到DETR编码器中进行编码，获得对N个物体编码之后的特征。

将编码结果输入到DETR解码器中，类似于Transformer的解码结构，不同的是每一层都输出结果并计算损失，并且加入了可学习的位置嵌入，并在最后一层解码器后连接接了两个前馈网络，分别预测检测框及其类别。

图5是本施例中的将问题指令编码为推理指令的流程图。

步骤S3-2，如图5所示，将增强问题q_k进行编码，获取问题推理所需指令。具体过程为：

使用3层的Transformer的编码器对问题q_k进行编码，使用多头注意力机制,多头的数量设为8，前向反馈层中的隐藏层维度设置为4*512,获得编码后的问题q_encoder。

使用Transformer的解码器,将编码结果进行解码，与编码模块测层数保持一致，且采用非自回归的解码方式，获得M个解码后的指令。

步骤S3-3，在指令的引导下，利用图卷积网络，通过问题引导方式对场景图进行推理，获得相应的答案。具体实施方式为：

步骤S3-3-1，对于步骤3-1中所生成的场景图，使用基于注意力机制的图卷积网络进行推理，推理过程中依据步骤S3-2中所生成的问题指令进行引导。

图6是本实施例中的场景图提取的流程图。

步骤S3-3-2，如图6所示，对于场景图中的对象节点及其属性和边进行编码，获取相应的特征向量，属性的特征向量加入到节点特征向量中，基于节点及边特征向量构建场景图结构。

步骤S3-3-3，在注意力图卷积神经网络上基于问题指令引导进行图卷积推理操作，其中指令的引导方式为：

先通过转换特征空间矩阵W_i进行空间变换获得I_np，保持与图中特征向量相同的维度，然后将I_np与节点及边进行拼接，获得融入了指令的节点和边，然后基于图注意力的方式进行图卷积操作，最后获得图中所有节点的输出特征向量，在所有节点上做最大池化操作，获得图卷积运算的最后输出特征，然后通过全连接层映射到对于的答案类别，获取最终的预测答案。

实施例的作用与效果

根据本实施例所涉及的基于多模态信息引导的知识增强视觉问答方法，因为，具体步骤为：步骤1，构建图像的全局视觉模态特征并提取视觉模态信息；步骤2，基于视觉模态信息的问题实体进行注意力操作，提取需要引入外部知识的问题实体，并对提取的问题进行知识引入，得到增强问题；步骤3，将增强问题的编码为推理指令，以图卷积网络的方法在图像生成的场景图中以推理指令为引导进行推理，最后获取相应的答案。

因此，上述实施例通过构造图片的全局特征，然后利用多模态信息引导的外部知识引入，通过对融合了视觉模态特征的问题执行注意力操作，获取需要补充事实或常识等外部知识的实体，并通过对应实体查询聚合了子图信息的外部知识实体特征，将外部知识实体特征融合到问题特征中，将问题特征编码为对应指令，并基于问题指令在图片所提取的场景图上通过注意力图卷积网络进行视觉实体节点更新，将最后的视觉实体节点进行答案空间的概率映射，以概率最大的答案为问题答案。本发明在基于图片信息及问题信息的多模态信息引导下的外部知识引入，通过更细粒度的外部知识引入，通过外部知识增强提高了模型的泛化能力，获得更高的答案准确率。

Claims

1.一种基于多模态信息引导的知识增强视觉问答方法，其特征在于，包括以下步骤：

步骤1，构建图像的全局视觉模态特征并提取视觉模态信息；

步骤2，基于所述视觉模态信息的问题进行注意力操作，提取需要引入外部知识的所述问题实体，并对提取的所述问题实体进行知识引入，得到增强问题；

步骤3，将所述增强问题的编码为推理指令，以图卷积网络的方法在图像生成的场景图中以所述推理指令为引导进行推理，最后获取相应的答案。

2.根据权利要求1所述的一种基于多模态信息引导的知识增强视觉问答方法，其特征在于：

其中，步骤1包括以下步骤：

步骤1-1，输入原始彩色图像I，并对图像I进行裁剪及缩放；

步骤1-2，采用VGG16预训练模型的特征层对所述图像I进行特征提取，获得提取后的图像特征I_n；

步骤1-3，以提取的所述图像特征I_n作为视觉模态信息I_v。

3.根据权利要求1所述的一种基于多模态信息引导的知识增强视觉问答方法，其特征在于：

其中，步骤2包括以下步骤：

步骤2-1，将提取的所述视觉模态信息I_v进行特征空间转换得到视觉信息I_p，映射到问题q对应空间；

步骤2-2，基于所述视觉信息I_p对所述问题q进行注意力操作，获得需补充外部信息的实体E；

步骤2-3，对所述实体E中的实体引入外部知识k_e，将嵌入后的知识特征空间转换后进行合并得到增强问题q_k。

4.根据权利要求1所述的一种基于多模态信息引导的知识增强视觉问答方法，其特征在于：

其中，步骤3包括以下步骤：

步骤3-1，对于所述视觉模态信息I_v，通过DETR生成场景图，以获取图中视觉实体及实体间相关信息；

步骤3-2，将所述增强问题q_k进行编码，获取问题推理所需指令；

步骤3-3，在所述指令的引导下，利用所述图卷积网络，通过问题引导方式对所述场景图进行推理，获得相应的答案。

5.根据权利要求2所述的一种基于多模态信息引导的知识增强视觉问答方法，其特征在于：

其中，步骤1-2包括以下步骤：

步骤1-2-1，计算通过所述预训练模型VGG16的特征层提取的所述图像I的全局信息：在所述图像I上，对于每一个区域像素L，采用不同感受野的卷积网络和池化网络最大池化操作对所述图像特征I_n进行提取,获取7*7*512维度的特征；

步骤1-2-2，利用平均池化层和全连接层对所述图像特征I_n进行进一步的提取和压缩，获取大小为4096的一维向量的所述图像特征I_v。

6.根据权利要求3所述的一种基于多模态信息引导的知识增强视觉问答方法，其特征在于：

其中，步骤2-2包括以下步骤：

步骤2-2-1，将提取的所述图像特征I_n通过多层感知机网络进行空间转换映射为视觉信息I_p，使得其与问题编码空间保持一致；

步骤2-2-2，将所述视觉信息I_p连接到问题特征q_I中，t_vi＝[t_i,I_p],其中t_i为问题中每一个实体特征,然后对基于视觉信息特征的q_v进行注意力操作，以获取需要补充外部知识的所述实体E。

7.根据权利要求3所述的一种基于多模态信息引导的知识增强视觉问答方法，其特征在于：

其中，步骤2-3的具体过程为：

对所述实体E中的实体e_i，查询对应的外部知识，获得相应的外部知识嵌入的高维向量k_e，并通过多层感知网络将k_e进行特征空间转换映射为k_ep，之后将k_ep融合到对应的e_i特征中。

8.根据权利要求4所述的一种基于多模态信息引导的知识增强视觉问答方法，其特征在于：

其中，步骤3-1的具体过程为：

采用所述DETR进行场景图生成，首先通过所述图卷积网络对图片进行特征提取，其次对图像的位置信息进行编码，其次将两者进行序列化后相加，送入Transformer网络进行编码和解码,最后使用前馈网络进行类别及物体边界框预测。

9.根据权利要求4所述的一种基于多模态信息引导的知识增强视觉问答方法，其特征在于：

其中，步骤3-2的具体过程为：

对步骤2-2-2中融入了外部知识的问题特征q_I＝[q₁,q₂,…,q_n]向量，通过Transformer进行编码，编码为M个指令向量。

10.根据权利要求4所述的一种基于多模态信息引导的知识增强视觉问答方法，其特征在于：

其中，步骤3-3包括以下步骤：

步骤3-3-1，对于步骤3-1中所生成的场景图，使用基于注意力机制的图卷积网络进行推理，推理过程中依据步骤3-2中所生成的问题指令进行引导：

步骤3-3-2，对于场景图中的对象节点及其属性和边进行编码，获取相应的特征向量，属性的特征向量加入到节点特征向量中，基于节点及边特征向量构建场景图结构；

步骤3-3-3，在注意力图卷积神经网络上基于问题指令引导进行图卷积推理操作，其中指令的引导方式为：