CN113240046B

CN113240046B - 一种基于知识的视觉问答任务下的多模态信息融合方法

Info

Publication number: CN113240046B
Application number: CN202110611831.2A
Authority: CN
Inventors: 张智; 杨建行; 王哲; 姚海波; 王立鹏; 张雯; 韩遥
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2021-06-02
Filing date: 2021-06-02
Publication date: 2023-01-03
Anticipated expiration: 2041-06-02
Also published as: CN113240046A

Abstract

本发明涉及计算机视觉和自然语言处理领域，具体涉及的是一种基于知识的视觉问答任务下的多模态信息融合方法。本发明将外部知识作为一个单独的模态，拓展了基于知识的视觉问答的思路；使用纯正的注意力方法将自然语言问题、图像和三元组形式的知识这三个模态进行深层的融合，为基于知识的视觉问答任务提供了新颖有效地解决方案，本发明提出的多模态融合技术不局限于基于知识的视觉问答任务，可以将其扩展到其他多模态任务当中去；使用新颖有效地位置编码方法为图像的位置进行编码，比传统方法中不利用图像位置信息或者使用图像区域坐标作为位置信息，本发明中的位置编码更加有效，可以高效的解决基于知识的视觉问答任务中跟图像位置相关的问题。

Description

一种基于知识的视觉问答任务下的多模态信息融合方法

技术领域

本发明属于计算机视觉和自然语言处理领域，具体涉及的是基于知识的的视觉问答任务以及一种以注意力为核心的多模态信息融合方法。

背景技术

问答是根据问题，按照人类定义的标准找到合适的答案。问答技术在智能助手、智能家居和信息检索的领域有着广泛的应用。随着对问答需求的增加，问答技术研究也不局限于纯文字的问答，而是向着更宽广的道路发展，出现了需要结合图像的视觉问答、需要结合图像和外部知识的基于知识的视觉问答等涉及多模态的问答研究。其中基于知识的视觉问答如附图1所示。但是因为不同模态的信息提取向量的方式不同，获得的向量也就有很大差别，这就导致基于知识的视觉问答中不同模态信息的融合非常困难。将不同模态信息合理结合的技术—多模态信息融合，就是问答技术研究发展的一个关键点。在基于知识的视觉问答任务中，利用传统的基于查询的方法难以充分利用视觉信息，对外部知识的利用率更低。基于图神经网络的方法对视觉信息的利用加深，但是在对外部知识的利用上有欠缺，此外，对问答中与位置相关的问题更是难以正确回答，这些都有待解决。

发明内容

本发明的目的在于如何充分地融合自然语言、计算机视觉和知识图谱三个模态的信息，从而为基于知识的视觉问答提供优秀的解决方案的一种基于知识的视觉问答任务下的多模态信息融合方法。

本发明的目的是这样实现的：

一种基于知识的视觉问答任务下的多模态信息融合方法，包括以下步骤：

步骤1：问题与图像的向量化：使用预训练的Glove词向量作为问题中每个单词的特征向量，接着使用LSTM处理一个句子的所有词向量使得一个句子中的单词的词向量之间进行一定程度的语义交互。使用以Resnet-101为主体结构的Faster-RCNN处理图像，选择网络结构的中间层2048维的向量作为图像的特征向量，每幅图像提取36个特征向量，图像向量为36×2048维。本发明提出额外融入图像位置编码信息，位置编码：

将图像按位置划分为9各区域，其中p表示图像坐标对应的区域，i取0到2048，d＝512，得到的位置编码向量P为36×2048维，可以直接加到图像特征向量上。

步骤2：外部知识筛选和向量化：使用FVQA数据集中的外部知识库为输入训练TransE模型，得到外部知识的250维特征向量。以步骤1的问题向量和从图像中检测到的物体为条件，使用余弦相似度的方法从外部知识库中筛选出100条知识，接着使用深度学习网络，根据问题预测合适的关系信息进一步筛选100条事实得到候选事实库，其中关系是每一条外部知识都包含的的重要组成部分。

步骤3：将步骤1得到的问题向量进行自注意力交互，自注意力模型为

Xⁱ⁺¹＝LayerNorm(h+FFN(h))

其中h＝LayerNorm(x+MHA(Q，K，V))，

Q、K、V是同一个问题向量q进行三种不同的线性变换Linear()得到的向量，LayerNorm()为归一化层，FFN()为全连接网络结构，参数d_model为常数512，用于统一之后不同模态信息的维度，方便计算。

步骤4：将步骤1、步骤2和步骤3的输出的图像、候选事实和问题的特征向量作为输入，使用三层注意力模型处理得到融合特征q′，v′，k′＝TAL(q，k，v)，其中TAL为本文提出的三层注意力模型。

步骤5：双模态吸收层以及答案预测。将步骤4的模型输出的融合特征q′、k′、v′作为输入，使用方法a₁＝β·a+a×q′，a₂＝β·a₁+a₁×v′，a₃＝β·a₂+a₂×k′将步骤四得到的融合特征q′、k′、v′中包含的信息吸收到候选事实当中，得到更新之后的候选事实特征，接着使用交叉熵损失函数和Adam优化器即可用于答案预测。

与现有技术相比，本发明的有益效果是：

本发明将外部知识作为一个单独的模态，拓展了基于知识的视觉问答的思路；使用纯正的注意力方法将自然语言问题、图像和三元组形式的知识这三个模态进行深层的融合，为基于知识的视觉问答任务提供了新颖有效地解决方案，此外，本发明提出的多模态融合技术不局限于基于知识的视觉问答任务，可以将其扩展到其他多模态任务当中去；使用新颖有效地位置编码方法为图像的位置进行编码，比传统方法中不利用图像位置信息或者使用图像区域坐标作为位置信息，本发明中的位置编码更加有效，可以高效的解决基于知识的视觉问答任务中跟图像位置相关的问题。

附图说明

图1是基于知识的视觉问答任务数据集举例；

图2是本发明的总流程图；

图3是主流程图中的三层注意力网络子结构中的自注意力层(SA)和三层注意力交互层(TAL)；

图4是主流程图中三层注意力交互层(TAL)的展开图；

图5是在图像中标出的提取图像特征过程中选择的区域框。

具体实施方式

下面结合附图对本发明具体实施方式做进一步说明。

基于知识的视觉问答是对智能问答的进一步推广，其给出问题、与问题相关的图像、包含回答问题所需的知识的知识库，要求模型能够根据以上信息，从知识库中寻找出最合适的答案。任务涉及计算机视觉和自然语言处理两个领域，若没有考虑某个领域的信息或者对某个领域的信息考虑不够充分，会导致对输入信息利用率低，回答问题的准确率不高。所以，充分利用各个模态的信息是很关键的点。在基于知识的视觉问答中，对于利用外部知识信息，传统方法通过是直接将其作为知识查询库或者使用Gloveembedding来表示知识库然后利用。为了更好地利用外部知识，本发明中通过知识图谱嵌入方法将外部知识表示为一个单独的模态，最后本发明提供一种能够充分融合三种模态信息的信息融合方法。

本发明首先分别通过Faster-RCNN、Glove embedding、TransE等方法获取图像、问题和外部知识的特征向量。然后使用余弦相似度方法，以问题特征和图像中检测到的物体、场景等信息对知识库进行一次筛选，接着是根据问题预测事实应该有的关系进行第二次筛选得到候选事实库。接着对问题向量使用自注意力方法学习问题的深层语义，再将得到的问题向量和之前的图像特征和候选事实特征送入三模态注意力网络学习到融合特征，最后是使用注意力的方法将融合特征的信息吸收进候选事实当中得到最终用于预测答案的特征向量。

本发明的具体实现过程为：

1、问题与图像的向量化

问题和图像的向量化如附图2所示的左半部分—输入的向量表示。本发明中问题的向量化使用的方法是Glove embedding。下载预训练的Glove embedding词向量库,对于一个问题，将问题中的每个单词都从预训练的向量词库中查询到对应的一个300维向量，以这种方法对于一个长度为n问题，可以得到n×300维的向量

本发明中图像的向量化使用的是以Resnet-101为基础的Faster-RCNN的方法。Faster-RCNN是计算机视觉领域中的常见任务目标检测的常用方法，可以将图像分成多个区域框，每个区域框都可以预测对应的标签—即是检测到的目标。本发明中使用的方法是将图像送入Faster-RCNN模型后得到的用于预测目标标签的特征向量的前一层2048维的特征向量。为了方便训练，本发明中对每一个图像都检测出36个区域特征，选取图像中36个区域如附图5所示。即每一幅图像都可以得36×2048维向量

2、外部知识筛选和向量化

外部知识筛选和向量化外如附图2的左下部分。外部知识的筛选使用基于余弦相似度的方法。外部知识的标准存储形式为三元组<e₁，r，e₂>，e₁、e₂表示头实体和尾实体。首先使用Glove embedding表示问题和外部知识，然后使用深度学习方法检测图像中的所有的物体和场景，然后同样使用Glove embedding将其表示。通过以上方法得到问题、外部知识和图像中目标的Glove向量表示之后，对于一个问题和一个对应的图像，将问题向量和图像中检测到物体的向量跟知识库中所有的外部知识向量进行余弦相似度计算，余弦相似度计算公式为

其中x表示问题和从图像中检测出的目标的向量的组合，y_i表示一条外部知识向量。按照余弦相似度的得分为知识库的外部知识进行排序，按照其相似度得分取其中的前100条事实作为第一次筛选结果得到f₁₀₀。然后根据问题向量，使用神经LSTM和分类网络预测事实应该有的关系r，即是知识三元组<e₁，r，e₂>中的r。根据预测到的r排除f₁₀₀中不符合该r的事实，即可进一步从100个外部知识中筛选候选事实库f。

外部知识的向量化使用TransE，TransE是将知识图谱向量化的常用模型，可以将每一个事实<e₁，r，e₂>表示为向量形式，其中包含相同实体或相同关系的事实之间具有一定的关联性，可以帮助更好的利用外部知识信息。本发明中用TransE外部知识训练模型得到所有外部知识的300为向量，即每一条外部知识都表示为300为向量

3、问题的自注意力交互

问题的自注意力交互如附图2左半部分的SA所示，其详细实现如附图3(a)，以步骤1获得的问题向量为输入。问题经过模型Xⁱ⁺¹＝LayerNorm(h+FFN(h))三次，即模型深度为三层。其中h＝LayerNorm(x+MHA(Q,K，V))，

Q、K、V是同一个问题向量q进行三种不同的线性变换Linear()得到的向量，LayerNorm()为归一化层，FFN()为全连接网络结构，MHA(Q，K，V)是多头注意力的实现形式，参数d_model为常数512，用于统一之后不同模态信息的维度，方便计算。此注意力交互层可以将问题中有关系的单词进行一定的关联，加深向量对问题语义的表达能力。

4、问题、图像和候选事实的三模态注意力交互

三模态注意力交互如附图2右半部分的TAL所示。详细过过程如附图3(b)所示。以步骤3的问题向量和步骤1，2的图像和候选事实向量为输入，分别为q、v、k。经过三层信息聚合层(1)(2)(3)可以得到交互之后的特征q′、v′、k′，即是q′，v′，k′＝TAL(q，u，k)。q′，v′，k′＝TAL(q，v，k)中的TAL()即是三层信息聚合层的结构，三层信息聚合层(1)(2)(3)的内部结构一致，但是输入向量以及输入顺序不一样，内部结构如图4所示，信息聚合层(1)的交互过程如公式(1)(2)(3)(4)所示，对问题q^t处理得到q^t+1，同理，以v、k和q′为输入得到v′再以k、q′、v′为输入得到k′。

Q¹＝q^t+MHA(q^t·W₁，q^t·W₂，q^t·W₃) (1)

Q₂＝Q¹+MHA(Q₁，K₁，V₁) (2)

Q₃＝Q²+MHA(Q₂，K₂，V₂) (3)

q^t+1＝Q₃+FFN(Q₃) (4)

其中q^t表示输入问题，K₁、V₁表示输入的v^t进行两次不同的线性变换得到的两个向量，K₂、V₂表示输入的k^t进行两次不同的线性变换得到的两个向量，线性变换矩阵为可学习矩阵。MHA为多头注意力和SA中的一样。

信息聚合层(2)的交互过程如公式(5)(6)(7)(8)所示

Q¹＝v^t+MHA(v^t·W₁，qv^t·W₂，v^t·W₃) (5)

Q₂＝Q¹+MHA(Q₁，K₁，V₁) (6)

Q₃＝Q²+MHA(Q₂，K₂，V₂) (7)

v^t+1＝Q₃+FFN(Q₃) (8)

其中v^t表示输入图像特征，K₁、V₁表示输入的q^t进行两次不同的线性变换得到的两个向量，K₂、V₂表示输入的k^t进行两次不同的线性变换得到的两个向量。

信息聚合层(3)的交互过程如公式(9(10)(11)(12)所示

Q¹＝k^t+MHA(k^t·W₁，k^t·W₂，k^t·W₃) (9)

Q₂＝Q¹+MHA(Q₁，K₁，V₁) (10)

Q₃＝Q²+MHA(Q₂，K₂，V₂) (11)

k^t+1＝Q₃+FFN(Q₃) (12)

其中k^t表示输入候选事实特征，K₁、V₁表示输入的q^t进行两次不同的线性变换得到的两个向量，K₂、V₂表示输入的v^t进行两次不同的线性变换得到的两个向量。

三层注意力网络层(TAL)是由多层信息聚合层(1)(2)(3)堆叠而成，第一层信息聚合层(1)的输入为q、v、k，最后一层信息聚合层(3)的输出为q′、v′、k′。三模态注意力交互层(TAL)的输出即是融合其他模态信息的三种特征向量q′、v′、k′。

5、双模态信息吸收层和答案预测

将步骤4的模型输出q′、v′、k′作为输入，使用方法a₁＝β·a+a×q′，a₂＝β·a₁+a₁×v′，a₃＝γ·a₂+a₂×k′得到输出a₂，其中α，β，γ为不可学习的权值，设置权值的原因是，三个方面的特征对于答案的贡献比重不一样。将作步骤四得到的融合特征吸收到候选事实当中，可以得到最终的特征向量。得到的特征向量使用交叉熵损失函数和Adam优化器即可用于答案预测。预测的结果如附图1所示，可以根据问题、图像和知识库选择出最合适的事实以及事实对应的答案。

Claims

1.一种基于知识的视觉问答任务下的多模态信息融合方法，其特征是：包括以下步骤：

步骤1：问题与图像的向量化：使用预训练的Glove词向量作为问题中每个单词的特征向量，接着使用LSTM处理一个句子的所有词向量使得一个句子中的单词的词向量之间进行一定程度的语义交互；使用以Resnet-101为主体结构的Faster-RCNN处理图像，选择网络结构的中间层2048维的向量作为图像的特征向量，每幅图像提取36个特征向量，图像向量为36×2048维；提出额外融入图像位置编码信息，位置编码：

将图像按位置划分为9各区域，其中p表示图像坐标对应的区域，i取0到2048，d＝512，得到的位置编码向量P为36×2048维，可以直接加到图像特征向量上；

步骤2：外部知识筛选和向量化：使用FVQA数据集中的外部知识库为输入训练TransE模型，得到外部知识的250维特征向量；以步骤1的问题向量和从图像中检测到的物体为条件，使用余弦相似度的方法从外部知识库中筛选出100条知识，接着使用深度学习网络，根据问题预测合适的关系信息进一步筛选100条事实得到候选事实库，其中关系是每一条外部知识都包含的重要组成部分；

步骤3：将步骤1得到的问题向量进行自注意力交互，自注意力模型为Xⁱ⁺¹＝LayerNorm(h+FFN(h))

其中h＝LayerNorm(x+MHA(Q,K,V)),

Q、K、V是同一个问题向量q进行三种不同的线性变换Linear()得到的向量，LayerNorm()为归一化层，FFN()为全连接网络结构，参数d_model为常数512，用于统一之后不同模态信息的维度，方便计算；

步骤4：将步骤1、步骤2和步骤3的输出的图像、候选事实和问题的特征向量作为输入，使用三层注意力模型处理得到融合特征q′,v′,k′＝TAL(q,k,v)，三层注意力网络层，TAL，是由多层信息聚合层1、2、3堆叠而成，第一层信息聚合层1的输入为q、v、k，最后一层信息聚合层3的输出为q'、v'、k'；

步骤5：双模态吸收层以及答案预测；将步骤4的模型输出的融合特征q′、k′、v′作为输入，使用方法a₁＝α·a+a×q′,a₂＝β·a₁+a₁×v′,a₃＝γ·a₂+as₂×k′将步骤四得到的融合特征q′、k′、v′中包含的信息吸收到候选事实当中，其中α，β，γ为不可学习的权值，得到更新之后的候选事实特征，接着使用交叉熵损失函数和Adam优化器即可用于答案预测。