CN112905819A

CN112905819A - 基于复合注意力的原始特征注入网络的视觉问答方法

Info

Publication number: CN112905819A
Application number: CN202110010417.6A
Authority: CN
Inventors: 吴春雷; 路静; 王雷全; 吴杰; 段海龙
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2021-01-06
Filing date: 2021-01-06
Publication date: 2021-06-04
Anticipated expiration: 2041-01-06
Also published as: CN112905819B

Abstract

本发明公开了基于复合注意力的原始特征注入网络的视觉问答方法。以往的方法主要采用注意机制和密集的迭代操作进行细粒度匹配。然而，这些方法使得图像区域的自相关信息被忽略，这将导致整体语义理解上的偏差。此外，我们注意到在多次双边共同注意力操作之后，图像的一些有价值但不被关注的边缘信息常常被完全忽视。本发明首次提出了基于复合注意力的原始特征注入网络来研究图像和问题之间的对应关系。设计一个具有复合注意的区域强化网络，通过考虑区域间的关系，利用双边信息和自相关性，挖掘更完整的视觉语义并避免理解偏差。并提出原始特征注入模块，恢复图像有价值但不被关注的边缘信息。本发明在VQA2.0上进行大量实验证明了提出模型的有效性。

Description

基于复合注意力的原始特征注入网络的视觉问答方法

技术领域

本发明属于视觉问答的方法，涉及计算机视觉和自然语言处理的技术领域。

背景技术

视觉问答在大多数研究中被表述为一个分类问题，图像和问题作为输入，答案作为输出类别(由于可能答案的数量有限)。由于视觉问答任务是在深度学习方法得到广泛普及后提出的，目前几乎所有视觉问答解决方案都是使用CNN对图像输入进行建模，而使用RNN对问题进行建模。注意机制在视觉问答中得到了广泛的研究。这包括视觉注意力，它专注于处理在哪里看的问题，以及问题注意力，它专注于解决在哪里阅读的问题。由于图像和问题是两种不同的模态，因此将两种模态联合嵌入到一起以统一描述图像/问题对是很简单的。

现有模型的常见做法是分别提取视觉和语言特征，然后将它们合并到一个公共空间中。然后根据这些融合的双峰特征预测输入问题的答案。在早期研究中，研究人员采用了一些相对简单的融合方法，例如特征向量的特征连接，相乘和点积。Fukui等人证明了更复杂的融合方法确实可以提高预测精度，因此他们引入了双线性(合并)方法。在他们的工作中，将视觉和语言特征两个向量的外积用于融合。由于外部输出具有很高的尺寸特征，因此他们采用了Gao等人的概念。Gao等人压缩了融合的特征，并将其命名为MCB合并方法。但是，为了确保性能稳定，MCB的压缩特征仍然倾向于是高维的，Kim等人使用了两个特征向量的Hadamard乘积来提出低秩双线性池，称为多峰低秩双线性池(MLB)。Yu等人提出了一种多峰分解双线性池(MFB)，它使用矩阵分解技术来计算融合特征，从而减少了参数数量并提高了收敛速度。

注意力机制在许多视觉和语言处理任务中都是有效的，例如字幕生成，动作识别，自然语言处理等等。无一例外地将其引入视觉问答，并被证明对回答预测很有帮助。到目前为止，已经开发了许多方法，其中常用的是在图像区域中引导注意力。根据图像特征的类型，方法分为两类。一方面，区域提案的视觉特征用于关注对象，这些注意力对象由边框或区域提案网络生成。从卷积特征中提取另一种视觉特征。

有几种创建和使用注意力图的方法。Yang等人开发了一个叠加式注意力网络，该网络以顺序的方式在图像上生成多个注意力图，旨在执行多个推理步骤。Kim等人通过将其合并到剩余的体系结构中以产生更好的关注信息来扩展了此想法。Chen等人提出了一种结构化的注意力模型，该模型可以对跨区域的关系进行编码，旨在正确回答涉及复杂区域之间的关系的问题。Duy-Kien Nguyen等人提出了著名的协同注意机制，以更好地融合图像和疑问词的表示形式。然而，现有的注意力模型主要考虑图像区域和疑问词之间的可能相互作用，而忽略了图像区域本身的自相关信息。另外，一些网络结构是多层迭代的，通常使得经过多次双边共同关注操作后，一些有价值但无人看管的原始图像边缘信息被完全遗忘了。

发明内容

本发明的目的是为了解决在基于堆叠注意力机制的视觉问答方法中，很少考虑图像中不同区域的关系，对所有区域一视同仁。并且，过于关注问题词与图像区域的匹配，忽视了图像有价值但不被关注的边缘信息。

本发明为解决上述技术问题采取的技术方案是：

S1.构建视觉特征增强模块，根据输入图像区域之间的相关性来挖掘更完整的视觉特征。

S2.结合S1中的强化特征，在整体的深层框架中利用图像和问题双边信息生成特征。

S3.构建原始信息注入模块，恢复图像有价值但不被关注的边缘信息。

S4.结合S2中的网络和S3中的网络构建基于复合注意力的原始特征注入网络架构。

S5.基于复合注意力的原始特征注入网络的训练和视觉问答。

本发明的视觉特征增强模块根据输入图像区域之间的相关性来挖掘更完整的视觉特征。通过考虑图像中区域与区域之间的关联度，从而降低整体语义理解上的偏差。我们在下面描述详细的操作：

给定一个特征F∈R^d×K，分别通过3个1*1的卷积核生成F_q,F_k,F_v。

F_q＝W_qF,F_k＝W_kF,F_v＝W_vF (1)

其中

是1*1卷积核的权重矩阵，H＝2048。

由F_q,F_k计算出F的注意力F_A。

F_A＝softmax(F_q ^TF_k) (2)

其中F_q ^T表示矩阵的转置，softmax()指的是softmax函数。

再令F_v与F_A相乘后经过平均池化层得到F_A′。

F_A′＝mp(F_vF_A ^T) (3)

其中mp()指的是meanpoling函数。

最后，通过F_A′和F相加得到视觉特征增强模块的输出。

F_s＝W_sF_A′+F (4)

其中W_s是权重矩阵，其维数是2048*2048。该方法可以将图像区域根据它们的语义相关性设置为不同的优先级。可以根据需要将区域增强模块重复用于不同级别的表示增强。

本发明的复合注意机制，在一个整体的深层框架中更好地利用图像和问题的双边信息和自相关性。它实现了视觉特征增强模块和协同注意力结构的结合。

问题文本的特征T_l和图像的特征I_l被输入到复合注意力处理模块中。同时，I_l也被发送到视觉特征增强模块以计算图像区域的相关性，对应的输出表示为I_ls，由下式给出：

I_ls＝S_I(I_l) (5)

其中S_I()表示视觉特征增强模块函数。

再将生成的I_ls和文本特征T_l作为协同注意力的输入，生成考虑到双边信息的数据，T_lsc和I_lsc：

[T_lsc，I_lsc]＝CoA([T_l，I_ls]) (6)

其中CoA()是协同注意运算符。

从视觉特征的角度来看，在结合了I_ls和T_lsc之后，经过线性操作生成与I_ls维度相同的图像特征信息I_lc：

I_lc＝linear_I(concat(I_ls，T_lsc)) (7)

同理，对于问题特征，将T_ls与I_lsc结合后，经过线性操作生成与Tl维度相同的图像特征信息T_lc：

T_lc＝linear_T(concat(T_ls，I_lsc)) (8)

其中linear()是线性运算，其中包含1024个具有ReLU非线性和Dropout的隐藏单元。

原始信息注入模块的目的是恢复图像边缘信息，约束图像原始信息的语义偏差，从而帮助模型正确理解图像。具体地说，在经过S2后得到视觉特征I_lc和和语言特征T_lc分别与原始特征Ir和Tr结合后，经过线性操作生成与Ilc和Tlc维度相同的图像特征信息Ilcr和Tlcr：

I_lcr＝linear_I(concat(I_lc，I_r)) (9)

T_lcr＝linear_T(concat(T_lc，T_r)) (10)

其中linear是一个Linear函数，它具有1024个具有ReLU非线性和dropout的隐藏单元。

所述的基于复注意力的原始特征注入网络的视觉问答方法包含一个视觉特征增强模块、一个复合注意力模块和一个原始信息注入模块。

基于复合注意力的原始特征注入网络的训练方法如下：

在我们的实现中，所有的实验都是使用Python3.6版本的PyTorch框架实现的，实验是在一台拥有Nvidia Tesla P100GPU的计算机上进行的。

在送入CNN之前，将所有图像的大小调整为448*448。所有问题均使用PythonNatural Language Toolkit(nltk)进行了标记。我们将CommonCraw1-840B Glove模型提供的词汇用于英语单词向量。我们将问题的最大长度限制为14个单词，然后对每个问题进行动态展开，以允许长度不同的问题。在整个实验中，我们使用了八层网络，即具有八个复合注意力和视觉特征增强机制层(L＝8)。该层数是根据我们的初步实验选择的。在训练过程中，使用了ADAM优化器在VQA 2.0上分别以400个批次训练了我们的模型。weight衰减为0.0001。我们使用指数衰减逐渐降低学习率：

其中将初始学习率α设置为α＝0.001，并且将VQA2.0的decay时期依次设置为7个时期；我们将参数设置为β₁＝0.9，β₂＝0.99。为了防止过度拟合，使用了Dropout丢失，每个完全连接层的损失率为ρ＝0.3，LSTM的损失率为ρ＝0.1。

与现有的技术相比，本发明的有益效果是：

1.本发明提出了一种新颖的带有原始特征注入的复合注意网络用于视觉问题回答。图像和问题文本之间的双边信息以及图像区域的自相关被统一在一起，以实现全面的语义理解和融合，从而提高问题回答的准确率。

2.本发明提出了视觉特征增强机制来挖掘更丰富的视觉特征，并设计了原始特征注入模块来保留图像的原始边缘信息，两者均用于改善图像的整体语义和提高答案预测的准确性。

附图说明

图1为基于复合注意力的原始特征注入网络的视觉问答方法的结构示意图。

图2为视觉特征增强模块示意图。

图3为具有视觉特征增强的复合注意力网络的模型示意图。

图4为原始信息注入模块的模型示意图。

图5和图6为基于复合注意力的原始特征注入网络的视觉问答模型与其他网络的视觉问答模型在数据集上的结果对比图。

图7和图8为视觉问答的可视化结果图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制。

以下结合附图和实施例对本发明做进一步的阐述。

图1为基于复合注意力的原始特征注入网络的结构示意图。如图1所示，整个视觉问答的框架主要由复合注意力(Compound attention mechanism)和原始特征注入模块(0riginal Feature Injection Module)两部分组成。

图2为觉特征增强模块示意图。如图2所示，输入一个特征F∈R^d×K，分别通过3个1*1的卷积核生成F_q，F_k，F_v。

F_q＝W_qF，F_k＝W_kF，F_v＝W_vF

(1)

其中

是1*1卷积核的权重矩阵，H＝2048。

由F_q，F_k计算出F的注意力F_A。

F_A＝softmax(F_q ^TF_k) (2)

其中F_q ^T表示矩阵的转置，softmax()指的是softmax函数。

再令F_v与F_A相乘后经过平均池化层得到F_A′。

F_A′＝mp(F_vF_A ^T) (3)

其中mp()指的是meanpoling函数。

最后，通过F_A′和F相加得到视觉特征增强模块的输出。

F_s＝W_sF_A′+F (4)

其中W_s是权重矩阵，其维数是2048*2048。该方法可以将图像区域根据它们的语义相关性设置为不同的优先级。可以根据需要将区域增强模块重第用于不同级别的表示增强。

图3为具有视觉特征增强的复合注意力网络的模型示意图。如图3所示，本发明的复合注意机制，在一个整体的深层框架中更好地利用图像和问题的双边信息和自相关性。它实现了视觉特征增强模块和协同注意力结构的结合。

I_ls＝S_I(I_l) (5)

其中S_I()表示视觉特征增强模块函数。

[T_lsc，I_lsc]＝CoA([T_l，I_ls]) (6)

其中CoA()是协同注意运算符。

I_lc＝linear_I(concat(I_ls，T_lsc)) (7)

同理，对于问题特征，将T_ls与I_lsc结合后，经过线性操作生成与T_l维度相同的图像特征信息T_lc：

T_lc＝linear_T(concat(T_ls，I_lsc)) (8)

图4为原始信息注入模块的模型示意图。如图4所示，原始信息注入模块的目的是恢复图像边缘信息，约束图像原始信息的语义偏差，从而帮助模型正确理解图像。具体地说，在经过S2后得到视觉特征I_lc和和语言特征T_lc分别与原始特征Ir和Tr结合后，经过线性操作生成与Ilc和Tlc维度相同的图像特征信息Ilcr和Tlcr：

I_lcr＝linear_I(concat(I_lc，I_r)) (9)

T_lcr＝linear_T(concat(T_lc，T_r)) (10)

图5和图6为基于复合注意力的原始特征注入网络的视觉问答与其他网络的视觉问答模型在VQA2.0数据集上的结果对比图。如图5，图6所示，基于复合注意力的原始特征注入网络的视觉问答结果比其他模型更加准确。

图7和图8为视觉问答模型的可视化结果图。如图7所示，给与一张图像和一个问题，基于复合注意力的原始特征注入网络模型可以生成相应的答案。如图8所示，给与一张图像和一个问题，基于复合注意力的原始特征注入网络模型可以生成正确答案。

本发明提出了本文提出了一种具有原始特征注入的复合注意网络，用于视觉问答。引入了视觉特征增强机制来挖掘图像区域之间的相关性。此外，还添加了原始特征注入模块，以保留图像的原始边缘信息。在提出的复合注意机制的帮助下，图像和问题文本之间的双边信息以及图像区域的自相关被统一在一起，以实现全面的语义理解和融合。在VQA2.0数据库上进行的大量实验表明，该模型在视觉问答方面取得了很好的结果。在未来的工作中，我们将继续探索如何更好地学习图像和问题文本的语义，并有效地将其集成以进行答案推理。

最后，本发明的上述示例的细节仅为解释说明本发明所做的举例，对于本领域技术人员，对上述实施例的任何修改、改进和替换等，均应包含在本发明权利要求的保护范围之内。

Claims

1.基于复合注意力的原始特征注入网络的视觉问答方法，其特征在于，所述方法包括以下步骤：

S5.基于复合注意力的原始特征注入网络的训练和视觉问答。

2.根据权利要求1所述的基于复合注意力的原始特征注入网络的视觉问答方法，其特征在于，所述S1的具体过程为：

给定一个特征F∈R^d×K，分别通过3个1*1的卷积核生成F_q，F_k，F_v。

F_q＝W_qF，F_k＝W_kF，F_v＝W_vF (1)

其中

是1*1卷积核的权重矩阵，H＝2048。

由F_q，F_k计算出F的注意力F_A。

F_A＝softmax(F_q ^TF_k) (2)

其中F_q ^T表示矩阵的转置，softmax()指的是softmax函数。

再令F_v与F_A相乘后经过平均池化层得到F_A′。

F_A′＝mp(F_vF_A ^T) (3)

其中mp()指的是meanpoling函数。

最后，通过F_A′和F相加得到视觉特征增强模块的输出。

F_s＝W_sF_A′+F (4)

3.根据权利要求1所述的基于复合注意力的原始特征注入网络的视觉问答方法，其特征在于，所述S2的具体过程为：

I_ls＝S_I(I_l) (5)

其中S_I()表示视觉特征增强模块函数。

[T_lsc，I_lsc]＝CoA([T_l，I_ls]) (6)

其中CoA()是协同注意运算符。

I_lc＝linear_I(concat(I_ls，T_lsc)) (7)

T_lc＝linear_T(concat(T_ls，I_lsc)) (8)

4.根据权利要求1所述的基于复合注意力的原始特征注入网络的视觉问答方法，其特征在于，所述S3的具体过程为：

I_lcr＝linear_I(concat(I_lc，I_r)) (9)

T_lcr＝linear_T(concat(T_lc，T_r)) (10)

5.根据权利要求1所述的基于复合注意力的原始特征注入网络的视觉问答方法，其特征在于，所述S4的具体过程为：

所述的基于复合注意力的原始特征注入网络的视觉问答方法包含一个视觉特征增强模块、一个复合注意力模块和一个原始信息注入模块。

6.根据权利要求1所述的基于复合注意力的原始特征注入网络的视觉问答方法，其特征在于，所述S5的具体过程为：

基于复合注意力的原始特征注入网缝的训练方法如下：

在我们的实现中，所有的实验都是使用Python 3.6版本的PyTorch框架实现的，实验是在一台拥有Nvidia Tesla P100 GPU的计算机上进行的。

在送入CNN之前，将所有图像的大小调整为448*448。所有问题均使用PythonNaturalLanguage Toolkit(nltk)进行了标记。我们将CommonCrawl-840B Glove模型提供的词汇用于英语单词向量。我们将问题的最大长度限制为14个单词，然后对每个问题进行动态展开，以允许长度不同的问题。在整个实验中，我们使用了八层网络，即具有八个复合注意力和视觉特征增强机制层(L＝8)。该层数是根据我们的初步实验选择的。在训练过程中，使用了ADAM优化器在VQA2.0上分别以400个批次训练了我们的模型。weight衰减为0.01。我们使用指数衰减逐渐降低学习率：