CN113837212B

CN113837212B - 一种基于多模态双向导向注意力的视觉问答方法

Info

Publication number: CN113837212B
Application number: CN202010584949.6A
Authority: CN
Inventors: 何小海; 鲜荣; 吴晓红; 卿粼波; 吴小强; 滕奇志; 任超
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2023-09-26
Anticipated expiration: 2040-06-24
Also published as: CN113837212A

Abstract

本发明设计了一种基于多模态双向导向注意力的视觉问答方法，涉及计算机视觉与自然语言处理两个领域。充分理解视觉和文本不同模态间的交互性及同一模态间的自相关性是攻克视觉问答任务难点的关键。合理利用注意力机制突显出图像和问题中的有效信息有利于提升模型的性能表现，本发明基于导向注意力机制，设计了图像引导问题注意的导向注意力模块，联合协同注意力构建双向导向注意力，对回答是或不是的问题及总体准确率均有一定的提升，再结合Counter模块，提高了模型的计数能力。本发明在帮助视障人士及儿童图书学习等实际应用方面具有一定的意义。

Description

一种基于多模态双向导向注意力的视觉问答方法

技术领域

本发明涉及计算机视觉与自然语言处理两个领域，具体涉及利用自注意力机制和导向注意力机制得到不同模态的加权注意特征，尤其涉及以协同注意为基础，增加图像对问题的引导。

背景技术

视觉问答任务旨在给出一幅图像及与图像相关的问题，回答出问题的正确答案。该任务涉及到视觉和文本两种模态的学习，架起了计算机视觉和自然语言处理领域间的桥梁。早期的视觉问答模型，主要通过提取图像和问题的全局特征，再经过简单的特征融合，分类后产生一个预测答案。这种方法虽简单直接，却丢失了重要的局部信息，不利于回答针对局部区域提出的问题。为获得更细节性的特征，视觉问答引入了注意力机制的使用，很大程度上提升了多模态任务的性能表现。

视觉问答任务中首先引入的是视觉注意力，从输入问题中学习图像区域的特征表示。然而除视觉特征外，提取文本中关键有效的信息也同等重要，因此，同时学习图像和文本注意的协同注意力被提出。大部分基于协同注意的深度模型与相应的浅层模型及粗糙交互的模型相比，并没有表现出明显的优势，针对于此，同时构建模态内密集自相关与模态间互相关的协同注意力模型被提出，并取得不错的表现。尽管与此，这些协同注意模型都只涉及到从输入问题学习图像特征表示的导向注意方式，而忽略了根据图像学习问题特征的表示。因此，同时考虑图像引导问题及问题引导图像这种双向引导方式可以更充分的表示视觉和文本两种模态间的交互性。

发明内容

本发明为解决上述问题提供了一种基于多模态双向导向注意力的视觉问答方法。基于导向注意力机制，设计了图像引导问题注意模块，联同协同注意力共同构成双向导向注意力。

本发明通过以下技术方案来实现上述目的：

一种基于多模态双向导向注意力的视觉问答方法，包括以下步骤：

步骤一：特征提取，首先使用目标检测网络提取图像区域中间特征，再对问题进行单词划分，词嵌化，通过单层的LSTM网络提取出问题中间特征。

步骤二：将图像和问题中间特征分别作为双向导向注意力模块的两路输入，经过层层自注意和导向注意，分别输出加权的问题特征和图像特征。

步骤三：对注意力模块输出的图像和问题特征进行简化，再经过线性融合，最终得到融合后的特征。

步骤四：将融合后的特征输入一个N类分类器训练，得到最终的问题答案。

作为步骤一中图像和问题的特征提取说明如下：

(1)输入图像先经过目标检测网络Faster R-CNN提取一系列图像区域中间特征，区域数量取值为100。视觉注意方式采取自底向上(bottom-up)。

(2)对于输入的问题，先将问题句子分割成独立的单词，每个单词通过300-DGlove词嵌转换为对应的词向量，再利用单层的LSTM网络获得单词特征向量，将所有单词特征向量组合起来构成问题特征矩阵。每个句子限制最大单词长度为14。

作为优选的技术方案，步骤二的双向导向注意力模块，其说明如下：

(1)双向导向注意力以自注意力(Self-Attention,SA)和导向注意力(Guided-Attention,GA)为基础，其中导向注意力包括图像引导问题注意和问题引导图像注意两种注意方式。

(2)双向导向注意力模块输入可分为两路，分别为图像区域中间特征和问题中间特征/>分析图像这一支路，图像区域中间特征经过由stacking方式级联的6层SGA结构输出加权后的图像特征F_X。分析问题特征这一支路，又可分解为两条支路，其中一条支路输入为步骤一中得到的问题中间特征/>经过6层堆叠的SA结构输出问题自注意特征；另一条支路组成为以stacking方式连接的4层GA结构，以问题自注意特征和加权的图像特征作为输入，得到以图像为导向的问题注意特征/>再与问题自注意特征进行线性融合得到最后加权的问题注意特征F_Y。输入输出过程如下所示：

其中，L取值6，M取值4。以图像为导向的问题注意特征可表示为：

(3)上述(2)中SGA结构组成为一层SA与一层GA以stacking方式连接，其中GA输入为图像自注意特征和问题自注意特征。

作为步骤三中的特征融合，其说明如下：步骤二中得到的加权的图像注意特征和问题注意特征中包含了大量冗余的图像区域和问题单词权重信息，在进行特征融合前，先对这两种特征经过MLP(FC-ReLU-Dropout-FC)结构进行简化，以图像特征为例简化过程可表示为：

α＝soft max(MLP(F_X)) (6)

式中α表示图像区域学习到的注意力图谱，f_x、f_y分别表示简化后的图像特征和问题特征，融合后特征f_z表示为：

式中，是两个线性映射矩阵，d_z表示融合后的特征f_z的维度，LayerNorm层起到稳定训练的作用。

作为步骤四中分类器的训练，其说明如下：视觉问答任务近年来被视为多分类任务，根据问题的类型，选取训练集中前3129个高频出现的答案，组成生成答案备选库，故分类器可视为3129个类别的训练，使用交叉熵损失函数用于加快训练过程的收敛及学习调整网络参数。

本发明的主要内容在于提出了基于多模态双向导向注意力的视觉问答方法。本发明提出的双向导向注意力方式能有效提高对是或不是类型问题的回答正确率，最后提出的网络再结合计数模块(Counter module)对于计数问题的回答起正向促进作用。对帮助视障人士及儿童识图教育等方面都具有较大的意义。

附图说明

图1是本发明提出的图像引导问题注意模块原理图。

图2是本发明提出的双向导向注意模块原理图。

图3是本发明提出的基于多模态双向导向注意力的视觉问答模型结构图。

具体实施方式

下面结合附图对本发明作进一步说明：

图1是本发明提出的图像引导问题注意模块原理图。该模块由4层的导向注意力单元通过stacking方式连接而成，主要实现以图像特征为导向，更多关注问题中包含有效信息的单词。模块输入为经过6层SGA结构输出的加权的图像注意特征及经过6层自注意单元的问题自注意特征。

为验证本发明所提出的图像引导问题注意模块级联层数取值为4的合理性，对不同取值进行了实验验证，其结果如表一所示：

表一

从表一可以看出，当GA单元数取值为4时，模型最终在两种测试子集test-dev和test-std上获得最好的总分类准确率。

图2是本发明提出的双向导向注意模块原理图。该模块组成主要由一个深度级联协同注意模块与图1中提出的图像引导问题注意模块相结合构成。双向导向主要是指深度协同注意模块中的以输入问题为导向，学习图像区域的视觉注意力和图像引导问题注意模块中的以图像区域特征为导向，学习问题的文本注意力。整个模块中除提到的导向注意外，还包含模态内的自注意力。

图3是本发明提出的基于多模态双向导向注意力的视觉问答模型结构图。由图可知，整个模型结构包括四部分，分别为：多模态特征提取模块、双向导向注意力模块、多模态特征融合模块以及分类器。

(1)取数据集VQA v2.0中训练集及测试集一起参与训练，另再取Visual Genome中VQA样本子集作数据增强参与训练。将所有参与训练的图像输入到目标检测网络Faster R-CNN中，每幅图像输出大小为100*2048的特征矩阵。对于问题句子，先将其分割成独立的单词，每个句子限制单词数最大为14个，每个单词通过一个300-D Glove词嵌将单词转换为对应的词向量，再通过一个单层的隐藏层个数为512的LSTM输出大小为1*512的单词特征向量，最终将所有单词特征向量组合得到大小为14*512的问题特征矩阵。

(2)多模态特征提取模块输出的图像中间特征和问题中间特征作为双向导向注意力单元的输入，经过层层自注意和导向注意，最后输出加权的图像注意特征和问题注意特征。

(3)两种模态特征融合前为避免计算量过大先进行简化，去除冗余的信息。简化后再经过线性融合输出融合后的特征。

(4)将融合后的特征输入一个N类分类器训练，N表示可能生成的答案选项库，由训练集中出现频率最高的前3129个答案组成。损失函数采用二进制交叉熵(Binary Cross-Entropy,BCE)损失，将输入训练的问题答案看作分类的真实标签，模型生成的答案看作预测值，通过损失函数计算两者之间的损失，再通过训练时网络的反向传播对网络参数进行调整，使得生成的答案接近真实答案。

为验证本发明所提方法的有效性，选取多个视觉问答模型与本发明所提出的方法进行比较，其在两种测试子集test-dev和test-std上的结果表现如表二所示：

表二

从表二可以看出，本发明提出的方法较其他模型在回答是或不是类型问题时有更大的优势。在本发明所提模型基础上，结合计数模块Counter，可以看到对模型的计数能力有所提升，对测试子集test-std其他类型问题的回答同样起到正向促进作用。因此，验证了本发明所提方法的有效性。

Claims

1.一种基于多模态双向导向注意力的视觉问答方法，其特征在于包括以下步骤：

步骤一：特征提取，首先使用目标检测网络FasterR-CNN，提取图像区域中间特征，视觉注意方式采取自底向上再对问题进行单词划分，词嵌化，通过单层的LSTM网络提取出问题中间特征；

步骤二：将图像和问题中间特征分别作为双向导向注意力模块的两路输入，其中，图像特征经过由stacking方式级联的6层自注意力层，每层注意力包括一个自注意力单元和问题引导图像注意的导向注意力单元，最后该模块输出加权的图像注意特征；分析问题特征这一支路，又可以分解为两条支路，其中一条支路的输入为步骤一中得到的问题中间特征，经过6层级联的自注意力单元，输出问题自注意特征，另一条支路组成为以stacking方式连接的4层导向注意力层，以问题自注意特征和加权的图像特征作为输入，得到以图像为向导的问题注意特征，再与问题自注意力特征进行线性融合得到最后加权的问题注意特征；

步骤三：对注意力模块输出的图像和问题特征进行简化，再经过线性融合，最终得到融合后的特征；

2.根据权利要求1所述的基于多模态双向导向注意力的视觉问答方法，其特征在于步骤一中图像特征提取采用目标检测网络FasterR-CNN，以自底向上的注意方式提取一系列图像区域特征；问题特征提取采用先将问题句子划分为单词，再通过300-DGlove词嵌将每个单词转化为词向量，最后通过单层的LSTM获得问题单词特征序列。

3.根据权利要求1所述的基于多模态双向导向注意力的视觉问答方法，其特征在于步骤三中对图像和问题注意特征的简化，主要采用全连接层、ReLU激活层、dropout层和全连接层的结构，简化后的特征经过线性融合函数得到最终的融合特征。

4.根据权利要求1所述的基于多模态双向导向注意力的视觉问答方法，其特征在于步骤四中分类器涉及N类分类训练，N代表可能生成的答案选项数量。