CN112818889B

CN112818889B - 基于动态注意力的超网络融合视觉问答答案准确性的方法

Info

Publication number: CN112818889B
Application number: CN202110182159.XA
Authority: CN
Inventors: 尹宝才; 王家普; 胡永利; 孙艳丰; 王博岳
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-02-09
Filing date: 2021-02-09
Publication date: 2024-05-28
Anticipated expiration: 2041-02-09
Also published as: CN112818889A

Abstract

本发明公开了基于动态注意力的超网络融合视觉问答答案准确性的方法，先提取图像中两两物体之间的关系特征。通过进行关系特征的向量表示和问题文本的向量表示的余弦相似度的操作来动态的选取和问题文本相关的关系特征，并将余弦相似度分数排在前三的关系特征被选取为最为相关的关系特征；为了使视觉图片和问题文本中提取的特征融合的更加充分，提用基于超网络的卷积融合方式。利用融合图像‑问题特征学习多分类的分类器，以正确预测最佳匹配答案。使特征融合更加充分，能够使两模态之间进行深层次的交互，进一步促进视觉问答技术的准确性能的提升。

Description

基于动态注意力的超网络融合视觉问答答案准确性的方法

技术领域

本发明针对视觉问答模型表达能力差的问题，提出了一种基于动态注意力的超网络融合视觉问答研究来提升视觉问答答案准确性的方法。属于计算机视觉领域，具体涉及深度学习，特征提取，特征融合等技术。

背景技术

视觉问答(Visual QuestionAnswering,VQA)是近年来兴起的研究方向之一,其横跨计算机视觉与自然语言处理两大领域,旨在让计算机理解图像内容后根据自然语言输入的查询进行自动回答，是跨模态表达与交互方向上的研究热点问题，并吸引了研究人员的广泛关注。在实际应用中，例如苹果的Siri，微软的Cortana、亚马逊的Alexa等都基于视觉问答技术的发展。甚至随着可穿戴智能硬件(如Goole glasses和微软的HoloLens)以及增强现实技术的快速发展，在不久的将来，基于视觉感知的视觉问答系统可能会成为人机交互的一种重要方式，改变人们当前的交流模式。这项技术的发展可以帮助，尤其是那些有视觉障碍的的残障人士更好的感知和理解真实世界。

近年来，深度学习迅速发展并在各个研究领域上都取得了惊人的成果。使用不同架构的深度神经网络在计算机视觉、自然语言处理以及语音识别等方面都取得了目前最好的结果。这些方法可以分为两类：即基于注意力机制的VQA模型和基于经典融合策略的VQA模型。

(1)基于注意力机制的VQA模型

基于注意的VQA模型由于其优越的性能，得到了最广泛的研究。它们专注于在输入特征中定位相关对象，例如边界框或图像区域。

ABC-CNN模型在2015年提出一步注意定位图像的相关对象，SAN模型在2016提出多步注意更新图像的相关对象并逐步推断答案。除此之外，2017年提出多模态注意力，即不仅找到图像目标间的相关性，同时也找到图像和问题间的相关性。最近，一些研究者提出利用双线性模型来定位更精确的目标。

(2)基于经典融合策略的VQA模型

注意机制需要融合来计算注意分布。因此，融合程度对注意机制的质量有很大的影响。

现有的注意力融合模型可分为线性模型和双线性模型。首先，采用线性模型融合图像和问题特征元素。2016年使用对应元素求和融合图像和问题特征元素，2017年提出使用对应元素乘法来融合图像和问题特征元素。近年来，双线性模型被用来对图像特征和问题特征元素进行更细粒度的融合建模。MCB模型在2016年提出使用外积融合图像和问题特征元素，但导致尺寸爆炸问题。为了解决这个问题，2017年Kim等人在图像和问题特征的低秩投影之后使用了元素级乘法。

之前的方法虽然已经取得了很好的性能，但它不能很好的利用图像物体间的关系和问题文本主谓语之间的关联特性。因此，本发明在基于视觉问答的基本框架，即对图像的特征提取与对文本的的特征提取，也就是对文本和视觉图像进行理解的过程，以及两特征融合过程，也就是对两理解之后的内容进行交互的过程。这一框架来源于对人类理解外界事物的过程。在该基本框架之下，本发明通过引入图像里物体特征之间的关系来进行对图像的进一步理解，以及引入更有利于内容交互的特征融合手段来对传统视觉问答技术性能进行提升。

发明内容

本发明针对视觉问答技术表达力差的问题，研究了一种基于动态注意力的超网络融合的视觉问答研究。首先针对传统方法提取图像特征时并未考虑到图像里每个物体之间的关系的问题，而物体之间的关系对于视觉问答技术结果有着很重要的影响，故本发明先提取图像中两两物体之间的关系特征。其次，图像内并不是所有的物体以及物体间关系都是和问题文本是相关的，所以通过进行关系特征的向量表示和问题文本的向量表示的余弦相似度的操作来动态的选取和问题文本相关的关系特征，并将余弦相似度分数排在前三的关系特征被选取为最为相关的关系特征进行接下来的研究；最后，特征融合阶段是对输入的图像和问题文本进行交互的过程，也是视觉问答技术的核心，为了使视觉图片和问题文本中提取的特征融合的更加充分，提用基于超网络的卷积融合方式。本发明的主要流程如附图1所示，可分为以下四个步骤：基于faster RCNN对图像里物体特征和GRU对文本特征进行提取；图像的视觉关系特征提取；基于张量表示的特征融合；利用融合图像-问题特征学习多分类的分类器，以正确预测最佳匹配答案。

S1基于faster RCNN对图像和GRU对文本的特征提取

近年来，由于深度表示学习的发展使视觉问答技术性能的飞速提升。对于图像特征的提取，本发明采用faster RCNN来对图像特征进行提取。而对于文本特征的提取，本发明采用GRU对文本特征进行提取。

S2图像内物体间的视觉关系特征提取

由于图像里面每个物体之间都是有相应的关系，以及没关系也是一种关系。所以本发明通过捕捉图像中物体之间的关系后再与文本特征进行融合来提高视觉问答技术的准确性。图像视觉关系特征可采用图像里两物体的联合特征得到初步的关系特征表示，之后通过卷积神经网络CNN来对初始特征进一步进行提取得到视觉关系特征的最优的特征表示。接下来视觉关系特征表示与文本的特征表示进行余弦相似度计算，得到相似度分数，排在前三位的分数(从大到小)的视觉关系特征向量被认为是和问题文本反映的最相关的关系的特征表示。

S3基于超网络卷积的特征融合

对于视觉问答研究中，特征融合使是两模态特征进行深层交互的核心，也是解决模型表达力差的问题的关键。针对传统视觉问答技术存在的融合不充分的问题，本发明采用基于超网络卷积的方法来融合两种模态的特征。该方法首先利用超网络来对问题文本特征重构成卷积核的形式，接着把图像特征作为特征图来进行卷积操作，最后把卷积后的结果通过全连接层映射到需要的维度空间。

S4利用融合图像-问题特征学习多分类的分类器，以正确预测最佳匹配答案

在大多数现有的VQA方法中，回答阶段被定义为一个多类分类问题，每个答案都指向一个单独的类。通过Softmax函数取对应于最大值的的答案类别作为最佳匹配答案，如附图2。当对图像和文本进行特征提取之后经过融合之后得到的特征经过多分类才能得到的答案，所以需要对特征进行充分的融合。

本发明与现有技术相比，具有以下明显的优势和有益效果：

首先本发明利用faster RCNN来提取图像中每个物体的特征，之后提取出图像中图像中两两物体之间的视觉关系，进而能够捕捉到隐藏在图像里深层的信息，从而实现提升视觉问答技术的准确性的目标；其次，本发明通过与文本特征的余弦相似度评分来剔除与问题无关的视觉关系，筛选出更为可靠的视觉关系进行接下来的特征融合的操作；最后，本发明引入超网络卷积融合的方式来进行特征融合，卷积神经网络(CNN)具有使用多层结构的优点，在保持参数有效性的同时，提高了表达能力。这样使特征融合更加充分，能够使两模态之间进行深层次的交互，进一步促进视觉问答技术的准确性能的提升。

附图说明

图1基于基于动态注意力的超网络融合视觉问答研究的主流程图。

图2基于基于动态注意力的超网络融合视觉问答模型图。

图3超网络卷积融合详细图。

图4图像特征提取faster RCNN结构图。

图5文本特征提取器GRU内部结构图。

具体实施方式

根据上述描述，以下是一个具体的实施流程，但本方法所保护的范围并不限于该实施流程。

步骤1：基于faster RCNN对图像和GRU对文本的特征提取。

首先，对于给定的一张图像，图像里视觉特征表示为即图像中每个物体的视觉特征为/>

而对于文本特征的提取，采用GRU提取文本特征。即将问题文本中的每个词的词向量按顺序输入到GRU模型中，其中GRU模型中有两个门：分别是更新门和重置门，来对问题文本中的每个词进行更新和重置，将不需要的特征丢失，将重要的特征通过门Gate保留下来，使用最终的隐藏状态作为问题的表示，最后得到问题文本的特征的特征向量。如附图5，问题里每个词向量表示为为了方便训练，取问题里前14个词，而对于问题长度大于14个词的问题截断取前14个词的词向量，而对于问题长度小于14个词的问题文本，进行补0操作。如附图5，GRU具体过程为：

z_t＝σ(W_z·[h_t-1,x_t])

r_t＝σ(W_r·[h_t-1,x_t])

其中，x_t为问题文本的第t个词的词向量；σ为sigmoid激活函数或者tanh激活函数；z_t为更新门，r_t为重置门；W_z，W_r与W为参数。

经过GRU来提取文本特征之后，最后得到问题文本的特征表示为

步骤2：图像中物体间的视觉关系特征提取。

步骤2.1：将步骤1图片通过faster RCNN提取出来的图像里每个物体的特征(i,j∈[1,n])进行两两组合得到的联合特征向量表示V_mi∈R^2d(i∈1,2,...,[n(n-1)]/2)，即得到多个两物体之间潜在关系的初始视觉关系特征。

步骤2.2：将V_mi通过卷积神经网络CNN来对两物体之间的初始关系特征进行提取得到两物体之间最优的关系特征表示

步骤2.3：:将问题文本的特征向量Q线性映射到图像的特征空间，即得到则该映射过程表示为：

Q_f＝QW_q

其中，

步骤2.4：通过比较图像视觉关系特征V_f和问题文本特征Q_f的余弦相似度分数的大小，来得到与问题文本中最相关的视觉关系的特征表示，进行特征融合操作。

其余弦相似度公式如下式所示：假设图像通过fasterRCNN提取到的图像里每个物体间联合特征表示以及GRU提取到的问题文本的特征表示为其中，i，j分别为视觉和文本特征向量里的特征元素索引。余弦相似度公式表示为：

接着，选取三个余弦相似度分数排名最高的3个图像视觉关系特征向量，进入基于超网络卷积的特征融合步骤。经过余弦相似度操作得到三个特征向量V₁、V₂、

步骤3：基于基于超网络卷积的特征融合。

特征融合是视觉问答技术非常重要的一步，因此特征融合的性能直接影响视觉问答答案的准确性。本发明改进传统的两模态特征表示的简单拼接以及对应元素乘积的融合方式，通过引入超网络卷积网络来对特征进行融合，即引入超网络来对问题文本特征重构成卷积核的形式，对图像特征进行卷积操作，得到卷积后的特征表示进而完成融合操作。如附图3，

步骤3.1：将步骤2中问题文本特征向量Q_f和超网络进行全连接操作(其中l×f表示卷积层的尺寸，l表示卷积层的长，f表示卷积层的通道数)得到F_r＝vec^-1(Q_fH)∈R^l×f，进而重构成卷积核的形式，卷积核的尺寸为l×1×f。

步骤3.2：将步骤3.1得到的卷积核与图像特征向量V₁,V₂,V₃进行融合，该过程表示为：

V_H1＝V₁*F_r

V_H2＝V₂*F_r

V_H3＝V₃*F_r

其中V_H1,V_H2,V_H3∈R^m×f，这里m＝d_v-l+1使卷积后特征图的长度。接着卷积后得到的特征图V_H1,V_H2,V_H3重构成向量的形式，即：

步骤3.3：为了提高模型的表达力以及增加特征融合的充分性，因此扩展的交互模块通过拼接操作。正如图2所示，对特征交互过程进行3次Interaction模块操作来捕捉更深层次的信息，即Interaction1，Interaction2，Interaction3。经过多次之后得到V_H1i,V_H2j,V_H3z，i,j,z∈(1,2,3)。

步骤4：利用融合图像-问题特征学习多分类的分类器，以正确预测最佳匹配答案。

步骤4.1：步骤3得到图像特征V_H1i,V_H2j,V_H3z。将该九个向量进行全局池化操作，全局池化即当九个特征向量是相同维度的，取九个向量同维度最大的值作为池化后的特征向量该维度的值，得到最后的特征向量Y。

步骤4.1：将全局池化后的特征向量Y进行全连接层操作，即：

a＝YW_g

其中，Y∈R^mf，其中d_a表示的是数据集里答案的个数。这样就使经过全连接层的特征向量的维度和数据集中答案的个数相同，得到的最后的特征向量能包含数据集中所有的答案，即经过全连接层得到的特征向量的每一维度都对应于数据集里的一个答案。

步骤4.2：将经过全连接层之后的特征向量a表示经过softmax函数得到最后的向量a_p，softmax函数公式即：

对于一个向量a＝(x₁,x₂,x₃,···,x_n)来说，公式如下：

其中得到的向量a_p每一维度对应于数据集里每个答案的概率值，取最大的概率值，该概率值所对应的维度对应于数据集里的一个答案，即为问题的答案，即a_p为预测的答案。

步骤4.3：对于答案预测，一些数据集(如VQA)为每个图像-问题对提供多个答案，并且这些不同的答案通常由不同的用户注释。由于答案是用自然语言表示的，对于一个给定的问题，不同的用户可能会提供不同的答案或具有相同或相似含义的表达方式，因此这些不同的答案可能具有很强的相关性，它们根本不是独立的。例如，“alittle dog”和“apuppy”都表示小狗，所以可能是同一个问题的正确答案。受这些观察结果的启发，设计一个适当的机制来模拟同一问题的多个不同答案之间的复杂关联是很重要的。使用KL-divergence散度(KLD)作为损失函数，以更准确地描述预测答案的概率分布与注释者给出的基本真相答案的概率分布之间的一致性。与传统方法中的答案抽样方法相比，使用KLD损失可以获得更快的收敛速度，并获得稍好的答案预测精度。使用KL-divergence作为的损失函数来对模型进行训练，基于a_p与a_t,其中a_p为经过模型得到的预测答案，a_t为真实的答案。KL-divergence公式为：

实验

评估的模型在VQA2.0数据集上。VQA2.0数据集包括1105904个样本，这些样本被分为三个部分，分的比例为：训练集(40.1％)，验证集(19.4％)和测试集(40.5％)。使用如下的评估方法来评估的模型：

其中，Count(a)是由不同的评注者投票选出的答案a的票数。

实验结果如表1所示：

表1：在VQA2.0上与其他方法的对比实验结果

Claims

1.基于动态注意力的超网络融合视觉问答答案准确性的方法，其特征在于：包括如下步骤，S1基于fasterRCNN对图像和GRU对文本的特征提取；采用faster RCNN来对图像特征进行提取；采用GRU对文本特征进行提取；

S2图像内物体间的视觉关系特征提取；图像视觉关系特征采用图像里两物体的联合特征得到初步的关系特征表示，之后通过卷积神经网络CNN来对初始特征进一步进行提取得到视觉关系特征的最优的特征表示；接下来视觉关系特征表示与文本的特征表示进行余弦相似度计算，得到相似度分数，排在前三位的分数的视觉关系特征向量被认为是和问题文本反映的最相关的关系的特征表示；

S3基于超网络卷积的特征融合；采用基于超网络卷积的方法来融合两种模态的特征；利用超网络来对问题文本特征重构成卷积核的形式，接着把图像特征作为特征图来进行卷积操作，最后把卷积后的结果通过全连接层映射到需要的维度空间；

S4利用融合图像-问题特征学习多分类的分类器，以正确预测最佳匹配答案；在VQA方法中，回答阶段被定义为一个多类分类问题，每个答案都指向一个单独的类；通过Softmax函数取对应于最大值的的答案类别作为最佳匹配答案；当对图像和文本进行特征提取之后经过融合之后得到的特征经过多分类才能得到的答案，需要对特征进行充分的融合；

S4包括，

步骤4.1：步骤3得到图像特征V_H1i,V_H2j,V_H3z，i,j,z∈(1,2,3)；将该九个向量进行全局池化操作，全局池化即当九个特征向量是相同维度的，取九个向量同维度最大的值作为池化后的特征向量该维度的值，得到最后的特征向量Y；

步骤4.2：将全局池化后的特征向量Y进行全连接层操作，即：

a＝YW_g

其中，Y∈R^mf，其中d_a表示的是数据集里答案的个数；这样就使经过全连接层的特征向量的维度和数据集中答案的个数相同，得到的最后的特征向量能包含数据集中所有的答案，即经过全连接层得到的特征向量的每一维度都对应于数据集里的一个答案；

步骤4.3：将经过全连接层之后的特征向量a表示经过softmax函数得到最后的向量a_p，softmax函数公式即：

对于一个向量a＝(x₁,x₂,x₃,···,x_n)来说，公式如下：

其中得到的向量a_p每一维度对应于数据集里每个答案的概率值，取最大的概率值，该概率值所对应的维度对应于数据集里的一个答案，即为问题的答案，即a_p为预测的答案；

步骤4.4：使用KL-divergence散度KLD作为损失函数，以更准确地描述预测答案的概率分布与注释者给出的基本真相答案的概率分布之间的一致性；使用KL-divergence作为的损失函数来对模型进行训练，基于a_p与a_t,其中a_p为经过模型得到的预测答案，a_t为真实的答案；KL-divergence公式为：

2.根据权利要求1所述的基于动态注意力的超网络融合视觉问答答案准确性的方法，其特征在于：S1中，对于给定的一张图像，图像里视觉特征表示为即图像中每个物体的视觉特征为/>而对于文本特征的提取，采用GRU提取文本特征；即将问题文本中的每个词的词向量按顺序输入到GRU模型中，其中GRU模型中有两个门：分别是更新门和重置门，来对问题文本中的每个词进行更新和重置，将不需要的特征丢失，将重要的特征通过门Gate保留下来，使用最终的隐藏状态作为问题的表示，最后得到问题文本的特征的特征向量；问题里每个词向量表示为/>取问题里前14个词，而对于问题长度大于14个词的问题截断取前14个词的词向量，而对于问题长度小于14个词的问题文本，进行补0操作；GRU具体过程为：

z_t＝σ(W_z·[h_t-1,x_t])

r_t＝σ(W_r·[h_t-1,x_t])

其中，x_t为问题文本的第t个词的词向量；σ为sigmoid激活函数或者tanh激活函数；z_t为更新门，r_t为重置门；W_z，W_r与W为参数；

3.根据权利要求1所述的基于动态注意力的超网络融合视觉问答答案准确性的方法，其特征在于：S2中，

步骤2.1：将步骤1图片通过fasterRCNN提取出来的图像里每个物体的特征(i,j∈[1,n])进行两两组合得到的联合特征向量表示V_mi∈R^2d，i∈1,2,...,[n(n-1)]2，即得到多个两物体之间潜在关系的初始视觉关系特征；

Q_f＝QW_q

其中，

步骤2.4：通过比较图像视觉关系特征V_f和问题文本特征Q_f的余弦相似度分数的大小，来得到与问题文本中最相关的视觉关系的特征表示，进行特征融合操作；

假设图像通过fasterRCNN提取到的图像里每个物体间联合特征表示以及GRU提取到的问题文本的特征表示为/>其中，i，j分别为视觉和文本特征向量里的特征元素索引；余弦相似度公式表示为：

接着，选取三个余弦相似度分数排名最高的3个图像视觉关系特征向量，进入基于超网络卷积的特征融合步骤；经过余弦相似度操作得到三个特征向量V₁、

4.根据权利要求1所述的基于动态注意力的超网络融合视觉问答答案准确性的方法，其特征在于：S3中，

步骤3.1：将步骤2中问题文本特征向量Q_f和超网络进行全连接操作，其中l×f表示卷积层的尺寸，l表示卷积层的长，f表示卷积层的通道数；得到F_r＝vec^-1(Q_fH)∈R^l×f，进而重构成卷积核的形式，卷积核的尺寸为l×1×f；

V_H1＝V₁*F_r

V_H2＝V₂*F_r

V_H3＝V₃*F_r

其中V_H1,V_H2,V_H3∈R^m×f，这里m＝d_v-l+1使卷积后特征图的长度；接着卷积后得到的特征图V_H1,V_H2,V_H3重构成向量的形式，即：

步骤3.3：为了提高模型的表达力以及增加特征融合的充分性，因此扩展的交互模块通过拼接操作；对特征交互过程进行3次Interaction模块操作来捕捉更深层次的信息，即Interaction1，Interaction2，Interaction3；经过多次之后得到V_H1i,V_H2j,V_H3z，i,j,z∈(1,2,3)。