CN110377710B

CN110377710B - 一种基于多模态融合的视觉问答融合增强方法

Info

Publication number: CN110377710B
Application number: CN201910520138.7A
Authority: CN
Inventors: 颜成钢; 俞灵慧; 孙垚棋; 张继勇; 张勇东
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2019-06-17
Filing date: 2019-06-17
Publication date: 2022-04-01
Anticipated expiration: 2039-06-17
Also published as: CN110377710A

Abstract

本发明公开了一种基于多模态融合的视觉问答融合增强方法。本发明步骤如下：1、利用GRU结构构建时序模型，获得问题的特征表示学习、利用从Faster R‑CNN抽取的基于自底向上的注意力模型的输出作为图像的特征表示；2、基于注意力模型Transformer进行多模态推理，引入注意力模型对图片‑问题‑答案这个三元组进行多模态融合，建立推理关系；3、针对不同的隐含关系有不同的推理过程和结果输出，再根据这些结果输出来进行标签分布回归学习，来确定答案。本发明基于特定的图片和问题得到答案直接应用于服务于盲人的应用中，能够帮助盲人或者视觉障碍者更好地感知周围环境，也应用于图片检索系统，提高图片检索的准确性和多样性。

Description

一种基于多模态融合的视觉问答融合增强方法

技术领域

本发明属于计算机视觉、自然语言技术领域，特别地，本发明涉及一种基于多模态融合的视觉问答融合增强方法。

背景技术

视觉问答(Visual QuestionAnswer，简称VQA)是一个结合计算机视觉领域和计算机自然语言领域的一个任务，其需要解决的就是对特定的一张图片提出一个特定的问题，推理出其答案。VQA有许多潜在的应用场景，最直接的就是那些帮助盲人和视觉受损用户的应用，可以为盲人或者视觉受损用户理解周围环境，通过交互式的程序，能够感知互联网以及现实生活中的场景；另一个明显的应用是将VQA集成到图像检索系统中，通过自然语言来影响图像的检索，对社交或者商务产生巨大影响。

VQAtask主要解决下面三个问题：

1.对图像和问题的细粒度特征表示；

2.多模态特征融合，能够捕捉多模态特征之间的复杂交互关系；

3.考虑同一个问题的多个答案之间的语义关联。

基于深度学习的相关技术已经在计算机视觉领域取得了相当大的成功，比如图像分割，物体检测，图像分类等任务，从一开始的深度卷积神经网络，到AlexNet，之后又有VGGNet，GoogLenet等网络结构，尤其是基于残差的深度卷积神经网络ResNet，这些网络的发展对图像的细粒度特征表示这一任务打下了坚实的基础。对于问题的细粒度特征表示这一任务，传统的方法主要是先提取文本特征，再利用如支持向量机等算法进行学习，随着深度学习的发展，基于时序的递归神经网络以及基于长短期记忆的神经网络能够在句子语义的建模和理解上有很好的效果，很大程度上改善了有关自然语言的任务，比如机器翻译等的性能。

目前针对第二个任务，多模态特征融合，主要可以分为两类：

第一类是直接将图片特征和问题特征融合起来，比如点乘，拼接，双线性池化等；

第二类是基于注意力机制的特征融合，先把图片特征和问题特征融合得到注意力分值，再对图片特征进行注意力分配，比如最早期提出的双线性模型，MLB，MUTAN，MFH，MFB等方法。

缺点：这些方法几乎都只考虑了问题和图像之间的关系，但是忽略了图像-问题-答案这个三元组之间的隐藏关系，我们可以这样想象，当你知道具体答案的时候，你也可能有能力去推测问题，因此答案的作用在推理的过程中可能扮演了一个很重要的角色但是这些方法却忽略了这个重要的信息，当然也有工作考虑到了这一关系，尝试通过将图像特征表示、问题特征表示、答案特征表示进行简单的拼接，或者把图像和问题进行融合之后再映射到答案特征上面去，但是这两种方法很难将三元组之间的关系全面得表示出来。

综合上述技术，不难看出目前视觉问答主要还是基于图像特征和问题特征的融合，而答案特征并没有起到应该有的作用，答案特征有时甚至能够使得任务准确性有很大提升，且图像-问题-答案之间的复杂关系无法全面地被表达出来，且存在如下缺点：

1.没有有效利用答案信息，无法发挥答案信息的巨大作用；

2.在问题特征和图片特征进行多模态融合的时候，无法简洁有效地利用注意力机制来获取最值得关注地区域。

发明内容

本发明的目的是为了解决目前是视觉问答任务对答案利用率不高，甚至没有利用答案信息的问题，并且同时完善图片特征和问题特征之间的多模态融合方案。其输入有三个：视频特征、问题特征以及答案的嵌入式表示。

本发明提出的一种基于多模态融合的视觉问答融合增强方法，其过程包括以下步骤：

步骤1、利用GRU(Gated Recurrent Unit)结构构建时序模型，获得问题的特征表示学习、利用从Faster R-CNN抽取的基于自底向上的注意力模型的输出作为图像的特征表示；

步骤2、基于注意力模型Transformer进行多模态推理方法，在这一步引入注意力模型对图片-问题-答案这个三元组进行多模态融合，并且来建立推理关系；

步骤3、根据步骤2，多种不同的图像-问句-答案隐含关系被涵盖了，且针对不同的隐含关系有不同的推理过程和结果输出，再根据这些结果输出来进行标签分布回归学习，来确定答案。

本发明的特点及有益效果：

本发明实现了一种基于多模态融合的视觉问答融合增强方法，对视觉任务有较大意义。本发明中的方法利用利用GRU获得问题的特征表示学习、利用从Faster R-CNN抽取的基于自底向上的注意力模型的输出作为图像的特征表示使得模型的输入特征能够更好地表达任务所需要的信息，在源头上提高模型的准确率，之后引入的注意力模型能够使得网络的注意力能够像人一样关注在值得关注的地方，最后，利用标签分布学习和KL散度损失函数和softmax回归方法来拟合真实答案分布情况，在开放型的数据集中更好地提高准确率。该方法的视觉问答结果，即基于特定的图片和问题得到答案可以直接应用于服务于盲人的应用中，能够帮助盲人或者视觉障碍者更好地感知周围环境，也可以应用于图片检索系统，提高图片检索的准确性和多样性。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明提出的基于多模态融合的视觉问答融合增强方法，如图1-4所示，包括以下三个步骤：

步骤1、利用GRU(Gated Recurrent Unit)结构构建时序模型，获得问题的特征表示学习、利用从Faster R-CNN抽取的基于自底向上的注意力模型的输出作为图像的特征表示。本发明将句子中的每个单词都按照顺序时刻依次输入到GRU模型中，句子的最后一个单词的GRU输出可以表示整个句子。

如图1所示，GRU中有两个门，一个是重置门r_t，另一个是更新门z_t，令句子q＝{x₁,x₂,…,x_n}，其中x_i代表了第i个单词，重置门和更新门的公式如下所示:

r_t＝σ(W^rx_t+U^rh_t-l)

z_t＝σ(W^zx_t+U^zh_t-1)

然后计算候选隐含层h_t'：

ht'＝tanh(Wx_t+r_tUh_t-1)

h_t'表示的是输入第t个单词之后得到的更新后的信息，r_t则能控制保留多少前t个单词的相关记忆，如果r_t＝0，那么h_t'就只有包含当前词x_t的信息。

更新门控制需要从前t-1个单词中遗忘的信息，输入第t个单词之后，能够得到前t个词中的所有过滤好的信息：

问句s的特征表示为v_q＝h_n{x₁,x₂,…,x_n}。

步骤2、基于注意力模型Transformer进行多模态推理，引入注意力模型对图片-问题-答案这个三元组进行多模态融合，并建立推理关系。

在视觉问答任务中，注意力机制是一个很重要的部分，他能够使得我们在基于问题的基础上能够关注到图片中和问题更匹配的区域，比如问题是骑在自行车上的人穿什么颜色的衣服，那么基于注意力机制的模型就会将图片上的骑自行车的人的区域给予高度的关注，Google提出的transformer模型的主要思路就是只要依靠注意力，模型能学习到很好的信息，Google的一般化Attention思路也是一个编码序列的方案，因此我们也可以认为它跟RNN、CNN一样，都是一个序列编码的层，如图2所示：

这是一般化的框架的描述，其attention的定义如下:

事实上Q,K,V分别是query，key，value的简写，K,V是一一对应的，它们就像是key-value的关系，那么上式的意思就是通过Q这个query，通过与K内积，并softmax的方式，来得到Q与各个V的相似度，然后加权求和，得到一个向量。其中因子

起到调节作用，使得内积不至于太大。

Multi-HeadAttention是Google提出的新概念，是Attention机制的完善。

MultiHead(Q,K,V)＝Concat(head_i,...head_h)

不过从图中可以看到，它很简单，就是把Q,K,V通过参数矩阵映射一下，然后再做Attention，把这个过程重复做h次，结果拼接起来就行了。所谓“多头”(Multi-Head)，就是只多做几次同样的事情(参数不共享)，然后把结果拼接。

Attention层的好处是能够一步到位捕捉到全局的联系，因为它直接把序列两两比较，代价是计算量变为

相比之下，RNN需要一步步递推才能捕捉到，不能并行运行，而CNN则需要通过层叠来扩大感受野，这是Attention层的明显优势，能在比较小的代价下学习到比较精炼和有用的信息。Google的论文结果表明将纯注意力机制用在机器翻译中，能取得目前最好的效果，这也反应了transformer的强性能。

因此将transformer引入到我们的视觉问答中来，能够使得基于问题学习到更好的和为问题有关的图片信息。

传统的视觉问答方法几乎都只考虑了问题和图像之间的关系，但是忽略了图像-问题-答案这个三元组之间的隐藏关系，但是答案在推理的过程中可能扮演了一个很重要的角色，当然也有一些的前人工作考虑到了答案的重要性，尝试通过将图像特征表示、问题特征表示、答案特征表示进行简单的拼接，或者把图像和问题进行融合之后再映射到答案特征上面去，但图像-问题-答案之间的复杂关系无法全面地被表达出来。因此我们将答案信息通过嵌入式表达之后，引入视觉问答任务。

图4是本发明提出的视觉问答系统整体框架图，可以看到问题-图片对经过transformer模块生成的向量与answer embedding又进行了一次融合，最后得到了带有答案信息的特征和只有图片-问题信息的特征，这两部分进行结合之后，能够得到整个视觉任务的信息特征，再将这些信息送入带有线性变换和softmax模块的分类系统，最后我们可以看到，答案是大象的得分是最高的，也是我们最后需要的答案。

步骤3、利用标签分布学习和KL散度损失函数和softmax回归方法来拟合真实答案分布情况。

在生活中，当你对着一个图像提出一个问题的时候，正确的答案可能只有一个，但是也可能有多个相似的答案，比如当你问yes/no类型的问题时，只能回答yes或者no，但是当你问关于颜色的问题时，因为物体可能不全是同一种颜色，大部分红色夹杂着一点点的白色时，答案是红色或者红色和白色都是可以的。在像视觉问答常用的数据集VQA和VQA-2.0中，每一对图像-问题都是由很多人使用多个答案进行标注的。每个图像-问题样本的答案可以被表示为一个与该样本对应的答案的概率分布向量

其中y_i∈[0，1]表示候选答案

中第i个问题在该样本的人工标注的答案中出现的频率。由于视觉问答模型的输出是每个答案的得分，一个直接的做法是使用基于边界的损失函数(marginbased lossfunction)来最大化正确答案与其他错误答案之间的距离,代替传统的softmax+cross-entropy的损失方式，有效提高不同关系类别之间的区分性。基于边界的损失函数为:

对于答案是开放型的视觉问答任务来说，一个问题-图像对往往有数量庞大的候选答案，如果采用基于边界的损失函数，那么要考虑的负样本空间很大，对于难样本的选择要求较高，且训练、和采样的复杂度会很高。而且基于边界的损失函数通常只能考虑少量的负样本，这样对于视觉问答模型来说，增加了很多随机性，而且也会使模型在训练的时候需要更多的迭代次数。

因此本发明将基于负样本采样的边界损失学习问题转变为面向所有候选答案分布y的标签分布学习(label distribution learning，简称LDL)问题。对于图像-问题样本的每一个与之对应的候选答案a_i都计算出一个相关度得分s_att(q,I,a_i)。然后用softmax回归方法来拟合真实答案分布的情况：

最后使用KL散度损失函数(KL-divergence loss function)来对错误的答案预测进行惩罚，KL距离是两个随机分布间距离的度量。记为D_KL(p||q)。它度量当真实分布为p时，假设分布q的无效性，其公式为：

当p＝q的时候，散度为0。

我们通过最小化如下损失函数的方式进行模型训练：

其中N是所有被用来训练的图像-问题对的数量。测试的时候，只需要将所有候选答案的特征表示输入模块，然后选择三元组相关度最高的答案s_att(q,Ｉ,a_ｉ)最为最终预测的答案即可。

Claims

1.一种基于多模态融合的视觉问答融合增强方法，其特征在于包括以下步骤：

步骤1、利用GRU结构构建时序模型，获得问题的特征表示学习、利用从Faster R-CNN抽取的基于自底向上的注意力模型的输出作为图像的特征表示，具体将句子中的每个单词都按照顺序时刻依次输入到GRU模型中，句子的最后一个单词的GRU输出表示整个句子；

步骤2、基于注意力模型Transformer进行多模态推理，同时引入注意力模型对图片-问题-答案这个三元组进行多模态融合，从而建立推理关系；

步骤3、由于多种不同的图像-问句-答案隐含关系被涵盖，且针对不同的隐含关系有不同的推理过程和结果输出，利用标签分布学习和KL散度损失函数和softmax回归方法来拟合真实答案分布情况；

所述的GRU中有两个门，一个是重置门r_t，另一个是更新门z_t，令句子q＝{x₁，x₂，...，x_n}，其中x_i代表了第i个单词，重置门和更新门的公式如下所示：

r_t＝σ(W^rx_t+U^rh_t-1)

z_t＝σ(W^Zx_t+U^zh_t-1)

然后计算候选隐含层h_t′：

h_t′＝tanh(Wx_t+r_tUh_t-1)

h_t′表示的是输入第t个单词之后得到的更新后的信息，r_t则能控制保留多少前t个单词的相关记忆，如果r_t＝0，那么h_t′就只有包含当前词x_t的信息；

问句s的特征表示为v_q＝h_n{x₁，x₂，...，x_n}；

步骤2所述的注意力模型，其attention的定义如下：

其中，Q，K，V分别是query、key、value的简写，K，V是一一对应的，它们就像是key-value的关系，那么上式的意思就是通过Q这个query，通过与K内积，并softmax的方式，来得到Q与各个V的相似度，然后加权求和，得到一个向量；其中因子

起到调节作用；

Multi-Head Attention是Google提出的新概念，是Attention机制的完善：

MultiHead(Q，K，V)＝Concat(head₁，...head_h)

将Q，K，V通过参数矩阵映射，然后再做Attention，将该过程重复做h次，并将结果拼接起来就行了；

将答案信息通过嵌入式表达之后，引入视觉问答任务；问题-图片对经过transformer模块生成的向量与answer embedding又进行了一次融合，最后得到了带有答案信息的特征和只有图片-问题信息的特征，这两部分进行结合之后，能够得到整个视觉任务的信息特征，再将这些信息送入带有线性变换和softmax模块的分类系统，从而最后需要的答案。

2.根据权利要求1所述的一种基于多模态融合的视觉问答融合增强方法，其特征在于步骤3具体实现如下：

在像视觉问答常用的数据集VQA和VQA-2.0中，每一对图像-问题都是由很多人使用多个答案进行标注的；每个图像-问题样本的答案可以被表示为一个与该样本对应的答案的概率分布向量

其中y_i∈[0，1]表示候选答案

中第i个问题在该样本的人工标注的答案中出现的频率；由于视觉问答模型的输出是每个答案的得分，一个直接的做法是使用基于边界的损失函数来最大化正确答案与其他错误答案之间的距离，代替传统的softmax+cross-entropy的损失方式，基于边界的损失函数为：

将基于负样本采样的边界损失学习问题转变为面向所有候选答案分布y的标签分布学习问题；对于图像-问题样本的每一个与之对应的候选答案a_i都计算出一个相关度得分s_att(q，I，a_i)；然后用softmax回归方法来拟合真实答案分布的情况：

最后使用KL散度损失函数来对错误的答案预测进行惩罚，KL距离是两个随机分布间距离的度量；记为D_KL(p||q)；它度量当真实分布为p时，假设分布q的无效性，其公式为：

当p＝q的时候，散度为0；

通过最小化如下损失函数的方式进行模型训练：

其中N是所有被用来训练的图像-问题对的数量；测试的时候，只需要将所有候选答案的特征表示输入模块，然后选择三元组相关度最高的答案s_att(q，I，a_i)最为最终预测的答案即可。