CN110287814A

CN110287814A - 一种基于图像目标特征和多层注意力机制的视觉问答方法

Info

Publication number: CN110287814A
Application number: CN201910482831.XA
Authority: CN
Inventors: 曹丹阳; 侯建峰; 任旭; 陈明珠; 饶竣恺
Original assignee: North China University of Technology
Current assignee: North China University of Technology
Priority date: 2019-06-04
Filing date: 2019-06-04
Publication date: 2019-09-27

Abstract

本发明公开了一种基于图像目标特征和多层注意力机制的视觉问答方法，包括图像特征处理、问题模型处理和多层注意力机制；所述图像特征处理是经过卷积神经网络进行特征提取；所述图像特征处理需要先进行初始化，将图像特征的维度转换成与问题向量相同大小；所述问题模型处理使用了LSTM网络来处理问题语句；所述注意力机制将图像特征表示和问题特征表示联系在一起。本发明中使用目标检测算法提取到目标区域图像特征来替代全局图像特征在视觉问答任务中是有效果的，它提高了模型在评价指标上的表现，同时，使用多层注意力机制也在一定程度上提高了模型在评价指标上的分数。

Description

一种基于图像目标特征和多层注意力机制的视觉问答方法

技术领域

本发明涉及基于计算机的视觉问答技术领域，具体是一种基于图像目标特征和多层注意力机制的视觉问答方法。

背景技术

视觉问答(Visual Question Answering，VQA)是关于视觉图像的自然语言问答，它在出处论文中的定义被归结为如下：A VQA system takes as input an image and afree-form,open-ended,natural-language question about the image and produces anatural-language answer as the output。用中文表述，就是一个视觉问答系统，输入是一张图片和一个关于这张图片的自由形式的、开放式的自然语言问题，输出是一条自然语言答案。该定义很好地诠释了什么是视觉问答，通俗地讲，VQA就是按照图片进行相关问答。

让机器读懂图片和问题语句，然后进行答案的输出对于人来说比较容易，但是对于没有思想的机器来说就比较困难了，如何让机器具有人的“思想”，读懂图像和问题语句所包含的信息，成为近年来视觉问答发明者的着重解决的问题，因为这需要多方面的人工智能的技术，比如物体识别、目标检测、细粒度识别、行为识别和自然语言处理中的文本理解。随着国内外发明人员的不断探索，视觉问答技术可以分为以下几类：

1、非深度学习方法

(1)对于答案类型的预测方法。Kafle和Kanan在2016提出了一种视觉问答的贝叶斯模型，该方法的思想是把图像特征以及问题共同出现的统计数据建模成一种推断问题和图像之间的关系的方法。作者利用问题的特征和答案的类型，对图像特征的概率进行建模，同时作者还介绍了几种简单的基线方法，比如只将问题特征或者答案特征送到逻辑回归模型，或者将这两种特征同时送入逻辑回归等等，他们的工作在视觉问答数据集上进行了评估。

(2)多元世界问答模型(Multi-World QA)。该模型从问题语句中进行分析，得到语义分析树，然后从原始图像或者图像分割块中得到附加特征，最后使用确定性评价函数来评估概率函数，再使用简单的对数线性模型得到基于问题的隐藏变量的概率。针对模型存在分割和分类标签的不确定性，作者又将模型进一步拓展到多元的世界的场景。

2、基于深度学习的方法

基于深度学习的方法的视觉问答模型大多都是使用卷积神经网络(CNN)对图像进行处理并获得图像特征，使用RNN以及一些变体(比如LSTM、GRU)来对问题语句进行处理从而获得问题特征，之后再以不同方式结合图像特征和问题特征，经过处理之后获得答案。由于注意力机制在机器翻译中的成功，也被众多发明者应该用到图像标注(Imagecaption) 和视觉问答中来，注意力机制可以将注意重点放在图像或者问题的重要部分，从而能够使模型在提取特征时更注重这些部分，有利于实验准确性的提高。Shih等人提出了称为Where to look(WTL)的基于注意力机制的模型。作者使用VGG网络对图像进行编码，问题特征由问题中词向量求平均得到，在图像特征上计算得到注意力向量决定图像中哪个位置的特征更重要，最后将注意力向量加权到图像特征上连接到问题嵌入向量送入dense+softmax 层得到答案。

3、其他模型。

还存在一些其他的模型，比如Andreas等人提出的神经网块模型、Wu等人提出的AMA (Ask me anything)模型，都是使用了更多的思想，组合了更多的技术，而不仅仅是在图像特征或者问题特征的注意力值的问题上。

根据调研，得出的结论是只使用卷积神经网络提取图像特征，使用循环神经网络提取问题语句的特征，之后将两者联合嵌入的方法在视觉问答实验效果并不理想，根据最近发明表明，图像目标特征能够很好地替代整张图像所要表达的信息，并且能够达到更好的效果，所以本发明提出使用图像目标特征作为图像信息表示；由于注意力机制能提高为视觉问答模型的准确性，而单层注意力机制对模型的提升效果有限，本文使用多层注意力机制改进单层注意力机制对模型效果提升能力不足的问题。

发明内容

本发明的目的在于提供一种基于图像目标特征和多层注意力机制的视觉问答方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明首先使用Faster RCNN提取目标特征作为整个图像的特征表示，其次，本发明使用多层注意力机制提高模型准确性，并且进行了端到端的训练；具体技术方案如下：

一种基于图像目标特征和多层注意力机制的视觉问答方法，包括图像特征处理、问题模型处理和多层注意力机制；所述图像特征处理是经过卷积神经网络(CNN)进行特征提取，使用了残差网络作为基础特征提取网络，这里提取到的特征表示为K x 2048的矩阵，每个向量大小是2048维，每张图像有K个向量表示，K表示图像中的不同的位置；所述图像特征处理需要先进行初始化，将图像特征的维度转换成与问题向量相同大小；所述问题模型处理使用了LSTM网络来处理问题语句；所述注意力机制将图像特征表示和问题特征表示联系在一起。

作为本发明的进一步方案：所述LSTM中起作用最大的是遗忘门、输入门和输出门；在每一个时间步骤中，LSTM会接受一个输入向量x_t，这个输入向量就是词向量，然后会更新记忆单元c_t的值，之后会输出一个隐层状态h_t，在LSTM中信息的更新过程就是用门机制控制，遗忘门f_t控制了上一时刻的c_t-1中的信息有多少将会保留下来；输入门i_t控制了当前输入X_t中有多少信息被更新到记忆单元中去；输出门o_t则控制了记忆单元中的多少信息被送入隐层状态中，用于后续输出

作为本发明的再进一步方案：所述多层注意力机制，是一个迭代的结果，每一层注意力机制都会提取更细粒度的视觉信息用于答案的生成。

与现有技术相比，本发明中使用目标检测算法提取到目标区域图像特征来替代全局图像特征在视觉问答任务中是有效果的，它提高了模型在评价指标上的表现，同时，使用多层注意力机制也在一定程度上提高了模型在评价指标上的分数；本发明方法可应用于帮助盲人和视觉受损的用户理解视觉信息，也可在网络或者社交媒体上为用户提供所需图像信息，最重要的应用是将视觉问答系统集成到图像检索系统中，为社交媒体和电子商务带来巨大利润。

附图说明

图1为卷积神经网络提取特征图。

图2为问题语句处理模型图。

图3为单层注意力机制关注区域示意图。

图4为多层注意力机制关注区域示意图。

具体实施方式

下面结合具体实施方式对本专利的技术方案作进一步详细地说明。

请参阅图1-4，一种基于图像目标特征和多层注意力机制的视觉问答方法，包括图像特征处理、问题模型处理和多层注意力机制。

所述图像特征处理首先要经过卷积神经网络(CNN)进行特征提取，常用的图像特征提取网络有VGG系列、Inception系列、ResNet系列等，为了能够获取到高质量的图像特征，本发明使用了残差网络作为基础特征提取网络，这里提取到的特征表示为Kx2048 的矩阵，每个向量大小是2048维，每张图像有K个向量表示，K表示图像中的不同的位置，图1所示的即为卷积神经网络提取特征图。

使用ResNet网络进行图像的特征提取，然后利用Faster R-CNN框架进行图像目标位置的选取，最后的结果在ResNet生成的特征上映射出top-K个目标的特征图；为了后续工作便利，本发明把K固定为36个，也就是说每张图像选取36个目标区域作为最后的图像特征，每个目标是一个2048维的向量。

为了训练模型更加方便，也是为了能够更方便地和问题特征进行联合使用，本发明首先对图像特征进行初始化，目的是把图像特征的维度转换成与问题向量相同大小。

v_I＝tanh(W_If_I+b_I) (1)

这里的v_I是一个矩阵，它的每一列都是一个目标区域i的视觉特征向量，f_I是每张图片的图像特征表示，W和b是相关参数。

本发明为了能够更好地获取问题语句的特征，使问题语句特征在生成答案时发挥出更好地作用，使用了LSTM网络来处理问题语句，LSTM能够记住长期的信息，主要解决了RNN 中存在的长期依赖的问题。

LSTM结构中记住长期信息的部分称为记忆单元，用c_t表示，这也是整个结构中最关键的一部分，因为它类似一条传送带，很少与网络中的其他部分进行线性交互，所以上面的信息能够保持不变，从而使得信息的保存变得很容易。

LSTM中起作用最大的是遗忘门、输入门和输出门，正是这种特殊的门结构，决定了如何选择信息和传递信息；在每一个时间步骤中，LSTM会接受一个输入向量x_t，这个输入向量就是词向量，然后会更新记忆单元c_t的值，之后会输出一个隐层状态h_t，在LSTM中信息的更新过程就是用门机制控制，遗忘门f_t控制了上一时刻的c_t-1中的信息有多少将会保留下来；输入门i_t控制了当前输入X_t中有多少信息被更新到记忆单元中去；输出门o_t则控制了记忆单元中的多少信息被送入隐层状态中，用于后续输出。

LSTM中信息更新过程如下公式所示：

h_t＝o_ttanh(c_t) (6)

这里的i，f，o，c分别代表了输入门、遗忘门、输出门和记忆单元，权重矩阵W和偏置参数b都是LSTM在训练中学习到的参数，更好的训练有利于参数的矫正，进而提高模型准确性。

给定一个问题语句q＝[q₁,q₂,......q_T]，这里的q_T代表单词的独热码，本发明中利用一个嵌入矩阵将单词嵌入到一个向量空间去，嵌入过程可以表示为x_t＝W_eq_t，然后在每一个时间步骤，本发明可以将单词逐一送入LSTM结构中：

x_t＝W_eq_t，t∈{1,2，……T} (7)

h_t＝LSTM(x_t)，t∈{1，2，……T} (8)

如图2所示，问题语句what is the boy eating正在被送入LSTM，最后一个隐层向量作为这个问题的表示向量；通过LSTM，可以将问题表示成向量v_Q，进而能够为后来的发明做准备。

所述注意力机制将图像特征表示和问题特征表示联系在一起，由上面的图像特征处理、问题模型处理内容可以得到图像的特征表示矩阵称为v_I，也可以得到问题的特征表示向量称为v_Q，本发明为了进一步缩小模型所关注的图像相关区域的范围，使用了多层注意力机制，也就是在第一层注意力机制的基础上再使用一层注意力机制，很好地达到了确定目标范围的目的。

在很多情况下，单层注意力机制并不能够很好地确定图像关注的区域，比如图3中，男孩在吃香蕉，单层注意力机制会确定图中浅色模糊区域的范围，但这扩大了模型实际需要的范围，如果图像中存在很多目标，那就有可能会带来错误的结果，所以为了提高模型准确性，本发明使用了多层注意力机制，在单层注意力机制的基础上，再使用一层注意力机制，就可以准确定位关注区域，如图4所示，这样模型逐渐消除噪声，最后定位的区域与生成的答案具有高度相关性，模型准确性更高。

已知图像特征表示v_I和问题语句特征表示v_Q，首先可以利用一个单层神经网络，然后利用一个softmax函数去生成第一个图像区域的注意力分布，也就是第一层注意力机制，相关公式如下表示：

P_I＝softmax(W_Ph_A+b_P) ₍10)

上述公式中v_I∈R^d×m，这里的d是图像特征表示的维度，而m指的是每张图像中的区域数量，v_Q∈R^d是一个d维的向量；这里的W_T,A,W_Q,A∈R^k×d，W_P∈R^1×k；而P_I∈R^m是一个m维的向量，它对应的是给定图像特征表示v_Q中每个区域的注意力概率；本发明通过符号⊕来在矩阵上添加向量；由于W_I,Av_I∈R^k×m，而且W_Q,Av_Q和b_A都是向量，矩阵和向量之间的加和是需要对矩阵的每一列都进行操作。

得到了图像区域的注意力分布，需要计算每个区域的图像向量的加权和，用符号表示，求和公式见公式11；然后需要将与问题向量v_Q联合起来形成一个查询向量，这里用 u表示，过程见公式12，向量u可以看成是一个精炼的查询向量，因为它将视觉信息和问题信息编码，这个编码与潜在的答案有着密切的联系。

注意力机制的优势在于，与单纯的将问题向量与图像全局特征结合相比，使用注意力机制时，与问题更相关的视觉区域被赋予了更高的权重，这样u就包含了更丰富的信息，从而有利于模型生成更准确的答案。然而单层注意力机制可能不足以定位图像中正确的区域，因此，本发明使用多层注意力机制，实际是一个迭代的结果，每一层注意力机制都会提取更细粒度的视觉信息用于答案的生成，多层注意力机制的公式如下，这里的k表示第 k层注意力机制：

这里的u⁰在初始化时用的是v_Q，然后将聚合后的图像特征向量加到之前的一个查询向量中，形成了一个新的查询向量，也就完成了查询向量的更新，更新公式如下所示：

从上述公式中可以看到，在每一个注意力机制层，本发明使用联合问题和图像特征向量u^k-1作为查询向量去查询图像，在选择图像区域之后，再更新得到新的查询向量，是由公式来更新的，理论上可以更新这个过程K次，然后用最后的向量u^k来推断最终的答案，推断公式如下：

P_answer＝softmax(W_uu^K+b_u) (17)

图3和图4中，可以看到，在第一层注意力机制之后，模型能够大致推断出需要选择的区域，但是还不精确，经过第二层注意力机制，模型更加清晰地聚焦到了与答案香蕉相对应的区域，从而获得正确答案

通过实验验证，本发明中使用目标检测算法提取到目标区域图像特征来替代全局图像特征在视觉问答任务中是有效果的，它提高了模型在评价指标上的表现，同时，使用多层注意力机制也在一定程度上提高了模型在评价指标上的分数，但是注意力机制超过三层，并不能给模型带来较为明显的提升，还加大了参数数量，增加了计算负担，所以使用两层注意力机制不仅可以提升模型效果，模型也能够正常训练，不会使计算机超负荷运行；综上所述，本发明改进了视觉问答模型在评价指标的得分。

表1不同方法效果对比表

本发明方法可应用于帮助盲人和视觉受损的用户理解视觉信息，也可在网络或者社交媒体上为用户提供所需图像信息，最重要的应用是将视觉问答系统集成到图像检索系统中，为社交媒体和电子商务带来巨大利润。

上面对本专利的较佳实施方式作了详细说明，但是本专利并不限于上述实施方式，在本领域的普通技术人员所具备的知识范围内，还可以在不脱离本专利宗旨的前提下作出各种变化。

Claims

1.一种基于图像目标特征和多层注意力机制的视觉问答方法，其特征在于，包括图像特征处理、问题模型处理和多层注意力机制；所述图像特征处理是经过卷积神经网络(CNN)进行特征提取，使用了残差网络作为基础特征提取网络，这里提取到的特征表示为Kx2048的矩阵，每个向量大小是2048维，每张图像有K个向量表示，K表示图像中的不同的位置；所述图像特征处理需要先进行初始化，将图像特征的维度转换成与问题向量相同大小；所述问题模型处理使用了LSTM网络来处理问题语句；所述注意力机制将图像特征表示和问题特征表示联系在一起。

2.根据权利要求1所述的一种基于图像目标特征和多层注意力机制的视觉问答方法，其特征在于，所述LSTM中起作用最大的是遗忘门、输入门和输出门；在每一个时间步骤中，LSTM会接受一个输入向量x_t，这个输入向量就是词向量，然后会更新记忆单元c_t的值，之后会输出一个隐层状态h_t，在LSTM中信息的更新过程就是用门机制控制，遗忘门f_t控制了上一时刻的c_t-1中的信息有多少将会保留下来；输入门i_t控制了当前输入X_t中有多少信息被更新到记忆单元中去；输出门o_t则控制了记忆单元中的多少信息被送入隐层状态中，用于后续输出。

3.根据权利要求1所述的一种基于图像目标特征和多层注意力机制的视觉问答方法，其特征在于，所述多层注意力机制，是一个迭代的结果，每一层注意力机制都会提取更细粒度的视觉信息用于答案的生成。