CN110163299B

CN110163299B - 一种基于自底向上注意力机制和记忆网络的视觉问答方法

Info

Publication number: CN110163299B
Application number: CN201910467473.5A
Authority: CN
Inventors: 洪日昌; 闫茹玉; 汪萌; 刘学亮; 徐超峰
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2019-05-31
Filing date: 2019-05-31
Publication date: 2022-09-06
Anticipated expiration: 2039-05-31
Also published as: CN110163299A

Abstract

本发明公开了一种基于自底向上注意力机制和记忆网络的视觉问答方法，将自底向上的图像注意力机制与记忆网络相结合，通过端到端的训练，不断调整参数，使训练后的模型可以进行视觉问答，预测正确的答案，达到理想的效果。

Description

一种基于自底向上注意力机制和记忆网络的视觉问答方法

技术领域

本发明涉及一种基于自底向上注意力机制和记忆网络的视觉问答方法。

背景技术

视觉问答(Visual Question Answering，VQA)是一种涉及计算机视觉和自然语言处理的学习任务。一个视觉问答系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入，以生成一条自然语言答案作为输出。简单来说，视觉问答就是给定图片进行问答，即输入图像和图像相关的文本问题，输出确定正确的答案，其中答案可以是几个字或短语。在计算机视觉任务中，所要处理的任务通常在系统运行前确定，例如图像字幕处理，系统的输出由输入的图像决定，图像不变则输出不会改变。然而，在VQA任务中，问题及其所需操作对象都是未知的，问题是在系统运行过程中提出，输出的答案因训练集和操作对象的不同而有所区别。因此，VQA更充满“智能”的味道。与NLP领域文本问答相比，VQA任务面临着图像维度更高，噪声更多，图像缺乏结构化语义和语法规则等挑战；与高度抽象的自然语言相比，现实世界的图像更具丰富多彩性；与图像字幕相比，VQA任务更加复杂，VQA任务通常需要一些额外信息，例如常识、与图像内容相关的专业知识、甚至图像中的特定元素的百科知识等。因此，VQA是一个“知识综合体”，对它的评估更具有开放性。

受益于深度学习、神经网络、计算机视觉和自然语言处理技术的发展，以及相关大型数据库不断完善，近些年出现大量的视觉问答研究成果。基于神经网络的视觉问答模型可以大致分为四类：联合嵌入模型(Joint Embedding Models)、关注机制模型(AttentionMechanisms)、模块化组合模型(Compositional Models)和知识库增强模型(KnowledgeBase-enhanced Models)。联合嵌入模型使用卷积神经网络(Convolutional NerualNetworks，CNNs)和循环神经网络(Recurrent Nerual Networks，RNNs)在共同特征空间学习图像和问题的嵌入，然后馈送到分类器预测答案。联合嵌入模型在原理上是最简单的，也是目前大多数视觉问答研究方法的基础。为了提高联合嵌入的有效性，已经做了大量的工作，如探索外部知识、多模型紧凑池化、多模型残差学习，或使用单词包进行文本嵌入，这些方法都是在整个图像和文本上生成特征，无法关注到最相关的图像区域和文本单词，以这种方式训练的模型能力有限。关注机制模型受图像字幕研究相关技术启发通过关注输入的特定部分来改进联合嵌入模型，主要思想是用空间特征图代替整体特征，并允许问题与图的特定区域进行交互。目前在关注机制方面主要有以下几种方案：第一种方案是以叠加的方式对图像进行多次关注，逐步推断出答案；第二种方案是用多跳图像注意力机制来捕获问题的细粒度信息；第三种方案是应用现有的提取区域的算法生成目标区域，并选择最相关的区域来预测答案；第四种方案是提出一种基于注意力的门控循环单元(GRU)，方便检索答案。除了视觉注意力，最近的研究中还提出了一种共同注意力机制，即关注视觉的同时也要关注问题的机制。模块化组合模型允许对特定问题执行特定的计算，该方法包含并且连接不同功能的模块，例如有记忆功能或者特殊类型推理能力的模块等。有研究者提出一种解决方案是使用语法分析器分解给定的问题，然后根据组成问题的各模块构建神经网络。自从有研究者提出了一种基于简单事实的记忆组件解决问题以来，记忆网络在语言处理中越来越受欢迎。后期有研究者提出以端到端的方式训练记忆网络，与早期的网络不同，这种方法在训练阶段不需要标注支持事实；还有研究者提出用注意力在神经序列模型上建立了记忆网络，即给定一个问题，神经注意机制允许记忆网络选择性地注意特定地输入。最近其他具有记忆功能或者注意力机制的神经结构包括神经图灵机、堆叠增强的循环记忆网络和分层记忆网络。视觉问答任务包括对图像内容的理解，有的通常需要先验知识，包括常识、专业知识甚至百科等，这就要求视觉问答模型具有丰富的外部知识库来处理这类问题。知识库增强方法通过查询结构化知识库来处理外部数据的使用问题，知识库信息涵盖的范围包括常识到百科，并且不必在训练时间内对其进行访问，但是知识库增强方法存在着一个难点就是其动作空间比较大，而且当问题比较复杂时，知识库中又经常是不完备的，这时就需要结合多个事实进行知识图谱上的推理，才能找到正确的实体答案。

在视觉问答任务中，以往大多数的视觉问答模型采用的都是自上而下的图像注意力，将注意力应用到卷积神经网络(CNN)的一层或多个层的输出，即预测图像中每个空间位置的权重，这种方法忽视了图像中突出的显著性区域和对象，无法更好的表征图像信息，并且大多数视觉系统模型忽略了图像中显著性区域、对象之间的联系，一般的循环神经网络(RNN)也无法达到对有效信息的长时间记忆，因此，我们需要解决的具体问题在于：

1)如何设计提取图像和问题的特征，使其可以很好的包含图像和问题的有效信息

2)如何设计选取模块，包括注意力模块和记忆更新模块，组建记忆网络，使其可以建立图像显著区域、对象之间的联系，并对与问题相关的有效信息达到一个长时间记忆的效果

3)如何设计选取融合方式和分类器，使其更有效的将图像和文本信息结合在一起，使结果达到预期效果。

发明内容

为了解决上述问题，本发明提供了一种基于自底向上注意力机制和记忆网络的视觉问答方法，将自底向上的图像注意力机制与记忆网络相结合，通过端到端的训练，不断调整参数，使训练后的模型可以进行视觉问答，预测正确的答案，达到理想的效果。

为解决上述技术问题，本发明采用如下技术方案：

本发明一种基于自底向上注意力机制和记忆网络的视觉问答方法，包括：

S1、自底向上的图像注意力机制模型：

输入一幅图像，使用基于ResNet-101的Faster R-CNN的目标检测模型提取图片中的兴趣区域；

S2、问题嵌入

为了提高计算效率，每个问题被缩减到最多14个单词，多余的单词被简单的丢弃，短于14个单词的问题用0向量填充；通过词嵌入后，生成的单词嵌入序列大小为14×300，然后通过一个双向门控循环单元将双向GRU输出的最终状态作为问题嵌入向量q，在记忆网络中，问题嵌入向量q除了用于下文记忆网络中的注意力机制外，还会作为记忆网络中记忆更新模块的初始记忆m⁰；

S3、记忆网络：

记忆网络主要由两部分组成：注意力机制模块和记忆更新模块；每次迭代都会通过注意力机制对输入向量进行权重计算，生成新的记忆，然后通过记忆更新模块对记忆进行更新；

S3.1、注意力机制模块

为了应对更复杂的查询，回答更复杂的问题，使注意力机制模块能关注到输入事实的位置和顺序，采用做修改后的门控循环单元作为记忆网络的注意力机制，其中输入事实即为每张图像提取的K个对象区域；

GRU的原始定义为：对于输入x_i和之前的隐藏状态h_i-1的每一个时间步i，通过以下公式来计算更新后的隐藏状态h_i＝GRU(x_i，h_i-1)，其中σ是sigmoid激活函数，

代表按元素对应相乘，

n_H代表隐藏层大小，n_I代表输入的大小；

u_i＝σ(W^(u)x_i+U^(u)h_i-1+b^(u)) (1)

r_i＝σ(W^(r)x_i+U^(r)h_i-1+b^(r)) (2)

在公式(1)中，更新门u_i决定要保留隐藏层状态对应的每个维度的多少，以及应该用当前时间步的输入来更新多少；由于u_i仅使用当前输入和前一个时间步的隐藏状态来计算，因此它缺乏来自问题和之前记忆的任何知识；

由此，将GRU公式(1)中的更新门替换为式(7)计算出来的门控值

作为注意力机制；如式(8)，GRU现在可以使用注意门来更新其内部状态；

式中

是指图像中提取的K个2048维向量表示的对象区域，m^t-1代表前一次的记忆，q代表最初的问题嵌入向量，

代表元素积，|·|代表元素积的绝对值，；代表向量之间的串联；

为了生成用于更新情景记忆状态m^t的向量v^t，使用基于注意力的GRU的最终隐藏状态；

S3.2记忆更新模块

记忆的更新模块采用一种ReLU的单层神经网络用于记忆更新，v^t就是上述提到的基于注意力门控的GRU的最终隐藏状态，q作为记忆m的初始状态m⁰；

m^t＝ReLU(W^t[m^t-1；v^t；q]+b) (9)

式中；代表向量之间的串联，

n_H代表隐藏层的大小；

将记忆更新模块的传递迭代次数设置为3，最后得到情景记忆m³；

S4、多模态融合方式

将记忆模块三次迭代之后得到的情景记忆m³和问题q分别输入到两个全连接层，将经过两个非线性全连接层得到的两个向量串联后，得到问题和记忆的联合嵌入向量h，然后送入分类器，从而预测出正确的答案；

h＝[f_q(q)；f_m(m³)] (10)

S5、分类器

将视觉问答看作是多标签分类任务，将训练集中出现8次以上的所有正确答案作为候选答案，即N个候选答案；采用多标签分类器将问题和记忆的联合嵌入h通过一个非线性层f₀，然后再通过一个线性映射w₀，最后送入到sigmoid层，来预测每个候选答案的正确率得分，最后的网络输出给每一个答案一个0到1的分数，得到最终的正确答案；

由于每个答案的正确率得分在0-1之间，所以采用软目标分数，目标函数如式(12)所示，与普通的二分类交叉熵损失函数相比，使用软分数作为目标提供了丰富的训练信号；

式中i,j分别运行在M个训练问题和N个候选答案上，s是数据集中真实答案的分数，

是该网络输出的答案分数。

进一步的，所述S1中，为了预先训练自底向上的注意力模型，首先使用ResNet101在ImageNet数据集上预先训练分类，用来初始化Faster R-CNN，然后将模型在VisualGenome数据集上进行训练；为了帮助学习到更好的特征表示，添加额外的训练输出来预测属性类别；该模型通过设定的阈值允许兴趣框的重叠，这样可以更有效的理解图像内容，对图像中的每一个感兴趣区域不仅使用对象检测器，还使用了属性分类器，这样可以获得对象的二元描述，这样的描述更贴合实际应用；每幅图像提取K个对象区域，每个对象区域用一个2048维的向量表示，该向量对对象区域进行编码，作为记忆网络的输入。

进一步的，将k设置为36，即每幅图片提取36个对象区域。

进一步的，所述sigmoid层输出允许优化每个问题的多个正确答案。

进一步的，该视觉问答方法在VQA 2.0数据集上进行测试。

与现有技术相比，本发明的有益技术效果：

经过两个非线性全连接层得到的两个向量串联后，得到问题和记忆的联合嵌入向量h，然后送入分类器，从而预测出正确的答案，使准确率更高；

本发明提出的视觉问答方法在VQA 2.0数据集上进行测试，视觉问答的准确率总体上可以达到64.0％，其中回答是/否类问题的准确率为80.9％，回答计数类问题的准确率为43.9％，回答其他类型问题的准确率为54.0％。与现有的其他视觉问答技术相比较，从实验结果可以看出，总体来说，本发明提出的视觉问答方法比其他方法准确率高，性能好。

附图说明

下面结合附图说明对本发明作进一步说明。

图1为本发明流程示意图；

图2为记忆网络框架示意图。

具体实施方式

本发明提出了一个基于自底向上注意力机制和记忆网络的视觉问答方法，将自底向上的图像注意力机制与记忆网络相结合，通过端到端的训练，不断调整参数，使训练后的模型可以进行视觉问答，预测正确的答案，达到理想的效果。本发明主要包括以下五个部分：

S1、自底向上的图像注意力机制模型：

输入一幅图像，本申请使用目标检测模型基于ResNet-101的Faster R-CNN来提取图片中的兴趣区域。为了预先训练自底向上的注意力模型，本申请首先使用ResNet101在ImageNet数据集上预先训练分类，用来初始化Faster R-CNN，然后将模型在Visual Genome数据集上进行训练。为了帮助学习到更好的特征表示，本申请添加了一个额外的训练输出来预测属性类别。该模型通过设定的阈值允许兴趣框的重叠，这样可以更有效的理解图像内容，对图像中的每一个感兴趣区域不仅使用对象检测器，还使用了属性分类器，这样可以获得对象的(属性、对象)二元描述，这样的描述更贴合实际应用。每幅图像提取K个对象区域，每个对象区域用一个2048维的向量表示，该向量对对象区域进行编码，作为记忆网络的输入。在本方法中，本申请将k设置为36，即每幅图片提取36个对象区域。

S2、问题嵌入

为了提高计算效率，每个问题被缩减到最多14个单词，多余的单词被简单的丢弃，短于14个单词的问题用0向量填充(数据集VQA2.0中只有0.25％的问题超过14个单词)。通过词嵌入后，生成的单词嵌入序列大小为14×300，然后通过一个双向门控循环单元(GRU)，将双向GRU输出的最终状态作为问题嵌入向量q。在记忆网络中，问题嵌入向量q除了用于下文记忆网络中的注意力机制外，还会作为记忆网络中记忆更新模块的初始记忆m⁰。

S3、记忆网络：

记忆网络主要由两部分组成：注意力机制模块和记忆更新模块。每次迭代都会通过注意力机制对输入向量进行权重计算，生成新的记忆，然后通过记忆更新模块对记忆进行更新。

S3.1、注意力机制模块

为了应对更复杂的查询，回答更复杂的问题，本申请希望注意力机制能关注到输入事实(即每张图像提取的K个对象区域)的位置和顺序，因此在这里采用了做了一定修改的门控循环单元(GRU)作为记忆网络的注意力机制。

代表按元素对应相乘，

n_H代表隐藏层大小，n_I代表输入的大小；

u_i＝σ(W^(u)x_i+U^(u)h_i-1+b^(u)) (1)

r_i＝σ(W^(r)x_i+U^(r)h_i-1+b^(r)) (2)

由此，将GRU公式(1)中的更新门替换为式(7)计算出来的门控值

式中

为了生成用于更新情景记忆状态m^t的向量v^t，使用基于注意力的GRU的最终隐藏状态；。

S3.2、记忆更新模块

m^t＝ReLU(W^t[m^t-1；v^t；q]+b) (9)

式中；代表向量之间的串联，

n_H代表隐藏层的大小；

在本发明中，将记忆更新模块的传递迭代次数设置为3，最后得到情景记忆m³。

S4、多模态融合方式：

将记忆模块三次迭代之后得到的情景记忆m³和问题q分别输入到两个全连接层，将经过两个非线性全连接层得到的两个向量串联后，得到问题和记忆的联合嵌入向量h，然后送入分类器，从而预测出正确的答案。

h＝[f_q(q)；f_m(m³)] (10)

S5、分类器

与大多数视觉问答模型中常用的softmax分类器不同，本发明中将视觉问答看作是多标签分类任务，将训练集中出现8次以上的所有正确答案作为候选答案，即N个候选答案。我们采用的多标签分类器是将问题和记忆的联合嵌入h通过一个非线性层f₀，然后再通过一个线性映射w₀，最后送入到sigmoid层(sigmoid输出允许优化每个问题的多个正确答案)，来预测每个候选答案的正确率得分(最后的网络输出给每一个答案一个0到1的分数)，得到最终的正确答案。

由于每个答案的正确率得分在0-1之间，所以本发明采用软目标分数，本发明的目标函数如式(12)所示，与普通的二分类交叉熵损失函数相比，使用软分数作为目标提供了丰富的训练信号。

是该网络输出的答案分数。

如图1所示，为本发明的实现流程图，将图像输入到预训练好的Faster R-CNN模型中，每张图片提取k个对象区域(本发明中k设置为36，即每张图片提取36个对象区域)，每个对象区域用2048维的向量表示；将每个问题的长度固定为14个单词，得到词嵌入序列大小为14×300，然后通过一个双向循环门控单元(GRU)，使用它的最终状态作为问题嵌入向量q。将得到的图像特征和问题嵌入联合输入到记忆网络，记忆网络的组成如下图所示。将记忆网络输出的最终记忆m³和问题嵌入q分别输入到两个非线性全连接层后，串联在一起，送入分类器，预测出正确答案。

如图2所述，记忆网络主要包括两个部分：注意力机制模块和记忆更新模块。在本发明中，将情景记忆的次数设置为3，经过三次情景记忆后，得到最终的记忆m³，其中最初的记忆m⁰为问题嵌入向量q。

上所述的实施例仅是对本发明的优选方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种基于自底向上注意力机制和记忆网络的视觉问答方法，其特征在于，包括：

S1、自底向上的图像注意力机制模型：

S2、问题嵌入

S3、记忆网络：

S3.1、注意力机制模块

代表按元素对应相乘，W^(z)，W^(r)，

U^(z)，U^(r)，

N_H代表隐藏层大小，n_I代表输入的大小；

u_i＝σ(W^(u)x_i+U^(u)h_i-1+b^(u)) (1)

r_i＝σ(W^(r)x_i+U^(r)h_i-1+b^(r)) (2)

由此，将GRU公式(1)中的更新门替换为式(7)计算出来的门控值

式中

S3.2记忆更新模块

m^t＝ReLU(W^t[m^t-1；v^t；q]+b) (9)

式中；代表向量之间的串联，

n_H代表隐藏层的大小；

S4、多模态融合方式

h＝[f_q(q)；f_m(m³)] (1O)

S5、分类器

是该网络输出的答案分数。

2.根据权利要求1所述的基于自底向上注意力机制和记忆网络的视觉问答方法，其特征在于，所述S1中，为了预先训练自底向上的注意力模型，首先使用ResNet101在ImageNet数据集上预先训练分类，用来初始化Faster R-CNN，然后将模型在Visual Genome数据集上进行训练；为了帮助学习到更好的特征表示，添加额外的训练输出来预测属性类别；该模型通过设定的阈值允许兴趣框的重叠，这样可以更有效的理解图像内容，对图像中的每一个感兴趣区域不仅使用对象检测器，还使用了属性分类器，这样可以获得对象的二元描述，这样的描述更贴合实际应用；每幅图像提取K个对象区域，每个对象区域用一个2048维的向量表示，该向量对对象区域进行编码，作为记忆网络的输入。

3.根据权利要求2所述的基于自底向上注意力机制和记忆网络的视觉问答方法，其特征在于，将k设置为36，即每幅图片提取36个对象区域。

4.根据权利要求1所述的基于自底向上注意力机制和记忆网络的视觉问答方法，其特征在于，所述sigmoid层输出允许优化每个问题的多个正确答案。

5.根据权利要求1所述的基于自底向上注意力机制和记忆网络的视觉问答方法，其特征在于，该视觉问答方法在VQA 2.0数据集上进行测试。