CN110163299B - 一种基于自底向上注意力机制和记忆网络的视觉问答方法 - Google Patents

一种基于自底向上注意力机制和记忆网络的视觉问答方法 Download PDF

Info

Publication number
CN110163299B
CN110163299B CN201910467473.5A CN201910467473A CN110163299B CN 110163299 B CN110163299 B CN 110163299B CN 201910467473 A CN201910467473 A CN 201910467473A CN 110163299 B CN110163299 B CN 110163299B
Authority
CN
China
Prior art keywords
memory
question
attention mechanism
attention
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910467473.5A
Other languages
English (en)
Other versions
CN110163299A (zh
Inventor
洪日昌
闫茹玉
汪萌
刘学亮
徐超峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201910467473.5A priority Critical patent/CN110163299B/zh
Publication of CN110163299A publication Critical patent/CN110163299A/zh
Application granted granted Critical
Publication of CN110163299B publication Critical patent/CN110163299B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种基于自底向上注意力机制和记忆网络的视觉问答方法,将自底向上的图像注意力机制与记忆网络相结合,通过端到端的训练,不断调整参数,使训练后的模型可以进行视觉问答,预测正确的答案,达到理想的效果。

Description

一种基于自底向上注意力机制和记忆网络的视觉问答方法
技术领域
本发明涉及一种基于自底向上注意力机制和记忆网络的视觉问答方法。
背景技术
视觉问答(Visual Question Answering,VQA)是一种涉及计算机视觉和自然语言处理的学习任务。一个视觉问答系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。简单来说,视觉问答就是给定图片进行问答,即输入图像和图像相关的文本问题,输出确定正确的答案,其中答案可以是几个字或短语。在计算机视觉任务中,所要处理的任务通常在系统运行前确定,例如图像字幕处理,系统的输出由输入的图像决定,图像不变则输出不会改变。然而,在VQA任务中,问题及其所需操作对象都是未知的,问题是在系统运行过程中提出,输出的答案因训练集和操作对象的不同而有所区别。因此,VQA更充满“智能”的味道。与NLP领域文本问答相比,VQA任务面临着图像维度更高,噪声更多,图像缺乏结构化语义和语法规则等挑战;与高度抽象的自然语言相比,现实世界的图像更具丰富多彩性;与图像字幕相比,VQA任务更加复杂,VQA任务通常需要一些额外信息,例如常识、与图像内容相关的专业知识、甚至图像中的特定元素的百科知识等。因此,VQA是一个“知识综合体”,对它的评估更具有开放性。
受益于深度学习、神经网络、计算机视觉和自然语言处理技术的发展,以及相关大型数据库不断完善,近些年出现大量的视觉问答研究成果。基于神经网络的视觉问答模型可以大致分为四类:联合嵌入模型(Joint Embedding Models)、关注机制模型(AttentionMechanisms)、模块化组合模型(Compositional Models)和知识库增强模型(KnowledgeBase-enhanced Models)。联合嵌入模型使用卷积神经网络(Convolutional NerualNetworks,CNNs)和循环神经网络(Recurrent Nerual Networks,RNNs)在共同特征空间学习图像和问题的嵌入,然后馈送到分类器预测答案。联合嵌入模型在原理上是最简单的,也是目前大多数视觉问答研究方法的基础。为了提高联合嵌入的有效性,已经做了大量的工作,如探索外部知识、多模型紧凑池化、多模型残差学习,或使用单词包进行文本嵌入,这些方法都是在整个图像和文本上生成特征,无法关注到最相关的图像区域和文本单词,以这种方式训练的模型能力有限。关注机制模型受图像字幕研究相关技术启发通过关注输入的特定部分来改进联合嵌入模型,主要思想是用空间特征图代替整体特征,并允许问题与图的特定区域进行交互。目前在关注机制方面主要有以下几种方案:第一种方案是以叠加的方式对图像进行多次关注,逐步推断出答案;第二种方案是用多跳图像注意力机制来捕获问题的细粒度信息;第三种方案是应用现有的提取区域的算法生成目标区域,并选择最相关的区域来预测答案;第四种方案是提出一种基于注意力的门控循环单元(GRU),方便检索答案。除了视觉注意力,最近的研究中还提出了一种共同注意力机制,即关注视觉的同时也要关注问题的机制。模块化组合模型允许对特定问题执行特定的计算,该方法包含并且连接不同功能的模块,例如有记忆功能或者特殊类型推理能力的模块等。有研究者提出一种解决方案是使用语法分析器分解给定的问题,然后根据组成问题的各模块构建神经网络。自从有研究者提出了一种基于简单事实的记忆组件解决问题以来,记忆网络在语言处理中越来越受欢迎。后期有研究者提出以端到端的方式训练记忆网络,与早期的网络不同,这种方法在训练阶段不需要标注支持事实;还有研究者提出用注意力在神经序列模型上建立了记忆网络,即给定一个问题,神经注意机制允许记忆网络选择性地注意特定地输入。最近其他具有记忆功能或者注意力机制的神经结构包括神经图灵机、堆叠增强的循环记忆网络和分层记忆网络。视觉问答任务包括对图像内容的理解,有的通常需要先验知识,包括常识、专业知识甚至百科等,这就要求视觉问答模型具有丰富的外部知识库来处理这类问题。知识库增强方法通过查询结构化知识库来处理外部数据的使用问题,知识库信息涵盖的范围包括常识到百科,并且不必在训练时间内对其进行访问,但是知识库增强方法存在着一个难点就是其动作空间比较大,而且当问题比较复杂时,知识库中又经常是不完备的,这时就需要结合多个事实进行知识图谱上的推理,才能找到正确的实体答案。
在视觉问答任务中,以往大多数的视觉问答模型采用的都是自上而下的图像注意力,将注意力应用到卷积神经网络(CNN)的一层或多个层的输出,即预测图像中每个空间位置的权重,这种方法忽视了图像中突出的显著性区域和对象,无法更好的表征图像信息,并且大多数视觉系统模型忽略了图像中显著性区域、对象之间的联系,一般的循环神经网络(RNN)也无法达到对有效信息的长时间记忆,因此,我们需要解决的具体问题在于:
1)如何设计提取图像和问题的特征,使其可以很好的包含图像和问题的有效信息
2)如何设计选取模块,包括注意力模块和记忆更新模块,组建记忆网络,使其可以建立图像显著区域、对象之间的联系,并对与问题相关的有效信息达到一个长时间记忆的效果
3)如何设计选取融合方式和分类器,使其更有效的将图像和文本信息结合在一起,使结果达到预期效果。
发明内容
为了解决上述问题,本发明提供了一种基于自底向上注意力机制和记忆网络的视觉问答方法,将自底向上的图像注意力机制与记忆网络相结合,通过端到端的训练,不断调整参数,使训练后的模型可以进行视觉问答,预测正确的答案,达到理想的效果。
为解决上述技术问题,本发明采用如下技术方案:
本发明一种基于自底向上注意力机制和记忆网络的视觉问答方法,包括:
S1、自底向上的图像注意力机制模型:
输入一幅图像,使用基于ResNet-101的Faster R-CNN的目标检测模型提取图片中的兴趣区域;
S2、问题嵌入
为了提高计算效率,每个问题被缩减到最多14个单词,多余的单词被简单的丢弃,短于14个单词的问题用0向量填充;通过词嵌入后,生成的单词嵌入序列大小为14×300,然后通过一个双向门控循环单元将双向GRU输出的最终状态作为问题嵌入向量q,在记忆网络中,问题嵌入向量q除了用于下文记忆网络中的注意力机制外,还会作为记忆网络中记忆更新模块的初始记忆m0
S3、记忆网络:
记忆网络主要由两部分组成:注意力机制模块和记忆更新模块;每次迭代都会通过注意力机制对输入向量进行权重计算,生成新的记忆,然后通过记忆更新模块对记忆进行更新;
S3.1、注意力机制模块
为了应对更复杂的查询,回答更复杂的问题,使注意力机制模块能关注到输入事实的位置和顺序,采用做修改后的门控循环单元作为记忆网络的注意力机制,其中输入事实即为每张图像提取的K个对象区域;
GRU的原始定义为:对于输入xi和之前的隐藏状态hi-1的每一个时间步i,通过以下公式来计算更新后的隐藏状态hi=GRU(xi,hi-1),其中σ是sigmoid激活函数,
Figure GDA00021118110900000510
代表按元素对应相乘,
Figure GDA0002111811090000051
nH代表隐藏层大小,nI代表输入的大小;
ui=σ(W(u)xi+U(u)hi-1+b(u)) (1)
ri=σ(W(r)xi+U(r)hi-1+b(r)) (2)
Figure GDA0002111811090000052
Figure GDA0002111811090000053
在公式(1)中,更新门ui决定要保留隐藏层状态对应的每个维度的多少,以及应该用当前时间步的输入来更新多少;由于ui仅使用当前输入和前一个时间步的隐藏状态来计算,因此它缺乏来自问题和之前记忆的任何知识;
由此,将GRU公式(1)中的更新门替换为式(7)计算出来的门控值
Figure GDA0002111811090000054
作为注意力机制;如式(8),GRU现在可以使用注意门来更新其内部状态;
Figure GDA0002111811090000055
Figure GDA0002111811090000056
Figure GDA0002111811090000057
Figure GDA0002111811090000058
式中
Figure GDA0002111811090000059
是指图像中提取的K个2048维向量表示的对象区域,mt-1代表前一次的记忆,q代表最初的问题嵌入向量,
Figure GDA00021118110900000511
代表元素积,|·|代表元素积的绝对值,;代表向量之间的串联;
为了生成用于更新情景记忆状态mt的向量vt,使用基于注意力的GRU的最终隐藏状态;
S3.2记忆更新模块
记忆的更新模块采用一种ReLU的单层神经网络用于记忆更新,vt就是上述提到的基于注意力门控的GRU的最终隐藏状态,q作为记忆m的初始状态m0
mt=ReLU(Wt[mt-1;vt;q]+b) (9)
式中;代表向量之间的串联,
Figure GDA0002111811090000061
nH代表隐藏层的大小;
将记忆更新模块的传递迭代次数设置为3,最后得到情景记忆m3
S4、多模态融合方式
将记忆模块三次迭代之后得到的情景记忆m3和问题q分别输入到两个全连接层,将经过两个非线性全连接层得到的两个向量串联后,得到问题和记忆的联合嵌入向量h,然后送入分类器,从而预测出正确的答案;
h=[fq(q);fm(m3)] (10)
S5、分类器
将视觉问答看作是多标签分类任务,将训练集中出现8次以上的所有正确答案作为候选答案,即N个候选答案;采用多标签分类器将问题和记忆的联合嵌入h通过一个非线性层f0,然后再通过一个线性映射w0,最后送入到sigmoid层,来预测每个候选答案的正确率得分,最后的网络输出给每一个答案一个0到1的分数,得到最终的正确答案;
Figure GDA0002111811090000062
由于每个答案的正确率得分在0-1之间,所以采用软目标分数,目标函数如式(12)所示,与普通的二分类交叉熵损失函数相比,使用软分数作为目标提供了丰富的训练信号;
Figure GDA0002111811090000071
式中i,j分别运行在M个训练问题和N个候选答案上,s是数据集中真实答案的分数,
Figure GDA0002111811090000072
是该网络输出的答案分数。
进一步的,所述S1中,为了预先训练自底向上的注意力模型,首先使用ResNet101在ImageNet数据集上预先训练分类,用来初始化Faster R-CNN,然后将模型在VisualGenome数据集上进行训练;为了帮助学习到更好的特征表示,添加额外的训练输出来预测属性类别;该模型通过设定的阈值允许兴趣框的重叠,这样可以更有效的理解图像内容,对图像中的每一个感兴趣区域不仅使用对象检测器,还使用了属性分类器,这样可以获得对象的二元描述,这样的描述更贴合实际应用;每幅图像提取K个对象区域,每个对象区域用一个2048维的向量表示,该向量对对象区域进行编码,作为记忆网络的输入。
进一步的,将k设置为36,即每幅图片提取36个对象区域。
进一步的,所述sigmoid层输出允许优化每个问题的多个正确答案。
进一步的,该视觉问答方法在VQA 2.0数据集上进行测试。
与现有技术相比,本发明的有益技术效果:
经过两个非线性全连接层得到的两个向量串联后,得到问题和记忆的联合嵌入向量h,然后送入分类器,从而预测出正确的答案,使准确率更高;
本发明提出的视觉问答方法在VQA 2.0数据集上进行测试,视觉问答的准确率总体上可以达到64.0%,其中回答是/否类问题的准确率为80.9%,回答计数类问题的准确率为43.9%,回答其他类型问题的准确率为54.0%。与现有的其他视觉问答技术相比较,从实验结果可以看出,总体来说,本发明提出的视觉问答方法比其他方法准确率高,性能好。
附图说明
下面结合附图说明对本发明作进一步说明。
图1为本发明流程示意图;
图2为记忆网络框架示意图。
具体实施方式
本发明提出了一个基于自底向上注意力机制和记忆网络的视觉问答方法,将自底向上的图像注意力机制与记忆网络相结合,通过端到端的训练,不断调整参数,使训练后的模型可以进行视觉问答,预测正确的答案,达到理想的效果。本发明主要包括以下五个部分:
S1、自底向上的图像注意力机制模型:
输入一幅图像,本申请使用目标检测模型基于ResNet-101的Faster R-CNN来提取图片中的兴趣区域。为了预先训练自底向上的注意力模型,本申请首先使用ResNet101在ImageNet数据集上预先训练分类,用来初始化Faster R-CNN,然后将模型在Visual Genome数据集上进行训练。为了帮助学习到更好的特征表示,本申请添加了一个额外的训练输出来预测属性类别。该模型通过设定的阈值允许兴趣框的重叠,这样可以更有效的理解图像内容,对图像中的每一个感兴趣区域不仅使用对象检测器,还使用了属性分类器,这样可以获得对象的(属性、对象)二元描述,这样的描述更贴合实际应用。每幅图像提取K个对象区域,每个对象区域用一个2048维的向量表示,该向量对对象区域进行编码,作为记忆网络的输入。在本方法中,本申请将k设置为36,即每幅图片提取36个对象区域。
S2、问题嵌入
为了提高计算效率,每个问题被缩减到最多14个单词,多余的单词被简单的丢弃,短于14个单词的问题用0向量填充(数据集VQA2.0中只有0.25%的问题超过14个单词)。通过词嵌入后,生成的单词嵌入序列大小为14×300,然后通过一个双向门控循环单元(GRU),将双向GRU输出的最终状态作为问题嵌入向量q。在记忆网络中,问题嵌入向量q除了用于下文记忆网络中的注意力机制外,还会作为记忆网络中记忆更新模块的初始记忆m0
S3、记忆网络:
记忆网络主要由两部分组成:注意力机制模块和记忆更新模块。每次迭代都会通过注意力机制对输入向量进行权重计算,生成新的记忆,然后通过记忆更新模块对记忆进行更新。
S3.1、注意力机制模块
为了应对更复杂的查询,回答更复杂的问题,本申请希望注意力机制能关注到输入事实(即每张图像提取的K个对象区域)的位置和顺序,因此在这里采用了做了一定修改的门控循环单元(GRU)作为记忆网络的注意力机制。
GRU的原始定义为:对于输入xi和之前的隐藏状态hi-1的每一个时间步i,通过以下公式来计算更新后的隐藏状态hi=GRU(xi,hi-1),其中σ是sigmoid激活函数,
Figure GDA0002111811090000092
代表按元素对应相乘,
Figure GDA0002111811090000091
nH代表隐藏层大小,nI代表输入的大小;
ui=σ(W(u)xi+U(u)hi-1+b(u)) (1)
ri=σ(W(r)xi+U(r)hi-1+b(r)) (2)
Figure GDA0002111811090000101
Figure GDA0002111811090000102
在公式(1)中,更新门ui决定要保留隐藏层状态对应的每个维度的多少,以及应该用当前时间步的输入来更新多少;由于ui仅使用当前输入和前一个时间步的隐藏状态来计算,因此它缺乏来自问题和之前记忆的任何知识;
由此,将GRU公式(1)中的更新门替换为式(7)计算出来的门控值
Figure GDA0002111811090000103
作为注意力机制;如式(8),GRU现在可以使用注意门来更新其内部状态;
Figure GDA0002111811090000104
Figure GDA0002111811090000105
Figure GDA0002111811090000106
Figure GDA0002111811090000107
式中
Figure GDA0002111811090000108
是指图像中提取的K个2048维向量表示的对象区域,mt-1代表前一次的记忆,q代表最初的问题嵌入向量,
Figure GDA0002111811090000109
代表元素积,|·|代表元素积的绝对值,;代表向量之间的串联;
为了生成用于更新情景记忆状态mt的向量vt,使用基于注意力的GRU的最终隐藏状态;。
S3.2、记忆更新模块
记忆的更新模块采用一种ReLU的单层神经网络用于记忆更新,vt就是上述提到的基于注意力门控的GRU的最终隐藏状态,q作为记忆m的初始状态m0
mt=ReLU(Wt[mt-1;vt;q]+b) (9)
式中;代表向量之间的串联,
Figure GDA0002111811090000111
nH代表隐藏层的大小;
在本发明中,将记忆更新模块的传递迭代次数设置为3,最后得到情景记忆m3
S4、多模态融合方式:
将记忆模块三次迭代之后得到的情景记忆m3和问题q分别输入到两个全连接层,将经过两个非线性全连接层得到的两个向量串联后,得到问题和记忆的联合嵌入向量h,然后送入分类器,从而预测出正确的答案。
h=[fq(q);fm(m3)] (10)
S5、分类器
与大多数视觉问答模型中常用的softmax分类器不同,本发明中将视觉问答看作是多标签分类任务,将训练集中出现8次以上的所有正确答案作为候选答案,即N个候选答案。我们采用的多标签分类器是将问题和记忆的联合嵌入h通过一个非线性层f0,然后再通过一个线性映射w0,最后送入到sigmoid层(sigmoid输出允许优化每个问题的多个正确答案),来预测每个候选答案的正确率得分(最后的网络输出给每一个答案一个0到1的分数),得到最终的正确答案。
Figure GDA0002111811090000112
由于每个答案的正确率得分在0-1之间,所以本发明采用软目标分数,本发明的目标函数如式(12)所示,与普通的二分类交叉熵损失函数相比,使用软分数作为目标提供了丰富的训练信号。
Figure GDA0002111811090000113
式中i,j分别运行在M个训练问题和N个候选答案上,s是数据集中真实答案的分数,
Figure GDA0002111811090000121
是该网络输出的答案分数。
如图1所示,为本发明的实现流程图,将图像输入到预训练好的Faster R-CNN模型中,每张图片提取k个对象区域(本发明中k设置为36,即每张图片提取36个对象区域),每个对象区域用2048维的向量表示;将每个问题的长度固定为14个单词,得到词嵌入序列大小为14×300,然后通过一个双向循环门控单元(GRU),使用它的最终状态作为问题嵌入向量q。将得到的图像特征和问题嵌入联合输入到记忆网络,记忆网络的组成如下图所示。将记忆网络输出的最终记忆m3和问题嵌入q分别输入到两个非线性全连接层后,串联在一起,送入分类器,预测出正确答案。
如图2所述,记忆网络主要包括两个部分:注意力机制模块和记忆更新模块。在本发明中,将情景记忆的次数设置为3,经过三次情景记忆后,得到最终的记忆m3,其中最初的记忆m0为问题嵌入向量q。
上所述的实施例仅是对本发明的优选方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。

Claims (5)

1.一种基于自底向上注意力机制和记忆网络的视觉问答方法,其特征在于,包括:
S1、自底向上的图像注意力机制模型:
输入一幅图像,使用基于ResNet-101的Faster R-CNN的目标检测模型提取图片中的兴趣区域;
S2、问题嵌入
为了提高计算效率,每个问题被缩减到最多14个单词,多余的单词被简单的丢弃,短于14个单词的问题用0向量填充;通过词嵌入后,生成的单词嵌入序列大小为14×300,然后通过一个双向门控循环单元将双向GRU输出的最终状态作为问题嵌入向量q,在记忆网络中,问题嵌入向量q除了用于下文记忆网络中的注意力机制外,还会作为记忆网络中记忆更新模块的初始记忆m0
S3、记忆网络:
记忆网络主要由两部分组成:注意力机制模块和记忆更新模块;每次迭代都会通过注意力机制对输入向量进行权重计算,生成新的记忆,然后通过记忆更新模块对记忆进行更新;
S3.1、注意力机制模块
为了应对更复杂的查询,回答更复杂的问题,使注意力机制模块能关注到输入事实的位置和顺序,采用做修改后的门控循环单元作为记忆网络的注意力机制,其中输入事实即为每张图像提取的K个对象区域;
GRU的原始定义为:对于输入xi和之前的隐藏状态hi-1的每一个时间步i,通过以下公式来计算更新后的隐藏状态hi=GRU(xi,hi-1),其中σ是sigmoid激活函数,
Figure FDA0002111811080000011
代表按元素对应相乘,W(z),W(r)
Figure FDA0002111811080000012
U(z),U(r)
Figure FDA0002111811080000013
NH代表隐藏层大小,nI代表输入的大小;
ui=σ(W(u)xi+U(u)hi-1+b(u)) (1)
ri=σ(W(r)xi+U(r)hi-1+b(r)) (2)
Figure FDA0002111811080000021
Figure FDA0002111811080000022
在公式(1)中,更新门ui决定要保留隐藏层状态对应的每个维度的多少,以及应该用当前时间步的输入来更新多少;由于ui仅使用当前输入和前一个时间步的隐藏状态来计算,因此它缺乏来自问题和之前记忆的任何知识;
由此,将GRU公式(1)中的更新门替换为式(7)计算出来的门控值
Figure FDA0002111811080000023
作为注意力机制;如式(8),GRU现在可以使用注意门来更新其内部状态;
Figure FDA0002111811080000024
Figure FDA0002111811080000025
Figure FDA0002111811080000026
Figure FDA0002111811080000027
式中
Figure FDA0002111811080000028
是指图像中提取的K个2048维向量表示的对象区域,mt-1代表前一次的记忆,q代表最初的问题嵌入向量,
Figure FDA0002111811080000029
代表元素积,|·|代表元素积的绝对值,;代表向量之间的串联;
为了生成用于更新情景记忆状态mt的向量vt,使用基于注意力的GRU的最终隐藏状态;
S3.2记忆更新模块
记忆的更新模块采用一种ReLU的单层神经网络用于记忆更新,vt就是上述提到的基于注意力门控的GRU的最终隐藏状态,q作为记忆m的初始状态m0
mt=ReLU(Wt[mt-1;vt;q]+b) (9)
式中;代表向量之间的串联,
Figure FDA0002111811080000031
nH代表隐藏层的大小;
将记忆更新模块的传递迭代次数设置为3,最后得到情景记忆m3
S4、多模态融合方式
将记忆模块三次迭代之后得到的情景记忆m3和问题q分别输入到两个全连接层,将经过两个非线性全连接层得到的两个向量串联后,得到问题和记忆的联合嵌入向量h,然后送入分类器,从而预测出正确的答案;
h=[fq(q);fm(m3)] (1O)
S5、分类器
将视觉问答看作是多标签分类任务,将训练集中出现8次以上的所有正确答案作为候选答案,即N个候选答案;采用多标签分类器将问题和记忆的联合嵌入h通过一个非线性层f0,然后再通过一个线性映射w0,最后送入到sigmoid层,来预测每个候选答案的正确率得分,最后的网络输出给每一个答案一个0到1的分数,得到最终的正确答案;
Figure FDA0002111811080000032
由于每个答案的正确率得分在0-1之间,所以采用软目标分数,目标函数如式(12)所示,与普通的二分类交叉熵损失函数相比,使用软分数作为目标提供了丰富的训练信号;
Figure FDA0002111811080000033
式中i,j分别运行在M个训练问题和N个候选答案上,s是数据集中真实答案的分数,
Figure FDA0002111811080000034
是该网络输出的答案分数。
2.根据权利要求1所述的基于自底向上注意力机制和记忆网络的视觉问答方法,其特征在于,所述S1中,为了预先训练自底向上的注意力模型,首先使用ResNet101在ImageNet数据集上预先训练分类,用来初始化Faster R-CNN,然后将模型在Visual Genome数据集上进行训练;为了帮助学习到更好的特征表示,添加额外的训练输出来预测属性类别;该模型通过设定的阈值允许兴趣框的重叠,这样可以更有效的理解图像内容,对图像中的每一个感兴趣区域不仅使用对象检测器,还使用了属性分类器,这样可以获得对象的二元描述,这样的描述更贴合实际应用;每幅图像提取K个对象区域,每个对象区域用一个2048维的向量表示,该向量对对象区域进行编码,作为记忆网络的输入。
3.根据权利要求2所述的基于自底向上注意力机制和记忆网络的视觉问答方法,其特征在于,将k设置为36,即每幅图片提取36个对象区域。
4.根据权利要求1所述的基于自底向上注意力机制和记忆网络的视觉问答方法,其特征在于,所述sigmoid层输出允许优化每个问题的多个正确答案。
5.根据权利要求1所述的基于自底向上注意力机制和记忆网络的视觉问答方法,其特征在于,该视觉问答方法在VQA 2.0数据集上进行测试。
CN201910467473.5A 2019-05-31 2019-05-31 一种基于自底向上注意力机制和记忆网络的视觉问答方法 Active CN110163299B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910467473.5A CN110163299B (zh) 2019-05-31 2019-05-31 一种基于自底向上注意力机制和记忆网络的视觉问答方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910467473.5A CN110163299B (zh) 2019-05-31 2019-05-31 一种基于自底向上注意力机制和记忆网络的视觉问答方法

Publications (2)

Publication Number Publication Date
CN110163299A CN110163299A (zh) 2019-08-23
CN110163299B true CN110163299B (zh) 2022-09-06

Family

ID=67630264

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910467473.5A Active CN110163299B (zh) 2019-05-31 2019-05-31 一种基于自底向上注意力机制和记忆网络的视觉问答方法

Country Status (1)

Country Link
CN (1) CN110163299B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110609891B (zh) * 2019-09-18 2021-06-08 合肥工业大学 一种基于上下文感知图神经网络的视觉对话生成方法
CN110633867A (zh) * 2019-09-23 2019-12-31 国家电网有限公司 一种基于gru和注意力机制的超短期负荷预测模型
CN110717431B (zh) * 2019-09-27 2023-03-24 华侨大学 一种结合多视角注意力机制的细粒度视觉问答方法
CN110717024B (zh) * 2019-10-08 2022-05-17 苏州派维斯信息科技有限公司 基于图像视觉到文本转换的视觉问答问题解决方法
CN110990549B (zh) * 2019-12-02 2023-04-28 腾讯科技(深圳)有限公司 获取答案的方法、装置、电子设备及存储介质
CN110929013A (zh) * 2019-12-04 2020-03-27 成都中科云集信息技术有限公司 一种基于bottom-up attention和定位信息融合的图片问答实现方法
CN111291205B (zh) * 2020-01-22 2023-06-13 北京百度网讯科技有限公司 知识图谱构建方法、装置、设备和介质
CN111475656B (zh) * 2020-03-13 2023-06-30 清华大学 基于外部知识聚合的视觉问答方法及系统
CN111488137B (zh) * 2020-04-07 2023-04-18 重庆大学 一种基于共同注意力表征学习的代码搜索方法
CN111786979B (zh) * 2020-06-24 2022-07-22 杭州电子科技大学 一种基于多模态学习的电力攻击识别方法
CN112100346B (zh) * 2020-08-28 2021-07-20 西北工业大学 基于细粒度图像特征和外部知识相融合的视觉问答方法
CN112115834A (zh) * 2020-09-11 2020-12-22 昆明理工大学 一种基于小样本匹配网络的标准证件照检测方法
CN112579759B (zh) * 2020-12-28 2022-10-25 北京邮电大学 模型训练方法及任务型视觉对话问题的生成方法和装置
CN112905762B (zh) * 2021-02-05 2024-07-26 南京航空航天大学 一种基于同等注意力图网络的视觉问答方法
CN113094484A (zh) * 2021-04-07 2021-07-09 西北工业大学 基于异质图神经网络的文本视觉问答实现方法
CN113656570B (zh) * 2021-08-25 2024-05-10 平安科技(深圳)有限公司 基于深度学习模型的视觉问答方法及装置、介质、设备
CN113886626B (zh) * 2021-09-14 2024-02-02 西安理工大学 基于多重注意力机制的动态记忆网络模型的视觉问答方法
CN113780486B (zh) * 2021-11-15 2022-02-11 湖南师范大学 一种视觉问答的方法、装置及介质
CN114661874B (zh) * 2022-03-07 2024-04-30 浙江理工大学 基于多角度语义理解与自适应双通道的视觉问答方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160350653A1 (en) * 2015-06-01 2016-12-01 Salesforce.Com, Inc. Dynamic Memory Network
WO2018094294A1 (en) * 2016-11-18 2018-05-24 Salesforce.Com, Inc. Spatial attention model for image captioning
CN109086892B (zh) * 2018-06-15 2022-02-18 中山大学 一种基于一般依赖树的视觉问题推理模型及系统
CN108920587B (zh) * 2018-06-26 2021-09-24 清华大学 融合外部知识的开放域视觉问答方法及装置

Also Published As

Publication number Publication date
CN110163299A (zh) 2019-08-23

Similar Documents

Publication Publication Date Title
CN110163299B (zh) 一种基于自底向上注意力机制和记忆网络的视觉问答方法
Yan Computational methods for deep learning
CN109783666B (zh) 一种基于迭代精细化的图像场景图谱生成方法
CN113158862B (zh) 一种基于多任务的轻量级实时人脸检测方法
CN110399518B (zh) 一种基于图卷积的视觉问答增强方法
CN109947912A (zh) 一种基于段落内部推理和联合问题答案匹配的模型方法
CN110851760B (zh) 在web3D环境融入视觉问答的人机交互系统
CN107391709A (zh) 一种基于新型注意模型进行图像字幕生成的方法
CN112561064B (zh) 基于owkbc模型的知识库补全方法
CN112036276B (zh) 一种人工智能视频问答方法
Sharma et al. A survey of methods, datasets and evaluation metrics for visual question answering
CN115223020B (zh) 图像处理方法、装置、设备、存储介质及计算机程序产品
CN111598183A (zh) 一种多特征融合图像描述方法
CN115331075A (zh) 一种多模态场景图知识增强的对抗式多模态预训练方法
CN114398976A (zh) 基于bert与门控类注意力增强网络的机器阅读理解方法
CN113297370A (zh) 基于多交互注意力的端到端多模态问答方法及系统
Zhang et al. Hierarchical scene parsing by weakly supervised learning with image descriptions
Yan Computational methods for deep learning: theory, algorithms, and implementations
CN117972138B (zh) 预训练模型的训练方法、装置和计算机设备
CN116187349A (zh) 一种基于场景图关系信息增强的视觉问答方法
Zhao et al. Human action recognition based on improved fusion attention CNN and RNN
CN113239678B (zh) 一种面向答案选择的多角度注意力特征匹配方法及系统
CN116010578A (zh) 一种基于弱监督双流视觉语言交互的答案定位方法及装置
CN114168769B (zh) 基于gat关系推理的视觉问答方法
Xu et al. Isolated Word Sign Language Recognition Based on Improved SKResNet‐TCN Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant