CN112818889A - 基于动态注意力的超网络融合视觉问答答案准确性的方法 - Google Patents

基于动态注意力的超网络融合视觉问答答案准确性的方法 Download PDF

Info

Publication number
CN112818889A
CN112818889A CN202110182159.XA CN202110182159A CN112818889A CN 112818889 A CN112818889 A CN 112818889A CN 202110182159 A CN202110182159 A CN 202110182159A CN 112818889 A CN112818889 A CN 112818889A
Authority
CN
China
Prior art keywords
question
feature
features
text
answer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110182159.XA
Other languages
English (en)
Other versions
CN112818889B (zh
Inventor
尹宝才
王家普
胡永利
孙艳丰
王博岳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202110182159.XA priority Critical patent/CN112818889B/zh
Publication of CN112818889A publication Critical patent/CN112818889A/zh
Application granted granted Critical
Publication of CN112818889B publication Critical patent/CN112818889B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/235Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on user input or interaction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于动态注意力的超网络融合视觉问答答案准确性的方法,先提取图像中两两物体之间的关系特征。通过进行关系特征的向量表示和问题文本的向量表示的余弦相似度的操作来动态的选取和问题文本相关的关系特征,并将余弦相似度分数排在前三的关系特征被选取为最为相关的关系特征;为了使视觉图片和问题文本中提取的特征融合的更加充分,提用基于超网络的卷积融合方式。利用融合图像‑问题特征学习多分类的分类器,以正确预测最佳匹配答案。使特征融合更加充分,能够使两模态之间进行深层次的交互,进一步促进视觉问答技术的准确性能的提升。

Description

基于动态注意力的超网络融合视觉问答答案准确性的方法
技术领域
本发明针对视觉问答模型表达能力差的问题,提出了一种基于动态注意力的超网络融合视觉问答研究来提升视觉问答答案准确性的方法。属于计算机视觉领域,具体涉及深度学习,特征提取,特征融合等技术。
背景技术
视觉问答(Visual QuestionAnswering,VQA)是近年来兴起的研究方向之一,其横跨计算机视觉与自然语言处理两大领域,旨在让计算机理解图像内容后根据自然语言输入的查询进行自动回答,是跨模态表达与交互方向上的研究热点问题,并吸引了研究人员的广泛关注。在实际应用中,例如苹果的Siri,微软的Cortana、亚马逊的Alexa等都基于视觉问答技术的发展。甚至随着可穿戴智能硬件(如Goole glasses和微软的HoloLens)以及增强现实技术的快速发展,在不久的将来,基于视觉感知的视觉问答系统可能会成为人机交互的一种重要方式,改变人们当前的交流模式。这项技术的发展可以帮助,尤其是那些有视觉障碍的的残障人士更好的感知和理解真实世界。
近年来,深度学习迅速发展并在各个研究领域上都取得了惊人的成果。使用不同架构的深度神经网络在计算机视觉、自然语言处理以及语音识别等方面都取得了目前最好的结果。这些方法可以分为两类:即基于注意力机制的VQA模型和基于经典融合策略的VQA模型。
(1)基于注意力机制的VQA模型
基于注意的VQA模型由于其优越的性能,得到了最广泛的研究。它们专注于在输入特征中定位相关对象,例如边界框或图像区域。
ABC-CNN模型在2015年提出一步注意定位图像的相关对象,SAN模型在2016提出多步注意更新图像的相关对象并逐步推断答案。除此之外,2017年提出多模态注意力,即不仅找到图像目标间的相关性,同时也找到图像和问题间的相关性。最近,一些研究者提出利用双线性模型来定位更精确的目标。
(2)基于经典融合策略的VQA模型
注意机制需要融合来计算注意分布。因此,融合程度对注意机制的质量有很大的影响。
现有的注意力融合模型可分为线性模型和双线性模型。首先,采用线性模型融合图像和问题特征元素。2016年使用对应元素求和融合图像和问题特征元素,2017年提出使用对应元素乘法来融合图像和问题特征元素。近年来,双线性模型被用来对图像特征和问题特征元素进行更细粒度的融合建模。MCB模型在2016年提出使用外积融合图像和问题特征元素,但导致尺寸爆炸问题。为了解决这个问题,2017年Kim等人在图像和问题特征的低秩投影之后使用了元素级乘法。
之前的方法虽然已经取得了很好的性能,但它不能很好的利用图像物体间的关系和问题文本主谓语之间的关联特性。因此,本发明在基于视觉问答的基本框架,即对图像的特征提取与对文本的的特征提取,也就是对文本和视觉图像进行理解的过程,以及两特征融合过程,也就是对两理解之后的内容进行交互的过程。这一框架来源于对人类理解外界事物的过程。在该基本框架之下,本发明通过引入图像里物体特征之间的关系来进行对图像的进一步理解,以及引入更有利于内容交互的特征融合手段来对传统视觉问答技术性能进行提升。
发明内容
本发明针对视觉问答技术表达力差的问题,研究了一种基于动态注意力的超网络融合的视觉问答研究。首先针对传统方法提取图像特征时并未考虑到图像里每个物体之间的关系的问题,而物体之间的关系对于视觉问答技术结果有着很重要的影响,故本发明先提取图像中两两物体之间的关系特征。其次,图像内并不是所有的物体以及物体间关系都是和问题文本是相关的,所以通过进行关系特征的向量表示和问题文本的向量表示的余弦相似度的操作来动态的选取和问题文本相关的关系特征,并将余弦相似度分数排在前三的关系特征被选取为最为相关的关系特征进行接下来的研究;最后,特征融合阶段是对输入的图像和问题文本进行交互的过程,也是视觉问答技术的核心,为了使视觉图片和问题文本中提取的特征融合的更加充分,提用基于超网络的卷积融合方式。本发明的主要流程如附图1所示,可分为以下四个步骤:基于faster RCNN对图像里物体特征和GRU对文本特征进行提取;图像的视觉关系特征提取;基于张量表示的特征融合;利用融合图像-问题特征学习多分类的分类器,以正确预测最佳匹配答案。
S1基于faster RCNN对图像和GRU对文本的特征提取
近年来,由于深度表示学习的发展使视觉问答技术性能的飞速提升。对于图像特征的提取,本发明采用faster RCNN来对图像特征进行提取。而对于文本特征的提取,本发明采用GRU对文本特征进行提取。
S2图像内物体间的视觉关系特征提取
由于图像里面每个物体之间都是有相应的关系,以及没关系也是一种关系。所以本发明通过捕捉图像中物体之间的关系后再与文本特征进行融合来提高视觉问答技术的准确性。图像视觉关系特征可采用图像里两物体的联合特征得到初步的关系特征表示,之后通过卷积神经网络CNN来对初始特征进一步进行提取得到视觉关系特征的最优的特征表示。接下来视觉关系特征表示与文本的特征表示进行余弦相似度计算,得到相似度分数,排在前三位的分数(从大到小)的视觉关系特征向量被认为是和问题文本反映的最相关的关系的特征表示。
S3基于超网络卷积的特征融合
对于视觉问答研究中,特征融合使是两模态特征进行深层交互的核心,也是解决模型表达力差的问题的关键。针对传统视觉问答技术存在的融合不充分的问题,本发明采用基于超网络卷积的方法来融合两种模态的特征。该方法首先利用超网络来对问题文本特征重构成卷积核的形式,接着把图像特征作为特征图来进行卷积操作,最后把卷积后的结果通过全连接层映射到需要的维度空间。
S4利用融合图像-问题特征学习多分类的分类器,以正确预测最佳匹配答案
在大多数现有的VQA方法中,回答阶段被定义为一个多类分类问题,每个答案都指向一个单独的类。通过Softmax函数取对应于最大值的的答案类别作为最佳匹配答案,如附图2。当对图像和文本进行特征提取之后经过融合之后得到的特征经过多分类才能得到的答案,所以需要对特征进行充分的融合。
本发明与现有技术相比,具有以下明显的优势和有益效果:
首先本发明利用faster RCNN来提取图像中每个物体的特征,之后提取出图像中图像中两两物体之间的视觉关系,进而能够捕捉到隐藏在图像里深层的信息,从而实现提升视觉问答技术的准确性的目标;其次,本发明通过与文本特征的余弦相似度评分来剔除与问题无关的视觉关系,筛选出更为可靠的视觉关系进行接下来的特征融合的操作;最后,本发明引入超网络卷积融合的方式来进行特征融合,卷积神经网络(CNN)具有使用多层结构的优点,在保持参数有效性的同时,提高了表达能力。这样使特征融合更加充分,能够使两模态之间进行深层次的交互,进一步促进视觉问答技术的准确性能的提升。
附图说明
图1基于基于动态注意力的超网络融合视觉问答研究的主流程图。
图2基于基于动态注意力的超网络融合视觉问答模型图。
图3超网络卷积融合详细图。
图4图像特征提取faster RCNN结构图。
图5文本特征提取器GRU内部结构图。
具体实施方式
根据上述描述,以下是一个具体的实施流程,但本方法所保护的范围并不限于该实施流程。
步骤1:基于faster RCNN对图像和GRU对文本的特征提取。
首先,对于给定的一张图像,图像里视觉特征表示为
Figure BDA0002941734070000041
即图像中每个物体的视觉特征为
Figure BDA0002941734070000042
而对于文本特征的提取,采用GRU提取文本特征。即将问题文本中的每个词的词向量按顺序输入到GRU模型中,其中GRU模型中有两个门:分别是更新门和重置门,来对问题文本中的每个词进行更新和重置,将不需要的特征丢失,将重要的特征通过门Gate保留下来,使用最终的隐藏状态作为问题的表示,最后得到问题文本的特征的特征向量。如附图5,问题里每个词向量表示为
Figure BDA0002941734070000043
为了方便训练,取问题里前14个词,而对于问题长度大于14个词的问题截断取前14个词的词向量,而对于问题长度小于14个词的问题文本,进行补0操作。如附图5,GRU具体过程为:
zt=σ(Wz·[ht-1,xt])
rt=σ(Wr·[ht-1,xt])
Figure BDA0002941734070000044
Figure BDA0002941734070000045
其中,xt为问题文本的第t个词的词向量;σ为sigmoid激活函数或者tanh激活函数;zt为更新门,rt为重置门;Wz,Wr与W为参数。
经过GRU来提取文本特征之后,最后得到问题文本的特征表示为
Figure BDA0002941734070000046
步骤2:图像中物体间的视觉关系特征提取。
步骤2.1:将步骤1图片通过faster RCNN提取出来的图像里每个物体的特征
Figure BDA0002941734070000051
(i,j∈[1,n])进行两两组合得到的联合特征向量表示Vmi∈R2d(i∈1,2,...,[n(n-1)]/2),即得到多个两物体之间潜在关系的初始视觉关系特征。
步骤2.2:将Vmi通过卷积神经网络CNN来对两物体之间的初始关系特征进行提取得到两物体之间最优的关系特征表示
Figure BDA0002941734070000052
步骤2.3::将问题文本的特征向量Q线性映射到图像
Figure BDA0002941734070000053
的特征空间,即得到
Figure BDA0002941734070000054
则该映射过程表示为:
Qf=QWq
其中,
Figure BDA0002941734070000055
步骤2.4:通过比较图像视觉关系特征Vf和问题文本特征Qf的余弦相似度分数的大小,来得到与问题文本中最相关的视觉关系的特征表示,进行特征融合操作。
其余弦相似度公式如下式所示:假设图像通过fasterRCNN提取到的图像里每个物体间联合特征表示
Figure BDA0002941734070000056
以及GRU提取到的问题文本的特征表示为
Figure BDA0002941734070000057
其中,i,j分别为视觉和文本特征向量里的特征元素索引。余弦相似度公式表示为:
Figure BDA0002941734070000058
接着,选取三个余弦相似度分数排名最高的3个图像视觉关系特征向量,进入基于超网络卷积的特征融合步骤。经过余弦相似度操作得到三个特征向量V1、V2
Figure BDA0002941734070000059
步骤3:基于基于超网络卷积的特征融合。
特征融合是视觉问答技术非常重要的一步,因此特征融合的性能直接影响视觉问答答案的准确性。本发明改进传统的两模态特征表示的简单拼接以及对应元素乘积的融合方式,通过引入超网络卷积网络来对特征进行融合,即引入超网络来对问题文本特征重构成卷积核的形式,对图像特征进行卷积操作,得到卷积后的特征表示进而完成融合操作。如附图3,
步骤3.1:将步骤2中问题文本特征向量Qf和超网络
Figure BDA0002941734070000061
进行全连接操作(其中l×f表示卷积层的尺寸,l表示卷积层的长,f表示卷积层的通道数)得到Fr=vec-1(QfH)∈Rl×f,进而重构成卷积核的形式,卷积核的尺寸为l×1×f。
步骤3.2:将步骤3.1得到的卷积核与图像特征向量V1,V2,V3进行融合,该过程表示为:
VH1=V1*Fr
VH2=V2*Fr
VH3=V3*Fr
其中VH1,VH2,VH3∈Rm×f,这里m=dv-l+1使卷积后特征图的长度。接着卷积后得到的特征图VH1,VH2,VH3重构成向量的形式,即:
Figure BDA0002941734070000062
Figure BDA0002941734070000063
步骤3.3:为了提高模型的表达力以及增加特征融合的充分性,因此扩展的交互模块通过拼接操作。正如图2所示,对特征交互过程进行3次Interaction模块操作来捕捉更深层次的信息,即Interaction1,Interaction2,Interaction3。经过多次之后得到VH1i,VH2j,VH3z,i,j,z∈(1,2,3)。
步骤4:利用融合图像-问题特征学习多分类的分类器,以正确预测最佳匹配答案。
步骤4.1:步骤3得到图像特征VH1i,VH2j,VH3z。将该九个向量进行全局池化操作,全局池化即当九个特征向量是相同维度的,取九个向量同维度最大的值作为池化后的特征向量该维度的值,得到最后的特征向量Y。
步骤4.1:将全局池化后的特征向量Y进行全连接层操作,即:
a=YWg
其中,Y∈Rmf
Figure BDA0002941734070000064
其中da表示的是数据集里答案的个数。这样就使经过全连接层的特征向量的维度和数据集中答案的个数相同,得到的最后的特征向量能包含数据集中所有的答案,即经过全连接层得到的特征向量的每一维度都对应于数据集里的一个答案。
步骤4.2:将经过全连接层之后的特征向量a表示经过softmax函数得到最后的向量ap,softmax函数公式即:
对于一个向量a=(x1,x2,x3,···,xn)来说,公式如下:
Figure BDA0002941734070000071
其中得到的向量ap每一维度对应于数据集里每个答案的概率值,取最大的概率值,该概率值所对应的维度对应于数据集里的一个答案,即为问题的答案,即ap为预测的答案。
步骤4.3:对于答案预测,一些数据集(如VQA)为每个图像-问题对提供多个答案,并且这些不同的答案通常由不同的用户注释。由于答案是用自然语言表示的,对于一个给定的问题,不同的用户可能会提供不同的答案或具有相同或相似含义的表达方式,因此这些不同的答案可能具有很强的相关性,它们根本不是独立的。例如,“alittle dog”和“apuppy”都表示小狗,所以可能是同一个问题的正确答案。受这些观察结果的启发,设计一个适当的机制来模拟同一问题的多个不同答案之间的复杂关联是很重要的。使用KL-divergence散度(KLD)作为损失函数,以更准确地描述预测答案的概率分布与注释者给出的基本真相答案的概率分布之间的一致性。与传统方法中的答案抽样方法相比,使用KLD损失可以获得更快的收敛速度,并获得稍好的答案预测精度。使用KL-divergence作为的损失函数来对模型进行训练,基于ap与at,其中ap为经过模型得到的预测答案,at为真实的答案。KL-divergence公式为:
Figure BDA0002941734070000072
实验
评估的模型在VQA2.0数据集上。VQA2.0数据集包括1105904个样本,这些样本被分为三个部分,分的比例为:训练集(40.1%),验证集(19.4%)和测试集(40.5%)。使用如下的评估方法来评估的模型:
Figure BDA0002941734070000073
其中,Count(a)是由不同的评注者投票选出的答案a的票数。
实验结果如表1所示:
表1:在VQA2.0上与其他方法的对比实验结果
Figure BDA0002941734070000081

Claims (5)

1.基于动态注意力的超网络融合视觉问答答案准确性的方法,其特征在于:包括如下步骤,S1基于faster RCNN对图像和GRU对文本的特征提取;采用faster RCNN来对图像特征进行提取;采用GRU对文本特征进行提取;
S2图像内物体间的视觉关系特征提取;图像视觉关系特征采用图像里两物体的联合特征得到初步的关系特征表示,之后通过卷积神经网络CNN来对初始特征进一步进行提取得到视觉关系特征的最优的特征表示;接下来视觉关系特征表示与文本的特征表示进行余弦相似度计算,得到相似度分数,排在前三位的分数的视觉关系特征向量被认为是和问题文本反映的最相关的关系的特征表示;
S3基于超网络卷积的特征融合;采用基于超网络卷积的方法来融合两种模态的特征;利用超网络来对问题文本特征重构成卷积核的形式,接着把图像特征作为特征图来进行卷积操作,最后把卷积后的结果通过全连接层映射到需要的维度空间;
S4利用融合图像-问题特征学习多分类的分类器,以正确预测最佳匹配答案;在大多数现有的VQA方法中,回答阶段被定义为一个多类分类问题,每个答案都指向一个单独的类;通过Softmax函数取对应于最大值的的答案类别作为最佳匹配答案;当对图像和文本进行特征提取之后经过融合之后得到的特征经过多分类才能得到的答案,所以需要对特征进行充分的融合。
2.根据权利要求1所述的基于动态注意力的超网络融合视觉问答答案准确性的方法,其特征在于:S1中,对于给定的一张图像,图像里视觉特征表示为
Figure FDA0002941734060000011
即图像中每个物体的视觉特征为
Figure FDA0002941734060000012
而对于文本特征的提取,采用GRU提取文本特征;即将问题文本中的每个词的词向量按顺序输入到GRU模型中,其中GRU模型中有两个门:分别是更新门和重置门,来对问题文本中的每个词进行更新和重置,将不需要的特征丢失,将重要的特征通过门Gate保留下来,使用最终的隐藏状态作为问题的表示,最后得到问题文本的特征的特征向量;问题里每个词向量表示为
Figure FDA0002941734060000013
取问题里前14个词,而对于问题长度大于14个词的问题截断取前14个词的词向量,而对于问题长度小于14个词的问题文本,进行补0操作;GRU具体过程为:
zt=σ(Wz·[ht-1,xt])
rt=σ(Wr·[ht-1,xt])
Figure FDA0002941734060000021
Figure FDA0002941734060000022
其中,xt为问题文本的第t个词的词向量;σ为sigmoid激活函数或者tanh激活函数;zt为更新门,rt为重置门;Wz,Wr与W为参数;
经过GRU来提取文本特征之后,最后得到问题文本的特征表示为
Figure FDA0002941734060000023
3.根据权利要求1所述的基于动态注意力的超网络融合视觉问答答案准确性的方法,其特征在于:S2中,
步骤2.1:将步骤1图片通过faster RCNN提取出来的图像里每个物体的特征
Figure FDA0002941734060000024
(i,j∈[1,n])进行两两组合得到的联合特征向量表示Vmi∈R2d(i∈1,2,...,[n(n-1)]/2),即得到多个两物体之间潜在关系的初始视觉关系特征;
步骤2.2:将Vmi通过卷积神经网络CNN来对两物体之间的初始关系特征进行提取得到两物体之间最优的关系特征表示
Figure FDA0002941734060000025
步骤2.3::将问题文本的特征向量Q线性映射到图像
Figure FDA0002941734060000026
的特征空间,即得到
Figure FDA0002941734060000027
则该映射过程表示为:
Qf=QWq
其中,
Figure FDA0002941734060000028
步骤2.4:通过比较图像视觉关系特征Vf和问题文本特征Qf的余弦相似度分数的大小,来得到与问题文本中最相关的视觉关系的特征表示,进行特征融合操作;
假设图像通过faster RCNN提取到的图像里每个物体间联合特征表示
Figure FDA0002941734060000029
以及GRU提取到的问题文本的特征表示为
Figure FDA00029417340600000210
其中,i,j分别为视觉和文本特征向量里的特征元素索引;余弦相似度公式表示为:
Figure FDA0002941734060000031
接着,选取三个余弦相似度分数排名最高的3个图像视觉关系特征向量,进入基于超网络卷积的特征融合步骤;经过余弦相似度操作得到三个特征向量
Figure FDA0002941734060000032
Figure FDA0002941734060000033
4.根据权利要求1所述的基于动态注意力的超网络融合视觉问答答案准确性的方法,其特征在于:S3中,
步骤3.1:将步骤2中问题文本特征向量Qf和超网络
Figure FDA0002941734060000034
进行全连接操作,其中l×f表示卷积层的尺寸,l表示卷积层的长,f表示卷积层的通道数;得到Fr=vec-1(QfH)∈Rl×f,进而重构成卷积核的形式,卷积核的尺寸为l×1×f;
步骤3.2:将步骤3.1得到的卷积核与图像特征向量V1,V2,V3进行融合,该过程表示为:
VH1=V1*Fr
VH2=V2*Fr
VH3=V3*Fr
其中VH1,VH2,VH3∈Rm×f,这里m=dv-l+1使卷积后特征图的长度;接着卷积后得到的特征图VH1,VH2,VH3重构成向量的形式,即:
Figure FDA0002941734060000035
Figure FDA0002941734060000036
步骤3.3:为了提高模型的表达力以及增加特征融合的充分性,因此扩展的交互模块通过拼接操作;对特征交互过程进行3次Interaction模块操作来捕捉更深层次的信息,即Interaction1,Interaction2,Interaction3;经过多次之后得到VH1i,VH2j,VH3z,i,j,z∈(1,2,3)。
5.根据权利要求1所述的基于动态注意力的超网络融合视觉问答答案准确性的方法,其特征在于:S4中,
步骤4.1:步骤3得到图像特征VH1i,VH2j,VH3z;将该九个向量进行全局池化操作,全局池化即当九个特征向量是相同维度的,取九个向量同维度最大的值作为池化后的特征向量该维度的值,得到最后的特征向量Y;
步骤4.2:将全局池化后的特征向量Y进行全连接层操作,即:
a=YWg
其中,Y∈Rmf
Figure FDA0002941734060000041
其中da表示的是数据集里答案的个数;这样就使经过全连接层的特征向量的维度和数据集中答案的个数相同,得到的最后的特征向量能包含数据集中所有的答案,即经过全连接层得到的特征向量的每一维度都对应于数据集里的一个答案;
步骤4.3:将经过全连接层之后的特征向量a表示经过softmax函数得到最后的向量ap,softmax函数公式即:
对于一个向量a=(x1,x2,x3,···,xn)来说,公式如下:
Figure FDA0002941734060000042
其中得到的向量ap每一维度对应于数据集里每个答案的概率值,取最大的概率值,该概率值所对应的维度对应于数据集里的一个答案,即为问题的答案,即ap为预测的答案;
步骤4.4:使用KL-divergence散度KLD作为损失函数,以更准确地描述预测答案的概率分布与注释者给出的基本真相答案的概率分布之间的一致性;使用KL-divergence作为的损失函数来对模型进行训练,基于ap与at,其中ap为经过模型得到的预测答案,at为真实的答案;KL-divergence公式为:
Figure FDA0002941734060000043
CN202110182159.XA 2021-02-09 2021-02-09 基于动态注意力的超网络融合视觉问答答案准确性的方法 Active CN112818889B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110182159.XA CN112818889B (zh) 2021-02-09 2021-02-09 基于动态注意力的超网络融合视觉问答答案准确性的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110182159.XA CN112818889B (zh) 2021-02-09 2021-02-09 基于动态注意力的超网络融合视觉问答答案准确性的方法

Publications (2)

Publication Number Publication Date
CN112818889A true CN112818889A (zh) 2021-05-18
CN112818889B CN112818889B (zh) 2024-05-28

Family

ID=75864949

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110182159.XA Active CN112818889B (zh) 2021-02-09 2021-02-09 基于动态注意力的超网络融合视觉问答答案准确性的方法

Country Status (1)

Country Link
CN (1) CN112818889B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113360621A (zh) * 2021-06-22 2021-09-07 辽宁工程技术大学 一种基于模态推理图神经网络的场景文本视觉问答方法
CN113515615A (zh) * 2021-07-09 2021-10-19 天津大学 一种基于胶囊自-导协同注意力机制的视觉问答方法
CN114168769A (zh) * 2021-11-16 2022-03-11 西安理工大学 基于gat关系推理的视觉问答方法
CN114201592A (zh) * 2021-12-02 2022-03-18 重庆邮电大学 面向医学图像诊断的视觉问答方法
CN114881541A (zh) * 2022-07-06 2022-08-09 成都西交智汇大数据科技有限公司 一种考生成绩的评定方法、装置、设备及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920587A (zh) * 2018-06-26 2018-11-30 清华大学 融合外部知识的开放域视觉问答方法及装置
CN111008293A (zh) * 2018-10-06 2020-04-14 上海交通大学 基于结构化语义表示的视觉问答方法
US20200293921A1 (en) * 2019-03-12 2020-09-17 Beijing Baidu Netcom Science And Technology Co., Ltd. Visual question answering model, electronic device and storage medium
CN111709275A (zh) * 2020-04-28 2020-09-25 北京工业大学 一种用于Affordance推理的深度网络构建方法
CN112100346A (zh) * 2020-08-28 2020-12-18 西北工业大学 基于细粒度图像特征和外部知识相融合的视觉问答方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920587A (zh) * 2018-06-26 2018-11-30 清华大学 融合外部知识的开放域视觉问答方法及装置
CN111008293A (zh) * 2018-10-06 2020-04-14 上海交通大学 基于结构化语义表示的视觉问答方法
US20200293921A1 (en) * 2019-03-12 2020-09-17 Beijing Baidu Netcom Science And Technology Co., Ltd. Visual question answering model, electronic device and storage medium
CN111709275A (zh) * 2020-04-28 2020-09-25 北京工业大学 一种用于Affordance推理的深度网络构建方法
CN112100346A (zh) * 2020-08-28 2020-12-18 西北工业大学 基于细粒度图像特征和外部知识相融合的视觉问答方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
孟祥申;江爱文;刘长红;叶继华;王明文;: "基于Spatial-DCTHash动态参数网络的视觉问答算法", 中国科学:信息科学, no. 08, 20 August 2017 (2017-08-20) *
白林亭;文鹏程;李亚晖;: "基于深度学习的视觉问答技术研究", 航空计算技术, no. 05, 25 September 2018 (2018-09-25) *
闫茹玉;刘学亮;: "结合自底向上注意力机制和记忆网络的视觉问答模型", 中国图象图形学报, no. 05, 16 May 2020 (2020-05-16) *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113360621A (zh) * 2021-06-22 2021-09-07 辽宁工程技术大学 一种基于模态推理图神经网络的场景文本视觉问答方法
CN113515615A (zh) * 2021-07-09 2021-10-19 天津大学 一种基于胶囊自-导协同注意力机制的视觉问答方法
CN114168769A (zh) * 2021-11-16 2022-03-11 西安理工大学 基于gat关系推理的视觉问答方法
CN114168769B (zh) * 2021-11-16 2024-02-02 西安理工大学 基于gat关系推理的视觉问答方法
CN114201592A (zh) * 2021-12-02 2022-03-18 重庆邮电大学 面向医学图像诊断的视觉问答方法
CN114881541A (zh) * 2022-07-06 2022-08-09 成都西交智汇大数据科技有限公司 一种考生成绩的评定方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
CN112818889B (zh) 2024-05-28

Similar Documents

Publication Publication Date Title
CN108319686B (zh) 基于受限文本空间的对抗性跨媒体检索方法
CN109299341B (zh) 一种基于字典学习的对抗跨模态检索方法和系统
CN112818889B (zh) 基于动态注意力的超网络融合视觉问答答案准确性的方法
CN112966127A (zh) 一种基于多层语义对齐的跨模态检索方法
CN114398961A (zh) 一种基于多模态深度特征融合的视觉问答方法及其模型
EP4002161A1 (en) Image retrieval method and apparatus, storage medium, and device
Wu et al. Learning of multimodal representations with random walks on the click graph
Wang et al. Deep cascaded cross-modal correlation learning for fine-grained sketch-based image retrieval
Li et al. Multi-modal gated recurrent units for image description
Menaga et al. Deep learning: a recent computing platform for multimedia information retrieval
Salur et al. A soft voting ensemble learning-based approach for multimodal sentiment analysis
Han et al. Gan based three-stage-training algorithm for multi-view facial expression recognition
Wang et al. Multi-scale feature pyramid and multi-branch neural network for person re-identification
Li et al. Spatial-temporal dynamic hand gesture recognition via hybrid deep learning model
Atkale et al. Multi-scale feature fusion model followed by residual network for generation of face aging and de-aging
Ishmam et al. From image to language: A critical analysis of visual question answering (vqa) approaches, challenges, and opportunities
CN114282528A (zh) 一种关键词提取方法、装置、设备及存储介质
CN117033609A (zh) 文本视觉问答方法、装置、计算机设备和存储介质
Saleem et al. Stateful human-centered visual captioning system to aid video surveillance
Lei et al. Domain adaption based on source dictionary regularized RKHS subspace learning
Li et al. Otcmr: Bridging heterogeneity gap with optimal transport for cross-modal retrieval
Rao et al. Deep learning-based image retrieval system with clustering on attention-based representations
Shi et al. Face-based age estimation using improved Swin Transformer with attention-based convolution
Mazhar et al. Similarity learning of product descriptions and images using multimodal neural networks
Zhang et al. CAE-GReaT: Convolutional-Auxiliary Efficient Graph Reasoning Transformer for Dense Image Predictions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant