CN112818889B - 基于动态注意力的超网络融合视觉问答答案准确性的方法 - Google Patents
基于动态注意力的超网络融合视觉问答答案准确性的方法 Download PDFInfo
- Publication number
- CN112818889B CN112818889B CN202110182159.XA CN202110182159A CN112818889B CN 112818889 B CN112818889 B CN 112818889B CN 202110182159 A CN202110182159 A CN 202110182159A CN 112818889 B CN112818889 B CN 112818889B
- Authority
- CN
- China
- Prior art keywords
- feature
- image
- question
- text
- answer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 62
- 238000000034 method Methods 0.000 title claims abstract description 32
- 239000013598 vector Substances 0.000 claims abstract description 58
- 230000004927 fusion Effects 0.000 claims abstract description 44
- 230000003993 interaction Effects 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 11
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 230000004438 eyesight Effects 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000002452 interceptive effect Effects 0.000 claims description 2
- 230000001502 supplementing effect Effects 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 12
- 230000006872 improvement Effects 0.000 abstract description 2
- 238000000605 extraction Methods 0.000 description 8
- 238000011160 research Methods 0.000 description 7
- 230000007246 mechanism Effects 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 241000238558 Eucarida Species 0.000 description 1
- 244000141359 Malus pumila Species 0.000 description 1
- 235000021016 apples Nutrition 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
- G06V10/235—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on user input or interaction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于动态注意力的超网络融合视觉问答答案准确性的方法,先提取图像中两两物体之间的关系特征。通过进行关系特征的向量表示和问题文本的向量表示的余弦相似度的操作来动态的选取和问题文本相关的关系特征,并将余弦相似度分数排在前三的关系特征被选取为最为相关的关系特征;为了使视觉图片和问题文本中提取的特征融合的更加充分,提用基于超网络的卷积融合方式。利用融合图像‑问题特征学习多分类的分类器,以正确预测最佳匹配答案。使特征融合更加充分,能够使两模态之间进行深层次的交互,进一步促进视觉问答技术的准确性能的提升。
Description
技术领域
本发明针对视觉问答模型表达能力差的问题,提出了一种基于动态注意力的超网络融合视觉问答研究来提升视觉问答答案准确性的方法。属于计算机视觉领域,具体涉及深度学习,特征提取,特征融合等技术。
背景技术
视觉问答(Visual QuestionAnswering,VQA)是近年来兴起的研究方向之一,其横跨计算机视觉与自然语言处理两大领域,旨在让计算机理解图像内容后根据自然语言输入的查询进行自动回答,是跨模态表达与交互方向上的研究热点问题,并吸引了研究人员的广泛关注。在实际应用中,例如苹果的Siri,微软的Cortana、亚马逊的Alexa等都基于视觉问答技术的发展。甚至随着可穿戴智能硬件(如Goole glasses和微软的HoloLens)以及增强现实技术的快速发展,在不久的将来,基于视觉感知的视觉问答系统可能会成为人机交互的一种重要方式,改变人们当前的交流模式。这项技术的发展可以帮助,尤其是那些有视觉障碍的的残障人士更好的感知和理解真实世界。
近年来,深度学习迅速发展并在各个研究领域上都取得了惊人的成果。使用不同架构的深度神经网络在计算机视觉、自然语言处理以及语音识别等方面都取得了目前最好的结果。这些方法可以分为两类:即基于注意力机制的VQA模型和基于经典融合策略的VQA模型。
(1)基于注意力机制的VQA模型
基于注意的VQA模型由于其优越的性能,得到了最广泛的研究。它们专注于在输入特征中定位相关对象,例如边界框或图像区域。
ABC-CNN模型在2015年提出一步注意定位图像的相关对象,SAN模型在2016提出多步注意更新图像的相关对象并逐步推断答案。除此之外,2017年提出多模态注意力,即不仅找到图像目标间的相关性,同时也找到图像和问题间的相关性。最近,一些研究者提出利用双线性模型来定位更精确的目标。
(2)基于经典融合策略的VQA模型
注意机制需要融合来计算注意分布。因此,融合程度对注意机制的质量有很大的影响。
现有的注意力融合模型可分为线性模型和双线性模型。首先,采用线性模型融合图像和问题特征元素。2016年使用对应元素求和融合图像和问题特征元素,2017年提出使用对应元素乘法来融合图像和问题特征元素。近年来,双线性模型被用来对图像特征和问题特征元素进行更细粒度的融合建模。MCB模型在2016年提出使用外积融合图像和问题特征元素,但导致尺寸爆炸问题。为了解决这个问题,2017年Kim等人在图像和问题特征的低秩投影之后使用了元素级乘法。
之前的方法虽然已经取得了很好的性能,但它不能很好的利用图像物体间的关系和问题文本主谓语之间的关联特性。因此,本发明在基于视觉问答的基本框架,即对图像的特征提取与对文本的的特征提取,也就是对文本和视觉图像进行理解的过程,以及两特征融合过程,也就是对两理解之后的内容进行交互的过程。这一框架来源于对人类理解外界事物的过程。在该基本框架之下,本发明通过引入图像里物体特征之间的关系来进行对图像的进一步理解,以及引入更有利于内容交互的特征融合手段来对传统视觉问答技术性能进行提升。
发明内容
本发明针对视觉问答技术表达力差的问题,研究了一种基于动态注意力的超网络融合的视觉问答研究。首先针对传统方法提取图像特征时并未考虑到图像里每个物体之间的关系的问题,而物体之间的关系对于视觉问答技术结果有着很重要的影响,故本发明先提取图像中两两物体之间的关系特征。其次,图像内并不是所有的物体以及物体间关系都是和问题文本是相关的,所以通过进行关系特征的向量表示和问题文本的向量表示的余弦相似度的操作来动态的选取和问题文本相关的关系特征,并将余弦相似度分数排在前三的关系特征被选取为最为相关的关系特征进行接下来的研究;最后,特征融合阶段是对输入的图像和问题文本进行交互的过程,也是视觉问答技术的核心,为了使视觉图片和问题文本中提取的特征融合的更加充分,提用基于超网络的卷积融合方式。本发明的主要流程如附图1所示,可分为以下四个步骤:基于faster RCNN对图像里物体特征和GRU对文本特征进行提取;图像的视觉关系特征提取;基于张量表示的特征融合;利用融合图像-问题特征学习多分类的分类器,以正确预测最佳匹配答案。
S1基于faster RCNN对图像和GRU对文本的特征提取
近年来,由于深度表示学习的发展使视觉问答技术性能的飞速提升。对于图像特征的提取,本发明采用faster RCNN来对图像特征进行提取。而对于文本特征的提取,本发明采用GRU对文本特征进行提取。
S2图像内物体间的视觉关系特征提取
由于图像里面每个物体之间都是有相应的关系,以及没关系也是一种关系。所以本发明通过捕捉图像中物体之间的关系后再与文本特征进行融合来提高视觉问答技术的准确性。图像视觉关系特征可采用图像里两物体的联合特征得到初步的关系特征表示,之后通过卷积神经网络CNN来对初始特征进一步进行提取得到视觉关系特征的最优的特征表示。接下来视觉关系特征表示与文本的特征表示进行余弦相似度计算,得到相似度分数,排在前三位的分数(从大到小)的视觉关系特征向量被认为是和问题文本反映的最相关的关系的特征表示。
S3基于超网络卷积的特征融合
对于视觉问答研究中,特征融合使是两模态特征进行深层交互的核心,也是解决模型表达力差的问题的关键。针对传统视觉问答技术存在的融合不充分的问题,本发明采用基于超网络卷积的方法来融合两种模态的特征。该方法首先利用超网络来对问题文本特征重构成卷积核的形式,接着把图像特征作为特征图来进行卷积操作,最后把卷积后的结果通过全连接层映射到需要的维度空间。
S4利用融合图像-问题特征学习多分类的分类器,以正确预测最佳匹配答案
在大多数现有的VQA方法中,回答阶段被定义为一个多类分类问题,每个答案都指向一个单独的类。通过Softmax函数取对应于最大值的的答案类别作为最佳匹配答案,如附图2。当对图像和文本进行特征提取之后经过融合之后得到的特征经过多分类才能得到的答案,所以需要对特征进行充分的融合。
本发明与现有技术相比,具有以下明显的优势和有益效果:
首先本发明利用faster RCNN来提取图像中每个物体的特征,之后提取出图像中图像中两两物体之间的视觉关系,进而能够捕捉到隐藏在图像里深层的信息,从而实现提升视觉问答技术的准确性的目标;其次,本发明通过与文本特征的余弦相似度评分来剔除与问题无关的视觉关系,筛选出更为可靠的视觉关系进行接下来的特征融合的操作;最后,本发明引入超网络卷积融合的方式来进行特征融合,卷积神经网络(CNN)具有使用多层结构的优点,在保持参数有效性的同时,提高了表达能力。这样使特征融合更加充分,能够使两模态之间进行深层次的交互,进一步促进视觉问答技术的准确性能的提升。
附图说明
图1基于基于动态注意力的超网络融合视觉问答研究的主流程图。
图2基于基于动态注意力的超网络融合视觉问答模型图。
图3超网络卷积融合详细图。
图4图像特征提取faster RCNN结构图。
图5文本特征提取器GRU内部结构图。
具体实施方式
根据上述描述,以下是一个具体的实施流程,但本方法所保护的范围并不限于该实施流程。
步骤1:基于faster RCNN对图像和GRU对文本的特征提取。
首先,对于给定的一张图像,图像里视觉特征表示为即图像中每个物体的视觉特征为/>
而对于文本特征的提取,采用GRU提取文本特征。即将问题文本中的每个词的词向量按顺序输入到GRU模型中,其中GRU模型中有两个门:分别是更新门和重置门,来对问题文本中的每个词进行更新和重置,将不需要的特征丢失,将重要的特征通过门Gate保留下来,使用最终的隐藏状态作为问题的表示,最后得到问题文本的特征的特征向量。如附图5,问题里每个词向量表示为为了方便训练,取问题里前14个词,而对于问题长度大于14个词的问题截断取前14个词的词向量,而对于问题长度小于14个词的问题文本,进行补0操作。如附图5,GRU具体过程为:
zt=σ(Wz·[ht-1,xt])
rt=σ(Wr·[ht-1,xt])
其中,xt为问题文本的第t个词的词向量;σ为sigmoid激活函数或者tanh激活函数;zt为更新门,rt为重置门;Wz,Wr与W为参数。
经过GRU来提取文本特征之后,最后得到问题文本的特征表示为
步骤2:图像中物体间的视觉关系特征提取。
步骤2.1:将步骤1图片通过faster RCNN提取出来的图像里每个物体的特征(i,j∈[1,n])进行两两组合得到的联合特征向量表示Vmi∈R2d(i∈1,2,...,[n(n-1)]/2),即得到多个两物体之间潜在关系的初始视觉关系特征。
步骤2.2:将Vmi通过卷积神经网络CNN来对两物体之间的初始关系特征进行提取得到两物体之间最优的关系特征表示
步骤2.3::将问题文本的特征向量Q线性映射到图像的特征空间,即得到则该映射过程表示为:
Qf=QWq
其中,
步骤2.4:通过比较图像视觉关系特征Vf和问题文本特征Qf的余弦相似度分数的大小,来得到与问题文本中最相关的视觉关系的特征表示,进行特征融合操作。
其余弦相似度公式如下式所示:假设图像通过fasterRCNN提取到的图像里每个物体间联合特征表示以及GRU提取到的问题文本的特征表示为其中,i,j分别为视觉和文本特征向量里的特征元素索引。余弦相似度公式表示为:
接着,选取三个余弦相似度分数排名最高的3个图像视觉关系特征向量,进入基于超网络卷积的特征融合步骤。经过余弦相似度操作得到三个特征向量V1、V2、
步骤3:基于基于超网络卷积的特征融合。
特征融合是视觉问答技术非常重要的一步,因此特征融合的性能直接影响视觉问答答案的准确性。本发明改进传统的两模态特征表示的简单拼接以及对应元素乘积的融合方式,通过引入超网络卷积网络来对特征进行融合,即引入超网络来对问题文本特征重构成卷积核的形式,对图像特征进行卷积操作,得到卷积后的特征表示进而完成融合操作。如附图3,
步骤3.1:将步骤2中问题文本特征向量Qf和超网络进行全连接操作(其中l×f表示卷积层的尺寸,l表示卷积层的长,f表示卷积层的通道数)得到Fr=vec-1(QfH)∈Rl×f,进而重构成卷积核的形式,卷积核的尺寸为l×1×f。
步骤3.2:将步骤3.1得到的卷积核与图像特征向量V1,V2,V3进行融合,该过程表示为:
VH1=V1*Fr
VH2=V2*Fr
VH3=V3*Fr
其中VH1,VH2,VH3∈Rm×f,这里m=dv-l+1使卷积后特征图的长度。接着卷积后得到的特征图VH1,VH2,VH3重构成向量的形式,即:
步骤3.3:为了提高模型的表达力以及增加特征融合的充分性,因此扩展的交互模块通过拼接操作。正如图2所示,对特征交互过程进行3次Interaction模块操作来捕捉更深层次的信息,即Interaction1,Interaction2,Interaction3。经过多次之后得到VH1i,VH2j,VH3z,i,j,z∈(1,2,3)。
步骤4:利用融合图像-问题特征学习多分类的分类器,以正确预测最佳匹配答案。
步骤4.1:步骤3得到图像特征VH1i,VH2j,VH3z。将该九个向量进行全局池化操作,全局池化即当九个特征向量是相同维度的,取九个向量同维度最大的值作为池化后的特征向量该维度的值,得到最后的特征向量Y。
步骤4.1:将全局池化后的特征向量Y进行全连接层操作,即:
a=YWg
其中,Y∈Rmf,其中da表示的是数据集里答案的个数。这样就使经过全连接层的特征向量的维度和数据集中答案的个数相同,得到的最后的特征向量能包含数据集中所有的答案,即经过全连接层得到的特征向量的每一维度都对应于数据集里的一个答案。
步骤4.2:将经过全连接层之后的特征向量a表示经过softmax函数得到最后的向量ap,softmax函数公式即:
对于一个向量a=(x1,x2,x3,···,xn)来说,公式如下:
其中得到的向量ap每一维度对应于数据集里每个答案的概率值,取最大的概率值,该概率值所对应的维度对应于数据集里的一个答案,即为问题的答案,即ap为预测的答案。
步骤4.3:对于答案预测,一些数据集(如VQA)为每个图像-问题对提供多个答案,并且这些不同的答案通常由不同的用户注释。由于答案是用自然语言表示的,对于一个给定的问题,不同的用户可能会提供不同的答案或具有相同或相似含义的表达方式,因此这些不同的答案可能具有很强的相关性,它们根本不是独立的。例如,“alittle dog”和“apuppy”都表示小狗,所以可能是同一个问题的正确答案。受这些观察结果的启发,设计一个适当的机制来模拟同一问题的多个不同答案之间的复杂关联是很重要的。使用KL-divergence散度(KLD)作为损失函数,以更准确地描述预测答案的概率分布与注释者给出的基本真相答案的概率分布之间的一致性。与传统方法中的答案抽样方法相比,使用KLD损失可以获得更快的收敛速度,并获得稍好的答案预测精度。使用KL-divergence作为的损失函数来对模型进行训练,基于ap与at,其中ap为经过模型得到的预测答案,at为真实的答案。KL-divergence公式为:
实验
评估的模型在VQA2.0数据集上。VQA2.0数据集包括1105904个样本,这些样本被分为三个部分,分的比例为:训练集(40.1%),验证集(19.4%)和测试集(40.5%)。使用如下的评估方法来评估的模型:
其中,Count(a)是由不同的评注者投票选出的答案a的票数。
实验结果如表1所示:
表1:在VQA2.0上与其他方法的对比实验结果
Claims (4)
1.基于动态注意力的超网络融合视觉问答答案准确性的方法,其特征在于:包括如下步骤,S1基于fasterRCNN对图像和GRU对文本的特征提取;采用faster RCNN来对图像特征进行提取;采用GRU对文本特征进行提取;
S2图像内物体间的视觉关系特征提取;图像视觉关系特征采用图像里两物体的联合特征得到初步的关系特征表示,之后通过卷积神经网络CNN来对初始特征进一步进行提取得到视觉关系特征的最优的特征表示;接下来视觉关系特征表示与文本的特征表示进行余弦相似度计算,得到相似度分数,排在前三位的分数的视觉关系特征向量被认为是和问题文本反映的最相关的关系的特征表示;
S3基于超网络卷积的特征融合;采用基于超网络卷积的方法来融合两种模态的特征;利用超网络来对问题文本特征重构成卷积核的形式,接着把图像特征作为特征图来进行卷积操作,最后把卷积后的结果通过全连接层映射到需要的维度空间;
S4利用融合图像-问题特征学习多分类的分类器,以正确预测最佳匹配答案;在VQA方法中,回答阶段被定义为一个多类分类问题,每个答案都指向一个单独的类;通过Softmax函数取对应于最大值的的答案类别作为最佳匹配答案;当对图像和文本进行特征提取之后经过融合之后得到的特征经过多分类才能得到的答案,需要对特征进行充分的融合;
S4包括,
步骤4.1:步骤3得到图像特征VH1i,VH2j,VH3z,i,j,z∈(1,2,3);将该九个向量进行全局池化操作,全局池化即当九个特征向量是相同维度的,取九个向量同维度最大的值作为池化后的特征向量该维度的值,得到最后的特征向量Y;
步骤4.2:将全局池化后的特征向量Y进行全连接层操作,即:
a=YWg
其中,Y∈Rmf,其中da表示的是数据集里答案的个数;这样就使经过全连接层的特征向量的维度和数据集中答案的个数相同,得到的最后的特征向量能包含数据集中所有的答案,即经过全连接层得到的特征向量的每一维度都对应于数据集里的一个答案;
步骤4.3:将经过全连接层之后的特征向量a表示经过softmax函数得到最后的向量ap,softmax函数公式即:
对于一个向量a=(x1,x2,x3,···,xn)来说,公式如下:
其中得到的向量ap每一维度对应于数据集里每个答案的概率值,取最大的概率值,该概率值所对应的维度对应于数据集里的一个答案,即为问题的答案,即ap为预测的答案;
步骤4.4:使用KL-divergence散度KLD作为损失函数,以更准确地描述预测答案的概率分布与注释者给出的基本真相答案的概率分布之间的一致性;使用KL-divergence作为的损失函数来对模型进行训练,基于ap与at,其中ap为经过模型得到的预测答案,at为真实的答案;KL-divergence公式为:
2.根据权利要求1所述的基于动态注意力的超网络融合视觉问答答案准确性的方法,其特征在于:S1中,对于给定的一张图像,图像里视觉特征表示为即图像中每个物体的视觉特征为/>而对于文本特征的提取,采用GRU提取文本特征;即将问题文本中的每个词的词向量按顺序输入到GRU模型中,其中GRU模型中有两个门:分别是更新门和重置门,来对问题文本中的每个词进行更新和重置,将不需要的特征丢失,将重要的特征通过门Gate保留下来,使用最终的隐藏状态作为问题的表示,最后得到问题文本的特征的特征向量;问题里每个词向量表示为/>取问题里前14个词,而对于问题长度大于14个词的问题截断取前14个词的词向量,而对于问题长度小于14个词的问题文本,进行补0操作;GRU具体过程为:
zt=σ(Wz·[ht-1,xt])
rt=σ(Wr·[ht-1,xt])
其中,xt为问题文本的第t个词的词向量;σ为sigmoid激活函数或者tanh激活函数;zt为更新门,rt为重置门;Wz,Wr与W为参数;
经过GRU来提取文本特征之后,最后得到问题文本的特征表示为
3.根据权利要求1所述的基于动态注意力的超网络融合视觉问答答案准确性的方法,其特征在于:S2中,
步骤2.1:将步骤1图片通过fasterRCNN提取出来的图像里每个物体的特征(i,j∈[1,n])进行两两组合得到的联合特征向量表示Vmi∈R2d,i∈1,2,...,[n(n-1)]2,即得到多个两物体之间潜在关系的初始视觉关系特征;
步骤2.2:将Vmi通过卷积神经网络CNN来对两物体之间的初始关系特征进行提取得到两物体之间最优的关系特征表示
步骤2.3::将问题文本的特征向量Q线性映射到图像的特征空间,即得到则该映射过程表示为:
Qf=QWq
其中,
步骤2.4:通过比较图像视觉关系特征Vf和问题文本特征Qf的余弦相似度分数的大小,来得到与问题文本中最相关的视觉关系的特征表示,进行特征融合操作;
假设图像通过fasterRCNN提取到的图像里每个物体间联合特征表示以及GRU提取到的问题文本的特征表示为/>其中,i,j分别为视觉和文本特征向量里的特征元素索引;余弦相似度公式表示为:
接着,选取三个余弦相似度分数排名最高的3个图像视觉关系特征向量,进入基于超网络卷积的特征融合步骤;经过余弦相似度操作得到三个特征向量V1、
4.根据权利要求1所述的基于动态注意力的超网络融合视觉问答答案准确性的方法,其特征在于:S3中,
步骤3.1:将步骤2中问题文本特征向量Qf和超网络进行全连接操作,其中l×f表示卷积层的尺寸,l表示卷积层的长,f表示卷积层的通道数;得到Fr=vec-1(QfH)∈Rl×f,进而重构成卷积核的形式,卷积核的尺寸为l×1×f;
步骤3.2:将步骤3.1得到的卷积核与图像特征向量V1,V2,V3进行融合,该过程表示为:
VH1=V1*Fr
VH2=V2*Fr
VH3=V3*Fr
其中VH1,VH2,VH3∈Rm×f,这里m=dv-l+1使卷积后特征图的长度;接着卷积后得到的特征图VH1,VH2,VH3重构成向量的形式,即:
步骤3.3:为了提高模型的表达力以及增加特征融合的充分性,因此扩展的交互模块通过拼接操作;对特征交互过程进行3次Interaction模块操作来捕捉更深层次的信息,即Interaction1,Interaction2,Interaction3;经过多次之后得到VH1i,VH2j,VH3z,i,j,z∈(1,2,3)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110182159.XA CN112818889B (zh) | 2021-02-09 | 2021-02-09 | 基于动态注意力的超网络融合视觉问答答案准确性的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110182159.XA CN112818889B (zh) | 2021-02-09 | 2021-02-09 | 基于动态注意力的超网络融合视觉问答答案准确性的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112818889A CN112818889A (zh) | 2021-05-18 |
CN112818889B true CN112818889B (zh) | 2024-05-28 |
Family
ID=75864949
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110182159.XA Active CN112818889B (zh) | 2021-02-09 | 2021-02-09 | 基于动态注意力的超网络融合视觉问答答案准确性的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112818889B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113360621A (zh) * | 2021-06-22 | 2021-09-07 | 辽宁工程技术大学 | 一种基于模态推理图神经网络的场景文本视觉问答方法 |
CN113515615A (zh) * | 2021-07-09 | 2021-10-19 | 天津大学 | 一种基于胶囊自-导协同注意力机制的视觉问答方法 |
CN114168769B (zh) * | 2021-11-16 | 2024-02-02 | 西安理工大学 | 基于gat关系推理的视觉问答方法 |
CN114201592B (zh) * | 2021-12-02 | 2024-07-23 | 重庆邮电大学 | 面向医学图像诊断的视觉问答方法 |
CN114925703B (zh) * | 2022-06-14 | 2024-09-10 | 齐鲁工业大学 | 一种多粒度文本表示和图文融合的视觉问答方法及系统 |
CN114881541B (zh) * | 2022-07-06 | 2022-11-11 | 成都西交智汇大数据科技有限公司 | 一种考生成绩的评定方法、装置、设备及可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108920587A (zh) * | 2018-06-26 | 2018-11-30 | 清华大学 | 融合外部知识的开放域视觉问答方法及装置 |
CN111008293A (zh) * | 2018-10-06 | 2020-04-14 | 上海交通大学 | 基于结构化语义表示的视觉问答方法 |
CN111709275A (zh) * | 2020-04-28 | 2020-09-25 | 北京工业大学 | 一种用于Affordance推理的深度网络构建方法 |
CN112100346A (zh) * | 2020-08-28 | 2020-12-18 | 西北工业大学 | 基于细粒度图像特征和外部知识相融合的视觉问答方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109902166A (zh) * | 2019-03-12 | 2019-06-18 | 北京百度网讯科技有限公司 | 视觉问答模型、电子设备及存储介质 |
-
2021
- 2021-02-09 CN CN202110182159.XA patent/CN112818889B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108920587A (zh) * | 2018-06-26 | 2018-11-30 | 清华大学 | 融合外部知识的开放域视觉问答方法及装置 |
CN111008293A (zh) * | 2018-10-06 | 2020-04-14 | 上海交通大学 | 基于结构化语义表示的视觉问答方法 |
CN111709275A (zh) * | 2020-04-28 | 2020-09-25 | 北京工业大学 | 一种用于Affordance推理的深度网络构建方法 |
CN112100346A (zh) * | 2020-08-28 | 2020-12-18 | 西北工业大学 | 基于细粒度图像特征和外部知识相融合的视觉问答方法 |
Non-Patent Citations (3)
Title |
---|
基于Spatial-DCTHash动态参数网络的视觉问答算法;孟祥申;江爱文;刘长红;叶继华;王明文;;中国科学:信息科学;20170820(第08期);全文 * |
基于深度学习的视觉问答技术研究;白林亭;文鹏程;李亚晖;;航空计算技术;20180925(第05期);全文 * |
结合自底向上注意力机制和记忆网络的视觉问答模型;闫茹玉;刘学亮;;中国图象图形学报;20200516(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112818889A (zh) | 2021-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112818889B (zh) | 基于动态注意力的超网络融合视觉问答答案准确性的方法 | |
Messina et al. | Transformer reasoning network for image-text matching and retrieval | |
CN114398961A (zh) | 一种基于多模态深度特征融合的视觉问答方法及其模型 | |
CN103778227B (zh) | 从检索图像中筛选有用图像的方法 | |
CN111400591A (zh) | 资讯信息推荐方法、装置、电子设备及存储介质 | |
Wang et al. | Deep cascaded cross-modal correlation learning for fine-grained sketch-based image retrieval | |
CN113886626B (zh) | 基于多重注意力机制的动态记忆网络模型的视觉问答方法 | |
CN113705218A (zh) | 基于字符嵌入的事件元素网格化抽取方法、存储介质及电子装置 | |
CN112257841A (zh) | 图神经网络中的数据处理方法、装置、设备及存储介质 | |
Moumtzidou et al. | ITI-CERTH participation to TRECVID 2012. | |
CN118035945B (zh) | 一种标签识别模型的处理方法和相关装置 | |
CN112613451A (zh) | 一种跨模态文本图片检索模型的建模方法 | |
Han et al. | Gan based three-stage-training algorithm for multi-view facial expression recognition | |
Wang et al. | Multi-scale feature pyramid and multi-branch neural network for person re-identification | |
Atkale et al. | Multi-scale feature fusion model followed by residual network for generation of face aging and de-aging | |
Ishmam et al. | From image to language: A critical analysis of visual question answering (vqa) approaches, challenges, and opportunities | |
Kastner et al. | Estimating the visual variety of concepts by referring to Web popularity | |
Ramesh Babu et al. | A Design of Eigenvalue based CNN tool for Image Retrieval | |
Saleem et al. | Stateful human-centered visual captioning system to aid video surveillance | |
Bacharidis et al. | Improving deep learning approaches for human activity recognition based on natural language processing of action labels | |
CN115758159B (zh) | 基于混合对比学习和生成式数据增强的零样本文本立场检测方法 | |
WO2023036159A1 (en) | Methods and devices for audio visual event localization based on dual perspective networks | |
CN113343953B (zh) | 一种用于遥感场景识别的fgr-am方法和系统 | |
CN114896962A (zh) | 多视角句子匹配模型、应用方法和相关装置 | |
Zhou et al. | Unit Correlation With Interactive Feature for Robust and Effective Tracking |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |