CN113515615A - 一种基于胶囊自-导协同注意力机制的视觉问答方法 - Google Patents

一种基于胶囊自-导协同注意力机制的视觉问答方法 Download PDF

Info

Publication number
CN113515615A
CN113515615A CN202110778207.1A CN202110778207A CN113515615A CN 113515615 A CN113515615 A CN 113515615A CN 202110778207 A CN202110778207 A CN 202110778207A CN 113515615 A CN113515615 A CN 113515615A
Authority
CN
China
Prior art keywords
image
representing
question
attention
capsule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110778207.1A
Other languages
English (en)
Inventor
浦俊
韩亚洪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202110778207.1A priority Critical patent/CN113515615A/zh
Publication of CN113515615A publication Critical patent/CN113515615A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Library & Information Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于胶囊自‑导协同注意力机制的视觉问答方法,从互联网上下载图像数据,针对每个图像提出问题并给出答案,以此形成<图像,问答>对,构造视觉问答数据集;对图像数据进行预处理,然后提取图像数据的深度卷积特征;对文本数据进行预处理,然后提取文本数据的深度特征;基于胶囊自‑导协同注意力机制学习图像和问题文本的联合表征;把学到的联合表征进行拆分再学习,以获得更为精简的联合表征,并通过该联合表征预测出合适的答案。本发明能够准确获取图像和文本之间的联合表征;在一定程度上减少了模型的参数量,使得模型更加容易训练,且不容易过拟合。

Description

一种基于胶囊自-导协同注意力机制的视觉问答方法
技术领域
本发明涉及问答系统、计算机视觉,尤其涉及一种基于胶囊自-导协同注意力机制的视觉问答方法。
背景技术
视觉问答任务通常会向计算机展示一些视觉信息(如图片或视频),并提出关于该视觉信息的问题让计算机回答。根据数据集和具体任务的不同,答案有很多种形式:一个词、一个短语、一个判断(是/否)、从提供的可能选项中选择或是一个填空。如今,随着5G、无人驾驶、AR/VR以及直播带货,短视频等领域的多点开花蓬勃发展,人们需要面对急速膨胀的视觉信息。一直以来,视觉问答都是计算机视觉和多媒体分析的热点。
与传统的文本问答相比,视觉问答方法的核心和难点是需要同时处理视觉数据和问题的文本数据。目前,主流的方法是采用协同注意力机制来对多种不同模态的特征进行融合。在仍然存在的问题中,其中之一就是为了追求更高的准确率和更强的性能,各模型的参数量开始剧增,造成了两大缺陷:第一,现有的模型越来越难以训练;第二,在比较小的数据集上,现有的模型容易过拟合。此外,由于深度学习模型的黑盒效应,导致视觉问答任务的可解释性往往难以给出。以上种种,极大限制了现有的视觉问答方法在更大范围内的推广和使用。
如何找到有效的方法从给定的视觉数据中获取信息、并结合给定的问题获取答案,是本发明亟待解决的问题。
发明内容
为了改善视觉问答任务现有的不足,本发明提出一种基于胶囊自-导协同注意力机制的视觉问答方法,基于胶囊自-导协同注意力机制实现了更紧凑更高效的视觉问答,在一定程度上缓解现有技术存在的模型参数量庞大的问题。
本发明的一种基于胶囊自-导协同注意力机制的视觉问答方法,该流程具体包括以下步骤:
步骤1,从互联网上下载图像数据,针对每个图像提出问题并给出答案,以此形成<图像,问答>对,构造视觉问答数据集;
步骤2,对图像数据进行预处理,然后由检测区域中的图像数据提取图像数据的平均池化卷积特征作为物体特征;该步骤具体包括:针对图像数据,对图像中能检测到的物体的概率设置置信度阈值,将输入图像特征集表示为
Figure BDA0003155130250000021
m表示物体的数量,dx表示在X这个集合里每个特征的维度;
步骤3,对文本数据进行预处理,然后提取文本数据的深度特征,具体处理如下:
所述预处理具体包括:对文本数据进行去分隔词处理、词汇转换成小写、句子裁剪;
构成问题中的单词被送入一个300维的GloVe词嵌入,将词嵌入再送入含有dy个隐藏单元的单层LSTM网络,提取单层LSTM网络的最后一个隐状态的输出作为整个问题的深度特征;
步骤4,进行基于胶囊自-导协同注意力机制学习图像和问题文本的联合表征;该步骤具体包括以下处理:
构造两个组件即自注意力组件Self-Attention和引导注意力组件Guided-Attention;
给定一个输入图像集合特征
Figure BDA0003155130250000022
多头注意力层捕捉成对的输入样本<xi,xj>之间的配对关系,然后计算出被关注的特征Z∈Rn×d
接着,多头注意力层的输出特征被送入前馈神经网络,通过实现动态路由过程学习到联合表征;
步骤5,将该联合表征进行进一步多模态融合过程,最终得到预测的答案。
与现有技术相比,本发明的一种基于胶囊自-导协同注意力机制的视觉问答方法,自注意力机制和引导注意力机制则这两大组件配合形成的协同注意力机制能够准确获取图像和文本之间的联合表征;改进传统的迭代式多步注意力操作带来的模型参数量庞大的问题;在一定程度上减少了模型的参数量,使得模型更加容易训练,且不容易过拟合。
附图说明
图1为本发明的一种基于胶囊自-导协同注意力机制的视觉问答方法整体流程图。
图2为动态路由过程的算法模型示意图;
图3为本发明实施例的视觉问答效果图;
图4为本发明实施例的注意力权重的可视化示意图。
具体实施方式
下面结合附图和实施例对本发明的技术方案进行详细说明。
针对视觉数据和问题文本数据这两种异构跨模态的数据,本发明实现了自注意力机制通过对所有特征样本与目标特征之间的相似度进行归一化重建,引导注意力机制则通过问题文本的特征来指导图像特征注意力权重的学习。为了改进传统的迭代式多步注意力操作带来的模型参数量庞大的问题,采用胶囊网络中的动态路由思想,将底层注意力看作底层胶囊,将高层注意力看作高层胶囊,用一种动态的、紧凑的单步路由过程取代传统的多步迭代过程。在本发明中,构建了两个基础的注意力部件,通过一种特殊的动态路由过程,将其组合成协同注意力。在该动态路由过程中,低层的注意力被视作低层胶囊,高层的注意力被视作高层胶囊,以此在单步过程中完成多步注意力操作。本发明的创新之处在于采用胶囊网络的思想改进视觉问答方法中的注意力模块,使得模型更紧凑,在一定程度上减少了模型的参数量。
如图1所示,为本发明的一种基于胶囊自-导协同注意力机制的视觉问答方法总体框架流程图,该流程具体包括以下步骤:
步骤1,从互联网上下载图像数据,针对每个图像提出问题并给出答案,以此形成<图像,问答>对,构造视觉问答数据集;
具体实施例如下:
1.1、在实施例中选择VQA 2.0数据集。数据集中的图像构成图像集合Img={img1,img2,...,imgM},其中M表示该数据集中图像的总数;
1.2、针对每张图像,存在若干个问答对。图像imgi所对应的问答对为
Figure BDA0003155130250000044
Figure BDA0003155130250000045
其中N表示该图像对应问答对的个数;
1.3、通过图像数据集Img和其对应的问答对QA组成<图像,问答对>,构建视觉问答数据集;
步骤2,对图像数据进行预处理,然后提取图像数据的深度卷积特征;
具体实施例如下:
2.1、本实施例选择Faster R-CNN网络作为所要使用的图像特征提取网络,其特征维度为2048;
2.2、根据选定的图像特征提取网络的特点,将图像数据集缩放成224×224分辨率;
2.3、使用在Visual Genome数据集上预训练过的模型;
2.4、针对图像数据集,对图像中能检测到的物体的概率设置了一个置信度阈值,进而得到一个模糊的物体数量。物体的数量m∈[10,100]。对于第i个物体,其特征
Figure BDA0003155130250000041
Figure BDA0003155130250000042
该特征由其检测区域中的平均池化卷积特征得到。由此,将输入的图像集合的特征表示为
Figure BDA0003155130250000043
dx表示在X这个集合里每个特征的维度。
步骤3,对文本数据进行预处理,然后提取文本数据的深度特征;
具体实施例如下:
3.1、对文本数据进行去分隔词处理,将所有词汇转换成小写形式;把句子裁剪成不超过14个单词;
3.2、问题中的每个词被送入一个300维的GloVe词嵌入,该GloVe词嵌入是事先在大规模语料库中预训练过的。每个输出向量就是一个词的特征,共构成了一个大小为s×300的单词序列。s表示问题中的单词个数,其范围是s∈[1,14];
3.3、将词嵌入送入含有dy个隐藏单元的单层LSTM网络,取最后一个隐状态的输出作为整个问题的特征。在本实施例中设置其隐藏状态的大小为512,故问题的特征维度为512维;
步骤4,基于胶囊自-导协同注意力机制学习图像和问题文本的联合表征;
具体实施例如下:
4.1、以一张图像以及对应该图像的一个问题为例,设获得的整个问题特征为y,该图像所获得的图像特征是一个集合,其某一个局部特征为xi∈x1,...,xn,n表示局部特征的个数;
4.2、构造两个组件:自注意力组件Self-Attention和引导注意力组件Guided-Attention。自注意力组件有两个子层,分别是多头注意力层和前馈神经网络层组成。而这两个子层,其每个子层后都加了一个残差连接(residual connection)和归一化(normalization);
给定一个输入特征的集合
Figure BDA0003155130250000051
多头注意力捕捉成对的输入样本<xi,xj>之间的配对关系,然后提过对X中所有实例的加权求和,计算出被关注的特征Z∈Rn×d。Z∈Rn×d的具体含义:Z是被关注的特征集合,该集合中的元素都是实数(集合Z是个实数集);n表示集合中元素的个数,在这里,n由输入集合X=[x1,...,xn]来决定;而d表示集合Z中每个元素的维度。多头注意力层的输出特征接着被送入前馈神经网络,该前馈神经网络由两层全连接层和ReLU函数和dropout组成(FC(4d)-ReLU-Dropout(0.1)-FC(d))。除此之外,为了促进优化效果,增加了带有layer normalization的残差连接。
引导注意力组件和自注意力组件十分类似。相应地,引导注意力部件取两组输入特征
Figure BDA0003155130250000052
Figure BDA0003155130250000053
也就是说,自注意力的Q,K,V三者相等,而引导注意力不是。一般说来,Y用来帮助引导X的注意力学习。这两组输入特征X和Y具有它们各自不同的,灵活的形状。引导注意力部件分别学习X和Y的每个配对样本<xi,yi>之间的配对关系。
4.3、如图2所示,为动态路由过程的算法模型示意图。动态路由过程如下,:
初始化映射矩阵Wx和Wy,目的是将问题文本向量和图像特征向量集合映射到同一个空间维度,此时获得
Figure BDA0003155130250000061
和yp,即
Figure BDA0003155130250000062
yp=Wy·y
其中,
Figure BDA0003155130250000063
表示映射后的问题文本向量,yp表示映射后的图像特征向量,xi表示集合X里的第i个元素,即第i个图像特征,y表示问题的文本特征向量,n表示输入的图像特征集X中的元素个数;
分别对映射后的问题文本向量和图像特征向量使用自注意力机制,即
Figure BDA0003155130250000064
yp=SelfAttention(yp)
其中,SelfAttention()表示自注意力函数,
用映射后的问题文本向量得到胶囊的输出的初始化向量v0,即
v0=yp
其中,v0表示v的初始值,即胶囊的输出的初始值,v表示胶囊的输出向量。
进入循环体,设循环次数为N,t∈[1,N];
令t=0;
计算耦合系数ci=softmax(bi);
其中,bi表示内部变量;
计算加权求和后的图像特征
Figure BDA0003155130250000065
其中,X表示输入的图像特征集合,xi表示集合X里的第i个元素,即第i个图像特征,
Figure BDA0003155130250000066
表示映射后的第i个图像特征,y表示问题的文本特征向量,yp表示映射后的文本特征向量,ci表示在参考向量y的引导下,特征向量集中每个向量xi的权重参数,由模型习得并由动态路由协同注意力算法更新,ci∈c1,...,cn
将此时胶囊的输出与加权求和后的图像特征送入引导注意力组件,以此来更新胶囊下一次的输出
Figure BDA0003155130250000071
vt表示在路由协同注意力算法中胶囊的输出,即,参考向量集合和特征向量的联合表示。t是当前的迭代次数。
更新内部变量
Figure BDA0003155130250000072
结束循环体,获得胶囊最终的输出v;最终的v就表示参考向量和特征向量的联合表征。
步骤5,将学到的联合表征进行拆分再学习,以获得更为精简的联合表征,并通过该联合表征预测出合适的答案;
5.1、输入图像X和Y的联合分布[X,Y](t),;将其拆分成两部分X(t)和Y(t)。;
5.2、将这两部分分别送入两层的多层感知机(Multi-layer Perceptron,简称MLP),来分别获得各自的有效特征xattd和yattd
α=softmax(MLP(X(t)))
β=softmax(MLP(Y(t)))
Figure BDA0003155130250000073
Figure BDA0003155130250000074
其中,X(t)、Y(t)表示输入图像X和Y的联合分布根据路由过程的迭代次数拆分出来的两部分结果,t表示路由过程的迭代次数,t∈[1,N],这里的X(t)和Y(t)并不是图像和问题各自的特征,而是互相融合了对方一些冗余信息的特征,MLP()表示多层感知函数,softmax()表示激活函数,
Figure BDA0003155130250000075
表示Y(t)中的第i个元素;
Figure BDA0003155130250000076
Figure BDA0003155130250000077
分别是X(t)、Y(t)中的第i个元素。在计算过程中属于中间变量,最终的目的是计算出各自的有效特征xattd和yattd。这里αi和βi分别表示对两种特征进行加权求和时的权重,是获得最终结果的中间参数。
5.3、再采用线性模型来融合两个特征,融合后的有效联合分布由以下表达式计算得到:
Figure BDA0003155130250000081
其中,Wx_attd和Wy_attd表示参考向量和特征向量集这两个线性投影矩阵,由模型习得并通过BP算法更新,使用LayerNorm来让训练过程更稳定,z表示后的有效联合分布,LayerNorm的全称是layer normalization,LayerNorm()表示适用于RNN等时序网络的归一化方法,
Figure BDA0003155130250000082
分别表示Wx和Wy两个矩阵的转置。
融合后的特征z被送入一个sigmoid函数用以投影成一个向量zproj∈RK,其中K表示训练集中最频繁答案的个数,在本实施例中,设置训练集中候选答案为3129个。使用Adam优化器,其参数为:α=0.001,β1=0.9,β2=0.999。设置初始学习率为min(2.5ke-5,1e-4),其中k表示现在的epoch数。每训练2500步之后,学习率减半。训练过程中,设置的损失函数loss表达式如下:
Figure BDA0003155130250000083
Figure BDA0003155130250000084
其中,pi表示第i类的概率分布。
如图4所示,本发明实施例的注意力权重的可视化示意图。注意力图纵轴上的0-15表示图像中的每个候选框,横轴表示问题中的每个单词。为了达到更好的视觉效果,用不同颜色的bounding box框出了图像中的六个物体,它们与答案(即“motorcycles”)有关。当把纵轴看作常量,即假设输入特定的图像信息,那么纵轴对应的每一个横轴上的数字都可以看作是问题对问题自己的自注意力。横向遍历横轴对应的每一个值,可以发现“how”和“many”获得了相对较高的注意力得分,表明模型通过上下文关系和短语的固定搭配,知道这是一个计数任务。而“motorcycles”这一列取得了最高的得分,表明模型通过问题的自注意力正确识别了问答的关键词。当把横轴看作常量,即假设单词的特征已经确定,那么横轴对应的每个纵轴上的值都可以看作是图像中的某个局部对该局部的自注意力。纵向遍历纵轴对应的每个值,可以发现第3、第7、第8、第10、第11和第15取得了最大的注意力得分。它们正好对应于图像的六辆摩托车各自boundingbox的编号。而在问题对图像的引导注意力之后,最后得到的联合分布中,由横轴上的“motorcycles”和纵轴上的3,7,8,10,11,15所定位的特征图块取得了最高的得分。这说明所有被关注的图像特征都倾向于使用“摩托车”这一特征进行重建。该联合分布显示,输入的图像特征被问题特征中的“motorcycles”这一个词所重构。换言之,经过问题特征的引导,该模型对图像特征有了更好的关注。
应当理解的是,上述针对具体实施例的描述较为详细,但不能因此而理解为对本发明专利保护范围的限制,本发明的专利保护范围应以所附权利要求为准。

Claims (3)

1.一种基于胶囊自-导协同注意力机制的视觉问答方法,其特征在于,该流程具体包括以下步骤:
步骤1,从互联网上下载图像数据,针对每个图像提出问题并给出答案,以此形成<图像,问答>对,构造视觉问答数据集;
步骤2,对图像数据进行预处理,然后由检测区域中的图像数据提取图像数据的平均池化卷积特征作为物体特征;该步骤具体包括:针对图像数据,对图像中能检测到的物体的概率设置置信度阈值,将输入图像特征集表示为
Figure FDA0003155130240000011
m表示物体的数量,dx表示在X这个集合里每个特征的维度;
步骤3,对文本数据进行预处理,然后提取文本数据的深度特征,具体处理如下:
所述预处理具体包括:对文本数据进行去分隔词处理、词汇转换成小写、句子裁剪;
构成问题中的单词被送入一个300维的GloVe词嵌入,将词嵌入再送入含有dy个隐藏单元的单层LSTM网络,提取单层LSTM网络的最后一个隐状态的输出作为整个问题的深度特征;
步骤4,进行基于胶囊自-导协同注意力机制学习图像和问题文本的联合表征;该步骤具体包括以下处理:
构造两个组件即自注意力组件Self-Attention和引导注意力组件Guided-Attention;
给定一个输入图像集合特征
Figure FDA0003155130240000012
多头注意力层捕捉成对的输入样本<xi,xj>之间的配对关系,然后计算出被关注的特征Z∈Rn×d
接着,多头注意力层的输出特征被送入前馈神经网络,通过实现动态路由过程学习到联合表征;
步骤5,将该联合表征进行进一步多模态融合过程,最终得到预测的答案。
2.如权利要求1所述的一种基于胶囊自-导协同注意力机制的视觉问答方法,其特征在于,所述实现动态路由过程的具体处理包括:
初始化映射矩阵Wx和Wy,获往
Figure FDA0003155130240000013
和yp,即
Figure FDA0003155130240000014
yp=Wy·y
其中,
Figure FDA0003155130240000021
表示映射后的图像特征向量,yp表示映射后的问题文本特征向量,y表示问题的文本特征向量,n表示输入图像特征集X中的元素个数,xi表示输入图像特征集X里的第i个元素,即第i个图像特征,
Figure FDA0003155130240000022
定示映射后的第i个图像特征,y表示问题的文本特征向量,yp表示映射后的文本特征向量;
分别对映射后的问题文本向量和图像特征向量使用自注意力机制,即
Figure FDA0003155130240000023
yp=SelfAttention(yp)
其中,SelfAttention()表示自注意力函数,
用映射后的问题文本向量得到胶囊的输出的初始化向量v0,即
v0=yp
其中,v0表示胶囊输出的初始值;
进入循环体,设循环次数为N,t∈[1,N];
令t=0;
计算耦合系数ci=softmax(bi);
其中,bi表示内部变量;
计算加权求和后的图像特征
Figure FDA0003155130240000024
其中,
Figure FDA0003155130240000025
表示映射后的图像特征向量,ci表示在参考向量y的引导下,特征向量集中每个向量xi的权重参数,由模型习得并由动态路由协同注意力算法更新,n表示输入的图像特征集X中的元素个数;
将此时胶囊的输出与加权求和后的图像特征送入引导注意力组件,以此来更新胶囊下一次的输出
Figure FDA0003155130240000026
vt表示在路由协同注意力算法中胶囊的输出,即,参考向量集合和特征向量的联合表示,t表示当前的迭代次数;
更新内部变量
Figure FDA0003155130240000027
结束循环体,获得胶囊最终的输出v;最终的v就表示参考向量和特征向量的联合表征。
3.如权利要求1所述的一种基于胶囊自-导协同注意力机制的视觉问答方法,其特征在于,所述步骤5具体包括以下步骤:
5.1、输入图像X和Y的联合分布[X,Y](t),;将其拆分成两部分X(t)和Y(t)
5.2、将这两部分分别送入两层的多层感知机(Multi-layer Perceptron,简称MLP),来分别获得各自的有效特征xattd和yattd
α=softmax(MLP(X(t)))
β=softmax(MLP(Y(t)))
Figure FDA0003155130240000031
Figure FDA0003155130240000032
其中,X(t)、Y(t)表示输入图像X和Y的联合分布根据路由过程的迭代次数拆分出来的两部分结果,t表示路由过程的迭代次数,MLP()表示多层感知函数,X(t)和Y(t)表示图像和问题互相融合对方冗余信息的特征集oftmax()表示激活函数,
Figure FDA0003155130240000033
表示Y(t)中的第i个元素,
Figure FDA0003155130240000034
Figure FDA0003155130240000035
分别是X(t)、Y(t)中的第i个元素,计算过程中属于中间变量,最终的目的是计算出各自的有效特征xattd和yattd,αi和βi分别表示对两种特征进行加权求和时的权重,是获得最终结果的中间参数;
5.3、再采用线性模型来融合两个特征,融合后的有效联合分布由以下表达式计算得到:
Figure FDA0003155130240000036
其中,Wx_attd和Wy_attd表示参考向量和特征向量集这两个线性投影矩阵,z表示融合后的有效联合分布特征,LayerNorm()表示适用于RNN等时序网络的归一化方法,
Figure FDA0003155130240000037
分别表示Wx和Wy两个矩阵的转置;
融合后的有效联合分布特征z被送入一个sigmoid函数用以投影成一个向量zproj∈RK,其中K表示训练集中最频繁答案的个数,使用Adam优化器进行训练优化;
训练过程中,设置的损失函数loss表达式如下:
Figure FDA0003155130240000041
Figure FDA0003155130240000042
其中,pi表示第i类的概率分布。
CN202110778207.1A 2021-07-09 2021-07-09 一种基于胶囊自-导协同注意力机制的视觉问答方法 Pending CN113515615A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110778207.1A CN113515615A (zh) 2021-07-09 2021-07-09 一种基于胶囊自-导协同注意力机制的视觉问答方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110778207.1A CN113515615A (zh) 2021-07-09 2021-07-09 一种基于胶囊自-导协同注意力机制的视觉问答方法

Publications (1)

Publication Number Publication Date
CN113515615A true CN113515615A (zh) 2021-10-19

Family

ID=78066806

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110778207.1A Pending CN113515615A (zh) 2021-07-09 2021-07-09 一种基于胶囊自-导协同注意力机制的视觉问答方法

Country Status (1)

Country Link
CN (1) CN113515615A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263912A (zh) * 2019-05-14 2019-09-20 杭州电子科技大学 一种基于多目标关联深度推理的图像问答方法
CN110377710A (zh) * 2019-06-17 2019-10-25 杭州电子科技大学 一种基于多模态融合的视觉问答融合增强方法
CN112818889A (zh) * 2021-02-09 2021-05-18 北京工业大学 基于动态注意力的超网络融合视觉问答答案准确性的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263912A (zh) * 2019-05-14 2019-09-20 杭州电子科技大学 一种基于多目标关联深度推理的图像问答方法
CN110377710A (zh) * 2019-06-17 2019-10-25 杭州电子科技大学 一种基于多模态融合的视觉问答融合增强方法
CN112818889A (zh) * 2021-02-09 2021-05-18 北京工业大学 基于动态注意力的超网络融合视觉问答答案准确性的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
余宙等: "用于视觉问答的深度模块化共同注意网络", 《IEEEXPLORE》 *
陈伟秋: "面向视觉问答的动态胶囊注意力机制", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
陈小兵: "基于知识库的视觉问答技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Similar Documents

Publication Publication Date Title
CN110377710B (zh) 一种基于多模态融合的视觉问答融合增强方法
CN110163299B (zh) 一种基于自底向上注意力机制和记忆网络的视觉问答方法
CN109783666B (zh) 一种基于迭代精细化的图像场景图谱生成方法
CN112036276B (zh) 一种人工智能视频问答方法
CN111079532A (zh) 一种基于文本自编码器的视频内容描述方法
CN114298158A (zh) 一种基于图文线性组合的多模态预训练方法
CN110851760B (zh) 在web3D环境融入视觉问答的人机交互系统
CN115115913A (zh) 一种数据处理方法、装置、电子设备及存储介质
Sharma et al. A survey of methods, datasets and evaluation metrics for visual question answering
CN115223020B (zh) 图像处理方法、装置、设备、存储介质及计算机程序产品
CN111611367B (zh) 一种引入外部知识的视觉问答方法
CN112527993B (zh) 一种跨媒体层次化深度视频问答推理框架
Halvardsson et al. Interpretation of swedish sign language using convolutional neural networks and transfer learning
CN116975350A (zh) 图文检索方法、装置、设备及存储介质
CN114339450A (zh) 视频评论生成方法、系统、设备及存储介质
CN115331075A (zh) 一种多模态场景图知识增强的对抗式多模态预训练方法
CN116187349A (zh) 一种基于场景图关系信息增强的视觉问答方法
CN116385937A (zh) 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统
Ji et al. Relation constraint self-attention for image captioning
CN114880307A (zh) 一种开放教育领域知识的结构化建模方法
Mazaheri et al. Video fill in the blank using lr/rl lstms with spatial-temporal attentions
CN117033609B (zh) 文本视觉问答方法、装置、计算机设备和存储介质
Ishmam et al. From image to language: A critical analysis of visual question answering (vqa) approaches, challenges, and opportunities
CN113010712B (zh) 一种基于多图融合的视觉问答方法
CN116662924A (zh) 基于双通道与注意力机制的方面级多模态情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20211019

WD01 Invention patent application deemed withdrawn after publication