CN111858849A - 一种基于密集协注意力模块的vqa方法 - Google Patents

一种基于密集协注意力模块的vqa方法 Download PDF

Info

Publication number
CN111858849A
CN111858849A CN202010520943.2A CN202010520943A CN111858849A CN 111858849 A CN111858849 A CN 111858849A CN 202010520943 A CN202010520943 A CN 202010520943A CN 111858849 A CN111858849 A CN 111858849A
Authority
CN
China
Prior art keywords
attention
image
intensive
vqa
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010520943.2A
Other languages
English (en)
Inventor
张佳宁
武兆昌
陈云芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202010520943.2A priority Critical patent/CN111858849A/zh
Publication of CN111858849A publication Critical patent/CN111858849A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于密集协注意力模块的VQA方法,从图像中提取出的特征V和问题中提取出的特征Q,送入多个密集协注意力机制模块中,第一个模块输出由问题引导提取出来的图像特征V1和由图像引导提取出来的问题特征Q1,之后按照同样的方式通过多个密集协注意力模块操作,由两种融合了对方特性的特征进行问题词的回答。本发明使图像与问题这两种信息处理模式之间进行密集的双向互动,实现的更高准确度的视觉问答模型,有助于提高预测答案的准确性。

Description

一种基于密集协注意力模块的VQA方法
技术领域
本发明属于机器学习领域,具体涉及一种基于密集协注意力模块的VQA方法,主要应用于视觉问答。
背景技术
Visual Question Answer(VQA)视觉图像的自然语言问答是一个多学科的人工智能研究问题,涉及到计算机视觉、自然语言处理和知识表示(KR)等领域,目前已经成为人工智能领域的热门方向。一般来说,VQA系统需要将图片和问题作为输入,结合这两部分信息,产生一条人类语言作为输出。针对一张特定的图片,如果想要机器以自然语言处理(NLP)来回答关于该图片的某一个特定问题,我们需要让机器对图片的内容、问题的含义和意图以及相关的常识有一定的理解。就其本性而言,这是一个多学科研究问题。相较于简单的文本问答,VQA的主要区别在于,搜索和推理部分必须在图像的内容上执行。因此,为了回答在某处是否有人类这样的问题,这个系统必须能够探测到物体。如果想要回答是否下雨这样的问题,系统就需要对一个场景进行分类。解决VQA问题的关键在于如何从图片和问题中提取有用的特征,并将二者进行有效地融合。对于问题特征的提取一般都利用RNN对其进行编码,而对于图片特征会采用预训练好的Resnet对图像块进行编码。
目前对于VQA问题的研究路线分为两个主要部分,一是更好的attention机制,二是改进的特征融合方式。一般而言,这两部分分属于模型独立模块,而本次提出的基于密集协注意力模块的VQA网络对这两个模块进行有机的结合与改进。在给定图像和问题的表示形式,首先为每个问题单词生成图像区域上的注意图,并为每个图像区域生成问题单词上的注意图。
发明内容
发明目的:本发明的目的在于提出一种基于密集协注意力模块的VQA方法,通过基于密集协注意力模块对图像与问题进行有机融合,实现更高准确度的视觉问答模型。
发明内容:本发明本发明的目的在于提出一种基于密集协注意力模块的VQA方法,所述方法为从图像中提取出的特征V和问题中提取出的特征Q,送入多个密集协注意力机制模块中,第一个模块输出由问题引导提取出来的图像特征V1和由图像引导提取出来的问题特征Q1,之后按照同样的方式通过多个密集协注意力模块操作,由两种融合了对方特性的特征进行问题词的回答,具体包括以下步骤:
(1)向VQA系统中输入图像与问题文本;
(2)使用双向LSTM对问题和图像进行编码;
(3)利用四个卷积层提取图像区域的视觉特征,利用问题引导的注意力对这些层进行融合,获得四个d×T的矩阵;
(4)通过softmax函数归一化获得四个注意力权重α1,α2,α3,α4,加权计算四个矩阵,获得图像表示d×T矩阵V=[v1,…,vT],它将图像第t个区域的特征存储在大小为d的第t个列向量中;
(5)将问题表示V与图像表示Q作为输入送入密集注意力层,Ql与Vl表示(l+1)-st层的输入;
(6)给N个问题单词加上K个状态辅助信息以及T个图像区域信息,结合两个可学习的参数矩阵
Figure BDA0002532038100000021
Figure BDA00025320381000000222
在行方向上扩大矩阵Ql与Vl获得矩阵
Figure BDA0002532038100000022
Figure BDA0002532038100000023
(7)线性投影d维特征
Figure BDA0002532038100000024
Figure BDA0002532038100000025
到多个低维空间,h为低维空间的数量,维度为dh(≡d/h),使用
Figure BDA0002532038100000026
Figure BDA0002532038100000027
来表示线性投影,从而获得第i个空间的投影特征的关联矩阵
Figure BDA0002532038100000028
注意力图的线性映射由每一个亲和矩阵分别按列和行进行归一化获得
Figure BDA0002532038100000029
Figure BDA00025320381000000210
多个参与特征的平均融合相当于平均我们的注意力图,即做平均运算获得
Figure BDA00025320381000000211
Figure BDA00025320381000000212
(8)将所得的附加特征
Figure BDA00025320381000000213
Figure BDA00025320381000000214
以及平行特征
Figure BDA00025320381000000215
Figure BDA00025320381000000216
相乘,得到融合了对方特征的
Figure BDA00025320381000000217
Figure BDA00025320381000000218
(9)融合第n列的向量
Figure BDA00025320381000000219
与第n个问题单词的表示
Figure BDA00025320381000000220
通过连接形成2d向量
Figure BDA00025320381000000221
将连接后的向量通过单层网络投影到d维空间中,然后进行ReLU激活和剩余连接获得q(l+1)n
(10)同步骤(9),连接第t个图像区域的表示vlt和与该区域相关的整个问题单词表示
Figure BDA0002532038100000031
将连接后的向量通过单层网络投影到d维空间中,然后进行ReLU激活和残差连接获得v(l+1)t
(11)给定最后一层的输出QL与VL进行答案预测,通过在其隐藏层使用具有ReLU非线性的相同的两层MLP计算获得qL1,…,qLN的sqL1,…,sqLN
(12)对sqL1,…,sqLN进行softmax从而获得注意力权重
Figure BDA0002532038100000032
计算出聚合表示
Figure BDA0002532038100000033
(13)同步骤12,使用不同权重的MLP,我们可以获得注意力权重
Figure BDA0002532038100000034
计算出
Figure BDA0002532038100000035
(14)按照步骤(2)的方法对答案进行编码,由M个单词组成的答案被转换为
Figure BDA0002532038100000036
同样经过Bi-LSTM,产生隐藏状态
Figure BDA0002532038100000037
Figure BDA00025320381000000318
获得
Figure BDA00025320381000000319
Figure BDA00025320381000000310
(15)计算
Figure BDA00025320381000000311
sA总和的内积和:
Figure BDA00025320381000000312
其中,σ为逻辑函数,W为需学习的权重矩阵。
进一步地,所述步骤(2)包括以下步骤:
(21)将由N个单词组成的问题文本转换成GloVe词向量序列
Figure BDA00025320381000000313
(22)将其输入到一个具有剩余连接的单层双向LSTM(Bi-LSTM)中,获得
Figure BDA00025320381000000314
Figure BDA00025320381000000315
(23)创建一个矩阵Q=[q1,…,qN]∈Rd×N,其中
Figure BDA00025320381000000316
同时获得
Figure BDA00025320381000000317
用于后面获取图像的表示。
进一步地,所述步骤(3)的实现过程如下:
在最后四个池化层之前,从ReLU之后的四个卷积层提取输出;使用不同大小的张量,分别为256×112×112、512×56×56、1024×28×28、2048×14×14,通过对不同大小的最大池化将其转换为相同大小的张量(d×14×14),对每个张量的深度维数进行l2归一化,将归一化后的张量重新构造成四个d×T(T=14×14)的矩阵:[s1,s2,s3,s4]=MLP(sQ)。
进一步地,步骤(5)所述的Ql与Vl通过以下公式实现:
Ql=[ql1,…,qlN]∈Rd×N
Vl=[vl1,…,vlT]∈Rd×T
进一步地,所述步骤(7)通过以下公式实现:
Figure BDA0002532038100000041
Figure BDA0002532038100000042
Figure BDA0002532038100000043
Figure BDA0002532038100000044
Figure BDA0002532038100000045
进一步地,所述步骤(8)中
Figure BDA0002532038100000046
Figure BDA0002532038100000047
计算公式如下:
Figure BDA0002532038100000048
Figure BDA0002532038100000049
进一步地,所述步骤(9)中q(l+1)n计算公式如下:
Figure BDA00025320381000000410
其中,
Figure BDA00025320381000000411
为权重,
Figure BDA00025320381000000412
为偏差,相同的网络应用于每个问题词(n=1,…,N),从而获得Ql+1=[q(l+1)1,…,q(l+1)N]∈Rd×N
进一步地,所述步骤(10)中v(l+1)t计算公式如下:
Figure BDA00025320381000000413
其中,
Figure BDA0002532038100000051
为权重,
Figure BDA0002532038100000052
为偏差,相同的网络应用于每个图像区域(t=1,…,T),从而获得Vl+1=[v(l+1)1,…,v(l+1)T]∈Rd×T
有益效果:与现有技术相比,本发明的有益效果:本发明实现的更高准确度的视觉问答模型,对自然语言处理与计算机视觉方向都有所贡献,是人工智能领域的一次探索,提高了机器“理解”问题与图像的能力。
附图说明
图1为本发明的流程图;
图2为密集共同注意图的计算以及图像和问题的参与表示;
图3为单层密集关注层的内部结构,层数为l+1。
具体实施方式
下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。
从图像中提取出的特征V和问题中提取出的特征Q,送入多个密集协注意力机制模块中,第一个模块输出由问题引导提取出来的图像特征V1和由图像引导提取出来的问题特征Q1,之后按照同样的方式通过多个密集协注意力模块操作,最终由两种融合了对方特性的特征进行问题词的回答。对应的系统是一个完全对称的视觉和语言之间交互的体系结构,其中每个问题词对应于具体图像区域,每个图像区域亦对应问题词。通过将它们堆叠形成一个层次结构,用于图像-问题间的深层次交互。具体步骤如下:
步骤1:向VQA系统中输入图像与问题文本。
步骤2:使用双向LSTM(bi-directional LSTM)对问题和图像进行编码。首先将由N个单词组成的问题文本转换成GloVe词向量序列
Figure BDA0002532038100000053
然后将其输入到一个具有剩余连接的单层双向LSTM(Bi-LSTM)中,获得
Figure BDA0002532038100000054
Figure BDA0002532038100000055
创建一个矩阵Q=[q1,…,qN]∈Rd×N,其中
Figure BDA0002532038100000056
同时获得
Figure BDA0002532038100000057
Figure BDA0002532038100000058
用于后面获取图像的表示。
步骤3:利用四个卷积层提取图像特征,然后利用问题引导的注意力对这些层进行融合,获得四个d×T(T=14×14)的矩阵。
在最后四个池化层之前,从ReLU之后的四个卷积层提取输出;使用不同大小的张量,分别为256×112×112、512×56×56、1024×28×28、2048×14×14,通过对不同大小的最大池化将其转换为相同大小的张量(d×14×14),对每个张量的深度维数进行l2归一化,将归一化后的张量重新构造成四个d×T(T=14×14)的矩阵:[s1,s2,s3,s4]=MLP(sQ)。
步骤4:通过softmax函数归一化获得四个注意力权重α1,α2,α3,α4,加权计算四个矩阵,获得图像表示d×T矩阵V=[v1,…,vT],它将图像第t个区域的特征存储在大小为d的第t个列向量中。
步骤5:将问题表示V与图像表示Q作为输入送入密集注意力层,Ql与Vl表示(l+1)-st层的输入。Ql与Vl通过以下公式实现:
Ql=[ql1,…,qlN]∈Rd×N
Vl=[vl1,…,vlT]∈Rd×T
步骤6:给N个问题单词加上K个状态辅助信息以及T个图像区域信息,结合两个可学习的参数矩阵
Figure BDA0002532038100000061
Figure BDA0002532038100000062
在行方向上扩大矩阵Ql与Vl获得矩阵
Figure BDA0002532038100000063
Figure BDA0002532038100000064
步骤7:线性投影d维特征
Figure BDA0002532038100000065
Figure BDA0002532038100000066
到多个低维空间,h为低维空间的数量,维度为dh(≡d/h),使用
Figure BDA0002532038100000067
Figure BDA0002532038100000068
来表示线性投影,从而获得第i个空间的投影特征的关联矩阵
Figure BDA0002532038100000069
注意力图的线性映射由每一个亲和矩阵分别按列和行进行归一化获得
Figure BDA00025320381000000610
Figure BDA00025320381000000611
多个参与特征的平均融合相当于平均我们的注意力图,即做平均运算获得
Figure BDA00025320381000000612
Figure BDA00025320381000000613
其中
Figure BDA00025320381000000614
Figure BDA00025320381000000615
Figure BDA00025320381000000616
Figure BDA00025320381000000617
Figure BDA00025320381000000618
步骤8:将所得的附加特征
Figure BDA0002532038100000071
Figure BDA0002532038100000072
以及平行特征
Figure BDA0002532038100000073
Figure BDA00025320381000000723
相乘,得到融合了对方特征的
Figure BDA0002532038100000074
Figure BDA0002532038100000075
Figure BDA0002532038100000076
Figure BDA0002532038100000077
计算公式如下:
Figure BDA0002532038100000078
Figure BDA0002532038100000079
步骤9:融合第n列的向量
Figure BDA00025320381000000710
与第n个问题单词的表示
Figure BDA00025320381000000711
通过连接形成2d向量
Figure BDA00025320381000000712
将连接后的向量通过单层网络投影到d维空间中,然后进行ReLU激活和剩余连接获得q(l+1)n,计算公式如下:
Figure BDA00025320381000000713
其中,
Figure BDA00025320381000000714
为权重,
Figure BDA00025320381000000724
为偏差,相同的网络应用于每个问题词(n=1,…,N),从而获得Ql+1=[q(l+1)1,…,q(l+1)N]∈Rd×N
步骤10:同步骤9,连接第t个图像区域的表示vlt和与该区域相关的整个问题单词表示
Figure BDA00025320381000000715
将连接后的向量通过单层网络投影到d维空间中,然后进行ReLU激活和残差连接获得v(l+1)t,计算公式如下:
Figure BDA00025320381000000716
其中,
Figure BDA00025320381000000717
为权重,
Figure BDA00025320381000000718
为偏差,相同的网络应用于每个图像区域(t=1,…,T),从而获得Vl+1=[v(l+1)1,…v(l+1)T]∈Rd×T
步骤11:给定最后一层的输出QL与VL进行答案预测,通过在其隐藏层使用具有ReLU非线性的相同的两层MLP计算获得qL1,…,qLN的sqL1,…,sqLN
步骤12:对sqL1,…,sqLN进行softmax从而获得注意力权重
Figure BDA00025320381000000719
计算出聚合表示
Figure BDA00025320381000000720
步骤13:同步骤12,使用不同权重的MLP,我们可以获得注意力权重
Figure BDA00025320381000000721
计算出
Figure BDA00025320381000000722
步骤14:按照步骤2的方法对答案进行编码,由M个单词组成的答案被转换为
Figure BDA0002532038100000081
同样经过Bi-LSTM,产生隐藏状态
Figure BDA0002532038100000082
Figure BDA0002532038100000083
获得
Figure BDA0002532038100000084
Figure BDA0002532038100000085
步骤15:计算
Figure BDA0002532038100000086
sA总和的内积和:
Figure BDA0002532038100000087
其中,σ为逻辑函数,W为需学习的权重矩阵。
也可使用MLP来计算一组预定义答案的分数:
Figure BDA0002532038100000088
或者:
Figure BDA0002532038100000089

Claims (8)

1.一种基于密集协注意力模块的VQA方法,其特征在于,所述方法为从图像中提取出的特征V和问题中提取出的特征Q,送入多个密集协注意力机制模块中,第一个模块输出由问题引导提取出来的图像特征V1和由图像引导提取出来的问题特征Q1,之后按照同样的方式通过多个密集协注意力模块操作,由两种融合了对方特性的特征进行问题词的回答,具体包括以下步骤:
(1)向VQA系统中输入图像与问题文本;
(2)使用双向LSTM对问题和图像进行编码;
(3)利用四个卷积层提取图像区域的视觉特征,利用问题引导的注意力对这些层进行融合,获得四个d×T的矩阵;
(4)通过softmax函数归一化获得四个注意力权重α1,α2,α3,α4,加权计算四个矩阵,获得图像表示d×T矩阵V=[v1,…,vT],它将图像第t个区域的特征存储在大小为d的第t个列向量中;
(5)将问题表示V与图像表示Q作为输入送入密集注意力层,Ql与Vl表示(l+1)-st层的输入;
(6)给N个问题单词加上K个状态辅助信息以及T个图像区域信息,结合两个可学习的参数矩阵
Figure FDA0002532038090000011
Figure FDA0002532038090000012
在行方向上扩大矩阵Ql与Vl获得矩阵
Figure FDA0002532038090000013
Figure FDA0002532038090000014
(7)线性投影d维特征
Figure FDA0002532038090000015
Figure FDA0002532038090000016
到多个低维空间,h为低维空间的数量,维度为dh(≡d/h),使用
Figure FDA0002532038090000017
Figure FDA0002532038090000018
来表示线性投影,从而获得第i个空间的投影特征的关联矩阵
Figure FDA0002532038090000019
注意力图的线性映射由每一个亲和矩阵分别按列和行进行归一化获得
Figure FDA00025320380900000110
Figure FDA00025320380900000111
多个参与特征的平均融合相当于平均我们的注意力图,即做平均运算获得
Figure FDA00025320380900000112
Figure FDA00025320380900000113
(8)将所得的附加特征
Figure FDA00025320380900000114
Figure FDA00025320380900000115
以及平行特征
Figure FDA00025320380900000116
Figure FDA00025320380900000117
相乘,得到融合了对方特征的
Figure FDA00025320380900000118
Figure FDA00025320380900000119
(9)融合第n列的向量
Figure FDA00025320380900000120
与第n个问题单词的表示
Figure FDA00025320380900000121
通过连接形成2d向量
Figure FDA00025320380900000122
将连接后的向量通过单层网络投影到d维空间中,然后进行ReLU激活和剩余连接获得q(l+1)n
(10)同步骤(9),连接第t个图像区域的表示vlt和与该区域相关的整个问题单词表示
Figure FDA0002532038090000021
将连接后的向量通过单层网络投影到d维空间中,然后进行ReLU激活和残差连接获得v(l+1)t
(11)给定最后一层的输出QL与VL进行答案预测,通过在其隐藏层使用具有ReLU非线性的相同的两层MLP计算获得qL1,…,qLN的sqL1,…,sqLN
(12)对sqL1,…,sqLN进行softmax从而获得注意力权重
Figure FDA0002532038090000022
计算出聚合表示
Figure FDA0002532038090000023
(13)同步骤12,使用不同权重的MLP,我们可以获得注意力权重
Figure FDA0002532038090000024
计算出
Figure FDA0002532038090000025
(14)按照步骤(2)的方法对答案进行编码,由M个单词组成的答案被转换为
Figure FDA0002532038090000026
同样经过Bi-LSTM,产生隐藏状态
Figure FDA0002532038090000027
Figure FDA0002532038090000028
获得
Figure FDA0002532038090000029
Figure FDA00025320380900000210
(15)计算
Figure FDA00025320380900000211
sA总和的内积和:
Figure FDA00025320380900000212
其中,σ为逻辑函数,W为需学习的权重矩阵。
2.根据权利要求1所述的一种基于密集协注意力模块的VQA方法,其特征在于,所述步骤(2)包括以下步骤:
(21)将由N个单词组成的问题文本转换成GloVe词向量序列
Figure FDA00025320380900000213
(22)将其输入到一个具有剩余连接的单层双向LSTM(Bi-LSTM)中,获得
Figure FDA00025320380900000214
Figure FDA00025320380900000215
(23)创建一个矩阵Q=[q1,…,qN]∈Rd×N,其中
Figure FDA00025320380900000216
同时获得
Figure FDA00025320380900000217
用于后面获取图像的表示。
3.根据权利要求1所述的一种基于密集协注意力模块的VQA方法,其特征在于,所述步骤(3)的实现过程如下:
在最后四个池化层之前,从ReLU之后的四个卷积层提取输出;使用不同大小的张量,分别为256×112×112、512×56×56、1024×28×28、2048×14×14,通过对不同大小的最大池化将其转换为相同大小的张量(d×14×14),对每个张量的深度维数进行l2归一化,将归一化后的张量重新构造成四个d×T(T=14×14)的矩阵:[s1,s2,s3,s4]=MLP(sQ)。
4.根据权利要求1所述的一种基于密集协注意力模块的VQA方法,其特征在于,步骤(5)所述的Ql与Vl通过以下公式实现:
Ql=[ql1,…,qlN]∈Rd×N
Vl=[vl1,…,vlT]∈Rd×T
5.根据权利要求1所述的一种基于密集协注意力模块的VQA方法,其特征在于,所述步骤(7)通过以下公式实现:
Figure FDA0002532038090000031
Figure FDA0002532038090000032
Figure FDA0002532038090000033
Figure FDA0002532038090000034
Figure FDA0002532038090000035
6.根据权利要求1所述的一种基于密集协注意力模块的VQA方法,其特征在于,所述步骤(8)中
Figure FDA0002532038090000036
Figure FDA0002532038090000037
计算公式如下:
Figure FDA0002532038090000038
Figure FDA0002532038090000039
7.根据权利要求1所述的一种基于密集协注意力模块的VQA方法,其特征在于,所述步骤(9)中q(l+1)n计算公式如下:
Figure FDA00025320380900000310
其中,
Figure FDA0002532038090000041
为权重,
Figure FDA0002532038090000042
为偏差,相同的网络应用于每个问题词(n=1,…,N),从而获得Ql+1=[q(l+1)1,…,q(l+1)N]∈Rd×N
8.根据权利要求1所述的一种基于密集协注意力模块的VQA方法,其特征在于,所述步骤(10)中v(l+1)t计算公式如下:
Figure FDA0002532038090000043
其中,
Figure FDA0002532038090000044
为权重,
Figure FDA0002532038090000045
为偏差,相同的网络应用于每个图像区域(t=1,…,T),从而获得Vl+1=[v(l+1)1,…,v(l+1)T]∈Rd×T
CN202010520943.2A 2020-06-10 2020-06-10 一种基于密集协注意力模块的vqa方法 Pending CN111858849A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010520943.2A CN111858849A (zh) 2020-06-10 2020-06-10 一种基于密集协注意力模块的vqa方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010520943.2A CN111858849A (zh) 2020-06-10 2020-06-10 一种基于密集协注意力模块的vqa方法

Publications (1)

Publication Number Publication Date
CN111858849A true CN111858849A (zh) 2020-10-30

Family

ID=72986392

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010520943.2A Pending CN111858849A (zh) 2020-06-10 2020-06-10 一种基于密集协注意力模块的vqa方法

Country Status (1)

Country Link
CN (1) CN111858849A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112926655A (zh) * 2021-02-25 2021-06-08 电子科技大学 一种图像内容理解与视觉问答vqa方法、存储介质和终端

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110889340A (zh) * 2019-11-12 2020-03-17 哈尔滨工程大学 一种基于迭代注意力机制的视觉问答模型

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110889340A (zh) * 2019-11-12 2020-03-17 哈尔滨工程大学 一种基于迭代注意力机制的视觉问答模型

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DUY-KIEN NGUYEN等: "Improved Fusion of Visual and Language Representations by Dense Symmetric Co-Attention for Visual Question Answering", 《ARXIV》 *
葛梦颖等: "基于深度学习的视觉问答系统", 《现代信息科技》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112926655A (zh) * 2021-02-25 2021-06-08 电子科技大学 一种图像内容理解与视觉问答vqa方法、存储介质和终端
CN112926655B (zh) * 2021-02-25 2022-05-17 电子科技大学 一种图像内容理解与视觉问答vqa方法、存储介质和终端

Similar Documents

Publication Publication Date Title
CN110163299B (zh) 一种基于自底向上注意力机制和记忆网络的视觉问答方法
Nguyen et al. Improved fusion of visual and language representations by dense symmetric co-attention for visual question answering
CN110490946B (zh) 基于跨模态相似度和生成对抗网络的文本生成图像方法
CN110659727A (zh) 一种基于草图的图像生成方法
CN110796111B (zh) 图像处理方法、装置、设备及存储介质
CN111897940B (zh) 视觉对话方法、视觉对话模型的训练方法、装置及设备
CN113792177B (zh) 基于知识引导深度注意力网络的场景文字视觉问答方法
CN113297370B (zh) 基于多交互注意力的端到端多模态问答方法及系统
CN111160164A (zh) 基于人体骨架和图像融合的动作识别方法
CN111210382A (zh) 图像处理方法、装置、计算机设备和存储介质
Wu Simulation of classroom student behavior recognition based on PSO-kNN algorithm and emotional image processing
CN113658322A (zh) 一种基于视觉transformer的三维重建体素方法
CN114612902A (zh) 图像语义分割方法、装置、设备、存储介质及程序产品
CN117033609B (zh) 文本视觉问答方法、装置、计算机设备和存储介质
Mazaheri et al. Video fill in the blank using lr/rl lstms with spatial-temporal attentions
CN111858849A (zh) 一种基于密集协注意力模块的vqa方法
CN113837212B (zh) 一种基于多模态双向导向注意力的视觉问答方法
CN117115911A (zh) 一种基于注意力机制的超图学习动作识别系统
Huh et al. The platonic representation hypothesis
CN115512368A (zh) 一种跨模态语义生成图像模型和方法
CN116704198A (zh) 一种基于多模态信息引导的知识增强视觉问答方法
Zhang et al. Skeleton-based action recognition with attention and temporal graph convolutional network
CN114661874A (zh) 基于多角度语义理解与自适应双通道的视觉问答方法
CN114168769A (zh) 基于gat关系推理的视觉问答方法
CN113298814A (zh) 一种基于渐进指导融合互补网络的室内场景图像处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20201030