CN111858849A - 一种基于密集协注意力模块的vqa方法 - Google Patents
一种基于密集协注意力模块的vqa方法 Download PDFInfo
- Publication number
- CN111858849A CN111858849A CN202010520943.2A CN202010520943A CN111858849A CN 111858849 A CN111858849 A CN 111858849A CN 202010520943 A CN202010520943 A CN 202010520943A CN 111858849 A CN111858849 A CN 111858849A
- Authority
- CN
- China
- Prior art keywords
- attention
- image
- intensive
- vqa
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种基于密集协注意力模块的VQA方法,从图像中提取出的特征V和问题中提取出的特征Q,送入多个密集协注意力机制模块中,第一个模块输出由问题引导提取出来的图像特征V1和由图像引导提取出来的问题特征Q1,之后按照同样的方式通过多个密集协注意力模块操作,由两种融合了对方特性的特征进行问题词的回答。本发明使图像与问题这两种信息处理模式之间进行密集的双向互动,实现的更高准确度的视觉问答模型,有助于提高预测答案的准确性。
Description
技术领域
本发明属于机器学习领域,具体涉及一种基于密集协注意力模块的VQA方法,主要应用于视觉问答。
背景技术
Visual Question Answer(VQA)视觉图像的自然语言问答是一个多学科的人工智能研究问题,涉及到计算机视觉、自然语言处理和知识表示(KR)等领域,目前已经成为人工智能领域的热门方向。一般来说,VQA系统需要将图片和问题作为输入,结合这两部分信息,产生一条人类语言作为输出。针对一张特定的图片,如果想要机器以自然语言处理(NLP)来回答关于该图片的某一个特定问题,我们需要让机器对图片的内容、问题的含义和意图以及相关的常识有一定的理解。就其本性而言,这是一个多学科研究问题。相较于简单的文本问答,VQA的主要区别在于,搜索和推理部分必须在图像的内容上执行。因此,为了回答在某处是否有人类这样的问题,这个系统必须能够探测到物体。如果想要回答是否下雨这样的问题,系统就需要对一个场景进行分类。解决VQA问题的关键在于如何从图片和问题中提取有用的特征,并将二者进行有效地融合。对于问题特征的提取一般都利用RNN对其进行编码,而对于图片特征会采用预训练好的Resnet对图像块进行编码。
目前对于VQA问题的研究路线分为两个主要部分,一是更好的attention机制,二是改进的特征融合方式。一般而言,这两部分分属于模型独立模块,而本次提出的基于密集协注意力模块的VQA网络对这两个模块进行有机的结合与改进。在给定图像和问题的表示形式,首先为每个问题单词生成图像区域上的注意图,并为每个图像区域生成问题单词上的注意图。
发明内容
发明目的:本发明的目的在于提出一种基于密集协注意力模块的VQA方法,通过基于密集协注意力模块对图像与问题进行有机融合,实现更高准确度的视觉问答模型。
发明内容:本发明本发明的目的在于提出一种基于密集协注意力模块的VQA方法,所述方法为从图像中提取出的特征V和问题中提取出的特征Q,送入多个密集协注意力机制模块中,第一个模块输出由问题引导提取出来的图像特征V1和由图像引导提取出来的问题特征Q1,之后按照同样的方式通过多个密集协注意力模块操作,由两种融合了对方特性的特征进行问题词的回答,具体包括以下步骤:
(1)向VQA系统中输入图像与问题文本;
(2)使用双向LSTM对问题和图像进行编码;
(3)利用四个卷积层提取图像区域的视觉特征,利用问题引导的注意力对这些层进行融合,获得四个d×T的矩阵;
(4)通过softmax函数归一化获得四个注意力权重α1,α2,α3,α4,加权计算四个矩阵,获得图像表示d×T矩阵V=[v1,…,vT],它将图像第t个区域的特征存储在大小为d的第t个列向量中;
(5)将问题表示V与图像表示Q作为输入送入密集注意力层,Ql与Vl表示(l+1)-st层的输入;
(7)线性投影d维特征与到多个低维空间,h为低维空间的数量,维度为dh(≡d/h),使用与来表示线性投影,从而获得第i个空间的投影特征的关联矩阵注意力图的线性映射由每一个亲和矩阵分别按列和行进行归一化获得和多个参与特征的平均融合相当于平均我们的注意力图,即做平均运算获得与
(11)给定最后一层的输出QL与VL进行答案预测,通过在其隐藏层使用具有ReLU非线性的相同的两层MLP计算获得qL1,…,qLN的sqL1,…,sqLN;
其中,σ为逻辑函数,W为需学习的权重矩阵。
进一步地,所述步骤(2)包括以下步骤:
进一步地,所述步骤(3)的实现过程如下:
在最后四个池化层之前,从ReLU之后的四个卷积层提取输出;使用不同大小的张量,分别为256×112×112、512×56×56、1024×28×28、2048×14×14,通过对不同大小的最大池化将其转换为相同大小的张量(d×14×14),对每个张量的深度维数进行l2归一化,将归一化后的张量重新构造成四个d×T(T=14×14)的矩阵:[s1,s2,s3,s4]=MLP(sQ)。
进一步地,步骤(5)所述的Ql与Vl通过以下公式实现:
Ql=[ql1,…,qlN]∈Rd×N,
Vl=[vl1,…,vlT]∈Rd×T。
进一步地,所述步骤(7)通过以下公式实现:
进一步地,所述步骤(9)中q(l+1)n计算公式如下:
进一步地,所述步骤(10)中v(l+1)t计算公式如下:
有益效果:与现有技术相比,本发明的有益效果:本发明实现的更高准确度的视觉问答模型,对自然语言处理与计算机视觉方向都有所贡献,是人工智能领域的一次探索,提高了机器“理解”问题与图像的能力。
附图说明
图1为本发明的流程图;
图2为密集共同注意图的计算以及图像和问题的参与表示;
图3为单层密集关注层的内部结构,层数为l+1。
具体实施方式
下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。
从图像中提取出的特征V和问题中提取出的特征Q,送入多个密集协注意力机制模块中,第一个模块输出由问题引导提取出来的图像特征V1和由图像引导提取出来的问题特征Q1,之后按照同样的方式通过多个密集协注意力模块操作,最终由两种融合了对方特性的特征进行问题词的回答。对应的系统是一个完全对称的视觉和语言之间交互的体系结构,其中每个问题词对应于具体图像区域,每个图像区域亦对应问题词。通过将它们堆叠形成一个层次结构,用于图像-问题间的深层次交互。具体步骤如下:
步骤1:向VQA系统中输入图像与问题文本。
步骤2:使用双向LSTM(bi-directional LSTM)对问题和图像进行编码。首先将由N个单词组成的问题文本转换成GloVe词向量序列然后将其输入到一个具有剩余连接的单层双向LSTM(Bi-LSTM)中,获得与创建一个矩阵Q=[q1,…,qN]∈Rd×N,其中同时获得 用于后面获取图像的表示。
步骤3:利用四个卷积层提取图像特征,然后利用问题引导的注意力对这些层进行融合,获得四个d×T(T=14×14)的矩阵。
在最后四个池化层之前,从ReLU之后的四个卷积层提取输出;使用不同大小的张量,分别为256×112×112、512×56×56、1024×28×28、2048×14×14,通过对不同大小的最大池化将其转换为相同大小的张量(d×14×14),对每个张量的深度维数进行l2归一化,将归一化后的张量重新构造成四个d×T(T=14×14)的矩阵:[s1,s2,s3,s4]=MLP(sQ)。
步骤4:通过softmax函数归一化获得四个注意力权重α1,α2,α3,α4,加权计算四个矩阵,获得图像表示d×T矩阵V=[v1,…,vT],它将图像第t个区域的特征存储在大小为d的第t个列向量中。
步骤5:将问题表示V与图像表示Q作为输入送入密集注意力层,Ql与Vl表示(l+1)-st层的输入。Ql与Vl通过以下公式实现:
Ql=[ql1,…,qlN]∈Rd×N,
Vl=[vl1,…,vlT]∈Rd×T。
步骤7:线性投影d维特征与到多个低维空间,h为低维空间的数量,维度为dh(≡d/h),使用与来表示线性投影,从而获得第i个空间的投影特征的关联矩阵注意力图的线性映射由每一个亲和矩阵分别按列和行进行归一化获得和多个参与特征的平均融合相当于平均我们的注意力图,即做平均运算获得与其中
步骤11:给定最后一层的输出QL与VL进行答案预测,通过在其隐藏层使用具有ReLU非线性的相同的两层MLP计算获得qL1,…,qLN的sqL1,…,sqLN。
其中,σ为逻辑函数,W为需学习的权重矩阵。
也可使用MLP来计算一组预定义答案的分数:
或者:
Claims (8)
1.一种基于密集协注意力模块的VQA方法,其特征在于,所述方法为从图像中提取出的特征V和问题中提取出的特征Q,送入多个密集协注意力机制模块中,第一个模块输出由问题引导提取出来的图像特征V1和由图像引导提取出来的问题特征Q1,之后按照同样的方式通过多个密集协注意力模块操作,由两种融合了对方特性的特征进行问题词的回答,具体包括以下步骤:
(1)向VQA系统中输入图像与问题文本;
(2)使用双向LSTM对问题和图像进行编码;
(3)利用四个卷积层提取图像区域的视觉特征,利用问题引导的注意力对这些层进行融合,获得四个d×T的矩阵;
(4)通过softmax函数归一化获得四个注意力权重α1,α2,α3,α4,加权计算四个矩阵,获得图像表示d×T矩阵V=[v1,…,vT],它将图像第t个区域的特征存储在大小为d的第t个列向量中;
(5)将问题表示V与图像表示Q作为输入送入密集注意力层,Ql与Vl表示(l+1)-st层的输入;
(7)线性投影d维特征与到多个低维空间,h为低维空间的数量,维度为dh(≡d/h),使用与来表示线性投影,从而获得第i个空间的投影特征的关联矩阵注意力图的线性映射由每一个亲和矩阵分别按列和行进行归一化获得和多个参与特征的平均融合相当于平均我们的注意力图,即做平均运算获得与
(11)给定最后一层的输出QL与VL进行答案预测,通过在其隐藏层使用具有ReLU非线性的相同的两层MLP计算获得qL1,…,qLN的sqL1,…,sqLN;
其中,σ为逻辑函数,W为需学习的权重矩阵。
3.根据权利要求1所述的一种基于密集协注意力模块的VQA方法,其特征在于,所述步骤(3)的实现过程如下:
在最后四个池化层之前,从ReLU之后的四个卷积层提取输出;使用不同大小的张量,分别为256×112×112、512×56×56、1024×28×28、2048×14×14,通过对不同大小的最大池化将其转换为相同大小的张量(d×14×14),对每个张量的深度维数进行l2归一化,将归一化后的张量重新构造成四个d×T(T=14×14)的矩阵:[s1,s2,s3,s4]=MLP(sQ)。
4.根据权利要求1所述的一种基于密集协注意力模块的VQA方法,其特征在于,步骤(5)所述的Ql与Vl通过以下公式实现:
Ql=[ql1,…,qlN]∈Rd×N,
Vl=[vl1,…,vlT]∈Rd×T。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010520943.2A CN111858849A (zh) | 2020-06-10 | 2020-06-10 | 一种基于密集协注意力模块的vqa方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010520943.2A CN111858849A (zh) | 2020-06-10 | 2020-06-10 | 一种基于密集协注意力模块的vqa方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111858849A true CN111858849A (zh) | 2020-10-30 |
Family
ID=72986392
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010520943.2A Pending CN111858849A (zh) | 2020-06-10 | 2020-06-10 | 一种基于密集协注意力模块的vqa方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111858849A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112926655A (zh) * | 2021-02-25 | 2021-06-08 | 电子科技大学 | 一种图像内容理解与视觉问答vqa方法、存储介质和终端 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110889340A (zh) * | 2019-11-12 | 2020-03-17 | 哈尔滨工程大学 | 一种基于迭代注意力机制的视觉问答模型 |
-
2020
- 2020-06-10 CN CN202010520943.2A patent/CN111858849A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110889340A (zh) * | 2019-11-12 | 2020-03-17 | 哈尔滨工程大学 | 一种基于迭代注意力机制的视觉问答模型 |
Non-Patent Citations (2)
Title |
---|
DUY-KIEN NGUYEN等: "Improved Fusion of Visual and Language Representations by Dense Symmetric Co-Attention for Visual Question Answering", 《ARXIV》 * |
葛梦颖等: "基于深度学习的视觉问答系统", 《现代信息科技》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112926655A (zh) * | 2021-02-25 | 2021-06-08 | 电子科技大学 | 一种图像内容理解与视觉问答vqa方法、存储介质和终端 |
CN112926655B (zh) * | 2021-02-25 | 2022-05-17 | 电子科技大学 | 一种图像内容理解与视觉问答vqa方法、存储介质和终端 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110163299B (zh) | 一种基于自底向上注意力机制和记忆网络的视觉问答方法 | |
Nguyen et al. | Improved fusion of visual and language representations by dense symmetric co-attention for visual question answering | |
CN110490946B (zh) | 基于跨模态相似度和生成对抗网络的文本生成图像方法 | |
CN110659727A (zh) | 一种基于草图的图像生成方法 | |
CN110796111B (zh) | 图像处理方法、装置、设备及存储介质 | |
CN111897940B (zh) | 视觉对话方法、视觉对话模型的训练方法、装置及设备 | |
CN113792177B (zh) | 基于知识引导深度注意力网络的场景文字视觉问答方法 | |
CN113297370B (zh) | 基于多交互注意力的端到端多模态问答方法及系统 | |
CN111160164A (zh) | 基于人体骨架和图像融合的动作识别方法 | |
CN111210382A (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
Wu | Simulation of classroom student behavior recognition based on PSO-kNN algorithm and emotional image processing | |
CN113658322A (zh) | 一种基于视觉transformer的三维重建体素方法 | |
CN114612902A (zh) | 图像语义分割方法、装置、设备、存储介质及程序产品 | |
CN117033609B (zh) | 文本视觉问答方法、装置、计算机设备和存储介质 | |
Mazaheri et al. | Video fill in the blank using lr/rl lstms with spatial-temporal attentions | |
CN111858849A (zh) | 一种基于密集协注意力模块的vqa方法 | |
CN113837212B (zh) | 一种基于多模态双向导向注意力的视觉问答方法 | |
CN117115911A (zh) | 一种基于注意力机制的超图学习动作识别系统 | |
Huh et al. | The platonic representation hypothesis | |
CN115512368A (zh) | 一种跨模态语义生成图像模型和方法 | |
CN116704198A (zh) | 一种基于多模态信息引导的知识增强视觉问答方法 | |
Zhang et al. | Skeleton-based action recognition with attention and temporal graph convolutional network | |
CN114661874A (zh) | 基于多角度语义理解与自适应双通道的视觉问答方法 | |
CN114168769A (zh) | 基于gat关系推理的视觉问答方法 | |
CN113298814A (zh) | 一种基于渐进指导融合互补网络的室内场景图像处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201030 |