CN113837212B - 一种基于多模态双向导向注意力的视觉问答方法 - Google Patents
一种基于多模态双向导向注意力的视觉问答方法 Download PDFInfo
- Publication number
- CN113837212B CN113837212B CN202010584949.6A CN202010584949A CN113837212B CN 113837212 B CN113837212 B CN 113837212B CN 202010584949 A CN202010584949 A CN 202010584949A CN 113837212 B CN113837212 B CN 113837212B
- Authority
- CN
- China
- Prior art keywords
- attention
- image
- guiding
- feature
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明设计了一种基于多模态双向导向注意力的视觉问答方法,涉及计算机视觉与自然语言处理两个领域。充分理解视觉和文本不同模态间的交互性及同一模态间的自相关性是攻克视觉问答任务难点的关键。合理利用注意力机制突显出图像和问题中的有效信息有利于提升模型的性能表现,本发明基于导向注意力机制,设计了图像引导问题注意的导向注意力模块,联合协同注意力构建双向导向注意力,对回答是或不是的问题及总体准确率均有一定的提升,再结合Counter模块,提高了模型的计数能力。本发明在帮助视障人士及儿童图书学习等实际应用方面具有一定的意义。
Description
技术领域
本发明涉及计算机视觉与自然语言处理两个领域,具体涉及利用自注意力机制和导向注意力机制得到不同模态的加权注意特征,尤其涉及以协同注意为基础,增加图像对问题的引导。
背景技术
视觉问答任务旨在给出一幅图像及与图像相关的问题,回答出问题的正确答案。该任务涉及到视觉和文本两种模态的学习,架起了计算机视觉和自然语言处理领域间的桥梁。早期的视觉问答模型,主要通过提取图像和问题的全局特征,再经过简单的特征融合,分类后产生一个预测答案。这种方法虽简单直接,却丢失了重要的局部信息,不利于回答针对局部区域提出的问题。为获得更细节性的特征,视觉问答引入了注意力机制的使用,很大程度上提升了多模态任务的性能表现。
视觉问答任务中首先引入的是视觉注意力,从输入问题中学习图像区域的特征表示。然而除视觉特征外,提取文本中关键有效的信息也同等重要,因此,同时学习图像和文本注意的协同注意力被提出。大部分基于协同注意的深度模型与相应的浅层模型及粗糙交互的模型相比,并没有表现出明显的优势,针对于此,同时构建模态内密集自相关与模态间互相关的协同注意力模型被提出,并取得不错的表现。尽管与此,这些协同注意模型都只涉及到从输入问题学习图像特征表示的导向注意方式,而忽略了根据图像学习问题特征的表示。因此,同时考虑图像引导问题及问题引导图像这种双向引导方式可以更充分的表示视觉和文本两种模态间的交互性。
发明内容
本发明为解决上述问题提供了一种基于多模态双向导向注意力的视觉问答方法。基于导向注意力机制,设计了图像引导问题注意模块,联同协同注意力共同构成双向导向注意力。
本发明通过以下技术方案来实现上述目的:
一种基于多模态双向导向注意力的视觉问答方法,包括以下步骤:
步骤一:特征提取,首先使用目标检测网络提取图像区域中间特征,再对问题进行单词划分,词嵌化,通过单层的LSTM网络提取出问题中间特征。
步骤二:将图像和问题中间特征分别作为双向导向注意力模块的两路输入,经过层层自注意和导向注意,分别输出加权的问题特征和图像特征。
步骤三:对注意力模块输出的图像和问题特征进行简化,再经过线性融合,最终得到融合后的特征。
步骤四:将融合后的特征输入一个N类分类器训练,得到最终的问题答案。
作为步骤一中图像和问题的特征提取说明如下:
(1)输入图像先经过目标检测网络Faster R-CNN提取一系列图像区域中间特征,区域数量取值为100。视觉注意方式采取自底向上(bottom-up)。
(2)对于输入的问题,先将问题句子分割成独立的单词,每个单词通过300-DGlove词嵌转换为对应的词向量,再利用单层的LSTM网络获得单词特征向量,将所有单词特征向量组合起来构成问题特征矩阵。每个句子限制最大单词长度为14。
作为优选的技术方案,步骤二的双向导向注意力模块,其说明如下:
(1)双向导向注意力以自注意力(Self-Attention,SA)和导向注意力(Guided-Attention,GA)为基础,其中导向注意力包括图像引导问题注意和问题引导图像注意两种注意方式。
(2)双向导向注意力模块输入可分为两路,分别为图像区域中间特征和问题中间特征/>分析图像这一支路,图像区域中间特征经过由stacking方式级联的6层SGA结构输出加权后的图像特征FX。分析问题特征这一支路,又可分解为两条支路,其中一条支路输入为步骤一中得到的问题中间特征/>经过6层堆叠的SA结构输出问题自注意特征;另一条支路组成为以stacking方式连接的4层GA结构,以问题自注意特征和加权的图像特征作为输入,得到以图像为导向的问题注意特征/>再与问题自注意特征进行线性融合得到最后加权的问题注意特征FY。输入输出过程如下所示:
其中,L取值6,M取值4。以图像为导向的问题注意特征可表示为:
(3)上述(2)中SGA结构组成为一层SA与一层GA以stacking方式连接,其中GA输入为图像自注意特征和问题自注意特征。
作为步骤三中的特征融合,其说明如下:步骤二中得到的加权的图像注意特征和问题注意特征中包含了大量冗余的图像区域和问题单词权重信息,在进行特征融合前,先对这两种特征经过MLP(FC-ReLU-Dropout-FC)结构进行简化,以图像特征为例简化过程可表示为:
α=soft max(MLP(FX)) (6)
式中α表示图像区域学习到的注意力图谱,fx、fy分别表示简化后的图像特征和问题特征,融合后特征fz表示为:
式中,是两个线性映射矩阵,dz表示融合后的特征fz的维度,LayerNorm层起到稳定训练的作用。
作为步骤四中分类器的训练,其说明如下:视觉问答任务近年来被视为多分类任务,根据问题的类型,选取训练集中前3129个高频出现的答案,组成生成答案备选库,故分类器可视为3129个类别的训练,使用交叉熵损失函数用于加快训练过程的收敛及学习调整网络参数。
本发明的主要内容在于提出了基于多模态双向导向注意力的视觉问答方法。本发明提出的双向导向注意力方式能有效提高对是或不是类型问题的回答正确率,最后提出的网络再结合计数模块(Counter module)对于计数问题的回答起正向促进作用。对帮助视障人士及儿童识图教育等方面都具有较大的意义。
附图说明
图1是本发明提出的图像引导问题注意模块原理图。
图2是本发明提出的双向导向注意模块原理图。
图3是本发明提出的基于多模态双向导向注意力的视觉问答模型结构图。
具体实施方式
下面结合附图对本发明作进一步说明:
图1是本发明提出的图像引导问题注意模块原理图。该模块由4层的导向注意力单元通过stacking方式连接而成,主要实现以图像特征为导向,更多关注问题中包含有效信息的单词。模块输入为经过6层SGA结构输出的加权的图像注意特征及经过6层自注意单元的问题自注意特征。
为验证本发明所提出的图像引导问题注意模块级联层数取值为4的合理性,对不同取值进行了实验验证,其结果如表一所示:
表一
从表一可以看出,当GA单元数取值为4时,模型最终在两种测试子集test-dev和test-std上获得最好的总分类准确率。
图2是本发明提出的双向导向注意模块原理图。该模块组成主要由一个深度级联协同注意模块与图1中提出的图像引导问题注意模块相结合构成。双向导向主要是指深度协同注意模块中的以输入问题为导向,学习图像区域的视觉注意力和图像引导问题注意模块中的以图像区域特征为导向,学习问题的文本注意力。整个模块中除提到的导向注意外,还包含模态内的自注意力。
图3是本发明提出的基于多模态双向导向注意力的视觉问答模型结构图。由图可知,整个模型结构包括四部分,分别为:多模态特征提取模块、双向导向注意力模块、多模态特征融合模块以及分类器。
(1)取数据集VQA v2.0中训练集及测试集一起参与训练,另再取Visual Genome中VQA样本子集作数据增强参与训练。将所有参与训练的图像输入到目标检测网络Faster R-CNN中,每幅图像输出大小为100*2048的特征矩阵。对于问题句子,先将其分割成独立的单词,每个句子限制单词数最大为14个,每个单词通过一个300-D Glove词嵌将单词转换为对应的词向量,再通过一个单层的隐藏层个数为512的LSTM输出大小为1*512的单词特征向量,最终将所有单词特征向量组合得到大小为14*512的问题特征矩阵。
(2)多模态特征提取模块输出的图像中间特征和问题中间特征作为双向导向注意力单元的输入,经过层层自注意和导向注意,最后输出加权的图像注意特征和问题注意特征。
(3)两种模态特征融合前为避免计算量过大先进行简化,去除冗余的信息。简化后再经过线性融合输出融合后的特征。
(4)将融合后的特征输入一个N类分类器训练,N表示可能生成的答案选项库,由训练集中出现频率最高的前3129个答案组成。损失函数采用二进制交叉熵(Binary Cross-Entropy,BCE)损失,将输入训练的问题答案看作分类的真实标签,模型生成的答案看作预测值,通过损失函数计算两者之间的损失,再通过训练时网络的反向传播对网络参数进行调整,使得生成的答案接近真实答案。
为验证本发明所提方法的有效性,选取多个视觉问答模型与本发明所提出的方法进行比较,其在两种测试子集test-dev和test-std上的结果表现如表二所示:
表二
从表二可以看出,本发明提出的方法较其他模型在回答是或不是类型问题时有更大的优势。在本发明所提模型基础上,结合计数模块Counter,可以看到对模型的计数能力有所提升,对测试子集test-std其他类型问题的回答同样起到正向促进作用。因此,验证了本发明所提方法的有效性。
Claims (4)
1.一种基于多模态双向导向注意力的视觉问答方法,其特征在于包括以下步骤:
步骤一:特征提取,首先使用目标检测网络FasterR-CNN,提取图像区域中间特征,视觉注意方式采取自底向上再对问题进行单词划分,词嵌化,通过单层的LSTM网络提取出问题中间特征;
步骤二:将图像和问题中间特征分别作为双向导向注意力模块的两路输入,其中,图像特征经过由stacking方式级联的6层自注意力层,每层注意力包括一个自注意力单元和问题引导图像注意的导向注意力单元,最后该模块输出加权的图像注意特征;分析问题特征这一支路,又可以分解为两条支路,其中一条支路的输入为步骤一中得到的问题中间特征,经过6层级联的自注意力单元,输出问题自注意特征,另一条支路组成为以stacking方式连接的4层导向注意力层,以问题自注意特征和加权的图像特征作为输入,得到以图像为向导的问题注意特征,再与问题自注意力特征进行线性融合得到最后加权的问题注意特征;
步骤三:对注意力模块输出的图像和问题特征进行简化,再经过线性融合,最终得到融合后的特征;
步骤四:将融合后的特征输入一个N类分类器训练,得到最终的问题答案。
2.根据权利要求1所述的基于多模态双向导向注意力的视觉问答方法,其特征在于步骤一中图像特征提取采用目标检测网络FasterR-CNN,以自底向上的注意方式提取一系列图像区域特征;问题特征提取采用先将问题句子划分为单词,再通过300-DGlove词嵌将每个单词转化为词向量,最后通过单层的LSTM获得问题单词特征序列。
3.根据权利要求1所述的基于多模态双向导向注意力的视觉问答方法,其特征在于步骤三中对图像和问题注意特征的简化,主要采用全连接层、ReLU激活层、dropout层和全连接层的结构,简化后的特征经过线性融合函数得到最终的融合特征。
4.根据权利要求1所述的基于多模态双向导向注意力的视觉问答方法,其特征在于步骤四中分类器涉及N类分类训练,N代表可能生成的答案选项数量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010584949.6A CN113837212B (zh) | 2020-06-24 | 2020-06-24 | 一种基于多模态双向导向注意力的视觉问答方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010584949.6A CN113837212B (zh) | 2020-06-24 | 2020-06-24 | 一种基于多模态双向导向注意力的视觉问答方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113837212A CN113837212A (zh) | 2021-12-24 |
CN113837212B true CN113837212B (zh) | 2023-09-26 |
Family
ID=78964300
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010584949.6A Active CN113837212B (zh) | 2020-06-24 | 2020-06-24 | 一种基于多模态双向导向注意力的视觉问答方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113837212B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114398961B (zh) * | 2021-12-28 | 2023-05-05 | 西南交通大学 | 一种基于多模态深度特征融合的视觉问答方法及其模型 |
CN115730059A (zh) * | 2022-12-08 | 2023-03-03 | 安徽建筑大学 | 视觉问答方法、装置、设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649542A (zh) * | 2015-11-03 | 2017-05-10 | 百度(美国)有限责任公司 | 用于视觉问答的系统和方法 |
CN107679582A (zh) * | 2017-10-20 | 2018-02-09 | 深圳市唯特视科技有限公司 | 一种基于多模态分解模型进行可视问答的方法 |
CN108959246A (zh) * | 2018-06-12 | 2018-12-07 | 北京慧闻科技发展有限公司 | 基于改进的注意力机制的答案选择方法、装置和电子设备 |
CN110134774A (zh) * | 2019-04-29 | 2019-08-16 | 华中科技大学 | 一种基于注意力决策的图像视觉问答模型、方法和系统 |
CN110209789A (zh) * | 2019-05-29 | 2019-09-06 | 山东大学 | 一种用户注意力引导的多模态对话系统及方法 |
CN110263912A (zh) * | 2019-05-14 | 2019-09-20 | 杭州电子科技大学 | 一种基于多目标关联深度推理的图像问答方法 |
CN110348462A (zh) * | 2019-07-09 | 2019-10-18 | 北京金山数字娱乐科技有限公司 | 一种图像特征确定、视觉问答方法、装置、设备及介质 |
CN110377710A (zh) * | 2019-06-17 | 2019-10-25 | 杭州电子科技大学 | 一种基于多模态融合的视觉问答融合增强方法 |
CN110717431A (zh) * | 2019-09-27 | 2020-01-21 | 华侨大学 | 一种结合多视角注意力机制的细粒度视觉问答方法 |
WO2020119631A1 (zh) * | 2018-12-12 | 2020-06-18 | 中国科学院深圳先进技术研究院 | 一种轻量视觉问答系统及方法 |
-
2020
- 2020-06-24 CN CN202010584949.6A patent/CN113837212B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649542A (zh) * | 2015-11-03 | 2017-05-10 | 百度(美国)有限责任公司 | 用于视觉问答的系统和方法 |
CN107679582A (zh) * | 2017-10-20 | 2018-02-09 | 深圳市唯特视科技有限公司 | 一种基于多模态分解模型进行可视问答的方法 |
CN108959246A (zh) * | 2018-06-12 | 2018-12-07 | 北京慧闻科技发展有限公司 | 基于改进的注意力机制的答案选择方法、装置和电子设备 |
WO2020119631A1 (zh) * | 2018-12-12 | 2020-06-18 | 中国科学院深圳先进技术研究院 | 一种轻量视觉问答系统及方法 |
CN110134774A (zh) * | 2019-04-29 | 2019-08-16 | 华中科技大学 | 一种基于注意力决策的图像视觉问答模型、方法和系统 |
CN110263912A (zh) * | 2019-05-14 | 2019-09-20 | 杭州电子科技大学 | 一种基于多目标关联深度推理的图像问答方法 |
CN110209789A (zh) * | 2019-05-29 | 2019-09-06 | 山东大学 | 一种用户注意力引导的多模态对话系统及方法 |
CN110377710A (zh) * | 2019-06-17 | 2019-10-25 | 杭州电子科技大学 | 一种基于多模态融合的视觉问答融合增强方法 |
CN110348462A (zh) * | 2019-07-09 | 2019-10-18 | 北京金山数字娱乐科技有限公司 | 一种图像特征确定、视觉问答方法、装置、设备及介质 |
CN110717431A (zh) * | 2019-09-27 | 2020-01-21 | 华侨大学 | 一种结合多视角注意力机制的细粒度视觉问答方法 |
Non-Patent Citations (4)
Title |
---|
Deep Modular Co-Attention Networks for Visual Question Answering;Yu, Zhou等;《2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》;正文2-6页,图2-5 * |
Hierarchical Question-Image Co-Attention for Visual Question Answering;Jiasen Lu, Jianwei Yang, Dhruv Batra, Devi Parikh;《Computer Vision and Pattern Recognition》;1-11 * |
基于深度学习的视觉问答技术研究;白林亭;文鹏程;李亚晖;;航空计算技术(05);334-338 * |
结合自底向上注意力机制和记忆网络的视觉问答模型;闫茹玉;刘学亮;;中国图象图形学报(05);993-1006 * |
Also Published As
Publication number | Publication date |
---|---|
CN113837212A (zh) | 2021-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tran et al. | Transform and tell: Entity-aware news image captioning | |
Zhang et al. | DCMN+: Dual co-matching network for multi-choice reading comprehension | |
CN110263912B (zh) | 一种基于多目标关联深度推理的图像问答方法 | |
Zhang et al. | Yin and yang: Balancing and answering binary visual questions | |
US11580975B2 (en) | Systems and methods for response selection in multi-party conversations with dynamic topic tracking | |
Kamnardsiri et al. | The Effectiveness of the Game‑Based Learning System for the Improvement of American Sign Language using Kinect | |
CN113837212B (zh) | 一种基于多模态双向导向注意力的视觉问答方法 | |
Mehta et al. | Automated 3D sign language caption generation for video | |
Li et al. | Text-instance graph: Exploring the relational semantics for text-based visual question answering | |
CN112527993B (zh) | 一种跨媒体层次化深度视频问答推理框架 | |
CN113792177A (zh) | 基于知识引导深度注意力网络的场景文字视觉问答方法 | |
De Coster et al. | Machine translation from signed to spoken languages: State of the art and challenges | |
Kim et al. | Pororobot: A deep learning robot that plays video q&a games | |
CN112685550A (zh) | 智能问答方法、装置、服务器及计算机可读存储介质 | |
Wang et al. | Mirtt: Learning multimodal interaction representations from trilinear transformers for visual question answering | |
CN114048290A (zh) | 一种文本分类方法及装置 | |
Mazaheri et al. | Video fill in the blank using lr/rl lstms with spatial-temporal attentions | |
Xue et al. | LCSNet: End-to-end lipreading with channel-aware feature selection | |
Chaudhary et al. | Signnet ii: A transformer-based two-way sign language translation model | |
Dilawari et al. | Neural attention model for abstractive text summarization using linguistic feature space | |
CN115712739A (zh) | 舞蹈动作生成方法、计算机设备及存储介质 | |
CN115359486A (zh) | 一种文档图像中自定义信息的确定方法及系统 | |
Weng et al. | A survey of artificial intelligence techniques on MOOC of legal education | |
CN113239678A (zh) | 一种面向答案选择的多角度注意力特征匹配方法及系统 | |
Aishwarya et al. | Stacked Attention based Textbook Visual Question Answering with BERT |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |