CN114970517B - 一种基于多模态交互的上下文感知的面向视觉问答的方法 - Google Patents

一种基于多模态交互的上下文感知的面向视觉问答的方法 Download PDF

Info

Publication number
CN114970517B
CN114970517B CN202111557670.XA CN202111557670A CN114970517B CN 114970517 B CN114970517 B CN 114970517B CN 202111557670 A CN202111557670 A CN 202111557670A CN 114970517 B CN114970517 B CN 114970517B
Authority
CN
China
Prior art keywords
question
visual
word
feature
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111557670.XA
Other languages
English (en)
Other versions
CN114970517A (zh
Inventor
吴松泽
颜洪
刘利军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202111557670.XA priority Critical patent/CN114970517B/zh
Publication of CN114970517A publication Critical patent/CN114970517A/zh
Application granted granted Critical
Publication of CN114970517B publication Critical patent/CN114970517B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于多模态交互的上下文感知的面向视觉问答的方法,属于计算机视觉语言跨模态领域。本发明包括步骤:首先通过预训练的目标检测模型提取图像视觉区域特征,使用预训练的词嵌入语言模型与GRU获得问题词向量,再根据上下文编码机制分别获得视觉与问题的全局上下文内容信息向量,然后利用融合上下文信息的注意力机制得到更新后的视觉特征与问题特征,最后融合视觉特征与问题特征获得融合特征,输入到分类层预测最终的答案分布。该方法有效增强模态内与模态间的信息交互,提高视觉问答的推理能力,其准确度比传统的视觉问答方法提高了约5%。

Description

一种基于多模态交互的上下文感知的面向视觉问答的方法
技术领域
本发明涉及一种基于多模态交互的上下文感知的面向视觉问答的方法,属于计算机视觉语言跨模态领域。
背景技术
视觉问答任务作为一个具有挑战的新兴领域,用于推理给定视觉信息下自然语言问题的答案。其中,VQA需要理解语言和图像来推断答案。因此,多模态信息融合在VQA的发展中起着至关重要的作用。首先,学习良好的语言和视觉特征能力是VQA的基础。早期的VQA方法直接使用CNN和RNN提取图像和文本特征,然后融合两种模态特征预测正确的答案。BUTD提出使用预训练目标检测模型代替CNN提取一组视觉区域特征,这种方法显著的提高了视觉问答模型的性能。为了更好的理解视觉与自然语言领域的高层语义信息,近期的工作专注于研究多模态特征融合方法来学习准确的答案特征。这些多模态信息融合方法从早期的简单拼接或逐元素相乘到捕获两个模态的高层交互信息的双线性融合。MCB提出多模态紧凑双线性池(MCB)融合两种模态特征,这种方式极大的提高了模型的性能。为了解决由于多模态紧凑型双线性池将视觉和语言特征映射到高维空间而导致的巨大内存消耗和计算成本,Kim等人提出一种使用Hadamard乘积(逐元素相乘)获得多模态融合特征的多模态低秩双线性池化方法(MLB)。Yu等人提出多模态矩阵分解双线性池化方法(MFB),该方法减少模型的参数数量并提高收敛速度。随后,一系列基于双线性池化的方法也被提出,这些方法有效的学习两种模态间交互信息。然而,基于特征融合的方法可能会丢失关键信息,导致难以正确的回答有关局部图像内容的问题。近来,一系列的研究表明注意力机制可以自适应地选择重要特征,进而有效地增强视觉和语言模态之间的交互。为了更好的捕获相关的视觉信息,SAN首先在视觉问答模型中引入注意力机制,使得问题关注于与问题相关的视觉区域预测答案。Lu等人提出一种结合问题引导的注意与图像引导的注意力的联合注意力机制从而有效的增强视觉与语言模态之间的交互。Yu等人采用自注意力进行问题嵌入,并使用问题引导的注意力机制有效的减少了图像中不相关的信息(即噪声信息),最后结合多模态矩阵分解双线性池化方法实现图像中视觉特征和问题中文本特征的更有效融合。Nam等人提出一种双重注意力网络(DAN)共同利用视觉和文本注意力机制来捕获视觉和语言之间的信息交互,基于上一阶段的注意力记忆来完善当前阶段注意力。DAN通过多阶段关注图像中的特定区域和文本中的单词,并从这两种模态中提取重要的信息。密集联合注意力机制(DCN)、模态内与模态间注意力的动态融合(DFAF)、多模态潜在交互网络(MNLI)等注意力方法通过视觉与语言模态之间的密集交互捕捉两种模态之间的高层交互信息。与之前具有简略交互的联合注意力模型相比,这些密集的联合注意力模型明显达到更好的VQA性能。
发明内容
本发明提供一种基于多模态交互的上下文感知的面向视觉问答的方法,通过融合上下文信息增强联合注意力机制,同时保持模态之间的交互,提高了视觉问答的推理能力。
本发明的技术方案是:一种基于多模态交互的上下文感知的面向视觉问答的方法,所述方法的具体步骤如下:
Step1、使用预训练的目标检测模型从自然图像中提取图像视觉区域特征,同时使用预训练的词嵌入语言模型与GRU从所提出的问题中获得问题词向量;
Step2、经Step1处理操作之后,根据上下文编码机制分别对图像特征和问题向量进行编码,获得视觉与问题的全局上下文内容信息向量;
Step3、经Step2处理操作之后,然后利用融合上下文信息的注意力机制更新视觉特征与问题特征;
Step4、经Step3处理操作之后,融合视觉特征与问题特征获得融合特征,输入到分类层进行最终的答案分布预测。
进一步地,所述步骤Step1的具体步骤如下:
Step1.1、首先从健康网站获得包涵图片问题对以及答案的数据集合;
Step1.2、利用目标检测模型从自然图像中提取图像视觉区域特征,使用预训练的词嵌入语言模型与GRU从所提出的问题中获得问题词向量,具体包括:
采用预训练的目标检测模型提取k个视觉区域特征V={V1,V2,…,VK},其中每个视觉区域特征Vi∈R2048编码图像中的一个显著区域。对于每个问题Q,采用空格进行分词且修剪为最大长度为14个单词。然后使用预训练词嵌入语言模型GloVe将问题中的每个单词转换为词嵌入W={W1,W2,…,Wl},其中Wi∈R300表示问题中第i个单词的词嵌入。接着,将W输入到单层GRU中获得句子层级问题词向量Q={q1,q2,…,ql},其中Wi∈Rdq表示问题中第i个词向量,dq为词向量的维度。
进一步地,所述步骤Step2的具体步骤如下:
Step2.1、首先采用简单的自注意力机制为每个模态生成k组注意力权重。 式中,Wv,bv,Wq,bq为模型的参数,表示按列softmax操作。矩阵中的每个元素Aij∈A表示视觉区域特征和问题词特征的重要性。;
Step2.2、随后,我们将注意力权重应用于视觉区域特征和问题词向量,分别获得视觉与问题的全局上下文内容信息向量: 其中⊙表示哈达玛积。k个上下文内容信息向量中的每一个(即的每一行)都是输入单个模态中特征的线性组合,从全局角度总结每种模态某些方面上的语义信息。
进一步地,所述步骤Step3的具体步骤如下:
Step3.1、首先学习一个门控标量控制全局上下文信息与单模态内每个元素之间的信息量:λ=σ(WRR+WCC)。式中,WR,WC模型的参数,R和C分别单模态内特征向量与上下文内容信息向量,σ(·)表示sigmoid函数。门控标量使模型能够明确量化每个特征和上下文信息向量对联合注意力机制计算注意力权重的贡献。随后,通过以下公式融合内容信息:
Step3.2、通过考虑单模态内的每个元素,并融合单模态内多方面的上下文信息,对复杂的多模态交互进行建模。首先通过多视角自注意力机制生成k个上下文信息向量,然后与单模态内特征融合:其中C为上下文内容信息向量。fusion(·;·)是单模态特征与上下文特征的简单拼接。;
Step3.3、每个输入特征X通过全连接层得到RQ、RK、RV,然后RK与RV融合全局上下文信息得到随后根据query与key学习的注意力权重计算所有值value的加权求和得到更新后的特征。
Step3.4、前馈神经网络层(feed-forward layer)利用多头自注意力层的输出特征,并通过两个具有ReLU激活和dropout的全连接层。此外,将残差连接和层归一化应用于两层的输出,促进模型的优化。融合上下文信息的自注意力机制考虑单模态内的信息交互的同时,嵌入上下文信息来增强单模态内的高层语义交互。
Step3.5、将每个输入特征xi通过全连接层得到RQ,每个输入特征yi通过全连接层得到RK、RV。然后RK与RV融合上下文信息得到随后根据query与key学习的注意力权重计算所有值value的加权求和,得到更新后的特征Xupdate。融合上下文信息的联合注意力机制学习模态间的信息交互,同时嵌入上下文信息编码更丰富的模态间高层语义交互,提高视觉问答的推理能力。
进一步地,所述步骤Step4的具体步骤如下:
Step4.1、经Step3处理后,然后采用自注意力机制计算每个模态的注意力权重 αv=softmax(Mv);αQ=softmax(MQ)。其中, 表示需要学习的参数。α表示图像区域特征的注意力权重;
Step4.2、分别融合视觉区域特征与问题词向量获得联合图像特征与问题特征如下Step4.3、融合问题特征与联合图像特征获得融合特征r,输入到分类层预测最终的答案分布
本发明的有益效果是:
1、本发明方法对应的视觉问答模型由特征提取层、多模态特征融合层、分类层三部分构成。特征提取层主要由两个编码器构成:图像编码器使用卷积神经网络提取一组视觉区域特征,问题编码器使用循环神经网络提取问题特征。多模态特征融合层通过各种复杂的机制(如注意力机制)融合抽取的视觉区域特征与问题特征。分类层将融合特征映射到答案空间上生成答案分布。
2、现有的视觉问答方法主要集中在设计更好的注意力机制以及多模态特征融合方法来分析、理解视觉与自然语言领域的高层语义信息。双线性融合等多模态特征融合方法旨在通过特征外积捕获视觉与语言模态之间的高层交互关系。基于特征融合的方法可能会丢失关键信息,导致难以正确回答有关局部图像内容的问题。注意力机制通过自适应地选择重要特征,增强视觉与语言模态间的交互。近年来,注意力机制是VQA方法的一个关键思想,研究人员已经提出许多新的注意力网络解决VQA问题。视觉注意力机制首先被提出定位与问题相关的图像区域。我们的研究表明,学习视觉与语言模态的联合注意力机制能更好的捕捉重要的模态间关键信息,进一步提高VQA的性能。
3、本发明的上下文感知的多模态交互模型,通过融合上下文信息增强联合注意力机制,同时保持模态之间的交互。为此,首先结合自注意力机制从多个全局角度编码问题和图像特征为多个问题与图像上下文信息。每个上下文信息从某个全局的角度编码每种模态丰富的内容信息。随后融合上下文信息,以增强自注意力机制于联合注意力机制,提高视觉问答的推理能力。
综上所述,这种基于多模态交互的上下文感知的面向视觉问答的方法,首先通过预训练的目标检测模型提取图像视觉区域特征,同时使用预训练的词嵌入语言模型与GRU获得问题词向量,再根据上下文编码机制分别获得视觉与问题的全局上下文内容信息向量,然后利用融合上下文信息的注意力机制得到更新后的视觉特征与问题特征,最后融合视觉特征与问题特征获得融合特征,输入到分类层预测最终的答案分布。最终模型提高了视觉问答中回答的准确度。
附图说明
图1上下文感知的多模态交互模型的结构图;
图2为本发明中注意力机制示意图;
图3为本发明中自注意力机制示意图;
图4为本发明中联合注意力机制示意图;
图5为本发明实验效果图。
具体实施方式
实施例1:如图1-图5所示,一种基于多模态交互的上下文感知的面向视觉问答的方法,的具体步骤如下:
Step1、使用预训练的目标检测模型从自然图像中提取图像视觉区域特征,同时使用预训练的词嵌入语言模型与GRU从所提出的问题中获得问题词向量;
Step2、经Step1处理操作之后,根据上下文编码机制分别对图像特征和问题向量进行编码,获得视觉与问题的全局上下文内容信息向量;
Step3、经Step2处理操作之后,然后利用融合上下文信息的注意力机制更新视觉特征与问题特征;
Step4、经Step3处理操作之后,融合视觉特征与问题特征获得融合特征,输入到分类层进行最终的答案分布预测;
进一步地,所述步骤Step1的具体步骤如下:
Step1.1、首先从QVA数据网站或健康网站获得包涵图片问题对以及答案的数据集合;
Step1.2、利用目标检测模型从自然图像中提取图像视觉区域特征,使用预训练的词嵌入语言模型与GRU从所提出的问题中获得问题词向量,具体包括:
采用预训练的目标检测模型提取k个视觉区域特征V={V1,V2,…,VK},其中每个视觉区域特征Vi∈R2048编码图像中的一个显著区域。对于每个问题Q,采用空格进行分词且修剪为最大长度为14个单词。然后使用预训练词嵌入语言模型GloVe将问题中的每个单词转换为词嵌入W={W1,W2,…,Wl},其中Wi∈R300表示问题中第i个单词的词嵌入。接着,将W输入到单层GRU中获得句子层级问题词向量Q={q1,q2,…,ql},其中Wi∈Rdq表示问题中第i个词向量,dq为词向量的维度。
进一步地,所述步骤Step2的具体步骤如下:
Step2.1、首先采用简单的自注意力机制为每个模态生成k组注意力权重。 式中,Wv,bv,Wq,bq为模型的参数,表示按列softmax操作。矩阵中的每个元素Aij∈A表示视觉区域特征和问题词特征的重要性。;
Step2.2、随后,将注意力权重应用于视觉区域特征和问题词向量,分别获得视觉与问题的全局上下文内容信息向量: 其中⊙表示哈达玛积。k个上下文内容信息向量中的每一个(即的每一行)都是输入单个模态中特征的线性组合,从全局角度总结每种模态某些方面上的语义信息。其中,注意力机制结构如图2所示。
进一步地,所述步骤Step3的具体步骤如下:
Step3.1、首先学习一个门控标量控制全局上下文信息与单模态内每个元素之间的信息量:λ=σ(WRR+WCC)。式中,WR,WC模型的参数,R和C分别单模态内特征向量与上下文内容信息向量,σ(·)表示sigmoid函数。门控标量使模型能够明确量化每个特征和上下文信息向量对联合注意力机制计算注意力权重的贡献。随后,通过以下公式融合内容信息:
Step3.2、通过考虑单模态内的每个元素,并融合单模态内多方面的上下文信息,对复杂的多模态交互进行建模。首先通过多视角自注意力机制生成k个上下文信息向量,然后与单模态内特征融合:其中C为上下文内容信息向量。fusion(·;·)是单模态特征与上下文特征的简单拼接。
Step3.3、每个输入特征X通过全连接层得到RQ、RK、RV,然后RK与RV融合全局上下文信息得到随后根据query与key学习的注意力权重计算所有值value的加权求和得到更新后的特征。其中,自注意力机制结构如图3所示。
Step3.4、前馈神经网络层(feed-forward layer)利用多头自注意力层的输出特征,并通过两个具有ReLU激活和dropout的全连接层。此外,将残差连接和层归一化应用于两层的输出,促进模型的优化。融合上下文信息的自注意力机制考虑单模态内的信息交互的同时,嵌入上下文信息来增强单模态内的高层语义交互。
Step3.5、将每个输入特征xi通过全连接层得到RQ,每个输入特征yi通过全连接层得到RK、RV。然后RK与RV融合上下文信息得到随后根据query与key学习的注意力权重计算所有值value的加权求和,得到更新后的特征Xupdate。融合上下文信息的联合注意力机制学习模态间的信息交互,同时嵌入上下文信息编码更丰富的模态间高层语义交互,提高视觉问答的推理能力。其中,联合注意力机制结构如图4所示。
进一步地,所述步骤Step4的具体步骤如下:
Step4.1、经Step3处理后,然后采用自注意力机制计算每个模态的注意力权重 αv=softmax(Mv);αQ=softmax(MQ)。其中, 表示需要学习的参数。α表示图像区域特征的注意力权重;
Step4.2、分别融合视觉区域特征与问题词向量获得联合图像特征与问题特征如下
Step4.3、融合问题特征与联合图像特征获得融合特征r,输入到分类层预测最终的答案分布
本发明给定输入问题和图像,特征提取模块将提取初始问题词和图像特征。融合上下文信息的多模态交互网络首先通过多角度自注意力机制编码问题词向量和图像区域特征为多个全局上下文信息向量,每个全局上下文信息向量都可以表示为视觉区域特征或问题词特征的加权池化,它从全局角度总结了每种模态某些方面上的语义信息。随后,使用多头自注意力机制与多头联合注意力机制学习单模态内与跨模态间的高层信息交互,以更新问题词特征与视觉区域特征。最后,融合问题词特征与视觉区域特征预测最终答案。
基于双线性融合的方法(例如MCB、BAN等)以及基于注意力机制的方法(例如SAN、DFAF、MLI)等。从表1中可以看出,本发明提出的方法在视觉问答任务中的各个问题类型上均取得最佳的效果。其中:
SAN算法表示下述文献中提出的算法:Yang Z,He X,Gao J,et al.Stackedattention networks for image question answering[C]//Proceedings of the IEEEconference on computer vision and pattern recognition.2016:21-29.
MCB算法表示下述文献中提出的算法:Fukui A,Park D H,Yang D,etal.Multimodal compact bilinear pooling for visual question answering andvisual grounding[C]//Proc of the Conference on Empirical Methods in NaturalLanguage Processing.2016:457-468.
BAN算法表示下述文献中提出的算法:Kim J H,Jun J,Zhang B T.Bilinearattention networks[C]//Advances in Neural Information Processing System.2018.
DFAF算法表示下述文献中提出的算法:Gao P,Jiang Z,You H,et al.Dynamicfusion with intra-and inter-modality attention flow for visual questionanswering[C]//Proceedings of the IEEE/CVF Conference on Computer Vision andPattern Recognition.2019:6639-6648.
MLI算法表示下述文献中提出的算法:Gao P,You H,Zhang Z,et al.Multi-modality latent interaction network for visual question answering[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision.2019:5825-5835.
表1为本发明问题答案选择的实验对比
图5为本发明实验效果图,图5可视化了融合上下文信息的多模态交互模型在图像中视觉区域特征的权重,其中,Q表示问题(Question),A表示答案(Answer)。同时可视化融合与未融合全局上下文信息所预测的答案及其概率。可以发现,图像中部分简单场景均能准确的预测问题的答案。但是当场景及问题比较复杂时,需要单模态的内容分析以及跨模态的推理,本文模型融合全局上下文信息后,能够增强答案的预测概率。相比之下,我们的模型能在视觉问答任务中展现出更好的性能。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (2)

1.一种基于多模态交互的上下文感知的面向视觉问答的方法,其特征在于:所述方法的具体步骤如下:
Step1、使用预训练的目标检测模型从自然图像中提取图像视觉区域特征,同时使用预训练的词嵌入语言模型与GRU从所提出的问题中获得问题词向量;
Step2、经Step1处理操作之后,根据上下文编码机制分别对图像特征和问题向量进行编码,获得视觉与问题的全局上下文内容信息向量;
Step3、经Step2处理操作之后,然后利用融合上下文信息的注意力机制更新视觉特征与问题特征;
Step4、经Step3处理操作之后,融合视觉特征与问题特征获得融合特征,输入到分类层进行最终的答案分布预测;
所述步骤Step2的具体步骤如下:
Step2.1、首先采用简单的自注意力机制为每个模态生成k组注意力权重; 式中,Wv,bv,Wq,bq为模型的参数,表示按列softmax操作,矩阵中的每个元素Aij∈A表示视觉区域特征和问题词特征的重要性,Q为句子层级问题词向量,V为视觉区域特征;
Step2.2、随后,将注意力权重应用于视觉区域特征和问题词向量,分别获得视觉与问题的全局上下文内容信息向量: 其中⊙表示哈达玛积;k个上下文内容信息向量中的每一个都是输入单个模态中特征的线性组合,从全局角度总结每种模态某些方面上的语义信息;
所述步骤Step3的具体步骤如下:
Step3.1、首先学习一个门控标量控制全局上下文信息与单模态内每个元素之间的信息量:λ=σ(WRR+WCC);式中,WR,WC模型的参数,R和C分别单模态内特征向量与上下文内容信息向量,σ(·)表示sigmoid函数;门控标量使模型能够明确量化每个特征和上下文信息向量对联合注意力机制计算注意力权重的贡献;随后,通过以下公式融合内容信息:
Step3.2、通过考虑单模态内的每个元素,并融合单模态内多方面的上下文信息,对复杂的多模态交互进行建模;首先通过多视角自注意力机制生成k个上下文信息向量,然后与单模态内特征融合:其中C为上下文内容信息向量,fusion(·;·)是单模态特征与上下文特征的简单拼接;
Step3.3、每个输入特征X通过全连接层得到RQ、RK、RV,然后RK与RV融合全局上下文信息得到随后根据query与key学习的注意力权重计算所有值value的加权求和得到更新后的特征;
Step3.4、前馈神经网络层利用多头自注意力层的输出特征,并通过两个具有ReLU激活和dropout的全连接层;此外,将残差连接和层归一化应用于两层的输出,促进模型的优化;融合上下文信息的自注意力机制考虑单模态内的信息交互的同时,嵌入上下文信息来增强单模态内的高层语义交互;
Step3.5、将每个输入特征xi通过全连接层得到RQ,每个输入特征yi通过全连接层得到RK、RV;然后RK与RV融合上下文信息得到随后根据query与key学习的注意力权重计算所有值value的加权求和,得到更新后的特征Xupdate;融合上下文信息的联合注意力机制学习模态间的信息交互,同时嵌入上下文信息编码更丰富的模态间高层语义交互,提高视觉问答的推理能力;
所述步骤Step4的具体步骤如下:
Step4.1、经Step3处理后,然后采用自注意力机制计算每个模态的注意力权重αv=softmax(Mv);αQ=softmax(MQ);其中, 表示需要学习的参数;α表示图像区域特征的注意力权重;Q为句子层级问题词向量,V为视觉区域特征;
Step4.2、分别融合视觉区域特征与问题词向量获得联合图像特征与问题特征如下表示视觉区域特征的个数,l表示问题中的每个单词转换为词嵌入的个数;
Step4.3、融合问题特征与联合图像特征获得融合特征r,输入到分类层预测最终的答案分布
2.根据权利要求1所述基于多模态交互的上下文感知的面向视觉问答的方法,其特征在于:所述步骤Step1的具体步骤如下:
Step1.1、首先从QVA数据网站获得包涵图片问题对以及答案的数据集合;
Step1.2、利用目标检测模型从自然图像中提取图像视觉区域特征,使用预训练的词嵌入语言模型与GRU从所提出的问题中获得问题词向量,具体包括:
采用预训练的目标检测模型提取k个视觉区域特征V={V1,V2,…,Vk},其中每个视觉区域特征Vi∈R2048编码图像中的一个显著区域;对于每个问题,采用空格进行分词且修剪为最大长度为14个单词;然后使用预训练词嵌入语言模型GloVe将问题中的每个单词转换为词嵌入W={W1,W2,…,Wl},其中Wi∈R300表示问题中第i个单词的词嵌入;接着,将W输入到单层GRU中获得句子层级问题词向量Q={q1,q2,…,ql},其中Wi∈Rdq表示问题中第i个词向量,dq为词向量的维度。
CN202111557670.XA 2021-12-20 2021-12-20 一种基于多模态交互的上下文感知的面向视觉问答的方法 Active CN114970517B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111557670.XA CN114970517B (zh) 2021-12-20 2021-12-20 一种基于多模态交互的上下文感知的面向视觉问答的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111557670.XA CN114970517B (zh) 2021-12-20 2021-12-20 一种基于多模态交互的上下文感知的面向视觉问答的方法

Publications (2)

Publication Number Publication Date
CN114970517A CN114970517A (zh) 2022-08-30
CN114970517B true CN114970517B (zh) 2024-08-02

Family

ID=82974698

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111557670.XA Active CN114970517B (zh) 2021-12-20 2021-12-20 一种基于多模态交互的上下文感知的面向视觉问答的方法

Country Status (1)

Country Link
CN (1) CN114970517B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115797655B (zh) * 2022-12-13 2023-11-07 南京恩博科技有限公司 一种人物交互检测模型、方法、系统及装置
CN115905591B (zh) * 2023-02-22 2023-05-30 浪潮电子信息产业股份有限公司 一种视觉问答方法、系统、设备及可读存储介质
CN116303947B (zh) * 2023-02-24 2024-01-19 首都师范大学 一种问答文本的情绪识别方法、装置及电子设备
CN118467707A (zh) * 2024-07-10 2024-08-09 北京大学 一种医学视觉问答方法、装置、设备及存储介质
CN118507035A (zh) * 2024-07-16 2024-08-16 北京大学 基于知识图谱增强的医疗诊断方法及应用

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11423304B2 (en) * 2020-01-15 2022-08-23 Beijing Jingdong Shangke Information Technology Co., Ltd. System and method for semantic analysis of multimedia data using attention-based fusion network
CN112926655B (zh) * 2021-02-25 2022-05-17 电子科技大学 一种图像内容理解与视觉问答vqa方法、存储介质和终端
CN113010656B (zh) * 2021-03-18 2022-12-20 广东工业大学 一种基于多模态融合和结构性控制的视觉问答方法
CN113779298B (zh) * 2021-09-16 2023-10-31 哈尔滨工程大学 一种基于复合损失的医学视觉问答方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向视觉问答的多模态交互模型及优化方法研究;颜洪;《中国优秀硕士学位论文全文数据库信息科技辑》;20240415;I138-1100 *

Also Published As

Publication number Publication date
CN114970517A (zh) 2022-08-30

Similar Documents

Publication Publication Date Title
CN114970517B (zh) 一种基于多模态交互的上下文感知的面向视觉问答的方法
CN112084331B (zh) 文本处理、模型训练方法、装置、计算机设备和存储介质
Gou et al. Knowledge distillation: A survey
Wang et al. Dualvgr: A dual-visual graph reasoning unit for video question answering
CN108287904A (zh) 一种基于社会化卷积矩阵分解的文档上下文感知推荐方法
Deng et al. Transvg++: End-to-end visual grounding with language conditioned vision transformer
Sharma et al. An improved attention and hybrid optimization technique for visual question answering
CN111652357A (zh) 一种利用基于图的特定目标网络解决视频问答问题的方法及其系统
CN111597929B (zh) 基于通道信息融合和组群关系空间结构化建模的组群行为识别方法
CN114241606A (zh) 一种基于自适应集学习预测的人物交互检测方法
Gao et al. A hierarchical recurrent approach to predict scene graphs from a visual‐attention‐oriented perspective
CN116561305A (zh) 基于多模态和transformer的假新闻检测方法
CN117473071B (zh) 数据检索方法、装置、设备及计算机可读介质
CN113657272B (zh) 一种基于缺失数据补全的微视频分类方法及系统
Jiang et al. Cross-level reinforced attention network for person re-identification
Gao et al. Generalized pyramid co-attention with learnable aggregation net for video question answering
CN114328943A (zh) 基于知识图谱的问题回答方法、装置、设备及存储介质
Afrasiabi et al. Spatial-temporal dual-actor CNN for human interaction prediction in video
CN115098646B (zh) 一种图文数据的多级关系分析与挖掘方法
CN114661874B (zh) 基于多角度语义理解与自适应双通道的视觉问答方法
Ling et al. HOLT-Net: Detecting smokers via human–object interaction with lite transformer network
Zhong et al. Multimodal cooperative self‐attention network for action recognition
Lin et al. VLG: General Video Recognition with Web Textual Knowledge
Wang et al. Two‐stream spatiotemporal networks for skeleton action recognition
Song et al. Dual‐attention guided network for facial action unit detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant