CN114970517A - 一种基于多模态交互的上下文感知的面向视觉问答的方法 - Google Patents

一种基于多模态交互的上下文感知的面向视觉问答的方法 Download PDF

Info

Publication number
CN114970517A
CN114970517A CN202111557670.XA CN202111557670A CN114970517A CN 114970517 A CN114970517 A CN 114970517A CN 202111557670 A CN202111557670 A CN 202111557670A CN 114970517 A CN114970517 A CN 114970517A
Authority
CN
China
Prior art keywords
question
visual
context
information
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111557670.XA
Other languages
English (en)
Inventor
吴松泽
颜洪
刘利军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202111557670.XA priority Critical patent/CN114970517A/zh
Publication of CN114970517A publication Critical patent/CN114970517A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于多模态交互的上下文感知的面向视觉问答的方法,属于计算机视觉语言跨模态领域。本发明包括步骤:首先通过预训练的目标检测模型提取图像视觉区域特征,使用预训练的词嵌入语言模型与GRU获得问题词向量,再根据上下文编码机制分别获得视觉与问题的全局上下文内容信息向量,然后利用融合上下文信息的注意力机制得到更新后的视觉特征与问题特征,最后融合视觉特征与问题特征获得融合特征,输入到分类层预测最终的答案分布。该方法有效增强模态内与模态间的信息交互,提高视觉问答的推理能力,其准确度比传统的视觉问答方法提高了约5%。

Description

一种基于多模态交互的上下文感知的面向视觉问答的方法
技术领域
本发明涉及一种基于多模态交互的上下文感知的面向视觉问答的方法,属于计算机视觉语言跨模态领域。
背景技术
视觉问答任务作为一个具有挑战的新兴领域,用于推理给定视觉信息下自然语言问题的答案。其中,VQA需要理解语言和图像来推断答案。因此,多模态信息融合在VQA的发展中起着至关重要的作用。首先,学习良好的语言和视觉特征能力是VQA的基础。早期的VQA方法直接使用CNN和RNN提取图像和文本特征,然后融合两种模态特征预测正确的答案。BUTD提出使用预训练目标检测模型代替CNN提取一组视觉区域特征,这种方法显著的提高了视觉问答模型的性能。为了更好的理解视觉与自然语言领域的高层语义信息,近期的工作专注于研究多模态特征融合方法来学习准确的答案特征。这些多模态信息融合方法从早期的简单拼接或逐元素相乘到捕获两个模态的高层交互信息的双线性融合。MCB提出多模态紧凑双线性池(MCB)融合两种模态特征,这种方式极大的提高了模型的性能。为了解决由于多模态紧凑型双线性池将视觉和语言特征映射到高维空间而导致的巨大内存消耗和计算成本,Kim等人提出一种使用Hadamard乘积(逐元素相乘)获得多模态融合特征的多模态低秩双线性池化方法(MLB)。Yu等人提出多模态矩阵分解双线性池化方法(MFB),该方法减少模型的参数数量并提高收敛速度。随后,一系列基于双线性池化的方法也被提出,这些方法有效的学习两种模态间交互信息。然而,基于特征融合的方法可能会丢失关键信息,导致难以正确的回答有关局部图像内容的问题。近来,一系列的研究表明注意力机制可以自适应地选择重要特征,进而有效地增强视觉和语言模态之间的交互。为了更好的捕获相关的视觉信息,SAN首先在视觉问答模型中引入注意力机制,使得问题关注于与问题相关的视觉区域预测答案。Lu等人提出一种结合问题引导的注意与图像引导的注意力的联合注意力机制从而有效的增强视觉与语言模态之间的交互。Yu等人采用自注意力进行问题嵌入,并使用问题引导的注意力机制有效的减少了图像中不相关的信息(即噪声信息),最后结合多模态矩阵分解双线性池化方法实现图像中视觉特征和问题中文本特征的更有效融合。Nam等人提出一种双重注意力网络(DAN)共同利用视觉和文本注意力机制来捕获视觉和语言之间的信息交互,基于上一阶段的注意力记忆来完善当前阶段注意力。DAN通过多阶段关注图像中的特定区域和文本中的单词,并从这两种模态中提取重要的信息。密集联合注意力机制(DCN)、模态内与模态间注意力的动态融合(DFAF)、多模态潜在交互网络(MNLI)等注意力方法通过视觉与语言模态之间的密集交互捕捉两种模态之间的高层交互信息。与之前具有简略交互的联合注意力模型相比,这些密集的联合注意力模型明显达到更好的VQA性能。
发明内容
本发明提供一种基于多模态交互的上下文感知的面向视觉问答的方法,通过融合上下文信息增强联合注意力机制,同时保持模态之间的交互,提高了视觉问答的推理能力。
本发明的技术方案是:一种基于多模态交互的上下文感知的面向视觉问答的方法,所述方法的具体步骤如下:
Step1、使用预训练的目标检测模型从自然图像中提取图像视觉区域特征,同时使用预训练的词嵌入语言模型与GRU从所提出的问题中获得问题词向量;
Step2、经Step1处理操作之后,根据上下文编码机制分别对图像特征和问题向量进行编码,获得视觉与问题的全局上下文内容信息向量;
Step3、经Step2处理操作之后,然后利用融合上下文信息的注意力机制更新视觉特征与问题特征;
Step4、经Step3处理操作之后,融合视觉特征与问题特征获得融合特征,输入到分类层进行最终的答案分布预测。
进一步地,所述步骤Step1的具体步骤如下:
Step1.1、首先从健康网站获得包涵图片问题对以及答案的数据集合;
Step1.2、利用目标检测模型从自然图像中提取图像视觉区域特征,使用预训练的词嵌入语言模型与GRU从所提出的问题中获得问题词向量,具体包括:
采用预训练的目标检测模型提取k个视觉区域特征V={V1,V2,…,VK},其中每个视觉区域特征Vi∈R2048编码图像中的一个显著区域。对于每个问题Q,采用空格进行分词且修剪为最大长度为14个单词。然后使用预训练词嵌入语言模型GloVe将问题中的每个单词转换为词嵌入W={W1,W2,…,Wl},其中Wi∈R300表示问题中第i个单词的词嵌入。接着,将W输入到单层GRU中获得句子层级问题词向量Q={q1,q2,…,ql},其中Wi∈Rdq表示问题中第i个词向量,dq为词向量的维度。
进一步地,所述步骤Step2的具体步骤如下:
Step2.1、首先采用简单的自注意力机制为每个模态生成k组注意力权重。
Figure BDA0003419587700000031
Figure BDA0003419587700000032
式中,Wv,bv,Wq,bq为模型的参数,
Figure BDA00034195877000000311
表示按列softmax操作。矩阵中的每个元素Aij∈A表示视觉区域特征和问题词特征的重要性。;
Step2.2、随后,我们将注意力权重应用于视觉区域特征和问题词向量,分别获得视觉与问题的全局上下文内容信息向量:
Figure BDA0003419587700000033
Figure BDA0003419587700000034
其中⊙表示哈达玛积。k个上下文内容信息向量中的每一个(即
Figure BDA0003419587700000035
Figure BDA0003419587700000036
的每一行)都是输入单个模态中特征的线性组合,从全局角度总结每种模态某些方面上的语义信息。
进一步地,所述步骤Step3的具体步骤如下:
Step3.1、首先学习一个门控标量控制全局上下文信息与单模态内每个元素之间的信息量:λ=σ(WRR+WCC)。式中,WR,WC模型的参数,R和C分别单模态内特征向量与上下文内容信息向量,σ(·)表示sigmoid函数。门控标量使模型能够明确量化每个特征和上下文信息向量对联合注意力机制计算注意力权重的贡献。随后,通过以下公式融合内容信息:
Figure BDA0003419587700000037
Step3.2、通过考虑单模态内的每个元素,并融合单模态内多方面的上下文信息,对复杂的多模态交互进行建模。首先通过多视角自注意力机制生成k个上下文信息向量,然后与单模态内特征融合:
Figure BDA0003419587700000038
其中C为上下文内容信息向量。fusion(·;·)是单模态特征与上下文特征的简单拼接。;
Step3.3、每个输入特征X通过全连接层得到RQ、RK、RV,然后RK与RV融合全局上下文信息得到
Figure BDA0003419587700000039
Figure BDA00034195877000000310
随后根据query与key学习的注意力权重计算所有值value的加权求和得到更新后的特征。
Step3.4、前馈神经网络层(feed-forward layer)利用多头自注意力层的输出特征,并通过两个具有ReLU激活和dropout的全连接层。此外,将残差连接和层归一化应用于两层的输出,促进模型的优化。融合上下文信息的自注意力机制考虑单模态内的信息交互的同时,嵌入上下文信息来增强单模态内的高层语义交互。
Step3.5、将每个输入特征xi通过全连接层得到RQ,每个输入特征yi通过全连接层得到RK、RV。然后RK与RV融合上下文信息得到
Figure BDA0003419587700000041
Figure BDA0003419587700000042
随后根据query与key学习的注意力权重计算所有值value的加权求和,得到更新后的特征Xupdate。融合上下文信息的联合注意力机制学习模态间的信息交互,同时嵌入上下文信息编码更丰富的模态间高层语义交互,提高视觉问答的推理能力。
进一步地,所述步骤Step4的具体步骤如下:
Step4.1、经Step3处理后,然后采用自注意力机制计算每个模态的注意力权重
Figure BDA0003419587700000043
Figure BDA0003419587700000044
αv=softmax(Mv);αQ=softmax(MQ)。其中,
Figure BDA0003419587700000045
Figure BDA0003419587700000046
表示需要学习的参数。α表示图像区域特征的注意力权重;
Step4.2、分别融合视觉区域特征与问题词向量获得联合图像特征与问题特征如下
Figure BDA0003419587700000047
Step4.3、融合问题特征
Figure BDA0003419587700000048
与联合图像特征
Figure BDA0003419587700000049
获得融合特征r,输入到分类层预测最终的答案分布
Figure BDA00034195877000000410
本发明的有益效果是:
1、本发明方法对应的视觉问答模型由特征提取层、多模态特征融合层、分类层三部分构成。特征提取层主要由两个编码器构成:图像编码器使用卷积神经网络提取一组视觉区域特征,问题编码器使用循环神经网络提取问题特征。多模态特征融合层通过各种复杂的机制(如注意力机制)融合抽取的视觉区域特征与问题特征。分类层将融合特征映射到答案空间上生成答案分布。
2、现有的视觉问答方法主要集中在设计更好的注意力机制以及多模态特征融合方法来分析、理解视觉与自然语言领域的高层语义信息。双线性融合等多模态特征融合方法旨在通过特征外积捕获视觉与语言模态之间的高层交互关系。基于特征融合的方法可能会丢失关键信息,导致难以正确回答有关局部图像内容的问题。注意力机制通过自适应地选择重要特征,增强视觉与语言模态间的交互。近年来,注意力机制是VQA方法的一个关键思想,研究人员已经提出许多新的注意力网络解决VQA问题。视觉注意力机制首先被提出定位与问题相关的图像区域。我们的研究表明,学习视觉与语言模态的联合注意力机制能更好的捕捉重要的模态间关键信息,进一步提高VQA的性能。
3、本发明的上下文感知的多模态交互模型,通过融合上下文信息增强联合注意力机制,同时保持模态之间的交互。为此,首先结合自注意力机制从多个全局角度编码问题和图像特征为多个问题与图像上下文信息。每个上下文信息从某个全局的角度编码每种模态丰富的内容信息。随后融合上下文信息,以增强自注意力机制于联合注意力机制,提高视觉问答的推理能力。
综上所述,这种基于多模态交互的上下文感知的面向视觉问答的方法,首先通过预训练的目标检测模型提取图像视觉区域特征,同时使用预训练的词嵌入语言模型与GRU获得问题词向量,再根据上下文编码机制分别获得视觉与问题的全局上下文内容信息向量,然后利用融合上下文信息的注意力机制得到更新后的视觉特征与问题特征,最后融合视觉特征与问题特征获得融合特征,输入到分类层预测最终的答案分布。最终模型提高了视觉问答中回答的准确度。
附图说明
图1上下文感知的多模态交互模型的结构图;
图2为本发明中注意力机制示意图;
图3为本发明中自注意力机制示意图;
图4为本发明中联合注意力机制示意图;
图5为本发明实验效果图。
具体实施方式
实施例1:如图1-图5所示,一种基于多模态交互的上下文感知的面向视觉问答的方法,的具体步骤如下:
Step1、使用预训练的目标检测模型从自然图像中提取图像视觉区域特征,同时使用预训练的词嵌入语言模型与GRU从所提出的问题中获得问题词向量;
Step2、经Step1处理操作之后,根据上下文编码机制分别对图像特征和问题向量进行编码,获得视觉与问题的全局上下文内容信息向量;
Step3、经Step2处理操作之后,然后利用融合上下文信息的注意力机制更新视觉特征与问题特征;
Step4、经Step3处理操作之后,融合视觉特征与问题特征获得融合特征,输入到分类层进行最终的答案分布预测;
进一步地,所述步骤Step1的具体步骤如下:
Step1.1、首先从QVA数据网站或健康网站获得包涵图片问题对以及答案的数据集合;
Step1.2、利用目标检测模型从自然图像中提取图像视觉区域特征,使用预训练的词嵌入语言模型与GRU从所提出的问题中获得问题词向量,具体包括:
采用预训练的目标检测模型提取k个视觉区域特征V={V1,V2,…,VK},其中每个视觉区域特征Vi∈R2048编码图像中的一个显著区域。对于每个问题Q,采用空格进行分词且修剪为最大长度为14个单词。然后使用预训练词嵌入语言模型GloVe将问题中的每个单词转换为词嵌入W={W1,W2,…,Wl},其中Wi∈R300表示问题中第i个单词的词嵌入。接着,将W输入到单层GRU中获得句子层级问题词向量Q={q1,q2,…,ql},其中Wi∈Rdq表示问题中第i个词向量,dq为词向量的维度。
进一步地,所述步骤Step2的具体步骤如下:
Step2.1、首先采用简单的自注意力机制为每个模态生成k组注意力权重。
Figure BDA0003419587700000061
Figure BDA0003419587700000062
式中,Wv,bv,Wq,bq为模型的参数,
Figure BDA00034195877000000611
表示按列softmax操作。矩阵中的每个元素Aij∈A表示视觉区域特征和问题词特征的重要性。;
Step2.2、随后,将注意力权重应用于视觉区域特征和问题词向量,分别获得视觉与问题的全局上下文内容信息向量:
Figure BDA0003419587700000063
Figure BDA0003419587700000064
其中⊙表示哈达玛积。k个上下文内容信息向量中的每一个(即
Figure BDA0003419587700000065
Figure BDA0003419587700000066
的每一行)都是输入单个模态中特征的线性组合,从全局角度总结每种模态某些方面上的语义信息。其中,注意力机制结构如图2所示。
进一步地,所述步骤Step3的具体步骤如下:
Step3.1、首先学习一个门控标量控制全局上下文信息与单模态内每个元素之间的信息量:λ=σ(WRR+WCC)。式中,WR,WC模型的参数,R和C分别单模态内特征向量与上下文内容信息向量,σ(·)表示sigmoid函数。门控标量使模型能够明确量化每个特征和上下文信息向量对联合注意力机制计算注意力权重的贡献。随后,通过以下公式融合内容信息:
Figure BDA0003419587700000067
Step3.2、通过考虑单模态内的每个元素,并融合单模态内多方面的上下文信息,对复杂的多模态交互进行建模。首先通过多视角自注意力机制生成k个上下文信息向量,然后与单模态内特征融合:
Figure BDA0003419587700000068
其中C为上下文内容信息向量。fusion(·;·)是单模态特征与上下文特征的简单拼接。
Step3.3、每个输入特征X通过全连接层得到RQ、RK、RV,然后RK与RV融合全局上下文信息得到
Figure BDA0003419587700000069
Figure BDA00034195877000000610
随后根据query与key学习的注意力权重计算所有值value的加权求和得到更新后的特征。其中,自注意力机制结构如图3所示。
Step3.4、前馈神经网络层(feed-forward layer)利用多头自注意力层的输出特征,并通过两个具有ReLU激活和dropout的全连接层。此外,将残差连接和层归一化应用于两层的输出,促进模型的优化。融合上下文信息的自注意力机制考虑单模态内的信息交互的同时,嵌入上下文信息来增强单模态内的高层语义交互。
Step3.5、将每个输入特征xi通过全连接层得到RQ,每个输入特征yi通过全连接层得到RK、RV。然后RK与RV融合上下文信息得到
Figure BDA0003419587700000071
Figure BDA0003419587700000072
随后根据query与key学习的注意力权重计算所有值value的加权求和,得到更新后的特征Xupdate。融合上下文信息的联合注意力机制学习模态间的信息交互,同时嵌入上下文信息编码更丰富的模态间高层语义交互,提高视觉问答的推理能力。其中,联合注意力机制结构如图4所示。
进一步地,所述步骤Step4的具体步骤如下:
Step4.1、经Step3处理后,然后采用自注意力机制计算每个模态的注意力权重
Figure BDA0003419587700000073
Figure BDA0003419587700000074
αv=softmax(Mv);αQ=softmax(MQ)。其中,
Figure BDA0003419587700000075
Figure BDA0003419587700000076
表示需要学习的参数。α表示图像区域特征的注意力权重;
Step4.2、分别融合视觉区域特征与问题词向量获得联合图像特征与问题特征如下
Figure BDA0003419587700000077
Step4.3、融合问题特征
Figure BDA0003419587700000078
与联合图像特征
Figure BDA0003419587700000079
获得融合特征r,输入到分类层预测最终的答案分布
Figure BDA00034195877000000710
本发明给定输入问题和图像,特征提取模块将提取初始问题词和图像特征。融合上下文信息的多模态交互网络首先通过多角度自注意力机制编码问题词向量和图像区域特征为多个全局上下文信息向量,每个全局上下文信息向量都可以表示为视觉区域特征或问题词特征的加权池化,它从全局角度总结了每种模态某些方面上的语义信息。随后,使用多头自注意力机制与多头联合注意力机制学习单模态内与跨模态间的高层信息交互,以更新问题词特征与视觉区域特征。最后,融合问题词特征与视觉区域特征预测最终答案。
基于双线性融合的方法(例如MCB、BAN等)以及基于注意力机制的方法(例如SAN、DFAF、MLI)等。从表1中可以看出,本发明提出的方法在视觉问答任务中的各个问题类型上均取得最佳的效果。其中:
SAN算法表示下述文献中提出的算法:Yang Z,He X,Gao J,et al.Stackedattention networks for image question answering[C]//Proceedings of the IEEEconference on computer vision and pattern recognition.2016:21-29.
MCB算法表示下述文献中提出的算法:Fukui A,Park D H,Yang D,etal.Multimodal compact bilinear pooling for visual question answering andvisual grounding[C]//Proc of the Conference on Empirical Methods in NaturalLanguage Processing.2016:457-468.
BAN算法表示下述文献中提出的算法:Kim J H,Jun J,Zhang B T.Bilinearattention networks[C]//Advances in Neural Information Processing System.2018.
DFAF算法表示下述文献中提出的算法:Gao P,Jiang Z,You H,et al.Dynamicfusion with intra-and inter-modality attention flow for visual questionanswering[C]//Proceedings of the IEEE/CVF Conference on Computer Vision andPattern Recognition.2019:6639-6648.
MLI算法表示下述文献中提出的算法:Gao P,You H,Zhang Z,et al.Multi-modality latent interaction network for visual question answering[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision.2019:5825-5835.
表1为本发明问题答案选择的实验对比
Figure BDA0003419587700000081
图5为本发明实验效果图,图5可视化了融合上下文信息的多模态交互模型在图像中视觉区域特征的权重,其中,Q表示问题(Question),A表示答案(Answer)。同时可视化融合与未融合全局上下文信息所预测的答案及其概率。可以发现,图像中部分简单场景均能准确的预测问题的答案。但是当场景及问题比较复杂时,需要单模态的内容分析以及跨模态的推理,本文模型融合全局上下文信息后,能够增强答案的预测概率。相比之下,我们的模型能在视觉问答任务中展现出更好的性能。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (5)

1.一种基于多模态交互的上下文感知的面向视觉问答的方法,其特征在于:所述方法的具体步骤如下:
Step1、使用预训练的目标检测模型从自然图像中提取图像视觉区域特征,同时使用预训练的词嵌入语言模型与GRU从所提出的问题中获得问题词向量;
Step2、经Step1处理操作之后,根据上下文编码机制分别对图像特征和问题向量进行编码,获得视觉与问题的全局上下文内容信息向量;
Step3、经Step2处理操作之后,然后利用融合上下文信息的注意力机制更新视觉特征与问题特征;
Step4、经Step3处理操作之后,融合视觉特征与问题特征获得融合特征,输入到分类层进行最终的答案分布预测。
2.根据权利要求1所述基于多模态交互的上下文感知的面向视觉问答的方法,其特征在于:所述步骤Step1的具体步骤如下:
Step1.1、首先从QVA数据网站获得包涵图片问题对以及答案的数据集合;
Step1.2、利用目标检测模型从自然图像中提取图像视觉区域特征,使用预训练的词嵌入语言模型与GRU从所提出的问题中获得问题词向量,具体包括:
采用预训练的目标检测模型提取k个视觉区域特征V={V1,V2,...,VK},其中每个视觉区域特征Vi∈R2048编码图像中的一个显著区域;对于每个问题,采用空格进行分词且修剪为最大长度为14个单词;然后使用预训练词嵌入语言模型GloVe将问题中的每个单词转换为词嵌入W={W1,W2,...,Wl},其中Wi∈R300表示问题中第i个单词的词嵌入;接着,将W输入到单层GRU中获得句子层级问题词向量Q={q1,q2,...,ql},其中Wi∈Rdq表示问题中第i个词向量,dq为词向量的维度。
3.根据权利要求1所述基于多模态交互的上下文感知的面向视觉问答的方法,其特征在于:所述步骤Step2的具体步骤如下:
Step2.1、首先采用简单的自注意力机制为每个模态生成k组注意力权重;
Figure FDA0003419587690000011
Figure FDA0003419587690000012
Figure FDA0003419587690000013
式中,Wv,bv,Wq,bq为模型的参数,
Figure FDA0003419587690000014
表示按列softmax操作,矩阵中的每个元素Aij∈A表示视觉区域特征和问题词特征的重要性,Q为句子层级问题词向量,V为视觉区域特征;
Step2.2、随后,将注意力权重应用于视觉区域特征和问题词向量,分别获得视觉与问题的全局上下文内容信息向量:
Figure FDA0003419587690000021
Figure FDA0003419587690000022
其中⊙表示哈达玛积;k个上下文内容信息向量中的每一个(即
Figure FDA0003419587690000023
Figure FDA0003419587690000024
的每一行)都是输入单个模态中特征的线性组合,从全局角度总结每种模态某些方面上的语义信息。
4.根据权利要求1所述基于多模态交互的上下文感知的面向视觉问答的方法,其特征在于:所述步骤Step3的具体步骤如下:
Step3.1、首先学习一个门控标量控制全局上下文信息与单模态内每个元素之间的信息量:λ=σ(WRR+WCC);式中,WR,WC模型的参数,R和C分别单模态内特征向量与上下文内容信息向量,σ(·)表示sigmoid函数;门控标量使模型能够明确量化每个特征和上下文信息向量对联合注意力机制计算注意力权重的贡献;随后,通过以下公式融合内容信息:
Figure FDA0003419587690000025
Step3.2、通过考虑单模态内的每个元素,并融合单模态内多方面的上下文信息,对复杂的多模态交互进行建模;首先通过多视角自注意力机制生成k个上下文信息向量,然后与单模态内特征融合:
Figure FDA0003419587690000026
其中C为上下文内容信息向量,fusion(·;·)是单模态特征与上下文特征的简单拼接;
Step3.3、每个输入特征X通过全连接层得到RQ、RK、RV,然后RK与RV融合全局上下文信息得到
Figure FDA0003419587690000027
Figure FDA0003419587690000028
随后根据query与key学习的注意力权重计算所有值value的加权求和得到更新后的特征;
Step3.4、前馈神经网络层利用多头自注意力层的输出特征,并通过两个具有ReLU激活和dropout的全连接层;此外,将残差连接和层归一化应用于两层的输出,促进模型的优化;融合上下文信息的自注意力机制考虑单模态内的信息交互的同时,嵌入上下文信息来增强单模态内的高层语义交互;
Step3.5、将每个输入特征xi通过全连接层得到RQ,每个输入特征yi通过全连接层得到RK、RV;然后RK与RV融合上下文信息得到
Figure FDA0003419587690000029
Figure FDA00034195876900000210
随后根据query与key学习的注意力权重计算所有值value的加权求和,得到更新后的特征Xupdate;融合上下文信息的联合注意力机制学习模态间的信息交互,同时嵌入上下文信息编码更丰富的模态间高层语义交互,提高视觉问答的推理能力。
5.根据权利要求1所述基于多模态交互的上下文感知的面向视觉问答的方法:所述步骤Step4的具体步骤如下:
Step4.1、经Step3处理后,然后采用自注意力机制计算每个模态的注意力权重
Figure FDA0003419587690000031
Figure FDA0003419587690000032
αv=softmax(Mv);αQ=softmax(MQ);其中,
Figure FDA0003419587690000033
Figure FDA0003419587690000034
表示需要学习的参数;α表示图像区域特征的注意力权重;Q为句子层级问题词向量,V为视觉区域特征;
Step4.2、分别融合视觉区域特征与问题词向量获得联合图像特征与问题特征如下
Figure FDA0003419587690000035
Step4.3、融合问题特征
Figure FDA0003419587690000036
与联合图像特征
Figure FDA0003419587690000038
获得融合特征r,输入到分类层预测最终的答案分布
Figure FDA0003419587690000037
CN202111557670.XA 2021-12-20 2021-12-20 一种基于多模态交互的上下文感知的面向视觉问答的方法 Pending CN114970517A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111557670.XA CN114970517A (zh) 2021-12-20 2021-12-20 一种基于多模态交互的上下文感知的面向视觉问答的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111557670.XA CN114970517A (zh) 2021-12-20 2021-12-20 一种基于多模态交互的上下文感知的面向视觉问答的方法

Publications (1)

Publication Number Publication Date
CN114970517A true CN114970517A (zh) 2022-08-30

Family

ID=82974698

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111557670.XA Pending CN114970517A (zh) 2021-12-20 2021-12-20 一种基于多模态交互的上下文感知的面向视觉问答的方法

Country Status (1)

Country Link
CN (1) CN114970517A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115797655A (zh) * 2022-12-13 2023-03-14 南京恩博科技有限公司 一种人物交互检测模型、方法、系统及装置
CN115905591A (zh) * 2023-02-22 2023-04-04 浪潮电子信息产业股份有限公司 一种视觉问答方法、系统、设备及可读存储介质
CN116303947A (zh) * 2023-02-24 2023-06-23 首都师范大学 一种问答文本的情绪识别方法、装置及电子设备

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115797655A (zh) * 2022-12-13 2023-03-14 南京恩博科技有限公司 一种人物交互检测模型、方法、系统及装置
CN115797655B (zh) * 2022-12-13 2023-11-07 南京恩博科技有限公司 一种人物交互检测模型、方法、系统及装置
CN115905591A (zh) * 2023-02-22 2023-04-04 浪潮电子信息产业股份有限公司 一种视觉问答方法、系统、设备及可读存储介质
CN115905591B (zh) * 2023-02-22 2023-05-30 浪潮电子信息产业股份有限公司 一种视觉问答方法、系统、设备及可读存储介质
CN116303947A (zh) * 2023-02-24 2023-06-23 首都师范大学 一种问答文本的情绪识别方法、装置及电子设备
CN116303947B (zh) * 2023-02-24 2024-01-19 首都师范大学 一种问答文本的情绪识别方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN110263912B (zh) 一种基于多目标关联深度推理的图像问答方法
CN109947912B (zh) 一种基于段落内部推理和联合问题答案匹配的模型方法
Gou et al. Knowledge distillation: A survey
CN110490946B (zh) 基于跨模态相似度和生成对抗网络的文本生成图像方法
CN110163299B (zh) 一种基于自底向上注意力机制和记忆网络的视觉问答方法
CN111401174B (zh) 一种基于多模态信息融合的排球群体行为识别方法
CN114970517A (zh) 一种基于多模态交互的上下文感知的面向视觉问答的方法
CN111652357B (zh) 一种利用基于图的特定目标网络解决视频问答问题的方法及其系统
CN112819833B (zh) 一种大场景点云语义分割方法
CN112561064B (zh) 基于owkbc模型的知识库补全方法
Chen et al. CAAN: Context-aware attention network for visual question answering
CN113297364B (zh) 一种面向对话系统中的自然语言理解方法及装置
CN112527993B (zh) 一种跨媒体层次化深度视频问答推理框架
CN113128527B (zh) 基于变换器模型和卷积神经网络的图像场景分类方法
Liu et al. Cross-attentional spatio-temporal semantic graph networks for video question answering
Du et al. Full transformer network with masking future for word-level sign language recognition
CN111597929A (zh) 基于通道信息融合和组群关系空间结构化建模的组群行为识别方法
CN116975350A (zh) 图文检索方法、装置、设备及存储介质
CN116958324A (zh) 图像生成模型的训练方法、装置、设备及存储介质
Hu et al. MAENet: A novel multi-head association attention enhancement network for completing intra-modal interaction in image captioning
CN115221369A (zh) 视觉问答的实现方法和基于视觉问答检验模型的方法
CN113254575B (zh) 一种基于多步证据推理的机器阅读理解方法与系统
CN114328943A (zh) 基于知识图谱的问题回答方法、装置、设备及存储介质
CN114266905A (zh) 基于Transformer结构的图像描述生成模型方法、装置和计算机设备
CN112668543B (zh) 一种手模型感知的孤立词手语识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination