CN114970517B

CN114970517B - 一种基于多模态交互的上下文感知的面向视觉问答的方法

Info

Publication number: CN114970517B
Application number: CN202111557670.XA
Authority: CN
Inventors: 吴松泽; 颜洪; 刘利军
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2021-12-20
Filing date: 2021-12-20
Publication date: 2024-08-02
Anticipated expiration: 2041-12-20
Also published as: CN114970517A

Abstract

本发明涉及一种基于多模态交互的上下文感知的面向视觉问答的方法，属于计算机视觉语言跨模态领域。本发明包括步骤：首先通过预训练的目标检测模型提取图像视觉区域特征，使用预训练的词嵌入语言模型与GRU获得问题词向量，再根据上下文编码机制分别获得视觉与问题的全局上下文内容信息向量，然后利用融合上下文信息的注意力机制得到更新后的视觉特征与问题特征，最后融合视觉特征与问题特征获得融合特征，输入到分类层预测最终的答案分布。该方法有效增强模态内与模态间的信息交互，提高视觉问答的推理能力，其准确度比传统的视觉问答方法提高了约5％。

Description

一种基于多模态交互的上下文感知的面向视觉问答的方法

技术领域

本发明涉及一种基于多模态交互的上下文感知的面向视觉问答的方法，属于计算机视觉语言跨模态领域。

背景技术

视觉问答任务作为一个具有挑战的新兴领域，用于推理给定视觉信息下自然语言问题的答案。其中，VQA需要理解语言和图像来推断答案。因此，多模态信息融合在VQA的发展中起着至关重要的作用。首先，学习良好的语言和视觉特征能力是VQA的基础。早期的VQA方法直接使用CNN和RNN提取图像和文本特征，然后融合两种模态特征预测正确的答案。BUTD提出使用预训练目标检测模型代替CNN提取一组视觉区域特征,这种方法显著的提高了视觉问答模型的性能。为了更好的理解视觉与自然语言领域的高层语义信息，近期的工作专注于研究多模态特征融合方法来学习准确的答案特征。这些多模态信息融合方法从早期的简单拼接或逐元素相乘到捕获两个模态的高层交互信息的双线性融合。MCB提出多模态紧凑双线性池(MCB)融合两种模态特征，这种方式极大的提高了模型的性能。为了解决由于多模态紧凑型双线性池将视觉和语言特征映射到高维空间而导致的巨大内存消耗和计算成本，Kim等人提出一种使用Hadamard乘积(逐元素相乘)获得多模态融合特征的多模态低秩双线性池化方法(MLB)。Yu等人提出多模态矩阵分解双线性池化方法(MFB)，该方法减少模型的参数数量并提高收敛速度。随后，一系列基于双线性池化的方法也被提出，这些方法有效的学习两种模态间交互信息。然而，基于特征融合的方法可能会丢失关键信息，导致难以正确的回答有关局部图像内容的问题。近来，一系列的研究表明注意力机制可以自适应地选择重要特征，进而有效地增强视觉和语言模态之间的交互。为了更好的捕获相关的视觉信息，SAN首先在视觉问答模型中引入注意力机制，使得问题关注于与问题相关的视觉区域预测答案。Lu等人提出一种结合问题引导的注意与图像引导的注意力的联合注意力机制从而有效的增强视觉与语言模态之间的交互。Yu等人采用自注意力进行问题嵌入，并使用问题引导的注意力机制有效的减少了图像中不相关的信息(即噪声信息)，最后结合多模态矩阵分解双线性池化方法实现图像中视觉特征和问题中文本特征的更有效融合。Nam等人提出一种双重注意力网络(DAN)共同利用视觉和文本注意力机制来捕获视觉和语言之间的信息交互，基于上一阶段的注意力记忆来完善当前阶段注意力。DAN通过多阶段关注图像中的特定区域和文本中的单词，并从这两种模态中提取重要的信息。密集联合注意力机制(DCN)、模态内与模态间注意力的动态融合(DFAF)、多模态潜在交互网络(MNLI)等注意力方法通过视觉与语言模态之间的密集交互捕捉两种模态之间的高层交互信息。与之前具有简略交互的联合注意力模型相比，这些密集的联合注意力模型明显达到更好的VQA性能。

发明内容

本发明提供一种基于多模态交互的上下文感知的面向视觉问答的方法，通过融合上下文信息增强联合注意力机制，同时保持模态之间的交互，提高了视觉问答的推理能力。

本发明的技术方案是：一种基于多模态交互的上下文感知的面向视觉问答的方法，所述方法的具体步骤如下：

Step1、使用预训练的目标检测模型从自然图像中提取图像视觉区域特征，同时使用预训练的词嵌入语言模型与GRU从所提出的问题中获得问题词向量；

Step2、经Step1处理操作之后，根据上下文编码机制分别对图像特征和问题向量进行编码，获得视觉与问题的全局上下文内容信息向量；

Step3、经Step2处理操作之后，然后利用融合上下文信息的注意力机制更新视觉特征与问题特征；

Step4、经Step3处理操作之后，融合视觉特征与问题特征获得融合特征，输入到分类层进行最终的答案分布预测。

进一步地，所述步骤Step1的具体步骤如下：

Step1.1、首先从健康网站获得包涵图片问题对以及答案的数据集合；

Step1.2、利用目标检测模型从自然图像中提取图像视觉区域特征，使用预训练的词嵌入语言模型与GRU从所提出的问题中获得问题词向量，具体包括：

采用预训练的目标检测模型提取k个视觉区域特征V＝{V₁,V₂,…,V_K}，其中每个视觉区域特征V_i∈R²⁰⁴⁸编码图像中的一个显著区域。对于每个问题Q，采用空格进行分词且修剪为最大长度为14个单词。然后使用预训练词嵌入语言模型GloVe将问题中的每个单词转换为词嵌入W＝{W₁,W₂,…,W_l},其中W_i∈R³⁰⁰表示问题中第i个单词的词嵌入。接着，将W输入到单层GRU中获得句子层级问题词向量Q＝{q₁,q₂,…,q_l}，其中W_i∈R^dq表示问题中第i个词向量，dq为词向量的维度。

进一步地，所述步骤Step2的具体步骤如下：

Step2.1、首先采用简单的自注意力机制为每个模态生成k组注意力权重。式中，W_v,b_v,W_q,b_q为模型的参数，表示按列softmax操作。矩阵中的每个元素A_ij∈A表示视觉区域特征和问题词特征的重要性。；

Step2.2、随后，我们将注意力权重应用于视觉区域特征和问题词向量，分别获得视觉与问题的全局上下文内容信息向量：其中⊙表示哈达玛积。k个上下文内容信息向量中的每一个(即或的每一行)都是输入单个模态中特征的线性组合，从全局角度总结每种模态某些方面上的语义信息。

进一步地，所述步骤Step3的具体步骤如下：

Step3.1、首先学习一个门控标量控制全局上下文信息与单模态内每个元素之间的信息量：λ＝σ(W_RR+W_CC)。式中，W_R，W_C模型的参数，R和C分别单模态内特征向量与上下文内容信息向量，σ(·)表示sigmoid函数。门控标量使模型能够明确量化每个特征和上下文信息向量对联合注意力机制计算注意力权重的贡献。随后，通过以下公式融合内容信息：

Step3.2、通过考虑单模态内的每个元素，并融合单模态内多方面的上下文信息，对复杂的多模态交互进行建模。首先通过多视角自注意力机制生成k个上下文信息向量，然后与单模态内特征融合：其中C为上下文内容信息向量。fusion(·；·)是单模态特征与上下文特征的简单拼接。；

Step3.3、每个输入特征X通过全连接层得到R_Q、R_K、R_V，然后R_K与R_V融合全局上下文信息得到与随后根据query与key学习的注意力权重计算所有值value的加权求和得到更新后的特征。

Step3.4、前馈神经网络层(feed-forward layer)利用多头自注意力层的输出特征，并通过两个具有ReLU激活和dropout的全连接层。此外，将残差连接和层归一化应用于两层的输出，促进模型的优化。融合上下文信息的自注意力机制考虑单模态内的信息交互的同时，嵌入上下文信息来增强单模态内的高层语义交互。

Step3.5、将每个输入特征x_i通过全连接层得到R_Q,每个输入特征y_i通过全连接层得到R_K、R_V。然后R_K与R_V融合上下文信息得到与随后根据query与key学习的注意力权重计算所有值value的加权求和，得到更新后的特征X_update。融合上下文信息的联合注意力机制学习模态间的信息交互，同时嵌入上下文信息编码更丰富的模态间高层语义交互，提高视觉问答的推理能力。

进一步地，所述步骤Step4的具体步骤如下：

Step4.1、经Step3处理后，然后采用自注意力机制计算每个模态的注意力权重 α_v＝softmax(M_v)；α_Q＝softmax(M_Q)。其中，表示需要学习的参数。α表示图像区域特征的注意力权重；

Step4.2、分别融合视觉区域特征与问题词向量获得联合图像特征与问题特征如下Step4.3、融合问题特征与联合图像特征获得融合特征r，输入到分类层预测最终的答案分布

本发明的有益效果是：

1、本发明方法对应的视觉问答模型由特征提取层、多模态特征融合层、分类层三部分构成。特征提取层主要由两个编码器构成：图像编码器使用卷积神经网络提取一组视觉区域特征，问题编码器使用循环神经网络提取问题特征。多模态特征融合层通过各种复杂的机制(如注意力机制)融合抽取的视觉区域特征与问题特征。分类层将融合特征映射到答案空间上生成答案分布。

2、现有的视觉问答方法主要集中在设计更好的注意力机制以及多模态特征融合方法来分析、理解视觉与自然语言领域的高层语义信息。双线性融合等多模态特征融合方法旨在通过特征外积捕获视觉与语言模态之间的高层交互关系。基于特征融合的方法可能会丢失关键信息，导致难以正确回答有关局部图像内容的问题。注意力机制通过自适应地选择重要特征，增强视觉与语言模态间的交互。近年来，注意力机制是VQA方法的一个关键思想，研究人员已经提出许多新的注意力网络解决VQA问题。视觉注意力机制首先被提出定位与问题相关的图像区域。我们的研究表明，学习视觉与语言模态的联合注意力机制能更好的捕捉重要的模态间关键信息，进一步提高VQA的性能。

3、本发明的上下文感知的多模态交互模型，通过融合上下文信息增强联合注意力机制，同时保持模态之间的交互。为此，首先结合自注意力机制从多个全局角度编码问题和图像特征为多个问题与图像上下文信息。每个上下文信息从某个全局的角度编码每种模态丰富的内容信息。随后融合上下文信息，以增强自注意力机制于联合注意力机制，提高视觉问答的推理能力。

综上所述，这种基于多模态交互的上下文感知的面向视觉问答的方法，首先通过预训练的目标检测模型提取图像视觉区域特征，同时使用预训练的词嵌入语言模型与GRU获得问题词向量，再根据上下文编码机制分别获得视觉与问题的全局上下文内容信息向量，然后利用融合上下文信息的注意力机制得到更新后的视觉特征与问题特征，最后融合视觉特征与问题特征获得融合特征，输入到分类层预测最终的答案分布。最终模型提高了视觉问答中回答的准确度。

附图说明

图1上下文感知的多模态交互模型的结构图；

图2为本发明中注意力机制示意图；

图3为本发明中自注意力机制示意图；

图4为本发明中联合注意力机制示意图；

图5为本发明实验效果图。

具体实施方式

实施例1：如图1-图5所示，一种基于多模态交互的上下文感知的面向视觉问答的方法，的具体步骤如下：

Step4、经Step3处理操作之后，融合视觉特征与问题特征获得融合特征，输入到分类层进行最终的答案分布预测；

进一步地，所述步骤Step1的具体步骤如下：

Step1.1、首先从QVA数据网站或健康网站获得包涵图片问题对以及答案的数据集合；

进一步地，所述步骤Step2的具体步骤如下：

Step2.2、随后，将注意力权重应用于视觉区域特征和问题词向量，分别获得视觉与问题的全局上下文内容信息向量：其中⊙表示哈达玛积。k个上下文内容信息向量中的每一个(即或的每一行)都是输入单个模态中特征的线性组合，从全局角度总结每种模态某些方面上的语义信息。其中，注意力机制结构如图2所示。

进一步地，所述步骤Step3的具体步骤如下：

Step3.2、通过考虑单模态内的每个元素，并融合单模态内多方面的上下文信息，对复杂的多模态交互进行建模。首先通过多视角自注意力机制生成k个上下文信息向量，然后与单模态内特征融合：其中C为上下文内容信息向量。fusion(·；·)是单模态特征与上下文特征的简单拼接。

Step3.3、每个输入特征X通过全连接层得到R_Q、R_K、R_V，然后R_K与R_V融合全局上下文信息得到与随后根据query与key学习的注意力权重计算所有值value的加权求和得到更新后的特征。其中，自注意力机制结构如图3所示。

Step3.5、将每个输入特征x_i通过全连接层得到R_Q,每个输入特征y_i通过全连接层得到R_K、R_V。然后R_K与R_V融合上下文信息得到与随后根据query与key学习的注意力权重计算所有值value的加权求和，得到更新后的特征X_update。融合上下文信息的联合注意力机制学习模态间的信息交互，同时嵌入上下文信息编码更丰富的模态间高层语义交互，提高视觉问答的推理能力。其中，联合注意力机制结构如图4所示。

进一步地，所述步骤Step4的具体步骤如下：

Step4.2、分别融合视觉区域特征与问题词向量获得联合图像特征与问题特征如下

Step4.3、融合问题特征与联合图像特征获得融合特征r，输入到分类层预测最终的答案分布

本发明给定输入问题和图像，特征提取模块将提取初始问题词和图像特征。融合上下文信息的多模态交互网络首先通过多角度自注意力机制编码问题词向量和图像区域特征为多个全局上下文信息向量，每个全局上下文信息向量都可以表示为视觉区域特征或问题词特征的加权池化，它从全局角度总结了每种模态某些方面上的语义信息。随后，使用多头自注意力机制与多头联合注意力机制学习单模态内与跨模态间的高层信息交互，以更新问题词特征与视觉区域特征。最后，融合问题词特征与视觉区域特征预测最终答案。

基于双线性融合的方法(例如MCB、BAN等)以及基于注意力机制的方法(例如SAN、DFAF、MLI)等。从表1中可以看出，本发明提出的方法在视觉问答任务中的各个问题类型上均取得最佳的效果。其中：

SAN算法表示下述文献中提出的算法：Yang Z,He X,Gao J,et al.Stackedattention networks for image question answering[C]//Proceedings of the IEEEconference on computer vision and pattern recognition.2016:21-29.

MCB算法表示下述文献中提出的算法：Fukui A,Park D H,Yang D,etal.Multimodal compact bilinear pooling for visual question answering andvisual grounding[C]//Proc of the Conference on Empirical Methods in NaturalLanguage Processing.2016:457-468.

BAN算法表示下述文献中提出的算法：Kim J H,Jun J,Zhang B T.Bilinearattention networks[C]//Advances in Neural Information Processing System.2018.

DFAF算法表示下述文献中提出的算法：Gao P,Jiang Z,You H,et al.Dynamicfusion with intra-and inter-modality attention flow for visual questionanswering[C]//Proceedings of the IEEE/CVF Conference on Computer Vision andPattern Recognition.2019:6639-6648.

MLI算法表示下述文献中提出的算法：Gao P,You H,Zhang Z,et al.Multi-modality latent interaction network for visual question answering[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision.2019:5825-5835.

表1为本发明问题答案选择的实验对比

图5为本发明实验效果图，图5可视化了融合上下文信息的多模态交互模型在图像中视觉区域特征的权重，其中，Q表示问题(Question)，A表示答案(Answer)。同时可视化融合与未融合全局上下文信息所预测的答案及其概率。可以发现，图像中部分简单场景均能准确的预测问题的答案。但是当场景及问题比较复杂时，需要单模态的内容分析以及跨模态的推理，本文模型融合全局上下文信息后，能够增强答案的预测概率。相比之下，我们的模型能在视觉问答任务中展现出更好的性能。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于多模态交互的上下文感知的面向视觉问答的方法，其特征在于：所述方法的具体步骤如下：

所述步骤Step2的具体步骤如下：

Step2.1、首先采用简单的自注意力机制为每个模态生成k组注意力权重；式中，W_v,b_v,W_q,b_q为模型的参数，表示按列softmax操作，矩阵中的每个元素A_ij∈A表示视觉区域特征和问题词特征的重要性，Q为句子层级问题词向量，V为视觉区域特征；

Step2.2、随后，将注意力权重应用于视觉区域特征和问题词向量，分别获得视觉与问题的全局上下文内容信息向量：其中⊙表示哈达玛积；k个上下文内容信息向量中的每一个都是输入单个模态中特征的线性组合，从全局角度总结每种模态某些方面上的语义信息；

所述步骤Step3的具体步骤如下：

Step3.1、首先学习一个门控标量控制全局上下文信息与单模态内每个元素之间的信息量：λ＝σ(W_RR+W_CC)；式中，W_R，W_C模型的参数，R和C分别单模态内特征向量与上下文内容信息向量，σ(·)表示sigmoid函数；门控标量使模型能够明确量化每个特征和上下文信息向量对联合注意力机制计算注意力权重的贡献；随后，通过以下公式融合内容信息：

Step3.2、通过考虑单模态内的每个元素，并融合单模态内多方面的上下文信息，对复杂的多模态交互进行建模；首先通过多视角自注意力机制生成k个上下文信息向量，然后与单模态内特征融合：其中C为上下文内容信息向量，fusion(·；·)是单模态特征与上下文特征的简单拼接；

Step3.3、每个输入特征X通过全连接层得到R_Q、R_K、R_V，然后R_K与R_V融合全局上下文信息得到与随后根据query与key学习的注意力权重计算所有值value的加权求和得到更新后的特征；

Step3.4、前馈神经网络层利用多头自注意力层的输出特征，并通过两个具有ReLU激活和dropout的全连接层；此外，将残差连接和层归一化应用于两层的输出，促进模型的优化；融合上下文信息的自注意力机制考虑单模态内的信息交互的同时，嵌入上下文信息来增强单模态内的高层语义交互；

Step3.5、将每个输入特征x_i通过全连接层得到R_Q,每个输入特征y_i通过全连接层得到R_K、R_V；然后R_K与R_V融合上下文信息得到与随后根据query与key学习的注意力权重计算所有值value的加权求和，得到更新后的特征X_update；融合上下文信息的联合注意力机制学习模态间的信息交互，同时嵌入上下文信息编码更丰富的模态间高层语义交互，提高视觉问答的推理能力；

所述步骤Step4的具体步骤如下：

Step4.1、经Step3处理后，然后采用自注意力机制计算每个模态的注意力权重α_v＝softmax(M_v)；α_Q＝softmax(M_Q)；其中，表示需要学习的参数；α表示图像区域特征的注意力权重；Q为句子层级问题词向量，V为视觉区域特征；

Step4.2、分别融合视觉区域特征与问题词向量获得联合图像特征与问题特征如下表示视觉区域特征的个数，l表示问题中的每个单词转换为词嵌入的个数；

2.根据权利要求1所述基于多模态交互的上下文感知的面向视觉问答的方法，其特征在于：所述步骤Step1的具体步骤如下：

Step1.1、首先从QVA数据网站获得包涵图片问题对以及答案的数据集合；

采用预训练的目标检测模型提取k个视觉区域特征V＝{V₁,V₂,…,V_k}，其中每个视觉区域特征V_i∈R²⁰⁴⁸编码图像中的一个显著区域；对于每个问题，采用空格进行分词且修剪为最大长度为14个单词；然后使用预训练词嵌入语言模型GloVe将问题中的每个单词转换为词嵌入W＝{W₁,W₂,…,W_l},其中W_i∈R³⁰⁰表示问题中第i个单词的词嵌入；接着，将W输入到单层GRU中获得句子层级问题词向量Q＝{q₁,q₂,…,q_l}，其中W_i∈R^dq表示问题中第i个词向量，dq为词向量的维度。