CN114398961A

CN114398961A - 一种基于多模态深度特征融合的视觉问答方法及其模型

Info

Publication number: CN114398961A
Application number: CN202111624056.0A
Authority: CN
Inventors: 杜圣东; 邹芸竹; 李天瑞; 张凡; 张晓博; 赵小乐
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2021-12-28
Filing date: 2021-12-28
Publication date: 2022-04-26
Anticipated expiration: 2041-12-28
Also published as: CN114398961B

Abstract

本发明公开了一种基于多模态深度特征融合的视觉问答方法，包括以下步骤：(1)使用卷积神经网络和长短时记忆网络分别获取图像和文本两种模态数据特征，然后利用获取的图像和文本两种模态数据特征进行模态内部和模态间的注意力建模；(2)构建注意力网络并将注意力层串联堆叠，其中两种模态特征相互作为注意力权重学习的参考进行更深度的特征交互；(3)通过多模态融合函数融合注意力加权后的图像信息和文本语义，并将融合特征传入分类器结合答案文本数据预测结果。除此之外本发明还公开了一种基于多模态深度特征融合的视觉问答模型。本发明相较于现有方法具有稳定性好、预测准确率更高、实验硬件环境要求更低等优点。

Description

一种基于多模态深度特征融合的视觉问答方法及其模型

技术领域

本发明涉及多模态数据融合研究相关的视觉问答领域，具体涉及一种基于多模态深度特征融合的视觉问答方法及其模型，

背景技术

视觉问答是指：给定一张图片和图片相关的问题，视觉问答的目标是结合图片的视觉信息和文本内容，通过对图像和文本进行深度的特征融合处理以获得问题的答案。

视觉问答早期研究采用的跨模态交互方法为基于简单的特征组合。比如将词袋模型表示的问题特征与图像的卷积特征直接拼接整合，输入到逻辑回归分类器中；又比如使用哈达玛积的方式对图文特征进行组合。这些基于简单特征组合的模型几乎没有关注参数之间的联系，需要通过后续的网络层对组合操作进行自适应，实际模型表现不佳。

后来研究者往往将图像和文本两种模态联合嵌入到公共特征空间得到全局特征，再使用融合模型进行分类预测。比如使用池化方法将高维空间内联合表示的两种特征向量做傅里叶变换实现多模态特征的组合。为了更好获得图像和文本特征的关键信息，减小特征损失，注意力机制被广泛应用于视觉问答模型。比如构建一个堆叠的注意力网络SANs用于迭代学习图像特征，加强对图像关键信息的获取；又比如建立线性池化思想与注意力机制结合的深度学习模型，分别计算两种模态的注意力信息用于模态特征的融合。再比如在上述模型基础上进行改进，将双线性池化的步骤细化为扩张和压缩两个阶段，对基础注意力层堆叠计算得到更高阶的信息。然而上述方法主要还是多模态特征的浅层交互，难以对图像和问题关键词之间的深层特征关系进行融合表示和学习推断。

综上可见，当前的视觉问答模型因存在易损失关键特征信息、跨模态特征无法密切交互等问题，在实际应用中表现不佳。针对上述关键问题，本发明设计了一种基于多模态深度特征融合的视觉问答模型。

发明内容

为了解决当前的视觉问答模型因存在易损失关键特征信息、跨模态特征无法密切交互等问题，本发明公开了一种基于多模态深度特征融合的视觉问答方法。

本发明一方面提供了一种基于多模态深度特征融合的视觉问答方法，包括以下步骤：

(1)使用卷积神经网络和长短时记忆网络分别获取图像和文本两种模态数据特征，然后利用获取的图像和文本两种模态数据特征进行模态内部和模态间的注意力建模；

(2)构建注意力网络并将注意力层串联堆叠，其中两种模态特征相互作为注意力权重学习的参考进行更深度的特征交互；

(3)通过多模态融合函数融合注意力加权后的图像信息和文本语义，并将融合特征传入分类器结合答案文本数据预测结果。

该模型相较于现有方法具有稳定性好、预测准确率更高、实验硬件环境要求更低等优点。

进一步地，步骤(1)具体包括：图像文本特征抽取，对模型的输入数据进行特征抽取表示，对输入的图像X_in，使用开源的Faster-RCNN模型进行学习训练，得到图像特征

它是VQA数据集的图像区域视觉特征的集合，d_x＝2048是输入图像特征的维度；对输入的问题文本Y_in，首先进行文本预处理划分单词，使用开源的GloVe模型实现基于单词级的输入embedding，然后输入到LSTM网络，抽取出问题文本特征

d_y＝512是输入图像特征的维度。

SA和MA元注意力单元设计，基于“多头”注意力(Multi-head attention)机制，构建了自注意力SA(self-attention)和交互注意力MA(mutual-attention)两类元注意力单元，用于协同注意力网络层的模块化组合，“多头”注意力的计算公式如下所示：

MultiHead(Q,K,V)＝＝Concat(head₁,…,head_h)W^O

其原理是在点积注意力的基础上，将各输入向量按“头”的个数等分为h份，对等分后的h份数据分别通过不同的权重

映射得到新的Q、K、V以计算相应的Attention值，计算公式为：

将分割计算的结果重新链接，映射到原始的向量维度，得到注意力特征结果；

其中z是归一化因子，K、V是注意力宏观理解下的Key-Value对，此处是神经网络输入的一种模态特征数据，二者等价；神经网络输入的第二种模态特征数据Q作为主体接受K、V指导，通过计算与K内积后Softmax的结果，得到相似度概率，最后加权求和得到注意力向量。因子

起到调节作用，保证分式上方结果不至于太大；

在“多头”注意力机制基础上建立SA元注意力单元如图2左。该单元仅使用一种模态X输入后作为Attention计算公式的Q、K、V，单元通过“多头”注意力层获取self-attention，学习特征集X内成对样本<x_i,x_j>之间的关系，对所有成对实例相似度的加权求和得到注意力处理后的特征。特征信息随后进入使用RELU激活函数的全连接层和一个用于归一化的全连接层，实现特征的空间变换。最终输出得到Attention(SA)，它是所有x_i分别与输入的模态X所有特征之间的相似度重构集合；

同理建立MA元注意力单元，MA元注意力单元与SA不同的地方在于，输入使用了X和Y两种模态的特征值，模态Y的特征数据用于指导模态X的特征注意力学习，其中模态Y作为Attention计算公式的K和V，模态X作为主体Q，MA单元学习特征集X单一元素和特征集Y所有元素的成对样本＜x，y_j＞之间的关系，利用Y指导X学习，最终输出Attention(MA)，即输入模态x_i与输入的模态Y所有样本特征交叉后的相似度重构集合。

进一步地，所述步骤(2)具体包括：协同注意力网络层构建，将两种元注意力单元进行模块化组合，得到新的协同注意力网络层，共包含两个SA元注意力单元和两个MA元注意力单元，其实现分三个步骤：

SA(Text)单元和SA(Image)单元并行化处理，分别实现文本与图像内部的自注意力特征建模，有利于单模态内全局信息的捕捉和关键特征的获取。

模型模拟人类“先看图像，然后带着图像信息浏览问题”的自然行为：使用MA(Text)单元，经自注意力处理后的图像特征作为“指导”提供MA单元所需的K、V向量，自注意力处理后的文本特征作为MA单元所需的Q向量，实现协同注意力建模，完成协同注意力网络层的第一次跨模态特征交互；

实现协同注意力层内的第二次跨模态特征交互：使用MA(Image)单元利用文本特征帮助获取图像关键区域特征信息，此时由第二步协同注意处理后的文本特征提供K、V向量，自注意力处理后的图像特征作为协同注意力单元主体。

单个协同注意力网络层输出的结果可以作为新的协同注意力层的输入，将多个注意力层可以串联堆叠，得到最终的深度串联注意力学习网络。协同注意力层(Co-AttentionLayer)简写为CAL，设模型共有Num层，记作CAL_Num，第num层可表示为CAL_num，其输入图像特征和问题特征分别表示为X^num-1，Y^num-1，作为下一个串联CAL层的输入，公式表达如下所示：

(X^num，Y^num)＝CAL_num(X^num-1，Y^num-1)

对于CAL₁，其输入图像特征和文本特征分别为X⁰＝X及Y⁰＝Y。

深度串联注意力学习网络的输出为

和

进一步地，所述步骤(3)具包括：特征融合与分类预测输出，对图像特征X和问题特征Y进行协同注意力学习后，输出的图像特征

和文本特征

各自携带有丰富的图像区域和问题单词的注意力权重信息。使用MLP学习，得到归一化的权重概率，公式如下所示：

其中e为自然常数。利用上述归一化的权重概率对特征加权求和得到最终的图像特征x^*和问题特征y^*，公式如下所示：

然后基于双线性池化(Bilinear Pooling)的思想，将计算得到的图像特征x^*和问题特征y^*使用融合函数进行融合，计算公式如下所示：

其中

是两个线性投影矩阵，由融合前设置的全连接层的参数设定，d_res是融合特征res的共同维度，实验设置为1024。LayerNorm层在输入序列张量的最后一个维度上求均值和方差，然后对融合特征标准化，计算公式如下：

E[x]和Var[x]分别为处理数据的期望方差，∈为常量取1e-7。

模态特征融合后得到融合特征res，随后进入N-分类器(Classifier)，建立输入融合特征res和输出预测答案result之间的映射关系，其中N是训练集使用的答案(Answer)标签中出现频率较高的标签数量，由深度学习开源库OpenVQA平台提供。损失函数使用交叉熵损失函数，公式如下所示：

N即标签数量，y_v是对样本预测的结果标记，p_v代表了预测分类结果为第v类的概率

本发明另一方面还提供了一种基于多模态深度特征融合的视觉问答模型，包括：

图像特征抽取模块，用于使用卷积神经网络和长短时记忆网络分别获取图像和文本两种模态数据特征；

与图像特征抽取模块相连的协同注意力网络层，用于利用获取的图像和文本两种模态数据特征进行模态内部和模态间的注意力建模，构建注意力网络并将注意力层串联堆叠，其中两种模态特征相互作为注意力权重学习的参考进行更深度的特征交互；

与协同注意力网络层相连的特征融合与分类预测输出模块，用于通过多模态融合函数融合注意力加权后的图像信息和文本语义，并将融合特征传入分类器结合答案文本数据预测结果。

进一步地，所述图像特征抽取模块具体用于：对输入的图像X_in，使用开源的Faster-RCNN模型进行学习训练，得到图像特征

d_y＝512是输入图像特征的维度。

进一步地，协同注意力网络层通过SA元注意力单元和两个MA元注意力单元通过模块化组合构成；

其中，SA元注意力单元和两个MA元注意力单元均基于“多头”注意力机制构建，“多头”注意力的计算公式如下所示：

MultiHead(Q，K，V)＝＝Concat(head₁，…，head_h)W^O

映射得到新的Q、K、V以计算相应的Attention值，计算公式为：

其中z是归一化因子，K、V是注意力宏观理解下的Key-Value对；神经网络输入的第二种模态特征数据Q作为主体接受K、V指导，通过计算与K内积后Softmax的结果，得到相似度概率，最后加权求和得到注意力向量；

SA元注意力单元仅使用一种模态X输入后作为Attention计算公式的Q、K、V，单元通过“多头”注意力层获取self-attention，学习特征集X内成对样本＜x_i，x_j＞之间的关系，对所有成对实例相似度的加权求和得到注意力处理后的特征，特征信息随后进入使用RELU激活函数的全连接层和一个用于归一化的全连接层，实现特征的空间变换，最终输出得到Attention(SA)，它是所有x_i分别与输入的模态X所有特征之间的相似度重构集合；

MA元注意力单元输入使用了X和Y两种模态的特征值，模态Y的特征数据用于指导模态X的特征注意力学习，其中模态Y作为Attention计算公式的K和V，模态X作为主体Q，MA单元学习特征集X单一元素和特征集Y所有元素的成对样本＜x，y_j＞之间的关系，利用Y指导X学习，最终输出Attention(MA)，即输入模态x_i与输入的模态Y所有样本特征交叉后的相似度重构集合；

其中SA元注意力单元和两个MA元注意力单元通过模块化组合步骤包括：

实现协同注意力层内的第二次跨模态特征交互：使用MA(Image)单元利用文本特征帮助获取图像关键区域特征信息，此时由第二步协同注意处理后的文本特征提供K、V向量，自注意力处理后的图像特征作为协同注意力单元主体；

单个协同注意力网络层输出的结果可以作为新的协同注意力层的输入，将多个注意力层可以串联堆叠，得到最终的深度串联注意力学习网络，协同注意力层(Co-AttentionLayer)简写为CAL，设模型共有Num层，记作CAL_Num，第num层可表示为CAL_num，其输入图像特征和问题特征分别表示为X^num-1，Y^num-1，作为下一个串联CAL层的输入，公式表达如下所示：

(X^num，Y^num)＝CAL_num(X^num-1，Y^num-1)

对于CAL₁，其输入图像特征和文本特征分别为X⁰＝X及Y⁰＝Y，深度串联注意力学习网络的输出为

和

进一步地，特征融合与分类预测输出模块具体用于对图像特征X和问题特征Y进行协同注意力学习后，输出的图像特征

和文本特征

各自携带有丰富的图像区域和问题单词的注意力权重信息，使用MLP学习，得到归一化的权重概率，公式如下所示：

其中

E[x]和Var[x]分别为处理数据的期望方差，∈为常量取1e-7；

模态特征融合后得到由包含图像与问题文本相关信息的融合特征res，随后模型接入N-分类器(Classifier)，建立输入融合特征res和输出预测答案result之间的映射关系，其中N是训练集使用的答案(Answer)标签中出现频率较高的标签数量，由深度学习开源库OpenVQA平台提供；损失函数使用交叉熵损失函数，公式如下所示：

N即标签数量，y_v是对样本预测的结果标记，p_v代表了预测分类结果为第v类的概率。

该模型针对当前视觉问答模型容易损失关键特征信息、跨模态特征无法密切交互两大问题，提出了一种多模态深度特征融合的视觉问答模型CDI-VQA。

与现有技术相比，本发明的有益效果在于：

一、本发明使用从图像和文本数据中抽取的特征进行模态内部及模态之间的注意力建模，有利于单模态内全局信息的捕捉和关键特征的获取；有利于跨模态特征之间进行密切地交互；

二、本发明较现有技术实现了多模态特征之间的密切交互，三步实现步骤包括两次跨模态交互，模拟了人对图像问题的思考方式，图像特征与文本特征各自指导了对方的注意力权重学习，实现了真正意义上的深度特征融合。

三、方法模型将多个协同注意力层串联堆叠，上一个协同注意力层的输出作为下一协同注意力层的输入，提高了预测准确率，提升了模型的性能。

下面结合附图和具体实施方式对本发明做进一步的说明。本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的附图用来辅助对本发明的理解，附图中所提供的内容及其在本发明中有关的说明可用于解释本发明，但不构成对本发明的不当限定。在附图中：

图1为本发明一种基于多模态深度特征融合的视觉问答模型的结构图。

图2为基于“多头”注意力机制的元注意力单元结构图。

图3为基于SA和MA单元组合建立的协同注意力网络层结构图。

图4为在不同协同注意力层数的条件下对本发明一种基于多模态深度特征融合的视觉问答模型性能影响结果示意图。

具体实施方式

下面结合附图对本发明进行清楚、完整的说明。本领域普通技术人员在基于这些说明的情况下将能够实现本发明。在结合附图对本发明进行说明前，需要特别指出的是：

本发明中在包括下述说明在内的各部分中所提供的技术方案和技术特征，在不冲突的情况下，这些技术方案和技术特征可以相互组合。

此外，下述说明中涉及到的本发明的实施例通常仅是本发明一部分的实施例，而不是全部的实施例。因此，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

术语“MLP”指的是多层神经网络。

步骤(1)具体包括：图像文本特征抽取，对模型的输入数据进行特征抽取表示，对输入的图像X_in，使用开源的Faster-RCNN模型进行学习训练，得到图像特征

d_y＝512是输入图像特征的维度。。

MultiHead(Q，K，V)＝＝Concat(head₁，…，head_h)W^O

映射得到新的Q、K、V以计算相应的Attention值，计算公式为：

起到调节作用，保证分式上方结果不至于太大；

在“多头”注意力机制基础上建立SA元注意力单元如图2左。该单元仅使用一种模态X输入后作为Attention计算公式的Q、K、V，单元通过“多头”注意力层获取self-attention，学习特征集X内成对样本＜x_i，x_j＞之间的关系，对所有成对实例相似度的加权求和得到注意力处理后的特征。特征信息随后进入使用RELU激活函数的全连接层和一个用于归一化的全连接层，实现特征的空间变换。最终输出得到Attention(SA)，它是所有x_i分别与输入的模态X所有特征之间的相似度重构集合；

所述步骤(2)具体包括：协同注意力网络层构建，将两种元注意力单元进行模块化组合，得到新的协同注意力网络层如图3，共包含两个SA元注意力单元和两个MA元注意力单元，其实现分三个步骤：

(X^num，Y^num)＝CAL_num(X^num-1，Y^num-1)

对于CAL₁，其输入图像特征和文本特征分别为X⁰＝X及Y⁰＝Y，

深度串联注意力学习网络的输出为

和

和文本特征

其中

E[x]和Var[x]分别为处理数据的期望方差，∈为常量取1e-7；

所述图像特征抽取模块具体用于：对输入的图像X_in，使用开源的Faster-RCNN模型进行学习训练，得到图像特征

d_y＝512是输入图像特征的维度。

协同注意力网络层通过SA元注意力单元和两个MA元注意力单元通过模块化组合构成；

MultiHead(Q，K，V)＝＝Concat(head₁，…，head_h)W^O

映射得到新的Q、K、V以计算相应的Attention值，计算公式为：

(X^num，Y^num)＝CAL_num(X^num-1，Y^num-1)

和

和文本特征

然后基于双线性池化(BilinearPooling)的思想，将计算得到的图像特征x^*和问题特征y^*使用融合函数进行融合，计算公式如下所示：

其中

E[x]和Var[x]分别为处理数据的期望方差，∈为常量取1e-7；

方法针对当前视觉问答模型容易损失关键特征信息、跨模态特征无法密切交互两大问题，提出了一种多模态深度特征融合的视觉问答模型CDI-VQA。

本发明一种基于多模态深度特征融合的视觉问答模型结构如图1所示，包括图像特征抽取模块，用于使用卷积神经网络和长短时记忆网络分别获取图像和文本两种模态数据特征；

其中：

图像文本特征抽取，对模型的输入数据进行特征抽取表示。对输入的图像X_in，使用开源的Faster-RCNN模型进行学习训练，得到图像特征

dy＝512是输入图像特征的维度。

SA和MA元注意力单元设计，基于“多头”注意力(Multi-head attention)机制，构建了自注意力SA(self-attention)和交互注意力MA(mutual-attention)两类元注意力单元，用于协同注意力网络层的模块化组合。“多头”注意力的计算公式如下所示：

MultiHead(Q，K，V)＝＝Concat(head₁，…，head_h)W^O

映射得到新的Q、K、V以计算相应的Attention值，计算公式为：

将分割计算的结果重新链接，映射到原始的向量维度，得到注意力特征结果。

起到调节作用，保证分式上方结果不至于太大。

在“多头”注意力机制基础上建立SA元注意力单元如图2左。该单元仅使用一种模态X输入后作为Attention计算公式的Q、K、V。单元通过“多头”注意力层获取self-attention，学习特征集X内成对样本＜x_i，x_j＞之间的关系，对所有成对实例相似度的加权求和得到注意力处理后的特征。特征信息随后进入使用RELU激活函数的全连接层和一个用于归一化的全连接层，实现特征的空间变换。最终输出得到Attention(SA)，它是所有x_i分别与输入的模态X所有特征之间的相似度重构集合。

同理建立MA元注意力单元如图2右边，该单元与SA不同的地方在于，输入使用了X和Y两种模态的特征值，模态Y的特征数据用于指导模态X的特征注意力学习，其中模态Y作为Attention计算公式的K和V，模态X作为主体Q，MA单元学习特征集X单一元素和特征集Y所有元素的成对样本＜x，y_j＞之间的关系，利用Y指导X学习，最终输出Attention(MA)，即输入模态x_i与输入的模态Y所有样本特征交叉后的相似度重构集合。

协同注意力网络层构建，将两种元注意力单元进行模块化组合，得到新的协同注意力网络层如图3，共包含两个SA元注意力单元和两个MA元注意力单元，其实现分三个步骤：

模型模拟人类“先看图像，然后带着图像信息浏览问题”的自然行为：使用MA(Text)单元，经自注意力处理后的图像特征作为“指导”提供MA单元所需的K、V向量，自注意力处理后的文本特征作为MA单元所需的Q向量，实现协同注意力建模，完成协同注意力网络层的第一次跨模态特征交互。

(X^num，Y^num)＝CAL_num(X^num-1，Y^num-1)

和

特征融合与分类预测输出，图像特征X和问题特征Y进行协同注意力学习后，输出的图像特征

和文本特征

其中

E[x]和Var[x]分别为处理数据的期望方差，∈为常量取1e-7。

以下通过仿真实验对本发明一种基于多模态深度特征融合的视觉问答方法及其模型作进一步说明：

为了验证本发明一种基于多模态深度特征融合的视觉问答方法及其模型的有效性，进行了基于VQA-v2.0数据集的模型实验和分析评估。采用Pytorch1.8-cuda10-gpu-vnc作为深度学习模型的框架。实验硬件环境为：CPU共4Core，运行内存8GB，GPU共1Core，类型为TITAN_V，存储内存大小256GB。此外，将本发明与以下两种现有技术中的模型进行比较，以下两种现有技术如下：

MFB模型：在基本的多模态双线性池化方法的基础上，增加了协同注意力机制，分别学习文本注意力和图像注意力。

MFH模型：是MFB模型的改进，将原操作细化成扩张和压缩两个阶段，通过基础注意力层的堆叠计算得到更高阶的信息。

模型使用VQAv2.0数据集，该数据集是视觉问答任务中使用最为广泛的数据集。实验使用的数据分为两个部分：443757个训练问题对应4437570个训练答案；214354个测试问题对应2143540个测试答案。

数据集中每个问题包含10个参考答案，出现次数最多的答案被确认为标准答案。只需将CDI-VQA模型预测得到的问题答案与标准答案进行对比，并将模型所有问题的预测结果进行总结，就能计算得到模型的评价指标：准确率(Accuracy,简称Acc)。由于VQAv2.0数据集的问题种类超过了20种，模型对不同类型问题预测正确答案的难易程度是不同的，因此方法模型针对性地选出若干种具有代表性的问题的类型，分别计算这些类型的问题通过深度学习预测的回答与它们的标准答案之间的准确率的关系。将答案类型中的“是/否”(yes/no)和“数字”(number)分别作为一类，将其它类型的答案归为“其他”(other)一类，共同参与学习结果的评估。模型性能评估所使用的评价指标就是上述的不同类型的准确率，如表1所示：

表1

实验一：

实验基于深度注意力网络中的协同注意力层数Num对方法模型的性能影响进行了对比分析。具体方法为：通过Num取不同的值，得到的不同模型的准确率结果如表2所示：

表2

针对不同问题分别绘制出折线图如图4所示。图4(a)为层数对模型处理所有类型(All)问题的准确率，图4(b)为层数对模型处理Other类型问题的准确率，图4(c)为层数对模型处理Yes/No类型问题的准确率，图4(d)为层数对模型处理Number类型问题的准确率。

对于所有问题的平均准确率综合反映了模型的准确性能。Num从2开始上升，模型输出准确率上升，在Num＝4、5、6时准确率饱和；Num>6后，协同注意力层数过多，准确率下降，模型性能下降。

层数Num对方法模型处理Other类型问题的平均准确率的影响与处理所有问题的影响类似，表明了选取问题的合理性。

层数Num对方法模型处理Yes/No类型问题的平均准确率的影响不大：Num改变模型对应输出的准确率较稳定。

对于Number类型问题，随着层数Num，输出准确率同样随着Num的上升提高，当Num>6后如果再次提高层数，模型对应输出的准确率会下降。

Num取值对模型的批处理速度的影响为：随着Num的提升，模型处理单个batch所花的时间不断增大(Speed(s/batch))。

实验二：

通过实验一的对比分析，发现Num取值为4、5、6时都获得了表现更佳的准确率结果。因此将Num＝{4,5,6}对应的三种CDI-VQA模型与基线模型：MFB模型和MFH模型在相同的部署环境和设备条件下进行了比较。实验结果如表3所示：

表3

从表3结果表明，本方法模型(S2M2A)准确率高于其它两种基线模型，性能更优。

综上，本方法模型相较于现有方法在模型处理各类问题的准确率上持有更高的准确率，模型性能更优。

以上对本发明的有关内容进行了说明。本领域普通技术人员在基于这些说明的情况下将能够实现本发明。基于本发明的上述内容，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

Claims

1.一种基于多模态深度特征融合的视觉问答方法，其特征在于，包括以下步骤：

(1)使用卷积神经网络和长短时记忆网络分别获取图像和文本两种模态数据特征；

(2)利用获取的图像和文本两种模态数据特征进行模态内部和模态间的注意力建模，构建注意力网络并将注意力层串联堆叠，其中两种模态特征相互作为注意力权重学习的参考进行更深度的特征交互；

2.如权利要求1所述的一种基于多模态深度特征融合的视觉问答方法，其特征在于，所述步骤(1)具体包括：对输入的图像X_in，使用开源的Faster-RCNN模型进行学习训练，得到图像特征

d_y＝512是输入图像特征的维度。

3.如权利要求2所述的一种基于多模态深度特征融合的视觉问答方法，其特征在于，所述步骤(2)具体包括：

SA和MA元注意力单元设计：

基于“多头”注意力(Multi-head attention)机制，构建了自注意力SA(self-attention)和交互注意力MA(mutual-attention)两类元注意力单元，用于协同注意力网络层的模块化组合，“多头”注意力的计算公式如下所示：

MultiHead(Q,K,V)＝＝Concat(head₁,…,head_h)W^O

映射得到新的Q、K、V以计算相应的Attention值，计算公式为：

在“多头”注意力机制基础上建立SA元注意力单元，该单元仅使用一种模态X输入后作为Attention计算公式的Q、K、V，单元通过“多头”注意力层获取self-attention，学习特征集X内成对样本<x_i,x_j>之间的关系，对所有成对实例相似度的加权求和得到注意力处理后的特征，特征信息随后进入使用RELU激活函数的全连接层和一个用于归一化的全连接层，实现特征的空间变换，最终输出得到Attention(SA)，它是所有x_i分别与输入的模态X所有特征之间的相似度重构集合；

同理建立MA元注意力单元，MA元注意力单元与SA不同的地方在于，输入使用了X和Y两种模态的特征值，模态Y的特征数据用于指导模态X的特征注意力学习，其中模态Y作为Attention计算公式的K和V，模态X作为主体Q，MA单元学习特征集X单一元素和特征集Y所有元素的成对样本<x,y_j>之间的关系，利用Y指导X学习，最终输出Attention(MA)，即输入模态x_i与输入的模态Y所有样本特征交叉后的相似度重构集合；

协同注意力网络层构建，将两种元注意力单元进行模块化组合，得到新的协同注意力网络层，共包含两个SA元注意力单元和两个MA元注意力单元，其实现分三个步骤：

(X^num,Y^num)＝CAL_num(X^num-1,Y^num-1)

和

4.如权利要求3所述的一种基于多模态深度特征融合的视觉问答方法，其特征在于，所述步骤(3)具体包括：特征融合与分类预测输出，对图像特征X和问题特征Y进行协同注意力学习后，输出的图像特征

和文本特征

其中e为自然常数，利用上述归一化的权重概率对特征加权求和得到最终的图像特征x^*和问题特征y^*，公式如下所示：

其中

是两个线性投影矩阵，由融合前设置的全连接层的参数设定，d_res是融合特征res的共同维度，实验设置为1024，LayerNorm层在输入序列张量的最后一个维度上求均值和方差，然后对融合特征标准化，计算公式如下：

E[x]和Var[x]分别为处理数据的期望方差，∈为常量取1e-7；

5.一种基于多模态深度特征融合的视觉问答方法及其模型，其特征在于，包括：

6.如权利要求5所述的一种基于多模态深度特征融合的视觉问答模型，其特征在于，所述图像特征抽取模块具体用于：对输入的图像X_in，使用开源的Faster-RCNN模型进行学习训练，得到图像特征

d_y＝512是输入图像特征的维度。

7.如权利要求6所述的一种基于多模态深度特征融合的视觉问答模型，其特征在于，协同注意力网络层通过SA元注意力单元和两个MA元注意力单元通过模块化组合构成；

MultiHead(Q,K,V)＝＝Concat(head₁,…,head_h)W^O

映射得到新的Q、K、V以计算相应的Attention值，计算公式为：

SA元注意力单元仅使用一种模态X输入后作为Attention计算公式的Q、K、V，单元通过“多头”注意力层获取self-attention，学习特征集X内成对样本<x_i,x_j>之间的关系，对所有成对实例相似度的加权求和得到注意力处理后的特征，特征信息随后进入使用RELU激活函数的全连接层和一个用于归一化的全连接层，实现特征的空间变换，最终输出得到Attention(SA)，它是所有x_i分别与输入的模态X所有特征之间的相似度重构集合；

MA元注意力单元输入使用了X和Y两种模态的特征值，模态Y的特征数据用于指导模态X的特征注意力学习，其中模态Y作为Attention计算公式的K和V，模态Y作为主体Q，MA单元学习特征集X单一元素和特征集Y所有元素的成对样本<x,y_j>之间的关系，利用Y指导X学习，最终输出Attention(MA)，即输入模态x_i与输入的模态Y所有样本特征交叉后的相似度重构集合；

(X^num,Y^num)＝CAL_num(X^num-1,Y^num-1)

和

8.如权利要求7所述的一种基于多模态深度特征融合的视觉问答模型，其特征在于，特征融合与分类预测输出模块具体用于对图像特征X和问题特征Y进行协同注意力学习后，输出的图像特征

和文本特征

其中

E[x]和Var[x]分别为处理数据的期望方差，∈为常量取1e-7；