CN114398961A - 一种基于多模态深度特征融合的视觉问答方法及其模型 - Google Patents

一种基于多模态深度特征融合的视觉问答方法及其模型 Download PDF

Info

Publication number
CN114398961A
CN114398961A CN202111624056.0A CN202111624056A CN114398961A CN 114398961 A CN114398961 A CN 114398961A CN 202111624056 A CN202111624056 A CN 202111624056A CN 114398961 A CN114398961 A CN 114398961A
Authority
CN
China
Prior art keywords
attention
feature
image
input
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111624056.0A
Other languages
English (en)
Other versions
CN114398961B (zh
Inventor
杜圣东
邹芸竹
李天瑞
张凡
张晓博
赵小乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Jiaotong University
Original Assignee
Southwest Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Jiaotong University filed Critical Southwest Jiaotong University
Priority to CN202111624056.0A priority Critical patent/CN114398961B/zh
Publication of CN114398961A publication Critical patent/CN114398961A/zh
Application granted granted Critical
Publication of CN114398961B publication Critical patent/CN114398961B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多模态深度特征融合的视觉问答方法,包括以下步骤:(1)使用卷积神经网络和长短时记忆网络分别获取图像和文本两种模态数据特征,然后利用获取的图像和文本两种模态数据特征进行模态内部和模态间的注意力建模;(2)构建注意力网络并将注意力层串联堆叠,其中两种模态特征相互作为注意力权重学习的参考进行更深度的特征交互;(3)通过多模态融合函数融合注意力加权后的图像信息和文本语义,并将融合特征传入分类器结合答案文本数据预测结果。除此之外本发明还公开了一种基于多模态深度特征融合的视觉问答模型。本发明相较于现有方法具有稳定性好、预测准确率更高、实验硬件环境要求更低等优点。

Description

一种基于多模态深度特征融合的视觉问答方法及其模型
技术领域
本发明涉及多模态数据融合研究相关的视觉问答领域,具体涉及一种基于多模态深度特征融合的视觉问答方法及其模型,
背景技术
视觉问答是指:给定一张图片和图片相关的问题,视觉问答的目标是结合图片的视觉信息和文本内容,通过对图像和文本进行深度的特征融合处理以获得问题的答案。
视觉问答早期研究采用的跨模态交互方法为基于简单的特征组合。比如将词袋模型表示的问题特征与图像的卷积特征直接拼接整合,输入到逻辑回归分类器中;又比如使用哈达玛积的方式对图文特征进行组合。这些基于简单特征组合的模型几乎没有关注参数之间的联系,需要通过后续的网络层对组合操作进行自适应,实际模型表现不佳。
后来研究者往往将图像和文本两种模态联合嵌入到公共特征空间得到全局特征,再使用融合模型进行分类预测。比如使用池化方法将高维空间内联合表示的两种特征向量做傅里叶变换实现多模态特征的组合。为了更好获得图像和文本特征的关键信息,减小特征损失,注意力机制被广泛应用于视觉问答模型。比如构建一个堆叠的注意力网络SANs用于迭代学习图像特征,加强对图像关键信息的获取;又比如建立线性池化思想与注意力机制结合的深度学习模型,分别计算两种模态的注意力信息用于模态特征的融合。再比如在上述模型基础上进行改进,将双线性池化的步骤细化为扩张和压缩两个阶段,对基础注意力层堆叠计算得到更高阶的信息。然而上述方法主要还是多模态特征的浅层交互,难以对图像和问题关键词之间的深层特征关系进行融合表示和学习推断。
综上可见,当前的视觉问答模型因存在易损失关键特征信息、跨模态特征无法密切交互等问题,在实际应用中表现不佳。针对上述关键问题,本发明设计了一种基于多模态深度特征融合的视觉问答模型。
发明内容
为了解决当前的视觉问答模型因存在易损失关键特征信息、跨模态特征无法密切交互等问题,本发明公开了一种基于多模态深度特征融合的视觉问答方法。
本发明一方面提供了一种基于多模态深度特征融合的视觉问答方法,包括以下步骤:
(1)使用卷积神经网络和长短时记忆网络分别获取图像和文本两种模态数据特征,然后利用获取的图像和文本两种模态数据特征进行模态内部和模态间的注意力建模;
(2)构建注意力网络并将注意力层串联堆叠,其中两种模态特征相互作为注意力权重学习的参考进行更深度的特征交互;
(3)通过多模态融合函数融合注意力加权后的图像信息和文本语义,并将融合特征传入分类器结合答案文本数据预测结果。
该模型相较于现有方法具有稳定性好、预测准确率更高、实验硬件环境要求更低等优点。
进一步地,步骤(1)具体包括:图像文本特征抽取,对模型的输入数据进行特征抽取表示,对输入的图像Xin,使用开源的Faster-RCNN模型进行学习训练,得到图像特征
Figure BDA0003439176590000021
它是VQA数据集的图像区域视觉特征的集合,dx=2048是输入图像特征的维度;对输入的问题文本Yin,首先进行文本预处理划分单词,使用开源的GloVe模型实现基于单词级的输入embedding,然后输入到LSTM网络,抽取出问题文本特征
Figure BDA0003439176590000031
dy=512是输入图像特征的维度。
SA和MA元注意力单元设计,基于“多头”注意力(Multi-head attention)机制,构建了自注意力SA(self-attention)和交互注意力MA(mutual-attention)两类元注意力单元,用于协同注意力网络层的模块化组合,“多头”注意力的计算公式如下所示:
MultiHead(Q,K,V)==Concat(head1,…,headh)WO
Figure BDA0003439176590000032
其原理是在点积注意力的基础上,将各输入向量按“头”的个数等分为h份,对等分后的h份数据分别通过不同的权重
Figure BDA0003439176590000033
映射得到新的Q、K、V以计算相应的Attention值,计算公式为:
Figure BDA0003439176590000034
将分割计算的结果重新链接,映射到原始的向量维度,得到注意力特征结果;
其中z是归一化因子,K、V是注意力宏观理解下的Key-Value对,此处是神经网络输入的一种模态特征数据,二者等价;神经网络输入的第二种模态特征数据Q作为主体接受K、V指导,通过计算与K内积后Softmax的结果,得到相似度概率,最后加权求和得到注意力向量。因子
Figure BDA0003439176590000035
起到调节作用,保证分式上方结果不至于太大;
在“多头”注意力机制基础上建立SA元注意力单元如图2左。该单元仅使用一种模态X输入后作为Attention计算公式的Q、K、V,单元通过“多头”注意力层获取self-attention,学习特征集X内成对样本<xi,xj>之间的关系,对所有成对实例相似度的加权求和得到注意力处理后的特征。特征信息随后进入使用RELU激活函数的全连接层和一个用于归一化的全连接层,实现特征的空间变换。最终输出得到Attention(SA),它是所有xi分别与输入的模态X所有特征之间的相似度重构集合;
同理建立MA元注意力单元,MA元注意力单元与SA不同的地方在于,输入使用了X和Y两种模态的特征值,模态Y的特征数据用于指导模态X的特征注意力学习,其中模态Y作为Attention计算公式的K和V,模态X作为主体Q,MA单元学习特征集X单一元素和特征集Y所有元素的成对样本<x,yj>之间的关系,利用Y指导X学习,最终输出Attention(MA),即输入模态xi与输入的模态Y所有样本特征交叉后的相似度重构集合。
进一步地,所述步骤(2)具体包括:协同注意力网络层构建,将两种元注意力单元进行模块化组合,得到新的协同注意力网络层,共包含两个SA元注意力单元和两个MA元注意力单元,其实现分三个步骤:
SA(Text)单元和SA(Image)单元并行化处理,分别实现文本与图像内部的自注意力特征建模,有利于单模态内全局信息的捕捉和关键特征的获取。
模型模拟人类“先看图像,然后带着图像信息浏览问题”的自然行为:使用MA(Text)单元,经自注意力处理后的图像特征作为“指导”提供MA单元所需的K、V向量,自注意力处理后的文本特征作为MA单元所需的Q向量,实现协同注意力建模,完成协同注意力网络层的第一次跨模态特征交互;
实现协同注意力层内的第二次跨模态特征交互:使用MA(Image)单元利用文本特征帮助获取图像关键区域特征信息,此时由第二步协同注意处理后的文本特征提供K、V向量,自注意力处理后的图像特征作为协同注意力单元主体。
单个协同注意力网络层输出的结果可以作为新的协同注意力层的输入,将多个注意力层可以串联堆叠,得到最终的深度串联注意力学习网络。协同注意力层(Co-AttentionLayer)简写为CAL,设模型共有Num层,记作CALNum,第num层可表示为CALnum,其输入图像特征和问题特征分别表示为Xnum-1,Ynum-1,作为下一个串联CAL层的输入,公式表达如下所示:
(Xnum,Ynum)=CALnum(Xnum-1,Ynum-1)
对于CAL1,其输入图像特征和文本特征分别为X0=X及Y0=Y。
深度串联注意力学习网络的输出为
Figure BDA0003439176590000051
Figure BDA0003439176590000052
进一步地,所述步骤(3)具包括:特征融合与分类预测输出,对图像特征X和问题特征Y进行协同注意力学习后,输出的图像特征
Figure BDA0003439176590000053
和文本特征
Figure BDA0003439176590000054
各自携带有丰富的图像区域和问题单词的注意力权重信息。使用MLP学习,得到归一化的权重概率,公式如下所示:
Figure BDA0003439176590000055
Figure BDA0003439176590000056
其中e为自然常数。利用上述归一化的权重概率对特征加权求和得到最终的图像特征x*和问题特征y*,公式如下所示:
Figure BDA0003439176590000057
Figure BDA0003439176590000058
然后基于双线性池化(Bilinear Pooling)的思想,将计算得到的图像特征x*和问题特征y*使用融合函数进行融合,计算公式如下所示:
Figure BDA0003439176590000059
其中
Figure BDA0003439176590000061
是两个线性投影矩阵,由融合前设置的全连接层的参数设定,dres是融合特征res的共同维度,实验设置为1024。LayerNorm层在输入序列张量的最后一个维度上求均值和方差,然后对融合特征标准化,计算公式如下:
Figure BDA0003439176590000062
E[x]和Var[x]分别为处理数据的期望方差,∈为常量取1e-7。
模态特征融合后得到融合特征res,随后进入N-分类器(Classifier),建立输入融合特征res和输出预测答案result之间的映射关系,其中N是训练集使用的答案(Answer)标签中出现频率较高的标签数量,由深度学习开源库OpenVQA平台提供。损失函数使用交叉熵损失函数,公式如下所示:
Figure BDA0003439176590000063
N即标签数量,yv是对样本预测的结果标记,pv代表了预测分类结果为第v类的概率
本发明另一方面还提供了一种基于多模态深度特征融合的视觉问答模型,包括:
图像特征抽取模块,用于使用卷积神经网络和长短时记忆网络分别获取图像和文本两种模态数据特征;
与图像特征抽取模块相连的协同注意力网络层,用于利用获取的图像和文本两种模态数据特征进行模态内部和模态间的注意力建模,构建注意力网络并将注意力层串联堆叠,其中两种模态特征相互作为注意力权重学习的参考进行更深度的特征交互;
与协同注意力网络层相连的特征融合与分类预测输出模块,用于通过多模态融合函数融合注意力加权后的图像信息和文本语义,并将融合特征传入分类器结合答案文本数据预测结果。
进一步地,所述图像特征抽取模块具体用于:对输入的图像Xin,使用开源的Faster-RCNN模型进行学习训练,得到图像特征
Figure BDA0003439176590000071
它是VQA数据集的图像区域视觉特征的集合,dx=2048是输入图像特征的维度;对输入的问题文本Yin,首先进行文本预处理划分单词,使用开源的GloVe模型实现基于单词级的输入embedding,然后输入到LSTM网络,抽取出问题文本特征
Figure BDA0003439176590000072
Figure BDA0003439176590000073
dy=512是输入图像特征的维度。
进一步地,协同注意力网络层通过SA元注意力单元和两个MA元注意力单元通过模块化组合构成;
其中,SA元注意力单元和两个MA元注意力单元均基于“多头”注意力机制构建,“多头”注意力的计算公式如下所示:
MultiHead(Q,K,V)==Concat(head1,…,headh)WO
Figure BDA0003439176590000076
其原理是在点积注意力的基础上,将各输入向量按“头”的个数等分为h份,对等分后的h份数据分别通过不同的权重
Figure BDA0003439176590000074
映射得到新的Q、K、V以计算相应的Attention值,计算公式为:
Figure BDA0003439176590000075
将分割计算的结果重新链接,映射到原始的向量维度,得到注意力特征结果;
其中z是归一化因子,K、V是注意力宏观理解下的Key-Value对;神经网络输入的第二种模态特征数据Q作为主体接受K、V指导,通过计算与K内积后Softmax的结果,得到相似度概率,最后加权求和得到注意力向量;
SA元注意力单元仅使用一种模态X输入后作为Attention计算公式的Q、K、V,单元通过“多头”注意力层获取self-attention,学习特征集X内成对样本<xi,xj>之间的关系,对所有成对实例相似度的加权求和得到注意力处理后的特征,特征信息随后进入使用RELU激活函数的全连接层和一个用于归一化的全连接层,实现特征的空间变换,最终输出得到Attention(SA),它是所有xi分别与输入的模态X所有特征之间的相似度重构集合;
MA元注意力单元输入使用了X和Y两种模态的特征值,模态Y的特征数据用于指导模态X的特征注意力学习,其中模态Y作为Attention计算公式的K和V,模态X作为主体Q,MA单元学习特征集X单一元素和特征集Y所有元素的成对样本<x,yj>之间的关系,利用Y指导X学习,最终输出Attention(MA),即输入模态xi与输入的模态Y所有样本特征交叉后的相似度重构集合;
其中SA元注意力单元和两个MA元注意力单元通过模块化组合步骤包括:
模型模拟人类“先看图像,然后带着图像信息浏览问题”的自然行为:使用MA(Text)单元,经自注意力处理后的图像特征作为“指导”提供MA单元所需的K、V向量,自注意力处理后的文本特征作为MA单元所需的Q向量,实现协同注意力建模,完成协同注意力网络层的第一次跨模态特征交互;
实现协同注意力层内的第二次跨模态特征交互:使用MA(Image)单元利用文本特征帮助获取图像关键区域特征信息,此时由第二步协同注意处理后的文本特征提供K、V向量,自注意力处理后的图像特征作为协同注意力单元主体;
单个协同注意力网络层输出的结果可以作为新的协同注意力层的输入,将多个注意力层可以串联堆叠,得到最终的深度串联注意力学习网络,协同注意力层(Co-AttentionLayer)简写为CAL,设模型共有Num层,记作CALNum,第num层可表示为CALnum,其输入图像特征和问题特征分别表示为Xnum-1,Ynum-1,作为下一个串联CAL层的输入,公式表达如下所示:
(Xnum,Ynum)=CALnum(Xnum-1,Ynum-1)
对于CAL1,其输入图像特征和文本特征分别为X0=X及Y0=Y,深度串联注意力学习网络的输出为
Figure BDA0003439176590000091
Figure BDA0003439176590000092
进一步地,特征融合与分类预测输出模块具体用于对图像特征X和问题特征Y进行协同注意力学习后,输出的图像特征
Figure BDA0003439176590000093
和文本特征
Figure BDA0003439176590000094
Figure BDA0003439176590000095
各自携带有丰富的图像区域和问题单词的注意力权重信息,使用MLP学习,得到归一化的权重概率,公式如下所示:
Figure BDA0003439176590000096
Figure BDA0003439176590000097
其中e为自然常数。利用上述归一化的权重概率对特征加权求和得到最终的图像特征x*和问题特征y*,公式如下所示:
Figure BDA0003439176590000098
Figure BDA0003439176590000099
然后基于双线性池化(Bilinear Pooling)的思想,将计算得到的图像特征x*和问题特征y*使用融合函数进行融合,计算公式如下所示:
Figure BDA00034391765900000910
其中
Figure BDA00034391765900000911
是两个线性投影矩阵,由融合前设置的全连接层的参数设定,dres是融合特征res的共同维度,实验设置为1024。LayerNorm层在输入序列张量的最后一个维度上求均值和方差,然后对融合特征标准化,计算公式如下:
Figure BDA0003439176590000101
E[x]和Var[x]分别为处理数据的期望方差,∈为常量取1e-7;
模态特征融合后得到由包含图像与问题文本相关信息的融合特征res,随后模型接入N-分类器(Classifier),建立输入融合特征res和输出预测答案result之间的映射关系,其中N是训练集使用的答案(Answer)标签中出现频率较高的标签数量,由深度学习开源库OpenVQA平台提供;损失函数使用交叉熵损失函数,公式如下所示:
Figure BDA0003439176590000102
N即标签数量,yv是对样本预测的结果标记,pv代表了预测分类结果为第v类的概率。
该模型针对当前视觉问答模型容易损失关键特征信息、跨模态特征无法密切交互两大问题,提出了一种多模态深度特征融合的视觉问答模型CDI-VQA。
与现有技术相比,本发明的有益效果在于:
一、本发明使用从图像和文本数据中抽取的特征进行模态内部及模态之间的注意力建模,有利于单模态内全局信息的捕捉和关键特征的获取;有利于跨模态特征之间进行密切地交互;
二、本发明较现有技术实现了多模态特征之间的密切交互,三步实现步骤包括两次跨模态交互,模拟了人对图像问题的思考方式,图像特征与文本特征各自指导了对方的注意力权重学习,实现了真正意义上的深度特征融合。
三、方法模型将多个协同注意力层串联堆叠,上一个协同注意力层的输出作为下一协同注意力层的输入,提高了预测准确率,提升了模型的性能。
下面结合附图和具体实施方式对本发明做进一步的说明。本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的附图用来辅助对本发明的理解,附图中所提供的内容及其在本发明中有关的说明可用于解释本发明,但不构成对本发明的不当限定。在附图中:
图1为本发明一种基于多模态深度特征融合的视觉问答模型的结构图。
图2为基于“多头”注意力机制的元注意力单元结构图。
图3为基于SA和MA单元组合建立的协同注意力网络层结构图。
图4为在不同协同注意力层数的条件下对本发明一种基于多模态深度特征融合的视觉问答模型性能影响结果示意图。
具体实施方式
下面结合附图对本发明进行清楚、完整的说明。本领域普通技术人员在基于这些说明的情况下将能够实现本发明。在结合附图对本发明进行说明前,需要特别指出的是:
本发明中在包括下述说明在内的各部分中所提供的技术方案和技术特征,在不冲突的情况下,这些技术方案和技术特征可以相互组合。
此外,下述说明中涉及到的本发明的实施例通常仅是本发明一部分的实施例,而不是全部的实施例。因此,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
术语“MLP”指的是多层神经网络。
本发明一方面提供了一种基于多模态深度特征融合的视觉问答方法,包括以下步骤:
(1)使用卷积神经网络和长短时记忆网络分别获取图像和文本两种模态数据特征,然后利用获取的图像和文本两种模态数据特征进行模态内部和模态间的注意力建模;
(2)构建注意力网络并将注意力层串联堆叠,其中两种模态特征相互作为注意力权重学习的参考进行更深度的特征交互;
(3)通过多模态融合函数融合注意力加权后的图像信息和文本语义,并将融合特征传入分类器结合答案文本数据预测结果。
该模型相较于现有方法具有稳定性好、预测准确率更高、实验硬件环境要求更低等优点。
步骤(1)具体包括:图像文本特征抽取,对模型的输入数据进行特征抽取表示,对输入的图像Xin,使用开源的Faster-RCNN模型进行学习训练,得到图像特征
Figure BDA0003439176590000121
它是VQA数据集的图像区域视觉特征的集合,dx=2048是输入图像特征的维度;对输入的问题文本Yin,首先进行文本预处理划分单词,使用开源的GloVe模型实现基于单词级的输入embedding,然后输入到LSTM网络,抽取出问题文本特征
Figure BDA0003439176590000122
dy=512是输入图像特征的维度。。
SA和MA元注意力单元设计,基于“多头”注意力(Multi-head attention)机制,构建了自注意力SA(self-attention)和交互注意力MA(mutual-attention)两类元注意力单元,用于协同注意力网络层的模块化组合,“多头”注意力的计算公式如下所示:
MultiHead(Q,K,V)==Concat(head1,…,headh)WO
Figure BDA0003439176590000131
其原理是在点积注意力的基础上,将各输入向量按“头”的个数等分为h份,对等分后的h份数据分别通过不同的权重
Figure BDA0003439176590000132
映射得到新的Q、K、V以计算相应的Attention值,计算公式为:
Figure BDA0003439176590000133
将分割计算的结果重新链接,映射到原始的向量维度,得到注意力特征结果;
其中z是归一化因子,K、V是注意力宏观理解下的Key-Value对,此处是神经网络输入的一种模态特征数据,二者等价;神经网络输入的第二种模态特征数据Q作为主体接受K、V指导,通过计算与K内积后Softmax的结果,得到相似度概率,最后加权求和得到注意力向量。因子
Figure BDA0003439176590000134
起到调节作用,保证分式上方结果不至于太大;
在“多头”注意力机制基础上建立SA元注意力单元如图2左。该单元仅使用一种模态X输入后作为Attention计算公式的Q、K、V,单元通过“多头”注意力层获取self-attention,学习特征集X内成对样本<xi,xj>之间的关系,对所有成对实例相似度的加权求和得到注意力处理后的特征。特征信息随后进入使用RELU激活函数的全连接层和一个用于归一化的全连接层,实现特征的空间变换。最终输出得到Attention(SA),它是所有xi分别与输入的模态X所有特征之间的相似度重构集合;
同理建立MA元注意力单元,MA元注意力单元与SA不同的地方在于,输入使用了X和Y两种模态的特征值,模态Y的特征数据用于指导模态X的特征注意力学习,其中模态Y作为Attention计算公式的K和V,模态X作为主体Q,MA单元学习特征集X单一元素和特征集Y所有元素的成对样本<x,yj>之间的关系,利用Y指导X学习,最终输出Attention(MA),即输入模态xi与输入的模态Y所有样本特征交叉后的相似度重构集合。
所述步骤(2)具体包括:协同注意力网络层构建,将两种元注意力单元进行模块化组合,得到新的协同注意力网络层如图3,共包含两个SA元注意力单元和两个MA元注意力单元,其实现分三个步骤:
SA(Text)单元和SA(Image)单元并行化处理,分别实现文本与图像内部的自注意力特征建模,有利于单模态内全局信息的捕捉和关键特征的获取。
模型模拟人类“先看图像,然后带着图像信息浏览问题”的自然行为:使用MA(Text)单元,经自注意力处理后的图像特征作为“指导”提供MA单元所需的K、V向量,自注意力处理后的文本特征作为MA单元所需的Q向量,实现协同注意力建模,完成协同注意力网络层的第一次跨模态特征交互;
实现协同注意力层内的第二次跨模态特征交互:使用MA(Image)单元利用文本特征帮助获取图像关键区域特征信息,此时由第二步协同注意处理后的文本特征提供K、V向量,自注意力处理后的图像特征作为协同注意力单元主体。
单个协同注意力网络层输出的结果可以作为新的协同注意力层的输入,将多个注意力层可以串联堆叠,得到最终的深度串联注意力学习网络,协同注意力层(Co-AttentionLayer)简写为CAL,设模型共有Num层,记作CALNum,第num层可表示为CALnum,其输入图像特征和问题特征分别表示为Xnum-1,Ynum-1,作为下一个串联CAL层的输入,公式表达如下所示:
(Xnum,Ynum)=CALnum(Xnum-1,Ynum-1)
对于CAL1,其输入图像特征和文本特征分别为X0=X及Y0=Y,
深度串联注意力学习网络的输出为
Figure BDA0003439176590000151
Figure BDA0003439176590000152
进一步地,所述步骤(3)具包括:特征融合与分类预测输出,对图像特征X和问题特征Y进行协同注意力学习后,输出的图像特征
Figure BDA0003439176590000153
和文本特征
Figure BDA0003439176590000154
各自携带有丰富的图像区域和问题单词的注意力权重信息,使用MLP学习,得到归一化的权重概率,公式如下所示:
Figure BDA0003439176590000155
Figure BDA0003439176590000156
其中e为自然常数。利用上述归一化的权重概率对特征加权求和得到最终的图像特征x*和问题特征y*,公式如下所示:
Figure BDA0003439176590000157
Figure BDA0003439176590000158
然后基于双线性池化(Bilinear Pooling)的思想,将计算得到的图像特征x*和问题特征y*使用融合函数进行融合,计算公式如下所示:
Figure BDA0003439176590000159
其中
Figure BDA00034391765900001510
是两个线性投影矩阵,由融合前设置的全连接层的参数设定,dres是融合特征res的共同维度,实验设置为1024。LayerNorm层在输入序列张量的最后一个维度上求均值和方差,然后对融合特征标准化,计算公式如下:
Figure BDA0003439176590000161
E[x]和Var[x]分别为处理数据的期望方差,∈为常量取1e-7;
模态特征融合后得到由包含图像与问题文本相关信息的融合特征res,随后模型接入N-分类器(Classifier),建立输入融合特征res和输出预测答案result之间的映射关系,其中N是训练集使用的答案(Answer)标签中出现频率较高的标签数量,由深度学习开源库OpenVQA平台提供;损失函数使用交叉熵损失函数,公式如下所示:
Figure BDA0003439176590000162
N即标签数量,yv是对样本预测的结果标记,pv代表了预测分类结果为第v类的概率。
本发明另一方面还提供了一种基于多模态深度特征融合的视觉问答模型,包括:
图像特征抽取模块,用于使用卷积神经网络和长短时记忆网络分别获取图像和文本两种模态数据特征;
与图像特征抽取模块相连的协同注意力网络层,用于利用获取的图像和文本两种模态数据特征进行模态内部和模态间的注意力建模,构建注意力网络并将注意力层串联堆叠,其中两种模态特征相互作为注意力权重学习的参考进行更深度的特征交互;
与协同注意力网络层相连的特征融合与分类预测输出模块,用于通过多模态融合函数融合注意力加权后的图像信息和文本语义,并将融合特征传入分类器结合答案文本数据预测结果。
所述图像特征抽取模块具体用于:对输入的图像Xin,使用开源的Faster-RCNN模型进行学习训练,得到图像特征
Figure BDA0003439176590000171
它是VQA数据集的图像区域视觉特征的集合,dx=2048是输入图像特征的维度;对输入的问题文本Yin,首先进行文本预处理划分单词,使用开源的GloVe模型实现基于单词级的输入embedding,然后输入到LSTM网络,抽取出问题文本特征
Figure BDA0003439176590000172
Figure BDA0003439176590000173
dy=512是输入图像特征的维度。
协同注意力网络层通过SA元注意力单元和两个MA元注意力单元通过模块化组合构成;
其中,SA元注意力单元和两个MA元注意力单元均基于“多头”注意力机制构建,“多头”注意力的计算公式如下所示:
MultiHead(Q,K,V)==Concat(head1,…,headh)WO
Figure BDA0003439176590000174
其原理是在点积注意力的基础上,将各输入向量按“头”的个数等分为h份,对等分后的h份数据分别通过不同的权重
Figure BDA0003439176590000175
映射得到新的Q、K、V以计算相应的Attention值,计算公式为:
Figure BDA0003439176590000176
将分割计算的结果重新链接,映射到原始的向量维度,得到注意力特征结果;
其中z是归一化因子,K、V是注意力宏观理解下的Key-Value对;神经网络输入的第二种模态特征数据Q作为主体接受K、V指导,通过计算与K内积后Softmax的结果,得到相似度概率,最后加权求和得到注意力向量;
SA元注意力单元仅使用一种模态X输入后作为Attention计算公式的Q、K、V,单元通过“多头”注意力层获取self-attention,学习特征集X内成对样本<xi,xj>之间的关系,对所有成对实例相似度的加权求和得到注意力处理后的特征,特征信息随后进入使用RELU激活函数的全连接层和一个用于归一化的全连接层,实现特征的空间变换,最终输出得到Attention(SA),它是所有xi分别与输入的模态X所有特征之间的相似度重构集合;
MA元注意力单元输入使用了X和Y两种模态的特征值,模态Y的特征数据用于指导模态X的特征注意力学习,其中模态Y作为Attention计算公式的K和V,模态X作为主体Q,MA单元学习特征集X单一元素和特征集Y所有元素的成对样本<x,yj>之间的关系,利用Y指导X学习,最终输出Attention(MA),即输入模态xi与输入的模态Y所有样本特征交叉后的相似度重构集合;
其中SA元注意力单元和两个MA元注意力单元通过模块化组合步骤包括:
模型模拟人类“先看图像,然后带着图像信息浏览问题”的自然行为:使用MA(Text)单元,经自注意力处理后的图像特征作为“指导”提供MA单元所需的K、V向量,自注意力处理后的文本特征作为MA单元所需的Q向量,实现协同注意力建模,完成协同注意力网络层的第一次跨模态特征交互;
实现协同注意力层内的第二次跨模态特征交互:使用MA(Image)单元利用文本特征帮助获取图像关键区域特征信息,此时由第二步协同注意处理后的文本特征提供K、V向量,自注意力处理后的图像特征作为协同注意力单元主体;
单个协同注意力网络层输出的结果可以作为新的协同注意力层的输入,将多个注意力层可以串联堆叠,得到最终的深度串联注意力学习网络,协同注意力层(Co-AttentionLayer)简写为CAL,设模型共有Num层,记作CALNum,第num层可表示为CALnum,其输入图像特征和问题特征分别表示为Xnum-1,Ynum-1,作为下一个串联CAL层的输入,公式表达如下所示:
(Xnum,Ynum)=CALnum(Xnum-1,Ynum-1)
对于CAL1,其输入图像特征和文本特征分别为X0=X及Y0=Y,深度串联注意力学习网络的输出为
Figure BDA0003439176590000191
Figure BDA0003439176590000192
进一步地,特征融合与分类预测输出模块具体用于对图像特征X和问题特征Y进行协同注意力学习后,输出的图像特征
Figure BDA0003439176590000193
和文本特征
Figure BDA0003439176590000194
Figure BDA0003439176590000195
各自携带有丰富的图像区域和问题单词的注意力权重信息,使用MLP学习,得到归一化的权重概率,公式如下所示:
Figure BDA0003439176590000196
Figure BDA0003439176590000197
其中e为自然常数。利用上述归一化的权重概率对特征加权求和得到最终的图像特征x*和问题特征y*,公式如下所示:
Figure BDA0003439176590000198
Figure BDA0003439176590000199
然后基于双线性池化(BilinearPooling)的思想,将计算得到的图像特征x*和问题特征y*使用融合函数进行融合,计算公式如下所示:
Figure BDA00034391765900001910
其中
Figure BDA00034391765900001911
是两个线性投影矩阵,由融合前设置的全连接层的参数设定,dres是融合特征res的共同维度,实验设置为1024。LayerNorm层在输入序列张量的最后一个维度上求均值和方差,然后对融合特征标准化,计算公式如下:
Figure BDA0003439176590000201
E[x]和Var[x]分别为处理数据的期望方差,∈为常量取1e-7;
模态特征融合后得到由包含图像与问题文本相关信息的融合特征res,随后模型接入N-分类器(Classifier),建立输入融合特征res和输出预测答案result之间的映射关系,其中N是训练集使用的答案(Answer)标签中出现频率较高的标签数量,由深度学习开源库OpenVQA平台提供;损失函数使用交叉熵损失函数,公式如下所示:
Figure BDA0003439176590000202
N即标签数量,yv是对样本预测的结果标记,pv代表了预测分类结果为第v类的概率。
方法针对当前视觉问答模型容易损失关键特征信息、跨模态特征无法密切交互两大问题,提出了一种多模态深度特征融合的视觉问答模型CDI-VQA。
本发明一种基于多模态深度特征融合的视觉问答模型结构如图1所示,包括图像特征抽取模块,用于使用卷积神经网络和长短时记忆网络分别获取图像和文本两种模态数据特征;
与图像特征抽取模块相连的协同注意力网络层,用于利用获取的图像和文本两种模态数据特征进行模态内部和模态间的注意力建模,构建注意力网络并将注意力层串联堆叠,其中两种模态特征相互作为注意力权重学习的参考进行更深度的特征交互;
与协同注意力网络层相连的特征融合与分类预测输出模块,用于通过多模态融合函数融合注意力加权后的图像信息和文本语义,并将融合特征传入分类器结合答案文本数据预测结果。
其中:
图像文本特征抽取,对模型的输入数据进行特征抽取表示。对输入的图像Xin,使用开源的Faster-RCNN模型进行学习训练,得到图像特征
Figure BDA0003439176590000211
它是VQA数据集的图像区域视觉特征的集合,dx=2048是输入图像特征的维度;对输入的问题文本Yin,首先进行文本预处理划分单词,使用开源的GloVe模型实现基于单词级的输入embedding,然后输入到LSTM网络,抽取出问题文本特征
Figure BDA0003439176590000217
dy=512是输入图像特征的维度。
SA和MA元注意力单元设计,基于“多头”注意力(Multi-head attention)机制,构建了自注意力SA(self-attention)和交互注意力MA(mutual-attention)两类元注意力单元,用于协同注意力网络层的模块化组合。“多头”注意力的计算公式如下所示:
MultiHead(Q,K,V)==Concat(head1,…,headh)WO
Figure BDA0003439176590000213
其原理是在点积注意力的基础上,将各输入向量按“头”的个数等分为h份,对等分后的h份数据分别通过不同的权重
Figure BDA0003439176590000214
映射得到新的Q、K、V以计算相应的Attention值,计算公式为:
Figure BDA0003439176590000215
将分割计算的结果重新链接,映射到原始的向量维度,得到注意力特征结果。
其中z是归一化因子,K、V是注意力宏观理解下的Key-Value对,此处是神经网络输入的一种模态特征数据,二者等价;神经网络输入的第二种模态特征数据Q作为主体接受K、V指导,通过计算与K内积后Softmax的结果,得到相似度概率,最后加权求和得到注意力向量。因子
Figure BDA0003439176590000216
起到调节作用,保证分式上方结果不至于太大。
在“多头”注意力机制基础上建立SA元注意力单元如图2左。该单元仅使用一种模态X输入后作为Attention计算公式的Q、K、V。单元通过“多头”注意力层获取self-attention,学习特征集X内成对样本<xi,xj>之间的关系,对所有成对实例相似度的加权求和得到注意力处理后的特征。特征信息随后进入使用RELU激活函数的全连接层和一个用于归一化的全连接层,实现特征的空间变换。最终输出得到Attention(SA),它是所有xi分别与输入的模态X所有特征之间的相似度重构集合。
同理建立MA元注意力单元如图2右边,该单元与SA不同的地方在于,输入使用了X和Y两种模态的特征值,模态Y的特征数据用于指导模态X的特征注意力学习,其中模态Y作为Attention计算公式的K和V,模态X作为主体Q,MA单元学习特征集X单一元素和特征集Y所有元素的成对样本<x,yj>之间的关系,利用Y指导X学习,最终输出Attention(MA),即输入模态xi与输入的模态Y所有样本特征交叉后的相似度重构集合。
协同注意力网络层构建,将两种元注意力单元进行模块化组合,得到新的协同注意力网络层如图3,共包含两个SA元注意力单元和两个MA元注意力单元,其实现分三个步骤:
SA(Text)单元和SA(Image)单元并行化处理,分别实现文本与图像内部的自注意力特征建模,有利于单模态内全局信息的捕捉和关键特征的获取。
模型模拟人类“先看图像,然后带着图像信息浏览问题”的自然行为:使用MA(Text)单元,经自注意力处理后的图像特征作为“指导”提供MA单元所需的K、V向量,自注意力处理后的文本特征作为MA单元所需的Q向量,实现协同注意力建模,完成协同注意力网络层的第一次跨模态特征交互。
实现协同注意力层内的第二次跨模态特征交互:使用MA(Image)单元利用文本特征帮助获取图像关键区域特征信息,此时由第二步协同注意处理后的文本特征提供K、V向量,自注意力处理后的图像特征作为协同注意力单元主体。
单个协同注意力网络层输出的结果可以作为新的协同注意力层的输入,将多个注意力层可以串联堆叠,得到最终的深度串联注意力学习网络。协同注意力层(Co-AttentionLayer)简写为CAL,设模型共有Num层,记作CALNum,第num层可表示为CALnum,其输入图像特征和问题特征分别表示为Xnum-1,Ynum-1,作为下一个串联CAL层的输入,公式表达如下所示:
(Xnum,Ynum)=CALnum(Xnum-1,Ynum-1)
对于CAL1,其输入图像特征和文本特征分别为X0=X及Y0=Y,深度串联注意力学习网络的输出为
Figure BDA0003439176590000231
Figure BDA0003439176590000232
特征融合与分类预测输出,图像特征X和问题特征Y进行协同注意力学习后,输出的图像特征
Figure BDA0003439176590000233
和文本特征
Figure BDA0003439176590000234
各自携带有丰富的图像区域和问题单词的注意力权重信息,使用MLP学习,得到归一化的权重概率,公式如下所示:
Figure BDA0003439176590000235
Figure BDA0003439176590000236
其中e为自然常数。利用上述归一化的权重概率对特征加权求和得到最终的图像特征x*和问题特征y*,公式如下所示:
Figure BDA0003439176590000237
Figure BDA0003439176590000241
然后基于双线性池化(Bilinear Pooling)的思想,将计算得到的图像特征x*和问题特征y*使用融合函数进行融合,计算公式如下所示:
Figure BDA0003439176590000242
其中
Figure BDA0003439176590000243
是两个线性投影矩阵,由融合前设置的全连接层的参数设定,dres是融合特征res的共同维度,实验设置为1024。LayerNorm层在输入序列张量的最后一个维度上求均值和方差,然后对融合特征标准化,计算公式如下:
Figure BDA0003439176590000244
E[x]和Var[x]分别为处理数据的期望方差,∈为常量取1e-7。
模态特征融合后得到由包含图像与问题文本相关信息的融合特征res,随后模型接入N-分类器(Classifier),建立输入融合特征res和输出预测答案result之间的映射关系,其中N是训练集使用的答案(Answer)标签中出现频率较高的标签数量,由深度学习开源库OpenVQA平台提供;损失函数使用交叉熵损失函数,公式如下所示:
Figure BDA0003439176590000245
N即标签数量,yv是对样本预测的结果标记,pv代表了预测分类结果为第v类的概率。
以下通过仿真实验对本发明一种基于多模态深度特征融合的视觉问答方法及其模型作进一步说明:
为了验证本发明一种基于多模态深度特征融合的视觉问答方法及其模型的有效性,进行了基于VQA-v2.0数据集的模型实验和分析评估。采用Pytorch1.8-cuda10-gpu-vnc作为深度学习模型的框架。实验硬件环境为:CPU共4Core,运行内存8GB,GPU共1Core,类型为TITAN_V,存储内存大小256GB。此外,将本发明与以下两种现有技术中的模型进行比较,以下两种现有技术如下:
MFB模型:在基本的多模态双线性池化方法的基础上,增加了协同注意力机制,分别学习文本注意力和图像注意力。
MFH模型:是MFB模型的改进,将原操作细化成扩张和压缩两个阶段,通过基础注意力层的堆叠计算得到更高阶的信息。
模型使用VQAv2.0数据集,该数据集是视觉问答任务中使用最为广泛的数据集。实验使用的数据分为两个部分:443757个训练问题对应4437570个训练答案;214354个测试问题对应2143540个测试答案。
数据集中每个问题包含10个参考答案,出现次数最多的答案被确认为标准答案。只需将CDI-VQA模型预测得到的问题答案与标准答案进行对比,并将模型所有问题的预测结果进行总结,就能计算得到模型的评价指标:准确率(Accuracy,简称Acc)。由于VQAv2.0数据集的问题种类超过了20种,模型对不同类型问题预测正确答案的难易程度是不同的,因此方法模型针对性地选出若干种具有代表性的问题的类型,分别计算这些类型的问题通过深度学习预测的回答与它们的标准答案之间的准确率的关系。将答案类型中的“是/否”(yes/no)和“数字”(number)分别作为一类,将其它类型的答案归为“其他”(other)一类,共同参与学习结果的评估。模型性能评估所使用的评价指标就是上述的不同类型的准确率,如表1所示:
表1
Figure BDA0003439176590000261
实验一:
实验基于深度注意力网络中的协同注意力层数Num对方法模型的性能影响进行了对比分析。具体方法为:通过Num取不同的值,得到的不同模型的准确率结果如表2所示:
表2
Figure BDA0003439176590000262
针对不同问题分别绘制出折线图如图4所示。图4(a)为层数对模型处理所有类型(All)问题的准确率,图4(b)为层数对模型处理Other类型问题的准确率,图4(c)为层数对模型处理Yes/No类型问题的准确率,图4(d)为层数对模型处理Number类型问题的准确率。
对于所有问题的平均准确率综合反映了模型的准确性能。Num从2开始上升,模型输出准确率上升,在Num=4、5、6时准确率饱和;Num>6后,协同注意力层数过多,准确率下降,模型性能下降。
层数Num对方法模型处理Other类型问题的平均准确率的影响与处理所有问题的影响类似,表明了选取问题的合理性。
层数Num对方法模型处理Yes/No类型问题的平均准确率的影响不大:Num改变模型对应输出的准确率较稳定。
对于Number类型问题,随着层数Num,输出准确率同样随着Num的上升提高,当Num>6后如果再次提高层数,模型对应输出的准确率会下降。
Num取值对模型的批处理速度的影响为:随着Num的提升,模型处理单个batch所花的时间不断增大(Speed(s/batch))。
实验二:
通过实验一的对比分析,发现Num取值为4、5、6时都获得了表现更佳的准确率结果。因此将Num={4,5,6}对应的三种CDI-VQA模型与基线模型:MFB模型和MFH模型在相同的部署环境和设备条件下进行了比较。实验结果如表3所示:
表3
Figure BDA0003439176590000281
从表3结果表明,本方法模型(S2M2A)准确率高于其它两种基线模型,性能更优。
综上,本方法模型相较于现有方法在模型处理各类问题的准确率上持有更高的准确率,模型性能更优。
以上对本发明的有关内容进行了说明。本领域普通技术人员在基于这些说明的情况下将能够实现本发明。基于本发明的上述内容,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

Claims (8)

1.一种基于多模态深度特征融合的视觉问答方法,其特征在于,包括以下步骤:
(1)使用卷积神经网络和长短时记忆网络分别获取图像和文本两种模态数据特征;
(2)利用获取的图像和文本两种模态数据特征进行模态内部和模态间的注意力建模,构建注意力网络并将注意力层串联堆叠,其中两种模态特征相互作为注意力权重学习的参考进行更深度的特征交互;
(3)通过多模态融合函数融合注意力加权后的图像信息和文本语义,并将融合特征传入分类器结合答案文本数据预测结果。
2.如权利要求1所述的一种基于多模态深度特征融合的视觉问答方法,其特征在于,所述步骤(1)具体包括:对输入的图像Xin,使用开源的Faster-RCNN模型进行学习训练,得到图像特征
Figure FDA0003439176580000011
它是VQA数据集的图像区域视觉特征的集合,dx=2048是输入图像特征的维度;对输入的问题文本Yin,首先进行文本预处理划分单词,使用开源的GloVe模型实现基于单词级的输入embedding,然后输入到LSTM网络,抽取出问题文本特征
Figure FDA0003439176580000012
dy=512是输入图像特征的维度。
3.如权利要求2所述的一种基于多模态深度特征融合的视觉问答方法,其特征在于,所述步骤(2)具体包括:
SA和MA元注意力单元设计:
基于“多头”注意力(Multi-head attention)机制,构建了自注意力SA(self-attention)和交互注意力MA(mutual-attention)两类元注意力单元,用于协同注意力网络层的模块化组合,“多头”注意力的计算公式如下所示:
MultiHead(Q,K,V)==Concat(head1,…,headh)WO
Figure FDA0003439176580000021
其原理是在点积注意力的基础上,将各输入向量按“头”的个数等分为h份,对等分后的h份数据分别通过不同的权重
Figure FDA0003439176580000022
映射得到新的Q、K、V以计算相应的Attention值,计算公式为:
Figure FDA0003439176580000023
将分割计算的结果重新链接,映射到原始的向量维度,得到注意力特征结果;
其中z是归一化因子,K、V是注意力宏观理解下的Key-Value对;神经网络输入的第二种模态特征数据Q作为主体接受K、V指导,通过计算与K内积后Softmax的结果,得到相似度概率,最后加权求和得到注意力向量;
在“多头”注意力机制基础上建立SA元注意力单元,该单元仅使用一种模态X输入后作为Attention计算公式的Q、K、V,单元通过“多头”注意力层获取self-attention,学习特征集X内成对样本<xi,xj>之间的关系,对所有成对实例相似度的加权求和得到注意力处理后的特征,特征信息随后进入使用RELU激活函数的全连接层和一个用于归一化的全连接层,实现特征的空间变换,最终输出得到Attention(SA),它是所有xi分别与输入的模态X所有特征之间的相似度重构集合;
同理建立MA元注意力单元,MA元注意力单元与SA不同的地方在于,输入使用了X和Y两种模态的特征值,模态Y的特征数据用于指导模态X的特征注意力学习,其中模态Y作为Attention计算公式的K和V,模态X作为主体Q,MA单元学习特征集X单一元素和特征集Y所有元素的成对样本<x,yj>之间的关系,利用Y指导X学习,最终输出Attention(MA),即输入模态xi与输入的模态Y所有样本特征交叉后的相似度重构集合;
协同注意力网络层构建,将两种元注意力单元进行模块化组合,得到新的协同注意力网络层,共包含两个SA元注意力单元和两个MA元注意力单元,其实现分三个步骤:
模型模拟人类“先看图像,然后带着图像信息浏览问题”的自然行为:使用MA(Text)单元,经自注意力处理后的图像特征作为“指导”提供MA单元所需的K、V向量,自注意力处理后的文本特征作为MA单元所需的Q向量,实现协同注意力建模,完成协同注意力网络层的第一次跨模态特征交互;
实现协同注意力层内的第二次跨模态特征交互:使用MA(Image)单元利用文本特征帮助获取图像关键区域特征信息,此时由第二步协同注意处理后的文本特征提供K、V向量,自注意力处理后的图像特征作为协同注意力单元主体;
单个协同注意力网络层输出的结果可以作为新的协同注意力层的输入,将多个注意力层可以串联堆叠,得到最终的深度串联注意力学习网络,协同注意力层(Co-AttentionLayer)简写为CAL,设模型共有Num层,记作CALNum,第num层可表示为CALnum,其输入图像特征和问题特征分别表示为Xnum-1,Ynum-1,作为下一个串联CAL层的输入,公式表达如下所示:
(Xnum,Ynum)=CALnum(Xnum-1,Ynum-1)
对于CAL1,其输入图像特征和文本特征分别为X0=X及Y0=Y,深度串联注意力学习网络的输出为
Figure FDA0003439176580000031
Figure FDA0003439176580000032
4.如权利要求3所述的一种基于多模态深度特征融合的视觉问答方法,其特征在于,所述步骤(3)具体包括:特征融合与分类预测输出,对图像特征X和问题特征Y进行协同注意力学习后,输出的图像特征
Figure FDA0003439176580000033
和文本特征
Figure FDA0003439176580000034
各自携带有丰富的图像区域和问题单词的注意力权重信息,使用MLP学习,得到归一化的权重概率,公式如下所示:
Figure FDA0003439176580000041
Figure FDA0003439176580000042
其中e为自然常数,利用上述归一化的权重概率对特征加权求和得到最终的图像特征x*和问题特征y*,公式如下所示:
Figure FDA0003439176580000043
Figure FDA0003439176580000044
然后基于双线性池化(Bilinear Pooling)的思想,将计算得到的图像特征x*和问题特征y*使用融合函数进行融合,计算公式如下所示:
Figure FDA0003439176580000045
其中
Figure FDA0003439176580000046
是两个线性投影矩阵,由融合前设置的全连接层的参数设定,dres是融合特征res的共同维度,实验设置为1024,LayerNorm层在输入序列张量的最后一个维度上求均值和方差,然后对融合特征标准化,计算公式如下:
Figure FDA0003439176580000047
E[x]和Var[x]分别为处理数据的期望方差,∈为常量取1e-7;
模态特征融合后得到由包含图像与问题文本相关信息的融合特征res,随后模型接入N-分类器(Classifier),建立输入融合特征res和输出预测答案result之间的映射关系,其中N是训练集使用的答案(Answer)标签中出现频率较高的标签数量,由深度学习开源库OpenVQA平台提供;损失函数使用交叉熵损失函数,公式如下所示:
Figure FDA0003439176580000051
N即标签数量,yv是对样本预测的结果标记,pv代表了预测分类结果为第v类的概率。
5.一种基于多模态深度特征融合的视觉问答方法及其模型,其特征在于,包括:
图像特征抽取模块,用于使用卷积神经网络和长短时记忆网络分别获取图像和文本两种模态数据特征;
与图像特征抽取模块相连的协同注意力网络层,用于利用获取的图像和文本两种模态数据特征进行模态内部和模态间的注意力建模,构建注意力网络并将注意力层串联堆叠,其中两种模态特征相互作为注意力权重学习的参考进行更深度的特征交互;
与协同注意力网络层相连的特征融合与分类预测输出模块,用于通过多模态融合函数融合注意力加权后的图像信息和文本语义,并将融合特征传入分类器结合答案文本数据预测结果。
6.如权利要求5所述的一种基于多模态深度特征融合的视觉问答模型,其特征在于,所述图像特征抽取模块具体用于:对输入的图像Xin,使用开源的Faster-RCNN模型进行学习训练,得到图像特征
Figure FDA0003439176580000052
它是VQA数据集的图像区域视觉特征的集合,dx=2048是输入图像特征的维度;对输入的问题文本Yin,首先进行文本预处理划分单词,使用开源的GloVe模型实现基于单词级的输入embedding,然后输入到LSTM网络,抽取出问题文本特征
Figure FDA0003439176580000053
Figure FDA0003439176580000054
dy=512是输入图像特征的维度。
7.如权利要求6所述的一种基于多模态深度特征融合的视觉问答模型,其特征在于,协同注意力网络层通过SA元注意力单元和两个MA元注意力单元通过模块化组合构成;
其中,SA元注意力单元和两个MA元注意力单元均基于“多头”注意力机制构建,“多头”注意力的计算公式如下所示:
MultiHead(Q,K,V)==Concat(head1,…,headh)WO
Figure FDA0003439176580000061
其原理是在点积注意力的基础上,将各输入向量按“头”的个数等分为h份,对等分后的h份数据分别通过不同的权重
Figure FDA0003439176580000062
映射得到新的Q、K、V以计算相应的Attention值,计算公式为:
Figure FDA0003439176580000063
将分割计算的结果重新链接,映射到原始的向量维度,得到注意力特征结果;
其中z是归一化因子,K、V是注意力宏观理解下的Key-Value对;神经网络输入的第二种模态特征数据Q作为主体接受K、V指导,通过计算与K内积后Softmax的结果,得到相似度概率,最后加权求和得到注意力向量;
SA元注意力单元仅使用一种模态X输入后作为Attention计算公式的Q、K、V,单元通过“多头”注意力层获取self-attention,学习特征集X内成对样本<xi,xj>之间的关系,对所有成对实例相似度的加权求和得到注意力处理后的特征,特征信息随后进入使用RELU激活函数的全连接层和一个用于归一化的全连接层,实现特征的空间变换,最终输出得到Attention(SA),它是所有xi分别与输入的模态X所有特征之间的相似度重构集合;
MA元注意力单元输入使用了X和Y两种模态的特征值,模态Y的特征数据用于指导模态X的特征注意力学习,其中模态Y作为Attention计算公式的K和V,模态Y作为主体Q,MA单元学习特征集X单一元素和特征集Y所有元素的成对样本<x,yj>之间的关系,利用Y指导X学习,最终输出Attention(MA),即输入模态xi与输入的模态Y所有样本特征交叉后的相似度重构集合;
其中SA元注意力单元和两个MA元注意力单元通过模块化组合步骤包括:
模型模拟人类“先看图像,然后带着图像信息浏览问题”的自然行为:使用MA(Text)单元,经自注意力处理后的图像特征作为“指导”提供MA单元所需的K、V向量,自注意力处理后的文本特征作为MA单元所需的Q向量,实现协同注意力建模,完成协同注意力网络层的第一次跨模态特征交互;
实现协同注意力层内的第二次跨模态特征交互:使用MA(Image)单元利用文本特征帮助获取图像关键区域特征信息,此时由第二步协同注意处理后的文本特征提供K、V向量,自注意力处理后的图像特征作为协同注意力单元主体;
单个协同注意力网络层输出的结果可以作为新的协同注意力层的输入,将多个注意力层可以串联堆叠,得到最终的深度串联注意力学习网络,协同注意力层(Co-AttentionLayer)简写为CAL,设模型共有Num层,记作CALNum,第num层可表示为CALnum,其输入图像特征和问题特征分别表示为Xnum-1,Ynum-1,作为下一个串联CAL层的输入,公式表达如下所示:
(Xnum,Ynum)=CALnum(Xnum-1,Ynum-1)
对于CAL1,其输入图像特征和文本特征分别为X0=X及Y0=Y,深度串联注意力学习网络的输出为
Figure FDA0003439176580000071
Figure FDA0003439176580000072
8.如权利要求7所述的一种基于多模态深度特征融合的视觉问答模型,其特征在于,特征融合与分类预测输出模块具体用于对图像特征X和问题特征Y进行协同注意力学习后,输出的图像特征
Figure FDA0003439176580000073
和文本特征
Figure FDA0003439176580000074
各自携带有丰富的图像区域和问题单词的注意力权重信息,使用MLP学习,得到归一化的权重概率,公式如下所示:
Figure FDA0003439176580000081
Figure FDA0003439176580000082
其中e为自然常数,利用上述归一化的权重概率对特征加权求和得到最终的图像特征x*和问题特征y*,公式如下所示:
Figure FDA0003439176580000083
Figure FDA0003439176580000084
然后基于双线性池化(Bilinear Pooling)的思想,将计算得到的图像特征x*和问题特征y*使用融合函数进行融合,计算公式如下所示:
Figure FDA0003439176580000085
其中
Figure FDA0003439176580000086
是两个线性投影矩阵,由融合前设置的全连接层的参数设定,dres是融合特征res的共同维度,实验设置为1024,LayerNorm层在输入序列张量的最后一个维度上求均值和方差,然后对融合特征标准化,计算公式如下:
Figure FDA0003439176580000087
E[x]和Var[x]分别为处理数据的期望方差,∈为常量取1e-7;
模态特征融合后得到由包含图像与问题文本相关信息的融合特征res,随后模型接入N-分类器(Classifier),建立输入融合特征res和输出预测答案result之间的映射关系,其中N是训练集使用的答案(Answer)标签中出现频率较高的标签数量,由深度学习开源库OpenVQA平台提供;损失函数使用交叉熵损失函数,公式如下所示:
Figure FDA0003439176580000091
N即标签数量,yv是对样本预测的结果标记,pv代表了预测分类结果为第v类的概率。
CN202111624056.0A 2021-12-28 2021-12-28 一种基于多模态深度特征融合的视觉问答方法及其模型 Active CN114398961B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111624056.0A CN114398961B (zh) 2021-12-28 2021-12-28 一种基于多模态深度特征融合的视觉问答方法及其模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111624056.0A CN114398961B (zh) 2021-12-28 2021-12-28 一种基于多模态深度特征融合的视觉问答方法及其模型

Publications (2)

Publication Number Publication Date
CN114398961A true CN114398961A (zh) 2022-04-26
CN114398961B CN114398961B (zh) 2023-05-05

Family

ID=81229264

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111624056.0A Active CN114398961B (zh) 2021-12-28 2021-12-28 一种基于多模态深度特征融合的视觉问答方法及其模型

Country Status (1)

Country Link
CN (1) CN114398961B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115690552A (zh) * 2022-12-30 2023-02-03 智慧眼科技股份有限公司 多意图识别方法、装置、计算机设备及存储介质
CN116052171A (zh) * 2023-03-31 2023-05-02 国网数字科技控股有限公司 电子证据相关性标定方法、装置、设备及存储介质
CN116071835A (zh) * 2023-04-07 2023-05-05 平安银行股份有限公司 人脸识别攻击事后筛查的方法、装置和电子设备
CN116127403A (zh) * 2022-10-26 2023-05-16 锋睿领创(珠海)科技有限公司 基于跨模态特征再校准的信息融合方法、设备和存储介质
CN116129200A (zh) * 2023-04-17 2023-05-16 厦门大学 一种基于深度学习的支气管镜图像良恶性病灶分类装置
CN117235670A (zh) * 2023-11-10 2023-12-15 南京信息工程大学 基于细粒度交叉注意力的医学影像问题视觉解答方法
CN117251599A (zh) * 2023-11-13 2023-12-19 中国兵器装备集团兵器装备研究所 一种视频语料智能测试优化方法、装置和存储介质
CN117271818A (zh) * 2023-11-22 2023-12-22 鹏城实验室 视觉问答方法、系统、电子设备及存储介质
CN117522877A (zh) * 2024-01-08 2024-02-06 吉林大学 一种基于视觉自注意力的胸部多疾病诊断模型的构建方法
CN117993868A (zh) * 2024-04-02 2024-05-07 国网山东省电力公司济宁供电公司 基于双模态注意力的电网工程项目审计预警方法及系统

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959246A (zh) * 2018-06-12 2018-12-07 北京慧闻科技发展有限公司 基于改进的注意力机制的答案选择方法、装置和电子设备
CN109558477A (zh) * 2018-10-23 2019-04-02 深圳先进技术研究院 一种基于多任务学习的社区问答系统、方法及电子设备
CN111222533A (zh) * 2019-11-08 2020-06-02 中山大学 一种基于依赖树的深度学习视觉问答方法及系统
CN112241468A (zh) * 2020-07-23 2021-01-19 哈尔滨工业大学(深圳) 一种基于多头目自注意力机制的跨模态视频检索方法、系统及存储介质
CN112488055A (zh) * 2020-12-18 2021-03-12 贵州大学 一种基于渐进图注意力网络的视频问答方法
CN112633364A (zh) * 2020-12-21 2021-04-09 上海海事大学 一种基于Transformer-ESIM注意力机制的多模态情绪识别方法
CN113297370A (zh) * 2021-07-27 2021-08-24 国网电子商务有限公司 基于多交互注意力的端到端多模态问答方法及系统
CN113378989A (zh) * 2021-07-06 2021-09-10 武汉大学 基于复式协同结构特征重组网络的多模态数据融合方法
CN113642332A (zh) * 2021-08-11 2021-11-12 福州大学 一种融合多级语义信息的多模态讽刺识别系统方法
CN113779361A (zh) * 2021-08-27 2021-12-10 华中科技大学 基于多层注意力机制的跨模态检索模型的构建方法及应用
CN113806587A (zh) * 2021-08-24 2021-12-17 西安理工大学 一种多模态特征融合的视频描述文本生成方法
CN113837212A (zh) * 2020-06-24 2021-12-24 四川大学 一种基于多模态双向导向注意力的视觉问答方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959246A (zh) * 2018-06-12 2018-12-07 北京慧闻科技发展有限公司 基于改进的注意力机制的答案选择方法、装置和电子设备
CN109558477A (zh) * 2018-10-23 2019-04-02 深圳先进技术研究院 一种基于多任务学习的社区问答系统、方法及电子设备
CN111222533A (zh) * 2019-11-08 2020-06-02 中山大学 一种基于依赖树的深度学习视觉问答方法及系统
CN113837212A (zh) * 2020-06-24 2021-12-24 四川大学 一种基于多模态双向导向注意力的视觉问答方法
CN112241468A (zh) * 2020-07-23 2021-01-19 哈尔滨工业大学(深圳) 一种基于多头目自注意力机制的跨模态视频检索方法、系统及存储介质
CN112488055A (zh) * 2020-12-18 2021-03-12 贵州大学 一种基于渐进图注意力网络的视频问答方法
CN112633364A (zh) * 2020-12-21 2021-04-09 上海海事大学 一种基于Transformer-ESIM注意力机制的多模态情绪识别方法
CN113378989A (zh) * 2021-07-06 2021-09-10 武汉大学 基于复式协同结构特征重组网络的多模态数据融合方法
CN113297370A (zh) * 2021-07-27 2021-08-24 国网电子商务有限公司 基于多交互注意力的端到端多模态问答方法及系统
CN113642332A (zh) * 2021-08-11 2021-11-12 福州大学 一种融合多级语义信息的多模态讽刺识别系统方法
CN113806587A (zh) * 2021-08-24 2021-12-17 西安理工大学 一种多模态特征融合的视频描述文本生成方法
CN113779361A (zh) * 2021-08-27 2021-12-10 华中科技大学 基于多层注意力机制的跨模态检索模型的构建方法及应用

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
JU X等: "Joint multi-modal aspect-sentiment analysis with auxiliary cross-modal relation detection" *
NGUYEN D K等: "Improved fusion of visual and language representations by dense symmetric co-attention for visual question answering" *
周思桐.: "基于多重注意力机制和特征融合算法的视觉问答系统研究" *
李磊: "结合协同注意力和关联深度网络的视觉问答研究" *
邹芸竹等: "一种基于多模态深度特征融合的视觉问答模型" *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116127403B (zh) * 2022-10-26 2024-02-06 锋睿领创(珠海)科技有限公司 基于跨模态特征再校准的信息融合方法、设备和存储介质
CN116127403A (zh) * 2022-10-26 2023-05-16 锋睿领创(珠海)科技有限公司 基于跨模态特征再校准的信息融合方法、设备和存储介质
CN115690552A (zh) * 2022-12-30 2023-02-03 智慧眼科技股份有限公司 多意图识别方法、装置、计算机设备及存储介质
CN116052171A (zh) * 2023-03-31 2023-05-02 国网数字科技控股有限公司 电子证据相关性标定方法、装置、设备及存储介质
CN116071835A (zh) * 2023-04-07 2023-05-05 平安银行股份有限公司 人脸识别攻击事后筛查的方法、装置和电子设备
CN116129200A (zh) * 2023-04-17 2023-05-16 厦门大学 一种基于深度学习的支气管镜图像良恶性病灶分类装置
CN117235670A (zh) * 2023-11-10 2023-12-15 南京信息工程大学 基于细粒度交叉注意力的医学影像问题视觉解答方法
CN117251599A (zh) * 2023-11-13 2023-12-19 中国兵器装备集团兵器装备研究所 一种视频语料智能测试优化方法、装置和存储介质
CN117251599B (zh) * 2023-11-13 2024-03-15 中国兵器装备集团兵器装备研究所 一种视频语料智能测试优化方法、装置和存储介质
CN117271818A (zh) * 2023-11-22 2023-12-22 鹏城实验室 视觉问答方法、系统、电子设备及存储介质
CN117271818B (zh) * 2023-11-22 2024-03-01 鹏城实验室 视觉问答方法、系统、电子设备及存储介质
CN117522877A (zh) * 2024-01-08 2024-02-06 吉林大学 一种基于视觉自注意力的胸部多疾病诊断模型的构建方法
CN117522877B (zh) * 2024-01-08 2024-04-05 吉林大学 一种基于视觉自注意力的胸部多疾病诊断模型的构建方法
CN117993868A (zh) * 2024-04-02 2024-05-07 国网山东省电力公司济宁供电公司 基于双模态注意力的电网工程项目审计预警方法及系统

Also Published As

Publication number Publication date
CN114398961B (zh) 2023-05-05

Similar Documents

Publication Publication Date Title
CN114398961B (zh) 一种基于多模态深度特征融合的视觉问答方法及其模型
CN112182166B (zh) 一种文本匹配方法、装置、电子设备及存储介质
CN111046661B (zh) 基于图卷积网络的阅读理解方法
EP4002161A1 (en) Image retrieval method and apparatus, storage medium, and device
CN112818889B (zh) 基于动态注意力的超网络融合视觉问答答案准确性的方法
CN111782826A (zh) 知识图谱的信息处理方法、装置、设备及存储介质
CN112527993B (zh) 一种跨媒体层次化深度视频问答推理框架
CN114818703B (zh) 基于BERT语言模型和TextCNN模型的多意图识别方法及系统
Halvardsson et al. Interpretation of swedish sign language using convolutional neural networks and transfer learning
CN113392179A (zh) 文本标注方法及装置、电子设备、存储介质
CN116958323A (zh) 图像生成方法、装置、电子设备、存储介质及程序产品
CN117494051A (zh) 一种分类处理的方法、模型训练的方法以及相关装置
Chauhan et al. Analysis of Intelligent movie recommender system from facial expression
Ishmam et al. From image to language: A critical analysis of visual question answering (vqa) approaches, challenges, and opportunities
CN114169408A (zh) 一种基于多模态注意力机制的情感分类方法
CN114282528A (zh) 一种关键词提取方法、装置、设备及存储介质
CN110990630B (zh) 一种基于图建模视觉信息的利用问题指导的视频问答方法
CN115130461A (zh) 一种文本匹配方法、装置、电子设备及存储介质
CN111783473B (zh) 医疗问答中最佳答案的识别方法、装置和计算机设备
CN113821610A (zh) 信息匹配方法、装置、设备及存储介质
CN113569094A (zh) 视频推荐方法、装置、电子设备及存储介质
CN113761837B (zh) 实体关系类型确定方法、装置和设备及存储介质
CN117711001B (zh) 图像处理方法、装置、设备和介质
CN117611845B (zh) 多模态数据的关联识别方法、装置、设备及存储介质
WO2024066927A1 (zh) 图像分类模型的训练方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant