CN113378989B - 基于复式协同结构特征重组网络的多模态数据融合方法 - Google Patents

基于复式协同结构特征重组网络的多模态数据融合方法 Download PDF

Info

Publication number
CN113378989B
CN113378989B CN202110763473.7A CN202110763473A CN113378989B CN 113378989 B CN113378989 B CN 113378989B CN 202110763473 A CN202110763473 A CN 202110763473A CN 113378989 B CN113378989 B CN 113378989B
Authority
CN
China
Prior art keywords
fea
layer
feature
text
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110763473.7A
Other languages
English (en)
Other versions
CN113378989A (zh
Inventor
秦亮
余金沄
张敏
韩谷静
吴文炤
赵峰
许中平
秦旭弘
刘开培
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sgitg Accenture Information Technology Co ltd
Wuhan University WHU
State Grid Information and Telecommunication Co Ltd
Wuhan Textile University
Original Assignee
Beijing Sgitg Accenture Information Technology Co ltd
Wuhan University WHU
State Grid Information and Telecommunication Co Ltd
Wuhan Textile University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sgitg Accenture Information Technology Co ltd, Wuhan University WHU, State Grid Information and Telecommunication Co Ltd, Wuhan Textile University filed Critical Beijing Sgitg Accenture Information Technology Co ltd
Priority to CN202110763473.7A priority Critical patent/CN113378989B/zh
Publication of CN113378989A publication Critical patent/CN113378989A/zh
Application granted granted Critical
Publication of CN113378989B publication Critical patent/CN113378989B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于复式协同结构特征重组网络的多模态数据融合方法。针对现有多模态数据融合技术主要是特征直接融合而忽视了模态与模态间的双向交互,存在多模态融合时特征间语义鸿沟的问题,本发明利用深度神经网络提取图像及文本单模态特征,建立基于transformer机制的图文双向交互注意力模型,挖掘图像和文本之间的特征联系,进行多模态的语义关联,并引入复式协同结构网络加深模态之间交互信息的贯通,进行多模态深层融合下的特征双向重组,实现图像与文本语义空间的对齐,更好地适应了神经网络对不同模态间互补信息的搜寻,增强模型对多模态语义的理解和泛化能力,进一步提高多模态特征网络的分类准确度。

Description

基于复式协同结构特征重组网络的多模态数据融合方法
技术领域
本发明涉及深度学习中的特征提取领域,具体地涉及一种基于复式协同结构特征重组网络的多模态数据融合方法。
背景技术
在深度学习领域中,由于单模态的数据进行单一的训练和预测,会存在数据利用率较低、无法反映关注对象各属性之间的关联性的情况。因此,需要从多维度建立起对这些数据的关联性和综合性分析,通过多模态特征融合的方式来达到更好的效果。特征层次的融合指不同多模态特征在早期进行关联,并将组合后的特征拉入后续统一分析,以提供更好的信息补充,但是不同模态特征之间存在语义不同步的问题。针对多模态特征融合技术,现有手段一般仅仅对各个模态的特征进行简单拼接、点乘、相加等操作,并没有考虑到模态之间的信息交互作用,对特征间语义鸿沟的难点解决不足,同时模态泛化能力不强,亟需探索更有效的融合方法。
发明内容
为了克服现有技术的不足,本发明的目的是提出一种基于基于复式协同结构特征重组网络的多模态数据融合方法。本发明提供的基于复式协同结构特征重组网络的多模态数据融合方法,在利用深度神经网络提取图像及文本单模态特征的前提下,建立基于transformer机制的图文双向交互注意力模型,挖掘图像和文本之间的特征联系,进行多模态的语义关联,引入复式协同结构网络加深模态之间交互信息的贯通,进行多模态深层融合下的特征双向重组,实现图像与文本语义空间的对齐,增强模型对多模态语义的理解和泛化能力。
本发明所采用的技术方案为:
一种基于复式协同结构特征重组网络的多模态数据融合方法,其特征在于,具体包括以下步骤:
步骤1:进行数据的预处理,获得预处理后的数据,所述数据包括图像和文本;
步骤2:搭建数据特征提取网络,对所述步骤1中得到的预处理后的数据提取数据特征,获得图像特征和文本特征Featext,所述数据特征提取网络包括图像特征提取网络和文本特征提取网络;
步骤3:对所述步骤2中得到的图像特征进行空间维度对齐处理,获得对齐后的图像特征Feapic
步骤4:构建复式协同结构下的双向注意力交互模型,将所述步骤2、步骤3中得到的文本特征Featext、对齐后的图像特征Feapic输入所述复式协同结构下的双向注意力交互模型,完成特征双向重组,获得带有交互信息的图像特征
Figure GDA0003534326040000021
和带有交互信息的文本特征
Figure GDA0003534326040000022
通过所述复式协同结构下的双向注意力交互模型进行特征双向重组的具体步骤为:
步骤41:建立transformer注意力模块,将所述步骤2、步骤3中获得的文本特征Featext、对齐后的图像特征Feapic输入所述transformer注意力模块,进行第一次特征交互,获得上层注意力中间特征变量Feat_p a和Feap_t a
步骤42:将所述步骤41获得的上层注意力中间特征变量Feat_p a和Feap_t a输入所述transformer注意力模块,进行第二次特征交互,获得下层注意力中间特征变量Feat_p b和Feap_t b
步骤43:将所述步骤42获得的下层注意力中间特征变量Feat_p b和Feap_t b输入BatchNormalization层进行优化,获得带有交互信息的图像特征
Figure GDA0003534326040000023
和带有交互信息的文本特征
Figure GDA0003534326040000024
步骤5:将所述步骤4中获得的带有交互信息的图像特征
Figure GDA0003534326040000025
和带有交互信息的文本特征
Figure GDA0003534326040000026
进行特征层融合,对特征层融合后的特征关联类别信息,进行分类预测。
可优选的是,所述步骤1中数据的预处理具体包括以下步骤:
步骤11:对图像进行标准化处理:
Figure GDA0003534326040000027
Figure GDA0003534326040000028
式中:μ为像素均值;x为图像像素矩阵;σ为标准方差;N为图像的像素数量;
步骤12:对文本进行文本清洗,获得清洗后的文本,所述文本清洗包括:去除标点符号、去除无含义的停用词、统一字母大小写;
步骤13:将所述步骤12获得的清洗后的文本进行文本索引化,获得文本索引列表;
步骤14:进行索引长度标准化,当样本的索引长度服从正态分布时,取置信区间为0.95,此时标准化的索引长度lennorm为:
Figure GDA0003534326040000031
式中:leni为第i个样本的索引长度;σN为标准方差;Nsamp为样本的个数;
如果样本的索引长度大于标准化的索引长度lennorm,对样本进行裁剪;
如果样本的索引长度小于标准化的索引长度lennorm,对样本进行补零填充;
步骤15:构造基于GloVe的文本词向量模型,对文本进行编码,根据GloVe语料库构建共现矩阵X,根据两个单词在上下文窗口的距离计算衰减函数decay:
Figure GDA0003534326040000032
式中:d为两个单词在上下文窗口的距离;
步骤16:构建词向量和所述共现矩阵之间的近似关系,计算损失函数J:
Figure GDA0003534326040000033
式中:Xij为共现矩阵中单词i和上下文单词j在滑动的上下文窗口内共同出现的次数;vi为单词i的词向量;vj为单词j的词向量;bi、bj为偏置参数;f为权重函数;Nvoc为词汇表的大小。
可优选的是,所述步骤2中搭建数据特征提取网络具体包括以下步骤:
步骤21:搭建图像特征提取网络,所述图像特征提取网络包括四层结构,依次为:第一层结构、第二层结构、第三层结构、第四层结构,所述第一层结构为两层卷积层加一层最大池化层;所述第一层结构的网络参数为两层卷积层的卷积核大小为3×3,卷积核数量为64;所述第二层结构为两层卷积层加一层最大池化层;所述第二层结构的网络参数为两层卷积层的卷积核大小为3×3,卷积核数量为128;所述第三层结构为三层卷积层加一层最大池化层;所述第三层结构的网络参数为三层卷积层的卷积核大小为3×3,卷积核数量为256;所述第四层结构为三层卷积层加一层池化层;所述卷积层使用二维卷积;所述第四层结构的网络参数为三层卷积层的卷积核大小为3×3,卷积核数量为512;所述最大池化层的下采样因子为2×2,步长为[2,2];
步骤22:构建文本特征提取网络,所述文本特征提取网络结构为:三条独立支路并联后与一个拼接层串联;所述独立支路包括:第一条支路、第二条支路、第三条支路;所述第一条支路为一维卷积层;所述第一条支路的网络参数为卷积层的一层卷积核大小为3,卷积核数量为128;所述第二条支路为一维卷积层;所述第二条支路的网络参数为卷积层的一层卷积核大小为4,卷积核数量为128;所述第三条支路为一维卷积层;所述第三条支路的网络参数为卷积层的一层卷积核大小为5,卷积核数量为128。
可优选的是,所述步骤3中空间维度对齐处理具体包括以下步骤:
步骤31:将所述步骤2中的图像特征的前两个维度合并,获得合并后的图像特征;
步骤32:对所述步骤31中获得的合并后的图像特征进行Reshape重构操作,获得对齐后的图像特征Feapic,所述对齐后的图像特征Feapic与步骤2中得到的文本特征Featext均处于二维特征空间,所述对齐后的图像特征Feapic的第二维度上的数目与所述文本特征Featext的第二维度上的数目相等。
可优选的是,所述步骤4中构建复式协同结构下的双向注意力交互模型具体包括以下步骤:
步骤41:建立transformer注意力模块,所述transformer注意力模块包括前半部分和后半部分;所述前半部分为多头注意力机制,所述多头注意力机制包括三个基本的计算元素:问题Q、键K和值V,将所述问题Q、键K、值V映射到语义表示子空间获得Qi、Ki、Vi
Figure GDA0003534326040000041
式中:Qi为问题Q映射到第i个语义表示子空间;Ki为键K映射到第i个语义表示子空间;Vi为值V映射到第i个语义表示子空间;Wi Q、Wi K、Wi V分别为问题Q、键K、值V映射到第i个子空间使用的参数矩阵;
计算每一个子空间中的注意力机制headi
Figure GDA0003534326040000042
式中:dk为放缩比例因子;
将所述子空间的注意力机制headi进行拼接,获得拼接后的注意力机制MultiHead(Q,K,V):
Figure GDA0003534326040000043
式中:
Figure GDA0003534326040000044
为向量拼接操作;Wo为拼接后做线性变换所需要的参数矩阵;m为模型的头数;
所述后半部分为对所述拼接后的注意力机制MultiHead(Q,K,V)进行层归一化后再进行残差连接,获得输出out:
out=LayerNorm(Add(Q+MultiHead(Q,K,V)))
所述第一次特征交互具体为:将所述步骤2、步骤3中获得的文本特征Featext与对齐后的图像特征Feapic分别输入所述步骤41建立的transformer注意力模块,令Q11=Featext;K11=V11=Feapic;Q12=Feapic;K12=V12=Featext;获得上层注意力中间特征变量Feat_p a和Feap_t a
步骤42:所述第二次特征交互具体为将步骤41获得的上层注意力中间特征变量Feat_p a和Feap_t a输入所述transformer注意力模块,令Q21=Feat_p a,K21=V21=Feap_t a,Q22=Feap_t a,K22=V22=Feat_p a,获得下层注意力中间特征变量Feat_p b和Feap_t b
步骤43:所述Batch Normalization层优化具体为将步骤42得到的下层注意力中间特征变量Feat_p b和Feap_t b输入Batch Normalization层进行优化,获得带有交互信息的图像特征
Figure GDA0003534326040000051
和带有交互信息的文本特征
Figure GDA0003534326040000052
进一步,所述步骤43中的Batch Normalization层优化具体为:对神经网络的层中的一个批次数据的输入计算均值μB和方差σB 2
Figure GDA0003534326040000053
Figure GDA0003534326040000054
式中:xi代表一个样本;t为批的大小;
对每个元素进行标准化获得标准化样本xi′:
Figure GDA0003534326040000055
式中:ε为引入的极小量;
对获得的标准化样本xi′进行尺度缩放和偏移操作,补偿网络因为标准化而损失的非线性表达能力,实现恒等变换,获得网络输出yi
yi=γi·xi′+βi
式中:γi=μB;βi=σB
可优选的是,所述步骤5中的特征层融合方式包括:拼接、位置对应元素相乘、位置对应元素相加、克罗内克积;采用拼接方式进行特征层融合具体为:将所述步骤43中获得的带有交互信息的图像特征
Figure GDA0003534326040000061
和带有交互信息的文本特征
Figure GDA0003534326040000062
进行特征层融合,获得特征层融合后的特征Feabi
Figure GDA0003534326040000063
进一步,所述步骤5中的关联类别信息具体为:对所述步骤5中获得的特征层融合后的特征Feabi通过一个卷积层关联类别信息,获得在m个类别上的联合模态表征信息Ffusion
Ffusion=Conv(1,m)(Feabi)。
更进一步,所述步骤5中的分类预测具体为:对所述步骤5中获得的在m个类别上的联合模态表征信息Ffusion进行全局平均池化并压缩特征信息,再接Softmax激活函数,输出分类结果Result,做出最终分类预测:
Result=Softmax{GlobalAverage(Ffusion)}。
附图说明
图1为本发明实施例中基于复式协同结构特征重组网络的多模态数据融合方法的流程图;
图2为本发明实施例中基于复式协同结构特征重组网络的结构示意图;
图3为本发明实施例中的文本单模态模型测试集分类准确率示例;
图4为本发明实施例中的图像单模态模型测试集分类准确率示例;
图5为本发明实施例中的普通特征拼接操作下融合模型的测试集分类准确率示例;
图6为本发明实施例中的基于复式协同结构特征重组网络的多模态数据融合模型的测试集分类准确率示例。
具体实施方式
下面将结合本发明中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
以下,参照附图对本发明的实施方式进行说明。如图1-2所示,图1为本发明实施例中基于复式协同结构特征重组网络的多模态数据融合方法的流程图,介绍了从图像及文本原始数据进行预处理以及深度网络特征提取开始,将两个异构特征进行语义空间对齐,搭建基于复式协同结构的特征重组网络,进行双向特征重组,最后输入特征融合模块,得到联合模态表征,关联类别信息,实现分类决策的基本流程。图2为本发明实施例中基于复式协同结构特征重组网络的结构示意图,输入对齐后的图像特征及文本特征,依次进行上层双向注意力交互与下层注意力交互,得到两个特征变量,最后利用Batch Normalization层进行优化,输出重组特征。具体步骤如下:
步骤1:确定图像数据的预处理及特征提取网络;
(1a)首先对图像进行标准化处理:
Figure GDA0003534326040000071
Figure GDA0003534326040000072
其中,μ是像素均值,x表示图像像素矩阵,σ表示标准方差,N表示图像的像素数量,处理后的图像大小与通道数目与原图像保持一致。
(1b)搭建图像特征提取网络,结构依次为:①两层卷积层加一层最大池化层→②两层卷积层加一层最大池化层→③三层卷积层加一层最大池化层→④三层卷积层加一层池化层,其中,所有卷积层均使用二维卷积。设置网络参数如下:①两层卷积层的卷积核大小为3×3,卷积核数量为64;②两层卷积层的卷积核大小为3×3,卷积核数量为128;③三层卷积层的卷积核大小为3×3,卷积核数量为256;④三层卷积层的卷积核大小为3×3,卷积核数量为512。所有的最大池化层的下采样因子均为2×2,步长均为[2,2]。
实例中输入尺寸为(224,224,3)的图像样本,其特征提取过程如下:首先经过两次卷积一次池化,尺寸变为(112,112,128),再经过两次卷积和一次池化,尺寸变为(56,56,256),再经过三次卷积一次池化变成(28,28,512),再经过三次卷积一次池化变成(14,14,512),再进行三次卷积一次池化,变成(7,7,512)。
步骤2:确定文本数据的预处理及特征提取网络;
(2a)首先,对原始文本进行文本清洗,包括去除标点符号、去除无含义的停用词及统一字母大小写。接着进行文本索引化,将文本数据拆分为一系列的词,形成文本索引列表。由于不同文本材料的索引长度不一,继而进行索引长度标准化。假设leni为第i个样本的索引长度,所有样本的索引长度服从正态分布,取置信区间为0.95,则标准化的索引长度为lennorm
Figure GDA0003534326040000073
其中,σN为标准方差;Nsamp为样本的个数,此时可以覆盖95%左右的样本。对于样本索引长度大于此标准化的样本索引长度时进行样本裁剪,对于样本索引长度小于此标准化的样本索引长度时进行样本补零填充。
(2b)构造基于GloVe的文本词向量模型,对文本进行编码,提取向量化的文本语义表达。具体实现分为以下两步:
a、根据语料库构建一个共现矩阵(Co-concurrence Matrix)X,矩阵中的每一个元素代表单词i和上下文单词j在特定大小的上下文窗口内共同出现的次数。根据两个单词在上下文窗口的距离d,计算衰减函数decay,用于计算权重。
Figure GDA0003534326040000081
b、构建词向量和共现矩阵之间的近似关系,构造损失函数:
Figure GDA0003534326040000082
其中,vi、vj分别是单词i和单词j的词向量,Xij为共现矩阵中单词i和上下文单词j在滑动的上下文窗口内共同出现的次数;bi、bj为偏置参数,f是权重函数,Nvoc为词汇表的大小。
实例选用300维的词向量编码,得到文本的二维数字矩阵表示。
(2c)构建文本特征提取网络,网络结构为:三条独立支路并联后与一个拼接层串联。独立支路包括:第一条支路、第二条支路、第三条支路;设置网络参数如下:第一条支路中卷积层的卷积核大小为3,卷积核数量为128,第二条支路中卷积层的卷积核大小为4,卷积核数量为128第三条支路中卷积层的卷积核大小为5,卷积核数量为128。
实例中词向量化文本表示的输入维度为(50,300),分别用大小为3,4,5的128个卷积核进行卷积,分别得到尺寸为(48,128),(47,128),(46,128)的中间特征,在第二维度上进行拼接,得到提取后的文本特征表示,尺寸为(141,128)
步骤3:对提取得到的图像特征与文本特征进行空间维度对齐处理,再输入复式协同结构特征重组网络,实现特征双向重组;
(3a)将图像特征与文本特征进行特征空间对齐,为后续双向交互创造先决条件。具体做法为:将图像(7,7,512)的三维特征的前两个维度合并,得到(49,512)的形状,再Reshape重构操作成(196,128),文本特征的形状为(141,128),目的是保证两个模态均处于二维特征空间,并且两个模态各自的第二个维度上的数目对齐。
(3b)构建复式协同结构下的双向注意力交互模型,进行特征双向重组。
建立单个transformer注意力模块,主要包括两个组成部分,前半部分为多头注意力机制。多头注意力机制中三个基本的计算元素分别是问题、键和值,用Q、K、V代表,在不同情景下有不同的实际填充。为了从多个角度理解特征,首先将Q、K、V映射到多个不同的语义表示子空间,即:
Figure GDA0003534326040000091
其中,Qi为问题Q映射到第i个语义表示子空间;Ki为键K映射到第i个语义表示子空间;Vi为值V映射到第i个语义表示子空间;Wi Q、Wi K、Wi V分别表示Q、K、V映射到第i个子空间使用的参数矩阵,每一个子空间中的注意力机制定义为:
Figure GDA0003534326040000092
然后将多个子空间的输出进行拼接,即:
Figure GDA0003534326040000093
其中,
Figure GDA0003534326040000094
为向量拼接操作,Wo为拼接后做线性变换所需要的参数矩阵,m为模型的头数。后半部分进行了层归一化以及残差连接,即:
out=LayerNorm(Add(Q+MultiHead(Q,K,V))) (9)
其中,层归一化保证数据特征分布的稳定性,残差连接防止网络退化。
复式协同结构特征重组网络设计呈现双层对称结构,Featext,Feapic输入两个对称的transformer注意力模块,令Q11=Featext,K11=V11=Feapic,Q12=Feapic,K12=V12=Featext,得到上层注意力中间特征变量Feat_p a,Feap_t a,在此基础上再次进行双向注意力交互,令Q21=Feat_p a,K21=V21=Feap_t a,Q22=Feap_t a,K22=V22=Feat_p a,得到下层注意力Feat_p b,Feap_t b
此种基于复式结构的双向注意力交互机制相较于普通的transformer注意力机制对模态之间的交互更为深入,但使用梯度下降法搜寻最优点时容易陷入鞍点,为了得到更好的训练结果,本模型中在出口处加入了两个Batch Normalization层进行优化,来避免陷入鞍点的情况。Batch Normalization操作实现如下:
假设神经网络某层一个批次数据的输入为X=[x1,x2,...,xt],其中xi代表一个样本,t为批的大小。故得此批次数据里元素的均值和方差分别为:
Figure GDA0003534326040000101
Figure GDA0003534326040000102
其中,xi代表一个样本,t为批的大小,对每个元素都进行标准化:
Figure GDA0003534326040000103
为补偿网络因为标准化而损失的非线性表达能力,继而进行尺度缩放和偏移操作,实现恒等变换,即网络输出:
yi=γi·xi′+βi (13)
其中,γi=μB,βi=σB
步骤4:将带有交互信息的两个新特征进行特征层融合,关联类别信息,进行分类预测;
将带有深度交互信息的两个新特征
Figure GDA0003534326040000104
Figure GDA0003534326040000105
进行特征层融合,采用拼接的方式整合dim维度上特征,即
Figure GDA0003534326040000106
并通过一个卷积层关联类别信息,得到在m个类别上的联合模态表征信息Ffusion=Conv(1,m)(Feabi)。接着进行全局平均池化,压缩特征信息,并接Softmax激活函数,输出分类结果Result=Softmax{GlobalAverage(Ffusion)},做出最终分类预测。
实例使用Tensorflow深度学习框架搭建神经网络,使用Twitter图文推送公开数据集进行训练。批大小设置为64,迭代次数为50代,损失函数采用交叉熵函数,采用adam优化器来优化随机梯度下降过程,初始学习率为0.001。图3为只用步骤2中提取得到的文本特征进行分类的单模态模型;图4为只用步骤2中提取得到的图像特征进行分类的单模态模型;图5为将步骤(3a)中对齐后的图像与文本特征进行拼接后分类的普通多模态模型;图6为本发明中加入了复式协同结构特征重组网络的多模态数据。如图3所示,文本单模态模型测试集分类准确率为72.74%,如图4所示,图像单模态模型的测试集分类准确率为75.82%,如图5所示,普通特征拼接操作下融合模型的测试集分类准确率为76.56%,如图6所示,本发明中基于复式协同结构特征重组网络的多模态融合模型的测试集分类准确率为81.14%,结果体现了本发明融合方法的有效性。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有而各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。因注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

Claims (10)

1.一种基于复式协同结构特征重组网络的多模态数据融合方法,其特征在于,其包括以下步骤:
步骤1:进行数据的预处理,获得预处理后的数据,所述数据包括图像和文本;
步骤2:搭建数据特征提取网络,对所述步骤1中得到的预处理后的数据提取数据特征,获得图像特征和文本特征Featext,所述数据特征提取网络包括图像特征提取网络和文本特征提取网络;
步骤3:对所述步骤2中得到的图像特征进行空间维度对齐处理,获得对齐后的图像特征Feapic
步骤4:构建复式协同结构下的双向注意力交互模型,将所述步骤2、步骤3中得到的文本特征Featext、对齐后的图像特征Feapic输入所述复式协同结构下的双向注意力交互模型,完成特征双向重组,获得带有交互信息的图像特征
Figure FDA0003534326030000011
和带有交互信息的文本特征
Figure FDA0003534326030000012
通过所述复式协同结构下的双向注意力交互模型进行特征双向重组的具体步骤为:
步骤41:建立transformer注意力模块,将所述步骤2、步骤3中获得的文本特征Featext、对齐后的图像特征Feapic输入所述transformer注意力模块,进行第一次特征交互,获得上层注意力中间特征变量Feat_p a和Feap_t a
步骤42:将所述步骤41获得的上层注意力中间特征变量Feat_p a和Feap_t a输入所述transformer注意力模块,进行第二次特征交互,获得下层注意力中间特征变量Feat_p b和Feap_t b
步骤43:将所述步骤42获得的下层注意力中间特征变量Feat_p b和Feap_t b输入BatchNormalization层进行优化,获得带有交互信息的图像特征
Figure FDA0003534326030000013
和带有交互信息的文本特征
Figure FDA0003534326030000014
步骤5:将所述步骤4中获得的带有交互信息的图像特征
Figure FDA0003534326030000015
和带有交互信息的文本特征
Figure FDA0003534326030000016
进行特征层融合,对特征层融合后的特征关联类别信息,进行分类预测。
2.根据权利要求1所述的基于复式协同结构特征重组网络的多模态数据融合方法,其特征在于,所述步骤41中的transformer注意力模块包括前半部分和后半部分;所述前半部分为多头注意力机制,所述多头注意力机制包括三个基本的计算元素:问题Q、键K和值V,将所述问题Q、键K、值V映射到语义表示子空间获得Qi、Ki、Vi
Figure FDA0003534326030000017
式中:Qi为问题Q映射到第i个语义表示子空间;Ki为键K映射到第i个语义表示子空间;Vi为值V映射到第i个语义表示子空间;Wi Q、Wi K、Wi V分别为问题Q、键K、值V映射到第i个子空间使用的参数矩阵;
计算每一个子空间中的注意力机制headi
Figure FDA0003534326030000021
式中:dk为放缩比例因子;
将所述子空间的注意力机制headi进行拼接,获得拼接后的注意力机制MultiHead(Q,K,V):
Figure FDA0003534326030000022
式中:
Figure FDA0003534326030000023
为向量拼接操作;Wo为拼接后做线性变换所需要的参数矩阵;m为模型的头数;
所述后半部分为对所述拼接后的注意力机制MultiHead(Q,K,V)进行层归一化后再进行残差连接,获得输出out:
out=LayerNorm(Add(Q+MultiHead(Q,K,V)))
所述第一次特征交互具体为:将所述步骤2、步骤3中获得的文本特征Featext与对齐后的图像特征Feapic分别输入所述步骤41建立的transformer注意力模块,令:
Q11=Featext
K11=V11=Feapic
Q12=Feapic
K12=V12=Featext
获得上层注意力中间特征变量Feat_p a和Feap_t a
3.根据权利要求2所述的基于复式协同结构特征重组网络的多模态数据融合方法,其特征在于,所述步骤42中的第二次特征交互具体为:将步骤41获得的上层注意力中间特征变量Feat_p a和Feap_t a输入所述transformer注意力模块,令:
Q21=Feat_p a
K21=V21=Feap_t a
Q22=Feap_t a
K22=V22=Feat_p a
获得下层注意力中间特征变量Feat_p b和Feap_t b
4.根据权利要求1所述的基于复式协同结构特征重组网络的多模态数据融合方法,其特征在于,所述步骤43中的Batch Normalization层优化具体为:对神经网络的层中的一个批次数据的输入计算均值μB和方差σB 2
Figure FDA0003534326030000031
Figure FDA0003534326030000032
式中:xi代表一个样本;t为批的大小;
对每个元素进行标准化获得标准化样本xi′:
Figure FDA0003534326030000033
式中:ε为引入的极小量;
对获得的标准化样本xi′进行尺度缩放和偏移操作,补偿网络因为标准化而损失的非线性表达能力,实现恒等变换,获得网络输出yi
yi=γi•xi′+βi
式中:γi=μB;βi=σB
5.根据权利要求1所述的基于复式协同结构特征重组网络的多模态数据融合方法,其特征在于,所述步骤1中数据的预处理具体包括以下步骤:
步骤11:对图像进行标准化处理:
Figure FDA0003534326030000034
Figure FDA0003534326030000035
式中:μ为像素均值;x为图像像素矩阵;σ为标准方差;N为图像的像素数量;
步骤12:对文本进行文本清洗,获得清洗后的文本,所述文本清洗包括:去除标点符号、去除无含义的停用词、统一字母大小写;
步骤13:将所述步骤12获得的清洗后的文本进行文本索引化,获得文本索引列表;
步骤14:进行索引长度标准化,当样本的索引长度服从正态分布时,取置信区间为0.95,此时标准化的索引长度lennorm为:
Figure FDA0003534326030000041
式中:leni为第i个样本的索引长度;σN为标准方差;Nsamp为样本的个数;
如果样本的索引长度大于标准化的索引长度lennorm,对样本进行裁剪;
如果样本的索引长度小于标准化的索引长度lennorm,对样本进行补零填充;
步骤15:构造基于GloVe的文本词向量模型,对文本进行编码,根据GloVe语料库构建共现矩阵X,根据两个单词在上下文窗口的距离计算衰减函数decay:
Figure FDA0003534326030000042
式中:d为两个单词在上下文窗口的距离;
步骤16:构建词向量和所述共现矩阵之间的近似关系,计算损失函数J:
Figure FDA0003534326030000043
式中:Xij为共现矩阵中单词i和上下文单词j在滑动的上下文窗口内共同出现的次数;vi为单词i的词向量;vj为单词j的词向量;bi、bj为偏置参数;f为权重函数;Nvoc为词汇表的大小。
6.根据权利要求1所述的基于复式协同结构特征重组网络的多模态数据融合方法,其特征在于,所述步骤2中搭建数据特征提取网络具体包括以下步骤:
步骤21:搭建图像特征提取网络,所述图像特征提取网络包括四层结构,依次为:第一层结构、第二层结构、第三层结构、第四层结构,所述第一层结构为两层卷积层加一层最大池化层;所述第一层结构的网络参数为两层卷积层的卷积核大小为3×3,卷积核数量为64;所述第二层结构为两层卷积层加一层最大池化层;所述第二层结构的网络参数为两层卷积层的卷积核大小为3×3,卷积核数量为128;所述第三层结构为三层卷积层加一层最大池化层;所述第三层结构的网络参数为三层卷积层的卷积核大小为3×3,卷积核数量为256;所述第四层结构为三层卷积层加一层池化层;所述卷积层使用二维卷积;所述第四层结构的网络参数为三层卷积层的卷积核大小为3×3,卷积核数量为512;所述最大池化层的下采样因子为2×2,步长为[2,2];
步骤22:构建文本特征提取网络,所述文本特征提取网络结构为:三条独立支路并联后与一个拼接层串联;所述独立支路包括:第一条支路、第二条支路、第三条支路;所述第一条支路为一维卷积层;所述第一条支路的网络参数为卷积层的一层卷积核大小为3,卷积核数量为128;所述第二条支路为一维卷积层;所述第二条支路的网络参数为卷积层的一层卷积核大小为4,卷积核数量为128;所述第三条支路为一维卷积层;所述第三条支路的网络参数为卷积层的一层卷积核大小为5,卷积核数量为128。
7.根据权利要求1所述的基于复式协同结构特征重组网络的多模态数据融合方法,其特征在于,所述步骤3中空间维度对齐处理具体包括以下步骤:
步骤31:将所述步骤2中的图像特征的前两个维度合并,获得合并后的图像特征;
步骤32:对所述步骤31中获得的合并后的图像特征进行Reshape重构操作,获得对齐后的图像特征Feapic,所述对齐后的图像特征Feapic与步骤2中获得的文本特征Featext均处于二维特征空间,所述对齐后的图像特征Feapic的第二维度上的数目与所述文本特征Featext的第二维度上的数目相等。
8.根据权利要求1所述的基于复式协同结构特征重组网络的多模态数据融合方法,其特征在于,所述步骤5中的特征层融合方式包括:拼接、位置对应元素相乘、位置对应元素相加、克罗内克积;采用拼接方式进行特征层融合具体为:将所述步骤43中获得的带有交互信息的图像特征
Figure FDA0003534326030000051
和带有交互信息的文本特征
Figure FDA0003534326030000052
进行特征层融合,获得特征层融合后的特征Feabi
Figure FDA0003534326030000053
9.根据权利要求8所述的基于复式协同结构特征重组网络的多模态数据融合方法,其特征在于,所述步骤5中的关联类别信息具体为:对所述步骤5中获得的特征层融合后的特征Feabi通过一个卷积层关联类别信息,获得在m个类别上的联合模态表征信息Ffusion
Ffusion=Conv(1,m)(Feabi)。
10.根据权利要求9所述的基于复式协同结构特征重组网络的多模态数据融合方法,其特征在于,所述步骤5中的分类预测具体为:对所述步骤5中获得的在m个类别上的联合模态表征信息Ffusion进行全局平均池化并压缩特征信息,再接Softmax激活函数,输出分类结果Result,做出最终分类预测:
Result=Softmax{GlobalAverage(Ffusion)}。
CN202110763473.7A 2021-07-06 2021-07-06 基于复式协同结构特征重组网络的多模态数据融合方法 Active CN113378989B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110763473.7A CN113378989B (zh) 2021-07-06 2021-07-06 基于复式协同结构特征重组网络的多模态数据融合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110763473.7A CN113378989B (zh) 2021-07-06 2021-07-06 基于复式协同结构特征重组网络的多模态数据融合方法

Publications (2)

Publication Number Publication Date
CN113378989A CN113378989A (zh) 2021-09-10
CN113378989B true CN113378989B (zh) 2022-05-17

Family

ID=77581199

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110763473.7A Active CN113378989B (zh) 2021-07-06 2021-07-06 基于复式协同结构特征重组网络的多模态数据融合方法

Country Status (1)

Country Link
CN (1) CN113378989B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114139641B (zh) * 2021-12-02 2024-02-06 中国人民解放军国防科技大学 基于局部结构传递的多模态表征学习方法和系统
CN114398961B (zh) * 2021-12-28 2023-05-05 西南交通大学 一种基于多模态深度特征融合的视觉问答方法及其模型
CN114636999A (zh) * 2022-03-02 2022-06-17 中山大学 基于毫米波雷达实现人体姿态估计的多谱图融合方法及装置
CN114626455A (zh) * 2022-03-11 2022-06-14 北京百度网讯科技有限公司 金融信息处理方法、装置、设备、存储介质及产品
CN115496928B (zh) * 2022-09-30 2023-04-18 云南大学 基于多重特征匹配的多模态图像特征匹配方法
CN115661594B (zh) * 2022-10-19 2023-08-18 海南港航控股有限公司 一种基于对齐和融合的图文多模态特征表示方法和系统
CN115880556B (zh) * 2023-02-21 2023-05-02 北京理工大学 一种多模态数据融合处理方法、装置、设备及存储介质
CN116486420B (zh) * 2023-04-12 2024-01-12 北京百度网讯科技有限公司 文档图像的实体抽取方法、装置及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377710A (zh) * 2019-06-17 2019-10-25 杭州电子科技大学 一种基于多模态融合的视觉问答融合增强方法
CN111985369A (zh) * 2020-08-07 2020-11-24 西北工业大学 基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10868785B2 (en) * 2019-04-29 2020-12-15 Microsoft Technology Licensing, Llc Purpose detection in communications using machine learning

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377710A (zh) * 2019-06-17 2019-10-25 杭州电子科技大学 一种基于多模态融合的视觉问答融合增强方法
CN111985369A (zh) * 2020-08-07 2020-11-24 西北工业大学 基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《Social Media Popularity Prediction:A Multiple Feature Fusion Approach with Deep Neural Networks》;Keyan Ding;《Proceedings of the 27th ACM International Conference on Multimedia》;20191231;全文 *
《基于复合图文特征的视觉问答模型研究》;邱南 等;《计算机应用研究》;20210423;全文 *

Also Published As

Publication number Publication date
CN113378989A (zh) 2021-09-10

Similar Documents

Publication Publication Date Title
CN113378989B (zh) 基于复式协同结构特征重组网络的多模态数据融合方法
CN110490946B (zh) 基于跨模态相似度和生成对抗网络的文本生成图像方法
CN108804530B (zh) 对图像的区域加字幕
CN107832400B (zh) 一种基于位置的lstm和cnn联合模型进行关系分类的方法
CN112101043B (zh) 一种基于注意力的语义文本相似度计算方法
CN111680159B (zh) 数据处理方法、装置及电子设备
CN110298037A (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN110765260A (zh) 一种基于卷积神经网络与联合注意力机制的信息推荐方法
CN114092707A (zh) 一种图像文本视觉问答方法、系统及存储介质
CN111858932A (zh) 基于Transformer的多重特征中英文情感分类方法及系统
CN112734881B (zh) 基于显著性场景图分析的文本合成图像方法及系统
CN114676704B (zh) 句子情感分析方法、装置、设备以及存储介质
CN111581954B (zh) 一种基于语法依存信息的文本事件抽取方法及装置
CN110795944A (zh) 推荐内容处理方法及装置、情感属性确定方法及装置
CN114549850B (zh) 一种解决模态缺失问题的多模态图像美学质量评价方法
CN113822340A (zh) 一种基于注意力机制的图文情感识别方法
CN113657115B (zh) 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法
CN115455171B (zh) 文本视频的互检索以及模型训练方法、装置、设备及介质
CN115438215A (zh) 图文双向搜索及匹配模型训练方法、装置、设备及介质
CN114612921A (zh) 表单识别方法、装置、电子设备和计算机可读介质
CN113378547A (zh) 一种基于gcn的汉语复句隐式关系分析方法及装置
CN111985525A (zh) 基于多模态信息融合处理的文本识别方法
CN114997181A (zh) 一种基于用户反馈修正的智能问答方法及系统
CN111523301B (zh) 合同文档合规性检查方法及装置
CN113779966A (zh) 一种基于注意力的双向cnn-rnn深度模型的蒙文情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant