CN113378989A - 基于复式协同结构特征重组网络的多模态数据融合方法 - Google Patents
基于复式协同结构特征重组网络的多模态数据融合方法 Download PDFInfo
- Publication number
- CN113378989A CN113378989A CN202110763473.7A CN202110763473A CN113378989A CN 113378989 A CN113378989 A CN 113378989A CN 202110763473 A CN202110763473 A CN 202110763473A CN 113378989 A CN113378989 A CN 113378989A
- Authority
- CN
- China
- Prior art keywords
- fea
- layer
- text
- feature
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000005215 recombination Methods 0.000 title claims abstract description 26
- 230000006798 recombination Effects 0.000 title claims abstract description 26
- 238000007500 overflow downdraw method Methods 0.000 title claims abstract description 22
- 150000001875 compounds Chemical class 0.000 title claims description 23
- 230000003993 interaction Effects 0.000 claims abstract description 28
- 230000004927 fusion Effects 0.000 claims abstract description 23
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 17
- 238000000034 method Methods 0.000 claims abstract description 7
- 238000000605 extraction Methods 0.000 claims description 25
- 238000011176 pooling Methods 0.000 claims description 21
- 230000002452 interceptive effect Effects 0.000 claims description 17
- 239000011159 matrix material Substances 0.000 claims description 17
- 239000013598 vector Substances 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 14
- 238000013507 mapping Methods 0.000 claims description 14
- 230000007246 mechanism Effects 0.000 claims description 14
- 238000010606 normalization Methods 0.000 claims description 12
- 238000005457 optimization Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000004140 cleaning Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000012512 characterization method Methods 0.000 claims description 4
- 238000009826 distribution Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000005520 cutting process Methods 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000012360 testing method Methods 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000002195 synergetic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于复式协同结构特征重组网络的多模态数据融合方法。针对现有多模态数据融合技术主要是特征直接融合而忽视了模态与模态间的双向交互,存在多模态融合时特征间语义鸿沟的问题,本发明利用深度神经网络提取图像及文本单模态特征,建立基于transformer机制的图文双向交互注意力模型,挖掘图像和文本之间的特征联系,进行多模态的语义关联,并引入复式协同结构网络加深模态之间交互信息的贯通,进行多模态深层融合下的特征双向重组,实现图像与文本语义空间的对齐,更好地适应了神经网络对不同模态间互补信息的搜寻,增强模型对多模态语义的理解和泛化能力,进一步提高多模态特征网络的分类准确度。
Description
技术领域
本发明涉及深度学习中的特征提取领域,具体地涉及一种基于复式协同结构特征重组网络的多模态数据融合方法。
背景技术
在深度学习领域中,由于单模态的数据进行单一的训练和预测,会存在数据利用率较低、无法反映关注对象各属性之间的关联性的情况。因此,需要从多维度建立起对这些数据的关联性和综合性分析,通过多模态特征融合的方式来达到更好的效果。特征层次的融合指不同多模态特征在早期进行关联,并将组合后的特征拉入后续统一分析,以提供更好的信息补充,但是不同模态特征之间存在语义不同步的问题。针对多模态特征融合技术,现有手段一般仅仅对各个模态的特征进行简单拼接、点乘、相加等操作,并没有考虑到模态之间的信息交互作用,对特征间语义鸿沟的难点解决不足,同时模态泛化能力不强,亟需探索更有效的融合方法。
发明内容
为了克服现有技术的不足,本发明的目的是提出一种基于基于复式协同结构特征重组网络的多模态数据融合方法。本发明提供的基于复式协同结构特征重组网络的多模态数据融合方法,在利用深度神经网络提取图像及文本单模态特征的前提下,建立基于transformer机制的图文双向交互注意力模型,挖掘图像和文本之间的特征联系,进行多模态的语义关联,引入复式协同结构网络加深模态之间交互信息的贯通,进行多模态深层融合下的特征双向重组,实现图像与文本语义空间的对齐,增强模型对多模态语义的理解和泛化能力。
本发明所采用的技术方案为:
一种基于复式协同结构特征重组网络的多模态数据融合方法,其特征在于,具体包括以下步骤:
步骤1:进行数据的预处理,获得预处理后的数据,所述数据包括图像和文本;
步骤2:搭建数据特征提取网络,对所述步骤1中得到的预处理后的数据提取数据特征,获得图像特征和文本特征Featext,所述数据特征提取网络包括图像特征提取网络和文本特征提取网络;
步骤3:对所述步骤2中得到的图像特征进行空间维度对齐处理,获得对齐后的图像特征Feapic;
步骤4:构建复式协同结构下的双向注意力交互模型,将所述步骤2、步骤3中得到的文本特征Featext、对齐后的图像特征Feapic输入所述复式协同结构下的双向注意力交互模型,完成特征双向重组,获得带有交互信息的图像特征和带有交互信息的文本特征通过所述复式协同结构下的双向注意力交互模型进行特征双向重组的具体步骤为:
步骤41:建立transformer注意力模块,将所述步骤2、步骤3中获得的文本特征Featext、对齐后的图像特征Feapic输入所述transformer注意力模块,进行第一次特征交互,获得上层注意力中间特征变量Feat_p a和Feap_t a;
步骤42:将所述步骤41获得的上层注意力中间特征变量Feat_p a和Feap_t a输入所述transformer注意力模块,进行第二次特征交互,获得下层注意力中间特征变量Feat_p b和Feap_t b;
可优选的是,所述步骤1中数据的预处理具体包括以下步骤:
步骤11:对图像进行标准化处理:
式中:μ为像素均值;x为图像像素矩阵;σ为标准方差;N为图像的像素数量;
步骤12:对文本进行文本清洗,获得清洗后的文本,所述文本清洗包括:去除标点符号、去除无含义的停用词、统一字母大小写;
步骤13:将所述步骤12获得的清洗后的文本进行文本索引化,获得文本索引列表;
步骤14:进行索引长度标准化,当样本的索引长度服从正态分布时,取置信区间为0.95,此时标准化的索引长度lennorm为:
式中:leni为第i个样本的索引长度;σN为标准方差;Nsamp为样本的个数;
如果样本的索引长度大于标准化的索引长度lennorm,对样本进行裁剪;
如果样本的索引长度小于标准化的索引长度lennorm,对样本进行补零填充;
步骤15:构造基于GloVe的文本词向量模型,对文本进行编码,根据GloVe语料库构建共现矩阵X,根据两个单词在上下文窗口的距离计算衰减函数decay:
式中:d为两个单词在上下文窗口的距离;
步骤16:构建词向量和所述共现矩阵之间的近似关系,计算损失函数J:
式中:Xij为共现矩阵中单词i和上下文单词j在滑动的上下文窗口内共同出现的次数;vi为单词i的词向量;vj为单词j的词向量;bi、bj为偏置参数;f为权重函数;Nvoc为词汇表的大小。
可优选的是,所述步骤2中搭建数据特征提取网络具体包括以下步骤:
步骤21:搭建图像特征提取网络,所述图像特征提取网络包括四层结构,依次为:第一层结构、第二层结构、第三层结构、第四层结构,所述第一层结构为两层卷积层加一层最大池化层;所述第一层结构的网络参数为两层卷积层的卷积核大小为3×3,卷积核数量为64;所述第二层结构为两层卷积层加一层最大池化层;所述第二层结构的网络参数为两层卷积层的卷积核大小为3×3,卷积核数量为128;所述第三层结构为三层卷积层加一层最大池化层;所述第三层结构的网络参数为三层卷积层的卷积核大小为3×3,卷积核数量为256;所述第四层结构为三层卷积层加一层池化层;所述卷积层使用二维卷积;所述第四层结构的网络参数为三层卷积层的卷积核大小为3×3,卷积核数量为512;所述最大池化层的下采样因子为2×2,步长为[2,2];
步骤22:构建文本特征提取网络,所述文本特征提取网络结构为:三条独立支路并联后与一个拼接层串联;所述独立支路包括:第一条支路、第二条支路、第三条支路;所述第一条支路为一维卷积层;所述第一条支路的网络参数为卷积层的一层卷积核大小为3,卷积核数量为128;所述第二条支路为一维卷积层;所述第二条支路的网络参数为卷积层的一层卷积核大小为4,卷积核数量为128;所述第三条支路为一维卷积层;所述第三条支路的网络参数为卷积层的一层卷积核大小为5,卷积核数量为128。
可优选的是,所述步骤3中空间维度对齐处理具体包括以下步骤:
步骤31:将所述步骤2中的图像特征的前两个维度合并,获得合并后的图像特征;
步骤32:对所述步骤31中获得的合并后的图像特征进行Reshape重构操作,获得对齐后的图像特征Feapic,所述对齐后的图像特征Feapic与步骤2中得到的文本特征Featext均处于二维特征空间,所述对齐后的图像特征Feapic的第二维度上的数目与所述文本特征Featext的第二维度上的数目相等。
可优选的是,所述步骤4中构建复式协同结构下的双向注意力交互模型具体包括以下步骤:
步骤41:建立transformer注意力模块,所述transformer注意力模块包括前半部分和后半部分;所述前半部分为多头注意力机制,所述多头注意力机制包括三个基本的计算元素:问题Q、键K和值V,将所述问题Q、键K、值V映射到语义表示子空间获得Qi、Ki、Vi:
式中:Qi为问题Q映射到第i个语义表示子空间;Ki为键K映射到第i个语义表示子空间;Vi为值V映射到第i个语义表示子空间;Wi Q、Wi K、Wi V分别为问题Q、键K、值V映射到第i个子空间使用的参数矩阵;
计算每一个子空间中的注意力机制headi:
式中:dk为放缩比例因子;
将所述子空间的注意力机制headi进行拼接,获得拼接后的注意力机制MultiHead(Q,K,V):
所述后半部分为对所述拼接后的注意力机制MultiHead(Q,K,V)进行层归一化后再进行残差连接,获得输出out:
out=LayerNorm(Add(Q+MultiHead(Q,K,V)))
所述第一次特征交互具体为:将所述步骤2、步骤3中获得的文本特征Featext与对齐后的图像特征Feapic分别输入所述步骤41建立的transformer注意力模块,令Q11=Featext;K11=V11=Feapic;Q12=Feapic;K12=V12=Featext;获得上层注意力中间特征变量Feat_p a和Feap_t a;
步骤42:所述第二次特征交互具体为将步骤41获得的上层注意力中间特征变量Feat_p a和Feap_t a输入所述transformer注意力模块,令Q21=Feat_p a,K21=V21=Feap_t a,Q22=Feap_t b,K22=V22=Feat_p b,获得下层注意力中间特征变量Feat_p b和Feap_t b;
步骤43:所述Batch Normalization层优化具体为将步骤42得到的下层注意力中间特征变量Feat_p b和Feap_t b输入Batch Normalization层进行优化,获得带有交互信息的图像特征和带有交互信息的文本特征
进一步,所述步骤43中的Batch Normalization层优化具体为:对神经网络的层中的一个批次数据的输入计算均值μB和方差σB 2:
式中:xi代表一个样本;t为批的大小;
对每个元素进行标准化获得标准化样本xi′:
式中:ε为引入的极小量;
对获得的标准化样本xi′进行尺度缩放和偏移操作,补偿网络因为标准化而损失的非线性表达能力,实现恒等变换,获得网络输出yi:
yi=γi·xi′+βi
式中:γi=μB;βi=σB。
可优选的是,所述步骤5中的特征层融合方式包括:拼接、位置对应元素相乘、位置对应元素相加、克罗内克积;采用拼接方式进行特征层融合具体为:将所述步骤43中获得的带有交互信息的图像特征和带有交互信息的文本特征进行特征层融合,获得特征层融合后的特征Feabi:
进一步,所述步骤5中的关联类别信息具体为:对所述步骤5中获得的特征层融合后的特征Feabi通过一个卷积层关联类别信息,获得在m个类别上的联合模态表征信息Ffusion:
Ffusion=Conv(1,m)(Feabi)。
更进一步,所述步骤5中的分类预测具体为:对所述步骤5中获得的在m个类别上的联合模态表征信息Ffusion进行全局平均池化并压缩特征信息,再接Softmax激活函数,输出分类结果Result,做出最终分类预测:
Result=Softmax{GlobalAverage(Ffusion)}。
附图说明
图1为本发明实施例中基于复式协同结构特征重组网络的多模态数据融合方法的流程图;
图2为本发明实施例中基于复式协同结构特征重组网络的结构示意图;
图3为本发明实施例中的文本单模态模型测试集分类准确率示例;
图4为本发明实施例中的图像单模态模型测试集分类准确率示例;
图5为本发明实施例中的普通特征拼接操作下融合模型的测试集分类准确率示例;
图6为本发明实施例中的基于复式协同结构特征重组网络的多模态数据融合模型的测试集分类准确率示例。
具体实施方式
下面将结合本发明中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
以下,参照附图对本发明的实施方式进行说明。如图1-2所示,图1为本发明实施例中基于复式协同结构特征重组网络的多模态数据融合方法的流程图,介绍了从图像及文本原始数据进行预处理以及深度网络特征提取开始,将两个异构特征进行语义空间对齐,搭建基于复式协同结构的特征重组网络,进行双向特征重组,最后输入特征融合模块,得到联合模态表征,关联类别信息,实现分类决策的基本流程。图2为本发明实施例中基于复式协同结构特征重组网络的结构示意图,输入对齐后的图像特征及文本特征,依次进行上层双向注意力交互与下层注意力交互,得到两个特征变量,最后利用Batch Normalization层进行优化,输出重组特征。具体步骤如下:
步骤1:确定图像数据的预处理及特征提取网络;
(1a)首先对图像进行标准化处理:
其中,μ是像素均值,x表示图像像素矩阵,σ表示标准方差,N表示图像的像素数量,处理后的图像大小与通道数目与原图像保持一致。
(1b)搭建图像特征提取网络,结构依次为:①两层卷积层加一层最大池化层→②两层卷积层加一层最大池化层→③三层卷积层加一层最大池化层→④三层卷积层加一层池化层,其中,所有卷积层均使用二维卷积。设置网络参数如下:①两层卷积层的卷积核大小为3×3,卷积核数量为64;②两层卷积层的卷积核大小为3×3,卷积核数量为128;③三层卷积层的卷积核大小为3×3,卷积核数量为256;④三层卷积层的卷积核大小为3×3,卷积核数量为512。所有的最大池化层的下采样因子均为2×2,步长均为[2,2]。
实例中输入尺寸为(224,224,3)的图像样本,其特征提取过程如下:首先经过两次卷积一次池化,尺寸变为(112,112,128),再经过两次卷积和一次池化,尺寸变为(56,56,256),再经过三次卷积一次池化变成(28,28,512),再经过三次卷积一次池化变成(14,14,512),再进行三次卷积一次池化,变成(7,7,512)。
步骤2:确定文本数据的预处理及特征提取网络;
(2a)首先,对原始文本进行文本清洗,包括去除标点符号、去除无含义的停用词及统一字母大小写。接着进行文本索引化,将文本数据拆分为一系列的词,形成文本索引列表。由于不同文本材料的索引长度不一,继而进行索引长度标准化。假设leni为第i个样本的索引长度,所有样本的索引长度服从正态分布,取置信区间为0.95,则标准化的索引长度为lennorm:
其中,σN为标准方差;Nsamp为样本的个数,此时可以覆盖95%左右的样本。对于样本索引长度大于此标准化的样本索引长度时进行样本裁剪,对于样本索引长度小于此标准化的样本索引长度时进行样本补零填充。
(2b)构造基于GloVe的文本词向量模型,对文本进行编码,提取向量化的文本语义表达。具体实现分为以下两步:
a、根据语料库构建一个共现矩阵(Co-concurrence Matrix)X,矩阵中的每一个元素代表单词i和上下文单词j在特定大小的上下文窗口内共同出现的次数。根据两个单词在上下文窗口的距离d,计算衰减函数decay,用于计算权重。
b、构建词向量和共现矩阵之间的近似关系,构造损失函数:
其中,vi、vj分别是单词i和单词j的词向量,Xij为共现矩阵中单词i和上下文单词j在滑动的上下文窗口内共同出现的次数;bi、bj为偏置参数,f是权重函数,Nvoc为词汇表的大小。
实例选用300维的词向量编码,得到文本的二维数字矩阵表示。
(2c)构建文本特征提取网络,网络结构为:三条独立支路并联后与一个拼接层串联。独立支路包括:第一条支路、第二条支路、第三条支路;设置网络参数如下:第一条支路中卷积层的卷积核大小为3,卷积核数量为128,第二条支路中卷积层的卷积核大小为4,卷积核数量为128第三条支路中卷积层的卷积核大小为5,卷积核数量为128。
实例中词向量化文本表示的输入维度为(50,300),分别用大小为3,4,5的128个卷积核进行卷积,分别得到尺寸为(48,128),(47,128),(46,128)的中间特征,在第二维度上进行拼接,得到提取后的文本特征表示,尺寸为(141,128)
步骤3:对提取得到的图像特征与文本特征进行空间维度对齐处理,再输入复式协同结构特征重组网络,实现特征双向重组;
(3a)将图像特征与文本特征进行特征空间对齐,为后续双向交互创造先决条件。具体做法为:将图像(7,7,512)的三维特征的前两个维度合并,得到(49,512)的形状,再Reshape重构操作成(196,128),文本特征的形状为(141,128),目的是保证两个模态均处于二维特征空间,并且两个模态各自的第二个维度上的数目对齐。
(3b)构建复式协同结构下的双向注意力交互模型,进行特征双向重组。
建立单个transformer注意力模块,主要包括两个组成部分,前半部分为多头注意力机制。多头注意力机制中三个基本的计算元素分别是问题、键和值,用Q、K、V代表,在不同情景下有不同的实际填充。为了从多个角度理解特征,首先将Q、K、V映射到多个不同的语义表示子空间,即:
其中,Qi为问题Q映射到第i个语义表示子空间;Ki为键K映射到第i个语义表示子空间;Vi为值V映射到第i个语义表示子空间;Wi Q、Wi K、Wi V分别表示Q、K、V映射到第i个子空间使用的参数矩阵,每一个子空间中的注意力机制定义为:
然后将多个子空间的输出进行拼接,即:
out=LayerNorm(Add(Q+MultiHead(Q,K,V))) (9)
其中,层归一化保证数据特征分布的稳定性,残差连接防止网络退化。
复式协同结构特征重组网络设计呈现双层对称结构,Featext,Feapic输入两个对称的transformer注意力模块,令Q11=Featext,K11=V11=Feapic,Q12=Feapic,K12=V12=Featext,得到上层注意力中间特征变量Feat_p a,Feap_t a,在此基础上再次进行双向注意力交互,令Q21=Feat_p a,K21=V21=Feap_t a,Q22=Feap_t a,K22=V22=Feat_p a,得到下层注意力Feat_p b,Feap_t b。
此种基于复式结构的双向注意力交互机制相较于普通的transformer注意力机制对模态之间的交互更为深入,但使用梯度下降法搜寻最优点时容易陷入鞍点,为了得到更好的训练结果,本模型中在出口处加入了两个Batch Normalization层进行优化,来避免陷入鞍点的情况。Batch Normalization操作实现如下:
假设神经网络某层一个批次数据的输入为X=[x1,x2,…,xt],其中xi代表一个样本,t为批的大小。故得此批次数据里元素的均值和方差分别为:
其中,xi代表一个样本,t为批的大小,对每个元素都进行标准化:
为补偿网络因为标准化而损失的非线性表达能力,继而进行尺度缩放和偏移操作,实现恒等变换,即网络输出:
yi=γi·xi′+βi (13)
其中,γi=μB,βi=σB。
步骤4:将带有交互信息的两个新特征进行特征层融合,关联类别信息,进行分类预测;
将带有深度交互信息的两个新特征和进行特征层融合,采用拼接的方式整合dim维度上特征,即并通过一个卷积层关联类别信息,得到在m个类别上的联合模态表征信息Ffusion=Conv(1,m)(Feabi)。接着进行全局平均池化,压缩特征信息,并接Softmax激活函数,输出分类结果Resulf=Softmax{GlobalAverage(Ffusion)},做出最终分类预测。
实例使用Tensorflow深度学习框架搭建神经网络,使用Twitter图文推送公开数据集进行训练。批大小设置为64,迭代次数为50代,损失函数采用交叉熵函数,采用adam优化器来优化随机梯度下降过程,初始学习率为0.001。图3为只用步骤2中提取得到的文本特征进行分类的单模态模型;图4为只用步骤2中提取得到的图像特征进行分类的单模态模型;图5为将步骤(3a)中对齐后的图像与文本特征进行拼接后分类的普通多模态模型;图6为本发明中加入了复式协同结构特征重组网络的多模态数据。如图3所示,文本单模态模型测试集分类准确率为72.74%,如图4所示,图像单模态模型的测试集分类准确率为75.82%,如图5所示,普通特征拼接操作下融合模型的测试集分类准确率为76.56%,如图6所示,本发明中基于复式协同结构特征重组网络的多模态融合模型的测试集分类准确率为81.14%,结果体现了本发明融合方法的有效性。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有而各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。因注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
Claims (10)
1.一种基于复式协同结构特征重组网络的多模态数据融合方法,其特征在于,其包括以下步骤:
步骤1:进行数据的预处理,获得预处理后的数据,所述数据包括图像和文本;
步骤2:搭建数据特征提取网络,对所述步骤1中得到的预处理后的数据提取数据特征,获得图像特征和文本特征Featext,所述数据特征提取网络包括图像特征提取网络和文本特征提取网络;
步骤3:对所述步骤2中得到的图像特征进行空间维度对齐处理,获得对齐后的图像特征Feapic;
步骤4:构建复式协同结构下的双向注意力交互模型,将所述步骤2、步骤3中得到的文本特征Featext、对齐后的图像特征Feapic输入所述复式协同结构下的双向注意力交互模型,完成特征双向重组,获得带有交互信息的图像特征和带有交互信息的文本特征通过所述复式协同结构下的双向注意力交互模型进行特征双向重组的具体步骤为:
步骤41:建立transformer注意力模块,将所述步骤2、步骤3中获得的文本特征Featext、对齐后的图像特征Feapic输入所述transformer注意力模块,进行第一次特征交互,获得上层注意力中间特征变量Feat_p a和Feap_t a;
步骤42:将所述步骤41获得的上层注意力中间特征变量Feat_p a和Feap_t a输入所述transformer注意力模块,进行第二次特征交互,获得下层注意力中间特征变量Feat_p b和Feap_t b;
2.根据权利要求1所述的基于复式协同结构特征重组网络的多模态数据融合方法,其特征在于,所述步骤41中的transformer注意力模块包括前半部分和后半部分;所述前半部分为多头注意力机制,所述多头注意力机制包括三个基本的计算元素:问题Q、键K和值V,将所述问题Q、键K、值V映射到语义表示子空间获得Qi、Ki、Vi:
式中:Qi为问题Q映射到第i个语义表示子空间;Ki为键K映射到第i个语义表示子空间;Vi为值V映射到第i个语义表示子空间;Wi Q、Wi K、Wi V分别为问题Q、键K、值V映射到第i个子空间使用的参数矩阵;
计算每一个子空间中的注意力机制headi:
式中:dk为放缩比例因子;
将所述子空间的注意力机制headi进行拼接,获得拼接后的注意力机制MultiHead(Q,K,V):
所述后半部分为对所述拼接后的注意力机制MultiHead(Q,K,V)进行层归一化后再进行残差连接,获得输出out:
out=LayerNorm(Add(Q+MultiHead(Q,K,V)))
所述第一次特征交互具体为:将所述步骤2、步骤3中获得的文本特征Featext与对齐后的图像特征Feapic分别输入所述步骤41建立的transformer注意力模块,令:
Q11=Featext
K11=V11=Feapic
Q12=Feapic
K12=V12=Featext
获得上层注意力中间特征变量Feat_p a和Feap_t a。
3.根据权利要求1所述的基于复式协同结构特征重组网络的多模态数据融合方法,其特征在于,所述步骤42中的第二次特征交互具体为:将步骤41获得的上层注意力中间特征变量Feat_p a和Feap_t a输入所述transformer注意力模块,令:
Q21=Feat_p a
K21=V21=Feap_t a
Q22=Feap_t b
K22=V22=Feat_p b
获得下层注意力中间特征变量Feat_p b和Feap_t b。
5.根据权利要求1所述的基于复式协同结构特征重组网络的多模态数据融合方法,其特征在于,所述步骤1中数据的预处理具体包括以下步骤:
步骤11:对图像进行标准化处理:
式中:μ为像素均值;x为图像像素矩阵;σ为标准方差;N为图像的像素数量;
步骤12:对文本进行文本清洗,获得清洗后的文本,所述文本清洗包括:去除标点符号、去除无含义的停用词、统一字母大小写;
步骤13:将所述步骤12获得的清洗后的文本进行文本索引化,获得文本索引列表;
步骤14:进行索引长度标准化,当样本的索引长度服从正态分布时,取置信区间为0.95,此时标准化的索引长度lennorm为:
式中:leni为第i个样本的索引长度;σN为标准方差;Nsamp为样本的个数;
如果样本的索引长度大于标准化的索引长度lennorm,对样本进行裁剪;
如果样本的索引长度小于标准化的索引长度lennorm,对样本进行补零填充;
步骤15:构造基于GloVe的文本词向量模型,对文本进行编码,根据GloVe语料库构建共现矩阵X,根据两个单词在上下文窗口的距离计算衰减函数decay:
式中:d为两个单词在上下文窗口的距离;
步骤16:构建词向量和所述共现矩阵之间的近似关系,计算损失函数J:
式中:Xij为共现矩阵中单词i和上下文单词j在滑动的上下文窗口内共同出现的次数;vi为单词i的词向量;vj为单词j的词向量;bi、bj为偏置参数;f为权重函数;Nvoc为词汇表的大小。
6.根据权利要求1所述的基于复式协同结构特征重组网络的多模态数据融合方法,其特征在于,所述步骤2中搭建数据特征提取网络具体包括以下步骤:
步骤21:搭建图像特征提取网络,所述图像特征提取网络包括四层结构,依次为:第一层结构、第二层结构、第三层结构、第四层结构,所述第一层结构为两层卷积层加一层最大池化层;所述第一层结构的网络参数为两层卷积层的卷积核大小为3×3,卷积核数量为64;所述第二层结构为两层卷积层加一层最大池化层;所述第二层结构的网络参数为两层卷积层的卷积核大小为3×3,卷积核数量为128;所述第三层结构为三层卷积层加一层最大池化层;所述第三层结构的网络参数为三层卷积层的卷积核大小为3×3,卷积核数量为256;所述第四层结构为三层卷积层加一层池化层;所述卷积层使用二维卷积;所述第四层结构的网络参数为三层卷积层的卷积核大小为3×3,卷积核数量为512;所述最大池化层的下采样因子为2×2,步长为[2,2];
步骤22:构建文本特征提取网络,所述文本特征提取网络结构为:三条独立支路并联后与一个拼接层串联;所述独立支路包括:第一条支路、第二条支路、第三条支路;所述第一条支路为一维卷积层;所述第一条支路的网络参数为卷积层的一层卷积核大小为3,卷积核数量为128;所述第二条支路为一维卷积层;所述第二条支路的网络参数为卷积层的一层卷积核大小为4,卷积核数量为128;所述第三条支路为一维卷积层;所述第三条支路的网络参数为卷积层的一层卷积核大小为5,卷积核数量为128。
7.根据权利要求1所述的基于复式协同结构特征重组网络的多模态数据融合方法,其特征在于,所述步骤3中空间维度对齐处理具体包括以下步骤:
步骤31:将所述步骤2中的图像特征的前两个维度合并,获得合并后的图像特征;
步骤32:对所述步骤31中获得的合并后的图像特征进行Reshape重构操作,获得对齐后的图像特征Feapic,所述对齐后的图像特征Feapic与步骤2中获得的文本特征Featext均处于二维特征空间,所述对齐后的图像特征Feapic的第二维度上的数目与所述文本特征Featext的第二维度上的数目相等。
9.根据权利要求8所述的基于复式协同结构特征重组网络的多模态数据融合方法,其特征在于,所述步骤5中的关联类别信息具体为:对所述步骤5中获得的特征层融合后的特征Feabi通过一个卷积层关联类别信息,获得在m个类别上的联合模态表征信息Ffusion:
Ffusion=Conv(1,m)(Feabi)。
10.根据权利要求9所述的基于复式协同结构特征重组网络的多模态数据融合方法,其特征在于,所述步骤5中的分类预测具体为:对所述步骤5中获得的在m个类别上的联合模态表征信息Ffusion进行全局平均池化并压缩特征信息,再接Softmax激活函数,输出分类结果Result,做出最终分类预测:
Result=Softmax{GlobalAverage(Ffusion)}。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110763473.7A CN113378989B (zh) | 2021-07-06 | 2021-07-06 | 基于复式协同结构特征重组网络的多模态数据融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110763473.7A CN113378989B (zh) | 2021-07-06 | 2021-07-06 | 基于复式协同结构特征重组网络的多模态数据融合方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113378989A true CN113378989A (zh) | 2021-09-10 |
CN113378989B CN113378989B (zh) | 2022-05-17 |
Family
ID=77581199
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110763473.7A Active CN113378989B (zh) | 2021-07-06 | 2021-07-06 | 基于复式协同结构特征重组网络的多模态数据融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113378989B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114139641A (zh) * | 2021-12-02 | 2022-03-04 | 中国人民解放军国防科技大学 | 基于局部结构传递的多模态表征学习方法和系统 |
CN114398961A (zh) * | 2021-12-28 | 2022-04-26 | 西南交通大学 | 一种基于多模态深度特征融合的视觉问答方法及其模型 |
CN114626455A (zh) * | 2022-03-11 | 2022-06-14 | 北京百度网讯科技有限公司 | 金融信息处理方法、装置、设备、存储介质及产品 |
CN114636999A (zh) * | 2022-03-02 | 2022-06-17 | 中山大学 | 基于毫米波雷达实现人体姿态估计的多谱图融合方法及装置 |
CN115496928A (zh) * | 2022-09-30 | 2022-12-20 | 云南大学 | 基于多重特征匹配的多模态图像特征匹配方法 |
CN115661594A (zh) * | 2022-10-19 | 2023-01-31 | 海南港航控股有限公司 | 一种基于对齐和融合的图文多模态特征表示方法和系统 |
CN115880556A (zh) * | 2023-02-21 | 2023-03-31 | 北京理工大学 | 一种多模态数据融合处理方法、装置、设备及存储介质 |
CN116486420A (zh) * | 2023-04-12 | 2023-07-25 | 北京百度网讯科技有限公司 | 文档图像的实体抽取方法、装置及存储介质 |
CN117809242A (zh) * | 2023-12-27 | 2024-04-02 | 燕山大学 | 一种面向跨模态空间错位的双阶段特征对齐融合计数系统及方法 |
CN118228090A (zh) * | 2024-05-27 | 2024-06-21 | 南京信息工程大学 | 基于深度学习的数据库报警多模态关系提取方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110377710A (zh) * | 2019-06-17 | 2019-10-25 | 杭州电子科技大学 | 一种基于多模态融合的视觉问答融合增强方法 |
US20200344194A1 (en) * | 2019-04-29 | 2020-10-29 | Microsoft Technology Licensing, Llc | Purpose detection in communications using machine learning |
CN111985369A (zh) * | 2020-08-07 | 2020-11-24 | 西北工业大学 | 基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法 |
-
2021
- 2021-07-06 CN CN202110763473.7A patent/CN113378989B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200344194A1 (en) * | 2019-04-29 | 2020-10-29 | Microsoft Technology Licensing, Llc | Purpose detection in communications using machine learning |
CN110377710A (zh) * | 2019-06-17 | 2019-10-25 | 杭州电子科技大学 | 一种基于多模态融合的视觉问答融合增强方法 |
CN111985369A (zh) * | 2020-08-07 | 2020-11-24 | 西北工业大学 | 基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法 |
Non-Patent Citations (2)
Title |
---|
KEYAN DING: "《Social Media Popularity Prediction:A Multiple Feature Fusion Approach with Deep Neural Networks》", 《PROCEEDINGS OF THE 27TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA》 * |
邱南 等: "《基于复合图文特征的视觉问答模型研究》", 《计算机应用研究》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114139641B (zh) * | 2021-12-02 | 2024-02-06 | 中国人民解放军国防科技大学 | 基于局部结构传递的多模态表征学习方法和系统 |
CN114139641A (zh) * | 2021-12-02 | 2022-03-04 | 中国人民解放军国防科技大学 | 基于局部结构传递的多模态表征学习方法和系统 |
CN114398961A (zh) * | 2021-12-28 | 2022-04-26 | 西南交通大学 | 一种基于多模态深度特征融合的视觉问答方法及其模型 |
CN114636999A (zh) * | 2022-03-02 | 2022-06-17 | 中山大学 | 基于毫米波雷达实现人体姿态估计的多谱图融合方法及装置 |
CN114636999B (zh) * | 2022-03-02 | 2024-07-16 | 中山大学 | 基于毫米波雷达实现人体姿态估计的多谱图融合方法及装置 |
CN114626455A (zh) * | 2022-03-11 | 2022-06-14 | 北京百度网讯科技有限公司 | 金融信息处理方法、装置、设备、存储介质及产品 |
CN115496928A (zh) * | 2022-09-30 | 2022-12-20 | 云南大学 | 基于多重特征匹配的多模态图像特征匹配方法 |
CN115661594A (zh) * | 2022-10-19 | 2023-01-31 | 海南港航控股有限公司 | 一种基于对齐和融合的图文多模态特征表示方法和系统 |
CN115661594B (zh) * | 2022-10-19 | 2023-08-18 | 海南港航控股有限公司 | 一种基于对齐和融合的图文多模态特征表示方法和系统 |
CN115880556A (zh) * | 2023-02-21 | 2023-03-31 | 北京理工大学 | 一种多模态数据融合处理方法、装置、设备及存储介质 |
CN115880556B (zh) * | 2023-02-21 | 2023-05-02 | 北京理工大学 | 一种多模态数据融合处理方法、装置、设备及存储介质 |
CN116486420A (zh) * | 2023-04-12 | 2023-07-25 | 北京百度网讯科技有限公司 | 文档图像的实体抽取方法、装置及存储介质 |
CN116486420B (zh) * | 2023-04-12 | 2024-01-12 | 北京百度网讯科技有限公司 | 文档图像的实体抽取方法、装置及存储介质 |
CN117809242A (zh) * | 2023-12-27 | 2024-04-02 | 燕山大学 | 一种面向跨模态空间错位的双阶段特征对齐融合计数系统及方法 |
CN118228090A (zh) * | 2024-05-27 | 2024-06-21 | 南京信息工程大学 | 基于深度学习的数据库报警多模态关系提取方法 |
CN118228090B (zh) * | 2024-05-27 | 2024-08-30 | 南京信息工程大学 | 基于深度学习的数据库报警多模态关系提取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113378989B (zh) | 2022-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113378989B (zh) | 基于复式协同结构特征重组网络的多模态数据融合方法 | |
CN108363753B (zh) | 评论文本情感分类模型训练与情感分类方法、装置及设备 | |
JP7193252B2 (ja) | 画像の領域のキャプション付加 | |
CN107832400B (zh) | 一种基于位置的lstm和cnn联合模型进行关系分类的方法 | |
CN110490946B (zh) | 基于跨模态相似度和生成对抗网络的文本生成图像方法 | |
CN112101043B (zh) | 一种基于注意力的语义文本相似度计算方法 | |
CN111680159B (zh) | 数据处理方法、装置及电子设备 | |
CN110298037A (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN112734881B (zh) | 基于显著性场景图分析的文本合成图像方法及系统 | |
CN114092707A (zh) | 一种图像文本视觉问答方法、系统及存储介质 | |
CN114549850B (zh) | 一种解决模态缺失问题的多模态图像美学质量评价方法 | |
CN113822340A (zh) | 一种基于注意力机制的图文情感识别方法 | |
CN114676704B (zh) | 句子情感分析方法、装置、设备以及存储介质 | |
CN112667818A (zh) | 融合gcn与多粒度注意力的用户评论情感分析方法及系统 | |
CN113657115B (zh) | 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法 | |
CN114612921B (zh) | 表单识别方法、装置、电子设备和计算机可读介质 | |
CN116610778A (zh) | 基于跨模态全局与局部注意力机制的双向图文匹配方法 | |
CN113159831A (zh) | 一种基于改进的胶囊网络的评论文本情感分析方法 | |
CN115438215A (zh) | 图文双向搜索及匹配模型训练方法、装置、设备及介质 | |
CN115659987B (zh) | 基于双通道的多模态命名实体识别方法、装置以及设备 | |
CN111523301B (zh) | 合同文档合规性检查方法及装置 | |
CN116958700A (zh) | 一种基于提示工程和对比学习的图像分类方法 | |
CN116822513A (zh) | 一种融合实体类型与关键词特征的命名实体识别方法 | |
CN111104868B (zh) | 一种基于卷积神经网络特征的跨质量人脸识别方法 | |
CN112632971B (zh) | 一种用于实体匹配的词向量训练方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |