CN113378989B

CN113378989B - 基于复式协同结构特征重组网络的多模态数据融合方法

Info

Publication number: CN113378989B
Application number: CN202110763473.7A
Authority: CN
Inventors: 秦亮; 余金沄; 张敏; 韩谷静; 吴文炤; 赵峰; 许中平; 秦旭弘; 刘开培
Original assignee: Beijing Sgitg Accenture Information Technology Co ltd; Wuhan University WHU; State Grid Information and Telecommunication Co Ltd; Wuhan Textile University
Current assignee: Beijing Sgitg Accenture Information Technology Co ltd; Wuhan University WHU; State Grid Information and Telecommunication Co Ltd; Wuhan Textile University
Priority date: 2021-07-06
Filing date: 2021-07-06
Publication date: 2022-05-17
Anticipated expiration: 2041-07-06
Also published as: CN113378989A

Abstract

本发明提供一种基于复式协同结构特征重组网络的多模态数据融合方法。针对现有多模态数据融合技术主要是特征直接融合而忽视了模态与模态间的双向交互，存在多模态融合时特征间语义鸿沟的问题，本发明利用深度神经网络提取图像及文本单模态特征，建立基于transformer机制的图文双向交互注意力模型，挖掘图像和文本之间的特征联系，进行多模态的语义关联，并引入复式协同结构网络加深模态之间交互信息的贯通，进行多模态深层融合下的特征双向重组，实现图像与文本语义空间的对齐，更好地适应了神经网络对不同模态间互补信息的搜寻，增强模型对多模态语义的理解和泛化能力，进一步提高多模态特征网络的分类准确度。

Description

基于复式协同结构特征重组网络的多模态数据融合方法

技术领域

本发明涉及深度学习中的特征提取领域，具体地涉及一种基于复式协同结构特征重组网络的多模态数据融合方法。

背景技术

在深度学习领域中，由于单模态的数据进行单一的训练和预测，会存在数据利用率较低、无法反映关注对象各属性之间的关联性的情况。因此，需要从多维度建立起对这些数据的关联性和综合性分析，通过多模态特征融合的方式来达到更好的效果。特征层次的融合指不同多模态特征在早期进行关联，并将组合后的特征拉入后续统一分析，以提供更好的信息补充，但是不同模态特征之间存在语义不同步的问题。针对多模态特征融合技术，现有手段一般仅仅对各个模态的特征进行简单拼接、点乘、相加等操作，并没有考虑到模态之间的信息交互作用，对特征间语义鸿沟的难点解决不足，同时模态泛化能力不强，亟需探索更有效的融合方法。

发明内容

为了克服现有技术的不足，本发明的目的是提出一种基于基于复式协同结构特征重组网络的多模态数据融合方法。本发明提供的基于复式协同结构特征重组网络的多模态数据融合方法，在利用深度神经网络提取图像及文本单模态特征的前提下，建立基于transformer机制的图文双向交互注意力模型，挖掘图像和文本之间的特征联系，进行多模态的语义关联，引入复式协同结构网络加深模态之间交互信息的贯通，进行多模态深层融合下的特征双向重组，实现图像与文本语义空间的对齐，增强模型对多模态语义的理解和泛化能力。

本发明所采用的技术方案为：

一种基于复式协同结构特征重组网络的多模态数据融合方法，其特征在于，具体包括以下步骤：

步骤1：进行数据的预处理，获得预处理后的数据，所述数据包括图像和文本；

步骤2：搭建数据特征提取网络，对所述步骤1中得到的预处理后的数据提取数据特征，获得图像特征和文本特征Fea_text，所述数据特征提取网络包括图像特征提取网络和文本特征提取网络；

步骤3：对所述步骤2中得到的图像特征进行空间维度对齐处理，获得对齐后的图像特征Fea_pic；

步骤4：构建复式协同结构下的双向注意力交互模型，将所述步骤2、步骤3中得到的文本特征Fea_text、对齐后的图像特征Fea_pic输入所述复式协同结构下的双向注意力交互模型，完成特征双向重组，获得带有交互信息的图像特征

和带有交互信息的文本特征

通过所述复式协同结构下的双向注意力交互模型进行特征双向重组的具体步骤为：

步骤41：建立transformer注意力模块，将所述步骤2、步骤3中获得的文本特征Fea_text、对齐后的图像特征Fea_pic输入所述transformer注意力模块，进行第一次特征交互，获得上层注意力中间特征变量Fea_{t_p} ^a和Fea_{p_t} ^a；

步骤42：将所述步骤41获得的上层注意力中间特征变量Fea_{t_p} ^a和Fea_{p_t} ^a输入所述transformer注意力模块，进行第二次特征交互，获得下层注意力中间特征变量Fea_{t_p} ^b和Fea_{p_t} ^b；

步骤43：将所述步骤42获得的下层注意力中间特征变量Fea_{t_p} ^b和Fea_{p_t} ^b输入BatchNormalization层进行优化，获得带有交互信息的图像特征

和带有交互信息的文本特征

步骤5：将所述步骤4中获得的带有交互信息的图像特征

和带有交互信息的文本特征

进行特征层融合，对特征层融合后的特征关联类别信息，进行分类预测。

可优选的是，所述步骤1中数据的预处理具体包括以下步骤：

步骤11：对图像进行标准化处理：

式中：μ为像素均值；x为图像像素矩阵；σ为标准方差；N为图像的像素数量；

步骤12：对文本进行文本清洗，获得清洗后的文本，所述文本清洗包括：去除标点符号、去除无含义的停用词、统一字母大小写；

步骤13：将所述步骤12获得的清洗后的文本进行文本索引化，获得文本索引列表；

步骤14：进行索引长度标准化，当样本的索引长度服从正态分布时，取置信区间为0.95，此时标准化的索引长度len_norm为：

式中：len_i为第i个样本的索引长度；σ_N为标准方差；N_samp为样本的个数；

如果样本的索引长度大于标准化的索引长度len_norm，对样本进行裁剪；

如果样本的索引长度小于标准化的索引长度len_norm，对样本进行补零填充；

步骤15：构造基于GloVe的文本词向量模型，对文本进行编码，根据GloVe语料库构建共现矩阵X，根据两个单词在上下文窗口的距离计算衰减函数decay：

式中：d为两个单词在上下文窗口的距离；

步骤16：构建词向量和所述共现矩阵之间的近似关系，计算损失函数J：

式中：X_ij为共现矩阵中单词i和上下文单词j在滑动的上下文窗口内共同出现的次数；v_i为单词i的词向量；v_j为单词j的词向量；b_i、b_j为偏置参数；f为权重函数；N_voc为词汇表的大小。

可优选的是，所述步骤2中搭建数据特征提取网络具体包括以下步骤：

步骤21：搭建图像特征提取网络，所述图像特征提取网络包括四层结构，依次为：第一层结构、第二层结构、第三层结构、第四层结构，所述第一层结构为两层卷积层加一层最大池化层；所述第一层结构的网络参数为两层卷积层的卷积核大小为3×3，卷积核数量为64；所述第二层结构为两层卷积层加一层最大池化层；所述第二层结构的网络参数为两层卷积层的卷积核大小为3×3，卷积核数量为128；所述第三层结构为三层卷积层加一层最大池化层；所述第三层结构的网络参数为三层卷积层的卷积核大小为3×3，卷积核数量为256；所述第四层结构为三层卷积层加一层池化层；所述卷积层使用二维卷积；所述第四层结构的网络参数为三层卷积层的卷积核大小为3×3，卷积核数量为512；所述最大池化层的下采样因子为2×2，步长为[2，2]；

步骤22：构建文本特征提取网络，所述文本特征提取网络结构为：三条独立支路并联后与一个拼接层串联；所述独立支路包括：第一条支路、第二条支路、第三条支路；所述第一条支路为一维卷积层；所述第一条支路的网络参数为卷积层的一层卷积核大小为3，卷积核数量为128；所述第二条支路为一维卷积层；所述第二条支路的网络参数为卷积层的一层卷积核大小为4，卷积核数量为128；所述第三条支路为一维卷积层；所述第三条支路的网络参数为卷积层的一层卷积核大小为5，卷积核数量为128。

可优选的是，所述步骤3中空间维度对齐处理具体包括以下步骤：

步骤31：将所述步骤2中的图像特征的前两个维度合并，获得合并后的图像特征；

步骤32：对所述步骤31中获得的合并后的图像特征进行Reshape重构操作，获得对齐后的图像特征Fea_pic，所述对齐后的图像特征Fea_pic与步骤2中得到的文本特征Fea_text均处于二维特征空间，所述对齐后的图像特征Fea_pic的第二维度上的数目与所述文本特征Fea_text的第二维度上的数目相等。

可优选的是，所述步骤4中构建复式协同结构下的双向注意力交互模型具体包括以下步骤：

步骤41：建立transformer注意力模块，所述transformer注意力模块包括前半部分和后半部分；所述前半部分为多头注意力机制，所述多头注意力机制包括三个基本的计算元素：问题Q、键K和值V，将所述问题Q、键K、值V映射到语义表示子空间获得Q_i、K_i、V_i：

式中：Q_i为问题Q映射到第i个语义表示子空间；K_i为键K映射到第i个语义表示子空间；V_i为值V映射到第i个语义表示子空间；W_i ^Q、W_i ^K、W_i ^V分别为问题Q、键K、值V映射到第i个子空间使用的参数矩阵；

计算每一个子空间中的注意力机制head_i：

式中：d_k为放缩比例因子；

将所述子空间的注意力机制head_i进行拼接，获得拼接后的注意力机制MultiHead(Q，K，V)：

式中：

为向量拼接操作；W^o为拼接后做线性变换所需要的参数矩阵；m为模型的头数；

所述后半部分为对所述拼接后的注意力机制MultiHead(Q，K，V)进行层归一化后再进行残差连接，获得输出out：

out＝LayerNorm(Add(Q+MultiHead(Q，K，V)))

所述第一次特征交互具体为：将所述步骤2、步骤3中获得的文本特征Fea_text与对齐后的图像特征Fea_pic分别输入所述步骤41建立的transformer注意力模块，令Q₁₁＝Fea_text；K₁₁＝V₁₁＝Fea_pic；Q₁₂＝Fea_pic；K₁₂＝V₁₂＝Fea_text；获得上层注意力中间特征变量Fea_{t_p} ^a和Fea_{p_t} ^a；

步骤42：所述第二次特征交互具体为将步骤41获得的上层注意力中间特征变量Fea_{t_p} ^a和Fea_{p_t} ^a输入所述transformer注意力模块，令Q₂₁＝Fea_{t_p} ^a，K₂₁＝V₂₁＝Fea_{p_t} ^a，Q₂₂＝Fea_{p_t} ^a，K₂₂＝V₂₂＝Fea_{t_p} ^a，获得下层注意力中间特征变量Fea_{t_p} ^b和Fea_{p_t} ^b；

步骤43：所述Batch Normalization层优化具体为将步骤42得到的下层注意力中间特征变量Fea_{t_p} ^b和Fea_{p_t} ^b输入Batch Normalization层进行优化，获得带有交互信息的图像特征

和带有交互信息的文本特征

进一步，所述步骤43中的Batch Normalization层优化具体为：对神经网络的层中的一个批次数据的输入计算均值μ_B和方差σ_B ²：

式中：x_i代表一个样本；t为批的大小；

对每个元素进行标准化获得标准化样本x_i′：

式中：ε为引入的极小量；

对获得的标准化样本x_i′进行尺度缩放和偏移操作，补偿网络因为标准化而损失的非线性表达能力，实现恒等变换，获得网络输出y_i：

y_i＝γ_i·x_i′+β_i

式中：γ_i＝μ_B；β_i＝σ_B。

可优选的是，所述步骤5中的特征层融合方式包括：拼接、位置对应元素相乘、位置对应元素相加、克罗内克积；采用拼接方式进行特征层融合具体为：将所述步骤43中获得的带有交互信息的图像特征

和带有交互信息的文本特征

进行特征层融合，获得特征层融合后的特征Fea_bi：

进一步，所述步骤5中的关联类别信息具体为：对所述步骤5中获得的特征层融合后的特征Fea_bi通过一个卷积层关联类别信息，获得在m个类别上的联合模态表征信息F_fusion：

F_fusion＝Conv(1，m)(Fea_bi)。

更进一步，所述步骤5中的分类预测具体为：对所述步骤5中获得的在m个类别上的联合模态表征信息F_fusion进行全局平均池化并压缩特征信息，再接Softmax激活函数，输出分类结果Result，做出最终分类预测：

Result＝Softmax{GlobalAverage(F_fusion)}。

附图说明

图1为本发明实施例中基于复式协同结构特征重组网络的多模态数据融合方法的流程图；

图2为本发明实施例中基于复式协同结构特征重组网络的结构示意图；

图3为本发明实施例中的文本单模态模型测试集分类准确率示例；

图4为本发明实施例中的图像单模态模型测试集分类准确率示例；

图5为本发明实施例中的普通特征拼接操作下融合模型的测试集分类准确率示例；

图6为本发明实施例中的基于复式协同结构特征重组网络的多模态数据融合模型的测试集分类准确率示例。

具体实施方式

下面将结合本发明中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

以下，参照附图对本发明的实施方式进行说明。如图1-2所示，图1为本发明实施例中基于复式协同结构特征重组网络的多模态数据融合方法的流程图，介绍了从图像及文本原始数据进行预处理以及深度网络特征提取开始，将两个异构特征进行语义空间对齐，搭建基于复式协同结构的特征重组网络，进行双向特征重组，最后输入特征融合模块，得到联合模态表征，关联类别信息，实现分类决策的基本流程。图2为本发明实施例中基于复式协同结构特征重组网络的结构示意图，输入对齐后的图像特征及文本特征，依次进行上层双向注意力交互与下层注意力交互，得到两个特征变量，最后利用Batch Normalization层进行优化，输出重组特征。具体步骤如下：

步骤1：确定图像数据的预处理及特征提取网络；

(1a)首先对图像进行标准化处理：

其中，μ是像素均值，x表示图像像素矩阵，σ表示标准方差，N表示图像的像素数量，处理后的图像大小与通道数目与原图像保持一致。

(1b)搭建图像特征提取网络，结构依次为：①两层卷积层加一层最大池化层→②两层卷积层加一层最大池化层→③三层卷积层加一层最大池化层→④三层卷积层加一层池化层，其中，所有卷积层均使用二维卷积。设置网络参数如下：①两层卷积层的卷积核大小为3×3，卷积核数量为64；②两层卷积层的卷积核大小为3×3，卷积核数量为128；③三层卷积层的卷积核大小为3×3，卷积核数量为256；④三层卷积层的卷积核大小为3×3，卷积核数量为512。所有的最大池化层的下采样因子均为2×2，步长均为[2，2]。

实例中输入尺寸为(224，224，3)的图像样本，其特征提取过程如下：首先经过两次卷积一次池化，尺寸变为(112，112，128)，再经过两次卷积和一次池化，尺寸变为(56，56，256)，再经过三次卷积一次池化变成(28，28，512)，再经过三次卷积一次池化变成(14，14，512)，再进行三次卷积一次池化，变成(7，7，512)。

步骤2：确定文本数据的预处理及特征提取网络；

(2a)首先，对原始文本进行文本清洗，包括去除标点符号、去除无含义的停用词及统一字母大小写。接着进行文本索引化，将文本数据拆分为一系列的词，形成文本索引列表。由于不同文本材料的索引长度不一，继而进行索引长度标准化。假设len_i为第i个样本的索引长度，所有样本的索引长度服从正态分布，取置信区间为0.95，则标准化的索引长度为len_norm：

其中，σ_N为标准方差；N_samp为样本的个数，此时可以覆盖95％左右的样本。对于样本索引长度大于此标准化的样本索引长度时进行样本裁剪，对于样本索引长度小于此标准化的样本索引长度时进行样本补零填充。

(2b)构造基于GloVe的文本词向量模型，对文本进行编码，提取向量化的文本语义表达。具体实现分为以下两步：

a、根据语料库构建一个共现矩阵(Co-concurrence Matrix)X，矩阵中的每一个元素代表单词i和上下文单词j在特定大小的上下文窗口内共同出现的次数。根据两个单词在上下文窗口的距离d，计算衰减函数decay，用于计算权重。

b、构建词向量和共现矩阵之间的近似关系，构造损失函数：

其中，v_i、v_j分别是单词i和单词j的词向量，X_ij为共现矩阵中单词i和上下文单词j在滑动的上下文窗口内共同出现的次数；b_i、b_j为偏置参数，f是权重函数，N_voc为词汇表的大小。

实例选用300维的词向量编码，得到文本的二维数字矩阵表示。

(2c)构建文本特征提取网络，网络结构为：三条独立支路并联后与一个拼接层串联。独立支路包括：第一条支路、第二条支路、第三条支路；设置网络参数如下：第一条支路中卷积层的卷积核大小为3，卷积核数量为128，第二条支路中卷积层的卷积核大小为4，卷积核数量为128第三条支路中卷积层的卷积核大小为5，卷积核数量为128。

实例中词向量化文本表示的输入维度为(50，300)，分别用大小为3，4，5的128个卷积核进行卷积，分别得到尺寸为(48，128)，(47，128)，(46，128)的中间特征，在第二维度上进行拼接，得到提取后的文本特征表示，尺寸为(141，128)

步骤3：对提取得到的图像特征与文本特征进行空间维度对齐处理，再输入复式协同结构特征重组网络，实现特征双向重组；

(3a)将图像特征与文本特征进行特征空间对齐，为后续双向交互创造先决条件。具体做法为：将图像(7，7，512)的三维特征的前两个维度合并，得到(49，512)的形状，再Reshape重构操作成(196，128)，文本特征的形状为(141，128)，目的是保证两个模态均处于二维特征空间，并且两个模态各自的第二个维度上的数目对齐。

(3b)构建复式协同结构下的双向注意力交互模型，进行特征双向重组。

建立单个transformer注意力模块，主要包括两个组成部分，前半部分为多头注意力机制。多头注意力机制中三个基本的计算元素分别是问题、键和值，用Q、K、V代表，在不同情景下有不同的实际填充。为了从多个角度理解特征，首先将Q、K、V映射到多个不同的语义表示子空间，即：

其中，Q_i为问题Q映射到第i个语义表示子空间；K_i为键K映射到第i个语义表示子空间；V_i为值V映射到第i个语义表示子空间；W_i ^Q、W_i ^K、W_i ^V分别表示Q、K、V映射到第i个子空间使用的参数矩阵，每一个子空间中的注意力机制定义为：

然后将多个子空间的输出进行拼接，即：

其中，

为向量拼接操作，W^o为拼接后做线性变换所需要的参数矩阵，m为模型的头数。后半部分进行了层归一化以及残差连接，即：

out＝LayerNorm(Add(Q+MultiHead(Q，K，V))) (9)

其中，层归一化保证数据特征分布的稳定性，残差连接防止网络退化。

复式协同结构特征重组网络设计呈现双层对称结构，Fea_text，Fea_pic输入两个对称的transformer注意力模块，令Q₁₁＝Fea_text，K₁₁＝V₁₁＝Fea_pic，Q₁₂＝Fea_pic，K₁₂＝V₁₂＝Fea_text，得到上层注意力中间特征变量Fea_{t_p} ^a，Fea_{p_t} ^a，在此基础上再次进行双向注意力交互，令Q₂₁＝Fea_{t_p} ^a，K₂₁＝V₂₁＝Fea_{p_t} ^a，Q₂₂＝Fea_{p_t} ^a，K₂₂＝V₂₂＝Fea_{t_p} ^a，得到下层注意力Fea_{t_p} ^b，Fea_{p_t} ^b。

此种基于复式结构的双向注意力交互机制相较于普通的transformer注意力机制对模态之间的交互更为深入，但使用梯度下降法搜寻最优点时容易陷入鞍点，为了得到更好的训练结果，本模型中在出口处加入了两个Batch Normalization层进行优化，来避免陷入鞍点的情况。Batch Normalization操作实现如下：

假设神经网络某层一个批次数据的输入为X＝[x₁，x₂，...，x_t]，其中x_i代表一个样本，t为批的大小。故得此批次数据里元素的均值和方差分别为：

其中，x_i代表一个样本，t为批的大小，对每个元素都进行标准化：

为补偿网络因为标准化而损失的非线性表达能力，继而进行尺度缩放和偏移操作，实现恒等变换，即网络输出：

y_i＝γ_i·x_i′+β_i (13)

其中，γ_i＝μ_B，β_i＝σ_B。

步骤4：将带有交互信息的两个新特征进行特征层融合，关联类别信息，进行分类预测；

将带有深度交互信息的两个新特征

和

进行特征层融合，采用拼接的方式整合dim维度上特征，即

并通过一个卷积层关联类别信息，得到在m个类别上的联合模态表征信息F_fusion＝Conv(1，m)(Fea_bi)。接着进行全局平均池化，压缩特征信息，并接Softmax激活函数，输出分类结果Result＝Softmax{GlobalAverage(F_fusion)}，做出最终分类预测。

实例使用Tensorflow深度学习框架搭建神经网络，使用Twitter图文推送公开数据集进行训练。批大小设置为64，迭代次数为50代，损失函数采用交叉熵函数，采用adam优化器来优化随机梯度下降过程，初始学习率为0.001。图3为只用步骤2中提取得到的文本特征进行分类的单模态模型；图4为只用步骤2中提取得到的图像特征进行分类的单模态模型；图5为将步骤(3a)中对齐后的图像与文本特征进行拼接后分类的普通多模态模型；图6为本发明中加入了复式协同结构特征重组网络的多模态数据。如图3所示，文本单模态模型测试集分类准确率为72.74％，如图4所示，图像单模态模型的测试集分类准确率为75.82％，如图5所示，普通特征拼接操作下融合模型的测试集分类准确率为76.56％，如图6所示，本发明中基于复式协同结构特征重组网络的多模态融合模型的测试集分类准确率为81.14％，结果体现了本发明融合方法的有效性。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有而各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。因注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

Claims

1.一种基于复式协同结构特征重组网络的多模态数据融合方法，其特征在于，其包括以下步骤：

和带有交互信息的文本特征

和带有交互信息的文本特征

步骤5：将所述步骤4中获得的带有交互信息的图像特征

和带有交互信息的文本特征

2.根据权利要求1所述的基于复式协同结构特征重组网络的多模态数据融合方法，其特征在于，所述步骤41中的transformer注意力模块包括前半部分和后半部分；所述前半部分为多头注意力机制，所述多头注意力机制包括三个基本的计算元素：问题Q、键K和值V，将所述问题Q、键K、值V映射到语义表示子空间获得Q_i、K_i、V_i：

计算每一个子空间中的注意力机制head_i：

式中：d_k为放缩比例因子；

将所述子空间的注意力机制head_i进行拼接，获得拼接后的注意力机制MultiHead(Q,K,V)：

式中：

所述后半部分为对所述拼接后的注意力机制MultiHead(Q,K,V)进行层归一化后再进行残差连接，获得输出out：

out＝LayerNorm(Add(Q+MultiHead(Q,K,V)))

所述第一次特征交互具体为：将所述步骤2、步骤3中获得的文本特征Fea_text与对齐后的图像特征Fea_pic分别输入所述步骤41建立的transformer注意力模块，令：

Q₁₁＝Fea_text

K₁₁＝V₁₁＝Fea_pic

Q₁₂＝Fea_pic

K₁₂＝V₁₂＝Fea_text

获得上层注意力中间特征变量Fea_{t_p} ^a和Fea_{p_t} ^a。

3.根据权利要求2所述的基于复式协同结构特征重组网络的多模态数据融合方法，其特征在于，所述步骤42中的第二次特征交互具体为：将步骤41获得的上层注意力中间特征变量Fea_{t_p} ^a和Fea_{p_t} ^a输入所述transformer注意力模块，令：

Q₂₁＝Fea_{t_p} ^a

K₂₁＝V_21＝Fea_{p_t} ^a

Q₂₂＝Fea_{p_t} ^a

K₂₂＝V₂₂＝Fea_{t_p} ^a

获得下层注意力中间特征变量Fea_{t_p} ^b和Fea_{p_t} ^b。

4.根据权利要求1所述的基于复式协同结构特征重组网络的多模态数据融合方法，其特征在于，所述步骤43中的Batch Normalization层优化具体为：对神经网络的层中的一个批次数据的输入计算均值μ_B和方差σ_B ²：

式中：x_i代表一个样本；t为批的大小；

对每个元素进行标准化获得标准化样本x_i′：

式中：ε为引入的极小量；

y_i＝γ_i•x_i′+β_i

式中：γ_i＝μ_B；β_i＝σ_B。

5.根据权利要求1所述的基于复式协同结构特征重组网络的多模态数据融合方法，其特征在于，所述步骤1中数据的预处理具体包括以下步骤：

步骤11：对图像进行标准化处理：

式中：d为两个单词在上下文窗口的距离；

6.根据权利要求1所述的基于复式协同结构特征重组网络的多模态数据融合方法，其特征在于，所述步骤2中搭建数据特征提取网络具体包括以下步骤：

步骤21：搭建图像特征提取网络，所述图像特征提取网络包括四层结构，依次为：第一层结构、第二层结构、第三层结构、第四层结构，所述第一层结构为两层卷积层加一层最大池化层；所述第一层结构的网络参数为两层卷积层的卷积核大小为3×3，卷积核数量为64；所述第二层结构为两层卷积层加一层最大池化层；所述第二层结构的网络参数为两层卷积层的卷积核大小为3×3，卷积核数量为128；所述第三层结构为三层卷积层加一层最大池化层；所述第三层结构的网络参数为三层卷积层的卷积核大小为3×3，卷积核数量为256；所述第四层结构为三层卷积层加一层池化层；所述卷积层使用二维卷积；所述第四层结构的网络参数为三层卷积层的卷积核大小为3×3，卷积核数量为512；所述最大池化层的下采样因子为2×2，步长为[2,2]；

7.根据权利要求1所述的基于复式协同结构特征重组网络的多模态数据融合方法，其特征在于，所述步骤3中空间维度对齐处理具体包括以下步骤：

步骤32：对所述步骤31中获得的合并后的图像特征进行Reshape重构操作，获得对齐后的图像特征Fea_pic，所述对齐后的图像特征Fea_pic与步骤2中获得的文本特征Fea_text均处于二维特征空间，所述对齐后的图像特征Fea_pic的第二维度上的数目与所述文本特征Fea_text的第二维度上的数目相等。

8.根据权利要求1所述的基于复式协同结构特征重组网络的多模态数据融合方法，其特征在于，所述步骤5中的特征层融合方式包括：拼接、位置对应元素相乘、位置对应元素相加、克罗内克积；采用拼接方式进行特征层融合具体为：将所述步骤43中获得的带有交互信息的图像特征

和带有交互信息的文本特征

进行特征层融合，获得特征层融合后的特征Fea_bi：

9.根据权利要求8所述的基于复式协同结构特征重组网络的多模态数据融合方法，其特征在于，所述步骤5中的关联类别信息具体为：对所述步骤5中获得的特征层融合后的特征Fea_bi通过一个卷积层关联类别信息，获得在m个类别上的联合模态表征信息F_fusion：

F_fusion＝Conv(1,m)(Fea_bi)。

10.根据权利要求9所述的基于复式协同结构特征重组网络的多模态数据融合方法，其特征在于，所述步骤5中的分类预测具体为：对所述步骤5中获得的在m个类别上的联合模态表征信息F_fusion进行全局平均池化并压缩特征信息，再接Softmax激活函数，输出分类结果Result，做出最终分类预测：

Result＝Softmax{GlobalAverage(F_fusion)}。