CN115470856A

CN115470856A - 一种基于语义信息量的多模态数据融合方法及应用

Info

Publication number: CN115470856A
Application number: CN202211123886.XA
Authority: CN
Inventors: 华蓓; 董寅灏; 宋骐
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2022-09-15
Filing date: 2022-09-15
Publication date: 2022-12-13

Abstract

本发明公开了一种基于语义信息量的多模态数据融合方法及应用，该方法包括：1、构建多模态数据集合，2、计算多模态数据集合中各样本模态的语义信息量，3、构建基于语义信息量的多模态数据融合模型，4、模型训练。本发明能定量刻画多模态数据样本内容与语义标签的一致性程度，从而能使得多模态数据融合的过程具有一定的可解释性，解决多模态数据标注过程中引入的样本数据内容与语义标签不一致的问题。

Description

一种基于语义信息量的多模态数据融合方法及应用

技术领域

本发明属于多模态数据融合领域，具体地说是一种基于语义信息量的多模态数据融合方法及其应用。

背景技术

多模态数据融合通过联合多个模态的信息进行目标预测(分类或者回归)，以提高单个模态的预测精度，一直以来都是多模态机器学习的重要研究内容。现有的多模态数据融合方法通常假设：(1)一致性：每个模态都包含充分的、与目标任务相关的语义信息，各个模态可以得到一致的预测结果；(2)互补性：每个模态的数据包含了其他模态欠缺的信息，从而不同模态可以相互补充，提高预测精度。然而在实际应用中，由于多模态数据采集和标注过程中存在的一些问题，上述假设并不总是成立，具体表现为数据样本中某个模态的内容可能与其语义标签不符。因此，如何判断数据样本中每个模态的置信水平，对语义表达质量不一致的多模态数据进行有效融合是值得研究的问题。

根据信息融合发生的阶段不同，现有的多模态数据融合方法大致可分为早期融合、晚期融合和混合融合三大类。早期融合也称特征级融合，是在输入特征层上对不同模态进行融合。通常首先提取不同模态输入信号的特征，然后对不同模态的特征进行简单拼接。这种方法易于实现，但随着模态数量的增加，融合后的特征维数可能很高，且这种方法没有考虑不同模态特征之间的差异性。晚期融合也称决策级融合，是在决策层对不同模态进行融合。通常每个模态先单独训练一个分类器，然后对各模态的预测结果进行投票或加权。这种方法的融合过程与特征无关，且来自多个模型的错误通常是不相关的。早期融合和晚期融合都没有考虑模态内和模态间的相互作用，不能充分利用模态之间的一致性和互补性。混合融合结合了早期融合和晚期融合方法的优势，通常在早期先分别提取各模态的特征，然后逐步引入模态内和模态间的信息交互。混合融合是目前多模态融合的主流方法，特别是注意力机制的提出为模态内和模态间相互作用提供了有效的建模手段。然而，基于注意力机制的多模态融合算法大多针对特定任务或场景设计，缺乏通用性；并且缺乏对不同模态数据质量的显式刻画，可解释性不强。虽然模型会自动学习注意力权重，但注意力权重分配的粒度较细，通常是区域级甚至元素级的，且注意力权重蕴含了模态内与模态间的相互作用关系，与样本模态数据质量之间的关系并不直观，对于融合算法的设计缺乏直接的指导作用。

发明内容

本发明是为了解决上述现有技术存在的不足之处，提出一种基于语义信息量的多模态数据融合方法及应用，以期能定量刻画多模态数据样本内容与语义标签的一致性程度，从而能使得多模态数据融合的过程具有一定的可解释性，解决多模态数据标注过程中引入的样本数据内容与语义标签不一致的问题。

本发明为达到上述发明目的，采用如下技术方案：

本发明一种基于语义信息量的多模态数据融合方法的特点在于，包括如下步骤：

步骤1、构建多模态数据集合，记为

其中，x_k表示第k个多模态数据样本，且

其中，

表示所述第k个多模态数据样本x_k中的第m个模态数据，M表示模态的数量；y_k表示第k个多模态数据样本x_k对应的标签，且y_k∈{1,2,…,L}，L表示标签种类数，N表示多模态数据样本的数量；

步骤2、计算多模态数据集合

中各样本模态的语义信息量；

步骤2.1、从所述多模态数据集合

中获取第c种标签所对应的多模态数据样本并构成集合

利用式(1)计算集合

中第i个多模态数据样本的第m个模态数据

与任意第j个多模态数据样本的第m个模态数据

的平均语义相似度

从而得到集合

中每个样本的第m个模态数据与其他样本的第m个模态数据的平均语义相似度构成的集合

式(1)中，f(·)表示模态特征提取函数，s(·,·)表示用于计算特征相似度的函数，

表示集合

中样本的数量；

步骤2.2、利用式(2)计算集合

中任意第i个多模态数据样本的第m个模态数据

与任意第j个多模态数据样本的第m个模态数据

的语义相似度的均值

步骤2.3、利用式(3)计算集合

的标准差

步骤2.4、利用式(4)对平均语义相似度

进行标准化，得到集合

中第i个多模态数据样本的第m个模态数据

的标准化的平均语义相似度

步骤2.5、利用式(5)计算所述多模态数据集合

中第k个多模态数据样本x_k中的第m个模态数据

的语义信息量

式(5)中，

表示第k个多模态数据样本x_k中的第m个模态数据

的标准化的平均语义相似度；

步骤3、构建基于语义信息量的多模态数据融合模型，包括：特征提取模块、语义信息量学习模块、多模态数据融合模块和输出分类层；

步骤3.1、所述特征提取模块的处理；

所述特征提取模块包括N₁个提取块；每个提取块依次包括一个卷积层、一个批标准化层、一个ReLU激活层和一个随机失活层；其中，任意第n₁个提取块中的卷积核大小为

步长为

随机失活层的失活概率为

当n₁＝1时，第m个模态数据

输入第n₁个提取块中进行处理，得到第n₁个特征表示

当n₁＝2,3,…,N₁时，第n₁-1个特征表示

输入第n₁个提取块中进行处理，得到第n₁个特征表示

从而由第N₁个提取块输出第N₁个特征表示

D表示第N₁个特征表示的维度；

所述特征提取模块将第k个多模态数据样本x_k中M个模态数据的第N₁个特征表示进行连接后，得到所述第k个多模态数据样本x_k对应的特征表示

步骤3.2、所述语义信息量学习模块的处理；

所述语义信息量学习模块依次包括：一个卷积层、一个批标准化层、一个ReLU激活层、一个随机失活层和一个跨模态注意力层；

所述第k个多模态数据样本x_k对应的特征表示Z_k输入所述语义信息量学习模块中，并依次通过所述卷积层、批标准化层、ReLU激活层、随机失活层的处理后，得到包含全局上下文的多模态特征表示

D′表示包含全局上下文的多模态特征表示的维度；

所述跨模态注意力层利用式(6)对所述第k个多模态数据样本x_k对应的特征表示Z_k和所述包含全局上下文的多模态特征表示Z_k′进行处理，得到所述第k个多模态数据样本x_k的语义分数

式(6)中，K(·)表示注意力机制中的键函数，且

Q(·)表示注意力机制中的查询函数，且

h为隐空间的维度；Softmax(·)表示归一化指数函数；

步骤3.3、所述多模态数据融合模块的处理；

所述多模态数据融合模块利用式(7)得到所述第k个多模态数据样本x_k的融合特征表示

式(7)中，V(·)表示注意力机制中的值函数，且

步骤3.4、所述输出分类层利用式(8)得到所述第k个多模态数据样本x_k预测的概率分布

式(8)中，MLP(·)表示多层感知机模型；

步骤4、模型训练；

步骤4.1、利用式(9)和式(10)分别得到模型分类的损失

和模型学习语义信息量的损失

从而利用式(11)得到模型最终的损失函数

式(9)-式(11)中，y_k表示所述多模态数据集合

中第k个多模态数据样本x_k对应标签y_k的独热向量表示，CE(·)表示交叉熵损失函数，

表示所述第k个多模态数据样本x_k中第m个模态数据

的语义分数，MSE(·)表示均方误差损失函数，λ表示权重系数，用于平衡交叉熵损失项和均方误差损失项；

步骤4.2、设置最大训练轮数epoch_number，利用反向传播和梯度下降法对所述基于语义信息量的多模态数据融合模型进行训练，并计算所述损失函数

的值，当训练轮数达到epoch_number或所述损失函数的值连续一定轮数不下降时，停止训练，使得损失函数

的值达到最小，从而得到包含最优参数的多模态数据融合模型，用于实现对任意多模态数据的融合。

本发明一种电子设备，包括存储器以及处理器，其特点在于，所述存储器用于存储支持处理器执行所述多模态数据融合方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

本发明一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，其特点在于，所述计算机程序被处理器运行时执行所述多模态数据融合方法的步骤。

与现有技术相比，本发明的有益效果在于：

1、本发明通过引入语义信息量对多模态数据样本内容与其语义标签的一致性程度进行刻画，解决了多模态数据标注过程中引入的样本数据内容与语义标签不一致的问题，并基于语义信息量设计相应的多模态数据融合模型，有效提高了现有多模态数据融合模型在实际应用中的精度，并使得模型具有一定的通用性和可解释性。

2、本发明提出刻画多模态数据样本内容与语义标签一致性程度的语义信息量概念及计算方法，通过借鉴无监督学习的思想，并引入人的直觉对样本模态的质量进行显式刻画，从而提高了多模态数据融合的可解释性。

3、本发明基于模型学习出的样本模态的语义信息量对多模态数据进行融合，且能感知多模态数据全局的语义信息。相比于现有的多模态数据融合方法，该方法中不包含针对特定任务或场景的设计细节，具有一定的通用性。

附图说明

图1为本发明基于语义信息量的多模态数据融合方法的流程图。

具体实施方式

本实施例中，如图1所示，一种基于语义信息量的多模态数据融合方法首先对输入多模态数据的各模态进行特征提取，然后在此基础上学习各模态的语义信息量，即各模态对标签语义的表达程度，最后将语义信息量作为权重指导多模态数据的融合过程。具体地说，是按如下步骤进行：

步骤1、构建多模态数据集合，记为

其中，x_k表示第k个多模态数据样本，且

其中，

表示第k个多模态数据样本x_k中的第m个模态数据，M表示模态的数量；y_k表示第k个多模态数据样本x_k对应的标签，且y_k∈{1,2,…,L}，L表示标签种类数，N表示多模态数据样本的数量；

步骤2、计算多模态数据集合

中各样本模态的语义信息量；

步骤2.1、从多模态数据集合

中获取第c种标签所对应的多模态数据样本并构成集合

利用式(1)计算集合

中第i个多模态数据样本的第m个模态数据

与任意第j个多模态数据样本的第m个模态数据

的平均语义相似度

从而得到集合

式(1)中，f(·)表示模态特征提取函数，本实施例中，采用三层卷积神经网络，s(·,·)表示用于计算特征相似度的函数，本实施例中，采用余弦相似度函数，

表示集合

中样本的数量；

步骤2.2、利用式(2)计算集合

中任意第i个多模态数据样本的第m个模态数据

与任意第j个多模态数据样本的第m个模态数据

的语义相似度的均值

步骤2.3、利用式(3)计算集合

的标准差

步骤2.4、利用式(4)对平均语义相似度

进行标准化，得到集合

中第i个多模态数据样本的第m个模态数据

的标准化的平均语义相似度

从而使得其数值在不同类别标签间具有可比性：

步骤2.5、利用式(5)计算多模态数据集合

中第k个多模态数据样本x_k中的第m个模态数据

的语义信息量

从而使得其数值在不同模态间具有可比性：

式(5)中，

表示第k个多模态数据样本x_k中的第m个模态数据

的标准化的平均语义相似度；

步骤3.1、特征提取模块的处理；

特征提取模块包括N₁个提取块；每个提取块依次包括一个卷积层、一个批标准化层、一个ReLU激活层和一个随机失活层；其中，任意第n₁个提取块中的卷积核大小为

步长为

随机失活层的失活概率为

当n₁＝1时，第m个模态数据

输入第n₁个提取块中进行处理，得到第n₁个特征表示

当n₁＝2,3,…,N₁时，第n₁-1个特征表示

输入第n₁个提取块中进行处理，得到第n₁个特征表示

从而由第N₁个提取块输出第N₁个特征表示

D表示第N₁个特征表示的维度；

特征提取模块将第k个多模态数据样本x_k中M个模态数据的第N₁个特征表示进行连接后，得到第k个多模态数据样本x_k对应的特征表示

步骤3.2、语义信息量学习模块的处理；

语义信息量学习模块依次包括：一个卷积层、一个批标准化层、一个ReLU激活层、一个随机失活层和一个跨模态注意力层；

第k个多模态数据样本x_k对应的特征表示Z_k输入语义信息量学习模块中，并依次通过卷积层、批标准化层、ReLU激活层、随机失活层的处理后，得到包含全局上下文的多模态特征表示

D′表示包含全局上下文的多模态特征表示的维度；

跨模态注意力层利用式(6)对第k个多模态数据样本x_k对应的特征表示Z_k和包含全局上下文的多模态特征表示Z_k′进行处理，得到第k个多模态数据样本x_k的语义分数

式(6)中，K(·)表示注意力机制中的键函数，且

Q(·)表示注意力机制中的查询函数，且

h为隐空间的维度；Softmax(·)表示归一化指数函数；

步骤3.3、多模态数据融合模块的处理；

多模态数据融合模块利用式(7)得到第k个多模态数据样本x_k的融合特征表示

从而使得融合过程具有一定的可解释性，且融合后的特征表示能够感知全局语义信息：

式(7)中，V(·)表示注意力机制中的值函数，且

步骤3.4、输出分类层利用式(8)得到第k个多模态数据样本x_k预测的概率分布

式(8)中，MLP(·)表示多层感知机模型；

步骤4、模型训练；

步骤4.1、利用式(9)和式(10)分别得到模型分类的损失

和模型学习语义信息量的损失

从而利用式(11)得到模型最终的损失函数

一方面使得模型的分类结果尽可能准确，另一方面使得模型学习出的语义分数尽可能接近由式(5)计算出的值，从而提供更好的可解释性：

式(9)-式(11)中，y_k表示多模态数据集合

表示第k个多模态数据样本x_k中第m个模态数据

的语义分数，MSE(·)表示均方误差损失函数，λ表示权重系数，用于平衡交叉熵损失项和均方误差损失项，本实施例中，λ＝0.1；

步骤4.2、设置最大训练轮数epoch_number＝60，利用反向传播和梯度下降法对基于语义信息量的多模态数据融合模型进行训练，并计算损失函数

的值，本实施例中，梯度下降法采用学习率η＝0.0001，指数衰减率β₁＝0.5,β₂＝0.9的Adam优化算法，当训练轮数达到epoch_number或损失函数的值连续一定轮数不下降时，停止训练，使得损失函数

本实施例中，一种电子设备，包括存储器以及处理器，该存储器用于存储支持处理器执行上述多模态数据融合方法的程序，该处理器被配置为用于执行该存储器中存储的程序。

本实施例中，一种计算机可读存储介质，是在计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时上述多模态数据融合方法的步骤。

Claims

1.一种基于语义信息量的多模态数据融合方法，其特征在于，包括如下步骤：

步骤1、构建多模态数据集合，记为

其中，x_k表示第k个多模态数据样本，且

其中，

步骤2、计算多模态数据集合

中各样本模态的语义信息量；

步骤2.1、从所述多模态数据集合

中获取第c种标签所对应的多模态数据样本并构成集合

利用式(1)计算集合

中第i个多模态数据样本的第m个模态数据

与任意第j个多模态数据样本的第m个模态数据

的平均语义相似度

从而得到集合

表示集合

中样本的数量；

步骤2.2、利用式(2)计算集合

中任意第i个多模态数据样本的第m个模态数据

与任意第j个多模态数据样本的第m个模态数据

的语义相似度的均值

步骤2.3、利用式(3)计算集合

的标准差

步骤2.4、利用式(4)对平均语义相似度

进行标准化，得到集合

中第i个多模态数据样本的第m个模态数据

的标准化的平均语义相似度

步骤2.5、利用式(5)计算所述多模态数据集合

中第k个多模态数据样本x_k中的第m个模态数据

的语义信息量

式(5)中，

表示第k个多模态数据样本x_k中的第m个模态数据

的标准化的平均语义相似度；

步骤3.1、所述特征提取模块的处理；

步长为

随机失活层的失活概率为

当n₁＝1时，第m个模态数据

输入第n₁个提取块中进行处理，得到第n₁个特征表示

当n₁＝2,3,…,N₁时，第n₁-1个特征表示

输入第n₁个提取块中进行处理，得到第n₁个特征表示

从而由第N₁个提取块输出第N₁个特征表示

D表示第N₁个特征表示的维度；

步骤3.2、所述语义信息量学习模块的处理；

D′表示包含全局上下文的多模态特征表示的维度；

所述跨模态注意力层利用式(6)对所述第k个多模态数据样本x_k对应的特征表示Z_k和所述包含全局上下文的多模态特征表示Z′_k进行处理，得到所述第k个多模态数据样本x_k的语义分数

式(6)中，K(·)表示注意力机制中的键函数，且

Q(·)表示注意力机制中的查询函数，且

h为隐空间的维度；Softmax(·)表示归一化指数函数；

步骤3.3、所述多模态数据融合模块的处理；

式(7)中，V(·)表示注意力机制中的值函数，且

式(8)中，MLP(·)表示多层感知机模型；

步骤4、模型训练；

步骤4.1、利用式(9)和式(10)分别得到模型分类的损失

和模型学习语义信息量的损失

从而利用式(11)得到模型最终的损失函数

式(9)-式(11)中，y_k表示所述多模态数据集合

表示所述第k个多模态数据样本x_k中第m个模态数据

2.一种电子设备，包括存储器以及处理器，其特征在于，所述存储器用于存储支持处理器执行权利要求1所述多模态数据融合方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

3.一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行权利要求1所述多模态数据融合方法的步骤。