CN115470856A - 一种基于语义信息量的多模态数据融合方法及应用 - Google Patents

一种基于语义信息量的多模态数据融合方法及应用 Download PDF

Info

Publication number
CN115470856A
CN115470856A CN202211123886.XA CN202211123886A CN115470856A CN 115470856 A CN115470856 A CN 115470856A CN 202211123886 A CN202211123886 A CN 202211123886A CN 115470856 A CN115470856 A CN 115470856A
Authority
CN
China
Prior art keywords
modal
modal data
data
layer
multimodal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211123886.XA
Other languages
English (en)
Inventor
华蓓
董寅灏
宋骐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202211123886.XA priority Critical patent/CN115470856A/zh
Publication of CN115470856A publication Critical patent/CN115470856A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Abstract

本发明公开了一种基于语义信息量的多模态数据融合方法及应用,该方法包括:1、构建多模态数据集合,2、计算多模态数据集合中各样本模态的语义信息量,3、构建基于语义信息量的多模态数据融合模型,4、模型训练。本发明能定量刻画多模态数据样本内容与语义标签的一致性程度,从而能使得多模态数据融合的过程具有一定的可解释性,解决多模态数据标注过程中引入的样本数据内容与语义标签不一致的问题。

Description

一种基于语义信息量的多模态数据融合方法及应用
技术领域
本发明属于多模态数据融合领域,具体地说是一种基于语义信息量的多模态数据融合方法及其应用。
背景技术
多模态数据融合通过联合多个模态的信息进行目标预测(分类或者回归),以提高单个模态的预测精度,一直以来都是多模态机器学习的重要研究内容。现有的多模态数据融合方法通常假设:(1)一致性:每个模态都包含充分的、与目标任务相关的语义信息,各个模态可以得到一致的预测结果;(2)互补性:每个模态的数据包含了其他模态欠缺的信息,从而不同模态可以相互补充,提高预测精度。然而在实际应用中,由于多模态数据采集和标注过程中存在的一些问题,上述假设并不总是成立,具体表现为数据样本中某个模态的内容可能与其语义标签不符。因此,如何判断数据样本中每个模态的置信水平,对语义表达质量不一致的多模态数据进行有效融合是值得研究的问题。
根据信息融合发生的阶段不同,现有的多模态数据融合方法大致可分为早期融合、晚期融合和混合融合三大类。早期融合也称特征级融合,是在输入特征层上对不同模态进行融合。通常首先提取不同模态输入信号的特征,然后对不同模态的特征进行简单拼接。这种方法易于实现,但随着模态数量的增加,融合后的特征维数可能很高,且这种方法没有考虑不同模态特征之间的差异性。晚期融合也称决策级融合,是在决策层对不同模态进行融合。通常每个模态先单独训练一个分类器,然后对各模态的预测结果进行投票或加权。这种方法的融合过程与特征无关,且来自多个模型的错误通常是不相关的。早期融合和晚期融合都没有考虑模态内和模态间的相互作用,不能充分利用模态之间的一致性和互补性。混合融合结合了早期融合和晚期融合方法的优势,通常在早期先分别提取各模态的特征,然后逐步引入模态内和模态间的信息交互。混合融合是目前多模态融合的主流方法,特别是注意力机制的提出为模态内和模态间相互作用提供了有效的建模手段。然而,基于注意力机制的多模态融合算法大多针对特定任务或场景设计,缺乏通用性;并且缺乏对不同模态数据质量的显式刻画,可解释性不强。虽然模型会自动学习注意力权重,但注意力权重分配的粒度较细,通常是区域级甚至元素级的,且注意力权重蕴含了模态内与模态间的相互作用关系,与样本模态数据质量之间的关系并不直观,对于融合算法的设计缺乏直接的指导作用。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种基于语义信息量的多模态数据融合方法及应用,以期能定量刻画多模态数据样本内容与语义标签的一致性程度,从而能使得多模态数据融合的过程具有一定的可解释性,解决多模态数据标注过程中引入的样本数据内容与语义标签不一致的问题。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种基于语义信息量的多模态数据融合方法的特点在于,包括如下步骤:
步骤1、构建多模态数据集合,记为
Figure BDA0003847521880000021
其中,xk表示第k个多模态数据样本,且
Figure BDA0003847521880000022
其中,
Figure BDA0003847521880000023
表示所述第k个多模态数据样本xk中的第m个模态数据,M表示模态的数量;yk表示第k个多模态数据样本xk对应的标签,且yk∈{1,2,…,L},L表示标签种类数,N表示多模态数据样本的数量;
步骤2、计算多模态数据集合
Figure BDA0003847521880000024
中各样本模态的语义信息量;
步骤2.1、从所述多模态数据集合
Figure BDA0003847521880000025
中获取第c种标签所对应的多模态数据样本并构成集合
Figure BDA0003847521880000026
利用式(1)计算集合
Figure BDA0003847521880000027
中第i个多模态数据样本的第m个模态数据
Figure BDA0003847521880000028
与任意第j个多模态数据样本的第m个模态数据
Figure BDA0003847521880000029
的平均语义相似度
Figure BDA00038475218800000210
从而得到集合
Figure BDA00038475218800000211
中每个样本的第m个模态数据与其他样本的第m个模态数据的平均语义相似度构成的集合
Figure BDA00038475218800000212
Figure BDA00038475218800000213
式(1)中,f(·)表示模态特征提取函数,s(·,·)表示用于计算特征相似度的函数,
Figure BDA00038475218800000214
表示集合
Figure BDA00038475218800000215
中样本的数量;
步骤2.2、利用式(2)计算集合
Figure BDA00038475218800000216
中任意第i个多模态数据样本的第m个模态数据
Figure BDA00038475218800000217
与任意第j个多模态数据样本的第m个模态数据
Figure BDA00038475218800000218
的语义相似度的均值
Figure BDA00038475218800000219
Figure BDA00038475218800000220
步骤2.3、利用式(3)计算集合
Figure BDA00038475218800000221
的标准差
Figure BDA00038475218800000222
Figure BDA0003847521880000031
步骤2.4、利用式(4)对平均语义相似度
Figure BDA0003847521880000032
进行标准化,得到集合
Figure BDA0003847521880000033
中第i个多模态数据样本的第m个模态数据
Figure BDA0003847521880000034
的标准化的平均语义相似度
Figure BDA0003847521880000035
Figure BDA0003847521880000036
步骤2.5、利用式(5)计算所述多模态数据集合
Figure BDA0003847521880000037
中第k个多模态数据样本xk中的第m个模态数据
Figure BDA0003847521880000038
的语义信息量
Figure BDA0003847521880000039
Figure BDA00038475218800000310
式(5)中,
Figure BDA00038475218800000311
表示第k个多模态数据样本xk中的第m个模态数据
Figure BDA00038475218800000312
的标准化的平均语义相似度;
步骤3、构建基于语义信息量的多模态数据融合模型,包括:特征提取模块、语义信息量学习模块、多模态数据融合模块和输出分类层;
步骤3.1、所述特征提取模块的处理;
所述特征提取模块包括N1个提取块;每个提取块依次包括一个卷积层、一个批标准化层、一个ReLU激活层和一个随机失活层;其中,任意第n1个提取块中的卷积核大小为
Figure BDA00038475218800000313
步长为
Figure BDA00038475218800000314
随机失活层的失活概率为
Figure BDA00038475218800000315
当n1=1时,第m个模态数据
Figure BDA00038475218800000316
输入第n1个提取块中进行处理,得到第n1个特征表示
Figure BDA00038475218800000317
当n1=2,3,…,N1时,第n1-1个特征表示
Figure BDA00038475218800000318
输入第n1个提取块中进行处理,得到第n1个特征表示
Figure BDA00038475218800000319
从而由第N1个提取块输出第N1个特征表示
Figure BDA00038475218800000320
D表示第N1个特征表示的维度;
所述特征提取模块将第k个多模态数据样本xk中M个模态数据的第N1个特征表示进行连接后,得到所述第k个多模态数据样本xk对应的特征表示
Figure BDA00038475218800000321
步骤3.2、所述语义信息量学习模块的处理;
所述语义信息量学习模块依次包括:一个卷积层、一个批标准化层、一个ReLU激活层、一个随机失活层和一个跨模态注意力层;
所述第k个多模态数据样本xk对应的特征表示Zk输入所述语义信息量学习模块中,并依次通过所述卷积层、批标准化层、ReLU激活层、随机失活层的处理后,得到包含全局上下文的多模态特征表示
Figure BDA0003847521880000041
D′表示包含全局上下文的多模态特征表示的维度;
所述跨模态注意力层利用式(6)对所述第k个多模态数据样本xk对应的特征表示Zk和所述包含全局上下文的多模态特征表示Zk′进行处理,得到所述第k个多模态数据样本xk的语义分数
Figure BDA0003847521880000042
Figure BDA0003847521880000043
式(6)中,K(·)表示注意力机制中的键函数,且
Figure BDA0003847521880000044
Q(·)表示注意力机制中的查询函数,且
Figure BDA0003847521880000045
h为隐空间的维度;Softmax(·)表示归一化指数函数;
步骤3.3、所述多模态数据融合模块的处理;
所述多模态数据融合模块利用式(7)得到所述第k个多模态数据样本xk的融合特征表示
Figure BDA0003847521880000046
Figure BDA0003847521880000047
式(7)中,V(·)表示注意力机制中的值函数,且
Figure BDA0003847521880000048
步骤3.4、所述输出分类层利用式(8)得到所述第k个多模态数据样本xk预测的概率分布
Figure BDA0003847521880000049
Figure BDA00038475218800000410
式(8)中,MLP(·)表示多层感知机模型;
步骤4、模型训练;
步骤4.1、利用式(9)和式(10)分别得到模型分类的损失
Figure BDA00038475218800000411
和模型学习语义信息量的损失
Figure BDA00038475218800000412
从而利用式(11)得到模型最终的损失函数
Figure BDA00038475218800000413
Figure BDA00038475218800000414
Figure BDA0003847521880000051
Figure BDA0003847521880000052
式(9)-式(11)中,yk表示所述多模态数据集合
Figure BDA0003847521880000053
中第k个多模态数据样本xk对应标签yk的独热向量表示,CE(·)表示交叉熵损失函数,
Figure BDA0003847521880000054
表示所述第k个多模态数据样本xk中第m个模态数据
Figure BDA0003847521880000055
的语义分数,MSE(·)表示均方误差损失函数,λ表示权重系数,用于平衡交叉熵损失项和均方误差损失项;
步骤4.2、设置最大训练轮数epoch_number,利用反向传播和梯度下降法对所述基于语义信息量的多模态数据融合模型进行训练,并计算所述损失函数
Figure BDA0003847521880000056
的值,当训练轮数达到epoch_number或所述损失函数的值连续一定轮数不下降时,停止训练,使得损失函数
Figure BDA0003847521880000057
的值达到最小,从而得到包含最优参数的多模态数据融合模型,用于实现对任意多模态数据的融合。
本发明一种电子设备,包括存储器以及处理器,其特点在于,所述存储器用于存储支持处理器执行所述多模态数据融合方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
本发明一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特点在于,所述计算机程序被处理器运行时执行所述多模态数据融合方法的步骤。
与现有技术相比,本发明的有益效果在于:
1、本发明通过引入语义信息量对多模态数据样本内容与其语义标签的一致性程度进行刻画,解决了多模态数据标注过程中引入的样本数据内容与语义标签不一致的问题,并基于语义信息量设计相应的多模态数据融合模型,有效提高了现有多模态数据融合模型在实际应用中的精度,并使得模型具有一定的通用性和可解释性。
2、本发明提出刻画多模态数据样本内容与语义标签一致性程度的语义信息量概念及计算方法,通过借鉴无监督学习的思想,并引入人的直觉对样本模态的质量进行显式刻画,从而提高了多模态数据融合的可解释性。
3、本发明基于模型学习出的样本模态的语义信息量对多模态数据进行融合,且能感知多模态数据全局的语义信息。相比于现有的多模态数据融合方法,该方法中不包含针对特定任务或场景的设计细节,具有一定的通用性。
附图说明
图1为本发明基于语义信息量的多模态数据融合方法的流程图。
具体实施方式
本实施例中,如图1所示,一种基于语义信息量的多模态数据融合方法首先对输入多模态数据的各模态进行特征提取,然后在此基础上学习各模态的语义信息量,即各模态对标签语义的表达程度,最后将语义信息量作为权重指导多模态数据的融合过程。具体地说,是按如下步骤进行:
步骤1、构建多模态数据集合,记为
Figure BDA0003847521880000061
其中,xk表示第k个多模态数据样本,且
Figure BDA0003847521880000062
其中,
Figure BDA0003847521880000063
表示第k个多模态数据样本xk中的第m个模态数据,M表示模态的数量;yk表示第k个多模态数据样本xk对应的标签,且yk∈{1,2,…,L},L表示标签种类数,N表示多模态数据样本的数量;
步骤2、计算多模态数据集合
Figure BDA0003847521880000064
中各样本模态的语义信息量;
步骤2.1、从多模态数据集合
Figure BDA0003847521880000065
中获取第c种标签所对应的多模态数据样本并构成集合
Figure BDA0003847521880000066
利用式(1)计算集合
Figure BDA0003847521880000067
中第i个多模态数据样本的第m个模态数据
Figure BDA0003847521880000068
与任意第j个多模态数据样本的第m个模态数据
Figure BDA0003847521880000069
的平均语义相似度
Figure BDA00038475218800000610
从而得到集合
Figure BDA00038475218800000611
中每个样本的第m个模态数据与其他样本的第m个模态数据的平均语义相似度构成的集合
Figure BDA00038475218800000612
Figure BDA00038475218800000613
式(1)中,f(·)表示模态特征提取函数,本实施例中,采用三层卷积神经网络,s(·,·)表示用于计算特征相似度的函数,本实施例中,采用余弦相似度函数,
Figure BDA00038475218800000614
表示集合
Figure BDA00038475218800000615
中样本的数量;
步骤2.2、利用式(2)计算集合
Figure BDA00038475218800000616
中任意第i个多模态数据样本的第m个模态数据
Figure BDA00038475218800000617
与任意第j个多模态数据样本的第m个模态数据
Figure BDA00038475218800000618
的语义相似度的均值
Figure BDA00038475218800000619
Figure BDA00038475218800000620
步骤2.3、利用式(3)计算集合
Figure BDA00038475218800000621
的标准差
Figure BDA00038475218800000622
Figure BDA0003847521880000071
步骤2.4、利用式(4)对平均语义相似度
Figure BDA0003847521880000072
进行标准化,得到集合
Figure BDA0003847521880000073
中第i个多模态数据样本的第m个模态数据
Figure BDA0003847521880000074
的标准化的平均语义相似度
Figure BDA0003847521880000075
从而使得其数值在不同类别标签间具有可比性:
Figure BDA0003847521880000076
步骤2.5、利用式(5)计算多模态数据集合
Figure BDA0003847521880000077
中第k个多模态数据样本xk中的第m个模态数据
Figure BDA0003847521880000078
的语义信息量
Figure BDA0003847521880000079
从而使得其数值在不同模态间具有可比性:
Figure BDA00038475218800000710
式(5)中,
Figure BDA00038475218800000711
表示第k个多模态数据样本xk中的第m个模态数据
Figure BDA00038475218800000712
的标准化的平均语义相似度;
步骤3、构建基于语义信息量的多模态数据融合模型,包括:特征提取模块、语义信息量学习模块、多模态数据融合模块和输出分类层;
步骤3.1、特征提取模块的处理;
特征提取模块包括N1个提取块;每个提取块依次包括一个卷积层、一个批标准化层、一个ReLU激活层和一个随机失活层;其中,任意第n1个提取块中的卷积核大小为
Figure BDA00038475218800000713
步长为
Figure BDA00038475218800000714
随机失活层的失活概率为
Figure BDA00038475218800000715
当n1=1时,第m个模态数据
Figure BDA00038475218800000716
输入第n1个提取块中进行处理,得到第n1个特征表示
Figure BDA00038475218800000717
当n1=2,3,…,N1时,第n1-1个特征表示
Figure BDA00038475218800000718
输入第n1个提取块中进行处理,得到第n1个特征表示
Figure BDA00038475218800000719
从而由第N1个提取块输出第N1个特征表示
Figure BDA00038475218800000720
D表示第N1个特征表示的维度;
特征提取模块将第k个多模态数据样本xk中M个模态数据的第N1个特征表示进行连接后,得到第k个多模态数据样本xk对应的特征表示
Figure BDA00038475218800000721
步骤3.2、语义信息量学习模块的处理;
语义信息量学习模块依次包括:一个卷积层、一个批标准化层、一个ReLU激活层、一个随机失活层和一个跨模态注意力层;
第k个多模态数据样本xk对应的特征表示Zk输入语义信息量学习模块中,并依次通过卷积层、批标准化层、ReLU激活层、随机失活层的处理后,得到包含全局上下文的多模态特征表示
Figure BDA0003847521880000081
D′表示包含全局上下文的多模态特征表示的维度;
跨模态注意力层利用式(6)对第k个多模态数据样本xk对应的特征表示Zk和包含全局上下文的多模态特征表示Zk′进行处理,得到第k个多模态数据样本xk的语义分数
Figure BDA0003847521880000082
Figure BDA0003847521880000083
式(6)中,K(·)表示注意力机制中的键函数,且
Figure BDA0003847521880000084
Q(·)表示注意力机制中的查询函数,且
Figure BDA0003847521880000085
h为隐空间的维度;Softmax(·)表示归一化指数函数;
步骤3.3、多模态数据融合模块的处理;
多模态数据融合模块利用式(7)得到第k个多模态数据样本xk的融合特征表示
Figure BDA0003847521880000086
从而使得融合过程具有一定的可解释性,且融合后的特征表示能够感知全局语义信息:
Figure BDA0003847521880000087
式(7)中,V(·)表示注意力机制中的值函数,且
Figure BDA0003847521880000088
步骤3.4、输出分类层利用式(8)得到第k个多模态数据样本xk预测的概率分布
Figure BDA0003847521880000089
Figure BDA00038475218800000810
式(8)中,MLP(·)表示多层感知机模型;
步骤4、模型训练;
步骤4.1、利用式(9)和式(10)分别得到模型分类的损失
Figure BDA00038475218800000811
和模型学习语义信息量的损失
Figure BDA00038475218800000812
从而利用式(11)得到模型最终的损失函数
Figure BDA00038475218800000813
一方面使得模型的分类结果尽可能准确,另一方面使得模型学习出的语义分数尽可能接近由式(5)计算出的值,从而提供更好的可解释性:
Figure BDA00038475218800000814
Figure BDA0003847521880000091
Figure BDA0003847521880000092
式(9)-式(11)中,yk表示多模态数据集合
Figure BDA0003847521880000093
中第k个多模态数据样本xk对应标签yk的独热向量表示,CE(·)表示交叉熵损失函数,
Figure BDA0003847521880000094
表示第k个多模态数据样本xk中第m个模态数据
Figure BDA0003847521880000095
的语义分数,MSE(·)表示均方误差损失函数,λ表示权重系数,用于平衡交叉熵损失项和均方误差损失项,本实施例中,λ=0.1;
步骤4.2、设置最大训练轮数epoch_number=60,利用反向传播和梯度下降法对基于语义信息量的多模态数据融合模型进行训练,并计算损失函数
Figure BDA0003847521880000096
的值,本实施例中,梯度下降法采用学习率η=0.0001,指数衰减率β1=0.5,β2=0.9的Adam优化算法,当训练轮数达到epoch_number或损失函数的值连续一定轮数不下降时,停止训练,使得损失函数
Figure BDA0003847521880000097
的值达到最小,从而得到包含最优参数的多模态数据融合模型,用于实现对任意多模态数据的融合。
本实施例中,一种电子设备,包括存储器以及处理器,该存储器用于存储支持处理器执行上述多模态数据融合方法的程序,该处理器被配置为用于执行该存储器中存储的程序。
本实施例中,一种计算机可读存储介质,是在计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时上述多模态数据融合方法的步骤。

Claims (3)

1.一种基于语义信息量的多模态数据融合方法,其特征在于,包括如下步骤:
步骤1、构建多模态数据集合,记为
Figure FDA0003847521870000011
其中,xk表示第k个多模态数据样本,且
Figure FDA0003847521870000012
其中,
Figure FDA0003847521870000013
表示所述第k个多模态数据样本xk中的第m个模态数据,M表示模态的数量;yk表示第k个多模态数据样本xk对应的标签,且yk∈{1,2,…,L},L表示标签种类数,N表示多模态数据样本的数量;
步骤2、计算多模态数据集合
Figure FDA0003847521870000014
中各样本模态的语义信息量;
步骤2.1、从所述多模态数据集合
Figure FDA0003847521870000015
中获取第c种标签所对应的多模态数据样本并构成集合
Figure FDA0003847521870000016
利用式(1)计算集合
Figure FDA0003847521870000017
中第i个多模态数据样本的第m个模态数据
Figure FDA0003847521870000018
与任意第j个多模态数据样本的第m个模态数据
Figure FDA0003847521870000019
的平均语义相似度
Figure FDA00038475218700000110
从而得到集合
Figure FDA00038475218700000111
中每个样本的第m个模态数据与其他样本的第m个模态数据的平均语义相似度构成的集合
Figure FDA00038475218700000112
Figure FDA00038475218700000113
式(1)中,f(·)表示模态特征提取函数,s(·,·)表示用于计算特征相似度的函数,
Figure FDA00038475218700000114
表示集合
Figure FDA00038475218700000115
中样本的数量;
步骤2.2、利用式(2)计算集合
Figure FDA00038475218700000116
中任意第i个多模态数据样本的第m个模态数据
Figure FDA00038475218700000117
与任意第j个多模态数据样本的第m个模态数据
Figure FDA00038475218700000118
的语义相似度的均值
Figure FDA00038475218700000119
Figure FDA00038475218700000120
步骤2.3、利用式(3)计算集合
Figure FDA00038475218700000121
的标准差
Figure FDA00038475218700000122
Figure FDA00038475218700000123
步骤2.4、利用式(4)对平均语义相似度
Figure FDA00038475218700000124
进行标准化,得到集合
Figure FDA00038475218700000125
中第i个多模态数据样本的第m个模态数据
Figure FDA00038475218700000126
的标准化的平均语义相似度
Figure FDA00038475218700000127
Figure FDA0003847521870000021
步骤2.5、利用式(5)计算所述多模态数据集合
Figure FDA0003847521870000022
中第k个多模态数据样本xk中的第m个模态数据
Figure FDA0003847521870000023
的语义信息量
Figure FDA0003847521870000024
Figure FDA0003847521870000025
式(5)中,
Figure FDA0003847521870000026
表示第k个多模态数据样本xk中的第m个模态数据
Figure FDA0003847521870000027
的标准化的平均语义相似度;
步骤3、构建基于语义信息量的多模态数据融合模型,包括:特征提取模块、语义信息量学习模块、多模态数据融合模块和输出分类层;
步骤3.1、所述特征提取模块的处理;
所述特征提取模块包括N1个提取块;每个提取块依次包括一个卷积层、一个批标准化层、一个ReLU激活层和一个随机失活层;其中,任意第n1个提取块中的卷积核大小为
Figure FDA0003847521870000028
步长为
Figure FDA0003847521870000029
随机失活层的失活概率为
Figure FDA00038475218700000210
当n1=1时,第m个模态数据
Figure FDA00038475218700000211
输入第n1个提取块中进行处理,得到第n1个特征表示
Figure FDA00038475218700000212
当n1=2,3,…,N1时,第n1-1个特征表示
Figure FDA00038475218700000213
输入第n1个提取块中进行处理,得到第n1个特征表示
Figure FDA00038475218700000214
从而由第N1个提取块输出第N1个特征表示
Figure FDA00038475218700000215
D表示第N1个特征表示的维度;
所述特征提取模块将第k个多模态数据样本xk中M个模态数据的第N1个特征表示进行连接后,得到所述第k个多模态数据样本xk对应的特征表示
Figure FDA00038475218700000216
步骤3.2、所述语义信息量学习模块的处理;
所述语义信息量学习模块依次包括:一个卷积层、一个批标准化层、一个ReLU激活层、一个随机失活层和一个跨模态注意力层;
所述第k个多模态数据样本xk对应的特征表示Zk输入所述语义信息量学习模块中,并依次通过所述卷积层、批标准化层、ReLU激活层、随机失活层的处理后,得到包含全局上下文的多模态特征表示
Figure FDA00038475218700000217
D′表示包含全局上下文的多模态特征表示的维度;
所述跨模态注意力层利用式(6)对所述第k个多模态数据样本xk对应的特征表示Zk和所述包含全局上下文的多模态特征表示Z′k进行处理,得到所述第k个多模态数据样本xk的语义分数
Figure FDA0003847521870000031
Figure FDA0003847521870000032
式(6)中,K(·)表示注意力机制中的键函数,且
Figure FDA0003847521870000033
Q(·)表示注意力机制中的查询函数,且
Figure FDA0003847521870000034
h为隐空间的维度;Softmax(·)表示归一化指数函数;
步骤3.3、所述多模态数据融合模块的处理;
所述多模态数据融合模块利用式(7)得到所述第k个多模态数据样本xk的融合特征表示
Figure FDA0003847521870000035
Figure FDA0003847521870000036
式(7)中,V(·)表示注意力机制中的值函数,且
Figure FDA0003847521870000037
步骤3.4、所述输出分类层利用式(8)得到所述第k个多模态数据样本xk预测的概率分布
Figure FDA0003847521870000038
Figure FDA0003847521870000039
式(8)中,MLP(·)表示多层感知机模型;
步骤4、模型训练;
步骤4.1、利用式(9)和式(10)分别得到模型分类的损失
Figure FDA00038475218700000310
和模型学习语义信息量的损失
Figure FDA00038475218700000311
从而利用式(11)得到模型最终的损失函数
Figure FDA00038475218700000312
Figure FDA00038475218700000313
Figure FDA00038475218700000314
Figure FDA00038475218700000315
式(9)-式(11)中,yk表示所述多模态数据集合
Figure FDA00038475218700000316
中第k个多模态数据样本xk对应标签yk的独热向量表示,CE(·)表示交叉熵损失函数,
Figure FDA00038475218700000317
表示所述第k个多模态数据样本xk中第m个模态数据
Figure FDA00038475218700000318
的语义分数,MSE(·)表示均方误差损失函数,λ表示权重系数,用于平衡交叉熵损失项和均方误差损失项;
步骤4.2、设置最大训练轮数epoch_number,利用反向传播和梯度下降法对所述基于语义信息量的多模态数据融合模型进行训练,并计算所述损失函数
Figure FDA0003847521870000041
的值,当训练轮数达到epoch_number或所述损失函数的值连续一定轮数不下降时,停止训练,使得损失函数
Figure FDA0003847521870000042
的值达到最小,从而得到包含最优参数的多模态数据融合模型,用于实现对任意多模态数据的融合。
2.一种电子设备,包括存储器以及处理器,其特征在于,所述存储器用于存储支持处理器执行权利要求1所述多模态数据融合方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
3.一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行权利要求1所述多模态数据融合方法的步骤。
CN202211123886.XA 2022-09-15 2022-09-15 一种基于语义信息量的多模态数据融合方法及应用 Pending CN115470856A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211123886.XA CN115470856A (zh) 2022-09-15 2022-09-15 一种基于语义信息量的多模态数据融合方法及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211123886.XA CN115470856A (zh) 2022-09-15 2022-09-15 一种基于语义信息量的多模态数据融合方法及应用

Publications (1)

Publication Number Publication Date
CN115470856A true CN115470856A (zh) 2022-12-13

Family

ID=84333402

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211123886.XA Pending CN115470856A (zh) 2022-09-15 2022-09-15 一种基于语义信息量的多模态数据融合方法及应用

Country Status (1)

Country Link
CN (1) CN115470856A (zh)

Similar Documents

Publication Publication Date Title
CN111368993B (zh) 一种数据处理方法及相关设备
CN110188272B (zh) 一种基于用户背景的社区问答网站标签推荐方法
CN107657008B (zh) 基于深度判别排序学习的跨媒体训练及检索方法
Ke et al. Data equilibrium based automatic image annotation by fusing deep model and semantic propagation
CN110866542A (zh) 一种基于特征可控融合的深度表示学习方法
CN111125406A (zh) 一种基于自适应聚类学习的视觉关系检测方法
US20220059117A1 (en) Methods and Systems for Implementing On-Device Non-Semantic Representation Fine-Tuning for Speech Classification
CN114330354B (zh) 一种基于词汇增强的事件抽取方法、装置及存储介质
WO2010062268A1 (en) A method for updating a 2 dimensional linear discriminant analysis (2dlda) classifier engine
CN114239585A (zh) 一种生物医学嵌套命名实体识别方法
CN115130591A (zh) 一种基于交叉监督的多模态数据分类方法及装置
Li et al. Integrating language model and reading control gate in BLSTM-CRF for biomedical named entity recognition
CN114722805A (zh) 基于大小导师知识蒸馏的少样本情感分类方法
CN114648031A (zh) 基于双向lstm和多头注意力机制的文本方面级情感识别方法
CN115827954A (zh) 动态加权的跨模态融合网络检索方法、系统、电子设备
CN116610778A (zh) 基于跨模态全局与局部注意力机制的双向图文匹配方法
CN116975615A (zh) 基于视频多模态信息的任务预测方法和装置
Wang et al. A deep-learning-inspired person-job matching model based on sentence vectors and subject-term graphs
CN116881689A (zh) 知识增强的用户多模态在线评论质量评估方法和系统
CN111753995A (zh) 一种基于梯度提升树的局部可解释方法
CN115470856A (zh) 一种基于语义信息量的多模态数据融合方法及应用
CN116579347A (zh) 一种基于动态语义特征融合的评论文本情感分析方法、系统、设备及介质
CN114510569A (zh) 基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法
CN114722142A (zh) 一种基于多任务学习的方面情感分析模型
CN115169429A (zh) 一种轻量化方面级文本情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination