CN115470856A - 一种基于语义信息量的多模态数据融合方法及应用 - Google Patents
一种基于语义信息量的多模态数据融合方法及应用 Download PDFInfo
- Publication number
- CN115470856A CN115470856A CN202211123886.XA CN202211123886A CN115470856A CN 115470856 A CN115470856 A CN 115470856A CN 202211123886 A CN202211123886 A CN 202211123886A CN 115470856 A CN115470856 A CN 115470856A
- Authority
- CN
- China
- Prior art keywords
- modal
- modal data
- data
- layer
- multimodal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于语义信息量的多模态数据融合方法及应用,该方法包括:1、构建多模态数据集合,2、计算多模态数据集合中各样本模态的语义信息量,3、构建基于语义信息量的多模态数据融合模型,4、模型训练。本发明能定量刻画多模态数据样本内容与语义标签的一致性程度,从而能使得多模态数据融合的过程具有一定的可解释性,解决多模态数据标注过程中引入的样本数据内容与语义标签不一致的问题。
Description
技术领域
本发明属于多模态数据融合领域,具体地说是一种基于语义信息量的多模态数据融合方法及其应用。
背景技术
多模态数据融合通过联合多个模态的信息进行目标预测(分类或者回归),以提高单个模态的预测精度,一直以来都是多模态机器学习的重要研究内容。现有的多模态数据融合方法通常假设:(1)一致性:每个模态都包含充分的、与目标任务相关的语义信息,各个模态可以得到一致的预测结果;(2)互补性:每个模态的数据包含了其他模态欠缺的信息,从而不同模态可以相互补充,提高预测精度。然而在实际应用中,由于多模态数据采集和标注过程中存在的一些问题,上述假设并不总是成立,具体表现为数据样本中某个模态的内容可能与其语义标签不符。因此,如何判断数据样本中每个模态的置信水平,对语义表达质量不一致的多模态数据进行有效融合是值得研究的问题。
根据信息融合发生的阶段不同,现有的多模态数据融合方法大致可分为早期融合、晚期融合和混合融合三大类。早期融合也称特征级融合,是在输入特征层上对不同模态进行融合。通常首先提取不同模态输入信号的特征,然后对不同模态的特征进行简单拼接。这种方法易于实现,但随着模态数量的增加,融合后的特征维数可能很高,且这种方法没有考虑不同模态特征之间的差异性。晚期融合也称决策级融合,是在决策层对不同模态进行融合。通常每个模态先单独训练一个分类器,然后对各模态的预测结果进行投票或加权。这种方法的融合过程与特征无关,且来自多个模型的错误通常是不相关的。早期融合和晚期融合都没有考虑模态内和模态间的相互作用,不能充分利用模态之间的一致性和互补性。混合融合结合了早期融合和晚期融合方法的优势,通常在早期先分别提取各模态的特征,然后逐步引入模态内和模态间的信息交互。混合融合是目前多模态融合的主流方法,特别是注意力机制的提出为模态内和模态间相互作用提供了有效的建模手段。然而,基于注意力机制的多模态融合算法大多针对特定任务或场景设计,缺乏通用性;并且缺乏对不同模态数据质量的显式刻画,可解释性不强。虽然模型会自动学习注意力权重,但注意力权重分配的粒度较细,通常是区域级甚至元素级的,且注意力权重蕴含了模态内与模态间的相互作用关系,与样本模态数据质量之间的关系并不直观,对于融合算法的设计缺乏直接的指导作用。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种基于语义信息量的多模态数据融合方法及应用,以期能定量刻画多模态数据样本内容与语义标签的一致性程度,从而能使得多模态数据融合的过程具有一定的可解释性,解决多模态数据标注过程中引入的样本数据内容与语义标签不一致的问题。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种基于语义信息量的多模态数据融合方法的特点在于,包括如下步骤:
步骤1、构建多模态数据集合,记为其中,xk表示第k个多模态数据样本,且其中,表示所述第k个多模态数据样本xk中的第m个模态数据,M表示模态的数量;yk表示第k个多模态数据样本xk对应的标签,且yk∈{1,2,…,L},L表示标签种类数,N表示多模态数据样本的数量;
步骤2.1、从所述多模态数据集合中获取第c种标签所对应的多模态数据样本并构成集合利用式(1)计算集合中第i个多模态数据样本的第m个模态数据与任意第j个多模态数据样本的第m个模态数据的平均语义相似度从而得到集合中每个样本的第m个模态数据与其他样本的第m个模态数据的平均语义相似度构成的集合
步骤3、构建基于语义信息量的多模态数据融合模型,包括:特征提取模块、语义信息量学习模块、多模态数据融合模块和输出分类层;
步骤3.1、所述特征提取模块的处理;
步骤3.2、所述语义信息量学习模块的处理;
所述语义信息量学习模块依次包括:一个卷积层、一个批标准化层、一个ReLU激活层、一个随机失活层和一个跨模态注意力层;
所述第k个多模态数据样本xk对应的特征表示Zk输入所述语义信息量学习模块中,并依次通过所述卷积层、批标准化层、ReLU激活层、随机失活层的处理后,得到包含全局上下文的多模态特征表示D′表示包含全局上下文的多模态特征表示的维度;
步骤3.3、所述多模态数据融合模块的处理;
式(8)中,MLP(·)表示多层感知机模型;
步骤4、模型训练;
式(9)-式(11)中,yk表示所述多模态数据集合中第k个多模态数据样本xk对应标签yk的独热向量表示,CE(·)表示交叉熵损失函数,表示所述第k个多模态数据样本xk中第m个模态数据的语义分数,MSE(·)表示均方误差损失函数,λ表示权重系数,用于平衡交叉熵损失项和均方误差损失项;
步骤4.2、设置最大训练轮数epoch_number,利用反向传播和梯度下降法对所述基于语义信息量的多模态数据融合模型进行训练,并计算所述损失函数的值,当训练轮数达到epoch_number或所述损失函数的值连续一定轮数不下降时,停止训练,使得损失函数的值达到最小,从而得到包含最优参数的多模态数据融合模型,用于实现对任意多模态数据的融合。
本发明一种电子设备,包括存储器以及处理器,其特点在于,所述存储器用于存储支持处理器执行所述多模态数据融合方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
本发明一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特点在于,所述计算机程序被处理器运行时执行所述多模态数据融合方法的步骤。
与现有技术相比,本发明的有益效果在于:
1、本发明通过引入语义信息量对多模态数据样本内容与其语义标签的一致性程度进行刻画,解决了多模态数据标注过程中引入的样本数据内容与语义标签不一致的问题,并基于语义信息量设计相应的多模态数据融合模型,有效提高了现有多模态数据融合模型在实际应用中的精度,并使得模型具有一定的通用性和可解释性。
2、本发明提出刻画多模态数据样本内容与语义标签一致性程度的语义信息量概念及计算方法,通过借鉴无监督学习的思想,并引入人的直觉对样本模态的质量进行显式刻画,从而提高了多模态数据融合的可解释性。
3、本发明基于模型学习出的样本模态的语义信息量对多模态数据进行融合,且能感知多模态数据全局的语义信息。相比于现有的多模态数据融合方法,该方法中不包含针对特定任务或场景的设计细节,具有一定的通用性。
附图说明
图1为本发明基于语义信息量的多模态数据融合方法的流程图。
具体实施方式
本实施例中,如图1所示,一种基于语义信息量的多模态数据融合方法首先对输入多模态数据的各模态进行特征提取,然后在此基础上学习各模态的语义信息量,即各模态对标签语义的表达程度,最后将语义信息量作为权重指导多模态数据的融合过程。具体地说,是按如下步骤进行:
步骤1、构建多模态数据集合,记为其中,xk表示第k个多模态数据样本,且其中,表示第k个多模态数据样本xk中的第m个模态数据,M表示模态的数量;yk表示第k个多模态数据样本xk对应的标签,且yk∈{1,2,…,L},L表示标签种类数,N表示多模态数据样本的数量;
步骤2.1、从多模态数据集合中获取第c种标签所对应的多模态数据样本并构成集合利用式(1)计算集合中第i个多模态数据样本的第m个模态数据与任意第j个多模态数据样本的第m个模态数据的平均语义相似度从而得到集合中每个样本的第m个模态数据与其他样本的第m个模态数据的平均语义相似度构成的集合
步骤3、构建基于语义信息量的多模态数据融合模型,包括:特征提取模块、语义信息量学习模块、多模态数据融合模块和输出分类层;
步骤3.1、特征提取模块的处理;
步骤3.2、语义信息量学习模块的处理;
语义信息量学习模块依次包括:一个卷积层、一个批标准化层、一个ReLU激活层、一个随机失活层和一个跨模态注意力层;
第k个多模态数据样本xk对应的特征表示Zk输入语义信息量学习模块中,并依次通过卷积层、批标准化层、ReLU激活层、随机失活层的处理后,得到包含全局上下文的多模态特征表示D′表示包含全局上下文的多模态特征表示的维度;
步骤3.3、多模态数据融合模块的处理;
式(8)中,MLP(·)表示多层感知机模型;
步骤4、模型训练;
步骤4.1、利用式(9)和式(10)分别得到模型分类的损失和模型学习语义信息量的损失从而利用式(11)得到模型最终的损失函数一方面使得模型的分类结果尽可能准确,另一方面使得模型学习出的语义分数尽可能接近由式(5)计算出的值,从而提供更好的可解释性:
式(9)-式(11)中,yk表示多模态数据集合中第k个多模态数据样本xk对应标签yk的独热向量表示,CE(·)表示交叉熵损失函数,表示第k个多模态数据样本xk中第m个模态数据的语义分数,MSE(·)表示均方误差损失函数,λ表示权重系数,用于平衡交叉熵损失项和均方误差损失项,本实施例中,λ=0.1;
步骤4.2、设置最大训练轮数epoch_number=60,利用反向传播和梯度下降法对基于语义信息量的多模态数据融合模型进行训练,并计算损失函数的值,本实施例中,梯度下降法采用学习率η=0.0001,指数衰减率β1=0.5,β2=0.9的Adam优化算法,当训练轮数达到epoch_number或损失函数的值连续一定轮数不下降时,停止训练,使得损失函数的值达到最小,从而得到包含最优参数的多模态数据融合模型,用于实现对任意多模态数据的融合。
本实施例中,一种电子设备,包括存储器以及处理器,该存储器用于存储支持处理器执行上述多模态数据融合方法的程序,该处理器被配置为用于执行该存储器中存储的程序。
本实施例中,一种计算机可读存储介质,是在计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时上述多模态数据融合方法的步骤。
Claims (3)
1.一种基于语义信息量的多模态数据融合方法,其特征在于,包括如下步骤:
步骤1、构建多模态数据集合,记为其中,xk表示第k个多模态数据样本,且其中,表示所述第k个多模态数据样本xk中的第m个模态数据,M表示模态的数量;yk表示第k个多模态数据样本xk对应的标签,且yk∈{1,2,…,L},L表示标签种类数,N表示多模态数据样本的数量;
步骤2.1、从所述多模态数据集合中获取第c种标签所对应的多模态数据样本并构成集合利用式(1)计算集合中第i个多模态数据样本的第m个模态数据与任意第j个多模态数据样本的第m个模态数据的平均语义相似度从而得到集合中每个样本的第m个模态数据与其他样本的第m个模态数据的平均语义相似度构成的集合
步骤3、构建基于语义信息量的多模态数据融合模型,包括:特征提取模块、语义信息量学习模块、多模态数据融合模块和输出分类层;
步骤3.1、所述特征提取模块的处理;
步骤3.2、所述语义信息量学习模块的处理;
所述语义信息量学习模块依次包括:一个卷积层、一个批标准化层、一个ReLU激活层、一个随机失活层和一个跨模态注意力层;
所述第k个多模态数据样本xk对应的特征表示Zk输入所述语义信息量学习模块中,并依次通过所述卷积层、批标准化层、ReLU激活层、随机失活层的处理后,得到包含全局上下文的多模态特征表示D′表示包含全局上下文的多模态特征表示的维度;
步骤3.3、所述多模态数据融合模块的处理;
式(8)中,MLP(·)表示多层感知机模型;
步骤4、模型训练;
式(9)-式(11)中,yk表示所述多模态数据集合中第k个多模态数据样本xk对应标签yk的独热向量表示,CE(·)表示交叉熵损失函数,表示所述第k个多模态数据样本xk中第m个模态数据的语义分数,MSE(·)表示均方误差损失函数,λ表示权重系数,用于平衡交叉熵损失项和均方误差损失项;
2.一种电子设备,包括存储器以及处理器,其特征在于,所述存储器用于存储支持处理器执行权利要求1所述多模态数据融合方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
3.一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行权利要求1所述多模态数据融合方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211123886.XA CN115470856A (zh) | 2022-09-15 | 2022-09-15 | 一种基于语义信息量的多模态数据融合方法及应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211123886.XA CN115470856A (zh) | 2022-09-15 | 2022-09-15 | 一种基于语义信息量的多模态数据融合方法及应用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115470856A true CN115470856A (zh) | 2022-12-13 |
Family
ID=84333402
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211123886.XA Pending CN115470856A (zh) | 2022-09-15 | 2022-09-15 | 一种基于语义信息量的多模态数据融合方法及应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115470856A (zh) |
-
2022
- 2022-09-15 CN CN202211123886.XA patent/CN115470856A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zulqarnain et al. | Efficient processing of GRU based on word embedding for text classification | |
CN111368993B (zh) | 一种数据处理方法及相关设备 | |
CN110188272B (zh) | 一种基于用户背景的社区问答网站标签推荐方法 | |
CN107657008B (zh) | 基于深度判别排序学习的跨媒体训练及检索方法 | |
Ke et al. | Data equilibrium based automatic image annotation by fusing deep model and semantic propagation | |
CN114239585B (zh) | 一种生物医学嵌套命名实体识别方法 | |
CN111125406A (zh) | 一种基于自适应聚类学习的视觉关系检测方法 | |
CN110866542A (zh) | 一种基于特征可控融合的深度表示学习方法 | |
CN114330354B (zh) | 一种基于词汇增强的事件抽取方法、装置及存储介质 | |
WO2010062268A1 (en) | A method for updating a 2 dimensional linear discriminant analysis (2dlda) classifier engine | |
CN116610778A (zh) | 基于跨模态全局与局部注意力机制的双向图文匹配方法 | |
CN112631560A (zh) | 一种推荐模型的目标函数的构建方法及终端 | |
CN115130591A (zh) | 一种基于交叉监督的多模态数据分类方法及装置 | |
CN114722805A (zh) | 基于大小导师知识蒸馏的少样本情感分类方法 | |
CN114648031A (zh) | 基于双向lstm和多头注意力机制的文本方面级情感识别方法 | |
CN115827954A (zh) | 动态加权的跨模态融合网络检索方法、系统、电子设备 | |
CN116881689A (zh) | 知识增强的用户多模态在线评论质量评估方法和系统 | |
CN115470856A (zh) | 一种基于语义信息量的多模态数据融合方法及应用 | |
CN116561308A (zh) | 一种基于强化对比学习微调的跨域小样本关系抽取方法和系统 | |
CN114510569A (zh) | 基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法 | |
CN114722142A (zh) | 一种基于多任务学习的方面情感分析模型 | |
CN115169429A (zh) | 一种轻量化方面级文本情感分析方法 | |
Chandok et al. | Enhancing Bankruptcy Prediction with White Shark Optimizer and Deep Learning: A Hybrid Approach for Accurate Financial Risk Assessment. | |
JP2022104911A (ja) | エンベッディング正規化方法およびこれを利用した電子装置 | |
CN114048929A (zh) | 股价数据预测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |