CN117421639A - 多模态数据分类方法、终端设备及存储介质 - Google Patents
多模态数据分类方法、终端设备及存储介质 Download PDFInfo
- Publication number
- CN117421639A CN117421639A CN202311454966.8A CN202311454966A CN117421639A CN 117421639 A CN117421639 A CN 117421639A CN 202311454966 A CN202311454966 A CN 202311454966A CN 117421639 A CN117421639 A CN 117421639A
- Authority
- CN
- China
- Prior art keywords
- data
- mode
- features
- feature
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 230000004927 fusion Effects 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 abstract description 13
- 238000012217 deletion Methods 0.000 description 13
- 230000037430 deletion Effects 0.000 description 13
- 238000012549 training Methods 0.000 description 13
- 230000000694 effects Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 238000009792 diffusion process Methods 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000013145 classification model Methods 0.000 description 5
- 230000008451 emotion Effects 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000002679 ablation Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000282465 Canis Species 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种多模态数据分类方法、终端设备及存储介质,针对缺失模态数据的情况通过不同的方法得到多种来源的缺失模态增强信息,可以从数据层面进一步缓解缺失模态的问题。针对大模型重新训练代价高昂的情况,本发明使用门控机制从模型层面融合多种来源的缺失模态增强信息,从而进一步缓解缺失模态所造成的影响,使模型的最终的分类准确率提升。
Description
技术领域
本发明涉及机器学习领域,特别是一种多模态数据分类方法、终端设备及存储介质。
背景技术
多模态模型被广泛应用于分类、跨模态检索、跨模态生成等多个领域,多模态模型的训练和使用需要大量多模态数据,这些数据是指在不同模态下采集的数据,包括图像、音频、文本、视频等。在实际应用中由于设备故障、数据采集不完整等原因,某些模态数据可能无法获取或者获取不完整,这就导致了模态数据缺失的情况。缺失模态数据在模型的训练和使用过程中是普遍存在的,例如,在图像识别中,由于光照、角度等因素的影响,可能会导致某些图像模态数据无法获取;在语音识别中,由于背景噪音等因素的干扰,可能会导致某些音频模态数据无法获取。缺失模态数据会降低多模态数据的完整性和准确性。
多模态模型中模态之间的交互经常使用以注意力机制为基础的Transformer网络来实现,但是研究表明基于Transformer的多模态模型对缺失模态数据的鲁棒性比较差,在大量缺失模态数据时多模态模型的效果甚至不如只使用单模态数据。对于一个在缺失模态情况下表现不佳的多模态模型,现有技术期望通过改变模型的结构或者提出新的训练方法来改善模型在缺失模态情况下的效果,而随着大部分Transformer预训练模型的规模在不断增加,重新在数据集上进行训练的代价是很昂贵的,由于大多数现实应用中的计算资源有限,重新训练甚至不可行,而单纯使用传统的数据增强的方式对缺失模态的缓解程度有限。
发明内容
本发明所要解决的技术问题是,针对现有技术不足,提供一种多模态数据分类方法、终端设备及存储介质,提高多模态数据分类准确性。
为解决上述技术问题,本发明所采用的技术方案是:一种多模态数据分类方法,包括:
第三特征
S1、将完整数据输入第一编码器,获得第一特征,对所述第一特征加噪,得到加噪后的特征;将文本数据/图片数据输入第二编码器,得到第二特征;拼接所述加噪后的特征和第二特征,并将拼接后的特征输入去噪网络,得到生成特征;重复该过程,得到训练后的去噪网络;其中,所述完整数据包括文本数据和图片数据;
将文本数据/图片数据输入Clip模型,通过计算余弦相似度,得到最相似数据,将所述最相似数据输入第三编码器,得到检索特征;
将文本数据/图片数据输入第四编码器,得到单模态原始特征;其中,第四编码器输入的数据模态与第二编码器、第三编码器输入的数据模态不同;
S2、拼接所述生成特征、检索特征和单模态原始特征,将拼接后的特征作为多模态融合模块的输入,将多模态融合模块的输出作为池化层的输入,得到分类结果;
S3、重复步骤S1和S2,直至分类结果满足设定要求时,得到训练后的多模态融合模块。
相较于传统的解决缺失模态方法仅使用单个数据增强的方式解决缺失模态的问题,本发明针对缺失模态数据的情况通过不同的方法得到多种来源的缺失模态增强信息,可以从数据层面进一步缓解缺失模态的问题。针对大模型重新训练代价高昂的情况,本发明使用门控机制从模型层面融合多种来源的缺失模态增强信息,从而进一步缓解缺失模态所造成的影响,使模型的最终的分类准确率提升。
本发明中,第四编码器输入的数据模态与第二编码器、第三编码器输入的数据模态不同,例如,若第四编码器输入的数据为文本数据,则第二编码器、第三编码器输入的数据为图片数据;若第四编码器输入的数据为图片数据,则第二编码器、第三编码器输入的数据为文本数据。
步骤S2中,拼接所述生成特征、检索特征和单模态原始特征之前,还包括:
对所述生成特征、检索特征进行加权融合,得到加权融合特征;
则S2中,拼接所述生成特征、检索特征和单模态原始特征替换为:拼接所述加权融合特征和所述第三特征。
在模型的训练过程中,由于多模态融合模块参数量很大,模型训练的代价很高,因此在微调模型的过程中,这部分参数需要被冻结,门控单元可以使得多模态融合模块的参数被冻结的情况下,让多种来源的缺失模态增强信息中自动分配权重,从而使模型在训练的过程中自动选择更加优秀的增强特征,从而达到更好的分类效果。
所述门控单元包括池化层、多层感知机;所述生成特征、检索特征输入池化层后,池化层的输出作为多层感知机的输入,所述多层感知机的输出作为激活函数的输入,所述激活函数输出生成特征的权重和检索特征的权重;将所述生成特征与所述生成特征的权重相乘,将所述检索特征与所述检索特征的权重相乘,并融合两个相乘结果,得到所述加权融合特征。
门控单元结构的优势在于结构简单,并且可以对更多模态缺失以及更多来源的增强信息进行扩展。
本发明的方法还包括:
S4、将多模态数据输入第二编码器、Clip模型,利用训练后的去噪网络、多模态融合模块,获得最终的分类结果。
第t次迭代过程中,加噪后的特征表示为:/>其中,αt是控制噪声的超参数,/> 为第一特征。加噪过程的形式和原版扩散模型的形式一致,我们将其改写成了适用于隐空间中多模态特征凭借的形式,即公式中的其中/>代表第一种模态的特征,让其扩展到更多模态的情况。
所述去噪网络包括多个级联的Transformer模块,最后一个Transformer模块与线性层连接;这些Transformer模块之间有部分进行了长连接操作,具体来说第1个Transformer模块的输出与第N-1个Transformer模块的输出会先进行拼接后,再经过线性操作,得到的结果才会作为第N个Transformer模块的输入;第2个Transformer模块的输出与第N-2个Transformer模块的输出拼接后,再经过线性操作,得到的结果作为第N-1个Transformer模块的输入,依此类推;N为Transformer模块的数量。传统的去噪网络一般是以U-Net的形式,本发明使用Transformer模块代替了U-Net中原本的卷积层,并加入了长连接操作,这可以使得多模态的信息利用注意力机制发生更好的交互,从而最终生成更好的缺失模态生成信息。
作为一个发明构思,本发明还提供了一种终端设备,包括:
一个或多个处理器;
存储器,其上存储有一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现本发明上述方法的步骤。
作为一个发明构思,本发明还提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现本发明上述方法的步骤。
与现有技术相比,本发明所具有的有益效果为:
1、本发明针对缺失模态数据的情况通过不同的方法得到多种来源的缺失模态增强信息,可以从数据层面进一步缓解缺失模态的问题;
2、针对大模型重新训练代价高昂的情况,本发明使用门控机制从模型层面融合多种来源的缺失模态增强信息,从而进一步缓解缺失模态所造成的影响,使模型的最终的分类准确率提升。
附图说明
图1为本发明实施例整体框架结构图;
图2为本发明实施例门控单元结构图;
图3为本发明实施例去噪网络结构图;
图4为本发明实施例三种不同缺失模态情况下的效果对比;(a)缺失文本模态,(b)缺失图片模态,(c)随机缺失两种模态。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本发明实施例1提供了一种多模态数据分类方法,适用于M种不同模态的缺失模态问题,为了最简单但不失一般性,我们考虑一个由m=2模态m1和m2组成的多模态数据集(例如这两种模态是图像和文本的特征)。给定一个多模态数据集Dc,是一个模态完全的数据集,/>是第i个样本对,yi是这个样本对的标签,yi∈{0,1,2,...,C},|C|是分类任务的类别数目,在Dc的基础上,我们生成了两个新的数据集/>和/>其中 的含义是将原本第i个样本对中m1模态的数据替换成统一的数据(这个统一的数据我们希望尽可能的不携带特殊的语义信息,因此缺失模态数据的所提取出来的特征我们会初始化为全1的矩阵)。/>和/>类似,替换了另一种模态的数据。
我们首先在模态完全数据集Dc上训练了一个基础模型作为基线模型(baseline),在测试缺失模态情况时为了保留多模态输入的格式,我们会随机选取ηDc和(或)中组成完整的训练和测试数据,通过控制随机选取的比例η来控制缺失模态情况的比例。我们的目标是在缺失模态的情况下,模型的性能也能尽可能达到使用完整模态数据时的效果。
模型的整体框架图如图1所示,首先我们会在模态完全数据集Dc上训练了一个baseline模型,即图中左边的部分,后续实验效果的验证也是在这个模型上进行,该模型由一个文本特征提取器、一个图片特征提取器、一个多模态融合模块组成和最后的分类器部分组成。图右边的部分是模型的特征增强模块,它包括缺失模态检索模型和缺失模态生成模型,我们会在后续详细介绍这两个模型。在模型的推理阶段,针对缺失模态的数据,会同时经过缺失模态检索模型和缺失模态生成模型来进行特征增强,在缺失模态检索模型中会根据已有的模态特征检索数据集中缺失模态的特征,在缺失模态生成模型中会根据已有模态的特征作为条件信息生成缺失模态的特征,两部分的增强特征会通过门控机制使得模型能够自主选择更优的增强特征。
我们基于unidiffuser的结构设计了一个隐空间多模态联合扩散模型,它用于把一种模态信息作为指导来生成另一种模态的信息。首先我们将所有模态特征拼接起来得到整体特征,我们以两种模态数据来举例,把xm1和xm2的特征拼接成一个整体的特征xm,接下来的扩撒模型的正向加噪和逆向去噪的过程都是基于这个整体的特征。扩散模型通过逐渐向数据注入噪声来干扰数据,这个加噪的过程可以由下面的公式形式化:
其中αt是控制噪声的超参数,这使得当t足够大时,最终会把/>几乎完全加噪成高斯噪声。扩散模型的反向过程就是从高斯噪声/>中还原成/>这一过程使用参数为θ的隐空间网络建模,使用经过t步加噪后的/>和条件信息y作为输入,预测在t步中加入的噪声/>从而使得/>的特征可以还原成t-1步的特征。
最终通过重复t次的还原,可以将还原成/>此时我们可以把还原出来的/>特征根据拼接前的索引拆分成各种模态的特征,并保留原本缺失模态的特征。
考虑到模态之间的交互在Transformer-based的骨干网络中优异的表现,我们使用Transformer作为骨架模拟这个噪声预测网络,使用图片和文本模态举例来说,使用图片和文本特征拼接成的整体特征经过加噪后和时间步t一起作为噪声预测网络的输入,作为条件信息的y则只有文本或者图片的单模态特征,这些条件信息在整个训练过程中是不变的。不同模态信息的交互以及和条件信息和交互使用多头注意力机制来实现。
在模型的训练阶段,我们通过公式1所示的过程进行加噪,使用上述模型参数化了噪声预测网络并通过下面的损失函数来优化参数。
在模型的推理阶段使用把已有的模态特征作为条件信息,同时生成文本和图片的特征,并保留缺失模态的特征作为后续门控装置的输入。
我们使用基于对比学习的Clip模型来作为缺失模态检索模型,它利用已有的一种模态的数据从所有可用的另一种模态数据种检索缺失模态数据,以此作为增强数据的来源之一。对比学习是一种深度学习的训练策略,它通过将相似样本对和不相似样本对进行比较,来学习样本之间的差异和相似性,例如学习同一个文本图片对之间的相似性和不同文本图片对之间的差异性,以此来得到更好的表征。Clip通过对比学习预训练了图像编码器和文本编码器来预测哪些图像与数据集中的哪些文本配对,这使得我们可以通过下面的公式计算两种模态数据之间的相似度,从而通过已有模态数据检索到最相似的缺失模态数据的index,下面的公式展示了使用m1模态数据检索m2模态数据的过程。
其中表示在经过模拟模态缺失的操作后,其他所有可用的m2模态数据。
我们通过缺失模态生成模型和缺失模态检索模型得到了两种来源的增强数据,我们认为这两种增强特征的重要性是不一样的,我们设计了一个门控单元来自动分配两种特征的重要性权重,这个门控单元主要由一个池化层,一个MLP和一个Sigmoid函数组成,将来自于生成模型和检索模型的两种特征输入到门控单元中,并通过乘法操作将门控单元的输出与两种特征进行加权融合。门控单元的输出越接近1,表示对应特征的重要性越高;输出越接近0,表示对应特征的重要性越低,这样使得整个模型在训练的过程中能够自动选择更好的特征。图2是门控机制的详细结构。
图3为去噪网络的结构图。去噪网络的本质是一个噪声预测网络,预测t时刻添加的噪声,然后进行去噪即可得到t-1时刻的多模态联合特征。去噪网络的骨架是Transformer,其中每个Transformer块包括一个多头注意力机制、两个个归一化操作和一个MLP多层感知机。本发明采用长连接的形式模拟U-Net的结构,使得后面接近输出的Transformer块也能获取到更接近原始的信息。去噪网络的输入为t时刻的编码、t时刻的控制信息特征以及t时刻加噪过后的多模态联合特征,其输出为预测t-1时刻到t时刻中加噪过程中的噪声量。
我们分别测试了缺失单模态(文本或图像)以及随机缺失两种模态的情况下baseline模型的表现以及添加了我们特征增强模型的表现,同时我们还进行了一些消融实验来验证单独使用生成模型或者单独使用检索模型增强数据的效果。
我们选择了两个具有图片和文本双模态的数据集进行实验,分别是MVSA-Single*数据集和MM-IMDB数据集。
MVSA-Single*是一个情感分类数据集,具有图像和文本两种模态。该数据集的原始数据是MVSA-multiple,MVSA-multiple从Twitter上收集了推文的图像-文本对作为数据并进行了人工标注,我们使用的数据在MVSA-multiple的基础上再次进行了人工标注使得每条推文的图像和文本的标注能够匹配。这个数据集是一个三分类的问题。实验一使用该数据集的图像,文本两种模态的信息预测推文的情感类别。在此数据集上我们使用accuracy和F1-mac两个指标来进行评估。
MM-IMDB是一个电影类型分类数据集,具有图像和文本两种模态。由于一部电影可能有多种不同的类型,因此这个任务是一个多标签分类,实验二使用该数据集的图像,文本两种模态的信息预测电影的分类类别。在此数据集上我们使用F1-mac指标来进行评估。
我们首先在MVSA-Single*数据集上对本发明实施例提出的特征增强模型进行了测试。
模型和训练:在主干模型中,我们利用MVSA-Single*数据集训练了一个多模态情感分类模型,它包括一个文本特征提取器、一个图像特征提取器,一个多模态融合器,我们选择使用bert-base和resnet-152分别作为文本和图像的特征提取器,多模态特征融合模块利用self-attention融合两种模态的信息,它的结构和bert-base一样。主干模型在完整的数据集上训练了30个epoch作为baseline,并通过其中的文本特征提取器和图像特征提取器对文本和图片进行特征提取,这些特征会作为缺失模态生成模型的输入。在特征增强模型中我们根据主干模型提取的特征训练了一个隐空间联合扩散模型,我们把两种模态的特征拼接起来进行加噪的过程,把其中的一种模态特征作为控制信息,使用u-vit的结构作为噪声预测网络预测每一步加入的噪声,通过ddpm算法对扩散模型训练了300个epoch,在使用时,输入已有模态的特征作为控制信息,从高斯噪声中采样出缺失模态的特征作为缺失模态生成模型的增强特征;对于缺失模态检索模型,我们使用clip分别对图片和文本进行特征提取,当文本缺失时,使用对应样本的图片特征和可用的所有文本特征计算余弦相似度,选择相似度最高的文本输入到主干网络的文本提取器中作为缺失模态检索模型的增强特征。两种增强特征通过门控单元自动分配权重。
输入构造:我们将缺失率n定义为模态不完全数据占整个数据集的比例。在视觉和语言任务中,有三种可能的模式缺失的情况:文本缺失、图像缺失和两者都缺失。对于前两种情况,缺失率n的缺失文本(缺失图像)表示存在n仅图像(仅文本)数据和(1-n)完整数据。对于两种模态随机缺失的情况,我们设置缺失文本和图像的几率是恒等的,且一个样本对不能够同时缺失图片和文本,最后的输入中包含n/2的纯文本数据,n/2的纯图像数据和(1-n)的完整数据。此外,我们还测试了仅使用单模态训练模型作为对比结果,此时模型的输入仅有一种模态,在多模态特征融合时也只使用了一种模态的特征。
主要结果:图4中,我们展示了三种不同缺失模态情况下的定量结果,其中虚线部分代码了不适用任何增强方式的baseline,实线部分展示了本发明实施例的方法,我们设置的缺失比率的范围从百分之零到百分之百。从表中可以看到,缺失模态数据对该多模态分类模型的影响很大,评价指标会随着缺失数据的比例增大而显著减小,当缺失数据非常大时,模型的效果甚至不如仅使用单模态的数据训练模型。本发明实施例的方法在所有缺失模态的情况下accuracy和F1-mac均较高的提升,尤其是在缺失大量模态数据时,指标会比缺失少部分数据的提升幅度更高,这很好的缓解了缺失模态数据对模型造成的不利影响。
我们在MMIMDB数据集上做了一系列的消融实验来证明我们方法的有效性,我们首先在实验一上针对两种不同的增强特征对模型的影响做了消融实验,首先我们在MMIMDB数据集上测试了在缺失文本、缺失图片和随机缺失两种模态的情况下,分别仅使用两种增强特征后模型的效果,从表1中可以看到缺失图片和随机缺失的情况下,两种增强方式对比原版方法(miss_aware_prompt)均有一定的提升,这证明了我们方法的有效性,将二者使用门控机制融合之后效果整体上还会更高一些。但是在缺失文本的情况下,模型的性能出现了下降,根据Ma的研究,MMIMDB数据集中文本模态在分类中占据主要地位,因此文本的偏差会导致模型的分类结果出现很大的影响,而本次实验中我们选择了直接使用unidiffuser的权重作为生成模型的权重,没有在此数据集中进行微调,因此导致生成模型的生成特征效果很差。这里也反应了本发明的局限性,即比较依赖于特征增强模型所产生的增强特征的质量。
表1:MMIMDB数据集上不同增强方式的对比
我们对门控机制的有效性也进行了一定的分析,我们在MM-IMDB的测试集上对训练好的门控单元中Sigmoid函数的输出结果进行了分析和统计,其结果如表2所示。
表2:门控机制的消融研究
测试集中一共有16120个图片文本对,通过结果我们可以看到对于文本增强特征的选择上,模型全部选择了检索到的文本,由于生成文本的质量很差,这证明了门控机制在选择较优特征时的表现时较好的,在增强图片的选择上,两种增强特征被选择的差距不大,整体上生成图片被选择的情况高些。
本发明实施例关注于多模态分类模型在实际使用时面临的缺失模态问题,为了缓解缺失模态对分类结果的影响,我们提出了融合基于对比学习的检索特征增强和基于扩散模型的生成式特征增强的方法。该方法适用于基于transformer的多模态融合模型,以缓解缺失模态所导致的性能下降。我们在上述实验设置下,测试了我们的增强模型对于缺失单模态和随机缺失模态多种情况下的表现,并通过消融实验证明了本发明实施例方法的有效性。
实施例2
本发明实施例2提供一种对应上述实施例1的终端设备,终端设备可以是用于客户端的处理设备,例如手机、笔记本电脑、平板电脑、台式机电脑等,以执行上述实施例的方法。
本实施例的终端设备包括存储器、处理器及存储在存储器上的计算机程序;处理器执行存储器上的计算机程序,以实现上述实施例1方法的步骤。
在一些实现中,存储器可以是高速随机存取存储器(RAM:Random AccessMemory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。
在另一些实现中,处理器可以为中央处理器(CPU)、数字信号处理器(DSP)等各种类型通用处理器,在此不做限定。
实施例3
本发明实施例3提供了一种对应上述实施例1的计算机可读存储介质,其上存储有计算机程序/指令。计算机程序/指令被处理器执行时,实现上述实施例1方法的步骤。
计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意组合。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言Java和直译式脚本语言JavaScript等。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (8)
1.一种多模态数据分类方法,其特征在于,包括:
S1、将完整数据输入第一编码器,获得第一特征,对所述第一特征加噪,得到加噪后的特征;将文本数据/图片数据输入第二编码器,得到第二特征;拼接所述加噪后的特征和第二特征,并将拼接后的特征输入去噪网络,得到生成特征;重复该过程,得到训练后的去噪网络;其中,所述完整数据包括文本数据和图片数据;
将文本数据/图片数据输入Clip模型,通过计算余弦相似度,得到最相似数据,将所述最相似数据输入第三编码器,得到检索特征;
将文本数据/图片数据输入第四编码器,得到单模态原始特征;其中,第四编码器输入的数据模态与第二编码器、第三编码器输入的数据模态不同;
S2、拼接所述生成特征、检索特征和单模态原始特征,将拼接后的特征作为多模态融合模块的输入,将多模态融合模块的输出作为池化层的输入,得到分类结果;
S3、重复步骤S1和S2,直至分类结果满足设定要求时,得到训练后的多模态融合模块。
2.根据权利要求1所述的多模态数据分类方法,其特征在于,步骤S2中,拼接所述生成特征、检索特征和单模态原始特征之前,还包括:
对所述生成特征、检索特征进行加权融合,得到加权融合特征;
则S2中,拼接所述生成特征、检索特征和单模态原始特征替换为:拼接所述加权融合特征和所述单模态原始特征。
3.根据权利要求2所述的多模态数据分类方法,其特征在于,门控单元包括池化层、多层感知机;所述生成特征、检索特征输入池化层后,池化层的输出作为多层感知机的输入,所述多层感知机的输出作为激活函数的输入,所述激活函数输出生成特征的权重和检索特征的权重;将所述生成特征与所述生成特征的权重相乘,将所述检索特征与所述检索特征的权重相乘,并融合两个相乘结果,得到所述加权融合特征。
4.根据权利要求1或2所述的多模态数据分类方法,其特征在于,还包括:
S4、将多模态数据输入第二编码器、Clip模型,利用训练后的去噪网络、多模态融合模块,获得最终的分类结果。
5.根据权利要求1所述的多模态数据分类方法,其特征在于,第t次迭代过程中,加噪后的特征表示为:/>其中,αt是控制噪声的超参数, 为第一特征。
6.根据权利要求1所述的多模态数据分类方法,其特征在于,所述去噪网络包括多个级联的Transformer模块,最后一个Transformer模块与线性层连接;第1个Transformer模块的输出与第N-1个Transformer模块的输出拼接后,再经过线性操作,得到的结果作为第N个注意力Transformer模块的输入;第2个Transformer模块的输出与第N-2个Transformer模块的输出拼接后,再经过线性操作,得到的结果作为第N-1个Transformer模块的输入,依此类推;N为Transformer模块的数量。
7.一种终端设备,其特征在于,包括:
一个或多个处理器;
存储器,其上存储有一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1~6任一项所述方法的步骤。
8.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1~6任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311454966.8A CN117421639A (zh) | 2023-11-03 | 2023-11-03 | 多模态数据分类方法、终端设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311454966.8A CN117421639A (zh) | 2023-11-03 | 2023-11-03 | 多模态数据分类方法、终端设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117421639A true CN117421639A (zh) | 2024-01-19 |
Family
ID=89526235
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311454966.8A Pending CN117421639A (zh) | 2023-11-03 | 2023-11-03 | 多模态数据分类方法、终端设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117421639A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116701637A (zh) * | 2023-06-29 | 2023-09-05 | 中南大学 | 一种基于clip的零样本文本分类方法、系统及介质 |
-
2023
- 2023-11-03 CN CN202311454966.8A patent/CN117421639A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116701637A (zh) * | 2023-06-29 | 2023-09-05 | 中南大学 | 一种基于clip的零样本文本分类方法、系统及介质 |
CN116701637B (zh) * | 2023-06-29 | 2024-03-08 | 中南大学 | 一种基于clip的零样本文本分类方法、系统及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220269707A1 (en) | Method and system for analyzing entities | |
JP7193252B2 (ja) | 画像の領域のキャプション付加 | |
CN108694225B (zh) | 一种图像搜索方法、特征向量的生成方法、装置及电子设备 | |
CN109766557B (zh) | 一种情感分析方法、装置、存储介质及终端设备 | |
CN112100377B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN110263218B (zh) | 视频描述文本生成方法、装置、设备和介质 | |
CN111310464A (zh) | 词向量获取模型生成方法、装置及词向量获取方法、装置 | |
CN116720004A (zh) | 推荐理由生成方法、装置、设备及存储介质 | |
CN117421639A (zh) | 多模态数据分类方法、终端设备及存储介质 | |
WO2021001517A1 (en) | Question answering systems | |
CN113222022A (zh) | 一种网页分类识别方法及装置 | |
CN116630480B (zh) | 一种交互式文本驱动图像编辑的方法、装置和电子设备 | |
CN108984475A (zh) | 基于全息神经网络的答案选择方法、装置和电子设备 | |
CN110889290B (zh) | 文本编码方法和设备、文本编码有效性检验方法和设备 | |
WO2021159099A1 (en) | Searching for normalization-activation layer architectures | |
CN117252250A (zh) | 大模型预训练方法及装置 | |
CN115357712A (zh) | 方面级情感分析方法、装置、电子设备及存储介质 | |
CN112417858A (zh) | 一种实体权重评分方法、系统、电子设备及存储介质 | |
CN117909505B (zh) | 事件论元的抽取方法及相关设备 | |
CN116227598B (zh) | 一种基于双阶段注意力机制的事件预测方法、设备及介质 | |
CN115982395B (zh) | 一种基于量子的媒体信息的情感预测方法、介质及设备 | |
CN118070775B (zh) | 摘要生成模型的性能评测方法、装置、计算机设备 | |
CN113780418B (zh) | 一种数据的筛选方法、系统、设备和存储介质 | |
CN117521674B (zh) | 对抗信息的生成方法、装置、计算机设备和存储介质 | |
CN112650830B (zh) | 关键词提取方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |