CN116992396A - 冗余自适应的多模态鲁棒融合学习方法及系统 - Google Patents
冗余自适应的多模态鲁棒融合学习方法及系统 Download PDFInfo
- Publication number
- CN116992396A CN116992396A CN202310981766.1A CN202310981766A CN116992396A CN 116992396 A CN116992396 A CN 116992396A CN 202310981766 A CN202310981766 A CN 202310981766A CN 116992396 A CN116992396 A CN 116992396A
- Authority
- CN
- China
- Prior art keywords
- mode
- feature
- vector
- variance
- vectors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000004927 fusion Effects 0.000 title claims abstract description 31
- 239000013598 vector Substances 0.000 claims abstract description 128
- 238000000605 extraction Methods 0.000 claims abstract description 31
- 238000005070 sampling Methods 0.000 claims abstract description 19
- 230000006870 function Effects 0.000 claims description 37
- 238000013507 mapping Methods 0.000 claims description 18
- 230000000007 visual effect Effects 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
- G06F18/256—Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种冗余自适应的多模态鲁棒融合学习方法及系统,包括:使用预训练好的单模态特征提取网络提取单模态初始特征;将各单模态初始特征编码为概率分布;对各单模态概率分布进行正则化约束;为每个单模态均值分配元素级特征权重;利用各权重分配后的单模态均值产生多模态特征;对各单模态分布采样,产生相应的单模态特征向量;利用各单模态、多模态特征向量得到相应特征的概率预测分布。本发明考虑多模态数据间冗余性对模型鲁棒性的影响,促使模型在捕获全部单模态信息的同时,动态地识别其中的无损信息用于融合,实现更鲁棒且准确的多模态预测。
Description
技术领域
本发明涉及多模态处理技术领域,具体地,涉及一种冗余自适应的多模态鲁棒融合学习方法及系统。
背景技术
近年来,随着多媒体设备的广泛普及,描述相同、相关对象的多模态数据在互联网场景中呈指数级增长,多模态数据已成为新时期信息资源的主要载体。针对多模态数据所提出的多模态学习算法则研究如何利用数据间的关联关系对多模态信息进行综合有效地提取和筛选以获取性能更优越的多模态深度学习模型。
传统的多模态模型通过聚合不同模态提供的互补任务线索,来提高算法的效果。然而,在现实世界中,多模态模型可能遇到不完美的多模态数据,即存在部分模态损坏或完全丢失的数据。在遭遇这种数据时,传统的在干净且模态完整的数据上训练的多模态模型的性能可能会被严重影响,甚至可能不如仅在其余未受损的部分模态上训练的模型表现得好。这是因为不同模态中存在的冗余信息不太可能同时被神经网络捕获。因此,当某些模态被损坏时,在干净且模态完整的数据上训练的多模态模型无法利用其余未损坏模态中包含的冗余信息,这使得它们对不完美数据更加脆弱。
专利文献CN115983280A(申请号:202310081044.0)公开了一种有缺失数据的两模态聚类方法和系统,该发明基于自编码器,通过跨模态对比学习损失将两个模特映射到公共空间以学习模态一致性表示,通过跨模态对偶预测损失预测丢失的模态,以消除模态间不一致的信息,进一步提高表征一致性。然而该专利所设计的损失函数主要强调模态之间的一致性,忽略了模态间互补性的学习,这限制了稳健多模态学习的整体性能;其次该专利在实现特征融合时不考虑不同样本数据质量可能存在的变化,仅能处理不完美多模态数据中模态缺失的情况,对数据受损的情况应对不足。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种冗余自适应的多模态鲁棒融合学习方法及系统。
根据本发明提供的冗余自适应的多模态鲁棒融合学习方法,包括:
单模态特征提取步骤:对单模态特征提取网络进行预训练,分别对各种输入模态数据提取预设维度的单模态初始特征;
单模态特征编码步骤:使用不同的单模态特征编码网络,分别对提取的各单模态初始特征进行编码,产生维度相同的不同单模态均值和方差向量组合,构建单模态高斯概率分布;
单模态特征稀疏化步骤:根据得到的各单模态的均值和方差向量,对各单模态概率分布进行正则化约束;
动态权重分配步骤:对比得到的各单模态的方差向量,为每个单模态均值向量分配元素级特征权重;
多模态融合步骤:将各权重分配后的单模态均值向量进行求和,产生多模态特征向量;
单模态概率分布采样步骤:对由不同均值和方差组合构成的各单模态高斯概率分布进行重参数操作,产生相应的单模态特征向量;
单模态、多模态特征预测步骤:将得到的各单模态、多模态特征向量输入多层感知机构成的类别预测网络,得到相应特征的概率预测分布。
优选的,所述单模态特征提取步骤包括:固定各种预训练好的单模态特征提取网络的参数,将相应单模态数据映射为初始特征x1,x2,…,xM,其中M是模态总数;不同的输入数据类型使用不同的特征提取网络,使用大规模文本预训练模型BERT-large,将输入的文本模态数据提取为T×1024维的文本初始特征,其中T是文本序列长度;使用深度卷积构成的视觉特征编码网络ResNet-18,对输入单张图像模态数据提取为512维的视觉初始特征。
优选的,所述单模态特征编码步骤包括:使用不同的单模态特征编码网络,分别对提取的x1,x2,…,xM进行编码,然后经过两个线性映射模块分别产生D维的对应单模态均值向量μ1,μ2,…,μM、方差向量σ1,σ2,…,σM,构建单模态高斯概率分布不同的单模态初始特征应使用不同的特征编码网络,使用TextCNN构成的文本特征编码网络,对序列化文本初始特征进行编码;使用多层感知机构成的特征编码网络,对非序列化初始特征进行编码,具体的编码过程如下所示:
其中,分别是模态m的高斯概率分布/>的均值和方差向量;fm(·)是模态m的单模态特征编码器;/>和/>分别是计算均值和方差向量的两个线性映射模块。
优选的,所述单模态特征稀疏化步骤包括:根据得到的各单模态的均值向量μ1,μ2,…,μM、方差向量σ1,σ2,…,σM,对各单模态概率分布进行正则化约束,以此训练多模态网络,直至损失函数收敛,所述损失函数计算公式如下:
其中,‖·‖1代表l1正则化,⊙代表元素尺度乘积。
优选的,所述动态权重分配步骤包括:对比得到的各单模态的方差向量,按下式为每个单模态均值向量μ1,μ2,…,μM分配元素级特征权重:
其中,δm∈{0,1}指示模态m是否缺失,若模态m的数据完全缺失,则δm=0,否则,δm=1。
优选的,所述多模态融合步骤包括:将得到的各单模态权重ω1,ω2,…,ωM与对应的单模态均值向量μ1,μ2,…,μM进行元素尺度乘积后求和,产生多模态特征向量h,具体过程如下所示:
优选的,所述单模态概率分布采样步骤包括:从标准高斯分布中采样得到zm,在将zm与σm进行元素尺度乘积后与μm相加得到对应单模态特征hm,具体过程如下式:
hm=zm⊙σm+μm
其中,
优选的,所述单模态、多模态特征预测步骤包括:将得到的各单模态特征向量hm以及多模态特征向量h输入同一个由多层感知机构成的类别预测网络,得到相应特征的概率预测分布,并使用给定的分类标签对所述概率预测分布进行监督,计算损失函数训练多模态网络,直至损失函数收敛,所述损失函数计算公式如下:
其中,y是多模态数据x1,x2,…,xM对应的分类标签;l(·)代表交叉熵函数;f(·)代表单模态、多模态特征共享的由多层感知机构成的类别预测网络。
根据本发明提供的冗余自适应的多模态鲁棒融合学习系统,包括:
单模态特征提取模块:对单模态特征提取网络进行预训练,分别对各种输入模态数据提取预设维度的单模态初始特征;
单模态特征编码模块:使用不同的单模态特征编码网络,分别对提取的各单模态初始特征进行编码,产生维度相同的不同单模态均值、方差向量组合,构建单模态高斯概率分布;
单模态特征稀疏化模块:根据得到的各单模态的均值、方差向量,对各单模态概率分布进行正则化约束;
动态权重分配模块:对比得到的各单模态的方差向量,为每个单模态均值向量分配元素级特征权重;
多模态融合模块:将各权重分配后的单模态均值向量进行求和,产生多模态特征向量;
单模态概率分布采样模块:对由不同均值、方差组合构成的各单模态高斯概率分布进行重参数操作,产生相应的单模态特征向量;
单模态、多模态特征预测模块:将得到的各单模态、多模态特征向量输入多层感知机构成的类别预测网络,得到相应特征的概率预测分布。
优选的,所述单模态特征提取模块包括:固定各种预训练好单模态特征提取网络的参数,将相应单模态数据映射为初始特征x1,x2,…,xM,其中M是模态总数;不同的输入数据类型使用不同的特征提取网络,使用大规模文本预训练模型BERT-large,将输入的文本模态数据提取为T×1024维的文本初始特征,其中T是文本序列长度;使用深度卷积构成的视觉特征编码网络ResNet-18,对输入单张图像模态数据提取为512维的视觉初始特征;
所述单模态特征模块包括:使用不同的单模态特征编码网络,分别对提取的x1,x2,…,xM进行编码,然后经过两个线性映射模块分别产生D维的对应单模态均值向量μ1,μ2,…,μM、方差向量σ1,σ2,…,σM,构建单模态高斯概率分布不同的单模态初始特征应使用不同的特征编码网络,使用TextCNN构成的文本特征编码网络,对序列化文本初始特征进行编码;使用多层感知机构成的特征编码网络,对非序列化初始特征进行编码,具体的编码过程如下所示:
其中,分别是模态m的高斯概率分布/>的均值和方差向量;fm(·)是模态m的单模态特征编码器;/>和/>分别是计算均值和方差向量的两个线性映射模块;
所述单模态特征稀疏化模块包括:根据得到的各单模态的均值向量μ1,μ2,…,μM、方差向量σ1,σ1,…,σM,对各单模态概率分布进行正则化约束,以此训练多模态网络,直至损失函数收敛,所述损失函数计算公式如下:
其中,‖·‖1代表l1正则化,⊙代表元素尺度乘积;
所述动态权重分配模块包括:对比得到的各单模态的方差向量,按下式为每个单模态均值向量μ1,μ2,…,μM分配元素级特征权重:
其中,δm∈{0,1}指示模态m是否缺失,若模态m的数据完全缺失,则δm=0,否则,δm=1;
所述多模态融合模块包括:将得到的各单模态权重ω1,ω2,…,ωM与对应的单模态均值向量μ1,μ2,…,μM进行元素尺度乘积后求和,产生多模态特征向量h,具体过程如下所示:
所述单模态概率分布采样模块包括:从标准高斯分布中采样得到zm,在将zm与σm进行元素尺度乘积后与μm相加得到对应单模态特征hm,具体过程如下式:
所述单模态、多模态特征预测模块包括:将得到的各单模态特征向量hm以及多模态特征向量h输入同一个由多层感知机构成的类别预测网络,得到相应特征的概率预测分布,并使用给定的分类标签对所述概率预测分布进行监督,计算损失函数训练多模态网络,直至损失函数收敛,所述损失函数计算公式如下:
其中,y是多模态数据x1,x2,…,xM对应的分类标签;l(·)代表交叉熵函数;f(·)代表单模态、多模态特征共享的由多层感知机构成的类别预测网络。
与现有技术相比,本发明具有如下的有益效果:
(1)本发明在潜在空间中采用概率建模的形式来表示每种模态,这种概率建模的形式编码了各单模态特征可能值的分布,而不仅仅是一个确定性向量,使得本发明对单模态数据中的微小扰动更具容忍性;此外,概率分布的方差为估计单模态元素尺度质量提供了的机会,这对于后续的动态权重分配中是至关重要的;
(2)本发明通过同时优化各单模态独立的分类损失,以及施加在各单模态特征分布上的稀疏化约束损失,最大程度的学习各单模态数据的全部有用信息,从而在每个单模态特征上都实现冗余信息的无损捕获,这是进行鲁棒多模态融合的前提;
(3)本发明通过对比各单模态概率分布的方差来为每个模态分配元素尺度的权重,使得网络能够动态识别各单模态中的无损信息用于融合,从而提升网络性能;此外,本发明还利用共享的分类器,将单模态、多模态特征约束到同一公共空间,使得方差之间更具可比性。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明实施例中方法流程图;
图2为本发明实施例中系统原理图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
实施例1:
如图1所示,本发明提供了一种冗余自适应的多模态鲁棒融合学习方法。以图像-文本对的视频分类数据为例,本方法包括:
单模态特征提取步骤:使用适合的预训练好单模态特征提取网络,分别对各种输入模态数据提取预设维度的单模态初始特征。其中,文本数据采用Bert-lagre模型提取1024维特征,图像数据采用Resnet18模型提取512维特征;
单模态特征编码步骤:使用不同的单模态特征编码网络,分别对提取的各单模态初始特征进行编码,产生维度相同的不同单模态均值、方差向量组合,构建单模态高斯概率分布。其中,文本特征和图像特征均使用一个2层MLP编码包含128维均值、方差的高斯分布;
单模态特征稀疏化步骤:根据得到的各单模态的均值、方差向量,对各单模态概率分布进行L1-norm的正则化约束;
动态权重分配步骤:对比得到的各单模态的方差向量,为每个单模态均值向量分配元素级特征权重;
多模态融合步骤:将各权重分配后的单模态均值向量进行求和,产生多模态特征向量;
单模态概率分布采样步骤:对由不同均值、方差组合构成的各单模态高斯概率分布进行重参数操作,产生相应的单模态特征向量;
单模态、多模态特征预测步骤:将得到的各单模态、多模态特征向量输入多层感知机构成的类别预测网络,得到相应特征的概率预测分布。
具体地,所述单模态特征提取步骤包括:固定各种预训练好单模态特征提取网络的参数,将相应单模态数据映射为初始特征x1,x2,…,xM,其中M是模态总数。不同的输入数据类型使用不同的特征提取网络,如,针对文本-图像对食品分类数据,使用大规模文本预训练模型BERT-large,将输入的文本模态数据提取为1024维的文本初始特征;使用深度卷积构成的视觉特征编码网络ResNet-18,对输入单张图像模态数据提取为512维的视觉初始特征。
具体地,所述单模态特征编码步骤包括:使用不同的单模态特征编码网络,分别对提取的x1,x2,…,xM进行编码,然后经过两个线性映射模块分别产生D维的对应单模态均值向量μ1,μ2,…,μM、方差向量σ1,σ2,…,σM,构建单模态高斯概率分布不同的单模态初始特征应使用不同的特征编码网络,如,针对食品分类,使用多层感知机构成的特征编码网络,对文本、图像初始特征进行编码。具体的编码过程如下所示:
其中,分别是模态m的高斯概率分布/>的均值和方差向量,fm(·)是模态m的单模态特征编码器,/>和/>分别是计算均值和方差向量的两个线性映射模块。
具体地,所述单模态特征稀疏化步骤包括:根据得到的各单模态的均值向量μ1,μ2,…,μM、方差向量σ1,σ2,…,σM,对各单模态概率分布进行正则化约束,以此训练多模态网络,直至损失函数收敛。所述损失函数,计算公式如下:
其中,‖·‖1代表l1正则化,⊙代表元素尺度乘积。
具体地,所述动态权重分配步骤包括:对比得到的各单模态的方差向量,按下式为每个单模态均值向量μ1,μ2,…,μM分配元素级特征权重:
其中,δm∈{0,1}指示模态m是否缺失,若模态m的数据完全缺失,则δm=0,否则,δm=1。
具体地,所述多模态融合步骤包括:将得到的各单模态权重ω1,ω2,…,ωM与对应的单模态均值向量μ1,μ2,…,μM进行元素尺度乘积后求和,产生多模态特征向量h,具体过程如下所示:
具体地,所述单模态概率分布采样步骤包括:从标准高斯分布中采样得到zm,在将zm与σm进行元素尺度乘积后与μm相加得到对应单模态特征hm,具体过程如下式:
具体地,所述单模态、多模态特征预测步骤包括:将得到的各单模态特征向量hm以及多模态特征向量h输入同一个由多层感知机构成的类别预测网络,得到相应特征的概率预测分布,并使用给定的分类标签对所述概率预测分布进行监督,可以计算损失函数训练多模态网络,直至损失函数收敛。所述损失函数,计算公式如下:
其中,y是多模态数据x1,x2,…,xM对应的分类标签,l(·)代表交叉熵函数,f(·)代表单模态、多模态特征共享的由多层感知机构成的类别预测网络。
实施例2:
如图2,本发明提供了一种冗余自适应的多模态鲁棒融合学习系统,包括:
单模态特征提取模块:使用适合的预训练好单模态特征提取网络,分别对各种输入模态数据提取预设维度的单模态初始特征;其中,文本数据采用Bert-lagre模型提取1024维特征,图像数据采用Resnet18模型提取512维特征;
单模态特征编码模块:使用不同的单模态特征编码网络,分别对提取的各单模态初始特征进行编码,产生维度相同的不同单模态均值、方差向量组合,构建单模态高斯概率分布;其中,文本特征和图像特征均使用一个2层MLP编码包含128维均值、方差的高斯分布;
单模态特征稀疏化模块:根据得到的各单模态的均值、方差向量,对各单模态概率分布进行L1-norm的正则化约束;
动态权重分配模块:对比得到的各单模态的方差向量,为每个单模态均值向量分配元素级特征权重;
多模态融合模块:将各权重分配后的单模态均值向量进行求和,产生多模态特征向量;
单模态概率分布采样模块:对由不同均值、方差组合构成的各单模态高斯概率分布进行重参数操作,产生相应的单模态特征向量;
单模态、多模态特征预测模块:将得到的各单模态、多模态特征向量输入多层感知机构成的类别预测网络,得到相应特征的概率预测分布。
具体地,所述单模态特征提取模块包括:固定各种预训练好单模态特征提取网络的参数,将相应单模态数据映射为初始特征x1,x2,…,xM,其中M是模态总数。不同的输入数据类型使用不同的特征提取网络,如,针对文本-图像对食品分类数据,使用大规模文本预训练模型BERT-large,将输入的文本模态数据提取为1024维的文本初始特征;使用深度卷积构成的视觉特征编码网络ResNet-18,对输入单张图像模态数据提取为512维的视觉初始特征。
具体地,所述单模态特征模块包括:使用不同的单模态特征编码网络,分别对提取的x1,x2,…,xM进行编码,然后经过两个线性映射模块分别产生D维的对应单模态均值向量μ1,μ2,…,μM、方差向量σ1,σ2,…,σM,构建单模态高斯概率分布不同的单模态初始特征应使用不同的特征编码网络,如,使用TextCNN构成的文本特征编码网络,对序列化文本初始特征进行编码;使用多层感知机构成的特征编码网络,对非序列化初始特征进行编码。具体的编码过程如下所示:
其中,分别是模态m的高斯概率分布/>的均值和方差向量,fm(·)是模态m的单模态特征编码器,/>和/>分别是计算均值和方差向量的两个线性映射模块。
具体地,所述单模态特征稀疏化模块包括:根据得到的各单模态的均值向量μ1,μ2,…,μM、方差向量σ1,σ2,…,σM,对各单模态概率分布进行正则化约束,以此训练多模态网络,直至损失函数收敛。所述损失函数,计算公式如下:
其中,‖·‖1代表l1正则化,⊙代表元素尺度乘积。
具体地,所述动态权重分配模块包括:对比得到的各单模态的方差向量,按下式为每个单模态均值向量μ1,μ2,…,μM分配元素级特征权重:
其中,δm∈{0,1}指示模态m是否缺失,若模态m的数据完全缺失,则δm=0,否则,δm=1。
具体地,所述多模态融合模块包括:将得到的各单模态权重ω1,ω2,…,ωM与对应的单模态均值向量μ1,μ2,…,μM进行元素尺度乘积后求和,产生多模态特征向量h,具体过程如下所示:
具体地,所述单模态概率分布采样模块包括:从标准高斯分布中采样得到zm,在将zm与σm进行元素尺度乘积后与μm相加得到对应单模态特征hm,具体过程如下式:
具体地,所述单模态、多模态特征预测模块包括:将得到的各单模态特征向量hm以及多模态特征向量h输入同一个由多层感知机构成的类别预测网络,得到相应特征的概率预测分布,并使用给定的分类标签对所述概率预测分布进行监督,可以计算损失函数训练多模态网络,直至损失函数收敛。所述损失函数,计算公式如下:
其中,y是多模态数据x1,x2,…,xM对应的分类标签,l(·)代表交叉熵函数,f(·)代表单模态、多模态特征共享的由多层感知机构成的类别预测网络。
综上,本发明在潜在空间中采用概率建模的形式来表示每种模态。这种概率建模的形式编码了各单模态特征可能值的分布,而不仅仅是一个确定性向量,使得本发明对单模态数据中的微小扰动更具容忍性;此外,本发明通过同时优化各单模态独立的分类损失,以及施加在各单模态特征分布上的稀疏化约束损失,最大程度的学习各单模态数据的全部有用信息,从而在每个单模态特征上都实现冗余信息的无损捕获;不仅如此,本发明还通过对比各单模态概率分布的方差来为每个模态分配元素尺度的权重,使得网络能够动态识别各单模态中的无损信息用于融合,从而提升网络性能。为了使得方差之间更具可比性,本发明还利用共享的分类器,将单模态、多模态特征约束到同一公共空间。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
Claims (10)
1.一种冗余自适应的多模态鲁棒融合学习方法,其特征在于,包括:
单模态特征提取步骤:对单模态特征提取网络进行预训练,分别对各种输入模态数据提取预设维度的单模态初始特征;
单模态特征编码步骤:使用不同的单模态特征编码网络,分别对提取的各单模态初始特征进行编码,产生维度相同的不同单模态均值和方差向量组合,构建单模态高斯概率分布;
单模态特征稀疏化步骤:根据得到的各单模态的均值和方差向量,对各单模态概率分布进行正则化约束;
动态权重分配步骤:对比得到的各单模态的方差向量,为每个单模态均值向量分配元素级特征权重;
多模态融合步骤:将各权重分配后的单模态均值向量进行求和,产生多模态特征向量;
单模态概率分布采样步骤:对由不同均值和方差组合构成的各单模态高斯概率分布进行重参数操作,产生相应的单模态特征向量;
单模态、多模态特征预测步骤:将得到的各单模态、多模态特征向量输入多层感知机构成的类别预测网络,得到相应特征的概率预测分布。
2.根据权利要求1所述的冗余自适应的多模态鲁棒融合学习方法,其特征在于,所述单模态特征提取步骤包括:固定各种预训练好的单模态特征提取网络的参数,将相应单模态数据映射为初始特征x1,x2,…,xM,其中M是模态总数;不同的输入数据类型使用不同的特征提取网络,使用大规模文本预训练模型BERT-large,将输入的文本模态数据提取为T×1024维的文本初始特征,其中T是文本序列长度;使用深度卷积构成的视觉特征编码网络ResNet-18,对输入单张图像模态数据提取为512维的视觉初始特征。
3.根据权利要求2所述的冗余自适应的多模态鲁棒融合学习方法,其特征在于,所述单模态特征编码步骤包括:使用不同的单模态特征编码网络,分别对提取的x1,x2,…,xM进行编码,然后经过两个线性映射模块分别产生D维的对应单模态均值向量μ1,μ2,…,μM、方差向量σ1,σ2,…,σM,构建单模态高斯概率分布不同的单模态初始特征应使用不同的特征编码网络,使用TextCNN构成的文本特征编码网络,对序列化文本初始特征进行编码;使用多层感知机构成的特征编码网络,对非序列化初始特征进行编码,具体的编码过程如下所示:
其中,分别是模态m的高斯概率分布/>的均值和方差向量;fm(·)是模态m的单模态特征编码器;/>和/>分别是计算均值和方差向量的两个线性映射模块。
4.根据权利要求3所述的冗余自适应的多模态鲁棒融合学习方法,其特征在于,所述单模态特征稀疏化步骤包括:根据得到的各单模态的均值向量μ1,μ2,…,μM、方差向量σ1,σ2,…,σM,对各单模态概率分布进行正则化约束,以此训练多模态网络,直至损失函数收敛,所述损失函数计算公式如下:
其中,||·||1代表l1正则化,⊙代表元素尺度乘积。
5.根据权利要求1所述的冗余自适应的多模态鲁棒融合学习方法,其特征在于,所述动态权重分配步骤包括:对比得到的各单模态的方差向量,按下式为每个单模态均值向量μ1,μ2,…,μM分配元素级特征权重:
其中,δm∈{0,1}指示模态m是否缺失,若模态m的数据完全缺失,则δm=0,否则,δm=1。
6.根据权利要求5所述的冗余自适应的多模态鲁棒融合学习方法,其特征在于,所述多模态融合步骤包括:将得到的各单模态权重ω1,ω2,…,ωM与对应的单模态均值向量μ1,μ2,…,μM进行元素尺度乘积后求和,产生多模态特征向量h,具体过程如下所示:
7.根据权利要求3所述的冗余自适应的多模态鲁棒融合学习方法,其特征在于,所述单模态概率分布采样步骤包括:从标准高斯分布中采样得到zm,在将zm与σm进行元素尺度乘积后与μm相加得到对应单模态特征hm,具体过程如下式:
hm=zm⊙σm+μm
其中,
8.根据权利要求6或7所述的冗余自适应的多模态鲁棒融合学习方法,其特征在于,所述单模态、多模态特征预测步骤包括:将得到的各单模态特征向量hm以及多模态特征向量h输入同一个由多层感知机构成的类别预测网络,得到相应特征的概率预测分布,并使用给定的分类标签对所述概率预测分布进行监督,计算损失函数训练多模态网络,直至损失函数收敛,所述损失函数计算公式如下:
其中,y是多模态数据x1,x2,…,xM对应的分类标签;l(·)代表交叉熵函数;f(·)代表单模态、多模态特征共享的由多层感知机构成的类别预测网络。
9.一种冗余自适应的多模态鲁棒融合学习系统,其特征在于,包括:
单模态特征提取模块:对单模态特征提取网络进行预训练,分别对各种输入模态数据提取预设维度的单模态初始特征;
单模态特征编码模块:使用不同的单模态特征编码网络,分别对提取的各单模态初始特征进行编码,产生维度相同的不同单模态均值、方差向量组合,构建单模态高斯概率分布;
单模态特征稀疏化模块:根据得到的各单模态的均值、方差向量,对各单模态概率分布进行正则化约束;
动态权重分配模块:对比得到的各单模态的方差向量,为每个单模态均值向量分配元素级特征权重;
多模态融合模块:将各权重分配后的单模态均值向量进行求和,产生多模态特征向量;
单模态概率分布采样模块:对由不同均值、方差组合构成的各单模态高斯概率分布进行重参数操作,产生相应的单模态特征向量;
单模态、多模态特征预测模块:将得到的各单模态、多模态特征向量输入多层感知机构成的类别预测网络,得到相应特征的概率预测分布。
10.根据权利要求9所述的冗余自适应的多模态鲁棒融合学习系统,其特征在于,所述单模态特征提取模块包括:固定各种预训练好单模态特征提取网络的参数,将相应单模态数据映射为初始特征x1,x2,…,xM,其中M是模态总数;不同的输入数据类型使用不同的特征提取网络,使用大规模文本预训练模型BERT-large,将输入的文本模态数据提取为T×1024维的文本初始特征,其中T是文本序列长度;使用深度卷积构成的视觉特征编码网络ResNet-18,对输入单张图像模态数据提取为512维的视觉初始特征;
所述单模态特征模块包括:使用不同的单模态特征编码网络,分别对提取的x1,x2,…,xM进行编码,然后经过两个线性映射模块分别产生D维的对应单模态均值向量μ1,μ2,…,μM、方差向量σ1,σ2,…,σM,构建单模态高斯概率分布不同的单模态初始特征应使用不同的特征编码网络,使用TextCNN构成的文本特征编码网络,对序列化文本初始特征进行编码;使用多层感知机构成的特征编码网络,对非序列化初始特征进行编码,具体的编码过程如下所示:
其中,分别是模态m的高斯概率分布/>的均值和方差向量;fm(·)是模态m的单模态特征编码器;/>和/>分别是计算均值和方差向量的两个线性映射模块;
所述单模态特征稀疏化模块包括:根据得到的各单模态的均值向量μ1,μ2,…,μM、方差向量σ1,σ2,…,σM,对各单模态概率分布进行正则化约束,以此训练多模态网络,直至损失函数收敛,所述损失函数计算公式如下:
其中,||·||1代表正则化,⊙代表元素尺度乘积;
所述动态权重分配模块包括:对比得到的各单模态的方差向量,按下式为每个单模态均值向量μ1,μ2,…,μM分配元素级特征权重:
其中,δm∈{0,1}指示模态m是否缺失,若模态m的数据完全缺失,则δm=0,否则,δm=1;
所述多模态融合模块包括:将得到的各单模态权重ω1,ω2,…,ωM与对应的单模态均值向量μ1,μ2,…,μM进行元素尺度乘积后求和,产生多模态特征向量h,具体过程如下所示:
所述单模态概率分布采样模块包括:从标准高斯分布中采样得到zm,在将zm与σm进行元素尺度乘积后与μm相加得到对应单模态特征hm,具体过程如下式:
所述单模态、多模态特征预测模块包括:将得到的各单模态特征向量hm以及多模态特征向量h输入同一个由多层感知机构成的类别预测网络,得到相应特征的概率预测分布,并使用给定的分类标签对所述概率预测分布进行监督,计算损失函数训练多模态网络,直至损失函数收敛,所述损失函数计算公式如下:
其中,y是多模态数据x1,x2,…,xM对应的分类标签;l(·)代表交叉熵函数;f(·)代表单模态、多模态特征共享的由多层感知机构成的类别预测网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310981766.1A CN116992396A (zh) | 2023-08-04 | 2023-08-04 | 冗余自适应的多模态鲁棒融合学习方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310981766.1A CN116992396A (zh) | 2023-08-04 | 2023-08-04 | 冗余自适应的多模态鲁棒融合学习方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116992396A true CN116992396A (zh) | 2023-11-03 |
Family
ID=88524448
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310981766.1A Pending CN116992396A (zh) | 2023-08-04 | 2023-08-04 | 冗余自适应的多模态鲁棒融合学习方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116992396A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117476247A (zh) * | 2023-12-27 | 2024-01-30 | 杭州深麻智能科技有限公司 | 一种疾病多模态数据智能分析方法 |
-
2023
- 2023-08-04 CN CN202310981766.1A patent/CN116992396A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117476247A (zh) * | 2023-12-27 | 2024-01-30 | 杭州深麻智能科技有限公司 | 一种疾病多模态数据智能分析方法 |
CN117476247B (zh) * | 2023-12-27 | 2024-04-19 | 杭州乐九医疗科技有限公司 | 一种疾病多模态数据智能分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111079532B (zh) | 一种基于文本自编码器的视频内容描述方法 | |
CN110020620B (zh) | 一种大姿态下的人脸识别方法、装置及设备 | |
CN111695674B (zh) | 联邦学习方法、装置、计算机设备及可读存储介质 | |
CN108734210B (zh) | 一种基于跨模态多尺度特征融合的对象检测方法 | |
CN113139628B (zh) | 样本图像的识别方法、装置、设备及可读存储介质 | |
CN110210513B (zh) | 数据分类方法、装置及终端设备 | |
CN112418292B (zh) | 一种图像质量评价的方法、装置、计算机设备及存储介质 | |
CN113628294A (zh) | 一种面向跨模态通信系统的图像重建方法及装置 | |
CN111046027A (zh) | 时间序列数据的缺失值填充方法和装置 | |
CN113327279B (zh) | 一种点云数据处理方法、装置、计算机设备及存储介质 | |
CN114241459B (zh) | 一种驾驶员身份验证方法、装置、计算机设备及存储介质 | |
CN111291827A (zh) | 图像聚类方法、装置、设备及存储介质 | |
CN116992396A (zh) | 冗余自适应的多模态鲁棒融合学习方法及系统 | |
CN114510939A (zh) | 实体关系抽取方法、装置、电子设备及存储介质 | |
CN116152611B (zh) | 一种多级多尺度点云补全方法、系统、设备及存储介质 | |
CN111950251A (zh) | 测量给定ai任务的数据集的相似性的方法 | |
WO2018101958A1 (en) | Fuzzy input for autoencoders | |
CN114445121A (zh) | 一种广告点击率预测模型构建及广告点击率预测方法 | |
CN110647917B (zh) | 一种模型复用方法与系统 | |
CN115640418B (zh) | 基于残差语义一致性跨域多视角目标网站检索方法及装置 | |
CN115205546A (zh) | 模型训练方法和装置、电子设备、存储介质 | |
CN115114462A (zh) | 模型训练方法、装置、多媒体推荐方法、设备及存储介质 | |
Mirza et al. | Potential Deep Learning Solutions to Persistent and Emerging Big Data Challenges—A Practitioners’ Cookbook | |
CN113826111A (zh) | 通过分类对象部分发现图像中的对象 | |
Qiao et al. | Dual‐route synthetic‐to‐real adaption for single image dehazing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |