CN116992396A

CN116992396A - 冗余自适应的多模态鲁棒融合学习方法及系统

Info

Publication number: CN116992396A
Application number: CN202310981766.1A
Authority: CN
Inventors: 王延峰; 陈梦茜; 姚江超; 邢琳煜; 王钰; 张娅
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2023-08-04
Filing date: 2023-08-04
Publication date: 2023-11-03

Abstract

本发明提供了一种冗余自适应的多模态鲁棒融合学习方法及系统，包括：使用预训练好的单模态特征提取网络提取单模态初始特征；将各单模态初始特征编码为概率分布；对各单模态概率分布进行正则化约束；为每个单模态均值分配元素级特征权重；利用各权重分配后的单模态均值产生多模态特征；对各单模态分布采样，产生相应的单模态特征向量；利用各单模态、多模态特征向量得到相应特征的概率预测分布。本发明考虑多模态数据间冗余性对模型鲁棒性的影响，促使模型在捕获全部单模态信息的同时，动态地识别其中的无损信息用于融合，实现更鲁棒且准确的多模态预测。

Description

冗余自适应的多模态鲁棒融合学习方法及系统

技术领域

本发明涉及多模态处理技术领域，具体地，涉及一种冗余自适应的多模态鲁棒融合学习方法及系统。

背景技术

近年来，随着多媒体设备的广泛普及，描述相同、相关对象的多模态数据在互联网场景中呈指数级增长，多模态数据已成为新时期信息资源的主要载体。针对多模态数据所提出的多模态学习算法则研究如何利用数据间的关联关系对多模态信息进行综合有效地提取和筛选以获取性能更优越的多模态深度学习模型。

传统的多模态模型通过聚合不同模态提供的互补任务线索，来提高算法的效果。然而，在现实世界中，多模态模型可能遇到不完美的多模态数据，即存在部分模态损坏或完全丢失的数据。在遭遇这种数据时，传统的在干净且模态完整的数据上训练的多模态模型的性能可能会被严重影响，甚至可能不如仅在其余未受损的部分模态上训练的模型表现得好。这是因为不同模态中存在的冗余信息不太可能同时被神经网络捕获。因此，当某些模态被损坏时，在干净且模态完整的数据上训练的多模态模型无法利用其余未损坏模态中包含的冗余信息，这使得它们对不完美数据更加脆弱。

专利文献CN115983280A(申请号：202310081044.0)公开了一种有缺失数据的两模态聚类方法和系统，该发明基于自编码器，通过跨模态对比学习损失将两个模特映射到公共空间以学习模态一致性表示，通过跨模态对偶预测损失预测丢失的模态，以消除模态间不一致的信息，进一步提高表征一致性。然而该专利所设计的损失函数主要强调模态之间的一致性，忽略了模态间互补性的学习，这限制了稳健多模态学习的整体性能；其次该专利在实现特征融合时不考虑不同样本数据质量可能存在的变化，仅能处理不完美多模态数据中模态缺失的情况，对数据受损的情况应对不足。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种冗余自适应的多模态鲁棒融合学习方法及系统。

根据本发明提供的冗余自适应的多模态鲁棒融合学习方法，包括：

单模态特征提取步骤：对单模态特征提取网络进行预训练，分别对各种输入模态数据提取预设维度的单模态初始特征；

单模态特征编码步骤：使用不同的单模态特征编码网络，分别对提取的各单模态初始特征进行编码，产生维度相同的不同单模态均值和方差向量组合，构建单模态高斯概率分布；

单模态特征稀疏化步骤：根据得到的各单模态的均值和方差向量，对各单模态概率分布进行正则化约束；

动态权重分配步骤：对比得到的各单模态的方差向量，为每个单模态均值向量分配元素级特征权重；

多模态融合步骤：将各权重分配后的单模态均值向量进行求和，产生多模态特征向量；

单模态概率分布采样步骤：对由不同均值和方差组合构成的各单模态高斯概率分布进行重参数操作，产生相应的单模态特征向量；

单模态、多模态特征预测步骤：将得到的各单模态、多模态特征向量输入多层感知机构成的类别预测网络，得到相应特征的概率预测分布。

优选的，所述单模态特征提取步骤包括：固定各种预训练好的单模态特征提取网络的参数，将相应单模态数据映射为初始特征x₁,x₂,…,x_M，其中M是模态总数；不同的输入数据类型使用不同的特征提取网络，使用大规模文本预训练模型BERT-large，将输入的文本模态数据提取为T×1024维的文本初始特征，其中T是文本序列长度；使用深度卷积构成的视觉特征编码网络ResNet-18，对输入单张图像模态数据提取为512维的视觉初始特征。

优选的，所述单模态特征编码步骤包括：使用不同的单模态特征编码网络，分别对提取的x₁,x₂,…,x_M进行编码，然后经过两个线性映射模块分别产生D维的对应单模态均值向量μ₁,μ₂,…,μ_M、方差向量σ₁,σ₂,…,σ_M，构建单模态高斯概率分布不同的单模态初始特征应使用不同的特征编码网络，使用TextCNN构成的文本特征编码网络，对序列化文本初始特征进行编码；使用多层感知机构成的特征编码网络，对非序列化初始特征进行编码，具体的编码过程如下所示：

其中，分别是模态m的高斯概率分布/>的均值和方差向量；f_m(·)是模态m的单模态特征编码器；/>和/>分别是计算均值和方差向量的两个线性映射模块。

优选的，所述单模态特征稀疏化步骤包括：根据得到的各单模态的均值向量μ₁,μ₂,…,μ_M、方差向量σ₁,σ₂,…,σ_M，对各单模态概率分布进行正则化约束，以此训练多模态网络，直至损失函数收敛，所述损失函数计算公式如下：

其中，‖·‖₁代表l₁正则化，⊙代表元素尺度乘积。

优选的，所述动态权重分配步骤包括：对比得到的各单模态的方差向量，按下式为每个单模态均值向量μ₁,μ₂,…,μ_M分配元素级特征权重：

其中，δ_m∈{0,1}指示模态m是否缺失，若模态m的数据完全缺失，则δ_m＝0，否则，δ_m＝1。

优选的，所述多模态融合步骤包括：将得到的各单模态权重ω₁,ω₂,…,ω_M与对应的单模态均值向量μ₁,μ₂,…,μ_M进行元素尺度乘积后求和，产生多模态特征向量h，具体过程如下所示：

优选的，所述单模态概率分布采样步骤包括：从标准高斯分布中采样得到z_m，在将z_m与σ_m进行元素尺度乘积后与μ_m相加得到对应单模态特征h_m，具体过程如下式：

h_m＝z_m⊙σ_m+μ_m

其中，

优选的，所述单模态、多模态特征预测步骤包括：将得到的各单模态特征向量h_m以及多模态特征向量h输入同一个由多层感知机构成的类别预测网络，得到相应特征的概率预测分布，并使用给定的分类标签对所述概率预测分布进行监督，计算损失函数训练多模态网络，直至损失函数收敛，所述损失函数计算公式如下：

其中，y是多模态数据x₁,x₂,…,x_M对应的分类标签；l(·)代表交叉熵函数；f(·)代表单模态、多模态特征共享的由多层感知机构成的类别预测网络。

根据本发明提供的冗余自适应的多模态鲁棒融合学习系统，包括：

单模态特征提取模块：对单模态特征提取网络进行预训练，分别对各种输入模态数据提取预设维度的单模态初始特征；

单模态特征编码模块：使用不同的单模态特征编码网络，分别对提取的各单模态初始特征进行编码，产生维度相同的不同单模态均值、方差向量组合，构建单模态高斯概率分布；

单模态特征稀疏化模块：根据得到的各单模态的均值、方差向量，对各单模态概率分布进行正则化约束；

动态权重分配模块：对比得到的各单模态的方差向量，为每个单模态均值向量分配元素级特征权重；

多模态融合模块：将各权重分配后的单模态均值向量进行求和，产生多模态特征向量；

单模态概率分布采样模块：对由不同均值、方差组合构成的各单模态高斯概率分布进行重参数操作，产生相应的单模态特征向量；

单模态、多模态特征预测模块：将得到的各单模态、多模态特征向量输入多层感知机构成的类别预测网络，得到相应特征的概率预测分布。

优选的，所述单模态特征提取模块包括：固定各种预训练好单模态特征提取网络的参数，将相应单模态数据映射为初始特征x₁,x₂,…,x_M，其中M是模态总数；不同的输入数据类型使用不同的特征提取网络，使用大规模文本预训练模型BERT-large，将输入的文本模态数据提取为T×1024维的文本初始特征，其中T是文本序列长度；使用深度卷积构成的视觉特征编码网络ResNet-18，对输入单张图像模态数据提取为512维的视觉初始特征；

所述单模态特征模块包括：使用不同的单模态特征编码网络，分别对提取的x₁,x₂,…,x_M进行编码，然后经过两个线性映射模块分别产生D维的对应单模态均值向量μ₁,μ₂,…,μ_M、方差向量σ₁,σ₂,…,σ_M，构建单模态高斯概率分布不同的单模态初始特征应使用不同的特征编码网络，使用TextCNN构成的文本特征编码网络，对序列化文本初始特征进行编码；使用多层感知机构成的特征编码网络，对非序列化初始特征进行编码，具体的编码过程如下所示：

其中，分别是模态m的高斯概率分布/>的均值和方差向量；f_m(·)是模态m的单模态特征编码器；/>和/>分别是计算均值和方差向量的两个线性映射模块；

所述单模态特征稀疏化模块包括：根据得到的各单模态的均值向量μ₁,μ₂,…,μ_M、方差向量σ₁,σ₁,…,σ_M，对各单模态概率分布进行正则化约束，以此训练多模态网络，直至损失函数收敛，所述损失函数计算公式如下：

其中，‖·‖₁代表l₁正则化，⊙代表元素尺度乘积；

所述动态权重分配模块包括：对比得到的各单模态的方差向量，按下式为每个单模态均值向量μ₁,μ₂,…,μ_M分配元素级特征权重：

其中，δ_m∈{0,1}指示模态m是否缺失，若模态m的数据完全缺失，则δ_m＝0，否则，δ_m＝1；

所述多模态融合模块包括：将得到的各单模态权重ω₁,ω₂,…,ω_M与对应的单模态均值向量μ₁,μ₂,…,μ_M进行元素尺度乘积后求和，产生多模态特征向量h，具体过程如下所示：

所述单模态概率分布采样模块包括：从标准高斯分布中采样得到z_m，在将z_m与σ_m进行元素尺度乘积后与μ_m相加得到对应单模态特征h_m，具体过程如下式：

所述单模态、多模态特征预测模块包括：将得到的各单模态特征向量h_m以及多模态特征向量h输入同一个由多层感知机构成的类别预测网络，得到相应特征的概率预测分布，并使用给定的分类标签对所述概率预测分布进行监督，计算损失函数训练多模态网络，直至损失函数收敛，所述损失函数计算公式如下：

与现有技术相比，本发明具有如下的有益效果：

(1)本发明在潜在空间中采用概率建模的形式来表示每种模态，这种概率建模的形式编码了各单模态特征可能值的分布，而不仅仅是一个确定性向量，使得本发明对单模态数据中的微小扰动更具容忍性；此外，概率分布的方差为估计单模态元素尺度质量提供了的机会，这对于后续的动态权重分配中是至关重要的；

(2)本发明通过同时优化各单模态独立的分类损失，以及施加在各单模态特征分布上的稀疏化约束损失，最大程度的学习各单模态数据的全部有用信息，从而在每个单模态特征上都实现冗余信息的无损捕获，这是进行鲁棒多模态融合的前提；

(3)本发明通过对比各单模态概率分布的方差来为每个模态分配元素尺度的权重，使得网络能够动态识别各单模态中的无损信息用于融合，从而提升网络性能；此外，本发明还利用共享的分类器，将单模态、多模态特征约束到同一公共空间，使得方差之间更具可比性。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明实施例中方法流程图；

图2为本发明实施例中系统原理图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例1：

如图1所示，本发明提供了一种冗余自适应的多模态鲁棒融合学习方法。以图像-文本对的视频分类数据为例，本方法包括：

单模态特征提取步骤：使用适合的预训练好单模态特征提取网络，分别对各种输入模态数据提取预设维度的单模态初始特征。其中，文本数据采用Bert-lagre模型提取1024维特征，图像数据采用Resnet18模型提取512维特征；

单模态特征编码步骤：使用不同的单模态特征编码网络，分别对提取的各单模态初始特征进行编码，产生维度相同的不同单模态均值、方差向量组合，构建单模态高斯概率分布。其中，文本特征和图像特征均使用一个2层MLP编码包含128维均值、方差的高斯分布；

单模态特征稀疏化步骤：根据得到的各单模态的均值、方差向量，对各单模态概率分布进行L1-norm的正则化约束；

单模态概率分布采样步骤：对由不同均值、方差组合构成的各单模态高斯概率分布进行重参数操作，产生相应的单模态特征向量；

具体地，所述单模态特征提取步骤包括：固定各种预训练好单模态特征提取网络的参数，将相应单模态数据映射为初始特征x₁,x₂,…,x_M，其中M是模态总数。不同的输入数据类型使用不同的特征提取网络，如，针对文本-图像对食品分类数据，使用大规模文本预训练模型BERT-large，将输入的文本模态数据提取为1024维的文本初始特征；使用深度卷积构成的视觉特征编码网络ResNet-18，对输入单张图像模态数据提取为512维的视觉初始特征。

具体地，所述单模态特征编码步骤包括：使用不同的单模态特征编码网络，分别对提取的x₁,x₂,…,x_M进行编码，然后经过两个线性映射模块分别产生D维的对应单模态均值向量μ₁,μ₂,…,μ_M、方差向量σ₁,σ₂,…,σ_M，构建单模态高斯概率分布不同的单模态初始特征应使用不同的特征编码网络，如，针对食品分类，使用多层感知机构成的特征编码网络，对文本、图像初始特征进行编码。具体的编码过程如下所示：

其中，分别是模态m的高斯概率分布/>的均值和方差向量，f_m(·)是模态m的单模态特征编码器，/>和/>分别是计算均值和方差向量的两个线性映射模块。

具体地，所述单模态特征稀疏化步骤包括：根据得到的各单模态的均值向量μ₁,μ₂,…,μ_M、方差向量σ₁,σ₂,…,σ_M，对各单模态概率分布进行正则化约束，以此训练多模态网络，直至损失函数收敛。所述损失函数，计算公式如下：

其中，‖·‖₁代表l₁正则化，⊙代表元素尺度乘积。

具体地，所述动态权重分配步骤包括：对比得到的各单模态的方差向量，按下式为每个单模态均值向量μ₁,μ₂,…,μ_M分配元素级特征权重：

具体地，所述多模态融合步骤包括：将得到的各单模态权重ω₁,ω₂,…,ω_M与对应的单模态均值向量μ₁,μ₂,…,μ_M进行元素尺度乘积后求和，产生多模态特征向量h，具体过程如下所示：

具体地，所述单模态概率分布采样步骤包括：从标准高斯分布中采样得到z_m，在将z_m与σ_m进行元素尺度乘积后与μ_m相加得到对应单模态特征h_m，具体过程如下式：

具体地，所述单模态、多模态特征预测步骤包括：将得到的各单模态特征向量h_m以及多模态特征向量h输入同一个由多层感知机构成的类别预测网络，得到相应特征的概率预测分布，并使用给定的分类标签对所述概率预测分布进行监督，可以计算损失函数训练多模态网络，直至损失函数收敛。所述损失函数，计算公式如下：

其中，y是多模态数据x₁,x₂,…,x_M对应的分类标签，l(·)代表交叉熵函数，f(·)代表单模态、多模态特征共享的由多层感知机构成的类别预测网络。

实施例2：

如图2，本发明提供了一种冗余自适应的多模态鲁棒融合学习系统，包括：

单模态特征提取模块：使用适合的预训练好单模态特征提取网络，分别对各种输入模态数据提取预设维度的单模态初始特征；其中，文本数据采用Bert-lagre模型提取1024维特征，图像数据采用Resnet18模型提取512维特征；

单模态特征编码模块：使用不同的单模态特征编码网络，分别对提取的各单模态初始特征进行编码，产生维度相同的不同单模态均值、方差向量组合，构建单模态高斯概率分布；其中，文本特征和图像特征均使用一个2层MLP编码包含128维均值、方差的高斯分布；

单模态特征稀疏化模块：根据得到的各单模态的均值、方差向量，对各单模态概率分布进行L1-norm的正则化约束；

具体地，所述单模态特征提取模块包括：固定各种预训练好单模态特征提取网络的参数，将相应单模态数据映射为初始特征x₁,x₂,…,x_M，其中M是模态总数。不同的输入数据类型使用不同的特征提取网络，如，针对文本-图像对食品分类数据，使用大规模文本预训练模型BERT-large，将输入的文本模态数据提取为1024维的文本初始特征；使用深度卷积构成的视觉特征编码网络ResNet-18，对输入单张图像模态数据提取为512维的视觉初始特征。

具体地，所述单模态特征模块包括：使用不同的单模态特征编码网络，分别对提取的x₁,x₂,…,x_M进行编码，然后经过两个线性映射模块分别产生D维的对应单模态均值向量μ₁,μ₂,…,μ_M、方差向量σ₁,σ₂,…,σ_M，构建单模态高斯概率分布不同的单模态初始特征应使用不同的特征编码网络，如，使用TextCNN构成的文本特征编码网络，对序列化文本初始特征进行编码；使用多层感知机构成的特征编码网络，对非序列化初始特征进行编码。具体的编码过程如下所示：

具体地，所述单模态特征稀疏化模块包括：根据得到的各单模态的均值向量μ₁,μ₂,…,μ_M、方差向量σ₁,σ₂,…,σ_M，对各单模态概率分布进行正则化约束，以此训练多模态网络，直至损失函数收敛。所述损失函数，计算公式如下：

其中，‖·‖₁代表l₁正则化，⊙代表元素尺度乘积。

具体地，所述动态权重分配模块包括：对比得到的各单模态的方差向量，按下式为每个单模态均值向量μ₁,μ₂,…,μ_M分配元素级特征权重：

具体地，所述多模态融合模块包括：将得到的各单模态权重ω₁,ω₂,…,ω_M与对应的单模态均值向量μ₁,μ₂,…,μ_M进行元素尺度乘积后求和，产生多模态特征向量h，具体过程如下所示：

具体地，所述单模态概率分布采样模块包括：从标准高斯分布中采样得到z_m，在将z_m与σ_m进行元素尺度乘积后与μ_m相加得到对应单模态特征h_m，具体过程如下式：

具体地，所述单模态、多模态特征预测模块包括：将得到的各单模态特征向量h_m以及多模态特征向量h输入同一个由多层感知机构成的类别预测网络，得到相应特征的概率预测分布，并使用给定的分类标签对所述概率预测分布进行监督，可以计算损失函数训练多模态网络，直至损失函数收敛。所述损失函数，计算公式如下：

综上，本发明在潜在空间中采用概率建模的形式来表示每种模态。这种概率建模的形式编码了各单模态特征可能值的分布，而不仅仅是一个确定性向量，使得本发明对单模态数据中的微小扰动更具容忍性；此外，本发明通过同时优化各单模态独立的分类损失，以及施加在各单模态特征分布上的稀疏化约束损失，最大程度的学习各单模态数据的全部有用信息，从而在每个单模态特征上都实现冗余信息的无损捕获；不仅如此，本发明还通过对比各单模态概率分布的方差来为每个模态分配元素尺度的权重，使得网络能够动态识别各单模态中的无损信息用于融合，从而提升网络性能。为了使得方差之间更具可比性，本发明还利用共享的分类器，将单模态、多模态特征约束到同一公共空间。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种冗余自适应的多模态鲁棒融合学习方法，其特征在于，包括：

2.根据权利要求1所述的冗余自适应的多模态鲁棒融合学习方法，其特征在于，所述单模态特征提取步骤包括：固定各种预训练好的单模态特征提取网络的参数，将相应单模态数据映射为初始特征x₁，x₂，…，x_M，其中M是模态总数；不同的输入数据类型使用不同的特征提取网络，使用大规模文本预训练模型BERT-large，将输入的文本模态数据提取为T×1024维的文本初始特征，其中T是文本序列长度；使用深度卷积构成的视觉特征编码网络ResNet-18，对输入单张图像模态数据提取为512维的视觉初始特征。

3.根据权利要求2所述的冗余自适应的多模态鲁棒融合学习方法，其特征在于，所述单模态特征编码步骤包括：使用不同的单模态特征编码网络，分别对提取的x₁，x₂，…，x_M进行编码，然后经过两个线性映射模块分别产生D维的对应单模态均值向量μ₁，μ₂，…，μ_M、方差向量σ₁，σ₂，…，σ_M，构建单模态高斯概率分布不同的单模态初始特征应使用不同的特征编码网络，使用TextCNN构成的文本特征编码网络，对序列化文本初始特征进行编码；使用多层感知机构成的特征编码网络，对非序列化初始特征进行编码，具体的编码过程如下所示：

其中，分别是模态m的高斯概率分布/>的均值和方差向量；fm(·)是模态m的单模态特征编码器；/>和/>分别是计算均值和方差向量的两个线性映射模块。

4.根据权利要求3所述的冗余自适应的多模态鲁棒融合学习方法，其特征在于，所述单模态特征稀疏化步骤包括：根据得到的各单模态的均值向量μ₁，μ₂，…，μ_M、方差向量σ₁，σ₂，…，σ_M，对各单模态概率分布进行正则化约束，以此训练多模态网络，直至损失函数收敛，所述损失函数计算公式如下：

其中，||·||₁代表l₁正则化，⊙代表元素尺度乘积。

5.根据权利要求1所述的冗余自适应的多模态鲁棒融合学习方法，其特征在于，所述动态权重分配步骤包括：对比得到的各单模态的方差向量，按下式为每个单模态均值向量μ₁，μ₂，…，μ_M分配元素级特征权重：

其中，δ_m∈{0，1}指示模态m是否缺失，若模态m的数据完全缺失，则δ_m＝0，否则，δ_m＝1。

6.根据权利要求5所述的冗余自适应的多模态鲁棒融合学习方法，其特征在于，所述多模态融合步骤包括：将得到的各单模态权重ω₁，ω₂，…，ω_M与对应的单模态均值向量μ₁，μ₂，…，μ_M进行元素尺度乘积后求和，产生多模态特征向量h，具体过程如下所示：

7.根据权利要求3所述的冗余自适应的多模态鲁棒融合学习方法，其特征在于，所述单模态概率分布采样步骤包括：从标准高斯分布中采样得到z_m，在将z_m与σ_m进行元素尺度乘积后与μ_m相加得到对应单模态特征h_m，具体过程如下式：

h_m＝z_m⊙σ_m+μ_m

其中，

8.根据权利要求6或7所述的冗余自适应的多模态鲁棒融合学习方法，其特征在于，所述单模态、多模态特征预测步骤包括：将得到的各单模态特征向量h_m以及多模态特征向量h输入同一个由多层感知机构成的类别预测网络，得到相应特征的概率预测分布，并使用给定的分类标签对所述概率预测分布进行监督，计算损失函数训练多模态网络，直至损失函数收敛，所述损失函数计算公式如下：

其中，y是多模态数据x₁，x₂，…，x_M对应的分类标签；l(·)代表交叉熵函数；f(·)代表单模态、多模态特征共享的由多层感知机构成的类别预测网络。

9.一种冗余自适应的多模态鲁棒融合学习系统，其特征在于，包括：

10.根据权利要求9所述的冗余自适应的多模态鲁棒融合学习系统，其特征在于，所述单模态特征提取模块包括：固定各种预训练好单模态特征提取网络的参数，将相应单模态数据映射为初始特征x₁，x₂，…，x_M，其中M是模态总数；不同的输入数据类型使用不同的特征提取网络，使用大规模文本预训练模型BERT-large，将输入的文本模态数据提取为T×1024维的文本初始特征，其中T是文本序列长度；使用深度卷积构成的视觉特征编码网络ResNet-18，对输入单张图像模态数据提取为512维的视觉初始特征；

所述单模态特征模块包括：使用不同的单模态特征编码网络，分别对提取的x₁，x₂，…，x_M进行编码，然后经过两个线性映射模块分别产生D维的对应单模态均值向量μ₁，μ₂，…，μ_M、方差向量σ₁，σ₂，…，σ_M，构建单模态高斯概率分布不同的单模态初始特征应使用不同的特征编码网络，使用TextCNN构成的文本特征编码网络，对序列化文本初始特征进行编码；使用多层感知机构成的特征编码网络，对非序列化初始特征进行编码，具体的编码过程如下所示：

所述单模态特征稀疏化模块包括：根据得到的各单模态的均值向量μ₁，μ₂，…，μ_M、方差向量σ₁，σ₂，…，σ_M，对各单模态概率分布进行正则化约束，以此训练多模态网络，直至损失函数收敛，所述损失函数计算公式如下：

其中，||·||₁代表正则化，⊙代表元素尺度乘积；

所述动态权重分配模块包括：对比得到的各单模态的方差向量，按下式为每个单模态均值向量μ₁，μ₂，…，μ_M分配元素级特征权重：

其中，δ_m∈{0，1}指示模态m是否缺失，若模态m的数据完全缺失，则δ_m＝0，否则，δ_m＝1；

所述多模态融合模块包括：将得到的各单模态权重ω₁，ω₂，…，ω_M与对应的单模态均值向量μ₁，μ₂，…，μ_M进行元素尺度乘积后求和，产生多模态特征向量h，具体过程如下所示：