CN116975776A

CN116975776A - 一种基于张量和互信息的多模态数据融合方法和设备

Info

Publication number: CN116975776A
Application number: CN202310870638.XA
Authority: CN
Inventors: 朱晨露; 聂新; 杨天若; 邓贤君; 阮一恒
Original assignee: Hubei Chutian High Speed Digital Technology Co ltd
Current assignee: Hubei Chutian High Speed Digital Technology Co ltd
Priority date: 2023-07-14
Filing date: 2023-07-14
Publication date: 2023-10-31
Anticipated expiration: 2043-07-14
Also published as: CN116975776B

Abstract

本发明公开了一种基于张量和互信息的多模态数据融合方法和设备，包括：数据预处理：获取多模态视频语料库，对语料库中视频片段进行预处理，包括文本、视觉、语音三种模态的数据，分割完整数据集为训练集和测试集；单模态表示学习：学习更细粒度的单模态的特征嵌入，利用互信息过滤单模态特征中的任务无关的噪声和冗余信息，对齐模态之间的表示；多模态融合学习：学习紧凑的多模态融合表示，利用多模态Tucker融合方法融合多种模态输入特征，利用互信息提升单模态输入特征和多模态融合特征的相关性，进一步过滤单模态中无关信息，减少融合过程产生的噪声信息；训练及预测：设计训练所使用的损失函数，利用反向传播算法训练模型，并进行最终的预测。

Description

一种基于张量和互信息的多模态数据融合方法和设备

技术领域

本发明属于机器学习领域，特别是涉及一种基于张量和互信息的多模态数据融合方法和设备。

背景技术

在现实世界中，数据天然是多源异构的，并且以多模态的形式存在，多模态数据已成为近年来数据资源的主要形式。“模态”是一个更为细粒度的概念，同一媒介下可存在不同的模态。概括来说，“多模态”可能有三种形式：①描述同一对象的多媒体数据，如互联网环境下描述某一特定对象的视频、图片、语音、文本等信息；②来自不同传感器的同一类媒体数据，如物联网背景下不同传感器所检测到的同一对象数据等；③具有不同的数据结构特点、表示形式的表意符号与信息，如描述同一对象的结构化、非结构化的数据单元，描述同一语义的词向量、词袋、知识图谱以及其它语义符号单元等。因此，从语义感知的角度切入，多模态数据涉及不同的感知通道如视觉、听觉、触觉、嗅觉所接收到的信息；在数据层面理解，多模态数据则可被看作多种数据类型的组合，如图片、数值、文本、符号、音频、时间序列，或者集合、树、图等不同数据结构所组成的复合数据形式，乃至来自不同数据库、不同知识库的各种信息资源的组合。人类的认知过程也是多模态的，个体对场景进行感知时往往能快速地接受视觉、听觉乃至嗅觉、触觉的信号，进而对其进行融合处理和语义理解。多模态数据分析与处理方式更贴近人类认识世界的形式。为了探索实现通用人工智能的路径，人工智能从单模态走向多模态已是大势所趋。以前，Siri等语音助手只有声音没有脸，搜索只能依靠输入文字，机器看不懂照片的深层含义。如今，借助多模态技术，人工智能可以实现图像、视频、音频、文本等多维度资源的融合互补，不仅决策更加精准，还在行为和智商上更接近人类，多模态技术赋予了计算机深层次理解大数据的能力。

多模态数据融合负责将多个模态的信息进行有效的整合，汲取不同模态的优点，完成对信息的整合。自然现象具有十分丰富的特征，单一模态很难提供某个现象的完整信息。面对保持融合后具有各个模态信息的多样性以及完整性、使各个模态的优点最大化、减少融合过程造成的信息损失等方面的融合要求，如何对各个模态的信息进行融合成为了多个领域广泛存在的一个新挑战。

根据多模态融合的阶段,多模态融合方法可分为早期融合、晚期融合和混合融合。早期融合，又称为特征融合，是指对模态进行特征提取之后立刻进行的一种融合方式。特征融合的优势在于可以在早期利用来自不同模态的多个特征之间的相关性，适用于模态之间高度相关的情况。这种方法很难表示多模态特征之间的时间同步。由于各种模态的表征、分布和密度可能有所不同，只进行简单的属性之间的连接可能会忽视各个模态独有的属性和相关性，并可能会产生数据之间的冗余和数据依赖。随着特征数量的增加，很难获得这些特征之间的交叉相关性。后期融合，也称为决策层融合，指的是在每种模态都做出决策(分类或回归)之后才进行的融合。进行后期融合，需要使用相应的模型对不相同的模态进行训练，再对这些模型输出的结果进行融合。与之前的早期融合作比较，该融合方式可以处理简单的数据异步性。另一个优势是允许使用最适合分析每种单一模态的方法。但是晚期融合忽视了多个模态之间的低水平的相互作用，并且融合起来难度较高。由于不同的分类器需要不同的决策，学习过程变得既耗时又费力。混合融合综合了早期融合与后期融合的优点，但也使得模型的结构变得复杂并加大了训练的难度。由于深度学习模型所具有的灵活性和多样性的结构特点，比较适合使用混合融合方法。

根据模态融合方式，多模态融合方法可分为三大类:基于张量的方法、基于注意力的方法、以及基于图神经网络(GNN)的方法。基于张量的方法采用外积运算融合多模态输入特征，可以有效地建模模态内和模态间的动态。基于注意力的方法关注重要特征，或特征中的重要区域，并对关键部分赋予更高的权重。基于图神经网络的方法采用异构图来建模不同模态特征之间的时间关系，可以捕获模态内和模态间的较长距离依赖关系。

多模态Tucker融合(MUTAN)：基于多模态Tucker张量数据融合方法，能够有效的在视觉和文本的双线性交互(Bilinear models)的模型中进行参数化，还设计了基于矩阵的低秩分解来明确限制交互等级。它是一种基于模态之间的双线性相互作用的多模态融合方案，在控制参数的数量上，MUTAN采用减少单模态嵌入的大小，同时使用完整的双线性融合方法来尽可能精确模拟它们之间的相互作用。MUTAN应用于视觉问答问题中，其模型结构如附图1所示。

模型采用GRU递归网络提取问题(文本)特征，采用全卷积神经网络Resnet来提取图像特征，再用进行融合，产生向量y后再用softmax函数进行答案预测。经过张量T的Tucker融合方程参数化张量T的权重时，y的输出可以表示为

这完全等同于将q和v的投影的完整双线性交互编码为一个潜在对表示z，并使用该潜在代码预测答案，如下所示：

将z再投影到预测空间获得y，如下所示：

y＝z^TW_o

通过softmax后预测答案，如下所示：

p＝softmax(y)。

多模态Tucker融合模型在视觉问答应用中能取得较好的性能，但是仍然存在以下问题和不足：一是只能处理双模态输入，因为在视觉问答应用中，输入的数据只包含问题(文本)和图像两种模态的数据，其参数约简的过程也是针对双模态输入设计的，难以拓展到多个模态输入的情况中。二是在特征提取和数据融合的过程仍然存在较多的冗余信息和噪声，这些任务无关信息严重影响了数据融合的效果，降低了模型的性能，需要对这些噪声和冗余信息进行过滤。

发明内容

本发明要解决的技术问题是现有技术中的只能处理双模态输入和数据融合中存在冗余及噪声的问题。本发明采用张量融合和互信息来设计一个新的多模态表示及融合模型。张量作为向量和矩阵的高阶扩展形式，能够有效地对数据中的各类关系进行建模和表示对齐，而互信息用来辅助抽取不同模态数据中的不变特征，过滤数据融合过程中产生的冗余和噪声信息，学习任务相关的多模态融合表示形式。本发明提出一种新的MTFMIF框架来处理多模态异构数据，可以接受任意种模态数据的输入，以端到端的方式学习多模态融合表示；本发明还提出一种新的多模态Tucker融合方法，将多模态数据映射到统一的张量空间，实现多线性融合；其次利用互信息约束模态内、模态间和融合特征的学习过程，消除特征中与任务无关的噪声和冗余信息。

为了达到上述目的，本发明提供的技术方案是：一种基于张量和互信息的多模态数据融合方法，包括以下步骤：

(1)数据预处理模块：获取多模态视频语料库，对语料库中视频片段进行预处理，得到文本、视觉、语音三种模态的特征序列数据；

(2)单模态表示学习模块：学习更细粒度的单模态的特征嵌入，利用互信息过滤单模态特征中的任务无关的噪声和冗余信息，对齐模态之间的表示；

(3)多模态融合学习模块：学习紧凑的多模态融合表示，利用多模态Tucker融合方法融合多种模态输入特征，利用互信息提升单模态输入特征和多模态融合特征的相关性，进一步过滤单模态中无关信息，减少融合过程产生的噪声信息；

(4)训练及预测：设计训练所使用的损失函数，训练步骤(1)-(3)构成的模型，并进行最终的预测。

进一步的，步骤(1)中每个视频都被分割成三种模态的语料库，文本特征提取过程为使用预训练的BERT作为文本特征提取器，最终输出的句子特征是所有维数为768的词项的平均表示；

语音特征提取过程为使用COVAREP语音分析工具提取74维的语音特征；视觉特征提取过程为：利用Facet面部表情分析工具提取35维的面部表情特征；对于语料库，提取完的特征组成三种模态的序列：文本t、视觉v和语音a模态的特征序列表示分别为其中l_m,m∈{t,v,a}为序列的时间长度，d_m,m∈{t,v,a}表示每个模态的特征维数，最后将预处理后的数据集按照7:3的比例分割成训练集和测试集。

进一步的，步骤(2)中学习更细粒度的单模态的特征嵌入具体包括：

在文本模态方面，利用预训练的BER直接通过提取文本表示，将最后一层BERT隐藏状态的表示作为话语级特征表示

其中θ_t为预训练BERT模型的参数，d_t'为预训练BERT模型的输出维数；

对于视觉和语音模态，采用双向长短期记忆网络对视觉和语音输入序列进行编码；BiLSTM的最终状态隐藏层的输出作为视觉和语音序列的全局特征表示：

其中，分别为文本t、视觉v和语音a的特征序列，其中l_m,m∈{t,v,a}为序列的时间长度，d_m,m∈{t,v,a}表示每个模态的特征维数；表示视觉和语音BiLSTM编码器的输出特征，θ_v，θ_a分别表示视觉和语音BiLSTM编码器的参数，d_v'和d_a'分别是视觉和语音BiLSTM编码器的输出特征维度；

此外，为了进一步细化视觉和语音特征，将和/>输入到多层感知器，用于提取更高级别的单模态特征，视觉和语音模态的最终单模态表示如下：

式中，表示视觉、语音两种MLP编码器的输出特征，/>表示视觉、语音两种MLP编码器的参数。

进一步的，步骤2中利用互信息过滤单模态特征中的任务无关的噪声和冗余信息，对齐模态之间的表示，具体实现方式如下；

利用互信息神经估计MINE进一步提取任务相关的特征，即最大化两个MLP编码器的输入和输出之间的互信息，通过定义一个模态内损失，将其作为一个训练目标：

其中，表示模态内损失，/>和/>分别表示根据MINE计算出的语音和视觉的模态内互信息；

然后通过利用文本模态中包含的语义信息来指导视觉和听觉模态的学习，有效提高视觉、语音和文本模态之间的相关性，以同样的方式，以上的处理过程可以通过一个跨模态损失表示如下：

其中，表示模态间损失，/>和/>分别表示根据MINE计算的语音与文本、视觉与文本的模态间互信息；

对于模态内损失和模态间损失，单模态表示学习通过最小化总的模态损失函数来约束：

其中，表示总的模态损失。

进一步的，步骤(3)具体包括：

在单模态表示学习部分之后，需要融合来自三个模态的特征，并基于融合后的特征进行预测，采用三线性Tucker融合方法TTF将三个模态输入视为因子矩阵，并与训练参数的核心张量执行张量积运算，获得紧凑的融合表示，有效地弥合模态之间的语义鸿沟；TTF表示为：

其中表示可学习的核心张量参数，/>表示输出的融合表示，d_o是融合表示的维数，×_i，i∈{1,2,3}表示张量的n模积；

进一步分解核心张量来减少参数的数量，根据BlockTerm分解，秩为(h_t,h_a,h_v,h_o)的/>的BlockTerm分解形式为：

其中表示分解/>后更小的核心张量，为分解/>后的因子矩阵，r∈{1,2,…,R}，根据分解后的/> 改写为：

为方便起见，设根据这些变换，利用全连接层将输入嵌入投影到一个更小的嵌入中，将/>和/>整合成一个新的项，即/>通过上述分析，将公式简化为：

为了更好地利用多模态的互补性和一致性，利用MINE估计融合表示和单模态表示之间的互信息，并通过最大化互信息来提高它们之间的相关性，优化目标是将更多特定于模式的信息传递给融合表示，多模态融合学习部分的损失函数定义为：

其中和/>分别表示根据MINE计算的融合表示与文本、语音和视觉输入特征之间的互信息。

进一步的，步骤(4)具体包括：

为了对情感强度进行预测，将融合后的表示输入一个MLP中，得到最终的预测结果：

其中θ_o为预测网络MLP的参数，表示预测的标签；

与真实标签一起对比，任务损失函数被定义为

其中B是批大小，i代表一个批次中的第i个样本,表示预测的第i个样本的标签，y_i表示第i个样本的真实标签；

最后，通过所有损失函数的加权和来计算总损失函数：

其中α和β是平衡模态损失函数和融合损失函数影响的超参数。

进一步的，步骤(4)中采用反向传播算法训练模型，采用Adam优化器对模型进行端到端的训练。

进一步的，还包括步骤(5)，使用加权F1分数，二分类准确率和七分类准确率来评估模型的优劣。

第二方面，本发明提供一种基于张量和互信息的多模态数据融合设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至8中任一项所述的方法。

本发明提供了一种基于张量和互信息的多模态数据融合方法，可带来以下有益技术效果：

(1)提出一种新的MTFMIF框架来处理多模态异构数据，可以以端到端的方式学习多模态融合表示；

(2)提出多模态Tucker融合方法，将多模态数据映射到统一的张量空间，实现多线性融合；

(3)利用互信息约束模态内、模态间和融合特征的学习过程，消除特征中与任务无关的噪声。

附图说明

图1为MUTAN模型结构图。

图2为本发明实施例中用于多模态情感分析的基于张量和互信息的多模态数据融合模型架构。

图3为本发明实施例中基于张量和互信息的多模态数据融合方法流程图

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步说明。

针对现有技术的以上缺陷或改进需求，本发明的目的在于提供一种基于张量和互信息的多模态数据融合方法，将多模态数据映射到统一的张量空间，实现多线性融合，利用互信息约束模态内、模态间和融合特征的学习过程，消除特征中与任务无关的噪声和冗余信息。本发明以多模态情感分析任务为实施案例，说明本发明所提出的多模态数据融合方法在多模态情感分析任务中的应用。多模态情感分析任务的目标是利用多模态信号检测视频片段中的情感强度。附图2展示了本发明实施例中用于多模态情感分析的基于张量和互信息的多模态数据融合方模型架构，基于张量和互信息的多模态数据融合方法主要由两个模块组成：单模态表示学习模块，多模态Tucker融合学习模块。在单模态表示学习模块中，需要将视觉模态和声学模态的话语级原始输入预处理为数字序列，将文本模态的话语级原始输入进行tokenization预处理。在此之后，视觉和声学序列被编码为单独的单位长度表示，文本标记被转换为词嵌入。此外，为了获得与任务相关的单模态表示，我们使用互信息来约束单模态特征学习，即最大化模态内和模态间互信息。在多模态融合学习模块中，我们利用Tucker融合网络将单模态表示映射到统一张量空间以获得融合的多模态表示，并利用互信息来约束多模态融合学习，即最大化融合表示与每个单模态表示之间的互信息。该处理流程是提取每个模态的任务相关信息，并将其映射到统一的张量空间中，得到集成的情感表示，最后对情感强度进行准确的预测。

为实现上述目的，按照本发明的一个方面，提供了一种基于张量和互信息的多模态数据融合方法，所述方法包括下述步骤：

(1)数据预处理：获取多模态视频语料库，对语料库中视频片段进行预处理，包括文本、视觉、语音三种模态的数据，分割完整数据集为训练集和测试集；

(2)单模态表示学习：学习更细粒度的单模态的特征嵌入，利用互信息过滤单模态特征中的任务无关的噪声和冗余信息，对齐模态之间的表示；

(3)多模态融合学习：学习紧凑的多模态融合表示，利用多模态Tucker融合方法融合多种模态输入特征，利用互信息提升单模态输入特征和多模态融合特征的相关性，进一步过滤单模态中无关信息，减少融合过程产生的噪声信息；

(4)训练及预测：设计训练所使用的损失函数，利用反向传播算法训练模型，并进行最终的预测。

附图3展示了本发明实例中基于张量和互信息的多模态数据融合方法流程图。

本发明的一个实施例中，所述步骤(1)具体包括：

每个视频都被分割成三种模态的语料库。文本特征提取过程为使用预训练的BERT作为文本特征提取器，最终输出的句子特征是所有维数为768的词项的平均表示。语音特征提取过程为使用COVAREP语音分析工具提取74维的语音特征。视觉特征提取过程为，利用Facet面部表情分析工具提取35维的面部表情特征。对于语料库，提取完的特征组成三种模态的序列：文本(t)，视觉(v)和语音(a)。文本、视觉和语音模态的序列表示分别为其中l_m,m∈{t,v,a}为序列的时间长度，d_m,m∈{t,v,a}表示每个模态的特征维数。最后将预处理后的数据集按照7:3的比例分割成训练集和测试集。

本发明的一个实施例中，所述步骤(2)具体包括：

在文本模态方面，利用预训练的BERT(Bidirectional Encoder Representationfrom Transformers)直接通过提取文本表示。将BERT最后一层隐藏状态的表示作为话语级特征表示

其中θ_t为预训练BERT模型的参数，d_t'为预训练BERT模型的输出维数。

对于视觉和语音模态，由于输入数据具备时间特性。因此，为了捕获序列元素之间的长程依赖关系，我们采用双向长短期记忆网络(Bidirectional Long Short-termMemory Network,BiLSTM)对视觉和语音输入序列进行编码。长短期记忆网络(LongShort-term Memory Network,LSTM)适用于处理和预测时间序列中具有非常长间隔和延迟的问题。BiLSTM的最终状态隐藏层的输出作为视觉和语音序列的全局特征表示：

其中表示视觉和语音BiLSTM编码器的输出特征，θ_v，θ_a分别表示视觉和语音BiLSTM编码器的参数。d_v'和d_a'分别是视觉和语音BiLSTM编码器的输出特征维度。

此外，为了进一步细化视觉和语音特征，还需要将和/>输入到多层感知器(Multi-layer Perceptron,MLP)，用于提取更高级别的单模态特征。视觉和语音模态的最终单模态表示如下：

同时，使用视觉、语音这两个MLP编码器作为信息过滤器，以减少视觉特征和语音特征的任务无关信息。和/>作为后续多模态融合模块的输入，与任务的关系更为密切。考虑到这一点，可以利用互信息神经估计(Mutual Information Neural Estimator,MINE)进一步提取任务相关的特征，即最大化两个MLP编码器的输入和输出之间的互信息。通过定义一个模态内损失，将其作为一个训练目标：

其中，表示模态内损失，/>和/>分别表示根据MINE计算出的语音和视觉的模态内互信息。

文本模态在情感预测中起主导作用。通过比较单模态输入在情感分析任务中的表现，可以发现文本模态可以获得比视觉和语音模态更好的性能。通过利用文本模态中包含的语义信息来指导视觉和听觉模态的学习，可以有效提高视觉、语音和文本模态之间的相关性。以同样的方式，MINE也被用于完成这项工作。以上的处理过程可以通过一个跨模态损失表示如下：

其中，表示模态间损失，/>和/>分别表示根据MINE计算的语音与文本、视觉与文本的模态间互信息。

其中，表示总的模态损失。

本发明的一个实施例中，所述步骤(3)具体包括：

在单模态表示学习部分之后，还需要融合来自三个模态(文本、视觉、和语音)的特征，并基于融合后的特征进行预测。采用了一种三线性Tucker融合(Trilinear TuckerFusion,TTF)方法，以类似于Tucker分解的形式进行特征融合。TTF将三个模态输入视为因子矩阵，并与训练参数的核心张量执行张量积运算，而不是将特征以外积的方式相乘。TTF的优势在于，通过将特征映射到统一的张量空间，可以获得紧凑的融合表示，可以有效地弥合模态之间的语义鸿沟。TTF可表示为：

其中表示可学习的核心张量参数，/>表示输出的融合表示，d_o是融合表示的维数，×_i，i∈{1,2,3}表示张量的n模积。

当的每个维度都很大的时候，学习这样一个核心张量/>仍然需要消耗大量的内存。实际上，可以进一步分解核心张量/>来减少参数的数量。根据BlockTerm分解，秩为(h_t,h_a,h_v,h_o)的/>的BlockTerm分解形式为：

其中表示分解/>后更小的核心张量，为分解/>后的因子矩阵，r∈{1,2,…,R}。根据分解后的/> 可以改写为：

为方便起见，设根据这些变换，可以利用全连接层将输入嵌入投影到一个更小的嵌入中，将/>和/>整合成一个新的项，即/>通过上述分析，将上面的公式简化为：

为了更好地利用多模态的互补性和一致性，利用MINE估计融合表示和单模态表示之间的互信息，并通过最大化互信息来提高它们之间的相关性。优化目标是将更多特定于模式的信息传递给融合表示。多模态融合学习部分的损失函数定义为：

本发明的一个实施例中，所述步骤(4)具体包括：

为了对情感强度进行预测，将融合后的表示输入一个MLP中，可以得到最终的预测结果：

其中θ_o为预测网络MLP的参数，表示预测的标签。由于需要预测一个准确的值，用于分类和回归任务，这里采用平均绝对误差(MAE)作为评估指标。与真实标签一起对比，任务损失函数被定义为

其中B是批大小，i代表一个批次中的第i个样本,表示预测的第i个样本的标签，y_i表示第i个样本的真实标签。

最后，通过所有损失函数的加权和来计算总损失函数:

其中α和β是平衡模态损失函数和融合损失函数影响的超参数。最后反向传播算法训练模型，采用Adam优化器对模型进行端到端的训练。

在本发明中，分别评估了两类任务的结果：分类和回归。对于分类任务而言，使用加权F1分数(F1)，二分类准确率(Acc-2)和七分类准确率(Acc-7)来评估方法的优劣。而在计算二分类和加权F1分数时有两种不同的方法，一种是负/非负(不排除零)，另一种是负/正(排除零)。七分类精度表示在七个区间中正确落在预测区间的分数。对于回归任务，使用平均绝对误差(Mean Absolute Error，MAE)和皮尔逊相关系数(Corr)作为评价指标，并使用平均绝对误差来计算预测与真实之间的平均绝对差。皮尔逊相关系数衡量了预测的偏差程度。在上述指标中，除MAE外，较高的值表示在所有指标上都有更好的表现。

(1)根据提出了基于张量和互信息的多模态数据融合方法。采用一种新的Tucker融合网络可以接受多种模态的输入数据，并将不同的单模态特征集成到一个紧凑的多模态表示中；

(2)根据步骤(3)中的叙述，对Tucker融合网络参数进行低秩分解，进一步减少参数的数量；

(3)根据步骤(2)和(3)中关于模态内损失和模态间损失的叙述，利用互信息神经估计(Mutual Information Neural Estimator,MINE)作为信息过滤器，降低了信息的噪声和冗余，极大增强了学习到的特征与任务目标之间的相关性，显著提高了模型性能。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于张量和互信息的多模态数据融合方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于张量和互信息的多模态数据融合方法，其特征在于：步骤(1)中每个视频都被分割成三种模态的语料库，文本特征提取过程为使用预训练的BERT作为文本特征提取器，最终输出的句子特征是所有维数为768的词项的平均表示；

3.如权利要求1所述的基于张量和互信息的多模态数据融合方法，其特征在于：步骤(2)中学习更细粒度的单模态的特征嵌入具体包括：

在文本模态方面，利用预训练的BERT直接通过提取文本表示，将最后一层BERT隐藏状态的表示作为话语级特征表示

其中，分别为文本t、视觉v和语音a的特征序列，其中l_m,m∈{t,v,a}为序列的时间长度，d_m,m∈{t,v,a}表示每个模态的特征维数；/>表示视觉和语音BiLSTM编码器的输出特征，θ_v，θ_a分别表示视觉和语音BiLSTM编码器的参数，d_v'和d_a'分别是视觉和语音BiLSTM编码器的输出特征维度；

4.如权利要求3所述的基于张量和互信息的多模态数据融合方法，其特征在于：步骤2中利用互信息过滤单模态特征中的任务无关的噪声和冗余信息，对齐模态之间的表示，具体实现方式如下；

其中，表示总的模态损失。

5.如权利要求4所述的基于张量和互信息的多模态数据融合方法，其特征在于：步骤(3)具体包括：

其中表示分解/>后更小的核心张量，/> 为分解/>后的因子矩阵，r∈{1,2,…,R}，根据分解后的/>改写为：

为方便起见，设根据这些变换，利用全连接层将输入嵌入投影到一个更小的嵌入中，将/>和/>整合成一个新的项，即通过上述分析，将公式简化为：

6.如权利要求5所述的基于张量和互信息的多模态数据融合方法，其特征在于：步骤(4)具体包括：

其中θ_o为预测网络MLP的参数，表示预测的标签；

与真实标签一起对比，任务损失函数被定义为

最后，通过所有损失函数的加权和来计算总损失函数：

7.如权利要求1所述的基于张量和互信息的多模态数据融合方法，其特征在于：步骤(4)中采用反向传播算法训练模型，采用Adam优化器对模型进行端到端的训练。

8.如权利要求1所述的基于张量和互信息的多模态数据融合方法，其特征在于：还包括步骤(5)，使用加权F1分数，二分类准确率和七分类准确率来评估模型的优劣。

9.一种基于张量和互信息的多模态数据融合设备，其特征在于，包括：

一个或多个处理器；