CN116701996A

CN116701996A - 基于多元损失函数的多模态情感分析方法、系统、设备及介质

Info

Publication number: CN116701996A
Application number: CN202310617198.7A
Authority: CN
Inventors: 张文博; 翟博文; 刘龙; 张梦璇; 姬红兵; 臧博; 李林
Original assignee: Shanxi Huizhi Yizhi Information Technology Co ltd; Xidian University
Current assignee: Shanxi Huizhi Yizhi Information Technology Co ltd; Xidian University
Priority date: 2023-05-29
Filing date: 2023-05-29
Publication date: 2023-09-05

Abstract

基于多元损失函数的多模态情感分析方法、系统、设备及介质，方法包括：数据预处理，模型构建，模型训练及优化，任务迁移；系统、设备及介质用于实现基于多元损失函数的多模态情感分析方法；本发明通过基于交叉注意力机制的编码器进行模态融合，并利用对比学习框架进行多元损失函数的辅助训练，同时设置不同的迁移函数对不同的下游任务进行迁移，具有提升数据处理效率和融合效率，最大化利用相关性信息，降低噪声干扰，提高模型准确度、迁移性和鲁棒性的特点。

Description

基于多元损失函数的多模态情感分析方法、系统、设备及介质

技术领域

本发明涉及情感分析技术领域，特别涉及基于多元损失函数的多模态情感分析方法、系统、设备及介质。

背景技术

随着人工智能和机器学习技术的快速发展，情感分析已经逐渐成为自然语言处理和计算机视觉领域的一个重要研究方向。情感分析可以在很多领域提供有价值的帮助，例如，提高智能交互能力，情感分析可以更好地帮助理解人类情感需求，从而提高智能交互效果，提升智能系统定制化能力。通过对社交媒体的生活数据进行情感分析，人工智能系统可以在不同的情境下进行个性化的定制推送和点对点的服务建议，从而提高用户体验，提升医疗和健康管理效率。情感分析可以帮助医生更好地理解患者的情感状态，以便更好地诊断和治疗心理问题以及情感障碍，改善病患的生活质量。然而，现有情感分析技术仍存在着诸多挑战，首先，如何处理多模态数据，同时考虑文本、语音和图像等不同的模态，并将它们融合在一起进行情感分析；其次，情感分析还面临着数据标注困难、模型鲁棒性不足、模型可解释性差等问题；最后，随着情感分析应用场景的多元化，对算法的泛化性也提出了更高的要求。

名称为“一种基于多模态及语境的智能情感识别系统”，申请号为[CN202211695431.5]的专利申请，公开了一种基于多模态及语境的智能情感识别系统，该方法的具体步骤为：通过多模态特征收集模块收集多个模态的特征，根据收集到的特征生成情感向量，进行融合之后，再根据语境进行建模，得到预测结果。

名称为“一种多任务学习及对比学习改进的多模态情感分析方法”，申请号为[CN202211584630.9]的专利申请，公开了一种基于多任务学习及对比学习改进的多模态情感分析方法，该方法中情感识别的步骤主要包括：首先，对MOSI数据进行单模态表征，并根据得到的表征向量进行单模态情感极性预测；然后，将多个单模态表征进行拼接，经过门控模块得到双模态情感极性预测；最后，把任意两次输出的均方误差作为对比学习损失，将主任务与两组子任务的损失作为多任务学习损失，多任务学习损失中不同任务的损失权重系数通过同方差不确定性实现自适应调整，将多任务学习损失与对比学习损失的加权和作为模型最终的损失函数进行训练，得到最终的网络模型。

但是，现有技术存在以下问题：

(1)现有技术中由于多模态网络结构复杂，导致模型过于臃肿，且提取到的信息过于庞杂，无法建立有效的时序性和相关性。图像特征和单词标记嵌入在自身的空间中，这使得多模态编码器学习对其互动进行建模具有挑战性；

(2)现有技术采用的多模态情感识别方案主要关注特征的提取阶段，无论是决策级、特征级还是数据级的融合，其融合框架占用整体模型结构的比例都很低，增大特征提取网络的比重虽然在某种程度上最大化保留了情感相关性信息，但是模态之间的异构性使得简单的融合方案不足以完成多模态情感信息的提取，从而使得融合的结果较差；

(3)现有技术采用的多模态融合方案在数据的选择上既需要带检测框标注的数据集，且对数据的分辨率有着较高的要求。因为模型在预训练时需要边界框注释，在训练时需要高分辨率图像。目前，主流多模态数据集来源于网络，数据本身含有不同程度的噪声。现有的预训练方案，如MLM，对噪声文本的过拟合使得模型的泛化性能较差；

(4)现有技术采用的多模态情感识别方案主要是根据数据集进行单一任务的识别，无法适配复杂的下游任务。同时，模型的学习方案主要是联合视觉标记和单词标记进行训练，但由于两者的处理过程不同，导致模型容易陷入局部最优解，从而无法实现有效训练。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供基于多元损失函数的多模态情感分析方法、系统、设备及介质，通过基于交叉注意力机制的编码器进行模态融合，并利用对比学习框架进行多元损失函数的辅助训练，同时设置不同的迁移函数对不同的下游任务进行迁移，具有提升数据处理效率和融合效率，最大化利用相关性信息，降低噪声干扰，提高模型准确度、迁移性和鲁棒性的特点。

为了实现上述目的，本发明采取的技术方案如下：

基于多元损失函数的多模态情感分析方法，包括如下步骤：

步骤1，数据预处理：获取多个模态的数据，对多个模态的数据进行预处理，将预处理后的数据划分为训练集、测试集和验证集，所述多个模态的数据包括文本数据、音频数据和视频数据；

步骤2，模型构建：构建基于多元损失函数的多模态情感分析模型，所述基于多元损失函数的多模态情感分析模型包括特征提取编码器和数据融合编码器；

步骤3，模型训练及优化：将步骤1训练集中的数据结合多元损失函数和对比学习机制模块生成对应的正负样本对，将正负样本对输入步骤2构建的基于多元损失函数的多模态情感分析模型，训练并优化特征提取编码器和数据融合编码器，得到最优的基于多元损失函数的多模态情感分析模型；

步骤4，任务迁移：利用对比学习构建两种不同的迁移函数，来处理步骤3得到的多模态情感特征值，得到不同的情感值，以此对不同的下游任务进行迁移。

所述步骤1的具体过程为：

步骤1.1：按照预定的时间序列切分数据，以文本数据为对齐基准，得到对应的音频段和视频帧；

步骤1.2：将步骤1.1中的文本数据进行词向量划分，并将对应位置的编码添加到向量末；将音频段的音频数据转换为对应的梅尔频谱；将视频帧的视频数据转换为对应的尺寸以及格式；

步骤1.3：将步骤1.2处理后的音频数据、视频数据和文本数据对齐，并划分为训练集、测试集和验证集。

步骤2中所述特征提取编码器包括文本情感特征提取编码器、视频情感特征提取编码器和音频情感特征提取编码器；

所述文本情感特征提取编码器为一个多层的多头注意力机制的编码器，由堆叠多层Transformer编码器架构的模块为基础架构；

所述视频情感特征提取编码器为一个多层的自注意力机制的编码器，由堆叠多层Vision Transformer编码器架构的模块为基础架构；

所述音频情感特征提取编码器为一个多层的自注意力机制的编码器，由堆叠多层自注意力机制前向网络编码器的模块为基础架构；

步骤2中所述数据融合编码器为一个多层的基于交叉注意力机制的编码器，由堆叠特定层数的交叉注意力机制的编码器为基础架构。

所述步骤2的具体过程为：

步骤2.1：将步骤1预处理后的文本数据输入文本情感特征提取编码器，提取文本情感特征；

步骤2.2：将步骤1预处理后的视频数据输入视频情感特征提取编码器，提取视频情感特征；

步骤2.3：将步骤1预处理后的音频数据输入音频情感特征提取编码器，提取音频情感特征；

步骤2.4：将提取到的文本情感特征、视频情感特征和音频情感特征输入数据融合编码器进行特征融合，得到基于多元损失函数的多模态情感分析模型。

所述步骤3的具体过程为：

步骤3.1：对步骤1数据预处理过程中生成的计算序列进行数据增强，具体为，将训练集中三种模态的数据进行样本之间的两两匹配，组成正负样本对；

步骤3.2：将步骤3.1数据增强后的数据分组打乱，组成不同的正负样本对；

步骤3.3：以文本数据为对齐的基准，将步骤3.2获得的正负样本对输入步骤2构建的相应的特征提取编码器中，进行相应特征的提取，具体为：

利用对比学习机制搭配ITC_LOSS损失函数进行视频情感特征和文本情感特征的提取；

利用对比学习机制搭配InfoNCE_LOSS损失函数进行音频情感特征和文本情感特征的提取；

步骤3.4：利用步骤3.3中正负样本对的两个对比损失函数对特征提取编码器进行优化；

步骤3.5：将步骤3.3提取到的文本情感特征、视频情感特征和音频情感特征通过数据融合编码器进行模态融合，得到融合后的多模态情感特征值，并使用InfoNCE_LOSS损失函数进行回归训练；

步骤3.6：重复步骤3.3-步骤3.5，对基于多元损失函数的多模态情感分析模型进行训练和优化，得到最优的基于多元损失函数的多模态情感分析模型。

所述步骤4的具体过程为：

步骤4.1：将情感状态划分为绝对情感和相对情感两种情感状态；

步骤4.2：根据步骤4.1划分的两种情感状态设置绝对情感迁移函数和相对情感迁移函数，以此来处理利用步骤3最优的基于多元损失函数的多模态情感分析模型得到的融合后的多模态情感特征值；

所述绝对情感迁移函数为：

式中，n为序列样本数量，v_i为第i个样本，e为偏置阈值，A_n为绝对情感二值状态；

所述相对情感迁移函数为：

式中，n为序列样本数量，v_i为第i个样本，v_i-1为第i-1个样本，R_n为相对情感二值状态。

步骤4.3：将步骤4.2得到的结果通过softmax层进行归一化，得到绝对情感的离散值和相对情感的连续值。

所述步骤3.3中的ITC_LOSS损失函数具体为：

L_ITC＝αL_triplet+(1-α)L_contrastive

式中，L_triplet为Triplet loss损失函数，L_contrastive为Contrastive loss损失函数，α为损失函数的权重系数，用于平衡两种损失函数的影响；

所述L_triplet损失函数和L_contrastive损失函数如下所示：

式中，N为训练集中的类别个数，P_i为第i个类别中的样本数，x_i ^a为第i个类别中的第a个样本，(x_i ^a,x_i ^p)为样本x_i ^a和x_i ^p之间的相似度，S(x_i ^a,x_i ⁿ)为样本x_i ⁿ和样本x_i ^a之间的相似度，m为超参数，用于控制同类样本之间的距离；

式中，d(x_i ^a,x_i ^p)为样本x_i ^a和x_i ^p之间的距离，y_i ^a为样本x_i ^a所属的类别标签，y_different为不同类型样本的损失值，m为超参数，用于控制同类样本之间的距离；

所述步骤3.3中的ITC_LOSS损失函数具体为：

式中，N为一个训练批次的样本数，z_i为样本i提取到的特征，z_j为样本j提取到的特征，sim(z_i,z_k)为余弦相似度的计算公式(sim(u,v)＝u^Tv/||u||·||v||)，1[k≠i]，τ为温度系数。

基于多元损失函数的多模态情感分析系统，包括：

数据预处理模块：获取多个模态的数据，对多个模态的数据进行预处理；

模型构建模块：构建基于多元损失函数的多模态情感分析模型，所述基于多元损失函数的多模态情感分析模型包括特征提取编码器和数据融合编码器；

模型训练及优化模块：将预处理后的数据输入基于多元损失函数的多模态情感分析模型，并利用多元损失函数搭配对比学习机制模块生成对应的正、负样本，训练并优化特征提取编码器和数据融合编码器，得到融合后的多模态特征；

任务迁移模块：利用对比学习构建两种不同的迁移函数，来处理融合后的多模态特征值，得到不同的情感值，以此对不同的下游任务进行迁移。

基于多元损失函数的多模态情感分析设备，包括：

存储器：用于存储实现所述的基于多元损失函数的多模态情感分析方法的计算机程序；

处理器：用于执行所述计算机程序时实现所述的基于多元损失函数的多模态情感分析方法。

一种计算机可读存储介质，包括：

所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时能够实现所述的一种基于自注意力机制融合的多模态情感识别方法。

相对于现有技术，本发明的有益效果在于：

1、本发明通过对比模型深度对于收敛的影响，最大化地降低了模型的冗余，与现有技术相比，增强了模态之间的信息关联程度。

2、本发明步骤3中通过多元化损失函数，分别在特征提取和模态融合上加以限制，与现有技术相比，提高了模型识别的准确度。

3、本发明在步骤3中通过数据增强方法产生多个数据对，结合对比学习理论，从相关信息最大化的角度对模型进行自训练，与现有技术相比，在多个数据集上表现出了优异的效果。

4、本发明在步骤4中通过结合对比学习框架的迁移函数实现了对不同下游任务的迁移，与现有技术相比，提高了模型的泛化性和鲁棒性。

综上所述，与现有技术相比，本发明提出的基于多元损失函数的多模态情感分析方法充分考虑了文本、语音和视频信息，利用基于交叉注意力机制的编码器进行融合，提升了数据的处理和融合效率；本发明结合对比学习框架进行多元损失函数辅助训练，使得在特征提取、模态融合过程中能够最大化利用相关性信息，降低噪声的干扰；同时，结合了对比学习框架下不同的迁移函数，在提升情感分析模型准确度的同时，提高了模型的迁移性和鲁棒性，使得模型的应用范围更广。

附图说明

图1为本发明的方法流程图。

图2为本发明的网络模型架构图。

图3为本发明文本特征提取编码器中的嵌入式编码流程图。

图4为文本特征提取编码器中多头注意力机制编码器架构图。

图5为视频特征提取编码器中自注意力机制编码器架构图。

具体实施方式

下面结合附图和实施例详细说明本发明的技术方案。

参见图1，基于多元损失函数的多模态情感分析方法，包括如下步骤：

参见图2、图3、图4和图5，选用当前最大的多模态情感标注数据集CMU_MOSEI以及MOSI数据集，CMU_MOSEI数据集无论是注释数据点数量、说话者数量、模态种类以及视频总时长等方面都显著高于其他的数据集。此外，CMU_MOSEI拥有情感和情感两个标签，情感从negative到positive一共有[-3,3]七个阶段；情感包含愤怒、开心、悲伤、惊讶、害怕和厌恶6个类别。MOSI数据集中的文本数据主要是从演员表演的语音和视频中抽取的，包括演员的口头表达、手势和面部表情等多种文本信息；语音数据主要是从演员的录音中提取的，包括音频信号的频率和语调等信息；视频数据主要是从演员的表演视频中提取的，包括演员的面部表情、手势、姿态和运动等信息。MOSI数据集中每个视频片段都有一个情感标签，包括正向情感、负向情感和中性情感。此外，每个情感标签还伴随有一个强度分数，用于表示情感的强度程度。

步骤1中对上述两个数据集进行数据预处理的具体过程为：

步骤1.1：以文本段作为序列基准，按照固定的时间划分数据集，视频数据和音频数据分别与文本对齐构成计算序列；

步骤1.2：将文本数据进行词向量的划分，并将对应位置的编码添加到向量末；对于音频数据，则是通过FFT快速傅里叶变换得到频谱，通过spec转换函数将其转换为梅尔倒谱数据向量；对于视频数据，即上述与文本对齐的数据帧序列转换为RGB的三通道特征向量，并进行自适应尺度裁剪和缩放转换为4通道的特征向量；

步骤1.3：将步骤1.2处理后的音频数据、视频数据和文本数据对齐，并按照8:1:1的比例划分为训练集、测试集和验证集。

步骤2中所述特征提取编码器包括文本情感特征提取编码器、视频情感特征提取编码器和音频情感特征提取编码器；步骤2中所述数据融合编码器为一个多层的基于交叉注意力机制的编码器，由堆叠特定层数的交叉注意力机制的编码器为基础架构。

(1)文本情感特征提取编码器：所述文本情感特征提取编码器为一个多层的多头注意力机制的编码器，由堆叠多层Transformer编码器架构的模块为基础架构，具体为：

对于文本特征提取编码器，参考BERT在自然语言处理中的计算流程，本发明以Transformer编码器架构为基础进行搭建。如图3所示，首先对文本进行Token Embedding指令编码和Position Eembedding位置编码，编码具体形式为如下公式：

随着句子维度的增加，周期逐渐增长，p_i的不同维度，从1到768，使用不同频率的正弦、余弦函数生成，然后和对应位置的词向量相加。

为了更好地关注上下文的情感文本变化关系，使用多头注意力机制来获取多次变换值，从而最大化利用文本信息。如图4所示，将网络输入分成多支，通过注意力机制的参数矩阵进行每一支的映射将每支的结果进行拼接得到H'，具体公式为：

Q_i＝HW_i,Q

K_i＝HW_i,K

V_i＝HW_i,V

H'＝[H^1,',H^2,',...,H^N,']W_O

其中，对输入H分别乘以矩阵W_i,Q，W_i,K，W_i,V(均为可训练参数矩阵)，可以得到Q_i，K_i，V_i矩阵，即第i个“头”的查询、键值与价值矩阵，经过softmax函数之后得到概率值，将i个输出H^i,'进行拼接乘以可训练映射矩阵W_O得到最终的输出H'。

残差网络使得在保留有效时序性的同时，可以将网络进行深度拓展，通过全连接层与非线性激活函数按照如下公式进行非线性变换：

m_i＝MLP(output_i)＝W₂*GELU(W₁×output_i+b₁)+b₂

其中，用平滑GELU代替RELU，使得输入x对应输出为负数，导数保持非零状态。MLP为全连接层，m_i为单点对应关系，即m_i仅仅由output_i决定。W₁和W₂均为可训练参数举证，b₁和b₂为偏移量。

除了上述更换平滑的激活函数，Layer norm按照Post-LN的位置进行方差放缩，使得后续模型的训练更加稳定。

(2)视频情感特征提取编码器：所述视频情感特征提取编码器为一个多层的自注意力机制的编码器，由堆叠多层Vision Transformer编码器架构的模块为基础架构，具体为：

视频特征提取编码器以Vision Transformer的模块为基础架构，由三个模块组成。如图5所示，Fattened patches也就是embedding层对于[H,W,C]格式的视频数据进行变换，将输入图片按照16×16×3的Patch进行划分，接着将每个三通道的Patch映射到一维向量中，得到一个长度为768的向量，即token。通过上述的正余弦编码方式进行embedding，自注意力机制的架构即上述Q_i，K_i，V_i不再拼接，而是单独进行计算，MLP分类层与上述一致。

(3)音频情感特征提取编码器：所述音频情感特征提取编码器为一个多层的自注意力机制的编码器，由堆叠多层自注意力机制前向网络编码器为基础架构，具体为：

音频特征提取编码器以Transformer为基础架构，区别在于将输入的梅尔频谱的数据进行embedding之后再进行数据处理和融合，自注意力机制和MLP分类层和上述视频特征提取编码器一致。

(4)数据融合编码器：所述数据融合编码器为一个多层的基于交叉注意力机制的编码器，由堆叠特定层数的交叉注意力机制的编码器为基础架构，具体为：

基于交叉注意力机制设计融合网络，按如下公式进行多个模态的数据融合。

首先，计算样本之间的相似性得分，本发明选择向量内积作为相似性得分依据，通过以下公式进行相似度计算：

e_i,j＝w^T[UX_i；VX_j]

式中，X_i和X_j分别表示第i个样本和第j个样本的特征向量；[UX_i；VX_j]表示将两个特征向量进行拼接，并通过矩阵U和V进行线性变换；w为通过训练得到的权重向量，乘积得到相似性得分e_i,j；

其次，按如下公式将相似性得分转换为注意力权重，使用softmax按照如下公式转换为概率分布：

式中，a_i,j表示第i个与第j个样本的注意力权重；n表示总样本数；

最后，与特征向量相乘并进行加权求和，得到加权后的特征向量，公式如下：

式中，h_i即为第i个样本的较差注意力特征向量。

所述步骤2的具体过程为：

所述步骤3模型训练及优化的具体过程为：

步骤3.1：对步骤1数据预处理过程中生成的计算序列进行数据增强，具体为：一段时间内的文本、音频和视频数据构成了一组输入计算序列，按照表1进行数据增强，将同序列的样本作为正样本，不同序列的样本可以互相作为彼此的负样本，为后续在对比学习机制下训练模型做准备，所述表1如下：

表1对比学习数据方案

数据方案	文本	音频	视频
				正样本	同一序列	同一序列	同一序列
负样本1	不同序列	同一序列	同一序列
				负样本2	同一序列	不同序列	同一序列
负样本3	同一序列	同一序列	不同序列

将上述处理好的数据输入模型，对整体网络架构进行256个epoch的迭代训练，使模型逐渐回归到一个稳定的最优解，能够有效提取到对应的三个情感维度的相关特征。然后，通过交叉注意力机制自适应赋予不同模态以不同的权重，实现多模态数据的有效融合，具体训练过程如下：

步骤3.4：利用步骤3.3中正负样本对的两个对比损失函数对特征提取编码器进行优化，具体为：

对于视频情感特征提取编码器和文本情感特征提取编码器，使用ITC_LOSS作为对比学习损失函数，如以下公式所示：

L_ITC＝αL_triplet+(1-α)L_contrastive

式中，L_triplet是Triplet loss损失函数，L_contrastive是Contrastive loss损失函数,α为另种损失函数的权重系数，用来平衡两种损失函数的影响；

其中，L_triplet和L_contrastive的损失函数如下所示：

式中，N是训练集中的类别个数，P_i是第i个类别中的样本数，x_i ^a是第i个类别中的第a个样本，(x_i ^a,x_i ^p)是样本x_i ^a和x_i ^p之间的相似度，S(x_i ^a,x_i ⁿ)是样本x_i ⁿ和样本x_i ^a之间的相似度，m作为一个超参数，用于控制同类样本之间的距离；

式中，d(x_i ^a,x_i ^p)是样本x_i ^a和x_i ^p之间的距离，y_i ^a是样本x_i ^a所属的类别标签，y_different表示不同类型样本的损失值，m为超参数，用于控制同类样本之间的距离；

通过上述损失函数的权重分配，可将同一类别的样本映射到紧密的聚类，来自不同类别的样本则映射到相互分离的聚类，TripletLoss损失函数主要用于区分不同类别之间的样本点，Contrastive Loss损失函数则更多用于学习相似度度量，通过加权损失函数可以更好地在不同场景下适应不同的学习任务。

对于音频情感特征提取编码器和文本情感特征提取编码器使用如下的InfoNCE损失函数，作为文本和音频数据的跨模态学习任务的损失函数进行训练，具体公式为：

式中，N表示一个训练批次的样本数，即对于一个训练批次的N个样本，通过数据增强得到N对正样本对，此时有2N个样本，负样本则是剩余的2(N-1)个样本，也就是负样本都基于这个训练批次的数据生成；z_i为样本i提取到的特征；z_j为样本j提取到的特征；sim(z_i,z_k)为余弦相似度的计算公式(sim(u,v)＝u^Tv/||u||·||v||),1[k≠i]输入0或者1，当k与i不相等时，输出结果为1，否则为0；τ为温度系数，用于控制训练的幅度；

步骤3.5：将步骤3.3提取到的文本情感特征、视频情感特征和音频情感特征通过数据融合编码器进行模态融合，得到融合后的多模态情感特征值，并使用InfoNCE_LOSS损失函数进行回归训练，具体为：

根据InfoNCE损失函数进行损失回归，分子计算的是正样本对的距离，而负样本的距离则在分母中进行叠加，正样本对距离变近，与此同时，负样本距离变远，从而使得模态之间提取到的特征相关性得以提升，并根据此损失微调上述的特征提取函数，完成对整体多模态网络的特征提取训练。

最后，考虑到本发明的网络模型并不涉及生成过程，因此融合网络对于数据中的情感标签使用InfoNCE损失函数进行训练，将对比关系作为输出结果以及融合向量的映射，InfoNCE损失函数公式如上所示。

所述步骤4任务迁移的具体过程为：

步骤4.1：将情感状态划分为绝对情感和相对情感两种状态，本发明在绝对情感状态和相对情感倾向两个方向设定了不同的迁移策略。需要注意的是，迁移状态针对的数据为经过上述多模态融合编码器处理的数据，可以通过softmax函数进行概率转换，也可以直接输出情感状态或者情感倾向所在的区间，本发明探索了两种不同的正/负样本选择迁移策略；

步骤4.2：根据步骤4.1划分的两种不同的情感状态设置不同的迁移函数，以此来处理步骤3.5得到的融合后的多模态特征值，所述迁移函数包括绝对情感迁移函数和相对情感迁移函数；

步骤4.3：将步骤4.2得到的结果通过softmax层进行归一化，得到绝对情感的离散值和相对情感的连续值，具体为：

(1)绝对情感迁移函数：对比性情感可以通过匹配具有相似情感状态的窗口作为正面对，具有不同情感状态的窗口作为负面对来构建。具体为，将绝对情感状态二进制化为“高”和“低”，并将具有相同(不同)状态的窗口视为相似(不相似)。二进制化的标准是基于CMU_MOSEI和MOSI对情感状态的标注均值。将对应窗口的样本进行加权求和即可作为该样本的绝对情感状态，根部不同场景，可以通过自定义的阈值e进行人为调控，所述绝对情感迁移函数为：

式中，n为序列样本数量，v_i为第i个样本，e为偏置阈值，A_n即为绝对情感二值状态；

(2)相对情感迁移函数：也可以使用情感变换进行相对测量，当前面的情感和后面的情感改变值较大时，以平均差的形式进行统计，选择使用标签来定义数值，并根据类别进行匹配，将对应时间段的平均差进行求和，得到情感的变化趋势，所述相对情感迁移函数为：

式中，n为序列样本数量，v_i为第i个样本，v_i-1为第i-1个样本，R_n即为相对情感状态；

第一种对比标记策略和第二种策略的主要区别在于，前者是直接的，因为“高”和“低”的数值是由影响注释痕迹的实际大小得出的，而第二种策略则是间接的，因为“变化”是改变痕迹，表达的是平均绝对变化率。

基于多元损失函数的多模态情感分析系统，包括：

基于多元损失函数的多模态情感分析设备，包括：

一种计算机可读存储介质，包括：

下面结合实验对本发明的应用效果作详细的描述。

(1)实验条件：

下述所有实验均是在Ubuntu20.04操作系统下，采用Pycharm软件实现，具体的实验条件如表2所示：

表2实验条件

实验条件	参数
		显卡	4090(24g)
优化器	Adam
		学习率	1e-4
batchsize	64
		Dropout in/out	0.2/0.1

表中，batchsize表示一次训练所选取的样本数目，Dropout为正则化方法，Dropout in表示输入向量的随机丢弃的比例，Dropout out表示前向传播时丢弃的比例。

(2)实验结果分析：

首先，进行了整体网络方案的评估试验，如表3和表4所示，对比小型的情感分析网络如LMF、LSTM以及RAVEN等网络，本发明在情感分析整体的效率和准确度上均大幅领先，相比于TFN等大型融合网络，本发明在单一回归的情感分析准确度上取得了更好的结果，对多回归的情感分析准确度也取得了一定的提升。

表3 MOSEI对比实验结果(％)

/>

表4 MOSI对比实验结果(％)

名称	ACC-2	F1	ACC-7
				TFN	73.90	73.42	32.10
LMF	80.10	82.15	32.81
				LF-LSTM	76.84	76.71	35.30
RAVEN	78.02	76.60	33.20
				PMR	83.66	83.47	40.62
本发明	88.52	86.40	44.25

表中，TFN、LMF、LF-LSTM、RAVEN、MCTN、MulT、PMR、MISA、FDMER分别为不同的融合网络，ACC-2为模型在不同情感类别上的表现，F1为基于召回率和分类器精度的综合指标，用来评估二分类器性能指标，ACC-7则是指在每个类别占该类总样本数的比例。

其次，进行融合方案的相关试验，通过关闭某一个模态的通道，验证训练模型的分析结果，如表5所示，关闭文本通道时，情感分析准确度出现大幅度下降；关闭视频通道时，出现一定程度的准确度下降；关闭音频通道时，准确度也有着一定的损失。上述损失均处于不可忽略的状态，因此验证了本发明多模态融合机制的有效性。

表5融合实验结果(％)

方法	ACC-2	F1	ACC-7
				文本+视频	85.66	86.02	52.54
文本+语音	83.22	81.95	51.54
				语音+视频	72.12	71.56	34.77

综上所述，本发明提出的基于多元损失函数的多模态情感分析方法充分考虑了文本、语音和视频信息，利用基于交叉注意力机制的编码器进行融合，提升了数据的处理和融合效率；本发明结合对比学习框架进行多元损失函数辅助训练，使得在特征提取、模态融合过程中能够最大化利用相关性信息，降低噪声的干扰；同时，结合了对比学习框架下不同的迁移函数，在提升情感分析模型准确度的同时，提高了模型的迁移性和鲁棒性，使得模型的应用范围更广。

Claims

1.基于多元损失函数的多模态情感分析方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于多元损失函数的多模态情感分析方法，其特征在于，所述步骤1的具体过程为：

3.根据权利要求1所述的基于多元损失函数的多模态情感分析方法，其特征在于，步骤2中所述特征提取编码器包括文本情感特征提取编码器、视频情感特征提取编码器和音频情感特征提取编码器；

4.根据权利要求1所述的基于多元损失函数的多模态情感分析方法，其特征在于，所述步骤2的具体过程为：

5.根据权利要求1所述的基于多元损失函数的多模态情感分析方法，其特征在于，所述步骤3的具体过程为：

6.根据权利要求1所述的基于多元损失函数的多模态情感分析方法，其特征在于，所述步骤4的具体过程为：

所述绝对情感迁移函数为：

所述相对情感迁移函数为：

7.根据权利要求5所述的基于多元损失函数的多模态情感分析方法，其特征在于，所述步骤3.3中的ITC_LOSS损失函数具体为：

L_ITC＝αL_triplet+(1-α)L_contrastive

所述L_triplet损失函数和L_contrastive损失函数如下所示：

所述步骤3.3中的ITC_LOSS损失函数具体为：

8.基于多元损失函数的多模态情感分析系统，其特征在于，包括：

9.基于多元损失函数的多模态情感分析设备，其特征在于，包括：

存储器：用于存储实现所述权利要求1-7的基于多元损失函数的多模态情感分析方法的计算机程序；

处理器：用于执行所述计算机程序时实现所述权利要求1-7的基于多元损失函数的多模态情感分析方法。

10.一种计算机可读存储介质，其特征在于，包括：

所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时能够实现权利要求1-7的一种基于自注意力机制融合的多模态情感识别方法。