CN116010595A

CN116010595A - 基于同构性和异质性动态信息交互的多模态情感分类方法

Info

Publication number: CN116010595A
Application number: CN202211430451.XA
Authority: CN
Inventors: 纪明宇; 周佳伟; 何鑫; 魏宁; 王亚东
Original assignee: Northeast Forestry University
Current assignee: Northeast Forestry University
Priority date: 2022-11-15
Filing date: 2022-11-15
Publication date: 2023-04-25

Abstract

基于同构性和异质性动态信息交互的多模态情感分类方法，涉及多模态情感分析技术领域，本申请提出基于同构性和异质性动态信息交互的多模态情感分类方法，特别是针对目前多模态表达空间内的同构性和异质性特征，本申请采用了一个具有分布排列的共享子空间捕捉模态间潜在的共性和特征，并且设计了一个多模态动态信息交互方法动态融合文本和音频模态内同构性和异质性信息，从而保留各模态的特性，并消除各模态间所存在的歧义和噪声，进而提升了情感分类的准确性。

Description

基于同构性和异质性动态信息交互的多模态情感分类方法

技术领域

本发明涉及多模态情感分析技术领域，具体为基于同构性和异质性动态信息交互的多模态情感分类方法。

背景技术

目前，多模态情感分析的研究领域已经有了很多重要的研究和发现。大多数研究主要集中在不同模态特征分析和多模态语义融合，并且已经有了大量的研究和发现。2018年，Yao等人提出了多模态因子分解情感分析模型(MFM)。MFM通过优化多模态数据和标签联合生成鉴别目标。之后通过区分鉴别目标确保学习到的表征具有丰富的模态特征。2020年Kai等人提出了一种跨模态BERT多模态情感分析模型(CM-BERT)。CM-BERT首先结合来自文本和音频模态的信息来微调预先训练过的BERT模型。之后采用一种新颖的掩蔽多模态注意作为其核心方法，通过文本和音频模态间的动态交互调整词的权重，提升多模态情感识别的精确度。2020年Wasifur等人提出一种多模态适应门-BERT多模态情感分析方法(MAG-BERT)。MAG-BERT利用BERT作为主干网络，以非语言行为为条件的注意力，基本上将视觉和听觉的信息因素映射为一个具有轨迹和大小的矢量。在微调过程中，这个适应向量修改BERT和XLNet的内部状态，允许模型无缝地适应多模态输入。2021年Wenmeng等人提出了一种自监督多任务多模态模型(Self-MM)。Self-MM采用自监督多任务学习策略，通过设计多模态标签和模态表示的单峰标签，联合训练多模态和单模态任务，分别学习一致性和差异性来调整每个子任务的权重。虽然以上研究已经去了显著成效，但是大多数方法并没有明确分析多模态信息深层次多维度的语义关联和差异性，会导致各模态间存在歧义和噪声，进而影响情感分类的准确性。

发明内容

本发明的目的是：针对现有技术中并没有明确分析多模态信息深层次多维度的语义关联和差异性，会导致各模态间存在歧义和噪声，进而导致情感分类不准确的问题，提出基于同构性和异质性动态信息交互的多模态情感分类方法。

本发明为了解决上述技术问题采取的技术方案是：

基于同构性和异质性动态信息交互的多模态情感分类方法，包括以下步骤：

步骤一：获取CMU-MOSI多模态情感数据集，并对CMU-MOSI多模态情感数据集进行预处理，得到文本异质性特征和音频异质性特征，所述预处理具体步骤为：

步骤一一：将数据集内的文本序列数据经过BERT模型的编码层和解码层进行特征提取，得到文本异质性特征；

步骤一二：将数据集内的音频语义信号采用COVAREP库提取出每一帧内的音频异质性特征；

步骤二：采用P2FA将文本异质性特征和音频异质性特征在单词级别的每个时间步内进行模态对齐，对模态对齐后的文本异质性特征和音频异质性特征取平均，得到文本、音频两种模态单词级别对齐的长度相同的特征；

步骤三：将文本、音频两种模态单词级别对齐的长度相同的特征映射到一维卷积网络层，输出维度相同的文本异质性特征和音频异质性特征；

步骤四：将维度相同的文本异质性特征和音频异性质特征映射到一个多模态共享权重的子空间，并通过分布式排列学习不同模态之间的同构性，得到文本模态同构隐藏特征和音频模态同构隐藏特征；

步骤五：将文本异质性特征与文本模态同构隐藏特征进行矩阵相乘，得到文本信息交互矩阵；

将音频异质性特征和音频模态同构隐藏特征进行矩阵相乘，得到音频信息交互矩阵；

然后分别引入padding mask矩阵M，得到文本信息交互表示矩阵以及音频交互信息表示矩阵；

步骤六：利用软注意力方法分别对文本信息交互表示矩阵以及音频交互信息表示矩阵进行处理，得到文本注意力矩阵以及音频注意力矩阵；

步骤七：将文本注意力矩阵以及音频注意力矩阵进行加权求和，得到加权融合信息交互矩阵；

步骤八：将加权融合信息交互矩阵与文本异质性特征进行加权计算，得到多模态信息交互矩阵；

步骤九：将多模态信息交互矩阵与文本异质性特征进行残差连接和归一化处理，得到多模态融合特征数据；

步骤十：将多模态融合特征数据经过全连接层和softmax得到情感分类结果；

步骤十一：利用文本异质性特征和音频异质性特征作为输入、情感分类结果作为输出训练多模态情感分类模型，并利用交叉熵损失函数优化模型，得到训练好的多模态情感分类模型；

步骤十二：将待识别的文本异质性特征和音频异质性特征输入训练好的多模态情感分类模型，得到情感分类结果；

所述多模态情感分类模型的损失函数为：

其中，α表示相似度损失函数的正则化权重，表示相似度损失函数，表示交叉熵损失函数，所述相似度损失函数用于计算文本模态同构隐藏特征和音频模态同构隐藏特征之间的损失；

所述相似度损失函数如下：

其中，表示相似度损失函数，α_t表示文本模态同构隐藏特征，β_a表示音频模态同构隐藏特征，t表示文本特征，a表示音频特征，{T,A}表示特征空间，CMD_K(α_t,β_a)表示文本模态同构隐藏特征和音频模态同构隐藏特征中心距差函数；

所述交叉熵损失函数如下：

其中，N是语料的数量，为期望输出，为实际输出，i表示语料的序号，i＝1...N。

进一步的，所述文本异质性特征如下：

其中，T₁,T₂,...,T表示文本表征序列。

进一步的，所述音频异质性特征如下：

其中，A₁,A₂,…,A_n表示音频信号序列，Time-Step表示每一帧。

进一步的，所述维度相同的文本异质性特征和音频异质性特征如下：

其中，k{T_{a,t},A_{a,t}}表示文本和音频模态的卷积核大小，表示缩放后文本异质性特征和音频异质性特征，Conv1D表示一维卷积网络。

进一步的，所述文本模态同构隐藏特征和音频模态同构隐藏特征如下：

其中，E_c表示多模态共享子空间，α_t表示文本模态同构隐藏特征，β_a表示音频模态同构隐藏特征，θ^c表示共享权重。

进一步的，所述文本信息交互矩阵如下：

音频信息交互矩阵如下：

其中，表示文本信息交互矩阵，表示音频信息交互矩阵。

进一步的，所述文本信息交互表示矩阵如下：

音频交互信息表示矩阵如下：

其中，表示文本信息交互表示矩阵，表示音频交互信息表示矩阵，M_t和M_a分别表示采用paddingmask矩阵。

进一步的，所述文本注意力矩阵如下：

音频注意力矩阵如下：

其中，i和j分别表示数据的各个维度，k依次表示每个输出，z表示输出个数。

进一步的，所述加权融合信息交互矩阵如下：

其中，W_m表示加权融合信息交互矩阵，w_t和w_a分别表示网络权重，b表示网络偏置；

所述多模态信息交互矩阵如下：

X_CMA＝W_mR_t

其中，R_t表示文本异质性特征。

进一步的，所述多模态融合特征数据如下：

X_classify＝Add&Norm(X_CMA,R_t)

所述情感分类结果如下：

y_i＝softmax(W_soft(tanh(W_iX_i+b_i)+b_soft)

其中，W_i、b_i、W_soft、b_soft分别表示全连接层和softmax层的权重和偏置，X_i表示可分类的聚合多模态特征，y_i表示情感分类结果。

本发明的有益效果是：

本申请提出基于同构性和异质性动态信息交互的多模态情感分类方法，特别是针对目前多模态表达空间内的同构性和异质性特征，本申请采用了一个具有分布排列的共享子空间捕捉模态间潜在的共性和特征，并且设计了一个多模态动态信息交互方法动态融合文本和音频模态内同构性和异质性信息，从而保留各模态的特性，并消除各模态间所存在的歧义和噪声，进而提升了情感分类的准确性。

附图说明

图1为本申请的模型框架图；

图2为多模态共享表示学习网络图；

图3为多模态动态信息交互网络图；

图4为相似度损失函数在二元情感分类任务中对于DIHMSA的性能评估指标ACC2影响示意图；

图5为相似度损失函数，在回归任务中对于DIHMSA的性能评估指标MAE的影响示意图。

具体实施方式

需要特别说明的是，在不冲突的情况下，本申请公开的各个实施方式之间可以相互组合。

具体实施方式一：参照图1具体说明本实施方式，本实施方式所述的基于同构性和异质性动态信息交互的多模态情感分类方法，包括：

步骤1：微调预先训练过的BERT模型在公开的多模态情感数据集CMU-MOSI中进行文本特征提取，得到文本异质性特征。

步骤2：采用COVAREP在公开的多模态情感数据集CMU-MOSI中进行音频特征提取，得到每个片段都是一个74维的音频异质性特征向量，包括梅尔频率倒数系数(MFCC)，音高，浊/清分割特征，声门源系数，峰值斜率，最大分散商，以及其他高阶的语音高阶统计特征。

步骤3：在空间和时间维度对文本和音频异构性特征进行对齐，采用P2FA将音频流片段和文本片段在单词级别的每个时间步内进行模态对齐，对文本和音频特征向量取平均，得到文本、语音两种模态单词级别对齐的长度相同的特征向量。

步骤4：为了使文本异质特征和音频异质特征处于同一维度空间内，采用一维卷积神经网络作为模态维度对齐工具。

步骤5：一个具有分布相似性约束的共享子空间捕捉模态间潜在的共性和特征，抓住了不同特征之间的连续性，减少了学习规则，得到多模态同构性特征。

步骤6：一个多模态动态信息交互方法动态融合文本和音频模态内同构和异构信息，实现不同模态间的信息交互，保留各模态特性的同时消除各模态间存在的歧义和噪声。

步骤7：连接和归一化处理，有效叠加深度网络，避免因梯度消失而导致的深度退化，同时提高模型的精度和收敛速度。

步骤8：过上述处理后的多模态特征进行情感分类，获取其中所表达的情感信息。

步骤9：模型优化：将中心矩差函数计算每个模态共享表示之间的异质性，简称为相似度损失函数。将交叉熵函数则是作为任务损失函数。在测试过程中，根据文本和音频模态向量空间内的分布排列，设置模型的目标损失函数。

声音信息和文本信息之间存在密切的关联性，且语音内容能够通过转换工具转换为文本语言。但语音所包含的情感信息和文本不尽相同，主要体现在不同的语速、语调、语气词、重音以及音量等。以上总结为文本和音频表达空间内的同构性和异质性特征。通过分析文本和音频模态间的同构性和异质性特征可以极大提升文本表征和声学特征的质量及其在情感分析任务中的表现。

本申请提出的多模态情感分析方法的目标是挖掘和分析多模态数据(文本和音频)中的情感信息。DIHMSA的主要研究目标是通过动态分析文本语义信息和音频信号信息特征中存在的同质性和异质性特征，提高情感识别的准确性。图1为本文提出的基于模态间同构性和异构性的动态信息交互的多模态情感分析框架(DIHMSA)。

SDMA主要由4部分组成：

1)多模态异质特征提取层。

2)多模态同构特征提取层。

3)多模态动态信息交互层。

4)多模态情感预测层。

文本异质特征。文字语言是大多数人在日常聊天和使用社交网络时进行交流的重要载体，从文字数据中可以挖掘出大量有意义的信息和背后隐含的情感。BERT通过大量的实验证明，它在NLP任务上具有极其先进的文本语义特征提取能力。实验采用BERT[36][34]的最后一层encoder输出作为文本特征。每一个word-piece token的文本序列：T＝[T₁,T₂,...,T_n]，n是文本序列长度。BERT会在输入序列添加一个CLS开始分类标识符。文本异质序列经过embedding和encoder后的输出序列如下：

X_t＝[X[CLS]，X₁，X₂，…X_n]

音频异质特征。语音中包含的情感信息与文本不同，主要体现在不同的语速、语调、转折、口音和音量。在本申请中，我们的工作是利用COVAREP来提取音频特征。在本申请在中使用COVAREP(COLLABORATIVE VOICE ANALYSIS REPOSITORY)提取音频特征。每个片段都是一个74维音频特征向量，包括(MFCC)梅尔频率倒谱系数、音高、浊音/清音分段特征、声门源系数、峰斜率、最大色散商等语音高阶统计特征。为了与文本模态一致，我们在词级对齐音频特征之前附加一个零向量(A[CLS])。为了获得词级对齐特征，本文使用P2FA将音频流片段和文本片段在单词级别的时间步进行对齐。在单词级别的时间步长内对文本和音频特征向量取平均，得到文本、语音两种模态单词级别对齐的长度相同的特征向量。音频异质特征表示为：

X_a＝[A[CLS]，A₁，A₂，…A_n]

下面分别进行说明：

1.多模态异质特征的提取过程

该模型将采用在NLP和语音识别领域先进的特征提取工具作为本方法的多模态异质特征方法，分别为BERT和COVAREP。BERT通过大量的实验证明，它在NLP任务上具有极其先进的文本语义特征提取能力，并且可以适用大量的下游NLP任务。COVAREP提取的每个音频特征片段都是一个74维音频特征向量，包括梅尔频率倒谱系数、音高、浊音/清音分段特征、声门源系数、峰斜率、最大色散商等语音高阶统计特征。通过上述两个工具可以充分挖掘出文本和音频数据内的全面和隐藏信息。具体流程如下：

1)将数据集内的文本序列数据，经过BERT编码层和解码层提取出文本异质特征数据。

为文本异质特征；T₁,T₂,...,T为文本表征序列。

2)将数据集内的音频语义信号，采用COVAREP库提取出每一帧内的音频异质特征数据，采用P2FA将音频流片段和文本片段在单词级别的每个时间步内进行模态对齐，对文本和音频特征向量取平均，得到文本、语音两种模态单词级别对齐的长度相同的特征向量。音频异质特征如下：

为音频异质特征；A₁,A₂,…,A_n为音频信号序列。

2.多模态同构特征的提取过程

为了保证文本异质特征和音频异质特征在同一维度空间内，将采用一维卷积网络层作为序列对齐工具。之后将一个语料库的所有模态信息映射到一个共享的子空间，通过分布式排列捕捉模态之间的潜在模态之间的共同点和特征；

1)将文本和音频异质特征映射到一维卷积网络层，输出维度相同的不同数据。缩放后的文本和音频异质特征数据如下：

k{T_{a,t},A_{a,t}}表示文本和音频模态的卷积核大小；表示缩放后文本和音频异质特征的维度数据。

2)将经过缩放的文本和音频异质特征维度数据映射到一个多模态共享权重的子空间，通过分布式排列学习不同模态之间的同构性；

E_c为多模态共享子空间；α_t为文本模态同构隐藏特征；β_a表示音频模态同构隐藏特征；θ^c表示共享权重。

3.多模态动态信息交互的过程

该模型设计多模态动态信息交互算法动态融合文本和音频模态信息，实现不同模态间的信息的交互，保留各模态特性的同时消除各模态间存在的歧义和噪声。

1)将文本和音频各自模态内的异构性和同质性数据进行矩阵相乘；

为文本信息交互矩阵；为音频信息交互矩阵。

2)为了减少padding序列的影响，采用padding mask矩阵M；

表示文本信息交互表示矩阵；表示音频交互信息表示矩阵；M_t和M_a分别表示采用padding mask矩阵。

3)之后使用软注意力方法计算每个特征序列的概率分布，获取多模态的注意力表示。0代表token的位置。对于填充部分，特征数据经过mask计算输出为(负无穷)，进行Softmax计算后，填充位置的注意力分数为0；

为文本注意力矩阵；为音频注意力矩阵。

4)对文本注意力矩阵和音频注意力矩阵进行加权求和；

W_m表示加权融合信息交互矩阵；w_t和w_a分别表示网络权重；表示网络偏置。

5)为了防止过度拟合，将加权融合的注意力矩阵与BERT输出的单词向量进行加权计算；

X_CMA＝W_mR_t (15)

X_CMA表示多模态信息交互矩阵。

4.多模态情感预测层

将经过上述处理后的多模态数据提取其中有价值的情感信息。

1)将多模态注意力数据X_CMA与BERT最后一层encoder文本输出序列进行残差连接和归一化处理；

X_classify＝Add&Norm(X_CMA,R_t) (16)

X_classify为可分类的聚合多模态特征数据。

2)最后，将多模态融合特征数据经过全连接层和softmax计算得出情感分类结果；

y_i＝softmax(W_soft(tanh(W_iX_i+b_i)+b_soft) (17)

其中W_i，b_i，W_soft，b_soft分别是全连接层和softmax层的权重和偏置；X_i是可分类的聚合多模态特征，y_i是情感分类结果。

5.模型优化

在训练过程中，本文采用中心矩差函数计算多模态同构性特征之间的差异性，简称为相似度损失函数。中心矩差函数不仅通过连续的矩差来测量多个特征之间的差异，而且对个别有噪声影响的数据具有鲁棒性。将交叉熵函数则是作为任务损失函数，计算真实情感信息和模型预测情感信息之间的差异性。交叉熵经过大量实验已经充分其高效性。实验采用的优化策略不仅可有效捕捉模态间潜在的共性和特征，而且可有效提升情感分析的性能。

1)相似度损失函数：

中心矩差的主要作用是用来测量两个随机变量的概率随机分布差异。

CMD_K(X,Y)为中心距差函数；是样本经验期望向量；

C_k(X)＝E((x-E(X))^k)是X的k阶样本中心距向量。

在测试过程中，根据文本和音频模态向量空间内的分布排列，设计的相似度损失函数如下：

为相似度损失函数；α_t为文本模态同构特征；β_a表示音频模态同构特征。

2)为了优化模型的参数，采用交叉熵损失函数作为实验的任务损失函数，计算实际输出(概率)与期望输出(概率)的距离。

H(p,q)为交叉熵损失函数，p为期望输出，q为实际输出。

而在实验中，本申请设计的任务损失函数如下：

为任务损失函数；N是语料的数量，y_i为期望输出，为实际输出。

3)在模型优化过程中，采用相似度损失函数和任务目标损失函数作为模型的目标优化函数。本文的优化策略是通过最小化目标损失函数进行的，设计的目标损失函数如下：

为目标损失函数；α是相似度损失函数的正则化权重。

实验：

本申请在公共多模态情感分析数据集CMU-MOSI[9]和CMU-MOSEI[10]上测试我们的模型(DIHMSA)。接下来我们将讨论数据集、实验参数、评估指标和基线等实验信息。

数据集

CMU-MOSI[9](Multimodal Opinion-level Sentiment Intensity)是最受欢迎的基准数据集之一。数据集中包含93个视频，其中共有2199段对话。每段对话都有一个情感标签，线性范围从-3到+3。本文将>0的标签定义为积极对话，将<＝0的标签定义为消极对话。数据集中有训练集、验证集和测试集。训练集有52个视频，包括1284段对话(679段积极对语，605段积极对话语)。验证集有10个视频，包括229段对话(124段积极对话，105段消极对话)。测试集有31个视频，包括686段对话(277段积极话语，409段消极话语)。我们实验数据集的划分按照CMU-MOSI的数据集格式。CMU-MOSI数据集的相关信息如表1所示。

表1 CMU-MOSI数据集信息

CMU-MOSEI[10](Multi-modal Opinion Sentiment and Emotion Intensity)是卡内基梅隆大学收集的“下一代CMU-MOSI”多模态数据集。CMU-MOSEI来自1000多名YouTube在线演讲者，包含3229个视频，其中共有22676段对话。每段对话都有一个情感标签。在粗粒度上，情感标签被标记在[-3,+3]线性范围内。本申请将>0的标签定义为积极对话，将<＝0的标签定义为消极对话。在细粒度上，每段对话又被分为6个情感标签:愤怒、厌恶、恐惧、快乐、悲伤、惊喜。数据集中有训练集、验证集和测试集。训练集有2550个视频，包括16216段对话(11499段积极对话，4717段消极对话)。验证集有300个视频，包括1835段对话(1333段积极对话，502段消极对话)。测试集有679个视频，包括4625段对话(3281段积极对话，1344段消极对话)。CMU-MOSEI数据集的相关信息如表2所示。

表2 CMU-MOSEI数据集信息

实验设置

深度学习中的参数通常可以分为可训练参数和超参数。可训练参数可以在模型训练过程中通过反向传播算法进行优化学习，而超参数则是在训练学习开始前根据现有经验手动设置为正确的值。超参数在一定程度上决定了算法模型的最终性能。我们使用基本的网格搜索来调整超参数，并根据SDMA在验证集上的表现来选择最佳的超参数设置。对于AFR-BERT，超参数和调整范围是：学习率(0.0001-0.01)，批次大小(16-128)，最大序列长度(32-96)，epochs的数量(1-50)，正则化权重α(0.1,0.3,0.5,0.01,0.05,0.09,0.001)。Adam被用作优化器。

每当以特定的超参数设置对SDMA进行的训练结束后，从SDMA学到的特征就被用作下游任务模型的输入。最佳参数报告的测试结果如表3所示：

表3试验参数

评估指标

在实验中，本申请利用性能评估指标评估基线和DIHMSA的性能。在情感评分分类任务中采用2分类准确率(2-class Accuracy,ACC2)，7分类准确率(7-class Accuracy,ACC7)，F1评分(weighted average F1-score,F1)。在回归任务中采用平均绝对误差(MeanAbsolute Error,MAE)，和皮尔逊相关系数(Pearson correlation coefficient,Corr)。评价指标中ACC2、ACC7、F1的值越高，证明模型性能越高。MAE则是值越低，证明模型性能越高。

准确率计算公式如下：

Acc＝(TP+TN)/(TP+FP+FN+TN)

F1评分计算公式如下：

MAE是预测值和真实值之间的绝对误差，计算公式如下：

表示真实值，y_i表示预测值。

Corr是衡量模型预测值和真实标签之间的相关性程度，计算公式如下：

结果与讨论

本申请设计了三组实验，从不同角度验证DIHMSA的情感识别能力。此外，本申请通过实验结果讨论了DIHMSA的有效性。

多模态情感分析

在CMU-MOSI和CMU-MOSEI进行对比实验，将实验结果与基线进行比较。

对比实验(CMU-MOSI)

表4为基线与DIHMSA模型在CMU-MOSI上评价指标(ACC2、ACC7、F1、MAE、Corr)的实验结果。

表4在CMU-MOSI上的对比实验

(B)表示基于BERT的语言特征。(-)表示空值。粗体的数值表示性能指标的最佳值。

从表4的实验结果可以得出结论，SDMA在CMU-MOSI上创造一个较为先进的结果，并改善了所有的性能评估指标。在二元情感分类任务上，DIHMSA在ACC2上取得了86.62％的成效，与基线相比，提高了0.52％-9.22％。与ACC2上的结果类似，DIHMSA在F1上取得了0.45％-9.15％的改进。在情感评分分类任务中，DIHMSA模型在ACC7上取得了45.04％的成绩，比所有的基线表现的更优秀，提高了0.14％-11.67％。在回归任务中，DIHMSA在MAE上降低了约0.021-0.273，在Corr上提高了大约0.005-0.171。

对比实验(CMU-MOSEI)

为了证明DIHMSA模型的适用性，本申请在CMU-MOSEI上也进行了对比实验。表5显示了基线和DIHMSA在CMU-MOSEI上评估指标(ACC2，F1，MAE，Corr)的实验结果。由于大多数基线没有在CMU-MOSEI上对指标ACC7进行评估，于是我们并没有比较该指标。

表5在CMU-MOSEI上的对比实验

从表5的实验结果可以得出结论，DIHMSA模型在CMU-MOSEI数据集上产生了更好的结果，并改进了所有的性能评估指标。在二元情感分类任务中，DIHMSA模型对ACC2的识别率达到85.84％，较基线模型提高0.34％-9.84％。与ACC2的结果类似，我们的模型在F1上达到了85.63％，比基线提高了0.33％-9.63％。在回归任务中，与基线模型相比，DIHMSA模型在MAE值上降低了0.009-0.096，在Corr上提高了大约0.121-0.180。

定性分析

表4和表5给出了在CMU-MOSI和CMU-MOSEI数据集上对比实验的结果。从实验结果不难看出，DIHMSA模型在性能评估指标方面普遍优于其他基线模型。这也证实了DIHMSA模型的正确性和高性能。更重要的是，上述基线大多使用文本、音频和视频信息进行分析，而我们的模型仅使用文本和音频信息就创造了一个出色的结果。

消融实验

为了进一步探究模型中某些方法的作用，我们在本节进行了消融实验，研究相对复杂神经网络中的网络性能。

网络层的作用

为了研究部分模块对模型性能的影响，在CMU-MOSI上进行了两组消融实验。具体实验结果如表6所示。

DIHMSA(-MSR)：在完整DIHMSA模型上删除多模态共享表示层，将经过缩放的多模态特征直接输出到多模态动态融合层。

DIHMSA(-MDF)：在完整DIHMSA模型上删除多模态动态融合层。实验将经过多模态共享表示学习到的文本和音频模态隐藏特征进行元素式矩阵连接，之后进行多模态情感分类。

表6

从实验结果可以看出，DIHMSA模型在去除MSR和MDF模块后，各性能评估指标均都呈现显著降低的趋势。删除多模态共享表示层MSR后，首先在二元情感分类任务中的性能评估指标ACC2下降了8.61％，F1下降了10.1％，回归任务的MAE增加了0.231，Corr降低了多少0.163。研究结果表明，MSR可以捕捉模态间潜在的共性和特征，解决了不同模态间的异构性问题。取消MSR模块后，首先二元情感分类任务的ACC2下降了6.55％，F1下降了6.82％，回归任务的MAE增加了0.216，Corr降低了多少0.134。研究结果表明，MSR通过动态融合文本和音频模态信息，高效地消除了各模态间所存在的歧义和噪声。从消融实验结果可以得出，MDF，MSR可以有效提升DIHMSA模型的多模态情感识别性能。

优化的作用

本申请采用中心矩差[40](CMD)函数作为实验的模态相似度损失函数，计算每个模态的共享表示之间的差异。CMD不仅可以通过顺序矩差来衡量多种特征之间的差异，而且对个别受到噪声干扰的数据具有鲁棒性。我们将在CMU-MOSI进行实验，探索相似度损失函数对于SDM情感识别性能的影响。

DIHMSA(-CMD)：在优化策略中不使用相似度损失函数的模型。图4展示了相似度损失函数在二元情感分类任务中对于DIHMSA的性能评估指标ACC2影响。

EPOCH表示迭代次数。

从图4的实验结果可得出，在二元情感分类任务中，

相似度损失函数最高提升DIHMSA模型对ACC2的识别率达到16.16％，最少提升6.91％。研究结果表明，使用相似度损失函数(CMD)确实可以有效减少模态的共享表示之间的差异，帮助提升DIHMSA模型的情感识别的准确率。

图5展示了相似度损失函数，在回归任务中对于DIHMSA的性能评估指标MAE的影响。

EPOCH表示迭代次数。

从图5的实验结果可得出，在回归任务中，使用相似度损失函数最高降低DIHMSA模型的MAE达到0.109，最少减少0.03。研究结果表明，相似度损失函数(CMD)在减少DIHMSA情感识别的误差方面也有着显著的效果。

实例分析

为了更好的体现DIHMSA模型的重要性和泛化性，我们从CMU-MOSI数据集上选择一些样例进行分析。数据集中每段对话情感极性都介于极强负面(-3)和极强正面(3)之间。如表7所示，表中列出了每个样例的文本信息、音频信息、样例的真实情感信息和DIHMSA的预测结果。

表7实例分析

在例2和例3中，文本申请中出现了“joke”、“laugh”、“like”、和“Welcome”等积极词汇。仅使用文本信息前提下，模型很容易将其情感推断为积极情绪，但是其真实情绪是紧张(消极)和沮丧(消极)。但是SDMA模型可以通过解决文本和音频模态间的异构性和异质性问题，推测出其真实情感为消极。

在例1和例4中，文本和音频模态间的关系是一致的，其预测结果也是正确的。DIHMSA模型可以通过共享表示学习捕捉到模态间潜在的共性和特征，有助于情感识别。

通过实例分析可以得出，本申请别出模态间潜在的共性和特征，从而准确预测出真实的情感。

需要注意的是，具体实施方式仅仅是对本发明技术方案的解释和说明，不能以此限定权利保护范围。凡根据本发明权利要求书和说明书所做的仅仅是局部改变的，仍应落入本发明的保护范围内。

Claims

1.基于同构性和异质性动态信息交互的多模态情感分类方法，其特征在于包括以下步骤：

所述多模态情感分类模型的损失函数为：

l＝l_task+αl_Similarity

其中，α表示相似度损失函数的正则化权重，l_Similarity表示相似度损失函数，l_task表示交叉熵损失函数，所述相似度损失函数用于计算文本模态同构隐藏特征和音频模态同构隐藏特征之间的损失；

所述相似度损失函数如下：

其中，l_Similarity表示相似度损失函数，α_t表示文本模态同构隐藏特征，β_a表示音频模态同构隐藏特征，t表示文本特征，a表示音频特征，{T,A}表示特征空间，CMD_K(α_t,β_a)表示文本模态同构隐藏特征和音频模态同构隐藏特征中心距差函数；

所述交叉熵损失函数如下：

其中，N是语料的数量，

为期望输出，

为实际输出，i表示语料的序号，i＝1...N。

2.根据权利要求1所述的基于同构性和异质性动态信息交互的多模态情感分类方法，其特征在于所述文本异质性特征如下：

其中，T₁,T₂,...,T表示文本表征序列。

3.根据权利要求2所述的基于同构性和异质性动态信息交互的多模态情感分类方法，其特征在于所述音频异质性特征如下：

4.根据权利要求3所述的基于同构性和异质性动态信息交互的多模态情感分类方法，其特征在于所述维度相同的文本异质性特征和音频异质性特征如下：

其中，k{T_{a,t},A_{a,t}}表示文本和音频模态的卷积核大小，

表示缩放后文本异质性特征和音频异质性特征，Conv1D表示一维卷积网络。

5.根据权利要求4所述的基于同构性和异质性动态信息交互的多模态情感分类方法，其特征在于所述文本模态同构隐藏特征和音频模态同构隐藏特征如下：

6.根据权利要求5所述的基于同构性和异质性动态信息交互的多模态情感分类方法，其特征在于所述文本信息交互矩阵如下：

音频信息交互矩阵如下：

其中，

表示文本信息交互矩阵，

表示音频信息交互矩阵。

7.根据权利要求6所述的基于同构性和异质性动态信息交互的多模态情感分类方法，其特征在于所述文本信息交互表示矩阵如下：

音频交互信息表示矩阵如下：

其中，

表示文本信息交互表示矩阵，

表示音频交互信息表示矩阵，M_t和M_a分别表示采用padding mask矩阵。

8.根据权利要求7所述的基于同构性和异质性动态信息交互的多模态情感分类方法，其特征在于所述文本注意力矩阵如下：