CN116775873A

CN116775873A - 一种多模态对话情感识别方法

Info

Publication number: CN116775873A
Application number: CN202310738400.1A
Authority: CN
Inventors: 王玉静; 唐勇强; 谢金宝; 蒋雅冰; 王玉龙
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2023-06-20
Filing date: 2023-06-20
Publication date: 2023-09-19

Abstract

本发明提出一种多模态对话情感识别方法，属于对话情感识别技术领域。包括：S1.使用不同的编码器对每轮对话的单模态数据进行编码，得到对话中每个模态的特征表示；S2.对一轮对话的上下文对话信息进行聚合；S3.将对话中的每句话交互的多模态特征进行线性变换后进行模态间的特征融合；S4.基于辅助任务对每个模态的特征使用独立的分类器进行分类，使用主任务分类器对融合后的特征进行主任务情感分类，分别计算分类损失，最终模型损失由辅助任务和主任务损失进行加权计算；S5.将多模态数据输入至主任务分类器中，输出情感类别。解决没有结合所有对话上下文对情感信息进行充分的挖掘，各模态数据表达情感的关联性没有被充分利用的问题。

Description

一种多模态对话情感识别方法

技术领域

本申请涉及对话情感识别方法，尤其涉及一种多模态对话情感识别方法，属于对话情感识别技术领域。

背景技术

随着人机交互和智能客服领域的快速发展，情感识别作为一项重要的技术被广泛关注和应用。如今，各种大型社交媒体时刻都在产生大量的对话数据，形式包括但不限于文本、音频和视频。对发表言论者的情感倾向进行研究在舆情分析、电子客服和医疗保健等领域都有重大的应用价值。因此，对多模态对话情感识别的研究越来越收到研究者和企业的重视。多模态对话情感识别与传统的孤立话语的单模态研究不同，它不但可以结合对话上下文挖掘话语潜在情感，而且同时考虑对话中的多种模态信息，如语音、文本、图像等，从而更准确地捕捉用户情感和需求。

在之前的研究中，研究者们提出了许多捕获对话上下文的模型。CMN采用了一种多模态方法，包括声学、视觉和文本特征，带有门控循环单位，建模每个说话者过去的话语。DialogueRNN使用不同的GRU单元来获取语境信息和说话人关系。它是第一个区分说话人的会话情感分析模型。DialogueGCN将会话构造为一个图，将语音情感分类问题转换为图的节点分类问题，并使用图卷积神经网络对结果进行分类。DialogueCRN引入认知阶段，从感知阶段检索的上下文中提取和整合情绪线索，用于上下文建模。这些模型有的只关注了对话的文本模态，忽略了其它模态的作用，有的没有对说话人信息进行建模从而丢失了部分对话上下文信息。MMGCN利用GCN网络获取语境信息，既能有效利用多模态依赖关系，又能利用说话人信息。但是，MMGCN将不同模态的数据放在一个图中训练，没有考虑到各个模态数据的差异性对模型整体性能的影响。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

鉴于此，为解决现有技术中存在大多情感识别方法只考虑有限窗口内的上下文信息，而没有结合所有对话上下文对情感信息进行充分的挖掘，各模态数据表达情感的统一性和关联性没有被充分利用的技术问题，本发明提供一种多模态对话情感识别方法，为了充分聚合对话上下文信息，并且使每个模态对最终的情感识别效果的贡献最大化，本发明基于图神经网络和多任务学习，提出了一种新的多模态对话情感识别方法，首先对单一模态对话上下文进行建模，同时加入说话人特征嵌入，将聚合后的特征分别送入单模态辅助任务分类部分和多模态特征融合部分，融合后的特征送入最终的多模态情感分类器主任务进行分类，利用多任务学习设计损失函数联合优化主任务和辅助任务。

方案一、一种多模态对话情感识别方法，包括以下步骤：

S1.使用不同的编码器对每轮对话的单模态数据进行编码，得到对话中每个模态的特征表示，包括以下步骤：

S11.使用TextCNN提取句子文本的原始特征；

S12.使用双向长短时记忆网络对句子文本序列初步建模，编码句子文本序列的长期依赖关系，学习句子序列中的上下文信息；

其中，表示文本模态上下文无关的原始特征表示，/>表示表示上一句话语来自文本模态的高级特征表示，/>表示当前句话语来自文本模态的高级特征表示，/>表示下一句话语来自文本模态的高级特征表示；

S13.OpenSmile工具包提取原始的声学特征；

S14.使用在FER+语料库上预训练过的DenseNet模型来提取面部表情的原始特征；

S15.采用全连接网络对语音和视觉模态原始特征进行建模；

其中，表示来自语音模态的高级特征表示，/>表示训练的权重参数，/>表示声学模态上下文无关的原始特征表示，/>表示偏置参数，/>表示表示视觉模态的高级特征表示，/>表示训练的权重参数，/>表示偏置参数，/>表示视觉模态上下文无关的原始特征表示；

S16.对说话人的特征进行编码并嵌入到原始特征中，原始的说话人特征表示成独热向量s_i，说话人特征的嵌入S_i的计算方式如式所示：

其中，W_k为可训练的权重参数，s_k表示说话人特征的独热向量，b_k为偏置参数；

得到嵌入了说话人信息的原始特征，如下式所示：

其中表示嵌入了说话人信息的原始特征，/>为不包含说话人特征嵌入的原始特征，S_k表示当前句话语的说话人嵌入特征；

S2.使用深度图卷积网络对一轮对话的上下文对话信息进行聚合；

S3.将对话中的每句话交互后的文本模态、语音模态和视觉模态特征进行线性变换后进行模态间的特征融合；

S4.基于辅助任务对每个模态的特征使用独立的分类器进行分类，使用主任务分类器对融合后的特征进行主任务情感分类，分别计算分类损失，最终模型损失由辅助任务和主任务损失进行加权计算；

S5.将文本模态、语音模态和视觉模态的数据输入至主任务分类器中，输出情感类别。

优选的，使用深度图卷积网络对一轮对话的上下文对话信息进行聚合的方法是包括以下步骤：

S21.设有N个话语的对话，每句话的文本模态、语音模态和视觉模态的数据分别表示为

S22.对每句话的文本模态、语音模态和视觉模态使用图神经网络构图得到三个无向图G_t＝(V_t,E_t)，G_a＝(V_a,E_a),G_v＝(V_v,E_v)；其中，G_t，G_a，G_v分别表示文本模态无向图、语音模态无向图和视觉模态无向图，V表示话语节点的集合，E表示每句话特征节点间的邻接关系的集合；

S23.对所有话语的文本模态、语音模态和视觉模态使用图神经网络构图，对同一模态的所有样本数据，使每个样本节点都与其他样本节点相连接；

S24.基于皮尔逊相关系数计算样本节点之间的相似性A_xy：

其中，x_i和y_i分别表示两个样本在第i个特征的取值，和/>分别表示两个样本的所有特征的均值；

S25.在GCN网络中加入初始残差连接和恒等映射聚合上下文特征，设是无向图G的图卷积矩阵：

其中，A表示邻接矩阵，D表示图G的对角度矩阵，I表示单位矩阵；多层图卷积网络之间的运算如式所示：

其中，α和β^(l)分别表示两个超参数，σ表示激活函数，W^(l)表示可学习权重矩阵；

设其中η表示超参数，将第一层H⁽⁰⁾的残差连接加到每一层的表征上，并用单位映射I加上权重矩阵W^(l)，得到聚合过上一层信息的当前层的特征表示。

优选的，将对话中的每句话交互后的文本模态、语音模态和视觉模态特征进行线性变换后进行模态间的特征融合的方法是：

F_i ^m＝concat[F_i ^t,F_i ^a,F_i ^v]

其中，和/>分别表示文本模态、声学模态和视觉模态聚合过对话上下文信息特征，F_i ^t，F_i ^a，F_i ^v分别表示/>和/>经过线性变换后的特征，W_t、W_a和W_v是训练的权重参数，b_t、b_a和b_v是偏置参数，F_i ^m表示文本模态、语音模态和视觉模态融合特征，concat[·]代表拼接操作。

优选的，分类器计算过程如式所示：

F_i'^k＝σ(W_kF_i ^k+b_k)

其中，k∈{t,a,v,m}，F_i ^k表示进入分类器的某一单模态特征或融合特征，σ(·)表示激活函数，F_i'^k表示经过激活函数计算后的特征，Softmax(·)将输入的特征归一化为概率分布，P_i ^k表示样本属于每一类的概率，W_k和表示训练的权重参数，b_k和/>表示偏置参数，/>表示分类结果，argmax(·)计算出分类概率最大的类别，c代表所有样本中的类别数。

优选的，计算分类损失函数如式所示：

其中，N表示对话的个数，c(i)表示对话中话语的个数，k∈{t,a,v,m}；α_k表示各子任务损失的权重，表示对话i的话语j在子任务k中预测情感标签的概率分布，y_i,j表示对话i中话语j的期望类标签，λ表示L2正则化权值，θ表示所有训练参数的集合。

方案二、一种电子设备，包括存储器和处理器，存储器存储有计算机程序，所述的处理器执行所述计算机程序时实现方案一所述的一种多模态对话情感识别方法的步骤。

方案三、一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现方案一所述的一种多模态对话情感识别方法。

本发明的有益效果如下：本发明有效提取了各单模态的上下文信息，并通过多任务学习优化特征进行融合分类，提高了情感识别任务的性能。本发明相比于许多已有的情感分类模型都有不同程度的性能提升，证明了其有效性和优越性。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为一种多模态对话情感识别方法流程示意图。

具体实施方式

为了使本申请实施例中的技术方案及优点更加清楚明白，以下结合附图对本申请的示例性实施例进行进一步详细的说明，显然，所描述的实施例仅是本申请的一部分实施例，而不是所有实施例的穷举。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

实施例1、参照图1说明本实施方式，一种多模态对话情感识别方法，包括以下步骤：

对每个模态的数据进行充分的原始特征提取，单模态提取的与情感相关的特征越多，后续进一步提取的特征也越丰富，而且单模态特征的质量也影响到多模态特征融合时模态内和模态间信息交互的效果；

S1.使用不同的编码器对每轮对话的单模态数据进行编码，得到对话每个模态的特征表示；

S11.使用TextCNN提取句子文本的原始特征；

S13.OpenSmile工具包提取原始的声学特征；

S15.采用全连接网络对语音和视觉模态原始特征进行建模；

得到嵌入了说话人信息的原始特征，如下式所示：

其中表示嵌入了说话人信息的原始特征，/>为不包含说话人特征嵌入的原始特征，S_k表示当前句话语的说话人嵌入特征。

在对话情感识别任务中，与单句情感识别任务不同的是，一轮对话的前后对话会包含与当前轮对话相关的信息，为了进一步提取每个模态对话层面的上下文特征，使用深度图卷积网络对同一模态的所有对话特征进行特征聚合。

如果两个节点之间更高的相关性，在信息交互时，能从对方获取到更重要的信息，所以两个相关性高的节点间连接的边的权重也更大；

S24.基于皮尔逊相关系数计算样本节点之间的相似性A_xy：

得到一张图中节点的特征向量和节点间关系边的定义，将一段对话过程的文本模态、语音模态和视觉模态特征分别构造图结构，下式为文本模态的表示：

G_t＝(H_t,A_t)

其中，表示一段话的文本模态中所有话语嵌入过说话人特征的特征向量，H_t表示以上特征向量的集合，即图结构中节点的集合，A_t表示每句话特征之间的相似度矩阵，即图结构中节点的邻接矩阵，G_t表示一段话所有话语文本模态特征构成的一张图；

设其中η表示超参数，将第一层H⁽⁰⁾的残差连接加到每一层的表征上，并用单位映射I加上权重矩阵W^(l)，得到聚合过上一层信息的当前层的特征表示；

对话中的话语特征在各模态的深度图卷积网络中进行交互后，已经具有了各自模态的对话上下文信息，将每句话交互后的三模态特征进行线性变换再进行模态间的特征融合；

F_i ^m＝concat[F_i ^t,F_i ^a,F_i ^v]

直接拼接保留了所有的特征信息，不会丢失或改变，而且不受特征维度或类型的限制，适用于多模态对话情感识别任务；在可解释性方面，直接拼接不对输入特征进行任何处理，连接后的特征向量就是原始特征向量的组合，使得模型预测结果更好地被理解和解释。

S4.基于辅助任务对每个模态的特征使用独立的分类器进行分类，使用主任务分类器对融合后的特征进行主任务情感分类，分别计算分类损失，最终模型损失由辅助任务和主任务损失进行加权计算。

分类器计算过程如式所示：

F_i'^k＝σ(W_kF_i ^k+b_k)

其中，k∈{t,a,v,m}，F_i ^k表示进入分类器的某一单模态特征或融合特征，σ(·)表示激活函数，F_i'^k表示经过激活函数计算后的特征，Softmax(·)将输入的特征归一化为概率分布，P_i ^k表示样本属于每一类的概率，W_k和表示训练的权重参数，b_k和/>表示偏置参数，/>表示分类结果，argmax(·)计算出分类概率最大的类别，c代表所有样本中的类别数；

计算分类损失函数如式所示：

在两个基准数据集IEMOCAP和MELD上使用本发明进行实验评估：

IEMOCAP和MELD是多模态数据集，包含对话中每个话语的声学、视觉和文本信息；将两个数据集以大约4:1的比例划分为训练集和测试集。表1(数据集样本分布表)显示了这两个数据集的训练和测试样本的分布。

表1数据集样本分布表

IEMOCAP数据集：包含了12个小时的双向对话视频，来自10个独特的说话者，在训练集中只使用了会话1到会话4中的前8个说话者；视频包含一个单一的二元对话，分割成话语；共有7433个话语和151个对话；对话中的每句话都标注了六个类别的情绪标签，包括快乐、悲伤、中性、愤怒、兴奋和沮丧。

MELD数据集：是一个多模态、多说话人会话数据集；拥有三个高质量的模态对齐会话数据；总共有13708个话语，1433个对话和304个不同的说话人；与IEMOCAP等二元会话数据集不同，MELD在一个会话中有三个或更多的说话人；对话中的每句话都标注了七种情绪标签，包括愤怒、厌恶、恐惧、喜悦、中性、悲伤和惊讶。

实验使用Python3.7.13和深度学习框架Pytorch1.8.0，实验环境运行在Windows10系统上，实验硬件是Intel(R)Xeon(R)W-2123处理器和GeForceGTX1080Ti显卡；表2为试验参数设置表；

表2实验参数设置表

值得注意的是，使用了AdamW优化器对模型进行优化。AdamW优化器相比较于Adam优化器能够更好的控制模型的权重衰减效果，提供更稳定的训练过程和更好的性能。这一点有验证明了其有效性。

用于分类任务的评估指标是准确性、精确性和召回率；准确度定义为正确分类占样本总数的比例，它反映了模型所做预测的可信度。

F1值是精确率和召回率的调和均值，精确率和召回率中任何一个值减小，F1值都会减小，反之，F1值都会增大，使用加权平均f1值对结果进行评估；加权平均F1值的计算方法如下式所示：

其中，P(Precision)表示被分类器正确预测为正例的样本数量与预测为正例的样本总数的比例，R(Recall)表示被分类器正确预测为正例的样本数量与真实正例的样本总数的比例，F1_i表示类别i的F1值，w_i表示类别i的权重。

为了验证所提出的模型在对话中的多模态情感识别任务中的有效性，将其性能与以下方法进行比较：

BC-LSTM：BC-LSTM采用双向LSTM结构对上下文语义信息进行编码，不识别说话人关系。

CMN：采用了一种包含音频、视觉和文本特征的多模态方法，带有门控循环单位，建模每个说话者过去的话语。

DialogueRNN：DialogueRNN使用不同的GRU单元来获取语境信息和说话人关系。它是第一个用来区分说话人的会话情感分析模型。

DialogueGCN：DialogueGCN将会话构造为一个图，将语音情感分类问题转换为图的一个节点分类问题，并使用图卷积神经网络对结果进行分类。

DialogueCRN：DialogueCRN引入认知阶段，从感知阶段检索的上下文中提取和整合情绪线索，用于上下文建模。

MMGCN：MMGCN利用GCN网络获取语境信息，既能有效利用多模态依赖关系，又能利用说话人信息。

参照表3各模型在IEMOCAP和MELD上的效果表，进行实验结果分析；表3展示了MulTDGCN模型在IEMOCAP和MELD数据集上的效果；MulTDGCN(本发明)模型在两个数据集上的表现都要优于以前的基准模型。其中DialogueGCN模型是用于单一文本模态情感识别的模型，对于文本模态的识别性能较优，MMGCN模型加入了声学和视觉模态，相比单一模态的DialogueGCN模型有了一定提升。MulTDGCN模型同样是使用多模态数据的情感识别模型，相比于MMGCN模型在IEMOCAP和MELD数据集上分别提高了1.83％和0.11％的F1值评分。

表3各模型在IEMOCAP和MELD上的效果表

表4(不同模态设置下模型的性能表)给出了参与训练的模态的不同设置下MulTDGCN在两个数据集上的性能比较。从表4中可以看出，在只有单个模态参与训练时，文本模态表现最好，视觉模态表现最差。在声学模态或视觉模态添加文本模态进行训练可以取得比任一单模态更好的效果，当使用全部的三个模态进行训练时，模型取得最好的效果。

表4不同模态设置下模型的性能表

对模型是否加入辅助任务进行探究，从表5(表5辅助任务对模型性能的影响表

)可以得知，模型在加入辅助任务后在两个数据集上的性能都得到了提升。

表5辅助任务对模型性能的影响表

研究了度图卷积网络层数对模型性能的影响，参照表6(表6不同图神经网络层数对模型性能的影响表)实验结果表明，随着图卷积网络堆叠层数的增加，模型性能得到提升，但是到了一定层数，模型性能又会逐渐下降。进行实验得到的理想层数在IEMOCAP和MELD数据集上分别为64和8。

表6不同图神经网络层数对模型性能的影响表

综上，结果表明，MulTDGCN在多模态对话情感识别方面性能由于以往的方法。通过对MulTDGCN进行分析和消融实验，证明了每个模块的重要性。MulTDGCN有效提取了各单模态的上下文信息，并通过多任务学习优化特征进行融合分类，提高了情感识别任务的性能。

实施例2、本发明的计算机装置可以是包括有处理器以及存储器等装置，例如包含中央处理器的单片机等。并且，处理器用于执行存储器中存储的计算机程序时实现上述的一种多模态对话情感识别方法的步骤。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

实施例3、计算机可读存储介质实施例

本发明的计算机可读存储介质可以是被计算机装置的处理器所读取的任何形式的存储介质，包括但不限于非易失性存储器、易失性存储器、铁电存储器等，计算机可读存储介质上存储有计算机程序，当计算机装置的处理器读取并执行存储器中所存储的计算机程序时，可以实现上述的一种多模态对话情感识别方法的步骤。

所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种多模态对话情感识别方法，其特征在于，包括以下步骤：

S11.使用TextCNN提取句子文本的原始特征；

S13.OpenSmile工具包提取原始的声学特征；

S15.采用全连接网络对语音和视觉模态原始特征进行建模；

得到嵌入了说话人信息的原始特征，如下式所示：

其中h_i'^t表示嵌入了说话人信息的原始特征，为不包含说话人特征嵌入的原始特征，S_k表示当前句话语的说话人嵌入特征；

2.根据权利要求1所述的一种多模态对话情感识别方法，其特征在于，使用深度图卷积网络对一轮对话的上下文对话信息进行聚合的方法是包括以下步骤：

S24.基于皮尔逊相关系数计算样本节点之间的相似性A_xy：

设其中η表示超参数，将第一层H⁽⁰⁾的残差连接加到每一层的表征/>上，并用单位映射I加上权重矩阵W^(l)，得到聚合过上一层信息的当前层的特征表示。

3.根据权利要求2所述的一种多模态对话情感识别方法，其特征在于，将对话中的每句话交互后的文本模态、语音模态和视觉模态特征进行线性变换后进行模态间的特征融合的方法是：

F_i ^m＝concat[F_i ^t,F_i ^a,F_i ^v]

4.根据权利要求3所述的一种多模态对话情感识别方法，其特征在于，分类器计算过程如式所示：

F_i'^k＝σ(W_kF_i ^k+b_k)

5.根据权利要求4所述的一种多模态对话情感识别方法，其特征在于，计算分类损失函数如式所示：

6.一种电子设备，其特征在于，包括存储器和处理器，存储器存储有计算机程序，所述的处理器执行所述计算机程序时实现权利要求1-5任一项所述的一种多模态对话情感识别方法的步骤。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-5任一项所述的一种多模态对话情感识别方法。