CN115329779B

CN115329779B - 一种多人对话情感识别方法

Info

Publication number: CN115329779B
Application number: CN202210953169.3A
Authority: CN
Inventors: 饶国政; 梁怡炜
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2022-08-10
Filing date: 2022-08-10
Publication date: 2023-10-13
Anticipated expiration: 2042-08-10
Also published as: CN115329779A

Abstract

本发明公开一种多人对话情感识别方法。利用基于多模态特征融合的上下文信息建模的子模块中提取多模态特征，将提取出来的单模态特征通过基于注意力机制的融合层进行多模态特征融合，再通过双向LSTM网络建模上下文；基于Roberta的说话人个性特征感知建模的子模块，通过GRU跟踪层捕获目标话语对应的说话人的历史话语的顺序位置信息，输出向量与说话人的个性特征向量拼接输入至预训练记忆网络，建模说话人语言偏好；将两个子模块的输出向量拼接得到模型的情感向量。本发明有利于提高对话情绪识别准确性，充分利用多模态及个性特征信息完成上下文建模及说话人建模。

Description

一种多人对话情感识别方法

技术领域

本发明涉及自然语言处理技术领域，特别是涉及一种多人对话情感识别方法。

背景技术

随着自然语言处理技术的快速发展，人机对话系统受到很多关注并逐渐成为研究热点。人机对话系统不断发展进步，人们对它也有更高要求，希望机器在关注回复内容的基础上，可以与人进行更深入的情感交流。对话系统想要和人类进行有效的情感沟通，就要求机器具备一定的情感能力，即机器需要对用户情感进行识别和判断。

对话情感识别任务是专注于说话人在对话过程中的话语层面的情绪状态，其中话语是以说话人的呼吸或者停顿为界限的言语单位，话语级情感分析的目标是为每个话语标记正确的情感类别标签。考虑到对话系统本身具有很多要素，所以并不能将其简单地等同于单个句子的情感分类，而是需要综合考虑对话过程中的背景信息，比如对话的上下文话语、说话人信息以及多模态信息等。

对话情感识别可广泛应用于各种对话场景中，如社交媒体中评论的情感分析、人工客服中客户的情绪分析等，对话情感识别还可应用于聊天机器人中，实时分析用户的情绪状态，实现基于用户情感驱动的回复生成。

近年来对话情感识别任务专注于利用话语文本信息进行语境建模，这些基于文本模态的情感识别目前已取得一定成果，但是单模态情感识别仍存在性能突破方面的限制，比如识别正确率无法进一步提升、鲁棒性较差等。现有研究表明人们在表达情感时，仅依赖文本信息是不足的，说话人的语音、语调甚至其面部表情在一定程度上更加准确地反映了人物的内心感受，即不同的表现形式在一定程度上存在着互补的作用。因此，多模态情感识别通过在原有的文本模态的基础之上进一步结合人物的听觉模态特征以及视觉模态特征，让模型能够捕捉到各个模态之间的互补信息，从而进一步提高识别的准确率。

然而，目前的情感识别研究大多集中在二元对话中，无法很好扩展到支持多人对话场景当中。多个说话人的对话情感识别问题要求更加精准地模拟各个说话人之间的交互影响，并且还要求更加深入分析每个说话人各自特定的个性特征及话语特征，这对情感表达有着重要影响。因此在多元对话过程中，除了考虑原有的基本语境依赖关系，还需进一步考虑说话人依赖性。

总之，现有技术在情感识别技术中，存在着未利用多模态特征信息，无法扩展支持多元对话，未考虑说话人之间交互关系以及说话人个性特征信息的不足，从而导致的情感识别准确性较低。

发明内容

本发明的目的是针对现有技术中存在的技术缺陷，而提供一种基于RoBERTa说话人个性感知及多模态特征融合语境感知的多人对话情感识别方法，通过引入多模态特征融合信息以及说话人个性特征信息，实现对语境感知以及说话人感知的充分建模，从而提高多人对话情绪识别系统的整体性能。

为实现本发明的目的所采用的技术方案是：

一种多人对话情感识别方法，通过基于多模态特征融合的上下文信息建模的子模块与基于RoBERTa的说话人个性特征感知建模的子模块实现：通过将两个子模块输出向量进行拼接融合，最后得到说话人的情感向量：

利用基于多模态特征融合的上下文信息建模的子模块的处理步骤包括：

将输入的对话在话语级别上进行多模态特征提取，提取到上下文无关的话语级别的单模特征；

将提取出来的各个单模态特征输入至一层基于注意力机制的融合网络进行多模态特征融合，得到基于注意力的上下文无关的多模态融合特征向量；

将多模态融合特征向量输入至一层双向LSTM网络当中学习上下文信息，基于历史话语和未来话语生成上下文相关的话语表示；

对上下文相关的话语表示使用Soft-Attention层为每一句话分配权重并加权求和，生成基于多模态特征融合的上下文信息建模的子模块的输出向量；

基于RoBERTa的说话人个性特征感知建模的子模块的处理步骤包括：

将说话人的先前历史话语集合序列输入至单向GRU跟踪层以捕获说话人的历史话语集合中各个话语之间的顺序位置信息，实现通过远程历史话语信息对目标话语情绪影响的稀释；

将单向GRU跟踪层的输出向量与说话人的个性特征信息向量进行拼接，形成的向量输入至预训练记忆网络，从说话人的历史话语中提取记忆，建模说话人的语言偏好，并结合考虑说话人的个性特征信息，预测目标话语对应说话人的情绪，生成说话人的记忆嵌入向量，作为基于RoBERTa的说话人个性特征感知建模的子模块输出向量。

本发明与现有技术相比，具有以下优点和有益效果：

1.本发明设计了基于多模态特征融合的上下文信息建模的子模块，并在该模块的输入部分中在文本模态基础之上引入了视觉、听觉的多模态话语信息作为补充，弥补了现有技术中仅仅依靠文本模态输入信息进行语境建模的情感特征不充分及不准确问题。

2.在基于多模态特征融合的上下文信息建模的子模块中，采用了基于注意力机制的融合网络进行多模态特征融合，为每个模态特征分配权重，再将其进行加权融合，从而让每个模态能够更好发挥作用，并且能够有效捕捉多模态特征之间的交互关系，从而进一步提高识别准确率。

3.本发明设计了基于RoBERTa的说话人个性特征感知建模的子模块，能够较好支持多人对话场景并建模多个说话人之间的交互关系，弥补了现有技术仅集中在二元对话场景中而无法扩展到支持多人对话场景中。

4.在基于RoBERTa的说话人个性特征感知建模的子模块的输入序列中引入了特定说话人的个性特征信息以及先前话语特征信息，让模型学习特定说话人的个性特征以及语言偏好，从而达到提高目标话语情绪识别准确性的目的；弥补了现有技术仅仅关注对话当中的语境信息而忽视了反映人类个性特征的说话人感知信息。

5.在基于RoBERTa的说话人个性特征感知建模的子模块中引入了GRU跟踪层捕获话语之间的顺序位置信息，达到远距离历史话语信息对目标话语情绪影响的稀释效果。

6.在基于RoBERTa的说话人个性特征感知建模的子模块中引入了预训练语言模型学习特定说话人的历史话语信息和人物特征信息，弥补了现有技术中主要使用基于RNN对序列进行建模导致的单词嵌入提取和序列建模过程解耦问题。

附图说明

图1为本发明实施例提供的多人对话情感识别方法的处理流程图。

图2为本发明实施例提供的基于多模态特征融合的上下文信息建模的子模块的框架图。

图3为本发明实施例提供的基于RoBERTa的说话人个性特征感知建模的子模块的框架图。

图4为本发明实施例提供的注意力机制的示意图。

图5为本发明实施例提供的LSTM网络的整体结构图。

图6为本发明实施例提供的LSTM单元的内部结构图。

图7为本发明实施例提供的双向LSTM网络的结构图。

图8为本发明实施例提供的GRU网络的结构图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例的基于RoBERTa说话人感知及多模态特征融合语境感知的多人对话情感识别方法，目的是预测一段对话中第t句话，即目标话语u_t的情感类别e_t。

本发明实施例的技术思路是，利用基于多模态特征融合的上下文信息建模的子模块中提取多模态特征，将提取出来的单模态特征通过基于注意力机制的融合层进行多模态特征融合，再通过双向LSTM网络建模上下文；基于Roberta的说话人个性特征感知建模的子模块，通过GRU跟踪层捕获目标话语对应的说话人的历史话语的顺序位置信息，输出向量与说话人的个性特征向量拼接输入至预训练记忆网络，建模说话人语言偏好；将两个子模块的输出向量拼接得到模型的情感向量。

如图1所示，本发明实施例，通过基于多模态特征融合的上下文信息建模的子模块和基于RoBERTa的说话人个性特征感知建模的子模块两个的子模块分别处理相应的数据后，再融合输出后实现。

S1，利用基于多模态特征融合的上下文信息建模的子模块进行处理，最终输出向量c_t；

其中，基于多模态特征融合的上下文信息建模的子模块，如图2所示，其处理过程，包括如下步骤：

S1.1.在不考虑话语之间的语境关系的情况下，对多模态数据进行特征提取，多个模态的数据包括文本数据、语音数据、视频数据。

针对输入序列U＝{u₁，u₂，…u_t}中的每一个话语u_i，从三个单模特征提取器中分别提取该话语所对应的上下文无关文本特征向量上下文无关视觉特征向量/>以及上下文无关听觉特征向量/>

对于文本数据，其来源是口语的转录脚本，为了从文本模态提取特征，使用CNN技术。首先将每个话语表示为组成词向量的串联，这些词向量来自于谷歌新闻在1000亿个单词上训练的公开可用的300维word2vec向量。因此卷积核被应用在这些连接的单词向量，每个话语包装到一个50个单词的窗口当中作为CNN的输入，CNN有两个卷积层：第一层有两个大小分别为3和4的内核，每个内核有50个特征映射；第二层有一个大小为2的内核，其中有100个特征映射。卷积层与窗口2×2的最大池化层交错。接下来是一个大小为500的全连接层和softmax输出。使用修正线性单位(ReLU)作为激活函数。全连接层的激活值作为文本模态的话语特征。CNN在话语上的卷积学习具有隐含语义信息的短语的抽象表示，其每一个连续层跨越越来越多的单词并最终覆盖整个话语。

对于语音数据，音频特征以30赫兹的帧速率和100毫秒的滑动窗口提取，使用OpenSMILE技术，OpenSMILE是开源软件，可自动提取音频特征，如音高和声音强度。提取音频特征后，执行语音标准化，对语音强度进行阈值化，以识别有语音和没有语音的样本。openSMILE提取的音频特征由几个低级描述符(LLD)组成，如MFCC、声强、音高及其统计量，如均值、根二次均值等。具体可使用openSMILE的IS13-ComParE配置文件。考虑到每个LLD的所有功能，本发明获得了6373个特征。

对于视频数据，使用3D-CNN从视频中获得视觉特征。3D-CNN不仅能够从每个帧中学习相关特征，还能学习给定数量的连续帧之间的变化。假设是一个视频，其中c是图像中的通道数(c＝3，因为只考虑RGB图像)，f＝帧数，h＝帧高，w＝帧宽。同样考虑3D卷积滤波器/>其中f_m＝特征图数，c＝通道数，f_d＝帧数，f_h＝滤波器高度，f_w＝滤波器宽度。filt在视频中滑动视频并生成输出卷积接着将最大池应用于convout，以仅选择相关特征。该池化将仅应用于数组convout的最后三个维度。接着是大小为300的密集层和softmax层，并将该密集层的激活值用作每个话语的视频特征。

S1.2.将提取出来的各个上下文无关单模态特征输入至一层基于注意力机制的融合层进行多模态特征融合，融合后得到基于注意力的上下文无关的多模态融合特征向量f_i。

注意力机制(Attention Mechanisms)，类似于人类的视觉注意力机制，通过扫描全局图像，获取需要重点关注的目标区域，而后对这一区域投入更多的注意力资源，获取更多与目标有关的细节信息，而忽视其他无关信息。通过这种机制可以利用有限的注意力资源从大量信息中快速筛选出高价值的信息。

同理，神经网络学习中的Attention Mechanisms在众多的输入信息中聚焦于对当前任务更为关键的信息，降低对其他信息的关注度，甚至过滤掉无关信息，使模型做出更加准确的判断，同时不会对模型的计算和存储带来更大的开销。如图4所示，Attention的值计算过程可归纳为三个阶段：

A.根据Query和Key计算二者的相似度，常用的相似度函数有加性模型、点积模型、余弦相似度，得到注意力得分s_i：

s_i＝f(Q，K_i)

B.用softmax函数对注意力得分进行数值转换。一方面可进行归一化，得到所有权重系数之和为1的概率分布，另一方面可用softmax函数的特性突出重要元素的权重：

C.根据权重系数对Value进行加权求和：

对于提取出来的上下文无关的话语级别单模特征而言，并非所有模态在对目标话语进行情绪分类过程中具有同等的影响力，为了优先考虑重要的模态，引入了基于注意力机制的多模态特征融合网络层，为每个模态特征计算权重，并将每个模态数据特征和其权重进行加权融合得到多模态融合特征向量。

具体来说，基于注意力机制的多模态特征融合网络层的处理步骤，包括：

S1.2.1.将上下文无关文本特征向量上下文无关视觉特征向量/>以及上下文无关听觉特征向量/>作为输入，使用大小为d的完全连接层均衡三种模态特征向量的维数得到均衡后特征向量集合/>

其中为话语u_i均衡维度后的文本特征，/>为话语u_i均衡维度后的视觉特征，/>为话语u_i均衡维度后的听觉特征，/>

S1.2.2.计算每个模态对应的注意力权重分数α_f，并将该权重分配给对应的单模特征向量，得到话语u_i融合后的多模态特征向量表示f_i，公式如下：

其中是训练期间可学习的网络参数，d是特征向量维度，/>是注意力权重分数，/>是多模态特征向量表示。

S1.3.将基于注意力的上下文无关的多模态融合特征向量f_i输入至一层双向LSTM网络当中学习上下文信息，基于周围的历史话语和未来话语生成上下文相关的话语表示h_i。

由于循环神经网络(Recurrent Neural Network，RNN)是一种处理序列数据的网络。RNN只具有短期的记忆能力。主要原因是随着时间间隔的增大，RNN存在梯度消失使得丧失向远处连接的能力，导致信息无法有效传播到远处。因此，本发明实施例提出长短期记忆网络(Long Short-Term Memory，LSTM)，LSTM是一种具有短期和长期记忆能力的网络，用于减轻RNN因为梯度消失只有短期记忆的问题。

如图5所示，LSTM的组成部分包括细胞状态、遗忘门、输入门和输出门四个部分。其中细胞状态用于保存每一时刻的重要信息，三个门来控制细胞状态的存储信息，从而保证消息的有效传递。图中圈代表pointwise操作，诸如向量的和，而矩阵就是学习到的神经网络层(Neural Network Layer)。一根线表示向量转移(Vector Transfer)，合在一起的线表示向量的连接(Concatenate)，分开的线表示内容被复制(Copy)，然后分发到不同的位置。

在时刻t，LSTM单元的内部结构如图6所示，其中细胞状态对应图中最上方的横线，一直贯穿整个网络，产生每一时刻需要保存的重要信息。重要信息由前一时刻中有用的信息、前一时刻输出信息和当前输入的有用信息共同产生，再传递给下一个时刻，由下一时刻的遗忘门进一步选择需要的信息；其中遗忘门，控制上一层细胞状态C_t-1中需要遗忘的信息，具体计算公式：

f_t＝σ(W_f·[h_t-1，x_t]+b_f)

式中，f_t是用于产生控制上一层细胞状态需要遗忘的变量，使用sigmoid激活函数使值在(0，1)之间，从而确定C_t-1中需要完全遗忘和记住的上一层输出和本时刻输入的内容；其中输入门，用于处理当前序列位置的输入，确定需要更新的信息更新细胞状态。包含两个部分：一个部分使用sigmoid函数确定输入中的哪些新信息被加入细胞状态；确定了保留的输入新信息后，使用tanh产生新的候选向量，然后将需要保留的信息输入到细胞状态中。具体计算公式如下：

i_t＝σ(W_i·[h_t-1，x_t]+b_i)

当确定了遗忘门和输入门的输出后，便可以将C_t-1更新细胞状态为C_t。其中f_t*C_t-1表示需要保留的信息，i_t*C_t-1表示想要新增的信息，两者之和为本序列的细胞状态，具体公式如下：

输出门根据细胞状态的内容选择性输出的细胞状态的内容。首先需要使用sigmoid函数来确定哪个部分的内容需要输出，再使用tanh激活函数对细胞状态进行处理，再将两部分相乘即可得到希望输出的部分，具体公式如下：

o_t＝σ(W_o[h_t-1，x_t]+b_o)

h_t＝o_t*tanh(C_t)

双向LSTM(Bi-directional LSTM)如图8所示，预测的输出由前面的输入和后面的输入共同决定，从而提高准确度。Forward层和Backward层共同连接到输出层。Forward层从1到t时刻正向计算，得到并保存每个时刻的隐藏层的输出向后传播；Backward层从t时刻向1反向传播，得到并保存每个时刻向后隐藏层的输出。最后每个时刻结合Farward和Backward层的相应输出的结果通过激活函数得到最终的结果。

在序列分类中，每个成员的分类依赖于其他成员。本发明中，对话中的话语可视为一个序列。因此，当对一句话语进行分类时，其他话语可以提供重要的语境信息。这就需要一个模型来考虑这种相互依赖性以及其他话语对目标话语的影响。

为了捕捉这种跨话语的信息触发流，本发明使用了双向LSTM网络模拟话语之间的关系来服务于上下文相关的特征提取的目的。具体来说，将S1.2步骤中得到的基于注意力的上下文无关的多模态融合特征向量f_i作为双向LSTM网络层的输入，学习得到上下文相关的话语表示向量h_i，具体计算公式如下：

h_i＝BiLSTM(f_i)

S1.4由于并非所有话语对目标话语情感分类有同等作用，因此针对上一步生成的上下文相关的话语表示h_i，使用Soft-Attention层为每一句话分配相应的权重α_k，该权值代表话语h_i对目标话语h_t的影响力大小，加权求和生成该子模块的最终输出向量c_t，具体计算公式如下：

计算α_k式中，exp(x)是表示e^x的指数函数，e是纳皮尔常数2.7182…，T是一种运算操作，表示向量转置，分母是所有输入向量的指数函数的和，j表示西格玛求和函数的下界，N表示上界，N为输入话语的总数。

S2，利用基于RoBERTa的说话人个性特征感知建模的子模块进行处理，生成说话人记忆嵌入向量m_t。

其中，基于RoBERTa的说话人个性特征感知建模的子模块，如图3所示，其处理过程，包括如下步骤：

S2.1.将说话人的历史话语集合序列输入至单向GRU跟踪层以捕获顺序位置信息，达到远程历史话语信息对目标话语情绪影响的稀释效果。

由于到目标话语对应的特定说话人的所有先前历史话语对目标话语的情绪影响的重要性并非完全相等，而是随着历史话语与目标话语的距离变化而发生变化，因此，本发明实施例中，将说话人的历史话语集合序列输入至单向GRU跟踪层以捕获顺序位置信息，以实现通过远程历史话语信息对目标话语情绪影响稀释。

门控循环神经网络GRU(gated recurrent neural network)是为了更好地捕捉时序数据中间隔较大的依赖关系，和LSTM(Long-Short Term Memory)一样，也是为了解决长期记忆和反向传播中的梯度等问题而提出来的。

如图8所示，门控循环神经网GRU模型只有两个门，分别为更新门和重置门，更新门用于控制前一时刻的状态信息被带入到当前状态中的程度，更新门的值越大说明前一时刻的状态信息带入越多；重置门用于控制忽略前一时刻的状态信息的程度，重置门的值越小说明忽略得越多，更新门与重置门具体计算公式分别如下：

z_t＝σ(W_z·[h_t-1，x_t]+b_z)

r_t＝σ(W_r·[h_t-1，x_t]+b_r)

本发明中，目标话语u_t对应说话人s_t，该说话人的历史话语集合表示为n是说话人s_t先前历史话语的数量，/>是该说话人的每一句历史话语，将该说话人的历史话语集合序列输入至单向GRU跟踪层以捕获该特定说话人的历史话语集合中各个话语之间的顺序位置信息，具体计算公式如下：

S2.2.将单向GRU跟踪层输出向量k_t与该说话人的个性特征信息向量进行拼接，其中，说话人的个性特征信息具体包含从数据集当中提取到的目标话语所对应说话人的姓名、性别、年龄以及Big Five性格特征这四部分。

人类的语言表达是基于对情景的主观认识而不是客观真实条件，这意味着说话人的个性和认知对对话过程中的情绪变化有着重要影响。然后目前大多数研究仅仅关注对话的语境信息而忽略了人类的个性特征，所以他们在构造模型输入序列时仅考虑了目标话语的上下文话语信息，即输入序列中未涉及可以反映说话人个性特征的信息，这也意味着目前的研究方法未涉及到说话人性格建模这一方面。

因此，本发明在基于RoBERTa的说话人个性特征感知建模的子模块，采用一种新的方式构造输入序列，该序列包含两个方面的内容：一方面内容是话语层面信息，即目标话语所对应说话人的历史话语，这部分信息可供模型学习该说话人的语言偏好，从而达到提高目标话语的情绪识别准确性的目的；

第二方面内容是说话人个性层面的信息，具体包含从一个面向对话人工智能的大规模中文个性情感对话数据集(CPED)中提取到的目标话语所对应的说话人的姓名、性别、年龄以及其所对应的Big Five性格标签，这部分信息可提供模型学习该说话人的人物个性特征，从而达到提高目标话语的情绪识别准确性的目的。

面向对话人工智能的大规模中文个性情感对话数据集(CPED)，是首个多模态中文个性情感对话数据集，包括超过1.2万个对话，超过13.3万个语句。该数据集来源于40部中文电视剧，其中包括与情感、个性特质相关的多源知识。如下表1所示：

表1

数据集中提供了3类属性标注(姓名、性别、年龄)，Big Five人格特质标注，2类情感标注(3分类粗粒度情感、13分类细粒度情感)，以及对话动作DialogeAct标注。CPED可以用于对话理解任务和对话生成任务的评估，例如说话人建模、对话中的个性识别、对话中的情感识别等。在此数据集之前由于没有可用的对话数据集同时提供说话人的情感信息和个性，因此目前很少有同时考虑情感和个性作为先验知识的对话模型。

该数据集当中表明参与者的表达不仅取决于他们的语言语境，还取决于先验的个性化信息。如下表2所示，是来自CPED数据集的示例。

表2

话语级别的标注信息包含：说话人、话语情绪、话语动作DA、话语场景、说话人性别、BigFive人格特征等。其中说话人的情绪或DA在对话中会动态变化。具有高度神经质的“speaker1”在谈话中很容易表现出愤怒的状态：说”(你是谁？)“。相比之下，外向度高、神经质低的“说话者2”在交流中可能会倾向于开玩笑，假装是余春晓的丈夫与“说话者1”开玩笑。人的个性潜移默化地影响着自己的表达方式。换句话说，仅仅提供大规模文本来训练会话生成模型并不能使其掌握人类的认知表达模式。因此，注释标签中考虑了说话人的性别、年龄组和BigFive人格，并认为这些信息可以用于描述基本的人格特征。

其中针对性别标签，是根据《认知心理学：应用心理科学》中的观点：女性和男性演讲者在对话风格上也存在显著差异。

其中针对年龄组标签，是根据发展心理学，将年龄组分为：儿童(<11岁)、青少年(12-20岁)，年轻(21-39岁)，中年(40-60岁)和老年人(>60岁)。

其中针对Big Five人格标签，是根据McCrae和Costa(1997)在16PF因子分析的基础上建立了五因子人格模型，Neuroticism,Extraversion,Openness,Agreeableness,andConscientiousness即神经质、外向性、开放性、宜人性和责任感。并依据美国德州农工大学心理系助理教授张博博士和北京师范大学心理学部黎坚教授联合修订并验证了大五人格量表第二版中文版(Chinese Big Five Inventory-2(Chinese BFI-2)用于计算五大人格的得分。要求注释者为每个说话人填写中文BFI-2。最终分数的归一化平均值用于判断人格特征(高、未知或低)。

将单向GRU跟踪层输出向量k_t与从数据集CPED提取得到的该说话人的个性特征信息向量p_t＝{BigFive,Gender,Age}进行拼接，得到输入序列：

Xt＝{[CLS]k_t[SEP]BigFive,Gender,Age[EOS]}

其中，[CLS]为标记符，放在句子的首位，该标记符经过预训练模型训练得到的表征向量用于后续的分类任务，[SEP]表示分割序列的标记符，[EOS]表示序列结尾的标记符。

S2.3.形成的输入序列输入至预训练记忆网络，从该说话人的历史话语中提取记忆，从而建模说话人的语言偏好，并且结合考虑说话人的特征信息，以帮助预测目标话语对应说话人的情绪，该子模块生成说话人记忆嵌入向量m_t。

预训练记忆网络，是一个通过大量数据上进行训练并被保存下来的网络。首先在一个原始任务上预先训练一个初始模型，然后在目标任务上使用该模型，针对目标任务的特性，对该初始模型进行精调，从而达到提高目标任务的目的。

在本质上，这是一种迁移学习的方法，当神经网络在用数据训练模型时，在数据中获取到的信息，其本质就是多层网络一个的权重。将权重提取出来，迁移到其它网络中，其它的网络便学来了这个网络的特征和其所拥有的知识。

本发明当中，为了提取话语级别的嵌入，使用具有双向编码器结构的预训练语言模型RoBERTa。选择RoBERTa是因为它代表了更充分训练的Bert模型，它在原始Bert模型的基础上，进一步增加预训练数据数量；延长预训练时间或增加预训练步数；放大预训练的每个Batch的Batch Size，能够明显改善模型效果。因此，RoBERTa在某种意义上其实是一个完成版本或者加强版本的Bert模型。除此之外，RoBERTa可以处理两个及以上的部分，RoBERTa原作者分别使用<s>、</s>作为[CLS]和[EOS]标记，并连续使用</s>作为[SEP]标记，用于分割第一段和第二段。

由于该任务是一个序列分类任务，只需将具有softmax非线性随机初始化线型层预训练模型最后一层的第一个隐层状态(这个状态对应于[CLS]标记)。具体是将构造的输入序列Xt输入到预训练语言模型RoBERTa中，并使用[CLS]标记的嵌入输出作为话语分类特征向量m_t，计算公式如下：

m_t＝RoBERTa(X_t)[0]

S3，将基于RoBERTa的说话人个性特征感知建模的子模块输出的说话人的记忆嵌入向量与基于多模态特征融合的上下文信息建模的子模块的输出向量进行拼接融合，得到说话人的情感向量。

S3.1.拼接基于多模态特征融合的上下文信息建模的子模块的输出向量c_t和基于RoBERTa的说话人个性特征感知建模的子模块的输出向量m_t，得到目标话语的最终向量表示p_t，如图3所示，具体计算公式如下：

p_t＝c_t+m_t

S3.2.将目标话语的最终向量表示p_t与线性矩阵(h_e是情绪类别的数量，h_c是向量c_t的维度)相乘，相乘结果输入至softmax层，以获得情绪类别的概率分布，e_t是预测的情绪类别，对应于情绪类别分布中最大概率的指数。

e_t＝argmax softmax(M(p_t))。

本发明有利于提高对话情绪识别准确性，充分利用多模态及个性特征信息完成上下文建模及说话人建模。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点,对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明；

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.多人对话情感识别方法，其特征在于，通过基于多模态特征融合的上下文信息建模的子模块与基于RoBERTa的说话人个性特征感知建模的子模块实现：通过将两个子模块输出向量进行拼接融合，最后得到说话人的情感向量，包括：

将基于RoBERTa的说话人个性特征感知建模的子模块输出的说话人的记忆嵌入向量与基于多模态特征融合的上下文信息建模的子模块的输出向量进行拼接融合，得到目标话语的最终向量表示p_t；

将目标话语的最终向量表示p_t与线性矩阵相乘，相乘结果输入至softmax层，获得预测的情绪类别的概率分布，从而得到说话人的情感向量；

预测的情绪类别的概率分布，对应于情绪类别分布中最大概率的指数；h_e是情绪类别的数量，h_c是基于多模态特征融合的上下文信息建模的子模块的输出向量c_t的维度；

其中，利用基于多模态特征融合的上下文信息建模的子模块的处理步骤包括：

其中，基于RoBERTa的说话人个性特征感知建模的子模块的处理步骤包括：

2.根据权利要求1所述多人对话情感识别方法，其特征在于，所述说话人的个性特征信息包含从数据集当中提取到的目标话语所对应说话人的姓名、性别、年龄以及Big Fiver人格特征。

3.根据权利要求1所述多人对话情感识别方法，其特征在于，所述多模态包括文本数据、语音数据、视频数据。

4.根据权利要求1所述多人对话情感识别方法，其特征在于，所述基于注意力机制的融合网络，为每个单模态特征计算权重，并将每个单模态特征和其权重进行加权融合得到多模态融合特征向量，包括步骤：

将上下文无关文本特征向量上下文无关视觉特征向量/>以及上下文无关听觉特征向量/>作为输入，使用大小为d的完全连接层均衡三种模态特征向量的维数得到均衡后特征向量集合/>其中/>为话语u_i均衡维度后的文本特征，/>为话语u_i均衡维度后的视觉特征，/>为话语u_i均衡维度后的听觉特征，/>

计算每个模态对应的注意力权重分数α_f，将该权重分配给对应的单模特征向量，得到话语u_i融合后的多模态特征向量表示f_i，公式如下：

其中是训练期间可学习的网络参数，d是特征向量维度，是注意力权重分数，/>是多模态特征向量表示。

5.根据权利要求1所述多人对话情感识别方法，其特征在于，所述的预训练记忆网络采用具有双向编码器结构的预训练语言模型RoBERTa。