CN111460143A

CN111460143A - 一种多人对话系统的情绪识别模型

Info

Publication number: CN111460143A
Application number: CN202010164874.6A
Authority: CN
Inventors: 林小颖; 徐向民; 邢晓芬; 殷瑞祥; 郭锴凌
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-03-11
Filing date: 2020-03-11
Publication date: 2020-07-28

Abstract

本发明公开了一种多人对话系统的情绪识别模型，包括S1提取数据集中的特征，所述特征包括文本特征及语音特征；S2根据文本特征及语音特征，构建改进的DialogueRNN网络；S3训练改进的DialogueRNN网络，得到最终的声学模型即情绪识别模型。本发明在考虑模型对现实多人对话场景的建模能力、对上下文信息提取能力及模型的大小等方面的因素下，通过引入Listener的Party State和不同人的Emotion State，提高了DialogueRNN情绪识别模型的性能。

Description

一种多人对话系统的情绪识别模型

技术领域

本发明属于情绪识别领域，特别涉及一种多人对话系统的情绪识别模型

背景技术

对话系统中的情感识别是许多应用程序的必要步骤，包括聊天记录中的主题挖掘，社交媒体线索，在实时对话中了解消费者反馈等方面。多人对话系统中的情绪识别，上下文信息起到非常重要的作用，利用循环神经网络(Recurrent Neural Network,RNN)可以很好地提取上下文信息，循环神经网络是一类以序列(sequence)数据为输入，在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neural network)。

对循环神经网络的研究始于二十世纪80-90年代，并在二十一世纪初发展为深度学习(deep learning)算法之一，其中双向循环神经网络(Bidirectional RNN,Bi-RNN)和长短期记忆网络(Long Short-Term Memory networks，LSTM)是常见的的循环神经网络。

一般是情绪识别系统分成几个步骤，第一是特征的提取，包括文本，语音，视频等特征，第二是特征的融合，第三是对场景进行建模。

在多人对话系统中，现有的基于RNN的情绪识别模型DialogueRNN可以比较好地刻画现实对话的场景，但跟实际情况也存在一些出入，并不能比较好地模拟实际场景，从这方面来说，基于RNN的多人对话系统中的情绪识别模型DialogueRNN性能有待进一步地提升。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种多人对话系统的情绪识别模型。本发明在考虑模型建模能力、对上下文信息提取能力及模型的大小等方面的因素下，通过引入Listener的Party State和不同人的Emotion State，对现实场景更好地建模，从而提高情绪识别系统整体性能。

本发明的目的通过以下的技术方案实现：

一种多人对话系统的情绪识别模型，包括：

S1提取数据集中的特征，所述特征包括文本特征及语音特征；

S2根据文本特征及语音特征，构建改进的DialogueRNN网络；

S3训练改进的DialogueRNN网络，得到最终的声学模型即情绪识别模型。

所述改进的DialogueRNN网络是在基础的DialogueRNN网络中引入Listener的Party State和不同人的Emotion State，得到改进后的DialogueRNN网络。

所述S2根据文本特征及语音特征，构建改进的DialogueRNN网络，具体为：

将当前时刻的文本特征及语音特征输入Global GRU提取上下文信息的特征g_t；

上下文信息的特征(g₁g₂...g_t-1)通过Attention机制得到Context Vector(c_t)；

将Context Vector(c_t)和g_t拼接后和Speaker上一时刻的Party State(P_s,t-1)通过Party GRU得到t时刻的Party State(P_s,t)；

上下文信息的特征g_t和每个listener在前n个时刻说的语句信息利用Attention机制得到c_i,t；

将c_i,t和g_t拼接后和Listener上一时刻的Party State(P_Li,t-1)得到t时刻的PartyState(P_Li,t)，

将每个人前t时刻的Emotion State通过Attention机制后和Party State(p_i,t)送进Emotion GRU得到每个人第t时刻的Emotion State(e_i,t)；

选择Speaker的Emotion State送进DNN网络进行分类，得到改进的DialogueRNN网络。

所述listener的Party state，其计算公式如下：

c_t,i＝α[g_1,i,g_2,i,...,g_k,i]^T

其中，g_t代表第t时刻Global GRU的输出，

代表g_t在第t时刻影响第i个Listener的Party State，g_1,i代表第i个Listener的第一句话，g_2,i代表第i个Listener的第二句话，其他依次类推，W_α是一个矩阵，softmax函数将向量转化成概率。

引入不同人的Emotion State，其数学公式如下：

α_i＝softmax(A^T[e_0,i,e_1,i,...,e_t-1,i])

其中，g_t代表第t时刻Global GRU的输出，e_t,i是第t时刻第i个人的EmotionState,

是g_t在t时刻影响第i个人的Party State，A是一个向量，softmax函数将向量转化成概率。

本发明采用梯度下降法训练改进后的DialogueRNN网络。

所述Attention机制中采用多种函数获取加权值。

本发明与现有技术相比，具有如下优点和有益效果：

1、根据实际场景，Speaker的话语会对Listener产生一定的影响，引入Listener的Party State，其中Listener Party GRU共享参数，根据Speaker在此时刻t的u_t与每个Listener之前说的话的相关程度影响Listener在t时刻的Party State，因此引入Listener的Party State可以对实际场景更好地建模。

2、根据实际场景，Speaker的Emotion State跟Speaker之前的Emotion State有更直接的关系因此引入不同人的Emotion State可以对实际场景更好地建模。

3、本发明综合考虑模型大小、计算复杂度和DialogueRNN本身对实际场景的有效建模，最终相比于原始的DialogueRNN，使得模型在MELD数据集上取得一定的性能提升。

附图说明

图1是本发明一种改进的多人对话系统的情绪识别模型的结构框图；1-引入的Listener的Party State子模型；2-本发明中引入的不同人的Emotion State的子模型。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

如图1所示，一种多人对话系统的情绪识别模型，包括三种GRU，分别为Global GRU(GRU_G)、Party GRU(GRU_p)、Emotion GRU(GRU_ε)，其中GRU_p有两种Speaker Party GRU(GRU_PS)和Listener Party GRU(GRU_PL)。Global GRU旨在提取上下文信息，Party GRU旨在提取在场的人在对话中的状态，这个状态是与情感有关的，比如说话的音调，内容等。Emotion GRU旨在储存之前情绪的状态。

具体过程为：

S1提取数据集中的特征，所述特征包括文本特征及语音特征。

文本特征，可以利用word2vec和glove对词粒度无监督进行词嵌入(wordembedding)，训练速度比较快，但是不能解决一词多义的问题；也可以利用BERT对句子粒度进行有监督或者无监督进行编码，训练比较慢但是效果提升明显。

语音特征，常见是首先提取loudness,pitch,Mel-spectra,MFCC等特征，再送进双向LSTM网络进行训练，再提取双向LSTM的中间层作为语音特征。

S2根据文本特征及语音特征，构建改进的DialogueRNN网络，

将文本、语音等原始特征送进Global GRU提取上下文信息并得到更好的特征表示g_t；

再通过Attention机制得到Context Vector(c_t)。

c_t和g_t拼接(concatenate)后和Speaker上一时刻的Party State(P_s,t-1)得到t时刻的Party State(P_s,t)。

将g_t和每个Listener之前说的语句利用Attention机制得到c_i,t，c_i,t和g_t拼接(concatenate)后和Listener上一时刻的Party State(P_Li,t-1)得到t时刻的Party State(P_Li,t)。将每个人前t时刻的Emotion State通过Attention机制后和Party State(p_i,t)送进Emotion GRU得到每个人第t时刻的Emotion State(e_i,t)。选择Speaker的Emotion State送进DNN网络进行分类。

本发明的改进的情绪识别模型，包括搭建基础DialogueRNN网络，具体是：

①Global GRU和Attention机制得到Context Vector；

②Party GRU得到Speaker的Party State，该Party State与情绪分类有关；

③Emotion GRU通过上一时刻的Emotion State和此时的Speaker Party State决定此时刻的Emotion State，最后将Emotion State(Emotion GRU’s hidden state)通过DNN网络进行分类。

本发明的情绪识别模型在基础网络的基础上，引入Listener的Party State和不同人的Emotion State，得到改进后的DialogueRNN网络；

其中：

Listener的Party State(Party GRU’s hidden state)，其数学公式如下：

c_t,i＝α[g_1,i,g_2,i,...,g_k,i]^T

其中，g_t代表第t时刻Global GRU的输出，

引入不同人的Emotion State，其数学公式如下：

α_i＝softmax(A^T[e_0,i,e_1,i,...,e_t-1,i])

改进后的DialogueRNN网络架构如图1所示，本实施例中，对改进后的DialogueRNN网络进行训练，具体为：对改进后的DialogueRNN网络进行初始化，改进后的DialogueRNN网络的输入为步骤S1中提取的特征，输出为情绪状态，接着按梯度下降法训练改进后的DialogueRNN网络，得到最终的DialogueRNN模型，用于情绪识别。

本发明通过上一时刻的Emotion State(Emotion GRU’s hidden state)和此时Speaker的Party State决定此时刻的Emotion State，最后Emotion State通过DNN网络输出情绪类别。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。