CN111460143A - 一种多人对话系统的情绪识别模型 - Google Patents

一种多人对话系统的情绪识别模型 Download PDF

Info

Publication number
CN111460143A
CN111460143A CN202010164874.6A CN202010164874A CN111460143A CN 111460143 A CN111460143 A CN 111460143A CN 202010164874 A CN202010164874 A CN 202010164874A CN 111460143 A CN111460143 A CN 111460143A
Authority
CN
China
Prior art keywords
state
emotion
dialoguernn
network
party
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010164874.6A
Other languages
English (en)
Inventor
林小颖
徐向民
邢晓芬
殷瑞祥
郭锴凌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202010164874.6A priority Critical patent/CN111460143A/zh
Publication of CN111460143A publication Critical patent/CN111460143A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种多人对话系统的情绪识别模型,包括S1提取数据集中的特征,所述特征包括文本特征及语音特征;S2根据文本特征及语音特征,构建改进的DialogueRNN网络;S3训练改进的DialogueRNN网络,得到最终的声学模型即情绪识别模型。本发明在考虑模型对现实多人对话场景的建模能力、对上下文信息提取能力及模型的大小等方面的因素下,通过引入Listener的Party State和不同人的Emotion State,提高了DialogueRNN情绪识别模型的性能。

Description

一种多人对话系统的情绪识别模型
技术领域
本发明属于情绪识别领域,特别涉及一种多人对话系统的情绪识别模型
背景技术
对话系统中的情感识别是许多应用程序的必要步骤,包括聊天记录中的主题挖掘,社交媒体线索,在实时对话中了解消费者反馈等方面。多人对话系统中的情绪识别,上下文信息起到非常重要的作用,利用循环神经网络(Recurrent Neural Network,RNN)可以很好地提取上下文信息,循环神经网络是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neural network)。
对循环神经网络的研究始于二十世纪80-90年代,并在二十一世纪初发展为深度学习(deep learning)算法之一,其中双向循环神经网络(Bidirectional RNN,Bi-RNN)和长短期记忆网络(Long Short-Term Memory networks,LSTM)是常见的的循环神经网络。
一般是情绪识别系统分成几个步骤,第一是特征的提取,包括文本,语音,视频等特征,第二是特征的融合,第三是对场景进行建模。
在多人对话系统中,现有的基于RNN的情绪识别模型DialogueRNN可以比较好地刻画现实对话的场景,但跟实际情况也存在一些出入,并不能比较好地模拟实际场景,从这方面来说,基于RNN的多人对话系统中的情绪识别模型DialogueRNN性能有待进一步地提升。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种多人对话系统的情绪识别模型。本发明在考虑模型建模能力、对上下文信息提取能力及模型的大小等方面的因素下,通过引入Listener的Party State和不同人的Emotion State,对现实场景更好地建模,从而提高情绪识别系统整体性能。
本发明的目的通过以下的技术方案实现:
一种多人对话系统的情绪识别模型,包括:
S1提取数据集中的特征,所述特征包括文本特征及语音特征;
S2根据文本特征及语音特征,构建改进的DialogueRNN网络;
S3训练改进的DialogueRNN网络,得到最终的声学模型即情绪识别模型。
所述改进的DialogueRNN网络是在基础的DialogueRNN网络中引入Listener的Party State和不同人的Emotion State,得到改进后的DialogueRNN网络。
所述S2根据文本特征及语音特征,构建改进的DialogueRNN网络,具体为:
将当前时刻的文本特征及语音特征输入Global GRU提取上下文信息的特征gt
上下文信息的特征(g1g2...gt-1)通过Attention机制得到Context Vector(ct);
将Context Vector(ct)和gt拼接后和Speaker上一时刻的Party State(Ps,t-1)通过Party GRU得到t时刻的Party State(Ps,t);
上下文信息的特征gt和每个listener在前n个时刻说的语句信息利用Attention机制得到ci,t
将ci,t和gt拼接后和Listener上一时刻的Party State(PLi,t-1)得到t时刻的PartyState(PLi,t),
将每个人前t时刻的Emotion State通过Attention机制后和Party State(pi,t)送进Emotion GRU得到每个人第t时刻的Emotion State(ei,t);
选择Speaker的Emotion State送进DNN网络进行分类,得到改进的DialogueRNN网络。
所述listener的Party state,其计算公式如下:
Figure BDA0002407073750000021
Figure BDA0002407073750000022
Figure BDA0002407073750000023
ct,i=α[g1,i,g2,i,...,gk,i]T
其中,gt代表第t时刻Global GRU的输出,
Figure BDA0002407073750000024
代表gt在第t时刻影响第i个Listener的Party State,g1,i代表第i个Listener的第一句话,g2,i代表第i个Listener的第二句话,其他依次类推,Wα是一个矩阵,softmax函数将向量转化成概率。
引入不同人的Emotion State,其数学公式如下:
Figure BDA0002407073750000031
αi=softmax(AT[e0,i,e1,i,...,et-1,i])
Figure BDA0002407073750000032
其中,gt代表第t时刻Global GRU的输出,et,i是第t时刻第i个人的EmotionState,
Figure BDA0002407073750000033
是gt在t时刻影响第i个人的Party State,A是一个向量,softmax函数将向量转化成概率。
本发明采用梯度下降法训练改进后的DialogueRNN网络。
所述Attention机制中采用多种函数获取加权值。
本发明与现有技术相比,具有如下优点和有益效果:
1、根据实际场景,Speaker的话语会对Listener产生一定的影响,引入Listener的Party State,其中Listener Party GRU共享参数,根据Speaker在此时刻t的ut与每个Listener之前说的话的相关程度影响Listener在t时刻的Party State,因此引入Listener的Party State可以对实际场景更好地建模。
2、根据实际场景,Speaker的Emotion State跟Speaker之前的Emotion State有更直接的关系因此引入不同人的Emotion State可以对实际场景更好地建模。
3、本发明综合考虑模型大小、计算复杂度和DialogueRNN本身对实际场景的有效建模,最终相比于原始的DialogueRNN,使得模型在MELD数据集上取得一定的性能提升。
附图说明
图1是本发明一种改进的多人对话系统的情绪识别模型的结构框图;1-引入的Listener的Party State子模型;2-本发明中引入的不同人的Emotion State的子模型。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
如图1所示,一种多人对话系统的情绪识别模型,包括三种GRU,分别为Global GRU(GRUG)、Party GRU(GRUp)、Emotion GRU(GRUε),其中GRUp有两种Speaker Party GRU(GRUPS)和Listener Party GRU(GRUPL)。Global GRU旨在提取上下文信息,Party GRU旨在提取在场的人在对话中的状态,这个状态是与情感有关的,比如说话的音调,内容等。Emotion GRU旨在储存之前情绪的状态。
具体过程为:
S1提取数据集中的特征,所述特征包括文本特征及语音特征。
文本特征,可以利用word2vec和glove对词粒度无监督进行词嵌入(wordembedding),训练速度比较快,但是不能解决一词多义的问题;也可以利用BERT对句子粒度进行有监督或者无监督进行编码,训练比较慢但是效果提升明显。
语音特征,常见是首先提取loudness,pitch,Mel-spectra,MFCC等特征,再送进双向LSTM网络进行训练,再提取双向LSTM的中间层作为语音特征。
S2根据文本特征及语音特征,构建改进的DialogueRNN网络,
将文本、语音等原始特征送进Global GRU提取上下文信息并得到更好的特征表示gt
再通过Attention机制得到Context Vector(ct)。
ct和gt拼接(concatenate)后和Speaker上一时刻的Party State(Ps,t-1)得到t时刻的Party State(Ps,t)。
将gt和每个Listener之前说的语句利用Attention机制得到ci,t,ci,t和gt拼接(concatenate)后和Listener上一时刻的Party State(PLi,t-1)得到t时刻的Party State(PLi,t)。将每个人前t时刻的Emotion State通过Attention机制后和Party State(pi,t)送进Emotion GRU得到每个人第t时刻的Emotion State(ei,t)。选择Speaker的Emotion State送进DNN网络进行分类。
本发明的改进的情绪识别模型,包括搭建基础DialogueRNN网络,具体是:
①Global GRU和Attention机制得到Context Vector;
②Party GRU得到Speaker的Party State,该Party State与情绪分类有关;
③Emotion GRU通过上一时刻的Emotion State和此时的Speaker Party State决定此时刻的Emotion State,最后将Emotion State(Emotion GRU’s hidden state)通过DNN网络进行分类。
本发明的情绪识别模型在基础网络的基础上,引入Listener的Party State和不同人的Emotion State,得到改进后的DialogueRNN网络;
其中:
Listener的Party State(Party GRU’s hidden state),其数学公式如下:
Figure BDA0002407073750000051
Figure BDA0002407073750000052
Figure BDA0002407073750000053
ct,i=α[g1,i,g2,i,...,gk,i]T
其中,gt代表第t时刻Global GRU的输出,
Figure BDA0002407073750000054
代表gt在第t时刻影响第i个Listener的Party State,g1,i代表第i个Listener的第一句话,g2,i代表第i个Listener的第二句话,其他依次类推,Wα是一个矩阵,softmax函数将向量转化成概率。
引入不同人的Emotion State,其数学公式如下:
Figure BDA0002407073750000055
αi=softmax(AT[e0,i,e1,i,...,et-1,i])
Figure BDA0002407073750000056
其中,gt代表第t时刻Global GRU的输出,et,i是第t时刻第i个人的EmotionState,
Figure BDA0002407073750000057
是gt在t时刻影响第i个人的Party State,A是一个向量,softmax函数将向量转化成概率。
S3训练改进的DialogueRNN网络,得到最终的声学模型即情绪识别模型。
改进后的DialogueRNN网络架构如图1所示,本实施例中,对改进后的DialogueRNN网络进行训练,具体为:对改进后的DialogueRNN网络进行初始化,改进后的DialogueRNN网络的输入为步骤S1中提取的特征,输出为情绪状态,接着按梯度下降法训练改进后的DialogueRNN网络,得到最终的DialogueRNN模型,用于情绪识别。
本发明通过上一时刻的Emotion State(Emotion GRU’s hidden state)和此时Speaker的Party State决定此时刻的Emotion State,最后Emotion State通过DNN网络输出情绪类别。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (7)

1.一种多人对话系统的情绪识别模型,其特征在于,包括:
S1提取数据集中的特征,所述特征包括文本特征及语音特征;
S2根据文本特征及语音特征,构建改进的DialogueRNN网络;
S3训练改进的DialogueRNN网络,得到最终的声学模型即情绪识别模型。
2.根据权利要求1所述的情绪识别模型,其特征在于,所述改进的DialogueRNN网络是在基础的DialogueRNN网络中引入Listener的Party State和不同人的Emotion State,得到改进后的DialogueRNN网络。
3.根据权利要求1所述的情绪识别模型,其特征在于,所述S2根据文本特征及语音特征,构建改进的DialogueRNN网络,具体为:
将当前时刻的文本特征及语音特征输入Global GRU提取上下文信息的特征gt
上下文信息的特征(g1g2...gt-1)通过Attention机制得到Context Vector(ct);
将Context Vector(ct)和gt拼接后和Speaker上一时刻的Party State(Ps,t-1)通过Party GRU得到t时刻的Party State(Ps,t);
上下文信息的特征gt和每个listener在前n个时刻说的语句信息利用Attention机制得到ci,t
将ci,t和gt拼接后和Listener上一时刻的Party State(PLi,t-1)得到t时刻的PartyState(PLi,t),
将每个人前t时刻的Emotion State通过Attention机制后和Party State(pi,t)送进Emotion GRU得到每个人第t时刻的Emotion State(ei,t);
选择Speaker的Emotion State送进DNN网络进行分类,得到改进的DialogueRNN网络。
4.根据权利要求3所述的情绪识别模型,其特征在于,listener的Party state,其计算公式如下:
Figure FDA0002407073740000011
Figure FDA0002407073740000012
Figure FDA0002407073740000013
ct,i=α[g1,i,g2,i,...,gk,i]T
其中,gt代表第t时刻Global GRU的输出,
Figure FDA0002407073740000014
代表gt在第t时刻影响第i个Listener的Party State,g1,i代表第i个Listener的第一句话,g2,i代表第i个Listener的第二句话,其他依次类推,Wα是一个矩阵,softmax函数将向量转化成概率。
5.根据权利要求3所述的情绪识别模型,其特征在于,引入不同人的Emotion State,其数学公式如下:
Figure FDA0002407073740000021
αi=soft max(AT[e0,i,e1,i,...,et-1,i])
Figure FDA0002407073740000022
其中,gt代表第t时刻Global GRU的输出,et,i是第t时刻第i个人的Emotion State,
Figure FDA0002407073740000023
是gt在t时刻影响第i个人的Party State,A是一个向量,softmax函数将向量转化成概率。
6.根据权利要求1所述的情绪识别方法,其特征在于,所述采用梯度下降法训练改进后的DialogueRNN网络。
7.根据权利要求3所述的情绪识别方法,其特征在于,所述Attention机制中采用多种函数获取加权值。
CN202010164874.6A 2020-03-11 2020-03-11 一种多人对话系统的情绪识别模型 Pending CN111460143A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010164874.6A CN111460143A (zh) 2020-03-11 2020-03-11 一种多人对话系统的情绪识别模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010164874.6A CN111460143A (zh) 2020-03-11 2020-03-11 一种多人对话系统的情绪识别模型

Publications (1)

Publication Number Publication Date
CN111460143A true CN111460143A (zh) 2020-07-28

Family

ID=71682789

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010164874.6A Pending CN111460143A (zh) 2020-03-11 2020-03-11 一种多人对话系统的情绪识别模型

Country Status (1)

Country Link
CN (1) CN111460143A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113297366A (zh) * 2021-06-22 2021-08-24 中国平安人寿保险股份有限公司 多轮对话的情绪识别模型训练方法、装置、设备及介质
CN113326373A (zh) * 2021-05-19 2021-08-31 武汉大学 一种融合会话场景信息的微信群聊天记录识别方法及系统
CN113571097A (zh) * 2021-09-28 2021-10-29 之江实验室 一种说话人自适应的多视角对话情感识别方法及系统
CN115329779A (zh) * 2022-08-10 2022-11-11 天津大学 一种多人对话情感识别方法
CN115658908A (zh) * 2022-12-29 2023-01-31 华南理工大学 一种基于对话交互过程的大五人格感知方法及其系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299267A (zh) * 2018-10-16 2019-02-01 山西大学 一种文本对话的情绪识别与预测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299267A (zh) * 2018-10-16 2019-02-01 山西大学 一种文本对话的情绪识别与预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
NAVONIL MAJUMDER等: "DialogueRNN: An Attentive RNN for Emotion Detection in Conversations" *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113326373A (zh) * 2021-05-19 2021-08-31 武汉大学 一种融合会话场景信息的微信群聊天记录识别方法及系统
CN113326373B (zh) * 2021-05-19 2022-08-05 武汉大学 一种融合会话场景信息的微信群聊天记录识别方法及系统
CN113297366A (zh) * 2021-06-22 2021-08-24 中国平安人寿保险股份有限公司 多轮对话的情绪识别模型训练方法、装置、设备及介质
CN113297366B (zh) * 2021-06-22 2023-05-30 中国平安人寿保险股份有限公司 多轮对话的情绪识别模型训练方法、装置、设备及介质
CN113571097A (zh) * 2021-09-28 2021-10-29 之江实验室 一种说话人自适应的多视角对话情感识别方法及系统
CN115329779A (zh) * 2022-08-10 2022-11-11 天津大学 一种多人对话情感识别方法
CN115329779B (zh) * 2022-08-10 2023-10-13 天津大学 一种多人对话情感识别方法
CN115658908A (zh) * 2022-12-29 2023-01-31 华南理工大学 一种基于对话交互过程的大五人格感知方法及其系统

Similar Documents

Publication Publication Date Title
WO2021143326A1 (zh) 语音识别方法、装置、设备和存储介质
US11837216B2 (en) Speech recognition using unspoken text and speech synthesis
CN111460143A (zh) 一种多人对话系统的情绪识别模型
Zeng et al. Effective combination of DenseNet and BiLSTM for keyword spotting
CN107545903B (zh) 一种基于深度学习的语音转换方法
Agarwalla et al. Machine learning based sample extraction for automatic speech recognition using dialectal Assamese speech
WO2017076211A1 (zh) 基于语音的角色分离方法及装置
CN110223714B (zh) 一种基于语音的情绪识别方法
CN111312245B (zh) 一种语音应答方法、装置和存储介质
Razak et al. Comparison between fuzzy and nn method for speech emotion recognition
CN109299267B (zh) 一种文本对话的情绪识别与预测方法
CN109119072A (zh) 基于dnn-hmm的民航陆空通话声学模型构建方法
CN109065033A (zh) 一种基于随机深度时延神经网络模型的自动语音识别方法
CN111460132B (zh) 一种基于图卷积神经网络的生成式会议摘要方法
CN111009235A (zh) 一种基于cldnn+ctc声学模型的语音识别方法
CN111081219A (zh) 一种端到端的语音意图识别方法
CN115393933A (zh) 一种基于帧注意力机制的视频人脸情绪识别方法
US20230317059A1 (en) Alignment Prediction to Inject Text into Automatic Speech Recognition Training
CN111009236A (zh) 一种基于dblstm+ctc声学模型的语音识别方法
Zhang et al. A multilingual framework based on pre-training model for speech emotion recognition
CN109887498A (zh) 高速公路口礼貌用语评分方法
Pap et al. Artificial intelligence voice assistant implementation possibilities in interactive toy for preschool age children
Dumitru et al. Vowel, Digit and Continuous Speech Recognition Based on Statistical, Neural and Hybrid Modelling by Using ASRS_RL
US20230017892A1 (en) Injecting Text in Self-Supervised Speech Pre-training
Kalita et al. Use of Bidirectional Long Short Term Memory in Spoken Word Detection with reference to the Assamese language

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200728