CN111460143A - 一种多人对话系统的情绪识别模型 - Google Patents
一种多人对话系统的情绪识别模型 Download PDFInfo
- Publication number
- CN111460143A CN111460143A CN202010164874.6A CN202010164874A CN111460143A CN 111460143 A CN111460143 A CN 111460143A CN 202010164874 A CN202010164874 A CN 202010164874A CN 111460143 A CN111460143 A CN 111460143A
- Authority
- CN
- China
- Prior art keywords
- state
- emotion
- dialoguernn
- network
- party
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 29
- 230000008451 emotion Effects 0.000 claims description 37
- 230000006870 function Effects 0.000 claims description 8
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000000034 method Methods 0.000 claims description 4
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000000306 recurrent effect Effects 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 241000288105 Grus Species 0.000 description 5
- 230000002457 bidirectional effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000003999 initiator Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明公开了一种多人对话系统的情绪识别模型,包括S1提取数据集中的特征,所述特征包括文本特征及语音特征;S2根据文本特征及语音特征,构建改进的DialogueRNN网络;S3训练改进的DialogueRNN网络,得到最终的声学模型即情绪识别模型。本发明在考虑模型对现实多人对话场景的建模能力、对上下文信息提取能力及模型的大小等方面的因素下,通过引入Listener的Party State和不同人的Emotion State,提高了DialogueRNN情绪识别模型的性能。
Description
技术领域
本发明属于情绪识别领域,特别涉及一种多人对话系统的情绪识别模型
背景技术
对话系统中的情感识别是许多应用程序的必要步骤,包括聊天记录中的主题挖掘,社交媒体线索,在实时对话中了解消费者反馈等方面。多人对话系统中的情绪识别,上下文信息起到非常重要的作用,利用循环神经网络(Recurrent Neural Network,RNN)可以很好地提取上下文信息,循环神经网络是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neural network)。
对循环神经网络的研究始于二十世纪80-90年代,并在二十一世纪初发展为深度学习(deep learning)算法之一,其中双向循环神经网络(Bidirectional RNN,Bi-RNN)和长短期记忆网络(Long Short-Term Memory networks,LSTM)是常见的的循环神经网络。
一般是情绪识别系统分成几个步骤,第一是特征的提取,包括文本,语音,视频等特征,第二是特征的融合,第三是对场景进行建模。
在多人对话系统中,现有的基于RNN的情绪识别模型DialogueRNN可以比较好地刻画现实对话的场景,但跟实际情况也存在一些出入,并不能比较好地模拟实际场景,从这方面来说,基于RNN的多人对话系统中的情绪识别模型DialogueRNN性能有待进一步地提升。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种多人对话系统的情绪识别模型。本发明在考虑模型建模能力、对上下文信息提取能力及模型的大小等方面的因素下,通过引入Listener的Party State和不同人的Emotion State,对现实场景更好地建模,从而提高情绪识别系统整体性能。
本发明的目的通过以下的技术方案实现:
一种多人对话系统的情绪识别模型,包括:
S1提取数据集中的特征,所述特征包括文本特征及语音特征;
S2根据文本特征及语音特征,构建改进的DialogueRNN网络;
S3训练改进的DialogueRNN网络,得到最终的声学模型即情绪识别模型。
所述改进的DialogueRNN网络是在基础的DialogueRNN网络中引入Listener的Party State和不同人的Emotion State,得到改进后的DialogueRNN网络。
所述S2根据文本特征及语音特征,构建改进的DialogueRNN网络,具体为:
将当前时刻的文本特征及语音特征输入Global GRU提取上下文信息的特征gt;
上下文信息的特征(g1g2...gt-1)通过Attention机制得到Context Vector(ct);
将Context Vector(ct)和gt拼接后和Speaker上一时刻的Party State(Ps,t-1)通过Party GRU得到t时刻的Party State(Ps,t);
上下文信息的特征gt和每个listener在前n个时刻说的语句信息利用Attention机制得到ci,t;
将ci,t和gt拼接后和Listener上一时刻的Party State(PLi,t-1)得到t时刻的PartyState(PLi,t),
将每个人前t时刻的Emotion State通过Attention机制后和Party State(pi,t)送进Emotion GRU得到每个人第t时刻的Emotion State(ei,t);
选择Speaker的Emotion State送进DNN网络进行分类,得到改进的DialogueRNN网络。
所述listener的Party state,其计算公式如下:
ct,i=α[g1,i,g2,i,...,gk,i]T
其中,gt代表第t时刻Global GRU的输出,代表gt在第t时刻影响第i个Listener的Party State,g1,i代表第i个Listener的第一句话,g2,i代表第i个Listener的第二句话,其他依次类推,Wα是一个矩阵,softmax函数将向量转化成概率。
引入不同人的Emotion State,其数学公式如下:
αi=softmax(AT[e0,i,e1,i,...,et-1,i])
其中,gt代表第t时刻Global GRU的输出,et,i是第t时刻第i个人的EmotionState,是gt在t时刻影响第i个人的Party State,A是一个向量,softmax函数将向量转化成概率。
本发明采用梯度下降法训练改进后的DialogueRNN网络。
所述Attention机制中采用多种函数获取加权值。
本发明与现有技术相比,具有如下优点和有益效果:
1、根据实际场景,Speaker的话语会对Listener产生一定的影响,引入Listener的Party State,其中Listener Party GRU共享参数,根据Speaker在此时刻t的ut与每个Listener之前说的话的相关程度影响Listener在t时刻的Party State,因此引入Listener的Party State可以对实际场景更好地建模。
2、根据实际场景,Speaker的Emotion State跟Speaker之前的Emotion State有更直接的关系因此引入不同人的Emotion State可以对实际场景更好地建模。
3、本发明综合考虑模型大小、计算复杂度和DialogueRNN本身对实际场景的有效建模,最终相比于原始的DialogueRNN,使得模型在MELD数据集上取得一定的性能提升。
附图说明
图1是本发明一种改进的多人对话系统的情绪识别模型的结构框图;1-引入的Listener的Party State子模型;2-本发明中引入的不同人的Emotion State的子模型。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
如图1所示,一种多人对话系统的情绪识别模型,包括三种GRU,分别为Global GRU(GRUG)、Party GRU(GRUp)、Emotion GRU(GRUε),其中GRUp有两种Speaker Party GRU(GRUPS)和Listener Party GRU(GRUPL)。Global GRU旨在提取上下文信息,Party GRU旨在提取在场的人在对话中的状态,这个状态是与情感有关的,比如说话的音调,内容等。Emotion GRU旨在储存之前情绪的状态。
具体过程为:
S1提取数据集中的特征,所述特征包括文本特征及语音特征。
文本特征,可以利用word2vec和glove对词粒度无监督进行词嵌入(wordembedding),训练速度比较快,但是不能解决一词多义的问题;也可以利用BERT对句子粒度进行有监督或者无监督进行编码,训练比较慢但是效果提升明显。
语音特征,常见是首先提取loudness,pitch,Mel-spectra,MFCC等特征,再送进双向LSTM网络进行训练,再提取双向LSTM的中间层作为语音特征。
S2根据文本特征及语音特征,构建改进的DialogueRNN网络,
将文本、语音等原始特征送进Global GRU提取上下文信息并得到更好的特征表示gt;
再通过Attention机制得到Context Vector(ct)。
ct和gt拼接(concatenate)后和Speaker上一时刻的Party State(Ps,t-1)得到t时刻的Party State(Ps,t)。
将gt和每个Listener之前说的语句利用Attention机制得到ci,t,ci,t和gt拼接(concatenate)后和Listener上一时刻的Party State(PLi,t-1)得到t时刻的Party State(PLi,t)。将每个人前t时刻的Emotion State通过Attention机制后和Party State(pi,t)送进Emotion GRU得到每个人第t时刻的Emotion State(ei,t)。选择Speaker的Emotion State送进DNN网络进行分类。
本发明的改进的情绪识别模型,包括搭建基础DialogueRNN网络,具体是:
①Global GRU和Attention机制得到Context Vector;
②Party GRU得到Speaker的Party State,该Party State与情绪分类有关;
③Emotion GRU通过上一时刻的Emotion State和此时的Speaker Party State决定此时刻的Emotion State,最后将Emotion State(Emotion GRU’s hidden state)通过DNN网络进行分类。
本发明的情绪识别模型在基础网络的基础上,引入Listener的Party State和不同人的Emotion State,得到改进后的DialogueRNN网络;
其中:
Listener的Party State(Party GRU’s hidden state),其数学公式如下:
ct,i=α[g1,i,g2,i,...,gk,i]T
其中,gt代表第t时刻Global GRU的输出,代表gt在第t时刻影响第i个Listener的Party State,g1,i代表第i个Listener的第一句话,g2,i代表第i个Listener的第二句话,其他依次类推,Wα是一个矩阵,softmax函数将向量转化成概率。
引入不同人的Emotion State,其数学公式如下:
αi=softmax(AT[e0,i,e1,i,...,et-1,i])
其中,gt代表第t时刻Global GRU的输出,et,i是第t时刻第i个人的EmotionState,是gt在t时刻影响第i个人的Party State,A是一个向量,softmax函数将向量转化成概率。
S3训练改进的DialogueRNN网络,得到最终的声学模型即情绪识别模型。
改进后的DialogueRNN网络架构如图1所示,本实施例中,对改进后的DialogueRNN网络进行训练,具体为:对改进后的DialogueRNN网络进行初始化,改进后的DialogueRNN网络的输入为步骤S1中提取的特征,输出为情绪状态,接着按梯度下降法训练改进后的DialogueRNN网络,得到最终的DialogueRNN模型,用于情绪识别。
本发明通过上一时刻的Emotion State(Emotion GRU’s hidden state)和此时Speaker的Party State决定此时刻的Emotion State,最后Emotion State通过DNN网络输出情绪类别。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (7)
1.一种多人对话系统的情绪识别模型,其特征在于,包括:
S1提取数据集中的特征,所述特征包括文本特征及语音特征;
S2根据文本特征及语音特征,构建改进的DialogueRNN网络;
S3训练改进的DialogueRNN网络,得到最终的声学模型即情绪识别模型。
2.根据权利要求1所述的情绪识别模型,其特征在于,所述改进的DialogueRNN网络是在基础的DialogueRNN网络中引入Listener的Party State和不同人的Emotion State,得到改进后的DialogueRNN网络。
3.根据权利要求1所述的情绪识别模型,其特征在于,所述S2根据文本特征及语音特征,构建改进的DialogueRNN网络,具体为:
将当前时刻的文本特征及语音特征输入Global GRU提取上下文信息的特征gt;
上下文信息的特征(g1g2...gt-1)通过Attention机制得到Context Vector(ct);
将Context Vector(ct)和gt拼接后和Speaker上一时刻的Party State(Ps,t-1)通过Party GRU得到t时刻的Party State(Ps,t);
上下文信息的特征gt和每个listener在前n个时刻说的语句信息利用Attention机制得到ci,t;
将ci,t和gt拼接后和Listener上一时刻的Party State(PLi,t-1)得到t时刻的PartyState(PLi,t),
将每个人前t时刻的Emotion State通过Attention机制后和Party State(pi,t)送进Emotion GRU得到每个人第t时刻的Emotion State(ei,t);
选择Speaker的Emotion State送进DNN网络进行分类,得到改进的DialogueRNN网络。
6.根据权利要求1所述的情绪识别方法,其特征在于,所述采用梯度下降法训练改进后的DialogueRNN网络。
7.根据权利要求3所述的情绪识别方法,其特征在于,所述Attention机制中采用多种函数获取加权值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010164874.6A CN111460143A (zh) | 2020-03-11 | 2020-03-11 | 一种多人对话系统的情绪识别模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010164874.6A CN111460143A (zh) | 2020-03-11 | 2020-03-11 | 一种多人对话系统的情绪识别模型 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111460143A true CN111460143A (zh) | 2020-07-28 |
Family
ID=71682789
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010164874.6A Pending CN111460143A (zh) | 2020-03-11 | 2020-03-11 | 一种多人对话系统的情绪识别模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111460143A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113297366A (zh) * | 2021-06-22 | 2021-08-24 | 中国平安人寿保险股份有限公司 | 多轮对话的情绪识别模型训练方法、装置、设备及介质 |
CN113326373A (zh) * | 2021-05-19 | 2021-08-31 | 武汉大学 | 一种融合会话场景信息的微信群聊天记录识别方法及系统 |
CN113571097A (zh) * | 2021-09-28 | 2021-10-29 | 之江实验室 | 一种说话人自适应的多视角对话情感识别方法及系统 |
CN115329779A (zh) * | 2022-08-10 | 2022-11-11 | 天津大学 | 一种多人对话情感识别方法 |
CN115658908A (zh) * | 2022-12-29 | 2023-01-31 | 华南理工大学 | 一种基于对话交互过程的大五人格感知方法及其系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299267A (zh) * | 2018-10-16 | 2019-02-01 | 山西大学 | 一种文本对话的情绪识别与预测方法 |
-
2020
- 2020-03-11 CN CN202010164874.6A patent/CN111460143A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299267A (zh) * | 2018-10-16 | 2019-02-01 | 山西大学 | 一种文本对话的情绪识别与预测方法 |
Non-Patent Citations (1)
Title |
---|
NAVONIL MAJUMDER等: "DialogueRNN: An Attentive RNN for Emotion Detection in Conversations" * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113326373A (zh) * | 2021-05-19 | 2021-08-31 | 武汉大学 | 一种融合会话场景信息的微信群聊天记录识别方法及系统 |
CN113326373B (zh) * | 2021-05-19 | 2022-08-05 | 武汉大学 | 一种融合会话场景信息的微信群聊天记录识别方法及系统 |
CN113297366A (zh) * | 2021-06-22 | 2021-08-24 | 中国平安人寿保险股份有限公司 | 多轮对话的情绪识别模型训练方法、装置、设备及介质 |
CN113297366B (zh) * | 2021-06-22 | 2023-05-30 | 中国平安人寿保险股份有限公司 | 多轮对话的情绪识别模型训练方法、装置、设备及介质 |
CN113571097A (zh) * | 2021-09-28 | 2021-10-29 | 之江实验室 | 一种说话人自适应的多视角对话情感识别方法及系统 |
CN115329779A (zh) * | 2022-08-10 | 2022-11-11 | 天津大学 | 一种多人对话情感识别方法 |
CN115329779B (zh) * | 2022-08-10 | 2023-10-13 | 天津大学 | 一种多人对话情感识别方法 |
CN115658908A (zh) * | 2022-12-29 | 2023-01-31 | 华南理工大学 | 一种基于对话交互过程的大五人格感知方法及其系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021143326A1 (zh) | 语音识别方法、装置、设备和存储介质 | |
US11837216B2 (en) | Speech recognition using unspoken text and speech synthesis | |
CN111460143A (zh) | 一种多人对话系统的情绪识别模型 | |
Zeng et al. | Effective combination of DenseNet and BiLSTM for keyword spotting | |
CN107545903B (zh) | 一种基于深度学习的语音转换方法 | |
Agarwalla et al. | Machine learning based sample extraction for automatic speech recognition using dialectal Assamese speech | |
WO2017076211A1 (zh) | 基于语音的角色分离方法及装置 | |
CN110223714B (zh) | 一种基于语音的情绪识别方法 | |
CN111312245B (zh) | 一种语音应答方法、装置和存储介质 | |
Razak et al. | Comparison between fuzzy and nn method for speech emotion recognition | |
CN109299267B (zh) | 一种文本对话的情绪识别与预测方法 | |
CN109119072A (zh) | 基于dnn-hmm的民航陆空通话声学模型构建方法 | |
CN109065033A (zh) | 一种基于随机深度时延神经网络模型的自动语音识别方法 | |
CN111460132B (zh) | 一种基于图卷积神经网络的生成式会议摘要方法 | |
CN111009235A (zh) | 一种基于cldnn+ctc声学模型的语音识别方法 | |
CN111081219A (zh) | 一种端到端的语音意图识别方法 | |
CN115393933A (zh) | 一种基于帧注意力机制的视频人脸情绪识别方法 | |
US20230317059A1 (en) | Alignment Prediction to Inject Text into Automatic Speech Recognition Training | |
CN111009236A (zh) | 一种基于dblstm+ctc声学模型的语音识别方法 | |
Zhang et al. | A multilingual framework based on pre-training model for speech emotion recognition | |
CN109887498A (zh) | 高速公路口礼貌用语评分方法 | |
Pap et al. | Artificial intelligence voice assistant implementation possibilities in interactive toy for preschool age children | |
Dumitru et al. | Vowel, Digit and Continuous Speech Recognition Based on Statistical, Neural and Hybrid Modelling by Using ASRS_RL | |
US20230017892A1 (en) | Injecting Text in Self-Supervised Speech Pre-training | |
Kalita et al. | Use of Bidirectional Long Short Term Memory in Spoken Word Detection with reference to the Assamese language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200728 |