CN105427869A

CN105427869A - 一种基于深度学习的会话情感自动分析方法

Info

Publication number: CN105427869A
Application number: CN201510731781.6A
Authority: CN
Inventors: 张晓东; 王厚峰
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2015-11-02
Filing date: 2015-11-02
Publication date: 2016-03-23

Abstract

本发明公开了一种基于深度学习的会话情感自动分析方法，属于自然语言处理、数据挖掘领域。本发明基于去噪自编码器学习语音和文本的表示，再通过深度学习方法将两种表示深度融合，得到高层的统一表示，基于融合后的高层表示再进行情感分析。利用本发明提供的技术方案，可以深度融合声学和文本两种特征，提高情感分类的准确率。

Description

一种基于深度学习的会话情感自动分析方法

技术领域

本发明属于自然语言处理、数据挖掘领域，具体涉及基于深度学习的语音会话中的情感分析方法。

背景技术

语音会话的情感分析是通过分析话语来判断会话人的情感状态，如高兴、满意、愤怒等。语音会话大量存在于实际领域，包括各种呼叫中心、人机交互系统等。会话情感自动分析有助于动态了解会话人的心理状态和情绪情感变化，有着广阔的应用前景。以呼叫中心为例，通过分析客服对话过程中会话人的情绪和情感变化，管理人员可以发现客户服务过程中服务员态度是否友好，客户是否有不满情绪，以尽早解决问题。

针对语音会话的情感分析，一般的做法是对一段话提取一系列声学特征，基于这些声学特征训练分类器。然而，只使用声学特征的问题在于无法考虑到话语的语义信息，而语义与情感是密切相关的。

近些年来，语言信息逐步受到重视。通常做法是使用自动语音识别(ASR)技术将语音转换为文本，然后从文本中提取一系列文本特征，再利用音学和文本二种特征进行会话的情感分析。基于声学和文本两种特征，目前主要有两种方法：一是先分别用两种特征训练两个独立的分类器，然后将两个独立分类器的结果再进行结合，得到最终结果。这种方法只对两种分类结果进行结合，忽视了特征之间的关联性。二是将两种特征直接合并，在合并的基础上再进行分类。然而，声学特征和文本特征的低层表示通常是非线性关系，这种直接合并难以捕获到两种特征之间的关联，而且合并后的维度可能非常大。本发明的主要目的是通过深度学习方法将声学特征和文本特征有机融合在一起，使彼此之间的关联通过一种新的表示形式统一表达出来，形成高层表示，作为分类器的输入，以此进行会话的情感分析。

发明内容

本发明提供一种语音会话中的情感分析方法，将语音会话中的声音特征与文本特征进行融合并得到高层的表示。

为了便于说明，首先引入如下几个概念：

情感分类：对会话人的情感状态进行分析，将话语划分到正确的情感类别中。根据实际需求的不同，可以定义不同的情感类别。

词向量：使用低维实数向量表示一个词的信息。与传统的稀疏表示相比，词向量没有维数灾难的问题。

自编码器(AE)^[1]：只有一层隐藏节点，输入和输出通常具有相同节点数的神经网络，可以学习到输入的压缩表示。

去噪自编码器(DAE)^[1]：随机地将自编码器的一些输入置零，迫使隐藏层单元发现更多鲁棒性好的特征。

多特征栈式去噪自编码器(MSDA)：基于去噪自编码器，可以在多种不同特征甚至不同类型特征组合上进行学习，得到融合后的高层表示。

本发明的目的是提供一种新的方法，通过深度学习将语音会话中的声学特征和文本特征融合在一起，得到一种高层的表示，用于语音会话的情感分析。所得到的高层表示并不是简单的组合，更不是直接的拼接，而是通过深度学习进行非线性变换得到的。

本发明的原理是：首先使用ASR将语音识别文本，然后分别提取声学特征和文本特征，接下来使用MSDA将两种特征深度融合，得到高层表示，最后基于该表示，使用分类器进行情感分类。

本发明对应的流程图如图1所示，详细技术方案如下：

A.将一通对话根据说话人转变和声音停顿分割为若干段语音，执行如下操作：

A1.识别说话人转换点的候选

A2.通过聚类确定说话人转换点

A3.将时长超过某一阈值的停顿切分

B.使用ASR技术将语音转换为文本

C.提取声学特征，执行如下操作：

C1.提取一段语音中每一帧的特征

C2.基于多个统计量得到一段语音的全局特征

D.提取文本特征，执行如下操作：

D1.基于大规模语料训练，学习到每个词的向量表示

D2.基于词向量计算口语会话中每段文本的表示

E.形成两种特征的融合表示并进行情感分类，执行如下操作：

E1.分别学习声学特征和文本特征的表示

E2.通过深度学习，再将两种表示进行深度融合，得到高层表示

E3.基于融合的高层表示训练分类器，对每段语音分类

利用本发明提供的技术方案，可以充分利用声学和文本两种特征，通过深度学习得到融合的高层表示，提高情感分类的准确率。

附图说明

图1为本发明流程示意图；

图2为本发明基于深度学习的两种特征融合框架。

具体实施方式

下面通过一个实例对本发明作说明。需要注意的是，公布实施例的目的在于帮助进一步理解本发明。在不脱离本发明及所附的权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施本例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

假定需要分析一通中文语音对话(如售后服务的语音对话)，判断其中是否存在不友好(负面情感)的话语，如果有，则标记出来。

首先需要将对话按照会话双方说话人的切换来切分。对话切分主要包括两步：识别说话人转换点和无监督聚类。这里将语音中所有字的边界作为转换点的候选，然后通过聚类将同一人连续所说的字合并，从而确定说话人的转换点，再按转换点将会话进行切分。为避免处理会话一方过长的连续话语，还会将针对切分后，话语时长超过某一阈值的静音在静音处再作切分。

在切分之后，使用ASR引擎将每段语音转换为文本。本例使用的ASR引擎包含5个部分：特征提取、声学模型、语言模型、词典、解码器。特征为40维的对数filter-banks^[2]。声学模型、语言模型和词典组合成一个加权有限状态传感器(weightedfinitestatetransducers，WFST)^[3]。

根据切分的结果提取每段语音的声学特征。一段语音被划分为若干帧，每帧时长25毫秒。本例中对每帧提取26个声学特征(包括12个MFCC、8个LSP、3个F0、2个Intensity和1个MZCR)以及每个特征的一阶导数，共计52个特征。然后使用19个统计量(包括4个Regression、6个Percentile、3个Moment和6个Extreme)计算一段语音的全局特征，这样每段语音的声学特征可表示为一个988维的向量。

基于语音转换后的文本，提取每段话语的文本特征。为了提取文本特征，先需要基于大规模语料进行训练，学习到词向量。词向量的学习可以直接使用开源工具Word2Vec，大规模语料可以使用中文Gigaword、维基百科和搜狗新闻语料等，也可以使用其他大规模语料。词向量维度可以根据情况设置，例如设置为200维。对每段话语的文本s，首先进行分词，将每个词对应到预先训练得到的词向量上。文本s的特征则为，该段文本包含的词所对应的词向量的平均值，即

F (s) = \underset{w_{i} &Element; s}{Σ} E M B (w_{i}) / | s |

其中F(s)表示s的文本特征，EMB(w_i)表示s中词w_i的词向量，|s|表示s中词的个数。

最后，基于本发明提出的MSDA模型，学习将声音和文本两种特征融合的高层表示，进行情感分类。MSDA的结构如图2所示。MSDA的基本构成单元是DAE。声学特征和文本特征输入到MSDA后，各自通过DAE学习到相应的表示。这两种特征的表示合并(串接)后，继续通过深层学习，得到融合的高层表示，该表示作为分类器的输入最终得到情感类别。MSDA的训练过程包括两步：首先是无指导的预训练，使用无标注数据从下往上依次训练。然后使用有标注数据做有指导的微调。分类结果的计算可以使用深度神经网中常用的Softmax方法(也可以使用其他方法)。针对训练数据中不同的情感类别数量不平衡的问题，在损失函数中可以针对不同的类别设置不同的权重因子。预测时选择Softmax给出的最大概率类别作为预测的情感类别。

参考文献：

[1]P.Vincent,H.Larochelle,I.Lajoie,Y.Bengio,andP.A.Manzagol.2010.Stackeddenoisingautoencoders:Learningusefulrepresentationsinadeepnetworkwithalocaldenoisingcriterion.TheJournalofMachineLearningResearch,11,3371-3408.

[2]L.Deng,J.Li,J.T.Huang,K.Yao,D.Yu,F.Seide,M.L.Seltzer,G.Zweig,X.He,J.Williams,Y.Gong,andA.Acero.2013.RecentadvancesindeeplearningforspeechresearchatMicrosoft.ICASSP,pages8604-8608.

[3]C.Allauzen,M.Mohri,M.Riley,andB.Roark.2004.Ageneralizedconstructionofintegratedspeechrecognitiontransducers.ICASSP,volume1,pages761-764.

Claims

1.一种会话情感自动分析方法，具体包括如下步骤：

A.将一通对话根据说话人转变和声音停顿分割为若干段语音；

B.使用ASR技术将语音转换为文本；

C.提取声学特征，执行如下操作：

C1.提取一段语音中每一帧的特征；

C2.基于多个统计量得到一段语音的全局特征；

D.提取文本特征，执行如下操作：

D1.基于大规模语料训练，学习到每个词的向量表示；

D2.基于词向量计算口语会话中每段文本的表示；

E1.分别学习声学特征和文本特征的表示；

E2.通过深度学习，再将两种表示进行深度融合，得到高层表示；

E3.基于融合的高层表示训练分类器，对每段语音分类。

2.如权利要求1所述的会话情感自动分析方法，其特征在于，步骤A具体执行如下操作：

A1.识别说话人转换点的候选；

A2.通过聚类确定说话人转换点；

A3.将时长超过某一阈值的停顿切分。

3.如权利要求1所述的会话情感自动分析方法，其特征在于，步骤B中ASR引擎包含：特征提取、声学模型、语言模型、词典、解码器。

4.如权利要求1所述的会话情感自动分析方法，其特征在于，步骤D中文本特征为该段文本包含的词所对应的词向量的平均值，即

F (s) = \underset{w_{i} &Element; s}{Σ} E M B (w_{i}) / | s |

5.如权利要求1所述的会话情感自动分析方法，其特征在于，步骤E中使用MSDA将两种特征深度融合，得到高层表示。

6.如权利要求5所述的会话情感自动分析方法，其特征在于，MSDA的过程包括：首先是无指导的预训练，使用无标注数据从下往上依次训练，然后使用有标注数据做有指导的微调。