CN101930735B

CN101930735B - 语音情感识别设备和进行语音情感识别的方法

Info

Publication number: CN101930735B
Application number: CN2009101504584A
Authority: CN
Inventors: 王彬; 郭庆; 陆应亮; 李鹏
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2009-06-23
Filing date: 2009-06-23
Publication date: 2012-11-21
Anticipated expiration: 2029-06-23
Also published as: CN101930735A

Abstract

语音情感识别设备和进行语音情感识别的方法。语音情感识别设备包含：分析装置，其将输入语音的情感特征与多个情感模型进行匹配，以确定多个可能情感状态；概率计算装置，其根据从关于说话人说话过程中情感状态之间的转换的条件概率知识中寻找到的、已确定的情感状态和可能情感状态间的条件概率，计算在说话人先前情感状态的条件下所述可能情感状态的最终概率；和情感判断装置，其从所述可能情感状态中选择最终概率最大的可能情感状态作为所述输入语音的情感状态，其中分析装置进一步被配置为输出可能情感状态的出现概率，并且概率计算装置被进一步配置为结合出现概率来计算最终概率；以及其中最终概率基于出现概率和条件概率的加权和。

Description

语音情感识别设备和进行语音情感识别的方法

技术领域

本发明涉及语音识别技术。更具体地说，本发明涉及语音情感识别设备和方法。

背景技术

近年来，情感在人类的感知、决策等过程扮演着重要角色。长期以来，情感智能研究只存在于心理学和认知科学领域。近年来随着人工智能的发展，情感智能跟计算机技术结合产生了情感计算这一研究课题。这将大大地促进计算机技术的发展。情感自动识别是通向情感计算的第一步。语音作为人类最重要的交流媒介，携带着丰富的情感信息。如何从语音中自动识别说话者的情感状态近年来受到各领域研究者的广泛关注。

语音情感识别首先要解决的问题是情感状态的划分。已知有两种情感状态划分方法，即呈连续分布的情感状态和呈离散分布的情感状态。将人类情感划分为多个离散状态的方法由于其简化了情感模型，计算也较为简单，目前为止大多数研究采用的是这种方法。

关于情感的划分目前大多数研究者比较认可的基本情感为害怕，愤怒，悲伤，高兴，惊讶和厌恶。这种划分方法也在MPEG4标准中得到了应用。

在语音情感识别中，评价一段语音的情感首先要选取能够表现语音情感的特征。其次是根据所提取的特征为每一类情感进行建模。

已有技术中使用较多的特征主要是语音的韵律信息和频谱信息。韵律信息主要包括音高，语速和能量以及停顿；频谱信息目前用的最广泛的是Mel频率倒谱系数(MFCC)。线性预测系数(LPC)、共振峰及其相关特征也有部分应用。

在Schuller B，Rigoll G，Lang M.的“Hidden Markov model-based speech emotion recognition[C]”，Proceedings of the 2003 IEEE International Conference on Acoustics，Speech，&Signal Processing，Hong Kong，2003：401-404中，公开了一种基于隐马尔科夫模型(HMM)的情感识别方法，其中首先对输入语音进行分帧和特征提取。Schuller B等人认为韵律特征和频谱信息均能反映语音的情感，但频谱信息受音素影响较大，更容易被语句内容所影响，不利于建立语种无关的情感识别系统，因此采用了韵律特征。在全局韵律特征和时序短时韵律特征选取方面，由于全局韵律特征容易受到语义的影响，比如疑问句和陈述句相比，前者的基频偏差(pitch derivation)要远大于后者。考虑到上述因素，最终采用了时序的韵律特征。

在确定特征的基础上，采用HMM方法为每种情感建立模型，然后对输入语音进行识别。

在发明人为赵力等、名称为“一种基于支持向量机的语音情感识别方法”的中国专利申请CN200610097301.6中，以基音频率轨迹、振幅、共振峰频率轨迹为特征，并采用了性别规整对说话人性别的差异进行处理，最后为每一种情感训练一个支持向量机(SVM)模型，通过SVM模型对输入语音计算其情感。

在发明人为Valery A.Petrushin、名称为“System，method and article of manufacture for an emotion detection system”的美国专利US09/387,037中，首先对语音的基频，能量，语速，共振峰及其带宽等特征进行性能测试，通过一种特征选择算法筛选出对情感识别影响较大的特征集，共选出了12种与基频，语速，能量，共振峰，共振峰带宽相关的特征。然后对输入语音提取以上特征，与数据库中预存的每种情感的特征相比较，距离最近的情感模板可认为是输入语音的情感状态。

然而，除了根据训练出的模型进行情感识别之外，还需要利用其它信息来提高识别准确度。

发明内容

本发明的至少一个目的在于提供一种语音情感识别设备和方法，其能够至少克服上述现有技术的部分缺点和不足，以提高语音情感识别的准确度。

本发明的一个实施例是一种语音情感识别设备，包括：分析装置，其将输入语音的情感特征与多个情感模型进行匹配，以确定多个可能情感状态；概率计算装置，其根据从关于说话人说话过程中情感状态之间的转换的条件概率知识中寻找到的、已确定的情感状态和可能情感状态间的条件概率，计算在说话人先前情感状态的条件下所述可能情感状态的最终概率；和情感判断装置，其从所述可能情感状态中选择最终概率最大的可能情感状态作为所述输入语音的情感状态。在语音情感识别设备中，分析装置可以进一步被配置为输出所述可能情感状态的出现概率，并且概率计算装置可以被进一步配置为结合出现概率来计算最终概率。进一步地，最终概率基于所述出现概率和条件概率的加权和。

在语音情感识别设备中，条件概率知识可以包括说话人在连续说话过程中相邻两句和/或三句话的情感状态之间转换的条件概率知识。

在语音情感识别设备中，语音情感识别设备还可以包括情感缓存装置，用于以先入先出方式存储预定数目的来自情感判断装置的情感判断结果。

在语音情感识别设备中，在说话人先前情感状态不存在的情况下可以忽略相应条件概率。

在语音情感识别设备中，情感模型可以基于从包括SVM、HMM、高斯混合模型(GMM)、神经网络、距离分类器以及其组合的组中选择的方法。

本发明的另一个实施例是一种进行语音情感识别的方法，包括：将输入语音的情感特征与多个情感模型进行匹配，以确定多个可能情感状态；根据从关于说话人说话过程中情感状态之间的转换的条件概率知识中寻找到的、已确定的情感状态和可能情感状态间的条件概率，计算在说话人先前情感状态的条件下所述可能情感状态的最终概率；和从所述可能情感状态中选择最终概率最大的可能情感状态作为所述输入语音的情感状态。在该方法中，多个可能情感状态的确定可以包括输出可能情感状态的出现概率，并且最终概率的计算可以包括结合出现概率来计算最终概率。进一步地，最终概率可以基于出现概率和条件概率的加权和。

在该方法中，条件概率知识可以包括说话人在连续说话过程中相邻两句和/或三句话的情感状态之间转换的条件概率知识。

该方法还可以包括以先入先出方式存储预定数目的情感判断结果。

在该方法中，在说话人先前情感状态不存在的情况下可以忽略相应条件概率。

在该方法中，情感模型可以基于从包括SVM、HMM、GMM、神经网络、距离分类器以及其组合的组中选择的方法。

根据本发明的实施例，能够基于同一说话人前后情感变化的统计知识，来提高语音情感识别的准确度。

附图说明

参照下面结合附图对本发明实施例的说明，会更加容易地理解本发明的以上和其它目的、特点和优点。在附图中，相同的或对应的技术特征或部件将采用相同或对应的附图标记来表示。

图1是示出根据本发明一个实施例的语音情感识别设备的结构的框图。

图2是示出根据本发明实施例的进行语音情感识别的方法的流程图。

图3是示出根据本发明实施例的分析装置的结构的框图。

图4是示出根据本发明实施例的分析步骤的流程图。

图5的框图示出了根据本发明一个实施例的、用于生成情感状态间转换的条件概率知识的设备的结构。

图6是示出实现本发明实施例的计算机的示例性结构的框图。

具体实施方式

下面参照附图来说明本发明的实施例。应当注意，为了清楚的目的，附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。

发明人通过观察认识到，在一段对话过程中，同一说话人的情感(即，情感状态)在一定时间内基本上是稳定的，情感大起大落的情况很少发生。比如上一句话的情感如果是高兴，那么本句话的情感是愤怒的概率就低于是高兴或中性情感的概率。同样，一个人在所说的连续三句话中，情感变化较大的组合，比如愤怒-高兴-愤怒的可能性也很小，因为大部分人的情感转化都需要一个渐变的过程。因此，不同情感之间互相转换的可能性也有了差别。发明人相应认识到，可以通过大量的对话语料来统计不同情感之间互相转换的概率。这种情感转换概率信息对于判断当前语句的情感状态很有帮助。

下面将结合附图详细说明本发明的具体实施方式。

图1是示出根据本发明一个实施例的语音情感识别设备100的结构的框图。

如图1所示，语音情感识别设备100包括分析装置101、概率计算装置102和情感判断装置103。

分析装置101将输入语音的情感特征与多个情感模型进行匹配，以确定多个可能情感状态。

输入语音可以是说话人所说的一段语音中的一句语音。在对话环境中，可以通过语音特征来筛选出同一说话人的语音作为输入。例如，用户将一段客户与接线员的一段对话语音的其中一句客户语音作为输入。

可通过已知技术来获得输入语音的情感特征、训练情感模型和进行情感特征与情感模型的匹配。下面将根据图3就特征提取、情感模型生成和情感特征与情感模型的匹配进行举例说明。然而应当明白，可采用的方法并不限于所示的例子。

图3是示出根据本发明实施例的分析装置101的结构的框图。

如图3所示，分析装置101包括预处理装置301、特征提取装置302和分类装置304。

预处理装置301对输入语音进行预处理，其中首先对输入的语音段进行端点检测，以确定有效音段的开始和结束位置，从而把只包含背景噪声以及奇异噪声的部分去除。目前实现端点检测这一技术有很多方法，并且在本领域内都是众所周知的技术，比如利用过零率检测，能量检测等进行端点分析。

特征提取装置302对经过预处理的输入语音进行特征提取。语音情感特征的提取目前主要采用韵律和频谱信息，而两种特征的提取一般来说都要在更小的时间单位上进行。因而对语音段进行加窗分帧处理。为了使帧与帧之间平滑过渡，保持其连续性，一般采用交叠分段的方法。用可移动的有限长度窗口进行加权，就是用一定的窗函数w(n)来乘语音信号s(n)，从而形成加窗语音信号s_w(n)＝s(n)*w(n)。在语音信号数字处理中一般采用汉明窗(Hamming window)作为窗函数，这方面很多文献都有详细论述。在对语音进行加窗分帧处理后，原语音被分割成在时域上连续的有重叠的语音帧序列。随后在每一帧上进行特征提取。

语音中能够反应情感信息的重要特征有很多，其中基频、语速、能量、频谱信息在相关领域中得到了普遍采用，人们对它们在不同情感下的作用基本上有了相同的认识。在一个例子中，分类器可基于使用SVM。SVM分类器对特征维数有着固定的要求，因此在特征提取方面采用全局的韵律信息，也称为超音段信息。在该例子中，总共提取18种特征：

(1)基频(pitch)方面：基频平均值、标准差、变化范围、极值、取得极值的时间点、基频差分的极值、中值、最后一音节的基频衰减速度；

(2)语速方面：元音时长的平均值及标准差；

(3)能量方面：能量的标准差，能量差分的平均值、标准差、最大值及取得最大值的时间点。

基频的提取是韵律特征的基础。在该例子中，采用了P.Boersm的“Accurate short-term analysis of the fundamental frequency and theharmonics-to-noise ratio of a sampled sound”，Proceedings of theInstitute of Phonetics Sciences，17，pp.97-110，1993中描述的基频提取算法为每一语音帧估算基频。由于采用此方法提取基频后仍有奇异基频点存在，即小数量的连续帧的基频值远高于或远低于相邻帧，因此对PaulBoersma的算法做了平滑后处理。一般来说，正常发音时一个音节的基频持续时间应大于6帧(帧长10-20ms)，因此，持续时间低于6帧的连续非零基频点可认为是噪声，直接做赋0处理。这样可以去除掉基频点中的奇异点，使基频曲线更加光滑。

在提取出每一帧的基频之后，基频均值、标准差、变化范围、极值、取得极值的时间点能够容易计算。基频差分为当前帧与上一帧的基频差值。已知声学参数随时间的变化曲线也承载了一定的情感信息，例如，在Paeschke A，Sendlmeier W F.的“Prosodic characteristics of emotionalspeech：measurements of fundamental frequency movements[A]”，Proc ofISCA Workshop on speech and emotion[C].Northern Ireland：Textflow，2000.75-80中提到，愤怒与高兴相比，基频曲线在句末的下倾更为剧烈。因此，把最后一音节的基频衰减速度也纳入了特征集当中。其计算方式为：最后一音节的最高基频点与该音节最末非零基频点的差值除以两个基频点所对应的时间点差值。

在能量的提取方面，一般来说，采用信号采样值平方表征的短时能量对高电平信号非常敏感。因此，相关领域中多数采用短时平均幅度函数来表征一帧信号的能量大小：

M_{n} = Σ_{m = 0}^{N - 1} | x_{n} (m) |,

其中，M_n表示第n帧信号的能量，x_n(m)表示第n帧语音信号，N表示帧长。

在上述例子中，在所有特征提取完毕之后，每一输入语音段可被表示为一个18维的特征向量。

图3中还示出了情感模型库304，其包含多个情感模型。可以根据收集的语料来训练出各个情感模型。例如，语料可以由大量的客户与接线员之间的实际对话组成。可以对语料进行切分和情感标注，将对话过程中情感状态为高兴、愤怒、着急、惊奇、中性的语句切分并加以标记，并去除情感状态或语句受损的句子。最终形成一个具备相当数量的富有各种情感并且表现良好的情感语音训练库。

继续前面的SVM分类器的例子，可根据已经标注好的情感语音训练库，首先将属于同一类情感的语句归到一起，再经过与上述预处理和特征提取相同的处理，提取出能够代表该类情感的特征向量作为训练数据，为每一类情感训练一个模型。具体的SVM训练过程由于是已知的，这里就不再具体说明。

这里采用了5种情感类别的划分方法，分别是高兴，愤怒，着急，惊奇，中性。当然情感的划分还有更多的方法，比如有人划分为正面，负面，中性三种情感或更加详细的划分。本模块为每一类情感训练一个SVM模型(即，情感模型)，该模型能够对输入的语音特征向量是否属于本情感做出一个概率估计。

分类器(即，情感模型)所基于的方法不限于SVM。实际上，情感模型可基于从包括SVM、HMM、GMM、神经网络、距离分类器以及其组合的组中选择的方法。

经过特征提取之后，输入语音段可被表示为一个18维的特征向量X。分类装置303将该特征向量与训练出的5种SVM情感模型svm_i(x)， i＝1，2，3，4，5进行匹配计算。每一个SVM情感模型都会计算出该特征向量属于本情感模型的概率值p(e_t＝i)＝svm_i(x)。由于SVM模型的使用是本领域非常普遍，其计算方法在很多文献都有详细描述(例如可参考Chih-chungChang和Chih-Jen Lin的“LIBSVM：a Library for Support VectorMachines”，2001(http://www.csie.ntu.edu.tw/～cjlin/libsvm/)，这里不再详细描述。

对于一个输入语音段，其与每个情感模型的匹配可得到一个关于该输入语音段属于相应情感状态的概率(出现概率)。可以将所有得到非零概率的相应情感状态作为可能情感状态。或者，也可以设定一个大于零的阈值，并且将所有概率超过(或等于)阈值的相应情感状态作为可能情感状态。

回到图1，概率计算装置102根据说话人说话过程中情感状态之间的转换的条件概率知识，计算在说话人先前情感状态的条件下可能情感状态的最终概率。

在一段对话过程中，同一个人的情感在短时间内一般来说是稳定的。比如上一句话的情感如果是高兴，那么本句话的情感是愤怒的概率就低于是高兴或中性情感的概率。同样，一个人在所说的连续三句话中，情感变化较大的组合，比如愤怒-高兴-愤怒的可能性也很小，因为大部分人的情感转化都需要一个渐变的过程。因此，不同情感之间互相转换的可能性也有了差别。可以通过大量的对话来统计不同情感之间互相转换的概率，以得到说话人说话过程中情感状态之间的转换的条件概率知识。

图5的框图示出了根据本发明一个实施例的、用于生成情感状态间转换的条件概率知识的设备500的结构。

如图5所示，设备500包括语音情感标注装置501和情感转换概率统计装置502。

情感语音数据库503包含说话人所说的语料。情感语音标注模块501对情感语音数据库中所有语音段逐句进行人工切分，并对切分出的语句进行情感标注。所进行的标注还可以包括有关说话人的标注，以便确定不同语句是否属于同一说话人，以及有关段落的标注，以区分不同语句是否属于同一说话过程。

情感转换概率统计装置502对经过语音情感标注装置501标注的语料(即，语音情感数据库503)进行统计，以获得条件概率知识504。

一般而言，可以将条件概率知识视为在存在前面N-1个语句的情感状态的情况下，相继的第N个语句的情感状态的概率。具体计算方法如下。

假设有M种情感状态i∈{e₁，e₂，...e_i，...e_M}，则定义

(1)前一语句情感状态为i，当前语句情感状态为j的概率(二元(Bi-gram)训练模型)为：

P_{bi} (e_{t} = j | e_{t - 1} = i) = \frac{C (e_{t - 1} = i, e_{t} = j)}{C (e_{t - 1} = i)},

其中C(e_t-1＝i)表示情感语音训练库中情感状态为i的语句出现的次数，C(e_t-1＝i，e_t＝j)表示情感语音训练库中同一段说话过程中同一说话人连续两句话的情感状态分别为i和j的情况的出现次数。

(2)前两句话的情感状态分别为i，j，当前语句情感状态为k的概率(三元(Tri-gram)训练模型)为：

P_{tri} (e_{t} = k | e_{t - 2} = i, e_{t - 1} = j) = \frac{C (e_{t - 2} = i, e_{t - 1} = j, e_{t} = k)}{C (e_{t - 2} = i, e_{t - 1} = j)},

其中C(e_t-2＝i，e_t-1＝j)表示情感语音训练库中同一段说话过程中同一说话人连续两句话的情感状态分别为i和j的情况的出现次数，C(e_t-2＝i，e_t-1＝j，e_t＝k)表示情感语音训练库中同一段说话过程中同一说话人连续三句话的情感状态分别为i，j和k的情况的出现次数。

类似地，可以得到前两句话的情感状态分别为i₁，i₂，...，i_N-1，当前语句情感状态为i_N的概率(N元(N-gram)训练模型)为：

P_{N} (e_{t} = i_{N} | e_{t - N + 1} = i_{1}, e_{t - N + 2} = i_{2}, . . ., e_{t - 1} = i_{N - 1}) = \frac{C (e_{t - N + 1} = i_{1}, e_{t - N + 2} = i_{2}, . . ., e_{t - 1} = i_{N - 1}, e_{t} = i_{N})}{C (e_{t - N + 1} = i_{1}, e_{t - N + 2} = i_{2}, . . ., e_{t - 1} = i_{N - 1})}

其中C(e_t-N+1＝i₁，e_t-N+2＝i₂，...，e_t-1＝i_N-1)表示情感语音训练库中同一段说话过程中同一说话人连续N-1句话的情感状态分别为i₁，i₂，...，i_N-1的情况的出现次数，C(e_t-N+1＝i₁，e_t-N+2＝i₂，...，e_t-1＝i_N-1，e_t＝i_N)表示情感语音训练库中同一段说话过程中同一说话人连续N句话的情感状态分别为i₁，i₂，...，i_N-1和i_N的情况的出现次数。

值得注意的是，分析装置_101计算出的p_i可看作一元(Uni-gram)训练模型，即P_uni(e_t＝i)＝p_i＝svm_i(x)，i＝1，2，3，4，5。

情感转换概率统计装置502可以根据上述方法来统计出条件概率知识504。

条件概率知识504可以只包含基于一种训练模型的条件概率，也可以包含基于不同种训练模型的条件概率。在一段说话过程中，当前语句情感状态受前面两句话的情感影响最大，而受更前面的语句的情感状态影响较小。因此，条件概率知识504优选包含基于三元训练模型的条件概率、基于二元训练模型的条件概率或其组合。也就是说，条件概率知识优选包括说话人在连续说话过程中相邻两句和/或三句话的情感状态之间转换的条件概率知识。

回到图1，对于当前语句，概率计算装置102得到之前同一说话过程、同一说话人的若干语句(数目取决于所采用的训练模型)的已确定的情感状态，并且结合分析装置101确定的每个可能情感状态，从条件概率知识104中寻找已确定的情感状态和可能情感状态间的条件概率。

概率计算装置102可以直接将所得到的条件概率作为相应可能情感状态的最终概率，也可以在分析装置101确定的可能情感状态的出现概率之间的差在预定范围内的情况下，将所得到的条件概率作为相应可能情感状态的最终概率。

优选地，分析装置101可以向概率计算装置102提供可能情感状态的出现概率，并且情感判断装置被进一步配置为结合所述出现概率来计算所述最终概率。

例如，概率计算装置102可以简单地将出现概率和条件概率相加以得到最终概率。

优选地，最终概率可以基于出现概率和条件概率的加权和。

例如，在采用二元和三元训练模型的情况下，当前语句的每个可能情感状态的最终概率可计算为：

P(e_t＝i)＝α·P_uni(e_t＝i)+β·P_bi(e_t＝i|e_t-1)+γ·P_tri(e_t＝i|e_t-1，e_t-2) (1)

其中，α+β+γ＝1。权重α，β和γ的值可通过对样本库的训练获得，也可根据经验指定。一般来说从声学特征上对情感的判断占的比重应大于情感转换概率模型的比重，因此α的值应大于β，γ的值，譬如α＝0.6，β＝0.2，γ＝0.2，该计算公式中α·P_uni(e_t＝i)体现了从声学特征上对当前情感的判断，而β·P_bi(e_t＝i|e_t-1)和γ·P_tri(e_t＝i|e_t-1，e_t-2)则体现了从情感转换概率模型上对情感的估计。

在语音情感识别设备初始工作时，可能存在说话人先前情感状态不存在的情况下，例如在采用二元训练模型的情况下，当前识别第一个语句的情感状态。在这样的情况下，可以忽略相应条件概率(例如设为0)。

例如，如果当前输入语句为整个对话过程中的第一句或第二句，则计算公式(1)可分别简化为

P(e_t＝i)＝α·P_uni(e_t＝i) (2)

P(e_t＝i)＝α·P_uni(e_t＝i)+β·P_bi(e_t＝i|e_t-1) (3)

情感判断装置103从分析装置101所确定的可能情感状态中选择最终概率最大的可能情感状态作为输入语音的情感状态。例如，可判定使P(e_t＝i)最大，即

e_{t} = \arg \max_{i = 1}^{M} P (e_{t} = i)

的i值作为输入语音的情感状态。

在语音情感识别设备100中可以设置情感缓存装置，用来存储已经识别的每个输入语音的情感状态，以便由概率计算装置102访问。优选地，情感缓存装置以先入先出方式存储预定数目(取决于所采用的训练模型的最大元数)的来自情感判断装置103的情感判断结果。

如图2所示，方法从步骤201开始。在步骤203，将输入语音的情感特征与多个情感模型进行匹配，以确定多个可能情感状态。

输入语音可以是说话人所说的一段语音中的一句语音。在对话环境中，可以通过语音特征来筛选出同一说话人的语音作为输入。

可通过已知技术来获得输入语音的情感特征、训练情感模型和进行情感特征与情感模型的匹配。

图4是示出根据本发明实施例的分析步骤的流程图。

如图4所示，分析步骤从步骤401开始。在步骤403，对输入语音进行预处理，其中首先对输入的语音段进行端点检测，以确定有效音段的开始和结束位置，从而把只包含背景噪声以及奇异噪声的部分去除。

在步骤405，对经过预处理的输入语音进行特征提取。

在步骤407，根据提取的特征进行分类器(情感模型)训练，以得到情感模型库。

情感模型库包含多个情感模型。可以根据收集的语料来训练出各个情感模型。例如，语料可以由大量的客户与接线员之间的实际对话组成。可以对语料进行切分和情感标注，将对话过程中情感状态为高兴、愤怒、着急、惊奇、中性的语句切分并加以标记，并去除情感状态或语句受损的句子。最终形成一个具备相当数量的富有各种情感并且表现良好的情感语音训练库。

可根据已经标注好的情感语音训练库，首先将属于同一类情感的语句归到一起，再经过与上述预处理和特征提取相同的处理，提取出能够代表该类情感的特征向量作为训练数据，为每一类情感训练一个模型。

分析步骤在步骤409结束。

回到图2，对于一个输入语音段，其与每个情感模型的匹配可得到一个关于该输入语音段属于相应情感状态的概率(出现概率)。可以将所有得到非零概率的相应情感状态作为可能情感状态。或者，也可以设定一个大于零的阈值，并且将所有概率超过(或等于)阈值的相应情感状态作为可能情感状态。

在步骤205，根据说话人说话过程中情感状态之间的转换的条件概率知识，计算在说话人先前情感状态的条件下可能情感状态的最终概率。

前面结合图5描述了条件概率知识，这里不再重复说明。

对于当前语句，得到之前同一说话过程、同一说话人的若干语句(数目取决于所采用的训练模型)的已确定的情感状态，并且结合步骤203确定的每个可能情感状态，从条件概率知识中寻找已确定的情感状态和可能情感状态间的条件概率。

可以直接将所得到的条件概率作为相应可能情感状态的最终概率，也可以在步骤203确定的可能情感状态的出现概率之间的差在预定范围内的情况下，将所得到的条件概率作为相应可能情感状态的最终概率。

优选地，步骤203可以输出可能情感状态的出现概率，并且步骤205可以结合出现概率来计算最终概率。

例如，可以简单地将出现概率和条件概率相加以得到最终概率。

优选地，最终概率可以基于出现概率和条件概率的加权和，如前面结合公式(1)所述。

在步骤207，从步骤203所确定的可能情感状态中选择最终概率最大的可能情感状态作为输入语音的情感状态。例如，可判定使P(e_t＝i)最大，即

e_{t} = \arg \max_{i = 1}^{M} P (e_{t} = i)

的i值作为输入语音的情感状态。

方法在步骤209结束。

在图2所示的方法中，可以存储已经识别的每个输入语音的情感状态，以便在以后执行步骤205时访问。优选地，可以以先入先出方式存储预定数目(取决于所采用的训练模型的最大元数)的步骤207的情感判断结果。

虽然前面以SVM为例来说明本发明的实施例，然而HMM也适用于本发明。在采用HMM的情况下，情感模型基于HMM分类器，所提取的特征为时序频谱特征：Mel倒谱频率系数(MFCC)。MFCC参数的提取针对语音段的每帧进行，每帧语音信号可提取出39维的特征向量，包括12维基本MFCC参数和对数帧能量以及它们的一阶和二阶差分。这样输入语音段可被表示为个数为帧数的39维特征向量。

根据已经标注好的情感语音训练库，首先将属于同一类情感的语句归到一起，再经过与所述预处理模块和特征提取模块相同的处理，提取出能够代表该类情感的特征向量作为训练数据，为每一类情感训练一个模型。具体的HMM训练过程由于众多文献都有详细论述，这里就不再展开说明。本实施方式中采用了5种情感类别的划分方法，分别是高兴，愤怒，着急，惊奇，中性。当然情感的划分还有更多的方法，比如有人划分为正面，负面，中性三种情感或更加详细的划分。为每一类情感训练一个HMM模型，该模型能够对输入的语音特征向量与本情感模型的匹配程度做出一个概率估计。

经过特征提取之后，输入语音段可被表示为一个个数为帧数的39维特征向量X＝{x₁，x₂，...x_N}，N为该语音段的帧数。将该特征向量与所训练的5种HMM情感模型HMM_i(x)，i＝1，2，3，4，5进行解码计算，每一个HMM情感模型都会计算出该特征向量属于本情感模型的概率值p(e_t＝i)＝HMM_i(x)。由于HMM模型的使用在本领域非常普遍，其计算方法在很多文献都有详细描述(例如可参考L Rabiner.的“A tutorial onHMM and selected applications in speech recognition”，Proc.IEEE，1989，77(2)：257-286)，这里不再详细描述。

同样，通过与情感模型匹配而获得的出现概率p_i可看作一元(Uni-gram)训练模型，即

P_uni(e_t＝i)＝p_i＝HMM_i(x)，i＝1，2，3，4，5

在本发明的语音情感识别设备和方法中，基于同一说话人前后情感变化的统计知识，以及表征语音情感的韵律和频谱特征对一段对话过程中的语音进行情感识别。

另外，还应该指出的是，上述系列处理和装置即可以通过硬件实现，也可以通过软件和固件实现。在通过软件或固件实现的情况下，从存储介质或网络向具有专用硬件结构的计算机，例如图6所示的通用计算机600安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等等。

在图6中，中央处理单元(CPU)601根据只读存储器(ROM)602中存储的程序或从存储部分608加载到随机存取存储器(RAM)603的程序执行各种处理。在RAM 603中，也根据需要存储当CPU 601执行各种处理等等时所需的数据。

CPU 601、ROM 602和RAM 603经由总线604彼此连接。输入/输出接口605也连接到总线604。

下述部件连接到输入/输出接口605：输入部分606，包括键盘、鼠标等等；输出部分607，包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等等，和扬声器等等；存储部分608，包括硬盘等等；和通信部分609，包括网络接口卡比如LAN卡、调制解调器等等。通信部分609经由网络比如因特网执行通信处理。

根据需要，驱动器610也连接到输入/输出接口605。可拆卸介质611比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器610上，使得从中读出的计算机程序根据需要被安装到存储部分608中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质611安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图7所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质611。可拆卸介质611的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 602、存储部分608中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

还需要指出的是，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。

虽然已经详细说明了本发明及其优点，但是应当理解在不脱离由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。

Claims

1.一种语音情感识别设备，包括：

分析装置，其将输入语音的情感特征与多个情感模型进行匹配，以确定多个可能情感状态；

概率计算装置，其根据从关于说话人说话过程中情感状态之间的转换的条件概率知识中寻找到的、已确定的情感状态和所述可能情感状态间的条件概率，计算在说话人先前情感状态的条件下所述可能情感状态的最终概率；和

情感判断装置，其从所述可能情感状态中选择最终概率最大的可能情感状态作为所述输入语音的情感状态，

其中所述分析装置进一步被配置为输出所述可能情感状态的出现概率，并且所述概率计算装置被进一步配置为结合所述出现概率来计算所述最终概率；以及

其中所述最终概率基于所述出现概率和条件概率的加权和。

2.根据权利要求1所述的语音情感识别设备，其中所述条件概率知识包括说话人在连续说话过程中相邻两句和/或三句话的情感状态之间转换的条件概率知识。

3.根据权利要求1所述的语音情感识别设备，还包括情感缓存装置，用于以先入先出方式存储预定数目的来自情感判断装置的情感判断结果。

4.根据权利要求1所述的语音情感识别设备，其中在说话人先前情感状态不存在的情况下忽略相应条件概率。

5.根据权利要求1所述的语音情感识别设备，其中所述情感模型基于从包括SVM、HMM、GMM、神经网络、距离分类器以及其组合的组中选择的方法。

6.一种进行语音情感识别的方法，包括：

将输入语音的情感特征与多个情感模型进行匹配，以确定多个可能情感状态；

根据从关于说话人说话过程中情感状态之间的转换的条件概率知识中寻找到的、已确定的情感状态和所述可能情感状态间的条件概率，计算在说话人先前情感状态的条件下所述可能情感状态的最终概率；和

从所述可能情感状态中选择最终概率最大的可能情感状态作为所述输入语音的情感状态，

其中所述多个可能情感状态的确定包括输出所述可能情感状态的出现概率，并且所述最终概率的计算包括结合所述出现概率来计算所述最终概率；以及

其中所述最终概率基于所述出现概率和条件概率的加权和。

7.根据权利要求6所述的方法，其中所述条件概率知识包括说话人在连续说话过程中相邻两句和/或三句话的情感状态之间转换的条件概率知识。

8.根据权利要求6所述的方法，还包括以先入先出方式存储预定数目的情感判断结果。

9.根据权利要求6所述的方法，其中在说话人先前情感状态不存在的情况下忽略相应条件概率。

10.根据权利要求6所述的方法，其中所述情感模型基于从包括SVM、HMM、GMM、神经网络、距离分类器以及其组合的组中选择的方法。