CN103578480A

CN103578480A - 负面情绪检测中的基于上下文修正的语音情感识别方法

Info

Publication number: CN103578480A
Application number: CN201210256326.1A
Authority: CN
Inventors: 赵力; 刘汝杰; 黄程韦; 魏昕; 包永强; 余华; 阴法明
Original assignee: Southeast University; Fujitsu Ltd
Current assignee: Southeast University; Fujitsu Ltd
Priority date: 2012-07-24
Filing date: 2012-07-24
Publication date: 2014-02-12
Anticipated expiration: 2032-07-24
Also published as: CN103578480B

Abstract

本发明公开了一种负面情绪检测中的基于上下文修正的语音情感识别方法，属于语音信号处理领域。本发明首先采集情感数据，并对其中的每一条语音进行特征提取，并且运用主分量分析的降维技术降低特征的维数，而后采用基于高斯混合模型的两类分类器分别对四类情感进行判别，得到当前时刻的情感矢量，最后根据前一时刻的情感矢量和当前的认知作业成绩来修正当前时刻的情感矢量，从而得到最终的语音情感识别结果。本发明可以有效的提高单纯采用高斯混合分类器的语音情感识别方法的识别性能，有效地检测认知过程相关的负面情绪状态。特别是在航天航海等特殊工作环境下，对检测和调节工作人员的负面情绪具有重要的应用价值。

Description

负面情绪检测中的基于上下文修正的语音情感识别方法

技术领域

本发明涉及负面情绪检测中的基于上下文修正的语音情感识别方法，属于语音信号处理领域。

背景技术

认知作业中的负面情绪的检测具有重要的实际意义，特别是在航天航海等长时间的、高强度的工作环境中，对工作人员的负面情绪的及时检测和调控非常重要。烦躁、疲劳、迟疑和自信等与情绪有关的心理状态对认知过程有密切的影响，是评估人员的心理状态和认知作业水平的一个重要因素。

认知心理学的研究表明，负面情绪对认知能力有影响。已有报道表明，负面情绪会影响到对视觉目标的识别能力。一个自动识别人类情感的系统会在很多领域发挥重大的作用，例如，在车载系统中可以帮助驾驶员调节烦躁情绪从而避免事故；在公共场所的监视系统中，对恐惧等极端情绪的检测，可以帮助识别潜在的危险情况。

语音是反映和表达情绪的一种重要的方式。通过对语音中包含的情感信息进行识别可以有效地检测出特定对象的负面情绪。目前用于负面情绪检测中的语音情感识别方法是基于各个时刻单个状态的。在实际条件下情感语音是连续的，前一个状态的情感对后续状态的检测能够提供有用的信息。利用这样的上下文信息可以提高系统的性能。因此，如何利用上下文关联信息来进行语音情感识别，从而进行负面情绪的检测，十分重要。而目前，还未出现这样的方法。

发明内容

本发明提出了一种负面情绪检测中的基于上下文修正的语音情感识别方法，对检测和调节工作人员的负面情绪具有重要的应用价值。

本发明为解决其技术问题采用如下技术方案：

负面情绪检测中的基于上下文修正的语音情感识别方法，其特征在于包括以下步骤：

（1）采集情感数据，对每一段采集到的语音数据标注其情感，包括烦躁、疲劳、迟疑和自信；

（2）对于采集到的每一条语音，提取372个特征，然后采用主分量分析技术将特征矢量的维数降到10--30。

（3）利用高斯混合模型（GMM）分类器对每一类情感进行训练和识别：这里选用的是将结果分为两类的GMM分类器，即，待识别的一类情感用一个GMM来表达，所有其他情感类型用另一个GMM来表达；如果通过两类GMM分类器判定结果为，该情感出现，则输出为1，否则为0。如果对于烦躁、疲劳、迟疑和自信这四种情感，对应的两类分类器的输出都为0，则认为当前情感语句为中性情感。这一步得到的是当前情感分类器的输出；四种情感分类器的输出组成一个情感矢量：

，

此处

代表连续情感语音中的识别序列顺序，

、

、代表烦躁、疲劳、迟疑和自信四种与情感有关的心理状态。

（4）结合上下文来最终确定当前的情感状态：根据前一个情感状态的识别结果和当前的认知作业成绩来修正上一步得到的当前情感分类器的输出，从而判定出最终的情感类别。

在所述的负面情绪检测中的基于上下文修正的语音情感识别方法中，所述的372维特征包括：基音和基音一阶差分的最大值、最小值、均值、标准差、范围；嗓音的嘶喊声、粗燥声；第一到第四共振峰及其一阶差分的最大值、最小值、均值、方差、范围；短时能量及其一阶差分的最大值、最小值、均值、方差和范围；一到十三阶美尔频率倒谱系数（MFCC）及其一阶差分的最大值、最小值、均值、方差和范围；一到十八阶巴赫频带能量的最大值、最小值、均值、方差和范围。

在所述的负面情绪检测中的基于上下文修正的语音情感识别方法中，所述的结合上下文来最终确定当前情感状态的过程如下：

设前一个时刻的情感状态

，将相邻的情感状态

和认知作业成绩

一起组成一个扩展的情感矢量：

通过选择情感码本中最接近的情感矢量对分类器的判决输出进行修正，即，

在扩展的情感矢量中包含了前一个状态的判决结果和当前的认知作业成绩，有72种可能的码字。当上式中的最大相关值对应不止一个情感码字时，我们通过训练集得到的经验概率挑选最可能出现的情感码字：

，其中 j 代表上式中最大相关值对应的码字。

本发明的有益效果如下：

1、本发明中所采用的基于上下文的修正方法进行连续语音中情感识别结果的修正。对前一个情感状态、当前的认知作业水平和当前的情感检测结果三个因素，进行了经验概率模型的统计，从而对错判进行了预测和纠正，可以有效的提高单纯采用高斯混合分类器的语音情感识别方法的识别性能。

2、本发明能够有效地检测认知过程相关的负面情绪状态。特别是在航天航海等特殊工作环境下，对检测和调节工作人员的负面情绪具有重要的应用价值。此外，可以将本发明的方法推广到对于认知相关的其它实用情感状态的检测中，获得更广阔的应用空间和价值。

附图说明

图1为本发明的方法流程图。

图2为负面情感和错误率之间的关系示意图。

图3为基于经验概率的情感矢量译码图。

图4为修正前后的分类器判决输出图。

具体实施方式

下面结合附图对本发明创造做进一步详细说明。

图1为本发明的方法流程图，具体过程如下：

（1）采集情感数据

在诱发实验中，一名男性被试进行数学口算测试，以模拟认知工作环境。在实验中，被试将题目和计算结果进行口头汇报，并进行录音。噪声刺激通过佩戴的耳机进行播放，睡眠剥夺用于辅助诱发负面情感，如烦躁、疲倦等。对于实验中对于简单的口算题目，被试容易做出自信的回答，对于较难的计算，被试的口头汇报中出现明显的迟疑，在实验的后半段，经过长时间的工作，被试更容易产生疲劳和烦躁的情绪。

口算测试结束后，对每一题的正确与错误进行了记录和统计。对每一段录制的语音进行被试的自我评价，每一条语句被标注了目标情感，包括烦躁、疲劳、迟疑和自信。

对于认知作业中出现错误的情况进行分析，得到了三种负面情感（烦躁、疲劳、迟疑）和一种正面情感（自信）和错误率之间的关系，如图2所示。

（2）提取声学特征

对于采集到的每一条语音，提取372个特征，如表1所示。之所以提取这些特征是因为它们受音位因素的影响较小，提取完成后采用主分量分析（PCA）技术将特征矢量的维数降到10--30。

表1

（3）利用高斯混合模型分类器进行情感的训练和识别

基于高斯混合模型（GMM）的分类算法在语种识别和说话人识别中获得了成功的应用，本发明中我们采用了GMM分类器来进行语音情感识别。GMM模型可以定义为:

（式1）

其中

为GMM中所有参数的集合， X 是一个D 维的随机向量，

,

为 M 个高斯分量; ,

是混合权重，其必须服从

。每个高斯分量是一个 D 维的高斯分布，该高斯分布的均值为

协方差矩阵为 :

（式2）

为当前观测时刻t的随机向量，

为第i个混合成分的均值，完整的GMM参数为:

。对GMM参数的估计（训练）通常可以通过期望最大（EM）算法获得。

对目标情感的识别，通过两类分类器来进行。每个目标情感用一个GMM来表达，所有其他情感类型用另一个GMM来表达。令

为第i个样本，

为GMM的参数。那么，GMM后验概率为:

（式3）

其中，为第i个样本关于GMM的似然概率，为GMM参数变量的先验概率，

为第i个样本的边缘概率，得到似然概率之后，基于GMM的分类判决过程为:

（式4）

其中是两类分类器的输出，如果通过上式判定该情感出现，则二值输出为1，否则为0。对于烦躁、疲劳、迟疑和自信这四种情感对应的两类分类器的输出都为0，则认为当前情感语句为中性情感。

（4）结合上下文来最终确定当前的情感状态

由于情感具有连续性，前一个时刻的情感状态可以用来推测当前的情感状态。而认知作业成绩，是通过被试当前的数学题口算结果的正确与否来得到的。成绩的上升或者下降，与当前的情绪状态有一定的联系。因此，这两个因素可以用来对上一步骤中判决出的当前的情感状态进行修正。也就是说，根据前一个情感状态的识别结果和当前的认知作业成绩来修正上一步骤中得到的当前情感分类器的输出，从而判定出最终的情感类别四种情感分类器的输出可以组成一个情感矢量：

（式5）

此处

代表连续情感语音中的识别序列顺序，

、

、

代表烦躁、疲劳、迟疑和自信四种与情感有关的心理状态。考虑到前一个时刻的情感状态，可以将相邻的情感状态和认知作业成绩一起组成一个扩展的情感矢量：

（式6）

如图2所示，情感在二维的唤醒度-效价度空间中是一个连续的变量。烦躁和自信位于唤醒维度的正向区域，迟疑和疲劳在负向区域。自信位于效价维度的正向区域，其它三种情感位于负向区域。因而规定当前时刻的情感矢量不可能既包含负面情感又包含正面情感。例如，烦躁和自信不能同时出现，而迟疑和疲劳可以同时出现在一个情感矢量中。通过选择情感码本中最接近的情感矢量可以对分类器的判决输出进行修正。

（式7）

表2中是各情感矢量在扩展之前的可能的取值。“+1” 代表对应情感的出现。

表2

在扩展的情感矢量中包含了前一个状态的判决结果和当前的认知作业成绩，有72种可能的码字。当（式7）中的最大相关值对应不止一个情感码字时，我们通过训练集得到的经验概率挑选最可能出现的情感码字如图3所示。

（式8）

其中 j 代表（式7）中最大相关值对应的码字。

性能评价

将语音情感数据分成三个数据集，进行轮换测试和训练。每个数据集包含1000个样本。平均识别结果如表3所示。基于GMM的分类器对烦躁和自信的平均识别率达到70%以上。通过纠错算法后平均识别率提高了4个百分点以上。说明基于上下文的情感状态信息在连续语音的情感识别中具有重要的作用。

表3

图4中为分类器的部分输出结果。其中+1 代表口算回答正确，-1 代表口算回答错误。由于自信情感的出现，和认知作业成绩的上升，对疲劳的错误识别得到了纠正。由于迟疑情感的出现，和口算回答的错误，对自信的错误检测也获得了纠正。

本发明请求保护的范围并不仅仅局限于本具体实施方式的描述。

Claims

1.一种负面情绪检测中的基于上下文修正的语音情感识别方法，其特征在于，包括以下步骤：

（2）对于采集到的每一条语音，提取372个特征，然后采用主分量分析技术将特征矢量的维数降到10--30；

（3）利用高斯混合模型分类器对每一类情感进行训练和识别：这里选用的是将结果分为两类的GMM分类器，即，待识别的一类情感用一个GMM来表达，所有其他情感类型用另一个GMM来表达；如果通过两类GMM分类器判定结果为，该情感出现，则输出为1，否则为0；如果对于烦躁、疲劳、迟疑和自信这四种情感，对应的两类分类器的输出都为0，则认为当前情感语句为中性情感；这一步得到的是当前情感分类器的输出；四种情感分类器的输出组成一个情感矢量：

，

此处

代表连续情感语音中的识别序列顺序，

、

、

代表烦躁、疲劳、迟疑和自信四种与情感有关的心理状态；

2.根据权利要求1所述的负面情绪检测中的基于上下文修正的语音情感识别方法，其特征在于，所述的步骤（2）中的372维特征包括：基音和基音一阶差分的最大值、最小值、均值、标准差、范围；嗓音的嘶喊声、粗燥声；第一到第四共振峰及其一阶差分的最大值、最小值、均值、方差、范围；短时能量及其一阶差分的最大值、最小值、均值、方差和范围；一到十三阶MFCC及其一阶差分的最大值、最小值、均值、方差和范围；一到十八阶巴赫频带能量的最大值、最小值、均值、方差和范围。

3.根据权利要求1所述的负面情绪检测中的基于上下文修正的语音情感识别方法，其特征在于，所述的步骤（4）中结合上下文来最终确定当前情感状态的过程如下：

设前一个时刻的情感状态，将相邻的情感状态

和认知作业成绩一起组成一个扩展的情感矢量：

通过选择情感码本

中最接近的情感矢量对分类器的判决输出进行修正，即，

在扩展的情感矢量中包含了前一个状态的判决结果和当前的认知作业成绩，有72种可能的码字；当上式中的最大相关值对应不止一个情感码字时，我们通过训练集得到的经验概率挑选最可能出现的情感码字：，其中 j 代表上式中最大相关值对应的码字。