CN103578480A - 负面情绪检测中的基于上下文修正的语音情感识别方法 - Google Patents
负面情绪检测中的基于上下文修正的语音情感识别方法 Download PDFInfo
- Publication number
- CN103578480A CN103578480A CN201210256326.1A CN201210256326A CN103578480A CN 103578480 A CN103578480 A CN 103578480A CN 201210256326 A CN201210256326 A CN 201210256326A CN 103578480 A CN103578480 A CN 103578480A
- Authority
- CN
- China
- Prior art keywords
- emotion
- negative
- voice
- vector
- current
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 119
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000001514 detection method Methods 0.000 title claims abstract description 23
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 20
- 239000013598 vector Substances 0.000 claims abstract description 24
- 239000000203 mixture Substances 0.000 claims abstract description 8
- 230000002996 emotional effect Effects 0.000 claims description 24
- 206010013954 Dysphoria Diseases 0.000 claims description 15
- 230000001149 cognitive effect Effects 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 8
- 238000000513 principal component analysis Methods 0.000 claims description 4
- 238000012986 modification Methods 0.000 claims description 3
- 230000004048 modification Effects 0.000 claims description 3
- 230000007935 neutral effect Effects 0.000 claims description 3
- IJJWOSAXNHWBPR-HUBLWGQQSA-N 5-[(3as,4s,6ar)-2-oxo-1,3,3a,4,6,6a-hexahydrothieno[3,4-d]imidazol-4-yl]-n-(6-hydrazinyl-6-oxohexyl)pentanamide Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)NCCCCCC(=O)NN)SC[C@@H]21 IJJWOSAXNHWBPR-HUBLWGQQSA-N 0.000 claims description 2
- 230000001755 vocal effect Effects 0.000 claims description 2
- 238000000605 extraction Methods 0.000 abstract description 2
- 238000012545 processing Methods 0.000 abstract description 2
- 206010016256 fatigue Diseases 0.000 description 12
- 238000012937 correction Methods 0.000 description 6
- 230000036992 cognitive tasks Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000019771 cognition Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000003931 cognitive performance Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006996 mental state Effects 0.000 description 2
- 208000010340 Sleep Deprivation Diseases 0.000 description 1
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 description 1
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 description 1
- 230000037007 arousal Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 230000003930 cognitive ability Effects 0.000 description 1
- 230000001544 dysphoric effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 208000016255 tiredness Diseases 0.000 description 1
- 230000003867 tiredness Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本发明公开了一种负面情绪检测中的基于上下文修正的语音情感识别方法,属于语音信号处理领域。本发明首先采集情感数据,并对其中的每一条语音进行特征提取,并且运用主分量分析的降维技术降低特征的维数,而后采用基于高斯混合模型的两类分类器分别对四类情感进行判别,得到当前时刻的情感矢量,最后根据前一时刻的情感矢量和当前的认知作业成绩来修正当前时刻的情感矢量,从而得到最终的语音情感识别结果。本发明可以有效的提高单纯采用高斯混合分类器的语音情感识别方法的识别性能,有效地检测认知过程相关的负面情绪状态。特别是在航天航海等特殊工作环境下,对检测和调节工作人员的负面情绪具有重要的应用价值。
Description
技术领域
本发明涉及负面情绪检测中的基于上下文修正的语音情感识别方法,属于语音信号处理领域。
背景技术
认知作业中的负面情绪的检测具有重要的实际意义,特别是在航天航海等长时间的、高强度的工作环境中,对工作人员的负面情绪的及时检测和调控非常重要。烦躁、疲劳、迟疑和自信等与情绪有关的心理状态对认知过程有密切的影响,是评估人员的心理状态和认知作业水平的一个重要因素。
认知心理学的研究表明,负面情绪对认知能力有影响。已有报道表明,负面情绪会影响到对视觉目标的识别能力。一个自动识别人类情感的系统会在很多领域发挥重大的作用,例如,在车载系统中可以帮助驾驶员调节烦躁情绪从而避免事故;在公共场所的监视系统中,对恐惧等极端情绪的检测,可以帮助识别潜在的危险情况。
语音是反映和表达情绪的一种重要的方式。通过对语音中包含的情感信息进行识别可以有效地检测出特定对象的负面情绪。目前用于负面情绪检测中的语音情感识别方法是基于各个时刻单个状态的。在实际条件下情感语音是连续的,前一个状态的情感对后续状态的检测能够提供有用的信息。利用这样的上下文信息可以提高系统的性能。因此,如何利用上下文关联信息来进行语音情感识别,从而进行负面情绪的检测,十分重要。而目前,还未出现这样的方法。
发明内容
本发明提出了一种负面情绪检测中的基于上下文修正的语音情感识别方法,对检测和调节工作人员的负面情绪具有重要的应用价值。
本发明为解决其技术问题采用如下技术方案:
负面情绪检测中的基于上下文修正的语音情感识别方法,其特征在于包括以下步骤:
(1)采集情感数据,对每一段采集到的语音数据标注其情感,包括烦躁、疲劳、迟疑和自信;
(2)对于采集到的每一条语音,提取372个特征,然后采用主分量分析技术将特征矢量的维数降到10--30。
(3)利用高斯混合模型(GMM)分类器对每一类情感进行训练和识别:这里选用的是将结果分为两类的GMM分类器,即,待识别的一类情感用一个GMM来表达,所有其他情感类型用另一个GMM来表达;如果通过两类GMM分类器判定结果为,该情感出现,则输出为1,否则为0。如果对于烦躁、疲劳、迟疑和自信这四种情感,对应的两类分类器的输出都为0,则认为当前情感语句为中性情感。这一步得到的是当前情感分类器的输出;四种情感分类器的输出组成一个情感矢量:
(4)结合上下文来最终确定当前的情感状态:根据前一个情感状态的识别结果和当前的认知作业成绩来修正上一步得到的当前情感分类器的输出,从而判定出最终的情感类别。
在所述的负面情绪检测中的基于上下文修正的语音情感识别方法中,所述的372维特征包括:基音和基音一阶差分的最大值、最小值、均值、标准差、范围;嗓音的嘶喊声、粗燥声;第一到第四共振峰及其一阶差分的最大值、最小值、均值、方差、范围;短时能量及其一阶差分的最大值、最小值、均值、方差和范围;一到十三阶美尔频率倒谱系数(MFCC)及其一阶差分的最大值、最小值、均值、方差和范围;一到十八阶巴赫频带能量的最大值、最小值、均值、方差和范围。
在所述的负面情绪检测中的基于上下文修正的语音情感识别方法中,所述的结合上下文来最终确定当前情感状态的过程如下:
通过选择情感码本中最接近的情感矢量对分类器的判决输出进行修正,即,
在扩展的情感矢量中包含了前一个状态的判决结果和当前的认知作业成绩,有72种可能的码字。 当上式中的最大相关值对应不止一个情感码字时,我们通过训练集得到的经验概率挑选最可能出现的情感码字:,其中 j 代表上式中最大相关值对应的码字。
本发明的有益效果如下:
1、本发明中所采用的基于上下文的修正方法进行连续语音中情感识别结果的修正。对前一个情感状态、当前的认知作业水平和当前的情感检测结果三个因素,进行了经验概率模型的统计,从而对错判进行了预测和纠正,可以有效的提高单纯采用高斯混合分类器的语音情感识别方法的识别性能。
2、本发明能够有效地检测认知过程相关的负面情绪状态。特别是在航天航海等特殊工作环境下,对检测和调节工作人员的负面情绪具有重要的应用价值。此外,可以将本发明的方法推广到对于认知相关的其它实用情感状态的检测中,获得更广阔的应用空间和价值。
附图说明
图1为本发明的方法流程图。
图2为负面情感和错误率之间的关系示意图。
图3为基于经验概率的情感矢量译码图。
图4为修正前后的分类器判决输出图。
具体实施方式
下面结合附图对本发明创造做进一步详细说明。
图1为本发明的方法流程图,具体过程如下:
(1)采集情感数据
在诱发实验中,一名男性被试进行数学口算测试,以模拟认知工作环境。在实验中,被试将题目和计算结果进行口头汇报,并进行录音。噪声刺激通过佩戴的耳机进行播放,睡眠剥夺用于辅助诱发负面情感,如烦躁、疲倦等。对于实验中对于简单的口算题目,被试容易做出自信的回答,对于较难的计算,被试的口头汇报中出现明显的迟疑,在实验的后半段,经过长时间的工作,被试更容易产生疲劳和烦躁的情绪。
口算测试结束后,对每一题的正确与错误进行了记录和统计。对每一段录制的语音进行被试的自我评价,每一条语句被标注了目标情感,包括烦躁、疲劳、迟疑和自信。
对于认知作业中出现错误的情况进行分析,得到了三种负面情感(烦躁、疲劳、迟疑)和一种正面情感(自信)和错误率之间的关系,如图2所示。
(2)提取声学特征
对于采集到的每一条语音,提取372个特征,如表1所示。之所以提取这些特征是因为它们受音位因素的影响较小,提取完成后采用主分量分析(PCA)技术将特征矢量的维数降到10--30。
表1
(3)利用高斯混合模型分类器进行情感的训练和识别
基于高斯混合模型(GMM)的分类算法在语种识别和说话人识别中获得了成功的应用,本发明中我们采用了GMM分类器来进行语音情感识别。GMM模型可以定义为:
其中 是两类分类器的输出,如果通过上式判定该情感出现,则二值输出为1,否则为0。对于烦躁、疲劳、迟疑和自信这四种情感对应的两类分类器的输出都为0,则认为当前情感语句为中性情感。
(4)结合上下文来最终确定当前的情感状态
由于情感具有连续性,前一个时刻的情感状态可以用来推测当前的情感状态。而认知作业成绩,是通过被试当前的数学题口算结果的正确与否来得到的。成绩的上升或者下降,与当前的情绪状态有一定的联系。因此,这两个因素可以用来对上一步骤中判决出的当前的情感状态进行修正。也就是说,根据前一个情感状态的识别结果和当前的认知作业成绩来修正上一步骤中得到的当前情感分类器的输出,从而判定出最终的情感类别四种情感分类器的输出可以组成一个情感矢量:
(式5)
如图2所示,情感在二维的唤醒度-效价度空间中是一个连续的变量。烦躁和自信位于唤醒维度的正向区域,迟疑和疲劳在负向区域。自信位于效价维度的正向区域,其它三种情感位于负向区域。因而规定当前时刻的情感矢量不可能既包含负面情感又包含正面情感。例如,烦躁和自信不能同时出现,而迟疑和疲劳可以同时出现在一个情感矢量中。通过选择情感码本中最接近的情感矢量可以对分类器的判决输出进行修正。
表2中是各情感矢量在扩展之前的可能的取值。“+1” 代表对应情感的出现。
表2
在扩展的情感矢量中包含了前一个状态的判决结果和当前的认知作业成绩,有72种可能的码字。当(式7)中的最大相关值对应不止一个情感码字时,我们通过训练集得到的经验概率挑选最可能出现的情感码字如图3所示。
其中 j 代表(式7)中最大相关值对应的码字。
性能评价
将语音情感数据分成三个数据集,进行轮换测试和训练。每个数据集包含1000个样本。平均识别结果如表3所示。基于GMM的分类器对烦躁和自信的平均识别率达到70%以上。通过纠错算法后平均识别率提高了4个百分点以上。说明基于上下文的情感状态信息在连续语音的情感识别中具有重要的作用。
表3
图4中为分类器的部分输出结果。其中+1 代表口算回答正确,-1 代表口算回答错误。由于自信情感的出现,和认知作业成绩的上升,对疲劳的错误识别得到了纠正。由于迟疑情感的出现,和口算回答的错误,对自信的错误检测也获得了纠正。
本发明请求保护的范围并不仅仅局限于本具体实施方式的描述。
Claims (3)
1.一种负面情绪检测中的基于上下文修正的语音情感识别方法,其特征在于,包括以下步骤:
(1)采集情感数据,对每一段采集到的语音数据标注其情感,包括烦躁、疲劳、迟疑和自信;
(2)对于采集到的每一条语音,提取372个特征,然后采用主分量分析技术将特征矢量的维数降到10--30;
(3)利用高斯混合模型分类器对每一类情感进行训练和识别:这里选用的是将结果分为两类的GMM分类器,即,待识别的一类情感用一个GMM来表达,所有其他情感类型用另一个GMM来表达;如果通过两类GMM分类器判定结果为,该情感出现,则输出为1,否则为0;如果对于烦躁、疲劳、迟疑和自信这四种情感,对应的两类分类器的输出都为0,则认为当前情感语句为中性情感;这一步得到的是当前情感分类器的输出;四种情感分类器的输出组成一个情感矢量:
(4)结合上下文来最终确定当前的情感状态:根据前一个情感状态的识别结果和当前的认知作业成绩来修正上一步得到的当前情感分类器的输出,从而判定出最终的情感类别。
2.根据权利要求1所述的负面情绪检测中的基于上下文修正的语音情感识别方法,其特征在于,所述的步骤(2)中的372维特征包括:基音和基音一阶差分的最大值、最小值、均值、标准差、范围;嗓音的嘶喊声、粗燥声;第一到第四共振峰及其一阶差分的最大值、最小值、均值、方差、范围;短时能量及其一阶差分的最大值、最小值、均值、方差和范围;一到十三阶MFCC及其一阶差分的最大值、最小值、均值、方差和范围;一到十八阶巴赫频带能量的最大值、最小值、均值、方差和范围。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210256326.1A CN103578480B (zh) | 2012-07-24 | 2012-07-24 | 负面情绪检测中的基于上下文修正的语音情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210256326.1A CN103578480B (zh) | 2012-07-24 | 2012-07-24 | 负面情绪检测中的基于上下文修正的语音情感识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103578480A true CN103578480A (zh) | 2014-02-12 |
CN103578480B CN103578480B (zh) | 2016-04-27 |
Family
ID=50050133
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210256326.1A Expired - Fee Related CN103578480B (zh) | 2012-07-24 | 2012-07-24 | 负面情绪检测中的基于上下文修正的语音情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103578480B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104828095A (zh) * | 2014-09-02 | 2015-08-12 | 北汽福田汽车股份有限公司 | 检测驾驶员驾驶状态的方法、装置及系统 |
CN105845140A (zh) * | 2016-03-23 | 2016-08-10 | 广州势必可赢网络科技有限公司 | 应用于短语音条件下的说话人确认方法和装置 |
CN106128475A (zh) * | 2016-07-12 | 2016-11-16 | 华南理工大学 | 基于异常情绪语音辨识的可穿戴智能安全设备及控制方法 |
CN106688034A (zh) * | 2014-09-11 | 2017-05-17 | 微软技术许可有限责任公司 | 具有情感内容的文字至语音转换 |
CN111210844A (zh) * | 2020-02-03 | 2020-05-29 | 北京达佳互联信息技术有限公司 | 语音情感识别模型的确定方法、装置、设备及存储介质 |
CN113611286A (zh) * | 2021-10-08 | 2021-11-05 | 之江实验室 | 一种基于共性特征提取的跨语种语音情感识别方法和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100217595A1 (en) * | 2009-02-24 | 2010-08-26 | Korea Institute Of Science And Technology | Method For Emotion Recognition Based On Minimum Classification Error |
CN101887721A (zh) * | 2010-07-19 | 2010-11-17 | 东南大学 | 一种基于心电信号与语音信号的双模态情感识别方法 |
CN101930735A (zh) * | 2009-06-23 | 2010-12-29 | 富士通株式会社 | 语音情感识别设备和进行语音情感识别的方法 |
CN101937678A (zh) * | 2010-07-19 | 2011-01-05 | 东南大学 | 一种针对烦躁情绪的可据判的自动语音情感识别方法 |
-
2012
- 2012-07-24 CN CN201210256326.1A patent/CN103578480B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100217595A1 (en) * | 2009-02-24 | 2010-08-26 | Korea Institute Of Science And Technology | Method For Emotion Recognition Based On Minimum Classification Error |
CN101930735A (zh) * | 2009-06-23 | 2010-12-29 | 富士通株式会社 | 语音情感识别设备和进行语音情感识别的方法 |
CN101887721A (zh) * | 2010-07-19 | 2010-11-17 | 东南大学 | 一种基于心电信号与语音信号的双模态情感识别方法 |
CN101937678A (zh) * | 2010-07-19 | 2011-01-05 | 东南大学 | 一种针对烦躁情绪的可据判的自动语音情感识别方法 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104828095A (zh) * | 2014-09-02 | 2015-08-12 | 北汽福田汽车股份有限公司 | 检测驾驶员驾驶状态的方法、装置及系统 |
CN104828095B (zh) * | 2014-09-02 | 2018-06-19 | 北京宝沃汽车有限公司 | 检测驾驶员驾驶状态的方法、装置及系统 |
CN106688034A (zh) * | 2014-09-11 | 2017-05-17 | 微软技术许可有限责任公司 | 具有情感内容的文字至语音转换 |
CN106688034B (zh) * | 2014-09-11 | 2020-11-13 | 微软技术许可有限责任公司 | 具有情感内容的文字至语音转换 |
CN105845140A (zh) * | 2016-03-23 | 2016-08-10 | 广州势必可赢网络科技有限公司 | 应用于短语音条件下的说话人确认方法和装置 |
CN106128475A (zh) * | 2016-07-12 | 2016-11-16 | 华南理工大学 | 基于异常情绪语音辨识的可穿戴智能安全设备及控制方法 |
CN111210844A (zh) * | 2020-02-03 | 2020-05-29 | 北京达佳互联信息技术有限公司 | 语音情感识别模型的确定方法、装置、设备及存储介质 |
CN111210844B (zh) * | 2020-02-03 | 2023-03-24 | 北京达佳互联信息技术有限公司 | 语音情感识别模型的确定方法、装置、设备及存储介质 |
CN113611286A (zh) * | 2021-10-08 | 2021-11-05 | 之江实验室 | 一种基于共性特征提取的跨语种语音情感识别方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN103578480B (zh) | 2016-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105632501B (zh) | 一种基于深度学习技术的自动口音分类方法及装置 | |
CN103578480B (zh) | 负面情绪检测中的基于上下文修正的语音情感识别方法 | |
Lefter et al. | Automatic stress detection in emergency (telephone) calls | |
An et al. | Automatic recognition of unified parkinson's disease rating from speech with acoustic, i-vector and phonotactic features. | |
Vashkevich et al. | Classification of ALS patients based on acoustic analysis of sustained vowel phonations | |
US10311865B2 (en) | System and method for automated speech recognition | |
Bone et al. | Intoxicated speech detection by fusion of speaker normalized hierarchical features and GMM supervectors | |
EP2363852A1 (en) | Computer-based method and system of assessing intelligibility of speech represented by a speech signal | |
Kim et al. | Automatic estimation of parkinson's disease severity from diverse speech tasks. | |
CN102201237B (zh) | 基于模糊支持向量机的可靠性检测的情感说话人识别方法 | |
US20190279644A1 (en) | Speech processing device, speech processing method, and recording medium | |
Yusnita et al. | Malaysian English accents identification using LPC and formant analysis | |
Fulmare et al. | Understanding and estimation of emotional expression using acoustic analysis of natural speech | |
JP2018180334A (ja) | 感情認識装置、方法およびプログラム | |
Venu | IOT Based Speech Recognition System to Improve the Performance of Emotion Detection | |
Pohjalainen et al. | Multi-scale modulation filtering in automatic detection of emotions in telephone speech | |
Poorna et al. | Emotion recognition using multi-parameter speech feature classification | |
An et al. | Detecting laughter and filled pauses using syllable-based features. | |
Bayerl et al. | Detecting vocal fatigue with neural embeddings | |
Kim et al. | Combination of Multiple Speech Dimensions for Automatic Assessment of Dysarthric Speech Intelligibility. | |
Stolar et al. | Detection of depression in adolescents based on statistical modeling of emotional influences in parent-adolescent conversations | |
Gong et al. | Towards an Automated Screening Tool for Developmental Speech and Language Impairments. | |
Janicki | On the impact of non-speech sounds on speaker recognition | |
Kadiri et al. | Discriminating neutral and emotional speech using neural networks | |
Stasak et al. | Automatic elicitation compliance for short-duration speech based depression detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160427 Termination date: 20160724 |