CN102881284A

CN102881284A - 非特定人语音情感识别方法及系统

Info

Publication number: CN102881284A
Application number: CN2012103217853A
Authority: CN
Inventors: 毛启容; 赵小蕾; 詹永照; 白李娟; 王治锋; 杨华宇
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2012-09-03
Filing date: 2012-09-03
Publication date: 2013-01-16
Anticipated expiration: 2032-09-03
Also published as: CN102881284B

Abstract

本发明提供了一种非特定人语音情感识别方法及系统，其中该方法包括：提取待识别语音信号中用于识别情感副语言的语音特征；提取待识别情感语音信号的声学语音情感特征；对所述基于情感副语言的情感识别通道和基于声学语音情感特征的情感识别通道的识别结果进行融合，得出待识别情感语音信号所包含的情感状态。本发明利用情感副语言特征受说话人变化的影响比较小的特点，从情感语音信号中提取反应情感信息的情感副语言，用情感副语言包含的情感信息来辅助传统的声学语音情感特征进行情感识别，从而达到提高语音情感识别鲁棒性和识别率的目的。

Description

非特定人语音情感识别方法及系统

技术领域

本发明涉及语音识别技术领域，尤其涉及一种非特定人语音情感识别方法及系统。

背景技术

语音情感识别技术的发展对推动智能化、人性化的新型人机交互技术的发展和应用具有重要的作用，如何使用计算机技术从语音中自动识别说话人的情感状态近年来受到各领域研究者的广泛关注。现有的语音情感识别研究，还存在较多局限性，尤其是语音情感特征参数在情感空间的分布会随着说话人的变化而变化，情感识别的准确率受说话人变化的影响较大，从而导致当待识别语音的说话人不在训练库中时，情感识别率会急剧下降，限制了语音情感识别在自然环境下的实际应用。

目前，消除声学情感特征中说话人个性化因素最常用的方法是采用说话人的中性情感语音特征对情感特征参数进行归一化，如：东南大学的赵力教授和浙江大学的谢波博士均采用将情感特征与说话人处于平静时的相应情感特征作差值运算的方法对情感特征进行归一化。这种采用中性情感语音特征对情感特征参数进行归一化的方法虽然能够在一定程度上消除说话人个性化说话特征的影响，但是必须要求待识别语音的说话人在识别前至少录制一句中性情感语句，这种要求在一定程度上限制了语音情感识别的实际应用。Vidhyasaharan Sethu等人提出了将所有的情感特征映射到同一种概率分布（正态分布）上，以此消除说话人个人说话特征对情感特征的分布带来的干扰，但将所有说话人的情感特征映射到正态分布是否能够有效地消除说话人个人说话特点的干扰且不丢失其中的情感信息，还缺乏理论的分析。

有鉴于此，有必要提供一种非特定人语音情感识别方法及系统以解决上述问题。

发明内容

本发明的目的在于克服现有语音情感识别方法的语音情感识别率容易受说话人变化影响的缺点，充分利用情感副语言受说话人变化干扰较小的特点，提供一种情感副语言辅助的非特定人语音情感识别方法及系统。

实现本发明目的的技术方案是：

一种非特定人语音情感识别方法，包括：

S1.提取待识别语音信号中用于识别情感副语言的语音特征，输入情感副语言识别模型，得出待识别语音信号所包含的情感副语言，并根据情感副语言与情感类别之间的对应关系，推测出基于情感副语言的情感识别通道的识别结果：待识别语音信号所包含的情感类别以及相应的概率；所述情感副语言包括笑声、伤心的哭声、害怕的哭声、质疑声、急促的喘息声、无奈的叹息声、哀怨的叹息声以及叫喊声；

S2.提取待识别情感语音信号的声学语音情感特征，输入基于声学语音情感特征的语音情感识别模型，得出基于声学语音情感特征的情感识别通道的识别结果：待识别语音信号所包含的情感类别以及相应的概率；

S3.对所述基于情感副语言的情感识别通道和基于声学语音情感特征的语言情感识别通道的识别结果进行融合，得出待识别情感语音信号所包含的情感状态。

作为本发明的进一步改进，所述步骤S1之前还包括下列步骤：

S01.建立基于情感副语言的语音情感识别通道，包括：

S011.建立情感语料库，使其中语音信号样本涉及的情感中的每种情感至少有15个语料，每个语料包含所述情感副语言；所述情感副语言包括笑声、伤心的哭声、害怕的哭声、质疑声、急促的喘息声、无奈的叹息声、哀怨的叹息声以及叫喊声；

S012.对所述语音信号样本进行预处理，包括预加重、加窗处理、分帧、端点检测；

S013.在所述语音信号中提取所述识别情感副语言所用的语音特征；

S014.训练情感副语言识别模型；

S015.建立基于情感副语言的语音情感状态识别模型，基于情感副语言的语音情感状态识别模型中包括情感副语言识别模型集和情感副语言与情感类别之间的映射关系模型，用于识别情感副语言，以及情感副语言所对应的情感类别和该情感类别的置信度，并得到所述基于情感副语言的语音情感识别通道识别结果；所述情感类别包括高兴、悲伤、害怕、惊讶、厌恶、愤怒，所述情感副语言与情感类别之间的映射关系具体为“笑声”对应“高兴”情感类别，“伤心的哭声”对应“悲伤”情感类别，“害怕的哭声”对应“害怕”情感类别，“质疑声”对应“惊讶”情感类别，“急促的喘息声”，对应“害怕”情感类别，“无奈的叹息声”对应“厌恶”情感类别，“哀怨的叹息声”对应“悲伤”情感类别，“叫喊声”对应“愤怒”情感类别；

S02.建立基于声学语音情感特征的语音情感识别通道，包括：

S021.采用S011所录制的情感语料库；

S022.对所述语音信号样本进行预处理，包括预加重、加窗处理、分帧、端点检测；

S023.在所述语音信号中提取声学语音情感特征；

S024.训练基于声学语音情感特征的情感识别模型；

S025.建立基于声学语音情感特征的的情感状态识别模型，用于根据声学语音情感特征识别语音信号所包含的情感类别和该情感类别的置信度，并得到所述基于声学语音情感特征的情感识别通道识别结果；所述情感类别包括高兴、悲伤、害怕、惊讶、厌恶和愤怒。

作为本发明的进一步改进，所述识别情感副语言所用的语音特征包括：语音的短时能量、过零率、梅尔倒谱系数、基音频率、音质、静音比率、前三个共振峰系数等，以及所述这些特征的最大值、最小值以及变化范围；

所述声学语音情感特征包括，包括短时能量、过零率、梅尔倒谱系数、基音频率、音质、静音比率、前三个共振峰系数，以及所述声学语音情感特征的最大值、最小值以及变化范围；

作为本发明的进一步改进，所述步骤S1具体包括：

S11.对待识别语音信号样本进行预处理，包括分帧、加窗和端点检测；

S12.从所述待识别语音信号样本中提取识别情感副语音所用的语音特征，包括提取短时能量、过零率、梅尔倒谱系数、基音频率、音质、静音比率、前三个共振峰系数等，以及所述这些语音特征的最大值、最小值以及变化范围；

S13.将提取的所述语音特征输入所述基于情感副语言的情感状态模型，通过情感副语言识别模型集识别，得到待识别语音信号样本中包含的情感副语言及其置信度；通过所述情感副语言与情感类别之间的映射关系模型，得到所述情感副语言对应的情感类别及该情感类别的置信度，并进一步得到所述基于情感副语言的语音情感识别通道的识别结果。

作为本发明的进一步改进，所述步骤S2具体包括：

S21.对待识别语音信号样本进行预处理，包括分帧、加窗和端点检测；

S22.从所述的待识别语音信号样本中的提取声学语音情感特征，包括美尔倒谱系数、基频、时长、强度、振幅、音质、共振峰等，以及所述声学语音情感特征的最大值、最小值以及变化范围；

S23.将提取的所述声学语音情感特征输入所述基于声学语音情感特征的情感状态识别模型，得到所述语音信号所包含的情感类别及该情感类别的置信度，即得到所述基于声学语音情感特征的语音情感识别通道的识别结果。

作为本发明的进一步改进，所述情感副语言识别模型采用：支持向量机、高斯混合模型或隐马尔科夫模型；

所述基于声学语音情感特征的情感语言识别模型采用：支持向量机、高斯混合模型或隐马尔科夫模型。

相应地，一种非特定人语音情感识别系统，包括：

识别情感副语言所用的语音特征提取单元：用于提取待识别语音信号中用于识别情感副语言的语音特征，输入情感副语言识别模型，得出待识别语音信号所包含的情感副语言，并根据情感副语言与情感类别之间的对应关系，推测出基于情感副语言的情感识别通道的识别结果：待识别语音信号所包含的情感类别以及相应的概率；所述情感副语言包括笑声、伤心的哭声、害怕的哭声、质疑声、急促的喘息声、无奈的叹息声、哀怨的叹息声以及叫喊声；所述识别情感副语言所采用的语音特征包括：语音的短时能量、过零率、梅尔倒谱系数、基音频率、音质、静音比率、前三个共振峰系数等，以及所述这些语音特征的最大值、最小值以及变化范围；

声学语音情感特征提取单元：用于提取待识别情感语音信号的声学语音情感特征，输入基于声学语音情感特征的情感识别模型，得出待识别语音信号所包含的情感状态，即得出基于声学语音情感特征的情感识别通道的识别结果：待识别语音信号所包含的情感类别以及相应的概率；

融合单元：用于对所述基于情感副语言的情感识别通道和基于声学语音情感特征的情感识别通道的识别结果进行融合，得出待识别情感语音信号所包含的情感状态。

作为本发明的进一步改进，所述非特定人语音情感识别系统还包括：

基于情感副语言的情感识别通道，其中包括：

情感语料库，语音信号样本涉及的情感中的每种情感至少有15个语料，每个语料包含至少一种所述情感副语言；所述情感副语言包括笑声、伤心的哭声、害怕的哭声、质疑声、急促的喘息声、无奈的叹息声、哀怨的叹息声以及叫喊声；

识别情感副语言所采用的语音特征提取单元，用于在所述语音信号中提取所述识别情感副语言所采用的语音特征；

情感副语言识别模型训练单元，用于训练情感副语言识别模型；

基于情感副语言的情感状态识别模型，包括情感副语言识别模型集和情感副语言与情感类别之间的映射关系模型，所述情感类别包括高兴、悲伤、害怕、厌恶、惊讶和愤怒六类情感类别，“伤心的哭声”对应“悲伤”情感类别，“害怕的哭声”对应“害怕”情感类别，“质疑声”对应“惊讶”情感类别，“急促的喘息声”，对应“害怕”情感类别，“无奈的叹息声”对应“厌恶”情感类别，“哀怨的叹息声”对应“悲伤”情感类别，“叫喊声”对应“愤怕、惊讶、厌恶、愤怒，所述副语言与情感类别之间的映射关系具体为“笑声”对应“高兴”情感类别，“伤心的哭声”对应“悲伤”情感类别，“害怕的哭声”对应“害怕”情感类别，“质疑声”对应“惊讶”情感类别，“急促的喘息声”，对应“害怕”情感类别，“无奈的叹息声”对应“厌恶”情感类别，“哀怨的叹息声”对应“悲伤”情感类别，“叫喊声”对应“愤怒”情感类别；

基于声学情感特征的情感状态识别通道，包括：

情感语料库，采用基于情感副语言的语音情感识别通道的情感语料库；

声学语音情感特征提取单元，用于在所述语音信号中提取声学语音情感特征；

基于声学语音情感特征的情感识别模型训练单元，用于训练基于声学情感特征的情感识别模型；

基于声学语音情感特征的情感状态识别模型，用于根据声学语音情感特征识别语音信号所包含的情感类别和该情感类别的置信度，即得到所述基于声学语音情感特征的情感识别通道识别结果；所述情感类别包括高兴、悲伤、害怕、惊讶、厌恶和愤怒；

融合单元，用于融合所述基于情感副语言的情感识别通道和基于声学语音情感特征的情感识别的识别结果，得出情感语音信号样本所包含的情感状态。

作为本发明的进一步改进，所述基于情感副语言的情感识别通道训练单元中，采用的统计模型可以为：支持向量机、高斯混合模型或隐马尔科夫模型；

所述基于声学语音情感特征的情感识别训练单元中，采用的统计模型可以为：支持向量机、高斯混合模型或隐马尔科夫模型。

作为本发明的进一步改进，所述识别情感副语言所用的语音特征提取单元和声学语音情感特征提取单元之前设有预处理单元，预处理单元用于对情感语音信号进行预处理，包括分帧、加窗和端点检测；

作为本发明的进一步改进，所述识别情感副语言的语音特征包括提取短时能量、过零率、梅尔倒谱系数、基音频率、音质、静音比率、前三个共振峰系数等，以及所述这些语音特征的最大值、最小值以及变化范围；

所述声学语音情感特征包括提取美尔倒谱系数、基频、时长、强度、振幅、音质、共振峰，以及所述声学语音情感特征的最大值、最小值以及变化范围。

本发明的有益效果是：克服了传统语音情感特征易受说话人变化干扰的不足，充分利用情感副语言受说话人变化的影响比较小的特点，从情感语音信号中提取反应情感信息的情感副语言，用情感副语言包含的情感信息来辅助传统的声学语音情感特征进行情感识别，从而达到提高语音情感识别鲁棒性和识别率的目的。

附图说明

图1为本发明一实施例中非特定人语音情感识别方法的流程图。

图2为图1中步骤S1的具体流程图。

图3为图1中步骤S2的具体流程图。

图4为本发明非特定人语音情感识别方法的框架图。

图5为本发明非特定人语音情感识别系统的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

参图1所示为本发明非特定人语音情感识别方法的流程图。该方法包括：

S1.提取待识别语音信号中用于识别情感副语言的语音特征，输入情感副语言识别模型，得出待识别语音信号所包含的情感副语言，并根据情感副语言与情感类别之间的对应关系，推测出基于情感副语言的情感识别通道的识别结果：待识别语音信号所包含的情感类别以及相应的概率；情感副语言包括笑声、伤心的哭声、害怕的哭声、质疑声、急促的喘息声、无奈的叹息声、哀怨的叹息声以及叫喊声；

S2.提取待识别情感语音信号的声学语音情感特征，输入基于声学语音情感特征的情感识别模型，得出基于声学语音情感特征的情感识别通道的识别结果：待识别语音信号所包含的情感类别以及相应的概率；

S3.对基于情感副语言的情感识别通道和基于声学语音情感特征的情感识别通道的识别结果进行融合，得出待识别情感语音信号所包含的情感状态。

优选地，在步骤S1之前还包括下列步骤：

S01.建立基于情感副语言的情感识别通道，包括：

S011.建立情感语料库，使其中语音信号样本涉及的情感中的每种情感至少有15个语料，每个语料至少包含一种情感副语言；情感副语言包括笑声、伤心的哭声、害怕的哭声、质疑声、急促的喘息声、无奈的叹息声、哀怨的叹息声以及叫喊声；

S012.对语音信号样本进行预处理，包括预加重、加窗处理、分帧、端点检测；

S013在预处理后的语音信号中提取识别情感副语言的语音特征；

S014.训练情感副语言识别模型；

S015.建立基于情感副语言的情感状态识别模型，基于情感副语言的情感状态识别模型中包括情感副语言识别模型集和情感副语言与情感类别之间的映射关系模型，用于识别情感副语言，以及情感副语言所对应的情感类别和该情感类别的置信度，并得到基于情感副语言烦人情感识别通道识别结果；情感类别包括高兴、悲伤、害怕、惊讶、厌恶、愤怒，情感副语言与情感类别之间的映射关系具体为“笑声”对应“高兴”情感类别，“伤心的哭声”对应“悲伤”情感类别，“害怕的哭声”对应“害怕”情感类别，“质疑声”对应“惊讶”情感类别，“急促的喘息声”，对应“害怕”情感类别，“无奈的叹息声”对应“厌恶”情感类别，“哀怨的叹息声”对应“悲伤”情感类别，“叫喊声”对应“愤怒”情感类别；

S02.建立基于声学语音情感特征的情感识别通道，包括：

S021.采用S011中所建立的情感语料库；

S022.对语音信号进行预处理，包括预加重、加窗处理、分帧、端点检测；

S023.在经过预处理后的语音信号中提取声学语音情感特征；

S024.训练基于声学语音情感特征的情感识别模型；

S025.建立基于声学语音情感特征的情感识别模型，用于根据声学情感特征，识别语音信号中所包含的情感类别和该情感类别的置信度，即得到基于声学语音情感特征的情感识别通道识别结果；情感类别包括高兴、悲伤、害怕、惊讶、厌恶和愤怒。

本发明中的识别情感副语言所采用的语音特征包括：语音的短时能量、过零率、梅尔倒谱系数、基音频率、音质、静音比率、前三个共振峰系数等，以及这些语音特征的最大值、最小值以及变化范围；

声学语音情感特征包括，包括短时能量、过零率、梅尔倒谱系数、基音频率、音质、静音比率、前三个共振峰系数，以及这些声学语音情感特征的最大值、最小值以及变化范围；

其中，参图2所示，步骤S1具体包括：

S12.从待识别语音信号样本中提取识别情感副语音所采用的语音特征，包括提取短时能量、过零率、梅尔倒谱系数、基音频率、音质、静音比率、前三个共振峰系数等，以及这些语音特征的最大值、最小值以及变化范围；

S13.将提取的语音特征输入基于情感副语言的情感状态模型，通过情感副语言识别模型集识别，得到待识别语音信号样本中包含的情感副语言及其置信度；通过情感副语言与情感类别之间的映射关系模型识别，得到情感副语言对应的情感类别及该情感类别的置信度，即得到基于情感副语言的情感识别通道的识别结果。

参图3所示，步骤S2具体包括：

S22.从的待识别语音信号样本中的提取声学语音情感特征，包括美尔倒谱系数、基频、时长、强度、振幅、音质、共振峰等，以及声学语音情感特征的最大值、最小值以及变化范围；

S23.将提取的声学语音情感特征输入基于声学语音情感特征的情感状态识别模型，得到待识别语音信号所包含的情感类别及该情感类别的置信度，即得到基于声学语音情感特征的情感识别通道的识别结果。

本发明通过提取情感语料中的情感副语言来辅助传统声学语音情感特征进行情感语料中情感状态的识别，为语音情感识别提供更多的说话人鲁棒的语音情感信息，最终提高语音情感识别方法对说话人变化的鲁棒性。

本发明中的情感副语言属于狭义副语言范畴，内容包括伴随语音的某些声音现象，如哭声、笑声、叹息声等。情感语料库中录制了涵盖日常生活中常用的情感副语音，如哭声、笑声、叹息声、喘息声、质疑声以及叫喊声等。语料库包含六类情感，分别为高兴、伤心、惊奇、生气、害怕、厌恶。根据语境自然的嵌入情感副预言，如高兴常伴有笑声，伤心常伴有哭声等。每种情感有15个语料，每个语料都易于加入相应的情感，使得录制者较易进入情感状态。所有脚本内容不同，且包含较丰富的情感副语言如哭声、笑声、叹息声等。优选地，情感语料库由五个男生六个女生在专业的录音室录制而成，采样率为11025Hz，样本均保存为wav格式。

采集好情感语料后，本发明的具体实施分为训练、识别和融合三个阶段，结合图4所示，分别从训练、识别和融合三个阶段作进一步说明。

一、训练阶段

1、对情感语音信号进行预处理：这一步是采用传统的语音信号预处理方法对情感语音信号进行预处理，包括预加重、加窗处理、分帧、端点检测。

2、识别情感副语言所采用的语音特征的提取和情感副语言识别模型的训练：

2.1提取识别情感副语言所用的语音特征，包括短时能量、过零率、梅尔倒谱系数（前12个系数）、基音频率、音质、静音比率、前三个共振峰系数等，以及这些特征的最大值、最小值以及变化范围等统计特征。

2.2对情感副语言识别模型进行训练,这里的识别模型可采用诸如SVM(Support VectorMachine支持向量机)、GMM(Gaussian Mixture Model高斯混合模型)以及HMM(HiddenMarkov Model隐马尔科夫模型)之类的各种统计模型。

3、传统的声学语音情感特征的提取和基于声学语音情感特征的语音情感识别模型的训练：

3.1提取包括美尔倒谱系数、基频、时长、强度、振幅、音质以及共振峰等语音的声学语音情感特征，并在情感语段上分别提取这些特征的最大值、最小值以及变化范围等统计特征。

3.2对基于声学语音情感特征的语音情感识别模型进行训练，这里的识别模型可采用诸如SVM、GMM以及HMM之类的各种统计模型，方法与本阶段第2.2步相同。

二、识别阶段

识别阶段是将待识别的情感语音信号输入第一阶段训练好的模型，计算得出该情感语音信号在每个通道的情感状态识别结果，分三步实施。

1、对情感语音信号进行预处理，所采用的方法同训练阶段的第1步。

2、待识别情感语音信号中识别情感副语言所用的语音特征的提取和基于情感副语言的语音情感识别。

2.1提取待识别情感语料中识别情感副语言所采用的语音特征，所采用的方法同训练阶段的2.1步。

2.2识别待识别情感语料中所包含的情感副语言。

将本阶段2.1步所提取的待识别语料中识别情感副语言所采用的语音特征输入第一阶段2.2步已经训练好的情感副语言识别模型，计算得出该待识别情感语音信号所包含的情感副语言。

2.3建立情感副语言的语音情感状态之间的映射关系，并将此时情感副语言识别的置信度作为相应的情感状态的置信度。

建立情感副语言与情感状态之间的映射关系如下：

若识别出待识别情感语音信号中的情感副语言为“笑声”，则推断该情感语音信号所反映的是“高兴”情感状态；

若识别出待识别情感语音信号中的情感副语言为“伤心的哭声”，则推断该情感语音信号所反映的是“悲伤”情感状态；

若识别出待识别情感语音信号中的情感副语言为“害怕的哭声”，则推断该情感语音信号所反映的是“害怕”情感状态；

若识别出待识别情感语音信号中的情感副语言为“质疑声”，则推断该情感语音信号所反映的是“惊讶”情感状态；

若识别出待识别情感语音信号中的情感副语言为“急促的喘息声”，则推断该情感语音信号所反映的是“害怕”情感状态；

若识别出待识别情感语音信号中的情感副语言为“无奈的叹息声”，则推断该情感语音信号所反映的是“厌恶”情感状态；

若识别出待识别情感语音信号中的情感副语言为“哀怨的叹息声”，则推断该情感语音信号所反映的是“悲伤”情感状态；

若识别出待识别情感语音信号中的情感副语言为“叫喊声”，则推断该情感语音信号所反映的是“愤怒”情感状态。

3、提取待识别情感语音信号的声学语音情感特征并采用所提取的声学语音情感特征识别待识别情感语音信号所包含的情感状态。

3.1待识别情感语音信号的声学语音情感特征的提取，所采用的提取方法同训练阶段的3.1步。

3.2将本阶段3.1步所提取的待识别语料的声学语音情感特征输入第一阶段3.2步已经训练好的基于声学语音情感特征的语音情感识别模型，得出该待识别情感语音信号所属的情感状态。

其中，在步骤2.2和3.2中的基于SVM模型概率置信度计算方法如下：

优选地，本发明使用‘一对一’SVM模型进行分类识别，SVM决策是采用投票机制的，对于N个模型，相当于有N*（N-1）个专家进行投票，每个情感类别均有一个概率，概率最高者被选为最终识别结果。

算法所用的基于SVM的置信度由两部分组成：

1、计算待测样本到分类决策面距离，距离大于一定阈值时，即决策函数值大于一定的阈值时，取这N*(N-1)个决策距离的平均值。我们接受投票即认为专家投票是有效的，否则认为无效不计入总票数。对于类别i，其得到的有效票数为V，而其可信投票数为v，则类别i对应的概率置信度为：conf(i)=v/V。

2、计算情感概率之间的分辨率，对Ｎ个情感类别，每个待识别样本经模型识别后得出对应的该样本属于N个情感概率，记为P₁，P₂，...P_N，则输出概率P_i的分辨率为该输出概率与其余所有输出概率的平均值之差，其计算方法如公式(1)所示：

{conf}^{'} = p_{i} - \frac{1}{N - 1} {\underset{k = 1}{Σ}}_{k &NotEqual; i}^{N} P_{k} - - - (1)

综合1和2，得到该样属于各情感类别的置信度，置信度的值公式为：

(conf+conf’)/2 (2)

三、融合阶段

根据第二阶段识别阶段中第2.3步得出基于情感副语言的待识别情感语音信号情感状态和第3.2步得出的基于声学语音情感特征的情感语音信号的情感状态，按照如下融合方法对两个通道的识别结果进行融合，得出待识别情感语料所属的最终情感状态。

在本实施方式中，假设有情感副语言类别p个，经过特征提取和训练，得到拥有p个情感副语音类别模型的模型组。同样的对于s个语音情感类别，经过声学语音情感特征提取及训练模型过程，得到一组拥有s个基于声学语音情感特征的语音情感识别模型的模型组，并将这两组模型分别命名为PM和SM。

为了描述方便，算法中定义各符号含义如下：ParaChannel、SpeechChannel分别代表基于情感副语音的情感识别通道（以下简称情感副语言通道）与基于声学语音情感特征的情感识别通道（以下简称声学语音情感特征通道）；X={x₁,x₂,...x_i...x_n},i=1,2,3...n代表待测样本集合；R代表经识别后每个样本对应的所属情感类别集合；PP、SP分别代表情感副语音通道的模型概率向量与声学语音情感特征通道的模型概率向量；Pconf、Sconf分别代表两通道的模型概率置信度向量；PSum代表情感类别对应的情感副语音通道与声学语音情感特征通道的概率之和，TP代表概率之和平均值；Csum代表情感类别对应的情感副语音通道与声学语音情感特征通道的置信度之和，TC代表置信度之和平均值。

具体的融合步骤如下所示：

Input：待测样本集合X。

Output：s类语音情感的识别率speech_rate。

Step1：取待测样本x_i,将其输入到这两组模型PM和SM中进行识别。分别得到两组模型的模型概率向量PP_i=[pp₁ pp₂...pp_p]和SP_i=[sp₁ sp₂...sp_s]。

Step2：如果情感副语音通道ParaChannel的识别结果与声学语音情感特征通道SpeechChannel的识别结果一致，即具有同2.3中描述的关联关系，则将该识别结果作为样本x_i最终所属的情感类别，进入Step7，继续识别下一个待测样本；如果两通道识别结果不一致，则进入Step3。

Step3：根据公式(2)分别计算两通道ParaChannel和SpeechChannel对待测样本x_i识别结果的置信度，并记为：Pconf_i=[pconf₁ pconf₂...pconf_p]和Sconf_i=[sconf₁ sconf₂...sconf_s]。

Step4：对两通道ParaChannel和SpeechChannel的输出概率分别设一个概率阈值，分别记为η_p和η_s。这里的阈值η_p和η_s的初始值分别设为两个通道对样本x_i识别后输出的概率的平均值。

Step5：分别保留样本x_i在两通道ParaChannel和SpeechChannel的模型输出概率向量中，分别大于η_p、η_s的输出概率所对应的情感类别，称其为待识别样本的候选类别。并将样本x_i的情感副语音通道的候选类别记为{PC₁,PC₂，...,PC_n},其中n<p，声学语音情感特征通道的候选类别记为{SC₁,SC₂,...,SC_n’},其中n’<s。

Step6：对Step5中所得到的两组候选类别进行统计，将候选类别按照统计结果从大到小的顺序进行排序后保存，得到向量Vote={C₁,C₂，...,C_m}，其中max(n,n’)<m<n+n’，且类别统计结果最大值为2，最小值为1。则根据如下规则得出样本x_i的最终识别结果。

(1)若候选类别中只有一个情感类别出现次数为2，即C₁=2,C₂=1,...,C_i=1，...,C_m＝1。则作如下操作：对Vote集合中的每个情感类别，若其在情感副语音特征通道中有对应的情感副语音类别（一个或多于一个），即有关联关系，则计算其在ParaChannel和SpeechChannel两个通道中的输出概率之和以及置信度之和，并取平均，将此平均概率和平均置信度作为该类别的新的概率值和置信度值；若没有对应的情感副语音类别，则维持声学语音情感特征通道的概率与置信度值不变。对上述得到的概率按照从大到小的顺序排序，分别记为PSum={psum_k},k=1,2,3，...,与Csum={csum_j}，j=1,2,3，...则有如下规则：

1）若情感类别C₁对应的通道ParaChannel或通道SpeechChannel的概率与置信度在对应通道中均为最大，则情感类别C₁为待测样本的最终所属的情感类别，记为R(i)=C₁，并跳转到Step7，继续识别下一个待测样本，否则，执行本规则中的步骤2)。

2）若情感类别C₁对应的新的概率值psum₁最大，即max(Psum)=psum₁，则情感类别C₁为待测样本的最终所属的情感类别，即R(i)=C₁，并跳转到Step7，继续识别下一个待测样本，否则，执行本规则中的步骤3)。

3）按照Psum集合中概率由大到小的次序选取候选类别Vote集合中对应的的情感类别，记为C_k。如果情感类别C_k对应的概率大于平均概率且置信度大于平均置信度，即psum_k>mean(Psum)且csum_k>mean(Psum),则待识别样本所属的情感类别为C_k，即R(i)=C_k，否则继续考查下一个候选情感类别，令k=k+1,直到找到满足条件的待识别样本所属情感类别或者候选类别考察结束。若得到满足条件的待识别样本所属情感类别，则跳转到Step7，继续识别下一个待测样本。若候选类别考察结束仍未得到待识别样本所属情感类别，则选择Psum集合中最大概率所对应的候选类别作为待识别样本所属情感类别，即若Psum_k=max(Psum),则R(i)=C_k。

(2)若候选类别中出现次数为2的情感类别多于1个，即C₁=2,C₂=2,...,C_i=2，...,C_m＝1。则做如下处理：首先，将这m个候选类别按照统计结果（2和1）分别划分到两个集合中，分别记为集合A={C₁,C₂,...,C_i}与B={C_i+1,...,C_m}。其次，分别对集合A和B中候选类别作如规则（1）中的处理，得到新的概率集合与置信度集合，并求所有候选类别的概率平均值与置信度平均值，分别记为：

PsumA={psumA_k},k=1,2,3,...,CsumA={csumA_j}，j=1,2,3，...,PsumB={psumB_k},k=1,2,3,...,

CsumB={csumB_j}，j=1,2,3，...，TP=mean(PsumA+PsumB),TC=mean(CsumA+CsumB)。

则有如下规则：

1)按照PsumA集合中概率由大到小的顺序选取集合A中对应的候选类别，记为C_k。判断C_k在PsumA集合与CsumA集合中的概率与置信度是否大于概率平均值TP以及置信度平均值TC，即若psumA_k>TP，且csumA_k>TC，则待识别样本的情感类别为C_k，记为R(i)=C_k，否则取下一个情感类别，令k=k+1，直至得到待识别样本所属的情感类别或者集合A中的候选类别考察结束。若得到满足条件的待识别样本所属情感类别，则跳转到Step7，继续识别下一个待测样本。若集合A中的候选类别考察结束则执行本规则中的步骤2)。

2)依次考查集合B中的情感类别，考查方法同规则(2)中的步骤1)。若得到待识别样本所属的情感类别，则跳转到Step7，继续识别下一个待测样本，否则执行本规则中的步骤3）。

3）若考查完集合A和集合B后仍未得到待识别样本所属的情感类别，则选取声学语音情感特征通道SpeechChannel中输出概率最大的情感类别作为待识别样本所属的情感类别，即R(i)=max(SP),并跳转到Step7，继续识别下一个待测样本。

(3)若不存在出现次数为2的候选类别，即C₁=1,C₂=1，...,C_i=1，...,C_m＝1，说明ParaChannel和SpeechChannel的识别结果完全不一致，则首先作同规则（1）与（2）中的操作，得到候选类别新的概率集合Psum与置信度集合Csum，以及它们的概率平均值TP与置信度平均值TC。采用类似于规则(2)的方法分别考查每一个候选类别，具体规则如下：

1)按照Psum集合中的概率由大到小的次序分别考查对应的候选类别，记为C_k，并判断其所对应的概率与置信度是否大于概率平均值以及置信度平均值，即若psum_k>TP，且csum_k>TC，则情感类别C_k为待识别样本所属的情感类别，记为R(i)=C_k，并跳转到Step7，继续识别下一个待测样本，否则执行本规则中的步骤2)。

2）继续考查下一个候选情感类别，令k=k+1,直到找到满足条件的待识别样本所属情感类别或者候选类别考察结束。若得到满足条件的待识别样本所属情感类别，则跳转到Step7，继续识别下一个待测样本。若候选类别考察结束仍未得到待识别样本所属情感类别，则选择声学语音情感特征通道SpeechChannel输出概率最大的候选类别作为待识别样本所属情感类别，即R(i)=max(SP)。

Step7：若待识别样本集合X中的样本未识别完，则跳到step1，重复以上步骤。

Step8：求s类情感识别率向量speech_rate。统计向量R中各情感类别所对应的正确分类的分量个数，即为样本正确分类个数。记情感类别为i，其对应的正确分类样本个数为T_i以及测试样本总个数为N_i，则i类别的识别率计算公式为speech_rate(i)=T_i/N_i,i=1,2,3，...,s。

Setp9：融合算法结束。

相应地，如图5所示，本发明一实施方式中非特定人语音情感识别系统，包括：

语音信号预处理单元10：用于对情感语音信号进行预处理，包括：包括预加重、加窗处理、分帧、端点检测。

融合单元20：用于对基于情感副语言的情感识别通道和基于声学语音情感特征的情感识别通道的识别结果进行融合，得出待识别情感语音信号所包含的情感状态。

基于情感副语言的情感识别通道30，包括：

情感语料库31，语音信号样本涉及的情感中的每种情感至少有15个语料，每个语料包含至少一种情感副语言；情感副语言包括笑声、伤心的哭声、害怕的哭声、质疑声、急促的喘息声、无奈的叹息声、哀怨的叹息声以及叫喊声；

识别情感副语言所采用的语音特征提取单元32：用于提取待识别语音信号中用于识别情感副语言的语音特征，输入情感副语言识别模型，得出待识别语音信号所包含的情感副语言，并根据情感副语言与情感类别之间的对应关系，推测出情感副语言情感识别通道的识别结果：待识别语音信号所包含的情感类别以及相应的概率；情感副语言包括笑声、伤心的哭声、害怕的哭声、质疑声、急促的喘息声、无奈的叹息声、哀怨的叹息声以及叫喊声；识别情感副语言所采用的语音特征包括：语音的短时能量、过零率、梅尔倒谱系数、基音频率、音质、静音比率、前三个共振峰系数等，以及这些语音特征的最大值、最小值以及变化范围；

副语言识别模型训练单元33，用于训练副语言识别模型；

基于副语言特征的情感状态模型，包括副语言识别模型集和副语言与情感类别之间的映射关系模型，情感类别包括高兴、悲伤、害情感类别，“伤心的哭声”对应“悲伤”情感类别，“害怕的哭声”对应“害怕”情感类别，“质疑声”对应“惊讶”情感类别，“急促的喘息声”，对应“害怕”情感类别，“无奈的叹息声”对应“厌恶”情感类别，“哀怨的叹息声”对应“悲伤”情感类别，“叫喊声”对应“愤怕、惊讶、厌恶、愤怒，副语言与情感类别之间的映射关系具体为“笑声”对应“高兴”情感类别，“伤心的哭声”对应“悲伤”情感类别，“害怕的哭声”对应“害怕”情感类别，“质疑声”对应“惊讶”情感类别，“急促的喘息声”，对应“害怕”情感类别，“无奈的叹息声”对应“厌恶”情感类别，“哀怨的叹息声”对应“悲伤”情感类别，“叫喊声”对应“愤怒”情感类别；

基于声学语音情感特征的情感识别通道40，包括：

情感语料库41，采用31所述的情感语料库；

声学语音情感特征提取单元42：用于提取待识别情感语音信号中的声学语音情感特征，输入基于声学语音情感特征的情感识别模型，得出基于声学语音情感特征的情感识别通道的识别结果：待识别语音信号所包含的情感类别以及相应的概率；包括短时能量、过零率、梅尔倒谱系数、基音频率、音质、静音比率、前三个共振峰系数等，以及这些声学语音情感特征的最大值、最小值以及变化范围；

基于声学语音情感特征的情感识别模型训练单元43，用于训练基于声学语音情感特征的情感识别模型；

基于声学语音情感特征的情感状态识别模型，用于根据声学语音情感特征识别情感语音信号中所包含的情感类别和该情感类别的置信度，即得到基于声学语音情感特征的情感识别通道识别结果；情感类别包括高兴、悲伤、害怕、惊讶、厌恶和愤怒；

融合单元用于融合基于情感副语言的情感识别通道和基于声学语音情感特征的情感识别通道的识别结果，得出情感语音信号样本所包含的情感状态。

其中，在基于情感副语言的情感识别通道训练单元中，采用的统计模型可以为：支持向量机、高斯混合模型或隐马尔科夫模型；

在基于声学语音情感特征的情感识别通道训练单元中，采用的统计模型可以为：支持向量机、高斯混合模型或隐马尔科夫模型。

优选地，识别情感副语言所采用的语音特征提取单元和声学语音情感特征提取单元之前设有预处理单元，预处理单元用于对情感语音信号进行预处理，包括分帧、加窗和端点检测；

进一步地，提取识别情感副语言所采用的语音特征包括提取短时能量、过零率、梅尔倒谱系数、基音频率、音质、静音比率、前三个共振峰系数等，以及这些语音特征的最大值、最小值以及变化范围；

提取声学语音情感特征包括提取美尔倒谱系数、基频、时长、强度、振幅、音质、共振峰等，以及这些声学语音情感特征的最大值、最小值以及变化范围。

与现有技术相比，本发明非特定人语音情感识别方法及系统克服了传统语音情感特征易受说话人变化干扰的不足，充分利用情感副语言受说话人变化的影响比较小的特点，从情感语音信号中提取反应情感信息的情感副语言，用情感副语言包含的情感信息来辅助传统声学语音情感特征进行情感识别，从而达到提高语音情感识别鲁棒性和识别率的目的。

应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施方式中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明，它们并非用以限制本发明的保护范围，凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

Claims

1.一种非特定人语音情感识别方法，其特征在于，所述方法包括：

S1.提取待识别语音信号中用于识别情感副语言的语音特征，输入情感副语言识别模型，得出待识别语音信号所包含的情感副语言，并根据情感副语言与情感类别之间的对应关系，推测出副语言情感识别通道的情感识别结果：待识别语音信号所包含的情感类别以及相应的概率；所述情感副语言包括笑声、伤心的哭声、害怕的哭声、质疑声、急促的喘息声、无奈的叹息声、哀怨的叹息声以及叫喊声；

S2.提取待识别情感语音信号的声学情感特征，输入基于声学情感特征的语音情感识别模型，得出基于声学语音情感特征的情感识别通道的识别结果：待识别语音信号所包含的情感类别以及相应的概率；

S3.对所述基于副语言的情感识别通道和基于声学语音情感特征的情感识别通道的识别结果进行融合，得出待识别情感语音信号所包含的情感状态。

2.据根权利要求1所述的非特定人语音情感识别方法，其特征在于，所述步骤S1之前还包括下列步骤：

S01.建立基于情感副语言的语音情感识别通道，包括：

S011.建立情感语料库，使其中语音信号样本涉及的情感中的每种情感至少有15个语料，每个语料包含至少一种或多种所述情感副语言；所述情感副语言包括笑声、伤心的哭声、害怕的哭声、质疑声、急促的喘息声、无奈的叹息声、哀怨的叹息声以及叫喊声；

S013.在所述语音信号样本中提取用于识别所述情感副语言的语音特征；

S014.训练情感副语言识别模型；

S015.建立基于情感副语言的情感状态识别模型，基于情感副语言的情感状态识别模型中包括情感副语言识别模型集和情感副语言与情感类别之间的映射关系模型，用于识别情感副语言，以及情感副语言所对应的情感类别和该情感类别的置信度，并得到所述基于副语言的语音情感识别通道的识别结果；所述情感类别包括高兴、悲伤、害怕、惊讶、厌恶、愤怒，所述情感副语言与情感类别之间的映射关系具体为“笑声”对应“高兴”情感类别，“伤心的哭声”对应“悲伤”情感类别，“害怕的哭声”对应“害怕”情感类别，“质疑声”对应“惊讶”情感类别，“急促的喘息声”，对应“害怕”情感类别，“无奈的叹息声”对应“厌恶”情感类别，“哀怨的叹息声”对应“悲伤”情感类别，“叫喊声”对应“愤怒”情感类别；

S02.建立基于声学情感特征的语音情感识别通道，包括：

S021.采用S011所建立的情感语料库；

S023.对预处理后的语音信号提取声学语音情感特征；

S024.训练基于声学语音情感特征的语音情感识别模型；

S025.建立基于声学语音情感特征的情感状态识别模型，当待识别语音信号经过训练好的基于声学语音情感特征的语音情感识别模型，得到所述基于声学语音情感特征的情感识别通道识别结果；所述情感类别包括高兴、悲伤、害怕、惊讶、厌恶和愤怒。

3.根据权利要求1或2所述的非特定人语音情感识别方法，其特征在于，

所述识别情感副语言所用的语音特征包括：语音的短时能量、过零率、梅尔倒谱系数、基音频率、音质、静音比率、前三个共振峰系数等，以及这些语音特征的最大值、最小值以及变化范围；

所述声学语音情感特征包括，包括短时能量、过零率、梅尔倒谱系数、基音频率、音质、静音比率、前三个共振峰系数，以及所述传统语言语音特征的最大值、最小值以及变化范围。

4.根据权利要求2所述的非特定人语音情感识别方法，其特征在于，

所述步骤S1具体包括：

S12.从所述待识别语音信号样本中提取识别情感副语音所用的语音特征，包括提取短时能量、过零率、梅尔倒谱系数、基音频率、音质、静音比率、前三个共振峰系数等，以及这些语音特征的最大值、最小值以及变化范围；

S13.将提取的所述语音特征输入所述基于情感副语言的情感状态识别模型，通过副语言识别模型集识别，得到待识别语音信号样本中包含的情感副语言及其置信度；通过所述情感副语言与情感类别之间的映射关系模型识别，得到待识别语音信号所包含的情感类别及该情感类别的置信度，即得到待识别语音信号在所述的基于情感副语言的语音情感识别通道的识别结果。

5.根据权利要求2所述的非特定人语音情感识别方法，其特征在于，

所述步骤S2具体包括：

S22.从所述的待识别语音信号样本中的提取声学语音情感特征，包括美尔倒谱系数、基频、时长、强度、振幅、音质、共振峰等，以及所述声学情感特征的最大值、最小值以及变化范围；

S23.将提取的所述声学语音情感特征输入所述基于声学情感特征的语音情感状态识别模型，得到语音信号所包含的情感类别及该情感类别的置信度，即得到所述基于声学情感特征的语音情感识别通道的识别结果。

6.根据权利要求2所述的非特定人语音情感识别方法，其特征在于，

所述训练情感副语言识别模型中，采用的统计模型可以为：支持向量机、高斯混合模型或隐马尔科夫模型等统计模型；

所述训练基于声学语音情感特征的语音情感识别模型中，采用的统计模型可以为：支持向量机、高斯混合模型或隐马尔科夫模型等统计模型。

7.一种非特定人语音情感识别系统，其特征在于，所述系统包括：

基于情感副语言的语音情感识别通道，其中包括：

用于识别情感副语言的语音特征提取单元：用于提取待识别语音信号中用于识别情感副语言的语音特征，再输入情感副语言识别模型，得出待识别语音信号所包含的情感副语言及其概率。所述情感副语言包括笑声、伤心的哭声、害怕的哭声、质疑声、急促的喘息声、无奈的叹息声、哀怨的叹息声以及叫喊声；所述的用于识别情感副语言的语音特征包括：语音的短时能量、过零率、梅尔倒谱系数、基音频率、音质、静音比率、前三个共振峰系数等，以及这些语音特征的最大值、最小值以及变化范围；

基于情感副语言的情感状态识别模型，包括情感副语言识别模型集和情感副语言与情感类别之间的映射关系模型，所述情感类别包括高兴、悲伤、害怕、惊讶、愤怒、厌恶六类情感类别，“伤心的哭声”对应“悲伤”情感类别，“害怕的哭声”对应“害怕”情感类别，“质疑声”对应“惊讶”情感类别，“急促的喘息声”，对应“害怕”情感类别，“无奈的叹息声”对应“厌恶”情感类别，“哀怨的叹息声”对应“悲伤”情感类别，“叫喊声”对应“愤怕、惊讶、厌恶、愤怒，所述副语言与情感类别之间的映射关系具体为“笑声”对应“高兴”情感类别，“伤心的哭声”对应“悲伤”情感类别，“害怕的哭声”对应“害怕”情感类别，“质疑声”对应“惊讶”情感类别，“急促的喘息声”，对应“害怕”情感类别，“无奈的叹息声” 对应“厌恶”情感类别，“哀怨的叹息声”对应“悲伤”情感类别，“叫喊声”对应“愤怒”情感类别；

基于声学语音情感特征的语音情感识别通道，包括：

情感语料库采用基于情感副语言的语音情感识别通道中所录制的情感语料库；

声学语音情感特征提取单元：用于提取待识别情感语音信号中的声学语音情感特征，所述的声学语音情感特征包括：短时能量、过零率、梅尔倒谱系数、基音频率、音质、静音比率、前三个共振峰系数等，以及所述声学语音特征的最大值、最小值以及变化范围；

传统语言识别模型训练单元，用于训练传统语言识别模型；

基于声学语音情感特征的语音情感状态识别模型，该模型根据声学语音情感特征，识别情感语料中所包含的情感类别，并得到该情感类别的置信度，即得到所述基于声学语音情感特征的语音情感识别通道识别结果；所述情感类别包括高兴、悲伤、害怕、惊讶、厌恶和愤怒；

融合单元，用于融合所述基于情感副语言的语音情感识别通道和基于声学语音情感特征的语音情感识别通道的情感识别结果，得出情感语音信号样本所包含的情感状态。

8.根据权利要求6所述的非特定人语音情感识别系统，其特征在于，

所述副语言通道中，采用的统计模型为：支持向量机、高斯混合模型或隐马尔科夫模型；

所述声学语音情感特征通道中，采用的统计模型为：支持向量机、高斯混合模型或隐马尔科夫模型。

9.根据权利要求6所述的非特定人语音情感识别系统，其特征在于，

所述识别情感副语言的语音特征提取单元和声学语音情感特征提取单元之前设有预处理单元，包括分帧、加窗和端点检测。

10.根据权利要求6所述的非特定人语音情感识别系统，其特征在于，所述提取识别情感副语言的语音特征包括提取短时能量、过零率、梅尔倒谱系数、基音频率、音质、静音比率、前三个共振峰系数等，以及所述这些语音特征的最大值、最小值以及变化范围；

所述提取声学语音情感特征包括提取美尔倒谱系数、基频、时长、强度、振幅、音质、共振峰等，以及所述声学语音情感特征的最大值、最小值以及变化范围。