CN102881284A - 非特定人语音情感识别方法及系统 - Google Patents
非特定人语音情感识别方法及系统 Download PDFInfo
- Publication number
- CN102881284A CN102881284A CN2012103217853A CN201210321785A CN102881284A CN 102881284 A CN102881284 A CN 102881284A CN 2012103217853 A CN2012103217853 A CN 2012103217853A CN 201210321785 A CN201210321785 A CN 201210321785A CN 102881284 A CN102881284 A CN 102881284A
- Authority
- CN
- China
- Prior art keywords
- emotion
- paralanguage
- emotional
- classification
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
本发明提供了一种非特定人语音情感识别方法及系统,其中该方法包括:提取待识别语音信号中用于识别情感副语言的语音特征;提取待识别情感语音信号的声学语音情感特征;对所述基于情感副语言的情感识别通道和基于声学语音情感特征的情感识别通道的识别结果进行融合,得出待识别情感语音信号所包含的情感状态。本发明利用情感副语言特征受说话人变化的影响比较小的特点,从情感语音信号中提取反应情感信息的情感副语言,用情感副语言包含的情感信息来辅助传统的声学语音情感特征进行情感识别,从而达到提高语音情感识别鲁棒性和识别率的目的。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种非特定人语音情感识别方法及系统。
背景技术
语音情感识别技术的发展对推动智能化、人性化的新型人机交互技术的发展和应用具有重要的作用,如何使用计算机技术从语音中自动识别说话人的情感状态近年来受到各领域研究者的广泛关注。现有的语音情感识别研究,还存在较多局限性,尤其是语音情感特征参数在情感空间的分布会随着说话人的变化而变化,情感识别的准确率受说话人变化的影响较大,从而导致当待识别语音的说话人不在训练库中时,情感识别率会急剧下降,限制了语音情感识别在自然环境下的实际应用。
目前,消除声学情感特征中说话人个性化因素最常用的方法是采用说话人的中性情感语音特征对情感特征参数进行归一化,如:东南大学的赵力教授和浙江大学的谢波博士均采用将情感特征与说话人处于平静时的相应情感特征作差值运算的方法对情感特征进行归一化。这种采用中性情感语音特征对情感特征参数进行归一化的方法虽然能够在一定程度上消除说话人个性化说话特征的影响,但是必须要求待识别语音的说话人在识别前至少录制一句中性情感语句,这种要求在一定程度上限制了语音情感识别的实际应用。Vidhyasaharan Sethu等人提出了将所有的情感特征映射到同一种概率分布(正态分布)上,以此消除说话人个人说话特征对情感特征的分布带来的干扰,但将所有说话人的情感特征映射到正态分布是否能够有效地消除说话人个人说话特点的干扰且不丢失其中的情感信息,还缺乏理论的分析。
有鉴于此,有必要提供一种非特定人语音情感识别方法及系统以解决上述问题。
发明内容
本发明的目的在于克服现有语音情感识别方法的语音情感识别率容易受说话人变化影响的缺点,充分利用情感副语言受说话人变化干扰较小的特点,提供一种情感副语言辅助的非特定人语音情感识别方法及系统。
实现本发明目的的技术方案是:
一种非特定人语音情感识别方法,包括:
S1.提取待识别语音信号中用于识别情感副语言的语音特征,输入情感副语言识别模型,得出待识别语音信号所包含的情感副语言,并根据情感副语言与情感类别之间的对应关系,推测出基于情感副语言的情感识别通道的识别结果:待识别语音信号所包含的情感类别以及相应的概率;所述情感副语言包括笑声、伤心的哭声、害怕的哭声、质疑声、急促的喘息声、无奈的叹息声、哀怨的叹息声以及叫喊声;
S2.提取待识别情感语音信号的声学语音情感特征,输入基于声学语音情感特征的语音情感识别模型,得出基于声学语音情感特征的情感识别通道的识别结果:待识别语音信号所包含的情感类别以及相应的概率;
S3.对所述基于情感副语言的情感识别通道和基于声学语音情感特征的语言情感识别通道的识别结果进行融合,得出待识别情感语音信号所包含的情感状态。
作为本发明的进一步改进,所述步骤S1之前还包括下列步骤:
S01.建立基于情感副语言的语音情感识别通道,包括:
S011.建立情感语料库,使其中语音信号样本涉及的情感中的每种情感至少有15个语料,每个语料包含所述情感副语言;所述情感副语言包括笑声、伤心的哭声、害怕的哭声、质疑声、急促的喘息声、无奈的叹息声、哀怨的叹息声以及叫喊声;
S012.对所述语音信号样本进行预处理,包括预加重、加窗处理、分帧、端点检测;
S013.在所述语音信号中提取所述识别情感副语言所用的语音特征;
S014.训练情感副语言识别模型;
S015.建立基于情感副语言的语音情感状态识别模型,基于情感副语言的语音情感状态识别模型中包括情感副语言识别模型集和情感副语言与情感类别之间的映射关系模型,用于识别情感副语言,以及情感副语言所对应的情感类别和该情感类别的置信度,并得到所述基于情感副语言的语音情感识别通道识别结果;所述情感类别包括高兴、悲伤、害怕、惊讶、厌恶、愤怒,所述情感副语言与情感类别之间的映射关系具体为“笑声”对应“高兴”情感类别,“伤心的哭声”对应“悲伤”情感类别,“害怕的哭声”对应“害怕”情感类别,“质疑声”对应“惊讶”情感类别,“急促的喘息声”,对应“害怕”情感类别,“无奈的叹息声”对应“厌恶”情感类别,“哀怨的叹息声”对应“悲伤”情感类别,“叫喊声”对应“愤怒”情感类别;
S02.建立基于声学语音情感特征的语音情感识别通道,包括:
S021.采用S011所录制的情感语料库;
S022.对所述语音信号样本进行预处理,包括预加重、加窗处理、分帧、端点检测;
S023.在所述语音信号中提取声学语音情感特征;
S024.训练基于声学语音情感特征的情感识别模型;
S025.建立基于声学语音情感特征的的情感状态识别模型,用于根据声学语音情感特征识别语音信号所包含的情感类别和该情感类别的置信度,并得到所述基于声学语音情感特征的情感识别通道识别结果;所述情感类别包括高兴、悲伤、害怕、惊讶、厌恶和愤怒。
作为本发明的进一步改进,所述识别情感副语言所用的语音特征包括:语音的短时能量、过零率、梅尔倒谱系数、基音频率、音质、静音比率、前三个共振峰系数等,以及所述这些特征的最大值、最小值以及变化范围;
所述声学语音情感特征包括,包括短时能量、过零率、梅尔倒谱系数、基音频率、音质、静音比率、前三个共振峰系数,以及所述声学语音情感特征的最大值、最小值以及变化范围;
作为本发明的进一步改进,所述步骤S1具体包括:
S11.对待识别语音信号样本进行预处理,包括分帧、加窗和端点检测;
S12.从所述待识别语音信号样本中提取识别情感副语音所用的语音特征,包括提取短时能量、过零率、梅尔倒谱系数、基音频率、音质、静音比率、前三个共振峰系数等,以及所述这些语音特征的最大值、最小值以及变化范围;
S13.将提取的所述语音特征输入所述基于情感副语言的情感状态模型,通过情感副语言识别模型集识别,得到待识别语音信号样本中包含的情感副语言及其置信度;通过所述情感副语言与情感类别之间的映射关系模型,得到所述情感副语言对应的情感类别及该情感类别的置信度,并进一步得到所述基于情感副语言的语音情感识别通道的识别结果。
作为本发明的进一步改进,所述步骤S2具体包括:
S21.对待识别语音信号样本进行预处理,包括分帧、加窗和端点检测;
S22.从所述的待识别语音信号样本中的提取声学语音情感特征,包括美尔倒谱系数、基频、时长、强度、振幅、音质、共振峰等,以及所述声学语音情感特征的最大值、最小值以及变化范围;
S23.将提取的所述声学语音情感特征输入所述基于声学语音情感特征的情感状态识别模型,得到所述语音信号所包含的情感类别及该情感类别的置信度,即得到所述基于声学语音情感特征的语音情感识别通道的识别结果。
作为本发明的进一步改进,所述情感副语言识别模型采用:支持向量机、高斯混合模型或隐马尔科夫模型;
所述基于声学语音情感特征的情感语言识别模型采用:支持向量机、高斯混合模型或隐马尔科夫模型。
相应地,一种非特定人语音情感识别系统,包括:
识别情感副语言所用的语音特征提取单元:用于提取待识别语音信号中用于识别情感副语言的语音特征,输入情感副语言识别模型,得出待识别语音信号所包含的情感副语言,并根据情感副语言与情感类别之间的对应关系,推测出基于情感副语言的情感识别通道的识别结果:待识别语音信号所包含的情感类别以及相应的概率;所述情感副语言包括笑声、伤心的哭声、害怕的哭声、质疑声、急促的喘息声、无奈的叹息声、哀怨的叹息声以及叫喊声;所述识别情感副语言所采用的语音特征包括:语音的短时能量、过零率、梅尔倒谱系数、基音频率、音质、静音比率、前三个共振峰系数等,以及所述这些语音特征的最大值、最小值以及变化范围;
声学语音情感特征提取单元:用于提取待识别情感语音信号的声学语音情感特征,输入基于声学语音情感特征的情感识别模型,得出待识别语音信号所包含的情感状态,即得出基于声学语音情感特征的情感识别通道的识别结果:待识别语音信号所包含的情感类别以及相应的概率;
融合单元:用于对所述基于情感副语言的情感识别通道和基于声学语音情感特征的情感识别通道的识别结果进行融合,得出待识别情感语音信号所包含的情感状态。
作为本发明的进一步改进,所述非特定人语音情感识别系统还包括:
基于情感副语言的情感识别通道,其中包括:
情感语料库,语音信号样本涉及的情感中的每种情感至少有15个语料,每个语料包含至少一种所述情感副语言;所述情感副语言包括笑声、伤心的哭声、害怕的哭声、质疑声、急促的喘息声、无奈的叹息声、哀怨的叹息声以及叫喊声;
识别情感副语言所采用的语音特征提取单元,用于在所述语音信号中提取所述识别情感副语言所采用的语音特征;
情感副语言识别模型训练单元,用于训练情感副语言识别模型;
基于情感副语言的情感状态识别模型,包括情感副语言识别模型集和情感副语言与情感类别之间的映射关系模型,所述情感类别包括高兴、悲伤、害怕、厌恶、惊讶和愤怒六类情感类别,“伤心的哭声”对应“悲伤”情感类别,“害怕的哭声”对应“害怕”情感类别,“质疑声”对应“惊讶”情感类别,“急促的喘息声”,对应“害怕”情感类别,“无奈的叹息声”对应“厌恶”情感类别,“哀怨的叹息声”对应“悲伤”情感类别,“叫喊声”对应“愤怕、惊讶、厌恶、愤怒,所述副语言与情感类别之间的映射关系具体为“笑声”对应“高兴”情感类别,“伤心的哭声”对应“悲伤”情感类别,“害怕的哭声”对应“害怕”情感类别,“质疑声”对应“惊讶”情感类别,“急促的喘息声”,对应“害怕”情感类别,“无奈的叹息声”对应“厌恶”情感类别,“哀怨的叹息声”对应“悲伤”情感类别,“叫喊声”对应“愤怒”情感类别;
基于声学情感特征的情感状态识别通道,包括:
情感语料库,采用基于情感副语言的语音情感识别通道的情感语料库;
声学语音情感特征提取单元,用于在所述语音信号中提取声学语音情感特征;
基于声学语音情感特征的情感识别模型训练单元,用于训练基于声学情感特征的情感识别模型;
基于声学语音情感特征的情感状态识别模型,用于根据声学语音情感特征识别语音信号所包含的情感类别和该情感类别的置信度,即得到所述基于声学语音情感特征的情感识别通道识别结果;所述情感类别包括高兴、悲伤、害怕、惊讶、厌恶和愤怒;
融合单元,用于融合所述基于情感副语言的情感识别通道和基于声学语音情感特征的情感识别的识别结果,得出情感语音信号样本所包含的情感状态。
作为本发明的进一步改进,所述基于情感副语言的情感识别通道训练单元中,采用的统计模型可以为:支持向量机、高斯混合模型或隐马尔科夫模型;
所述基于声学语音情感特征的情感识别训练单元中,采用的统计模型可以为:支持向量机、高斯混合模型或隐马尔科夫模型。
作为本发明的进一步改进,所述识别情感副语言所用的语音特征提取单元和声学语音情感特征提取单元之前设有预处理单元,预处理单元用于对情感语音信号进行预处理,包括分帧、加窗和端点检测;
作为本发明的进一步改进,所述识别情感副语言的语音特征包括提取短时能量、过零率、梅尔倒谱系数、基音频率、音质、静音比率、前三个共振峰系数等,以及所述这些语音特征的最大值、最小值以及变化范围;
所述声学语音情感特征包括提取美尔倒谱系数、基频、时长、强度、振幅、音质、共振峰,以及所述声学语音情感特征的最大值、最小值以及变化范围。
本发明的有益效果是:克服了传统语音情感特征易受说话人变化干扰的不足,充分利用情感副语言受说话人变化的影响比较小的特点,从情感语音信号中提取反应情感信息的情感副语言,用情感副语言包含的情感信息来辅助传统的声学语音情感特征进行情感识别,从而达到提高语音情感识别鲁棒性和识别率的目的。
附图说明
图1为本发明一实施例中非特定人语音情感识别方法的流程图。
图2为图1中步骤S1的具体流程图。
图3为图1中步骤S2的具体流程图。
图4为本发明非特定人语音情感识别方法的框架图。
图5为本发明非特定人语音情感识别系统的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
参图1所示为本发明非特定人语音情感识别方法的流程图。该方法包括:
S1.提取待识别语音信号中用于识别情感副语言的语音特征,输入情感副语言识别模型,得出待识别语音信号所包含的情感副语言,并根据情感副语言与情感类别之间的对应关系,推测出基于情感副语言的情感识别通道的识别结果:待识别语音信号所包含的情感类别以及相应的概率;情感副语言包括笑声、伤心的哭声、害怕的哭声、质疑声、急促的喘息声、无奈的叹息声、哀怨的叹息声以及叫喊声;
S2.提取待识别情感语音信号的声学语音情感特征,输入基于声学语音情感特征的情感识别模型,得出基于声学语音情感特征的情感识别通道的识别结果:待识别语音信号所包含的情感类别以及相应的概率;
S3.对基于情感副语言的情感识别通道和基于声学语音情感特征的情感识别通道的识别结果进行融合,得出待识别情感语音信号所包含的情感状态。
优选地,在步骤S1之前还包括下列步骤:
S01.建立基于情感副语言的情感识别通道,包括:
S011.建立情感语料库,使其中语音信号样本涉及的情感中的每种情感至少有15个语料,每个语料至少包含一种情感副语言;情感副语言包括笑声、伤心的哭声、害怕的哭声、质疑声、急促的喘息声、无奈的叹息声、哀怨的叹息声以及叫喊声;
S012.对语音信号样本进行预处理,包括预加重、加窗处理、分帧、端点检测;
S013在预处理后的语音信号中提取识别情感副语言的语音特征;
S014.训练情感副语言识别模型;
S015.建立基于情感副语言的情感状态识别模型,基于情感副语言的情感状态识别模型中包括情感副语言识别模型集和情感副语言与情感类别之间的映射关系模型,用于识别情感副语言,以及情感副语言所对应的情感类别和该情感类别的置信度,并得到基于情感副语言烦人情感识别通道识别结果;情感类别包括高兴、悲伤、害怕、惊讶、厌恶、愤怒,情感副语言与情感类别之间的映射关系具体为“笑声”对应“高兴”情感类别,“伤心的哭声”对应“悲伤”情感类别,“害怕的哭声”对应“害怕”情感类别,“质疑声”对应“惊讶”情感类别,“急促的喘息声”,对应“害怕”情感类别,“无奈的叹息声”对应“厌恶”情感类别,“哀怨的叹息声”对应“悲伤”情感类别,“叫喊声”对应“愤怒”情感类别;
S02.建立基于声学语音情感特征的情感识别通道,包括:
S021.采用S011中所建立的情感语料库;
S022.对语音信号进行预处理,包括预加重、加窗处理、分帧、端点检测;
S023.在经过预处理后的语音信号中提取声学语音情感特征;
S024.训练基于声学语音情感特征的情感识别模型;
S025.建立基于声学语音情感特征的情感识别模型,用于根据声学情感特征,识别语音信号中所包含的情感类别和该情感类别的置信度,即得到基于声学语音情感特征的情感识别通道识别结果;情感类别包括高兴、悲伤、害怕、惊讶、厌恶和愤怒。
本发明中的识别情感副语言所采用的语音特征包括:语音的短时能量、过零率、梅尔倒谱系数、基音频率、音质、静音比率、前三个共振峰系数等,以及这些语音特征的最大值、最小值以及变化范围;
声学语音情感特征包括,包括短时能量、过零率、梅尔倒谱系数、基音频率、音质、静音比率、前三个共振峰系数,以及这些声学语音情感特征的最大值、最小值以及变化范围;
其中,参图2所示,步骤S1具体包括:
S11.对待识别语音信号样本进行预处理,包括分帧、加窗和端点检测;
S12.从待识别语音信号样本中提取识别情感副语音所采用的语音特征,包括提取短时能量、过零率、梅尔倒谱系数、基音频率、音质、静音比率、前三个共振峰系数等,以及这些语音特征的最大值、最小值以及变化范围;
S13.将提取的语音特征输入基于情感副语言的情感状态模型,通过情感副语言识别模型集识别,得到待识别语音信号样本中包含的情感副语言及其置信度;通过情感副语言与情感类别之间的映射关系模型识别,得到情感副语言对应的情感类别及该情感类别的置信度,即得到基于情感副语言的情感识别通道的识别结果。
参图3所示,步骤S2具体包括:
S21.对待识别语音信号样本进行预处理,包括分帧、加窗和端点检测;
S22.从的待识别语音信号样本中的提取声学语音情感特征,包括美尔倒谱系数、基频、时长、强度、振幅、音质、共振峰等,以及声学语音情感特征的最大值、最小值以及变化范围;
S23.将提取的声学语音情感特征输入基于声学语音情感特征的情感状态识别模型,得到待识别语音信号所包含的情感类别及该情感类别的置信度,即得到基于声学语音情感特征的情感识别通道的识别结果。
本发明通过提取情感语料中的情感副语言来辅助传统声学语音情感特征进行情感语料中情感状态的识别,为语音情感识别提供更多的说话人鲁棒的语音情感信息,最终提高语音情感识别方法对说话人变化的鲁棒性。
本发明中的情感副语言属于狭义副语言范畴,内容包括伴随语音的某些声音现象,如哭声、笑声、叹息声等。情感语料库中录制了涵盖日常生活中常用的情感副语音,如哭声、笑声、叹息声、喘息声、质疑声以及叫喊声等。语料库包含六类情感,分别为高兴、伤心、惊奇、生气、害怕、厌恶。根据语境自然的嵌入情感副预言,如高兴常伴有笑声,伤心常伴有哭声等。每种情感有15个语料,每个语料都易于加入相应的情感,使得录制者较易进入情感状态。所有脚本内容不同,且包含较丰富的情感副语言如哭声、笑声、叹息声等。优选地,情感语料库由五个男生六个女生在专业的录音室录制而成,采样率为11025Hz,样本均保存为wav格式。
采集好情感语料后,本发明的具体实施分为训练、识别和融合三个阶段,结合图4所示,分别从训练、识别和融合三个阶段作进一步说明。
一、训练阶段
1、对情感语音信号进行预处理:这一步是采用传统的语音信号预处理方法对情感语音信号进行预处理,包括预加重、加窗处理、分帧、端点检测。
2、识别情感副语言所采用的语音特征的提取和情感副语言识别模型的训练:
2.1提取识别情感副语言所用的语音特征,包括短时能量、过零率、梅尔倒谱系数(前12个系数)、基音频率、音质、静音比率、前三个共振峰系数等,以及这些特征的最大值、最小值以及变化范围等统计特征。
2.2对情感副语言识别模型进行训练,这里的识别模型可采用诸如SVM(Support VectorMachine支持向量机)、GMM(Gaussian Mixture Model高斯混合模型)以及HMM(HiddenMarkov Model隐马尔科夫模型)之类的各种统计模型。
3、传统的声学语音情感特征的提取和基于声学语音情感特征的语音情感识别模型的训练:
3.1提取包括美尔倒谱系数、基频、时长、强度、振幅、音质以及共振峰等语音的声学语音情感特征,并在情感语段上分别提取这些特征的最大值、最小值以及变化范围等统计特征。
3.2对基于声学语音情感特征的语音情感识别模型进行训练,这里的识别模型可采用诸如SVM、GMM以及HMM之类的各种统计模型,方法与本阶段第2.2步相同。
二、识别阶段
识别阶段是将待识别的情感语音信号输入第一阶段训练好的模型,计算得出该情感语音信号在每个通道的情感状态识别结果,分三步实施。
1、对情感语音信号进行预处理,所采用的方法同训练阶段的第1步。
2、待识别情感语音信号中识别情感副语言所用的语音特征的提取和基于情感副语言的语音情感识别。
2.1提取待识别情感语料中识别情感副语言所采用的语音特征,所采用的方法同训练阶段的2.1步。
2.2识别待识别情感语料中所包含的情感副语言。
将本阶段2.1步所提取的待识别语料中识别情感副语言所采用的语音特征输入第一阶段2.2步已经训练好的情感副语言识别模型,计算得出该待识别情感语音信号所包含的情感副语言。
2.3建立情感副语言的语音情感状态之间的映射关系,并将此时情感副语言识别的置信度作为相应的情感状态的置信度。
建立情感副语言与情感状态之间的映射关系如下:
若识别出待识别情感语音信号中的情感副语言为“笑声”,则推断该情感语音信号所反映的是“高兴”情感状态;
若识别出待识别情感语音信号中的情感副语言为“伤心的哭声”,则推断该情感语音信号所反映的是“悲伤”情感状态;
若识别出待识别情感语音信号中的情感副语言为“害怕的哭声”,则推断该情感语音信号所反映的是“害怕”情感状态;
若识别出待识别情感语音信号中的情感副语言为“质疑声”,则推断该情感语音信号所反映的是“惊讶”情感状态;
若识别出待识别情感语音信号中的情感副语言为“急促的喘息声”,则推断该情感语音信号所反映的是“害怕”情感状态;
若识别出待识别情感语音信号中的情感副语言为“无奈的叹息声”,则推断该情感语音信号所反映的是“厌恶”情感状态;
若识别出待识别情感语音信号中的情感副语言为“哀怨的叹息声”,则推断该情感语音信号所反映的是“悲伤”情感状态;
若识别出待识别情感语音信号中的情感副语言为“叫喊声”,则推断该情感语音信号所反映的是“愤怒”情感状态。
3、提取待识别情感语音信号的声学语音情感特征并采用所提取的声学语音情感特征识别待识别情感语音信号所包含的情感状态。
3.1待识别情感语音信号的声学语音情感特征的提取,所采用的提取方法同训练阶段的3.1步。
3.2将本阶段3.1步所提取的待识别语料的声学语音情感特征输入第一阶段3.2步已经训练好的基于声学语音情感特征的语音情感识别模型,得出该待识别情感语音信号所属的情感状态。
其中,在步骤2.2和3.2中的基于SVM模型概率置信度计算方法如下:
优选地,本发明使用‘一对一’SVM模型进行分类识别,SVM决策是采用投票机制的,对于N个模型,相当于有N*(N-1)个专家进行投票,每个情感类别均有一个概率,概率最高者被选为最终识别结果。
算法所用的基于SVM的置信度由两部分组成:
1、计算待测样本到分类决策面距离,距离大于一定阈值时,即决策函数值大于一定的阈值时,取这N*(N-1)个决策距离的平均值。我们接受投票即认为专家投票是有效的,否则认为无效不计入总票数。对于类别i,其得到的有效票数为V,而其可信投票数为v,则类别i对应的概率置信度为:conf(i)=v/V。
2、计算情感概率之间的分辨率,对N个情感类别,每个待识别样本经模型识别后得出对应的该样本属于N个情感概率,记为P1,P2,...PN,则输出概率Pi的分辨率为该输出概率与其余所有输出概率的平均值之差,其计算方法如公式(1)所示:
综合1和2,得到该样属于各情感类别的置信度,置信度的值公式为:
(conf+conf’)/2 (2)
三、融合阶段
根据第二阶段识别阶段中第2.3步得出基于情感副语言的待识别情感语音信号情感状态和第3.2步得出的基于声学语音情感特征的情感语音信号的情感状态,按照如下融合方法对两个通道的识别结果进行融合,得出待识别情感语料所属的最终情感状态。
在本实施方式中,假设有情感副语言类别p个,经过特征提取和训练,得到拥有p个情感副语音类别模型的模型组。同样的对于s个语音情感类别,经过声学语音情感特征提取及训练模型过程,得到一组拥有s个基于声学语音情感特征的语音情感识别模型的模型组,并将这两组模型分别命名为PM和SM。
为了描述方便,算法中定义各符号含义如下:ParaChannel、SpeechChannel分别代表基于情感副语音的情感识别通道(以下简称情感副语言通道)与基于声学语音情感特征的情感识别通道(以下简称声学语音情感特征通道);X={x1,x2,...xi...xn},i=1,2,3...n代表待测样本集合;R代表经识别后每个样本对应的所属情感类别集合;PP、SP分别代表情感副语音通道的模型概率向量与声学语音情感特征通道的模型概率向量;Pconf、Sconf分别代表两通道的模型概率置信度向量;PSum代表情感类别对应的情感副语音通道与声学语音情感特征通道的概率之和,TP代表概率之和平均值;Csum代表情感类别对应的情感副语音通道与声学语音情感特征通道的置信度之和,TC代表置信度之和平均值。
具体的融合步骤如下所示:
Input:待测样本集合X。
Output:s类语音情感的识别率speech_rate。
Step1:取待测样本xi,将其输入到这两组模型PM和SM中进行识别。分别得到两组模型的模型概率向量PPi=[pp1 pp2...ppp]和SPi=[sp1 sp2...sps]。
Step2:如果情感副语音通道ParaChannel的识别结果与声学语音情感特征通道SpeechChannel的识别结果一致,即具有同2.3中描述的关联关系,则将该识别结果作为样本xi最终所属的情感类别,进入Step7,继续识别下一个待测样本;如果两通道识别结果不一致,则进入Step3。
Step3:根据公式(2)分别计算两通道ParaChannel和SpeechChannel对待测样本xi识别结果的置信度,并记为:Pconfi=[pconf1 pconf2...pconfp]和Sconfi=[sconf1 sconf2...sconfs]。
Step4:对两通道ParaChannel和SpeechChannel的输出概率分别设一个概率阈值,分别记为ηp和ηs。这里的阈值ηp和ηs的初始值分别设为两个通道对样本xi识别后输出的概率的平均值。
Step5:分别保留样本xi在两通道ParaChannel和SpeechChannel的模型输出概率向量中,分别大于ηp、ηs的输出概率所对应的情感类别,称其为待识别样本的候选类别。并将样本xi的情感副语音通道的候选类别记为{PC1,PC2,...,PCn},其中n<p,声学语音情感特征通道的候选类别记为{SC1,SC2,...,SCn’},其中n’<s。
Step6:对Step5中所得到的两组候选类别进行统计,将候选类别按照统计结果从大到小的顺序进行排序后保存,得到向量Vote={C1,C2,...,Cm},其中max(n,n’)<m<n+n’,且类别统计结果最大值为2,最小值为1。则根据如下规则得出样本xi的最终识别结果。
(1)若候选类别中只有一个情感类别出现次数为2,即C1=2,C2=1,...,Ci=1,...,Cm=1。则作如下操作:对Vote集合中的每个情感类别,若其在情感副语音特征通道中有对应的情感副语音类别(一个或多于一个),即有关联关系,则计算其在ParaChannel和SpeechChannel两个通道中的输出概率之和以及置信度之和,并取平均,将此平均概率和平均置信度作为该类别的新的概率值和置信度值;若没有对应的情感副语音类别,则维持声学语音情感特征通道的概率与置信度值不变。对上述得到的概率按照从大到小的顺序排序,分别记为PSum={psumk},k=1,2,3,...,与Csum={csumj},j=1,2,3,...则有如下规则:
1)若情感类别C1对应的通道ParaChannel或通道SpeechChannel的概率与置信度在对应通道中均为最大,则情感类别C1为待测样本的最终所属的情感类别,记为R(i)=C1,并跳转到Step7,继续识别下一个待测样本,否则,执行本规则中的步骤2)。
2)若情感类别C1对应的新的概率值psum1最大,即max(Psum)=psum1,则情感类别C1为待测样本的最终所属的情感类别,即R(i)=C1,并跳转到Step7,继续识别下一个待测样本,否则,执行本规则中的步骤3)。
3)按照Psum集合中概率由大到小的次序选取候选类别Vote集合中对应的的情感类别,记为Ck。如果情感类别Ck对应的概率大于平均概率且置信度大于平均置信度,即psumk>mean(Psum)且csumk>mean(Psum),则待识别样本所属的情感类别为Ck,即R(i)=Ck,否则继续考查下一个候选情感类别,令k=k+1,直到找到满足条件的待识别样本所属情感类别或者候选类别考察结束。若得到满足条件的待识别样本所属情感类别,则跳转到Step7,继续识别下一个待测样本。若候选类别考察结束仍未得到待识别样本所属情感类别,则选择Psum集合中最大概率所对应的候选类别作为待识别样本所属情感类别,即若Psumk=max(Psum),则R(i)=Ck。
(2)若候选类别中出现次数为2的情感类别多于1个,即C1=2,C2=2,...,Ci=2,...,Cm=1。则做如下处理:首先,将这m个候选类别按照统计结果(2和1)分别划分到两个集合中,分别记为集合A={C1,C2,...,Ci}与B={Ci+1,...,Cm}。其次,分别对集合A和B中候选类别作如规则(1)中的处理,得到新的概率集合与置信度集合,并求所有候选类别的概率平均值与置信度平均值,分别记为:
PsumA={psumAk},k=1,2,3,...,CsumA={csumAj},j=1,2,3,...,PsumB={psumBk},k=1,2,3,...,
CsumB={csumBj},j=1,2,3,...,TP=mean(PsumA+PsumB),TC=mean(CsumA+CsumB)。
则有如下规则:
1)按照PsumA集合中概率由大到小的顺序选取集合A中对应的候选类别,记为Ck。判断Ck在PsumA集合与CsumA集合中的概率与置信度是否大于概率平均值TP以及置信度平均值TC,即若psumAk>TP,且csumAk>TC,则待识别样本的情感类别为Ck,记为R(i)=Ck,否则取下一个情感类别,令k=k+1,直至得到待识别样本所属的情感类别或者集合A中的候选类别考察结束。若得到满足条件的待识别样本所属情感类别,则跳转到Step7,继续识别下一个待测样本。若集合A中的候选类别考察结束则执行本规则中的步骤2)。
2)依次考查集合B中的情感类别,考查方法同规则(2)中的步骤1)。若得到待识别样本所属的情感类别,则跳转到Step7,继续识别下一个待测样本,否则执行本规则中的步骤3)。
3)若考查完集合A和集合B后仍未得到待识别样本所属的情感类别,则选取声学语音情感特征通道SpeechChannel中输出概率最大的情感类别作为待识别样本所属的情感类别,即R(i)=max(SP),并跳转到Step7,继续识别下一个待测样本。
(3)若不存在出现次数为2的候选类别,即C1=1,C2=1,...,Ci=1,...,Cm=1,说明ParaChannel和SpeechChannel的识别结果完全不一致,则首先作同规则(1)与(2)中的操作,得到候选类别新的概率集合Psum与置信度集合Csum,以及它们的概率平均值TP与置信度平均值TC。采用类似于规则(2)的方法分别考查每一个候选类别,具体规则如下:
1)按照Psum集合中的概率由大到小的次序分别考查对应的候选类别,记为Ck,并判断其所对应的概率与置信度是否大于概率平均值以及置信度平均值,即若psumk>TP,且csumk>TC,则情感类别Ck为待识别样本所属的情感类别,记为R(i)=Ck,并跳转到Step7,继续识别下一个待测样本,否则执行本规则中的步骤2)。
2)继续考查下一个候选情感类别,令k=k+1,直到找到满足条件的待识别样本所属情感类别或者候选类别考察结束。若得到满足条件的待识别样本所属情感类别,则跳转到Step7,继续识别下一个待测样本。若候选类别考察结束仍未得到待识别样本所属情感类别,则选择声学语音情感特征通道SpeechChannel输出概率最大的候选类别作为待识别样本所属情感类别,即R(i)=max(SP)。
Step7:若待识别样本集合X中的样本未识别完,则跳到step1,重复以上步骤。
Step8:求s类情感识别率向量speech_rate。统计向量R中各情感类别所对应的正确分类的分量个数,即为样本正确分类个数。记情感类别为i,其对应的正确分类样本个数为Ti以及测试样本总个数为Ni,则i类别的识别率计算公式为speech_rate(i)=Ti/Ni,i=1,2,3,...,s。
Setp9:融合算法结束。
相应地,如图5所示,本发明一实施方式中非特定人语音情感识别系统,包括:
语音信号预处理单元10:用于对情感语音信号进行预处理,包括:包括预加重、加窗处理、分帧、端点检测。
融合单元20:用于对基于情感副语言的情感识别通道和基于声学语音情感特征的情感识别通道的识别结果进行融合,得出待识别情感语音信号所包含的情感状态。
基于情感副语言的情感识别通道30,包括:
情感语料库31,语音信号样本涉及的情感中的每种情感至少有15个语料,每个语料包含至少一种情感副语言;情感副语言包括笑声、伤心的哭声、害怕的哭声、质疑声、急促的喘息声、无奈的叹息声、哀怨的叹息声以及叫喊声;
识别情感副语言所采用的语音特征提取单元32:用于提取待识别语音信号中用于识别情感副语言的语音特征,输入情感副语言识别模型,得出待识别语音信号所包含的情感副语言,并根据情感副语言与情感类别之间的对应关系,推测出情感副语言情感识别通道的识别结果:待识别语音信号所包含的情感类别以及相应的概率;情感副语言包括笑声、伤心的哭声、害怕的哭声、质疑声、急促的喘息声、无奈的叹息声、哀怨的叹息声以及叫喊声;识别情感副语言所采用的语音特征包括:语音的短时能量、过零率、梅尔倒谱系数、基音频率、音质、静音比率、前三个共振峰系数等,以及这些语音特征的最大值、最小值以及变化范围;
副语言识别模型训练单元33,用于训练副语言识别模型;
基于副语言特征的情感状态模型,包括副语言识别模型集和副语言与情感类别之间的映射关系模型,情感类别包括高兴、悲伤、害情感类别,“伤心的哭声”对应“悲伤”情感类别,“害怕的哭声”对应“害怕”情感类别,“质疑声”对应“惊讶”情感类别,“急促的喘息声”,对应“害怕”情感类别,“无奈的叹息声”对应“厌恶”情感类别,“哀怨的叹息声”对应“悲伤”情感类别,“叫喊声”对应“愤怕、惊讶、厌恶、愤怒,副语言与情感类别之间的映射关系具体为“笑声”对应“高兴”情感类别,“伤心的哭声”对应“悲伤”情感类别,“害怕的哭声”对应“害怕”情感类别,“质疑声”对应“惊讶”情感类别,“急促的喘息声”,对应“害怕”情感类别,“无奈的叹息声”对应“厌恶”情感类别,“哀怨的叹息声”对应“悲伤”情感类别,“叫喊声”对应“愤怒”情感类别;
基于声学语音情感特征的情感识别通道40,包括:
情感语料库41,采用31所述的情感语料库;
声学语音情感特征提取单元42:用于提取待识别情感语音信号中的声学语音情感特征,输入基于声学语音情感特征的情感识别模型,得出基于声学语音情感特征的情感识别通道的识别结果:待识别语音信号所包含的情感类别以及相应的概率;包括短时能量、过零率、梅尔倒谱系数、基音频率、音质、静音比率、前三个共振峰系数等,以及这些声学语音情感特征的最大值、最小值以及变化范围;
基于声学语音情感特征的情感识别模型训练单元43,用于训练基于声学语音情感特征的情感识别模型;
基于声学语音情感特征的情感状态识别模型,用于根据声学语音情感特征识别情感语音信号中所包含的情感类别和该情感类别的置信度,即得到基于声学语音情感特征的情感识别通道识别结果;情感类别包括高兴、悲伤、害怕、惊讶、厌恶和愤怒;
融合单元用于融合基于情感副语言的情感识别通道和基于声学语音情感特征的情感识别通道的识别结果,得出情感语音信号样本所包含的情感状态。
其中,在基于情感副语言的情感识别通道训练单元中,采用的统计模型可以为:支持向量机、高斯混合模型或隐马尔科夫模型;
在基于声学语音情感特征的情感识别通道训练单元中,采用的统计模型可以为:支持向量机、高斯混合模型或隐马尔科夫模型。
优选地,识别情感副语言所采用的语音特征提取单元和声学语音情感特征提取单元之前设有预处理单元,预处理单元用于对情感语音信号进行预处理,包括分帧、加窗和端点检测;
进一步地,提取识别情感副语言所采用的语音特征包括提取短时能量、过零率、梅尔倒谱系数、基音频率、音质、静音比率、前三个共振峰系数等,以及这些语音特征的最大值、最小值以及变化范围;
提取声学语音情感特征包括提取美尔倒谱系数、基频、时长、强度、振幅、音质、共振峰等,以及这些声学语音情感特征的最大值、最小值以及变化范围。
与现有技术相比,本发明非特定人语音情感识别方法及系统克服了传统语音情感特征易受说话人变化干扰的不足,充分利用情感副语言受说话人变化的影响比较小的特点,从情感语音信号中提取反应情感信息的情感副语言,用情感副语言包含的情感信息来辅助传统声学语音情感特征进行情感识别,从而达到提高语音情感识别鲁棒性和识别率的目的。
应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施方式中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。
Claims (10)
1.一种非特定人语音情感识别方法,其特征在于,所述方法包括:
S1.提取待识别语音信号中用于识别情感副语言的语音特征,输入情感副语言识别模型,得出待识别语音信号所包含的情感副语言,并根据情感副语言与情感类别之间的对应关系,推测出副语言情感识别通道的情感识别结果:待识别语音信号所包含的情感类别以及相应的概率;所述情感副语言包括笑声、伤心的哭声、害怕的哭声、质疑声、急促的喘息声、无奈的叹息声、哀怨的叹息声以及叫喊声;
S2.提取待识别情感语音信号的声学情感特征,输入基于声学情感特征的语音情感识别模型,得出基于声学语音情感特征的情感识别通道的识别结果:待识别语音信号所包含的情感类别以及相应的概率;
S3.对所述基于副语言的情感识别通道和基于声学语音情感特征的情感识别通道的识别结果进行融合,得出待识别情感语音信号所包含的情感状态。
2.据根权利要求1所述的非特定人语音情感识别方法,其特征在于,所述步骤S1之前还包括下列步骤:
S01.建立基于情感副语言的语音情感识别通道,包括:
S011.建立情感语料库,使其中语音信号样本涉及的情感中的每种情感至少有15个语料,每个语料包含至少一种或多种所述情感副语言;所述情感副语言包括笑声、伤心的哭声、害怕的哭声、质疑声、急促的喘息声、无奈的叹息声、哀怨的叹息声以及叫喊声;
S012.对所述语音信号样本进行预处理,包括预加重、加窗处理、分帧、端点检测;
S013.在所述语音信号样本中提取用于识别所述情感副语言的语音特征;
S014.训练情感副语言识别模型;
S015.建立基于情感副语言的情感状态识别模型,基于情感副语言的情感状态识别模型中包括情感副语言识别模型集和情感副语言与情感类别之间的映射关系模型,用于识别情感副语言,以及情感副语言所对应的情感类别和该情感类别的置信度,并得到所述基于副语言的语音情感识别通道的识别结果;所述情感类别包括高兴、悲伤、害怕、惊讶、厌恶、愤怒,所述情感副语言与情感类别之间的映射关系具体为“笑声”对应“高兴”情感类别,“伤心的哭声”对应“悲伤”情感类别,“害怕的哭声”对应“害怕”情感类别,“质疑声”对应“惊讶”情感类别,“急促的喘息声”,对应“害怕”情感类别,“无奈的叹息声”对应“厌恶”情感类别,“哀怨的叹息声”对应“悲伤”情感类别,“叫喊声”对应“愤怒”情感类别;
S02.建立基于声学情感特征的语音情感识别通道,包括:
S021.采用S011所建立的情感语料库;
S022.对所述语音信号样本进行预处理,包括预加重、加窗处理、分帧、端点检测;
S023.对预处理后的语音信号提取声学语音情感特征;
S024.训练基于声学语音情感特征的语音情感识别模型;
S025.建立基于声学语音情感特征的情感状态识别模型,当待识别语音信号经过训练好的基于声学语音情感特征的语音情感识别模型,得到所述基于声学语音情感特征的情感识别通道识别结果;所述情感类别包括高兴、悲伤、害怕、惊讶、厌恶和愤怒。
3.根据权利要求1或2所述的非特定人语音情感识别方法,其特征在于,
所述识别情感副语言所用的语音特征包括:语音的短时能量、过零率、梅尔倒谱系数、基音频率、音质、静音比率、前三个共振峰系数等,以及这些语音特征的最大值、最小值以及变化范围;
所述声学语音情感特征包括,包括短时能量、过零率、梅尔倒谱系数、基音频率、音质、静音比率、前三个共振峰系数,以及所述传统语言语音特征的最大值、最小值以及变化范围。
4.根据权利要求2所述的非特定人语音情感识别方法,其特征在于,
所述步骤S1具体包括:
S11.对待识别语音信号样本进行预处理,包括分帧、加窗和端点检测;
S12.从所述待识别语音信号样本中提取识别情感副语音所用的语音特征,包括提取短时能量、过零率、梅尔倒谱系数、基音频率、音质、静音比率、前三个共振峰系数等,以及这些语音特征的最大值、最小值以及变化范围;
S13.将提取的所述语音特征输入所述基于情感副语言的情感状态识别模型,通过副语言识别模型集识别,得到待识别语音信号样本中包含的情感副语言及其置信度;通过所述情感副语言与情感类别之间的映射关系模型识别,得到待识别语音信号所包含的情感类别及该情感类别的置信度,即得到待识别语音信号在所述的基于情感副语言的语音情感识别通道的识别结果。
5.根据权利要求2所述的非特定人语音情感识别方法,其特征在于,
所述步骤S2具体包括:
S21.对待识别语音信号样本进行预处理,包括分帧、加窗和端点检测;
S22.从所述的待识别语音信号样本中的提取声学语音情感特征,包括美尔倒谱系数、基频、时长、强度、振幅、音质、共振峰等,以及所述声学情感特征的最大值、最小值以及变 化范围;
S23.将提取的所述声学语音情感特征输入所述基于声学情感特征的语音情感状态识别模型,得到语音信号所包含的情感类别及该情感类别的置信度,即得到所述基于声学情感特征的语音情感识别通道的识别结果。
6.根据权利要求2所述的非特定人语音情感识别方法,其特征在于,
所述训练情感副语言识别模型中,采用的统计模型可以为:支持向量机、高斯混合模型或隐马尔科夫模型等统计模型;
所述训练基于声学语音情感特征的语音情感识别模型中,采用的统计模型可以为:支持向量机、高斯混合模型或隐马尔科夫模型等统计模型。
7.一种非特定人语音情感识别系统,其特征在于,所述系统包括:
基于情感副语言的语音情感识别通道,其中包括:
情感语料库,语音信号样本涉及的情感中的每种情感至少有15个语料,每个语料包含至少一种所述情感副语言;所述情感副语言包括笑声、伤心的哭声、害怕的哭声、质疑声、急促的喘息声、无奈的叹息声、哀怨的叹息声以及叫喊声;
用于识别情感副语言的语音特征提取单元:用于提取待识别语音信号中用于识别情感副语言的语音特征,再输入情感副语言识别模型,得出待识别语音信号所包含的情感副语言及其概率。所述情感副语言包括笑声、伤心的哭声、害怕的哭声、质疑声、急促的喘息声、无奈的叹息声、哀怨的叹息声以及叫喊声;所述的用于识别情感副语言的语音特征包括:语音的短时能量、过零率、梅尔倒谱系数、基音频率、音质、静音比率、前三个共振峰系数等,以及这些语音特征的最大值、最小值以及变化范围;
情感副语言识别模型训练单元,用于训练情感副语言识别模型;
基于情感副语言的情感状态识别模型,包括情感副语言识别模型集和情感副语言与情感类别之间的映射关系模型,所述情感类别包括高兴、悲伤、害怕、惊讶、愤怒、厌恶六类情感类别,“伤心的哭声”对应“悲伤”情感类别,“害怕的哭声”对应“害怕”情感类别,“质疑声”对应“惊讶”情感类别,“急促的喘息声”,对应“害怕”情感类别,“无奈的叹息声”对应“厌恶”情感类别,“哀怨的叹息声”对应“悲伤”情感类别,“叫喊声”对应“愤怕、惊讶、厌恶、愤怒,所述副语言与情感类别之间的映射关系具体为“笑声”对应“高兴”情感类别,“伤心的哭声”对应“悲伤”情感类别,“害怕的哭声”对应“害怕”情感类别,“质疑声”对应“惊讶”情感类别,“急促的喘息声”,对应“害怕”情感类别,“无奈的叹息声” 对应“厌恶”情感类别,“哀怨的叹息声”对应“悲伤”情感类别,“叫喊声”对应“愤怒”情感类别;
基于声学语音情感特征的语音情感识别通道,包括:
情感语料库采用基于情感副语言的语音情感识别通道中所录制的情感语料库;
声学语音情感特征提取单元:用于提取待识别情感语音信号中的声学语音情感特征,所述的声学语音情感特征包括:短时能量、过零率、梅尔倒谱系数、基音频率、音质、静音比率、前三个共振峰系数等,以及所述声学语音特征的最大值、最小值以及变化范围;
传统语言识别模型训练单元,用于训练传统语言识别模型;
基于声学语音情感特征的语音情感状态识别模型,该模型根据声学语音情感特征,识别情感语料中所包含的情感类别,并得到该情感类别的置信度,即得到所述基于声学语音情感特征的语音情感识别通道识别结果;所述情感类别包括高兴、悲伤、害怕、惊讶、厌恶和愤怒;
融合单元,用于融合所述基于情感副语言的语音情感识别通道和基于声学语音情感特征的语音情感识别通道的情感识别结果,得出情感语音信号样本所包含的情感状态。
8.根据权利要求6所述的非特定人语音情感识别系统,其特征在于,
所述副语言通道中,采用的统计模型为:支持向量机、高斯混合模型或隐马尔科夫模型;
所述声学语音情感特征通道中,采用的统计模型为:支持向量机、高斯混合模型或隐马尔科夫模型。
9.根据权利要求6所述的非特定人语音情感识别系统,其特征在于,
所述识别情感副语言的语音特征提取单元和声学语音情感特征提取单元之前设有预处理单元,包括分帧、加窗和端点检测。
10.根据权利要求6所述的非特定人语音情感识别系统,其特征在于,所述提取识别情感副语言的语音特征包括提取短时能量、过零率、梅尔倒谱系数、基音频率、音质、静音比率、前三个共振峰系数等,以及所述这些语音特征的最大值、最小值以及变化范围;
所述提取声学语音情感特征包括提取美尔倒谱系数、基频、时长、强度、振幅、音质、共振峰等,以及所述声学语音情感特征的最大值、最小值以及变化范围。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210321785.3A CN102881284B (zh) | 2012-09-03 | 2012-09-03 | 非特定人语音情感识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210321785.3A CN102881284B (zh) | 2012-09-03 | 2012-09-03 | 非特定人语音情感识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102881284A true CN102881284A (zh) | 2013-01-16 |
CN102881284B CN102881284B (zh) | 2014-07-09 |
Family
ID=47482585
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210321785.3A Active CN102881284B (zh) | 2012-09-03 | 2012-09-03 | 非特定人语音情感识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102881284B (zh) |
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103295573A (zh) * | 2013-05-06 | 2013-09-11 | 东南大学 | 基于费舍比率最优小波包分解的语音情感特征提取方法 |
CN103531207A (zh) * | 2013-10-15 | 2014-01-22 | 中国科学院自动化研究所 | 一种融合长跨度情感历史的语音情感识别方法 |
CN103810994A (zh) * | 2013-09-05 | 2014-05-21 | 江苏大学 | 基于情感上下文的语音情感推理方法及系统 |
CN104050963A (zh) * | 2014-06-23 | 2014-09-17 | 东南大学 | 一种基于情感数据场的连续语音情感预测算法 |
CN104538043A (zh) * | 2015-01-16 | 2015-04-22 | 北京邮电大学 | 一种通话中实时情感提示装置 |
CN104700829A (zh) * | 2015-03-30 | 2015-06-10 | 中南民族大学 | 动物声音情绪识别系统及其方法 |
CN104853257A (zh) * | 2015-04-30 | 2015-08-19 | 北京奇艺世纪科技有限公司 | 字幕显示方法和装置 |
CN105374357A (zh) * | 2015-11-23 | 2016-03-02 | 青岛海尔智能技术研发有限公司 | 一种语音识别方法、装置及语音控制系统 |
CN105551504A (zh) * | 2015-12-03 | 2016-05-04 | 广东欧珀移动通信有限公司 | 一种基于哭声触发智能移动终端功能应用的方法及装置 |
CN105609116A (zh) * | 2015-12-23 | 2016-05-25 | 东南大学 | 一种语音情感维度区域的自动识别方法 |
CN105830006A (zh) * | 2014-01-30 | 2016-08-03 | 华为技术有限公司 | 图像及视频内容的情感修改 |
CN105989836A (zh) * | 2015-03-06 | 2016-10-05 | 腾讯科技(深圳)有限公司 | 一种语音采集方法、装置及终端设备 |
CN106356077A (zh) * | 2016-08-29 | 2017-01-25 | 北京理工大学 | 一种笑声检测方法及装置 |
WO2017020794A1 (zh) * | 2015-07-31 | 2017-02-09 | 北京奇虎科技有限公司 | 一种交互系统的语音识别方法和装置 |
CN106448652A (zh) * | 2016-09-12 | 2017-02-22 | 珠海格力电器股份有限公司 | 空调器的控制方法和装置 |
CN106503646A (zh) * | 2016-10-19 | 2017-03-15 | 竹间智能科技(上海)有限公司 | 多模态情感辨识系统及方法 |
CN106653000A (zh) * | 2016-11-16 | 2017-05-10 | 太原理工大学 | 一种基于语音信息的情感强度实验方法 |
CN106875935A (zh) * | 2017-01-22 | 2017-06-20 | 上海云信留客信息科技有限公司 | 语音智能识别清洗方法 |
CN107195312A (zh) * | 2017-05-05 | 2017-09-22 | 深圳信息职业技术学院 | 情绪宣泄模式的确定方法、装置、终端设备和存储介质 |
CN107886942A (zh) * | 2017-10-31 | 2018-04-06 | 东南大学 | 一种基于局部惩罚随机谱回归的语音信号情感识别方法 |
CN108245177A (zh) * | 2018-01-05 | 2018-07-06 | 安徽大学 | 一种婴儿智能监护可穿戴设备及基于gmm-hmm-dnn的婴儿哭声识别方法 |
CN108346436A (zh) * | 2017-08-22 | 2018-07-31 | 腾讯科技(深圳)有限公司 | 语音情感检测方法、装置、计算机设备及存储介质 |
CN108877784A (zh) * | 2018-09-05 | 2018-11-23 | 河海大学 | 一种基于口音识别的鲁棒语音识别方法 |
US10163313B2 (en) | 2016-03-14 | 2018-12-25 | Tata Consultancy Services Limited | System and method for sound based surveillance |
CN109841229A (zh) * | 2019-02-24 | 2019-06-04 | 复旦大学 | 一种基于动态时间规整的新生儿哭声识别方法 |
CN110310624A (zh) * | 2019-07-03 | 2019-10-08 | 中山大学新华学院 | 一种高效副语音检测识别方法及装置 |
TWI687920B (zh) * | 2019-05-10 | 2020-03-11 | 佑華微電子股份有限公司 | 嬰兒哭聲偵測方法 |
CN110910904A (zh) * | 2019-12-25 | 2020-03-24 | 浙江百应科技有限公司 | 一种建立语音情感识别模型的方法及语音情感识别方法 |
CN111145785A (zh) * | 2018-11-02 | 2020-05-12 | 广州灵派科技有限公司 | 一种基于语音的情绪识别方法及装置 |
CN111312245A (zh) * | 2020-02-18 | 2020-06-19 | 腾讯科技(深圳)有限公司 | 一种语音应答方法、装置和存储介质 |
CN112489687A (zh) * | 2020-10-28 | 2021-03-12 | 深兰人工智能芯片研究院(江苏)有限公司 | 一种基于序列卷积的语音情感识别方法及装置 |
CN113270111A (zh) * | 2021-05-17 | 2021-08-17 | 广州国音智能科技有限公司 | 一种基于音频数据的身高预测方法、装置、设备和介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1280137A1 (en) * | 2001-07-24 | 2003-01-29 | Sony International (Europe) GmbH | Method for speaker identification |
EP1282113A1 (en) * | 2001-08-02 | 2003-02-05 | Sony International (Europe) GmbH | Method for detecting emotions from speech using speaker identification |
EP1298645A1 (en) * | 2001-09-26 | 2003-04-02 | Sony International (Europe) GmbH | Method for detecting emotions in speech, involving linguistic correlation information |
CN101261832A (zh) * | 2008-04-21 | 2008-09-10 | 北京航空航天大学 | 汉语语音情感信息的提取及建模方法 |
-
2012
- 2012-09-03 CN CN201210321785.3A patent/CN102881284B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1280137A1 (en) * | 2001-07-24 | 2003-01-29 | Sony International (Europe) GmbH | Method for speaker identification |
EP1282113A1 (en) * | 2001-08-02 | 2003-02-05 | Sony International (Europe) GmbH | Method for detecting emotions from speech using speaker identification |
EP1298645A1 (en) * | 2001-09-26 | 2003-04-02 | Sony International (Europe) GmbH | Method for detecting emotions in speech, involving linguistic correlation information |
CN101261832A (zh) * | 2008-04-21 | 2008-09-10 | 北京航空航天大学 | 汉语语音情感信息的提取及建模方法 |
Non-Patent Citations (3)
Title |
---|
杨熙等: "非特定人语音识别系统的设计与实现", 《湖南科技学院学报》 * |
詹永照等: "语音情感特征提取和识别的研究与实现", 《江苏大学学报(自然科学版)》 * |
郭鹏娟: "语音情感特征提取方法和情感识别研究", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (49)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103295573B (zh) * | 2013-05-06 | 2015-07-01 | 东南大学 | 基于费舍比率最优小波包分解的语音情感特征提取方法 |
CN103295573A (zh) * | 2013-05-06 | 2013-09-11 | 东南大学 | 基于费舍比率最优小波包分解的语音情感特征提取方法 |
CN103810994A (zh) * | 2013-09-05 | 2014-05-21 | 江苏大学 | 基于情感上下文的语音情感推理方法及系统 |
CN103810994B (zh) * | 2013-09-05 | 2016-09-14 | 江苏大学 | 基于情感上下文的语音情感推理方法及系统 |
CN103531207A (zh) * | 2013-10-15 | 2014-01-22 | 中国科学院自动化研究所 | 一种融合长跨度情感历史的语音情感识别方法 |
CN103531207B (zh) * | 2013-10-15 | 2016-07-27 | 中国科学院自动化研究所 | 一种融合长跨度情感历史的语音情感识别方法 |
CN105830006A (zh) * | 2014-01-30 | 2016-08-03 | 华为技术有限公司 | 图像及视频内容的情感修改 |
CN105830006B (zh) * | 2014-01-30 | 2020-02-14 | 华为技术有限公司 | 图像及视频内容的情感修改 |
CN104050963A (zh) * | 2014-06-23 | 2014-09-17 | 东南大学 | 一种基于情感数据场的连续语音情感预测算法 |
CN104050963B (zh) * | 2014-06-23 | 2017-02-15 | 东南大学 | 一种基于情感数据场的连续语音情感预测方法 |
CN104538043A (zh) * | 2015-01-16 | 2015-04-22 | 北京邮电大学 | 一种通话中实时情感提示装置 |
CN105989836A (zh) * | 2015-03-06 | 2016-10-05 | 腾讯科技(深圳)有限公司 | 一种语音采集方法、装置及终端设备 |
CN104700829B (zh) * | 2015-03-30 | 2018-05-01 | 中南民族大学 | 动物声音情绪识别系统及其方法 |
CN104700829A (zh) * | 2015-03-30 | 2015-06-10 | 中南民族大学 | 动物声音情绪识别系统及其方法 |
CN104853257A (zh) * | 2015-04-30 | 2015-08-19 | 北京奇艺世纪科技有限公司 | 字幕显示方法和装置 |
WO2017020794A1 (zh) * | 2015-07-31 | 2017-02-09 | 北京奇虎科技有限公司 | 一种交互系统的语音识别方法和装置 |
CN105374357B (zh) * | 2015-11-23 | 2022-03-29 | 青岛海尔智能技术研发有限公司 | 一种语音识别方法、装置及语音控制系统 |
CN105374357A (zh) * | 2015-11-23 | 2016-03-02 | 青岛海尔智能技术研发有限公司 | 一种语音识别方法、装置及语音控制系统 |
CN105551504A (zh) * | 2015-12-03 | 2016-05-04 | 广东欧珀移动通信有限公司 | 一种基于哭声触发智能移动终端功能应用的方法及装置 |
CN105551504B (zh) * | 2015-12-03 | 2019-04-23 | Oppo广东移动通信有限公司 | 一种基于哭声触发智能移动终端功能应用的方法及装置 |
CN105609116A (zh) * | 2015-12-23 | 2016-05-25 | 东南大学 | 一种语音情感维度区域的自动识别方法 |
CN105609116B (zh) * | 2015-12-23 | 2019-03-05 | 东南大学 | 一种语音情感维度区域的自动识别方法 |
US10163313B2 (en) | 2016-03-14 | 2018-12-25 | Tata Consultancy Services Limited | System and method for sound based surveillance |
CN106356077A (zh) * | 2016-08-29 | 2017-01-25 | 北京理工大学 | 一种笑声检测方法及装置 |
CN106356077B (zh) * | 2016-08-29 | 2019-09-27 | 北京理工大学 | 一种笑声检测方法及装置 |
CN106448652A (zh) * | 2016-09-12 | 2017-02-22 | 珠海格力电器股份有限公司 | 空调器的控制方法和装置 |
CN106503646A (zh) * | 2016-10-19 | 2017-03-15 | 竹间智能科技(上海)有限公司 | 多模态情感辨识系统及方法 |
CN106653000A (zh) * | 2016-11-16 | 2017-05-10 | 太原理工大学 | 一种基于语音信息的情感强度实验方法 |
CN106875935A (zh) * | 2017-01-22 | 2017-06-20 | 上海云信留客信息科技有限公司 | 语音智能识别清洗方法 |
CN107195312A (zh) * | 2017-05-05 | 2017-09-22 | 深圳信息职业技术学院 | 情绪宣泄模式的确定方法、装置、终端设备和存储介质 |
CN107195312B (zh) * | 2017-05-05 | 2020-03-27 | 深圳信息职业技术学院 | 情绪宣泄模式的确定方法、装置、终端设备和存储介质 |
CN108346436A (zh) * | 2017-08-22 | 2018-07-31 | 腾讯科技(深圳)有限公司 | 语音情感检测方法、装置、计算机设备及存储介质 |
US11922969B2 (en) | 2017-08-22 | 2024-03-05 | Tencent Technology (Shenzhen) Company Limited | Speech emotion detection method and apparatus, computer device, and storage medium |
US11189302B2 (en) | 2017-08-22 | 2021-11-30 | Tencent Technology (Shenzhen) Company Limited | Speech emotion detection method and apparatus, computer device, and storage medium |
CN107886942A (zh) * | 2017-10-31 | 2018-04-06 | 东南大学 | 一种基于局部惩罚随机谱回归的语音信号情感识别方法 |
CN107886942B (zh) * | 2017-10-31 | 2021-09-28 | 东南大学 | 一种基于局部惩罚随机谱回归的语音信号情感识别方法 |
CN108245177B (zh) * | 2018-01-05 | 2021-01-01 | 安徽大学 | 一种婴儿智能监护可穿戴设备及基于gmm-hmm-dnn的婴儿哭声识别方法 |
CN108245177A (zh) * | 2018-01-05 | 2018-07-06 | 安徽大学 | 一种婴儿智能监护可穿戴设备及基于gmm-hmm-dnn的婴儿哭声识别方法 |
CN108877784A (zh) * | 2018-09-05 | 2018-11-23 | 河海大学 | 一种基于口音识别的鲁棒语音识别方法 |
CN111145785A (zh) * | 2018-11-02 | 2020-05-12 | 广州灵派科技有限公司 | 一种基于语音的情绪识别方法及装置 |
CN109841229A (zh) * | 2019-02-24 | 2019-06-04 | 复旦大学 | 一种基于动态时间规整的新生儿哭声识别方法 |
TWI687920B (zh) * | 2019-05-10 | 2020-03-11 | 佑華微電子股份有限公司 | 嬰兒哭聲偵測方法 |
CN110310624A (zh) * | 2019-07-03 | 2019-10-08 | 中山大学新华学院 | 一种高效副语音检测识别方法及装置 |
CN110910904A (zh) * | 2019-12-25 | 2020-03-24 | 浙江百应科技有限公司 | 一种建立语音情感识别模型的方法及语音情感识别方法 |
CN111312245A (zh) * | 2020-02-18 | 2020-06-19 | 腾讯科技(深圳)有限公司 | 一种语音应答方法、装置和存储介质 |
CN111312245B (zh) * | 2020-02-18 | 2023-08-08 | 腾讯科技(深圳)有限公司 | 一种语音应答方法、装置和存储介质 |
CN112489687A (zh) * | 2020-10-28 | 2021-03-12 | 深兰人工智能芯片研究院(江苏)有限公司 | 一种基于序列卷积的语音情感识别方法及装置 |
CN112489687B (zh) * | 2020-10-28 | 2024-04-26 | 深兰人工智能芯片研究院(江苏)有限公司 | 一种基于序列卷积的语音情感识别方法及装置 |
CN113270111A (zh) * | 2021-05-17 | 2021-08-17 | 广州国音智能科技有限公司 | 一种基于音频数据的身高预测方法、装置、设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
CN102881284B (zh) | 2014-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102881284B (zh) | 非特定人语音情感识别方法及系统 | |
CN105374356B (zh) | 语音识别方法、语音评分方法、语音识别系统及语音评分系统 | |
CN107393554A (zh) | 一种声场景分类中融合类间标准差的特征提取方法 | |
CN102664011B (zh) | 一种快速说话人识别方法 | |
CN101241699B (zh) | 一种远程汉语教学中的说话人确认方法 | |
CN102930866B (zh) | 一种用于口语练习的学生朗读作业的评判方法 | |
CN102800314B (zh) | 具有反馈指导的英语句子识别与评价系统及其方法 | |
CN103177733B (zh) | 汉语普通话儿化音发音质量评测方法与系统 | |
CN102723078B (zh) | 基于自然言语理解的语音情感识别方法 | |
CN108922541B (zh) | 基于dtw和gmm模型的多维特征参数声纹识别方法 | |
CN101751922B (zh) | 基于隐马尔可夫模型状态映射的文本无关语音转换系统 | |
CN102723079B (zh) | 基于稀疏表示的音乐和弦自动识别方法 | |
CN101923855A (zh) | 文本无关的声纹识别系统 | |
CN104050965A (zh) | 具有情感识别功能的英语语音发音质量评价系统及方法 | |
Guo et al. | Speech Emotion Recognition by Combining Amplitude and Phase Information Using Convolutional Neural Network. | |
CN105374352A (zh) | 一种语音激活方法及系统 | |
CN109977258A (zh) | 图像和语音的跨模态检索分类器模型、检索系统和检索方法 | |
CN102592593B (zh) | 一种考虑语音中多线性群组稀疏特性的情绪特征提取方法 | |
CN102637433A (zh) | 识别语音信号中所承载的情感状态的方法和系统 | |
CN103366735B (zh) | 语音数据的映射方法和装置 | |
CN105810212A (zh) | 一种复杂噪声环境下的列车鸣笛识别方法 | |
CN105931635A (zh) | 一种音频分割方法及装置 | |
CN109545191A (zh) | 一种歌曲中人声起始位置的实时检测方法 | |
CN109377981A (zh) | 音素对齐的方法及装置 | |
Gong et al. | Vocalsound: A dataset for improving human vocal sounds recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |