CN114005467A - 一种语音情感识别方法、装置、设备及存储介质 - Google Patents
一种语音情感识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114005467A CN114005467A CN202010740672.1A CN202010740672A CN114005467A CN 114005467 A CN114005467 A CN 114005467A CN 202010740672 A CN202010740672 A CN 202010740672A CN 114005467 A CN114005467 A CN 114005467A
- Authority
- CN
- China
- Prior art keywords
- model
- voice signal
- recognition
- emotion
- emotional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 82
- 238000000034 method Methods 0.000 title claims abstract description 66
- 230000002996 emotional effect Effects 0.000 claims abstract description 113
- 230000008451 emotion Effects 0.000 claims description 61
- 230000006870 function Effects 0.000 claims description 34
- 239000013598 vector Substances 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 16
- 230000015654 memory Effects 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 11
- 238000001514 detection method Methods 0.000 claims description 8
- 238000013139 quantization Methods 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 description 15
- 238000013528 artificial neural network Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000005311 autocorrelation function Methods 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明公开了一种语音情感识别方法、装置、设备及存储介质,所述方法包括:获取待识别的语音信号;提取语音信号中的至少一个情感特征参数;将至少一个情感特征参数分别输入到预先确定的第一模型中,得到情感状态序列;将情感状态序列输入到预先确定的第二模型中,得到与语音信号对应的满足预设识别条件的情感状态识别结果。如此,利用第一模型进行动态时序建模、第二模型进行分类决策,第一模型与第二模型结合进行语音情感识别,提高了语音信号的情感识别率。
Description
技术领域
本发明涉及语音识别领域,尤其涉及一种语音情感识别方法、装置、设备及存储介质。
背景技术
随着信息技术的高速发展和人类对计算机的依赖性不断的增强,人机交互的能力越来越受到研究者的重视。实际上人机交互中需要解决的问题与人与人交流中的重要因素是一致的,最主要针对“语音情感识别”的能力。
目前,研究人员在进行语音情感识别操作之前,会将待识别的语音数据输入到预先建立好的情感识别模型中进行语音情感识别。然而,建立情感识别模型的情感数据往往来源于无噪音的实验室,且由具有表现力的演员演读不同情感色彩语句,这样的情感数据相对于真实情感数据存在较大偏差。所以,再次利用上述建立好的情感识别模型进行语音情感识别时,预测的语音情感识别结果相对于真实的语音情感识别结果存在较大差异,即语音情感识别率较低。
发明内容
为解决上述技术问题,本发明提供一种语音情感识别方法、装置、设备及存储介质,目的在于提高语音信号的情感识别率。
为达到上述目的,本发明的技术方案是这样实现的:
第一方面,提供了一种语音情感识别方法,该方法包括:
获取待识别的语音信号;
提取所述语音信号中的至少一个情感特征参数;
将所述至少一个情感特征参数分别输入到预先确定的第一模型中,得到情感状态序列;
将所述情感状态序列输入到预先确定的第二模型中,得到与所述语音信号对应的满足预设识别条件的情感状态识别结果。
第二方面,提供了一种语音情感识别装置,该装置包括:
获取单元,用于获取语音信号;
提取单元,用于提取所述语音信号中的至少一个情感特征参数;
输入单元,用于将所述至少一个情感特征参数分别输入到预先确定的第一模型中,得到情感状态序列;
输出单元,用于将所述情感状态序列输入到预先确定的第二模型中,得到与所述语音信号对应的满足预设识别条件的情感状态识别结果。
第三方面,提供了一种语音情感识别设备,包括:处理器和配置为存储能够在处理器上运行的计算机程序的存储器,其中,所述处理器配置为运行所述计算机程序时,执行前述方法的步骤。
第四方面,提供了一种计算机存储介质,其上存储有计算机程序,其中,该计算机程序被处理器执行时实现前述方法的步骤。
采用上述技术方案,获取待识别的语音信号;提取语音信号中的至少一个情感特征参数;将至少一个情感特征参数分别输入到预先确定的第一模型中,得到情感状态序列;将情感状态序列输入到预先确定的第二模型中,得到与语音信号对应的满足预设识别条件的情感状态识别结果。如此,利用第一模型进行动态时序建模、第二模型进行分类决策,第一模型与第二模型结合进行语音情感识别,提高了语音信号的情感识别率。
附图说明
图1为本申请实施例中语音情感识别方法的第一流程示意图;
图2为本申请实施例中语音信号预处理操作流程示意图;
图3为本申请实施例中语音情感识别方法的第二流程示意图;
图4为本申请实施例中HMM/RBF混合模型的结构示意图;
图5为本申请实施例中语音情感识别装置的组成结构示意图;
图6为本申请实施例中语音情感识别设备的组成结构示意图。
具体实施方式
为了能够更加详尽地了解本申请实施例的特点与技术内容,下面结合附图对本申请实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本申请实施例。
本申请实施例提供了一种语音情感识别的方法,图1为本申请实施例中语音情感识别方法的第一流程示意图,如图1所示,该语音情感识别方法具体可以包括:
步骤101:获取待识别的语音信号;
需要说明的是,待识别的语音信号可直接从提前录制好的话音文件中获取。
这里,对待识别的语音信号进行情感识别,识别出该语音信号对应的情感状态,便于提供准确需求。例如,当前语音信号表现出悲伤情绪,需要对目标人物对象进行安慰。
其中,情感状态一般包括:高兴、悲伤、惊奇、愤怒、平静。
步骤102:提取所述语音信号中的至少一个情感特征参数;
需要说明的是,语音信号中包含例如语调、情感和韵律等大量的情感信息,不同的情感信息所对应的情感特征参数是不同的。要想语音信号的情感识别率更高,则需从语音信号中提取出至少一种情感特征参数。
在一些实施例中,所述提取所述语音信号中的至少一个情感特征参数之前,所述方法还包括:对所述语音信号进行预处理操作,得到预处理后的语音信号;从所述预处理后的语音信号中提取出至少一个情感特征参数。
需要说明的是,由于语音信号中存在噪声的影响,会导致语音信号的情感识别效率降低,因此,这里先对语音信号做预处理操作,得到预处理后的语音信号,预处理后的语音信号是计算机可识别的语音信号;计算机再对预处理后的语音信号进行处理,从中提取至少一个情感特征参数。
在一些实施例中,所述预处理操作包括以下至少一项:反混叠滤波、采样量化、预加重、分帧加窗和端点检测。
如图2为本申请实施例中语音信号预处理操作流程示意图,即预处理操作具体包括:反混叠滤波、采样量化、预加重、分帧加窗和端点检测。
其中,反混叠滤波的目的是为了防止混叠失真、噪声干扰及50HZ。
采样量化,是将时间上、幅度上连续的信号变成离散的信号;其中,采样要符合采样定律,即采样频率要大于信号频率的2倍,采样过程才不会丢失信息,且由采样信号可精确的重构原信号;量化是将语音信号的幅度值分割为有限空间,落入同一区间的信号赋予相同的值。
预加重步骤,是因为采集到的原始语音信号,较难求取其高频部分的频谱,这是因为受到说话人口鼻辐射和声门激励的影响,使得高频部分一般在800HZ以上就会以6dB/倍频程下降,因此需要对高频部分进行加强,即就是语音信号的预加重。
分帧加窗,分帧是为了将无限长的语音信号,分成一段一段的,因为语音信号具有短时平稳性,方便处理,加窗是为了使分帧后的语音信号更加平稳。
端点检测,是将语音信号和无用的背景噪声等分离开来,是对语音信号进行处理的前端操作。语音信号的端点检测可以确定语音信号的起点和终点,保证检测出来的语音信号的是真正有用的语音数据,从而减少语音数据量和计算时间,这对语音情感识别非常重要。
在一些实施例中,所述至少一个情感特征参数包括:基音频率、短时能量、共振峰、倒普系数和梅尔频率倒普系数。
由于原始语音信号中包含例如语调、情感和韵律等大量的情感信息,可提取的情感特征参数也是多种多样的。那么要想研究语音情感识别,第一个关键问题就是如何从众多的情感特征参数中,选取有效的特征参数,建立能反映个人情感特征的矢量,获得更好的语音情感识别结果。一个重要的选择策略是:尽可能提取更易于提高语音情感识别结果的情感特征参数,并减少语音信号中那些无用的冗余信息。在这里,本申请所选取的情感特征参数包括:基音频率、短时能量、共振峰、倒普系数(Linear Predictive Cepstral Coding,LPCC)和梅尔频率倒普系数(Mel Frequency Cepstrum Coefficient,MFCC)。
具体地,基音频率,是发浊音时声带振动的基本频率。这里选择基音频率参数,是因为它的变化模式称为声调,包含了大量有用的语音情感激活度的信息,有助于提高语音情感的识别结果。基音频率的获取是借助短时自相关函数的方法,检测自相关函数的峰值从而得到该语音信号的基音周期,再对基音周期求倒数得到基音频率。
短时能量,即是音量高低,它是一帧样点值的加权平方求和。短时能量能区分清音和浊音,这是因为清音的短时能量比浊音的小。一个人说话时所含情感不同时,其说话的音量也不同。例如在高兴或惊讶时,说话人的音量往往比较大,短时能量也比较高。
共振峰,是准周期脉冲作用在我们的声道上所产生的的一组共振频率,它对汉语语音情感状态的识别以及语音的音质都有重大影响。语音信号谱包络中包含有共振峰信息,其最大值就是共振峰,因此提取共振峰特征参数有一个关键点,也就是估计语音信号的频谱包络。
LPCC能很好的模拟人的声道模型,能较彻底地消除语音产生过程中的激励信息。
MFCC的提取基于人的听觉机理,也就是说依据人的听觉特性来分析语音的帧谱,在频谱失真有和信道噪声情况下,有更高的识别精度。
步骤103:将所述至少一个情感特征参数分别输入到预先确定的第一模型中,得到情感状态序列;
需要说明的是,语音信号在进行情感识别之前,所对应的情感状态是未知的。要想得知该语音信号的情感状态,需根据可能预想的至少一种情感状态,建立并训练好对应的第一模型,即每一种情感状态会对应一个第一模型。这样,对语音信号进行识别时,将从该语音信号提取的至少一个情感特征参数分别输入到训练好的多个第一模型,得到情感状态序列,便于后续可基于情感状态序列去识别出语音信号对应的情感状态识别结果。
在一些实施例中,一种情感状态对应一个所述第一模型;该步骤具体包括:将所述至少一个情感特征参数分别输入到对应的第一模型中,得到与所述至少一个情感特征参数各自对应的N个状态;基于预设组合策略,对所述至少一个情感特征参数各自对应的N个状态进行序列组合,得到所述情感状态序列。
需要说明的是,当至少一个情感特征参数输入到其中一个第一模型后,第一模型会输出N个状态。预设组合策略指的是可根据情感状态的顺序进行组合。
这里,情感状态包括:高兴、悲伤、惊奇、愤怒、平静。“高兴”对应1号第一模型,“悲伤”对应2号第一模型,“惊奇”对应3号第一模型,“愤怒”对应4号第一模型,“平静”对应5号第一模型。
示例性地,若1号第一模型输出4个状态,表示为{αT 1(1),αT 1(2),αT 1(3),αT 1(4)},2号第二模型输出4个状态,表示为{αT 2(1),αT 2(2),αT 2(3),αT 2(4)},3号第一模型输出4个状态,表示为{αT 3(1),αT 3(2),αT 3(3),αT 3(4)},4号第一模型输出4个状态,表示为{αT 4(1),αT 4(2),αT 4(3),αT 4(4)},5号第一模型输出4个状态,表示为{αT 5(1),αT 5(2),αT 5(3),αT 5(4)}。若当前情感状态顺序为:高兴、悲伤、惊奇、愤怒、平静,得到的情感状态序列为{αT 1(1),...,αT 2(1),...,αT 3(1),...,αT 4(1),...,αT 5(1),...}。若当前情感状态顺序为:平静、悲伤、高兴、惊奇、愤怒,得到的情感状态序列为{αT 5(1),...,αT 2(1),...,αT 1(1),...,αT 3(1),...,αT 4(1),...}。
在一些实施例中,所述第一模型为具备动态建模能力的模型。
需要说明的是,动态建模能力是用于将一个隐藏的马尔科夫链生成不可观测的状态随机序列,再将各个状态生成观测序列的过程。
这里的第一模型可以是隐马尔可夫模型(Hidden Markov Model,HMM)。
步骤104:将所述情感状态序列输入到预先确定的第二模型中,得到与所述语音信号对应的满足预设识别条件的情感状态识别结果。
在一些实施例中,所述第二模型为具备分类决策能力的模型。
这里的分类决策能力就是为了对识别的语音信号分类出对应的情感状态(即情感状态识别结果)。
需要说明的是,预先确定的第二模型为训练好的模型。预设识别条件指的是情感识别率或者识别精度。
实际应用中,将各个情感状态组合的情感状态序列输入到第二模型中,具备分类决策的第二模型直接分类选取出语音信号对应的情感状态。
这里,步骤101至步骤104的执行主体可以为语音情感识别装置的处理器。
采用上述技术方案,获取待识别的语音信号;提取语音信号中的至少一个情感特征参数;将至少一个情感特征参数分别输入到预先确定的第一模型中,得到情感状态序列;将情感状态序列输入到预先确定的第二模型中,得到与语音信号对应的满足预设识别条件的情感状态识别结果。如此,利用第一模型进行动态时序建模、第二模型进行分类决策,第一模型与第二模型结合进行语音情感识别,提高了语音信号的情感识别率。
在上述实施例的基础上,本申请为了提高语音情感识别的运行效率,为此本申请提供了另一种语音情感识别的方法,图3为本申请实施例中语音情感识别的方法的第二流程示意图,如图3所示,该语音情感识别方法具体可以包括:
步骤301:获取待识别语音信号,并提取所述语音信号中的至少一个情感特征参数;
步骤302:将所述至少一个情感特征参数分别输入到预先确定的第一模型中,得到情感状态序列;
步骤303:对所述情感状态序列进行时间规整操作,得到等维特征矢量;
需要说明的是,语音信号长短不一,加上某些单词的发生会带上拖音或者呼吸音,造成单词的端点检测不准,进而造成特征参数的变化,降低识别率。为了克服这个缺陷,通过时间规整操作将语音信号的长短调整一致,即调整为固定维数的矢量(等维特征矢量)。
步骤304:将所述等维特征矢量输入到第二模型中,得到所述语音信号的第一识别结果;
步骤305:判断所述第一识别结果是否满足预设识别条件;当不满足时,执行步骤306;当满足时,执行步骤307;
具体的,经过第二模型处理后得到的语音信号的第一识别结果,可能存在识别精度不够的情况,也就是说第一识别结果可能存在不满足预设识别条件情况,也可能存在满足预设识别条件情况,两种情况的执行步骤不同,所以,在这里,需要判断第一识别结果是否满足预设识别条件,当不满足第一识别结果时,执行步骤306;当满足第一识别结果时,执行步骤307。
具体的,若得到不满足预设识别条件的第一识别结果,需对第二模型的学习率进行动态改进,直到得到满足预设识别条件的第一识别结果。
步骤306:基于学习率调整策略对所述第二模型的学习率进行调整,得到学习率调整后的第二模型;将所述等维特征矢量输入到所述学习率调整后的第二模型中,得到所述语音信号的第二识别结果;若所述第二识别结果满足所述预设识别条件,则将所述第二识别结果作为所述情感状态识别结果。
这里通过对第二模型的学习率进行动态调整,目的在于提高语音信号的情感识别精度或者识别率。
实际应用中,当语音信号的第一识别结果不满足预设识别条件时,对第二模型的学习率进行调整,并替换第二模型中的学习率,得到调整后的第二模型;将等维特征矢量再次输入到调整后的第二模型中进行情感识别得到第二识别结果;若第二识别结果满足预设识别条件,则将第二识别结果作为情感状态识别结果;若第二识别结果仍然不满足预设识别条件,则继续对第二模型中的学习率进行调整,直到调整后的第二模型输出的情感识别结果满足预设的识别条件。
在一些实施例中,所述基于学习率调整策略对所述第二模型的学习率进行调整,包括:求解损失函数,得到调整后的学习率;利用所述调整后的学习率替换所述第二模型的学习率,得到学习率调整后的第二模型。
这里,损失函数反映的是预测结果与真实结果之间的误差。误差越小,说明预测结果越接近真实结果。
为提高语音信号的情感识别率,本申请基于学习率调整策略对第二模型的学习率进行动态调整,具体步骤如下:对损失函数进行处理,得到调整后的学习率,将调整后的学习率替换第二模型中现存的学习率,再利用调整后的第二模型再次进行情感分类过程。
需要说明的是,后续基于调整后的第二模型进行情感状态识别得到的识别结果不满足预设识别条件,那么需继续进行上述步骤,直到调整后的第二模型对语音信号的情感识别结果达到预设识别条件。
在一些实施例中,所述求解损失函数,得到调整后的学习率,包括:利用下降梯度算法对所述损失函数进行处理,得到新的损失函数;对所述新的损失函数求得最小值,得到所述调整后的学习率。
需要说明的是,可利用下降梯度算法损失函数进行处理,得到一新的损失函数的表示方式,再对其新的损失函数求得最小值,得到关于学习率的函数,为计算学习率作铺垫。
当输出语音信号的情感状态识别结果不满足预设识别条件时,基于上述学习率调整策略对第二模型的学习率进行动态调整,得到学习率调整后的第二模型;将等维特征矢量输入到调整后的第二模型中进行下一次处理,直到输出满足预设识别条件的情感状态识别结果,将满足预设识别条件的情感状态识别结果作为语音信号最终的情感状态识别结果。
步骤307:直接输出所述第一识别结果,作为所述语音信号的情感状态识别结果。
当输出语音信号的第一识别结果满足预设识别条件时,则直接将输出的第一识别结果作为最终的情感状态识别结果。
采用上述技术方案,获取待识别的语音信号;提取语音信号中的至少一个情感特征参数;将至少一个情感特征参数分别输入到预先确定的第一模型中,得到情感状态序列;将情感状态序列输入到预先确定的第二模型中,得到与语音信号对应的满足预设识别条件的情感状态识别结果。如此,利用第一模型进行动态时序建模、第二模型进行分类决策,第一模型与第二模型结合进行语音情感识别,提高了语音信号的情感识别率。
为了能更加体现本发明的目的,对上述方案进行了具体举例说明。图4为本申请实施例中HMM/RBF混合模型的结构示意图。
下面以第一模型为HMM模型,第二模型为RBF模型,对语音情感识别方法进行举例说明,具体的情感识别过程如图4所示,该流程包括:
步骤401:获取语音信号;
步骤402:对语音信号进行预处理操作;
由于语音信号中存在噪声的影响,会导致语音信号的情感识别结果降低,因此,这里首先对语音信号做预处理操作,得到预处理后的语音信号,其预处理后的语音信号是计算机可识别的语音信号。其中,预处理操作至少包括:反混叠滤波、采样量化、预加重、分帧加窗和端点检测。
步骤403:对预处理后的结果进行特征提取操作;
由于语音信号中包含例如语调、情感和韵律等大量的情感信息,可提取的情感特征参数也是多种多样的。那么要想研究语音情感识别,第一个关键问题就是如何从众多的情感特征参数中,选取有效的特征参数,建立能反映个人情感特征的矢量,获得更好的语音情感识别结果。一个重要的选择策略是:尽可能提取更易于提高语音情感识别结果的情感特征参数,并减少语音信号中那些无用的冗余信息。所以,在这里本申请所选取的情感特征参数包括:基音频率、短时能量、共振峰、LPCC和MFCC。
步骤404:将特征提取的结果经HMM模型进行处理操作;
本申请中选定五种情感类别,分别是:高兴、悲伤、愤怒、惊奇、中性。在进行语音情感识别操作之前,根据预先选定的五种情感类别,建立好对应的HMM模型,并基于已知的情感状态对第一模型进行训练,为语音信号情感的识别奠定基础。其中,HMM模型具备动态时序建模能力。
进行识别时,将从语音信号中提取出的至少一种情感特征参数分别输入到训练好的五种情感类别对应的HMM模型进行处理。
步骤405:Viterbi解码操作;
具体地,经过HMM模型中Viterbi算法进行状态分割,将每个HMM模型分割得到4个状态,再将每个HMM模型各自对应的4个状态进行组合,输出数量为20的情感状态序列。
步骤406:情感状态序列;
步骤406的情感状态序列作为步骤407进行时间规整操作的输入。
步骤407:时间规整操作;
由于步骤408中所涉及到的人工神经网络的输入内容需要固定维数,所以需对HMM模型输出的最佳状态序列进行时间规整操作,得到等维特征矢量后,才可将其输入到人工神经网络中。
步骤408:经过RBF神经网络进行情感识别;
这里的RBF模型具备分类决策能力。
在RBF神经网络学习中,一般把学习率η事先设置成一个固定值,并且在每步迭代计算中都保持不变。这样存在很多问题:η设置过小,会导致神经网络的收敛速度变慢,计算时间大大增加,运行效率降低,不能满足实际应用性能方面的需求;相反,η设置太大,网络收敛速度变快,但是会导致网络不稳定,严重时神经网络甚至无法学习。
本申请中对RBF神经网络学习率进行了改进,是在每一次处理过程中都会重新计算学习率的值η,属于一种动态改变的学习率。这样既保证了网络的稳定性,又提高了网络收敛速度和运行效率。
具体地,将等维特征矢量输入到RBF模型中进行处理,借助本次处理过程中的第一学习率,输出语音信号的情感状态识别结果;其中,RBF模型是进行上述步骤前已训练好的模型,具备分类决策能力;当输出语音信号的情感识别结果满足预设的情感识别结果,则直接输出即可;当输出语音信号的情感状态识别结果不满足预设识别条件时,为使得情感状态识别结果满足预设识别结果,需再次进行情感识别过程,为了尽快得到满意的情感识别结果,本申请采用对RBF模型的学习率进行动态调整的方法,提高语音信号的情感识别效率,进而快速得到满意的情感识别结果。
示例性地,为提高语音信号的情感识别效率,本申请基于学习率调整策略对第二模型的学习率进行动态调整,具体步骤如下:对损失函数进行处理,得到关于学习率的函数,当输出语音信号的情感状态识别结果不满足预设条件时,需对其学习率进行调整替换第二模型中的原本学习率,进而得到学习率调整后的第二模型,再进行下一次情感识别过程。
示例性地,可利用下降梯度算法成本函数进行处理,得到一新的损失函数的表示方式,再对其新的损失函数求得最小值,得到关于学习率的函数,为计算学习率作铺垫。
当输出语音信号的情感状态识别结果不满足预设识别条件时,基于上述学习率调整策略对第二模型的学习率进行动态调整,得到学习率调整后的第二模型;将等维特征矢量输入到调整后的第二模型中进行下一次处理,直到输出满足预设识别条件的情感状态识别结果,将满足预设识别条件的情感状态识别结果作为语音信号最终的情感状态识别结果。
上面提到的对RBF神经网络学习率的改进,其方法步骤如下:
由RBF结构可得出RBF神经网络的输出为:
则公式(1.1)可写成:
则公式(1.2)可简写为ΦW=y。
采用下降梯度法,对成本函数E(t)进行处理可知:
设第t次学习后,权重的改变量ΔW(t)=W(t)-W(t-1),利用公式(1.4)可改写为:
设Δy(t)=y(t)-y(t-1)为实际输出值增量,为网络输出值增量。因在RBF神经网络中,网络输出值不会受到太多条件制约,而实际输出值则会被限制,因此可以假设对于网络输出值增量来说,可以忽略实际输出值增量,也就是则误差的增量可写为:
此时
e(t)=e(t-1)+Δe(t)≈e(t-1)-η(t)ΦΦTe(t-1) (1.8)
由公式(1.8)可改写损失函数E(t)为:
由此可得有关学习率η的函数,求得损失函数E(t)的最小值,即可计算得到最优的学习率η。对上式二阶求导为:
因矩阵Φ正定,二阶条件成立,可得出最优学习率为:
步骤409:识别结果。
将最终的情感识别结果输出即可。
采用上述技术方案,获取待识别的语音信号;提取语音信号中的至少一个情感特征参数;将至少一个情感特征参数分别输入到预先确定的第一模型中,得到情感状态序列;将情感状态序列输入到预先确定的第二模型中,得到与语音信号对应的满足预设识别条件的情感状态识别结果。如此,利用第一模型进行动态时序建模、第二模型进行分类决策,第一模型与第二模型结合进行语音情感识别,提高了语音信号的情感识别率。
本申请实施例中还提供了一种语音情感识别装置,如图5所示,该装置包括:
获取单元501,用于获取待识别的语音信号;
提取单元502,用于提取所述语音信号中的至少一个情感特征参数;
输入单元503,用于将所述至少一个情感特征参数分别输入到预先确定的第一模型中,得到情感状态序列;
输出单元504,用于将所述情感状态序列输入到预先确定的第二模型中,得到与所述语音信号对应的满足预设识别条件的情感状态识别结果。
在一些实施例中,所述装置还包括:所述输出单元504,还用于对所述情感状态序列进行时间规整操作,得到等维特征矢量;将所述等维特征矢量输入到所述第二模型中,得到所述情感状态识别结果。
在一些实施例中,所述装置还包括:所述输出单元504,还用于将所述等维特征矢量输入到所述第二模型中,得到所述语音信号的第一识别结果;若所述第一识别结果不满足所述预设识别条件,则基于学习率调整策略对所述第二模型的学习率进行调整,得到学习率调整后的第二模型;将所述等维特征矢量输入到所述学习率调整后的第二模型中,得到所述语音信号的第二识别结果;若所述第二识别结果满足所述预设识别条件,则将所述第二识别结果作为所述情感状态识别结果。
在一些实施例中,所述装置还包括:所述输出单元504,还用于求解损失函数,得到调整后的学习率;利用所述调整后的学习率替换所述第二模型的学习率,得到学习率调整后的第二模型。
在一些实施例中,所述装置还包括:输出单元504,还用于利用下降梯度算法对所述损失函数进行处理,得到新的损失函数;对所述新的损失函数求得最小值,得到所述调整后的学习率。
在一些实施例中,所述方法还包括:一种情感状态对应一个所述第一模型;所述装置还包括:所述输入单元503,还用于将所述至少一个情感特征参数分别输入到对应的第一模型中,得到与所述至少一个情感特征参数各自对应的N个状态;基于预设组合策略,对所述至少一个情感特征参数各自对应的N个状态进行序列组合,得到所述情感状态序列。
在一些实施例中,所述提取所述语音信号中的至少一个情感特征参数之前,所述方法还包括:对所述语音信号进行预处理操作,得到预处理后的语音信号;从所述预处理后的语音信号中提取出至少一个情感特征参数。
在一些实施例中,所述预处理操作包括以下至少一项:反混叠滤波、采样量化、预加重、分帧加窗和端点检测。
在一些实施例中,所述至少一种情感特征参数包括以下至少一项:基音频率、短时能量、共振峰、线性预测倒普系数和梅尔频率倒普系数。
在一些实施例中,所述第一模型为具备动态建模能力的模型;所述第二模型为具备分类决策能力的模型。
采用上述技术方案,获取待识别的语音信号;提取语音信号中的至少一个情感特征参数;将至少一个情感特征参数分别输入到预先确定的第一模型中,得到情感状态序列;将情感状态序列输入到预先确定的第二模型中,得到与语音信号对应的满足预设识别条件的情感状态识别结果。如此,利用第一模型进行动态时序建模、第二模型进行分类决策,第一模型与第二模型结合进行语音情感识别,提高了语音信号的情感识别率。
本申请实施例还提供了一种语音情感识别设备,如图6所示,该设备包括:处理器601和配置为存储能够在处理器上运行的计算机程序的存储器602;本申请实施例还提供了一种语音情感识别设备,如图6所示,该设备包括:处理器601和配置为存储能够在处理器上运行的计算机程序的存储器602;其中,处理器601配置为运行计算机程序时,执行前述实施例中的方法步骤。
当然,实际应用时,如图6所示,该语音情感识别设备中的各个组件通过总线系统603耦合在一起。
在实际应用中,上述处理器可以为特定用途集成电路(ASIC,ApplicationSpecific Integrated Circuit)、数字信号处理装置(DSPD,Digital Signal ProcessingDevice)、可编程逻辑装置(PLD,Programmable Logic Device)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、控制器、微控制器、微处理器中的至少一种。可以理解地,对于不同的设备,用于实现上述处理器功能的电子器件还可以为其它,本申请实施例不作具体限定。
上述存储器可以是易失性存储器(volatile memory),例如随机存取存储器(RAM,Random-Access Memory);或者非易失性存储器(non-volatile memory),例如只读存储器(ROM,Read-Only Memory),快闪存储器(flash memory),硬盘(HDD,Hard Disk Drive)或固态硬盘(SSD,Solid-State Drive);或者上述种类的存储器的组合,并向处理器提供指令和数据。
本申请实施例还提供了一种计算机可读存储介质,用于存储计算机程序。
可选的,该计算机可读存储介质可应用于本申请实施例中的任意一种方法,并且该计算机程序使得计算机执行本申请实施例的各个方法中由处理器实现的相应流程,为了简洁,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理模块中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。
本申请所提供的几个产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。
本申请所提供的几个方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (13)
1.一种语音情感识别方法,其特征在于,所述方法包括:
获取待识别的语音信号;
提取所述语音信号中的至少一个情感特征参数;
将所述至少一个情感特征参数分别输入到预先确定的第一模型中,得到情感状态序列;
将所述情感状态序列输入到预先确定的第二模型中,得到与所述语音信号对应的满足预设识别条件的情感状态识别结果。
2.根据权利要求1所述的方法,其特征在于,所述将所述情感状态序列输入到预先确定的第二模型中,得到与所述语音信号对应的满足预设识别条件的情感状态识别结果,包括:
对所述情感状态序列进行时间规整操作,得到等维特征矢量;
将所述等维特征矢量输入到所述第二模型中,得到所述情感状态识别结果。
3.根据权利要求2所述的方法,其特征在于,所述将所述等维特征矢量输入到所述第二模型中,得到所述情感状态识别结果,包括:
将所述等维特征矢量输入到所述第二模型中,得到所述语音信号的第一识别结果;
若所述第一识别结果不满足所述预设识别条件,则基于学习率调整策略对所述第二模型的学习率进行调整,得到学习率调整后的第二模型;
将所述等维特征矢量输入到所述学习率调整后的第二模型中,得到所述语音信号的第二识别结果;
若所述第二识别结果满足所述预设识别条件,则将所述第二识别结果作为所述情感状态识别结果。
4.根据权利要求3所述的方法,其特征在于,所述基于学习率调整策略对所述第二模型的学习率进行调整,包括:
求解损失函数,得到调整后的学习率;
利用所述调整后的学习率替换所述第二模型的学习率,得到学习率调整后的第二模型。
5.根据权利要求4所述的方法,其特征在于,所述求解损失函数,得到调整后的学习率,包括:
利用下降梯度算法对所述损失函数进行处理,得到新的损失函数;
对所述新的损失函数求得最小值,得到所述调整后的学习率。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:一种情感状态对应一个所述第一模型;
所述将所述至少一个情感特征参数分别输入到预先确定的第一模型中,得到情感状态序列,包括:
将所述至少一个情感特征参数分别输入到对应的第一模型中,得到与所述至少一个情感特征参数各自对应的N个状态;
基于预设组合策略,对所述至少一个情感特征参数各自对应的N个状态进行序列组合,得到所述情感状态序列。
7.根据权利要求1所述的方法,其特征在于,所述提取所述语音信号中的至少一个情感特征参数之前,所述方法还包括:
对所述语音信号进行预处理操作,得到预处理后的语音信号;
从所述预处理后的语音信号中提取出至少一个情感特征参数。
8.根据权利要求7所述的方法,其特征在于,
所述预处理操作包括以下至少一项:反混叠滤波、采样量化、预加重、分帧加窗和端点检测。
9.根据权利要求1-7任意一项所述的方法,其特征在于,所述至少一个情感特征参数包括以下至少一项:基音频率、短时能量、共振峰、线性预测倒普系数和梅尔频率倒普系数。
10.根据权利要求1所述的方法,其特征在于,
所述第一模型为具备动态建模能力的模型;
所述第二模型为具备分类决策能力的模型。
11.一种语音情感识别装置,其特征在于,所述装置包括:
获取单元,用于获取待识别的语音信号;
提取单元,用于提取所述语音信号中的至少一个情感特征参数;
输入单元,用于将所述至少一个情感特征参数分别输入到预先确定的第一模型中,得到情感状态序列;
输出单元,用于将所述情感状态序列输入到预先确定的第二模型中,得到与所述语音信号对应的满足预设识别条件的情感状态识别结果。
12.一种语音情感识别设备,其特征在于,所述设备包括:处理器和配置为存储能够在处理器上运行的计算机程序的存储器,
其中,所述处理器配置为运行所述计算机程序时,执行权利要求1至10任一项所述方法的步骤。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至10任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010740672.1A CN114005467A (zh) | 2020-07-28 | 2020-07-28 | 一种语音情感识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010740672.1A CN114005467A (zh) | 2020-07-28 | 2020-07-28 | 一种语音情感识别方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114005467A true CN114005467A (zh) | 2022-02-01 |
Family
ID=79920608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010740672.1A Pending CN114005467A (zh) | 2020-07-28 | 2020-07-28 | 一种语音情感识别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114005467A (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102890930A (zh) * | 2011-07-19 | 2013-01-23 | 上海上大海润信息系统有限公司 | 基于hmm/sofmnn混合模型的语音情感识别方法 |
CN111241828A (zh) * | 2020-01-10 | 2020-06-05 | 平安科技(深圳)有限公司 | 情感智能识别方法、装置及计算机可读存储介质 |
-
2020
- 2020-07-28 CN CN202010740672.1A patent/CN114005467A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102890930A (zh) * | 2011-07-19 | 2013-01-23 | 上海上大海润信息系统有限公司 | 基于hmm/sofmnn混合模型的语音情感识别方法 |
CN111241828A (zh) * | 2020-01-10 | 2020-06-05 | 平安科技(深圳)有限公司 | 情感智能识别方法、装置及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Deshwal et al. | Feature extraction methods in language identification: a survey | |
CN107633851B (zh) | 基于情感维度预测的离散语音情感识别方法、装置及系统 | |
WO2013020329A1 (zh) | 参数语音合成方法和系统 | |
CN108305639B (zh) | 语音情感识别方法、计算机可读存储介质、终端 | |
CN111292763B (zh) | 重音检测方法及装置、非瞬时性存储介质 | |
JP2020140193A (ja) | 逆離散コサイン変換のケプストラム係数の動的分割に基づく音声特徴抽出アルゴリズム | |
Pawar et al. | Review of various stages in speaker recognition system, performance measures and recognition toolkits | |
CN108682432B (zh) | 语音情感识别装置 | |
US20230343319A1 (en) | speech processing system and a method of processing a speech signal | |
CN109979428B (zh) | 音频生成方法和装置、存储介质、电子设备 | |
CN113506562A (zh) | 基于声学特征与文本情感特征融合的端到端语音合成方法及系统 | |
CN110930975B (zh) | 用于输出信息的方法和装置 | |
CN111640456A (zh) | 叠音检测方法、装置和设备 | |
GB2603776A (en) | Methods and systems for modifying speech generated by a text-to-speech synthesiser | |
CN112750445A (zh) | 语音转换方法、装置和系统及存储介质 | |
Korvel et al. | Speech analytics based on machine learning | |
WO2015025788A1 (ja) | 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法 | |
Dave et al. | Speech recognition: A review | |
Nandi et al. | Implicit excitation source features for robust language identification | |
Tawaqal et al. | Recognizing five major dialects in Indonesia based on MFCC and DRNN | |
Rao | Accent classification from an emotional speech in clean and noisy environments | |
Hasija et al. | Recognition of children Punjabi speech using tonal non-tonal classifier | |
Jagadeeshwar et al. | ASERNet: Automatic speech emotion recognition system using MFCC-based LPC approach with deep learning CNN | |
CN116994553A (zh) | 语音合成模型的训练方法、语音合成方法、装置及设备 | |
Prabhu et al. | EMOCONV-Diff: Diffusion-Based Speech Emotion Conversion for Non-Parallel and in-the-Wild Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220201 |
|
RJ01 | Rejection of invention patent application after publication |