CN102890930B - 基于hmm/sofmnn混合模型的语音情感识别方法 - Google Patents

基于hmm/sofmnn混合模型的语音情感识别方法 Download PDF

Info

Publication number
CN102890930B
CN102890930B CN201110202579.6A CN201110202579A CN102890930B CN 102890930 B CN102890930 B CN 102890930B CN 201110202579 A CN201110202579 A CN 201110202579A CN 102890930 B CN102890930 B CN 102890930B
Authority
CN
China
Prior art keywords
hmm
sofmnn
speech
model
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110202579.6A
Other languages
English (en)
Other versions
CN102890930A (zh
Inventor
高珏
孙柏林
施建刚
孙弘刚
袁健
陈开�
佘俊
许华虎
何永义
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI SHANGDA HAIRUN INFORMATION SYSTEM CO Ltd
Original Assignee
SHANGHAI SHANGDA HAIRUN INFORMATION SYSTEM CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI SHANGDA HAIRUN INFORMATION SYSTEM CO Ltd filed Critical SHANGHAI SHANGDA HAIRUN INFORMATION SYSTEM CO Ltd
Priority to CN201110202579.6A priority Critical patent/CN102890930B/zh
Publication of CN102890930A publication Critical patent/CN102890930A/zh
Application granted granted Critical
Publication of CN102890930B publication Critical patent/CN102890930B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于HMM/SOFMNN混合模型的语音情感识别方法,该方法将HMM和SOFMNN模型相结合对语音情感进行识别,其具体包括以下步骤:1)建立情感语音数据库;2)进行语音信号预处理:包括预加重处理、去噪和分帧加窗;3)语音情感特征提取:包括提取语音信号的时间、能量、振幅、基频和共振峰;4)利用HMM/SOFMNN混合模型训练与识别。与现有技术相比,本发明克服了HMM本身难以解决的模式类别间的相互重叠问题,而且弥补了SOFMNN在获取时序信息方面的不足,提高了语音情感识别率。

Description

基于HMM/SOFMNN混合模型的语音情感识别方法
技术领域
本发明涉及一种语音情感识别方法,尤其是涉及一种基于HMM/SOFMNN混合模型的语音情感识别方法。
背景技术
人的语音信号中包含着丰富的情感信息,通过对语音信号的分析来识别人的情感是当前一个十分活跃的研究课题。语音情感识别就是从语音信号中识别出说话人的情感信息,比如“喜、怒、哀、乐”等。语音情感识别在自然人机交互、安全系统自动监管等方面有着广泛的应用前景。
语音情感识别是一个模式识别问题,大部分模式识别和分类方法都被尝试用于语音中情感的自动识别。隐马尔可夫模型(HMM)作为语音信号的一种较为理想的统计模型,已经在语音处理领域获得了广泛的应用,并逐渐被应用到语音情感识别领域。隐马尔可夫过程是一种双重随机过程,人的言语过程实际上就是这样一种双重随机过程。HMM合理地模仿了这一过程,很好地描述了语音信号的整体非平稳性和局部平稳性,是较为理想的一种语音模型。
但HMM方法有需要语音信号的先验统计知识,分类决策能力较弱等缺点,由于仅考虑了特征的类内变化,而忽略了类间重叠性,仅根据各累积概率的最大值作类别判断,而忽略了各个模式之间的相似特性,因而影响了系统的识别性能,其自适应能力、鲁棒性都不理想。
因此要进一步提高语音情感识别率,就要对HMM模型进行改进。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种克服了HMM本身难以解决的模式类别间的相互重叠问题,而且弥补了SOFMNN(自组织特征映射神经网络)在获取时序信息方面的不足,提高了语音情感识别率的基于HMM/SOFMNN混合模型的语音情感识别方法。
本发明的目的可以通过以下技术方案来实现:一种基于HMM/SOFMNN混合模型的语音情感识别方法,其特征在于,该方法将HMM和SOFMNN模型相结合对语音情感进行识别,其具体包括以下步骤:
1)建立情感语音数据库;
2)进行语音信号预处理:包括预加重处理、去噪和分帧加窗;
3)语音情感特征提取:包括提取语音信号的时间、能量、振幅、基频和共振峰;
4)利用HMM/SOFMNN混合模型训练与识别。
所述的步骤1)建立情感语音数据库具体为,首先邀请实验者参加录音,其中包括高兴,伤心,生气,害怕,惊讶五类情感,组成录制情感语音数据库;然后从影视剪辑中选取典型的情感语音片段,其中包括高兴,伤心,生气,害怕和惊讶五类情感语料,组成剪辑情感语音数据库,最终将这两种情感语音数据库综合起来,完成情感语音数据库的建立。
所述的步骤2)进行语音信号预处理具体为,通过具有6db/oct梯度的高频增强型滤波器,利用Z变换,用一阶数字滤波器来对语音信号进行预加重处理,经过去噪以及分帧之后的语音信号为s(n)=0,…,N-1,那么乘上窗长N=23.22ms(256点)的汉明窗后就变成:s′(n)=s(n)*w(n)
w(n)定义如下: w ( n ) = 0.54 - 0.46 * cos ( 2 &pi;n N - 1 ) , 0 &le; n < N 0 , else .
所述的步骤3)语音情感特征提取具体包括:
A)、时间参数:
提取短时过零率,即一帧语音中语音信号波形穿过横轴的次数;
提取语速,即应用基于频带方差的端点检测算法,检测有声帧与无声帧,以无声部分时间t与发音持续时间T的比值来计算出无声部分时间比率P=t/T,从而衡量语音信号的语速;
B)、基音频率:包括平均基音频率、基频变化范围和基音频率的平均变化率;
采用窗长23.22ms(256点),窗移10ms的汉明窗,截止频率为900Hz的低通滤波器,采用自相关分析法来对每一帧进行基音周期估计,然后对基频进行中值滤波和线性平滑处理,求出情感语音信号的平滑的基频轨迹曲线,分析不同情感信号基频轨迹的变化情况,找出不同情感的基频构造特征;
C)、能量参数:即短时平均能量;
首先求出语音信号各样本点值的平方,然后样本点通过滤波器输出由短时能量构成的时间序列,采用窗长N=23.22ms(256点)的汉明窗,在满足对语音振幅瞬间变化的细节进行了有效平滑的前提下,保证了短时能量的明显变化;
D)、振幅参数:包括短时平均振幅和振幅平均变化率;
首先选择一帧语音,计算该帧语音取样值的绝对值的和,得到该帧语音的平均振幅,对整段语音的各个分帧分别计算平均振幅,便可以得到整段语音的短时平均振幅序列;
E)、共振峰参数:包括共振峰频率的平均值、共振峰频率的平均变化率和前三个共振峰频率;
首先用线性预测法求出预测系数,然后用预测系数估计出声道的频响曲线,再用峰值检出法计算出各共振峰的频率。
所述的步骤B)中的采用自相关分析法来对每一帧进行基音周期估计具体包括以下步骤:
a)用900Hz低通滤波器对一帧语音信号x(n)进行滤波,并去掉开头20个输出值不用(置0),得到x′(n);
b)分别求x′(n)的前部90个样点和后部90个样点的最大幅度,并取其中较小的一个,乘以因子0.68作为门限电平CL
c)对x′(n)分别进行中心削波和三电平削波,即
y ( n ) = C ( x &prime; ( n ) ) , 20 < n < 256 0 , else
y &prime; ( n ) = C &prime; ( y ( n ) ) , 20 < n < 256 0 , else
d)求中心削波后得到的y(n)和三电平削波后得到的y′(n)的互相关值:
R ( k ) = &Sigma; n = 21 256 y ( n ) y &prime; ( n + k ) , k=0,20,21,22,…,128
此处k的取值范围20~128相应于基音频率范围60~500Hz,R(0)相应于短时能量;
e)求出R(20)…R(128)中的最大值Rmax
f)如果Rmax<0.25R(0),则认为本帧为清音,令基音周期值p=0,否则基音周期即为使R(k)取最大值Rmax时的位置的k值,即
p = arg max 20 &le; k &le; 128 R ( k )
得出的p值就是检得的基音周期估值,基音周期的倒数即是基频周期估值。
所述的步骤4)利用HMM/SOFMNN混合模型训练与识别具体包括以下步骤:
41)HMM状态分割:
根据HMM模型,对于每一种情感类别,首先建立对应的隐马尔可夫模型λ=(π,A,B),状态分割采用Viterbi算法,Viterbi译码器用于生成最佳的状态序列,在训练时,每个样本的最佳状态序列由各种情感的HMM模型产生,识别时,先求出样本通过不同的HMM的观察概率,然后求出各个模型对应的规整的特征向量,选择前三个最大输出似然概率对应的HMM规整特征向量与上述这三类的中心矢量距离最短的特征向量作为输入SOFMNN节点的矢量;
42)特征向量规整:即对同一状态利用空间正交基函数展开的方法进行规整,生成等维的语音特征矢量;
HMM模型对应的Markov链由若干状态组成,可以表示为i=1,2,…,n,设第i个状态对应的特征向量有M个,表示为向量集
Figure BDA0000076873310000042
其中
Figure BDA0000076873310000043
L代表特征参数向量的维数,把每个特征向量按行排列可以得到如下的矩阵C:
C = x 11 i x 12 i &CenterDot; &CenterDot; &CenterDot; x 1 L - 1 i x 1 L i x 21 i x 22 i &CenterDot; &CenterDot; &CenterDot; x 2 L - 1 i x 2 L i &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; x M 1 i x M 2 i &CenterDot; &CenterDot; &CenterDot; x ML - 1 i x ML i
矩阵C的每一列可以看作是M阶多项式的系数,将此多项式在0到1空间用正交基函数展开,为了简化计算,可采用前6个勒让德函数Pn(x)作为空间正交基,n=1,2,3,4,5,6,其中多项式的展开公式为:
A n = 2 n + 1 2 &Integral; - 1 1 f ( x ) P n ( x ) dx
其中An为展开的系数,对于i状态而言,L列的向量通过勒让德函数展开的系数共有6L个,6L是常量,这样就达到了对每个状态进行规整生成等维语音特征矢量的目的;
43)SOFMNN网络训练与识别:
在训练阶段,网络随机输入训练集中的样本,对某个特定的输入模式,输出层会有某个节点产生最大响应而获胜,通过反复训练,最终输出层各节点与各输入模式类的特定关系将一一确定,因此在识别时SOFMNN网可用作模式分类器,当输入一个模式时,网络输出层代表该模式类的特定神经元将产生最大响应,从而将该输入自动归类,如果输入模式不属于网络训练时出现过的任何模式类时,SOFMNN将它归入最接近的模式类,在识别阶段,每个样本被HMM模型进行归整完成之后,会输入到SOFMNN神经网络进行识别,SOFMNN神经网络的决策结果作为最终的识别结果。
与现有技术相比,本发明将SOFMNN较强的分类识别能力以及对不确定信息的描述能力与HMM宽广的处理输入语音瞬态特征序列的特性结合起来,与孤立的HMM等模型相比,它不仅克服了HMM本身难以解决的模式类别间的相互重叠问题,而且弥补了SOFMNN在获取时序信息方面的不足,提高了语音情感识别率。
附图说明
图1为基于HMM/SOFMNN模型的语音情感识别系统框图;
图2为情感特征提取流程图;
图3为SOFMNN神经网络结构图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例
如图1,一种基于HMM/SOFMNN混合模型的语音情感识别方法,该方法将HMM和SOFMNN模型相结合对语音情感进行识别,其具体包括以下四个步骤:
第一步:建立情感语音数据库
本发明首先邀请4名实验者参加录音,我们选择了10个录音文本作为情感分析用语音资料,如表1所示。所录制语料经过2名非录音者进行听辨实验,去除了其中情感类型不明显的语料,挑选出共计150条录制语料,其中包含高兴,伤心,生气,害怕,惊讶5类情感语料各30句左右,组成了录制情感语音数据库,录制格式为11KHz,16bit的单声道WAV音频格式;
然后从影视剪辑中选取典型的情感语音片段50句,其中包含高兴,伤心,生气,害怕,惊讶5类情感语料各10句左右,这样组成了剪辑情感语音数据库。最终将这两种情感语音数据库综合起来组成本发明用情感语音数据库。
表1  建立情感语音库的实验录音语料
第二步:进行语音信号预处理
先对语音信号进行预加重、去噪、分帧加窗等预处理。
在语音信号数字化之后,特征参数分析前通过具有6db/oct梯度的高频增强型滤波器,利用Z变换,用一阶数字滤波器来对语音信号做预加重处理。预加重的传递函数如(式9):
H(z)=1-μz-1
其中,μ设为0.9。
经过去噪以及分帧之后的语音信号为s(n)=0,…,N-1,那么乘上窗长N=23.22ms(256点)的汉明窗后就变成:
s′(n)=s(n)*w(n)
w(n)定义如下:
w ( n ) = 0.54 - 0.46 * cos ( 2 &pi;n N - 1 ) , 0 &le; n < N 0 , else
第三步:语音情感特征提取
根据图2情感特征提取流程图所示,经过语音信号预处理之后,就可以提取时间、能量、振幅、基频、共振峰等情感特征参数。
1、时间参数:
应用基于频带方差的端点检测算法,计算从第一帧到最后一个有声帧之间的时间,即为语音持续时间T。将无声帧的数目记为无声部分时间t,以无声部分时间t与发音持续时间T的比值来计算出无声部分时间比率P=t/T,从而衡量语音信号的语速。
短时过零率表示一帧语音中语音信号波形穿过横轴的次数。定义语音信号xn(m)的短时过零率为:
Z n = 1 2 &Sigma; m = 0 N - 1 | sgn [ x n ( m ) ] - sgn [ x n ( m - 1 ) ] |
式中sgn[]是符号函数,即:
sgn [ x ] = 1 , ( x &GreaterEqual; 0 ) - 1 , ( x < 0 )
本发明提取语速与短时过零率参数用于情感识别。
2、基音频率
采用窗长23.22ms(256点),窗移10ms的汉明窗,截止频率为900Hz的低通滤波器,采用自相关分析法来对每一帧进行基音周期估计。然后对基频进行中值滤波和线性平滑处理,求出情感语音信号的平滑的基频轨迹曲线,分析不同情感信号基频轨迹的变化情况,找出不同情感的基频构造特征。
本发明选取平均基音频率、基频变化范围、基音频率的平均变化率等参数用于情感识别。
3、能量参数
短时能量定义为:
E n = &Sigma; m = - &infin; &infin; [ x ( m ) w ( n - m ) ] 2 = &Sigma; m = n - N + 1 n [ x ( m ) w ( n - m ) ] 2
式中,汉明窗函数w(n)平方的物理含义是一个冲激响应为w(n)2的滤波器。本发明首先求出语音信号各样本点值的平方,然后样本点通过滤波器输出由短时能量构成的时间序列。采用窗长N=23.22ms(256点)的汉明窗,在满足对语音振幅瞬间变化的细节进行了有效平滑的前提下,保证了短时能量的明显变化。
本发明将短时平均能量作为情感特征参数。
4、振幅参数
平均振幅函数来衡量语音幅度的变化,其定义为:
M n = &Sigma; m = - &infin; &infin; | x ( n ) | w ( n - m ) = &Sigma; m = n - N + 1 n | x ( n ) | w ( n - m )
可以理解为窗函数ω(n)对信号进行了线性滤波运算。本发明首先选择一帧语音,计算该帧语音取样值的绝对值的和,得到该帧语音的平均振幅。对整段语音的各个分帧分别计算平均振幅,便可以得到整段语音的短时平均振幅序列。
本发明选取短时平均振幅、振幅平均变化率作为参数用于语音情感识别。
5、共振峰参数
本发明首先用线性预测法求出预测系数,然后用预测系数估计出声道的频响曲线,再用峰值检出法计算出各共振峰的频率。
本发明选取共振峰频率的平均值、共振峰频率的平均变化率、前三个共振峰频率等作为情感特征参数。
第四步:利用HMM/SOFMNN混合模型训练与识别
对于每一种语音情感,设计一个从左至右单步跳转(L-R)的HMM。本发明中HMM模型采用基于ML(最大似然概率)的Baum-Welch训练准则。在训练神经网络的过程中,对每个样本计算所有HMM模型的得分值。然后利用每一个HMM对语音信号进行状态分割,即观察值序列通过Viterbi算法得到了相应的状态序列。然后采用空间正交基函数展开的办法使同一状态序列的语音特征矢量规整为等维的特征矢量。考虑到ML准则是使每类HMM模型出现的概率最大化,对特征向量空间正交基函数展开得到的结果利用HMM模型的得分值(概率对数)进行加权,从而得到输入SOFMNN节点的等维矢量。具体包括以下步骤:
41)HMM状态分割:
根据HMM模型,对于每一种情感类别,首先建立对应的隐马尔可夫模型λ=(π,A,B),状态分割采用Viterbi算法,Viterbi译码器用于生成最佳的状态序列,在训练时,每个样本的最佳状态序列由各种情感的HMM模型产生,识别时,先求出样本通过不同的HMM的观察概率,然后求出各个模型对应的规整的特征向量,选择前三个最大输出似然概率对应的HMM规整特征向量与上述这三类的中心矢量距离最短的特征向量作为输入SOFMNN节点的矢量;
42)特征向量规整:即对同一状态利用空间正交基函数展开的方法进行规整,生成等维的语音特征矢量;
HMM模型对应的Markov链由若干状态组成,可以表示为i=1,2,…,n,设第i个状态对应的特征向量有M个,表示为向量集
Figure BDA0000076873310000091
其中L代表特征参数向量的维数,把每个特征向量按行排列可以得到如下的矩阵C:
C = x 11 i x 12 i &CenterDot; &CenterDot; &CenterDot; x 1 L - 1 i x 1 L i x 21 i x 22 i &CenterDot; &CenterDot; &CenterDot; x 2 L - 1 i x 2 L i &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; x M 1 i x M 2 i &CenterDot; &CenterDot; &CenterDot; x ML - 1 i x ML i
矩阵C的每一列可以看作是M阶多项式的系数,将此多项式在0到1空间用正交基函数展开,为了简化计算,可采用前6个勒让德函数Pn(x)作为空间正交基,n=1,2,3,4,5,6,其中多项式的展开公式为:
A n = 2 n + 1 2 &Integral; - 1 1 f ( x ) P n ( x ) dx
其中An为展开的系数,对于i状态而言,L列的向量通过勒让德函数展开的系数共有6L个,6L是常量,这样就达到了对每个状态进行规整生成等维语音特征矢量的目的;
43)SOFMNN网络训练与识别:
在训练阶段,网络随机输入训练集中的样本,对某个特定的输入模式,输出层会有某个节点产生最大响应而获胜,通过反复训练,最终输出层各节点与各输入模式类的特定关系将一一确定,因此在识别时SOFMNN网可用作模式分类器,当输入一个模式时,网络输出层代表该模式类的特定神经元将产生最大响应,从而将该输入自动归类,如果输入模式不属于网络训练时出现过的任何模式类时,SOFMNN将它归入最接近的模式类,在识别阶段,每个样本被HMM模型进行归整完成之后,会输入到SOFMNN神经网络进行识别,SOFMNN神经网络的决策结果作为最终的识别结果。
图3所示为SOFMNN网络结构,SOFMNN采用竞争的方式和无监督的方法,在学习过程中向网络提供一些学习样本进行自组织学习,并将划分到相应的模式内。SOFMNN模型由输入层、隐含层和输出层构成。输入层包括l个神经元,隐含层为动态自组织层,包含P个神经元,P在网络训练中动态变化;输出层包含K个神经元,每个神经元分别对应于一个要识别的语音基元。其中ωj(t)表示第t次学习后输入层与隐层神经元j间的权矢量(1≤j≤P),可
Figure BDA0000076873310000101
表示学习过程结束后隐层与输出层间的权矢量(1≤i≤K),输出的标识矢量为Y=(y1,y2,…,yk)。若当前输入矢量属第i类,则yi的值为1,否则为0。
语音情感识别系统的评价
如表2、表3所示,是本发明中的基于HMM/SOFMNN情感识别模型与孤立HMM模型进行对比的结果。图3所示结果是基于孤立HMM模型对包括平静在内的6种情感类型的识别,最终惊讶、伤心、高兴、害怕、生气的识别率分别达到了56%、63%、60%、58%、62%。而本发明对这几种情感的识别率都有所提升。对比结果表明此方法与孤立的HMM模型等相比具有较好的性能,识别率有较大的提高。
表2  应用HMM/SOFMNN模型的情感识别结果
Figure BDA0000076873310000102
Figure BDA0000076873310000111
表3  应用HMM模型的情感识别结果图
本发明请求保护的范围并不仅仅局限于本具体实施方式的描述。

Claims (5)

1.一种基于HMM/SOFMNN混合模型的语音情感识别方法,其特征在于,该方法将HMM和SOFMNN模型相结合对语音情感进行识别,其具体包括以下步骤:
1)建立情感语音数据库;
2)进行语音信号预处理:包括预加重处理、去噪和分帧加窗;
3)语音情感特征提取:包括提取语音信号的时间、能量、振幅、基频和共振峰,具体为:
A)、时间参数:
提取短时过零率,即一帧语音中语音信号波形穿过横轴的次数;
提取语速,即应用基于频带方差的端点检测算法,检测有声帧与无声帧,以无声部分时间t与发音持续时间T的比值来计算出无声部分时间比率P=t/T,从而衡量语音信号的语速;
B)、基音频率:包括平均基音频率、基频变化范围和基音频率的平均变化率;
采用窗长23.22ms(256点),窗移10ms的汉明窗,截止频率为900Hz的低通滤波器,采用自相关分析法来对每一帧进行基音周期估计,然后对基频进行中值滤波和线性平滑处理,求出情感语音信号的平滑的基频轨迹曲线,分析不同情感信号基频轨迹的变化情况,找出不同情感的基频构造特征;
C)、能量参数:即短时平均能量;
首先求出语音信号各样本点值的平方,然后样本点通过滤波器输出由短时能量构成的时间序列,采用窗长N=23.22ms(256点)的汉明窗,在满足对语音振幅瞬间变化的细节进行了有效平滑的前提下,保证了短时能量的明显变化;
D)、振幅参数:包括短时平均振幅和振幅平均变化率;
首先选择一帧语音,计算该帧语音取样值的绝对值的和,得到该帧语音的平均振幅,对整段语音的各个分帧分别计算平均振幅,便可以得到整段语音的短时平均振幅序列;
E)、共振峰参数:包括共振峰频率的平均值、共振峰频率的平均变化率和前三个共振峰频率;
首先用线性预测法求出预测系数,然后用预测系数估计出声道的频响曲线,再用峰值检出法计算出各共振峰的频率。
4)利用HMM/SOFMNN混合模型训练与识别。
2.根据权利要求1所述的一种基于HMM/SOFMNN混合模型的语音情感识别方法,其特征在于,所述的步骤1)建立情感语音数据库具体为,首先邀请实验者参加录音,其中包括高兴,伤心,生气,害怕,惊讶五类情感,组成录制情感语音数据库;然后从影视剪辑中选取典型的情感语音片段,其中包括高兴,伤心,生气,害怕和惊讶五类情感语料,组成剪辑情感语音数据库,最终将这两种情感语音数据库综合起来,完成情感语音数据库的建立。
3.根据权利要求1所述的一种基于HMM/SOFMNN混合模型的语音情感识别方法,其特征在于,所述的步骤2)进行语音信号预处理具体为,通过具有6db/oct梯度的高频增强型滤波器,利用Z变换,用一阶数字滤波器来对语音信号进行预加重处理,经过去噪以及分帧之后的语音信号为s(n)=0,…,N-1,那么乘上窗长N=23.22ms(256点)的汉明窗后就变成:s′(n)=s(n)*w(n)
w(n)定义如下: ( n ) = 0.54 - 0.46 * cos ( 2 &pi;n N - 1 ) , 0 &le; n < N 0 , else .
4.根据权利要求1所述的一种基于HMM/SOFMNN混合模型的语音情感识别方法,其特征在于,所述的步骤B)中的采用自相关分析法来对每一帧进行基音周期估计具体包括以下步骤:
a)用900Hz低通滤波器对一帧语音信号x(n)进行滤波,并去掉开头20个输出值不用,得到x′(n);
b)分别求x′(n)的前部90个样点和后部90个样点的最大幅度,并取其中较小的一个,乘以因子0.68作为门限电平CL
c)对x′(n)分别进行中心削波和三电平削波,即
y ( n ) = C ( x &prime; ( n ) ) , 20 < n < 256 0 , else
y &prime; ( n ) = C &prime; ( y ( n ) ) , 20 < n < 256 0 , else
d)求中心削波后得到的y(n)和三电平削波后得到的y′(n)的互相关值:
R ( k ) = &Sigma; n = 21 256 y ( n ) y &prime; ( n + k ) , k = 0,20,21,22 , . . . , 128
此处k的取值范围20~128相应于基音频率范围60~500Hz,R(0)相应于短时能量;
e)求出R(20)…R(128)中的最大值Rmax
f)如果Rmax<0.25R(0),则认为本帧为清音,令基音周期值p=0,否则基音周期即为使R(k)取最大值Rmax时的位置的k值,即
p = arg max R ( k ) 20 &le; k &le; 128
得出的p值就是检得的基音周期估值,基音周期的倒数即是基频周期估值。
5.根据权利要求1所述的一种基于HMM/SOFMNN混合模型的语音情感识别方法,其特征在于,所述的步骤4)利用HMM/SOFMNN混合模型训练与识别具体包括以下步骤:
41)HMM状态分割:
根据HMM模型,对于每一种情感类别,首先建立对应的隐马尔可夫模型λ=(π,A,B),状态分割采用Viterbi算法,Viterbi译码器用于生成最佳的状态序列,在训练时,每个样本的最佳状态序列由各种情感的HMM模型产生,识别时,先求出样本通过不同的HMM的观察概率,然后求出各个模型对应的规整的特征向量,选择前三个最大输出似然概率对应的HMM规整特征向量与上述这三类的中心矢量距离最短的特征向量作为输入SOFMNN节点的矢量;
42)特征向量规整:即对同一状态利用空间正交基函数展开的方法进行规整,生成等维的语音特征矢量;
HMM模型对应的Markov链由若干状态组成,可以表示为i=1,2,…,n,设第i个状态对应的特征向量有M个,表示为向量集
Figure FDA0000469496040000041
其中
Figure FDA0000469496040000042
L代表特征参数向量的维数,把每个特征向量按行排列可以得到如下的矩阵C:
C = x 11 i x 12 i . . . x 1 L - 1 i x 1 L i x 21 i x 22 i . . . x 2 L - 1 i x 2 L i . . . . . . . . . . . . . . . x M 1 i x M 2 i . . . x ML - 1 i x ML i
矩阵C的每一列可以看作是M阶多项式的系数,将此多项式在0到1空间用正交基函数展开,为了简化计算,可采用前6个勒让德函数Pn(x)作为空间正交基,n=1,2,3,4,5,6,其中多项式的展开公式为:
A n = 2 n + 1 2 &Integral; - 1 1 f ( x ) P n ( x ) dx
其中An为展开的系数,对于i状态而言,L列的向量通过勒让德函数展开的系数共有6L个,6L是常量,这样就达到了对每个状态进行规整生成等维语音特征矢量的目的;
43)SOFMNN网络训练与识别:
在训练阶段,网络随机输入训练集中的样本,对某个特定的输入模式,输出层会有某个节点产生最大响应而获胜,通过反复训练,最终输出层各节点与各输入模式类的特定关系将一一确定,因此在识别时SOFMNN网可用作模式分类器,当输入一个模式时,网络输出层代表该模式类的特定神经元将产生最大响应,从而将该输入自动归类,如果输入模式不属于网络训练时出现过的任何模式类时,SOFMNN将它归入最接近的模式类,在识别阶段,每个样本被HMM模型进行归整完成之后,会输入到SOFMNN神经网络进行识别,SOFMNN神经网络的决策结果作为最终的识别结果。
CN201110202579.6A 2011-07-19 2011-07-19 基于hmm/sofmnn混合模型的语音情感识别方法 Active CN102890930B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110202579.6A CN102890930B (zh) 2011-07-19 2011-07-19 基于hmm/sofmnn混合模型的语音情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110202579.6A CN102890930B (zh) 2011-07-19 2011-07-19 基于hmm/sofmnn混合模型的语音情感识别方法

Publications (2)

Publication Number Publication Date
CN102890930A CN102890930A (zh) 2013-01-23
CN102890930B true CN102890930B (zh) 2014-06-04

Family

ID=47534417

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110202579.6A Active CN102890930B (zh) 2011-07-19 2011-07-19 基于hmm/sofmnn混合模型的语音情感识别方法

Country Status (1)

Country Link
CN (1) CN102890930B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104200814B (zh) * 2014-08-15 2017-07-21 浙江大学 基于语义细胞的语音情感识别方法
KR102305584B1 (ko) * 2015-01-19 2021-09-27 삼성전자주식회사 언어 모델 학습 방법 및 장치, 언어 인식 방법 및 장치
CN105825864B (zh) * 2016-05-19 2019-10-25 深圳永顺智信息科技有限公司 基于过零率指标的双端说话检测与回声消除方法
CN106128475A (zh) * 2016-07-12 2016-11-16 华南理工大学 基于异常情绪语音辨识的可穿戴智能安全设备及控制方法
CN106308809B (zh) * 2016-08-15 2019-04-23 河北工业大学 大腿残肢者的步态识别方法
CN106294296A (zh) * 2016-08-16 2017-01-04 唐哲敏 一种文字信息会话管理方法
CN106297823A (zh) * 2016-08-22 2017-01-04 东南大学 一种基于环境噪声标准化变换的语音情感特征选择方法
CN106328126B (zh) * 2016-10-20 2019-08-16 北京云知声信息技术有限公司 远场语音识别处理方法及装置
CN106653058B (zh) * 2016-10-28 2020-03-17 中国科学院计算技术研究所 基于双声道的脚步检测方法
CN106611598B (zh) * 2016-12-28 2019-08-02 上海智臻智能网络科技股份有限公司 一种vad动态参数调整方法和装置
CN108346436B (zh) 2017-08-22 2020-06-23 腾讯科技(深圳)有限公司 语音情感检测方法、装置、计算机设备及存储介质
CN108447470A (zh) * 2017-12-28 2018-08-24 中南大学 一种基于声道和韵律特征的情感语音转换方法
CN108682432B (zh) * 2018-05-11 2021-03-16 南京邮电大学 语音情感识别装置
CN108806708A (zh) * 2018-06-13 2018-11-13 中国电子科技集团公司第三研究所 基于计算听觉场景分析和生成对抗网络模型的语音降噪方法
CN111192573B (zh) * 2018-10-29 2023-08-18 宁波方太厨具有限公司 基于语音识别的设备智能化控制方法
CN110265063B (zh) * 2019-07-22 2021-09-24 东南大学 一种基于固定时长语音情感识别序列分析的测谎方法
CN111081280B (zh) * 2019-12-30 2022-10-04 思必驰科技股份有限公司 与文本无关的语音情感识别方法及装置、用于识别情感的算法模型的生成方法
CN114005467A (zh) * 2020-07-28 2022-02-01 中移(苏州)软件技术有限公司 一种语音情感识别方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101261832A (zh) * 2008-04-21 2008-09-10 北京航空航天大学 汉语语音情感信息的提取及建模方法
CN101685634A (zh) * 2008-09-27 2010-03-31 上海盛淘智能科技有限公司 一种儿童语音情感识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101261832A (zh) * 2008-04-21 2008-09-10 北京航空航天大学 汉语语音情感信息的提取及建模方法
CN101685634A (zh) * 2008-09-27 2010-03-31 上海盛淘智能科技有限公司 一种儿童语音情感识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于HMM噪声背景下的语音识别方法的研究;黄湘松;《中国优秀硕士学位论文全文数据库》;20051021;第5章第5.3节 *
黄湘松.基于HMM噪声背景下的语音识别方法的研究.《中国优秀硕士学位论文全文数据库》.2005,

Also Published As

Publication number Publication date
CN102890930A (zh) 2013-01-23

Similar Documents

Publication Publication Date Title
CN102890930B (zh) 基于hmm/sofmnn混合模型的语音情感识别方法
CN110400579B (zh) 基于方向自注意力机制和双向长短时网络的语音情感识别
CN102800316B (zh) 基于神经网络的声纹识别系统的最优码本设计方法
CN110033758B (zh) 一种基于小训练集优化解码网络的语音唤醒实现方法
CN103065627B (zh) 基于dtw与hmm证据融合的特种车鸣笛声识别方法
CN109243494B (zh) 基于多重注意力机制长短时记忆网络的儿童情感识别方法
CN106503805A (zh) 一种基于机器学习的双模态人人对话情感分析系统及其方法
CN103824557B (zh) 一种具有自定义功能的音频检测分类方法
CN103714806B (zh) 一种结合svm和增强型pcp特征的和弦识别方法
CN104835498A (zh) 基于多类型组合特征参数的声纹识别方法
CN101226743A (zh) 基于中性和情感声纹模型转换的说话人识别方法
CN112581979A (zh) 一种基于语谱图的语音情绪识别方法
CN105374352A (zh) 一种语音激活方法及系统
Bhosale et al. End-to-End Spoken Language Understanding: Bootstrapping in Low Resource Scenarios.
CN102789779A (zh) 一种语音识别系统及其识别方法
CN111341319B (zh) 一种基于局部纹理特征的音频场景识别方法及系统
CN104008754A (zh) 一种基于半监督特征选择的语音情感识别方法
CN103578481A (zh) 一种跨语言的语音情感识别方法
CN112071308A (zh) 一种基于语音合成数据增强的唤醒词训练方法
CN103456302A (zh) 一种基于情感gmm模型权重合成的情感说话人识别方法
CN112562725A (zh) 基于语谱图和胶囊网络的混合语音情感分类方法
CN104077598A (zh) 一种基于语音模糊聚类的情感识别方法
Prachi et al. Deep learning based speaker recognition system with CNN and LSTM techniques
Sivaram et al. Data-driven and feedback based spectro-temporal features for speech recognition
CN102237082B (zh) 语音识别系统的自适应方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant