CN102890930A

CN102890930A - 基于hmm/sofmnn混合模型的语音情感识别方法

Info

Publication number: CN102890930A
Application number: CN2011102025796A
Authority: CN
Inventors: 高珏; 孙柏林; 施建刚; 孙弘刚; 袁健; 陈开�; 佘俊; 许华虎; 何永义
Original assignee: SHANGHAI SHANGDA HAIRUN INFORMATION SYSTEM CO Ltd
Current assignee: SHANGHAI SHANGDA HAIRUN INFORMATION SYSTEM CO Ltd
Priority date: 2011-07-19
Filing date: 2011-07-19
Publication date: 2013-01-23
Anticipated expiration: 2031-07-19
Also published as: CN102890930B

Abstract

本发明涉及一种基于HMM/SOFMNN混合模型的语音情感识别方法，该方法将HMM和SOFMNN模型相结合对语音情感进行识别，其具体包括以下步骤：1)建立情感语音数据库；2)进行语音信号预处理：包括预加重处理、去噪和分帧加窗；3)语音情感特征提取：包括提取语音信号的时间、能量、振幅、基频和共振峰；4)利用HMM/SOFMNN混合模型训练与识别。与现有技术相比，本发明克服了HMM本身难以解决的模式类别间的相互重叠问题，而且弥补了SOFMNN在获取时序信息方面的不足，提高了语音情感识别率。

Description

基于HMM/SOFMNN混合模型的语音情感识别方法

技术领域

本发明涉及一种语音情感识别方法，尤其是涉及一种基于HMM/SOFMNN混合模型的语音情感识别方法。

背景技术

人的语音信号中包含着丰富的情感信息，通过对语音信号的分析来识别人的情感是当前一个十分活跃的研究课题。语音情感识别就是从语音信号中识别出说话人的情感信息，比如“喜、怒、哀、乐”等。语音情感识别在自然人机交互、安全系统自动监管等方面有着广泛的应用前景。

语音情感识别是一个模式识别问题，大部分模式识别和分类方法都被尝试用于语音中情感的自动识别。隐马尔可夫模型(HMM)作为语音信号的一种较为理想的统计模型，已经在语音处理领域获得了广泛的应用，并逐渐被应用到语音情感识别领域。隐马尔可夫过程是一种双重随机过程，人的言语过程实际上就是这样一种双重随机过程。HMM合理地模仿了这一过程，很好地描述了语音信号的整体非平稳性和局部平稳性，是较为理想的一种语音模型。

但HMM方法有需要语音信号的先验统计知识，分类决策能力较弱等缺点，由于仅考虑了特征的类内变化，而忽略了类间重叠性，仅根据各累积概率的最大值作类别判断，而忽略了各个模式之间的相似特性，因而影响了系统的识别性能，其自适应能力、鲁棒性都不理想。

因此要进一步提高语音情感识别率，就要对HMM模型进行改进。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种克服了HMM本身难以解决的模式类别间的相互重叠问题，而且弥补了SOFMNN(自组织特征映射神经网络)在获取时序信息方面的不足，提高了语音情感识别率的基于HMM/SOFMNN混合模型的语音情感识别方法。

本发明的目的可以通过以下技术方案来实现：一种基于HMM/SOFMNN混合模型的语音情感识别方法，其特征在于，该方法将HMM和SOFMNN模型相结合对语音情感进行识别，其具体包括以下步骤：

1)建立情感语音数据库；

2)进行语音信号预处理：包括预加重处理、去噪和分帧加窗；

3)语音情感特征提取：包括提取语音信号的时间、能量、振幅、基频和共振峰；

4)利用HMM/SOFMNN混合模型训练与识别。

所述的步骤1)建立情感语音数据库具体为，首先邀请实验者参加录音，其中包括高兴，伤心，生气，害怕，惊讶五类情感，组成录制情感语音数据库；然后从影视剪辑中选取典型的情感语音片段，其中包括高兴，伤心，生气，害怕和惊讶五类情感语料，组成剪辑情感语音数据库，最终将这两种情感语音数据库综合起来，完成情感语音数据库的建立。

所述的步骤2)进行语音信号预处理具体为，通过具有6db/oct梯度的高频增强型滤波器，利用Z变换，用一阶数字滤波器来对语音信号进行预加重处理，经过去噪以及分帧之后的语音信号为s(n)＝0，…，N-1，那么乘上窗长N＝23.22ms(256点)的汉明窗后就变成：s′(n)＝s(n)*w(n)

w(n)定义如下：

w (n) = \{\begin{matrix} 0.54 - 0.46 * \cos (\frac{2 πn}{N - 1}), & 0 \leq n < N \\ 0, & else \end{matrix} .

所述的步骤3)语音情感特征提取具体包括：

A)、时间参数：

提取短时过零率，即一帧语音中语音信号波形穿过横轴的次数；

提取语速，即应用基于频带方差的端点检测算法，检测有声帧与无声帧，以无声部分时间t与发音持续时间T的比值来计算出无声部分时间比率P＝t/T，从而衡量语音信号的语速；

B)、基音频率：包括平均基音频率、基频变化范围和基音频率的平均变化率；

采用窗长23.22ms(256点)，窗移10ms的汉明窗，截止频率为900Hz的低通滤波器，采用自相关分析法来对每一帧进行基音周期估计，然后对基频进行中值滤波和线性平滑处理，求出情感语音信号的平滑的基频轨迹曲线，分析不同情感信号基频轨迹的变化情况，找出不同情感的基频构造特征；

C)、能量参数：即短时平均能量；

首先求出语音信号各样本点值的平方，然后样本点通过滤波器输出由短时能量构成的时间序列，采用窗长N＝23.22ms(256点)的汉明窗，在满足对语音振幅瞬间变化的细节进行了有效平滑的前提下，保证了短时能量的明显变化；

D)、振幅参数：包括短时平均振幅和振幅平均变化率；

首先选择一帧语音，计算该帧语音取样值的绝对值的和，得到该帧语音的平均振幅，对整段语音的各个分帧分别计算平均振幅，便可以得到整段语音的短时平均振幅序列；

E)、共振峰参数：包括共振峰频率的平均值、共振峰频率的平均变化率和前三个共振峰频率；

首先用线性预测法求出预测系数，然后用预测系数估计出声道的频响曲线，再用峰值检出法计算出各共振峰的频率。

所述的步骤B)中的采用自相关分析法来对每一帧进行基音周期估计具体包括以下步骤：

a)用900Hz低通滤波器对一帧语音信号x(n)进行滤波，并去掉开头20个输出值不用(置0)，得到x′(n)；

b)分别求x′(n)的前部90个样点和后部90个样点的最大幅度，并取其中较小的一个，乘以因子0.68作为门限电平C_L；

c)对x′(n)分别进行中心削波和三电平削波，即

y (n) = \{\begin{matrix} C (x^{'} (n)), 20 < n < 256 \\ 0, else \end{matrix}

y^{'} (n) = \{\begin{matrix} C^{'} (y (n)), 20 < n < 256 \\ 0, else \end{matrix}

d)求中心削波后得到的y(n)和三电平削波后得到的y′(n)的互相关值：

R (k) = Σ_{n = 21}^{256} y (n) y^{'} (n + k),

k＝0，20，21，22，…，128

此处k的取值范围20～128相应于基音频率范围60～500Hz，R(0)相应于短时能量；

e)求出R(20)…R(128)中的最大值R_max；

f)如果R_max＜0.25R(0)，则认为本帧为清音，令基音周期值p＝0，否则基音周期即为使R(k)取最大值R_max时的位置的k值，即

p = \underset{20 \leq k \leq 128}{\arg \max} R (k)

得出的p值就是检得的基音周期估值，基音周期的倒数即是基频周期估值。

所述的步骤4)利用HMM/SOFMNN混合模型训练与识别具体包括以下步骤：

41)HMM状态分割：

根据HMM模型，对于每一种情感类别，首先建立对应的隐马尔可夫模型λ＝(π，A，B)，状态分割采用Viterbi算法，Viterbi译码器用于生成最佳的状态序列，在训练时，每个样本的最佳状态序列由各种情感的HMM模型产生，识别时，先求出样本通过不同的HMM的观察概率，然后求出各个模型对应的规整的特征向量，选择前三个最大输出似然概率对应的HMM规整特征向量与上述这三类的中心矢量距离最短的特征向量作为输入SOFMNN节点的矢量；

42)特征向量规整：即对同一状态利用空间正交基函数展开的方法进行规整，生成等维的语音特征矢量；

HMM模型对应的Markov链由若干状态组成，可以表示为i＝1，2，…，n，设第i个状态对应的特征向量有M个，表示为向量集

其中

L代表特征参数向量的维数，把每个特征向量按行排列可以得到如下的矩阵C：

C = [\begin{matrix} x_{11}^{i} & x_{12}^{i} & \cdot \cdot \cdot & x_{1 L - 1}^{i} & x_{1 L}^{i} \\ x_{21}^{i} & x_{22}^{i} & \cdot \cdot \cdot & x_{2 L - 1}^{i} & x_{2 L}^{i} \\ \cdot & \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot & \cdot \\ x_{M 1}^{i} & x_{M 2}^{i} & \cdot \cdot \cdot & x_{ML - 1}^{i} & x_{ML}^{i} \end{matrix}]

矩阵C的每一列可以看作是M阶多项式的系数，将此多项式在0到1空间用正交基函数展开，为了简化计算，可采用前6个勒让德函数P_n(x)作为空间正交基，n＝1，2，3，4，5，6，其中多项式的展开公式为：

A_{n} = \frac{2 n + 1}{2} {&Integral;}_{- 1}^{1} f (x) P_{n} (x) dx

其中A_n为展开的系数，对于i状态而言，L列的向量通过勒让德函数展开的系数共有6L个，6L是常量，这样就达到了对每个状态进行规整生成等维语音特征矢量的目的；

43)SOFMNN网络训练与识别：

在训练阶段，网络随机输入训练集中的样本，对某个特定的输入模式，输出层会有某个节点产生最大响应而获胜，通过反复训练，最终输出层各节点与各输入模式类的特定关系将一一确定，因此在识别时SOFMNN网可用作模式分类器，当输入一个模式时，网络输出层代表该模式类的特定神经元将产生最大响应，从而将该输入自动归类，如果输入模式不属于网络训练时出现过的任何模式类时，SOFMNN将它归入最接近的模式类，在识别阶段，每个样本被HMM模型进行归整完成之后，会输入到SOFMNN神经网络进行识别，SOFMNN神经网络的决策结果作为最终的识别结果。

与现有技术相比，本发明将SOFMNN较强的分类识别能力以及对不确定信息的描述能力与HMM宽广的处理输入语音瞬态特征序列的特性结合起来，与孤立的HMM等模型相比，它不仅克服了HMM本身难以解决的模式类别间的相互重叠问题，而且弥补了SOFMNN在获取时序信息方面的不足，提高了语音情感识别率。

附图说明

图1为基于HMM/SOFMNN模型的语音情感识别系统框图；

图2为情感特征提取流程图；

图3为SOFMNN神经网络结构图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例

如图1，一种基于HMM/SOFMNN混合模型的语音情感识别方法，该方法将HMM和SOFMNN模型相结合对语音情感进行识别，其具体包括以下四个步骤：

第一步：建立情感语音数据库

本发明首先邀请4名实验者参加录音，我们选择了10个录音文本作为情感分析用语音资料，如表1所示。所录制语料经过2名非录音者进行听辨实验，去除了其中情感类型不明显的语料，挑选出共计150条录制语料，其中包含高兴，伤心，生气，害怕，惊讶5类情感语料各30句左右，组成了录制情感语音数据库，录制格式为11KHz，16bit的单声道WAV音频格式；

然后从影视剪辑中选取典型的情感语音片段50句，其中包含高兴，伤心，生气，害怕，惊讶5类情感语料各10句左右，这样组成了剪辑情感语音数据库。最终将这两种情感语音数据库综合起来组成本发明用情感语音数据库。

表1 建立情感语音库的实验录音语料

第二步：进行语音信号预处理

先对语音信号进行预加重、去噪、分帧加窗等预处理。

在语音信号数字化之后，特征参数分析前通过具有6db/oct梯度的高频增强型滤波器，利用Z变换，用一阶数字滤波器来对语音信号做预加重处理。预加重的传递函数如(式9)：

H(z)＝1-μz^-1

其中，μ设为0.9。

经过去噪以及分帧之后的语音信号为s(n)＝0，…，N-1，那么乘上窗长N＝23.22ms(256点)的汉明窗后就变成：

s′(n)＝s(n)*w(n)

w(n)定义如下：

w (n) = \{\begin{matrix} 0.54 - 0.46 * \cos (\frac{2 πn}{N - 1}), & 0 \leq n < N \\ 0, & else \end{matrix}

第三步：语音情感特征提取

根据图2情感特征提取流程图所示，经过语音信号预处理之后，就可以提取时间、能量、振幅、基频、共振峰等情感特征参数。

1、时间参数：

应用基于频带方差的端点检测算法，计算从第一帧到最后一个有声帧之间的时间，即为语音持续时间T。将无声帧的数目记为无声部分时间t，以无声部分时间t与发音持续时间T的比值来计算出无声部分时间比率P＝t/T，从而衡量语音信号的语速。

短时过零率表示一帧语音中语音信号波形穿过横轴的次数。定义语音信号x_n(m)的短时过零率为：

Z_{n} = \frac{1}{2} Σ_{m = 0}^{N - 1} | sgn [x_{n} (m)] - sgn [x_{n} (m - 1)] |

式中sgn[]是符号函数，即：

sgn [x] = \{\begin{matrix} 1, & (x &GreaterEqual; 0) \\ - 1, & (x < 0) \end{matrix}

本发明提取语速与短时过零率参数用于情感识别。

2、基音频率

采用窗长23.22ms(256点)，窗移10ms的汉明窗，截止频率为900Hz的低通滤波器，采用自相关分析法来对每一帧进行基音周期估计。然后对基频进行中值滤波和线性平滑处理，求出情感语音信号的平滑的基频轨迹曲线，分析不同情感信号基频轨迹的变化情况，找出不同情感的基频构造特征。

本发明选取平均基音频率、基频变化范围、基音频率的平均变化率等参数用于情感识别。

3、能量参数

短时能量定义为：

E_{n} = Σ_{m = - \infty}^{\infty} {[x (m) w (n - m)]}^{2} = Σ_{m = n - N + 1}^{n} {[x (m) w (n - m)]}^{2}

式中，汉明窗函数w(n)平方的物理含义是一个冲激响应为w(n)²的滤波器。本发明首先求出语音信号各样本点值的平方，然后样本点通过滤波器输出由短时能量构成的时间序列。采用窗长N＝23.22ms(256点)的汉明窗，在满足对语音振幅瞬间变化的细节进行了有效平滑的前提下，保证了短时能量的明显变化。

本发明将短时平均能量作为情感特征参数。

4、振幅参数

平均振幅函数来衡量语音幅度的变化，其定义为：

M_{n} = Σ_{m = - \infty}^{\infty} | x (n) | w (n - m) = Σ_{m = n - N + 1}^{n} | x (n) | w (n - m)

可以理解为窗函数ω(n)对信号进行了线性滤波运算。本发明首先选择一帧语音，计算该帧语音取样值的绝对值的和，得到该帧语音的平均振幅。对整段语音的各个分帧分别计算平均振幅，便可以得到整段语音的短时平均振幅序列。

本发明选取短时平均振幅、振幅平均变化率作为参数用于语音情感识别。

5、共振峰参数

本发明首先用线性预测法求出预测系数，然后用预测系数估计出声道的频响曲线，再用峰值检出法计算出各共振峰的频率。

本发明选取共振峰频率的平均值、共振峰频率的平均变化率、前三个共振峰频率等作为情感特征参数。

第四步：利用HMM/SOFMNN混合模型训练与识别

对于每一种语音情感，设计一个从左至右单步跳转(L-R)的HMM。本发明中HMM模型采用基于ML(最大似然概率)的Baum-Welch训练准则。在训练神经网络的过程中，对每个样本计算所有HMM模型的得分值。然后利用每一个HMM对语音信号进行状态分割，即观察值序列通过Viterbi算法得到了相应的状态序列。然后采用空间正交基函数展开的办法使同一状态序列的语音特征矢量规整为等维的特征矢量。考虑到ML准则是使每类HMM模型出现的概率最大化，对特征向量空间正交基函数展开得到的结果利用HMM模型的得分值(概率对数)进行加权，从而得到输入SOFMNN节点的等维矢量。具体包括以下步骤：

41)HMM状态分割：

其中

C = [\begin{matrix} x_{11}^{i} & x_{12}^{i} & \cdot \cdot \cdot & x_{1 L - 1}^{i} & x_{1 L}^{i} \\ x_{21}^{i} & x_{22}^{i} & \cdot \cdot \cdot & x_{2 L - 1}^{i} & x_{2 L}^{i} \\ \cdot & \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot & \cdot \\ x_{M 1}^{i} & x_{M 2}^{i} & \cdot \cdot \cdot & x_{ML - 1}^{i} & x_{ML}^{i} \end{matrix}]

A_{n} = \frac{2 n + 1}{2} {&Integral;}_{- 1}^{1} f (x) P_{n} (x) dx

43)SOFMNN网络训练与识别：

图3所示为SOFMNN网络结构，SOFMNN采用竞争的方式和无监督的方法，在学习过程中向网络提供一些学习样本进行自组织学习，并将划分到相应的模式内。SOFMNN模型由输入层、隐含层和输出层构成。输入层包括l个神经元，隐含层为动态自组织层，包含P个神经元，P在网络训练中动态变化；输出层包含K个神经元，每个神经元分别对应于一个要识别的语音基元。其中ω_j(t)表示第t次学习后输入层与隐层神经元j间的权矢量(1≤j≤P)，可

表示学习过程结束后隐层与输出层间的权矢量(1≤i≤K)，输出的标识矢量为Y＝(y₁，y₂，…，y_k)。若当前输入矢量属第i类，则y_i的值为1，否则为0。

语音情感识别系统的评价

如表2、表3所示，是本发明中的基于HMM/SOFMNN情感识别模型与孤立HMM模型进行对比的结果。图3所示结果是基于孤立HMM模型对包括平静在内的6种情感类型的识别，最终惊讶、伤心、高兴、害怕、生气的识别率分别达到了56％、63％、60％、58％、62％。而本发明对这几种情感的识别率都有所提升。对比结果表明此方法与孤立的HMM模型等相比具有较好的性能，识别率有较大的提高。

表2 应用HMM/SOFMNN模型的情感识别结果

表3 应用HMM模型的情感识别结果图

本发明请求保护的范围并不仅仅局限于本具体实施方式的描述。

Claims

1.一种基于HMM/SOFMNN混合模型的语音情感识别方法，其特征在于，该方法将HMM和SOFMNN模型相结合对语音情感进行识别，其具体包括以下步骤：

1)建立情感语音数据库；

4)利用HMM/SOFMNN混合模型训练与识别。

2.根据权利要求1所述的一种基于HMM/SOFMNN混合模型的语音情感识别方法，其特征在于，所述的步骤1)建立情感语音数据库具体为，首先邀请实验者参加录音，其中包括高兴，伤心，生气，害怕，惊讶五类情感，组成录制情感语音数据库；然后从影视剪辑中选取典型的情感语音片段，其中包括高兴，伤心，生气，害怕和惊讶五类情感语料，组成剪辑情感语音数据库，最终将这两种情感语音数据库综合起来，完成情感语音数据库的建立。

3.根据权利要求1所述的一种基于HMM/SOFMNN混合模型的语音情感识别方法，其特征在于，所述的步骤2)进行语音信号预处理具体为，通过具有6db/oct梯度的高频增强型滤波器，利用Z变换，用一阶数字滤波器来对语音信号进行预加重处理，经过去噪以及分帧之后的语音信号为s(n)＝0，…，N-1，那么乘上窗长N＝23.22ms(256点)的汉明窗后就变成：s′(n)＝s(n)*w(n)

w(n)定义如下：

w (n) = \{\begin{matrix} 0.54 - 0.46 * \cos (\frac{2 πn}{N - 1}), & 0 \leq n < N \\ 0, & else \end{matrix} .

4.根据权利要求1所述的一种基于HMM/SOFMNN混合模型的语音情感识别方法，其特征在于，所述的步骤3)语音情感特征提取具体包括：

A)、时间参数：

C)、能量参数：即短时平均能量；

D)、振幅参数：包括短时平均振幅和振幅平均变化率；

5.根据权利要求4所述的一种基于HMM/SOFMNN混合模型的语音情感识别方法，其特征在于，所述的步骤B)中的采用自相关分析法来对每一帧进行基音周期估计具体包括以下步骤：

c)对x′(n)分别进行中心削波和三电平削波，即

y (n) = \{\begin{matrix} C (x^{'} (n)), 20 < n < 256 \\ 0, else \end{matrix}

y^{'} (n) = \{\begin{matrix} C^{'} (y (n)), 20 < n < 256 \\ 0, else \end{matrix}

R (k) = Σ_{n = 21}^{256} y (n) y^{'} (n + k),

k＝0，20，21，22，…，128

e)求出R(20)…R(128)中的最大值R_max；

p = \underset{20 \leq k \leq 128}{\arg \max} R (k)

6.根据权利要求1所述的一种基于HMM/SOFMNN混合模型的语音情感识别方法，其特征在于，所述的步骤4)利用HMM/SOFMNN混合模型训练与识别具体包括以下步骤：

41)HMM状态分割：

其中

C = [\begin{matrix} x_{11}^{i} & x_{12}^{i} & \cdot \cdot \cdot & x_{1 L - 1}^{i} & x_{1 L}^{i} \\ x_{21}^{i} & x_{22}^{i} & \cdot \cdot \cdot & x_{2 L - 1}^{i} & x_{2 L}^{i} \\ \cdot & \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot & \cdot \\ x_{M 1}^{i} & x_{M 2}^{i} & \cdot \cdot \cdot & x_{ML - 1}^{i} & x_{ML}^{i} \end{matrix}]

A_{n} = \frac{2 n + 1}{2} {&Integral;}_{- 1}^{1} f (x) P_{n} (x) dx

43)SOFMNN网络训练与识别：