CN107845390A

CN107845390A - 一种基于pcnn语谱图特征融合的情感语音识别系统

Info

Publication number: CN107845390A
Application number: CN201710857568.9A
Authority: CN
Inventors: 白静; 郭倩岩; 闫建政
Original assignee: Taiyuan University of Technology
Current assignee: Taiyuan University of Technology
Priority date: 2017-09-21
Filing date: 2017-09-21
Publication date: 2018-03-27

Abstract

本发明涉及语音识别技术领域。一种基于PCNN语谱图特征融合的情感语音识别系统，对于语音信号进行加窗分帧，然后做离散傅里叶变换，画出语音信号的语谱图；构建PCNN模型，通过脉冲耦合神经网络处理语谱图；将PCNN图谱与5尺度8方向Gabor小波卷积，并提取Gabor幅值特征得到40幅Gabor频谱图；对每一幅Gabor频谱图提取均匀模式LBP特征，将40张Gabor频谱图中的直方图级联得到特征向量

Description

一种基于PCNN语谱图特征融合的情感语音识别系统

技术领域

本发明涉及语音识别技术领域。

背景技术

随着信息技术的高速发展，人机交互受到越来越多的关注，情感语音识别作为人机交互的关键技术，成为该领域的研究重点。情感语音识别是计算机通过对人类语音情感信息的提取分析，从而对人类情感状态做出判断的语音识别技术，在商业、医疗、教育等众多领域有着广泛的应用。

当前，用于语音情感识别的声学特征大致可归纳为韵律学特征、基于谱的相关特征和音质特征。韵律特征通过时长、基频、能量等特征对语音情感进行区分，其情感识别能力已得到情感识别邻域的广泛认可。基于谱的相关特征通过声道形状变化和发生运动之间的相关性体现，对频谱能量在各个频谱区间的分布有着明显的影响。声音质量通过共振峰频率及其带宽、频率微扰和振幅微扰、声门参数等特征对语音情感做出有效分析。这些特征中，语音信号时域特性和频域特性起到了重要的作用，但是针对语音信号时域和频域两者相关性结合的研究相对较少。语谱图通过对时域和频域结合，用横轴代表时间，纵轴代表频率，将图像的像素点用频率点表示，采用图像特征分析相邻频率点之间的关系，是一种语音能量时频分布的可视化表达方式，有效的利用了时频两域之间的相关性。

脉冲耦合神经网络(Pulse Coupled Neural Network,PCNN)是语谱图特征提取在情感语音识别邻域的有效方法，源于对小新哺乳动物视神经研究而提出的一种新型神经网络模型，是由脉冲耦合神经元构成的二维单层神经元阵列模型。该方法通过将语谱图输入到PCNN后得到输出图像的时间序列作为情感语音的特征，具有时间、尺度等不变性，可以快速有效的实现情感语音识别。

Gabor滤波器是一种用于边缘提取的线性滤波器，通过引入时间局部化的窗函数，进行窗口傅里叶变换，把语音信号划分成许多时间间隔，用傅里叶变换分析每一个时间间隔，然后提取语音信号的局部空间信息和频域信息。Gabor滤波器可以有效提取特定区域内多尺度、多方向空间频率特征，凸显相邻灰度级间的变化，可以很好的兼顾信号在时频域的分析能力。

LBP(local binary pattern)是一种用来描述图像局部纹理特征的算子，其原理是通过设定区域内像素中心的灰度值为阈值，将该值与像素中心周围的像素灰度值比较，如果领域像素点的灰度值大于阈值，则在邻域像素点的位置上标记为1，若灰度值小于阈值则标记为0，经过二值化处理后得到该邻域中心像素点的LBP值。LBP反映了每个像素与周围像素的关系，具有旋转不变性和灰度不变性等显著的优点。

不变矩是一种通过提取具有平移、旋转、和比例不变性的图像特征，从而进行图像识别的方法。图像不变矩分为灰度直方图不变矩和空间不变矩，其对图像平移、旋转、缩放、灰度变换都具有恒定性。不变矩是描述区域特征的方法，矩不变量具有不随图像的位置、大小和方向而变化的特点，是提取图像中的形态特征的有效的工具。Hu提出图像的7个不变矩具有平移、旋转、比例不变性，在目标识别、图像匹配、形状分析等邻域得到了广泛的应用。

发明内容

本发明所要解决的技术问题是：如何提供一种基于PCNN语谱图特征融合的情感语音识别系统，采用支持向量机对系统输出特征进行分类识别，改善语音识别效果。

本发明所采用的技术方案是：一种基于PCNN语谱图特征融合的情感语音识别系统，按照如下的步骤进行：

步骤一、对于语音信号进行加窗分帧，然后做离散傅里叶变换，画出语音信号的语谱图；

步骤二、构建PCNN模型，通过脉冲耦合神经网络处理语谱图；

步骤三、将PCNN图谱与5尺度8方向Gabor小波卷积，并提取Gabor幅值特征得到40幅Gabor频谱图；

步骤四、对每一幅Gabor频谱图提取均匀模式LBP特征，将40张Gabor频谱图中的直方图级联得到特征向量Q_LBP；

步骤五、计算每一幅Gabor频谱图Hu块的7个不变矩，然后级联，构成一个Gabor频谱图的特征向量，将40幅Gabor频谱图的Hu矩特征向量级联构成一幅语谱图的Hu矩特征向量Q_Hu；

步骤六、对特征Q_LBP和Q_Hu用PCA方法降维后采用最大‐最小归一化方法处理得到特征向量Q′_LBP和Q′_Hu。利用公式融合Q′_LBP和Q′_Hu，得到融合特征Q。

步骤七、将融合特征Q带入SVM模型，得到识别准确率。

作为一种优选方式，步骤一中具体为：

对语音信号s(n)进行加窗，本发明采用的窗函数为汉明窗w(n)：

用窗函数w(n)乘以语音信号s(n)，形成加窗语音信号x(n)：

x(n)＝s(n)*w(n)

对加窗语音信号进行分帧处理，则语音信号x(n)表示为x_n(t)，其中n为帧序号，t为帧同步的时间序号，N为帧长；

对分帧后的语音信号x_n(t)进行离散傅里叶变换：

其中，jj为虚数单位，谐波分量序号k＝0,1,...,N-1，则x(n)的短时幅度谱估计为|X(n,k)|，时间t处频谱能量密度函数P(n,k)为：

P(n,k)＝|X(n,k)|²＝(X(n,k))×(conjj(X(n,k)))

将P(n,k)的值表示为灰度级所构成的二维图像得到语谱图；

作为一种优选方式，步骤二中通过脉冲耦合神经网络处理语谱图按照如下的步骤进行：

每一个神经元依次对应语谱图图像中的一个像素，在这个神经元结构模型中，神经元的输入可以划分为反馈输入F和连接输入L两部分：

F_ij(h)＝exp(-α_F)F_ij(h-1)+V_F∑c_ij,mlY_ml(h-1)+S_ij

L_ij(h)＝exp(-α_L)L_ij(h-1)+V_LΣw_ij,mlY_ml(h-1)

其中，h为神经元点火时间序号，S_ij是输入刺激信号，取图像像素构成的矩阵中第i、j个像素的灰度值，m、l分别代表图像像素位置所对应的神经元，F_ij和L_ij分别为馈送输入和链接输入，V_F和V_L为放大系数，α_F和α_L为衰减系数，c_ij,ml和w_ij,ml为权重矩阵，Y_ml是其他神经元的输出值；

利用链接输入对馈送输入进行调制，得到神经元的内部活动项U_ij：

U_ij(h)＝F_ij(h)[1+βL_ij(h)]

其中，连接系数β控制邻域神经元的内部活动强度。当神经元内部活动U_ij大于其内部的动态阈值θ_ij时，神经元会发生点火并形成脉冲Y_ij：

将语谱图输入脉冲耦合神经网络，点火一次后得到PCNN图谱；

作为一种优选方式，步骤三中通过将PCNN图谱与5尺度8方向Gabor小波卷积按照如下的步骤进行：

通过设定Gabor滤波器的频率和方向，可以得到一组频率和方向不同的Gabor滤波器，从而实现对图像多分辨率、多方向的分析。Gabor核函数如下所示：

其中，μ表示Gabor的核方向，v表示核尺度，σ表示高斯函数的标准差，z＝(x,y)为像素点的空间坐标位置，为波向量，k_v＝k_max/f_v为波向量的尺度，k_max＝π/2为滤波器的最大频率，为采样步长，为波向量的方向；

将PCNN图谱与5尺度8方向Gabor小波卷积：

G_u,v(x,y)＝I(x,y)*g_u,v(x,y)

其中I(x,y)表示图像灰度的空间分布，G_u,v(x,y)是图像与Gabor小波的卷积得到的复数；

通过计算Gabor的幅值特征A_u,v(x,y)，得到40幅频谱图：

作为一种优选方式，步骤四中通过将40张Gabor频谱图中的直方图级联按照如下的步骤进行：

当LBP算子定义在3*3的邻域上，以中心像素点的灰度值作为阈值，将中心像素周围的8个邻域像素点的灰度值与阈值进行比较。如果领域像素点的灰度值大于阈值，则在邻域像素点的位置上标记为1，若灰度值小于阈值则标记为0。经过二值化处理后得到一个8位二进制数，然后按照像素的不同位置加权得到一个十进制数，即为该邻域中心像素点的LBP值。

图像中的像素点为z(x,y)，LBP算子对图像每个像素的p个邻域采样，每个采样点与中心像素做灰度值二值化运算如下：

其中，z_c表示中心像素点的灰度值，z_p表示采样点的灰度值；

将每个采样点赋予不同的权系数2^p，计算该中心像素点的LBP值：

对图像上所有像素点进行LBP编码，得到编码后的图谱I_LBP(x,y)，对I_LBP(x,y)进行直方图统计，直方图计算如下：

其中，E为LBP编码后的最大值；

将40张Gabor图谱中的直方图级联即得到特征向量Q_LBP；

作为一种优选方式，步骤五中通过将40幅Gabor频谱图的Hu矩特征向量级联构成一幅语谱图的特征向量按照如下的步骤进行：

图像z(x,y)的(p+q)阶矩定义为：

其相应的中心距定义为：

其中，即中心坐标，是目标区域灰度质心。z(x,y)的归一化(p+q)阶中心距定义为：

其中

将每一幅Gabor频谱图划分为3×3个Hu块，利用二阶和三阶归一化矩构造出7个不变矩，对每个Hu块(p+q)阶中心矩计算如下

d₁＝η₂₀+η₀₂

d₂＝(η₂₀-η₀₂)²+4η₁₁ ²

d₃＝(η₃₀-3η₁₂)²+(η₀₃-3η₂₁)²

d₄＝(η₃₀+η₁₂)²+(η₂₁+η₀₃)²

d₅＝(η₃₀-3η₁₂)(η₃₀+η₁₂)[(η₃₀+η₁₂)²-3(η₂₁+η₀₃)²]+(3η₂₁-η₀₃)(η₂₁+η₀₃)[3(η₃₀+η₁₂)²-(η₂₁+η₀₃)²]

d₆＝(η₂₀-η₀₂)[(η₃₀+η₁₂)²-(η₂₁+η₀₃)²]+4η₁₁(η₃₀+η₁₂)(η₂₁+η₀₃)

d₇＝(3η₂₁-η₀₃)(η₃₀+η₁₂)[(η₃₀+η₁₂)²-3(η₂₁+η₀₃)²]+(3η₁₂-η₃₀)(η₀₃+η₂₁)[3(η₁₂+η₃₀)²-(η₂₁+η₀₃)²]

计算出每个Hu块的7个不变矩，然后级联，构成一个Gabor图谱的特征向量，然后40幅Gabor图谱的Hu矩特征向量级联构成一幅语谱图的Hu矩特征向量Q_Hu；

作为一种优选方式，步骤六中通过对特征Q_LBP和Q_Hu用PCA方法降维后融合按照如下的步骤进行：

对特征Q_LBP和Q_Hu用PCA方法降维后采用最大‐最小归一化方法处理得到特征向量Q′_LBP和Q′_Hu。由于LBP特征和Hu矩特征对情感语音的识别率的重要程度不同，因此需将归一化处理后的两种特征乘以相应的权值之后再进行融合，得到融合特征Q：

Q＝[ω₁Q′_LBP，ω₂Q′_Hu]

其中，ω₁和ω₂分别是LBP特征和Hu矩特征所对应的权值，且ω₁+ω₂＝1，权值的大小代表特征对分类结果的影响程度，最优的权值组合可以通过实验训练得到，融合后的特征Q被用来描述情感语音的特征；

作为一种优选方式，步骤七中通过SVM对特征进行识别按照如下的步骤进行：

将融合得到的情感语音特征划分为训练集train_data和测试集test_data两部分，分别添加训练集标签train_label和测试集标签test_data，把训练集输入SVM建立模型model：

model＝svmtrain(train_label,train_data)

用建立好的模型对测试集进行测试得到识别准确率accuracy：

accuracy＝svmpredict(test_label,test_data)

本发明的有益效果是：本发明通过对语音信号进行傅里叶分析，将语音信号转化为语谱图，用脉冲耦合神经网络处理语谱图，然后利用5尺度8方向的Gabor小波与语谱图卷积得到40幅Gabor小波图谱，再提取局部二值模式特征和局部Hu矩特征，融合两部分特征后，采用支持向量机进行分类识别。本发明能从复杂背景下提取有效信息，具有良好的稳定性，有效增强了分类的效果，极大提高了检测性能。

具体实施方式

本发明以windows 7系统作为程序开发软件环境，使用MATLAB R2010a作为程序开发平台，采用德国柏林语音库作为实验数据。语音库由5男5女10个不同的人录制而成，包含平静、害怕、厌恶、喜悦、讨厌、悲伤、愤怒7种不同的情感，共800句语料。本文选取其中494条语句构成数据库进行实验。将5个人的语句作为训练集，在剩余语句中每种情感选取30条语句，一共210条语句作为测试集。

用窗函数w(n)乘以语音信号s(n)，形成加窗语音信号x(n)：

x(n)＝s(n)*w(n)

对分帧后的语音信号x_n(t)进行离散傅里叶变换：

其中，谐波分量序号k＝0,1,...,N-1，则x(n)的短时幅度谱估计为|X(n,k)|，时间t处频谱能量密度函数P(n,k)为：

P(n,k)＝|X(n,k)|²＝(X(n,k))×(conj(X(n,k)))

将P(n,k)的值表示为灰度级所构成的二维图像得到语谱图；

每一个神经元依次对应图像中的一个像素，在这个神经元结构模型中，神经元的输入可以划分为反馈输入F和连接输入L两部分：

F_ij(h)＝exp(-α_F)F_ij(h-1)+V_F∑c_ij,mlY_ml(h-1)+S_ij

L_ij(h)＝exp(-α_L)L_ij(h-1)+V_L∑w_ij,mlY_ml(h-1)

U_ij(h)＝F_ij(h)[1+βL_ij(h)]

将语谱图输入脉冲耦合神经网络，点火一次后得到PCNN图谱；

通过设定Gabor滤波器的频率和方向，得到一组频率和方向不同的Gabor滤波器，从而实现对图像多分辨率、多方向的分析。Gabor核函数如下所示：

将PCNN图谱与5尺度8方向Gabor小波卷积：

G_u,v(x,y)＝I(x,y)*g_u,v(x,y)

通过计算Gabor的幅值特征A_u,v(x,y)，得到40幅频谱图：

对每一幅Gabor频谱图提取均匀模式LBP特征，当LBP算子定义在3*3的邻域上，以中心像素点的灰度值作为阈值，将中心像素周围的8个邻域像素点的灰度值与阈值进行比较。如果领域像素点的灰度值大于阈值，则在邻域像素点的位置上标记为1，若灰度值小于阈值则标记为0。经过二值化处理后得到一个8位二进制数，然后按照像素的不同位置加权得到一个十进制数，即为该邻域中心像素点的LBP值。

其中，E为LBP编码后的最大值；

将40张Gabor图谱中的直方图级联即得到特征向量Q_LBP；

计算每一幅Gabor频谱图Hu块的7个不变矩，图像z(x,y)的(p+q)阶矩定义为：

其相应的中心距定义为：

其中

d₁＝η₂₀+η₀₂

d₂＝(η₂₀-η₀₂)²+4η₁₁ ²

d₃＝(η₃₀-3η₁₂)²+(η₀₃-3η₂₁)²

d₄＝(η₃₀+η₁₂)²+(η₂₁+η₀₃)²

将计算出的Hu块不变矩级联，构成一个Gabor图谱的特征向量，然后40幅Gabor图谱的Hu矩特征向量级联构成一幅语谱图的Hu矩特征向量Q_Hu；

对特征Q_LBP和Q_Hu用PCA方法降维后采用最大‐最小归一化方法处理得到特征向量Q′_LBP和Q′_Hu。将归一化处理后的两种特征乘以相应的权值之后再进行融合，得到融合特征Q：

Q＝[ω₁Q′_LBP,ω₂Q′_Hu]

model＝svmtrain(train_label,train_data)

用建立好的模型对测试集进行测试得到识别准确率accuracy：

accuracy＝svmpredict(test_label,test_data)

其中accuracy为测试集样本的分类准确率，对应该测试集样本的语音识别准确率为accuracy＝85％。

Claims

1.一种基于PCNN语谱图特征融合的情感语音识别系统，其特征在于：按照如下的步骤进行

步骤一、对于语音信号s(n)进行加窗分帧，然后做离散傅里叶变换，获得语音信号的语谱图；

步骤二、构建PCNN模型，通过脉冲耦合神经网络处理语谱图；

步骤六、对特征向量Q_LBP和Q_Hu用PCA方法降维后采用最大-最小归一化方法处理得到特征向量Q′_LBP和Q′_Hu，利用公式融合Q′_LBP和Q′_Hu，得到融合特征Q；

步骤七、将融合特征Q带入SVM模型，得到识别准确率。

2.根据权利要求1所述的一种基于PCNN语谱图特征融合的情感语音识别系统，其特征在于：步骤一的详细过程为

用窗函数w(n)乘以语音信号s(n)，形成加窗语音信号x(n)：

x(n)＝s(n)*w(n)

对分帧后的语音信号x_n(t)进行离散傅里叶变换：

其中，谐波分量序号k＝0,1,...,N-1，则x(n)的短时幅度谱估计为|X(n,k)|，jj为虚数，时间t处频谱能量密度函数P(n,k)为：

P(n,k)＝|X(n,k)|²＝(X(n,k))×(conjj(X(n,k)))

将P(n,k)的值表示为灰度级所构成的二维图像得到语谱图。

3.根据权利要求1所述的一种基于PCNN语谱图特征融合的情感语音识别系统，其特征在于：步骤二具体为

构建PCNN模型，用每一个神经元依次对应语谱图中的一个像素，在这个神经元结构模型中，神经元的输入可以划分为反馈输入F_ij(h)和连接输入L_ij(h)两部分：

F_ij(h)＝exp(-α_F)F_ij(h-1)+V_F∑c_ij,mlY_ml(h-1)+S_ij

L_ij(h)＝exp(-α_L)L_ij(h-1)+V_LΣw_ij,mlY_ml(h-1)

其中，h为神经元点火时间序号，S_ij是输入刺激信号，取语谱图的图像像素构成的矩阵中第i、j个像素的灰度值，m、l分别代表图像像素位置所对应的神经元，F_ij和L_ij分别为馈送输入和链接输入，V_F和V_L为放大系数，α_F和α_L为衰减系数，c_ij,ml和w_ij,ml为权重矩阵，Y_ml是其他神经元的输出值；

U_ij(h)＝F_ij(h)[1+βL_ij(h)]

将语谱图输入脉冲耦合神经网络，点火一次后得到处理过的PCNN图谱。

4.根据权利要求1所述的一种基于PCNN语谱图特征融合的情感语音识别系统，其特征在于：步骤三的详细步骤为：

设定Gabor滤波器的频率和方向，可以得到一组频率和方向不同的Gabor滤波器，从而实现对图像多分辨率、多方向的分析，Gabor核函数如下所示：

将PCNN图谱与5尺度8方向Gabor小波卷积：

G_u,v(x,y)＝I(x,y)*g_u,v(x,y)

通过计算Gabor的幅值特征A_u,v(x,y)，得到40幅频谱图：

5.根据权利要求1所述的一种基于PCNN语谱图特征融合的情感语音识别系统，其特征在于：步骤四的详细步骤为

把LBP算子定义在3*3的邻域上，以中心像素点的灰度值作为阈值，将中心像素周围的8个邻域像素点的灰度值与阈值进行比较，如果领域像素点的灰度值大于阈值，则在邻域像素点的位置上标记为1，若灰度值小于阈值则标记为0，经过二值化处理后得到一个8位二进制数，然后按照像素的不同位置加权得到一个十进制数，即为该邻域中心像素点的LBP值，

其中，E为LBP编码后的最大值；

将40张Gabor图谱中的直方图级联即得到特征向量Q_LBP。

6.根据权利要求1所述的一种基于PCNN语谱图特征融合的情感语音识别系统，其特征在于：步骤五中，通过将40幅Gabor频谱图的Hu矩特征向量级联构成一幅语谱图的特征向量的详细过程为：

图像z(x,y)的(p+q)阶矩定义为：

其相应的中心距定义为：

其中

d₁＝η₂₀+η₀₂

d₂＝(η₂₀-η₀₂）²+4η₁₁ ²

d₃＝(η₃₀-3η₁₂)²+(η₀₃-3η₂₁)²

d₄＝(η₃₀+η₁₂)²+(η₂₁+η₀₃)²

计算出每个Hu块的7个不变矩，然后级联，构成一个Gabor图谱的特征向量，然后40幅Gabor图谱的Hu矩特征向量级联构成一幅语谱图的Hu矩特征向量Q_Hu。

7.根据权利要求1所述的一种基于PCNN语谱图特征融合的情感语音识别系统，其特征在于：步骤六详细过程为

对特征Q_LBP和Q_Hu用PCA方法降维后采用最大-最小归一化方法处理得到特征向量Q′_LBP和Q′_Hu，由于LBP特征和Hu矩特征对情感语音的识别率的重要程度不同，因此需将归一化处理后的两种特征乘以相应的权值之后再进行融合，得到融合特征Q：

Q＝[ω₁Q′_LBP,ω₂Q′_Hu]

其中，ω₁和ω₂分别是LBP特征和Hu矩特征所对应的权值，且ω₁+ω₂＝1，权值的大小代表特征对分类结果的影响程度，最优的权值组合可以通过实验训练得到，融合后的特征Q被用来描述情感语音的特征。

8.根据权利要求1所述的一种基于PCNN语谱图特征融合的情感语音识别系统，其特征在于：步骤七中的详细过程为

将融合得到的情感语音特征划分为训练集train_data和测试集test_data两部分，分别添加训练集标签train_label和测试集标签test_data，利用训练集建立SVM模型model：

model＝svmtrain(train_label,train_data)

用建立好的模型对测试集进行测试得到识别准确率accuracy：

accuracy＝svmpredict(test_label,test_data)。