CN104637497A

CN104637497A - 一种面向语音情感识别的语谱特征提取方法

Info

Publication number: CN104637497A
Application number: CN201510020519.0A
Authority: CN
Inventors: 梁瑞宇; 冯月芹; 唐闺臣; 王青云; 花涛; 包永强; 陈姝; 顾保府
Original assignee: Nanjing Institute of Technology
Current assignee: Nanjing Institute of Technology
Priority date: 2015-01-16
Filing date: 2015-01-16
Publication date: 2015-05-20

Abstract

本发明公开了一种面向语音情感识别的语谱特征提取方法，步骤一，对语音信号分帧，并进行快速傅里叶变换得到对应的语谱图；步骤二，对语谱图进行分解；步骤三，对分解图像进行中央周边差运算并归一化，得到每幅分解图的特征图；步骤四，提取每幅特征图的特征矩阵；步骤五，特征矩阵降维并重构。本发明从分析语音语谱特征的角度，综合运用图像处理的一些方法，从创新的角度挖掘情感识别的特征，采用多尺度多通道的滤波器对语谱图进行分解，在不同的特征域进行处理，并结合PCA分析，更好的挖掘对语音情感有益的信息。

Description

一种面向语音情感识别的语谱特征提取方法

技术领域

本发明涉及一种面向语音情感识别的语谱特征提取方法，属于语音情感识别技术领域。

背景技术

随着人机交互技术的发展需求，语音情感识别已成为关键技术之一。为了使人机交互系统和机器人的对话系统更加智能和完善，语音的情感分析变得越来越重要。此外，在一些长时间的、单调的、高强度的任务(如航天、航海等)中，相关人员常产生某些负面的情绪。有效的识别这些负面情绪，有助于提高个体认知和工作效率，防患于未然。面向儿童的早期情感分析，也逐渐成为语音情感识别的一个重要研究方向。因此，语音情感识别算法仍然具有重要的应用研究价值。

在语音情感识别的实用性研究方面，很多学者做了很多有益的尝试，获得不少有价值的成果。在提高算法鲁棒性研究方面，有学者提出了一些抗噪性能较好的情感识别算法。在语音情感识别模型研究方面，许多基于不同方法的识别模型被提出，比如加权稀疏识别模型、说话人无关的识别模型、基于词法语义的识别模型等等。鉴于特征参数的选取与构造对情感识别性能的影响较大，许多学者都对情感特征进行了细致的分析和研究，并提出多种语音情感特征的构造方式。上述研究虽然获得了一定的研究成果，但是语音情感特征的选择与构建仍然没有定论，需要进一步的研究。

语音情感识别的常用特征大致可归纳为韵律学特征、谱特征和音质特征这三种类型。目前这三类语音特征不是时域特征，就是频域特征，缺少针对时频特征对于语音情感识别影响的研究。语谱图作为一种语音能量的时频分布的可视化表达方式，本身就包含了一些语音特征，如能量，共振峰，基频，音调等。因此国内外学者针对语谱图进行了相关研究，突破目前语音信号处理的时频特征的单一性。基于语谱的研究主要包括声分类、声音识别、声音增强等，但是尚没有基于语谱特征的语音情感识别的算法研究。

发明内容

为了解决上述技术问题，本发明提供了一种面向语音情感识别的语谱特征提取方法。

为了达到上述目的，本发明所采用的技术方案是：

一种面向语音情感识别的语谱特征提取方法，包括以下步骤，

步骤一，对语音信号分帧，并进行快速傅里叶变换得到对应的语谱图；

步骤二，对语谱图进行分解

将图像与线性分解高斯核进行卷积运算，在不同的尺度上进行不同通道的分解，得到多通道多尺度的分解图像；所述通道包括颜色通道、亮度通道和方向通道；

步骤三，对分解图像进行中央周边差运算并归一化，得到每幅分解图的特征图；

步骤四，提取每幅特征图的特征矩阵

将特征图分成m行n列，共m×n个子区域，用每个子区域的均值替代该子区域，将特征图归一化为m×n的特征矩阵；

步骤五，特征矩阵降维并重构

将每幅特征图对应的特征矩阵重塑为1×mn的特征向量，并由这些特征向量构成特征向量矩阵，通过对特征向量做主成分分析并保留其99％的主元，得到主特征向量矩阵。

同一通道不同尺度上的分解图像之间的关系为P(σ)＝P(σ-1)/2，其中，P(σ)表示尺度σ上的分解图像，P(1)表示原图像。

颜色通道分解，图像被分解成两组分解图像，分别为P_R-G(σ)和P_B-Y(σ)，

P_R-G(σ)＝(r-g)/max(r,g,b)

P_B-Y(σ)＝(b-min(r,g))/max(r,g,b)

其中，P_R-G(σ)和P_B-Y(σ)分别表示R-G和B-Y颜色对在尺度σ上的分解图像，r、g、b分别表示一幅彩色图像中红、绿、蓝分量值，min(·)表示取最小值，max(·)表示取最大值；

亮度通道分解，分解图像为P_I(σ)，P_I(σ)＝(r+g+b)/3，表示在尺度σ上的亮度通道分解图像用r、g和b分量的平均值表示，I代表亮度通道；

方向通道分解，分解图像通过二维Gabor方向滤波器来提取，将滤波器与相应尺度的图像进行卷积得到方向通道上的分解图像P_θ(σ)，

P_θ(σ)＝|P_I(σ)×G₀(θ)|+|P_I(σ)×G_π/2(θ)|

其中，G₀(θ)和G_π/2(θ)为Gabor方向滤波器，其中0和π/2代表相位,θ代表角度。

得到每幅分解图的特征图的过程为，将中央尺度与周边尺度的分解图进行跨尺度点对点相减，然后归一化得到特征图FP_i，

FP_i＝N(|P_e(σ_c)-P_e(σ_s)|),i∈[1,l]

其中，e∈{R-G,B-Y,I,θ}，σ_c表示中央尺度，σ_s表示周边尺度，σ_s＝σ_c+d，P_e(σ_c)表示在尺度σ_c上的e所代表通道的分解图像，P_e(σ_s)表示在尺度σ_s上的e所代表通道的分解图像，d代表中央尺度和周边尺度的差值，N代表归一化操作，l为特征图的个数，l等于e的长度乘以σ_c的长度，再乘以σ_s的长度。

所述θ＝{0°,45°,90°,135°}，σ_c＝{2,3}，d＝{2}。

特征矩阵的数学表示为，

{FD}_{i} (p, q) = \frac{mn}{vh} Σ_{g = \frac{pv}{n}}^{\frac{(p + 1) v}{n} - 1} Σ_{f = \frac{qh}{m}}^{\frac{(q + 1) h}{m} - 1} {FP}_{i} (g, f)

其中，p∈[0,n-1]，q∈[0,m-1]，FD_i表示特征图对应的特征矩阵，i∈[1,l]，l为特征图的个数，v代表特征图的宽度，h代表特征图的高度。

所述m取值为4，n取值为5。

本发明所达到的有益效果：1、本发明从分析语音语谱特征的角度，综合运用图像处理的一些方法，从创新的角度挖掘情感识别的特征，采用多尺度多通道的滤波器对语谱图进行分解，在不同的特征域进行处理，并结合PCA分析，更好的挖掘对语音情感有益的信息；2、本发明一方面可以提高各语音情感之间的区分性，对语音情感的分类提供更有效的特征，另一方面可以降低语音情感内部的差异性，减少语音情感识别的错误率。

附图说明

图1为本发明的流程图。

图2为采用本发明的语音识别流程图。

图3为本发明与现有方法的对比图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

如图1所示，一种面向语音情感识别的语谱特征提取方法，包括以下步骤：

步骤一，对语音信号分帧，并进行快速傅里叶变换得到对应的语谱图。

步骤二，对语谱图进行分解

将图像与线性分解高斯核进行卷积运算，在不同的尺度上进行不同通道的分解，得到多通道多尺度的分解图像；这里的通道包括颜色通道、亮度通道和方向通道。

(1)颜色通道分解

图像被分解成两组分解图像，分别为P_R-G(σ)和P_B-Y(σ)，

P_R-G(σ)＝(r-g)/max(r,g,b)

P_B-Y(σ)＝(b-min(r,g))/max(r,g,b)

其中，P_R-G(σ)和P_B-Y(σ)分别表示R-G和B-Y颜色对在尺度σ 上的分解图像，r、g、b分别表示一幅彩色图像中红、绿、蓝分量值，min(·)表示取最小值，max(·)表示取最大值。

(2)亮度通道分解

分解图像为P_I(σ)，P_I(σ)＝(r+g+b)/3，表示在尺度σ上的亮度通道分解图像用r、g和b分量的平均值表示，I代表亮度通道。

(3)方向通道分解

分解图像通过二维Gabor方向滤波器来提取，将滤波器与相应尺度的图像进行卷积得到方向通道上的分解图像P_θ(σ)，

P_θ(σ)＝|P_I(σ)×G₀(θ)|+|P_I(σ)×G_π/2(θ)|

其中，G₀(θ)和G_π/2(θ)为Gabor方向滤波器，其中0和π/2代表相位,θ代表角度，θ＝{0°,45°,90°,135°}。

步骤三，对分解图像进行中央周边差运算并归一化，得到每幅分解图的特征图。

获得特征图过程为：将中央尺度与周边尺度的分解图进行跨尺度点对点相减，然后归一化得到特征图FP_i，

FP_i＝N(|P_e(σ_c)-P_e(σ_s)|),i∈[1,l]

其中，e∈{R-G,B-Y,I,0°,45°,90°,135°}，分别表示颜色通道、亮度通道和方向通道(共7个，2个颜色通道，1个亮度通道，4个方向通道)，P_e(σ_c)表示在尺度σ_c上的e所代表通道的分解图像， P_e(σ_s)表示在尺度σ_s上的e所代表通道的分解图像，σ_c表示中央尺度，σ_c＝{2,3}，σ_s表示周边尺度，σ_s＝σ_c+d，d代表中央尺度和周边尺度的差值，N代表归一化操作，l为特征图的个数，l等于e的长度乘以σ_c的长度，再乘以σ_s的长度。7个通道，4个尺度，因此获得的特征图有28个。

步骤四，提取每幅特征图的特征矩阵

将特征图分成m行n列，共m×n个子区域，用每个子区域的均值替代该子区域，将特征图归一化为m×n的特征矩阵；这里m取值为4，n取值为5。

特征矩阵的数学表示为，

{FD}_{i} (p, q) = \frac{mn}{vh} Σ_{g = \frac{pv}{n}}^{\frac{(p + 1) v}{n} - 1} Σ_{f = \frac{qh}{m}}^{\frac{(q + 1) h}{m} - 1} {FP}_{i} (g, f)

其中，p∈[0,n-1]，q∈[0,m-1]，FDi表示特征图对应的特征矩阵，i∈[1,l]，l为特征图的个数，v代表特征图的宽度，h代表特征图的高度。

步骤五，特征矩阵降维并重构

如图2所示，将本发明运用到语音识别中，该语音识别的主要步骤包括：1)选择语音情感库，将样本分为训练样本和测试样本两个部分；2)对样本进行特征提取和降维操作，此处选取的特征是本发明提取的语谱特征；3)基于改进的蛙跳算法(Im-SFLA)配置支撑向量机(SVM)参数并使用训练样本进行训练；4)进行情感识别并输出识别结果。

为了进一步说明本发明，将本发明与传统特征的语音情感识别算法进行对比，本发明所选用的特征包括音质特征、韵律特征和混沌特征，一共144维，并结合PCA分析，选取13维特征向量作为主特征；传统特征的语音情感识别算法采用基于改进蛙跳算法的支撑向量机算法。试验结果如图3所示，如图可知，采用本发明总体效果良好，平均识别率为78.44％，相比于传统特征识别率提高大约10％；而且针对唤醒度较为接近的高兴和愤怒情感的识别率有明显的改善。

综上所述，本发明从分析语音语谱特征的角度，综合运用图像处理的一些方法，从创新的角度挖掘情感识别的特征，采用多尺度多通道的滤波器对语谱图进行分解，在不同的特征域进行处理，并结合PCA分析，更好的挖掘对语音情感有益的信息，一方面可以提高各语音情感之间的区分性，对语音情感的分类提供更有效的特征，另一方面可以降低语音情感内部的差异性，减少语音情感识别的错误率。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种面向语音情感识别的语谱特征提取方法，其特征在于：包括以下步骤，

步骤二，对语谱图进行分解

步骤四，提取每幅特征图的特征矩阵

步骤五，特征矩阵降维并重构

2.根据权利要求1所述的一种面向语音情感识别的语谱特征提取方法，其特征在于：同一通道不同尺度上的分解图像之间的关系为P(σ)＝P(σ-1)/2，其中，P(σ)表示尺度σ上的分解图像，P(1)表示原图像。

3.根据权利要求1所述的一种面向语音情感识别的语谱特征提取方法，其特征在于：颜色通道分解，图像被分解成两组分解图像，分别为P_R-G(σ)和P_B-Y(σ)，

P_R-G(σ)＝(r-g)/max(r,g,b)

P_B-Y(σ)＝(b-min(r,g))/max(r,g,b)

P_θ(σ)＝|P_I(σ)×G₀(θ)|+|P_I(σ)×G_π/2(θ)|

4.根据权利要求3所述的一种面向语音情感识别的语谱特征提取方法，其特征在于：得到每幅分解图的特征图的过程为，将中央尺度与周边尺度的分解图进行跨尺度点对点相减，然后归一化得到特征图FP_i，

FP_i＝N(|P_e(σ_c)-P_e(σ_s)|),i∈[1,l]

5.根据权利要求4所述的一种面向语音情感识别的语谱特征提取方法，其特征在于：所述θ＝{0°,45°,90°,135°}，σ_c＝{2,3}，d＝{2}。

6.根据权利要求4所述的一种面向语音情感识别的语谱特征提取方法，其特征在于：特征矩阵的数学表示为，

7.根据权利要求6所述的一种面向语音情感识别的语谱特征提取方法，其特征在于：所述m取值为4，n取值为5。