CN105047194B

CN105047194B - 一种用于语音情感识别的自学习语谱图特征提取方法

Info

Publication number: CN105047194B
Application number: CN201510450338.1A
Authority: CN
Inventors: 赵力; 陶华伟; 魏昕; 梁瑞宇; 查诚; 张昕然
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2015-07-28
Filing date: 2015-07-28
Publication date: 2018-08-28
Anticipated expiration: 2035-07-28
Also published as: CN105047194A

Abstract

本发明公开了一种用于语音情感识别的自学习语谱图特征提取方法，首先对已知情感的标准语料库中的语音进行预处理，得到量化后的语谱图灰度图像；然后计算所得到的语谱图灰度图像的Gabor语谱图；再采用可辨别特征学习算法对提取到的LBP统计直方图进行训练，构建不同尺度、不同方向下的全局显著性模式集合；最后采用全局显著性集合对语音不同尺度、不同方向下Gabor图谱的LBP统计直方图进行特征选择，得到处理后的统计直方图，将N个统计直方图级联，得到适合情感分类的语音情感特征。本发明提出的情感特征可以较好地识别不同种类的情感，识别率显著优于现有的声学特征。

Description

一种用于语音情感识别的自学习语谱图特征提取方法

技术领域

本发明涉及语音情感识别技术领域，特别涉及一种应用于语音情感识别系统的特征提取方法。

背景技术

语音作为最主要的交流手段之一，在新型的人机交互领域受到越来越广泛的关注，为了使人机交互系统和机器人的对话系统更加智能和完善，语音的情感分析变得越来越重要。此外，在一些长时间的、单调的、高强度的任务(如航天、航海等)中，相关人员常产生某些负面的情绪，有效的识别这些负面情绪，有助于提高个体认知和工作效率，防患于未然。面对犯罪调查、智能协助等问题，语音情感识别也能够起到重要的作用。因此，语音情感识别算法研究具有重要的实用意义。

针对语音情感识别问题，学者们从不同角度进行了研究，取得了许多有价值的成果。在提高算法鲁棒性方面，有学者提出一些抗噪性能良好的情感识别算法。在语音情感识别模型构建方面，许多不同类型的识别模型被提出，例如，加权稀疏识别模型、基于语义的情感识别模型等等。鉴于特征构造及特征选择对识别性能影响较大，许多学者都对情感特征进行了细致的分析和研究，并提出了多种语音情感特征构造方式。语音情感特征一般包括：(1)韵律特征、(2)频域特征、(3)音质特征。在上述特征中，语音信号频域和时域中信号的相关性，在语音情感识别中起到了重要的作用。但针对语音信号相关性的研究，往往只是研究频域或时域中的一个域，很少有文献将语音信号时频两域的相关性结合起来进行研究。语谱图作为一种语音能量时频分布的可视化表达方式，横轴代表时间，纵轴代表频率，连通了时频两域，将语谱图的频率点建模为图像的像素点，可以利用图像特征研究相邻频点间的联系，为研究时频两域相关性提供了一种新的思路。

发明内容

本发明的目的是提供一种用于语音情感识别的自学习语谱图特征提取方法，一方面可以提高各语音情感之间的区分性，对语音情感的分类提供更有效的特征，另一方面可以进一步分析信号间相关性对情感识别的作用。

为实现上述目的，本发明采用的技术方案是：

一种用于语音情感识别的自学习语谱图特征提取方法，包括以下步骤：

(1)、对已知情感的标准语料库中的语音进行预处理，得到量化后的语谱图灰度图像；

(2)、计算步骤(1)所得到的语谱图灰度图像的Gabor语谱图；

(3)、采用可辨别特征学习算法对步骤(2)提取到的LBP统计直方图进行训练，构建不同尺度、不同方向下的全局显著性模式集合，记为

(4)、采用步骤(3)中的全局显著性模式对语音不同尺度、不同方向下Gabor图谱的LBP统计直方图进行特征选择，得到处理后的统计直方图将N个统计直方图级联得到适合情感分类的语音情感特征。

所述步骤(1)的具体步骤为：

(11)、对语音进行分帧、加窗，计算离散傅里叶变换，得到语谱图X；

(12)、通过下式求取线性语谱图：

L_Linear(i,j)＝|X(i,j)|

(13)、通过下式得到归一化语音图谱：

式中max，min表示语谱图灰度级中的最大最小值；

(14)、归一化后的语谱图乘以255，并进行量化处理，得灰度级为0-255的语谱图灰度图像。

所述步骤(2)的具体步骤为：

(21)、将语谱图灰度图像与Gabor小波的卷积，经过卷积后，每张语谱图灰度图像可以得到N＝A×B张Gabor图谱，记为其中A表示Gabor核方向数目，其中B表示Gabor核尺度数目，Gabor小波的核函数定义如下：

其中，μ表示Gabor的核方向，ν表示核尺度，是像素点的空间位置，σ表示高斯函数的半径，其中k_v＝k_max/f_v，k_max＝π/2，φ_μ＝πμ/8；

(22)、采用局部二值模式(Local binary pattern，LBP)对Gabor图谱的进行编码，编码后的图谱不进行旋转不变及一致模式映射，并直接计算统计直方图，每条情感语音Gabor图谱的统计直方图，记为

所述步骤(3)的具体步骤为：

(31)、依据不同方向、尺度的Gabor图谱，将所有语音的Gabor图谱提取到的LBP特征分为N个不同的集合，设方向为v，尺度为μ的Gabor图谱LBP直方图组成的集合为其中M表示训练样本总数；

(32)、采用可辨别特征学习算法对训练学习，得到全局显著性模式集合

(33)、由于i＝1,2,…,N，最终得到N个全局显著性模式集合

所述步骤(3)中，可辨别特征学习算法步骤如下：

(a)计算每个特征直方图的显著性模式集合；

(b)计算不同类别的可区别显著性模式集合：

计算同一类情感特征显著性模式集合交集，得到不同类别的可区别显著性模式集合；

(c)构建全局显著性模式集合：

计算不同类别可区别显著性模式集合的并集，得到全局显著性模式集合J_global。

所述步骤(a)中，

首先，设f^v,μ为LBP统计直方图，n为显著性模式集合阈值；

最后，对所有LBP统计直方图进行上述运算，得到特征直方图的显著性模式集合

本发明的有益效果是：

本发明的语音情感识别特征提取方法，基于频点间的相关性，将语谱图建模为图像，并采用图像算法研究频点间的相关性。在所作的统计实验中，采用本发明提取的特征加大了情感间的鉴别性，相比传统的声学特征，提高了情感识别的性能。本发明一方面可以提高各语音情感之间的区分性，对语音情感的分类提供更有效的特征，另一方面可以进一步分析信号间相关性对情感识别的作用。本发明提出的情感特征可以较好地识别不同种类的情感，识别率显著优于现有的声学特征。

附图说明

图1为LBP编码示意图；

图2为分类识别流程图。

具体实施方式

下面结合具体实施方式对本发明作更进一步的说明。

本发明提供了一种用于语音情感识别的自学习语谱图特征提取方法，具体步骤如下所示：

1)语谱图分析与预处理

对已知情感的标准语料库中的语音进行预处理

(1)对语音进行分帧、加窗，计算离散傅里叶变换。

式中，N表示窗长，ω(_n)表示汉明窗函数。k表示f(k)＝kfs/N，其中f_s表示采样频率。

求取线性语谱图：

L_Linear(i,j)＝|X(i,j)|

(2)采用最大最小归一化方法对语谱图进行归一化,得到归一化语音图谱。

式中max，min表示语谱图灰度级中的最大最小值。

(3)将语谱图量化成0-255的灰度级图像

2)计算Gabor语谱图

Gabor小波的核函数定义如下：

其中，μ表示Gabor的核方向，ν表示核尺度，是像素点的空间位置，σ表示高斯函数的半径。其中k_v＝k_max/f_v，k_max＝π/2，φ_μ＝πμ/8。

上式中，ν∈{0,1,2,3,4}，μ∈{0,1,2,3,4,5,6,7}。经过上式运算后，得到40张Gabor图谱。

采用LBP对Gabor图谱进行编码，并计算编码后图谱的灰度直方图，编码后的图谱不进行旋转不变及一致模式映射，并直接计算统计直方图。每条情感语音Gabor图谱的统计直方图，记为如图1所示为LBP编码示意图。

3)计算全局显著性模式集合

依据不同方向、尺度的Gabor语谱图，将所有语音的Gabor图谱提取到的LBP特征分为40个不同的集合。设方向为v(v∈{0,1,2,3,4})尺度为μ(μ∈{0,1,2,3,4,5,6,7})的Gabor语谱图LBP直方图组成的集合为其中M表示训练样本总数，计算该集合的全局显著性模式集合，计算步骤如下：

a)计算每个特征直方图的显著性模式集合

首先，设f^v,μ为LBP统计直方图，n为显著性模式集合阈值。

然后，对f^v,μ进行降序排列，结果记为按照降序后的顺序改变的排列，结果记为保留的前k项，存入向量中，k值通过下述公式求得。

b)计算不同类别的可区别显著性模式集合。

设属于第j类的n_j张语谱图的显著性模式集合为计算同一类情感特征显著性模式集合交集，得到不同类别的可区别显著性模式集合JC^j,v,μ。

c)构建全局显著性模式集合。

设不同类别的可区别显著性模式集合JC^j,v,μ(j＝1,2,…,C)，通过下式，可以得到得到全局显著性模式集合J_global。

4)全局显著性模式集合特征选择

采用步骤3)中的全局显著性模式对语音不同尺度、不同方向下Gabor图谱的LBP统计直方图进行特征选择，得到处理后的统计直方图将40个统计直方图级联得到适合情感分类的语音情感特征。

声学特征比较实验

按照本发明提取的特征进行情感识别实验，其中识别流程如下所示：

首先，按照本发明中步骤1)到4)对预训练语料库进行特征提取；

然后，采用提取到的特征输入SVM分类器中，进行训练，得到适合情感分类的SVM分类器；

最后，将待识别特征情感语音按照步骤1)到步骤4)提取特征，输入到SVM分类器中，得到分类结果。分类流程如图2所示。

本发明采用柏林库对算法进行验证。柏林库由10个不同的人(5男5女)录制而成，包含7种不同的情感，分别为中性(neutral)、害怕(fear)、厌恶(disgust)、喜悦(joy)、讨厌(boredom)、悲伤(sadness)、生气(anger)。选取其中494条语句构成数据库进行实验。

采用Leave one speaker out(LOSO)方案，即选取柏林库中的9个人作为训练集，剩余的作为测试集；10个人轮流作测试集，将10次识别结果求平均，作为最终识别结果。

实验采样SVM分类器，采用线性核，惩罚参数C设为4096。

将本发明提出的算法与现有文献的声学特征进行比较，声学特征包含了韵律学特征、谱特征和音质特征三种类型，采用openSMILE软件提取56个常见的声学低层描述子，将56个特征分为7个特征组。

表1实验识别结果

表1给出了实验结果。可以看出，所有特征中，本发明提出的特征识别率明显高于现有的声学特征。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种用于语音情感识别的自学习语谱图特征提取方法，其特征在于：包括以下步骤：

(2)、计算步骤(1)所得到的语谱图灰度图像的Gabor语谱图；

2.如权利要求1所述的用于语音情感识别的自学习语谱图特征提取方法，其特征在于：所述步骤(1)的具体步骤为：

(12)、通过下式求取线性语谱图：

L_Linear(i,j)＝|X(i,j)|

(13)、通过下式得到归一化语音图谱：

式中max，min表示语谱图灰度级中的最大最小值；

3.如权利要求1所述的用于语音情感识别的自学习语谱图特征提取方法，其特征在于：所述步骤(2)的具体步骤为：

4.如权利要求1所述的用于语音情感识别的自学习语谱图特征提取方法，其特征在于：所述步骤(3)的具体步骤为：

(33)、由于i＝1,2,…,N，最终得到N个全局显著性模式集合

5.如权利要求1或4所述的用于语音情感识别的自学习语谱图特征提取方法，其特征在于：所述步骤(3)中，可辨别特征学习算法步骤如下：

(a)计算每个特征直方图的显著性模式集合；

(b)计算不同类别的可区别显著性模式集合：

(c)构建全局显著性模式集合：

6.如权利要求5所述的用于语音情感识别的自学习语谱图特征提取方法，其特征在于：所述步骤(a)包括以下步骤：

(a1)首先，设f^v,μ为LBP统计直方图，n为显著性模式集合阈值；

(a2)然后，对f^v,μ进行降序排列，结果记为按照降序后的顺序改变的排列，结果记为保留的前k项，存入向量中，k值通过下述公式求得：

(a3)最后，对所有LBP统计直方图进行上述步骤(a1)和(a2)，得到特征直方图的显著性模式集合