CN103258532A

CN103258532A - 一种基于模糊支持向量机的汉语语音情感识别方法

Info

Publication number: CN103258532A
Application number: CN201210494888XA
Authority: CN
Inventors: 张卓; 范新南; 梁瑞宇; 奚吉; 张学武; 孙晓丹; 凌明强; 游皇斌; 周卓赟
Original assignee: Changzhou Campus of Hohai University
Current assignee: Changzhou Campus of Hohai University
Priority date: 2012-11-28
Filing date: 2012-11-28
Publication date: 2013-08-21
Anticipated expiration: 2032-11-28
Also published as: CN103258532B

Abstract

本发明公开了一种基于模糊支持向量机的汉语语音情感识别方法，用于汉语语音的情感识别。识别过程包括粗分类和细分类两个阶段：粗分阶段提取待识别样本的全局统计情感特征，使用粗分类模糊支持向量机将情感分为三大粗分类；细分阶段增加类内情感的区分度，使用细分类模糊支持向量机对粗分类内部进行更细划分，从而识别每种情感。其中，情感特征与说话人和文本内容无关，支持向量机训练受模糊因子指导，细分特征经PCA降维增加区分度。本发明采用全局统计音质特征实现与说话人和文本内容无关的汉语语音情感表示；分阶段分类识别，有效降低算法复杂度、提高实时性；采用模糊支持向量机，在混杂语音情感条件下，获得更好的识别精度。

Description

一种基于模糊支持向量机的汉语语音情感识别方法

技术领域

本发明属于人机交互和语音处理技术领域，具体地说涉及一种基于模糊支持向量机的汉语语音情感识别方法。

背景技术

情感是人类一种重要的本能，它同理性思维和逻辑推理能力一样，在人们的日常生活、工作、交流、处理事务和决策中扮演着重要的角色。作为人类交流的主要手段之一，语音信号不仅具有传递语义的作用，同时也是承载说话人个体信息的重要载体，如说话人性别、话者的说话情绪如何等。其中，对语音信号情感的识别研究已发展为语音信号处理的重要分支，成为人机和谐交互的重要组成部分。语音情感识别是认知、心理、生理、模式识别等多领域的交叉学科，由于情感信息的社会性、文化性以及语音信号自身的复杂性，语音情感识别尚有许多问题有待解决，如情感建模、特征的分析和选择及识别方法的改进。HMM技术、高斯混合模型和神经网络等方法在语音情感识别领域得到广泛应用,不过它们都存在一些难以弥补的缺陷。HMM分类决策能力差,需要先验统计知识;高斯混合模型也是基于统计理论的,需要大量训练样本才能获得比较好的识别效果;神经网络则存在网络结构难以确定、局部最优、容易过学习等问题。当样本数据较少或有限时，以上传统方法的工程应用受到限制。支持向量机是在结构风险最小化原则基础上建立起来的机器学习方法，能有效地克服基于经验风险最小化原则的神经网络容易过学习、泛化能力差等不足之处，对于小样本数据分析具有无可比拟的学习能力和推广能力，已成功应用手写字符、人脸识别说话人识别和情感识别等领域。

然而，语音情感表述以及所呈现的状态经常是模棱两可或者说是混杂的，传统基于支持向量机的识别方法只是赋予未知情感一个单独的预测标签，没有考虑情感的混杂属性，抗噪和泛化能力受限，难以提高模糊类的语音样本的情感识别精度。同时，研究表明，汉语和英语各有特点，在听觉感知过程中有很大差别。面向汉语语音情感识别的方法多为综述或介绍性文章。

由此可见，上述现有的语音情感识别技术，显然仍存在缺陷与不足，亟待加以进一步改进。为了解决汉语语音情感识别技术存在的问题，相关领域技术人员一直努力研究，尚未见适用的方法被发展完成，仍然是相关从业者急欲解决的问题。

发明内容

本发明的目的在于，克服现有的语音情感识别技术存在的缺陷，提供一种新型的针对汉语语音的情感识别方法，所要解决的技术问题是使其能够在情感属性模糊的情况下，提高语音情感识别精度，从而更加适于实用，且具有产业上的利用价值。

为了达到上述目的，本发明所采取的技术方案是：

一种基于模糊支持向量机的汉语语音情感识别方法，其特征在于：包括以下步骤：

（1）、提取汉语语音训练样本的情感特征；选取语音情感训练样本集S={S1,S2,S3},其中Si(i=1,2,3)是第i粗分类样本集合,提取样本情感粗分类的全局统计音质特征；

（2）、采用模糊支持向量机进行分类和识别；

（3）、进行汉语语音情感识别。

前述的一种基于模糊支持向量机的汉语语音情感识别方法，其特征在于：提取汉语语音训练样本的情感特征，选择愤怒、高兴、悲伤、害怕、厌恶、惊奇等6种常见的语音情感构成训练样本集S={S1,S2,S3},其中Si(i=1,2,3)是第i粗分类样本集合；

采用与说话人和文本内容无关的74个全局统计特征作为汉语语音情感识别的音质特征：

特征1-10：短时能量及其差分的均值、最大值、最小值、中值、方差；

特征11-25：基音及其一阶、二阶差分的均值、最大值、最小值、中值、方差；

特征26：基音范围；

特征27-36：发音帧数、不发音帧数、不发音帧数和发音帧数之比、发音帧数和总帧数之比、发音区域数、不发音区域数、发音区域数和不发音区域数之比、发音区域数和总区域数之比、最长发音区域数、最长不发音区域数；

特征37-66：第一、第二、第三共振峰及其一阶差分的均值、最大值、最小值、中值、方差；

特征67-69：250Hz以下能量百分比、650Hz以下能量百分比、4kHz以上能量百分比；

特征70-74：谐波噪声比的均值、最大值、最小值、中值、方差；由于细分类的情感识别只和一部分特征参数相关度较高，为了降低算法复杂程度，采用PCA降维处理将74个粗分类特征降维到10个细分类特征。

前述的一种基于模糊支持向量机的汉语语音情感识别方法，其特征在于：采用模糊支持向量机进行分类和识别时，所述模糊支持向量机采用径向基核函数：

K (x_{i}, y_{i}) = \exp [- \frac{{| | x_{i} - x_{j} | |}^{2}}{σ^{2}}]

并使用模糊因子u_i,j控制不同样本和噪声对分类的影响，

所述模糊因子其中d_i,j代表样本SP_i，j∈S_i的特征向量到特征向量中心F_i的欧氏距离。此处，特征向量中心F_i代表每一个粗分类的特征均值，

计算语音样本情感特征的特征向量中心F_i的过程为：首先对处在不同量级和单位的特征参数进行归一化处理，然后计算每一粗分类或细分类特征的均值，构成分特征向量中心F_i。

前述的一种基于模糊支持向量机的汉语语音情感识别方法，其特征在于：进行汉语语音情感识别：对愤怒、高兴、悲伤、害怕、厌恶、惊奇6种常见的语音情感分类进行识别，包括两个阶段：第一阶段为情感的粗分类阶段，提取基音范围、平均基音值、基音变化和声音强度，使用模糊支持向量机,把6种情感分为:C1(愤怒和高兴)、C2(悲伤和害怕)和C3(厌恶和惊奇)三大粗分类；第二阶段为情感的细分类阶段。增加类内情感的区分特征值，再次使用模糊支持向量机对大类内部进行更细的划分，从而达到识别每种情感的目的。

本发明的有益效果是：

1、本发明所采用的全局统计音质特征，能很好的降低特征对音位信息的依赖性，实现与说话人和文本内容无关的汉语语音情感识别。

2、本发明采用的分阶段分类识别方法，利用全部音质特征进行情感的粗分类，再利用少数与细分类相关的特征参数进行细分类，可有效降低算法的时间复杂度、提高算法实时性。

3、本发明采用模糊因子将支持向量机惩罚参数模糊化，对不同样本使用不同的惩罚参数，可降低噪声和野值点对分类的影响，提高混杂情感语音的识别精度。

综上所述，本发明的汉语语音情感识别方法，能够在兼顾算法时间复杂度的情况下，实现与说话人和文本内容无关的汉语语音混杂情感识别。实验结果表明，采用模糊支持向量机的汉语语音情感识别方法与传统方法相比可以获得更高的识别精度。其具有上述诸多的优点及实用价值，并在同类方法中未见有类似的设计公开发表或使用而确属创新，具有较大的改进，在技术上有较大的进步，有产业的广泛利用价值，诚为一新颖、进步、实用的新设计。

附图说明

附图1是本发明流程图。

附图2是基于模糊支持向量机的汉语语音情感识别结果图。

附图3是基于传统支持向量机的汉语语音情感识别结果图。

附图4是基于BP神经网络的汉语语音情感识别结果图。

具体实施方式

以下结合附图以及实施例，对本发明进行进一步详细说明。

（1）提取汉语语音训练样本的情感特征

本发明选择愤怒、高兴、悲伤、害怕、厌恶、惊奇等6种常见的语音情感构成训练样本集S={S1,S2,S3},其中Si(i=1,2,3)是第i粗分类样本集合。韵律特征能有效地体现情感，是大于一个音位的语音单位如音节(Syllable)或比音节更大的单位所表现出来的音强(Intensity)、音长(Length or duration)、音高(Pitch)、重音(Accent)、声调(Tone)和语调(Intonation)等语音特征参数。代表性特征主要有语速、基音及其衍生参数。音质特征主要指语音音色和语谱方面的特征，因此也被称作是音段特征，反映发音时声门波形状的变化。基于动态特征构造音质也正对对音位信息的依赖性较强，而基于全局统计特征构造音质特征受到说话人和文本内容的影响较小，不需要考虑说话人和语种因素，本发明中使用如下74个全局统计特征表示汉语语音情感：

特征26：基音范围；

特征67-69：250Hz以下能量百分比、650Hz以下能量百分比、4kHz以上能量百分比。

特征70-74：谐波噪声比的均值、最大值、最小值、中值、方差。

由于细分类的情感识别只和一部分特征参数相关度较高，为了降低算法复杂程度，采用PCA将74个粗分类特征降维到10个细分类特征。

（2）模糊支持向量机

采用模糊支持向量机进行分类和识别时，在常规支持向量机样本上增加一个模糊因子，对所有样本模糊化。由于模糊因子表示该样本属于某类的可靠度量，引入Lagrange乘子

和核函数K(x_i,y_i)可得二次规划函数表示为：

\min_{α} \frac{1}{2} Σ_{i = 1}^{l} Σ_{j = 1}^{l} y_{i} y_{j} α_{i} α_{j} K (x_{i}, x_{j}) - Σ_{j = 1}^{l} α_{j}

s . t . Σ_{j = 1}^{l} y_{j} α_{j} = 0

0≤α_j≤u_jC,j＝1,2,...,l

尤其最优解可得模糊最优分类函数为

f (x) = agn {Σ_{j = 1}^{l} α_{j}^{*} y_{j} K (x_{i}, x_{j}) + b^{*}},

x∈Rⁿ

其中，x_i为输入样本，y_i为输入样本所属分类，

K(x_i,y_i)为满足Mecer条件的核函数。由于汉语语音情感识别属于小样本非线性分类问题，本发明采用径向基核函数：

K (x_{i}, y_{i}) = \exp [- \frac{{| | x_{i} - x_{j} | |}^{2}}{σ^{2}}]

由上面分析可知，与传统SVM相比，FSVM中将惩罚参数模糊化，对不同的样本使用不同的惩罚参数，Cu_i表示样本x_i在训练支持向量机时的重要程度，Cu_i越大则表示训练样本x_i被错分的可能性越小，分类超平面与各类样本间距离越小。当x_i为孤立点或噪音样本时，则令u_i很小，从而Cu_i很小，这样此样本对支持向量机的训练所起的作用就大大减小了，从而大大降低了噪音数据及孤立点对训练支持向量机的影响，又不会减弱正常支持向量对分类超平面的决定作用。本发明使用如下模糊因子

其中d_i,j代表样本SP_i，j∈Si(Si代表第i粗分类)的特征向量到特征向量中心F_i的欧氏距离。

计算语音样本情感特征的特征向量中心F_i的过程为：首先对处在不同量级和单位的特征参数进行归一化处理，然后计算每一粗分类或细分类特征的均值，构成分特征向量中心F_i，选取语音情感训练样本集S={S1,S2,S3},其中Si(i=1,2,3)是第i粗分类样本集合,提取样本情感粗分类的全局统计音质特征；

计算粗分类的特征向量中心Fi；

计算每个训练语音样本的模糊因子

其中d_i,j代表样本SP_i,j∈Si(Si代表第i粗分类)的特征向量到特征向量中心Fi的欧氏距离；

采用惩罚因子

和一对一多分类方法训练粗分类支持向量机FSVM0；

对训练样本的粗分类特征进行PCA降维处理，提取细分类阶段特征；

计算样本的细分特征向量及其中心，并计算样本的细分模糊因子

其中d_i,j代表样本的细分特征向量到其中心的欧氏距离；

采用惩罚因子C'_j u_i'和训练样本S_i训练细分粗类C_i的两类支持向量机FSVM_i

用训练样本Si训练细分粗类Ci的两类FSVM,得到细分类器组:FSVMi(i=1,2,3)；

选择待识别样本M_i，提取其情感音质粗分类特征，输入分类器FSVM0中选择最合适的细分类器FSVM_i，经细分类器判别待识别样本属于哪一种情感。

（3）汉语语音情感识别

如图1所示，本发明的汉语语音情感识别分为两个阶段：第一阶段为情感的粗分类阶段，在分析众多的情感声学参量中，提取区分度比较好的：基音范围、平均基音值、基音变化和声音强度，使用模糊支持向量机,把6种情感分为:C1(愤怒和高兴)、C2(悲伤和害怕)和C3(厌恶和惊奇)三大粗分类。第二阶段为情感的细分类阶段。增加类内情感的区分特征值，再次使用模糊支持向量机对3大类内部进行更细的划分，从而达到识别每种情感的目的。

本发明的效果可通过以下对比实验进一步说明。

（1）实验条件

实验中所用的语音情感数据库在安静的实验室中录制，有一定的回声，保证语音的饱满度，采样率为11025Hz。用于训练的样本集包括3名男性与3名女性的情感语料，有愤怒、高兴、悲伤、害怕、厌恶和惊奇等6种情感语音数据，共2800条，每种情感各400条，语句切分长度为2~8s不等的短句，用于说话人无关、文本无关的情感识别训练。训练集与测试集合比例为3：1，通过轮换测试后取得平均识别结果。

（2）实验内容

基于上述语音样本分别采用BP神经网络、传统支持向量机法和模糊支持向量机进行情感识别实验。实验中，采用PCA降维方法将74维的粗分类特征降到10维细分类特征。在提取语音特征前，对高频分量进行补偿，以25ms左右为一帧，每帧长为256点，重叠1/2，采用汉明窗加窗处理以减小每帧边缘的截断效应。识别测试结果如图2、图3和图4所示。BP神经网络用于6种语音情感识别获得了74.6%的平均识别率；传统支持向量机的平均情感识别率为77.8%，而模糊支持向量机的平均识别率达到了85.3%。实验结果表明，基于模糊支持向量机的情感识别能力明显优于BP神经网络和传统支持向量机方法。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种基于模糊支持向量机的汉语语音情感识别方法，其特征在于：包括以下步骤：

（2）、采用模糊支持向量机进行分类和识别；

（3）、进行汉语语音情感识别。

2.根据权利要求1所述的一种基于模糊支持向量机的汉语语音情感识别方法，其特征在于：

提取汉语语音训练样本的情感特征，选择愤怒、高兴、悲伤、害怕、

厌恶、惊奇等6种常见的语音情感构成训练样本集S={S1,S2,S3},其中Si(i=1,2,3)是第i粗分类样本集合；

特征26：基音范围；

3.根据权利要求2所述的一种基于模糊支持向量机的汉语语音情感识别方法，其特征在于：采用模糊支持向量机进行分类和识别时，所述模糊支持向量机采用径向基核函数：

K (x_{i}, y_{i}) = \exp [- \frac{{| | x_{i} - x_{j} | |}^{2}}{σ^{2}}]

并使用模糊因子u_i,j控制不同样本和噪声对分类的影响，

所述模糊因子

其中d_i,j代表样本SP_i，j∈S_i的特征向量到特征向量中心F_i的欧氏距离，此处，特征向量中心F_i代表每一个粗分类的特征均值，

4.根据权利要求3所述的一种基于模糊支持向量机的汉语语音情感识别方法，其特征在于：进行汉语语音情感识别：对愤怒、高兴、悲伤、害怕、厌恶、惊奇6种常见的语音情感分类进行识别，包括两个阶段：第一阶段为情感的粗分类阶段，提取基音范围、平均基音值、基音变化和声音强度，使用模糊支持向量机,把6种情感分为:C1(愤怒和高兴)、C2(悲伤和害怕)和C3(厌恶和惊奇)三大粗分类；第二阶段为情感的细分类阶段，增加类内情感的区分特征值，再次使用模糊支持向量机对大类内部进行更细的划分，从而达到识别每种情感的目的。