CN107452404A

CN107452404A - 语音情感识别的优选方法

Info

Publication number: CN107452404A
Application number: CN201710642840.1A
Authority: CN
Inventors: 刘明珠; 李晓琴
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2017-07-31
Filing date: 2017-07-31
Publication date: 2017-12-08

Abstract

本发明涉及一种语音情感识别的优选方法。目前语音是人与人之间沟通、思想情感表达的工具，为了使计算机可以像人一样与人类交流，语音情感识别逐渐成为了智能人机交互领域的研究热点，国内在此研究上起步比较晚，语音情感识别的正确率也很低。本发明包括如下步骤：首先选取柏林数据集和中科院汉语情感语音库作为情感识别的语音数据库，所述的语音数据库中包括高兴、生气、害怕、悲伤、平静5种情感语音并对5种情感语音进行识别选定测试集和训练集，其次再对5种情感语音进行特征参数的信号提取，在提取的特征参数信号中利用Fisher准则和最大熵原理结合的方法得出SVM核参数，再用SVM核参数训练SVM，最后利用SVM优选后的核参数对语音情感信号进行识别。

Description

语音情感识别的优选方法

技术领域：

本发明涉及一种语音情感识别的优选方法。

背景技术：

目前语音是人与人之间沟通的桥梁，也是表达思想情感的工具，为了能使计算机可以像人一样与人类交流，语音情感识别逐渐成为了智能人机交互领域的研究热点，国外学者针对这方面做了大量研究，比如美国麻省理工学院MIT实验室研究的情感机器人，IBM公司的蓝眼计划以及NEC公司研制出的一种能感知人类情感的花等，这些研究都为语音情感识别的研究奠定了良好的基础。

国内在这项研究上起步比较晚，语音情感识别的正确率也比较低，但在语音情感识别方面的技术正在不断追赶世界技术前沿，目前急需一种更好的相关参数选取方法来解决语音情感的识别，以提高其识别率。

发明内容：

本发明的目的是提供一种语音情感识别的优选方法。

上述的目的通过以下的技术方案实现：

一种语音情感识别的优选方法，该方法包括如下步骤：首先选取柏林数据集和中科院汉语情感语音库作为情感识别的语音数据库，所述的语音数据库中包括高兴、生气、害怕、悲伤、平静5种情感语音并对5种情感语音进行识别选定测试集和训练集，其次再对5种情感语音进行特征参数的信号提取，在提取的特征参数信号中利用Fisher准则和最大熵原理结合的方法得出SVM核参数，再用SVM核参数训练SVM，最后利用SVM优选后的核参数对语音情感信号进行识别。

所述的语音情感识别的优选方法，所述的特征参数的信号提取是在语音情感识别中采用韵律特征和音质特征这两种方法相结合的方式进行的，并且找出3个主特征即基音频率、振幅能量和共振峰的信号规律，再经统计学分析，即获得基音频率、振幅能量和共振峰特征的最大值、最小值、均值和方差。

所述的语音情感识别的优选方法，所述的Fisher准则和最大熵原理结合的方法是：Fisher准则与样本的类别间隔与类内间隔相关，最大熵原理与类内均匀分布程度有关，结合这二者的特点选取SVM核参数。

所述的语音情感识别的优选方法，所述的SVM即：支持向量机，SVM是一种基于统计学习理论的机器学习算法，SVM是基于线性分类器的原理，SVM可以用于解决线性与非线性样本分类，其核心思想是将低维空间线性不可分的样本点通过核函数映射至高维特征空间中，然后在特征空间中构造出最优分类超平面，这时数据在高维空间也可以被超平面分割，从而变得线性可分，因此要在特征空间中构造出最优超平面，并且使得各个样本与最优超平面的距离最大。

有益效果：

1. 本发明采用的语音数据库为柏林情感语音库和中科院汉语情感语音库，其中两种数据库采样频率都为16KHz，且是16bit均匀量化，其中柏林数据集是由柏林技术大学录制，在高兴，生气，害怕，难过，中性、厌烦和厌恶7种感情状态下录制了535条情感语句，中科院汉语情感语音库由中科院自动化所提供，其成员分别在高兴，生气，害怕，难过，中性和惊讶6种情感下录制得到1200句语音情感，通过Fisher准则和最大熵原理结合的方法对韵律特征和音质特征相结合的方式进行语音信号的特征提取，即基音频率、振幅能量和共振峰，使其提取后的SVM核参数优化效果更好。

本发明由于采用Fisher准则保证了期望样本在特征空间中最大的类别间隔，而最大熵原理保障了类内均匀分布程度，使得SVM取得了最优核参数，通过分析基音频率特征中的生气和高兴的基因频率分布在150Hz到450Hz之间，而平静和害怕大多分布于100Hz至350Hz之间，明显小于生气和高兴两种情感的基频大小，振幅能量特征中的生气和高兴的平均能量值高于悲伤，共振峰特征中的高兴和生气的第一、第二和第三共振峰都比悲伤的高，且都处于相对稳定状态，其结果表明，该方法有利于提高语音情感的识别，且达到了90.1%的平均识别率，高于国际同类型其它方法3.5%。

附图说明：

附图1是本发明基音频率-高兴的特征图。

附图2是本发明基音频率-生气的特征图。

附图3是本发明基音频率-平静的特征图。

附图4是本发明基音频率-害怕的特征图。

附图5是本发明振幅能量-高兴的特征图。

附图6是本发明振幅能量-生气的特征图。

附图7是本发明振幅能量-悲伤的特征图。

附图8是本发明振幅能量-平静的特征图。

附图9是本发明共振峰-高兴的特征图。

附图10是本发明共振峰-生气的特征图。

附图11是本发明共振峰-悲伤的特征图。

附图12是本发明共振峰-平静的特征图。

具体实施方式：

实施例1：

实施例2：

实施例1所述的语音情感识别的优选方法，所述的特征参数的信号提取是在语音情感识别中采用韵律特征和音质特征这两种方法相结合的方式进行的，并且找出3个主特征即基音频率、振幅能量和共振峰的信号规律，再经统计学分析，即获得基音频率、振幅能量和共振峰特征的最大值、最小值、均值和方差。

实施例3：

实施例1所述的语音情感识别的优选方法，所述的Fisher准则和最大熵原理结合的方法是：Fisher准则与样本的类别间隔与类内间隔相关，最大熵原理与类内均匀分布程度有关，结合这二者的特点选取SVM核参数。

实施例4：

实施例1所述的语音情感识别的优选方法，所述的SVM即：支持向量机，SVM是一种基于统计学习理论的机器学习算法，SVM是基于线性分类器的原理，SVM可以用于解决线性与非线性样本分类，其核心思想是将低维空间线性不可分的样本点通过核函数映射至高维特征空间中，然后在特征空间中构造出最优分类超平面，这时数据在高维空间也可以被超平面分割，从而变得线性可分，因此要在特征空间中构造出最优超平面，并且使得各个样本与最优超平面的距离最大。

实施例5：

实施例1所述的语音情感识别的优选方法，所述的利用Fisher准则和最大熵原理结合的方法优选SVM核参数后对语音情感信号进行识别进行了识别实验，测试时，选择其中207个作为训练样本，分别为高兴（36）、生气（64）、恐惧（35）、悲伤（32）和平静（40），剩下的202个构成测试集，分别为高兴（35）、生气（63）恐惧（34）、悲伤（31）和平静（39），表1、表2和表3分别为采用本专利方法、交叉验证法和Fisher准则选取方法的识别结果，其中本专利的实验结果是最高的。

Claims

1.一种语音情感识别的优选方法，其特征是：该方法包括如下步骤：首先选取柏林数据集和中科院汉语情感语音库作为情感识别的语音数据库，所述的语音数据库中包括高兴、生气、害怕、悲伤、平静5种情感语音并对5种情感语音进行识别选定测试集和训练集，其次再对5种情感语音进行特征参数的信号提取，在提取的特征参数信号中利用Fisher准则和最大熵原理结合的方法得出SVM核参数，再用SVM核参数训练SVM，最后利用SVM优选后的核参数对语音情感信号进行识别。

2.根据权利要求1所述的语音情感识别的优选方法，其特征是：所述的特征参数的信号提取是在语音情感识别中采用韵律特征和音质特征这两种方法相结合的方式进行的，并且找出3个主特征即基音频率、振幅能量和共振峰的信号规律，再经统计学分析，即获得基音频率、振幅能量和共振峰特征的最大值、最小值、均值和方差。

3.根据权利要求1或2所述的语音情感识别的优选方法，其特征是：所述的Fisher准则和最大熵原理结合的方法是：Fisher准则与样本的类别间隔与类内间隔相关，最大熵原理与类内均匀分布程度有关，结合这二者的特点选取SVM核参数。

4.根据权利要求1或2或3所述的语音情感识别的优选方法，其特征是：所述的SVM即：支持向量机， SVM是一种基于统计学习理论的机器学习算法， SVM是基于线性分类器的原理，SVM可以用于解决线性与非线性样本分类，其核心思想是将低维空间线性不可分的样本点通过核函数映射至高维特征空间中，然后在特征空间中构造出最优分类超平面，这时数据在高维空间也可以被超平面分割，从而变得线性可分，因此要在特征空间中构造出最优超平面，并且使得各个样本与最优超平面的距离最大。