CN104835508A

CN104835508A - 一种用于混合语音情感识别的语音特征筛选方法

Info

Publication number: CN104835508A
Application number: CN201510152151.3A
Authority: CN
Inventors: 叶亮; 李月; 吴少川; 石硕; 李卓明; 于婷; 任浩; 刘鑫
Original assignee: Harbin Institute of Technology Shenzhen
Current assignee: Harbin Institute of Technology Shenzhen
Priority date: 2015-04-01
Filing date: 2015-04-01
Publication date: 2015-08-12
Anticipated expiration: 2035-04-01
Also published as: CN104835508B

Abstract

一种用于混合语音情感识别的语音特征筛选方法，涉及模式识别领域，具体涉及语音情感识别方法和特征选择方法。它是为了实现混合语音情感识别的语音特征筛选。本发明给出一种混合语音情感识别中的声学特征筛选方法，本发明能够从一系列声学特征中找出一组最佳特征集合，使得分类方法的平均识别率达到最高。实现混合语音情感识别的高精度语音特征筛选。本发明适用于混合语音情感识别的语音特征筛选。

Description

一种用于混合语音情感识别的语音特征筛选方法

技术领域

本发明涉及模式识别领域，具体涉及语音情感识别方法和特征选择方法。

背景技术

校园霸凌是一种常见的社会现象，多发生在中小学生群体中。校园霸凌有多种表现形式，如：身体暴力、言语欺凌、损坏财物、孤立等，其中言语欺凌最为频发。言语欺凌中通常包含辱骂、悲伤等负面情感，因此可以用语音情感识别的方法检测言语欺凌。

目前语音情感识别领域的研究大多基于单一对象的单一情感，而校园霸凌的语境通常由多人语音构成，包含欺凌者和受害人的不同情感，因此适用于单一情感识别的分类算法和声学特征并不适用于混合情感识别。

发明内容

本发明是为了实现混合语音情感识别的语音特征筛选，从而提供一种用于混合语音情感识别的语音特征筛选方法。

一种用于混合语音情感识别的语音特征筛选方法，它由以下步骤实现：

步骤一、将混合语音数据按类别平均划分为训练集和测试集，并分别提取各个语音样本的声学特征参数，记为M_i，并放入备选特征集合S＝{M_i}，已选特征集合D为空集；i＝1,2,…,N；N为正整数；

每次选取一个M_i作为分类算法的输入，则计算其识别率R(M_i)，重复此过程N次，分别得到N个声学特征参数的识别率R(M_i)；

步骤二、在备选特征集合S中找出单一识别率最高的声学特征参数M_i，将M_i从备选特征集合S移到已选特征集合D中；

步骤三、用备选特征集合S中剩下的元素依次与已选特征集合D中元素配合，作为分类算法的输入，计算其识别率，在备选特征集合S中找出使R(D+M_i)最大的M_i；

判断是否有R(D+M_i)≥R(D)，如果判断结果为是，则将声学特征参数M_i从备选特征集合S移至已选特征集合D中，并执行步骤四；如果判断结果为否，则执行步骤五；

步骤四、用备选特征集合S中剩下的元素重复执行步骤三，直到Max(R(D+M_i))<R(D)，M_i∈S，已选特征集合D中元素不再增加，此时已选特征集合为D＝{M_j}；,j＝1,2,…,p；p为正整数；执行步骤七；

步骤五、对已选特征集合D中的每个元素M_j，计算R(D–M_j)，找出使R(D–M_j)最大的M_j；

判断是否有R(D–M_j)≥R(D)，如果判断结果为是，则从已选特征集合D中去掉M_j，并执行步骤六；如果判断结果为否，则执行步骤七；

步骤六、用已选特征集合D中剩下的元素重复执行步骤五，直到Max(R(D–M_j))<R(D)，M_j∈D，已选特征集合D中元素不再减少，此时已选特征集合为D＝{M_j}；

步骤七、返回执行步骤三，直至已选特征集合D中不再有元素增加或减少，将最终的已选特征集合D作为最佳特征组合，完成混合语音情感识别的语音特征筛选。

本发明给出一种混合语音情感识别中的声学特征筛选方法，本发明能够从一系列声学特征中找出一组最佳特征集合，使得分类方法的平均识别率达到最高。实现混合语音情感识别的高精度语音特征筛选。

附图说明

图1是具体实施方式一的特征筛选过程中平均识别率的变化仿真示意图；

具体实施方式

具体实施方式一、基于混合语音情感识别的声学特征筛选方法，由以下步骤组成：

步骤一、将混合语音数据按类别平均划分为训练集和测试集，并分别提取各个语音样本的声学特征参数，记为M_i，i＝1,2,…,N，放入备选特征集合S＝{M_i，i＝1,2,…,N}，而已选特征集合D为空集。每次选取一个M_i作为分类算法的输入，计算其识别率R(M_i)，重复此过程N次，分别得到N个声学特征参数的识别率R(M_i)，i＝1,2,…,N；

步骤二、在S中找出单一识别率最高的声学特征参数M_i，将M_i从备选特征集合S移到已选特征集合D中；

步骤三、用S中剩下的元素依次与D中元素配合，作为分类算法的输入，计算其识别率，在S中找出使R(D+M_i)最大的M_i。若R(D+M_i)≥R(D)，则将M_i从S移至D中，并继续步骤四，否则进入步骤五；

步骤四、用S中剩下的元素重复步骤③，直到Max(R(D+M_i))<R(D)，M_i∈S，D中元素不再增加，此时已选特征集合为D＝{M_j,j＝1,2,…,p}；

步骤五、对D中的每个元素M_j，j＝1,2,…,p，计算R(D–M_j)，找出使R(D–M_j)最大的M_j。若有R(D–M_j)≥R(D)，则从D中去掉M_j(并且不会放回S中)，并继续步骤六，否则进入步骤七；

步骤六、用D中剩下的元素重复步骤⑤，直到Max(R(D–M_j))<R(D)，M_j∈D，D中元素不再减少，此时已选特征集合为D＝{M_j,j＝1,2,…,q}；

步骤七、重复步骤③至⑥，直到D中不再有元素增加或减少。至此得到最佳特征组合D＝{M_j,j＝1,2,…,n}。

下面以GMM(Gaussian Mixture Model，高斯混合模型)分类算法作用于混合语音的24个MFCC(Mel Frequency Cepstral Coefficients，Mel频率倒谱系数)特征为例，说明上述特征筛选算法的有效性。言语欺凌实验由不同年龄的8个女生和7个男生表演，采集混合情感语音数据共80段，涉及语境包括：日常会话2类，分别以“快乐”和“中性”为主，混以其它情感；言语欺凌2类，分别以“辱骂”和“悲伤”为主，混以其它情感。图1给出特征筛选过程中平均识别率的变化。

图1中，第1至4步是特征增加过程，平均识别率随特征数目的增加而升高，第4步的识别率与第3步相同，说明第4步中新增的特征可有可无，但在第4步中该特征与已有特征的配合最好，故暂留在已选特征集中，进入下一轮筛选。第5步新增特征后，识别率开始下降，新增特征已是剩余备选特征中与已选特征配合最好的，故剩余特征已无可选，特征增加过程结束。第6步删除第5步新增特征，恢复到第4步状态，从第7步开始已选特征集进入删减过程，删除已选集中配合最差的特征，识别率不变。第8步继续删除配合最差特征后，识别率下降，说明已选特征集中剩下的每个特征对分类都有贡献，不应删除，特征删减过程结束。第9步重新将第8步所删特征加入，恢复到第7步状态。第10步再次进入特征增加过程，在剩余备选特征(不含已删除特征)中选择与已选特征配合最好的特征，但识别率下降，说明剩余备选特征中已无可用，增加过程结束。第11步将第10步新增特征删除，之前的一轮删减和增加过程中已选特征集没有变化，至此特征筛选过程结束，平均识别率达到最高82.5％。具体识别结果如表1。

表1

Claims

1.一种用于混合语音情感识别的语音特征筛选方法，其特征是：它由以下步骤实现：

步骤一、将采集的混合语音样本数据按类别平均划分为训练集和测试集，并分别提取各个语音样本数据的声学特征参数，记为M_i，并放入备选特征集合S＝{M_i}，初始化已选特征集合D为空集；i＝1,2,...,N；N为正整数；

每次选取一个M_i，并计算其识别率R(M_i)，重复此过程N次，分别得到N个声学特征参数的识别率R(M_i)；

步骤三、用备选特征集合S中剩下的元素依次与已选特征集合D中元素配合，并分别计算其识别率，在备选特征集合S中找出使R(D+M_i)最大的语音样本的声学特征参数M_i；

判断是否有R(D+M_i)≥R(D)，如果判断结果为是，则将该语音样本的声学特征参数M_i从备选特征集合S移至已选特征集合D中，并执行步骤四；如果判断结果为否，则执行步骤五；

步骤四、用备选特征集合S中剩下的元素重复执行步骤三，直到Max(R(D+M_i))<R(D)，M_i∈S，则已选特征集合D中元素不再增加，此时已选特征集合为D＝{M_j}；j＝1,2,...,p；p为正整数；执行步骤七；

2.根据权利要求1所述的一种用于混合语音情感识别的语音特征筛选方法，其特征在于混合语音数据的类别分为：霸凌语音数据和日常语音数据。