CN106297825B

CN106297825B - 一种基于集成深度信念网络的语音情感识别方法

Info

Publication number: CN106297825B
Application number: CN201610590174.7A
Authority: CN
Inventors: 文贵华; 黄驹斌
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2016-07-25
Filing date: 2016-07-25
Publication date: 2019-10-18
Anticipated expiration: 2036-07-25
Also published as: CN106297825A

Abstract

本发明公开了一种基于集成深度信念网络的语音情感识别方法，步骤如下：S1、获取深度信念网络分类器，其中该深度信念网络分类器包括M个深度信念网络模型以及M个深度信念网络模型输出端共同连接的分类器；所述M个深度信念网络模型及M个深度信念网络模型输出端共同连接的分类器经过语音情感识别数据库数据集训练后得到深度信念网络分类器；S2、获取待测语音信号的特征向量；S3、在测试时，将待测语音信号的特征向量输入步骤S1获取到的深度信念网络分类器中，获得语音情感类别。本发明方法具有语音情感识别准确率高的优点，并且减少了语音情感特征提取对人的依赖性，能够能识别出多种语言的语音情感。

Description

一种基于集成深度信念网络的语音情感识别方法

技术领域

本发明涉及语音处理、识别技术，特别涉及一种基于集成深度信念网络的语音情感识别方法。

背景技术

语音情感识别的目的就在于让计算机能够通过用户的语音来准确分析出用户的情感状态，从而基于这样的情感状态去产生更加精准的反馈，基本的情感状态包括生气、高兴、伤心、惊讶、害怕、厌恶以及平静。语音情感识别有重要的应用价值，比如在客服工作上，可以通过收集客户的语音信息实时了解客户的情感状态，也可以了解服务人员的情感状态，从而提升工作的质量和客户的满意度；在医疗领域则可以通过长时间的收集病人的语音信息来了解病人的情感状态，在病人负面情绪比重较大的时候可以针对性地进行一些药物治疗和心理辅导；而在平时的生活中，一个实时反馈情感状态的工具可以提醒使用者更好地控制自己的情感，减少负面情绪影响生活的几率，促进人与人间的和睦相处。因此，语音情感识别技术可以应用到许多不同的领域之中，为我们的工作提供有价值的参考依据，也有助于日常生活中人与人间的和睦相处。

语音情感识别的主要步骤包括语音信息特征提取和分类器设计。而分类器就是依靠机器学习算法来实现，效果比较显著的有支持向量机(SVM)、神经网络、K最近邻算法(KNN)、高斯混合模型、随机森林、集成学习等等。国内外学者在解决语音情感识别问题时，大都采用这些分类算法，但是这些分类算法极大地依赖于对语音情感的特征抽取，而目前采用的特征抽取方法是人工设计的，再通过特征选择算法剔除冗余或者不相关的特征，得出最优或者次优特征子集，这一步骤的目的一方面是提高识别准确率，另一方面是降低特征的维数，从而提升模型训练速度。这个过程极大地依赖人工专家的经验和反复实验完成的，不仅工作量大，而且很难找到一种最优的语音情感特征表达，从而影响了语音情感识别的效果。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种识别准确率高的基于集成深度信念网络的语音情感识别方法。

本发明的目的通过下述技术方案实现：一种基于集成深度信念网络的语音情感识别方法，步骤如下：

S1、获取深度信念网络分类器，其中该深度信念网络分类器包括M个深度信念网络模型以及M个深度信念网络模型输出端共同连接的分类器；所述M个深度信念网络模型及M个深度信念网络模型输出端共同连接的分类器经过语音情感识别数据库数据集训练后得到深度信念网络分类器；

S2、获取待测语音信号的特征向量；

S3、在测试时，将待测语音信号的特征向量输入步骤S1获取到的深度信念网络分类器中，获得语音情感类别。

优选的，所述步骤S1中深度信念网络分类器获取过程具体如下：

S11、针对语音情感识别数据库抽取特征，获取到语音情感识别数据库中每个样本对应的特征向量，从语音情感识别数据库抽取一部分样本作为验证集；

S12、设置子空间规模M以及子空间中每个样本特征向量每次被抽取的维度n；

S13、针对每个样本的特征向量进行M次的随机抽取组成M个子空间，即每次每个样本特征向量被抽取部分组合构成一个子空间，一个子空间对应形成一个新的训练集；其中每次针对每个样本特征向量随机抽取的维度为n维；

S14、生成M个深度信念网络模型，并且在M个深度信念网络模型输出端共同连接一个分类器，采用步骤S12中获取的M个新的训练集分别对对应的M个深度信念网络模型及M个深度信念网络模型输出端共同连接的分类器进行训练，得到一个深度信念网络分类器；

S15、子空间规模M以步长X值遍历X1～X2值，每个样本特征向量被抽取的维度n以步长Z值遍历Z1～Z2值，然后分别通过步骤S13至步骤S14获取到对应的[(X2-X1)/X+1]*[(Z2-Z1)/Z+1]个深度信念网络分类器；

S16、采用步骤S11中获取到的验证集针对S15获取到的[(X2-X1)/X+1]*[(Z2-Z1)/Z+1]个深度信念网络分类器分别进行验证，然后选取出识别准确率最高的一个深度信念网络分类器。

优选的，M个深度信念网络模型输出端共同连接的分类器为基于径向基核的支持向量机。

更进一步的，所述深度信念网络模型为基于受限玻尔兹曼机RBM分层组成，其中每层RBM神经元数目为80个，受限玻尔兹曼机层的学习率为0.001，外层多层前向神经网络学习率为0.08，不工作比率的值为0.1。

更进一步的，所述X1值为5，X2值为30，X值为5；即步骤S15中子空间规模M以步长5遍历5～30，

更进一步的，所述Z1值为50，Z2值为950，Z值为150，即所述步骤S15中每个样本特征向量被抽取的特征维度n以步长150遍历50～950；分别通过步骤S13至步骤S14获取到对应60个深度信念网络分类器。

更进一步的，所述深度信念网络分类器中，M个深度信念网络模型的输出经融合后输入至M个深度信念网络模型输出端所连接的分类器中。

更进一步的，M个深度信念网络模型输出的融合采用简单投票法。

优选的，所述深度信念网络模型为基于受限玻尔兹曼机RBM分层组成；所述步骤S13中新的训练集对深度信念网络模型进行训练的过程具体如下：

S131、在深度信念网络模型第一个RBM层中，输入的值为新的训练集中每个样本对应的特征向量，输出的值则是预训练后经过RBM变换出来的特征；

S132、在接下来的所有RBM层中，当前RBM层的输入为前一个RBM层的输出，而当前RBM的输出则作为下一个RBM层的输入，如此重复训练各个RBM层；

S133、将所有训练好的RBM参数分别作为每层神经网络的初始化参数，之后通过BP算法自顶向下对所有RBM参数进行微调，直到将误差减小到一定范围，则训练终止。

本发明相对于现有技术具有如下的优点及效果：

(1)本发明方法由M个深度信念网络模型及M个深度信念网络模型输出端共同连接的分类器经过语音情感识别数据库数据集训练后构成深度信念网络分类器，然后将待测语音信号的特征向量输出至深度信念网络分类器中，通过深度信念网络分类器获取到最终的语音情感类别。本发明方法深度信念网络分类器集成了多个深度信念网络模型，然后将多个深度信念网络模型的输出融合后输入至分类器中，通过分类器获得到最终结果，具有语音情感识别准确率高的优点，并且减少了语音情感特征提取对人的依赖性，能够能识别出多种语言的语音情感，应用广泛。

(2)本发明方法中针对每个样本的特征向量进行M次的随机抽取组成M个子空间，一个子空间对应形成一个新的训练集；其中每次针对每个样本特征向量随机抽取的维度为n维；通过M个子空间对应的M个新的训练集训练M个深度信念网络模型及它们输出端共同连接的分类器，以得到一个深度信念网络分类器，本发明方法中将子空间规模M以一定步长遍历多个值，将每个样本特征向量随机抽取的维度n以一定步长遍历多个值，针对于不同的M值和n值，通过本发明方法能够获取到多个深度信念网络分类器，本发明方法通过验证集针对多个深度信念网络分类器进行验证，选取出识别准确率最高的深度信念网络分类器作为本发明方法最终的深度信念网络分类器，通过本发明方法能够选取出最优的深度信念网络分类器，大大提高了本发明方法的语音情感识别准确率。

(3)本发明方法中深度信念网络分类器中M个深度信念网络模型分别有M个新的训练集训练得到，其中M个新的训练集为语音情感识别数据中每个样本的特征向量进行M次的随机抽取组成的，因此M个新的训练集为不同的训练集，因此对应训练得到的M个深度信念网络模型的结构为不同的，本发明方法利用多个结构差异化的M个深度信念网络模型集成识别，能够获得更好的语音情感识别性能，进一步提高语音情感识别的准确率。

附图说明

图1是本发明方法中深度信念网络分类器的生成框图。

图2是RBM结构图。

图3是深度信念网络网络结构图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

本实施例公开了一种基于集成深度信念网络的语音情感识别方法，步骤如下：

S1、获取深度信念网络分类器，其中该深度信念网络分类器包括M个深度信念网络(DBN)模型以及M个深度信念网络模型输出端共同连接的一个分类器；M个深度信念网络模型及M个深度信念网络模型输出端共同连接的一个分类器经过语音情感识别数据库数据集训练后得到深度信念网络分类器；本实施例中M个深度信念网络模型输出端共同连接的一个分类器可为基于径向基核的支持向量机SVW。

本步骤中深度信念网络分类器获取过程具体如下：

S11、针对语音情感识别数据库抽取特征，获取到语音情感识别数据库中每个样本对应的特征向量，从语音情感识别数据库抽取一部分样本作为验证集。

S12、设置子空间规模M以及子空间中每个样本特征向量被抽取的维度n；子空间规模M指的是子空间的个数。

S13、针对语音情感识别数据库中的每个样本的特征向量进行M次的随机抽取组成M个子空间，分别为第一子空间、第二子空间、…、第M子空间，即每次每个样本特征向量被抽取部分组合构成一个子空间，一个子空间对应形成一个新的训练集；其中每次针对每个样本特征向量随机抽取的维度为n维，本实施例中一个子空间中包括所有样本的特征向量中的n维。

S14、生成M个深度信念网络模型，分别第一深度信念网络模型、第二深度信念网络模型、…、第M深度信念网络模型，并且在M个深度信念网络模型输出端共同连接一个分类器，采用步骤S12中获取的M个新的训练集分别对对应的M个深度信念网络模型及M个深度信念网络模型输出端共同连接的分类器进行训练，得到一个深度信念网络分类器；该深度信念网络分类器生成过程具体如图1中所示。

S2、获取待测语音信号的特征向量。

本实施例深度信念网络分类器中M个深度信念网络模型的输出经简单投票法融合后输入至M个深度信念网络模型输出端所连接的分类器中，最后通过分类器输出结果。

语音情感特征包括三大类：分别是韵律特征、音质特征以及谱特征。本实施例选取的语音特征包含国际标准语音特征集INTERSPEECH2010的基准特征外，还包括特征LPCC(线性预测倒谱系数)、ZCPA(语音的上升过零率和非线性幅度)、PLP(感知线性预测参数)和HuWSF特征。

本实施例中步骤S15中X1为5，X2为30，X为5，Z1为50，Z2为950，Z为150；即步骤S15中子空间规模M以步长5遍历5～30，每个样本特征向量被抽取的维度n以步长150遍历50～950，那么分别通过步骤S13至步骤S14获取到对应60个深度信念网络分类器。

本实施例深度信念网络模型为基于受限玻尔兹曼机RBM分层组成；其中RBM的结构如图2所示，中V层为可视层，负责接收外部特征的输入，H层为隐层，负责输出编码后的数据。RBM的作用主要有两个，其一是降维，亦即是通过RBM的编码对原始特征进行组合选择，得到新的特征向量；其二是通过无监督学习的方式去最大限度的拟合输入数据，并将得到的RBM参数值作为BP神经网络的初始化参数，这样做的好处在于能够避免BP神经网络由于随机初始化参数选择不当而导致的陷入局部极小值的问题。而这两个方面的作用都是基于RBM在预训练过程中对其输入数据进行最大程度的拟合。

步骤S13中新的训练集对深度信念网络模型进行训练的过程具体如下：

S131、在深度信念网络模型第一个RBM层中，输入的值为新的训练集中每个样本对应的特征向量，输出的值则是预训练后经过RBM变换出来的特征。

S132、在接下来的所有RBM层中，当前RBM的输入为前一个RBM层的输出，而当前RBM层的输出则作为下一个RBM层的输入，如此重复训练各个RBM层。

S133、将所有训练好的RBM参数分别作为每层神经网络的初始化参数，之后通过BP(back propagation，反向传播)算法自顶向下对所有RBM参数进行微调，直到将误差减小到一定范围，则训练终止；其中误差减小到一定范围指的是误差减小到可接受的范围。

本实施案例中，如图3所示，如果训练集中数据是带有标签进行训练的，则顶层RBM中显层上出现的Y1，Y2是代表训练数据的标签值，比如EMODB数据库有7个情感标签，那就对应7个神经元，每个训练数据标签对应的神经元会被置为1，其余置零。如果训练集中数据没有对应标签，则去掉这些标签神经元。深度信念网络模型由于每一层都是用RBM进行预训练，所以其参数已经比较接近最优值，这时再通过BP反向传播算法进行微调一方面可以让RBM的参数相对于整个DBN来说更优，另一方面不会陷入局部极小值的问题，而残差传播的问题由于参数是通过预训练得到的，所以即便调整不到也不会像传统神经网络一样对性能带来重大的影响。

本实施例中选用的深度信念网络模型中每次RBM的神经元数目为80个，受限玻尔兹曼机层的学习率为0.001，外层多层前向神经网络学习率为0.08，DropoutFraction(不工作比率)为0.1。

在EMODB、CASIA和SAVE数据库下，如表1所示为本实施例基于集成深度信念网络的语音情感识别方法ESDBNS和现有方法SLDBN(单层深度信任网络)、DLDBN(双层深度信任网络)、TLDBN(三层深度信任网络)、KNN(基于K个最近邻的分类器)、基于线性核的SVM、集成分类器中效果最优的基分类器(记为BASE)的识别准确率；其中深度信念网络的配置除了层数外，其余沿用与本实施例识别方法一致的配置，即每层神经元为80个，RBM的学习率为0.001，外层多层前向神经网络学习率为0.08，随机抽样比例DropoutFraction的值为0.1。

表1

其中EMODB、CASIA和SAVEE分别作为语音情感识别数据库；EMODB为标准的德语语音数据库、CASIA为中科院自动化所的汉语数据库、SAVEE为英语视听表情情感数据库。情感类别为生气、讨厌、害怕、高兴、中性、伤心和惊讶。这三个数据库的数据在基于情感标签的分布上都是比较平衡的。其中评价标准WA准确率(加权精度)：

WA＝(识别准确样本总数)/所有测试样本总数；

从表1中可以看出，本实施例方法的识别准确率最高。

当数据库为FAU时，如表2所示，为如表1所示为本实施例基于集成深度信念网络的语音情感识别方法ESDBNS和现有方法SLDBN、DLDBN、TLDBN、KNN、基于线性核的SVM以及集成分类器中效果最优的基础分类器Base的识别准确率；

表2

其中FAU数据库是一个由德国儿童录制而成的语音情感数据库，评价标准UA不加权精度(Unweighted Accuracy)：

UA＝(所有类别精度和)/(类别个数)；

从表2中可以看出，在FAU数据库下，本实施例方法的识别准确率最高。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于集成深度信念网络的语音情感识别方法，其特征在于，步骤如下：

S1、获取深度信念网络分类器，其中该深度信念网络分类器包括M个深度信念网络模型以及M个深度信念网络模型输出端共同连接的分类器；所述M个深度信念网络模型及M个深度信念网络模型输出端共同连接的分类器经过语音情感识别数据库数据集训练后得到深度信念网络分类器，其中，深度信念网络分类器获取过程具体如下：

S16、采用步骤S11中获取到的验证集针对S15获取到的[(X2-X1)/X+1]*[(Z2-Z1)/Z+1]个深度信念网络分类器分别进行验证，然后选取出识别准确率最高的一个深度信念网络分类器；

S2、获取待测语音信号的特征向量；

2.根据权利要求1所述的基于集成深度信念网络的语音情感识别方法，其特征在于，M个深度信念网络模型输出端共同连接的分类器为基于径向基核的支持向量机。

3.根据权利要求1所述的基于集成深度信念网络的语音情感识别方法，其特征在于，所述深度信念网络模型为基于受限玻尔兹曼机RBM分层组成，其中每层RBM神经元数目为80个，受限玻尔兹曼机层的学习率为0.001，外层多层前向神经网络学习率为0.08，不工作比率的值为0.1。

4.根据权利要求1所述的基于集成深度信念网络的语音情感识别方法，其特征在于，所述X1值为5，X2值为30，X值为5；即步骤S15中子空间规模M以步长5遍历5～30。

5.根据权利要求4所述的基于集成深度信念网络的语音情感识别方法，其特征在于，所述Z1值为50，Z2值为950，Z值为150，即所述步骤S15中每个样本特征向量被抽取的特征维度n以步长150遍历50～950；分别通过步骤S13至步骤S14获取到对应60个深度信念网络分类器。

6.根据权利要求1所述的基于集成深度信念网络的语音情感识别方法，其特征在于，所述深度信念网络分类器中，M个深度信念网络模型的输出经融合后输入至M个深度信念网络模型输出端所连接的分类器中。

7.根据权利要求6所述的基于集成深度信念网络的语音情感识别方法，其特征在于，M个深度信念网络模型输出的融合采用简单投票法。

8.根据权利要求1所述的基于集成深度信念网络的语音情感识别方法，其特征在于，所述深度信念网络模型为基于受限玻尔兹曼机RBM分层组成；所述步骤S13中新的训练集对深度信念网络模型进行训练的过程具体如下：