CN110164476B

CN110164476B - 一种基于多输出特征融合的blstm的语音情感识别方法

Info

Publication number: CN110164476B
Application number: CN201910437266.5A
Authority: CN
Inventors: 胡维平; 王艳; 张佑贤; 吕惠炼; 莫家玲
Original assignee: Guangxi Normal University
Current assignee: Guangxi Normal University
Priority date: 2019-05-24
Filing date: 2019-05-24
Publication date: 2021-07-27
Anticipated expiration: 2039-05-24
Also published as: CN110164476A

Abstract

本发明公开了一种基于多输出特征融合的BLSTM的语音情感识别方法，该方法包括：对语音情感数据库中的的语音样本进行预处理；提取常用的传统特征以及改进的新特征；对提取的特征进行BP算法特征优选；将提取好的优选特征随机选择65%的样本作为训练集，送入到多输出特征融合的BLSTM网络模型中进行训练，用Adam算法作为网络的优化器，获得优化后的网络模型；利用S4优化得到的三层六个输出特征融合的BLSTM网络模型，将剩下的35%的样本作为测试集，对其进行情感分类，对EMODB语音情感数据库中全部的情感样本进行分类，完成语音的情感识别。本发明方法提出的多输出特征融合的BLSTM网络模型，其能有效提高网络的分类效果，提高识别率，降低算法的时间复杂度。

Description

一种基于多输出特征融合的BLSTM的语音情感识别方法

技术领域

本发明涉及语音情感识别技术领域，具体是一种基于多输出特征融合的BLSTM的语音情感识别方法。

背景技术

语音信号是最快速、最原始的交流方式，被认为是实现人机交互最有效的方法之一。语音情感识别作为人机交互的一处重要分支，可以广泛应用与教育、医疗、交通等各个领域。现阶段大部分基于深度学习算法的语音情感识别均采用CNN（Convolutional NeuralNetworks，卷积神经网络）+LSTM（Long Short Term Memory Network，长短时记忆网络）为网络模型结构。专利CN108717856A一种基于多尺度深度卷积循环神经网络的语音情感识别方法，其用CNN提取频谱图信息作为输入特征送入到LSTM中，解决了语音频谱特征输入变长的问题。但由于其采用图像输入，一方面由于语音转换为频谱或语谱图，造成语音情感信息的部分丢失，信息不完整，另一方面，由于转换成频谱图的图片形式，使得网络处理的数据量大大增加，网络难以训练，模型结构的实用性和实时性不高，以时间为代价提高了网络模型的识别效果，在实际工程中很难实用。专利CN109460737A一种基于增强式残差神经网络的多模态语音情感识别方法，其提取语谱图特征，用增强式残差神经网络解决了多模态维度不同问题，其实际同样是将语音数据转换为图片的形式，所解决的问题也是语谱图特征输入变长问题，同样导致以上两个问题。针对以上两个问题，本发明创新性的将提取好的优选特征作为输入向量的语音情感识别系统框架结构，这很大程度降低了算法的复杂度和运算时间，并同时考虑语音情感信息的完整性，提出一种基于多输出特征融合的BLSTM的语音情感识别方法，并在EMODB数据库上得到WA为91.17%，UA为89.79%的识别率。

发明内容

本发明的目的在于克服现有技术的不足，而提供一种基于多输出特征融合的BLSTM的语音情感识别方法。该方法考虑到语音的时序性，以及后文对前文的影响，即编码从后到前的信息，选择BLSTM(Bidirectional Long Short Term Memory Network，双向长短时记忆网络)，同时利用历史和未来的信息，以更好的捕捉双向的语义依赖。还可以为网络提供额外的上下文，并导致更快，甚至更充分的学习。在此基础上，从ResNet的跨层连接得到启发，考虑到LSTM不同层都有输出，如果结合在一起，特征能更充分的利用，把BLSTM不同层的输出经过全连接层变换，得到的各个层的特征相加，实现当前特征与浅层特征的融合，再对融合得到的特征分类，得到最终的预测结果。BLSTM的每一层特征相加融合，实际上是用低层网络信息补充高层网络信息，输出更多的特征信息，减少情感信息的丢失。而输入采用优选特征的方式，可以降低算法的时间复杂度，降低网络模型的训练难度，方便硬件平台的移植等。

实现本发明目的的技术方案是：

一种基于多输出特征融合的BLSTM的语音情感识别方法，包括以下步骤：

S1.对语音情感数据库中的的语音样本进行预处理；

S2.提取常用的传统特征以及改进的新特征；

S3.对提取的特征进行BP(Error Back Propagation, 误差反向传播)算法特征优选；

S4.将提取好的优选特征随机选择65%的样本作为训练集，送入到多输出特征融合的BLSTM网络模型中进行训练，用Adam（Adaptive Moment Estimation，自适应矩量估计）算法作为网络的优化器，获得优化后的网络模型，即三层六个输出特征融合的BLSTM网络模型；

S5.利用S4优化得到的三层六个输出特征融合的BLSTM网络模型，将剩下的35%的样本作为测试集，对其进行情感分类，对EMODB语音情感数据库中全部的情感样本进行分类，完成语音的情感识别。

S1中，所述语音情感数据库为EMODB库，含有7种情感（中性、生气、害怕、高兴、悲伤、厌恶、无聊），预处理包括分帧加窗端点检测等。

S2中，提取常用的传统特征，包括基音频率、能量、过零率、频率微扰、梅尔频域倒谱系数、Hurst指数、线性预测系数、感觉加权线性预测8类特征；

提取改进的新特征，包括基频梅尔频域倒谱系数，能量梅尔频域倒谱系数，倒谱梅尔频域倒谱系数，Teager梅尔频域倒谱系数4类改进特征；

对提取的12类特征，分别计算其平均值、中位值、标准差、最小值、最大值、方差、变化率、一阶差分等统计量。

由于语音包含情感信息，说话人信息和说话内容信息即语义信息三方面的内容，针对情感信息识别，要尽可能滤除其他两方面信息对情感信息的干扰，本方法使用改进后的新特征，其滤除了与情感无关的部分信息，最后对其进行BP特征优选。

S3对提取的特征进行BP特征优选，优选出最能体现情感信息的组合特征，对优选的组合特征提取70帧/段的段特征，帧长256，帧移128。同时为了获得更好的并行加速，将语音样本段数归一化到5段，语音样本长的截断，不够的用零填充，将111维70帧/段的段特征作为优选特征送入到多输出特征融合的BLSTM网络模型。

双向三层六个输出LSTM网络模型，双向指的是在输入输出间再加一层时间上反序传播的隐层。通过双向LSTM可以更好的捕捉双向的语义依赖。双向LSTM即 BLSTM，克服了单向LSTM无法编码从后到前的信息的问题。

S4中，所述三层六个输出特征融合的BLSTM网络模型的构建，设一个情感语音提取到的帧特征为X = (x₁,x₂,... x_i ...,x_T) ，i = 1,2,...,T，将X中每一个向量依次输入到LSTM网络中，对于时刻t的输入x_t，经过LSTM神经网络得到h_t的计算过程包括如下步骤：

S4.1构建遗忘门(Foget Gate)

遗忘门计算哪些信息需要忘记，遗忘门的计算公式为：

公式中的中括号表示两个向量相连合并，

是遗忘门的权重矩阵，

为sigmoid函数，

为遗忘门的偏置项，x_t为t时刻的输入，h_t-1为上一时刻的隐层状态；

S4.2构建输入门(Input Gate)

输入门计算哪些信息需要保存到隐层神经元状态单元中，输入门的计算公式为：

S4.3隐层细胞状态更新(Cell State Update)

当前时刻的单元状态由遗忘门输入和上一时刻状态的积加上输入门两部分的积，即

S4.4构建输出门(Output Gate)

输出门计算需要输出的信息，输出门的计算公式为：

其中，

和

为LSTM网络输出门连接权值与偏置。i_t，c_t，o_t，f_t为输入门，细胞存储单元，输出门和遗忘门的激活输出向量，由于在语音识别中4层网络就被认为是“较深的”，本方法在一层至五层之间进行实验，得出网络层数为3时，网络的分类性能最强。网络的每一层都会有对应的输出，实验中输出每一层最后一个时刻的输出，将多层输出特征相加进行决策融合，以提供更丰富的语音情感特征。

实验包含单双向的对比和最后一层高级特征与低层和高层相融合的特征的对比，考虑到低层信息对高层的补充作用，融合特征效果更好。

在单向的多输出LSTM网络结构中综合分析得到：1. 层数越多，准确率越低；2. 无论是几层网络，多个输出结合的效果比最后一层输出要好。

在双向多输出特征融合的BLSTM网络结构中综合分析得到：1. 层数越多，准确率越低。

2. 无论是几层网络，多个输出结合的效果比最后一层输出要好，S4-1和S4-2结论的高度一致，也验证了实验结论的可靠性；

因为各类情感样本数目不是平均分布的，存在类别间样本量多少不一的情况，所以本发明方法以最大化UA（Unweighted Average，未加权准确率）为目标，应用111维70帧/段的段特征和三层六输出BLSTM的识别方法，在EMODB数据库上得到WA为91.17%，UA为89.79%的识别率。

本发明提出一种基于多输出特征融合的BLSTM的语音情感识别方法，该方法创新性的提出将优选特征作为输入方式的语音情感识别框架结构，降低了算法的时间复杂度，从ResNet网络的跨层连接出发，考虑到BLSTM不同层的输出，如果结合在一起，特征能更充分的利用，输出更多的特征信息，以减少语音情感信息的丢失。本发明方法提出的多输出特征融合的BLSTM网络模型，其能有效提高网络的分类效果，提高识别率，降低算法的时间复杂度。

附图说明

图1为本发明语音情感识别的系统框图；

图2为本发明多输出特征融合的BLSTM网络结构图；

图3为本发明ResNet跨层连接结构图；

图4 为本发明EMODB库测试分类精度曲线图；

图5 为本发明三层六个输出BLSTM网络结构图。

具体实施方式

下面结合实施例和附图对本发明内容作进一步的阐述，但不是对本发明的限定。

实施例：

一种基于多输出特征融合的BLSTM的语音情感识别方法，其语音情感识别的系统框图如图1所示，语音样本输入语音情感数据库中，对语音样本进行预处理，包括分帧加窗端点检测等。提取特征包括传统特征提取和改进的新特征两方面，分类器用多输出BLSTM网络模型，对于提取好的特征，一部分用来训练模板，一部分用来做测试识别，输出判决结果。

语音情感识别方法，包括以下步骤：

S1对语音情感数据库中的的语音样本进行预处理；

S2提取常用的传统特征以及改进的新特征；

S3对提取的特征进行BP特征优选；

S4将优选特征随机选择65%的样本作为训练集，送入到多输出特征融合的BLSTM网络模型中进行训练，用Adam算法作为网络的优化器，获得优化后的网络模型，即三层六个输出特征融合的BLSTM网络模型；

S5利用S4优化得到的三层六个输出特征融合的BLSTM网络模型，将剩下的35%的样本作为测试集，对其进行情感分类，对EMODB语音情感数据库中全部的情感样本进行分类，完成语音的情感识别。

S1中，所述的情感语音库为EMODB库，含有7种情感，预处理包括分帧加窗端点检测等。对提取的特征进行BP特征选择，优选出最能体现情感信息的组合特征，对优选的组合特征提取70帧/段的段特征，帧长256，帧移128。同时为了获得更好的并行加速，实验中将语音样本段数归一化到5段，语音样本长的截断，不够的用零填充，输入数据为111维70帧/段的段特征。

所述的多输出BLSTM网络模型，其结构如图2所示，将输入数据按时刻送入到BLSTM中，假设T个时刻，即将输入分为T段，假设BLSTM有N层，将每一段的段特征送入BLSTM中，每一层都会有对应的输出，取每一层最后一个时刻的输出，共2*N个特征向量，将2*N个特征向量相加求和，实现浅层特征和深层特征相融合，得到最终的特征向量，经过全连接层和软最大softmax得到7个在0~1之间的值，即每个类别的概率。网络结构如图2，‘FC’指的是全连接层（fully connected layers）；‘Addition’操作是将多个向量对应位置的特征点相加；‘Fw_LSTM’代表BLSTM中的‘Forward layer；‘Bw_LSTM’代表BLSTM中的‘Backward layer’，虚线代表需要通过实验确定的网络模型参数，下文设计实验，验证其有效性，以及具体的网络结构和超参数的设置。

所述LSTM计算过程如下所示，设一个情感语音提取到的帧特征为X = (x₁,x₂,...,x_T) ，i = 1,2,...,T，将X中每一个向量依次输入到LSTM网络中，对于时刻t的输入x_t，经过LSTM神经网络得到h_t的计算过程如下：

1) 构建遗忘门(Foget Gate)

遗忘门计算哪些信息需要忘记。

公式中的中括号表示两个向量相连合并，

是遗忘门的权重矩阵，

为sigmoid函数，

为遗忘门的偏置项，x_t为t时刻的输入，h_t-1为上一时刻的隐层状态。

2) 构建输入门(Input Gate)

输入门计算哪些信息需要保存到状态单元中。

3) 隐层细胞状态更新(Cell State Update)

4) 构建输出门(Output Gate)

输出门计算需要输出的信息。

其中，

和

为LSTM网络输出门连接权值与偏置，i_t，c_t，o_t，f_t为输入门，细胞存储单元，输出门和遗忘门的激活输出向量。

设计实验，确定具体的网络结构和超参数的设置。在实验阶段，LSTM中隐层设置111个LSTM记忆细胞。输入数据为111维70帧/段的段特征，实验在一层至五层之间进行，在分类的全连接层之间，添加2个dropout层，丢弃因子设为0.5。网络中最大迭代次数max_epoch=50000，批尺寸batch_size=32，Adam算法作为网络的优化器，学习率和动量因子分别设为0.0001，0.999。运行模式为GPU。本次实验基于Linux操作平台，使用tensorflow深度学习算法网络框架。由于深度学习每次训练，网络参数随机生成和gpu并行计算的浮点误差，所以每次结果应该不完全相同，会在小范围内震荡，所以实验中对同一组实验做5次取均值为最终识别率。在进行模型训练前，具体设置是离散的情感标签被用0~6数字代替，例如在EMODB库中，0代表fear，1代表disgust等。实验在EMODB库中随机选择65%的样本作为训练集，35%作为测试集。运行训练好的多输出特征融合的BLSTM模型，输出加权平均准确率WA和未加权平均准确率UA。因为各类情感样本数目不是平均分布的，存在类别间样本量多少不一的情况，所以本实施列以最大化UA为目标。运行搭建好的多输出特征融合的BLSTM模型，开始网络训练和同步测试。

EMODB库单向多层多输出实验结果如下：

表1 EMODB库单向多层多输出实验结果

根据以上实验结果，可以发现本发明方法应用111维70帧/段的段特征和单向一层多输出LSTM的识别方法，在EMODB数据库上得到WA为86.19%，UA为84.92%的识别率。单向一层的LSTM识别率最高。

本发明方法应用111维70帧/段的段特征和单向五层LSTM的识别方法，在EMODB数据库上得到WA为76.80%，UA为75.06%的识别率。单向五层的LSTM识别率最低。

虽然神经网络的隐层层数决定了它对现实的刻画能力，但随着深度的增加，带来了以下问题，优化函数陷入局部最优，导致用有限数据训练的深层网络，甚至不如用浅层网络训练效果好的现象。在单向的多输出LSTM网络结构中综合分析得到：1. 层数越多，准确率越低；2. 无论是几层网络，多个输出结合的效果比最后一层输出要好。网络结构为单向一层时，EMODB库的识别率最高。以下同样的参数设置，进行EMODB库双向多层多输出实验，运行搭建好的多输出特征融合的BLSTM模型。

EMODB库双向多层多输出实验结果如下：

表2 EMODB库双向多层多输出实验结果

根据以上实验结果，可以发现本发明方法应用111维70帧/段的段特征和双向三层六个输出BLSTM的识别方法，在EMODB数据库上得到WA为91.17%，UA为89.79%的识别率。双向三层六个输出BLSTM网络结构的识别率最高，应用111维70帧/段的段特征和双向五层BLSTM的识别方法，在EMODB数据库上得到WA为79.56%，UA为80.01%的识别率。双向五层的识别率最低。在双向多输出特征融合的BLSTM网络结构中综合分析得到：1. 层数越多，准确率越低。2. 无论是几层网络，多个输出结合的效果比最后一层输出要好，即符合之前的预估低层低级特征和高层高级特征的融合特征效果更好。

在多输出特征融合的BLSTM网络中可以得到一下三个结论：

根据以上表1和表2综合分析，本发明方法应用111维70帧/段的段特征和三层六个输出BLSTM的识别方法，在EMODB数据库上得到WA为91.17%，UA为89.79%的识别率。多输出特征融合的BLSTM网络在双向三层六个输出是取得最高识别率。在多输出特征融合的BLSTM网络中可以得到一下三个结论：1. 无论单向还是双向，层数越多，准确率越低。2. 无论是几层LSTM网络模型，双向网络比单向网络结构好，因为双向的LSTM即BLSTM相当于利用了上下文的联系，如同做阅读的时候，后文的信息对前文也有指导作用。3. 无论是单向还是双向，也无论是几层网络，多个输出结合的效果比最后一层输出要好。为了评估网络的识别性能，实验中绘出测试的分类精度曲线。

由图4可知，当训练迭代到1000轮左右的时候，测试准确率达到90%左右，在之后测试准确率趋势稳定不变。在90%左右震荡。网络模型的测试准确率趋向于稳定不变，实验中认为此时网络模型已经收敛，测试结果即为输出识别率。网络收敛快，时间复杂度低。

综上，实验中多输出特征融合的BLSTM网络最后的网络结构为双向三层六个输出。其结构如图5所示：提取111维70帧/段的段特征作为声学特征，送入到三层六个输出特征融合的BLSTM网络模型中，然后得到最后一个时刻，不同层的输出，送入到全连接层，对BLSTM每层特征进行变换，将得到的特征相加融合，得到最终的特征向量，经过全连接层和softmax得到7个在0~1之间的值，即每个类别的概率。

S4中，将处理好的语音样本的融合特征一部分送入到多输出BLSTM网络模型中进行训练，利用Adam算法作为网络的优化器，获得优化后的网络模型，即三层六个输出特征融合的BLSTM网络模型。

S5中，利用S4优化后的三层六个输出特征融合的BLSTM网络模型，对其他部分特征提取后的语音样本进行情感分类，在EMODB库中全部的7类情感样本进行分类。运行训练好的多输出特征融合的BLSTM模型，输出加权和未加权平均准确率。应用111维70帧/段的段特征和三层六输出BLSTM的识别方法，在EMODB数据库上得到WA为91.17%，UA为89.79%的识别率。相比于现有的语音情感识别方法，本实施例上述识别方法具有更好的识别精度和更快的收敛速度。

Claims

1.一种基于多输出特征融合的BLSTM的语音情感识别方法，其特征是：包括以下步骤：

S1.对语音情感数据库中的语音样本进行预处理；

所述语音情感数据库为EMODB库，含有中性、生气、害怕、高兴、悲伤、厌恶和无聊7种情感；

所述预处理包括分帧加窗端点检测；

S2.提取常用的传统特征以及改进的新特征，对提取的特征分别计算其平均值、中位值、标准差、最小值、最大值、方差、变化率、一阶差分的统计量；

所述常用的传统特征，包括基音频率、能量、过零率、频率微扰、梅尔频域倒谱系数、Hurst指数、线性预测系数、感觉加权线性预测8类；

所述改进的新特征，包括基频梅尔频域倒谱系数、能量梅尔频域倒谱系数、倒谱梅尔频域倒谱系数、Teager梅尔频域倒谱系数4类；

S3.对提取的特征进行BP算法特征优选，优选出最能体现情感信息的组合特征，对优选的组合特征提取70帧/段的段特征，帧长256、帧移128；同时为了获得更好的并行加速，将语音样本段数归一化到5段；语音样本长的截断，不够的用零填充；将111维70帧/段的段特征作为优选特征送入到多输出特征融合的BLSTM网络模型；

S4.将提取好的优选特征随机选择65%的样本作为训练集，送入到多输出特征融合的BLSTM网络模型中进行训练，用Adam算法作为网络的优化器，获得优化后的网络模型，即三层六个输出特征融合的BLSTM网络模型；

设一个情感语音提取到的帧特征为X = (x₁,x₂,... x_i ...,x_T) ，i = 1,2,...,T，将X中每一个向量依次输入到LSTM网络中，对于时刻t的输入x_t，经过LSTM神经网络得到h_t的计算过程包括如下步骤：

S4.1构建遗忘门Foget Gate

遗忘门计算哪些信息需要忘记，遗忘门的计算公式为：