CN112750466A

CN112750466A - 用于视频面试的语音情感识别方法

Info

Publication number: CN112750466A
Application number: CN202011481877.9A
Authority: CN
Inventors: 王天云
Original assignee: Suzhou Yuanqichuang Artificial Intelligence Technology Co ltd
Current assignee: Suzhou Yuanqichuang Artificial Intelligence Technology Co ltd
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2021-05-04

Abstract

本发明披露一种用于视频面试的语音情感识别方法。该方法包括以下步骤：首先提取情感语音特征全局后采用SVM‑RFE特征排序算法降维度得到最优特征子集，并对其进行注意力加权，然后将加权后的特征子集输入双向长短时记忆网络学习特征层上下文并获得最初情感预测结果，再利用情感标签值对另一独立的双向长短时记忆网络训练学习标签层上下文信息并在初步情感预测结果的基础上完成最终预测。本发明提出的用于视频面试的语音情感识别方法有效改善了情感分类的性能，提高了语音情感识别的准确率。

Description

用于视频面试的语音情感识别方法

技术领域

本发明涉及文本语音信号处理，深度学习技术，尤其涉及一种用于视频面试的语音情感识别方法。

背景技术

随着互联网的高速发展，计算机在我们生活中承担着越来越重要的教学，为减轻面试官的工作量以及有效防范疫情，近年来越来越多企业着重视频面试，而作为最直接最有效的信息之一的语音，在视频面试中发挥着极其重要的作用。

语音情感识别的方法有很多。但以往的语音情感识别往往忽略了语音中语句的前后联系性，分析当前情感语句的前后句或若干句情感信息能有效提升联系语句的语音情感识别小伙。但仅仅基于上下文的语音情感识别一般只能简单地将上下文多帧特征直接作为输入而忽略了每帧各自的特点，并且多局限于特征层上下文。同时在现有的语音数据库中，语音情感特征可能变化十分迅速，而说话人的情感状态却变化缓慢，这种差异性也是语音情感识别中必须考虑的。

综上所述，现有的技术存在的问题是：

(1)现有的语音情感识别方法忽略了语音中语句的前后联系性，缺乏时序信息，影响识别准确率；

(2)现有的语音情感识别方法忽略了每帧各自的特征信息，且多局限于特征层上下文，影响识别准确率；

(3)现有的语音情感识别方法忽略了语音情感特征与说话人情感状态的差异性，影响识别准确率。

发明内容

为了克服上述缺陷，本发明提供一种用于视频面试的语音情感识别方法，该方法能有效改善情感分类的性能，正确识别语音中语句的前后联系性和时序信息，能有效提高语音情感识别的准确率。

本发明为了解决其技术问题所采用的技术方案是：一种用于视频面试的语音情感识别方法，包含以下步骤：

步骤1：制作语音情感数据集SEMAINE和RECOLA，并将数据集分为训练集，验证集和测试集；

步骤2：构建深度学习网络，该网络包括能很好学习语音序列数据的时间上下文信息的双向长短时记忆模块，以及能增强标签层上下文细节特征的注意力机制模块；

步骤3：构建均方根误差、一致性相关系数作为损失函数；

步骤4：将经过预处理的音频-标签数据流以较小的批尺寸分别送入特征层网络以及标签层网络进行训练，利用定义好的损失函数和优化器反向传播网络梯度，使用交叉验证方法检验网络性能，最终使网络收敛至最佳状态，并保存训练好的模型用于直接使用；

步骤5：利用得到的模型对语音测试数据集进行最终识别；

本发明的进一步技术方案是：所述步骤2中深度学习网络搭建如下：

提取语音情感特征全集。本发明使用开源软件OpenSMILE对输入的语音进行特征提取，包含过零量、能量、基频、谐波噪声比、梅尔频率倒谱系数等16个低层次语音情感特征，并在这些低层特征基础上应用最大值、最小值、均值、标准差等方式得到语音情感特征参数集；

在特征全集上使用SVM-RFE特征排序算法进行子集特征选择，其中SVM目标函数为：

s.t.y_i(w·x_i+b)≥1,i＝1,2,...,k.

当剔除第i个特征后J的变化为：

其中：ΔJ(i)≈(Δw_i)²，特征权重向量w对分类面y＝w·x+b的贡献值；

构建带有注意力机制的双向长短时记忆网络，包含输入门、遗忘门、记忆单元、输出门、隐层输出。定义如下：

输入门：

i_t＝σ(W_xix_t+W_hix_t-1+b_i)

遗忘门：

f_t＝σ(W_xfx_t+W_hfx_t-1+b_f)

记忆单元：

c_t＝f_t*c_t-1*tanh(W_xcx_t+W_hcx_t-1+b_c)

输出门：

o_t＝σ(W_xox_t+W_hox_t-1+b_o)

隐层输出：

h_t＝o_t*tanh(c_t)

其中W_x#(代表W_xi，W_xf，W_xc，W_xo)是输入x_t与记忆模块间连接矩阵，W_h#(代表W_hi，W_hf，W_hc，W_ho)为隐含层上一时刻输出h_t-1与记忆模块间连接矩阵，b_#(代表b_i，b_f，b_c，b_o)为偏置向量，σ是sigmoid函数，*为向量间逐个元素相乘计算符号，当前时刻隐含层输出h_t将作为下一时刻输入；

接着对注意力进行加权，最后通过Softmax函数进行归一化处理，其中带有注意力加权机制的双向长短时记忆网络定义如下：

e_t＝Attend(x_t+s_t-1+α_t-1)

x'_tp＝a_tpx_tp

其中Attend(·)为计算注意力得分e_t的神经网络，x_t为当前时刻输入，s_t-1为上一时刻预测值，α_t-1为上一时刻注意力权值，e_tp为第p帧注意力得分，a_tp为注意力权值，x_tp为第p帧特征向量，x'_tp为第p帧注意力权值a_tp对x_tp加权得到考虑p帧特征贡献程度信息后的第p帧特征表示；

把经过注意力加权得到的特征表示输入到双向长短时记忆网络中，并通过特征层上下文学习得到语音情感最初的预测值，其中特征层上下文可以如下定义：

其中

是网络的输出，

是均值随机产生，H(·)是接收当前时刻上一隐藏层节点的输出

当前隐藏层节点上一时刻的输出

和当前隐藏层节点上一时刻记忆单元的输出

3个数据作为输入，运算后输出当前时刻当前隐藏层节点的输出

和当前时刻当前隐藏层节点记忆单元的输出

和

是H(·)计算函数在两个方向上的运用；

再引入语音情感标签序列对标签层上下文进行学习，进一步加强语音情感识别的准确率；

进一步地，所述步骤3中损失函数构造如下：

其中y'₁,y'₂,y'₃,...,y'_T-1,y'_T为双向长短时记忆网络输出得到的初步识别结果，R_RMSE为输出与标签序列之间的损失函数值；

其中y为维度情感标注值序列数据，y'为模型实际输出数据，ρ为两个序列数据的皮尔森相关系数，μ_y和μ_y'分别代表两个序列数据的均值，δ_y和δ_y'分别表示两个序列数据的方差。

本发明的有益效果是：本发明方法包括以下步骤：首先提取情感语音特征全局后采用SVM-RFE特征排序算法降维度得到最优特征子集，并对其进行注意力加权，然后将加权后的特征子集输入双向长短时记忆网络学习特征层上下文并获得最初情感预测结果，再利用情感标签值对另一独立的双向长短时记忆网络训练学习标签层上下文信息并在初步情感预测结果的基础上完成最终预测。故本发明提出的用于视频面试的语音情感识别方法能有效改善了情感分类的性能，提高语音情感识别的准确率。

附图说明

图1是本发明用于视频面试的语音情感识别方法的完整网络结构图；

图2是本发明用于视频字幕的文本行检测方法的SVM-RFE特征选择算法流程图。

具体实施方式

实施例：下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明提供的一种用于视频面试的语音情感识别方法，具体说明如下：

选择语音情感数据集SEMAINE和RECOLA作为训练数据集。本发明是在Windows 10操作系统上进行，开发语言为Python3.6，集成开发环境为Pycharm，深度学习框架是GPU版本的TensorFlow。硬件配置CPU为四核八线程的i7-7700，其主频3.60GHz，内存为16GB，GPU为NVIDIA GTX 1060。

构建各个网络模块，网络的整体结构图如图1所示。具体说明如下：

嵌入注意力机制并结合层级上下文的语音情感识别网络：该网络模块如图1所示，由语音情感特征全集模块、子集层特征选择模块、注意力加权模块和特征层、标签层上下文学习网络构成。首先使用开源软件OpenSMILE对输入的语音进行特征提取，包含过零量、能量、基频、谐波噪声比、梅尔频率倒谱系数等16个低层次语音情感特征，并在这些低层特征基础上应用最大值、最小值、均值、标准差等方式得到语音情感特征参数集，再通过SVM-RFE特征选择算法对特征参数集进行特征降维并获取最优特征子集，紧接着送入注意力加权模块，计算通过神经网络计算输入特征x_t的注意力权值α_t对P帧特征分别加权，加权后的特征x'_t替换x_t作为双向长短时记忆网络的输入，最后通过两次层级上下文学习来识别语音情感，其中特征层上下文得到最初识别结果，标签层上下文得到最终识别结果。

进一步的，网络中的SVM-RFE特征选择算法具体说明如下：

SVM-RFE特征选择算法如图2所示，根据支持向量机建模过程中的特征权重不断迭代淘汰排名靠后的特征从而实现特征排序，其中k代表特征维数。SVM分类器常用排序系数是各特征对目标函数具有的判别信息量，即特征权重向量w对分类面y＝w·x+b的贡献值，权重w_i越大表明该特征含有的判别信息越多，对决策函数影响越大。因此更新特征排序表进行递归训练直至得到特征全集最终排序结果。

其中SVM目标函数为：

s.t.y_i(w·x_i+b)≥1,i＝1,2,...,k.

当剔除第i个特征后J的变化为：

其中：ΔJ(i)≈(Δw_i)²，因此SVM-RFE以||w||²为排序准则可以保证特征排序过程中优先保留量大的特征子集，从而实现特征降维减小后续识别的计算复杂度。

进一步的，网络中的注意力加权具体说明如下：

输入门：

i_t＝σ(W_xix_t+W_hix_t-1+b_i)

遗忘门：

f_t＝σ(W_xfx_t+W_hfx_t-1+b_f)

记忆单元：

c_t＝f_t*c_t-1*tanh(W_xcx_t+W_hcx_t-1+b_c)

输出门：

o_t＝σ(W_xox_t+W_hox_t-1+b_o)

隐层输出：

h_t＝o_t*tanh(c_t)

其中W_x#(代表W_xi，W_xf，W_xc，W_xo)是输入x_t与记忆模块间连接矩阵，W_h#(代表W_hi，W_hf，W_hc，W_ho)为隐含层上一时刻输出h_t-1与记忆模块间连接矩阵，b_#(代表b_i，b_f，b_c，b_o)为偏置向量，σ是sigmoid函数，*为向量间逐个元素相乘计算符号，当前时刻隐含层输出h_t将作为下一时刻输入，接着对注意力进行加权，最后通过Softmax函数进行归一化处理，

注意力加权是模型学习调整对来自不同时刻的帧特征给予不同的关注度：

e_t＝Attend(x_t+s_t-1+α_t-1)

x'_tp＝a_tpx_tp

进一步的，网络中的两次层级上下文学习具体说明如下：

两次层级上下文使用的都是多层双向长短时记忆网络。假设双向长短时记忆网络一共有N层，第一层是输入层，第二层到第N-1层是双向长短时记忆层，第N层是输出层，特征上下文学习阶段公式如下：

其中

是网络的输出，

当前隐藏层节点上一时刻的输出

和当前隐藏层节点上一时刻记忆单元的输出

个数据作为输入，运算后输出当前时刻当前隐藏层节点的输出

和当前时刻当前隐藏层节点记忆单元的输出

和

是H(·)计算函数在两个方向上的运用；

用于特征层上下文学习的BLSTM1与用于标签层上下文学习的BLSTM2网络参数训练均采用BPTT算法。设t时刻网络输入层向量为x(t)，隐层向量为h(t)，输出层向量为o(t)，输入层与隐层间连接矩阵为V，隐层与隐层间连接矩阵为U，隐层与输出层间连接矩阵为W，隐层与输出层的偏置分别为b和a。h^P(t)和o^P(t)分别为第p帧在t时刻的隐层变量和输出变量，δ^P(v^p(t))和δ^P(u^p(t))分别为第p帧在t时刻输出层误差反向信号变量和隐层误差反向信号向量，L_P为模型总损失，

分别为对权值W、V、U的偏导，

分别为对偏置a和b的偏导。

首先随机初始化所有权值和偏置，初始化

t＝0时定义隐层变量为0，随着时间从t＝1到T正向传播，更新第p帧在t时刻的隐层变量和输出层变量：

h^P(t)＝f(u^P(t))＝f(Vx^P(t)+Uh^P(t-1)+b)，

o^P(t)＝g(v^P(t))＝f(Wh^P(t)+a)

随着时间从t＝T到1反向传播，计算第p帧在t时刻输出层和隐藏的误差反向信号变量：

δ^P(v^P(t))＝o^P(t)-y^P(t)·g'(v^P(t)),

δ^P(u^P(t))＝[W^Tδ^P(v^P(t))]·f'(u^P(t))

更新权值W、V、U和偏置a和b的偏导：

本发明使用均方根误差、一致性相关系数作为损失函数：

特征层上下文学习阶段将注意力加权后的特征序列x'₁(x'₁,x'₂,x'₃,...,x'_T-1,x'_T)输入BLSTM1,计算输出与标签序列(y₁,y₂,y₃,...,y_T-1,y_T)之间的均方根误差作为训练时的损失函数：

本发明针对语音情感识别提出基于层级上下文和注意力机制的BLSTM模型,首先原始特征全集经过特征选择得到最优特征子集,消除高维数低层次特征的冗余性和不稳定性；然后对特征子集进行注意力加权,充分考虑输人各帧特征中的时间信息，使模型对输人层中每帧特征给予不同关注度；其次学习加权后的特征序列上下文信息得到初步情感预测结果，最后在上述初步结果基础上增加标签层上下文学习做最终识别。本发明抓住语音情感在表达过程中的连续性特点,利用BLSTM网络学习语音情感特征序列以及语音情感标签值序列两层级的上下文信息，综合考虑其差异性。实验结果表明，本文模型不仅提升了对情感语音信号的建模能力，而且有效提高了语音情感识别准确率。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内，因此，本发明的保护范围应以所述权利要求的保护范围为准。