CN108899049A

CN108899049A - 一种基于卷积神经网络的语音情感识别方法及系统

Info

Publication number: CN108899049A
Application number: CN201810571892.9A
Authority: CN
Inventors: 刘振焘; 曹卫华; 吴敏; 徐建平; 胡旭晨; 毛俊伟
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2018-05-31
Filing date: 2018-05-31
Publication date: 2018-11-27

Abstract

本发明提出了一种基于卷积神经网络的语音情感识别方法及系统。所述方法先对获取的语音信号进行预处理，再利用语谱图以时频域形式将语音信号进行显示，随后利用卷积神经网络进行特征提取，提取过程主要分为卷积过程，再进行池化过程，可根据实际信号特点和特征提取需求多次卷积与池化，得到特征图之后再用分类器进行情感特征分类，输出语音情感识别结果，本发明方法既可以保持情感特征提取的准确性，也可以保证系统识别的实时性。

Description

一种基于卷积神经网络的语音情感识别方法及系统

技术领域

本发明涉及语音情感识别领域，尤其涉及到一种基于卷积神经网络的语音情感识别方法及系统。

背景技术

自然和谐的人机交互中，机器应该能理解人的情感和意图，对不同人、不同环境、不同任务都能给予不同的反馈，那么机器如果能拥有像人与人一样可以方便与人自然交流的“能力”，就必须要解决如何更好理解交流中的情感问题，而这正是“情感智能(EmotionalIntelligence)”所需要解决的，情感智能可以理解为情感的准确识别和反馈能力。

目前，应用于人类情感识别研究的检测信息包括语音、面部表情、生理信号、肢体语言等。语音信号是人与人之间沟通最快且最自然的方法，语音情感识别研究对促进和谐人机交互意义重大。

语音情感由一些语音参数表征，然而这些特征参数内在的复杂性决定了情感特征提取的困难。国内外研究者们从语音学和也理学方面对情感特征进行了大量的研究。一般提取的情感特征主要分为韵律特征、音质特征和谱特征。韵律特征被认为是主要的语音情感参数，反映的是"唤醒度"信息。人类语言的时常、语调、轻重各不相同，这些韵律特征的变化构成了美妙的语言。常见韵律特征有基频、时长、能量等，韵律特征的统计特征分析着眼于整体语音,反映出一段时间之上韵律参数的变化规律。在Basque情感数据上，Luengo等人研究发现能量的平均值、方差、能量对数和基频对数的动态变化范围、基频均值和对数斜交共6个特征是最具有情感区分能力的特征。Origlia等人提取基频和能量相关的共31维韵律特征在多个语音情感数据库上取得了很好的识别率。而Ilion使用35个韵律特征在berlin库上取得了51％的识别率。

目前国内很多研究人员进行了语音情感识别领域的研究。研究人员基于传统的基频、共振峰、MFCC(Mel-Frequency Cepstral Coefficients)等特征构建了一系列的人工特征。提取这些人工特征以及它们的统计特征，构成一个情感特征集，应用特征PCA(Principal Component Analysis)、LDA(Linear Discriminant Analysis)等特征选择方法对特征集进行选择和降维，得到与情感相关性较高的语音情感特征子集，采用支持向量机、BP神经网络等对特征子集进行分类得到语音情感。

传统的情感识别方案通常是从语音信号这些原始数据中提取语音特征。这类语音特征是人工设计的，这类特征存在以下缺点：

(1)人工设计特征的过程非常复杂,并且十分依赖工程经验；

(2)人工选择的特征通常仅针对特定数据有效,不能适应待处理数据特征的变化；

(3)人工设计的特征表达能力有限,不能精确描述数据中隐含的复杂特征和抽象特征，存在一定的偏差；

(4)人工设计的特征提取器无法提取目标的所有特征,这一非完备性会造成特征鉴别能力的大幅下降。

相比传统机器学习算法设计难度和使用难度,深度学习在特征提取方面具有明显的优势。深度学习相关的特征选择算法可以从随机初始化的特征中,根据损失函数自动调整特征参数,实现特征学习。同时，根据特征在测试集中的重要程度自动调整特征权重,完成特征选择，从而最终学习并选择出最能代表数据本质特征的特征模式,提高系统对于数据的鉴别力。

发明内容

本发明针对传统的人工设计的语音特征的缺陷，提出了一种基于卷积神经网络的语音情感识别方法及系统，所述方法包含以下步骤：

S1、获取输入的语音信号x(t)，并对所述语音信号x(t)进行预处理，获得预处理后的语音信号x′_d(n)；

S2、将预处理后的语音信号x′_d(n)进行语谱图绘制，获得以频域信号X_d(k)显示的语谱图；

S3、构建卷积神经网络模型，对S2输出的以频域信号X_d(k)显示的语谱图进行特征提取，获得语音信号特征图；

S4、构建分类器SVM模型，所述分类器SVM模型包含K个SVM二分类器，SVM二分类器的模型表达式为其中K为预设的情感类别数量，C>0，C是惩罚系数，ω和b是超平面的参数，ωx_i+b表示语音信号特征图中样本点x_i到超平面距离，即分类间隔；y_i为语音样本的情感标签。

S5、利用所述构建的分类器SVM模型对步骤S3得到的语音信号特征图进行识别，输出情感特征分类结果既当分类间隔ωx_k+b最大值时，获得的分类器编号k，从而获得第k个分类器对应的语音情感。

在本发明的一种基于卷积神经网络的语音情感识别方法中，步骤S1包含以下步骤：

S11、将获取的语音信号x(t)进行采样和量化，以完成语音信号的采样和AD转换；

S12、将采样和量化后的语音信号采用一阶FIR高通数字滤波器进行预加重处理，获得预加重后的语音信号x(m)；

S13、根据表达式将预加重后的语音信号进行分帧加窗处理；

其中，x(m)为预加重后的语音信号，x′_d(n)为分帧加窗后的语音信号，ω(n)是窗函数，N为窗宽，

在本发明的一种基于卷积神经网络的语音情感识别方法中，步骤S2包含以下步骤：

S21、应用傅里叶变换k＝0,1,...,N-1对预处理后的语音信号x′_d(n)进行变换，得到语音信号x′_d(n)的频域信号X_d(k)，其中，d表示第d帧语音信号，N表示信号每一帧的长度，X_d(k)表示傅里叶变换后的语音频域信号；

S22、根据公式L＝20log₁₀(|X_d(k)|)计算傅里叶变换后的语音频域信号X_d(k)的幅值，并对所述幅值进行归一化处理，将信号幅值绘制成语谱图。

在本发明的一种基于卷积神经网络的语音情感识别方法中，步骤S3包含以下步骤：

S30、语谱图矩阵获取：根据S2得到的语谱图中一帧信号的幅值构成一个向量，多帧信号的幅值向量组成一个幅值矩阵，将所述幅值矩阵中的各个元素线性映射到[0,1]内，所述元素值构成了语谱图矩阵I；

S31、卷积层处理：将语谱图矩阵I与卷积核进行运算，得到卷积层对应的特征图；卷积过程为其中I为语谱图矩阵，K表示卷积核，M和N表示卷积核的宽度和高度；

S32、池化层处理：将卷积层对应的特征图作为池化层的输入，采用最大池化方法经过池化操作后产生一个对应的池化层的特征图；

S33、全连接层处理：对卷积层和池化层输出的特征图进行映射，实现非线性变换，获得语音信号特征图。

在本发明的一种基于卷积神经网络的语音情感识别方法中，步骤S4中构建分类器SVM模型中的语音样本点情感标签函数具体为：

对于第k个SVM分类器，将语音样本点的情感标签yi设置为1，其余语音样本点的情感标签yi设置为-1，从而将每个二类分类器属于第k类的语音样本点从其他类中分离出来。

本发明还提供了一种基于卷积神经网络的语音情感识别系统，包含以下模块：

语音预处理模块，用于获取输入的语音信号x(t)，并对所述语音信号x(t)进行预处理，获得预处理后的语音信号x′_d(n)；

语谱图获取模块，用于将预处理后的语音信号x′_d(n)进行语谱图绘制，获得以频域信号X_d(k)显示的语谱图；

卷积神经网络处理模块，用于构建卷积神经网络模型，对语谱图获取模块输出的以频域信号X_d(k)显示的语谱图进行特征提取，获得语音信号特征图；

分类器构建模块，用于构建分类器SVM模型，所述分类器SVM模型包含K个SVM二分类器，SVM二分类器的模型表达式为其中K为预设的情感类别数量，C>0，C是惩罚系数，ω和b是超平面的参数，ωx_i+b表示数据点x_i到超平面距离，即分类间隔；y_i为语音样本点情感标签函数。

情感特征分类模块，用于利用所述构建的分类器SVM模型对分类器构建模块得到的语音信号特征图进行识别，输出情感特征分类结果既当分类间隔ωx_k+b最大值时，获得的分类器编号k，从而获得第k个分类器对应的语音情感。

在本发明的一种基于卷积神经网络的语音情感识别系统中，语音预处理模块包含以下子模块：

采样量化模块，用于将获取的语音信号x(t)进行采样和量化，以完成语音信号的采样和AD转换；

预加重模块，用于将采样和量化后的语音信号采用一阶FIR高通数字滤波器进行预加重处理，获得预加重后的语音信号x(m)；

分帧和加窗模块，用于根据表达式将预加重后的语音信号进行分帧加窗处理；

其中，x(m)为预加重后的语音信号，x′_d(n)为分帧加窗后的语音信号，ω(n)是窗函数，

N为窗宽，

在本发明的一种基于卷积神经网络的语音情感识别系统中，语谱图获取模块包含以下子模块：

语音频域信号转换模块，用于应用傅里叶变换k＝0,1,...,N-1对预处理后的语音信号x′_d(n)进行变换，得到语音信号x′_d(n)的频域信号X_d(k)，其中，d表示第d帧语音信号，N表示信号每一帧的长度，X_d(k)表示傅里叶变换后的语音频域信号；

语谱图绘制模块，用于根据公式L＝20log₁₀(|X_d(k)|)计算傅里叶变换后的语音频域信号X_d(k)的幅值，并对所述幅值进行归一化处理，将信号幅值绘制成语谱图。

在本发明的一种基于卷积神经网络的语音情感识别系统中，卷积神经网络处理模块包含以下子模块：

语谱图矩阵获取模块，用于将语谱图绘制模块到的语谱图中一帧信号的幅值构成一个向量，多帧信号的幅值向量组成一个幅值矩阵，将所述幅值矩阵中的各个元素线性映射到[0,1]内，所述元素值构成了语谱图矩阵I。

卷积层处理模块，用于将语谱图矩阵I与卷积核进行运算，得到卷积层对应的特征图；卷积过程为其中I为语谱图矩阵，K表示卷积核，M和N表示卷积核的宽度和高度；

池化层处理模块，用于将卷积层对应的特征图作为池化层的输入，采用最大池化方法经过池化操作后产生一个对应的池化层的特征图；

全连接层处理模块，用于对卷积层和池化层输出的特征图进行映射，实现非线性变换，获得语音信号特征图。

在本发明的一种基于卷积神经网络的语音情感识别系统中，所述分类器构建模块还包含：

语音样本点情感标签函数构建模块，用于建立SVM二分类器模型语音样本点情感语音样本点情感标签函数：

对于第k个SVM分类器，将语音样本点情感标签yi设置为1，其余语音样本点情感标签yi设置为-1，从而将每个二类分类器属于第k类的语音样本点从其他类中分离出来。

本发明方法有益效果在于：

(1)卷积神经网络算法可以让模型根据语音数据的隐含特点,自主的选择做需要的特征,不需要人工设计模式特征,对专业经验的依赖性较小；

(2)卷积神经网络算法将特征学习的过程融入到了模型建立的过程，二者在训练过程中同时完成，除学习率等全局参数外，不需要额外进行调试；

(3)卷积神经网络算法能够在训练过程中，根据误差函数梯度的变化，自主选择最有鉴别力的特征，从而避免了手动设计特征时的不完备性和偏差；

采用卷积神经网络进行特征提取，既可以保持情感特征提取的准确性，也可以保证系统识别的实时性。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明实施例方法流程图；

图2是本发明实施例卷积神经网络模型结构图；

图3是本发明实施例卷积过程示例；

图4是本发明实施例池化过程示例；

图5是本发明实施例多分类SVM分类器结构图。

具体实施方式

为了对发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

参考图1，本发明提出了一种基于卷积神经网络的语音情感识别方法及系统，所述方法包含以下步骤：

S4、构建分类器SVM模型，所述分类器SVM模型包含K个SVM二分类器，SVM二分类器的模型表达式为其中K为预设的情感类别数量，C>0，C是惩罚系数，ω和b是超平面的参数，ωx_i+b表示语音信号特征图中样本点x_i到超平面距离，即分类间隔；y_i为语音样本点情感标签函数，从而获得第k个分类器对应的语音情感。

S5、利用所述构建的分类器SVM模型对步骤S3得到的语音信号特征图进行识别，输出情感特征分类结果既当分类间隔ωx_k+b最大值时，获得的分类器编号k。

日常生活中的语音信号是一段连续的模拟语音信号，在计算机对语音信号处理前需要对模拟信号进行采样和量化，将语音信号转化为数字信号，该过程称为A/D转换过程。采样是对语音信号x(t)以周期T进行采样，将其转换为离散信号x(n)，F＝1/T为采样频率。根据奈奎斯特采样定律，采样频率F应该不小于原始语音信号频率的两倍，以防止信号失真。在对信号进行采样后，需要进行量化处理。量化是把离散信号转化为数字信号。AD采样芯片的位数决定了量化精度。语音情感数据库中的语音信号一般是以16位精度来对语音信号进行处理的。

从发声器官发出来的语音信号会有一定的衰减。声门激励和口鼻辐射会使声音信号的800Hz以上的高频部分以6dB/倍频程的速度衰减，语音信号将发声变化，高频部分幅度会减小。为了消除这一影响，需要对语音信号进行预加重处理。常用的预加重方法是用一个一阶的FIR高通数字滤波器进行处理，其传递函数为

H(z)＝1-αz^-1

其中，α是预加重系数，其取值在0.9～1之间。

S13、将预加重后的语音信号进行分帧和加窗；语音信号是一个时变的信号，但是发声器官的震动具有周期性，短时间内发声器官的变化是平稳的，因此语音信号可以认为是短时平稳的信号，一般而言，在10～30ms内的语音信号具有短时平稳性，信号段内的各个语音参数基本保持不变。分帧过程是将一段连续的语音信号分割为一段段短时的语音信号，然后在短时语音段上提取语音情感特征。为了消除帧起始和连续端的不连续性，分帧后的信号需要进行加窗处理，分帧加窗过程根据表达式进行分帧加窗处理；其中，x(m)为预加重后的语音信号，x′_d(n)为分帧加窗后的语音信号，ω(n)是窗函数，

N为窗宽，

在本发明的一种基于卷积神经网络的语音情感识别方法中，步骤S3中的卷积神经网络的基本结构包括输入层(Input Layer)、卷积层(Convolutional Layer)、全连接层(Fully Connected Layer)、输出层(Output Layer)。图2为卷积神经网络的基本结构，一般包含多组(根据数据特征确定具体组数)卷积层和池化层(以卷积层+池化层为一组)以组成更深层次的网络。包含以下步骤：

S30、语谱图矩阵获取：根据S2得到的语谱图中一帧信号的幅值构成一个向量，多帧信号的幅值向量组成一个幅值矩阵，将所述幅值矩阵中的各个元素线性映射到[0,1]内，所述元素值构成了语谱图矩阵I。

S31、卷积层处理：卷积层包含多个特征图(Feature Map)。每个特征图是输入图像和卷积核进行卷积运算得到的。卷积神经网络中包含多个卷积层，高层卷积层的输入来自底层卷积层的输出。输入图像经过不断的卷积运算过程，最终形成高阶的抽象特征。将语谱图矩阵I与卷积核进行运算，得到卷积层对应的特征图；

卷积过程为其中I为语谱图矩阵，K表示卷积核，M和N表示卷积核的宽度和高度；卷积核有3个重要的参数：卷积核个数、卷积核大小、卷积步长。输入图像与一个卷积核进行卷积运算可以形成一个特征图。在一个卷积层中，往往需要多个特征图来表征更多的抽象特征，因此需要设置多个卷积核，输入图像的大小一般比卷积核的尺寸大，因此卷积核需要在输入图像上不断滑动完成卷积运算过程，卷积步长是卷积核每次移动的步长。图3是一个卷积过程的示例；

S32、池化层处理：池化层一般连接在卷积层之后，卷积层的输出作为池化层的输入，卷积层的输出经过池化操作后对应产生一个池化层的特征图。池化过程有2个重要参数：池化核的大小，池化步长。池化核的大小表现池化的范围，通常输入图像比池化核大，需要设置池化步长。池化层的主要目的是特征降维，常用的池化方法为最大池化方法。取卷积核大小范围内的数据，以最大值作为输出。以图4(a)为例，池化核大小为2*2，取2*2范围内的数据，最大值7作为池化操作的输出。图4是一次完整的池化操作的示例。将卷积层对应的特征图作为池化层的输入，采用最大池化方法经过池化操作后产生一个对应的池化层的特征图；

S33、全连接层处理：全连接层一般连接在卷积层和池化层之后。它的结构与MLP类似，下一层神经元与当前神经元进行全连接，全连接层能够对卷积层和池化层输出的特征图进行映射进行处理。由于全连接层的参数数量巨大，在训练数据不足的情况下容易出现过拟合的情况。为了避免过拟合现象，在全连接层中间采取dropout方法。模型训练过程中会随机去掉全连接层之间的部分连接，这使得模型的复杂度降低，模型的变化增强，同时模型能够学习到更多更有效的特征。对卷积层和池化层输出的特征图进行映射，实现非线性变换，获得语音信号特征图。

在本发明的一种基于卷积神经网络的语音情感识别方法中，步骤S4包含：

构建SVM二分类器模型：线性不可分SVM的模型如下所示：

s.t.y_i(ωx_i+b)≥1-ξ_i,i＝1,2,L,M

ξ_i≥0,i＝1,2,L,M

其中，C>0，C是惩罚系数，ξ_i是松弛因子，ω和b是超平面的参数，M是样本点的个数，ωx_i+b表示样本点到超平面距离，即分类间隔。对目标函数最小化，可以求得一组最优的参数。

上述模型中存在着约束条件，属于带有约束条件的优化模型，这给模型的求解带来了困难。无约束的优化模型求解较为简单，为了将原模型转化为无约束的优化模型，将约束条件进一步用合页损失函数(Hinge Loss Function)表示，

H＝max(0,1-y_i(ωx_i+b))

将合页损失函数带入目标函数中可以得到无约束条件的模型，

由于上式中惩罚项为一次函数，故上述模型也称为L1SVM模型。L1SVM模型求导过程复杂，实际中将惩罚项换为二次函数，得到L2SVM模型，见图5，L2SVM模型表达式为

其中C>0，C是惩罚系数，ω和b是超平面的参数，ωx_i+b表示语音信号特征图中样本点x_i到超平面距离，即分类间隔；yi为语音样本点情感标签函数；N＞1，表示样本点个数；

其中，由于语音中包含多类情感，需要设计一个多分类器来识别多类情感。这里采用一对多SVM分类器设计方法。若实际情感类别数量为K，则设计K个SVM二分类器，每个二分类器中的样本点情感标签函数划分如下，

对于第k个SVM分类器，将样本点情感标签yi设置为1，其余样本点情感标签yi设置为-1，从而将每个二类分类器将属于第k类的样本从其他类中分离出来。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种基于卷积神经网络的语音情感识别方法，其特征在于，包含以下步骤：

S4、构建分类器SVM模型，所述分类器SVM模型包含K个SVM二分类器，SVM二分类器的模型表达式为其中K为预设的情感类别数量，C>0，C是惩罚系数，ω和b是超平面的参数，ωx_i+b表示语音信号特征图中样本点x_i到超平面距离，即分类间隔；y_i为语音样本点情感标签函数；

2.根据权利要求1所述一种基于卷积神经网络的语音情感识别方法，其特征在于，步骤S1包含以下步骤：

S13、根据表达式将预加重后的语音信号进行分帧加窗处理；

其中，x(m)为预加重后的语音信号，x′_d(n)为分帧加窗后的语音信号，ω(n)是窗函数，N为窗宽。

3.根据权利要求1所述一种基于卷积神经网络的语音情感识别方法，其特征在于，步骤S2包含以下步骤：

S21、应用傅里叶变换k＝0,1,...,N-1对预处理后的语音信号x′_d(n) 进行变换，得到语音信号x′_d(n)的频域信号X_d(k)，其中，d表示第d帧语音信号，N表示信号每一帧的长度，X_d(k)表示傅里叶变换后的语音频域信号；

4.根据权利要求1所述一种基于卷积神经网络的语音情感识别方法，其特征在于，步骤S3包含以下步骤：

5.根据权利要求1所述一种基于卷积神经网络的语音情感识别方法，其特征在于，步骤S4中构建分类器SVM模型中的语音样本点情感标签函数具体为：

6.一种基于卷积神经网络的语音情感识别系统，其特征在于，包含以下模块：

分类器构建模块，用于构建分类器SVM模型，所述分类器SVM模型包含K个SVM二分类器，SVM二分类器的模型表达式为其中K为预设的情感类别数量，C>0，C是惩罚系数，ω和b是超平面的参数，ωx_i+b表示数据点x_i到超平面距离，即分类间隔；y_i为语音样本点情感标签函数；

7.根据权利要求6所述一种基于卷积神经网络的语音情感识别系统，其特征在于，语音预处理模块包含以下子模块：

8.根据权利要求6所述一种基于卷积神经网络的语音情感识别系统，其特征在于，语谱图获取模块包含以下子模块：

9.根据权利要求6所述一种基于卷积神经网络的语音情感识别系统，其特征在于，卷积神经网络处理模块包含以下子模块：

语谱图矩阵获取模块，用于将语谱图获取模块到的语谱图中一帧信号的幅值构成一个向量，多帧信号的幅值向量组成一个幅值矩阵，将所述幅值矩阵中的各个元素线性映射到[0,1]内，所述元素值构成了语谱图矩阵I；

10.根据权利要求6所述一种基于卷积神经网络的语音情感识别系统，其特征在于，所述分类器构建模块还包含：