CN108550375A

CN108550375A - 一种基于语音信号的情感识别方法、装置和计算机设备

Info

Publication number: CN108550375A
Application number: CN201810208852.8A
Authority: CN
Inventors: 张振兴; 朱攀; 司光; 范文翼; 周春姐; 刘通; 王伊蕾
Original assignee: Ludong University
Current assignee: Ludong University
Priority date: 2018-03-14
Filing date: 2018-03-14
Publication date: 2018-09-18

Abstract

本发明涉及一种基于语音信号的情感识别方法、装置和计算机设备，该方法包括：对语音输入信号进行预处理，得到由静态特征和一阶差分特征组成的混合的梅尔频率倒谱系数MFCC输入特征；将所述输入特征输入到经过语音情感训练的卷积神经网络模型中；使用所述经过语音情感训练的卷积神经网络模型作为分类器对所述输入特征进行分类，识别出与所述语音信号对应的情感。采用本发明的基于语音信号的情感识别方法，与其他基于语义、语音的情感识别方法相比，克服了识别准确率低的技术问题，可以区分不同的语音情感，且准确率令人满意；同时，根据实验结果可知，本方法具有较好的泛化能力。

Description

一种基于语音信号的情感识别方法、装置和计算机设备

技术领域

本发明涉及信号处理技术领域，尤其涉及一种基于语音信号的情感识别方法、装置和计算机设备。

背景技术

语音情感识别技术是新一代人机交互的重要技术，在驾驶员情绪监测、客户满意度测评以及心理诊断等诸多领域得到广泛应用。

针对语音情感识别问题，当前语音情感识别系统常用的分类器主要包括最近邻算法(KNN)、多层感知机(MLP)和支持向量机(SVM)等。但是传统KNN分类效率低而且KNN受数据集的影响大。除此之外，KNN也有K值难以选取，时间复杂度高、受样本平衡度的影响大等缺点。传统的SVM分类算法对大规模样本集的训练会导致系统资源占用率过高、分类速度下降等不足。MLP是一类浅层模型，受限于规模，模型的表达能力不强，无法逼近复杂的函数映射，同时受限于模型的结构，无法接受大量的特征输入，也难以应用大规模参数对特征进行拟合。由于现有分类器存在上述不足，无法满足用户的语音情感识别需求。

发明内容

为解决上述采用现有技术的分类器存在的受样本平衡度影响大、分类速度下降、难以应用大规模参数对特征进行拟合等不足的技术问题，本发明提供了一种基于语音信号的情感识别方法、装置和计算机设备。

第一方面，本发明提供了一种基于语音信号的情感识别方法，包括：

对语音输入信号进行预处理，得到由静态特征和一阶差分特征组成的混合的梅尔频率倒谱系数MFCC输入特征；

将所述输入特征输入到经过语音情感训练的卷积神经网络模型中；

使用所述经过语音情感训练的卷积神经网络模型作为分类器对所述输入特征进行分类，识别出与所述语音信号对应的情感。

本发明的有益效果是：由于采用静态特征和一阶差分特征作为输入特征，通过卷积神经网络进行分类，优势有三：其一，克服现有技术中当前大多数研究人员通过分析语义来判断说话人的情感，虽然取得了一定效果，但是从个人隐私角度看，此种方式暴露了说话人的个人信息，存在较大的安全隐患。本方法仅对语音信号进行分析，不对语义内容进行分析；其二，与其他基于语音的情感识别方法相比，克服了识别准确率低的技术问题，可以区分不同的语音情感；其三，根据实验结果可知，本方法具有较好的泛化能力。

进一步，所述语音信号通过截取一段语音信号的前1.5s语音信息获得。

采用上述进一步的方案的有益技术效果在于，对于一段小于5s的语音信号而言，语音信号的前1.5s中包含了最丰富的情感特征。通过选取前1.5s语音信号代替完整的语音信号作为输入语音信号，可以很好的提高分辨效率。

进一步，所述预处理包括：

通过一阶数字滤波器对所述语音信号进行预加重处理；

对预加重处理后的信号进行分帧处理；

对分帧处理后的信号进行加窗处理；

对加窗处理后的信号作快速傅里叶变换处理；

对快速傅里叶变换处理后的信号作梅尔Mel滤波处理；

对Mel滤波处理后的信号作离散余弦变换处理；

对离散余弦变换处理后的信号作差分MFCC处理。

采用上述进一步的方案的有益技术效果在于，对信号进行预加重可以补偿信号被压抑的高频部分，提升高频的共振峰；对信号进行加窗可以消除信号两端的不连续性，同时防止频谱能量的泄露；对信号进行快速傅里叶变换处理可以取出每一帧数据的频域成分，方便分析；对信号进行Mel滤波处理能更好的描述信号的特性；对信号进行离散余弦变换处理可以将信号的能量集中再离散余弦变换后的低频部分；对信号进行差分MFCC处理可以更好的反映信号的动态特性。

进一步，所述使用预先构建的所述卷积神经网络模型作为分类器对所述输入特征进行分类，包括：

利用第一卷积层对所述输入特征进行特征提取得到第一特征图；

利用第一池化层对所述第一特征图进行特征采样，得到第一采样结果；

利用第二卷积层对所述第一采样结果进行特征提取得到第二特征图；

利用第二池化层对所述第二特征图进行再次特征采样，得到第二采样结果；

其中，在所述第一卷积层对所述输入特征进行特征提取的过程之后，通过激活函数提高所述卷积神经网络的非线性表达能力，防止所述卷积神经网络在反向传播时梯度消失；

以及在所述第二卷积层对所述第一采样结果进行特征提取的过程之后，通过激活函数提高所述卷积神经网络的非线性表达能力，防止所述卷积神经网络在反向传播时梯度消失；

利用全连接层，通过非线性变换和拟合将再次特征采样获得的第二采样结果映射到情感类型。

采用上述进一步的方案的有益技术效果在于，采用两层卷积层，两层池化层的结构构建卷积神经网络能达到最优的效果。卷积神经网络通过卷积层实现对局部信息的提取，然后通过池化层减小参数的规模，增强模型的鲁棒性。

进一步，所述激活函数为线性整流Relu函数。

采用上述进一步的方案的有益技术效果在于，采用Relu函数为激活函数时，首先，在反向传播求梯度时，整个过程的计算量会节省很多。其次，对于深层网络，使用sigmoid函数作为激活函数时，反向传播非常容易出现梯度消失的问题，所以传统的BP神经网络一般不能超过三层，而引入Relu函数之后，它的右侧是不会饱和的，所以一般不会出现梯度消失的问题。第三，Relu函数在输入小于0的时候，会一直输出0。这就会使一部分神经元输出为0，从而使得网络具有稀疏性。

进一步的，所述利用全连接层，通过非线性变换和拟合将再次特征采样获得的第二采样结果映射到情感类型后，所述方法还包括：

利用Dropout层以概率p舍弃神经元。

采用上述进一步的技术方案的有益技术效果在于，Dropout有效的防止了大规模网络参数所带来的过拟合。

第二方面，本发明提供了一种基于语音信号的情感识别装置，该装置包括：

预处理模块用于对语音输入信号进行预处理，得到由静态特征和一阶差分特征组成的混合的梅尔频率倒谱系数MFCC输入特征；

输入模块用于将所述输入特征输入到经过语音情感训练的卷积神经网络模型中；

分类模块用于使用预先构建的所述卷积神经网络作为分类器对所述输入特征进行分类，识别出所述语音信号的情感分类。

本发明的有益效果是：由于采用静态特征和一阶差分特征作为输入特征，通过卷积神经网络进行分类，优势有三。其一，克服现有技术中当前大多数研究人员通过分析语义来判断说话人的情感，虽然取得了一定效果，但是从个人隐私角度看，此种方式暴露了说话人的个人信息，存在较大的安全隐患。本方法仅对语音信号进行分析，不对语义内容进行分析；其二，与其他基于语音的情感识别方法相比，克服了识别准确率低的技术问题，可以区分不同的语音情感；其三，根据实验结果可知，本方法具有较好的泛化能力。

进一步的，所述预处理模块包括：

预加重处理模块用于通过一阶数字滤波器对信号进行预加重处理；

分帧处理模块用于对预加重处理后的信号进行分帧处理；

加窗处理模块用于对分帧处理后的信号进行加窗处理；

快速傅里叶变换处理模块用于对加窗处理后的信号作快速傅里叶变换处理；

Mel滤波处理模块用于对快速傅里叶变换处理后的信号作Mel滤波处理；

离散余弦处理模块用于对Mel滤波处理后的信号作离散余弦变换处理；

差分MFCC处理模块用于对离散余弦变换处理后的信号作差分MFCC处理。

进一步的，所述分类模块中包括：

第一特征提取模块，用于利用第一卷积层对所述输入特征进行特征提取得到第一特征图；

第一采样模块，用于利用第一池化层对所述第一特征图进行特征采样，得到第一采样结果；

第二特征提取模块，用于利用第二卷积层对所述第一采样结果进行特征提取得到第二特征图；

第二采样模块，用于利用第二池化层对所述第二特征图进行再次特征采样，得到第二采样结果；

激活模块，用于在所述第一卷积层对所述输入特征进行特征提取的过程之后，通过激活函数提高所述卷积神经网络的非线性表达能力，防止所述卷积神经网络在反向传播时梯度消失，

全连接模块，用于利用全连接层，通过非线性变换和拟合将再次特征采样获得的第二采样结果映射到情感类型。

采用上述进一步方案的有益技术效果在于，采用两层卷积层，两层池化层的结构构建卷积神经网络能达到最优的效果。卷积神经网络通过卷积层实现对局部信息的提取，然后通过池化层减小参数的规模，增强模型的鲁棒性。

第三方面，本发明提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

本发明的有益效果是：

(1)由于采用静态特征和一阶差分特征作为输入特征，通过卷积神经网络进行分类，克服现有技术中采用主观判断进行分类，判断准确率低的技术问题。可以完美的区分不同情感，而非通过语义区分情感，而且具有非常强的泛化能力。

(2)引入了Dropout有效防止了大量网络参数带来的过拟合，减小了计算量。

(3)使用卷积神经网络作为分类器受数据集的影响小。

附图说明

图1为本发明实施例提供的一种基于语音信号的情感识别方法的流程示意图；

图2为本发明实施例提供的一种基于语音信号的情感识别方法的预处理的流程示意图；

图3为本发明实施例提供的一种基于语音信号的情感识别方法的Dropout层的示意图；

图4为本发明实施例提供的一种基于语音信号的情感识别装置结构示意图；

图5为本发明实施例提供的一种基于语音信号的情感识别装置的预处理模块的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透切理解本发明。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

图1为本发明实施例提供的一种基于语音信号的情感识别方法的流程示意图。

如图1所示，该方法包括：

步骤110，对语音输入信号进行预处理，得到由静态特征和一阶差分特征组成的混合的梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients)MFCC输入特征。

静态特征包括：MFCC的高阶系数和低阶系数。

优选地，语音输入信号通过截取一段语音信号的前1.5s语音信息获得。

因为对于一段小于5s的语音信号而言，语音信号的前1.5s中包含了最丰富的情感特征。通过选取前1.5s语音信号代替完整的语音信号作为输入语音信号，可以很好的提高分辨效率。

MFCC是一种基于人类听觉系统提出的谱相关的特征提取方法，在语音识别领域被广泛应用。但是大多数研究人员在应用MFCC特征时，只是提取了MFCC参数的统计特征例如，MFCC的最大值、最小值、中值、平均值、均方差、方差等。并没有使用静态的MFCC特征，更没有使用静态的MFCC特征及其一阶差分特征(动态特征)的混合特征，作为分类器的输入特征，输入到分类器中，对分类模型进行训练。因为梅尔滤波器在高频区域会变得稀疏，所以以往的研究者一般会舍弃高阶MFCC特征，但是高频区域的特征对识别结果也有很大的贡献。另外，标准的MFCC参数只反映了语音的静态特性，但是语音是一个动态变换的过程，所以有必要提取其差分特征。

步骤120，将所述输入特征输入到经过语音情感训练的卷积神经网络模型中。

步骤130，使用所述经过语音情感训练的卷积神经网络模型作为分类器对所述输入特征进行分类，识别出与所述语音信号对应的情感。

本发明使用26个梅尔滤波器对经过预处理的语音信号进行滤波，获得其频域特征，然后对数据进行一阶差分运算，获得其动态特性，这样本发明提取MFCC的低阶特征和高阶特征以及MFCC的一阶差分特征，组成混合MFCC特征作为深度卷积神经网络的输入，利用CASIA数据集中的语音信号作为训练集，对深度卷积神经网络进行训练，取得了较高的识别率，得到了令人满意的语音情感识别模型。

由于采用静态特征和一阶差分特征作为输入特征，通过卷积神经网络进行分类，克服现有技术中采用主观进行分类，准确率低的技术问题。可以完美的区分不同情感，而非主观的根据语义区分情感，而且具有非常强的泛化能力。

图2为本发明提供的一种基于语音信号的情感识别方法中，对语音信号进行预处理的流程示意图。

如图2所示，预处理包括：

步骤s111，采用一阶数字滤波器进行预加重处理；

一般采取一阶数字滤波器对音频进行预加重处理。

其中，s(n)是原始输入语音信号，s_p(n)是预加重之后的语音信号，μ通常取0.97。

预加重的目的主要是为了补偿语音信号被压抑的高频部分，提升高频的共振峰。

步骤s112，对预加重处理后的信号进行分帧处理；

将语音信号按照帧长为25ms帧移为10ms的原则进行分帧。

步骤s113，对分帧处理后的信号进行加窗处理；

使用汉明窗对每一帧信号进行加窗。

语音信号是一种典型的非平稳信号，只有在非常短的时间内(一般是25ms)才可以看作平稳随机过程，使用谱分析的相关方法对其进行研究。对信号加窗可以消除信号两端的不连续性，同时防止频谱能量的泄露。汉明窗因为低通特性平滑和旁瓣高度低而被广泛应用。

汉明窗时域表达式由下式给出

其中，N代表整个信号的完整长度。W(n)代表汉明窗的窗函数名字，n指的是窗口的长度(或者称为窗口的范围)

这样，原来的语音信号s_p(n)被分为很多帧，分别为s_i(n),i＝1,2,3…。

步骤s114，对加窗处理后的信号作快速傅里叶变换处理；

通过快速傅里叶变换取出每一帧数据的频域成分，方便分析。

其中:

s_i(n)是分帧之后第i帧信号；

K表示K点傅里叶变换；

N表示一帧信号的长度；

S_i(k)为第i帧信号的离散傅里叶变换；

w(n)为窗函数；

n为窗口长度；

j为虚数单位。

由于傅里叶变换是对称的，所以通常取前N/2+1个结果。

每一帧信号的能量谱估计由下式给出：

N表示一帧信号的长度。S_i(k)表示第i帧信号的离散傅里叶变换、P_i(k)表示第i帧信号的功率谱。

步骤s115，对快速傅里叶变换处理后的信号作Mel滤波处理；

通常使用26个三角形带通滤波器构成一个Mel滤波器组。

首先给出Mel频率与Hz的对应关系：

其中f_mel表示梅尔频率，f_hz表示普通的频率。

相邻滤波器交叉重叠，中心频率在Mel频率域等间隔分布，滤波器组在频域覆盖从0Hz到奈奎斯特频率。三角滤波器的频率响应为：

其中，m代表第m个梅尔滤波器，k代表频率。H_m(k)是梅尔滤波器组的频率响应函数，

使用梅尔频率刻度的滤波器组H_m(k)对每一帧信号的功率谱P_i(k)进行滤波操作，得到每一帧信号在不同频率上的能量分布。由于人耳对声音的感知并不是线性的，用对数函数这种非线性关系更好描述。对结果取完对数以后才可以进行倒谱分析。

步骤s116，对Mel滤波处理后的信号作离散余弦变换处理；

在对语音、图像信号变换的确定的变换矩阵正交变换中，离散余弦变换被认为是一种准最佳变换。这是由于离散余弦变换具有很强的"能量集中"特性:大多数的自然信号(包括声音和图像)的能量都集中在离散余弦变换后的低频部分。

其中：

u是表示数据进行离散余弦变换之后的变量，u的取值从0到N-1，N与梅尔滤波器的个数相同。式中F(u)为离散余弦变换后的函数、i为原函数的自变量、f(i)表示原函数。

由于相邻的Mel滤波器是重叠的，所以计算出的结果彼此之间具有很强的相关性。使用离散余弦变换可以去相关，降低信息的冗余。

步骤s117，对离散余弦变换处理后的信号作差分MFCC处理。

标准的倒谱参数MFCC仅仅反映了语音参数的静态特性，但语音信号是一个动态的过程，语音的动态特性可以用静态特征的差分来描述：

其中，d_t是第t帧的差分MFCC特征，c_t+n是第t+n帧静态MFCC特征，c_t-n是第t-n帧静态MFCC特征，N为总帧数。

将静态MFCC(包含高阶、低阶)和一阶差分MFCC组合，作为混合的MFCC特征作为预处理的混合MFCC数据特征。

所述使用预先构建的所述卷积神经网络模型作为分类器对所述输入特征进行分类训练，包括：

利用第一卷积层对输入特征进行特征提取得到第一特征图；

利用第一池化层对第一特征图进行特征采样，得到第一采样结果；

利用第二卷积层对第一采样结果进行特征提取得到第二特征图；

利用第二池化层对第二特征图进行再次特征采样，得到第二采样结果；

第一特征图和第二特征图为特征图featuremap，使用一个神经元(即滤波器)与输入特征的卷积得到。

第一采样结果和第二采样结果为特征采样后的特征。

其中，在第一卷积层对输入特征进行特征提取的过程之后，通过激活函数提高所述卷积神经网络的非线性表达能力，防止所述卷积神经网络在反向传播时梯度消失，

以及在第二卷积层对第一采样结果进行特征提取的过程之后，通过激活函数提高所述卷积神经网络的非线性表达能力，防止所述卷积神经网络在反向传播时梯度消失；

在构建卷积神经网络时，本发明采用2层卷积层、2层池化层，池化层还可以采用3层、4层或5层，但经过实验效果分析得知2层池化层的效果最优。

优选地，采用卷积核大小为3×3的第一卷积层和卷积核大小为2×2的第二卷积层以及池化窗口大小为2×2的第一池化层和第二池化层构建卷积神经网络。

激活函数为线性整流Relu函数。

采用Relu函数作为激活函数具有以下三点好处：

首先，在反向传播求梯度时，整个过程的计算量会节省很多。其次，对于深层网络，使用sigmoid函数作为激活函数时，反向传播非常容易出现梯度消失的问题，而引入Relu函数之后，它的右侧是不会饱和的，所以一般不会出现梯度消失的问题。第三，Relu函数在输入小于0的时候，会一直输出0。这就会使一部分神经元输出为0，从而使得网络具有稀疏性。

优选地，利用全链接层，通过非线性变换和拟合将再次特征采样获得的第二采样结果映射到情感类型后，上述方法还包括：

利用Dropout层以概率p舍弃神经元。

Dropout以概率p舍弃神经元，其他神经元以概率q＝1-p保留，每个神经元被关闭的概率是相等的。

假设神经网络输入的特征(静态特征和一阶差分特征)为x，权值为W，偏置为b：

h(x)＝xW+b

其中：

对h(x)施加一激活函数得到神经元的输出：

a＝σ(h)

其中，σ是sigmoid激活函数，a就是神经元的输出。

Dropout就是要在训练过程中将神经元随机丢弃：

f(h)＝D⊙σ(h)，

其中：

D＝(d₁,d₂,…d_m)是m维的伯努利变量，其具有以下的概率分布：

综上，将Dropout作用于第i个神经元上：

其中P(d_i＝1)＝p。

参照图3，被丢弃的神经元在训练过程中不管是向前传播还是反向传播都不会有任何贡献，在每一轮训练中，都好像是在训练一个新的神经网络。

采用Dropout有效的防止了大量网络参数带来的过拟合，有效的减小了神经网络整体的计算量。

优选地，利用Dropout层以概率p舍弃神经元后，上述方法还包括：

利用softmax层输出情感分类的结果。即利用softmax层输出自然、高兴、悲伤和愤怒四种情感之一的分类结果。

本发明在传统的卷积神经网络CNN上，使用relu函数替代了sigmod激活函数，从而达到了快速收敛的效果；在传统卷积神经网络上加入dropout层，解决了过度拟合问题。基于以上改进的卷积神经网络，本专利将其应用到了语音情感识别领域中，并得到了让人满意的分类识别结果。

以下结合本发明的一个具体实施例的模型同采用现有技术的一种

MFCCG-PCA模型进行对比说明。

分别使用liuchang、zhaozuoxiang和zhaoquanyin的6种感情，每种感情前200条语音作为训练集，后100条作为测试集，表1为使用本文所提模型与MFCCG-PCA模型的对比。

表1不同说话人独立识别两种模型性能对比

通过表1可以看出，本发明实施例所提模型(卷积神经网络)与MFCCG-PCA模型相比准确率有较大提升。

使用说话人liuchang录制的6种感情，前200条语音作为训练集1，6种感情后100条作为测试集1；使用说话人liuchang录制的6种感情，后200条语音作为训练集2，前100条语音作为测试集2，实验结果如表2所示。

表2同一说话人不同语料上模型识别性能

实验使用说话人liuchang和zhaozuoxiang录制的6中情感，每种情绪前200条作为训练集1，每种情绪后100条作为测试集1。使用说话人liuchang、zhaozuoxiang和zhaoquanyin录制的6中情感，每种情绪前200条作为训练集，每种情绪后100条作为测试集。对比在混合条件下，两种模型的性能。结果见表3。

表3不同说话人混合两种模型性能对比

表3表明，在混合的条件下，本文所提模型(卷积神经网络)比

MFCCG-PCA模型有较好的识别率。

通过采用本发明实施例的模型和MFCCG-PCA模型的对比可知，本发明所提模型在语音情感识别上拥有更高的准确率，克服了现有技术判断准确率低的技术问题，同时本发明的模型可以较完美的区分不同情感，而非通过语义区分情感，而且具有非常强的泛化能力。

相应地，本发明实施例还提供了一种基于语音信号的情感识别装置。具体如图3所示，该装置包括：

预处理模块100用于对语音输入信号进行预处理，得到由静态特征和一阶差分特征组成的混合的梅尔频率倒谱系数MFCC输入特征；

输入模块200用于将输入特征输入到经过语音情感训练的卷积神经网络模型中；

分类模块300用于使用预先构建的所述卷积神经网络作为分类器对输入特征进行分类，识别出语音信号的情感分类。

图4为本发明实施例提供的一种基于语音信号的情感识别装置的预处理模块的结构示意图，如图4所示：

预处理模块100包括：

预加重处理模块101用于通过一阶数字滤波器对信号进行预加重处理；

分帧处理模块102用于对预加重处理后的信号进行分帧处理；

加窗处理模块103用于对分帧处理后的信号进行加窗处理；

快速傅里叶变换处理模块104用于对加窗处理后的信号作快速傅里叶变换处理；

Mel滤波处理模块105用于对快速傅里叶变换处理后的信号作Mel滤波处理；

离散余弦处理模块106用于对Mel滤波处理后的信号作离散余弦变换处理；

差分MFCC处理模块107用于对离散余弦变换处理后的信号作差分MFCC处理。

分类模块300中包括：

第一特征提取模块，用于利用第一卷积层对输入特征进行特征提取得到第一特征图；

第一采样模块，用于利用第一池化层对第一特征图进行特征采样，得到第一采样结果；

第二特征提取模块，用于利用第二卷积层对第一采样结果进行特征提取得到第二特征图；

第二采样模块，用于利用第二池化层对第二特征图进行再次特征采样，得到第二采样结果；

激活模块，用于在第一卷积层对输入特征进行特征提取的过程之后，通过激活函数提高所述卷积神经网络的非线性表达能力，防止所述卷积神经网络在反向传播时梯度消失，

全链接模块，利用全连接层，通过非线性变换和拟合将再次特征采样获得的第二采样结果映射到情感类型。

该装置中的各部件所执行的功能均已经在上述实施例一种基于语音信号的情感识别方法中做了详细的介绍，这里不再赘述。

相应地，本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行所述计算机程序时实现上述方法的步骤。

读者应理解，在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于语音信号的情感识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述语音输入信号通过截取一段语音信号的前1.5s的语音信息获得。

3.根据权利要求1所述的方法，其特征在于，所述预处理包括：

对所述语音信号进行预加重处理；

对预加重处理后的信号进行分帧处理；

对分帧处理后的信号进行加窗处理；

对加窗处理后的信号作快速傅里叶变换处理；

对快速傅里叶变换处理后的信号作梅尔Mel滤波处理；

对Mel滤波处理后的信号作离散余弦变换处理；

对离散余弦变换处理后的信号作差分MFCC处理。

4.根据权利要求1所述的方法，其特征在于，所述使用所述经过语音情感训练的卷积神经网络模型作为分类器对所述输入特征进行分类，包括：

利用第二池化层对所述第二特征图进行特征采样，得到第二采样结果；

其中，在所述第一卷积层对所述输入特征进行特征提取之后，通过激活函数提高所述卷积神经网络的非线性表达能力，防止所述卷积神经网络在反向传播时梯度消失；

以及在所述第二卷积层对所述第一采样结果进行特征提取之后，通过激活函数提高所述卷积神经网络的非线性表达能力，防止所述卷积神经网络在反向传播时梯度消失；

5.根据权利要求4所述的方法，其特征在于，所述激活函数为线性整流Relu函数。

6.根据权利要求4所述的方法，其特征在于，所述利用全连接层，通过非线性变换和拟合将再次特征采样获得的第二采样结果映射到情感类型后，所述方法还包括：

利用Dropout层以概率p舍弃神经元。

7.一种基于语音信号的情感识别装置，其特征在于，所述装置包括：

分类模块用于使用所述经过语音情感训练的所述卷积神经网络模型作为分类器对所述输入特征进行分类，识别出与所述语音信号对应的情感。

8.根据权利要求7所述的装置，其特征在于，所述预处理模块包括：

预加重处理模块，用于通过一阶数字滤波器对所述语音信号进行预加重处理；

分帧处理模块，用于对预加重处理后的信号进行分帧处理；

加窗处理模块，用于对分帧处理后的信号进行加窗处理；

快速傅里叶变换处理模块，用于对加窗处理后的信号作快速傅里叶变换处理；

Mel滤波处理模块，用于对快速傅里叶变换处理后的信号作Mel滤波处理；

离散余弦处理模块，用于对Mel滤波处理后的信号作离散余弦变换处理；

差分MFCC处理模块，用于对离散余弦变换处理后的信号作差分MFCC处理。

9.根据权利要求7所述的装置，其特征在于，所述分类模块包括：

第二采样模块，用于利用第二池化层对所述第二特征图进行特征采样，得到第二采样结果；

激活模块，用于在所述第一卷积层对所述输入特征进行特征提取之后，通过激活函数提高所述卷积神经网络的非线性表达能力，防止所述卷积神经网络在反向传播时梯度消失，

全链接模块，用于利用全连接层，通过非线性变换和拟合将再次特征采样获得的第二采样结果映射到情感类型。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-6任一项所述方法的步骤。