CN109243491B

CN109243491B - 在频谱上对语音进行情绪识别的方法、系统及存储介质

Info

Publication number: CN109243491B
Application number: CN201811183893.2A
Authority: CN
Inventors: 刘博卿; 贾雪丽; 王健宗; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-10-11
Filing date: 2018-10-11
Publication date: 2023-06-02
Anticipated expiration: 2038-10-11
Also published as: WO2020073665A1; CN109243491A

Abstract

本发明涉及人工智能技术领域，提供一种在频谱上对语音进行情绪识别的方法、系统及存储介质，其中方法包括：对语音进行预处理；对预处理后的语音进行频谱计算，获取频谱值；对频谱值进行归一化处理；采用深度网络神经对经过归一化处理的频谱值进行情绪识别，获取情绪识别结果。利用本发明，能够解决目前对语音进行的情绪识别率低、延时以及对未知环境噪音的鲁棒性差等问题。

Description

在频谱上对语音进行情绪识别的方法、系统及存储介质

技术领域

本发明涉及人工智能技术领域，更为具体地，涉及一种在频谱上利用深度学习对语音进行情绪识别的方法、装置、系统及存储介质。

背景技术

情感计算的情绪识别是情感计算的一个重要组成部分，情绪识别研究的内容包括面部表情、语音、心率、行为、文本和生理信号识别等方面，通过以上内容来判断用户的情绪状态。其中，对语音进行的情绪识别可以被应用到很多方面，比如：人机交互，可以通过电子老师让电子学习变得更高效。

目前的一些困难与挑战有：提高识别率，降低延迟，提高对未知环境噪音的鲁棒性；其中，传统语音情绪识别的方法包括：首先对短时间的语音进行特征提取，然后在语句层面对其进行信息提取，最后再进行分类或者回归。近几年的方法是采用深度学习来进行上面所述步骤。虽然基于梅尔的频谱在语音识别上取得了很好的结果，但他去掉了一些音高的信息，但音高会反映情绪的信息，故采用基于梅尔的频谱(Mel-Frequency CepstralCoefficients，简称MFCC)在语音识别会丢失一些音高所反映的情绪信息。

因此，为了解决目前对语音进行的情绪识别率低、延时以及对未知环境噪音的鲁棒性差等问题，本发明提供了一种在频谱上对语音进行情绪识别的方法、装置、系统及存储介质。

发明内容

鉴于上述问题，本发明的目的是提供一种在频谱上对语音进行情绪识别的方法、装置、系统及存储介质，采用代表语音谐波结构的线性频谱，实现高精度的情绪识别系统，同时降低延时性，增强对环境噪音的鲁棒性。

第一方面，本发明提供一种在频谱上对语音进行情绪识别的方法，应用于电子装置，包括：

对语音进行预处理；

对预处理后的语音进行频谱计算，获取频谱值，其中，采用重叠的海宁窗口对每一个子句进行操作，其中，窗移10毫秒，窗口大小20毫秒，

对于每一音频帧，计算一个维度为800、网格分辨率为20Hz的离散傅里叶变换值，其中，所述离散傅里叶变换值即为频谱值，

将通过计算获得每一个子句的频谱值聚合在一起，形成一个N×M的矩阵，其中，根据语音句子的长度，N<＝300，根据选定的频率网格分辨率，M＝200；

对所述频谱值进行归一化处理；

采用深度网络神经对经过归一化处理的频谱值进行情绪识别，获取情绪识别结果。。

第二方面，本发明还提供一种电子装置，该电子装置包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如上述在频谱上对语音进行情绪识别的方法的步骤。

第三方面，本发明还提供一种在频谱上对语音进行情绪识别的系统，包括：

语音预处理单元，用于对语音进行预处理；

频谱值获取单元，用于对预处理后的语音进行频谱计算，获取频谱值；其中，所述频谱值获取单元包括：

海宁窗口处理模块，用于采用重叠的海宁窗口对每一个子句进行操作，其中，窗移10毫秒，窗口大小20毫秒；

子句频谱值获取模块，用于对于每一帧，计算一个维度为800、网格分辨率为20Hz的离散傅里叶变换值，其中，所述离散傅里叶变换值即为频谱值；

整句频谱值获取单元，用于将通过计算获得每一个子句的频谱值聚合在一起，形成一个N×M的矩阵，其中，

根据语音句子的长度，N<＝300，根据选定的频率网格分辨率，M＝200；

数据归一化处理单元，用于对所述频谱值进行归一化处理；

情绪识别获取单元，用于采用深度网络神经对经过归一化处理的频谱值进行情绪识别，获取情绪识别结果。

第四方面，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中包括计算机程序，所述计算机程序被处理器执行时，实现如上述所述的在频谱上对语音进行情绪识别的方法的步骤。

从上面的技术方案可知，本发明提供的在频谱上利用深度学习对语音进行情绪识别的方法、装置、系统及存储介质，通过对语音进行频谱计算，并利用深度网络神经对经过频谱计算的语音进行情绪识别，从而解决传统的方法对语音情绪识别存在识别率低、延时，以及对未知环境噪音的鲁棒性差等问题。

为了实现上述以及相关目的，本发明的一个或多个方面包括后面将详细说明的特征。下面的说明以及附图详细说明了本发明的某些示例性方面。然而，这些方面指示的仅仅是可使用本发明的原理的各种方式中的一些方式。此外，本发明旨在包括所有这些方面以及它们的等同物。

附图说明

通过参考以下结合附图的说明，并且随着对本发明的更全面理解，本发明的其它目的及结果将更加明白及易于理解。在附图中：

图1为根据本发明实施例的在频谱上对语音进行情绪识别的方法流程图；

图2-1为根据本发明实施例的对预处理后的语音进行频谱计算流程示意图；

图2-2为根据本发明实施例的对频谱值进行归一化处理流程示意图；

图3为根据本发明实施例的在频谱上对语音进行情绪识别的系统逻辑结构框图；

图4为根据本发明实施例的电子装置逻辑结构示意图。

在所有附图中相同的标号指示相似或相应的特征或功能。

具体实施方式

在下面的描述中，出于说明的目的，为了提供对一个或多个实施例的全面理解，阐述了许多具体细节。然而，很明显，也可以在没有这些具体细节的情况下实现这些实施例。

以下将结合附图对本发明的具体实施例进行详细描述。

实施例1

为了说明本发明提供的在频谱上对语音进行情绪识别的方法，图1示出了根据本发明实施例的在频谱上对语音进行情绪识别的方法流程。

如图1所示，本发明提供的在频谱上对语音进行情绪识别的方法包括：

S110：对语音进行预处理；

在步骤S110中，语音是指IEMOCAP数据库的语音，里面的语音采样频率是16kHz，每一个句子时长从1秒到20秒不等，并且每一个句子都有一个情绪的标签。

对语音进行预处理就是将每一个长于3秒的句子分成基本上等长小于3秒的子句，每一个子句的标签和整个句子的标签一样的；每个句子可以分成若干个子句，并且子句情绪的标签于整句的情绪标签一致，当对整句的预测进行评估时，同时对子句计算后概率的平均值，从而在一定程度上解决延时的问题。

S120：对预处理后的语音进行频谱计算，获取频谱值。

可以理解地，频谱是指一个时域的信号在频域下表示方式，可以针对语音信号进行傅立叶变换而得，所得的结果会是以分别以振幅及相位为纵轴，频率为横轴的两张图，不过有时也会省略相位的资讯，只有不同频率下对应振幅的资料。有时也以“振幅频谱”表示振幅随频率变化的情形，“相位频谱”表示相位随频率变化的情形，简单来说，频谱可以表示一个讯号是由哪些频率的弦波所组成。在本实施例的采用对语音信号进行频谱计算，从而得到语音的傅立叶变换值，进一步获取语音的情绪特征，情绪特征是用于体现语音数据中用词的词性特征，包括但不限于本实施例中的高兴词和悲伤词。词性特征与其他语音特征结合，有利于识别语音数据对应的说话人的情绪。

具体地，预处理后的语音是指将整句分成小于等于3秒的若干子句；计算若干子句的频谱，将所有的子句的频谱合在一起，形成一个频谱矩阵(N×M)。如图2-1所示，对预处理后的语音进行频谱计算流程如下：

S121：采用重叠的海宁窗口对预处理后的语音信号(小于等于3秒的子句)进行操作，其中，窗移10毫秒，窗口大小20毫秒。

S122：对于每一音频帧，计算一个维度是800、网格分辨率为20Hz的离散傅里叶变换(DFT，Discrete Fourier Transformation)值，DFT值就是频谱值；其中，只考虑0-4kHz的语音，忽略别的频率的语音。

S123：将每个整句的所有子句的频谱都合到一起，会得到一个N×M的矩阵，其中，根据整句的语音句子的长度，得到N<＝300；根据选定的频率网格分辨率得到M＝200。

信号x[n]的N-点DFT的公式如下：

其中，x[n]为预处理后的语音信号。

S130：对频谱值进行归一化处理。

具体地，在本实施例中，如图2-2所示，对频谱值进行归一化处理的过程如下：

S131：将频谱值转为能量频谱对数值；

S132：采用经验值E_noise对所述能量频谱对数值进行限制，即：能量频谱对数值减去经验值E_noise；

S133：采用归一化使得能量频谱对数值减去经验值E_noise的方差为1。

其中，在采用经验值E_noise对所述能量频谱对数值进行限制中，E_noise是对语音进行静音检测，提取出200小时的静音部分(包括噪音部分)，对这些静音/噪音同样进行第一步(S110步骤)和第二步S120(步骤)的操作，之后把得到的DFT数据同样转为能量频谱的对数形式dB，对这些数值进行平均得到E_noise。

归一化公式为：

式中，X是音频信号。

其中，在本发明的一个具体的实施例中，在将频谱值转为能量频谱对数值的过程中，首先，采用开源的音高检测器，获取语音每帧的基音频率；然后，对于每一个非静音的帧，经过噪音滤波器，获取改进版的能量频谱对数值。

改进版的能量频谱对数值公式为：

S(f)＝E(f)–0.5*(1–cos(2πf/F₀))*D(f)

其中，S(f)为改进过的短时能量频谱对数值；E(f)是短时频谱包络；

F₀为基音频率；D(f)从20dB@0Hz到12dB@4KHz是线性的；

F为频率，0≤f≤4KHz。

也就是说，对预处理后的语音进行频谱计算的过程具体包括对预处理后的语音数据进行采用重叠的海宁窗口处理，对处理后的语音数据进行分帧、加窗运算，然后通过傅里叶变换以获取上述的语音特征；再将上述语音特征进行归一化处理作为输入深度神经网络模型进行情绪识别。

其中，神经网络的输入是定长的，因为在第二步(步骤S120)中语音句子的长度N<＝300，因此将每个语音句子的长度都定为300，所以对不足300个时间点的语音用填0的方法来满足需求。

S140：采用深度网络神经对经过归一化处理的频谱值进行情绪识别，获取情绪识别结果。

具体地，将经过归一化处理的频谱值输入卷积神经网络(Convolutional NeuralNetwork，CNN)，并将卷积神经网络的输出作为长短期记忆网络(LSTM，Long Short-TermMemory)的输入，从而对语音进行情绪识别，得到情绪识别的结果。

其中，卷积神经网络是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现，它包括卷积层(convolutional layer)和池化层(pooling layer)。

CNN的基本结构包括两层，其一为特征提取层，每个神经元的输入与前一层的局部接受域相连，并提取该局部的特征。一旦该局部特征被提取后，它与其它特征间的位置关系也随之确定下来；其二是特征映射层，网络的每个计算层由多个特征映射组成，每个特征映射是一个平面，平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数，使得特征映射具有位移不变性。

LSTM(Long Short-Term Memory)是长短期记忆网络，是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。基于LSTM的系统可以学习翻译语言、控制机器人、图像分析、文档摘要、语音识别图像识别、手写识别、控制聊天机器人、预测疾病、点击率和股票、合成音乐等任务。在本发明的实施例中，采用长短期记忆网络对语音进行识别，从而得出情绪识别的结果。

其中，表1示出了在本发明的实施例中卷积神经网络和长短期记忆网络训练学习的过程。

表1

输入：频谱200300(4000Hz3sec)
	卷积层1:16个滤波器，大小为1216(240Hz160sec)
最大化2:1 100*150
	卷积层2:24个滤波器，大小为812(320Hz240sec)
最大化2:1 50*75
	卷积层3:32个滤波器，大小为57(400Hz280sec)
最大化2:1 25*37
	LSTM：双向，128*2
稠密层：长度64
	Dropout:长度64
SOFT-MAX:长度
	输出：4个后验概率

如表1所示，将4000Hz*3sec的频谱输入到卷积神经网络，分别在卷积神经网络的第一卷积层(16个滤波器，大小为12*16)、第一池化层(2:1100*150)、第二卷积层(24个滤波器，大小为8*12)、第二池化层(2:1 50*75)、第三卷积层(32个滤波器，大小为5*7)、第三池化层(2:1 25*37)进行训练学习，并提取语音特征，将提取的语音特征在长短期记忆网络进行继续学习，最后输出四个后验概率。

在本发明的实施例中，通过卷积神经网络对输入的语音频谱进行训练，并对训练语音数据进行情绪标注，以使训练语音数据携带情绪标签；然后对携带情绪标签的训练语音数据进行特征提取，获取携带情绪标签的训练语音特征；然后在采用长短期记忆网络对携带情绪标签的训练语音特征进行学习训练，将高兴、愤怒、悲伤、烦噪和平静等情绪对应的特征从训练语音特征中提取出来，从而获取对应的情绪识别结果，并将情绪识别结果从输出层输出。

在上述方法对在语音进行情绪识别，并获得情绪识别的结果，下面将介绍对情绪识别的结果进行评估。一般来说，对情绪识别的结果有两个评估标准，这两个标准作为模型的评估标准，分别为整体正确率和类正确率。其中，整体正确率是指每个句子都有相同的权重，评估整体正确率的公式为：

/>

假设有N个句子，分别为：

其中/>

代表句子s_n的情绪被识别对了，/>

代表句子s_n的情绪没有被识别对。

类正确率是指首先对每个情绪计算正确率，然后再做平均。

假设有K个情绪e₁，e₂，…，e_K，在对句子进行情绪识别后每个句子都会有一个情绪的标签e_k。比如：句子s₁，s₃，s₅，s₆被识别后的情绪的标签为e₂，其中s₁，s₃，s₆的真实情绪是e₂，但s₅的真实的情绪应该为e₁，所以有三个情绪识别的结果是正确的，一个情绪识别的结果是错误的，所以e₂这个类的准确率就是3/4。对每一个类都算出这样一个准确率，然后再作平均就能得到总体的类正确率。

另外，在本发明的一个具体的实施例中，在噪音环境下进行情绪识别时，可以直接从log频谱中移除噪音，这样做的优点是不需要提前知道噪音的来源，除此之外如何处理噪音非常大的情况，比如性噪比为0dB的情况。在本发明的实施例中，有两种方式，具体为：

第一方式：带噪信号→带噪频谱(不加噪音滤波器)→正常的预测器

第二方式：带噪信号→改进过的频谱(加噪音滤波器)→改进过的预测器

其中，第二种方式进行语音识别的过程如下：首先用一个开源的音高检测器，获取语音每帧的基音频率。然后，对于每一个非静音的帧，产生一个改进版的能量频谱对数值(加入噪音滤波器)：

S(f)＝E(f)–0.5*(1–cos(2πf/F0))*D(f)

其中，S(f)是改进过的短时能量频谱对数值；E(f)是短时频谱包络；

F0是基音频率；D(f)从20dB@0Hz到12dB@4KHz是线性的；

f是频率，0<＝f<＝4KHz。

用7种不同的噪音信号：三个音乐信号和四个人群噪音；用IEMOCAP的数据训练两个预测器：正常的预测器(深度学习神经网络，3层卷积层以及LSTM 10Hz网格分辨率，输入的频谱值不是改进过的频谱值)和改进过的预测器(和正常深度学习神经网络相似，但是输入的频谱值为用改进过的频谱值来进行训练的)；然后将把噪音加到语音上，信噪比设为0dB，然后用这两个预测器来处理有噪音的信号，处理过程如下所示：

带噪信号→带噪频谱→正常的预测器

带噪信号→改进过的频谱→改进过的预测器

通过上述两种方式获取的语音情绪识别结果，通过对情绪识别结果进行评估后，可以得知，采用第二种方式对语音进行识别，其真确率会更准确，因此，当噪音非常大的情况下，可以采用第二种方式对语音进行识别。

本发明实施例提供的在频谱上对语音进行情绪识别的方法，对语音进行预处理；对预处理后的语音进行频谱计算，获取频谱值；对频谱值进行归一化处理；采用深度网络神经对经过归一化处理的频谱值进行情绪识别，获取情绪识别结果。采用代表语音谐波结构的线性频谱，实现高精度的情绪识别，同时提高识别率，降低延时性，增强对环境噪音的鲁棒性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

实施例2

与上述方法相对应，本发明还提供一种在频谱上对语音进行情绪识别的系统，图3示出了根据本发明实施例的在频谱上对语音进行情绪识别的系统逻辑结构。

如图3所示，本发明提供一种在频谱上对语音进行情绪识别的系统300，包括：语音预处理单元310、频谱值获取单元320、数据归一化处理单元330和情绪识别获取单元340。其中，语音预处理单元310、频谱值获取单元320、数据归一化处理单元330和情绪识别获取单元340的实现功能与实施例中频谱上对语音进行情绪识别的对应的步骤一一对应，为避免赘述，本实施例不一一详述。

语音预处理单元310，用于对语音进行预处理；

频谱值获取单元320，用于对预处理后的语音进行频谱计算，获取频谱值；

数据归一化处理单元330，用于对频谱值进行归一化处理；

情绪识别获取单元340，用于采用深度网络神经对经过归一化处理的频谱值进行情绪识别，获取情绪识别结果。

优选地，语音预处理单元310在对语音进行预处理的过程中，在语音数据库中，每一个语音句子时长从1秒到20秒不等，每一个句子均有一个情绪的标签；将每一个长于3秒的语音句子分成等于小于3秒的子句，并且每一个子句的标签于整句的标签相同。

优选地，频谱值获取单元320包括：海宁窗口处理模块321、子句频谱值获取模块322和整句频谱值获取单元323。

其中，海宁窗口处理模块321，用于采用重叠的海宁窗口对每一个子句进行操作，其中，窗移10毫秒，窗口大小20毫秒；

子句频谱值获取模块322，用于对于每一帧，计算一个维度为800、网格分辨率为20Hz的离散傅里叶变换值，其中，所述离散傅里叶变换值即为频谱值；

整句频谱值获取单元323，用于将通过计算获得每一个子句的频谱值聚合在一起，形成一个N×M的矩阵，其中，

根据语音句子的长度，N<＝300，根据选定的频率网格分辨率，M＝200。

优选地，数据归一化处理单元330包括：能量频谱对数值转化模块331、能量频谱对数值限制模块332和方差获取模块333。

其中，能量频谱对数值转化模块331，用于将频谱值转为能量频谱对数值；

能量频谱对数值限制模块332，用于采用经验值E_noise对能量频谱对数值进行限制，即：能量频谱对数值减去经验值E_noise；

方差获取模块333，用于采用归一化使得能量频谱对数值减去经验值E_noise的方差为1。

优选地，能量频谱对数值转化模块331包括基音频率获取单元3311和改进版的能量频谱对数值单元3312。

其中，基音频率获取单元3311，用于采用开源的音高检测器，获取语音每帧的基音频率；

改进版的能量频谱对数值单元3312，用于对于每一个非静音的语音帧，经过噪音滤波器，获取改进版的能量频谱对数值。

优选地，情绪识别获取单元340包括卷积神经网络训练模块341和卷积神经网络训练模块341。

其中，卷积神经网络训练模块341，用于将经过归一化处理的频谱值输入卷积神经网络，并进行训练；

长短期记忆网络训练模块342，用于将卷积神经网络的输出作为长短期记忆网络的输入，从而对语音进行情绪识别，得到情绪识别的结果。

本发明实施例提供的在频谱上对语音进行情绪识别的系统，语音预处理单元310，用于对语音进行预处理；频谱值获取单元320，用于对预处理后的语音进行频谱计算，获取频谱值；数据归一化处理单元330，用于对频谱值进行归一化处理；情绪识别获取单元340，用于采用深度网络神经对经过归一化处理的频谱值进行情绪识别，获取情绪识别结果。采用代表语音谐波结构的线性频谱，实现高精度的情绪识别，同时提高识别率，降低延时性，增强对环境噪音的鲁棒性。

实施例3

图4是本发明一实施例提供的电子装置逻辑结构的示意图。如图4所示，该实施例的电子装置40包括处理器41、存储器42以及存储在存储器42中并可在处理器41上运行的计算机程序43。处理器41执行计算机程序43时实现实施例1中在频谱上对语音进行情绪识别的方法的各个步骤，例如图1所示的步骤S110至S140。或者，处理器41执行在频谱上对语音进行情绪识别的方法时实现上述各装置实施例中各模块/单元的功能，例如图3所示的语音预处理单元310、频谱值获取单元320、数据归一化处理单元330和情绪识别获取单元340。

示例性的，计算机程序43可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器42中，并由处理器41执行，以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序43在电子装置40中的执行过程。例如，情绪识别程序23可以被分割成实施例2中的语音预处理单元310、频谱值获取单元320、数据归一化处理单元330和情绪识别获取单元340，其功能作用在实施例2中有详细描述，在此不一一赘述。

电子装置40可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。电子装置40可包括，但不仅限于，处理器41、存储器42。本领域技术人员可以理解，图2仅仅是电子装置40的示例，并不构成对电子装置40的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如电子装置还可以包括输入输出设备、网络接入设备、总线等。

所称处理器41可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器42可以是电子装置40的内部存储单元，例如电子装置40的硬盘或内存。存储器42也可以是电子装置40的外部存储设备，例如电子装置40上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器42还可以既包括电子装置40的内部存储单元也包括外部存储设备。存储器42用于存储计算机程序以及电子设备所需的其他程序和数据。存储器42还可以用于暂时地存储已经输出或者将要输出的数据。

实施例4

本实施例提供一计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现实施例1中在频谱上对语音进行情绪识别的方法，为避免重复，这里不再赘述。或者，该计算机程序被处理器执行时实现实施例2中在频谱上对语音进行情绪识别的系统中各模块/单元的功能，为避免重复，这里不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种在频谱上对语音进行情绪识别的方法，应用于电子装置，其特征在于，包括：

对语音进行预处理；

将通过计算获得每一个子句的频谱值聚合在一起，形成一个N×M的矩阵，其中，根据语音句子的长度，N<＝300，根据选定的频率网格分辨率，M＝200，其中，只考虑0-4kHz的语音，忽略别的频率的语音；

对所述频谱值进行归一化处理；

采用深度网络神经对经过归一化处理的频谱值进行情绪识别，获取情绪识别结果；

在对所述频谱值进行归一化处理的过程中，

首先，将所述频谱值转为能量频谱对数值；

然后，采用经验值E_noise对所述能量频谱对数值进行限制，即：所述能量频谱对数值减去经验值E_noise；

最后，采用归一化使得所述能量频谱对数值减去经验值E_noise的方差为1。

2.根据权利要求1所述的在频谱上对语音进行情绪识别的方法，其特征在于，在对语音进行预处理的过程中，

在语音数据库中，每一个语音句子时长从1秒到20秒不等，每一个句子均有一个情绪的标签；

将每一个长于3秒的语音句子分成等于小于3秒的子句，并且每一个子句的标签于整句的标签相同。

3.根据权利要求1所述的在频谱上对语音进行情绪识别的方法，其特征在于，在将所述频谱值转为能量频谱对数值的过程中，

首先，采用开源的音高检测器，获取语音每帧的基音频率；

然后，对于每一个非静音的帧，经过噪音滤波器，获取改进版的能量频谱对数值。

4.根据权利要求1所述的在频谱上对语音进行情绪识别的方法，其特征在于，在采用深度网络神经对经过归一化处理的频谱值进行情绪识别，获取情绪识别结果过程中，

将经过归一化处理的频谱值输入卷积神经网络，并将所述卷积神经网络的输出作为长短期记忆网络的输入，从而对语音进行情绪识别，得到情绪识别的结果。

5.一种电子装置，该电子装置包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述在频谱上对语音进行情绪识别的方法的步骤。

6.一种在频谱上对语音进行情绪识别的系统，其特征在于，包括：

语音预处理单元，用于对语音进行预处理；

根据语音句子的长度，N<＝300，根据选定的频率网格分辨率，M＝200，其中，只考虑0-4kHz的语音，忽略别的频率的语音；

数据归一化处理单元，用于对所述频谱值进行归一化处理；

情绪识别获取单元，用于采用深度网络神经对经过归一化处理的频谱值进行情绪识别，获取情绪识别结果；

所述数据归一化处理单元包括：

能量频谱对数值转化模块，用于将频谱值转为能量频谱对数值；

能量频谱对数值限制模块，用于采用经验值E_noise对能量频谱对数值进行限制，即：能量频谱对数值减去经验值E_noise；

方差获取模块，用于采用归一化使得能量频谱对数值减去经验值E_noise的方差为1。

7.根据权利要求6所述的在频谱上对语音进行情绪识别的系统，其特征在于，所述能量频谱对数值转化模块包括：

基音频率获取单元，用于采用开源的音高检测器，获取语音每帧的基音频率；

改进版的能量频谱对数值单元，用于对于每一个非静音的语音帧，经过噪音滤波器，获取改进版的能量频谱对数值。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括计算机程序，所述计算机程序被处理器执行时，实现如权利要求1至4中任一项所述的在频谱上对语音进行情绪识别的方法的步骤。