CN113327630B

CN113327630B - 语音情绪识别方法、装置、设备及存储介质

Info

Publication number: CN113327630B
Application number: CN202110583786.4A
Authority: CN
Inventors: 顾艳梅; 马骏; 王少军
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2023-05-09
Anticipated expiration: 2041-05-27
Also published as: CN113327630A

Abstract

本发明涉及人工智能领域，公开了一种语音情绪识别方法、装置、设备及存储介质。该方法包括：获取待识别情绪的语音信号，并提取语音信号中的情绪特征，其中，情绪特征包括基频特征、能量特征和频谱特征；采用预置神经网络模型提取情绪特征中的帧间基频信息、帧间能量信息和帧间频谱信息；根据目标场景的预置特征影响力度，对帧间基频信息、帧间能量信息和帧间频谱信息进行特征融合，得到语音融合特征；将语音融合特征输入预置分类器中，并通过分类器对语音信号进行分类，得到语音信号对应的语音情绪。本发明针对不同领域进行语音情绪识别，细分语音中描述情绪的复合特征，以提升语音情绪识别的准确性。

Description

语音情绪识别方法、装置、设备及存储介质

技术领域

本发明涉及人工智能领域，尤其涉及一种语音情绪识别方法、装置、设备及存储介质。

背景技术

语音情绪识别一直是研究的热点问题。人类在认知大千世界的时候，会产生多种情绪，比如喜怒哀乐等个人主观的情绪体验，我们将人对外界世界或者事物的真实态度体验感受及相应的行为称之为情绪；不同领域对情绪的定义也不相同，因为情绪是有机整体的一种复合状态，所以比较难以界定每种情绪的界限。

近几年随着深度神经网络发展迅速，在语音情绪识别的技术上多数还是采用特征加分类器的方法进行处理；传统的语音识别方法多通过提取语音的低维度特征，比如基频，能量，MFCC等语音特征，直接输入到深度网络中做分类任务；由于低维度特征混合输入会导致部分特征之间信息冗余，也无法将对情绪影响大的特征进行权重设置，即现有语音情绪识别方法的识别复合细粒度还不够小。

发明内容

本发明的主要目的在于解决现有语音情绪识别方法的识别复合细粒度还不够小的技术问题。

本发明第一方面提供了一种语音情绪识别方法，包括：获取待识别情绪的语音信号，并提取所述语音信号中的情绪特征，其中，所述情绪特征包括基频特征、能量特征和频谱特征；采用预置神经网络模型提取所述情绪特征中的帧间基频信息、帧间能量信息和帧间频谱信息；根据目标场景的预置特征影响力度，对所述帧间基频信息、所述帧间能量信息和所述帧间频谱信息进行特征融合，得到语音融合特征；将所述语音融合特征输入预置分类器中，并通过所述分类器对所述语音信号进行分类，得到所述语音信号对应的语音情绪。

可选的，在本发明第一方面的第一种实现方式中，所述神经网络模型包含第一神经网络、第二神经网络和第三神经网络，所述采用预置神经网络模型提取所述情绪特征中的帧间基频信息、帧间能量信息和帧间频谱信息包括：采用所述第一神经网络识别所述基频特征中各帧语音的前后基频信息，并对所述前后基频信息进行反向传播，得到所述基频特征中的帧间基频信息；采用所述第二神经网络识别所述能量特征中各帧语音的前后能量信息，并对所述前后能量信息进行反向传播，得到所述能量特征中的帧间能量信息；采用所述第三神经网络识别所述频谱特征中各帧语音的前后频谱信息，并对所述前后频谱信息进行反向传播，得到所述频谱特征中的帧间频谱信息。

可选的，在本发明第一方面的第二种实现方式中，所述采用所述第一神经网络识别所述基频特征中各帧语音的前后基频信息包括：将所述基频特征中各帧语音对应的时域转化为频域，得到所述基频特征对应基频序列；将所述基频序列随机划分为多帧基频区域，并确定每个基频区域的最大频率点；依次采用各帧基频区域的前后基频区域对当前帧基频区域进行平滑处理，得到各帧基频区域对应的频率分布；将各帧基频区域对应的频率分布输入所述第一神经网络，并通过所述第一神经网络识别所述基频特征中各帧语音的前后基频信息。

可选的，在本发明第一方面的第三种实现方式中，所述采用所述第二神经网络识别所述能量特征中各帧语音的前后能量信息包括：根据所述能量特征中携带的时间戳，将所述能量特征中各帧语音转化为语音能量序列，并对所述语音能量序列进行向量化处理；将向量化处理后的语音能量序列输入所述第二神经网络中，并通过所述第二神经网络识别所述能量特征中各帧语音的前后能量信息。

可选的，在本发明第一方面的第四种实现方式中，所述采用所述第三神经网络识别所述频谱特征中各帧语音的前后频谱信息包括：依次提取所述频谱特征中各帧语音的前后预设数量帧的初始频谱信息；依次采用各帧语音的前后预设数量帧的初始频谱信息计算当前帧对应的均值矢量和方差矢量；对各帧语音对应的均值矢量和方差矢量进行对数域转换，并采用第三神经网络对转换后的均值矢量和方差矢量进行识别，得到各帧语音的前后频谱信息。

可选的，在本发明第一方面的第五种实现方式中，所述根据目标场景的预置特征影响力度，对所述帧间基频信息、所述帧间能量信息和所述帧间频谱信息进行特征融合，得到语音融合特征包括：根据目标场景的预置特征影响力度，调整所述帧间基频信息对应的基频权重、所述帧间能量信息对应的能量权重和所述帧间频谱信息对应的频谱权重；通过所述基频权重、所述能量权重和所述频谱权重，对所述帧间基频信息、帧间能量信息和所述帧间频谱信息进行加和处理，得到语音融合特征。

本发明第二方面提供了一种语音情绪识别装置，包括：提取模块，用于获取待识别情绪的语音信号，并提取所述语音信号中的情绪特征，其中，所述情绪特征包括基频特征、能量特征和频谱特征；识别模块，用于提取所述情绪特征中的帧间基频信息、帧间能量信息和帧间频谱信息；融合模块，用于根据目标场景的预置特征影响力度，对所述帧间基频信息、所述帧间能量信息和所述帧间频谱信息进行特征融合，得到语音融合特征；分类模块，用于将所述语音融合特征输入预置分类器中，并通过所述分类器对所述语音信号进行分类，得到所述语音信号对应的语音情绪。

可选的，在本发明第二方面的第一种实现方式中，所述神经网络模型包含第一神经网络、第二神经网络和第三神经网络，所述识别模块包括：基频识别单元，用于采用所述第一神经网络识别所述基频特征中各帧语音的前后基频信息，并对所述前后基频信息进行反向传播，得到所述基频特征中的帧间基频信息；能量识别单元，用于采用所述第二神经网络识别所述能量特征中各帧语音的前后能量信息，并对所述前后能量信息进行反向传播，得到所述能量特征中的帧间能量信息；频谱识别单元，用于采用所述第三神经网络识别所述频谱特征中各帧语音的前后频谱信息，并对所述前后频谱信息进行反向传播，得到所述频谱特征中的帧间频谱信息。

可选的，在本发明第二方面的第二种实现方式中，所述基频识别单元还用于：将所述基频特征中各帧语音对应的时域转化为频域，得到所述基频特征对应基频序列；将所述基频序列随机划分为多帧基频区域，并确定每个基频区域的最大频率点；依次采用各帧基频区域的前后基频区域对当前帧基频区域进行平滑处理，得到各帧基频区域对应的频率分布；将各帧基频区域对应的频率分布输入所述第一神经网络，并通过所述第一神经网络识别所述基频特征中各帧语音的前后基频信息。

可选的，在本发明第二方面的第三种实现方式中，所述能量识别单元还用于：根据所述能量特征中携带的时间戳，将所述能量特征中各帧语音转化为语音能量序列，并对所述语音能量序列进行向量化处理；将向量化处理后的语音能量序列输入所述第二神经网络中，并通过所述第二神经网络识别所述能量特征中各帧语音的前后能量信息。

可选的，在本发明第二方面的第四种实现方式中，所述频谱识别单元还用于：依次提取所述频谱特征中各帧语音的前后预设数量帧的初始频谱信息；依次采用各帧语音的前后预设数量帧的初始频谱信息计算当前帧对应的均值矢量和方差矢量；对各帧语音对应的均值矢量和方差矢量进行对数域转换，并采用第三神经网络对转换后的均值矢量和方差矢量进行识别，得到各帧语音的前后频谱信息。

可选的，在本发明第二方面的第五种实现方式中，所述融合模块包括：调整单元，用于根据目标场景的预置特征影响力度，调整所述帧间基频信息对应的基频权重、所述帧间能量信息对应的能量权重和所述帧间频谱信息对应的频谱权重；融合单元，用于通过所述基频权重、所述能量权重和所述频谱权重，对所述帧间基频信息、帧间能量信息和所述帧间频谱信息进行加和处理，得到语音融合特征。

本发明第三方面提供了一种语音情绪识别设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述语音情绪识别设备执行上述的语音情绪识别方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的语音情绪识别方法。

本发明提供的技术方案中，通过获取需要识别情绪的语音信号，然后将语音信号中描述情绪的情绪特征提取出来，比如基频特征、能量特征、频谱特征，然后通过一个神经网络模型识别出基频特征中的帧间基频信息、能量特征中帧间能量信息、以及频谱特征中帧间频谱信息，即不仅识别每帧语音的情绪信息，还对各帧语音的前后情绪信息进行识别，得到的情绪信息更能准确表达整体语音信号的情绪；接着将不同类型的情绪信息进行融合，结合不同维度的情绪信息后进行情绪类别的区分，得到的语音情绪类别更准确。

附图说明

图1为本发明实施例中语音情绪识别方法的第一个实施例示意图；

图2为本发明实施例中语音情绪识别方法的第二个实施例示意图；

图3为本发明实施例中语音情绪识别方法的第三个实施例示意图；

图4为本发明实施例中语音情绪识别装置的一个实施例示意图；

图5为本发明实施例中语音情绪识别装置的另一个实施例示意图；

图6为本发明实施例中语音情绪识别设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种语音情绪识别方法、装置、设备及存储介质，通过获取待识别情绪的语音信号，并提取语音信号中的情绪特征，其中，情绪特征包括基频特征、能量特征和频谱特征；采用预置神经网络模型提取所述情绪特征中的帧间基频信息、帧间能量信息和帧间频谱信息；根据目标场景的预置特征影响力度，对帧间基频信息、帧间能量信息和帧间频谱信息进行特征融合，得到语音融合特征；将语音融合特征输入预置分类器中，并通过分类器对语音信号进行分类，得到语音信号对应的语音情绪。本发明针对不同领域进行语音情绪识别，细分语音中描述情绪的复合特征，以提升语音情绪识别的准确性。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中语音情绪识别方法的第一个实施例包括：

101、获取待识别情绪的语音信号，并提取语音信号中的情绪特征，其中，情绪特征包括基频特征、能量特征和频谱特征；

可以理解的是，本发明的执行主体可以为语音情绪识别装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

本实施例中，将接收到的语音信号进行预处理，提取该语音信号中描述情绪的情绪特征，至少包括基频特征、能量特征、频谱特征，三个不同类型的情绪特征在情绪识别时其表征的意义不同，比如在音乐中，基频特征表征音乐演奏的高低音，能量特征表征音乐演奏的音调，频谱特征用于表征音乐演奏的旋律，音乐演奏的旋律急缓、音调高低、音高高低，都可以表征该音乐演奏的情绪。

其中，对于基频特征的提取，需先将语音信号进行分帧处理，再通过时域法或者频率法等逐帧提取语音信号中的基频，得到语音信号中的基频特征。具体的，时域法以声音的波形为输入，其基本原理是寻找波形的最小正周期；频域法则会先对信号做傅里叶变换，得到频谱(仅取幅度谱，舍弃相位谱)。频谱上在基频的整数倍处会有尖峰，并求出这些尖峰频率的最大公约数。

其中，对于能量特征的提取，可以通过FTT(快速傅里叶变换，fast Fouriertransform)提取语音信号中的能量特征；而对于频谱特征的提取，在语音信号中，在频率与能量值的分布关系中，查找语音的基本频率；根据分布关系以及乐音基本频率，在语音信号中，查找乐音谷值频率；采用乐音谷值频率，在语音信号中提取乐音谷值频率对应的能量值；基于乐音谷值频率对应的能量值，为频率分配能量值，生成频谱特征。

在此之前，可以将语音信号通过VAD(Voice Activity Detection，语音端点检测)模块，以消除语音信号中的静音信号，仅提取语音信号中语音波动片段。

102、采用预置神经网络模型提取情绪特征中的帧间基频信息、帧间能量信息和帧间频谱信息；

本实施例中，在将接收到的语音信号进行预处理，提取到该语音信号的基频特征后，把基频特征输入至提前设置好的神经网络模型中，比如采用BLSTM(Bi-Long Short-Term Memory，长短期记忆网络)，通过该深度神经网络能更加有效地获取语音信号的帧间基频信息，并通过反向传播的方式，让模型学习到更多的基频特征信息，并将优化后的基频特征输入到特征融合模块中。

本实施例中，在将接收到的语音信号进行预处理，提取到该语音信号的能量特征后，把能量特征输入至提前设置好的神经网络模型中，亦可以采用BLSTM，该深度网络能更加有效地获取语音信号的帧间能量信息，并通过反向传播的方式，让模型学习到更多的能量特征信息，将优化后的能量特征输入到特征融合模块中。

本实施例中，在将接收到的语音信号进行预处理，提取到该语音信号的频谱特征后，把频谱特征输入至提前设置好的神经网络模型中，亦可以采用BLSTM，该深度网络能更加有效地获取语音信号的帧间频谱信息，并通过反向传播的方式，让模型学习到更多的频谱特征信息，将优化后的频谱特征输入到特征融合模块中。

103、根据目标场景的预置特征影响力度，对帧间基频信息、帧间能量信息和帧间频谱信息进行特征融合，得到语音融合特征；

本实施例中，将优化后的各类型情绪信息，包括帧间基频信息、帧间能量信息、帧间频谱信息通过不同的权重进行加和处理，对三者进行融合，即可得语音融合特征。其中，若频谱特征权重为W₁，能量特征权重为W₂，基频特征权重为W₃。可以根据不同场景下三个类型的情绪信息的影响力度来调节对应的权重值，通过实验验证，在某些场景下比如催收场景中，语音信号的能量特征效果优于基频特征，所以在该场景下将能量特征的权重加大，并降低基频特征和频谱特征的权重，即增加W₂的值，降低W₁和W₃的值，以此对帧间基频信息、帧间能量信息和帧间频谱信息进行特征融合，得到的语音融合特征更符合该场景的情绪表达。

104、将语音融合特征输入预置分类器中，并通过分类器对语音信号进行分类，得到语音信号对应的语音情绪。

本实施例中，将语音融合特征进行分类，当前分类器的输入数据不仅仅是每个片段的语音特征信息，同时会根据不同的特征影响力度调节对应的权重值，更加有利于模型做分类判断，进而提高模型准确率。其中，语音情绪分类可以包括：喜、怒、哀、乐、恐、惊、思等，针对情绪的分类器可以包括：SVM(支持向量机，Support Vector Machine)，随机森林(Random forest，RF)和LR(Logistic Regression，逻辑回归)等经典分类器，还可以包括NetVLAD(Net Vector of Local Aggregated Descriptors，网络局部聚集描述符向量)，SoftDBOW(软分布式词袋)和NetFV等分类器。

本发明实施例中，通过获取需要识别情绪的语音信号，然后将语音信号中描述情绪的情绪特征提取出来，比如基频特征、能量特征、频谱特征，然后通过一个神经网络模型识别出基频特征中的帧间基频信息、能量特征中帧间能量信息、以及频谱特征中帧间频谱信息，即不仅识别每帧语音的情绪信息，还对各帧语音的前后情绪信息进行识别，得到的情绪信息更能准确表达整体语音信号的情绪；接着将不同类型的情绪信息进行融合，结合不同维度的情绪信息后进行情绪类别的区分，得到的语音情绪类别更准确。

请参阅图2，本发明实施例中语音情绪识别方法的第二个实施例包括：

201、获取待识别情绪的语音信号，并提取语音信号中的情绪特征，其中，情绪特征包括基频特征、能量特征和频谱特征；

202、采用第一神经网络识别基频特征中各帧语音的前后基频信息，并对前后基频信息进行反向传播，得到基频特征中的帧间基频信息；

203、采用第二神经网络识别能量特征中各帧语音的前后能量信息，并对前后能量信息进行反向传播，得到能量特征中的帧间能量信息；

204、采用第三神经网络识别频谱特征中各帧语音的前后频谱信息，并对前后频谱信息进行反向传播，得到频谱特征中的帧间频谱信息；

本实施例中，神经网络模型中包含第一神经网络、第二神经网络和第三神经网络，其中，三个神经网络可以均采用BLSTM，仅训练后各神经网络的模型参数不同，以用于识别不同情绪信息的帧间信息。

具体的，在BLSTM神经网络中，设T帧情绪特征(基频特征、能量特征、基频特征)为X＝(x₁，x₂，……，x_T)，将X中每一个情绪特征依次输入到LSTM神经网络中，经过LSTM神经网络得到帧间情绪信息(帧间基频信息、帧间能量信息和帧间频谱信息)的计算过程包括如下步骤：

通过公式q_T＝σ(W_q×[l_T-1,x_T]-o_q)构建遗忘层，其中，“[]”表示两个合并计算，W_q是遗忘权重矩阵，σ为sigmoid函数，o_q为遗忘门的偏置项，x_T为第T帧的输入，l_T-1为上一帧的隐层状态；

通过公式v_T＝σ(W_v×[l_T-1,x_T]-o_v)和

构建输入层，输入层确定哪些情绪特征需要保存到隐层神经元的状态单元中

通过公式

构建隐层的神经元状态更新；

通过公式OUT_T＝σ(W_OUT×[l_T-1,x_T]-o_OUT)和y_T＝OUT_T×tanh(d_T)构建输出层，输出层确定需要输出的帧间情绪信息，其中，W_out和o_out为LSTM网络输出层的连接权值与偏置，v_T，d_T，o_T，q_T分别为输入层，状态单元，输出层和遗忘层的激活输出向量。

205、根据目标场景的预置特征影响力度，调整帧间基频信息对应的基频权重、帧间能量信息对应的能量权重和帧间频谱信息对应的频谱权重；

206、通过基频权重、能量权重和频谱权重，对帧间基频信息、帧间能量信息和帧间频谱信息进行加和处理，得到语音融合特征；

本实施例中，不同场景下帧间基频信息、帧间能量信息和帧间频谱信息对语音信号的影响力度各不相同，比如在比如催收场景中，语音信号的能量特征效果优于基频特征，在游戏场景中，频谱特征和能量特征的影响力度大于基频特征，即根据不同场景下各帧间情绪信息的特征影响力度，预先设置相应的权重组合，即(W₁、W₂、W₃)，然后(W₁、W₂、W₃)对帧间基频信息、帧间能量信息和帧间频谱信息进行加和处理，即可得到符合该场景的语音融合特征，以用于后续在该场景下的语音情绪分类。

207、将语音融合特征输入预置分类器中，并通过分类器对语音信号进行分类，得到语音信号对应的语音情绪。

本发明实施例中，本发明采用VAD模块提取该语音信号的基频特征、能量特征及频谱特征，进而对前述三种特征进行分类等处理，以降低语音处理过程中存储或传输的数据量，使得神经网络的识别效率更高；另外，本方案将优化后的基频特征、能量特征及频谱特征输入特征融合模块，并基于不同场景，根据变量的影响力度调节不同特征的权重，以增加语音识别的准确率，以提升识别精准度高。

请参阅图3，本发明实施例中语音情绪识别方法的第三个实施例包括：

301、获取待识别情绪的语音信号，并提取语音信号中的情绪特征，其中，情绪特征包括基频特征、能量特征和频谱特征；

302、将基频特征中各帧语音对应的时域转化为频域，得到基频特征对应基频序列；

本实施例中，对于将基频特征中各帧语音对应的时域转换频域，首先建立频域与时域之间的非线性关系，然后通过分段线性函数进行了简化，最后通过简化的线性关系，即可将基频特征中各帧语音对应的时域转化为频域。

具体的，可以将时域分为三段：A₁-A₂，A₂-A₃，A₃-A₄，分段函数关系式如下：

若时域X∈(A₁-A₂]，则频域Y＝-0.80X+240(1.1)；

若时域X∈(A₂-A₃]，则频域Y＝-0.27X+134(1.2)；

若时域X∈(A₃-A₄]，则频域Y＝-0.13X+92(1.3)；

优选地的，A₁可以选择100Hz，A₂可以选择200Hz，A₃可以选择300Hz，A₄可以选择400Hz。

303、将基频序列随机划分为多帧基频区域，并确定每个基频区域的最大频率点；

304、依次采用各帧基频区域的前后基频区域对当前帧基频区域进行平滑处理，得到各帧基频区域对应的频率分布；

305、将各帧基频区域对应的频率分布输入第一神经网络，并通过第一神经网络识别基频特征中各帧语音的前后基频信息；

本实施例中，将根据基频序列中的各帧基频，计算第t帧基频的最大频率点f_high(t)，具体通过如下公式获取：

其中，K表示当前帧的采样频率，N表示帧长。

采用各帧基频区域的前后基频区域对当前帧基频区域进行平滑处理，得到平滑后的频率分布曲线F_high(t)，具体通过如下公式获取：

其中，f_high(t+t0)表示第t+t₀帧基频区域的最大频率点，M表示平滑时采用的当前帧基频区域前后的基频区域帧数量；

最后通过训练好的BLSTM对输入的各帧基频区域对应的频率分布识别出前后基频信息。

306、根据能量特征中携带的时间戳，将能量特征中各帧语音转化为语音能量序列，并对语音能量序列进行向量化处理；

307、将向量化处理后的语音能量序列输入第二神经网络中，并通过第二神经网络识别能量特征中各帧语音的前后能量信息；

本实施例中，采用预先设置好的采样间隔，例如1ms，5ms，10ms，15ms等，采样间隔设置的越小，情绪识别越准确，但计算量也越大，然后选取计算采样点的短时平均幅度的方法计算语音能量序列，并为了便于计算，还对语音能量序列进行归一化处理，最后以时间为方向，对语音能量序列进行向量化处理。

具体的，能量特征的数据格式为(时间戳，能量值)，其中时间戳是采集点的时间值，单位可以为ms，能量值为归一化后的采样点的短时平均幅度，语音能量序列可以表现为：{(5，0.4)，(10，0.6)，(15，0.3)，(20，0.8)，(25，0.5)，(30，0.6)，……}。

最后通过训练好的BLSTM对输入的向量化处理后的语音能量序列识别出前后能量信息。

308、依次提取频谱特征中各帧语音的前后预设数量帧的初始频谱信息；

309、依次采用各帧语音的前后预设数量帧的初始频谱信息计算当前帧对应的均值矢量和方差矢量；

本实施例中，提取出频谱特征后，将频谱特征转换为频谱特征向量作为初始频谱信息，然后提取频谱特征向量中当前帧的前后预设数量帧；然后通过当前帧的前后预设数量帧的初始频谱信息计算出当前帧对应的均值矢量和方差矢量，从而可以对频谱特征进行平滑处理，得到平滑后的频谱特征向量。

例如，终端可以获取频谱特征中当前帧语音的前后各五帧初始频谱信息，总共11帧初始频谱信息。通过计算这11帧的平均值，可以得到当前帧的均值矢量和方差矢量。具体地，可以通过三角形滤波器的三角窗口作为滤波窗口。每个滤波器具有三角形滤波器的特性，这些滤波器可以是等带宽的。终端可以利用滤波器组计算当前帧的均值矢量，并进一步计算方差矢量，由此可以对带噪语音频谱进行平滑处理，得到平滑后的频谱特征向量。

310、对各帧语音对应的均值矢量和方差矢量进行对数域转换，并采用第三神经网络对转换后的均值矢量和方差矢量进行识别，得到各帧语音的前后频谱信息；

本实施例中，对平滑后的频谱特征向量计算对数域，得到转换后的声学特征向量和频谱特征向量。具体地，终端可以计算每个滤波器输出的频谱特征的对数能量，由此可以得到频谱特征向量的对数域，从而能够有效地得到转换后的频谱特征向量。

最后通过训练好的BLSTM对输入的频谱特征向量进行识别，得到各帧语音的前后频谱信息。

311、根据目标场景的预置特征影响力度，对帧间基频信息、帧间能量信息和帧间频谱信息进行特征融合，得到语音融合特征；

312、将语音融合特征输入预置分类器中，并通过分类器对语音信号进行分类，得到语音信号对应的语音情绪。

本发明实施例中，本发明将前述三种特征输入预设BLSTM深度网络进行特征优化，从而更有效的获取语音信号帧间的前后信息，该BLSTM深度网络可以通过反向传播的方式使得BLSTM深度网络可以学习更多的特征信息，使得神经网络模型的特征有效性高。

上面对本发明实施例中语音情绪识别方法进行了描述，下面对本发明实施例中语音情绪识别装置进行描述，请参阅图4，本发明实施例中语音情绪识别装置一个实施例包括：

提取模块401，用于获取待识别情绪的语音信号，并提取所述语音信号中的情绪特征，其中，所述情绪特征包括基频特征、能量特征和频谱特征；

识别模块402，用于采用预置神经网络模型提取所述情绪特征中的帧间基频信息、帧间能量信息和帧间频谱信息；

融合模块403，用于根据目标场景的预置特征影响力度，对所述帧间基频信息、所述帧间能量信息和所述帧间频谱信息进行特征融合，得到语音融合特征；

分类模块404，用于将所述语音融合特征输入预置分类器中，并通过所述分类器对所述语音信号进行分类，得到所述语音信号对应的语音情绪。

请参阅图5，本发明实施例中语音情绪识别装置的另一个实施例包括：

可选的，在本发明第二方面的第一种实现方式中，所述神经网络模型包含第一神经网络、第二神经网络和第三神经网络，所述识别模块402包括：

基频识别单元4021，用于采用所述第一神经网络识别所述基频特征中各帧语音的前后基频信息，并对所述前后基频信息进行反向传播，得到所述基频特征中的帧间基频信息；

能量识别单元4022，用于采用所述第二神经网络识别所述能量特征中各帧语音的前后能量信息，并对所述前后能量信息进行反向传播，得到所述能量特征中的帧间能量信息；

频谱识别单元4023，用于采用所述第三神经网络识别所述频谱特征中各帧语音的前后频谱信息，并对所述前后频谱信息进行反向传播，得到所述频谱特征中的帧间频谱信息。

可选的，在本发明第二方面的第二种实现方式中，所述基频识别单元4021还用于：

将所述基频特征中各帧语音对应的时域转化为频域，得到所述基频特征对应基频序列；

将所述基频序列随机划分为多帧基频区域，并确定每个基频区域的最大频率点；

依次采用各帧基频区域的前后基频区域对当前帧基频区域进行平滑处理，得到各帧基频区域对应的频率分布；

将各帧基频区域对应的频率分布输入所述第一神经网络，并通过所述第一神经网络识别所述基频特征中各帧语音的前后基频信息。

可选的，在本发明第二方面的第三种实现方式中，所述能量识别单元4022还用于：

根据所述能量特征中携带的时间戳，将所述能量特征中各帧语音转化为语音能量序列，并对所述语音能量序列进行向量化处理；

将向量化处理后的语音能量序列输入所述第二神经网络中，并通过所述第二神经网络识别所述能量特征中各帧语音的前后能量信息。

可选的，在本发明第二方面的第四种实现方式中，所述频谱识别单元4023还用于：

依次提取所述频谱特征中各帧语音的前后预设数量帧的初始频谱信息；

依次采用各帧语音的前后预设数量帧的初始频谱信息计算当前帧对应的均值矢量和方差矢量；

对各帧语音对应的均值矢量和方差矢量进行对数域转换，并采用第三神经网络对转换后的均值矢量和方差矢量进行识别，得到各帧语音的前后频谱信息。

可选的，在本发明第二方面的第五种实现方式中，所述融合模块403包括：

调整单元4031，用于根据目标场景的预置特征影响力度，调整所述帧间基频信息对应的基频权重、所述帧间能量信息对应的能量权重和所述帧间频谱信息对应的频谱权重；

融合单元4032，用于通过所述基频权重、所述能量权重和所述频谱权重，对所述帧间基频信息、帧间能量信息和所述帧间频谱信息进行加和处理，得到语音融合特征。

本发明实施例中，本发明采用VAD模块提取该语音信号的基频特征、能量特征及频谱特征，进而对前述三种特征进行分类等处理，以降低语音处理过程中存储或传输的数据量，使得神经网络的识别效率更高；另外，本方案将优化后的基频特征、能量特征及频谱特征输入特征融合模块，并基于不同场景，根据变量的影响力度调节不同特征的权重，以增加语音识别的准确率，以提升识别精准度高；而且本发明将前述三种特征输入预设BLSTM深度网络进行特征优化，从而更有效的获取语音信号帧间的前后信息，该BLSTM深度网络可以通过反向传播的方式使得BLSTM深度网络可以学习更多的特征信息，使得神经网络模型的特征有效性高。

上面图4和图5从模块化功能实体的角度对本发明实施例中的语音情绪识别装置进行详细描述，下面从硬件处理的角度对本发明实施例中语音情绪识别设备进行详细描述。

图6是本发明实施例提供的一种语音情绪识别设备的结构示意图，该语音情绪识别设备600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)610(例如，一个或一个以上处理器)和存储器620，一个或一个以上存储应用程序633或数据632的存储介质630(例如一个或一个以上海量存储设备)。其中，存储器620和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对语音情绪识别设备600中的一系列指令操作。更进一步地，处理器610可以设置为与存储介质630通信，在语音情绪识别设备600上执行存储介质630中的一系列指令操作。

语音情绪识别设备600还可以包括一个或一个以上电源640，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口660，和/或，一个或一个以上操作系统631，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图6示出的语音情绪识别设备结构并不构成对语音情绪识别设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种语音情绪识别设备，所述计算机设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述语音情绪识别方法的步骤。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述语音情绪识别方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音情绪识别方法，其特征在于，所述语音情绪识别方法包括：

获取待识别情绪的语音信号，并提取所述语音信号中的情绪特征，其中，所述情绪特征包括基频特征、能量特征和频谱特征；

采用预置神经网络模型提取所述情绪特征中的帧间基频信息、帧间能量信息和帧间频谱信息；

根据目标场景的预置特征影响力度，对所述帧间基频信息、所述帧间能量信息和所述帧间频谱信息进行特征融合，得到语音融合特征；

将所述语音融合特征输入预置分类器中，并通过所述分类器对所述语音信号进行分类，得到所述语音信号对应的语音情绪。

2.根据权利要求1所述的语音情绪识别方法，其特征在于，所述神经网络模型包含第一神经网络、第二神经网络和第三神经网络，所述采用预置神经网络模型提取所述情绪特征中的帧间基频信息、帧间能量信息和帧间频谱信息包括：

采用所述第一神经网络识别所述基频特征中各帧语音的前后基频信息，并对所述前后基频信息进行反向传播，得到所述基频特征中的帧间基频信息；

采用所述第二神经网络识别所述能量特征中各帧语音的前后能量信息，并对所述前后能量信息进行反向传播，得到所述能量特征中的帧间能量信息；

采用所述第三神经网络识别所述频谱特征中各帧语音的前后频谱信息，并对所述前后频谱信息进行反向传播，得到所述频谱特征中的帧间频谱信息。

3.根据权利要求2所述的语音情绪识别方法，其特征在于，所述采用所述第一神经网络识别所述基频特征中各帧语音的前后基频信息包括：

4.根据权利要求2所述的语音情绪识别方法，其特征在于，所述采用所述第二神经网络识别所述能量特征中各帧语音的前后能量信息包括：

5.根据权利要求2所述的语音情绪识别方法，其特征在于，所述采用所述第三神经网络识别所述频谱特征中各帧语音的前后频谱信息包括：

6.根据权利要求1-5中任一项所述的语音情绪识别方法，其特征在于，所述根据目标场景的预置特征影响力度，对所述帧间基频信息、所述帧间能量信息和所述帧间频谱信息进行特征融合，得到语音融合特征包括：

根据目标场景的预置特征影响力度，调整所述帧间基频信息对应的基频权重、所述帧间能量信息对应的能量权重和所述帧间频谱信息对应的频谱权重；

通过所述基频权重、所述能量权重和所述频谱权重，对所述帧间基频信息、帧间能量信息和所述帧间频谱信息进行加和处理，得到语音融合特征。

7.一种语音情绪识别装置，其特征在于，所述语音情绪识别装置包括：

提取模块，用于获取待识别情绪的语音信号，并提取所述语音信号中的情绪特征，其中，所述情绪特征包括基频特征、能量特征和频谱特征；

识别模块，用于采用预置神经网络模型提取所述情绪特征中的帧间基频信息、帧间能量信息和帧间频谱信息；

融合模块，用于根据目标场景的预置特征影响力度，对所述帧间基频信息、所述帧间能量信息和所述帧间频谱信息进行特征融合，得到语音融合特征；

分类模块，用于将所述语音融合特征输入预置分类器中，并通过所述分类器对所述语音信号进行分类，得到所述语音信号对应的语音情绪。

8.根据权利要求7所述的语音情绪识别装置，其特征在于，所述神经网络模型包含第一神经网络、第二神经网络和第三神经网络，所述识别模块包括：

基频识别单元，用于采用所述第一神经网络识别所述基频特征中各帧语音的前后基频信息，并对所述前后基频信息进行反向传播，得到所述基频特征中的帧间基频信息；

能量识别单元，用于采用所述第二神经网络识别所述能量特征中各帧语音的前后能量信息，并对所述前后能量信息进行反向传播，得到所述能量特征中的帧间能量信息；

频谱识别单元，用于采用所述第三神经网络识别所述频谱特征中各帧语音的前后频谱信息，并对所述前后频谱信息进行反向传播，得到所述频谱特征中的帧间频谱信息。

9.一种语音情绪识别设备，其特征在于，所述语音情绪识别设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述语音情绪识别设备执行如权利要求1-6中任意一项所述的语音情绪识别方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-6中任一项所述语音情绪识别方法。