CN107633851A

CN107633851A - 基于情感维度预测的离散语音情感识别方法、装置及系统

Info

Publication number: CN107633851A
Application number: CN201710640201.1A
Authority: CN
Inventors: 陶建华; 黄健; 李雅
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Zhongke Extreme Element Hangzhou Intelligent Technology Co Ltd
Priority date: 2017-07-31
Filing date: 2017-07-31
Publication date: 2018-01-26
Anticipated expiration: 2037-07-31
Also published as: CN107633851B

Abstract

本发明涉及情感计算领域，具体提出一种基于情感维度预测的离散语音情感识别方法、装置及系统。旨在解决现有语音情感识别方法对情感状态的识别难以满足要求的问题。本发明的方法包括提取语音的基本声学特征，将基本声学特征组合为语音情感特征，并对语音情感特征进行加窗处理，得到全局语音情感特征后，预测得到情感维度信息，将全局语音情感特征与情感维度信息进行组合后，进行离散语音情感识别，得到语音情感识别结果。本发明将情感维度信息加入到全局语音情感特征中，增加了语音情感特征的维度，提高了离散语音情感识别的准确率。本发明还提出了一种基于情感维度预测的离散语音情感识别装置和系统，同样具有上述有益效果。

Description

基于情感维度预测的离散语音情感识别方法、装置及系统

技术领域

本发明涉及情感计算领域，具体提供一种基于情感维度预测的离散语音情感识别方法、装置及系统。

背景技术

随着人工智能的发展，情感计算的地位越显重要，情感计算试图赋予机器类人的观察、理解和生成各种情感的能力，使机器具有情感，更加类人化。语音作为人类交流中重要的传输媒介，包含了大量的情感信息，语音情感识别可以很好地提升机器理解人类语音情感的能力，从而更加广泛地应用于人机对话中，使人机交互更加自然和谐。

语音情感识别主要包括特征提取和分类器分类两个步骤，目前，对于语音情感特征没有统一的标准，通常的做法是将许多与音频相关的特征组合在一起，例如韵律、频谱和音质特征，但是在不同的场景和数据库中，与音频相关的特征将发生改变。现有语音情感识别的方法主要包括利用情感维度模型或者离散情感模型来识别情感状态。其中，情感维度模型是将情感状态映射到一个连续的维度空间来描述细腻复杂的情感状态，但在实际应用中，难以直观理解而且情感维度信息难以获得；离散情感模型是将情感分成离散的情感标签，例如高兴、悲伤等，直观简单，但是离散情感模型能够描述的情感类型较少，难以描述复杂的情感状态。现有语音情感识别方法对情感状态的识别难以满足要求。

相应地，本领域需要一种新的语音情感识别方法来解决上述问题。

发明内容

为了解决现有技术中的上述问题，即为了解决现有语音情感识别方法对情感状态的识别难以满足要求的问题，本发明的一方面提供了一种基于情感维度预测的离散语音情感识别方法，应用于语音情感识别系统，包括：

提取语音的基本声学特征，并将所述基本声学特征组合为语音情感特征；

对所述语音情感特征进行加窗处理，得到全局语音情感特征；

根据所述全局语音情感特征，预测所述语音的情感维度信息，并将所述全局语音情感特征与所述情感维度信息进行组合，得到新的语音情感特征；

将所述新的语音情感特征输入到分类器中进行离散语音情感识别，得到语音情感识别结果。

在上述方法的优选方案中，所述提取语音的基本声学特征，其方法为：

以帧为单位提取所述语音的基本声学特征，其中，所述基本声学特征包括能量、基频以及共振峰。

在上述方法的优选方案中，所述对所述语音情感特征进行加窗处理，得到全局语音情感特征，其方法为：

以长度为N的窗长对所述语音情感特征进行统计回归，得到固定维度的全局语音情感特征，其中，N为不小于1的正整数。

在上述方法的优选方案中，所述全局语音情感特征包括韵律、频谱以及音质。

在上述方法的优选方案中，所述预测所述语音的情感维度信息，其方法为：

将所述全局语音情感特征输入到随机森林算法中进行计算，预测得到所述语音的情感维度信息。

在上述方法的优选方案中，所述将所述全局语音情感特征与所述情感维度信息进行组合，其方法为：

将所述情感维度信息加入所述全局语音情感特征，增加所述全局语音情感特征的维度。

在上述方法的优选方案中，所述分类器为支持向量机分类器。

本发明的另一方面，提供了一种基于情感维度预测的离散语音情感识别装置，应用于语音情感识别系统，包括：

声学特征提取模块，用于提取语音的基本声学特征，并将所述基本声学特征组合为语音情感特征；

全局语音情感特征提取模块，用于对所述语音情感特征进行加窗处理，得到全局语音情感特征；

情感特征组合模块，用于根据所述全局语音情感特征，预测所述语音的情感维度信息，并将所述全局语音情感特征与所述情感维度信息进行组合，得到新的语音情感特征；

离散情感识别模块，用于将所述新的语音情感特征输入到分类器中进行离散语音情感识别，得到语音情感识别结果。

本发明的第三方面，提供了一种语音情感识别系统，包括上述所述的基于情感维度预测的离散语音情感识别装置。

本发明提供了一种基于情感维度预测的离散语音情感识别方法，应用于语音情感识别系统，包括提取语音的基本声学特征，并将基本声学特征组合为语音情感特征；对语音情感特征进行加窗处理，得到全局语音情感特征；根据全局语音情感特征，预测语音的情感维度信息，并将全局语音情感特征与情感维度信息进行组合，得到新的语音情感特征；将新的语音情感特征输入到分类器中进行离散语音情感识别，得到语音情感识别结果。

本领域技术人员能够理解的是，本发明通过从帧级水平上提取语音的各种声学特征，并以一定的窗长对声学特征进行统计回归，其中包括计算语音声学特征的最大值、最小值、均值、方差以及变化范围等等，得到固定维度的全局语音情感特征，通过将情感维度信息的预测结果加入到全局语音情感特征中，增加了语音情感特征的维度，并且能够结合情感维度信息描述细腻复杂的情感状态与离散情感信息易于直观理解的优点，从而提高了离散语音情感识别的准确率。

附图说明

图1为本发明一种实施例的基于情感维度预测的离散语音情感识别方法的流程示意图；

图2为本发明一种实施例的基于情感维度预测的离散语音情感识别装置的结构示意图。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

如图1所示，为本发明一种实施例的基于情感维度预测的离散语音情感识别方法的流程示意图，包括：

步骤S1：提取语音的基本声学特征，并将基本声学特征组合为语音情感特征；

在实际应用中，为了能够更好地体现出语音所包含的特征，往往采用多个参数来作为语音的基本声学特征，其中，基本的声学特征包括短时能量抖动、基音频率、过零率、0～12阶镁尔倒谱参数、语速、谐波噪声比、共振峰、发音帧数、不发音帧数、发音区域数、不发音区域数、最长发音时间、最长不发音时间等，通过将一系列基本的声学特征进行组合，能够采集到语音中不同类型和方面的参数，更加全面和系统地描述语音所要表达的情感状态，并形成语音情感特征，即最小描述子，便于后续的进一步操作和分析。

步骤S2：对语音情感特征进行加窗处理，得到全局语音情感特征；

在语音情感特征处理过程中，可以将语音情感特征地处理视为信号处理，基于计算机本身的性能以及出于对处理效率的考虑，计算机只处理有限长度的信号，因此要将原始信号以一定的采样时间截断，即有限化。通过对语音情感特征进行加窗处理，能够以一定的窗长对连续几帧的语音情感特征进行计算，可以包括上下文的时序信息，对全部的语音情感特征进行加窗处理后，则可以得到全局语音情感特征。通过对语音情感特征进行加窗处理，可以减少帧起始处和结束处信号地不连续问题，使全局语音情感特征更加连续，并且加窗处理后，可以使原本没有周期性的语音信号呈现出周期函数的部分特征，更加有利于后续的分析处理。

步骤S3：根据全局语音情感特征，预测语音的情感维度信息，并将全局语音情感特征与情感维度信息进行组合，得到新的语音情感特征；

在实际应用中，情感维度能够描述细腻复杂的情感状态，以PAD三维情感模型为例，PAD三维情感模型包括愉悦度、激活度以及优势度3个维度，其中，P代表愉悦度(Pleasure-displeasure)，表示个体情感状态的正负特性；A代表激活度(Arousal-nonarousal)，表示个体的神经生理激活水平；D代表优势度(Dominance-submissiveness)，表示个体对情景和他人的控制状态。具体的，可以通过3个维度的值来表示具体的情感，如愤怒的坐标为(-0.51,0.59,0.25)，各维度上的数值范围为-1到+1，其中，-1表示在此维度上的值低，+1表示在此维度上的值高。因此，情感维度能够很好地描述情感的主观体验以及其与情感的外部表现、生理唤醒具有较好的映射关系。

通过将维度信息与全局语音情感特征进行结合，可以增加语音情感特征的维度，从而从更多的维度描述语音的情感特征，提高了语音情感识别的准确率。

步骤S4：将新的语音情感特征输入到分类器中进行离散语音情感识别，得到语音情感识别结果。

具体地，分类器是指在已有数据的基础上，学会一个分类函数或者构造出一个分类模型，分类器是数据挖掘中对样本进行分类方法的统称，包括决策树、逻辑回归、朴素贝叶斯、神经网络等算法。通过将新的语音情感特征输入到分类器中并进行离散语音情感识别，可以将语音情感特征分为直观易于理解的情感，最终得到语音情感识别的结果。

本发明通过提取语音的各种声学特征，并以一定的窗长对声学特征进行统计回归，得到固定维度的全局语音情感特征，通过将情感维度信息的预测结果加入到全局语音情感特征中，增加了语音情感特征的维度，并且能够结合情感维度信息描述细腻复杂的情感状态与离散情感信息易于直观理解的优点，从而提高了离散语音情感识别的准确率。

作为一种优选的实施例，提取语音的基本声学特征，其方法为：

以帧为单位提取语音的基本声学特征，其中，基本声学特征包括能量、基频以及共振峰。

在实际应用中，需要对语音进行处理和分析，需要对语音进行分帧，将语音分为多个一小段，其中，每一段称为一帧。经过分帧后，语音波形在时域上没有描述能力，根据人耳的生理特性，可以将每一帧波形变换为一个多维向量，可以简单理解为该向量包含了每帧语音的内容信息。其中，基本的声学特征包括但不限于语音的能量、基频以及共振峰。基本声学特征多包含的参数越多，越能体现语音的情感信息。

作为一种优选的实施例，对语音情感特征进行加窗处理，得到全局语音情感特征，其方法为：

以长度为N的窗长对语音情感特征进行统计回归，得到固定维度的全局语音情感特征，其中，N为不小于1的正整数。

具体地，以一句时长为1秒的语音为例解释说明加窗处理的过程。设定帧长为0.01秒，实际操作中存在帧长和帧移，为方便理解，省去帧移，则该语音共有100帧，设定选取基频和能量的二维特征描述语音的情感特征，则时长为1秒的语音可以表示为100*2的矩阵，设定窗长为10帧，实际操作中会有窗长和窗移，为方便理解，省去窗移，通过计算最大值和最小值的统计回归方式，即，在每一维特征上每10帧计算语音的最大值和最小值，因此，二维特征总共有6个，最后得到固定维度的全局语音情感特征，用矩阵表示为10*6的矩阵。

作为一种优选的实施例，全局语音情感特征包括韵律、频谱以及音质。

在实际应用中，韵律特征主要包括音高、能量、基频以及时长等特征，具有较强的情感辨别能力；频谱特征主要包括线性谱特征和倒谱特征，其中，线性谱特征包括LPC(Linear Predictor Cofficient，线性预测系数)以及LFPC(Log-Frequency PowerCofficient，对数频率功率系数)等，倒谱特征包括MFCC(Mel-Frequency CepstralCofficient，频率倒谱系数)以及LPCC(Linear Predictor Cepstral Cofficient，线性预测倒谱系数)等；音质特征主要为呼吸声、明亮度以及共振峰等，音质特征与语音情感特征具有较强的相关性。因此，韵律、频谱以及音质能够在不同语段长度的语音中体现该语音的情感特征。

具体地，本发明的基本的声学特征与其对应的统计回归方式如表1所示：

表1基本的声学特征与其对应的统计回归方式

在实际应用中，可以根据具体的基本的声学特征选取与其对应的统计回归方式，保证对各个基本的声学特征的统计回归效果最好，最后组合而成的语音情感特征有利于后续的计算分析。

作为一种优选的实施例，预测语音的情感维度信息，其方法为：

将全局语音情感特征输入到随机森林算法中进行计算，预测得到语音的情感维度信息。

随机森林是一种机器学习模型，在变量的使用和数据的使用上进行随机化，生成大量的分类树，再汇总分类树的结果。随机森林顾名思义，是用随机的方式建立一个森林，森林由很多的决策树组成，随机森林的每一决策树之间没有关联，在得到森林之后，当有一个新的输入样本进入的时候，让森林中的每一决策树进行判断，判断该样本属于哪一类，并且根据被选择最多的一类，预测样本属于该类。随机森林算法具有众多优点，包括：在数据集上表现良好、良好的抗噪声能力、既能处理离散型数据也能处理连续性数据、训练速度快等。除了可以使用随机森林算法以外，还可以使用逻辑回归算法、支持向量机算法，这里不做限定。

作为一种优选的实施例，将全局语音情感特征与情感维度信息进行组合，其方法为：

将情感维度信息加入全局语音情感特征，增加全局语音情感特征的维度。

以三维情感模型为例，若提取的语音情感特征维度为30维，三维情感模型的维度为3维，则将预测得到的情感维度信息当做补充特征增加到全局语音情感特征中，最后得到的新的语音情感特征的维度为33维，通过情感维度信息来辅助离散情感识别，可以增加离散情感识别的准确率。

作为一种优选的实施例，分类器为支持向量机分类器。

支持向量机是一种分类算法，通过寻求结构化风险最小来提高学习机泛化能力，实现经验风险和置信范围的最小化，从而达到在统计样本量较少的情况下，亦能获得良好统计规律的目的，其基本模型定义为特征空间上间隔最大的线性分类器，即支持向量机的学习策略便是间隔最大化，最终可转化为一个凸二次规划问题的求解。除了可以采用支持向量机分类器以外，还可以采用逻辑回归算法、随机森林算法，在此不做限定。

本发明通过多次实验得到只使用基本的语音声学特征预测离散情感的实验结果以及使用基本的语音声学特征和情感维度信息相结合预测离散情感的实验结果。本发明获取由10名专业演员录制的语音，为进一步保证实验数据的可靠，10名专业演员中男女各5名，选取四类具有代表性的离散情感作为实验对象，其中包括生气、高兴、忧伤、中性，实验数据共有5531句，其中生气所占比例为20.0％，高兴所占比例为29.6％，忧伤所占比例为19.6％，中性所占比例为30.8％，同时采用逻辑回归算法、随机森林算法以及支持向量机算法三种算法进行横向对比，具体实验结果如表2、表3所示：

表2基本的语音声学特征预测离散情感的实验结果

正确率	逻辑回归	随机森林	支持向量机
					0.537	0.566	0.546

表3基本的语音声学特征和情感维度信息相结合预测离散情感的实验结果

正确率	逻辑回归	随机森林	支持向量机
					0.602	0.624	0.644

通过对比表2和表3，在采用三种不同算法的情况下，结合情感维度信息的离散情感识别的实验结果均高于只使用基本的语音声学特征预测离散情感的实验结果，可见，采用本发明的方法可以有效地提高离散情感识别的效果。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

如图2所示，为本发明一种实施例的基于情感维度预测的离散语音情感识别装置的结构示意图，本发明还提供了一种基于情感维度预测的离散语音情感识别装置，应用于语音情感识别系统，包括：

声学特征提取模块1，用于提取语音的基本声学特征，并将基本声学特征组合为语音情感特征；

全局语音情感特征提取模块2，用于对语音情感特征进行加窗处理，得到全局语音情感特征；

情感特征组合模块3，用于根据全局语音情感特征，预测语音的情感维度信息，并将全局语音情感特征与情感维度信息进行组合，得到新的语音情感特征；

离散情感识别模块4，用于将新的语音情感特征输入到分类器中进行离散语音情感识别，得到语音情感识别结果。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，本发明实施例的基于情感维度预测的离散语音情感识别装置的具体工作过程及有关说明，可以参考前述基于情感维度预测的离散语音情感识别方法实施例中的对应过程，且与上述方法具有相同的有益效果，在此不再赘述。

本发明一种实施例的语音情感识别系统，包括上述所述的基于情感维度预测的离散语音情感识别装置。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，本发明实施例的语音情感识别系统的具体工作过程及有关说明，可以参考前述上述基于情感维度预测的离散语音情感识别方法实施例中的对应过程，且与上述装置具有相同的有益效果，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于情感维度预测的离散语音情感识别方法，应用于语音情感识别系统，其特征在于，包括：

2.根据权利要求1所述的基于情感维度预测的离散语音情感识别方法，其特征在于，所述提取语音的基本声学特征，其方法为：

3.根据权利要求2所述的基于情感维度预测的离散语音情感识别方法，其特征在于，所述“对所述语音情感特征进行加窗处理，得到全局语音情感特征”，其方法为：

4.根据权利要求3所述的基于情感维度预测的离散语音情感识别方法，其特征在于，所述全局语音情感特征包括韵律、频谱以及音质。

5.根据权利要求1-4任一项所述的基于情感维度预测的离散语音情感识别方法，其特征在于，所述预测所述语音的情感维度信息，其方法为：

6.根据权利要求5所述的基于情感维度预测的离散语音情感识别方法，其特征在于，所述将所述全局语音情感特征与所述情感维度信息进行组合，其方法为：

7.根据权利要求6所述的基于情感维度预测的离散语音情感识别方法，其特征在于，所述分类器为支持向量机分类器。

8.一种基于情感维度预测的离散语音情感识别装置，应用于语音情感识别系统，其特征在于，包括：

9.一种语音情感识别系统，其特征在于，包括如权利要求8所述的基于情感维度预测的离散语音情感识别装置。