CN110021308A

CN110021308A - 语音情绪识别方法、装置、计算机设备和存储介质

Info

Publication number: CN110021308A
Application number: CN201910405289.8A
Authority: CN
Inventors: 陈炳金; 林英展; 梁一川; 黄世维
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-05-16
Filing date: 2019-05-16
Publication date: 2019-07-16
Anticipated expiration: 2039-05-16
Also published as: CN110021308B

Abstract

本申请公开了一种语音情绪识别方法、装置、计算机设备和计算机可读存储介质，其中，方法包括：获取用户的语音数据；根据语音数据确定用户的用户属性信息；根据用户属性信息和语音数据，确定用户的情绪类别，由此，该方法不依赖语音识别技术，无需将语音转化为本文，只需通过语音数据确定用户的属性信息，并基于该属性信息实现用户的语音情绪识别，相对于传统方式仅通过通用模型实现用户的情绪识别而言，本申请基于用户属性实现用户的语音情绪识别，可以有效提升情绪识别效果，提高识别准确率。

Description

语音情绪识别方法、装置、计算机设备和存储介质

技术领域

本申请涉及数据处理技术领域，尤其涉及一种语音情绪识别方法、装置、计算机设备和计算机可读存储介质。

背景技术

语音交互是人工智能时代重要的交互模式，随着物联网的发展以及智能硬件的推广，人们开始使用语音进行交流，通过语音控制各种智能产品，根据用户的语音，进而识别出用户情绪，从而对用户作出不同的情感反馈，使交互系统更加人性化，提高交互质量。

相关技术中，语音情绪识别的方式主要有以下三种方式，第一种方式是，利用语音识别技术将语音转化成文本，再通过文本情感分析技术来识别语音中的情绪；第二种方式是，抽取语音信号中的声学特征，然后通过统计函数(如均值，标准差等)将声学特征组合成固定维度的统计特征，再通过传统的机器学习模型进行训练，从而判断语音信号的情感；第三种方式是，对原始语音信号，或者将语音转化成语谱图特征，再通过深度神经网络模型进行训练，从而判断语音信号的情绪。

但是，目前存在的技术问题是：上述第一种方式，一方面依赖于语音识别的准确率，在对话交互场景下，很多口语化的表达，经常会识别错误，尤其是相对嘈杂一点的环境，另一方面很多情绪的表达单纯通过文本是分析不出来的，例如“我想去购物啦”，语音表达上可以表现出“愤怒”、“厌烦”甚至“伤心”等情绪，但通过文本并不能看出来，情绪识别率低；第二种方式，依赖于对各种语音特征的抽取和选择，但目前相关技术并不能提取出较好的情感语音特征，导致语音的情绪识别准确率不高；第三种方式，深度神经网络模型需要大量语音标注数据，需要消耗巨大的标注成本，并且现实中的语音数据有偏且样本数量少，难以支持复杂模型的训练。

发明内容

本申请的目的旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的一个目的在于提出一种语音情绪识别方法，该方法可以有效提升情绪识别效果，提高识别准确率。

本申请的第二个目的在于提出一种语音情绪识别装置。

本申请的第三个目的在于提出一种计算机设备。

本申请的第四个目的在于提出一种计算机可读存储介质。

为达上述目的，本申请第一方面实施例提出了一种语音情绪识别方法，包括：获取用户的语音数据；根据所述语音数据确定所述用户的用户属性信息；根据所述用户属性信息和所述语音数据，确定所述用户的情绪类别。

本申请实施例的语音情绪识别方法，首先，获取用户的语音数据；然后，根据所述语音数据确定所述用户的用户属性信息；最后，根据所述用户属性信息和所述语音数据，确定所述用户的情绪类别。由此，该方法不依赖语音识别技术，无需将语音转化为本文，只需通过语音数据确定用户的属性信息，并基于该属性信息实现用户的语音情绪识别，相对于传统方式仅通过通用模型实现用户的情绪识别而言，本申请基于用户属性实现用户的语音情绪识别，可以有效提升情绪识别效果，提高识别准确率。

为达上述目的，本申请第二方面实施例提出了一种语音情绪识别装置，包括：语音获取模块，用于获取用户的语音数据；属性信息确定模块，用于根据所述语音数据确定所述用户的用户属性信息；情绪类别确定模块，用于根据所述用户属性信息和所述语音数据，确定所述用户的情绪类别。

本申请实施例的语音情绪识别装置，首先，获取用户的语音数据；然后，根据所述语音数据确定所述用户的用户属性信息；最后，根据所述用户属性信息和所述语音数据，确定所述用户的情绪类别。由此，该装置不依赖语音识别技术，无需将语音转化为本文，只需通过语音数据确定用户的属性信息，并基于该属性信息实现用户的语音情绪识别，相对于传统方式仅通过通用模型实现用户的情绪识别而言，本申请基于用户属性实现用户的语音情绪识别，可以有效提升情绪识别效果，提高识别准确率。

为达上述目的，本申请第三方面实施例提出了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现本申请第一方面实施例所述的语音情绪识别方法。

为达上述目的，本申请第四方面实施例提出了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本申请第一方面实施例所述的语音情绪识别方法。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

图1是根据本申请第一个实施例的语音情绪识别方法的流程图；

图2是根据本申请第二个实施例的语音情绪识别方法的流程图；

图3是根据本申请第三个实施例的语音情绪识别方法的流程图；

图4是根据本申请第四个实施例的语音情绪识别方法的结构示意图；

图5是根据本申请第一个实施例的语音情绪识别装置的结构示意图；

图6是根据本申请第二个实施例的语音情绪识别装置的结构示意图；

图7是根据本申请第三个实施例的语音情绪识别装置的结构示意图；

图8是根据本申请第四个实施例的语音情绪识别装置的结构示意图；

图9是根据本申请第五个实施例的语音情绪识别装置的结构示意图。

图10是根据本申请一个实施例的计算机设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的语音情绪识别方法、装置、计算机设备和计算机可读存储介质。

本申请实施例语音情绪识别方法被配置于语音情绪识别装置中来举例说明，该语音情绪识别装置可以应用于任一计算机设备中，以使该计算机设备可以执行语音情绪识别功能。

图1为根据本申请一个实施例的语音情绪识别方法的流程示意图。

步骤101，获取用户的语音数据。

具体地，语音数据通常指的就是通过语音来记录的数据以及通过语音来传输的数据。语音数据可以为预先录制好的语音数据，也可以为实时输入的语音数据。优选地，语音数据为实时输入的语音数据。

在本申请实施例中，可采用语音情绪识别装置为用户提供语音输入接口，通过该接口获取用户输入的语音数据。例如，移动终端通过麦克风采集用户的语音，并将采集到的语音数据通过所述语音输入接口上传给语音情绪识别装置，以使得语音情绪识别装置获得用户输入的语音数据。

步骤102，根据语音数据确定用户的用户属性信息。

在本申请实施例中，在获取到用户的语音数据之后，可根据语音数据确定用户的用户属性信息。其中，需要说明的是，用户的属性信息可包括但不限于用户的性别和年龄段信息等。

可选地，所述根据语音数据确定用户的用户属性信息的具体实现过程可包括如下步骤：提取语音数据中的频率相关特征和梅尔频率倒谱系数(Mel Frequency CepstrumCoefficient，简称MFCC)特征，并将频率相关特征和MFCC特征输入预先建立的声纹感知模型进行性别分类和年龄段预估，得到用户的性别和年龄段信息。其中，在本申请的一个实施例中，该频率相关特征可包括但不限于语音频率的平均值(对应英文简称meanfreq)、频率第一四分位(对应英文简称：Q25)、指频率第三四分位(对应英文简称：Q75)、频率偏度(对应英文简称：skew)等。

可以理解，该声纹感知模型可用于对用户的语音数据进行处理以确定出该用户的性别和年龄段信息。需要说明的是，在本申请的实施例中，该声纹感知模型可以是预先根据样本语音数据对第一分类模型进行训练而得到的模型。可选地，如图2所示，可通过如下步骤预先建立声纹感知模型。

步骤201，获取样本语音数据。

步骤202，对样本语音数据进行性别和年龄段标注，得到样本语音数据的标注数据。

不难理解的是，获取到样本语音数据后，可采用语音标注技术对样本语音数据进行性别和年龄段标注，得到标注有性别和年龄段的语音数据。例如，假设获得样本语音A和样本语音B，对该样本语音A和B分别进行性别和年龄段标注，得到该样本语音A的标注数据，比如，该标注数据可为男性、14-16岁，即可以理解该样本语音A是一个年龄在14-16岁之间的男性的语音，得到样本语音A的标注数据，比如，该标注数据可为女性、13-15岁，即可以理解该样本语音B是一个年龄在13-15岁的女性的语音。

步骤203，提取样本语音数据的频率相关特征和MFCC特征。

具体地，可采用第二预设算法提取样本语音数据的频率相关特征和MFCC特征。其中，第二预设算法可以是但不限于深度学习算法、机器学习算法等。例如，在深度学习算法中，可采用自动编码器和深度神经网络两种模型通过无监督和有监督的训练方法实现从样本语音数据中自动提取相关特征；在机器学习算法中，可使用R脚本对样本语音数据进行特征提取。样本语音数据的频率相关特征可以包括但不限于语音频率的平均值、频率第一四分位、指频率第三四分位、频率偏度等。

步骤204，根据样本语音数据的频率相关特征、MFCC特征和标注数据，对第一分类模型进行训练，得到声纹感知模型。

在本申请实施例中，在得到样本语音数据的标注数据，以及提取到样本语音数据的频率相关特征和MFCC特征之后，根据样本语音数据的频率相关特征、MFCC特征和标注数据，对第一分类模型进行训练，多次进行迭代以对第一分类模型各层的参数进行修正，得到第一分类模型各层的最优参数，从而将该训练好的第一分类模型作为所述声纹感知模型。

其中，在本申请的实施例中，第一分类模型可以为传统的机器学习方法(如支持向量机模型、高斯混合模型、隐马尔科夫模型等)、深度学习网络(如词袋模型、卷积神经网络模型等)、决策树分类模型XGBoost模型等。优选地，在本申请实施例中，第一分类模型可采用XGBoost模型，这是因为XGBoost模型在工业实践中的效果较好，而且，开源的工具包可支持XGBoost模型一些参数的调优和并行训练。

由此，通过上述步骤201-步骤204即可预先建立声纹感知模型，这样，在进行语音情绪识别时，可将用户的语音数据中的频率相关特征和梅尔频率倒谱系数MFCC特征输入预先建立的声纹感知模型进行性别分类和年龄段预估，即可得到该用户的性别和年龄段信息。

步骤103，根据用户属性信息和语音数据，确定用户的情绪类别。

具体的，在通过第一分类模型获得用户属性信息(如性别和年龄段)之后，根据该用户的性别、年龄段和语音数据，确定该用户的情绪类别。例如，可根据用户的性别和年龄段以及该用户输入的语音中语调的高低特征，确定该用户的情绪类别。其中，在本申请的实施例中，情绪类别可包括但不限于开心、惊喜、正常、愤怒、厌烦、伤心等。

可选地，在本申请的一个实施例中，如图3所示，所述根据用户属性信息和语音数据，确定用户的情绪类别的具体实现过程可包括如下步骤：

步骤301，根据用户的性别获取对应的语音情绪识别模型。

具体地，根据用户的性别，获取与性别对应的语音情绪识别模型。这是因为，若采用同一个模型，会导致获得的情绪类别不准确，因为声调较高的女生说话声音容易被判定为积极情绪，而普通说话声音低沉的男生声音容易被判定为负面情绪；另一方面，说话人的年龄也会严重影响语音情绪识别的结果。因此，在本申请中，通过性别来预先设置两个语音情绪识别模型，即男性和女性分别对应一个语音情绪识别模型，其中，这两个语音情绪识别模型可采用不同的训练数据对深度神经网络模型进行训练获得。比如，男生的语音情绪识别模型，可采用男生的语音数据作为训练数据对深度神经网络模型进行训练以得到男性的语音情绪识别模型；女生的语音情绪识别模型，可采用女生的语音数据作为训练数据对深度神经网络模型进行训练以得到女性的语音情绪识别模型。

因此，在本申请的实施例中，在得到用户的性别属性时，可根据该用户的性别获取与其对应的语音情绪识别模型。例如，若确定用户为男性，则获取男性语音情绪识别模型，若确定用户为女性，则获取女性语音情绪识别模型。

步骤302，提取语音数据的声学特征和语谱图特征。

在本申请实施例中，可采用第二预设算法提取语音数据的声学特征和傅里叶变换得到语谱图特征。其中，第二预设算法可以是但不限于深度学习算法、机器学习算法等。例如，在深度学习算法中，可采用自动编码器和深度神经网络两种模型通过无监督和有监督的训练方法实现声学特征的提取；在机器学习算法中，可使用R脚本对语音数据进行声学特征的提取。另外，可对语谱图进行预滤波后，进行稀疏化处理，提取若干条能量峰值曲线，并对曲线结果进行频率位置信息去除，然后进行第二层傅里叶变换以获取语谱图特征。

步骤303，根据用户的年龄段信息、声学特征、语谱图特征和与用户的性别对应的语音情绪识别模型，确定用户的情绪类别。

需要说明的是，在本申请的实施例中，该语音情绪识别模型包括第一输入层、第二输入层和输出层，其中，第一输入层用于对用户的年龄段信息和声学特征进行特征提取以得到第一组合特征；第二输入层用于对语谱图特征进行特征提取以得到第二组合特征；输出层用于对第一组合特征和第二组合特征进行拼接以得到拼接特征，并基于第二分类模型对拼接特征进行情绪识别以输出各个情绪标签的概率分布。

在本步骤中，在确定出与用户性别对应的语音情绪识别模型，并提取出语音数据的声学特征和语谱图特征时，可将该用户的年龄段信息、声学特征和语谱图特征输入至所述与用户性别对应的语音情绪识别模型中，以使语音情绪识别模型的第一输入层对用户的年龄段信息和语音数据的声学特征进行特征提取，得到第一组合特征，语音情绪识别模型的第二输入层对语音数据的语谱图特征进行特征提取，得到第二组合特征；输出层将第一组合特征和第二组合特征进行拼接，得到拼接特征；输出层将第一组合特征和第二组合特征进行拼接，得到拼接特征，并基于第二分类模型对拼接特征进行情绪识别以输出各个情绪标签的概率，进而根据各个情绪标签的概率即可确定出该用户的情绪类别。

举例而言，如图4所示，语音情绪识别模型的第一输入层和第二输入层是将输入的特征进行隐藏特征的提取，第一输入层和第二输入层可分别由用以特征提取的模型构成，其中，第一输入层可为传统的机器学习方法(如支持向量机模型、高斯混合模型、隐马尔科夫模型等)，第二输入层可为深度学习网络(如词袋模型、卷积神经网络模型等)。其中，在本申请实施例中，第二分类模型可为分类器Softmax模型。

在本申请的实施例中，在确定出与用户性别对应的语音情绪识别模型，并提取出语音数据的声学特征和语谱图特征时，可将用户的年龄段信息、声学特征和语谱图特征输入至与该用户性别对应的语音情绪识别模型中进行情绪识别，得到各个情绪标签的概率，并根据各个情绪标签的概率进行阈值判断，根据阈值判断结果，从各个情绪标签中确定该用户的情绪类别。

举例而言，将用户的年龄段信息、声学特征和语谱图特征输入至语音情绪识别模型后，语音情绪识别模型会得出各个情绪标签的概率分布，其中，所有情绪标签的概率总和为1。例如：可以得到“开心”情绪标签的概率为0.322，“惊喜”情绪标签的概率为0.32，“正常”情绪标签的概率为0.32，“愤怒”情绪标签的概率为0.018，“厌烦”情绪标签的概率为0.01，“伤心”情绪标签的概率为0.01，此时，可将各个情绪标签的概率进行阈值判断，并根据该阈值判断结果从这些情绪标签中确定出该用户的情绪类别。

其中，在本申请的实施例中，所述根据阈值判断结果，从各个情绪标签中确定用户的情绪类别的具体实现过程可包括如下步骤：如果大于阈值的概率的个数为一个，则将大于阈值的概率所对应的情绪标签作为用户的情绪类别；如果大于阈值的概率的个数为多个，则判断多个大于阈值的概率之间的差值是否小于或等于预设阈值；若是，则确定多个大于阈值的概率所对应的多个情绪标签，并根据预设策略从多个情绪标签中选取目标情绪标签，并将目标情绪标签确定为用户的情绪类别；若否，则从多个大于阈值的概率中找出最大概率，并将最大概率所对应的情绪标签确定为用户的情绪类别。其中，该预设策略可理解是根据实际应用场景从所述多个大于阈值的概率所对应的多个情绪标签中确定出最常使用的情绪标签；或者，该预设策略可以是随机选取，比如，从所述多个大于阈值的概率所对应的多个情绪标签中随机选取一个作为目标情绪标签。

举例而言，假设可以得到“开心”情绪标签的概率0.522，“惊喜”情绪标签的概率0.3，“正常”情绪标签的概率0.14，“愤怒”情绪标签的概率0.018，“厌烦”情绪标签的概率0.01，“伤心”情绪标签的概率0.01，假设阈值为0.3，则“开心”情绪标签的概率大于阈值，且大于阈值的情绪标签只有一个，则确定“开心”为该用户的情绪类别。

又如，假设“开心”情绪标签的概率为0.322，“惊喜”情绪标签的概率为0.32，“正常”情绪标签的概率为0.32，“愤怒”情绪标签的概率为0.018，“厌烦”情绪标签的概率为0.01，“伤心”情绪标签的概率为0.01，假设阈值为0.3，预设阈值为0.1，则大于阈值的情绪标签有“开心”，“惊喜”和“正常”，且相互之间的概率差值小于预设阈值，虽然“开心”概率最高，但和“惊喜”、“正常”的概率很接近，也就是这个语音情绪表达不是很明显，这种情况下，可按照预设策略会返回“正常”的情绪标签，即将“正常”情绪标签确定为用户的情绪类别。

再如，假设“开心”情绪标签的概率为0.522，“惊喜”情绪标签的概率为0.22，“正常”情绪标签的概率为0.22，“愤怒”情绪标签的概率为0.018，“厌烦”情绪标签的概率为0.01，“伤心”情绪标签的概率为0.01，阈值为0.3，预设阈值为0.1，大于阈值的情绪标签有“开心”，“惊喜”和“正常”，但“开心”与“惊喜”、“正常”的概率之间的差值均大于预设阈值，则将概率最大的“开心”情绪标签确定为用户的情绪类别。

为了进一步地提高情绪识别效果，更好地满足用户的需求，本申请的一个实施例中，在根据预设策略从多个情绪标签中选取目标情绪标签之后，可增大目标情绪标签的概率，并根据目标情绪标签的增大后的概率，对各个情绪标签的概率重新进行归一化。

举例而言，假设得到“开心”情绪标签的概率为0.322，“惊喜”情绪标签的概率为0.32，“正常”情绪标签的概率为0.32，“愤怒”情绪标签的概率为0.018，“厌烦”情绪标签的概率为0.01，“伤心”情绪标签的概率为0.01，其中所有情绪标签的概率总和为1，根据预设策略从“开心”、“惊喜”和“正常”情绪标签中选取目标情绪标签为“正常”情绪标签之后，由于预设策略的关系，此时没有将概率最高的“开心”情绪标签作为该用户的情绪类别，为了避免引起用户疑惑，此时可通过归一化功能对各个情绪标签的概率值进行重新归一，例如，将“开心”情绪标签的概率值降低，将“正常”情绪标签的概率值提高，并保持所有情绪标签的概率总和为1。

本申请实施例的语音情绪识别方法，首先，获取用户的语音数据；然后，根据语音数据确定用户的用户属性信息；最后，根据用户属性信息和语音数据，确定用户的情绪类别。由此，该方法不依赖语音识别技术，无需将语音转化为本文，能支持在线的语音情绪识别；同时基于用户属性信息将用户进行划分，能够降低模型对情绪语音数据的标注要求，只需特定场景的适量情绪语音数据，便能有效提升情绪识别效果，提高识别准确率；另外，该方法不仅可以识别出用户情绪，还可以输出用户属性信息，满足用户多样性需求，有利于后续对话交互流程，使系统能对用户作出不同的情感反馈。

与上述实施例提供的语音情绪识别方法相对应，本申请的一种实施例还提供一种语音情绪识别装置，由于本申请实施例提供的语音情绪识别装置与上述实施例提供的语音情绪识别方法相对应，因此在前述语音情绪识别方法的实施方式也适用于本实施例提供的语音情绪识别装置，在本实施例中不再详细描述。图5为本申请实施例提供的一种语音情绪识别装置的结构示意图。如图5所示，该语音情绪识别装置400包括：语音获取模块410、属性信息确定模块420、情绪类别确定模块430。

具体地，语音获取模块410用于获取用户的语音数据。

属性信息确定模块420用于根据语音数据确定用户的用户属性信息。

情绪类别确定模块430用于根据用户属性信息和语音数据，确定用户的情绪类别。

作为本申请实施例的一种可能的实现方式，用户属性信息包括性别和年龄段信息。

可选地，在本申请的实施例中，如图6所示，在图5所示基础上，属性信息确定模块420包括：特征提取单元421和属性信息确定单元422。其中，特征提取单元421，用于提取语音数据中的频率相关特征和梅尔频率倒谱系数MFCC特征；属性信息确定单元422，用于将频率相关特征和MFCC特征输入预先建立的声纹感知模型进行性别分类和年龄段预估，得到用户的性别和年龄段信息。

需要说明的是，在本申请的实施例中，该声纹感知模型可以是预先根据样本语音数据对第一分类模型进行训练而得到的模型。具体地，，如图7所示，在图6所示基础上，语音情绪识别装置400还包括：模型建立模块440。模型建立模块440，用于预先建立声纹感知模型；其中，在本实施例中，模型建立模块440具体用于：获取样本语音数据；对样本语音数据进行性别和年龄段标注，得到样本语音数据的标注数据；提取样本语音数据的频率相关特征和MFCC特征；根据样本语音数据的频率相关特征、MFCC特征和标注数据，对第一分类模型进行训练，得到声纹感知模型。

作为本申请实施例的一种可能的实现方式，如图8所示，在图7所示基础上，情绪类别确定模块430包括：模型获取单元431、特征提取单元432、情绪类别确定单元433。

具体地，模型获取单元431，用于根据用户的性别获取对应的语音情绪识别模型；特征提取单元432，用于提取语音数据的声学特征和语谱图特征；情绪类别确定单元433，用于根据用户的年龄段信息、声学特征、语谱图特征和与用户的性别对应的语音情绪识别模型，确定用户的情绪类别。

作为本申请实施例的一种可能的实现方式，语音情绪识别模型包括第一输入层、第二输入层和输出层，其中，第一输入层用于对用户的年龄段信息和声学特征进行特征提取以得到第一组合特征；第二输入层用于对语谱图特征进行特征提取以得到第二组合特征；输出层用于对第一组合特征和第二组合特征进行拼接以得到拼接特征，并基于第二分类模型对拼接特征进行情绪识别以输出各个情绪标签的概率分布。

作为本申请实施例的一种可能的实现方式，情绪类别确定单元433具体用于：将用户的年龄段信息、声学特征和语谱图特征输入至语音情绪识别模型中进行情绪识别，得到各个情绪标签的概率；根据各个情绪标签的概率进行阈值判断；根据阈值判断结果，从各个情绪标签中确定用户的情绪类别。

作为本申请实施例的一种可能的实现方式，情绪类别确定单元433根据阈值判断结果，从各个情绪标签中确定用户的情绪类别的具体实现过程可如下：如果大于阈值的概率的个数为一个，则将大于阈值的概率所对应的情绪标签作为用户的情绪类别；如果大于阈值的概率的个数为多个，则判断多个大于阈值的概率之间的差值是否小于或等于预设阈值；若是，则确定多个大于阈值的概率所对应的多个情绪标签，并根据预设策略从多个情绪标签中选取目标情绪标签，并将目标情绪标签确定为用户的情绪类别；若否，则从多个大于阈值的概率中找出最大概率，并将最大概率所对应的情绪标签确定为用户的情绪类别。

为了进一步地提高情绪识别效果，更好地满足用户的需求，作为本申请实施例的一种可能的实现方式，如图9所示，在图8所示基础上，还包括：概率归一化模块450。

其中，概率归一化模块450，用于在根据预设策略从多个情绪标签中选取目标情绪标签之后，增大目标情绪标签的概率，并根据目标情绪标签的增大后的概率，对各个情绪标签的概率重新进行归一化。

本申请实施例的语音情绪识别装置，首先，获取用户的语音数据；然后，根据语音数据确定用户的用户属性信息；最后，根据用户属性信息和语音数据，确定用户的情绪类别。由此，该装置不依赖语音识别技术，无需将语音转化为本文，能支持在线的语音情绪识别；同时基于用户属性信息将用户进行划分，能够降低模型对情绪语音数据的标注要求，只需特定场景的适量情绪语音数据，便能有效提升情绪识别效果；另外，该方法不仅可以识别出用户情绪，还可以输出用户属性信息，满足用户多样性需求，有利于后续对话交互流程，使系统能对用户作出不同的情感反馈。

为了实现上述实施例，本申请还提出一种计算机设备，图10为本申请实施例提供的计算机设备的结构示意图。包括存储器1001、处理器1002及存储在存储器1001上并可在处理器1002上运行的计算机程序。处理器1002执行所述程序时实现上述实施例中提供的语音情绪识别方法。

进一步地，该计算机设备还包括：通信接口1003，用于存储器1001和处理器1002之间的通信。存储器1001，用于存放可在处理器1002上运行的计算机程序。存储器1001可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。处理器1002，用于执行所述程序时实现上述实施例所述的智能交互方法。如果存储器1001、处理器1002和通信接口1003独立实现，则通信接口1003、存储器1001和处理器1002可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(Industry Standard Architecture，简称为ISA)总线、外部设备互连(PeripheralComponent，简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture，简称为EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图10中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器1001、处理器1002及通信接口1003，集成在一块芯片上实现，则存储器1001、处理器1002及通信接口1003可以通过内部接口完成相互间的通信。

处理器1002可能是一个中央处理器(Central Processing Unit，简称为CPU)，或者是特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者是被配置成实施本申请实施例的一个或多个集成电路。

为了实现上述实施例，本申请还提出一种计算机可读存储介质，当所述存储介质中的指令由服务器端处理器被执行时，使得服务器端能够执行一种语音情绪识别方法，所述方法包括：获取用户的语音数据；根据语音数据确定用户的用户属性信息；根据用户属性信息和语音数据，确定用户的情绪类别。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语音情绪识别方法，其特征在于，包括：

获取用户的语音数据；

根据所述语音数据确定所述用户的用户属性信息；

根据所述用户属性信息和所述语音数据，确定所述用户的情绪类别。

2.根据权利要求1所述的方法，其特征在于，所述用户属性信息包括性别和年龄段信息。

3.根据权利要求2所述的方法，其特征在于，所述根据所述语音数据确定所述用户的用户属性信息，包括：

提取所述语音数据中的频率相关特征和梅尔频率倒谱系数特征；

将所述频率相关特征和梅尔频率倒谱系数特征输入预先建立的声纹感知模型进行性别分类和年龄段预估，得到所述用户的性别和年龄段信息。

4.根据权利要求3所述的方法，其特征在于，通过以下步骤预先建立所述声纹感知模型：

获取样本语音数据；

对所述样本语音数据进行性别和年龄段标注，得到所述样本语音数据的标注数据；

提取所述样本语音数据的频率相关特征和梅尔频率倒谱系数特征；

根据所述样本语音数据的频率相关特征、梅尔频率倒谱系数特征和所述标注数据，对第一分类模型进行训练，得到所述声纹感知模型。

5.根据权利要求2至4中任一项所述的方法，其特征在于，所述根据所述用户属性信息和所述语音数据，确定所述用户的情绪类别，包括：

根据所述用户的性别获取对应的语音情绪识别模型；

提取所述语音数据的声学特征和语谱图特征；

根据所述用户的年龄段信息、所述声学特征、语谱图特征和与所述用户的性别对应的语音情绪识别模型，确定所述用户的情绪类别。

6.根据权利要求5所述的方法，其特征在于，所述语音情绪识别模型包括第一输入层、第二输入层和输出层，其中，

所述第一输入层用于对所述用户的年龄段信息和所述声学特征进行特征提取以得到第一组合特征；

所述第二输入层用于对所述语谱图特征进行特征提取以得到第二组合特征；

所述输出层用于对所述第一组合特征和第二组合特征进行拼接以得到拼接特征，并基于第二分类模型对所述拼接特征进行情绪识别以输出各个情绪标签的概率分布。

7.根据权利要求6所述的方法，其特征在于，所述根据所述用户的年龄段信息、所述声学特征、语谱图特征和与所述用户的性别对应的语音情绪识别模型，确定所述用户的情绪类别，包括：

将所述用户的年龄段信息、所述声学特征和所述语谱图特征输入至所述语音情绪识别模型中进行情绪识别，得到各个情绪标签的概率；

根据所述各个情绪标签的概率进行阈值判断；

根据阈值判断结果，从所述各个情绪标签中确定所述用户的情绪类别。

8.根据权利要求7所述的方法，其特征在于，所述根据阈值判断结果，从所述各个情绪标签中确定所述用户的情绪类别，包括：

如果大于所述阈值的概率的个数为一个，则将大于所述阈值的概率所对应的情绪标签作为所述用户的情绪类别；

如果大于所述阈值的概率的个数为多个，则判断多个大于所述阈值的概率之间的差值是否小于或等于预设阈值；

若是，则确定所述多个大于所述阈值的概率所对应的多个情绪标签，并根据预设策略从所述多个情绪标签中选取目标情绪标签，并将所述目标情绪标签确定为所述用户的情绪类别；

若否，则从所述多个大于所述阈值的概率中找出最大概率，并将所述最大概率所对应的情绪标签确定为所述用户的情绪类别。

9.根据权利要求8所述的方法，其特征在于，在根据预设策略从所述多个情绪标签中选取目标情绪标签之后，所述方法还包括：

增大所述目标情绪标签的概率；

根据所述目标情绪标签的增大后的概率，对所述各个情绪标签的概率重新进行归一化。

10.一种语音情绪识别装置，其特征在于，包括：

语音获取模块，用于获取用户的语音数据；

属性信息确定模块，用于根据所述语音数据确定所述用户的用户属性信息；

情绪类别确定模块，用于根据所述用户属性信息和所述语音数据，确定所述用户的情绪类别。

11.根据权利要求10所述的装置，其特征在于，所述用户属性信息包括性别和年龄段信息。

12.根据权利要求11所述的装置，其特征在于，所述属性信息确定模块包括：

特征提取单元，用于提取所述语音数据中的频率相关特征和梅尔频率倒谱系数特征；

属性信息确定单元，用于将所述频率相关特征和梅尔频率倒谱系数特征输入预先建立的声纹感知模型进行性别分类和年龄段预估，得到所述用户的性别和年龄段信息。

13.根据权利要求12所述的装置，其特征在于，还包括：

模型建立模块，用于预先建立所述声纹感知模型；

其中，所述模型建立模块具体用于：

获取样本语音数据；

14.根据权利要求11至13中任一项所述的装置，其特征在于，所述情绪类别确定模块包括：

模型获取单元，用于根据所述用户的性别获取对应的语音情绪识别模型；

特征提取单元，用于提取所述语音数据的声学特征和语谱图特征；

情绪类别确定单元，用于根据所述用户的年龄段信息、所述声学特征、语谱图特征和与所述用户的性别对应的语音情绪识别模型，确定所述用户的情绪类别。

15.根据权利要求14所述的装置，其特征在于，所述语音情绪识别模型包括第一输入层、第二输入层和输出层，其中，

16.根据权利要求15所述的装置，其特征在于，所述情绪类别确定单元具体用于：

根据所述各个情绪标签的概率进行阈值判断；

17.根据权利要求16所述的装置，其特征在于，所述情绪类别确定单元具体用于：

18.根据权利要求17所述的装置，其特征在于，还包括：

概率归一化模块，用于在根据预设策略从所述多个情绪标签中选取目标情绪标签之后，增大所述目标情绪标签的概率，并根据所述目标情绪标签的增大后的概率，对所述各个情绪标签的概率重新进行归一化。

19.一种计算机设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1至9中任一项所述的语音情绪识别方法。

20.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至9中任一项所述的语音情绪识别方法。