CN109800720A

CN109800720A - 情绪识别模型训练方法、情绪识别方法、装置、设备及存储介质

Info

Publication number: CN109800720A
Application number: CN201910065020.XA
Authority: CN
Inventors: 王健宗; 彭俊清
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-01-23
Filing date: 2019-01-23
Publication date: 2019-05-24
Anticipated expiration: 2039-01-23
Also published as: CN109800720B

Abstract

本申请涉及生物识别领域，基于端到端深度学习实现快速识别出残疾人的情感类型。具体公开了一种情绪识别模型训练方法、情绪识别方法、装置、计算机设备及存储介质，所述训练方法包括：采集包括音频数据和对应的注释标签的数据集；对所述音频数据进行分割处理以得到音频片段；在所述注释标签对应的音频片段的数量满足预设数据平衡条件时，提取所述音频片段对应的频谱图以构建样本数据；基于端到端的深度学习网络，根据所述样本数据进行模型训练，得到情绪识别模型。

Description

情绪识别模型训练方法、情绪识别方法、装置、设备及存储介质

技术领域

本申请涉及生物识别技术领域，尤其涉及一种情绪识别模型训练方法、情绪识别方法、装置、计算机设备及存储介质。

背景技术

目前，残疾被定义为一种可能影响个人沟通、与他人互动、学习或独立工作能力的身体状况，包括身体上的残疾和心理上的残疾，其中心理残疾人通常有不典型的行为、情绪、感觉和表情。因此，准确地理解残疾人的行为以及情绪，对于诊断和治疗是非常重要的。因此，有必要为残疾人提供了一个辅助交流诊断方法，以识别和理解残疾人的情绪，包括愤怒、快乐、悲伤和中性，使医务人员在面对某些残疾人患者时，能做出更加准确的诊断。

发明内容

本申请提供了一种情绪识别模型训练方法、情绪识别方法、装置、计算机设备及存储介质，以识别残疾人的情绪，进而帮助医务人员在面对残疾人患者时能做出更加准确的诊断。

第一方面，本申请提供了一种情绪识别模型训练方法，所述方法包括：

采集数据集，所述数据集包括音频数据以及对应的注释标签；

对所述数据集中的音频数据进行分割处理以得到音频片段；

判断所述注释标签对应的音频片段的数量是否满足预设数据平衡条件，所述预设数据平衡条件用于判断各个所述注释标签对应的音频片段的数量是否达到彼此平衡；

若满足所述预设数据平衡条件，提取所述音频片段对应的频谱图以构建样本数据，所述频谱图包括常数Q变换谱图和短时距傅里叶变换谱图；

基于端到端的深度学习网络，根据所述样本数据进行模型训练以得到情绪识别模型。

第二方面，本申请还提供了一种情绪识别方法，所述方法包括：

采集用户的音频数据；

对所述音频数据进行分割处理以得到音频片段；

提取所述音频片段对应的频谱图，所述频谱图包括常数Q变换谱图和短时距傅里叶变换谱图；

将所述常数Q变换谱图和短时距傅里叶变换谱图同时输入至情绪识别模型进行预测以输出所述用户的情感类型，其中，所述情绪识别模型为采用上述情绪识别模型训练方法训练得到的模型。

第三方面，本申请还提供了一种情绪识别模型训练装置，所述装置包括：

数据采集单元，用于采集数据集，所述数据集包括音频数据以及对应的注释标签；

数据分割单元，用于对所述数据集中的音频数据进行分割处理以得到音频片段；

条件判断单元，用于判断所述注释标签对应的音频片段的数量是否满足预设数据平衡条件，所述预设数据平衡条件用于判断各个所述注释标签对应的音频片段的数量是否达到彼此平衡；

样本构建单元，用于若满足所述预设数据平衡条件，提取所述音频片段对应的频谱图以构建样本数据，所述频谱图包括常数Q变换谱图和短时距傅里叶变换谱图；

模型训练单元，用于基于端到端的深度学习网络，根据所述样本数据进行模型训练以得到情绪识别模型。

第四方面，本申请还提供了一种情绪识别装置，所述装置包括：

音频采集单元，用于采集用户的音频数据；

音频分割单元，用于对所述音频数据进行分割处理以得到音频片段；

频谱提取单元，用于提取所述音频片段对应的频谱图，所述频谱图包括常数Q变换谱图和短时距傅里叶变换谱图；

情绪识别单元，用于将所述常数Q变换谱图和短时距傅里叶变换谱图同时输入至情绪识别模型进行预测以输出所述用户的情感类型，其中，所述情绪识别模型为采用上述的情绪识别模型训练方法训练得到的模型。

第五方面，本申请还提供了一种计算机设备，所述计算机设备包括存储器和处理器；所述存储器用于存储计算机程序；所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现如上述的情绪识别模型训练方法或者情绪识别方法。

第六方面，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如上述的情绪识别模型训练方法或者情绪识别方法。

本申请公开了一种情绪识别模型训练方法、情绪识别方法、装置、计算机设备及存储介质，通过采集包括音频数据和对应的注释标签的数据集；对所述音频数据进行分割处理以得到音频片段；在所述注释标签对应的音频片段的数量满足预设数据平衡条件时，提取所述音频片段对应的频谱图以构建样本数据；基于端到端的深度学习网络，根据所述样本数据进行模型训练，得到情绪识别模型。该模型可以应用到情绪识别方法，可以准确快速地识别残疾人的情感类型，进而帮助医务人员在面对残疾人患者时，能做出更加准确的诊断。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请的实施例提供的一种情绪识别模型的训练方法的示意流程图；

图2是本申请的实施例提供的情绪识别模型训练方法的训练过程示意图；

图3是图1中的情绪识别模型训练方法的子步骤示意流程图；

图4是图1中的情绪识别模型训练方法的子步骤示意流程图；

图5是本申请的实施例提供的一种情绪识别方法的示意流程图；

图6为本申请实施例提供的一种情绪识别模型训练装置的示意性框图；

图7为本申请实施例提供的一种情绪识别装置的示意性框图；

图8为本申请一实施例提供的一种计算机设备的结构示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

本申请的实施例提供了一种情绪识别模型训练方法、情绪识别方法、装置、计算机设备及存储介质。其中，该情绪识别模型训练方法用于训练得到情绪识别模型，该情绪识别模型可保存在终端或服务器中，通过该情绪识别模型实现情绪识别方法，该情绪识别方法可快速准确地识别残疾人的情绪，进而帮助医务人员在面对残疾人患者时，能做出更加准确的诊断。

其中，终端可以是手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等电子设备；服务器可以为独立的服务器，也可以为服务器集群。

例如，将情绪识别模型训练方法训练得到情绪识别模型，保存在医务人员的手机中，在医务人员给残疾人治疗或护理时，运行情绪识别方法，通过采集医务人员在给残疾人诊断时与其交流的谈话录音，对谈话录音进行分割处理以及频谱转换处理得到相应的频谱图，将该频谱图输入至情绪识别模型进行预测以输出所述残疾人用户的情感类型，进而可以帮助医务人员做出更加准确的诊断。

下面结合附图，对本申请的一些实施方式进行详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参阅图1，图1是本申请的实施例提供的一种情绪识别模型训练方法的示意流程图。该情绪识别模型训练方法用于基于端到端的深度学习网络对构建的样本数据进行模型训练，以得到情绪识别模型。

其中，该端到端的深度学习网络具体包括卷积神经网络(Convolutional NeuralNetworks,CNN)和递归神经网络(Recurrent Neural Network、RNN)组合框架。当然，在一些实施例中，也可以采用其他网络组合，或者单一网络模型，进行模型训练得到情绪识别模型。

请同时参阅图2，图2是本申请的实施例提供的模型训练过程的示意图。该训练过程是基于端到端的深度学习网络进行模型训练的。

如图1所示，该情绪识别模型训练方法，具体包括：步骤S101至步骤S107。

S101、采集数据集，所述数据集包括音频数据以及对应的注释标签。

其中，采集数据集可以从数据集系统获取相应的数据集，该数据集包括用户的音频数据以及对应的注释标签。

在本实施例中，用户为残疾人用户。具体地，是从残疾人情绪敏感辅助系统(EmotAsS)采集数据集，该数据集包括采集残疾人在交流时的音频数据以及音频数据对应注释标签，该注释标签包括愤怒、快乐、悲伤和中性等，当然还可以包括其他注释标签，比如喜悦或狂躁等等。

其中，音频数据对应注释标签由志愿者进行标注，比如录完残疾人的一段交流语音后，志愿者确定其交流语音是悲伤的，则可对该段交流语音标注为悲伤标签，进而形成带有注释标签的音频数据。

当然，也可以将一段交流语音进行分段，比如，将一段交流语音分为至少两段音频数据，其中至少两段音频数据分别对应相同的注释标签或不同的注释标签，比如两段音频数据对应的注释标签分别为悲伤和中性。

S102、对所述数据集中的音频数据进行分割处理以得到音频片段。

其中，对所述数据集中的音频数据进行分割处理以得到多个音频片段，得到的音频片段的注释标签为原音频数据对应的注释标签。

在一个实施例中，对所述数据集中的音频数据进行分割处理以得到音频片段，包括：按照预设时间段，对所述数据集中的音频数据进行分割处理以得到多个音频片段。

具体地，对采集的数据集中的音频数据按照预设时间段进行分割处理以得到多个音频片段，其中，预设时间段包括100ms、50ms或40ms等，比如2秒长的音频数据按照100ms进行分割处理可以得到20个音频片段。

在一个实施例中，对采集的数据集中的每个音频数据均按照预设时间段进行分割处理以得到其对应的音频片段，进而样本数据的一致性。

分割后的音频频段还对应有注释标签，具体为原音频数据对应的注释标签。比如，2秒长的音频数据A对应的注释标签为悲伤，将音频数据A按照预设时间段为100ms进行分割处理，可得到20个音频片段分别为A1、A2、......A20。分割后的音频片段在时序上为一个序列片段，但这些音频片段对应的注释标签仍然为悲伤标签。

S103、判断所述注释标签对应的音频片段的数量是否满足预设数据平衡条件。

其中，预设数据平衡条件用于判断各个注释标签(愤怒、快乐、悲伤和中性)对应的音频片段的数量是否彼此达到平衡关系，进而提高情绪识别模型的准确度。

例如，预设数据平衡条件可以为各个注释标签对应的音频片段的数量是否大致相等，或者可以为各个注释标签对应的音频片段的数量之比满足预设比例关系。

其中，根据残疾人情感对应的实际情况，在预设数据平衡条件为满足预设比例关系时，可以将训练样本进行偏向设置，比如，中性、愤怒、悲伤和快乐四个注释标签对应的音频片段的数量之比为5:4:4:5，该5:4:4:5即为预设数据平衡条件。由此可以提高模型的识别准确度。

将中性、愤怒、悲伤和快乐四个注释标对应的音频频段的数量进行比例计算，如果满足或大致满足5:4:4:5的关系，则说明注释标签对应的音频片段的数量是满足预设数据平衡条件。

具体地，如图1所示，如果所述注释标签对应的音频片段的数量不满足预设数据平衡条件，则执行步骤S104；如果所述注释标签对应的音频片段的数量满足预设数据平衡条件，则执行步骤S106。

S104、确定数量较少的音频片段对应的注释标签。

具体地，若不满足所述预设数据平衡条件，确定数量较少的音频片段对应的注释标签。比如，悲伤标签对应的音频片段明显小于其他注释标签对应的音频片段，则确定数量较少的音频片段对应的注释标签为悲伤标签。

S105、根据预设处理规则对确定的注释标签对应的音频数据进行分割处理。

具体地，根据预设处理规则对确定的注释标签对应的音频数据进行分割处理，以使所述注释标签对应的音频片段的数量满足所述预设数据平衡条件。

由于不同注释标签对应的音频数据或音频片段分布不平衡，会浪费了神经网络的强大性能。而在EmotAsS的数据集中，一般愤怒类的样本数量仅为中性类样本数量的1/56。此外，每个音频片段的持续时间只有100ms。因此，传统的平衡方法在这种情况下不适用，比如使用重复、自举或合成少数类等方法。

在一个实施例中，为了解决数据不平衡的问题，根据预设处理规则相应的注释标签对应音频数据进行处理，其中相应的注释标签为数量较少的音频片段对应的标签；并对处理后的音频数据进行分割处理以使所有注释标签对应的音频片段的数量满足预设数据平衡条件。

其中，预设处理规则包括两个处理方法，分别为方法一和方法二。

方法一：通过抽样的方法来增加愤怒、快乐和悲伤这三类的音频数据，这些数据本身都存在稀疏性。因此，在从磁盘加载到GPU以训练网络的每一批样本数据中，使用不替换的抽样方法是从标记为中性的音频数据中检索样本，并对其他情绪状态进行替换的抽样。由此，可以确保所有的数据都用于培训，进而保持样本数据的多样性。

方法二：确定数量较少的注释标签对应音频数据，比如愤怒和悲伤对应的音频数据；对确定的音频数据进行多次滑窗分割处理以得到音频片段，其中滑窗分割处理是指以预设时间段为时间窗口通过改变分割起始点对音频数据进行多次滑窗分割。

此外，在一个实施例中，如图3所示，根据预设处理规则对确定的注释标签对应的音频数据进行分割处理的步骤，具体包括：子步骤S105a至子步骤S105c。

S105a、获取确定的注释标签对应的音频数据，并播放所述音频数据；S105b、在播放所述音频数据时，以增加记录速度的方式采集播放的音频数据作为新的音频数据；S105c、对新的音频数据进行分割处理以得到音频片段。

具体地，获取确定的注释标签对应的音频数据，比如悲伤标签对应的音频数据，改变对该音频数据的记录速度来丰富的数据集，即在播放所述音频数据时，以增加记录速度的方式采集播放的音频数据作为新的音频数据。通过这种方式，可以创建多个采样速率有微小不同的样本数据集，通过对原始数据集(悲伤标签对应的音频数据)的操作时增加大量的细节，有助于在训练过程中处理过拟合问题。

S106、提取所述音频片段对应的频谱图以构建样本数据。

具体地，若满足所述预设数据平衡条件，提取所述音频片段对应的频谱图以构建样本数据，所述频谱图包括常数Q变换谱图和短时距傅里叶变换谱图。

在本实施例中，是同时使用常数Q变换谱图和短时距傅里叶变换谱图，为了增加模型的准确度，当然也可以采用更多的谱图。

具体地，如图4所示，提取所述音频片段对应的频谱图以构建样本数据的步骤，具体包括以下内容：

S106a、通过常数Q变换对所述音频片段进行变换处理以得到各个所述注释标签对应的常数Q变换谱图，以及S106b、通过短时距傅里叶变换对所述音频片段进行变换处理以得各个所述注释标签对应短时距傅里叶变换谱图；S106c、根据各个所述注释标签对应的常数Q变换谱图和短时距傅里叶变换谱图构建样本数据。

具体地，在注释标签对应的音频片段的数量达到平衡条件时，通过频谱变换提取各个注释标签对应的频谱图。在本实施例中，通过常数Q变换和短时距傅里叶变换提取各个注释标签对应的频谱图，该频谱图包括常数Q变换谱图和短时距傅里叶变换谱图。并使用常数Q变换谱图和短时距傅里叶变换谱图一起作为样本数据进行模型训练，以便提高模型的准确度。

其中，常数Q变换(constant Q transform，CQT)与短时距傅里叶变换(Short-TimeFourier Transform，STFT)均是重要时频分析工具，其中特别适用于音频信号的分析，这个转换产生的频谱最大的特色是在频率轴为对数标度而不是线性标度，且窗口长度会随着频率而改变。

S107、基于端到端的深度学习网络，根据所述样本数据进行模型训练以得到情绪识别模型。

其中，模型训练使用的是端到端的深度学习框架，该端到端的深度学习框架为卷积神经网络(Convolutional Neural Network,CNN)和递归神经网络(Recurrent NeuralNetwork、RNN)。

基于卷积神经网络和递归神经网络构成深度学习框架，根据所述样本数据进行模型训练以得到情绪识别模型。

具体地，训练过程请参阅图2所示，首选卷积神经网络(CNN)从频谱图中经过两次卷积提取特征,同时卷积后进行池化重塑，在将特征输入至递归神经网络(RNN)，然后利用递归神经网络(RNN)的长期短期记忆(LSTM)进一步分析从卷积神经网络(CNN)提取的特征,最后使用一个全连接层和Softmax分类器来处理递归神经网络(RNN)的输出。

其中，如图2所示，第一卷积(CNN1)对应的参数为5*5*16的卷积核，步长为1；相应的池化(POOL1)采用3*3池化，步长为1*2。第二卷积(CNN2)对应的参数为5*5*32的卷积核，步长为1；相应的池化(POOL2)采用3*3池化，步长为1*2。重塑，用于调整CNN输出以适应RNN输入。递归神经网络(RNN)，采用两个包含128个隐藏神经元的长期短期记忆(LSTM)。情绪识别模型的训练结果如表1所示。

其中，Softmax分类器将会把深度神经网络输出的结果分为四类，分别对应四类情感类型，分别为：(1)愤怒，(2)高兴，(3)悲伤，(4)中性，当然也可以包括其情感类型。该情绪识别模型可以帮助义务患者在面对某些残疾人患者时，了解残疾人患者的情感类型，进而帮助对他们在诊断时做出更加准确的判断。

表1为情绪识别模型的训练结果

由于，情绪识别方法可以应用于终端或服务器中，因此需要将训练好的模型保存在终端或服务器中。如果是应用于终端中，为了保证该终端的正常运行以及快速识别出用户的情感类别，还需要对训练得到的情绪识别模型进行压缩处理，将压缩处理后的模型保存在终端。

其中，该压缩处理具体包括对情绪识别模型进行剪枝处理、量化处理和哈夫曼编码处理等，以减小情绪识别模型的大小，进而方便保存在容量较小的终端中。

上述实施例通过采集包括音频数据和对应的注释标签的数据集；对所述音频数据进行分割处理以得到音频片段；在所述注释标签对应的音频片段的数量满足预设数据平衡条件时，提取所述音频片段对应的频谱图以构建样本数据；基于端到端的深度学习网络，根据所述样本数据进行模型训练，得到情绪识别模型。该模型可以应用到情绪识别方法，可以准确快速地识别残疾人的情感类型，进而帮助医务人员在面对残疾人患者时，能做出更加准确的诊断。

请参阅图5，图5是本申请的实施例提供的一种情绪识别方法的示意流程图。该情绪识别方法可以应用在终端或服务器中，用于识别残疾人的情绪，进而帮助医务人员在面对残疾人患者时，能做出更加准确的诊断。

如图5所示，该情绪识别方法具体包括：步骤S201至步骤S204。

S201、采集用户的音频数据。

其中，用户为残疾人用户，当然可以为普通用户。音频数据为医务人员在给残疾人诊断时与其交流的谈话录音对应的语音数据，由于该谈话录音会包括医务人员的语音数据，因此需要根据残疾人的声纹特征从语音数据中识别出残疾人的音频数据，也可以将识别出的残疾人的音频数据从语音数据中剪切下来。

具体地，采集用户的音频数据，可以采用录音设备采集医务人员在给残疾人诊断时与其交流时的谈话录音。录音设备比如录音笔、智能手机、平板电脑、笔记本或智能穿戴设备等，比如智能手环或智能手表等。

S202、对所述音频数据进行分割处理以得到音频片段。

具体地，对采集的音频数据按照预设时间段进行分割处理以得到音频片段，其中，预设时间段包括100ms、50ms或40ms等，比如2秒长的音频数据按照100ms进行分割处理可以得到20个音频片段。

其中，该预设时间段的大小采用和上述训练时预设时间段的大小相同，以便快速准确地识别该残疾人的情绪类别。分割后的音频片段在时序上为一个序列数据。

S203、提取所述音频片段对应的频谱图，所述频谱图包括常数Q变换谱图和短时距傅里叶变换谱图。

具体地，也是分别通过常数Q变换和短时距傅里叶变换提取音频片段的频谱图，该频谱图包括常数Q变换谱图和短时距傅里叶变换谱图。

S204、将所述常数Q变换谱图和短时距傅里叶变换谱图同时输入至情绪识别模型进行预测以输出所述用户的情感类型。

具体地，将提取到的常数Q变换谱图和短时距傅里叶变换谱图同时输入至情绪识别模型，情绪识别模型根据常数Q变换谱图和短时距傅里叶变换谱图进行预测识别，以输出残疾人的情感类型对应的概率值，比如愤怒、高兴、悲伤或中性的概率值分别为0.7、0.1、0.1和0.1，由此可以确定该残疾人的情感类型为悲伤。

当然，分割后的音频片段在时序上为一个序列片段，因此，情绪识别模型也可以分段识别残疾人的情绪类别，比如将序列的音频片段分为两段识别，识别处理的结果分别悲伤和中性，由此可以表明残疾人在诊断时的情绪变化的过程，因此可帮助医务人员在面对某些残疾人患者时，根据其情绪变化情况做出更加准确的诊断。

上述实施例通过采集用户的音频数据；对所述音频数据进行分割处理以得到音频片段；提取所述音频片段对应的常数Q变换谱图和短时距傅里叶变换谱图；将所述常数Q变换谱图和短时距傅里叶变换谱图同时输入至情绪识别模型进行预测以输出所述用户的情感类型，比如高兴或悲伤等，由此帮助医务人员在面对用户(残疾人患者)时，能做出更加准确的诊断。

请参阅图6，图6是本申请的实施例提供的一种情绪识别模型训练装置的示意性框图，该情绪识别模型训练装置可以配置于服务器中，用于执行前述的情绪识别模型的训练方法。

如图6所示，该情绪识别模型训练装置400，包括：数据采集单元401、数据分割单元402、条件判断单元403、标签确定单元404、分割处理单元405、样本构建单元406和模型训练单元407。

数据采集单元401，用于采集数据集，所述数据集包括音频数据以及对应的注释标签。

数据分割单元402，用于对所述数据集中的音频数据进行分割处理以得到音频片段。

条件判断单元403，用于判断所述注释标签对应的音频片段的数量是否满足预设数据平衡条件。

具体地，条件判断单元403判断出满足所述预设数据平衡条件，则调用样本构建单元406；条件判断单元403判断出不满足所述预设数据平衡条件，则调用标签确定单元404。

标签确定单元404，用于若不满足所述预设数据平衡条件，确定数量较少的音频片段对应的注释标签。

分割处理单元405，用于根据预设处理规则对确定的注释标签对应的音频数据进行分割处理，以使所述注释标签对应的音频片段的数量满足所述预设数据平衡条件。

在一个实施例中，分割处理单元405，具体用于：对确定的注释标签对应的音频数据进行多次滑窗分割处理以得到音频片段，其中所述滑窗分割处理为以预设时间段为时间窗口通过改变分割起始点对所述音频数据进行多次滑窗分割。

在一个实施例中，分割处理单元405，具体用于：获取确定的注释标签对应的音频数据，并播放所述音频数据；在播放所述音频数据时，以增加记录速度的方式采集播放的音频数据作为新的音频数据；以及对新的音频数据进行分割处理以得到音频片段。

样本构建单元406，用于若满足所述预设数据平衡条件，提取所述音频片段对应的频谱图以构建样本数据，所述频谱图包括常数Q变换谱图和短时距傅里叶变换谱图。

具体地，样本构建单元406，用于：通过常数Q变换对所述音频片段进行变换处理以得到各个所述注释标签对应的常数Q变换谱图，以及通过短时距傅里叶变换对所述音频片段进行变换处理以得各个所述注释标签对应短时距傅里叶变换谱图；根据各个所述注释标签对应的常数Q变换谱图和短时距傅里叶变换谱图构建样本数据。

模型训练单元407，用于基于端到端的深度学习网络，根据所述样本数据进行模型训练以得到情绪识别模型。

请参阅图7，图7是本申请的实施例还提供一种情绪识别装置的示意性框图，该情绪识别装置用于执行前述的情绪识别方法。其中，该情绪识别装置可以配置于服务器或终端中。

如图7所示，该情绪识别装置500，包括：音频采集单元501、音频分割单元502、频谱提取单元503和情绪识别单元504。

音频采集单元501，用于采集用户的音频数据。

音频分割单元502，用于对所述音频数据进行分割处理以得到音频片段。

频谱提取单元503，用于提取所述音频片段对应的频谱图，所述频谱图包括常数Q变换谱图和短时距傅里叶变换谱图。

情绪识别单元504，用于将所述常数Q变换谱图和短时距傅里叶变换谱图同时输入至情绪识别模型进行预测以输出所述用户的情感类型，其中，所述情绪识别模型为上述任一项所述的情绪识别模型训练方法训练得到的模型。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

上述的装置可以实现为一种计算机程序的形式，该计算机程序可以在如图8所示的计算机设备上运行。

请参阅图8，图8是本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以是服务器或终端。

参阅图8，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口，其中，存储器可以包括非易失性存储介质和内存储器。

非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种情绪识别模型训练方法，或者执行任意一种情绪识别方法。

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种情绪识别模型训练方法，或者执行任意一种情绪识别方法。

该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一个实施例中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：

采集数据集，所述数据集包括音频数据以及对应的注释标签；对所述数据集中的音频数据进行分割处理以得到音频片段；判断所述注释标签对应的音频片段的数量是否满足预设数据平衡条件，所述预设数据平衡条件用于判断各个所述注释标签对应的音频片段的数量是否达到彼此平衡；若满足所述预设数据平衡条件，提取所述音频片段对应的频谱图以构建样本数据，所述频谱图包括常数Q变换谱图和短时距傅里叶变换谱图；基于端到端的深度学习网络，根据所述样本数据进行模型训练以得到情绪识别模型。

在一个实施例中，所述处理器在实现所述对所述数据集中的音频数据进行分割处理以得到音频片段时，用于实现：

按照预设时间段，对所述数据集中的音频数据进行分割处理以得到音频片段。

在一个实施例中，所述处理器在实现所述判断所述注释标签对应的音频片段的数量是否满足预设数据平衡条件之后，还用于实现：

若不满足所述预设数据平衡条件，确定数量较少的音频片段对应的注释标签；根据预设处理规则对确定的注释标签对应的音频数据进行分割处理，以使所述注释标签对应的音频片段的数量满足所述预设数据平衡条件。

在一个实施例中，所述处理器在实现所述根据预设处理规则对确定的注释标签对应的音频数据进行分割处理时，用于实现：

对确定的注释标签对应的音频数据进行多次滑窗分割处理以得到音频片段，其中所述滑窗分割处理为以预设时间段为时间窗口通过改变分割起始点对所述音频数据进行多次滑窗分割。

获取确定的注释标签对应的音频数据，并播放所述音频数据；在播放所述音频数据时，以增加记录速度的方式采集播放的音频数据作为新的音频数据；以及对新的音频数据进行分割处理以得到音频片段。

在一个实施例中，所述处理器在实现所述提取所述音频片段对应的频谱图以构建样本数据时，用于实现：

通过常数Q变换对所述音频片段进行变换处理以得到各个所述注释标签对应的常数Q变换谱图；以及通过短时距傅里叶变换对所述音频片段进行变换处理以得各个所述注释标签对应短时距傅里叶变换谱图；根据各个所述注释标签对应的常数Q变换谱图和短时距傅里叶变换谱图构建样本数据。

其中，在另一实施例中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：

采集用户的音频数据；对所述音频数据进行分割处理以得到音频片段；提取所述音频片段对应的频谱图，所述频谱图包括常数Q变换谱图和短时距傅里叶变换谱图；将所述常数Q变换谱图和短时距傅里叶变换谱图同时输入至情绪识别模型进行预测以输出所述用户的情感类型，其中，所述情绪识别模型为采用上述任一项所述的情绪识别模型训练方法训练得到的模型。

本申请的实施例中还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序中包括程序指令，所述处理器执行所述程序指令，实现本申请实施例提供的任一项情绪识别模型训练方法或者情绪识别方法。

其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种情绪识别模型训练方法，其特征在于，包括：

对所述数据集中的音频数据进行分割处理以得到音频片段；

2.根据权利要求1所述的情绪识别模型训练方法，其特征在于，所述判断所述注释标签对应的音频片段的数量是否满足预设数据平衡条件之后，还包括：

若不满足所述预设数据平衡条件，确定数量较少的音频片段对应的注释标签；

根据预设处理规则对确定的注释标签对应的音频数据进行分割处理，以使所述注释标签对应的音频片段的数量满足所述预设数据平衡条件。

3.根据权利要求2所述的情绪识别模型训练方法，其特征在于，所述根据预设处理规则对确定的注释标签对应的音频数据进行分割处理，包括：

4.根据权利要求2所述的情绪识别模型训练方法，其特征在于，所述根据预设处理规则对确定的注释标签对应的音频数据进行分割处理，包括：

获取确定的注释标签对应的音频数据，并播放所述音频数据；

在播放所述音频数据时，以增加记录速度的方式采集播放的音频数据作为新的音频数据；以及

对新的音频数据进行分割处理以得到音频片段。

5.根据权利要求1所述的情绪识别模型训练方法，其特征在于，所述提取所述音频片段对应的频谱图以构建样本数据，包括：

通过常数Q变换对所述音频片段进行变换处理以得到各个所述注释标签对应的常数Q变换谱图；以及

通过短时距傅里叶变换对所述音频片段进行变换处理以得各个所述注释标签对应短时距傅里叶变换谱图；

根据各个所述注释标签对应的常数Q变换谱图和短时距傅里叶变换谱图构建样本数据。

6.一种情绪识别方法，其特征在于，包括：

采集用户的音频数据；

对所述音频数据进行分割处理以得到音频片段；

将所述常数Q变换谱图和短时距傅里叶变换谱图同时输入至情绪识别模型进行预测以输出所述用户的情感类型，其中，所述情绪识别模型为采用权利要求1至5任一项所述的情绪识别模型训练方法训练得到的模型。

7.一种情绪识别模型训练装置，其特征在于，包括：

8.一种情绪识别装置，其特征在于，包括：

音频采集单元，用于采集用户的音频数据；

情绪识别单元，用于将所述常数Q变换谱图和短时距傅里叶变换谱图同时输入至情绪识别模型进行预测以输出所述用户的情感类型，其中，所述情绪识别模型为采用权利要求1至5任一项所述的情绪识别模型训练方法训练得到的模型。

9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器；

所述存储器用于存储计算机程序；

所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1至5中任一项所述的情绪识别模型训练方法，或者实现如权利要求6所述的情绪识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如权利要求1至5中任一项所述的情绪识别模型训练方法，或者实现如权利要求6所述的情绪识别方法。