CN113327631B

CN113327631B - 一种情感识别模型的训练方法、情感识别方法及装置

Info

Publication number: CN113327631B
Application number: CN202110801470.8A
Authority: CN
Inventors: 曾志平; 徐易楠; 康世胤
Original assignee: Guangzhou Huya Technology Co Ltd
Current assignee: Guangzhou Huya Technology Co Ltd
Priority date: 2021-07-15
Filing date: 2021-07-15
Publication date: 2023-03-21
Anticipated expiration: 2041-07-15
Also published as: CN113327631A

Abstract

本申请公开了一种情感识别模型的训练方法、情感识别方法及装置，该训练方法包括：获取针对直播场景的音频样本数据集合，所述音频样本数据集合中的各音频样本数据具有预先标注的情感标签以及行为标签；提取各音频样本数据中的音频特征，并对所述音频特征进行数据增强，获得音频特征集合；将所述音频特征集合输入至初始识别模型，采用预设损失函数进行训练，生成情感识别模型，其中，所述初始识别模型是包括隐藏层以及NetVLAD层的深度神经网络模型，丰富了输入至初始识别模型进行训练的特征数据的数量，从而提高了情感识别模型的识别准确率。

Description

一种情感识别模型的训练方法、情感识别方法及装置

技术领域

本申请实施例涉及直播技术领域，尤其涉及一种情感识别模型的训练方法、情感识别方法及装置。

背景技术

随着神经网络技术的发展，人类的表情也可以通过机器进行识别。通过表情可以表达出人类的情感，在多个领域中都需要关注相应用户的情感，因此，情感的识别也被应用在各行各业中。人类的情感表达方式是多种多样的，主要有人脸表情、语音情感、上身姿态和语言文本等。其中，语音情感识别技术有着广泛的应用场景，但如何准确地识别语音情感仍然是一个有挑战性的任务。

在相关技术中，存在一些服务于VC(voice conversion声音转换)的情感识别方案，以及，基于SED(sound event detection声音事件检测)对一些音乐环境声音的识别方案。但在直播场景下，上述方案都不能满足对主播情感的识别，现有方案存在以下缺点：

1、准确率不够，尤其是在数据量不均衡的情况下；

2、VC只是识别特定说话人的情感，不能准确预测多个不同说话人的情感状态；

3、SED只是对环境音的识别，不适用于人的情感状态识别。

发明内容

本申请提供一种情感识别模型的训练方法、情感识别方法及装置，以解决现有技术在进行情感识别时准确率不高、不能预测多个人的情感状态等问题。

第一方面，本申请实施例提供了一种情感识别模型的训练方法，所述方法包括：

获取针对直播场景的音频样本数据集合，所述音频样本数据集合中的各音频样本数据具有预先标注的情感标签以及行为标签；

提取各音频样本数据中的音频特征，并对所述音频特征进行数据增强，获得音频特征集合；

将所述音频特征集合输入至初始识别模型，采用预设损失函数进行训练，生成情感识别模型，其中，所述初始识别模型是包括隐藏层以及NetVLAD层的深度神经网络模型。

第二方面，本申请实施例还提供了一种情感识别方法，所述方法包括：

获取直播场景中的任意长度的目标音频流；

对所述目标音频流进行加窗处理，并提取窗口内的目标音频数据对应的目标音频特征集合；

将所述目标音频特征集合输入至第一方面中生成的情感识别模型中，由所述情感识别模型对所述目标音频特征集合进行处理，输出对应的多个情感标签的第一概率以及多个行为标签的第二概率；

根据多个所述第一概率以及多个所述第二概率，确定所述目标音频数据对应的目标行为以及所述目标行为下的目标情感标签。

第三方面，本申请实施例还提供了一种情感识别模型的训练装置，所述装置包括：

样本数据获取模块，用于获取针对直播场景的音频样本数据集合，所述音频样本数据集合中的各音频样本数据具有预先标注的情感标签以及行为标签；

音频特征提取模块，用于提取各音频样本数据中的音频特征；

数据增强模块，用于对所述音频特征进行数据增强，获得音频特征集合；

模型训练模块，用于将所述音频特征集合输入至初始识别模型，采用预设损失函数进行训练，生成情感识别模型，其中，所述初始识别模型是包括隐藏层以及NetVLAD层的深度神经网络模型。

第四方面，本申请实施例还提供了一种情感识别装置，所述装置包括：

音频流获取模块，用于获取直播场景中的任意长度的目标音频流；

目标特征提取模块，用于对所述目标音频流进行加窗处理，并提取窗口内的目标音频数据对应的目标音频特征集合；

模型推理模块，用于将所述目标音频特征集合输入至第一方面中生成的情感识别模型中，由所述情感识别模型对所述目标音频特征集合进行处理，输出对应的多个情感标签的第一概率以及多个行为标签的第二概率；

目标情感标签确定模块，用于根据多个所述第一概率以及多个所述第二概率，确定所述目标音频数据对应的目标行为以及所述目标行为下的目标情感标签。

第五方面，本申请实施例还提供了一种电子设备，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述第一方面或第二方面的方法。

第六方面，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一方面或第二方面的方法。

本申请所提供的技术方案，具有如下有益效果：

在本实施例中，在训练情感识别模型时，所采用的音频样本数据为针对直播场景的、具有预先标注的情感标签以及行为标签的音频数据，使得训练得到的情感识别模型更具有场景适用性。另外，在提取各音频样本数据中的音频特征以后，还可以对音频特征进行数据增强的方式来获得音频特征集合，丰富了输入至初始识别模型进行训练的特征数据的数量，从而提高了情感识别模型的识别准确率，在背景带噪等复杂的环境下具有鲁棒性。并且在初始识别模型中使用隐藏层以及NetVLAD层的架构，能够将任意长度的变量都转换为定长变量，从而输出各情感标签以及行为标签的概率，使得情感识别模型的适用范围更广。

另外，在复杂的直播场景下进行情感识别时，可以实时获取直播场景中的流式音频数据，从而实现实时识别直播场景中不同说话人的情感状态以及行为信息(如唱歌、讲课等)。采用轻量级的情感识别模型来进行情感识别，可以提高情感识别的效率，做到实时流式判断情感状态。

附图说明

图1是本申请实施例一提供的一种情感识别模型的训练方法实施例的流程图；

图2是本申请实施例一提供的一种初始识别模型架构示意图；

图3是本申请实施例二提供的一种情感识别方法实施例的流程图；

图4是本申请实施例三提供的一种情感识别模型的训练装置实施例的结构框图；

图5是本申请实施例四提供的一种情感识别装置实施例的结构框图；

图6是本申请实施例五提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。

实施例一

图1为本申请实施例一提供的一种情感识别模型的训练方法实施例的流程图。示例性地，该情感识别模型可以应用于直播场景中对主播的情感识别。本实施例可以包括如下步骤：

步骤110，获取针对直播场景的音频样本数据集合，所述音频样本数据集合中的各音频样本数据具有预先标注的情感标签以及行为标签。

示例性地，音频样本数据集合中的音频样本数据可以为直播场景中产生的音频数据。为了匹配真实的直播场景，可以采集大量的真实场景数据作为音频样本数据，这些真实场景数据包括了多个不同说话人的音频数据，避免因单人单句的样本数据导致的与直播场景不符，导致模型过拟合的情况发生。

为了提高对音频数据的识别，获得干净独立的音频数据，在实现时可以抽取直播场景中说话人(例如主播)的独立麦克风音频作为音频样本数据。例如，主播在直播时，可以获取主播使用的设备的麦克风所采集的音频数据，作为音频样本数据。

需要说明的是，本实施例不对音频样本数据的时长进行限制，但为了保证训练效果，音频样本数据的时长不宜过长。如果音频样本数据的时长太长，可以采用加窗的方法来截取一定时长(例如，1～5秒)的音频数据作为音频样本数据。

作为训练数据，各音频样本数据具有预先标注的情感标签以及行为标签。其中，情感标签用于标记情感状态信息，如开心、生气、伤心、惊讶、激动、害怕、中立等。行为标签用于标记主播的行为信息，如唱歌、售卖商品、讲课等。在直播场景下，增加行为标签有利于进一步切合实际场景。

对各音频样本数据的情感标签以及行为标签的标注，可以是人工标注(例如，标注员对音频数据进行人工标注)，也可以是采用标注模型进行的预标注，还可以是人工标注和预标注相结合的方式，本实施例对此不作限制。

在一种实施例中，步骤110进一步可以包括如下步骤：

步骤110-1，获取初始音频样本数据集合，所述初始音频样本数据集合中的各音频样本数据具有预先标注的情感标签以及行为标签。

步骤110-2，汇总所述初始音频样本数据集合中的各情感标签对应的音频样本数据的第一数量以及各行为标签对应的音频样本数据的第二数量。

步骤110-3，根据所述第一数量对各情感标签对应的音频样本数据进行均衡，以及，根据所述第二数量对各行为标签对应的音频样本数据进行均衡，生成音频样本数据集合。

在该实施例中，为了避免不同情感签标或不同行为标签对应的音频样本数据的数量的不均，从而影响训练效果。可以对样本数据进行预处理，以使得不同标签的样本数据达到均衡。例如，真实环境下的直播数据，人的情感状态主要集中在中立状态，使得中立状态的情感标签对应的样本数量会大于其他情感标签对应的样本数量，数据标注标签的不平衡容易影响到后面神经网络的训练，因此需要对不同标签的数据进行均衡，以平均所有标签的样本。

在步骤110-1中，初始音频样本数据集合是指初始采集、并标注了情感标签以及行为标签音频样本数据。在获得初始音频样本数据集合以后，在步骤110-2中可以汇总初始音频样本数据集合中的各情感标签对应的音频样本数据的第一数量，以及，汇总各行为标签对应的音频样本数据的第二数量。例如，如果初始音频样本数据集合中包含的情感标签有“开心”、“伤心”和“中立”，则可以统计“开心”标签对应的音频样本数据的数量(即第一数量)，统计“伤心”标签对应的音频样本数据的数量以及统计“中立”标签对应的音频样本数据的数量。

当统计完各情感标签对应的音频样本数据的第一数量以及各行为标签对应的音频样本数据的第二数量以后，在步骤110-3中则可以进行均衡操作，即，根据各第一数量对各情感标签对应的音频样本数据进行均衡，以及，根据各第二数量对各行为标签对应的音频样本数据进行均衡，最终得到音频样本数据集合。

在一种实施例中，步骤110-3中根据所述第一数量对各情感标签对应的音频样本数据进行均衡的步骤，进一步可以包括如下步骤：

步骤110-3-1，根据最大的第一数量以及最小的第一数量，确定均衡系数。

在该实施例中，在获得各情感标签对应的音频样本数据的第一数量以后，可以对各第一数量进行排序，从而确定最大的第一数量以及最小的第一数量。然后根据最大的第一数量以及最小的第一数量之间的差异，确定均衡系数。

在一种示例中，可以将均衡系数设置为大于最大的第一数量与最小的第一数量的比值。例如，假设初始音频样本数据集合中包含的情感标签有“开心”、“伤心”和“中立”，其中“开心”标签对应的音频样本数据的数量为50，“伤心”标签对应的音频样本数据的数量为40，“中立”标签对应的音频样本数据的数量为200。则最大的第一数量(200)与最小的第一数量(40)的比值是5，则可以将均衡系数设定为大于5的数值，比如将均衡系数设定为10。

步骤110-3-2，对各情感标签对应的音频样本数据按照所述均衡系数进行复制。

得到均衡系数以后，则可以按照该均衡系数对各情感标签对应的音频样本数据进行复制，例如，各情感标签对应的音频样本数据均复制10份，得到“开心”标签对应的音频样本数据的数量为500，“伤心”标签对应的音频样本数据的数量为400，“中立”标签对应的音频样本数据的数量为2000。

步骤110-3-3，从各情感标签对应的音频样本数据中随机抽取相同数量的音频样本数据，作为用于训练的音频样本数据。

经过步骤110-3-2对各情感标签对应的音频样本数据的数据量进行复制扩大以后，则可以分别从各情感标签对应的音频样本数据中，随机抽取相同数量的音频样本数据作为用于训练的音频样本数据。例如，在上述“开心”标签对应的500个音频样本数据中随机抽取200个样本数据，以及从“伤心”标签对应的400个音频样本数据中随机抽取200个样本数据，以及从“中立”标签对应的2000个音频样本数据中随机抽取200个样本数据，组成音频样本数据集合，使得音频样本数据集合中“开心”、“伤心”和“中立”这三种情感标签的数量达到均衡。

对于根据第二数量对各行为标签对应的音频样本数据进行均衡的实现，与上述情感标签的均衡实现类似的，具体可以参考步骤110-3-1至步骤110-3-3的描述，此处不再赘述了。

步骤120，提取各音频样本数据中的音频特征，并对所述音频特征进行数据增强，获得音频特征集合。

示例性地，音频特征可以包括但不限于：Fbank特征、MFCC(Mel FrequencyCepstrum Coefficient，梅尔倒谱系数)特征、LPC(Linear Prediction Coefficient，线性预测系数)特征等。

以下以音频特征为Fbank特征为例，对特征提取的过程进行说明，其中，FBank特征提取要在预处理之后进行，这时语音已经分帧，需要逐帧提取FBank特征：

分帧之后得到的仍然是时域信号，为了提取FBank特征，首先需要将时域信号转换为频域信号。傅里叶变换可以将信号从时域转到频域，可以包括但不限于连续傅里叶变换、离散傅里叶变换、快速傅里叶变换(fft)等。然后对傅里叶变换完成后得到的频域信号进行能量谱计算，每个频带范围的能量大小不一，不同音素的能量谱也不一样。得到不同频率处的能量以后，则可以根据能量谱进行Mel滤波，通过Mel滤波器组进行滤波，以得到符合人耳听觉习惯的声谱，最后对数据进行去均值处理得到Fbank特征。

为了防止情感识别模型过拟合，提高情感识别模型的性能，可以对提取的音频特征进行数据增强，并将数据增强后的音频特征与原有的音频特征组合成音频特征集合。

在一种实施例中，可以基于时间域对音频特征进行数据增强，则步骤120进一步可以包括如下步骤：

步骤120-1，根据各音频样本数据的时长以及对应的音频特征，按照指定次数，随机抽取任意时长的数据作为新样本数据，并从对应音频样本数据中获取该新样本数据对应的音频特征。

步骤120-2，将原有的各音频样本数据的音频特征以及各新样本数据的音频特征组成音频特征集合。

在该实施例中，对于每个音频样本数据，可以从其中随机抽取不同时长的数据作为新样本数据，并从该音频样本数据的音频特征中获取该新样本数据对应的音频特征，然后将原有的各音频样本数据的音频特征以及各新样本数据的音频特征组成音频特征集合。例如，假设一个音频样本数据的长度(即时长)为10s，当前抽取的随机数为2和7，则可以从该音频样本数据中定位2s-7s这段的音频数据，并复制2s-7s的音频数据作为新样本数据，同时获取2s-7s这段音频数据对应的音频特征作为新样本数据的音频特征。

需要说明的是，对于同一个音频样本数据，对其进行随机抽取的次数(即指定次数)可以根据实际需求确定，本实施例对此不作限定。这样，一个音频样本数据可以衍生出指定次数个新样本数据，丰富了样本数据以及音频特征的数量。

在其他实施例中，还可以基于频域对音频特征进行数据增强，则音频特征还可以包括频谱数据，步骤120进一步可以包括如下步骤：

对所述频谱数据按照预设策略进行增强；将增强后的频谱数据添加到所述音频特征集合中。

本实施例通过在频谱上进行操作从而达到数据增强的目的。在实现时，可以采用“时间扭曲”、“频率遮蔽”和“时间遮蔽”等策略来实现频谱增强。其中，在“时间扭曲”策略中，可以随机选取一个点出来，然后将它放在距离当前位置为W的地方，左边、右边都可以，从而构成新的样本数据。在“频率遮蔽”策略中，一个频率通道[f0,f0+f)是被遮蔽的。f服从从0到频率掩蔽参数F的正态分布，f0从(0,ν-f)中选择，这里ν指的是频率通道的个数。在“时间遮蔽”策略中，t个连续的时间步长[t0,t0+t)被遮蔽。t服从从0到时间掩蔽参数T的正态分布，t0从[0,τ-t)中选择。当然，还可以将“频率遮蔽”和“时间遮蔽”这两种策略结合起来进行数据增强。

除了上述方法以外，当然还可以采用其他方式对音频特征进行数据增强，本实施例对此不作限制。

步骤130，将所述音频特征集合输入至初始识别模型，采用预设损失函数进行训练，生成情感识别模型，其中，所述初始识别模型是包括隐藏层以及NetVLAD层的深度神经网络模型。

在一种实施例中，如图2的初始识别模型架构图所示，初始识别模型可以是包括隐藏层以及NetVLAD(Vector of Locally Aggregated Descriptors，局部聚集描述子向量)层的深度神经网络(Deep neural network，DNN)模型。其中，隐藏层采用多层的ResNet34(深度残差网络)来获取音频的隐藏特征。NetVLAD层用于把变长变量映射为定长变量，对隐藏特征进行编码汇总输出每个标签(包括情感标签以及行为标签)的概率。初始识别模型为轻量级的模型，可以使得训练出的情感识别模型也是轻量级的，从而提高了模型的数据处理效率。

将音频特征集合输入至初始识别模型以后，可以采用亲和力损失函数(Affinityloss)、焦点损失函数(Focal loss)以及交叉熵损失函数的其中一种或结合进行有监督的训练，以得到情感识别模型。在训练过程中所使用的优化器可以是RMSProp函数、SGD(Stochastic Gradient Descent，随机梯度下降法)及Adam(一种可以替代传统随机梯度下降过程的一阶优化算法)函数等的一种或结合。

实施例二

图3为本申请实施例二提供的一种情感识别方法实施例的流程图。本实施例属于模型推理阶段，示例性地，该情感识别方法可以应用于直播场景中对主播的情感识别。本实施例可以包括如下步骤：

步骤310，获取直播场景中的任意长度的目标音频流。

在该步骤中，目标音频流可以是直播场景下产生的、需要进行情感识别的音频流。在实现时可以获取直播场景中说话人(例如主播)的独立麦克风的音频数据作为目标音频流。

本实施例不对目标音频流的长度进行限制，其可以是任意的长度，从而可以很好地扩大了本实施例的使用范围。

步骤320，对所述目标音频流进行加窗处理，并提取窗口内的目标音频数据对应的目标音频特征集合。

在该步骤中，可以首先对目标音频流进行加窗分帧处理，其中，窗口大小和时移可以根据实际需求设定，本实施例对此不作限制。例如，可以选择2～4秒的窗口大小。

示例性地，目标音频特征集合中的目标音频特征可以包括但不限于：Fbank特征、MFCC特征、LPC特征等。

步骤330，将所述目标音频特征集合输入至情感识别模型中，由所述情感识别模型对所述目标音频特征集合进行处理，输出对应的多个情感标签的第一概率以及多个行为标签的第二概率。

在该步骤中，得到目标音频特征集合以后，可以将该目标音频特征集合输入至实施例一训练得到的情感识别模型中，通过情感识别模型对目标音频特征集合进行处理，输出多个情感标签的第一概率，以及，多个行为标签的第二概率。

在一种实施例中，情感识别模型包括隐藏层以及NetVLAD层，则步骤330进一步可以包括如下步骤：

在所述情感识别模型中，由所述隐藏层从所述目标音频特征集合中提取隐藏特征；将所述隐藏特征输入至所述NetVLAD层，由所述NetVLAD层对所述隐藏特征进行汇总，输出多个情感标签的第一概率以及多个行为标签的第二概率。

在实现时，隐藏层可以采用多层的ResNet34来获取目标音频特征集合的隐藏特征。NetVLAD层用于把变长变量映射为定长变量，对隐藏特征进行编码汇总，输出多个情感标签的第一概率以及多个行为标签的第二概率。

步骤340，根据多个所述第一概率以及多个所述第二概率，确定所述目标音频数据对应的目标行为以及所述目标行为下的目标情感标签。

当推理结束以后，可以获得各个情感标签的第一概率以及各个行为标签的第二概率，然后通过对所有的第一概率以及所有的第二概率进行分析，可以得到窗口内的目标音频数据的目标行为和情感状态。

在一种实施例中，步骤340进一步可以包括如下步骤：

确定最大的第二概率对应的行为标签作为目标行为；确定最大的第一概率，若所述最大的第一概率大于或等于预设阈值，则将该对应的情感标签作为所述目标行为下的目标情感标签；若所述最大的第一概率小于预设阈值，则将预设情感标签作为所述目标行为下的目标情感标签。

在该实施例中，当获得情感识别模型针对当前窗口内的目标音频数据输出的各个行为标签的第二概率以后，可以比较各第二概率，从而确定最大的第二概率，并将该最大的第二概率对应的行为标签作为当前窗口的目标音频数据的目标行为。例如，行为标签包括唱歌、售卖商品、讲课，对应的第二概率分别是0.6，0.3和0.1，则可以确定目标行为为唱歌。

当获得情感识别模型针对当前窗口内的目标音频数据输出的各个情感标签的第一概率以后，可以比较各第一概率，从而确定最大的第一概率。然后，将该最大的第一概率与预设阈值进行比较，如果该最大的第一概率大于或等于预设阈值，则可以将该最大的第一概率对应的情感标签作为目标情感标签，否则，则将预设情感标签作为目标情感标签。其中，预设情感标签可以为直播场景下出现概率比较大的情感标签。

例如，由于现实场景中，中性的情感占据多数，为了提升F值(F-Measure)，可以增加一些确认为中性的概率，比如可以将预设情感标签设定为中性标签，如果当前最大的第一概率对应的情感标签为中性标签，则确定目标情感标签为中性标签。如果当前最大的第一概率对应的情感标签不为中性标签，则需要将该最大的第一概率与预设阈值(比如是0.75)比较，如果最大的第一概率对应的情感标签超过预设阈值，则目标情感标签归为该最大的第一概率对应的情感标签；如果最大的第一概率对应的情感标签不超过预设阈值，则目标情感标签归为中性标签。

在本实施例中，在复杂的直播场景下进行情感识别时，可以实时获取直播场景中的流式音频数据，从而实现实时识别直播场景中不同说话人的情感状态以及行为信息(如唱歌、讲课等)。采用轻量级的情感识别模型来进行情感识别，可以提高情感识别的效率，做到实时流式判断情感状态。

实施例三

图4为本申请实施例三提供的一种情感识别模型的训练装置实施例的结构框图，可以包括如下模块：

样本数据获取模块410，用于获取针对直播场景的音频样本数据集合，所述音频样本数据集合中的各音频样本数据具有预先标注的情感标签以及行为标签；

音频特征提取模块420，用于提取各音频样本数据中的音频特征；

数据增强模块430，用于对所述音频特征进行数据增强，获得音频特征集合；

模型训练模块440，用于将所述音频特征集合输入至初始识别模型，采用预设损失函数进行训练，生成情感识别模型，其中，所述初始识别模型是包括隐藏层以及NetVLAD层的深度神经网络模型。

在一种实施例中，所述数据增强模块430具体用于：

根据各音频样本数据的时长以及对应的音频特征，按照指定次数，随机抽取任意时长的数据作为新样本数据，并从对应音频样本数据中获取该新样本数据对应的音频特征；

将原有的各音频样本数据的音频特征以及各新样本数据的音频特征组成音频特征集合。

在一种实施例中，所述音频特征包括频谱数据，所述数据增强模块430还用于：

对所述频谱数据按照预设策略进行增强；

将增强后的频谱数据添加到所述音频特征集合中。

在一种实施例中，所述样本数据获取模块410可以包括如下子模块：

初始样本集合获取子模块，用于获取初始音频样本数据集合，所述初始音频样本数据集合中的各音频样本数据具有预先标注的情感标签以及行为标签；

汇总子模块，用于汇总所述初始音频样本数据集合中的各情感标签对应的音频样本数据的第一数量以及各行为标签对应的音频样本数据的第二数量；

均衡子模块，用于根据所述第一数量对各情感标签对应的音频样本数据进行均衡，以及，根据所述第二数量对各行为标签对应的音频样本数据进行均衡，生成音频样本数据集合。

在一种实施例中，所述均衡子模块具体用于：

根据最大的第一数量以及最小的第一数量，确定均衡系数；

对各情感标签对应的音频样本数据按照所述均衡系数进行复制；

从各情感标签对应的音频样本数据中随机抽取相同数量的音频样本数据，作为用于训练的音频样本数据。

本申请实施例所提供的一种情感识别模型的训练装置可执行本申请实施例一中的一种情感识别模型的训练方法，具备执行方法相应的功能模块和有益效果。

实施例四

图5为本申请实施例四提供的一种情感识别装置实施例的结构框图，可以包括如下模块：

音频流获取模块510，用于获取直播场景中的任意长度的目标音频流；

目标特征提取模块520，用于对所述目标音频流进行加窗处理，并提取窗口内的目标音频数据对应的目标音频特征集合；

模型推理模块530，用于将所述目标音频特征集合输入至情感识别模型中，由所述情感识别模型对所述目标音频特征集合进行处理，输出对应的多个情感标签的第一概率以及多个行为标签的第二概率；

目标情感标签确定模块540，用于根据多个所述第一概率以及多个所述第二概率，确定所述目标音频数据对应的目标行为以及所述目标行为下的目标情感标签。

在一种实施例中，所述情感识别模型包括隐藏层以及NetVLAD层；所述模型推理模块530具体用于：

在所述情感识别模型中，由所述隐藏层从所述目标音频特征集合中提取隐藏特征；

将所述隐藏特征输入至所述NetVLAD层，由所述NetVLAD层对所述隐藏特征进行汇总，输出多个情感标签的第一概率以及多个行为标签的第二概率。

在一种实施例中，所述目标情感标签确定模块540具体用于：

确定最大的第二概率对应的行为标签作为目标行为；

确定最大的第一概率，若所述最大的第一概率大于或等于预设阈值，则将该对应的情感标签作为所述目标行为下的目标情感标签；若所述最大的第一概率小于预设阈值，则将预设情感标签作为所述目标行为下的目标情感标签。

本申请实施例所提供的一种情感识别装置可执行本申请实施例二中的一种情感识别装置，具备执行方法相应的功能模块和有益效果。

实施例五

图6为本申请实施例五提供的一种电子设备的结构示意图，如图6所示，该电子设备包括处理器610、存储器620、输入装置630和输出装置640；电子设备中处理器610的数量可以是一个或多个，图6中以一个处理器610为例；电子设备中的处理器610、存储器620、输入装置630和输出装置640可以通过总线或其他方式连接，图6中以通过总线连接为例。

存储器620作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本申请实施例中的上述实施例一或实施例二对应的程序指令/模块。处理器610通过运行存储在存储器620中的软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述的方法实施例中提到的方法。

存储器620可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器620可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器620可进一步包括相对于处理器610远程设置的存储器，这些远程存储器可以通过网络连接至设备/终端/服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置630可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置640可包括显示屏等显示设备。

实施例六

本申请实施例六还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行上述方法实施例中的方法。

当然，本申请实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本申请任意实施例所提供的方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本申请可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

值得注意的是，上述装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

注意，上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解，本申请不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请构思的情况下，还可以包括更多其他等效实施例，而本申请的范围由所附的权利要求范围决定。

Claims

1.一种情感识别模型的训练方法，其特征在于，所述方法包括：

将所述音频特征集合输入至初始识别模型，采用预设损失函数进行训练，生成情感识别模型，其中，所述初始识别模型是包括隐藏层以及NetVLAD层的深度神经网络模型；

所述获取针对直播场景的音频样本数据集合，包括：

获取初始音频样本数据集合，所述初始音频样本数据集合中的各音频样本数据具有预先标注的情感标签以及行为标签；

汇总所述初始音频样本数据集合中的各情感标签对应的音频样本数据的第一数量以及各行为标签对应的音频样本数据的第二数量；

根据所述第一数量对各情感标签对应的音频样本数据进行均衡，以及，根据所述第二数量对各行为标签对应的音频样本数据进行均衡，生成音频样本数据集合。

2.根据权利要求1所述的方法，其特征在于，所述对所述音频特征进行数据增强，获得音频特征集合，包括：

3.根据权利要求2所述的方法，其特征在于，所述音频特征包括频谱数据，所述对所述音频特征进行数据增强，获得音频特征集合，还包括：

对所述频谱数据按照预设策略进行增强；

将增强后的频谱数据添加到所述音频特征集合中。

4.根据权利要求1所述的方法，其特征在于，所述根据所述第一数量对各情感标签对应的音频样本数据进行均衡，包括：

根据最大的第一数量以及最小的第一数量，确定均衡系数；

5.一种情感识别方法，其特征在于，所述方法包括：

获取直播场景中的任意长度的目标音频流；

将所述目标音频特征集合输入至根据权利要求1-4任一项中生成的情感识别模型中，由所述情感识别模型对所述目标音频特征集合进行处理，输出对应的多个情感标签的第一概率以及多个行为标签的第二概率；

6.根据权利要求5所述的方法，其特征在于，所述情感识别模型包括隐藏层以及NetVLAD层；所述由所述情感识别模型对所述目标音频特征集合进行处理，包括：

7.根据权利要求5或6所述的方法，其特征在于，所述根据多个所述第一概率以及多个所述第二概率，确定所述目标音频数据对应的目标行为以及所述目标行为下的目标情感标签，包括：

确定最大的第二概率对应的行为标签作为目标行为；

8.一种情感识别模型的训练装置，其特征在于，所述装置包括：

模型训练模块，用于将所述音频特征集合输入至初始识别模型，采用预设损失函数进行训练，生成情感识别模型，其中，所述初始识别模型是包括隐藏层以及NetVLAD层的深度神经网络模型；

所述样本数据获取模块包括如下子模块：

9.一种情感识别装置，其特征在于，所述装置包括：

模型推理模块，用于将所述目标音频特征集合输入至根据权利要求1-4任一项中生成的情感识别模型中，由所述情感识别模型对所述目标音频特征集合进行处理，输出对应的多个情感标签的第一概率以及多个行为标签的第二概率；

10.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7任一项所述的方法。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述的方法。