CN116072154B

CN116072154B - 基于数据增强的语音情感识别方法、装置以及设备

Info

Publication number: CN116072154B
Application number: CN202310206220.9A
Authority: CN
Inventors: 黄佩瑶; 唐小煜; 林逸鑫; 龚雅云
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2023-03-07
Filing date: 2023-03-07
Publication date: 2023-07-18
Anticipated expiration: 2043-03-07
Also published as: CN116072154A

Abstract

本发明涉及语音情感识别领域，特别涉及一种基于数据增强的语音情感识别方法、装置以及设备，对若干个语音训练样本数据进行数据增强，通过解决语音训练样本数据集的数据稀疏以及类间不平衡的问题，并通过提取语音训练样本数据的经验特征、深度特征，实现了人类先验知识和深度学习的互补优势的充分利用，克服语音训练样本数据集的数据稀疏导致的情感信息提取不全面不充分的问题，提高了模型训练的精准性，以提高对语音进行情感识别的精准度。

Description

基于数据增强的语音情感识别方法、装置以及设备

技术领域

本发明涉及语音情感识别领域，特别涉及是一种基于数据增强的语音情感识别方法、装置、设备以及存储介质。

背景技术

情感计算已经成为人类情感的自动识别、解释和汇编领域中一个活跃的跨学科研究领域,而语音情感识别（Speech Emotion Recognition，SER）在自然的人机交互中起到了关键作用。语音情感识别旨在从语音信号中解码情感内容，即获取一段音频样本，从样本中提取出包含情感的特征，基于这些特征判断该样本所属的情感类别。

随着语音情感识别和深度学习技术的进一步发展，许多基于深度学习技术的模型被提出以更好地提升语音情感识别的性能。而当前广泛使用的情感语音数据库面临着数据稀疏、类间不平衡的问题，但现有的模型多集中于在稀疏数据中提取更多的情感特征或是单纯增广稀疏数据集，很容易导致模型过拟合或性能提升有限，从而对语音信号的情感识别的精准度造成了影响。

发明内容

基于此，本发明的目的在于，提供一种基于数据增强的语音情感识别方法、装置、设备以及存储介质，对若干个语音训练样本数据进行数据增强，通过解决语音训练样本数据集的数据稀疏以及类间不平衡的问题，并通过提取语音训练样本数据的经验特征、深度特征，实现了人类先验知识和深度学习的互补优势的充分利用，克服语音训练样本数据集的数据稀疏导致的情感信息提取不全面不充分的问题，提高了模型训练的精准性，以提高对语音进行情感识别的精准度。

第一方面，本申请实施例提供了一种基于数据增强的语音情感识别方法，包括以下步骤：

构建神经网络模型，其中，所述神经网络模型包括数据增强模块、特征提取模块以及情感识别模块；

获得语音训练样本数据集以及语音参考样本数据集，其中，所述语音训练样本数据集包括若干个语音训练样本数据；所述语音参考样本数据集包括与所述语音训练样本数据集中的各个情感域对应的若干个语音参考样本数据；

将所述语音训练样本数据集以及语音参考样本数据集输入至所述数据增强模块中，基于若干个情感域对应的若干个所述语音参考样本数据，对若干个所述语音训练样本数据进行数据增强，构建语音增强样本数据集，其中，所述语音增强样本数据集包括若干个增强后的语音训练样本数据；

将所述语音增强样本数据集输入至所述特征提取模块中进行特征提取，获得各个所述增强后的语音训练样本数据以及语音训练样本数据对应的经验特征以及深度特征；

将各个所述增强后的语音训练样本数据对应的经验特征以及深度特征输入至所述情感识别模块中，获得各个所述增强后的语音训练样本数据以及语音训练样本数据对应的预测情感标签数据；

获得各个所述增强后的语音训练样本数据以及语音训练样本数据对应的真实情感标签数据，根据各个所述增强后的语音训练样本数据以及语音训练样本数据对应的预测情感标签数据、真实情感标签数据以及预设的损失函数，对所述神经网络模型进行训练，获得目标神经网络模型；

获得待识别的语音数据，将所述待识别的语音数据输入至所述目标神经网络模型中，获得所述待识别的语音数据的情感识别结果。

第二方面，本申请实施例提供了一种基于数据增强的语音情感识别装置，包括：

模型构建模块，用于构建神经网络模型，其中，所述神经网络模型包括数据增强模块、特征提取模块以及情感识别模块；

数据获得模块，用于获得语音训练样本数据集以及语音参考样本数据集，其中，所述语音训练样本数据集包括若干个语音训练样本数据；所述语音参考样本数据集包括与所述语音训练样本数据集中的各个情感域对应的若干个语音参考样本数据；

数据增强模块，用于将所述语音训练样本数据集以及语音参考样本数据集输入至所述数据增强模块中，基于若干个情感域对应的若干个所述语音参考样本数据，对若干个所述语音训练样本数据进行数据增强，构建语音增强样本数据集，其中，所述语音增强样本数据集包括若干个增强后的语音训练样本数据；

特征提取模块，用于将所述语音增强样本数据集输入至所述特征提取模块中进行特征提取，获得各个所述增强后的语音训练样本数据以及语音训练样本数据对应的经验特征以及深度特征；

情感标签预测模块，用于将各个所述增强后的语音训练样本数据对应的经验特征以及深度特征输入至所述情感识别模块中，获得各个所述增强后的语音训练样本数据以及语音训练样本数据对应的预测情感标签数据；

模型训练模块，用于获得各个所述增强后的语音训练样本数据以及语音训练样本数据对应的真实情感标签数据，根据各个所述增强后的语音训练样本数据以及语音训练样本数据对应的预测情感标签数据、真实情感标签数据以及预设的损失函数，对所述神经网络模型进行训练，获得目标神经网络模型；

情感识别模块，用于获得待识别的语音数据，将所述待识别的语音数据输入至所述目标神经网络模型中，获得所述待识别的语音数据的情感识别结果。

第三方面，本申请实施例提供了一种计算机设备，包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的基于数据增强的语音情感识别方法的步骤。

第四方面，本申请实施例提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的基于数据增强的语音情感识别方法的步骤。

在本申请实施例中，提供一种基于数据增强的语音情感识别方法、装置、设备以及存储介质，对若干个语音训练样本数据进行数据增强，通过解决语音训练样本数据集的数据稀疏以及类间不平衡的问题，并通过提取语音训练样本数据的经验特征、深度特征，实现了人类先验知识和深度学习的互补优势的充分利用，克服语音训练样本数据集的数据稀疏导致的情感信息提取不全面不充分的问题，提高了模型训练的精准性，以提高对语音进行情感识别的精准度。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1为本申请一个实施例提供的基于数据增强的语音情感识别方法的流程示意图；

图2为本申请一个实施例提供的基于数据增强的语音情感识别方法的流程中S3的示意图；

图3为本申请一个实施例提供的基于数据增强的语音情感识别方法的流程中S4的示意图；

图4为本申请一个实施例提供的基于数据增强的语音情感识别方法的流程中S5的示意图；

图5为本申请一个实施例提供的基于数据增强的语音情感识别方法的流程中S7的示意图；

图6为本申请一个实施例提供的基于数据增强的语音情感识别装置的结构示意图；

图7为本申请一个实施例提供的计算机设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”/“若”可以被解释成为“在……时”或“当……时”或“响应于确定”。

请参阅图1，图1为本申请一个实施例提供的基于数据增强的语音情感识别方法的流程示意图，所述方法包括如下步骤：

S1：构建神经网络模型。

所述基于数据增强的语音情感识别方法的执行主体为基于数据增强的语音情感识别方法的识别设备（以下简称识别设备），在一个可选的实施例中，识别设备可以是一台计算机设备，可以是服务器，或多台计算机设备联合而成的服务器机群。

所述神经网络模型是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型，所述神经网络结构包括CNN、RNN卷积神经网络结构、Transformer、Bert系列自注意力神经网络结构以及LSTM、ELMO系列序列神经网络结构等等。

所述神经网络模型包括数据增强模块、特征提取模块以及情感识别模块，其中，所述数据增强模块用于进行语音训练样本集的增强；特征提取模块用于提取语音训练样本中的情感特征；情感识别模块用于根据提取到的情感特征，进行情感极性的识别。

S2：获得语音训练样本数据集以及语音参考样本数据集。

在本实施例中，识别设备可以通过预设的数据库中，获得语音训练样本数据集以及语音参考样本数据集，其中，所述语音训练样本数据集包括若干个语音训练样本数据；所述语音参考样本数据集包括与所述语音训练样本数据集中的各个情感域对应的若干个语音参考样本数据。

S3：将所述语音训练样本数据集以及语音参考样本数据集输入至所述数据增强模块中，基于若干个情感域对应的若干个所述语音参考样本数据，对若干个所述语音训练样本数据进行数据增强，构建语音增强样本数据集。

所述语音增强样本数据集包括若干个增强后的语音训练样本数据以及若干个语音训练样本数据，其中，各个所述增强后的语音训练样本数据为基于各个情感域对应的语音参考样本数据，对对应所述语音训练样本数据进行增强后的数据。

所述数据增强模块可以采用StarGANv2-VC深度学习网络，用以原数据集来合成类真实样本以增广稀疏数据集和在有限的数据集提取更多的饱含情感的特征出发。

为了更好地进行数据增强，在本实施例中，识别设备先将所述语音训练样本数据集输入至StarGANv2-VC深度学习网络中进行预训练至模型收敛。

识别设备通过引入语音参考样本数据集中，若干个情感域对应的若干个语音参考样本数据，对若干个所述语音训练样本数据进行数据增强，通过解决语音训练样本数据集的数据稀疏以及类间不平衡的问题，从而克服语音训练样本数据集的数据稀疏导致的情感信息提取不全面不充分的问题，提高了模型训练的精准性，以提高对语音进行情感识别的精准度。

在一个可选的实施例中，所述数据增强模块包括风格编码单元、基频提取单元以及数据合成单元。请参阅图2，图2为本申请一个实施例提供的基于数据增强的语音情感识别方法的流程中S3的示意图，包括步骤S31~S33，具体如下：

S31：将所述语音参考样本数据集输入至所述风格编码单元中进行编码，构建风格编码训练集。

所述风格编码单元为风格编码器(Style encoder)；所述风格编码训练集包括若干个情感域对应的风格编码数据。

在本实施例中，识别设备根据预设的样本抽样数目，从所述语音参考样本数据集中的每一个情感域中，均随机抽取样本抽样数目对应的语音参考样本，并输入至所述风格编码单元中，获得若干个情感域对应的风格编码数据，其中，所述风格编码数据为：

式中，为风格编码数据，S（）为风格编码函数，/>为第k个情感域，/>为第k个情感域的语音参考样本。

S32：将所述语音训练样本数据集输入至所述基频提取单元中进行基频提取，构建基频训练集。

所述基频提取单元可以采用感兴趣区域提取网络（F0网络），其中，基频提取单元包括卷积层以及Bi-LSTM网络。所述基频训练集包括若干个语音训练样本数据对应的基频数据。

在本实施例中，识别设备将所述语音训练样本数据集输入至基频提取单元进行卷积处理，获得若干个语音训练样本数据对应的卷积数据，作为若干个语音训练样本数据对应的基频数据，从基频方面，对语音训练样本数据进行充分补充，实现了对语音训练样本数据进一步的数据增强，以提高模型的训练精准性。

S33：将所述语音训练样本数据集、风格编码训练集以及基频训练集输入至所述数据合成单元中，根据预设的数据合并算法，将每个所述语音训练样本数据，分别与对应所述语音训练样本数据对应的基频数据以及每个所述情感域的语音参考样本数据对应的风格编码数据进行数据合并，获得每个语音训练样本数据对应的若干个增强后的语音训练样本数据。

所述数据合成单元可以采用生成器（Generator）以及鉴别器 (Discriminator)，生成器起到了将源样本，即语音训练样本集转换成具有特定情感合成样本的作用；鉴别器起到了分辨样本的真实性和分辨出样本的原始标签的作用，它的反馈作用于生成器能够训练生成器合成更加真实的样本。

在本实施例中，识别设备将所述语音训练样本数据集、风格编码训练集以及基频训练集输入至所述数据合成单元中，根据预设的数据合并算法，将每个所述语音训练样本数据，分别与对应所述语音训练样本数据对应的基频数据以及每个所述情感域的语音参考样本数据对应的风格编码数据进行数据合并，获得每个语音训练样本数据对应的若干个增强后的语音训练样本数据，其中，所述数据合并算法为：

式中，Y为所述增强后的语音训练样本数据，N为所述语音训练样本数据的数目，为第n个语音训练样本数据，K为所述情感域的数目，k表示为第k个情感域，/>为所述风格编码数据，/>为所述基频数据。

S4：将所述语音增强样本数据集输入至所述特征提取模块中进行特征提取，获得各个所述增强后的语音训练样本数据以及语音训练样本数据对应的经验特征以及深度特征。

为了解决在稀疏数据集中情感信息提取不全面不充分的问题，在本实施例中，识别设备采用双级特征提取方法，将所述语音增强样本数据集输入至所述特征提取模块中进行特征提取，获得各个所述增强后的语音训练样本数据以及语音训练样本数据对应的经验特征以及深度特征。

在一个可选的实施例中，所述特征提取模块包括经验提取模块以及深度特征提取模块，其中，所述经验提取模块包括手工特征提取模块以及编码模块；请参阅图3，图3为本申请一个实施例提供的基于数据增强的语音情感识别方法的流程中S4的示意图，包括步骤S41~S43，具体如下：

S41：将各个所述增强后的语音训练样本数据以及语音训练样本数据输入至所述手工特征提取模块中进行手工特征提取，获得各个所述增强后的语音训练样本数据以及语音训练样本数据对应的手工特征集。

所述手工特征提取模块可以采用librosa音频分析模块，在本实施例中，识别设备将各个所述增强后的语音训练样本数据以及语音训练样本数据输入至所述手工特征提取模块中进行手工特征提取，获得各个所述增强后的语音训练样本数据以及语音训练样本数据对应的手工特征集，其中，所述手工特征集包括梅尔频率倒谱系数、基频特征、频谱质心、过零率、均方根能量、谱平面、梅尔谱图以及色谱图。

不仅充分利用语音信号的全局信息，还有效地滤除沉默内容以及抑制噪声干扰，准确地定位语音训练样本中目标情感区域，提高情感识别的精准性。

S42：将各个所述增强后的语音训练样本数据以及语音训练样本数据对应的手工特征集输入至所述编码模块进行编码，获得各个所述增强后的语音训练样本数据以及语音训练样本数据对应的经验特征。

所述编码模块可以采用Bi-LSTM编码器。在本实施例中，识别设备将各个所述增强后的语音训练样本数据以及语音训练样本数据对应的手工特征集输入至所述Bi-LSTM编码器进行编码，dropout=0.5并展平，获得各个所述增强后的语音训练样本数据对应的手工情感特征编码，作为各个所述增强后的语音训练样本数据对应的经验特征，具体如下：

式中，为经验特征，/>（）为编码函数，/>为手工特征。

通过经验特征提取的方式，实现了对增强后的语音训练样本数据以及语音训练样本数据中进行时域信息以及频域信息的提取，作为训练数据，提高了模型的精准度，从而提高了对语音情感识别的精准性。

S43：将各个所述增强后的语音训练样本数据以及语音训练样本数据输入至所述深度特征提取模块中进行特征提取，获得各个所述增强后的语音训练样本数据以及语音训练样本数据对应的深度特征。

所述深度特征提取模块可以采用基于自监督学习原始音频表示的基于transformer的框架wav2vec音频分析模块，在本实施例中，识别设备可以采用Librispeech2的960小时子集为ASR对wav2vec音频分析模块进行预训练，预训练完成后，将各个所述增强后的语音训练样本数据以及语音训练样本数据输入至所述深度特征提取模块中进行特征提取，获得各个所述增强后的语音训练样本数据对应的深度特征，具体如下：

式中，为深度特征，/>为深度特征提取函数。

通过深度特征提取的方式，实现了对增强后的语音训练样本数据以及语音训练样本数据中进行上下文信息的提取，作为训练数据，提高了模型的精准度，从而提高了对语音情感识别的精准性。

S5：将各个所述增强后的语音训练样本数据对应的经验特征以及深度特征输入至所述情感识别模块中，获得各个所述增强后的语音训练样本数据以及语音训练样本数据对应的预测情感标签数据。

在本实施例中，识别设备将各个所述增强后的语音训练样本数据对应的经验特征以及深度特征输入至所述情感识别模块中，获得各个所述增强后的语音训练样本数据以及语音训练样本数据对应的预测情感标签数据。

请参阅图4，图4为本申请一个实施例提供的基于数据增强的语音情感识别方法的流程中S5的示意图，包括步骤S51~S52，具体如下：

S51：将同一个所述增强后的语音训练样本数据以及语音训练样本数据对应的经验特征以及深度特征进行融合，获得各个所述增强后的语音训练样本数据以及语音训练样本数据对应的融合特征。

在本实施例中，识别设备采用特征串联的方式，将同一个所述增强后的语音训练样本数据以及语音训练样本数据对应的经验特征以及深度特征进行融合，获得各个所述增强后的语音训练样本数据以及语音训练样本数据对应的融合特征，其中，融合特征为：

式中，为融合特征，/>为深度特征，/>为经验特征，/>为特征拼接符号。

克服了以往语音情感识别模型中常使用人工定义的手工特征具有无法完全覆盖情感信息且无法反应时域信息、频域信息以及上下文信息的问题，提高了语音情感识别的精准性。

S52：根据各个所述增强后的语音训练样本数据以及语音训练样本数据对应的融合特征以及预设的预测情感标签数据计算算法，获得各个所述增强后的语音训练样本数据以及语音训练样本数据对应的预测情感标签数据。

所述预测情感标签数据计算算法为：

式中，为所述预测情感标签数据，/>()为归一化函数，/>为融合特征。

在本实施例中，识别设备根据各个所述增强后的语音训练样本数据以及语音训练样本数据对应的融合特征以及预设的预测情感标签数据计算算法，获得各个所述增强后的语音训练样本数据对应的预测情感标签数据。

S6：获得各个所述增强后的语音训练样本数据以及语音训练样本数据对应的真实情感标签数据，根据各个所述增强后的语音训练样本数据以及语音训练样本数据对应的预测情感标签数据、真实情感标签数据以及预设的损失函数，对所述神经网络模型进行训练，获得目标神经网络模型。

在本实施例中，识别设备可以通过预设的数据库中，获得各个所述增强后的语音训练样本数据以及语音训练样本数据对应的真实情感标签数据，根据各个所述增强后的语音训练样本数据以及语音训练样本数据对应的预测情感标签数据、真实情感标签数据以及预设的损失函数，对所述神经网络模型进行训练，获得目标神经网络模型，其中，所述损失函数为：

式中，为损失值，/>为损失函数，/>为真实情感标签数据，为预测情感标签数据。

S7：获得待识别的语音数据，将所述待识别的语音数据输入至所述目标神经网络模型中，获得所述待识别的语音数据的情感识别结果。

所述识别指令是用户发出，识别设备接收的。

识别设备获得待识别的语音数据，将所述待识别的语音数据输入至所述目标神经网络模型中，获得所述待识别的语音数据的情感识别结果。

请参阅图5，图5为本申请一个实施例提供的基于数据增强的语音情感识别方法的流程中S7的示意图，包括步骤S71~S72，具体如下：

S71：获得所述待识别的语音数据的融合特征，根据所述待识别的语音数据以及预测情感标签数据计算算法，获得所述待识别的语音数据对应的预测情感标签数据。

在本实施例中，识别设备获得所述待识别的语音数据的融合特征根据所述待识别的语音数据以及预测情感标签数据计算算法，获得所述待识别的语音数据对应的预测情感标签数据。具体实施例可参考上述步骤，再此不再赘述。

S72：根据所述待识别的语音数据对应的预测情感标签数据，将概率最大的维度对应的情感极性，作为所述情感识别结果。

在本实施例中，识别设备根据所述待识别的语音数据对应的预测情感标签数据，经softmax分类器计算所述待识别的语音数据对应的预测情感标签数据在K种情感域上的概率分布，具体如下：

式中，为概率分布向量，/>为第k种情感极性对应的概率分布向量。

识别设备根据概率分布向量，概率最大的维度对应的情感极性，作为所述情感识别结果。

请参考图6，图6为本申请一个实施例提供的基于数据增强的语音情感识别装置的结构示意图，该装置可以通过软件、硬件或两者的结合实现基于数据增强的语音情感识别装置的全部或一部分，该装置6包括：

模型构建模块61，用于构建神经网络模型，其中，所述神经网络模型包括数据增强模块、特征提取模块以及情感识别模块；

数据获得模块62，用于获得语音训练样本数据集以及语音参考样本数据集，其中，所述语音训练样本数据集包括若干个语音训练样本数据；所述语音参考样本数据集包括与所述语音训练样本数据集中的各个情感域对应的若干个语音参考样本数据；

数据增强模块63，用于将所述语音训练样本数据集以及语音参考样本数据集输入至所述数据增强模块中，构建语音增强样本数据集，其中，所述语音增强样本数据集包括若干个增强后的语音训练样本数据以及若干个语音训练样本数据；各个所述增强后的语音训练样本数据为基于各个情感域对应的语音参考样本数据，对对应所述语音训练样本数据进行增强后的数据；

特征提取模块64，用于将所述语音增强样本数据集输入至所述特征提取模块中进行特征提取，获得各个所述增强后的语音训练样本数据以及语音训练样本数据对应的经验特征以及深度特征；

情感标签预测模块65，用于将各个所述增强后的语音训练样本数据对应的经验特征以及深度特征输入至所述情感识别模块中，获得各个所述增强后的语音训练样本数据以及语音训练样本数据对应的预测情感标签数据；

模型训练模块66，用于获得各个所述增强后的语音训练样本数据以及语音训练样本数据对应的真实情感标签数据，根据各个所述增强后的语音训练样本数据以及语音训练样本数据对应的预测情感标签数据、真实情感标签数据以及预设的损失函数，对所述神经网络模型进行训练，获得目标神经网络模型；

情感识别模块67，用于获得待识别的语音数据，将所述待识别的语音数据输入至所述目标神经网络模型中，获得所述待识别的语音数据的情感识别结果。

在本申请实施例中，通过模型构建模块，用于构建神经网络模型，其中，所述神经网络模型包括数据增强模块、特征提取模块以及情感识别模块；

通过数据获得模块，获得语音训练样本数据集以及语音参考样本数据集，其中，所述语音训练样本数据集包括若干个语音训练样本数据；所述语音参考样本数据集包括与所述语音训练样本数据集中的各个情感域对应的若干个语音参考样本数据；通过数据增强模块，将所述语音训练样本数据集以及语音参考样本数据集输入至所述数据增强模块中，构建语音增强样本数据集，其中，所述语音增强样本数据集包括若干个增强后的语音训练样本数据以及若干个语音训练样本数据；各个所述增强后的语音训练样本数据为基于各个情感域对应的语音参考样本数据，对对应所述语音训练样本数据进行增强后的数据；通过特征提取模块，将所述语音增强样本数据集输入至所述特征提取模块中进行特征提取，获得各个所述增强后的语音训练样本数据以及语音训练样本数据对应的经验特征以及深度特征；通过情感标签预测模块，将各个所述增强后的语音训练样本数据对应的经验特征以及深度特征输入至所述情感识别模块中，获得各个所述增强后的语音训练样本数据以及语音训练样本数据对应的预测情感标签数据；通过模型训练模块，获得各个所述增强后的语音训练样本数据以及语音训练样本数据对应的真实情感标签数据，根据各个所述增强后的语音训练样本数据以及语音训练样本数据对应的预测情感标签数据、真实情感标签数据以及预设的损失函数，对所述神经网络模型进行训练，获得目标神经网络模型；通过情感识别模块，获得待识别的语音数据，将所述待识别的语音数据输入至所述目标神经网络模型中，获得所述待识别的语音数据的情感识别结果。对若干个语音训练样本数据进行数据增强，通过解决语音训练样本数据集的数据稀疏以及类间不平衡的问题，并通过提取语音训练样本数据的经验特征、深度特征，实现了人类先验知识和深度学习的互补优势的充分利用，克服语音训练样本数据集的数据稀疏导致的情感信息提取不全面不充分的问题，提高了模型训练的精准性，以提高对语音进行情感识别的精准度。

请参考图7，图7为本申请一个实施例提供的计算机设备的结构示意图，计算机设备7包括：处理器71、存储器72以及存储在存储器72上并可在处理器71上运行的计算机程序73；计算机设备可以存储有多条指令，指令适用于由处理器71加载并执行上述图1至图5所示实施例的方法步骤，具体执行过程可以参见图1至图5所示实施例的具体说明，在此不进行赘述。

其中，处理器71可以包括一个或多个处理核心。处理器71利用各种接口和线路连接服务器内的各个部分，通过运行或执行存储在存储器72内的指令、程序、代码集或指令集，以及调用存储器72内的数据，执行基于数据增强的语音情感识别装置6的各种功能和处理数据，可选的，处理器71可以采用数字信号处理（Digital Signal Processing,DSP）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）、可编程逻辑阵列（ProgrambleLogic Array，PLA）中的至少一个硬件形式来实现。处理器71可集成中央处理器71（CentralProcessing Unit，CPU）、图像处理器71（Graphics Processing Unit，GPU）和调制解调器等中的一个或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责触摸显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器71中，单独通过一块芯片进行实现。

其中，存储器72可以包括随机存储器72（Random Access Memory，RAM），也可以包括只读存储器72（Read-Only Memory）。可选的，该存储器72包括非瞬时性计算机可读介质（non-transitory computer-readable storage medium）。存储器72可用于存储指令、程序、代码、代码集或指令集。存储器72可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令（比如触控指令等）、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器72可选的还可以是至少一个位于远离前述处理器71的存储装置。

本申请实施例还提供了一种存储介质，所述存储介质可以存储有多条指令，所述指令适用于由处理器加载并执行上述图1至图5的方法步骤，具体执行过程可以参见图1至图5的具体说明，在此不进行赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束算法。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。

本发明并不局限于上述实施方式，如果对本发明的各种改动或变形不脱离本发明的精神和范围，倘若这些改动和变形属于本发明的权利要求和等同技术范围之内，则本发明也意图包含这些改动和变形。

Claims

1.一种基于数据增强的语音情感识别方法，其特征在于，包括以下步骤：

构建神经网络模型，其中，所述神经网络模型包括数据增强模块、特征提取模块以及情感识别模块，所述特征提取模块包括手工特征提取模块、编码模块以及深度特征提取模块；

将所述语音训练样本数据集以及语音参考样本数据集输入至所述数据增强模块中，构建语音增强样本数据集，其中，所述语音增强样本数据集包括若干个增强后的语音训练样本数据以及若干个语音训练样本数据；各个所述增强后的语音训练样本数据为基于各个情感域对应的语音参考样本数据，对对应所述语音训练样本数据进行增强后的数据；

将所述语音增强样本数据集输入至所述手工特征提取模块中进行手工特征提取，获得各个所述增强后的语音训练样本数据以及语音训练样本数据对应的手工特征集，其中，所述手工特征集包括梅尔频率倒谱系数、基频特征、频谱质心、过零率、均方根能量、谱平面、梅尔谱图以及色谱图；

将各个所述增强后的语音训练样本数据以及语音训练样本数据对应的手工特征集输入至所述编码模块进行编码，获得各个所述增强后的语音训练样本数据对应的经验特征；

将各个所述增强后的语音训练样本数据以及语音训练样本数据输入至所述深度特征提取模块中进行特征提取，获得各个所述增强后的语音训练样本数据对应的深度特征；

2.根据权利要求1所述的基于数据增强的语音情感识别方法，其特征在于：所述数据增强模块包括风格编码单元、基频提取单元以及数据合成单元；

所述将所述语音训练样本数据集以及语音参考样本数据集输入至所述数据增强模块中，构建语音增强样本数据集，包括步骤：

将所述语音参考样本数据集输入至所述风格编码单元中进行编码，构建风格编码训练集，其中，所述风格编码训练集包括各个所述情感域的语音参考样本数据对应的风格编码数据；

将所述语音训练样本数据集输入至所述基频提取单元中进行基频提取，构建基频训练集，其中，所述基频训练集包括各个所述语音训练样本数据对应的基频数据；

将所述语音训练样本数据集、风格编码训练集以及基频训练集输入至所述数据合成单元中，根据预设的数据合并算法，将每个所述语音训练样本数据，分别与对应所述语音训练样本数据对应的基频数据以及每个所述情感域的语音参考样本数据对应的风格编码数据进行数据合并，获得每个语音训练样本数据对应的若干个增强后的语音训练样本数据，构建语音增强样本数据集，其中，所述数据合并算法为：

3.根据权利要求1所述的基于数据增强的语音情感识别方法，其特征在于：所述手工特征集包括梅尔频率倒谱系数、基频特征、频谱质心、过零率、均方根能量、谱平面、梅尔谱图以及色谱图。

4.根据权利要求1所述的基于数据增强的语音情感识别方法，其特征在于，所述将各个所述增强后的语音训练样本数据对应的经验特征以及深度特征输入至所述情感识别模块中，获得各个所述增强后的语音训练样本数据以及语音训练样本数据对应的预测情感标签数据，包括步骤：

将同一个所述增强后的语音训练样本数据以及语音训练样本数据对应的经验特征以及深度特征进行融合，获得各个所述增强后的语音训练样本数据以及语音训练样本数据对应的融合特征；

根据各个所述增强后的语音训练样本数据以及语音训练样本数据对应的融合特征以及预设的预测情感标签数据计算算法，获得各个所述增强后的语音训练样本数据以及语音训练样本数据对应的预测情感标签数据，其中，所述预测情感标签数据计算算法为：

5.根据权利要求4所述的基于数据增强的语音情感识别方法，其特征在于，所述将所述待识别的语音数据输入至所述目标神经网络模型中，获得所述待识别的语音数据的情感识别结果，包括步骤：

获得所述待识别的语音数据的融合特征，根据所述待识别的语音数据以及预测情感标签数据计算算法，获得所述待识别的语音数据对应的预测情感标签数据；

根据所述待识别的语音数据对应的预测情感标签数据，将概率最大的维度对应的情感极性，作为所述情感识别结果。

6.一种基于数据增强的语音情感识别装置，其特征在于，包括：

模型构建模块，用于构建神经网络模型，其中，所述神经网络模型包括数据增强模块、特征提取模块以及情感识别模块，所述特征提取模块包括手工特征提取模块、编码模块以及深度特征提取模块；

数据增强模块，用于将所述语音训练样本数据集以及语音参考样本数据集输入至所述数据增强模块中，构建语音增强样本数据集，其中，所述语音增强样本数据集包括若干个增强后的语音训练样本数据以及若干个语音训练样本数据；各个所述增强后的语音训练样本数据为基于各个情感域对应的语音参考样本数据，对对应所述语音训练样本数据进行增强后的数据；

特征提取模块，用于将所述语音增强样本数据集输入至所述手工特征提取模块中进行手工特征提取，获得各个所述增强后的语音训练样本数据以及语音训练样本数据对应的手工特征集，其中，所述手工特征集包括梅尔频率倒谱系数、基频特征、频谱质心、过零率、均方根能量、谱平面、梅尔谱图以及色谱图；

7.一种计算机设备，其特征在于，包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的基于数据增强的语音情感识别方法的步骤。

8.一种存储介质，其特征在于：所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的基于数据增强的语音情感识别方法的步骤。