CN110364185A

CN110364185A - 一种基于语音数据的情绪识别方法、终端设备及介质

Info

Publication number: CN110364185A
Application number: CN201910602469.5A
Authority: CN
Inventors: 方豪; 占小杰; 王少军
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-07-05
Filing date: 2019-07-05
Publication date: 2019-10-22
Anticipated expiration: 2039-07-05
Also published as: CN110364185B

Abstract

本发明适用于人工智能技术领域，提供了一种基于语音数据的情绪识别方法、终端设备及介质，包括：对各条原始音频数据进行音转文处理，得到各条原始音频数据各自对应的文本数据；采用预设正则表达式从所有文本数据中确定目标文本数据；确定各条目标文本数据的第一特征向量；将各条目标文本数据的第一特征向量导入预先训练的情绪识别模型，得到各条目标文本数据的类别置信度向量；情绪识别模型通过情绪类别为目标情绪类别的文本数据训练得到；将类别置信度向量中值最大的元素对应的预设情绪类别确定为目标文本数据所属的情绪类别，从而提高了情绪识别模型对目标情绪类别识别的准确率。

Description

一种基于语音数据的情绪识别方法、终端设备及介质

技术领域

本发明属于人工智能技术领域，尤其涉及一种基于语音数据的情绪识别方法、终端设备及计算机可读存储介质。

背景技术

在日常生活中的很多场景下，都需要对语音数据所表达的情绪进行识别，现有技术通常是通过情绪识别模型对语音数据所表达的情绪进行识别，情绪识别模型一般是基于已标记情绪类别标签的样本数据，采用深度学习算法进行训练得到的。然而，由于实际应用中，用于训练情绪识别模型的样本数据中的正面情绪样本和负面情绪样本极不均衡，导致训练得到的情绪识别模型对样本数量较少的情绪类别的识别准确率较低。

发明内容

有鉴于此，本发明实施例提供了一种基于语音数据的情绪识别方法、终端设备及计算机可读存储介质，以解决现有的用于训练情绪识别模型的样本数据中的正面情绪样本和负面情绪样本极不均衡，导致训练得到的情绪识别模型对样本数量较少的情绪类别的识别准确率较低的问题。

本发明实施例的第一方面提供了一种基于语音数据的情绪识别方法，包括：

对各条原始音频数据进行音转文处理，得到各条所述原始音频数据各自对应的文本数据；

采用预设正则表达式从所有所述文本数据中确定目标文本数据；所述预设正则表达式用于表征目标情绪类别的表达规则；

确定各条所述目标文本数据的第一特征向量；

将各条所述目标文本数据的第一特征向量导入预先训练的情绪识别模型，得到各条所述目标文本数据的类别置信度向量；所述情绪识别模型通过情绪类别为目标情绪类别的文本数据训练得到，所述类别置信度向量中的每个元素的值用于表征所述目标文本数据属于该元素对应的预设情绪类别的概率；

将所述类别置信度向量中值最大的元素对应的预设情绪类别确定为所述目标文本数据所属的情绪类别。

本发明实施例的第二方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下各步骤：

确定各条所述目标文本数据的第一特征向量；

本发明实施例的第三方面提供了一种终端设备，包括：

第一处理单元，用于对各条原始音频数据进行音转文处理，得到各条所述原始音频数据各自对应的文本数据；

第一确定单元，用于采用预设正则表达式从所有所述文本数据中确定目标文本数据；所述预设正则表达式用于表征目标情绪类别的表达规则；

第二确定单元，用于确定各条所述目标文本数据的第一特征向量；

第三确定单元，用于将各条所述目标文本数据的第一特征向量导入预先训练的情绪识别模型，得到各条所述目标文本数据的类别置信度向量；所述情绪识别模型通过情绪类别为目标情绪类别的文本数据训练得到，所述类别置信度向量中的每个元素的值用于表征所述目标文本数据属于该元素对应的预设情绪类别的概率；

第四确定单元，用于将所述类别置信度向量中值最大的元素对应的预设情绪类别确定为所述目标文本数据所属的情绪类别。

本发明实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现以下各步骤：

确定各条所述目标文本数据的第一特征向量；

实施本发明实施例提供的一种基于语音数据的情绪识别方法、终端设备及计算机可读存储介质具有以下有益效果：

本发明实施例提供的一种基于语音数据的情绪识别方法，在采用情绪识别模型对音转文处理得到的文本数据进行情绪识别之前，先采用预设正则表达式对待识别的文本数据进行过滤，由于预设正则表达式用于表征目标情绪类别的表达规则，因此，采用预设正则表达式过滤得到的目标文本数据属于目标情绪类别的概率较大，由于情绪识别模型是通过情绪类别为目标情绪类别的文本数据训练得到的，因此，采用情绪识别模型对目标文本数据所表达的情绪进行进一步识别，提高了情绪识别模型对目标情绪类别识别的准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于语音数据的情绪识别方法的实现流程图；

图2是本发明另一实施例提供的一种基于语音数据的情绪识别方法的实现流程图；

图3是本发明实施例提供的一种基于语音数据的情绪识别方法中S03的具体实现流程图；

图4是本发明实施例提供的一种终端设备的结构框图；

图5是本发明另一实施例提供的一种终端设备的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请参阅图1，图1是本发明实施例提供的一种基于语音数据的情绪识别方法的实现流程图。本实施例中，基于语音数据的情绪识别方法的执行主体为终端设备。终端设备包括但不限于智能手机、平板电脑或台式电脑。如图1所示的基于语音数据的情绪识别方法包括以下步骤：

S1：对各条原始音频数据进行音转文处理，得到各条所述原始音频数据各自对应的文本数据。

本发明实施例中，原始音频数据是通过音频输入设备采集到的音频数据，示例性的，原始音频数据可以是通过麦克风采集到的语言控制指令，也可以是通话录音。终端设备获取到原始音频数据后，可以采用语音识别算法对各条原始音频数据进行音转文处理，进而得到各条原始音频数据各自对应的文本数据。

S2：采用预设正则表达式从所有所述文本数据中确定目标文本数据；所述预设正则表达式用于表征目标情绪类别的表达规则。

为了提高情绪识别模型对目标情绪类别的文本数据的情绪识别的准确率，本发明实施例在采用情绪识别模型对文本数据所表达的情绪所属的情绪类别进行预测之前，先通过预设正则表达式对音转文处理得到的文本数据进行粗过滤，进而从音转文得到的所有文本数据中确定出目标文本数据。其中，目标情绪类别为预设情绪类别中的其中一种情绪类别。预设情绪类别可以根据实际需求设置，此次不做限制，例如，预设情绪类别可以包括正面情绪及负面情绪，而目标情绪类别可以是正面情绪，也可以是负面情绪。

本发明实施例中，预设正则表达式用于表征目标情绪类别的表达规则。在实际应用中，预设正则表达式可以由能够表达目标情绪类别的一个或多个情绪关键词构成。例如，当需要从待识别的文本数据中过滤出负面情绪文本，即目标情绪类别为负面情绪时，预设正则表达式可以由能够表达负面情绪的一个或多个负面情绪关键词构成，也就是说，预设正则表达式用于从待识别的文本数据中筛选出符合目标情绪类别的表达规则的目标文本数据。

需要说明的是，目标情绪类别及预设正则表达式可以根据实际业务场景确定，例如，有些业务场景对负面情绪识别的准确率或召回率要求较高，则在该业务场景下，可以将目标情绪类别设置为负面情绪，预设正则表达式由能够表达负面情绪的一个或多个负面情绪关键词构成；有些业务场景对正面情绪识别的准确率或召回率要求较高，则在该业务场景下，可以将目标情绪类别设置为正面情绪，预设正则表达式由能够表达正面情绪的一个或多个负面情绪关键词构成。不同业务场景对应的预设正则表达式通常不同。

本发明实施例中，终端设备得到各条原始音频数据各自对应的文本数据后，基于预设正则表达式，从所有原始音频数据各自对应的文本数据中筛选出符合预设正则表达式的目标文本数据。由于预设正则表达式由能够表达目标情绪类别的一个或多个情绪关键词构成，因此，通过预设正则表达式从所有原始音频数据各自对应的文本数据中筛选目标文本数据的步骤具体可以包括：

将构成预设正则表达式的所有情绪关键词与每条原始音频数据对应的文本数据进行对比，判断每条原始音频数据对应的文本数据中是否包含构成预设正则表达式的所有情绪关键词；

若原始音频数据对应的文本数据中包含构成预设正则表达式的所有情绪关键词，则将该原始音频数据对应的文本数据确定为目标文本数据。

S3：确定各条所述目标文本数据的第一特征向量。

目标文本数据的第一特征向量是目标文本数据所表达的含义的数字化向量表示。本发明实施例中，由于通过音频输入设备采集到的原始音频数据一般较为口语化，因此，对原始音频数据进行音转文处理得到的文本数据的语法结构通常不规范，基于此，本发明实施例可以基于目标文本数据中单个字的字向量确定目标文本数据的第一特征向量。具体的，终端设备可以基于预先训练好的字向量模型确定目标文本数据所包含的各个字的字向量，再将目标文本数据所包含的所有字的字向量按照目标文本数据中各个字的排列顺序进行组合，进而得到目标文本数据的第一特征向量，即目标文本数据的第一特征向量由目标文本数据中包含的所有字的字向量构成。在实际应用中，字向量模型可以是基于word2vec训练的字向量模型。

S4：将各条所述目标文本数据的第一特征向量导入预先训练的情绪识别模型，得到各条所述目标文本数据的类别置信度向量；所述情绪识别模型通过情绪类别为目标情绪类别的文本数据训练得到，所述类别置信度向量中的每个元素的值用于表征所述目标文本数据属于该元素对应的预设情绪类别的概率。

情绪识别模型是基于目标样本集，采用深度学习算法对预先构建的卷积神经网络模型进行训练得到的。其中，目标样本集中的每条样本数据均由一条文本数据及该文本数据的类别置信度向量构成，类别置信度向量中的每个元素的值用于标识文本数据属于该元素对应的预设情绪类别的概率。本发明实施例中，目标样本集中的每条文本数据的情绪类别均为目标情绪类别。

在对卷积神经网络模型进行训练时，将每条样本数据中的文本数据作为卷积神经网络模型的输入，将每条样本数据中的文本数据的置信度向量作为卷积神经网络模型的输出，对卷积神经网络模型进行训练，将训练完成的卷积神经网络模型确定为情绪识别模型。需要说明的是，终端设备在对卷积神经网络模型的训练过程中可以学习到各个预设卷积核的卷积核参数及绝大多数文本数据的深度特征向量对应的类别置信度向量，即学习到绝大多数文本数据的深度特征向量与类别置信度向量之间的对应关系。其中，文本数据的深度特征向量是通过对文本数据的第一特征向量进行深度卷积处理得到的。

本发明实施例中，终端设备确定了各条目标文本数据的第一特征向量后，将各条目标文本数据的第一特征向量分别导入情绪识别模型，在情绪识别模型中对每条文本数据的第一特征向量进行深度卷积处理，进而得到每条文本数据的深度特征向量，并基于预先学习到的各条文本数据的深度特征向量与各个类别置信度向量之间的对应关系，确定每条目标文本数据的类别置信度向量。

作为本发明一实施例，终端设备对每条文本数据的第一特征向量进行深度卷积处理，进而得到每条文本数据的深度特征向量具体可以包括以下步骤：

基于各个预设卷积核分别对每条目标文本数据的第一特征向量进行卷积运算，进而得到每条目标文本数据的多个第二特征向量，再将每条目标文本数据的各个第二特征向量中值最大的元素进行组合，得到每条目标文本数据的深度特征向量。需要说明的是，本实施例中，每条目标文本数据的第二特征向量的个数与情绪识别模型中的预设卷积核的个数相等。

S5：将所述类别置信度向量中值最大的元素对应的预设情绪类别确定为所述目标文本数据所属的情绪类别。

由于目标文本数据的类别置信度向量中的每个元素的值用于标识目标文本数据属于该元素对应的预设情绪类别的概率，因此，类别置信度向量中某一元素的值越大，表明目标文本数据属于该元素对应的预设情绪类别的可能性就越大。本发明实施例中，终端设备得到目标文本数据的类别置信度向量后，可以将类别置信度向量中值最大的元素对应的预设情绪类别确定为目标文本数据所属的情绪类别。

以上可以看出，本发明实施例提供的一种基于语音数据的情绪识别方法，在采用情绪识别模型对音转文处理得到的文本数据进行情绪识别之前，先采用预设正则表达式对待识别的文本数据进行过滤，由于预设正则表达式用于表征目标情绪类别的表达规则，因此，采用预设正则表达式过滤得到的目标文本数据属于目标情绪类别的概率较大，由于情绪识别模型是通过情绪类别为目标情绪类别的文本数据训练得到的，因此，采用情绪识别模型对目标文本数据所表达的情绪进行进一步识别，提高了情绪识别模型对目标情绪类别识别的准确率。

请参阅图2，图2是本发明另一实施例提供的一种基于语音数据的情绪识别方法的实现流程图。相对于图1对应的实施例，本实施例中的情绪识别方法在S1之前还可以包括S01～S02，详述如下：

S01：采用所述预设正则表达式从预设样本集中确定目标样本集；所述预设样本集中的每条样本数据均由一条文本数据及该文本数据的类别置信度向量构成。

本实施例中，为了提高情绪识别模型对目标情绪类别识别的准确率或召回率，在对情绪识别模型进行训练之前，先采用预设正则表达式对样本数据进行粗过滤，进而从预设样本集中筛选出符合目标情绪类别的表达规则的目标样本集。其中，目标样本集为预设样本集的子集。预设样本集中的每条数据均由一条文本数据及该文本数据的类别置信度向量构成。其中，类别置信度向量中的每个元素的值用于标识文本数据属于该元素对应的预设情绪类别的概率。

需要说明的是，本实施例中的预设正则表达式与S2中所述的预设正则表达式的含义相同，具体请参照S2中的相关描述，此处不再赘述。

S02：基于所述目标样本集对预先构建的卷积神经网络模型进行训练，并将训练完成的所述卷积神经网络模型确定为所述情绪识别模型。

终端设备从预设样本集中筛选出目标样本集后，基于目标样本集对预先构建的卷积神经网络模型进行训练，并将训练完成的卷积神经网络模型确定为情绪识别模型。

具体的，作为本发明一实施例，S02具体可以通过如图3所示的S021～S026实现，详述如下：

S021：确定所述目标样本集中各条文本数据的第一特征向量。

本实施例中，第一特征向量是文本数据所表达的含义的数字化向量表示。在实际应用中，可以基于目标样本集中每一文本数据中的单个字的字向量确定每一文本数据的第一特征向量，具体的，终端设备可以基于预先训练好的字向量模型确定目标样本集中每一文本数据所包含的各个字的字向量，再将每一文本数据所包含的所有字的字向量按照每一文本数据中各个字的排列顺序进行组合，进而得到每一文本数据的第一特征向量。在实际应用中，字向量模型可以是基于word2vec训练的字向量模型。

S022：基于预设划分策略将所述目标样本集划分为训练集和测试集。

本实施例中，终端设备确定了目标样本集包含的各条文本数据的第一特征向量后，根据预设划分策略将目标样本集划分为训练集和测试集。其中，预设划分策略用于表征训练集与测试集的划分比例，例如，预设划分策略可以为：将目标样本集按照训练集/测试集＝a/b的划分比例进行划分。

S023：将所述训练集中各条所述文本数据的第一特征向量作为所述卷积神经网络模型的输入，在所述卷积神经网络模型中，对所述训练集中各条所述文本数据的第一特征向量进行深度卷积处理，得到所述训练集中各条所述文本数据的深度特征向量，基于所述训练集中各条所述文本数据的深度特征向量及各条所述文本数据的类别置信度向量，学习各条所述文本数据的深度特征向量与各个类别置信度向量之间的对应关系。

本实施例中，终端设备得到训练集和测试集后，将训练集中各条文本数据的第一特征向量作为预先构建的卷积神经网络模型的输入，将训练集中各条文本数据的类别置信度向量作为卷积神经网络模型的输出，在卷积神经网络模型中，对训练集中各条文本数据的第一特征向量进行深度卷积处理，得到训练集中各条文本数据的深度特征向量，基于训练集中各条文本数据的深度特征向量及各条文本数据的类别置信度向量，学习各条文本数据的深度特征向量与各个类别置信度向量之间的对应关系。示例性的，若训练集中n条文本数据的深度特征向量分别为A1、A2、…、AN，n条文本数据的类别置信度向量分别为B1、B2、…、BN，则学习各条文本数据的深度特征向量与各个类别置信度向量之间的对应关系具体为：将A1与B1建立关联关系，将A2与B2建立关联关系，将AN与BN建立关联关系。

作为本发明一实施例，终端设备对训练集中各条文本数据的第一特征向量进行深度卷积处理，得到训练集中各条文本数据的深度特征向量具体可以包括：

基于各个预设卷积核分别对训练集中每条目标文本数据的第一特征向量进行卷积运算，进而得到训练集中每条目标文本数据的多个第二特征向量，再将训练集中每条目标文本数据的各个第二特征向量中值最大的元素进行组合，得到训练集中每条目标文本数据的深度特征向量。需要说明的是，本实施例中，训练集中每条目标文本数据的第二特征向量的个数与情绪识别模型中的预设卷积核的个数相等。

S024：将所述测试集中各条所述文本数据的第一特征向量输入至所述卷积神经网络模型，在所述卷积神经网络模型中，对所述测试集中各条所述文本数据的第一特征向量进行深度卷积处理，得到所述测试集中各条所述文本数据的深度特征向量，基于学习到的各条所述文本数据的深度特征向量与各个类别置信度向量之间的对应关系，预测所述测试集中各条所述文本数据的类别置信度向量。

本实施例中，终端设备学习到各条文本数据的深度特征向量与各个类别置信度向量之间的对应关系后，将测试集中各条文本数据的第一特征向量输入至卷积神经网络模型，在卷积神经网络模型中，对测试集中各条文本数据的第一特征向量进行深度卷积处理，得到测试集中各条文本数据的深度特征向量，基于测试集中各条文本数据的深度特征向量、预先学习到的各条文本数据的深度特征向量与各个类别置信度向量之间的对应关系，预测测试集中各条文本数据的类别置信度向量。

作为本发明一实施例，终端设备对测试集中各条文本数据的第一特征向量进行深度卷积处理，得到测试集中各条文本数据的深度特征向量具体可以包括以下步骤：

基于各个预设卷积核分别对测试集中每条目标文本数据的第一特征向量进行卷积运算，进而得到测试集中每条目标文本数据的多个第二特征向量，再将测试集中每条目标文本数据的各个第二特征向量中值最大的元素进行组合，得到测试集中每条目标文本数据的深度特征向量。需要说明的是，本实施例中，测试集中每条目标文本数据的第二特征向量的个数与情绪识别模型中的预设卷积核的个数相等。

S025：计算所述测试集中各条所述文本数据实际的类别置信度向量与预测得到的类别置信度向量之间的损失值。

本实施例中，终端设备预测得到测试集中各条文本数据的类别置信度向量后，计算测试集中各条文本数据实际的类别置信度向量与预测得到的类别置信度向量之间的损失值。其中，损失值用于表征文本数据实际的类别置信度向量与预测得到的类别置信度向量之间的差异程度。

作为本发明一实施例，S025具体可以通过以下步骤来实现：

基于预设交叉熵损失函数，计算所述测试集中各条所述文本数据实际的类别置信度向量与预测得到的类别置信度向量之间的损失值；所述预设交叉熵损失函数如下：

其中，L_ce(p,y)是损失值；y＝1表示所述卷积神经网络模型预测出的所述文本数据的类别置信度向量中值最大的元素对应的是目标情绪类别，y＝otherwise表示所述卷积神经网络模型预测出的所述文本数据的类别置信度向量中值最大的元素对应的不是目标情绪类别，α为预设调节因子，用于调节所述情绪识别模型对目标情绪类别识别的准确率及召回率，α∈[0,1]；p是所述卷积神经网络模型预测出的所述文本数据属于所述目标情绪类别的概率，p∈[0,1]。

本实施例中，终端设备预测得到测试集中各条文本数据的类别置信度向量后，确定预测得到的各条文本数据的类别置信度向量中值最大的元素对应的预设情绪类型是否为目标情绪类别，若预测得到的某条文本数据的类别置信度向量中值最大的元素对应的预设情绪类型为目标情绪类别，则采用-α·log(p)计算该文本数据实际的类别置信度向量与预测得到的类别置信度向量之间的损失值；若预测得到的某条文本数据的类别置信度向量中值最大的元素对应的预设情绪类型不是目标情绪类别，则采用-(1-α)·log(1-p)计算该文本数据实际的类别置信度向量与预测得到的类别置信度向量之间的损失值。

在实际应用中，可以根据实际应用场景中对情绪识别模型的准确率及召回率的不同要求对α的值进行调整，需要说明的是，对情绪识别模型的准确率要求较高和对情绪识别模型的召回率要求较高这两种情况下，对α的值的调节方向是相反的。

S026：若所述测试集中所有所述文本数据对应的损失值的均值符合预设要求，则停止对所述卷积神经网络的训练，将训练完成的所述卷积神经网络模型确定为情绪识别模型。

本实施例中，终端设备计算出测试集中各条文本数据对应的损失值后，计算测试集中所有文本数据对应的损失值的均值，检测测试集中所有文本数据对应的损失值的均值是否符合预设要求。其中，预设要求可以根据实际需求设置，例如，预设要求可以为：测试集中所有文本数据对应的损失值的均值小于或等于预设损失值阈值，此时，终端设备检测测试集中所有文本数据对应的损失值的均值是否小于或等于预设损失值阈值，若测试集中所有文本数据对应的损失值的均值小于或等于预设损失值阈值，则确定测试集中所有文本数据对应的损失值的均值符合预设要求，此时，终端设备停止对卷积神经网络的训练，并将训练完成的卷积神经网络模型确定为情绪识别模型。

作为本发明一实施例，在S025之后，基于语音数据的情绪识别方法还可以包括以下步骤：

若所述测试集中所有所述文本数据对应的损失值的均值不符合预设要求，基于所述损失值更新所述预设卷积核的卷积核参数，并基于更新了卷积核参数的所述卷积神经网络模型，重复执行获取所述损失值的步骤，直至所述测试集中所有所述文本数据对应的损失值的均值符合预设要求，停止对所述卷积神经网络的训练，将训练完成的所述卷积神经网络模型确定为情绪识别模型。

本实施例中，终端设备若检测出测试集中所有文本数据对应的损失值的均值大于预设损失值阈值，则确定测试集中所有文本数据对应的损失值的均值不符合预设要求，此时，终端设备基于损失值更新预设卷积核的卷积核参数，并基于更新了卷积核参数的卷积神经网络模型，重复执行获取损失值的步骤，即重复执行步骤S021～S025，直至测试集中所有文本数据对应的损失值的均值符合预设要求，停止对卷积神经网络的训练，并将训练完成的卷积神经网络模型确定为情绪识别模型。

以上可以看出，本实施例可以通过对预设交叉熵损失函数的预设调节因子进行调节，进而来调节情绪识别模型对目标情绪类别识别的准确率及召回率，从而可以适用于各种不同的业务场景。

请参阅图4，图4是本发明实施例提供的一种终端设备的结构框图。本实施例中的终端设备可以是智能手机、平板电脑等终端设备。该终端设备包括的各单元用于执行图1至图3对应的实施例中的各步骤。具体请参阅图1至图3以及图1至图3所对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。参见图4，终端设备400包括：第一处理单元41、第一确定单元42、第二确定单元43、第三确定单元44及第四确定单元45。其中：

第一处理单元41用于对各条原始音频数据进行音转文处理，得到各条所述原始音频数据各自对应的文本数据。

第一确定单元42用于采用预设正则表达式从所有所述文本数据中确定目标文本数据；所述预设正则表达式用于表征目标情绪类别的表达规则。

第二确定单元43用于确定各条所述目标文本数据的第一特征向量。

第三确定单元44用于将各条所述目标文本数据的第一特征向量导入预先训练的情绪识别模型，得到各条所述目标文本数据的类别置信度向量；所述情绪识别模型通过情绪类别为目标情绪类别的文本数据训练得到，所述类别置信度向量中的每个元素的值用于表征所述目标文本数据属于该元素对应的预设情绪类别的概率。

第四确定单元45用于将所述类别置信度向量中值最大的元素对应的预设情绪类别确定为所述目标文本数据所属的情绪类别。

作为本发明一实施例，终端设备400还包括第五确定单元和第六确定单元。

第五确定单元用于采用所述预设正则表达式从预设样本集中确定目标样本集；所述预设样本集中的每条样本数据均由一条文本数据及该文本数据的类别置信度向量构成。

第六确定单元用于基于所述目标样本集对预先构建的卷积神经网络模型进行训练，并将训练完成的所述卷积神经网络模型确定为所述情绪识别模型。

作为本发明一实施例，第六确定单元包括：第七确定单元、划分单元、学习单元、预测单元、计算单元及第八确定单元。

第七确定单元用于确定所述目标样本集中各条文本数据的第一特征向量。

划分单元用于基于预设划分策略将所述目标样本集划分为训练集和测试集。

学习单元用于将所述训练集中各条所述文本数据的第一特征向量作为所述卷积神经网络模型的输入，在所述卷积神经网络模型中，对所述训练集中各条所述文本数据的第一特征向量进行深度卷积处理，得到所述训练集中各条所述文本数据的深度特征向量，基于所述训练集中各条所述文本数据的深度特征向量及各条所述文本数据的类别置信度向量，学习各条所述文本数据的深度特征向量与各个类别置信度向量之间的对应关系。

预测单元用于将所述测试集中各条所述文本数据的第一特征向量输入至所述卷积神经网络模型，在所述卷积神经网络模型中，对所述测试集中各条所述文本数据的第一特征向量进行深度卷积处理，得到所述测试集中各条所述文本数据的深度特征向量，基于学习到的各条所述文本数据的深度特征向量与各个类别置信度向量之间的对应关系，预测所述测试集中各条所述文本数据的类别置信度向量。

计算单元用于计算所述测试集中各条所述文本数据实际的类别置信度向量与预测得到的类别置信度向量之间的损失值。

第八确定单元用于若所述测试集中所有所述文本数据对应的损失值的均值符合预设要求，则停止对所述卷积神经网络的训练，将训练完成的所述卷积神经网络模型确定为情绪识别模型。

作为本发明一实施例，计算单元具体用于：

作为本发明一实施例，第六确定单元还包括第八确定单元。

第八确定单元用于若所述测试集中所有所述文本数据对应的损失值的均值不符合预设要求，基于所述损失值更新所述预设卷积核的卷积核参数，并基于更新了卷积核参数的所述卷积神经网络模型，重复执行获取所述损失值的步骤，直至所述测试集中所有所述文本数据对应的损失值的均值符合预设要求，停止对所述卷积神经网络的训练，将训练完成的所述卷积神经网络模型确定为情绪识别模型。

以上可以看出，本实施例提供的终端设备在采用情绪识别模型对音转文处理得到的文本数据进行情绪识别之前，先采用预设正则表达式对待识别的文本数据进行过滤，由于预设正则表达式用于表征目标情绪类别的表达规则，因此，采用预设正则表达式过滤得到的目标文本数据属于目标情绪类别的概率较大，由于情绪识别模型是通过情绪类别为目标情绪类别的文本数据训练得到的，因此，采用情绪识别模型对目标文本数据所表达的情绪进行进一步识别，提高了情绪识别模型对目标情绪类别识别的准确率。

图5是本发明另一实施例提供的一种终端设备的结构框图。如图5所示，该实施例的终端设备5包括：处理器50、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机程序52，例如基于语音数据的情绪识别方法的程序。处理器50执行所述计算机程序52时实现上述各个基于语音数据的情绪识别方法各实施例中的步骤，例如图1所示的S1至S5。或者，所述处理器50执行所述计算机程序52时实现上述图4对应的实施例中各单元的功能，例如，图4所示的单元41至45的功能，具体请参阅图4对应的实施例中的相关描述，此处不赘述。

示例性的，所述计算机程序52可以被分割成一个或多个单元，所述一个或者多个单元被存储在所述存储器51中，并由所述处理器50执行，以完成本发明。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序52在所述终端设备5中的执行过程。例如，所述计算机程序52可以被分割成第一处理单元、第一确定单元、第二确定单元、第三确定单元及第四确定单元，各单元具体功能如上所述。

所述终端设备可包括，但不仅限于，处理器50、存储器51。本领域技术人员可以理解，图5仅仅是终端设备5的示例，并不构成对终端设备5的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器50可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器51可以是所述终端设备5的内部存储单元，例如终端设备5的硬盘或内存。所述存储器51也可以是所述终端设备5的外部存储设备，例如所述终端设备5上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器51还可以既包括所述终端设备5的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于语音数据的情绪识别方法，其特征在于，包括：

确定各条所述目标文本数据的第一特征向量；

2.根据权利要求1所述的基于语音数据的情绪识别方法，其特征在于，所述对各条原始音频数据进行音转文处理，得到各条所述原始音频数据各自对应的文本数据之前，还包括：

采用所述预设正则表达式从预设样本集中确定目标样本集；所述预设样本集中的每条样本数据均由一条文本数据及该文本数据的类别置信度向量构成；

基于所述目标样本集对预先构建的卷积神经网络模型进行训练，并将训练完成的所述卷积神经网络模型确定为所述情绪识别模型。

3.根据权利要求2所述的基于语音数据的情绪识别方法，其特征在于，所述基于所述目标样本集对预先构建的卷积神经网络模型进行训练，并将训练完成的所述卷积神经网络模型确定为所述情绪识别模型，包括：

确定所述目标样本集中各条文本数据的第一特征向量；

基于预设划分策略将所述目标样本集划分为训练集和测试集；

将所述训练集中各条所述文本数据的第一特征向量作为所述卷积神经网络模型的输入，在所述卷积神经网络模型中，对所述训练集中各条所述文本数据的第一特征向量进行深度卷积处理，得到所述训练集中各条所述文本数据的深度特征向量，基于所述训练集中各条所述文本数据的深度特征向量及各条所述文本数据的类别置信度向量，学习各条所述文本数据的深度特征向量与各个类别置信度向量之间的对应关系；

将所述测试集中各条所述文本数据的第一特征向量输入至所述卷积神经网络模型，在所述卷积神经网络模型中，对所述测试集中各条所述文本数据的第一特征向量进行深度卷积处理，得到所述测试集中各条所述文本数据的深度特征向量，基于学习到的各条所述文本数据的深度特征向量与各个类别置信度向量之间的对应关系，预测所述测试集中各条所述文本数据的类别置信度向量；

计算所述测试集中各条所述文本数据实际的类别置信度向量与预测得到的类别置信度向量之间的损失值；

若所述测试集中所有所述文本数据对应的损失值的均值符合预设要求，则停止对所述卷积神经网络的训练，将训练完成的所述卷积神经网络模型确定为情绪识别模型。

4.根据权利要求3所述的基于语音数据的情绪识别方法，其特征在于，所述计算所述测试集中各条所述文本数据实际的类别置信度向量与预测得到的类别置信度向量之间的损失值，包括：

5.根据权利要求3或4所述的基于语音数据的情绪识别方法，其特征在于，所述计算所述测试集中各条所述文本数据实际的类别置信度向量与预测得到的类别置信度向量之间的损失值之后，还包括：

6.一种终端设备，其特征在于，所述终端设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如下步骤：

确定各条所述目标文本数据的第一特征向量；

7.根据权利要求6所述的终端设备，其特征在于，所述对各条原始音频数据进行音转文处理，得到各条所述原始音频数据各自对应的文本数据之前，还包括：

8.根据权利要求7所述的终端设备，其特征在于，所述基于所述目标样本集对预先构建的卷积神经网络模型进行训练，并将训练完成的所述卷积神经网络模型确定为所述情绪识别模型，包括：

确定所述目标样本集中各条文本数据的第一特征向量；

9.一种终端设备，其特征在于，包括：

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。