CN112509561A

CN112509561A - 情绪识别方法、装置、设备及计算机可读存储介质

Info

Publication number: CN112509561A
Application number: CN202011395790.XA
Authority: CN
Inventors: 桑海岩
Original assignee: China United Network Communications Group Co Ltd; Unicom Big Data Co Ltd
Current assignee: China United Network Communications Group Co Ltd; Unicom Big Data Co Ltd
Priority date: 2020-12-03
Filing date: 2020-12-03
Publication date: 2021-03-16

Abstract

本公开提供一种情绪识别方法、装置、设备及计算机可读存储介质，方法包括：获取终端设备发送的情绪识别请求；对所述目标语音数据进行分割操作，获得所述目标语音数据的多个有效语音片段；根据所述多个有效语音片段，确定所述目标语音数据对应的情绪等级；将所述目标语音数据对应的情绪等级发送至所述终端设备。由于每个有效语音片段中含有每一轮对话内容的全部有效数据，因此，分别对每个有效语音片段进行情绪识别，能够准确地反应目标语音数据中包含的情绪波动，从而能够准确确定目标语音数据的情绪等级进一步地能够提高对客服人员的服务量化考评结果的准确性。

Description

情绪识别方法、装置、设备及计算机可读存储介质

技术领域

本公开涉及数据处理领域，尤其涉及一种情绪识别方法、装置、设备及计算机可读存储介质。

背景技术

随着信息技术的发展，客服语音问答系统的业务量越来越大。为了提升客服的服务质量，通常需要利用语音质检系统对客服人员的情绪进行识别，对客服人员的服务进行量化考评。

为了实现对客服人员的服务进行量化考评，现有的语音质检方法中，一般对服务过程的语音数据作为一个整体，对其进行情绪识别，得到一个情绪识别结果。根据该情绪识别结果对客服人员的服务进行量化考评。

但是，采用上述方法对语音数据进行情绪识别的过程中，由于对整个服务过程只生成一个情绪识别结果，无法体现客服人员和客户在对话过程中的情绪波动，导致对语音数据的情绪识别结果不准确，从而导致对客服人员的服务量化考评结果不准确。

发明内容

本公开提供一种情绪识别方法、装置、设备及计算机可读存储介质，用于解决现有的情绪识别方法对语音数据的情绪识别结果不准确，从而导致对客服人员的服务量化考评结果不准确的技术问题。

本公开的第一个方面是提供一种情绪识别方法，包括：

获取终端设备发送的情绪识别请求，其中，所述情绪识别请求中包括目标语音数据；

对所述目标语音数据进行分割操作，获得所述目标语音数据的多个有效语音片段，其中，所述有效语音片段中包括客服与用户的对话语音；

根据所述多个有效语音片段，确定所述目标语音数据对应的情绪等级；

将所述目标语音数据对应的情绪等级发送至所述终端设备。

可选的，所述对所述目标语音数据进行分割操作，获得所述目标语音数据的多个有效语音片段，包括：

对所述目标语音数据进行断点检测，获取所述目标语音数据的多个有效语音片段。

可选的，所述根据所述多个有效语音片段，确定所述目标语音数据对应的情绪等级，包括：

依次对所述多个有效语音片段进行情绪识别，获得所述目标语音数据的情绪向量序列；

采用预设的服务评价模型对所述情绪向量序列进行识别，获得所述目标语音数据对应的情绪等级。

可选的，所述依次对所述多个有效语音片段进行情绪识别，获得所述目标语音数据的情绪向量序列，包括：

采用预设的语音编码模型分别对每个有效语音片段进行编码，获得所述多个有效语音片段的全部语音编码；

采用预设的语音转化模型分别将每个有效语音片段转化为对应的语义文本；

采用预设的语义编码模型分别对所述语义文本进行编码，获得所述多个有效语音片段的全部语义编码；

对每一所述有效语音片段对应的语音编码与语义编码进行拼接，获得每一所述有效语音片段对应的目标编码；

对每一所述目标编码进行情绪识别操作，获得所述目标语音数据的情绪向量序列。

可选的，所述对每一所述目标编码进行情绪识别操作，获得所述目标语音数据的情绪向量序列，包括：

采用预设的情绪识别模型对每一有效语音片段的目标编码进行识别，获得所述每一有效语音片段的情绪向量；

对各有效语音片段的情绪向量进行拼接操作，获得所述情绪向量序列。

可选的，所述采用预设的情绪识别模型对每一有效语音片段的目标编码进行识别，获得所述每一有效语音片段的情绪向量之前，还包括：

从数据库中获取预设的情绪待训练数据集，所述情绪待训练数据集中包括多组情绪待训练数据，每一组情绪待训练数据中包括待训练目标编码以及所述待训练目标编码对应的情绪向量；

通过所述情绪待训练数据集对预设的情绪待训练模型进行训练，获得所述情绪识别模型。

可选的，所述采用预设的服务评价模型对所述情绪向量序列进行识别，获得所述目标语音数据对应的情绪等级之前，还包括：

从数据库中获取预设的评价待训练数据集，所述评价待训练数据集中包括多组评价待训练数据，每一组评价待训练数据中包括待训练情绪向量序列以及所述待训练情绪向量序列对应的情绪等级；

通过所述评价待训练数据集对预设的评价待训练模型进行训练，获得所述服务评价模型。

可选的，所述目标语音数据中包括客服与用户交流过程中的混合语音。

本公开的第二个方面是提供一种情绪识别装置，包括：

获取模块，用于获取终端设备发送的情绪识别请求，其中，所述情绪识别请求中包括目标语音数据；

分割模块，用于对所述目标语音数据进行分割操作，获得所述目标语音数据的多个有效语音片段，其中，所述有效语音片段中包括客服与用户的对话语音；

确定模块，用于根据所述多个有效语音片段，确定所述目标语音数据对应的情绪等级；

发送模块，用于将所述目标语音数据对应的情绪等级发送至所述终端设备。

可选的，所述分割模块用于：

可选的，所述确定模块，包括：

第一识别单元，用于依次对所述多个有效语音片段进行情绪识别，获得所述目标语音数据的情绪向量序列；

第二识别单元，用于采用预设的服务评价模型对所述情绪向量序列进行识别，获得所述目标语音数据对应的情绪等级。

可选的，所述第一识别单元用于：

可选的，所述第一识别单元具体用于：

可选的，所述情绪识别装置，还包括：

情绪待训练数据集获取模块，用于从数据库中获取预设的情绪待训练数据集，所述情绪待训练数据集中包括多组情绪待训练数据，每一组情绪待训练数据中包括待训练目标编码以及所述待训练目标编码对应的情绪向量；

情绪识别模型获取模块，用于通过所述情绪待训练数据集对预设的情绪待训练模型进行训练，获得所述情绪识别模型。

可选的，所述情绪识别装置，还包括：

评价待训练数据集获取模块，用于从数据库中获取预设的评价待训练数据集，所述评价待训练数据集中包括多组评价待训练数据，每一组评价待训练数据中包括待训练情绪向量序列以及所述待训练情绪向量序列对应的情绪等级；

服务评价模型获取模块，用于通过所述评价待训练数据集对预设的评价待训练模型进行训练，获得所述服务评价模型。

本公开的第三个方面是提供一种情绪识别设备，包括：存储器，处理器；

存储器；用于存储所述处理器可执行指令的存储器；

其中，所述处理器用于调用所述存储器中的程序指令执行如第一方面所述的情绪识别方法。

本公开的第四个方面是提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如第一方面所述的情绪识别方法。

本公开提供的情绪识别方法、装置、设备及计算机可读存储介质，通过对目标语音数据进行分割操作，获得目标语音数据的多个有效语音片段，进而可以根据多个有效语音片段进行情绪识别，确定目标语音数据对应的情绪等级。由于每个有效语音片段中含有每一轮对话内容的全部有效数据，因此，分别对每个有效语音片段进行情绪识别，能够准确地反应目标语音数据中包含的情绪波动，从而能够准确确定目标语音数据的情绪等级。有效地避免了现有技术中仅对整个服务过程只生成一个情绪识别结果，无法体现客服人员和客户在对话过程中的情绪波动，导致对语音数据的情绪识别结果不准确，从而导致对客服人员的服务量化考评结果不准确的问题。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本公开的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本公开基于的网络架构示意图；

图2为本公开实施例提供的情绪识别方法的流程示意图；

图3为本公开又一实施例提供的情绪识别方法的流程示意图；

图4为本公开实施例提供的情绪识别场景图；

图5为本公开再一实施例提供的情绪识别方法的流程示意图；

图6为本公开实施例提供的情绪识别装置的结构示意图；

图7为本公开又一实施例提供的情绪识别装置的结构示意图；

图8为本公开实施例提供的情绪识别设备的结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例所获得的所有其他实施例，都属于本公开保护的范围。

针对上述提及的现有的情绪识别方法会造成对语音数据的情绪识别结果不准确，从而导致对客服人员的服务量化考评结果不准确的技术问题，本公开提供了一种情绪识别方法、装置、设备及计算机可读存储介质。

需要说明的是，本公开提供的情绪识别控制方法、装置、设备及计算机可读存储介质可运用在各种情绪识别的场景中。

现有技术中，为了实现对客服人员的服务进行量化考评，一般将服务过程的语音数据作为一个整体，对其进行情绪识别，得到一个情绪识别结果。根据该情绪识别结果对客服人员的服务进行量化考评。但是，由于对整个服务过程只生成一个情绪识别结果，无法体现客服人员和客户在对话过程中的情绪波动，因此，采用上述方法进行情绪识别时，往往会导致对语音数据的情绪识别结果不准确，相应地导致对客服人员的服务量化考评结果不准确。

在解决上述技术问题的过程中，发明人通过研究发现，为了能够在对语音数据进行情绪识别的基础上，提高情绪识别的准确性，需要对待识别的语音数据进行处理。具体地，由于语音数据中包含客服与客户的多轮对话内容，因此，可以对每轮对话内容分别进行情绪识别，根据情绪识别结果生成一个情绪序列，根据该情绪序列进行情绪等级评价，对客服人员的服务进行量化考评。

图1为本公开基于的网络架构示意图，如图1所示，本公开基于的网络架构至少包括：终端设备1以及语音质检系统2。其中，语音质检系统2中设置有情绪识别装置，该情绪识别装置可以采用C/C++、Java、Shell或Python等语言编写。终端设备1则可以为台式电脑、平板电脑、手机等。终端设备1与语音质检系统2通信连接，从而语音质检系统2能够与终端设备1进行信息交互。

下面以具体地实施例本公开的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图2为本公开实施例提供的情绪识别方法的流程示意图，如图2所示，所述方法包括：

步骤101、获取终端设备发送的情绪识别请求，其中，所述情绪识别请求中包括目标语音数据。

进一步地，所述目标语音数据中包括客服与用户交流过程中的对话语音。

本实施例的执行主体为情绪识别装置，该情绪识别装置设置在语音质检系统中。该语音质检系统可以与终端设备通信连接，从而能够与终端设备进行信息交互。

在本实施方式中，情绪识别装置在接收到终端设备发送的情绪识别请求后，能够获取情绪识别请求中包含的目标语音数据。其中，目标语音数据为一次服务过程中客服与客户的全部混合语音内容。

具体地，情绪识别装置可以响应于用户触发的操作，从终端设备获取情绪识别请求。可以一次只对一个目标语音数据进行处理，也可以一次对多个目标语音数据进行处理，本公开对此不做限制。

步骤102、对所述目标语音数据进行分割操作，获得所述目标语音数据的多个有效语音片段，其中，所述有效语音片段中包括客服与用户的对话语音。

在本实施方式中，情绪识别装置在获取到目标语音数据后，可以将该目标语音数据进行分割，生成多个有效语音片段，每个有效语音片段中包括客服与客户在一轮对话中的语音数据。

相对于现有技术中将一次服务过程的语音数据作为一个整体，对其进行情绪识别来说，将目标语音数据分成多个有效语音片段，对每个有效语音片段进行情绪识别，能够精准的反应客服与客户在每一轮对话过程中的情绪波动以及客服对客户情绪的引导作用。避免了现有技术中由于只对整个服务过程的语音数据只进行一次情绪识别导致的情绪识别结果不准确的问题。

步骤103、根据所述多个有效语音片段，确定所述目标语音数据对应的情绪等级。

在本实施方式中，情绪识别装置分别对每个有效语音片段进行情绪识别，能够得到对应的多个情绪识别结果，根据所有有效片段的情绪识别结果能够得到在本次服务过程中客服对应的情绪等级。

在一种可能的实施方式中，可以将情绪分为五个类别，包括：非常积极、积极、中性、消极、非常消极。情绪等级可以包括五级，A级为服务开始或服务过程中有消极情绪，最终使情绪归于积极情绪；B级为服务开始或服务过程中有消极情绪，最终使情绪归于中性；C级为整个服务过程中都处于中性；D级为服务开始或服务过程中为中性，最终有消极情绪；E级为服务开始或服务过程中为中性或者消极情绪，最终情绪非常消极。

步骤104、将所述目标语音数据对应的情绪等级发送至所述终端设备。

在本实施方式中，情绪识别装置能够将目标语音数据对应的情绪等级发送到终端设备，用户能够从终端设备查看目标语音数据对应的情绪等级，根据该情绪等级能够得到客服与客户在服务过程中的情绪波动，以及客服对客户情绪的引导作用，能够直观地得到更为准确的客服服务评价。

本实施例提供的情绪识别方法，通过将目标语音数据进行分割得到多个有效语音片段，分别对每个语音片段进行情绪识别，得到最终的情绪等级。由于每个语音片段包含每一轮对话过程中客服与客户的语音数据，因此对每个语音片段进行情绪识别得到的情绪等级能够反应整个服务过程中客服与客户的情绪波动以及客服对客户情绪的引导作用，从而提高了情绪识别结果的准确性，进而提高了对客服服务评价的准确性。

在上述实施例的基础上，步骤102具体包括：

在本实施例中，在客服与客户对话过程中，中间会有静音部分，通过断点检测能够有效从目标语音数据中准确的定位出语音的开始点和结束点，去掉静音的部分，确定目标语音数据中真正有效的内容。将目标语音数据中每一段含有有效内容的语音片段称为有效语音片段。

具体地，可以训练一个支持向量机(Support Vector Machine，简称SVM)分类器来用于对语音数据中的语音信号和静默信号进行分类。训练分类器需要足够的带标签数据，需要人工标注数据，训练完成之后，获得一个可以预测未知数据标签的模型。当检测到语音时输出为1，否则，输出为0。输出为1的语音片段即为有效语音片段。

本实施例提供的情绪识别方法，通过将目标语音数据分成多个有效语音片段能够去除目标语音数据中的静音部分，从而能够提高对目标语音数据处理的有效性，进一步地，能够提高对目标语音数据情绪识别的准确性。

图3为本公开又一实施例提供的情绪识别方法的流程示意图，如图3所示，在上述任一实施例的基础上，步骤103具体包括：

步骤201、依次对所述多个有效语音片段进行情绪识别，获得所述目标语音数据的情绪向量序列。

在本实施方式中，将目标语音数据分成多个有效语音片段后，需要对每个有效语音片段分别进行情绪识别，得到每个有效语音片段对应的情绪向量，在对全部的有效语音片段进行情绪识别后，得到目标语音数据的情绪向量序列。其中，该目标语音数据的情绪向量序列为，按照断点检测得到每个有效语音片段的先后顺序排列每个有效语音片段对应的情绪向量得到的序列。

在一种可能的实施方式中，情绪向量可以为一个五维的向量，该向量存储每一维的情绪对应的概率，五维分别代表情绪非常积极、积极、中性、消极、非常消极。举例来说，一个目标语音数据经过断点检测分成三个有效语音片段，其中第一个有效语音片段的情绪向量为(0.8，0.6，0.4，0.2，0.1)，则表示该有效语音片段中非常积极情绪的概率为0.8，积极情绪的概率为0.6，中性情绪的概率为0.4，消极情绪的概率为0.2，非常消极情绪的概率为0.1。第二个有效语音片段的情绪向量为(0.4，0.3，0.6，0.8，0.3)，则表示该有效语音片段中非常积极情绪的概率为0.4，积极情绪的概率为0.3，中性情绪的概率为0.6，消极情绪的概率为0.8，非常消极情绪的概率为0.3。第三个有效语音片段的情绪向量为(0.6，0.4，0.3，0.4，0.1)，则表示该有效语音片段中非常积极情绪的概率为0.6，积极情绪的概率为0.4，中性情绪的概率为0.3，消极情绪的概率为0.4，非常消极情绪的概率为0.1。则该目标语音片段对应的情绪向量序列为{(0.8，0.6，0.4，0.2，0.1)，(0.4，0.3，0.6，0.8，0.3)，(0.6，0.4，0.3，0.4，0.1)}。

步骤202、采用预设的服务评价模型对所述情绪向量序列进行识别，获得所述目标语音数据对应的情绪等级。

在本实施方式中，预设的服务评价模型可以为事先训练好的加上注意力机制的循环神经网络模型。将情绪向量序列输入该服务评价模型，能够得到目标语音数据对应的情绪等级，根据目标语音数据的情绪等级，能够得到在服务过程中客服与客户的情绪波动，以及客服对客户情绪的引导作用。

举例来说，将步骤101中获得的情绪向量序列{(0.8，0.6，0.4，0.2，0.1)，(0.4，0.3，0.6，0.8，0.3)，(0.6，0.4，0.3，0.4，0.1)}输入预设的服务评价模型，能够得到情绪等级A，情绪等级A代表在服务开始或服务过程中有消极情绪，最终使情绪归于积极情绪。体现了在服务开始或者服务过程中，客户存在消极情绪，但在与客服的沟通过程中，情绪逐渐变的积极向上。

图4为本公开实施例提供的情绪识别场景图，如图4所示，在获取到目标语音数据后，将目标语音数据分割成多个有效语音片段，每个有效语音片段中含有客服与客户的对话语音内容。依次对每个有效语音片段进行情绪识别，得到每个有效语音片段对应的情绪向量。

比如对有效语音片段“喂，我要修改密码。您好，请问您需要修改哪个密码？登陆密码。”进行情绪识别，得到情绪向量1。对有效语音片段“好的，请问新密码是多少？654321”进行情绪识别，得到情绪向量2。对有效语音片段“好的，请问您的旧密码是多少？123456”进行情绪识别，得到情绪向量3。对有效语音片段“好的，密码已为您修改成功，您稍后登陆一下试试，请问还有需要帮助您的吗？没有了，谢谢，再见。好的，不客气，再见，祝您生活愉快。”进行情绪识别，得到情绪向量4。

则目标语音的情绪向量序列为{情绪向量1，情绪向量2，情绪向量3，情绪向量4}，将目标语音的情绪向量序列{情绪向量1，情绪向量2，情绪向量3，情绪向量4}输入至服务评价模型，得到目标语音数据的情绪等级。

本实施例提供的情绪识别方法，通过对每个有效语音片段进行情绪识别，得到目标语音数据的情绪向量序列，进而对情绪向量进行识别，得到目标语音数据对应的情绪等级。由于对每个有效语音片段进行情绪识别能够得到一个情绪向量，该情绪向量能够表征该有效语音片段中各种情绪的概率，因此在对全部有效语音片段进行情绪识别后得到的情绪向量序列能够准确地表征在整个服务过程中客服与客户的情绪波动情况。进一步地，对情绪向量序列进行识别能够得到目标语音数据对应的情绪等级，从而提高了情绪识别的准确性，相应地，也提高了对客服服务评价的准确性。

图5为本公开再一实施例提供的情绪识别方法的流程示意图，如图5所示，在上述任一实施例的基础上，步骤201具体包括：

步骤301、采用预设的语音编码模型分别对每个有效语音片段进行编码，获得所述多个有效语音片段的全部语音编码。

在本实施方式中，将有效语音片段输入预设的语音编码模型中能够得到语音编码，语音编码是一个多维向量。其中，预设的语音编码模型可以通过对开源的语音编码模型进行训练得到。

步骤302、采用预设的语音转化模型分别将每个有效语音片段转化为对应的语义文本。

在本实施方式中，将有效语音片段输入预设的语音转化模型能够得到对应的语义文本。语音转化模型本质上是一种模式识别模型，包括特征提取、模式匹配、参考模式库等三个基本单元。把有效语音片段输入语音转化模型，对输入的有效语音片段进行预处理，然后提取有效语音片段的特征向量，利用训练好的语音识别模型对有效语音片段进行识别，输出内容文本信息。

具体地，在识别过程中根据语音转化模型，将语音模板与输入的有效语音片段的特征进行比较，根据一定的搜索和匹配策略，找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义，通过查表就可以给出该有效语音片段的识别结果。

步骤303、采用预设的语义编码模型分别对所述语义文本进行编码，获得所述多个有效语音片段的全部语义编码。

在本实施方式中，将有效语音片段对应的语义文本输入预设的语义编码模型中能够得到语义编码，语义编码是一个多维向量。其中，预设的语义编码模型可以通过对开源的语义编码模型进行训练得到。

步骤304、对每一所述有效语音片段对应的语音编码与语义编码进行拼接，获得每一所述有效语音片段对应的目标编码。

在本实施方式中，仅用目标语音数据或仅用目标语音数据包含的文本数据对情绪进行识别不够准确，综合利用目标语音数据和对应的文本数据对情绪进行识别能够提高情绪识别的准确性。因此为了综合利用目标语音数据和目标语音数据包含的文本数据，将语音编码和所述语义编码进行拼接，得到拼接后的目标编码，作为后续情绪识别模型的输入。

具体地，可以将语音编码和语义编码进行横向拼接，即将语音编码和语义编码连接在一起形成目标编码。举例来说，一个有效语音片段的语音编码是一个150维的向量，语义编码是一个200维的向量，则拼接的目标向量为一个350维的向量，该目标向量的前150维对应语音编码，后200为对应语义编码。还可以将语音编码和语义编码利用其他方式进行拼接，本公开对此不做限制。

步骤305、对每一所述目标编码进行情绪识别操作，获得所述目标语音数据的情绪向量序列。

在本实施方式中，每一有效语音片段的目标编码中包含该有效语音片段的全部语音情绪特征和文本情绪特征，因此，对每一有效语音片段的目标编码进行情绪识别能够得到每一有效语音片段的情绪向量，对所有的有效语音片段进行情绪识别后能够得到目标语音数据的情绪向量序列。

进一步地，步骤305具体包括：

采用预设的情绪识别模型对每一有效语音片段的目标编码进行识别，获得所述每一有效语音片段的情绪向量；对各有效语音片段的情绪向量进行拼接操作，获得所述情绪向量序列。

在本实施例中，预设的情绪识别模型可以为训练好的卷积神经网络模型，在对输入的目标编码进行特征提取后，分类层可以对特征进行分类，输出对应的情绪向量。对每个有效语音片段的目标编码进行识别后，能够获得全部有效语音片段对应的情绪向量，按照断点检测得到每个有效语音片段的先后顺序排列每个有效语音片段对应的情绪向量，将每个情绪向量拼接在一起，得到目标语音数据的情绪向量序列，其中，拼接方式可以为横向拼接也可以为其他拼接方式，本公开对此不做限制。

本实施例提供的情绪识别方法，通过对目标语音数据的每个有效语音片段进行语音编码，将每个有效语音片段转化为语义文本并进行语义编码，在将语音编码和语义编码进行拼接后进行情绪识别，从而获得目标语音数据的情绪向量序列。由于在进行情绪识别的过程中是对语音编码和语义编码拼接后的目标编码进行识别的，该目标编码包含目标语音数据的语音情绪特征和语义情绪特征，因此，得到的情绪向量序列综合考虑了目标语音数据的语音情绪和语义情绪，从而提高了情绪识别的准确性。

在上述任一实施例的基础上，所述方法还包括：

从数据库中获取预设的情绪待训练数据集，所述情绪待训练数据集中包括多组情绪待训练数据，每一组情绪待训练数据中包括待训练目标编码以及所述待训练目标编码对应的情绪向量；通过所述情绪待训练数据集对预设的情绪待训练模型进行训练，获得所述情绪识别模型。

在本实施例中，在使用情绪识别模型前需要以包含不同情绪的对话语音数据对应的目标编码作为输入，与对话语音数据对应的情绪向量作为输出训练预设的情绪待训练模型，得到所需的情绪识别模型。其中，情绪待训练模型可以为卷积神经网络模型，也可以为其他任意一种能够实现情绪识别的网络模型，本公开对此不做限制。

本实施例提供的情绪识别方法，通过利用包含不同情绪的对话语音数据和对应的情绪向量对情绪待训练模型进行训练，因此，训练得到的情绪识别模型能够准确地确定每一有效语音片段的情绪向量，从而能够准确地得到目标语音数据对应的情绪向量序列，进一步地提高了情绪识别的准确性。

在上述任一实施例的基础上，所述方法还包括：

从数据库中获取预设的评价待训练数据集，所述评价待训练数据集中包括多组评价待训练数据，每一组评价待训练数据中包括待训练情绪向量序列以及所述待训练情绪向量序列对应的情绪等级；通过所述评价待训练数据集对预设的评价待训练模型进行训练，获得所述服务评价模型。

在本实施例中，在使用服务评价模型前需要以包含不同情绪的对话语音数据对应的情绪向量序列作为输入，与对话语音数据对应的情绪等级作为输出训练预设的服务评价待训练模型，得到所需的服务评价模型。其中，服务评价待训练模型可以为加上注意力机制的神经网络模型，也可以为其他任意一种能够实现情绪等级评价的网络模型，本公开对此不做限制。

本实施例提供的情绪识别方法，通过利用包含不同情绪的对话语音数据对应的情绪向量序列和这些对话语音数据对应的情绪等级对服务评价待训练模型进行训练，因此，训练得到的服务评价模型能够准确地确定情绪向量序列对应的情绪等级，从而能够准确地得到目标语音数据对应的情绪等级，进一步地提高了对客户服务评价的准确性。

图6为本公开实施例提供的情绪识别装置的结构示意图，如图6所示，所述情绪识别装置包括：获取模块61、分割模块62、确定模块63、发送模块64。其中：

获取模块61，用于获取终端设备发送的情绪识别请求，其中，所述情绪识别请求中包括目标语音数据。

进一步地，所述目标语音数据中包括客服与用户交流过程中的混合语音。

分割模块62，用于对所述目标语音数据进行分割操作，获得所述目标语音数据的多个有效语音片段，其中，所述有效语音片段中包括客服与用户的对话语音。

确定模块63，用于根据所述多个有效语音片段，确定所述目标语音数据对应的情绪等级。

发送模块64，用于将所述目标语音数据对应的情绪等级发送至所述终端设备。

本实施例提供的情绪识别装置，通过将目标语音数据进行分割得到多个有效语音片段，分别对每个语音片段进行情绪识别，得到最终的情绪等级。由于每个语音片段包含每一轮对话过程中客服与客户的语音数据，因此对每个语音片段进行情绪识别得到的情绪等级能够反应整个服务过程中客服与客户的情绪波动以及客服对客户情绪的引导作用，从而提高了情绪识别结果的准确性，进而提高了对客服服务评价的准确性。

在上述实施例的基础上，所述分割模块62用于：

本实施例提供的情绪识别装置，通过将目标语音数据分成多个有效语音片段能够去除目标语音数据中的静音部分，从而能够提高对目标语音数据处理的有效性，进一步地，能够提高对目标语音情绪识别的准确性。

图7为本公开又一实施例提供的情绪识别装置的结构示意图，如图7所示，所述确定模块63包括：

第一识别单元71，用于依次对所述多个有效语音片段进行情绪识别，获得所述目标语音数据的情绪向量序列。

第二识别单元72，用于采用预设的服务评价模型对所述情绪向量序列进行识别，获得所述目标语音数据对应的情绪等级。

本实施例提供的情绪识别装置，通过对每个有效语音片段进行情绪识别，得到目标语音数据的情绪向量序列，进而对情绪向量进行识别，得到目标语音数据对应的情绪等级。由于对每个有效语音片段进行情绪识别能够得到一个情绪向量，该情绪向量能够表征该有效语音片段中各种情绪的概率，因此在对全部有效语音片段进行情绪识别后得到的情绪向量序列能够准确地表征在整个服务过程中客服与客户的情绪波动情况。进一步地，对情绪向量序列进行识别能够得到目标语音数据对应的情绪等级，从而提高了情绪识别的准确性，相应地，也提高了对客服服务评价的准确性。

在上述任一实施例的基础上，所述第一识别单元71用于：采用预设的语音编码模型分别对每个有效语音片段进行编码，获得所述多个有效语音片段的全部语音编码；采用预设的语音转化模型分别将每个有效语音片段转化为对应的语义文本；采用预设的语义编码模型分别对所述语义文本进行编码，获得所述多个有效语音片段的全部语义编码；对每一所述有效语音片段对应的语音编码与语义编码进行拼接，获得每一所述有效语音片段对应的目标编码；对每一所述目标编码进行情绪识别操作，获得所述目标语音数据的情绪向量序列。

进一步地，所述第一识别单元具体用于：采用预设的情绪识别模型对每一有效语音片段的目标编码进行识别，获得所述每一有效语音片段的情绪向量；对各有效语音片段的情绪向量进行拼接操作，获得所述情绪向量序列。

本实施例提供的情绪识别装置，通过对目标语音数据的每个有效语音片段进行语音编码，将每个有效语音片段转化为语义文本并进行语义编码，在将语音编码和语义编码进行拼接后进行情绪识别，从而获得目标语音数据的情绪向量序列。由于在进行情绪识别的过程中是对语音编码和语义编码拼接后的目标编码进行识别的，该目标编码包含目标语音数据的语音情绪特征和语义情绪特征，因此，得到的情绪向量序列综合考虑了目标语音数据的语音情绪和语义情绪，从而提高了情绪识别的准确性。

在上述任一实施例的基础上，所述情绪识别装置还包括：情绪待训练数据集获取模块，用于从数据库中获取预设的情绪待训练数据集，所述情绪待训练数据集中包括多组情绪待训练数据，每一组情绪待训练数据中包括待训练目标编码以及所述待训练目标编码对应的情绪向量；情绪识别模型获取模块，用于通过所述情绪待训练数据集对预设的情绪待训练模型进行训练，获得所述情绪识别模型。

本实施例提供的情绪识别装置，通过利用包含不同情绪的对话语音数据和对应的情绪向量对情绪待训练模型进行训练，因此，训练得到的情绪识别模型能够准确地确定每一有效语音片段的情绪向量，从而能够准确地得到目标语音数据对应的情绪向量序列，进一步地提高了情绪识别的准确性。

在上述任一实施例的基础上，所述情绪识别装置还包括：评价待训练数据集获取模块，用于从数据库中获取预设的评价待训练数据集，所述评价待训练数据集中包括多组评价待训练数据，每一组评价待训练数据中包括待训练情绪向量序列以及所述待训练情绪向量序列对应的情绪等级；服务评价模型获取模块，用于通过所述评价待训练数据集对预设的评价待训练模型进行训练，获得所述服务评价模型。

本实施例提供的情绪识别装置，通过利用包含不同情绪的对话语音数据对应的情绪向量序列和这些对话语音数据对应的情绪等级对服务评价待训练模型进行训练，因此，训练得到的服务评价模型能够准确地确定情绪向量序列对应的情绪等级，从而能够准确地得到目标语音数据对应的情绪等级，进一步地提高了对客户服务评价的准确性。

图8为本公开实施例提供的情绪识别设备的结构示意图，如图8所示，所述情绪识别设备，包括：存储器81，处理器82；

存储器81，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器81可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

其中，处理器82可能是一个中央处理器(Central Processing Unit，简称为CPU)，或者是特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者是被配置成实施本公开实施例的一个或多个集成电路。

可选的，在具体实现上，如果存储器81和处理器82独立实现，则存储器81和处理器82可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(Industry Standard Architecture，简称为ISA)总线、外部设备互连(PeripheralComponent，简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture，简称为EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器81和处理器82集成在一块芯片上实现，则存储器81和处理器82可以通过内部接口完成相同间的通信。

本公开的另一实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如上述任一实施例所述的情绪识别方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述各实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的范围。

Claims

1.一种情绪识别方法，其特征在于，包括：

将所述目标语音数据对应的情绪等级发送至所述终端设备。

2.根据权利要求1所述的方法，其特征在于，所述对所述目标语音数据进行分割操作，获得所述目标语音数据的多个有效语音片段，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述多个有效语音片段，确定所述目标语音数据对应的情绪等级，包括：

4.根据权利要求3所述的方法，其特征在于，所述依次对所述多个有效语音片段进行情绪识别，获得所述目标语音数据的情绪向量序列，包括：

5.根据权利要求4所述的方法，其特征在于，所述对每一所述目标编码进行情绪识别操作，获得所述目标语音数据的情绪向量序列，包括：

6.根据权利要求5所述的方法，其特征在于，所述采用预设的情绪识别模型对每一有效语音片段的目标编码进行识别，获得所述每一有效语音片段的情绪向量之前，还包括：

7.根据权利要求3-5任一项所述的方法，其特征在于，所述采用预设的服务评价模型对所述情绪向量序列进行识别，获得所述目标语音数据对应的情绪等级之前，还包括：

8.根据权利要求1-5任一项所述的方法，其特征在于，所述目标语音数据中包括客服与用户交流过程中的混合语音。

9.一种情绪识别装置，其特征在于，包括：

10.根据权利要求9所述的装置，其特征在于，所述分割模块用于：

11.根据权利要求9所述的装置，其特征在于，所述确定模块，包括：

12.根据权利要求11所述的装置，其特征在于，所述第一识别单元用于：

13.根据权利要求12所述的装置，其特征在于，所述第一识别单元具体用于：

14.根据权利要求13所述的装置，其特征在于，还包括：

15.根据权利要求11-13任一项所述的装置，其特征在于，还包括：

16.根据权利要求9-13任一项所述的装置，其特征在于，所述目标语音数据中包括客服与用户交流过程中的混合语音。

17.一种情绪识别设备，其特征在于，包括：存储器，处理器；

存储器；用于存储所述处理器可执行指令的存储器；

其中，所述处理器用于调用所述存储器中的程序指令执行如权利要求1-8任一项所述的情绪识别方法。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1-8任一项所述的情绪识别方法。