CN115171731A

CN115171731A - 一种情绪类别确定方法、装置、设备及可读存储介质

Info

Publication number: CN115171731A
Application number: CN202210813487.XA
Authority: CN
Inventors: 赵沁; 杨栋; 曹木勇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-07-11
Filing date: 2022-07-11
Publication date: 2022-10-11

Abstract

本申请实施例公开了一种情绪类别确定方法、装置、设备及可读存储介质，涉及人工智能中机器学习技术和语音处理技术，其中，方法包括：获取待识别的目标语音，以及该目标语音对应的目标文本；从该目标语音中提取声纹信息，基于该声纹信息确定第一情绪类别；从目标文本中提取语义信息，基于语义信息确定第二情绪类别；基于声纹信息中的声纹嵌入向量和该语义信息中的语义嵌入向量进行特征融合处理，得到融合嵌入向量，基于融合嵌入向量确定第三情绪类别；基于该第一情绪类别、该第二情绪类别和该第三情绪类别，确定该目标语音的目标情绪类别，目标情绪类别用于反映该目标语音所属的情绪类别。采用本申请实施例，可以提高情绪类别确定的准确性。

Description

一种情绪类别确定方法、装置、设备及可读存储介质

技术领域

本申请涉及语音处理技术领域，尤其涉及一种情绪类别确定方法、装置、设备及可读存储介质。

背景技术

基于语音的情绪理解技术遇到的挑战并不少，尤其涉及到情绪的定义及准确标定，情绪数据的收集与筛选等，这些困难都会影响到语音情绪理解系统的准确性。

目前的方案一般是通过对语音数据进行语音识别得到文本数据，基于文本数据确定语音数据包含的情绪，该种方式不能充分挖掘语音中的情绪信息，导致情绪类别确定的准确率较低。

发明内容

本申请实施例提供一种情绪类别确定方法、装置、设备及可读存储介质，可以提高情绪类别确定的准确性。

第一方面，本申请提供一种情绪类别确定方法，包括：

获取待识别的目标语音，以及该目标语音对应的目标文本；

从该目标语音中提取声纹信息，基于该声纹信息确定第一情绪类别，该声纹信息包括声纹嵌入向量；

从该目标文本中提取语义信息，基于该语义信息确定第二情绪类别，该语义信息包括语义嵌入向量；

对该声纹嵌入向量和该语义嵌入向量进行特征融合处理，得到融合嵌入向量；

基于该融合嵌入向量确定该目标语音与多个预设融合情绪类别中每个预设融合情绪类别之间的匹配概率；

基于该多个预设融合情绪类别和匹配概率确定第三情绪类别；

基于该第一情绪类别、该第二情绪类别和该第三情绪类别，确定该目标语音的目标情绪类别，该目标情绪类别用于反映该目标语音所属的情绪类别。

第二方面，本申请提供一种情绪类别确定装置，包括：

数据获取单元，用于获取待识别的目标语音，以及该目标语音对应的目标文本；

声纹提取单元，用于从该目标语音中提取声纹信息，基于该声纹信息确定第一情绪类别，该声纹信息包括声纹嵌入向量；

语义提取单元，用于从该目标文本中提取语义信息，基于该语义信息确定第二情绪类别，该语义信息包括语义嵌入向量；

信息融合单元，用于对该声纹嵌入向量和该语义嵌入向量进行特征融合处理，得到融合嵌入向量；

该信息融合单元，还用于基于该融合嵌入向量确定该目标语音与多个预设融合情绪类别中每个预设融合情绪类别之间的匹配概率；

该信息融合单元，还用于基于该多个预设融合情绪类别和匹配概率确定第三情绪类别；

类别确定单元，用于基于该第一情绪类别、该第二情绪类别和该第三情绪类别，确定该目标语音的目标情绪类别，该目标情绪类别用于反映该目标语音所属的情绪类别。

第三方面，本申请提供了一种计算机设备，包括：处理器、存储器；

上述处理器与存储器相连，其中，上述存储器用于存储计算机程序，上述处理器用于调用上述计算机程序，以使包含该处理器的计算机设备执行上述情绪类别确定方法。

第四方面，本申请提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，该计算机程序适于由处理器加载并执行，以使得具有该处理器的计算机设备执行上述情绪类别确定方法。

第五方面，本申请提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令被处理器执行时实现上述情绪类别确定方法。

本申请实施例中，由于第一情绪类别是基于语音中声纹信息确定的，第二情绪类别是基于文本中语义信息确定的，第三情绪类别是结合声纹信息和语义信息确定的，例如基于声纹信息包含的声纹嵌入向量和语义信息包含的语义嵌入向量进行特征融合得到的融合嵌入特征确定，因此基于第一情绪类别、第二情绪类别和第三情绪类别确定的目标情绪类别可以从多个维度反映用户的情绪。由于分别基于语义信息和声纹信息判断出情绪类别，并且结合两者的融合信息判断出情绪类别，从而基于多个情绪类别综合分析判断出最终的情绪类别，可以使得情绪类别判断结果更准确。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种情绪类别确定系统的架构示意图；

图2是本申请实施例提供的一种情绪类别确定方法的应用场景示意图；

图3是本申请实施例提供的一种情绪类别确定方法的流程示意图；

图4是本申请实施例提供的另一种情绪类别确定方法的流程示意图；

图5是本申请实施例提供的一种判别器训练方法的流程示意图；

图6是本申请实施例提供的一种情绪类别确定装置的组成结构示意图；

图7是本申请实施例提供的一种计算机设备的组成结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。自然语言处理(NatureLanguage processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请涉及人工智能中的语音处理技术、自然语言处理技术以及机器学习技术等。可选地，例如，可以利用语音处理技术或者自然语言处理技术对目标语音进行识别，得到目标语音对应的目标文本。进一步地，例如可以结合机器学习技术和语音处理技术从目标语音中提取声纹信息，基于声纹信息确定第一情绪类别；从目标文本中提取语义信息，基于语义信息确定第二情绪类别；基于声纹信息和语义信息确定第三情绪类别；从而基于第一情绪类别、第二情绪类别和第三情绪类别，确定目标语音的目标情绪类别，目标情绪类别用于反映目标语音所属的情绪类别。

本申请实施例中涉及到用户信息相关的数据(例如目标语音、目标文本等)均为用户授权后的数据。本申请技术方案适用于结合用户的语音和文本来确定用户的目标情绪类别的场景中。例如，在智能客服中，通过获取用户当前的目标语音，确定目标语音对应的目标文本，结合用户的目标语音和目标文本确定用户当前的情绪类别，从而对智能客服当前的回答话术进行调整，以更好地实现问答服务，提升用户体验。或者，在游戏场景中，通过获取玩家游戏过程中的目标语音进行识别，得到目标文本，结合目标文本和目标语音确定玩家的情绪类别，例如玩家情绪类别为负面情绪类别时，可以进行提示或者警告，以维护游戏环境，提升游戏体验。

请参见图1，图1是本申请实施例提供的一种情绪类别确定系统的网络架构图，如图1所示，计算机设备可以与终端设备进行数据交互，终端设备的数量可以为一个或者至少两个，例如，当终端设备的数量为多个时，终端设备可以包括图1中的终端设备101a、终端设备101b及终端设备101c等。其中，以终端设备101a为例，计算机设备102可以获取待识别的目标语音，以及目标语音对应的目标文本。进一步地，计算机设备102可以从目标语音中提取声纹信息，基于声纹信息确定第一情绪类别；从目标文本中提取语义信息，基于语义信息确定第二情绪类别；基于声纹信息和语义信息确定第三情绪类别；从而基于第一情绪类别、第二情绪类别和第三情绪类别，确定目标语音的目标情绪类别，目标情绪类别用于反映目标语音所属的情绪类别。可选地，计算机设备102可以将目标情绪类别发送至终端设备101a，以使终端设备101a显示目标情绪类别，进而提示用户进行情绪调整。

由于第一情绪类别是基于语音中声纹信息确定的，第二情绪类别是基于文本中语义信息确定的，第三情绪类别是结合声纹信息和语义信息确定的，例如基于声纹信息包含的声纹嵌入向量和语义信息包含的语义嵌入向量进行特征融合得到的融合嵌入特征确定，因此基于第一情绪类别、第二情绪类别和第三情绪类别确定的目标情绪类别可以从多个维度反映用户的情绪。由于分别基于语义信息和声纹信息判断出情绪类别，并且结合两者的融合信息判断出情绪类别，从而基于多个情绪类别综合分析判断出最终的情绪类别，可以使得情绪类别判断结果更准确。

可以理解的是，本申请实施例中所提及的计算机设备包括但不限于终端设备或服务器。换句话说，计算机设备可以是服务器或终端设备，也可以是服务器和终端设备组成的系统。其中，以上所提及的终端设备可以是一种电子设备，包括但不限于手机、平板电脑、台式电脑、笔记本电脑、掌上电脑、车载设备、智能语音交互设备、增强现实/虚拟现实(Augmented Reality/Virtual Reality，AR/VR)设备、头盔显示器、可穿戴设备、智能音箱、智能家电、飞行器、数码相机、摄像头及其他具备网络接入能力的移动互联网设备(mobileinternet device，MID)等。其中，以上所提及的服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、车路协同、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

进一步地，请参见图2，图2是本申请实施例提供的一种情绪类别确定方法的应用场景示意图。如图2所示，计算机设备20可以获取待识别的目标语音21，对目标语音21进行语音识别得到目标文本22，例如目标文本可以为“XX你再不好好玩我就挂机了”。进一步地，计算机设备20可以从目标语音21中提取声纹信息23，基于声纹信息23确定第一情绪类别。计算机设备20可以从目标文本22中提取语义信息24，基于语义信息24确定第二情绪类别。进一步地，计算机设备20可以基于声纹信息23和语义信息24确定第三情绪类别，例如对声纹信息23和语义信息24进行特征融合以确定第三情绪类别。进一步地，计算机设备20可以基于第一情绪类别、第二情绪类别和第三情绪类别，确定目标语音的目标情绪类别。例如，第一情绪类别为愤怒、第二情绪类别为愤怒，第三情绪类别为轻松，则可以确定目标情绪类别为愤怒。

进一步地，请参见图3，图3是本申请实施例提供的一种情绪类别确定方法的流程示意图；如图3所示，该情绪类别确定方法可以应用于计算机设备，该情绪类别确定方法包括但不限于以下步骤：

S101，获取待识别的目标语音，以及目标语音对应的目标文本。

本申请实施例中，计算机设备可以通过相关的语音采集装置获取待识别的目标语音，也可以从本地存储中获取待识别的目标语音，或者可以接收终端设备发送的目标语音。目标语音可以是指录音数据中的语音，也可以是指视频数据中的语音，本申请实施例对此不作限定。目标文本可以是通过对目标语音进行语音识别得到的文本，也可以是本地存储中与目标语音对应的文本，或者是接收终端设备发送的与目标语音对应的文本。

可选地，计算机设备可以获取目标语音，对目标语音进行增强处理，得到增强语音，对增强语音进行语音识别，得到目标文本。例如，计算机设备可以采用麦克风等录音设备对声音信号进行采集得到目标语音，即时域语音信号；进一步地，可以对目标语音进行增强降噪处理，得到增强信号，以提升语音信号质量。可选地，若是采用多通道麦克风阵列采集得到语音信号，则可以经过阵列增强技术(比如波束形成技术或者其他技术)得到单通道增强信号，即增强信号。进一步地，计算机设备可以对增强信号进行语音识别，得到目标文本。可选地，可以将目标文本标记为T，目标语音标记为S。

S102，从目标语音中提取声纹信息，基于声纹信息确定第一情绪类别。

本申请实施例中，计算机设备可以从目标语音中提取声纹信息，基于声纹信息确定第一情绪类别。声纹信息可以用于反映语音中包含的情绪类别，第一情绪类别可以包括中性情绪类别(如平静、平淡等)、正面情绪类别(如高兴、愉悦、乐观、轻松、自信等)、负面情绪类别(如烦闷、愤怒、悲伤、讽刺等)，等等。

可选地，计算机设备可以对目标语音进行分帧处理，得到多帧语音，对每帧语音进行频谱运算，得到每帧语音对应的频谱；对每帧语音对应的频谱进行对数运算，得到声纹信息。可选地，计算机设备可以对目标语音进行分帧，逐帧计算语音信号的梅尔尺度频谱，对频谱进行对数运算，得到增强频谱的谱线能量，使得得到的声纹信息中的声纹信息更明显。

可选地，计算机设备可以对声纹信息进行特征提取，得到声纹嵌入向量；基于声纹嵌入向量确定目标语音与多个预设声纹情绪类别中每个预设声纹情绪类别之间的匹配概率；基于多个预设声纹情绪类别和匹配概率确定第一情绪类别。其中，第一预设情绪类别可以包括中性情绪类别、正面情绪类别、负面情绪类别，等等。预设声纹情绪类别可以是指第一预设情绪类别。

例如，计算机设备可以基于目标判别器中的第一判别器确定第一情绪类别。具体地，计算机设备可以基于第一判别器中的骨干神经网络(例如卷积神经网络、残差网络(Residual Neural Network,ResNet)、或者ECAPA-TDNN网络(一种神经网络)等)对声纹信息进行特征提取，得到声纹嵌入向量。进一步地，计算机设备可以计算声纹嵌入向量与第一判别器中的多个第一预设情绪类别对应的向量之间的相似度，基于相似度确定目标语音与每个第一预设情绪类别之间的匹配概率；从多个匹配概率中获取最大匹配概率，将最大匹配概率对应的情绪类别确定为第一情绪类别。或者，计算机设备还可以将多个匹配概率中大于第一置信度阈值的概率对应的情绪类别均确定为第一情绪类别。可选地，计算机设备还可以输出第一情绪类别对应的第一匹配概率，即目标语音与第一预设情绪类别之间的匹配概率。

可选地，计算机设备可以将第一匹配概率作为第一置信度。进一步地，计算机设备可以设置第一置信度阈值TH1，将匹配概率大于第一置信度阈值TH1的情绪类别确定为第一情绪类别。若所有匹配概率均小于或等于第一置信度阈值TH1，则可以确定第一情绪类别为中性情绪类别，例如“平静”。也就是说，若第一判别器输出的第一置信度(第一匹配概率)达到第一置信度阈值，则第一判别器确定的第一情绪类别有效，若第一判别器输出的第一置信度均未达到第一置信度阈值，则将第一情绪类别确定为默认情绪类别，如中性情绪类别。

S103，从目标文本中提取语义信息，基于语义信息确定第二情绪类别。

本申请实施例中，计算机设备可以从目标文本中提取语义信息，基于语义信息确定第二情绪类别。语义信息可以用于反映文本中包含的情绪类别，第二情绪类别可以包括中性情绪类别、正面情绪类别、负面情绪类别，等等。

可选地，计算机设备可以对目标文本进行分词处理，得到目标文本对应的词向量，将词向量确定为语义信息。例如，对于文本信息T，计算机设备可以对文本信息T进行分词和预处理，进行词向量化，得到词向量，将词向量作为语义信息。通过对文本进行分词处理以及词向量化，可以更准确地提取文本中的重要信息，从而提高后续确定情绪类别的准确性。

可选地，计算机设备可以对语义信息进行特征提取，得到语义嵌入向量；基于语义嵌入向量确定目标语音与多个第二预设情绪类别中每个第二预设情绪类别之间的匹配概率；基于多个第二预设情绪类别和匹配概率确定第二情绪类别。其中，第二预设情绪类别可以包括中性情绪类别、正面情绪类别、负面情绪类别，等等。第二预设情绪类别与第一预设情绪类别的种类和数量可以相同，也可以不相同，本申请实施例对此不做限定。

例如，计算机设备可以基于目标判别器中的第二判别器确定第二情绪类别。具体地，计算机设备可以将文本的词向量(即语义信息)输入第二判别器，例如可以用预训练模型(如全局对数双线性回归模型(global log bilinear regression model,GloVe)，预训练的语言表征模型(Bidirectional Encoder Representation from Transformers,BERT)等模型)对目标文本进行词向量化，得到词向量。进一步地，使用第二判别器中的循环神经网络(比如双向长短时记忆(Long Short-Term Memory,BiLSTM)网络)对词向量进一步编码，得到文本序列，即语义嵌入向量。进一步地，计算机设备可以计算语义嵌入向量与第二判别器中的多个第二预设情绪类别对应的向量之间的相似度，基于相似度确定目标语音与每个第二预设情绪类别之间的匹配概率；从多个匹配概率中获取最大匹配概率，将最大匹配概率对应的情绪类别确定为第二情绪类别。或者，计算机设备还可以将多个匹配概率中大于第二置信度阈值的概率对应的情绪类别均确定为第二情绪类别。可选地，计算机设备还可以输出第二情绪类别对应的第二匹配概率，即目标语音与第二预设情绪类别之间的匹配概率。

可选地，计算机设备可以将第二匹配概率作为第二置信度。进一步地，计算机设备可以设置第二置信度阈值TH2，将匹配概率大于第二置信度阈值的情绪类别均确定为第二情绪类别。若所有匹配概率均小于或等于第二置信度阈值，则可以确定第二情绪类别为中性情绪类别，例如“平静”。也就是说，若第二判别器输出的第二置信度(第二匹配概率)达到第二置信度阈值，则第二判别器确定的第二情绪类别有效，若第二判别器输出的第二置信度均未达到第二置信度阈值，则将第二情绪类别确定为默认情绪类别，如中性情绪类别。

S104，对声纹嵌入向量和语义嵌入向量进行特征融合处理，得到融合嵌入向量。

本申请实施例中，计算机设备可以基于声纹信息和语义信息确定第三情绪类别。第三情绪类别可以包括中性情绪类别、正面情绪类别、负面情绪类别，等等。

可选地，声纹信息可以包括声纹嵌入向量，语义信息包括语义嵌入向量，声纹嵌入向量可以是通过对声纹信息进行特征提取得到的，语义嵌入向量可以是通过对语义信息进行特征提取得到的，计算机设备可以基于声纹嵌入向量和语义嵌入向量确定第三情绪类别。

具体地，计算机设备可以对声纹嵌入向量和语义嵌入向量进行特征融合处理，得到融合嵌入向量。其中，声纹嵌入向量的获取方式和语义嵌入向量的获取方式可以参考前述步骤，此处不再赘述。计算机设备可以采用特征拼接的方式对声纹嵌入向量和语义嵌入向量进行特征融合处理，得到融合嵌入向量。例如声纹嵌入向量的维数为P，语义嵌入向量的维数为q，p和q均为正整数，特征拼接后的融合嵌入向量的维数为p+q。或者，还可以将声纹嵌入向量和语义嵌入向量组成复合向量，对于声纹嵌入向量x和语义嵌入向量y，组成的复合向量为z＝x+iy，即融合嵌入向量为z＝x+iy，其中i是虚数单位。可选地，在确定第三情绪类别时，还可以分别对声纹嵌入向量和语义嵌入向量进行预测，得到各自的预测分数，将声纹嵌入向量的预测分数和语义嵌入向量的预测分数进行融合，得到融合嵌入向量的预测分数，即第三情绪类别的匹配概率。

S105，基于融合嵌入向量确定目标语音与多个预设融合情绪类别中每个预设融合情绪类别之间的匹配概率。

其中，预设融合情绪类别可以是预先设置的多个情绪类别，预设融合情绪类别可以是指第三预设情绪类别。

S106，基于多个预设融合情绪类别和匹配概率确定第三情绪类别。

其中，计算机设备可以基于融合嵌入向量确定目标语音与多个预设融合情绪类别中每个预设融合情绪类别之间的匹配概率；基于多个预设融合情绪类别和匹配概率确定第三情绪类别。

可选地，计算机设备可以基于目标判别器中的第三判别器确定第三情绪类别。具体地，计算机设备可以将融合嵌入向量输入第三判别器中，经过第三判别器中的网络结构(例如网络结构可以包括注意力层、全连接层和softMax分类层)对融合嵌入向量进行处理，确定融合嵌入向量与第三判别器中的多个第三预设情绪类别对应的向量之间的相似度，基于相似度确定目标语音与每个第三预设情绪类别之间的匹配概率；从多个匹配概率中获取最大匹配概率，将最大匹配概率对应的情绪类别确定为第三情绪类别。或者，计算机设备还可以将多个匹配概率中大于第三置信度阈值的概率对应的情绪类别均确定为第三情绪类别。可选地，计算机设备还可以输出第三情绪类别对应的第三匹配概率，即目标语音与第三预设情绪类别之间的匹配概率。第三预设情绪类别与第二预设情绪类别的种类和数量可以相同，也可以不相同，本申请实施例对此不做限定。

可选地，计算机设备可以将第三匹配概率作为第三置信度。进一步地，计算机设备可以设置第三置信度阈值TH3，将匹配概率大于第三置信度阈值的情绪类别确定为第三情绪类别。若所有匹配概率均小于或等于第三置信度阈值，则可以确定第三情绪类别为中性情绪类别，例如“平静”。也就是说，若第三判别器输出的第三置信度(第三匹配概率)达到第三置信度阈值，则第三判别器确定的第三情绪类别有效。若第三判别器输出的第三置信度未达到第三置信度阈值，则将第三情绪类别确定为默认情绪类别，如中性情绪类别。

S107，基于第一情绪类别、第二情绪类别和第三情绪类别，确定目标语音的目标情绪类别。

本申请实施例中，由于计算得到第一情绪类别、第二情绪类别和第三情绪类别，以及每种情绪类别对应的匹配概率，因此计算机设备可以基于该多种情绪类别以及每种情绪类别对应的匹配概率确定目标语音的目标情绪类别。目标情绪类别用于反映目标语音所属的情绪类别。例如计算机设备可以从第一情绪类别、第二情绪类别和第三情绪类别中选择其中一种情绪类别作为目标情绪类别。

在一种可能的情况下，若第一情绪类别、第二情绪类别和第三情绪类别中存在至少两种情绪类别为第一类别，则确定第一类别为目标语音的目标情绪类别。例如第一情绪类别、第二情绪类别和第三情绪类别均为同一类别，则将该类别确定为目标语音的目标情绪类别。或者第一情绪类别、第二情绪类别和第三情绪类别中存在2种情绪类别相同，则将该类别确定为目标语音的目标情绪类别。

举例来说，若第一情绪类别、第二情绪类别和第三情绪类别均为“高兴”，则确定第一类别为“高兴”，则目标语音的目标情绪类别为“高兴”。若第一情绪类别、第二情绪类别为“轻松”，第三情绪类别均为“烦闷”，则确定第一类别为“轻松”，则目标语音的目标情绪类别为“轻松”。

在另一种可能的情况下，若第一情绪类别、第二情绪类别和第三情绪类别均为不同类别，则获取第一情绪类别对应的第一匹配概率、第二情绪类别对应的第二匹配概率和第三情绪类别对应的第三匹配概率，确定第一匹配概率、第二匹配概率和第三匹配概率中最大概率对应的类别为目标语音的目标情绪类别。

举例来说，若第一情绪类别为“枯燥”、第二情绪类别为“轻松”，第三情绪类别均为“烦闷”，第一情绪类别对应的第一匹配概率为0.6，第二情绪类别对应的第二匹配概率为0.7，第三情绪类别对应的第三匹配概率为0.75，则将最大概率0.75对应的第三情绪类别“烦闷”确定为目标语音的目标情绪类别。

可选地，若第一匹配概率小于或等于第一置信度、第二匹配概率小于或等于第二置信度、第三匹配概率小于或等于第三置信度，则确定第一情绪类别、第二情绪类别和第三情绪类别均为中性情绪类别，则目标语音的目标情绪类别为中性情绪类别。

也就是说，在确定第一情绪类别、第二情绪类别和第三情绪类别之后，可以基于后端决策融合技术确定目标语音最终的情绪类别。若三个判别器(第一判别器、第二判别器、第三判别器)均输出同一种情绪类别，则将该情绪类别确定为最终的情绪类别。若三个判别器输出的情绪类别不同，则可以采用投票法判断最终的情绪类别，例如三个判别器中存在两个判别器输出的情绪类别相同，则可以将该情绪类别确定为最终的情绪类别。若每个判别器输出的情绪类别均不相同，则可以将三个判别器输出的情绪类别对应的置信度(匹配概率)最高的类别确定为最终的情绪类别。

在又一种可能的实现方式中，若第一情绪类别、第二情绪类别和第三情绪类别中的一种或多种类别的数量为多个，则统计第一情绪类别、第二情绪类别和第三情绪类别中同类别的情绪类别对应的概率，将最大概率对应的类别确定为目标语音的目标情绪类别。

举例来说，第一情绪类别包括“高兴”和“轻松”，“高兴”对应的第一匹配概率为0.55，“轻松”对应的第一匹配概率为0.65；第二情绪类别包括“轻松”，“轻松”对应的第二匹配概率为0.7；第三情绪类别包括“平静”和“轻松”，“平静”对应的第三匹配概率为0.55，“轻松”对应的第三匹配概率为0.65。则可以统计出“高兴”对应的总匹配概率为0.55、“轻松”对应的总匹配概率为0.65+0.65＝1.3、“平静”对应的总匹配概率为0.55，则将“轻松”确定为目标语音的目标情绪类别。

在又一种可能的实现方式中，计算机设备可以基于情绪识别场景确定第一情绪类别对应的第一权重、第二情绪类别对应的第二权重和第三情绪类别对应的第三权重，基于第一权重和第一匹配概率确定第一情绪类别的加权置信度，基于第二权重和第二匹配概率确定第二情绪类别的加权置信度，基于第三权重和第三匹配概率确定第三情绪类别的加权置信度；基于第一情绪类别的加权置信度、第二情绪类别的加权置信度和第三情绪类别的加权置信度，确定目标语音的目标情绪类别。

其中，情绪识别场景可以包括声音类场景、文本类场景或者综合类场景，声音类场景可以是指对于声音的关注度高于文本的场景，例如新闻联播、收音机、电话问答等场景中。在声音类场景中，第一权重可以大于第二权重和第三权重。文本类场景可以是指对于文本的关注度高于声音的场景，例如电子书播报等场景中。在文本类场景中，第二权重可以大于第一权重和第三权重。综合类场景可以是指对于声音和文本均较为关注的场景中，例如网课、朗读比赛等场景中。第三权重可以大于第二权重和第一权重。

可选地，若第一情绪类别、第二情绪类别与第三情绪类别均为不同类别，则通过计算第一情绪类别的加权置信度、第二情绪类别的加权置信度和第三情绪类别的加权置信度，从第一情绪类别的加权置信度、第二情绪类别的加权置信度和第三情绪类别的加权置信度中选择最大加权置信度对应的情绪类别，作为目标语音的目标情绪类别。

举例来说，例如基于情绪识别场景确定第一情绪类别对应的第一权重为a1、第二情绪类别对应的第二权重为a2、第三情绪类别对应的第三权重为a3，a1>a2>a3；第一匹配概率为b1、第二匹配概率为b2、第三匹配概率为b3；则可以确定第一情绪类别的加权置信度为a1*b1、第二情绪类别的加权置信度为a2*b2、第三情绪类别的加权置信度为a3*b3；则可以通过比较a1*b1、a2*b2、a3*b3之间的大小，将最大的加权置信度对应的情绪类别确定为目标语音的目标情绪类别。

通过结合具体的情绪识别场景设置各个情绪类别对应的权重，可以在确定情绪类别时更多的考虑该场景下关注度较高的方面如语音、文本、或者语音和文本兼顾，从而使得最终得到的情绪类别更可能的倾向于所关注的方面，从而提高情绪类别判别的准确性。

可以理解的是，由于目标语音中可能包括一句语音或者多句语音，目标文本可以包括一句话或者多句话，计算机设备可以结合整个目标语音确定第一情绪类别，结合整个目标文本确定第二情绪类别，结合整个目标语音和目标文本确定第三情绪类别，最终确定出目标语音的目标情绪类别。或者，计算机设备也可以对目标语音进行划分，将目标语音划分为多个语音片段，分别确定每个语音片段的情绪类别，从而确定目标语音的第一情绪类别；进一步地，计算机设备可以将目标文本划分为多个文本片段，分别确定每个文本片段的情绪类别，从而确定目标文本的第二情绪类别；进一步地，计算机设备可以结合每个语音片段和文本片段确定每个片段的情绪类别，从而确定目标语音的第三情绪类别。

可选地，在确定目标语音的目标情绪类别之后，计算机设备可以基于目标情绪类别确定目标方案，从而基于目标方案提示用户对情绪类别进行调整。具体地，计算机设备可以基于目标情绪类别确定目标方案，输出目标方案，目标方案用于提示对目标情绪类别进行调整；获取在目标时间段内的调整语音和调整文本；基于调整语音和调整文本确定调整情绪类别，若调整情绪类别与目标情绪类别之间的相似度大于相似度阈值，则对目标方案进行调整。进一步地，还可以输出目标方案。通过对调整后的目标方案进行输出，可以提升提示效果。

其中，目标方案可以包括提示信息，例如在游戏场景中，目标情绪类别为负面情绪类别时，目标方案可以用于对玩家进行提示。例如，目标方案可以包括“您当前存在消极应战行为，请注意调整”。通过输出目标方案，玩家可以查看到目标方案，有助于进行调整，提升游戏体验。调整语音可以是指在输出目标方案之后的目标时间段内获取到的用户的语音，调整文本可以是指在输出目标方案之后的目标时间段内获取到的用户的文本，或者对调整语音进行语音识别得到的文本。计算机设备可以基于上述对目标语音和目标文本进行处理的方式对调整文本和调整语音进行处理，确定调整语音的调整情绪类别。进一步地，计算机设备可以计算调整情绪类别和目标情绪类别之间的相似度，基于相似度确定是否对目标方案进行调整。

举例来说，例如目标语音为“队友太不配合了，我不玩了”，通过对目标语音进行处理确定目标语音对应的目标情绪类别为负面情绪类别，并且调整情绪类别与目标情绪类别之间的相似度大于相似度阈值，表示调整情绪类别为负面情绪类别，例如调整语音为“我挂机了，你们自己玩吧”。则计算机设备可以调整目标方案，例如目标方案可以用于警告用户，如“您当前存在恶意挂机行为，若不进行调整，则扣除您当前的信誉分”。例如目标语音为“队友太不配合了，我不玩了”，通过对目标语音进行处理确定目标语音对应的目标情绪类别为负面情绪类别，并且调整情绪类别与目标情绪类别之间的相似度小于相似度阈值，表示调整情绪类别为正面情绪类别，例如调整语音为“大家集合团战，我们很大几率能赢”。则计算机设备可以继续获取语音数据，确定语音数据的情绪类别从而进行后续处理。通过获取调整语音和调整文本，对用户的情绪类别进行持续监测，从而对目标方案进行调整，例如将目标方案由提示信息转变为警告信息，从而加大调整力度，提升用户情绪类别调整的效率。

可选地，例如在智能客服场景中时，目标方案还可以用于反映智能客服中的客服表情，当计算机设备确定目标情绪类别时，可以基于目标情绪类别确定目标客服表情，从而基于目标客服表情与用户进行对话，获取在目标时间段内的调整语音和调整文本；基于调整语音和调整文本确定调整情绪类别，若调整情绪类别与目标情绪类别之间的相似度大于相似度阈值，则对目标方案中的目标客服表情进行调整。

例如，在智能客服场景中，当确定用户的情绪类别为正面情绪类别时，则可以确定目标客服表情为高兴、开心、愉悦等反映正面情绪的表情，当确定用户的情绪类别为负面情绪类别时，则可以确定目标客服表情为悲伤、难过等反映负面情绪的表情。由于结合用户的当前情绪对智能客服的表情进行调整，避免使用一成不变的表情进行对话，可以使得智能服务更贴近用户的情绪，提升用户体验。可选地，目标方案还可以用于反映智能客服的肢体动作，例如确定用户的情绪类别为负面情绪类别如悲伤时，肢体动作可以包括摸头、拥抱等用于缓解客户的负面情绪的动作，等等。

可选地，目标方案还可以用于反映智能客服的回答话术，当计算机设备确定目标情绪类别时，可以基于目标情绪类别确定目标话术，从而基于目标话术与用户进行对话，获取在目标时间段内的调整语音和调整文本；基于调整语音和调整文本确定调整情绪类别，若调整情绪类别与目标情绪类别之间的相似度大于相似度阈值，则对目标方案中的目标客服表情进行调整。通过判别用户当前的情绪类别，从而对智能客服当前的回答话术进行调整，以更好地实现问答服务，提升用户体验。

可选地，当确定目标情绪类别为负面情绪类别时，目标方案还可以用于将智能客服转人工客服。具体地，若目标情绪类别为负面情绪类别，则确定目标方案为智能客服转人工客服；获取在目标时间段内的调整语音和调整文本；基于调整语音和调整文本确定调整情绪类别，若调整情绪类别与目标情绪类别之间的相似度大于相似度阈值，则对目标方案中的目标客服表情进行调整。

例如在智能客服的场景中，当确定用户当前情绪为负面情绪类别时，由于智能客服能够处理的业务类型少于人工客服，并且智能客服针对用户的服务不够全面，因此通过转人工客服对用户的当前业务进行处理，可以提升用户体验。通过获取用户在目标时间段内的调整语音和调整文本，可以对用户的当前情绪进行跟进，便于更好地进行服务，进一步提升用户体验。

可选地，目标方案还可以用于提示对目标语音进行调整，例如在游戏场景中，检测到用户的目标语音的情绪类别为预设类别时，可以输出目标方案提示用户对目标语音进行调整，输出调整后的语音。其中，预设类别可以包括负面情绪类别，或者预设类别还可以包括不合法的词语。例如，在游戏过程中，当采集到任意玩家的语音并确定语音中存在不合法的词语或者负面情绪类别时，通过提示玩家进行语音调整，例如采集该玩家的其他非预设类别的语音进行输出，可以避免影响其他玩家的情绪，从而提升用户体验。

可选地，当检测到用户的目标语音时，通过对目标语音进行语音识别得到目标文本，结合目标语音和目标文本确定目标语音的目标情绪类别时，若目标情绪类别为预设类别，则计算机设备可以合成替换语音，替换语音为与目标语音匹配的语音，基于替换语音对目标语音进行更新，输出替换语音。

其中，替换语音可以是基于该用户的历史语音数据合成的，替换语音和目标语音可以表示同一个用户的声音。替换语音可以是对目标语音进行语义转换得到的。例如，目标语音中包含不合法的词语，替换语音可以是指对不合法的词语进行替换得到的。通过使用合法的词语对目标语音中的词语进行替换并合成与目标语音的声音匹配的替换语音，在输出替换语音时，可以提升其他玩家的游戏体验。例如，在游戏过程中，采集到任意玩家的语音，当确定语音中存在不合法的词语时，通过对语音进行替换，可以避免影响其他玩家的情绪，从而提升用户体验。

可选地，计算机设备也可以对目标语音进行语音识别得到目标文本，获取与目标文本匹配的替换文本，基于替换文本对目标文本进行更新，输出替换文本。也就是说，替换文本可以是指对该用户的目标语音进行语音识别得到的文本中不合法的词语进行替换后得到的。通过对游戏过程中不合法的语音或者文本进行替换，可以提升用户体验。

可选地，计算机设备还可以进一步结合目标语音对应的目标图像确定目标语音的目标情绪类别。具体地，计算机设备可以获取目标语音对应的目标图像，提取目标图像的表情信息，基于表情信息确定第四情绪类别；基于表情信息、声纹信息和语义信息，确定第三情绪类别；基于第一情绪类别、第二情绪类别、第三情绪类别和第四情绪类别，确定目标语音的目标情绪类别。

其中，目标图像可以是指目标语音对应的图像，例如目标语音可以是从目标视频中提取的语音，目标图像可以是从目标视频中提取的图像，例如目标图像可以是指用户说话时的表情。表情信息可以用于反映用户说话时的情绪类别，第四情绪类别可以包括中性情绪类别、正面情绪类别、负面情绪类别，等等。计算机设备可以基于后端决策融合技术基于第一情绪类别、第二情绪类别、第三情绪类别和第四情绪类别，确定目标语音的目标情绪类别。进一步地，计算机设备可以结合表情信息、声纹信息和语义信息，确定第三情绪类别，从而可以结合表情信息确定最终的情绪类别。由于在声纹信息和语义信息的基础上，进一步结合了表情信息确定最终的情绪类别，可以实现结合更多能够反映情绪的特征确定最终的情绪类别，使得最终的情绪类别确定更准确。

可选地，计算机设备可以基于声纹信息和表情信息确定第一子情绪类别，基于表情信息和语义信息确定第二子情绪类别，基于声纹信息和语义信息确定第三子情绪类别，基于表情信息、声纹信息和语义信息确定第四子情绪类别；进一步地，可以基于第一情绪类别、第二情绪类别、第一子情绪类别、第二子情绪类别、第三子情绪类别、第四子情绪类别和第四情绪类别，确定目标语音的目标情绪类别。

可选地，计算机设备可以对表情信息进行特征提取，得到表情嵌入向量，对表情嵌入向量和声纹嵌入向量进行特征融合处理，得到第一融合嵌入向量；基于第一融合嵌入向量确定目标语音与多个第四预设情绪类别中每个第四预设情绪类别之间的匹配概率；基于多个第四预设情绪类别和匹配概率确定第一子情绪类别。进一步地，可以对表情嵌入向量和语义嵌入向量进行特征融合处理，得到第二融合嵌入向量；基于第二融合嵌入向量确定目标语音与多个第五预设情绪类别中每个第五预设情绪类别之间的匹配概率；基于多个第五预设情绪类别和匹配概率确定第二子情绪类别。进一步地，可以对声纹嵌入向量和语义嵌入向量进行特征融合处理，得到第三融合嵌入向量；基于第三融合嵌入向量确定目标语音与多个第六预设情绪类别中每个第六预设情绪类别之间的匹配概率；基于多个第六预设情绪类别和匹配概率确定第三子情绪类别。其中，第六预设情绪类别和第三预设情绪类别可以相同。进一步地，可以对表情嵌入向量、声纹嵌入向量和语义嵌入向量进行特征融合处理，得到第四融合嵌入向量；基于第四融合嵌入向量确定目标语音与多个第七预设情绪类别中每个第七预设情绪类别之间的匹配概率；基于多个第七预设情绪类别和匹配概率确定第四子情绪类别。进一步地，计算机设备可以基于后端决策融合技术基于第一情绪类别、第二情绪类别、第一子情绪类别、第二子情绪类别、第三子情绪类别、第四子情绪类别和第四情绪类别，确定目标语音的目标情绪类别。

也就是说，通过分别基于声纹方面的特征确定第一情绪类别、基于语义方面的特征确定第二情绪类别、基于表情方面的特征确定第三情绪类别、基于声纹和表情融合后的特征确定第一子情绪类别，可以反映声纹和表情之间的关联性；基于表情和语义融合后的特征确定第二子情绪类别，可以反映声纹和语义之间的关联性；基于声纹和语义融合后的特征确定第三子情绪类别，可以反映声纹和语义之间的关联性；基于声纹、表情和语义融合后的特征确定第四子情绪类别，可以反映声纹、表情和语义三者之间的关联性。最终结合多种情绪类别确定出最终的情绪类别，可以使得最终的情绪类别更能准确反映用户说话时的情绪类别，从而提高情绪类别判断的准确性。

可选地，请参见图4，图4是本申请实施例提供的另一种情绪类别确定方法的流程示意图；如图4所示，该情绪类别确定方法可以应用于计算机设备，该情绪类别确定方法包括但不限于以下步骤：

S201，获取目标语音。

S202，对目标语音进行语音识别，得到目标文本。

S203，提取目标语音中的声纹信息。

S204，对声纹信息进行特征提取，得到声纹嵌入向量。

S205，提取目标文本中的语义信息。

S206，对语义信息进行特征提取，得到语义嵌入向量。

S207，对声纹嵌入向量和语义嵌入向量进行特征融合处理，得到融合嵌入向量。

S208，基于声纹嵌入向量确定第一情绪类别。

S209，基于语义嵌入向量确定第二情绪类别。

S210，基于融合嵌入向量确定第三情绪类别。

S211，基于第一情绪类别、第二情绪类别和第三情绪类别，确定目标语音的目标情绪类别。

上述步骤S201～步骤S211具体确定目标语音的目标情绪类别的方法可以参考图3对应的步骤S101～S105中的描述，此处不再赘述。

通过本申请实施例的方式，充分利用了语音信号中声学特征和语义特征的情绪线索，结合特征融合和后端决策融合技术，特征融合可以是指声纹嵌入向量与语义嵌入向量之间的特征融合，后端决策融合可以是指结合第一情绪类别、第二情绪类别和第三情绪类别确定目标语音的最终情绪类别，能够取得更好的情绪理解效果，提升语音情感识别准确率和泛化性。在交互游戏、虚拟人(如人工客服)等领域也有了更多虚拟感知和情绪理解的需求，例如虚拟人中语音驱动人脸和肢体动作，可以基于情感线索的引导。例如虚拟人“说”正面情绪类别的话时，虚拟人的面部表情可以为开心、高兴等用于反映正面情绪的表情，肢体动作可以更为活泼，以提升人机交互的灵活性。通过对语音进行处理确定情感类别，可以引导虚拟人的人脸和肢体活动，在辅助对话系统如智能客服系统进行语言理解和反馈。在交互游戏场景中，能够实时或者离线分析玩家的情绪状态，检测负面情绪类别，从而维护游戏环境或者提高玩家的游戏体验等。通过结合特征融合的思想，可以构建语音声纹结合文本语义的处理系统，以达到更高的情绪理解准确度，以及更稳定、鲁棒的系统性能。

可选的，请参见图5，图5是本申请实施例提供的一种判别器训练方法的流程示意图。该判别器训练方法可以应用于计算机设备；如图5所示，该判别器训练方法包括但不限于以下步骤：

S301，获取样本数据。

本申请实施例中，样本数据可以包括样本语音和样本文本，计算机设备可以通过相关的语音采集装置获取待识别的样本语音，也可以从本地存储中获取样本数据，或者可以接收终端设备发送的样本数据。样本数据可以是指录音数据中的语音，也可以是指视频数据中的语音，本申请实施例对此不作限定。样本文本可以是通过对样本语音进行语音识别得到的文本，也可以是本地存储中与样本语音对应的文本，或者是接收终端设备发送的与样本语音对应的文本。

其中，样本数据可以包括第一类数据、第二类数据和第三类数据，第一类数据可以是指语音数据，第一类数据的类别为语调类情绪类别。语调类情绪类别可以是指语音中的语气语调有对应的情绪指向。第三类数据可以包括语音数据和文本数据，第三类数据中的语音数据和文本数据一一对应且情绪类别可以相同。在训练目标判别器时可以准备不同的训练数据集(即样本数据)对目标判别器进行训练，目标判别器可以包括第一判别器、第二判别器和第三判别器，则可以准备三份训练数据集，分别为set1(即第一类样本数据)、set2(即第二类样本数据)和set3(即第三类样本数据)，为提高训练效率，可以使用set1训练第一判别器，使用set2训练第二判别器、使用set3训练第三判别器。其中，set1数据集可以是指采集与文本情绪无关的情感语音信号，即录制文本没有情绪指向，而语音的语气语调有对应的情绪指向的语音；set2数据集可以是指采集常规情感文本语料的文本；set3数据集可以是指采集文本情绪相关的情感语音信号，即文本情绪指向和语音情绪指向可以相同。可选地，三种训练数据集的情绪类别可以不相同。

S302，从第一类样本数据中提取第一样本声纹信息，基于第一样本声纹信息确定第一样本情绪类别。

本申请实施例中，计算机设备可以从第一类样本数据中提取第一样本声纹信息，基于第一样本声纹信息确定第一样本情绪类别。第一类样本数据可以是指样本语音，第一情绪类别可以包括中性情绪类别、正面情绪类别、负面情绪类别，等等。

可选地，计算机设备可以对样本语音进行分帧，逐帧计算样本语音信号的梅尔尺度频谱，对频谱进行对数运算，得到对数梅尔频谱，即第一样本声纹信息。进一步地，计算机设备可以将第一样本声纹信息输入第一判别器，基于第一判别器中的骨干神经网络对第一样本声纹信息进行特征提取，得到第一样本声纹嵌入向量，基于第一样本声纹嵌入向量确定第一样本情绪类别。例如可以基于第一样本声纹嵌入向量确定样本语音与多个第一预设情绪类别中每个第一预设情绪类别之间的匹配概率；基于多个第一预设情绪类别和匹配概率确定第一样本情绪类别。

可选地，梅尔滤波器的数目可以选择40，通过使用梅尔滤波器对样本语音进行滤波处理，进一步计算一阶差分和二阶差分信息，得到多维的特征，例如120维的特征，将该多维特征确定为第一样本声纹信息。进一步地，计算机设备可以将上述特征输入骨干神经网络进行训练，骨干神经网络的损失函数可以选择Additive Angular Margin(附加角边缘，一种损失函数)损失，骨干神经网络的优化器可以选择Adam优化器(一种优化器)，骨干神经网络的学习率可以选择e^-3(或0.001)，批尺寸可以选择128。第一样本声纹信息经过骨干网络可以得到声纹嵌入向量emb_S，声纹嵌入向量emb_S经过第一判别器中的全连接层和softMax分类层等层进行分类运算，得到情绪预测标签和概率分值，即第一样本情绪类别和第一样本置信度(第一样本匹配概率)。

S303，从第二类样本数据中提取第一样本语义信息，基于第一样本语义信息确定第二样本情绪类别。

本申请实施例中，计算机设备可以从第一样本文本中提取第一样本语义信息，基于第一样本语义信息确定第二样本情绪类别。第二情绪类别可以包括中性情绪类别、正面情绪类别、负面情绪类别，等等。

可选地，计算机设备可以对样本文本进行分词处理，得到样本文本对应的样本词向量，将样本词向量确定为样本语义信息。通过对样本文本进行分词处理以及词向量化，可以更准确地提取样本文本中的重要信息，从而提高后续确定情绪类别的准确性。进一步地，计算机设备可以将第一样本语义信息输入第二判别器，基于第二判别器中的循环神经网络对第一样本语义信息进行特征提取，得到第一样本语义嵌入向量，基于第一样本语义嵌入向量确定第二样本情绪类别。例如可以基于第一样本语义嵌入向量确定样本文本与多个第二预设情绪类别中每个第二预设情绪类别之间的匹配概率；基于多个第二预设情绪类别和匹配概率确定第二样本情绪类别。

可选地，可以使用预训练模型对第一样本文本进行词向量化，得到词向量，将词向量输入循环神经网络进行编码，循环神经网络的损失函数可以选择交叉熵函数，循环神经网络的优化器可以选择Adam优化器，循环神经网络的学习率选择0.001。第一样本语义信息经过循环神经网络可以得到文本序列的表示，即文本嵌入向量emb_T，经过第二判别器中的全连接层和softMax分类层等层进行分类运算，得到情绪预测标签和概率分值，即第二样本情绪类别和第二样本置信度(第二样本匹配概率)。

S304，从第三类样本数据中提取第二样本声纹信息和第二样本语义信息，基于第二样本声纹信息和第二样本语义信息确定第三样本情绪类别。

本申请实施例中，由于第三类样本数据包括样本语音和样本文本，计算机设备可以从样本语音中提取第二样本声纹信息，从样本文本中提取第二样本语义信息，基于第二样本声纹信息和第二样本语义信息确定第三样本情绪类别。可选地，可以参考上述提取第一样本声纹嵌入向量和第一样本语义嵌入向量的方式提取到第二样本声纹嵌入向量和第二样本语义嵌入向量，对第二样本声纹嵌入向量和第二样本语义嵌入向量进行融合，得到样本融合特征向量，基于样本融合特征向量确定样本语音与多个第三预设情绪类别中每个第三预设情绪类别之间的匹配概率；基于多个第三预设情绪类别和匹配概率确定第三样本情绪类别。

可选地，在获取到样本融合特征向量emb＝cat_funtion{emb_S,emb_T}之后，可以将样本融合特征向量输入第三判别器，经过第三判别器中的注意力层、全连接层和softMax分类层等层进行分类运算，得到情绪预测标签和概率分值，即第三样本情绪类别和第三样本置信度(第三样本匹配概率)。

S305，获取第一类样本数据对应的第一样本情绪标签、第二类样本数据对应的第二样本情绪标签和第三类样本数据对应的第三样本情绪标签。

本申请实施例中，计算机设备可以获取第一类样本数据对应的第一样本情绪标签、第二类样本数据对应的第二样本情绪标签和第三类样本数据对应的第三样本情绪标签。在训练判别器时，可以预先获取第一样本情绪标签、第二样本情绪标签和第三样本情绪标签。其中，第一样本情绪标签可以是指第一类样本数据的真实情绪标签，第二样本情绪标签可以是指第二类样本数据的真实情绪标签，第三样本情绪标签可以是指第三类样本数据的真实情绪标签。

S306，基于第一样本情绪类别、第二样本情绪类别、第三样本情绪类别、第一样本情绪标签、第二样本情绪标签和第三样本情绪标签，训练目标判别器。

本申请实施例中，计算机设备可以基于第一样本情绪类别、第二样本情绪类别、第三样本情绪类别、第一样本情绪标签、第二样本情绪标签和第三样本情绪标签，训练目标判别器。其中，目标语音的目标情绪类别是基于目标判别器确定的。

本申请实施例中，通过获取样本语音和样本文本，基于目标判别器对样本语音和样本文本进行处理得到第一样本情绪类别、第二样本情绪类别、第三样本情绪类别，从而可以基于判别器输出值(即样本判别结果)和样本真实值(即样本情绪标签)确定目标判别器的损失，从而基于损失对目标判别器进行调整，使得调整后的目标判别器对语音和文本进行判别时，可以提高情绪类别确定的准确性。由于在训练目标判别器时，可以预先确定样本语音和样本文本的样本情绪标签，相当于知道样本真实值，即知道样本语音和样本文本的情绪类别，而通过使用目标判别器对样本语音和样本文本进行判别，可以得到判别器输出值，即样本判别结果，训练目标判别器的目的在于使得判别器输出值和样本真实值尽可能一致。若判别器输出值和样本真实值不一致，则可以对目标判别器中的参数进行调整，使得判别器输出值和样本真实值一致。若判别器输出值和样本真实值一致，则可以保存此时的目标判别器，便于后续使用。

可选地，若目标判别器包括第一判别器、第二判别器和第三判别器，则可以分别对第一判别器、第二判别器和第三判别器进行训练。可选地，可以基于第一样本情绪类别和第一样本情绪标签，训练第一判别器，第一判别器可以用于对第一样本声纹信息进行特征提取得到第一样本声纹嵌入向量，基于第一样本声纹嵌入向量确定第一样本情绪类别。可选地，可以基于第二样本情绪类别和第二样本情绪标签，训练第二判别器。第二判别器可以用于对第一样本语义信息进行特征提取得到第一样本语义嵌入向量，基于第一样本语义嵌入向量确定第二样本情绪类别。可选地，可以基于第三样本情绪类别和第三样本情绪标签，训练第三判别器，以得到目标判别器，第三判别器用于对第二样本声纹嵌入向量和第二样本语义嵌入向量进行特征融合处理得到样本融合嵌入向量，基于样本融合嵌入向量确定第三样本情绪类别。通过分别训练第一判别器、第二判别器和第三判别器，在使用目标判别器对目标语音和目标文本进行处理时，可以基于第一判别器对目标语音进行处理，基于第二判别器对目标文本进行处理，基于第三判别器对目标语音和目标文本的融合特征向量进行处理，从而输出各自的判别结果(即情绪类别)，各个判别器的输出结果之间互不影响，进而采用后端决策融合技术结合每个判别器的输出结果确定最终的情绪类别。

可选地，第一类样本数据和第三类样本数据中的语音数据可以相同，第二类样本数据和第三类样本数据中的文本数据可以相同，即训练第一判别器的样本语音和训练第三判别器的样本语音可以相同，训练第二判别器的样本文本和训练第三判别器的样本文本可以相同。当第一类样本数据和第三类样本数据中的语音数据相同，第二类样本数据和第三类样本数据中的文本数据相同时，计算机设备可以从第一类样本数据中提取样本声纹信息，基于样本声纹信息确定第一样本情绪类别；从第二类样本数据中提取样本语义信息，基于样本语义信息确定第二样本情绪类别；基于样本声纹信息和样本语义信息确定第三样本情绪类别；基于第一样本情绪类别、第二样本情绪类别、第三样本情绪类别、第一样本情绪标签、第二样本情绪标签和第三样本情绪标签，训练目标判别器。

可选地，本申请技术方案也可以用于对特殊语音进行情绪判别的场景中，特殊语音可以包括没有实际文本内容的语音(如哭声、笑声)，或者短语音(如语音识别难以准确识别文本内容等)。当获取到特殊语音时，可以基于本申请技术方案进行情绪判别，从而确定对应的情绪类别。例如当获取到只有哭声对应的语音时，若对该语言进行语音识别得到空白文本，则可以确定第二情绪类别为空，通过对目标语音进行处理得到声纹信息，将声纹信息输入第一判别器进行判别，确定第一情绪类别为负面情绪类别。进一步地，由于目标文本为空白文本，则特征融合后的融合特征向量为声纹嵌入向量，则可以基于第三判别器对声纹嵌入向量进行判别，确定第三情绪类别为负面情绪类别。从而确定最终的情绪类别为负面情绪类别，可以确定出更多种类的语音包含的情绪类别，提升情绪类别确定的准确性。

本申请实施例中，通过对样本语音进行处理后送入对应的判别器进行处理，可以综合分析声纹和文本特征，输出最终融合后的情绪类别。若是语音对应的文本没有情绪指向，但是语音中的语调语气有情绪指向，第一判别器会基于声纹特征输出鲁棒的情绪类别和置信度。反之，若是语音中的语气语调平淡，但语音对应的文本有情绪指向，第二判别器会基于语义特征输出鲁棒的情绪类别和置信度。另外，对于常规的语气词和无文本内容的语音信号，通过声纹特征分析，第一判别器也能输出情绪信息，从而能够全面地分析各种语音信号中情感信息。本方案提出的情绪类别确定系统通过特征融合和后端决策融合技术，可以更深入地学习语音声纹和文本语义中的情绪信息，充分地挖掘了语音信号中的情绪线索，使得在应用过程中，该系统能够更加稳定准确地识别出目标语音的情感倾向。本方案中可以涉及三个判别之路，即分别使用三个判别器进行情绪类别判断，在实际使用场景中使用可以更加灵活。三个判别器采用不同的数据集训练，支持的情绪类别也可以不同。在有限的数据情况下，整个系统能够充分学习到声纹和文本中的情绪信息，最终的判别结果更为稳定和准确。

本申请实施例中，通过使用不同的训练数据集分别训练不同的判别器，可以使得训练得到的判别器具有综合分析声纹和文本特征，最终输出融合后的情绪类别的能力；通过使用训练后的判别器进行情绪类别判断，可以提高情绪类别确定的准确性。

上面介绍了本申请实施例的方法，下面介绍本申请实施例的装置。

参见图6，图6是本申请实施例提供的一种情绪类别确定装置的组成结构示意图。可选的，上述情绪类别确定装置可以是运行于终端设备中的一个计算机程序(包括程序代码)；该情绪类别确定装置可以用于执行本申请实施例提供的情绪类别确定方法中的相应步骤。例如，该情绪类别确定装置60包括：

数据获取单元601，用于获取待识别的目标语音，以及该目标语音对应的目标文本；

声纹提取单元602，用于从该目标语音中提取声纹信息，基于该声纹信息确定第一情绪类别，该声纹信息包括声纹嵌入向量；

语义提取单元603，用于从该目标文本中提取语义信息，基于该语义信息确定第二情绪类别，该语义信息包括语义嵌入向量；

信息融合单元604，用于对该声纹嵌入向量和该语义嵌入向量进行特征融合处理，得到融合嵌入向量；

信息融合单元604，还用于基于该融合嵌入向量确定该目标语音与多个预设融合情绪类别中每个预设融合情绪类别之间的匹配概率；

信息融合单元604，还用于基于该多个预设融合情绪类别和匹配概率确定第三情绪类别

类别确定单元605，用于基于该第一情绪类别、该第二情绪类别和该第三情绪类别，确定该目标语音的目标情绪类别，该目标情绪类别用于反映该目标语音所属的情绪类别。

可选地，该类别确定单元605，具体用于：

若该第一情绪类别、该第二情绪类别和该第三情绪类别中存在至少两种情绪类别为第一类别，则确定该第一类别为该目标语音的目标情绪类别；

若该第一情绪类别、该第二情绪类别和该第三情绪类别均为不同类别，则获取该第一情绪类别对应的第一匹配概率、该第二情绪类别对应的第二匹配概率和该第三情绪类别对应的第三匹配概率，确定该第一匹配概率、该第二匹配概率和该第三匹配概率中最大概率对应的类别为该目标语音的目标情绪类别。

可选地，该类别确定单元605，具体用于：

基于情绪识别场景确定该第一情绪类别对应的第一权重、该第二情绪类别对应的第二权重和该第三情绪类别对应的第三权重；

基于该第一权重和该第一匹配概率确定该第一情绪类别的加权置信度，基于该第二权重和该第二匹配概率确定该第二情绪类别的加权置信度，基于该第三权重和该第三匹配概率确定该第三情绪类别的加权置信度；

基于该第一情绪类别的加权置信度、该第二情绪类别的加权置信度和该第三情绪类别的加权置信度，确定该目标语音的目标情绪类别。

可选地，该情绪类别确定装置60还包括情绪调整单元606，用于：

基于该目标情绪类别确定目标方案，输出该目标方案，该目标方案用于提示对该目标情绪类别进行调整；

获取在目标时间段内的调整语音和调整文本；

基于该调整语音和该调整文本确定调整情绪类别，若该调整情绪类别与该目标情绪类别之间的相似度大于相似度阈值，则对该目标方案进行调整。

可选地，该声纹提取单元602，具体用于：

对该声纹信息进行特征提取，得到声纹嵌入向量；

基于该声纹嵌入向量确定该目标语音与多个第一预设情绪类别中每个第一预设情绪类别之间的匹配概率；

基于该多个第一预设情绪类别和匹配概率确定该第一情绪类别。

可选地，该情绪类别确定装置60还包括数据训练单元607，用于：

获取样本数据，样本数据包括第一类样本数据、第二类样本数据和第三类样本数据，该第一类样本数据的类别为语调类情绪类别；

从该第一类样本数据中提取第一样本声纹信息，基于该第一样本声纹信息确定第一样本情绪类别；

从该第二类样本数据中提取第一样本语义信息，基于该第一样本语义信息确定第二样本情绪类别；

从该第三类样本数据中提取第二样本声纹信息和第二样本语义信息，基于该第二样本声纹信息和该第二样本语义信息确定第三样本情绪类别；

获取该第一类样本数据对应的第一样本情绪标签、该第二类样本数据对应的第二样本情绪标签和该第三类样本数据对应的第三样本情绪标签；

基于该第一样本情绪类别、该第二样本情绪类别、该第三样本情绪类别、该第一样本情绪标签、该第二样本情绪标签和该第三样本情绪标签，训练目标判别器，该目标语音的目标情绪类别是基于该目标判别器确定的。

可选地，该情绪类别确定装置60还包括表情提取单元608，用于：

获取该目标语音对应的目标图像，提取该目标图像的表情信息，基于该表情信息确定第四情绪类别；

该信息融合单元604，具体用于：

基于该表情信息、该声纹信息和该语义信息，确定第三情绪类别；

该类别确定单元605，具体用于：

基于该第一情绪类别、该第二情绪类别、该第三情绪类别和该第四情绪类别，确定该目标语音的目标情绪类别。

需要说明的是，图6对应的实施例中未提及的内容可参见方法实施例的描述，这里不再赘述。

参见图7，图7是本申请实施例提供的一种计算机设备的组成结构示意图。如图7所示，上述计算机设备70可以包括：处理器701和存储器702。其中，处理器701与存储器702相连，例如处理器701可以通过总线连接到存储器702。可选地，上述计算机设备70还可以包括：网络接口703，其中，网络接口703与处理器701和存储器702相连，例如处理器701可以通过总线连接到存储器702和网络接口703。其中，计算机设备可以是终端设备，也可以是服务器。

处理器701被配置为支持情绪类别确定装置执行上述的方法中相应的功能。该处理器701可以是中央处理器(Central Processing Unit，CPU)，网络处理器(NetworkProcessor，NP)，硬件芯片或者其任意组合。上述硬件芯片可以是专用集成电路(Application-Specific Integrated Circuit，ASIC)，可编程逻辑器件(ProgrammableLogic Device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(ComplexProgrammable Logic Device，CPLD)，现场可编程逻辑门阵列(Field-Programmable GateArray，FPGA)，通用阵列逻辑(Generic Array Logic,GAL)或其任意组合。

存储器702存储器用于存储程序代码等。存储器702可以包括易失性存储器(Volatile Memory，VM)，例如随机存取存储器(Random Access Memory，RAM)；存储器702也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如只读存储器(Read-OnlyMemory，ROM)，快闪存储器(flash memory)，硬盘(Hard Disk Drive，HDD)或固态硬盘(Solid-State Drive，SSD)；存储器702还可以包括上述种类的存储器的组合。

网络接口703用于提供网络通讯功能。

处理器701可以调用该程序代码以执行以下操作：

获取待识别的目标语音，以及该目标语音对应的目标文本；

应当理解，本申请实施例中所描述的计算机设备70可执行前文图3、图4和图5所对应实施例中对上述方法的描述，也可执行前文图6所对应实施例中对上述情绪类别确定装置的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令当被计算机执行时使该计算机执行如前述实施例的方法，该计算机可以为上述提到的计算机设备的一部分。例如为上述的处理器701。作为示例，程序指令可被部署在一个计算机设备上执行，或者被部署位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链网络。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令被处理器执行时可实现上述方法中的部分或全部步骤。可选地，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可从计算机可读存储介质读取该计算机指令，处理器可执行该计算机指令，使得该计算机设备执行上述各方法的实施例中所执行的步骤。

本领域普通技术人员可以理解实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，该的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种情绪类别确定方法，其特征在于，包括：

获取待识别的目标语音，以及所述目标语音对应的目标文本；

从所述目标语音中提取声纹信息，基于所述声纹信息确定第一情绪类别，所述声纹信息包括声纹嵌入向量；

从所述目标文本中提取语义信息，基于所述语义信息确定第二情绪类别，所述语义信息包括语义嵌入向量；

对所述声纹嵌入向量和所述语义嵌入向量进行特征融合处理，得到融合嵌入向量；

基于所述融合嵌入向量确定所述目标语音与多个预设融合情绪类别中每个预设融合情绪类别之间的匹配概率；

基于所述多个预设融合情绪类别和匹配概率确定第三情绪类别；

基于所述第一情绪类别、所述第二情绪类别和所述第三情绪类别，确定所述目标语音的目标情绪类别，所述目标情绪类别用于反映所述目标语音所属的情绪类别。

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一情绪类别、所述第二情绪类别和所述第三情绪类别，确定所述目标语音的目标情绪类别，包括：

若所述第一情绪类别、所述第二情绪类别和所述第三情绪类别中存在至少两种情绪类别为第一类别，则确定所述第一类别为所述目标语音的目标情绪类别；

若所述第一情绪类别、所述第二情绪类别和所述第三情绪类别均为不同类别，则获取所述第一情绪类别对应的第一匹配概率、所述第二情绪类别对应的第二匹配概率和所述第三情绪类别对应的第三匹配概率，确定所述第一匹配概率、所述第二匹配概率和所述第三匹配概率中最大概率对应的类别为所述目标语音的目标情绪类别。

3.根据权利要求1所述的方法，其特征在于，所述基于所述第一情绪类别、所述第二情绪类别和所述第三情绪类别，确定所述目标语音的目标情绪类别，包括：

基于情绪识别场景确定所述第一情绪类别对应的第一权重、所述第二情绪类别对应的第二权重和所述第三情绪类别对应的第三权重；

基于所述第一权重和所述第一匹配概率确定所述第一情绪类别的加权置信度，基于所述第二权重和所述第二匹配概率确定所述第二情绪类别的加权置信度，基于所述第三权重和所述第三匹配概率确定所述第三情绪类别的加权置信度；

基于所述第一情绪类别的加权置信度、所述第二情绪类别的加权置信度和所述第三情绪类别的加权置信度，确定所述目标语音的目标情绪类别。

4.根据权利要求1-3任一项所述的方法，所述方法还包括：

基于所述目标情绪类别确定目标方案，输出所述目标方案，所述目标方案用于提示对所述目标情绪类别进行调整；

获取在目标时间段内的调整语音和调整文本；

基于所述调整语音和所述调整文本确定调整情绪类别，若所述调整情绪类别与所述目标情绪类别之间的相似度大于相似度阈值，则对所述目标方案进行调整。

5.根据权利要求1所述的方法，其特征在于，所述基于所述声纹信息确定第一情绪类别，包括：

对所述声纹信息进行特征提取，得到声纹嵌入向量；

基于所述声纹嵌入向量确定所述目标语音与多个预设声纹情绪类别中每个预设声纹情绪类别之间的匹配概率；

基于所述多个预设声纹情绪类别和匹配概率确定所述第一情绪类别。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取样本数据，样本数据包括第一类样本数据、第二类样本数据和第三类样本数据，所述第一类样本数据的类别为语调类情绪类别；

从所述第一类样本数据中提取第一样本声纹信息，基于所述第一样本声纹信息确定第一样本情绪类别；

从所述第二类样本数据中提取第一样本语义信息，基于所述第一样本语义信息确定第二样本情绪类别；

从所述第三类样本数据中提取第二样本声纹信息和第二样本语义信息，基于所述第二样本声纹信息和所述第二样本语义信息确定第三样本情绪类别；

获取所述第一类样本数据对应的第一样本情绪标签、所述第二类样本数据对应的第二样本情绪标签和所述第三类样本数据对应的第三样本情绪标签；

基于所述第一样本情绪类别、所述第二样本情绪类别、所述第三样本情绪类别、所述第一样本情绪标签、所述第二样本情绪标签和所述第三样本情绪标签，训练目标判别器，所述目标语音的目标情绪类别是基于所述目标判别器确定的。

7.根据权利要求1所述的方法，所述方法还包括：

获取所述目标语音对应的目标图像，提取所述目标图像的表情信息，基于所述表情信息确定第四情绪类别；

所述基于所述声纹信息和所述语义信息确定第三情绪类别，包括：

基于所述表情信息、所述声纹信息和所述语义信息，确定第三情绪类别；

所述基于所述第一情绪类别、所述第二情绪类别和所述第三情绪类别，确定所述目标语音的目标情绪类别，包括：

基于所述第一情绪类别、所述第二情绪类别、所述第三情绪类别和所述第四情绪类别，确定所述目标语音的目标情绪类别。

8.一种情绪类别确定装置，其特征在于，包括：

数据获取单元，用于获取待识别的目标语音，以及所述目标语音对应的目标文本；

声纹提取单元，用于从所述目标语音中提取声纹信息，基于所述声纹信息确定第一情绪类别，所述声纹信息包括声纹嵌入向量；

语义提取单元，用于从所述目标文本中提取语义信息，基于所述语义信息确定第二情绪类别，所述语义信息包括语义嵌入向量；

信息融合单元，用于对所述声纹嵌入向量和所述语义嵌入向量进行特征融合处理，得到融合嵌入向量；

所述信息融合单元，还用于基于所述融合嵌入向量确定所述目标语音与多个预设融合情绪类别中每个预设融合情绪类别之间的匹配概率；

所述信息融合单元，还用于基于所述多个预设融合情绪类别和匹配概率确定第三情绪类别；

类别确定单元，用于基于所述第一情绪类别、所述第二情绪类别和所述第三情绪类别，确定所述目标语音的目标情绪类别，所述目标情绪类别用于反映所述目标语音所属的情绪类别。

9.一种计算机设备，其特征在于，包括：处理器和存储器；

所述处理器与所述存储器相连，其中，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以使得所述计算机设备执行权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于由处理器加载并执行，以使得具有所述处理器的计算机设备执行权利要求1-7任一项所述的方法。