CN115083434A

CN115083434A - 一种情绪识别方法、装置、计算机设备及存储介质

Info

Publication number: CN115083434A
Application number: CN202210860955.9A
Authority: CN
Inventors: 陈子意; 朱益兴; 于欣璐; 陈杭; 李骁; 常鹏; 赖众程; 吴鹏召; 李娜; 向希胜; 谈梁杰
Original assignee: Ping An Bank Co Ltd
Current assignee: Ping An Bank Co Ltd
Priority date: 2022-07-22
Filing date: 2022-07-22
Publication date: 2022-09-20
Anticipated expiration: 2042-07-22
Also published as: CN115083434B

Abstract

本申请实施例公开了一种情绪识别方法、装置、计算机设备及存储介质。本方案根据语音信息与文本信息对网络模型进行训练的，得到双模态识别模型，针对实时业务场景中的通话录音中目标对象的通话语音，通过双模态识别模型对通话语音以及通话语音对应的文本进行情绪识别，得到情绪识别结果，利用语音和文本的双模态信息，可以提高对目标对象的情绪预测的准确性。

Description

一种情绪识别方法、装置、计算机设备及存储介质

技术领域

本申请涉及计算机技术领域，具体涉及一种情绪识别方法、装置、计算机设备及存储介质。

背景技术

随着金融科技和社会经济的快速发展，人们对于银行服务水平的要求越来越高。银行专门布置对电话坐席的服务质量的监控工作。其中，对坐席和客户在通话过程中情绪的情绪进行实时监控与提醒，是提升客户体验和服务水平最有效和最直接的方法之一。

相关技术组，对于客户情绪识别主要依赖坐席自身的经验，由于坐席人员流动性大，专业水平参差不齐，客户进线后的服务体验无法得到有效保证，从而影响客户沟通体验。

发明内容

本申请实施例提供一种情绪识别方法、装置、计算机设备及存储介质，可以提高情绪识别的准确性。

本申请实施例提供了一种情绪识别方法，包括：

获取实时业务场景中的通话录音；

基于所述通话录音获取同一目标对象的待识别语音信息，以及所述待识别语音信息对应的文本信息；

对所述待识别语音信息进行特征提取，得到语音特征，以及对所述文本信息进行特征提取，得到文本特征；

将所述语音特征与所述文本特征进行融合，得到融合后特征；

对所述融合后特征进行情绪识别处理，得到所述待识别语音信息的情绪识别结果；

在所述实时业务场景的业务提供方一侧展示所述情绪识别结果。

相应的，本申请实施例还提供了一种情绪识别装置，包括：

第一获取单元，用于获取实时业务场景中的通话录音；

第二获取单元，用于基于所述通话录音获取同一目标对象的待识别语音信息，以及所述待识别语音信息对应的文本信息；

提取单元，用于对所述待识别语音信息进行特征提取，得到语音特征，以及对所述文本信息进行特征提取，得到文本特征；

融合单元，用于将所述语音特征与所述文本特征进行融合，得到融合后特征；

处理单元，用于对所述融合后特征进行情绪识别处理，得到所述待识别语音信息的情绪识别结果；

展示单元，用于在所述实时业务场景的业务提供方一侧展示所述情绪识别结果。

在一些实施例中，处理单元包括：

计算子单元，用于通过训练后情绪识别模型计算所述融合后特征对应的目标情绪分值；

确定子单元，用于确定所述目标情绪分值对应的目标情绪类别，得到所述情绪识别结果。

在一些实施例中，该装置还包括：

采集单元，用于采集样本语音信息，以及样本语音信息对应的样本文本信息；

第三获取单元，用于获取所述样本语音信息与所述样本文本信息对应的标记情绪类别；

训练单元，用于基于所述样本语音信息、所述样本文本信息以及所述标记情绪类别，对预设情绪识别模型进行训练，得到所述训练后情绪识别模型。

在一些实施例中，训练单元包括：

第一提取子单元，用于通过所述预设情绪识别模型的语音特征提取模块对所述样本语音信息进行特征提取，得到样本语音特征；

第二提取子单元，用于通过所述预设情绪识别模型的文本特征提取模块对所述样本文本信息进行特征提取，得到样本文本特征；

处理子单元，用于对所述样本语音特征与所述样本文本特征进行融合处理，得到融合后样本特征；

生成子单元，用于根据所述融合后样本特征与所述标记情绪类别生成训练样本对；

训练子单元，用于基于所述训练样本对对所述预设情绪识别模型进行训练，得到所述训练样本对中所述融合后样本特征的预测情绪类别；

调整子单元，用于通过所述标记情绪类别与所述预测情绪类别对所述预设情绪识别模型的模型参数进行调整，直至所述预设情绪识别模型的模型收敛，得到所述训练后情绪识别模型。

在一些实施例中，第一提取子单元具体用于：

通过所述语音特征提取模块对所述样本语音信息进行处理，得到预设数量的语音特征张量；

对所述预设数量的语音特征张量进行加权平均，得到处理后语音特征张量；

对所述处理后语音特征张量在时间序列维度进行平均池化，得到指定维度的特征张量；

基于所述指定维度的特征张量得到所述样本语音特征。

在一些实施例中，处理子单元具体用于：

通过所述预设情绪识别模型的特征丢弃模块，将所述指定维度的语音特征张量或者所述指定维度的文本特征张量替换为零张量；

将未被替换的特征与所述零张量进行连接，得到所述融合后样本特征。

在一些实施例中，调整子单元具体用于：

在所述第一阶段，通过所述标记情绪类别与所述预测情绪类别对所述预设情绪识别模型中除所述语音特征提取模块与所述文本特征提取模块之外的参数进行调整；

在所述第二阶段，通过所述标记情绪类别与所述预测情绪类别对所述预设情绪识别模型中的所有模型参数进行调整。

相应的，本申请实施例还提供了一种计算机设备，包括存储器，处理器及存储在储存器上并可在处理器上运行的计算机程序，其中，处理器执行本申请实施例任一提供的情绪识别方法。

相应的，本申请实施例还提供了一种存储介质，存储介质存储有多条指令，指令适于处理器进行加载，以执行如上的情绪识别方法。

本申请实施例通过语音信息与文本信息对网络模型进行训练的，得到双模态识别模型，针对实时业务场景中的通话录音中目标对象的通话语音，通过双模态识别模型对通话语音以及通话语音对应的文本进行情绪识别，得到情绪识别结果，利用语音和文本的双模态信息，可以提高对目标对象的情绪预测的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种情绪识别方法的流程示意图。

图2为本申请实施例提供的一种情绪识别方法的网络模型结构示意图。

图3为本申请实施例提供的另一种情绪识别方法的流程示意图。

图4为本申请实施例提供的一种情绪识别装置的结构框图。

图5为本申请实施例提供的计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种情绪识别方法、装置、存储介质及计算机设备。具体地，本申请实施例的情绪识别方法可以由计算机设备执行，其中，该计算机设备可以为服务器等设备。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

例如，该计算机设备可以是服务器，该服务器可以获取实时业务场景中的通话录音；基于通话录音获取同一目标对象的待识别语音信息，以及待识别语音信息对应的文本信息；对待识别语音信息进行特征提取，得到语音特征，以及对文本信息进行特征提取，得到文本特征；将语音特征与文本特征进行融合，得到融合后特征；对融合后特征进行情绪识别处理，得到待识别语音信息的情绪识别结果；在实时业务场景的业务提供方一侧展示情绪识别结果。

基于上述问题，本申请实施例提供一种情绪识别方法、装置、计算机设备及存储介质，可以提高情绪识别的准确性。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

本申请实施例提供一种情绪识别方法，该方法可以由终端或服务器执行，本申请实施例以情绪识别方法由服务器执行为例来进行说明。

请参阅图1，图1为本申请实施例提供的一种情绪识别方法的流程示意图。该情绪识别方法的具体流程可以如下：

101、获取实时业务场景中的通话录音。

在本申请实施例中，业务场景包括业务提供方与客户方基于业务信息进行线上沟通的场景。通话录音指的是业务提供方的客服人员与客户的实时通话音频。

例如，在客服人员与客户进行线上沟通时，对客服与用客户的通话进行录音，实时采集录音音频的，得到通话录音。

102、基于通话录音获取同一目标对象的待识别语音信息，以及待识别语音信息对应的文本信息。

其中，通话录音为多个通话对象的通话，目标对象为多个通话对象中的任一通话对象。比如，多个通话对象可以包括业务提供方，客户等，则目标对象可以为业务提供方或者客户。

在一些实施例中，为了提高情绪识别准确性，步骤“基于通话录音获取同一目标对象的待识别语音信息，以及待识别语音信息对应的文本信息”，可以包括以下操作：

从通话录音中提取目标对象的通话音频，得到待识别语音信息；

将待识别语音信息进行文本转换，得到文本信息。

其中，通话录音中包括多个通话对象的通话音频，可以将通话录音根据不同通话对象进行分离，得到每一通话对象对应的通话音频。具体的，可以通过音频的左右声道，将通话录音中不同通话对象的音频分离开。

在一些实施例中，为了快速获取目标对象的通话音频，在从通话录音中提取目标对象的通话音频时，可以根据目标对象的声音特征，比如音色等特征，从通话录音中提取与目标对象的声音特征匹配的音频，从而得到目标对象的通话音频。

其中，待识别语音信息也即目标对象的通话音频，可以指的是目标对象在通话过程中的一句语音。

进一步的，通过ASR（Automatic Speech Recognition，自动语音识别）技术将待识别语音信息转换为文本，得到对应的文本信息。

例如，目标对象可以为客服，从通话录音中获取到客服的待识别语音信息与文本信息包括：{客服：音频1，文本1}。

103、对待识别语音信息进行特征提取，得到语音特征，以及对文本信息进行特征提取，得到文本特征。

在本申请实施例中，基于语音信息与文本信息对预设情绪识别模型进行训练，得到训练后情绪识别模型，该训练后情绪识别模型可以输入的语音信息与文本信息，准确预测用户情绪。

其中，训练后情绪识别模型包括语音特征提取模块和文本特征提取模块。具体的，语音特征提取模块用于对输入的待识别语音信息进行特征提取，得到待识别语音信息的语音特征；文本特征提取模块用于对输入的文本信息进行特征提取，得到文本信息的文本特征。

104、将语音特征与文本特征进行融合，得到融合后特征。

例如，语音特征可以为：1x1024维的张量，文本特征可以为：1x1024维的张量，将语音特征与文本特征进行连接，得到融合后特征为：1x2048维的张量，包含语音特征和文本特征。

105、对融合后特征进行情绪识别处理，得到待识别语音信息的情绪识别结果。

在将语音特征与文本特征进行连接，得到融合后特征后，可以通过训练后情绪识别模型对融合后特征进行识别处理，输出情绪识别结果。

在一些实施例中，为了提高情绪识别准确性，步骤“对融合后特征进行情绪识别处理，得到待识别语音信息的情绪识别结果”，可以包括以下操作：

通过训练后情绪识别模型计算融合后特征对应的目标情绪分值；

确定目标情绪分值对应的目标情绪类别，得到情绪识别结果。

其中，目标情绪分值指的是训练后情绪识别模型根据融合后特征计算得到的情绪分数，情绪分数可以用于表示用户情绪，不同情绪分数可以表示不同用户情绪。

在本申请实施例中，包括多个预设情绪分值，也即情绪分值取值范围，情绪分值取值范围中不同情绪分值可以对应不同的情绪类别。

例如，情绪分值取值范围可以为-3到3的整数。其中，0可以代表情绪中性，没有正面或负面情绪倾向。+1、+2、+3代表正面情绪，数值越大，正面强度依次增强。-1、-2和-3代表负面情绪，数值越小，负面强度依次增强。

具体的，通过训练后情绪识别模型根据融合后特征计算得到的情绪分值可以为情绪分值取值范围中的一个分数，则确定目标情绪分值对应的目标情绪类别可以对该分数进行取整，得到一个整数值，然后根据该整数值确定对应的情绪类别，得到目标情绪类别，也即情绪识别结果。

例如，计算得到的情绪分值可以为：2/3，对2/3进行取整可以通过四舍五入，得到整数值为：1。当情绪分值为1时，对应的情绪类别为：正面情绪较弱。

在一些实施例中，为了提高情绪识别准确性，在步骤“通过训练后情绪识别模型计算融合后特征对应的情绪分值”之前，还可以包括以下步骤：

采集样本语音信息，以及样本语音信息对应的样本文本信息；

获取样本语音信息与样本文本信息对应的标记情绪类别；

基于样本语音信息、样本文本信息以及标记情绪类别，对预设情绪识别模型进行训练，得到训练后情绪识别模型。

其中，样本语音信息指的是历史时间的业务场景中的通话录音，样本文本信息也即对样本语音信息进行文本转换得到的文本信息。

具体的，获取样本语音信息和样本文本信息，可以通过对接业务系统，获取存储的通话录音2000通，录音平均时长5分钟，音频可以为8000采样率的双声道wav（声音文件格式）文件。然后对获取的通话录音通过ASR技术转换为文本，得到ASR转录结果。

由于通话录音中包括多个说话对象，可以对说话对象进行分离和音频切分。具体的，通过音频的左右声道，将不同说话对象（比如，客服和客户）的音频分离开。同时，根据ASR转录结果的时间戳进一步将每一通话音频切分成多个片段，每个片段对应ASR文本中一个说话对象的一句连续对话。

其中，对于时间长度大于15秒的音频片段，再通过估算该片段语速的方法进一步进行切分。具体方法包括：根据音频片段时长和ASR转录文本，估算该文本语句的语速=片段时长/片段字数，从离片段文本中间最近分句（以文本中逗号、句号、问号等停顿符号为依据）开始切分文本。通过切分后文本的字数乘以估算语速来确定音频的切断点。最后在以0.5秒作为缓冲区间，在切断点+0.5秒作为前一个分句的结束时间，切断点-0.5秒作为后一个分句的开始时间。如果切分后还存在时间长度大于15秒的片段，则对大于15秒的片段继续按上述方法进行切分。切分完后得到相应说话对象语音短句的音频和文本，如下：

[{“客服”：“短句音频1”，“短句文本1”}，

{“客户”： “短句音频2”，“短句文本2”}，

{“客服”：“短句音频3”，“短句文本3”}，

…]。

进一步的，对于采集到的样本语音信息与样本文本信息进行情绪类别标记，可以通过人工标注的方式。在进行标注的同时，为了提高标注准确度，可以考量说话对象音频的语气、语调，以及说话文本的内容。

具体的，可以基于分值进行标注，情绪分值取值范围可以为-3到3的整数。其中，0可以代表情绪中性，没有正面或负面情绪倾向。+1、+2、+3代表正面情绪，数值越大，正面强度依次增强。-1、-2和-3代表负面情绪，数值越小，负面强度依次增强。标注结果如下表1所示：

表1 情绪分值标注样例

短句音频id	短句文本	短句情绪
			3-0093	我会帮您记录下来的，先生	+1
3-0051	我自己都是在9号的时候，就跟你们说，我没有啊，你就好的什么呀。	-2
			3-0052	好的。	0

在一些实施例中，为了提高模型训练效率，步骤“基于样本语音信息、样本文本信息以及标记情绪类别，对预设情绪识别模型进行训练，得到训练后情绪识别模型”，可以包括以下操作：

通过预设情绪识别模型的语音特征提取模块对样本语音信息进行特征提取，得到样本语音特征；

通过预设情绪识别模型的文本特征提取模块对样本文本信息进行特征提取，得到样本文本特征；

对样本语音特征与样本文本特征进行融合处理，得到融合后样本特征；

根据融合后样本特征与标记情绪类别生成训练样本对；

基于训练样本对对预设情绪识别模型进行训练，得到训练样本对中融合后样本特征的预测情绪类别；

通过标记情绪类别与预测情绪类别对预设情绪识别模型的模型参数进行调整，直至预设情绪识别模型的模型收敛，得到训练后情绪识别模型。

其中，对于样本语音信息中的语音数据首先会重采样到16k，按随机抽取80%作为模型训练数据，10%作为开发集，10%作为测试集。同时收集了openslr（语音资源开放平台，存储有来自世界各地的开源语音数据资源）上没有情绪标注的公开中文语音数据：Aishell、aidatatang、magicdata、primewords、stcmds和thchs总计1200小时用作语音信息特征提取模型的开发。

在本申请实施例中，通过语音信息特征提取模型对语音信息进行特征提取。语音信息特征提取模型的输入为原始的wav音频信息，输出为该音频的2维语音信息特征张量。

具体的，语音信息特征提取模型以Meta开源的语音预训练模型XLSR-53为基础开发。XLSR-53是Meta采用自监督语音预训练模型wav2vec2（由Meta公司开源的一种语音预训练模型）结构，在53种语言共5万6千小时数据上训练得到的多语言语音预训练模型。语音特征提取模型可以分如下2步训练得到：

首先，迁移公开XLSR-53模型，得到中文语音预训练模型。具体的，采用1200小时公开中文数据，以XLSR-53模型参数为初始参数，继续训练96epochs得到中文的自监督语音预训练模型。模型训练可以采用Adam作为优化器，学习率设置为0.001的polynomial decay，warmup为前32000次更新。模型训练的损失函数和原始的XLSR-53模型保持一致，是contrastive loss和diversity loss之和。

然后，针对中文语音预训练模型在业务数据上的适应性训练。具体的饿，利用上述步骤得到的情绪训练数据，在不使用情绪标注信息的情况下，在上述中文语音预训练模型上继续训练200个epochs，得到最终的语音信息特征提取模型。其中，在训练过程中，采用Adam优化器，学习率设置为0.00001的exponential decay。模型的损失函数和上述步骤一致。

在一些实施例中，为了保证语音特征与文本特征的维度一致，步骤“通过预设情绪识别模型的语音特征提取模块对样本语音信息进行特征提取，得到样本语音特征”，可以包括以下操作：

通过语音特征提取模块对样本语音信息进行处理，得到预设数量的语音特征张量；

对预设数量的语音特征张量进行加权平均，得到处理后语音特征张量；

对处理后语音特征张量在时间序列维度进行平均池化，得到指定维度的特征张量；

基于指定维度的特征张量得到样本语音特征。

例如，请参阅图2，图2为本申请实施例提供的一种情绪识别方法的网络模型结构示意图。将原始音频文件输入语音特征提取模块，通过语音特征提取模块对原始音频文件进行特征提取，得到24个（序列长度x1024）的语音特征张量。其中，每个张量对应一个Transformer block（网络模型块）的输出。然后对这24个张量进行加权平均，得到处理后语音特征张量，最后再对得到处理后语音特征张量在时间序列维度进行平均池化，将语音特征张量转换成一个维度为1x1024的张量。

在本申请实施例中，通过文本信息特征提取模型对文本信息进行特征提取。文本信息特征提取模型的输入为原始的文本信息，输出为该文本的1维文本信息特征张量。可以通过样本文本信息中的文本数据对此模型进行开发。

具体的，对文本信息特征提取模型的训练可以包括：使用公开的中文文本预训练模型chinese-bert-wwm（开源的中文bert模型）为初始模型，仅使用情绪训练数据的文本信息，对chinese-bert-wwm模型继续训练了60epochs。其中，使用了Adam优化器，学习率设置为0.00001的exponential decay。模型的损失函数和初始模型chinese-bert-wwm保持一样。

例如，请继续参阅图2，将原始文本文件输入文本特征提取模块，通过文本特征提取模块对原始文本文件进行特征提取，通过文本信息特征提取模块对文本信息进行特征提取，直接得到一个[CLS] token的1x1024维度的文本特征张量。

其中，中文语音预训练模型以及文本预训练模型chinese-bert-wwm，都针对业务场景分别进行适应性预训练。最终模型误差降低5%。

进一步的，对于提取的样本文本特征与样本语音特征进行连接，得到融合后样本特征。

在一些实施例中，为了防止语音文本双模态模型对单一模态的过度依赖，同时兼容单模态数据情况下的预测，在将语音特征与文本特征进行连接的过程中加入特征丢弃模块，也即Dropout，则步骤“对样本语音特征与样本文本特征进行融合处理，得到融合后样本特征”，可以包括以下操作：

通过预设情绪识别模型的特征丢弃模块，将指定维度的语音特征张量或者指定维度的文本特征张量替换为零张量；

将未被替换的特征与零张量进行连接，得到融合后样本特征。

其中，Dropout可以通过阻止特征检测器的共同作用来提高神经网络的性能。Dropout可以作为训练深度神经网络的一种trick供选择。在每个训练批次中，通过忽略一半的特征检测器（让一半的隐层节点值为0），可以明显地减少过拟合现象。这种方式可以减少特征检测器（隐层节点）间的相互作用，检测器相互作用是指某些检测器依赖其他检测器才能发挥作用。简单一点就是：在前向传播的时候，让某个神经元的激活值以一定的概率p停止工作，这样可以使模型泛化性更强。

在本申请实施例中，在将语音和文本的特征连接成一个1x2048维度的张量的过程中，加入了模态的Dropout。具体的，设置语音和文本其中一个模态的特征有0.5的概率被替代为一个1x1024的零张量，两个模态被替代的几率均等。使模型能在只有单一模态输入的情况下也能做出稳定的预测。一个模型能支持业务不同的输入场景。

进一步的，根据融合后样本特征与标记情绪类别生成训练样本对，通过训练样本对对预设情绪识别模型进行训练，得到训练样本对中融合后样本特征的预测情绪类别。其中，预测情绪类别指的是预设情绪识别模型基于融合后样本特征识别出来的情绪类别。最后，通过标记情绪类别与预测情绪类别对预设情绪识别模型的模型参数进行调整，直至预设情绪识别模型的模型收敛，即可以得到训练后情绪识别模型。

在一些实施例中，为了提高模型训练效率，对预设情绪识别模型的模型参数进行调整至少包括第一阶段和第二阶段，则步骤“通过标记情绪类别与预测情绪类别对预设情绪识别模型的模型参数进行调整”，可以包括以下操作：

在第一阶段，通过标记情绪类别与预测情绪类别对预设情绪识别模型中除语音特征提取模块与文本特征提取模块之外的参数进行调整；

在第二阶段，通过标记情绪类别与预测情绪类别对预设情绪识别模型中的所有模型参数进行调整。

具体的，在训练整个模型时，训练的损失函数为MSE，优化器为Adam，学习率为1e-5的expoential decay，总共训练15个epochs。整个模型的参数更新可以分为两个阶段。第一阶段可以为前4个epochs，在第一阶段时，语音特征提取模块和文本特征提取模块的参数全部被冻结，不参与更新。第二阶段可以为后11个epochs，在第二阶段时，语音特征提取模块和文本特征提取模块中的Transformer参数也会同步更新。

在一些实施例中，对于单一模态情况下模型的预测：如果只有单一模态（也即仅有文本数据或者语音数据）的数据输入，缺失模态的特征提取流程会直接略过，使用1x1024的零张量代替。然后与现有模态的特征张量连接成一个1x2048的张量。后续预测流程与双模态情况一致。

106、在实时业务场景的业务提供方一侧展示情绪识别结果。

当通过训练后情绪识别模型识别出目标对象的待识别语音的情绪识别结果后，可以在业务提供方的终端进行情绪识别结果展示，以使业务提供方可以根据实时情绪识别结果调整情绪表现，从而带给客户良好的沟通体验。

例如，目标对象可以为客服，当识别出客服的情绪识别结果为：负面情绪时，通过客服侧终端显示客服当前为负面情绪的识别结果，以提示客服及时调整情绪。

又例如，目标对象可以为客户，当识别出客服的情绪识别结果为：负面情绪时，通过客服侧终端显示客户当前为负面情绪的识别结果，以提示客服安慰客户情绪。

本申请实施例公开了一种情绪识别方法，该方法包括：获取实时业务场景中的通话录音；基于通话录音获取同一目标对象的待识别语音信息，以及待识别语音信息对应的文本信息；对待识别语音信息进行特征提取，得到语音特征，以及对文本信息进行特征提取，得到文本特征；将语音特征与文本特征进行融合，得到融合后特征；对融合后特征进行情绪识别处理，得到待识别语音信息的情绪识别结果；在实时业务场景的业务提供方一侧展示情绪识别结果。以此，可以提高对服务进程中情绪识别效率。

根据上述介绍的内容，下面将举例来进一步说明本申请的情绪识别方法。请参阅图3，图3为本申请实施例提供的另一种情绪识别方法的流程示意图，以该情绪识别方法应用于服务器为例，具体流程可以如下：

201、服务器采集实时业务场景中客服与客户的通话录音。

在本申请实施例中，业务场景可以为银行业务场景，在银行客服人员与客户进行通话时，实时获取客服与客户的通话录音。

202、服务器根据通话录音获取客服的语音音频，以及语音音频对应的语音文本。

具体的，从通话录音中识别出当前客服的一句完整通话语音，得到客服的语音音频。

进一步的，将语音音频转换为文本，得到语音音频对应的语音文本。

203、服务器通过情绪识别模型对语音音频与语音文本进行情绪识别，得到语音音频的情绪识别结果。

具体的，将语音音频与语音文本输入情绪识别模型，首先，通过情绪识别模型的语音特征提取模块对语音音频进行特征提取，得到语音特征，通过情绪识别模型的文本特征提取模块对音频文本进行特征提取，得到文本特征。

将提取得到的语音特征与文本特征进行连接，得到连接特征，情绪识别模型会基于连接特征预测出一个介于-3到+3的有理数分数。将该分数四舍五入进行处理后得到的整数作为最终预测的情绪分数，从而得到情绪识别结果。

204、服务器向客服的终端发送情绪识别结果，以使客服的终端展示情绪识别结果。

具体的，为了使得客服人员及时了解自身情绪表现，服务器可以将识别出的情绪识别结果发送至客服的终端，然后通过客服的终端展示客服的情绪识别结果，客服人员看到情绪识别结果后，若情绪表现较差，可以及时调整情绪表现，以带给客户良好的沟通体验。

本申请实施例公开了一种情绪识别方法，该方法包括：服务器采集实时业务场景中客服与客户的通话录音，根据通话录音获取客服的语音音频，以及语音音频对应的语音文本，通过情绪识别模型对语音音频与语音文本进行情绪，得到语音音频的情绪识别结果，可以提高情绪识别准确性，然后向客服的终端发送情绪识别结果，以使客服的终端展示情绪识别结果，可以方便客服人员实时了解自身情绪情况，以便进行情绪调整。

为便于更好的实施本申请实施例提供的情绪识别方法，本申请实施例还提供一种基于上述情绪识别方法的情绪识别装置。其中名词的含义与上述情绪识别方法中相同，具体实现细节可以参考方法实施例中的说明。

请参阅图4，图4为本申请实施例提供的一种情绪识别装置的结构框图，该装置包括：

第一获取单元301，用于获取实时业务场景中的通话录音；

第二获取单元302，用于基于所述通话录音获取同一目标对象的待识别语音信息，以及所述待识别语音信息对应的文本信息；

提取单元303，用于对所述待识别语音信息进行特征提取，得到语音特征，以及对所述文本信息进行特征提取，得到文本特征；

融合单元304，用于将所述语音特征与所述文本特征进行融合，得到融合后特征；

处理单元305，用于对所述融合后特征进行情绪识别处理，得到所述待识别语音信息的情绪识别结果；

展示单元306，用于在所述实时业务场景的业务提供方一侧展示所述情绪识别结果。

在一些实施例中，处理单元305可以包括：

在一些实施例中，该装置还可以包括：

在一些实施例中，训练单元可以包括：

在一些实施例中，第一提取子单元具体可以用于：

基于所述指定维度的特征张量得到所述样本语音特征。

在一些实施例中，处理子单元具体可以用于：

在一些实施例中，调整子单元具体可以用于：

本申请实施例公开了一种情绪识别装置，通过第一获取单元301，用于获取实时业务场景中的通话录音；第二获取单元302，用于基于所述通话录音获取同一目标对象的待识别语音信息，以及所述待识别语音信息对应的文本信息；提取单元303，用于对所述待识别语音信息进行特征提取，得到语音特征，以及对所述文本信息进行特征提取，得到文本特征；融合单元304，用于将所述语音特征与所述文本特征进行融合，得到融合后特征；处理单元305，用于对所述融合后特征进行情绪识别处理，得到所述待识别语音信息的情绪识别结果；展示单元306，用于在所述实时业务场景的业务提供方一侧展示所述情绪识别结果。以此，可以提高情绪识别的准确性。

相应的，本申请实施例还提供一种计算机设备，该计算机设备可以为服务器。如图5所示，图5为本申请实施例提供的计算机设备的结构示意图。该计算机设备400包括有一个或者一个以上处理核心的处理器401、有一个或一个以上计算机可读存储介质的存储器402及存储在存储器402上并可在处理器上运行的计算机程序。其中，处理器401与存储器402电性连接。本领域技术人员可以理解，图中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

处理器401是计算机设备400的控制中心，利用各种接口和线路连接整个计算机设备400的各个部分，通过运行或加载存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行计算机设备400的各种功能和处理数据，从而对计算机设备400进行整体监控。

在本申请实施例中，计算机设备400中的处理器401会按照如下的步骤，将一个或一个以上的应用程序的进程对应的指令加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能：

获取实时业务场景中的通话录音；

基于通话录音获取同一目标对象的待识别语音信息，以及待识别语音信息对应的文本信息；

对待识别语音信息进行特征提取，得到语音特征，以及对文本信息进行特征提取，得到文本特征；

将语音特征与文本特征进行融合，得到融合后特征；

对融合后特征进行情绪识别处理，得到待识别语音信息的情绪识别结果；

在实时业务场景的业务提供方一侧展示情绪识别结果。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

可选的，如图5所示，计算机设备400还包括：触控显示屏403、射频电路404、音频电路405、输入单元406以及电源407。其中，处理器401分别与触控显示屏403、射频电路404、音频电路405、输入单元406以及电源407电性连接。本领域技术人员可以理解，图5中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

触控显示屏403可用于显示图形用户界面以及接收用户作用于图形用户界面产生的操作指令。触控显示屏403可以包括显示面板和触控面板。其中，显示面板可用于显示由用户输入的消息或提供给用户的消息以及计算机设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。可选的，可以采用液晶显示器（LCD，Liquid Cryst客户端账户l Displ客户端账户y）、有机发光二极管（OLED，Org客户端账户nic Light-Emitting Diode）等形式来配置显示面板。触控面板可用于收集用户在其上或附近的触摸操作（比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作），并生成相应的操作指令，且操作指令执行对应程序。可选的，触控面板可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸消息，并将它转换成触点坐标，再送给处理器401，并能接收处理器401发来的命令并加以执行。触控面板可覆盖显示面板，当触控面板检测到在其上或附近的触摸操作后，传送给处理器401以确定触摸事件的类型，随后处理器401根据触摸事件的类型在显示面板上提供相应的视觉输出。在本申请实施例中，可以将触控面板与显示面板集成到触控显示屏403而实现输入和输出功能。但是在某些实施例中，触控面板与触控面板可以作为两个独立的部件来实现输入和输出功能。即触控显示屏403也可以作为输入单元406的一部分实现输入功能。

在本申请实施例中，通过处理器401执行游戏应用程序在触控显示屏403上生成图形用户界面，图形用户界面上的虚拟场景中包含至少一个技能控制区域，技能控制区域中包含至少一个技能控件。该触控显示屏403用于呈现图形用户界面以及接收用户作用于图形用户界面产生的操作指令。

射频电路404可用于收发射频信号，以通过无线通信与网络设备或其他计算机设备建立无线通讯，与网络设备或其他计算机设备之间收发信号。

音频电路405可以用于通过扬声器、传声器提供用户与计算机设备之间的音频接口。音频电路405可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路405接收后转换为音频数据，再将音频数据输出处理器401处理后，经射频电路404以发送给比如另一计算机设备，或者将音频数据输出至存储器402以便进一步处理。音频电路405还可能包括耳塞插孔，以提供外设耳机与计算机设备的通信。

输入单元406可用于接收输入的数字、字符消息或用户特征消息（例如指纹、虹膜、面部消息等），以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

电源407用于给计算机设备400的各个部件供电。可选的，电源407可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源407还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管图5中未示出，计算机设备400还可以包括摄像头、传感器、无线保真模块、蓝牙模块等，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

由上可知，本实施例提供的计算机设备，通过获取实时业务场景中的通话录音；基于通话录音获取同一目标对象的待识别语音信息，以及待识别语音信息对应的文本信息；对待识别语音信息进行特征提取，得到语音特征，以及对文本信息进行特征提取，得到文本特征；将语音特征与文本特征进行融合，得到融合后特征；对融合后特征进行情绪识别处理，得到待识别语音信息的情绪识别结果；在实时业务场景的业务提供方一侧展示情绪识别结果。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条计算机程序，该计算机程序能够被处理器进行加载，以执行本申请实施例所提供的任一种情绪识别方法中的步骤。例如，该计算机程序可以执行如下步骤：

获取实时业务场景中的通话录音；

将语音特征与文本特征进行融合，得到融合后特征；

在实时业务场景的业务提供方一侧展示情绪识别结果。

其中，该存储介质可以包括：只读存储器（ROM，Re客户端账户d Only Memory）、随机存取记忆体（R客户端账户M，R客户端账户ndom客户端账户ccess Memory）、磁盘或光盘等。

由于该存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种情绪识别方法中的步骤，因此，可以实现本申请实施例所提供的任一种情绪识别方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种情绪识别方法、装置、存储介质及计算机设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种情绪识别方法，其特征在于，所述方法包括：

获取实时业务场景中的通话录音；

2.根据权利要求1所述的方法，其特征在于，所述对所述融合后特征进行情绪识别处理，得到所述待识别语音信息的情绪识别结果，包括：

通过训练后情绪识别模型计算所述融合后特征对应的目标情绪分值；

确定所述目标情绪分值对应的目标情绪类别，得到所述情绪识别结果。

3.根据权利要求2所述的方法，其特征在于，在所述通过训练后情绪识别模型计算所述融合后特征对应的情绪分值之前，还包括：

获取所述样本语音信息与所述样本文本信息对应的标记情绪类别；

基于所述样本语音信息、所述样本文本信息以及所述标记情绪类别，对预设情绪识别模型进行训练，得到所述训练后情绪识别模型。

4.根据权利要求3所述的方法，其特征在于，所述基于所述样本语音信息、所述样本文本信息以及所述标记情绪类别，对预设情绪识别模型进行训练，得到所述训练后情绪识别模型，包括：

通过所述预设情绪识别模型的语音特征提取模块对所述样本语音信息进行特征提取，得到样本语音特征；

通过所述预设情绪识别模型的文本特征提取模块对所述样本文本信息进行特征提取，得到样本文本特征；

对所述样本语音特征与所述样本文本特征进行融合处理，得到融合后样本特征；

根据所述融合后样本特征与所述标记情绪类别生成训练样本对；

基于所述训练样本对对所述预设情绪识别模型进行训练，得到所述训练样本对中所述融合后样本特征的预测情绪类别；

通过所述标记情绪类别与所述预测情绪类别对所述预设情绪识别模型的模型参数进行调整，直至所述预设情绪识别模型的模型收敛，得到所述训练后情绪识别模型。

5.根据权利要求4所述的方法，其特征在于，所述通过所述预设情绪识别模型的语音特征提取模块对所述样本语音信息进行特征提取，得到样本语音特征，包括：

基于所述指定维度的特征张量得到所述样本语音特征。

6.根据权利要求4所述的方法，其特征在于，所述样本语音特征包括指定维度的语音特征张量，所述样本文本特征包括所述指定维度的文本特征张量；

所述对所述样本语音特征与所述样本文本特征进行融合处理，得到融合后样本特征，包括：

7.根据权利要求4所述的方法，其特征在于，对所述预设情绪识别模型的模型参数进行调整至少包括第一阶段和第二阶段；

所述通过所述标记情绪类别与所述预测情绪类别对所述预设情绪识别模型的模型参数进行调整，包括：

8.一种情绪识别装置，其特征在于，所述装置包括：

第一获取单元，用于获取实时业务场景中的通话录音；

9.一种计算机设备，包括存储器，处理器及存储在存储器上并在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现如权利要求1至7任一项所述的情绪识别方法。

10.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至7任一项所述的情绪识别方法。