CN116312486B

CN116312486B - 情绪识别方法、装置、计算机可读存储介质及电子设备

Info

Publication number: CN116312486B
Application number: CN202310596676.0A
Authority: CN
Inventors: 赵韡; 袁靖; 张海波; 王玉鑫; 周自横; 曹旭; 任立新; 廉晓丹
Original assignee: Fuwai Hospital of CAMS and PUMC
Current assignee: Fuwai Hospital of CAMS and PUMC
Priority date: 2023-05-25
Filing date: 2023-05-25
Publication date: 2023-08-11
Anticipated expiration: 2043-05-25
Also published as: CN116312486A

Abstract

本发明公开了一种情绪识别方法、装置、计算机可读存储介质及电子设备。该方法包括：获取处于通话状态的目标对象的目标数据，其中，目标数据至少包括用户画像信息以及目标对象在当前通话过程中的语音信号和对话文本，其中，用户画像信息包括目标对象的对象信息和历史通话情绪信息；将目标数据输入至目标识别模型中，通过目标识别模型得到概率分布结果，其中，概率分布结果表征目标对象的通话情绪类型在多个情绪类型中的概率分布；根据概率分布结果识别目标对象的通话情绪类型。本发明解决了相关技术中对用户通话过程中情绪的识别准确度低的技术问题。

Description

情绪识别方法、装置、计算机可读存储介质及电子设备

技术领域

本发明涉及人工智能领域，具体而言，涉及一种情绪识别方法、装置、计算机可读存储介质及电子设备。

背景技术

通常，人类的语言中包含着说话者的情绪信息，在人机交互中，对于人的语音情绪信息的识别是十分重要的环节。计算机在识别出语音内容的同时，识别出语音所携带的情绪信息，可以使得人机交互更加的自然流利，提高人机交互的用户体验质量。现有的语音情绪识别技术包括使用机器学习、深度神经网络学习等方法进行语音情绪识别。但是，之前的情感分析算法往往建立在单一模态或仅包括语音、文本模态信息的训练集结合机器学习或深度学习的方法，较为单一，不能全面、准确识别用户情绪。例如，相关技术中仅基于语音、文本模态信息识别用户情绪，未考虑对患者用户画像、过往通话情绪时序特征的利用，导致分析全部集中关注在即时通讯状态下用户的情绪，而忽略用户本人性格特点对情绪的影响，从而具有对情绪的识别准确度低的问题，进而容易影响人机交互时用户的交互体验。针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种情绪识别方法、装置、计算机可读存储介质及电子设备，以至少解决相关技术中对用户通话过程中情绪的识别准确度低的技术问题。

根据本发明实施例的一个方面，提供了一种情绪识别方法，包括：获取处于通话状态的目标对象的目标数据，其中，目标数据至少包括用户画像信息以及目标对象在当前通话过程中的语音信号和对话文本，用户画像信息包括目标对象的对象信息和历史通话情绪信息；将目标数据输入至目标识别模型中，通过目标识别模型得到概率分布结果，其中，概率分布结果表征目标对象的通话情绪类型在多个情绪类型中的概率分布；根据概率分布结果识别目标对象的通话情绪类型。

进一步地，目标识别模型至少由声学特征提取模型、声学编码器、文本编码器以及画像特征提取层构成，其中，通过目标识别模型得到概率分布结果，包括：通过声学特征提取模型对语音信号进行特征提取处理，得到声学特征，并通过声学编码器对声学特征进行向量化处理，得到声学特征向量；通过文本编码器对对话文本进行特征提取处理，得到文本特征向量；通过画像特征提取层对对象信息和历史通话情绪信息进行特征提取处理，得到用户画像特征向量；根据声学特征向量、文本特征向量以及用户画像特征向量确定概率分布结果。

进一步地，目标识别模型包括第一全连接层和第二全连接层，其中，根据声学特征向量、文本特征向量以及用户画像特征向量确定概率分布结果，包括：对声学特征向量和文本特征向量进行相似度计算，得到相似度分数；对相似度分数与用户画像特征向量进行点乘计算，得到注意力加权向量；通过第一全连接层对声学特征向量进行特征整合处理，得到处理后的声学特征向量；拼接处理后的声学特征向量和注意力加权向量，得到拼接向量；通过第二全连接层对拼接向量进行特征整合处理，得到目标对象的情绪在多个情绪类型中的概率分布结果，其中，第一全连接层与第二全连接层的参数不同。

进一步地，通过声学特征提取模型对语音信号进行特征提取处理，得到声学特征，包括：对语音信号进行特征提取，得到第一特征图；提取语音信号中的梅尔声谱，得到目标梅尔声谱，并对目标梅尔声谱进行特征图转换处理，得到第二特征图；拼接第一特征图和第二特征图，得到声学特征。

进一步地，文本编码器的训练数据通过以下方法生成：获取多个样本文本，并识别多个样本文本中的目标词语，其中，目标词语为能够表达情绪的词语；对样本文本中的目标词语进行掩盖，得到掩盖后的多个样本文本，并根据掩盖后的多个样本文本构建第一训练样本集；将第一训练样本集确定为文本编码器的训练数据。

根据本发明实施例的另一方面，还提供了一种情绪识别装置，包括：获取模块，用于获取处于通话状态的目标对象的目标数据，其中，目标数据至少包括用户画像信息以及目标对象在当前通话过程中的语音信号和对话文本，用户画像信息包括目标对象的对象信息和历史通话情绪信息；处理模块，用于将目标数据输入至目标识别模型中，通过目标识别模型得到概率分布结果，其中，概率分布结果表征目标对象的通话情绪类型在多个情绪类型中的概率分布；识别模块，用于根据概率分布结果识别目标对象的通话情绪类型。

进一步地，目标识别模型至少由声学特征提取模型、声学编码器、文本编码器以及画像特征提取层构成，其中，处理模块还包括：第一特征提取子模块，用于通过声学特征提取模型对语音信号进行特征提取处理，得到声学特征，并通过声学编码器对声学特征进行向量化处理，得到声学特征向量；第二特征提取子模块，用于通过文本编码器对对话文本进行特征提取处理，得到文本特征向量；第三特征提取子模块，用于通过画像特征提取层对对象信息和历史通话情绪信息进行特征提取处理，得到用户画像特征向量；确定子模块，用于根据声学特征向量、文本特征向量以及用户画像特征向量确定概率分布结果。

进一步地，目标识别模型包括第一全连接层和第二全连接层，其中，确定子模块还包括：第一计算单元，用于对声学特征向量和文本特征向量进行相似度计算，得到相似度分数；第二计算单元，用于对相似度分数与用户画像特征向量进行点乘计算，得到注意力加权向量；第一特征整合单元，用于通过第一全连接层对声学特征向量进行特征整合处理，得到处理后的声学特征向量；第一拼接单元，用于拼接处理后的声学特征向量和注意力加权向量，得到拼接向量；第二特征整合单元，用于通过第二全连接层对拼接向量进行特征整合处理，得到目标对象的情绪在多个情绪类型中的概率分布结果，其中，第一全连接层与第二全连接层的参数不同。

根据本发明实施例的另一方面，还提供了一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，其中，计算机程序被设置为运行时执行上述的情绪识别方法。

根据本发明实施例的另一方面，还提供了一种电子设备，电子设备包括一个或多个处理器；存储器，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现用于运行程序，其中，程序被设置为运行时执行上述的情绪识别方法。

在本发明实施例中，通过获取处于通话状态的目标对象的目标数据，然后将目标数据输入至目标识别模型中，通过目标识别模型得到概率分布结果，从而根据概率分布结果识别目标对象的通话情绪类型。其中，目标数据至少包括用户画像信息以及目标对象在当前通话过程中的语音信号和对话文本，用户画像信息包括目标对象的对象信息和历史通话情绪信息，概率分布结果表征目标对象的通话情绪类型在多个情绪类型中的概率分布。

在上述过程中，通过在目标对象在当前通话过程中的语音信号和对话文本的基础上，结合目标对象的用户画像信息对目标对象的通话情绪类型进行识别，实现了在即时通话信息的基础上，建模用户的个人性格特点、历史情感走向和情感表达方式对目标对象的通话情绪类型进行识别，从而提高了得到的概率分布结果的准确性。进一步地，通过根据概率分布结果识别目标对象的通话情绪类型，实现了对通话情绪类型的有效确定，从而提高了对目标对象在通话过程中情绪的识别准确度。

由此可见，本申请所提供的方案达到了根据目标对象的即时通话信息和用户画像信息识别目标对象的通话情绪类型的目的，从而实现了提高对目标对象在通话过程中情绪的识别准确度的技术效果，进而解决了相关技术中对用户通话过程中情绪的识别准确度低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的情绪识别方法的示意图；

图2是根据本发明实施例的一种可选的情绪识别系统的示意图；

图3是根据本发明实施例的一种可选的目标识别模型的工作示意图；

图4是根据本发明实施例的一种可选的声学特征提取模型的工作示意图；

图5是根据本发明实施例的一种可选的文本编码器的训练示意图；

图6是根据本发明实施例的一种可选的情绪识别装置的示意图；

图7是根据本发明实施例的一种可选的电子设备的工作示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，本公开所涉及的对象信息（包括但不限于对象设备信息、对象个人信息等）和数据（包括但不限于用于展示的数据、分析的数据等），均为经对象授权或者经过各方充分授权的信息和数据。

实施例1

根据本发明实施例，提供了一种情绪识别方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种可选的情绪识别方法的示意图，如图1所示，该方法包括如下步骤：

步骤S101，获取处于通话状态的目标对象的目标数据，其中，目标数据至少包括用户画像信息以及目标对象在当前通话过程中的语音信号和对话文本，用户画像信息包括目标对象的对象信息和历史通话情绪信息。

可选的，本申请所提供的方法应用于需要人机多次进行语音交互的场景，例如，可以应用于医疗场景下医院对患者术后进行的多次随访中，应用于购物场景下销售方对消费者进行的多次推销中，应用于金融场景下业务员与用户进行的业务办理流程中等。

其中，可以通过电子设备、应用系统、服务器等装置作为本申请的执行主体，在本实施例中，为方便说明，将一种可选的情绪识别系统作为执行主体，以执行本申请所提供的情绪识别方法。可选的，图2是根据本发明实施例的一种可选的情绪识别系统的示意图，如图2所示，情绪识别系统包括相互连接的数据采集模块、模型生成模块和模型应用模块。

在步骤S101中，前述的数据采集模块获取处于通话状态的目标对象的目标数据。其中，在通话过程中，目标对象通过所持有的设备终端与相关交互设备进行语音交互，数据采集模块可以与前述的交互设备进行信息通讯，以获取交互设备传输的目标对象在当前通话过程中的语音信号和对话文本。其中，目标对象在当前通话过程中的语音信号和对话文本可以是交互设备对目标对象的通话信息处理得到的，也可以是交互设备通过其它装置对目标对象的通话信息处理得到的。

进一步地，数据采集模块可以直接获取前述的交互设备发送的目标对象的对象信息以及历史通话情绪信息，也可以获取前述的交互设备发送的目标对象的对象标识，然后根据该对象标识从预设的数据库中查找到该目标对象的对象信息以及历史通话情绪信息。其中，前述的历史通话情绪信息由目标对象每次历史通话所对应的情绪类型组成，前述的对象信息为根据目标对象的历史通话信息所确定的，对象信息包括以下至少之一：表征目标对象的历史通话的配合程度的信息，表征目标对象的历史通话的完成程度的信息，表征目标对象对通话内容所匹配的操作事项的操作结果的信息，表征目标对象的目标身体指标的信息，目标身体指标与对象情绪具有关联关系，例如，目标身体指标为血压等。

例如，在医疗场景下医院对患者术后进行的多次随访中，对象信息包括随访配合度、历史随访流程完成度、用药规律、血压指标等，其中，随访配合度为表征目标对象的历史通话的配合程度的信息，随访配合度为根据目标对象在历史通话过程中主动结束通话的次数所确定的，目标对象主动结束通话的次数占总历史通话次数的占比越低，随访配合度越高。历史随访流程完成度为表征目标对象的历史通话的完成程度的信息，历史随访流程完成度为根据目标对象对历史通话过程中的问题的正常回答次数所确定的，目标对象对历史通话过程中的问题的正常回答次数占总问题越多，历史随访流程完成度越高，其中，正常回答表征目标对象的回答内容与问题属于同一类型。用药规律为表征目标对象对通话内容所匹配的操作事项的操作结果的信息，例如，在前述的随访场景下，通话内容为询问用户（即前述的目标对象）是否按时用药或提醒用户是否按时用药，则通话内容匹配的操作事项为用药，操作结果为用药规律或用药不规律，且操作结果为根据用户的通话内容确定的。血压指标为表征目标对象的目标身体指标的信息，血压指标为根据用户的通话内容确定的，可选的，血压指标也可以根据用户的就诊信息所确定。其中，在前述的随访配合度越高、历史随访流程完成度越高、用药规律、血压指标正常的情况下，确定目标对象更加配合随访，其情绪更加稳定。

步骤S102，将目标数据输入至目标识别模型中，通过目标识别模型得到概率分布结果，其中，概率分布结果表征目标对象的通话情绪类型在多个情绪类型中的概率分布。

在步骤S102中，如图2所示，模型应用模块可以获取前述的目标数据，并将前述的目标数据输入至预先训练好的目标识别模型中，从而通过目标识别模型对前述的目标数据进行处理，得到概率分布结果，其中，情绪类型可以分为情绪正常、情绪异常，也可以分为快乐、愤怒、悲伤等。在一种可选的实施例中，若多个情绪类型仅包括快乐、愤怒、悲伤，则概率分布结果可以表示为如下示例：目标对象的通话情绪类型属于快乐的概率为20%，当前通话属于愤怒的概率为10%，当前通话属于悲伤的概率为70%。

需要说明的是，通过在目标对象在当前通话过程中的语音信号和对话文本的基础上，结合目标对象的用户画像信息对目标对象的通话情绪类型进行识别，实现了在即时通话信息的基础上，建模用户的个人性格特点、历史情感走向和情感表达方式对目标对象的通话情绪类型进行识别，从而提高了得到的概率分布结果的准确性。

步骤S103，根据概率分布结果识别目标对象的通话情绪类型。

在步骤S103中，模型应用模块可以从概率分布结果中选出所占概率最大的情绪类型，并将该情绪类型作为目标对象的通话情绪类型。

基于上述步骤S101至步骤S103所限定的方案，可以获知，在本发明实施例中，采用根据目标对象的即时通话信息和用户画像信息识别目标对象的通话情绪类型的方式，通过获取处于通话状态的目标对象的目标数据，然后将目标数据输入至目标识别模型中，通过目标识别模型得到概率分布结果，从而根据概率分布结果识别目标对象的通话情绪类型。其中，目标数据至少包括用户画像信息以及目标对象在当前通话过程中的语音信号和对话文本，用户画像信息包括目标对象的对象信息和历史通话情绪信息，概率分布结果表征目标对象的通话情绪类型在多个情绪类型中的概率分布。

容易注意到的是，在上述过程中，通过在目标对象在当前通话过程中的语音信号和对话文本的基础上，结合目标对象的用户画像信息对目标对象的通话情绪类型进行识别，实现了在即时通话信息的基础上，建模用户的个人性格特点、历史情感走向和情感表达方式对目标对象的通话情绪类型进行识别，从而提高了得到的概率分布结果的准确性。进一步地，通过根据概率分布结果识别目标对象的通话情绪类型，实现了对通话情绪类型的有效确定，从而提高了对目标对象在通话过程中情绪的识别准确度。

在一种可选的实施例中，目标识别模型至少由声学特征提取模型、声学编码器、文本编码器以及画像特征提取层构成，其中，在通过目标识别模型得到概率分布结果的过程中，目标识别模型可以通过声学特征提取模型对语音信号进行特征提取处理，得到声学特征，并通过声学编码器对声学特征进行向量化处理，得到声学特征向量，然后通过文本编码器对对话文本进行特征提取处理，得到文本特征向量，接着通过画像特征提取层对对象信息和历史通话情绪信息进行特征提取处理，得到用户画像特征向量，从而根据声学特征向量、文本特征向量以及用户画像特征向量确定概率分布结果。

可选的，图3是根据本发明实施例的一种可选的目标识别模型的工作示意图，如图3所示，目标识别模型通过声学特征提取模型从语音信号中提取声学特征，然后将声学特征提取模型输出的声学特征通过声学编码器进行向量化处理，从而得到声学特征向量。其中，前述的语音信号可以是由固定时间长度的语音帧在时间维度连接起来形成的，也即语音信号通常由多个语音帧形成，声学特征是指表示语音声学特性的物理量，也是声音诸要素声学表现的统称，声学特征是表征语音信号的时序特性或频率特性的特征。

可选的，对目标识别模型通过文本编码器得到文本特征向量的过程进行说明。在本实施例中，文本编码器为预先训练好的BERT（来自Transformers的双向编码表示，Bidirectional Encoder Representation from Transformers）模型，如图3所示，目标识别模型将对话文本输入到BERT模型，BERT模型对对话文本进行特征提取处理，从而得到文本特征向量。其中，也可以通过现有技术中的其它模型从对话文本中提取文本特征向量，故此处不再赘述。

可选的，目标识别模型还可以将对象信息和历史通话情绪信息输入至画像特征提取层，由画像特征提取层对对象信息和历史通话情绪信息进行特征提取处理，从而得到用户画像特征向量，其中，画像特征提取层可以分别对对象信息和历史通话情绪信息进行特征提取，并将提取得到的对象信息特征向量和历史通话情绪信息特征向量进行拼接或者特征融合，从而得到用户画像特征向量。

进一步地，目标识别模型可以根据得到的声学特征向量、文本特征向量以及用户画像特征向量确定前述的概率分布结果。

需要说明的是，通过先对目标数据进行特征提取，再根据提取得到的各个特征向量确定概率分别结果，实现了对目标数据的有效精简，从而提高了模型处理效率以及模型处理结果的准确性。此外，通过基于目标识别模型中的不同结构提取得到不同的特征向量，实现了在提取特征的过程中，对各数据更加具有针对性的处理，从而更进一步地提高了得到的特征向量的准确性。

在一种可选的实施例中，目标识别模型包括第一全连接层和第二全连接层，其中，在根据声学特征向量、文本特征向量以及用户画像特征向量确定概率分布结果的过程中，目标识别模型可以对声学特征向量和文本特征向量进行相似度计算，得到相似度分数，然后对相似度分数与用户画像特征向量进行点乘计算，得到注意力加权向量，接着通过第一全连接层对声学特征向量进行特征整合处理，得到处理后的声学特征向量，并拼接处理后的声学特征向量和注意力加权向量，得到拼接向量，从而通过第二全连接层对拼接向量进行特征整合处理，得到目标对象的情绪在多个情绪类型中的概率分布结果，其中，第一全连接层与第二全连接层的参数不同。

可选的，目标识别模型根据余弦相似性，计算声学特征向量与文本特征向量之间的相似度，从而得到相似度分数。之后，目标识别模型将相似度分数作为一个权重，与对象画像特征向量进行点乘计算，从而得到注意力加权向量。

进一步地，如图3所示，目标识别模型将前述的声学特征向量经过第一全连接层处理，得到处理后的声学特征向量，然后与前述的注意力加权向量相拼接，得到拼接向量。之后，将拼接向量经过第二全连接层进行特征整合处理，实现分类效果，从而得到目标对象的情绪在多个情绪类型中的概率分布结果。具体地，第一全连接层（或是第二全连接层）中的每个神经元均通过计算上一层中每一个神经元与权重系数的乘积的总和得到，且第二全连接层对拼接向量进行特征整合处理后得到的输出值通过softmax层进行处理，从而可以得到目标对象的情绪在多个情绪类型中的概率分布结果。

需要说明的是，通过根据提取得到的各个特征向量，进行相似度计算、点乘计算以及拼接处理，使得得到的拼接向量能够更准确的反映目标对象的通话情绪，从而更进一步地提高概率分布结果的准确性。

在一种可选的实施例中，对目标识别模型通过声学特征提取模型从语音信号中提取声学特征的过程进行说明。可选的，声学特征提取模型可以对语音信号进行特征提取，得到第一特征图，然后提取语音信号中的梅尔声谱，得到目标梅尔声谱，并对目标梅尔声谱进行特征图转换处理，得到第二特征图，从而拼接第一特征图和第二特征图，得到声学特征。

具体地，在本实施例中，声学特征提取模型为WaveGram-CNN神经网络模型，WaveGram-CNN神经网络模型是一个能够捕获时频域信息的音频处理模型，WaveGram-CNN神经网络模型通过从数据中学习，可以从原始语音信号提取出一种新的语音的时间频率表示，也即提取出声学特征。图4是根据本发明实施例的一种可选的声学特征提取模型的工作示意图，如图4所示，WaveGram-CNN神经网络在获取到语音信号后，对语音信号进行特征提取，得到图4中所示的特征图1（即前述的第一特征图）。此外，WaveGram-CNN神经网络还提取语音信号中的log梅尔频谱（logmel），并将提取得到的log梅尔频谱经二维卷积层（Conv2D）转化为特征图2（即前述的第二特征图），之后，WaveGram-CNN神经网络拼接前述的特征图1和特征图2，得到声学特征。其中，前述的提取得到的log梅尔频谱即为目标梅尔声谱。且需要说明的是，第一特征图与第二特征图不同，前述的第一特征图为在神经网络维度下所认为的能够表示人声特征的特征图，前述的第二特征图为在梅尔声谱维度下所认为的能够表示人声特征的特征图。

可选的，在WaveGram-CNN神经网络对语音信号进行特征提取得到特征图1的过程中，语音信号可以依次经过一维卷积层（Conv1D）、第一一维卷积块（Conv1D block）、第一最大池化层（MaxPooling1D）、第二一维卷积块（Conv1D block）、第二最大池化层（MaxPooling1D）、第三一维卷积块（Conv1D block）、第三最大池化层（MaxPooling1D）和reshape函数处理，从而得到特征图1。其中，一维卷积层的卷积核大小为11，步长为5，第一最大池化层的步长为4，第二最大池化层的步长为4，第三最大池化层的步长为4，reshape函数用于调整多维数组的形状。

需要说明的是，通过从两个维度对语音信号进行特征提取，得到两个不同的特征图，并根据得到的两个特征图确定最终的声学特征，实现了对声学特征的有效提取。

其中，在其它实施例中，可以通过现有技术中的其它模型从语音信号中提取声学特征，且可以通过现有技术中的相关声学编码器对提取得到的声学特征进行向量化处理，故此处不再赘述。

在一种可选的实施例中，对文本编码器的训练数据的生成方法进行说明。可选的，目标识别模型可以获取多个样本文本，并识别多个样本文本中的目标词语，然后对样本文本中的目标词语进行掩盖，得到掩盖后的多个样本文本，并根据掩盖后的多个样本文本构建第一训练样本集，从而将第一训练样本集确定为文本编码器的训练数据。其中，目标词语为能够表达情绪的词语。

可选的，图5是根据本发明实施例的一种可选的文本编码器的训练示意图，如图5所示，模型生成模块可以采集多个样本文本，然后识别多个样本文本中能够表达情绪的词语，并采用玻森情感词典对识别到的词语进行随机掩盖（mask），例如，在图5中，第一行样本文本“我现在很烦躁”中的“我”和“燥”被掩盖，第二行样本文本“我现在很烦躁”中的“烦”和“燥”被掩盖，从而得到掩盖后的多个样本文本。之后，模型生成模块可以根据掩盖后的多个样本文本构建第一训练样本集，并将第一训练样本集中的掩盖后的样本文本经过常规的Bert编码方法得到输入层，然后将输入层输入Bert网络模型得到输出层，并根据输出层的结果，采用常规的Bert训练方法对BERT模型进行训练，从而得到训练好的BERT模型。

需要说明的是，通过对样本文本中能够表达情绪的词语进行掩盖，以生成训练数据，使得基于该训练数据训练得到的文本编码器能够更有效的识别对话文本中的情绪信息，从而使得提取得到的文本特征向量更加准确。

在一种可选的实施例中，对前述的WaveGram-CNN神经网络的训练过程进行简要说明。可选的，模型生成模块可以采集多个测试语音信号，对测试语音信号预处理，根据预处理后的测试语音信号构建数据集，将数据集输入待训练的WaveGram-CNN神经网络模型进行迭代训练，并对经过训练的WaveGram-CNN神经网络模型进行测试，当经过训练的WaveGram-CNN神经网络模型符合预设条件时，得到训练好的WaveGram-CNN神经网络。

在一种可选的实施例中，目标识别模型可以通过以下方法训练得到：情绪识别系统可以构建第二训练样本集，然后构建初始识别模型，并将第二训练样本集输入至初始识别模型中，通过初始识别模型得到初始概率分布结果，接着根据初始概率分布结果确定样本对象的在历史通话过程中的预测通话情绪类型，根据预测通话情绪类型和真实情绪类型标签计算得到损失函数值，从而在损失函数值大于或等于预设值的情况下，调整初始识别模型的模型参数，并重复执行将第二训练样本集输入至初始识别模型中，通过初始识别模型得到初始概率分布结果，直至损失函数值至小于预设值，将调整模型参数后的初始识别模型确定为目标识别模型。其中，第二训练样本集包括多个历史目标数据和每个历史目标数据对应的真实情绪类型标签，历史目标数据至少包括样本对象的样本用户画像信息以及样本对象在历史通话过程中的样本语音信号和样本对话文本，其中，样本用户画像信息包括样本对象信息和样本历史通话情绪信息。

可选的，数据采集模块可以获取多个样本对象中各个样本对象所对应的历史目标数据，并获取每个历史目标数据对应的真实情绪类型标签，从而将一个历史目标数据作为一个训练样本，构建第二训练样本集，其中，样本对象与历史目标数据一一对应，历史目标数据与目标数据所包含的数据内容的形式相同，但具体数值可能存在不同，故此处不再赘述。

进一步地，模型生成模块可以根据工作人员所预先输入的初始化参数构建初始识别模型，从而将第二训练样本集输入至初始识别模型中，通过初始识别模型得到初始概率分布结果。其中，初始识别模型对历史目标数据的处理过程与前述的目标识别模型对目标数据的处理过程相同，故此处不再赘述。

更进一步地，对于每个训练样本，模型生成模块可以将该训练样本对应的初始概率分布结果中概率最大的情绪类型确定为该训练样本对应的预测通话情绪类型，进而根据预设的损失函数、各个训练样本对应的预测通话情绪类型和各个训练样本对应的真实情绪类型标签计算得到损失函数值。

可选的，模型生成模块可以根据损失函数值不断调整初始识别模型的模型参数，并重复将第二训练样本集输入至初始识别模型中，以根据初始识别模型输出的结果更新计算损失函数值，从而在计算得到的损失函数值小于预设值时，将调整模型参数后的初始识别模型确定为目标识别模型。

其中，对前述构建的初始识别模型进行说明。可选的，初始识别模型与目标识别模型的模型结构相同，但模型参数存在不同，初始识别模型中所采用的声学特征提取模型、声学编码器以及文本编码器均为预先训练好的，也即在初始识别模型的参数调整过程中，初始识别模型中的声学特征提取模型、声学编码器以及文本编码器参数保持不变，而画像特征提取层、第一全连接层和第二全连接层的参数不断优化。

需要说明的是，通过基于多个历史目标数据构建第二训练样本集，并对初始识别模型进行训练以得到目标识别模型，使得目标识别模型在对目标数据进行处理时，能够得到准确的概率分布结果。

在一种可选的实施例中，在根据概率分布结果识别目标对象的通话情绪类型的过程中，情绪识别系统可以确定概率分布结果中的最大概率值，并确定最大概率值匹配的情绪类型，然后将最大概率值匹配的情绪类型确定为通话情绪类型。

例如，在多个情绪类型仅包括快乐、愤怒、悲伤，且概率分布结果为：目标对象的通话情绪类型属于快乐的概率为20%，当前通话属于愤怒的概率为10%，当前通话属于悲伤的概率为70%的情况下，可以确定悲伤为通话情绪类型。

需要说明的是，通过将概率分布结果中的最大概率值对应的情绪类型确定为通话情绪类型，实现了对通话情绪类型的准确判定。

可选的，对本申请在医疗场景下的一种应用进行示例性说明。例如，患者李先生术后出院三年，正在与交互设备进行第三次进行术后随访，患者李先生的对话文本为：“你说的太快了，我根本听不明白”，语音信号为对话文本对应的语音音频，目标对象的对象信息如表1所示：

表1

患者	随访1	随访2	随访3	用药	血压
						李先生	0/10	3/10	7/10	规律	偏高

其中，上述的表1记录了对象信息中的历史随访流程完成度、用药规律和血压指标，表1中的第二列表示患者在第一次随访的流程完成度为0/10，表1中的第三列表示患者在第二次随访的流程完成度为3/10，表1中的第四列表示患者在第三次随访的流程完成度为7/10，表1中的第五列表示患者用药规律，表1中的第六列表示患者血压偏高。

进一步地，情绪识别系统可以从数据库中获取患者在前述的3次随访中的情绪类型，也即获取历史通话情绪信息，从而将历史通话情绪信息、表1中的对象信息、患者的对话文本和语音信号输入到目标识别模型中，进而可以识别出患者的通话情绪类型为情绪异常。

更进一步地，情绪识别系统可以将该通话情绪类型反馈给交互设备，以使得交互设备可以根据该通话情绪类型给出针对性的话术，执行相应的流程，从而提高用户的交互体验。

实施例2

根据本发明实施例，提供了一种情绪识别装置的实施例，其中，图6是根据本发明实施例的一种可选的情绪识别装置的示意图，如图6所示，该装置包括：

获取模块601，用于获取处于通话状态的目标对象的目标数据，其中，目标数据至少包括用户画像信息以及目标对象在当前通话过程中的语音信号和对话文本，用户画像信息包括目标对象的对象信息和历史通话情绪信息；

处理模块602，用于将目标数据输入至目标识别模型中，通过目标识别模型得到概率分布结果，其中，概率分布结果表征目标对象的通话情绪类型在多个情绪类型中的概率分布；

识别模块603，用于根据概率分布结果识别目标对象的通话情绪类型。

需要说明的是，上述获取模块601、处理模块602以及识别模块603对应于上述实施例中的步骤S101至步骤S103，三个模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。

可选的，目标识别模型至少由声学特征提取模型、声学编码器、文本编码器以及画像特征提取层构成，其中，处理模块602还包括：第一特征提取子模块，用于通过声学特征提取模型对语音信号进行特征提取处理，得到声学特征，并通过声学编码器对声学特征进行向量化处理，得到声学特征向量；第二特征提取子模块，用于通过文本编码器对对话文本进行特征提取处理，得到文本特征向量；第三特征提取子模块，用于通过画像特征提取层对对象信息和历史通话情绪信息进行特征提取处理，得到用户画像特征向量；确定子模块，用于根据声学特征向量、文本特征向量以及用户画像特征向量确定概率分布结果。

可选的，目标识别模型包括第一全连接层和第二全连接层，其中，确定子模块还包括：第一计算单元，用于对声学特征向量和文本特征向量进行相似度计算，得到相似度分数；第二计算单元，用于对相似度分数与用户画像特征向量进行点乘计算，得到注意力加权向量；第一特征整合单元，用于通过第一全连接层对声学特征向量进行特征整合处理，得到处理后的声学特征向量；第一拼接单元，用于拼接处理后的声学特征向量和注意力加权向量，得到拼接向量；第二特征整合单元，用于通过第二全连接层对拼接向量进行特征整合处理，得到目标对象的情绪在多个情绪类型中的概率分布结果，其中，第一全连接层与第二全连接层的参数不同。

可选的，第一特征提取子模块还包括：第一特征提取单元，用于对语音信号进行特征提取，得到第一特征图；第二特征提取单元，用于提取语音信号中的梅尔声谱，得到目标梅尔声谱，并对目标梅尔声谱进行特征图转换处理，得到第二特征图；第二拼接单元，用于拼接第一特征图和第二特征图，得到声学特征。

可选的，情绪识别装置还包括：样本获取模块，用于获取多个样本文本，并识别多个样本文本中的目标词语，其中，目标词语为能够表达情绪的词语；构建模块，用于对样本文本中的目标词语进行掩盖，得到掩盖后的多个样本文本，并根据掩盖后的多个样本文本构建第一训练样本集；确定模块，用于将第一训练样本集确定为文本编码器的训练数据。

实施例3

根据本发明实施例的另一方面，还提供了计算机可读存储介质，计算机可读存储介质中存储有计算机程序，其中，计算机程序被设置为运行时执行上述的情绪识别方法。

实施例4

根据本发明实施例的另一方面，还提供了一种电子设备，其中，图7是根据本发明实施例的一种可选的电子设备的示意图，如图7所示，电子设备包括一个或多个处理器；存储器，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现用于运行程序，其中，程序被设置为运行时执行上述的情绪识别方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可为个人计算机、服务器或者网络设备等）执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种情绪识别方法，其特征在于，包括：

获取处于通话状态的目标对象的目标数据，其中，所述目标数据至少包括用户画像信息以及所述目标对象在当前通话过程中的语音信号和对话文本，所述用户画像信息包括所述目标对象的对象信息和历史通话情绪信息，所述对象信息包括以下至少之一：表征目标对象的历史通话的配合程度的信息，表征目标对象的历史通话的完成程度的信息，表征目标对象对通话内容所匹配的操作事项的操作结果的信息，表征目标对象的目标身体指标的信息；

将所述目标数据输入至目标识别模型中，通过所述目标识别模型得到概率分布结果，其中，所述概率分布结果表征所述目标对象的通话情绪类型在多个情绪类型中的概率分布；

根据所述概率分布结果识别所述目标对象的通话情绪类型。

2.根据权利要求1所述的方法，其特征在于，所述目标识别模型至少由声学特征提取模型、声学编码器、文本编码器以及画像特征提取层构成，其中，通过所述目标识别模型得到概率分布结果，包括：

通过所述声学特征提取模型对所述语音信号进行特征提取处理，得到声学特征，并通过所述声学编码器对所述声学特征进行向量化处理，得到声学特征向量；

通过所述文本编码器对所述对话文本进行特征提取处理，得到文本特征向量；

通过所述画像特征提取层对所述对象信息和所述历史通话情绪信息进行特征提取处理，得到用户画像特征向量；

根据所述声学特征向量、所述文本特征向量以及所述用户画像特征向量确定所述概率分布结果。

3.根据权利要求2所述的方法，其特征在于，所述目标识别模型包括第一全连接层和第二全连接层，其中，根据所述声学特征向量、所述文本特征向量以及所述用户画像特征向量确定所述概率分布结果，包括：

对所述声学特征向量和所述文本特征向量进行相似度计算，得到相似度分数；

对所述相似度分数与所述用户画像特征向量进行点乘计算，得到注意力加权向量；

通过第一全连接层对所述声学特征向量进行特征整合处理，得到处理后的声学特征向量；

拼接所述处理后的声学特征向量和所述注意力加权向量，得到拼接向量；

通过第二全连接层对所述拼接向量进行特征整合处理，得到所述目标对象的情绪在多个情绪类型中的概率分布结果，其中，所述第一全连接层与所述第二全连接层的参数不同。

4.根据权利要求2所述的方法，其特征在于，通过所述声学特征提取模型对所述语音信号进行特征提取处理，得到声学特征，包括：

对所述语音信号进行特征提取，得到第一特征图；

提取所述语音信号中的梅尔声谱，得到目标梅尔声谱，并对所述目标梅尔声谱进行特征图转换处理，得到第二特征图；

拼接所述第一特征图和所述第二特征图，得到所述声学特征。

5.根据权利要求2所述的方法，其特征在于，所述文本编码器的训练数据通过以下方法生成：

获取多个样本文本，并识别所述多个样本文本中的目标词语，其中，所述目标词语为能够表达情绪的词语；

对所述样本文本中的目标词语进行掩盖，得到掩盖后的多个样本文本，并根据所述掩盖后的多个样本文本构建第一训练样本集；

将所述第一训练样本集确定为所述文本编码器的训练数据。

6.一种情绪识别装置，其特征在于，包括：

获取模块，用于获取处于通话状态的目标对象的目标数据，其中，所述目标数据至少包括用户画像信息以及所述目标对象在当前通话过程中的语音信号和对话文本，所述用户画像信息包括所述目标对象的对象信息和历史通话情绪信息，所述对象信息包括以下至少之一：表征目标对象的历史通话的配合程度的信息，表征目标对象的历史通话的完成程度的信息，表征目标对象对通话内容所匹配的操作事项的操作结果的信息，表征目标对象的目标身体指标的信息；

处理模块，用于将所述目标数据输入至目标识别模型中，通过所述目标识别模型得到概率分布结果，其中，所述概率分布结果表征所述目标对象的通话情绪类型在多个情绪类型中的概率分布；

识别模块，用于根据所述概率分布结果识别所述目标对象的通话情绪类型。

7.根据权利要求6所述的装置，其特征在于，所述目标识别模型至少由声学特征提取模型、声学编码器、文本编码器以及画像特征提取层构成，其中，处理模块还包括：

第一特征提取子模块，用于通过所述声学特征提取模型对所述语音信号进行特征提取处理，得到声学特征，并通过所述声学编码器对所述声学特征进行向量化处理，得到声学特征向量；

第二特征提取子模块，用于通过所述文本编码器对所述对话文本进行特征提取处理，得到文本特征向量；

第三特征提取子模块，用于通过所述画像特征提取层对所述对象信息和所述历史通话情绪信息进行特征提取处理，得到用户画像特征向量；

确定子模块，用于根据所述声学特征向量、所述文本特征向量以及所述用户画像特征向量确定所述概率分布结果。

8.根据权利要求7所述的装置，其特征在于，所述目标识别模型包括第一全连接层和第二全连接层，其中，确定子模块还包括：

第一计算单元，用于对所述声学特征向量和所述文本特征向量进行相似度计算，得到相似度分数；

第二计算单元，用于对所述相似度分数与所述用户画像特征向量进行点乘计算，得到注意力加权向量；

第一特征整合单元，用于通过第一全连接层对所述声学特征向量进行特征整合处理，得到处理后的声学特征向量；

第一拼接单元，用于拼接所述处理后的声学特征向量和所述注意力加权向量，得到拼接向量；

第二特征整合单元，用于通过第二全连接层对所述拼接向量进行特征整合处理，得到所述目标对象的情绪在多个情绪类型中的概率分布结果，其中，所述第一全连接层与所述第二全连接层的参数不同。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至5任一项中所述的情绪识别方法。

10.一种电子设备，其特征在于，所述电子设备包括一个或多个处理器；存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现用于运行程序，其中，所述程序被设置为运行时执行所述权利要求1至5任一项中所述的情绪识别方法。