CN111028827A

CN111028827A - 基于情绪识别的交互处理方法、装置、设备和存储介质

Info

Publication number: CN111028827A
Application number: CN201911257148.2A
Authority: CN
Inventors: 肖琴
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2020-04-17
Anticipated expiration: 2039-12-10
Also published as: CN111028827B

Abstract

本申请涉及一种基于情绪识别的交互处理方法、装置、设备和存储介质。所述方法包括：获取用户终端输入的语音信息；通过语音识别模型对所述语音信息进行语音识别，识别所述语音信息的语音环境特征；提取所述语音信息对应的文本信息，对所述文本信息进行上下文分析，得到所述文本信息的语义环境特征；根据所述语音环境特征和所述语义环境特征确定所述语音信息对应的情绪类别；根据所述情绪类别匹配对应的应答信息，将所述应答信息发送至所述用户终端。采用本方法能够有效提高语音情绪识别的准确率，并有效提高交互效率。

Description

基于情绪识别的交互处理方法、装置、设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种基于情绪识别的交互处理方法、装置、计算机设备和存储介质。

背景技术

随着人工智能技术的发展，出现了一些智能语音机器人，例如一些外呼机器人、聊天机器人、智能客服以及智能助手等，过语音识别、语义理解以及对话管理等人工智能技术，理解用户意图和提问，通过自然流畅的人机交互提供自主在线问答、咨询、指令执行等服务。

然而，在实际的语音交互环境中可能存在大量噪音或口音等情形，难以准确地识别交互环境和用户情绪状态，应答信息匹配的准确性较低，导致交互效率较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够有效提高情绪识别准确率以提高交互效率的基于情绪识别的交互处理方法、装置、计算机设备和存储介质。

一种基于情绪识别的交互处理方法，所述方法包括：

获取用户终端输入的语音信息；

通过语音识别模型对所述语音信息进行语音识别，识别所述语音信息的语音环境特征；

提取所述语音信息对应的文本信息，对所述文本信息进行上下文分析，得到所述文本信息的语义环境特征；

根据所述语音环境特征和所述语义环境特征确定所述语音信息对应的情绪类别；

根据所述情绪类别匹配对应的应答信息，将所述应答信息发送至所述用户终端。

在其中一个实施例中，所述通过语音识别模型对所述语音信息进行语音识别，识别所述语音信息的语音环境特征包括：将所述语音信息输入至所述语音识别模型，通过所述语音识别模型提取所述语音信息对应的声学特征和频谱特征；根据所述声学特征和频谱特征识别所述语音信息的背景噪音信号和主语音信号；提取所述背景噪音信号，对所述背景噪音信号进行分类，得到对应的背景噪音类别，利用所述背景噪音类别生成所述语音信息的语音环境特征。

在其中一个实施例中，所述通过语音识别模型对所述语音信息进行语音识别，识别所述语音信息的语音环境特征包括：根据所述声学特征和所述频谱特征识别所述主语音信号的语调特征；根据所述语调特征识别所述语音信息对应的语气特征类别；利用所述背景噪音类别和所述语气特征类别确定所述语音信息的语音环境特征。

在其中一个实施例中，所述对所述文本信息进行上下文分析，得到所述文本信息的语义环境特征包括：获取当前会话对应的会话信息；根据所述会话信息对所述语音信息对应的文本信息进行上下文分析，得到所述文本信息的文本语义和实体信息；根据所述文本语义和实体信息确定文本信息对应的用户意图，根据所述用户意图确定所述语音信息的业务类型；根据所述文本语义、所述用户意图和所述业务类型确定所述语音信息对应的语义环境特征。

在其中一个实施例中，所述语音环境特征包括背景噪音类别和语气特征类别，所述根据所述语音环境特征和所述语义环境特征确定所述语音信息对应的情绪类别包括：根据所述背景噪音类别确定所述语音信息的环境情绪特征；根据所述语气特征类别和所述语义环境特征确定所述语音信息的语义情绪特征；根据所述环境情绪特征和所述语义情绪特征对所述语音信息进行情绪分类，得到对应的情绪类别，并对所述语音信息添加对应的情绪标签。

在其中一个实施例中，所述语音信息包括对应的用户意图和业务类型，所述根据所述情绪类别匹配对应的应答信息包括：根据所述业务类型确定业务应答数据库；根据所述情绪类别和所述用户意图计算与所述业务应答数据库中多个应答信息的匹配度；获取所述匹配度达到预设阈值的应答信息，将所述应答信息确定为所述语音信息对应的应答信息。

在其中一个实施例中，所述根据所述情绪类别匹配对应的应答信息包括：若所述情绪类别为正常情绪类别时，根据所述语音信息和用户意图和业务类型获取相匹配的业务应答信息，将所述业务应答信息发送至所述用户终端；若所述情绪类别中存在异常情绪标签时，根据所述异常情绪标签获取相匹配的应答术语信息，将所述应答术语信息发送至所述用户终端。

在其中一个实施例中，在获取用户终端输入的语音信息之前，还包括：获取语音样本数据，所述语音样本数据包括标注语音样本数据和未标注语音样本数据，所述标注语音样本数据包括语音环境特征和语义环境特征以及情绪标签；利用所述标注语音样本数据生成训练集，利用所述未标注语音样本数据生成验证集；将所述训练集输入至预先构建的深度学习模型，利用所述标注语音样本数据的语音环境特征和语义环境特征以及对所述深度学习模型进行学习训练，得到初始语音识别模型；将所述验证集输入至所述初始语音识别模型，利用所述验证集中的未标注语音样本数据对所述初始语音识别模型进行验证；直到所述验证集中满足条件阈值的样本数量达到验证阈值时，得到训练完成的语音识别模型。

在其中一个实施例中，所述方法还包括：获取历史语音会话信息，所述历史语音会话信息包括识别出的情绪标签；利用所述包括情绪标签的历史语音会话信息对所述语音识别模型进行调优训练，得到训练结果；根据所述训练结果对所述语音识别模型的模型参数进行调整，得到更新的语音识别模型。

一种基于情绪识别的交互处理装置，所述装置包括：

信息获取模块，用于获取用户终端输入的语音信息；

语音识别模块，用于通过语音识别模型对所述语音信息进行语音识别，识别所述语音信息的语音环境特征；

语义识别模块，用于提取所述语音信息对应的文本信息，对所述文本信息进行上下文分析，得到所述文本信息的语义环境特征；

情绪识别模块，用于根据所述语音环境特征和所述语义环境特征确定所述语音信息对应的情绪类别；

应答处理模块，用于根据所述情绪类别匹配对应的应答信息，将所述应答信息发送至所述用户终端。

在其中一个实施例中，所述语音识别模块还用于将所述语音信息输入至所述语音识别模型，通过所述语音识别模型提取所述语音信息对应的声学特征和频谱特征；根据所述声学特征和频谱特征识别所述语音信息的背景噪音信号和主语音信号；提取所述背景噪音信号，对所述背景噪音信号进行分类，得到对应的背景噪音类别，利用所述背景噪音类别生成所述语音信息的语音环境特征。

在其中一个实施例中，所述所述语音识别模块还用于根据所述声学特征和所述频谱特征识别所述主语音信号的语调特征；根据所述语调特征识别所述语音信息对应的语气特征类别；利用所述背景噪音类别和所述语气特征类别确定所述语音信息的语音环境特征。

在其中一个实施例中，所述语音环境特征包括背景噪音类别和语气特征类别，所述情绪识别模块还用于根据所述背景噪音类别确定所述语音信息的环境情绪特征；根据所述语气特征类别和所述语义环境特征确定所述语音信息的语义情绪特征；根据所述环境情绪特征和所述语义情绪特征对所述语音信息进行情绪分类，得到对应的情绪类别，并对所述语音信息添加对应的情绪标签。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现本申请任意一个实施例中提供的基于情绪识别的交互处理方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本申请任意一个实施例中提供的基于情绪识别的交互处理方法的步骤。

上述基于情绪识别的交互处理方法、装置、计算机设备和存储介质，获取用户终端输入的语音信息后，通过语音识别模型对语音信息进行语音识别，能够准确地识别出语音信息的语音环境特征。同时提取语音信息对应的文本信息，对文本信息进行上下文分析，从而能够准确有效地得到文本信息的语义环境特征。根据语音环境特征和语义环境特征确定语音信息对应的情绪类别，由此能够准确识别出用户的当前情绪状态，进而根据情绪类别匹配对应的应答信息，从而可以将符合用户当前情绪状态的应答信息发送至用户终端。通过语音识别模型能够准确有效地识别出用户的当前情绪状态，由此能够有效获取与用户情绪状态相符的应答信息，有效提高了用户语音情绪的识别准确率，并有效提高了人机交互处理效率。

附图说明

图1为一个实施例中基于情绪识别的交互处理方法的应用场景图；

图2为一个实施例中基于情绪识别的交互处理方法的流程示意图；

图3为一个实施例中识别语音环境特征步骤的流程示意图；

图4为另一个实施例中识别语音环境特征步骤的流程示意图；

图5为一个实施例中识别语音信息的情绪类别步骤的流程示意图；

图6为一个实施例中基于情绪识别的交互处理装置的结构框图；

图7为另一个实施例中基于情绪识别的交互处理装置的结构框图；

图8为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的基于情绪识别的交互处理方法，可以应用于如图1所示的应用环境中。其中，用户终端102通过网络与服务器104进行通信。服务器104获取用户终端102输入的语音信息后，通过语音识别模型对语音信息进行语音识别，识别出语音信息的语音环境特征。同时提取语音信息对应的文本信息，对文本信息进行上下文分析，得到文本信息的语义环境特征。服务器104根据语音环境特征和语义环境特征确定语音信息对应的情绪类别，服务器104进而根据情绪类别匹配对应的应答信息，从而可以将符合用户当前情绪状态的应答信息发送至用户终端102。其中，用户终端102可以但不限于是各种智能机器人、个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种基于情绪识别的交互处理方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤202，获取用户终端输入的语音信息。

用户可以通过用户终端中部署的智能交互应用与服务器进行人机交互，例如常见的智能咨询交互系统以及智能呼叫机器人系统等。其中，智能呼叫机器人可以针对企业的业务进行外呼，还可以根据用户的呼入请求进行相应业务的交互处理，以实现相关业务场景的自动化和智能化信息交互。例如，可以应用于智能客服或售后服务平台等电话场景中。

其中，用户可以通过用户终端部署的交互应用进行语音交互，用户终端输入语音信息并发送至服务器对应的智能交互系统，服务器进而对接收的语音信息进行进一步处理，并获取相应的应答信息以进行交互。服务器返回的应答信息也可以为语音形式的应答信息，应答信息中还可以包括文本信息等其他形式的信息内容。

步骤204，通过语音识别模型对语音信息进行语音识别，识别语音信息的语音环境特征。

其中，语音识别模型为预先利用大量语音样本数据进行训练得到的。例如，语音识别模型可以由深度学习模型等基于神经网络模型进行训练所得到的。

服务器接收到终端发送的语音信息后，将语信息输入至已训练的语音识别模型中，通过语音识别模型对语音信息进行语音识别，识别语音信息的语音环境特征和语音信息对应的文本信息。

具体地，服务器获取语音信息后，获取语音信息对应的带噪语音信号，服务器可以对带噪语音信号进行噪声抑制等预处理，提取出带噪语音信号对应的语音信号特征。例如，语音信号特征可以为频谱特征等语音特征。

服务器进而根据带噪语音信号的语音信号特征识别语音信息的背景噪音和主语音信号，服务器通过语音识别模型对背景噪音进行分类，得到背景噪音类别。服务器还可以利用语音识别模型识别主语音信号的语调特征，并根据语调特征识别语音信息对应的语调特征类别。服务器则利用识别出的背景噪音类别和语调特征类别生成语音信息的语义环境特征。

例如，用户通过用户终端在进行语音交互的过程中，可能会存在一些汽车声、嘈杂声以及信号卡顿等各种背景噪声，服务器则可以通过语音识别模型识别出语音信息出的背景噪音类别。服务器还可以通过语音识别模型根据用户的语音信息的语调特征识别出对应的语气特征类别，例如当用户的语音信息存在语调变高等情况时，则可以识别出“急躁”、“生气”等语气特征类别。

步骤206，提取语音信息对应的文本信息，对文本信息进行上下文分析，得到文本信息对应的语义环境特征。

服务器还可以对主语音信号进行特征提取，服务器进而将提取出的语音信号特征转换为对应的字符序列，根据字符序列识别得到对应的文本信息，从而能够有效提取出语音信息中的文字内容。

服务器通过语音识别模型识别出语音信息对应的文本信息后，进一步对文本信息进行上下文分析，根据当前语音信息的上下文会话信息识别得到当前文本信息的语义环境特征。

例如，用户终端与服务器进行交互的过程中会产生多轮会话对应的会话信息，服务器在分析每一轮会话信息时，都可以获取当前回话中的历史会话信息，并结合历史会话信息对当前的文本信息进行上下文语义分析处理，从而得到较为准确的文本信息对应的语义环境特征。

步骤208，根据语音环境特征和语义环境特征确定语音信息对应的情绪类别。

其中，语音信息的语音环境特征包括背景噪音类别和语气特征类别。

服务器识别出语音信息的语音环境特征和语义环境特征后，进一步通过语音识别模型对语音环境特征和语义环境特征进行情绪识别。具体地，语音识别模型中部署了背景噪音类别和语气特征类别以及语义环境特征的权重参数。服务器则根据语音环境特征中的背景噪音类别和语气特征类别以及语义环境特征计算语音信息对应的的情绪类别，得到对应多个情绪类别的类别概率值，将类别概率值满足条件阈值的情绪类别确定为用户当前的情绪类别。例如，可以类别概率值最大的情绪类别确定为用户当前的情绪类别。

步骤210，根据情绪类别匹配对应的应答信息，将应答信息发送至用户终端。

服务器通过语音识别模型识别出语音信息的情绪类别后，则根据情绪类别在数据库中匹配相应的应答信息。具体地，服务器还可以预先配置情绪类别映射表，情绪类别映射表中存储了各个情绪类别与预设应答信息或业务应答信息之间的关联关系。服务器可以通过计算情绪类别与多个情绪类别映射表中多个应答术语信息的匹配度，获取匹配度最高的应答术语信息作为当前语音信息的应答信息，并将应答信息发送至用户终端。服务器则持续对用户终端发送的语音信息进行语音情绪识别，并获取相应匹配的应答信息以进行语音交互处理。由此能够有效根据用户情绪进行相应的应答处理，有效提高了交互处理效率。

例如，当用户在通话过程中处于噪音大或者信号差的环境时，服务器可以识别出用户当前语音信息对应的情绪类别为环境嘈杂，服务器则可以识别出环境嘈杂的异常情绪标签，服务器则根据当前的环境情绪做出相应的应答信息。如当用户在电梯中手机信号差的环境中，服务器识别到用户声音卡顿或者无声音的状态时，及时触发对应的回复：“请问您那边是否信号不好呢？/不好意思，我这边听您的声音比较模糊，请问您现在方便接听电话吗？”等应答信息。

在其中一个实施例中，服务器利用语音识别模型识别出语音信息对应的情绪类别后，还可以识别语音信息的文本信息对应的用户意图和业务类型。若当前语音信息的情绪类别为正常情绪类别时，服务器则根据用户意图和业务类型获取相应的业务应答信息，并将业务应答信息发送至用户终端。若当前语音信息的情绪类别存在异常情绪类别时，服务器则在数据库中匹配预设的应答术语信息，获取匹配度最高的应答术语信息并发送至用户终端。

上述基于情绪识别的交互处理方法中，服务器获取用户终端输入的语音信息后，通过语音识别模型对语音信息进行语音识别，能够准确地识别出语音信息的语音环境特征。同时提取语音信息对应的文本信息，对文本信息进行上下文分析，从而能够准确有效地得到文本信息的语义环境特征。服务器根据语音环境特征和语义环境特征确定语音信息对应的情绪类别，由此能够准确识别出用户的当前情绪状态，服务器进而根据情绪类别匹配对应的应答信息，从而可以将符合用户当前情绪状态的应答信息发送至用户终端。通过语音识别模型能够准确有效地识别出用户的当前情绪状态，由此能够有效获取与用户情绪状态相符的应答信息，有效提高了用户语音情绪的识别准确率，并有效提高了人机交互处理效率。

在一个实施例中，如图3所示，通过语音识别模型对语音信息进行语音识别，识别语音信息的语音环境特征的步骤，具体包括以下内容：

步骤302，将语音信息输入至语音识别模型，通过语音识别模型提取语音信息对应的声学特征和频谱特征。

步骤304，根据声学特征和频谱特征识别语音信息的背景噪音信号和主语音信号。

步骤306，提取背景噪音信号，对背景噪音信号进行分类，得到对应的背景噪音类别，利用背景噪音类别生成语音信息的语音环境特征。

其中，用户终端输入的语音信息可以为带噪语音信号。其中，声学特征可以包括带噪语音信号的清音、浊音，元音、辅音等特征信息。频谱特征可以包括带噪语音信号的振动频率、震动幅度以及带噪语音信号的响度、音色等特征信息。

服务器获取用户终端输入的语音信息后，将语音信息输入至已训练的语音识别模型中，利用语音识别模型对语音信息进行语音识别和情绪识别。具体地，服务器将语音信息对应的带噪语音信号输入至语音识别模型中，通过语音识别模型对带噪语音信号进行预处理，例如可以对带噪语音信号进行加窗分帧、以及快速傅里叶转换等预处理，由此可以得到带噪语音信号的频谱。服务器则提取出带噪语音信号对应的声学特征和频谱特征。例如可以通过梅尔倒谱系数(Mel-Frequency Cepstral Coefficients,MFCCs)进行频谱特征提取，得到相应的特征信息。

服务器进一步利用语音识别模型对根据声学特征和频谱特征对带噪语音信号进行端点检测和语音特征提取，具体地，服务器通过语音识别模型根据根据声学特征和频谱特征识别出带噪语音信号的背景噪音信号和主语音信号。具体地，服务器还可以将声学特征转换为对应的声学特征向量，将频谱特征转换为对应的频谱特征向量，并对声学特征向量和频谱特征向量添加语音标签和非语音标签，从而提取出语音标签对应的语音信号，将添加语音标签的语音信号确定为主语音信号。并将非语音标签对应的语音信号确定为背景噪音信号。

服务器识别出语音信息中的背景噪音信号后，则利用语音识别模型对背景噪音信号进行分类，从而能够准确地识别出语音信息中的背景噪音类别，进而利用背景噪音类别生成语音信息的语音环境特征。由此能够准确地识别出语音信息的语音环境特征。

在一个实施例中，如图4所示，通过语音识别模型对语音信息进行语音识别，识别语音信息的语音环境特征的步骤，具体包括以下内容：

步骤402，根据声学特征和频谱特征识别主语音信号的语调特征。

步骤404，根据语调特征识别语音信息对应的语气特征类别。

步骤406，利用背景噪音类别和语气特征类别确定语音信息的语音环境特征。

其中，语调指一句话里声调高低抑扬轻重的配制和变化。语调可以用于反应用户在交互过程中的语气状态。

服务器获取用户终端输入的语音信息后，将语音信息输入至已训练的语音识别模型中，服务器通过语音识别模型根据声学特征和频谱特征识别出带噪语音信号的背景噪音信号和主语音信号后，对背景噪音信号进行分类，从而能够准确地识别出语音信息中的背景噪音类别。

服务器进一步利用语音识别模型根据声学特征和频谱特征识别主语音信号的语调特征，例如，语调特征可以包括停顿、语句重音、升调以及降调等多种语调特征。服务器进而根据语调特征识别语音信息对应的语气特征类别，并利用背景噪音类别和语气特征类别确定语音信息的语音环境特征。由此，语音环境特征即包括了背景噪音类别和语气特征类别。通过语音识别模型能够准确有效地识别出语音信息中的语音环境特征。

在一个实施例中，对文本信息进行上下文分析，得到文本信息的语义环境特征包括：获取当前会话对应的会话信息；根据会话信息对语音信息对应的文本信息进行上下文分析，得到文本信息的文本语义和实体信息；根据文本语义和实体信息确定文本信息对应的用户意图，根据用户意图确定语音信息的业务类型；根据文本语义、用户意图和业务类型确定语音信息对应的语义环境特征。

服务器获取用户终端输入的语音信息后，通过语音识别模型对语音信息进行语音识别，识别语音信息的语音环境特征，能够准确地识别出语音信息的语音环境特征。同时提取语音信息对应的文本信息，对文本信息进行上下文分析，从而能够准确有效地得到文本信息的语义环境特征。

具体地，服务器通过语音识别模型提取出语音信息对应的文本信息后，还可以获取当前会话中的多轮历史会话信息，对当前语音信息的文本信息进行分词和特征提取，提取出多个文本词对应的文本词向量。服务器进而结合历史的会话信息对当前语音信息的文本信息进行上下文分析，根据历史会话信息的语义环境特征得到当前文本信息的文本语义。服务器计算当前文本信息的多个文本词向量的实体特征，根据实体特征提取请求信息中的实体关键词，将实体关键词和对应的实体特征类别确定为请求信息的实体信息。服务器进而根据文本语义和实体信息确定文本信息对应的用户意图，并根据用户意图确定语音信息的业务类型。

服务器识别出当前语音信息的文本语义、用户意图以及业务类型后，进而根据文本语义、用户意图和业务类型确定语音信息对应的语义环境特征，由此能够准确地识别出当前语音信息的语义环境特征。由此使得服务器根据语音环境特征和语义环境特征能够进一步准确地识别出语音信息对应的情绪类别，有效提高了语音信息的情绪识别准确度。

在一个实施例中，如图5所示，语音环境特征包括背景噪音类别和语气特征类别，根据语音环境特征和语义环境特征确定语音信息对应的情绪类别的步骤，具体包括以下内容：

步骤502，根据背景噪音类别确定语音信息的环境情绪特征。

步骤504，根据语气特征类别和语义环境特征确定语音信息的语义情绪特征。

步骤506，根据环境情绪特征和语义情绪特征对语音信息进行情绪分类，得到对应的情绪类别，并对语音信息添加对应的情绪标签。

其中，语音识别模型中还包括了语音情绪识别模型。

服务器获取用户终端输入的语音信息后，将语音信息输入至已训练的语音识别模型中，服务器通过语音识别模型根据根据声学特征和频谱特征识别出带噪语音信号的背景噪音信号和主语音信号。对背景噪音信号进行分类，得到对应的背景噪音类别。服务器并根据声学特征和频谱特征识别主语音信号的语调特征，根据语调特征识别语音信息对应的语气特征类别，利用背景噪音类别和语气特征类别确定语音信息的语音环境特征，从而能够准确地识别出语音信息的语音环境特征。由此得到的语音环境特征中包括了背景噪音类别和语气特征类别。

服务器提取语音信息对应的文本信息，并对文本信息进行上下文分析识别出对应的语义环境特征后，服务器进一步根据语音环境特征和语义环境特征确定语音信息对应的情绪类别。

具体地，语音识别模型中可以预先部署了背景噪音类别和语气特征类别以及语义环境特征等特征指标分别对应的权重。服务器则可以利用语音识别模型根据背景噪音类别确定语音信息的环境情绪特征，根据语气特征类别和语义环境特征确定语音信息的语义情绪特征。进而根据环境情绪特征和语义情绪特征对语音信息分别对应的权重计算进行情绪分类，计算语音信息对应多个情绪类别的概率值。服务器进而提取出概率满足条件阈值的情绪类别，并将提取情绪类别确定为当前语音信息对应的情绪类别。其中，语音信息对应的情绪类别可以为一种，也可以包括多种。

服务器利用语音识别模型识别出语音信息对应的情绪类别后，并对语音信息添加对应的情绪标签，以进一步根据情绪类别进行信息交互处理。通过根据语音环境特征和语义环境特征确定语音信息对应的情绪类别，由此能够准确识别出用户的当前情绪状态。

在一个实施例中，语音信息包括对应的用户意图和业务类型，根据情绪类别匹配对应的应答信息包括：根据业务类型确定业务应答数据库；根据情绪类别和用户意图计算与业务应答数据库中多个应答信息的匹配度；获取匹配度达到预设阈值的应答信息，将应答信息确定为语音信息对应的应答信息。

服务器获取用户终端输入的语音信息后，通过语音识别模型对语音信息进行语音识别，能够准确地识别出语音信息的语音环境特征。同时提取语音信息对应的文本信息，对文本信息进行上下文分析，根据文本信息的上下文计算出用户意图以及对于的业务类型，并计算出文本信息对应的语义环境特征。服务器根据语音环境特征和语义环境特征确定语音信息对应的情绪类别，由此能够准确识别出用户的当前情绪状态，服务器进而根据情绪类别匹配对应的应答信息。

具体地，每种业务类型可以对应相应的业务应答数据库，业务应答数据库也可以为业务类型对应的业务系统数据库。服务器识别出当前语音信息对应的用户意图、业务类型以及情绪类别后，可以首先根据业务类型确定相应的业务应答数据库。

其中，业务类型和业务应答数据库还可以是在会话开始时就已经确定。例如，当语音会话由服务器发起时，服务器向用户终端发起会话信息，会话信息中则可以携带相应的业务类型，在后续多轮会话交互中，则可以直接确定语音信息的业务类型。

服务器根据业务类型确定业务应答数据库，进而根据情绪类别和用户意图计算与业务应答数据库中多个应答信息的匹配度，获取匹配度达到预设阈值的应答信息，将应答信息确定为语音信息对应的应答信息。例如服务器将业务应答数据库中匹配度最高的应答信息确定为语音信息对应的应答信息。由此能够准确有效地获取与用户情绪状态相符的应答信息，有效提高了用户语音情绪的识别准确率，并有效提高了人机交互处理效率。

在一个实施例中，根据情绪类别匹配对应的应答信息的步骤包括：若情绪类别为正常情绪类别时，根据语音信息和用户意图和业务类型获取相匹配的业务应答信息，将业务应答信息发送至用户终端；若情绪类别中存在异常情绪标签时，根据异常情绪标签获取相匹配的应答术语信息，将应答术语信息发送至用户终端。

其中，情绪类别可以包括正常状态的情绪类别和异常状态的情绪类别，情绪类别对应的情绪类别结果中可以包括一个或多个情绪标签。例如，情绪标签可以包括正常状态和异常状态的情绪标签。异常状态的情绪类别中可能包括一个或多个异常情绪标签。

服务器获取用户终端输入的语音信息后，通过语音识别模型对语音信息进行语音识别，能够准确地识别出语音信息的语音环境特征。同时提取语音信息对应的文本信息，对文本信息进行上下文分析，根据文本信息的上下文计算出用户意图以及对于的业务类型，并计算出文本信息对应的语义环境特征。服务器根据语音环境特征和语义环境特征确定语音信息对应的情绪类别，由此能够准确识别出用户的当前情绪状态。服务器识别出当前语音信息对应的用户意图、业务类型以及情绪类别后，进而根据用户意图、业务类型以及情绪类别匹配对应的应答信息。

具体地，若识别出的情绪类别为正常情绪类别时，根据业务类型确定业务应答数据库，服务器则根据语音信息和用户意图从业务应答数据库获取相应的业务应答信息。具体地，服务器根据用户意图计算与多个业务应答信息的匹配度，获取匹配度最高的业务应答信息，并将业务应答信息发送至用户终端。

若识别出的情绪类别中存在异常情绪标签时，表示用户此时存在异常的情绪状态。服务器则根据异常情绪标签匹配预设的应答术语信息，获取匹配度最高的应答术语信息，并将应答术语信息发送至用户终端。其中，应答术语信息可以是预先配置的多种异常情绪标签对应的应答术语。

例如，当用户处在嘈杂等环境下进行语音交互时，容易引起用户反感等情绪，或者用户处于“开车”、“信号差”、“医院”、“开会”等嘈杂不方便接听电话环境时，当服务器识别到用户的当前的环境情绪和语义情绪后，可以根据不同情况做出不同的应答回复。例如，服务器识别到用户处于“急躁”、“不方便”等特定情绪中，服务器及时给出安慰话术或者预约再次联系时间并挂断。如：“x先生/女士，请问您现在方便通话吗？/您看我这边换个时间晚点联系您可以吗”等。再如：“不好意思，xx先生，我这边听不太清的说的话，请问您可以听得到我说的话吗？”或者“xx先生，可能由于信号不是很好，我暂时听不清楚您的声音，您看是否方便走动一下到空旷一点的地方或信号好一点的地方呢？”，或者识别到用户在电梯中的环境时，可以回复“您看我是我是等您一两分钟还是稍后给您来电呢？若接收到用户终端反馈的会话信息为“好的”或者“可能是线路问题或者是我们这边信号不好”。服务器的应答信息可以为：“噢，那可能是线路问题，我这边听不太清您的声音，您看我这边挂断马上给您重新致电过来您看可以吗？”等。在人机交互过程中，通过识别用户的环境情绪和语义情绪后，触发不同情绪对应的应答信息。由此能够有效根据用户情绪进行相应的应答处理，有效提高了交互处理效率。

在一个实施例中，在获取用户终端输入的语音信息之前，还包括：获取语音样本数据，语音样本数据包括标注语音样本数据和未标注语音样本数据，标注语音样本数据包括语音环境特征和语义环境特征以及情绪标签；利用标注语音样本数据生成训练集，利用未标注语音样本数据生成验证集；将训练集输入至预先构建的深度学习模型，利用标注语音样本数据的语音环境特征和语义环境特征以及对深度学习模型进行学习训练，得到初始语音识别模型；将验证集输入至初始语音识别模型，利用验证集中的未标注语音样本数据对初始语音识别模型进行验证；直到验证集中满足条件阈值的样本数量达到验证阈值时，得到训练完成的语音识别模型。

其中，语音识别模型可以为基于深度学习的神经网络模型，语音识别模型中可以包括多个网络层，其中还可以包括多个子模型，如可以包括基于情绪识别机制的情绪识别模型。例如可以采用支持向量机、神经网络、决策树、贝叶斯网络、K近邻以及隐马尔科夫等算法的神经网络模型。服务器通过利用大量样本数据对模型进行学习训练，以得到语音识别模型。

服务器在获取用户终端输入的语音信息之前，还需要预先构建和训练出语音识别模型。具体地，服务器可以预先从本地数据库或第三方数据库中获取大量的语音样本数据。其中，语音样本数据包括标注语音样本数据和未标注语音样本数据，标注语音样本数据包括语音环境特征和语义环境特征以及情绪标签。服务器可以利用标注语音样本数据生成训练集，利用未标注语音样本数据生成验证集。

服务器首先对语音样本数据进行数据清洗和数据预处理，具体地，服务器对语音样本数据进行向量化，得到多个语音信息对应的多个声学特征向量和频谱特征向量，以及多个文本数据对应的特征向量，并将特征向量转换为对应的特征变量。服务器进一步对特征变量进行衍生处理，得到处理后的多个特征变量。如对特征变量进行缺失值填充、异常值抽取更替等。

服务器则获取预设的神经网络模型，例如可以是基于自注意力网络和深度学习的机器学习模型。例如，神经网络模型可以包括预设的输入层、输入层、关系分析网络层、图卷积网络层、自注意力网络层、分类层和输出层。神经网络模型的网络层可以包括激活函数以及偏差损失函数，例如通过LSTM层输出的完全连接人工神经网络也包括对应的激活函数。图卷积网络层还可以引入语法快捷方式弧以增强信息流，并调整图形转换网络以捕获信息增强的表示。神经网络模型中还可以包括一层普通的神经网络层，用于输出结果的降维。

服务器获取预设的神经网络模型后，则将训练集中的标注语音样本数据输入至神经网络模型中进行学习和训练，通过学习标注语音样本数据中已标注的语音环境特征和语义环境特征以及情绪标签等。服务器通过对训练集中的大量训标注语音样本数据进行训练后，可以得到得到多个特征变量对应的特征维度值和权重，进而根据多个特征变量对应的特征维度值和权重构建初始语音识别模型。

服务器得到初始语音识别模型后，获取验证集，将验证集中的未标注语音样本数据输入至初始语音识别型进行进一步训练和验证，得到多个验证数据对应的类别概率。直到验证集数据中满足条件阈值的数量达到验证阈值时，则停止训练，进而得到训练完成的语音识别模型。通过对大量的语音样本数据进行训练和学习，进而能够有效构建和训练出语音识别和情绪识别准确度较高的语音识别模型，从而有效提高了语音情绪识别的准确度。

在一个实施例中，该方法还包括：获取历史语音会话信息，历史语音会话信息包括识别出的情绪标签；利用包括情绪标签的历史语音会话信息对语音识别模型进行调优训练，得到训练结果；根据训练结果对语音识别模型的模型参数进行调整，得到更新的语音识别模型。

服务器在利用语音识别模型对语音信息进行语音识别和情绪识别的过程中，还可以根据预设频率获取历史语音会话信息，历史语音会话信息包括了识别出的情绪标签。其中，可以包括利用语音识别模型识别出的语音标签，还可以包括人工审核后添加的情绪标签。服务器则利用包括情绪标签的历史语音会话信息对语音识别模型进行调优训练。

进一步地，服务器在对语音识别模型进行优化训练的过程中，利用包括情绪标签的历史语音会话信息对语音识别模型进行调优训练，得到训练结果；根据训练结果对语音识别模型的模型参数进行调整。服务器还可以根据历史语音会话信息的音环境特征和语义环境特征以及情绪标签计算损失参数和优化参数，根据损失参数和优化参数不断对语音识别模型进行调参优化，例如可以利用梯度下降算法不断对语音识别模型进行更新。由此得到更新的语音识别模型，使得语音识别模型的识别准确性更高。

例如，基于神经网络的语音识别模型的网络层可以包括激活函数以及偏差损失函数，例如通过LSTM层输出的完全连接人工神经网络也包括对应的激活函数。图卷积网络层还可以引入语法快捷方式弧以增强信息流，并调整图形转换网络以捕获信息增强的表示。神经网络模型中还包括确定误差的计算方式，例如可以采用均方误差算法，还包括确定权重参数的迭代更新方式，例如可以采用RMSprop算法。通过根据历史语音会话信息的音环境特征和语义环境特征以及情绪标签计算损失参数，并对语音识别模型进行调参优化。通过按照预设频率根据历史语音会话信息对语音识别模型进行调参优化，能够有效提高语音识别模型的识别准确度，从而有效提高了对语音信息的语音识别和情绪识别的准确度。

应该理解的是，虽然图2-5的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-5中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图6所示，提供了一种基于情绪识别的交互处理装置，包括：信息获取模块602、语音识别模块604、语义识别模块606、情绪识别模块608和应答处理模块610，其中：

信息获取模块602，用于获取用户终端输入的语音信息；

语音识别模块604，用于通过语音识别模型对语音信息进行语音识别，识别语音信息的语音环境特征；

语义识别模块606，用于提取语音信息对应的文本信息，对文本信息进行上下文分析，得到文本信息的语义环境特征；

情绪识别模块608，用于根据语音环境特征和语义环境特征确定语音信息对应的情绪类别；

应答处理模块610，用于根据情绪类别匹配对应的应答信息，将应答信息发送至用户终端。

在一个实施例中，语音识别模块604还用于将语音信息输入至语音识别模型，通过语音识别模型提取语音信息对应的声学特征和频谱特征；根据声学特征和频谱特征识别语音信息的背景噪音信号和主语音信号；提取背景噪音信号，对背景噪音信号进行分类，得到对应的背景噪音类别，利用背景噪音类别生成语音信息的语音环境特征。

在一个实施例中，语音识别模块604还用于根据声学特征和频谱特征识别主语音信号的语调特征；根据语调特征识别语音信息对应的语气特征类别；利用背景噪音类别和语气特征类别确定语音信息的语音环境特征。

在一个实施例中，语义识别模块606还用于获取当前会话对应的会话信息；根据会话信息对语音信息对应的文本信息进行上下文分析，得到文本信息的文本语义和实体信息；根据文本语义和实体信息确定文本信息对应的用户意图，根据用户意图确定语音信息的业务类型；根据文本语义、用户意图和业务类型确定语音信息对应的语义环境特征。

在一个实施例中，语音环境特征包括背景噪音类别和语气特征类别，情绪识别模块508还用于根据背景噪音类别确定语音信息的环境情绪特征；根据语气特征类别和语义环境特征确定语音信息的语义情绪特征；根据环境情绪特征和语义情绪特征对语音信息进行情绪分类，得到对应的情绪类别，并对语音信息添加对应的情绪标签。

在一个实施例中，语音信息包括对应的用户意图和业务类型，应答处理模块610还用于根据业务类型确定业务应答数据库；根据情绪类别和用户意图计算与业务应答数据库中多个应答信息的匹配度；获取匹配度达到预设阈值的应答信息，将应答信息确定为语音信息对应的应答信息。

在一个实施例中，应答处理模块610还用于若情绪类别为正常情绪类别时，根据语音信息和用户意图和业务类型获取相匹配的业务应答信息，将业务应答信息发送至用户终端；若情绪类别中存在异常情绪标签时，根据异常情绪标签获取相匹配的应答术语信息，将应答术语信息发送至用户终端。

在一个实施例中，如图7所示，该装置还包括模型训练模块601，用于获取语音样本数据，语音样本数据包括标注语音样本数据和未标注语音样本数据，标注语音样本数据包括语音环境特征和语义环境特征以及情绪标签；利用标注语音样本数据生成训练集，利用未标注语音样本数据生成验证集；将训练集输入至预先构建的深度学习模型，利用标注语音样本数据的语音环境特征和语义环境特征以及对深度学习模型进行学习训练，得到初始语音识别模型；将验证集输入至初始语音识别模型，利用验证集中的未标注语音样本数据对初始语音识别模型进行验证；直到验证集中满足条件阈值的样本数量达到验证阈值时，得到训练完成的语音识别模型。

在一个实施例中，该装置还包括模型优化模块，用于获取历史语音会话信息，历史语音会话信息包括识别出的情绪标签；利用包括情绪标签的历史语音会话信息对语音识别模型进行调优训练，得到训练结果；根据训练结果对语音识别模型的模型参数进行调整，得到更新的语音识别模型。

关于基于情绪识别的交互处理装置的具体限定可以参见上文中对于基于情绪识别的交互处理方法的限定，在此不再赘述。上述基于情绪识别的交互处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语音信息、应答信息等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现本申请任意一个实施例中提供的基于情绪识别的交互处理方法的步骤。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现本申请任意一个实施例中提供的基于情绪识别的交互处理方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于情绪识别的交互处理方法，所述方法包括：

获取用户终端输入的语音信息；

2.根据权利要求1所述的方法，其特征在于，所述通过语音识别模型对所述语音信息进行语音识别，识别所述语音信息的语音环境特征包括：

将所述语音信息输入至所述语音识别模型，通过所述语音识别模型提取所述语音信息对应的声学特征和频谱特征；

根据所述声学特征和频谱特征识别所述语音信息的背景噪音信号和主语音信号；

提取所述背景噪音信号，对所述背景噪音信号进行分类，得到对应的背景噪音类别，利用所述背景噪音类别生成所述语音信息的语音环境特征。

3.根据权利要求2所述的方法，其特征在于，所述通过语音识别模型对所述语音信息进行语音识别，识别所述语音信息的语音环境特征包括：

根据所述声学特征和所述频谱特征识别所述主语音信号的语调特征；

根据所述语调特征识别所述语音信息对应的语气特征类别；

利用所述背景噪音类别和所述语气特征类别确定所述语音信息的语音环境特征。

4.根据权利要求1所述的方法，其特征在于，所述对所述文本信息进行上下文分析，得到所述文本信息的语义环境特征包括：

获取当前会话对应的会话信息；

根据所述会话信息对所述语音信息对应的文本信息进行上下文分析，得到所述文本信息的文本语义和实体信息；

根据所述文本语义和实体信息确定文本信息对应的用户意图，根据所述用户意图确定所述语音信息的业务类型；

根据所述文本语义、所述用户意图和所述业务类型确定所述语音信息对应的语义环境特征。

5.根据权利要求1所述的方法，其特征在于，所述语音环境特征包括背景噪音类别和语气特征类别，所述根据所述语音环境特征和所述语义环境特征确定所述语音信息对应的情绪类别包括：

根据所述背景噪音类别确定所述语音信息的环境情绪特征；

根据所述语气特征类别和所述语义环境特征确定所述语音信息的语义情绪特征；

根据所述环境情绪特征和所述语义情绪特征对所述语音信息进行情绪分类，得到对应的情绪类别，并对所述语音信息添加对应的情绪标签。

6.根据权利要求1所述的方法，其特征在于，所述语音信息包括对应的用户意图和业务类型，所述根据所述情绪类别匹配对应的应答信息包括：

根据所述业务类型确定业务应答数据库；

根据所述情绪类别和所述用户意图计算与所述业务应答数据库中多个应答信息的匹配度；

获取所述匹配度达到预设阈值的应答信息，将所述应答信息确定为所述语音信息对应的应答信息。

7.根据权利要求6所述的方法，其特征在于，所述根据所述情绪类别匹配对应的应答信息包括：

若所述情绪类别为正常情绪类别时，根据所述语音信息和用户意图和业务类型获取相匹配的业务应答信息，将所述业务应答信息发送至所述用户终端；

若所述情绪类别中存在异常情绪标签时，根据所述异常情绪标签获取相匹配的应答术语信息，将所述应答术语信息发送至所述用户终端。

8.根据权利要求1至7任一项所述的方法，其特征在于，在获取用户终端输入的语音信息之前，还包括：

获取语音样本数据，所述语音样本数据包括标注语音样本数据和未标注语音样本数据，所述标注语音样本数据包括语音环境特征和语义环境特征以及情绪标签；

利用所述标注语音样本数据生成训练集，利用所述未标注语音样本数据生成验证集；

将所述训练集输入至预先构建的深度学习模型，利用所述标注语音样本数据的语音环境特征和语义环境特征以及对所述深度学习模型进行学习训练，得到初始语音识别模型；

将所述验证集输入至所述初始语音识别模型，利用所述验证集中的未标注语音样本数据对所述初始语音识别模型进行验证；直到所述验证集中满足条件阈值的样本数量达到验证阈值时，得到训练完成的语音识别模型。

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

获取历史语音会话信息，所述历史语音会话信息包括识别出的情绪标签；

利用所述包括情绪标签的历史语音会话信息对所述语音识别模型进行调优训练，得到训练结果；

根据所述训练结果对所述语音识别模型的模型参数进行调整，得到更新的语音识别模型。

10.一种基于情绪识别的交互处理装置，所述装置包括：

信息获取模块，用于获取用户终端输入的语音信息；

11.根据权利要求10所述的装置，其特征在于，所述语音识别模块还用于将所述语音信息输入至所述语音识别模型，通过所述语音识别模型提取所述语音信息对应的声学特征和频谱特征；根据所述声学特征和频谱特征识别所述语音信息的背景噪音信号和主语音信号；提取所述背景噪音信号，对所述背景噪音信号进行分类，得到对应的背景噪音类别，利用所述背景噪音类别生成所述语音信息的语音环境特征。

12.根据权利要求11所述的装置，其特征在于，所述所述语音识别模块还用于根据所述声学特征和所述频谱特征识别所述主语音信号的语调特征；根据所述语调特征识别所述语音信息对应的语气特征类别；利用所述背景噪音类别和所述语气特征类别确定所述语音信息的语音环境特征。

13.根据权利要求10所述的装置，其特征在于，所述语音环境特征包括背景噪音类别和语气特征类别，所述情绪识别模块还用于根据所述背景噪音类别确定所述语音信息的环境情绪特征；根据所述语气特征类别和所述语义环境特征确定所述语音信息的语义情绪特征；根据所述环境情绪特征和所述语义情绪特征对所述语音信息进行情绪分类，得到对应的情绪类别，并对所述语音信息添加对应的情绪标签。

14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述方法的步骤。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。