CN114444510A

CN114444510A - 情感交互方法及装置、情感交互模型的训练方法及装置

Info

Publication number: CN114444510A
Application number: CN202111604541.1A
Authority: CN
Inventors: 杨磊; 李亚; 刘权; 陈志刚
Original assignee: iFlytek Co Ltd
Current assignee: University of Science and Technology of China USTC; iFlytek Co Ltd
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-05-06

Abstract

本发明提供了一种情感交互方法及装置、情感交互模型的训练方法及装置。该情感交互方法包括：利用情感分析模型对历史交互信息进行情感分析，获取历史交互信息对应的情感信息，其中，情感信息包括情感类别；基于历史交互信息和情感信息，利用策略确定模型确定当前回复信息需要采用的情感交互策略；基于历史交互信息和情感交互策略，利用回复生成模型生成当前回复信息，能够使对话系统具备情感交互能力，促进对话系统与用户的深入交流。

Description

情感交互方法及装置、情感交互模型的训练方法及装置

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种情感交互方法及装置、情感交互模型的训练方法及装置。

背景技术

随着自然语言处理和语音等相关人工智能技术的不断发展，各种不同形式的人机交互系统快速发展，实现了以语音为交互媒介的交互机制，如各类聊天机器人，智能客服，虚拟机器人等。

然而，现阶段各类对话系统和用户的交互相对表面，停留在用户明确的功能需求，知识查询等，并未能够像人与人在语言交流的同时，实现情感交互，从而无法实现真正的类人交互。

发明内容

有鉴于此，本发明实施例提供了一种情感交互方法及装置、情感交互模型的训练方法及装置，能够使对话系统具备情感交互能力，促进对话系统与用户的深入交流。

根据本发明实施例的第一方面，提供一种情感交互方法，包括：利用情感分析模型对历史交互信息进行情感分析，获取历史交互信息对应的情感信息，其中，情感信息包括情感类别；基于历史交互信息和情感信息，利用策略确定模型确定当前回复信息需要采用的情感交互策略；基于历史交互信息和情感交互策略，利用回复生成模型生成当前回复信息。

在本发明的一个实施例中，上述基于历史交互信息和情感信息，利用策略确定模型确定当前回复信息需要采用的情感交互策略，包括：利用策略确定模型中的文本处理单元获取历史交互信息对应的语义特征向量，其中，语义特征向量包括历史交互信息的语义信息，文本处理单元包括生成式预训练模型；利用策略确定模型中的情感处理单元获取情感信息对应的情感特征向量，其中，情感特征向量包括历史交互信息对应的情感变化信息，情感处理单元包括长短期记忆模型；基于语义特征向量和情感特征向量，利用策略确定模型确定当前回复信息需要采用的情感交互策略。

在本发明的一个实施例中，上述利用策略确定模型中的情感处理单元获取情感信息对应的情感特征向量，包括：根据情感信息确定情感标签向量；将情感标签向量和初始化向量矩阵的乘积输入情感处理单元，利用情感处理单元获取情感特征向量，其中，初始化向量矩阵包括每个情感的初始化表示。

在本发明的一个实施例中，上述情感信息还包括情感强度，其中，上述根据情感信息确定情感标签向量，包括：根据情感类别和情感强度确定情感标签向量。

在本发明的一个实施例中，上述基于语义特征向量和情感特征向量，利用策略确定模型确定当前回复信息需要采用的情感交互策略，包括：基于语义特征向量和情感特征向量，利用策略确定模型的分类器确定当前回复信息需要采用的情感交互策略。

在本发明的一个实施例中，上述基于历史交互信息和情感交互策略，利用回复生成模型生成当前回复信息，包括：将当前回复信息临近时刻的历史交互信息对应的情感信息、情感交互策略和历史交互信息融合后，输入回复生成模型，利用回复生成模型生成当前回复信息，其中，回复生成模型包括生成式预训练模型。

在本发明的一个实施例中，上述利用情感分析模型对历史交互信息进行情感分析，获取历史交互信息对应的情感信息，包括：利用情感分析模型获取历史交互信息对应的语义特征向量，其中，情感分析模型包括文本分类模型，语义特征向量包括历史交互信息的语义信息；基于语义特征向量，获取历史交互信息对应的情感信息。

在本发明的一个实施例中，上述基于语义特征向量，获取历史交互信息对应的情感信息，包括：基于语义特征向量，利用分类器获取历史交互信息对应的情感信息。

在本发明的一个实施例中，上述情感信息还包括情感强度。

在本发明的一个实施例中，上述情感交互策略包括主动提问策略、同理共情策略、自我举例策略和提出建议策略。

在本发明的一个实施例中，上述历史交互信息包括历史交互文本信息和/或历史交互语音信息。

根据本发明实施例的第二方面，提供一种情感交互模型的训练方法，情感交互模型包括情感分析模型、策略确定模型和回复生成模型，其中，上述训练方法包括：获取训练样本，其中，训练样本包括历史交互信息样本和标注数据，标注数据包括历史交互信息样本对应的情感信息标签、情感交互策略标签和当前回复信息标签，情感信息标签包括情感类别标签；利用情感分析模型对历史交互信息样本进行情感分析，获取历史交互信息样本对应的预测情感信息，并基于预测情感信息和情感信息标签获得第一损失值；基于历史交互信息样本和预测情感信息，利用策略确定模型确定当前预测回复信息需要采用的预测情感交互策略，并基于预测情感交互策略和情感交互策略标签获得第二损失值；基于历史交互信息样本和预测情感交互策略，利用回复生成模型生成当前预测回复信息，并基于当前预测回复信息和当前回复信息标签获得第三损失值；基于第一损失值、第二损失值和第三损失值，对情感分析模型、策略确定模型和回复生成模型进行训练。

根据本发明实施例的第三方面，提供一种情感交互装置，包括：情感分析模块，用于利用情感分析模型对历史交互信息进行情感分析，获取历史交互信息对应的情感信息，其中，情感信息包括情感类别；策略确定模块，用于基于历史交互信息和情感信息，利用策略确定模型确定当前回复信息需要采用的情感交互策略；回复生成模块，用于基于历史交互信息和情感交互策略，利用回复生成模型生成当前回复信息。

根据本发明实施例的第四方面，提供一种情感交互模型的训练装置，情感交互模型包括情感分析模型、策略确定模型和回复生成模型，其中，上述训练装置包括：获取模块，用于获取训练样本，其中，训练样本包括历史交互信息样本和标注数据，标注数据包括历史交互信息样本对应的情感信息标签、情感交互策略标签和当前回复信息标签；情感分析模块，用于利用情感分析模型对历史交互信息样本进行情感分析，获取历史交互信息样本对应的预测情感信息，并基于预测情感信息和情感信息标签获得第一损失值，其中，情感信息包括情感类别；策略确定模块，用于基于历史交互信息样本和预测情感信息，利用策略确定模型确定当前预测回复信息需要采用的预测情感交互策略，并基于预测情感交互策略和情感交互策略标签获得第二损失值；回复生成模块，用于基于历史交互信息样本和预测情感交互策略，利用回复生成模型生成当前预测回复信息，并基于当前预测回复信息和当前回复信息标签获得第三损失值；训练模块，用于基于第一损失值、第二损失值和第三损失值，对情感分析模型、策略确定模型和回复生成模型进行训练。

根据本发明实施例的第五方面，提供一种计算机可读存储介质，其上存储有计算机可执行指令，其特征在于，所述可执行指令被处理器执行时实现上述第一方面和第二方面所述的方法。

根据本发明实施例的第六方面，提供一种电子设备，其特征在于，所述电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于执行上述第一方面或第二方面所述的方法。

根据本发明实施例提供的技术方案，通过利用情感分析模型对历史交互信息进行情感分析，获取历史交互信息对应的情感信息；基于历史交互信息和情感信息，利用策略确定模型确定当前回复信息需要采用的情感交互策略；基于历史交互信息和情感交互策略，利用回复生成模型生成当前回复信息，能够在对话过程中及时不断地分析用户情感信息，并能够根据用户不同的情感信息利用不同的情感交互策略生成用户合适的包含情感的回复，使用户在对话过程中能够感受到对话系统能够感知到其情感上的变化，也能感觉到对话系统对于其情感变化的一种反馈，从而促成用户与对话系统的深入交流。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1所示为本发明一实施例提供的情感交互方法的流程示意图。

图2所示为本发明一实施例提供的用户与对话系统的对话内容及对应策略

图3所示为本发明一实施例提供的利用情感分析模型对历史交互信息进行情感分析，获取历史交互信息对应的情感信息的流程示意图。

图4所示为本发明一实施例提供的情感分析模型的处理方式示意图。

图5所示为本发明一实施例提供的基于历史交互信息和情感信息，利用策略确定模型确定当前回复信息需要采用的情感交互策略的流程示意图。

图6所示为本发明一实施例提供的策略确定模型的处理方式示意图。

图7所示为本发明一实施例提供的回复生成模型的处理方式示意图。

图8所示为本发明一实施例提供的情感交互模型的训练方法的流程示意图。

图9所示为本发明一实施例提供的情感交互装置的框图。

图10所示为本发明一实施例提供的情感交互模型的训练装置的框图。

图11所示为本发明一实施例提供的电子设备的框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1所示为本发明一实施例提供的情感交互方法的流程示意图。该方法可以由计算机设备(例如，服务器)执行。如图1所示，该方法包括如下内容。

S110：利用情感分析模型对历史交互信息进行情感分析，获取历史交互信息对应的情感信息，其中，情感信息包括情感类别。

需要说明的是，历史交互信息可以是当前时刻回复信息之前的历史上下文信息。例如，图2对话中的“是啊，压力大的时候会很不开心”的历史交互信息为“我今天过得真糟心”、“你为什么这么不开心呢”和“最近工作压力好大，事情太多”这三句话。

上述历史交互信息包括历史交互文本信息和/或历史交互语音信息，本发明对此不做具体限定。当历史交互信息为语音信号(即历史交互语言信息)时，可以先将历史交互语言信息转化成文本信息(即历史交互文本信息)，然后再对该文本信息进行情感分析。应当理解，本发明对历史交互信息的类型不做具体限定。

在本发明的一些实施例中，情感分析模型可以是文本分类模型，应当理解，本发明对情感分析模型的类型不做具体限定。具体地，可以将每个历史交互信息作为情感分析模型的输入，利用情感分析模型输出该历史交互信息对应的情感信息。

情感信息是指用户在对话过程中明显流露或隐式表达的情感。例如，利用情感分析模型对图2对话中的“我今天过的真糟心”这一句话进行情感分析，可以得知，用户表露出了负面情绪。

在一些实施例中，情感信息可以包括情感类别，例如表1所示，情感类别可以包括正向情感类别(如满足、开心、赞扬等)和负向情感类别(如担心、压力、生气等)等。应当理解，本发明对情感类别的分类不做具体限定。

表1

进一步地，在另一些实施例中，情感信息还可以包括情感强度。情感强度可以分为不同的等级，例如，强、中、弱三个等级。例如，用户非常高兴，对应的情感强度为“强”；用户有一点高兴，对应的情感强度为“弱”。应当理解，本发明对情感强度的等级数量及等级类别不做具体限定。

需要说明的是，每个情感强度等级可以对应有情感强度因子，例如，“强”对应的情感强度因子为“1”，“中”对应的情感强度因子为“0.6”，“弱”对应的情感强度因子为“0.1”。应当理解，本发明对情感强度因子的具体形式或具体取值不做限定。

S120：基于历史交互信息和情感信息，利用策略确定模型确定当前回复信息需要采用的情感交互策略。

也就是说，在包含足够的情感互动的对话过程中，可以根据具体的历史上下文交互信息和情感信息来使用合适的情感交互策略(也可以称为对话策略)。如图2所示，在交互的初始阶段，可以使用主动提问策略，来获取用户不开心的原因；在用户进一步表述后，可以使用合适的同理共情策略，来安抚用户；最终，可以使用提出建议策略，来给用户建议。

具体地，如表2所示，情感交互策略可以包括主动提问策略、同理共情策略、自我举例策略和提出建议策略等，应当理解，本发明对情感交互策略的类型不做具体限定。

表2

主动提问	主动询问用户情绪的来源和细节，进而获取用户信息
		同理共情	对用户表示适当的理解，针对正向或负向情感
自我举例	以自身为例，开解用户或表示和用户有相同的情境
		提出建议	能够针对不同的情绪，给出一定的建议，尤其针对负面情绪
其他	用户表述和情感无关的内容，类比通用闲聊

S130：基于历史交互信息和情感交互策略，利用回复生成模型生成当前回复信息。

具体地，可以将历史交互信息和情感交互策略作为回复生成模型的输入，利用回复生成模型生成当前回复信息。

在本发明的一个实施例中，上述步骤S110可以包括：

S1110：利用情感分析模型获取历史交互信息对应的语义特征向量，其中，情感分析模型包括文本分类模型，语义特征向量包括历史交互信息的语义信息。

在本发明一实施例中，该情感分析模型可以为文本分类模型，例如，Bert(Bidirectional Encoder Representations from Transformer，基于变换器的双向编码器表示)模型。具体地，首先，该情感分析模型可以采用Bert模型作为编码器,通过利用大规模训练语料训练掩码语言模型(MLM)得到其初始化参数，从而帮助模型从大规模训练语料上学习到先验知识。其次，可以将每个历史交互信息输入Bert模型，获得该历史交互信息对应语义特征向量。

文本分类模型的输入序列可以为([CLS],w₁,w₂,…,w_n,[SEP])，例如，如图4所示，将([CLS],我,不,开,心,[SEP])作为文本分类模型的输入，经过文本分类模型(例如Bert模型)编码后，得到与输入序列等长的隐层向量序列。其中，[CLS]对应的表示向量包括历史交互信息的语义信息。在本发明一实施例中，可以将[CLS]对应的表示向量作为语义特征向量。

S1120：基于语义特征向量，获取历史交互信息对应的情感信息。

例如，可以将[CLS]对应的表示向量(即语义特征向量)输入分类器，利用分类器获取历史交互信息对应的情感信息。

例如，在本发明的一个实施例中，情感信息包括情感类别。可以将该语义特征向量输入情感类别分类器进行分类和回归，得到该历史交互信息对应的情感类别。

在本发明的另一个实施例中，情感信息包括情感类别和情感强度。可以将语义特征向量分别输入情感类别分类器和情感强度分类器进行分类和回归，从而分别得到该历史交互信息对应的情感类别和情感强度。

通过对历史交互信息进行情感分析，获取该历史交互信息对应的情感类别和情感强度，相较于只获取情感类别，能够更全面的掌握用户的情感信息，以便于后续选择更准确的情感交互策略生成用户回复。

在本发明的一个实施例中，上述步骤S120可以包括：

S1210：利用策略确定模型中的文本处理单元获取历史交互信息对应的语义特征向量，其中，语义特征向量包括历史交互信息的语义信息，文本处理单元包括生成式预训练模型。

具体地，策略确定模型可以通过端到端的有监督学习方式进行学习，使得策略确定模型能够预测出当前对话时刻需要使用的情感交互策略。例如，针对图2对话中的“是啊，压力大的时候会很不开心”，可以将对话中“是啊，压力大的时候会很不开心”之前的三句文本及其情感信息作为策略确定模型的输入，通过策略确定模型预测出当前回复(“是啊，压力大的时候会很不开心”)应该使用的情感交互策略。

具体地，策略确定模型的输入可以包括两个部分，历史交互信息的文本信息和情感信息。

在本发明的一个实施例中，文本处理单元包括生成式预训练(Generative Pre-Training，GPT)模型，可以利用GPT模型对历史交互信息的文本信息进行处理，获得历史上下文交互信息的语义信息。

如图6所示，GPT模型的输入为(d₂,w_i-1,1,w_i-1,2,…,w_i-1,n,……,w_i,1,w_i,2,…,w_i,n,[SEP])，其中，d₁和d₂分别表示不同的对话角色，例如d₁表示对话机器人，d₂表示用户；w_i,1表示第i句的第1个词，w_i,2表示第i句的第2个词，以此类推。利用GPT模型对其进行编码，得到当前时刻所有历史上下文的表示，其中包含了历史上下文交互信息的文本信息。

其中，GPT模型的输出序列中的[SEP]对应的表示向量包含了历史上下文的语义信息，可以作为本申请实施例中的语义特征向量。应当理解，上述描述仅为示例性描述，还可以根据需要将[CLS]对应的表示向量作为本申请是实施例中的语义特征向量，本发明对语义特征向量的形式不做具体限定。

S1220：利用策略确定模型中的情感处理单元获取情感信息对应的情感特征向量，其中，情感特征向量包括历史交互信息对应的情感变化信息，情感处理单元包括长短期记忆模型。

在本发明一实施例中，情感处理单元包括长短期记忆模型(Long-Short TermMemory，LSTM)。可以利用单向LSTM模型对历史交互信息对应的情感信息进行处理，获得历史交互过程中的情感变化信息。

具体地，可以根据情感信息确定情感标签向量；将情感标签向量和初始化向量矩阵的乘积输入情感处理单元，利用情感处理单元获取情感特征向量，其中，初始化向量矩阵包括每个情感的初始化表示。

以情感信息包括情感类别和情感强度为例进行说明。

首先，情感类别信息为离散向量，可以通过初始化向量矩阵z得到每个情感的初始化表示，其中z是c*d维的二维矩阵，c表示情感类别，d表示向量维度。

需要说明的是，初始化向量矩阵z可以是预先人为设定的，也可以是在策略确定模型训练的过程中，通过对初始向量矩阵调整参数得到的，应当理解，本发明对此不做具体限定。

其次，可以将上述情感分析模型输出的情感强度因子和情感类别对应的情感one-hot编码向量相乘得到情感标签向量s′。

然后，将情感标签向量s′与初始化向量矩阵z的乘积s＝s′*z，作为单向LSTM模型的输入(s_i表示第i句对应的情感标签向量s′与初始化向量矩阵z的乘积)，利用单向LSTM模型建模对话过程中的情感变化，输出情感特征向量，其中，该情感特征向量包括历史交互信息对应的情感变化信息。

S1230：基于语义特征向量和情感特征向量，利用策略确定模型确定当前回复信息需要采用的情感交互策略。

具体地，如图6所示，可以将上述语义特征向量(GPT模型输出序列中的[SEP]对应的表示向量)和情感特征向量(单向LSTM模型的输出向量)融合后输入到分类器中，利用策略确定模型的分类器预测当前回复信息需要采用的情感交互策略。

根据本发明实施例提供的技术方案，通过利用策略确定模型中的文本处理单元获取历史交互信息对应的语义特征向量，其中，语义特征向量包括历史交互信息的语义信息，文本处理单元包括生成式预训练模型；利用策略确定模型中的情感处理单元获取情感信息对应的情感特征向量，其中，情感特征向量包括历史交互信息对应的情感变化信息，情感处理单元包括长短期记忆模型；基于语义特征向量和情感特征向量，利用策略确定模型确定当前回复信息需要采用的情感交互策略，能够基于用户不同的情感信息使用不同的情感交互策略，使用户在对话过程中能够感受到对话系统能够感知到其情感上的变化，也能感觉到对话系统对于其情感变化的一种反馈，从而促成用户与对话系统的深入交流。

在本发明的一个实施例中，上述步骤S130可以包括：将当前回复信息临近时刻的历史交互信息对应的情感信息、情感交互策略和历史交互信息融合后，输入回复生成模型，利用回复生成模型生成当前回复信息，其中，回复生成模型包括生成式预训练模型。

在本发明一实施例中，回复生成模型包括生成式预训练(Generative Pre-Training，GPT)模型。具体地，可以采用GPT模型作为上下文的编码器和解码器，如图7所示，可以将当前回复信息临近时刻的历史交互信息对应的情感信息、情感交互策略和历史交互信息融合后输入GPT模型。回复生成模型的输入为(s_i-1,c_i,d₂,w_i-1,1,w_i-1,2,…,w_i-1,n,……,d₁,w_i,1,w_i,2,…,w_i,n,[sep])，其中，d₁和d₂分别表示不同的对话角色，例如d₁表示对话机器人，d₂表示用户；w_i,1表示第i句的第1个词，w_i,2表示第i句的第2个词，以此类推。s_i-1表示当前时刻临近时刻的情感标签，用来强调上句的情感标签，避免模型过度关注过久历史信息的问题；c_i表示当前时刻所使用的情感交互策略(即上述策略确定模型确定的情感交互策略)，通过显式地输入模型，来对解码器解码过程进行相关约束，以生成该情感交互策略对应的回复。

需要说明的是，GPT模型可以根据前i-1句历史交互信息的文本信息、当前时刻所使用的情感交互策略c_i和当前时刻临近时刻的情感标签s_i-1预测出第i句(即当前回复信息)的第1个词w_i,1，并将第1个词w_i,1作为输入，预测出第2个词w_i,2，并把第2个词作为输入，预测第3个词w_i,3，依次类推。

根据本发明实施例提供的技术方案，通过将当前回复信息临近时刻的历史交互信息对应的情感信息、情感交互策略和历史交互信息融合后，输入回复生成模型，利用回复生成模型生成当前回复信息，可以利用当前时刻临近时刻的情感标签s_i-1强调上句的情感标签，避免模型过度关注过久历史信息的问题；并利用当前时刻所使用的情感交互策略(即上述策略确定模型确定的情感交互策略)c_C对回复生成模型解码过程进行相关约束，可以准确的生成该情感交互策略对应的回复。

需要说明的是，上述情感分析模型、策略确定模型和回复生成模型可独自训练，也可联合训练使用，可根据具体使用和训练环境选择不同的融合方式，本发明在此不做具体限定。

图8所示为本发明一实施例提供的情感交互模型的训练方法的流程示意图。该情感交互模型包括情感分析模型、策略确定模型和回复生成模型。该方法可以由计算机设备(例如，服务器)执行。如图8所示，该训练方法包括如下内容。

S810：获取训练样本，其中，训练样本包括历史交互信息样本和标注数据，标注数据包括历史交互信息样本对应的情感信息标签、情感交互策略标签和当前回复信息标签，情感信息标签包括情感类别标签。

上述历史交互信息样本包括历史交互文本信息样本和/或历史交互语音信息样本，本发明对此不做具体限定。当历史交互信息样本为语音信号(即历史交互语言信息样本)时，可以先将历史交互语言信息样本转化成文本信息(即历史交互文本信息)，然后再对该文本信息进行后续处理。应当理解，本发明对历史交互信息样本的类型不做具体限定。

例如，对“我今天过的真糟心”进行标注，情感信息标签可以为“伤心(情感类别)，1(情感强度)”、情感交互策略标签可以为“主动提问”和当前回复信息标签为“你为什么这么不开心呢”。

S820：利用情感分析模型对历史交互信息样本进行情感分析，获取历史交互信息样本对应的预测情感信息，并基于预测情感信息和情感信息标签获得第一损失值。

在本发明的一些实施例中，情感分析模型可以是文本分类模型，应当理解，本发明对情感分析模型的类型不做具体限定。具体地，可以将每个历史交互信息样本作为情感分析模型的输入，利用情感分析模型输出该历史交互信息样本对应的预测情感信息。

在一些实施例中，情感信息标签可以包括情感类别标签，例如表1所示，情感类别标签可以包括正向情感类别(如满足、开心、赞扬等)和负向情感类别标签(如担心、压力、生气等)等。应当理解，本发明对情感类别标签的分类不做具体限定。

在本发明一实施例中，情感信息标签还包括情感强度标签。情感强度标签可以分为不同的等级，例如，强、中、弱三个等级。例如，用户非常高兴，对应的情感强度标签为“强”；用户有一点高兴，对应的情感强度标签为“弱”。应当理解，本发明对情感强度标签的等级数量及等级类别不做具体限定。

需要说明的是，每个情感强度标签等级可以对应有情感强度因子，例如，“强”对应的情感强度因子为“1”，“中”对应的情感强度因子为“0.6”，“弱”对应的情感强度因子为“0.1”。应当理解，本发明对情感强度因子的具体形式或具体取值不做限定。

需要说明的是，人工标记训练样本标签时，由于情感强度较难界定，会有较强的主观性，可以同时由多个标记人员对同一份语料进行标记，最后对多个分值取平均作为最终的情感强度。

需要说明的是，在训练时，情感类别和情感强度对应的两个子任务可以通过多任务的形式联合训练，两者共享编码层，让两个子任务之间相互借鉴，提升预测效果。

S830：基于历史交互信息样本和预测情感信息，利用策略确定模型确定当前预测回复信息需要采用的预测情感交互策略，并基于预测情感交互策略和情感交互策略标签获得第二损失值。

也就是说，在包含足够的情感互动的对话过程中，可以根据具体的历史上下文交互信息和情感信息来使用合适的情感交互策略(也可以称为对话策略)。如图2所示，在交互的初始阶段，可以使用主动提问的对话策略，来获取用户不开心的原因；在用户进一步表述后，可以使用合适的同理共情策略，来安抚用户；最终，可以使用提出建议策略，来给用户建议。

如表2所示，情感交互策略可以包括主动提问策略、同理共情策略、自我举例策略和提出建议策略等，应当理解，本发明对情感交互策略的类型不做具体限定。

S840：基于历史交互信息样本和预测情感交互策略，利用回复生成模型生成当前预测回复信息，并基于当前预测回复信息和当前回复信息标签获得第三损失值。

具体地，可以将历史交互信息样本和预测情感交互策略作为回复生成模型的输入，利用回复生成模型生成当前预测回复信息。

S850：基于第一损失值、第二损失值和第三损失值，对情感分析模型、策略确定模型和回复生成模型进行训练。

例如，将第一损失值、第二损失值和第三损失值求和，并将其反向传播来更新情感分析模型、策略确定模型和回复生成模型的参数，直到训练完成。

根据本发明实施例提供的技术方案，通过将情感分析模型、策略确定模型和回复生成模型联合训练，可以使各模型融合训练和使用效果更好。

在本发明的一个实施例中，上述步骤S820可以包括：

S8210：利用情感分析模型获取历史交互信息样本对应的语义特征向量，其中，情感分析模型包括文本分类模型，语义特征向量包括历史交互信息样本的语义信息；

S8220：基于语义特征向量，获取历史交互信息样本对应的预测情感信息；

S8230：基于预测情感信息和情感信息标签获得第一损失值。

在本发明的一个实施例中，上述步骤S830可以包括：

S8310：利用策略确定模型中的文本处理单元获取历史交互信息样本对应的语义特征向量，其中，语义特征向量包括历史交互信息样本的语义信息，文本处理单元包括生成式预训练模型。

S8320：利用策略确定模型中的情感处理单元获取情感信息对应的情感特征向量，其中，情感特征向量包括历史交互信息样本对应的情感变化信息，情感处理单元包括长短期记忆模型。

S8330：基于语义特征向量和情感特征向量，利用策略确定模型确定当前预测回复信息需要采用的预测情感交互策略。

具体地，可以基于所述语义特征向量和所述情感特征向量，利用所述策略确定模型的分类器确定当前回复信息需要采用的情感交互策略。

S8340：基于预测情感交互策略和情感交互策略标签获得第二损失值。

在本发明的一个实施例中，上述步骤S840可以包括：

S8410：将当前回复信息临近时刻的历史交互信息样本对应的预测情感信息、预测情感交互策略和历史交互信息样本融合后，输入回复生成模型，利用回复生成模型生成当前预测回复信息，其中，所述回复生成模型包括生成式预训练模型。

S8420：基于当前预测回复信息和当前回复信息标签获得第三损失值。

在本发明的另一个实施例中，上述情感分析模型、策略确定模型和回复生成模型也可以独自训练。

具体地，首先，可以对历史交互信息样本进行情感信息标签标注，其中，情感信息标签包括情感类别标签；利用情感分析模型对历史交互信息样本进行情感分析，获取历史交互信息样本对应的预测情感信息，并基于预测情感信息和情感信息标签获得第一损失值；根据第一损失值对情感分析模型进行训练。

其次，可以对历史交互信息样本进行情感交互策略标签标注；基于历史交互信息样本和情感信息样本，利用策略确定模型确定当前预测回复信息需要采用的预测情感交互策略，并基于预测情感交互策略和情感交互策略标签获得第二损失值；根据第二损失值对策略确定模型进行训练。

然后，可以对历史交互信息样本进行当前回复信息标签标注；基于历史交互信息样本和情感交互策略样本，利用回复生成模型生成当前预测回复信息，并基于当前预测回复信息和当前回复信息标签获得第三损失值；根据第三损失值对回复生成模型进行训练。

上述情感交互模型的训练方法的实现过程可参见上述情感交互方法中对应步骤的实现过程，相同之处，在此不再赘述。

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

下述为本发明装置实施例，可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明方法实施例。

图9所示为本发明一实施例提供的情感交互装置的框图。如图9所示，该情感交互装置900包括：

情感分析模块910，用于利用情感分析模型对历史交互信息进行情感分析，获取历史交互信息对应的情感信息，其中，情感信息包括情感类别；

策略确定模块920，用于基于历史交互信息和情感信息，利用策略确定模型确定当前回复信息需要采用的情感交互策略；

回复生成模块930，用于基于历史交互信息和情感交互策略，利用回复生成模型生成当前回复信息。

在本发明的一个实施例中，上述策略确定模块920用于利用策略确定模型中的文本处理单元获取历史交互信息对应的语义特征向量，其中，语义特征向量包括历史交互信息的语义信息，文本处理单元包括生成式预训练模型；利用策略确定模型中的情感处理单元获取情感信息对应的情感特征向量，其中，情感特征向量包括历史交互信息对应的情感变化信息，情感处理单元包括长短期记忆模型；基于语义特征向量和情感特征向量，利用策略确定模型确定当前回复信息需要采用的情感交互策略。

在本发明的一个实施例中，上述策略确定模块920用于根据情感信息确定情感标签向量；将情感标签向量和初始化向量矩阵的乘积输入情感处理单元，利用情感处理单元获取情感特征向量，其中，初始化向量矩阵包括每个情感的初始化表示。

在本发明的一个实施例中，上述情感信息还包括情感强度，其中，上述策略确定模块920用于根据情感类别和情感强度确定情感标签向量。

在本发明的一个实施例中，上述策略确定模块920用于基于语义特征向量和情感特征向量，利用策略确定模型的分类器确定当前回复信息需要采用的情感交互策略。

在本发明的一个实施例中，上述回复生成模块930用于将当前回复信息临近时刻的历史交互信息对应的情感信息、情感交互策略和历史交互信息融合后，输入回复生成模型，利用回复生成模型生成当前回复信息，其中，回复生成模型包括生成式预训练模型。

在本发明的一个实施例中，上述情感分析模块910用于利用情感分析模型获取历史交互信息对应的语义特征向量，其中，情感分析模型包括文本分类模型，语义特征向量包括历史交互信息的语义信息；基于语义特征向量，获取历史交互信息对应的情感信息。

在本发明的一个实施例中，上述情感分析模块910用于基于语义特征向量，利用分类器获取历史交互信息对应的情感信息。

在本发明的一个实施例中，上述情感信息还包括情感强度。

装置900中各个模块的功能和作用的实现过程具体详见图1至图7实施例中对应步骤的实现过程，在此不再赘述。

图10所示为本发明一实施例提供的情感交互模型的训练装置的框图。该情感交互模型包括情感分析模型、策略确定模型和回复生成模型。如图10所示，该情感交互模型的训练装置1000包括：

获取模块1010，用于获取训练样本，其中，训练样本包括历史交互信息样本和标注数据，标注数据包括历史交互信息样本对应的情感信息标签、情感交互策略标签和当前回复信息标签，情感信息标签包括情感类别标签；

情感分析模块1020，用于利用情感分析模型对历史交互信息样本进行情感分析，获取历史交互信息样本对应的预测情感信息，并基于预测情感信息和情感信息标签获得第一损失值；

策略确定模块1030，用于基于历史交互信息样本和预测情感信息，利用策略确定模型确定当前预测回复信息需要采用的预测情感交互策略，并基于预测情感交互策略和情感交互策略标签获得第二损失值；

回复生成模块1040，用于基于历史交互信息样本和预测情感交互策略，利用回复生成模型生成当前预测回复信息，并基于当前预测回复信息和当前回复信息标签获得第三损失值；

训练模块1050，用于基于第一损失值、第二损失值和第三损失值，对情感分析模型、策略确定模型和回复生成模型进行训练。

装置1000中各个模块的功能和作用的实现过程具体详见图8实施例中对应步骤的实现过程，在此不再赘述。

图11所示为本发明一实施例提供的电子设备1100的框图。

参照图11，电子设备1100包括处理组件1110，其进一步包括一个或多个处理器，以及由存储器1120所代表的存储器资源，用于存储可由处理组件1110的执行的指令，例如应用程序。存储器1120中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1110被配置为执行指令，以执行上述情感交互方法或情感交互模型的训练方法。

电子设备1100还可以包括一个电源组件被配置为执行电子设备1100的电源管理，一个有线或无线网络接口被配置为将电子设备1100连接到网络，和一个输入输出(I/O)接口。电子设备1100可以操作基于存储在存储器1120的操作系统，例如Windows Server^TM，MacOS X^TM，Unix^TM，Linux^TM，FreeBSD^TM或类似。

一种非临时性计算机可读存储介质，当存储介质中的指令由上述电子设备1100的处理器执行时，使得上述电子设备1100能够执行一种情感交互方法或情感交互模型的训练方法。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序校验码的介质。

另外，还需要说明的是，本案中各技术特征的组合方式并不限本案权利要求中所记载的组合方式或是具体实施例所记载的组合方式，本案所记载的所有技术特征可以以任何方式进行自由组合或结合，除非相互之间产生矛盾。

需要注意的是，以上列举的仅为本发明的具体实施例，显然本发明不限于以上实施例，随之有着许多的类似变化。本领域的技术人员如果从本发明公开的内容直接导出或联想到的所有变形，均应属于本发明的保护范围。

应当理解，本发明实施例中提到的第一、第二等限定词，仅仅为了更清楚地描述本发明实施例的技术方案使用，并不能用以限制本发明的保护范围。

以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种情感交互方法，其特征在于，包括：

利用情感分析模型对历史交互信息进行情感分析，获取所述历史交互信息对应的情感信息，其中，所述情感信息包括情感类别；

基于所述历史交互信息和所述情感信息，利用策略确定模型确定当前回复信息需要采用的情感交互策略；

基于历史交互信息和所述情感交互策略，利用回复生成模型生成所述当前回复信息。

2.根据权利要求1所述的情感交互方法，其特征在于，所述基于所述历史交互信息和所述情感信息，利用策略确定模型确定当前回复信息需要采用的情感交互策略，包括：

利用所述策略确定模型中的文本处理单元获取所述历史交互信息对应的语义特征向量，其中，所述语义特征向量包括所述历史交互信息的语义信息，所述文本处理单元包括生成式预训练模型；

利用所述策略确定模型中的情感处理单元获取所述情感信息对应的情感特征向量，其中，所述情感特征向量包括所述历史交互信息对应的情感变化信息，所述情感处理单元包括长短期记忆模型；

基于所述语义特征向量和所述情感特征向量，利用所述策略确定模型确定当前回复信息需要采用的情感交互策略。

3.根据权利要求2所述的方法，其特征在于，所述利用所述策略确定模型中的情感处理单元获取所述情感信息对应的情感特征向量，包括：

根据所述情感信息确定情感标签向量；

将所述情感标签向量和初始化向量矩阵的乘积输入所述情感处理单元，利用所述情感处理单元获取所述情感特征向量，其中，所述初始化向量矩阵包括每个情感的初始化表示。

4.根据权利要求3所述的方法，其特征在于，所述情感信息还包括情感强度，其中，所述根据所述情感信息确定情感标签向量，包括：

根据所述情感类别和所述情感强度确定所述情感标签向量。

5.根据权利要求2所述的方法，其特征在于，所述基于所述语义特征向量和所述情感特征向量，利用所述策略确定模型确定当前回复信息需要采用的情感交互策略，包括：

基于所述语义特征向量和所述情感特征向量，利用所述策略确定模型的分类器确定当前回复信息需要采用的情感交互策略。

6.根据权利要求1所述的情感交互方法，其特征在于，所述基于历史交互信息和所述情感交互策略，利用回复生成模型生成所述当前回复信息，包括：

将当前回复信息临近时刻的历史交互信息对应的情感信息、所述情感交互策略和所述历史交互信息融合后，输入回复生成模型，利用所述回复生成模型生成所述当前回复信息，其中，所述回复生成模型包括生成式预训练模型。

7.根据权利要求1所述的情感交互方法，其特征在于，所述利用情感分析模型对历史交互信息进行情感分析，获取所述历史交互信息对应的情感信息，包括：

利用所述情感分析模型获取所述历史交互信息对应的语义特征向量，其中，所述情感分析模型包括文本分类模型，所述语义特征向量包括所述历史交互信息的语义信息；

基于所述语义特征向量，获取所述历史交互信息对应的情感信息。

8.根据权利要求7所述的情感交互方法，其特征在于，所述基于所述语义特征向量，获取所述历史交互信息对应的情感信息，包括：

基于所述语义特征向量，利用分类器获取所述历史交互信息对应的情感信息。

9.根据权利要求1至8中任一项所述的情感交互方法，其特征在于，所述情感信息还包括情感强度。

10.根据权利要求1至8中任一项所述的情感交互方法，其特征在于，所述情感交互策略包括主动提问策略、同理共情策略、自我举例策略和提出建议策略。

11.根据权利要求1至8中任一项所述的情感交互方法，其特征在于，所述历史交互信息包括历史交互文本信息和/或历史交互语音信息。

12.一种情感交互模型的训练方法，其特征在于，所述情感交互模型包括情感分析模型、策略确定模型和回复生成模型，其中，所述训练方法包括：

获取训练样本，其中，所述训练样本包括历史交互信息样本和标注数据，所述标注数据包括所述历史交互信息样本对应的情感信息标签、情感交互策略标签和当前回复信息标签，所述情感信息标签包括情感类别标签；

利用所述情感分析模型对所述历史交互信息样本进行情感分析，获取所述历史交互信息样本对应的预测情感信息，并基于所述预测情感信息和所述情感信息标签获得第一损失值；

基于所述历史交互信息样本和所述预测情感信息，利用所述策略确定模型确定当前预测回复信息需要采用的预测情感交互策略，并基于所述预测情感交互策略和情感交互策略标签获得第二损失值；

基于所述历史交互信息样本和所述预测情感交互策略，利用所述回复生成模型生成当前预测回复信息，并基于所述当前预测回复信息和所述当前回复信息标签获得第三损失值；

基于所述第一损失值、第二损失值和第三损失值，对所述情感分析模型、所述策略确定模型和所述回复生成模型进行训练。

13.一种情感交互装置，其特征在于，包括：

情感分析模块，用于利用情感分析模型对历史交互信息进行情感分析，获取所述历史交互信息对应的情感信息，其中，所述情感信息包括情感类别；

策略确定模块，用于基于所述历史交互信息和所述情感信息，利用策略确定模型确定当前回复信息需要采用的情感交互策略；

回复生成模块，用于基于历史交互信息和所述情感交互策略，利用回复生成模型生成所述当前回复信息。

14.一种情感交互模型的训练装置，其特征在于，所述情感交互模型包括情感分析模型、策略确定模型和回复生成模型，其中，所述训练装置包括：

获取模块，用于获取训练样本，其中，所述训练样本包括历史交互信息样本和标注数据，所述标注数据包括所述历史交互信息样本对应的情感信息标签、情感交互策略标签和当前回复信息标签；

情感分析模块，用于利用所述情感分析模型对所述历史交互信息样本进行情感分析，获取所述历史交互信息样本对应的预测情感信息，并基于所述预测情感信息和所述情感信息标签获得第一损失值，其中，所述情感信息包括情感类别；

策略确定模块，用于基于所述历史交互信息样本和所述预测情感信息，利用所述策略确定模型确定当前预测回复信息需要采用的预测情感交互策略，并基于所述预测情感交互策略和情感交互策略标签获得第二损失值；

回复生成模块，用于基于所述历史交互信息样本和所述预测情感交互策略，利用所述回复生成模型生成当前预测回复信息，并基于所述当前预测回复信息和所述当前回复信息标签获得第三损失值；

训练模块，用于基于所述第一损失值、第二损失值和第三损失值，对所述情感分析模型、所述策略确定模型和所述回复生成模型进行训练。

15.一种计算机可读存储介质，其上存储有计算机可执行指令，其特征在于，所述可执行指令被处理器执行时实现如权利要求1至12中任一项所述的方法。

16.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于执行上述权利要求1至12中任一项所述的方法。