CN115757749B

CN115757749B - 一种对话处理方法、装置、电子设备及存储介质

Info

Publication number: CN115757749B
Application number: CN202310010831.6A
Authority: CN
Inventors: 李宇舰; 曾敏
Original assignee: Beijing Hongmian Xiaoice Technology Co Ltd
Current assignee: Beijing Hongmian Xiaoice Technology Co Ltd
Priority date: 2023-01-05
Filing date: 2023-01-05
Publication date: 2023-05-16
Anticipated expiration: 2043-01-05
Also published as: CN115757749A

Abstract

本发明提供一种对话处理方法、装置、电子设备及存储介质，可以从当前对话中获得待处理信息，待处理信息至少包括待回复文本；确定与待回复文本对应的第一候选回复文本；确定与第一候选回复文本对应的第一行为类别；基于预定义的行为类别确定方式，确定出用于推动当前对话积极进行的第一行为类别；将与用于推动当前对话积极进行的第一行为类别对应的第一候选回复文本确定为对话回复文本；输出对话回复文本。本发明可以针对用户输入的待回复文本，输出可以推动当前对话朝着积极方向持续进行的对话回复文本，以推动当前对话朝着积极方向持续进行，避免当前对话朝着消极方向进行，可以有效保障对话服务质量，提升用户体验，增强用户粘性。

Description

一种对话处理方法、装置、电子设备及存储介质

技术领域

本发明涉及对话处理技术领域，尤其涉及一种对话处理方法、装置、电子设备及存储介质。

背景技术

随着计算机科学技术的发展，人工智能技术不断提高。

当前，智能对话服务可以通过与用户进行对话，为用户提供相应的对话服务，比如回答用户提出的问题，再比如与用户讨论电影歌曲等。

但是，当前的智能对话服务无法有效保障用户体验，可能导致用户粘性不足。

发明内容

本发明提供一种对话处理方法、装置、电子设备及存储介质，用以解决现有技术中智能对话服务无法有效保障用户体验，可能导致用户粘性不足的缺陷，有效提升用户体验，增强用户粘性。

本发明提供一种对话处理方法，包括：

从当前对话中获得待处理信息，所述待处理信息至少包括待回复文本；

确定与所述待回复文本对应的第一候选回复文本；

确定与所述第一候选回复文本对应的第一行为类别；

基于预定义的行为类别确定方式，确定出用于推动所述当前对话积极进行的所述第一行为类别；

将与用于推动所述当前对话积极进行的所述第一行为类别对应的所述第一候选回复文本确定为对话回复文本；

输出所述对话回复文本。

可选的，所述确定与所述第一候选回复文本对应的第一行为类别，包括：

将所述待回复文本和所述第一候选回复文本输入至训练好的行为分类模型，获得所述行为分类模型输出的所述第一行为类别；其中，所述行为分类模型是通过使用训练样本对基础模型进行训练而获得的，所述训练样本中包括用户输入文本、机器回复文本和行为类别。

可选的，所述待处理信息还包括与所述待回复文本对应的对话策略信息，所述对话策略信息为用于确定对话策略的信息；所述基于预定义的行为类别确定方式，确定出用于推动所述当前对话积极进行的所述第一行为类别，包括：

将所述待回复文本、所述对话策略信息和所述第一行为类别输入至训练好的行为策略确定模型，获得所述行为策略确定模型输出的用于推动所述当前对话积极进行的所述第一行为类别；

其中，所述行为策略确定模型是通过强化学习和第一对话，对待训练的行为策略确定模型进行训练而获得的。

可选的，通过强化学习和所述第一对话，对待训练的行为策略确定模型进行训练，包括：

从所述第一对话中，获得相对应的第一待回复文本和第一对话策略信息；

基于所述第一待回复文本和所述第一对话策略信息，确定相应的第二行为类别、第一对话回复文本和用户回复文本；其中，所述第二行为类别是基于待训练的行为策略确定模型确定出的用于推动所述第一对话积极进行的行为类别，所述用户回复文本为用户针对所述第一对话回复文本输入的回复文本；

将所述第一待回复文本、所述第一对话策略信息、所述第二行为类别和所述用户回复文本输入到训练好的奖励模型中，获得所述奖励模型输出的第一奖励值；其中，所述奖励模型是通过使用训练样本对基础模型进行训练获得的，所述训练样本包括用户输入文本、第二对话策略信息、第三行为类别、用户回复文本和第二奖励值。

基于所述第一奖励值，对待训练的行为策略确定模型的模型参数进行更新。

可选的，所述基于所述第一奖励值，对待训练的行为策略确定模型的模型参数进行更新，包括：

基于所述第一奖励值，获得所述第一对话的整体奖励值；

按照优化所述整体奖励值的目标，对待训练的行为策略确定模型的模型参数进行更新。

可选的，所述基于所述第一奖励值，获得所述第一对话的整体奖励值，包括：

将所述第一奖励值输入到预先建立的整体奖励值确定模型中，获得所述整体奖励值确定模型输出的所述整体奖励值。

可选的，所述待处理信息还包括与所述待回复文本对应的上下文文本；所述确定与所述待回复文本对应的第一候选回复文本，包括：

将所述待回复文本和所述上下文文本输入至训练好的候选回复生成模型，获得所述候选回复生成模型生成并输出的所述第一候选回复文本；

其中，所述候选回复生成模型是通过使用训练样本对基础模型训练出的模型，所述训练样本包括用户输入文本、上下文文本和机器回复文本。

本发明还提供一种对话处理装置，包括：第一获得单元、第一确定单元、第二确定单元、第三确定单元、第四确定单元和第一输出单元；其中：

所述第一获得单元，用于从当前对话中获得待处理信息，所述待处理信息至少包括待回复文本；

所述第一确定单元，用于确定与所述待回复文本对应的第一候选回复文本；

所述第二确定单元，用于确定与所述第一候选回复文本对应的第一行为类别；

所述第三确定单元，用于基于预定义的行为类别确定方式，确定出用于推动所述当前对话积极进行的所述第一行为类别；

所述第四确定单元，用于将与用于推动所述当前对话积极进行的所述第一行为类别对应的所述第一候选回复文本确定为对话回复文本；

所述第一输出单元，用于输出所述对话回复文本。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述对话处理方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述对话处理方法。

本发明提供的对话处理方法、装置、电子设备及存储介质，可以针对用户输入的待回复文本，输出可以推动当前对话朝着积极方向持续进行的对话回复文本，以推动当前对话朝着积极方向持续进行，避免当前对话朝着消极方向进行，可以有效保障对话服务质量，提升用户体验，增强用户粘性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的对话处理方法的流程示意图之一；

图2是本发明提供的对话处理方法的流程示意图之二；

图3是本发明提供的对话处理装置的结构示意图；

图4是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图2描述本发明的对话处理方法。

如图1所示，本发明提出第一种对话处理方法，该方法可以包括以下步骤：

S101、从当前对话中获得待处理信息，待处理信息至少包括待回复文本；

其中，当前对话可以为当前需要对用户输入文本进行机器回复的某个对话。

可选的，当前对话可以是当前与用户进行的、需要对用户输入文本进行机器回复的对话。

其中，用户输入文本即为用户输入的需要机器进行回复的文本。

其中，待处理信息可以是为对用户输入文本进行机器回复，而需要处理的信息。

其中，待回复文本可以是由用户输入的需要由机器回复的文本。

可选的，待回复文本可以是由用户通过文本输入方式直接输入的文本；

可选的，待回复文本可以是由用户通过语音输入或者图片输入等方式输入的文本。其中，本发明可以在获得用户通过语音输入或者图片输入等方式输入的数据后，通过相应的文本转换方式，将数据转换为相应的待回复文本。比如，本发明可以在获得用户通过语音输入的语音数据后，通过语音识别方式，将数据转换为相应的待回复文本。

可以理解的是，本发明的用户可以为人，也可以为机器。

S102、确定与待回复文本对应的第一候选回复文本；

其中，第一候选回复文本可以包括一个或多个候选回复文本。

可选的，本发明可以预先枚举聊天中可能的各种对话情景，设置用户可能会输入的问题文本或包含其他类型对话内容的待回复文本，在回复文本库中设置相对应的待回复文本和候选回复文本。此时，本发明可以根据用户输入的待回复文本，在回复文本库中检索出与该待回复文本对应的第一候选回复文本。

可选的，本发明可以预先训练出用于生成候选回复文本的候选回复生成模型，利用候选回复生成模型来生成第一候选回复文本。此时，本发明可以将待回复文本输入到候选回复生成模型中，获得由候选回复生成模型生成并输出的第一候选回复文本。其中，候选回复生成模型的训练样本可以包括有相对应的用户输入文本和机器回复文本。

可选的，在本发明提出的其他对话处理方法中，待处理信息还包括与待回复文本对应的上下文文本；此时，步骤S102可以包括：

将待回复文本和上下文文本输入至训练好的候选回复生成模型，获得候选回复生成模型生成并输出的第一候选回复文本；

其中，候选回复生成模型是通过使用训练样本对基础模型训练出的模型，训练样本包括用户输入文本、上下文文本和机器回复文本。

其中，基础模型可以为预训练的自然语言模型。

具体的，候选回复生成模型的训练样本可以包括相对应的用户输入文本、上下文文本和机器回复文本。

其中，用户输入文本即为用户某一次输入的需要由机器回复的文本。

其中，上下文文本可以包括用户输入文本在同一对话文本中的上文内容和/或下文内容。

其中，机器回复文本可以为机器针对用户输入文本输出的回复文本。

可选的，某个用户输入文本的上下文文本，可以包括该用户输入文本在同一对话文本中的全部上文内容；

可选的，某个用户输入文本的上下文文本，可以包括该用户输入文本在同一对话文本中的全部上文内容，以及用户在机器回复该用户输入文本之前输入的部分下文内容。比如，在一次对话中，用户输入文本为“他的最新发布歌曲是什么”，之后，用户紧接着输入某个明星的名字，此时机器还未进行回复，此时该用户输入文本的上下文文本，可以包括该用户输入文本在该对话中的全部上文对话内容，以及用户输入的明星名字。

具体的，本发明可以从对话样本中采集训练样本。其中，对话样本可以是一段完整的用户与机器之间进行的对话。需要说明的是，如果用户与机器之间进行了一段对话，当双方停止对话且停止时长不小于预设时长阈值时，则可以将该段对话确定为一段完整的对话。其中，该预设时长阈值可以是由技术人员按照实际情况制定，如20分钟。

可以理解的是，对话样本中可以包括多个用户输入文本和多个机器回复文本。本发明可以从一个对话样本中采集多个训练样本，也可以从多个对话样本中采集多个训练样本。

具体的，本发明可以利用多个训练样本对基础模型进行训练，使其具有基于用户输入文本和上下文文本生成相应的回复文本的能力。当对基础模型的训练满足预设训练要求时，本发明可以将满足预设训练要求的基础模型确定为候选回复生成模型。其中，预设训练要求可以包括训练次数和模型性能要求等。

需要说明的是，本发明通过候选回复生成模型，可以有效提高候选回复文本的生成效率，避免在通过回复文本库确定第一候选回复文本时，无法全面枚举各类对话情景而可能导致无法匹配到相应的候选回复文本，或者导致确定出的第一候选回复文本与待回复文本匹配度较低的问题，有效保障第一候选回复文本的准确度。

可选的，本发明也可以同时使用上述回复文本库和候选回复生成模型，来确定与待回复文本对应的第一候选回复文本。

S103、确定与第一候选回复文本对应的第一行为类别；

需要说明的是，本发明可以按照候选回复文本的内容所对应的行为类别，对候选回复文本进行行为类别的划分。

可选的，候选回复文本对应的行为类别可以包括同意、不同意、提问和转移话题等。

其中，第一行为类别可以包括第一候选回复文本中各候选回复文本对应的行为类别。

具体的，本发明可以分别确定第一候选回复文本中各候选回复文本对应的行为类别，将各候选回复文本对应的行为类别确定为第一行为类别。

为更好的对候选回复文本对应的行为类别进行说明，本发明提出并结合下述例1所示的AI与用户之间的对话进行介绍。具体的，例1对话为：

AI：最近出去玩了吗

用户：没有

AI：为什么没有

用户：不想动

AI：那你平时有啥爱好吗

用户：打篮球

AI：你喜欢xxx吗

用户：喜欢，他的后仰跳投很帅

AI：我也觉得，他投篮也很准

用户：是的

AI：你觉得天赋和努力哪个更重要

用户：努力

需要说明的是，本发明可以将用户输入的“努力”确定为待回复文本，此时本发明可以生成下述第一候选回复文本：

1、我也这么觉得；

2、我觉得天赋更重要；

3、你为什么这么觉得；

4、你打篮球厉害吗；

具体的，上述四个候选回复文本对应的行为类别可以如表1所示。

表1 候选回复对应的行为类别

可以理解的是，候选回复文本对应的行为类别还可以包括中立、回答和回答并询问等。比如，用户在对话中输入“你喜欢篮球吗”，机器回复为“不喜欢”，此时机器回复所对应的行为类别即为“回答”；再比如，用户在对话中输入“你吃了吗”，机器回复为“没有，你呢”，此时机器回复对应的行为类别即为“回答并询问”

可选的，本发明可以在回复文本库中设置候选回复文本时，即可以同时标注与候选回复文本对应的行为类别。此时，本发明可以在获得用户输入的待回复文本后，确定相应的候选回复文本，以及候选回复文本对应的行为类别。

可选的，在本发明提出的其他对话处理方法中，步骤S103可以包括：

将待回复文本和第一候选回复文本输入至训练好的行为分类模型，获得行为分类模型输出的第一行为类别；其中，行为分类模型是通过使用训练样本对基础模型进行训练而获得的，训练样本中包括用户输入文本、机器回复文本和行为类别。

其中，训练样本可以包括相对应的用户输入文本、机器回复文本和行为类别。需要说明的是，行为类别即为机器回复文本对应的行为类别。

可以理解的是，本发明同样可以从对话样本中采集训练样本。

其中，基础模型可以为预训练的分类模型，如基于transformer的多分类模型。

具体的，本发明可以使用多个训练样本对基础模型进行训练，直至满足预设训练要求，将满足预设训练要求的基础模型确定为行为分类模型。

S104、基于预定义的行为类别确定方式，确定出用于推动当前对话积极进行的第一行为类别；

需要说明的是，现有技术中的智能对话服务，在与用户进行对话的过程中，存在对话行为不可控的问题，可能导致对话朝着消息的对话方向进行，比如AI一直输出重复的一句话，再比如AI一直输出没有信息量的话如“嗯”、“哦”和“好吧”等，再比如AI输出不礼貌语句、负面反馈语句如“我不想跟你聊天了”和“跟你聊天没意思”等，再比如AI输出非法语句等。此时，现有的智能对话服务无法保障用户体验，可能导致用户粘性不足。

具体的，本发明可以按照可推动对话朝着积极方向持续进行的对话策略，预先定义好行为类别确定方式，用于确定出能够推动对话朝着积极方向持续进行的行为类别。在与用户对话过程中，本发明可以通过使用预先定义好的行为类别确定方式，从第一行为类别中确定出可以推动对话朝着积极方向持续进行的目标行为类别，之后再根据目标行为类别从第一候选回复文本中确定出目标候选回复文本，将目标候选回复文本作为对话回复文本进行输出，以使得与用户的对话可以朝着积极方向持续进行。

可选的，本发明可以由技术人员预先指定最能够推动对话朝着积极方向持续进行的一个或多个行为类别（比如指定“询问”和“回答并询问”），将该一个或多个行为类别确定为最佳行为类别。此时，本发明可以将第一行为类别中存在的最佳行为类别确定为上述目标行为类别；

需要说明的是，不同的对话语境所对应的最佳行为类别可以是不同的。本发明可以由技术人员预先针对不同的对话语境，设置其对应的最佳行为类别。此时，待处理信息还可以包括待回复文本在当前对话中的上下文文本，即本发明可以获得待回复文本以及上下文文本，对待回复文本和上下文文本进行语义分析以确定出对话语境的类型，之后确定出第一行为类别中存在的与该对话语境的类型对应的最佳行为类别，将确定出的该最佳行为类别确定为上述目标行为类别；

需要说明的是，不同的用户所对应的最佳行为类别也可以是不同的。可选的，本发明可以考虑包括用户身份（如性别和职业）、兴趣和历史对话等信息在内的用户信息，来设置最佳行为类别。此时，本发明可以由技术人员预先根据用户信息设置相应的最佳行为类别；此时，本发明可以在获得第一行为类别后，确定出第一行为类别中存在的与用户信息对应的最佳行为类别，将该最佳行为类别确定为上述目标行为类别。

可选的，本发明可以综合考虑用户信息、对话语境类型和常用行为类别等特征信息，来预先设置相应的最佳行为类别。此时，本发明可以由技术人员根据用户信息、对话语境类型和常用行为类别等特征信息，预先设置相应的最佳行为类别；此时，本发明可以在获得第一行为类别后，确定出第一行为类别中存在的与特征信息对应的最佳行为类别，将该最佳行为类别确定为上述目标行为类别。

可选的，本发明也可以综合考虑用户信息、对话语境和常用行为类别等特征信息，预先训练出一个可以基于该特征信息确定目标行为类别的模型；此时，本发明可以利用该模型来从第一行为类别中确定出目标行为类别。

可选的，本发明也可以仅考虑待回复文本，来预先训练出一个可以基于待回复文本来确定目标行为类别的模型，利用该模型来从第一行为类别中确定出目标行为类别。此时，本发明可以先行从公开对话数据中采集训练样本，其中，该训练样本中可以包括用户输入文本以及相应的行为类别，该行为类别对应的回复文本可以有效推动对话朝着积极方向持续进行；之后，本发明可以使用训练样本对基础模型进行训练，获得满足预设训练要求的基础模型并将其视作为用于确定目标行为类别的模型；之后，本发明即可以使用该模型来从第一行为类别中确定出目标行为类别。

S105、将与用于推动当前对话积极进行的第一行为类别对应的第一候选回复文本确定为对话回复文本；

其中，用于推动当前对话积极进行的第一行为类别，即为上述目标行为类别。

其中，对话回复文本即为机器在与用户的对话中，针对待回复文本，向用户回复的文本。

具体的，本发明可以从第一候选回复文本中，确定出与上述目标行为类别对应的候选回复文本，将确定出的该候选回复文本确定为对话回复文本。

S106、输出对话回复文本。

具体的，本发明可以输出对话回复文本，以对用户输入的待回复文本进行回复。

需要说明的是，本发明通过图1中的各步骤，可以针对用户输入的待回复文本，输出可以推动当前对话朝着积极方向持续进行的对话回复文本，以推动当前对话朝着积极方向持续进行，避免当前对话朝着消极方向进行，可以有效保障对话服务质量，提升用户体验，增强用户粘性。

本发明提出的对话处理方法，可以从当前对话中获得待处理信息，待处理信息至少包括待回复文本；确定与待回复文本对应的第一候选回复文本；确定与第一候选回复文本对应的第一行为类别；基于预定义的行为类别确定方式，确定出用于推动当前对话积极进行的第一行为类别；将与用于推动当前对话积极进行的第一行为类别对应的第一候选回复文本确定为对话回复文本；输出对话回复文本。本发明可以针对用户输入的待回复文本，输出可以推动当前对话朝着积极方向持续进行的对话回复文本，以推动当前对话朝着积极方向持续进行，避免当前对话朝着消极方向进行，可以有效保障对话服务质量，提升用户体验，增强用户粘性。

基于图1，本发明提出第二种对话处理方法。在该方法中，待处理信息还包括与待回复文本对应的对话策略信息，对话策略信息为用于确定对话策略的信息；此时，步骤S104可以包括：

将待回复文本、对话策略信息和第一行为类别输入至训练好的行为策略确定模型，获得行为策略确定模型输出的用于推动当前对话积极进行的第一行为类别；

其中，行为策略确定模型是通过强化学习和第一对话，对待训练的行为策略确定模型进行训练而获得的。

具体的，对话策略信息可以用于确定采用何种对话策略，即采用何种行为类别对应的回复文本，对待回复文本进行回复，以进行与用户之间的对话。

可选的，对话策略信息可以包括待回复文本在当前对话中的上下文文本、当前对话的全局状态信息和/或当前状态信息。

其中，全局状态信息可以为当前对话在全局过程中的某些固定特征信息，比如用户信息和对话主题等。

其中，当前状态信息可以为用于评价当前对话的对话质量的信息，比如可以用户的聊天时间间隔、聊天频率和聊天情绪等，再比如可以包括机器的回复速率，再比如可以包括用于衡量对话可持续性、流畅性和/或逻辑性的指标。

其中，行为策略确定模型可以是用于确定目标行为类别的模型。

其中，第一对话可以是某个用户与机器进行的对话。

其中，待训练的行为策略确定模型可以为基础模型，也可以为需要继续进行训练的行为策略确定模型。其中，基础模型可以为预训练的分类模型，如基于transformer的多分类模型。

具体的，本发明可以通过利用强化学习系统和第一对话对待训练的行为策略确定模型进行训练，以使得待训练的行为策略确定模型可以具备基于待回复文本、对话策略信息和第一行为类别输出目标行为类别的能力。当对待训练的行为策略确定模型进行的训练满足预设训练要求时，本发明可以将其确定为训练好的行为策略确定模型。

可选的，通过强化学习和第一对话，对待训练的行为策略确定模型进行训练，包括步骤S201、S202、S203和S204；其中：

S201、从第一对话中，获得相对应的第一待回复文本和第一对话策略信息；

其中，第一对话可以是用户与机器之间的对话。

具体的，第一待回复文本可以为第一对话中的待回复文本。

其中，第一对话策略信息可以为第一待回复文本对应的对话策略信息。

S202、基于第一待回复文本和第一对话策略信息，确定相应的第二行为类别、第一对话回复文本和用户回复文本；其中，第二行为类别是基于待训练的行为策略确定模型确定出的用于推动第一对话积极进行的行为类别，用户回复文本为用户针对第一对话回复文本输入的回复文本；

具体的，本发明可以在获得第一待回复文本后，确定出与第一待回复文本对应的候选回复文本，之后确定出与该候选回复文本对应的行为类别，将第一待回复文本、第一对话策略信息和该行为类别输入至待训练的行为策略确定模型，获得行为策略确定模型从该行为类别中确定并输出的用于推动第一对话积极进行的行为类别，即第二行为类别。

具体的，本发明可以将与第二行为类别对应的候选回复文本确定为第一对话回复文本；

具体的，本发明可以输出第一对话回复文本，作为针对第一待回复文本的回复；之后，本发明可以获得用户针对第一对话回复文本输入的回复文本，即用户回复文本；

S203、将第一待回复文本、第一对话策略信息、第二行为类别和用户回复文本输入到训练好的奖励模型中，获得奖励模型输出的第一奖励值；其中，奖励模型是通过使用训练样本对基础模型进行训练获得的，训练样本包括用户输入文本、第二对话策略信息、第三行为类别、用户回复文本和第二奖励值。

其中，基础模型可以为预训练的分类模型，如基于Bert的分类模型。

具体的，奖励模型的训练样本中可以包括相对应的用户输入文本、对话策略信息、行为类别、用户回复文本和奖励值。本发明可以从对话样本中采集训练样本。其中，行为类别可以为与机器回复文本对应的行为类别，机器回复文本即为机器针对用户输入文本所回复的文本；用户回复文本即为用户针对机器回复文本所回复的文本；奖励值可以是由人工基于用户回复文本，针对与机器回复文本对应的行为类别所标注的对话质量标识，具体的，奖励值可以为对话质量评价分数，分数越高，可以说明其使用的行为类别的对话质量越好，该行为类别用于推动对话朝着积极方向的效果越好。

具体的，本发明可以使用多个训练样本对基础模型进行训练，使得基础模型具备可靠的模型能力，即基于用户输入文本、对话策略信息、行为类别和用户回复文本，生成用于评价行为类别对第一对话的积极推动作用效果的奖励值。当满足预设训练要求时，本发明可以将满足预设训练要求的基础模型确定为奖励模型。

需要说明的是，本发明在对奖励模型进行训练时，可以利用交叉熵计算方式来计算奖励模型的损失函数值，基于损失函数值更新奖励模型的模型参数。当损失函数值收敛时，即可以确定奖励模型的模型性能满足要求，可以结束训练。其中，损失函数可以为：

其中， N为类别的个数，预测为该类别的概率，代表该类别的真实标签。

其中，第一奖励值即为奖励模型生成的与第二行为类别对应的奖励值。

需要说明的是，强化学习中包括状态、代理、行动、环境和奖励等要素。具体的，本发明可以将相对应的待回复文本、对话策略信息和行为类别确定为状态；将待训练的行为策略确定模型确定为代理；将待训练的行为策略确定模型输出的行为类别确定为行动；将奖励模型确定为环境；将奖励模型针对行为类别输出的奖励值确定为奖励。

具体的，本发明可以利用奖励模型来对待训练的行为策略确定模型进行训练。其中，奖励模型可以在对待训练的行为策略确定模型进行训练过程中，用于鼓励待训练的行为策略确定模型作出正向行动，即确定出可推动对话朝着积极方向持续进行的行为类别。本发明通过奖励模型，可以使得待训练的行为策略确定模型按照作出正向行动的训练目标，对待训练的行为策略确定模型的模型参数进行更新，提升其作出正向行动的能力。

S204、基于第一奖励值，对待训练的行为策略确定模型的模型参数进行更新。

可选的，步骤S204可以包括：

基于第一奖励值，获得第一对话的整体奖励值；

按照优化整体奖励值的目标，对待训练的行为策略确定模型的模型参数进行更新。

具体的，本发明可以在第一对话中，分别确定出各机器回复文本对应的行为类别的奖励值，之后基于各行为类别的奖励值，获得第一对话的整体奖励值；之后，本发明可以按照优化该整体奖励值的目标，对待训练的行为策略确定模型的模型参数进行更新。

可选的，本发明在确定第一对话的整体奖励值时，可以将各行为类别对应的奖励值的和值直接确定为整体奖励值；

可选的，上述基于第一奖励值，获得第一对话的整体奖励值，包括：

将第一奖励值输入到预先建立的整体奖励值确定模型中，获得整体奖励值确定模型输出的整体奖励值。

其中，整体奖励值确定模型可以为：

----------------式（1）

其中，表示整个trajectory，即一局的概念，在此处可以表示为第一对话；为整体奖励值，即一局的整体奖励值即一段对话中所有时刻的奖励值之和，此处可以表示为第一对话的整体奖励值；为一个时间步对应的奖励值， t为时间步， N为时间步总值。其中，为(0,1)的值，本发明可以对每个时间步对应的奖励值进行一定程度的衰减，使得整体奖励值之和可以收敛。需要说明的是，每个时间步对应的奖励值均可以为奖励模型根据机器回复文本和用户回复产生的分数，即奖励模型针对一个机器回复文本对应的行为类别所输出的奖励值。

具体的，本发明可以按照上述获得整体奖励值和使用整体奖励值更新行为策略确定模型的过程，获得多个对话的整体奖励值，分别使用各对话的整体奖励值来更新行为策略确定模型的模型参数，对待训练的行为策略确定模型进行训练。

具体的，在上述式（1）的基础上，本发明可以通过下述式（2）来对待训练的行为策略确定模型进行优化，优化目标可以为最大化整体奖励值。

其中，为行为策略确定模型；行为策略确定模型的损失函数；最大化损失函数；为在行为策略确定模型的条件下，产生该局的概率；为一局中所有奖励值之和的期望；为初始状态的概率；表示当前状态，下一个时间步的状态；表示在给定该时间步的状态和行为时间转移到下一个状态的概率，在应用策略梯度方法进行更新时可以无需计算该项；为在 t时刻给定状态输出为的概率。

具体的，本发明可以在每个时间步，通过奖励模型计算得到该状态下的奖励值，即各机器回复文本对应的行为类别的奖励值，之后计算各奖励值的和值，计算所有时间步对应策略网络在当前状态下的输出，即，之后利用近端策略优化（ProximalPolicy Optimization，PPO）算法进行迭代优化。

需要说明的是，无论是对话系统和日常人与人聊天过程中，让对话能够持续并积极的进行是需要一定的聊天“技巧”或“策略”在里面的。然而现有的对话系统的实现中，机器表现出来的某些策略大多数是基于规则和或者利用预训练模型的能力而得到。其中，前者应用的场景较少，也很难枚举聊天中的各种情景，其次很容易误触发规则，导致对话体验下降；后者通过利用语言模型能生成一些较好的回复，但强依赖于训练数据的质量，其次对话的行为会不可控，可能会朝着消极的聊天方向进行。而本发明可以使用强化学习方式对行为策略确定模型进行训练，根据实时数据，使得行为策略确定模型学习到让对话能够持续并积极进行的对话策略，解决现有技术中的规则模型无法拓展策略的问题，解决预训练模型无法在对话中有针对性地采取策略的问题，有效保障和提升用户体验，增强用户粘性。

为更好的说明对行为策略确定模型的训练及应用过程，本发明提出图2所示的对话处理流程来进行介绍。需要说明的是，图2中的行为策略确定模型可以为待训练的行为策略确定模型。

如图2所示，用户在第二对话中输入的待回复文本可以为“努力”，此时，本发明可以获得与待回复文本对应的对话策略信息，该对话策略信息可以包括上下文文本、全局状态信息和当前状态信息；其中，上下文文本可以包括“AI：你喜欢哪个篮球明星；用户：xxx，我觉得他的天赋很高；AI：你觉得天赋和努力哪个更重要”，全局状态信息可以包括用户信息如用户性别、爱好和职业等。当前状态信息可以包括用于评价对话质量的信息，如用户聊天时间间隔和聊天频率等。

之后，本发明可以将待回复文本和上下文文本输入到候选回复生成模型中，获得候选回复生成模型输出的第二候选回复文本。如图2所示，第二候选回复文本可以包括四个候选回复文本，分别为：1.我也这么觉得；2.我觉得天赋更重要；3.你为什么这么觉得4.你打篮球厉害吗

之后，本发明可以将待回复文本和第二候选回复文本输入到行为分类模型中，获得行为分类模型输出的四种行为类别，即：1.同意；2.不同意；3.提问；4.转移话题。

之后，本发明可以将待回复文本、对话策略信息和四种行为类别输入到行为策略确定模型中，获得行为策略确定模型从该四种行为类别中确定并输出的用于推动第二对话朝着积极方向进行的行为类别，即最优行为类别；本发明可以将最优行为类别对应的候选回复文本作为对话回复文本，输出对话回复文本以对用户进行回复；本发明可以获得用户回复文本，即用户针对对话回复文本所回复的文本，如图2中所示的用户回复文本“好吧”；

之后，本发明可以通过奖励模型来确定与最优行为类别对应的奖励值。具体的，本发明可以将待回复文本、对话策略信息、最优行为类别和用户回复文本输入到奖励模型中，获得奖励模型输出的奖励值；

具体的，本发明可以通过奖励模型获得第二对话中各机器回复文本对应的最优行为类别的奖励值，当第二对话结束后，本发明可以基于各奖励值确定出第二对话的整体奖励值；

之后，本发明可以按照优化整体奖励值的目标，使用PPO算法进行迭代优化，对行为策略确定模型中的模型参数进行迭代更新。

本发明提出的对话处理方法，可以使用强化学习方式对行为策略确定模型进行训练，根据实时数据，使得行为策略确定模型学习到让对话能够持续并积极进行的对话策略，解决现有技术中的规则模型无法拓展策略的问题，解决预训练模型无法在对话中有针对性地采取策略的问题，有效保障和提升用户体验，增强用户粘性。

下面对本发明提供的对话处理装置进行描述，下文描述的对话处理装置与上文描述的对话处理方法可相互对应参照。

如图3所示，本发明提供一种对话处理装置，包括：第一获得单元301、第一确定单元302、第二确定单元303、第三确定单元304、第四确定单元305和第一输出单元306；其中：

第一获得单元301，用于从当前对话中获得待处理信息，待处理信息至少包括待回复文本；

第一确定单元302，用于确定与待回复文本对应的第一候选回复文本；

第二确定单元303，用于确定与第一候选回复文本对应的第一行为类别；

第三确定单元304，用于基于预定义的行为类别确定方式，确定出用于推动当前对话积极进行的第一行为类别；

第四确定单元305，用于将与用于推动当前对话积极进行的第一行为类别对应的第一候选回复文本确定为对话回复文本；

第一输出单元306，用于输出对话回复文本。

需要说明的是，第一获得单元301、第一确定单元302、第二确定单元303、第三确定单元304、第四确定单元305和第一输出单元306的具体处理过程及其带来的技术效果，可以参照本发明关于图1中步骤S101至S106的相关说明，不再赘述。

可选的，第二确定单元303，包括：第二输入单元和第二获得单元；其中：

第二输入单元，用于将待回复文本和第一候选回复文本输入至训练好的行为分类模型；其中，行为分类模型是通过使用训练样本对基础模型进行训练而获得的，训练样本中包括用户输入文本、机器回复文本和行为类别；

第二获得单元，用于获得行为分类模型输出的第一行为类别。

可选的，待处理信息还包括与待回复文本对应的对话策略信息，对话策略信息为用于确定对话策略的信息；第三确定单元304，包括：第三输入单元和第三获得单元；

第三输入单元，用于将待回复文本、对话策略信息和第一行为类别输入至训练好的行为策略确定模型;

第三获得单元，用于获得行为策略确定模型输出的用于推动当前对话积极进行的第一行为类别；

可选的，通过强化学习和第一对话，对待训练的行为策略确定模型进行训练，设置为：

从第一对话中，获得相对应的第一待回复文本和第一对话策略信息；

基于第一待回复文本和第一对话策略信息，确定相应的第二行为类别、第一对话回复文本和用户回复文本；其中，第二行为类别是基于待训练的行为策略确定模型确定出的用于推动第一对话积极进行的行为类别，用户回复文本为用户针对第一对话回复文本输入的回复文本；

将第一待回复文本、第一对话策略信息、第二行为类别和用户回复文本输入到训练好的奖励模型中，获得奖励模型输出的第一奖励值；其中，奖励模型是通过使用训练样本对基础模型进行训练获得的，训练样本包括用户输入文本、第二对话策略信息、第三行为类别、用户回复文本和第二奖励值。

基于第一奖励值，对待训练的行为策略确定模型的模型参数进行更新。

可选的，基于第一奖励值，对待训练的行为策略确定模型的模型参数进行更新，设置为：

基于第一奖励值，获得第一对话的整体奖励值；

可选的，基于第一奖励值，获得第一对话的整体奖励值，设置为：

可选的，待处理信息还包括与待回复文本对应的上下文文本；第一确定单元302，包括：第四输入单元和第四获得单元；

第四输入单元，用于将待回复文本和上下文文本输入至训练好的候选回复生成模型；

第四获得单元，用于获得候选回复生成模型生成并输出的第一候选回复文本；

本发明提出的对话处理装置，可以针对用户输入的待回复文本，输出可以推动当前对话朝着积极方向持续进行的对话回复文本，以推动当前对话朝着积极方向持续进行，避免当前对话朝着消极方向进行，可以有效保障对话服务质量，提升用户体验，增强用户粘性。

图4示例了一种电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行对话处理方法，该方法包括：

从当前对话中获得待处理信息，待处理信息至少包括待回复文本；

确定与待回复文本对应的第一候选回复文本；

确定与第一候选回复文本对应的第一行为类别；

基于预定义的行为类别确定方式，确定出用于推动当前对话积极进行的第一行为类别；

将与用于推动当前对话积极进行的第一行为类别对应的第一候选回复文本确定为对话回复文本；

输出对话回复文本。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的对话处理方法，该方法包括：

确定与待回复文本对应的第一候选回复文本；

确定与第一候选回复文本对应的第一行为类别；

输出对话回复文本。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种对话处理方法，其特征在于，包括：

确定与所述待回复文本对应的第一候选回复文本；

确定与所述第一候选回复文本对应的第一行为类别；

输出所述对话回复文本；

其中，所述待处理信息还包括与所述待回复文本对应的对话策略信息，所述对话策略信息为用于确定对话策略的信息；所述基于预定义的行为类别确定方式，确定出用于推动所述当前对话积极进行的所述第一行为类别，包括：

其中，所述行为策略确定模型是通过强化学习和第一对话，对待训练的行为策略确定模型进行训练而获得的；

通过强化学习和所述第一对话，对待训练的行为策略确定模型进行训练，包括：

将所述第一待回复文本、所述第一对话策略信息、所述第二行为类别和所述用户回复文本输入到训练好的奖励模型中，获得所述奖励模型输出的第一奖励值；其中，所述奖励模型是通过使用训练样本对基础模型进行训练获得的，所述训练样本包括用户输入文本、第二对话策略信息、第三行为类别、用户回复文本和第二奖励值；

2.根据权利要求1所述的对话处理方法，其特征在于，所述确定与所述第一候选回复文本对应的第一行为类别，包括：

3.根据权利要求1所述的对话处理方法，其特征在于，所述基于所述第一奖励值，对待训练的行为策略确定模型的模型参数进行更新，包括：

基于所述第一奖励值，获得所述第一对话的整体奖励值；

4.根据权利要求3所述的对话处理方法，其特征在于，所述基于所述第一奖励值，获得所述第一对话的整体奖励值，包括：

5.根据权利要求1所述的对话处理方法，其特征在于，所述待处理信息还包括与所述待回复文本对应的上下文文本；所述确定与所述待回复文本对应的第一候选回复文本，包括：

6.一种对话处理装置，其特征在于，包括：第一获得单元、第一确定单元、第二确定单元、第三确定单元、第四确定单元和第一输出单元；其中：

所述第一输出单元，用于输出所述对话回复文本；

其中，所述待处理信息还包括与所述待回复文本对应的对话策略信息，所述对话策略信息为用于确定对话策略的信息；所述第三确定单元，包括：第三输入单元和第三获得单元；

所述第三输入单元，用于将所述待回复文本、所述对话策略信息和所述第一行为类别输入至训练好的行为策略确定模型；

所述第三获得单元，用于获得所述行为策略确定模型输出的用于推动所述当前对话积极进行的所述第一行为类别；

通过强化学习和所述第一对话，对待训练的行为策略确定模型进行训练，设置为：

7.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述对话处理方法。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述对话处理方法。