CN109086329A

CN109086329A - 基于话题关键词引导的进行多轮对话方法及装置

Info

Publication number: CN109086329A
Application number: CN201810717504.3A
Authority: CN
Inventors: 姚丽丽; 祝文博; 雷欣
Original assignee: Chumen Wenwen Information Technology Co Ltd
Current assignee: Chumen Wenwen Information Technology Co Ltd
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2018-12-25
Anticipated expiration: 2038-06-29
Also published as: CN109086329B

Abstract

本发明实施例公开了一种基于话题关键词引导的进行多轮对话方法及装置，涉及自然语言处理技术领域，能够使机器侧输出越加丰富的、多样的、引起用户兴趣的回复以增加对话轮数。本发明实施例主要技术方案为：当检测到发起本轮对话操作时，获取用户输入的当前语句，一轮对话是指用户与机器进行的一次聊天对话；获取所述本轮对话对应的历史语句，所述历史语句是指在所述本轮对话之前所述用户与所述机器进行的聊天对话；获取所述历史语句对应的历史话题关键词；利用预置强化学习模型对所述当前语句、所述历史语句以及所述历史话题关键词进行处理，输出所述当前语句对应的回复语句。本发明实施例主要应用于处理动态的人机多轮对话。

Description

基于话题关键词引导的进行多轮对话方法及装置

技术领域

本发明实施例涉及自然语言处理技术领域，尤其涉及一种基于话题关键词引导的进行多轮对话方法及装置。

背景技术

近年来，随着人工智能技术的不断发展，人与机器对话不再是仅局限于特定场景，比如交互式问答、交互式推荐、面向任务地对话等等，同时也并不再仅是被应用在特定领域，比如航班订票系统、景区导航系统等等，而是还可以面向开放领域实现人与机器的多轮聊天，比如与聊天机器人进行对话。

目前，对于人机多轮对话的实现方案，是在单轮对话中引入按照预置策略部署的话题关键词，以用于引导机器与人进行自然语言交互。然而，随着人机对话轮数的增加，聊天的话题也将随之动态地演变，因而随着对话轮数被累加地越来越多，对于机器侧，若是仅仅依赖预先部署的话题关键词，在进行动态多轮对话过程中将越加地难于及时地、准确地预测下一轮对话的话题应该是什么，此时机器输出的回复语句将会偏离该轮对话主题内容，甚至是因不知如何输出回复语句而重复用户的当前语句，又或者接连给出通用回复词，比如“嗯嗯”、“好的”、“哈哈”等等，这将使得人与机器之间的聊天无法再进行下去。

发明内容

有鉴于此，本发明实施例提供一种基于话题关键词引导的进行多轮对话方法及装置，主要目的在于通过历史话题关键词的引导来优化处理每一轮的人机对话，使得机器在动态多轮对话过程中向用户输出越加丰富的、多样性的、甚至是引起用户兴趣的回复语句，继而尽可能地增加人与机器可进行的对话轮数，大大提升人与机器的聊天效果。

为了达到上述目的，本发明实施例主要提供如下技术方案：

第一方面，本发明实施例提供了一种基于话题关键词引导的进行多轮对话方法，该方法包括：

当检测到发起本轮对话操作时，获取用户输入的当前语句，一轮对话是指用户与机器进行的一次聊天对话；

获取所述本轮对话对应的历史语句，所述历史语句是指在所述本轮对话之前所述用户与所述机器进行的聊天对话；

获取所述历史语句对应的历史话题关键词；

利用预置强化学习模型对所述当前语句、所述历史语句以及所述历史话题关键词进行处理，输出所述当前语句对应的回复语句。

可选的，所述利用预置强化学习模型对所述当前语句、所述历史语句以及所述历史话题关键词进行处理，输出所述当前语句对应的回复语句，包括：

将所述当前语句与所述历史语句进行编码，生成线索语句向量；

将所述历史话题关键词进行编码，生成线索话题关键词向量；

将所述线索语句向量与所述线索话题关键词向量进行拼接得到线索关键词数据；

利用多层感知器对所述线索关键词数据进行处理，输出每个线索关键词对应的概率分布；

根据所述每个线索关键词对应的概率分布，选择出最大概率值对应的线索关键词作为所述本轮对话对应的当前话题关键词；

根据对所述线索语句向量与所述当前话题关键词进行的解码，生成所述本轮对话对应的回复语句。

可选的，在所述生成所述本轮对话对应的回复语句之后，所述方法还包括：

计算本轮利用预置强化学习模型输出所述回复语句操作对应的奖励值；

判断所述奖励值是否小于第一预设阈值；

若是，则利用预置策略更新所述多层感知器内参数。

可选的，在所述根据所述每个线索关键词对应的概率分布，选择出最大概率值对应的线索关键词作为所述本轮对话对应的当前话题关键词之后，所述方法还包括：

将所述当前话题关键词确定为所述本轮对话对应的话题关键词样本；

对所述本轮对话添加标识信息，所述标识信息用于唯一标识一轮对话；

建立所述标识信息与所述话题关键词样本之间的对应关系并存储。

可选的，所述获取所述历史语句对应的历史话题关键词，包括：

获取在本轮对话发生之前存储的标识信息；

提取所述标识信息对应的话题关键词样本；

将所述话题关键词样本确定为所述本轮对话对应的历史话题关键词。

可选的，所述方法还包括：

判断当前已发生的对话轮数是否达到第二预设阈值；

若是，则在所述本轮对话结束之后，停止与用户进行聊天对话。

可选的，所述方法还包括：

在当前已发生的对话轮数中，判断向用户连续输出相同回复语句的次数是否达到预设上限次数；

第二方面，本发明实施例还提供了一种基于话题关键词引导的进行多轮对话装置，该装置包括：

第一获取单元，用于当检测到发起本轮对话操作时，获取用户输入的当前语句，一轮对话是指用户与机器进行的一次聊天对话；

第二获取单元，用于获取所述本轮对话对应的历史语句，所述历史语句是指在所述本轮对话之前所述用户与所述机器进行的聊天对话；

第三获取单元，用于获取所述第二获取单元获取的历史语句对应的历史话题关键词；

处理单元，用于利用预置强化学习模型对所述第一获取单元获取的当前语句、所述第二获取单元获取的历史语句以及所述第三获取单元获取的历史话题关键词进行处理，输出所述当前语句对应的回复语句。

可选的，所述处理单元包括：

第一编码模块，用于将所述当前语句与所述历史语句进行编码，生成线索语句向量；

第二编码模块，用于将所述历史话题关键词进行编码，生成线索话题关键词向量；

拼接模块，用于将经所述第一编码模块生成的线索语句向量与经所述第二编码模块生成的线索话题关键词向量进行拼接得到线索关键词数据；

处理模块，用于利用多层感知器对经所述拼接模块得到的线索关键词数据进行处理，输出每个线索关键词对应的概率分布；

选择模块，用于根据所述处理模块输出的每个线索关键词对应的概率分布，选择出最大概率值对应的线索关键词作为所述本轮对话对应的当前话题关键词；

解码模块，用于根据对经所述第一编码模生成的线索语句向量与经所述选择模块确定的当前话题关键词进行的解码，生成所述本轮对话对应的回复语句。

可选的，所述处理单元还包括：

计算模块，用于计算本轮利用预置强化学习模型输出所述回复语句操作对应的奖励值；

判断模块，用于判断所述计算模块计算的奖励值是否小于第一预设阈值；

更新模块，用于当所述判断模块判断所述奖励值是小于第一预设阈值时，利用预置策略更新所述多层感知器内参数。

可选的，所述处理单元还包括：

确定模块，用于将所述当前话题关键词确定为所述本轮对话对应的话题关键词样本；

添加模块，用于对所述本轮对话添加标识信息，所述标识信息用于唯一标识一轮对话；

建立模块，用于建立所述添加模块添加的标识信息与所述确定模块确定的话题关键词样本之间的对应关系并存储。

可选的，所述第三获取单元包括：

获取模块，用于获取在本轮对话发生之前存储的标识信息；

提取模块，用于提取所述获取模块获取的标识信息对应的话题关键词样本；

确定模块，用于将所述提取模块提取的话题关键词样本确定为所述本轮对话对应的历史话题关键词。

可选的，所述装置还包括：

判断单元，用于判断当前已发生的对话轮数是否达到第二预设阈值；

停止单元，用于当所述判断单元判断当前已发生的对话轮数达到第二预设阈值时，在所述本轮对话结束之后，停止与用户进行聊天对话。

可选的，所述判断单元，还用于在当前已发生的对话轮数中，判断向用户连续输出相同回复语句的次数是否达到预设上限次数；

所述停止单元，还用于当所述判断单元判断向用户连续输出相同回复语句的次数达到预设上限次数时，在所述本轮对话结束之后，停止与用户进行聊天对话。

第三方面，本发明实施例还提供一种电子设备，包括：

至少一个处理器；

以及与所述处理器连接的至少一个存储器、总线；其中，

所述处理器、存储器通过所述总线完成相互间的通信；

所述处理器用于调用所述存储器中的程序指令，以执行上述任一项所述的基于话题关键词引导的进行多轮对话方法。

第四方面，本发明实施例还提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述任一项所述的基于话题关键词引导的进行多轮对话方法。

借由上述技术方案，本发明实施例提供的技术方案至少具有下列优点：

本发明实施例提供的一种基于话题关键词引导的进行多轮对话方法及装置。本发明实施例是通过利用预置强化学习模型对用户输入的当前语句、在本轮对话发生之前每轮对话的历史语句、历史语句对应的历史话题关键词进行处理来输出回复语句，以对当前一轮的人机对话做出回应，依据上述机器输出回复语句的方法，实现优化处理人与机器进行的多轮对话。与现有技术相比较，避免因随着对话轮数逐渐增多，机器输出的回复语句将会偏离当前对话主题内容，甚至是因不知如何输出回复语句而重复用户的当前语句，又或者接连给出通用回复词，导致出现人机聊天对话无法再进行下去的情形，本发明实施例主要是在处理每轮对话时引入历史话题关键词，继而即使在因随着对话轮数被累加地越来越多而聊天的话题也将随之动态地演变的前提下，机器仍然可以向用户输出越加丰富的、多样性的、甚至是引起用户兴趣的回复语句，从而尽可能地增加人与机器可进行的对话轮数，大大提升人与机器的聊天效果。

上述说明仅是本发明实施例技术方案的概述，为了能够更清楚了解本发明实施例的技术手段，而可依照说明书的内容予以实施，并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明实施例的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明实施例的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种基于话题关键词引导的进行多轮对话方法流程图；

图2示出了本发明实施例提供的另一种基于话题关键词引导的进行多轮对话方法流程图；

图3示出了本发明实施例提供的利用预置强化学习模型对当前语句、历史语句以及历史话题关键词进行处理的流程图；

图4示出了本发明实施例提供的一种基于话题关键词引导的进行多轮对话装置的组成框图；

图5示出了本发明实施例提供的另一种基于话题关键词引导的进行多轮对话装置的组成框图；

图6示出了本发明实施例提供的一种基于话题关键词引导的进行多轮对话的电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明实施例的示例性实施例。虽然附图中显示了本发明实施例的示例性实施例，然而应当理解，可以以各种形式实现本发明实施例而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明实施例，并且能够将本发明实施例的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种基于话题关键词引导的进行多轮对话方法，如图1所示，该方法是通过利用预置强化学习模型对用户输入的当前语句、在本轮对话发生之前每轮对话的历史语句、历史语句对应的历史话题关键词进行处理来输出本轮人机对话对应的回复语句，依据上述机器输出回复语句的方法，实现优化处理人与机器进行的多轮对话，对此本发明实施例提供以下具体步骤：

101、当检测到发起本轮对话操作时，获取用户输入的当前语句。

其中，一轮对话是指用户与机器进行的一次聊天对话。

其中，当前语句是指对于当前一轮人机对话，用户输入的语句数据，对于本发明实施例，当用户输入当前语句时，也就是发起了一轮人与机器对话。具体的，用户可以通过在终端的操作界面上打字输入语句数据，或者是一键触发终端上预先定义的对话发起图标以语音的形式输入语句数据，在本发明实施例中包括但不限于上述的用户输入当前语句的方法，在此不再一一例举。

在本发明实施例中，当用户侧是以文字形式输入语句数据时，机器侧可以通过输入法应用程序检测到用户侧发起了一轮对话，并获取到该文字数据作为用户输入的当前语句。当用户侧是以语音形式输入语句数据时，机器侧可以通过内置的语音识别模块或者外接的收音装置(比如：麦克风)检测到用户侧发起了一轮对话，并获取到该语音数据作为用户输入的当前语句。需要说明的是，用户与机器进行的一轮对话可以是用户与机器之间的问与答，例如：

用户：今天星期几呀？

机器：今天是星期一。

但是，用户与机器进行的一轮对话不仅局限于上述问与答形式，例如：

用户：你好聪明啊。

机器：哪有，你懂的知识好多，你才是真正的聪明人。

102、获取本轮对话对应的历史语句。

其中，历史语句是指在本轮对话之前用户与机器进行的聊天对话。比如，在本轮对话之前，用户与机器已经进行两轮对话，因而将该两轮对话分别对应的用户输入的当前语句与机器输出的回复语句作为本轮对话的历史语句。

在本发明实施例中，当检测到用户发起本轮对话时，在机器侧，应该优先获取本轮对话对应的历史语句。因用户与机器进行的一次对话包括但不仅局限于用户与机器之间的问与答，并且随着人机对话的轮数逐渐增多，用户与机器聊天对话涉及内容也是在不断变迁的，但是即使在这样的前提下，在机器侧也可以依据获取到的历史语句数据分析出用户聊天的倾向性、关注焦点。因此，可以将本轮对话对应的历史语句作为语料数据，以便于在机器侧在利用预置强化学习模型处理每轮人机对话输出回复语句的过程中可以从该语料数据中获取到有价值的线索词，以有助于在机器侧输出令用户感兴趣的回复语句，同时还可以结合该语料数据向用户输出丰富的、多样性的回复语句。

103、获取历史语句对应的历史话题关键词。

其中，历史话题关键词是指每轮人机交互的历史语句对应的话题关键词，比如在本轮对话之前，用户与机器已经进行两轮对话，将该两轮对话分别对应的用户输入的当前语句与机器输出的回复语句作为本轮对话的历史语句，其中，在上述两轮对话中每一轮历史语句中包含的话题关键词也就是该轮对话对应的历史话题关键词。

在本发明实施例中，当获取到本轮对话对应的历史语句之后，还应该根据每轮对话的历史语句获取每轮对话的历史话题关键词，将多个历史话题关键词累加，最终获取到本轮对话对应的历史话题关键词。因历史话题关键词可以清楚地表明一轮对话的谈论的核心主题，随着人机对话的轮数逐渐增多，依据历史话题关键词有助于在机器侧分析在动态的多轮对话中话题的演变，所以历史话题关键词可以作为引导因素，也就是，相当于是线索词，有助于在机器侧及时地、准确地预测出本轮对话的话题关键词，以便于在机器侧输出的回复语句是适合本轮对话的，避免出现脱离本轮对话内容主题的情形。

104、利用预置强化学习模型对当前语句、历史语句以及历史话题关键词进行处理，输出当前语句对应的回复语句。

在本发明实施例中，当前语句、历史语句以及历史话题关键词相当于是输入预置强化学习模型的语料数据，当利用预置强化学习模型对用户输入的当前语句、在本轮对话发生之前每轮对话的历史语句、历史语句对应的历史话题关键词进行处理，相当于是从上述语料数据中提取出有助于输出回复语句的线索词，由于该线索词并不是随机获取的，而是相当于是对在本轮对话之前人机之间交互的自然语言的历史数据进行分析而得到的，因而选取到的线索词是充分地考虑对人机未来对轮对话的影响。进一步的，结合上述步骤102-103分析的历史语句、历史话题关键词对动态多轮对话的影响，本发明实施例通过利用预置强化学习模型处理而得到的回复语句，还可以尽最大可能地确保输出的本轮对话对应的回复语句是丰富的、多样性的，同时避免出现答非所问、甚至偏离主题的情形。

例如：在用户与机器进行的多轮对话过程中，截取如下两轮对话，该截取的对话表明在机器侧输出回复语句时出现答非所问、甚至不知如何回复而给出通用回复词的情形。

用户：我能说我高中三年梳的都是球头嘛，这是学校规定。

机器：哈哈。

用户：球头一点也不好看。

机器：哈哈。

在本发明实施例中，通过利用预置强化学习模型对当前语句、历史语句以及历史话题关键词进行处理，输出当前语句数据对应的回复语句，例如：在用户与机器进行的多轮对话过程中，截取如下三轮对话：

用户：我能说我高中三年梳的都是球头嘛，这是学校规定。

机器：哦哦，这样啊。美女，你今天回去了吗？

用户：明天回学校，我需要回去做毕业设计。

机器：明天有雨，你怎么回去？

用户：这样啊，我就不坐长途汽车，改坐火车。

机器：路上注意安全。

将该截取的对话与上述示例对比可知，机器侧输出的回复语句是越加丰富的、多样性的、甚至是引起用户兴趣的回复，由此尽可能地将增加用户与机器可进行的对话轮数，使得用户与机器之间的聊天可以进行下去，大大提升用户与机器的聊天效果。

本发明实施例提供的一种基于话题关键词引导的进行多轮对话方法。本发明实施例是通过利用预置强化学习模型对用户输入的当前语句、在本轮对话发生之前每轮对话的历史语句、历史语句对应的历史话题关键词进行处理来输出回复语句，以对当前一轮的人机对话做出回应，依据上述机器输出回复语句的方法，实现优化处理人与机器进行的多轮对话。与现有技术相比较，避免因随着对话轮数逐渐增多，机器输出的回复语句将会偏离当前对话主题内容，甚至是因不知如何输出回复语句而重复用户的当前语句，又或者接连给出通用回复词，导致出现人机聊天对话无法再进行下去的情形，本发明实施例主要是在处理每轮对话时引入历史话题关键词，继而即使在因随着对话轮数被累加地越来越多而聊天的话题也将随之动态地演变的前提下，机器仍然可以向用户输出越加丰富的、多样性的、甚至是引起用户兴趣的回复语句，从而尽可能地增加人与机器可进行的对话轮数，大大提升人与机器的聊天效果。

为了对上述实施例做出更加详细的说明，本发明实施例还提供了另一种基于话题关键词引导的进行多轮对话方法，如图2所示，该方法是在利用预置强化学习模型对当前语句、历史语句以及历史话题关键词进行处理过程中，生成本轮对话对应的当前话题关键词，以用于引导生成本轮对话对应的回复语句，对此本发明实施例提供以下具体步骤：

201、当检测到发起本轮对话操作时，获取用户输入的当前语句。

其中，一轮对话是指用户与机器进行的一次聊天对话。

在本发明实施例中，对于本步骤的具体陈述，请参见步骤101，此处不再赘述。

202、获取本轮对话对应的历史语句。

在本发明实施例中，对于本步骤的具体陈述，请参见步骤102，此处不再赘述。

203、获取历史语句对应的历史话题关键词。

在本发明实施例中，在利用预置强化学习模型对当前语句、历史语句以及历史话题关键词进行处理的过程中，可以得到本轮对话对应的当前话题关键词，在此可以将当前话题关键词作为下一轮对话的历史话题关键词。

例如，预设用户与机器进行三轮对话，在初始对话时不存在历史话题关键词，利用预置强化学习模型对当前语句进行处理的过程中，可以得到该初始对话对应的当前话题关键词。当用户发起与机器的第二轮对话时，上述初始对话对应的聊天语句是本轮对话的历史语句，上述初始对话过程中生成的当前话题关键词是本轮对话的历史话题关键词。当用户发起与机器的第三轮对话时，上述初始对话与上述第二轮对话分别对应的聊天语句都是本轮对话的历史语句，上述初始对话过程中与上述第二轮对话过程中分别生成的当前话题关键词都是本轮对话的历史话题关键词。

在本发明实施例中，历史话题关键词不是随机选取的，而是通过预置强化学习模型计算得到的，同时随着对话轮数的不断增多，相应的，下一轮对话对应的历史话题关键词的数量也在逐渐增多，因而通过上述方法得到的历史话题关键词更加有助于提高预测本轮对话的话题关键词的准确性。

204、利用预置强化学习模型对当前语句、历史语句以及历史话题关键词进行处理，输出当前语句对应的回复语句数据。

在本发明实施例中，对步骤203、步骤204进行进一步地详细说明。

在本步骤204中，利用预置强化学习模型对当前语句、历史语句以及历史话题关键词进行处理的具体步骤，如下：

第一，将当前语句与历史语句进行编码，生成线索语句向量。

在本发明实施例中，可以利用预置强化学习模型的神经元长短期记忆网络(LongShort-TermMemory，LSTM)对当前语句与历史语句进行编码，生成线索语句向量。

第二，将历史话题关键词进行编码，生成线索话题关键词向量。

在本发明实施例中，可以利用预置强化学习模型的神经元LSTM对历史话题关键词进行编码，生成线索语句向量。

第三，将线索语句向量与线索话题关键词向量进行拼接得到线索关键词数据。

第四，利用多层感知器对线索关键词数据进行处理，输出每个线索关键词对应的概率分布。

在本发明实施例中，在多层感知器(Multi-layerPerceptron，MLP)内预先定义包含2000个话题信息的话题词表，在此2000个话题信息相当于是2000个话题维度，因而可以将该话题词表认为是近似于包含所有日常聊天信息维度的话题信息库。将上述获得的线索关键词数据输入MLP，利用MLP对线索关键词数据进行处理，输出在这2000个话题维度上每个线索关键词对应的概率分布。

第五，根据每个线索关键词对应的概率分布，选择出最大概率值对应的线索关键词作为本轮对话对应的当前话题关键词。

在本发明实施例中，线索关键词对应的概率值越大，该线索关键词是本轮对话对应的当前话题关键词的可能性越大，因而根据每个线索关键词对应的概率分布，选择出最大概率值对应的线索关键词，将其预测为本轮对话对应的当前话题关键词。

进一步的，在本发明实施例中，在预测本轮对话对应的当前话题关键词之后，还将当前话题关键词作为话题关键词样本存储起来，以将其用做下一轮人机对话的历史话题关键词，具体的，存储话题关键词样本的步骤包括：将当前话题关键词确定为本轮对话对应的话题关键词样本，对本轮对话添加标识信息，该标识信息用于唯一标识一轮对话，建立标识信息与话题关键词样本之间的对应关系并存储。对于存储话题关键词样本的存储区域包括但不限于可以是在构建预置强化学习模型时预留的存储空间，也可以是本地计算机的缓存。

进一步的，当用户发起一轮人机对话时，从存储区域内提取本轮对话的历史话题关键词的具体步骤，包括：获取在本轮对话发生之前存储的标识信息，提取标识信息对应的话题关键词样本，将话题关键词样本确定为本轮对话对应的历史话题关键词。在此充分考虑到历史话题关键词对引导本轮输出回复语句的有效性，也就是，距离本轮对话时间越近的一轮对话生成的当前话题关键词对本轮对话引导性越强，相反的，距离本轮对话时间越久的一轮对话生成的当前话题关键词对本轮对话引导性越弱，据此，在上述获取在本轮对话发生之前存储的标识信息之前，可以预先设置距离本轮对话的时间范围或者距离本轮对话的轮数范围，以用于在该范围内提取标识信息，进而利用提取的标识信息对存储区域内待提取的话题关键词样本进行筛选，以提取对本轮对话输出回复语句影响更大的话题关键词样本，同时还减少提取数据量，节约系统处理资源，最终目的还是加快利用预置强化学习模型输出本轮对话的回复语句的效率。

第六，根据对线索语句向量与当前话题关键词进行的解码，生成本轮对话对应的回复语句数据。

在本发明实施例中，相应的，可以利用预置强化学习模型的神经元LSTM对线索语句向量与当前话题关键词进行解码，并生成本轮对话对应的机器回复语句数据。

进一步的，在本发明实施例中，在利用预置强化学习模型生成本轮对话对应的回复语句数据之后，还计算本轮利用预置强化学习模型输出回复语句数据操作对应的奖励值，公式(1)如下：

reward＝(kw与query的相似度+kw与reply的相似度)+(kw与历史话题关键词的平均相似度) 公式(1)

其中，reward是奖励值，kw是当前话题关键词，query是当前语句，reply是回复语句。

进一步的，当判断奖励值是小于预设阈值时，则表明本轮利用预置强化学习模型生成的回复语句数据不是令人满意的，也就是本轮的人机聊天效果不好，其很大可能性是预测的本轮对话的当前话题关键词不够准确，因而应该通过更新MLP内参数，以优化选择的当前话题关键词的操作，比如：本轮对话对应的当前话题关键词是“游戏”，但是根据“游戏”生成的回复语句，相应求得奖励值很小，因而表明当机器输出该回复语句使得本轮聊天效果不好，因而通过更新MLP内参数，当利用预置强化学习模型处理下一轮对话时，使得话题词“游戏”的概率值不是最大的，因而就可以避免再次选择“游戏”作为下一轮对话对应的当前话题关键词。对于本发明实施例，上述不断修改MLP内参数的过程，也相当于是对该预置强化学习模型优化的过程，当输出的当前话题关键词越倾向于用户的聊天需求时，该预置强化学习模型输出的回复语句与将是令用户越满意的，进而增进用户与机器对话的兴趣，才能尽最大可能地增加用户与机器对话轮数。

在本发明实施例中，利用预置策略更新MLP内参数，具体的，预置策略可以是采用策略梯度进行优化，优化梯度公式(2)如下：

其中，a是选中的当前话题关键词，c是线索语句向量，kw是线索话题关键词向量，P是MLP输出的被选中的当前话题关键词的概率，R是奖励值，θ是指一般在行业内统一用θ表示神经网络中涉及的参数，比如MLP内的参数，J是损失函数。

需要说明的是，在训练预置强化学习模型时，利用上述公式(2)可以不断更新MLP内参数。但是当公式(1)reward值越大的前提下计算该reward值对应的当前话题关键词的概率值也是最大的时，又或者依据该公式(2)对损失函数求梯度，当损失函数表示的曲线开始收敛并达到损失差值不大至可忽略不计时，当达到上述两种情况时，可以不必再更新MLP内参数。上述是在训练预置强化模型时对公式(1)、(2)的应用。在本发明实施例中，该预置强化学习模型应该在被训练后比较成熟的模型，因而此时MLP内参数应该是比较佳的状态，但是不排除出现reward值偏低的可能，因而可以通过判断reward是否小于预设阈值时，来决定是否有必要按照上述预置策略更新MLP内参数，以最终目的是提高reward值，也就是尽最大可能输出令用户满意的回复语句。

205、在当前已发生的对话轮数中，判断向用户连续输出相同回复语句的次数是否达到预设上限次数。

206、若向用户连续输出相同回复语句的次数达到预设上限次数时，在本轮对话结束之后，停止与用户进行聊天对话。

在本发明实施例中，通过上述步骤205、206可知，虽然本发明实施例利用预置强化学习模型输出回复语句是丰富的、多样性的，但是随着人机对话轮数超过一定阈值时，也就是，进行的轮数达到本发明实施例提供的处理人机多轮对话方法的的处理极限时，在机器侧将出现连续多轮输出相同回复语句的情形，很大概率地，该相同回复语句是重复用户当前语句，又或者是通用回复词，因而表明机器侧已经无法再与用户进行有效的聊天了，此时应该结束当前机器与用户进行的会话窗口，以避免耗费系统处理资源，替代的方案是重新再开启一个机器与用户的会话窗口开始聊天。

进一步的，在本发明实施例中，避免出现上述进行的轮数达到本发明实施例提供的处理人机多轮对话方法的的处理极限，可以在机器侧预设对话轮数的上限次数，判断当前已发生的对话轮数是否达到该预设对话轮数的上限次数，若是，则在本轮对话结束之后，停止与用户进行聊天对话。

进一步的，如图3所示，本发明实施例还提供利用预置强化学习模型对当前语句、历史语句以及历史话题关键词进行处理的流程图，在此对图3的陈述，可以参考步骤201至步骤206，此处不再赘述。

进一步的，作为对上述图1、图2所示方法的实现，本发明实施例提供了一种基于话题关键词引导的进行多轮对话装置。该装置实施例与前述方法实施例对应，为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容，具体如图4所示，该装置包括：

第一获取单元31，用于当检测到发起本轮对话操作时，获取用户输入的当前语句，一轮对话是指用户与机器进行的一次聊天对话；

第二获取单元32，用于获取所述本轮对话对应的历史语句，所述历史语句是指在所述本轮对话之前所述用户与所述机器进行的聊天对话；

第三获取单元33，用于获取所述第二获取单元32获取的历史语句对应的历史话题关键词；

处理单元34，用于利用预置强化学习模型对所述第一获取单元31获取的当前语句、所述第二获取单元32获取的历史语句以及所述第三获取单元33获取的历史话题关键词进行处理，输出所述当前语句对应的回复语句。

进一步的，如图5所示，所述处理单元34包括：

第一编码模块3401，用于将所述当前语句与所述历史语句进行编码，生成线索语句向量；

第二编码模块3402，用于将所述历史话题关键词进行编码，生成线索话题关键词向量；

拼接模块3403，用于将经所述第一编码模块3401生成的线索语句向量与经所述第二编码模块3402生成的线索话题关键词向量进行拼接得到线索关键词数据；

处理模块3404，用于利用多层感知器对经所述拼接模块3403得到的线索关键词数据进行处理，输出每个线索关键词对应的概率分布；

选择模块3405，用于根据所述处理模块3404输出的每个线索关键词对应的概率分布，选择出最大概率值对应的线索关键词作为所述本轮对话对应的当前话题关键词；

解码模块3406，用于根据对经所述第一编码模3401生成的线索语句向量与经所述选择模块3405确定的当前话题关键词进行的解码，生成所述本轮对话对应的回复语句。

进一步的，如图5所示，所述处理单元34还包括：

计算模块3407，用于计算本轮利用预置强化学习模型输出所述回复语句操作对应的奖励值；

判断模块3408，用于判断所述计算模块3407计算的奖励值是否小于第一预设阈值；

更新模块3409，用于当所述判断模块3408判断所述奖励值是小于第一预设阈值时，利用预置策略更新所述多层感知器内参数。

进一步的，如图5所示，所述处理单元34还包括：

确定模块3410，用于将经所述选择模块3405确定的当前话题关键词确定为所述本轮对话对应的话题关键词样本；

添加模块3411，用于对所述本轮对话添加标识信息，所述标识信息用于唯一标识一轮对话；

建立模块3412，用于建立所述添加模块3411添加的标识信息与所述确定模块3410确定的话题关键词样本之间的对应关系并存储。

进一步的，如图5所示，所述第三获取单元33包括：

获取模块331，用于获取在本轮对话发生之前存储的标识信息；

提取模块332，用于提取所述获取模块331获取的标识信息对应的话题关键词样本；

确定模块333，用于将所述提取模块332提取的话题关键词样本确定为所述本轮对话对应的历史话题关键词。

进一步的，如图5所示，所述装置还包括：

判断单元35，用于判断当前已发生的对话轮数是否达到第二预设阈值；

停止单元36，用于当所述判断单元35判断当前已发生的对话轮数达到第二预设阈值时，在所述本轮对话结束之后，停止与用户进行聊天对话。

进一步的，如图5所示，所述判断单元35，还用于在当前已发生的对话轮数中，判断向用户连续输出相同回复语句的次数是否达到预设上限次数；

所述停止单元36，还用于当所述判断单元35判断向用户连续输出相同回复语句的次数达到预设上限次数时，在所述本轮对话结束之后，停止与用户进行聊天对话。

进一步的，本发明实施例还提供了一种基于话题关键词引导的进行多轮对话的电子设备，用于执行上述任一实施例所述的基于话题关键词引导的进行多轮对话方法，如图6所示，其中，所述电子设备包括处理器及存储器，上述第一获取单元、第二获取单元、第三获取单元以及处理单元等作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。具体的，本发明实施例所述的电子设备中包括：

至少一个处理器(processor)41；

以及与所述处理器41连接的至少一个存储器(memory)42、总线43；其中，

所述处理器41、存储器42通过所述总线43完成相互间的通信；

所述处理器41用于调用所述存储器42中的程序指令，以执行上述各方法实施例所提供的方法。其中，处理器41中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来使机器侧输出越加丰富的、多样的、引起用户兴趣的回复以增加对话轮数。

所述存储器42，可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flashRAM)，存储器42中包括至少一个存储芯片。

进一步的，本发明实施例提还供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述的基于话题关键词引导的进行多轮对话方法。

由于本实施例所介绍的基于话题关键词引导的进行多轮对话装置为可以执行本发明实施例中的基于话题关键词引导的进行多轮对话方法的装置，故而基于本发明实施例中所介绍的基于话题关键词引导的进行多轮对话方法，本领域所属技术人员能够了解本实施例的基于话题关键词引导的进行多轮对话装置的具体实施方式以及其各种变化形式，所以在此对于该基于话题关键词引导的进行多轮对话装置如何实现本发明实施例中的基于话题关键词引导的进行多轮对话方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中基于话题关键词引导的进行多轮对话方法所采用的装置，都属于本申请所欲保护的范围。

综上所述，本发明实施例提供的一种基于话题关键词引导的进行多轮对话方法及装置。本发明实施例是通过利用预置强化学习模型对用户输入的当前语句在本轮对话发生之前每轮对话的历史语句、历史语句对应的历史话题关键词进行处理来输出回复语句，在利用预置强化学习模型进行的处理过程中，还可以得到本轮对话对应的当前话题关键词，有助于准确地引导生成本轮对话的回复语句，依据上述机器输出回复语句的方法，实现优化处理人与机器进行的多轮对话。本发明实施例主要是在处理每轮对话时引入历史话题关键词，继而即使在因随着对话轮数被累加地越来越多而聊天的话题也将随之动态地演变的前提下，机器仍然可以向用户输出越加丰富的、多样性的、甚至是引起用户兴趣的回复语句，从而尽可能地增加人与机器可进行的对话轮数，大大提升人与机器的聊天效果。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitorymedia)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于话题关键词引导的进行多轮对话方法，其特征在于，所述方法包括：

获取所述历史语句对应的历史话题关键词；

2.根据权利要求1所述方法，其特征在于，所述利用预置强化学习模型对所述当前语句、所述历史语句以及所述历史话题关键词进行处理，输出所述当前语句对应的回复语句，包括：

3.根据权利要求2所述方法，其特征在于，在所述生成所述本轮对话对应的回复语句之后，所述方法还包括：

判断所述奖励值是否小于第一预设阈值；

若是，则利用预置策略更新所述多层感知器内参数。

4.根据权利要求2所述方法，其特征在于，在所述根据所述每个线索关键词对应的概率分布，选择出最大概率值对应的线索关键词作为所述本轮对话对应的当前话题关键词之后，所述方法还包括：

5.根据权利要求4所述方法，其特征在于，所述获取所述历史语句对应的历史话题关键词，包括：

获取在本轮对话发生之前存储的标识信息；

提取所述标识信息对应的话题关键词样本；

6.根据权利要求1至5中任一项所述方法，其特征在于，所述方法还包括：

判断当前已发生的对话轮数是否达到第二预设阈值；

7.根据权利要求1至5中任一项所述方法，其特征在于，所述方法还包括：

8.一种基于话题关键词引导的进行多轮对话装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：

至少一个处理器；

以及与所述处理器连接的至少一个存储器、总线；其中，

所述处理器、存储器通过所述总线完成相互间的通信；

所述处理器用于调用所述存储器中的程序指令，以执行权利要求1至权利要求7中任一项所述的基于话题关键词引导的进行多轮对话方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行权利要求1至权利要求7中任一项所述的基于话题关键词引导的进行多轮对话方法。