CN112256856A

CN112256856A - 机器人对话方法、装置、电子设备及存储介质

Info

Publication number: CN112256856A
Application number: CN202011279865.8A
Authority: CN
Inventors: 王培英; 陈蒙
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2021-01-22

Abstract

本发明实施例公开了一种机器人对话方法、装置、电子设备及存储介质，该方法包括：获取当前输入内容，其中，当前输入内容包括本次对话的历史对话内容、目标对象的当前输入语句、当前输入语句对应的意图数据和机器人的前一对话策略，该前一对话策略是当前对话轮次的前一对话轮次中机器人采用的对话策略；将当前输入内容输入已训练的对话模型中，以获得已训练的对话模型输出的当前对话策略；根据当前对话策略确定当前输入语句对应的当前回复语句，并向目标对象输出当前回复语句。解决了处于被动回答地位的机器人无法与目标对象进行多轮有效互动的问题。

Description

机器人对话方法、装置、电子设备及存储介质

技术领域

本发明实施例涉及计算机程序领域，尤其涉及一种机器人对话方法、装置、电子设备及存储介质。

背景技术

随着近年来人工智能技术的不断发展和成熟，智能对话机器人，比如客服机器人正逐渐分担传统人工客服的一些简单业务，快速高效地解决目标对象问题。

现有的客服机器人大多都是通过检索语料库、知识图谱或问答知识库返回匹配的答案，是以目标对象为主导的问答系统。

发明人在实现本发明的过程中发现，现有机器人对话方法至少存在：处于被动回答地位的机器人无法与目标对象进行有效互动的问题。

发明内容

本发明实施例提供了一种机器人对话方法、装置、电子设备及存储介质，解决了处于被动回答地位的机器人无法与目标对象进行有效互动的问题。

第一方面，本发明实施例提供了一种机器人对话方法，包括：

获取当前输入内容，其中，所述当前输入内容包括本次对话的历史对话内容、目标对象的当前输入语句、所述当前输入语句对应的意图数据和机器人的前一对话策略，所述前一对话策略是当前对话轮次的前一对话轮次中机器人采用的对话策略；

将所述当前输入内容输入已训练的对话模型中，以获得所述已训练的对话模型输出的当前对话策略；

根据所述当前对话策略确定所述当前输入语句对应的当前回复语句，并向所述目标对象输出所述当前回复语句；

其中，所述已训练的对话模型用于根据所述当前输入语句、所述意图数据和所述前一对话策略，使用自注意力机制对历史对话内容进行编码，根据编码结果确定机器人当前对话状态的表征数据，根据所述表征数据确定机器人的当前对话策略。

第二方面，本发明实施例还提供了一种机器人对话装置，包括：

获取模块，用于获取当前输入内容，其中，所述当前输入内容包括本次对话的历史对话内容、目标对象的当前输入语句、所述当前输入语句对应的意图数据和机器人的前一对话策略，所述前一对话策略是当前对话轮次的前一对话轮次中机器人采用的对话策略；

对话策略确定模块，用于将所述当前输入内容输入已训练的对话模型中，以获得所述已训练的对话模型输出的当前对话策略；

输出模块，用于根据所述当前对话策略确定所述当前输入语句对应的当前回复语句，并向所述目标对象输出所述当前回复语句；

第三方面，本发明实施例还提供了一种电子设备，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如任意实施例所述的机器人对话方法。

第四方面，本发明实施例还提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行任意实施例所述的机器人对话方法。

本发明实施例提供的机器人对话方法的技术方案，通过已训练的对话模型的编码机制自动忽略多轮对话内容中的无用信息，定位多轮对话内容中与当前输入内容相关的对话轮次，根据相关轮次的机器人的对话策略确定当前对话状态表征数据，由于该当前对话状态表征数据是根据相关对话轮次的对话内容确定的，因此具有较高的准确性，因此根据当前对话状态确定的机器人的当前对话策略具有较高的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的机器人对话方法的流程图；

图2A是本发明实施例一提供的学习模块的框架图；

图2B是本发明实施例一提供的又一学习模块的框架图；

图3是本发明实施例二提供的机器人对话装置的结构框图；

图4是本发明实施例三提供的电子设备的结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，以下将参照本发明实施例中的附图，通过实施方式清楚、完整地描述本发明的技术方案，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

图1是本发明实施例一提供的机器人对话方法的流程图。本实施例的技术方案适用于确定多轮对话场景中的机器人的当前对话策略的情况。该方法可以由本发明实施例提供的机器人对话装置来执行，该装置可以采用软件和/或硬件的方式实现，并配置在机器人的处理器中应用。该方法具体包括如下步骤：

S101、获取当前输入内容，其中，当前输入内容包括本次对话的历史对话内容、目标对象的当前输入语句、当前输入语句对应的意图数据和机器人的前一对话策略，该前一对话策略是当前对话轮次的前一对话轮次中机器人采用的对话策略。

其中，当前输入语句为目标对象当前输入的语句，历史对话内容为在该当前输入语句之前，目标对象与机器人的对话内容，比如，目标对象1：看中的鞋子没货了；机器人1、非常抱歉给您带来不便了；机器人2、您需要什么价位的，我帮您推荐一下；目标对象2：三口人使用。对于机器人3来说，当前输入语句为“目标对象2：三口人使用”，历史对话内容为“目标对象1：看中的鞋子没货了”、“机器人1、非常抱歉给您带来不便了”、“机器人2、您需要什么价位的，我帮您推荐一下”“目标对象2：三口人使用”。可以理解的是，机器人接收的输入语句可以是文字形式，也可以是语音形式。如果是语音形式，则优选通过语音识别方法将其转换成文字形式。

在一个实施例中，历史对话内容包括距离当前时刻的预设时间内，目标对象与机器人的所有对话内容，以避免出现因对话内容较多、对话时间较长导致当前输入内容包含较多无用信息的情况。

在一个实施例中，历史对话内容包括在距离当前时刻最近的预设数量的对话轮次中，目标对象与机器人的所有对话内容，以避免出现因对话内容较多、对话时间较长导致当前输入内容包含较多无用信息的情况。

其中，意图数据为基于当前输入语句或包含当前输入语句在内的多轮对话内容确定的对话意图。采用现有的意图确定方法来确定意图数据即可，本实施例在此不做具体限定。

其中，机器人可以是聊天机器人、客服机器人等用于提供自助语音服务的电子设备。

其中，机器人的前一对话策略，为机器人最新输出的对话内容所采用的策略，比如安抚、推荐、催拍等。比如，目标对象1：看中的鞋子没货了；机器人1、非常抱歉给您带来不便了；机器人2、您需要什么价位的，我帮您推荐一下；目标对象2：三口人使用。可见，机器人2，即机器人在第二轮对话中所使用的对话策略为推荐。在本次对话进入第三轮次时，将机器人在第二轮次使用的对话策略作为当前的前一对话策略。

在一个实施例中，在确定机器人在第一轮对话中的对话策略时，将预设初始对话策略作为其前一对话策略。预设初始对话策略可以是等待、开始等。

在一些实施例中，当前输入内容还包括当前对话轮次标识，用于标识当前输入语句为本次对话的第几轮。

S102、将当前输入内容输入已训练的对话模型中，以获得对话模型输出的当前对话策略。

其中，该已训练的对话模型用于根据目标对象的当前输入语句、意图数据和机器人的前一对话策略，使用自注意力机制对历史对话内容中的一个或多个轮次的对话内容进行编码，以得到机器人当前对话状态的表征数据，根据该表征数据确定机器人的当前对话策略，其中，该一个或多个轮次的对话内容对当前输入内容的贡献度大于其他轮次的对话内容对当前输入内容的贡献度。

可以理解的是，该已训练的对话模型可以自动忽略多轮对话中对当前输入内容没有关联或关联度很小的轮次的对话，自动定位并编码对当前输入内容贡献度高的对话轮次，从而使得根据编码结果确定的机器人的当前对话状态的表征数据具有较高的准确性，以及使根据当前对话状态的表征数据确定的当前对话策略具有较高的准确性。

如图2A所示，本实施例的对话模型包括第一模块和第二模块，其中，第一模块使用自注意力机制对当前输入内容中的一个或多个轮次的对话内容进行编码，并根据编码结果确定机器人当前对话状态的表征数据，其中，该一个或多个轮次的对话内容对当前输入内容的贡献度大于其他轮次的对话内容对当前输入内容的贡献度。第二模块用于根据编码结果确定当前对话状态的表征数据对应的预设对话策略，并将该预设对话策略作为当前对话策略。

在一个实施例中，第二模块用于确定候选集中的每个预设对话策略的表征数据，以得到表征策略集合；在表征策略集合中，确定与当前对话状态的表征数据的相似度最大的表征数据对应的预设对话策略，并将该预设对话策略作为机器人的当前对话策略；其中，候选集存储有至少两个预设对话策略。

在一个实施例中，第二模块用于确定候选集中的每个预设对话策略的表征数据，以得到表征策略集合；遍历表征策略集合，在检测到与当前对话状态的表征数据的相似度超过预设相似度阈值的表征数据时，将该表征数据对应的预设对话策略作为当前对话策略，其中，候选集存储有至少两个预设对话策略

在一个实施例中，表征策略集合存储在设定位置，第二模块直接在表征策略集合中，确定与当前对话状态的表征数据的相似度最大的表征数据对应的预设对话策略，并将该预设对话策略作为机器人的当前对话策略。

其中，第一模块优选为Transformer模型中的编码器模块。

其中，本实施例优选使用余弦相似度算法计算当前状态的表征数据与预设对话策略的表征数据的相似度。

可以理解的是，候选集所包含的预设对话策略与机器人的应用场景有关，对于电商平台机器人来说，其对应的候选集优选包括但不限于卖点营销、催拍、安抚、恭维、主动发问、商品推荐。对于同时适用于多场景的机器人来说，其优选被配置为包含多个候选集，且每个候选集对应一个应用场景。

在一些实施例中，如图2B所示，该对话模型还包括第一全连接层和第二全连接层，第一全连接层用于将当前状态的表征数据转换至预设向量空间以更新当前状态的表征数据；第二全连接层用于将历史策略集合中的每个历史对话策略的表征数据转换至该预设向量空间，以更新每个历史对话策略的表征数据。也就是说，更新后的当前状态的表征数据的维数与更新后的预设对话策略的表征数据的维数相同，从而可有效地应对变化的策略空间，提高了系统的扩展性。

其中，第一全连接层和第二全连接层采用现有技术的全连接层即可，本实施例在此不作具体限定。

示例性的，以表1中的对话内容为例。Q为目标对象输入的语句，A为机器人输出的语句。在检测到“Q₃：好的，我看看”时，将其作为目标对象的当前输入语句，将Q₁：看中的鞋子没货了；A₁、非常抱歉给您带来不便了；机A₂、您需要什么价位的，我帮您推荐一下；Q₂：三口人使用；A₃：这款您看下的呢JDHTTP作为本次对话的历史对话内容，将A3的对话策略“推荐”作为前一对话策略，将准备接受推荐作为意图数据，将标识3作为当前对话轮次。将上述历史对话内容、当前输入语句、目标对象的意图数据以及机器人的前一对话策略以及当前对话轮次作为当前输入内容，并输入已训练的对话模型中。该已训练的对话模型使用自注意力机制，根据当前输入语句、意图数据和前一对话策略和当前对话轮次对历史对话内容进行编码，并根据编码结果确定当前状态的表征数据，以表征目标对象当前处于的对话状态，然后根据相似度最高的原则，在候选集中确定该表征数据对应的预设对话策略，并将该预设对话策略作为当前对话策略。

在一个实施例中，该已训练的对话模型的工作过程为：对于表1中的当前输入语句“Q₃：好的，我看看”，该已训练的对话模型通过编码定位到“Q₁：看中的商品没了”，结合“Q₁：看中的商品没了”，可知“Q₃：好的，我看看”表明目标对象的意图是想看推荐物品，而且对话已进行至第四轮，判定目标对象当前处于已接受推荐状态，输出用于表征该已接受状态的表征数据。经相似度计算模块的相似度计算发现，该已接受推荐状态的表征数据与催拍的表征数据的匹配度最高，因此将催拍作为机器人的当前对话策略。需要说明的是，该工作过程为推理工作过程，其实际工作过程与对话模型训练过程中所使用的训练样本有关。

表1、人机对话表

对话轮次	对话语句	对话策略
			Q<sub>1</sub>	看中的商品没货了
A<sub>1</sub>	非常抱歉给您带来不便了	安抚
			A<sub>2</sub>	您家几口人需要什么价位的我给您推荐一下哈	主动发问
Q<sub>2</sub>	三口人使用
			A<sub>3</sub>	这款您看下的呢JDHTTP	推荐
Q<sub>3</sub>	好的，我看看
			A<sub>4</sub>	目前这款是有优惠活动的很不错的哦，看中尽快下单哦～	催拍

S103、根据当前对话策略确定当前输入语句对应的当前回复语句，并向目标对象输出当前回复语句。

在当前对话策略确定之后，根据确定的当前对话策略确定当前回复语句，并向目标对象输出当前回复语句。

在一个实施例中，对于固定的对话场景，每个对话策略均对应有至少两个对话语句，在当前对话策略确定之后，将其对应的所有对话语句中的一个作为当前回复语句输出。可以理解的是，每个对话策略对应的对话语句，既可以是能够直接输出的完整语句；也可以是语句框架，此时由机器人根据对话场景填充相应的内容，然后将填充后的语句框架作为当前回复语句输出。

在一个实施例中，对于不同的对话场景，每个对话策略对应有每个对话场景下的至少两个对话语句，在当前对话策略确定之后，将其在当前对话场景下的所有对话语句中的一个作为当前回复语句输出。

在一个实施例中，该对话模型在训练过程中使用的损失函数如下：

Loss_t＝max(μ₊-sim(a，b₊)，0)+max(u_{_}+sim(a，b_{_})，0)

其中，μ₊、u_{_}分别为预设常数，b₊为训练样本中标记的实际对话策略，b_{_}为在目标候选集中随机选取的历史对话策略的表征数据，a为当前对话状态的表征数据，sim(a，b₊)用于计算a与b₊的相似度；sim(a，b_{_})用于计算a与b_{_}的相似度，目标候选集为除去该实际对话策略的候选集；如果μ₊-sim(a，b₊)大于0，则max(μ₊-sim(a，b₊)，0等于μ₊-sim(a，b₊)，否则等于0；如果u_{_}+sim(a，b_{_})大于0，则max(u_{_}+sim(a，b_{_})，0)等于u_+sim(a，b_{_})，否则等于0。这意味着，当前对话状态的表征数据与正确对话策略的表征数据的相似度应尽量高，与错误的对话策略的表征数据的相似度应尽量低。可以理解的是，在Loss_t不再下降或者达到预设迭代次数时，停止本轮的训练。

相应地，全局损失为整个对话的所有轮次损失之和，具体为

L＝∑_tLoss_t

可以理解的是，在Loss_t不再下降或者达到预设迭代次数时，停止对话模型的所有训练，得到已训练的对话模型。

本发明实施例提供的机器人对话方法的技术方案，通过已训练的对话模型的编码机制自动忽略多轮对话内容中的无用信息，定位多轮对话内容中与当前输入内容相关的对话轮次，根据相关轮次的机器人的对话策略确定当前对话状态表征数据，由于当前对话状态表征数据是根据相关对话轮次的对话内容确定的，因此具有较高的准确性，因此根据当前对话状态确定的机器人的当前对话策略具有较高的准确性。

实施例二

图3是本发明实施例提供的机器人对话装置的结构框图。该装置用于执行上述任意实施例所提供的机器人对话方法，该装置可选为软件或硬件实现。该装置包括：

获取模块11，用于获取当前输入内容，其中，当前输入内容包括本次对话的历史对话内容、目标对象的当前输入语句、当前输入语句对应的意图数据和机器人的前一对话策略，前一对话策略是当前对话轮次的前一对话轮次中机器人采用的对话策略；

对话策略确定模块12，用于将当前输入内容输入已训练的对话模型中，以获得已训练的对话模型输出的当前对话策略；

输出模块13，用于根据当前对话策略确定当前输入语句对应的当前回复语句，并向目标对象输出所述当前回复语句；

其中，已训练的对话模型用于根据当前输入语句、意图数据和前一对话策略，使用自注意力机制对历史对话内容进行编码，根据编码结果确定机器人当前对话状态的表征数据，根据表征数据确定机器人的当前对话策略。

优选地，对话模型包括第一模块和第二模块，第一模块用于使用自注意力机制对当前输入内容中的一个或多个轮次的对话内容进行编码，并根据编码结果确定机器人当前对话状态的表征数据，其中，该一个或多个轮次的对话内容对当前输入内容的贡献度大于其他轮次的对话内容对当前输入内容的贡献度；第二模块用于根据编码结果确定当前对话状态的表征数据对应的预设对话策略，并将该预设对话策略作为当前对话策略。

优选地，第一模块为Transformer模型中的编码器模块，第二模块为相似度计算模块。

优选地，确定当前对话状态的表征数据对应的预设对话策略，以作为当前对话策略，包括：确定候选集中的每个预设对话策略的表征数据，以得到表征策略集合，候选集存储有至少两个预设对话策略；在表征策略集合中，确定与当前对话状态的表征数据的相似度最大的表征数据对应的预设对话策略，并将该预设对话策略作为机器人的当前对话策略；或者确定候选集中的每个预设对话策略的表征数据，以得到表征策略集合，候选集存储有至少两个预设对话策略遍历所述表征策略集合，在检测到与当前对话状态的表征数据的相似度超过预设相似度阈值的表征数据时，将该表征数据对应的预设对话策略作为当前对话策略。

优选地，对话模型还包括第一全连接层和第二全连接层；第一全连接层，用于更新所述第一模块输出的当前对话状态的表征数据；第二全连接层，用于更新所述候选集中每个预设对话策略的表征数据；更新后的当前对话状态的表征数据的维数与更新后的每个预设对话策略的表征数据的维数相同。

优选地，所述对话模型在训练过程中使用的损失函数如下：

Loss_t＝max(μ₊-sim(a，b₊)，0)+max(u_{_}+sim(a，b_{_})，0)

其中，μ₊、u_{_}分别为预设常数，b₊为训练样本中标记的实际对话策略的表征数据，b_{_}为在目标候选集中随机选取的预设对话策略的表征数据，a为当前对话状态的表征数据，sim(a，b₊)用于计算a与b₊的相似度；sim(a，b_{_})用于计算a与b_{_}的相似度，目标候选集为除去该实际对话策略的候选集。

优选地，当前输入内容还包括当前对话轮次标识。

优选地，历史对话内容包括距离当前时刻的预设时间内，目标对象与机器人的所有对话内容；或者在距离当前时刻最近的预设数量的对话轮次中，目标对象与机器人的所有对话内容。

本发明实施例提供的机器人对话方法的技术方案，通过该已训练的对话模型的编码机制自动忽略多轮对话内容中的无用信息，定位多轮对话内容中与当前输入内容相关的对话轮次，根据相关轮次的机器人的对话策略确定当前对话状态表征数据，由于该当前对话状态表征数据是根据相关对话轮次的对话内容确定的，因此具有较高的准确性，因此根据当前对话状态确定的机器人的当前对话策略具有较高的准确性。

本发明实施例所提供的机器人对话装置可执行本发明任意实施例所提供的机器人对话方法，具备执行方法相应的功能模块和有益效果。

实施例三

图4为本发明实施例提供的电子设备的结构示意图，如图4所示，该设备包括处理器201、存储器202、输入装置203以及输出装置204；设备中处理器201的数量可以是一个或多个，图4中以一个处理器201为例；设备中的处理器201、存储器202、输入装置203以及输出装置204可以通过总线或其他方式连接，图4中以通过总线连接为例。

存储器202作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的机器人对话方法对应的程序指令/模块(例如，获取模块11、对话策略确定模块12以及输出模块13)。处理器201通过运行存储在存储器202中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的机器人对话方法。

存储器202可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器202可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器202可进一步包括相对于处理器201远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置203可用于接收输入的数字或字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入。

输出装置204可包括显示屏等显示设备，例如，用户终端的显示屏。

实施例四

本发明实施例还提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种机器人对话方法，该方法包括：

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的机器人对话方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(RandomAccess Memory，简称RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的机器人对话方法。

值得注意的是，上述机器人对话装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种机器人对话方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对话模型包括：第一模块和第二模块；

所述第一模块，用于根据所述意图数据和所述前一对话策略，使用自注意力机制对当前输入内容中的一个或多个轮次的对话内容进行编码，并根据编码结果确定机器人当前对话状态的表征数据，其中，该一个或多个轮次的对话内容对当前输入内容的贡献度大于其他轮次的对话内容对当前输入内容的贡献度；

所述第二模块，用于根据编码结果确定当前对话状态的表征数据对应的预设对话策略，并将该预设对话策略作为当前对话策略。

3.根据权利要求2所述的方法，其特征在于，所述第一模块为Transformer模型中的编码器模块。

4.根据权利要求2所述的方法，其特征在于，所述确定当前对话状态的表征数据对应的预设对话策略，以作为当前对话策略，包括：

确定候选集中的每个预设对话策略的表征数据，以得到表征策略集合，所述候选集存储有至少两个预设对话策略；

在所述表征策略集合中，确定与当前对话状态的表征数据的相似度最大的表征数据对应的预设对话策略，并将该预设对话策略作为机器人的当前对话策略；或者

遍历所述表征策略集合，在检测到与当前对话状态的表征数据的相似度超过预设相似度阈值的表征数据时，将该表征数据对应的预设对话策略作为当前对话策略。

5.根据权利要求4所述的方法，其特征在于，所述对话模型还包括第一全连接层和第二全连接层；

所述第一全连接层，用于更新所述第一模块输出的当前对话状态的表征数据；

所述第二全连接层，用于更新所述候选集中每个预设对话策略的表征数据；

更新后的当前对话状态的表征数据的维数与更新后的每个预设对话策略的表征数据的维数相同。

6.根据权利要求1所述的方法，其特征在于，所述对话模型在训练过程中使用的损失函数如下：

Loss_t＝max(μ₊-sim(a,b₊),0)+max(u_-+sim(a,b_-),0)

其中，μ₊、u_-分别为预设常数，b₊为训练样本中标记的实际对话策略的表征数据，b_-为在目标候选集中随机选取的预设对话策略的表征数据，a为当前对话状态的表征数据，sim(a,b₊)用于计算a与b_-的相似度；sim(a,b_-)用于计算a与b_-的相似度，所述目标候选集为除去所述实际对话策略的候选集。

7.根据权利要求1-6任一所述的方法，其特征在于，所述当前输入内容还包括当前对话轮次标识。

8.根据权利要求1-6任一所述的方法，其特征在于，所述历史对话内容包括距离当前时刻的预设时间内，目标对象与机器人的所有对话内容；或者在距离当前时刻最近的预设数量的对话轮次中，目标对象与机器人的所有对话内容。

9.一种机器人对话装置，其特征在于，包括：

10.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一所述的机器人对话方法。

11.一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-8中任一所述的机器人对话方法。