CN110569339A

CN110569339A - 对话方法、介质、装置和计算设备

Info

Publication number: CN110569339A
Application number: CN201910663791.9A
Authority: CN
Inventors: 黄民烈; 张正; 朱小燕
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-07-22
Filing date: 2019-07-22
Publication date: 2019-12-13
Anticipated expiration: 2039-07-22
Also published as: CN110569339B

Abstract

本发明的实施方式提供了一种对话方法。所述对话包括对话双方之间的多轮对话，所述对话双方的一方为目标智能体，另一方为用户或对手智能体，所述方法包括：根据本轮对话中的对手话语预估目标智能体对应的动作；基于预估的所述动作估计对手对应的动作；选择针对所述对手动作的最优动作；按照选择的所述最优动作生成相应的话语。通过预估对手的动作以选择更加合适的动作并生成相应的话语，本发明的方法使得智能体的决策具有前瞻性，能够产生更加合适的对话，为用户带来了更好的体验。此外，本发明的实施方式提供了一种对话装置、介质及计算设备。

Description

对话方法、介质、装置和计算设备

技术领域

本发明的实施方式涉及人机对话技术领域，更具体地，本发明的实施方式涉及一种对话方法、介质、装置和计算设备。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

人机对话是自然语言处理技术(Natural Language Processing,NLP)与实现真正人工智能中是一个富有挑战性的任务，现有的对话系统包括任务导向的对话系统和开放领域的对话系统。对话系统旨在帮助人类完成特定的任务，比如完成人发出的指令、引导人完成某一项任务，与此同时，对话系统设计用来完成不同聊天背景下模仿人类自然聊天的过程。之前有大量的研究集中在对话系统，随着网络上社交媒体数据的爆炸式增长，大量的训练对话语料成为模型进一步改进的突破口，深度学习聊天机器人成为了学术界和工业界的热门方向。

大多数现有的对话学习方法假设用户或对手采用固定的对话策略(即对话任务目标固定不变)，但是在现实世界场景中，对话可能是具有多样性的，即对话策略(目标)是会产生变化的。因此，现有的方法可能由于对话的非平稳性而失败。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，该概述并不是关于本发明的穷举性概述，它并非意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为后文的具体实施方式部分的铺垫。

鉴于以上提出的问题，本发明提出了一种特征提取以及推荐方法、装置、介质和设备。

在本发明实施方式的第一方面中，提供了一种对话方法，所述对话包括对话双方之间的多轮对话，所述对话双方的一方为目标智能体，另一方为用户或对手智能体，所述方法包括：

根据本轮对话中的对手话语预估目标智能体对应的动作；

基于预估的所述动作估计对手对应的动作；

选择针对所述对手动作的最优动作；

按照选择的所述最优动作生成相应的话语。

在本实施方式的一个实施例中，根据对手话语预估目标智能体对应的动作，包括：

基于预设的对手动作及本轮对手话语预估目标智能体对应的动作。

在本实施方式的一个实施例中，基于预设的对手动作及本轮对手话语预估目标智能体对应的动作，包括：

获取在上一轮对话中输出话语时的对话状态；

基于在上一轮对话中输出话语时的对话状态以及本轮对话中对手话语获取本轮对话中的对手对话状态；

基于预设的对手动作及本轮对话中对手对话状态预估目标智能体对应的动作。

在本实施方式的一个实施例中，上一轮对话中输出话语时的对话状态由文本解码器解码生成上一轮对话中输出的话语时产生。

在本实施方式的一个实施例中，采用预设的强化学习模型预估目标智能体对应的动作。

在本实施方式的一个实施例中，所述强化学习模型基于状态-动作值函数构建。

在本实施方式的一个实施例中，采用所述状态-动作值函数基于预设的对手动作及本轮对话中对手对话状态选择动作作为所述预估的动作。

在本实施方式的一个实施例中，本轮对话中对手对话状态由文本编码器基于上一轮对话中输出话语时的对话状态对本轮对话中对手话语编码获得。

在本实施方式的一个实施例中，基于预估的所述动作估计对手对应的动作，包括：

基于本轮对话中对手对话状态以及所述预估目标智能体对应的动作估计对手对应的动作。

在本实施方式的一个实施例中，采用包括softmax层的前馈神经网络估计对手对应的动作。

在本实施方式的一个实施例中，选择针对所述对手动作的最优动作，包括：

基于估计的对手动作以及本轮对话中对手对话状态生成当前对话状态；

采用所述预设的强化学习模型基于所述当前对话状态选择最优动作。

在本实施方式的一个实施例中，所述当前对话状态由以下构成：

其中，s_t为当前对话状态，E^o为表示对手动作的嵌入矩阵，为估计的对手动作。

在本实施方式的一个实施例中，所述文本解码器和文本编码器均采用循环神经网络实现。

在本实施方式的一个实施例中，所述文本解码器和文本编码器均为门控循环单元。

在本实施方式的一个实施例中，在同一轮对话中，所述文本解码器的状态由文本编码器的最后状态初始化，所述文本编码器的状态由解码生成上一轮输出话语的文本解码器的最后状态初始化，所述文本解码器的最后状态为解码生成最后一个单词/字的状态，所述文本编码器的最后状态为编码对手话语中的最后一个单词/字的状态。

根据本发明的另一方面，还提供了一种对话装置，所述对话包括对话双方之间的多轮对话，所述对话双方的一方为目标智能体，另一方为用户或对手智能体，所述方法包括：

动作预估模块，被配置为根据本轮对话中的对手话语预估目标智能体对应的动作；

对手动作估计模块，被配置为基于预估的所述动作估计对手对应的动作；

最优动作选择模块，被配置为选择针对所述对手动作的最优动作；

话语生成模块，被配置为按照选择的所述最优动作生成相应的话语。

在本实施方式的一个实施例中，所述动作预估模块还被配置为基于预设的对手动作及本轮对手话语预估目标智能体对应的动作。

在本实施方式的一个实施例中，所述动作预估模块包括：

在前对话状态获取单元，被配置为获取在上一轮对话中输出话语时的对话状态；

对手对话状态获取单元，被配置为基于在上一轮对话中输出话语时的对话状态以及本轮对话中对手话语获取本轮对话中的对手对话状态；

动作预估单元，被配置为基于预设的对手动作及本轮对话中对手对话状态预估目标智能体对应的动作。

在本实施方式的一个实施例中，所述动作预估单元被配置为采用预设的强化学习模型预估目标智能体对应的动作。

在本实施方式的一个实施例中，所述动作预估单元还被配置为采用所述状态-动作值函数基于预设的对手动作及本轮对话中对手对话状态选择动作作为所述预估的动作。

在本实施方式的一个实施例中，所述对手动作估计模块还被配置为基于本轮对话中对手对话状态以及所述预估目标智能体对应的动作估计对手对应的动作。

在本实施方式的一个实施例中，所述对手动作估计模块还被配置为采用包括softmax层的前馈神经网络估计对手对应的动作。

在本实施方式的一个实施例中，所述最优动作选择模块包括：

当前对话状态生成单元，被配置为基于估计的对手动作以及本轮对话中对手对话状态生成当前对话状态；

最优动作选择单元，被配置为采用所述预设的强化学习模型基于所述当前对话状态选择最优动作。

根据本发明的又一方面，还提供了一种计算机可读存储介质，存储有程序代码，所述程序代码当被处理器执行时，实现如第一方面任一实施例所述的方法。

根据本发明的再一方面，还提供了一种计算设备，包括处理器和存储有程序代码的存储介质，所述程序代码当被处理器执行时，实现如第一方面任一实施例所述的方法。

根据本发明实施方式的对话方法、装置、介质及计算设备，能够克服现有技术的不足，通过预估对手的动作而改善了对话策略的不稳定问题。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1为根据本发明实施方式提供的一种对话方法的步骤流程图；

图2为根据本发明实施方式提供的整体模型图；

图3为根据本发明实施方式提供的一种对话装置的结构示意图；

图4为根据本发明实施方式提供的一种计算设备的示意图；

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

现参照附图对本发明的实施方式进行详细描述。应注意，以下描述仅仅是示例性的，而并不旨在限制本发明。此外，在以下描述中，将采用相同的附图标记表示不同附图中的相同或相似的部件。在以下描述的不同实施方式中的不同特征，可彼此结合，以形成本发明范围内的其他实施方式。

下面结合图1来描述根据本发明示例性实施方式的对话方法，所述对话包括对话双方之间的多轮对话，所述对话双方的一方为目标智能体，另一方为用户或对手智能体，所述方法包括：

步骤S110，根据本轮对话中的对手话语预估目标智能体对应的动作；

本发明所公开的对话方法可以应用于预设的多个领域，预设领域可以包括但不限于如下一个或多个领域：订餐；订票；线上购物；预约出租车；预定酒店；以及寻找音乐、电影或某种产品等。

根据本发明的实施例，对话中所包括的对手与智能体之间的多轮对话可以仅仅涉及同一个领域，或者，也可以涉及多个领域，但每一轮次的对话仅涉及一个领域。

例如，假设上述至少一个预设领域包括订餐以及寻找产品这两个领域。其中，订餐领域具有三个属性类目，这三个属性类目分别是餐饮类型、距离和价位区间，餐饮类型的多种预设属性值可以包括火锅、烧烤、西餐以及自助餐等中的至少部分，距离的多种预设属性值包括附近500米内、附近1公里内以及附近3公里内等中的至少部分，价位区间的多种预设属性值包括0-50元、50-100元、100-300元以及300元以上等中的至少部分。此外，寻找产品领域具有产品类别和产品价位这两个属性类目，产品类别的多种预设属性值包括手机、电视、冰箱以及电脑等中的至少部分，产品价位的多种预设属性值包括0-1000元、1000-2000元、2000-3000元、3000- 4000元以及4000元以上等中的至少部分。

此外，对手(用户/智能体)与智能体之间的多轮对话中的每轮对话是指，每一轮次的对手对话内容与智能体对话内容。

作为示例，当前轮次所对应的领域(即当前领域)是上述至少一个预设领域中的任一个领域。

例如，用S(i)表示第i轮次的对手对话内容，用A(i)表示第i轮次的智能体对话内容，其中i表示轮次序数，i＝1,2,3,…。如S(1)表示第一轮次的对手对话内容，A(1)表示第一轮次的智能体对话内容，等等。这样，多轮对话可以表示为：S(1)→A(1)→S(2)→A(2)→S(3)→A(3)→……。

需要说明的是，多轮对话的首轮对话可以设定为对手的第一轮次发言内容(即第一轮次的对手对话内容)和智能体紧接其后的第一轮次发言内容(即第一轮次的智能体对话内容)，多轮对话的第二轮对话可以设定为第二轮次的对手对话内容和第二轮次的智能体对话内容，依此类推。

应当注意的是，在每一轮对话中，对手对话内容的发言时间在智能体对话内容的发言时间之前。

作为示例，若整个多轮对话的实际首次发言者为智能体，则可以将对手的第一轮次发言内容(即第一轮次的对手对话内容S(1))设定为空。

当处理到某一轮次(例如第t轮次，t为正整数，即t＝1,2,…)时，将该轮次作为当前轮次，根据当前轮次的对手话语(输入文本内容)，获得当前轮次的对手对话状态。然后根据对手对话状态预估目标智能体对应的动作。

本轮对话中对手对话状态由文本编码器基于上一轮对话中输出话语时的对话状态对本轮对话中对手话语编码获得

作为示例，可以采用现有的向量获取技术来获得当前轮次的对手输入文本内容的第一词向量，然后利用文本编码器对从当前轮次的对手输入文本内容中获得的第一词向量进行编码，以获得对应的语义表示来作为当前轮次的对手对话状态。

其中，在对从当前轮次的对手输入文本内容中获得的第一词向量进行编码时所利用的文本编码器例如可采用任一已知的循环神经网络 (Recurrent Neural Network，RNN)编码器模型来实现，具体的，在本实施方式的一个实施例中，所述文本编码器为门控循环单元(GRU)。需要说明的是，下文中提到的文本解码器可以采用和所述文本编码器相同的循环神经网络(Recurrent Neural Network，RNN)模型来实现，比如门控循环单元(GRU)。

更进一步地，在本实施方式的一个实施例中，基于预设的对手动作及本轮对手话语预估目标智能体对应的动作，具体的，在本实施例中，依然首先从当前轮次的对手话语(输入文本内容)中获得当前轮次的对手对话状态，其中，本轮对话中对手对话状态由文本编码器基于上一轮对话中输出话语时的对话状态对本轮对话中对手话语编码获得，公式(1)给出了计算第t轮对话中文本编码器状态(对手对话状态)的一个示例性公式。

公式(1)：

其中，为第t轮对话中的所述本文编码器编码对手话语中第i个单词/字的状态，GRU^e表示文本编码器，，E^o为表示对手动作空间的嵌入矩阵，为一个常量，表示预设的对手动作，表示第t轮对话中对手话语中第i个单词/字，E为词向量的嵌入矩阵，[·,·]表示矢量拼接。

需要说明的是，在同一轮对话中，所述文本编码器的状态由解码生成上一轮输出话语的文本解码器的最后状态初始化，所述文本编码器的最后状态为编码对手话语中的最后一个单词/字的状态，即：

其中，为第t轮对话中所述文本编码器的初始状态，为第t-1 轮(上一轮)对话中解码生成上一轮输出话语的文本解码器的(最后)状态，为第t轮对话中对手话语中单词/字的编号。

因此，基于预设的对手动作及本轮对手话语预估目标智能体对应的动作，包括：

获取在上一轮对话中输出话语时的对话状态；

在本实施方式的一个实施例中，参照图2，采用预设的强化学习模型预估目标智能体对应的动作，具体的，所述强化学习模型基于状态-动作值函数构建。例如，采用所述状态-动作值函数基于预设的对手动作及本轮对话中对手对话状态选择动作作为所述预估的动作。

公式(2)给出了预估第t轮对话中目标智能体动作的一个示例性公式。

公式(2)：

其中，为预估的动作，Q为动作-状态值函数Q-function，为本轮对话中的对手对话状态，a^o为预设的对手动作，a’为表示动作的变量。

在本设计实力的一个实施方式中，通过最小化均方损失函数来更新所述预设的强化学习模型(动作-状态值函数Q-function)，所述损失函数基于对话结束后的奖励进行构建，也即，所述预设的强化学习模型能够不断进行迭代，以选取更高奖励的动作(选取更加适合的动作以生成更加合适的话语)。

在本实施方式的一个实施例中，为了得到更加精准的动作选择结果，所述预设的强化学习模型为深度强化学习模型，也即将强化学习与深度学习结合，具体的，可以将所述动作-状态值函数Q-function与深度学习结合，此时，所述预设的强化学习模型为DQN(Deep Q-Learning)模型。

需要说明的是，由于为基于预设的固定不变的对手动作预估的动作，因此，与实际的对手动作必然存在差异，在本实施方式的一个实施例中，应用动作正则化来降低训二者之间的差异。

由于以及a_t都是动作空间上的概率分布，因此，在本实施方式的一个实施例中，采用交叉熵损失函数来衡量二者之间的差异，并不断迭代更新相关参数以逐渐缩小二者之间的差异。

由此，本实施方式的一个实施例中，将基于所述强化学习模型的损失函数以及动作正则化的损失函数来不断迭代更新相关参数，以产生更加适合的输出话语，其中，所述动作正则化的损失函数预设有相应的权重，以平衡以上两个损失函数在衡量最终结果时的比重。

另外，上一轮对话中输出话语时的对话状态由文本解码器解码生成上一轮对话中输出的话语时产生，公式(3)给出了计算第t轮对话中解码器状态(输出话语时的对话状态)的一个示例性公式。

公式(3)：

其中，为第t轮对话中的所述本文解码器解码生成输出话语中第i 个单词/字的状态，GRU表示文本解码器，E^a为表示目标智能体动作空间的嵌入矩阵，a_t表示目标智能体的动作，表示第t轮对话中输出话语中第i-1个单词/字，E为输出词向量的嵌入矩阵，[·,·]表示矢量拼接。

公式(4)给出了确定第t轮对话中输出话语中第i个单词/字的一个示例性公式。

公式(4)：

其中，是输出词汇表上的概率分布，通过它能够对输出单词/字进行采样，MLP为多层感知机(Multi-Layer Perceptron)。

与所述文本编码器类似，所述文本解码器的状态由文本编码器的最后状态初始化，所述文本解码器的最后状态为解码生成最后一个单词/字的状态，即：

其中，各个向量的含义与前述的含义类似，在此不做说明。

在本实施方式的一个实施例中，所述文本解码器和文本编码器均采用循环神经网络实现，具体的，在本实施例中，所述文本解码器和文本编码器均为门控循环单元。

步骤S120，基于预估的所述动作估计对手对应的动作；

在本实施方式的一个实施例中，基于本轮对话中对手对话状态以及所述预估目标智能体对应的动作估计对手对应的动作，具体的，采用预设的包括softmax层的前馈神经网络的对手行为估计模型估计对手对应的动作。

公式(5)给出了预测对手对应动作的一个示例性公式。

公式(5)：

其中，为估计的对手动作，f^o为所述包括softmax层的前馈神经网络。

步骤S130，选择针对所述对手动作的最优动作；

在本步骤中，选择针对所述对手动作的最优动作，具体的，可以采用如前所述的与预估目标智能体对应的动作的相同的方式进行，区别在于，在预估目标智能体对应的动作时才用的是固定不变的预设的对手动作，而此时采用的是在步骤S120预测的对手动作，需要说明的是，本步骤中采用的动作-状态值函数是与预估目标智能体对应的动作时同样的状态-动作值函数。

另外，在本实施方式的一个实施例中，所述状态-动作值函数Q-function 被构建为argmax_a’Q(s_t，a′)，也即，本实施例中，构建了新的状态s_t，具体的，基于估计的对手动作以及本轮对话中对手对话状态生成当前对话状态(s_t)；即：

接下来，采用所述预设的强化学习模型基于所述当前对话状态选择最优动作。

步骤S140，按照选择的所述最优动作生成相应的话语。

具体的，参照图2，所述文本解码器根据选择的所述最优动作a_t逐词/ 字生成话语，并在完全生成句子时输出，在对根据以上步骤选取的所述最优动作进行解码以生成输出话语时，所利用的文本解码器例如可采用任一已知的循环神经网络(Recurrent NeuralNetwork，RNN)模型来实现，具体的，在本实施方式的一个实施例中，所述文本解码器为门控循环单元 (GRU)。

通过预估对手的动作以选择更加合适的动作并生成相应的话语，本发明的方法使得智能体能够产生更加合适的对话，为用户带来了更好的体验。

参照图3，本发明的实施例还提供了一种对话装置，所述对话包括对话双方之间的多轮对话，所述对话双方的一方为目标智能体，另一方为用户或对手智能体，所述方法包括：

动作预估模块310，被配置为根据本轮对话中的对手话语预估目标智能体对应的动作；

对手动作估计模块320，被配置为基于预估的所述动作估计对手对应的动作；

最优动作选择模块330，被配置为选择针对所述对手动作的最优动作；

话语生成模块340，被配置为按照选择的所述最优动作生成相应的话语。

在本实施方式的一个实施例中，所述动作预估模块310还被配置为基于预设的对手动作及本轮对手话语预估目标智能体对应的动作。

在本实施方式的一个实施例中，所述动作预估模块310包括：

在本实施方式的一个实施例中，所述对手动作估计模块320还被配置为基于本轮对话中对手对话状态以及所述预估目标智能体对应的动作估计对手对应的动作。

在本实施方式的一个实施例中，所述对手动作估计模块320还被配置为采用包括softmax层的前馈神经网络估计对手对应的动作。

在本实施方式的一个实施例中，所述最优动作选择模块330包括：

另外，这里尚需指出的是，上述系统中各个组成部件可以通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知，在此不再赘述。在通过软件或固件实现的情况下，从存储介质或网络向具有专用硬件结构的计算机安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等。

图4示出了可用于实施根据本发明实施例的方法和系统的计算机的示意性框图。

在图4中，中央处理单元(CPU)401根据只读存储器(ROM)402中存储的程序或从存储部分408加载到随机存取存储器(RAM)403的程序执行各种处理。在RAM 403中，还根据需要存储当CPU 401执行各种处理等时所需的数据。CPU 401、ROM 402和RAM 403经由总线404彼此连接。输入/输出接口405也连接到总线404。

下述部件连接到输入/输出接口405：输入部分406(包括键盘、鼠标等等)、输出部分407(包括显示器，比如阴极射线管(CRT)、液晶显示器 (LCD)等，和扬声器等)、存储部分408(包括硬盘等)、通信部分409(包括网络接口卡比如LAN卡、调制解调器等)。通信部分409经由网络比如因特网执行通信处理。根据需要，驱动器410也可连接到输入/输出接口405。可拆卸介质411比如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器410上，使得从中读出的计算机程序根据需要被安装到存储部分408中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质411安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图4所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质411。可拆卸介质411的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 402、存储部分408 中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时，可执行上述根据本发明实施方式的方法。

相应地，用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的范围内。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。

应当注意，本发明的方法不限于按照说明书中描述的时间顺序来执行，也可以按照其他的次序顺序地、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。

以上对本发明各实施方式的描述是为了更好地理解本发明，其仅仅是示例性的，而非旨在对本发明进行限制。应注意，在以上描述中，针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。本领域技术人员可以理解，在不脱离本发明的发明构思的情况下，针对以上所描述的实施方式进行的各种变化和修改，均属于本发明的范围内。

综上，在根据本发明的实施例中，本发明提供了如下技术方案。

1.一种对话方法，所述对话包括对话双方之间的多轮对话，所述对话双方的一方为目标智能体，另一方为用户或对手智能体，所述方法包括：

根据本轮对话中的对手话语预估目标智能体对应的动作；

基于预估的所述动作估计对手对应的动作；

选择针对所述对手动作的最优动作；

按照选择的所述最优动作生成相应的话语。

2.如方案1所述的方法，其中，根据对手话语预估目标智能体对应的动作，包括：

3.如方案2所述的方法，其中，基于预设的对手动作及本轮对手话语预估目标智能体对应的动作，包括：

获取在上一轮对话中输出话语时的对话状态；

4.如方案3所述的方法，其中，上一轮对话中输出话语时的对话状态由文本解码器解码生成上一轮对话中输出的话语时产生。

5.如方案4所述的方法，其中，采用预设的强化学习模型预估目标智能体对应的动作。

6.如方案5所述的方法，其中，所述强化学习模型基于状态-动作值函数构建。

7.如方案6所述的方法，其中，采用所述状态-动作值函数基于预设的对手动作及本轮对话中对手对话状态选择动作作为所述预估的动作。

8.如方案4-7任一所述的方法，其中，本轮对话中对手对话状态由文本编码器基于上一轮对话中输出话语时的对话状态对本轮对话中对手话语编码获得。

9.如方案3所述的方法，其中，基于预估的所述动作估计对手对应的动作，包括：

10.如方案9所述的方法，其中，采用预设的包括softmax层的前馈神经网络的对手行为估计魔性估计对手对应的动作。

11.如方案6所述的方法，其中，选择针对所述对手动作的最优动作，包括：

12.如方案11所述的方法，其中，所述当前对话状态由以下构成：

13.如方案8所述的方法，其中，所述文本解码器和文本编码器均采用循环神经网络实现。

14.如方案13所述的方法，其中，所述文本解码器和文本编码器均为门控循环单元。

15.如方案14所述的方法，其中，在同一轮对话中，所述文本解码器的状态由文本编码器的最后状态初始化，所述文本编码器的状态由解码生成上一轮输出话语的文本解码器的最后状态初始化，所述文本解码器的最后状态为解码生成最后一个单词/字的状态，所述文本编码器的最后状态为编码对手话语中的最后一个单词/字的状态。

16.一种对话装置，所述对话包括对话双方之间的多轮对话，所述对话双方的一方为目标智能体，另一方为用户或对手智能体，所述方法包括：

17.如方案16所述的装置，其中，所述动作预估模块还被配置为基于预设的对手动作及本轮对手话语预估目标智能体对应的动作。

18.如方案17所述的装置，其中，所述动作预估模块包括：

19.如方案18所述的装置，其中，上一轮对话中输出话语时的对话状态由文本解码器解码生成上一轮对话中输出的话语时产生。

20.如方案19所述的装置，其中，所述动作预估单元被配置为采用预设的强化学习模型预估目标智能体对应的动作。

21.如方案20所述的装置，其中，所述强化学习模型基于状态-动作值函数构建。

22.如方案21所述的装置，其中，所述动作预估单元还被配置为采用所述状态-动作值函数基于预设的对手动作及本轮对话中对手对话状态选择动作作为所述预估的动作。

23.如方案19-22任一所述的装置，其中，本轮对话中对手对话状态由文本编码器基于上一轮对话中输出话语时的对话状态对本轮对话中对手话语编码获得。

24.如方案18所述的装置，其中，所述对手动作估计模块还被配置为基于本轮对话中对手对话状态以及所述预估目标智能体对应的动作估计对手对应的动作。

25.如方案24所述的装置，其中，所述对手动作估计模块还被配置为采用预设的包括softmax层的前馈神经网络的对手行为估计模型估计对手对应的动作。

26.如方案21所述的装置，其中，所述最优动作选择模块包括：

27.如方案26所述的装置，其中，所述当前对话状态由以下构成：

28.如方案23所述的装置，其中，所述文本解码器和文本编码器均采用循环神经网络实现。

29.如方案28所述的装置，其中，所述文本解码器和文本编码器均为门控循环单元。

30.如方案29所述的装置，其中，在同一轮对话中，所述文本解码器的状态由文本编码器的最后状态初始化，所述文本编码器的状态由解码生成上一轮输出话语的文本解码器的最后状态初始化，所述文本解码器的最后状态为解码生成最后一个单词/字的状态，所述文本编码器的最后状态为编码对手话语中的最后一个单词/字的状态。

31.一种计算机可读存储介质，存储有程序代码，所述程序代码当被处理器执行时，实现如方案1-15之一所述的方法。

32.一种计算设备，包括处理器和存储有程序代码的存储介质，所述程序代码当被处理器执行时，实现如方案1-15之一所述的方法。

Claims

根据本轮对话中的对手话语预估目标智能体对应的动作；

基于预估的所述动作估计对手对应的动作；

选择针对所述对手动作的最优动作；

按照选择的所述最优动作生成相应的话语。

2.如权利要求1所述的方法，其中，根据本轮对话中的对手话语预估目标智能体对应的动作，包括：

3.如权利要求2所述的方法，其中，基于预设的对手动作及本轮对手话语预估目标智能体对应的动作，包括：

获取在上一轮对话中输出话语时的对话状态；

4.如权利要求3所述的方法，其中，上一轮对话中输出话语时的对话状态由文本解码器解码生成上一轮对话中输出的话语时产生。

5.一种对话装置，所述对话包括对话双方之间的多轮对话，所述对话双方的一方为目标智能体，另一方为用户或对手智能体，所述方法包括：

6.如权利要求5所述的装置，其中，所述动作预估模块还被配置为基于预设的对手动作及本轮对手话语预估目标智能体对应的动作。

7.如权利要求6所述的装置，其中，所述动作预估模块包括：

8.如权利要求7所述的装置，其中，上一轮对话中输出话语时的对话状态由文本解码器解码生成上一轮对话中输出的话语时产生。

9.一种计算机可读存储介质，存储有程序代码，所述程序代码当被处理器执行时，实现如权利要求1-4之一所述的方法。

10.一种计算设备，包括处理器和存储有程序代码的存储介质，所述程序代码当被处理器执行时，实现如权利要求1-4之一所述的方法。