CN108829797A

CN108829797A - 多智能体对话策略系统构建方法及自适应方法

Info

Publication number: CN108829797A
Application number: CN201810570550.5A
Authority: CN
Inventors: 俞凯; 陈露
Original assignee: Shanghai Jiaotong University; AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2018-04-25
Filing date: 2018-06-05
Publication date: 2018-11-16
Also published as: CN108962238B; CN108962238A

Abstract

本发明公开一种多智能体对话策略系统构建方法，包括：构建语义槽无关智能体、多个语义槽相关智能体和决策网络；配置语义槽无关智能体，以根据输入的置信对话状态的语义槽无关信息计算得到与语义槽无关的对话动作集合的第一关联信息；配置多个语义槽相关智能体，以根据输入的置信对话状态的语义槽相关信息计算得到与语义槽相关的对话动作集合的第二关联信息集；配置决策网络，以根据第一关联信息和多个第二子关联信息集确定对应于置信对话状态的对话动作。本发明解决了传统的采用全连接的基于深度强化学习的对话策略自适应速度慢，成本高，无法复用已经训练好的网络参数的缺陷。

Description

多智能体对话策略系统构建方法及自适应方法

本发明要求在2018年04月25日提交中国专利局、申请号为 201810378993.4、发明名称为“基于深度强化学习的对话策略的自适应方法”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及人工智能技术领域，尤其涉及一种多智能体对话策略系统构建方法、自适应方法、电子设备及存储介质。

背景技术

对话策略优化是统计对话管理的核心，对话管理(Dialogue Management,DM)是整个系统的控制核心。DM有两个作用：一个是对话状态跟踪器维护系统的对话状态，另一个是对话策略决定在当前状态上应该选择什么动作。对话策略是一个从置信对话状态到对话动作的映射函数。部分可观测马尔科夫决策过程提供了一个可以利用强化学习来优化对话策略的方法。最近，深度强化学习(Deep Reinforcement Learning，DRL) 方法被用于对话策略优化。在DRL方法中，对话策略一般用一个多层的全连接网络表示。传统的DRL方法在固定领域上表现很好，但是不太适合领域扩展和迁移的情况。当领域扩展时，置信状态空间和可能的对话动作集合都会发生变化，因此网络的结构也会发生变化。

如图1所示，为传统领域扩展时神经网络结构变化对比图，其中，左侧为领域扩展前神经网络结构图，右侧为领域扩展后的神经网络结构图。当领域扩展时(例如，新增一个语义槽)，则表示对话策略的神经网络的输入和输出的维度会增大(其中，包括神经网络的第一层增加维度11和最后一层增加维度12)，神经网络的第一层和最后一层新增加的参数(包括神经网络的第一层增加维度11至第二层的权重参数，神经网络的倒数第二层至最后一层增加维度12的权重参数)则需要随机初始化，然后在新的领域继续训练对话策略，系统的性能可能回急剧下降。原因在于，在基于DRL的对话策略中，一般用全连接的网络来表示对话策略，所以当领域扩展时，其它语义槽上学到的知识不能很好地移到新的语义槽上。深度强化学习被成功应用于提前定义好的固定领域中，但是当领域动态发生变化时(例如，有新的语义槽被添加到当前领域的本体中，或者策略被迁移到其它领域时)，对话状态空间和对话动作集合都会发生变化，因而表示对话策略的神经网络结构也会发生变化。这将使得对话策略的自适应变得十分困难。

发明内容

本发明实施例提供一种多智能体对话策略系统构建方法、自适应方法、电子设备及存储介质，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种多智能体对话策略系统构建方法，所述系统的输入为取自预设领域语料库的置信对话状态，输出为取自预设领域语料库的对话动作，所述方法包括：

构建语义槽无关智能体、多个语义槽相关智能体和决策网络；

配置所述语义槽无关智能体，以根据输入的置信对话状态的语义槽无关信息计算得到与语义槽无关的对话动作集合的第一关联信息；

配置所述多个语义槽相关智能体，以根据输入的置信对话状态的语义槽相关信息计算得到与语义槽相关的对话动作集合的第二关联信息集，所述第二关联信息集包括分别对应于所述多个语义槽相关智能体的多个第二子关联信息；

配置所述决策网络，以根据所述第一关联信息和所述多个第二子关联信息集确定对应于所述置信对话状态的对话动作。

第二方面，本发明实施例提供一种多智能体对话策略系统自适应方法，所述方法应用于本发明中的多智能体对话策略系统，所述方法包括：

当扩展所述预设领域语料库时，为所增加的语义槽配置新的语义槽相关智能体；

当所述多个语义槽相关智能体之间相互共享参数时，为所述新的语义槽相关智能体配置所述共享参数；

当所述多个语义槽相关智能体分别具有私有参数，且同时所述多个语义槽相关智能体之间具有共享参数时，则配置所述共享参数为所述新的语义槽相关智能体的共享参数，并基于所述共享参数和预设噪音为所述新的语义槽相关智能体配置私有参数；

基于扩展后的所述预设领域语料库训练所述多智能体对话策略系统。

第三方面，本发明实施例提供一种非易失性计算机可读存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项多智能体对话策略系统自适应方法或者多智能体对话策略系统构建方法。

第四方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明上述任一项多智能体对话策略系统自适应方法或者多智能体对话策略系统构建方法。

第五方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项多智能体对话策略系统自适应方法或者多智能体对话策略系统构建方法。

本发明实施例通过本发明的方法构建了一种多智能体对话策略系统，从而解决了传统的采用全连接的基于深度强化学习的对话策略自适应速度慢，成本高，无法复用已经训练好的网络参数的缺陷；此外，本发明实施例的自适应方法比传统自适应方法的策略迁移更高效，在新领域中用很少的对话数据训练就可以使迁移后的策略快速达到较高性能。更深层次的，由于其提升了迁移效率，所以在线学习策略时，与之对话交互的用户的体验会更好。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为传统领域扩展时神经网络结构变化对比图；

图2为本发明的多智能体对话策略系统构建方法的一实施例的流程图；

图3为本发明的多智能体对话策略系统构建方法中训练智能体的一实施例的流程图；

图4为本发明实施例中的多智能体对话策略系统的一实施例的结构图；

图5为本发明中的共享–私有加权网络的一实施例的示意图；

图6为本发明的多智能体对话策略系统自适应方法的一实施例的流程图；

图7为DSTC2领域的学习曲线图；

图8为从DSTC2Simple到DSTC2的策略适应的学习曲线图；

图9为从DSTC2到DSTC3的策略适应的学习曲线图；

图10为本发明的电子设备的一实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本发明中，“模块”、“装置”、“系统”等等指应用于计算机的相关实体，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中，并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地系统、分布式系统中另一元件交互的，和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

面向任务的口语对话系统(SDS)是一个可以持续与人交互以完成预定义任务(例如，寻找餐馆或预订航班)的系统。这些系统通常根据由用户可能希望用来构建查询问题的一些概念(或语义槽)组成的结构化本体来设计。

在每个对话回合中，对话状态跟踪器都将维持每个语义槽的对话信念置信状态，即，可能值的分布。这些信念置信状态与数据库查询结果形成对话状态b，基于该对话状态b，对话策略π(从b到对话行为a＝π(b) 的映射函数)决定如何响应用户。强化学习(RL)方法通常用于自动优化策略π。最近，对话策略采用了深度强化学习(DRL)方法。这些策略通常由完全连接的神经网络(包括深度Q网络和策略网络)来表示，并且在静态预定义域中运行良好。然而，与基于高斯过程的方法不同，它们不适合本体论动态变化的情况。

当域动态变化时，例如，当一个新的以前看不见未出现的概念(或语义槽)可以用作数据库搜索约束，或者一个域的策略转移到另一个域时，对话状态空间和动作集都将改变。因此，不同领域的模型结构必须不同。这使对话策略的自适应/转移具有挑战性。

本发明提出一种多智能体对话策略(Multi-Agent Dialogue Policy， MADP),相比于普通的基于深度强化学习的对话策略，MADP不仅学习更快，也更适合于领域扩展和迁移。MADP包括一个语义槽无关的智能体(G-Agent)和多个语义槽相关的智能体(S-Agent)。每个S-Agent除了有私有参数外，还有相互之间共享的参数。当对话策略进行迁移时， S-Agent中的共享参数和G-Agent中的参数可以直接迁移到新领域中。模拟实验表明MADP可以显著提升对话策略的学习速度，而且有利于对话策略的自适应。

如图2所示，为本发明的多智能体对话策略系统构建方法的一实施例的流程图，所述多智能体对话策略系统的输入为取自预设领域语料库的置信对话状态，输出为取自预设领域语料库的对话动作，所述多智能体对话策略系统构建方法包括：

S11、构建语义槽无关智能体、多个语义槽相关智能体和决策网络；

S12、配置所述语义槽无关智能体，以根据输入的置信对话状态的语义槽无关信息计算得到与语义槽无关的对话动作集合的第一关联信息；

S13、配置所述多个语义槽相关智能体，以根据输入的置信对话状态的语义槽相关信息计算得到与语义槽相关的对话动作集合的第二关联信息集，所述第二关联信息集包括分别对应于所述多个语义槽相关智能体的多个第二子关联信息；

S14、配置所述决策网络，以根据所述第一关联信息和所述多个第二子关联信息集确定对应于所述置信对话状态的对话动作。

本发明实施例通过本发明的方法构建了一种多智能体对话策略系统，从而解决了传统的采用全连接的基于深度强化学习的对话策略自适应速度慢，成本高，无法复用已经训练好的网络参数的缺陷。

一般地，置信对话状态和对话动作集合都可以分解成语义槽(slot) 相关和语义槽无关的两大部分，语义槽相关的部分可以进一步分解到每个具体的语义槽上。具体地，置信状态b可以分解成其中， b_g是置信对话状态中与语义槽无关的部分，b_i是置信状态中与第i个语义槽相关的部分；可能的对话动作集合A可以分解成A_g是可能的对话动作中与语义槽无关的动作的集合，A_i是可能的动作中与第 i个语义槽相关的对话动作的集合。

基于这种分解，本发明提出一种多智能体对话策略(Multi-Agent DialoguePolicy,MADP)。MADP包括两种智能体：一个语义槽无关的智能体(G-Agent)和n个语义槽有关的智能体(S-Agent)。MADP框架是一个对话策略的表示方法，不依赖于具体的强化学习，因此它的训练可以使用大多数DRL算法，本发明实施例中用DQN(Deep-Q-Networks深度Q网络)算法为例进行介绍，称之为MADQN(Multi-Agent Deep-Q-Networks 多智能体深度Q网络)。

如图3所示，为本发明的多智能体对话策略系统构建方法中训练智能体的一实施例的流程图，包括：

S21、预先获取所述预设领域语料库中的对话的置信对话状态和对话动作集合；

S22、将所述置信对话状态分解为状态语义槽无关信息和状态语义槽相关信息；

S23、将所述对话动作集合分解为动作语义槽无关信息和动作语义槽相关信息；

S24、基于状态语义槽无关信息、状态语义槽相关信息、动作语义槽无关信息和动作语义槽相关信息训练所述语义槽无关智能体和多个语义槽相关智能体。

如图4所示，为本发明实施例中的多智能体对话策略系统的一实施例的结构图，本实施例中的多智能体对话策略系统41包括4个语义槽相关智能体(S-Agent)411和一个语义槽无关智能体(G-Agent)412。G-Agent 的输入是b_g，输出是A_g中每个可能动作对应的Q值(q_g)；第i个S-Agent 的输入是b_i，输出是A_i中每个可能动作对应的Q值(q_i)。在决策时，选择所有智能体中Q值最大的动作作为最终的回复动作。

A_i的输入是b_i，输出是对应于A_i中的对话动作的Q值q_i，即q_j＝[Q (b_i，a_i1)，...，Q(b_i，a_ims)]，其中a_ik(1≤k≤ms)∈A_i。

A_g的输入为b_g，输出为与A_g中的对话动作相对应的Q值q_g，即q_g＝ [Q(b_g，a_g1)，...，Q(b_g，a_gmg)]，其中a_gk(1≤k≤mg)∈A_g。

为了获得所有对话动作的Q值q，所有智能体的输出连接起来，即在做出决定时，根据q选择对话动作。

多智能体对话策略系统41中包括多个隐藏层42，每个智能体在计算各自的Q值时，相邻两层隐藏层之间传递信息时，各智能体之间会有消息交换，以第i隐藏层至第i+1隐藏层为例，在第i隐藏层后，每个智能体会先给其它智能体发送消息，然后再接收其它智能体发过来的消息。消息可能的形式有很多，一种简单的方式可以直接把第i层的隐层向量和当作消息。具体地，第j个S-Agent会收到其它S-Agent 的消息

以及G-Agent发过来的消息在收到这些消息后，S-Agent会将隐层状态从更新到参见图4中的421部分所示:

其中σ是非线性激活函数，例如，RELU，和是网络参数，是加权矩阵，即跨所有语义槽相关智能体共享的参数。

类似地，G-Agent会收到所有S-Agent发过来的消息

然后G-Agent将更新到参见图4中的422部分所示：

其中，和是网络参数，为加权矩阵。

总之，MADQN可以看作是隐层hⁱ⁺¹＝σ(Tⁱhⁱ)的结构化DQN，其中hⁱ是所有和hⁱ _g的连接，即采用下面的形式：

其中和MADQN的训练过程类似于普通DQN，除了权重矩阵的结构如式(5)所示。

在语义槽具有相似特征的简单领域中，共享参数足以捕获不同语义槽之间的差异，在这种S-Agent没有私有参数条件下的MADQN称为 MADQN_S。但是，在更复杂的领域中，例如，语义槽个数较多或每个语义槽的特性差异较大时，则每个S-Agent除了共有参数外，还需要私有参数来捕捉它们的特征。在这里，因此本发明实施例提出一个共享–私有加权网络(Shared-Private Weighted Network,SPWN)来引入S-Agent中的私有参数，对应的MADQN称为MADQN_SP。

如图5所示，为本发明中的共享–私有加权网络的一实施例的示意图，在SPWN中，除了跨所有语义槽的共享参数之外，每个 S-Agent A_j都有其自己的私有参数对于每个输入b_j，智能体首先并行地计算具有θ_j和θ_s的输出，然后取两个输出的加权平均以获得最终输出q_j，即，

q_j＝αNet(b_j；θ_j)+(1-α)Net(b_j；θ_s) (6)

其中，Net为从置信对话状态到对话动作的映射函数，α∈[0,1]是权重，领域越复杂，α越大。

如图6所示，为本发明的多智能体对话策略系统自适应方法的一实施例的流程图，该方法应用于本发明上述实施例中所述的多智能体对话策略系统，该方法包括：

S31、当扩展所述预设领域语料库时，为所增加的语义槽配置新的语义槽相关智能体；

S32、当所述多个语义槽相关智能体之间相互共享参数时，为所述新的语义槽相关智能体配置所述共享参数；

S33、当所述多个语义槽相关智能体分别具有私有参数，且同时所述多个语义槽相关智能体之间具有共享参数时，则配置所述共享参数为所述新的语义槽相关智能体的共享参数，并基于所述共享参数和预设噪音为所述新的语义槽相关智能体配置私有参数；

S34、基于扩展后的所述预设领域语料库训练所述多智能体对话策略系统。

本发明实施例的自适应方法比传统自适应方法的策略迁移更高效，在新领域中用很少的对话数据训练就可以使迁移后的策略快速达到较高性能。更深层次的，由于其提升了迁移效率，所以在线学习策略时，与之对话交互的用户的体验会更好。

在一些实施例中，本发明的多智能体对话策略系统自适应方法包括：

步骤一：在原有领域中训练MADQN；

步骤二：当领域扩展时，为每个新增的语义槽添加一个对应的S-Agent；

步骤三：如果MADQN是MADQN_S，即S-Agent没有私有参数，则新增加的S-Agent直接使用共享参数；如果MADQN是MADQN_SP，即 S-Agent除了共享参数还有私有参数，则新增加的S-Agent的共享参数直接使用之前其它S-Agent的共享参数，而私有参数用共享参数加上很小的噪音进行初始化；

步骤四：在扩展后的领域继续训练MADQN。

为更加清楚、突出的显示本发明实施例的方案及效果，申请人进行了如下实验，实验设定了两个目标：(1)比较本发明所提出的MADP和传统模型之间的单领域策略学习性能。(2)比较不同模型的策略适应性能，并研究本发明所提出的MADP框架的好处。

本实验中，用户与SDS交互的目的是在剑桥(英国)地区找到餐馆/ 旅游信息。有三个领域：DSTC2Simple，DSTC2和DSTC3。DSTC2Simple 和DSTC2都是餐厅信息领域。DSTC2Simple有6个语义槽，其中3个可以被系统用来限制数据库搜索。DSTC2有一个额外的语义槽。DSTC3是旅游信息领域，其拥有DSTC2上的所有语义槽和5个新的语义槽。一个基于议程的用户模拟器与语义条件的基于LSTM的自然语言生成器(SC-LSTM-NLG)被用来模拟人类用户的行为。使用SC-LSTM-NLG，来自用户模拟器的语义级对话行为被转换为基于N的话语列表作为ASR 结果。基于SVM的语义解析器在DSTC2/3数据集上进行了训练。DSTC2 和DSTC3的语义错误率分别为0.15和0.40。为了奖励，在每个回合中，该策略给予-0.05的奖励。在对话结束时，如果对话成功，则奖励+1，否则奖励为0。

本实验中提出的多智能体方法在没有自适应的情况下与DSTC2上的其他方法进行比较。

如图7所示，比较了三种模型：(1)图中DQN是普通的DQN，它有两个隐藏层，每层都有128个节点，每个隐层节点随机丢弃率设为0.2。 (2)MADQN_S是每个S-Agent没有私有参数的MADQN。所有智能体都有三个隐藏层，即两个通信步骤。S-Agent和G-Agent的每个隐藏层的大小分别为32和62。每个隐层节点的随机丢弃率为0.1。(3)MADQN_SP 的设置类似于MADQN_S，每个S-Agent除了共享参数之外还有私有参数。

可以发现多智能体模型(MADQN_S和MADQN_SP)在学习的早期阶段获得了更快的学习速度，并且具有更好的收敛性能。在将MADQN_S 与MADQN_SP进行比较时，它们在学习速度和最终性能方面几乎没有差异，这表明共享参数足以捕获DSTC2上不同的语义槽特性。

在发明实施例中，我们将比较MADQN和DQN的策略适应。图8和图9分别是从DSTC2Simple到DSTC2的策略转移结果以及从DSTC2到 DSTC3的策略转移结果。在这里，比较三种策略：对于图中DQN Adapt， DQN首先在原始域中进行预先训练，用于训练的对话有15000个。当领域扩展到新领域时，输入特征的数量和对话动作空间都会增加。输入层和输出层的相应新权重在根据高斯分布N(0,0.01)随机初始化，然后在新域中继续训练。对于MADQN_S Adapt(或MADQN_SP Adapt)，MADQN_S (或MADQN_SP)首先在原始域中进行预训练，并进行15000次对话。然后按照本发明上述实施例中所述的自适应方法将其转移到新的领域。

从图8我们可以发现，基于MADQN的模型(MADQN_S Adapt和MADQN_SP Adapt)在从DSTC2Simple转换为DSTC2时，比DQN Adapt 学习速度快得多。新语义槽的新增S-Agent可以使用共享参数，即从其他智能体迁移一些技能。比较图8中的MADQN_S Adapt和图7中的MADQN_S，可以观察到早期学习过程中的明显改进，这表明了通过共享参数进行知识迁移的有效性。

比较MADQN_SP Adapt和MADQN_S Adapt，可以发现，在MADQN 中引入私有参数不会导致DSTC2的任何改进。原因在于共享参数足以捕获4个语义槽之间的差异。

在图9中，S-Agent(MADQN_S Adapt)中没有私有参数的MADQN 在开始时的学习速度也比DQN Adapt快得多。然而，它最终会达到次优的收敛。在DSTC3上，有8个可用语义槽，共享参数不足以捕获这些语义槽之间的差异。因此引入私有参数(MADQN_SP Adapt)可以显着提升性能。

本发明提出的一个基于DRL的多智能体对话策略(MADP)框架，由一个语义槽无关智能体G-Agent和多个语义槽相关智能体S-Agent组成。在此框架下，S-Agent中的共享参数可以轻松地从一个域转移到另一个域，从而确保在新域中进行良好的初始化和快速后续学习。实验表明，所提出的基于MADP的模型在单个域中学习速度比传统模型快，并且实现了从原始域到扩展/新域的高效和有效的策略适应。

本发明中所涉及的英文缩略简写说明如下：

DM：Dialogue Management对话管理。

SDS：Spoken Dialogue Systems口语对话系统。

DRL：Deep Reinforcement Learning深度强化学习。

MADP：Multi-Agent Dialogue Policy多智能体对话策略。

SPWN：Shared-Private Weighted Network共享－私有加权网络。

ReLU：Rectified Linear Unit线性整流函数。

DQN：Deep-Q-Networks深度Q网络。

MADQN：Multi-Agent Deep-Q-Networks多智能体深度Q网络。

在一些实施例中，本发明实施例提供一种非易失性计算机可读存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项多智能体对话策略系统构建方法或者多智能体对话策略系统自适应方法。

在一些实施例中，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项多智能体对话策略系统构建方法或者多智能体对话策略系统自适应方法。

在一些实施例中，本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行多智能体对话策略系统构建方法或者多智能体对话策略系统自适应方法。

在一些实施例中，本发明实施例还提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行多智能体对话策略系统构建方法或者多智能体对话策略系统自适应方法。

如图10所示，为本申请另一实施例提供的执行多智能体对话策略系统构建方法的电子设备的硬件结构示意图，如图10所示，该设备包括：

一个或多个处理器1010以及存储器1020，图10中以一个处理器1010 为例。

执行基于多智能体对话策略系统构建方法的设备还可以包括：输入装置1030和输出装置1040。

处理器1010、存储器1020、输入装置1030和输出装置1040可以通过总线或者其他方式连接，图10中以通过总线连接为例。

存储器1020作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的多智能体对话策略系统构建方法对应的程序指令/模块。处理器1010 通过运行存储在存储器1020中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例多智能体对话策略系统构建方法。

存储器1020可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据多智能体对话策略系统构建装置的使用所创建的数据等。此外，存储器 1020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器1020可选包括相对于处理器1010远程设置的存储器，这些远程存储器可以通过网络连接至多智能体对话策略系统构建装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置1030可接收输入的数字或字符信息，以及产生与多智能体对话策略系统构建装置的用户设置以及功能控制有关的信号。输出装置 1040可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器1020中，当被所述一个或者多个处理器1010执行时，执行上述任意方法实施例中的多智能体对话策略系统构建方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本申请实施例的电子设备以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC 设备等，例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种多智能体对话策略系统构建方法，所述系统的输入为取自预设领域语料库的置信对话状态，输出为取自预设领域语料库的对话动作，所述方法包括：

2.根据权利要求1所述的方法，其中，还包括：

预先获取所述预设领域语料库中的对话的置信对话状态和对话动作集合；

将所述置信对话状态分解为状态语义槽无关信息和状态语义槽相关信息；

将所述对话动作集合分解为动作语义槽无关信息和动作语义槽相关信息；

基于状态语义槽无关信息、状态语义槽相关信息、动作语义槽无关信息和动作语义槽相关信息训练所述语义槽无关智能体和多个语义槽相关智能体。

3.根据权利要求2所述的方法，其中，所述训练所述语义槽无关智能体和多个语义槽相关智能体所采用的是深度强化学习算法，所述深度强化学习算法为深度Q网络算法；

所述语义槽无关智能体和所述多个语义槽相关智能体分别包括多个隐藏层；其中，

第j个语义槽相关智能体的第i+1个隐藏层的输出为：

其中，σ是激活函数，和是所述语义槽相关智能体的网络参数，

所述语义槽无关智能体的第i+1个隐藏层的输出为：

其中，σ是激活函数，和是所述语义槽无关智能体的网络参数，

4.根据权利要求1-3中任一项所述的方法，其中，所述多个语义槽相关智能体之间相互共享参数。

5.根据权利要求1-3中任一项所述的方法，其中，所述多个语义槽相关智能体分别具有私有参数，且同时所述多个语义槽相关智能体之间具有共享参数。

6.根据权利要求5所述的方法，其中，所述多个语义槽相关智能体中的第j个语义槽相关智能体的输出为：

q_j＝αNet(b_i；θ_j)+(1-α)Net(b_j；θ_s)

其中，Net为从置信对话状态到对话动作的映射函数，α是加权系数，θ_s为共享参数，θ_j为私有参数。

7.一种多智能体对话策略系统自适应方法，所述方法应用于权利要求1-6中任一项所述的系统，所述方法包括：

8.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述方法的步骤。

9.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。