CN110096583A

CN110096583A - 多领域对话管理系统及其构建方法

Info

Publication number: CN110096583A
Application number: CN201910385840.7A
Authority: CN
Inventors: 俞凯; 陈志�; 陈露
Original assignee: AI Speech Ltd; Shanghai Jiao Tong University
Current assignee: AI Speech Ltd
Priority date: 2019-05-09
Filing date: 2019-05-09
Publication date: 2019-08-06
Anticipated expiration: 2039-05-09
Also published as: CN110096583B

Abstract

本发明公开一种多领域对话管理系统及其构建方法，其中系统包括：全局代理，配置为输入为槽无关对话状态，输出为槽无关对话动作分布；多个本地代理，配置为输入为槽相关对话状态，输出为槽相关对话动作分布；所述多个本地代理中的每个本地代理之间配置为相互通信，所述多个本地代理中的每个本地代理与所述全局代理之间配置为相互通信，以进行各代理之间的参数共享。本发明多领域对话管理系统由一些子网络(示例性地，全局代理和本地代理)组成，通过参数共享机制和通信机制，可以在多个领域中使用单个参数集，这使得可以在领域之间训练通用策略。

Description

多领域对话管理系统及其构建方法

技术领域

本发明涉及对话管理技术领域，尤其涉及一种多领域对话管理系统及其构建方法。

背景技术

面向任务的口语对话系统(SDS)旨在帮助人类用户完成特定任务(例如，酒店预订)。对话管理是SDS的核心部分。对话管理有两个主要任务：对话置信状态跟踪(总结对话历史)和采取对话动作(决定如何回复用户)。在本发明中只关注设计一个策略，选择哪个对话行动来回复用户。

对话过程可以抽象为部分可观察的马尔可夫决策过程(POMDP)。在此框架下，强化学习方法可用于自动策略优化。在过去几年中，有许多深度强化学习(DRL)算法，它们使用神经网络(NN)作为函数逼近器研究对话策略。这些方法中的大多数侧重于单个领域中的对话策略优化。然而，多领域通常存在于现实场景中，例如，Apple Siri可以支持许多领域(查找餐馆或预订机票)。如果将传统的基于DRL的方法用于多领域对话策略优化，则必须针对每个领域训练单个策略，这意味着总模型参数的数量与领域的数量成比例并且数据收集在一个领域不能在其他领域中重用。

未解决上述技术问题，现有技术中采用以下方法：

(1)关于多领域对话策略优化方法：早期关于多领域对话问题的解决方法都是基于分布式高斯过程强化学习方法(GPRL)；基于分布式高斯过程强化学习方法利用高斯过程作为函数逼近器来表示动作值函数，通过Q学习方法来更新函数逼近器的参数；基于分布式高斯过程强化学习方法在随着对话领域复杂度增加，其需要的计算力也随之增加，也就是说扩展性很差；基于分布式高斯过程强化学习方法所选用的逼近器存在的缺陷。

(2)关于行为者-批判者强化学习方法：eNAC和ACER都是行为者-批判者强化学习方法在对话策略领域的应用；行为者-批判者强化学习方法将值迭代方法和策略梯度两种方法结合起来的强化学习算法；目前行为者-批判者强化学习方法都是用在单领域上，不能实现多领域之间训练出一个共享的对话策略；网络结构设计不合理导致不能实现多领域共享对话策略。

(3)关于结构化对话策略：FDM和GNN都是通过将决策过程结构化来优化策略性能。FDM和GNN都是基于DQN算法来做的改进，其缺陷在于训练过程不稳定。

一种解决方案是为所有领域训练通用策略。但是，使用传统的基于DRL的方法有两个障碍。

问题1：两个领域中的对话状态空间和动作集通常是不同的，因为它们的领域本体不同。因此，模型结构必然是不同的，即神经网络的参数不能跨领域完全共享。这是在不同领域之间训练通用策略的第一个障碍。

问题2：使用来自不同领域的经验来更新策略参数需要稳定且有效的优化算法。大多数传统的DRL算法都不具有样本效率，即需要数千个对话来训练可接受的策略，或者训练过程不稳定。

发明内容

本发明实施例提供一种多领域对话管理系统及其构建方法，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种多领域对话管理系统，包括：

全局代理，配置为输入为槽无关对话状态，输出为槽无关对话动作分布；

多个本地代理，配置为输入为槽相关对话状态，输出为槽相关对话动作分布；

所述多个本地代理中的每个本地代理之间配置为相互通信，所述多个本地代理中的每个本地代理与所述全局代理之间配置为相互通信，以进行各代理之间的参数共享。

第二方面，本发明实施例提供一种构建多领域对话管理系统的方法，包括：

配置全局代理，用于接收槽无关对话状态，并输出槽无关对话动作分布；

配置多个本地代理，用于接收槽相关对话状态，并输出槽相关对话动作分布；

第三方面，本发明实施例提供一种存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项构建多领域对话管理系统的方法。

第四方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明上述任一项构建多领域对话管理系统的方法。

第五方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项构建多领域对话管理系统的方法。

本发明实施例的有益效果在于：本发明多领域对话管理系统由一些子网络(示例性地，全局代理和本地代理)组成，通过参数共享机制和通信机制，可以在多个领域中使用单个参数集，这使得可以在领域之间训练通用策略。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的多领域对话管理系统的一实施例的示意图；

图2为本发明中的在单个领域中的结构化策略模型的一实施例的示意图；

图3为本发明中的采用了通信机制的本地代理和全局代理的层结构示意图；

图4为本发明中的构建多领域对话管理系统的方法的一实施例的流程图；

图5为本发明中的在18个不同任务上针对不同对话策略的回报学习曲线示意图；

图6为本发明中的在SFR领域中的400个训练对话上针对域内策略STRAC-S和一般策略STRAC-M的回报学习曲线示意图；

图7为本发明中的在SFR领域上对于没有通信机制或者分层决策或者NoisyNet的两个消融实验的回报学习曲线示意图；

图8为本发明的电子设备的一实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本发明中，“模块”、“装置”、“系统”等指应用于计算机的相关实体，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中，并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地系统、分布式系统中另一元件交互的，和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明致力于用不同对话领域的数据来训练同一个共享对话策略模型。对于设计这种统一的对话策略模型难点主要有两方面：

(1)设计一个统一的对话策略模型能够适用于不同的对话领域；

(2)找到一种鲁棒的强化学习方法来保证训练过程的高效稳定。

本发明提出了用于多领域对话管理结构化行为者-批判者强化学习方法来解决上述两个问题。不仅能够保证在不同领域之间能够共同训练该统一的对话策略，而且保证了训练过程高效稳定。它可以使用来自不同领域的数据来训练通用策略。为了解决问题1，本发明利用结构化对话策略，该策略由一些子网络组成。通过参数共享机制和通信机制，可以在多个领域中使用单个参数集。这使得可以在领域之间训练通用策略。为了解决问题2，本发明部署了一种先进的非策略行为者-评估算法，该算法将解耦的行为和学习与一种称为V-trace的新型非策略校正方法相结合。将改进的优化算法与结构化对话策略相结合，可以使通用策略学习过程更加稳定和高效。

本发明评估了STRAC在PyDial基准测试中的性能，包括6个环境和3个对话领域。结果表明，本发明的统一对话代理STRAC在基准的近18项任务中获得了最佳性能。

多领域对话策略优化：早期尝试为多领域问题训练通用对话策略是基于分布式高斯过程强化学习(GPRL)。然而，GPRL的计算成本随着数据量的增加而增加。因此，GPRL是否可以扩展以支持商业广域SDS是值得怀疑的。与基于分布式GP的方法相比，STRAC是一种基于分布式NN的方法，具有更好的可扩展性。

行为者-批判者RL：近年来，一些行为者-批判者算法被用于对话策略优化，包括A2C，eNAC和ACER。其中，ACER是一种有效的非策略性行为者-批判者方法。与传统的行为者-批判者方法不同，ACER采用经验重放和各种方法来减少函数估计的偏差和方差。但是，它用于单个对话领域，不能直接用于在多领域中训练通用策略。

结构化对话策略：我们提出的STRAC有两种类似的基于DRL的结构化策略。封建对话管理(FDM)直接将对话策略分解为三种子策略。在每个转弯处，FDM中的主策略首先决定采用与插槽无关的操作或与插槽相关的操作。然后，使用所选择的与槽相关或与槽无关的策略来进一步选择原始动作。在训练阶段，每种类型的对话策略都有其私有重放内存，并且它们的参数是独立更新的。在STRAC中，我们在每个回合中隐含地将单个决策分解为两个级别的决策，首先选择子代理，然后选择所选子代理的期望动作。由于STRAC中只有一项策略，因此训练阶段的复杂性不会增加。

另一种结构化对话策略是最近提出的基于图的策略，其中使用图神经网络(GNN)来协调所有与槽相关的代理和与槽无关的代理之间的最终决策。使用域内数据通过DQN算法优化基于图的对话策略。在STRAC中，我们采用更有效和更稳定的非策略行为者-批判者算法，使用从不同领域收集的所有可用数据来训练通用对话策略。

对话管理可以作为连续的MDP进行转换，可以通过强化学习方法自动优化。RL的目标是找到一个最大化预期折扣回报的策略。这相当于最大化初始状态的值。策略参数的优化通常通过沿方向的随机梯度上升来实现。

其中γ是折扣因子。b₀∈Β是初始置信状态，b_k∈Β和a_k∈Α分别是第k个对话的置信状态和对话动作。

是策略π在(b_k，a_k)的动作值。

为了提高抽样效率，演员评论方法通常配备经验重播，称为非策略演员-评论家。根据策略梯度定理，非策略案例中真实梯度的策略近似是：

其中，(b，a)是在策略μ下生成的，d^μ是在策略μ下的置信状态的分布。

STRAC：用于通用对话策略的结构化行为者-批判者

在本发明中，假设口语理解模块，状态跟踪器和自然语言生成器可以处理多个领域，我们的目标是设计一个可以在多个领域上训练的统一对话代理。

本发明使用行为者-学习者架构来学习策略π和行为者-批判者设置中的基线值函数V^π。代理由一组在不同对话领域中交互的参与者组成。每个行为者与这些不同的对话领域之一进行交互，并重复生成保存在重放记忆中的经验轨迹。除了这些参与者之外，还有一个中心学习者，它使用存储的轨迹不断优化其策略。在这项工作中，一旦在重放记忆中保存了新的经验轨迹，我们就会更新中心学习者的策略。在每次对话开始时，相应的演员将其自己的本地策略μ更新为最新的中央学习者策略π，并在其域中与用户进行n轮次交互。

我们必须克服的第一个挑战是设计一个通用的策略模型，该模型可以对从不同对话领域收集的所有可用数据进行训练。在这里，我们借用结构化对话策略的概念来设计通用的策略模型。这个通用的策略模型将在后续进行介绍。

众所周知，保持通用策略的训练过程也很困难。有两个主要因素会影响通用策略优化过程的稳定性。

学习者策略π和行为者策略μ之间存在策略滞后。我们使用行为者策略μ的经验更新学习者策略π。在不同的策略下，同一状态下的状态分布和行动概率都不同。它们会严重干扰收敛的过程。

重放记忆中的经验轨迹是从不同的对话域收集的。很难跟踪来自不同领域的经验的影响。来自不同领域的经验将进一步破坏策略更新过程的稳定性。

我们通过部署结构化DRL方法STRAC来缓解上述两个问题，该方法结合了结构化对话策略模型和新颖的非策略性行为者-批判者算法。在接下来的两节中，我们首先介绍结构化对话策略，然后给出结构化的行为者-批判者算法STRAC。

在填充槽的SDS中，置信状态空间B由领域本体定义，其由对话系统可以谈论的概念(或槽)组成。每个槽可以从候选值集中获取值。用户目标可以被定义为槽-值对，例如，{food＝chinese，area＝east}，可用作构建数据库查询的约束。为了在领域之间传递知识，可以将置信状态分解为一些依槽相关的置信状态和与槽无关的置信状态。

为了抽象状态空间，本发明使用函数用于与槽无关的置信状态，并且用于基于领域独立的第i个槽相关的置信状态参数化(DIP)。类似的，对话动作空间Α可以是槽相关的(例如请求(食物)，选择(区域)，......)或槽无关的(例如，repeat()，inform()，......)。因此，整个动作空间Α可以表示为Α₀∪A₁∪Α₂...Α_n，其中A_i(1≤i≤n)是第i个槽依赖动作的集合，A₀是槽独立动作的集合。

如图1所示，本发明的实施例提供一种多领域对话管理系统，包括：

根据状态空间和动作集的结构化分解，对话代理可以分为两种较小的子代理，即本地代理和全局代理。如图2所示，有一个全局代理和n本地代理，每个代理用于一个插槽。本地代理的输入状态和动作空间分别对应于特定的槽相关特征φ_i(b)和槽相关的对话动作A_i，其中i表示第i个槽。对于全局代理，输入状态和动作空间对应于与槽无关的对话状态和与槽无关的对话动作A₀。所有本地代理都相互共享参数。在所有子代理中，我们设计了一个通信机制来协调整个对话动作空间的最终决策过程，如图2所示。因此，对于不同的对话领域，只有三种参数：本地代理的共享参数，全局代理的参数和通信参数。

如图3所示，在一些实施例中，所述全局代理包括多个全局代理层，所述全局代理层包括：局隐藏层，配置为对当前全局代理层的输入信息进行处理；

全局到本地消息层，配置为自所述当前全局代理层向所述多个本地代理发送消息以进行参数共享；

所述本地代理包括多个本地代理层，所述本地代理层包括：

本地隐藏层，配置为对当前本地代理层的输入信息进行处理；

本地到本地消息层，配置为自所述当前本地代理层向其它本地代理发送消息以进行参数共享；

本地到全局消息层，配置为自所述当前本地代理层向所述全局代理层发送消息以进行参数共享。

具有通信机制的特定神经网络结构如图3所示，其中我们只显示本地代理和全局代理的一层结构。直观地，对于每个本地代理，它应该与其他n-1个本地代理和全局代理通信。因此，在本地代理层中，存在将本地消息传输到其他n-1个本地代理的本地到本地(local2local)消息层和将全局消息传输到全局代理的本地到全局(local2global)消息层。同时，来自其他本地代理和全局代理的输入消息有两种。来自其他本地代理的输入本地消息是从相应本地代理的local2local消息层产生的。来自全局代理的输入本地消息是从全局代理的global2local消息层生成的。后继层的本地代理层的输出是来自其他本地代理的本地消息的平均值，来自全局代理的本地消息和来自本地隐藏层的向量的总和。

对于全局代理，它需要与其他n个本地代理进行通信。有一个global2local消息层将本地消息传输到n个本地代理。同样，本地代理也有n条全局消息。后继层的全局代理层的输出是全局消息的平均值和来自全局隐藏层的向量的总和。

在一些实施例中，所述全局代理层还包括：全局均值单元，配置为根据接收自所述多个本地代理的消息求均值；全局求和输出单元，配置为根据所述全局隐藏层的输出信息和来自所述全局均值单元的输出求和后输出。其中，

所述全局代理输出的槽无关对话动作分布包括对应于每个对话动作的全局偏好值，所述全局偏好值由以下公式确定：

f₀＝h₀+(l₀-max(l₀))

其中，h₀为上层的最终动作分布在对应子策略上的偏好值；l₀为子策略内部这些动作的偏好值。

所述本地代理层还包括：本地均值单元，配置为根据接收自其它本地代理的消息求均值；本地求和输出单元，配置为根据来自所述本地隐藏层的输出、来自所述全局代理的消息和所述本地均值单元的输出求和后输出。其中，

所述本地代理输出的槽相关对话动作分布包括对应于每个对话动作的本地偏好值，所述本地偏好值包括：

f_i＝h_i+(l_i-max(l_i))

其中，h_i为上层的最终动作分布在对应子策略上的偏好值；l_i为子策略内部这些动作的偏好值。

actor-critic算法需要学习策略函数和状态值函数。如图2所示，对于第i个(i∈{0,1，...，n})子代理，有三种输出(q_i，h_i，l_i)。q_i和h_i是标量，l_i是矢量，其尺寸等于动作集A_i的大小。输出q_i表示从A_i选择期望动作时的估计值。h_i和l_i是两级数字偏好函数，其中，h_i是高级槽跨越偏好函数，而l_i是低级插入偏好函数。受Dueling DQN的启发，每个子代理的平面格式的优选函数可以通过以下方式计算：

f_i＝h_i+(l_i-max(I_i))， (3)

操作是元素方面的。根据公式3可知选择子代理h_i的偏好等于相应子代理中最佳动作的偏好max(f_i)。在每个回合中，第i个子代理采取期望动作的概率是：

其中，i∈{0，1，…，n}，在做出最终决定时，在第i个子代理中选择第j个动作的概率(表示为)是：

其中，表示第i个子代理中的第j个动作的优先值。

到目前为止，我们可能会注意到我们的结构化策略中没有状态值函数。这里我们并不是明确给出V_β函数，而是根据Q函数和V函数之间的关系计算V_β：

因此，策略函数π和状态值函数V可以通过(q_i，h_i，l_i)表示，i∈{0，1，…，n}，高级别跨插槽优选函数h_i的参数在π_θ和V_β中共享。

如图4所示，为本发明的构建多领域对话管理系统的方法的一实施例的流程图，包括：

S301、配置全局代理，用于接收槽无关对话状态，并输出槽无关对话动作分布；

S302、配置多个本地代理，用于接收槽相关对话状态，并输出槽相关对话动作分布；

S303、所述多个本地代理中的每个本地代理之间配置为相互通信，所述多个本地代理中的每个本地代理与所述全局代理之间配置为相互通信，以进行各代理之间的参数共享。

在一些实施例中，所述全局代理包括多个全局代理层，所述本地代理包括多个本地代理层，所述方法还包括：

为所述全局代理层配置全局隐藏层和全局到本地消息层；

配置所述全局隐藏层，用于对当前全局代理层的输入信息进行处理；

配置全局到本地消息层，用于自所述当前全局代理层向所述多个本地代理发送消息以进行参数共享；

为所述本地代理层配置本地隐藏层、本地到全局消息层和本地到全局消息层；

配置所述本地隐藏层，用于对当前本地代理层的输入信息进行处理；

配置所述本地到本地消息层，用于自所述当前本地代理层向其它本地代理发送消息以进行参数共享；

配置所述本地到全局消息层，用于自所述当前本地代理层向所述全局代理层发送消息以进行参数共享。

在本发明中将深入探讨如何在STRAC的每个回合中做出隐式的层次决策。鉴于当前的置信状态是b，第i个子代理的高级别偏好值是h_i(φ_i(b))。并且第i个子代理的第j个对话动作的低级别偏好值是根据公式3，第i个子代理的第j个对话动作的最终偏好值是：

根据上面的等式，我们知道每个对话动作的最终偏好值不能大于每个子代理中的相应高级偏好。换句话说，最终偏好值中的最大值等于每个子代理中的相应高级偏好。在每个回合做出决定时，我们选择具有最大最终偏好值的对话动作。从逻辑上讲，它等于两级决策程序，首先在所有子代理中进行选择，然后在所选择的子代理中选择相应的期望动作。

当对话动作空间非常大时，这种隐式分层决策机制在逻辑上将平坦决策过程分解为两个更简单的决策过程，这些过程具有较小的动作空间。与FDM相比，STRAC是一个在行为者-评论者算法环境中可区分的端到端分层框架。

到目前为止，我们详细介绍了具有通信机制的特定层结构。由于本地代理相互共享参数，因此无论策略模型中有多少本地代理层和全局代理层，只有三种参数，包括消息传输参数(三种类型)和两种隐藏参数。此策略模型是STRAC的基础，因为可以为不同的对话域修复参数的数量。此外，策略功能和状态值功能都在结构化对话策略模型中定义，其中实现了隐式分层决策。

actor-critic算法的训练过程

以下将介绍结构化的行为者-评论者算法STRAC，并解释如何学习多领域问题的通用策略。如之前所述，通过公式2计算非策略行为者-评论者算法中的策略梯度。为了减少差异，通常使用优势函数A_β来代替Q函数：

在非策略设置中，优势函数近似为r_k+γv_k+1-(b_k，β)，其中v_k+1由V-trace算法计算。V-trace是一种稳定的方法来估计状态值的目标，当行为者生成动作和学习者估计梯度之间存在一圈时。结合非策略性行为者-批评理论，针对多领域问题引入了STRAC的具体训练流程。

V-trace，考虑一下行为者在一些策略μ之后生成的对话轨迹根据V-trace理论，状态b_k的n步目标状态值v_k定义为：

其中，V_β(b_k)是在公式6中定义的状态方程，是V的时间差，和是截断的重要性采样权重。权重ρ_k定义了此更新规则的固定点。即，权重ρ_k保持在线V-trace算法的收敛。权重c_d用于校正Retrace中的跟踪系数。他们的乘积c_k，...，c_t-1测量在时间t观察到的时间差δ_k ^V在策略π下影响前一时间k的值函数更新的程度。

截断级别和具有不同的V-trace效果。控制收敛到此函数的速度。影响收敛的自然水平。根据等式9，我们可以使用重放存储器中的收集数据计算策略π下的状态值的目标。但是成本是我们必须在重放内存中的每个时间步长存储额外的动作概率μ(a|b)。

多领域问题的训练程序，在训练短语期间，状态值函数V_β和策略函数π_θ的参数都会更新。V_β(b_k)的优化对象是近似n-step目标状态值v_k，即损失是v_k之间的均方误差(MSE)和V_β(b_k)，(v_k-V_β(b_k))²。因此，参数β通过梯度下降方向更新：

对于策略函数π_θ，根据等式8中描述的策略梯度更新参数θ。为了鼓励探索，我们还在对象函数中添加熵奖励。因此，更新θ的总梯度如下：

其中，V_k是b处的V-trace目标，λ₁和λ₂是适当的系数，它们是算法的超参数。

对于多域问题，从不同域收集经验轨迹。在训练时，我们首先分别从每个域中采样一个小批量，然后根据公式10和公式11计算每个小批量上的状态值函数V和策略函数π的梯度。更新时，我们将这些梯度一起添加并更新参数。附录F中显示了多域问题的具体训练过程。对于STRAC，单域问题可以被视为多域问题的特例，其中只有一个对话域。

以下我们将评估我们提出的STRAC方法的性能。首先，我们将STRAC与单个域中的基线方法进行比较。然后，我们使用有限的对话数据评估我们的方法在多个域中的性能。最后，我们设计了一个消融实验来分析受影响的因素。

PyDial基准测试已用于部署和评估对话策略模型。它提供了一组18个任务，包括3个对话域和6个具有不同语义错误率(SER)的环境，不同的动作掩码配置和用户模型(标准或不友好)。

每个本地代理有3个操作，全局代理有5个操作。有关操作的更多详细信息以及此处使用的DIP功能。在本地代理策略模型中有一个大小为40和250的隐藏层，以及没有通信机制的全局代理策略模型。在结构化对话策略模型中，我们然后连接一个本地代理层和一个全局代理层。local2local消息层，global2local消息层和本地隐藏层是一个具有相同大小20的层。local2global消息层和全局隐藏层也是一个具有相同大小100的层。为了驱动探索，所有神经网络中的隐藏层是噪声线性层(NoisyNet)，在附录A中介绍。所有层的激活功能都是整流线性单元(ReLU)。STRAC的超参数是：γ＝0.99，n＝5，λ₁＝0.3，λ₂＝0.001。学习率α＝0.0001，我们使用Adam Optimiser。一个小批量的大小是64。

评估设置：当对话没有终止时，在每次对话时，奖励为-1以鼓励更有效的对话策略。当对话终止时，如果成功则奖励为20，或奖励为0。有两个指标用于评估对话策略的绩效，成功率和奖励。

域内策略的结果

使用足够的训练对话数据评估我们在单一对话域(名为STRAC-S)中提出的STRAC。在这里，我们训练具有4000个对话或迭代的模型。训练对话的总数被分解为里程碑(每个200次迭代的20个里程碑)。在每个里程碑，有500个对话来测试对话策略的表现。对于每个任务，每个模型都使用10个不同的随机种子(0～9)进行训练。STRAC-S的学习曲线以及基线如图5所示。附录E总结了4000次迭代后的奖励和成功率。GP-Sarsa，DQN，FM-GNN和ACER是不同的强化学习算法，它们在以前的文献中已经达到了最先进的性能。

在简单的CR对话域中，其具有比其他两个域更少的时隙，几乎所有方法都可以获得相当大的性能。在SFR和LAP中，我们可以看到对话任务越复杂，STRAC-S可以实现的性能提升越多。我们进一步比较STRAC-S和基于价值的方法(DQN，GP-Sarsa和FM-GNN)，发现我们的方法不仅具有更好的性能，而且还获得更稳定的学习。将STRAC-S与另一个非策略性的演员评论算法ACER进行比较，我们发现它们都可以稳定地学习。但是，在大多数任务中，STRAC-S的性能明显优于ACER。原因是本地代理彼此共享参数，这可以提高学习速度和模型的泛化。

通用策略的结果

使用有限的对话数据评估我们在单个域(STRAC-S)和多个域(STRAC-M)上提出的STRAC。我们进行400次迭代的实验(每次50次迭代的8个里程碑)。在STRAC-M实验中，有一个通用策略，在三个对话域(CR，SFR和LAP)中具有一组共享参数。在更新共享参数时，在小批量中，从重放存储器中采样有三种不同类型的对话体验。我们使用相同类型的对话分别计算共享参数的梯度，然后将它们一起添加以更新共享参数。然后，我们以4000次迭代运行STRAC-M实验，其配置与STRAC-S实验相同。在SFR域中具有有限(400)次迭代的STRAC-M的学习曲线如图6所示。CR和LAP域中的学习曲线显示在附录C中。带有4000次迭代的STRAC-M的奖励和成功率显示在附录E中。

当训练迭代有限时，将STRAC-M与STRAC-S进行比较，我们可以发现STRAC-M的学习速度比STRAC-S快得多。它证明了针对所有可用数据训练的通用策略STRAC-M非常有效。我们可以进一步看到STRAC-M在50次迭代后实现了可观的性能提升。在现实世界的对话系统中，STRAC-M可能是解决冷启动问题(糟糕的初始性能和高质量用户体验之间的差距)的好方法在附录E中，我们可以发现，当训练迭代足够时，STRAC-M的性能接近甚至优于STRAC-S的性能。这表明STRAC在不同的对话域之间具有出色的可转移性。无论训练迭代是有限的还是足够的，STRAC都能在近18项任务中实现最新的最先进性能。

消融实验，我们测试了影响STRAC性能的两个因素(分层决策和NoisyNet)。在实验中，我们分别将这两个因素分开来测试效果。下面详细介绍这两个消融实验：

分层决策：删除等式3中的分层操作f_i并由l_i直接替换。

NoisyNet：在本实验中，噪声线性全连接层被正常线性全连接层取代。

SFR域消融实验的学习曲线如图7所示。CR和LAP域中的学习曲线显示在附录D中。

在没有分层决策的情况下，我们可以发现在没有动作掩码机制的情况下，该算法在Env.2和Env.4中具有明显的性能下降。它表明，层次决策对提高学习能力很重要，有助于复杂的对话任务。如果没有NoisyNet，我们可以发现Env.2，Env.4和Env.6中的方差明显增加。它证明了对NoisyNet的探索对于稳定学习过程非常重要。

本文提出了一种可扩展的分布式对话策略STRAC，用于对从不同领域收集的所有可用数据进行一般性对话策略训练。STRAC通过结合结构化对话策略和有效的非策略行为者-评论者算法，提高了基于NN的策略的可扩展性，稳定性和效率。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作合并，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在一些实施例中，本发明实施例提供一种非易失性计算机可读存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项构建多领域对话管理系统的方法。

在一些实施例中，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项构建多领域对话管理系统的方法。

在一些实施例中，本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行构建多领域对话管理系统的方法。

在一些实施例中，本发明实施例还提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时构建多领域对话管理系统的方法。

图8是本申请另一实施例提供的执行构建多领域对话管理系统的方法的电子设备的硬件结构示意图，如图8所示，该设备包括：

一个或多个处理器810以及存储器820，图8中以一个处理器810为例。

执行构建多领域对话管理系统的方法的设备还可以包括：输入装置830和输出装置840。

处理器810、存储器820、输入装置830和输出装置840可以通过总线或者其他方式连接，图8中以通过总线连接为例。

存储器820作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的构建多领域对话管理系统的方法对应的程序指令/模块。处理器810通过运行存储在存储器820中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例构建多领域对话管理系统的方法。

存储器820可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据构建多领域对话管理系统的装置的使用所创建的数据等。此外，存储器820可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器820可选包括相对于处理器810远程设置的存储器，这些远程存储器可以通过网络连接至构建多领域对话管理系统的装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置830可接收输入的数字或字符信息，以及产生与构建多领域对话管理系统的装置的用户设置以及功能控制有关的信号。输出装置840可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器820中，当被所述一个或者多个处理器810执行时，执行上述任意方法实施例中的构建多领域对话管理系统的方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本申请实施例的电子设备以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种多领域对话管理系统，包括：

2.根据权利要求1所述的系统，其中，

所述全局代理包括多个全局代理层，所述全局代理层包括：

全局隐藏层，配置为对当前全局代理层的输入信息进行处理；

所述本地代理包括多个本地代理层，所述本地代理层包括：

3.根据权利要求2所述的系统，其中，所述全局代理层还包括：

全局均值单元，配置为根据接收自所述多个本地代理的消息求均值；

全局求和输出单元，配置为根据所述全局隐藏层的输出信息和来自所述全局均值单元的输出求和后输出。

4.根据权利要求3所述的系统，其中，

f₀＝h₀+(l₀-max(l₀))

5.根据权利要求2所述的系统，其中，所述本地代理层还包括：

本地均值单元，配置为根据接收自其它本地代理的消息求均值；

本地求和输出单元，配置为根据来自所述本地隐藏层的输出、来自所述全局代理的消息和所述本地均值单元的输出求和后输出。

6.根据权利要求5所述的系统，其中，

f_i＝h_i+(l_i-max(l_i))

7.一种构建多领域对话管理系统的方法，包括：

8.根据权利要求7所述的方法，其中，所述全局代理包括多个全局代理层，所述本地代理包括多个本地代理层，所述方法还包括：

为所述全局代理层配置全局隐藏层和全局到本地消息层；

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求7或8所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求7或8所述方法的步骤。