CN114969292A

CN114969292A - 一种基于多回复解码器的对话系统

Info

Publication number: CN114969292A
Application number: CN202210610767.0A
Authority: CN
Inventors: 蔡铁城; 姚震; 陈志豪; 杨州; 廖祥文
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2022-08-30

Abstract

本发明涉及一种基于多回复解码器的对话系统。数据预处理模块对系统回复和用户对话进行去词化操作；对话编码器模块负责编码历史对话信息，将对话文本序列映射为对应时间步的隐藏状态表征向量；对话状态解码器模块负责根据对话编码器的输出和上一轮对话状态，解码出本轮对话状态；外部数据库模块，负责根据对话状态解码器的输出查询满足用户要求的所有实体，以三元组（领域，槽，槽值）的形式存储；系统动作解码器模块，负责根据对话状态解码器的输出、数据库的返回结果和本轮用户对话解码出本轮系统动作；系统回复生成模块，由全局回复解码器、专业子解码器及通道选择网络组成。本发明能够提高系统回复的准确性，提高用户和系统的交互效率。

Description

一种基于多回复解码器的对话系统

技术领域

本发明涉及人机对话领域，具体涉及一种基于多回复解码器的对话系统。

背景技术

对话系统的研究旨在让机器理解人类语言，并且赋予机器人和人类一样的语言表达能力，并且帮助人类完成各类任务。对对话系统在任务的要求是，给定一句话或者几句话，机器能够根据这几句话以及自身的知识系统，给出一个合理的回复(或是生成简单的操作指令)。对话系统的发展改变了人机交互的方式，具有广泛的实际应用价值，现已有很多典型应用，如苹果智能语音助手——Siri，小米智能家居的大脑——小爱以及微软强大的面向交互全程的人工智能交互主体框架——小冰。任务型对话系统的研究主要有两种方法：管道型方法和基于端到端的对话模型。下面将对着两种建模方法做简要介绍。

管道模型主要有四个核心组件：1)自然语言理解(Natural LanguageUnderstanding,NLU)：对用户的文本输入进行识别解析，得到槽值对(slot-valuepairs)和意图等计算机可理解的语义标签；2)对话状态跟踪(Dialog State Tracking,DST)：根据对话历史，维护当前对话状态，对话状态是对整个对话历史的累积语义表示，一般就是槽值对(slot-value pairs)；3)对话策略(Dialogue Policy)：根据当前对话状态输出下一步系统动作。一般对话状态跟踪模块和对话策略模块统称为对话管理模块(Dialogue manager,DM)；4)自然语言生成(Natural Language Generation,NLG)：将系统动作转换成自然语言输出。这种模型的缺点是不够灵活，各个模块之间相对独立，难以联合调优，适应变化的应用场景。并且由于模块之间的误差会层层累积，单一模块的升级也可能需要整个系统一起调整。

任务型对话系统的另一种实现是端到端系统，这类结构受到开放域对话系统研究的启发，开放域对话系统使用神经模型以端到端方式构建系统，不进行模块化设计，希望训练一个从用户端自然语言输入到机器端自然语言输出的整体映射关系，具有灵活性强、可拓展性高的特点，减少了设计过程中的人工成本，打破了传统模块之间的隔离。面向任务的对话系统的端到端方法大多采用Seq2seq神经网络作为基础结构框架。然而，端到端模型对数据的数量和质量要求很高，并且对于填槽、API调用等过程的建模不够明确，最终导致用户与系统之间交互周期长、系统回复不准确、缺乏多样性以及易生成无用回复等问题。

发明内容

本发明的目的在于提供一种基于多回复解码器的对话系统，系统能够在每一轮对话中生成多个候选回复，并能够选择出其中最符合用户需求的一个候选回复，最终实现提高系统回复的准确性，提高用户和系统的交互效率。

为实现上述目的，本发明的技术方案是：一种基于多回复解码器的对话系统，包括：

数据预处理模块，对系统回复和用户对话进行去词化操作，降低由于语言表达的多样性给对话系统带来的干扰；

对话编码器模块，负责编码历史对话信息，将对话文本序列映射为对应时间步的隐藏状态表征向量；

对话状态解码器模块，负责根据对话编码器模块的输出和上一轮对话状态，解码出本轮对话状态；本轮对话状态包含四类信息，分别是：1)用户对话中涉及的对话领域信息、2)用户动作信息、3)确信状态、4)数据库查询结果；

外部数据库模块，负责根据对话状态解码器模块的输出查询满足用户要求的所有实体，实体以三元组(领域，槽，槽值)的形式存储；

系统动作解码器模块，负责根据对话状态解码器模块的输出、数据库的返回结果和本轮用户对话解码出本轮系统动作；

系统回复生成模块，由三个子模块组成：全局回复解码器，负责根据所有输入数据解码出一个全局回复；专业子解码器，负责针对用户对话中涉及的某个对话领域解码出一个局部回复；通道选择网络，负责从所有生成的候选回复中选择最满足用户要求的一个。

在本发明一实施例中，所述数据预处理模块使用占位符表示与相同槽名对应的不同对话领域信息。

在本发明一实施例中，经过数据预处理模块预处理后的对话文本序列使用一个双层门控循环网络作为共享编码器，将对话文本序列映射为对应时间步的词向量。

在本发明一实施例中，使用一个双层门控循环网络作为对话状态解码器模块。

在本发明一实施例中，使用一个外部数据库用以根据当前轮的对话状态查询所有符合用户需求的实体。

在本发明一实施例中，使用一个双层门控循环网络作为系统动作解码器模块，根据当前轮的对话状态、数据库查询结果和当前轮用户对话解码出本轮系统动作策略。

在本发明一实施例中，使用若干个双层门控循环网络作为回复解码器，其中一个为全局回复解码器，用以根据所有输入数据解码出一个回复，其余作为专业子解码器，用以针对用户对话中涉及的特定领域解码出一个局部回复；通道选择网络将从所有候选回复中选择出最符合用户要求的一个输出。

相较于现有技术，本发明具有以下有益效果：本发明系统能够在每一轮对话中生成多个候选回复，并能够选择出其中最符合用户需求的一个候选回复，最终实现提高系统回复的准确性，提高用户和系统的交互效率。

附图说明

图1为本发明实施例的流程图。

图2为本发明实施例的对话模型结构图。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

本实施例提供一种基于多回复解码器的任务型对话系统，包括以下步骤：

步骤S1：上下文编码器(即对话编码器模块)将对话文本序列映射为对应时间步的隐藏状态表征

其中L_X是对话文本序列的长度，d是嵌入层的维度。上下文编码器内包含一个词嵌入层，词嵌入层是一个可训练的嵌入矩阵E∈R^||V||ⅹd，||V||表示词表的长度。通过查询词在词嵌入矩阵的对应下标，每个词都会被映射为矩阵中的一行d维词嵌入向量，其过程可用公式表示为

第i轮历史对话的编码过程可用公式表示为

其中表示词x_i查询词嵌入矩阵的结果，和表示上一轮的隐藏向量和隐藏状态。特别地，初始值h₀和s₀设置为0。

步骤S2：对话状态解码器(即对话状态解码器模块)基于上一轮的对话状态B_t-1、上一轮轮系统回复R_t-1以及当前轮的用户对话U_t生成当前轮的对话状态B_t。具体地，先将U_t、R_t-1、B_t-1三个向量按序拼接得到隐藏层状态表示h_t：

再使用注意力机制计算复制分值得到对话状态解码器的输入，复制机制可以从历史对话和前轮对话状态中直接复制未被修改的部分复制槽名和新的槽值，具体细节参见注释[1]。这样做的目的是增强模型的扩展和泛化能力，公式表示如下：

c_t＝Copy(h_t,B_t-1,R_t-1)

因为对话状态已经浓缩了所有关键的对话信息，所以复制过程只要上一轮对话状态而不需要所有历史对话参与，上一轮系统回复必要的原因是系统可能就用户对话中某些遗漏的条件提醒用户补充。在多领域对话任务中，如果只记录槽值而忽略对话领域信息将产生二义性。例如对于一个时间值而言，既可以出现在饭店预定场景也可以表示火车到达或出发时间。为了消除二义性，本模型将在对话状态解码阶段额外生成领域标志信息。

模型使用生成的对话状态和标准答案间的交叉熵作为对话状态解码阶段的损失函数。解码过程遵循端到端方法，用公式可以表示为：

B_t＝BiGRU(c_t)

步骤S3：系统动作解码(即系统动作解码器模块)也被称作系统策略训练，实质就是模型学习从对话状态到系统动作的映射的过程，即模型根据某个对话状态生成正确的系统动作，目标函数可表示为：

具体地，第t轮的系统动作A_t是将第t轮用户对话的隐藏状态U_t、第t轮的对话状态B_t和数据库查询结果DB_t按序拼接输入系统动作解码器生成。解码过程同样使用端到端的方法，用公式表示如下：

A_t＝BiGRU(U_t,B_t,DB_t)

步骤S4：模型的回复解码器(即系统回复生成模块)由两类解码器构成，分别是：一个全局回复解码器和k个面向特定对话领域的局部回复解码器，也称作专业回复解码器。

专业回复解码器(expert decoder)的任务是根据用户对话中涉及的一个对话领域预测该领域内的回复。第l个局部解码器输出第t轮的关于词表的概率，公式表示如下:

其中M和a是可学习到的二维矩阵，，，，分别表示输入第l个局部解码器的第t轮的系统动作，用户对话隐藏层状态，对话状态，数据库查询结果，四个向量按序拼接作为回复解码器的输入。

全局回复解码器(global decoder)负责两项任务，第一是针对本轮用户对话解码出一个全局回复：

第二是将全局解码器和专业解码器的生成结果输入通道融合网络ChWM，由ChWM预测最终的词表征分布概率。通道融合网络从所有候选回复中选择最优的一个输出，其过程如图三所示。计算过程如下：

其中是全局解码器的预测结果，全局解码器的结构和专业解码器结构相同，均为一个单层双向门控循环单元(BiGRU)，不同之处在于全局解码器是基于全部数据完成预测的。是正则化参数，由以下公式计算而来：

u_l＝MLP(h)

是每个专业解码器所特有的一个通过多层感知机训练得到的向量。每个专业领域解码器由独立的损失函数优化，损失函数为预测结果和标准答案间的交叉熵。对于每个训练样本D，模型计算出联合预测概率p_j，于是回复解码阶段的总损失函数表示如下：

模型总体上仍然遵循端到端的训练方式，模型总损失为对话状态解码阶段、系统动作解码阶段和回复解码阶段的损失之和，模型通过对总损失进行优化达到联合训练的效果。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

参考文献：

[1]Lei,W.；Jin,X.；Kan,M.-Y.；Ren,Z.；He,X.；and Yin,D.2018.Sequicity:Simplifying task-oriented dialogue systems with single

sequence-to-sequence architectures.In Proceedings ofthe 56th AnnualMeeting of the Association for Computational Linguistics(Volume 1:LongPapers),1437–1447.。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种基于多回复解码器的对话系统，其特征在于，包括：

2.根据权利要求1所述的一种基于多回复解码器的对话系统，其特征在于，所述数据预处理模块使用占位符表示与相同槽名对应的不同对话领域信息。

3.根据权利要求1所述的一种基于多回复解码器的对话系统，其特征在于，经过数据预处理模块预处理后的对话文本序列使用一个双层门控循环网络作为共享编码器，将对话文本序列映射为对应时间步的词向量。

4.根据权利要求1所述的一种基于多回复解码器的对话系统，其特征在于，使用一个双层门控循环网络作为对话状态解码器模块。

5.根据权利要求1所述的一种基于多回复解码器的对话系统，其特征在于，使用一个外部数据库用以根据当前轮的对话状态查询所有符合用户需求的实体。

6.根据权利要求1所述的一种基于多回复解码器的对话系统，其特征在于，使用一个双层门控循环网络作为系统动作解码器模块，根据当前轮的对话状态、数据库查询结果和当前轮用户对话解码出本轮系统动作策略。

7.根据权利要求1所述的一种基于多回复解码器的对话系统，其特征在于，使用若干个双层门控循环网络作为回复解码器，其中一个为全局回复解码器，用以根据所有输入数据解码出一个回复，其余作为专业子解码器，用以针对用户对话中涉及的特定领域解码出一个局部回复；通道选择网络将从所有候选回复中选择出最符合用户要求的一个输出。