CN110196928B

CN110196928B - 完全并行化具有领域扩展性的端到端多轮对话系统及方法

Info

Publication number: CN110196928B
Application number: CN201910411706.XA
Authority: CN
Inventors: 鄂海红; 宋美娜; 陈忠富; 牛佩晴; 周筱松; 程瑞; 肖思琪
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-05-17
Filing date: 2019-05-17
Publication date: 2021-03-30
Anticipated expiration: 2039-05-17
Also published as: CN110196928A

Abstract

本发明公开了一种完全并行化具有领域扩展性的端到端多轮对话系统及方法，其中，系统包括：输入嵌入层，用于在用户输入信息输入至输入嵌入层后，生成向量表示形式的输入信息；编码器，用于对输入信息进行编码，得到用户输入的抽象表示；对话状态解码器，用于根据抽象表示得到对话状态表示；数据库，用于根据对话状态表示查询得到查询结果；机器响应解码器，用于在查询结果和对话状态共同输入至机器响应解码器后，生成机器回答。该系统实现了各模块之间的一体化，可以实现真正意义上的端到端训练，且在提升了模型的训练速度的同时简化了模型的结构，并具有领域可扩展性，简单易实现。

Description

完全并行化具有领域扩展性的端到端多轮对话系统及方法

技术领域

本发明涉及信息技术及数据业务技术领域，特别涉及一种完全并行化具有领域扩展性的端到端多轮对话系统及方法。

背景技术

目前工业界主流的任务驱动型多轮对话系统主要是基于传统的流水线方式设计的，这种方式的结构复杂，涉及到多模块之间的相互协调，但最终用户的反馈很难传递到上游模块，一个组件调整需要大量人工成本对所有组件进行相应更改。这样各个模块高度相互依赖的结构影响了对话系统的性能和效率，带给用户不佳的体验。相关技术中，一种多轮对话的方法和系统，是基于这种流水线架构设计的，主要分为自然语言理解、对话状态跟踪、策略学习、自然语言生成四个模块。

基于这种现状，越来越多的研究开始投入到端到端的任务型多轮对话系统中，但这些系统大多基于复杂的循环神经网络结构，加剧了模型的复杂性，且基于循环神经网络的模型遇到时间依赖和序列依赖的问题，无法实现完全并行化的架构，充分发挥GPU(Graphics Processing Unit，图像处理器)的性能。相关技术中，一种端到端层次解码任务型对话系统，但系统仅仅依赖于数据库检索，并没有完整的划分对话状态跟踪和自然语言生成模块，可能导致在复杂环境中很难适用，依然高度依赖于双向长短期记忆网络(一种RNN(Recurrent Neural Network，循环神经网路)网络的变体，能捕获句子中的长距离依赖)，因此具有庞大的参数和复杂的结构，这也使得模型的训练速度变得非常慢，很大程度上影响了模型的性能。

除此之外，现有的端到端模型大多只是采用共同训练的方式使得各个模块弱关联起来，但并未建立各个模块之间的真正联系，未考虑各个模块之间的交叉影响，在训练过程中会涉及到许多变量的传递，并未实现真正意义上的端到端。除此之外，现有的模型只适用于某一个单一的领域，在进行领域迁移时需要重新定义意图和槽值的标签，不具有领域可扩展性。相关技术中，一种基于seq2seq模型的实现问答机器人的方法，该方法先根据问答语句的上下文信息提取主题词，再将处理之后的用户问句放入seq2seq模型中进行训练，用户问句处理部分需要单独进行训练，并没有实现真正意义上的端到端训练，进一步加剧了模型的复杂性，并且简单的问答也很难适应多轮的对话场景。此外，当该模型进行领域迁移时，需要重新定义数据标签(意图、槽值等)，为领域迁移带来了困难。

发明内容

本申请是基于发明人对以下问题的认识和发现做出的：

传统的流水线设计方式结构复杂，各模块之间相互独立，协调困难，端到端的多轮对话框架是未来的发展趋势。而仅有的数量不多的端到端框架仍然是基于循环迭代网络(RNN)实现的，结构复杂，且存在时间依赖和序列依赖的问题，训练缓慢，参数庞大。

上述技术仍然遵循流水线的设计方式，需要额外的训练子模块，并未实现真正意义上的端到端，训练效率不高。且现有的多轮对话系统大多基于深度学习中的循环神经网络，因为RNN网络本身是串行结构，本轮输出会用到上一轮输出的信息，因此存在时间依赖和序列依赖的问题，且循环神经网络本身的结构就较为复杂，更加剧了系统整体的复杂性。

因此，当前任务型对话系统仍存在两个问题：(1)如何高效准确的一体化任务型对话系统，实现真正意义上的端到端模型；(2)高度依赖循环神经网络导致的时间依赖与序列依赖，形成参数庞大，训练缓慢的问题。

本发明实施例提出了一个完全并行化的高效的端到端任务型对话系统，针对第一个问题形成了一个编码器，两个解码器(对话状态解码器和机器响应解码器)的序列到序列模型，准确而高效的将任务型对话系统一体化，完成端到端可训练的架构。针对第二个问题，模型完全基于卷积神经网络和自注意力机制，使得该系统可以实现各元素之间的并行计算，达到并行化训练的目的，充分利用GPU，大幅度的提高模型的训练速度，同时减少模型参数。

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种完全并行化具有领域扩展性的端到端多轮对话系统，该系统实现了各模块之间的一体化，可以实现真正意义上的端到端训练，且在提升了模型的训练速度的同时简化了模型的结构，并具有领域可扩展性，简单易实现。

本发明的另一个目的在于提出一种完全并行化具有领域扩展性的端到端多轮对话方法。

为达到上述目的，本发明一方面实施例提出了一种完全并行化具有领域扩展性的端到端多轮对话系统，包括：输入嵌入层，用于在用户输入信息输入至所述输入嵌入层后，生成向量表示形式的输入信息；编码器，用于对所述输入信息进行编码，得到用户输入的抽象表示；对话状态解码器，用于根据所述抽象表示得到对话状态表示；数据库，用于根据所述对话状态表示查询得到查询结果；机器响应解码器，用于在所述查询结果和所述对话状态共同输入至机器响应解码器后，生成机器回答。

本发明实施例的完全并行化具有领域扩展性的端到端多轮对话系统，采用端到端的方式构建了任务型多轮对话系统，解决了传统的流水线式任务导向多轮对话系统结构复杂、各模块之间协调困难的问题，从而实现了各模块之间的一体化，没有需要单独训练的子模块，因此可以实现真正意义上的端到端训练；基于seq2seq模型，包含一个编码器和两个解码器，三者都是通过卷积神经网络和注意力机制实现的，完全摒弃了复杂的循环神经网络，在提升了模型的训练速度的同时简化了模型的结构；具有领域可扩展性，无需重新定义标签，只需提供其它领域的对话数据和背景知识，即可轻松扩展到其它领域。

另外，根据本发明上述实施例的完全并行化具有领域扩展性的端到端多轮对话系统还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述编码器由第一多层卷积神经网络和自注意力网络组成，其中，在每一层卷积神经网络之后，添加一个GLU网络，并在所述多层卷积神经网络之间应用残差网络，以提取用户输入的局部特征，并且使用所述自注意力网络捕获句子的全局依赖。

进一步地，在本发明的一个实施例中，所述编码器的输出为：

Y_enc＝Enc(InputEmb(u_tr_t-1))，

其中，Enc表示编码器，InputEmb表示输入嵌入层，u_t表示当前轮的用户输入，r_t-1表示上一轮的机器响应。

进一步地，在本发明的一个实施例中，所述对话状态解码器由第二多层卷积神经网络和多跳注意力机制组成，所述第二多层卷积神经网络用于提取局部特征，所述多跳注意力机制结合深层特征高度抽象和浅层特征真实的优势，以从各层特征中获取相关信息，以为每层卷积网络添加单独的注意力机制。

进一步地，在本发明的一个实施例中，其中，

其中，α_ij为解码器向量

在编码器向量

的注意力，e_ij为

和

的对齐分数，e_ik为

和

的对齐分数，T_x为编码器输入序列的总长度，n为，W₁为线性层参数，

为解码器的第i个语义向量，b₁为线性层参数，g_i为解码器的词向量经过一个线性层的输出，c_i为上下文向量，

为最终上下文向量，W₂为线性层参数，b₂为线性层参数。

进一步地，在本发明的一个实施例中，所述机器相应解码器的输出为：

Y_dec＝Dec(Y_enc(u_tr_t-1)|b_t-1)，

其中，Dec代表译码器，Y_enc代表编码器的输出，b_t-1表示数据库的检索结果。

为达到上述目的，本发明另一方面实施例提出了一种完全并行化具有领域扩展性的端到端多轮对话方法，执行如权利要求1-6任一项所述的系统，其中，所述方法包括以下步骤：在用户输入信息输入至输入嵌入层后，生成向量表示形式的输入信息；对所述输入信息进行编码，得到用户输入的抽象表示；根据所述抽象表示得到对话状态表示；根据所述对话状态表示查询得到查询结果；在所述查询结果和所述对话状态共同输入至机器响应解码器后，生成机器回答。

本发明实施例的完全并行化具有领域扩展性的端到端多轮对话方法，采用端到端的方式构建了任务型多轮对话系统，解决了传统的流水线式任务导向多轮对话系统结构复杂、各模块之间协调困难的问题，从而实现了各模块之间的一体化，没有需要单独训练的子模块，因此可以实现真正意义上的端到端训练；基于seq2seq模型，包含一个编码器和两个解码器，三者都是通过卷积神经网络和注意力机制实现的，完全摒弃了复杂的循环神经网络，在提升了模型的训练速度的同时简化了模型的结构；具有领域可扩展性，无需重新定义标签，只需提供其它领域的对话数据和背景知识，即可轻松扩展到其它领域。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的完全并行化具有领域扩展性的端到端多轮对话系统的结构示意图；

图2为根据本发明一个实施例的任务型多轮对话示例；

图3为根据本发明实施例的完全并行化具有领域扩展性的端到端多轮对话系统的执行流程图；

图4为根据本发明一个实施例的完全并行化具有领域扩展性的端到端多轮对话系统的结构示意图；

图5为根据本发明实施例的端到端结构示意图；

图6为根据本发明实施例的编码器与解码器结构示意图；

图7为根据本发明实施例的完全并行化具有领域扩展性的端到端多轮对话方法的流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的完全并行化具有领域扩展性的端到端多轮对话系统及方法，首先将参照附图描述根据本发明实施例提出的完全并行化具有领域扩展性的端到端多轮对话系统。

图1是本发明一个实施例的完全并行化具有领域扩展性的端到端多轮对话系统的结构示意图。

如图1所示，该完全并行化具有领域扩展性的端到端多轮对话系统100包括：输入嵌入层110、编码器120、对话状态解码器130、数据库140和机器响应解码器150。

其中，输入嵌入层110用于在用户输入信息输入至输入嵌入层110后，生成向量表示形式的输入信息。编码器120用于对输入信息进行编码，得到用户输入的抽象表示。对话状态解码器130用于根据抽象表示得到对话状态表示。数据库140用于根据对话状态表示查询得到查询结果。机器响应解码器150用于在查询结果和对话状态共同输入至机器响应解码器150后，生成机器回答。本发明实施例的系统100实现了各模块之间的一体化，可以实现真正意义上的端到端训练，且在提升了模型的训练速度的同时简化了模型的结构，并具有领域可扩展性，简单易实现。

可以理解的是，本发明实施例的多轮对话系统100是基于编码器-解码器架构设计的，为了适应多轮对话场景，该系统100由一个编码器120和两个解码器组成，其中编码器120用来对用户输入进行编码，两个解码器分别是对话状态解码器130和机器响应解码器150，对话状态解码器130用来记录对话状态，机器响应解码器150用来生成机器响应。其中对话状态由两种槽值表示，一种称为informable槽值用于表示用户需求以便搜索知识库，一种称为requestable槽值用于机器响应的约束条件以便机器做出相应的回答。

举例而言，如图2所示，图2显示了一个对话示例，一共涉及到三轮对话，下面以第三个轮次的对话为例介绍完全并行化具有领域扩展性的多轮对话系统，首先用户输入问句“这家店的电话号码和地址是多少呢？”，具体地，如图3所示，具体可以分为以下几个步骤：

1)、经过输入嵌入层110转换为向量表示形式。

2)、之后再经过编码器120进行编码，得到用户输入的抽象表示。

3)、将该抽象表示输入到对话状态解码器130得到对话状态表示，具体而言，可以用requestable槽值和informable槽值表示，如图2所示，这里的informable槽值是便宜和法国菜，而requestable槽值是电话号码和地址。

4)、之后将得到的对话状态(informable槽值和requestable槽值)输入进数据库140中进行查询，得到查询结果，这里用一个二维度的向量表示是否有该informable槽值对应的条目信息。

5)、将该二维的向量和对话状态共同输入到机器响应解码器150中，产生相应的机器回答，如本示例中的“电话号码是PHONE_SLOT，地址是ADDRESS_SLOT”。特别的是，如果在机器回答中出现了requestable槽值的占位符，如本示例中的“PHONE_SLOT”和“ADDRESS_SLOT”，则需要重新返回数据库进行检索，将数据库中该条目的对应信息填充，如“PHONE_SLOT”用“13778904532”填充，“ADDRESS_SLOT”用“中国北京”填充。

下面将通过具体实施例对完全并行化具有领域扩展性的端到端多轮对话系统100进行进一步详细阐述。

进一步地，在本发明的一个实施例中，编码器120由第一多层卷积神经网络和自注意力网络组成，其中，在每一层卷积神经网络之后，添加一个GLU网络，并在多层卷积神经网络之间应用残差网络，以提取用户输入的局部特征，并且使用自注意力网络捕获句子的全局依赖。

具体而言，如图4所示，本发明实施例的系统100采用端到端的设计方式图3显示了完全并行化的具有领域扩展性的端到端多轮对话的架构，其由一个编码器120和对话状态解码器130、机器响应解码器150组成。

在本发明实施例系统100的结构中，所有编码器和解码器共享一个输入嵌入层110，为了更好捕捉句子特征，本发明实施例采用了词向量结合字符向量的方式来表示句子特征。对于编码器120，其由多层卷积神经网络和自注意力机制组成，特别的，在每一层卷积神经网络之后都添加了一个GLU网络，并在多层卷积神经网络之间应用了残差网络，从而通过多层卷积神经网络可以提取用户输入的局部特征，并且在此之后使用自注意力网络捕获句子的全局依赖。编码器的最终输出为

Y_enc＝Enc(InputEmb(u_tr_t-1))

其中Enc表示编码器，InputEmb表示输入嵌入层,u_t表示当前轮的用户输入，r_t-1表示上一轮的机器响应。

进一步地，在本发明的一个实施例中，对话状态解码器130由第二多层卷积神经网络和多跳注意力机制组成，第二多层卷积神经网络用于提取局部特征，多跳注意力机制结合深层特征高度抽象和浅层特征真实的优势，以从各层特征中获取相关信息，以为每层卷积网络添加单独的注意力机制。

具体而言，如图4所示，对话状态解码器130和机器响应解码器150的结构基本相同，由卷积神经网络和多跳注意力机制组成。同样的，卷积神经网络用来提取局部特征，多跳注意力机制可以结合深层特征高度抽象和浅层特征真实的优势，从各层特征中获取有益的信息，具体来说，为每层卷积网络添加单独的注意力机制。

其中，g_i为解码器的词向量经过一个线性层的输出，与解码器输入经过线性层后相加，再乘以

n取0.5后与编码器每个输出

点积得到e_ij，这作为解码器输入与编码器输出的相似度分数衡量，经过softmax后得到权重,得到的上下文向量c_i，经过输出线性层与残差模块后得到最终上下文向量

解码器的最终输出为：

Y_dec＝Dec(Y_enc(u_tr_t-1)|b_t-1)

其中Dec代表译码器；Y_enc代表编码器的输出；b_t-1表示数据库的检索结果，在这个式子中是条件，相似地，ut表示当前轮的用户输入，rt-1表示上一轮的机器响应。

进一步而言，本发明实施例的系统100包括三个方面的特性：端到端训练、完全并行化、领域可扩展性，下面将分别对三个方面的特性进行详细阐述，具体包括：

1、端到端结构

如图5所示，本发明实施例的系统100基于seq2seq结构实现了真正意义上的端到端，将对话系统各个独立的模块融合成了一个整体的模型，包括一个编码器120，两个解码器(对话状态解码器130和机器响应解码器150)，无需额外训练的子模块，可以完全实现端到端训练，这种一个编码器两个解码器的架构在将对话系统整合成一个seq2seq模型的同时，仍然保持着优越的准确性，并且与传统的对话流程相吻合。

由于本发明实施例的系统100完全基于一个单个的seq2seq架构，并且摒弃了复杂的循环神经网络，使得模型结构大大得以简化，使得模型的参数大幅度地减少，这也进一步提高了模型的训练速度。

2、完全并行化

如图6所示，本发明实施例的系统100由一个编码器120和两个解码器组成。其中，编码器120完全基于多层卷积神经网络和自注意力机制，两个解码器的结构类似，都是基于多层卷积神经网络和多跳注意力机制，整个架构都没有使用到循环神经网络，完全采用并行的卷积神经网络和并行的注意力机制，是一个完全并行化的架构，而完全并行化的架构也使得该模型可以实现并行计算，大大提高了训练速度。

3、领域可迁移

本发明实施例的系统100仅由一个编码器120和两个解码器组成，并且其共享一个输入嵌入层110，因此在进行领域迁移时无需重新定义标签。只需要用户提供摸个领域的专业知识背景，即用户拥有某个领域的数据库，如机票数据库、火车票数据库、电影数据库、音乐数据库、餐馆数据库等。该系统可以广泛应用于商场、影院、超市、网购平台等垂直领域的应用，能够极大地减少相关行业的人力需求、提升生产效益，符合网购平台、线下服务平台、旅游业等行业的利益需求。

综上，(1)本发明实施例的系统基于一个seq2seq模型，实现了完全的并行化任务型对话系统；(2)本发明实施例的系统完全由卷积神经网络和注意力机制组成任务型对话系统，完全摒弃了传统的复杂的循环神经网络；(3)本发明实施例的系统采用全并行化方法，有效地提高了模型的训练速度，参数量大量缩小；(4)本发明实施例的系统可迁移到多个领域，具有领域可迁移性。

根据本发明实施例提出的完全并行化具有领域扩展性的端到端多轮对话系统，采用端到端的方式构建了任务型多轮对话系统，解决了传统的流水线式任务导向多轮对话系统结构复杂、各模块之间协调困难的问题，从而实现了各模块之间的一体化，没有需要单独训练的子模块，因此可以实现真正意义上的端到端训练；基于seq2seq模型，包含一个编码器和两个解码器，三者都是通过卷积神经网络和注意力机制实现的，完全摒弃了复杂的循环神经网络，在提升了模型的训练速度的同时简化了模型的结构；具有领域可扩展性，无需重新定义标签，只需提供其它领域的对话数据和背景知识，即可轻松扩展到其它领域。

其次参照附图描述根据本发明实施例提出的完全并行化具有领域扩展性的端到端多轮对话方法。

图7是本发明一个实施例的完全并行化具有领域扩展性的端到端多轮对话方法的流程图。

如图7所示，该完全并行化具有领域扩展性的端到端多轮对话方法，执行上述实施例的系统，其中，方法包括以下步骤：

在步骤S701中，在用户输入信息输入至输入嵌入层后，生成向量表示形式的输入信息。

在步骤S702中，对输入信息进行编码，得到用户输入的抽象表示。

在步骤S703中，根据抽象表示得到对话状态表示。

在步骤S704中，根据对话状态表示查询得到查询结果。

在步骤S705中，在查询结果和对话状态共同输入至机器响应解码器后，生成机器回答。

需要说明的是，前述对完全并行化具有领域扩展性的端到端多轮对话系统实施例的解释说明也适用于该实施例的完全并行化具有领域扩展性的端到端多轮对话方法，此处不再赘述。

根据本发明实施例提出的完全并行化具有领域扩展性的端到端多轮对话方法，采用端到端的方式构建了任务型多轮对话系统，解决了传统的流水线式任务导向多轮对话系统结构复杂、各模块之间协调困难的问题，从而实现了各模块之间的一体化，没有需要单独训练的子模块，因此可以实现真正意义上的端到端训练；基于seq2seq模型，包含一个编码器和两个解码器，三者都是通过卷积神经网络和注意力机制实现的，完全摒弃了复杂的循环神经网络，在提升了模型的训练速度的同时简化了模型的结构；具有领域可扩展性，无需重新定义标签，只需提供其它领域的对话数据和背景知识，即可轻松扩展到其它领域。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。