CN110188167A

CN110188167A - 一种融入外部知识的端到端对话方法及系统

Info

Publication number: CN110188167A
Application number: CN201910412757.4A
Authority: CN
Inventors: 鄂海红; 宋美娜; 张文静; 赵文; 肖思琪; 周筱松; 詹泽诚
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-05-17
Filing date: 2019-05-17
Publication date: 2019-08-30
Anticipated expiration: 2039-05-17
Also published as: CN110188167B

Abstract

本发明公开了一种融入外部知识的端到端对话方法及系统，其中，该方法包括：获取输入文本信息；获取与输入文本信息对应的对话历史信息，对对话历史信息进行编码，生成历史信息向量；获取数据库信息，通过外部数据库接入模块的多头键值对记忆网络对数据库信息进行编码，生成数据库向量；对输入文本信息进行编码，并根据历史信息向量和数据库向量生成文本回复。该方法搭建一个完全基于注意力机制的对话系统，降低模型训练时间，从多个维度提取知识库信息，增强知识库检索能力。

Description

一种融入外部知识的端到端对话方法及系统

技术领域

本发明涉及数据交互技术领域，特别涉及一种融入外部知识的端到端对话方法及系统。

背景技术

对话系统作为人工智能的一个研究热点，以其潜在的智能便利性和诱人的商业价值，得到学术界和工业界的广泛关注。传统的任务型对话系统采用流水线方法，由语言理解、状态跟踪、数据库查询与语言生成四个模块组成，但模块化的对话系统在训练的过程会非常依赖特定领域的数据，若迁移至别的领域需根据新数据重新训练各个模块的模型，同样在确定错误来源时需要在各个模块中进行繁琐的错误分析，耗费大量人力。在这样的环境下，如何简化对话模型，使用最少的人力实现可迁移的任务型对话系统是现在研究的重点课题。

目前虽大多企业仍采用传统模块化方式构建任务型对话，但仍有部分企业与学者尝试将端到端方法应用到对话系统构建中。端到端方法直接将用户输入映射到回复生成中，省去中间繁复的模块构建，减少人力耗费且迁移性强。但端到端方法由于模型过于精简，回复生成精度与效果都与实际应用存在距离；并且模型常基于RNN构建，串行框架解码时存在耗时问题，数据库难以寻到合适位置融入对话模型中。

在相关技术中，公开了一种流水线处理的对话系统，但该对话系统不包括语言生成，最终的回复是在模版中选取。该对话系统包括：输入处理器，提取对应于用户的话语的动作；存储装置，存储语境信息的信息值；对话管理处理器，从存储装置获取用于确定对应于用户的话语的动作是否可执行的条件确定参数的参数值以及结果处理器，通过使用所获取的动作参数的参数值，生成对执行所确定的动作的响应。另外还公开了一种改进的封闭域智能人机对话系统，着重改进流水线方法中的意图识别和对话管理。该系统包括：第一建模模块，第一建模模块用于基于双向长短时记忆网络和卷积神经网络构建多特征融合深度意图识别模型；第二建模模块，用于采用人机对话状态系统当前状态输入与上下文语句联合建模方式来构建基于MC-BLSTM-MSCNN的对话状态跟踪模型；第三建模模块，用于构建基于移位注意力机制的域外恢复机制的Bi-LSTM匹配模型，以将识别到的用户意图、用户槽值输入移位网络进行注意力机制的权重分发，实现对话状态的编码和对话控制的匹配。

相关的对话系统采用流水线方法和端到端方法得到回复。流水线方法虽技术成熟、广泛用于工业界，但存在模型相互依赖，不以纠错，耗费人力等问题；端到端方法虽解决流水线方法中模块依赖和耗费人力的问题，但由于技术并不成熟，缺乏外部知识的支撑与实际应用场景下的推理能力，影响对话质量与任务的完成度。

相关技术中的端到端任务型对话系统绝大部分都是无数据库支持的，且都采用传统流水线RNN方法编码对话过程，训练上耗费大量时间，并未有一种通用的高效实用且可访问数据库的对话系统。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种融入外部知识的端到端对话方法，该方法搭建一个完全基于注意力机制的对话系统，降低模型训练时间，从多个维度提取知识库信息，增强知识库检索能力。

本发明的另一个目的在于提出一种融入外部知识的端到端对话系统。

为达到上述目的，本发明一方面实施例提出了一种融入外部知识的端到端对话方法，包括：获取输入文本信息；获取与所述输入文本信息对应的对话历史信息，对所述对话历史信息进行编码，生成历史信息向量；获取数据库信息，通过外部数据库接入模块的多头键值对记忆网络对所述数据库信息进行编码，生成数据库向量；对所述输入文本信息进行编码，并根据所述历史信息向量和所述数据库向量生成文本回复。

本发明实施例的一种融入外部知识的端到端对话方法，通过一个知识型高速有效的并行化端到端任务型对话系统，设计友好的外部数据库访问入口，并采用基于注意力机制的 transformer框架编码对话信息，综合考虑对话历史信息，且并行化框架大大减少对话模型训练时间，增强工业适用性。

另外，根据本发明上述实施例的一种融入外部知识的端到端对话方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述获取对话历史信息，对所述对话历史信息进行编码，生成历史信息向量，包括：

对所述对话历史信息进行分词和编号生成所述历史信息对应的词语的索引，利用学习好的嵌套模型将所述索引转化为词向量；

获取词语间的相对和绝对位置信息，根据所述相对和绝对位置信息生成位置向量；

将词向量和位置向量相加输入到对话历史信息编码模块，经过所述对话历史信息编码模块的多头自注意力机制和前向网络，生成所述历史信息向量。

进一步地，在本发明的一个实施例中，所述历史对话信息包含历史对话轮次信息和当前对话轮次信息。

进一步地，在本发明的一个实施例中，所述获取数据库信息，通过外部数据库接入模块的多头键值对记忆网络对所述数据库信息进行编码，生成数据库向量，包括：

所述数据库信息以三元组的形式存储，将所述数据库信息编码进所述多头键值对记忆网络的记忆结构，在用户输入对话询问时，通过键值对机制进行数据库检索，得到最终的数据库查询值，生成数据库向量。

进一步地，在本发明的一个实施例中，对所述输入文本信息进行编码，并根据所述历史信息向量和所述数据库向量生成文本回复，包括：

对所述输入文本信息进行处理得到词向量和位置向量，将词向量和位置向量相加作为输入向量输入到对话回复解码模块的掩码多头自注意力机制部件，对所述输入文本信息进行编码；

将编码后的所述输入文本信息分别输入所述对话回复解码模块的多头文本自注意力机制部件和所述外部数据库接入模块；

所述多头文本自注意力机制部件根据所述对话历史信息编码模块生成的所述历史信息向量和所述掩码多头自注意力机制部件的输出，进行注意力运算后输入所述对话回复解码模块的前向网络中得到所述对话回复解码模块的最终输出信息；

将所述对话回复解码模块最终输出信息和所述外部数据库接入模块的所述数据库向量进行连接，再做线性变换拟合逻辑回归映射到最终的词表上，生成所述文本回复。

为达到上述目的，本发明另一方面实施例提出了一种融入外部知识的端到端对话系统，包括：获取模块，用于获取输入文本信息；第一生成模块，用于获取与所述输入文本信息对应的对话历史信息，对所述对话历史信息进行编码，生成历史信息向量；第二生成模块，用于获取数据库信息，通过外部数据库接入模块的多头键值对记忆网络对所述数据库信息进行编码，生成数据库向量；第三生成模块，用于对所述输入文本信息进行编码，并根据所述历史信息向量和所述数据库向量生成文本回复。

本发明实施例的一种融入外部知识的端到端对话系统，通过一个知识型高速有效的并行化端到端任务型对话系统，设计友好的外部数据库访问入口，并采用基于注意力机制的 transformer框架编码对话信息，综合考虑对话历史信息，且并行化框架大大减少对话模型训练时间，增强工业适用性。

另外，根据本发明上述实施例的一种融入外部知识的端到端对话系统还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述第一生成模块，具体用于，

进一步地，在本发明的一个实施例中，所述第二生成模块，具体用于，

进一步地，在本发明的一个实施例中，所述第三生成模块，具体用于，

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的一种融入外部知识的端到端对话方法流程图；

图2为根据本发明一个实施例的外部数据库接入模块流程图；

图3为根据本发明一个具体实施例的一种融入外部知识的端到端对话方法流程图；

图4为根据本发明又一个具体实施例的一种融入外部知识的端到端对话方法流程图；

图5为根据本发明一个实施例的一种融入外部知识的端到端对话系统结构图。

具体实施方式

下面详细描述本发明的实施例，所述的实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的一种融入外部知识的端到端对话方法及系统。

首先将参照附图描述根据本发明实施例提出的一种融入外部知识的端到端对话方法。

图1为根据本发明一个实施例的一种融入外部知识的端到端对话方法流程图。

如图1所示，该一种融入外部知识的端到端对话方法包括以下步骤：

在步骤S101中，获取输入文本信息。

可以理解的是，在进行对话时，用户输入一个对话文本信息，比如，今晚几点吃饭，今天几点出门散步等。

在步骤S102中，获取与输入文本信息对应的对话历史信息，对对话历史信息进行编码，生成历史信息向量。

可以理解的是，在获取到输入文本信息后，从历史的对话信息中获取与输入文本信息相关的历史对话信息，其中，历史对话信息包含历史对话轮次信息和当前对话轮次信息。

进一步地，在本发明的一个实施例中，获取对话历史信息，对对话历史信息进行编码，生成历史信息向量，包括：

对对话历史信息进行分词和编号生成历史信息对应的词语的索引，利用学习好的嵌套模型将索引转化为词向量；

获取词语间的相对和绝对位置信息，根据相对和绝对位置信息生成位置向量；

将词向量和位置向量相加输入到对话历史信息编码模块，经过对话历史信息编码模块的多头自注意力机制和前向网络，生成历史信息向量。

具体地，对话历史信息编码模块是将对话历史信息文本映射为历史信息向量表示。对话历史信息作为编码模块的输入，具体为t-1轮的问答对和当前第t轮的问题。将历史信息分词、编号为词表中相应词语的索引，并利用学习好的(或随机初始化的)embeddings将词索引转化为d维向量，作为此模块的输入。由于此模块的模型没有任何循环或者卷积，为了使用序列的顺序信息，需要将词语间的相对以及绝对位置信息注入到模型中去。本模块在输入词向量的基础上加了一个“位置编码”。位置向量和词向量是同样的维度，所以两者可以直接相加，如公式1所示：

e_i＝wordembedding(w_i)+posembedding(w_i) 公式1

词向量输入该模块后，会经过两个编码部分：多头自注意力机制和前向网络。在多头自注意力机制中，注意力机制如公式2所示采用点积法：

是缩放因子，对于很大的时候，点积得到的结果维度很大，使得结果处于softmax函数梯度很小的区域。但梯度很小的情况，这对反向传播不利。为了克服这个负面影响，除以一个缩放因子，可以一定程度上减缓这种情况。而自注意力是指点乘注意力中的Q、K、V都相等。自注意力机制是注意力机制的改进，其减少了对外部信息的依赖, 更擅长捕捉数据或特征的内部相关性。而对于多头注意力机制，Q，K，V首先进过一个h次的线性变换，然后输入到点积注意力，h次代表多头，每一次算一个头。而且每次Q，K， V进行线性变换的参数W是不一样的。然后将h次的点积注意力结果进行拼接，再进行一次线性变换得到的值作为多头注意力的结果。多头注意力的优点是可以允许模型在不同的表示子空间里学习到相关的信息，语句信息更充分。多头注意力如公式3：

MultiHead(Q,K,V)＝Concat(head₁,…,head_h)w^o

前向网络如公式4所示，是一个全连接网络，包含两个线性变换和一个ReLU激活函数：

FFN(x)＝max(0,xW₁+b₁)W₂+b₂ 公式4

在步骤S103中，获取数据库信息，通过外部数据库接入模块的多头键值对记忆网络对数据库信息进行编码，生成数据库向量。

进一步地，在本发明的一个实施例中，获取数据库信息，通过外部数据库接入模块的多头键值对记忆网络对数据库信息进行编码，生成数据库向量，包括：

数据库信息以三元组的形式存储，将数据库信息编码进多头键值对记忆网络的记忆结构，在用户输入对话询问时，通过键值对机制进行数据库检索，得到最终的数据库查询值，生成数据库向量。

具体地，该外部数据库接入模块为多头键值对记忆网络，主要是将数据库编码进记忆结构，当输入query询问进入记忆网路时，通过键值对机制进行数据库检索，得到最终的数据库查询值，如图2所示。

多头键值对记忆网络可以分为多头注意力机制和键值对记忆网络两部分结构。

将多头注意力机制用于键值对记忆网络结构中，可以从多个维度提取知识库信息，增强知识库检索能力，增强知识库抽取能力并提高模型的可读性。

多头注意力机制与对话历史信息编码模块中的多头用法相同，都是将query和记忆网络中的key、value向量做一个h次的线性投射，经过记忆网络操作后，将h次的记忆网络结果进行拼接作为多头注意力的结果。

在本结构的记忆网络中，数据库以三元组(实体1，关系，实体2)形式存储，键值对记忆网络被表示为M(K¹,V¹,K²,V²,…,Kⁿ,Vⁿ),n表示记忆网络跳数。Kⁱ存储三元组中实体 1和关系的词向量和，Vⁱ存储三元组中实体2的词向量。

当经多头注意力的线性投射处理后的query进入记忆网络，先在key中寻址查询，再将所得值经过缩放和softmax处理，得key上的注意力权重分布值，最后将此分布与value相乘并权重相加求和，得到下一跳的query向量，一跳过程如公式5所示：

q^h+1＝q^h+o^h 公式5

k_i、v_i分别表示K、V上第i个存储槽，记忆网络的多跳机制是以多次循环记忆的方式增强网络的推理能力。

在步骤S104中，对输入文本信息进行编码，并根据历史信息向量和数据库向量生成文本回复。

进一步地，在本发明的一个实施例中，对输入文本信息进行编码，并根据历史信息向量和数据库向量生成文本回复，包括：

对输入文本信息进行处理得到词向量和位置向量，将词向量和位置向量相加作为输入向量输入到对话回复解码模块的掩码多头自注意力机制部件，对输入文本信息进行编码；

将编码后的输入文本信息分别输入对话回复解码模块的多头文本自注意力机制部件和外部数据库接入模块；

多头文本自注意力机制部件根据对话历史信息编码模块生成的历史信息向量和掩码多头自注意力机制部件的输出，进行注意力运算后输入对话回复解码模块的前向网络中得到对话回复解码模块的最终输出信息；

将对话回复解码模块最终输出信息和外部数据库接入模块的数据库向量进行连接，再做线性变换拟合逻辑回归映射到最终的词表上，生成文本回复。

具体地，对话回复解码模块相对对话历史信息编码模块，只在最开始输入位置添加一个掩码多头自注意力，其余两个部分结构相同。掩码多头自注意力是为了使得解码模块不能看见未来的信息。也就是对于一个序列，在时间步为t的时刻，解码输出应该只能依赖于t时刻之前的输出，而不能依赖t之后的输出。因此需要把t之后的信息给隐藏起来。具体做法是利用一个上三角矩阵，上三角的值全为1，下三角的值全为0，对角线也是0。把这个矩阵作用在解码模块的输入上，隐藏后续时间步对当前时间步的作用。

当对话回复输入解码模块时：

1)将输入进行词向量与位置向量的编码，并将编码结果相加作为最终的输入向量表示；

2)将输入向量传入回复模块后，首先进入掩码注意力部件，对回复信息进行编码；

3)将掩码注意力部件编码得到的信息分别传入解码模块的多头文本自注意力部件和外部数据库接入模块；

4)多头文本自注意力部件结合编码器和掩码部件的输出，注意力运算后放入前向网络的到解码模块最终输出；

5)将解码模块输出和数据库接入模块输出进行concat连接，再做线性变换你和softmax 映射到最终的词表上。

如图3所示，通过结合外部知识库信息、设计高效快速的端到端对话信息编码模型，直接实现历史文本到回复生成映射的过程，目标是完成一个迁移性强的，训练速度快的、检索知识库准确性高的实用任务型对话系统。本发明实施例设计的端到端系统由功能划分可分为三大模块：对话历史信息编码模块、外部数据库接入模块和对话历史信息解码模块。与传统流水线模块概念不同的是，本方法的三个模块作为一个大模型共同训练，直接实现原始对话历史信息到文本回复的映射，而并非流水线中的模块依次作为独立模型训练，训练好的模型再串行连接。如图3所示，展示了对话系统构建流程，圆框中为已实现技术点，方框中为将来可实施的技术优化点。

如图4所示，展示了本发明实施例的方法总体框架，一种知识型并行化端到端任务型对话系统，将外部知识库与并行化对话信息编码模型相结合，从用户文本输入到回复生成一共分为三个模块。其中，对话历史信息编码模块：用transformer块对对话历史信息进行编码，得到的输入向量用于transformer解码块中。外部数据库接入模块：对外部数据库格式统一为三元组形式，用记忆网络编码数据库信息，得到的数据库向量用于transformer解码块中。对话回复解码模块：将对话回复编码，并接受历史信息、数据库的编码信息，用于生成最终的文本回复。

进一步地，将记忆网络与transformer结合，搭建一个完全基于注意力机制的对话系统，实验证明大幅提升了已有模型的效果，降低模型训练时间。并且将图结构引入知识库的存储中处理非结构化知识库情况，设计静态和动态图注意力机制，把知识三元组看作一个图，基于与其相邻实体和它们之间的关系，更好解读所研究实体的语义。还通过加深编解码器中transformer层数，增强transformer编解码器的推理能力。将指针网路融入对话系统解码器结构中，缓解新词不在词表的问题。

根据本发明实施例提出的一种融入外部知识的端到端对话方法，通过一个知识型高速有效的并行化端到端任务型对话系统，设计友好的外部数据库访问入口，并采用基于注意力机制的transformer框架编码对话信息，综合考虑对话历史信息，且并行化框架大大减少对话模型训练时间，增强工业适用性。

其次参照附图描述根据本发明实施例提出的一种融入外部知识的端到端对话系统。

图5为根据本发明一个实施例的一种融入外部知识的端到端对话系统结构示意图。

如图5所示，该系统包括：获取模块100、第一生成模块200、第二生成模块300和第三生成模块400。

其中，获取模块100用于获取输入文本信息。

第一生成模块200用于获取与输入文本信息对应的对话历史信息，对对话历史信息进行编码，生成历史信息向量。

第二生成模块300用于获取数据库信息，通过外部数据库接入模块的多头键值对记忆网络对数据库信息进行编码，生成数据库向量。

第三生成模块4001用于对输入文本信息进行编码，并根据历史信息向量和数据库向量生成文本回复。

该系统搭建一个完全基于注意力机制的对话系统，降低模型训练时间，从多个维度提取知识库信息，增强知识库检索能力。

进一步地，在本发明的一个实施例中，第一生成模块，具体用于，

进一步地，在本发明的一个实施例中，历史对话信息包含历史对话轮次信息和当前对话轮次信息。

进一步地，在本发明的一个实施例中，第二生成模块，具体用于，

进一步地，在本发明的一个实施例中，第三生成模块，具体用于，

需要说明的是，前述对一种融入外部知识的端到端对话方法实施例的解释说明也适用于该实施例的系统，此处不再赘述。

根据本发明实施例提出的一种融入外部知识的端到端对话系统，通过一个知识型高速有效的并行化端到端任务型对话系统，设计友好的外部数据库访问入口，并采用基于注意力机制的transformer框架编码对话信息，综合考虑对话历史信息，且并行化框架大大减少对话模型训练时间，增强工业适用性。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种融入外部知识的端到端对话方法，其特征在于，包括以下步骤：

获取输入文本信息；

获取与所述输入文本信息对应的对话历史信息，对所述对话历史信息进行编码，生成历史信息向量；

获取数据库信息，通过外部数据库接入模块的多头键值对记忆网络对所述数据库信息进行编码，生成数据库向量；

对所述输入文本信息进行编码，并根据所述历史信息向量和所述数据库向量生成文本回复。

2.根据权利要求1所述的方法，其特征在于，所述获取对话历史信息，对所述对话历史信息进行编码，生成历史信息向量，包括：

3.根据权利要求1所述的方法，其特征在于，

所述历史对话信息包含历史对话轮次信息和当前对话轮次信息。

4.根据权利要求1所述的方法，其特征在于，所述获取数据库信息，通过外部数据库接入模块的多头键值对记忆网络对所述数据库信息进行编码，生成数据库向量，包括：

5.根据权利要求1所述的方法，其特征在于，对所述输入文本信息进行编码，并根据所述历史信息向量和所述数据库向量生成文本回复，包括：

6.一种融入外部知识的端到端对话系统，其特征在于，包括：

获取模块，用于获取输入文本信息；

第一生成模块，用于获取与所述输入文本信息对应的对话历史信息，对所述对话历史信息进行编码，生成历史信息向量；

第二生成模块，用于获取数据库信息，通过外部数据库接入模块的多头键值对记忆网络对所述数据库信息进行编码，生成数据库向量；

第三生成模块，用于对所述输入文本信息进行编码，并根据所述历史信息向量和所述数据库向量生成文本回复。

7.根据权利要求6所述的系统，其特征在于，所述第一生成模块，具体用于，

8.根据权利要求6所述的系统，其特征在于，

9.根据权利要求6所述的系统，其特征在于，所述第二生成模块，具体用于，

10.根据权利要求6所述的系统，其特征在于，所述第三生成模块，具体用于，