CN113377907B

CN113377907B - 基于记忆掩码自注意力网络的端到端任务型对话系统

Info

Publication number: CN113377907B
Application number: CN202110638874.XA
Authority: CN
Inventors: 雷印杰; 苟延杰
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2021-06-08
Filing date: 2021-06-08
Publication date: 2023-06-09
Anticipated expiration: 2041-06-08
Also published as: CN113377907A

Abstract

本发明提供基于记忆掩码自注意力网络的端到端任务型对话系统，属于自然语言处理领域，通过将对话历史转换为对应的词向量序列，输出层得到对应的编码后的对话历史表征；再将知识库中的实体及对应实体类型分别转换为实体向量及实体类型向量，并将对应向量进行加和，根据知识库结构创建记忆掩码；将对话历史表征以及知识库实体表征送入一自注意力解码器网络，进行回复生成以及实体链接；使用损失函数端到端训练模型；保存训练模型，即得任务型对话系统，基于记忆掩码的自注意力网络以利用知识库中实体间丰富的关系信息，以及实体和对话历史间的协同信息，实现更有效的知识库实体表征，以提升网络的回复生成以及实体链接的性能。

Description

基于记忆掩码自注意力网络的端到端任务型对话系统

技术领域

本发明涉及自然语言处理领域，特别涉及基于记忆掩码自注意力网络的端到端任务型对话系统。

背景技术

端到端任务型对话系统指给定特定领域的知识库，对话系统可以根据与用户的对话历史及领域知识库自动生成相关回复。

近年来，随着人工智能的不断发展，任务型对话系统被广泛提出并使用在酒店预订、车载助手、天气查询等领域。其中，基于深度学习的任务型对话系统是工业界与学术界的研究热点。该研究内容可大致分为基于流水线式的任务型对话系统以及基于端到端式的任务型对话系统。端到端式任务型对话系统由于不需要标注大量的中间监督信号(如对话状态和对话动作)，仅仅需要给定知识库，对话历史以及回复信息即可进行深度学习模型的端到端训练。

然而，由于现有工作对知识库的表征方式仍然很粗浅：绝大多数工作将知识库的实体信息表征为三元组形式，导致实体表征信息不够充分。因此，基于端到端的任务型对话系统的性能没有被全部挖掘。

发明内容

本发明的主要目的在于提供一种基于记忆掩码自注意力网络的端到端任务型对话系统，目的更有效的表征知识库内的实体信息，通过基于记忆掩码自注意力网络提升端到端任务型对话模型性能。

为实现上述目的，本发明采取的技术方案为：

基于记忆掩码自注意力网络的端到端任务型对话系统，该系统架构主要包括对话历史编码器、实体表征编码器以及回复生成解码器三部份；其中：

对话历史编码器以用户对话历史作为输入，经词向量编码、位置向量编码后经过Transformer编码后输出对话历史表征；

实体表征编码器以实体、实体类型以及记忆掩码为输入，经过Transformer编码后输出实体表征；

回复生成解码器以实体表征、对话历史表征为输入，经Transformer解码器，输出相应回复内容；

该对话系统具体包括以下步骤：

S1、将对话历史头部插入一特殊字符“[SUM]”，然后将该对话历史转换为对应的词向量序列，送入一自注意力编码器，在输出层得到对应的编码后的对话历史表征；

S2、将知识库中的实体及对应实体类型表示为序列，分别转换为实体向量及实体类型向量，并将对应向量进行加和，然后将“[SUM]”对应的编码向量与之拼接；

S3、根据知识库结构创建二维二值矩阵式的记忆掩码；

S4、将S2中拼接后的向量序列以及S3中的记忆掩码送入另一自注意力编码器，输出知识库实体表征向量；

S5、将对话历史表征以及知识库实体表征送入一自注意力解码器网络，进行回复生成以及实体链接；

S6、使用损失函数端到端训练模型；

S7、保存训练模型，即可应用于任务型对话系统。

优选的，所述S1中“[SUM]”对应的编码向量汇集了总结了对话历史中的关键信息。

优选的，所述S3中：若元素对应的实体对属于同一行或者“[SUM]”对应的编码向量则该位置置一，否则置零。

与现有技术相比，本发明具有如下有益效果：

1.泛化性好，本发明可以在无任何额外操作的情况下，对任何内容的知识库进行编码，而无需像三元组表征方法人为地创建三元组。

2.实体表征精确，通过使用基于记忆掩码的自注意力网络，我们的实体表征可以感知到对话历史以及知识库中的有益信息。

3.效果高，在使用本方法后，模型在SMD、Multi-WOZ 2.1数据集上分别达到了BLUE：17.3、8.3；Entity-F1：63.6、18.6。

附图说明

图1为本发明的流程示意图；

图2为本发明的模型结构示意图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。

如图1-2所示:基于记忆掩码自注意力网络的端到端任务型对话系统，系统架构主要包括以下步骤：

S1、将对话历史头部插入一特殊字符“[SUM]”，然后将该对话历史转换为对应的词向量序列，送入一自注意力编码器，在输出层得到对应的编码后的对话历史表征。其中“[SUM]”对应的编码向量汇集了总结了对话历史中的关键信息；

S2、将知识库中的实体及对应实体类型表示为序列，分别转换为实体向量及实体类型向量，并将对应向量进行加和。然后将“[SUM]”对应的编码向量与之拼接；

S3、根据知识库结构创建二维二值矩阵式的记忆掩码：若元素对应的实体对属于同一行或者“[SUM]”对应的编码向量则该位置置一，否则置零；

S6、使用损失函数端到端训练模型；

S7、保存训练模型，即可得应用于任务型对话系统。

在本实施例中，步骤S2对知识库表示形式进行变换，由B＝[{b₁₁,…,b_1c},…,{b_r1,…,b_rc}]转换为S＝[b₁₁,b₁₂,…,b_1c,…,b_rc]的序列形式，其中b_ij代表第i行的第j个实体。r,c分别代表该知识库对应的行列数目。进行此转换的目的是方便将知识库作为输入送入深度自注意力网络中。

在本实例中，步骤S3根据具体知识库结构创建记忆掩码，以便深度自注意力网络仅仅关注到与每个实体有关的部分内容，并减少其他无关信息对实体表征进行干扰。

具体地，以上功能全部通过一记忆掩码M实现：

其中，条件S_i-1,S_j-1∈b_k代表M_ij对应的实体对是否属于知识库的同一行，如果是，则该位设为一。条件i＝0or j＝0对应“[SUM]”的编码向量，置为一使得实体表征生成过程可以感知到对话历史信息，进而使得实体表征可以更好的对已知对话信息利用并推理。除此两个条件外，其余位置全部置零，以消除噪声对实体表征生成的影响。

在本实施例中，步骤S7对模型进行损失计算。损失函数共有三项：①用于计算生成回复与真实回复的交叉熵损失函数。②计算链接到实体的概率分布与真实的实体链接的交叉熵损失函数。③额外针对实体链接概率的L_2,1-norm正则项，形式化表示为

其中p为实体链接的概率分布。最后，三项损失函数相加并进行反向传播，更新优化模型参数。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.基于记忆掩码自注意力网络的端到端任务型对话系统，其特征在于：该系统架构主要包括对话历史编码器、实体表征编码器以及回复生成解码器三部份；其中：

该对话系统具体包括以下步骤：

S2、将知识库中的实体及对应实体类型表示为序列，分别转换为实体向量及实体类型向量，并将对应向量进行加和，然后将“[SUM]”对应的编码向量与之拼接；对知识库表示形式进行变换，由B＝[{b₁₁,…,b_1c},…,{b_r1,…,b_rc}]转换为S＝[b₁₁,b₁₂,…,b_1c,…,b_rc]的序列形式，其中b_ij代表第i行的第j个实体；r,c分别代表该知识库对应的行列数目；

S3、根据知识库结构创建二维二值矩阵式的记忆掩码；具体地，一记忆掩码M：

其中，条件S_i-1,S_j-1∈b_k代表M_ij对应的实体对是否属于知识库的同一行，如果是，则该位设为一；条件i＝0or j＝0对应“[SUM]”的编码向量，置为一使得实体表征生成过程可以感知到对话历史信息，进而使得实体表征可以更好的对已知对话信息利用并推理；

S6、使用损失函数端到端训练模型；

S7、保存训练模型，即可应用于任务型对话系统。

2.根据权利要求1所述的基于记忆掩码自注意力网络的端到端任务型对话系统，其特征在于：所述S1中“[SUM]”对应的编码向量汇集了总结了对话历史中的关键信息。

3.根据权利要求1所述的基于记忆掩码自注意力网络的端到端任务型对话系统，其特征在于：所述S3中：若元素对应的实体对属于同一行或者“[SUM]”对应的编码向量则该位置置一，否则置零。