CN112256857A

CN112256857A - 一种基于图注意力机制的对话历史建模方法

Info

Publication number: CN112256857A
Application number: CN202011286773.2A
Authority: CN
Inventors: 孙忆南; 李思
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2020-11-17
Filing date: 2020-11-17
Publication date: 2021-01-22
Anticipated expiration: 2040-11-17
Also published as: CN112256857B

Abstract

本发明公开了一种基于图注意力机制的对话历史建模方法，属于自然语言处理领域。该方法的基本思想是通过注意力机制对对话历史信息进行筛选。该方法的步骤包括：对对话历史，知识图谱和当前用户输入进行编码；基于用户输入计算知识图谱节点的注意力权重，结合节点表示向量加权求和获得知识表示向量；基于知识表示向量和用户输入表示向量计算对话历史中每轮对话的注意力权重，结合对话历史中的每轮对话的表示向量获得对话历史表示向量。利用本发明实施例，能够针对不同的用户输入结合知识图谱自适应的生成与当前轮对话信息最相关的对话历史表示向量。即获得噪声更少的对话历史表示向量，从而能够提升下游对话生成模型的效果，具有很大的实用价值。

Description

一种基于图注意力机制的对话历史建模方法

技术领域

本发明涉及自然语言处理领域，特别是指一种基于图注意力机制的对话历史建模方法。

背景技术

随着大数据和深度学习技术的发展，创建一个自动人机对话系统成为了可能。该系统不仅可以帮助人们实现一些简单的打车、订票任务。也可以针对用户的兴趣进行电影、购物推荐。对话的人机交互系统可以基于结构化的知识，以对话的方式向用户进行推荐，从而实现商家的盈利转化。在未来的电子商务领域有着很大的发展空间。

由于对话往往是多轮对话，所以涉及到对话历史的建模问题。传统的方法将当前轮次之前的对话历史拼接为一个长句子，输入到深度模型进行建模。但是人类对话的话题是动态多样的，并不是历史对话中的所有信息都与当前轮对话相关。因此不进行选择的使用所有对话历史中的信息会引入噪音，影响对话生成模型的效果。

因此，本专利提出一种基于图注意力机制的对话历史建模方法，利用用户当前输入和知识图谱的信息，通过图注意力机制从对话历史中筛选出对当前轮次对话有用的信息。使模型能够针对不同的用户输入结合知识图谱自适应的生成与当前轮对话信息最相关的对话历史表示向量，减少噪音的引入，从而提升对话生成模型的效果。

发明内容

本专利提出一种基于图注意力机制的对话历史建模方法。系统利用用户当前输入和知识图谱的信息，通过图注意力机制从对话历史中筛选出对当前轮次对话有用的信息，获得信息更准确噪音更少的对话历史向量表示，从而提升下游对话生成模型的效果。本发明的技术方案如下：

一种基于图注意力机制的对话历史建模方法，包括以下步骤：

步骤S1：使用预训练语言模型分别对用户输入，历史对话进行语义编码，获得用户输入表示向量和历史对话表示矩阵。

步骤S2：使用图神经网络对知识图谱进行编码，获得知识图谱中每个节点的表示向量。

步骤S3：计算用户输入表示向量和每个节点表示向量的相似度，作为基于用户输入的注意力权重，将相似度和节点表示向量加权求和得到知识表示向量。

步骤S4：将用户表示向量和知识表示向量进行向量拼接操作，获得对话信息向量。

步骤S5：计算对话信息向量和对话历史表示矩阵中每个向量的相似度，作为基于对话信息的注意力权重，将相似度和对话历史表示矩阵中的向量加权求和得到对话历史表示向量。

本发明的有益效果在于：通过引入图注意力机制，充分发挥当前对话和知识图谱在对话历史的信息筛选中的指导作用，能够根据用户的输入自适应的生成与当前轮对话信息最相关的对话历史表示向量。即获得噪声更少的对话历史表示向量，从而能够提升下游对话生成模型的效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种基于图注意力机制的对话历史建模方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明公开了一种基于图注意力机制的对话历史建模方法，该方法包括以下步骤：

步骤S1：使用预训练语言模型分别对用户输入X＝{x₁,x₂,…,x_m}(x_i表示第i个词)，历史对话H＝{h₁,h₂,…,h_l}(h_i表示对话历史中第i轮对话的句子)进行语义编码，获得用户输入表示向量V_X和历史对话表示矩阵

(

表示对话历史中第i轮对话的句子的表示向量)。

(1.1)在大量无监督文本语料上预训练语言模型，其中语言模型可以使用BERT(Bidirectional Encoder Representations from Transformers)模型或其他BERT衍生模型；

(1.2)将用户输入X输入到预训练语言模型，输出用户输入的表示向量V_X；

(1.3)将对话历史H中的每轮对话h_i分别输入到预训练语言模型，输出每句话的表示向量

从而获得对话历史表示矩阵M_H。

步骤S2：使用图神经网络对知识图谱进行编码，获得知识图谱中每个节点的表示向量

(

表示知识图谱第i个节点的表示向量)。

步骤S3：计算用户输入表示向量V_X和每个节点表示向量

的相似度s_i，作为基于用户输入的注意力权重，将相似度和节点表示向量加权求和得到知识表示向量。

(3.1)对每个节点表示向量

计算与用户输入表示向量V_X的相似度s_i，其中i＝1,2,…,n。计算相似度的方法可以是引入全连接网络：

其中W表示全连接网络的参数，

表示向量

与向量V_X的拼接操作。如果向量

和V_X维度相同，全连接网络也可以使用向量点积操作代替；

(3.2)根据步骤(3.1)计算得到的相似度s_i与节点表示向量

进行加权求和获得知识表示向量

步骤S4：将用户表示向量V_X和知识表示向量V_E进行向量拼接操作，获得对话信息向量V_D＝[V_X；V_E]。

步骤S5：计算对话信息向量V_D和对话历史表示矩阵M_H中每个向量

的相似度a_i，作为基于对话信息的注意力权重，将相似度a_i和对话历史表示矩阵中的向量

加权求和得到对话历史表示向量V_H。

(5.1)对对话历史表示矩阵M_H中的每轮对话的表示向量

计算与对话信息向量V_D的相似度a_i，其中i＝1,2,…,l，两个向量相似度计算方法与步骤(3.1)相同；

(5.2)根据步骤(5.1)计算得到的相似度与每轮对话的表示向量

进行加权求和获得对话历史表示向量

以上结合附图对所提出的一种基于图注意力机制的对话历史建模方法及各模块的具体实施方式进行了阐述。本发明的有益效果在于，通过引入图注意力机制，充分发挥当前对话和知识图谱在对话历史的信息筛选中的指导作用，能够根据用户的输入自适应的生成与当前轮对话信息最相关的对话历史表示向量。即获得噪声更少的对话历史表示向量，从而能够提升下游对话生成模型的效果。上述技术方案公开了本发明的改进点，未详细公开的技术内容，可由本领域技术人员通过现有技术实现。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围。

Claims

1.一种基于图注意力机制的对话历史建模方法，其特征在于，包括以下步骤：

步骤1：使用预训练语言模型分别对用户输入，历史对话进行语义编码，获得用户输入表示向量和历史对话表示矩阵；

步骤2：使用图神经网络对知识图谱进行编码，获得知识图谱中每个节点的表示向量；

步骤3：计算用户输入表示向量和每个节点表示向量的相似度，作为基于用户输入的注意力权重，将相似度和节点表示向量加权求和得到知识表示向量；

步骤4：将用户表示向量和知识表示向量进行向量拼接操作，获得对话信息向量；

步骤5：计算对话信息向量和对话历史表示矩阵中每个向量的相似度，作为基于对话信息的注意力权重，将相似度和对话历史表示矩阵中的向量加权求和得到对话历史表示向量。

2.如权利要求1所述的一种基于图注意力机制的对话历史建模方法，其特征在于，所述步骤3具体包括：

(3.1)对每个节点表示向量，计算与用户输入表示向量的相似度，计算相似度的方法可以是引入全连接网络，如果向量维度相同，全连接网络也可以使用向量点积操作代替；

(3.2)根据步骤(3.1)计算得到的相似度与节点表示向量进行加权求和获得知识表示向量。

3.如权利要求1所述的一种基于图注意力机制的对话历史建模方法，其特征在于，所述步骤5具体包括：

(5.1)对对话历史表示矩阵中的每轮对话的语义表示向量，计算与对话信息向量的相似度，其中向量相似度计算方法与步骤(3.1)相同；

(5.2)根据步骤(5.1)计算得到的相似度与每轮对话的语义表示向量进行加权求和获得对话历史表示向量。