CN112231461A

CN112231461A - 一种融合知识的对话生成方法

Info

Publication number: CN112231461A
Application number: CN202011182518.3A
Authority: CN
Inventors: 倪斌; 庄福振; 安竹林; 程坦; 徐勇军; 陆晓蕾; 马涛; 童逸琦
Original assignee: Xiamen Institute Of Data Intelligence Institute Of Computing Technology Chinese Academy Of Sciences
Current assignee: Zhongke Xiamen Data Intelligence Research Institute
Priority date: 2020-10-29
Filing date: 2020-10-29
Publication date: 2021-01-15
Anticipated expiration: 2040-10-29
Also published as: CN112231461B

Abstract

本发明公开了一种融合知识的对话生成方法，包括如下步骤：S1、构建知识图谱；S2、构建对话模型，所述对话模型由编码器和解码器组成，构建过程包括词编码、知识编码、双跳实体编码、加权合并和解码。本发明引入图编码和图注意力机制进行双跳实体编码，基于相邻实体之间的关系，更好地捕捉对话中的实体语义；同时结合知识图谱围绕对话涉及的概念知识，从而给出更合理的富有信息量的回复，解决当前对话过程中话题概念飘移和扩展的问题。

Description

一种融合知识的对话生成方法

技术领域

本发明涉及计算机技术领域，特别涉及一种融合知识的对话生成方法。

背景技术

随着语言模型和自然语言生成技术的发展，基于数据驱动的端到端对话生成技术成了可能。而端到端生成的对话常常会产生一些毫无意义、无用和脱离话题的回复，例如产生一些安全回答：“我还不清楚”，以及话题概念飘移和扩展的现象，给对话带来了不好的体验。由于语言的理解与表达和知识是密切联系的，对于此类问题，通常的做法是在模型的输入中添加外部知识信息。现有的做法是将外部知识文本直接嵌入到向量空间中，获得外部知识的词向量表示后输入对话模型中。然而，这种简单粗暴的处理方式并不能很好地解决对话系统所面对的问题。因此，如何围绕知识、概念产生对话，是开发高质量对话系统、提高对话有效性的关键环节。

发明内容

为解决上述问题，本发明提供了一种融合知识的对话生成方法。

本发明采用以下技术方案：

一种融合知识的对话生成方法，包括如下步骤：

S1、构建知识图谱；

S2、构建对话模型，所述对话模型由编码器和解码器组成，具体为步骤为：

S21、词编码：所述词编码是利用google开源的Bert模型提取对话的词向量表示，即词编码X_Bert；

S22、知识编码：所述知识编码是利用TransE算法获取实体的知识向量表示，即知识编码X_transe；

S23、双跳实体编码：所述双跳实体编码是使用GAM图注意力机制对双跳实体进行编码，得到双跳实体编码X_2hop；

S24、加权合并：将得到的所述词编码X_Bert、所述知识编码X_transe和所述双跳实体编码X_2hop的结果加权相加后，经过一层前馈神经网络后作为解码器的输入；

S25、解码：所述解码器的主体架构采用循环神经网络RNN，并在除首个RNN神经元以外的每个RNN神经元上都加入上一个词的图嵌入X_transe_decoder，即单跳词编码，将X_transe_decoder和RNN的隐变量h_i相加后输入到下一个神经元中进行处理。

进一步地，所述双跳实体编码是对于节点A_i，逐个计算它的相邻节点集合N(A_i)＝{B₁,B₂,B₃,…B_n}的单跳实体编码后，在通过同样的方法迭代计算A_i的实体编码，具体步骤如下：

S231、计算B₁与周围实体N(B₁)＝{C₁₁,C₁₂,…C_1n}的注意力系数α_j：

其中，h_B1和h_j表示节点B₁和节点j的词表示即TransE知识编码，W为共享的可学习参数，

将(Wh_B1||Wh_j)的结果映射到一个实数e_b1j上，计算出相似系数后，利用softmax公式得到各个节点的加权系数，即注意力系数α_j；

S232、将B₁周围的节点的词表示加权求和作为节点B₁新的表示，权重为上述得出的注意力系数α_j，

h'_B1＝σ(∑α_B1jUh_j),j∈N(B₁)；

其中，h'_B1为节点B₁新的词表示，σ为激活函数，α_B1j为B₁和C_1j的注意力系数，U为共享的可学习参数；

S233、通过与上述步骤S231和步骤S232同样的方法，依次计算出B₁,B₂,B₃,…B_n的单跳节点词表示，最后迭代计算出A_i的双跳实体编码。

进一步地，步骤S24中所述加权相加的公式为：α*X_bert+β*X_transe+γ*X_2hop，其中α、β、γ分别表示X_bert、X_transe、X_2hop的加权系数，α、β、γ的取值范围均为0～1。

进一步地，所述知识图谱采用开源的知识图谱或基于业务场景构建的领域知识图谱。

进一步地，所述开源的知识图谱包括OpenCyc、WordNet、Freebase、Dbpedia、ConceptNet中的一种或多种。

采用上述技术方案后，本发明与背景技术相比，具有如下优点：

1、本发明摒弃过去将知识三元组分开使用的方法，设计了图编码和引入图注意力机制进行双跳实体编码，基于相邻实体之间的关系，更好地捕捉对话中的实体语义；

2、在对话生成神经系统中，使用大规模知识图谱是的模型能够更好地理解对话，围绕当前对话涉及的概念知识，从而给出更合理的富有信息量的回复，解决当前对话过程中话题概念飘移和扩展的问题。

附图说明

图1为本发明实施例的模型框架图；

图2为本发明实施例的双跳注意力机制示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例一

一种融合知识的对话生成方法，包括如下步骤：

S1、构建知识图谱；

本实施例的知识图谱采用开源的知识图谱Freebase，可以选择开源的知识图谱如OpenCyc、WordNet、Freebase、Dbpedia、ConceptNet中的一种或多种，或基于业务场景构建的领域知识图谱，构建的方法采用常规的建立知识图谱的手段，如命名实体识别、实体消歧和实体统一。

S2、构建对话模型，所述对话模型由编码器和解码器组成，所述编码器包括词编码、知识编码和双跳实体编码；

如图1所示，构建对话模型的具体为步骤如下：

TransE是基于实体和关系的分布式向量表示，基本原理是：将每个三元组实例(h，r，t)中的关系r看做从实体h到实体t的翻译，通过不断调整向量h、r和t，使(h+r)尽可能与t相等，即h+r＝t；

在大规模图谱中由于节点较多，双跳相比单跳节点具备更多的噪声，复杂的背景噪声会对图神经网络性能产生不良影响。因此，在设计该环节时引入图注意力机制GAM。在图注意力机制的作用下，训练的模型会关注到图中与目标节点联系密切的相邻节点，获取节点中最重要的信息从而提高信噪比；

加权相加的公式为：α*X_bert+β*X_transe+γ*X_2hop，其中α、β、γ分别表示X_bert、X_transe、X_2hop的加权系数，α、β、γ的取值范围为0～1，通过误差反向传播算法(BP)自动学习。

S25、解码：所述解码器的主体架构采用循环神经网络RNN，并在除首个RNN神经元以外的每个RNN神经元上都加入上一个词的图嵌入X_transe_decoder，即单跳词编码，将X_transe_decoder和RNN的隐变量h_i相加后得到相加结果y_i输入到下一个神经元中进行处理。

如图2所示，所述双跳实体编码是对于节点A_i，逐个计算它的相邻节点集合N(A_i)＝{B₁,B₂,B₃}的单跳实体编码后，在通过同样的方法迭代计算A_i的实体编码，具体步骤如下：

S231、计算B₁与周围实体N(B₁)＝{C₁₁,C₁₂}的注意力系数α_j：

h'_B1＝σ(∑α_B1jUh_j),j∈N(B₁)；

S233、通过与上述步骤S231和步骤S232同样的方法，依次计算出B₁,B₂,B₃的单跳节点词表示，最后迭代计算出A_i的双跳实体编码。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种融合知识的对话生成方法，其特征在于：包括如下步骤：

S1、构建知识图谱；

2.如权利要求1所述的一种融合知识的对话生成方法，其特征在于：所述双跳实体编码是对于节点A_i，逐个计算它的相邻节点集合N(A_i)＝{B₁,B₂,B₃,…B_n}的单跳实体编码后，在通过同样的方法迭代计算A_i的实体编码，具体步骤如下：

将(Wh_B1||Wh_j)的结果映射到一个实数

上，计算出相似系数后，利用softmax公式得到各个节点的加权系数，即注意力系数α_j；

h'_B1＝σ(∑α_B1jUh_j),j∈N(B₁)；

3.如权利要求1所述的一种融合知识的对话生成方法，其特征在于：步骤S24中所述加权相加的公式为：α*X_bert+β*X_transe+γ*X_2hop，其中α、β、γ分别表示X_bert、X_transe、X_2hop的加权系数，α、β、γ的取值范围均为0～1。

4.如权利要求1所述的一种融合知识的对话生成方法，其特征在于：所述知识图谱采用开源的知识图谱或基于业务场景构建的领域知识图谱。

5.如权利要求4所述的一种融合知识的对话生成方法，其特征在于：所述开源的知识图谱包括OpenCyc、WordNet、Freebase、Dbpedia、ConceptNet中的一种或多种。