CN115062123A

CN115062123A - 一种对话生成系统的知识库问答对生成方法

Info

Publication number: CN115062123A
Application number: CN202210583071.3A
Authority: CN
Inventors: 荣文戈; 李晨; 白骏; 欧阳元新; 熊璋
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2022-05-26
Filing date: 2022-05-26
Publication date: 2022-09-16

Abstract

本发明公开了一种对话生成系统的知识库问答对生成方法，提出图谱问题相关性提取网络，然后基于知识蒸馏技术令知识库问答对生成网络学习图谱问题相关性提取网络提取到的图谱问题交互信息，从而有效提升知识库问答对生成效果。本发明的贡献主要有两个方面：(1)提出一种融合目标问句知识的图谱问题相关性提取网络，该网络能够准确捕捉图谱问题交互信息；(2)提出一种给知识库问答对生成网络增强图谱问题交互信息的方法，通过同时最小化知识库问答对生成网络与图谱问题相关性提取网络之间中间状态和单词预测概率的差异，令知识库问答对生成网络学习到图谱问题相关性提取网络提取到的图谱问题交互信息，从而改善问句生成表现。

Description

一种对话生成系统的知识库问答对生成方法

技术领域

本发明涉及一种对话生成系统的知识库问答对生成方法，属于自然语言处理领域中的对话系统技术领域。

背景技术

近些年来，随着科学技术的不断发展与互联网的迅速壮大，人们对互联网的使用不断增多，并由此产生了海量的资源，其中包括大量的文本数据。这些数据包含了很多隐藏信息，而由于庞大的数据量，通过人工的方法对其的分析需要很大的成本。由此，通过计算机来处理这些文本数据的需求逐渐增加。自然语言处理技术，即为通过计算机对人们日常沟通交流中使用的语言进行处理并理解的技术，它可以设计多种应用产品便利人们的日常生活。自然语言处理包括很多具有挑战性的任务，问答对生成任务正是其中一个新兴的自然语言生成任务。问答对生成系统可以对输入的数据进行分析并针对答案信息提出相应的问题。相较于海量的未标注的无结构化文本而言，用于自然语言处理的人工标注数据集十分珍贵。对于问答系统，在一些特定的领域，数据集常常只含有几百到几千个问答对，神经网络模型在使用这样轻量化的数据集进行训练时往往不能取得很好的效果。问答对生成系统可以极大程度的减少生成人工标注数据集时的工作量，数据集匮乏的问题便可得到缓解。因此，研究问答对生成任务具有重要意义。

目前，问答对生成任务可以根据输入数据的类型进行分类，包括文本，图片，视频，知识图谱，结构化的SQL语言等。其中，输入数据为知识图谱的问答对生成任务通常被称为知识库问答对生成任务。知识图谱随着认知智能技术的不断发展，逐渐成为一种重要的知识表现形式。由于知识图谱领域的特殊性，其结构与文本信息有显著的差异，这使得在进行问答对生成时，输入知识图谱与目标问句之间存在不匹配的情况，使得知识库问答对生成的精度达不到要求。

发明内容

本发明技术问题为：克服现有技术的不足，提供一种对话生成系统的知识库问答对生成方法，有效地从给定的输入数据中提取知识图谱与目标问句之间的交互信息，从而提升知识库问答对生成的精度，提升生成问句的准确性。

本发明技术解决方案：一种对话生成系统的知识库问答对生成方法，包括以下步骤：

步骤1：对知识图谱中的实体与关系以及目标问句进行分词及标注处理，以构建图谱问题相关性提取网络和知识库问答对生成网络的输入序列，具体如下：

知识图谱包括实体与关系，答案信息为知识图谱中的一部分实体，给定输入的知识图谱，将知识图谱转化为图结构信息，在图结构信息的基础上，将知识图谱中的所有实体与关系整理为节点集V＝{v₁,…,v_|V|}，其中|V|代表节点的个数，每个节点v是一个实体或者关系；实体与关系的连接整理为边集E；同时对答案信息进行标注A＝{a₁,…,a_|V|}，其中a_i表示第i个节点的答案信息的标注，若此节点为答案信息，则其为1，反之若此节点不为答案信息，则其为0；然后对节点集中的每个节点以及目标问句进行分词处理，得到节点的文本序列和目标问句的文本序列，并作为输入序列；

步骤2：根据输入序列，构建图谱问题相关性提取网络，步骤如下：

(1)使用Glove词嵌入技术与LSTM神经网络提取输入序列中的节点分词和目标问句分词中各单词的上下文特征，同时利用嵌入表示技术融合答案信息，得到嵌入表示的答案信息；基于各单词的上下文特征和嵌入表示的答案信息，得到节点和目标问句的表示；

具体步骤如下：

将节点的文本序列v和目标问句的文本序列y转换为单词的编号序列token_id，利用预训练好的Glove词嵌入参数将token_id转换为单词的嵌入表示序列；然后，利用双向LSTM网络对嵌入表示序列进行更新，得到词向量表示序列：

其中，

与

分别表示第i个单词的嵌入表示，

与

分别表示第i个单词经过双向LSTM网络更新后的词向量表示，n和m分别表示节点和目标问句的文本长度；

对于节点，将词向量表示序列的首尾词向量与嵌入表示的答案信息进行拼接，得到节点的整体表示x^v：

其中，e_a为节点的嵌入表示的答案信息；

对于目标问句，将词向量表示序列进行池化操作，得到目标问句的整体表示x^y：

(2)基于得到节点和目标问句的表示，使用图神经网络提取各节点间的特征，并融合目标问句表示得到输入序列的表示；

具体步骤如下：

利用知识图谱中的边集E中的信息，使用图神经网络来提取各节点间的特征：

首先利用连接节点的有向边，分别计算节点在每一次更新中的传入与传出信息：

其中，

与

分别表示节点v在第t次更新后的传入与传出信息，N_in(v)与N_out(c)分别表示节点v传入与传出节点集合，

表示节点v在第t次更新后节点表示，更新前的表示由文本处理得到：

然后，利用门控机制融合传入与传出信息，得到节点聚合信息

其中，α表示门控权重，通过计算输入和输出信息的逐元素操作和得到：

其中，σ表示Sigmoid激活函数；

再利用GRU神经网络更新节点表示：

经过多轮更新后，将所有节点的表示进行池化操作，得到知识图谱的整体表示xg：

将知识图谱的表示与目标问句的表示进行拼接，经过映射层，得到图谱问题相关性提取网络的输入序列的表示：

(3)根据输入序列的表示，使用LSTM神经网络预测生成目标问句中每一个单词概率，具体步骤如下：

首先利用输入数据的表示初始化LSTM神经网络的隐藏状态h_dec与细胞状态c_dec：

然后利用输入的单词，更新隐藏状态与细胞状态，并得到预测下一个单词的输出向量

其中，

为输入的单词，在预测第一个单词时输入单词为序列开始符[SOS]；

同时，利用注意力机制，计算当前状态与输入节点信息的相关性

将LSTM网络和注意力机制的输出向量拼接后映射到生成词典空间之上，并利用Softmax归一化计算单词的概率分布

(4)定义图谱问题相关性提取网络的损失函数，损失函数

如下：

其中，CE表示交叉熵损失函数，y_t表示正确的目标问句中第t个单词；

步骤3：根据输入序列，构建知识库问答对生成网络，步骤如下：

(1)使用Glove词嵌入技术与LSTM神经网络提取输入序列中的节点分词中各单词的上下文特征，同时利用嵌入表示技术融合答案信息，得到嵌入表示的答案信息；基于各单词的上下文特征和嵌入表示的答案信息，得到节点的表示；

具体步骤如下：

将节点的文本序列v转换为单词的编号序列token_id，利用预训练好的Glove词嵌入参数将token_id转换为单词的嵌入表示序列；然后，利用双向LSTM网络对嵌入表示序列进行更新，得到词向量表示序列：

其中，

表示第i个单词的嵌入表示，

表示第i个单词经过双向LSTM网络更新后的词向量表示，n表示节点的文本长度；

然后，将词向量表示序列的首尾词向量与嵌入表示的答案信息进行拼接，得到节点的整体表示x^v：

其中，e_a为节点的嵌入表示的答案信息；

(2)基于得到的节点表示，使用图神经网络提取各节点间的特征，获得输入序列的表示，具体步骤如下：

利用知识图谱中的边集E中的信息，使用图神经网络来提取各节点间的特征，

其中，

与

分别表示节点v在第t次更新后的传入与传出信息，N_in(v)与N_out(v)分别表示节点v传入与传出节点集合，

其中，σ表示Sigmoid激活函数。

之后，利用GRU神经网络更新节点表示：

经过多轮更新后，将所有节点的表示进行池化操作，得到知识图谱的整体表示x^g：

将知识图谱的表示映射到对应的隐藏状态与细胞状态的空间中，得到知识库问答对生成网络的输入序列的表示：

首先利用输入序列的表示初始化LSTM神经网络的隐藏状态h_dec与细胞状态c_dec：

其中，

为输入的单词，在预测第一个单词时输入单词为序列开始符[SOS]。

(4)定义知识库问答对生成网络的损失函数，损失函数

如下：

最后，训练知识库问答对生成网络的完整损失函数定义为：

其中，λ₁与λ₂为调节不同损失比重的超参数；

为单词预测损失函数：

为预测概率蒸馏损失函数：

其中，KLDiv为Kullback-Leibler散度；

为中间状态蒸馏损失函数：

其中，cos_sim为余弦相似度，B表示一批样本的总数量，i表示第i个样本，k表示第k个输入序列的表示；

步骤4：利用知识库问答对生成网络，对输入序列进行处理，生成对应的问答对，用于对话生成系统。

本发明与现有技术相比的优点在于：

(1)本发明的方法提出了一个图谱问题相关性提取网络，该网络通过融合目标问句知识来准确提取图谱问句交互信息。图谱问题交互信息，即知识图谱与目标问句之间的关联，对于知识库问答对生成任务来说至关重要。但知识库问答对生成网络的输入编码过程往往只利用知识图谱和答案信息，而没有其它与目标问句相关的信息，这会导致生成的问答对与知识图谱相关性不足。本发明方法中的图谱问题相关性提取网络，旨在通过将目标问句的表示合并到知识图谱的编码中来准确地提取图谱问题交互信息，因此图谱问题相关性提取网络可以作为一个知识源，将学习捕捉到的图谱问题交互信息蒸馏至知识库问答对生成网络从而达到增强的目的，从而提升知识库问答对生成的精度。

(2)本发明的方法，使用了预测概率蒸馏损失函数和中间状态蒸馏损失函数，将图谱问句交互信息融入到知识库问答对生成网络中。图谱问题相关性提取网络提取到的图谱问题交互信息由于融合了目标问句信息，在推理过程中属于后验信息，只能在训练阶段使用。为此，需要使用知识蒸馏技术，使目标模型能够具备源模型的知识。本发明同时进行预测概率蒸馏与中间状态蒸馏，令知识库问答对生成网络去模仿图谱问题相关性提取网络的单词预测概率分布与输入数据表示，从而学习到图谱问题交互信息，有效提升知识库问答对生成的准确性。

附图说明

图1为本发明方法的实现流程图。

具体实施方式

下面结合附图和实例对本发明进一步说明。

如图1所示，本发明方法分为以下步骤。

具体步骤如下：

其中，

与

分别表示第i个单词的嵌入表示，

与

其中，e_a为节点的嵌入表示的答案信息；

具体步骤如下：

其中，

与

其中，σ表示Sigmoid激活函数；

再利用GRU神经网络更新节点表示：

其中，

(4)定义图谱问题相关性提取网络的损失函数，损失函数

如下：

具体步骤如下：

其中，

表示第i个单词的嵌入表示，

其中，e_a为节点的嵌入表示的答案信息；

其中，

与

其中，σ表示Sigmoid激活函数。

之后，利用GRU神经网络更新节点表示：

其中，

(4)定义知识库问答对生成网络的损失函数，损失函数

如下：

最后，训练知识库问答对生成网络的完整损失函数定义为：

其中，λ₁与λ₂为调节不同损失比重的超参数；

为单词预测损失函数：

为预测概率蒸馏损失函数：

其中，KLDiv为Kullback-Leibler散度；

为中间状态蒸馏损失函数：

将本发明方法在知名知识库问答对生成数据集WebQuestions上进行实验，并与相应数据集上的顶尖方法进行了对比。

BLEU-4、METEOR以及ROUGE-L均为生成任务自动评价指标，主要考虑生成问句和正确答案之间词的重合程度。BLEU主要计算生成问句的准确率，考虑生成的问句中有多少连续的字符在正确答案中出现；ROUGE-L则主要考虑生成问句的召回率，利用生成问句和正确答案之间的最长公共子序列进行计算；METEOR方法应用WordNet知识库扩充同义词词集，并通过对齐生成问句和正确答案之间连续有序的单词块评估生成效果。

表1展示了各方法在WebQuestions上的实验结果，可以看到本发明方法相比于基础模型Graph2Seq在BLEU-4、METEOR以及ROUGE-L三项指标上都有了大幅度提升，并且对比其他方法生成结果更接近于正确答案，具有更高的生成精度。

表1各方法在WebQuestions上的表现

以上虽然描述了本发明的具体实施方法，但是本领域的技术人员应当理解，这些仅是举例说明，在不背离本发明原理和实现的前提下，可以对这些实施方案做出多种变更或修改，因此，本发明的保护范围由所附权利要求书限定。

Claims

1.一种对话生成系统的知识库问答对生成方法，其特征在于，包括以下步骤：

具体步骤如下：

其中，

与

分别表示第i个单词的嵌入表示，

与

其中，e_a为节点的嵌入表示的答案信息；

具体步骤如下：

其中，

与

其中，σ表示Sigmoid激活函数；

再利用GRU神经网络更新节点表示：

其中，

(4)定义图谱问题相关性提取网络的损失函数，损失函数

如下：

具体步骤如下：

其中，

表示第i个单词的嵌入表示，

其中，e_a为节点的嵌入表示的答案信息；

其中，

与

其中，σ表示Sigmoid激活函数。

之后，利用GRU神经网络更新节点表示：

其中，

(4)定义知识库问答对生成网络的损失函数，损失函数

如下：

最后，训练知识库问答对生成网络的完整损失函数定义为：

其中，λ₁与λ₂为调节不同损失比重的超参数；

为单词预测损失函数：

为预测概率蒸馏损失函数：

其中，KLDiv为Kullback-Leibler散度；

为中间状态蒸馏损失函数：

2.根据权利要求1所述的对话生成系统的知识库问答对生成方法，其特征在于：所述步骤1具体如下：

知识图谱包括实体与关系，答案信息为知识图谱中的一部分实体，给定输入的知识图谱，将知识图谱转化为图结构信息，在图结构信息的基础上，将知识图谱中的所有实体与关系整理为节点集V＝{v₁,…,v_|V|}，其中|V|代表节点的个数，每个节点v是一个实体或者关系；实体与关系的连接整理为边集E；同时对答案信息进行标注A＝{a₁,…,a_|V|}，其中a_i表示第i个节点的答案信息的标注，若此节点为答案信息，则其为1，反之若此节点不为答案信息，则其为0；然后对节点集中的每个节点以及目标问句进行分词处理，得到节点的文本序列和目标问句的文本序列，并作为输入序列。