CN112100342A

CN112100342A - 一种基于知识表示学习技术的知识图谱问答方法

Info

Publication number: CN112100342A
Application number: CN202010776098.5A
Authority: CN
Inventors: 蒋泽军; 王丽芳; 陆新宇; 贺世昌; 赵孟; 李荣涵; 刘志强; 杜承烈; 陈进朝; 尤涛
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2020-08-05
Filing date: 2020-08-05
Publication date: 2020-12-18

Abstract

本发明公开了一种基于知识表示学习技术的知识图谱问答方法，使用该方法构建了一个主题检测模块和谓词预测模块。当用户提出一个自然语言问句时，通过主题检测模块与谓词预测模块识别到自然语言问句中的主题与谓词，将主题与谓词输入到知识图谱中，自动进行查找并返回知识图谱支持的正确答案。本发明方法可以准确表示知识图谱组件的语义信息，能够维护知识图谱的固有结构，同时具备处理用户提出新的自然语言问句的能力。

Description

一种基于知识表示学习技术的知识图谱问答方法

技术领域

本发明属于自然语言处理领域，具体涉及一种知识图谱问答方法。

背景技术

大规模知识图谱的构建和应用使计算机的可读性和互操作性迅速增长。知识图谱是由实体(节点)和关系(边)组成的多关系图的形式表示。在诸如Freebase和DBpedia之类的大规模知识图谱中，每个边都表示一个三元组(主题，谓词，对象)，每个三元组表示两个实体(主题、对象)通过特定关系(谓词)连接的事实。尽管可以有效地表示知识图谱，但结构化数据的大容量和稀疏表达性通常使知识图谱难以访问，因此研究人员提出基于知识图谱的问答系统解决上述问题。基于知识图谱的问答技术旨在设计一个系统，该系统面对用户提出的自然语言问句时，能够自动查找并返回知识图谱支持的正确答案。传统的知识图谱问答系统通过语义解析器完成任务，该语义解析器用于泛化可查询的逻辑表示。但训练泛化能力强大的语义解析分类器需要大量的训练数据，而现有问答数据集中问答对都比较少。随着深度学习的不断发展，基于神经网络的知识图谱问答方法逐渐成为知识图谱问答的主流方法。文献“Large-scale simple question answering with memory networks。”首次针对问答数据集提出了基于知识图谱的问答模型，该模型通过记忆网络匹配主题，使用句子文本中的n-gram来生成候选主题完成问答任务。文献“Neural network-basedquestion answering over knowledge graphs on word and character level。”提出对主题与谓词对进行排序，使给定问题的相关事实答案得以检索的方法。尽管上述方法取得了很好的效果，但基于深度学习的问答模型仍然需要改进。知识图谱中的主题和谓词是不同源信息且数据具有稀疏性，执行知识图谱问答任务时，很难维护知识图谱的固有结构，导致问答系统性能不佳。由于知识图谱组件具有各种表示形式，造成问答模型难以准确表示知识图谱组件的语义信息。此外，大多数问答模型不具备处理用户提出新的自然语言问句的能力，即依赖训练语料。

近年来知识表示学习技术使一些自然语言任务受益，知识表示学习技术的主要思想是将知识图谱中的主题和谓词嵌入到连续的向量空间中，在完成下游任务的同时保留知识图谱的原始语义信息。在向量空间中，学习到的单个主题/谓词/对象表示形式是整个知识图谱交互作用的结果，且相似的知识图谱组件具有相似的向量，此属性可以帮助下游算法处理用户提出的新问题，提升问答系统的性能。

发明内容

为了克服现有技术的不足，本发明提供了一种基于知识表示学习技术的知识图谱问答方法，使用该方法构建了一个主题检测模块和谓词预测模块。当用户提出一个自然语言问句时，通过主题检测模块与谓词预测模块识别到自然语言问句中的主题与谓词，将主题与谓词输入到知识图谱中，自动进行查找并返回知识图谱支持的正确答案。本发明方法可以准确表示知识图谱组件的语义信息，能够维护知识图谱的固有结构，同时具备处理用户提出新的自然语言问句的能力。

本发明解决其技术问题所采用的技术方案包括以下步骤：

步骤1：构建主题检测模块；

给定包含M个自然语言问句的训练集Q，假设其中第m个自然语言问句的长度为L，即包含L个token；首先将第m个自然语言问句中的L个token通过预训练模型映射为一个问题词嵌入向量{q_i}，其中i＝1,...,L；然后使用Bi-GRU学习得到第m个自然语言问句中第i个token的前向隐藏状态序列

和后向隐藏状态序列

将前向隐藏状态序列

和后向隐藏状态序列

拼接得到：

式中，h_i表示第m个自然语言问句中第i个token的隐藏状态向量，q_i是问题词嵌入向量{q_i}第i个元素，

表示第m个自然语言问句中第i个token的前向隐藏状态向量，

表示第m个自然语言问句中第i个token的后向隐藏状态向量，concate表示拼接运算；

采用开源信息瓶颈nonlinearIB模型得到最终的主题表示，如下式所示：

其中，Sub_m表示输入第m个自然语言问句时主题检测模型的输出，NIB表示开源信息瓶颈模型，W_o表示输出权重，b_o表示输出偏置；

训练集Q包含M个自然语言问句，Q中每一个自然语言问句通过步骤1的上述方法得到对应的主题检测模型输出Sub，总计M个Sub；

主题检测模块总体表示为：

Sub＝NIB(Dec_entity(Q)) (3)

式中，Dec_entity表示主题检测模型；

步骤2：构建谓词预测模块；

对于训练集Q中长度为L的第m个自然语言问句，使用两层Bi-GRU进行学习；定义Bi-GRU第一层的第1个token的隐藏表示

如下式所示：

则Bi-GRU第一层的隐藏表示为

将

作为Bi-GRU第二层的输入，获取Bi-GRU第二层的隐藏表示为

对

与

分别进行最大值池化，如下式所示：

其中，maxpolling表示最大值池化操作；

得到谓词预测模块的输出如下所示：

其中，P_m表示输入第m个自然语言问句时谓词预测模型的输出；

训练集Q包含M个自然语言问句，Q中每一个自然语言问句通过步骤2的上述方法得到对应的主题检测模型输出P，总计M个P；

谓词预测模块总体表示为：

P＝Dec_predicate(Q) (8)

其中，Dec_predicate表示谓词预测模型；

步骤3：构建主题检测模块与谓词预测模块的联合训练模型；

设定联合训练模型损失函数，如下公式所示：

其中，λ是预定义权重，用来平衡主题检测模型与谓词预测模型的贡献；

和

分别是预训练的主题嵌入向量和预训练的谓词嵌入向量，均由平移距离预训练模型TransE训练得到；

采用基于表示学习的平移距离预训练模型TransE，对联合训练模型进行训练，当联合训练模型训练迭代次数达到预设值时，停止训练，得到最终的主题检测模块和谓词预测模块；

步骤4：将一个待回答的自然语言问句输入到主题检测模块和谓词预测模块中，得到待回答自然语言问句的主题和谓词，再将主题和谓词输入到知识图谱中，知识图谱返回答案。

优选地，步骤1中所述预训练模型为GloVe模型。

优选地，步骤4中所述的预定义权重λ为0.4。

由于采用了本发明的一种基于知识表示学习技术的知识图谱问答方法，能够在基于知识图谱的问答系统中准确表示知识图谱组件的语义信息，维护知识图谱的固有结构，同时具备处理用户提出新的自然语言问句的能力。

附图说明

图1是本发明提出的知识图谱问答方法示意图。

图2是本发明提出的知识图谱问答方法流程图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

如图1和图2所示，本发明提供了一种基于知识表示学习技术的知识图谱问答方法，包括以下步骤：

步骤1：构建主题检测模块；

和后向隐藏状态序列

将前向隐藏状态序列

和后向隐藏状态序列

拼接得到

表示第m个自然语言问句中第i个token的前向隐藏状态向量，

主题检测模块总体表示为：

Sub＝NIB(Dec_entity(Q)) (3)

式中，Dec_entity表示主题检测模型；

步骤2：构建谓词预测模块；

如下式所示：

则Bi-GRU第一层的隐藏表示为

将

作为Bi-GRU第二层的输入，获取Bi-GRU第二层的隐藏表示为

对

与

分别进行最大值池化，如下式所示：

其中，maxpolling表示最大值池化操作；

得到谓词预测模块的输出如下所示：

谓词预测模块总体表示为：

P＝Dec_predicate(Q) (8)

其中，Dec_predicate表示谓词预测模型；

步骤3：构建主题检测模块与谓词预测模块的联合训练模型；

设定联合训练模型损失函数，如下公式所示：

和

实施例：

本发明遵循全监督体系结构，即训练数据由N对自然语言问题和形式查询(主题与谓词)组成。

1、给定一个自然语言问句，主题检测模型的目标是在主题嵌入空间中找到一个点作为主题表示。对于知识图谱可以回答的所有问题，主题检测模型学习到的主题向量表示必须位于主题嵌入空间中，这有助于知识图谱的主题语义信息以及维护知识图谱固有结构。主题检测模型将问句作为输入并返回主题向量，该向量尽可能接近该问题的主题表示。

基于此，对于训练集Q中第m个长度为L的自然语言问句，主题检测模块首先基于一个预先训练的模型GloVe，将其L个token映射到一个词嵌入向量{q_i}中，其中i＝1,...,L。然后使用Bi-GRU来学习前向隐藏状态序列

和后向隐藏状态序列

以前向GRU为例，h_i通过下式计算得到：

其中，r_i表示重置门的激活向量，σ表示激活函数，W_r表示重置门输入权重，U_r表示重置门隐藏权重，

表示第i-1个token的隐藏状态向量，b_r表示重置门的偏置向量；z_i表示更新门的激活向量，W_z表示更新门输入权重，U_z表示更新门隐藏权重，b_z表示更新门的偏置向量；tanh表示tanh激活函数，W_h表示当前隐藏输入权重，U_h表示当前隐藏权重，b_h表示当前隐藏偏置。

希伯来大学计算机科学家和神经学家Naftali Tishby等人提出了一种叫做信息瓶颈的理论。信息瓶颈理论被证实在深度神经网络的学习过程中具备把信息从瓶颈中挤压出去，去除噪音输入，只保留最相关特征的能力。由于本发明提出的主题检测模型基于从自然语言问句提取主题的思想，因此使用信息瓶颈技术可以最大程度的在主题嵌入空间中恢复知识图谱中的主题向量表示。主题检测模型采用直接调用现有信息瓶颈技术模型NIB的方法，主题表示如下所示：

Sub_m表示输入第m个自然语言问句时主题检测模型的输出，即从自然语言问句中识别出的主题；

主题检测模块总体表示为：

Sub＝NIB(Dec_entity(Q))

在训练过程中，Glove预训练模型的嵌入维度是300，主题检测模型在第35轮完成训练，学习率为0.0003；

2、给定一个自然语言问题，谓词预测模型的目标是在谓词嵌入空间中找到一个点作为其谓词表示。对于知识图谱可以回答的所有问题，谓词预测模型学习到的谓词向量表示必须位于谓词嵌入空间中，这有助于问答模型恢复谓词语义信息以及维护知识图谱固有结构。谓词预测模型将问题作为输入并返回谓词向量，该向量尽可能接近该问题的谓词表示。

由于最终用户的问题域通常是不受限制的，因此新问题的谓词可能与训练集Q中的所有谓词都不同。传统谓词预测模型无法解决这种情况。由于知识表示学习技术获得的全局谓词信息可用，基于此可以提高总体问题回答的准确性。为了实现此目标，本发明采用残差层级Bi-GRU的神经网络架构，它主要由双向的GRU网络组成。在谓词预测模型中，为了能正确预测出问题中谓词不同抽象级的谓词表示形式，本发明通过对输入的自然语言问题应用深层的Bi-GRU来解决此问题。

对于步骤1中长度为L的自然语言问句，Bi-GRU的第一层用于处理自然语言问题Q中的问题词q＝{q₁,...,q_N}的词嵌入，并获得隐藏表示

第二层Bi-GRU的输入是

以获取第二组隐式表示形式

由于第二层Bi-GRU输入为第一层的隐藏表示，因此与第一层相比，它可以学习更多谓词的常规信息和抽象信息。但深度Bi-GRU不保证自然语言问题的两个级别的隐藏表示具有可比性，因此本发明基于残差思想在两层Bi-GRU之间添加连接，对

与

分别应用最大值池化分别获得

与

具体过程如下：

谓词预测模块首先基于一个预先训练的模型GloVe将问句中的L个token映射到一个词嵌入向量{q_i}中，其中i＝1,...,L。然后使用两层Bi-GRU，Bi-GRU的第一层用于处理自然语言问题Q中的问题词q_i＝{q₁,...,q_L}的词嵌入，以前向GRU为例，

的计算方法同主题检测模块中计算

的方法相同。

则Bi-GRU第一层的隐藏表示为

将

作为Bi-GRU第二层的输入，获取Bi-GRU第二层的隐藏表示为

由于第二层Bi-GRU输入为第一层的隐藏表示，因此与第一层相比，它可以学习更多常规信息和抽象信息。

对

与

分别进行最大值池化，如下式所示：

得到谓词预测模块的输出如下所示：

其中，P_m表示输入第m个自然语言问句时谓词预测模型的输出，即从自然语言问句中识别出的谓词；

谓词预测模块总体表示为：

P＝Dec_predicate(Q)

在训练过程中，谓词预测模型在第35轮时完成训练，学习率为0.0005；

3、对于每个自然语言问题，首先通过主题检测模块与谓词预测模块识别了主题表示Sub和谓词表示P，然后在知识图谱中找到与这些学习的表示形式最匹配的对象Obj。其中主题Sub，谓词P，与对象Obj之间的关系为Sub+P＝Obj。

设定联合训练模型损失函数，如下公式所示：

本发明使用l₂范数来度量距离。

在训练过程中，TransE预训练模型的嵌入维度是250，预定义权重值λ为0.4。训练完成，得到最终的主题检测模块和谓词预测模块；

4、将一个待回答的自然语言问句输入到主题检测模块和谓词预测模块中，得到待回答自然语言问句的主题和谓词，再将主题和谓词输入到知识图谱中，主题和谓词组合成对象Obj，在知识图谱中进行查询，返回答案。