CN112989004B

CN112989004B - 面向知识图谱问答的查询图排序方法及系统

Info

Publication number: CN112989004B
Application number: CN202110383401.XA
Authority: CN
Inventors: 陈文亮; 贾永辉; 张民
Original assignee: Suzhou Aiyu Cognitive Intelligent Technology Co ltd
Current assignee: Suzhou Aiyu Cognitive Intelligent Technology Co ltd
Priority date: 2021-04-09
Filing date: 2021-04-09
Publication date: 2022-03-11
Anticipated expiration: 2041-04-09
Also published as: CN112989004A

Abstract

本发明涉及一种面向知识图谱问答的查询图排序方法及系统，包括以下步骤：将自然语言问句解析为对应的候选查询图，获得每个问句对应的候选查询图集合，所述自然语言问句包括训练集、测试集和验证集；从所述候选查询图集合中选择出最优查询图，包括：将候选查询图转换成对应的查询图序列；构建排序模型；使用训练集对所述排序模型进行迭代训练，获得训练后的排序模型，通过验证集评价训练后的排序模型，保存评价得分最高的排序模型作为最优的排序模型；通过最优的排序模型获取测试集中每个问句对应的得分集合，从得分集合中筛选获得分值最高的查询图。其提升了查询图的编码质量，排序过程合理，提高了系统的整体性能。

Description

面向知识图谱问答的查询图排序方法及系统

技术领域

本发明涉及自然语言处理技术领域，尤其是指一种面向知识图谱问答的查询图排序方法及系统。

背景技术

知识图谱问答是自然语言处理领域中的重要任务之一，它以自然语言问句作为输入，并从知识图谱中找到相关的实体或属性值作为答案输出。知识图谱问答的出现为人们快速准确地获取知识提供了一种可行的解决方案。同时，多种大型知识图谱的不断发展也为知识图谱的应用奠定了基础，使得开放领域的知识图谱问答应用逐渐进入大众的视野。

已有的知识图谱问答方法可以被分为两种：基于信息检索的方法和基于语义解析的方法。基于信息检索的方法根据问句中的实体在知识图谱中搜索得到相关的候选答案，并且对候选答案进行排序得到最终的答案。在这种思路下，相关研究工作提出了许多有效的问句与候选答案之间的匹配方法，比如基于卷积神经网络和基于长短期记忆网络的方法等。另一种实现知识图谱问答的方法是基于语义解析的方法。这种方式先将问句解析为一种语义表示形式，然后将其与底层知识图谱进行映射从而返回最终答案。常见的语义表示形式有λ-DCS等。相比于基于信息检索的方法，基于语义解析的方法被认为在复杂问题处理上更具可解释性。

在基于语义解析的方式中，基于查询图表示形式的方法被认为能够解决传统语义表示形式与知识图谱的语义结构之间存在的不一致性，并受到研究人员的广泛关注。基于查询图的知识图谱问答可以分为查询图生成和查询图选择两个模块，其中查询图生成着眼于将问句转化为对应的候选查询图，即实现问句的语义理解；而查询图选择模块旨在从候选查询图中选择出最优的查询图，即排除语义理解中存在的各种歧义候选。在查询图生成模块，当前研究主要通过预先定义的操作逐步进行查询图生成。同时为了处理多跳复杂问题，对查询图进行扩展的方法也被提出应用。在查询图选择中，研究人员着眼于通过提升查询图编码来实现更好的查询图选择性能。比如，通过对查询图的不同组件进行特征抽取或者在编码过程中引入句法信息等。

现有技术存在以下技术缺陷：

1、在编码问句与查询图时，使用余弦相似度函数计算两者之间的相似度忽略了问句与查询图之间的交互信息，不利于得到良好的问句与查询图编码向量。

2、在查询图排序过程中，手工设计的特征通常不够鲁棒，同时对于深度神经网络模型也不是必要的。

3、在学习优化排序函数的过程中，没有充分利用不同候选之间的信息，导致模型排序性能相对下降。

发明内容

为此，本发明所要解决的技术问题在于克服现有技术中忽略了问句与查询图之间的交互信息，需要人工设计复杂的查询图特征，缺少考虑候选之间联系的技术缺陷。

为解决上述技术问题，本发明提供了一种面向知识图谱问答的查询图排序方法，包括以下步骤：

步骤一、将自然语言问句解析为对应的候选查询图，获得候选查询图集合，所述自然语言问句包括训练集、测试集和验证集；

步骤二、从所述候选查询图集合中选择出最优查询图，包括：

将候选查询图转换成对应的查询图序列；

构建排序模型，其中，所述排序模型包括编码模块和评分模块，所述编码模块使用BERT获得自然语言问句和查询图序列的语义表示，所述评分模块将自然语言问句和查询图序列的语义表示转化为查询图对应的评分；

使用训练集对所述排序模型进行迭代训练，获得训练后的排序模型，通过验证集评价训练后的排序模型，保存评价得分最高的排序模型作为最优的排序模型；

通过最优的排序模型获取测试集对应的得分集合，从得分集合中筛选获得分值最高的查询图。

作为优选的，所述S1包括：

获取自然语言问句；

通过节点链接得到自然语言问句的约束信息，所述约束信息为实体词、类型词、时间词和序数词中的一种或多种；

获取主路径集合，在所述主路径集合中的每个主路径上依次添加不同的约束信息，获得完整的候选查询图集合；

基于查询图的关系的歧义或实体的歧义，获得候选查询图集合。

作为优选的，所述通过节点链接得到自然语言问句的约束信息，所述约束信息为实体词、类型词、时间词和序数词中的一种或多种，具体包括：

对于实体词链接，使用SMART工具获取提及词和实体词数据对；

对于类型词链接，使用词向量计算类型词和问句中的连续子序列之间的相似度，获取预定数量的提及词和类型词数据对；

对于时间词链接，使用正则匹配来抽取显式的时间信息；

对于序数词链接，使用预定义的序数词模板来抽取序数词表达。

作为优选的，所述将候选查询图转换成对应的查询图序列，包括：

根据预定义的子路径顺序将候选查询图转换成对应的查询图序列。

作为优选的，所述预定义的子路径包括类型词路径序列、实体词路径序列、时间词路径序列、序数词路径序列和主路径序列中的一种或多种。

作为优选的，使用训练集对所述排序模型进行迭代训练，获得训练后的排序模型，通过验证集评价训练后的排序模型，保存评价得分最高的排序模型作为最优的排序模型，包括：

使用定义的优化函数计算训练数据的得分的损失值，并使用Adam优化器反向传播计算梯度，并更新排序模型的参数；

通过验证集对更新后的排序模型进行评价，如果更新后的模型的性能超过之前所有的排序模型的性能，那么保存当前更新后的排序模型；

迭代上述步骤，当达到预先设置的最大训练轮次后终止，并获得最优的排序模型。

作为优选的，所述使用定义的优化函数计算训练数据的得分的损失值，其中，训练数据的获取满足：

构建多组训练数据，一组训练数据

训练数据C对应的标签记为Y＝{y₀,y₁,y₂,…,y_m}，其中，

表示单个正例查询图，

表示单个负例查询图；

每组训练数据经过BERT和线性层之后的得分为{s₀,s₁,s₂,…,s_m}，其中，s_i代表组内第i个训练数据的得分，i＝0,1,2,…m。

作为优选的，在优化过程中，采用的优化函数为：

归一化后的概率得分

训练数据的损失函数值

本发明公开了一种面向知识图谱问答的查询图排序系统，包括：

候选查询图生成模块，所述候选查询图生成模块用于将自然语言问句解析为对应的候选查询图，获得候选查询图集合；

查询图序列生成模块，所述查询图序列生成模块用于将候选查询图转换成对应的查询图序列；

排序模型构建模块，所述排序模型构建模块用于构建排序模型，其中，所述排序模型包括编码模块和评分模块，所述编码模块使用BERT获得自然语言问句和查询图序列的语义表示，所述评分模块将自然语言问句和查询图序列的语义表示转化为查询图对应的评分；

训练模块，所述训练模块使用训练集对所述排序模型进行迭代训练，获得训练后的排序模型，通过验证集评价训练后的排序模型，保存评价得分最高的排序模型作为最优的排序模型；

测试模块，所述测试模块通过最优的排序模型获取测试集中每个问句对应的得分集合，从得分集合中筛选获得分值最高的查询图。

本发明的上述技术方案相比现有技术具有以下优点：

1、本发明在编码阶段，引入了查询图和问句两者之间的交互信息，并且采用更自然地序列编码方式提升了查询图的编码质量。

2、本发明在排序优化阶段，我们通过考虑候选之间的联系进行优化，使得排序过程更加合理，并且提高了系统的整体性能。

附图说明

图1为本发明中面向知识图谱问答的查询图排序方法的流程图；

图2为查询图生成过程的示意图；

图3为查询图到查询图序列的转换示意图；

图4为构建排序模型及优化的示意图，其中，(a)为查询图和问句编码框架示意图；(b)为不同的排序策略优化方法示意图，其中

表示问句和正例查询图构成的序列，

和

表示问句和不同的负例查询图构成的三个序列。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

参照图1所示，本发明的面向知识图谱问答的查询图排序方法，包括以下步骤：

步骤一、将自然语言问句解析为对应的候选查询图，获得候选查询图集合，所述自然语言问句包括训练集、测试集和验证集。

(1)获取自然语言问句。

(2)通过节点链接得到自然语言问句的约束信息，所述约束信息为实体词、类型词、时间词和序数词中的一种或多种。对于实体词链接，使用SMART工具获取提及词和实体词数据对。对于类型词链接，使用词向量计算类型词和问句中的连续子序列之间的相似度，获取预定数量的提及词和类型词数据对。对于时间词链接，使用正则匹配来抽取显式的时间信息。对于序数词链接，使用预定义的序数词模板来抽取序数词表达。

(3)获取主路径集合，在所述主路径集合中的每个主路径上依次添加不同的约束信息，获得完整的候选查询图集合。

(4)基于查询图的关系的歧义或实体的歧义，获得候选查询图集合。

查询图生成的目标是将自然语言问句解析为对应的查询图结构。给定一个问句q,本发明首先通过节点链接得到四种约束信息，包括实体词、类型词、时间词以及序数词。对于实体词链接，本发明使用SMART工具获取(提及词,实体词)数据对；对于类型词链接，本发明用词向量计算类型词和问句中的连续子序列之间的相似度，并选出前10个(提及词，类型词)数据对；对于时间词链接，本发明使用正则匹配来抽取显式的时间信息；对于序数词链接，本发明使用预定义的序数词模板来抽取序数词表达。图2(a)展示了一个节点链接的结果实例。

在完成节点链接之后，本发明基于链接到的实体词进行一跳和两跳搜索得到主路径信息，如图2(b)所示；然后，本发明在主路径节点上添加相应实体约束，图2(c)展示了相应的结果；接下来，本发明继续添加类型约束、时间约束以及序数词约束，最终得到完整的查询图结构，如图2(d)所示。

通过查询图生成，本发明可以得到每个问句对应的候选查询图集合G＝{g₁,g₂,…,g_n}。接下来，本发明将通过查询图选择从中选取出最优的查询图结果。

S21、将候选查询图转换成对应的查询图序列。根据预定义的子路径顺序将候选查询图转换成对应的查询图序列。所述预定义的子路径包括类型词路径序列、实体词路径序列、时间词路径序列、序数词路径序列和主路径序列中的一种或多种。

S22、构建排序模型，其中，所述排序模型包括编码模块和评分模块，所述编码模块使用BERT获得自然语言问句和查询图序列的语义表示，所述评分模块将自然语言问句和查询图序列的语义表示转化为查询图对应的评分。

S23、使用训练集对所述排序模型进行迭代训练，获得训练后的排序模型，通过验证集评价训练后的排序模型，保存评价得分最高的排序模型作为最优的排序模型。

训练数据的获取满足：

构建多组训练数据，一组训练数据

训练数据C对应的标签记为Y＝{y₀,y₁,y₂,…,y_m}，其中，

表示单个正例查询图，

表示单个负例查询图；

在优化过程中，采用的优化函数为：

归一化后的概率得分

训练数据的损失函数值

使用定义的优化函数计算训练数据的得分的损失值，并使用Adam优化器反向传播计算梯度，并更新排序模型的参数。

通过验证集对更新后的排序模型进行评价，如果更新后的模型的性能超过之前所有的排序模型的性能，那么保存当前更新后的排序模型。

S24、通过最优的排序模型获取测试集对应的得分集合，从得分集合中筛选获得分值最高的查询图。

下面，结合具体实施方式对步骤二中的技术方案做进一步说明。

由于查询图生成过程中歧义的存在，查询图生成可能产生许多候选查询图。因此本发明设计一个匹配方案从候选查询图中选择出最优查询图g^*。在这部分，本发明的说明书首先介绍如何将查询图g∈G转换为查询图序列g^s；然后描述问句q和查询图序列q^s的编码方法；最后介绍相关的优化方法。

查询图到序列的转换过程可以被视为是查询图生成的拆解过程。给定一个查询图，本发明根据预定义的子路径顺序将查询图转换成对应的查询图序列。具体而言，本发明首先根据不同的约束将查询图拆分为不同的子路径。经过图拆解，本发明可以得到五种子路径序列，分别是类型词路径序列、实体词路径序列、时间词路径序列、序数词路径序列以及主路径序列。以图3为例，与实体词“Prime minister”对应的实体词路径序列为“basictitle prime minister.”。最后，五种子路径序列被组合在一起形成完整的查询图序列。需要注意的是，为了区分不同的子路径序列，本发明添加了额外的标记([unused0-3])来分隔不同的子路径序列，并且答案节点的信息同样被加入到查询图序列中，而不仅仅用一个标识符来表达。

本发明选择在自然语言处理中广被应用的BERT框架作为编码器。BERT是一种预训练语言模型，它可以针对单个句子或者句子对进行编码。为了引入问句和查询图序列之间的交互信息，本发明采用BERT中的句子对编码策略，编码框架如图4(a)所示。

给定一个问句q＝{w₁,w₂,…,w_n}和查询图序列g^s＝{u₁,u₂,…,u_n}，本发明通过特殊的标记将q和g^s拼接在一起形成句子对，记为

对于候选查询图G中的每个查询图g，其都可以和对应的问句q形成句子对

然后，所有句子对被依次输入给BERT进行编码。本发明使用BERT中的[CLS]节点输出作为问句和查询图序列的语义表示，记为f。

本发明提出了一种查询图排序方法，它可以通过三种不同的优化策略实现，分别为单点优化、成对优化和列表优化。在进行排序之前，本发明首先对训练数据进行预处理。根据正确的答案能否可以被获取，候选查询图可以被分为两类：G⁺和G^-，其中G⁺表示正例查询图集合，G^-表示负例查询图集合。相应的，本发明使用

和

表示单个正例查询图和负例查询图。无论是正例查询图还是负例查询图，每个查询图g_i都会经过BERT框架得到对应的表示f_i，然后再经过一个线性层映射为每个查询图成为最优查询图的得分s_i。

单点优化的特点是逐个地对每个候选查询图进行处理，不考虑候选查询图之间的联系。在单点优化策略下，本发明将查询图排序问题作为一个简单的二分类任务。如图4(b)所示，每个查询图g_i在单点优化方式下是被独立进行优化的。

对于每个候选查询图g_i，它对应的标签y_i∈{1,0}，其中“1”表示正例，“0”表示负例。在优化过程中，本发明采用交叉熵损失函数进行优化，并且选择最高得分的查询图作为最优查询图g^*。损失函数的具体定义如下：

L_point＝-∑y_ilog(s'_i)+(1-y_i)log(1-s'_i)。 (2)

成对优化可以考虑两两候选之间的联系，通过计算两个候选之间的相对次序达到全局排序的目的。当使用成对优化方法时，本发明将查询图排序问题视为如何区分正例查询图和负例查询图的问题。在这种情况下，本发明构建正负例查询图对，然后优化正负例对之间的得分，优化方式如图4(b)所示。

对于每个正负例查询图对

通过BERT编码以及线性层映射可以得到对应的得分为s_i和s_j，然后s_i和s_j通过等式(1)被归一化为s'_i和s_j'。本发明使用合页损失函数来优化正例和负例对，并且使正负例之间的得分之差稳定在一个固定值λ。合页损失函数的具体定义如下：

L_pair＝max{0,λ-s'_i+s'_j}， (3)

其中λ取值为0.5。

列表优化可以考虑所有候选之间的内部联系，并且直接优化整个候选之间的次序。不过在查询图选择中，本发明并不在意正例之前的次序，或者负例之间的次序，本发明的优化目标是把正例排在第一位即可。如图4(b)所示，列表优化时能够考虑一组候选之间的联系，并且根据一组候选的得分进行整体优化。

在构建训练数据时，本发明选择每个正例查询图和固定数量的负例查询图形成一组数据

其对应的标签记为Y＝{y₀,y₁,y₂,…,y_m}。每组数据经过BERT和线性层之后的得分为{s₀,s₁,s₂,…,s_m}。在优化过程中，本发明采用下面的优化函数：

本发明还公开了一种面向知识图谱问答的查询图排序系统，包括候选查询图生成模块、查询图序列生成模块、排序模型构建模块、训练模块和测试模块。

所述候选查询图生成模块用于将自然语言问句解析为对应的候选查询图，获得候选查询图集合。所述查询图序列生成模块用于将候选查询图转换成对应的查询图序列。

所述排序模型构建模块用于构建排序模型，其中，所述排序模型包括编码模块和评分模块，所述编码模块使用BERT获得自然语言问句和查询图序列的语义表示，所述评分模块将自然语言问句和查询图序列的语义表示转化为查询图对应的评分。

所述训练模块使用训练集对所述排序模型进行迭代训练，获得训练后的排序模型，通过验证集评价训练后的排序模型，保存评价得分最高的排序模型作为最优的排序模型。

所述测试模块通过最优的排序模型获取测试集中每个问句对应的得分集合，从得分集合中筛选获得分值最高的查询图。

本发明通过引入问句与查询图之间的交互信息来提升当前的特征编码质量，同时使用深度神经网络替代以往复杂的人工特征。在此基础上，设计了不同的优化训练方法来充分利用不同候选之间的信息，从而有效提高了查询图排序的性能，实现了更好的知识图谱问答系统。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种面向知识图谱问答的查询图排序方法，其特征在于，包括以下步骤：

S1、将自然语言问句解析为对应的候选查询图，获得每个问句对应的候选查询图集合，所述自然语言问句包括训练集、测试集和验证集；

S2、从所述候选查询图集合中选择出最优查询图，包括：

将候选查询图转换成对应的查询图序列，包括：

根据预定义的子路径顺序将候选查询图转换成对应的查询图序列；所述预定义的子路径包括类型词路径序列、实体词路径序列、时间词路径序列、序数词路径序列和主路径序列中的一种或多种；

使用训练集对所述排序模型进行迭代训练，获得训练后的排序模型，通过验证集评价训练后的排序模型，保存评价得分最高的排序模型作为最优的排序模型，包括：使用定义的优化函数计算训练数据的得分的损失值，并使用Adam优化器反向传播计算梯度，并更新排序模型的参数；通过验证集对更新后的排序模型进行评价，如果更新后的模型的性能超过之前所有的排序模型的性能，那么保存当前更新后的排序模型；迭代上述步骤，当达到预先设置的最大训练轮次后终止，并获得最优的排序模型；

通过最优的排序模型获取测试集中每个问句对应的得分集合，从得分集合中筛选获得分值最高的查询图；

其中，所述使用定义的优化函数计算训练数据的得分的损失值，其中，训练数据的获取满足：

构建多组训练数据，一组训练数据

训练数据C对应的标签记为Y＝{y₀，y₁，y₂，...，y_m}，其中，

表示单个正例查询图，

表示单个负例查询图；

每组训练数据经过BERT和线性层之后的得分为{s₀，s₁，s₂，...，s_m}，其中，s_i代表组内第i个训练数据的得分，i＝0,1,2,…m；

在优化过程中，采用的优化函数为：

归一化后的概率得分

训练数据的损失函数值

2.根据权利要求1所述的面向知识图谱问答的查询图排序方法，其特征在于，所述S1包括：

获取自然语言问句；

获取主路径集合，在所述主路径集合中的每个主路径上依次添加不同的约束信息，获得完整的候选查询图集合。

3.根据权利要求2所述的面向知识图谱问答的查询图排序方法，其特征在于，所述通过节点链接得到自然语言问句的约束信息，所述约束信息为实体词、类型词、时间词和序数词中的一种或多种，具体包括：

对于时间词链接，使用正则匹配来抽取显式的时间信息；

4.一种面向知识图谱问答的查询图排序系统，其特征在于，包括：

候选查询图生成模块，所述候选查询图生成模块用于将自然语言问句解析为对应的候选查询图，获得候选查询图集合，所述自然语言问句包括训练集、测试集和验证集；

查询图序列生成模块，所述查询图序列生成模块用于将候选查询图转换成对应的查询图序列，包括：根据预定义的子路径顺序将候选查询图转换成对应的查询图序列；所述预定义的子路径包括类型词路径序列、实体词路径序列、时间词路径序列、序数词路径序列和主路径序列中的一种或多种；

训练模块，所述训练模块使用训练集对所述排序模型进行迭代训练，获得训练后的排序模型，通过验证集评价训练后的排序模型，保存评价得分最高的排序模型作为最优的排序模型，包括：使用定义的优化函数计算训练数据的得分的损失值，并使用Adam优化器反向传播计算梯度，并更新排序模型的参数；通过验证集对更新后的排序模型进行评价，如果更新后的模型的性能超过之前所有的排序模型的性能，那么保存当前更新后的排序模型；迭代上述步骤，当达到预先设置的最大训练轮次后终止，并获得最优的排序模型；

测试模块，所述测试模块通过最优的排序模型获取测试集中每个问句对应的得分集合，从得分集合中筛选获得分值最高的查询图，其中，所述使用定义的优化函数计算训练数据的得分的损失值，其中，训练数据的获取满足：

构建多组训练数据，一组训练数据

表示单个正例查询图，

表示单个负例查询图；

在优化过程中，采用的优化函数为：

归一化后的概率得分

训练数据的损失函数值