CN108228877A

CN108228877A - 基于学习排序算法的知识库补全方法及装置

Info

Publication number: CN108228877A
Application number: CN201810059641.2A
Authority: CN
Inventors: 黄勇; 王志春
Original assignee: Beijing Normal University
Current assignee: Beijing Normal University
Priority date: 2018-01-22
Filing date: 2018-01-22
Publication date: 2018-06-29
Anticipated expiration: 2038-01-22
Also published as: CN108228877B

Abstract

本发明实施例公开一种基于学习排序算法的知识库补全方法及装置，能提高知识库补全的正确率。方法包括：对于待补全的知识库中的每一个待预测关系的头尾实体对，基于目标关系类型构建该头尾实体对对应比例的负实体对，对该头尾实体对和所述负实体对抽取关系路径，根据所述关系路径确定所述头尾实体对和所述负实体对的关系路径特征向量；将所述关系路径特征向量输入预先训练的学习排序模型，获得该头尾实体对和所述负实体对的得分排序，其中，所述学习排序模型采用学习排序算法进行训练；若根据所述得分排序判断获知该头尾实体对排序在第一位，则确定该头尾实体对属于该目标关系类型，通过将该头尾实体对补入该目标关系类型下的三元组中，对该知识库进行补全。

Description

基于学习排序算法的知识库补全方法及装置

技术领域

本发明实施例涉及通信领域，具体涉及一种基于学习排序算法的知识库补全方法及装置。

背景技术

YAGO，DBpedia和Freebase等知识库已经成功地应用于网络搜索引擎，例如Google、Baidu使用维基百科知识库和Freebase为检索添加结构化的信息，并构建大规模的语义知识库。一些问答机器人和个人手机助手也被广泛应用，知识库在其中起了重要的作用。

现有的知识库多使用三元组的形式对现实世界中实体的各种知识进行表示，图1给了一个典型的知识库例子，对于图1中三元组<北京师范大学，位于，北京>，其中“北京师范大学”和“北京”分别表示关系型三元组的头实体和尾实体，“位于”表示关系路径，知识库中的实体是描述现实世界中实实在在存在的事物，而关系描述实体和实体之间存在的联系。然而在现实中存在很多大规模的知识库如DBpedia、Freebase、YAGO、wikidata等，这些知识库通过自动构建技术或者人工手动标注建立，尽管包含上亿条三元组知识，规模庞大，然而这些知识库是不完备的，比如很多人的出生地点未知、很多电影的演员信息也不完全。

为了解决知识库不完备的问题，很多知识库补全的方法被提出来。当前知识库补全方法有两种，基于逻辑符号的方法和基于低维嵌入的方法。常见的逻辑符号方法有AMIE、PRA、SFE等，AMIE方法是通过规则学习挖掘知识库规则的方法，PRA方法基于关系路径权重来预测两个实体之间关系，SFE通过学习在知识库中的隐含路径知识，获得比PRA方法更多的关系路径特征，进一步提高预测准确率。低维嵌入的方法则学习实体和关系的低维度向量表示，用向量相似度计算预测实体之间的关系，常见的低维嵌入方法如TranE、TranH、TranR等。

这些知识库补全方法基于打分模型通过对知识库中未知的实体关系进行预测打分，判断实体对之间是否有特定的关系。例如希望预测北京师范大学是否位于中国这个事实，需要抽取北京师范大学和中国这两个实体相关的关系路径类型特征，并基于这些关系路径类型特征计算头尾实体对的关系路径特征向量，从而来预测北京师范大学和中国是否有“位于”这种关系。如对于实体对北京师范大学和北京，我们可以通过关系路径<北京师范大学，位于，北京，位于，中国>和<北京师范大学，有校长，董奇，居住在，中国>可以抽取关系路径类型{位于-位于，……，有校长-居住在}组成关系路径类型集合，并通过抽取“位于”关系下的不同实体对不同的关系路径类型，从而计算获得每个实体对的关系路径特征向量。

但是当前的知识库基于打分模型进行知识库补全有很大不足。一是知识库中正负实体对比例差别很大，对于每个在知识库中实际存在的三元组正实例，可能有成千上万条不存在的三元组负实例相对应，如三元组<北京师范大学，位于，中国>这个三元组在知识库中实际存在，是一条正实例，而<北京师范大学，位于，美国>和<北京师范大学，位于，日本>等上百条负实例与之对应，如何解决正负实体对不匹配的问题很关键，正负实体对比例悬殊，关系预测中仅靠打分是不够的。二是相关的方法都是通过评价三元组得分高低来预测结果的，而并未考虑候选实体对的顺序对预测结果的影响。

发明内容

针对现有技术存在的不足和缺陷，本发明实施例提供一种基于学习排序算法的知识库补全方法及装置。

一方面，本发明实施例提出一种基于学习排序算法的知识库补全方法，包括：

S1、对于待补全的知识库中的每一个待预测关系的头尾实体对，基于目标关系类型构建该头尾实体对对应比例的负实体对，对该头尾实体对和所述负实体对抽取关系路径，根据所述关系路径确定所述头尾实体对和所述负实体对的关系路径特征向量；

S2、将所述关系路径特征向量输入预先训练的学习排序模型，获得该头尾实体对和所述负实体对的得分排序，其中，所述学习排序模型采用学习排序算法进行训练；

S3、若根据所述得分排序判断获知该头尾实体对排序在第一位，则确定该头尾实体对属于该目标关系类型，通过将该头尾实体对补入该目标关系类型下的三元组中，对该知识库进行补全。

另一方面，本发明实施例提出一种基于学习排序算法的知识库补全装置，包括：

第一确定单元，用于对于待补全的知识库中的每一个待预测关系的头尾实体对，基于目标关系类型构建该头尾实体对对应比例的负实体对，对该头尾实体对和所述负实体对抽取关系路径，根据所述关系路径确定所述头尾实体对和所述负实体对的关系路径特征向量；

输入单元，用于将所述关系路径特征向量输入预先训练的学习排序模型，获得该头尾实体对和所述负实体对的得分排序，其中，所述学习排序模型采用学习排序算法进行训练；

补全单元，用于若根据所述得分排序判断获知该头尾实体对排序在第一位，则确定该头尾实体对属于该目标关系类型，通过将该头尾实体对补入该目标关系类型下的三元组中，对该知识库进行补全。

第三方面，本发明实施例提供一种电子设备，包括：处理器、存储器、总线及存储在存储器上并可在处理器上运行的计算机程序；

其中，所述处理器，存储器通过所述总线完成相互间的通信；

所述处理器执行所述计算机程序时实现上述方法。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，所述存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述方法。

本发明实施例提供的基于学习排序算法的知识库补全方法及装置，通过采用学习排序算法进行训练的学习排序模型进行关系预测来对待补全的知识库进行补全，不仅仅考虑了实体对的打分高低，还考虑实体对之间的排序关系，相较于现有技术，本方案能提高知识库补全的正确率。

附图说明

图1为一个典型的知识库例子示意图；

图2为本发明实施例基于学习排序算法的知识库补全方法一实施例的流程示意图；

图3为本发明实施例基于学习排序算法的知识库补全装置一实施例的结构示意图；

图4为本发明实施例提供的一种电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明实施例保护的范围。

参看图2，本实施例公开一种基于学习排序算法的知识库补全方法，包括：

本实施例中，对于每一个待预测关系的头尾实体对，构建负实体对的过程可以为；对于该头尾实体对，利用目标关系类型下除该头尾实体对包含的实体之外的实体随机替换该头尾实体对的头实体和尾实体，具体来说，用五个头实体分别替换该头尾实体对的头实体，并用五个尾实体分别替换该头尾实体对的尾实体，得到该头尾实体对对应的10个负实体对。而确定关系路径特征向量的过程可以为：确定该头尾实体对及其对应比例的负实体对的关系路径的关系路径类型，对所述关系路径类型进行去重，根据去重得到的关系路径类型确定该头尾实体对和所述负实体对的关系路径特征向量，其中，对于该头尾实体对和所述负实体对中的每一个实体对，该实体对的关系路径特征向量的每一位对应该目标关系类型下的所有路径类型中的一个，对于每一位，如果该位对应的关系路径类型是该实体对的关系路径类型中的一个，那么该位的值为1，否则，该位的值为0。

本实施例中，所述的得分排序即根据得分高低进行排序，得分越高的，排序越靠前，反之，越靠后。

本实施例中，将该头尾实体对补入该目标关系类型下的三元组中，即将该头尾实体对划分入该目标关系类型下。

本发明实施例提供的基于学习排序算法的知识库补全方法，通过采用学习排序算法进行训练的学习排序模型进行关系预测来对待补全的知识库进行补全，不仅仅考虑了实体对的打分高低，还考虑实体对之间的排序关系，相较于现有技术，本方案能提高知识库补全的正确率。

在前述方法实施例的基础上，在所述S1之前，还可以包括：

对于给定的知识库中每一个关系类型下的每个正实体对，构建该正实体对对应比例的负实体对，对于该正实体对及其对应比例的负实体对中的每个实体对，在所述给定的知识库中抽取连接该实体对的头实体和尾实体的关系路径，确定每一条关系路径对应的关系路径类型，对所述关系路径对应的关系路径类型进行去重，根据去重后的关系路径类型确定各个实体对的关系路径特征向量；

本实施例中，正实体对是在给定的知识库中实际存在的实体对，负实体对是在给定的知识库中不存在的实体对。构建负实体对时可以基于局部封闭世界的假设进行构建，具体方法可以为：对于该正实体对，利用该关系类型下除该正实体对包含的实体之外的5个实体分别替换该正实体对的头实体，得到5个负实体对，并利用该关系类型下除该正实体对包含的实体之外的5个实体分别替换该正实体对的尾实体，得到5个负实体对，当然实体的替换数量不局限于5个，也可以根据需要设置。在抽取关系路径时可以采用随机游走的算法，并需要限制抽取的关系路径的长度，通常，关系路径长度被限制在3-6跳之间，过高则关系路径太多，计算复杂度太高，而小于3跳的关系路径则使得获得关系路径类型信息太少，不能有效提供特征。比如对于如图1知识库中实体对<北京师范大学，中国>，在知识库中可以抽取关系路径如：(有大学-位于-位于)、(校长-出生-相邻-位于)等。

对于所述每一个关系类型，利用该关系类型对应的所有正实体对和负实体对的关系路径特征向量对预先构建的学习排序模型进行训练，训练的结果是该关系类型的三元组集合的平均准确率指标达到最大，其中，该关系类型的三元组集合的平均准确率指标为该关系类型下的实体对组的排序结果评价指标的均值，每一个实体对组包括一个正实体对及其对应的负实体对。

本实施例中，训练过程具体可以为：在通过随机游走计算获得关系路径后，对于每一个关系类型下的每一个实体对组，为该实体对组中每个实体对的各条关系路径赋值，需要说明的是，该实体对的各条关系路径既包括抽取得到的关系路径，还包括假设的、实际不存在的关系路径，该假设的、实际不存在的关系路径中各条关系路径属于该关系类型下不同的路径类型，该假设的、实际不存在的关系路径所属的路径类型与该抽取得到的关系路径所属的路径类型的合集为该关系类型下的所有路径类型集合，具体赋值时，可以为抽取得到的每条关系路径赋值为1，可以为假设的、实际不存在的每条关系路径赋值为0。在对关系路径赋值完成后，可以采用随机梯度下降算法学习得到该关系类型下各个关系类型的权重，之后对于该关系类型下的每一个实体对组中的每个实体对，计算该实体对的分值，该分值为对该实体对的各条关系路径被赋予的值(比如1或者0)与所属的路径类型的权重的乘积求和的结果。计算完分值后，需要根据分值，对每一个实体对组中的各个实体对进行排序，根据排序确定出该实体对组的排序结果评价指标，该实体对组的排序结果评价指标为该实体对组中的各个实体对对应的数值的均值，每个实体对对应的数值为该实体对组的排序结果中该实体对及其之前的所有实体对中为正实体对的实体对的比例。确定出各个实体对组的排序结果评价指标后，需要对该关系类型下的各个实体对组的排序结果评价指标求均值，得到该关系类型的三元组集合的平均准确率指标。训练需要进行多轮，每轮训练后，需要更新路径类型的权重，进行下一轮的训练，直至该关系类型的三元组集合的平均准确率指标达到最大为止。可以理解的是，如果正确的实体对排在错误的实体对之前，则实体对组的排序结果评价指标越高；如果所有的实体对组的排序结果评价指标越高，则该关系类型的主集合的平均准确率指标也就越高。

本实施例中，在学习排序模型训练的过程中，不仅仅考虑实体对的分值高低，还考虑实体对之间的排序关系，正实体对总需要排序在负实体对前面，这样就能保证在预测的候选实体对中，总是排在前面的实体对是好的结果。

在前述方法实施例的基础上，所述学习排序算法可以为基于LambdaMART的树的学习排序算法，也可以为其它学习排序算法，此处不再赘述。

参看图3，本实施例公开一种基于学习排序算法的知识库补全装置，包括：

第一确定单元1，用于对于待补全的知识库中的每一个待预测关系的头尾实体对，基于目标关系类型构建该头尾实体对对应比例的负实体对，对该头尾实体对和所述负实体对抽取关系路径，根据所述关系路径确定所述头尾实体对和所述负实体对的关系路径特征向量；

输入单元2，用于将所述关系路径特征向量输入预先训练的学习排序模型，获得该头尾实体对和所述负实体对的得分排序，其中，所述学习排序模型采用学习排序算法进行训练；

补全单元3，用于若根据所述得分排序判断获知该头尾实体对排序在第一位，则确定该头尾实体对属于该目标关系类型，通过将该头尾实体对补入该目标关系类型下的三元组中，对该知识库进行补全。

具体地，所述第一确定单元1对于待补全的知识库中的每一个待预测关系的头尾实体对，基于目标关系类型构建该头尾实体对对应比例的负实体对，对该头尾实体对和所述负实体对抽取关系路径，根据所述关系路径确定所述头尾实体对和所述负实体对的关系路径特征向量；所述输入单元2将所述关系路径特征向量输入预先训练的学习排序模型，获得该头尾实体对和所述负实体对的得分排序，其中，所述学习排序模型采用学习排序算法进行训练；所述补全单元3若根据所述得分排序判断获知该头尾实体对排序在第一位，则确定该头尾实体对属于该目标关系类型，通过将该头尾实体对补入该目标关系类型下的三元组中，对该知识库进行补全。

本发明实施例提供的基于学习排序算法的知识库补全装置，通过采用学习排序算法进行训练的学习排序模型进行关系预测来对待补全的知识库进行补全，不仅仅考虑了实体对的打分高低，还考虑实体对之间的排序关系，相较于现有技术，本方案能提高知识库补全的正确率。

在前述装置实施例的基础上，所述装置还可以包括：

第二确定单元，用于在所述输入单元工作之前，对于给定的知识库中每一个关系类型下的每个正实体对，构建该正实体对对应比例的负实体对，对于该正实体对及其对应比例的负实体对中的每个实体对，在所述给定的知识库中抽取连接该实体对的头实体和尾实体的关系路径，确定每一条关系路径对应的关系路径类型，对所述关系路径对应的关系路径类型进行去重，根据去重后的关系路径类型确定各个实体对的关系路径特征向量；

训练单元，用于对于所述每一个关系类型，利用该关系类型对应的所有正实体对和负实体对的关系路径特征向量对预先构建的学习排序模型进行训练，训练的结果是该关系类型的三元组集合的平均准确率指标达到最大，其中，该关系类型的三元组集合的平均准确率指标为该关系类型下的实体对组的排序结果评价指标的均值，每一个实体对组包括一个正实体对及其对应的负实体对。

在前述装置实施例的基础上，所述第二确定单元，具体可以用于：

对于该正实体对，利用该关系类型下的实体随机替换该正实体对的头实体和尾实体，具体来说，用五个头实体分别替换该正实体对的头实体，并用五个尾实体分别替换该正实体对的尾实体，得到该正实体对对应的10个负实体对。

在前述装置实施例的基础上，所述学习排序算法可以为基于LambdaMART的树的学习排序算法。

本实施例的基于学习排序算法的知识库补全装置，可以用于执行前述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图4示出了本发明实施例提供的一种电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器11、存储器12、总线13及存储在存储器12上并可在处理器11上运行的计算机程序；

其中，所述处理器11，存储器12通过所述总线13完成相互间的通信；

所述处理器11执行所述计算机程序时实现上述各方法实施例所提供的方法，例如包括：对于待补全的知识库中的每一个待预测关系的头尾实体对，基于目标关系类型构建该头尾实体对对应比例的负实体对，对该头尾实体对和所述负实体对抽取关系路径，根据所述关系路径确定所述头尾实体对和所述负实体对的关系路径特征向量；将所述关系路径特征向量输入预先训练的学习排序模型，获得该头尾实体对和所述负实体对的得分排序，其中，所述学习排序模型采用学习排序算法进行训练；若根据所述得分排序判断获知该头尾实体对排序在第一位，则确定该头尾实体对属于该目标关系类型，通过将该头尾实体对补入该目标关系类型下的三元组中，对该知识库进行补全。

本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例所提供的方法，例如包括：对于待补全的知识库中的每一个待预测关系的头尾实体对，基于目标关系类型构建该头尾实体对对应比例的负实体对，对该头尾实体对和所述负实体对抽取关系路径，根据所述关系路径确定所述头尾实体对和所述负实体对的关系路径特征向量；将所述关系路径特征向量输入预先训练的学习排序模型，获得该头尾实体对和所述负实体对的得分排序，其中，所述学习排序模型采用学习排序算法进行训练；若根据所述得分排序判断获知该头尾实体对排序在第一位，则确定该头尾实体对属于该目标关系类型，通过将该头尾实体对补入该目标关系类型下的三元组中，对该知识库进行补全。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

本发明的说明书中，说明了大量具体细节。然而能够理解的是，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。类似地，应当理解，为了精简本发明公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释呈反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。本发明并不局限于任何单一的方面，也不局限于任何单一的实施例，也不局限于这些方面和/或实施例的任意组合和/或置换。而且，可以单独使用本发明的每个方面和/或实施例或者与一个或更多其他方面和/或其实施例结合使用。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种基于学习排序算法的知识库补全方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在所述S1之前，还包括：

3.根据权利要求2所述的方法，其特征在于，所述构建该正实体对对应比例的负实体对，包括：

4.根据权利要求1所述的方法，其特征在于，所述学习排序算法为基于LambdaMART的树的学习排序算法。

5.一种基于学习排序算法的知识库补全装置，其特征在于，包括：

6.根据权利要求5所述的装置，其特征在于，还包括：

7.根据权利要求6所述的装置，其特征在于，所述第二确定单元，具体用于：

8.根据权利要求5所述的装置，其特征在于，所述学习排序算法为基于LambdaMART的树的学习排序算法。

9.一种电子设备，其特征在于，包括：处理器、存储器、总线及存储在存储器上并可在处理器上运行的计算机程序；

所述处理器执行所述计算机程序时实现如权利要求1-4中任一项所述的方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序，该计算机程序被处理器执行时实现如权利要求1-4中任一项所述的方法。