CN107491500A

CN107491500A - 一种强适应性的知识库补全方法

Info

Publication number: CN107491500A
Application number: CN201710630354.8A
Authority: CN
Inventors: 孟小峰; 张祎; 王秋月
Original assignee: Renmin University of China
Current assignee: Renmin University of China
Priority date: 2017-07-28
Filing date: 2017-07-28
Publication date: 2017-12-19
Anticipated expiration: 2037-07-28
Also published as: CN107491500B

Abstract

本发明涉及一种强适应性的知识库补全方法，其步骤：从知识库调取数据源，进行局部子图遍历；设置路径特征提取器，该路径特征提取器包括类PRA特征提取器、路径二元特征提取器、修正后的单侧特征提取器、双侧对比特征提取器和关系泛化特征提取器；所有路径特征提取器的提取过程都相同，均包括路径特征提取和路径特征选择，输入为局部子图，输出为路径特征；根据特征提取器构建特征矩阵；选取分类模型，将特征矩阵传输至分类模型中，并训练分类模型，然后由分类模型输出成立的实体对以及实体对对应的关系类型，并将输出结果传输至知识库中，从而实现对知识库的补全。本发明性能具有相对稳定性，即可以在不同数据集上取得相对较好的知识库补全效果。

Description

一种强适应性的知识库补全方法

技术领域

本发明涉及一种知识库补全方法，特别是关于一种在计算机领域中应用的强适应性的知识库补全方法。

背景技术

目前，YOGO、NELL、Freebase和DBPedia等大型知识库层出不穷。学者们基于这些知识库，进行了大量关系抽取、关系推断、自然语言问答和知识发现等工作，在很大程度上推动了对应领域的发展。不过，即使是规模庞大的当代知识库，也存在严重的信息不完善问题。职业信息属于人的基本信息，但是，在Freebase所包含的200万人类主体中，只有30万有这方面的信息，且大多数都是政治家或明星等。这些基本信息的匮乏，会极大阻碍人们对知识库的进一步利用。知识库补全技术应运而生。“知识库补全技术”的优势在于可以发现已存在但未知的知识。随着大数据时代的到来，隐藏在“数据洪流”之中的知识越来越多，这种知识发现技术也愈加引起各行各业的关注。

现有的知识库补全技术主要包括三大类，即基于隐性特征向量表示的embedding方法、基于知识图谱拓扑结构的知识库补全，以及马尔科夫随机场。这三种方法通过利用知识库或全局或局部的信息，实现知识库补全。

归纳逻辑编程(Inductive Logic Programming，ILP)通过一阶逻辑谓词之间的推理进行链接预测相关工作，但在表达能力、鲁棒性和可扩展性三个方面具有一定局限。NiLao的PRA(Path Ranking Algorithm)算法通过随机游走实现了对所有路径的简单抽样，在一定程度上降低了时间复杂度，增强了模型的可扩展性。同时，其对规则可靠性的度量，提高了模型的表达能力和鲁棒性。Matt Gardner在PRA的基础上提出“局部子图”的概念，并通过“局部子图”提取知识图谱中的路径特征；将特征矩阵“0,1”化；同时使用修正后的宽度优先遍历取代PRA中的随机游走算法；而且融合了“关系泛化特征”提取器，最终构建了知识库补全的SFE(Subgraph Feature Extraction)模型，将PRA知识库补全的MAP值从0.432提高到0.528，而且训练时间少了一个数量级。

虽然SFE在PRA基础上进行了很大改善，但依旧存在以下不足：(1)提出单个特征提取器时，考虑的因素有限，可能会出现过拟合现象；(2)在最终确定SFE算法之前没有就单个特征提取器的优劣进行评测，导致最终的SFE算法并非最优；(3)忽略了知识库补全模型对数据集的高度依赖性。而这种依赖性不仅会影响同一模型在不同数据集上的表现效果，还会影响不同模型在不同数据集上的相对优劣。

发明内容

针对上述问题，本发明的目的是提供一种强适应性的知识库补全方法，其性能具有相对稳定性，即可以在不同数据集上取得相对较好的知识库补全效果。

为实现上述目的，本发明采取以下技术方案：一种强适应性的知识库补全方法，其特征在于包括以下步骤：1)从知识库调取数据源，进行局部子图遍历，为特征提取器提取路径提供信息；2)设置路径特征提取器，该路径特征提取器包括类PRA特征提取器、路径二元特征提取器、修正后的单侧特征提取器、双侧对比特征提取器和关系泛化特征提取器；所有路径特征提取器的提取过程都相同，均包括路径特征提取和路径特征选择，输入为局部子图，输出为路径特征；3)根据特征提取器构建特征矩阵；4)选取分类模型，将特征矩阵传输至分类模型中，并训练分类模型，然后由分类模型输出成立的实体对以及实体对对应的关系类型，并将输出结果传输至知识库中，从而实现对知识库的补全。

进一步，所述步骤1)中，局部子图是指通过宽度优先遍历的方法搜索结点e在s步范围内的所有结点；最后得到以对应结点为中心的遍历结果，即局部子图G_e。

进一步，所述步骤2)中，路径特征提取过程为：按照宽度优先方式进行路径特征提取：假设存在头实体s_i的局部子图和尾实体t_i的局部子图以及中间结点e_i；如果则提取的路径特征为如果e_i＝t_i，则抽取的路径特征为如果e_i＝s_i，则抽取的路径特征为

进一步，如果遍历遇到了高出度结点，就停止遍历；高出度结点是出度高于预先设定出度阈值的结点。

进一步，遍历过程中以关系标签为单位进行类分层抽样的宽度优先遍历。

进一步，所述步骤2)中，路径特征选择是依据出现频率对路径特征进行选择。

进一步，所述步骤3)中，特征矩阵构建过程为：3.1)将不同特征提取器提取的路径特征取并集，作为特征矩阵的列；3.2)同时，将实体对作为特征矩阵的行；3.3)求出特征矩阵中的每个单元的概率值，即P(t_i|s_i,π)，该概率值表示从头实体s_i出发经过路径特征π到达尾实体t_i的概率。

进一步，所述步骤3.3)中，概率值的计算过程是采用从头实体s_i出发的随机游走遍历，如果概率值大于0，则特征矩阵中的值为1；否则为0。

进一步，所述步骤4)中，分类模型选取逻辑回归模型或支持向量机模型。

本发明由于采取以上技术方案，其具有以下优点：首先，本发明对SFE中的单侧特征提取器进行了修正，将其MAP值从0.3000提高到0.4433；其次，本发明通过融合不同特征提取器构建了新的强适应性知识库补全模型。其中，四特征提取器的标准差是单特征提取器模型标准差的1/20。从而，缓解了知识库补全模型对数据集的高度依赖问题，性能相对稳定性，并可以取得相对较好的知识库补全效果。

附图说明

图1是本发明整体流程示意图；

图2是本发明特征提取器内部流程示意图；

图3是本发明路径特征提取阐述示例；

图4是本发明特征提取器阐述示例。

具体实施方式

本发明提供的强适应性的知识库补全方法属于第二类，即基于知识图谱拓扑结构的知识库补全。本发明包括两点：第一是改进SFE算法提出过程中的单特征提取器，这样有助于保证融合多特征提取器之后的强适应模型性能；第二：虽然某个单特征提取器可以得到很好的补全效果，但并不具有强大适应性，从而影响模型的进一步推广和应用。因此，本发明通过构建融合多特征提取器的强适应性知识库补全模型来缓解知识库补全方法对数据集的高度依赖问题。这里的“强适应”指模型性能的稳定性。即无论在何种数据集之上，模型都可以取得相对较好的结果。这里的“相对”是各个模型之间的横向对比，而非同一模型在不同数据集之上的纵向对比。下面结合附图和实施例对本发明进行详细的描述。

如图1所示，本发明的强适应性的知识库补全方法，包括以下步骤：

1)从知识库调取数据源，进行局部子图遍历，为特征提取器提取路径提供信息；

其中，局部子图为：

假设存在知识图谱G(E,R)，其中E为所有实体，e表示单个实体或结点；而R则表示知识图谱中的所有关系，r表示单个关系，每个关系都有对应标签，L表示标签集合，l表示单个标签。上述表示方式将知识图谱看作一个巨大的有向图，并使用结点和边分别表示实体和关系。本发明的知识库补全以关系为单位展开。路径特征π表现为关系标签的序列，如“l₁->l₂->l₃->l₄”。局部子图是指通过宽度优先遍历的方法搜索结点e在s步范围内的所有结点。最后会得到以对应结点为中心的遍历结果，即局部子图G_e。假设结点e经过s步遍历之后到达结点e_i，则结点所在局部子图的特征通过(π,e_i)进行表示。其中，π为结点e到结点e_i的关系序列。

2)设置路径特征提取器，该路径特征提取器包括类PRA(Path RankingAlgorithm，路径排名算法)特征提取器、路径二元特征提取器、修正后的单侧特征提取器、双侧对比特征提取器和关系泛化特征提取器。

如图2所示，所有路径特征提取器的提取过程都相同，均包括路径特征提取和路径特征选择，输入为局部子图，输出为路径特征。

其中，路径特征提取过程如下：

按照宽度优先方式进行路径特征提取：根据局部子图的定义，假设存在头实体s_i的局部子图和尾实体t_i的局部子图以及中间结点e_i。如果则提取的路径特征为如果e_i＝t_i，则抽取的路径特征为如果e_i＝s_i，则抽取的路径特征为

如果遍历遇到了高出度结点，就停止遍历。另外，遍历过程中以“关系标签”为单位进行“类分层抽样”的宽度优先遍历。其中，高出度结点是出度高于预先设定出度阈值的结点。

例如，如图3所示，假设训练的关系是“国家高校”，具体的训练任务便是学习该关系对应的拓扑结构特征。现从“中国”出发，其出度为3，即一条“首都”和两条“直辖市”。如果使用随机游走进行遍历，那么下一跳进入每个路径的概率相等，即下一个实体是“北京”、“上海”或“重庆”的概率相等，均为1/3。而这里的宽度优先遍历会先判断该结点链出的边类型。由于有两条边是“国家直辖市”，一条边是“国家首都”，所以下一跳边类型是“国家首都”的概率是1，是“国家直辖市”的概率也是1；因此，跳到“北京”的概率是1，跳到“上海”和“重庆”的概率则均为1/2。

路径特征选择是依据出现频率对路径特征进行选择。路径特征提取过程会生成所有可能的路径特征，但由于知识图谱规模过大，所有可能的路径特征会导致极高的计算复杂度。同时，在所有可能的路径特征中，并非每条都非常重要。因此需要进行路径特征选择。

3)根据特征提取器构建特征矩阵；

3.1)将不同特征提取器提取的路径特征取并集，作为特征矩阵的列。

3.2)同时，将实体对作为特征矩阵的行。

3.3)在特征矩阵构建完成之后，求出特征矩阵中的每个单元的概率值，即P(t_i|s_i,π)。该概率值表示从头实体s_i出发经过路径特征π到达尾实体t_i的概率。具体计算过程采用从头实体s_i出发的随机游走遍历。如果概率值大于0，则特征矩阵中的值为1；否则为0。

4)选取分类模型，将特征矩阵传输至分类模型中，并训练分类模型，然后由分类模型输出成立的实体对以及实体对对应的关系类型，并将输出结果传输至知识库中，从而实现对知识库的补全。

上述步骤4)中，分类模型不用很复杂，一般选取最简单的逻辑回归模型或支持向量机模型。

上述步骤2)中，以图4为依据，对本发明采用的类PRA特征提取器、路径二元特征、修正后的单侧特征提取器、双侧对比特征提取器以及关系泛化特征提取器进行举例说明。

(1)类PRA特征提取器

假设现在需要抽取图4中“祖孙”关系对应的路径特征。若s_i是“康熙”，则t_i是“乾隆”，我们设定构建局部子图的宽度优先遍历只有1步。那么s_i对应的为{(职业，皇帝)；(性别，男)；(父子，雍正))}，同理，为{(职业，皇帝)；(性别，男)；(父子^-1，雍正))}。综合和可知，中间结点e_i是“雍正”。因此，可以通过这样一条π(“父子”→“父子”)将“康熙”和“乾隆”联系起来，即形成“祖孙”关系。因此，对应的类PRA路径特征为：→“父子”→“父子”→。

(2)路径二元特征提取器

路径二元特征提取器将“类PRA路径特征”中每两个相邻的关系序列作为一个特征维度进行训练。图4示例对应的路径二元特征包括：“Bigram：@START@-父子”，“Bigram：父子-父子”，“Bigram：父子-@END@”。

(3)修正后的单侧特征提取器

在图4的示例中，单侧特征包括头实体或尾实体的局部子图结构。头实体部分为“SOURCE：-职业-：皇帝”、“SOURCE：-性别-：男”和“SOURCE：-父子-：雍正”；尾实体部分是“TARGET：-职业-：皇帝”、“TARGET：-性别-：男”和“TARGET：-父子^-1-：雍正”。由于皇帝的孙子不太可能是平民，因此，在训练该关系的过程中，就可以把农民和商人等部分职业过滤掉，从而减小计算量。但是，原来的单侧特征同时在头实体部分和尾实体部分加以约束，可能会出现矫枉过正的过拟合现象。因此，本发明采取二者选其一的方法进行路径特征提取。

(4)双侧对比特征提取器

双侧对比特征提取器旨在提取头尾实体的相同信息。在图4示例中，则指“康熙”的性别和职业与“乾隆”相同，都是“男性”和“皇帝”。在特征矩阵中，表现为“COMPARISON：-性别-：男：男”和“COMPARISION：-职业：皇帝：皇帝”。

(5)关系泛化特征提取器

与“路径二元特征”类似，“关系泛化特征”的提取也在“类PRA特征的基础上展开”。该特征提取器在图4示例中提取的特征是：“ANYREL：-@ANYREL@-父子-”和“ANYREL：-父子-@ANYREL@-”。经泛化之后，对应的路径特征就可以提取更多信息，从而提高模型的最终召回率。这里依旧以图4为例进行说明。假设知识图谱中不存在“雍正”这一实体，相反，存在雍正的兄弟“允提”、“康熙”和“允提”之间的“父子”关系以及“允提”和“乾隆”之间的“叔侄”关系，即“康熙”和“乾隆”之间的路径为“-父子-叔侄-”。“类PRA特征”无法推断出“康熙”和“乾隆”之间的“祖孙”关系，但根据关系泛化特征，“-父子-叔侄-”属于“-父子-@ANYREL@-”的一种，因此，也就可以通过该特征推断出“康乾”二人的祖孙关系。

实施例：

单特征提取器的修订及其评测：对单特征提取器进行评测不仅有助于论证融合后的特征提取器具有更高稳定性，也有助于充分了解每个特征提取器的性能。因此，首先需要对单特征提取器的性能进行评测。具体评测结果如表1所示。

表1单特征提取器评测结果

本发明对SFE的单侧特征提取器进行了修订。原来的单侧特征提取器提取的特征是头尾实体两个局部子图的并集，并由此筛选路径特征，但易出现过拟合现象。因此，本发明的单侧特征提取器在两个局部子图中二选一，从而在信息输入和过拟合之间达到平衡。根据表1可得，单侧特征提取器的MAP值在修正之后从0.3000提高到0.4433，即提高了47.76％。而双侧对比特征提取器的MAP值最低，仅有0.0204，远低于其他特征提取器的MAP值。这不仅说明了该NELL数据集中的相关信息较少，也说明了该指标描述知识图谱拓扑结构的角度与其他几种不同。但是关系泛化特征提取器却可以达到0.5394，高于SFE的0.5253。

强适应性模型：这里的强适应性是指，模型不一定在所有数据集上都取得最优效果，但与其他模型相比，其能够在绝大多数数据集上取得相对较好的结果。从另一个方面来看，强适应性模型的根本思想就是通过将特征进行融合，来实现特征之间的互补。即随着特征提取器数目的增多，具有不同特征提取器组合的模型之间的差异会越来越小。这里按照特征提取器数目进行分组实验，每组实验都会得到多个实验结果，将通过衡量这些结果的波动程度来论证上述方法的正确性，从而在侧面验证模型的合理性。衡量数据波动程度最常见的两种指标是方差和极差。因此，下面将通过对比融合k(k＝1,2,3,4)个特征提取器时，MAP值的标准差和极差等指标来证明上述观点。

单特征提取器、双特征提取器、三特征提取器和四特征提取器知识库补全模型对应的MAP值如表1-表4所示。

表2双特征提取器评测结果

表3三特征提取器评测结果

表4四特征提取器评测结果

综合表1-表4的实验结果，考虑到数据集的波动程度与数据量有关，本发明按照表中的实验结果个数将上述四组实验分两大组实验进行对比分析，即对比单特征提取器和四特征提取器的实验结果；以及双特征提取器和三特征提取器的实验结果。两大组的实验对比结果分别见表5和表6。

表5单特征提取器和四特征提取器的对比实验结果

对比项	单特征提取器	四特征提取器
			标准差	0.2061	0.0170
平均数	0.3813	0.4889
			中位数	0.4433	0.4934
最大值	0.5394	0.5045
			最小值	0.0204	0.4598
极差	0.5190	0.0447

表6双特征提取器和三特征提取器的对比实验结果

对比项	双特征提取器	三特征提取器
			标准差	0.0411	0.0292
平均数	0.4739	0.4827
			中位数	0.4820	0.4921
最大值	0.5253	0.5154
			最小值	0.4045	0.4231
极差	0.1208	0.0941

根据表5和表6，单特征提取器的标准差约为四特征提取器模型标准差的20倍，而且四特征提取器的平均数也比单特征提取器大0.1左右，中位数比单特征提取器高约0.05，二者的极差也相差0.47左右。同样，双特征提取器的标准差大约是三特征提取器的2倍，平均数也比三特征提取器低约0.01。由于双特征提取器和三特征提取器的特征提取器个数仅差1，所以，二者之间的差距要小于单特征提取器和四特征提取器之间的差距。

综上，随着特征提取器的增多，模型的稳定性会越来越高。基于知识图谱拓扑结构的知识库补全模型之所以十分依赖数据分布情况，是因为模型对应的特征提取器与数据分布情况的拟合程度很不稳定。因此，本发明通过增加特征提取器的个数可以有效提高模型稳定性，有助于提高模型对数据集的适应性，即降低模型对特定数据集的高度依赖，能提高模型和数据之间的拟合程度，最终满足需求。

上述各实施例仅用于说明本发明，各个步骤都是可以有所变化的，在本发明技术方案的基础上，凡根据本发明原理对个别步骤进行的改进和等同变换，均不应排除在本发明的保护范围之外。

Claims

1.一种强适应性的知识库补全方法，其特征在于包括以下步骤：

2)设置路径特征提取器，该路径特征提取器包括类PRA特征提取器、路径二元特征提取器、修正后的单侧特征提取器、双侧对比特征提取器和关系泛化特征提取器；所有路径特征提取器的提取过程都相同，均包括路径特征提取和路径特征选择，输入为局部子图，输出为路径特征；

3)根据特征提取器构建特征矩阵；

2.如权利要求1所述的一种强适应性的知识库补全方法，其特征在于：所述步骤1)中，局部子图是指通过宽度优先遍历的方法搜索结点e在s步范围内的所有结点；最后得到以对应结点为中心的遍历结果，即局部子图G_e。

3.如权利要求1所述的一种强适应性的知识库补全方法，其特征在于：所述步骤2)中，路径特征提取过程为：

按照宽度优先方式进行路径特征提取：假设存在头实体s_i的局部子图和尾实体t_i的局部子图以及中间结点e_i；如果则提取的路径特征为如果e_i＝t_i，则抽取的路径特征为如果e_i＝s_i，则抽取的路径特征为

4.如权利要求3所述的一种强适应性的知识库补全方法，其特征在于：如果遍历遇到了高出度结点，就停止遍历；高出度结点是出度高于预先设定出度阈值的结点。

5.如权利要求3或4所述的一种强适应性的知识库补全方法，其特征在于：遍历过程中以关系标签为单位进行类分层抽样的宽度优先遍历。

6.如权利要求1所述的一种强适应性的知识库补全方法，其特征在于：所述步骤2)中，路径特征选择是依据出现频率对路径特征进行选择。

7.如权利要求1所述的一种强适应性的知识库补全方法，其特征在于：所述步骤3)中，特征矩阵构建过程为：

3.1)将不同特征提取器提取的路径特征取并集，作为特征矩阵的列；

3.2)同时，将实体对作为特征矩阵的行；

3.3)求出特征矩阵中的每个单元的概率值，即P(t_i|s_i,π)，该概率值表示从头实体s_i出发经过路径特征π到达尾实体t_i的概率。

8.如权利要求7所述的一种强适应性的知识库补全方法，其特征在于：所述步骤3.3)中，概率值的计算过程是采用从头实体s_i出发的随机游走遍历，如果概率值大于0，则特征矩阵中的值为1；否则为0。

9.如权利要求1所述的一种强适应性的知识库补全方法，其特征在于：所述步骤4)中，分类模型选取逻辑回归模型或支持向量机模型。