CN110275959A

CN110275959A - 一种面向大规模知识库的快速学习方法

Info

Publication number: CN110275959A
Application number: CN201910431538.0A
Authority: CN
Inventors: 程良伦; 陈柯棠; 张凡龙
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-05-22
Filing date: 2019-05-22
Publication date: 2019-09-24
Anticipated expiration: 2039-05-22
Also published as: CN110275959B

Abstract

本发明涉及一种面向大规模知识库的快速学习方法，所述方法包括以下步骤：S1：知识提取：从异源异构的数据中进行知识数据的提取，知识数据为事实三元组，包括：实体和关系；S2：知识表示：构建TransH模型，利用TransH模型，把知识数据中的所有实体和关系嵌入到低维向量空间中，从而实现知识数据的知识表示；S3：知识融合：通过RLCD模型对经S2知识表示之后的知识数据进行融合，并将融合后的知识数据存入知识图谱；S4：知识推理：从知识图谱中提取S3融合后的知识数据进行推理，并将推理后的知识数据存入知识图谱；获得更新的知识和结论；本发明可实现知识库的快速学习。

Description

一种面向大规模知识库的快速学习方法

技术领域

本发明涉及人工智能领域，更具体地，涉及一种面向大规模知识库的快速学习方法。

背景技术

如何从无结构型或半结构型的互联网信息中获取大规模结构型的知识，有机融合构建知识库，对知识库的推广和应用有着十分重要的意义；在构建知识库的过程中，知识表示学习是知识获取与应用的基础，因此，知识表示学习在知识库构建中扮演者重要的角色。

目前知识图谱主要使用(entity1,relation,entity2)的三元组形式来表示知识，这种方法可以较好的表示大规模的事实性知识；然而，人类的知识类型复杂多样，当面对大量的复杂知识时，比如人们的购物记录信息，新闻事件等，它们往往包含着大量实体和实体之间的复杂关系，三元组就束手无策了；为此，很多研究人员针对不同场景设计不同的知识表示方法。

知识表示是知识图谱构建与应用的基础，如何合理设计表示方案，更好地涵盖人类不同类型的知识，是知识图谱的重要研究问题；目前已经提出各种知识获取方法，并已经成功抽取大量有用的知识；但是在抽取知识的准确率、覆盖率和效率等方面，都仍不尽人意，因而仍有极大的提升空间；而且，来自不同数据的抽取知识可能存在大量噪音和冗余，或者使用了不同的语言；如何将这些知识有机融合起来，建立更大规模的知识库，是实现大数据智能的必由之路。

表示学习旨在将研究对象的语义信息表示为稠密低维实值向量；在该低维向量空间中，2个对象距离越近则说明其语义相似度越高；通常将研究对象表示为向量：实体e表示为L_e；关系r表示为L_r；通过欧氏距离或余弦距离等方式计算任意2个对象之间的语义相似度。

知识表示学习是面向知识库中实体和关系的表示学习；通过将实体或关系投影到低维向量空间，我们能够实现对实体和关系的语义信息的表示，进而能高效地计算实体、关系及其之间的复杂语义关联。这对知识库的构建、推理与应用均有重要意义。

知识表示学习实现了对实体和关系的分布式表示，它具有以下主要优点：

1.显著提升计算效率。知识库的三元组表示实际就是基于独热表示的。如前所分析的，在这种表示方式下，需要设计专门的图算法计算实体间的语义和推理关系，计算复杂度高、可扩展性差。而表示学习得到的分布式表示，则能够高效地实现语义相似度计算等操作，显著提升计算效率。

2.有效缓解数据稀疏。由于表示学习将对象投影到统一的低维空间中，使每个对象均对应一个稠密向量，从而有效缓解数据稀疏问题，这主要在2个方面体现。一方面，每个对象的向量均为稠密有值的，因此可以度量任意对象之间的语义相似程度。而基于独热表示的图算法，由于受到大规模知识图谱稀疏特性的影响，往往无法有效计算很多对象之间的语义相似度。另一方面，将大量对象投影到统一空间的过程，也能够将高频对象的语义信息用于帮助低频对象的语义表示，提高低频对象的语义表示的精确性。

3.实现异质信息融合。不同来源的异质信息需要融合为整体，才能得到有效应用。例如，人们构造了大量知识库，这些知识库的构建规范和信息来源均有不同，例如著名的世界知识库有DBPedia，YAGO，Freebase等。大量实体和关系在不同知识库中的名称不同。如何实现多知识库的有机融合，对知识库应用具有重要意义。如果基于网络表示，该任务只能通过设计专门图算法来实现，效果较差，效率低下。而通过设计合理的表示学习模型，将不同来源的对象投影到同一个语义空间中，就能够建立统一的表示空间，实现多知识库的信息融合。此外，当进行信息检索或自然语言处理中应用知识库时，往往需要计算查询词、句子、文档和知识库实体之间的复杂语义关联。由于这些对象的异质性，计算它们的语义关联往往是棘手问题。而表示学习亦能为异质对象提供统一表示空问，从而实现异质对象之间的语义关联计算。

大规模知识库的构建过程中，往往会有大量的实体和关系需要从原始数据(可以是结构化的也可以是非结构化的)中被抽取出来，并以图的方式进行结构化存储，而我们依赖的原始数据往往存在于多源异构的环境中，因而海量的知识抽取和融合在所难免，这无疑对知识库的快速学习带来了很大的困难。

发明内容

本发明为克服上述现有技术所述的知识库的快速学习比较困难的缺陷，提供一种面向大规模知识库的快速学习方法。

所述方法包括以下步骤：

S1：知识提取：从异源异构的数据中进行知识数据的提取，知识数据为事实三元组，包括：实体和关系；

S2：知识表示：构建TransH模型，利用TransH模型，把知识数据中的所有实体和关系嵌入到低维向量空间中，从而实现知识数据的知识表示。

S3：知识融合：通过RLCD模型对经S2知识表示之后的知识数据进行融合，并将融合后的知识数据存入知识图谱；

S4：知识推理：从知识图谱中提取S3融合后的知识数据进行推理，并将推理后的知识数据存入知识图谱；获得更新的知识和结论。

优选地，S1中异源异构的数据包括：结构化数据、半结构化数据、非结构化数据。

优选地，S2中TransH模型的构建包括以下步骤：

S2.1一个正确的三元组(h,r,t)满足h+r＝t，即头实体向量加上关系向量等于尾实体向量。假设三元组的实体和关系都在一个向量空间中；对每一个关系定义一个超平面W_r，和一个关系向量d_r；h_⊥和t_⊥为h和t在W_r上的投影，三元组应满足h_⊥+d_r＝t_⊥。如果一个实体h"满足(h",r,t)∈Δ,其中Δ表示正确的三元组集合，则h和h"在W_r上的投影相同时，h"和h即可区分开来；

S2.2：在定义(h+r)和t的距离为：

一般情况下，取L1或者L2范式，对一个正确的三元组(h,r,t)来说，其距离d(h+r,t)越小越好，相反对于一个错误的三元组(h′,r,t′)来说，d(h′+r,t′)越大越好。

S2.3：对于平面W_r可以用法向量来表示，设w_r为平面W_r的法向量，并加约束条件求h在w_r上的投影为：

h_wr＝w_Trhw_r

因为w_Trh＝|w_r||h|cosθ表示h在w_r方向上投影的长度(带正负号)，w_Trh乘以w_r即为h在w_r上的投影，所以：

h_⊥＝h-h_wr＝h-w_Trhw_r

同样可得到：

t_⊥＝t-t_wr＝t-w_Trtw_r

S2.4：构建TransH模型：

优选地，TransH模型的目标函数为：

优选地，TransH模型的损失函数定义为:

其中，γ表示正负样本之间的间距，是一个常数；[x]₊表示max(0,x)。

优选地，S3包括以下步骤：

S3.1：使用TransH模型对事实三元组进行训练；

S3.2：使用Doc2Vec编码器对实体描述进行训练；

S3.3：RLCD模型将实体的事实三元组和文本描述连接起来，从而输出嵌入包含文本实体描述和文本三元组的完整语义信息，进而能完成知识的融合；

S3.4：然后将融合完毕后的知识数据存入到知识图谱中。

优选地，S3.2包括以下步骤：

S3.2.1：首先在以c表示的中心词的上下文词中，随机生成N维的段落向量x^paragraph-id和N维独热码向量x^c-m,…,c+m，其中上下文的窗口大小为m；m值越大，说明文档向量中包含的围绕中心词的上下文相关性越大。窗口大小m的选择反映了与中心词和这些中心词的上下文词同时出现的概率。

S3.3.2：将向量x^paragraph-id和独热码向量x^c-m,…,c+m的维数从N维向量x^c ^{-m,…,c+m,paragraph-id}减少到n维并嵌入v_{c-m,…,c+m,paragraph-id}，嵌入公式为：

v_c-m＝x^(c-m)V,v_c-m+1＝x^(c-m+1)V,…,v_c+m＝x^(c+m)V,v_paragraph-id＝x^paragraph-idV

其中，V是一个N行n列的权重矩阵，v_c-m为N维独热码向量x^c-m降维后得到n维稠密向量，x^(c-m)为一个上下文词向量；

S3.2.4：通过计算上下文词向量和段落嵌入的平均值来计算中心词向量的值：

S3.2.5：将权重矩阵U与中心词向量得到z，即从而将中心词向量维数由n变回N，其中U表示n行N列的权重矩阵。。

S3.2.6：利用softmax函数将z转换为概率:将一个独热码的中心向量乘以最大化匹配概率

这类似于最小化-使用梯度下降法(SGD)最小化损失函数值- 来更新段落向量，其中y表示分布概率。

优选地，S3.3包括以下步骤：

S3.3.1：定义能量函数E为：

E＝E_triples+E_doc

其中，符号h和t分别表示头实体和尾实体。h_triples和t_triples是来自事实三元组的实体的嵌入，r_triples为头实体和尾实体的关系向量。

E_triples为事实三元组的能量函数，E_doc是基于描述的三元组的能量函数。

S3.3.2：定义一个联合向量v_J：

v_J＝e_triples+θ.e_doc

其中θ为两个模型组合的权重参数，e_triples表示事实三元组的实体向量，事实三元组由TransH模型得到，e_doc表示实体描述中的实体向量，事实三元组由Doc2Vec编码器得到。

RLCD模型采取Xavier方法进行初始化，它是一种很有效的神经网络初始化方法，能使每一层输出的方差应该尽量相等，从而保证数据不仅是独立的，而且具有相同的数据分布。训练集包含实体描述和事实三元组。

S3.3.3：训练集为(h_triples,r_triples,t_triples,h_doc,t_doc)，其中，h_triples和t_triples是来自事实三元组的实体的嵌入，r_triples为头实体和尾实体的关系向量；h_doc和t_doc是实体描述生成的语义向量；使用Xavier初始化方法对实体向量和关系向量进行初始化，使用负采样法构造训练样本，使用随机梯度下降(小批量)方法；在串行训练中，计算每个损失函数L：

对L的所有参数偏导，然后朝L值递减的方向更新实体向量和关系向量，其中γ表示正负样本之间的间距，为边界参数，是一个常数；d(h+r,t)是(h+r)和t的不相似函数，即L1范式。S是正确的三元组集合，S’包括正确的三元组和由该策略构造的不正确的三元组：如果正确的实体匹配头实体的数量多于剩下的实体匹配尾实体的数量，那么首先通过将这些三元组的尾部实体替换为知识图谱中的错误实体来训练剩下的实体的三元组；h'代表错误的头部实体，t'代表错误的尾部实体。

S3.3.4：经知识表示后的知识数据完成实体和关系的向量化，RLCD模型使用Doc2Vec编码器从知识数据的实体描述中获取实体向量，Doc2Vec编码器得到的实体向量就包含了事实三元组和实体描述的完整语义信息，有机地将实体描述的完整语义信息与事实三元组集合集成在一起，进而能完成知识的融合；然后将融合完毕后的知识数据存入到知识图谱中。

优选地，S4的具体操作为：对完成融合的知识数据进行推理，利用一阶查询重写的方法获取知识数据中新的知识或结论，然后重复知识融合的过程，进而完成对知识图谱的更新。

优选地，一阶查询重写是一种能高效地结合不同数据格式的数据源和关联不同查询语言的方法，一阶查询重写包括以下步骤：

S4.1.1：重写为Datalog查询。

S4.1.2：将数据库关系表达式映射成Datalog原子。

S4.1.3：将从SPARQL以及数据库重写过来的Datalog规则整合进行查询。

与现有技术相比，本发明技术方案的有益效果是：本发明合理地设计了一种包含复杂关系的建模和多源信息融合的方法，它能有效地涵盖人类不同类型的知识，实现异质信息的融合，是一种能面向大规模知识库的快速学习方法，可实现知识库的快速学习。

附图说明

图1为本发明所述面向大规模知识库的快速学习方法的流程图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

本实施例提供一种面向大规模知识库的快速学习方法，如图1所示，所述方法包括以下步骤：

S1：知识提取：从异源异构的数据中进行知识数据的提取，知识数据包括：实体和关系；

S2：知识表示：构建TransH模型，利用TransH模型对S1提取的知识数据实体之间的关系进行知识表示；

TransH模型的构建过程：

S2.1：TransH模型的构建过程如下：假设三元组的实体和关系都在一个向量空间中。对每一个关系定义一个超平面W_r，和一个关系向量d_r。h_⊥和t_⊥分别是h和t在W_r上的投影，一个正确的三元组应满足h_⊥+d_r＝t_⊥。如果一个实体h"满足(h",r,t)∈Δ,其中Δ表示正确的三元组集合，只需h和h"在W_r上的投影相同，就能将h"和h区分开来。

在transE模型中定义了(h+r)和t的距离为：

一般情况下，取L1者L2范式，对一个正确的三元组(h,r,t)来说，其距离d(h+r,t)越小越好,相反对于一个错误的三元组(h′,r,t′)来说，d(h′+r,t′)越大越好。

对于平面W_r可以用法向量来表示，不妨假设w_r为平面Wr的法向量，并加约束条件所以h在w_r上的投影为

h_wr＝w_Trhw_r

因为w_Trh＝|w_r||h|cosθ示h在w_r方向上投影的长度(带正负号)，w_Trh乘以w_r即为h在w_r上的投影，所以：

h_⊥＝h-h_wr＝h-w_Trhw_r

同样可得到：

t_⊥＝t-t_wr＝t-w_Trtw_r

所以：

因而目标函数为：

损失函数定义为：

S2.2：在提取的知识数据中，同一个实体在不同关系中的意义可能不相同，同时不同实体在同一关系中的意义也可能相同。利用TransH模型，把知识数据中的所有实体和关系嵌入到低维向量空间中，从而实现知识数据的知识表示。

S3.1：Doc2Vec编码器的训练原理：首先在以c表示的中心词的上下文词中，随机生成N维的段落向量x^paragraph-id和N维独热码向量x^c-m,…,^c+m，其中上下文的窗口大小为m；m值越大，说明文档向量中包含的围绕中心词的上下文相关性越大。窗口大小m的选择反映了与中心词和这些中心词的上下文词同时出现的概率；然后，将这些向量的维数从N维向量x^c ^{-m,…,c+m,paragraph-id}减少到n维嵌入v_{c-m,…,c+m,paragraph-id}，方法是将权重矩阵V相乘，如下式所示。V是一个N行n列的权重矩阵，其中n比N小得多：

通过计算上下文词向量和段落嵌入的平均值来计算中心词向量的值：

接着，将权重矩阵U与中心词向量得到z，即从而将中心词向量维数由n变回N，其中U表示n行N列的权重矩阵。利用softmax函数将z转换为概率:用一个独热码的中心向量乘以最大化匹配概率

这类似于最小化-使用梯度下降法(SGD)最小化损失函数值- 来更新段落向量，y表示分布概率。

S3.2：RLCD模型能把实体的事实三元组和文本描述连接起来，从而输出嵌入包含文本实体描述和文本三元组的完整语义信息，

RLCD模型的构建过程如下：使用TransH模型对事实三元组进行训练，以及使用Doc2Vec编码器对实体描述进行训练，符号h和t分别表示头实体和尾实体。h_triples和t_triples是来自事实三元组的实体的嵌入，r_triples为头实体和尾实体的关系向量；定义能量函数E为：

E＝E_triples+E_doc

其中E_triples为事实三元组的能量函数，它等于E_doc是基于描述的三元组的能量函数。RLCD模型中定义了一个联合向量v_J：

v_J＝e_triples+θ.e_doc

训练集为(h_triples,r_triples,t_triples,h_doc,t_doc)，其中，h_triples和t_triples是来自事实三元组的实体的嵌入，r_triples为头实体和尾实体的关系向量；h_doc和t_doc是实体描述生成的语义向量；RLCD模型采取Xavier方法进行初始化，它是一种很有效的神经网络初始化方法，能使每一层输出的方差应该尽量相等，从而保证数据不仅是独立的，而且具有相同的数据分布。训练集包含实体描述和事实三元组。首先使用Xavier初始化方法对实体向量和关系向量进行初始化。然后使用负采样法构造训练样本，使用随机梯度下降(小批量)方法。在串行训练中，计算每个损失函数L：

对L的所有参数偏导，然后朝L值递减的方向更新实体向量和关系向量，其中γ表示正负样本之间的间距，为边界参数，是一个常数；d(h+r,t)是(h+r)和t的不相似函数，即L1范式；S是正确的三元组集合，S’包括正确的三元组和由该策略构造的不正确的三元组：如果正确的实体匹配头实体的数量多于剩下的实体匹配尾实体的数量，那么首先通过将这些三元组的尾部实体替换为知识图谱中的错误实体来训练剩下的实体的三元组；h'代表错误的头部实体，t'代表错误的尾部实体。

S3.3：经知识表示后的知识数据完成了实体和关系的向量化，RLCD模型使用Doc2Vec编码器从知识数据的实体描述中获取实体向量，这样Doc2Vec编码器得到的实体向量就包含了事实三元组和实体描述的完整语义信息，有机地将实体描述的完整语义信息与事实三元组集合集成在一起，进而能完成知识的融合。然后将融合完毕后的知识数据存入到知识图谱中。

S4.1：一阶查询重写是一种能高效地结合不同数据格式的数据源和关联不同查询语言的方法，查询重写步骤如下：

S4.1.1：重写为Datalog查询。

S4.1.2：将数据库关系表达式映射成Datalog原子。

S4.2：对下一次完成融合的知识数据进行推理，利用一阶查询重写的方法获取知识数据中新的知识或结论，然后重复知识融合的过程，进而完成对知识图谱的更新。

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种面向大规模知识库的快速学习方法，其特征在于，所述方法包括以下步骤：

S2：知识表示：构建TransH模型，利用TransH模型，把知识数据中的所有实体和关系嵌入到低维向量空间中，从而实现知识数据的知识表示；

2.根据权利要求1所述的面向大规模知识库的快速学习方法，其特征在于，S1中异源异构的数据包括：结构化数据、半结构化数据、非结构化数据。

3.根据权利要求1所述的面向大规模知识库的快速学习方法，其特征在于，S2中TransH模型的构建包括以下步骤：

一个正确的三元组(h,r,t)满足h+r＝t，即头实体向量加上关系向量等于尾实体向量，其中h为头实体，r为关系，t为尾实体；

S2.1：假设三元组的实体和关系都在一个向量空间中；对每一个关系定义一个超平面W_r，和一个关系向量d_r；h_⊥和t_⊥为h和t在W_r上的投影，三元组满足h_⊥+d_r＝t_⊥；

S2.2：定义(h+r)和t的距离为：

h_wr＝w_Trhw_r

又因为w_Trh＝|w_r||h|cosθ表示h在w_r方向上投影的长度，

w_Trh乘以w_r即为h在w_r上的投影，所以：

h_⊥＝h-h_wr＝h-w_Trhw_r

同样可得到：

t_⊥＝t-t_wr＝t-w_Trtw_r

S2.4：构建TransH模型：

4.根据权利要求3所述的面向大规模知识库的快速学习方法，其特征在于，TransH模型的目标函数为：

5.根据权利要求3所述的面向大规模知识库的快速学习方法，其特征在于，TransH模型的损失函数定义为:

6.根据权利要求1所述的面向大规模知识库的快速学习方法，其特征在于，S3包括以下步骤：

S3.1：使用TransH模型对事实三元组进行训练；

S3.2：使用Doc2Vec编码器对实体描述进行训练；

S3.4：然后将融合完毕后的知识数据存入到知识图谱中。

7.根据权利要求6所述的面向大规模知识库的快速学习方法，其特征在于，S3.2包括以下步骤：

S3.2.1：首先在以c表示的中心词的上下文词中，随机生成N维的段落向量x^paragraph-id和N维独热编码向量x^c-m,…,c+m，其中上下文的窗口大小为m；S3.3.2：将向量x^paragraph-id和独热编码向量x^c-m,…,c+m的维数从N维向量x^{c-m,…,c+m,paragraph-id}减少到n维并嵌入v_{c-m,…,c+m,paragraph-id}中，嵌入公式为：

S3.2.5：将n行N列的权重矩阵U与中心词向量相乘得到z，即从而将中心词向量维数由n变回N；

S3.2.6：利用softmax函数将z转换为概率：将一个独热码的中心向量乘以最大化匹配概率

其中y表示分布概率。

8.根据权利要求6所述的面向大规模知识库的快速学习方法，其特征在于，S3.3包括以下步骤：

S3.3.1：定义能量函数E为：

E＝E_triples+E_doc

其中，符号h和t分别表示头实体和尾实体；h_triples和t_triples是来自事实三元组的实体的嵌入，r_triples为头实体和尾实体的关系向量；E_triples为事实三元组的能量函数，E_doc是基于描述的三元组的能量函数；

S3.3.2：定义一个联合向量v_J：

v_J＝e_triples+θ.e_doc

其中θ为两个模型组合的权重参数，e_triples表示事实三元组的实体向量，事实三元组由TransH模型得到，e_doc表示实体描述中的实体向量，事实三元组由Doc2Vec编码器得到；

S3.3.3：训练集为(h_triples,r_triples,t_triples,h_doc,t_doc)，其中，h_triples和t_triples是来自事实三元组的实体的嵌入，r_triples为头实体和尾实体的关系向量；h_doc和t_doc是实体描述生成的语义向量；使用Xavier初始化方法对实体向量和关系向量进行初始化，使用负采样法构造训练样本，使用随机梯度下降方法；在串行训练中，计算每个损失函数L：

对L的所有参数偏导，然后朝L值递减的方向更新实体向量和关系向量，

其中，γ表示正负样本之间的间距，为边界参数，是一个常数；d(h+r,t)是(h+r)和t的不相似函数，即L1范式；S是正确的三元组集合，S’包括正确的三元组和由该策略构造的不正确的三元组；

9.根据权利要求1-8任一项所述的面向大规模知识库的快速学习方法，其特征在于，S4的具体操作为：对完成融合的知识数据进行推理，利用一阶查询重写的方法获取知识数据中新的知识或结论，然后重复知识融合的过程，进而完成对知识图谱的更新。

10.根据权利要求9所述的面向大规模知识库的快速学习方法，其特征在于，一阶查询重写是一种能高效地结合不同数据格式的数据源和关联不同查询语言的方法，一阶查询重写包括以下步骤：

S4.1.1：重写为Datalog查询；

S4.1.2：将数据库关系表达式映射成Datalog原子；