CN111209410B

CN111209410B - 一种基于锚点的动态知识图谱表示学习方法及系统

Info

Publication number: CN111209410B
Application number: CN201911380039.XA
Authority: CN
Inventors: 赵东阳; 董理君; 李旦; 孙晨鹏; 陈仁谣
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2023-04-18
Anticipated expiration: 2039-12-27
Also published as: CN111209410A

Abstract

本发明提供一种基于锚点的动态知识图谱表示学习方法及系统，首先找到已有知识图谱中对全局信息起支撑作用的关键实体，利用这些实体的向量构建基坐标系统；其次，将新增知识与已有知识图谱进行语义对齐，包括实体对齐、关系融合；最后，在基坐标系统下进行表征学习，只需联合新增知识与已有知识图谱的相关局部知识进行训练，将新知识实体摆放在知识空间中合适的位置，实现动态知识图谱的自适应增长。本发明的有益效果：将实体及关系的文本信息作为语义基础，提供了知识融合的信息基础，使得实体对齐和关系融合更加全面充分；利用word2vec向量生成模型，将实体及关系的文本信息转化为向量形式，从而用于数学运算。

Description

一种基于锚点的动态知识图谱表示学习方法及系统

技术领域

本发明涉及动态知识图谱表示学习领域，尤其涉及一种基于锚点的动态知识图谱表示学习方法及系统。

背景技术

知识图谱常以网络形式表示，其中，节点表示实体，边表示两个实体之间的关系，每一条知识可用三元组<头实体，关系，尾实体>的形式表示，知识图谱是NLP技术在智能问答、web搜索和语义分析等任务中的重要组成部分。知识图谱往往规模巨大，包含数以百计的实体和数十亿的知识，但通常还不够完整，所以用知识图谱补全来解决知识图谱中的数据稀疏问题。基于三元组这样的符号表示方法，在知识图谱补全中设计者必须为不同应用设计各种图算法。随着知识图谱规模的不断增加，扩展性变差，计算复杂度越来越高。另一方面，基于图表示的知识图谱在应用中面临数据稀疏等问题，且不利于机器学习。

为解决上述问题，知识图谱表示学习(也被称为知识图谱的嵌入式学习)被提了出来，知识图谱的表示学习旨在将知识图谱的实体和关系表示为稠密低维实值向量，进而在低维向量中高效计算实体、关系及其之间的复杂关联，在知识图谱的构建、推理、融合、挖掘以及以及应用中具有重要作用。

现有的知识图谱表示学习方法，比如TransE、TransR等经典模型，将关系作为从头实体向量到尾实体向量的转换，这些方法在知识图谱表示学习中占据重要的地位，但只适用于静态知识图谱。然而，随着信息技术的发展，现实世界的新知识在不断地增长，当知识图谱中加入新的外部知识时，需要将新知识融入到已有知识图谱中。当引入新增知识时，这些方法必需先将所有的知识整合到一起重新训练，效率较低，尤其在现实世界中，已有的图谱数据巨大，若每次新增知识都对其进行重新学习，十分费时费力。

发明内容

有鉴于此，本发明提供了一种利用锚点作为基坐标系统来支撑知识图谱动态扩展的方法，首先找到知识图谱中对全局信息起支撑作用的关键实体，这些实体构成知识空间的基向量，其他所有知识都由这组基向量决定；其次，将新增知识与已有知识图谱进行语义对齐，包括实体对齐、关系融合；最后，基于渐进式学习的基坐标系统进行表征学习，只需联合新增知识与已有知识图谱的相关局部知识进行训练，将新知识实体摆放在知识空间中合适的位置，实现了动态知识图谱的自适应增长。

本发明提供一种基于锚点的动态知识图谱表示学习方法，包括以下步骤：

S1、构建基坐标系统：利用复杂网络分析方法，找出已有知识图谱中对全局信息起支撑作用的关键知识实体作为锚点；并将已有知识图谱中所有三元组信息视为静态数据集，对所述静态数据集进行表征学习，得到所有三元组的向量表示，其中，将所述锚点的向量作为基向量，从而构建基坐标系统；

S2、实体对齐：获取已有知识图谱和新增知识中的实体的文本描述信息以及同义词信息，并将所述文本描述信息以及同义词信息转化为向量，根据转化得到的向量，计算已有知识图谱中的实体与新增知识中的实体之间的相似度，进一步得到对齐的实体对数据集；

S3、关系融合：获取已有知识图谱和新增知识中的关系的词典释义信息，并将所述词典释义信息转化为向量，根据转化得到的向量，计算已有知识图谱中的关系与新增知识中的关系的相似度，进一步得到对齐的关系对数据集；

S4、新增知识表示学习：根据对齐的实体对数据集以及关系对数据集，直接将已有知识图谱中的实体向量以及关系向量替换成新增知识中对齐的实体向量以及关系向量；对于新增知识中未对齐的部分，基于步骤S1中构建的基坐标系统，利用所述未对齐的实体向量以及关系向量对已有知识图谱进行训练，得到新的知识图谱。

进一步地，所述步骤S1中，采用引入最小覆盖算法的贪婪算法寻找已有知识图谱中的锚点，具体过程为：首先计算知识图谱中所有节点的度，将度最大的一组节点标记为锚节点，并将所述锚节点的邻居节点标记为已覆盖，所述邻居节点表示与锚节点直接相连的节点；然后计算剩余未标记的所有节点的度，再次将度最大的一组节点标记为锚节点，并将锚节点的邻居节点标记为已覆盖；重复上述过程，直到所有节点均被标记为已覆盖或锚节点，所述标记为锚节点的所有节点即为寻找得到的锚点。

进一步地，所述步骤S2的具体过程为：

S21、利用Python爬虫技术，爬取已有知识图谱和新增知识中每个实体对应Wikipedia中的文本描述信息，并利用WordNet数据集，获取每个实体对应的同义词信息；

S22、利用word2vec技术将每个实体对应的文本描述信息以及同义词信息转化为向量表示；

S23、实体对齐：计算已有图谱中所有实体和新增知识中所有实体两两之间的相似度S_(i,j)，其中，i表示已有知识图谱中的实体，j表示新增知识中的实体，当相似度S_(i,j)超过阈值α时，将(i,j)加入到对齐的实体对数据集D_e中。

进一步地，所述步骤S3的具体过程为：

S31、通过已建立的词典数据，查阅已有知识图谱和新增知识中每种关系对应的词典释义信息；

S32、利用word2vec技术将每种关系对应的词典释义信息转化为向量表示；

S33、计算已有图谱中所有关系和新增知识中所有关系两两之间的相似度S_(m,n)，其中，m表示已有知识图谱中的关系，n表示新增知识中的关系，当相似度S_(m,n)超过阈值β时，将(m,n)加入到对齐的关系对数据集D_r中。

进一步地，所述步骤S31中，对于由多个关系组成的复杂关系，分布查阅每个关系对应的词典释义信息，作为所述复杂关系的词典释义信息。

进一步地，所述步骤S4的训练过程中，保持所述基向量不变，对新增知识中未对齐的实体向量以及关系向量进行迭代更新。

本发明还提供一种基于锚点的动态知识图谱表示学习系统，包括基坐标系统选取模块、实体对齐模块、关系融合模块、动态知识图谱自适应增长模块，其中，所述基坐标系统选取模块用于选取已有知识图谱中对全局知识贡献最大的实体，并将所述实体作为锚点，所述锚点对应的向量作为基向量构建基坐标系统；所述实体对齐模块用于对齐新增知识与已有知识中指代现实世界中同一对象的实体，建立新增知识与已有知识间的联系纽带；所述关系融合模块用于融合新增知识与已有知识中指代现实世界中语义联系的关系，消除新增知识中的冗余关系；所述动态知识图谱自适应增长模块用于在基坐标系统下融合新增知识，实现知识图谱的动态增长。

进一步地，所述实体对齐模块还包括第一信息获取子模块、第一信息向量化子模块、以及第一相似度计算子模块，其中，所述第一信息获取子模块用于获取新增知识和已有知识图谱中的实体的文本描述信息以及同义词信息；所述第一信息向量化子模块用于对得到的实体的文本描述信息以及同义词信息进行向量化表示；所述第一相似度计算子模块用于挖掘新增知识与已有知识图谱中具有高度相似度的实体，并存储为对齐实体对。

进一步地，所述关系融合模块还包括第二信息获取子模块、第二信息向量化模块、以及第二相似度计算子模块，其中，所述第二信息获取子模块用于获取新增知识和已有知识图谱中的关系的词典释义信息；所述第二信息向量化子模块用于对得到的关系的词典释义信息进行向量化表示；所述第二相似度计算子模块用于挖掘新增知识与已有知识图谱中具有高度相似度的关系，并存储为对齐关系对。

进一步地，所述动态知识图谱自适应增长模块还包括对齐子模块以及训练子模块，其中，所述对齐子模块用于直接将已有知识图谱中的实体向量以及关系向量替换成新增知识中对齐的实体向量以及关系向量，所述训练子模块用于在基坐标系统的基础上，利用新增知识中未对齐的实体向量以及关系向量对已有知识图谱进行迭代更新。

本发明提供的技术方案带来的有益效果是：

(1)本发明将实体及关系的文本信息作为语义基础，提供了知识融合的信息基础，使得实体对齐和关系融合更加全面充分；

(2)本发明利用word2vec向量生成模型，将实体及关系的文本信息转化为向量形式，从而用于数学运算；

(3)本发明在文本信息形成的向量的基础上，将已有知识图谱与新增知识中的实体、关系分别进行对齐和融合，然后在基于锚点的坐标系统中只对原图谱中受到新增知识影响的部分图谱进行表示学习。

附图说明

图1是本发明实施例一提供的基于锚点的动态知识图谱表示学习方法的流程图；

图2是本发明实施例一提供的基于锚点的动态知识图谱表示学习系统的框架结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地描述。

实施例一

请参考图1，本实施例提供一种基于锚点的动态知识图谱表示学习方法，包括以下步骤：

S1、构建基坐标系统：利用复杂网络分析方法，找出已有知识图谱中对全局信息起支撑作用的关键知识实体作为锚点，并将所述锚点的向量作为基向量，从而构建基坐标系统。

具体地，利用复杂网络划分技术对知识图谱进行分析，采用引入最小点覆盖算法的贪婪算法寻找已有知识图谱中与其他节点信息交互较多且分布较分散的节点(即实体)作为锚点；所述引入最小点覆盖算法的贪婪算法适用于任何以网络形式呈现的数据，利用所述算法处理知识图谱的具体过程为：首先计算知识图谱中所有节点的度，然后将度最大的一组节点标记为锚节点，并将所述锚节点的邻居节点标记为已覆盖，所述邻居节点表示与锚节点直接相连的节点；然后计算剩余未标记的所有节点的度，再次将度最大的一组节点标记为锚节点，并将锚节点的邻居节点标记为已覆盖；重复上述过程，直到所有节点均被标记为已覆盖或锚节点，所述标记为锚节点的所有节点即为寻找得到的锚点。

将已有知识图谱中所有三元组信息视为静态数据集，进行表征学习，得到所有三元组的向量表示，其中，所述锚点的向量即为基向量，进而根据所述基向量量化表达知识空间的整体结构。

S2、实体对齐：获取已有知识图谱和新增知识中的实体的文本描述信息以及同义词信息，并将所述文本描述信息以及同义词信息转化为向量，根据转化得到的向量，计算已有知识图谱中的实体与新增知识中的实体之间的相似度，进一步得到对齐的实体对数据集。

具体地，所述步骤S2的过程为：

S22、利用word2vec、BERT等技术将每个实体对应的文本描述信息以及同义词信息转化为向量表示；

S3、关系融合：获取已有知识图谱和新增知识中的关系的词典释义信息，并将所述词典释义信息转化为向量，根据转化得到的向量，计算已有知识图谱中的关系与新增知识中的关系的相似度，进一步得到对齐的关系对数据集。

具体地，所述步骤S3的过程为：

S31、通过已建立的词典数据，查阅已有知识图谱和新增知识中每种关系对应的词典释义信息，对于复杂关系，比如“(武汉大学)主管部门(中华人民共和国)”中的“主管部门”由两个词组成，需将其拆开，分别查阅“主管”、“部门”对应的词典释义信息作为该复杂关系的词典释义信息；

S32、利用word2vec、BERT等技术将每种关系对应的词典释义信息转化为向量表示；

S4、新增知识表示学习：根据对齐的实体对数据集D_e以及关系对数据集D_r，直接将已有知识图谱中的实体向量以及关系向量替换成新增知识中对齐的实体向量以及关系向量；对于新增知识中未对齐的部分，基于步骤S1中构建的基坐标系统，利用所述未对齐的实体向量以及关系向量对已有知识图谱进行训练，得到新的知识图谱；所述训练过程中，保持所述基向量不变，对新增知识中的未对齐的实体向量以及关系向量进行迭代更新，最后得到动态自适应增长之后的知识图谱。

本实施例还提供一种基于锚点的动态知识图谱表示学习系统，包括基坐标系统选取模块1、实体对齐模块2、关系融合模块3、动态知识图谱自适应增长模块4，其中，基坐标系统选取模块1用于选取已有知识图谱中对全局知识贡献最大的实体，并将所述实体作为锚点，所述锚点对应的向量作为基向量构建基坐标系统；实体对齐模块2用于对齐新增知识与已有知识中指代现实世界中同一对象的实体，建立新增知识与已有知识间的联系纽带；关系融合模块3用于融合新增知识与已有知识中指代现实世界中语义联系的关系，消除新增知识中的冗余关系；动态知识图谱自适应增长模块4用于在基坐标系统下融合新增知识，实现知识图谱的动态增长。

实体对齐模块2还包括第一信息获取子模块21、第一信息向量化子模块22、以及第一相似度计算子模块23，其中，第一信息获取子模块21用于获取新增知识和已有知识图谱中的实体的文本描述信息以及同义词信息；第一信息向量化子模块22用于对得到的实体的文本描述信息以及同义词信息进行向量化表示；第一相似度计算子模块23用于挖掘新增知识与已有知识图谱中具有高度相似度的实体，并存储为对齐实体对。

关系融合模块3还包括第二信息获取子模块31、第二信息向量化模块32、以及第二相似度计算子模块33，其中，第二信息获取子模块31用于获取新增知识和已有知识图谱中的关系的词典释义信息；第二信息向量化子模块32用于对得到的关系的词典释义信息进行向量化表示；第二相似度计算子模块33用于挖掘新增知识与已有知识图谱中具有高度相似度的关系，并存储为对齐关系对。

动态知识图谱自适应增长模块4还包括对齐子模块41以及训练子模块42，其中，对齐子模块41用于直接在已有知识图谱中赋予新增知识中已对齐的实体向量和关系向量，训练子模块42用于在基坐标系统的基础上，对新增知识中未对齐的实体向量以及关系向量进行迭代更新。

实施例二

本实施例在锚点的选取时采用k-shell算法，其余过程与实施例一相同，所述k-shell算法的具体过程为：

(1)计算已有知识图谱中所有实体的度；

(2)取出所有度为1的实体，放入shell_1层中，继续计算已有知识图谱中剩余实体的度，取出所述度为1的实体，再次放入shell_1层中；重复上述过程，直到度为1的实体被取完；

(3)取出所有度为2的实体，放入shell_2层中，继续计算已有知识图谱中剩余实体的度，取出所述度为2的实体，再次放入shell_2层中；重复上述过程，直到度为2的实体被取完；

(4)计算剩余实体的度i，将其放入对应的shell_i层中，直到所有的实体都被存入对应的shell层中；

(5)最后一个shell层所包含的实体即为锚点。

在本文中，所涉及的前、后、上、下等方位词是以附图中零部件位于图中以及零部件相互之间的位置来定义的，只是为了表达技术方案的清楚及方便。应当理解，所述方位词的使用不应限制本申请请求保护的范围。

在不冲突的情况下，本文中上述实施例及实施例中的特征可以相互结合。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于锚点的动态知识图谱表示学习方法，其特征在于包括以下步骤：

2.根据权利要求1所述的基于锚点的动态知识图谱表示学习方法，其特征在于，所述步骤S1中，采用引入最小覆盖算法的贪婪算法寻找已有知识图谱中的锚点，具体过程为：首先计算知识图谱中所有节点的度，将度最大的一组节点标记为锚节点，并将所述锚节点的邻居节点标记为已覆盖，所述邻居节点表示与锚节点直接相连的节点；然后计算剩余未标记的所有节点的度，再次将度最大的一组节点标记为锚节点，并将锚节点的邻居节点标记为已覆盖；重复上述过程，直到所有节点均被标记为已覆盖或锚节点，所述标记为锚节点的所有节点即为寻找得到的锚点。

3.根据权利要求1所述的基于锚点的动态知识图谱表示学习方法，其特征在于，所述步骤S2的具体过程为：

4.根据权利要求1所述的基于锚点的动态知识图谱表示学习方法，其特征在于，所述步骤S3的具体过程为：

5.根据权利要求4所述的基于锚点的动态知识图谱表示学习方法，其特征在于，所述步骤S31中，对于由多个关系组成的复杂关系，分布查阅每个关系对应的词典释义信息，作为所述复杂关系的词典释义信息。

6.根据权利要求1所述的基于锚点的动态知识图谱表示学习方法，其特征在于，所述步骤S4的训练过程中，保持所述基向量不变，对新增知识中未对齐的实体向量以及关系向量进行迭代更新。

7.一种基于锚点的动态知识图谱表示学习系统，用于实现如权利要求1所述的基于锚点的动态知识图谱表示学习方法，其特征在于，包括基坐标系统选取模块、实体对齐模块、关系融合模块、动态知识图谱自适应增长模块，其中，所述基坐标系统选取模块用于选取已有知识图谱中对全局知识贡献最大的实体，并将所述实体作为锚点，所述锚点对应的向量作为基向量构建基坐标系统；所述实体对齐模块用于对齐新增知识与已有知识中指代现实世界中同一对象的实体，建立新增知识与已有知识间的联系纽带；所述关系融合模块用于融合新增知识与已有知识中指代现实世界中语义联系的关系，消除新增知识中的冗余关系；所述动态知识图谱自适应增长模块用于在基坐标系统下融合新增知识，实现知识图谱的动态增长。

8.根据权利要求7所述基于锚点的动态知识图谱表示学习系统，其特征在于，所述实体对齐模块还包括第一信息获取子模块、第一信息向量化子模块、以及第一相似度计算子模块，其中，所述第一信息获取子模块用于获取新增知识和已有知识图谱中的实体的文本描述信息以及同义词信息；所述第一信息向量化子模块用于对得到的实体的文本描述信息以及同义词信息进行向量化表示；所述第一相似度计算子模块用于挖掘新增知识与已有知识图谱中具有高度相似度的实体，并存储为对齐实体对。

9.根据权利要求7所述基于锚点的动态知识图谱表示学习系统，其特征在于，所述关系融合模块还包括第二信息获取子模块、第二信息向量化模块、以及第二相似度计算子模块，其中，所述第二信息获取子模块用于获取新增知识和已有知识图谱中的关系的词典释义信息；所述第二信息向量化子模块用于对得到的关系的词典释义信息进行向量化表示；所述第二相似度计算子模块用于挖掘新增知识与已有知识图谱中具有高度相似度的关系，并存储为对齐关系对。

10.根据权利要求7所述基于锚点的动态知识图谱表示学习系统，其特征在于，所述动态知识图谱自适应增长模块还包括对齐子模块以及训练子模块，其中，所述对齐子模块用于直接将已有知识图谱中的实体向量以及关系向量替换成新增知识中对齐的实体向量以及关系向量，所述训练子模块用于在基坐标系统的基础上，利用新增知识中未对齐的实体向量以及关系向量对已有知识图谱进行迭代更新。