CN113220897A - 基于实体-关系关联图的知识图谱嵌入模型 - Google Patents
基于实体-关系关联图的知识图谱嵌入模型 Download PDFInfo
- Publication number
- CN113220897A CN113220897A CN202110472697.2A CN202110472697A CN113220897A CN 113220897 A CN113220897 A CN 113220897A CN 202110472697 A CN202110472697 A CN 202110472697A CN 113220897 A CN113220897 A CN 113220897A
- Authority
- CN
- China
- Prior art keywords
- graph
- association
- entity
- relationship
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Animal Behavior & Ethology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于图卷积神经网络的知识图谱嵌入方法,利用实体‑关系关联图(ERNAG)将实体和关系节点视为图形中相同的重要节点,节点之间的连接表示为实体与关系之间的关联;将关联图(ERNAG)与图形神经网络相结合,嵌入实体和节点间的关联预测关系。通过本发明中得分函数计算嵌入节点向量间关联得分得到关联组预测,从而转化到知识图谱的连接预测和关系预测。通过对多个已有的基准知识图谱的实验表明,本方法在链路预测和关系预测任务中具有较好的性能。
Description
技术领域
本发明涉及自然语言处理技术领域,特别是涉及基于实体-关系关联图的知识图谱嵌入模型。
背景技术
知识图谱(Knowledge Graph,KG)如WordNet、FreeBase和YAGO。是由很多事实组成,而事实以三元组形式表示(即头实体、关系、尾实体)或简称(h、r、t)。如(史蒂夫·乔布斯,创立,苹果公司)意思是史蒂夫·乔布斯创立了苹果公司。这些三元组对于人工智能任务(如网络搜索和问答)必不可少。然而,知识图谱往往缺乏一些事实(即不完整)。知识图谱是解决这一问题的一项任务。它的目的是评估不存在于知识图中的三元组的合理性。
近年来,为解决知识图谱完备问题,人们进行大量研究工作。传统方法是在连续向量空间中将实体Entity和关系Relation表示为低维密集向量或矩阵,称为知识图嵌入。构建模型最具代表性的方法是基于平移距离,例如TransE。然而,它在处理反身/一对多/多对一/多对多关系方面存在缺陷。因此,基于此模型进行了许多改进(例如TransH,TransR,TransGate)。一种模型是利用附加信息来增强实体和关系的嵌入。附加信息包括实体类型、逻辑规则和文本描述。SSP使用语义空间投影来学习主题和KG嵌入,这体现了事实三元组和文本描述之间的强相关性。知识图实际上是一种图结构,如何有效地学习图结构数据的表示模型成为一个难题。2016年,图形卷积网络(GCN)使得学习图形结构数据成为可能。此外,知识图完成的任务也可通过另一类方法来完成。随后对GCN研究也显示了在图形结构中的良好性能,如图形注意网络(GAT)。还有一种基于图神经网络的方法称为图自动编码器,使用图卷积网络(GCN)编码器和简单的内积解码器。
上述方法明显缺点是,它们对错误三元组中明显不正确的实体或关系给出的分数接近(或高于)正确实体或关系的分数。尽管这些方法可以嵌入实体/关系,并且可以为正三元组提供高分。在处理链接预测任务时,它们给出了错误的三元组分数,然而,这个分数与正确三元组的分数相似(或更高)。
发明内容
本发明的目的是针对现有技术中存在的技术缺陷,而将计算机领域中的图神经网络技术引入到知识图谱嵌入中,提出一种实体-关系关联图的知识图谱嵌入模型,将实体-关系关联图和图神经网络结合起来,更好地解决目前知识图谱嵌入方法存在的不足,预测新的三元组。
为实现本发明的目的所采用的技术方案是:
一种基于实体-关系关联图的知识图谱嵌入方法,其特征在于,包括知识图谱转化为实体-关系关联图的步骤、图嵌入关联得分计算进行关联组预测的步骤;包括:
步骤一.构建实体-关系关联图
知识图谱由三元组事实组成集合,一个三元组事实包含头实体h、关系r和尾实体t,知识图谱表示为G=(E,R,T),其中E是所有实体集,R为所有关系集,T是所有三元组集(T={(h,r,t)│h,t∈E,t∈R});
关联图是关联组事实组成的集合,一个关联组事实包含头实体和关系关联、关系和尾实体关联、头实体和尾实体关联,且关联组有方向性;
实体-关系关联图表示为AG=(E,R,A),其中E是所有实体集,R为所有关系集,A是所有关联组集(A={(h-r,r-t,h-t)│h,t∈E,t∈R});
步骤二.图嵌入
将关联图中的实体和关系映射到一个低维连续的向量空间中,先通过两层的图卷积神经网络得到嵌入向量;通过计算一个关联组的得分得到一个三元组得分,并计算所有关联组得分,得到关联组预测,并转化到知识图谱的连接预测和关系预测,从而得到知识图谱中缺失的且真实的三元组事实,达到知识图谱补全的目的。
本发明通过计算嵌入节点向量间关联得分得到关联组预测,从而转化到知识图谱的连接预测和关系预测,达到知识图谱补全的目的。
通过对多个已有的基准知识图谱的实验表明,本发明方法在链路预测和关系预测任务中具有较好的性能。
附图说明
图1是实体-关系关联图的知识图谱嵌入模型的结构与模块划分示意图。
图2是部分知识图谱的示意图。
图3是转换后的部分关联图谱的示意图。
图4是相关数据集。
图5是各种嵌入方法与本模型在FB15K数据上的链接预测任务的比较。
图6是各种嵌入方法与本模型在FB15k-237数据上的链接预测任务的比较。
图7是各种嵌入方法与本模型在WN18RR数据上的链接预测任务的比较。
图8是各种嵌入方法与本模型在FB15K数据上的三元组分类任务的比较。
图9是各种嵌入方法与本模型在FB15K数据上的关系预测任务的比较。
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明公开的基于图卷积神经网络的知识图谱嵌入方法,所用的知识图谱嵌入模型中,实体-关系关联图(ERNAG)将实体和关系节点(Node)视为图形中相同的重要节点。节点之间的连接表示为实体与关系之间的关联(Association)。将实体-关系关联图(ERNAG,Entity and Relation Node Association Graph)与图形神经网络GCN相结合,嵌入实体和节点间的关联预测关系。然后,通过本发明中得分函数计算嵌入节点向量间关联得分得到关联组预测,从而转化到知识图谱的连接预测和关系预测。
本发明提出的基于实体-关系关联图的知识图谱嵌入模型(KGE-ERNAG)的嵌入方法,包括知识图谱转化为实体-关系关联图、关联得分计算、链接预测和关系预测。如图1所示,是本模型的整体结构,之后将按步骤说明。
步骤一:构建实体-关系关联图。
知识图谱是一个由三元组事实组成的集合,如图2所示,一个三元组事实包含头实体(h)、关系(r)和尾实体(t)。比如“中国的首都是北京”这个事实用三元组表示为“中国,首都为,北京”。一个知识图谱用数学符号表示为G=(E,R,T),其中E是所有实体集,R为所有关系集,T是所有三元组集(T={(h,r,t)│h,t∈E,t∈R})。之后,模型定义实体-关系关联图,与知识图谱不同在于关联图是由关联组事实组成的集合,如图3所示,一个关联组事实包含头实体和关系关联、关系和尾实体关联、头实体和尾实体关联,并且这种关联组是有方向性的,前后不能颠倒。拿上述例子说明,“中国的首都是北京”这个事实用关联组表示为“中国-首都为,首度为-北京,中国-北京”。所以,实体-关系关联图用数学符号表示为AG=(E,R,A),其中E是所有实体集,R为所有关系集,A是所有关联组集(A={(h-r,r-t,h-t)│h,t∈E,t∈R})。
步骤二:图嵌入阶段(Knowledge Graph Embedding,KGE)。
模型将关联图中的实体和关系映射到一个低维连续的向量空间中,首先通过两层的图卷积神经网络GCN得到嵌入向量。
本模型使用嵌入节点之间的内积作为生成模型:
通过上述的方法处理后,实现了完成实体-关系关联图(ERNAG)的完成(ERNAGcompletion),以及对应的知识图谱的补全完成(Knowledge Graph completion),如图1所示。
本模型在三个实施案例中得到了评估。它们是三元组分类、链接预测和关系预测。实施案例中使用了三个基准知识图谱数据集FB15K,FB15K-237和WN18RR。WN18RR是WordNet数据集的一个子集。WordNet是一个大规模的英语词汇知识图谱,每个实体作为一个同义词集,由多个单词组成,对应不同的词义。FB15K和FB15K-237是Freebase的两个子集。Freebase是一个关于一般世界事实的大型知识图谱。图1提供了本模型使用的所有数据集的统计信息。
在本模型中采用以下超参数:学习率:0.01,epochs:200,hidden1:32,hidden2:16,dropout:0.1。还尝试了这些超参数的其他值,但没有发现太大的差异。使用和实验的服务器配置如下:两个Intel(R)Xeon(R)Gold 5115CPU、64GB RAM和四个PH402 SKU 200GPU。由于输入的图形数据太大,使用CPU在WordNet数据集上实验。
本模型评价指标有Hits@n和MeanRank。Hits@n为一个正确三元组在所有预测三元组中前n个命中率。MeanRank为所有正确三元组在所有预测三元组中的平均排名。
链接预测被明确地描述为预测头实体h给定的没有头实体的三元组或预测尾实体t给定没有尾实体的三元组。使用评分函数f(h,r,t)对测试三元组产生的排名来评估结果。通过用知识图谱中的每一个实体替换其头部或尾部实体,阳性测试每个被破坏三元组,而这些候选者按其似然性得分的降序排列。
本发明实施例,引入了两个评价指标:正确实体的平均排名(MR)和Hits@n,一个好的链接预测模型应该实现更低的MR和更高的Hits@n。显示了过滤设置下的结果,使用Adam优化器,学习率为0.01。所有实验中,使用了32维的隐层和16维的潜变量。实验中尝试了单层和多层GCN。单层GCN的节点嵌入性能不如双层GCN。由于参数过大,多层GCN(层数大于两层)实验无法实现。
图5和图6显示了各种模型在FB15K和FB15K-237上的链路预测性能。在FB15K和FB15K-237数据集上,本模型优于最先进的基线。在FB15k-237数据集上,本模型的平均秩分数比最新的结果低一个数量级。本模型比现有模型的最佳结果分别高46.5%、41.4%和36.9%在Hits@1,3和10。在FB15K数据集上,本模型的MeanRank得分比最新的结果低11分。在Hits@3和Hits@10,本模型比最先进的模型分别高出0.9%和4.3%。本模型比R-GCN有Hits@3和Hits@10,证明本方法能很好地模拟知识图谱的结构信息。
图5和图6显示了各种模型在FB15K和FB15K-237上的链路预测性能。在FB15K和FB15K-237数据集上,本模型优于最先进的基线。在FB15k-237数据集上,本模型的平均秩分数比最新的结果低一个数量级。本模型比现有模型的最佳结果分别高46.5%、41.4%和36.9%在Hits@1,3和10。在FB15K数据集上,本模型的MeanRank得分比最新的结果低11分。在Hits@3和Hits@10,本模型比最先进的模型分别高出0.9%和4.3%。本模型比R-GCN有Hits@3和Hits@10,证明本方法能很好地模拟知识图谱的结构信息。
在WN18RR数据集上,本模型仍然有令人兴奋的结果。图7给出了MeanRank和Hits@1、10的链接预测实验。可以看到,本模型在MeanRank上比最佳结果低23.1%,在Hits@1上比最佳结果高15.1%。此外,在Hits@10,本模型比目前最好的方法更高12.2%。MeanRank越低意味着越高Hits@n很合理。这也是由于选择了适当的评分函数。
三元组分类是一项二元分类任务,目的是判断给定的三元组是否正确。本模型使用FB15K数据集来评估。图8在FB15K上显示了不同方法的三元组分类精度,可见TransE的三分类精度达到了78.0%。除TransH的74.9%外,基于TransE的改进模型的精度也得到了提高。TransGate(fc)得到的平移距离模型的最佳结果为89.5%。本模型获得了前所未有的95.6%的好分数。它比TransGate(fc)高6.8%,后者在平移距离模型中得分最高。这表明本模型对实体和关系嵌入向量具有表达能力。
关系预测任务旨在预测给定实体之间的关系。该任务类似于链接预测,本发明实施例中,用关联分数对候选对象进行排序。本模型用MeanRank和Hits@1评估关系排名。
图9实验结果表明,本发明方法不仅具有较低的MeanRank,而且具有较高的Hits@1。本模型不仅优于平移距离模型(如TransE和TransR),而且优于文本增强模型(如DKRL和SSP)。本模型基本上与MeanRank分数上最先进的方法相同。此外,在Hits@1结果表明,本模型不仅比基于层次实体类别和扩展路径信息的模型(如TKRL和PTransE)的最优结果高3.8%,而且比基于外部信息的模型的最优结果高1.67%。突出的关系预测结果表明,该方法充分体现了关系节点。
通过对多个目前世界上已有的基准知识图谱的实验表明,本模型在链路预测和关系预测任务中具有较好的性能。
以上所述仅是本发明的优选实施方式,应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (5)
1.基于实体-关系关联图的知识图谱嵌入方法,其特征在于,包括知识图谱转化为实体-关系关联图的步骤、图嵌入关联得分计算进行关联组预测的步骤;
步骤一.构建实体-关系关联图
关联图是关联组事实组成的集合,一个关联组事实包含头实体和关系关联、关系和尾实体关联、头实体和尾实体关联,且关联组有方向性;
步骤二.图嵌入
将关联图中的实体和关系映射到一个低维连续的向量空间中,先通过两层的图卷积神经网络得到嵌入向量;通过计算一个关联组的得分得到一个三元组得分,并计算所有关联组得分,得到关联组预测,并转化到知识图谱的连接预测和关系预测,从而得到知识图谱中缺失的且真实的三元组事实,达到知识图谱补全的目的。
2.根据权利要求1所述基于实体-关系关联图的知识图谱嵌入方法,其特征在于,步骤二中的图嵌入的步骤如下:
本模型使用嵌入节点之间的内积作为生成模型:
4.根据权利要求1所述基于实体-关系关联图的知识图谱嵌入方法,其特征在于,所述实体-关系关联图将实体和关系节点视为图形中相同的重要节点,节点之间的连接表示为实体与关系之间的关联。
5.根据权利要求1所述基于实体-关系关联图的知识图谱嵌入方法,其特征在于,将实体-关系关联图与图形神经网络相结合,嵌入实体和节点间的关联预测关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110472697.2A CN113220897A (zh) | 2021-04-29 | 2021-04-29 | 基于实体-关系关联图的知识图谱嵌入模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110472697.2A CN113220897A (zh) | 2021-04-29 | 2021-04-29 | 基于实体-关系关联图的知识图谱嵌入模型 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113220897A true CN113220897A (zh) | 2021-08-06 |
Family
ID=77090016
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110472697.2A Pending CN113220897A (zh) | 2021-04-29 | 2021-04-29 | 基于实体-关系关联图的知识图谱嵌入模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113220897A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113783876A (zh) * | 2021-09-13 | 2021-12-10 | 国网电子商务有限公司 | 基于图神经网络的网络安全态势感知方法及相关设备 |
CN114513337A (zh) * | 2022-01-20 | 2022-05-17 | 电子科技大学 | 一种基于邮件数据的隐私保护链接预测方法及系统 |
CN114564623A (zh) * | 2022-03-10 | 2022-05-31 | 天津大学 | 基于实体与关系聚合图的知识图谱嵌入模型 |
CN115129897A (zh) * | 2022-08-31 | 2022-09-30 | 太极计算机股份有限公司 | 利用知识图谱分析感知数据的方法、装置、设备和介质 |
-
2021
- 2021-04-29 CN CN202110472697.2A patent/CN113220897A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113783876A (zh) * | 2021-09-13 | 2021-12-10 | 国网电子商务有限公司 | 基于图神经网络的网络安全态势感知方法及相关设备 |
CN113783876B (zh) * | 2021-09-13 | 2023-10-03 | 国网数字科技控股有限公司 | 基于图神经网络的网络安全态势感知方法及相关设备 |
CN114513337A (zh) * | 2022-01-20 | 2022-05-17 | 电子科技大学 | 一种基于邮件数据的隐私保护链接预测方法及系统 |
CN114513337B (zh) * | 2022-01-20 | 2023-04-07 | 电子科技大学 | 一种基于邮件数据的隐私保护链接预测方法及系统 |
CN114564623A (zh) * | 2022-03-10 | 2022-05-31 | 天津大学 | 基于实体与关系聚合图的知识图谱嵌入模型 |
CN114564623B (zh) * | 2022-03-10 | 2023-09-26 | 天津大学 | 基于实体与关系聚合图的知识图谱嵌入模型 |
CN115129897A (zh) * | 2022-08-31 | 2022-09-30 | 太极计算机股份有限公司 | 利用知识图谱分析感知数据的方法、装置、设备和介质 |
CN115129897B (zh) * | 2022-08-31 | 2023-05-30 | 太极计算机股份有限公司 | 利用知识图谱分析感知数据的方法、装置、设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112417219B (zh) | 基于超图卷积的超边链接预测方法 | |
CN111488734B (zh) | 基于全局交互和句法依赖的情感特征表示学习系统及方法 | |
CN113220897A (zh) | 基于实体-关系关联图的知识图谱嵌入模型 | |
JP7041281B2 (ja) | ディープニューラルネットワークモデルに基づくアドレス情報特徴抽出方法 | |
Amer et al. | A review of modularization techniques in artificial neural networks | |
Zhang et al. | Relation adversarial network for low resource knowledge graph completion | |
CN109389151B (zh) | 一种基于半监督嵌入表示模型的知识图谱处理方法和装置 | |
CN110347932B (zh) | 一种基于深度学习的跨网络用户对齐方法 | |
CN113095439A (zh) | 基于注意力机制的异构图嵌入学习方法 | |
CN113157957A (zh) | 一种基于图卷积神经网络的属性图文献聚类方法 | |
CN114398491A (zh) | 一种基于知识图谱的语义分割图像实体关系推理方法 | |
CN113779219A (zh) | 一种结合文本双曲分段知识嵌入多重知识图谱的问答方法 | |
CN116403730A (zh) | 一种基于图神经网络的药物相互作用预测方法及系统 | |
CN114969367B (zh) | 基于多方面子任务交互的跨语言实体对齐方法 | |
CN113255366B (zh) | 一种基于异构图神经网络的方面级文本情感分析方法 | |
AbdulHussien | Comparison of machine learning algorithms to classify web pages | |
CN113780470A (zh) | 一种基于自适应多通道交叉图卷积网络的图分类方法 | |
CN110473195A (zh) | 一种可自动定制的医学病灶检测架构及方法 | |
CN111584010A (zh) | 一种基于胶囊神经网络和集成学习的关键蛋白质识别方法 | |
CN116502181A (zh) | 基于通道扩展与融合的循环胶囊网络多模态情感识别方法 | |
CN114492458A (zh) | 一种基于多头注意力和词共现的方面级情感分析方法 | |
CN112905906B (zh) | 一种融合局部协同与特征交叉的推荐方法及系统 | |
CN114138971A (zh) | 一种基于遗传算法的极大多标签分类方法 | |
Ge et al. | Graph autoencoder for graph compression and representation learning | |
CN113076490A (zh) | 一种基于混合节点图的涉案微博对象级情感分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210806 |
|
RJ01 | Rejection of invention patent application after publication |