CN113641826A - 面向多源知识图谱融合的实体对齐方法、装置与系统 - Google Patents

面向多源知识图谱融合的实体对齐方法、装置与系统 Download PDF

Info

Publication number
CN113641826A
CN113641826A CN202110726190.5A CN202110726190A CN113641826A CN 113641826 A CN113641826 A CN 113641826A CN 202110726190 A CN202110726190 A CN 202110726190A CN 113641826 A CN113641826 A CN 113641826A
Authority
CN
China
Prior art keywords
entity
knowledge
graph
matrix
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110726190.5A
Other languages
English (en)
Other versions
CN113641826B (zh
Inventor
鄂海红
林学渊
宋文宇
宋美娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202110726190.5A priority Critical patent/CN113641826B/zh
Publication of CN113641826A publication Critical patent/CN113641826A/zh
Priority to PCT/CN2021/137139 priority patent/WO2023273182A1/zh
Application granted granted Critical
Publication of CN113641826B publication Critical patent/CN113641826B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开一种面向多源知识图谱融合的实体对齐方法、装置与系统,涉及大数据处理技术领域,该方案包括:提取知识图谱中实体的实体特征,根据实体的实体特征生成实体嵌入矩阵,并根据实体嵌入矩阵获取知识图谱的实体表示;根据实体表示计算实体与相邻实体的关系信息,根据关系信息增强实体表示得到完整实体表示;依据完整实体表示获取最终实体嵌入矩阵;根据最终实体嵌入矩阵和数据集计算损失函数;采用双向全局过滤策略对损失函数和实体的属性信息进行处理生成迭代正样本集和迭代负样本集,通过样本集对神经网络模型进行迭代训练。上述方案解决了现有技术中实体与关系之间的影响交互不足和低质量自举的技术问题。

Description

面向多源知识图谱融合的实体对齐方法、装置与系统
技术领域
本发明涉及大数据处理技术领域,尤其涉及一种面向多源知识图谱融合的实体对齐方法、装置与系统。
背景技术
知识图谱(Knowledge Graph,简称KG),由点(实体)和边(实体间的关系,实体属性)组成,在人工智能的多项研究与应用中扮演着举足轻重的角色,它作为问答、推荐系统等领域的技术基石,受到了广泛关注。广泛应用于知识驱动的AI任务,如问答模型、推荐系统、搜索引擎等等。通用知识图谱及领域知识图谱由不同组织机构、专家或自动化及半自动化系统构建形成,彼此之间存在着知识的重叠和交叉,因此,合并(融合)两个知识图谱对扩大现有知识图谱、提升下游任务等有特殊意义。
实体对齐是多源知识图谱自动融合(合并/集成)的关键步骤,其效果和知识图谱自动融合(合并/集成)的效果直接相关,因此实体对齐算法的准确率尤为重要。由于不同的知识图谱对于实体各方面信息的表达差异性较大,现有针对实体对齐的方法,大多基于图神经网络模型(GNN)、基于卷积的模型、基于胶囊网络的模型等模型,通过知识图谱特有的三元组结构的学习来传播对齐信息,但是以下缺点:
(1)交互不足。对实体为中心的模型来说,实体和关系之间的隐性交互是很难建模的,和关系为中心的模型恰恰相反。而现有技术的工作集中在图的连通性上,忽略了关系类型、关系方向、实体信息对关系表示的贡献等等。
(2)低质量自举。为解决缺少预对齐种子数据的缺点提出的自举方法认为,如果模型对其预测的结果有信心,那这个结果应该视为正确,作为额外的数据也加入模型训练,这样模型效果还能提升,BootEA、MRAEA都是优秀且经典的自举方法,但都严重依赖于模型本身的效果,而且生成的数据错误率高,质量低,且只能生成正例,不能生成负例,这导致对预测结果利用率较低的问题。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种面向多源知识图谱融合的实体对齐方法,对实体和关系之间的隐性交互进行了建模,提高了实体与关系之间的交互;其次,根据损失函数和实体的属性信息,采用结合属性的双向全局过滤策略(ABGS)的迭代策略来生成高质量的半监督数据,且进一步生成包含正例和负例的“对齐实体对”,以降低生成的数据错误率,和提高对预测结果的利用率。
本发明的第二个目的在于提出一种面向多源知识图谱融合的实体对齐装置。
本发明的第三个目的在于提出一种面向多源知识图谱自动化集成的数据服务系统。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
为达上述目的,本申请第一方面实施例提出了一种面向多源知识图谱融合的实体对齐方法,包括:
提取知识图谱中实体的实体特征,根据所述实体的实体特征生成实体嵌入矩阵,并根据所述实体嵌入矩阵获取所述知识图谱的实体表示;
根据所述实体表示计算所述实体与所述相邻实体的关系信息,并根据所述关系信息增强所述实体表示,以得到所述知识图谱的完整实体表示;
根据所述完整实体表示获取完整实体嵌入矩阵,根据所述完整实体嵌入矩阵获取最终实体嵌入矩阵;
根据所述最终实体嵌入矩阵和数据集计算损失函数;
根据所述损失函数和实体的属性信息,采用双向全局过滤策略生成样本集,并根据所述样本集对神经网络模型进行迭代训练,使得训练后的神网络模型具有对齐和融合多个知识图谱的能力,其中,所述样本集包括迭代正样本集和迭代负样本集。
可选的,本申请实施例提出的面向多源知识图谱融合的实体对齐方法,还包括:dropout 网络和跨层highway网络;
其中,使用highway网络混合两种不同的实体嵌入矩阵,其中,
α=sigmoid(X(a)W+b),
X(out)=(1-α)X(a)+αX(b)
其中,X(a),X(b)是两个实体嵌入矩阵,X(out)是highway网络的输出,W和b分别是线性层的权重矩阵的偏置矢量,α是门控权重向量;
将所述highway网络的输出X(out)输入dropout网络,以得到混合特征,将所述混合特征输入到图注意力网络GAT,所述图注意力网络GAT输出为:
Figure RE-GDA0003261381300000021
Figure RE-GDA0003261381300000022
其中,
Figure RE-GDA0003261381300000023
是第
Figure RE-GDA0003261381300000025
层GAT输出的实体ei的嵌入表示,
Figure RE-GDA0003261381300000024
是第
Figure RE-GDA0003261381300000026
层GAT输出的实体ej′的嵌入表示,αij表示实体ei的相邻实体的注意力权重,a是可训练的参数向量,维数为2de×1, aT表示参数向量的转置,[*||*]表示拼接运算,exp(x)=ex,LeakyReLU是激活函数,LeakyReLU(x)=max(x,0)+0.01*min(x,0),Ni表示实体ei的所有相邻实体组成的集合。
可选的,在本申请实施例中,根据所述实体表示计算所述实体与所述相邻实体的关系信息,并根据所述关系信息增强所述实体表示,以得到所述知识图谱的完整实体表示,包括:
将每个关系rk的语义分为两部分,与头实体相关的部分
Figure RE-GDA0003261381300000031
和与尾实体相关的部分
Figure RE-GDA0003261381300000032
每个实体x的表示可以拆分为xh=x(PAN)Wh和xt=x(PAN)Wt,其中Wh,
Figure RE-GDA0003261381300000033
是权重矩阵,dr是关系嵌入维数,x(PAN)是来自原始聚合层输出的嵌入矩阵X(PAN)的实体嵌入;
采用所述图注意力网络GAT将实体信息传播到关系,
Figure RE-GDA0003261381300000034
Figure RE-GDA0003261381300000035
其中,
Figure RE-GDA0003261381300000036
是基于关系头语义
Figure RE-GDA0003261381300000037
的实体ei作为头实体的部分表示,
Figure RE-GDA0003261381300000038
是与头实体ei相关的关系列表,αik表示关系rk关于头实体ei的注意力权重;
Figure RE-GDA0003261381300000039
计算出
Figure RE-GDA00032613813000000310
和从
Figure RE-GDA00032613813000000311
计算出
Figure RE-GDA00032613813000000312
使用所述Highway网络自动平衡
Figure RE-GDA00032613813000000313
Figure RE-GDA00032613813000000314
中的信息,并通过拼接获得ei的完整实体表示
Figure RE-GDA00032613813000000315
Figure RE-GDA00032613813000000316
可选的,在本申请实施例中,根据所述完整实体表示获取完整实体嵌入矩阵,根据所述完整实体嵌入矩阵获取最终实体嵌入矩阵,包括:
使用回响网络输出所述完整实体对应的完整实体嵌入矩阵X(EN),并输出所述最终实体嵌入矩阵
Figure RE-GDA00032613813000000317
Figure RE-GDA00032613813000000318
可选的,在本申请实施例中,所述损失函数计算公式是:
Figure RE-GDA00032613813000000319
其中,P+是正样本集,P-是从正样本集中生成的负样本集,
Figure RE-GDA00032613813000000320
是迭代策略生成的负样本集,λ是超参数,xi是来自
Figure RE-GDA0003261381300000041
实体嵌入向量,d(xi,xj)是距离函数d(xi,xj)=|xi-xj|,P+由两部分组成,一部分是原始的预对齐实体的训练集P,另一部分是结合属性的双向全局过滤策略生成的迭代正样本集
Figure RE-GDA0003261381300000042
Figure RE-GDA0003261381300000043
可选的,在本申请实施例中,所述双向全局过滤策略包括:
计算属性相似度矩阵和属性值相似度矩阵;
根据所述属性相似度矩阵和属性值相似度矩阵计算最终相似度矩阵;
根据所述最终相似度矩阵计算局部对齐的结果;
使用局部对齐和全局对齐来生成半监督数据,以生成迭代正样本集和迭代负样本集。
为达上述目的,本申请第二方面实施例提出了一种面向多源知识图谱融合的实体对齐装置,包括:
原始聚合网络模块,用于提取知识图谱中实体的实体特征,根据所述实体的实体特征生成实体嵌入矩阵,并根据所述实体嵌入矩阵获取所述知识图谱的实体表示;
回响网络模块,用于根据所述实体表示计算所述实体与所述相邻实体的关系信息,并根据所述关系信息增强所述实体表示,以得到所述知识图谱的完整实体表示;
完整聚合网络模块,用于根据所述完整实体表示获取完整实体嵌入矩阵,根据所述完整实体嵌入矩阵获取最终实体嵌入矩阵;
对齐损失函数计算模块,用于根据所述最终实体嵌入矩阵和数据集计算损失函数;
结合属性的双向全局过滤策略模块,用于根据所述损失函数和实体的属性信息,采用双向全局过滤策略生成样本集,并根据所述样本集对神经网络模型进行迭代训练,使得训练后的神网络模型具有对齐和融合多个知识图谱的能力,其中,所述样本集包括迭代正样本集和迭代负样本集。
为达上述目的,本申请第三方面实施例提出了一种面向多源知识图谱自动化集成的数据服务系统,包括:
待对齐知识图谱数据源管理模块,用于保存和管理多个知识图谱数据源;
数据管理模块,用于获取待对齐知识图谱数据,将待对齐知识图谱数据转换成预设数据格式的待对齐知识图谱数据;
知识融合模块,用于使用如本申请第一方面实施例所述的面向多源知识图谱融合的实体对齐方法中训练后的神网络模型对预设数据格式的待对齐知识图谱数据进行预测以得到对齐实体对,根据所述对齐实体对将待对齐知识图谱数据融合为知识图谱;
已融合知识图谱管理模块,用于保存和管理所述知识图谱,并根据所述知识图谱发布数据服务。
为达上述目的,本申请第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如本申请第一方面实施例所述的面向多源知识图谱融合的实体对齐方法。
综上所述,本申请实施例的面向多源知识图谱融合的实体对齐方法、实体对齐装置、数据服务系统及可读存储介质,该方案首先提取知识图谱中实体的实体特征,根据所述实体的实体特征生成实体嵌入矩阵,并根据所述实体嵌入矩阵获取所述知识图谱的实体表示;然后依据得到的实体表示计算实体与相邻实体的关系信息,并根据实体与相邻实体的关系信息增强上述实体表示,以得到知识图谱的完整实体表示;随后依据得到的知识图谱的完整实体表示获取最终实体嵌入矩阵;再根据获取的最终实体嵌入矩阵和数据集计算损失函数;最后采用双向全局过滤策略对损失函数和实体的属性信息进行处理以生成迭代正样本集和迭代负样本集,进而通过样本集对神经网络模型进行迭代训练,以使得训练后的神网络模型具有对齐和融合多个知识图谱的能力。由此,本申请实施例公开的上述方案实现了对实体和关系之间的隐性交互的建模,提高了实体与关系之间的交互;其次,根据损失函数和实体的属性信息,采用结合属性的双向全局过滤策略(ABGS)的迭代策略来生成高质量的半监督数据,且进一步生成包含正例和负例的“对齐实体对”,以降低生成的数据错误率,和提高对预测结果的利用率。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例所提供的一种面向多源知识图谱融合的实体对齐方法的流程图;
图2为本申请实施例中实体对齐方法的总体流程图;
图3为本申请实施例中双向全局过滤策略的流程图;
图4为本申请实施例所提供的一种面向多源知识图谱融合的实体对齐装置的结构示意图;以及
图5为本申请实施例所提供的一种面向多源知识图谱自动化集成的数据服务系统的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
知识图谱(Knowledge Graph,简称KG),由点(实体)和边(实体间的关系,实体属性)组成,在人工智能的多项研究与应用中扮演着举足轻重的角色,它作为问答、推荐系统等领域的技术基石,受到了广泛关注。广泛应用于知识驱动的AI任务,如问答模型、推荐系统、搜索引擎等等。通用知识图谱及领域知识图谱由不同组织机构、专家或自动化及半自动化系统构建形成,彼此之间存在着知识的重叠和交叉,因此,合并(融合)两个知识图谱对扩大现有知识图谱、提升下游任务等有特殊意义。
实体对齐是多源知识图谱自动融合(合并/集成)的关键步骤,其效果和知识图谱自动融合(合并/集成)的效果直接相关,因此实体对齐算法的准确率尤为重要。由于不同的知识图谱对于实体各方面信息的表达差异性较大,现有针对实体对齐的方法,大多基于图神经网络模型(GNN)、基于卷积的模型、基于胶囊网络的模型等模型,通过知识图谱特有的三元组结构的学习来传播对齐信息。
目前主流的实体对齐框架是:
(1)首先使用知识图谱嵌入(Knowledge Graph Embedding,KGE)模型将实体表示嵌入到低维向量空间中;
(2)然后基于实体向量计算源实体与候选实体的相似度矩阵;
(3)最后根据相似度矩阵获得预测结果。
从信息流的角度,目前知识图谱嵌入KGE模型分为两类:第一类是以关系为中心,强调尾实体来自于关系作用于头实体。这类包括TransE系列、旋转模型、极坐标模型、双线性模型等等,已经在实体链接预测任务大放异彩。但是在实体对齐任务中,这些模型效果表现不佳;第二类是以实体为中心,强调所有实体一律平等,实体间的关系仅作为增强实体表示的信息源之一。这类模型有图神经网络模型(GNN)、基于卷积的模型、基于胶囊网络的模型等等,他们和计算机视觉领域和自然语言处理领域密切相关,可解释性较弱。
特别地,图神经网络的迅速发展推动了第二类以实体为中心的方法的应用,但是经实践这种方式存在着缺少预对齐种子数据的缺点,针对上述缺点,本领域技术人员提出了自举方法,自举方法也叫做自扩展方法,它是在每一轮迭代中,选择若干个置信度较高(全局最高)的“对齐实体对”添加到训练集中来迭代扩展生成“对齐实体对”数据。但是,现有的自扩展方法,缺少预对齐种子数据的问题被一定程度解决,但实践证明,现有的技术依旧存在下述缺点:
(1)交互不足。对实体为中心的模型来说,实体和关系之间的隐性交互是很难建模的,和关系为中心的模型恰恰相反。而现有技术的工作集中在图的连通性上,忽略了关系类型、关系方向、实体信息对关系表示的贡献等等。
(2)低质量自举。为解决缺少预对齐种子数据的缺点提出的自举方法认为,如果模型对其预测的结果有信心,那这个结果应该视为正确,作为额外的数据也加入模型训练,这样模型效果还能提升,BootEA、MRAEA都是优秀且经典的自举方法,但都严重依赖于模型本身的效果,而且生成的数据错误率高,质量低,且只能生成正例,不能生成负例,这导致对预测结果利用率较低的问题。
针对上述问题,本申请实施例提出一种面向多源知识图谱融合的实体对齐方法、实体对齐装置、数据服务系统和可读存储介质。
为了对实体和关系之间的隐性交互建模,本申请实施例设计了一个新颖的图神经网络模型Echo,以提高实体与关系之间的隐性交互;其次本申请实施例还提出了一个更优异的迭代策略,结合属性的双向全局过滤策略(ABGS),来生成高质量的半监督数据(用于下一轮次训练的“对齐实体对”),且进一步生成的“对齐实体对”,既有正例,还包含负例。
通过本申请实施例提出的技术方案,在跨语言知识图谱数据集上,经过测试,这样能够将模型top1准确率提升到96%,远远超过以往模型的79%。
另外,本申请实施例还包括实体对齐装置、数据服务系统和非临时性计算机可读存储介质,上述方案可以应用在各类场景中的多源知识图谱自动融合任务中,例如:两个金融事件知识图谱、两个医学知识图谱、两个不同百科生成的常识知识图谱。
下面参考附图描述本申请实施例的面向多源知识图谱融合的实体对齐方法、实体对齐装置、数据服务系统和非临时性计算机可读存储介质。
图1为本申请实施例所提供的一种面向多源知识图谱融合的实体对齐方法的流程图。
图2为本申请实施例中实体对齐方法的总体流程图。
如图1和图2所示,本申请实施例提供的一种面向多源知识图谱融合的实体对齐方法,包括以下步骤:
步骤101,提取知识图谱中实体的实体特征,根据实体的实体特征生成实体嵌入矩阵,并根据实体嵌入矩阵获取所述知识图谱的实体表示。
本申请实施例为了获得基础的实体表示,提出了原始聚合网络模块,具体而言,原始聚合网络模块通过采用堆积多层GCN和GAT来提取知识图谱中实体的实体特征,以生成实体嵌入矩阵,例如,在跨语言实体对齐场景中,其原始聚合网络模块可以设计为第一层是GCN,第二层和第三层是GAT。
进一步的,为了解决过平滑问题,本申请实施例在原始聚合网络模块中插入dropout 网络和跨层highway网络。
具体而言,本申请实施例设实体嵌入矩阵
Figure RE-GDA0003261381300000081
其中|E|是KG的实体数,de是实体嵌入维数。
则GCN层的输出
Figure RE-GDA0003261381300000082
是:
Figure RE-GDA0003261381300000083
其中σ(.)是激活函数,一般取为ReLU函数ReLU(x)=max(x,0),
Figure RE-GDA0003261381300000084
是每个实体具有自环的邻接矩阵(I为单位矩阵,M为图的邻接矩阵),
Figure RE-GDA0003261381300000085
是度矩阵,W是d(in)×d(out)维的权重矩阵,其中,d(in)=d(out)=de
在本申请实施例中使用highway网络混合两种不同的实体嵌入矩阵,其中,
α=sigmoid(X(a)W+b),
X(out)=(1-α)X(a)+αX(b)
其中,X(a),X(b)是两个实体嵌入矩阵,X(out)是highway网络的输出,W和b分别是线性层的权重矩阵的偏置矢量,α是门控权重向量;
将highway网络的输出X(out)输入dropout网络,以得到混合特征,将混合特征输入到图注意力网络GAT,图注意力网络GAT输出为:
Figure RE-GDA0003261381300000086
Figure RE-GDA0003261381300000087
其中,
Figure RE-GDA0003261381300000088
是第
Figure RE-GDA00032613813000000810
层GAT输出的实体ei的嵌入表示,
Figure RE-GDA0003261381300000089
是第
Figure RE-GDA00032613813000000811
层GAT输出的实体ej′的嵌入表示,αij表示实体ei的相邻实体的注意力权重,a是可训练的参数向量,维数为2de×1, aT表示参数向量的转置,[*||*]表示拼接运算,exp(x)=ex,LeakyReLU是激活函数,LeakyReLU(x)=max(x,0)+0.01*min(x,0),Ni表示实体ei的所有相邻实体组成的集合。另外,在回响网络模块中本申请实施例也使用了highway网络。
步骤102,根据所述实体表示计算所述实体与所述相邻实体的关系信息,并根据所述关系信息增强所述实体表示,以得到所述知识图谱的完整实体表示。
进一步的,本申请实施例根据由步骤101得到的实体表示计算实体与相邻实体的关系信息,并根据关系信息增强实体表示,以得到知识图谱的完整实体表示,包括:
将每个关系rk的语义分为两部分,与头实体相关的部分
Figure RE-GDA0003261381300000091
和与尾实体相关的部分
Figure RE-GDA0003261381300000092
每个实体x的表示可以拆分为xh=x(PAN)Wh和xt=x(PAN)Wt,其中Wh,
Figure RE-GDA0003261381300000093
是权重矩阵,dr是关系嵌入维数,x(PAN)是来自原始聚合层输出的嵌入矩阵X(PAN)的实体嵌入;
采用所述图注意力网络GAT将实体信息传播到关系,
Figure RE-GDA0003261381300000094
Figure RE-GDA0003261381300000095
其中,
Figure RE-GDA0003261381300000096
是基于关系头语义
Figure RE-GDA0003261381300000097
的实体ei作为头实体的部分表示,
Figure RE-GDA0003261381300000098
是与头实体ei相关的关系列表,αik表示关系rk关于头实体ei的注意力权重;
Figure RE-GDA0003261381300000099
计算出
Figure RE-GDA00032613813000000910
和从
Figure RE-GDA00032613813000000911
计算出
Figure RE-GDA00032613813000000912
使用所述Highway网络自动平衡
Figure RE-GDA00032613813000000913
Figure RE-GDA00032613813000000914
中的信息,并通过拼接获得ei的完整实体表示
Figure RE-GDA00032613813000000915
Figure RE-GDA00032613813000000916
由此可知,本申请实施例中的回响网络模块输出的是知识图谱的完整实体表示,具体通过下述方式得到知识图谱的完整实体表示:
本申请实施例中的完整实体表示由邻居关系表示的两个视图动态计算而成,且关系表示是基于原始实体表示生成的,其中,回响网络模块设计与以前的模型不同,因为它不忽略实体对关系的贡献,且使关系的不同部分发挥作用,换言之,本申请实施例中回响网络模块的设计遵循这样的思想,即必须进一步利用关系信息来增强实体表示,而不能忽略实体对关系的贡献。
由此,本申请实施例将每个关系rk的语义分为两部分,与头实体相关的部分
Figure RE-GDA00032613813000000917
和与尾实体相关的部分
Figure RE-GDA00032613813000000918
也就是说,每个部分仅取决于相关实体。
类似地,每个实体x的表示可以拆分为xh=x(PAN)Wh和xt=x(PAN)Wt,其中 Wh,
Figure RE-GDA00032613813000000919
是权重矩阵,dr是关系嵌入维数,x(PAN)是来自原始聚合层输出的嵌入矩阵X(PAN)的实体嵌入。
本申请实施例采用GAT将实体信息传播到关系,如下所示:
Figure RE-GDA0003261381300000101
Figure RE-GDA0003261381300000102
其中
Figure RE-GDA0003261381300000103
是和关系rk相连的头实体集合,
Figure RE-GDA0003261381300000104
是和关系rk头实体ei相连的尾实体集合,αijk表示基于头实体ei和尾实体ej的从头实体ei到关系rk的注意力权重。
Figure RE-GDA0003261381300000105
直接传递到下一层 GAT,以输出完整实体表示的作为头实体的部分。
本申请实施例有:
Figure RE-GDA0003261381300000106
Figure RE-GDA0003261381300000107
其中
Figure RE-GDA0003261381300000108
是基于关系头语义
Figure RE-GDA0003261381300000109
的实体ei作为头实体的部分表示,
Figure RE-GDA00032613813000001010
是与头实体ei相关的关系列表,而不是集合,这里允许重复特定于不同尾实体的关系,αik表示关系rk关于头实体ei的注意力权重。以相同的方式,本申请实施例可以从
Figure RE-GDA00032613813000001011
计算出
Figure RE-GDA00032613813000001012
和从
Figure RE-GDA00032613813000001013
计算出
Figure RE-GDA00032613813000001014
Figure RE-GDA00032613813000001015
然后,本申请实施例应用Highway网络自动平衡
Figure RE-GDA00032613813000001016
Figure RE-GDA00032613813000001017
中的信息,并通过拼接获得ei的完整实体表示
Figure RE-GDA00032613813000001018
Figure RE-GDA00032613813000001019
步骤103,根据所述完整实体表示获取完整实体嵌入矩阵,根据所述完整实体嵌入矩阵获取最终实体嵌入矩阵。
进一步的,本申请实施例根据完整实体表示获取完整实体嵌入矩阵,根据完整实体嵌入矩阵获取最终实体嵌入矩阵,包括:
使用回响网络输出完整实体对应的完整实体嵌入矩阵X(EN),并输出最终实体嵌入矩阵
Figure RE-GDA00032613813000001020
Figure RE-GDA00032613813000001021
在本申请实施例中,经过回响网络后的实体表示才是完整的实体表示。完整聚合网络模块在此基础上,再次聚合邻居实体的信息,以获取最终实体嵌入矩阵,具体获取方式如下:
利用Echo网络输出的完整实体嵌入矩阵X(EN),本申请实施例继续使用GAT层再次从邻居那里聚合信息。
尽管它们具有相同的结构,但该层中的GAT比原始聚合层中的GAT强大得多,因为该层进一步从解构的关系中获得实体信息,而原始聚合层忽略关系在实体上的作用,所以完整聚合网络对于聚合最佳实体表示至关重要。
为了简化问题,我们使用和原始聚合网络(PAN)模块相同的注意力层。
最后,最终输出实体嵌入矩阵
Figure RE-GDA0003261381300000111
为:
Figure RE-GDA0003261381300000112
步骤104,根据最终实体嵌入矩阵和数据集计算损失函数,其中,损失函数计算公式是:
Figure RE-GDA0003261381300000113
其中,P+是正样本集,P-是从正样本集中生成的负样本集,
Figure RE-GDA0003261381300000114
是迭代策略生成的负样本集,λ是超参数,xi是来自
Figure RE-GDA0003261381300000115
实体嵌入向量,d(xi,xj)是距离函数d(xi,xj)=|xi-xj|,P+由两部分组成,一部分是原始的预对齐实体的训练集P,另一部分是结合属性的双向全局过滤策略生成的迭代正样本集
Figure RE-GDA0003261381300000116
Figure RE-GDA0003261381300000117
具体而言,本申请实施例对齐损失函数计算模块负责根据实体表示和数据集,计算损失,用于神经网络的训练,损失函数计算公式是使用曼哈顿距离的Hinge损失。
步骤105,根据所述损失函数和实体的属性信息,采用双向全局过滤策略生成样本集,并根据所述样本集对神经网络模型进行迭代训练,使得训练后的神网络模型具有对齐和融合多个知识图谱的能力,其中,所述样本集包括迭代正样本集和迭代负样本集。
为了生成高质量样本,本申请实施例提出结合属性的双向全局过滤策略方法,及相应处理模块。该策略的输入是实体候选集E1,E2和关系相似度矩阵
Figure RE-GDA0003261381300000118
输出是迭代正样本集
Figure RE-GDA0003261381300000119
和迭代负样本集
Figure RE-GDA00032613813000001110
其中,关系相似度矩阵的第i行第j列元素
Figure RE-GDA00032613813000001111
d(xi,xj)是距离函数d(xi,xj)=|xi-xj|。
|E1|和|E2|分别是集合E1和E2的元素个数。
在本申请实施例中,双向全局过滤策略模块的任务是:负责在模型训练的过程中,不断生成高质量的对齐数据,用于模型的下一轮训练。由此,本申请实施例提出的双向全局过滤策略模块结合了实体的属性信息,通过属性信息的引入,进一步提升了正例生成的精确度,降低了正例的生成误差,对下一轮迭代训练质量的影响。
图3为本申请实施例中双向全局过滤策略的流程图。
进一步的,如图3所示,本申请实施例中的双向全局过滤策略包括:
步骤201计算属性相似度矩阵和属性值相似度矩阵,具体的计算方式如下:
(1)计算基于属性名称的相似度。
计算基于属性名称的相似度时,在跨语言对齐中可以是将不同语言(中文、法语、德语等)的属性名称翻译成相同的语言。在同语言场景下的多源实体对齐,可以直接计算两个属性名称的相似度。
这里以跨语言对齐为例。首先,将属性的名称翻译成相同的语言(英语),然后根据字符串匹配测度(Sorensen-Dice系数)作为相似度,按top1相似度大于给定阈值λ过滤出对齐属性对。接下来,使用这些可比较的属性,获得实体ei的属性集Attr(ei)。最后,可以计算基于属性的相似度矩阵Sattr,其中第i行第j列元素
Figure RE-GDA0003261381300000121
ei,ej是分别来自KG1和KG2的两个实体,
Figure RE-GDA0003261381300000122
表示两个集合A和B之间的Jaccard 相似度。
(2)计算基于属性值的相似度
为了基于属性值计算ei,ej的相似度,首先获取公共属性集Cattr=Attr(ei)∩Attr(ej)。对于Cattr中的每个属性,基于实体ei和ej的属性a的值相似度为
Figure RE-GDA0003261381300000123
其中Valuea(ei)是实体ei的属性a的值集。
通过平均Cattr中所有属性的值相似度,得到基于属性值的相似度矩阵Sattr_value,其中第 i行第j列元素
Figure RE-GDA0003261381300000124
步骤202,根据所述属性相似度矩阵和属性值相似度矩阵计算最终相似度矩阵。
具体而言,本申请实施例先获得由步骤202获得三个相似度矩阵Sattr_value,Sattr和Srel,再使用超参数α123∈[0,1]计算最终的对齐矩阵:
S=α1Sattr_value2Sattr3Srel
步骤203,根据所述最终相似度矩阵计算局部对齐的结果。
具体而言,本申请实施例根据最终相似度矩阵S,计算局部对齐的结果如下:
Figure RE-GDA0003261381300000125
Figure RE-GDA0003261381300000126
Figure RE-GDA0003261381300000127
Figure RE-GDA0003261381300000128
其中S(e1,e2)表示最终相似度矩阵中实体e1和实体e2的相似度。
Figure RE-GDA0003261381300000129
指遍历集合E2中所有元素,取其中使S(e1,e2)最大的实体。
Figure RE-GDA00032613813000001210
为根据左边实体预测右边实体所得结果;类似地,
Figure RE-GDA00032613813000001211
为根据右边实体预测左边实体所得结果。
Figure RE-GDA0003261381300000131
分别是根据局部对齐结果所获得的正样本集和负样本集,这两个样本集在下一步中需要用到。
步骤204,使用局部对齐和全局对齐来生成半监督数据,以生成迭代正样本集和迭代负样本集。
具体而言,本申请实施例同时使用局部对齐和全局对齐来生成半监督数据。
全局对齐是指从候选集中选取目标实体的过程是不放回的。
与之相比,局部对齐是指从候选集中选取目标实体时是有放回的。
因为局部对齐生成的两个样本集包含了很多无法确保是正确还是错误的样本,我们用更严格的全局对齐来过滤它。
设全局对齐的结果为Pglobal。然后迭代正样本集
Figure RE-GDA0003261381300000132
和迭代负样本集
Figure RE-GDA0003261381300000133
计算如下:
Figure RE-GDA0003261381300000134
最终,该策略输出迭代正样本集
Figure RE-GDA0003261381300000135
和迭代负样本集
Figure RE-GDA0003261381300000136
供神经网络模型训练中使用。
为了便于本领域技术人员更好的理解本申请实施例,现提供结合属性的双向全局过滤策略的伪代码如下:
Figure RE-GDA0003261381300000137
上述实施例的应用场景分为原图应用和支撑应用。其中,原图应用指使用融合好的知识图谱直接进行应用,如图查询;支撑应用指以融合好的知识图谱为下游应用提供支撑,如推荐、搜索、问答。
具体而言,本申请实施例中的原图应用包括:学术知识查询、法律案牍查询、企业关系查询、保险理赔案例查询、临床病例查询、业务流程查询等。
例如,以学术知识查询为例,利用此发明融合多语言数据源的学术知识图谱,学术名词实体对齐后,有利于跨源的相关知识的搜索查询。如:查询中文的学术名词“牛顿力学”,其英语源知识图谱的对齐实体为“Newtonian Mechanics”,则可以将英语源知识图谱中关于“Newtonian Mechanics”的学术知识添加到“牛顿力学”的查询结果中。
具体而言,本申请实施例中的支撑应用包括:智能问答、智能搜索、智能推荐、决策分析系统、群体画像、全息档案、风险预警、辅助临床诊疗等。
例如,以智能搜索为例,基于知识图谱的智能搜索能对文本、图片、视频等复杂多元对象进行跨媒体搜索,也能实现篇章级、段落级、语句级的多粒度搜索。智能搜索让计算机更准确地识别和理解用户深层的搜索意图和需求,在多源知识图谱中查找出目标实体及其相关内容,对结果内容进行实体排序和分类,并以符合人类习惯的自然语言的形式展示,从而提高搜索体验。
为了实现上述实施例,本发明还提出一种面向多源知识图谱融合的实体对齐装置。
图4为本申请实施例所提供的一种面向多源知识图谱融合的实体对齐装置的结构示意图。
如图4所示,本申请实施例提供的一种面向多源知识图谱融合的实体对齐装置,包括:
原始聚合网络模块10,用于提取知识图谱中实体的第一实体特征和相邻实体的第二实体特征,根据所述实体的第一实体特征生成第一实体嵌入矩阵,根据所述相邻实体的第二实体特征生成第二实体嵌入矩阵,并对所述第一实体嵌入矩阵和所述第二实体嵌入矩阵进行聚合以得到所述知识图谱的实体表示;
回响网络模块20,用于根据所述实体表示计算所述实体与所述相邻实体的关系信息,并根据所述关系信息增强所述实体表示,以得到所述知识图谱的完整实体表示;
完整聚合网络模块30,用于根据所述完整实体表示获取完整实体嵌入矩阵,根据所述完整实体嵌入矩阵获取最终实体嵌入矩阵;
对齐损失函数计算模块40,用于根据所述最终实体嵌入矩阵和数据集计算损失函数;
结合属性的双向全局过滤策略模块50,用于根据所述损失函数和实体的属性信息,采用双向全局过滤策略生成样本集,并根据所述样本集对神经网络模型进行迭代训练,使得训练后的神网络模型具有对齐和融合多个知识图谱的能力,其中,所述样本集包括迭代正样本集和迭代负样本集。
为了实现上述实施例,本申请实施例提出了一种面向多源知识图谱自动化集成的数据服务系统。
图5为本申请实施例所提供的一种面向多源知识图谱自动化集成的数据服务系统的结构示意图。
如图5所示,本申请实施例提供的一种面向多源知识图谱自动化集成的数据服务系统,包括:
待对齐知识图谱数据源管理模块60,用于保存和管理多个知识图谱数据源;
数据管理模块70,用于获取待对齐知识图谱数据,将待对齐知识图谱数据转换成预设数据格式的待对齐知识图谱数据;
知识融合模块80,用于使用本申请实施例所述的面向多源知识图谱融合的实体对齐方法中训练后的神网络模型对预设数据格式的待对齐知识图谱数据进行预测以得到对齐实体对,根据所述对齐实体对将待对齐知识图谱数据融合为知识图谱;
已融合知识图谱管理模块90,用于保存和管理所述知识图谱,并根据所述知识图谱发布数据服务。
为了便于本领域技术人员更好的理解本申请实施例提出的面向多源知识图谱自动化集成的数据服务系统,现用下述运行实例进行说明。
假设有两个数据源:源A和源B,分别位于服务器A和服务器B。
服务器1运行待对齐知识图谱数据源管理模块,它保存的描述数据记录类似下表,下表为待对齐知识图谱数据源管理模块的一个描述数据表示例:
Figure RE-GDA0003261381300000151
服务器2运行数据管理模块。
服务器3运行知识融合模块。
服务器4运行已融合知识图谱管理模块。
一个运行实例如下:
1)服务器2向服务器1发起请求,获取所有数据源的描述数据,用于动态组装数据转换模块。接着委托服务器1依次请求源A的数据和源B的数据。
2)服务器1将依次向123.123.123.1:8888和123.123.123.2:8888发起请求,并将数据转发给服务器2。
3)服务器2接收服务器1的数据,执行数据读取模块、数据转换模块、数据传输模块,将原始的知识图谱数据转换为标准格式,再将标准格式的多个知识图谱数据转发给服务器3。
4)服务器3接收服务器2的标准数据;首先运行训练模块,使神经网络模型具有融合多个知识图谱的能力;接着运行预测模块,让训练好的神经网络模型预测多个知识图谱的交集,即对齐实体对;最后运行融合模块,将多个知识图谱融合为一个知识图谱,发送给服务器4。
5)服务器4接收服务器3的统一知识图谱,将该知识图谱发布为数据服务。第三方可以订阅该服务,将该知识图谱拉取到他们的服务器上。服务器4可以作为数据源,继续为下一个面向多源知识图谱自动化集成的数据服务系统提供数据,以构建更大更完善的知识图谱。
为了实现上述实施例,本申请实施例还提出其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如本申请实施例所述的面向多源知识图谱融合的实体对齐方法。
综上,本申请实施例提出的本申请实施例的的面向多源知识图谱融合的实体对齐方法、实体对齐装置、数据服务系统及计算机设备,上述方案具有以下优点:
一是,图神经网络模型Echo进一步加强了实体和关系之间的交互,使得实体表示能够感知关系的不同部分,其结构和计算过程具有新颖性和有效性。
二是,迭代生成训练数据的结合属性的双向全局过滤策略,能够解决缺乏人工对齐种子的问题,并能够大幅提高模型的准确率。
三是,利用上述实体对齐装置的面向多源知识图谱自动化集成的数据服务系统,将知识图谱数据源抽象化为描述数据,并自动化运行对齐装置来融合多源知识图谱,自动发布融合后的知识图谱为数据服务,使得第三方能方便获取统一的大规模知识图谱数据资源。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (9)

1.一种面向多源知识图谱融合的实体对齐方法,其特征在于,包括:
提取知识图谱中实体的实体特征,根据所述实体的实体特征生成实体嵌入矩阵,并根据所述实体嵌入矩阵获取所述知识图谱的实体表示;
根据所述实体表示计算所述实体与所述相邻实体的关系信息,并根据所述关系信息增强所述实体表示,以得到所述知识图谱的完整实体表示;
根据所述完整实体表示获取完整实体嵌入矩阵,根据所述完整实体嵌入矩阵获取最终实体嵌入矩阵;
根据所述最终实体嵌入矩阵和数据集计算损失函数;
根据所述损失函数和实体的属性信息,采用双向全局过滤策略生成样本集,并根据所述样本集对神经网络模型进行迭代训练,使得训练后的神网络模型具有对齐和融合多个知识图谱的能力,其中,所述样本集包括迭代正样本集和迭代负样本集。
2.如权利要求1所述的面向多源知识图谱融合的实体对齐方法,其特征在于,还包括:
dropout网络和跨层highway网络;
其中,使用highway网络混合两种不同的实体嵌入矩阵,其中,
α=sigmoid(X(a)W+b),
X(out)=(1-α)X(a)+αX(b)
其中,X(a),X(b)是两个实体嵌入矩阵,X(out)是highway网络的输出,W和b分别是线性层的权重矩阵的偏置矢量,α是门控权重向量;
将所述highway网络的输出X(out)输入dropout网络,以得到混合特征,将所述混合特征输入到图注意力网络GAT,所述图注意力网络GAT输出为:
Figure FDA0003138748580000011
Figure FDA0003138748580000012
其中,
Figure FDA0003138748580000013
是第l层GAT输出的实体ei的嵌入表示,
Figure FDA0003138748580000014
是第l-1层GAT输出的实体ej′的嵌入表示,αij表示实体ei的相邻实体的注意力权重,a是可训练的参数向量,维数为2de×1,aT表示参数向量的转置,[*||*]表示拼接运算,exp(x)=ex,LeakyReLU是激活函数,LeakyReLU(x)=max(x,0)+0.01*min(x,0),Ni表示实体ei的所有相邻实体组成的集合。
3.如权利要求2所述的面向多源知识图谱融合的实体对齐方法,其特征在于,根据所述实体表示计算所述实体与所述相邻实体的关系信息,并根据所述关系信息增强所述实体表示,以得到所述知识图谱的完整实体表示,包括:
将每个关系rk的语义分为两部分,与头实体相关的部分
Figure FDA0003138748580000021
和与尾实体相关的部分
Figure FDA0003138748580000022
每个实体x的表示可以拆分为xh=x(PAN)Wh和xt=x(PAN)Wt,其中Wh
Figure FDA0003138748580000023
是权重矩阵,dr是关系嵌入维数,x(PAN)是来自原始聚合层输出的嵌入矩阵X(PAN)的实体嵌入;
采用所述图注意力网络GAT将实体信息传播到关系,
Figure FDA0003138748580000024
Figure FDA0003138748580000025
其中,
Figure FDA0003138748580000026
是基于关系头语义
Figure FDA0003138748580000027
的实体ei作为头实体的部分表示,
Figure FDA0003138748580000028
是与头实体ei相关的关系列表,αik表示关系rk关于头实体ei的注意力权重;
Figure FDA0003138748580000029
计算出
Figure FDA00031387485800000210
和从
Figure FDA00031387485800000211
计算出
Figure FDA00031387485800000212
使用所述Highway网络自动平衡
Figure FDA00031387485800000213
Figure FDA00031387485800000214
中的信息,并通过拼接获得ei的完整实体表示
Figure FDA00031387485800000215
Figure FDA00031387485800000216
4.如权利要求3所述的面向多源知识图谱融合的实体对齐方法,其特征在于,根据所述完整实体表示获取完整实体嵌入矩阵,根据所述完整实体嵌入矩阵获取最终实体嵌入矩阵,包括:
使用回响网络输出所述完整实体对应的完整实体嵌入矩阵X(EN),并输出所述最终实体嵌入矩阵
Figure FDA00031387485800000217
Figure FDA00031387485800000218
5.如权利要求4所述的面向多源知识图谱融合的实体对齐方法,其特征在于,所述损失函数计算公式是:
Figure FDA00031387485800000219
其中,P+是正样本集,P-是从正样本集中生成的负样本集,
Figure FDA0003138748580000031
是迭代策略生成的负样本集,λ是超参数,xi是来自
Figure FDA0003138748580000032
实体嵌入向量,d(xi,xj)是距离函数d(xi,xj)=|xi-xj|,P+由两部分组成,一部分是原始的预对齐实体的训练集P,另一部分是结合属性的双向全局过滤策略生成的迭代正样本集
Figure FDA0003138748580000033
Figure FDA0003138748580000034
6.如权利要求1所述的面向多源知识图谱融合的实体对齐方法,其特征在于,所述双向全局过滤策略包括:
计算属性相似度矩阵和属性值相似度矩阵;
根据所述属性相似度矩阵和属性值相似度矩阵计算最终相似度矩阵;
根据所述最终相似度矩阵计算局部对齐的结果;
使用局部对齐和全局对齐来生成半监督数据,以生成迭代正样本集和迭代负样本集。
7.一种面向多源知识图谱融合的实体对齐装置,其特征在于,包括:
原始聚合网络模块,用于提取知识图谱中实体的实体特征,根据所述实体的实体特征生成实体嵌入矩阵,并根据所述实体嵌入矩阵获取所述知识图谱的实体表示;
回响网络模块,用于根据所述实体表示计算所述实体与所述相邻实体的关系信息,并根据所述关系信息增强所述实体表示,以得到所述知识图谱的完整实体表示;
完整聚合网络模块,用于根据所述完整实体表示获取完整实体嵌入矩阵,根据所述完整实体嵌入矩阵获取最终实体嵌入矩阵;
对齐损失函数计算模块,用于根据所述最终实体嵌入矩阵和数据集计算损失函数;
结合属性的双向全局过滤策略模块,用于根据所述损失函数和实体的属性信息,采用双向全局过滤策略生成样本集,并根据所述样本集对神经网络模型进行迭代训练,使得训练后的神网络模型具有对齐和融合多个知识图谱的能力,其中,所述样本集包括迭代正样本集和迭代负样本集。
8.一种面向多源知识图谱自动化集成的数据服务系统,其特征在于,包括:
待对齐知识图谱数据源管理模块,用于保存和管理多个知识图谱数据源;
数据管理模块,用于获取待对齐知识图谱数据,将待对齐知识图谱数据转换成预设数据格式的待对齐知识图谱数据;
知识融合模块,用于使用如权利要求1-6中任一项所述的面向多源知识图谱融合的实体对齐方法中训练后的神网络模型对预设数据格式的待对齐知识图谱数据进行预测以得到对齐实体对,根据所述对齐实体对将待对齐知识图谱数据融合为知识图谱;
已融合知识图谱管理模块,用于保存和管理所述知识图谱,并根据所述知识图谱发布数据服务。
9.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6中任一所述的面向多源知识图谱融合的实体对齐方法。
CN202110726190.5A 2021-06-29 2021-06-29 面向多源知识图谱融合的实体对齐方法、装置与系统 Active CN113641826B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110726190.5A CN113641826B (zh) 2021-06-29 2021-06-29 面向多源知识图谱融合的实体对齐方法、装置与系统
PCT/CN2021/137139 WO2023273182A1 (zh) 2021-06-29 2021-12-10 面向多源知识图谱融合的实体对齐方法、装置与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110726190.5A CN113641826B (zh) 2021-06-29 2021-06-29 面向多源知识图谱融合的实体对齐方法、装置与系统

Publications (2)

Publication Number Publication Date
CN113641826A true CN113641826A (zh) 2021-11-12
CN113641826B CN113641826B (zh) 2024-03-26

Family

ID=78416276

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110726190.5A Active CN113641826B (zh) 2021-06-29 2021-06-29 面向多源知识图谱融合的实体对齐方法、装置与系统

Country Status (2)

Country Link
CN (1) CN113641826B (zh)
WO (1) WO2023273182A1 (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114299128A (zh) * 2021-12-30 2022-04-08 咪咕视讯科技有限公司 多视角定位检测方法及装置
CN114357193A (zh) * 2022-01-10 2022-04-15 中国科学技术大学 一种知识图谱实体对齐方法、系统、设备与存储介质
CN114942998A (zh) * 2022-04-25 2022-08-26 西北工业大学 融合多源数据的知识图谱邻域结构稀疏的实体对齐方法
CN115329158A (zh) * 2022-10-17 2022-11-11 湖南能源大数据中心有限责任公司 一种基于多源异构电力数据的数据关联方法
WO2023273182A1 (zh) * 2021-06-29 2023-01-05 北京邮电大学 面向多源知识图谱融合的实体对齐方法、装置与系统
CN115659985A (zh) * 2022-12-09 2023-01-31 南方电网数字电网研究院有限公司 电力知识图谱实体对齐方法、装置和计算机设备
CN116150405A (zh) * 2023-04-19 2023-05-23 中电科大数据研究院有限公司 一种多场景的异构数据处理方法
CN116227592A (zh) * 2023-05-06 2023-06-06 城云科技(中国)有限公司 一种多源知识图谱对齐模型及其构建方法、装置及应用
CN116432750A (zh) * 2023-04-13 2023-07-14 华中师范大学 一种基于盒嵌入的少样本知识图谱补全方法
CN116610820A (zh) * 2023-07-21 2023-08-18 智慧眼科技股份有限公司 一种知识图谱实体对齐方法、装置、设备及存储介质

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116028853B (zh) * 2023-02-14 2023-09-12 华北电力大学 一种基于知识图谱的家庭电器识别方法与系统
CN115860152B (zh) * 2023-02-20 2023-06-27 南京星耀智能科技有限公司 一种面向人物军事知识发现的跨模态联合学习方法
CN116561346B (zh) * 2023-07-06 2023-10-31 北京邮电大学 一种基于图卷积网络和信息融合的实体对齐方法及装置
CN116975256B (zh) * 2023-07-28 2024-01-16 三峡大学 抽水蓄能电站地下厂房施工过程多源信息的处理方法及系统
CN116992137A (zh) * 2023-07-31 2023-11-03 中国科学院地理科学与资源研究所 一种顾及空间异质性的可解释生态文明模式推荐方法
CN117149839B (zh) * 2023-09-14 2024-04-16 中国科学院软件研究所 一种面向开源软件供应链的跨生态软件检测方法及装置
CN117407689B (zh) * 2023-12-14 2024-04-19 之江实验室 一种面向实体对齐的主动学习方法、装置和电子装置
CN117556277B (zh) * 2024-01-12 2024-04-05 暨南大学 一种用于知识图谱实体对齐的初始对齐种子生成方法
CN117688247B (zh) * 2024-01-31 2024-04-12 云南大学 推荐方法、终端设备及存储介质
CN117788203B (zh) * 2024-02-28 2024-05-10 西安华联电力电缆有限公司 一种改进的交联聚乙烯绝缘电力电缆的高效生产制备方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190122111A1 (en) * 2017-10-24 2019-04-25 Nec Laboratories America, Inc. Adaptive Convolutional Neural Knowledge Graph Learning System Leveraging Entity Descriptions
CN110188206A (zh) * 2019-05-08 2019-08-30 北京邮电大学 基于翻译模型的协同迭代联合实体对齐方法及装置
CN110472065A (zh) * 2019-07-25 2019-11-19 电子科技大学 基于gcn孪生网络的跨语言知识图谱实体对齐方法
CN112131395A (zh) * 2020-08-26 2020-12-25 浙江工业大学 一种基于动态阈值的迭代式知识图谱实体对齐方法
CN112784065A (zh) * 2021-02-01 2021-05-11 东北大学 基于多阶邻域注意力网络的无监督知识图谱融合方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931505A (zh) * 2020-05-22 2020-11-13 北京理工大学 一种基于子图嵌入的跨语言实体对齐方法
CN111753024B (zh) * 2020-06-24 2024-02-20 河北工程大学 一种面向公共安全领域的多源异构数据实体对齐方法
CN113641826B (zh) * 2021-06-29 2024-03-26 北京邮电大学 面向多源知识图谱融合的实体对齐方法、装置与系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190122111A1 (en) * 2017-10-24 2019-04-25 Nec Laboratories America, Inc. Adaptive Convolutional Neural Knowledge Graph Learning System Leveraging Entity Descriptions
CN110188206A (zh) * 2019-05-08 2019-08-30 北京邮电大学 基于翻译模型的协同迭代联合实体对齐方法及装置
CN110472065A (zh) * 2019-07-25 2019-11-19 电子科技大学 基于gcn孪生网络的跨语言知识图谱实体对齐方法
CN112131395A (zh) * 2020-08-26 2020-12-25 浙江工业大学 一种基于动态阈值的迭代式知识图谱实体对齐方法
CN112784065A (zh) * 2021-02-01 2021-05-11 东北大学 基于多阶邻域注意力网络的无监督知识图谱融合方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YOUMIN ZHANG 等: "Entity Alignment Across Knowledge Graphs Based on Representative Relations Selection", THE 2018 5TH INTERNATIONAL CONFERENCE ON SYSTEMS AND INFORMATICS (ICSAI 2018), pages 1056 - 1061 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023273182A1 (zh) * 2021-06-29 2023-01-05 北京邮电大学 面向多源知识图谱融合的实体对齐方法、装置与系统
CN114299128A (zh) * 2021-12-30 2022-04-08 咪咕视讯科技有限公司 多视角定位检测方法及装置
CN114357193A (zh) * 2022-01-10 2022-04-15 中国科学技术大学 一种知识图谱实体对齐方法、系统、设备与存储介质
CN114357193B (zh) * 2022-01-10 2024-04-02 中国科学技术大学 一种知识图谱实体对齐方法、系统、设备与存储介质
CN114942998A (zh) * 2022-04-25 2022-08-26 西北工业大学 融合多源数据的知识图谱邻域结构稀疏的实体对齐方法
CN114942998B (zh) * 2022-04-25 2024-02-13 西北工业大学 融合多源数据的知识图谱邻域结构稀疏的实体对齐方法
CN115329158A (zh) * 2022-10-17 2022-11-11 湖南能源大数据中心有限责任公司 一种基于多源异构电力数据的数据关联方法
CN115659985B (zh) * 2022-12-09 2023-03-31 南方电网数字电网研究院有限公司 电力知识图谱实体对齐方法、装置和计算机设备
CN115659985A (zh) * 2022-12-09 2023-01-31 南方电网数字电网研究院有限公司 电力知识图谱实体对齐方法、装置和计算机设备
CN116432750A (zh) * 2023-04-13 2023-07-14 华中师范大学 一种基于盒嵌入的少样本知识图谱补全方法
CN116432750B (zh) * 2023-04-13 2023-10-27 华中师范大学 一种基于盒嵌入的少样本知识图谱补全方法
CN116150405A (zh) * 2023-04-19 2023-05-23 中电科大数据研究院有限公司 一种多场景的异构数据处理方法
CN116150405B (zh) * 2023-04-19 2023-06-27 中电科大数据研究院有限公司 一种多场景的异构数据处理方法
CN116227592A (zh) * 2023-05-06 2023-06-06 城云科技(中国)有限公司 一种多源知识图谱对齐模型及其构建方法、装置及应用
CN116227592B (zh) * 2023-05-06 2023-07-18 城云科技(中国)有限公司 一种多源知识图谱对齐模型及其构建方法、装置及应用
CN116610820B (zh) * 2023-07-21 2023-10-20 智慧眼科技股份有限公司 一种知识图谱实体对齐方法、装置、设备及存储介质
CN116610820A (zh) * 2023-07-21 2023-08-18 智慧眼科技股份有限公司 一种知识图谱实体对齐方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN113641826B (zh) 2024-03-26
WO2023273182A1 (zh) 2023-01-05

Similar Documents

Publication Publication Date Title
CN113641826B (zh) 面向多源知识图谱融合的实体对齐方法、装置与系统
Lu et al. Machine learning for synthetic data generation: a review
Kirilenko et al. Inter-coder agreement in one-to-many classification: fuzzy kappa
Hong et al. Unified photo enhancement by discovering aesthetic communities from flickr
Guo et al. Multi-modal entity alignment in hyperbolic space
US20210019665A1 (en) Machine Learning Model Repository Management and Search Engine
TW201003421A (en) Adaptive knowledge platform
Novak et al. HistoGraph--A visualization tool for collaborative analysis of networks from historical social multimedia collections
Cashman et al. Cava: A visual analytics system for exploratory columnar data augmentation using knowledge graphs
Villata et al. Thirty years of artificial intelligence and law: the third decade
Laubichler et al. Computational perspectives in the history of science: To the memory of Peter Damerow
WO2020016736A1 (en) Knockout autoencoder for detecting anomalies in biomedical images
Downing et al. Describing the performance of US hospitals by applying big data analytics
CN113987155B (zh) 一种融合知识图谱与大规模用户日志的会话式检索方法
Miao et al. A dynamic financial knowledge graph based on reinforcement learning and transfer learning
Bai et al. CAT-ViL: Co-attention Gated Vision-Language Embedding for Visual Question Localized-Answering in Robotic Surgery
CN113380360B (zh) 一种基于多模态病历图的相似病历检索方法及系统
Zhu et al. MMIEA: Multi-modal Interaction Entity Alignment model for knowledge graphs
CN117079291A (zh) 图像轨迹确定方法、装置、计算机设备和存储介质
Cui et al. Cross-modal alignment with graph reasoning for image-text retrieval
Yu et al. Reasoning on crowd-sourced semantic annotations to facilitate cataloguing of 3D artefacts in the cultural heritage domain
AlDahoul et al. Spatio-temporal deep learning model for distortion classification in laparoscopic video
Ma et al. A pathology image diagnosis network with visual interpretability and structured diagnostic report
Zhang et al. Construction of MeSH-like obstetric knowledge graph
Liang et al. AMEMD-FSL: fuse attention mechanism and earth mover’s distance metric network to deep learning for few-shot image recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant