CN113641826A - 面向多源知识图谱融合的实体对齐方法、装置与系统 - Google Patents
面向多源知识图谱融合的实体对齐方法、装置与系统 Download PDFInfo
- Publication number
- CN113641826A CN113641826A CN202110726190.5A CN202110726190A CN113641826A CN 113641826 A CN113641826 A CN 113641826A CN 202110726190 A CN202110726190 A CN 202110726190A CN 113641826 A CN113641826 A CN 113641826A
- Authority
- CN
- China
- Prior art keywords
- entity
- knowledge
- graph
- matrix
- representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 230000004927 fusion Effects 0.000 title claims description 33
- 239000011159 matrix material Substances 0.000 claims abstract description 110
- 238000001914 filtration Methods 0.000 claims abstract description 27
- 238000003062 neural network model Methods 0.000 claims abstract description 26
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 22
- 230000002708 enhancing effect Effects 0.000 claims abstract description 9
- 230000002776 aggregation Effects 0.000 claims description 17
- 238000004220 aggregation Methods 0.000 claims description 17
- 239000013598 vector Substances 0.000 claims description 17
- 230000010354 integration Effects 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000007726 management method Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 238000013523 data management Methods 0.000 claims description 4
- 230000003993 interaction Effects 0.000 abstract description 12
- 238000012545 processing Methods 0.000 abstract description 6
- 230000006870 function Effects 0.000 description 30
- 230000000694 effects Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 239000002775 capsule Substances 0.000 description 3
- 101100153581 Bacillus anthracis topX gene Proteins 0.000 description 2
- 101150041570 TOP1 gene Proteins 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000004575 stone Substances 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开一种面向多源知识图谱融合的实体对齐方法、装置与系统,涉及大数据处理技术领域,该方案包括:提取知识图谱中实体的实体特征,根据实体的实体特征生成实体嵌入矩阵,并根据实体嵌入矩阵获取知识图谱的实体表示;根据实体表示计算实体与相邻实体的关系信息,根据关系信息增强实体表示得到完整实体表示;依据完整实体表示获取最终实体嵌入矩阵;根据最终实体嵌入矩阵和数据集计算损失函数;采用双向全局过滤策略对损失函数和实体的属性信息进行处理生成迭代正样本集和迭代负样本集,通过样本集对神经网络模型进行迭代训练。上述方案解决了现有技术中实体与关系之间的影响交互不足和低质量自举的技术问题。
Description
技术领域
本发明涉及大数据处理技术领域,尤其涉及一种面向多源知识图谱融合的实体对齐方法、装置与系统。
背景技术
知识图谱(Knowledge Graph,简称KG),由点(实体)和边(实体间的关系,实体属性)组成,在人工智能的多项研究与应用中扮演着举足轻重的角色,它作为问答、推荐系统等领域的技术基石,受到了广泛关注。广泛应用于知识驱动的AI任务,如问答模型、推荐系统、搜索引擎等等。通用知识图谱及领域知识图谱由不同组织机构、专家或自动化及半自动化系统构建形成,彼此之间存在着知识的重叠和交叉,因此,合并(融合)两个知识图谱对扩大现有知识图谱、提升下游任务等有特殊意义。
实体对齐是多源知识图谱自动融合(合并/集成)的关键步骤,其效果和知识图谱自动融合(合并/集成)的效果直接相关,因此实体对齐算法的准确率尤为重要。由于不同的知识图谱对于实体各方面信息的表达差异性较大,现有针对实体对齐的方法,大多基于图神经网络模型(GNN)、基于卷积的模型、基于胶囊网络的模型等模型,通过知识图谱特有的三元组结构的学习来传播对齐信息,但是以下缺点:
(1)交互不足。对实体为中心的模型来说,实体和关系之间的隐性交互是很难建模的,和关系为中心的模型恰恰相反。而现有技术的工作集中在图的连通性上,忽略了关系类型、关系方向、实体信息对关系表示的贡献等等。
(2)低质量自举。为解决缺少预对齐种子数据的缺点提出的自举方法认为,如果模型对其预测的结果有信心,那这个结果应该视为正确,作为额外的数据也加入模型训练,这样模型效果还能提升,BootEA、MRAEA都是优秀且经典的自举方法,但都严重依赖于模型本身的效果,而且生成的数据错误率高,质量低,且只能生成正例,不能生成负例,这导致对预测结果利用率较低的问题。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种面向多源知识图谱融合的实体对齐方法,对实体和关系之间的隐性交互进行了建模,提高了实体与关系之间的交互;其次,根据损失函数和实体的属性信息,采用结合属性的双向全局过滤策略(ABGS)的迭代策略来生成高质量的半监督数据,且进一步生成包含正例和负例的“对齐实体对”,以降低生成的数据错误率,和提高对预测结果的利用率。
本发明的第二个目的在于提出一种面向多源知识图谱融合的实体对齐装置。
本发明的第三个目的在于提出一种面向多源知识图谱自动化集成的数据服务系统。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
为达上述目的,本申请第一方面实施例提出了一种面向多源知识图谱融合的实体对齐方法,包括:
提取知识图谱中实体的实体特征,根据所述实体的实体特征生成实体嵌入矩阵,并根据所述实体嵌入矩阵获取所述知识图谱的实体表示;
根据所述实体表示计算所述实体与所述相邻实体的关系信息,并根据所述关系信息增强所述实体表示,以得到所述知识图谱的完整实体表示;
根据所述完整实体表示获取完整实体嵌入矩阵,根据所述完整实体嵌入矩阵获取最终实体嵌入矩阵;
根据所述最终实体嵌入矩阵和数据集计算损失函数;
根据所述损失函数和实体的属性信息,采用双向全局过滤策略生成样本集,并根据所述样本集对神经网络模型进行迭代训练,使得训练后的神网络模型具有对齐和融合多个知识图谱的能力,其中,所述样本集包括迭代正样本集和迭代负样本集。
可选的,本申请实施例提出的面向多源知识图谱融合的实体对齐方法,还包括:dropout 网络和跨层highway网络;
其中,使用highway网络混合两种不同的实体嵌入矩阵,其中,
α=sigmoid(X(a)W+b),
X(out)=(1-α)X(a)+αX(b),
其中,X(a),X(b)是两个实体嵌入矩阵,X(out)是highway网络的输出,W和b分别是线性层的权重矩阵的偏置矢量,α是门控权重向量;
将所述highway网络的输出X(out)输入dropout网络,以得到混合特征,将所述混合特征输入到图注意力网络GAT,所述图注意力网络GAT输出为:
其中,是第层GAT输出的实体ei的嵌入表示,是第层GAT输出的实体ej′的嵌入表示,αij表示实体ei的相邻实体的注意力权重,a是可训练的参数向量,维数为2de×1, aT表示参数向量的转置,[*||*]表示拼接运算,exp(x)=ex,LeakyReLU是激活函数,LeakyReLU(x)=max(x,0)+0.01*min(x,0),Ni表示实体ei的所有相邻实体组成的集合。
可选的,在本申请实施例中,根据所述实体表示计算所述实体与所述相邻实体的关系信息,并根据所述关系信息增强所述实体表示,以得到所述知识图谱的完整实体表示,包括:
将每个关系rk的语义分为两部分,与头实体相关的部分和与尾实体相关的部分每个实体x的表示可以拆分为xh=x(PAN)Wh和xt=x(PAN)Wt,其中Wh,是权重矩阵,dr是关系嵌入维数,x(PAN)是来自原始聚合层输出的嵌入矩阵X(PAN)的实体嵌入;
采用所述图注意力网络GAT将实体信息传播到关系,
可选的,在本申请实施例中,根据所述完整实体表示获取完整实体嵌入矩阵,根据所述完整实体嵌入矩阵获取最终实体嵌入矩阵,包括:
可选的,在本申请实施例中,所述损失函数计算公式是:
其中,P+是正样本集,P-是从正样本集中生成的负样本集,是迭代策略生成的负样本集,λ是超参数,xi是来自实体嵌入向量,d(xi,xj)是距离函数d(xi,xj)=|xi-xj|,P+由两部分组成,一部分是原始的预对齐实体的训练集P,另一部分是结合属性的双向全局过滤策略生成的迭代正样本集即
可选的,在本申请实施例中,所述双向全局过滤策略包括:
计算属性相似度矩阵和属性值相似度矩阵;
根据所述属性相似度矩阵和属性值相似度矩阵计算最终相似度矩阵;
根据所述最终相似度矩阵计算局部对齐的结果;
使用局部对齐和全局对齐来生成半监督数据,以生成迭代正样本集和迭代负样本集。
为达上述目的,本申请第二方面实施例提出了一种面向多源知识图谱融合的实体对齐装置,包括:
原始聚合网络模块,用于提取知识图谱中实体的实体特征,根据所述实体的实体特征生成实体嵌入矩阵,并根据所述实体嵌入矩阵获取所述知识图谱的实体表示;
回响网络模块,用于根据所述实体表示计算所述实体与所述相邻实体的关系信息,并根据所述关系信息增强所述实体表示,以得到所述知识图谱的完整实体表示;
完整聚合网络模块,用于根据所述完整实体表示获取完整实体嵌入矩阵,根据所述完整实体嵌入矩阵获取最终实体嵌入矩阵;
对齐损失函数计算模块,用于根据所述最终实体嵌入矩阵和数据集计算损失函数;
结合属性的双向全局过滤策略模块,用于根据所述损失函数和实体的属性信息,采用双向全局过滤策略生成样本集,并根据所述样本集对神经网络模型进行迭代训练,使得训练后的神网络模型具有对齐和融合多个知识图谱的能力,其中,所述样本集包括迭代正样本集和迭代负样本集。
为达上述目的,本申请第三方面实施例提出了一种面向多源知识图谱自动化集成的数据服务系统,包括:
待对齐知识图谱数据源管理模块,用于保存和管理多个知识图谱数据源;
数据管理模块,用于获取待对齐知识图谱数据,将待对齐知识图谱数据转换成预设数据格式的待对齐知识图谱数据;
知识融合模块,用于使用如本申请第一方面实施例所述的面向多源知识图谱融合的实体对齐方法中训练后的神网络模型对预设数据格式的待对齐知识图谱数据进行预测以得到对齐实体对,根据所述对齐实体对将待对齐知识图谱数据融合为知识图谱;
已融合知识图谱管理模块,用于保存和管理所述知识图谱,并根据所述知识图谱发布数据服务。
为达上述目的,本申请第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如本申请第一方面实施例所述的面向多源知识图谱融合的实体对齐方法。
综上所述,本申请实施例的面向多源知识图谱融合的实体对齐方法、实体对齐装置、数据服务系统及可读存储介质,该方案首先提取知识图谱中实体的实体特征,根据所述实体的实体特征生成实体嵌入矩阵,并根据所述实体嵌入矩阵获取所述知识图谱的实体表示;然后依据得到的实体表示计算实体与相邻实体的关系信息,并根据实体与相邻实体的关系信息增强上述实体表示,以得到知识图谱的完整实体表示;随后依据得到的知识图谱的完整实体表示获取最终实体嵌入矩阵;再根据获取的最终实体嵌入矩阵和数据集计算损失函数;最后采用双向全局过滤策略对损失函数和实体的属性信息进行处理以生成迭代正样本集和迭代负样本集,进而通过样本集对神经网络模型进行迭代训练,以使得训练后的神网络模型具有对齐和融合多个知识图谱的能力。由此,本申请实施例公开的上述方案实现了对实体和关系之间的隐性交互的建模,提高了实体与关系之间的交互;其次,根据损失函数和实体的属性信息,采用结合属性的双向全局过滤策略(ABGS)的迭代策略来生成高质量的半监督数据,且进一步生成包含正例和负例的“对齐实体对”,以降低生成的数据错误率,和提高对预测结果的利用率。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例所提供的一种面向多源知识图谱融合的实体对齐方法的流程图;
图2为本申请实施例中实体对齐方法的总体流程图;
图3为本申请实施例中双向全局过滤策略的流程图;
图4为本申请实施例所提供的一种面向多源知识图谱融合的实体对齐装置的结构示意图;以及
图5为本申请实施例所提供的一种面向多源知识图谱自动化集成的数据服务系统的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
知识图谱(Knowledge Graph,简称KG),由点(实体)和边(实体间的关系,实体属性)组成,在人工智能的多项研究与应用中扮演着举足轻重的角色,它作为问答、推荐系统等领域的技术基石,受到了广泛关注。广泛应用于知识驱动的AI任务,如问答模型、推荐系统、搜索引擎等等。通用知识图谱及领域知识图谱由不同组织机构、专家或自动化及半自动化系统构建形成,彼此之间存在着知识的重叠和交叉,因此,合并(融合)两个知识图谱对扩大现有知识图谱、提升下游任务等有特殊意义。
实体对齐是多源知识图谱自动融合(合并/集成)的关键步骤,其效果和知识图谱自动融合(合并/集成)的效果直接相关,因此实体对齐算法的准确率尤为重要。由于不同的知识图谱对于实体各方面信息的表达差异性较大,现有针对实体对齐的方法,大多基于图神经网络模型(GNN)、基于卷积的模型、基于胶囊网络的模型等模型,通过知识图谱特有的三元组结构的学习来传播对齐信息。
目前主流的实体对齐框架是:
(1)首先使用知识图谱嵌入(Knowledge Graph Embedding,KGE)模型将实体表示嵌入到低维向量空间中;
(2)然后基于实体向量计算源实体与候选实体的相似度矩阵;
(3)最后根据相似度矩阵获得预测结果。
从信息流的角度,目前知识图谱嵌入KGE模型分为两类:第一类是以关系为中心,强调尾实体来自于关系作用于头实体。这类包括TransE系列、旋转模型、极坐标模型、双线性模型等等,已经在实体链接预测任务大放异彩。但是在实体对齐任务中,这些模型效果表现不佳;第二类是以实体为中心,强调所有实体一律平等,实体间的关系仅作为增强实体表示的信息源之一。这类模型有图神经网络模型(GNN)、基于卷积的模型、基于胶囊网络的模型等等,他们和计算机视觉领域和自然语言处理领域密切相关,可解释性较弱。
特别地,图神经网络的迅速发展推动了第二类以实体为中心的方法的应用,但是经实践这种方式存在着缺少预对齐种子数据的缺点,针对上述缺点,本领域技术人员提出了自举方法,自举方法也叫做自扩展方法,它是在每一轮迭代中,选择若干个置信度较高(全局最高)的“对齐实体对”添加到训练集中来迭代扩展生成“对齐实体对”数据。但是,现有的自扩展方法,缺少预对齐种子数据的问题被一定程度解决,但实践证明,现有的技术依旧存在下述缺点:
(1)交互不足。对实体为中心的模型来说,实体和关系之间的隐性交互是很难建模的,和关系为中心的模型恰恰相反。而现有技术的工作集中在图的连通性上,忽略了关系类型、关系方向、实体信息对关系表示的贡献等等。
(2)低质量自举。为解决缺少预对齐种子数据的缺点提出的自举方法认为,如果模型对其预测的结果有信心,那这个结果应该视为正确,作为额外的数据也加入模型训练,这样模型效果还能提升,BootEA、MRAEA都是优秀且经典的自举方法,但都严重依赖于模型本身的效果,而且生成的数据错误率高,质量低,且只能生成正例,不能生成负例,这导致对预测结果利用率较低的问题。
针对上述问题,本申请实施例提出一种面向多源知识图谱融合的实体对齐方法、实体对齐装置、数据服务系统和可读存储介质。
为了对实体和关系之间的隐性交互建模,本申请实施例设计了一个新颖的图神经网络模型Echo,以提高实体与关系之间的隐性交互;其次本申请实施例还提出了一个更优异的迭代策略,结合属性的双向全局过滤策略(ABGS),来生成高质量的半监督数据(用于下一轮次训练的“对齐实体对”),且进一步生成的“对齐实体对”,既有正例,还包含负例。
通过本申请实施例提出的技术方案,在跨语言知识图谱数据集上,经过测试,这样能够将模型top1准确率提升到96%,远远超过以往模型的79%。
另外,本申请实施例还包括实体对齐装置、数据服务系统和非临时性计算机可读存储介质,上述方案可以应用在各类场景中的多源知识图谱自动融合任务中,例如:两个金融事件知识图谱、两个医学知识图谱、两个不同百科生成的常识知识图谱。
下面参考附图描述本申请实施例的面向多源知识图谱融合的实体对齐方法、实体对齐装置、数据服务系统和非临时性计算机可读存储介质。
图1为本申请实施例所提供的一种面向多源知识图谱融合的实体对齐方法的流程图。
图2为本申请实施例中实体对齐方法的总体流程图。
如图1和图2所示,本申请实施例提供的一种面向多源知识图谱融合的实体对齐方法,包括以下步骤:
步骤101,提取知识图谱中实体的实体特征,根据实体的实体特征生成实体嵌入矩阵,并根据实体嵌入矩阵获取所述知识图谱的实体表示。
本申请实施例为了获得基础的实体表示,提出了原始聚合网络模块,具体而言,原始聚合网络模块通过采用堆积多层GCN和GAT来提取知识图谱中实体的实体特征,以生成实体嵌入矩阵,例如,在跨语言实体对齐场景中,其原始聚合网络模块可以设计为第一层是GCN,第二层和第三层是GAT。
进一步的,为了解决过平滑问题,本申请实施例在原始聚合网络模块中插入dropout 网络和跨层highway网络。
其中σ(.)是激活函数,一般取为ReLU函数ReLU(x)=max(x,0),是每个实体具有自环的邻接矩阵(I为单位矩阵,M为图的邻接矩阵),是度矩阵,W是d(in)×d(out)维的权重矩阵,其中,d(in)=d(out)=de。
在本申请实施例中使用highway网络混合两种不同的实体嵌入矩阵,其中,
α=sigmoid(X(a)W+b),
X(out)=(1-α)X(a)+αX(b),
其中,X(a),X(b)是两个实体嵌入矩阵,X(out)是highway网络的输出,W和b分别是线性层的权重矩阵的偏置矢量,α是门控权重向量;
将highway网络的输出X(out)输入dropout网络,以得到混合特征,将混合特征输入到图注意力网络GAT,图注意力网络GAT输出为:
其中,是第层GAT输出的实体ei的嵌入表示,是第层GAT输出的实体ej′的嵌入表示,αij表示实体ei的相邻实体的注意力权重,a是可训练的参数向量,维数为2de×1, aT表示参数向量的转置,[*||*]表示拼接运算,exp(x)=ex,LeakyReLU是激活函数,LeakyReLU(x)=max(x,0)+0.01*min(x,0),Ni表示实体ei的所有相邻实体组成的集合。另外,在回响网络模块中本申请实施例也使用了highway网络。
步骤102,根据所述实体表示计算所述实体与所述相邻实体的关系信息,并根据所述关系信息增强所述实体表示,以得到所述知识图谱的完整实体表示。
进一步的,本申请实施例根据由步骤101得到的实体表示计算实体与相邻实体的关系信息,并根据关系信息增强实体表示,以得到知识图谱的完整实体表示,包括:
将每个关系rk的语义分为两部分,与头实体相关的部分和与尾实体相关的部分每个实体x的表示可以拆分为xh=x(PAN)Wh和xt=x(PAN)Wt,其中Wh,是权重矩阵,dr是关系嵌入维数,x(PAN)是来自原始聚合层输出的嵌入矩阵X(PAN)的实体嵌入;
采用所述图注意力网络GAT将实体信息传播到关系,
由此可知,本申请实施例中的回响网络模块输出的是知识图谱的完整实体表示,具体通过下述方式得到知识图谱的完整实体表示:
本申请实施例中的完整实体表示由邻居关系表示的两个视图动态计算而成,且关系表示是基于原始实体表示生成的,其中,回响网络模块设计与以前的模型不同,因为它不忽略实体对关系的贡献,且使关系的不同部分发挥作用,换言之,本申请实施例中回响网络模块的设计遵循这样的思想,即必须进一步利用关系信息来增强实体表示,而不能忽略实体对关系的贡献。
本申请实施例采用GAT将实体信息传播到关系,如下所示:
其中是和关系rk相连的头实体集合,是和关系rk头实体ei相连的尾实体集合,αijk表示基于头实体ei和尾实体ej的从头实体ei到关系rk的注意力权重。直接传递到下一层 GAT,以输出完整实体表示的作为头实体的部分。
本申请实施例有:
其中是基于关系头语义的实体ei作为头实体的部分表示,是与头实体ei相关的关系列表,而不是集合,这里允许重复特定于不同尾实体的关系,αik表示关系rk关于头实体ei的注意力权重。以相同的方式,本申请实施例可以从计算出和从计算出
步骤103,根据所述完整实体表示获取完整实体嵌入矩阵,根据所述完整实体嵌入矩阵获取最终实体嵌入矩阵。
进一步的,本申请实施例根据完整实体表示获取完整实体嵌入矩阵,根据完整实体嵌入矩阵获取最终实体嵌入矩阵,包括:
在本申请实施例中,经过回响网络后的实体表示才是完整的实体表示。完整聚合网络模块在此基础上,再次聚合邻居实体的信息,以获取最终实体嵌入矩阵,具体获取方式如下:
利用Echo网络输出的完整实体嵌入矩阵X(EN),本申请实施例继续使用GAT层再次从邻居那里聚合信息。
尽管它们具有相同的结构,但该层中的GAT比原始聚合层中的GAT强大得多,因为该层进一步从解构的关系中获得实体信息,而原始聚合层忽略关系在实体上的作用,所以完整聚合网络对于聚合最佳实体表示至关重要。
为了简化问题,我们使用和原始聚合网络(PAN)模块相同的注意力层。
步骤104,根据最终实体嵌入矩阵和数据集计算损失函数,其中,损失函数计算公式是:
其中,P+是正样本集,P-是从正样本集中生成的负样本集,是迭代策略生成的负样本集,λ是超参数,xi是来自实体嵌入向量,d(xi,xj)是距离函数d(xi,xj)=|xi-xj|,P+由两部分组成,一部分是原始的预对齐实体的训练集P,另一部分是结合属性的双向全局过滤策略生成的迭代正样本集即
具体而言,本申请实施例对齐损失函数计算模块负责根据实体表示和数据集,计算损失,用于神经网络的训练,损失函数计算公式是使用曼哈顿距离的Hinge损失。
步骤105,根据所述损失函数和实体的属性信息,采用双向全局过滤策略生成样本集,并根据所述样本集对神经网络模型进行迭代训练,使得训练后的神网络模型具有对齐和融合多个知识图谱的能力,其中,所述样本集包括迭代正样本集和迭代负样本集。
d(xi,xj)是距离函数d(xi,xj)=|xi-xj|。
|E1|和|E2|分别是集合E1和E2的元素个数。
在本申请实施例中,双向全局过滤策略模块的任务是:负责在模型训练的过程中,不断生成高质量的对齐数据,用于模型的下一轮训练。由此,本申请实施例提出的双向全局过滤策略模块结合了实体的属性信息,通过属性信息的引入,进一步提升了正例生成的精确度,降低了正例的生成误差,对下一轮迭代训练质量的影响。
图3为本申请实施例中双向全局过滤策略的流程图。
进一步的,如图3所示,本申请实施例中的双向全局过滤策略包括:
步骤201计算属性相似度矩阵和属性值相似度矩阵,具体的计算方式如下:
(1)计算基于属性名称的相似度。
计算基于属性名称的相似度时,在跨语言对齐中可以是将不同语言(中文、法语、德语等)的属性名称翻译成相同的语言。在同语言场景下的多源实体对齐,可以直接计算两个属性名称的相似度。
这里以跨语言对齐为例。首先,将属性的名称翻译成相同的语言(英语),然后根据字符串匹配测度(Sorensen-Dice系数)作为相似度,按top1相似度大于给定阈值λ过滤出对齐属性对。接下来,使用这些可比较的属性,获得实体ei的属性集Attr(ei)。最后,可以计算基于属性的相似度矩阵Sattr,其中第i行第j列元素ei,ej是分别来自KG1和KG2的两个实体,表示两个集合A和B之间的Jaccard 相似度。
(2)计算基于属性值的相似度
为了基于属性值计算ei,ej的相似度,首先获取公共属性集Cattr=Attr(ei)∩Attr(ej)。对于Cattr中的每个属性,基于实体ei和ej的属性a的值相似度为其中Valuea(ei)是实体ei的属性a的值集。
步骤202,根据所述属性相似度矩阵和属性值相似度矩阵计算最终相似度矩阵。
具体而言,本申请实施例先获得由步骤202获得三个相似度矩阵Sattr_value,Sattr和Srel,再使用超参数α1,α2,α3∈[0,1]计算最终的对齐矩阵:
S=α1Sattr_value+α2Sattr+α3Srel
步骤203,根据所述最终相似度矩阵计算局部对齐的结果。
具体而言,本申请实施例根据最终相似度矩阵S,计算局部对齐的结果如下:
其中S(e1,e2)表示最终相似度矩阵中实体e1和实体e2的相似度。
步骤204,使用局部对齐和全局对齐来生成半监督数据,以生成迭代正样本集和迭代负样本集。
具体而言,本申请实施例同时使用局部对齐和全局对齐来生成半监督数据。
全局对齐是指从候选集中选取目标实体的过程是不放回的。
与之相比,局部对齐是指从候选集中选取目标实体时是有放回的。
因为局部对齐生成的两个样本集包含了很多无法确保是正确还是错误的样本,我们用更严格的全局对齐来过滤它。
为了便于本领域技术人员更好的理解本申请实施例,现提供结合属性的双向全局过滤策略的伪代码如下:
上述实施例的应用场景分为原图应用和支撑应用。其中,原图应用指使用融合好的知识图谱直接进行应用,如图查询;支撑应用指以融合好的知识图谱为下游应用提供支撑,如推荐、搜索、问答。
具体而言,本申请实施例中的原图应用包括:学术知识查询、法律案牍查询、企业关系查询、保险理赔案例查询、临床病例查询、业务流程查询等。
例如,以学术知识查询为例,利用此发明融合多语言数据源的学术知识图谱,学术名词实体对齐后,有利于跨源的相关知识的搜索查询。如:查询中文的学术名词“牛顿力学”,其英语源知识图谱的对齐实体为“Newtonian Mechanics”,则可以将英语源知识图谱中关于“Newtonian Mechanics”的学术知识添加到“牛顿力学”的查询结果中。
具体而言,本申请实施例中的支撑应用包括:智能问答、智能搜索、智能推荐、决策分析系统、群体画像、全息档案、风险预警、辅助临床诊疗等。
例如,以智能搜索为例,基于知识图谱的智能搜索能对文本、图片、视频等复杂多元对象进行跨媒体搜索,也能实现篇章级、段落级、语句级的多粒度搜索。智能搜索让计算机更准确地识别和理解用户深层的搜索意图和需求,在多源知识图谱中查找出目标实体及其相关内容,对结果内容进行实体排序和分类,并以符合人类习惯的自然语言的形式展示,从而提高搜索体验。
为了实现上述实施例,本发明还提出一种面向多源知识图谱融合的实体对齐装置。
图4为本申请实施例所提供的一种面向多源知识图谱融合的实体对齐装置的结构示意图。
如图4所示,本申请实施例提供的一种面向多源知识图谱融合的实体对齐装置,包括:
原始聚合网络模块10,用于提取知识图谱中实体的第一实体特征和相邻实体的第二实体特征,根据所述实体的第一实体特征生成第一实体嵌入矩阵,根据所述相邻实体的第二实体特征生成第二实体嵌入矩阵,并对所述第一实体嵌入矩阵和所述第二实体嵌入矩阵进行聚合以得到所述知识图谱的实体表示;
回响网络模块20,用于根据所述实体表示计算所述实体与所述相邻实体的关系信息,并根据所述关系信息增强所述实体表示,以得到所述知识图谱的完整实体表示;
完整聚合网络模块30,用于根据所述完整实体表示获取完整实体嵌入矩阵,根据所述完整实体嵌入矩阵获取最终实体嵌入矩阵;
对齐损失函数计算模块40,用于根据所述最终实体嵌入矩阵和数据集计算损失函数;
结合属性的双向全局过滤策略模块50,用于根据所述损失函数和实体的属性信息,采用双向全局过滤策略生成样本集,并根据所述样本集对神经网络模型进行迭代训练,使得训练后的神网络模型具有对齐和融合多个知识图谱的能力,其中,所述样本集包括迭代正样本集和迭代负样本集。
为了实现上述实施例,本申请实施例提出了一种面向多源知识图谱自动化集成的数据服务系统。
图5为本申请实施例所提供的一种面向多源知识图谱自动化集成的数据服务系统的结构示意图。
如图5所示,本申请实施例提供的一种面向多源知识图谱自动化集成的数据服务系统,包括:
待对齐知识图谱数据源管理模块60,用于保存和管理多个知识图谱数据源;
数据管理模块70,用于获取待对齐知识图谱数据,将待对齐知识图谱数据转换成预设数据格式的待对齐知识图谱数据;
知识融合模块80,用于使用本申请实施例所述的面向多源知识图谱融合的实体对齐方法中训练后的神网络模型对预设数据格式的待对齐知识图谱数据进行预测以得到对齐实体对,根据所述对齐实体对将待对齐知识图谱数据融合为知识图谱;
已融合知识图谱管理模块90,用于保存和管理所述知识图谱,并根据所述知识图谱发布数据服务。
为了便于本领域技术人员更好的理解本申请实施例提出的面向多源知识图谱自动化集成的数据服务系统,现用下述运行实例进行说明。
假设有两个数据源:源A和源B,分别位于服务器A和服务器B。
服务器1运行待对齐知识图谱数据源管理模块,它保存的描述数据记录类似下表,下表为待对齐知识图谱数据源管理模块的一个描述数据表示例:
服务器2运行数据管理模块。
服务器3运行知识融合模块。
服务器4运行已融合知识图谱管理模块。
一个运行实例如下:
1)服务器2向服务器1发起请求,获取所有数据源的描述数据,用于动态组装数据转换模块。接着委托服务器1依次请求源A的数据和源B的数据。
2)服务器1将依次向123.123.123.1:8888和123.123.123.2:8888发起请求,并将数据转发给服务器2。
3)服务器2接收服务器1的数据,执行数据读取模块、数据转换模块、数据传输模块,将原始的知识图谱数据转换为标准格式,再将标准格式的多个知识图谱数据转发给服务器3。
4)服务器3接收服务器2的标准数据;首先运行训练模块,使神经网络模型具有融合多个知识图谱的能力;接着运行预测模块,让训练好的神经网络模型预测多个知识图谱的交集,即对齐实体对;最后运行融合模块,将多个知识图谱融合为一个知识图谱,发送给服务器4。
5)服务器4接收服务器3的统一知识图谱,将该知识图谱发布为数据服务。第三方可以订阅该服务,将该知识图谱拉取到他们的服务器上。服务器4可以作为数据源,继续为下一个面向多源知识图谱自动化集成的数据服务系统提供数据,以构建更大更完善的知识图谱。
为了实现上述实施例,本申请实施例还提出其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如本申请实施例所述的面向多源知识图谱融合的实体对齐方法。
综上,本申请实施例提出的本申请实施例的的面向多源知识图谱融合的实体对齐方法、实体对齐装置、数据服务系统及计算机设备,上述方案具有以下优点:
一是,图神经网络模型Echo进一步加强了实体和关系之间的交互,使得实体表示能够感知关系的不同部分,其结构和计算过程具有新颖性和有效性。
二是,迭代生成训练数据的结合属性的双向全局过滤策略,能够解决缺乏人工对齐种子的问题,并能够大幅提高模型的准确率。
三是,利用上述实体对齐装置的面向多源知识图谱自动化集成的数据服务系统,将知识图谱数据源抽象化为描述数据,并自动化运行对齐装置来融合多源知识图谱,自动发布融合后的知识图谱为数据服务,使得第三方能方便获取统一的大规模知识图谱数据资源。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (9)
1.一种面向多源知识图谱融合的实体对齐方法,其特征在于,包括:
提取知识图谱中实体的实体特征,根据所述实体的实体特征生成实体嵌入矩阵,并根据所述实体嵌入矩阵获取所述知识图谱的实体表示;
根据所述实体表示计算所述实体与所述相邻实体的关系信息,并根据所述关系信息增强所述实体表示,以得到所述知识图谱的完整实体表示;
根据所述完整实体表示获取完整实体嵌入矩阵,根据所述完整实体嵌入矩阵获取最终实体嵌入矩阵;
根据所述最终实体嵌入矩阵和数据集计算损失函数;
根据所述损失函数和实体的属性信息,采用双向全局过滤策略生成样本集,并根据所述样本集对神经网络模型进行迭代训练,使得训练后的神网络模型具有对齐和融合多个知识图谱的能力,其中,所述样本集包括迭代正样本集和迭代负样本集。
2.如权利要求1所述的面向多源知识图谱融合的实体对齐方法,其特征在于,还包括:
dropout网络和跨层highway网络;
其中,使用highway网络混合两种不同的实体嵌入矩阵,其中,
α=sigmoid(X(a)W+b),
X(out)=(1-α)X(a)+αX(b),
其中,X(a),X(b)是两个实体嵌入矩阵,X(out)是highway网络的输出,W和b分别是线性层的权重矩阵的偏置矢量,α是门控权重向量;
将所述highway网络的输出X(out)输入dropout网络,以得到混合特征,将所述混合特征输入到图注意力网络GAT,所述图注意力网络GAT输出为:
3.如权利要求2所述的面向多源知识图谱融合的实体对齐方法,其特征在于,根据所述实体表示计算所述实体与所述相邻实体的关系信息,并根据所述关系信息增强所述实体表示,以得到所述知识图谱的完整实体表示,包括:
将每个关系rk的语义分为两部分,与头实体相关的部分和与尾实体相关的部分每个实体x的表示可以拆分为xh=x(PAN)Wh和xt=x(PAN)Wt,其中Wh,是权重矩阵,dr是关系嵌入维数,x(PAN)是来自原始聚合层输出的嵌入矩阵X(PAN)的实体嵌入;
采用所述图注意力网络GAT将实体信息传播到关系,
6.如权利要求1所述的面向多源知识图谱融合的实体对齐方法,其特征在于,所述双向全局过滤策略包括:
计算属性相似度矩阵和属性值相似度矩阵;
根据所述属性相似度矩阵和属性值相似度矩阵计算最终相似度矩阵;
根据所述最终相似度矩阵计算局部对齐的结果;
使用局部对齐和全局对齐来生成半监督数据,以生成迭代正样本集和迭代负样本集。
7.一种面向多源知识图谱融合的实体对齐装置,其特征在于,包括:
原始聚合网络模块,用于提取知识图谱中实体的实体特征,根据所述实体的实体特征生成实体嵌入矩阵,并根据所述实体嵌入矩阵获取所述知识图谱的实体表示;
回响网络模块,用于根据所述实体表示计算所述实体与所述相邻实体的关系信息,并根据所述关系信息增强所述实体表示,以得到所述知识图谱的完整实体表示;
完整聚合网络模块,用于根据所述完整实体表示获取完整实体嵌入矩阵,根据所述完整实体嵌入矩阵获取最终实体嵌入矩阵;
对齐损失函数计算模块,用于根据所述最终实体嵌入矩阵和数据集计算损失函数;
结合属性的双向全局过滤策略模块,用于根据所述损失函数和实体的属性信息,采用双向全局过滤策略生成样本集,并根据所述样本集对神经网络模型进行迭代训练,使得训练后的神网络模型具有对齐和融合多个知识图谱的能力,其中,所述样本集包括迭代正样本集和迭代负样本集。
8.一种面向多源知识图谱自动化集成的数据服务系统,其特征在于,包括:
待对齐知识图谱数据源管理模块,用于保存和管理多个知识图谱数据源;
数据管理模块,用于获取待对齐知识图谱数据,将待对齐知识图谱数据转换成预设数据格式的待对齐知识图谱数据;
知识融合模块,用于使用如权利要求1-6中任一项所述的面向多源知识图谱融合的实体对齐方法中训练后的神网络模型对预设数据格式的待对齐知识图谱数据进行预测以得到对齐实体对,根据所述对齐实体对将待对齐知识图谱数据融合为知识图谱;
已融合知识图谱管理模块,用于保存和管理所述知识图谱,并根据所述知识图谱发布数据服务。
9.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6中任一所述的面向多源知识图谱融合的实体对齐方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110726190.5A CN113641826B (zh) | 2021-06-29 | 2021-06-29 | 面向多源知识图谱融合的实体对齐方法、装置与系统 |
PCT/CN2021/137139 WO2023273182A1 (zh) | 2021-06-29 | 2021-12-10 | 面向多源知识图谱融合的实体对齐方法、装置与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110726190.5A CN113641826B (zh) | 2021-06-29 | 2021-06-29 | 面向多源知识图谱融合的实体对齐方法、装置与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113641826A true CN113641826A (zh) | 2021-11-12 |
CN113641826B CN113641826B (zh) | 2024-03-26 |
Family
ID=78416276
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110726190.5A Active CN113641826B (zh) | 2021-06-29 | 2021-06-29 | 面向多源知识图谱融合的实体对齐方法、装置与系统 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113641826B (zh) |
WO (1) | WO2023273182A1 (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114299128A (zh) * | 2021-12-30 | 2022-04-08 | 咪咕视讯科技有限公司 | 多视角定位检测方法及装置 |
CN114357193A (zh) * | 2022-01-10 | 2022-04-15 | 中国科学技术大学 | 一种知识图谱实体对齐方法、系统、设备与存储介质 |
CN114942998A (zh) * | 2022-04-25 | 2022-08-26 | 西北工业大学 | 融合多源数据的知识图谱邻域结构稀疏的实体对齐方法 |
CN115329158A (zh) * | 2022-10-17 | 2022-11-11 | 湖南能源大数据中心有限责任公司 | 一种基于多源异构电力数据的数据关联方法 |
WO2023273182A1 (zh) * | 2021-06-29 | 2023-01-05 | 北京邮电大学 | 面向多源知识图谱融合的实体对齐方法、装置与系统 |
CN115659985A (zh) * | 2022-12-09 | 2023-01-31 | 南方电网数字电网研究院有限公司 | 电力知识图谱实体对齐方法、装置和计算机设备 |
CN116150405A (zh) * | 2023-04-19 | 2023-05-23 | 中电科大数据研究院有限公司 | 一种多场景的异构数据处理方法 |
CN116227592A (zh) * | 2023-05-06 | 2023-06-06 | 城云科技(中国)有限公司 | 一种多源知识图谱对齐模型及其构建方法、装置及应用 |
CN116432750A (zh) * | 2023-04-13 | 2023-07-14 | 华中师范大学 | 一种基于盒嵌入的少样本知识图谱补全方法 |
CN116610820A (zh) * | 2023-07-21 | 2023-08-18 | 智慧眼科技股份有限公司 | 一种知识图谱实体对齐方法、装置、设备及存储介质 |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116028853B (zh) * | 2023-02-14 | 2023-09-12 | 华北电力大学 | 一种基于知识图谱的家庭电器识别方法与系统 |
CN115860152B (zh) * | 2023-02-20 | 2023-06-27 | 南京星耀智能科技有限公司 | 一种面向人物军事知识发现的跨模态联合学习方法 |
CN116561346B (zh) * | 2023-07-06 | 2023-10-31 | 北京邮电大学 | 一种基于图卷积网络和信息融合的实体对齐方法及装置 |
CN116975256B (zh) * | 2023-07-28 | 2024-01-16 | 三峡大学 | 抽水蓄能电站地下厂房施工过程多源信息的处理方法及系统 |
CN116992137A (zh) * | 2023-07-31 | 2023-11-03 | 中国科学院地理科学与资源研究所 | 一种顾及空间异质性的可解释生态文明模式推荐方法 |
CN117149839B (zh) * | 2023-09-14 | 2024-04-16 | 中国科学院软件研究所 | 一种面向开源软件供应链的跨生态软件检测方法及装置 |
CN117407689B (zh) * | 2023-12-14 | 2024-04-19 | 之江实验室 | 一种面向实体对齐的主动学习方法、装置和电子装置 |
CN117556277B (zh) * | 2024-01-12 | 2024-04-05 | 暨南大学 | 一种用于知识图谱实体对齐的初始对齐种子生成方法 |
CN117688247B (zh) * | 2024-01-31 | 2024-04-12 | 云南大学 | 推荐方法、终端设备及存储介质 |
CN117788203B (zh) * | 2024-02-28 | 2024-05-10 | 西安华联电力电缆有限公司 | 一种改进的交联聚乙烯绝缘电力电缆的高效生产制备方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190122111A1 (en) * | 2017-10-24 | 2019-04-25 | Nec Laboratories America, Inc. | Adaptive Convolutional Neural Knowledge Graph Learning System Leveraging Entity Descriptions |
CN110188206A (zh) * | 2019-05-08 | 2019-08-30 | 北京邮电大学 | 基于翻译模型的协同迭代联合实体对齐方法及装置 |
CN110472065A (zh) * | 2019-07-25 | 2019-11-19 | 电子科技大学 | 基于gcn孪生网络的跨语言知识图谱实体对齐方法 |
CN112131395A (zh) * | 2020-08-26 | 2020-12-25 | 浙江工业大学 | 一种基于动态阈值的迭代式知识图谱实体对齐方法 |
CN112784065A (zh) * | 2021-02-01 | 2021-05-11 | 东北大学 | 基于多阶邻域注意力网络的无监督知识图谱融合方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111931505A (zh) * | 2020-05-22 | 2020-11-13 | 北京理工大学 | 一种基于子图嵌入的跨语言实体对齐方法 |
CN111753024B (zh) * | 2020-06-24 | 2024-02-20 | 河北工程大学 | 一种面向公共安全领域的多源异构数据实体对齐方法 |
CN113641826B (zh) * | 2021-06-29 | 2024-03-26 | 北京邮电大学 | 面向多源知识图谱融合的实体对齐方法、装置与系统 |
-
2021
- 2021-06-29 CN CN202110726190.5A patent/CN113641826B/zh active Active
- 2021-12-10 WO PCT/CN2021/137139 patent/WO2023273182A1/zh unknown
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190122111A1 (en) * | 2017-10-24 | 2019-04-25 | Nec Laboratories America, Inc. | Adaptive Convolutional Neural Knowledge Graph Learning System Leveraging Entity Descriptions |
CN110188206A (zh) * | 2019-05-08 | 2019-08-30 | 北京邮电大学 | 基于翻译模型的协同迭代联合实体对齐方法及装置 |
CN110472065A (zh) * | 2019-07-25 | 2019-11-19 | 电子科技大学 | 基于gcn孪生网络的跨语言知识图谱实体对齐方法 |
CN112131395A (zh) * | 2020-08-26 | 2020-12-25 | 浙江工业大学 | 一种基于动态阈值的迭代式知识图谱实体对齐方法 |
CN112784065A (zh) * | 2021-02-01 | 2021-05-11 | 东北大学 | 基于多阶邻域注意力网络的无监督知识图谱融合方法及装置 |
Non-Patent Citations (1)
Title |
---|
YOUMIN ZHANG 等: "Entity Alignment Across Knowledge Graphs Based on Representative Relations Selection", THE 2018 5TH INTERNATIONAL CONFERENCE ON SYSTEMS AND INFORMATICS (ICSAI 2018), pages 1056 - 1061 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023273182A1 (zh) * | 2021-06-29 | 2023-01-05 | 北京邮电大学 | 面向多源知识图谱融合的实体对齐方法、装置与系统 |
CN114299128A (zh) * | 2021-12-30 | 2022-04-08 | 咪咕视讯科技有限公司 | 多视角定位检测方法及装置 |
CN114357193A (zh) * | 2022-01-10 | 2022-04-15 | 中国科学技术大学 | 一种知识图谱实体对齐方法、系统、设备与存储介质 |
CN114357193B (zh) * | 2022-01-10 | 2024-04-02 | 中国科学技术大学 | 一种知识图谱实体对齐方法、系统、设备与存储介质 |
CN114942998A (zh) * | 2022-04-25 | 2022-08-26 | 西北工业大学 | 融合多源数据的知识图谱邻域结构稀疏的实体对齐方法 |
CN114942998B (zh) * | 2022-04-25 | 2024-02-13 | 西北工业大学 | 融合多源数据的知识图谱邻域结构稀疏的实体对齐方法 |
CN115329158A (zh) * | 2022-10-17 | 2022-11-11 | 湖南能源大数据中心有限责任公司 | 一种基于多源异构电力数据的数据关联方法 |
CN115659985B (zh) * | 2022-12-09 | 2023-03-31 | 南方电网数字电网研究院有限公司 | 电力知识图谱实体对齐方法、装置和计算机设备 |
CN115659985A (zh) * | 2022-12-09 | 2023-01-31 | 南方电网数字电网研究院有限公司 | 电力知识图谱实体对齐方法、装置和计算机设备 |
CN116432750A (zh) * | 2023-04-13 | 2023-07-14 | 华中师范大学 | 一种基于盒嵌入的少样本知识图谱补全方法 |
CN116432750B (zh) * | 2023-04-13 | 2023-10-27 | 华中师范大学 | 一种基于盒嵌入的少样本知识图谱补全方法 |
CN116150405A (zh) * | 2023-04-19 | 2023-05-23 | 中电科大数据研究院有限公司 | 一种多场景的异构数据处理方法 |
CN116150405B (zh) * | 2023-04-19 | 2023-06-27 | 中电科大数据研究院有限公司 | 一种多场景的异构数据处理方法 |
CN116227592A (zh) * | 2023-05-06 | 2023-06-06 | 城云科技(中国)有限公司 | 一种多源知识图谱对齐模型及其构建方法、装置及应用 |
CN116227592B (zh) * | 2023-05-06 | 2023-07-18 | 城云科技(中国)有限公司 | 一种多源知识图谱对齐模型及其构建方法、装置及应用 |
CN116610820B (zh) * | 2023-07-21 | 2023-10-20 | 智慧眼科技股份有限公司 | 一种知识图谱实体对齐方法、装置、设备及存储介质 |
CN116610820A (zh) * | 2023-07-21 | 2023-08-18 | 智慧眼科技股份有限公司 | 一种知识图谱实体对齐方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113641826B (zh) | 2024-03-26 |
WO2023273182A1 (zh) | 2023-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113641826B (zh) | 面向多源知识图谱融合的实体对齐方法、装置与系统 | |
Lu et al. | Machine learning for synthetic data generation: a review | |
Kirilenko et al. | Inter-coder agreement in one-to-many classification: fuzzy kappa | |
Hong et al. | Unified photo enhancement by discovering aesthetic communities from flickr | |
Guo et al. | Multi-modal entity alignment in hyperbolic space | |
US20210019665A1 (en) | Machine Learning Model Repository Management and Search Engine | |
TW201003421A (en) | Adaptive knowledge platform | |
Novak et al. | HistoGraph--A visualization tool for collaborative analysis of networks from historical social multimedia collections | |
Cashman et al. | Cava: A visual analytics system for exploratory columnar data augmentation using knowledge graphs | |
Villata et al. | Thirty years of artificial intelligence and law: the third decade | |
Laubichler et al. | Computational perspectives in the history of science: To the memory of Peter Damerow | |
WO2020016736A1 (en) | Knockout autoencoder for detecting anomalies in biomedical images | |
Downing et al. | Describing the performance of US hospitals by applying big data analytics | |
CN113987155B (zh) | 一种融合知识图谱与大规模用户日志的会话式检索方法 | |
Miao et al. | A dynamic financial knowledge graph based on reinforcement learning and transfer learning | |
Bai et al. | CAT-ViL: Co-attention Gated Vision-Language Embedding for Visual Question Localized-Answering in Robotic Surgery | |
CN113380360B (zh) | 一种基于多模态病历图的相似病历检索方法及系统 | |
Zhu et al. | MMIEA: Multi-modal Interaction Entity Alignment model for knowledge graphs | |
CN117079291A (zh) | 图像轨迹确定方法、装置、计算机设备和存储介质 | |
Cui et al. | Cross-modal alignment with graph reasoning for image-text retrieval | |
Yu et al. | Reasoning on crowd-sourced semantic annotations to facilitate cataloguing of 3D artefacts in the cultural heritage domain | |
AlDahoul et al. | Spatio-temporal deep learning model for distortion classification in laparoscopic video | |
Ma et al. | A pathology image diagnosis network with visual interpretability and structured diagnostic report | |
Zhang et al. | Construction of MeSH-like obstetric knowledge graph | |
Liang et al. | AMEMD-FSL: fuse attention mechanism and earth mover’s distance metric network to deep learning for few-shot image recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |