CN112445876A - 融合结构、属性和关系信息的实体对齐方法和系统 - Google Patents

融合结构、属性和关系信息的实体对齐方法和系统 Download PDF

Info

Publication number
CN112445876A
CN112445876A CN202011484523.XA CN202011484523A CN112445876A CN 112445876 A CN112445876 A CN 112445876A CN 202011484523 A CN202011484523 A CN 202011484523A CN 112445876 A CN112445876 A CN 112445876A
Authority
CN
China
Prior art keywords
entity
vector
alignment
attribute
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011484523.XA
Other languages
English (en)
Other versions
CN112445876B (zh
Inventor
杨林瑶
王晓
陈薏竹
王飞跃
张俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Publication of CN112445876A publication Critical patent/CN112445876A/zh
Application granted granted Critical
Publication of CN112445876B publication Critical patent/CN112445876B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于信息处理领域,具体涉及一种融合结构、属性和关系信息的实体对齐方法和系统,旨在解决现有实体对齐方法并不能很好地整合结构、属性和关系信息从而限制了实体对齐的效果的问题。本发明方法包括迭代的以下步骤:利用对齐种子集合S,获取各实体的结构向量,并编码其属性向量;进行关系对齐,获得对应的关系向量;基于实体的结构向量、属性向量、关系向量,通过注意力网络获得实体相似性矩阵;基于矩阵查询标记法预测对齐实体,将置信度大于给定阈值的预测实体对构成的集合作为高置信度预测对齐实体集合S′;若S∩S′=S′,则结束迭代,输出对齐种子集合S;否则,S=S0∪S′继续迭代。本发明可以有效提升实体对齐的性能。

Description

融合结构、属性和关系信息的实体对齐方法和系统
技术领域
本发明属于信息处理领域,具体涉及一种融合结构、属性和关系信息的实体对齐方法和系统。
背景技术
知识图谱是人工智能在大数据环境中的成功应用,与大数据和深度学习一起,成为推动互联网和人工智能发展的核心驱动力之一。随着智能信息服务应用的不断发展,知识图谱已被广泛应用于信息检索、个性化推荐、智能问答等多个实际场景,具有极强的表达能力和建模灵活性。
由于任何机构和组织都可以根据自己的需求和设计理念创建知识库,因此知识库中的数据也充满多样性和异构性,并且存在很多相互重复或补充的部分。因此,将不同来源或语言的知识图谱整合到一个统一的知识图谱中变得至关重要,可以更好地推动知识应用的发展。如DB-pedia、YAGO等多语言知识图谱包含了丰富的跨语言信息,包括等效实体的跨语言链接。然而,并非所有等效实体都具有跨语言链接,因此,跨知识图谱实体对齐任务具有重要意义。但是,目前的实体对齐方法并不能很好地整合结构、属性和关系信息,这在一定程度上限制了实体对齐的效果。
发明内容
为了解决现有技术中的上述问题,即为了解决现有实体对齐方法并不能很好地整合结构、属性和关系信息,从而限制了实体对齐的效果的问题,本发明提出了一种融合结构、属性和关系信息的实体对齐方法,包括以下步骤:
S100,获取初始对齐种子集合S0;所述对齐种子集合为待实体对齐的两个知识图谱G1、G2的对齐种子所构成的集合;
S200,利用对齐种子集合S,获取各实体的结构向量,并编码其属性向量;其中,S=S0∪S′,S′为上一轮迭代得到的高置信度预测对齐实体集合,其初始状态为空;
S300,基于实体的结构向量,进行关系对齐,获得对应的关系向量;
S400,基于实体的结构向量、属性向量、关系向量,通过注意力网络获得实体相似性矩阵;
S500,利用实体相似性矩阵,基于矩阵查询标记法预测对齐实体,将置信度大于给定阈值的预测实体对构成的集合作为高置信度预测对齐实体集合S′;
S600,若S∩S′=S′,则结束迭代,输出对齐种子集合S;否则,执行步骤S200。
在一些优选实施方式中,所述结构向量为两个知识图谱G1、G2中的实体在统一向量空间中的结构嵌入表示。
在一些优选实施方式中,所述结构向量获取所采用的网络为图注意力网络、RSNs结构嵌入模型或AliNet结构嵌入模型。
在一些优选实施方式中,所述属性向量,其获取方法为:识别不同实体中的属性名实体,将等价的属性名合并映射为同一种命名。
在一些优选实施方式中,所述关系向量,其获取方法为:
基于实体的结构向量近似知识图谱G1、G2中关系的表示向量;
基于关系的表示向量,计算知识图谱G1、G2中关系的相似性,得到临时相似性矩阵;
基于临时相似性矩阵,通过矩阵查询标记法预测各种关系的对齐关系,并基于对齐结果将实体所连接关系的类型编码为关系向量。
在一些优选实施方式中,所述知识图谱G1、G2中关系的相似性通过关系的表示向量之间的曼哈顿距离表示。
在一些优选实施方式中,所述关系向量由前半部分表示实体nh、后半部分表示实体nt组成;其中,nh为头实体所连接的关系类型,nt为尾实体所连接的关系类型。
在一些优选实施方式中,S400中“通过注意力网络获得实体相似性矩阵”,其方法为:
基于所述关系向量,通过一个全连接神经网络生成连续的关系向量gh、gt
基于结构向量、属性向量计算实体的特征矩阵;
分别计算各实体对不同向量之间的相似度;
通过softmax层和平均层可以得到一个实体对中两个实体对彼此的对应向量相似性的注意力;
将结构、语义和关系的相似性分数与其对应的注意力分数相乘以获得最终的相似性分数;
将所有实体对之间的相似性按照对应位置排列成矩阵即可得最终的实体相似性矩阵。
在一些优选实施方式中,S500中“预测对齐实体”,其方法为:
S501,检索相似性矩阵的最大值,记录其相似度数值及其所处的横纵坐标(i,j);
S502,将相似性矩阵的第i行和第j列中的数值全部改为一个预设的足够小的数;
S503,迭代执行S501、S502直至整个相似性矩阵中的数值全部标记为预设的足够小的数。
本发明的第二方面提出了一种融合结构、属性和关系信息的实体对齐系统,包括第一模块、第一模块、第三模块、第四模块、第五模块、第六模块:
所述第一模块,获取初始对齐种子集合S0;所述对齐种子集合为待实体对齐的两个知识图谱G1、G2的对齐种子所构成的集合;
所述第二模块,利用对齐种子集合S,获取各实体的结构向量,并编码其属性向量;其中,S=S0∪S′,S′为上一轮迭代得到的高置信度预测对齐实体集合,其初始状态为空;
所述第三模块,基于实体的结构向量,进行关系对齐,获得对应的关系向量;
所述第四模块,基于实体的结构向量、属性向量、关系向量,通过注意力网络获得实体相似性矩阵;
所述第五模块,利用实体相似性矩阵,基于矩阵查询标记法预测对齐实体,将置信度大于给定阈值的预测实体对构成的集合作为高置信度预测对齐实体集合S′;
所述第六模块,若S∩S′=S′,则结束迭代,输出对齐种子集合S;否则,执行返回所述第二模块。
本发明的有益效果:
利用本发明的方法,能够在一个统一的实体对齐框架中充分融合结构、属性和关系信息,有效提升实体对齐的性能。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明一种实施例的融合结构、属性和关系信息的实体对齐方法流程示意图;
图2是本发明一种实施例的融合结构、属性和关系信息的实体对齐方法框架示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
针对现有实体对齐方法并不能很好地整合结构、属性和关系信息,从而限制了实体对齐的效果的问题,本发明提出建立融合结构、属性和关系信息的实体对齐框架,并提出使用注意机制自适应地调整相应信息的权重,为满足一对一对齐约束,本发明提出一种高效的矩阵标记分配方法,同时,本发明提出以迭代训练的增量学习方式提升模型精度并提出迭代训练的终止判别方法。本发明能够充分利用结构、属性和关系三方面的信息,为实体对齐任务提供一种新的思路,并在广泛使用的公开数据集上取得了更好的效果。
本发明的一种融合结构、属性和关系信息的实体对齐方法,包括以下步骤:
S100,获取初始对齐种子集合S0;所述对齐种子集合为待实体对齐的两个知识图谱G1、G2的对齐种子所构成的集合;
S200,利用对齐种子集合S,获取各实体的结构向量,并编码其属性向量;其中,S=S0∪S′,S′为上一轮迭代得到的高置信度预测对齐实体集合,其初始状态为空;
S300,基于实体的结构向量,进行关系对齐,获得对应的关系向量;
S400,基于实体的结构向量、属性向量、关系向量,通过注意力网络获得实体相似性矩阵;
S500,利用实体相似性矩阵,基于矩阵查询标记法预测对齐实体,将置信度大于给定阈值的预测实体对构成的集合作为高置信度预测对齐实体集合S′;
S600,若S∩S′=S′,则结束迭代,输出对齐种子集合S;否则,执行步骤S200。
为了更清晰地对本发明进行说明,下面结合附图对本方发明一种实施例中各部分进行展开详述。
本发明一种实施例的一种融合结构、属性和关系信息的实体对齐方法,如图1、图2所示,包括迭代执行的步骤S100-S600。
S100,获取初始对齐种子集合S0;所述对齐种子集合为待实体对齐的两个知识图谱G1、G2的对齐种子所构成的集合。
基于待实体对齐的两个知识图谱G1、G2中其实体的结构、属性及实体之间的关系类型信息,获取初始对齐种子集合S0
S200,利用对齐种子集合S,获取各实体的结构向量,并编码其属性向量。
为了避免预测误差在多轮迭代中累积,本实施例中的对齐种子集合S为初始对齐种子集合S0与上一轮迭代得到的高置信度预测对齐实体集合S′的交集,可以表示为S=S0∪S′;每一轮的对齐种子集合S;若当前迭代步为第一步,则S′为空集。
结构向量为两个知识图谱G1、G2中的实体在统一向量空间中的结构嵌入表示。本实施例中结构向量为,使用图注意力网络来联合学习不同知识图谱中的实体在统一向量空间中的结构嵌入表示
Figure BDA0002838630620000071
Figure BDA0002838630620000074
表示维数为ds的实数向量空间;当然,也可以采用其他结构嵌入模型(RSNs、AliNet等)进行结构嵌入表示的获取,随着迭代次数的增加,简单的结构嵌入模型也可以达到足够的精度。采用的网络为图注意力网络、RSNs结构嵌入模型或AliNet结构嵌入模型获取结构向量的方法已有诸多论文进行公开,此处不再展开赘述。
在属性信息方面,不同实体往往拥有不同的属性类型,属性类型所包含的语义信息比属性值更具有代表性。属性向量获取方法为:识别不同实体中的属性名实体,将等价的属性名合并映射为同一种命名。本实施例为了提高准确度,基于上述的属性向量获取方法进行优化,以半自动的方式构建一个属性名消岐字典,具体方法为:首先,基于openNLP工具自动识别不同实体中的属性名实体,并且将等价的属性名合并映射为同一种命名,然后,由人工对上述结果进行检查,排除误合并的属性名,由于属性类型往往十分有限,该方式即可保证效率。在得到合并的属性类型后,将实体所拥有的属性类型编码为属性向量
Figure BDA0002838630620000072
(
Figure BDA0002838630620000073
表示维数为dn的实数向量空间),其长度为合并后的属性名类型数量,若实体拥有某种类型的属性,则其属性向量的对应位置为1,否则为0。
S300,基于实体的结构向量,进行关系对齐,获得对应的关系向量。
该步骤可以细化为以下步骤:
S301,基于实体的结构向量近似知识图谱G1、G2中关系的表示向量,
在获得实体的结构向量之后,进一步基于实体的结构向量近似知识图谱中关系的表示。以给定的关系r为例,其近似嵌入表示为
Figure BDA0002838630620000081
Figure BDA0002838630620000082
其中
Figure BDA0002838630620000083
表示向量拼接,Hr和Tr分别代表关系r对应的头实体和尾实体的嵌入集合,f(·)则表示实体关系的映射函数,本发明中f(·)具体使用的是均值计算函数。
S302,基于关系的表示向量,计算知识图谱G1、G2中关系的相似性,得到临时相似性矩阵。
在得到关系的表示向量后,本发明计算两个知识图谱中关系的相似性,该相似性由关系向量之间的曼哈顿距离计算,可以得到临时相似性矩阵。
S303,基于临时相似性矩阵,通过矩阵查询标记法预测各种关系的对齐关系,并基于对齐结果将实体所连接关系的类型编码为关系向量。
基于以上临时相似性矩阵,通过矩阵查询标记法预测各种关系的对齐关系,并基于关系对齐结果,将实体所连接关系的类型编码为关系向量。本实施例的通过矩阵查询标记法预测各种关系的对齐关系的方法可以采用本发明S500中的方法进行,为了使本发明逻辑更加清晰,此处不展开描述,放到S500部分进行展开详述。
关系向量由两部分组成,前半部分表示实体为头实体所连接的关系类型,以nh表示,后半部分表示实体为尾实体所连接的关系类型,以nt表示。nh和nt的长度为max(TypeofRel(G1),TypeofRel(G2)),其中TypeofRel表示对应知识图谱中关系类型的数量,对应位置数值为该实体所连接的对应类型的(头或尾)关系数量。
S400,基于实体的结构向量、属性向量、关系向量,通过注意力网络获得实体相似性矩阵。
基于注意力网络,对结构、属性、关系向量之间的相似性赋予不同的权重,以增强实体对齐效果。本发明所用注意力网络的结构如图2中的注意力机制所示,基于该注意力网络获取实体相似性矩阵的步骤包括:
S401,基于所述关系向量,通过一个全连接神经网络生成连续的关系向量gh、gt
通过一个全连接神经网络生成连续的关系向量
Figure BDA0002838630620000091
Figure BDA0002838630620000092
Figure BDA0002838630620000093
其中,全连接层的权值矩阵Mh与Mt由两个知识图谱的所有关系向量共享。
Figure BDA0002838630620000094
表示维数为dr的实数向量空间。
S402,基于结构向量、属性向量计算实体的特征矩阵。
结合步骤S200得到的结构向量
Figure BDA0002838630620000095
及属性向量
Figure BDA0002838630620000096
可得实体e1的特征矩阵为:
Figure BDA0002838630620000097
其中,公式中的;表示向量按行拼接成一个矩阵,dm=max{ds,dn,dr},并用0将维度小于dm的向量填充到dm。ds、dn、dr分别为结构向量、属性向量和关系向量的维度。
S403,分别计算各实体对不同向量之间的相似度。
两个实体e1、e2不同向量之间的相似度
Figure BDA0002838630620000098
由下式计算:
Figure BDA0002838630620000099
其中,
Figure BDA00028386306200000910
表示实体e1的第i行向量,
Figure BDA00028386306200000911
表示实体e2的第j行向量,a是一个可训练的权重矩阵。
S404,通过softmax层和平均层(average)可以得到一个实体对中两个实体对彼此的对应向量相似性的注意力。
本年实施中通过softmax层和平均层可以得到实体e1和e2对彼此的对应向量相似性的注意力,即
Figure BDA0002838630620000101
Figure BDA0002838630620000102
Figure BDA0002838630620000103
attz,attn,attg分别表示关于结构相似性、属性相似性及关系相似性的注意力权重。
S405,将结构、语义和关系的相似性分数与其对应的注意力分数相乘以获得最终的相似性分数。
最终的相似性分数Sim(e1,e2)表示为
Figure BDA0002838630620000104
Figure BDA0002838630620000105
其中,Simz(e1,e2),Simn(e1,e2),Simg(e1,e2)分别表示e1对e2结构向量、属性向量、关系向量之间的相似性,分别通过实体e1和e2的结构向量、属性向量、关系向量的余弦相似性求得。
S406,将所有实体对之间的相似性按照对应位置排列成矩阵即可得最终的实体相似性矩阵。
构建一个行数为N1,列数为N2的矩阵,其中N1、N2分别为知识图谱G1与G2的实体数,矩阵的每一行代表G1的一个实体与G2中不同实体之间的相似性,每一列代表G2的一个实体与G1中不同实体之间的相似性,将所有实体对之间的相似性得分填充到矩阵的对应位置即得知识图谱G1与G2之间的相似性矩阵Sim(G1,G2)。
S500,利用实体相似性矩阵,基于矩阵查询标记法预测对齐实体,将置信度大于给定阈值的预测实体对构成的集合作为高置信度预测对齐实体集合S′。
在得到两个知识图谱实体的相似性矩阵后,本实施例采用一种基于迭代矩阵搜索标记的方法进行实体对齐预测。具体流程为:
S501,检索相似性矩阵的最大值,记录其相似度数值及其所处的横纵坐标(i,j),则预测G1中的ei与G2中的ej为对齐实体;
S502,将相似性矩阵的第i行和第j列中的数值全部改为一个预设的足够小的数,如-1000;
S503,迭代执行S501、S502直至整个相似性矩阵中的数值全部标记为预设的足够小的数。
该方法可以有效保证预测的对齐实体满足一对一约束,同时,计算复杂度比较小,能够应对大规模知识图谱场景。在得到实体对齐预测结果后,将相似度大于ξ的实体对认定为预测置信度比较高的实体对,ξ可以为人为指定的相似度阈值,输出作为下一轮补充的对齐种子。
S600,若S∩S′=S′,则结束迭代,输出对齐种子集合S;否则,执行步骤S200。
基于步骤S500得到高置信度预测对齐实体集合S′,求其与本轮使用的对齐种子集合S的交集,若S′与S的交集等于S′,证明当前的迭代已经比较充分,则结束模型迭代并以本轮模型的预测作为最终的实体对齐预测结果输出;否则,将对齐种子集合S更新为初始对齐种子集合S0与本次迭代得到的高置信度预测对齐实体集合S′的交集(即对齐种子补充),进行下一次迭代。
本发明第二实施例的一种融合结构、属性和关系信息的实体对齐系统,包括第一模块、第一模块、第三模块、第四模块、第五模块、第六模块:
所述第一模块,获取初始对齐种子集合S0;所述对齐种子集合为待实体对齐的两个知识图谱G1、G2的对齐种子所构成的集合;
所述第二模块,利用对齐种子集合S,获取各实体的结构向量,并编码其属性向量;其中,S=S0∪S′,S′为上一轮迭代得到的高置信度预测对齐实体集合,其初始状态为空;
所述第三模块,基于实体的结构向量,进行关系对齐,获得对应的关系向量;
所述第四模块,基于实体的结构向量、属性向量、关系向量,通过注意力网络获得实体相似性矩阵;
所述第五模块,利用实体相似性矩阵,基于矩阵查询标记法预测对齐实体,将置信度大于给定阈值的预测实体对构成的集合作为高置信度预测对齐实体集合S′;
所述第六模块,若S∩S′=S′,则结束迭代,输出对齐种子集合S;否则,执行返回所述第二模块。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的融合结构、属性和关系信息的实体对齐系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种计算机可读取存储介质,存储用于设备执行的程序代码,该程序代码包括用于执行上述融合结构、属性和关系信息的实体对齐方法。
本发明第四实施例的一种数据处理装置,包括处理器、存储装置;所述存储器用于存储程序指令,所述处理器用于调用所述程序指令来执行上述融合结构、属性和关系信息的实体对齐方法。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (10)

1.一种融合结构、属性和关系信息的实体对齐方法,其特征在于,包括以下步骤:
S100,获取初始对齐种子集合S0;所述对齐种子集合为待实体对齐的两个知识图谱G1、G2的对齐种子所构成的集合;
S200,利用对齐种子集合S,获取各实体的结构向量,并编码其属性向量;其中,S=S0∪S′,S′为上一轮迭代得到的高置信度预测对齐实体集合,其初始状态为空;
S300,基于实体的结构向量,进行关系对齐,获得对应的关系向量;
S400,基于实体的结构向量、属性向量、关系向量,通过注意力网络获得实体相似性矩阵;
S500,利用实体相似性矩阵,基于矩阵查询标记法预测对齐实体,将置信度大于给定阈值的预测实体对构成的集合作为高置信度预测对齐实体集合S′;
S600,若S∩S′=S′,则结束迭代,输出对齐种子集合S;否则,执行步骤S200。
2.根据权利要求1所述的融合结构、属性和关系信息的实体对齐方法,其特征在于,所述结构向量为两个知识图谱G1、G2中的实体在统一向量空间中的结构嵌入表示。
3.根据权利要求2所述的融合结构、属性和关系信息的实体对齐方法,其特征在于,所述结构向量获取所采用的网络为图注意力网络、RSNs结构嵌入模型或AliNet结构嵌入模型。
4.根据权利要求1所述的融合结构、属性和关系信息的实体对齐方法,其特征在于,所述属性向量,其获取方法为:识别不同实体中的属性名实体,将等价的属性名合并映射为同一种命名。
5.根据权利要求1所述的融合结构、属性和关系信息的实体对齐方法,其特征在于,所述关系向量,其获取方法为:
基于实体的结构向量近似知识图谱G1、G2中关系的表示向量;
基于关系的表示向量,计算知识图谱G1、G2中关系的相似性,得到临时相似性矩阵;
基于临时相似性矩阵,通过矩阵查询标记法预测各种关系的对齐关系,并基于对齐结果将实体所连接关系的类型编码为关系向量。
6.根据权利要求5所述的融合结构、属性和关系信息的实体对齐方法,其特征在于,所述知识图谱G1、G2中关系的相似性通过关系的表示向量之间的曼哈顿距离表示。
7.根据权利要求6所述的融合结构、属性和关系信息的实体对齐方法,其特征在于,所述关系向量由前半部分表示实体nh、后半部分表示实体nt组成;其中,nh为头实体所连接的关系类型,nt为尾实体所连接的关系类型。
8.根据权利要求1所述的融合结构、属性和关系信息的实体对齐方法,其特征在于,S400中“通过注意力网络获得实体相似性矩阵”,其方法为:
基于所述关系向量,通过一个全连接神经网络生成连续的关系向量gh、gt
基于结构向量、属性向量计算实体的特征矩阵;
分别计算各实体对不同向量之间的相似度;
通过softmax层和平均层可以得到一个实体对中两个实体对彼此的对应向量相似性的注意力;
将结构、语义和关系的相似性分数与其对应的注意力分数相乘以获得最终的相似性分数;
将所有实体对之间的相似性按照对应位置排列成矩阵即可得最终的实体相似性矩阵。
9.根据权利要求1所述的融合结构、属性和关系信息的实体对齐方法,其特征在于,S500中“预测对齐实体”,其方法为:
S501,检索相似性矩阵的最大值,记录其相似度数值及其所处的横纵坐标(i,j);
S502,将相似性矩阵的第i行和第j列中的数值全部改为一个预设的足够小的数;
S503,迭代执行S501、S502直至整个相似性矩阵中的数值全部标记为预设的足够小的数。
10.一种融合结构、属性和关系信息的实体对齐系统,其特征在于,包括第一模块、第一模块、第三模块、第四模块、第五模块、第六模块:
所述第一模块,获取初始对齐种子集合S0;所述对齐种子集合为待实体对齐的两个知识图谱G1、G2的对齐种子所构成的集合;
所述第二模块,利用对齐种子集合S,获取各实体的结构向量,并编码其属性向量;其中,S=S0∪S′,S′为上一轮迭代得到的高置信度预测对齐实体集合,其初始状态为空;
所述第三模块,基于实体的结构向量,进行关系对齐,获得对应的关系向量;
所述第四模块,基于实体的结构向量、属性向量、关系向量,通过注意力网络获得实体相似性矩阵;
所述第五模块,利用实体相似性矩阵,基于矩阵查询标记法预测对齐实体,将置信度大于给定阈值的预测实体对构成的集合作为高置信度预测对齐实体集合S′;
所述第六模块,若S∩S′=S′,则结束迭代,输出对齐种子集合S;否则,执行返回所述第二模块。
CN202011484523.XA 2020-11-25 2020-12-16 融合结构、属性和关系信息的实体对齐方法和系统 Active CN112445876B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011339999 2020-11-25
CN2020113399994 2020-11-25

Publications (2)

Publication Number Publication Date
CN112445876A true CN112445876A (zh) 2021-03-05
CN112445876B CN112445876B (zh) 2023-12-26

Family

ID=74739352

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011484523.XA Active CN112445876B (zh) 2020-11-25 2020-12-16 融合结构、属性和关系信息的实体对齐方法和系统

Country Status (1)

Country Link
CN (1) CN112445876B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112765370A (zh) * 2021-03-29 2021-05-07 腾讯科技(深圳)有限公司 知识图谱的实体对齐方法、装置、计算机设备和存储介质
CN112800770A (zh) * 2021-04-15 2021-05-14 南京樯图数据研究院有限公司 一种基于异构图注意力网络的实体对齐方法
CN112966027A (zh) * 2021-03-22 2021-06-15 青岛科技大学 一种基于动态探针的实体关联挖掘方法
CN113761221A (zh) * 2021-06-30 2021-12-07 中国人民解放军32801部队 基于图神经网络的知识图谱实体对齐方法
CN116167530A (zh) * 2023-04-25 2023-05-26 安徽思高智能科技有限公司 一种基于多流程节点对齐的rpa流程优化方法
CN116257643A (zh) * 2023-05-09 2023-06-13 鹏城实验室 跨语言实体对齐方法、装置、设备及可读存储介质
CN116561346A (zh) * 2023-07-06 2023-08-08 北京邮电大学 一种基于图卷积网络和信息融合的实体对齐方法及装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188206A (zh) * 2019-05-08 2019-08-30 北京邮电大学 基于翻译模型的协同迭代联合实体对齐方法及装置
CN110245131A (zh) * 2019-06-05 2019-09-17 江苏瑞中数据股份有限公司 一种知识图谱中实体对齐方法、系统及其存储介质
WO2019174422A1 (zh) * 2018-03-16 2019-09-19 北京国双科技有限公司 实体关联关系的分析方法及相关装置
CN110457502A (zh) * 2019-08-21 2019-11-15 京东方科技集团股份有限公司 构建知识图谱方法、人机交互方法、电子设备及存储介质
CN110516078A (zh) * 2019-08-27 2019-11-29 合肥工业大学 对齐方法及装置
CN110795572A (zh) * 2019-10-29 2020-02-14 腾讯科技(深圳)有限公司 一种实体对齐方法、装置、设备及介质
CN110929041A (zh) * 2019-11-20 2020-03-27 北京邮电大学 基于分层注意力机制的实体对齐方法及系统
CN110941722A (zh) * 2019-10-12 2020-03-31 中国人民解放军国防科技大学 一种基于实体对齐的知识图谱融合方法
WO2020114022A1 (zh) * 2018-12-04 2020-06-11 平安科技(深圳)有限公司 一种知识库对齐方法、装置、计算机设备及存储介质
CN111563192A (zh) * 2020-04-28 2020-08-21 腾讯科技(深圳)有限公司 实体对齐方法、装置、电子设备及存储介质
CN111931505A (zh) * 2020-05-22 2020-11-13 北京理工大学 一种基于子图嵌入的跨语言实体对齐方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019174422A1 (zh) * 2018-03-16 2019-09-19 北京国双科技有限公司 实体关联关系的分析方法及相关装置
WO2020114022A1 (zh) * 2018-12-04 2020-06-11 平安科技(深圳)有限公司 一种知识库对齐方法、装置、计算机设备及存储介质
CN110188206A (zh) * 2019-05-08 2019-08-30 北京邮电大学 基于翻译模型的协同迭代联合实体对齐方法及装置
CN110245131A (zh) * 2019-06-05 2019-09-17 江苏瑞中数据股份有限公司 一种知识图谱中实体对齐方法、系统及其存储介质
CN110457502A (zh) * 2019-08-21 2019-11-15 京东方科技集团股份有限公司 构建知识图谱方法、人机交互方法、电子设备及存储介质
CN110516078A (zh) * 2019-08-27 2019-11-29 合肥工业大学 对齐方法及装置
CN110941722A (zh) * 2019-10-12 2020-03-31 中国人民解放军国防科技大学 一种基于实体对齐的知识图谱融合方法
CN110795572A (zh) * 2019-10-29 2020-02-14 腾讯科技(深圳)有限公司 一种实体对齐方法、装置、设备及介质
CN110929041A (zh) * 2019-11-20 2020-03-27 北京邮电大学 基于分层注意力机制的实体对齐方法及系统
CN111563192A (zh) * 2020-04-28 2020-08-21 腾讯科技(深圳)有限公司 实体对齐方法、装置、电子设备及存储介质
CN111931505A (zh) * 2020-05-22 2020-11-13 北京理工大学 一种基于子图嵌入的跨语言实体对齐方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966027A (zh) * 2021-03-22 2021-06-15 青岛科技大学 一种基于动态探针的实体关联挖掘方法
CN112966027B (zh) * 2021-03-22 2022-10-21 青岛科技大学 一种基于动态探针的实体关联挖掘方法
CN112765370A (zh) * 2021-03-29 2021-05-07 腾讯科技(深圳)有限公司 知识图谱的实体对齐方法、装置、计算机设备和存储介质
CN112800770A (zh) * 2021-04-15 2021-05-14 南京樯图数据研究院有限公司 一种基于异构图注意力网络的实体对齐方法
CN112800770B (zh) * 2021-04-15 2021-07-09 南京樯图数据研究院有限公司 一种基于异构图注意力网络的实体对齐方法
CN113761221A (zh) * 2021-06-30 2021-12-07 中国人民解放军32801部队 基于图神经网络的知识图谱实体对齐方法
CN116167530A (zh) * 2023-04-25 2023-05-26 安徽思高智能科技有限公司 一种基于多流程节点对齐的rpa流程优化方法
CN116167530B (zh) * 2023-04-25 2023-07-21 安徽思高智能科技有限公司 一种基于多流程节点对齐的rpa流程优化方法
CN116257643A (zh) * 2023-05-09 2023-06-13 鹏城实验室 跨语言实体对齐方法、装置、设备及可读存储介质
CN116257643B (zh) * 2023-05-09 2023-08-25 鹏城实验室 跨语言实体对齐方法、装置、设备及可读存储介质
CN116561346A (zh) * 2023-07-06 2023-08-08 北京邮电大学 一种基于图卷积网络和信息融合的实体对齐方法及装置
CN116561346B (zh) * 2023-07-06 2023-10-31 北京邮电大学 一种基于图卷积网络和信息融合的实体对齐方法及装置

Also Published As

Publication number Publication date
CN112445876B (zh) 2023-12-26

Similar Documents

Publication Publication Date Title
CN112445876B (zh) 融合结构、属性和关系信息的实体对齐方法和系统
US20210065058A1 (en) Method, apparatus, device and readable medium for transfer learning in machine learning
CN111898364B (zh) 神经网络关系抽取方法、计算机设备及可读存储介质
JP7559263B2 (ja) テキストを認識するための方法および装置
CN112199532B (zh) 一种基于哈希编码和图注意力机制的零样本图像检索方法及装置
CN111666427A (zh) 一种实体关系联合抽取方法、装置、设备及介质
CN113065013B (zh) 图像标注模型训练和图像标注方法、系统、设备及介质
CN112015896B (zh) 基于人工智能的情感分类方法、以及装置
US12032605B2 (en) Searchable data structure for electronic documents
CN114357105A (zh) 地理预训练模型的预训练方法及模型微调方法
CN113065443A (zh) 图片识别模型的训练方法、识别方法、系统、设备和介质
CN109829065A (zh) 图像检索方法、装置、设备及计算机可读存储介质
CN118451423A (zh) 最优知识蒸馏方案
CN116518960A (zh) 路网更新方法、装置、电子设备和存储介质
CN116136870A (zh) 基于增强实体表示的智能社交对话方法、对话系统
CN113590578B (zh) 跨语言知识单元迁移方法、装置、存储介质及终端
CN114780777B (zh) 基于语义增强的跨模态检索方法及装置、存储介质和终端
CN117216194A (zh) 文博领域知识问答方法及装置、设备和介质
CN116992151A (zh) 一种基于双塔图卷积神经网络的在线课程推荐方法
CN114153996A (zh) 多图注意力协同的地学知识图谱更新方法和装置
CN109754306A (zh) 信息处理方法及装置、电子设备和计算机可读介质
CN113705293A (zh) 图像场景的识别方法、装置、设备及可读存储介质
CN112417260B (zh) 本地化推荐方法、装置及存储介质
CN114492377A (zh) 一种事件角色的标注方法和计算机设备、计算机可读存储介质
KR102585925B1 (ko) 이미지 기반의 학습 데이터를 수집하기 위한 장치 및 이를 위한 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant