CN112287123B - 一种基于边类型注意力机制的实体对齐方法及装置 - Google Patents

一种基于边类型注意力机制的实体对齐方法及装置 Download PDF

Info

Publication number
CN112287123B
CN112287123B CN202011301951.4A CN202011301951A CN112287123B CN 112287123 B CN112287123 B CN 112287123B CN 202011301951 A CN202011301951 A CN 202011301951A CN 112287123 B CN112287123 B CN 112287123B
Authority
CN
China
Prior art keywords
graph
entity
entities
node
embedding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011301951.4A
Other languages
English (en)
Other versions
CN112287123A (zh
Inventor
陈毅波
向行
熊帆
高建良
何智强
陈远扬
田建伟
蒋破荒
黄鑫
杨芳僚
孙毅臻
朱宏宇
祝视
张宇翔
李浩志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Hunan Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Hunan Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Hunan Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Hunan Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Hunan Electric Power Co Ltd, Information and Telecommunication Branch of State Grid Hunan Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202011301951.4A priority Critical patent/CN112287123B/zh
Publication of CN112287123A publication Critical patent/CN112287123A/zh
Application granted granted Critical
Publication of CN112287123B publication Critical patent/CN112287123B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Public Health (AREA)
  • Evolutionary Biology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于边类型注意力机制的实体对齐方法,包括构建电力知识图谱的类型对偶图;采用属性注意力机制训练类型对偶图的节点特征并得到类型对偶图中每个节点的嵌入;将类型对偶图中的节点转换为知识图谱中关系的注意力系数,并将知识图谱中的节点根据关系注意力系数聚集邻居实体与关系信息,并得到最终的结构化嵌入结果;计算损失函数的值并将不同知识图谱中实体进行对齐,得到不同知识图谱中实体对齐的实体对。本发明还公开了一种实现所述基于边类型注意力机制的实体对齐方法的装置。本发明拓宽了关系信息挖掘的思路,挖掘了实体的结构特征,而且精确度高、实用性好且简单可靠。

Description

一种基于边类型注意力机制的实体对齐方法及装置
技术领域
本发明属于电力系统大数据处理领域,具体涉及一种基于边类型注意力机制的实体对齐方法及装置。
背景技术
在大规模知识库构建的任务中,需要处理大量来自多源知识库的实体数据,它们通常以知识图谱的形式存储在知识库中,如图1所示。因此,在构建知识库之初,首先需建立一个知识融合方法来对多源知识图谱进行融合。由于不同知识库的信息来源不同,以及人工定义及校对的差异,语义上相同的实体在不同的知识库中会有不同的表现形式。具有相同名称的实体也许表示着语义上的同一事物,也许表示着两种事物。因此在知识融合前,需要推断来自不同知识库的不同实体是否指代现实世界中的同一客观对象,即实体对齐任务。如图2所示,在中文电力知识图谱子图中,电阻和金属分别是头实体和尾实体,材料是他们之间的关系,知识图谱实体对齐就是找图中虚线对应实体对,例如电阻对应resistance。
知识图谱实体对齐的关键是知识图谱嵌入,其思想是学习知识图谱的向量表示(称为嵌入),根据嵌入的相似性找到实体对齐。目前的实体对齐方法,大多都基于TransE(Translate Embedding)模型,把每个三元组(h,r,t)建模为h+r≈t的形式;但是,该方法忽略了结构信息对实体对齐带来的积极影响。后来,基于GCN模型,通过学习邻域的结构信息的嵌入,即汇集邻居信息,从而使得中心节点包含邻域结构特征来得到实体嵌入;这种结构信息的好处在于:如图2所示,实体“电阻器(resistor)”和实体“resistance(电阻)”是从维基百科上获取的对齐实体对,然而,仅从翻译过后的语义信息是无法判断他们是否对齐,因此通过聚集邻居节点,即通过“欧姆”与“ohm”、“金属”与“metal”的对齐来捕获更多关于“电阻器”和“resistance”对齐的证据。
然而,以上方法存在两个局限:一是无法自动感知关系类型的权重。关系类型权重能强化结构信息,如图2所示,“单位(unit)”这种关系能很好地表示实体的特征,例如“resistance(电阻)”的单位是“ohm(欧姆)”,ohm可以作为电阻的主要特征,因此在邻居聚集时应该赋予更高的权重,这个权重由关系“unit(单位)”表示。而以往的方法将邻居节点同等对待,因此不能感知关系的权重,也不能保证同类型的关系在训练过程中的一致性。二是关系属性没有得到充分的利用,对齐的节点对周围的关系也存在对齐,有效利用关系属性信息可以获得更好的实体嵌入,例如在图2中,中文实体电阻器相连的关系种类、单位、材料,与英文实体resistance相连的关系type(种类)、unit(单位)、material(材料)是对齐的。
综上所述,当前的知识图谱实体对齐方法忽略了关系类型信息在实体对齐方面的作用。
发明内容
本发明的目的之一在于提供一种精确度高、实用性好且简单可靠的基于边类型注意力机制的实体对齐方法。
本发明的目的之二在于提供一种实现所述基于边类型注意力机制的实体对齐方法的装置。
本发明提供的这种基于边类型注意力机制的实体对齐方法,包括如下步骤:
S1.以电力知识图谱实体对齐为例,构建电力知识图谱的类型对偶图;
S2.采用属性注意力机制训练步骤S1得到的类型对偶图的节点特征,从而得到类型对偶图中每个节点的嵌入,并使得相同类型关系在训练过程中保持一致;
S3.将类型对偶图中的节点转换为知识图谱中关系的注意力系数,并将知识图谱中的节点根据关系注意力系数聚集邻居实体与关系信息,从而得到最终的结构化嵌入结果;
S4.根据不同知识图谱中对齐实体嵌入的距离,计算损失函数的值,从而将不同知识图谱中实体进行对齐,得到不同知识图谱中实体对齐的实体对。
步骤S1所述的构建电力知识图谱的类型对偶图,具体为采用如下步骤构建类型对偶图:
给定跨语言知识图谱G1和G2,将原始电力知识图谱表示为G1和G2的融合ge=(Vee),其中节点集合Ve为G1和G2的实体集合,边集合εe为G1和G2中所有关系的集合;同时,对齐的实体在ge中并未连接;ge的类型对偶图表示为gr,在ge中每种类型的边被描述为类型对偶图gr中的节点vr;同时边ri和rj在电力知识图谱中共同与一个实体信息连接时,此时对应的类型对偶图gr中节点
Figure BDA0002787113490000031
Figure BDA0002787113490000032
被边wij连接,且边wij的权重为边ri和rj共享头实体或尾实体的节点的数量与边ri和rj连接的头实体或尾实体数量的比值。
所述的边wij的权重,具体为采用如下公式计算权重wij
Figure BDA0002787113490000033
式中Hi为边ri在原始图中的头实体的集合,Hj为边rj在原始图中的头实体的集合,Ti为边ri在原始图中的尾实体的集合,Tj为边rj在原始图中的尾实体的集合。
步骤S2所述的采用属性注意力机制训练步骤S1得到的类型对偶图的节点特征,具体为在类型对偶图中,每个节点通过自注意力机制加权距离邻居节点信息,并采用如下算式计算得到注意力分数
Figure BDA0002787113490000041
从而得到类型对偶图中节点i的嵌入
Figure BDA0002787113490000042
Figure BDA0002787113490000043
Figure BDA0002787113490000044
式中
Figure BDA0002787113490000045
Figure BDA0002787113490000046
Figure BDA0002787113490000047
之间的注意力分数;ξ为激活函数Leaky ReLU;
Figure BDA0002787113490000048
为类型对偶图中边权重;a1为用于将输入映射成标量的全连接层;W1为用于训练的权重矩阵且
Figure BDA0002787113490000049
其中d是矩阵的维度;ri和rj为电力知识图谱中的边;
Figure BDA00027871134900000410
为类型对偶图中节点
Figure BDA00027871134900000411
的邻居集合;||为将两个向量连接的操作符;σ为激活函数RELU。
步骤S3所述的将类型对偶图中的节点转换为知识图谱中关系的注意力系数,并将知识图谱中的节点根据关系注意力系数聚集邻居实体与关系信息,从而得到最终的结构化嵌入结果,具体为采用如下步骤得到最终的结构化嵌入结果:
A.采用如下算式,将关系嵌入映射到权重系数:
Figure BDA00027871134900000412
式中
Figure BDA00027871134900000413
为得到的与节点q连接的关系i的权重系数;ξ为激活函数Leaky ReLU,a2为全连接层,
Figure BDA0002787113490000051
为类型对偶图中节点j的嵌入,即关系j的嵌入;
Figure BDA0002787113490000052
为节点q的邻居关系的集合;
B.根据步骤A得到的权重系数,采用如下算式聚合邻居节点信息,从而得到节点周围的子结构信息,增强节点的表示;
Figure BDA0002787113490000053
Figure BDA0002787113490000054
式中
Figure BDA0002787113490000055
为邻域聚合操作过程中的关系类型信息;σ为激活函数RELU;ri为关系i的初始嵌入;
Figure BDA0002787113490000056
为邻域聚合操作过程中的结构信息;
Figure BDA0002787113490000057
为与实体q邻居集合中通过关系i相连的邻居;xt为实体t的初始嵌入;
C.采用如下算式,将步骤B得到的关系类型信息和结构信息进行融合,从而得到最终的实体:
Figure BDA0002787113490000058
式中
Figure BDA0002787113490000059
为节点q整合了结构以及关系信息的嵌入结果;xq为节点q在电力知识图谱中的初始化;||为连接符号。
步骤S4所述的根据不同知识图谱中对齐实体嵌入的距离,计算损失函数的值,从而将不同知识图谱中实体进行对齐,得到不同知识图谱中实体对齐的实体对,具体为采用如下步骤得到实体对:
a.采用如下算式计算不同只是图谱节点嵌入的距离:
Figure BDA00027871134900000510
式中d(e1,e2)为节点e1和e2之间的距离;
Figure BDA0002787113490000061
为实体e1的最终嵌入;
b.根据步骤a计算得到的距离,针对某个节点,选取在另一个电力知识图谱中距离最近的点作为匹配的对齐节点;
c.采用如下算式,减小真实匹配实体对之间的距离,增大负匹配实体之间的距离,从而达到减小损失的效果:
Figure BDA0002787113490000062
式中p和q表示不同知识图谱中的对齐实体;LL为对齐种子的集合;p'和q'为负样本的对齐实体;LL'为负对齐实体对集合;d(p,q)为正样本中实体p与q之间的距离;d(p',q')为负样本中实体p'与q'之间的距离;γ为超参数;
d.根据损失训练得到最终的实体嵌入表示,搜索不同知识图谱中距离最近的实体,将其作为对齐实体。
本发明还提供了一种实现所述基于边类型注意力机制的实体对齐方法的装置,包括类型对偶图构建模块、对偶图嵌入获取模块、结构化嵌入结果获取模块和实体对齐模块;类型对偶图构建模块、对偶图嵌入获取模块、结构化嵌入结果获取模块和实体对齐模块依次串联;类型对偶图构建模块用于构建电力知识图谱的类型对偶图,并将构建的结果上传对偶图嵌入获取模块;对偶图嵌入获取模块用于根据获取的数据,采用属性注意力机制训练类型对偶图的节点特征,从而得到类型对偶图中每个节点的嵌入,并使得相同类型关系在训练过程中保持一致,并最终将结果上传结构化嵌入结果获取模块;结构化嵌入结果获取模块用于将类型对偶图中的节点转换为知识图谱中关系的注意力系数,并将知识图谱中的节点根据关系注意力系数聚集邻居实体与关系信息,从而得到结构化嵌入结果,并上传实体对齐模块;实体对齐模块用于根据不同知识图谱中对齐实体嵌入的距离,计算损失函数的值,从而将不同知识图谱中实体进行对齐,得到并输出不同知识图谱中实体对齐的实体对。
本发明提供的这种基于边类型注意力机制的实体对齐方法及装置,利用边类型注意力机制将知识图谱的关系属性转换成实体之间的注意力系数,同时知识图谱中实体根据注意力系数加权聚集邻居实体及关系信息,获得新的实体嵌入;基于边类型注意力机制的知识图谱实体对齐方法一方面在挖掘实体结构特征时保持相同类型关系在训练过程中的一致性;另一方面将关系信息和实体信息都考虑到实体对齐,充分利用图的属性特征(包括点和边),有效优化了实体的嵌入表示,大大提高了实体对齐的精确度,本发明方法拓宽了关系信息挖掘的思路,挖掘了实体的结构特征,而且精确度高、实用性好且简单可靠。
附图说明
图1为不同源的电力知识图谱示意图。
图2为知识图谱实体对齐示意图。
图3为本发明方法的方法流程示意图。
图4为本发明方法的类型对偶图示意图。
图5为本发明方法的边类型注意力机制示意图。
图6为本发明装置的功能模块图。
具体实施方式
如图3所示为本发明方法的方法流程示意图:本发明提供的这种基于边类型注意力机制的实体对齐方法,包括如下步骤:
S1.以电力知识图谱实体对齐为例,构建电力知识图谱的类型对偶图;具体为采用如下步骤构建类型对偶图:
知识图谱的一类边表示类型对偶图中的节点,知识图谱种两种边共同连接一个点,那么其对应类型对偶图中的点之间存在边相连。类型对偶图示意图如图4所示,电力知识图谱为G,类型对偶图为Gr,假设原始知电力识图谱中有三类边r1、r2和r3,对应类型对偶图的三个节点,其中在电力知识图谱中r1和r2有x3这个共有节点,因此它们在类型对偶图中有边相连,表示为w12
因此,给定跨语言知识图谱G1和G2,将原始电力知识图谱表示为G1和G2的融合ge=(Vee),其中节点集合Ve为G1和G2的实体集合,边集合εe为G1和G2中所有关系的集合;同时,对齐的实体在ge中并未连接;ge的类型对偶图表示为gr,在ge中每种类型的边被描述为类型对偶图gr中的节点vr;同时边ri和rj在电力知识图谱中共同与一个实体信息连接时,此时对应的类型对偶图gr中节点vi r和vj r被边wij连接,且边wij的权重为边ri和rj共享头实体或尾实体的节点的数量与边ri和rj连接的头实体或尾实体数量的比值;
其中,采用如下公式计算权重wij
Figure BDA0002787113490000081
式中Hi为边ri在原始图中的头实体的集合,Hj为边rj在原始图中的头实体的集合,Ti为边ri在原始图中的尾实体的集合,Tj为边rj在原始图中的尾实体的集合;
S2.采用属性注意力机制训练步骤S1得到的类型对偶图的节点特征,从而得到类型对偶图中每个节点的嵌入,并使得相同类型关系在训练过程中保持一致;具体为在类型对偶图中,每个节点通过自注意力机制加权距离邻居节点信息,并采用如下算式计算得到注意力分数
Figure BDA0002787113490000082
从而得到类型对偶图节点i的嵌入
Figure BDA0002787113490000083
Figure BDA0002787113490000091
Figure BDA0002787113490000092
式中
Figure BDA0002787113490000093
Figure BDA0002787113490000094
Figure BDA0002787113490000095
之间的注意力分数;ξ为激活函数Leaky ReLU;
Figure BDA0002787113490000096
为类型对偶图中边权重;a1为用于将输入映射成标量的全连接层;W1为用于训练的权重矩阵且
Figure BDA0002787113490000097
其中d是矩阵的维度;ri和rj为电力知识图谱中的边;
Figure BDA0002787113490000098
为类型对偶图中节点
Figure BDA0002787113490000099
的邻居集合;||为将两个向量连接的操作符;σ为激活函数RELU;
S3.将类型对偶图中的节点转换为知识图谱中关系的注意力系数,并将知识图谱中的节点根据关系注意力系数聚集邻居实体与关系信息,从而得到最终的结构化嵌入结果;
本步骤将类型对偶图中的节点转换为知识图谱中关系的注意力系数,且同一类型的关系的嵌入与注意力系数相同,知识图谱中节点根据关系注意力系数聚集邻居实体与关系信息,获得最终的结构化嵌入,具体过程如图5所示;
采用如下步骤得到最终的结构化嵌入结果:
A.采用如下算式,将关系嵌入映射到权重系数:
Figure BDA00027871134900000910
式中
Figure BDA00027871134900000911
为得到的与节点q连接的关系i的权重系数;ξ为激活函数Leaky ReLU,a2为全连接层,
Figure BDA00027871134900000912
为类型对偶图中节点j的嵌入,即关系j的嵌入;
Figure BDA00027871134900000913
为节点q的邻居关系的集合;
B.根据步骤A得到的权重系数,采用如下算式聚合邻居节点信息,从而得到节点周围的子结构信息,增强节点的表示;
Figure BDA0002787113490000101
Figure BDA0002787113490000102
式中
Figure BDA0002787113490000103
为邻域聚合操作过程中的关系类型信息;σ为激活函数RELU;ri为关系i的初始嵌入;
Figure BDA0002787113490000104
为邻域聚合操作过程中的结构信息;
Figure BDA0002787113490000105
为与实体q邻居集合中通过关系i相连的邻居;xt为实体t的初始嵌入;
C.采用如下算式,将步骤B得到的关系类型信息和结构信息进行融合,从而得到最终的实体:
Figure BDA0002787113490000106
式中
Figure BDA0002787113490000107
为节点q整合了结构以及关系信息的嵌入结果;xq为节点q在电力知识图谱中的初始化;||为连接符号;
S4.根据不同知识图谱中对齐实体嵌入的距离,计算损失函数的值,从而将不同知识图谱中实体进行对齐,得到不同知识图谱中实体对齐的实体对;具体为采用如下步骤得到实体对:
a.采用如下算式计算不同只是图谱节点嵌入的距离:
Figure BDA0002787113490000108
式中d(e1,e2)为节点e1和e2之间的距离;
Figure BDA0002787113490000109
为实体e1的最终嵌入;
b.根据步骤a计算得到的距离,针对某个节点,选取在另一个电力知识图谱中距离最近的点作为匹配的对齐节点;
c.采用如下算式,减小真实匹配实体对之间的距离,增大负匹配实体之间的距离,从而达到减小损失的效果:
Figure BDA0002787113490000111
式中p和q表示不同知识图谱中的对齐实体;LL为对齐种子的集合;p'和q'为负样本的对齐实体;LL'为负对齐实体对集合;d(p,q)为正样本中实体p与q之间的距离;d(p',q')为负样本中实体p'与q'之间的距离;γ为超参数;
d.根据损失训练得到最终的实体嵌入表示,搜索不同知识图谱中距离最近的实体,将其作为对齐实体。
如图6所示为本发明装置的功能模块图:本发明提供的这种实现所述基于边类型注意力机制的实体对齐方法的装置,包括类型对偶图构建模块、对偶图嵌入获取模块、结构化嵌入结果获取模块和实体对齐模块;类型对偶图构建模块、对偶图嵌入获取模块、结构化嵌入结果获取模块和实体对齐模块依次串联;类型对偶图构建模块用于构建电力知识图谱的类型对偶图,并将构建的结果上传对偶图嵌入获取模块;对偶图嵌入获取模块用于根据获取的数据,采用属性注意力机制训练类型对偶图的节点特征,从而得到类型对偶图中每个节点的嵌入,并使得相同类型关系在训练过程中保持一致,并最终将结果上传结构化嵌入结果获取模块;结构化嵌入结果获取模块用于将类型对偶图中的节点转换为知识图谱中关系的注意力系数,并将知识图谱中的节点根据关系注意力系数聚集邻居实体与关系信息,从而得到结构化嵌入结果,并上传实体对齐模块;实体对齐模块用于根据不同知识图谱中对齐实体嵌入的距离,计算损失函数的值,从而将不同知识图谱中实体进行对齐,得到并输出不同知识图谱中实体对齐的实体对。

Claims (6)

1.一种基于边类型注意力机制的实体对齐方法,包括如下步骤:
S1.构建电力知识图谱的类型对偶图;
S2.采用属性注意力机制训练步骤S1得到的类型对偶图的节点特征,从而得到类型对偶图中每个节点的嵌入,并使得相同类型关系在训练过程中保持一致;
S3.将类型对偶图中的节点转换为知识图谱中关系的注意力系数,并将知识图谱中的节点根据关系注意力系数聚集邻居实体与关系信息,从而得到最终的结构化嵌入结果;具体为采用如下步骤得到最终的结构化嵌入结果:
A.采用如下算式,将关系嵌入映射到权重系数:
Figure FDA0003307615750000011
式中
Figure FDA0003307615750000012
为得到的与节点q连接的关系i的权重系数;ξ为激活函数Leaky ReLU,a2为全连接层,
Figure FDA0003307615750000013
为类型对偶图中节点j的嵌入,即关系j的嵌入;
Figure FDA0003307615750000014
为节点q的邻居关系的集合;
B.根据步骤A得到的权重系数,采用如下算式聚合邻居节点信息,从而得到节点周围的子结构信息,增强节点的表示;
Figure FDA0003307615750000015
Figure FDA0003307615750000016
式中
Figure FDA0003307615750000017
为邻域聚合操作过程中的关系类型信息;σ为激活函数RELU;ri为关系i的初始嵌入;
Figure FDA0003307615750000021
为邻域聚合操作过程中的结构信息;
Figure FDA0003307615750000022
为与实体q邻居集合中通过关系i相连的邻居;xt为实体t的初始嵌入;
C.采用如下算式,将步骤B得到的关系类型信息和结构信息进行融合,从而得到最终的实体:
Figure FDA0003307615750000023
式中
Figure FDA0003307615750000024
为节点q整合了结构以及关系信息的嵌入结果;xq为节点q在电力知识图谱中的初始化;||为连接符号;
S4.根据不同知识图谱中对齐实体嵌入的距离,计算损失函数的值,从而将不同知识图谱中实体进行对齐,得到不同知识图谱中实体对齐的实体对。
2.根据权利要求1所述的一种基于边类型注意力机制的实体对齐方法,其特征在于步骤S1所述的构建电力知识图谱的类型对偶图,具体为采用如下步骤构建类型对偶图:
给定跨语言知识图谱G1和G2,将原始电力知识图谱表示为G1和G2的融合ge=(Vee),其中节点集合Ve为G1和G2的实体集合,边集合εe为G1和G2中所有关系的集合;同时,对齐的实体在ge中并未连接;ge的类型对偶图表示为gr,在ge中每种类型的边被描述为类型对偶图gr中的节点vr;同时边ri和rj在电力知识图谱中共同与一个实体信息连接时,此时对应的类型对偶图gr中节点
Figure FDA0003307615750000025
Figure FDA0003307615750000026
被边wij连接,且边wij的权重为边ri和rj共享头实体或尾实体的节点的数量与边ri和rj连接的头实体或尾实体数量的比值。
3.根据权利要求2所述的一种基于边类型注意力机制的实体对齐方法,其特征在于所述的边wij的权重,具体为采用如下公式计算权重wij
Figure FDA0003307615750000031
式中Hi为边ri在原始图中的头实体的集合,Hj为边rj在原始图中的头实体的集合,Ti为边ri在原始图中的尾实体的集合,Tj为边rj在原始图中的尾实体的集合。
4.根据权利要求3所述的一种基于边类型注意力机制的实体对齐方法,其特征在于步骤S2所述的采用属性注意力机制训练步骤S1得到的类型对偶图的节点特征,具体为在类型对偶图中,每个节点通过自注意力机制加权距离邻居节点信息,并采用如下算式计算得到注意力分数
Figure FDA0003307615750000032
从而得到类型对偶图节点i的嵌入
Figure FDA0003307615750000033
Figure FDA0003307615750000034
Figure FDA0003307615750000035
式中
Figure FDA0003307615750000036
Figure FDA0003307615750000037
Figure FDA0003307615750000038
之间的注意力分数;ξ为激活函数Leaky ReLU;
Figure FDA0003307615750000039
为类型对偶图中边权重;a1为用于将输入映射成标量的全连接层;W1为用于训练的权重矩阵且
Figure FDA00033076157500000310
其中d是矩阵的维度;ri和rj为电力知识图谱中的边;
Figure FDA00033076157500000311
为类型对偶图中节点
Figure FDA00033076157500000312
的邻居集合;||为将两个向量连接的操作符;σ为激活函数RELU。
5.根据权利要求4所述的一种基于边类型注意力机制的实体对齐方法,其特征在于步骤S4所述的根据不同知识图谱中对齐实体嵌入的距离,计算损失函数的值,从而将不同知识图谱中实体进行对齐,得到不同知识图谱中实体对齐的实体对,具体为采用如下步骤得到实体对:
a.采用如下算式计算不同只是图谱节点嵌入的距离:
Figure FDA0003307615750000041
式中d(e1,e2)为节点e1和e2之间的距离;
Figure FDA0003307615750000042
为实体e1的最终嵌入;
b.根据步骤a计算得到的距离,针对某个节点,选取在另一个电力知识图谱中距离最近的点作为匹配的对齐节点;
c.采用如下算式,减小真实匹配实体对之间的距离,增大负匹配实体之间的距离,从而达到减小损失的效果:
L=∑(p,q)∈LL(p',q')∈LL'max{0,d(p,q)-d(p',q')+γ}
式中p和q表示不同知识图谱中的对齐实体;LL为对齐种子的集合;p'和q'为负样本的对齐实体;LL'为负对齐实体对集合;d(p,q)为正样本中实体p与q之间的距离;d(p',q')为负样本中实体p'与q'之间的距离;γ为超参数;
d.根据损失训练得到最终的实体嵌入表示,搜索不同知识图谱中距离最近的实体,将其作为对齐实体。
6.一种实现权利要求1~5之一所述的基于边类型注意力机制的实体对齐方法的装置,其特征在于包括类型对偶图构建模块、对偶图嵌入获取模块、结构化嵌入结果获取模块和实体对齐模块;类型对偶图构建模块、对偶图嵌入获取模块、结构化嵌入结果获取模块和实体对齐模块依次串联;类型对偶图构建模块用于构建电力知识图谱的类型对偶图,并将构建的结果上传对偶图嵌入获取模块;对偶图嵌入获取模块用于根据获取的数据,采用属性注意力机制训练类型对偶图的节点特征,从而得到类型对偶图中每个节点的嵌入,并使得相同类型关系在训练过程中保持一致,并最终将结果上传结构化嵌入结果获取模块;结构化嵌入结果获取模块用于将类型对偶图中的节点转换为知识图谱中关系的注意力系数,并将知识图谱中的节点根据关系注意力系数聚集邻居实体与关系信息,从而得到结构化嵌入结果,并上传实体对齐模块;实体对齐模块用于根据不同知识图谱中对齐实体嵌入的距离,计算损失函数的值,从而将不同知识图谱中实体进行对齐,得到并输出不同知识图谱中实体对齐的实体对。
CN202011301951.4A 2020-11-19 2020-11-19 一种基于边类型注意力机制的实体对齐方法及装置 Active CN112287123B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011301951.4A CN112287123B (zh) 2020-11-19 2020-11-19 一种基于边类型注意力机制的实体对齐方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011301951.4A CN112287123B (zh) 2020-11-19 2020-11-19 一种基于边类型注意力机制的实体对齐方法及装置

Publications (2)

Publication Number Publication Date
CN112287123A CN112287123A (zh) 2021-01-29
CN112287123B true CN112287123B (zh) 2022-02-22

Family

ID=74398779

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011301951.4A Active CN112287123B (zh) 2020-11-19 2020-11-19 一种基于边类型注意力机制的实体对齐方法及装置

Country Status (1)

Country Link
CN (1) CN112287123B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112800770B (zh) * 2021-04-15 2021-07-09 南京樯图数据研究院有限公司 一种基于异构图注意力网络的实体对齐方法
CN113111134A (zh) * 2021-04-21 2021-07-13 山东省人工智能研究院 一种基于自编码和注意力机制的异构图节点特征嵌入方法
CN113609896B (zh) * 2021-06-22 2023-09-01 武汉大学 基于对偶相关注意力的对象级遥感变化检测方法及系统
CN114942998B (zh) * 2022-04-25 2024-02-13 西北工业大学 融合多源数据的知识图谱邻域结构稀疏的实体对齐方法
CN116069956B (zh) * 2023-03-29 2023-07-04 之江实验室 基于混合注意力机制的药物知识图谱实体对齐方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413704A (zh) * 2019-06-27 2019-11-05 浙江大学 基于加权邻居信息编码的实体对齐方法
CN110472065A (zh) * 2019-07-25 2019-11-19 电子科技大学 基于gcn孪生网络的跨语言知识图谱实体对齐方法
CN111680488A (zh) * 2020-06-08 2020-09-18 浙江大学 基于知识图谱多视角信息的跨语言实体对齐方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330125B (zh) * 2017-07-20 2020-06-30 云南电网有限责任公司电力科学研究院 基于知识图谱技术的海量非结构化配网数据集成方法
US11544535B2 (en) * 2019-03-08 2023-01-03 Adobe Inc. Graph convolutional networks with motif-based attention
CN110727741A (zh) * 2019-09-29 2020-01-24 全球能源互联网研究院有限公司 一种电力系统的知识图谱构建方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413704A (zh) * 2019-06-27 2019-11-05 浙江大学 基于加权邻居信息编码的实体对齐方法
CN110472065A (zh) * 2019-07-25 2019-11-19 电子科技大学 基于gcn孪生网络的跨语言知识图谱实体对齐方法
CN111680488A (zh) * 2020-06-08 2020-09-18 浙江大学 基于知识图谱多视角信息的跨语言实体对齐方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Relation-Aware Entity Alignment for Heterogenous Knowledge Graphs;Yuting Wu;《arXiv》;20190822;第1-7页 *

Also Published As

Publication number Publication date
CN112287123A (zh) 2021-01-29

Similar Documents

Publication Publication Date Title
CN112287123B (zh) 一种基于边类型注意力机制的实体对齐方法及装置
CN110162593B (zh) 一种搜索结果处理、相似度模型训练方法及装置
CN111061856B (zh) 一种基于知识感知的新闻推荐方法
CN110825904B (zh) 一种图像匹配方法、装置、电子设备和存储介质
CN108304380B (zh) 一种融合学术影响力的学者人名消除歧义的方法
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN111753189A (zh) 一种少样本跨模态哈希检索共同表征学习方法
CN108009154A (zh) 一种基于深度学习模型的图像中文描述方法
CN112199532B (zh) 一种基于哈希编码和图注意力机制的零样本图像检索方法及装置
CN110955780A (zh) 一种用于知识图谱的实体对齐方法
CN112988917B (zh) 一种基于多种实体上下文的实体对齐方法
CN110765882B (zh) 一种视频标签确定方法、装置、服务器及存储介质
CN114358188A (zh) 特征提取模型处理、样本检索方法、装置和计算机设备
CN114090783A (zh) 一种异构知识图谱融合方法及系统
CN104156433A (zh) 一种基于语义映射空间构建的图像检索方法
CN109145083B (zh) 一种基于深度学习的候选答案选取方法
CN112541132A (zh) 基于多视图知识表示的跨领域推荐方法
CN110442618B (zh) 融合专家信息关联关系的卷积神经网络评审专家推荐方法
CN113590874B (zh) 一种视频定位方法及装置、模型训练方法及设备
CN113705596A (zh) 图像识别方法、装置、计算机设备和存储介质
CN114254093A (zh) 多空间知识增强的知识图谱问答方法及系统
CN114780777B (zh) 基于语义增强的跨模态检索方法及装置、存储介质和终端
CN113065409A (zh) 一种基于摄像分头布差异对齐约束的无监督行人重识别方法
CN116975350A (zh) 图文检索方法、装置、设备及存储介质
CN111241326A (zh) 基于注意力金字塔图网络的图像视觉关系指代定位方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant