CN112800770B - 一种基于异构图注意力网络的实体对齐方法 - Google Patents

一种基于异构图注意力网络的实体对齐方法 Download PDF

Info

Publication number
CN112800770B
CN112800770B CN202110405963.XA CN202110405963A CN112800770B CN 112800770 B CN112800770 B CN 112800770B CN 202110405963 A CN202110405963 A CN 202110405963A CN 112800770 B CN112800770 B CN 112800770B
Authority
CN
China
Prior art keywords
entity
entities
vector
type
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110405963.XA
Other languages
English (en)
Other versions
CN112800770A (zh
Inventor
王晓
杨林瑶
程振荣
辛柯俊
王飞跃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Qiangtu Data Research Institute Co ltd
Original Assignee
Nanjing Qiangtu Data Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Qiangtu Data Research Institute Co ltd filed Critical Nanjing Qiangtu Data Research Institute Co ltd
Priority to CN202110405963.XA priority Critical patent/CN112800770B/zh
Publication of CN112800770A publication Critical patent/CN112800770A/zh
Application granted granted Critical
Publication of CN112800770B publication Critical patent/CN112800770B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于异构图注意力网络的实体对齐方法,首先,基于聚类将实体划分为不同类别;然后,基于异构图注意力网络学习实体的嵌入向量;基于实体嵌入向量计算不同实体类别之间的相似性,结合向量相似性得到任意实体对的相似性;最后,将实体对齐问题建模为整数规划问题,通过求解获得满足一对一对齐约束的对齐结果。本发明不仅时间复杂度低,而且实体对齐精度高。

Description

一种基于异构图注意力网络的实体对齐方法
技术领域
本发明属于知识融合领域,具体地涉及实体对齐相关的基于异构图注意力网络的实体对齐方法。
背景技术
随着知识库规模的扩大和实体数量的增加,不同知识库之间的实体链接的重要性日益凸显,多知识图谱的实体对齐成为研究的热点方向。
目前的实体对齐相关技术与方法来源于数据库中的实体匹配,但是,在实际应用中,存在许多问题和挑战,其中最突出的是计算复杂度、数据对齐质量的问题。在大数据条件下,知识库数据量庞大繁杂,传统的实体对齐算法时间复杂度高,实体对齐精度不足。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种时间复杂度低、实体对齐精度高的基于异构图注意力网络的实体对齐方法。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于异构图注意力网络的实体对齐方法,包括以下步骤:
步骤1,基于BERT预训练实体名称得到的词向量,根据词向量计算得到实体语义名 称向量,并根据得到的实体语义名称向量进行聚类,将实体划分为
Figure 100002_DEST_PATH_IMAGE001
类,得到实体类别信 息。
步骤2,根据步骤1得到的实体语义名称向量和实体类别信息采用异构图注意力网络聚合不同类别的邻居信息,学习更新实体嵌入向量。
基于异构图注意力网络聚合邻居实体的信息以学习实体嵌入向量,实体嵌入向量更新公式为:
Figure 100002_DEST_PATH_IMAGE002
其中,
Figure 100002_DEST_PATH_IMAGE003
为非线性激活函数,
Figure 100002_DEST_PATH_IMAGE004
表示类型
Figure 100002_DEST_PATH_IMAGE005
相关的邻接矩阵,其每一行表示一 种实体,每一列表示一个类型为
Figure 100002_DEST_PATH_IMAGE006
的邻居实体,
Figure 100002_DEST_PATH_IMAGE007
表示所有实体在神经网络第
Figure 100002_DEST_PATH_IMAGE008
层的嵌入向量矩阵,
Figure 100002_DEST_PATH_IMAGE009
表示类型为
Figure 293453DEST_PATH_IMAGE006
的邻居实体在神经网络第
Figure 100002_DEST_PATH_IMAGE010
层的嵌 入向量矩阵,
Figure 100002_DEST_PATH_IMAGE011
是类型
Figure 210594DEST_PATH_IMAGE006
实体的特征变换矩阵。
将实体嵌入向量更新公式分解为节点级注意力和类型级注意力,实体嵌入向量更 新公式由节点级注意力和类型级注意力结合更新得到,将类型
Figure 928014DEST_PATH_IMAGE006
相关的注意力权重矩阵作 为类型
Figure 323223DEST_PATH_IMAGE006
相关的邻接矩阵
Figure 100002_DEST_PATH_IMAGE012
,其
Figure 100002_DEST_PATH_IMAGE013
Figure 100002_DEST_PATH_IMAGE014
列的元素即为实体
Figure 100002_DEST_PATH_IMAGE015
与类型为
Figure 590126DEST_PATH_IMAGE006
的邻居
Figure 412588DEST_PATH_IMAGE014
的节点级注意力权重
Figure 100002_DEST_PATH_IMAGE016
采用损失函数训练异构图注意力网络,通过最小化已知对齐实体的嵌入向量距离得到最佳的实体表示向量。
损失函数为:
Figure 100002_DEST_PATH_IMAGE017
其中,
Figure 100002_DEST_PATH_IMAGE018
表示异构图注意力网络的损失函数,
Figure 100002_DEST_PATH_IMAGE019
表示分属于知识图谱一
Figure 100002_DEST_PATH_IMAGE020
和知识图谱二
Figure 100002_DEST_PATH_IMAGE021
的一对等价实体,
Figure 100002_DEST_PATH_IMAGE022
表示知识图谱一
Figure 351725DEST_PATH_IMAGE020
中的一个实体,
Figure 100002_DEST_PATH_IMAGE023
表示知识图谱二
Figure 504620DEST_PATH_IMAGE021
中的一个实体,
Figure 100002_DEST_PATH_IMAGE024
表示一组等价实体对,
Figure 100002_DEST_PATH_IMAGE025
表示知识图谱二
Figure 173499DEST_PATH_IMAGE021
中的一个实体 二,
Figure 100002_DEST_PATH_IMAGE026
表示一组不等价的实体对,
Figure 100002_DEST_PATH_IMAGE027
表示两个向量之间的欧式距离,
Figure 100002_DEST_PATH_IMAGE028
表示已知的对齐种子集合,
Figure 100002_DEST_PATH_IMAGE029
表示负样本集合,在每一轮迭代之前,通过选取
Figure 838966DEST_PATH_IMAGE021
中与
Figure 100002_DEST_PATH_IMAGE030
的嵌入向量距离最小的实体与
Figure 100002_DEST_PATH_IMAGE031
结合形成本轮训练的负样本,
Figure 100002_DEST_PATH_IMAGE032
表示一个正的阈 值,
Figure 100002_DEST_PATH_IMAGE033
表示
Figure 100002_DEST_PATH_IMAGE034
函数。
步骤3,基于实体对嵌入向量的距离计算不同实体类别之间的相似性,结合嵌入向量相似性得到实体对之间的相似性。
实体
Figure 100002_DEST_PATH_IMAGE035
,实体
Figure 100002_DEST_PATH_IMAGE036
表示知识图谱一
Figure 983509DEST_PATH_IMAGE020
中的实体类别一,
Figure 100002_DEST_PATH_IMAGE037
表示知识图谱二
Figure 720521DEST_PATH_IMAGE021
中的实体类别二,实体类别一包含的所有实体的嵌入向量为
Figure 100002_DEST_PATH_IMAGE038
Figure 100002_DEST_PATH_IMAGE039
表示类别一的实体数量,实体类别二包含的所 有实体的嵌入向量为
Figure 100002_DEST_PATH_IMAGE040
Figure 100002_DEST_PATH_IMAGE041
表示类别二的实体数量,基于所 含实体的成对嵌入向量之间的距离得到实体类别一和实体类别二之间的相似性:
Figure 100002_DEST_PATH_IMAGE042
其中,
Figure 100002_DEST_PATH_IMAGE043
表示实体类别一和实体类别二之间的相似性,
Figure 100002_DEST_PATH_IMAGE044
s是一个 足够大的正数,一般取10。结合实体所属类别之间的相似性,实体
Figure 100002_DEST_PATH_IMAGE045
与实体
Figure 100002_DEST_PATH_IMAGE046
之间的相 似性为:
Figure 100002_DEST_PATH_IMAGE047
其中,
Figure 100002_DEST_PATH_IMAGE048
表示实体
Figure 100002_DEST_PATH_IMAGE049
与实体
Figure 100002_DEST_PATH_IMAGE050
之间的相似性,
Figure 100002_DEST_PATH_IMAGE051
为足够大 的常数,一般取20。根据实体
Figure 683054DEST_PATH_IMAGE049
与实体
Figure DEST_PATH_IMAGE052
之间的相似性得到两知识图谱实体相似性矩 阵。
步骤4,结合两知识图谱实体相似性矩阵,基于0-1整数规划识别等价实体对,得到实体对齐结果。
将等价实体对的识别问题建模为0-1整数规划问题,其目标函数为:
Figure 100002_DEST_PATH_IMAGE053
约束为:
Figure 100002_DEST_PATH_IMAGE054
其中,
Figure 100002_DEST_PATH_IMAGE055
表示实体
Figure 100002_DEST_PATH_IMAGE056
之间的相似性
Figure 100002_DEST_PATH_IMAGE057
为对应的 0-1决策变量,其值为1表示实体
Figure 785002DEST_PATH_IMAGE049
和实体
Figure 26628DEST_PATH_IMAGE050
对齐,否则,其值为0。求解0-1整数规划问 题,得到满足一对一约束的优化的对齐结果。
优选的:步骤1中根据实体名称,检索其所含字符的BERT预训练所得词向量,利用幂平均运算得到实体语义名称向量,具体方式为:
实体名称的词向量包括
Figure 100002_DEST_PATH_IMAGE058
,幂平均运算形式化为
Figure 100002_DEST_PATH_IMAGE059
,其中,
Figure 100002_DEST_PATH_IMAGE060
表示实体名称中第
Figure 100002_DEST_PATH_IMAGE061
个字符的词向 量,
Figure 100002_DEST_PATH_IMAGE062
表示字符数,
Figure 100002_DEST_PATH_IMAGE063
表示维度为
Figure 100002_DEST_PATH_IMAGE064
的向量空间,
Figure 100002_DEST_PATH_IMAGE065
表示词向量的维数,
Figure 100002_DEST_PATH_IMAGE066
表示幂平 均参数,
Figure 100002_DEST_PATH_IMAGE067
表示实数集合。基于幂平均运算形式计算,得到第
Figure 100002_DEST_PATH_IMAGE068
个实体的实体语义名称 向量
Figure 100002_DEST_PATH_IMAGE069
优选的:幂平均参数
Figure 114800DEST_PATH_IMAGE066
根据幂平均计算方法确定:使用算数平均时,
Figure 758271DEST_PATH_IMAGE066
为1;使 用谐波平均时,
Figure 93438DEST_PATH_IMAGE066
为-1。
优选的:步骤1中根据实体语义名称向量采用K-means聚类方法将实体划分为
Figure 100002_DEST_PATH_IMAGE070
类的方法:
随机选取
Figure 822359DEST_PATH_IMAGE070
个中心点,将每个实体分配到向量欧氏距离最近的中心点所在的类 别,并基于各类别所含实体语义名称向量的平均值更新各类别的中心点,重复上述过程,直 到所有中心点不再改变,即将实体分为
Figure 100002_DEST_PATH_IMAGE071
类。
优选的:步骤2中类型级注意力学习不同类型邻居的权重,实体
Figure 100002_DEST_PATH_IMAGE072
与类型
Figure 100002_DEST_PATH_IMAGE073
邻居 之间的类型级注意力值
Figure 100002_DEST_PATH_IMAGE074
为:
Figure 100002_DEST_PATH_IMAGE075
其中,
Figure 100002_DEST_PATH_IMAGE076
为类型
Figure 100002_DEST_PATH_IMAGE077
邻居实体的注意力权重向量,
Figure 100002_DEST_PATH_IMAGE078
表示转置运算,
Figure 100002_DEST_PATH_IMAGE079
表示 实体
Figure 100002_DEST_PATH_IMAGE080
的嵌入向量,
Figure 100002_DEST_PATH_IMAGE081
表示向量的拼接运算,
Figure 100002_DEST_PATH_IMAGE082
为所有类型为
Figure 229070DEST_PATH_IMAGE073
的邻居实体转换后的 嵌入向量,由公式
Figure 100002_DEST_PATH_IMAGE083
计算,
Figure 100002_DEST_PATH_IMAGE084
是实体
Figure 727047DEST_PATH_IMAGE080
的类型为
Figure 187110DEST_PATH_IMAGE073
的邻居实体,
Figure 100002_DEST_PATH_IMAGE085
表示实体
Figure 137748DEST_PATH_IMAGE080
Figure 20254DEST_PATH_IMAGE084
的连边权重,其值初始化为1,在训练中为上一轮所得的两实体 之间的注意力权重。实体
Figure 372738DEST_PATH_IMAGE080
与类型
Figure 315286DEST_PATH_IMAGE073
邻居的类型级注意力权重
Figure 100002_DEST_PATH_IMAGE086
为:
Figure 100002_DEST_PATH_IMAGE087
其中,
Figure 100002_DEST_PATH_IMAGE088
表示类型为
Figure 425324DEST_PATH_IMAGE088
Figure 100002_DEST_PATH_IMAGE089
表示所有实体类型。
优选的:步骤2中节点级注意力通过直接计算实体与对应邻居实体之间的注意力 得到,实体
Figure 298471DEST_PATH_IMAGE080
与类型为
Figure 771041DEST_PATH_IMAGE073
的邻居
Figure 100002_DEST_PATH_IMAGE090
之间的节点级注意力值
Figure 100002_DEST_PATH_IMAGE091
为:
Figure 100002_DEST_PATH_IMAGE092
其中,
Figure 100002_DEST_PATH_IMAGE093
是共享的注意力参数向量。
实体
Figure 822173DEST_PATH_IMAGE080
与类型为
Figure 747404DEST_PATH_IMAGE073
的邻居
Figure 971712DEST_PATH_IMAGE090
的节点级注意力权重
Figure 100002_DEST_PATH_IMAGE094
为:
Figure 100002_DEST_PATH_IMAGE095
其中,
Figure 100002_DEST_PATH_IMAGE096
表示实体
Figure 733343DEST_PATH_IMAGE080
的邻居集合。
优选的:步骤4中采用单纯形法求解0-1整数规划问题得到满足一对一约束的优化的对齐结果。
本发明相比现有技术,具有以下有益效果:
本发明基于实体的名称语义向量将实体划分为不同类别,获得实体的类别信息。利用异构图注意力网络获得实体的嵌入向量。基于实体嵌入距离和实体类别信息计算实体之间的相似性。将实体对齐问题建模为一个整数规划问题,提高实体对齐的质量和精度。
附图说明
图1是本发明实施例所公开的一种基于异构图注意力网络的实体对齐方法的流程示意图;
图2是本发明所公开的异构图注意力网络模型图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种基于异构图注意力网络的实体对齐方法,如图1所示,包括以下步骤:
步骤1,基于BERT预训练实体名称得到的词向量,根据词向量计算得到实体语义名 称向量,并根据得到的实体语义名称向量进行聚类,将实体划分为
Figure 100002_DEST_PATH_IMAGE097
类,得到实体类别信 息。
根据实体名称,检索其所含字符的BERT预训练所得词向量,利用幂平均运算得到实体语义名称向量,具体方式为:
给定第
Figure 100002_DEST_PATH_IMAGE098
个实体的实体名称的词向量包括
Figure 100002_DEST_PATH_IMAGE099
,幂 平均运算形式化为
Figure 100002_DEST_PATH_IMAGE100
,其中,
Figure 100002_DEST_PATH_IMAGE101
表示实体名称中 第
Figure 100002_DEST_PATH_IMAGE102
个字符的词向量,
Figure 955377DEST_PATH_IMAGE102
表示字符数,
Figure 100002_DEST_PATH_IMAGE103
表示维度为
Figure 100002_DEST_PATH_IMAGE104
的向量空间,
Figure 100002_DEST_PATH_IMAGE105
表示实数 集合,
Figure 554855DEST_PATH_IMAGE104
表示词向量的维数,幂平均参数
Figure 100002_DEST_PATH_IMAGE106
根据幂平均计算方法确定,使用算数平均时,
Figure 582854DEST_PATH_IMAGE106
为1,使用谐波平均时,
Figure 764436DEST_PATH_IMAGE106
为-1。基于上述幂平均运算形式计算,得到第
Figure DEST_PATH_IMAGE107
个实体的实 体语义名称向量
Figure DEST_PATH_IMAGE108
Figure DEST_PATH_IMAGE109
根据实体语义名称向量
Figure DEST_PATH_IMAGE110
采用K-means聚类方法将实体划分为
Figure DEST_PATH_IMAGE111
类的方法:
随机选取
Figure 891792DEST_PATH_IMAGE111
个中心点,将每个实体分配到向量欧氏距离最近的中心点所在的类 别,并基于各类别所含实体语义名称向量的平均值更新各类别的中心点,重复上述过程,直 到所有中心点不再改变,即将实体分为
Figure 480031DEST_PATH_IMAGE111
类。
步骤2,根据步骤1得到的实体语义名称向量和实体类别信息采用异构图注意力网络聚合不同类别的邻居信息,学习更新实体嵌入向量。
如图2所示,基于异构图注意力网络聚合邻居实体的信息以学习实体嵌入向量,实体嵌入向量更新公式为:
Figure DEST_PATH_IMAGE112
其中,
Figure DEST_PATH_IMAGE113
为非线性激活函数,
Figure DEST_PATH_IMAGE114
表示类型
Figure DEST_PATH_IMAGE115
相关的邻接矩阵,其每一行表示一 种实体,每一列表示一个类型为
Figure 983824DEST_PATH_IMAGE115
的邻居实体,
Figure DEST_PATH_IMAGE116
表示所有实体在神经网络第
Figure DEST_PATH_IMAGE117
层的嵌入向量矩阵,
Figure DEST_PATH_IMAGE118
表示类型为
Figure 285493DEST_PATH_IMAGE115
的邻居实体在神经网络第
Figure DEST_PATH_IMAGE119
层的嵌入 向量矩阵,
Figure DEST_PATH_IMAGE120
是类型
Figure 833017DEST_PATH_IMAGE115
实体的特征变换矩阵。
将实体嵌入向量更新公式分解为由节点级注意力和类型级注意力组成的图注意力机制,具体而言:
类型级注意力学习不同类型邻居的权重,实体
Figure DEST_PATH_IMAGE121
与类型
Figure 220136DEST_PATH_IMAGE115
邻居之间的类型级注 意力值
Figure DEST_PATH_IMAGE122
为:
Figure DEST_PATH_IMAGE123
其中,
Figure DEST_PATH_IMAGE124
为类型
Figure DEST_PATH_IMAGE125
邻居实体的注意力权重向量,
Figure DEST_PATH_IMAGE126
表示转置运算,
Figure DEST_PATH_IMAGE127
表示实 体
Figure DEST_PATH_IMAGE128
的嵌入向量,
Figure DEST_PATH_IMAGE129
表示向量的拼接运算,
Figure DEST_PATH_IMAGE130
为所有类型为
Figure 216037DEST_PATH_IMAGE115
的邻居实体转换后的嵌 入向量,由公式
Figure DEST_PATH_IMAGE131
计算,
Figure DEST_PATH_IMAGE132
是实体
Figure 44315DEST_PATH_IMAGE121
的类型为
Figure 841370DEST_PATH_IMAGE125
的邻居实体,
Figure DEST_PATH_IMAGE133
表示实体
Figure 450206DEST_PATH_IMAGE121
Figure 623698DEST_PATH_IMAGE132
的连边权重,
其值初始化为1,在训练中为上一轮所得的两实体之间的注意力权重。在得到实体
Figure 821330DEST_PATH_IMAGE128
的所有不同类型邻居的类型注意力值之后,实体
Figure 789286DEST_PATH_IMAGE121
与类型
Figure 885418DEST_PATH_IMAGE115
邻居的类型级注意力权 重
Figure DEST_PATH_IMAGE134
为:
Figure DEST_PATH_IMAGE135
其中,
Figure DEST_PATH_IMAGE136
表示类型为
Figure DEST_PATH_IMAGE137
Figure DEST_PATH_IMAGE138
表示所有实体类型。
节点级注意力通过直接计算实体与对应邻居实体之间的注意力得到,实体
Figure 534705DEST_PATH_IMAGE128
与 类型为
Figure 399893DEST_PATH_IMAGE125
的邻居
Figure 227166DEST_PATH_IMAGE132
之间的节点级注意力值
Figure DEST_PATH_IMAGE139
为:
Figure 810594DEST_PATH_IMAGE092
其中,
Figure 60310DEST_PATH_IMAGE093
是共享的注意力参数向量。
同样,实体
Figure DEST_PATH_IMAGE140
与类型为
Figure 983267DEST_PATH_IMAGE115
的邻居
Figure 293025DEST_PATH_IMAGE132
的节点级注意力权重
Figure DEST_PATH_IMAGE141
由归一化计算 得到:
Figure DEST_PATH_IMAGE142
其中,
Figure DEST_PATH_IMAGE143
表示实体
Figure DEST_PATH_IMAGE144
的邻居集合。
最后,实体嵌入向量更新公式由节点级注意力和类型级注意力结合更新得到,将 类型
Figure DEST_PATH_IMAGE145
相关的注意力权重矩阵作为类型
Figure DEST_PATH_IMAGE146
相关的邻接矩阵
Figure DEST_PATH_IMAGE147
,其
Figure 550700DEST_PATH_IMAGE121
Figure 604107DEST_PATH_IMAGE132
列的元素 即为实体
Figure 381570DEST_PATH_IMAGE144
与类型为
Figure 862230DEST_PATH_IMAGE146
的邻居
Figure 154671DEST_PATH_IMAGE132
的节点级注意力权重
Figure DEST_PATH_IMAGE148
采用损失函数训练异构图注意力网络,通过最小化已知对齐实体的嵌入向量距离得到最佳的实体表示向量。
损失函数为:
Figure DEST_PATH_IMAGE149
其中,
Figure DEST_PATH_IMAGE150
表示异构图注意力网络的损失函数,
Figure DEST_PATH_IMAGE151
表示分属于知识图谱一
Figure DEST_PATH_IMAGE152
和知识图谱二
Figure DEST_PATH_IMAGE153
的 一对等价实体,
Figure DEST_PATH_IMAGE154
表示知识图谱一
Figure 700184DEST_PATH_IMAGE152
中的一个实体,
Figure DEST_PATH_IMAGE155
表示知识图谱二
Figure 332153DEST_PATH_IMAGE153
中的一 个实体,
Figure DEST_PATH_IMAGE156
表示一组等价实体对,
Figure DEST_PATH_IMAGE157
表示知识图谱二
Figure 983715DEST_PATH_IMAGE153
中的一个实体二,
Figure DEST_PATH_IMAGE158
表示一组不等价的实体对,
Figure DEST_PATH_IMAGE159
表示两个向量之间的欧式距离,
Figure DEST_PATH_IMAGE160
表示已知的对齐种子集合,
Figure DEST_PATH_IMAGE161
表示负样本集合,在每一轮迭代之前,通过选取
Figure DEST_PATH_IMAGE162
中与
Figure DEST_PATH_IMAGE163
的嵌入向量距离最小的实体与
Figure DEST_PATH_IMAGE164
结合形成本轮训练的负样本,
Figure DEST_PATH_IMAGE165
表示一个正的阈 值,
Figure DEST_PATH_IMAGE166
表示
Figure DEST_PATH_IMAGE167
函数。
步骤3,基于实体对嵌入向量的距离计算不同实体类别之间的相似性,结合嵌入向量相似性得到实体对之间的相似性。
实体
Figure DEST_PATH_IMAGE168
,实体
Figure DEST_PATH_IMAGE169
表示知识图谱一
Figure 842080DEST_PATH_IMAGE152
中的实体类别一,
Figure DEST_PATH_IMAGE170
表示知识图谱二
Figure 237290DEST_PATH_IMAGE162
中的实体类别二,实体类别一包含的所有实体的嵌入向量为
Figure DEST_PATH_IMAGE171
Figure DEST_PATH_IMAGE172
表示类别一的实体数量,实体类别二包含的所 有实体的嵌入向量为
Figure DEST_PATH_IMAGE173
Figure DEST_PATH_IMAGE174
表示类别二的实体数量,基于 所含实体的成对嵌入向量之间的距离得到实体类别一和实体类别二之间的相似性:
Figure DEST_PATH_IMAGE175
其中,
Figure DEST_PATH_IMAGE176
表示实体类别一和实体类别二之间的相似性,
Figure DEST_PATH_IMAGE177
是一个 足够大的正数,一般为10。结合实体所属类别之间的相似性,实体
Figure DEST_PATH_IMAGE178
与实体
Figure DEST_PATH_IMAGE179
之间的相 似性为:
Figure DEST_PATH_IMAGE180
其中,
Figure DEST_PATH_IMAGE181
表示实体
Figure DEST_PATH_IMAGE182
与实体
Figure DEST_PATH_IMAGE183
之间的相似性,
Figure DEST_PATH_IMAGE184
为足够大 的常数,一般为20。根据实体
Figure 848400DEST_PATH_IMAGE182
与实体
Figure 936441DEST_PATH_IMAGE183
之间的相似性得到两知识图谱实体相似性矩 阵。
步骤4,结合两知识图谱实体相似性矩阵,基于0-1整数规划识别等价实体对,得到实体对齐结果。
将等价实体对的识别问题建模为0-1整数规划问题,其目标函数为:
Figure DEST_PATH_IMAGE185
约束为:
Figure DEST_PATH_IMAGE186
即最大化所有对齐实体之间总的相似值,约束条件分别表示决策变量对应矩阵的 每一行、每一列取值的和不能大于1,以保证每个实体最多只能与一个实体配对。其中,
Figure DEST_PATH_IMAGE187
表示实体
Figure DEST_PATH_IMAGE188
之间的相似性
Figure DEST_PATH_IMAGE189
为对应的0-1决策变量,其值为 1表示实体
Figure DEST_PATH_IMAGE190
和实体
Figure DEST_PATH_IMAGE191
对齐,否则,其值为0。采用单纯形法求解0-1整数规划问题得到 满足一对一约束的优化的对齐结果。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (7)

1.一种基于异构图注意力网络的实体对齐方法,其特征在于,包括以下步骤:
步骤1,基于BERT预训练实体名称得到的词向量,根据词向量计算得到实体语义名称向 量,并根据得到的实体语义名称向量进行聚类,将实体划分为
Figure DEST_PATH_IMAGE001
类,得到实体类别信息;
步骤2,根据步骤1得到的实体语义名称向量和实体类别信息采用异构图注意力网络聚合不同类别的邻居信息,学习更新实体嵌入向量;
基于异构图注意力网络聚合邻居实体的信息以学习实体嵌入向量,实体嵌入向量更新公式为:
Figure DEST_PATH_IMAGE002
其中,
Figure DEST_PATH_IMAGE003
为非线性激活函数,
Figure DEST_PATH_IMAGE004
表示类型
Figure DEST_PATH_IMAGE005
相关的邻接矩阵,其每一行表示一种实 体,每一列表示一个类型为
Figure 806454DEST_PATH_IMAGE005
的邻居实体,
Figure DEST_PATH_IMAGE006
表示所有实体在神经网络第
Figure DEST_PATH_IMAGE007
层的嵌入向量矩阵,
Figure DEST_PATH_IMAGE008
表示类型为
Figure 677589DEST_PATH_IMAGE005
的邻居实体在神经网络第
Figure DEST_PATH_IMAGE009
层的嵌入向量矩阵,
Figure DEST_PATH_IMAGE010
是类型
Figure 129430DEST_PATH_IMAGE005
实体的特征变换矩阵;
将实体嵌入向量更新公式分解为节点级注意力和类型级注意力,实体嵌入向量更新公 式由节点级注意力和类型级注意力结合更新得到,将类型
Figure 524639DEST_PATH_IMAGE005
相关的注意力权重矩阵作为类 型
Figure 339012DEST_PATH_IMAGE005
相关的邻接矩阵
Figure DEST_PATH_IMAGE011
,其
Figure DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE013
列的元素即为实体
Figure DEST_PATH_IMAGE014
与类型为
Figure 614004DEST_PATH_IMAGE005
的邻居
Figure DEST_PATH_IMAGE015
的节点 级注意力权重
Figure DEST_PATH_IMAGE016
采用损失函数训练异构图注意力网络,通过最小化已知对齐实体的嵌入向量距离得到最佳的实体表示向量;
损失函数为:
Figure DEST_PATH_IMAGE017
其中,
Figure DEST_PATH_IMAGE018
表示异构图注意力网络的损失函数,
Figure DEST_PATH_IMAGE019
表示 分属于知识图谱一
Figure DEST_PATH_IMAGE020
和知识图谱二
Figure DEST_PATH_IMAGE021
的一对等价实体,
Figure DEST_PATH_IMAGE022
表示知识图谱一
Figure 241557DEST_PATH_IMAGE020
中的一 个实体,
Figure DEST_PATH_IMAGE023
表示知识图谱二
Figure 440457DEST_PATH_IMAGE021
中的一个实体,
Figure DEST_PATH_IMAGE024
表示一组等价实体对,
Figure DEST_PATH_IMAGE025
表示 知识图谱二
Figure 312598DEST_PATH_IMAGE021
中的一个实体二,
Figure DEST_PATH_IMAGE026
表示一组不等价的实体对,
Figure DEST_PATH_IMAGE027
表示两个 向量之间的欧式距离,
Figure DEST_PATH_IMAGE028
表示已知的对齐种子集合,
Figure DEST_PATH_IMAGE029
表示负样本集合,在每一轮迭代之 前,通过选取知识图谱二
Figure DEST_PATH_IMAGE030
中与知识图谱二
Figure 492912DEST_PATH_IMAGE030
中的一个实体
Figure DEST_PATH_IMAGE031
的嵌入向量距离最小的 实体与知识图谱一
Figure 247242DEST_PATH_IMAGE020
中的一个实体
Figure DEST_PATH_IMAGE032
结合形成本轮训练的负样本,
Figure DEST_PATH_IMAGE033
表示一个正的阈 值,
Figure DEST_PATH_IMAGE034
表示
Figure DEST_PATH_IMAGE035
函数;
步骤3,基于实体对嵌入向量的距离计算不同实体类别之间的相似性,结合嵌入向量相似性得到实体对之间的相似性;
实体
Figure DEST_PATH_IMAGE036
,实体
Figure DEST_PATH_IMAGE037
表示知识图谱一
Figure 921937DEST_PATH_IMAGE020
中的实体类别一,
Figure DEST_PATH_IMAGE038
表示知识图 谱二
Figure DEST_PATH_IMAGE039
中的实体类别二,实体类别一包含的所有实体的嵌入向量为
Figure DEST_PATH_IMAGE040
Figure DEST_PATH_IMAGE041
表示类别一的实体数量,实体类别二包含的所有实体的 嵌入向量为
Figure DEST_PATH_IMAGE042
Figure DEST_PATH_IMAGE043
表示类别二的实体数量,基于所含实体的成对 嵌入向量之间的距离得到实体类别一和实体类别二之间的相似性:
Figure DEST_PATH_IMAGE044
其中,
Figure DEST_PATH_IMAGE045
表示实体类别一和实体类别二之间的相似性,
Figure DEST_PATH_IMAGE046
为正数;结合实体 所属类别之间的相似性,实体
Figure DEST_PATH_IMAGE047
与实体
Figure DEST_PATH_IMAGE048
之间的相似性为:
Figure DEST_PATH_IMAGE049
其中,
Figure DEST_PATH_IMAGE050
表示实体
Figure DEST_PATH_IMAGE051
与实体
Figure DEST_PATH_IMAGE054
之间的相似性,
Figure DEST_PATH_IMAGE055
为常数;根据实体
Figure DEST_PATH_IMAGE056
与实体
Figure 625899DEST_PATH_IMAGE054
之间的相似性得到两知识图谱实体相似性矩阵;
步骤4,结合两知识图谱实体相似性矩阵,基于0-1整数规划识别等价实体对,得到实体对齐结果;
将等价实体对的识别问题建模为0-1整数规划问题,其目标函数为:
Figure DEST_PATH_IMAGE057
约束为:
Figure DEST_PATH_IMAGE058
其中,
Figure DEST_PATH_IMAGE059
表示实体
Figure DEST_PATH_IMAGE060
之间的相似性
Figure DEST_PATH_IMAGE061
为对应的0-1决策变量, 其值为1表示实体
Figure 505342DEST_PATH_IMAGE056
和实体
Figure DEST_PATH_IMAGE062
对齐,否则,其值为0;求解0-1整数规划问题,得到满足一对 一约束的优化的对齐结果。
2.根据权利要求1所述基于异构图注意力网络的实体对齐方法,其特征在于:步骤1中根据实体名称,检索其所含字符的BERT预训练所得词向量,利用幂平均运算得到实体语义名称向量,具体方式为:
实体名称的词向量包括
Figure DEST_PATH_IMAGE063
,幂平均运算形式为
Figure DEST_PATH_IMAGE064
,其中,
Figure DEST_PATH_IMAGE065
表示实体名称中第
Figure DEST_PATH_IMAGE066
个字符的词向量,
Figure 967416DEST_PATH_IMAGE066
表示 字符数,
Figure DEST_PATH_IMAGE067
表示维度为
Figure DEST_PATH_IMAGE068
的向量空间,
Figure DEST_PATH_IMAGE069
表示实数集合,
Figure DEST_PATH_IMAGE070
表示词向量的维数,
Figure DEST_PATH_IMAGE071
表示 幂平均参数;基于幂平均运算形式计算,得到第
Figure DEST_PATH_IMAGE072
个实体的实体语义名称向量
Figure DEST_PATH_IMAGE073
3.根据权利要求2所述基于异构图注意力网络的实体对齐方法,其特征在于:幂平均参 数
Figure DEST_PATH_IMAGE074
根据幂平均计算方法确定:使用算数平均时,
Figure DEST_PATH_IMAGE075
为1;使用谐波平均时,
Figure 236985DEST_PATH_IMAGE074
为-1。
4.根据权利要求3所述基于异构图注意力网络的实体对齐方法,其特征在于:步骤1中 根据实体语义名称向量采用K-means聚类方法将实体划分为
Figure DEST_PATH_IMAGE076
类的方法:
随机选取
Figure DEST_PATH_IMAGE077
个中心点,将每个实体分配到向量欧氏距离最近的中心点所在的类别,并 基于各类别所含实体语义名称向量的平均值更新各类别的中心点,直到所有中心点不再改 变,即将实体分为
Figure 509835DEST_PATH_IMAGE077
类。
5.根据权利要求4所述基于异构图注意力网络的实体对齐方法,其特征在于:步骤2中 类型级注意力学习不同类型邻居的权重,实体
Figure DEST_PATH_IMAGE078
与类型
Figure DEST_PATH_IMAGE079
邻居之间的类型级注意力值
Figure DEST_PATH_IMAGE080
为:
Figure DEST_PATH_IMAGE081
其中,
Figure DEST_PATH_IMAGE082
为类型
Figure 425707DEST_PATH_IMAGE079
邻居实体的注意力权重向量,
Figure DEST_PATH_IMAGE083
表示转置运算,
Figure DEST_PATH_IMAGE084
表示实体
Figure DEST_PATH_IMAGE085
的 嵌入向量,
Figure DEST_PATH_IMAGE086
表示向量的拼接运算,
Figure DEST_PATH_IMAGE087
为所有类型为
Figure 442205DEST_PATH_IMAGE079
的邻居实体转换后的嵌入向量,由 公式
Figure DEST_PATH_IMAGE088
计算,
Figure DEST_PATH_IMAGE089
是实体
Figure DEST_PATH_IMAGE090
的类型为
Figure 628598DEST_PATH_IMAGE079
的邻居实体,
Figure DEST_PATH_IMAGE091
表示实体
Figure 400245DEST_PATH_IMAGE090
Figure 350883DEST_PATH_IMAGE089
的连边权重,其值初始化为1,在训练中为上一轮所得的两实体之间的注意力权重;实体
Figure 171072DEST_PATH_IMAGE090
与类型
Figure 523555DEST_PATH_IMAGE079
邻居的类型级注意力权重
Figure DEST_PATH_IMAGE092
为:
Figure DEST_PATH_IMAGE093
其中,
Figure DEST_PATH_IMAGE094
表示类型为
Figure DEST_PATH_IMAGE095
Figure DEST_PATH_IMAGE096
表示所有实体类型。
6.根据权利要求5所述基于异构图注意力网络的实体对齐方法,其特征在于:步骤2中 节点级注意力通过直接计算实体与对应邻居实体之间的注意力得到,实体
Figure DEST_PATH_IMAGE097
与类型为
Figure 653054DEST_PATH_IMAGE079
的邻居
Figure DEST_PATH_IMAGE098
之间的节点级注意力值
Figure DEST_PATH_IMAGE099
为:
Figure DEST_PATH_IMAGE100
其中,
Figure DEST_PATH_IMAGE101
是共享的注意力参数向量;
实体
Figure 28672DEST_PATH_IMAGE097
与类型为
Figure DEST_PATH_IMAGE102
的邻居
Figure 449289DEST_PATH_IMAGE089
的节点级注意力权重
Figure DEST_PATH_IMAGE103
为:
Figure DEST_PATH_IMAGE104
其中,
Figure DEST_PATH_IMAGE105
表示实体
Figure DEST_PATH_IMAGE106
的邻居集合。
7.根据权利要求6所述基于异构图注意力网络的实体对齐方法,其特征在于:步骤4中采用单纯形法求解0-1整数规划问题得到满足一对一约束的优化的对齐结果。
CN202110405963.XA 2021-04-15 2021-04-15 一种基于异构图注意力网络的实体对齐方法 Active CN112800770B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110405963.XA CN112800770B (zh) 2021-04-15 2021-04-15 一种基于异构图注意力网络的实体对齐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110405963.XA CN112800770B (zh) 2021-04-15 2021-04-15 一种基于异构图注意力网络的实体对齐方法

Publications (2)

Publication Number Publication Date
CN112800770A CN112800770A (zh) 2021-05-14
CN112800770B true CN112800770B (zh) 2021-07-09

Family

ID=75811447

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110405963.XA Active CN112800770B (zh) 2021-04-15 2021-04-15 一种基于异构图注意力网络的实体对齐方法

Country Status (1)

Country Link
CN (1) CN112800770B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113505239B (zh) * 2021-07-09 2022-10-28 吉林大学 一种结合图注意力和属性聚类的实体对齐方法
CN113779406A (zh) * 2021-09-16 2021-12-10 浙江网商银行股份有限公司 数据处理方法及装置
CN114186069B (zh) * 2021-11-29 2023-09-29 江苏大学 基于多模态异构图注意力网络的深度视频理解知识图谱构建方法
CN114329003A (zh) * 2021-12-27 2022-04-12 北京达佳互联信息技术有限公司 媒体资源数据处理方法、装置、电子设备及存储介质
CN114153996B (zh) * 2022-02-10 2022-04-12 北京帝测科技股份有限公司 多图注意力协同的地学知识图谱更新方法和装置
CN115168620A (zh) * 2022-09-09 2022-10-11 之江实验室 一种面向知识图谱实体对齐的自监督联合学习方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829057A (zh) * 2019-01-11 2019-05-31 中山大学 一种基于图二阶相似性的知识图谱实体语义空间嵌入方法
CN111159426A (zh) * 2019-12-30 2020-05-15 武汉理工大学 一种基于图卷积神经网络的产业图谱融合方法
CN112347773A (zh) * 2020-10-26 2021-02-09 北京诺道认知医学科技有限公司 基于bert模型的医学应用模型训练方法及装置
CN112445876A (zh) * 2020-11-25 2021-03-05 中国科学院自动化研究所 融合结构、属性和关系信息的实体对齐方法和系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9418103B2 (en) * 2013-12-06 2016-08-16 Quixey, Inc. Techniques for reformulating search queries
US10846614B2 (en) * 2017-03-16 2020-11-24 Facebook, Inc. Embeddings for feed and pages
US11023530B2 (en) * 2019-02-13 2021-06-01 International Business Machines Corporation Predicting user preferences and requirements for cloud migration
CN110929041A (zh) * 2019-11-20 2020-03-27 北京邮电大学 基于分层注意力机制的实体对齐方法及系统
CN111931903B (zh) * 2020-07-09 2023-07-07 北京邮电大学 一种基于双层图注意力神经网络的网络对齐方法
CN112287123B (zh) * 2020-11-19 2022-02-22 国网湖南省电力有限公司 一种基于边类型注意力机制的实体对齐方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829057A (zh) * 2019-01-11 2019-05-31 中山大学 一种基于图二阶相似性的知识图谱实体语义空间嵌入方法
CN111159426A (zh) * 2019-12-30 2020-05-15 武汉理工大学 一种基于图卷积神经网络的产业图谱融合方法
CN112347773A (zh) * 2020-10-26 2021-02-09 北京诺道认知医学科技有限公司 基于bert模型的医学应用模型训练方法及装置
CN112445876A (zh) * 2020-11-25 2021-03-05 中国科学院自动化研究所 融合结构、属性和关系信息的实体对齐方法和系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"A comprehensive survey of entity alignment for knowledge graphs";Zeng Kaisheng; Li Chengjiang; Hou Lei; Li Juanzi; Feng Ling;《AI Open》;20210101;全文 *
"Entity Alignment Across Knowledge Graphs Based on Representative Relations Selection";Youmin Zhang; Li Liu; Shun Fu; Fujin Zhong;《2018 5th International Conference on Systems and Informatics (ICSAI)》;20190103;全文 *
"一种结合属性结构的图卷积实体对齐算法";田江伟,李俊锋,柳青;《计算机应用研究》;20210308;第38卷(第7期);全文 *
"基于上下文的跨语言知识图谱实体对齐方法";聂铁铮,马新月,申德荣,寇月;《山西大学学报(自然科学版)》;20210324;全文 *

Also Published As

Publication number Publication date
CN112800770A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
CN112800770B (zh) 一种基于异构图注意力网络的实体对齐方法
CN111814871A (zh) 一种基于可靠权重最优传输的图像分类方法
CN105069173A (zh) 基于有监督的拓扑保持哈希的快速图像检索方法
CN113065974B (zh) 一种基于动态网络表示学习的链路预测方法
CN112906770A (zh) 一种基于跨模态融合的深度聚类方法及系统
CN110866134B (zh) 一种面向图像检索的分布一致性保持度量学习方法
CN113177132A (zh) 基于联合语义矩阵的深度跨模态哈希的图像检索方法
CN108734223A (zh) 基于社区划分的社交网络好友推荐方法
CN109543693B (zh) 基于正则化标签传播的弱标注数据降噪方法
CN112087447A (zh) 面向稀有攻击的网络入侵检测方法
CN114841257A (zh) 一种基于自监督对比约束下的小样本目标检测方法
CN113190688A (zh) 基于逻辑推理和图卷积的复杂网络链接预测方法及系统
CN110874590A (zh) 基于适配器互学习模型的训练及可见光红外视觉跟踪方法
CN116108917B (zh) 一种无标记样本增强的半监督图神经网络方法
CN112115967A (zh) 一种基于数据保护的图像增量学习方法
CN114299362A (zh) 一种基于k-means聚类的小样本图像分类方法
CN108052683B (zh) 一种基于余弦度量规则的知识图谱表示学习方法
CN110909172A (zh) 一种基于实体距离的知识表示学习方法
CN110263804A (zh) 一种基于安全半监督聚类的医学影像分割方法
CN113591915A (zh) 基于半监督学习和单分类支持向量机的异常流量识别方法
CN115761408A (zh) 一种基于知识蒸馏的联邦域适应方法及系统
CN114897085A (zh) 一种基于封闭子图链路预测的聚类方法及计算机设备
CN110232397A (zh) 一种结合支持向量机和投影矩阵的多标签分类方法
CN111339258B (zh) 基于知识图谱的大学计算机基础习题推荐方法
CN116523877A (zh) 一种基于卷积神经网络的脑mri图像肿瘤块分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant