CN112800770B - 一种基于异构图注意力网络的实体对齐方法 - Google Patents
一种基于异构图注意力网络的实体对齐方法 Download PDFInfo
- Publication number
- CN112800770B CN112800770B CN202110405963.XA CN202110405963A CN112800770B CN 112800770 B CN112800770 B CN 112800770B CN 202110405963 A CN202110405963 A CN 202110405963A CN 112800770 B CN112800770 B CN 112800770B
- Authority
- CN
- China
- Prior art keywords
- entity
- entities
- vector
- type
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于异构图注意力网络的实体对齐方法,首先,基于聚类将实体划分为不同类别;然后,基于异构图注意力网络学习实体的嵌入向量;基于实体嵌入向量计算不同实体类别之间的相似性,结合向量相似性得到任意实体对的相似性;最后,将实体对齐问题建模为整数规划问题,通过求解获得满足一对一对齐约束的对齐结果。本发明不仅时间复杂度低,而且实体对齐精度高。
Description
技术领域
本发明属于知识融合领域,具体地涉及实体对齐相关的基于异构图注意力网络的实体对齐方法。
背景技术
随着知识库规模的扩大和实体数量的增加,不同知识库之间的实体链接的重要性日益凸显,多知识图谱的实体对齐成为研究的热点方向。
目前的实体对齐相关技术与方法来源于数据库中的实体匹配,但是,在实际应用中,存在许多问题和挑战,其中最突出的是计算复杂度、数据对齐质量的问题。在大数据条件下,知识库数据量庞大繁杂,传统的实体对齐算法时间复杂度高,实体对齐精度不足。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种时间复杂度低、实体对齐精度高的基于异构图注意力网络的实体对齐方法。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于异构图注意力网络的实体对齐方法,包括以下步骤:
步骤2,根据步骤1得到的实体语义名称向量和实体类别信息采用异构图注意力网络聚合不同类别的邻居信息,学习更新实体嵌入向量。
基于异构图注意力网络聚合邻居实体的信息以学习实体嵌入向量,实体嵌入向量更新公式为:
其中,为非线性激活函数,表示类型相关的邻接矩阵,其每一行表示一
种实体,每一列表示一个类型为的邻居实体,表示所有实体在神经网络第层的嵌入向量矩阵,表示类型为的邻居实体在神经网络第层的嵌
入向量矩阵,是类型实体的特征变换矩阵。
将实体嵌入向量更新公式分解为节点级注意力和类型级注意力,实体嵌入向量更
新公式由节点级注意力和类型级注意力结合更新得到,将类型相关的注意力权重矩阵作
为类型相关的邻接矩阵,其行列的元素即为实体与类型为的邻居的节点级注意力权重。
采用损失函数训练异构图注意力网络,通过最小化已知对齐实体的嵌入向量距离得到最佳的实体表示向量。
损失函数为:
其中,表示异构图注意力网络的损失函数,表示分属于知识图谱一和知识图谱二的一对等价实体,表示知识图谱一中的一个实体,表示知识图谱二
中的一个实体,表示一组等价实体对,表示知识图谱二中的一个实体
二,表示一组不等价的实体对,表示两个向量之间的欧式距离,表示已知的对齐种子集合,表示负样本集合,在每一轮迭代之前,通过选取中与的嵌入向量距离最小的实体与结合形成本轮训练的负样本, 表示一个正的阈
值,表示函数。
步骤3,基于实体对嵌入向量的距离计算不同实体类别之间的相似性,结合嵌入向量相似性得到实体对之间的相似性。
实体,实体表示知识图谱一中的实体类别一,表示知识图谱二中的实体类别二,实体类别一包含的所有实体的嵌入向量为,表示类别一的实体数量,实体类别二包含的所
有实体的嵌入向量为,表示类别二的实体数量,基于所
含实体的成对嵌入向量之间的距离得到实体类别一和实体类别二之间的相似性:
步骤4,结合两知识图谱实体相似性矩阵,基于0-1整数规划识别等价实体对,得到实体对齐结果。
将等价实体对的识别问题建模为0-1整数规划问题,其目标函数为:
优选的:步骤1中根据实体名称,检索其所含字符的BERT预训练所得词向量,利用幂平均运算得到实体语义名称向量,具体方式为:
实体名称的词向量包括,幂平均运算形式化为,其中,表示实体名称中第个字符的词向
量,表示字符数,表示维度为的向量空间,表示词向量的维数,表示幂平
均参数,表示实数集合。基于幂平均运算形式计算,得到第个实体的实体语义名称
向量。
其中,为类型邻居实体的注意力权重向量,表示转置运算,表示
实体的嵌入向量,表示向量的拼接运算,为所有类型为的邻居实体转换后的
嵌入向量,由公式计算,是实体的类型为的邻居实体,表示实体与的连边权重,其值初始化为1,在训练中为上一轮所得的两实体
之间的注意力权重。实体与类型邻居的类型级注意力权重为:
优选的:步骤4中采用单纯形法求解0-1整数规划问题得到满足一对一约束的优化的对齐结果。
本发明相比现有技术,具有以下有益效果:
本发明基于实体的名称语义向量将实体划分为不同类别,获得实体的类别信息。利用异构图注意力网络获得实体的嵌入向量。基于实体嵌入距离和实体类别信息计算实体之间的相似性。将实体对齐问题建模为一个整数规划问题,提高实体对齐的质量和精度。
附图说明
图1是本发明实施例所公开的一种基于异构图注意力网络的实体对齐方法的流程示意图;
图2是本发明所公开的异构图注意力网络模型图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种基于异构图注意力网络的实体对齐方法,如图1所示,包括以下步骤:
根据实体名称,检索其所含字符的BERT预训练所得词向量,利用幂平均运算得到实体语义名称向量,具体方式为:
给定第个实体的实体名称的词向量包括,幂
平均运算形式化为,其中,表示实体名称中
第个字符的词向量,表示字符数,表示维度为的向量空间,表示实数
集合,表示词向量的维数,幂平均参数根据幂平均计算方法确定,使用算数平均时,为1,使用谐波平均时,为-1。基于上述幂平均运算形式计算,得到第个实体的实
体语义名称向量:
步骤2,根据步骤1得到的实体语义名称向量和实体类别信息采用异构图注意力网络聚合不同类别的邻居信息,学习更新实体嵌入向量。
如图2所示,基于异构图注意力网络聚合邻居实体的信息以学习实体嵌入向量,实体嵌入向量更新公式为:
其中,为非线性激活函数,表示类型相关的邻接矩阵,其每一行表示一
种实体,每一列表示一个类型为的邻居实体,表示所有实体在神经网络第层的嵌入向量矩阵,表示类型为的邻居实体在神经网络第层的嵌入
向量矩阵,是类型实体的特征变换矩阵。
将实体嵌入向量更新公式分解为由节点级注意力和类型级注意力组成的图注意力机制,具体而言:
采用损失函数训练异构图注意力网络,通过最小化已知对齐实体的嵌入向量距离得到最佳的实体表示向量。
损失函数为:
其中,表示异构图注意力网络的损失函数,表示分属于知识图谱一和知识图谱二的
一对等价实体,表示知识图谱一中的一个实体,表示知识图谱二中的一
个实体,表示一组等价实体对,表示知识图谱二中的一个实体二,表示一组不等价的实体对,表示两个向量之间的欧式距离,
表示已知的对齐种子集合,表示负样本集合,在每一轮迭代之前,通过选取中与的嵌入向量距离最小的实体与结合形成本轮训练的负样本,表示一个正的阈
值,表示函数。
步骤3,基于实体对嵌入向量的距离计算不同实体类别之间的相似性,结合嵌入向量相似性得到实体对之间的相似性。
实体,实体表示知识图谱一中的实体类别一,表示知识图谱二中的实体类别二,实体类别一包含的所有实体的嵌入向量为,表示类别一的实体数量,实体类别二包含的所
有实体的嵌入向量为,表示类别二的实体数量,基于
所含实体的成对嵌入向量之间的距离得到实体类别一和实体类别二之间的相似性:
步骤4,结合两知识图谱实体相似性矩阵,基于0-1整数规划识别等价实体对,得到实体对齐结果。
将等价实体对的识别问题建模为0-1整数规划问题,其目标函数为:
即最大化所有对齐实体之间总的相似值,约束条件分别表示决策变量对应矩阵的
每一行、每一列取值的和不能大于1,以保证每个实体最多只能与一个实体配对。其中,
表示实体之间的相似性为对应的0-1决策变量,其值为
1表示实体和实体对齐,否则,其值为0。采用单纯形法求解0-1整数规划问题得到
满足一对一约束的优化的对齐结果。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (7)
1.一种基于异构图注意力网络的实体对齐方法,其特征在于,包括以下步骤:
步骤2,根据步骤1得到的实体语义名称向量和实体类别信息采用异构图注意力网络聚合不同类别的邻居信息,学习更新实体嵌入向量;
基于异构图注意力网络聚合邻居实体的信息以学习实体嵌入向量,实体嵌入向量更新公式为:
其中,为非线性激活函数,表示类型相关的邻接矩阵,其每一行表示一种实
体,每一列表示一个类型为的邻居实体,表示所有实体在神经网络第
层的嵌入向量矩阵,表示类型为的邻居实体在神经网络第层的嵌入向量矩阵,是类型实体的特征变换矩阵;
将实体嵌入向量更新公式分解为节点级注意力和类型级注意力,实体嵌入向量更新公
式由节点级注意力和类型级注意力结合更新得到,将类型相关的注意力权重矩阵作为类
型相关的邻接矩阵,其行列的元素即为实体与类型为的邻居的节点
级注意力权重;
采用损失函数训练异构图注意力网络,通过最小化已知对齐实体的嵌入向量距离得到最佳的实体表示向量;
损失函数为:
其中,表示异构图注意力网络的损失函数,表示
分属于知识图谱一和知识图谱二的一对等价实体,表示知识图谱一中的一
个实体,表示知识图谱二中的一个实体,表示一组等价实体对,表示
知识图谱二中的一个实体二,表示一组不等价的实体对,表示两个
向量之间的欧式距离,表示已知的对齐种子集合,表示负样本集合,在每一轮迭代之
前,通过选取知识图谱二中与知识图谱二中的一个实体的嵌入向量距离最小的
实体与知识图谱一中的一个实体结合形成本轮训练的负样本, 表示一个正的阈
值,表示函数;
步骤3,基于实体对嵌入向量的距离计算不同实体类别之间的相似性,结合嵌入向量相似性得到实体对之间的相似性;
实体,实体表示知识图谱一中的实体类别一,表示知识图
谱二中的实体类别二,实体类别一包含的所有实体的嵌入向量为,表示类别一的实体数量,实体类别二包含的所有实体的
嵌入向量为,表示类别二的实体数量,基于所含实体的成对
嵌入向量之间的距离得到实体类别一和实体类别二之间的相似性:
步骤4,结合两知识图谱实体相似性矩阵,基于0-1整数规划识别等价实体对,得到实体对齐结果;
将等价实体对的识别问题建模为0-1整数规划问题,其目标函数为:
7.根据权利要求6所述基于异构图注意力网络的实体对齐方法,其特征在于:步骤4中采用单纯形法求解0-1整数规划问题得到满足一对一约束的优化的对齐结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110405963.XA CN112800770B (zh) | 2021-04-15 | 2021-04-15 | 一种基于异构图注意力网络的实体对齐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110405963.XA CN112800770B (zh) | 2021-04-15 | 2021-04-15 | 一种基于异构图注意力网络的实体对齐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112800770A CN112800770A (zh) | 2021-05-14 |
CN112800770B true CN112800770B (zh) | 2021-07-09 |
Family
ID=75811447
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110405963.XA Active CN112800770B (zh) | 2021-04-15 | 2021-04-15 | 一种基于异构图注意力网络的实体对齐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112800770B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113505239B (zh) * | 2021-07-09 | 2022-10-28 | 吉林大学 | 一种结合图注意力和属性聚类的实体对齐方法 |
CN113779406A (zh) * | 2021-09-16 | 2021-12-10 | 浙江网商银行股份有限公司 | 数据处理方法及装置 |
CN114186069B (zh) * | 2021-11-29 | 2023-09-29 | 江苏大学 | 基于多模态异构图注意力网络的深度视频理解知识图谱构建方法 |
CN114329003A (zh) * | 2021-12-27 | 2022-04-12 | 北京达佳互联信息技术有限公司 | 媒体资源数据处理方法、装置、电子设备及存储介质 |
CN114153996B (zh) * | 2022-02-10 | 2022-04-12 | 北京帝测科技股份有限公司 | 多图注意力协同的地学知识图谱更新方法和装置 |
CN115168620A (zh) * | 2022-09-09 | 2022-10-11 | 之江实验室 | 一种面向知识图谱实体对齐的自监督联合学习方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109829057A (zh) * | 2019-01-11 | 2019-05-31 | 中山大学 | 一种基于图二阶相似性的知识图谱实体语义空间嵌入方法 |
CN111159426A (zh) * | 2019-12-30 | 2020-05-15 | 武汉理工大学 | 一种基于图卷积神经网络的产业图谱融合方法 |
CN112347773A (zh) * | 2020-10-26 | 2021-02-09 | 北京诺道认知医学科技有限公司 | 基于bert模型的医学应用模型训练方法及装置 |
CN112445876A (zh) * | 2020-11-25 | 2021-03-05 | 中国科学院自动化研究所 | 融合结构、属性和关系信息的实体对齐方法和系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9418103B2 (en) * | 2013-12-06 | 2016-08-16 | Quixey, Inc. | Techniques for reformulating search queries |
US10846614B2 (en) * | 2017-03-16 | 2020-11-24 | Facebook, Inc. | Embeddings for feed and pages |
US11023530B2 (en) * | 2019-02-13 | 2021-06-01 | International Business Machines Corporation | Predicting user preferences and requirements for cloud migration |
CN110929041A (zh) * | 2019-11-20 | 2020-03-27 | 北京邮电大学 | 基于分层注意力机制的实体对齐方法及系统 |
CN111931903B (zh) * | 2020-07-09 | 2023-07-07 | 北京邮电大学 | 一种基于双层图注意力神经网络的网络对齐方法 |
CN112287123B (zh) * | 2020-11-19 | 2022-02-22 | 国网湖南省电力有限公司 | 一种基于边类型注意力机制的实体对齐方法及装置 |
-
2021
- 2021-04-15 CN CN202110405963.XA patent/CN112800770B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109829057A (zh) * | 2019-01-11 | 2019-05-31 | 中山大学 | 一种基于图二阶相似性的知识图谱实体语义空间嵌入方法 |
CN111159426A (zh) * | 2019-12-30 | 2020-05-15 | 武汉理工大学 | 一种基于图卷积神经网络的产业图谱融合方法 |
CN112347773A (zh) * | 2020-10-26 | 2021-02-09 | 北京诺道认知医学科技有限公司 | 基于bert模型的医学应用模型训练方法及装置 |
CN112445876A (zh) * | 2020-11-25 | 2021-03-05 | 中国科学院自动化研究所 | 融合结构、属性和关系信息的实体对齐方法和系统 |
Non-Patent Citations (4)
Title |
---|
"A comprehensive survey of entity alignment for knowledge graphs";Zeng Kaisheng; Li Chengjiang; Hou Lei; Li Juanzi; Feng Ling;《AI Open》;20210101;全文 * |
"Entity Alignment Across Knowledge Graphs Based on Representative Relations Selection";Youmin Zhang; Li Liu; Shun Fu; Fujin Zhong;《2018 5th International Conference on Systems and Informatics (ICSAI)》;20190103;全文 * |
"一种结合属性结构的图卷积实体对齐算法";田江伟,李俊锋,柳青;《计算机应用研究》;20210308;第38卷(第7期);全文 * |
"基于上下文的跨语言知识图谱实体对齐方法";聂铁铮,马新月,申德荣,寇月;《山西大学学报(自然科学版)》;20210324;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112800770A (zh) | 2021-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112800770B (zh) | 一种基于异构图注意力网络的实体对齐方法 | |
CN111814871A (zh) | 一种基于可靠权重最优传输的图像分类方法 | |
CN105069173A (zh) | 基于有监督的拓扑保持哈希的快速图像检索方法 | |
CN113065974B (zh) | 一种基于动态网络表示学习的链路预测方法 | |
CN112906770A (zh) | 一种基于跨模态融合的深度聚类方法及系统 | |
CN110866134B (zh) | 一种面向图像检索的分布一致性保持度量学习方法 | |
CN113177132A (zh) | 基于联合语义矩阵的深度跨模态哈希的图像检索方法 | |
CN108734223A (zh) | 基于社区划分的社交网络好友推荐方法 | |
CN109543693B (zh) | 基于正则化标签传播的弱标注数据降噪方法 | |
CN112087447A (zh) | 面向稀有攻击的网络入侵检测方法 | |
CN114841257A (zh) | 一种基于自监督对比约束下的小样本目标检测方法 | |
CN113190688A (zh) | 基于逻辑推理和图卷积的复杂网络链接预测方法及系统 | |
CN110874590A (zh) | 基于适配器互学习模型的训练及可见光红外视觉跟踪方法 | |
CN116108917B (zh) | 一种无标记样本增强的半监督图神经网络方法 | |
CN112115967A (zh) | 一种基于数据保护的图像增量学习方法 | |
CN114299362A (zh) | 一种基于k-means聚类的小样本图像分类方法 | |
CN108052683B (zh) | 一种基于余弦度量规则的知识图谱表示学习方法 | |
CN110909172A (zh) | 一种基于实体距离的知识表示学习方法 | |
CN110263804A (zh) | 一种基于安全半监督聚类的医学影像分割方法 | |
CN113591915A (zh) | 基于半监督学习和单分类支持向量机的异常流量识别方法 | |
CN115761408A (zh) | 一种基于知识蒸馏的联邦域适应方法及系统 | |
CN114897085A (zh) | 一种基于封闭子图链路预测的聚类方法及计算机设备 | |
CN110232397A (zh) | 一种结合支持向量机和投影矩阵的多标签分类方法 | |
CN111339258B (zh) | 基于知识图谱的大学计算机基础习题推荐方法 | |
CN116523877A (zh) | 一种基于卷积神经网络的脑mri图像肿瘤块分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |