CN117370583B - 一种基于生成对抗网络的知识图谱实体对齐方法及系统 - Google Patents

一种基于生成对抗网络的知识图谱实体对齐方法及系统 Download PDF

Info

Publication number
CN117370583B
CN117370583B CN202311679007.6A CN202311679007A CN117370583B CN 117370583 B CN117370583 B CN 117370583B CN 202311679007 A CN202311679007 A CN 202311679007A CN 117370583 B CN117370583 B CN 117370583B
Authority
CN
China
Prior art keywords
entity
index value
representing
embedded representation
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311679007.6A
Other languages
English (en)
Other versions
CN117370583A (zh
Inventor
任剑
韩继伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiangjiang Laboratory
Original Assignee
Xiangjiang Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiangjiang Laboratory filed Critical Xiangjiang Laboratory
Priority to CN202311679007.6A priority Critical patent/CN117370583B/zh
Publication of CN117370583A publication Critical patent/CN117370583A/zh
Application granted granted Critical
Publication of CN117370583B publication Critical patent/CN117370583B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种基于生成对抗网络的知识图谱实体对齐方法及系统,方法包括:将第一处理数据、第二处理数据分别输入至生成对抗网络,学习得到第一实体嵌入表示向量和第二实体嵌入表示向量;基于预处理后的种子实体,将第一实体嵌入表示向量和第二实体嵌入表示向量映射至统一的嵌入表示空间;在统一的嵌入表示空间中,对第一实体嵌入表示向量和第二实体嵌入表示向量进行相似度计算,得到每个第一实体嵌入表示向量与多个第二实体嵌入表示向量之间的相似度;基于相似度排序结果进行实体对齐。该方法基于生成对抗网络将处理数据表示为嵌入向量,大大提高了实体嵌入表示的准确性,同时提高了后续实体对齐的效率。

Description

一种基于生成对抗网络的知识图谱实体对齐方法及系统
技术领域
本申请涉及知识图谱实体对齐技术领域,特别是涉及一种基于生成对抗网络的知识图谱实体对齐方法及系统。
背景技术
目前,现有的知识图谱实体对齐技术主要存在以下问题:1)为了更好地捕获实体之间的语义关系,需要提供负样本,而现有的负样本通常是采用随机替换正样本中的头实体或尾实体实现的,这样的负样本和正样本之间存在很大差异导致很容易识别出来,嵌入学习模型学习效果不佳;2)在执行实体对齐时有限的种子实体(先验预对齐实体)限制了对齐模型的泛化能力;3)现有的实体对齐方法仅针对某一个具体的技术,缺乏一个系统的设计方案。
发明内容
基于此,有必要提供一种在进行知识图谱融合实体对齐时提供更好地负样本和种子实体(先验预对齐实体)的知识图谱实体对齐方法及系统,具体涉及一种基于生成对抗网络的知识图谱实体对齐方法及系统。
本发明提供了一种基于生成对抗网络的知识图谱实体对齐方法,该方法包括:
S1:获取第一知识图谱的数据以及第二知识图谱的数据,所述数据为三元组形式;
S2:对所述数据进行索引,分别得到第一处理数据和第二处理数据,并对种子实体进行预处理;
S3:将所述第一处理数据、所述第二处理数据分别输入至生成对抗网络,学习得到第一实体嵌入表示向量和第二实体嵌入表示向量;
S4:基于预处理后的所述种子实体,将所述第一实体嵌入表示向量和所述第二实体嵌入表示向量映射至统一的嵌入表示空间;
S5:在所述统一的嵌入表示空间中,对所述第一实体嵌入表示向量和所述第二实体嵌入表示向量进行相似度计算,得到每个所述第一实体嵌入表示向量与多个所述第二实体嵌入表示向量之间的相似度;
S6:基于相似度排序结果进行实体对齐。
优选的,所述三元组形式包括{头实体、关系、尾实体}。
优选的,S2中,得到第一处理数据和第二处理数据的过程包括:
S2.1:将数据中的头实体、尾实体以及关系分别根据各自的名称的不同,分别生成对应的索引值,索引值取值范围为{0,1,2,……,n-1,n},n表示头实体、尾实体或关系的不同名称的总数量;
S2.2:以所述索引值替换三元组形式中对应的头实体、关系以及尾实体,得到所述第一处理数据或所述第二处理数据。
优选的,S2中,对种子实体进行预处理包括:将种子实体表示为(h s ,h t )形式,其中,h s 表示源实体,来自所述第一知识图谱的数据;h t 表示目标实体,来自所述第二知识图谱的数据。
优选的,S3中,所述生成对抗网络包括生成器和判别器,所述生成器采用softmax函数计算每个处理数据中替换的头实体索引值或尾实体索引值的概率,并抽样概率最高的处理数据作为负样本;概率计算公式为:
其中,表示处理数据中替换的头实体索引值或尾实体索引值的概率;/>表示替换头实体索引值或尾实体索引值,/>表示替换头实体索引值,/>表示替换尾实体索引值;h表示头实体的索引值,r表示关系的索引值,t表示尾实体的索引值;/>表示处理数据的距离得分函数,表示处理数据中替换头实体索引值或尾实体索引值的距离得分函数;
将负样本以及正样本输入至判别器进行对抗训练,学习到嵌入表示模型,根据所述嵌入表示模型得到实体嵌入表示向量。
优选的,所述生成器通过最小化均方误差损失函数进行训练,均方误差损失函数表达式为:
其中,表示第i个处理数据的距离得分函数,/>表示替换第i个处理数据中头实体索引值或尾实体索引值的距离得分函数,m表示第一处理数据或第二处理数据的数量;
所述判别器通过最小化基于边缘的损失函数进行训练,基于边缘的损失函数表达式为:
其中,T表示正样本集;γ表示基于边缘的损失函数中的边缘值。
优选的,S4中,包括:
利用源实体的索引值或目标实体的索引值分别替换第一处理数据以及第二处理数据中对应的头实体或尾实体的索引值,得到新三元组,新三元组的表达式为:
其中,表示新三元组,/>表示源实体索引值,/>表示目标实体的索引值,h表示头实体的索引值,r表示关系的索引值,t表示尾实体的索引值,G 1表示第一知识图谱的数据,G 2表示第二知识图谱的数据;
基于所述新三元组并最小化损失函数,得到映射函数,通过所述映射函数将所述第一实体嵌入表示向量和所述第二实体嵌入表示向量映射至统一的嵌入表示空间。
优选的,损失函数表达式为:
其中,γ表示基于边缘的损失函数中的边缘值;表示处理数据的距离得分函数,/>表示处理数据中替换头实体索引值或尾实体索引值的距离得分函数。
优选的,相似度计算公式为:
其中,表示从第一处理数据中抽取的源实体的索引值;/>表示从第二处理数据中抽取的目标实体的索引值;m表示第一处理数据或第二处理数据的数量;k表示第k次计算;
采用排序算法筛选出排序第一的相似度对应的实体对进行实体对齐操作。
本发明还提供了一种基于生成对抗网络的知识图谱实体对齐系统,该系统包括:
获取模块,用于获取第一知识图谱的数据以及第二知识图谱的数据,所述数据为三元组形式;
预处理模块,用于对所述数据进行索引,分别得到第一处理数据和第二处理数据,并对种子实体进行预处理;
向量生成模块,用于将所述第一处理数据、所述第二处理数据分别输入至生成对抗网络,学习得到第一实体嵌入表示向量和第二实体嵌入表示向量;
映射模块,用于基于预处理后的所述种子实体,将所述第一实体嵌入表示向量和所述第二实体嵌入表示向量映射至统一的嵌入表示空间;
相似度计算模块,用于在所述统一的嵌入表示空间中,对所述第一实体嵌入表示向量和所述第二实体嵌入表示向量进行相似度计算,得到每个所述第一实体嵌入表示向量与多个所述第二实体嵌入表示向量之间的相似度;
对齐模块,用于基于相似度排序结果进行实体对齐。
有益效果:该方法基于生成对抗网络将处理数据表示为嵌入向量,大大提高了实体嵌入表示的准确性,同时提高了后续实体对齐的效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例的基于生成对抗网络的知识图谱实体对齐方法的流程图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图对本申请的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似改进,因此本申请不受下面公开的具体实施例的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
如图1所示,本实施例提供了一种基于生成对抗网络的知识图谱实体对齐方法,该方法包括:
S1:获取第一知识图谱的数据以及第二知识图谱的数据,所述数据为三元组形式。
具体的,所述三元组形式包括{头实体、关系、尾实体}。
S2:对所述数据进行索引,分别得到第一处理数据和第二处理数据,并对种子实体进行预处理。
具体的,得到第一处理数据和第二处理数据的过程包括:
S2.1:将数据中的头实体、尾实体以及关系分别根据各自的名称的不同,分别生成对应的索引值,索引值取值范围为{0,1,2,……,n-1,n},n表示头实体、尾实体或关系的不同名称的总数量;
S2.2:以所述索引值替换三元组形式中对应的头实体、关系以及尾实体,得到所述第一处理数据或所述第二处理数据。
本实施例给出了第一处理数据或者第二处理数据的表示示例,示例如下:
其中,每一行表示一个处理数据(包括头实体、关系以及尾实体的索引值)。
进一步的,对种子实体进行预处理包括:将种子实体表示为(h s ,h t )形式,其中,h s 表示源实体,来自所述第一知识图谱的数据;h t 表示目标实体,来自所述第二知识图谱的数据。
S3:将所述第一处理数据、所述第二处理数据分别输入至生成对抗网络,学习得到第一实体嵌入表示向量和第二实体嵌入表示向量。
所述生成对抗网络包括生成器和判别器,所述生成器采用softmax函数计算每个处理数据中替换的头实体索引值或尾实体索引值的概率,并抽样概率最高的处理数据作为负样本;概率计算公式为:
其中,表示处理数据中替换的头实体索引值或尾实体索引值的概率;/>表示替换头实体索引值或尾实体索引值,,/>表示替换头实体索引值,/>表示替换尾实体索引值;h表示头实体的索引值,r表示关系的索引值,t表示尾实体的索引值;/>表示处理数据的距离得分函数,/>表示处理数据中替换头实体索引值或尾实体索引值的距离得分函数;
将负样本以及正样本输入至判别器进行对抗训练,学习到嵌入表示模型,根据所述嵌入表示模型得到实体嵌入表示向量。
在本实施例中,正样本是未替换头实体或尾实体索引值的处理数据。
生成器的目的是尽可能的提供使判别器无法分辨的负样本,判别器对生成器提供的负样本与未替换头实体或尾实体索引值的正样本进行判别,尽可能的识别出生成器提供的负样本,以此对抗性的训练出一个更高效的实体嵌入表示模型,并得到样本数据的实体嵌入表示向量。
进一步的,所述生成器通过最小化均方误差损失函数进行训练,均方误差损失函数表达式为:
其中,表示第i个处理数据的距离得分函数,/>表示替换第i个处理数据中头实体索引值或尾实体索引值的距离得分函数,m表示第一处理数据或第二处理数据的数量;
所述判别器通过最小化基于边缘的损失函数进行训练,基于边缘的损失函数表达式为:
其中,T表示正样本集;γ表示基于边缘的损失函数中的边缘值,其用于控制与/>之差的最小值;。
S4:基于预处理后的所述种子实体,将所述第一实体嵌入表示向量和所述第二实体嵌入表示向量映射至统一的嵌入表示空间。
具体的,该过程包括:
利用源实体的索引值或目标实体的索引值分别替换第一处理数据以及第二处理数据中对应的头实体或尾实体的索引值,得到新三元组,新三元组的表达式为:
其中,表示新三元组,/>表示源实体索引值,/>表示目标实体的索引值,h表示头实体的索引值,r表示关系的索引值,t表示尾实体的索引值,G 1表示第一知识图谱的数据,G 2表示第二知识图谱的数据;
基于所述新三元组并最小化损失函数,得到映射函数,通过所述映射函数将所述第一实体嵌入表示向量和所述第二实体嵌入表示向量映射至统一的嵌入表示空间。
进一步的,损失函数表达式为:
其中,γ表示基于边缘的损失函数中的边缘值;表示处理数据的距离得分函数,/>表示处理数据中替换头实体索引值或尾实体索引值的距离得分函数。
S5:在所述统一的嵌入表示空间中,对所述第一实体嵌入表示向量和所述第二实体嵌入表示向量进行相似度计算,得到每个所述第一实体嵌入表示向量与多个所述第二实体嵌入表示向量之间的相似度。
具体的,相似度计算公式为:
其中,表示从第一处理数据中抽取的源实体的索引值;/>表示从第二处理数据中抽取的目标实体的索引值;m表示第一处理数据或第二处理数据的数量;k表示第k次计算。
S6:基于相似度排序结果进行实体对齐,包括:采用排序算法筛选出排序第一的相似度对应的实体对进行实体对齐操作。
本实施例提供的这种方法基于生成对抗网络将处理数据表示为嵌入向量,大大提高了实体嵌入表示的准确性,也提高了后续实体对齐的效率;同时为知识图谱实体对齐任务提供了一个系统的解决流程和方案。
而后使用对齐后的实体对作为新的种子实体,以此迭代调整实体嵌入表示向量;这是基于自举思想迭代提高种子实体的数量,从而减少实体对齐的误差。
本实施例还提供了一种基于生成对抗网络的知识图谱实体对齐系统,该系统包括:
获取模块,用于获取第一知识图谱的数据以及第二知识图谱的数据,所述数据为三元组形式;
预处理模块,用于对所述数据进行索引,分别得到第一处理数据和第二处理数据,并对种子实体进行预处理;
向量生成模块,用于将所述第一处理数据、所述第二处理数据分别输入至生成对抗网络,学习得到第一实体嵌入表示向量和第二实体嵌入表示向量;
映射模块,用于基于预处理后的所述种子实体,将所述第一实体嵌入表示向量和所述第二实体嵌入表示向量映射至统一的嵌入表示空间;
相似度计算模块,用于在所述统一的嵌入表示空间中,对所述第一实体嵌入表示向量和所述第二实体嵌入表示向量进行相似度计算,得到每个所述第一实体嵌入表示向量与多个所述第二实体嵌入表示向量之间的相似度;
对齐模块,用于基于相似度排序结果进行实体对齐。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种基于生成对抗网络的知识图谱实体对齐方法,其特征在于,包括:
S1:获取第一知识图谱的数据以及第二知识图谱的数据,所述数据为三元组形式;
S2:对所述数据进行索引,分别得到第一处理数据和第二处理数据,并对种子实体进行预处理;
得到第一处理数据和第二处理数据的过程包括:
S2.1:将数据中的头实体、尾实体以及关系分别根据各自的名称的不同,分别生成对应的索引值,索引值取值范围为{0,1,2,……,n-1,n},n表示头实体、尾实体或关系的不同名称的总数量;
S2.2:以所述索引值替换三元组形式中对应的头实体、关系以及尾实体,得到所述第一处理数据或所述第二处理数据;
S3:将所述第一处理数据、所述第二处理数据分别输入至生成对抗网络,学习得到第一实体嵌入表示向量和第二实体嵌入表示向量;
所述生成对抗网络包括生成器和判别器,所述生成器采用softmax函数计算每个处理数据中替换的头实体索引值或尾实体索引值的概率,并抽样概率最高的处理数据作为负样本;概率计算公式为:
其中,表示处理数据中替换的头实体索引值或尾实体索引值的概率;/>表示替换头实体索引值或尾实体索引值,/>表示替换头实体索引值,/>表示替换尾实体索引值;h表示头实体的索引值,r表示关系的索引值,t表示尾实体的索引值;/>表示处理数据的距离得分函数,表示处理数据中替换头实体索引值或尾实体索引值的距离得分函数;
将负样本以及正样本输入至判别器进行对抗训练,学习到嵌入表示模型,根据所述嵌入表示模型得到实体嵌入表示向量;
S4:基于预处理后的所述种子实体,将所述第一实体嵌入表示向量和所述第二实体嵌入表示向量映射至统一的嵌入表示空间;
S5:在所述统一的嵌入表示空间中,对所述第一实体嵌入表示向量和所述第二实体嵌入表示向量进行相似度计算,得到每个所述第一实体嵌入表示向量与多个所述第二实体嵌入表示向量之间的相似度;
S6:基于相似度排序结果进行实体对齐。
2.根据权利要求1所述的基于生成对抗网络的知识图谱实体对齐方法,其特征在于,所述三元组形式包括{头实体、关系、尾实体}。
3.根据权利要求1所述的基于生成对抗网络的知识图谱实体对齐方法,其特征在于,S2中,对种子实体进行预处理包括:将种子实体表示为(h s ,h t )形式,其中,h s 表示源实体,来自所述第一知识图谱的数据;h t 表示目标实体,来自所述第二知识图谱的数据。
4.根据权利要求1所述的基于生成对抗网络的知识图谱实体对齐方法,其特征在于,所述生成器通过最小化均方误差损失函数进行训练,均方误差损失函数表达式为:
其中,表示第i个处理数据的距离得分函数,/>表示替换第i个处理数据中头实体索引值或尾实体索引值的距离得分函数,m表示第一处理数据或第二处理数据的数量;
所述判别器通过最小化基于边缘的损失函数进行训练,基于边缘的损失函数表达式为:
其中,T表示正样本集;γ表示基于边缘的损失函数中的边缘值。
5.根据权利要求1所述的基于生成对抗网络的知识图谱实体对齐方法,其特征在于,S4中,包括:
利用源实体的索引值或目标实体的索引值分别替换第一处理数据以及第二处理数据中对应的头实体或尾实体的索引值,得到新三元组,新三元组的表达式为:
其中,表示新三元组,/>表示源实体索引值,/>表示目标实体的索引值,h表示头实体的索引值,r表示关系的索引值,t表示尾实体的索引值,G 1表示第一知识图谱的数据,G 2表示第二知识图谱的数据;
基于所述新三元组并最小化损失函数,得到映射函数,通过所述映射函数将所述第一实体嵌入表示向量和所述第二实体嵌入表示向量映射至统一的嵌入表示空间。
6.根据权利要求5所述的基于生成对抗网络的知识图谱实体对齐方法,其特征在于,损失函数表达式为:
其中,γ表示基于边缘的损失函数中的边缘值;表示处理数据的距离得分函数,/>表示处理数据中替换头实体索引值或尾实体索引值的距离得分函数。
7.根据权利要求1所述的基于生成对抗网络的知识图谱实体对齐方法,其特征在于,相似度计算公式为:
其中,表示从第一处理数据中抽取的源实体的索引值;/>表示从第二处理数据中抽取的目标实体的索引值;m表示第一处理数据或第二处理数据的数量;k表示第k次计算;
采用排序算法筛选出排序第一的相似度对应的实体对进行实体对齐操作。
8.一种基于生成对抗网络的知识图谱实体对齐系统,其特征在于,包括:
获取模块,用于获取第一知识图谱的数据以及第二知识图谱的数据,所述数据为三元组形式;
预处理模块,用于对所述数据进行索引,分别得到第一处理数据和第二处理数据,并对种子实体进行预处理;
得到第一处理数据和第二处理数据的过程包括:
将数据中的头实体、尾实体以及关系分别根据各自的名称的不同,分别生成对应的索引值,索引值取值范围为{0,1,2,……,n-1,n},n表示头实体、尾实体或关系的不同名称的总数量;
以所述索引值替换三元组形式中对应的头实体、关系以及尾实体,得到所述第一处理数据或所述第二处理数据;
向量生成模块,用于将所述第一处理数据、所述第二处理数据分别输入至生成对抗网络,学习得到第一实体嵌入表示向量和第二实体嵌入表示向量;
所述生成对抗网络包括生成器和判别器,所述生成器采用softmax函数计算每个处理数据中替换的头实体索引值或尾实体索引值的概率,并抽样概率最高的处理数据作为负样本;概率计算公式为:
其中,表示处理数据中替换的头实体索引值或尾实体索引值的概率;/>表示替换头实体索引值或尾实体索引值,/>表示替换头实体索引值,/>表示替换尾实体索引值;h表示头实体的索引值,r表示关系的索引值,t表示尾实体的索引值;/>表示处理数据的距离得分函数,表示处理数据中替换头实体索引值或尾实体索引值的距离得分函数;
将负样本以及正样本输入至判别器进行对抗训练,学习到嵌入表示模型,根据所述嵌入表示模型得到实体嵌入表示向量;
映射模块,用于基于预处理后的所述种子实体,将所述第一实体嵌入表示向量和所述第二实体嵌入表示向量映射至统一的嵌入表示空间;
相似度计算模块,用于在所述统一的嵌入表示空间中,对所述第一实体嵌入表示向量和所述第二实体嵌入表示向量进行相似度计算,得到每个所述第一实体嵌入表示向量与多个所述第二实体嵌入表示向量之间的相似度;
对齐模块,用于基于相似度排序结果进行实体对齐。
CN202311679007.6A 2023-12-08 2023-12-08 一种基于生成对抗网络的知识图谱实体对齐方法及系统 Active CN117370583B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311679007.6A CN117370583B (zh) 2023-12-08 2023-12-08 一种基于生成对抗网络的知识图谱实体对齐方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311679007.6A CN117370583B (zh) 2023-12-08 2023-12-08 一种基于生成对抗网络的知识图谱实体对齐方法及系统

Publications (2)

Publication Number Publication Date
CN117370583A CN117370583A (zh) 2024-01-09
CN117370583B true CN117370583B (zh) 2024-03-19

Family

ID=89396975

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311679007.6A Active CN117370583B (zh) 2023-12-08 2023-12-08 一种基于生成对抗网络的知识图谱实体对齐方法及系统

Country Status (1)

Country Link
CN (1) CN117370583B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255031A (zh) * 2018-09-20 2019-01-22 苏州友教习亦教育科技有限公司 基于知识图谱的数据处理方法
CN111062872A (zh) * 2019-12-17 2020-04-24 暨南大学 一种基于边缘检测的图像超分辨率重建方法及系统
CN111738007A (zh) * 2020-07-03 2020-10-02 北京邮电大学 一种基于序列生成对抗网络的中文命名实体识别数据增强算法
WO2021072891A1 (zh) * 2019-10-18 2021-04-22 平安科技(深圳)有限公司 知识图谱的关系对齐方法、装置、设备及存储介质
CN112883201A (zh) * 2021-03-23 2021-06-01 西安电子科技大学昆山创新研究院 一种基于智慧社区大数据的知识图谱构建方法
CN113495963A (zh) * 2020-03-19 2021-10-12 复旦大学 网络安全知识图谱的嵌入表示方法及装置
WO2022011681A1 (zh) * 2020-07-17 2022-01-20 国防科技大学 一种基于迭代补全的知识图谱融合方法
CN114357193A (zh) * 2022-01-10 2022-04-15 中国科学技术大学 一种知识图谱实体对齐方法、系统、设备与存储介质
CN114925213A (zh) * 2022-05-16 2022-08-19 北京航空航天大学 一种基于分层跨域知识协同推演的工业知识图谱补齐方法
WO2022267976A1 (zh) * 2021-06-21 2022-12-29 浙江师范大学 多模态知识图谱的实体对齐方法、装置及存储介质
CN115618097A (zh) * 2022-09-05 2023-01-17 西北工业大学 面向先验数据不充分多社交媒体平台知识图谱的实体对齐方法
CN116680415A (zh) * 2023-06-19 2023-09-01 吉林大学 一种基于实体结构特征的长尾实体对齐方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255031A (zh) * 2018-09-20 2019-01-22 苏州友教习亦教育科技有限公司 基于知识图谱的数据处理方法
WO2021072891A1 (zh) * 2019-10-18 2021-04-22 平安科技(深圳)有限公司 知识图谱的关系对齐方法、装置、设备及存储介质
CN111062872A (zh) * 2019-12-17 2020-04-24 暨南大学 一种基于边缘检测的图像超分辨率重建方法及系统
CN113495963A (zh) * 2020-03-19 2021-10-12 复旦大学 网络安全知识图谱的嵌入表示方法及装置
CN111738007A (zh) * 2020-07-03 2020-10-02 北京邮电大学 一种基于序列生成对抗网络的中文命名实体识别数据增强算法
WO2022011681A1 (zh) * 2020-07-17 2022-01-20 国防科技大学 一种基于迭代补全的知识图谱融合方法
CN112883201A (zh) * 2021-03-23 2021-06-01 西安电子科技大学昆山创新研究院 一种基于智慧社区大数据的知识图谱构建方法
WO2022267976A1 (zh) * 2021-06-21 2022-12-29 浙江师范大学 多模态知识图谱的实体对齐方法、装置及存储介质
CN114357193A (zh) * 2022-01-10 2022-04-15 中国科学技术大学 一种知识图谱实体对齐方法、系统、设备与存储介质
CN114925213A (zh) * 2022-05-16 2022-08-19 北京航空航天大学 一种基于分层跨域知识协同推演的工业知识图谱补齐方法
CN115618097A (zh) * 2022-09-05 2023-01-17 西北工业大学 面向先验数据不充分多社交媒体平台知识图谱的实体对齐方法
CN116680415A (zh) * 2023-06-19 2023-09-01 吉林大学 一种基于实体结构特征的长尾实体对齐方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
多模态知识图谱表示学习综述;王春雷等;《计算机应用》;全文 *
融合属性信息的知识表示方法;郭智;郑彦斌;夏志超;卜祥霖;黄永忠;;科学技术与工程(33);全文 *

Also Published As

Publication number Publication date
CN117370583A (zh) 2024-01-09

Similar Documents

Publication Publication Date Title
Shen et al. Towards backward-compatible representation learning
Baró et al. Traffic sign recognition using evolutionary adaboost detection and forest-ECOC classification
Shang et al. Federated learning on heterogeneous and long-tailed data via classifier re-training with federated features
CN109981625B (zh) 一种基于在线层次聚类的日志模板抽取方法
CN104765768A (zh) 海量人脸库的快速准确检索方法
CN110135414A (zh) 语料库更新方法、装置、存储介质及终端
CN111062397A (zh) 一种智能票据处理系统
CN110188225A (zh) 一种基于排序学习和多元损失的图像检索方法
Liu et al. Exploiting web images for fine-grained visual recognition by eliminating open-set noise and utilizing hard examples
CN109919076A (zh) 基于深度学习的确认ocr识别结果可靠性的方法及介质
CN110263804A (zh) 一种基于安全半监督聚类的医学影像分割方法
CN108052683B (zh) 一种基于余弦度量规则的知识图谱表示学习方法
CN111582373A (zh) 一种基于加权迁移极限学习机算法的辐射源识别方法
Sun et al. Boosting robust learning via leveraging reusable samples in noisy web data
CN117370583B (zh) 一种基于生成对抗网络的知识图谱实体对齐方法及系统
CN109784308A (zh) 一种地址纠错方法、装置及存储介质
CN111241326B (zh) 基于注意力金字塔图网络的图像视觉关系指代定位方法
Bi et al. HGR-Net: Hierarchical graph reasoning network for arbitrary shape scene text detection
CN109886151B (zh) 一种虚假身份属性检测方法
CN116453102A (zh) 一种基于深度学习的雾天车牌识别方法
Coste et al. A similar fragments merging approach to learn automata on proteins
CN111782773B (zh) 基于级连模式的文本匹配方法及装置
CN110263196B (zh) 图像检索方法、装置、电子设备及存储介质
Talreja Stochastically optimized handwritten character recognition system using Hidden Markov Model
CN110070110A (zh) 一种自适应阈值图像匹配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant