CN117370583A - 一种基于生成对抗网络的知识图谱实体对齐方法及系统 - Google Patents
一种基于生成对抗网络的知识图谱实体对齐方法及系统 Download PDFInfo
- Publication number
- CN117370583A CN117370583A CN202311679007.6A CN202311679007A CN117370583A CN 117370583 A CN117370583 A CN 117370583A CN 202311679007 A CN202311679007 A CN 202311679007A CN 117370583 A CN117370583 A CN 117370583A
- Authority
- CN
- China
- Prior art keywords
- entity
- embedded representation
- index value
- representing
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 239000013598 vector Substances 0.000 claims abstract description 73
- 238000012545 processing Methods 0.000 claims abstract description 68
- 238000013507 mapping Methods 0.000 claims abstract description 19
- 238000004364 calculation method Methods 0.000 claims abstract description 16
- 230000006870 function Effects 0.000 claims description 47
- 238000007781 pre-processing Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 230000008485 antagonism Effects 0.000 claims 2
- 238000005516 engineering process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009897 systematic effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种基于生成对抗网络的知识图谱实体对齐方法及系统,方法包括:将第一处理数据、第二处理数据分别输入至生成对抗网络,学习得到第一实体嵌入表示向量和第二实体嵌入表示向量;基于预处理后的种子实体,将第一实体嵌入表示向量和第二实体嵌入表示向量映射至统一的嵌入表示空间;在统一的嵌入表示空间中,对第一实体嵌入表示向量和第二实体嵌入表示向量进行相似度计算,得到每个第一实体嵌入表示向量与多个第二实体嵌入表示向量之间的相似度;基于相似度排序结果进行实体对齐。该方法基于生成对抗网络将处理数据表示为嵌入向量,大大提高了实体嵌入表示的准确性,同时提高了后续实体对齐的效率。
Description
技术领域
本申请涉及知识图谱实体对齐技术领域,特别是涉及一种基于生成对抗网络的知识图谱实体对齐方法及系统。
背景技术
目前,现有的知识图谱实体对齐技术主要存在以下问题:1)为了更好地捕获实体之间的语义关系,需要提供负样本,而现有的负样本通常是采用随机替换正样本中的头实体或尾实体实现的,这样的负样本和正样本之间存在很大差异导致很容易识别出来,嵌入学习模型学习效果不佳;2)在执行实体对齐时有限的种子实体(先验预对齐实体)限制了对齐模型的泛化能力;3)现有的实体对齐方法仅针对某一个具体的技术,缺乏一个系统的设计方案。
发明内容
基于此,有必要提供一种在进行知识图谱融合实体对齐时提供更好地负样本和种子实体(先验预对齐实体)的知识图谱实体对齐方法及系统,具体涉及一种基于生成对抗网络的知识图谱实体对齐方法及系统。
本发明提供了一种基于生成对抗网络的知识图谱实体对齐方法,该方法包括:
S1:获取第一知识图谱的数据以及第二知识图谱的数据,所述数据为三元组形式;
S2:对所述数据进行索引,分别得到第一处理数据和第二处理数据,并对种子实体进行预处理;
S3:将所述第一处理数据、所述第二处理数据分别输入至生成对抗网络,学习得到第一实体嵌入表示向量和第二实体嵌入表示向量;
S4:基于预处理后的所述种子实体,将所述第一实体嵌入表示向量和所述第二实体嵌入表示向量映射至统一的嵌入表示空间;
S5:在所述统一的嵌入表示空间中,对所述第一实体嵌入表示向量和所述第二实体嵌入表示向量进行相似度计算,得到每个所述第一实体嵌入表示向量与多个所述第二实体嵌入表示向量之间的相似度;
S6:基于相似度排序结果进行实体对齐。
优选的,所述三元组形式包括{头实体、关系、尾实体}。
优选的,S2中,得到第一处理数据和第二处理数据的过程包括:
S2.1:将数据中的头实体、尾实体以及关系分别根据各自的名称的不同,分别生成对应的索引值,索引值取值范围为{0,1,2,……,n-1,n},n表示头实体、尾实体或关系的不同名称的总数量;
S2.2:以所述索引值替换三元组形式中对应的头实体、关系以及尾实体,得到所述第一处理数据或所述第二处理数据。
优选的,S2中,对种子实体进行预处理包括:将种子实体表示为(h s ,h t )形式,其中,h s 表示源实体,来自所述第一知识图谱的数据;h t 表示目标实体,来自所述第二知识图谱的数据。
优选的,S3中,所述生成对抗网络包括生成器和判别器,所述生成器采用softmax函数计算每个处理数据中替换的头实体索引值或尾实体索引值的概率,并抽样概率最高的处理数据作为负样本;概率计算公式为:
;
其中,表示处理数据中替换的头实体索引值或尾实体索引值的概率;/>表示替换头实体索引值或尾实体索引值,/>,表示替换头实体索引值,/>表示替换尾实体索引值;h表示头实体的索引值,r表示关系的索引值,t表示尾实体的索引值;/>表示处理数据的距离得分函数,表示处理数据中替换头实体索引值或尾实体索引值的距离得分函数;
将负样本以及正样本输入至判别器进行对抗训练,学习到嵌入表示模型,根据所述嵌入表示模型得到实体嵌入表示向量。
优选的,所述生成器通过最小化均方误差损失函数进行训练,均方误差损失函数表达式为:
;
其中,表示第i个处理数据的距离得分函数,/>表示替换第i个处理数据中头实体索引值或尾实体索引值的距离得分函数,m表示第一处理数据或第二处理数据的数量;
所述判别器通过最小化基于边缘的损失函数进行训练,基于边缘的损失函数表达式为:
;
其中,T表示正样本集;γ表示基于边缘的损失函数中的边缘值。
优选的,S4中,包括:
利用源实体的索引值或目标实体的索引值分别替换第一处理数据以及第二处理数据中对应的头实体或尾实体的索引值,得到新三元组,新三元组的表达式为:
;
其中,表示新三元组,/>表示源实体索引值,/>表示目标实体的索引值,h表示头实体的索引值,r表示关系的索引值,t表示尾实体的索引值,G 1表示第一知识图谱的数据,G 2表示第二知识图谱的数据;
基于所述新三元组并最小化损失函数,得到映射函数,通过所述映射函数将所述第一实体嵌入表示向量和所述第二实体嵌入表示向量映射至统一的嵌入表示空间。
优选的,损失函数表达式为:
;
其中,γ表示基于边缘的损失函数中的边缘值;表示处理数据的距离得分函数,/>表示处理数据中替换头实体索引值或尾实体索引值的距离得分函数。
优选的,相似度计算公式为:
;
;
其中,表示从第一处理数据中抽取的源实体的索引值;/>表示从第二处理数据中抽取的目标实体的索引值;m表示第一处理数据或第二处理数据的数量;k表示第k次计算;
采用排序算法筛选出排序第一的相似度对应的实体对进行实体对齐操作。
本发明还提供了一种基于生成对抗网络的知识图谱实体对齐系统,该系统包括:
获取模块,用于获取第一知识图谱的数据以及第二知识图谱的数据,所述数据为三元组形式;
预处理模块,用于对所述数据进行索引,分别得到第一处理数据和第二处理数据,并对种子实体进行预处理;
向量生成模块,用于将所述第一处理数据、所述第二处理数据分别输入至生成对抗网络,学习得到第一实体嵌入表示向量和第二实体嵌入表示向量;
映射模块,用于基于预处理后的所述种子实体,将所述第一实体嵌入表示向量和所述第二实体嵌入表示向量映射至统一的嵌入表示空间;
相似度计算模块,用于在所述统一的嵌入表示空间中,对所述第一实体嵌入表示向量和所述第二实体嵌入表示向量进行相似度计算,得到每个所述第一实体嵌入表示向量与多个所述第二实体嵌入表示向量之间的相似度;
对齐模块,用于基于相似度排序结果进行实体对齐。
有益效果:该方法基于生成对抗网络将处理数据表示为嵌入向量,大大提高了实体嵌入表示的准确性,同时提高了后续实体对齐的效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例的基于生成对抗网络的知识图谱实体对齐方法的流程图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图对本申请的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似改进,因此本申请不受下面公开的具体实施例的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
如图1所示,本实施例提供了一种基于生成对抗网络的知识图谱实体对齐方法,该方法包括:
S1:获取第一知识图谱的数据以及第二知识图谱的数据,所述数据为三元组形式。
具体的,所述三元组形式包括{头实体、关系、尾实体}。
S2:对所述数据进行索引,分别得到第一处理数据和第二处理数据,并对种子实体进行预处理。
具体的,得到第一处理数据和第二处理数据的过程包括:
S2.1:将数据中的头实体、尾实体以及关系分别根据各自的名称的不同,分别生成对应的索引值,索引值取值范围为{0,1,2,……,n-1,n},n表示头实体、尾实体或关系的不同名称的总数量;
S2.2:以所述索引值替换三元组形式中对应的头实体、关系以及尾实体,得到所述第一处理数据或所述第二处理数据。
本实施例给出了第一处理数据或者第二处理数据的表示示例,示例如下:
;
其中,每一行表示一个处理数据(包括头实体、关系以及尾实体的索引值)。
进一步的,对种子实体进行预处理包括:将种子实体表示为(h s ,h t )形式,其中,h s 表示源实体,来自所述第一知识图谱的数据;h t 表示目标实体,来自所述第二知识图谱的数据。
S3:将所述第一处理数据、所述第二处理数据分别输入至生成对抗网络,学习得到第一实体嵌入表示向量和第二实体嵌入表示向量。
所述生成对抗网络包括生成器和判别器,所述生成器采用softmax函数计算每个处理数据中替换的头实体索引值或尾实体索引值的概率,并抽样概率最高的处理数据作为负样本;概率计算公式为:
;
其中,表示处理数据中替换的头实体索引值或尾实体索引值的概率;/>表示替换头实体索引值或尾实体索引值,,/>表示替换头实体索引值,/>表示替换尾实体索引值;h表示头实体的索引值,r表示关系的索引值,t表示尾实体的索引值;/>表示处理数据的距离得分函数,/>表示处理数据中替换头实体索引值或尾实体索引值的距离得分函数;
将负样本以及正样本输入至判别器进行对抗训练,学习到嵌入表示模型,根据所述嵌入表示模型得到实体嵌入表示向量。
在本实施例中,正样本是未替换头实体或尾实体索引值的处理数据。
生成器的目的是尽可能的提供使判别器无法分辨的负样本,判别器对生成器提供的负样本与未替换头实体或尾实体索引值的正样本进行判别,尽可能的识别出生成器提供的负样本,以此对抗性的训练出一个更高效的实体嵌入表示模型,并得到样本数据的实体嵌入表示向量。
进一步的,所述生成器通过最小化均方误差损失函数进行训练,均方误差损失函数表达式为:
;
其中,表示第i个处理数据的距离得分函数,/>表示替换第i个处理数据中头实体索引值或尾实体索引值的距离得分函数,m表示第一处理数据或第二处理数据的数量;
所述判别器通过最小化基于边缘的损失函数进行训练,基于边缘的损失函数表达式为:
;
其中,T表示正样本集;γ表示基于边缘的损失函数中的边缘值,其用于控制与/>之差的最小值;。
S4:基于预处理后的所述种子实体,将所述第一实体嵌入表示向量和所述第二实体嵌入表示向量映射至统一的嵌入表示空间。
具体的,该过程包括:
利用源实体的索引值或目标实体的索引值分别替换第一处理数据以及第二处理数据中对应的头实体或尾实体的索引值,得到新三元组,新三元组的表达式为:
;
其中,表示新三元组,/>表示源实体索引值,/>表示目标实体的索引值,h表示头实体的索引值,r表示关系的索引值,t表示尾实体的索引值,G 1表示第一知识图谱的数据,G 2表示第二知识图谱的数据;
基于所述新三元组并最小化损失函数,得到映射函数,通过所述映射函数将所述第一实体嵌入表示向量和所述第二实体嵌入表示向量映射至统一的嵌入表示空间。
进一步的,损失函数表达式为:
;
其中,γ表示基于边缘的损失函数中的边缘值;表示处理数据的距离得分函数,/>表示处理数据中替换头实体索引值或尾实体索引值的距离得分函数。
S5:在所述统一的嵌入表示空间中,对所述第一实体嵌入表示向量和所述第二实体嵌入表示向量进行相似度计算,得到每个所述第一实体嵌入表示向量与多个所述第二实体嵌入表示向量之间的相似度。
具体的,相似度计算公式为:
;
;
其中,表示从第一处理数据中抽取的源实体的索引值;/>表示从第二处理数据中抽取的目标实体的索引值;m表示第一处理数据或第二处理数据的数量;k表示第k次计算。
S6:基于相似度排序结果进行实体对齐,包括:采用排序算法筛选出排序第一的相似度对应的实体对进行实体对齐操作。
本实施例提供的这种方法基于生成对抗网络将处理数据表示为嵌入向量,大大提高了实体嵌入表示的准确性,也提高了后续实体对齐的效率;同时为知识图谱实体对齐任务提供了一个系统的解决流程和方案。
而后使用对齐后的实体对作为新的种子实体,以此迭代调整实体嵌入表示向量;这是基于自举思想迭代提高种子实体的数量,从而减少实体对齐的误差。
本实施例还提供了一种基于生成对抗网络的知识图谱实体对齐系统,该系统包括:
获取模块,用于获取第一知识图谱的数据以及第二知识图谱的数据,所述数据为三元组形式;
预处理模块,用于对所述数据进行索引,分别得到第一处理数据和第二处理数据,并对种子实体进行预处理;
向量生成模块,用于将所述第一处理数据、所述第二处理数据分别输入至生成对抗网络,学习得到第一实体嵌入表示向量和第二实体嵌入表示向量;
映射模块,用于基于预处理后的所述种子实体,将所述第一实体嵌入表示向量和所述第二实体嵌入表示向量映射至统一的嵌入表示空间;
相似度计算模块,用于在所述统一的嵌入表示空间中,对所述第一实体嵌入表示向量和所述第二实体嵌入表示向量进行相似度计算,得到每个所述第一实体嵌入表示向量与多个所述第二实体嵌入表示向量之间的相似度;
对齐模块,用于基于相似度排序结果进行实体对齐。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于生成对抗网络的知识图谱实体对齐方法,其特征在于,包括:
S1:获取第一知识图谱的数据以及第二知识图谱的数据,所述数据为三元组形式;
S2:对所述数据进行索引,分别得到第一处理数据和第二处理数据,并对种子实体进行预处理;
S3:将所述第一处理数据、所述第二处理数据分别输入至生成对抗网络,学习得到第一实体嵌入表示向量和第二实体嵌入表示向量;
S4:基于预处理后的所述种子实体,将所述第一实体嵌入表示向量和所述第二实体嵌入表示向量映射至统一的嵌入表示空间;
S5:在所述统一的嵌入表示空间中,对所述第一实体嵌入表示向量和所述第二实体嵌入表示向量进行相似度计算,得到每个所述第一实体嵌入表示向量与多个所述第二实体嵌入表示向量之间的相似度;
S6:基于相似度排序结果进行实体对齐。
2.根据权利要求1所述的基于生成对抗网络的知识图谱实体对齐方法,其特征在于,所述三元组形式包括{头实体、关系、尾实体}。
3.根据权利要求2所述的基于生成对抗网络的知识图谱实体对齐方法,其特征在于,S2中,得到第一处理数据和第二处理数据的过程包括:
S2.1:将数据中的头实体、尾实体以及关系分别根据各自的名称的不同,分别生成对应的索引值,索引值取值范围为{0,1,2,……,n-1,n},n表示头实体、尾实体或关系的不同名称的总数量;
S2.2:以所述索引值替换三元组形式中对应的头实体、关系以及尾实体,得到所述第一处理数据或所述第二处理数据。
4.根据权利要求3所述的基于生成对抗网络的知识图谱实体对齐方法,其特征在于,S2中,对种子实体进行预处理包括:将种子实体表示为(h s ,h t )形式,其中,h s 表示源实体,来自所述第一知识图谱的数据;h t 表示目标实体,来自所述第二知识图谱的数据。
5.根据权利要求4所述的基于生成对抗网络的知识图谱实体对齐方法,其特征在于,S3中,所述生成对抗网络包括生成器和判别器,所述生成器采用softmax函数计算每个处理数据中替换的头实体索引值或尾实体索引值的概率,并抽样概率最高的处理数据作为负样本;概率计算公式为:
;
其中,表示处理数据中替换的头实体索引值或尾实体索引值的概率;/>表示替换头实体索引值或尾实体索引值,/>,表示替换头实体索引值,/>表示替换尾实体索引值;h表示头实体的索引值,r表示关系的索引值,t表示尾实体的索引值;/>表示处理数据的距离得分函数,表示处理数据中替换头实体索引值或尾实体索引值的距离得分函数;
将负样本以及正样本输入至判别器进行对抗训练,学习到嵌入表示模型,根据所述嵌入表示模型得到实体嵌入表示向量。
6.根据权利要求5所述的基于生成对抗网络的知识图谱实体对齐方法,其特征在于,所述生成器通过最小化均方误差损失函数进行训练,均方误差损失函数表达式为:
;
其中,表示第i个处理数据的距离得分函数,/>表示替换第i个处理数据中头实体索引值或尾实体索引值的距离得分函数,m表示第一处理数据或第二处理数据的数量;
所述判别器通过最小化基于边缘的损失函数进行训练,基于边缘的损失函数表达式为:
;
其中,T表示正样本集;γ表示基于边缘的损失函数中的边缘值。
7.根据权利要求5所述的基于生成对抗网络的知识图谱实体对齐方法,其特征在于,S4中,包括:
利用源实体的索引值或目标实体的索引值分别替换第一处理数据以及第二处理数据中对应的头实体或尾实体的索引值,得到新三元组,新三元组的表达式为:
;
其中,表示新三元组,/>表示源实体索引值,/>表示目标实体的索引值,h表示头实体的索引值,r表示关系的索引值,t表示尾实体的索引值,G 1表示第一知识图谱的数据,G 2表示第二知识图谱的数据;
基于所述新三元组并最小化损失函数,得到映射函数,通过所述映射函数将所述第一实体嵌入表示向量和所述第二实体嵌入表示向量映射至统一的嵌入表示空间。
8.根据权利要求7所述的基于生成对抗网络的知识图谱实体对齐方法,其特征在于,损失函数表达式为:
;
其中,γ表示基于边缘的损失函数中的边缘值;表示处理数据的距离得分函数,/>表示处理数据中替换头实体索引值或尾实体索引值的距离得分函数。
9.根据权利要求1所述的基于生成对抗网络的知识图谱实体对齐方法,其特征在于,相似度计算公式为:
;
;
其中,表示从第一处理数据中抽取的源实体的索引值;/>表示从第二处理数据中抽取的目标实体的索引值;m表示第一处理数据或第二处理数据的数量;k表示第k次计算;
采用排序算法筛选出排序第一的相似度对应的实体对进行实体对齐操作。
10.一种基于生成对抗网络的知识图谱实体对齐系统,其特征在于,包括:
获取模块,用于获取第一知识图谱的数据以及第二知识图谱的数据,所述数据为三元组形式;
预处理模块,用于对所述数据进行索引,分别得到第一处理数据和第二处理数据,并对种子实体进行预处理;
向量生成模块,用于将所述第一处理数据、所述第二处理数据分别输入至生成对抗网络,学习得到第一实体嵌入表示向量和第二实体嵌入表示向量;
映射模块,用于基于预处理后的所述种子实体,将所述第一实体嵌入表示向量和所述第二实体嵌入表示向量映射至统一的嵌入表示空间;
相似度计算模块,用于在所述统一的嵌入表示空间中,对所述第一实体嵌入表示向量和所述第二实体嵌入表示向量进行相似度计算,得到每个所述第一实体嵌入表示向量与多个所述第二实体嵌入表示向量之间的相似度;
对齐模块,用于基于相似度排序结果进行实体对齐。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311679007.6A CN117370583B (zh) | 2023-12-08 | 2023-12-08 | 一种基于生成对抗网络的知识图谱实体对齐方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311679007.6A CN117370583B (zh) | 2023-12-08 | 2023-12-08 | 一种基于生成对抗网络的知识图谱实体对齐方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117370583A true CN117370583A (zh) | 2024-01-09 |
CN117370583B CN117370583B (zh) | 2024-03-19 |
Family
ID=89396975
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311679007.6A Active CN117370583B (zh) | 2023-12-08 | 2023-12-08 | 一种基于生成对抗网络的知识图谱实体对齐方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117370583B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109255031A (zh) * | 2018-09-20 | 2019-01-22 | 苏州友教习亦教育科技有限公司 | 基于知识图谱的数据处理方法 |
CN111062872A (zh) * | 2019-12-17 | 2020-04-24 | 暨南大学 | 一种基于边缘检测的图像超分辨率重建方法及系统 |
CN111738007A (zh) * | 2020-07-03 | 2020-10-02 | 北京邮电大学 | 一种基于序列生成对抗网络的中文命名实体识别数据增强算法 |
WO2021072891A1 (zh) * | 2019-10-18 | 2021-04-22 | 平安科技(深圳)有限公司 | 知识图谱的关系对齐方法、装置、设备及存储介质 |
CN112883201A (zh) * | 2021-03-23 | 2021-06-01 | 西安电子科技大学昆山创新研究院 | 一种基于智慧社区大数据的知识图谱构建方法 |
CN113495963A (zh) * | 2020-03-19 | 2021-10-12 | 复旦大学 | 网络安全知识图谱的嵌入表示方法及装置 |
WO2022011681A1 (zh) * | 2020-07-17 | 2022-01-20 | 国防科技大学 | 一种基于迭代补全的知识图谱融合方法 |
CN114357193A (zh) * | 2022-01-10 | 2022-04-15 | 中国科学技术大学 | 一种知识图谱实体对齐方法、系统、设备与存储介质 |
CN114925213A (zh) * | 2022-05-16 | 2022-08-19 | 北京航空航天大学 | 一种基于分层跨域知识协同推演的工业知识图谱补齐方法 |
WO2022267976A1 (zh) * | 2021-06-21 | 2022-12-29 | 浙江师范大学 | 多模态知识图谱的实体对齐方法、装置及存储介质 |
CN115618097A (zh) * | 2022-09-05 | 2023-01-17 | 西北工业大学 | 面向先验数据不充分多社交媒体平台知识图谱的实体对齐方法 |
CN116680415A (zh) * | 2023-06-19 | 2023-09-01 | 吉林大学 | 一种基于实体结构特征的长尾实体对齐方法 |
-
2023
- 2023-12-08 CN CN202311679007.6A patent/CN117370583B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109255031A (zh) * | 2018-09-20 | 2019-01-22 | 苏州友教习亦教育科技有限公司 | 基于知识图谱的数据处理方法 |
WO2021072891A1 (zh) * | 2019-10-18 | 2021-04-22 | 平安科技(深圳)有限公司 | 知识图谱的关系对齐方法、装置、设备及存储介质 |
CN111062872A (zh) * | 2019-12-17 | 2020-04-24 | 暨南大学 | 一种基于边缘检测的图像超分辨率重建方法及系统 |
CN113495963A (zh) * | 2020-03-19 | 2021-10-12 | 复旦大学 | 网络安全知识图谱的嵌入表示方法及装置 |
CN111738007A (zh) * | 2020-07-03 | 2020-10-02 | 北京邮电大学 | 一种基于序列生成对抗网络的中文命名实体识别数据增强算法 |
WO2022011681A1 (zh) * | 2020-07-17 | 2022-01-20 | 国防科技大学 | 一种基于迭代补全的知识图谱融合方法 |
CN112883201A (zh) * | 2021-03-23 | 2021-06-01 | 西安电子科技大学昆山创新研究院 | 一种基于智慧社区大数据的知识图谱构建方法 |
WO2022267976A1 (zh) * | 2021-06-21 | 2022-12-29 | 浙江师范大学 | 多模态知识图谱的实体对齐方法、装置及存储介质 |
CN114357193A (zh) * | 2022-01-10 | 2022-04-15 | 中国科学技术大学 | 一种知识图谱实体对齐方法、系统、设备与存储介质 |
CN114925213A (zh) * | 2022-05-16 | 2022-08-19 | 北京航空航天大学 | 一种基于分层跨域知识协同推演的工业知识图谱补齐方法 |
CN115618097A (zh) * | 2022-09-05 | 2023-01-17 | 西北工业大学 | 面向先验数据不充分多社交媒体平台知识图谱的实体对齐方法 |
CN116680415A (zh) * | 2023-06-19 | 2023-09-01 | 吉林大学 | 一种基于实体结构特征的长尾实体对齐方法 |
Non-Patent Citations (2)
Title |
---|
王春雷等: "多模态知识图谱表示学习综述", 《计算机应用》 * |
郭智;郑彦斌;夏志超;卜祥霖;黄永忠;: "融合属性信息的知识表示方法", 科学技术与工程, no. 33 * |
Also Published As
Publication number | Publication date |
---|---|
CN117370583B (zh) | 2024-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106529394B (zh) | 一种室内场景物体同时识别与建模方法 | |
CN109063649B (zh) | 基于孪生行人对齐残差网络的行人重识别方法 | |
CN104765768A (zh) | 海量人脸库的快速准确检索方法 | |
CN111062397A (zh) | 一种智能票据处理系统 | |
CN111241326B (zh) | 基于注意力金字塔图网络的图像视觉关系指代定位方法 | |
CN109543693B (zh) | 基于正则化标签传播的弱标注数据降噪方法 | |
CN109919076A (zh) | 基于深度学习的确认ocr识别结果可靠性的方法及介质 | |
CN113158955B (zh) | 基于聚类引导和成对度量三元组损失的行人重识别方法 | |
CN107784321A (zh) | 数字绘本快速识别方法、系统及计算机可读存储介质 | |
CN116543269B (zh) | 基于自监督的跨域小样本细粒度图像识别方法及其模型 | |
CN109784308A (zh) | 一种地址纠错方法、装置及存储介质 | |
CN111582373A (zh) | 一种基于加权迁移极限学习机算法的辐射源识别方法 | |
CN113469005B (zh) | 一种银行回单的识别方法、相关装置及存储介质 | |
CN117370583B (zh) | 一种基于生成对抗网络的知识图谱实体对齐方法及系统 | |
CN111782773B (zh) | 基于级连模式的文本匹配方法及装置 | |
CN109886151B (zh) | 一种虚假身份属性检测方法 | |
CN116453102A (zh) | 一种基于深度学习的雾天车牌识别方法 | |
Chin et al. | A Novel Spectral Clustering Method Based on Pairwise Distance Matrix. | |
Li et al. | Bilateral-Head Region-Based Convolutional Neural Networks: a Unified Approach for Incremental Few-Shot Object Detection | |
Ovodov | Semantic-based annotation enhancement algorithm for semi-supervised machine learning efficiency improvement applied to optical Braille recognition | |
CN115827883A (zh) | 一种自监督图对齐的多语言知识图谱补全方法和系统 | |
Zuo et al. | Hierarchical Prompts for Rehearsal-free Continual Learning | |
CN118626596B (zh) | 基于语义分析的在线评论自动回复方法、系统及存储介质 | |
CN110070110A (zh) | 一种自适应阈值图像匹配方法 | |
Sun et al. | NCMatch: Semi-supervised Learning with Noisy Labels via Noisy Sample Filter and Contrastive Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |