CN114461812A - 一种面向大规模知识图谱的多通道实体对齐方法及装置 - Google Patents

一种面向大规模知识图谱的多通道实体对齐方法及装置 Download PDF

Info

Publication number
CN114461812A
CN114461812A CN202210031549.1A CN202210031549A CN114461812A CN 114461812 A CN114461812 A CN 114461812A CN 202210031549 A CN202210031549 A CN 202210031549A CN 114461812 A CN114461812 A CN 114461812A
Authority
CN
China
Prior art keywords
knowledge
entities
entity
graph
name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210031549.1A
Other languages
English (en)
Inventor
高云君
陈璐
朱俊豪
葛丛丛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202210031549.1A priority Critical patent/CN114461812A/zh
Publication of CN114461812A publication Critical patent/CN114461812A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向大规模知识图谱的多通道实体对齐方法及装置,该方法包括:获取两个大规模知识图谱;将两个大规模知识图谱中已知的对齐的实体对添加到训练集;根据两个大规模知识图谱中每一个实体的名字,提取语义特征矩阵和字面特征矩阵;根据所述语义特征矩阵和字面特征矩阵,构建名字特征矩阵;根据所述名字特征矩阵,对训练集进行数据扩充;根据扩充后的训练集,利用小批次生成策略,将源知识图谱和目标知识图谱划分成若干子图;获取每个子图中实体的结构特征并根据所述结构特征,构建结构特征矩阵;对所述名字特征矩阵和结构特征矩阵进行融合,得到所述两个大规模知识图谱的实体对齐结果。

Description

一种面向大规模知识图谱的多通道实体对齐方法及装置
技术领域
本申请涉及知识图谱实体对齐技术领域,尤其涉及一种面向大规模知识图谱的多通道实体对齐方法及装置。
背景技术
近些年,越来越多的企业或者机构开始构建自己的知识图谱,这些知识图谱被广泛应用于各类不同的知识驱动型任务,例如语义检索、推荐系统、智能回答等。然而,企业或机构自建的知识图谱往往是非常不完整的,这限制了知识图谱在下游任务上的使用。因此,知识图谱扩充技术受到了广泛的关注。将不同来源的知识图谱进行融合是一种非常常见的用来扩充知识图谱的方法。知识图谱融合的第一步需要从不同的知识图谱中找出指向同一个现实世界对象的实体,这个过程被称为“实体对齐”。因此,实体对齐是实现知识图谱融合的前提条件。
现有的实体对齐方法主要基于知识图谱结构特征的学习,它们建立在如果知识图谱中两个实体的邻居越相似那么这两个实体越有可能指向同一现实对象这一假设上。另外,一些方法还使用其他辅助信息(如实体名字、实体介绍等)来提高基于结构特征的实体对齐方法的精度。
在实现本发明的过程中,发明人发现现有技术中至少存在如下问题:
这些方法大多具有很高的时空复杂度,难以应用于现实中庞大的知识图谱。为了解决这一问题,一种常见的方法是在机器集群上以分布式的方式运行实体对齐模型,但实际应用中普通用户很难承受计算集群的开销,也很难对计算集群进行有效的管理。
发明内容
本申请实施例的目的是提供一种面向大规模知识图谱的多通道实体对齐方法及装置,以解决相关技术中存在的难以应用于大知识图谱的技术问题。
根据本申请实施例的第一方面,提供一种面向大规模知识图谱的多通道实体对齐方法,包括:
获取两个大规模知识图谱,分别记为源知识图谱和目标知识图谱,其中,每个所述大规模知识图谱包括若干知识多元组,每个所述知识多元组包括两个实体;
将所述两个大规模知识图谱中已知的对齐的实体对添加到训练集;
根据所述两个大规模知识图谱中每一个实体的名字,提取语义特征矩阵和字面特征矩阵;
根据所述语义特征矩阵和字面特征矩阵,构建名字特征矩阵,将所述名字特征矩阵作为名字特征通道的输出;
根据所述名字特征矩阵,对训练集进行数据扩充;
根据扩充后的训练集,利用小批次生成策略,将源知识图谱和目标知识图谱划分成若干子图;
获取每个子图中实体的结构特征并根据所述结构特征,构建结构特征矩阵,将所述结构特征矩阵作为结构特征通道的输出;
对所述名字特征矩阵和结构特征矩阵进行融合,得到所述两个大规模知识图谱的实体对齐结果。
进一步地,根据所述两个大规模知识图谱中每一个实体的名字,提取语义特征矩阵和字面特征矩阵,包括:
将所述两个大规模知识图谱中每一个实体的名字转换成标记序列;
为所有标记分配相同维度的嵌入向量并获取所述标记对应的所述嵌入向量的最大值;
将所述标记对应的所述嵌入向量的最大值作为所述标记对应的实体名字的语义特征;
根据源知识图谱和目标知识图谱中两两实体之间名字的语义特征的相似度,构建语义特征矩阵;
根据源知识图谱和目标知识图谱中两两实体之间名字的字面特征的相似度,构建字面特征矩阵。
进一步地,根据所述名字特征矩阵,对训练集进行数据扩充,包括:
根据所述名字特征矩阵,得到两个大规模知识图谱中每一个实体与另一大规模知识图谱中所有实体的相似度;
若来自不同知识图谱的实体都恰好是在各自知识图谱中与另一实体的相似度最高的实体,则将一对实体作为对齐的实体;
将所有对齐的实体添加到训练集中。
进一步地,根据扩充后的训练集,利用小批次生成策略,将源知识图谱和目标知识图谱划分成若干子图,包括:
为所述源知识图谱和目标知识图谱中的连边分配相同的权重;
将所述源知识图谱划分成若干子图,每个子图包含若干第一实体;
获取与所述第一实体对应的目标知识图谱中的第二实体;
在随机选取的预定数量的第二实体和其余第二实体之间加上虚构连边并为所述虚构连边设置远大于1的权重;
如果训练集中两个来自源知识图谱的实体之间不存在虚拟连边且对应的两个来自目标知识图谱的实体之间存在虚拟连边,那么将这些来自目标知识图谱的实体之间的连边权重设置为0;
根据设定的权重,将目标知识图谱划分为若干子图。
根据本申请实施例的第二方面,提供一种面向大规模知识图谱的多通道实体对齐装置,包括:
获取模块,用于获取两个大规模知识图谱,分别记为源知识图谱和目标知识图谱,其中,每个所述大规模知识图谱包括若干知识多元组,每个所述知识多元组包括两个实体;
添加模块,用于将所述两个大规模知识图谱中已知的对齐的实体对添加到训练集;
提取模块,用于根据所述两个大规模知识图谱中每一个实体的名字,提取语义特征矩阵和字面特征矩阵;
第一构建模块,用于根据所述语义特征矩阵和字面特征矩阵,构建名字特征矩阵,将所述名字特征矩阵作为名字特征通道的输出;
扩充模块,用于根据所述名字特征矩阵,对训练集进行数据扩充;
划分模块,用于根据扩充后的训练集,利用小批次生成策略,将源知识图谱和目标知识图谱划分成若干子图;
第二构建模块,用于获取每个子图中实体的结构特征并根据所述结构特征,构建结构特征矩阵,将所述结构特征矩阵作为结构特征通道的输出;
融合模块,用于对所述名字特征矩阵和结构特征矩阵进行融合,得到所述两个大规模知识图谱的实体对齐结果。
进一步地,根据所述两个大规模知识图谱中每一个实体的名字,提取语义特征矩阵和字面特征矩阵,包括:
将所述两个大规模知识图谱中每一个实体的名字转换成标记序列;
为所有标记分配相同维度的嵌入向量并获取所述标记对应的所述嵌入向量的最大值;
将所述标记对应的所述嵌入向量的最大值作为所述标记对应的实体名字的语义特征;
根据源知识图谱和目标知识图谱中两两实体之间名字的语义特征的相似度,构建语义特征矩阵;
根据源知识图谱和目标知识图谱中两两实体之间名字的字面特征的相似度,构建字面特征矩阵。
进一步地,根据所述名字特征矩阵,对训练集进行数据扩充,包括:
根据所述名字特征矩阵,得到两个大规模知识图谱中每一个实体与另一大规模知识图谱中所有实体的相似度;
若来自所述不同知识图谱的实体都恰好是在各自知识图谱中与另一实体的相似度最高的实体,则将一对实体作为对齐的实体;
将所有对齐的实体添加到训练集中。
进一步地,根据扩充后的训练集,利用小批次生成策略,将源知识图谱和目标知识图谱划分成若干子图,包括:
为所述源知识图谱和目标知识图谱中的连边分配相同的权重;
将所述源知识图谱划分成若干子图,每个子图包含若干第一实体;
获取与所述第一实体对应的目标知识图谱中的第二实体;
在随机选取的预定数量的第二实体和其余第二实体之间加上虚构连边并为所述虚构连边设置远大于1的权重;
如果训练集中两个来自源知识图谱的实体之间不存在虚拟连边且对应的两个来自目标知识图谱的实体之间存在虚拟连边,那么将这些来自目标知识图谱的实体之间的连边权重设置为0;
根据设定的权重,将目标知识图谱划分为若干子图。
根据本申请实施例的第三方面,提供一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的方法。
根据本申请实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如第一方面所述方法的步骤。
本申请的实施例提供的技术方案可以包括以下有益效果:
由上述实施例可知,本申请融合了知识图谱的结构特征和名字特征两个通道的信息来解决实体对齐问题,前者称为“结构通道”,后者称为“名字通道”。在结构通道中,利用小批次生成策略,将源知识图谱和目标知识图谱划分成若干子图从而构建结构特征矩阵,减少大规模知识图谱实体对齐的计算开销;同时,因图分割不可避免地会造成图结构破坏,通过引入名字特征通道可以丰富特征信息,弥补图结构特征破坏导致的精度下降,从而实现高效、高精度的实体对齐。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是根据一示例性实施例示出的一种面向大规模知识图谱的多通道实体对齐方法的流程图。
图2是根据一示例性实施例示出的步骤S13的流程图。
图3是根据一示例性实施例示出的步骤S15的流程图。
图4是根据一示例性实施例示出的步骤S16的流程图。
图5是根据一示例性实施例示出的小批次生成策略的示意图。
图6是根据一示例性实施例示出的一种面向大规模知识图谱的多通道实体对齐装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
名词解释:
大规模知识图谱:知识图谱是一种揭示实体之间关系的语义网络,它包含了若干知识多元组,所述知识多元组包括头实体、尾实体以及所述头实体和所述尾实体之间的实体参考关系。大规模知识图谱中包含的知识多元组具有实体数量多、实体间的关系多样等特点。
图1是根据一示例性实施例示出的一种面向大规模知识图谱的多通道实体对齐方法的流程图,如图1所示,该方法应用于终端中,可以包括以下步骤:
步骤S11:获取两个大规模知识图谱,分别记为源知识图谱和目标知识图谱,其中,每个所述大规模知识图谱包括若干知识多元组,每个所述知识多元组包括两个实体;
步骤S12:将所述两个大规模知识图谱中已知的对齐的实体对添加到训练集;
步骤S13:根据所述两个大规模知识图谱中每一个实体的名字,提取语义特征矩阵和字面特征矩阵;
步骤S14:根据所述语义特征矩阵和字面特征矩阵,构建名字特征矩阵,将所述名字特征矩阵作为名字特征通道的输出;
步骤S15:根据所述名字特征矩阵,对训练集进行数据扩充;
步骤S16:根据扩充后的训练集,利用小批次生成策略,将源知识图谱和目标知识图谱划分成若干子图;
步骤S17:获取每个子图中实体的结构特征并根据所述结构特征,构建结构特征矩阵,将所述结构特征矩阵作为结构特征通道的输出;
步骤S18:对所述名字特征矩阵和结构特征矩阵进行融合,得到所述两个大规模知识图谱的实体对齐结果。
由上述实施例可知,本申请融合了知识图谱的结构特征和名字特征两个通道的信息来解决实体对齐问题,前者称为“结构通道”,后者称为“名字通道”。在结构通道中,利用小批次生成策略,将源知识图谱和目标知识图谱划分成若干子图从而构建结构特征矩阵,减少大规模知识图谱实体对齐的计算开销;同时,因图分割不可避免地会造成图结构破坏,通过引入名字特征通道可以丰富特征信息,弥补图结构特征破坏导致的精度下降,从而实现高效、高精度的实体对齐。
在步骤S11的具体实施中,获取两个大规模知识图谱,分别记为源知识图谱和目标知识图谱,其中,每个所述大规模知识图谱包括若干知识多元组,每个所述知识多元组包括两个实体;
具体地,输入两个大规模知识图谱,分别称为源知识图谱和目标知识图谱,分别记作Gs和Gt,其中每个所述知识图谱包括若干知识多元组,每个所述知识多元组包括一个头实体、一个尾实体及所述头实体和所述尾实体之间的实体参考关系,换句话说,知识图谱是由一条条知识组成,每条知识表示为一个SPO三元组(Subject-Predicate-Object),其中所述头实体和尾实体是客观存在的具体东西,通常指实际存在的、起作用的组织、机构、物品、人物等名词。本方法中不对所述头实体和尾实体做区分,因此统称为实体。所述大规模知识图谱根据所述实体之间的实体参考关系形成图结构。
在步骤S12的具体实施中,将所述两个大规模知识图谱中已知的对齐的实体对添加到训练集;
具体地,获取所述源知识图谱和目标知识图谱中已知的指向同一物理对象的多对实体作为训练集。例如,在一个具体实施例中,中文源知识图谱和英语目标知识图谱中分别存在名为“马特·达蒙”和“Matt Damon”,他们都指代同一美国知名演员,因此这一对实体纳入训练集中。
在步骤S13的具体实施中,根据所述两个大规模知识图谱中每一个实体的名字,提取语义特征矩阵和字面特征矩阵;
具体地,如图2所示,此步骤包括以下子步骤:
步骤S21:将所述两个大规模知识图谱中每一个实体的名字转换成标记序列;
具体地,所述标记序列是指对实体名字进行分词处理的结果,每一个标记指分词结果中的一个子字符。在一个实施例中,使用BERT、RoBERTa、XLNet等预训练语言模型将所述大规模知识图谱Gs和Gt中的每一个实体名字转换成一个标记序列,例如,一个具体实施例中英语目标知识图谱中一实体名字“Matt Damon”被所述预训练语言模型BERT转换成[“Matt”,“Damon”]这一标记序列。
步骤S22:为所有标记分配相同维度的嵌入向量并获取所述标记对应的所述嵌入向量的最大值;
具体地,为所有标记分配相同维度的嵌入向量指为分词结果中每一个子字符分配同维度的嵌入向量,嵌入向量的分配可以通过任意一种预训练语言模型如BERT、RoBERTa等实现。在一个具体实施例中,为标记序列中的子字符[“Matt”,“Damon”]分别分配768维向量t1和t2,获取所述标记对应的所述嵌入向量的最大值是指采用最大池化操作在所有标记的嵌入向量中选择每个维度中的最大值。例如,选择所述嵌入向量t1和t2中每个维度的最大值,则可获得768个最大值。
步骤S23:将所述标记对应的所述嵌入向量的最大值作为所述标记对应的实体名字的语义特征;
具体地,将所述标记序列中每个标记对应的嵌入向量的最大值进行拼接,形成新的向量作为该实体名字的语义信息特征。例如,将步骤S22中所述具体实施例中获得的768个最大值拼接形成新的向量作为实体名字“Matt Damon”的语义信息特征。
步骤S24:根据源知识图谱和目标知识图谱中两两实体之间名字的语义特征的相似度,构建语义特征矩阵;
具体地,相似度用于描述两个事物之间相似的程度,根据源知识图谱Gs和目标知识图谱Gt中两两实体之间名字语义特征,采用曼哈顿相似度或余弦相似度等相似度度量方法构建语义特征矩阵,因曼哈顿相似度度量方法计算量小,本实施例中采用曼哈顿相似度来度量名字语义特征的相似度。假设源知识图谱中包含m个实体,目标知识图谱中包含n个实体,需计算得到m*n个实体间的相似度。
步骤S25:根据源知识图谱和目标知识图谱中两两实体之间名字的字面特征的相似度,构建字面特征矩阵。
具体地,采用任意一种字符相似度度量方法,如Levenshtein距离、Jaccard相似度等构建Gs和Gt中两两实体之间名字字面特征的相似度矩阵。假设源知识图谱中包含m个实体,目标知识图谱中包含n个实体,需计算得到m*n个实体间的相似度。
在步骤S14的具体实施中,根据所述语义特征矩阵和字面特征矩阵,构建名字特征矩阵,将所述名字特征矩阵作为名字特征通道的输出;
具体地,以加权和的方式融合语义特征矩阵和字面特征矩阵,获得名字特征矩阵作为名字特征通道的输出,一般情况下,为二者设置相同权重。通过此步骤,引入名字特征通道来丰富特征信息,充分利用知识图谱所包含的丰富信息,进而实现高精度的实体对齐。
在步骤S15的具体实施中,根据所述名字特征矩阵,对训练集进行数据扩充;
具体地,如图3所示,该步骤可以包括以下子步骤:
步骤S31:根据所述名字特征矩阵,得到两个大规模知识图谱中每一个实体与另一大规模知识图谱中所有实体的相似度;
具体地,所述名字特征矩阵包含了两个大规模知识图谱中两两实体的相似度,假设源知识图谱中包含m个实体,目标知识图谱中包含n个实体,得到m*n规模的名字特征矩阵,源知识图谱中第i个实体与目标知识图谱中所有实体的相似度为名字特征矩阵的第i行;
步骤S32:若来自不同知识图谱的实体都恰好是在各自知识图谱中与另一实体的相似度最高的实体,则将一对实体作为对齐的实体;
具体地,假设名字特征矩阵中第i行中相似度最大的值在第j列位置,而第j列中相似度最大的值在第i行位置,那么源知识图谱中第i个实体和目标知识图谱中第j个实体被认为是对齐的,即指代同一现实对象。
步骤S33:将所有对齐的实体添加到所述训练集中。
在步骤S31-步骤S33的具体实施中,如果来自所述不同知识图谱的两个实体都恰好是在各自知识图谱中与另一实体的名字特征最相似的实体,那么这一对实体被认为是对齐的实体,所有满足此条件的实体对被纳入训练集。通过训练集数据扩充,弥补后续因子图划分导致的原训练集数据丢失问题,为后续子图结构信息的监督学习提供更多监督信息。
在步骤S16的具体实施中,根据扩充后的训练集,利用小批次生成策略,将源知识图谱和目标知识图谱划分成若干子图;
具体地,如图4所示,此步骤可以包括以下子步骤:
步骤S41:为所述源知识图谱和目标知识图谱中的连边分配相同的权重;
具体地,为源知识图谱和目标知识图谱中的连边分配相同的权重,以图5为例,Gs和Gt中所有的连边的权重都分配为w,在此实施例中权重设置为1。
步骤S42:将所述源知识图谱划分成若干子图,每个子图包含若干第一实体;
具体地,使用METIS将源知识图谱Gs划分成K个子图
Figure BDA0003466664620000121
子图
Figure BDA0003466664620000122
中包含的训练集中的实体为
Figure BDA0003466664620000123
以图5为例,METIS将源知识图谱划分成2个子图,即
Figure BDA0003466664620000124
Figure BDA0003466664620000125
子图
Figure BDA0003466664620000126
中包含的训练集中的实体为
Figure BDA0003466664620000127
子图
Figure BDA0003466664620000128
中包含的训练集中的实体为
Figure BDA0003466664620000129
步骤S43:获取与所述第一实体对应的目标知识图谱中的第二实体;
具体地,根据所述扩充后的训练集,在目标知识图谱Gt中找到所述第一实体
Figure BDA00034666646200001210
所对应的第二实体
Figure BDA00034666646200001211
以图5为例,与第一实体
Figure BDA00034666646200001212
对应的第二实体
Figure BDA00034666646200001213
与第一实体
Figure BDA00034666646200001214
对应的第二实体
Figure BDA00034666646200001215
Figure BDA00034666646200001216
步骤S44:在随机选取的预定数量的第二实体和其余第二实体之间加上虚构连边并为所述虚构连边设置远大于1的权重;
具体地,从所述第二实体
Figure BDA00034666646200001217
中随机选取q个实体,在这q个实体和剩下的
Figure BDA00034666646200001218
实体之间加上虚构连边(只是起到辅助子图划分的作用并没有改变图的结构),并为这些连边分配一个远大于1的权重w。如图5,
Figure BDA00034666646200001219
中对应
Figure BDA00034666646200001220
Figure BDA00034666646200001221
选取其中
Figure BDA00034666646200001222
因此根据上述规则在
Figure BDA00034666646200001223
Figure BDA00034666646200001224
之间连有一条虚构连边。
步骤S45:如果训练集中两个来自源知识图谱的实体之间不存在虚拟连边且对应的两个来自目标知识图谱的实体之间存在虚拟连边,那么将这些来自目标知识图谱的实体之间的连边权重设置为0;
具体地,如果训练集中两个来自源知识图谱的实体之间不存在连边,而对应的两个来自目标知识图谱的实体之间存在连边,那么将这些来自目标知识图谱的实体之间的连边权重设置为0。如图5所示,在源知识图谱Gs
Figure BDA00034666646200001225
Figure BDA00034666646200001226
之间并不存在连边,但目标知识图谱Gt
Figure BDA0003466664620000131
Figure BDA0003466664620000132
存在连边,因此根据上述规则,
Figure BDA0003466664620000133
Figure BDA0003466664620000134
之间的连边权重设为0,
Figure BDA0003466664620000135
Figure BDA0003466664620000136
同理。
步骤S46:根据设定的权重,将目标知识图谱划分为若干子图;
具体地,在步骤S43到步骤S45的基础上,利用METIS将目标知识图谱划分为K个子图,即图5所示子图划分的结果。通过这步骤,在实现通过划分子图来减少实体对齐模型复杂度的同时,又尽可能保证划分的子图不改变原来的结构特征信息。
在步骤S17的具体实施中,获取每个子图中实体的结构特征并根据所述结构特征,构建结构特征矩阵,将所述结构特征矩阵作为结构特征通道的输出;
具体地,使用任何一种基于知识图谱结构的实体对齐模型,如GCN-Align、RREA等,独立地学习每个子图中实体结构特征,再采用曼哈顿距离或余弦相似度等相似度度量方法构建源知识图谱和目标知识图谱中两两实体之间结构特征的相似度矩阵,所述结构特征的相似度矩阵即为结构特征矩阵。
在步骤S18的具体实施中,对所述名字特征矩阵和结构特征矩阵进行融合,得到所述两个大规模知识图谱的实体对齐结果。
具体地,将名字特征矩阵和结构特征矩阵相加,根据融合后的矩阵获得实体对齐结果。
与前述的面向大规模知识图谱的多通道实体对齐方法的实施例相对应,本申请还提供了面向大规模知识图谱的多通道实体对齐装置的实施例。
图6是根据一示例性实施例示出的一种面向大规模知识图谱的多通道实体对齐装置框图。参照图6,该装置可以包括:
获取模块21,用于获取两个大规模知识图谱,分别记为源知识图谱和目标知识图谱,其中,每个所述大规模知识图谱包括若干知识多元组,每个所述知识多元组包括两个实体;
添加模块22,用于将所述两个大规模知识图谱中已知的对齐的实体对添加到训练集;
提取模块23,用于根据所述两个大规模知识图谱中每一个实体的名字,提取语义特征矩阵和字面特征矩阵;
第一构建模块24,用于根据所述语义特征矩阵和字面特征矩阵,构建名字特征矩阵,将所述名字特征矩阵作为名字特征通道的输出;
扩充模块25,用于根据所述名字特征矩阵,对训练集进行数据扩充;
划分模块26,用于根据扩充后的训练集,利用小批次生成策略,将源知识图谱和目标知识图谱划分成若干子图;
第二构建模块27,用于获取每个子图中实体的结构特征并根据所述结构特征,构建结构特征矩阵,将所述结构特征矩阵作为结构特征通道的输出;
融合模块28,用于对所述名字特征矩阵和结构特征矩阵进行融合,得到所述两个大规模知识图谱的实体对齐结果。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
相应的,本申请还提供一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述的面向大规模知识图谱的多通道实体对齐方法。
相应的,本申请还提供一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如上述的面向大规模知识图谱的多通道实体对齐方法。
本领域技术人员在考虑说明书及实践这里公开的内容后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (10)

1.一种面向大规模知识图谱的多通道实体对齐方法,其特征在于,包括:
获取两个大规模知识图谱,分别记为源知识图谱和目标知识图谱,其中,每个所述大规模知识图谱包括若干知识多元组,每个所述知识多元组包括两个实体;
将所述两个大规模知识图谱中已知的对齐的实体对添加到训练集;
根据所述两个大规模知识图谱中每一个实体的名字,提取语义特征矩阵和字面特征矩阵;
根据所述语义特征矩阵和字面特征矩阵,构建名字特征矩阵,将所述名字特征矩阵作为名字特征通道的输出;
根据所述名字特征矩阵,对训练集进行数据扩充;
根据扩充后的训练集,利用小批次生成策略,将源知识图谱和目标知识图谱划分成若干子图;
获取每个子图中实体的结构特征并根据所述结构特征,构建结构特征矩阵,将所述结构特征矩阵作为结构特征通道的输出;
对所述名字特征矩阵和结构特征矩阵进行融合,得到所述两个大规模知识图谱的实体对齐结果。
2.根据权利要求1所述的方法,其特征在于,根据所述两个大规模知识图谱中每一个实体的名字,提取语义特征矩阵和字面特征矩阵,包括:
将所述两个大规模知识图谱中每一个实体的名字转换成标记序列;
为所有标记分配相同维度的嵌入向量并获取所述标记对应的所述嵌入向量的最大值;
将所述标记对应的所述嵌入向量的最大值作为所述标记对应的实体名字的语义特征;
根据源知识图谱和目标知识图谱中两两实体之间名字的语义特征的相似度,构建语义特征矩阵;
根据源知识图谱和目标知识图谱中两两实体之间名字的字面特征的相似度,构建字面特征矩阵。
3.根据权利要求1所述的方法,其特征在于,根据所述名字特征矩阵,对训练集进行数据扩充,包括:
根据所述名字特征矩阵,得到两个大规模知识图谱中每一个实体与另一大规模知识图谱中所有实体的相似度;
若来自不同知识图谱的实体都恰好是在各自知识图谱中与另一实体的相似度最高的实体,则将一对实体作为对齐的实体;
将所有对齐的实体添加到训练集中。
4.根据权利要求1所述的方法,其特征在于,根据扩充后的训练集,利用小批次生成策略,将源知识图谱和目标知识图谱划分成若干子图,包括:
为所述源知识图谱和目标知识图谱中的连边分配相同的权重;
将所述源知识图谱划分成若干子图,每个子图包含若干第一实体;
获取与所述第一实体对应的目标知识图谱中的第二实体;
在随机选取的预定数量的第二实体和其余第二实体之间加上虚构连边并为所述虚构连边设置远大于1的权重;
如果训练集中两个来自源知识图谱的实体之间不存在虚拟连边且对应的两个来自目标知识图谱的实体之间存在虚拟连边,那么将这些来自目标知识图谱的实体之间的连边权重设置为0;
根据设定的权重,将目标知识图谱划分为若干子图。
5.一种面向大规模知识图谱的多通道实体对齐装置,其特征在于,包括:
获取模块,用于获取两个大规模知识图谱,分别记为源知识图谱和目标知识图谱,其中,每个所述大规模知识图谱包括若干知识多元组,每个所述知识多元组包括两个实体;
添加模块,用于将所述两个大规模知识图谱中已知的对齐的实体对添加到训练集;
提取模块,用于根据所述两个大规模知识图谱中每一个实体的名字,提取语义特征矩阵和字面特征矩阵;
第一构建模块,用于根据所述语义特征矩阵和字面特征矩阵,构建名字特征矩阵,将所述名字特征矩阵作为名字特征通道的输出;
扩充模块,用于根据所述名字特征矩阵,对训练集进行数据扩充;
划分模块,用于根据扩充后的训练集,利用小批次生成策略,将源知识图谱和目标知识图谱划分成若干子图;
第二构建模块,用于获取每个子图中实体的结构特征并根据所述结构特征,构建结构特征矩阵,将所述结构特征矩阵作为结构特征通道的输出;
融合模块,用于对所述名字特征矩阵和结构特征矩阵进行融合,得到所述两个大规模知识图谱的实体对齐结果。
6.根据权利要求5所述的装置,其特征在于,根据所述两个大规模知识图谱中每一个实体的名字,提取语义特征矩阵和字面特征矩阵,包括:
将所述两个大规模知识图谱中每一个实体的名字转换成标记序列;
为所有标记分配相同维度的嵌入向量并获取所述标记对应的所述嵌入向量的最大值;
将所述标记对应的所述嵌入向量的最大值作为所述标记对应的实体名字的语义特征;
根据源知识图谱和目标知识图谱中两两实体之间名字的语义特征的相似度,构建语义特征矩阵;
根据源知识图谱和目标知识图谱中两两实体之间名字的字面特征的相似度,构建字面特征矩阵。
7.根据权利要求5所述的装置,其特征在于,根据所述名字特征矩阵,对训练集进行数据扩充,包括:
根据所述名字特征矩阵,得到两个大规模知识图谱中每一个实体与另一大规模知识图谱中所有实体的相似度;
若来自不同知识图谱的实体都恰好是在各自知识图谱中与另一实体的相似度最高的实体,则将一对实体作为对齐的实体;
将所有对齐的实体添加到训练集中。
8.根据权利要求5所述的装置,其特征在于,根据扩充后的训练集,利用小批次生成策略,将源知识图谱和目标知识图谱划分成若干子图,包括:
为所述源知识图谱和目标知识图谱中的连边分配相同的权重;
将所述源知识图谱划分成若干子图,每个子图包含若干第一实体;
获取与所述第一实体对应的目标知识图谱中的第二实体;
在随机选取的预定数量的第二实体和其余第二实体之间加上虚构连边并为所述虚构连边设置远大于1的权重;
如果训练集中两个来自源知识图谱的实体之间不存在虚拟连边且对应的两个来自目标知识图谱的实体之间存在虚拟连边,那么将这些来自目标知识图谱的实体之间的连边权重设置为0;
根据设定的权重,将目标知识图谱划分为若干子图。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-4任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如权利要求1-4中任一项所述方法的步骤。
CN202210031549.1A 2022-01-12 2022-01-12 一种面向大规模知识图谱的多通道实体对齐方法及装置 Pending CN114461812A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210031549.1A CN114461812A (zh) 2022-01-12 2022-01-12 一种面向大规模知识图谱的多通道实体对齐方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210031549.1A CN114461812A (zh) 2022-01-12 2022-01-12 一种面向大规模知识图谱的多通道实体对齐方法及装置

Publications (1)

Publication Number Publication Date
CN114461812A true CN114461812A (zh) 2022-05-10

Family

ID=81410445

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210031549.1A Pending CN114461812A (zh) 2022-01-12 2022-01-12 一种面向大规模知识图谱的多通道实体对齐方法及装置

Country Status (1)

Country Link
CN (1) CN114461812A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115658927A (zh) * 2022-11-17 2023-01-31 浙江大学 一种面向时序知识图谱的无监督实体对齐方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115658927A (zh) * 2022-11-17 2023-01-31 浙江大学 一种面向时序知识图谱的无监督实体对齐方法及装置
CN115658927B (zh) * 2022-11-17 2023-04-11 浙江大学 一种面向时序知识图谱的无监督实体对齐方法及装置

Similar Documents

Publication Publication Date Title
CN109299284B (zh) 一种基于结构信息与文本描述的知识图谱表示学习方法
CN108804641B (zh) 一种文本相似度的计算方法、装置、设备和存储介质
US11106714B2 (en) Summary generating apparatus, summary generating method and computer program
CN105718586B (zh) 分词的方法及装置
CN106959958B (zh) 地图兴趣点简称获取方法和装置
CN108304484A (zh) 关键词匹配方法及装置、电子设备和可读存储介质
CN112819023A (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN110941698A (zh) 一种基于bert下卷积神经网络的服务发现方法
CN113656547B (zh) 文本匹配方法、装置、设备及存储介质
CN113298197B (zh) 数据聚类方法、装置、设备及可读存储介质
CN115080766B (zh) 基于预训练模型的多模态知识图谱表征系统及方法
CN109766407A (zh) 数据处理方法和系统
CN113342958B (zh) 问答匹配方法、文本匹配模型的训练方法和相关设备
CN111461301A (zh) 序列化数据处理方法和装置、文本处理方法和装置
CN109918627A (zh) 文本生成方法、装置、电子设备及存储介质
CN111459977A (zh) 自然语言查询的转换
CN111782826A (zh) 知识图谱的信息处理方法、装置、设备及存储介质
CN106202224B (zh) 搜索处理方法及装置
CN114611498A (zh) 标题生成方法、模型训练方法及装置
CN114547267A (zh) 智能问答模型的生成方法、装置、计算设备和存储介质
CN113722512A (zh) 基于语言模型的文本检索方法、装置、设备及存储介质
CN111797245A (zh) 基于知识图谱模型的信息匹配方法及相关装置
CN110597956A (zh) 一种搜索方法、装置及存储介质
CN113516142A (zh) 文本图像匹配方法、装置、设备及存储介质
CN114461812A (zh) 一种面向大规模知识图谱的多通道实体对齐方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination