CN112417169A - 知识图谱的实体对齐方法、装置、计算机设备和存储介质 - Google Patents

知识图谱的实体对齐方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN112417169A
CN112417169A CN202011314360.0A CN202011314360A CN112417169A CN 112417169 A CN112417169 A CN 112417169A CN 202011314360 A CN202011314360 A CN 202011314360A CN 112417169 A CN112417169 A CN 112417169A
Authority
CN
China
Prior art keywords
aligned
entity
category
knowledge graph
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011314360.0A
Other languages
English (en)
Inventor
向玥佳
张子恒
林镇溪
陈曦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202011314360.0A priority Critical patent/CN112417169A/zh
Publication of CN112417169A publication Critical patent/CN112417169A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种知识图谱的实体对齐方法、装置、计算机设备和存储介质,方法包括:获取第一待对齐知识图谱的各第一待对齐实体,以及第二待对齐知识图谱的各第二待对齐实体;读取各第一待对齐实体和各第二待对齐实体所属的类别;基于各类别构建第一待对齐知识图谱和第二待对齐知识图谱之间的类别冲突矩阵;分别确定各第一待对齐实体与各第二待对齐实体之间的相似度;基于相似度和类别冲突矩阵,对第一待对齐知识图谱和第二待对齐知识图谱进行实体对齐,得到对齐后的知识图谱。上述方法通过构建类别冲突矩阵引入了实体类别信息,结合类别冲突矩阵进行实体对齐,可减少将相似名称但含义不同等类型的实体聚合到一起的情况,减少了实体对齐的错误。

Description

知识图谱的实体对齐方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种知识图谱的实体对齐方法、装置、计算机设备和存储介质。
背景技术
知识图谱(Knowledge Graph),是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱通常由节点(point)和边(Edge)组成,每个节点表示一个“实体”,每条边为实体与实体之间的“关系”。
在不同的知识图谱中,对于具有相同含义的实体的称呼或者表现形式可能不同,因此需要进行跨知识图谱的实体对齐。相关技术中出现了许多基于嵌入的方法实现实体对齐,这类方法通常是在一个隐含空间中建模图谱的各个维度的信息,然而目前的模型容易将相近称呼或表现形式但不同含义的实体聚类到一起,导致实体对齐错误。
发明内容
基于此,有必要针对上述技术问题,提供一种能够减少实体对齐错误的知识图谱的实体对齐方法、装置、计算机设备和存储介质。
一种知识图谱的实体对齐方法,所述方法包括:
获取第一待对齐知识图谱的各第一待对齐实体,以及第二待对齐知识图谱的各第二待对齐实体;
读取各所述第一待对齐实体和各所述第二待对齐实体所属的类别;
基于各所述类别构建所述第一待对齐知识图谱和第二待对齐知识图谱之间的类别冲突矩阵;
分别确定各所述第一待对齐实体与各所述第二待对齐实体之间的相似度;
基于所述相似度和所述类别冲突矩阵,对所述第一待对齐知识图谱和第二待对齐知识图谱进行实体对齐,得到对齐后的知识图谱。
在其中的一个实施例中,所述基于各所述类别构建所述第一待对齐知识图谱和第二待对齐知识图谱之间的类别冲突矩阵,包括;
统计所述第一待对齐知识图谱中包含的类别,与所述第二待对齐知识图谱中包含的类别之间的已知类别关系的概率统计信息;
基于所述已知类别关系的概率统计信息,确定所述第一待对齐实体所属类别与所述第二待对齐实体所属类别之间的冲突概率,得到所述类别冲突矩阵。
一种知识图谱的实体对齐装置,所述装置包括:
获取模块,用于获取第一待对齐知识图谱的各第一待对齐实体,以及第二待对齐知识图谱的各第二待对齐实体;
类别读取模块,用于读取各所述第一待对齐实体和各所述第二待对齐实体所属的类别;
冲突矩阵构建模块,用于基于各所述类别构建所述第一待对齐知识图谱和第二待对齐知识图谱之间的类别冲突矩阵;
相似度确定模块,用于分别确定各所述第一待对齐实体与各所述第二待对齐实体之间的相似度;
实体对齐模块,用于基于所述相似度和所述类别冲突矩阵,对所述第一待对齐知识图谱和第二待对齐知识图谱进行实体对齐,得到对齐后的知识图谱。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取第一待对齐知识图谱的各第一待对齐实体,以及第二待对齐知识图谱的各第二待对齐实体;
读取各所述第一待对齐实体和各所述第二待对齐实体所属的类别;
基于各所述类别构建所述第一待对齐知识图谱和第二待对齐知识图谱之间的类别冲突矩阵;
分别确定各所述第一待对齐实体与各所述第二待对齐实体之间的相似度;
基于所述相似度和所述类别冲突矩阵,对所述第一待对齐知识图谱和第二待对齐知识图谱进行实体对齐,得到对齐后的知识图谱。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取第一待对齐知识图谱的各第一待对齐实体,以及第二待对齐知识图谱的各第二待对齐实体;
读取各所述第一待对齐实体和各所述第二待对齐实体所属的类别;
基于各所述类别构建所述第一待对齐知识图谱和第二待对齐知识图谱之间的类别冲突矩阵;
分别确定各所述第一待对齐实体与各所述第二待对齐实体之间的相似度;
基于所述相似度和所述类别冲突矩阵,对所述第一待对齐知识图谱和第二待对齐知识图谱进行实体对齐,得到对齐后的知识图谱。
上述知识图谱的实体对齐方法、装置、计算机设备和存储介质,对于待进行实体对齐的两个知识图谱,分别获取其中的实体,并读取各实体所属的类别,基于类别构建两个知识图谱之间的类别冲突矩阵,分别计算两个知识图谱中各实体之间的相似度,最后基于类别冲突矩阵和各实体间的相似度进行实体对齐,得到对齐后的知识图谱。上述方法通过构建类别冲突矩阵引入了实体类别信息,结合类别冲突矩阵进行知识图谱的实体对齐,可减少将相似名称但含义不同等实体聚合到一起的情况,减少了实体对齐的错误。
附图说明
图1为一个实施例中知识图谱的实体对齐方法的流程示意图;
图2为一个实施例中基于各类别构建第一待对齐知识图谱和第二待对齐知识图谱之间的类别冲突矩阵的流程示意图;
图3为一个实施例中基于类别关系信息,分别确定第一待对齐知识图谱和第二待对齐知识图谱中的所有类别之间的冲突概率的流程示意图;
图4为一个具体实施例中类别从属关系的示意图;
图5为一个实施例中基于预设放缩因子、第一类别从属关系路径和第二类别从属关系路径,确定第一待对齐实体所属类别与第二待对齐实体所属类别之间的冲突概率的流程示意图;
图6为一个实施例中基于类别冲突矩阵对各相似度进行调整,得到调整后相似度的流程示意图;
图7为另一个实施例中基于类别冲突矩阵对各相似度进行调整,得到调整后相似度的流程示意图;
图8为一个具体实施例中知识图谱的实体对齐方法的流程示意图;
图9为一个实施例中知识图谱的实体对齐装置的结构框图;
图10为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种知识图谱的实体对齐方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括步骤S110至步骤S150。
步骤S110,获取第一待对齐知识图谱的各第一待对齐实体,以及第二待对齐知识图谱的各第二待对齐实体。
知识图谱是一种基于图的数据结构,由节点(point)和边(Edge)组成,每个节点表示一个实体,每条边为实体与实体之间的“关系”。知识图谱是由一些相互连接的实体和他们的属性构成的;换句话说,知识图谱是由一条条知识组成,每条知识表示为一个SPO三元组(Subject-Predicate-Object)。其中,实体是客观存在的具体东西,通常指实际存在的、起作用的组织、机构、物品、人物等名词。
实体对齐旨在判断两个或者多个不同信息来源的实体是否为指向真实世界中同一个对象。如果多个实体表征同一个对象,则在这些实体之间构建对齐关系,同时对实体包含的信息进行融合和聚集。知识图谱中的实体对齐是指将两个知识图谱进行合并时需要对两者中描述同一个实体的知识进行归一化。
本实施例中,对两个知识图谱中的实体进行实体对齐,首先分别获取两个待对齐的知识图谱中的实体,为了区分将两个待对齐的知识图谱分别命名为第一待对齐知识图谱和第二待对齐知识图谱,对第一待对齐知识图谱中的实体命名为第一待对齐实体,对第二待对齐知识图谱中的实体命名为第二待对齐实体。
步骤S120,读取各第一待对齐实体和各第二待对齐实体所属的类别。
类别就是品类、门类的意思;在一个实施例中,类别可以用于描述物体。在本实施例中,知识图谱中的实体均对应至少一个所属的类别,例如一个人,所属类别为人类,又如一棵松树,其所属类别为植物;或者说一个人所属类别为成年人,或者还可以从职业的角度描述一个人所属的类别为科学家,等等;在本实施例中,对于知识图谱中的实体,分别获取各实体所属的类别。可以理解地,多个实体可能对应同一类别,一个实体也可能对应多个类别;在一个实施例中,读取实体在待对齐知识图谱中对应的类别。
步骤S130,基于各类别构建第一待对齐知识图谱和第二待对齐知识图谱之间的类别冲突矩阵。
在本实施例中,类别冲突是指两个实体类别之间存在对立或不一致的相互关系;类别冲突矩阵是指表示第一待对齐的知识图谱中包含的各实体所属类别,与第二待对齐知识图谱中包含的各实体所属的类别之间发生冲突的概率,以各两个待对齐知识图谱中包含的各实体所属的类别为基础构建得到。
在一个实施例中,基于各类别构建第一待对齐知识图谱和第二待对齐知识图谱之间的类别冲突矩阵,包括:获取各类别之间的关系,基于类别之间的关系分别确定各类别之间的冲突概率,进而得到第一待对齐知识图谱与第二待对齐知识图谱之间的类别冲突矩阵;其中,类别之间的关系可以基于先验知识确定。具体的基于类别之间的关系确定各类别之间的冲突概率的过程将在后实施例中进行详细描述,在此不再赘述。
步骤S140,分别确定各第一待对齐实体与各第二待对齐实体之间的相似度。
相似度用于描述两个事物之间相似的程度,在本实施例中,对知识图谱中的实体进行相似度的计算,可以理解地,本实施例中确定相似度包括对于第一待对齐知识图谱中的一个实体需计算与第二待对齐知识图谱中的所有实体之间的相似度;假设第一待对齐知识图谱中包含m个实体,第二待对齐知识图谱中包含n个实体,需计算得到m*n个实体间的相似度。
进一步地,计算知识图谱的实体间的相似度可以通过任意一种方式实现。在一个实施例中,可基于通过训练确定的实体对齐模型对各实体确定对应的嵌入表示,并利用各实体对应的嵌入表示计算各实体间的相似度。在一个具体实施例中,可利用余弦距离表示计算各实体对应的嵌入表示来得到各实体间的相似度。
其中通过训练确定的实体对齐模型可以是任意一种实体对齐模型;在一个具体实施例中,实体对齐模型包括MTransE(一种基于嵌入表示的图谱对齐算法),GCN-Align(一种嵌入式图谱对齐算法),BootEA(一种基于嵌入表示的图谱对齐算法)等。
步骤S150,基于相似度和类别冲突矩阵,对第一待对齐知识图谱和第二待对齐知识图谱进行实体对齐,得到对齐后的知识图谱。
在一个实施例中,基于相似度和类别冲突矩阵,对第一待对齐知识图谱和第二待对齐知识图谱进行实体对齐,包括:基于类别冲突矩阵对各相似度进行调整,得到调整后相似度;根据各第一待对齐实体与各第二待对齐实体之间的调整后相似度,对第一待对齐知识图谱和第二待对齐知识图谱进行实体对齐。
进一步地,在一个实施例中,基于类别冲突矩阵对各相似度进行调整,得到调整后相似度,包括:读取相似度对应的两个实体所属的类别在类别冲突矩阵中的冲突概率,以冲突概率和预设系数对相似度进行调整,得到对应的调整后相似度。其中以冲突概率和预设系数对相似度进行调整,得到对应的调整后相似度的具体过程在后实施例中将会详细描述,在此不再赘述。
传统方法通常利用实体对齐模型确定各实体对应的嵌入表示,并以嵌入表示计算相似度表示实体间的相似度,在得到各实体间的相似度之后,基于各实体相似度确定每一个实体的最近邻,进而实现跨知识图谱的实体对齐。而本实施例中通过确定两个知识图谱中各实体所属类别之间的类别冲突矩阵,引入了类别信息,通过一定的方式基于类别冲突矩阵对相似度进行一定的调整,可能对相似度产生一定的影响,进而对知识图谱的实体对齐产生影响,即在知识图谱的实体对齐过程中引入了实体类别冲突信息,从而使得实体对齐减少因类别冲突产生的对齐错误,提高实体对齐的正确率。
上述知识图谱的实体对齐方法,对于待进行实体对齐的两个知识图谱,分别获取其中的实体,并读取各实体所属的类别,基于类别构建两个知识图谱之间的类别冲突矩阵,分别计算两个知识图谱中各实体之间的相似度,最后基于类别冲突矩阵和各实体间的相似度进行实体对齐,得到对齐后的知识图谱。上述方法通过构建类别冲突矩阵引入了实体类别信息,结合类别冲突矩阵进行实体对齐,可减少将相似名称但含义不同的实体聚合到一起的情况,减少了实体对齐的错误。
在一个实施例中,如图2所示,基于各类别构建第一待对齐知识图谱和第二待对齐知识图谱之间的类别冲突矩阵,包括步骤S210和步骤S220。其中:步骤S210,获取与类别关联的类别关系信息;步骤S220,基于类别关系信息,分别确定第一待对齐知识图谱和第二待对齐知识图谱中的所有类别之间的冲突概率,得到类别冲突矩阵。
其中,在获取第一待对齐知识图谱中各实体类别、第二待对齐知识图谱中各实体类别之后,通过一定方式获取两个待对齐知识图谱的各实体类别之间的类别关系,即为本实施例中的类别关系信息;例如第一待对齐知识图谱中包含的实体类别A1,与第二待对齐知识图谱中包含的实体类别A2,类别A1与类别A2之间,存在的类别关系可能为:类别A1与类别A2不冲突,或者类别A1与类别A2属于同一类别,或者类别A1与类别A2存在冲突,等等关系即为本实施例中的类别关系信息。
在分别确定第一待对齐知识图谱中各实体类别,与第二待对齐知识图谱中各实体类别间的冲突概率后,即可得到第一待对齐知识图谱与第二待对齐知识图谱间的类别冲突矩阵。假设第一待对齐知识图谱包含m个实体类别,第二待对齐知识图谱包含n个实体类别,则可得到m*n的类别冲突矩阵。
在一个实施例中,若第一待对齐实体所属类别和第一待对齐实体所属类别是同一类别,则确定第一待对齐实体所属类别与第二待对齐实体所属类别之间的冲突概率为0。其中,冲突概率为0表示两个类别之间完全不冲突,可以理解地,各类别与其本身是完全不冲突的。
在另一个实施例中,类别关系信息包括与类别关联的已知实体类别冲突关系;在本实施例中,如图3所示,基于类别关系信息,分别确定第一待对齐知识图谱和第二待对齐知识图谱中的所有类别之间的冲突概率,包括步骤S310:若第一待对齐实体所属类别与第一待对齐实体所属类别属于已知实体类别冲突关系,确定第一待对齐实体所属类别与第二待对齐实体所属类别之间的冲突概率为1。
其中,已知实体类别冲突关系是指在实际世界中已经明确的两个类别之间的关系,是否为冲突的,例如在一个具体实施例中,类别“人类”和类别“工作”一定是冲突的。
在一个实施例中,获取第一待对齐知识图谱与第二待对齐知识图谱中的实体schema(数据库的组织和结构)信息,基于schema信息中的元关系“owl:disjointWith(表达一组类是不相交的)”确定两个类别是否冲突;进一步地,在一个实施例中,schema信息中关于两个类别是否冲突通过三元组表示,在本实施例中,通过读取第一待对齐知识图谱与第二待对齐知识图谱中schema信息中表示类别冲突的三元组信息,作为已知实体类别冲突关系。
读取在第一待对齐知识图谱与第二待对齐知识图谱中的已知实体类别冲突关系之后,若根据已知实体类别冲突关系确定两个实体所属类别之间属于冲突,则确定该两个实体所属类别对应的冲突概率为1;可以理解地,冲突概率为1表示两个实体类别是完全冲突的。
在另一个实施例中,类别关系信息包括:第一待对齐知识图谱和第二待对齐知识图谱中的对齐种子;在本实施例中,请继续参照图3,基于类别关系信息,分别确定第一待对齐知识图谱和第二待对齐知识图谱中的所有类别之间的冲突概率,包括步骤S320:若第一待对齐实体与第二待对齐实体属于对齐种子,确定第一待对齐实体所属类别与第二待对齐实体所属类别之间的冲突概率为0。
对齐种子是指第一待对齐知识图谱与第二待对齐知识图谱中已知的对齐实体,对于实体对齐任务,通常会给定少量的对齐种子作为监督信息。在一个实施例中,对齐种子包括实际对齐的一组或多组实体,一组实体分别包括第一待对齐知识图谱中的实体,和第二待对齐知识图谱中的实体。若属于对齐种子,则表示两个实体是对齐的,在本实施例中认为对齐种子的对应实体类别是相关的;进一步地,在本实施例中将属于对齐种子的实体所属类别确定为不冲突,即对应的冲突概率确定为0。例如在第一待对齐知识图谱中存在实体“科学家”,第二待对齐知识图谱中的实体“音乐家”,假设“科学家”与“音乐家”属于一组对齐种子,则认为“科学家”所属类别与“音乐家”所属类别的冲突概率为0。
在另一个实施例中,类别关系信息还包括:各类别的从属关系;在本实施例中,请继续参照图3,基于类别关系信息,分别确定第一待对齐知识图谱和第二待对齐知识图谱中的所有类别之间的冲突概率,包括步骤S330和步骤S340。
步骤S330,读取预设放缩因子、第一待对齐实体所属类别在从属关系中的第一类别从属关系路径,以及第二待对齐实体所属类别在从属关系中的第二类别从属关系路径。
其中,类别的从属关系是指类别之间正相关关系;在一个实施例,类别的从属关系包括类别所属于的父类别,以及类别包括的子类别;在一个实施例中,类别的从属关系可以以多叉树进行表示。如图4所示为一个具体实施例中类别从属关系的示意图;其中,politician(政治家)的父类为person(人),person的父类为agent(人的职业或组织机构),agent同时也是organisation的父类。进一步地,各类别之间的从属关系可以通过任意一种方式获得。
在一个实施例中,第一待对齐实体所属类别在从属关系中的第一类别从属关系路径是指,第一待对齐实体所属类别在从属关系中的到最高父类的路径(在从属关系中的最高一层次的类别),若以多叉树表示从属关系,即第一待对齐实体所属类别在多叉树中走到根节点的路径集合。与第一待对齐实体所属类别类似地,同样可以确定第二类别从属关系路径。以图4所示多叉树为例,其中,实体类别politician对应的类别从属关系包括:politician→person→agent;实体类别organisation对应的类别从属关系包括organisation→agent。
预设放缩因子在本实施例中用于计算两个实体类别之间的冲突概率,可控制权重的衰减速度;预设放缩因子可以根据实际情况设定。
步骤S340,基于预设放缩因子、第一类别从属关系路径和第二类别从属关系路径,确定第一待对齐实体所属类别与第二待对齐实体所属类别之间的冲突概率。
在一个实施例中,上述确定类别冲突概率的方法称为路径覆盖原则。
进一步地,如图5所示,在一个实施例中,基于预设放缩因子、第一类别从属关系路径和第二类别从属关系路径,确定第一待对齐实体所属类别与第二待对齐实体所属类别之间的冲突概率,包括步骤S341至步骤S344。
步骤S341,确定第一类别从属关系路径与第二类别从属关系路径之间的交集和并集。
在集合论中,设A,B是两个集合,由所有属于集合A且属于集合B的元素所组成的集合,叫做集合A与集合B的交集(intersection);相应地,把A和B中包含的所有元素合并在一起组成的集合,叫做集合A与集合B的并集。在本实施例中,将第一类别从属关系路径与第二类别从属关系路径中所包含的所有类别做交集和并集。
步骤S342,计算交集与预设放缩因子的第一和值,计算并集与预设放缩因子的第二和值。
步骤S343,计算第一和值与第二和值的比值。
步骤S344,将1与比值的差值确定为第一待对齐实体所属类别与第二待对齐实体所属类别之间的冲突概率。
在一个具体实施例中,基于类别从属关系路径计算两个实体类别的冲突概率可以用以下公式表示:
Figure BDA0002790860660000101
其中,ci表示类别,P(ci)={ci,pi,1,pi,2,…,pi,j}表示从ci走到类别树根节点途径的类别从属路径,pi,j为ci的第j个父节点;Dist(ci,cj)表示两个类别ci和cj之间的冲突概率,K表示预设放缩因子。
上述实施例中通过交并集计算了第一类别从属关系路径与第二类别从属关系路径之间的差异性,度量了两个类别在类别的从属关系中的距离,若两个类别在类别从属关系中的距离越远,则该两个类别发生冲突的概率越大。可以理解地,当ci=cj,则Dist(ci,cj)=0;如果ci和cj位于树的同一分支,则
Figure BDA0002790860660000111
两者的距离越近,冲突的概率则越小。
本实施例中,通过定义实体类别之间的冲突概率的确定方式,基于上述方式可确定第一待对齐知识图谱与第二待对齐知识图谱之间的类别冲突矩阵,后续用于进行跨知识图谱的实体对齐。
在另一个实施例中,也可以通过概率统计的方式确定第一待对齐知识图谱与第二待对齐知识图谱中各实体类别之间的类别冲突概率,从而生成对应的类别冲突概率。在其中的一个实施例中,基于各类别构建第一待对齐知识图谱和第二待对齐知识图谱之间的类别冲突矩阵,包括;统计第一待对齐知识图谱中包含的类别,与第二待对齐知识图谱中包含的类别之间的已知类别关系的概率统计信息;基于已知类别关系的概率统计信息,确定第一待对齐实体所属类别与第二待对齐实体所属类别之间的冲突概率,得到类别冲突矩阵。
在实际应用中,对于同样的类别,已知的类别关系可能再不同的应用场景中存在不同的类别关系,本实施例中通过统计在不同应用场景中各类别之间的类别关系,基于各类别关系对应的概率确定类别之间的冲突概率。例如在一个具体实施例中,假设第一待对齐知识图谱中的类别A1与第二待对齐知识图谱中的类别A2,在不同的应用场景中统计得到的类别关系信息为:冲突次数占比为1/6,而不冲突次数占比5/6,则认为A1与A2之间的类别冲突概率为1/6。在其它实施例中,基于已知类别关系的概率统计信息确定类别之间的冲突概率也可以通过其它方式实现。
进一步地,在一个实施例中,如图6所示,基于类别冲突矩阵对各相似度进行调整,得到调整后相似度,包括步骤S610至步骤S640。
步骤S610,任意选取第一待对齐知识图谱中的第一目标实体,第二待对齐知识图谱中的第二目标实体。
步骤S620,读取第一目标实体所属的类别与第二目标实体所属的类别在类别冲突矩阵中的目标冲突概率。
步骤S630,计算1与目标冲突概率的差值。
步骤S640,将差值与目标相似度的乘积,确定为第一目标实体与第二目标实体之间的调整后相似度;目标相似度包括第一目标实体与第二目标实体的相似度。
针对第一待对齐知识图谱中各实体类别、以及第二待对齐知识图谱中各实体类别分别执行上述步骤即可得到所有实体类别之间的调整后相似度。
在一个具体实施例中,以余弦距离表示实体之间的相似度;图6所示实施例中的步骤可用以下公式表示:
sim(ei,ej)=(1-vi,j)cos(ei,ej);
其中,sim(ei,ej)表示实体ei和ej之间的调整后相似度,vi,j表示实体ei和ej所属类别之间的冲突概率,cos(ei,ej)表示实体ei和ej之间的相似度;如果vi,j=1,即两个类别是完全冲突的,则sim(ei,ej)=0,两个完全类别冲突的实体不应该对齐;如果0<vi,j<1,即相当于对预测结果相乘一个权重,得到调整后的相似度。
在另一个实施例中,如图7所示,基于类别冲突矩阵对各相似度进行调整,得到调整后相似度,包括步骤S710至步骤S760。
步骤S710,读取预设权重系数。
步骤S720,任意选取第一待对齐知识图谱中的第一目标实体,第二待对齐知识图谱中的第二目标实体。
步骤S730,读取第一目标实体所属的类别与第二目标实体所属的类别在类别冲突矩阵中的目标冲突概率。
步骤S740,计算1与预设权重系数的第一差值,计算1与目标冲突概率的第二差值。
步骤S750,计算预设权重系数与目标相似度的第一乘积,计算第一差值与第二差值的第二乘积;目标相似度包括第一目标实体与第二目标实体的相似度。
步骤S760,将第一乘积与第二乘积的和值,确定为第一目标实体与第二目标实体之间的调整后相似度。
针对第一待对齐知识图谱中各实体类别、以及第二待对齐知识图谱中各实体类别分别执行上述步骤即可得到所有实体类别之间的调整后相似度。
在一个具体实施例中,以余弦距离表示实体之间的相似度;图7所示实施例中的步骤可用以下公式表示:
sim(ei,ej)=βcos(ei,ej)+(1-β)(1-vi,j);
其中,β是预设权重系数,cos(ei,ej)表示实体ei和ej之间的相似度,vi,j表示实体ei和ej所属类别之间的冲突概率,同样地,如果vi,j=1,即两个类别是完全冲突的,则sim(ei,ej)=0,两个完全类别冲突的实体不应该对齐;如果0<vi,j<1,即相当于对预测结果相乘一个权重,得到调整后的相似度。
图6所示实施例中将类别冲突概率看成实体嵌入表示的权重,而图7所示实施例中考虑两部分信息,一个是实体嵌入表示的相似度,另一个是实体对应的class不发生冲突的概率(1-vi,j)。两个实施例中的方法均可计算得到对应的调整后相似度,后续用于进行跨知识图谱的实体对齐。
进一步地,在一个实施例中,在得到第一待对齐实体和第二待对齐实体之间的调整后相似度之后,基于调整后相似度对第一待对齐知识图谱和第二待对齐知识图谱进行实体对齐,得到对齐后的知识图谱。
在一个实施例中,基于调整后相似度对第一待对齐知识图谱和第二待对齐知识图谱进行实体对齐,得到对齐后的知识图谱,包括:将数值最大的调整后相似度对应的第一待对齐实体和第二待对齐实体确定为对齐结果。即对于各第一待对齐实体,分别在第二待对齐实体中基于调整后相似度找到最近邻作为对齐结果进行对齐。
上述实施例中在传统方法的基础上通过构建类别冲突矩阵的方式,在实体对齐中引入了类别信息,可减少知识图谱实体对齐中因类别冲突导致的对齐错误,从而提高知识图谱实体对齐的准确率。
进一步地,在一个实施例中,可以将上述知识图谱的实体对齐方法作为一个整体进行;也可以将上述知识图谱的实体对齐方法划分为两阶段,第一阶段先判断冲突概率大小,如果大于一定阈值则略过,如果小于一定阈值则进入第二阶段,进行实体对齐。
本申请还提供一种应用场景,该应用场景应用上述的知识图谱的实体对齐方法,如图8所示为本实施例中方法步骤流程示意图。具体地,该知识图谱的实体对齐方法在该应用场景的应用如下:
首先获取第一待对齐知识图谱和第二待对齐知识图谱中的各实体,按照以下规则构建第一待对齐知识图谱和第二待对齐知识图谱中的各实体之间的类别冲突矩阵。
1、每个类别和自身是不冲突的;
2、根据schema中的元关系“owl:disjointWith”判定两个类别是否冲突。例如schema中定义了三元组(“person”,“disjointWith”,“work”),说明类别“人类”和“工作”是冲突的;
3、首先,利用本体schema中的类别按照父子类关系组成一棵多叉树,树上每一个结点是一个类别,边定义了类别的从属关系。
对于一个类别ci,从ci走到类别树根节点途径的类别集合为P(ci)={ci,pi,1,pi,2,…,pi,j},即上述类别从属关系,其中pi,j为ci的第j个父节点。给定两个类别ci和cj,两者冲突的概率Dist(ci,cj)定义如下:
Figure BDA0002790860660000141
Dist(ci,cj)通过交并集计算P(ci)和P(cj)的差异性,度量了ci和cj位于树中的距离。ci和cj位于树中的距离越远,则两者冲突的概率则越大。可以发现当ci=cj,则Dist(ci,cj)=0;如果ci和c位于树的同一分支,则
Figure BDA0002790860660000142
两者的距离越近,冲突的概率则越小。其中K是一个放缩因子,控制权重的衰减速度。
4、对于实体对齐任务,通常会给定少量的对齐种子作为监督信息。两个对齐的实体对应的类别应该是相关的,基于此,可以将对齐种子对应的类别对认为是相关的。
给定一批对齐种子AS={(ei,ej)|ei∈KG1,ej∈KG2}以及实体和类别的映射关系M={(e,c)|e∈KG1,KG2}。其中KG1和KG2分别是两个待对齐的KG;ei和ej分别是KG1和KG2中需要对齐的实体;c是每个实体e对应的类别。假设(ei,ej)是对齐的实体对,则我们认为他们对应的类别对(ci,cj)也是相关的,即冲突的概率为0。例如数据集中存在对齐实体对应的类别为“科学家”和“音乐家”,则“科学家”和“音乐家”冲突概率为0。
由上述规则,得到第一待对齐知识图谱与第二待对齐知识图谱中各实体所属类别间的冲突概率可按照以下方式计算:
Figure BDA0002790860660000151
根据上述公式可以得到第一待对齐知识图谱与第二待对齐知识图谱的类别冲突矩阵,类别冲突矩阵中的每个值表示每个类别和其他类别的冲突概率。
在得到两个待对齐知识图谱的类别冲突矩阵之后,进行以下步骤来进行实体对齐:
先基于训练好的实体对齐模型Q得到每个实体ei的嵌入表示ei,利用余弦距离可以度量实体之间的相似度:
sim(ei,ej)=cos(ei,ej)
将每个实体以及其最近邻作为对齐结果,其中实体对齐模型的选择可以是任意的实体对齐模型,例如MTransE,GCN-Align,BootEA等。
在计算得到相似度之后,基于类别冲突矩阵可通过点乘或者加权求和的方式进行校正:
(1)点乘:
sim(ei,ej)=(1-vi,j)cos(ei,ej),(ei,ej)∈M∧(ej,cj)∈M
其中,vi,j为实体对(ei,ej)对应的类别对(ci,cj)的类别冲突概率。如果vi,j=0,即两个类别是完全不冲突的,则实体的相似度依赖于其嵌入表示的相似度;如果vi,j=1,即两个类别是完全冲突的,则sim(ei,ej)=0,两个完全类别冲突的实体不应该对齐;如果0<vi,j<1,即相当于对预测结果相乘一个权重,重新调整实体的排序。
(2)加权求和:
sim(ei,ej)=βcos(ei,ej)+(1-β)(1-vi,j);(ei,ci)∈MΛ(ej,cj)∈M
第一种方式点乘将类别冲突概率看成实体嵌入表示的权重,而第二种方式将考虑两部分信息,一个是实体嵌入表示的相似度,另一个是实体对应的class不发生冲突的概率(1-vi,j),对这两部分信息加权融合,其中β是权重系数。
上述实施例中的知识图谱的实体对齐方法,通过引入类别冲突矩阵检测预测结果中的类别冲突问题,能够提升模型的召回率以及正确对齐实体的排名。并且上述知识图谱的实体对齐方法中计算各实体的相似度可以采用任意实体对其模型实现,即能够与任意的模型进行结合,提升模型的性能,鲁棒性和有效性较好。
在一个具体实施例中,对比了MTransE(一种嵌入式实体对齐的方法)和AliNet(一种嵌入式图谱对齐算法),以及本申请所提出的知识图谱的实体对齐方法,分别在DBP15K(FR-EN),DBP15K(JA-EN),SRPRS(EN-FR),SRPRS(EN-DE)上的效果,如表1所示。
Figure BDA0002790860660000161
表1
由上述实验结果可知,应用本申请所提供的方法可提高实体对齐的准确率,减少实体对齐产生的类别冲突。
应该理解的是,虽然上述实施例中所涉及的各流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述实施例中所涉及的各流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图9所示,提供了一种知识图谱的实体对齐装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:获取模块910、类别读取模块920、冲突矩阵构建模块930、相似度确定模块940和相似度确定模块940,其中:
获取模块910,用于获取第一待对齐知识图谱的各第一待对齐实体,以及第二待对齐知识图谱的各第二待对齐实体;
类别读取模块920,用于读取各第一待对齐实体和各第二待对齐实体所属的类别;
冲突矩阵构建模块930,用于基于各类别构建第一待对齐知识图谱和第二待对齐知识图谱之间的类别冲突矩阵;
相似度确定模块940,用于分别确定各第一待对齐实体与各第二待对齐实体之间的相似度;
实体对齐模块950,用于基于相似度和类别冲突矩阵,对第一待对齐知识图谱和第二待对齐知识图谱进行实体对齐,得到对齐后的知识图谱。
上述知识图谱的实体对齐装置,对于待进行实体对齐的两个知识图谱,分别获取其中的实体,并读取各实体所属的类别,基于类别构建两个知识图谱之间的类别冲突矩阵,分别计算两个知识图谱中各实体之间的相似度,最后基于类别冲突矩阵和各实体间的相似度进行实体对齐,得到对齐后的知识图谱。上述方法通过构建类别冲突矩阵引入了实体类别信息,结合类别冲突矩阵进行实体对齐,可减少将相似名称但含义不同的实体聚合到一起的情况,减少了实体对齐的错误。
在一个实施例中,上述装置的冲突矩阵构建模块930包括:类别获取单元,用于获取与类别关联的类别关系信息;冲突概率确定单元,用于基于类别关系信息,分别确定第一待对齐知识图谱和第二待对齐知识图谱中的所有类别之间的冲突概率,得到类别冲突矩阵。
在一个实施例中,类别关系信息包括与类别关联的已知实体类别冲突关系;在本实施例中,上述冲突概率确定单元具体用于:若第一待对齐实体所属类别与第二待对齐实体所属类别属于已知实体类别冲突关系,确定第一待对齐实体所属类别与第二待对齐实体所属类别之间的冲突概率为1。
在一个实施例中,类别关系信息包括:第一待对齐知识图谱和第二待对齐知识图谱中的对齐种子;在本实施例中,上述冲突概率确定单元具体用于:若第一待对齐实体与第二待对齐实体属于对齐种子,确定第一待对齐实体所属类别与第二待对齐实体所属类别之间的冲突概率为0。
在一个实施例中,类别关系信息还包括:各类别的从属关系;在本实施例中,上述冲突概率确定单元具体用于:读取预设放缩因子、第一待对齐实体所属类别在从属关系中的第一类别从属关系路径,以及第二待对齐实体所属类别在从属关系中的第二类别从属关系路径;基于预设放缩因子、第一类别从属关系路径和第二类别从属关系路径,确定第一待对齐实体所属类别与第二待对齐实体所属类别之间的冲突概率。
进一步地,在一个实施例中,上述冲突概率确定单元包括:路径运算子单元,用于确定第一类别从属关系路径与第二类别从属关系路径之间的交集和并集;计算子单元,用于计算交集与预设放缩因子的第一和值,并集与预设放缩因子的第二和值;计算第一和值与第二和值的比值;将1与比值的差值确定为第一待对齐实体所属类别与第二待对齐实体所属类别之间的冲突概率。
在一个实施例中,上述装置的实体对齐模块950包括:相似度调整单元,用于基于类别冲突矩阵对各相似度进行调整,得到调整后相似度;上述实体对齐模块950具体用于根据各第一待对齐实体与各第二待对齐实体之间的调整后相似度,对第一待对齐知识图谱和第二待对齐知识图谱进行实体对齐。
进一步地,在一个实施例中,上述装置的相似度调整单元,包括:选取子单元,用于任意选取第一待对齐知识图谱中的第一目标实体,第二待对齐知识图谱中的第二目标实体;冲突概率读取子单元,用于读取第一目标实体所属的类别与第二目标实体所属的类别在类别冲突矩阵中的目标冲突概率;计算子单元,用于计算1与目标冲突概率的差值;将差值与目标相似度的乘积,确定为第一目标实体与第二目标实体之间的调整后相似度;目标相似度包括第一目标实体与第二目标实体的相似度。
在另一个实施例中,上述装置的相似度调整单元,包括:权重读取子单元,用于读取预设权重系数;选取子单元,用于任意选取第一待对齐知识图谱中的第一目标实体,第二待对齐知识图谱中的第二目标实体;冲突概率读取子单元,用于读取第一目标实体所属的类别与第二目标实体所属的类别在类别冲突矩阵中的目标冲突概率;计算子单元,用于计算1与预设权重系数的第一差值,计算1与目标冲突概率的第二差值;计算预设权重系数与目标相似度的第一乘积,计算第一差值与第二差值的第二乘积;目标相似度包括第一目标实体与第二目标实体的相似度;将第一乘积与第二乘积的和值,确定为第一目标实体与第二目标实体之间的调整后相似度。
关于知识图谱的实体对齐装置的具体限定可以参见上文中对于知识图谱的实体对齐方法的限定,在此不再赘述。上述知识图谱的实体对齐装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种知识图谱的实体对齐方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种知识图谱的实体对齐方法,其特征在于,所述方法包括:
获取第一待对齐知识图谱的各第一待对齐实体,以及第二待对齐知识图谱的各第二待对齐实体;
读取各所述第一待对齐实体和各所述第二待对齐实体所属的类别;
基于各所述类别构建所述第一待对齐知识图谱和第二待对齐知识图谱之间的类别冲突矩阵;
分别确定各所述第一待对齐实体与各所述第二待对齐实体之间的相似度;
基于所述相似度和所述类别冲突矩阵,对所述第一待对齐知识图谱和第二待对齐知识图谱进行实体对齐,得到对齐后的知识图谱。
2.根据权利要求1所述的知识图谱的实体对齐方法,其特征在于,所述基于各所述类别构建所述第一待对齐知识图谱和第二待对齐知识图谱之间的类别冲突矩阵,包括:
获取与所述类别关联的类别关系信息;
基于所述类别关系信息,分别确定所述第一待对齐知识图谱和所述第二待对齐知识图谱中的所有类别之间的冲突概率,得到所述类别冲突矩阵。
3.根据权利要求2所述的知识图谱的实体对齐方法,其特征在于,包括以下至少一项:
第一项,
所述类别关系信息包括与所述类别关联的已知实体类别冲突关系;
所述基于所述类别关系信息,分别确定所述第一待对齐知识图谱和所述第二待对齐知识图谱中的所有类别之间的冲突概率,包括:若所述第一待对齐实体所属类别与所述第二待对齐实体所属类别属于所述已知实体类别冲突关系,确定所述第一待对齐实体所属类别与所述第二待对齐实体所属类别之间的冲突概率为1;
第二项,
所述类别关系信息包括:所述第一待对齐知识图谱和第二待对齐知识图谱中的对齐种子;
所述基于所述类别关系信息,分别确定所述第一待对齐知识图谱和所述第二待对齐知识图谱中的所有类别之间的冲突概率,包括:若所述第一待对齐实体与所述第二待对齐实体属于所述对齐种子,确定所述第一待对齐实体所属类别与所述第二待对齐实体所属类别之间的冲突概率为0;
第三项,
所述类别关系信息包括:各所述类别的从属关系;
所述基于所述类别关系信息,分别确定所述第一待对齐知识图谱和所述第二待对齐知识图谱中的所有类别之间的冲突概率,包括:
读取预设放缩因子、所述第一待对齐实体所属类别在所述从属关系中的第一类别从属关系路径,以及所述第二待对齐实体所属类别在所述从属关系中的第二类别从属关系路径;
基于预设放缩因子、所述第一类别从属关系路径和所述第二类别从属关系路径,确定所述第一待对齐实体所属类别与所述第二待对齐实体所属类别之间的冲突概率。
4.根据权利要求3所述的知识图谱的实体对齐方法,其特征在于,所述基于预设放缩因子、所述第一类别从属关系路径和所述第二类别从属关系路径,确定所述第一待对齐实体所属类别与所述第二待对齐实体所属类别之间的冲突概率,包括:
确定所述第一类别从属关系路径与所述第二类别从属关系路径之间的交集和并集;
计算所述交集与所述预设放缩因子的第一和值,所述并集与所述预设放缩因子的第二和值;
计算所述第一和值与所述第二和值的比值;
将1与所述比值的差值确定为所述第一待对齐实体所属类别与所述第二待对齐实体所属类别之间的冲突概率。
5.根据权利要求1所述的知识图谱的实体对齐方法,其特征在于,所述基于所述相似度和所述类别冲突矩阵,对所述第一待对齐知识图谱和第二待对齐知识图谱进行实体对齐,包括:
基于所述类别冲突矩阵对各所述相似度进行调整,得到调整后相似度;
根据各所述第一待对齐实体与各所述第二待对齐实体之间的调整后相似度,对所述第一待对齐知识图谱和第二待对齐知识图谱进行实体对齐。
6.根据权利要求5所述的知识图谱的实体对齐方法,其特征在于,所述基于所述类别冲突矩阵对各所述相似度进行调整,得到调整后相似度,包括:
任意选取第一待对齐知识图谱中的第一目标实体,第二待对齐知识图谱中的第二目标实体;
读取所述第一目标实体所属的类别与所述第二目标实体所属的类别在所述类别冲突矩阵中的目标冲突概率;
计算1与所述目标冲突概率的差值;
将所述差值与目标相似度的乘积,确定为所述第一目标实体与所述第二目标实体之间的调整后相似度;所述目标相似度包括所述第一目标实体与所述第二目标实体的相似度。
7.根据权利要求5所述的知识图谱的实体对齐方法,其特征在于,所述基于所述类别冲突矩阵对各所述相似度进行调整,得到调整后相似度,包括:
读取预设权重系数;
任意选取第一待对齐知识图谱中的第一目标实体,第二待对齐知识图谱中的第二目标实体;
读取所述第一目标实体所属的类别与所述第二目标实体所属的类别在所述类别冲突矩阵中的目标冲突概率;
计算1与所述预设权重系数的第一差值,计算1与所述目标冲突概率的第二差值;
计算所述预设权重系数与目标相似度的第一乘积,计算所述第一差值与第二差值的第二乘积;所述目标相似度包括所述第一目标实体与所述第二目标实体的相似度;
将所述第一乘积与第二乘积的和值,确定为所述第一目标实体与所述第二目标实体之间的调整后相似度。
8.一种知识图谱的实体对齐装置,其特征在于,所述装置包括:
获取模块,用于获取第一待对齐知识图谱的各第一待对齐实体,以及第二待对齐知识图谱的各第二待对齐实体;
类别读取模块,用于读取各所述第一待对齐实体和各所述第二待对齐实体所属的类别;
冲突矩阵构建模块,用于基于各所述类别构建所述第一待对齐知识图谱和第二待对齐知识图谱之间的类别冲突矩阵;
相似度确定模块,用于分别确定各所述第一待对齐实体与各所述第二待对齐实体之间的相似度;
实体对齐模块,用于基于所述相似度和所述类别冲突矩阵,对所述第一待对齐知识图谱和第二待对齐知识图谱进行实体对齐,得到对齐后的知识图谱。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202011314360.0A 2020-11-20 2020-11-20 知识图谱的实体对齐方法、装置、计算机设备和存储介质 Pending CN112417169A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011314360.0A CN112417169A (zh) 2020-11-20 2020-11-20 知识图谱的实体对齐方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011314360.0A CN112417169A (zh) 2020-11-20 2020-11-20 知识图谱的实体对齐方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN112417169A true CN112417169A (zh) 2021-02-26

Family

ID=74778666

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011314360.0A Pending CN112417169A (zh) 2020-11-20 2020-11-20 知识图谱的实体对齐方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN112417169A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113434658A (zh) * 2021-08-25 2021-09-24 西安热工研究院有限公司 火电机组运行问答生成方法、系统、设备及可读存储介质
CN114417845A (zh) * 2022-03-30 2022-04-29 支付宝(杭州)信息技术有限公司 一种基于知识图谱的相同实体识别方法和系统
CN114579762A (zh) * 2022-03-04 2022-06-03 腾讯科技(深圳)有限公司 知识图谱对齐方法、装置、设备、存储介质及程序产品
CN114676267A (zh) * 2022-04-01 2022-06-28 北京明略软件系统有限公司 用于实体对齐的方法及装置、电子设备
CN116702745A (zh) * 2023-06-14 2023-09-05 上交所技术有限责任公司 一种基于语义匹配模型的启发式实体对齐方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113434658A (zh) * 2021-08-25 2021-09-24 西安热工研究院有限公司 火电机组运行问答生成方法、系统、设备及可读存储介质
CN114579762A (zh) * 2022-03-04 2022-06-03 腾讯科技(深圳)有限公司 知识图谱对齐方法、装置、设备、存储介质及程序产品
CN114579762B (zh) * 2022-03-04 2024-03-22 腾讯科技(深圳)有限公司 知识图谱对齐方法、装置、设备、存储介质及程序产品
CN114417845A (zh) * 2022-03-30 2022-04-29 支付宝(杭州)信息技术有限公司 一种基于知识图谱的相同实体识别方法和系统
CN114417845B (zh) * 2022-03-30 2022-07-12 支付宝(杭州)信息技术有限公司 一种基于知识图谱的相同实体识别方法和系统
CN114676267A (zh) * 2022-04-01 2022-06-28 北京明略软件系统有限公司 用于实体对齐的方法及装置、电子设备
CN116702745A (zh) * 2023-06-14 2023-09-05 上交所技术有限责任公司 一种基于语义匹配模型的启发式实体对齐方法

Similar Documents

Publication Publication Date Title
CN112417169A (zh) 知识图谱的实体对齐方法、装置、计算机设备和存储介质
Bernardo et al. Particle learning for sequential Bayesian computation
Taddy One-step estimator paths for concave regularization
CN107766573B (zh) 基于数据处理的商品推荐方法、装置、设备和存储介质
Bhadra et al. The horseshoe-like regularization for feature subset selection
CN109313720A (zh) 具有稀疏访问的外部存储器的增强神经网络
Kopitkov et al. No belief propagation required: Belief space planning in high-dimensional state spaces via factor graphs, the matrix determinant lemma, and re-use of calculation
US20200380555A1 (en) Method and apparatus for optimizing advertisement click-through rate estimation model
CN111611390B (zh) 一种数据处理方法及装置
Le et al. Linear regression and its inference on noisy network-linked data
Gupta et al. Debiasing in-sample policy performance for small-data, large-scale optimization
Cheng et al. Chaotic enhanced colliding bodies optimization algorithm for structural reliability analysis
Park et al. Inference on high-dimensional implicit dynamic models using a guided intermediate resampling filter
Wang et al. A regularized convex nonnegative matrix factorization model for signed network analysis
US20220374682A1 (en) Supporting Database Constraints in Synthetic Data Generation Based on Generative Adversarial Networks
Marrel et al. Probabilistic surrogate modeling by Gaussian process: A review on recent insights in estimation and validation
US20210256370A1 (en) System and method for graph-based resource allocation using neural networks
Alexopoulos et al. A concise history of simulation output analysis
Jin et al. Fast Markov chain Monte Carlo for high-dimensional Bayesian regression models with shrinkage priors
Rifki et al. The robustest clusters in the input–output networks: global CO _2 CO 2 emission clusters
CN115758271A (zh) 数据处理方法、装置、计算机设备和存储介质
Ward et al. A constant-per-iteration likelihood ratio test for online changepoint detection for exponential family models
Guo et al. Extending regionalization algorithms to explore spatial process heterogeneity
Bóta et al. The inverse infection problem
Clémençon et al. Building confidence regions for the ROC surface

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40038820

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination