CN114357198A - 一种针对多个知识图谱的实体融合方法及装置 - Google Patents

一种针对多个知识图谱的实体融合方法及装置 Download PDF

Info

Publication number
CN114357198A
CN114357198A CN202210250454.9A CN202210250454A CN114357198A CN 114357198 A CN114357198 A CN 114357198A CN 202210250454 A CN202210250454 A CN 202210250454A CN 114357198 A CN114357198 A CN 114357198A
Authority
CN
China
Prior art keywords
entity
data
relationship
class
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210250454.9A
Other languages
English (en)
Other versions
CN114357198B (zh
Inventor
桂正科
何雨潇
高率荏
梁磊
张喜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202210250454.9A priority Critical patent/CN114357198B/zh
Publication of CN114357198A publication Critical patent/CN114357198A/zh
Application granted granted Critical
Publication of CN114357198B publication Critical patent/CN114357198B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供了一种针对多个知识图谱的实体融合方法及装置。该方法及装置可以从多个父类知识图谱融合得到子类知识图谱。父类知识图谱包含若干种实体类型的实体节点以及表示实体节点之间关系的连接边。在方法执行时,确定待融合的第一类实体节点,获取多个父类知识图谱分别对应的数据文件和用于实体融合的配置信息,这些数据即为子类知识图谱的数据。数据文件包含若干个第一类实体节点的关系数据,配置信息中包含的指定关系类型,是从对应的父类知识图谱中第一类实体节点的关系数据具有的关系类型中选择的。当接收到针对子类知识图谱中第一类实体节点的查询请求时,利用多个数据文件和配置信息,确定第一类实体节点融合后的关系数据。

Description

一种针对多个知识图谱的实体融合方法及装置
技术领域
本说明书一个或多个实施例涉及计算机技术领域,尤其涉及一种针对多个知识图谱的实体融合方法及装置。
背景技术
知识图谱是采用由节点和边构成的多关系图的形式,对知识进行表达的一种知识库。通常,用“实体”来表达知识图谱中的节点,用“关系”来表达知识图谱中的边,实体指的是现实世界中的事物,例如人、地名、概念、药物、公司等,关系则用来表达不同实体之间的某种联系。例如,知识图谱中“张三”-“居住在”-“北京”这样的实体-关系-实体,表达了张三居住在北京这样的关系数据。将知识采用知识图谱的形式进行表达,能够应用在搜索、信息查询等领域,从而大大提高搜索、查询的准确性。
知识图谱中的数据,是从数据源中提取的。不同的业务平台,可以基于自身的业务数据构建知识图谱。例如,在安全领域、经营领域和借贷领域,都可以建立实体的知识图谱。目前,存在对不同知识图谱中的实体进行融合,以得到全面的、有针对性的实体表达的需求。但是,知识图谱中的实体和关系的数量通常都是巨大的。
因此,希望能有改进的方案,可以提高对不同知识图谱中的实体进行融合时的处理效率。
发明内容
本说明书一个或多个实施例描述了一种针对多个知识图谱的实体融合方法及装置,以提高对不同知识图谱中的实体进行融合时的处理效率。具体的技术方案如下。
第一方面,实施例提供了一种针对多个知识图谱的实体融合方法,用于从多个父类知识图谱融合得到子类知识图谱,任意一个父类知识图谱包含若干种实体类型的实体节点,以及表示实体节点之间关系的连接边;所述方法包括:
确定待融合的第一类实体节点;
获取多个父类知识图谱分别对应的数据文件,任意一个数据文件包含:若干个第一类实体节点的关系数据;所述关系数据具有若干种关系类型;
获取用于实体融合的配置信息,其中包含:多组指定关系类型;任意一组指定关系类型,是从对应的父类知识图谱中第一类实体节点的关系数据具有的关系类型中选择的;
将多个数据文件和所述配置信息确定为所述子类知识图谱的数据;所述子类知识图谱用于响应于针对所述第一类实体节点的查询请求,提供所述多个数据文件和所述配置信息,以确定所述第一类实体节点融合后的关系数据。
在一种实施方式中,当接收到针对所述子类知识图谱中第一类实体节点的查询请求时,利用所述多个数据文件和所述配置信息,确定所述第一类实体节点融合后的关系数据。
在一种实施方式中,所述确定所述第一类实体节点融合后的关系数据的步骤,包括:
从所述多个数据文件中分别获取所述第一类实体节点的关系数据;
基于所述配置信息,从获取的关系数据中筛选出具有所述指定关系类型的关系数据;
利用筛选出的关系数据,确定所述第一类实体节点融合后的关系数据。
在一种实施方式中,所述多个数据文件中的若干个第一类实体节点,分别按照预设的标识顺序排列。
在一种实施方式中,所述从所述多个数据文件中分别获取所述第一类实体节点的关系数据的步骤,包括:
利用所述多个数据文件中分别设置的游标,分别从所述多个数据文件中读取具有相同标识的第一类实体节点的关系数据;
所述利用筛选出的关系数据,确定所述第一类实体节点融合后的关系数据的步骤,包括:
利用筛选出的关系数据,确定具有相同标识的第一类实体节点融合后的关系数据。
在一种实施方式中,所述利用筛选出的关系数据,确定所述第一类实体节点融合后的关系数据的步骤,包括:
对筛选出的关系数据进行去重,将去重后的关系数据确定为所述第一类实体节点融合后的关系数据。
在一种实施方式中,任意一个父类知识图谱还包括第一类实体节点与其他实体节点之间的关系属性;数据文件中的关系数据包含:关系属性的属性值;
所述配置信息还包含:多组指定关系属性;任意一组指定关系属性,是从对应的父类知识图谱中第一类实体节点的、具有指定关系类型的关系数据包含的关系属性中选择的;
所述利用筛选出的关系数据,确定第一类实体节点融合后的关系数据的步骤,包括:
基于所述配置信息,从筛选出的关系数据中对应筛选出所述指定关系属性的属性值;
利用筛选出的属性值,确定所述第一类实体节点融合后的关系数据。
在一种实施方式中,任意一个父类知识图谱还包括第一类实体节点的实体属性;任意一个数据文件还包含:若干个第一类实体节点的若干个实体属性的属性值;
所述配置信息还包含:多组指定实体属性;任意一组指定实体属性,是从对应的父类知识图谱中第一类实体节点的若干个实体属性中选择的;
当接收到所述查询请求时,所述方法还包括:
利用所述多个数据文件和所述配置信息,确定所述第一类实体节点融合后的实体属性的属性值。
在一种实施方式中,确定第一类实体节点融合后的实体属性的属性值的步骤,包括:
从所述多个数据文件中分别获取所述第一类实体节点的实体属性的属性值;
基于所述配置信息,从获取的属性值中筛选出所述指定实体属性的属性值;
利用筛选出的属性值,确定所述第一类实体节点融合后的实体属性的属性值。
在一种实施方式中,任意一个数据文件中的关系数据,是若干个第一类实体节点与相连的一跳实体节点之间的关系数据;
所述确定所述第一类实体节点融合后的关系数据的步骤,包括:
利用所述多个数据文件和所述配置信息,确定所述第一类实体节点与相连的多个一跳实体节点之间的关系数据,得到融合后的关系数据。
第二方面,实施例提供了一种针对多个知识图谱的实体融合装置,用于从多个父类知识图谱融合得到子类知识图谱,任意一个父类知识图谱包含若干种实体类型的实体节点,以及表示实体节点之间关系的连接边;所述装置包括:
实体确定模块,配置为,确定待融合的第一类实体节点;
文件获取模块,配置为,获取多个父类知识图谱分别对应的数据文件,任意一个数据文件包含:若干个第一类实体节点的关系数据;所述关系数据具有若干种关系类型;
配置获取模块,配置为,获取用于实体融合的配置信息,其中包含:多组指定关系类型;任意一组指定关系类型,是从对应的父类知识图谱中第一类实体节点的关系数据具有的关系类型中选择的;
图谱确定模块,配置为,将多个数据文件和所述配置信息确定为所述子类知识图谱的数据;所述子类知识图谱用于响应于针对所述第一类实体节点的查询请求,提供所述多个数据文件和所述配置信息,以确定所述第一类实体节点融合后的关系数据。
在一种实施方式中,装置还包括:
实体融合模块,配置为,当接收到针对所述子类知识图谱中第一类实体节点的查询请求时,利用所述多个数据文件和所述配置信息,确定所述第一类实体节点融合后的关系数据。
在一种实施方式中,所述实体融合模块包括:
第一获取子模块,配置为,从所述多个数据文件中分别获取所述第一类实体节点的关系数据;
第一筛选子模块,配置为,基于所述配置信息,从获取的关系数据中筛选出具有所述指定关系类型的关系数据;
第一融合子模块,配置为,利用筛选出的关系数据,确定所述第一类实体节点融合后的关系数据。
在一种实施方式中,任意一个父类知识图谱还包括第一类实体节点与其他实体节点之间的关系属性;数据文件中的关系数据包含:关系属性的属性值;
所述配置信息还包含:多组指定关系属性;任意一组指定关系属性,是从对应的父类知识图谱中第一类实体节点的、具有指定关系类型的关系数据包含的关系属性中选择的;
所述第一融合子模块包括:
筛选单元,配置为,基于所述配置信息,从筛选出的关系数据中对应筛选出所述指定关系属性的属性值;
融合单元,配置为,利用筛选出的属性值,确定第一类实体节点融合后的关系数据。
在一种实施方式中,任意一个父类知识图谱还包括第一类实体节点的实体属性;任意一个数据文件还包含:若干个第一类实体节点的若干个实体属性的属性值;
所述配置信息还包含:多组指定实体属性;任意一组指定实体属性,是从对应的父类知识图谱中第一类实体节点的若干个实体属性中选择的;
所述装置还包括:
属性融合模块,配置为,当接收到所述查询请求时,利用所述多个数据文件和所述配置信息,确定所述第一类实体节点融合后的实体属性的属性值。
在一种实施方式中,任意一个数据文件中的关系数据,是若干个第一类实体节点与相连的一跳实体节点之间的关系数据;所述实体融合模块,具体配置为:
利用所述多个数据文件和所述配置信息,确定所述第一类实体节点与相连的多个一跳实体节点之间的关系数据,得到融合后的关系数据。
第三方面,实施例提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面中任一项所述的方法。
第四方面,实施例提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面中任一项所述的方法。
本说明书实施例提供的方法及装置中,从多个父类知识图谱融合得到子类知识图谱,具体包括,针对待融合的第一类实体节点,获取每个父类知识图谱对应的数据文件,获取配置信息,多个数据文件和配置信息即构成了子类知识图谱的数据,子类知识图谱是对第一类实体节点进行融合后的知识图谱。当接收到针对子类知识图谱中第一类实体节点的查询请求时,利用多个数据文件和配置信息,能够得到第一类实体节点融合后的关系数据。本说明书实施例仅需获取数据文件和配置信息,而数据文件可以直接从父类知识图谱中获取,无需利用多个业务数据重新构建知识图谱,实施过程简单易处理,因此能够提高对不同知识图谱中的实体进行融合时的处理效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书披露的一个实施例的实施场景示意图;
图2是一种知识图谱的示意图;
图3为实施例提供的一种针对多个知识图谱的实体融合方法的流程示意图;
图4为一种实体融合的示意图;
图5为实施例提供的一种针对多个知识图谱的实体融合装置的示意性框图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
图1为本说明书披露的一个实施例的实施场景示意图。其中,父类知识图谱包括知识图谱A、B和C,这些知识图谱中都包含相同实体类型的实体节点,例如都包含用户类型的实体节点,或者都包含店铺类型的实体节点,且这些实体节点的标识至少存在部分重叠。实体融合的对象便是多个知识图谱中都包含的某个实体类型,例如图1中知识图谱A、B和C中示出的关系图(圆圈和边构成的图)中的黑色圆点,是待融合的实体节点的实体类型,例如该实体类型是User。从知识图谱A、B和C中分别获取各自的数据文件,得到数据文件A、B和C,这些数据文件中包含具有User类型的实体节点的关系数据。用于实体融合的配置信息中包含了知识图谱与指定关系类型的对应关系,也就是其中定义了各个知识图谱中具有User类型的实体节点的关系数据中,哪些关系类型是指定关系类型,具有指定关系类型的关系数据是待筛选的关系数据。多个数据文件和配置信息即是子类知识图谱的数据。当接收到查询请求时,利用数据文件A、B和C和配置信息确定融合后的实体的关系数据。图1中父类知识图谱的数量仅是一种举例,在实际应用中父类知识图谱可以是2个或2个以上;知识图谱A、B和C中示出的关系图也是一种示例,并不是对本申请的限定。
下面结合图1对本申请的相关概念和实施场景进行详细说明。
知识图谱是一种以图形式表达的知识库,能够将庞大且繁杂的知识以更加有序的方式表达出来。知识图谱可以应用在多个领域,例如可以应用在基于语义的搜索领域,应用在推荐领域,或应用在生成用户画像等。当应用在搜索领域时,可以从知识图谱中搜索待搜索的实体,根据实体节点之间的关系获得与待搜索实体相关的数据。当应用在推荐领域时,可以从知识图谱中确定待推荐实体,根据实体节点之间的关系获得与待推荐实体相关的数据,并基于该数据对待推荐实体进行推荐。在生成用户画像时,可以利用实体节点之间的关系获得实体节点的相关数据,利用该相关数据生成用户画像。
知识图谱包含多个节点以及节点之间的连接边,节点代表实体(entity),因此可以将节点称为实体节点,实体节点之间的连接边用于表示实体节点之间的关系(relation)。实体指的是现实世界中的事物,例如人、地名、概念、药物、公司、组织、机构、设备、数字、日期、货币和地址,等等,不胜枚举。实体可以采用实体词来表示,实体词具有名词性质。例如,用户的昵称张三、地址北京等都是实体。关系用来表达不同实体之间的某种联系,例如“张三”-“居住在”-“北京”中,关系是“居住在”,体现了张三居住在北京这样的关系数据。
在一般的知识图谱中,每个实体都具有对应的实体类型,实体与实体之间的关系也具有关系类型。知识图谱可以包含多种实体类型和多种关系类型,是一种包含多类型实体节点和多类型边的多关系图。具体的实体类型和关系类型可以是在父类知识图谱创建时定义的。在另一种实施方式中,实体节点还可以包含实体属性,关系也可以包含关系属性。
图2是一种知识图谱的示意图。其中,圆圈代表实体节点,圆圈中的数字代表实体节点的编号,每个实体节点旁边标注了该实体节点的实体类型和标识(ID),实体类型例如包括用户类型、手机类型、银行卡类型和地区类型等。在实体类型旁边的括号中示出了该实体节点的实体属性,例如实体节点1是用户类型,其实体属性包括:昵称:张三,注册时间:20220202。实体节点之间的连线代表边,边上标注的是实体节点之间的关系,也可以理解为关系类型。例如实体节点1和实体节点3之间的关系类型是居住在,实体节点1和实体节点4之间的关系类型是使用。对于实体节点1来说,实体节点1与实体节点3之间的关系数据可以包括,实体节点1居住在实体节点3,其语义信息是,张三居住在北京。知识图谱可以是有向图,边上的箭头示出关系的指向。
图2所示的知识图谱是基于用户的安全数据构建的知识图谱,属于安全知识图谱。在实际应用中,不同的服务平台或同一服务平台的不同业务部门,可以利用其它方面的业务数据构建其它类的知识图谱,例如,利用经营领域的业务数据构建用户的经营知识图谱,利用借贷领域的业务数据构建用户的借贷知识图谱。不同的知识图谱体现了与用户相关的不同方面的知识数据。
在一种不同的应用场景中,知识图谱可以基于店铺等对象构建知识数据,例如也可以构建店铺的安全知识图谱、店铺的经营知识图谱、店铺的借贷知识图谱等。具体的应用场景还可以有很多。
为了能够得到更加全面且更有针对性的知识图谱,通常可以对知识图谱中的实体进行融合。针对包含实体在不同方面数据的知识图谱,可以先将不同方面的业务数据进行融合,再利用融合后的业务数据构建知识图谱。但是,业务数据中包含的实体和关系的数量通常是非常巨大的,对业务数据先进行融合,再构建知识图谱这种方式耗时较长,处理效率较低。
为了提高对不同知识图谱中的实体进行融合时的处理效率,本说明书实施例提供了一种针对多个知识图谱的实体融合方法,该方法用于从多个父类知识图谱融合得到子类知识图谱。该方法包括:步骤S310,确定待融合的第一类实体节点。步骤S320,获取多个父类知识图谱分别对应的数据文件,任意一个数据文件包含:若干个第一类实体节点的关系数据;关系数据具有若干种关系类型。步骤S330,获取用于实体融合的配置信息,其中包含:多组指定关系类型;任意一组指定关系类型,是从对应的父类知识图谱中第一类实体节点的关系数据具有的关系类型中选择的。步骤S340,将多个数据文件和配置信息确定为子类知识图谱的数据,该子类知识图谱用于响应于针对第一类实体节点的查询请求,提供多个数据文件和配置信息,以确定第一类实体节点融合后的关系数据。上述方法还可以包括步骤S350,即当接收到针对子类知识图谱中第一类实体节点的查询请求时,利用多个数据文件和配置信息,确定第一类实体节点融合后的关系数据。上述步骤S310~S340属于子类知识图谱的构建阶段,步骤S350属于对构建后的子类知识图谱的使用阶段。
下面结合图3所示流程示意图对本实施例进行详细说明。
图3为实施例提供的一种针对多个知识图谱的实体融合方法的流程示意图。该方法通过计算设备执行,该计算设备可以通过任何具有计算、处理能力的装置、设备、平台、设备集群等来实现。该方法用于从多个父类知识图谱融合得到子类知识图谱,多个父类知识图谱包含不同方面的知识数据。任意一个父类知识图谱包含若干种实体类型的实体节点,以及表示实体节点之间关系的连接边。若干种可以理解为一种或多种。其中,步骤 S310~S340所示的构建阶段和步骤S350所示的使用阶段,可以通过不同的计算设备执行。构建阶段和使用阶段的执行也可以在不同的时间执行。通常,当子类知识图谱构建完成后,针对子类知识图谱的使用过程可以多次执行,即步骤S350可以多次执行。
在步骤S310中,确定待融合的第一类实体节点。本步骤实际上是确定了待融合的实体节点的实体类型,也就是第一实体类型,具有第一实体类型的实体节点称为第一类实体节点。例如,待融合的实体类型可以是用户类型User等。
在任意一个父类知识图谱中,通常包含多种类型的实体节点。对实体进行融合时,是针对具有相同实体类型且标识相同的实体,将该实体在不同父类知识图谱中的知识数据融合的过程。其中,知识数据可以包含关系数据、实体属性和关系属性等。将该实体在不同父类知识图谱中的知识数据融合,是将该实体在不同父类知识图谱中的知识数据,确定为该实体共同具有的知识数据的过程,也就是将多个实体及其知识数据融合为一个实体及其知识数据。
在一种实施方式中,可以根据输入的实体类型确定第一类实体节点。也可以根据预先设定的实体类型,确定第一类实体节点。
在步骤S320中,获取多个父类知识图谱分别对应的数据文件。其中,任意一个数据文件包含:若干个第一类实体节点的关系数据。关系数据具有若干种关系类型。当有k个父类知识图谱时,即可以获取k个数据文件。k为大于1的整数。
例如,对于父类知识图谱A、B和C,分别获取父类知识图谱A的数据文件A,父类知识图谱B的数据文件B,以及父类知识图谱C的数据文件C。
在任意一个数据文件中,包括一个或多个第一类实体节点的关系数据,其中第一类实体节点的数量即为基于父类知识图谱中包含的第一类实体节点的数量。例如,当第一类实体节点是用户类型User的实体节点,则数据文件中包含该用户类型的实体节点的关系数据。
其中,任意一个第一类实体节点的关系数据可以包含多条,任意一条关系数据包含与该第一类实体节点存在关系的实体节点,以及与该实体节点之间的关系。在一种实施方式中,任意一个数据文件中的关系数据,是若干个第一类实体节点与相连的一跳实体节点之间的关系数据。
例如,在图2中,对于实体节点1来说,其关系数据可以包含4条,分别是实体节点1与实体节点2之间的关系数据,实体节点1与实体节点3之间的关系数据,实体节点1与实体节点4之间的关系数据,实体节点1与实体节点5之间的关系数据。关系数据可以采用资源描述框架(Resource Description Framework,RDF)三元组表示,例如实体节点1与实体节点3之间的关系数据可以表示为(“张三”,“北京”,“居住在”),该关系数据中包含关系类型,以及关联的实体节点。在一些实施方式中,关系数据中还可以包含其他的数据。
在存储时,多个数据文件中的若干个第一类实体节点,可以分别按照预设的标识顺序排列。实体节点与对应的关系数据可以组成一条数据,这样,第一类实体节点的关系数据也可以分别按照预设的标识顺序排列。这样就使得多个数据文件中的第一类实体节点均按照相同的顺序排列,也就是第一类实体节点的关系数据均按照相同的顺序排列。
例如,在图1中,数据文件A、B和C中的第一类实体节点,均按照ID从小到大的顺序排列,图1中只显示了实体节点的ID,未显示该实体节点的关系数据。在一种实施方式中,多个数据文件中的第一类实体节点可以按照标识从小到大的顺序,或者按照从大到小的顺序排列,也可以按照其他约定的标识顺序排列。
数据文件中还可以包含除第一实体类型之外的其他类型的实体节点的关系数据。在一种实施方式中,数据文件中可以包含父类知识图谱中所有实体类型的实体节点的关系数据。当数据文件中包含其他类型的实体节点的关系数据时,数据文件中可以通过实体节点的实体类型和ID来标识该实体节点,以区分不同的实体节点。
上述多个数据文件可以是分别存储多个父类知识图谱的原始数据文件,也可以是对原始数据文件处理后得到的数据文件。因此,在步骤S320中可以直接获取多个父类知识图谱的原始数据文件,将原始数据文件直接作为对应的数据文件;也可以继续对原始数据文件进行处理,例如去除其他实体类型的实体节点的关系数据,和/或,按照预设的标识顺序对第一类实体节点进行排序等,得到上述数据文件。
用于存储父类知识图谱的全量数据的原始数据文件,也可以按照以下方式存储多条关系数据:全量实体类型的实体节点与相连的一跳实体节点之间的关系数据。
在步骤S330中,获取用于实体融合的配置信息。该配置信息中包含:多组指定关系类型;任意一组指定关系类型,是从对应的父类知识图谱中第一类实体节点的关系数据具有的关系类型中选择的。每一组指定关系类型与父类知识图谱相对应,当有k个父类知识图谱时,该配置信息中即包含k组指定关系类型。该配置信息中可以包含多组指定关系类型分别与多个父类知识图谱之间的对应关系。
例如,父类知识图谱包括A、B、C。针对父类知识图谱A,从其中的第一类实体节点的关系数据具有的多种关系类型中,选择部分或全部关系类型,作为A组指定关系类型。对父类知识图谱B,从其中的第一类实体节点的关系数据具有的多种关系类型中,选择部分或全部关系类型,作为B组指定关系类型。对父类知识图谱C,从其中的第一类实体节点的关系数据具有的多种关系类型中,选择部分或全部关系类型,作为C组指定关系类型。如果父类知识图谱中第一类实体节点的关系数据包含n种关系类型,可以从这n种关系类型中选择指定关系类型。该选择操作可以预先执行,并可以基于开发人员的选择操作确定指定关系类型。这样,在配置信息中,可以包含3组指定关系类型,每一组指定关系类型中包含一个或多个指定关系类型。
配置信息中还可以包含去重逻辑。该去重逻辑包括:在生成实体节点的融合后的关系数据时,如果存在至少两个关系数据是完全相同的,则将仅保留一条关系数据。
上述多个数据文件和配置信息可以预先存储在指定存储空间中,当需要时,从该指定存储空间中获取。配置信息可以存储在对应的配置文件中。
配置信息中还可以包含多个数据文件的存储地址、父类知识图谱的名称以及配置文件的存储地址等信息。
在步骤S340中,将多个数据文件和配置信息确定为子类知识图谱的数据。本实施例中,并不直接生成融合了多个父类知识图谱中关系数据的子类知识图谱,而是将多个数据文件和配置信息作为子类知识图谱的数据。本步骤也可以仅是逻辑上的步骤,当获取到配置信息和多个数据文件时,就意味着子类知识图谱已经存在了。
本步骤也可以包括将配置信息和多个数据文件进行重命名,修改为子类知识图谱的标识。或者,也可以将配置信息和多个数据文件存储至用于存储子类知识图谱的存储空间中。
在步骤S350中,当接收到针对子类知识图谱中第一类实体节点的查询请求时,利用多个数据文件和配置信息,确定第一类实体节点融合后的关系数据。
计算设备可以接收针对子类知识图谱的查询请求,该查询请求可以携带待查询的第一类实体节点的标识,也可以携带实体节点的实体类型。实体节点的标识,可以理解为实体标识,是唯一标识该实体的信息。待查询的第一类实体节点,可以是一个,也可以是多个。下面以en1代表待查询的第一类实体节点为例,说明实体的融合过程。实体节点en1或第一类实体节点en1,均是指该待查询的第一类实体节点。
本步骤中,计算设备在利用配置信息和多个数据文件确定第一类实体节点en1融合后的关系数据时,可以包括以下步骤1a~3a。
步骤1a,从多个数据文件中分别获取第一类实体节点en1的关系数据,得到与多个父类知识图谱分别对应的关系数据,或者说是与多个数据文件分别对应的关系数据。
为了更快速地从多个数据文件中获取第一类实体节点en1的关系数据,多个数据文件中的若干个第一类实体节点可以分别按照预设的标识顺序排列,也就是分别按照相同的顺序排列,并分别为每个数据文件设置游标。在获取第一类实体节点en1的关系数据时,可以利用多个数据文件中分别设置的游标,分别从多个数据文件中读取具有相同标识的第一类实体节点en1的关系数据。
当需要从多个数据文件中读取大量的第一类实体节点的关系数据时,多个数据文件中的游标同步往前,直至所有数据文件顺序读取完成。如果某个数据文件存在部分数据缺失,则该数据文件的游标需要等待其他数据文件的游标同步,或者等待其他数据文件读取完成。例如在对图1所示的数据文件A、B和C进行读取时,从数据文件A中读取ID为0001的关系数据,在对数据文件B和C进行读取时,发现其最小的编号0003和0012都比0001大,则数据文件B和C的游标不动。继续对数据文件A中的关系数据进行读取,直至读取至0003时,数据文件A和B可以继续同步读取。当读取到0012时,数据文件A、B和C可以同步读取。
以编号为0012的实体节点为例,在步骤1a中,分别从数据文件A、B和C中获取到实体节点0012,在父类知识图谱A中的关系数据relations_A,在父类知识图谱B中的关系数据relations_B,以及在父类知识图谱C中的关系数据relations_C。
在步骤1a中,对父类知识图谱的数据文件的顺序化存储,能够提高数据读取的效率。在多个顺序存储的数据文件中设置游标,实现多文件的归并读,也能够提高数据的读取效率。
步骤2a,基于配置信息,从获取的关系数据中筛选出具有指定关系类型的关系数据。
基于父类知识图谱、指定关系类型与关系数据之间的对应关系,选择对应组的指定关系类型,对对应的关系数据进行筛选,得到筛选出的关系数据。
例如,配置信息中包含A组指定关系类型、B组指定关系类型和C组指定关系类型,利用A组指定关系类型对关系数据relations_A进行筛选,筛选出具有A组中指定关系类型的关系数据;利用B组指定关系类型对关系数据relations_B进行筛选,筛选出具有B组中指定关系类型的关系数据;利用C组指定关系类型对关系数据relations_C进行筛选,筛选出具有C组中指定关系类型的关系数据。
步骤3a,利用筛选出的关系数据,确定第一类实体节点en1融合后的关系数据。这里,筛选出的关系数据,包含来自多个数据文件的、属于第一类实体节点en1的关系数据。
当待查询的第一类实体节点是一个或多个时,均针对任意一个第一类实体节点en1,分别利用与该第一类实体节点en1对应的筛选出的关系数据,确定该第一类实体节点en1融合后的关系数据。因此,在下面的描述中针对一个第一类实体节点的实体融合过程进行说明,其他的第一类实体节点均据此执行。
在进行实体融合的过程中,按照实体节点的标识来识别是否为同一个第一类实体节点。因此,可以利用筛选出的关系数据,确定具有相同标识的第一类实体节点融合后的关系数据。
在进行实体融合过程中,当确定第一类实体节点en1的筛选出的关系数据中存在相同的关系数据时,可以对筛选出的关系数据进行去重,将去重后的关系数据确定为第一类实体节点en1融合后的关系数据。在去重时,可以利用配置信息中的去重逻辑进行。
当任意一个数据文件中的关系数据,是若干个第一类实体节点与相连的一跳实体节点之间的关系数据时,也就是说,当在步骤2a中筛选出的多个关系数据,是第一类实体节点en1与相连的多个一跳实体节点的关系数据时,可以将这多个关系数据确定为融合后的第一类实体节点en1的关系数据,进而得到与第一类实体节点en1相连的多个一跳实体节点。
在本实施例中,利用父类知识图谱的数据文件以及用于实体融合的配置信息,确定子类知识图谱,进而从父类知识图谱中“继承”具有指定关系类型的关系数据,得到融合后的实体。数据文件能够比较容易地从知识图谱中获取,因此这种子类知识图谱的构建过程是容易实施的。子类知识图谱是对父类知识图谱融合后得到的,子类知识图谱中的实体节点是对父类知识图谱中的实体节点融合后的。当接收到针对子类知识图谱的查询请求时,再利用数据文件和配置信息,继承得到多个关系数据,实现对实体的融合。这种实体融合的过程操作简便,容易实施,因此能够提高实体融合的处理效率。
在本说明书的另一实施例中,任意一个父类知识图谱还包括第一类实体节点与其他实体节点之间的关系属性。数据文件中的关系数据包含:关系属性的属性值。关系数据也可以包含关系属性和对应的属性值。关系属性可以采用字段表示,属性值可以采用字段值表示。例如,在图2中,实体节点1和实体节点2之间的关系类型是使用,关系属性包括:开通时间:20151205,月使用频次:5次。其中,开通时间和月使用频次都是关系属性,20151205和5次是对应的属性值。关系数据中包含一个或多个关系属性的属性值。
这样,关系数据可以包括:第一类实体节点、其他实体节点、第一类实体节点与其他实体节点之间的关系类型以及关系属性。
在对父类知识图谱中关系数据的继承过程中,可以将具有指定关系类型的关系数据进行全量继承,也可以针对关系属性进行选择性的继承。
上述配置信息还包含:多组指定关系属性。其中,任意一组指定关系属性,是从对应的父类知识图谱中第一类实体节点的、具有指定关系类型的关系数据包含的关系属性中选择的。例如,在配置信息中,父类知识图谱A、B和C分别对应A组指定关系类型和指定关系属性,B组指定关系类型和指定关系属性,C组指定关系类型和指定关系属性。从具有A组指定关系类型的关系数据relations_A中筛选出A组指定关系属性,从具有B组指定关系类型的关系数据relations_B中筛选出B组指定关系属性,从具有C组指定关系类型的关系数据relations_C中筛选出具有C组指定关系属性。
例如,在图2所示部分知识图谱中,从“使用”、“居住在”中选择继承“使用”这种指定关系类型,以及“使用”的关系属性“开通时间”和“月使用频次”中选择继承“开通时间”。
在本实施例中,在执行上述步骤3a时,可以基于配置信息,从筛选出的关系数据中对应筛选出指定关系属性的属性值,利用筛选出的属性值,确定第一类实体节点en1融合后的关系数据。
当筛选出的关系数据包含第一类实体节点en1、其他实体节点、第一类实体节点en1与其他实体节点之间的指定关系类型和指定关系属性的属性值时,将这些数据共同作为融合后的第一类实体节点en1的关系数据。
在本说明书的另一实施例中,任意一个父类知识图谱还包括第一类实体节点的实体属性。任意一个数据文件还包含:若干个第一类实体节点的若干个实体属性的属性值。数据文件中也可以包含若干个第一类实体节点的实体属性和对应的属性值。实体属性可以采用字段表示,属性值可以采用字段值表示。例如,在图2中,实体节点1包含以下实体属性:昵称:张三,注册时间:20220202。其中,昵称和注册时间是实体属性,张三和20220202是对应的属性值。一个实体节点的实体属性可以是一个或多个。
上述配置信息还包含:多组指定实体属性。任意一组指定实体属性,是从对应的父类知识图谱中第一类实体节点的若干个实体属性中选择的。指定实体属性与指定关系类型是相互并列的数据,两者之间没有从属关系,可以存储在与父类知识图谱对应的同一列表中。
例如,针对父类知识图谱A,从其中的第一类实体节点的实体属性中,选择部分或全部实体属性,作为A组指定实体属性。针对父类知识图谱B,从其中的第一类实体节点的实体属性中,选择部分或全部实体属性,作为B组指定实体属性。针对父类知识图谱C,从其中的第一类实体节点的实体属性中,选择部分或全部实体属性,作为C组指定实体属性。如果父类知识图谱中第一类实体节点的实体属性包含m个种类,可以从这m个实体属性中选择指定实体属性。该选择操作可以预先执行,并可以基于开发人员的选择操作确定指定实体属性。这样,在配置信息中,可以包含3组指定实体属性,每一组指定实体属性中包含一个或多个指定实体属性。
在步骤S350中,当接收到查询请求时,还可以利用多个数据文件和上述配置信息,确定第一类实体节点en1融合后的实体属性的属性值。具体的,在确定第一类实体节点en1融合后的实体属性的属性值时,可以包括以下步骤1b~3b。
步骤1b,从多个数据文件中分别获取第一类实体节点en1的实体属性的属性值。
在具体实施时,本步骤可以与步骤1a同步执行。例如,多个数据文件中的若干个第一类实体节点分别按照预设的标识顺序排列,利用多个数据文件中分别设置的游标,分别从多个数据文件中读取第一类实体节点en1的关系数据和实体属性的属性值。
步骤2b,基于上述配置信息,从获取的属性值中筛选出指定实体属性的属性值。
在具体实施时,本步骤可以与步骤2a同步执行。例如,针对父类知识图谱A,基于父类知识图谱、指定实体属性、指定关系类型与关系数据之间的对应关系,选择A组的指定关系类型,对从数据文件A中获取的关系数据进行筛选,得到筛选出的关系数据,选择A组的指定实体属性,对从数据文件A中获取的实体属性的属性值进行筛选。
步骤3b,利用筛选出的属性值,确定第一类实体节点en1融合后的实体属性的属性值。具体的,可以直接将筛选出的属性值,确定为第一类实体节点en1融合后的实体属性的属性值。
例如,针对第一类实体节点en1,可以从数据文件A、B和C中分别筛选出对应的属性值,即将这些属性值确定为第一类实体节点en1融合后的实体属性的属性值。
在进行实体融合过程中,当确定第一类实体节点en1的筛选出的属性值中存在相同的实体属性和对应的属性值时,可以对筛选出的属性值进行去重,将去重后的属性值确定为第一类实体节点en1融合后的关系数据。在去重时,可以利用配置信息中的去重逻辑进行。配置信息中可以包含分别针对关系数据和实体属性的去重逻辑。
图4为一种实体融合的示意图。其中,父类知识图谱1和父类知识图谱2通过融合得到子类知识图谱。该示意图中的知识图谱采用语义的形式表示,椭圆和方框都代表实体节点,其中标识了对应的实体词。实体User下方标注的是实体属性,连接边上标注了关系类型。父类知识图谱1的实体User的实体属性包括:昵称和地址;关系数据包括:(User,无线网络,使用),(User,银行卡,使用),(User,位置,处于)。父类知识图谱2的实体User的实体属性包括:注册时间和职业;关系数据包括:(User,商店,去过),(User,电影,看过)。子类知识图谱的数据包含2个数据文件和配置信息,此时并没有形成图4中实体节点融合后的关系数据。当接收到针对子类知识图谱的查询请求时,计算设备根据配置信息中设置的指定实体属性和指定关系类型的筛选条件,可以利用两个父类知识图谱的数据文件,融合得到子类知识图谱中的实体关系数据,其中,融合后User的实体属性包括:昵称、地址和职业;关系数据包括:(User,无线网络,使用),(User,银行卡,使用),(User,商店,去过),(User,电影,看过)。上述User代表某一个实体。在筛选实体属性时,取指定实体属性与多个父类知识图谱中该实体User具有的实体属性的交集,作为子类知识图谱中该实体User的实体属性。在筛选指定关系类型时,取指定关系类型与多个父类知识图谱中该实体User的关系数据具有的关系类型的交集,作为子类知识图谱中该实体User的关系类型。
对于包含实体属性和/或包含关系属性的知识图谱的数据,可以采用图数据库进行存储。多个知识图谱的数据文件可以分别存储在对应的图数据库中。在一种实施方式中,多个知识图谱的数据文件可以采用以下方式存储多条数据:在每条数据中,包含第一类实体节点以及与其相连的一跳实体节点之间的关系数据、该关系数据的关系属性和该第一类实体节点的实体属性等数据。通过存储多条这样的数据,存储知识图谱的数据。
上述实施例还可以应用在分布式场景中,即多个知识图谱分别存储在多个参与方设备中,任意一个知识图谱是利用对应的参与方的业务数据构建的。在步骤S320中,计算设备在获取多个父类知识图谱分别对应的数据文件时,可以从多个参与方设备中获取对应的数据文件。当接收到查询请求时,可以从计算设备中查询融合了多个参与方的实体的数据。
在上述实施例中,不同的父类知识图谱可以基于相同的实体类型和实体标识确定相同的实体,从而进行语义化建模,得到子类知识图谱。基于子类知识图谱的归一配置,通过对数据文件进行顺序化存储、多文件归并读等操作,能够从多个父类中实时得到子类所需的信息,完成对多个父类的实时归一。整个处理过程处理效率较高,实时性强,能够应用在对实时性、效率方面要求较高的场景。
本说明书中,第一类实体节点、第一实体类型等词语中的“第一”,以及其他表示编号的词语,仅仅是为了区分和描述方便,而不具有任何限定意义。
上述内容对本说明书的特定实施例进行了描述,其他实施例在所附发明内容的范围内。在一些情况下,在发明内容中记载的动作或步骤可以按照不同于实施例中的顺序来执行,并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要按照示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的,或者可能是有利的。
图5为实施例提供的一种针对多个知识图谱的实体融合装置的示意性框图。该装置500用于从多个父类知识图谱融合得到子类知识图谱。任意一个父类知识图谱包含若干种实体类型的实体节点,以及表示实体节点之间关系的连接边。该装置实施例与图3所示方法实施例相对应。该装置500可以部署在计算设备中,设备可以通过任何具有计算、处理能力的装置、设备、平台、设备集群等来实现。该装置500包括:
实体确定模块510,配置为,确定待融合的第一类实体节点;
文件获取模块520,配置为,获取多个父类知识图谱分别对应的数据文件,任意一个数据文件包含:若干个第一类实体节点的关系数据;所述关系数据具有若干种关系类型;
配置获取模块530,配置为,获取用于实体融合的配置信息,其中包含:多组指定关系类型;任意一组指定关系类型,是从对应的父类知识图谱中第一类实体节点的关系数据具有的关系类型中选择的;
图谱确定模块540,配置为,将多个数据文件和所述配置信息确定为所述子类知识图谱的数据;所述子类知识图谱用于响应于针对第一类实体节点的查询请求,提供多个数据文件和配置信息,以确定第一类实体节点融合后的关系数据。
在一种实施方式中,装置500还包括:
实体融合模块550,配置为,当接收到针对所述子类知识图谱中第一类实体节点的查询请求时,利用所述多个数据文件和所述配置信息,确定所述第一类实体节点融合后的关系数据。
在一种实施方式中,实体融合模块550也可以配置在与装置500所在的计算设备不同的设备中。
在一种实施方式中,所述实体融合模块550包括:
第一获取子模块551,配置为,从所述多个数据文件中分别获取所述第一类实体节点的关系数据;
第一筛选子模块552,配置为,基于所述配置信息,从获取的关系数据中筛选出具有所述指定关系类型的关系数据;
第一融合子模块553,配置为,利用筛选出的关系数据,确定所述第一类实体节点融合后的关系数据。
在一种实施方式中,所述多个数据文件中的若干个第一类实体节点,分别按照预设的标识顺序排列。
在一种实施方式中,所述第一获取子模块551具体配置为:
利用所述多个数据文件中分别设置的游标,分别从所述多个数据文件中读取具有相同标识的第一类实体节点的关系数据;
第一融合子模块553具体配置为:
利用筛选出的关系数据,确定具有相同标识的第一类实体节点融合后的关系数据。
在一种实施方式中,第一融合子模块553具体配置为:
对筛选出的关系数据进行去重,将去重后的关系数据确定为所述第一类实体节点融合后的关系数据。
在一种实施方式中,任意一个父类知识图谱还包括第一类实体节点与其他实体节点之间的关系属性;数据文件中的关系数据包含:关系属性的属性值;
所述配置信息还包含:多组指定关系属性;任意一组指定关系属性,是从对应的父类知识图谱中第一类实体节点的、具有指定关系类型的关系数据包含的关系属性中选择的;
第一融合子模块553包括:
筛选单元(图中未示出),配置为,基于所述配置信息,从筛选出的关系数据中对应筛选出所述指定关系属性的属性值;
融合单元(图中未示出),配置为,利用筛选出的属性值,确定所述第一类实体节点融合后的关系数据。
在一种实施方式中,任意一个父类知识图谱还包括第一类实体节点的实体属性;任意一个数据文件还包含:若干个第一类实体节点的若干个实体属性的属性值;
所述配置信息还包含:多组指定实体属性;任意一组指定实体属性,是从对应的父类知识图谱中第一类实体节点的若干个实体属性中选择的;
所述装置500还包括:
属性融合模块(图中未示出),配置为,当接收到所述查询请求时,利用所述多个数据文件和所述配置信息,确定所述第一类实体节点融合后的实体属性的属性值。
在一种实施方式中,所述属性融合模块包括:
第二获取子模块(图中未示出),配置为,从所述多个数据文件中分别获取所述第一类实体节点的实体属性的属性值;
第二筛选子模块(图中未示出),配置为,基于所述配置信息,从获取的属性值中筛选出所述指定实体属性的属性值;
第二融合子模块(图中未示出),配置为,利用筛选出的属性值,确定所述第一类实体节点融合后的实体属性的属性值。
在一种实施方式中,任意一个数据文件中的关系数据,是若干个第一类实体节点与相连的一跳实体节点之间的关系数据;
所述实体融合模块550具体配置为:
利用所述多个数据文件和所述配置信息,确定所述第一类实体节点与相连的多个一跳实体节点之间的关系数据,得到融合后的关系数据。
上述装置实施例与方法实施例相对应,具体说明可以参见方法实施例部分的描述,此处不再赘述。装置实施例是基于对应的方法实施例得到,与对应的方法实施例具有同样的技术效果,具体说明可参见对应的方法实施例。
本说明书实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行图1至图4任一项所述的方法。
本说明书实施例还提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现图1至图4任一项所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于存储介质和计算设备实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明实施例的目的、技术方案和有益效果进行了进一步的详细说明。所应理解的是,以上所述仅为本发明实施例的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (17)

1.一种针对多个知识图谱的实体融合方法,用于从多个父类知识图谱融合得到子类知识图谱,任意一个父类知识图谱包含若干种实体类型的实体节点,以及表示实体节点之间关系的连接边;所述方法包括:
确定待融合的第一类实体节点;
获取多个父类知识图谱分别对应的数据文件,任意一个数据文件包含:若干个第一类实体节点的关系数据;所述关系数据具有若干种关系类型;
获取用于实体融合的配置信息,其中包含:多组指定关系类型;任意一组指定关系类型,是从对应的父类知识图谱中第一类实体节点的关系数据具有的关系类型中选择的;
将多个数据文件和所述配置信息确定为所述子类知识图谱的数据;所述子类知识图谱用于响应于针对所述第一类实体节点的查询请求,提供所述多个数据文件和所述配置信息,以确定所述第一类实体节点融合后的关系数据。
2.根据权利要求1所述的方法,所述方法还包括:
当接收到针对所述子类知识图谱中第一类实体节点的查询请求时,利用所述多个数据文件和所述配置信息,确定所述第一类实体节点融合后的关系数据。
3.根据权利要求2所述的方法,所述确定所述第一类实体节点融合后的关系数据的步骤,包括:
从所述多个数据文件中分别获取所述第一类实体节点的关系数据;
基于所述配置信息,从获取的关系数据中筛选出具有所述指定关系类型的关系数据;
利用筛选出的关系数据,确定所述第一类实体节点融合后的关系数据。
4.根据权利要求3所述的方法,所述多个数据文件中的若干个第一类实体节点,分别按照预设的标识顺序排列。
5.根据权利要求4所述的方法,所述从所述多个数据文件中分别获取所述第一类实体节点的关系数据的步骤,包括:
利用所述多个数据文件中分别设置的游标,分别从所述多个数据文件中读取具有相同标识的第一类实体节点的关系数据;
所述利用筛选出的关系数据,确定所述第一类实体节点融合后的关系数据的步骤,包括:
利用筛选出的关系数据,确定具有相同标识的第一类实体节点融合后的关系数据。
6.根据权利要求3所述的方法,所述利用筛选出的关系数据,确定所述第一类实体节点融合后的关系数据的步骤,包括:
对筛选出的关系数据进行去重,将去重后的关系数据确定为所述第一类实体节点融合后的关系数据。
7.根据权利要求3所述的方法,任意一个父类知识图谱还包括第一类实体节点与其他实体节点之间的关系属性;数据文件中的关系数据包含:关系属性的属性值;
所述配置信息还包含:多组指定关系属性;任意一组指定关系属性,是从对应的父类知识图谱中第一类实体节点的、具有指定关系类型的关系数据包含的关系属性中选择的;
所述利用筛选出的关系数据,确定所述第一类实体节点融合后的关系数据的步骤,包括:
基于所述配置信息,从筛选出的关系数据中对应筛选出所述指定关系属性的属性值;
利用筛选出的属性值,确定所述第一类实体节点融合后的关系数据。
8.根据权利要求2所述的方法,任意一个父类知识图谱还包括第一类实体节点的实体属性;任意一个数据文件还包含:若干个第一类实体节点的若干个实体属性的属性值;
所述配置信息还包含:多组指定实体属性;任意一组指定实体属性,是从对应的父类知识图谱中第一类实体节点的若干个实体属性中选择的;
当接收到所述查询请求时,所述方法还包括:
利用所述多个数据文件和所述配置信息,确定所述第一类实体节点融合后的实体属性的属性值。
9.根据权利要求8所述的方法,所述确定所述第一类实体节点融合后的实体属性的属性值的步骤,包括:
从所述多个数据文件中分别获取所述第一类实体节点的实体属性的属性值;
基于所述配置信息,从获取的属性值中筛选出所述指定实体属性的属性值;
利用筛选出的属性值,确定所述第一类实体节点融合后的实体属性的属性值。
10.根据权利要求2所述的方法,任意一个数据文件中的关系数据,是若干个第一类实体节点与相连的一跳实体节点之间的关系数据;
所述确定所述第一类实体节点融合后的关系数据的步骤,包括:
利用所述多个数据文件和所述配置信息,确定所述第一类实体节点与相连的多个一跳实体节点之间的关系数据,得到融合后的关系数据。
11.一种针对多个知识图谱的实体融合装置,用于从多个父类知识图谱融合得到子类知识图谱,任意一个父类知识图谱包含若干种实体类型的实体节点,以及表示实体节点之间关系的连接边;所述装置包括:
实体确定模块,配置为,确定待融合的第一类实体节点;
文件获取模块,配置为,获取多个父类知识图谱分别对应的数据文件,任意一个数据文件包含:若干个第一类实体节点的关系数据;所述关系数据具有若干种关系类型;
配置获取模块,配置为,获取用于实体融合的配置信息,其中包含:多组指定关系类型;任意一组指定关系类型,是从对应的父类知识图谱中第一类实体节点的关系数据具有的关系类型中选择的;
图谱确定模块,配置为,将多个数据文件和所述配置信息确定为所述子类知识图谱的数据;所述子类知识图谱用于响应于针对所述第一类实体节点的查询请求,提供所述多个数据文件和所述配置信息,以确定所述第一类实体节点融合后的关系数据。
12.根据权利要求11所述的装置,还包括:
实体融合模块,配置为,当接收到针对所述子类知识图谱中第一类实体节点的查询请求时,利用所述多个数据文件和所述配置信息,确定所述第一类实体节点融合后的关系数据。
13.根据权利要求12所述的装置,所述实体融合模块,包括:
第一获取子模块,配置为,从所述多个数据文件中分别获取所述第一类实体节点的关系数据;
第一筛选子模块,配置为,基于所述配置信息,从获取的关系数据中筛选出具有所述指定关系类型的关系数据;
第一融合子模块,配置为,利用筛选出的关系数据,确定所述第一类实体节点融合后的关系数据。
14.根据权利要求13所述的装置,任意一个父类知识图谱还包括第一类实体节点与其他实体节点之间的关系属性;数据文件中的关系数据包含:关系属性的属性值;
所述配置信息还包含:多组指定关系属性;任意一组指定关系属性,是从对应的父类知识图谱中第一类实体节点的、具有指定关系类型的关系数据包含的关系属性中选择的;
所述第一融合子模块,包括:
筛选单元,配置为,基于所述配置信息,从筛选出的关系数据中对应筛选出所述指定关系属性的属性值;
融合单元,配置为,利用筛选出的属性值,确定所述第一类实体节点融合后的关系数据。
15.根据权利要求12所述的装置,任意一个父类知识图谱还包括第一类实体节点的实体属性;任意一个数据文件还包含:若干个第一类实体节点的若干个实体属性的属性值;
所述配置信息还包含:多组指定实体属性;任意一组指定实体属性,是从对应的父类知识图谱中第一类实体节点的若干个实体属性中选择的;
所述装置还包括:
属性融合模块,配置为,当接收到所述查询请求时,利用所述多个数据文件和所述配置信息,确定所述第一类实体节点融合后的实体属性的属性值。
16.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-10中任一项所述的方法。
17.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-10中任一项所述的方法。
CN202210250454.9A 2022-03-15 2022-03-15 一种针对多个知识图谱的实体融合方法及装置 Active CN114357198B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210250454.9A CN114357198B (zh) 2022-03-15 2022-03-15 一种针对多个知识图谱的实体融合方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210250454.9A CN114357198B (zh) 2022-03-15 2022-03-15 一种针对多个知识图谱的实体融合方法及装置

Publications (2)

Publication Number Publication Date
CN114357198A true CN114357198A (zh) 2022-04-15
CN114357198B CN114357198B (zh) 2022-06-28

Family

ID=81094976

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210250454.9A Active CN114357198B (zh) 2022-03-15 2022-03-15 一种针对多个知识图谱的实体融合方法及装置

Country Status (1)

Country Link
CN (1) CN114357198B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114880406A (zh) * 2022-05-05 2022-08-09 国网智能电网研究院有限公司 一种数据管理方法及装置

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777274A (zh) * 2016-06-16 2017-05-31 北京理工大学 一种中文旅游领域知识图谱构建方法及系统
CN107341215A (zh) * 2017-06-07 2017-11-10 北京航空航天大学 一种基于分布式计算平台的多源垂直知识图谱分类集成查询方法
CN108197290A (zh) * 2018-01-19 2018-06-22 桂林电子科技大学 一种融合实体和关系描述的知识图谱表示学习方法
US20200097601A1 (en) * 2018-09-26 2020-03-26 Accenture Global Solutions Limited Identification of an entity representation in unstructured data
CN110968700A (zh) * 2019-11-01 2020-04-07 数地科技(北京)有限公司 一种融合多类事理与实体知识的领域事件图谱构建方法和装置
CN111522966A (zh) * 2020-04-22 2020-08-11 深圳追一科技有限公司 基于知识图谱的数据处理方法、装置、电子设备及介质
CN112434169A (zh) * 2020-11-13 2021-03-02 北京创业光荣信息科技有限责任公司 一种知识图谱的构建方法及其系统和计算机设备
CN112650858A (zh) * 2020-12-29 2021-04-13 中国平安人寿保险股份有限公司 应急协助信息的获取方法、装置、计算机设备及介质
CN112749249A (zh) * 2019-10-30 2021-05-04 北京国双科技有限公司 司法知识图谱构建以及基于司法知识图谱搜索方法与装置
WO2021136314A1 (zh) * 2019-12-30 2021-07-08 论客科技(广州)有限公司 一种基于邮件数据的威胁情报知识图谱构建方法及装置
WO2021184311A1 (zh) * 2020-03-19 2021-09-23 中山大学 一种自动生成可推理问答的方法和装置
CN113641766A (zh) * 2021-07-15 2021-11-12 北京三快在线科技有限公司 一种关系识别方法、装置、存储介质及电子设备
CN113792159A (zh) * 2021-09-16 2021-12-14 支付宝(杭州)信息技术有限公司 一种知识图谱数据融合方法和系统
WO2021254457A1 (zh) * 2020-06-17 2021-12-23 第四范式(北京)技术有限公司 构建知识图谱的方法及装置、计算机装置及存储介质
CN113886605A (zh) * 2021-10-25 2022-01-04 支付宝(杭州)信息技术有限公司 一种知识图谱处理方法和系统

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777274A (zh) * 2016-06-16 2017-05-31 北京理工大学 一种中文旅游领域知识图谱构建方法及系统
CN107341215A (zh) * 2017-06-07 2017-11-10 北京航空航天大学 一种基于分布式计算平台的多源垂直知识图谱分类集成查询方法
CN108197290A (zh) * 2018-01-19 2018-06-22 桂林电子科技大学 一种融合实体和关系描述的知识图谱表示学习方法
US20200097601A1 (en) * 2018-09-26 2020-03-26 Accenture Global Solutions Limited Identification of an entity representation in unstructured data
CN112749249A (zh) * 2019-10-30 2021-05-04 北京国双科技有限公司 司法知识图谱构建以及基于司法知识图谱搜索方法与装置
CN110968700A (zh) * 2019-11-01 2020-04-07 数地科技(北京)有限公司 一种融合多类事理与实体知识的领域事件图谱构建方法和装置
WO2021136314A1 (zh) * 2019-12-30 2021-07-08 论客科技(广州)有限公司 一种基于邮件数据的威胁情报知识图谱构建方法及装置
WO2021184311A1 (zh) * 2020-03-19 2021-09-23 中山大学 一种自动生成可推理问答的方法和装置
CN111522966A (zh) * 2020-04-22 2020-08-11 深圳追一科技有限公司 基于知识图谱的数据处理方法、装置、电子设备及介质
WO2021254457A1 (zh) * 2020-06-17 2021-12-23 第四范式(北京)技术有限公司 构建知识图谱的方法及装置、计算机装置及存储介质
CN112434169A (zh) * 2020-11-13 2021-03-02 北京创业光荣信息科技有限责任公司 一种知识图谱的构建方法及其系统和计算机设备
CN112650858A (zh) * 2020-12-29 2021-04-13 中国平安人寿保险股份有限公司 应急协助信息的获取方法、装置、计算机设备及介质
CN113641766A (zh) * 2021-07-15 2021-11-12 北京三快在线科技有限公司 一种关系识别方法、装置、存储介质及电子设备
CN113792159A (zh) * 2021-09-16 2021-12-14 支付宝(杭州)信息技术有限公司 一种知识图谱数据融合方法和系统
CN113886605A (zh) * 2021-10-25 2022-01-04 支付宝(杭州)信息技术有限公司 一种知识图谱处理方法和系统

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
SALEIRO, P ET AL.: "Early Fusion Strategy for Entity-Relationship Retrieval", 《ARXIV》 *
SALEIRO, P ET AL.: "Early Fusion Strategy for Entity-Relationship Retrieval", 《ARXIV》, 3 November 2017 (2017-11-03), pages 1 - 6 *
ZHANG, XIAOHAN ET AL.: "A Framework of Data Fusion Through Spatio-Temporal Knowledge Graph", 《14TH INTERNATIONAL CONFERENCE ON KNOWLEDGE SCIENCE, ENGINEERING, AND MANAGEMENT (KSEM)》 *
ZHANG, XIAOHAN ET AL.: "A Framework of Data Fusion Through Spatio-Temporal Knowledge Graph", 《14TH INTERNATIONAL CONFERENCE ON KNOWLEDGE SCIENCE, ENGINEERING, AND MANAGEMENT (KSEM)》, 9 September 2021 (2021-09-09), pages 216 - 228 *
张冠群: "基于联合模式的实体关系抽取算法的研究与实现", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
张冠群: "基于联合模式的实体关系抽取算法的研究与实现", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》, 15 January 2022 (2022-01-15), pages 138 - 3383 *
杜文倩等: "融合实体描述及类型的知识图谱表示学习方法", 《中文信息学报》 *
杜文倩等: "融合实体描述及类型的知识图谱表示学习方法", 《中文信息学报》, no. 07, 15 July 2020 (2020-07-15), pages 50 - 59 *
苏佳等: "基于多源数据融合的Java代码知识图谱构建方法研究", 《智能计算机与应用》, no. 05, 1 May 2020 (2020-05-01), pages 19 - 23 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114880406A (zh) * 2022-05-05 2022-08-09 国网智能电网研究院有限公司 一种数据管理方法及装置

Also Published As

Publication number Publication date
CN114357198B (zh) 2022-06-28

Similar Documents

Publication Publication Date Title
EP3188043A1 (en) Indirect filtering in blended data operations
US8719299B2 (en) Systems and methods for extraction of concepts for reuse-based schema matching
US7769719B2 (en) File system dump/restore by node numbering
US9753960B1 (en) System, method, and computer program for dynamically generating a visual representation of a subset of a graph for display, based on search criteria
JP6239004B2 (ja) 最適化されたデータサブセット化のための方法、装置及びコンピュータ読み取り可能媒体
US10268737B2 (en) System and method for performing blended data operations
CN108681603B (zh) 数据库中快速搜索树形结构数据的方法、存储介质
CN111339334B (zh) 异构图数据库的数据查询方法及其系统
CN114357198B (zh) 一种针对多个知识图谱的实体融合方法及装置
CN105824855A (zh) 一种对数据对象筛选分类的方法、装置以及电子设备
WO2009032770A2 (en) Systems and methods for providing a confidence-based ranking algorithm
CN115328883A (zh) 一种数据仓库建模方法和系统
US11573987B2 (en) System for detecting data relationships based on sample data
CN107239568B (zh) 分布式索引实现方法及装置
Szekely et al. Exploiting semantics of web services for geospatial data fusion
US20210064660A1 (en) Graph search using index vertices
CN112131288A (zh) 数据源接入处理方法和装置
CN110781211A (zh) 一种数据的解析方法及装置
US20130339372A1 (en) System and method for contexual ranking of information facets
CN107025300B (zh) 一种数据查询的方法及装置
JP6575478B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
CN116610714B (zh) 一种数据查询方法、装置、计算机设备及存储介质
JPH07121413A (ja) ファイル管理装置
CN111949686B (zh) 一种数据处理方法、装置及设备
Saeedi Clustering Approaches for Multi-source Entity Resolution

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant