CN116992044A - 一种知识图谱融合方法和系统 - Google Patents

一种知识图谱融合方法和系统 Download PDF

Info

Publication number
CN116992044A
CN116992044A CN202310952739.1A CN202310952739A CN116992044A CN 116992044 A CN116992044 A CN 116992044A CN 202310952739 A CN202310952739 A CN 202310952739A CN 116992044 A CN116992044 A CN 116992044A
Authority
CN
China
Prior art keywords
entity
relationship
knowledge
merging
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310952739.1A
Other languages
English (en)
Inventor
梁磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202310952739.1A priority Critical patent/CN116992044A/zh
Publication of CN116992044A publication Critical patent/CN116992044A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供一种知识图谱融合方法和系统。其中,该方法包括:获取待合并的实体节点组;其中,所述实体节点组内包括的实体来自两个或更多个知识图谱的本体定义数据;获取与所述实体节点组内的实体相关的合并规则;基于所述合并规则,对所述实体节点组内的实体对应的实例数据进行关系和属性的合并,以确定融合知识图谱。

Description

一种知识图谱融合方法和系统
技术领域
本说明书涉及数据处理领域,特别涉及一种知识图谱融合方法和系统。
背景技术
不同平台或不同业务领域分别拥有各自的数据。随着数据管理和数据建设的发展,希望能够对多平台、多业务领域的数据进行融合和连通。知识图谱是一种结构化的数据表达方式,能够高效的呈现数据所蕴含的知识信息。如果通过知识图谱实现多平台、多业务领域的知识连通将可以有效提升数据融合的效率,带来业务效果以及计算效能的提升。
因此,本说明书一些实施例提出了一种知识图谱数据融合方法和系统,以促进多平台、多业务领域的知识融合。
发明内容
本说明书实施例之一提供一种知识图谱融合方法。该方法包括:获取待合并的实体节点组;其中,所述实体节点组内包括的实体来自两个或更多个知识图谱的本体定义数据;获取与所述实体节点组内的实体相关的合并规则;基于所述合并规则,对所述实体节点组内的实体对应的实例数据进行关系和属性的合并,以确定融合知识图谱。
本说明书实施例之一提供一种知识图谱融合系统。该系统包括:实体节点获取模块,用于获取待合并的实体节点组;其中,所述实体节点组内包括的实体来自两个或更多个知识图谱的本体定义数据;合并规则获取模块,用于获取与所述实体节点组内的实体相关的合并规则;合并模块,用于基于所述合并规则,对所述实体节点组内的实体对应的实例数据进行关系和属性的合并,以确定融合知识图谱。
本说明书实施例之一提供一种装置,包括处理器,所述处理器用于执行如上述实施例中任一项所述知识图谱融合方法。
本说明书实施例之一提供一种计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机执行如上述实施例中任一项所述知识图谱融合方法。
附图说明
本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
图1是根据本说明书一些实施例所示的知识图谱融合的示例性示意图;
图2是根据本说明书一些实施例所示的实体合并过程的示例性示意图;
图3是根据本说明书一些实施例所示的关系合并的示例性示意图;
图4是根据本说明书一些实施例所示的属性合并的示例性示意图;
图5是根据本说明书一些实施例所示的价值溯源方法的示例性示意图;
图6是根据本说明书一些实施例所示的知识图谱融合系统的模块图。
具体实施方式
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
应当理解,本文使用的“系统”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
知识图谱是一种揭示实体(或称为对象)之间关系的语义网络。图谱中的节点表示实体,节点可以有多种类型,称作节点类型,用于指示各类实体。图谱中的边表示关系,边也可以有多种类型,称作边类型,用于指示各类关系。实体可以指现实世界中的事物,例如,人、地名、概念、药物、公司等等。关系可用于表达不同实体之间的联系,例如,张三和李四是“朋友”关系、社交账号与移动终端具有登录关系等等。
不同平台、不同业务领域可以分别存储有各自的数据,例如各平台或业务领域可以以知识图谱或者数据表的形式记录各自的业务数据。将不同平台、不同业务领域知识数据进行融合和连通,可以提升业务效果、业务效率和计算效能。多平台、多业务领域的数据融合和连通可以通过构建多平台、多业务知识数据连通的知识图谱来实现。
在支撑差异化的业务应用构建融合知识图谱的过程中,有较多跨图谱复用的诉求,但不同的图谱中会存在较多重复定义但属性、关系不同的实体,如用户、商户等,通过图谱融合可以解决跨图谱同类但异质实体融合的问题。但是,对于跨图谱复用,在图谱融合和融合知识图谱的使用过程中又不能影响原有图谱项目的迭代。
本说明书一些实施例提出的知识图谱数据融合方法和系统可以应用在多平台或多业务领域数据处理的相关场景中,例如,可以应用在基于安全、保险、支付、财富等多个业务领域的数据进行业务任务(如确定某个自然人的资金风险)计算的场景。本说明书一些实施例所示例的例子仅出于示例的目的,并不旨在对本说明书所披露的技术方案的应用场景进行限定。
图1是根据本说明书一些实施例所示的知识图谱融合的示例性示意图。
本说明书一些实施例提供的知识图谱融合方法可以用于多方数据共享,这里的多方是指业务数据的提供方,例如,服务方、用户和业务方等。用户可以是任何的个体或单位,例如个人、企业等。业务方可以是任何的个体或单位,业务方有与之对应的一个或多个的平台或业务领域,拥有各自的业务数据。在一些实施例中,业务方可以以知识图谱或者数据表的形式记录其业务数据。服务方可以是指用于实现知识图谱融合方法和系统的平台或系统,也可以是提供实现知识图谱数据融合方法和系统的平台或系统的任何个体或单位。
在一些应用场景中,服务方可以基于一个或多个业务方(作为知识图谱数据的提供者,也可以称为数据提供方)的业务数据向用户提供知识图谱数据融合服务。例如,当用户以知识图谱的形式存储其业务数据时,服务方可以获取来自一个或多个业务方的知识图谱的本体定义数据,并呈现给用户,用户可以在两个或更多个知识图谱的本体定义数据中选择需要进行融合(合并)的多个实体,并将对获取的实体进行分组,得到待合并的实体节点组。
图1示例性地示出了知识图谱的融合过程。图谱110、图谱120和图谱130可以分别来自于不同的业务方/业务领域,服务方可以从业务方分别获取图谱110、图谱120和图谱130的实体节点,例如,服务方可以通过实体链指的方式找到图谱110、图谱120和图谱130中的目标实体。目标实体可以是图谱110中的实体1、图谱120中的实体2和图谱130中的实体3。实体链指是指实现与目标实体的链接并获取目标实体的id。通过实体链指可以比较方便的将源实体和目标实体链接起来。例如通过行业实体的链指算子将企业实体链接到行业实体等。链指是指通过输入参数,找到目标实体,并建立源实体与目标实体的链接。在一些实施例中实体链指可以通过链指算子实现。链指算子可以是实现源实体到目标实体的链接的方法或函数。链指算子的输入参数可以包括源实体、源实体的相关属性值(或者还包括相关上下文信息、背景信息等)、候选目标实体,输出数据为源实体-[关系类型或边名称]-目标实体。
合并后的融合知识图谱中可以包括来自多个业务方/业务领域的实体。融合知识图谱可以包括schema层面的图谱和实例层面的数据图。例如,图谱140可以表示融合后的schema层面的图谱,其中的实体可以包括分别来自图谱110的实体(以圆圈表示),来自图谱120的实体(以矩形表示),以及来自图谱120的实体(以五角星表示)。在一些实施例中,不同平台或业务领域的知识图谱的数据表达标准可以不同。例如,对于企业实体,第一业务方提供的知识图谱中可能定义为企业,第二业务方提供的知识图谱中可能定义为公司,第三业务方提供的知识图谱中可能定义为社会企业等,这些实体虽然各方定义不同,但是其存在相通之处,因此,在创建融合知识图谱时,可以对这些实体进行合并。比如,合并实体可以是由实体1、实体2和实体3合并得到。比如,实体1为企业,实体2为公司,实体3为电商企业,则合并实体可以为企业实体。在图谱融合过程中会涉及到实体的合并(合并后实体在图谱140中以三角形和合并实体表示),因此,在融合知识图谱140中的属性和关系的数量可以少于各业务方提供的关系和属性的总量。需要说明的是,实体的合并可以是两个实体间的合并,也可以是两个以上实体间的合并。
在一些实施例中,用户可以从服务方处获取融合知识图谱的数据,例如,用户从相应的业务方处获得了数据使用权限,服务方可以验证用户的权限,如验证通过,则可将融合知识图谱发送给用户,用户可以使用融合知识图谱进行下游业务的应用,比如,资金风险分析等。
图2是根据本说明书一些实施例所示的实体合并过程的示例性示意图。本说明书一些实施例所披露的知识图谱融合方法所涉及到的操作或步骤可以通过处理设备(例如,服务器等)执行。
处理设备可以获取待合并的实体节点组210。
实体节点组是指通过一定方式找到的具有一定关联的多个实体节点的分组。例如,实体节点组可以是通过实体链指、用户指定等方式找到的多个实体节点的组合。
待合并的实体节点组则是对选择出的可以进行合并的实体的分组。待合并的实体节点组内的一些实体间可以进行合并。例如,待合并的实体节点组内可以包括实体A、实体B、实体C和实体F,其中实体A与实体C之间有边R1,实体B与实体C之间有边R2,实体A和实体B为相同类型的实体,可以合并,边R1和边R2为相同类型的边,也可以合并。
实体是对物理世界中的各类事物的指代。例如,人、地名、概念、药物、公司等等。schema(知识图谱的本体定义数据)层面的知识图谱中的节点通常表示的就是实体。节点可以有多种类型,称作节点类型,用于指示各类实体。图谱中的边表示关系,边也可以有多种类型,称作边类型,用于指示各类实体间的关系。关系可用于表达不同实体之间的联系,例如,张三和李四是朋友关系、社交账号与移动终端具有登录关系等等。在不引起混淆的情况下,边也可以称为关系、边关系。
实体节点组内的多个实体可以是相同类型的实体,例如,实体节点组内的实体均为与企业类型的实体;也可以是不同类型的实体,例如,与某个类型的实体有边关系的不同类型的实体。比如,实体节点组内的某个实体为企业类型的实体,而除了企业实体以外,还可以包括与企业实体间有边关系的其他类型实体,企业有法人,企业实体与法人实体之间有边关系,则实体节点组内还可以包括法人类型的实体。
在一些实施例中,待合并的实体节点组内除了实体外,还可以包括实体间的关系。例如,实体A与实体C之间有边关系R1,实体B与实体C之间有边关系R2,实体A与实体F之间有边关系R4。
在一些实施例中,实体节点组内包括的实体可以来自两个或更多个知识图谱的本体定义数据。两个或更多个的知识图谱的本体定义数据可以由不同的业务方提供。例如,待合并实体节点组内的实体A可以来自于第一业务方提供的知识图谱的本体定义数据,实体B可以来自于第二业务方提供的知识图谱的本体定义数据。
知识图谱的本体定义数据是指对实体和实体间关系进行定义的数据,其可以表征知识图谱的本体的数据实例的语义信息。知识图谱的本体定义数据也可称为知识图谱的schema。知识图谱的本体定义数据可以指导实例数据的收集,以及基于实例数据进行构图,得到数据图(也可以称为实例图)。在一些实施例中,知识图谱的本体定义数据可以包括用于定义实体的实体字段。实体字段可以理解为实体名称或实体表征,如实体字段可以是“公司主体”、“用户”等,实体字段的取值则可以是具体的实例数据。实体字段可以对应有多个属性字段,属性字段可以是对实体描述信息的抽象概括,如属性字段可以是“地址”、“注册资本”等,属性字段的取值则可以是其对应实体实例的具体描述,如“建设路11号”、“28岁”、“500万”等。在一些实施例中,知识图谱的本体定义数据可以包括用于定义实体间关系的关系描述,关系描述可以是实体间关系类型的抽象概括,如“雇佣关系”、“子母公司关系”、“设备登录关系”等。在一些实施例中,关系描述可以进一步包括关系属性,关系属性用于对关系描述做进一步说明,如“雇佣关系”可以具体是“临时雇佣”或者“正式雇佣”,“子母公司关系”可以进一步包括“全资控股关系”、“部分控股关系”等。通过关系描述可以在构建知识图谱时,确定两个实体实例之间是否具有边。
schema层面的知识图谱的实例可称作数据图,数据图包含具体的知识数据。这里的具体的知识数据也就是实例数据,包括节点实例数据和边实例数据。实例与实体对应,例如,实体为人时,实例可以是具体的张三、李四等,实体为地级市,实例可以是成都、北京、上海、郑州等。又例如,实体A可以对应有实例数据a1、实例数据a2,实体B可以对应有实例数据b1、实例数据b2,实体C可以对应有实例数据c1、实例数据c2和实例数据c3。对于关系,例如,两个实体间具有社交关系,那么对于具体的实例而言,实例间也具有相应的社交关系,比如,张三与李四为好友关系,张三与王五为同事关系等。又例如,实体A和实体C之间有边关系,则实体A下的实例数据与实体C下的实例数据之间应当均满足该边关系,比如,实例数据a2和实例数据b1之间也满足该边关系(实例数据图未示)。
在一些实施例中,处理设备可以根据业务目标等实际需求从两个或更多个业务平台/业务领域的知识图谱的本体定义数据中筛选出待合并的实体节点,并对筛选结果进行分组,获得待合并的实体节点组。例如,业务目标是判断商户的资金风险,则可以从保险业务领域的知识图谱本体定义数据中筛选出商户、商品、投保人、管理者等与商户有关的实体和属于、管理、投保等相关的关系。关系可以保存在待合并的实体节点组内,例如,以关系字段的形式对实体间的关系进行描述。以及,可以从支付业务领域的知识图谱本体定义数据中筛选出商家、商品、收款人、管理者等与商户有关的实体和属于、管理、支付等相关的关系作为关系描述。在一些实施例中,实体间的关系也可以不包括在待合并的实体节点组内,而是将关系描述单独存储,并通过合并规则从存储空间内获取关系描述,关于合并规则的更多说明可以参见下文的详细描述。
在一些实施例中,从同一个知识图谱的本体定义数据选出的关系描述可以是与同时选出的实体相关的。换句话说,从知识图谱本体定义数据中筛选出的关系描述涉及的实体都在被选中的实体中,因此,也可以基于被筛选出的实体来获取相应的关系描述,例如,基于实体从知识图谱的本体定义数据中去获取相应的关系描述。
在一些实施例中,也可以由用户从两个或更多个平台/业务领域的知识图谱的本体定义数据中筛选出实体以组成所述待合并的实体节点组。
处理设备可以获取与所述实体节点组内的实体相关的合并规则。
合并规则可以是用于实现各实体以及关系所对应的实例数据的合并处理的一个或多个规则字段。合并规则可以用于说明多个实例数据在合并时关系和属性应该如何合并。例如,合并规则可以包括用于将相似的实体/关系融合为一个实体/关系的规则、用于给未关联的两个实体间加上关系的规则、用于对属性信息进行表达标准化处理的规则以及用于对融合的实例数据和/或其属性值来源统计的规则等各种规则。在一些实施例中,合并规则也可以称为规则算子。
可以理解,对于不同平台/业务领域的知识图谱,其包括的本体定义数据可以不同,即用于描述实体的字段以及用于描述关系的字段可以不同,且不同平台/业务领域的知识图谱的本体定义数据之间并未连通,如各实体字段之间并未关联。通过一个或更多个用于对各实体字段以及各关系描述字段进行融合处理的合并规则,可以将不同平台/业务领域的知识图谱的本体定义数据进行融合和关联,得到用于构建融合知识图谱的本体定义数据,进而可以基于融合知识图谱的本体定义数据实现不同平台/业务领域知识图谱对应的数据实例的融合和/或连通。
在一些实施例中,合并规则可以用于基于实体字段或关系描述,从大量数据实例中找出实例数据以及确定实例数据之间的关系。合并规则亦可理解为图计算算法或方法,用于进行图谱构建的数据处理操作或运算。可以用数据处理/运算单元、程序代码、机器学习模型等各种方式实现。在一些实施例中,可以对合并规则输入数据,合并规则可以进行相应的数据处理/运算,完成数据的转化,并输出转化后的数据。合并规则可以预先确定,例如,用户可以根据融合知识图谱的创建需求预先确定合并规则。
在一些实施例中,合并规则为可配置的规则。通过配置可以为添加用于实现各种功能的规则算子,例如,精确判断融合后实体的关系、属性来源,不同的实体、关系的融合策略等。
相关是指两者间具有关联。例如,对于某些实体,与其相关的合并规则可以是指配置的能够用于对该实体与其他实体进行合并处理的规则。或者说,与其相关的合并规则可以是规则字段中有与该实体对应的字段。例如,对于实体字段“CRO.company”和实体字段“CompanyV2”,与其相关的合并规则可以是包括“CRO.company”或“CompanyV2”字段的规则算子。
在一些实施例中,处理设备可以基于待合并的实体和关系,从预先配置的多个合并规则中查询获得与其相关的合并规则。在一些实施例中,用户也可以根据待合并的实体节点组,配置新的合并规则或者对已有的合并规则进行修改,获得与其相关的合并规则。
处理设备可以基于所述合并规则,对所述实体节点组内的实体对应的实例数据进行关系和属性的合并,以确定融合知识图谱。
融合知识图谱是指对两个或以上业务方/业务领域的数据进行合并处理后获得的知识图谱。例如,对于知识图谱A、知识图谱B和知识图谱C,经过合并后可以得到融合知识图谱D。
关系是指实体间的边关系。关系的合并是对两条或更多条边关系进行合并。例如,在待合并的实体节点组内,实体A与实体C之间有边关系R1,实体B与实体C之间有边关系R2,边关系R1和边关系R2的类型相同,两者可以合并,关系的合并则可以是将边关系R1和边关系R2融合成为边关系R3。对于实体A和实体F之间的边关系R4,若无其他实体与实体F之间有边关系R4,则该条边关系可以不用合并,可以直接作为合并后的一条边,比如,合并实体D与实体F之间可以保留边关系R4。
属性是指实体的属性。属性的合并是指对两个或更多个属性进行合并。例如,假设对于实体A和实体B,实体A有ID和Type属性,分别包括ID1、ID2和Type1,实体B也有ID和Type属性,分别包括ID3、ID4和Type1,则合并后的实体可以用TargetType来表示,合并后的实体的属性可以包括ID1、ID2、ID3、ID4和Type1(图未示)。因为两个实体的Type1属性相同,则合并时可以将两个Type1属性合并为一个属性。
关系和属性的合并结果220中包括了实体的合并和关系的合并,例如,实体A和实体B合并成为了实体D,边R1和边R2合并成了R3。
关于关系和属性的合并的更多说明可以参见图3和图4的描述。
在一些实施例中,用户可以对合并规则进行自定义配置和灵活修改。
自定义配置是指用户可以对合并规则的功能进行配置。例如,对关系的合并、对属性的合并,关系的合并方式以及属性的合并方式等。
合并规则的灵活修改是指用户可以在获取与实体相关的合并规则时对合并规则对应的合并策略进行即时调整。合并策略即用于指示在合并时关系的处理凡是,例如,合并策略可以指示在关系R1和关系R2合并时,如果存在关系R1,则合并后的关系为R1,否则合并后的关系为R2。而通过修改合并规则,可以将合并策略调整为,在关系R1和关系R2合并时,如果存在关系R2,则合并后的关系为R2,否则合并后的关系为R1。
在一些实施例中,处理设备可以响应于所述两个或更多个知识图谱提供的实例数据发生变化,执行所述合并规则对所述融合知识图谱进行更新。
实例数据发生变化可以包括属性和关系的增加、属性和关系的减少,以及属性和关系的更改等。对于属性和关系的增加、变更,相关的合并规则可以不进行修改,沿用之前的合并规则实现对融合知识图谱的属性和关系的相应更新。对于属性和关系的减少,用户可以对相关的合并规则进行更新,并使用更新后的合并规则对融合知识图谱的属性和关系进行相应更新。
执行合并规则可以是指调用合并规则并执行相应的合并策略所指示的关系和属性的合并方法。
更新是指执行合并规则以对发生变化后的实例数据进行属性和关系的合并。例如,对于两条边关系R1和R2,边关系R1发生了变化,比如,从好友关系变为同事关系,则通过执行合并关系可以将合并后的边关系R3对应的好友关系变更为同事关系。
在本说明书一些实施例中,通过从各业务方的知识图谱的本体定义数据中获取待合并的实体节点组,然后基于与实体节点组内的实体相关的合并规则获取实例数据进行关系和属性的合并,实现了对不同业务、不同领域的知识的融合与连通。同时,合并规则的自定义配置和灵活修改解决了跨图谱复用时的同类但异质实体融合的问题,在融合的过程中和图谱融合后也不影响原有图谱的实例数据迭代更新。
图3是根据本说明书一些实施例所示的关系合并的示例性示意图。
处理设备可以基于所述实体节点组内的实体从所述两个或更多个知识图谱获取待合并的边实例数据。示例性地,如图所示,待合并的边关系310可以包括实体A1与实体B之间的边关系R1,实体A2与实体B之间的边关系R2,处理设备可以基于待合并的变关系从两个或更多个知识图谱获取相应的边实例数据330。
边实例数据是指与实体间的关系对应的实例间的关系数据。例如,两个实体间具有社交关系,那么对于具体的实例数据而言,边实例数据可以是张三与李四为好友关系,张三与王五为同事关系等。
在一些实施例中,处理设备可以基于待合并的实体节点组内的实体对应的关系描述,从所述两个或更多个知识图谱对应的数据图中获得待合并的边实例数据。例如,处理设备可以基于对应的关系的描述,到其对应的源知识图谱的数据图中去读取获得相应的边实例数据。例如,处理设备可以基于实体节点组内的实体,比如,实体A1、实体A2和实体B到其对应的知识图谱中去查找到相应的边关系。
示例性地,获取到的边实例数据330可以包括节点实例a1与节点实例b1之间的边关系R1,节点实例a1与节点实例b2之间的边关系R1,节点实例a2与节点实例b1之间的边关系R2,节点实例a2与节点实例b2之间的边关系R2。
处理设备可以基于所述待合并的边实例数据,将其代入对应的合并规则中的实体关系,并通过所述对应的合并规则确定合并后的关系。对应的合并规则也可以称为关系合并规则。
合并规则中的实体关系可以是指合并规则中与实体关系对应的参数变量字段。示例性地,一项关系合并规则可以表示为“R3=isExist(R1)?R1:R2”,该段规则可以解读为如果R1存在,就把R1作为合并后的关系,也就是把R1作为R3;如果R1不存在,就把R2作为R3。其中,R1、R2在合并规则中对应为参数变量,其可以根据对合并规则的配置进行更改,例如,“用户=isExist(用户)?用户:客户”,其表示对用户和客户关系的合并,当用户关系存在时,则合并后的关系为用户关系,当用户关系不存在时,则合并后的关系为客户关系。
对应的合并规则可以是存在与边实例数据对应的参数变量字段的合并规则。例如,上述的对R1和R2进行关系合并,其对应的合并规则就可以是有R1和R2参数变量的合并规则。
代入对应的合并规则是指将待合并的边实例数据代入合并规则中的参数变量位置。例如,沿用上述示例,合并规则为“R3=isExist(R1)?R1:R2”,这里的R3是指合并后的关系,R1和R2为待合并的边实例数据。在进行关系的合并时,则可以将R1代入对应的R1字段,R2代入对应的R2字段中。
在一些实施例中,将边实例数据代入其对应的合并规则后,通过执行合并规则即可完成对关系的合并,获得合并后的边关系320。
示例性地,合并后的关系可以包括合并后的实体A3与实体B之间的边关系R3。变关系R3由边关系R1和边关系R2合并得到。其对应的合并后的边实例数据340可以包括节点实例a3与节点实例b1之间的边关系R3和节点实例a3与节点实例b2之间的边关系R3。其中,节点实例a3由节点实例a1和节点实例a2合并得到,其与合并实体A3对应。
在本实施例中,通过待合并的实体节点组实现了快速获取边实例数据,并采用将边实例数据代入对应的合并规则的方式进行关系的合并,流程简单,关系合并效率高。
图4是根据本说明书一些实施例所示的属性合并的示例性示意图。
处理设备可以基于所述实体节点组内的实体410从所述两个或更多个知识图谱获取待合并的节点实例数据430。例如,实体节点组内的实体410可以包括实体A1和实体A2,实体A1和实体A2可以分别来自于不同的知识图谱。
节点实例数据是指与实体对应的具体属性数据。例如,实体可以指代现实世界中的事物,例如,人、地名、概念、药物、公司等等。实例则是与实体对应的具体的属性或事物。例如,实体人可以对应有张三、李四,地名可以对应有上海、成都、北京,公司可以对应阿里巴巴、支付宝等。
在一些实施例中,处理设备可以基于实体节点组内的实体对应的实体字段,从所述两个或更多个知识图谱对应的数据图中获得待合并的节点实例数据。例如,可以基于对应的实体字段,到其对应的源知识图谱的数据图中去读取获得相应的节点实例数据。更多细节可以参见边实例数据的获取。
处理设备可以基于所述待合并的节点实例数据,将其代入对应的合并规则中的实体属性,并通过所述对应的合并规则确定合并后的属性。
合并规则中的实体属性可以是指合并规则中与实体属性对应的参数变量字段。在一些实施例中,用于对节点实例数据进行合并的合并规则也可以包括多个属性合并规则等。通过属性合并规则可以实现实体属性的合并。
示例性地,一项属性合并规则可以表示为“A3.Type=isNotNull(A1.Type)?A1.Type:A2.Type”,其可以解读为,对于合并后的实体属性,如果A1.Type不为空,则取A1.Type,如果为空,则取A2.Type。其中,合并后的实体420为对实体A1和A2进行合并后得到。比如,A1+A2,通过合并规则进行合并,可以得到实体A3。
与实体的属性对应的合并规则可以是存在与节点实例数据对应的参数变量字段的合并规则。例如,上述的对为A1.Type和A2.Type进行属性合并,其对应的合并规则就可以是有A1.Type或者A2.Type参数变量的合并规则。
属性代入合并规则的方式与关系代入合并规则的方式类似。例如,将待合并的节点实例数据代入合并规则中的参数变量位置。
在一些实施例中,将节点实例数据代入其对应的合并规则后,通过执行合并规则即可完成对属性的合并,获得合并后的属性440。其中,节点实例a1与实体A1对应,节点实例a2与实体A2对应,节点实例a3与实体A1和实体A2合并后得到的实体A3对应。节点实例a1有id和type属性,节点实例a2也有id和type属性(图中以椭圆和矩形进行了区分),通过属性合并规则合并后,节点实例a3的属性包括以圆角矩形表示的id和type属性。
在本实施例中,通过待合并的实体节点组实现了快速获取节点实例数据,并采用将节点实例数据代入对应的合并规则的方式进行属性的合并,流程简单,属性合并效率高。
图5是根据本说明书一些实施例所示的价值溯源方法的示例性示意图。
在一些实施例中,创建出的融合知识图谱可以在结合不同平台、不同业务领域的知识数据的基础上更好的在业务中应用,以期望使用多平台、多业务领域的知识数据获得更多的业务价值。而对于各平台或各业务领域的数据表提供方而言,由于目前的融合构建知识图谱的方式只关心融合结果,并不关心融合实体中各属性、关系具体是如何融合的,导致数据提供方并不能对其提供的数据表的实际使用进行追踪,也无法得知其提供的数据表在实际业务中产生了多少价值,不能实现对提供的数据表的价值跟踪,阻碍了知识融合的深度和广度,不利于数据共享。因此,本说明书一些实施例提出了一种价值溯源方法。
在一些实施例中,处理设备可以基于所述合并规则,对合并后的关系和属性的来源进行计数统计510。
来源可以是指数据由哪个业务方/业务领域提供。也可以理解为记录数据的提供方是谁。比如,关系R1和属性type来源于知识图谱A,则可以表示关系R1和属性type由知识图谱A对应的业务方提供。
计数统计是指对关系和属性的来源进行计数,其可以包括关系来源计数和属性来源计数。每提供一条关系或一个属性,则对其对应的数据提供方进行计数加1。比如,每提供一条关系或属性,则在已提供的计数上加1,并通过可视化的方式显示实时的计数总数。
在一些实施例中,可以通过合并规则实现对合并后的关系和属性的来源计数统计。例如,合并规则的每一次执行,均可以对相应的关系和属性的数量进行计数,比如,当前已合并的关系数量一共为1000,A1.Type1(来源于知识图谱A)总数量是430,A2.Type2(来源于知识图谱B)总数量是570。当新一次合并规则执行后,合并的关系中一条来自A1.Type1,另一条来自A2.Type2,则当前已合并的关系数量更新为1002,A1.Type1总数量是431,A2.Type2总数量是571。
在一些实施例中,处理设备可以基于计数统计的结果520,确定合并后的关系和属性中所述两个或更多个知识图谱提供的关系和属性的数量关系530。
计数统计的结果是指计数统计后确定的各数据提供方各自提供的关系和属性的总数量。示例性地,计数统计的结果中可以包括对每一个业务方提供的关系和属性的数量进行计数,例如,业务方1提供的关系数量为n,属性数量为m,业务方2提供的关系数量为k,属性数量为g。
数量关系可以是指各数据提供方提供的数据数量与数据总量的对比关系。例如,上文示例中A1.Type1的数量430与总数量1000相比,其占比为43%,A2.Type2的数量是570与总数量1000相比,其占比为57%。
在一些实施例中,所述数量关系可以用于价值溯源540。价值溯源是指追踪产生的价值是由哪些业务方提供的数据所产生,其各自所提供的数据在价值产生的过程中的贡献占比为多少。
在一些实施例中,数量关系可以通过各业务方提供的关系或属性的数量与总数进行计算获得,计算方式并不限于上文所示例的比例计算,还可以是其他方式,本说明书对此不作限定。
价值可以是指融合知识图谱在业务应用中带来的业务增益等。例如,在推荐业务中,通过参考融合知识图谱的知识数据向用户推荐业务,向用户推荐新闻、商品时带来的点击量,这里的点击量就可以是融合知识图谱产生的价值。这里的参考可以是基于融合知识图谱提取推荐规则或者训练推荐模型等方式。因此,为了使得各业务方之间的数据融合与贯通的推进,需要进行价值溯源,以便于各数据提供方能够知道其提供的数据产生了多少价值,以进一步地促进各方的数据融合与连通。
示例地价值溯源过程可以是,假设融合属性总量是1000,A1Type1总量是430,A2.Type2总量是570,则A1Type1贡献为43%,A2.Type2贡献为57%。
在本说明书一些实施例中,通过在融合知识图谱的过程中,通过合并规则对各业务方提供的知识数据进行计数统计,实现了精确计算每个属性和关系不同来源的贡献占比,进而实现价值的溯源。另外,由于属性和关系的来源计数为通过合并规则执行,因此,每一条关系或属性的合并均可以通过合并规则反推出其具体的来源,在针对特定融合实体的实例,例如,出现异常数据,或对某些属性和关系的来源存在疑问时,也可以通过合并规则还原出去合并过程,便于高效排查可能存在的数据问题。
图6是根据本说明书一些实施例所示的知识图谱融合系统的模块图。在一些实施例中,知识图谱的融合系统600可以包括实体节点获取模块610、合并规则获取模块620和合并模块630。
实体节点获取模块610可以用于实体节点获取模块,用于获取待合并的实体节点组。
其中,所述实体节点组内包括的实体来自两个或更多个知识图谱的本体定义数据。
合并规则获取模块620可以用于获取与所述实体节点组内的实体相关的合并规则。
合并模块630可以用于基于所述合并规则,对所述实体节点组内的实体对应的实例数据进行关系和属性的合并,以确定融合知识图谱。
在一些实施例中,合并模块630可以进一步用于:基于所述实体节点组内的实体从所述两个或更多个知识图谱获取待合并的边实例数据;基于所述待合并的边实例数据,将其代入对应的合并规则中的实体关系,并通过所述对应的合并规则确定合并后的关系。
在一些实施例中,合并模块630可以进一步用于:基于所述实体节点组内的实体从所述两个或更多个知识图谱获取待合并的节点实例数据;基于所述待合并的节点实例数据,将其代入对应的合并规则中的实体属性,并通过所述对应的合并规则确定合并后的属性。
在一些实施例中,合并模块630可以进一步用于:基于所述合并规则,对合并后的关系和属性的来源进行计数统计;基于计数统计的结果,确定合并后的关系和属性中所述两个或更多个知识图谱提供的关系和属性的数量关系;其中,所述数量关系用于价值溯源。
图6所示的系统的各模块的更多说明可以参见相应的流程方法描述,例如,图2至图5的相关描述。
应当理解,图6所示的系统及其模块可以利用各种方式来实现。例如,在一些实施例中系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中,硬件部分可以利用专用逻辑来实现;软件部分则可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本说明书的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用例如由各种类型的处理器所执行的软件实现,还可以由上述硬件电路和软件的结合(例如,固件)来实现。
需要注意的是,以上对于知识图谱融合系统及其模块的描述,仅为描述方便,并不能把本说明书限制在所举实施例范围之内。可以理解,对于本领域的技术人员来说,在了解该系统的原理后,可能在不背离这一原理的情况下,对各个模块进行任意组合,或者构成子系统与其他模块连接。在一些实施例中,图6中披露的实体节点获取模块610、合并规则获取模块620和合并模块630可以是一个系统中的不同模块,也可以是一个模块实现上述的两个或两个以上模块的功能。例如,各个模块可以共用一个存储模块,各个模块也可以分别具有各自的存储模块。诸如此类的变形,均在本说明书的保护范围之内。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本说明书的限定。虽然此处并没有明确说明,本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议,所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
同时,本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,除非权利要求中明确说明,本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或移动设备上安装所描述的系统。
同理,应当注意的是,为了简化本说明书披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本说明书实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
一些实施例中使用了描述成分、属性数量的数字,应当理解的是,此类用于实施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有±20%的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。
针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外,对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是,如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方,以本说明书的描述、定义和/或术语的使用为准。
最后,应当理解的是,本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此,作为示例而非限制,本说明书实施例的替代配置可视为与本说明书的教导一致。相应地,本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

Claims (10)

1.一种知识图谱融合方法,所述方法包括:
获取待合并的实体节点组;其中,所述实体节点组内包括的实体来自两个或更多个知识图谱的本体定义数据;
获取与所述实体节点组内的实体相关的合并规则;
基于所述合并规则,对所述实体节点组内的实体对应的实例数据进行关系和属性的合并,以确定融合知识图谱。
2.根据权利要求1所述的方法,基于所述合并规则,对所述实体节点组内的实体对应的实例数据进行关系的合并,包括:
基于所述实体节点组内的实体从所述两个或更多个知识图谱获取待合并的边实例数据;
基于所述待合并的边实例数据,将其代入对应的合并规则中的实体关系,并通过所述对应的合并规则确定合并后的关系。
3.根据权利要求1所述的方法,基于所述合并规则,对所述多个实体节点组内的实体对应的实例数据进行属性的合并,包括:
基于所述实体节点组内的实体从所述两个或更多个知识图谱获取待合并的节点实例数据;
基于所述待合并的节点实例数据,将其代入对应的合并规则中的实体属性,并通过所述对应的合并规则确定合并后的属性。
4.根据权利要求1所述的方法,所述方法还包括:
基于所述合并规则,对合并后的关系和属性的来源进行计数统计;
基于计数统计的结果,确定合并后的关系和属性中所述两个或更多个知识图谱提供的关系和属性的数量关系;其中,所述数量关系用于价值溯源。
5.根据权利要求1所述的方法,所述方法还包括:
响应于所述两个或更多个知识图谱提供的实例数据发生变化,执行所述合并规则对所述融合知识图谱进行更新。
6.一种知识图谱融合系统,所述系统包括:
实体节点获取模块,用于获取待合并的实体节点组;其中,所述实体节点组内包括的实体来自两个或更多个知识图谱的本体定义数据;
合并规则获取模块,用于获取与所述实体节点组内的实体相关的合并规则;
合并模块,用于基于所述合并规则,对所述实体节点组内的实体对应的实例数据进行关系和属性的合并,以确定融合知识图谱。
7.根据权利要求6所述的系统,所述合并模块进一步用于:
基于所述实体节点组内的实体从所述两个或更多个知识图谱获取待合并的边实例数据;
基于所述待合并的边实例数据,将其代入对应的合并规则中的实体关系,并通过所述对应的合并规则确定合并后的关系。
8.根据权利要求6所述的系统,所述合并模块进一步用于:
基于所述实体节点组内的实体从所述两个或更多个知识图谱获取待合并的节点实例数据;
基于所述待合并的节点实例数据,将其代入对应的合并规则中的实体属性,并通过所述对应的合并规则确定合并后的属性。
9.根据权利要求6所述的系统,所述合并模块进一步用于:
基于所述合并规则,对合并后的关系和属性的来源进行计数统计;
基于计数统计的结果,确定合并后的关系和属性中所述两个或更多个知识图谱提供的关系和属性的数量关系;其中,所述数量关系用于价值溯源。
10.一种知识图谱融合装置,包括处理器,所述处理器用于执行如权利要求1-5任一项所述知识图谱融合方法。
CN202310952739.1A 2023-07-31 2023-07-31 一种知识图谱融合方法和系统 Pending CN116992044A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310952739.1A CN116992044A (zh) 2023-07-31 2023-07-31 一种知识图谱融合方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310952739.1A CN116992044A (zh) 2023-07-31 2023-07-31 一种知识图谱融合方法和系统

Publications (1)

Publication Number Publication Date
CN116992044A true CN116992044A (zh) 2023-11-03

Family

ID=88531559

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310952739.1A Pending CN116992044A (zh) 2023-07-31 2023-07-31 一种知识图谱融合方法和系统

Country Status (1)

Country Link
CN (1) CN116992044A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117235285A (zh) * 2023-11-09 2023-12-15 支付宝(杭州)信息技术有限公司 融合知识图谱数据的方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117235285A (zh) * 2023-11-09 2023-12-15 支付宝(杭州)信息技术有限公司 融合知识图谱数据的方法及装置
CN117235285B (zh) * 2023-11-09 2024-02-02 支付宝(杭州)信息技术有限公司 融合知识图谱数据的方法及装置

Similar Documents

Publication Publication Date Title
US11144670B2 (en) Data processing systems for identifying and modifying processes that are subject to data subject access requests
US11409904B2 (en) User interface for building a data privacy pipeline and contractual agreement to share data
US11356456B2 (en) Multi-participant and cross-environment pipelines
US20180373891A1 (en) Data processing systems for identifying and modifying processes that are subject to data subject access requests
US11973760B2 (en) Hierarchical permissions model within a document
US10915662B2 (en) Data de-identification based on detection of allowable configurations for data de-identification processes
US20220067194A1 (en) Generation of a privilege graph to represent data access authorizations
US20230281109A1 (en) Debugging data privacy pipelines using sample data
US20230281342A1 (en) Granting entitlements to log data generated by a data privacy pipeline to facilitate debugging
CN116992044A (zh) 一种知识图谱融合方法和系统
US11663676B2 (en) Cognitive management of multiple subaccounts
US20240184542A1 (en) Initiating data privacy pipelines using reusable templates
US20160124929A1 (en) System and method for processing electronic forms
US20220271936A1 (en) Method and apparatus for decentralized management of trusted data on trustless networks
US9922059B1 (en) Case model—data model and behavior versioning
CN115952862A (zh) 一种知识图谱数据融合方法和系统
Weijer Providing trust in affiliate marketing through blockchain technology
US20150019451A1 (en) Decision basis for benefits program
Vassiliades et al. Argumentation frameworks with attack classification
US20230410049A1 (en) System, Method, and Computer Program Product for Generating and Executing a Workflow Program
US11727067B2 (en) System, method, and computer program product for automatically preparing documents for a multi-national organization
CN113901237A (zh) 一种基于bim技术的物有所值评估方法及系统
Gershberg Log4Audit: the application of logging in auditing and management
CN116523096A (zh) 数据分析系统构建方法、电子设备、计算机可读存储介质
Model The DoDAF Architecture Framework Version 2.02

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination