CN117235285A - 融合知识图谱数据的方法及装置 - Google Patents

融合知识图谱数据的方法及装置 Download PDF

Info

Publication number
CN117235285A
CN117235285A CN202311491095.7A CN202311491095A CN117235285A CN 117235285 A CN117235285 A CN 117235285A CN 202311491095 A CN202311491095 A CN 202311491095A CN 117235285 A CN117235285 A CN 117235285A
Authority
CN
China
Prior art keywords
graph
knowledge
node
entity
fused
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311491095.7A
Other languages
English (en)
Other versions
CN117235285B (zh
Inventor
林昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202311491095.7A priority Critical patent/CN117235285B/zh
Publication of CN117235285A publication Critical patent/CN117235285A/zh
Application granted granted Critical
Publication of CN117235285B publication Critical patent/CN117235285B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供一种融合知识图谱数据的方法及装置,用于将多源异构的多个知识图谱进行融合。为了完成多个知识图谱之间的节点大规模融合,采用将待融合的各个知识图谱逐个向目标知识图谱融合的技术构思。其中,目标知识图谱对应有预设的实体属性和融合策略,融合策略可以描述实体属性的融合规则,以及节点间连接关系的选择规则。针对待融合的当前知识图谱,可以逐个节点向目标知识图谱融合,并在融合过程中经由实体链指进行节点消歧。这种实施方式可以解决多类型实体在异构知识图谱下的多到一的数据融合处理问题。

Description

融合知识图谱数据的方法及装置
技术领域
本说明书一个或多个实施例涉及计算机技术领域,尤其涉及融合知识图谱数据的方法及装置。
背景技术
知识图谱(Knowledge Graph)是以图模式描述真实世界中的各种实体及其关系的一种语义网络。通过知识图谱结合专家经验及先验数据,可以解释图谱中关系、规则的正确性,以及推理图中未出现的关系、规则。在互联网数据日益庞大的情况下,平台用户的交互场景、交互关系错综复杂。例如,通讯录上的存和被存关系、终端应用关联信息、网络链路重叠信息,等等,造成了数据多源的特性。对于各种来源的网络数据,可以各自建立一个相应的知识图谱。然而,随着网络的发展,各方业务的深入交互,对于一些业务而言,使用综合性的知识图谱可以更好地进行业务处理。如此,知识图谱之间的数据融合成为图数据处理的一个重要技术问题。
发明内容
本说明书一个或多个实施例描述了一种融合知识图谱数据的方法及装置,用以解决背景技术提到的一个或多个问题。
根据第一方面,提供一种融合知识图谱数据的方法,用用于将多源异构的多个知识图谱逐个向目标知识图谱融合过程中,针对待融合的当前知识图谱向目标知识图谱进行融合,所述目标知识图谱对应有预设的实体属性和融合策略,所述融合策略描述实体属性的融合规则,以及节点间连接关系的选择规则;所述方法包括:从待融合的当前知识图谱中读取第一节点的节点数据;检测目标知识图谱中是否存在与所述第一节点对应相同实体的其他节点;基于检测结果以及所述融合策略更新目标知识图谱。
在一个实施例中,所述待融合的当前知识图谱为非首个融合到目标知识图谱的待融合知识图谱。
在一个实施例中,所述目标知识图谱中至少融合有首个待融合知识图谱的相应数据,在首个融合到目标知识图谱的待融合知识图谱已通过实体链指消歧的情况下,该首个待融合知识图谱通过以下方式融合到目标知识图谱:根据所述融合策略向目标知识图谱填充该首个融合到目标知识图谱的待融合知识图谱。
在一个实施例中,所述目标知识图谱中的各个节点还对应有节点索引;所述基于检测结果以及所述融合策略更新目标知识图谱还包括:更新目标知识图谱中与所述第一节点对应的第一节点索引。
在一个实施例中,所述基于检测结果以及所述融合策略更新目标知识图谱包括:在存在与第一节点对应的实体相一致的第二节点的情况下,利用所述融合策略更新所述第二节点;在不存在与第一节点对应的实体相一致的其他节点的情况下,利用所述融合策略将所述第一节点加入目标知识图谱。
在一个实施例中,所述融合规则包括以下至少一项:目标知识图谱中的预定属性来源于预定知识图谱;目标知识图谱中的预定属性为空时取当前导入知识图谱的实体属性,不为空时则保持目标知识图谱中的实体属性;在检测到当前导入知识图谱的实体属性的数据来源满足预定条件的情况下,导入相应实体属性。
在一个实施例中,所述选择规则包括以下至少一项:将当前节点在待融合的知识图谱中的预定阶数内的连接关系导入目标知识图谱;将当前节点在待融合的知识图谱中的预定连接关系类型导入目标知识图谱。
在一个实施例中,待融合的各个知识图谱中的节点对应的业务实体为地理兴趣点,所述实体属性包括地理兴趣点的以下中的至少一项属性:标识、名称、地址、定位精度、经度、MCC类目编码、纬度、地图列表、空间所属列表。
根据第二方面,提供一种融合知识图谱数据的装置,用于将多源异构的多个知识图谱逐个向目标知识图谱融合过程中,针对待融合的当前知识图谱向目标知识图谱进行融合,所述目标知识图谱对应有预设的实体属性和融合策略,所述融合策略描述实体属性的融合规则,以及节点间连接关系的选择规则;所述装置包括:
读取单元,配置为从待融合的当前知识图谱中读取第一节点的节点数据;
检测单元,配置为检测目标知识图谱中是否存在与所述第一节点对应相同实体的其他节点;
更新单元,配置为基于检测结果以及所述融合策略更新目标知识图谱。
根据第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
根据第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
通过本说明书实施例提供的方法和装置,用于将多源异构的多个知识图谱进行融合过程中,针对待融合的当前知识图谱向目标知识图谱进行融合。其中,为了完成多个知识图谱之间的节点大规模融合,本说明书采用将待融合的各个知识图谱逐个向目标知识图谱融合的技术构思。目标知识图谱对应有预设的实体属性和融合策略,融合策略可以描述实体属性的融合规则,以及节点间连接关系的选择规则。针对待融合的当前知识图谱,可以逐个节点向目标知识图谱融合,并在融合过程中经由实体链指进行节点消歧。具体而言,从待融合的当前知识图谱中读取单个节点的节点数据,然后检测目标知识图谱中是否存在与该单个节点对应相同实体的其他节点,并基于检测结果以及融合策略更新目标知识图谱。这种实施方式可以解决多类型实体在异构知识图谱下的多到一的数据融合处理问题,并支持知识图谱的持续叠加融合,提高知识图谱数据处理的有效性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出根据本说明书的一个具体实施场景示意图;
图2示出根据本说明书的一个融合多个知识图谱数据的方法流程图;
图3示出根据本说明书一个实施例的融合单个知识图谱中的单个节点的方法流程图;
图4示出根据一个具体例子的融合知识图谱数据的实施架构图(其中包含多个屏幕展示示例图像,屏幕展示示例图像仅为举例性示例,屏幕展示示例图像中包含的具体字符的清晰程度对本说明书的技术内容不构成实质性影响);
图5示出根据一个实施例的用于融合知识图谱数据的装置的示意性框图。
具体实施方式
下面结合附图,对本说明书提供的技术方案进行描述。
为了更清楚地理解本说明书的技术方案,图1首先给出一个具体实施架构。图1示出了本说明书的一个融合知识图谱数据的具体实施架构。在图1示出的实施架构中,可以对第一知识图谱A、第二知识图谱B、第三知识图谱C等进行融合,得到融合知识图谱L。其中,第一知识图谱A、第二知识图谱B、第三知识图谱C可以描述实体在不同连接类型下的连接关系,也可以描述不同业务平台实体在相似连接类型下的连接关系,在此不做限定。以知识图谱中的节点对应用户实体为例,知识图谱A、B、C可以分别描述用户之间的共用终端应用(APP)的连接类型、金融平台转账的连接类型、通讯录联系人保存的连接类型,等等不同的连接类型,也可以分别描述购物平台、金融平台、电信平台等不同平台下的连接关系。
可以理解,由于知识图谱A、B、C对应的业务方不同,因此,知识图谱结构和相应业务实体均可能不一致。知识图谱A、B、C对应的业务实体之间可以相互独立,也可以有交集,如都对应有用户X、用户Y两个业务实体。对于单个知识图谱中的实体而言,还可以对应有相应的实体属性,例如,知识图谱A中,对应业务实体用户a,具有职业、消费金额等实体属性信息,知识图谱B中,对应业务实体用户b,具有注册时长、收款频次、收款金额等属性信息。再例如,业务实体为地理位置点,知识图谱A中对应有兴趣点(POI)a的经纬度信息、类目信息、ID信息等,知识图谱B中对应有兴趣点a的地址、名称、经纬度信息等。
实体链指可以从业务应用的角度,推理出知识图谱中任意两个节点对应的业务主体是否具有相同的特性。具有相同的特性通常标志着对应同一个业务主体。如两个用户是否属于同一个家庭、两个收钱码是否属于同一个店铺、两个账号是否属于同一个自然人,等等。其中,这里的同一个家庭、同一个店铺、同一个自然人各自代表着一个业务主体,两个用户、两个收钱码、两个账号在具有相同特性的情况下,可以对应着统一业务主体。实体链指的目标通常是实体归一,即基于实体链指的结果,进一步通过实体描述信息(如属性信息、连接关系信息等)的合并处理方式,处理“被识别为具有相同特性”的多个业务主体(节点),以得到唯一的业务主体(节点),该过程也可以称为实体消歧。
在常规技术中,可以经由单个知识图谱的实体链指对同源同构的实体进行融合去重,即知识图谱A→A的融合。对于异构单实体融合,如知识图谱A→B融合,其中,可以将A中的实体a映射为B的结构,再通过B→B的方式完成A→B的实体融合,从而补充B中数据的问题。
图1示出的知识图谱A、B、C中,可能包括属性差异以及关系差异,亦即多源异构。业务处理过程中可能需要统一的融合实体来确定其融合后最终的属性结构和连接关系所确定的图谱结构。对于A、B、C三个结构不同的多源异构知识图谱,以上实体融合方案不能很好地解决。
有鉴于此,本说明书提供一种对知识图谱进行融合处理的方法,用于对多源异构的多个知识图谱进行融合,在融合过程中,将相同实体对应的节点融合在一起。在知识图谱融合过程中,可以先定义一个新的知识图谱结构和相应的属性信息,作为目标知识图谱,然后逐个知识图谱向新的知识图谱导入。其中,第一个导入的知识图谱(也可以称为首个待融合知识图谱)可以用于初始化目标知识图谱及索引信息,其他知识图谱向目标知识图谱融合过程中,可以逐个节点与目标知识图谱中的实体比较,完成多源实体之间的数据融合,并在产生实体融合的情况下基于融合策略更新相应的索引信息。如此,可以通过单源知识图谱逐个向目标知识图谱融合的方式,对多源异构知识图谱进行有效融合,以便于通过融合后的知识图谱进行更有效的业务处理。
图2示出了根据一个实施例的融合知识图谱数据的流程示意图。图2所示流程的执行主体可以是具有一定计算能力的任意计算机、设备或服务器集群。假设当前待融合的多个知识图谱至少包括第一知识图谱和第二知识图谱。该多个知识图谱融合为单个目标知识图谱。可选地,当前待融合的单个知识图谱可以为单源知识图谱。
如图2所示,该融合知识图谱数据的流程可以包括:步骤201,获取目标知识图谱的实体属性和融合策略;步骤202,按照融合策略向目标知识图谱导入第一知识图谱中的数据;步骤203,按照以下方式向目标知识图谱中逐个节点导入第二知识图谱的数据:从第二知识图谱读取第一节点的节点数据;检测目标知识图谱中是否存在与第一节点对应的实体相一致的其他节点;基于检测结果以及融合策略更新目标知识图谱。
首先,在步骤201中,获取目标知识图谱的实体属性和融合策略。
可以理解,为了将多个知识图谱融合在一起,可以预先定义目标知识图谱,其中包括定义目标知识图谱的实体属性、融合策略等。
具体而言,实体属性可以用于对实体的性质进行描述。例如,对于用户实体,其实体属性可以包括职业、消费金额、注册时长、收款频次、收款金额等属性信息。再例如,对于地理位置点业务实体,对应有经纬度信息、类目信息、ID信息、地址、名称等属性信息。
在构建知识图谱时,可以先确定业务实体类型,如仅包含用户业务实体,或者仅包含地理位置点业务实体等。对于单个类型的业务实体,可以定义其属性。这些属性通常是为了后续业务使用而确定,例如,用户实体的职业、消费金额、注册时长、收款频次等,地理位置点业务实体的经纬度信息、类目信息、地址、名称等。
另外,由于目标知识图谱作为融合后的知识图谱,因此,在融合过程中还可以有一些融合策略,描述在多个知识图谱的属性信息重复时如何取舍(例如优先取自预定的某个知识图谱),节点之间的连接关系如何平移、融合,等等融合时可能遇到的问题。
一方面,向目标知识图谱中填充的节点数据可以包括实体属性。关于实体属性的融合策略例如可以包括但不限于:目标知识图谱中的预定属性来源于预定知识图谱(如第二知识图谱等);目标知识图谱中的预定属性为空时取当前导入知识图谱的实体属性,不为空时则保持目标知识图谱中的实体属性;在检测到当前导入知识图谱的实体属性的数据来源满足预定条件的情况下,导入相应实体属性;等等。在其他实施例中,融合策略还可以包括其他实体属性融合策略,在此不再一一例举。
另一方面,向目标知识图谱中填充的节点数据可以包括连接关系,针对任一个节点(亦即所对应的单个业务实体),保留部分或全部知识图谱中的连接关系。
在一个实施例中,融合策略可以包括对当前导入节点的连接关系的选择规则。例如,针对单个当前导入的知识图谱中的单个节点,导入预定阶数(如1阶)的连接关系,等等。再例如,针对单个当前导入的知识图谱中的单个节点,导入预定阶数(如1阶)内预定数量(如100个)的连接关系,等等。
在另一个实施例中,融合策略可以包括对连接关系类型的选择规则。例如保留预定连接关系类型,保留预定阶数的连接关系,等等。
目标知识图谱中相应实体类型的实体属性和融合策略可以被预先确定,也可以是在当前步骤201中生成,在此不做限定。
接着,根据步骤202,按照融合策略向目标知识图谱导入第一知识图谱中的数据。
其中,第一知识图谱可以是第一个向目标知识图谱导入的知识图谱,即首个待融合知识图谱。此时,目标知识图谱为空,因此,第一知识图谱中的各个节点均可以被导入目标知识图谱进行填充。实践中,第一知识图谱向目标知识图谱中填充的节点数据可以根据融合策略确定。
根据融合策略,可以向目标知识图谱中导入第一知识图谱。在一个实施例中,融合策略可以包括:目标知识图谱中的预定属性来源于预定知识图谱的情况下,如果该预定知识图谱为第一知识图谱,则将第一知识图谱中的预定属性填充到目标知识图谱,如果该预定知识图谱为第一知识图谱外的其他知识图谱的情况下,保持目标知识图谱中的预定属性不变,如为初始化值(如0值)或空值。
在另一个实施例中,融合策略包括目标知识图谱中的预定属性为空时取当前导入知识图谱的实体属性,不为空时则保持目标知识图谱中的实体属性的情况下,对于第一个导入的知识图谱而言,如果第一知识图谱中包含预定属性,则将相应属性导入目标知识图谱,否则,可以保持目标知识图谱中的预定属性为空值或初始化值(如0值)。
在又一个实施例中,融合策略包括在检测到当前导入知识图谱的实体属性的数据来源满足预定条件则导入相应实体属性的情况下,可以对第一知识图谱中相应节点的相应实体属性来源进行检测,并根据检测结果导入相应节点。其中,实体属性的数据来源可以从实体属性的元数据中获取。其中,元数据可以记录数据的相关信息,如数据来源、数据记录时间、数据版本、日志信息等。
在融合策略包括针对一个业务实体,保留部分或全部知识图谱中的连接关系的情况下,在导入第一知识图谱中的单个节点时,可以对该单个节点的连接关系进行遍历,从而将满足融合策略的相应连接关系导入目标知识图谱。
可以理解,第一知识图谱可以是进行过实体链指的知识图谱,单个业务实体唯一对应到一个节点。在一些情况下,第一知识图谱还可以是未经过实体链指处理的,或者是包含未经实体链指处理的数据的。此时,对第一知识图谱中的节点可以逐个导入目标知识图谱。在可选的实施例中,在导入第一知识图谱的同时,还可以通过实体链指进行节点消歧。实体链指可以采用常规方式进行,例如,根据两个节点的邻居节点对应相同业务实体的比例判定两个节点是否对应同一业务实体,等等,在此不再赘述。一个具体的节点消歧方式例如可以是:在逐节点导入的情况下,针对当前导入节点,检测是否存在与其对应同一实体的已导入节点,若存在,将其实体属性及连接关系与相应节点进行合并。
另外,在导入第一知识图谱对应的数据的同时,还可以为各个节点各自生成当前索引。其中,单个节点对应的索引可以用于定位节点或识别相应的业务实体。也就是说,经由单个索引可以唯一定位到单个节点或单个业务实体。单个索引可以为单个实体属性,如用户手机号码,也可以为多个实体属性的组合。例如,针对用户业务实体,索引可以是所在地理区域和用户ID的组合。再例如,针对兴趣点索引,可以是兴趣点名称和坐标的组合,等等。
然后,经由步骤203,向目标知识图谱中逐个节点导入第二知识图谱的数据。
可以理解,此时,目标知识图谱中至少存在经由第一知识图谱导入的数据,第二知识图谱的数据可以向目标知识图谱进行累加。在累加过程中,可以进行实体消歧、补充节点的属性数据、补充节点的连接关系等至少一项操作。第二知识图谱的数据可以逐节点向目标知识图谱导入。
参考图3所示,给出了针对第二知识图谱中的任意一个节点(记为第一节点),向目标知识图谱导入的一个具体流程。下面结合图3的示意详细描述其导入过程。
在步骤2031,从第二知识图谱读取第一节点的节点数据。
这里的节点数据可以包括数据对应的实体ID、实体属性、连接关系等等。例如,在业务实体为用户的情况下,实体ID例如可以是用户的手机号码、唯一身份识别码(如身份证件标识等)等等。
在步骤2032,检测目标知识图谱中是否存在与第一节点对应相同实体的其他节点。
第二知识图谱导入时,目标知识图谱中至少保存了第一知识图谱中的相关数据。因此,在第二知识图谱中的节点导入时,还需确定当前节点需要与已存在的节点合并,还是生成一个新的节点。为此,可以检测目标知识图谱中是否存在与第一节点对应相同实体的其他节点,即通过实体链指进行消歧处理。
其中,在实体链指过程中可以通过查询在线分布式图数据库(如geabase)图存来解决链指融合数据详情的来源问题。通过分布式数据库可以查询到节点对应的业务实体的详情信息,从而根据业务实体的详情信息进行实体链指。在出现大规模(如数十亿甚至百亿级别)数据融合的情况下,通过实体链指进行数据融合可以通过分布式计算系统的离线任务实现,分布式任务例如为文本或者图结构相似度判定,在此不再赘述。
由于第一知识图谱和第二知识图谱的数据来源不同,连接关系也可能不同,因此,在检测目标知识图谱中是否存在与第一节点对应相同实体的其他节点时,可以通过匹配实体的相关实体属性等方式进行。在一个实施例中,可以通过匹配第一节点对应的唯一性实体属性(如实体ID、地理坐标、设备标识等)与目标知识图谱中各个节点的唯一性实体属性,来检测目标知识图谱中是否存在与第一节点对应相同实体的其他节点。例如,当存在某个节点(如记为第二节点)对应的实体ID与第一节点对应的实体ID相同的情况下,确定该节点与第一节点对应相同实体。在另一个实施例中,可以匹配第一节点对应的(如实体ID)与目标知识图谱中各个节点在多个预定项实体属性项上的一致性,来检测目标知识图谱中是否存在与第一节点对应相同实体的其他节点。例如,当存在某个节点(如记为第二节点)与第一节点在多个预定实体属性上的匹配度大于预定阈值的情况下,确定该节点与第一节点对应相同实体。这里的匹配度可以通过匹配项与预定属性项的比值确定,也可以将节点在各个预定属性项上的值映射为向量,通过向量相似度确定,在此不做限定。
在步骤2033,基于检测结果以及融合策略在目标知识图谱中更新第一节点。
其中,在检测结果为存在与第一节点对应相同实体的其他节点(如通过第二节点表示)的情况下,可以将第一节点与第二节点合并记录在目标知识图谱中,否则,检测结果为存在与第一节点对应相同实体的其他节点的情况下,可以将第一节点作为新的节点记录在目标知识图谱中。
将第一节点记录在目录知识图谱中的过程,按照融合策略进行。其中融合策略可以包括但不限于:目标知识图谱中的预定属性来源于预定知识图谱;目标知识图谱中的预定属性为空时取当前导入知识图谱的实体属性,不为空时则保持目标知识图谱中的实体属性;在检测到当前导入知识图谱的实体属性的数据来源为预定来源的情况下,导入相应实体属性;对连接关系的选择规则;等等。
根据融合策略,在将第一节点与第二节点合并的情况下,可以按照融合策略更新第二节点的实体属性和连接关系。在目标知识图谱中还包含各个节点的节点索引的情况下,还可以更新关于第二节点的节点索引。由于第一节点与第二节点对应着相同的业务实体,此时第二节点的节点索引同时也是第一节点对应的第一节点索引。
根据融合策略,在将第一节点作为新的节点记录在目标知识图谱中的情况下,可以按照融合策略将第二知识图谱中关于第一节点的实体属性和连接关系记录在目标知识图谱。同时,在目标知识图谱中还包含各个节点的节点索引的情况下,还可以增加目标知识图谱中关于第一节点的第一节点索引。
如此,向目标知识图谱逐个导入第二知识图谱中的节点,从而将第二知识图谱融合到目标知识图谱中。
其中,目标知识图谱中还可以融合其他知识图谱,如第三知识图谱、第四知识图谱等等。值得说明的是,除了待融合的当前知识图谱为非首个融合到目标知识图谱的待融合知识图谱之外,其他知识图谱均可以按照针对第二知识图谱的融合方法融合到目标知识图谱。其融合流程可以按照图3示出的流程中步骤2031、步骤2032、步骤2033进行,在此不再赘述。由于向目标知识图谱的融合过程可以是持续的、非预先确定的,例如预先确定融合的是第一知识图谱和第二知识图谱,在后续业务需求中临时确定再叠加融合第三知识图谱,因此,图3示出的步骤可以作为非首个融合到目标知识图谱的待融合知识图谱的融合流程单独使用。
为了更加明确本说明书提供的技术方案,图4示出了一个具体应用示例示意图。如图4所示,假设业务实体为兴趣点(POI),待融合的知识图谱为第一知识图谱A和第二知识图谱B,目标知识图谱记为L。
第一知识图谱A中的业务实体为地图类应用的兴趣点,对应实体属性有兴趣点id、兴趣点名称(name)、地址(address)、定位精度(latitude)、经度(longitude)、MCC类目编码(mccCode,商户类别码)、纬度(latitude),并且对应有连接关系:概念语义关系(如标准MCC类目)、关联语义关系(如关联地图POI),等等。
第二知识图谱B中的业务实体为支付平台的商家兴趣点,对应实体属性有兴趣点id、兴趣点名称(name)、地址(address)、定位精度(latitude)、经度(longitude)、MCC2一级类目编码(mcc2Level1Code)、纬度(latitude)、地图poi列表(amapList)、空间所属AOI列表(belongAOIList)等。并且对应有连接关系:概念语义关系(如MCC2一级类目)、关联语义关系(如关联地图POI、空间所属AOI等)等。
在进行知识图谱数据融合时,确定目标知识图谱中的实体为兴趣点,并可以预先定义目标知识图谱中实体的实体属性、连接关系,以及融合规则。例如,定义目标知识图谱中包含的实体属性为:名称(name)、地址(address)、经度(longitude)、纬度(latitude)、地图poi列表(amapList)、POI主键(如兴趣点的ID等),等等。定义连接关系包括概念语义关系、关联语义关系等。
进一步地,还可以定义目标知识图谱的融合策略。关于融合策略的定义可以分为两方面,一方面是对实体的实体属性的融合策略的定义,另一方面是对连接关系的融合策略的定义。
其中,针对实体属性的融合策略,通常用于描述实体属性的来源。融合策略可以包括实体属性来源为指定知识图谱、各个待融合知识图谱中的最新记录、按照融合顺序第一个记载有相关实体属性的知识图谱,等等。
例如,指定实体属性“地址”来源于第二知识图谱B,即支付平台对应业务实体构建的知识图谱。在一个具体例子中,如可以通过get语句赋值实现对来源知识图谱的指定,如“MT.FusePOI.adress=get("MT.AntPoi. adress ")”,其中,FusePOI表示目标知识图谱L中的业务实体,AntPoi表示第二知识图谱B中的业务实体,.adress表示地址实体属性。如此,目标知识图谱获取的实体属性“地址”数据只能是指定来源的知识图谱B中的数据。
而实体属性在各个待融合知识图谱中的最新记录可以通过对比实体属性的元数据中的时间信息确定,按照融合顺序第一个记载有相关实体属性的知识图谱可以通过判断目标知识图谱中相应实体属性的值是否为空或预定的初始值判定,在此不再赘述。
另一方面,针对连接关系的融合策略,可以包括融合关系所选自的知识图谱,以及选择规则。例如,图4的示例中,融合策略可以包括概念语义关系选自第一知识图谱A、关联语义关系选自第一知识图谱B中的关联地图POI、空间所属AOI等,同时融合关系还可以包括针对单个业务实体,选择其与一阶邻居节点的连接关系,等等。
之后,可以按照定义好的融合策略,依次将第一知识图谱A、第二知识图谱B导入目标知识图谱L。其中,导入单个知识图谱过程中,可以逐节点(对应逐个业务实体)进行导入。
值得说明的是,针对首个融合到目标知识图谱的待融合知识图谱的第一知识图谱A,在其经过实体链指的消歧处理的情况下,可以根据融合策略向目标知识图谱填充相应数据,否则,在其未经过消歧处理的情况下,还可以按照图3示出的流程(也可以对应与2中的步骤203)向目标知识图谱导入节点,以经过实体链指进行合并消歧。在导入作为非首个融合到目标知识图谱的待融合知识图谱的第二知识图谱B单个节点的过程中,可以按照图3示出的流程(也可以对应与2中的步骤203)向目标知识图谱逐个节点导入,通过执行将当前节点与已导入节点经过实体链指操作,从而在与已有节点对应相同业务实体的情况下进行合并消歧,否则按照新节点导入。
回顾以上过程,在针对多源异构知识图谱进行数据融合的过程中,通过定义一个全新的目标知识图谱,以及融合策略,然后将各个待融合的知识图谱依次导入目标知识图谱。针对单个知识图谱,还可以逐节点导入数据,并在导入数据过程中,经由实体链指进行业务实体的消歧,将对应相同业务实体的节点数据合并。该实施方式提供了一种多元异构知识图谱的融合方法,经由每一阶段均为独立的单源实体向目标实体(1到1)融合的知识图谱融合过程,可以支持多到一的任意数量知识图谱的融合,并可以支持持续的知识图谱融合,为知识图谱数据融合提供有效的解决方案。
根据另一方面的实施例,还提供一种用于融合知识图谱数据的装置。图5示出了根据一个实施例的用于融合知识图谱数据的装置500。如图5所示,装置500可以包括读取单元501、检测单元502、更新单元503。装置500可用于将多源异构的多个知识图谱逐个向目标知识图谱融合过程中,针对待融合的当前知识图谱向目标知识图谱进行融合。其中,待融合的各个知识图谱逐个向目标知识图谱融合,目标知识图谱是不同于待融合的各个知识图谱的其他知识图谱。目标知识图谱可以对应有预设的实体属性和融合策略,融合策略例如描述实体属性的融合规则,以及节点间连接关系的选择规则。
其中,针对待融合的当前知识图谱,在向目标知识图谱进行数据融合过程中,读取单元501可以配置为从待融合的当前知识图谱中读取第一节点的节点数据,检测单元502可以配置为检测目标知识图谱中是否存在与第一节点对应相同实体的其他节点,更新单元503可以配置为基于检测结果以及融合策略更新目标知识图谱。
值得说明的是,图5所示的装置500与图3描述的方法相对应,图3的方法实施例中的相应描述同样适用于装置500,在此不再赘述。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当上述计算机程序在计算机中执行时,令计算机执行结合图2、图3等所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,上述存储器中存储有可执行代码,上述处理器执行以上可执行代码时,实现结合图2、图3等所描述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本说明书实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所描述的具体实施方式,对本说明书的技术构思的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所描述仅为本说明书的技术构思的具体实施方式而已,并不用于限定本说明书的技术构思的保护范围,凡在本说明书实施例的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本说明书的技术构思的保护范围之内。

Claims (11)

1.一种融合知识图谱数据的方法,用于将多源异构的多个知识图谱逐个向目标知识图谱融合过程中,针对待融合的当前知识图谱向目标知识图谱进行融合,所述目标知识图谱对应有预设的实体属性和融合策略,所述融合策略描述实体属性的融合规则,以及节点间连接关系的选择规则;所述方法包括:
从待融合的当前知识图谱中读取第一节点的节点数据;
检测目标知识图谱中是否存在与所述第一节点对应相同实体的其他节点;
基于检测结果以及所述融合策略更新目标知识图谱。
2.如权利要求1所述的方法,其中,所述待融合的当前知识图谱为非首个融合到目标知识图谱的待融合知识图谱。
3.如权利要求1所述的方法,其中,所述目标知识图谱中至少融合有首个待融合知识图谱的相应数据,在首个融合到目标知识图谱的待融合知识图谱已通过实体链指消歧的情况下,该首个待融合知识图谱通过以下方式融合到目标知识图谱:
根据所述融合策略向目标知识图谱填充该首个融合到目标知识图谱的待融合知识图谱。
4.如权利要求1-3任一所述的方法,其中,所述目标知识图谱中的各个节点还对应有节点索引;
所述基于检测结果以及所述融合策略更新目标知识图谱还包括:
更新目标知识图谱中与所述第一节点对应的第一节点索引。
5.如权利要求1所述的方法,其中,所述基于检测结果以及所述融合策略更新目标知识图谱包括:
在存在与第一节点对应的实体相一致的第二节点的情况下,利用所述融合策略更新所述第二节点;
在不存在与第一节点对应的实体相一致的其他节点的情况下,利用所述融合策略将所述第一节点加入目标知识图谱。
6.如权利要求1所述的方法,其中,所述融合规则包括以下至少一项:
目标知识图谱中的预定属性来源于预定知识图谱;
目标知识图谱中的预定属性为空时取当前导入知识图谱的实体属性,不为空时则保持目标知识图谱中的实体属性;
在检测到当前导入知识图谱的实体属性的数据来源满足预定条件的情况下,导入相应实体属性。
7.如权利要求1所述的方法,其中,所述选择规则包括以下至少一项:
将当前节点在待融合的知识图谱中的预定阶数内的连接关系导入目标知识图谱;
将当前节点在待融合的知识图谱中的预定连接关系类型导入目标知识图谱。
8.如权利要求1所述的方法,其中,待融合的各个知识图谱中的节点对应的业务实体为地理兴趣点,所述实体属性包括地理兴趣点的以下中的至少一项属性:标识、名称、地址、定位精度、经度、MCC类目编码、纬度、地图列表、空间所属列表。
9.一种融合知识图谱数据的装置,用于将多源异构的多个知识图谱逐个向目标知识图谱融合过程中,针对待融合的当前知识图谱向目标知识图谱进行融合,所述目标知识图谱对应有预设的实体属性和融合策略,所述融合策略描述实体属性的融合规则,以及节点间连接关系的选择规则;所述装置包括:
读取单元,配置为从待融合的当前知识图谱中读取第一节点的节点数据;
检测单元,配置为检测目标知识图谱中是否存在与所述第一节点对应相同实体的其他节点;
更新单元,配置为基于检测结果以及所述融合策略更新目标知识图谱。
10.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-8中任一项的所述的方法。
11.一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-8中任一项所述的方法。
CN202311491095.7A 2023-11-09 2023-11-09 融合知识图谱数据的方法及装置 Active CN117235285B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311491095.7A CN117235285B (zh) 2023-11-09 2023-11-09 融合知识图谱数据的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311491095.7A CN117235285B (zh) 2023-11-09 2023-11-09 融合知识图谱数据的方法及装置

Publications (2)

Publication Number Publication Date
CN117235285A true CN117235285A (zh) 2023-12-15
CN117235285B CN117235285B (zh) 2024-02-02

Family

ID=89093075

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311491095.7A Active CN117235285B (zh) 2023-11-09 2023-11-09 融合知识图谱数据的方法及装置

Country Status (1)

Country Link
CN (1) CN117235285B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117787392A (zh) * 2024-02-23 2024-03-29 支付宝(杭州)信息技术有限公司 一种知识图谱的融合方法和装置

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130166942A1 (en) * 2011-12-22 2013-06-27 International Business Machines Corporation Unfusing a failing part of an operator graph
CN111191471A (zh) * 2019-12-30 2020-05-22 北京航空航天大学 基于实体序列编码的知识图谱融合方法
CN111324643A (zh) * 2020-03-30 2020-06-23 北京百度网讯科技有限公司 知识图谱的生成方法、关系挖掘方法、装置、设备和介质
CN112163098A (zh) * 2020-09-24 2021-01-01 平安直通咨询有限公司上海分公司 一种知识图谱的创建方法、装置、存储介质和服务器
CN113190689A (zh) * 2021-05-25 2021-07-30 广东电网有限责任公司广州供电局 一种电力安全知识图谱的构建方法、装置、设备和介质
JP2021197132A (ja) * 2020-06-12 2021-12-27 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 知識表現学習方法、装置、電子機器、記憶媒体及びコンピュータプログラム
WO2022011681A1 (zh) * 2020-07-17 2022-01-20 国防科技大学 一种基于迭代补全的知识图谱融合方法
CN115438232A (zh) * 2022-09-13 2022-12-06 中国电信股份有限公司 知识图谱构建方法及装置、电子设备、存储介质
CN115470356A (zh) * 2021-06-11 2022-12-13 杭州海康威视数字技术股份有限公司 一种知识图谱构建方法、装置及电子设备
CN115618010A (zh) * 2022-09-26 2023-01-17 支付宝(杭州)信息技术有限公司 融合图谱的存储和处理方法及装置
CN116304089A (zh) * 2023-03-03 2023-06-23 安徽工程大学 一种融合权重与时态信息的知识图谱补全方法
CN116992044A (zh) * 2023-07-31 2023-11-03 支付宝(杭州)信息技术有限公司 一种知识图谱融合方法和系统

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130166942A1 (en) * 2011-12-22 2013-06-27 International Business Machines Corporation Unfusing a failing part of an operator graph
CN111191471A (zh) * 2019-12-30 2020-05-22 北京航空航天大学 基于实体序列编码的知识图谱融合方法
CN111324643A (zh) * 2020-03-30 2020-06-23 北京百度网讯科技有限公司 知识图谱的生成方法、关系挖掘方法、装置、设备和介质
JP2021197132A (ja) * 2020-06-12 2021-12-27 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 知識表現学習方法、装置、電子機器、記憶媒体及びコンピュータプログラム
WO2022011681A1 (zh) * 2020-07-17 2022-01-20 国防科技大学 一种基于迭代补全的知识图谱融合方法
CN112163098A (zh) * 2020-09-24 2021-01-01 平安直通咨询有限公司上海分公司 一种知识图谱的创建方法、装置、存储介质和服务器
CN113190689A (zh) * 2021-05-25 2021-07-30 广东电网有限责任公司广州供电局 一种电力安全知识图谱的构建方法、装置、设备和介质
CN115470356A (zh) * 2021-06-11 2022-12-13 杭州海康威视数字技术股份有限公司 一种知识图谱构建方法、装置及电子设备
CN115438232A (zh) * 2022-09-13 2022-12-06 中国电信股份有限公司 知识图谱构建方法及装置、电子设备、存储介质
CN115618010A (zh) * 2022-09-26 2023-01-17 支付宝(杭州)信息技术有限公司 融合图谱的存储和处理方法及装置
CN116304089A (zh) * 2023-03-03 2023-06-23 安徽工程大学 一种融合权重与时态信息的知识图谱补全方法
CN116992044A (zh) * 2023-07-31 2023-11-03 支付宝(杭州)信息技术有限公司 一种知识图谱融合方法和系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
DONGDONG GUO ETC.: "Research on Alignment Method of Civil Aviation Equipment Domain and General Knowledge Graph Entity Based on Graph Neural Network Embedding", 《2023 INTERNATIONAL SYMPOSIUM ON INTELLIGENT ROBOTICS AND SYSTEMS (ISOIRS)》, pages 215 - 222 *
SHAN, X ETC.: "Domain Entity Disambiguation Combining Multi-Feature Graph and Entity Influence", 《 COMPUTER ENGINEERING AND APPLICATIONS》, pages 305 - 311 *
李婷玉 等: "基于图卷积神经网络的石油数据资产知识图谱实体对齐方法", 《东北石油大学学报》, pages 79 - 88 *
邹银凤: "知识图谱构建中的多数据源实体匹配研究", 《中国优秀硕士学位论文全文数据库(经济与管理科学辑)》, pages 157 - 946 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117787392A (zh) * 2024-02-23 2024-03-29 支付宝(杭州)信息技术有限公司 一种知识图谱的融合方法和装置

Also Published As

Publication number Publication date
CN117235285B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
CN107193894B (zh) 数据处理方法、个体识别方法及相关装置
CN109559234B (zh) 一种区块链状态数据的存储方法、设备和存储介质
US8234264B2 (en) System and method for preferred services in nomadic environments
CN117235285B (zh) 融合知识图谱数据的方法及装置
JP5221630B2 (ja) サーバ、情報管理方法、情報管理プログラム、及びそのプログラムを記録するコンピュータ読み取り可能な記録媒体
CN106547646B (zh) 一种数据备份及恢复方法、数据备份及恢复装置
CN105989457A (zh) 一种信息查询方法及装置
CN115618010A (zh) 融合图谱的存储和处理方法及装置
Cheng et al. Quickly locating POIs in large datasets from descriptions based on improved address matching and compact qualitative representations
Chatterjee et al. SAGEL: smart address geocoding engine for supply-chain logistics
Yu et al. Automatic geospatial data conflation using semantic web technologies
US10216771B2 (en) Creating and handling identification for a resource in a configuration database
CN116127154A (zh) 知识标签推荐方法、装置、电子设备及存储介质
CN111737529B (zh) 一种多源异构数据采集方法
CN115330510A (zh) 一种基于区块链智能合约的跨平台信用管理方法
CN103064872A (zh) 使用数据结构处理搜索查询
CN116414808A (zh) 详细地址规范化的方法、装置、计算机设备和存储介质
CN113761102A (zh) 数据处理方法、装置、服务器、系统和存储介质
JP5776403B2 (ja) 領域検索方法、領域検索プログラムおよび情報処理装置
US10430775B1 (en) Validation and lookup techniques for rule-based data categorization
CN110909191A (zh) 图数据处理方法及装置、存储介质、电子设备
CN116257658A (zh) 用户行为链路图显示方法、装置、设备及存储介质
CN118038670A (zh) 基于复合路口的数据处理方法及装置、设备、介质
CN116975084A (zh) 数据处理方法、装置、计算机设备、存储介质及产品
CN113626482A (zh) 基于系统融合id表的查询方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant