CN117238398A - 数据血缘关系的确定方法、装置、设备及可读存储介质 - Google Patents

数据血缘关系的确定方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN117238398A
CN117238398A CN202311211792.2A CN202311211792A CN117238398A CN 117238398 A CN117238398 A CN 117238398A CN 202311211792 A CN202311211792 A CN 202311211792A CN 117238398 A CN117238398 A CN 117238398A
Authority
CN
China
Prior art keywords
data
relationship
blood
attribute
data objects
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311211792.2A
Other languages
English (en)
Inventor
南菊红
黄文俊
蒋克成
王志伟
夏璠
张阔
程宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunlun Digital Technology Co ltd
China National Petroleum Corp
Original Assignee
Kunlun Digital Technology Co ltd
China National Petroleum Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunlun Digital Technology Co ltd, China National Petroleum Corp filed Critical Kunlun Digital Technology Co ltd
Priority to CN202311211792.2A priority Critical patent/CN117238398A/zh
Publication of CN117238398A publication Critical patent/CN117238398A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据血缘关系的确定方法、装置、设备及可读存储介质,属于大数据技术领域。该方法包括:获取图谱模型,图谱模型包括多个对象类型以及多个对象类型之间的依赖关系,多个对象类型分别包括至少一个对象属性;按照图谱模型对多个数据源中的石油数据进行采集,得到多个数据对象,多个数据对象之间包括依赖关系;将多个数据对象按照多个对象类型进行分类,得到多个数据对象集;根据多个数据对象集确定多个数据对象之间的血缘关系。该方法通过建立的图谱模型对不同的数据源中的石油数据进行采集和血缘分析,提供了石油数据的全局性视角,从而为石油的生产、开发和运维提供决策基础。

Description

数据血缘关系的确定方法、装置、设备及可读存储介质
技术领域
本申请实施例涉及大数据技术领域,特别涉及一种数据血缘关系的确定方法、装置、设备及可读存储介质。
背景技术
随着石油勘探进程的不断发展,油田生产、勘探及开发等业务产生的石油数据越来越多,形成了庞大的数据资源池。在大数据背景下,通过确定大量的石油数据的血缘关系能够明晰石油数据的源头和流向,分析石油数据之间的影响关系,从而为油田生产、勘探、开发以及运维提供价值导向。其中,血缘关系是指数据在产生、处理、流转到消亡过程中,数据之间形成的一种类似于人类社会血缘关系的关系。
发明内容
本申请实施例提供了一种数据血缘关系的确定方法、装置、设备及可读存储介质,可用于通过确定大量的石油数据的血缘关系明晰石油数据的源头和流向,分析石油数据之间的影响关系。所述技术方案如下:
一方面,提供了一种数据血缘关系的确定方法,所述方法包括:
获取图谱模型,所述图谱模型包括多个对象类型以及所述多个对象类型之间的依赖关系,所述多个对象类型分别包括至少一个对象属性;
按照所述图谱模型对多个数据源中的石油数据进行采集,得到多个数据对象,第一数据对象对应第一对象类型,所述第一数据对象包括所述第一对象类型对应的至少一个对象属性以及与第二数据对象的依赖关系,所述第一数据对象为所述多个数据对象中的任一数据对象,所述第二数据对象为所述多个数据对象中除所述第一数据对象之外的任一数据对象,所述石油数据是在油田生产、勘探及开发的过程中产生的;
将所述多个数据对象按照所述多个对象类型进行分类,得到多个数据对象集;
根据所述多个数据对象集分别包括的各个数据对象的至少一个对象属性以及不同数据对象之间的依赖关系,确定所述多个数据对象之间的血缘关系。
另一方面,提供了一种数据血缘关系的确定装置,所述装置包括:
获取模块,用于获取图谱模型,所述图谱模型包括多个对象类型以及所述多个对象类型之间的依赖关系,所述多个对象类型分别包括至少一个对象属性;
采集模块,用于按照所述图谱模型对多个数据源中的石油数据进行采集,得到多个数据对象,第一数据对象对应第一对象类型,所述第一数据对象包括所述第一对象类型对应的至少一个对象属性以及与第二数据对象的依赖关系,所述第一数据对象为所述多个数据对象中的任一数据对象,所述第二数据对象为所述多个数据对象中除所述第一数据对象之外的任一数据对象,所述石油数据是在油田生产、勘探及开发的过程中产生的;
分类模块,用于将所述多个数据对象按照所述多个对象类型进行分类,得到多个数据对象集;
确定模块,用于根据所述多个数据对象集分别包括的各个数据对象的至少一个对象属性以及不同数据对象之间的依赖关系,确定所述多个数据对象之间的血缘关系。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行,以使所述计算机设备实现上述任一所述的方法。
另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行,以使计算机实现上述任一所述的方法。
另一方面,还提供了一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令,处理器执行所述计算机指令,使得所述计算机设备执行上述任一所述的方法。
本申请实施例提供的技术方案至少带来如下有益效果:
本申请实施例提供的技术方案,通过建立的图谱模型对不同的数据源中的石油数据进行采集和血缘分析,提供了石油数据的全局性视角,从而能够为石油的生产、开发和运维提供决策基础。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种实施环境的示意图;
图2是本申请实施例提供的一种数据血缘关系的确定方法的流程图;
图3是本申请实施例提供的一种图谱模型示意图;
图4是本申请实施例提供的一种表数据类型可视化展现示意图;
图5是本申请实施例提供的一种字段数据类型可视化展现示意图;
图6是本申请实施例提供的一种数据血缘关系的确定方法场景示意图;
图7是本申请实施例提供的一种数据血缘关系的确定装置的结构示意图;
图8是本申请实施例提供的一种服务器的结构示意图;
图9是本申请实施例提供的一种终端的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
需要说明的是,本申请的说明书中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与本申请的一些方面相一致的装置和方法的例子。
本申请实施例提供了一种数据血缘关系的确定方法,请参考图1,其示出了本申请实施例提供的一种数据血缘关系的确定方法的实施环境示意图。如图1所示,该实施环境可以包括终端11和服务器12,终端11和服务器12通过有线或无线网络建立通信连接。
其中,终端11能够采集多个数据源中的石油数据,得到多个数据对象,终端11能够将采集到的数据对象发送给服务器12,服务器12基于采集的多个数据对象确定多个数据对象之间的血缘关系,并将该血缘关系存储在服务器12中,或者,将该血缘关系存储在外部数据库中。终端11能够基于该血缘关系获取任一数据对象对应的血缘关系图谱。
在一种可能的实现方式中,终端11可以是数据采集终端;或者,可视化终端。服务器12可以是一台服务器,也可以是多台服务器组成的服务器集群,或者是一个云计算服务中心。
本领域技术人员应能理解上述终端11和服务器12仅为举例,其他现有的或今后可能出现的终端或车辆如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
参见图2,图2为本申请实施例提供一种数据血缘关系的确定方法的流程图,该方法可以应用于图1所示的实施环境,例如,由图1所示的服务器12执行该方法。如图2所示,该方法包括但不限于如下步骤201-步骤204。
步骤201,获取图谱模型,图谱模型包括多个对象类型以及多个对象类型之间的依赖关系,多个对象类型分别包括至少一个对象属性。
本申请实施例中的图谱模型是基于数据湖的大数据支撑环境搭建的,在数据湖中,存储了各种类型的数据,并不会对各种类型的数据进行分类,不方便取出所需类型的数据进行分析、研究或使用。数据湖可以接收不同渠道和不同来源的数据,比如数据库、日志文件、传感器数据等,这些不同渠道和不同来源的数据可以是结构化的、半结构化的或非结构化的。数据湖可以适应数据不断增长的需求。由此,数据湖所存储的多种类型的数据能够为图谱模型的建立提供基础,以使得图谱模型涵盖的数据类型的方面更加完善。
示例性地,基于数据湖的大数据支撑环境搭建图谱模型的过程可以是,获取数据湖中的全部数据,确定数据湖中全部数据的数据类型,基于数据类型确定图谱模型中的对象类型,例如,数据类型包括表和字段,则图谱模型中对应建立表对象类型和字段对象类型。在建立对象类型的基础上确定对象类型之间的依赖关系,本申请实施例不对确定对象类型之间的关系的方式进行限定,例如,表对象类型中的表涵盖的数据包括了字段对象类型中字段的数据,则确定表对象类型包含字段对象类型。任一对象类型包括至少一个对象属性,该对象属性基于获取到的数据湖中的数据确定,例如,获取到的表类型的数据中包括表名称、表日期和表备注三个表对象类型的对象属性,则图谱模型中在表对象类型中建立三个对象属性,包括上述表名称、表日期和表备注。此外,图谱模型建立后需随着数据湖中数据的变更进行对应修改,例如,数据湖中出现了新的数据类型,例如,视图,则图谱模型中需对应建立新的视图对象类型、视图对象类型和其他对象类型之间的依赖关系和视图对象类型包括的对象属性。
其中,结构化数据是指表现为二维形式的数据。例如,数据表格中的信息,包括行和列,每一行可以表示一个记录,每一列可以表示一个属性。非结构化数据是指信息没有一个预先定义好的数据模型或者没有以一个预先定义的方式来组织,非结构化数据往往不方便用数据库二维逻辑表来表现,例如,非结构化数据包括任意格式的办公文档、文本、图片、图像和音频/视频信息等。半结构化数据是介于结构化数据和非结构化数据之间的数据。半结构化数据中数据的结构和内容混在一起。例如,HTML(Hyper Text Markup Language,超文本标记语言)文档属于半结构化数据。
本申请实施例提供的图谱模型用于构建知识图谱。知识图谱是一种语义网络,知识图谱通过实体、属性和关系将各种信息关联起来。图谱模型可以为数据的采集提供基准,该基准包括采集的数据的类型以及采集的数据之间的关系,通过图谱模型可以将类似数据湖等大数据进行分类,使得可以按照该图谱模型对应的分类查询所需的数据。
示例性地,图谱模型包括多个对象类型以及多个对象类型之间的依赖关系。对象类型可以是一种抽象的表示,用于描述数据对象的类型。例如,一个图谱模型可以包括字段、表、视图和数据集等对象类型,其中,表可以包括例如表的版本、表的区域等表的对象属性。在图谱模型中,对象类型用于表示实体的类别。对象属性用于描述对象的特征的属性,可以是物理属性或非物理属性。依赖关系用于描述对象类型之间的关系,例如,表和字段之间的依赖关系为包含关系,即表中包含字段。
在一种可能的实施方式中,多个对象类型包括字段、表、视图、物化视图、函数、数据集、命名空间和版本中的至少两个;依赖关系包括外键关系、等级关系、包含关系、版本关系、数据项转换关系和映射关系中的至少一个;至少一个对象属性包括区域属性、业务属性、管理属性和时间属性中的至少一个。对象类型、依赖关系和对象属性的类别越多,该图谱模型能够覆盖的数据范围越广,能够表述的数据信息越全面。本申请实施例提供的对象类型、依赖关系和对象属性仅为示例性描述,即对象类型、依赖关系和对象属性还可以包括其他内容,本申请实施例不做限定。
其中,字段用于存储某一专题的数据;表用于存储和组织数据,表可以由一系列的行和列组成,每个表都有一个唯一的名称。视图在数据库中是一个虚拟表,视图通过查询定义,并从基础数据表或数据表进行动态生成。与真实表类似,视图也包含一系列的列和行数据,但是,视图并不实际存储数据,只是根据定义进行计算和生成结果。物化视图是包含查询结果的数据库对象,也可以视为远程数据的本地副本,物化视图是静态的,物化视图存储基于远程表的数据,或者用于生成基于数据表求和的汇总表,与视图不同,物化视图是实际存储数据的。
函数是一种程序模块,用于执行特定的数据处理任务,函数可以接受输入参数,并返回一个或多个结果,函数主要用于执行计算、转换数据格式、聚合数据等任务。数据集是数据的一种集合,通常用于数据处理和分析,数据集可以包含多种类型的数据,如表格、图表、文本等。数据集可以根据需要进行分片、过滤和排序等操作。命名空间是一种用于组织和管理计算机程序中对象和类的方式,在数据库中,命名空间可以用于区分不同的表、视图、函数等对象的名称,避免名称冲突。版本是用于标识软件、文档或数据库对象变更的历史记录,版本可以用于跟踪对象的不同状态和变更历史,同时还可以用于实现版本控制和管理。
外键关系是一种在数据库中表示表之间关联关系的机制,外键是一个表中的列,其值对应另一个表中的主键,这种关系可以用于描述不同表之间的关联和依赖。等级关系用于描述一种层次结构或父子关系,一个对象可以有一个或多个子对象,子对象相对于父对象来说具有更低或更下一级的地位。包含关系指的是一种属种关系,即一个更通用的概念或类型可以包含一个或多个更具体的概念或类型。版本关系可以描述不同版本的数据之间的关系。数据项转换关系描述了不同数据项之间的转换或映射规则,例如,在数据处理过程中,可以将一种格式的数据项转换为另一种格式的数据项。映射关系是将一种数据结构或模型转换为另一种数据结构或模型的过程,映射关系能够使数据在不同的数据模型之间进行转换和集成。
区域属性描述的是数据对象所包含的数据区域范围;业务属性是数据在业务层面的定义,描述了数据和企业业务相关联的特性和用途;管理属性是数据在管理层面的定义,描述了数据标准与数据管理相关联的特性,例如,指标编码、数据提出者、数据使用者、数据负责人和颁布日期等;时间属性描述的是数据的时间相关特性,例如,数据的创建时间、修改时间和有效时间范围等。
示例性地,参见图3所示的一种图谱模型示意图,该图谱模型包括字段、表、视图、物化视图、函数、中间数据集、命名空间和版本8种对象类型、1-26所示的26种依赖关系,以及每个对象类型所包含的对象属性。
其中,依赖类型包括:1(命名空间包含函数)、2(命名空间包含中间数据集)、3(命名空间包含字段)、4(命名空间包含表)、5(命名空间包含物化视图)、6(命名空间包含视图)、7(版本包含函数,即每个函数对应一个版本)、8(版本包含中间数据集)、9(版本包含字段)、10(版本包含视图)、11(版本包含物化视图)、12(版本包含表)、13(函数间转换)、14(中间数据集转换加工)、15(中间数据集包含字段)、16(中间数据集和表的转换)、17(物化视图包含字段)、18(物化视图间转换)、19(视图和物化视图的转换)、20(物化视图和表的转换)、21(视图包含字段)、22(视图间转换加工)、23(视图和表的转换)、24(表包含字段)、25(表间主外键关联关系)和26(拉链表间等级关系)。
包含关系可以理解为一种属种关系,也就是概念外延之间的关系。例如,在4(命名空间包含表)这个依赖类型中,命名空间可以包括多种不同类型的外延,如函数、中间数据集、字段、表、物化视图和视图等。因此,在4(命名空间包含表)依赖类型中,命名空间和表之间的关系就可以理解为一种包含关系,即命名空间这一概念的部分外延与表这一更具体的概念的全部外延重合。
转换关系描述了相同或不同对象类型之间的相互转换过程。例如,在18(物化视图间转换)这个依赖类型中,不同的物化视图之间可以相互转换;在16(中间数据集和表的转换)这个依赖类型中,这种转换关系可能涉及到中间数据集和表之间的数据转换、映射或集成等操作;在13(函数间转换)这个依赖类型中,这种转换关系可能涉及到不同函数之间的参数传递、数据共享或逻辑调用等操作;在19(视图和物化视图的转换)这个依赖类型中,转换关系可能涉及到视图和物化视图之间的数据同步、映射或转换等操作。
转换加工描述了对象或数据之间的转换和加工过程。这些转换加工可以涉及不同的对象属性和操作,具体取决于转换加工的类型和目的。例如,在14(中间数据集转换加工)这个依赖类型中,转换加工关系可能描述的是对中间数据集进行的处理、转换或加工,其中,转换或加工可能涉及到数据清洗、筛选、聚合、计算等操作,用于提取有用的信息并转换为其他数据格式或类型。
25(表间主外键关联关系)可以理解为一种描述表之间关联关系的概念。表是通过主键和外键来进行关联的。主键是表中的唯一标识符,用于标识表中的每一条记录,而外键则是另一个表中的主键,用于将两个表进行关联。25(表间主外键关联关系)可以描述不同表之间的关联性和依赖性。通过主外键的关联,可以将不同的表中的数据进行整合,实现数据的一致性和完整性。
26(拉链表间等级关系)可以理解为一种描述表之间层次结构的概念。拉链表用于表示键值对之间的一对多的关系,其中键是唯一的标识符,而值则可以包含多个元素。在拉链表中,每个键可以对应多个值,而每个值则只能对应一个键。例如,在一个销售数据中,可以使用拉链表来表示不同产品的销售情况,其中键可以是产品ID(Identification,身份证明),值则可以包含销售数量、销售额、销售时间等信息。其中,不同的产品ID之间可能存在一定的层次关系,比如某个产品ID下面还有子产品ID。
每个对象类型所包含的对象属性用于描述对象类型所具有的特征,例如名称字符串描述了对象类型的名称;代码字符串描述了对象类型的特定代码或标识符,例如某些系统中用于唯一标识对象类型的编码;数据区域字符串描述了对象类型所包含的数据范围或数据集;备注字符串提供了关于对象类型的附加注释或说明信息;类型字符串描述了对象类型更加细分的子类型,例如日期型字段和文本型字段等,修订字符串描述了对象类型的版本或修订号,图层字符串描述了对象类型的结构。
步骤202,按照图谱模型对多个数据源中的石油数据进行采集,得到多个数据对象,第一数据对象对应第一对象类型,第一数据对象包括第一对象类型对应的至少一个对象属性以及与第二数据对象的依赖关系,第一数据对象为多个数据对象中的任一数据对象,第二数据对象为多个数据对象中除第一数据对象之外的任一数据对象,石油数据是在油田生产、勘探及开发的过程中产生的。
在本申请实施例中以采集的数据为石油数据进行举例说明,即本申请实施例所提供的方法可应用于石油技术领域,以便于在油田开发过程中融合与石油开采过程相关的数据血缘,从而明晰石油数据的源头和流向,分析数据间的影响关系,为石油的生产、开发以及运维提供价值导向。其中,石油数据是在油田生产、勘探及开发的过程中产生的,石油数据可以包括地质数据、工程数据、生产数据等。地质数据包括地震勘探数据、测井数据和储层数据等,地质数据可以用来确定油田的位置、储量和开发方案;工程数据包括钻井数据、完井数据、生产数据等,工程数据可以用来评估油田的工程可行性和生产能力;生产数据包括采油量、注水量、压力等数据,生产数据可以用来监控油田的生产过程和维护油田的正常运转。通过对石油数据的采集、处理和应用,可以更好地理解和评估油田的实际情况,提高油田的开采效率和生产效益。
在一种可能的实现方式中,通过采集适配器按照图谱模型对多个数据源中的石油数据进行采集,采集适配器通过通用接口分别与多个数据源连接,多个数据源包括表格数据库、元数据库、质控规则数据库和SQL(Structured Query Language,结构化查询语言)数据库中的至少两个,采集适配器支持提取多个对象类型的数据对象和数据对象之间的依赖关系。其中,采集适配器在图谱模型中对多个数据源中的石油数据进行采集的一种工具或组件,采集适配器可以设置在计算机中;或者单独作为一个采集设备存在。采集适配器可能包括特定的功能和协议,用于从不同的数据源中获取和整合数据,并将获取和整合的数据转换为适合图谱模型的形式。此外,采集适配器还可以具有一些数据处理和转换功能,以便将来自不同数据源的数据进行清洗、整合和标准化。
示例性地,本申请实施例采用的是通用接口,以便于与不同的数据源进行连接和通信,从而实现对多个数据源中的石油数据进行采集和处理。采用通用接口可以提高采集适配器的灵活性和可扩展性。通用接口可以适应不同的数据源系统和数据格式,所以当新的数据源系统或数据格式出现时,只需要对通用接口进行修改或扩展,就可以支持新的数据源系统或数据格式,从而简化了采集适配器的开发和维护工作。
表格数据库是一种以表格形式组织和存储数据的数据库。每个表格由行和列组成,其中,行代表数据记录,列代表数据字段;元数据库用于描述、定义和管理数据资源,包含有关数据来源、数据结构、数据关系和数据利用等方面的信息;质控规则数据库用于存储和管理质量控制规则,质量控制规则用于数据清洗、数据筛选和数据转换等方面,以确保数据的准确性和一致性;SQL是一种用于管理关系型数据库的标准编程语言,可以用于执行创建、读取、更新和删除等各种数据库操作,以及管理表和数据库对象等。
示例性地,本申请实施例中的数据对象是从多个不同的数据源中采集得到的,不同的数据源中存储数据的方式可能不同,因此,数据对象类型也可能不同。以数据对象为第一数据对象为例进行说明,第一数据对象对应第一数据对象类型,第一数据对象中存在至少一个对象属性,该至少一个对象属性用于描述该第一数据对象。
此外,由于第一数据对象可能是在第二数据对象中采集得到的,例如,在表数据中采集字段数据,因此,采集的第一数据对象还包括与第二数据对象的依赖关系。其中,第二数据对象可以为多个数据对象中除第一数据对象之外的数据对象,第二数据对象与第一数据对象包括依赖关系,即第二数据对象与第一数据对象属于不同的对象类型。第二数据对象的数量为至少一个,例如,第一数据对象的对象类型为字段,第二数据对象的对象类型可以包括表,表与字段之间的依赖关系为表包含字段;或者,第二数据对象的对象类型也可以包括表和版本,表与字段之间的依赖关系为表包含字段,版本与字段之间的依赖关系为版本包含字段。该依赖关系的描述可参考步骤201中的相关描述,此处不再赘述。
步骤203,将多个数据对象按照多个对象类型进行分类,得到多个数据对象集。
在本申请实施例中,在采集得到多个数据对象之后,由于每一数据对象包括对应的对象类型,因此,可以按照对象类型分类该多个数据对象,得到多个数据对象集。其中,一个对象类型对应一个数据对象集,同一数据对象集内包括的数据对象的对象类型相同,不同数据对象集内包括的数据对象的对象类型不同。
在一种可能的实施方式中,将多个数据对象按照多个对象类型进行分类,得到多个数据对象集的方式,包括:对多个数据对象进行融合处理,将融合处理后的多个数据对象按照多个对象类型进行分类,得到多个数据对象集。其中,将采集到的多个数据进行融合处理即为将采集到的重复数据进行合并,仅保留一个相同的数据,以节约数据所占用的空间,此外,融合处理还可能包括异常值处理过程。异常值处理是数据中的异常值进行检测、筛选和处理的过程。异常值是指在数据集中存在的不合理的值,通常表现为与其余观测值明显偏离的数据。异常值可能会影响数据分析的结果,造成偏差,因此需要对其进行处理。异常值的处理包括但不限于如下步骤:异常值检测、异常值筛选和异常值处理等,其中,异常值处理的方法包括删除法、插补法、替换法等。
经过融合处理后的数据基于图谱模型中的对象类型进行分类,例如,将表类型的数据分类到表对象类型中,得到表对象集;或者,将字段类型的数据分类到字段对象类型中,得到字段对象集;或者,将视图类型的数据分类到视图对象类型中,得到视图对象集等。分类能够便于数据的管理和查询,并且能够提高数据维护效率。
在一种可能的实施方式中,根据数据对象对应的对象类型对数据对象进行分类后,得到数据对象集,将该数据对象集进行存储。本申请实施例不对该数据对象集存储的位置进行限定,例如,存储到终端或是与终端连接的服务器中,以便于终端或其它设备在进行数据血缘分析或数据更新工作时,能够准确的查找到存储的位置,或者,在面临数据转移时可将存储该数据对象集的硬件设备进行转移,相比于通过网络进行传输提高了转移效率。
步骤204,根据多个数据对象集分别包括的各个数据对象的至少一个对象属性以及不同数据对象之间的依赖关系,确定多个数据对象之间的血缘关系。
本申请实施例中的血缘关系包括同一数据对象集内的数据对象的相关关系,以及不同数据对象之间的依赖关系。在进行数据血缘提取时,相同数据对象集的数据对象之间的相关关系可以通过数据对象的至少一个对象属性进行确定。
在一种可能的实施方式中,对于多个数据对象中的任一数据对象,获取任一数据对象对应的血缘关系的方式可以包括,在任一数据对象所属的数据对象集中进行遍历,获取至少一个同级数据对象,至少一个同级数据对象的至少一个对象属性与任一数据对象的至少一个对象属性之间的相似度大于相似度阈值;基于任一数据对象和至少一个同级数据对象分别包括的依赖关系,获取任一数据对象对应的血缘关系。进而可以获取到每一数据对象对应的血缘关系,根据每一数据对象对应的血缘关系,即可确定多个数据对象之间的血缘关系。
其中,至少一个同级数据对象的至少一个对象属性与任一数据对象的至少一个对象属性之间的相似度可以为,至少一个同级数据对象的至少一个对象属性的特征向量与任一数据对象的至少一个对象属性的特征向量之间的相似度。同级数据对象指的是在同一数据对象集中的数据对象。相似度阈值可以根据经验设置,或者,根据应用场景灵活调整,例如,相似度阈值为80%。
示例性地,本申请实施例以数据对象的对象类型为字段进行举例说明,例如,该字段数据中包括3个对象属性,其中,第一对象属性在该字段数据中出现3次,第二对象属性在该字段中出现1次,第三对象属性在该字段中出现4次,将该字段数据对应的对象属性进行归一化处理得到对应的特征向量,第一特征向量为3/(3+1+4)=0.375,第二特征向量为1/(3+1+4)=0.125,第三特征向量为4/(3+1+4)=0.5。另一同级数据对象中存在与第一对象属性相同的第四对象属性,且第四对象属性对应的第四特征向量为0.5。
基于两同级数据对象相同对象属性的特征向量按如下公式计算两特征向量的距离:
其中,D表示两特征向量之间的距离,cosθ表示两特征向量之间的夹角,A表示第一特征向量,B表示第四特征向量,A·B表示两特征向量的点积,‖A‖表示第一特征向量的模长,‖B‖表示第四特征向量的模长。将A=0.375,B=0.5带入可得两特征向量之间的距离为0.5771,该距离可表示两特征向量对应的对象属性之间的相似度,该距离越小表示相似度越高,故相似度阈值可用1-D进行表示,以相似度阈值为界进行设定,若相似度阈值为0.4,则该两个对象属性之间的相似度1-D=0.4229>0.4,则认为这两个同级数据对象之间存在无向血缘关系。可通过以下方法确定无向血缘关系的血缘方向性,通过两同级数据对象分别对应的时间属性,确定血缘方向性,时间在前的数据对象指向时间在后的数据对象。本申请实施例不对确定血缘方向性的方式进行限定。
此外,上一对象类型的数据对象之间的血缘关系可由下一对象类型的数据对象之间的血缘关系确定,例如,基于字段对象类型的字段数据对象之间的相似度确定表对象类型的表数据对象之间的相似度。示例性地,第一字段数据对象与第一表数据对象之间存在包含关系,第二字段数据对象与第二表数据对象之间存在包含关系,第一字段数据对象与第二字段数据对象之间的相似度确定为第一表数据对象与第二表数据对象之间的相似度。
基于上述方法能够确定任一数据对象的同对象类型间的相关关系,结合不同数据对象之间的依赖关系,即可确定多个数据对象之间的血缘关系。
在一种可能的实施方式中,确定多个数据对象之间的血缘关系之后,还包括:将多个数据对象之间的血缘关系可视化展示为血缘关系图谱,血缘关系图谱包括数据对象节点、血缘关系线路和转换规则节点。其中,数据对象节点包括数据对象类型以及对象属性,血缘关系线路为两数据对象节点间的血缘关系,转换规则节点用于标记数据流转过程中的处理方式和处理规则,位于血缘关系线路中。通过转换规则节点,可以直观地了解到数据在两个数据对象节点之间流转时的处理方式,该处理方式包括数据清洗、转换、聚合等。
示例性地,可通过终端设备确定至少一个数据对象;基于血缘关系图谱获取至少一个数据对象对应的至少一步血缘关系;将至少一个数据对象以及至少一步血缘关系对应的血缘关系图谱的部分,确定为展现图谱,展现图谱用于至少一个数据对象对应的血缘关系的可视化展现。
示例性地,本申请实施例的可视化展现以表数据类型展现和字段数据类型展现进行举例说明,参见图4所示的一种表数据类型可视化展现示意图,在终端上输入初始地质单元数据表,终端上能够以该示意图的方式展现与初始单元数据表具有血缘关系的其他数据表,包括关联地质单元数据表、意向井数据表、圈闭统计数据表、地层层序数据表、构造要素数据表、管层厚度统计数据表、资源量统计数据表、储层厚度统计数据表、烃源层厚度统计数据表、圈闭石油地址风险评价数据表、断层要素数据表和油气藏基本信息统计数据表,以及初始地质单元数据表与其他数据表之间的血缘关系(图中以箭头形式展现)。
参见图5所示的一种字段数据类型可视化展现示意图,在终端上输入初始字段数据(包括井筒ID和井ID),终端上能够以该示意图的方式展现与初始字段数据具有血缘关系的其他字段数据,包括钻井取心统计字段数据、取心字段数据、钻井取心表、钻井取心统计表、密闭取心筒次数据、钻井取心筒次数据、取心作业数据和钻井取心数据中对应的字段数据(包括井筒ID和井ID),以及初始字段数据与其他字段数据之间的血缘关系(图中以箭头形式展现)。
示例性地,参见图6所示一种数据血缘关系的确定方法场景示意图,其中,通过外部数据连接包含的通用接口,能够采集外部数据源中的数据,例如,通过管理站点API(Application Programming Interface,应用程序编程接口)采集管理站点SQL编辑、脚本上传等数据;通过QDS(Query Data Service,查询数据服务)连接器采集QDS和/或XML(Extensible Markup Language,可拓展标记语言)文件;通过元数据映射Excel连接器采集Excel映射文件;通过元数据连接器采集数据湖中的数据,采集数据的过程可参考步骤202的相关描述。对于采集到的数据进行存储分析服务,例如,将采集到的数据进行图模型存储服务,图模型存储服务过程可参考步骤203的相关描述;或者将采集到的管理站点、SQL编辑、脚本上传等数据和QDS或XML文件进行SQL血缘分析服务,该SQL血缘分析服务过程可参考步骤204的相关描述;或者将图模型存储服务存储的数据存储到图数据库中,该存储过程可参考步骤203的相关描述。基于图模型存储服务对存储的数据进行可视化应用,包括基于血缘图谱API连接终端进行血缘图谱可视化,该可视化过程可参考步骤204的相关描述,此处不再赘述。
综上,本申请实施例提供的方法,通过建立图谱模型对不同的数据源的石油数据进行采集和血缘分析,提供了石油数据的全局性视角,从而能够为石油的生产、开发和运维提供决策基础。
参见图7,本申请实施例提供了一种数据血缘关系的确定装置,该装置包括:
获取模块701,用于获取图谱模型,图谱模型包括多个对象类型以及多个对象类型之间的依赖关系,多个对象类型分别包括至少一个对象属性;
采集模块702,用于按照图谱模型对多个数据源中的石油数据进行采集,得到多个数据对象,第一数据对象对应第一对象类型,第一数据对象包括第一对象类型对应的至少一个对象属性以及与第二数据对象的依赖关系,第一数据对象为多个数据对象中的任一数据对象,第二数据对象为多个数据对象中除第一数据对象之外的任一数据对象,石油数据是在油田生产、勘探及开发的过程中产生的;
分类模块703,用于将多个数据对象按照多个对象类型进行分类,得到多个数据对象集;
确定模块704,用于根据多个数据对象集分别包括的各个数据对象的至少一个对象属性以及不同数据对象之间的依赖关系,确定多个数据对象之间的血缘关系。
在一种可能的实施方式中,多个对象类型包括字段、表、视图、物化视图、函数、数据集、命名空间和版本中的至少两个;依赖关系包括外键关系、等级关系、包含关系、版本关系、数据项转换关系和映射关系中的至少一个;至少一个对象属性包括区域属性、业务属性、管理属性和时间属性中的至少一个。
在一种可能的实施方式中,采集模块702,用于通过采集适配器按照图谱模型对多个数据源中的石油数据进行采集,采集适配器通过通用接口分别与多个数据源连接,多个数据源包括表格数据库、元数据库、质控规则数据库和结构化查询语言SQL数据库中的至少两个,采集适配器支持提取多个对象类型的数据对象和数据对象之间的依赖关系。
在一种可能的实施方式中,分类模块703,用于对多个数据对象进行融合处理,将融合处理后的多个数据对象按照多个对象类型进行分类,得到多个数据对象集。
在一种可能的实施方式中,确定模块704,用于对于多个数据对象中的任一数据对象,在任一数据对象所属的数据对象集中进行遍历,获取至少一个同级数据对象,至少一个同级数据对象的至少一个对象属性与任一数据对象的至少一个对象属性之间的相似度大于相似度阈值;基于任一数据对象和至少一个同级数据对象分别包括的依赖关系,获取任一数据对象对应的血缘关系;根据任一数据对象对应的血缘关系,确定多个数据对象之间的血缘关系。
在一种可能的实施方式中,该装置还包括:展示模块,用于将多个数据对象之间的血缘关系可视化展示为血缘关系图谱,血缘关系图谱包括数据对象节点、血缘关系线路和转换规则节点,一个数据对象节点对应一个数据对象,一个血缘关系线路连接的两个数据对象节点之间存在血缘关系,转换规则节点位于血缘关系线路中用于描述血缘关系线路连接的两个数据对象节点之间的转换规则。
需要说明的是,上述实施例提供的装置在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际功能中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
综上,本申请实施例提供的装置,通过建立的图谱模型对不同的数据源中的石油数据进行采集和血缘分析,提供了石油数据的全局性视角,从而能够为石油的生产、开发和运维提供决策基础。
图8是本申请实施例提供的一种服务器的结构示意图,该服务器可因配置或性能不同而产生比较大的差异,可以包括一个或多个处理器1101和一个或多个存储器1102,其中,该一个或多个存储器1102中存储有至少一条计算机程序,该至少一条计算机程序由该一个或多个处理器1101加载并执行,以使该服务器实现上述各个方法实施例提供的数据血缘关系的确定方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
图9是本申请实施例提供的一种终端的结构示意图。该终端例如可以是:车载终端、智能手机、平板电脑、播放器、笔记本电脑或台式电脑。终端还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端包括有:处理器1501和存储器1502。
处理器1501可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1501可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1501也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1501可以集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1501还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1502可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1502还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1502中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器1501所执行,以使该终端实现本申请中方法实施例提供的数据血缘关系的确定方法。
在一些实施例中,终端还可选包括有:外围设备接口1503和至少一个外围设备。处理器1501、存储器1502和外围设备接口1503之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1503相连。具体地,外围设备包括:射频电路1504、显示屏1505、摄像头组件1506、音频电路1507和电源1508中的至少一种。
外围设备接口1503可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器1501和存储器1502。在一些实施例中,处理器1501、存储器1502和外围设备接口1503被集成在同一芯片或电路板上;在一些其他实施例中,处理器1501、存储器1502和外围设备接口1503中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路1504用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路1504通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1504将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1504包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1504可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路1504还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏1505用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1505是触摸显示屏时,显示屏1505还具有采集在显示屏1505的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1501进行处理。此时,显示屏1505还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1505可以为一个,设置在终端的前面板;在另一些实施例中,显示屏1505可以为至少两个,分别设置在终端的不同表面或呈折叠设计;在另一些实施例中,显示屏1505可以是柔性显示屏,设置在终端的弯曲表面上或折叠面上。甚至,显示屏1505还可以设置成非矩形的不规则图形,也即异形屏。显示屏1505可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件1506用于采集图像或视频。可选地,摄像头组件1506包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件1506还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路1507可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1501进行处理,或者输入至射频电路1504以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1501或射频电路1504的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1507还可以包括耳机插孔。
电源1508用于为终端中的各个组件进行供电。电源1508可以是交流电、直流电、一次性电池或可充电电池。当电源1508包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端还包括有一个或多个传感器1509。该一个或多个传感器1509包括但不限于:加速度传感器1510、陀螺仪传感器1511、压力传感器1512、光学传感器1513以及接近传感器1514。
加速度传感器1510可以检测以终端建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器1510可以用于检测重力加速度在三个坐标轴上的分量。处理器1501可以根据加速度传感器1510采集的重力加速度信号,控制显示屏1505以横向视图或纵向视图进行用户界面的显示。加速度传感器1510还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器1511可以检测终端的机体方向及转动角度,陀螺仪传感器1511可以与加速度传感器1510协同采集用户对终端的3D动作。处理器1501根据陀螺仪传感器1511采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器1512可以设置在终端的侧边框和/或显示屏1505的下层。当压力传感器1512设置在终端的侧边框时,可以检测用户对终端的握持信号,由处理器1501根据压力传感器1512采集的握持信号进行左右手识别或快捷操作。当压力传感器1512设置在显示屏1505的下层时,由处理器1501根据用户对显示屏1505的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
光学传感器1513用于采集环境光强度。在一个实施例中,处理器1501可以根据光学传感器1513采集的环境光强度,控制显示屏1505的显示亮度。具体地,当环境光强度较高时,调高显示屏1505的显示亮度;当环境光强度较低时,调低显示屏1505的显示亮度。在另一个实施例中,处理器1501还可以根据光学传感器1513采集的环境光强度,动态调整摄像头组件1506的拍摄参数。
接近传感器1514,也称距离传感器,通常设置在终端的前面板。接近传感器1514用于采集用户与终端的正面之间的距离。在一个实施例中,当接近传感器1514检测到用户与终端的正面之间的距离逐渐变小时,由处理器1501控制显示屏1505从亮屏状态切换为息屏状态;当接近传感器1514检测到用户与终端的正面之间的距离逐渐变大时,由处理器1501控制显示屏1505从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图9中示出的结构并不构成对终端的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
在示例性实施例中,还提供了一种计算机设备,该计算机设备包括处理器和存储器,该存储器中存储有至少一条计算机程序。该至少一条计算机程序由一个或者一个以上处理器加载并执行,以使该计算机设备实现上述任一种数据血缘关系的确定方法。
在示例性实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条计算机程序,该至少一条计算机程序由计算机设备的处理器加载并执行,以使计算机实现上述任一种数据血缘关系的确定方法。
在一种可能实现方式中,上述计算机可读存储介质可以是只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘(Compact DiscRead-Only Memory,CD-ROM)、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任一种数据血缘关系的确定方法。
需要说明的是,本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,本申请中涉及到的石油数据的相关信息都是在充分授权的情况下获取的。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种数据血缘关系的确定方法,其特征在于,所述方法包括:
获取图谱模型,所述图谱模型包括多个对象类型以及所述多个对象类型之间的依赖关系,所述多个对象类型分别包括至少一个对象属性;
按照所述图谱模型对多个数据源中的石油数据进行采集,得到多个数据对象,第一数据对象对应第一对象类型,所述第一数据对象包括所述第一对象类型对应的至少一个对象属性以及与第二数据对象的依赖关系,所述第一数据对象为所述多个数据对象中的任一数据对象,所述第二数据对象为所述多个数据对象中除所述第一数据对象之外的任一数据对象,所述石油数据是在油田生产、勘探及开发的过程中产生的;
将所述多个数据对象按照所述多个对象类型进行分类,得到多个数据对象集;
根据所述多个数据对象集分别包括的各个数据对象的至少一个对象属性以及不同数据对象之间的依赖关系,确定所述多个数据对象之间的血缘关系。
2.根据权利要求1所述方法,其特征在于,所述多个对象类型包括字段、表、视图、物化视图、函数、数据集、命名空间和版本中的至少两个;所述依赖关系包括外键关系、等级关系、包含关系、版本关系、数据项转换关系和映射关系中的至少一个;所述至少一个对象属性包括区域属性、业务属性、管理属性和时间属性中的至少一个。
3.根据权利要求1所述方法,其特征在于,所述按照所述图谱模型对多个数据源中的石油数据进行采集,包括:
通过采集适配器按照所述图谱模型对多个数据源中的石油数据进行采集,所述采集适配器通过通用接口分别与所述多个数据源连接,所述多个数据源包括表格数据库、元数据库、质控规则数据库和结构化查询语言SQL数据库中的至少两个,所述采集适配器支持提取所述多个对象类型的数据对象和数据对象之间的依赖关系。
4.根据权利要求1所述方法,其特征在于,所述将所述多个数据对象按照所述多个对象类型进行分类,得到多个数据对象集,包括:
对所述多个数据对象进行融合处理,将融合处理后的多个数据对象按照所述多个对象类型进行分类,得到所述多个数据对象集。
5.根据权利要求1所述方法,其特征在于,所述根据所述多个数据对象集分别包括的各个数据对象的至少一个对象属性以及不同数据对象之间的依赖关系,确定所述多个数据对象之间的血缘关系,包括:
对于所述多个数据对象中的任一数据对象,在所述任一数据对象所属的数据对象集中按业务需求进行遍历,获取至少一个同级数据对象,所述至少一个同级数据对象的至少一个对象属性与所述任一数据对象的至少一个对象属性之间的相似度大于相似度阈值;
基于所述任一数据对象和所述至少一个同级数据对象分别包括的依赖关系,获取所述任一数据对象对应的血缘关系;
根据所述任一数据对象对应的血缘关系,确定所述多个数据对象之间的血缘关系。
6.根据权利要求1-5任一所述方法,其特征在于,所述根据所述多个数据对象集分别包括的各个数据对象的至少一个对象属性以及不同数据对象之间的依赖关系,确定所述多个数据对象之间的血缘关系之后,还包括:
将所述多个数据对象之间的血缘关系可视化展示为血缘关系图谱,所述血缘关系图谱包括数据对象节点、血缘关系线路和转换规则节点,一个数据对象节点对应一个数据对象,一个血缘关系线路连接的两个数据对象节点之间存在血缘关系,所述转换规则节点位于所述血缘关系线路中用于描述所述血缘关系线路连接的两个数据对象节点之间的转换规则。
7.一种数据血缘关系的确定装置,其特征在于,所述装置包括:
获取模块,用于获取图谱模型,所述图谱模型包括多个对象类型以及所述多个对象类型之间的依赖关系,所述多个对象类型分别包括至少一个对象属性;
采集模块,用于按照所述图谱模型对多个数据源中的石油数据进行采集,得到多个数据对象,第一数据对象对应第一对象类型,所述第一数据对象包括所述第一对象类型对应的至少一个对象属性以及与第二数据对象的依赖关系,所述第一数据对象为所述多个数据对象中的任一数据对象,所述第二数据对象为所述多个数据对象中除所述第一数据对象之外的任一数据对象,所述石油数据是在油田生产、勘探及开发的过程中产生的;
分类模块,用于将所述多个数据对象按照所述多个对象类型进行分类,得到多个数据对象集;
确定模块,用于根据所述多个数据对象集分别包括的各个数据对象的至少一个对象属性以及不同数据对象集的数据对象之间的依赖关系,确定所述多个数据对象之间的血缘关系。
8.根据权利要求7所述装置,其特征在于,所述多个对象类型包括字段、表、视图、物化视图、函数、数据集、命名空间和版本中的至少两个;所述依赖关系包括外键关系、等级关系、包含关系、版本关系、数据项转换关系和映射关系中的至少一个;所述至少一个对象属性包括区域属性、业务属性、管理属性和时间属性中的至少一个。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行,以使所述计算机设备实现如权利要求1至6任一所述的数据血缘关系的确定方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行,以使计算机实现如权利要求1至6任一所述的数据血缘关系的确定方法。
CN202311211792.2A 2023-09-19 2023-09-19 数据血缘关系的确定方法、装置、设备及可读存储介质 Pending CN117238398A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311211792.2A CN117238398A (zh) 2023-09-19 2023-09-19 数据血缘关系的确定方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311211792.2A CN117238398A (zh) 2023-09-19 2023-09-19 数据血缘关系的确定方法、装置、设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN117238398A true CN117238398A (zh) 2023-12-15

Family

ID=89083956

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311211792.2A Pending CN117238398A (zh) 2023-09-19 2023-09-19 数据血缘关系的确定方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN117238398A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111694858A (zh) * 2020-04-28 2020-09-22 平安科技(深圳)有限公司 数据血缘分析方法、装置、设备及计算机可读存储介质
CN112434071A (zh) * 2020-12-15 2021-03-02 北京三维天地科技股份有限公司 一种基于数据图谱的元数据血缘关系与影响分析平台
CN112711591A (zh) * 2020-12-31 2021-04-27 天云融创数据科技(北京)有限公司 基于知识图谱的字段级的数据血缘确定方法及装置
CN114491081A (zh) * 2022-03-10 2022-05-13 国网吉林省电力有限公司信息通信公司 基于数据血缘关系图谱的电力数据溯源方法及系统
CN114510611A (zh) * 2022-04-20 2022-05-17 中信证券股份有限公司 一种构建元数据血缘图谱的方法、装置及相关设备
CN114880483A (zh) * 2022-05-05 2022-08-09 云南电网有限责任公司信息中心 一种元数据知识图谱构建方法、存储介质及系统
CN114925045A (zh) * 2022-04-11 2022-08-19 杭州半云科技有限公司 大数据集成和管理的PaaS平台
CN116226159A (zh) * 2022-11-18 2023-06-06 中广核风电有限公司 元数据血缘关系分析方法、系统、设备及存储介质
US20230260608A1 (en) * 2022-02-16 2023-08-17 Ancestry.Com Dna, Llc Relationship prediction

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111694858A (zh) * 2020-04-28 2020-09-22 平安科技(深圳)有限公司 数据血缘分析方法、装置、设备及计算机可读存储介质
CN112434071A (zh) * 2020-12-15 2021-03-02 北京三维天地科技股份有限公司 一种基于数据图谱的元数据血缘关系与影响分析平台
CN112711591A (zh) * 2020-12-31 2021-04-27 天云融创数据科技(北京)有限公司 基于知识图谱的字段级的数据血缘确定方法及装置
US20230260608A1 (en) * 2022-02-16 2023-08-17 Ancestry.Com Dna, Llc Relationship prediction
CN114491081A (zh) * 2022-03-10 2022-05-13 国网吉林省电力有限公司信息通信公司 基于数据血缘关系图谱的电力数据溯源方法及系统
CN114925045A (zh) * 2022-04-11 2022-08-19 杭州半云科技有限公司 大数据集成和管理的PaaS平台
CN114510611A (zh) * 2022-04-20 2022-05-17 中信证券股份有限公司 一种构建元数据血缘图谱的方法、装置及相关设备
CN114880483A (zh) * 2022-05-05 2022-08-09 云南电网有限责任公司信息中心 一种元数据知识图谱构建方法、存储介质及系统
CN116226159A (zh) * 2022-11-18 2023-06-06 中广核风电有限公司 元数据血缘关系分析方法、系统、设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LUCIA PACI 等: "Structural learning of contemporaneous dependencies in graphical VAR models", 《COMPUTATIONAL STATISTICS & DATA ANALYSIS》, 30 April 2020 (2020-04-30), pages 1 - 12 *
周华健: "面向大规模知识图谱的分布式查询系统", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》, 15 January 2022 (2022-01-15), pages 138 - 3166 *
王哲 等: "面向监管报送数据治理的元数据血缘图谱研究", 《中国金融电脑》, 7 January 2023 (2023-01-07), pages 1 - 5 *

Similar Documents

Publication Publication Date Title
Bikakis et al. Exploration and visualization in the web of big linked data: A survey of the state of the art
CN110471858B (zh) 应用程序测试方法、装置及存储介质
US20190196670A1 (en) Navigating content hierarchies and persisting content item collections
US20170344631A1 (en) Task completion using world knowledge
CN106255965A (zh) 用于电子表格的自动见解
CN106203761A (zh) 提取并显现来自数据源的用户工作属性
CN112163428A (zh) 语义标签的获取方法、装置、节点设备及存储介质
EP2384490A1 (en) Method, apparatus and computer program product for providing analysis and visualization of content items association
US20140380191A1 (en) Method and apparatus for design review collaboration across multiple platforms
US11100141B2 (en) Monitoring organization-wide state and classification of data stored in disparate data sources of an organization
CN114244595B (zh) 权限信息的获取方法、装置、计算机设备及存储介质
CN103530357A (zh) 视频检索方法及系统
CN105786897B (zh) 用于提供基于情境感知的用户关注信息的情境感知本体构建方法
CN112269853A (zh) 检索处理方法、装置及存储介质
US20160034544A1 (en) System and method for multi-dimensional data representation of objects
WO2023124729A1 (zh) 查询数据的方法、装置、设备及存储介质
CN111061803A (zh) 任务处理方法、装置、设备及存储介质
Khanwalkar et al. Exploration of large image corpuses in virtual reality
CN109408659A (zh) 基于小世界网络的图像检索方法、装置、计算设备及介质
CN117238398A (zh) 数据血缘关系的确定方法、装置、设备及可读存储介质
CN115935816A (zh) 钻井参数确定方法、装置、设备及存储介质
CN113222771B (zh) 一种基于知识图谱确定目标群体的方法、装置及电子设备
Tran Object Detection Streaming and Data Management on Web Browser
Ali et al. An insight of smartphone-based lifelogging research: issues, challenges, and research opportunities: insight of smartphone-based lifelogging research
US20070055928A1 (en) User workflow lists to organize multimedia files

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination