CN116226159A - 元数据血缘关系分析方法、系统、设备及存储介质 - Google Patents

元数据血缘关系分析方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN116226159A
CN116226159A CN202211446450.4A CN202211446450A CN116226159A CN 116226159 A CN116226159 A CN 116226159A CN 202211446450 A CN202211446450 A CN 202211446450A CN 116226159 A CN116226159 A CN 116226159A
Authority
CN
China
Prior art keywords
metadata
model
data
blood
real
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211446450.4A
Other languages
English (en)
Inventor
屈国际
李震领
鄢冰
成和祥
许浒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CGN Wind Energy Ltd
Original Assignee
CGN Wind Energy Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CGN Wind Energy Ltd filed Critical CGN Wind Energy Ltd
Priority to CN202211446450.4A priority Critical patent/CN116226159A/zh
Publication of CN116226159A publication Critical patent/CN116226159A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • G06F11/1451Management of the data involved in backup or backup restore by selection of backup contents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/219Managing data history or versioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2358Change logging, detection, and notification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Automatic Analysis And Handling Materials Therefor (AREA)

Abstract

本申请公开了一种元数据血缘关系分析方法、系统、设备及存储介质,其中,该元数据血缘关系分析方法包括:采用任一类型的数据源对应的元数据采集模板对类型的数据源进行数据采集和封装,形成类型的数据源对应的元数据模型;对元数据模型进行增量采集,获取增量采集结果;若增量采集结果为存在模型更新数据,则采用模型更新数据更新元数据模型,用于保持元数据模型为实时元数据模型;采用血缘分析组件对实时元数据模型进行链路分析,用以获取实时元数据模型中的每一元数据的血缘关系。该方法可根据实时元数据模型解析出元数据的血缘关系,便于实现数据溯源和发掘数据推送方向,提高元数据血缘关系分析的效率。

Description

元数据血缘关系分析方法、系统、设备及存储介质
技术领域
本发明涉及大数据管理技术领域,尤其涉及一种元数据血缘关系分析方法、系统、设备及存储介质。
背景技术
在大数据时代,由于分散的数据源、巨大的数据量和非结构化的数据类型使组织的数据管理复杂性进一步复杂化,增加了数据治理的难度。同一行业的不同数据源,或者不同行业的数据存在规模巨大、类型多样且复杂多变的特性,当前主要是通过元数据管理实现数据治理的,以协助各行各业从存量的元数据中挖掘出数据价值。
在数据治理的过程中,元数据的血缘影响关系有着不可忽视的作用,它表示了数据的来源和数据在系统中的流转关系,不仅能清晰地表示数据的加工过程,也能更好地定位数据问题。而元数据血缘链路一般是由数据维护人员手动维护的,需要耗费大量的人力和时间。
发明内容
本发明实施例提供一种元数据血缘关系分析方法、系统、设备及存储介质,以解决元数据血缘链路一般是由数据维护人员手动维护,需要耗费大量的人力和时间的问题。
一种元数据血缘关系分析方法,包括:
采用任一类型的数据源对应的元数据采集模板对类型的数据源进行数据采集和封装,形成类型的数据源对应的元数据模型;
对元数据模型进行增量采集,获取增量采集结果;
若增量采集结果为存在模型更新数据,则备份元数据模型,并采用模型更新数据更新元数据模型,用于保持元数据模型为实时元数据模型;
采用血缘分析组件对实时元数据模型进行链路分析,用以获取实时元数据模型中的每一元数据的血缘关系。
一种元数据血缘关系分析系统,包括:
封装元数据模块,用于采用任一类型的数据源对应的元数据采集模板对类型的数据源进行数据采集和封装,形成类型的数据源对应的元数据模型;
采集结果获取模块,用于对元数据模型进行增量采集,获取增量采集结果;
元数据模型更新模块,用于若增量采集结果为存在模型更新数据,则备份元数据模型,并采用模型更新数据更新元数据模型,用于保持元数据模型为实时元数据模型;
血缘关系获取模块,用于采用血缘分析组件对实时元数据模型进行链路分析,用以获取实时元数据模型中的每一元数据的血缘关系。
在一些实施例中,元数据血缘关系分析系统,还用于采用血缘分析组件对元数据进行血缘分析,用于分析元数据的来源;和/或对元数据进行影响分析,用于分析元数据的去向。
在一些实施例中,元数据血缘关系分析系统,还用于根据元数据的血缘关系,获取数据节点流动链路;基于数据节点流动链路,生成表示元数据对应的图数据库。
在一些实施例中,元数据血缘关系分析系统,还用于采集多种类型的数据源,基于每一类型的目标数据源进行元数据模型配置,生成目标数据源对应的元数据采集模板;下发元数据采集任务,以使通过每一目标数据源对应的元数据采集模板采集并封装类型的目标数据源。
在一些实施例中,元数据血缘关系分析系统,还用于对元数据模型中的入库元数据进行序列化,形成入库序列化元数据;持续采集入库元数据对应的实时元数据,并对实时元数据进行序列化形成实时序列化元数据;比对入库序列化元数据和实时序列化元数据,获取对比结果;若比对结果为一致,则重复执行持续采集入库元数据对应的实时元数据,并对实时元数据进行序列化形成实时序列化元数据的步骤;若比对结果为存在区别,则增量采集结果为存在模型更新数据,且模型更新数据为实时元数据。
在一些实施例中,元数据血缘关系分析系统,还用于数据维护、版本管理、变更管理和元数据核验。
在一些实施例中,元数据血缘关系分析系统,还用于获取客户端发送的携带文件格式的数据维护请求;基于文件格式,匹配对应的维护文件模板,将维护文件模板返回客户端;响应于客户端基于维护文件模板返回的维护文件包,对维护文件包进行解析,将解析结果与对应的待维护元数据进行匹配,用以维护待维护元数据。
一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述元数据血缘关系分析方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述元数据血缘关系分析方法。
上述元数据血缘关系分析方法、系统、设备及存储介质,通过采用元数据采集模板对类型的数据源进行数据采集和封装,形成类型的数据源对应的元数据模型;当增量采集结果为存在模型更新数据时,采用模型更新数据更新元数据模型,保持元数据模型为实时元数据模型;采用血缘分析组件对实时元数据模型进行链路分析,可获取实时元数据模型中的每一元数据的血缘关系。该方法可保持元数据模型的实时性,并根据已有实时元数据模型的基础上还可解析出元数据的血缘关系,便于实现数据溯源和发掘数据推送方向,增强元数据的数据存储意义,为大数据大挖掘提供数据支持,同时,提高元数据血缘关系分析的效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1绘示本发明一实施例中元数据血缘关系分析方法的应用环境示意图;
图2绘示本发明第一实施例中元数据血缘关系分析方法的第一流程图;
图3绘示本发明第一实施例中元数据血缘关系分析方法中一由图数据库构成的示例图;
图4绘示本发明第二实施例中元数据血缘关系分析方法的第二流程图;
图5绘示本发明第三实施例中元数据血缘关系分析方法的第三流程图;
图6绘示本发明第三实施例中元数据血缘关系分析方法中对于元数据管理的流程示例图;
图7绘示本发明一实施例中元数据血缘关系分析系统的第一示意图;
图8绘示本发明一实施例中元数据血缘关系分析系统的第二示意图;
图9绘示本发明一实施例中电子设备的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的元数据血缘关系分析方法,可应用在如图1的应用环境中,该元数据血缘关系分析方法应用在元数据血缘关系分析系统中,该元数据血缘关系分析系统包括多种数据源、服务器和客户端,其中,服务器通过网络与数据源和客户端分别进行通信。客户端又称为用户端,是指与服务器相对应,为客户端提供本地服务的程序。进一步地,客户端为计算机端程序、智能设备的APP程序或嵌入其他APP的第三方小程序。该客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备等电子设备上。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种元数据血缘关系分析方法,以该方法应用在图1中的服务器为例进行说明,具体包括如下步骤:
S110.采用任一类型的数据源对应的元数据采集模板对类型的数据源进行数据采集和封装,形成类型的数据源对应的元数据模型。
具体地,本实施例提供的具体实施方式中,无论数据是在传统模式下的RDBMS数据库,还是逐渐兴起的Hadoop、Nosql和云原生等进行管理,都会在元数据模块中被抽象封装为元数据模型。在其他的业务模块中,都是依托于元数据模型进行后续步骤的操作的。
进一步地,元数据模型中有内置数据,对应不同数据库的库表种类,用户可以选用内置的模型也可以新建自定义模型。
S120.对元数据模型进行增量采集,获取增量采集结果。
具体地,元数据采集过程支持增量采集,即当第一次全量采集之后,后续的采集只会采集发生变更的元数据。
S130.若增量采集结果为存在模型更新数据,则备份元数据模型,并采用模型更新数据更新元数据模型,用于保持元数据模型为实时元数据模型。
具体地,当检测到某个表元数据发生变化后,本实施例提供的系统会对当前库的元数据版本进行备份存储,用以在元数据版本管理详情中可以看到版本的变化详情。
S140.采用血缘分析组件对实时元数据模型进行链路分析,用以获取实时元数据模型中的每一元数据的血缘关系。
具体地,本实施例可采用血缘分析组件对实时元数据模型进行链路分析,其中,血缘分析组件可包括Kettle或sql解析语句包等。
本实施例可通过支持Kettle解析导入血缘关系,Kettle是一款开源的ETL工具,进行数据的ETL(extract-transform-load,抽取-转换-加载)。本实施例可将实时元数据模型对应的Kettle文件进行解析,将其中的脚本内容解析生成血缘关系存入业务数据库中。
本实施例还支持通过sql解析语句包中的sql语句解析导入血缘关系,根据sql语句,分析出数据的上下游,将关系存入业务数据库中。
本实施例提供的元数据血缘关系分析方法,通过采用元数据采集模板对类型的数据源进行数据采集和封装,形成类型的数据源对应的元数据模型;当增量采集结果为存在模型更新数据时,采用模型更新数据更新元数据模型,保持元数据模型为实时元数据模型;采用血缘分析组件对实时元数据模型进行链路分析,可获取实时元数据模型中的每一元数据的血缘关系。该方法可保持元数据模型的实时性,并根据已有实时元数据模型的基础上还可解析出元数据的血缘关系,便于实现数据溯源和发掘数据推送方向,增强元数据的数据存储意义,为大数据大挖掘提供数据支持,同时,提高元数据血缘关系分析的效率。
在一实施例中,在步骤S140中,即在采用血缘分析组件对实时元数据模型进行链路分析,具体包括如下步骤:
S141.采用血缘分析组件对元数据进行血缘分析,用于分析元数据的来源。和/或,
S142.对元数据进行影响分析,用于分析元数据的去向。
具体地,本实施例提供的系统可对元数据进行影响分析,影响分析用于分析源数据的去向;对元数据进行血缘分析,血缘分析用于分析元数据的来源;对元数据进行全链分析,也即同时进行影像分析和血缘分析,用以全链分析元数据的来源和去向。
对元数据进行影响分析的作用在于, 数据集影响分析提供有助于进行评估的信息,比如,对数据集进行更改或考虑进行更改时,能够评估这些更改对依赖于该数据集的下游去向的影响。数据集影响分析可显示可能受到更改影响的工作区,方便实施进一步调研。
数据血缘是指数据的全生命周期中,数据从产生、处理、加工、融合、流转到最终消亡,数据之间自然形成一种关系。其记录了数据产生的链路关系,这些关系与人类的血缘关系比较相似,所以被称为数据血缘关系。
比如,数据A经过ETL处理生成了数据B,则数据A与B有着血缘关系,且数据A是数据B的上游数据,同时数据B是数据A的下游数据。按血缘对象来分,可分为系统级血缘、表级血缘和字段(列)级血缘。无论结构化数据还是非结构化数据,都存在数据血缘关系。
而数据血缘分析是元数据管理的重要应用之一,其梳理系统、表、视图、存储过程、ETL、程序代码和字段等之间的关系。
在一实施例中,在步骤S140之后,即在获取实时元数据模型中的每一元数据的血缘关系之后,还具体包括如下步骤:
S1401.根据元数据的血缘关系,获取数据节点流动链路。
S1402.基于数据节点流动链路,生成表示元数据对应的图数据库。
具体地,如图3所示,本实施例所涉及的图数据库,是以图论为基础存储节点与节点间关系的数据库,较传统关系型数据库,关系在图数据库中是较为重要的元素,基于图数据库对元数据血缘关系进行管理能够直观地一目了然地看出元数据的节点流动链路关系。
在一实施例中,如图4所示,在步骤S110之前,即在获取多种数据源之前,还具体包括如下步骤:
S1101.采集多种类型的数据源,基于每一类型的目标数据源进行元数据模型配置,生成目标数据源对应的元数据采集模板。
S1102.下发元数据采集任务,以使通过每一目标数据源对应的元数据采集模板采集并封装类型的目标数据源。
具体地,本实施例可根据不同的数据源,比如文件、数据库和kafka数据流等格式的数据,预先设定不同的数据录入格式和数据录入内容,从而形成该类格式数据对应的用于封装元数据的元数据采集模板。并基于该元数据采集模板可对应设置信息解析工具,用以将通过元数据采集模板采集到的元数据进行解析后进行保存。
在一实施例中,如图5所示,在步骤S120中,即对元数据模型进行增量采集,获取增量采集结果,具体包括如下步骤:
S121.对元数据模型中的入库元数据进行序列化,形成入库序列化元数据。
S122.持续采集入库元数据对应的实时元数据,并对实时元数据进行序列化形成实时序列化元数据。
S123.比对入库序列化元数据和实时序列化元数据,获取对比结果。
S124.若比对结果为一致,则重复执行持续采集入库元数据对应的实时元数据,并对实时元数据进行序列化形成实时序列化元数据的步骤。
S125.若比对结果为存在区别,则增量采集结果为存在模型更新数据,且模型更新数据为实时元数据。
具体地,在对元数据进行采集时,会对当前元数据信息序列化后与之前保存的表的元数据信息序列化后进行比对,如果发现发生变化才会对表元数据进行重新存储。
数据序列化即为将内存对象转化为字节流的过程,其直接决定了数据解析效率以及模式演化能力(数据格式发生变化时,比如增加或删除字段,是否仍能够保持兼容性)。
在一实施例中,在步骤S130之后,即在保持元数据模型为实时元数据模型之后,还具体包括如下步骤:
S1301.对实时元数据模型进行管理,包括:数据维护、版本管理、变更管理和元数据核验。
具体地,数据基本信息维护包括对存储于数据库的元数据进行修改和查找操作。
版本管理,所述版本管理包括对存储于数据库的元数据进行版本管理,包括将基于不同时间采集的元数据划分为不同版本、将修改后的元数据作为新版本的元数据;
变更管理,所述变更管理用于对不同版本的元数据进行对比分析;
元数据核验,用于对元数据进行核验,包括进行一致性核验、元数据标准核验以及属性填充率核验。
在一实施例中,如图5所示,在步骤S1301,即对实时元数据模型进行数据维护,具体包括如下步骤:
S3011.获取客户端发送的携带文件格式的数据维护请求。
S3012.基于文件格式,匹配对应的维护文件模板,将维护文件模板返回客户端。
S3013.响应于客户端基于维护文件模板返回的维护文件包,对维护文件包进行解析,将解析结果与对应的待维护元数据进行匹配,用以维护待维护元数据。
具体地,本实施例支持对doc、xls和pdm等文件格式对元数据进行输入和补全,提供模板下载,以模板格式进行填写后进行文件上传解析。技术上根据不同类型的文件,利用不同的解析包,解析文件内容里的各个元素,将得到的内容和元数据对象进行匹配和进行完善和补全。
本实施例提供的元数据血缘关系分析方法,通过采用元数据采集模板对类型的数据源进行数据采集和封装,形成类型的数据源对应的元数据模型;当增量采集结果为存在模型更新数据时,采用模型更新数据更新元数据模型,保持元数据模型为实时元数据模型;采用血缘分析组件对实时元数据模型进行链路分析,可获取实时元数据模型中的每一元数据的血缘关系。该方法可保持元数据模型的实时性,并根据已有实时元数据模型的基础上还可解析出元数据的血缘关系,便于实现数据溯源和发掘数据推送方向,增强元数据的数据存储意义,为大数据大挖掘提供数据支持,同时,提高元数据血缘关系分析的效率。
在一具体实施例中,如图6所示,元数据管理主要的流程可包括如下步骤:
S10: 添加数据源,校验数据源与系统之间的连通性,保证元数据采集可执行。
S20: 配置数据元模型,指定采集模板。
S30: 配置采集任务,支持手动、调度执行,支持增量采集。
S40: 元数据维护管理以及血缘影响分析。
与该元数据管理流程对应的是元数据管理系统,主要包括:
数据源管理模块,用于配置不同类型的数据源,数据源的类型包括数据库、文件和kafka消息流等;
元数据模型模块,用于对不同种类的数据源进行元数据模型配置,制定成采集模板;
采集任务配置模块,用于配置元数据采集任务,并执行元数据采集任务;
元数据维护模块,用于对元数据进行版本管理、完善、检索和分类;
元数据分析模块,用于对元数据进行血缘的分析,基于图数据库对血缘关系进行存储和维护。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种元数据血缘关系分析系统,该元数据血缘关系分析系统与上述实施例中元数据血缘关系分析方法一一对应。如图7所示,该元数据血缘关系分析系统包括封装元数据模块110、采集结果获取模块120、元数据模型更新模块130和血缘关系获取模块140。各功能模块详细说明如下:
封装元数据模块110,用于采用任一类型的数据源对应的元数据采集模板对类型的数据源进行数据采集和封装,形成类型的数据源对应的元数据模型。
采集结果获取模块120,用于对元数据模型进行增量采集,获取增量采集结果。
元数据模型更新模块130,用于若增量采集结果为存在模型更新数据,则备份元数据模型,并采用模型更新数据更新元数据模型,用于保持元数据模型为实时元数据模型。
血缘关系获取模块140,用于采用血缘分析组件对实时元数据模型进行链路分析,用以获取实时元数据模型中的每一元数据的血缘关系。
进一步地,血缘关系获取模块140,如图8所示,包括:
元数据来源分析子模块141,用于采用血缘分析组件对元数据进行血缘分析,用于分析元数据的来源。和/或
元数据去向分析子模块142,用于对元数据进行影响分析,用于分析元数据的去向。
进一步地,如图8所示,该元数据血缘关系分析系统还包括:
流动链路获取模块1401,用于根据元数据的血缘关系,获取数据节点流动链路。
图数据库生成模块1402,用于基于数据节点流动链路,生成表示元数据对应的图数据库。
进一步地,如图8所示,该元数据血缘关系分析系统还包括:
采集模板生成模块1101,用于采集多种类型的数据源,基于每一类型的目标数据源进行元数据模型配置,生成目标数据源对应的元数据采集模板。
采集任务下发模块1102,用于下发元数据采集任务,以使通过每一目标数据源对应的元数据采集模板采集并封装类型的目标数据源。
进一步地,如图8所示,采集结果获取模块120包括:
入库元数据形成子模块121,用于对元数据模型中的入库元数据进行序列化,形成入库序列化元数据。
实时元数据形成子模块122,用于持续采集入库元数据对应的实时元数据,并对实时元数据进行序列化形成实时序列化元数据。
对比结果获取子模块123,用于比对入库序列化元数据和实时序列化元数据,获取对比结果。
结果一致子模块124,用于若比对结果为一致,则重复执行持续采集入库元数据对应的实时元数据,并对实时元数据进行序列化形成实时序列化元数据的步骤。
结果存在区别子模块125,用于若比对结果为存在区别,则增量采集结果为存在模型更新数据,且模型更新数据为实时元数据。
进一步地,如图8所示,该元数据血缘关系分析系统还包括:
元数据模型管理模块1301,用于对实时元数据模型进行管理,包括:数据维护、版本管理、变更管理和元数据核验。
进一步地,元数据模型管理模块1301包括:
维护请求获取子模块3011,用于获取客户端发送的携带文件格式的数据维护请求。
维护模板返回子模块3012,用于基于文件格式,匹配对应的维护文件模板,将维护文件模板返回客户端。
元数据维护子模块3013,用于响应于客户端基于维护文件模板返回的维护文件包,对维护文件包进行解析,将解析结果与对应的待维护元数据进行匹配,用以维护待维护元数据。
关于元数据血缘关系分析系统的具体限定可以参见上文中对于元数据血缘关系分析方法的限定,在此不再赘述。上述元数据血缘关系分析系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于电子设备中的处理器中,也可以以软件形式存储于电子设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一实施例中,提供了一种电子设备,该电子设备可以是服务器,其内部结构图可以如图9所示。该电子设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的数据库用于元数据血缘关系分析方法相关的数据。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种元数据血缘关系分析方法。
在一实施例中,提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例元数据血缘关系分析方法,例如图2所示S10至步骤S40。或者,处理器执行计算机程序时实现上述实施例中元数据血缘关系分析系统的各模块/单元的功能,例如图7所示模块10至模块40的功能。为避免重复,此处不再赘述。
在一实施例中,提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例元数据血缘关系分析方法,例如图2所示S10至步骤S40。或者,该计算机程序被处理器执行时实现上述系统实施例中元数据血缘关系分析系统中各模块/单元的功能,例如图7所示模块10至模块40的功能。为避免重复,此处不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述系统的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种元数据血缘关系分析方法,其特征在于,包括:
采用任一类型的数据源对应的元数据采集模板对所述类型的数据源进行数据采集和封装,形成所述类型的数据源对应的元数据模型;
对所述元数据模型进行增量采集,获取增量采集结果;
若所述增量采集结果为存在模型更新数据,则备份所述元数据模型,并采用所述模型更新数据更新所述元数据模型,用于保持所述元数据模型为实时元数据模型;
采用血缘分析组件对所述实时元数据模型进行链路分析,用以获取所述实时元数据模型中的每一元数据的血缘关系。
2.根据权利要求1所述的元数据血缘关系分析方法,其特征在于,所述采用血缘分析组件对所述实时元数据模型进行链路分析,包括:
采用血缘分析组件对所述元数据进行血缘分析,用于分析所述元数据的来源;和/或,
对所述元数据进行影响分析,用于分析所述元数据的去向。
3.根据权利要求1所述的元数据血缘关系分析方法,其特征在于,在所述获取所述实时元数据模型中的每一元数据的血缘关系之后,还包括:
根据所述元数据的血缘关系,获取数据节点流动链路;
基于所述数据节点流动链路,生成表示所述元数据对应的图数据库。
4.根据权利要求1所述的元数据血缘关系分析方法,其特征在于,在所述获取多种数据源之前,还包括:
采集多种类型的数据源,基于每一类型的目标数据源进行元数据模型配置,生成所述目标数据源对应的所述元数据采集模板;
下发元数据采集任务,以使通过每一所述目标数据源对应的所述元数据采集模板采集并封装所述类型的目标数据源。
5.根据权利要求1所述的元数据血缘关系分析方法,其特征在于,所述对所述元数据模型进行增量采集,获取增量采集结果,包括:
对所述元数据模型中的入库元数据进行序列化,形成入库序列化元数据;
持续采集所述入库元数据对应的实时元数据,并对所述实时元数据进行序列化形成实时序列化元数据;
比对所述入库序列化元数据和所述实时序列化元数据,获取对比结果;
若比对结果为一致,则重复执行所述持续采集所述入库元数据对应的实时元数据,并对所述实时元数据进行序列化形成实时序列化元数据的步骤;
若比对结果为存在区别,则所述增量采集结果为存在模型更新数据,且所述模型更新数据为所述实时元数据。
6.根据权利要求1所述的元数据血缘关系分析方法,其特征在于,在所述保持所述元数据模型为实时元数据模型之后,还包括:
对所述实时元数据模型进行管理,包括:数据维护、版本管理、变更管理和元数据核验。
7.根据权利要求6所述的元数据血缘关系分析方法,其特征在于,对所述实时元数据模型进行数据维护,包括:
获取客户端发送的携带文件格式的数据维护请求;
基于所述文件格式,匹配对应的维护文件模板,将所述维护文件模板返回所述客户端;
响应于所述客户端基于所述维护文件模板返回的维护文件包,对所述维护文件包进行解析,将解析结果与对应的待维护元数据进行匹配,用以维护所述待维护元数据。
8.一种元数据血缘关系分析系统,其特征在于,包括:
封装元数据模块,用于采用任一类型的数据源对应的元数据采集模板对所述类型的数据源进行数据采集和封装,形成所述类型的数据源对应的元数据模型;
采集结果获取模块,用于对所述元数据模型进行增量采集,获取增量采集结果;
元数据模型更新模块,用于若所述增量采集结果为存在模型更新数据,则备份所述元数据模型,并采用所述模型更新数据更新所述元数据模型,用于保持所述元数据模型为实时元数据模型;
血缘关系获取模块,用于采用血缘分析组件对所述实时元数据模型进行链路分析,用以获取所述实时元数据模型中的每一元数据的血缘关系。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述元数据血缘关系分析方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述元数据血缘关系分析方法。
CN202211446450.4A 2022-11-18 2022-11-18 元数据血缘关系分析方法、系统、设备及存储介质 Pending CN116226159A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211446450.4A CN116226159A (zh) 2022-11-18 2022-11-18 元数据血缘关系分析方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211446450.4A CN116226159A (zh) 2022-11-18 2022-11-18 元数据血缘关系分析方法、系统、设备及存储介质

Publications (1)

Publication Number Publication Date
CN116226159A true CN116226159A (zh) 2023-06-06

Family

ID=86575605

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211446450.4A Pending CN116226159A (zh) 2022-11-18 2022-11-18 元数据血缘关系分析方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116226159A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116541887B (zh) * 2023-07-07 2023-09-15 云启智慧科技有限公司 一种大数据平台数据安全保护方法
CN117238398A (zh) * 2023-09-19 2023-12-15 昆仑数智科技有限责任公司 数据血缘关系的确定方法、装置、设备及可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116541887B (zh) * 2023-07-07 2023-09-15 云启智慧科技有限公司 一种大数据平台数据安全保护方法
CN117238398A (zh) * 2023-09-19 2023-12-15 昆仑数智科技有限责任公司 数据血缘关系的确定方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
US10191926B2 (en) Universal data pipeline
Bacon et al. Spanner: Becoming a SQL system
CN108874926B (zh) 海量数据查询方法、装置、计算机设备和存储介质
Lourenço et al. Choosing the right NoSQL database for the job: a quality attribute evaluation
US9613068B2 (en) Scalable analysis platform for semi-structured data
US11615076B2 (en) Monolith database to distributed database transformation
CN116226159A (zh) 元数据血缘关系分析方法、系统、设备及存储介质
Guo Software tools to facilitate research programming
CN106990970B (zh) 基于mvc动态页面生成方法及系统
CN110019116B (zh) 数据追溯方法、装置、数据处理设备及计算机存储介质
US9811573B1 (en) Lineage information management in data analytics
US20180150530A1 (en) Method, Apparatus, Computing Device and Storage Medium for Analyzing and Processing Data
Sinthong et al. Aframe: Extending dataframes for large-scale modern data analysis
Ahsan et al. Temporal Databases: Information Systems
Lee et al. Implementation and performance of distributed text processing system using hadoop for e-discovery cloud service
Cui et al. Monitoring and control of unstructured manufacturing big data
CN115295109A (zh) 医疗数据溯源方法及装置、存储介质、终端设备
CN114780525A (zh) 一种面向教育领域全生命周期的数据治理平台
Püroja LDBC Social Network Benchmark Interactive v2
Domingues et al. Using statistics, visualization and data mining for monitoring the quality of meta-data in web portals
Rauber et al. Repeatability and Re-usability in Scientific Processes: Process Context, Data Identification and Verification.
KR20110099319A (ko) 자동적인 데이터 저장소 아키텍처 검출
Prakash et al. A Comprehensive Study on Structural and Non-Structural Databases and Its Impact on Hybrid Databases
CN115840786B (zh) 一种数据湖数据同步方法及装置
CN110795451B (zh) Sql指纹还原方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination