CN114637734A - 数据血缘管理方法、装置、电子设备和存储介质 - Google Patents

数据血缘管理方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN114637734A
CN114637734A CN202210179808.5A CN202210179808A CN114637734A CN 114637734 A CN114637734 A CN 114637734A CN 202210179808 A CN202210179808 A CN 202210179808A CN 114637734 A CN114637734 A CN 114637734A
Authority
CN
China
Prior art keywords
data
new
release
access path
information table
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210179808.5A
Other languages
English (en)
Inventor
林鹏程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dt Dream Technology Co Ltd
Original Assignee
Hangzhou Dt Dream Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dt Dream Technology Co Ltd filed Critical Hangzhou Dt Dream Technology Co Ltd
Priority to CN202210179808.5A priority Critical patent/CN114637734A/zh
Publication of CN114637734A publication Critical patent/CN114637734A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/219Managing data history or versioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2358Change logging, detection, and notification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2379Updates performed during online database operations; commit processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提出一种数据血缘管理方法、装置、电子设备和存储介质,其中,数据血缘管理方法包括:获取发布表;获取本地的计算表;根据融合计算策略,将发布表与计算表进行融合计算,以生成新发布表,其中,新发布表包括版本信息;根据新发布表向面向数据的体系结构DOA注册中心注册,以从DOA注册中心获取新访问路径;根据新访问路径确定与新访问路径对应的第一记账信息表;根据新发布表、版本信息和新访问路径对第一记账信息表进行更新;将更新后的第一记账信息表和第一记账信息表对应的结构化查询语言SQL语句,发送至区块链进行储存。由此,能够实现数据血缘的管理,且数据节点无需要具备数据血缘计算能力,从而可以有效保证数据血缘信息的完整性。

Description

数据血缘管理方法、装置、电子设备和存储介质
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据血缘管理方法、装置、电子设备和存储介质。
背景技术
数据血缘关系是指数据在产生、处理、流转到消亡过程中,数据之间形成的一种类似于人类社会血缘关系的关系。
当前数据血缘是基于专有域进行数据血缘的收集和分析处理的,即有数据管理节点(具备血缘分析能力)收集到数据流通过程中的节点,数据开发节点等处理逻辑,形成数据血缘关系。
相关技术中,由于数据和控制信息的分离,要求数据流通的节点,数据开发节点等需要获知到数据管理节点的地址信息,向数据管理节点发送数据处理逻辑;或者是由数据管理节点向获知的数据流通的节点,数据开发节点获得各节点数据处理逻辑信息,进行汇总分析,计算出数据血缘。
发明内容
本申请实施例提供一种数据血缘管理方法、装置、电子设备及存储介质,能够实现数据血缘的管理,且数据节点无需要具备数据血缘计算能力,从而可以有效保证数据血缘信息的完整性。
本申请第一方面实施例提出一种数据血缘管理方法,包括:获取发布表,其中,所述发布表包括本地发布表或外部发布表;获取本地的计算表;根据融合计算策略,将所述发布表与所述计算表进行融合计算,以生成新发布表,其中,所述新发布表包括版本信息;根据所述新发布表向面向数据的体系结构DOA注册中心注册,以从所述DOA注册中心获取新访问路径;根据所述新访问路径确定与所述新访问路径对应的第一记账信息表;根据所述新发布表、所述版本信息和所述新访问路径对所述第一记账信息表进行更新;将更新后的所述第一记账信息表和所述第一记账信息表对应的结构化查询语言SQL语句,发送至区块链进行储存。
另外,根据本申请上述实施例的数据血缘管理方法还可以具有如下附加的技术特征:
在本申请的一个实施例中,所述发布表包括外部发布表,所述获取发布表,包括:获取外部访问路径,并根据所述外部访问路径获取所述外部发布表,其中,所述外部发布表由数据节点发布。
在本申请的一个实施例中,所述发布表包括本地发布表,所述获取发布表,包括:接收数据资源发布指令,其中,所述数据资源发布指令包括数据资源的版本信息和所述数据资源的发布表;将所述数据资源的发布表作为所述本地发布表。
在本申请的一个实施例中,所述获取发布表之后,还包括:根据所述数据资源发布指令向面向数据的体系结构DOA注册中心注册,以从所述DOA注册中心获取所述数据资源的访问路径;根据所述访问路径确定与所述访问路径对应的第二记账信息表;根据所述本地发布表、所述数据资源的版本信息和所述访问路径对所述第二记账信息表进行更新;将更新后的所述第二记账信息表和所述第二记账信息表对应的结构化查询语言SQL语句,发送至所述区块链进行储存。
在本申请的一个实施例中,上述数据血缘管理方法还包括:根据所述访问路径将所述本地发布表发布。
在本申请的一个实施例中,所述根据所述本地发布表、所述数据资源的版本信息和所述访问路径对所述第二记账信息表进行更新,包括:获取所述本地发布表的发布时间;将所述本地发布表的表名、所述数据资源的版本信息、所述访问路径和所述发布时间写入所述第二记账信息表;其中,若所述本地发布表是本地创建的,则将NA作为所述本地发布表的表名写入所述第二记账信息表。
在本申请的一个实施例中,所述计算表为多张,所述根据融合计算策略,将所述发布表与所述计算表进行融合计算,以生成新发布表,包括:根据所述融合计算策略,多张所述计算表依次与所述发布表进行融合计算,以生成所述新发布表。
在本申请的一个实施例中,上述数据血缘管理方法还包括:根据所述新访问路径将所述新发布表发布。
在本申请的一个实施例中,所述根据所述新发布表、所述版本信息和所述新访问路径对所述第一记账信息表进行更新,包括:获取所述新发布表的新发布时间;将所述新发布表的表名、所述版本信息、所述新访问路径和所述新发布时间写入所述第一记账信息表。
本申请第二方面实施例提出一种数据血缘管理方法,包括:从区块链中获取记账信息表和所述记账信息表对应的SQL语句;根据所述记账信息表和所述SQL语句进行数据血缘的分析,以生成数据血缘分析结果。
另外,根据本申请上述实施例的数据血缘管理方法还可以具有如下附加的技术特征:
在本申请的一个实施例中,所述根据所述记账信息表和所述SQL语句进行数据血缘分析,以生成数据血缘分析结果,包括:根据所述SQL语句对所述记账信息表中的每一行数据进行迭代分析,以得到所述每一行数据对应的血缘路径信息;对所述每一行数据对应的血缘路径信息进行数据血缘分析,以生成数据血缘分析结果。
本申请第三方面实施例提出了一种数据血缘管理装置,包括:第一获取模块,用于获取发布表,其中,所述发布表包括本地发布表或外部发布表;第二获取模块,用于获取本地的计算表;融合计算模块,用于根据融合计算策略,将所述发布表与所述计算表进行融合计算,以生成新发布表,其中,所述新发布表包括版本信息;第三获取模块,用于根据所述新发布表向面向数据的体系结构DOA注册中心注册,以从所述DOA注册中心获取新访问路径;确定模块,用于根据所述新访问路径确定与所述新访问路径对应的第一记账信息表;更新模块,用于根据所述新发布表、所述版本信息和所述新访问路径对所述第一记账信息表进行更新;发送模块,用于将更新后的所述第一记账信息表和所述第一记账信息表对应的结构化查询语言SQL语句,发送至区块链进行储存。
本申请第四方面实施例提出了一种数据血缘管理装置,包括:获取模块,用于从区块链中获取记账信息表和所述记账信息表对应的SQL语句;分析模块,用于根据所述记账信息表和所述SQL语句进行数据血缘的分析,以生成数据血缘分析结果。
本申请第五方面实施例提出了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如前述的数据血缘管理方法。
本申请实施例的电子设备,通过处理器执行存储在存储器上的计算机程序,能够实现数据血缘的管理,且数据节点无需要具备数据血缘计算能力,从而可以有效保证数据血缘信息的完整性。
本申请第六方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时,实现如前述第一方面实施例所述的数据血缘管理方法。
本申请实施例的计算机可读存储介质,通过存储计算机程序并被处理器执行,能够实现数据血缘的管理,且数据节点无需要具备数据血缘计算能力,从而可以有效保证数据血缘信息的完整性。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本申请一个实施例的数据血缘管理方法的流程示意图;
图2为根据本申请另一个实施例的数据血缘管理方法的流程示意图;
图3为根据本申请另一个实施例的数据血缘管理方法的流程示意图;
图4为根据本申请另一个实施例的数据血缘管理方法的流程示意图;
图5为根据本申请另一个实施例的数据血缘管理方法的流程示意图;
图6为根据本申请另一个实施例的数据血缘管理方法的流程示意图;
图7为根据本申请一个实施例的数据血缘管理方法的构架示意图;
图8为根据本申请一个实施例的数据血缘管理装置的方框示意图;
图9为根据本申请另一个实施例的数据血缘管理装置的方框示意图;以及
图10为根据本申请一个实施例的电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参照附图描述本申请实施例的数据血缘管理方法、装置、电子设备和存储介质。
本申请实施例提供的数据血缘管理方法,可以由电子设备来执行,该电子设备可为计算机或服务器等,此处不做任何限定。
在本申请实施例中,电子设备中可以设置有处理组件、存储组件和驱动组件。可选的,该驱动组件和处理组件可以集成设置,该存储组件可以存储操作系统、应用程序或其他程序模块,该处理组件通过执行存储组件中存储的应用程序来实现本申请实施例提供的数据血缘管理方法。
图1为根据本申请实施例提供的一种数据血缘管理方法的流程示意图。
本申请实施例的数据血缘管理方法,还可由本申请实施例提供的数据血缘管理装置执行,该装置可配置于电子设备中,以实现获取发布表,并获取本地的计算表,以及根据融合计算策略,将发布表与计算表进行融合计算,以生成新发布表,其中,新发布表包括版本信息,然后根据新发布表向面向数据的体系结构DOA注册中心注册,以从DOA注册中心获取新访问路径,并根据新访问路径确定与新访问路径对应的第一记账信息表,以及根据新发布表、版本信息和新访问路径对第一记账信息表进行更新,而后将更新后的第一记账信息表和第一记账信息表对应的结构化查询语言SQL语句,发送至区块链进行储存,从而能够实现数据血缘的管理,且数据节点无需要具备数据血缘计算能力,进而可以有效保证数据血缘信息的完整性。
作为一种可能的情况,本申请实施例的数据血缘管理方法还可以由数据节点执行,其中,电子设备(例如,服务器)可为该数据节点的执行主体,由该电子设备实现该数据节点的具体功能。
如图1所示,该数据血缘管理方法,可包括:
步骤101,获取发布表,其中,发布表包括本地发布表或外部发布表。其中,发布表可为多个。
为了清楚说明上一实施例,在本申请的一个实施例中,发布表可包括外部发布表,获取发布表,可包括获取外部访问路径,并根据外部访问路径获取外部发布表,其中,外部发布表由数据节点发布。
在本申请实施例中,上述的外部访问路径可为用户输入的,也可以是数据节点响应于相关的事件自动获取的。
具体地,数据节点(即,数据节点的代理进程)在获取到外部访问路径之后,可根据该外部访问路径获取该外部访问路径对应的外部发布表(即,数据资源),其中,该外部发布表可由其它的数据节点发布,此处不作任何限定。
为了清楚说明上一实施例,在本申请的另一个实施例中,发布表可包括本地发布表,获取发布表可包括接收数据资源发布指令,其中,数据资源发布指令包括数据资源的版本信息和数据资源的发布表,并将数据资源的发布表作为本地发布表。
在本申请实施例中,上述的数据资源的发布表可以是相关人员预先创建好的。其中,相关人员需要发布数据资源时,可先创建该数据资源的发布表,并指定该数据资源的版本信息,其中,该版本信息也可直接写入该发布表中,此处不作任何限定。而后可通过相关的客户端(平台)根据该发布表和该版本信息生成数据资源发布指令,并将其发送至数据节点(例如,对应的数据节点)。由该数据节点接收并响应。
具体地,相关人员可在相应的客户端创建数据资源发布指令,并将该数据资源发布指令发送至数据节点,由该数据节点接收并响应。
作为一种可能的情况,数据节点可通过相关API(Application ProgrammingInterface,应用程序接口)实时检测数据资源发布事件,并在检测到该数据资源发布事件后,自动创建数据资源发布指令,并将该数据资源发布指令下发,以接收并响应于该数据资源发布指令。
进一步地,上述数据节点在接收到数据资源发布指令之后,可先对该数据资源发布指令进行解析,以获取数据资源发布指令中的数据资源的发布表,并可将该发布表作为本地发布表进行后续的操作。
为了进一步清楚说明上述实施例,在本申请的一个实施例中,如图2所示,获取发布表(即,本地发布表)之后,还可包括:
步骤201,根据数据资源发布指令向面向数据的体系结构DOA注册中心注册,以从DOA注册中心获取数据资源的访问路径。
需要说明的是,该实施例中所描述的数据资源的访问路径,可以是数据资源(即,发布表(本地发布表))发布后的访问路径,该访问路径可由DOA注册中心生成(提供)。
其中,面向数据的体系结构DOA注册中心可对各种类型的数据和广义数据进行登记注册,形成逻辑的数据资源池,方便应用对数据的访问。其功能涉及但不限于:数据注册信息定义,数据属性信息,数据分类,元数据标准,元数据分类,不同类型数据的注册方法,数据索引,元数据索引,数据检索,广义数据模式识别,分布式部署,数据注册内容随需自适应机制,数据生成自动注册机制,历史数据注册与管理等,该面向数据的体系结构DOA注册中心可在根据版本信息进行注册的过程中,提供(生成)该版本信息对应的数据资源的访问路径。
具体的,数据节点(即,数据节点的代理进程)在接收到数据资源发布指令之后,可先对该数据资源发布指令进行解析,以得到该数据资源发布指令中的数据资源的版本信息和数据资源的发布表(即,本地发布表)。然后该数据节点可根据数据资源发布指令向面向数据的体系结构DOA注册中心注册,以从DOA注册中心获取数据资源的访问路径。其中,数据资源的版本信息是一个附属信息,注册时,是注册数据表名(例如,发布表名)和包含的元数据信息,数据版本号(即,版本信息)是元数据的其中一个信息。
进一步地,在本申请的一个实施例中,该数据血缘管理方法,还可包括根据访问路径将本地发布表发布。
具体的,数据节点在获取到数据资源的访问路径之后,可将该数据资源发布到该访问路径所对应的地址处,即将上述的本地发布表发布到该访问路径所对应的地址处,从而实现对外发布数据资源。
步骤202,根据访问路径确定与访问路径对应的第二记账信息表。应说明的是,该实施例中所描述的第二记账信息表可为本地表,例如,数据节点的记账信息表。
作为一种可能的情况,上述的第二记账信息表也可将为外部表,基于上述的访问路径即可确认该第二记账信息表,并将其获取。
步骤203,根据本地发布表、数据资源的版本信息和访问路径对第二记账信息表进行更新。
为了清楚说明上一实施例,在本申请的一个实施例中,如图3所示,根据本地发布表、数据资源的版本信息和访问路径对第二记账信息表进行更新,可包括:
步骤301,获取本地发布表的发布时间。
在本申请实施例中,数据节点在根据访问路径将本地发布表发布时,可记录该本地发布表的发布时间,并可将其保持(或暂存)在自身的存储空间中,以方便在需要时获取。
步骤302,将本地发布表的表名、数据资源的版本信息、访问路径和发布时间写入第二记账信息表。其中,若本地发布表是本地创建的,则将NA作为本地发布表的表名写入第二记账信息表,其中,NA可代表“空”的意思。
具体地,数据节点在获取到上述的第二记账信息表之后,可从自身的存储空间中获取上述本地发布表的发布时间,并将上述的本地发布表的表名、数据资源的版本信息、访问路径和发布时间写入第二记账信息表,即,将上述的本地发布表的表名、数据资源的版本信息、访问路径和发布时间作为一组行信息写入该第二记账信息表中。应说明的是,在将上述的本地发布表的表名、数据资源的版本信息、访问路径和发布时间作为一组行信息写入该第二记账信息表中的同时,还可将其输入表信息一同写入该第二记账信息表中。
其中,该第二记账信息表可如下表1所示:
Figure BDA0003522002750000071
表1
需要说明的是,该实施例中所描述的表1中的列“是否涉外表”指的是该行数据表名对应的表(例如,本地发布表)是否对外发布,如果是,则该行可写入“Y”,如果否,则该行可写入“N”。即可以理解为数据表名对应的表是从本数据节点外获取到的资源。
步骤204,将更新后的第二记账信息表和第二记账信息表对应的结构化查询语言SQL语句,发送至区块链进行储存。
需要说明的是,该实施例中所描述的SQL语句,可为结构化查询语言,其中,该结构化查询语言是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统(例如,数据库系统中的表)。其中,该SQL语句包括可包括DDL(Data DefinitionLanguage,数据库模式定义语言)语句和DML(Data Manipulation Language,数据操作语言)语句。
其中,上述的第二记账信息表对应的SQL语句可存储在该第二记账信息对应数据库的日志中。
具体的,数据节点在将上述的本地发布表的表名、数据资源的版本信息、访问路径和发布时间写入第二记账信息表之后,可将该第二记账信息表(即,写入后的第二记账信息表)和第二记账信息表对应的SQL语句,发送至区块链。区块链(例如,区块链客户端)在接收到该第二记账信息表和第二记账信息表对应的言SQL语句之后可将其存储在该区块链的区块体中。以便于后续数据管理节点从该区块体中获取记账信息表(即,第二记账信息表)和记账信息表(即,第二记账信息表)对应的SQL语句进行数据血缘的分析。
需要说明的是,在区块链网络中可包括多个数据节点,其中,执行前述图2和图3实施例的数据血缘管理方法的数据节点可为该多个数据节点中的一个,且该数据节点可为该区块链网络中接收数据资源发布指令的数据节点。
在本申请实施例中,数据节点可接收数据资源发布指令,其中,数据资源发布指令包括数据资源的版本信息和数据资源的发布表(即,本地发布表),然后根据数据资源发布指令向面向数据的体系结构DOA注册中心注册,以从DOA注册中心获取数据资源的访问路径,并根据访问路径确定与访问路径对应的第二记账信息表,以及根据发布表(即,本地发布表)、数据资源的版本信息和访问路径对第二记账信息表进行更新,最后将更新后的第二记账信息表和第二记账信息表对应的结构化查询语言SQL语句,发送至区块链进行储存。由此,能够实现数据血缘的管理,且数据节点无需要具备数据血缘计算能力,从而可以有效保证数据血缘信息的完整性。
步骤102,获取本地的计算表。其中,计算表可为多个。
具体地,数据节点在获取到上述的发布表(例如,本地发布表或外部发布表)之后,可获取存储在本地的多个计算表。
步骤103,根据融合计算策略,将发布表与计算表进行融合计算,以生成新发布表,其中,新发布表包括版本信息。
为了清楚说明上一实施例,在本申请的一个实施例中,计算表可为多张,根据融合计算策略,将发布表与计算表进行融合计算,以生成新发布表,可包括根据融合计算策略,将多张计算表依次与发布表进行融合计算,以生成新发布表。
需要说明的是,该实施例中所描述的融合计算策略可根据实际情况进行标定,且该融合计算策略可预存在数据节点的存储空间中,以便于后续调用使用。
具体地,数据节点在获取到上述的发布表之后,可从自身的存储空间中获取多张计算表和融合计算策略,然后可根据融合计算策略,多张计算表依次与发布表进行融合计算,以生成新发布表。
需要说明的是,该实施例中所描述的发布表在本地(数据节点)融合时,可以与本地表(本地计算表)进行融合,也可以和其他涉外表(涉外计算表)融合,最终生成新发布表。
步骤104,根据新发布表向面向数据的体系结构DOA注册中心注册,以从DOA注册中心获取新访问路径。
需要说明的是,该实施例中所描述的新访问路径,可以是新发布表(新数据资源)发布后的访问路径,该新访问路径可由DOA注册中心生成(提供)。
其中,面向数据的体系结构DOA注册中心可对各种类型的数据和广义数据进行登记注册,形成逻辑的数据资源池,方便应用对数据的访问。其功能涉及但不限于:数据注册信息定义,数据属性信息,数据分类,元数据标准,元数据分类,不同类型数据的注册方法,数据索引,元数据索引,数据检索,广义数据模式识别,分布式部署,数据注册内容随需自适应机制,数据生成自动注册机制,历史数据注册与管理等,该面向数据的体系结构DOA注册中心可在根据版本信息进行注册的过程中,提供(生成)该版本信息对应的访问路径(即,上述的新访问路径)。
具体的,数据节点(即,数据节点的代理进程)在生成新发布表之后,可先从新发布表中获取版本信息,然后该数据节点可根据新发布表向面向数据的体系结构DOA注册中心注册,以从DOA注册中心获取新访问路径(即,新发布表(新数据资源)的访问路径)。其中,上述的版本信息是一个附属信息,注册时,是注册数据表名(例如,新发布表名)和包含的元数据信息,数据版本号(即,版本信息)是元数据的其中一个信息。
进一步地,在本申请的一个实施例中,该数据血缘管理方法,还可包括根据新访问路径将新发布表发布。
具体的,数据节点在获取到上述的新访问路径之后,可将上述的新发布表发布到该新访问路径所对应的地址处,即将上述的新发布表对应的数据资源发布到该新访问路径所对应的地址处,从而实现对外发布新数据资源。
步骤105,根据新访问路径确定与新访问路径对应的第一记账信息表。应说明的是,该实施例中所描述的第一记账信息表可为本地表,例如,数据节点的记账信息表。
作为一种可能的情况,上述的第一记账信息表也可将为外部表,基于上述的新访问路径即可确认该记账信息表,并将其获取。
需要说明的是,该实施例中所描述的第一记账信息表与上述实施例中所描述的第二记账信息表可为同一张表,也可为不同的表,此处不作任何限定。
步骤106,根据新发布表、版本信息和新访问路径对第一记账信息表进行更新。
为了清楚说明上一实施例,在本申请的一个实施例中,如图4所示,根据新发布表、版本信息和新访问路径对第一记账信息表进行更新,可包括:
步骤401,获取新发布表的新发布时间。
在本申请实施例中,数据节点在根据新访问路径将新发布表发布时,可记录该新发布表的新发布时间,并可将其保持(或暂存)在自身的存储空间中,以方便在需要时获取。
步骤402,将新发布表的表名、版本信息、新访问路径和新发布时间写入第一记账信息表。
具体地,数据节点在获取到上述的第一记账信息表之后,可从自身的存储空间中获取上述新发布表的新发布时间,并将上述的新发布表的表名、版本信息、新访问路径和新发布时间写入该第一记账信息表,即,将上述的新发布表的表名、版本信息、新访问路径和新发布时间作为一组或多组行信息写入该第一记账信息表中,其中,还可同时将其输入表(数据来源表)信息一同写入该第一记账信息表中。应说明的是,该实施例中所描述的第一记账信息表中可包括多行信息。
其中,该第一记账信息表可如下表2所示:
Figure BDA0003522002750000101
表2
需要说明的是,该实施例中所描述的表2中的列“是否涉外表”指的是该行数据表名对应的表(例如,新发布表)是否对外发布,如果是,则该行可写入“Y”,如果否,则该行可写入“N”。即可以理解为数据表名对应的表是从本数据节点外获取到的资源(例如,发布表)。
步骤107,将更新后的第一记账信息表和第一记账信息表对应的结构化查询语言SQL语句,发送至区块链进行储存。
需要说明的是,该实施例中所描述的SQL语句,可为结构化查询语言,其中,该结构化查询语言是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统(例如,数据库系统中的表)。其中,该SQL语句包括可包括DDL语句和DML语句。其中,上述第一记账信息表对应的SQL语句可存储在该第一记账信息对应数据库的日志中。
具体的,数据节点在将上述的将新发布表的表名、版本信息、新访问路径和新发布时间写入第一记账信息表之后,可将该第一记账信息表(即,写入后的第一记账信息表)和该第一记账信息表对应的SQL语句,发送至区块链。区块链(例如,区块链客户端)在接收到该第一记账信息表和该第一记账信息表对应的言SQL语句之后可将其存储在该区块链的区块体中。以便于后续数据管理节点从该区块体中获取记账信息表(例如,第一记账信息表)和记账信息表(例如,第一记账信息表)对应的SQL语句进行数据血缘的分析。
需要说明的是,在区块链网络中可包括多个数据节点,其中,执行前述图1至图4实施例的数据血缘管理方法的数据节点可为该多个数据节点中的一个或多个,若为多个,则该多个数据节点可依次执行前述图1至图4实施例的数据血缘管理方法。
本申请实施例的数据血缘管理方法,首先获取发布表,其中,发布表包括本地发布表或外部发布表,并获取本地的计算表,以及根据融合计算策略,将发布表与计算表进行融合计算,以生成新发布表,其中,新发布表包括版本信息,然后根据新发布表向面向数据的体系结构DOA注册中心注册,以从DOA注册中心获取新访问路径,并根据新访问路径确定与新访问路径对应的第一记账信息表,以及根据新发布表、版本信息和新访问路径对第一记账信息表进行更新,最后将更新后的第一记账信息表和第一记账信息表对应的结构化查询语言SQL语句,发送至区块链进行储存。由此,能够实现数据血缘的管理,且数据节点无需要具备数据血缘计算能力,进而可以有效保证数据血缘信息的完整性。
图5为根据本申请实施例提供的另一种数据血缘管理方法的流程示意图。
本申请实施例的数据血缘管理方法,还可由本申请实施例提供的数据血缘管理装置执行,该装置可配置于电子设备中,以实现从区块链中获取记账信息表和记账信息表对应的SQL语句,并根据记账信息表和SQL语句进行数据血缘的分析,以生成数据血缘分析结果,从而能够实现数据血缘的管理,且数据节点无需要具备数据血缘计算能力,进而可以有效保证数据血缘信息的完整性。
作为一种可能的情况,本申请实施例的数据血缘管理方法还可以由数据管理节点执行,其中,电子设备(例如,服务器)可为该数据管理节点的执行主体,可由该电子设备实现该数据管理节点的具体功能。
如图5所示,该数据血缘管理方法,可包括:
步骤501,从区块链中获取记账信息表和记账信息表对应的SQL语句。
具体地,在需要分析数据血缘时,数据管理节点可从区块链(即,区块链客户端)的区块体中,获取记账信息表和该记账信息表对应的SQL语句。应说明的是,该实施例中所描述的记账信息表可为多张,此处不作任何限定。
步骤502,根据记账信息表和SQL语句进行数据血缘的分析,以生成数据血缘分析结果。
在本申请实施例中,可根据预设的记账信息表算法、记账信息表和SQL语句进行数据血缘的分析,以生成数据血缘分析结果。其中,预设的记账信息表算法可根据实际情况进行标定。
具体地,数据管理节点可基于预设的记账信息表算法,并根据需要分析的数据资源(访问路径信息和数据表名(即,发布表名))在记账信息表上查询分析输入访问路径信息和数据表名,再根据对应的访问路径信息和数据表名,迭代查询分析对应的输入访问路径信息和数据表名,直到所有访问路径上的输入表为NA。确认数据初始来源。根据分析收集到访问路径信息和数据表名,以及对应的DDL语句和DML语句生成数据血缘链路信息,即数据血缘分析结果。
为了清楚说明上一实施例,在本申请的一个实施例中,如图6所示,根据记账信息表和SQL语句进行数据血缘分析,以生成数据血缘分析结果,可包括:
步骤601,根据SQL语句对记账信息表中的每一行数据进行迭代分析,以得到每一行数据对应的血缘路径信息。
步骤602,对每一行数据对应的血缘路径信息进行数据血缘分析,以生成数据血缘分析结果。
具体地,数据管理节点在获取到记账信息表和记账信息表对应的SQL语句之后,可基于预设的记账信息表算法,并根据SQL语句对记账信息表中的每一行数据进行迭代分析,以得到每一行数据对应的血缘路径信息。而后数据管理节点可对每一行数据对应的血缘路径信息进行数据血缘分析,以生成数据血缘分析结果。
进一步,在本申请实施例中,相关人员可定期更新数据表(即,发布表)中的数据,而不涉及数据表结构变化的,可以根据数据血缘分析的粒度,如果需要在数据血缘中定期分析数据血缘流通数据,则由数据节点在增量更新数据时(只涉及DML语句),更新记账信息表,携带数据资源数据量和发布时间。如果不需要定期分析数据血缘流通数据,则不需要更新记账信息表。
在本申请实施例中,可通过在区块链中记录数据加工逻辑(即,记账信息表和记账信息表对应的SQL语句),使得数据节点不需要具备数据血缘计算能力,只需要发布相关数据处理加工逻辑,由数据管理节点分析数据加工逻辑,生成数据血缘。
本申请实施例的数据血缘管理方法,从区块链中获取记账信息表和记账信息表对应的SQL语句,并根据记账信息表和SQL语句进行数据血缘的分析,以生成数据血缘分析结果,从而能够实现数据血缘的管理,且数据节点无需要具备数据血缘计算能力,进而可以有效保证数据血缘信息的完整性。
为了使本领域技术人员更清晰地理解本申请实施例所提供的数据血缘管理方法,图7为根据本申请一个实施例的数据血缘管理方法的构架示意图,如图7所示,该构架可包括DOA注册中心和区块链网络,其中,区块链网络可包括多个数据节点(即第一数据节点、第二数据节点和第三数据节点)、数据管理节点。其中,第一数据节点、第二数据节点和第三数据节点可依次执行前述图1至图4实施例的数据血缘管理方法,数据管理节点可执行前述图5和图6实施例的数据血缘管理方法。由此,能够实现数据血缘的管理,且数据节点无需要具备数据血缘计算能力,从而可以有效保证数据血缘信息的完整性。
图8为根据本申请一个实施例的数据血缘管理装置的方框示意图。
本申请实施例的数据血缘管理装置,可配置于电子设备(例如,服务器)中,以实现获取发布表,并获取本地的计算表,以及根据融合计算策略,将发布表与计算表进行融合计算,以生成新发布表,其中,新发布表包括版本信息,然后根据新发布表向面向数据的体系结构DOA注册中心注册,以从DOA注册中心获取新访问路径,并根据新访问路径确定与新访问路径对应的第一记账信息表,以及根据新发布表、版本信息和新访问路径对第一记账信息表进行更新,而后将更新后的第一记账信息表和第一记账信息表对应的结构化查询语言SQL语句,发送至区块链进行储存,从而能够实现数据血缘的管理,且数据节点无需要具备数据血缘计算能力,进而可以有效保证数据血缘信息的完整性。
如图8所示,该数据血缘管理装置800,可包括:第一获取模块810、第二获取模块820、融合计算模块830、第三获取模块840、确定模块850、更新模块860和发送模块870。
其中,第一获取模块810用于获取发布表,其中,发布表包括本地发布表或外部发布表。
第二获取模块820用于获取本地的计算表。
融合计算模块830用于根据融合计算策略,将发布表与计算表进行融合计算,以生成新发布表,其中,新发布表包括版本信息。
第三获取模块840用于根据新发布表向面向数据的体系结构DOA注册中心注册,以从DOA注册中心获取新访问路径。
确定模块850用于根据新访问路径确定与新访问路径对应的第一记账信息表。
更新模块860用于根据新发布表、版本信息和新访问路径对第一记账信息表进行更新。
发送模块870用于将更新后的第一记账信息表和第一记账信息表对应的结构化查询语言SQL语句,发送至区块链进行储存。
在本申请的一个实施例中,计算表为多张,融合计算模块930具体用于:根据融合计算策略,将多张计算表依次与发布表进行融合计算,以生成新发布表。
在本申请的一个实施例中,该数据血缘管理装置800还可包括发布模块,其中,发布模块,用于根据新访问路径将新发布表发布。
在本申请的一个实施例中,更新模块860具体用于:获取新发布表的新发布时间;将新发布表的表名、版本信息、新访问路径和新发布时间写入第一记账信息表。
需要说明的是,前述图1至图4对数据血缘管理方法实施例的解释说明也适用于该实施例的数据血缘管理装置,此处不再赘述。
本申请实施例的数据血缘管理装置,首先通过第一获取模块获取发布表,其中,发布表包括本地发布表或外部发布表,并通过第二获取模块获取本地的计算表,以及通过融合计算模块根据融合计算策略,将发布表与计算表进行融合计算,以生成新发布表,其中,新发布表包括版本信息,然后通过第三获取模块根据新发布表向面向数据的体系结构DOA注册中心注册,以从DOA注册中心获取新访问路径,并通过确定模块根据新访问路径确定与新访问路径对应的第一记账信息表,以及通过更新模块根据新发布表、版本信息和新访问路径对第一记账信息表进行更新,最后通过发送模块将更新后的第一记账信息表和第一记账信息表对应的结构化查询语言SQL语句,发送至区块链进行储存。由此,能够实现数据血缘的管理,且数据节点无需要具备数据血缘计算能力,从而可以有效保证数据血缘信息的完整性。
图9为根据本申请另一个实施例的数据血缘管理装置的方框示意图。
本申请实施例的数据血缘管理装置,可配置于电子设备(例如,服务器)中,以实现从区块链中获取记账信息表和记账信息表对应的SQL语句,并根据记账信息表和SQL语句进行数据血缘的分析,以生成数据血缘分析结果,从而能够实现数据血缘的管理,且数据节点无需要具备数据血缘计算能力,进而可以有效保证数据血缘信息的完整性。
如图9所示,该数据血缘管理装置900,可包括:获取模块910和分析模块920。
其中,获取模块910用于从区块链中获取记账信息表和记账信息表对应的SQL语句。
分析模块920用于根据记账信息表和SQL语句进行数据血缘的分析,以生成数据血缘分析结果。
在本申请的一个实施例中,分析模块920具体用于:根据SQL语句对记账信息表中的每一行数据进行迭代分析,以得到每一行数据对应的血缘路径信息;对每一行数据对应的血缘路径信息进行数据血缘分析,以生成数据血缘分析结果。
需要说明的是,前述图5至图7对数据血缘管理方法实施例的解释说明也适用于该实施例的数据血缘管理装置,此处不再赘述。
本申请实施例的数据血缘管理装置,通过获取模块从区块链中获取记账信息表和记账信息表对应的SQL语句,并通过分析模块根据记账信息表和SQL语句进行数据血缘的分析,以生成数据血缘分析结果。由此,能够实现数据血缘的管理,且数据节点无需要具备数据血缘计算能力,从而可以有效保证数据血缘信息的完整性。
为了实现上述实施例,如图10所示,本申请还提出一种电子设备1000,包括存储器1010、处理器1020及存储在存储器1010上并可在处理器1020上运行的计算机程序,处理器1020执行程序,以实现本申请前述实施例提出的数据血缘管理方法。
本申请实施例的电子设备,通过处理器执行存储在存储器上的计算机程序,能够实现数据血缘的管理,且数据节点无需要具备数据血缘计算能力,从而可以有效保证数据血缘信息的完整性。
为了实现上述实施例,本申请还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以实现本申请前述实施例提出的数据血缘管理方法。
本申请实施例的计算机可读存储介质,通过存储计算机程序并被处理器执行,能够实现数据血缘的管理,且数据节点无需要具备数据血缘计算能力,从而可以有效保证数据血缘信息的完整性。
在本说明书的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (15)

1.一种数据血缘管理方法,其特征在于,包括:
获取发布表,其中,所述发布表包括本地发布表或外部发布表;
获取本地的计算表;
根据融合计算策略,将所述发布表与所述计算表进行融合计算,以生成新发布表,其中,所述新发布表包括版本信息;
根据所述新发布表向面向数据的体系结构DOA注册中心注册,以从所述DOA注册中心获取新访问路径;
根据所述新访问路径确定与所述新访问路径对应的第一记账信息表;
根据所述新发布表、所述版本信息和所述新访问路径对所述第一记账信息表进行更新;
将更新后的所述第一记账信息表和所述第一记账信息表对应的结构化查询语言SQL语句,发送至区块链进行储存。
2.根据权利要求1所述的数据血缘管理方法,其特征在于,所述发布表包括外部发布表,所述获取发布表,包括:
获取外部访问路径,并根据所述外部访问路径获取所述外部发布表,其中,所述外部发布表由数据节点发布。
3.根据权利要求1所述的数据血缘管理方法,其特征在于,所述发布表包括本地发布表,所述获取发布表,包括:
接收数据资源发布指令,其中,所述数据资源发布指令包括数据资源的版本信息和所述数据资源的发布表;
将所述数据资源的发布表作为所述本地发布表。
4.根据权利要求3所述的数据血缘管理方法,其特征在于,所述获取发布表之后,还包括:
根据所述数据资源发布指令向面向数据的体系结构DOA注册中心注册,以从所述DOA注册中心获取所述数据资源的访问路径;
根据所述访问路径确定与所述访问路径对应的第二记账信息表;
根据所述本地发布表、所述数据资源的版本信息和所述访问路径对所述第二记账信息表进行更新;
将更新后的所述第二记账信息表和所述第二记账信息表对应的结构化查询语言SQL语句,发送至所述区块链进行储存。
5.根据权利要求4所述的数据血缘管理方法,其特征在于,还包括:
根据所述访问路径将所述本地发布表发布。
6.根据权利要求5所述的数据血缘管理方法,其特征在于,所述根据所述本地发布表、所述数据资源的版本信息和所述访问路径对所述第二记账信息表进行更新,包括:
获取所述本地发布表的发布时间;
将所述本地发布表的表名、所述数据资源的版本信息、所述访问路径和所述发布时间写入所述第二记账信息表;其中,
若所述本地发布表是本地创建的,则将NA作为所述本地发布表的表名写入所述第二记账信息表。
7.根据权利要求1所述的数据血缘管理方法,其特征在于,其中,所述计算表为多张,所述根据融合计算策略,将所述发布表与所述计算表进行融合计算,以生成新发布表,包括:
根据所述融合计算策略,将多张所述计算表依次与所述发布表进行融合计算,以生成所述新发布表。
8.根据权利要求1所述的数据血缘管理方法,其特征在于,还包括:
根据所述新访问路径将所述新发布表发布。
9.根据权利要求1所述的数据血缘管理方法,其特征在于,所述根据所述新发布表、所述版本信息和所述新访问路径对所述第一记账信息表进行更新,包括:
获取所述新发布表的新发布时间;
将所述新发布表的表名、所述版本信息、所述新访问路径和所述新发布时间写入所述第一记账信息表。
10.一种数据血缘管理方法,其特征在于,包括:
从区块链中获取记账信息表和所述记账信息表对应的SQL语句;
根据所述记账信息表和所述SQL语句进行数据血缘的分析,以生成数据血缘分析结果。
11.根据权利要求10所述的数据血缘管理方法,其特征在于,所述根据所述记账信息表和所述SQL语句进行数据血缘分析,以生成数据血缘分析结果,包括:
根据所述SQL语句对所述记账信息表中的每一行数据进行迭代分析,以得到所述每一行数据对应的血缘路径信息;
对所述每一行数据对应的血缘路径信息进行数据血缘分析,以生成数据血缘分析结果。
12.一种数据血缘管理装置,其特征在于,包括:
第一获取模块,用于获取发布表,其中,所述发布表包括本地发布表或外部发布表;
第二获取模块,用于获取本地的计算表;
融合计算模块,用于根据融合计算策略,将所述发布表与所述计算表进行融合计算,以生成新发布表,其中,所述新发布表包括版本信息;
第三获取模块,用于根据所述新发布表向面向数据的体系结构DOA注册中心注册,以从所述DOA注册中心获取新访问路径;
确定模块,用于根据所述新访问路径确定与所述新访问路径对应的第一记账信息表;
更新模块,用于根据所述新发布表、所述版本信息和所述新访问路径对所述第一记账信息表进行更新;
发送模块,用于将更新后的所述第一记账信息表和所述第一记账信息表对应的结构化查询语言SQL语句,发送至区块链进行储存。
13.一种数据血缘管理装置,其特征在于,包括:
获取模块,用于从区块链中获取记账信息表和所述记账信息表对应的SQL语句;
分析模块,用于根据所述记账信息表和所述SQL语句进行数据血缘的分析,以生成数据血缘分析结果。
14.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如权利要求1-9或权利要求10-11中任一项所述的数据血缘管理方法。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-9或权利要求10-11中任一项所述的数据血缘管理方法。
CN202210179808.5A 2022-02-25 2022-02-25 数据血缘管理方法、装置、电子设备和存储介质 Pending CN114637734A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210179808.5A CN114637734A (zh) 2022-02-25 2022-02-25 数据血缘管理方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210179808.5A CN114637734A (zh) 2022-02-25 2022-02-25 数据血缘管理方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN114637734A true CN114637734A (zh) 2022-06-17

Family

ID=81948494

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210179808.5A Pending CN114637734A (zh) 2022-02-25 2022-02-25 数据血缘管理方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN114637734A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116932656A (zh) * 2023-09-18 2023-10-24 中孚安全技术有限公司 基于区块链的数据血缘存储方法、系统、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116932656A (zh) * 2023-09-18 2023-10-24 中孚安全技术有限公司 基于区块链的数据血缘存储方法、系统、设备及介质
CN116932656B (zh) * 2023-09-18 2024-01-09 中孚安全技术有限公司 基于区块链的数据血缘存储方法、系统、设备及介质

Similar Documents

Publication Publication Date Title
Szárnyas et al. The Train Benchmark: cross-technology performance evaluation of continuous model queries
AU2019213302B2 (en) Filtering data lineage diagrams
Sivaramakrishnan et al. Declarative programming over eventually consistent data stores
US10684966B1 (en) Orchestrating dataflows with inferred data store interactions
US20200117643A1 (en) Data curation system with version control for workflow states and provenance
US20030105843A1 (en) Input/output device information management system for multi-computer system
US11334474B2 (en) Fast change impact analysis tool for large-scale software systems
CN111881223B (zh) 数据管理方法、设备、系统及存储介质
US11941413B2 (en) Managed control plane service
US11948005B2 (en) Managed integration of constituent services of multi-service applications
CN106445645B (zh) 用于执行分布式计算任务的方法和装置
CN105518669B (zh) 数据模型改变管理
Ntentos et al. Assessing architecture conformance to coupling-related patterns and practices in microservices
US7752225B2 (en) Replication and mapping mechanism for recreating memory durations
CN114637734A (zh) 数据血缘管理方法、装置、电子设备和存储介质
US10417234B2 (en) Data flow modeling and execution
US20180300369A1 (en) Secure query interface
Schlegel et al. MLflow2PROV: extracting provenance from machine learning experiments
Gao et al. Formal verification of consensus in the taurus distributed database
CN116204554B (zh) 数据处理方法、系统、电子设备和存储介质
CN106991116A (zh) 数据库执行计划的优化方法和装置
CN109710698A (zh) 一种数据汇聚方法、装置、电子设备及介质
US10620946B1 (en) Dynamic modeling for opaque code during static analysis
US10719425B2 (en) Happens-before-based dynamic concurrency analysis for actor-based programs
US20130346984A1 (en) Sparse Threaded Deterministic Lock-Free Cholesky and LDLT Factorizations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination