CN117076577A - 数据血缘的确定方法、装置、设备、存储介质及程序产品 - Google Patents

数据血缘的确定方法、装置、设备、存储介质及程序产品 Download PDF

Info

Publication number
CN117076577A
CN117076577A CN202310929786.4A CN202310929786A CN117076577A CN 117076577 A CN117076577 A CN 117076577A CN 202310929786 A CN202310929786 A CN 202310929786A CN 117076577 A CN117076577 A CN 117076577A
Authority
CN
China
Prior art keywords
field
relationship
blood
target
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310929786.4A
Other languages
English (en)
Inventor
叶鹏
张曦
张小彪
孙兵兵
杜冠霖
刘兆国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
CCB Finetech Co Ltd
Original Assignee
China Construction Bank Corp
CCB Finetech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp, CCB Finetech Co Ltd filed Critical China Construction Bank Corp
Priority to CN202310929786.4A priority Critical patent/CN117076577A/zh
Publication of CN117076577A publication Critical patent/CN117076577A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/219Managing data history or versioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种数据血缘的确定方法、装置、设备、存储介质及程序产品。本发明涉及数据库技术领域。该方法包括:获取数据处理日志、作业运行记录及设定映射关系;对所述数据处理日志进行解析,获得多个初始数据库操作语句;基于所述作业运行记录及所述设定映射关系对所述多个初始数据库操作语句进行筛选,获得至少一个目标数据库操作语句;基于所述至少一个目标数据库操作语句确定数据血缘关系;其中,所述数据血缘关系包括表血缘关系及字段血缘关系。本发明实施例的方案,根据作业运行记录及所述设定映射关系对数据库操作语句进行筛选,以基于筛选后的数据库操作语句确定数据血缘关系,可以提高数据血缘关系确定的效率及准确性。

Description

数据血缘的确定方法、装置、设备、存储介质及程序产品
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种数据血缘的确定方法、装置、设备、存储介质及程序产品。
背景技术
目前,在对金融数据进行问题排查时,由于缺少数据加工关系的视图,往往只能进行局部问题的排查,无法及时从源头进行修正。因此,确定数据血缘关系显得尤为重要。现有技术中,或采用人工手段维护数据血缘关系,或采用元数管理工具记录数据血缘关系,或采用代码扫描的方式维护数据血缘关系,存在效率低及不准确的问题。
发明内容
本发明实施例提供一种数据血缘的确定方法、装置、设备、存储介质及程序产品,可以提高数据血缘关系确定的效率及准确性。
第一方面,本发明实施例提供了一种数据血缘的确定方法,包括:
获取数据处理日志、作业运行记录及设定映射关系;其中,所述设定映射关系为互联网协议地址与主机名称间的映射关系;
对所述数据处理日志进行解析,获得多个初始数据库操作语句;
基于所述作业运行记录及所述设定映射关系对所述多个初始数据库操作语句进行筛选,获得至少一个目标数据库操作语句;
基于所述至少一个目标数据库操作语句确定数据血缘关系;其中,所述数据血缘关系包括表血缘关系及字段血缘关系。
第二方面,本发明实施例还提供了一种数据血缘的确定装置,包括:
获取模块,用于获取数据处理日志、作业运行记录及设定映射关系;其中,所述设定映射关系为互联网协议地址与主机名称间的映射关系;
初始数据库操作语句获取模块,用于对所述数据处理日志进行解析,获得多个初始数据库操作语句;
目标数据库操作语句获取模块,用于基于所述作业运行记录及所述设定映射关系对所述多个初始数据库操作语句进行筛选,获得至少一个目标数据库操作语句;
血缘关系确定模块,用于基于所述至少一个目标数据库操作语句确定数据血缘关系;其中,所述数据血缘关系包括表血缘关系及字段血缘关系。
第三方面,本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明实施例所述的数据血缘的确定方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例所述的数据血缘的确定方法。
第五方面,本发明实施例还提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如本发明实施例所述的数据血缘的确定方法。
本发明实施例公开了一种数据血缘的确定方法、装置、设备、存储介质及程序产品,获取数据处理日志、作业运行记录及设定映射关系;其中,设定映射关系为互联网协议地址与主机名称间的映射关系;对数据处理日志进行解析,获得多个初始数据库操作语句;基于作业运行记录及设定映射关系对多个初始数据库操作语句进行筛选,获得至少一个目标数据库操作语句;基于至少一个目标数据库操作语句确定数据血缘关系;其中,数据血缘关系包括表血缘关系及字段血缘关系。本发明实施例提供的数据血缘的确定方法,根据作业运行记录及所述设定映射关系对数据库操作语句进行筛选,以基于筛选后的数据库操作语句确定数据血缘关系,可以提高数据血缘关系确定的效率及准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例一提供的一种数据血缘的确定方法的流程图;
图2为为本发明实施例一提供的一种数据血缘的确定装置的结构示意图;
图3为本发明实施例一提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
图1为本发明实施例提供的一种数据血缘的确定方法的流程图,该方法适用于确定数据血缘关系的情况,该方法可以由数据血缘的确定装置来执行,该装置可以通过软件和/或硬件的形式实现,可选的,通过电子设备来实现,该电子设备可以是移动终端、PC端或服务器等。如图1所示,该方法具体包括如下步骤:
S110,获取数据处理日志、作业运行记录及设定映射关系。
其中,设定映射关系为互联网协议地址(Internet Protocol Address,IP)与主机名称间的映射关系。数据处理日志可以是抽取-转换-加载(extract-transform-load,ETL)脚本运行在数据库上而生成的日志。作业运行记录可以是某个业务场景下的数据处理业务对应的运行记录。
本实施例中,数据处理日志包括多个数据处理记录,每个数据处理记录包括的信息有:互联网协议地址及作业起始时间。述作业运行记录包括的信息有:作业运行时段及主机名称。作业运行时段可以由作业起始时间及作业结束时间构成。
S120,对数据处理日志进行解析,获得多个初始数据库操作语句。
本实施例中,对数据处理日志进行解析的方式可以是:采用现有的日志阅读器对数据处理日志进行读取和解析,从而获得数据处理日志中各数据处理记录对应的数据库操作语句(Structured Query Language,SQL),即多个初始SQL语句。其中,日志阅读器可以是CSV阅读器,此处不做限定。数据库操作语句可以包括数据增加语句、数据删除语句及数据修改语句及数据查询语句。
S130,基于作业运行记录及设定映射关系对多个初始数据库操作语句进行筛选,获得至少一个目标数据库操作语句。
其中,每个初始SQL语句有其对应的IP地址及作业起始时间。基于作业运行记录及设定映射关系对多个初始数据库操作语句进行筛选的方式可以是:首先提取作业运行记录中的作业运行时段及主机名称,然后根据设定映射关系确定主机名称对应的IP地址,最后从初始SQL语句中筛查出与该IP地址对应且作业起始时间落入该作业运行时段的SQL语句。
具体的,基于作业运行记录及设定映射关系对多个初始数据库操作语句进行筛选,获得至少一个目标数据库操作语句的方式可以是:根据设定映射关系确定数据处理日志中的互联网协议地址对应的主机名称;根据作业运行记录确定主机名称对应的作业运行时段;将数据处理日志中的作业起始时间落入作业运行时段的初始数据库操作语句进行筛选出来,获得至少一个目标数据库操作语句。
本实施例中,假设数据处理日志中的互联网协议地址为IP1,在设定映射关系中IP1对应的主机名称为A,然后根据作业运行记录中确定在主机A执行作业时的作业运行时段为T1-T2,最后将数据处理日志中的作业起始时间t落入T1-T2的初始SQL语句进行筛选出来,获得至少一个目标SQL语句。本实施例中,基于IP地址和作业起始时间来筛选SQL语句,保证提取出的SQL语句对应的是同一个数据生命线,从而保证后续确定出的数据血缘的准确性。
S140,基于至少一个目标数据库操作语句确定数据血缘关系。
其中,数据血缘关系包括表血缘关系及字段血缘关系。表血缘关系可以理解为数据在整个处理生命周期中所经过的表,以及各表的处理顺序。字段血缘关系可以理解数据在整个处理生命周期中所对应的字段,以及各字段的处理顺序。
可选的,基于至少一个目标数据库操作语句确定数据血缘关系的方式可以是:对至少一个目标数据库操作语句进行解析,获得每个目标数据库操作语句的源表与目标表关系,和/或,源字段与目标字段关系;基于各目标数据库操作语句的源表与目标表关系构建表血缘关系,基于各目标数据库操作数据的源字段与目标字段关系构建字段血缘关系。
其中,源表可以理解为根据SQL语句对操作数据时数据流出的表,目标表可以理解为根据该SQL语句操作数据时数据流入的表。源字段可以理解为数据在源表中对应的字段或者数据处理前对应的字段,目标字段可以理解为数据在目标表中对应的字段或者数据处理后的对应的字段。源表与目标表关系可以表示为:源表-目标表;源字段与目标字段关系可以表示为:源字段-目标字段。
某个表在其中一个SQL语句中为源表,在另一个SQL语句中可能为目标表。同样的,某个字段在其中一个SQL语句中为源字段,在另一个SQL语句中可能为目标字段。一个SQL语句对应的源表为1个或多个,对应的目标表也为1个或者多个。一个SQL语句对应的源字段为1个或多个,对应的目标字段也为1个或者多个。
当执行某个SQL语句时,数据可能在表间进行了转移,也可能只是在表内发生了变更。当数据在表间进行了转移,则可以获取到SQL语句对应的源表与目标表关系,以及,源字段与目标字段关系。当数据在表内发生了变更,则可以获取到SQL语句对应的源字段与目标字段关系。
具体的,基于各目标数据库操作语句的源表与目标表关系构建表血缘关系的方式可以是:将各个源表与目标表关系进行串联,获得表血缘关系。基于各目标数据库操作数据的源字段与目标字段关系构建字段血缘关系的方式可以是:源字段与目标字段关系进行串联,获得字段血缘关系。
可选的,基于各目标数据库操作语句的源表与目标表关系构建表血缘关系,基于各目标数据库操作数据的源字段与目标字段关系构建字段血缘关系的过程可以是:确定末端表;基于末端表对源表与目标表关系及源字段与目标字段关系进行过滤;基于过滤后的源表与目标表关系构建表血缘关系,基于过滤后的源字段与目标字段关系构建字段血缘关系。
其中,末端表可以是数据处理周期中最后流入的表,末端表可以包括1个或者多个。基于末端表对源表与目标表关系及源字段与目标字段关系进行过滤可以理解为:将与末端表无关的源表与目标表关系以及与末端表无关的源字段与目标字段关系过滤掉。本实施例中,对基于末端表对源表与目标表关系及源字段与目标字段关系进行过滤,可以提高数据血缘关系的准确性。
可选的,基于末端表对源表与目标表关系及源字段与目标字段关系进行过滤的方式可以是:从末端表开始基于源表与目标表关系向前追溯至起始表,获得多条表链路;从末端表对应的字段开始基于源字段与目标字段关系向前追溯至起始字段,获得多条字段链路;将未处于任意一条表链路的源表与目标表关系确定为无关联源表与目标表关系;将未处于任意一条字段链路的源字段与目标字段关系确定为无关联源字段与目标字段关系;将无关联源表与目标表关系及无关联源字段与目标字段关系过滤掉。
其中,起始字段可以数据在起始表中对应的字段,无关联源表与目标表关系可以理解为与末端表无关联的源表与目标表关系,无关联源字段与目标字段关系可以理解为与末端表无关联的源字段与目标字段关系。从末端表开始基于源表与目标表关系向前追溯至起始表的过程可以是:首先根据源表与目标表关系确定末端表作为目标表所对应的源表,然后确定该源表作为目标表所对应的源表,依次类推,一直回溯至起始表。从而获得多条该末端表对应的多条表链路。从所述末端表对应的字段开始基于所述源字段与目标字段关系向前追溯至起始字段的过程可以是:首先根据源字段与目标字段关系确定末端表对应的字段(也可以称之为末端字段)作为目标字段所对应的源字段,然后确定该源字段作为目标字段所对应的源字段,依次类推,一直回溯至起始字段。从而获得多条该末端字段对应的多条字段链路。
在获得多条表链路及多条字段链路后,将未处于任意一条表链路的源表与目标表关系确定为无关联源表与目标表关系,将未处于任意一条字段链路的源字段与目标字段关系确定为无关联源字段与目标字段关系,最后将无关联源表与目标表关系及无关联源字段与目标字段关系过滤掉。
具体的,基于过滤后的源表与目标表关系构建表血缘关系,基于过滤后的源字段与目标字段关系构建字段血缘关系的方式可以是:基于过滤后的源表与目标表关系将表进行连接,获得表连接网络;将表连接网络作为表血缘关系。
其中,基于过滤后的源表与目标表关系将表进行连接的过程可以是,从起始表开始,根据过滤后的源表与目标表关系依次往后连接表,直到连接至末端表。
具体的,基于过滤后的源字段与目标字段关系构建字段血缘关系的方式可以是:基于过滤后的源字段与目标字段关系将字段进行连接,获得字段连接网络;将字段连接网络作为字段血缘关系。
其中,基于过滤后的源字段与目标字段关系将字段进行连接可以是:从起始字段开始,根据过滤后的源字段与目标字段关系依次往后连接字段,直到连接至末端字段。
可选的,在基于至少一个目标数据库操作语句确定数据血缘关系之后,还包括如下步骤:基于作业运行记录中的作用运行时段对多个数据血缘关系划分业务场景。
其中,作用运行时段与业务场景具有对应关系,因此可以基于作业运行记录中的作用运行时段对多个数据血缘关系划分业务场景,获得各数据血缘关系所对应的业务场景。利于后续基于业务场景查询数据血缘关系。
可选的,该方法还包括:基于业务场景及末端表查询数据血缘关系,将查询的数据血缘关系进行展示。
具体的,用户想要查询某个业务场景的数据血缘关系时,将业务场景信息和末端表信息输入,系统根据业务场景及末端表查询对应的数据血缘关系,并将查询的数据血缘关系进行展示。本实施例中,可以从末端表出发往起始表依次展示表级关系以及表之间的字段对应关系。
本实施例的技术方案,获取数据处理日志、作业运行记录及设定映射关系;其中,设定映射关系为互联网协议地址与主机名称间的映射关系;对数据处理日志进行解析,获得多个初始数据库操作语句;基于作业运行记录及设定映射关系对多个初始数据库操作语句进行筛选,获得至少一个目标数据库操作语句;基于至少一个目标数据库操作语句确定数据血缘关系;其中,数据血缘关系包括表血缘关系及字段血缘关系。本发明实施例提供的数据血缘的确定方法,根据作业运行记录及所述设定映射关系对数据库操作语句进行筛选,以基于筛选后的数据库操作语句确定数据血缘关系,可以提高数据血缘关系确定的效率及准确性。
图2是本发明实施例提供的一种数据血缘的确定装置的结构示意图,如图2所示,该装置包括:
获取模块210,用于获取数据处理日志、作业运行记录及设定映射关系;其中,所述设定映射关系为互联网协议地址与主机名称间的映射关系;
初始数据库操作语句获取模块220,用于对所述数据处理日志进行解析,获得多个初始数据库操作语句;
目标数据库操作语句获取模块230,用于基于所述作业运行记录及所述设定映射关系对所述多个初始数据库操作语句进行筛选,获得至少一个目标数据库操作语句;
血缘关系确定模块240,用于基于所述至少一个目标数据库操作语句确定数据血缘关系;其中,所述数据血缘关系包括表血缘关系及字段血缘关系。
可选的,所述数据处理日志包括:互联网协议地址及作业起始时间;所述作业运行记录包括:作业运行时段及主机名称。
可选的,目标数据库操作语句获取模块230,还用于:
根据所述设定映射关系确定所述数据处理日志中的互联网协议地址对应的主机名称;
根据作业运行记录确定所述主机名称对应的作业运行时段;
将数据处理日志中的作业起始时间落入所述作业运行时段的初始数据库操作语句进行筛选出来,获得至少一个目标数据库操作语句。
可选的,血缘关系确定模块240,还用于:
对所述至少一个目标数据库操作语句进行解析,获得每个目标数据库操作语句的源表与目标表关系,和/或,源字段与目标字段关系;
基于各目标数据库操作语句的源表与目标表关系构建表血缘关系,基于各目标数据库操作数据的源字段与目标字段关系构建字段血缘关系。
可选的,血缘关系确定模块240,还用于:
确定末端表;
基于所述末端表对所述源表与目标表关系及所述源字段与目标字段关系进行过滤;
基于过滤后的源表与目标表关系构建表血缘关系,基于过滤后的源字段与目标字段关系构建字段血缘关系。
可选的,血缘关系确定模块240,还用于:
从所述末端表开始基于所述源表与目标表关系向前追溯至起始表,获得多条表链路;
从所述末端表对应的字段开始基于所述源字段与目标字段关系向前追溯至起始字段,获得多条字段链路;
将未处于任意一条表链路的源表与目标表关系确定为无关联源表与目标表关系;
将未处于任意一条字段链路的源字段与目标字段关系确定为无关联源字段与目标字段关系;
将所述无关联源表与目标表关系及所述无关联源字段与目标字段关系过滤掉。
可选的,血缘关系确定模块240,还用于:
基于过滤后的源表与目标表关系将表进行连接,获得表连接网络;
将所述表连接网络作为表血缘关系。
可选的,血缘关系确定模块240,还用于:
基于过滤后的源字段与目标字段关系将字段进行连接,获得字段连接网络;
将所述字段连接网络作为字段血缘关系。
可选的,还包括:业务场景划分模块,用于
基于所述作业运行记录中的作用运行时段对多个数据血缘关系划分业务场景。
可选的,还包括:展示模块,用于:基于所述业务场景及所述末端表查询数据血缘关系,将查询的数据血缘关系进行展示。
上述装置可执行本发明前述所有实施例所提供的方法,具备执行上述方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明前述所有实施例所提供的方法。
图3示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图3所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(ROM)12、随机访问存储器(RAM)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序,来执行各种适当的动作和处理。在RAM 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。
电子设备10中的多个部件连接至I/O接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如数据血缘的确定方法。
在一些实施例中,数据血缘的确定方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时,可以执行上文描述的数据血缘的确定方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行数据血缘的确定方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
本发明实施例还提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现如本申请任一实施例所提供的数据血缘的确定方法。
计算机程序产品在实现的过程中,可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言,诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (15)

1.一种数据血缘的确定方法,其特征在于,包括:
获取数据处理日志、作业运行记录及设定映射关系;其中,所述设定映射关系为互联网协议地址与主机名称间的映射关系;
对所述数据处理日志进行解析,获得多个初始数据库操作语句;
基于所述作业运行记录及所述设定映射关系对所述多个初始数据库操作语句进行筛选,获得至少一个目标数据库操作语句;
基于所述至少一个目标数据库操作语句确定数据血缘关系;其中,所述数据血缘关系包括表血缘关系及字段血缘关系。
2.根据权利要求1所述的方法,其特征在于,所述数据处理日志包括:互联网协议地址及作业起始时间;所述作业运行记录包括:作业运行时段及主机名称。
3.根据权利要求2所述的方法,其特征在于,基于所述作业运行记录及所述设定映射关系对所述多个初始数据库操作语句进行筛选,获得至少一个目标数据库操作语句,包括:
根据所述设定映射关系确定所述数据处理日志中的互联网协议地址对应的主机名称;
根据作业运行记录确定所述主机名称对应的作业运行时段;
将数据处理日志中的作业起始时间落入所述作业运行时段的初始数据库操作语句进行筛选出来,获得至少一个目标数据库操作语句。
4.根据权利要求1所述的方法,其特征在于,基于所述至少一个目标数据库操作语句确定数据血缘关系,包括:
对所述至少一个目标数据库操作语句进行解析,获得每个目标数据库操作语句的源表与目标表关系,和/或,源字段与目标字段关系;
基于各目标数据库操作语句的源表与目标表关系构建表血缘关系,基于各目标数据库操作数据的源字段与目标字段关系构建字段血缘关系。
5.根据权利要求4所述的方法,其特征在于,基于各目标数据库操作语句的源表与目标表关系构建表血缘关系,基于各目标数据库操作数据的源字段与目标字段关系构建字段血缘关系,包括:
确定末端表;
基于所述末端表对所述源表与目标表关系及所述源字段与目标字段关系进行过滤;
基于过滤后的源表与目标表关系构建表血缘关系,基于过滤后的源字段与目标字段关系构建字段血缘关系。
6.根据权利要求5所述的方法,其特征在于,基于所述末端表对所述源表与目标表关系及所述源字段与目标字段关系进行过滤,包括:
从所述末端表开始基于所述源表与目标表关系向前追溯至起始表,获得多条表链路;
从所述末端表对应的字段开始基于所述源字段与目标字段关系向前追溯至起始字段,获得多条字段链路;
将未处于任意一条表链路的源表与目标表关系确定为无关联源表与目标表关系;
将未处于任意一条字段链路的源字段与目标字段关系确定为无关联源字段与目标字段关系;
将所述无关联源表与目标表关系及所述无关联源字段与目标字段关系过滤掉。
7.根据权利要求5所述的方法,其特征在于,基于过滤后的源表与目标表关系构建表血缘关系,基于过滤后的源字段与目标字段关系构建字段血缘关系,包括:
基于过滤后的源表与目标表关系将表进行连接,获得表连接网络;
将所述表连接网络作为表血缘关系。
8.根据权利要求5所述的方法,其特征在于,基于过滤后的源字段与目标字段关系构建字段血缘关系,包括:
基于过滤后的源字段与目标字段关系将字段进行连接,获得字段连接网络;
将所述字段连接网络作为字段血缘关系。
9.根据权利要求5所述的方法,其特征在于,在基于所述至少一个目标数据库操作语句确定数据血缘关系之后,还包括:
基于所述作业运行记录中的作用运行时段对多个数据血缘关系划分业务场景。
10.根据权利要求9所述的方法,其特征在于,还包括:基于所述业务场景及所述末端表查询数据血缘关系,将查询的数据血缘关系进行展示。
11.一种数据血缘的确定装置,其特征在于,包括:
获取模块,用于获取数据处理日志、作业运行记录及设定映射关系;其中,所述设定映射关系为互联网协议地址与主机名称间的映射关系;
初始数据库操作语句获取模块,用于对所述数据处理日志进行解析,获得多个初始数据库操作语句;
目标数据库操作语句获取模块,用于基于所述作业运行记录及所述设定映射关系对所述多个初始数据库操作语句进行筛选,获得至少一个目标数据库操作语句;
血缘关系确定模块,用于基于所述至少一个目标数据库操作语句确定数据血缘关系;其中,所述数据血缘关系包括表血缘关系及字段血缘关系。
12.根据权利要求11所述的装置,其特征在于,所述数据处理日志包括:互联网协议地址及作业起始时间;所述作业运行记录包括:作业运行时段及主机名称。
13.一种电子设备,其特征在于,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-10中任一项所述的数据血缘的确定方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-10中任一所述的数据血缘的确定方法。
15.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序在被处理器执行时实现如权利要求1-10中任一项所述的数据血缘的确定方法。
CN202310929786.4A 2023-07-26 2023-07-26 数据血缘的确定方法、装置、设备、存储介质及程序产品 Pending CN117076577A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310929786.4A CN117076577A (zh) 2023-07-26 2023-07-26 数据血缘的确定方法、装置、设备、存储介质及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310929786.4A CN117076577A (zh) 2023-07-26 2023-07-26 数据血缘的确定方法、装置、设备、存储介质及程序产品

Publications (1)

Publication Number Publication Date
CN117076577A true CN117076577A (zh) 2023-11-17

Family

ID=88701423

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310929786.4A Pending CN117076577A (zh) 2023-07-26 2023-07-26 数据血缘的确定方法、装置、设备、存储介质及程序产品

Country Status (1)

Country Link
CN (1) CN117076577A (zh)

Similar Documents

Publication Publication Date Title
US11442930B2 (en) Method, apparatus, device and storage medium for data aggregation
CN113377809A (zh) 数据处理方法及装置,计算设备和介质
CN112528067A (zh) 图数据库的存储方法、读取方法、装置及设备
CN113609100A (zh) 数据存储方法、数据查询方法、装置及电子设备
CN116414814A (zh) 数据检核方法、装置、设备、存储介质和程序产品
CN114168119B (zh) 代码文件编辑方法、装置、电子设备以及存储介质
CN115048352B (zh) 一种日志字段提取方法、装置、设备和存储介质
CN116185389A (zh) 一种代码生成方法、装置、电子设备及介质
CN117076577A (zh) 数据血缘的确定方法、装置、设备、存储介质及程序产品
CN112860812B (zh) 在大数据中无侵入确定数据字段级关联关系的方法和装置
CN114817223A (zh) 业务数据提取方法、装置、电子设备和存储介质
CN117271840B (zh) 图数据库的数据查询方法、装置及电子设备
CN116070601B (zh) 数据拼接方法、装置、电子设备及存储介质
CN117609570A (zh) 基于图数据库的数据查询方法、装置、设备和介质
CN116401269A (zh) 一种数据查询方法、装置、电子设备及存储介质
CN117194471A (zh) 一种数据血缘分析方法、装置、介质、电子设备及产品
CN117032922A (zh) 一种作业重跑方法、装置、设备、介质及程序产品
CN117453706A (zh) 一种数据一致性监控方法、装置及电子设备
CN116841982A (zh) 数据库的迁移方法、装置、设备、存储介质及程序产品
CN117520368A (zh) 查询语句确定方法、装置、设备、介质及产品
CN117634429A (zh) 语句转换方法、装置、设备及存储介质
CN116010514A (zh) 元数据的同步方法、装置、设备、存储介质及产品
CN116909921A (zh) 一种数据质量检测方法、设备、装置及存储介质
CN115454977A (zh) 一种数据迁移方法、装置、设备和存储介质
CN117171165A (zh) 一种数据落库方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination