CN111723087A - 数据血缘关系的挖掘方法、装置、存储介质和电子设备 - Google Patents

数据血缘关系的挖掘方法、装置、存储介质和电子设备 Download PDF

Info

Publication number
CN111723087A
CN111723087A CN201910208945.5A CN201910208945A CN111723087A CN 111723087 A CN111723087 A CN 111723087A CN 201910208945 A CN201910208945 A CN 201910208945A CN 111723087 A CN111723087 A CN 111723087A
Authority
CN
China
Prior art keywords
data table
target
data
target source
source data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910208945.5A
Other languages
English (en)
Other versions
CN111723087B (zh
Inventor
李双义
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Wodong Tianjun Information Technology Co Ltd
Priority to CN201910208945.5A priority Critical patent/CN111723087B/zh
Publication of CN111723087A publication Critical patent/CN111723087A/zh
Application granted granted Critical
Publication of CN111723087B publication Critical patent/CN111723087B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例公开了一种数据血缘关系的挖掘方法、装置、存储介质和电子设备。该方法包括:依据目标源数据表生成预处理数据表,其中,所述预处理数据表中包含与所述目标源数据表对应的数据表标识,且所述数据表标识具有全局唯一性;获取在业务系统的业务运行过程中,对包含所述预处理数据表的各数据表进行数据处理后得到的至少一个衍生数据表;确定包含所述数据表标识的各目标衍生数据表;依据所述目标源数据表和各所述目标衍生数据表的生成时间,对所述目标源数据表和各所述目标衍生数据表进行排序,并依据排序结果确定对应的数据血缘关系。通过上述技术方案,实现了快速且准确地确定业务系统中数据的血缘关系。

Description

数据血缘关系的挖掘方法、装置、存储介质和电子设备
技术领域
本发明实施例涉及计算机技术,尤其涉及一种数据血缘关系的挖掘方法、装置、存储介质和电子设备。
背景技术
大数据时代,数据爆发性增长,海量的、各种类型的数据在快速产生。数据的产生、加工融合、流转流通,到最终消亡,数据之间自然会形成一种关系,称之为数据的血缘关系。通过对数据进行血缘分析,可以追溯到数据的来龙去脉,同时也可以追踪到业务系统数据影响的范围。
为了真实的描绘出数据的血缘关系,通常需要借助模型设计规范和系统工具的规范进行约束,并通过配置模型的来源表和目标表的方式来追踪模型的血缘图谱。目前,常用的数据血缘关系挖掘方法中一种是通过人工梳理数据模型的来源表与目标表得到数据血缘关系;另一种是通过数据加工层的命名规范,以及系统工具上来源表和目标表的填写获取数据血缘关系。
在实现本发明的过程中,发明人发现现有技术中存在以下技术问题:
在数据模型较多,尤其是数据模型每日发生大量的增删改的情况下,人工梳理血缘关系的方法无法保证数据血缘关系梳理的及时性和准确性;另外,在分模块程序开发或者高复杂度程序开发等情况下,现有的数据血缘关系分析的系统工具无法适用,导致业务系统中的很多数据模型无法有效地追溯其对应的血缘关系。
发明内容
本发明实施例提供一种数据血缘关系的挖掘方法、装置、存储介质和电子设备,以实现快速且准确地确定业务系统中数据的血缘关系。
第一方面,本发明实施例提供了一种数据血缘关系的挖掘方法,包括:
依据目标源数据表生成预处理数据表,其中,所述预处理数据表中包含与所述目标源数据表对应的数据表标识,且所述数据表标识具有全局唯一性;
获取在业务系统的业务运行过程中,对包含所述预处理数据表的各数据表进行数据处理后得到的至少一个衍生数据表;
确定包含所述数据表标识的各目标衍生数据表;
依据所述目标源数据表和各所述目标衍生数据表的生成时间,对所述目标源数据表和各所述目标衍生数据表进行排序,并依据排序结果确定对应的数据血缘关系。
第二方面,本发明实施例还提供了一种数据血缘关系的挖掘装置,该装置包括:
预处理数据表生成模块,用于依据目标源数据表生成预处理数据表,其中,所述预处理数据表中包含与所述目标源数据表对应的数据表标识,且所述数据表标识具有全局唯一性;
衍生数据表获取模块,用于获取在业务系统的业务运行过程中,对包含所述预处理数据表的各数据表进行数据处理后得到的至少一个衍生数据表;
目标衍生数据表确定模块,用于确定包含所述数据表标识的各目标衍生数据表;
数据血缘关系确定模块,用于依据所述目标源数据表和各所述目标衍生数据表的生成时间,对所述目标源数据表和各所述目标衍生数据表进行排序,并依据排序结果确定对应的数据血缘关系。
第三方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本发明任意实施例所提供的数据血缘关系的挖掘方法。
第四方面,本发明实施例还提供了一种电子设备,该电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例所提供的数据血缘关系的挖掘方法。
本发明实施例通过依据目标源数据表以及与该目标源数据表对应的具有全局唯一性的数据表标识生成预处理数据表,实现了目标源数据表中特殊数据标识的添加,从而为后续数据血缘关系的挖掘提供基础。通过获取业务系统中基于各个源数据表的数据处理而得到的至少一个衍生数据表,并从所有的衍生数据表中确定出包含上述数据表标识的各个目标衍生数据表,实现了与目标源数据表相关联的各个衍生数据表的查找,由于数据表标识具有全局唯一性,提高了目标衍生数据表的查找速度和准确性。通过依据源数据表、预处理数据表和各目标衍生数据表的生成时间,对源数据表、预处理数据表和各目标衍生数据表进行排序,并依据排序结果确定对应的数据血缘关系,实现了目标源数据表对应的数据血缘关系的挖掘,进一步提高了数据血缘关系的挖掘速度。
附图说明
图1是本发明实施例一中的一种数据血缘关系的挖掘方法的流程图;
图2是本发明实施例二中的一种数据血缘关系的挖掘方法的流程图;
图3是本发明实施例三中的一种数据血缘关系的挖掘装置的结构示意图;
图4是本发明实施例五中的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止,但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1为本发明实施例一提供的一种数据血缘关系的挖掘方法的流程示意图,该方法可适用于大数据平台中对数据管理时的数据血缘关系挖掘。本实施例中的数据血缘关系的挖掘方法可以由数据血缘关系的挖掘装置来执行,该装置可以由软件和/或硬件的方式实现,该装置可以集成在具有较大数据运算功能的电子设备中,例如笔记本电脑、台式电脑或服务器等。参见图1,本实施例的方法具体包括如下步骤:
步骤110、依据目标源数据表生成预处理数据表。
其中,目标源数据表是指当前需要处理的源数据表,该源数据表可以是业务系统中的原始数据表。一个业务系统中的源数据表可以是一个,也可以是多个。预处理数据表是指对目标源数据表进行预处理后所得的数据表。示例性地,预处理数据表中包含与目标源数据表对应的数据表标识,且数据表标识具有全局唯一性。其中,数据表标识是指一种具有全局唯一性的数据标识,其根据目标源数据表的相关信息生成,例如可以根据目标源数据表的表名、表头和表中数据等中的至少一种生成。预处理数据表便是向目标源数据表中添加数据表标识而生成的数据表。需要说明的是,上述的各数据表可以是数据模型中的数据表,也可以是数据文件中的数据表,还可以是普通的物理数据表。
本发明实施例的数据血缘关系挖掘从业务系统中的各个源数据表开始,且是逐个源数据表进行数据血缘关系挖掘。为了提高数据血缘关系挖掘的速度和准确性,本发明实施例向目标源数据表中添加与该目标源数据表对应的具有全局唯一性的数据表标识,且须保证该数据表标识随着目标源数据表的处理而不断流转,从而使得基于该目标源数据表而获得的各个中间处理过程中的数据表(即目标衍生数据表)中均包含该数据表标识。这样,便可通过该数据表标识将具有血缘关系的各个数据表关联起来,由此便可实现数据血缘关系的挖掘。
具体实施时,先根据目标源数据表的相关信息生成该目标源数据表的数据表标识。之后,将该数据表标识按照某种表元素添加规则添加至目标源数据表中,所获得的数据表便为预处理数据表。该预处理数据表也可理解为基于该目标源数据表的一个衍生数据表。
示例性地,依据目标源数据表生成预处理数据表包括:依据目标源数据表的表名、目标源数据表包含的字段数量及各字段的字段类型,生成数据表标识;按照预设标识添加规则,将数据表标识添加至目标源数据表,生成预处理数据表。
根据目标源数据表所包含的数据内容确定该目标源数据表所包含的字段数量,例如可以将目标源数据表的表头所包含的全部数据项(或部分有实际数据意义的有效数据项)的数量确定为字段数量;并且,根据上述确定的各个字段的数据类型来确定各字段的字段类型,如字符型、数值型或复杂数据类型等。之后,根据该目标源数据表的表名、字段数量和字段类型来生成数据表标识,例如可以是将上述三种元素进行字符的拆分及组合等。需要说明的是,生成目标源数据表的数据表标识的元素可以不限于上述三种,其可以根据具体业务场景而进行设置,例如还可以包括诸如数据模型或数据文件等表征数据表所属类别的标识。
生成数据表标识之后,按照预先设定的数据表标识添加规则(即预设标识添加规则),例如按列添加规则或按行添加规则等,将数据表标识添加至目标源数据表,便可生成预处理数据表。上述按列添加规则例如可以是向目标源数据表中新添加一个或多个字段,每个字段下所包含的数值为数据表标识,并且可以将该字段设置为在后续的数据处理中均保留的字段。上述行添加规则例如可以是向目标源数据表中新添加多行的数据记录,每条(行)添加的数据记录中至少包含一个数据表标识。这样设置的好处在于,可以增强数据表标识与目标源数据表的关联性,并且可以使得预处理数据表中包含更多的数据表标识,从而进一步提高后续各个衍生数据表中包含数据表标识的概率,进一步提高数据血缘关系挖掘的效率。
步骤120、获取在业务系统的业务运行过程中,对包含预处理数据表的各数据表进行数据处理后得到的至少一个衍生数据表。
在业务系统中,会随着业务的运行而对其中的各数据表进行数据处理,获得各个衍生数据表。例如对一个源数据表进行处理获得第一个衍生数据表。由于本发明实施例中对源数据表的处理便是上述添加数据表标识的操作,故该第一个衍生数据表便为上述预处理数据表。而后再基于该预处理数据表、该源数据表和该预处理数据表、其他源数据表以及其他源数据表生成的其他衍生数据表中的至少一个数据表进行处理,获得后续衍生数据表,以此类推,便可获得一个源数据表对应的多个衍生数据表。应当理解的是,业务系统中可能不止一个源数据表,故最终获得的各个衍生数据表并非全部与某一个源数据表对应。
步骤130、确定包含数据表标识的各目标衍生数据表。
利用数据表标识对业务系统中的全部衍生数据表进行遍历搜索,例如可以是将每个衍生数据表中的每个字段值均与数据表标识匹配。如果某个衍生数据表中有至少一个字段值与数据表标识一致,则说明该衍生数据表中包含数据表标识,则将该衍生数据表确定为一个目标衍生数据表。如上操作,便可确定出所有包含数据表标识的目标衍生数据表。
步骤140、依据目标源数据表和各目标衍生数据表的生成时间,对目标源数据表和各目标衍生数据表进行排序,并依据排序结果确定对应的数据血缘关系。
由于目标源数据表和各个目标衍生数据表中均包含数据表标识,故可以确定该目标源数据表与各目标衍生数据表之间具有数据间的血缘关系。之后,需要确定各个数据表之间具体的先后依赖关系(即数据血缘关系)。考虑到每个数据表均有其生成时间,且不同数据表的生成时间差异可以反映出各个数据表的生成先后关系,故本发明实施例中利用各个数据表的生成时间来确定数据表之间的先后依赖关系。具体实施时,根据目标源数据表和各个目标衍生数据表的生成时间,对目标源数据表和所有的目标衍生数据表进行排序,可以获得上述各数据表的排序结果。之后,可以根据该排序结果确定出目标源数据表和各目标衍生数据表之间的数据血缘关系。该数据血缘关系的表现形式可以是列表形式,也可以是图谱形式。
示例性地,依据排序结果确定对应的数据血缘关系包括:依据排序结果,以及各目标衍生数据表的来源表和目标表的追踪结果,生成对应的数据血缘关系图谱。
其中,来源表和目标表分别表示一个数据表的输入表和输出表。每个衍生数据表的来源表和目标表可以在数据处理过程中自动记录,也可以是人为梳理记录。
根据上述说明,虽然可以直接根据目标源数据表和各目标衍生数据表的排序结果进行数据血缘关系的确定,但是在一个源数据表对应的数据表链可能因为中间衍生数据表中未包含数据表标识而断开的情况下,以及在业务系统中的多个源数据表对应的数据表链之间建立完整的数据血缘关系的情况下,需要建立不同排序结果之间的数据血缘关系,这就需要在各个排序结果之外,额外依赖各个衍生数据表的来源表和目标表的追踪结果,以便更加准确地建立所需的数据血缘关系图谱。
本实施例的技术方案,通过依据目标源数据表以及与该目标源数据表对应的具有全局唯一性的数据表标识生成预处理数据表,实现了目标源数据表中特殊数据标识的添加,从而为后续数据血缘关系的挖掘提供基础。通过获取业务系统中基于各个源数据表的数据处理而得到的至少一个衍生数据表,并从所有的衍生数据表中确定出包含上述数据表标识的各个目标衍生数据表,实现了与目标源数据表相关联的各个衍生数据表的查找,由于数据表标识具有全局唯一性,提高了目标衍生数据表的查找速度和准确性。通过依据源数据表、预处理数据表和各目标衍生数据表的生成时间,对源数据表、预处理数据表和各目标衍生数据表进行排序,并依据排序结果确定对应的数据血缘关系,实现了目标源数据表对应的数据血缘关系的挖掘,进一步提高了数据血缘关系的挖掘速度。
在上述技术方案的基础上,该数据血缘关系的挖掘方法还包括:若检测到目标源数据表对应的当前衍生数据表中未包含数据表标识,则将当前衍生数据表确定为新的目标源数据表,并返回执行步骤110。
在业务运行过程中,需要及时检测基于目标源数据表生成的当前衍生数据表中是否包含有目标源数据表对应的数据表标识,若有,则直接进行后续数据处理操作;若没有,则说明目标源数据表对应的数据表链在当前衍生数据表处断开,此时需要将当前衍生数据表确定为新的目标源数据表,并返回执行步骤110,即根据当前衍生数据表的相关信息重新生成新的数据表标识,重新构建一个新的数据表链。这样设置的好处在于,确保各个衍生数据表中均包含基于某个源数据表生成的数据表标识,从而使得数据血缘关系的挖掘更加全面及完整。
实施例二
图2为本发明实施例二提供的一种数据血缘关系的挖掘方法的流程示意图,本实施例在上述实施例的基础上,对“依据目标源数据表的表名、目标源数据表包含的字段数量及各字段的字段类型,生成数据表标识”进行了进一步优化。在此基础上,还可以进一步对“按照预设标识添加规则,将数据表标识添加至目标源数据表,生成预处理数据表”进行优化。其中与上述各实施例相同或相应的术语的解释在此不再赘述。参见图2,本实施例提供的数据血缘关系的挖掘方法包括:
步骤210、依据目标源数据表的表名、目标源数据表包含的字段数量及各字段的字段类型,基于加密算法,生成数据表标识。
为了进一步确保数据表标识的全局唯一性,本实施例中采用加密算法,对目标源数据表的表名、字段数量和字段类型进行加密处理,生成目标源数据表对应的唯一的数据表标识。例如,对于表名为table1的目标源数据表,其所包含的字段有A、B和C三个,那么可以采用加密算法对table1、3和字符类型进行加密,获得该目标源数据表的数据表标识(如****)。
步骤220、从目标源数据表中确定设定条数的目标表记录。
其中,设定条数是预先设定的数值,其用于确定目标源数据表中参与预处理数据表生成的表记录的数量,例如可以是1,而为了增加预处理数据表中数据表标识的数量,设定条数也可以设置为2、3或更大的数值。目标表记录是指从目标源数据中选定的表记录,其用于预处理数据表的生成。示例性地,目标表记录中的各字段值均为与字段类型相符的数值。由于业务系统中的数据处理操作,可能使得数据表中的某些字段值与其对应的字段类型不符,这样的数据成为异常数据,包含异常数据的表记录也成为异常表记录。由于异常数据无法正常参与数据表处理,故为了提高预处理数据表中数据的可用性,本实施例中在选择目标表记录时需选择目标源数据表中的正常表记录,也就是选择每个字段值均与相应字段类型相符的表记录。
从目标源数据表中选择设定条数的表记录作为目标表记录。例如,对于表名为table1的目标源数据表,其所包含的字段有A、B和C,其中一条正常表记录为(a,b,c)。若设定条数为1,且选定的表记录为(a,b,c),那么该目标源数据表的目标表记录便为(a,b,c)。
步骤230、针对每条目标表记录,依据目标表记录中的各字段值、每个字段值在目标源数据表中的位置和数据表标识,基于排列组合方式,确定表生成数据,并依据表生成数据生成追加数据表。
其中,表生成数据是用于生成追加数据表的多个字段值,其所包含的字段值的数量与目标源数据表的列数一致。示例性地,表生成数据中包含至少一个数据表标识。由于需要将数据表标识添加至目标源数据表,且须确保新增添至目标源数据表的表记录不与目标源数据表中的表记录重复,故表生成数据中应当至少包含一个数据表标识。追加数据表是指需要添加至目标源数据表的数据表,其由表生成数据生成。示例性地,追加数据表的列数与目标源数据表的列数一致,且追加数据表的每列中包含至少一个与目标表记录中相应列的字段对应的字段值。为了确保追加数据表添加至目标源数据表后所得的预处理数据表在后续的数据处理过程中能够正常进行表关联操作,需要确保预处理数据表中的每个字段所属列中包含至少2个相同的字段值。考虑到预处理数据表中包含有目标表记录,故还需使得追加数据表的每列中包含至少一个与目标表记录中相应列的字段对应的字段值。例如,追加数据表的字段A所在列中包含至少一个目标记录表(a,b,c)中字段A对应的字段值a。
对于某一条目标记录表,从目标表记录中的各个字段值和数据表标识中任选n个包含数据表标识在内的字段值,这里n为目标源数据表的列数。例如,从a、b、c和****中任选3个字段值,且任选的字段值中包含至少一个****。接着,根据上述选定的数据表标识的数量,便可确定表生成数据中包含的目标表记录中的字段值的数量,例如任选3个字段值中包含1个数据表标识,那么表生成数据中便包含2个目标表记录中的字段值。此时,依据目标表记录中各字段值在目标源数据表中的位置,基于排列组合原理,可进一步确定出表生成数据中包含的目标表记录中的具体字段值,例如可以根据a、b、c所在列,以及表生成数据中包含2个目标表记录中的字段值,确定表生成数据为a、b、****,a、****、c,以及****、b、c中的至少一种数据组合。又如任选3个字段值中包含2个数据表标识,那么表生成数据中便只包含1个目标表记录中的字段值,则可确定表生成数据为a、****、****,****、b、****,以及****、****、c中的至少一种数据组合。最后,可以将上述确定的表生成数据作为追加数据表中的表记录,生成追加表数据。例如可以将表生成数据中的全部数据组合用于生成追加数据表,也可以选择其中的部分数据组合用于生成追加数据表,并且追加数据表中表记录的数据内容可以重复,也就是说,追加数据表中的表记录条数(也称为追加数据表的行数)不限定。
针对每条目标表记录均执行上述操作,便可获得每条目标表记录对应的追加数据表。后续便可基于这些追加数据表生成预处理数据表。
示例性地,依据目标表记录中的各字段值和数据表标识确定表生成数据,并对表生成数据进行基于排列组合方式,生成追加数据表包括:针对待生成的追加数据表,确定n-1种表记录生成方式,其中,每种表记录生成方式对应不同数量的数据表标识,n为列数;针对每种表记录生成方式,依据表记录生成方式对应的数据表标识的数量对数据表标识和目标表记录中的字段值进行排列组合,确定表记录生成方式对应的各数值排布结果;依据各数值排布结果生成追加数据表。
为了完善追加数据表以及在追加数据表生成逻辑下尽量多的在追加数据表中添加数据表生成标识,本实施例中根据表生成数据中数据表标识的数量,确定了n-1种表记录生成方式,每种表记录生成方式中所包含的数据表标识的数量均不同。例如,对于目标表记录(a,b,c),可以确定2种表记录生成方式,这两种表记录生成方式中的数据表标识的数量分别为1和2。在每种表记录生成方式中,根据数据表标识的数量确定该种表记录生成方式中包含的目标表记录中字段值的数量,再结合目标表记录中各字段值在目标源数据表中的位置,基于排列组合原理,确定出该种表记录生成方式对应的全部字段值排布结果。例如上述2种表记录生成方式对应的字段值排布结果分别为a、b、****,a、****、c,****、b、c,以及a、****、****,****、b、****,****、****、c。那么根据上述确定的每种表记录生成方式对应的全部字段值排布结果可以生成完整的追加数据表,该追加数据表的行数为(n*(n-1)),且其中的表记录不重复。例如,对于目标表记录(a,b,c),其对应的追加数据表如下:
Figure BDA0001999893710000131
Figure BDA0001999893710000141
步骤240、将各追加数据表均添加至目标源数据表,生成预处理数据表。
将每条目标表记录对应的追加数据表与目标源数据表合并,便可生成预处理数据表。追加数据表在目标源数据表中的合并位置和合并方式均不限定,例如合并位置可以在表头、表尾或表中,合并方式可以是各个追加数据表拼接后添加至目标源数据表,也可以是各个追加数据表分散地添加在目标源数据表中。
步骤250、获取在业务系统的业务运行过程中,对包含预处理数据表的各数据表进行数据处理后得到的至少一个衍生数据表。
步骤260、确定包含数据表标识的各目标衍生数据表。
步骤270、依据目标源数据表和各目标衍生数据表的生成时间,对目标源数据表和各目标衍生数据表进行排序,并依据排序结果确定对应的数据血缘关系。
本实施例的技术方案,通过依据目标源数据表的表名、目标源数据表包含的字段数量及各字段的字段类型,基于加密算法,生成数据表标识,达到了进一步提高数据表标识全局唯一性的技术效果。通过从目标源数据表中选择各字段值的数值类型与字段类型均相符的目标表记录,能够确保后续追加数据表中数据的正确性和有效性。通过依据目标表记录中的各字段值、每个字段值在目标源数据表中的位置和数据表标识,基于排列组合方式,确定表生成数据,并依据表生成数据生成追加数据表,能够在确保数据表的列数不变的情况下,进一步增加预处理数据表中包含的数据表标识的数量,从而达到了在不改变业务系统原有业务处理逻辑的前提下,进一步提高后续衍生数据表中包含数据表标识的概率,进而进一步提高数据血缘关系挖掘效率的技术效果。
实施例三
图3为本发明实施例三提供的一种数据血缘关系的挖掘装置的结构框图,该装置可由软件和/或硬件的方式实现,一般集成在电子设备中,可通过执行数据血缘关系的挖掘方法来确定数据血缘关系。如图3所示,该装置包括:
预处理数据表生成模块310,用于依据目标源数据表生成预处理数据表,其中,预处理数据表中包含与目标源数据表对应的数据表标识,且数据表标识具有全局唯一性;
衍生数据表获取模块320,用于获取在业务系统的业务运行过程中,对包含预处理数据表的各数据表进行数据处理后得到的至少一个衍生数据表;
目标衍生数据表确定模块330,用于确定包含数据表标识的各目标衍生数据表;
数据血缘关系确定模块340,用于依据目标源数据表和各目标衍生数据表的生成时间,对目标源数据表和各目标衍生数据表进行排序,并依据排序结果确定对应的数据血缘关系。
本发明实施例的数据血缘关系的挖掘装置,通过依据目标源数据表以及与该目标源数据表对应的具有全局唯一性的数据表标识生成预处理数据表,实现了目标源数据表中特殊数据标识的添加,从而为后续数据血缘关系的挖掘提供基础。通过获取业务系统中基于各个源数据表的数据处理而得到的至少一个衍生数据表,并从所有的衍生数据表中确定出包含上述数据表标识的各个目标衍生数据表,实现了与目标源数据表相关联的各个衍生数据表的查找,由于数据表标识具有全局唯一性,提高了目标衍生数据表的查找速度和准确性。通过依据源数据表、预处理数据表和各目标衍生数据表的生成时间,对源数据表、预处理数据表和各目标衍生数据表进行排序,并依据排序结果确定对应的数据血缘关系,实现了目标源数据表对应的数据血缘关系的挖掘,进一步提高了数据血缘关系的挖掘速度。
可选地,预处理数据表生成模块310包括:
数据表标识生成子模块,用于依据目标源数据表的表名、目标源数据表包含的字段数量及各字段的字段类型,生成数据表标识;
预处理数据表生成子模块,用于按照预设标识添加规则,将数据表标识添加至目标源数据表,生成预处理数据表。
其中,数据表标识生成子模块具体用于:
依据目标源数据表的表名、目标源数据表包含的字段数量及各字段的字段类型,基于加密算法,生成数据表标识。
其中,预处理数据表生成子模块具体用于:
从目标源数据表中确定设定条数的目标表记录,其中,目标表记录中的各字段值均为与字段类型相符的数值;
针对每条目标表记录,依据目标表记录中的各字段值、每个字段值在目标源数据表中的位置和数据表标识,基于排列组合方式,确定表生成数据,并依据表生成数据生成追加数据表,其中,表生成数据中包含至少一个数据表标识,追加数据表的列数与目标源数据表的列数一致,且追加数据表的每列中包含至少一个与目标表记录中相应列的字段对应的字段值;
将各追加数据表均添加至目标源数据表,生成预处理数据表。
进一步地,预处理数据表生成子模块具体用于:
针对待生成的追加数据表,确定n-1种表记录生成方式,其中,每种表记录生成方式对应不同数量的数据表标识,n为列数;
针对每种表记录生成方式,依据表记录生成方式对应的数据表标识的数量对数据表标识和目标表记录中的字段值进行排列组合,确定表记录生成方式对应的各数值排布结果;
依据各数值排布结果生成追加数据表。
可选地,在上述装置的基础上,该装置还包括:
循环模块,用于若检测到目标源数据表对应的当前衍生数据表中未包含数据表标识,则将当前衍生数据表确定为新的目标源数据表,并返回执行依据目标源数据表生成预处理数据表的步骤。
可选地,数据血缘关系确定模块340具体用于:
依据排序结果,以及各目标衍生数据表的来源表和目标表的追踪结果,生成对应的数据血缘关系图谱。
本发明实施例所提供的数据血缘关系的挖掘装置可执行本发明任意实施例所提供的数据血缘关系的挖掘方法,具备执行方法相应的功能模块和有益效果。
值得注意的是,上述数据血缘关系的挖掘装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
实施例四
本实施例提供一种包含计算机可执行指令的存储介质,计算机可执行指令在由计算机处理器执行时用于执行一种数据血缘关系的挖掘方法,该方法包括:
依据目标源数据表生成预处理数据表,其中,预处理数据表中包含与目标源数据表对应的数据表标识,且数据表标识具有全局唯一性;
获取在业务系统的业务运行过程中,对包含预处理数据表的各数据表进行数据处理后得到的至少一个衍生数据表;
确定包含数据表标识的各目标衍生数据表;
依据目标源数据表和各目标衍生数据表的生成时间,对目标源数据表和各目标衍生数据表进行排序,并依据排序结果确定对应的数据血缘关系。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上的方法操作,还可以执行本发明任意实施例所提供的数据血缘关系的挖掘方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台电子设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所提供的数据血缘关系的挖掘方法。
实施例五
图4为本发明实施例提供的一种电子设备的结构框图。参见图4,本实施例提供了一种电子设备,其包括:一个或多个处理器420;存储装置410,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器420执行,使得一个或多个处理器420实现本发明实施例所提供的数据血缘关系的挖掘方法,包括:
依据目标源数据表生成预处理数据表,其中,预处理数据表中包含与目标源数据表对应的数据表标识,且数据表标识具有全局唯一性;
获取在业务系统的业务运行过程中,对包含预处理数据表的各数据表进行数据处理后得到的至少一个衍生数据表;
确定包含数据表标识的各目标衍生数据表;
依据目标源数据表和各目标衍生数据表的生成时间,对目标源数据表和各目标衍生数据表进行排序,并依据排序结果确定对应的数据血缘关系。
当然,本领域技术人员可以理解,处理器420还可以实现本发明任意实施例所提供的数据血缘关系的挖掘方法的技术方案。
图4显示的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。如图4所示,该电子设备包括处理器420、存储装置410、输入装置430和输出装置440;电子设备中处理器420的数量可以是一个或多个,图4中以一个处理器420为例;电子设备中的处理器420、存储装置410、输入装置430和输出装置440可以通过总线或其他方式连接,图4中以通过总线450连接为例。
存储装置410作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的数据血缘关系的挖掘方法对应的程序指令/模块(例如,数据血缘关系的挖掘装置中的预处理数据表生成模块、衍生数据表获取模块、目标衍生数据表确定模块和数据血缘关系确定模块)。
存储装置410可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储装置410可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储装置410可进一步包括相对于处理器420远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置430可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏等显示设备。
本发明实施例提供的电子设备,通过依据目标源数据表以及与该目标源数据表对应的具有全局唯一性的数据表标识生成预处理数据表,实现了目标源数据表中特殊数据标识的添加,从而为后续数据血缘关系的挖掘提供基础。通过获取业务系统中基于各个源数据表的数据处理而得到的至少一个衍生数据表,并从所有的衍生数据表中确定出包含上述数据表标识的各个目标衍生数据表,实现了与目标源数据表相关联的各个衍生数据表的查找,由于数据表标识具有全局唯一性,提高了目标衍生数据表的查找速度和准确性。通过依据源数据表、预处理数据表和各目标衍生数据表的生成时间,对源数据表、预处理数据表和各目标衍生数据表进行排序,并依据排序结果确定对应的数据血缘关系,实现了目标源数据表对应的数据血缘关系的挖掘,进一步提高了数据血缘关系的挖掘速度。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种数据血缘关系的挖掘方法,其特征在于,包括:
依据目标源数据表生成预处理数据表,其中,所述预处理数据表中包含与所述目标源数据表对应的数据表标识,且所述数据表标识具有全局唯一性;
获取在业务系统的业务运行过程中,对包含所述预处理数据表的各数据表进行数据处理后得到的至少一个衍生数据表;
确定包含所述数据表标识的各目标衍生数据表;
依据所述目标源数据表和各所述目标衍生数据表的生成时间,对所述目标源数据表和各所述目标衍生数据表进行排序,并依据排序结果确定对应的数据血缘关系。
2.根据权利要求1所述的方法,其特征在于,所述依据目标源数据表生成预处理数据表包括:
依据所述目标源数据表的表名、所述目标源数据表包含的字段数量及各字段的字段类型,生成所述数据表标识;
按照预设标识添加规则,将所述数据表标识添加至所述目标源数据表,生成所述预处理数据表。
3.根据权利要求2所述的方法,其特征在于,所述依据所述目标源数据表的表名、所述目标源数据表包含的字段数量及各字段的字段类型,生成所述数据表标识包括:
依据所述目标源数据表的表名、所述目标源数据表包含的字段数量及各字段的字段类型,基于加密算法,生成所述数据表标识。
4.根据权利要求2所述的方法,其特征在于,所述按照预设标识添加规则,将所述数据表标识添加至所述目标源数据表,生成所述预处理数据表包括:
从所述目标源数据表中确定设定条数的目标表记录,其中,所述目标表记录中的各字段值均为与字段类型相符的数值;
针对每条所述目标表记录,依据所述目标表记录中的各字段值、每个字段值在所述目标源数据表中的位置和所述数据表标识,基于排列组合方式,确定表生成数据,并依据所述表生成数据生成追加数据表,其中,所述表生成数据中包含至少一个所述数据表标识,所述追加数据表的列数与所述目标源数据表的列数一致,且所述追加数据表的每列中包含至少一个与所述目标表记录中相应列的字段对应的字段值;
将各所述追加数据表均添加至所述目标源数据表,生成所述预处理数据表。
5.根据权利要求4所述的方法,其特征在于,所述依据所述目标表记录中的各字段值、每个字段值在所述目标源数据表中的位置和所述数据表标识,基于排列组合方式,确定表生成数据,并依据所述表生成数据生成追加数据表包括:
针对待生成的追加数据表,确定n-1种表记录生成方式,其中,每种表记录生成方式对应不同数量的所述数据表标识,n为所述列数;
针对每种所述表记录生成方式,依据所述表记录生成方式对应的所述数据表标识的数量对所述数据表标识和所述目标表记录中的字段值进行排列组合,确定所述表记录生成方式对应的各数值排布结果;
依据各所述数值排布结果生成所述追加数据表。
6.根据权利要求1所述的方法,其特征在于,还包括:
若检测到所述目标源数据表对应的当前衍生数据表中未包含所述数据表标识,则将所述当前衍生数据表确定为新的目标源数据表,并返回执行依据目标源数据表生成预处理数据表的步骤。
7.根据权利要求1-6中任一项所述的方法,其特征在于,所述依据排序结果确定对应的数据血缘关系包括:
依据所述排序结果,以及各所述目标衍生数据表的来源表和目标表的追踪结果,生成对应的数据血缘关系图谱。
8.一种数据血缘关系的挖掘装置,其特征在于,包括:
预处理数据表生成模块,用于依据目标源数据表生成预处理数据表,其中,所述预处理数据表中包含与所述目标源数据表对应的数据表标识,且所述数据表标识具有全局唯一性;
衍生数据表获取模块,用于获取在业务系统的业务运行过程中,对包含所述预处理数据表的各数据表进行数据处理后得到的至少一个衍生数据表;
目标衍生数据表确定模块,用于确定包含所述数据表标识的各目标衍生数据表;
数据血缘关系确定模块,用于依据所述目标源数据表和各所述目标衍生数据表的生成时间,对所述目标源数据表和各所述目标衍生数据表进行排序,并依据排序结果确定对应的数据血缘关系。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一所述的数据血缘关系的挖掘方法。
10.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的数据血缘关系的挖掘方法。
CN201910208945.5A 2019-03-19 2019-03-19 数据血缘关系的挖掘方法、装置、存储介质和电子设备 Active CN111723087B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910208945.5A CN111723087B (zh) 2019-03-19 2019-03-19 数据血缘关系的挖掘方法、装置、存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910208945.5A CN111723087B (zh) 2019-03-19 2019-03-19 数据血缘关系的挖掘方法、装置、存储介质和电子设备

Publications (2)

Publication Number Publication Date
CN111723087A true CN111723087A (zh) 2020-09-29
CN111723087B CN111723087B (zh) 2023-11-10

Family

ID=72562437

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910208945.5A Active CN111723087B (zh) 2019-03-19 2019-03-19 数据血缘关系的挖掘方法、装置、存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN111723087B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112527796A (zh) * 2020-12-10 2021-03-19 中移(杭州)信息技术有限公司 数据表处理方法、装置及计算机可读存储介质
CN112817984A (zh) * 2021-02-22 2021-05-18 杭州数梦工场科技有限公司 数据处理方法及装置、数据来源获取方法及装置
CN113990068A (zh) * 2021-10-27 2022-01-28 阿波罗智联(北京)科技有限公司 交通数据的处理方法、装置、设备以及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050228767A1 (en) * 2004-04-13 2005-10-13 International Business Machines Corporation Method, system and program product for developing a data model in a data mining system
CN106709024A (zh) * 2016-12-28 2017-05-24 深圳市华傲数据技术有限公司 基于血缘分析进行数据表溯源的方法及装置
CN107239467A (zh) * 2016-03-29 2017-10-10 北京神州泰岳软件股份有限公司 基于数据库的数据处理方法及装置
CN107291672A (zh) * 2016-03-31 2017-10-24 阿里巴巴集团控股有限公司 数据表的处理方法和装置
US20180039680A1 (en) * 2016-08-04 2018-02-08 International Business Machines Corporation Model-driven profiling job generator for data sources
CN108846039A (zh) * 2018-05-29 2018-11-20 新华三大数据技术有限公司 数据流向确定方法及装置
CN109299073A (zh) * 2018-10-19 2019-02-01 杭州数梦工场科技有限公司 一种数据血缘的生成方法、系统、电子设备和存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050228767A1 (en) * 2004-04-13 2005-10-13 International Business Machines Corporation Method, system and program product for developing a data model in a data mining system
CN107239467A (zh) * 2016-03-29 2017-10-10 北京神州泰岳软件股份有限公司 基于数据库的数据处理方法及装置
CN107291672A (zh) * 2016-03-31 2017-10-24 阿里巴巴集团控股有限公司 数据表的处理方法和装置
US20180039680A1 (en) * 2016-08-04 2018-02-08 International Business Machines Corporation Model-driven profiling job generator for data sources
CN106709024A (zh) * 2016-12-28 2017-05-24 深圳市华傲数据技术有限公司 基于血缘分析进行数据表溯源的方法及装置
CN108846039A (zh) * 2018-05-29 2018-11-20 新华三大数据技术有限公司 数据流向确定方法及装置
CN109299073A (zh) * 2018-10-19 2019-02-01 杭州数梦工场科技有限公司 一种数据血缘的生成方法、系统、电子设备和存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112527796A (zh) * 2020-12-10 2021-03-19 中移(杭州)信息技术有限公司 数据表处理方法、装置及计算机可读存储介质
CN112527796B (zh) * 2020-12-10 2023-07-21 中移(杭州)信息技术有限公司 数据表处理方法、装置及计算机可读存储介质
CN112817984A (zh) * 2021-02-22 2021-05-18 杭州数梦工场科技有限公司 数据处理方法及装置、数据来源获取方法及装置
CN112817984B (zh) * 2021-02-22 2023-10-20 杭州数梦工场科技有限公司 数据处理方法及装置、数据来源获取方法及装置
CN113990068A (zh) * 2021-10-27 2022-01-28 阿波罗智联(北京)科技有限公司 交通数据的处理方法、装置、设备以及存储介质
CN113990068B (zh) * 2021-10-27 2023-02-24 阿波罗智联(北京)科技有限公司 交通数据的处理方法、装置、设备以及存储介质

Also Published As

Publication number Publication date
CN111723087B (zh) 2023-11-10

Similar Documents

Publication Publication Date Title
US11487772B2 (en) Multi-party data joint query method, device, server and storage medium
CN106709024B (zh) 基于血缘分析进行数据表溯源的方法及装置
CN111723087A (zh) 数据血缘关系的挖掘方法、装置、存储介质和电子设备
CN109783543B (zh) 数据查询方法、装置、设备和存储介质
US10671610B2 (en) Processing window partitioning and ordering for on-line analytical processing (OLAP) functions
CN104239567A (zh) 数据仓库中的维度处理方法和装置
CN113468571B (zh) 基于区块链的溯源方法
CN104537012A (zh) 数据处理方法和装置
CN110826057B (zh) 数据处理路径的分析方法、计算机设备、存储介质
CN106874243B (zh) 基于字符串的公式处理方法及装置
CN112825068B (zh) 数据血缘生成方法及装置
CN113220588A (zh) 一种数据处理的自动化测试方法、装置、设备及存储介质
CN107544894B (zh) 一种日志处理的方法、装置及服务器
CN104572904A (zh) 一种标签关联程度的确定方法及装置
CN111221690A (zh) 针对集成电路设计的模型确定方法、装置及终端
CN106776704B (zh) 统计信息收集方法和装置
CN104991963B (zh) 文件处理方法和装置
CN110457064B (zh) 网络割接脚本的生成方法及装置
US8607175B1 (en) Identifying logic blocks in a synthesized logic design that have specified inputs
CN112433943A (zh) 基于抽象语法树的环境变量检测方法、装置、设备及介质
CN117271459B (zh) 一种基于共享数据库的数据处理方法
CN115248803B (zh) 适用于网盘文件的收藏方法、装置、网盘及存储介质
US11930026B1 (en) Automating interactions with web services
CN117493185A (zh) 软件程序的确定方法和装置、存储介质及电子设备
CN104808985A (zh) 应用程序中对象的管理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant