CN110019116B - 数据追溯方法、装置、数据处理设备及计算机存储介质 - Google Patents

数据追溯方法、装置、数据处理设备及计算机存储介质 Download PDF

Info

Publication number
CN110019116B
CN110019116B CN201710882930.8A CN201710882930A CN110019116B CN 110019116 B CN110019116 B CN 110019116B CN 201710882930 A CN201710882930 A CN 201710882930A CN 110019116 B CN110019116 B CN 110019116B
Authority
CN
China
Prior art keywords
data
field
input
output
conversion algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710882930.8A
Other languages
English (en)
Other versions
CN110019116A (zh
Inventor
吕燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing ZTE New Software Co Ltd
Original Assignee
Nanjing ZTE New Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing ZTE New Software Co Ltd filed Critical Nanjing ZTE New Software Co Ltd
Priority to CN201710882930.8A priority Critical patent/CN110019116B/zh
Publication of CN110019116A publication Critical patent/CN110019116A/zh
Application granted granted Critical
Publication of CN110019116B publication Critical patent/CN110019116B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/214Database migration support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/219Managing data history or versioning

Abstract

本发明提供了一种数据追溯方法、装置、数据处理设备及计算机存储介质,通过获取待追溯的目标数据处理流程,再获取目标数据处理流程中各数据转换算法节点的输入及输出数据的字段列表,并获取输入及输出字段列表中各字段的映射关系,从而根据字段列表以及各数据转换算法节点输入及输出字段列表中各字段的映射关系,生成目标数据处理流程的数据迁移关系图,最后调用数据迁移关系图对待追溯数据进行追溯。这样,通过数据转换算法节点来得到数据被转换数据转换前后的各字段映射关系,并进一步得到可表征数据字段间迁移关系的数据迁移关系图,这就使得在进行数据追溯时,可以追溯到数据字段级的数据来源于加工方式,极大地提高了数据追溯的精细度。

Description

数据追溯方法、装置、数据处理设备及计算机存储介质
技术领域
本发明涉及数据处理领域,尤其涉及一种数据追溯方法、装置、数据处理设备及计算机存储介质。
背景技术
近些年来,随着数据处理技术的不断发展,尤其是大数据处理技术的不断发展,越来越多的信息被数据化。在面对海量数据时,识别数据来源变得十分困难,数据来源的追溯已经成为数据管理的一个巨大挑战。
当前,在数据的处理过程中,各大厂商往往采用定制化的处理系统来对特定类别的数据进行处理。通过多个输入数据集和定制化的处理系统的数据处理,即可得到输出数据集。因此,根据现有的处理流程,我们可以很容易的获知数据输出的数据集对应的输入数据集的关系,即我们能够知道输出数据集(如数据表、数据文件)来自哪些输入数据集(如数据表、数据文件)。但是,由于在定制化的处理系统中对各输入数据集的数据处理关系不明确,我们若想进一步获得数据集中字段间的对应关系则非常困难。而随着数据处理技术的不断发展,对于数据追溯的精细度要求也越来越高。因此,提供一种更精细的数据追溯方法就十分有必要了。
发明内容
本发明实施例提供的一种数据追溯方法、装置、数据处理设备及计算机存储介质,主要解决的技术问题是:根据现有方法仅能进行数据集上的数据追溯,无法进行字段间的数据追溯的问题。
为解决上述技术问题,本发明实施例提供了一种数据追溯方法,包括:
获取待追溯的目标数据处理流程,所述目标数据处理流程由目标输入数据集、目标输出数据集、以及数据转换节点集构成,所述数据转换节点集用于将输入所述目标输入数据集中的数据进行处理后输出到所述目标输出数据集中,所述数据转换节点集中包含至少一个数据转换算法节点或一个以上级联的数据转换算法节点,所述数据转换算法节点包含被转换数据转换前后的各字段映射关系;
获取各所述数据转换算法节点输入及输出数据的字段列表之字段内容,并根据各所述数据转换算法节点的被转换数据转换前后的各字段映射关系,得到输入及输出字段列表中各字段内容的映射关系;
根据各所述数据转换算法节点输入及输出字段列表中各字段内容的映射关系,生成所述目标数据处理流程的数据迁移关系图;
根据数据追溯指令调用所述数据迁移关系图进行数据追溯。
本发明实施例还提供一种数据追溯系统,包括:
数据迁移关系图生成模块,用于获取待追溯的目标数据处理流程,所述目标数据处理流程由目标输入数据集、目标输出数据集、以及数据转换节点集构成,所述数据转换节点集用于将输入所述目标输入数据集中的数据进行处理后输出到所述目标输出数据集中,所述数据转换节点集中包含至少一个数据转换算法节点或一个以上级联的数据转换算法节点,所述数据转换算法节点包含被转换数据转换前后的各字段映射关系;并用于获取各所述数据转换算法节点输入及输出数据的字段列表之字段内容,并根据各所述数据转换算法节点的被转换数据转换前后的各字段映射关系,得到输入及输出字段列表中各字段内容的映射关系;以及用于根据各所述数据转换算法节点输入及输出字段列表中各字段内容的映射关系,生成所述目标数据处理流程的数据迁移关系图;
数据追溯模块,用于根据数据追溯指令调用所述数据迁移关系图对进行数据追溯。
本发明实施例还提供一种数据处理设备,包括:处理器、存储器及通信总线;
所述通信总线用于实现所述处理器和所述存储器之间的连接通信;
所述处理器用于执行所述存储器中存储的一个或者多个程序,以实现上述的数据追溯方法的步骤。
本发明实施例还提供一种计算机存储介质,所述计算机存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述的数据追溯方法的步骤。
本发明的有益效果是:
根据本发明实施例提供的数据追溯方法、装置、数据处理设备及计算机存储介质,通过获取待追溯的目标数据处理流程(目标数据处理流程由目标输入数据集、目标输出数据集、以及将输入目标输入数据集中的数据进行处理后输出到目标输出数据集中的数据转换节点集,数据转换节点集中包含至少一个或一个以上级联的数据转换算法节点,数据转换算法节点包含被转换数据转换前后的各字段映射关系),再获取各数据转换算法节点的输入及输出数据的字段列表,并获取输入及输出字段列表中各字段的映射关系,从而根据字段列表以及各数据转换算法节点输入及输出字段列表中各字段的映射关系,生成目标数据处理流程的数据迁移关系图,最后根据数据追溯指令调用数据迁移关系图对待追溯数据进行追溯。这样,通过数据转换算法节点来得到数据被转换数据转换前后的各字段映射关系,并进一步得到可表征数据字段间迁移关系的数据迁移关系图,这就使得在进行数据追溯时,可以追溯到数据字段级的数据来源于加工方式,极大地提高了数据追溯的精细度。
附图说明
图1为本发明实施例一的一种数据追溯方法的流程示意图;
图2为本发明实施例一的针对图1中步骤S102提供的一种具体的数据获取流程示意图;
图3为本发明实施例一的一种数据库中数据流向视图;
图4为本发明实施例一的一种数据集关联视图;
图5为本发明实施例一的一种数据字段间关系映射图;
图6为本发明实施例二的一种数据追溯装置的结构示意图;
图7为本发明实施例二的一种数据处理设备的结构示意图;
图8为本发明实施例三的一种数据处理系统功能图;
图9为本发明实施例三的一种数据分析系统功能图;
图10为本发明实施例三的一种数据处理流程对象的具体生成框图。
具体实施方式
下面通过具体实施方式结合附图对本发明实施例作进一步详细说明。
实施例一:
为提高数据追溯的精细度,实现数据字段级的追溯,本实施例中提供了一种数据追溯方法,参见图1,图1为本实施例提供的一种数据追溯方法的流程示意图,包括:
S101:获取待追溯的目标数据处理流程;
在本实施例中,目标数据处理流程由目标输入数据集、目标输出数据集、以及将输入目标输入数据集中的数据进行处理后输出到目标输出数据集中的数据转换节点集构成。其中,数据转换节点集中可以仅包含一个数据转换算法节点,也可以包含两个或两个以上数据转换算法节点。当数据转换节点集中包含两个或两个以上数据转换算法节点时,各数据转换算法节点之间级联,即各数据转换算法节点中,前一数据转换算法节点的输出即构成下一数据转换算法节点的输入。
在本实施例中,各数据转换算法节点包含被转换数据转换前后的各字段映射关系。即通过各数据转换算法节点中的各数据转换算法可完整体现出输入数据和输出数据各字段间的映射关系。应当理解的是,在本实施例中,数据集中存在有各数据对应的字段列表,输入数据和输出数据各字段间的映射关系即是各数据转换算法节点的输入数据集字段列表中各字段和输出数据集字段列表中各字段的映射关系。例如设数据转换算法节点为一个加法节点,其必然可以得到输入字段和输出字段的映射关系,设输入的有A、B两个数据进行相加,A的字段包括a、b,B的字段也包括啊a、b,输出的数据c必然也包含字段a、b,其中A和B的字段a对应输出的字段a,A和B的字段b对应输出的字段b。值得注意的是,在数据集中存在的字段列表可能不止一张,因此,输入数据集字段列表中各字段和输出数据集字段列表中各字段的映射关系中还实质包含有各输入字段列表和输出字段列表之间的映射关系。
此时,一种较优的方式是:在各数据转换算法节点中采用单一功能算法。利用单一功能算法准确获取数据输出字段与数据输入字段之间的算法表达式。例如:采用数据集连接算法,数据集连接算法提供左右接后的连接、内外连接方式,连接后数据输出字段与连接前的数据输入字段可以找到一一映射关系,数据集连接算法自身即可提供输入的数据集中字段与输出数据集中字段之间的映射关系。又例如:采用字符串常用算法,字符串常用算法提供子串,字符串连接,大小写等运算,每个运算仅设置一个或2个参数,根据字符串常用算法的算法表达式可以找到所有关联的输入数据集字段和输出数据集字段,即字符串常用算法自身可提供输入的数据集中字段与输出数据集中字段之间的映射关系。即,本实施例中各数据转换算法节点为单一功能算法节点,各单一功能算法节点包含数据的字段映射关系。
应当理解的是,在本实施例中,对于数据处理流程实质可以等效于一个管道模型,通过封装输入数据集和数据转换算法库(数据转换算法库中包含实现各种单一功能算法的算法组件),在需要建模对某些数据集进行处理时,可以调去这些数据集构成输入数据集并选取数据转换算法库中相应的算法组件构建管道模型,各算法组件即构成管道中的节点。输入数据集再根据该建立好的模型中的处理流程依次进行数据处理,最终得到输出数据集。
应当理解的是,在实际应用过程中,数据处理流程有很多,步骤S101即是从所有的数据处理流程中选定并提取出待追溯的数据处理流程。对于待追溯的数据处理流程而言,其可能是已将数据处理完毕的数据处理流程,也可能是已设定,但还未对确定的输入数据集进行数据处理或数据处理还未完成的数据处理流程。
S102:获取各数据转换算法节点的输入及输出数据的字段列表之字段内容,并根据各数据转换算法节点的被转换数据转换前后的各字段映射关系,得到输入及输出字段列表中各字段内容的映射关系;
在本实施中,存在两种获取各数据转换算法节点的输入及输出数据的字段列表之字段内容,并根据各数据转换算法节点的被转换数据转换前后的各字段映射关系,得到输入及输出字段列表中各字段内容的映射关系的方式:
其一:参见图2所示,其获取过程包括:
S1021:获取目标数据处理流程中目标输入数据集中各输入数据的字段列表之字段内容;
应当理解的是,在本实施例中,一个数据处理流程中可能存在多个输入数据集,这多个输入数据集共同被处理之后才得到最终的输出数据集。因此,目标输入数据集可能不止一个,在获取目标输入数据集的字段列表之字段内容时,需要获取到所有目标输入数据集的所有字段列表之字段内容。
S1022:将获取到的字段列表之字段内容依次带入数据转换节点集中,得到各数据转换算法节点输出数据的字段列表之字段内容;
在数据的实际处理过程中,数据转换节点集中的各数据转换算法节点实质是对输入各数据转换算法节点中的数据集的数据进行处理,而数据集中的数据的字段形式即通过数据集中的字段列表来体现。数据转换节点在进行数据处理时,即会得到各输入数据字段列表中的字段内容与各输出数据字段列表中的字段内容的映射关系。例如,可以得到A输入数据字段列表中的a字段内容和b字段内容分别对应C输出数据列表中的a字段内容和b字段内容,B输入数据字段列表中的a字段内容和c字段内容分别对应C输出数据字段列表中的a字段内容和c字段内容。应当理解的是,由于一个输出数据集可能是由多个输入数据集被处理后得到的,因此一个输出数据集中的字段内容可能同时对应多个输入数据集中的字段内容。
S1023:获取数据转换节点集中各数据转换算法节点输入字段列表中各字段内容和输出字段列表中各字段内容的映射关系。
应当理解的是,上述获取过程不要求目标输入数据集已被处理,只需要目标数据处理流程中目标输入数据集和数据转换节点集已经明确,即可分析得到各数据转换算法节点的输入及输出数据的字段列表及字段列表的字段内容,以及输入及输出字段列表中各字段内容的映射关系。若获取到的目标数据处理流程是已将数据处理完毕的数据处理流程,此时还可以通过获取到的目标输出数据集对分析得到的输出结果进行验证,从而保证分析得到各数据转换算法节点的输入及输出数据的字段列表,以及输入及输出字段列表中各字段内容的映射关系的准确性。
其二:在获取待追溯的目标数据处理流程之前,必需要进行数据处理。具体的,存在以下数据处理过程:
根据预设数据处理流程对目标输入数据集进行处理,并在数据处理过程中保存各数据转换算法节点输出数据的字段列表之字段内容,以及各数据转换算法节点中各输入字段列表与各输出字段列表的映射关系。
值得注意的是,在本实施例中,会将预设数据处理流程是作为目标数据处理流程。即目标数据处理流程和预设数据处理流程完全相同。
应当理解的是,在数据处理过程中保存的是各数据转换算法节点进行数据转换前后的各数据集中各字段列表间的映射关系。对于数据集而言,其可能存在不止一个字段列表,因此在数据转换算法节点输出的也可能不止一个字段列表。在本实施例,数据处理过程中保存的即是输出后的某一字段列表与输入的字段列表中的某几个的对应关系。例如,存在输入数据集A和输入数据集B,输出数据集C,A有字段列表a1和a2,B有字段列表b1和b2,在进过数据转换算法节点处理后,a1和b1得到C的字段列表c1,a2和b2得到C的字段列表c2,则此时保存各字段列表间的映射关系a1和b1对应c1,a2和b2对应c2。
在获取各数据转换算法节点的输入及输出数据的字段列表之字段内容时,直接获取目标输入数据集的字段列表的字段内容和在数据处理过程中保存的各数据转换算法节点输出数据的字段列表的字段内容。
在获取输入及输出字段列表中各字段的映射关系时,直接获取在数据处理过程中保存的各数据转换算法节点中各输入字段列表与各输出字段列表的映射关系,再将各数据转换算法节点中各输入字段列表的字段内容与各输出字段列表的字段内容带入各对应数据转换算法节点的中各输入字段列表与各输出字段列表的映射关系中,得到各数据转换算法节点输入及输出字段列表中各字段内容的映射关系。
S103:根据各数据转换算法节点输入及输出字段列表中各字段内容的映射关系,生成目标数据处理流程的数据迁移关系图;
在得到各数据转换算法节点输入及输出字段列表中各字段内容的映射关系后,即已经得到了整个目标数据处理流程全流程的所有字段内容的映射关系,由此,可以生成能够体现数据字段级迁移关系的数据迁移关系图。
应当理解的是,在本实施例中,字段列表中可以包括表征字段列表所在数据集信息的字段,和/或表征字段列表所在数据集所属的数据仓库信息的字段。
若字段列表中包括表征字段列表所在数据集信息的字段,则在数据迁移关系图中可以得到数据集之间的数据迁移关系。若字段列表中包括表征字段列表所在数据集所属的数据仓库信息的字段,则在数据迁移关系图中还可以得到数据仓库之间的数据迁移关系。
在本实施例中,数据的字段可以有存在很多描述,不同的字段描述可以通过不同的字段标识来体现。例如参见下表一所示的字段以及对应的字段描述。
表一
字段 字段描述
processid 流程标识
fieldid 字段唯一标识
io_flag 输入输出标志位
Datastore 数据仓库名
Dataset 数据集名
Field 字段名
mappedinputfieldid 映射字段标识
mappedinfo 映射关系
S104:根据数据追溯指令调用数据迁移关系图进行数据追溯。
在本实施例中,可以通过对数据迁移关系进行展示的方式,对待追溯数据进行数据追溯。而对于数据迁移关系而言,其可以根据对待追溯数据进行追溯时的精细度要求,追溯相应精细度要求的数据来源,即数据迁移关系可以根据对待追溯数据进行追溯时的精细度要求按照不同层级进行展示。
在本实施例中,对待追溯数据进行追溯时的精细度要求是通过数据追溯指令来体现的。在进行数据追溯时,会根据数据追溯指令调用数据迁移关系图在该数据追溯指令要求的数据层面上展示数据迁移关系,并根据展示的数据迁移关系和待追溯数据,确定待追溯数据在展现的数据层面上的数据来源。
具体的,若字段列表中包括表征字段列表所在数据集信息的字段和表征字段列表所在数据集所属的数据仓库信息的字段。则数据追溯指令包括数据仓库追溯指令、数据集追溯指令和数据字段追溯指令。
在数据追溯指令为数据仓库追溯指令时,即根据数据仓库追溯指令调用数据迁移关系图展示数据在数据库中的迁移关系。数据在数据库中的迁移关系可以通过如图3所示的数据库中数据流向视图来展示。
在数据追溯指令为数据集追溯指令时,即根据数据集追溯指令调用数据迁移关系图展示数据在各数据集中的迁移关系。数据在数据集中的迁移关系可以通过如图4所示的数据集关联视图来展示。
在数据追溯指令为数据字段追溯指令时,即根据数据字段追溯指令调用数据迁移关系图展示各字段的映射关系。数据在数据库中的迁移关系可以通过如图5所示的数据字段间关系映射图来展示。
在对待追溯数据进行追溯时,可以由用户自己根据展示出的数据迁移关系进行确定得到。也可以通过电子设备从数据迁移关系图中得到。
本实施例中,还提供一种计算机存储介质,如软盘、光盘、硬盘、闪存、U盘、CF卡、SD卡、MMC卡等,在该计算机存储介质中存储有实现上述各个步骤的一个或多个程序,这一个或多个程序可以由一个或多个处理器读取并执行,从而实现上述数据追溯方法的各个步骤。
本实施例提供的数据追溯方法和计算机存储介质,通过获取待追溯的目标数据处理流程(目标数据处理流程由目标输入数据集、目标输出数据集、以及将输入目标输入数据集中的数据进行处理后输出到目标输出数据集中的数据转换节点集,数据转换节点集中包含至少一个或一个以上级联的数据转换算法节点,数据转换算法节点包含被转换数据转换前后的各字段映射关系),再获取各数据转换算法节点的输入及输出数据的字段列表,并获取输入及输出字段列表中各字段的映射关系,从而根据字段列表以及各数据转换算法节点输入及输出字段列表中各字段的映射关系,生成目标数据处理流程的数据迁移关系图,最后根据数据追溯指令调用数据迁移关系图对待追溯数据进行追溯。这样,通过数据转换算法节点来得到数据被转换数据转换前后的各字段映射关系,并进一步得到可表征数据字段间迁移关系的数据迁移关系图,这就使得在进行数据追溯时,可以追溯到数据字段级的数据来源于加工方式,极大地提高了数据追溯的精细度。
实施例二:
为提高数据追溯的精细度,实现数据字段级的追溯,本实施例中提供了一种数据追溯装置,参见图6,图6为本实施例提供的一种数据追溯装置的结构示意图,包括数据迁移关系图生成模块61和数据追溯模块62,其中:
数据迁移关系图生成模块61用于获取待追溯的目标数据处理流程。
在本实施例中,目标数据处理流程由目标输入数据集、目标输出数据集、以及将输入目标输入数据集中的数据进行处理后输出到目标输出数据集中的数据转换节点集构成。其中,数据转换节点集中可以仅包含一个数据转换算法节点,也可以包含两个或两个以上数据转换算法节点。当数据转换节点集中包含两个或两个以上数据转换算法节点时,各数据转换算法节点之间级联,即各数据转换算法节点中,前一数据转换算法节点的输出即构成下一数据转换算法节点的输入。
在本实施例中,各数据转换算法节点包含被转换数据转换前后的各字段映射关系。即通过各数据转换算法节点中的各数据转换算法可完整体现出输入数据和输出数据各字段间的映射关系。应当理解的是,在本实施例中,数据集中存在有各数据对应的字段列表,输入数据和输出数据各字段间的映射关系即是各数据转换算法节点的输入数据集字段列表中各字段和输出数据集字段列表中各字段的映射关系。值得注意的是,在数据集中存在的字段列表可能不止一张,因此,输入数据集字段列表中各字段和输出数据集字段列表中各字段的映射关系中还实质包含有各输入字段列表和输出字段列表之间的映射关系。
此时,一种较优的方式是:在各数据转换算法节点中采用单一功能算法。利用单一功能算法准确获取数据输出字段与数据输入字段之间的算法表达式。即,本实施例中各数据转换算法节点为单一功能算法节点,各单一功能算法节点包含数据的字段映射关系。
应当理解的是,在本实施例中,对于数据处理流程实质可以等效于一个管道模型,通过封装输入数据集和数据转换算法库(数据转换算法库中包含实现各种单一功能算法的算法组件),在需要建模对某些数据集进行处理时,可以调去这些数据集构成输入数据集并选取数据转换算法库中相应的算法组件构建管道模型,各算法组件即构成管道中的节点。输入数据集再根据该建立好的模型中的处理流程依次进行数据处理,最终得到输出数据集。
应当理解的是,在实际应用过程中,数据处理流程有很多,数据迁移关系图生成模块61获取待追溯的目标数据处理流程时,是从所有的数据处理流程中选定并提取出待追溯的数据处理流程。对于待追溯的数据处理流程而言,其可能是已将数据处理完毕的数据处理流程,也可能是已设定,但还未对确定的输入数据集进行数据处理或数据处理还未完成的数据处理流程。
在本实施例中,数据迁移关系图生成模块61还用于获取各数据转换算法节点的输入及输出数据的字段列表之字段内容,并根据各数据转换算法节点的被转换数据转换前后的各字段映射关系,得到输入及输出字段列表中各字段内容的映射关系,再根据各数据转换算法节点输入及输出字段列表中各字段内容的映射关系,生成目标数据处理流程的数据迁移关系图。
而数据追溯模块62用于数据追溯指令调用数据迁移关系图对待追溯数据进行追溯。
值得注意的是,在本实施中,数据迁移关系图生成模块61在获取各数据转换算法节点的输入及输出数据的字段列表之字段内容,并根据各数据转换算法节点的被转换数据转换前后的各字段映射关系,得到输入及输出字段列表中各字段内容的映射关系时,存在两种方式:
其一:数据迁移关系图生成模块61获取目标数据处理流程中目标输入数据集中各输入数据的字段列表之字段内容,再将获取到的字段列表之字段内容依次带入数据转换节点集中,得到各数据转换算法节点输出数据的字段列表之字段内容,再获取数据转换节点集中各数据转换算法节点输入字段列表中各字段内容和输出字段列表中各字段内容的映射关系。
应当理解的是,在本实施例中,一个数据处理流程中可能存在多个输入数据集,这多个输入数据集共同被处理之后才得到最终的输出数据集。因此,目标输入数据集可能不止一个,数据迁移关系图生成模块61在获取目标输入数据集的字段列表之字段内容时,需要获取到所有目标输入数据集的所有字段列表之字段内容。
在数据的实际处理过程中,数据转换节点集中的各数据转换算法节点实质是对输入各数据转换算法节点中的数据集的数据进行处理,而数据集中的数据的字段形式即通过数据集中的字段列表来体现。数据转换节点在进行数据处理时,即会得到各输入数据字段列表中的字段内容与各输出数据字段列表中的字段内容的映射关系。
应当理解的是,由于一个输出数据集可能是由多个输入数据集被处理后得到的,因此一个输出数据集中的字段可能同时对应多个输入数据集中的字段。
应当理解的是,上述获取方式不要求目标输入数据集已被处理,只需要目标数据处理流程中目标输入数据集和数据转换节点集已经明确,数据迁移关系图生成模块61即可分析得到各数据转换算法节点的输入及输出数据的字段列表及字段列表的字段内容,以及输入及输出字段列表中各字段内容的映射关系。若数据迁移关系图生成模块61获取到的目标数据处理流程是已将数据处理完毕的数据处理流程,此时还可以通过获取到的目标输出数据集对分析得到的输出结果进行验证,从而保证分析得到各数据转换算法节点的输入及输出数据的字段列表,以及输入及输出字段列表中各字段内容的映射关系的准确性。
其二:在数据迁移关系图生成模块61获取待追溯的目标数据处理流程之前,必需要由数据处理装置进行数据处理。具体的,存在以下数据处理过程:
根据预设数据处理流程对目标输入数据集进行处理,并在数据处理过程中保存各数据转换算法节点输出数据的字段列表之字段内容,以及各数据转换算法节点中各输入字段列表与各输出字段列表的映射关系。
值得注意的是,在本实施例中,会将预设数据处理流程是作为目标数据处理流程。即目标数据处理流程和预设数据处理流程完全相同。
应当理解的是,在数据处理装置进行数据处理的过程中保存的是各数据转换算法节点进行数据转换前后的各数据集中各字段列表间的映射关系。对于数据集而言,其可能存在不止一个字段列表,因此在数据转换算法节点输出的也可能不止一个字段列表。在本实施例,数据处理过程中保存的即是输出后的某一字段列表与输入的字段列表中的某几个的对应关系。
此后,数据迁移关系图生成模块61在获取各数据转换算法节点的输入及输出数据的字段列表之字段内容时,直接获取目标输入数据集的字段列表的字段内容和在数据处理过程中保存的各数据转换算法节点输出数据的字段列表的字段内容。
数据迁移关系图生成模块61在获取输入及输出字段列表中各字段的映射关系时,直接获取在数据处理过程中保存的各数据转换算法节点中各输入字段列表与各输出字段列表的映射关系,再将各数据转换算法节点中各输入字段列表的字段内容与各输出字段列表的字段内容带入各对应数据转换算法节点的中各输入字段列表与各输出字段列表的映射关系中,得到各数据转换算法节点输入及输出字段列表中各字段内容的映射关系。
在数据迁移关系图生成模块61得到各数据转换算法节点输入及输出字段列表中各字段内容的映射关系后,即已经得到了整个目标数据处理流程全流程的所有字段内容的映射关系,由此,数据迁移关系图生成模块61可以生成能够体现数据字段级迁移关系的数据迁移关系图。
应当理解的是,在本实施例中,字段列表中可以包括表征字段列表所在数据集信息的字段,和/或表征字段列表所在数据集所属的数据仓库信息的字段。
若字段列表中包括表征字段列表所在数据集信息的字段,则在数据迁移关系图中可以得到数据集之间的数据迁移关系。若字段列表中包括表征字段列表所在数据集所属的数据仓库信息的字段,则在数据迁移关系图中还可以得到数据仓库之间的数据迁移关系。
在本实施例中,数据的字段可以有存在很多描述,不同的字段描述可以通过不同的字段标识来体现。
在本实施例中,数据追溯模块62可以通过对数据迁移关系进行展示的方式,对待追溯数据进行追溯。而对于数据迁移关系而言,其可以根据对待追溯数据进行追溯时的精细度要求,追溯相应精细度要求的数据来源,即数据迁移关系可以根据对待追溯数据进行追溯时的精细度要求按照不同层级进行展示。
在本实施例中,对于待追溯数据进行追溯时的精细度要求是通过数据追溯指令来体现的。在进行数据追溯时,会根据数据追溯指令调用数据迁移关系图在该数据追溯指令要求的数据层面上展示数据迁移关系,并根据展示的数据迁移关系和待追溯数据,确定待追溯数据在展现的数据层面上的数据来源。
具体的,若字段列表中包括表征字段列表所在数据集信息的字段和表征字段列表所在数据集所属的数据仓库信息的字段。则数据追溯指令包括数据仓库追溯指令、数据集追溯指令和数据字段追溯指令。
在数据追溯指令为数据仓库追溯指令时,数据追溯模块62即根据数据仓库追溯指令调用数据迁移关系图展示数据在数据库中的迁移关系。
在数据追溯指令为数据集追溯指令时,数据追溯模块62即根据数据集追溯指令调用数据迁移关系图展示数据在各数据集中的迁移关系。
在数据追溯指令为数据字段追溯指令时,数据追溯模块62即根据数据字段追溯指令调用数据迁移关系图展示各字段的映射关系。
在对待追溯数据进行追溯时,可以由用户自己根据数据追溯模块62展示出的数据迁移关系进行确定得到。也可以通过数据追溯模块62直接从数据迁移关系图中得到。
参见图7所示,本实施例中还提供了一种数据处理设备,包括处理器71、存储器72及通信总线73。其中,
通信总线73用于实现处理器71和存储器72之间的连接通信。
处理器71用于执行存储器中存储的一个或者多个程序,以实现本实施例中上述的数据追溯装置中数据迁移关系图生成模块61和数据追溯模块62所执行的所有步骤。即在本实施例中,数据追溯装置中数据迁移关系图生成模块61和数据追溯模块62的功能可以通过处理器71来实现。应当理解的是,在本实施例中,数据处理装置进行数据处理的过程实质也可以由处理器71来执行并实现。
在本实施例中,数据处理设备可以是服务器,或后台终端等。
本实施例提供的本实施例提供的数据追溯装置和数据处理设备,通过获取待追溯的目标数据处理流程,再获取目标数据处理流程中各数据转换算法节点的输入及输出数据的字段列表,并获取输入及输出字段列表中各字段的映射关系,从而根据字段列表以及各数据转换算法节点输入及输出字段列表中各字段的映射关系,生成目标数据处理流程的数据迁移关系图,最后根据数据追溯指令调用数据迁移关系图对待追溯数据进行追溯。这样,通过数据转换算法节点来得到数据被转换数据转换前后的各字段映射关系,并进一步得到可表征数据字段间迁移关系的数据迁移关系图,这就使得在进行数据追溯时,可以追溯到数据字段级的数据来源于加工方式,极大地提高了数据追溯的精细度。
实施例三:
本实施例在实施例二的基础上,以一种在数据处理设备中设置包含数据处理系统以及数据分析系统两大部分,完成数据处理至数据追溯的全流程的具体情况为例对本发明实施例的方案作进一步示例说明。
参见图8,数据处理系统用于进行数据处理流程建模、数据处理流程调度与监控、以及数据处理流程执行三大部分的操作。具体的:
在进行数据处理流程建模时,会进行输入数据集、输出数据集和数据转换算法库的封装。封装可以基于开源Apache Beam技术来实现。
值得注意的是,在设计数据处理系统时,对于输入数据集和输出数据集而言,可以设计数据集中的数据输入形式。例如设计为文本输入(TXT/CSV/JSON/XML/AVRO格式),表输入(关系数据库、HIVE、Spark),HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)输入,文本输出(TXT/CSV/JSON/XML/AVRO格式),表输出(各种关系数据库、HIVE、Spark),HDFS输出等。而对于数据转换算法库而言,数据转换算法库中保存的各个算法应当是单一功能算法,每个算法仅能实现单一计算功能。每个算法提供输入算法内的的字段列表与算法输出的字段列表之间的映射关系。
在本实施例中,数据转换算法库中可以包括有常用的单一计算算法(如四则运算算法,时间运算算法,字符串计算算法),分组计算算法,数据质量检查算法,去重算法,增加校验码算法,加密算法,字符串替换算法,值映射算法,字段选择算法,记录集连接算法,合并算法、记录算法等。
在实际数据处理流程建模过程中,可以根据被处理数据的实际计算需要,选取相应的单一功能算法进行组合,从而生成对应的数据处理流程。各算法组件即构成了整个数据处理流程中的数据转换算法节点。在本实施例中,数据处理流程可以使用XML(eXtensible Markup Language,可扩展的标识语言)语言描述,设本实施例中采用XML语言描述数据处理流程。
在建型之后,数据处理系统会解析XML配置,从而解析得到数据处理流程。应当理解的是,在数据处理流程中,各数据转换算法节点是级联的,即上一数据转换算法节点的输出构成了下一数据转换算法节点的输入。此后,将数据处理流程提交给分布式计算引擎(例如Spark集群)来执行得到最终的输出数据集。同时,数据处理系统还会实时监控分布式计算引擎对数据处理流程的执行状态,并生成运行日志。
而在需要进行数据分析或追溯时,参见图9所示,数据分析系统会自动分析数据处理流程的XML配置,抽取数据转换算法节点之间的关联关系和执行顺序,每一个数据转换算法节点的输出都是其下一步组件的输入,生成一个管道对象(即数据处理流程对象)。具体的,参见图10所示的数据分析系统功能图中生成数据处理流程对象这一步骤的具体生成框图。框图中,Transform表上方连接的Compute表和Join表等表明的是加入数据处理流程中的数据转换算法;而Transform表左侧连接的InputDataSet即是数据处理流程中的输入数据集,其可以是TextFileInputDataSet(文本文件输入数据)、JDBC(Java Data BaseConnectivity,java数据库连接)InputDataSet(数据库输入数据)、
HDFSInputDataSet(Hadoop分布式文件系统输入数据);而Transform表右侧连接的OutputDataSet即是数据处理流程中的输出数据集,其可以是TextFileOutputDataSet(文本文件输出数据)、JDBCOutputDataSet(数据库输出数据)、HDFSOutputDataSet(Hadoop分布式文件系统输出数据),他们共同构成了数据处理流程对象。
此后,数据分析系统会提取管道对象中的所有输入数据集及输入数据集中的字段列表,并根据各数据转换算法节点之间的关联关系和执行顺序,依次提取出每个数据转换算法节点的输入字段内容和输出字段内容之间的映射关系,并提取最终输出的输出数据集中的字段列表(对于大部分从数据处理流程而言,最终输出的输出数据集即为最后一个数据转换算法节点输出的数据集)。
此后,数据分析系统会为每个数据集和数据集中的字段进行编码,并进行全局分析(加工处理零散的数据集级别、字段级别的映射关系,把每个数据集所有上游、下游数据处理流程串联起来)从而得到全流程的数据迁移关系图。
设,在数据处理流程中,字段列表中包括表征字段列表所在数据集信息的字段和表征字段列表所在数据集所属的数据仓库信息的字段。
之后,数据分析系统采用钻取展示的方式,按照数据的追溯需求依次展示数据在数据库中的迁移关系,数据在各数据集中的迁移关系,以及数据各字段内容间的映射关系。其展示图可以参见图3-图5所示。
在本实施例中,一个数据处理流程所处理的数据量很大,针对单个数据进行追溯时,仅需要一个静态展示的数据迁移关系即可。而事实上,在实际应用中,数据分析系统在展示数据处理流程的数据迁移关系时,由于数据量的影响,可能存在数据迁移关系的变动,因此可以结合数据处理系统中的数据处理流程运行日志,动态地展示数据处理流程的数据迁移关系。
值得注意的是,本实施例中的数据处理系统和数据分析系统实质是安装于数据处理设备中的软件系统,两个系统的所有功能都可由数据处理设备中的处理器71通过执行存储器72中的一个或多个程序来实现。
综上,本实施例提供的包含数据处理系统和数据分析系统的数据处理设备,实现了对数据处理过程中的全流程数据迁移关系的展示,其数据迁移关系精细到了数据的字段级,具有极大的应用前景。在进行数据追溯时,提供了数据仓库、数据集、数据字段三个层级的数据迁移关系,可以按照追溯需求追溯到所需层级的数据来源以及加工方式,在解决了现有数据追溯时精细度不足的同时,也为用户提供了多层面的追溯选择,提高了用于使用体验。
显然,本领域的技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在计算机存储介质(ROM/RAM、磁碟、光盘)中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。所以,本发明不限制于任何特定的硬件和软件结合。
以上内容是结合具体的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (9)

1.一种数据追溯方法,其特征在于,包括:
获取待追溯的目标数据处理流程,所述目标数据处理流程由目标输入数据集、目标输出数据集、以及数据转换节点集构成,所述数据转换节点集用于将输入所述目标输入数据集中的数据进行处理后输出到所述目标输出数据集中,所述数据转换节点集中包含至少一个数据转换算法节点或一个以上级联的数据转换算法节点,所述数据转换算法节点包含被转换数据转换前后的各字段映射关系;
获取各所述数据转换算法节点输入及输出数据的字段列表的字段内容,并根据各所述数据转换算法节点的被转换数据转换前后的各字段映射关系,得到输入及输出字段列表中各字段内容的映射关系;
根据各所述数据转换算法节点输入及输出字段列表中各字段内容的映射关系,生成所述目标数据处理流程的数据迁移关系图;
根据数据追溯指令调用所述数据迁移关系图进行数据追溯,其中,
在所述获取待追溯的目标数据处理流程之前,所述数据追溯方法还包括:根据预设数据处理流程对所述目标输入数据集进行处理,并在数据处理过程中保存各所述数据转换算法节点输出数据的字段列表的字段内容,以及各所述数据转换算法节点中各输入字段列表与各输出字段列表的映射关系;并将所述预设数据处理流程作为所述目标数据处理流程。
2.如权利要求1所述的数据追溯方法,其特征在于,所述获取各所述数据转换算法节点的输入及输出数据的字段列表,并根据各所述数据转换算法节点的被转换数据转换前后的各字段映射关系,得到输入及输出字段列表中各字段内容的映射关系包括:
获取所述目标输入数据集的字段列表,并获取在所述数据处理过程中保存的各所述数据转换算法节点输出数据的字段列表以及各所述数据转换算法节点中各输入字段列表与各输出字段列表的映射关系;
根据所述目标输入数据集各数据的字段列表的字段内容、各所述数据转换算法节点输出数据的字段列表的字段内容、以及各所述数据转换算法节点中各输入字段列表与各输出字段列表的映射关系,得到各所述数据转换算法节点输入及输出字段列表中各字段内容的映射关系。
3.如权利要求1或2所述的数据追溯方法,其特征在于,各所述数据转换算法节点为包含字段映射关系的单一功能算法节点。
4.如权利要求3所述的数据追溯方法,其特征在于,所述字段列表中包括:表征所述字段列表所在数据集信息的字段,和/或表征所述字段列表所在数据集所属的数据仓库信息的字段。
5.如权利要求1所述的数据追溯方法,其特征在于,所述根据数据追溯指令调用所述数据迁移关系图进行数据追溯包括:
根据所述数据追溯指令调用所述数据迁移关系图在所述数据追溯指令要求的数据层面上展示数据迁移关系;
根据展示的所述数据迁移关系在展现的所述数据层面上追溯数据来源。
6.一种数据追溯装置,其特征在于,包括:
数据迁移关系图生成模块,用于获取待追溯的目标数据处理流程,所述目标数据处理流程由目标输入数据集、目标输出数据集、以及数据转换节点集构成,所述数据转换节点集用于将输入所述目标输入数据集中的数据进行处理后输出到所述目标输出数据集中,所述数据转换节点集中包含至少一个数据转换算法节点或一个以上级联的数据转换算法节点,所述数据转换算法节点包含被转换数据转换前后的各字段映射关系;并用于获取各所述数据转换算法节点输入及输出数据的字段列表的字段内容,并根据各所述数据转换算法节点的被转换数据转换前后的各字段映射关系,得到输入及输出字段列表中各字段内容的映射关系;以及用于根据各所述数据转换算法节点输入及输出字段列表中各字段内容的映射关系,生成所述目标数据处理流程的数据迁移关系图;
数据追溯模块,用于根据数据追溯指令调用所述数据迁移关系图对进行数据追溯,其中,
所述数据迁移关系图生成模块还用于在所述获取待追溯的目标数据处理流程之前,根据预设数据处理流程对所述目标输入数据集进行处理,并在数据处理过程中保存各所述数据转换算法节点输出数据的字段列表的字段内容,以及各所述数据转换算法节点中各输入字段列表与各输出字段列表的映射关系;并将所述预设数据处理流程作为所述目标数据处理流程。
7.如权利要求6所述的数据追溯装置,其特征在于,各所述数据转换算法节点为包含字段映射关系的单一功能算法节点。
8.一种数据处理设备,其特征在于,所述数据处理设备包括:处理器、存储器及通信总线;
所述通信总线用于实现所述处理器和所述存储器之间的连接通信;
所述处理器用于执行所述存储器中存储的一个或者多个程序,以实现如权利要求1至5中任一项所述的数据追溯方法的步骤。
9.一种计算机存储介质,其特征在于,所述计算机存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1至5中任一项所述的数据追溯方法的步骤。
CN201710882930.8A 2017-09-26 2017-09-26 数据追溯方法、装置、数据处理设备及计算机存储介质 Active CN110019116B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710882930.8A CN110019116B (zh) 2017-09-26 2017-09-26 数据追溯方法、装置、数据处理设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710882930.8A CN110019116B (zh) 2017-09-26 2017-09-26 数据追溯方法、装置、数据处理设备及计算机存储介质

Publications (2)

Publication Number Publication Date
CN110019116A CN110019116A (zh) 2019-07-16
CN110019116B true CN110019116B (zh) 2023-07-07

Family

ID=67186376

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710882930.8A Active CN110019116B (zh) 2017-09-26 2017-09-26 数据追溯方法、装置、数据处理设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN110019116B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111159184B (zh) * 2019-12-25 2024-03-08 上海信联信息发展股份有限公司 元数据追溯方法、装置及服务器
CN113256081B (zh) * 2021-05-07 2022-03-08 北京福通互联科技集团有限公司 基于工业互联网标识的肉食屠宰流程内部追溯方法及装置
CN113901094B (zh) * 2021-09-29 2022-08-23 北京百度网讯科技有限公司 一种数据处理方法、装置、设备及存储介质
CN114297262A (zh) * 2021-12-30 2022-04-08 重庆允成互联网科技有限公司 一种基于数据流的数据溯源方法及计算机存储介质
CN115330420B (zh) * 2022-10-13 2022-12-27 中国(上海)宝玉石交易中心有限公司 基于标准的宝玉石追溯方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102135963A (zh) * 2010-01-21 2011-07-27 深圳市智骏数据科技有限公司 数据迁移的方法和系统
CN105912595A (zh) * 2016-04-01 2016-08-31 华南理工大学 一种关系数据库的数据起源收集方法
CN106021594A (zh) * 2016-06-06 2016-10-12 福建榕基软件股份有限公司 数据库表和xml报文的映射处理方法及其系统
CN107045534A (zh) * 2017-01-20 2017-08-15 中国航天系统科学与工程研究院 大数据环境下基于HBase的异构数据库在线交换与共享系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7720873B2 (en) * 2007-06-21 2010-05-18 International Business Machines Corporation Dynamic data discovery of a source data schema and mapping to a target data schema

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102135963A (zh) * 2010-01-21 2011-07-27 深圳市智骏数据科技有限公司 数据迁移的方法和系统
CN105912595A (zh) * 2016-04-01 2016-08-31 华南理工大学 一种关系数据库的数据起源收集方法
CN106021594A (zh) * 2016-06-06 2016-10-12 福建榕基软件股份有限公司 数据库表和xml报文的映射处理方法及其系统
CN107045534A (zh) * 2017-01-20 2017-08-15 中国航天系统科学与工程研究院 大数据环境下基于HBase的异构数据库在线交换与共享系统

Also Published As

Publication number Publication date
CN110019116A (zh) 2019-07-16

Similar Documents

Publication Publication Date Title
CN110019116B (zh) 数据追溯方法、装置、数据处理设备及计算机存储介质
US10936479B2 (en) Pluggable fault detection tests for data pipelines
CN109344170B (zh) 流数据处理方法、系统、电子设备及可读存储介质
US10395181B2 (en) Machine learning system flow processing
CN107430611B (zh) 过滤数据沿袭图
US11928463B2 (en) Auto mapping recommender
CN107251021B (zh) 过滤数据沿袭图
CN110472068A (zh) 基于异构分布式知识图谱的大数据处理方法、设备及介质
CN111061833A (zh) 数据处理方法、装置、电子设备和计算机可读存储介质
CN110674360B (zh) 一种用于数据的溯源方法和系统
CN115827895A (zh) 一种漏洞知识图谱处理方法、装置、设备及介质
US11775517B2 (en) Query content-based data generation
CN110765750B (zh) 报表数据录入方法及终端设备
US20170010955A1 (en) System and method for facilitating change based testing of a software code using annotations
CN113962597A (zh) 一种数据分析方法、装置、电子设备及存储介质
CN111008189A (zh) 一种动态数据模型构建方法
Brent et al. A versatile framework for painless benchmarking of database management systems
CN115203435A (zh) 基于知识图谱的实体关系生成方法及数据查询方法
CN114968725A (zh) 任务依赖关系校正方法、装置、计算机设备及存储介质
CN113032257A (zh) 自动化测试方法、装置、计算机系统和可读存储介质
Farah et al. Analysis of intercrossed open-source software repositories data in GitHub
CN111309623B (zh) 一种坐标类数据分类测试方法及装置
CN113535804A (zh) 业务数据处理方法、装置、设备及系统
CN117234899A (zh) 回归测试方法、装置、设备及计算机介质
CN115203046A (zh) 基于大数据造单的程序测试方法以及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230612

Address after: 210012 No. 68 Bauhinia Road, Yuhuatai District, Jiangsu, Nanjing

Applicant after: Nanjing Zhongxing New Software Co.,Ltd.

Address before: 518057 Zhongxing building, science and technology south road, Nanshan District hi tech Industrial Park, Guangdong, Shenzhen

Applicant before: ZTE Corp.

GR01 Patent grant
GR01 Patent grant