CN113138990A - 一种数据血缘构建、追溯方法、装置及设备 - Google Patents
一种数据血缘构建、追溯方法、装置及设备 Download PDFInfo
- Publication number
- CN113138990A CN113138990A CN202110534157.2A CN202110534157A CN113138990A CN 113138990 A CN113138990 A CN 113138990A CN 202110534157 A CN202110534157 A CN 202110534157A CN 113138990 A CN113138990 A CN 113138990A
- Authority
- CN
- China
- Prior art keywords
- data
- source
- identifier
- target
- blood
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本申请实施例提供了一种数据血缘构建、追溯方法、装置及设备,用以解决现有技术中在进行血缘追溯时,无法准确地确定数据来源的问题。本申请实施例通过建立血缘表确定数据的来源,在建立血缘表时,若接收到对源表中数据的处理操作,则获取该处理操作后该数据所在的目标表的标识以及目标行的标识,并且构建包含该数据所在的目标表的标识、目标行的标识以及源表中该数据的来源的标识的血缘表,由于血缘表中包括处理后的数据所在的目标表的标识以及目标行的标识,因此在构建好的血缘表中可以进行数据查询,并且由于血缘表中包含数据的来源的标识,因此可以确定该数据的来源的标识,从而根据该标识准确地确定数据的来源。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据血缘构建、追溯方法、装置及设备。
背景技术
随着大数据技术的发展,各行业对于大数据的应用需求越来越迫切,从而对数据处理的过程提出了更高的要求,数据经过多轮处理和转移才能得到质量高、规范性好和有应用价值的数据。多轮数据处理过程中,如果出现数据质量问题,通常需要追溯到数据来源进行数据纠正。为了追溯到数据的来源,这就需要数据血缘的支撑,通过数据血缘来确定数据是按照怎样的流程一步一步被处理。数据的粒度包括库级、表级、行级、字段级,追溯的粒度越细,价值越大。
城市级大数据的特点是数据种类多、数据量大、数据存储类型多,需要经过规范化的数据抽取、治理、融合的过程,才能形成质量高的可用数据。为了明确每一个数据的处理过程,展现每一个数据的来源和对后续数据的影响,在发生数据质量问题时,能快速定位数据来源,进行数据整改,同时可以评估对后面数据的影响程度,需要一种追溯数据血缘的方法,通过对数据血缘进行追溯,确定数据的来源。其中,追溯数据血缘指的是已知处理操作后的数据在形成的目标表中的位置,确定该数据在处理操作前的来源。
现有追溯数据血缘的方法包括:
(1)基于数据处理过程中产生的sql语句或代码解析逻辑,通过接收这些sql语句或代码解析逻辑,解析出前后数据之间的来源关系,从而确定血缘关系。然而这种方式对代码解析逻辑的规范性要求极高,对于超出规范的复杂代码解析逻辑容易造成误解析,而且需要对所有定期运行的数据处理过程都进行跟踪分析,才可以获取到这些数据处理过程中产生的sql语句或代码解析逻辑,因此计算成本高。
(2)基于数据单元之间的主外键关系和数据特征主动确定数据的血缘,发现关联关系。这种方式需要分析全量数据,效率低,只适用于老旧数据分析场景。
(3)主动记录源表和目标表的对应关系,记录数据是从哪个源表迁移到另外的哪个目标表中。这种记录方式粒度较粗,对于细粒度要求追溯行级数据血缘无法实现,实用性有欠缺。
发明内容
本申请实施例提供了一种数据血缘构建、血缘追溯方法、装置、设备及介质,用以解决现有技术中在进行血缘追溯时,无法准确地确定数据来源的问题。
第一方面,本申请实施例提供了一种数据血缘构建方法,所述方法包括:
接收对源表中数据的处理操作;
获取所述处理操作后该数据所在的目标表的第一标识以及目标行的第二标识,记录包含所述第一标识、所述第二标识以及源表中该数据的来源的标识的血缘表。
第二方面,本申请实施例还提供了一种血缘追溯方法,所述方法包括:
接收追溯请求,其中,所述追溯请求中携带有所要追溯的目标信息,以及记载有数据的来源的血缘表;
在所述血缘表中,查询所述目标信息对应的来源。
第三方面,本申请实施例还提供了一种数据血缘构建装置,所述装置包括:
第一接收模块,用于接收对源表中数据的处理操作;
获取模块,用于获取所述处理操作后该数据所在的目标表的第一标识以及目标行的第二标识,记录包含所述第一标识、所述第二标识以及源表中该数据的来源的标识的血缘表。
第四方面,本申请实施例还提供了一种血缘追溯装置,所述装置包括:
第二接收模块,用于接收追溯请求,其中,所述追溯请求中携带有所要追溯的目标信息,以及记载有数据的来源的血缘表;
查询模块,用于在所述血缘表中,查询所述目标信息对应的来源。
第五方面,本申请实施例还提供了一种电子设备,所述电子设备至少包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序时上述执行权利要求中任一所述数据血缘构建或任一所述血缘追溯的步骤。
第六方面,本申请实施例还提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时执行上述权利要求中任一所述数据血缘构建或任一所述血缘追溯的步骤。
本申请实施例通过建立血缘表确定数据的来源,在建立血缘表时,若接收到对源表中数据的处理操作,则获取该处理操作后该数据所在的目标表的标识以及目标行的标识,并且构建包含该数据所在的目标表的标识、目标行的标识以及源表中该数据的来源的标识的血缘表,由于血缘表中包括处理后的数据所在的目标表的标识以及目标行的标识,因此在构建好的血缘表中可以进行数据查询,并且由于血缘表中包含数据的来源的标识,因此可以确定该数据的来源的标识,从而根据该标识准确地确定数据的来源。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种数据血缘构建过程示意图;
图2为本申请实施例提供的一种血缘追溯过程示意图;
图3为本申请实施例提供的追溯目标表的源表的过程示意图;
图4为本申请实施例提供的追溯目标字段的来源字段的过程示意图;
图5为本申请实施例提供的追溯目标信息的来源行的过程示意图;
图6为本申请实施例提供的数据血缘构建以及血缘追溯的过程示意图;
图7为本申请实施例提供的一种数据血缘构建装置结构示意图;
图8为本申请实施例提供的一种血缘追溯装置结构示意图;
图9为本申请实施例提供的一种电子设备结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
为了准确地确定数据的来源,在本申请实施例中,通过构建的血缘表确定数据的来源。在构建血缘表时,若接收到对源表中数据的处理操作,则获取该处理操作处理后该数据所在的目标表的标识以及目标行的标识,构建包含该数据所在的目标表的标识、目标行的标识以及源表中该数据的来源的标识的血缘表。由于血缘表中包括处理后的数据所在的目标表以及目标行,因此在构建好的血缘表中可以进行数据查询,并且由于血缘表中包含数据的来源的标识,因此可以确定该数据的来源的标识,从而根据该标识准确地确定数据的来源。
图1为本申请实施例提供的一种数据血缘构建过程示意图,该过程包括以下步骤:
S101:接收对源表中数据的处理操作。
本申请实施例提供的数据血缘构建方法应用于电子设备,该电子设备可以为PC或服务器等智能设备。
在本申请实施例中,在接收到对源表中的数据的处理操作后,电子设备构建处理操作前源表中的数据与处理操作后目标表中的数据之间的血缘关系。其中,该处理操作可以为数据抽取、数据治理、数据融合和数据转换。
其中,源表中记录有处理操作前的数据、数据所在的来源字段以及数据所在的来源行,目标表中记录有处理操作后的数据、数据所在的目标字段以及数据所在的目标行。源表指的是数据处理操作前包含数据的表格,用于记录处理操作前的数据,目标表指的是包含处理操作后数据的表格,用于记录处理操作后的数据。
S102:获取所述处理操作后该数据所在的目标表的第一标识以及目标行的第二标识,记录包含所述第一标识、所述第二标识以及源表中该数据的来源的标识的血缘表。
在本申请实施例中,通过构建的血缘表实现数据血缘的追溯,由于在获取数据的来源时,可能要获取的是目标表的来源,也可能要获取的是目标表中某一目标行的来源,其中,目标行指的是处理操作后的数据所在目标表中的对应行。因此为了便于数据的追溯,所要构建的血缘表中记录有处理后的该数据所在的目标表的第一标识,以及该数据在该目标表中所在的目标行的第二标识。并且在本申请实施例中为了基于血缘表获取数据的来源,所构建的血缘表中还记录有处理后的该数据来源的标识。其中,该数据来源的标识可以为处理操作前的该数据所在源表的标识,也可以为处理操作前的该数据所在的来源行的标识。其中,来源行指的是处理操作前的数据所在源表中的对应行。
本申请实施例通过建立的血缘表确定数据的来源,在建立血缘表时,若接收到对源表中数据的处理操作,则获取该处理操作后该数据所在的目标表的标识以及目标行的标识,并且构建包含该数据所在的目标表的标识、目标行的标识以及源表中该数据的来源的标识的血缘表。由于血缘表中包括处理后的数据所在的目标表的标识以及目标行的标识,因此在构建好的血缘表中可以进行数据查询,并且由于血缘表中包含数据的来源的标识,因此可以确定该数据的来源,从而根据该数据的来源的标识准确地确定数据的来源。
为了准确地构建血缘表,在上述实施例的基础上,在本申请实施例中,所述记录包含所述第一标识、所述第二标识以及源表中该数据的来源的标识的血缘表包括:
若所述处理操作为数据抽取或数据治理,则在所述血缘表中记录所述第一标识、所述第二标识以及该数据的源表的第三标识;其中,该数据所在的目标行的第二标识与该数据的来源行的标识一致;
若所述处理操作为数据转换或数据融合,则确定该数据的第四标识;在所述血缘表中记录所述第一标识、所述第二标识和所述第四标识。
在本申请实施例中,若对数据进行处理时的处理操作不同,则所构建的血缘表也不同。由于数据抽取指的是将各个源表中的数据汇聚到同一数据中心也就是目标表中的过程,这个过程是数据同步的过程,不会对同一来源行的数据进行改变。数据治理过程是数据质量检查的过程,该过程中,要建立数据规则,检查数据是否符合规则,将同一来源行中均符合规则的正确数据放在目标表中,也就是说若处理操作为数据抽取或数据治理,则处理后得到的目标表中每一目标行中的数据都是源表中某一来源行中的数据。
因此若处理操作为数据抽取或数据治理,则构建的血缘表中包括该数据的所在的目标表的第一标识以及该数据所在的目标行的第二标识,并且由于处理操作不会改变数据的格式,因此在记录该数据的来源时,只需记录该数据的源表的第三标识即可。其中,不会改变数据的格式指的是目标行中的所有的数据均来自于同一源表的同一来源行。
由于在对数据进行数据抽取或数据治理的处理时,只是在多个源表或者一个源表中确定某个内容的多个不同方向的信息,其中,可以通过来源行的标识对源表中某一来源行中的信息进行标识,并通过源表中某一来源字段来标识不同方向的信息。其中,该来源行的标识指的是能够标识该源表中该来源行的唯一标识信息,具体的,该标识可以是特定的编号等唯一标识该行的信息。数据抽取或数据治理的处理操作只是在多个源表中,确定该内容的多个不同方向的信息,也就是说只是在多个源表中筛选该内容对应的信息,筛选出最佳的信息,而处理后的目标表中该内容的信息仍通过该唯一标识信息对该内容进行标识,因此该数据所在的目标行的第二标识与该数据的来源行的标识一致。
以处理操作为数据抽取为例,由于数据抽取指的是将各个数据来源的数据汇聚到同一数据中心的过程,这个过程是数据同步的过程,不会对数据格式进行改变,例如源表T1为表1:
Id | Name | Age | Address |
Id1 | N1 | Ag1 | Ad1 |
Id2 | N2 | Ag2 | Ad2 |
表1
表1为源表T1,其中表1的第一列为行标识,在本申请实施例中该行标识可以为身份证号码,表1的第二列、第三列、第四列分别为处理操作前的数据,在表1的第二列指的是姓名信息,表1的第三列指的是年龄信息,表1的第四列指的是地址信息。
经数据抽取以后,形成目标表Tg1为表2:
Id | Name | Age | Address |
Id1 | N1 | Ag1 | Ad1 |
Id2 | N2 | Ag2 | Ad2 |
表2
由表2可知,数据抽取后源表与目标表的格式是一致的,因此血缘表中只需记录源表的标识以及目标表的标识即可,并且由于目标表中可能包含多个源表中的信息,然而若只记录数据的源表的信息,在确定数据的来源时,则只能获取到该数据的源表,并且由于该数据所在的目标行的标识与来源行的标识一致,因此还需针对该数据所在的目标行的标识进行记录,以便区分该数据的来源行。在本申请实施例中,还可以记录将该数据的来源行的相关信息被记录到血缘表中的时间,构建完成的血缘表B1可以设置为表3的格式:
FromTable | ToTable | Key | CreateTime |
T1 | Tg1 | Id | Time1 |
表3
处理操作前的源表为表1,处理操作后的目标表为表2,所构建的体现表1及表2之间数据血缘的血缘表为表3,其中,表3的第一列是源表的标识,表3中的第二列是目标表的标识,表3中的第三列是目标行的标识,表3的第四列是将该源表中该来源行记录到血缘表中的时间。由于在本申请实施例中,所有目标行中数据的源表均一致,因此在构建血缘表时,不再详细记录每个目标行的标识。
以处理操作为数据治理为例,由于数据治理是数据质量检查的过程,在数据治理过程中,要建立数据规则,检查数据是否符合该数据规则,将同一来源行中均符合该数据规则的正确数据放在目标表中;将不符合该数据规则的错误数据放在另一张表中,反馈给数据提供方。以下举例的过程是数据从源表经规则校验到正确的目标表的过程,例如源表T2为表4:
Id | Name | Age | Address |
Id1 | N1 | Ag1 | Ad1 |
Id2 | N2 | Ag2 | Ad2 |
Id3 | Ag3 | Ad3 |
表4
表4为源表T2,其中表4中的第一列为行标识,在本申请实施例中该行标识可以为身份证号码,表4中的第二列、第三列、第四列分别为处理操作前的数据,在表4中第二列指的是姓名信息,表4中的第三列指的是年龄信息,表4中的第四列指的是地址信息。
经数据治理以后,形成正确的目标表Tg2为表5:
Id | Name | Age | Address |
Id1 | N1 | Ag1 | Ad1 |
Id2 | N2 | Ag2 | Ad2 |
表5
由表5可知,数据治理后源表与目标表的格式是一致的,只是过滤掉了部分来源行中的数据。因此血缘表中只需记录源表的标识以及目标表的标识即可,并且由于目标表中可能包含多个源表中的信息,然而若只记录数据的源表的信息,在确定数据的来源时,则只能获取到该数据的源表,并且由于该数据所在的目标行的标识与来源行的标识一致,因此还需针对该数据所在的目标行的标识进行记录,以便区分该数据的来源行。并且在本申请实施例中,还可以记录将该数据的来源行的相关信息被记录到血缘表中的时间,构建完成的血缘表B2可以设置为表6的格式:
FromTable | ToTable | Key | CreateTime |
T2 | Tg2 | Id | Time2 |
表6
处理操作前的源表为表4,处理操作后的目标表为表5,所构建的体现表1及表2之间数据血缘的血缘表为表6,其中,表6的第一列是源表的标识,表6的第二列是目标表的标识,表6的第三列是目标行的标识,表6的第四列是将该源表中该来源行记录到血缘表中的时间。由于在本申请实施例中,所有目标行中数据的源表均一致,因此在构建血缘表时,不再详细记录每个目标行的标识。
在本申请实施例中,由于数据转换指的是源表的一些字段经过一些转换规则形成目标表;数据融合指的是多个源表分别取字段融合成一张目标表。因此若处理操作为数据转换或数据融合,则处理后得到的目标表中每一目标行中的数据是在不同的源表中获取到的,因此同一行的数据的源表可能不是同一个表。因此若处理操作为数据转换或数据融合,在构建血缘表时,需要具体的确定每个数据的来源,其中,可以通过对每个数据进行标识,便于确定每个数据的来源,并且由于数据可能较为繁杂,在本申请实施例中,可以通过简单特定的标识信息对该数据进行标识,因此在本申请实施例中可以先确定该数据的第四标识,在构建血缘表时,记录该数据所在的目标表的第一标识,该数据所在的目标行的第二标识以及该数据的第四标识。具体的,目标行中每个数据的第四标识都进行记录。
以处理操作为数据融合为例,数据融合是多张源表中分别取字段融合为一张目标表的过程,例如源表T3为表7、源表T4为表8:
Id | Name | Age | Address |
Id1 | N11 | Ag11 | Add1 |
Id2 | Ag12 | Add2 |
表7
Id | Name | Age | Aducation |
Id1 | N21 | Ag21 | Adu1 |
Id2 | N22 | Adu2 |
表8
表7为源表T3,表8为源表T4,其中表7的第一列为行标识,在本申请实施例中该行标识可以为身份证号码,表7的第二列、第三列、第四列分别为处理操作前的数据,在表7的第二列指的是姓名信息,表7的第三列指的是年龄信息,表7的第四列指的是地址信息。表8的第一列为行标识,在本申请实施例中该行标识可以为身份证号码,表8的第二列、第三列、第四列分别为处理操作前的数据,在表8的第二列指的是姓名信息,表8的第三列指的是年龄信息,表8的第四列指的是学历信息。
融合规则是:①以id为key,相同的进行合并;②Name字段以不为空的为准,若都不为空,以T3为准;③Age字段以不为空的为准,若都不为空,以T4为准;④合并T3中Address字段和T4表Aducation字段。
通过上述融合规则,经数据融合以后,形成目标表Tg3为表9:
Id | Name | Age | Address | Aducation |
Id1 | N11 | Ag21 | Add1 | Adu1 |
Id2 | N22 | Ag12 | Add2 | Adu2 |
表9
由表9可知,数据融合后源表与目标表的格式不一致的,由于同一目标行中的数据是来源于不同的源表,在构建血缘表时,需要具体的确定每个数据的来源,因此确定该数据的第四标识,在构建血缘表时,记录该数据所在的目标表的第一标识,该数据所在的目标行的第二标识以及该数据的第四标识。构建完成的血缘表B3可以设置为表10的格式:
FuseId | FuseTable | RelationId |
Id1 | Tg3 | R1,R4,R5,R6 |
Id2 | Tg3 | R2,R3,R5,R6 |
表10
处理操作前的源表为表7及表8,处理操作后的目标表为表9,所构建体现表7、表8与表9之间数据血缘的血缘表为表10,其中,表10的第一列是融合后的行的标识即目标行的标识,表10的第二列是数据所在的融合后的表的标识即目标表的标识,表10的第三列是目标表中该目标行中每个数据的标识。
数据转换指的是源表的一些字段经过一些转换规则转换后组成目标表,在本申请实施例中构建数据转换对应的血缘表的过程与构建数据融合对应的血缘表的过程一致,因此不再详细描述。
为了准确地实现数据血缘的追溯,在上述各实施例的基础上,在本申请实施例中,若所述处理操作为数据转换或数据融合,所述方法还包括:
针对确定的每个数据的第四标识,记录包括该数据的第四标识、所述第一标识、所述第三标识、该数据所在的目标字段的标识以及该数据的来源字段的标识的关系表。
若处理操作为数据转换或数据融合,同一目标行的数据是在不同的源表中获取到的,因此同一目标行的数据的源表可能不是同一个表,因此若处理操作为数据转换或数据融合,仅通过血缘表无法准确地获取数据的来源,则在本申请实施例中,通过关系表记录目标行下每个数据的来源,通过关系表更加准确地记录每个目标表中每个数据的来源。
由于血缘表中只记录了目标行中每个数据的标识信息,为了更加准确地进行血缘追溯,关系表中详细记录每个数据的来源字段、源表以及确定的该数据的标识。在本申请实施例中,通过记录目标表每行数据,并延伸通过关系表来记录该数据的来源字段与目标字段之间的对应关系。在数据融合的过程中,通过电子设备将目标表中的数据所在的源表以及来源字段记录到血缘表和关系表中。
以处理操作为数据融合,并且表7及表8为处理操作前的源表,表9为处理操作后的目标表,表10为构建完成的血缘表为例进行介绍,则经数据融合以后,形成的关系表可以设置为表11格式:
RelationId | TargetTable | TargetFeild | FromTable | FromFeild |
R1 | Tg3 | Name | T3 | Name |
R2 | Tg3 | Name | T4 | Name |
R3 | Tg3 | Age | T3 | Age |
R4 | Tg3 | Age | T4 | Age |
R5 | Tg3 | Address | T3 | Address |
R6 | Tg3 | Aducation | T4 | Aducation |
表11
处理操作前的源表为表7及表8,处理操作后的目标表为表9,所构建体现表7、表8与表9之间数据血缘的关系表为表11,其中,表11的第一列是每个数据的标识,表11的第二列是该数据所在的目标表,表11的第三列是该数据所在的目标字段,表11的第四列是该数据的源表,表11的第五列是该数据的来源字段。
图2为本申请实施例提供的一种血缘追溯过程示意图,该过程包括以下步骤:
S201:接收追溯请求,其中,所述追溯请求中携带有所要追溯的目标信息,以及记载有数据的来源的血缘表;
本申请实施例提供的血缘追溯方法应用于电子设备,该电子设备可以为PC或服务器等智能设备。
为了进行血缘追溯,在本申请实施例中,电子设备接收追溯请求,并在接收到追溯请求后,进行血缘的追溯确定该目标信息的来源。在本申请实施例中,为了准确地针对需求进行追溯,追溯请求中携带有所要追溯的目标信息,并且为了进行血缘追溯,追溯请求中还携带有在对数据进行处理操作时,所建立的记载有数据的来源的血缘表。
S202:在所述血缘表中,查询所述目标信息对应的来源。
在本申请实施例中,为了获取目标信息的来源,在接收到追溯请求后,在血缘表中进行查询,由于血缘表为在对数据进行处理操作时所建立的,因此血缘表中记载有所要查询的目标信息的来源。在接收到追溯请求后,在追溯请求中携带的血缘表中,可以查询该目标信息对应的来源。
其中,在本申请实施例中,在查询目标信息对应的来源时,可以是在血缘表中查询该目标信息,并确定该目标信息对应的来源的标识,若该来源的标识所在的列为源表对应的列,则该来源的标识即为目标信息对应的源表的标识,若该来源的标识所在的列为来源字段对应的列,则该来源的标识即为目标信息对应的来源字段的标识。
为了提升用户体验,在上述各实施例的基础上,在本申请实施例中,所述目标信息包括以下至少一种:目标数据、目标表、目标字段和目标行。
由于在查询时需求不同,对应的所要获取的目标信息就不同,因此为了提升用户体验,在本申请实施例中,所要查询的目标信息包括目标数据、目标表、目标字段和目标行中至少一种。
为了准确地确定目标信息的来源,在上述各实施例的基础上,在本申请实施例中,所述在所述血缘表中,查询所述目标信息对应的来源包括:
在所述血缘表查询所述目标信息,确定所述血缘表中的所述目标信息对应的来源的第一来源标识,将所述第一来源标识对应的来源确定为所述目标信息的来源。
在本申请实施例中,为了准确地确定目标信息的来源,可以先在血缘表中查询该所要查询的该目标信息,确定该目标信息所在的行,确定该行中对应的来源的第一来源标识,在确定该目标信息对应的来源的第一来源标识后,将该第一来源标识对应的来源确定为目标信息的来源。
若所要获取的是目标行的来源,则在血缘表中获取该目标行对应的源表标识。并且由于在构建血缘表时,目标行的标识与来源行的标识一致,因此在本申请中确定该目标行的标识即可。具体的,获取该源表标识的源表中与该目标行的标识一致的来源行的标识,确定该来源行的标识为第一来源标识,该第一来源标识即为该目标行对应的来源行的标识。
若所要获取的是目标字段的来源,则由于接收到追溯请求时,追溯请求中会携带所要追溯的目标信息所在的目标表,因此根据接收到的追溯请求,可以获取到该目标字段所在的目标表的标识,在血缘表中获取该目标表的标识对应的源表标识。由于数据抽取或数据治理不会改变表格的格式,对每个数据来说,该数据的目标字段即为该数据的来源字段,该数据的目标行即为该数据的来源行。也就是说来源行中的每个数据都未发生变化,来源字段中的每个数据也都未发生变化,因此通过此种方式可以确定目标字段的来源字段。即获取该源表标识的源表中与该目标字段的标识一致的来源字段的标识,确定该来源字段的标识为第一来源标识,该第一来源标识即为该目标字段对应的来源字段的标识。
若所要获取的是目标数据的来源,则由于追溯请求中会携带有所要追溯的目标数据所在的目标表、目标行以及目标字段,因此根据接收到的追溯请求,可以获取到该目标数据所在的目标表的标识、目标行的标识以及目标字段的标识,在血缘表中获取该目标表对应的源表标识,获取该源表标识的源表中与该目标行的标识一致的来源行的标识,并获取该源表标识的源表中与该目标字段的标识一致的来源字段的标识。该源表标识的源表中为该目标行的标识的来源行,以及该源表标识的源表中为该目标字段标识的来源字段,即为该目标数据的来源。
若所要获取的是目标表的来源,则可以读取血缘表中的FromTable字段,将FromTable字段下的标识进行去重之后,得到第一来源标识,该第一来源标识即为该目标表对应的源表的标识,从而即可得到目标信息的表级血缘关系。
通过上述方式即可获取目标信息对应的源表的标识,在本申请实施例中,还对应保存有源表的标识与来源库的标识的对应关系,在确定目标信息对应的源表的标识后,通过源表的标识与来源库的标识的对应关系,即可获取目标信息的来源库的标识,确定该来源库的标识为第一来源标识,为该第一来源标识的数据库即为该目标信息的来源。从而即可获取目标信息的库级血缘关系。也就是说在本申请实施例中,在获取到表级血缘之后,根据源表的标识与来源库的标识的对应关系,进一步推导表与库的对应关系,即可得到目标信息的库级血缘关系。
图3为本申请实施例提供的追溯目标表的源表的过程示意图。
由图3可知,若所要追溯的目标信息为目标表,所要追溯的来源为源表,则可在追溯请求携带的血缘表中获取目标信息对应的源表的标识。由图3可知,该所要追溯的目标信息的源表为标识为源表1的源表、标识为源表2的源表以及标识为源表3的源表。
以目标信息为标识为Tg1的目标表中的数据N11,并且以追溯请求中携带的血缘表为表3为例进行说明,则在表3中获取Tg1对应的源表的标识,由表3可知,对应的源表的标识为T1,则N11的源表的标识为T1。并根据源表的标识与来源库的标识的对应关系,即可确定N11的来源库的标识。并且由于接收到追溯请求时,追溯请求中会携带有N11所在的目标行以及目标字段,因此根据接收到的追溯请求,可以获取到N11所在的目标行的标识Id1,所在的目标字段的标识Name,则N11的来源为标识为T1的源表中标识为Id1的来源行,及标识为T1的源表中标识为Name的来源字段。
为了准确地确定目标信息的来源,在上述各实施例的基础上,在本申请实施例中,所述追溯请求中还包含关系表,所述在所述血缘表中,查询所述目标信息对应的来源包括:
在所述血缘表中确定所述目标信息对应的数据的数据标识,并确定所述关系表中所述数据标识对应的来源的第二来源标识,将所述第二来源标识对应的来源确定为所述目标信息的来源。
在本申请实施例中,若所要获取的是目标数据的来源,则在血缘表中获取该数据的数据标识,在获取到该数据的数据标识后,在关系表中查询该数据标识,即可查询到该数据标识对应的源表的标识以及来源字段的标识,该源表的标识及该来源字段的标识即为该目标数据的第二来源标识。
由于接收到追溯请求时,追溯请求中会携带有所要追溯的目标数据所在的目标行,因此根据接收到的追溯请求,可以获取到该目标数据所在的目标行的标识,并且由于该目标行的标识与该目标数据的来源行的标识一致,因此确定该目标行的标识为所要获取的该目标数据的来源行的标识,该来源行的标识即为该目标数据的第二来源标识。
根据电子设备中预先保存的源表的标识与来源库的标识的对应关系,通过该目标数据的源表的标识,即可确定该目标数据对应的来源库的标识。通过上述所确定的目标数据的来源行的标识、源表的标识、来源字段的标识以及来源库的标识,即可确定目标数据的来源,也就是说根据所确定的第二来源标识,即可确定目标数据的来源。
若所要获取的目标信息为目标行、目标数据或目标表,则在血缘表中可以获取目标信息中所包含的数据对应的数据标识,从而根据所确定的数据标识,在关系表中查询每个数据标识对应的来源的第二来源标识,从而确定目标信息中所包含的数据的来源。具体的,如何根据数据标识,在关系表中确定每个数据标识对应的来源的第二来源标识,在上述实施例中已经描述过,在此不再赘述。
具体的,在本申请实施例中,关系表中包括数据标识RelationId、该数据标识的数据所在的目标表TargetTable的标识、该数据标识的数据对应的源表FromTable的标识、该数据标识的数据所在的目标字段TargetFeild的标识以及该数据标识的数据对应的来源字段FromFeild的标识。通过读取关系表,即可获取目标字段与来源字段之间的关联关系。
由于关系表中数据量较少,而且无需关联计算,通过基本的检索操作即可获取目标字段TargetFeild的标识对应的来源字段FromFeild的标识,以及与之对应的源表FromTable的标识。从而确定目标信息的来源。具体的,在本申请实施例中,若所要查询的是目标字段或目标表或目标行的来源,则需要通过较复杂的关联计算,首先针对血缘表中逐条查询出该目标信息中每个数据的数据标识RelationId,然后将RelationId逐条在关系表中查询该目标信息中的数据的来源。
图4为本申请实施例提供的追溯目标字段的来源字段的过程示意图。
由图4可知,若所要追溯的目标信息为目标字段,所要追溯的来源为来源字段,则获取该目标信息的源表及来源字段即可,该源表中该来源字段即为该目标字段的来源。由图4可知,该目标字段的来源字段为标识为源表1的源表中标识为来源字段1的来源字段、标识为源表2的源表中标识为来源字段2的来源字段以及标识为源表3的源表中标识为来源字段3的来源字段。
图5为本申请实施例提供的追溯目标信息的来源行的过程示意图。
由图5可知,若所要追溯的来源为来源行,则获取该目标信息的源表及来源行即可,该源表中该来源行即为该目标信息的来源。由图5可知,该目标信息的来源行为标识为源表1的源表中标识为来源行1的来源行、标识为源表2的源表中标识为来源行2的来源行以及标识为源表3的源表中标识为来源行3的来源行。
以目标信息为标识为Tg3的目标表中的数据N11,并且以追溯请求中携带的血缘表为表10、关系表为表11为例进行说明,则在血缘表即表10中确定N11的数据标识为R1,在关系表即表11中查询数据标识R1对应的来源字段的标识及源表的标识,由表11可知,N11的源表的标识为T3,来源字段的标识为Name,并且由于接收到追溯请求时,追溯请求中会携带有N11所在的目标行,因此根据接收到的追溯请求,可以获取到N11所在的目标行的标识Id1,则N11的来源行的标识也为Id1,并且根据源表的标识与来源库的标识的对应关系,即可确定N11的来源库。则N11的来源为标识为T3的源表中标识为Name的来源字段,及标识为T3的源表中标识为Id1的来源行。
在本申请实施例中,通过上述方式确定目标信息的来源,确定过程冗余小,而且不影响处理操作前源表以及处理操作后目标表的结构,可独立进行统计计算。该计算方式适合基于大规模数据处理的快速计算引擎架构进行分片计算,可提高计算效率。
图6为本申请实施例提供的数据血缘构建以及血缘追溯的过程示意图。
在电子设备接收到数据处理操作后,对数据的血缘进行标注,根据处理操作的不同建立血缘表或血缘表以及关系表。在电子设备接收到追溯请求后,进行血缘关系的计算,从而将构建好的血缘表或血缘表及关系表应用到血缘追溯过程中,确定目标信息的来源。
图7为本申请实施例提供的一种数据血缘构建装置结构示意图,该装置包括:
第一接收模块701,用于接收对源表中数据的处理操作;
获取模块702,用于获取所述处理操作后该数据所在的目标表的第一标识以及目标行的第二标识,记录包含所述第一标识、所述第二标识以及源表中该数据的来源的标识的血缘表。
在一种可能的实施方式中,所述获取模块702,具体用于若所述处理操作为数据抽取或数据治理,则在所述血缘表中记录所述第一标识、所述第二标识以及该数据的源表的第三标识;其中,该数据所在的目标行的第二标识与该数据的来源行的标识一致;
若所述处理操作为数据转换或数据融合,则确定该数据的第四标识;在所述血缘表中记录所述第一标识、所述第二标识和所述第四标识的血缘表。
在一种可能的实施方式中,所述获取模块702,具体用于针对确定的每个数据的第四标识,记录包括该数据的第四标识、所述第一标识、所述第三标识、该数据所在的目标字段的标识以及该数据的来源字段的标识的关系表。
图8为本申请实施例提供的一种血缘追溯装置结构示意图,该装置包括:
第二接收模块801,用于接收追溯请求,其中,所述追溯请求中携带有所要追溯的目标信息,以及记载有数据的来源的血缘表;
查询模块802,用于在所述血缘表中,查询所述目标信息对应的来源。
在一种可能的实施方式中,所述查询模块802,具体用于在所述血缘表查询所述目标信息,确定所述血缘表中的所述目标信息对应的来源的第一来源标识,将所述第一来源标识对应的来源确定为所述目标信息的来源。
在一种可能的实施方式中,若所述追溯请求中还包括关系表,所述查询模块802,具体用于在所述血缘表中确定所述目标信息对应的数据的数据标识,并确定所述关系表中所述数据标识对应的来源的第二来源标识,将所述第二来源标识对应的来源确定为所述目标信息的来源。
图9为本申请提供的一种电子设备结构示意图,在上述各实施例的基础上,本发明实施例还提供了一种电子设备,如图9所示,包括:处理器901、通信接口902、存储器903和通信总线904,其中,处理器901,通信接口902,存储器903通过通信总线904完成相互间的通信。
所述存储器903中存储有计算机程序,当所述程序被所述处理器901执行时,使得所述处理器901执行如下步骤:
接收对源表中数据的处理操作;
获取所述处理操作后该数据所在的目标表的第一标识以及目标行的第二标识,记录包含所述第一标识、所述第二标识以及源表中该数据的来源的标识的血缘表。
在一种可能的实施方式中,所述记录包含所述第一标识、所述第二标识以及源表中该数据的来源的标识的血缘表包括:
若所述处理操作为数据抽取或数据治理,则在所述血缘表中记录所述第一标识、所述第二标识以及该数据的源表的第三标识;其中,该数据所在的目标行的第二标识与该数据的来源行的标识一致;
若所述处理操作为数据转换或数据融合,则确定该数据的第四标识;在所述血缘表中记录所述第一标识、所述第二标识和所述第四标识的血缘表。
在一种可能的实施方式中,若所述处理操作为数据转换或数据融合,所述方法还包括:
针对确定的每个数据的第四标识,记录包括该数据的第四标识、所述第一标识、所述第三标识、该数据所在的目标字段的标识以及该数据的来源字段的标识的关系表。
在上述各实施例的基础上,本发明实施例还提供了一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信。
所述存储器中存储有计算机程序,当所述程序被所述处理器901执行时,使得所述处理器执行如下步骤:
接收追溯请求,其中,所述追溯请求中携带有所要追溯的目标信息,以及记载有数据的来源的血缘表;
在所述血缘表中,查询所述目标信息对应的来源。
在一种可能的实施方式中,所述目标信息包括以下至少一种:目标数据、目标表、目标字段和目标行。
在一种可能的实施方式中,所述在所述血缘表中,查询所述目标信息对应的来源包括:
在所述血缘表查询所述目标信息,确定所述血缘表中的所述目标信息对应的来源的第一来源标识,将所述第一来源标识对应的来源确定为所述目标信息的来源。
在一种可能的实施方式中,所述追溯请求中还包含关系表,所述在所述血缘表中,查询所述目标信息对应的来源包括:
在所述血缘表中确定所述目标信息对应的数据的数据标识,并确定所述关系表中所述数据标识对应的来源的第二来源标识,将所述第二来源标识对应的来源确定为所述目标信息的来源。
上述服务器提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述处理器可以是通用处理器,包括中央处理器、网络处理器(NetworkProcessor,NP)等;还可以是数字指令处理器(Digital Signal Processing,DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
在上述各实施例的基础上,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有可由电子设备执行的计算机程序,当所述程序在所述电子设备上运行时,使得所述电子设备执行时实现如下步骤:
所述存储器中存储有计算机程序,当所述程序被所述处理器执行时,使得所述处理器执行如下步骤:
接收对源表中数据的处理操作;
获取所述处理操作后该数据所在的目标表的第一标识以及目标行的第二标识,记录包含所述第一标识、所述第二标识以及源表中该数据的来源的标识的血缘表。
在一种可能的实施方式中,所述记录包含所述第一标识、所述第二标识以及源表中该数据的来源的标识的血缘表包括:
若所述处理操作为数据抽取或数据治理,则在所述血缘表中记录所述第一标识、所述第二标识以及该数据的源表的第三标识;其中,该数据所在的目标行的第二标识与该数据的来源行的标识一致;
若所述处理操作为数据转换或数据融合,则确定该数据的第四标识;在所述血缘表中记录所述第一标识、所述第二标识和所述第四标识的血缘表。
在一种可能的实施方式中,若所述处理操作为数据转换或数据融合,所述方法还包括:
针对确定的每个数据的第四标识,记录包括该数据的第四标识、所述第一标识、所述第三标识、该数据所在的目标字段的标识以及该数据的来源字段的标识的关系表。
在上述各实施例的基础上,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有可由处理器执行的计算机程序,当所述程序在所述处理器上运行时,使得所述处理器执行时实现如下步骤:
接收追溯请求,其中,所述追溯请求中携带有所要追溯的目标信息,以及记载有数据的来源的血缘表;
在所述血缘表中,查询所述目标信息对应的来源。
在一种可能的实施方式中,所述目标信息包括以下至少一种:目标数据、目标表、目标字段和目标行。
在一种可能的实施方式中,所述在所述血缘表中,查询所述目标信息对应的来源包括:
在所述血缘表查询所述目标信息,确定所述血缘表中的所述目标信息对应的来源的第一来源标识,将所述第一来源标识对应的来源确定为所述目标信息的来源。
在一种可能的实施方式中,所述追溯请求中还包含关系表,所述在所述血缘表中,查询所述目标信息对应的来源包括:
在所述血缘表中确定所述目标信息对应的数据的数据标识,并确定所述关系表中所述数据标识对应的来源的第二来源标识,将所述第二来源标识对应的来源确定为所述目标信息的来源。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
对于系统/装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种数据血缘构建方法,其特征在于,所述方法包括:
接收对源表中数据的处理操作;
获取所述处理操作后该数据所在的目标表的第一标识以及目标行的第二标识,记录包含所述第一标识、所述第二标识以及源表中该数据的来源的标识的血缘表。
2.根据权利要求1所述的方法,其特征在于,所述记录包含所述第一标识、所述第二标识以及源表中该数据的来源的标识的血缘表包括:
若所述处理操作为数据抽取或数据治理,则在所述血缘表中记录所述第一标识、所述第二标识以及该数据的源表的第三标识;其中,该数据所在的目标行的第二标识与该数据的来源行的标识一致;
若所述处理操作为数据转换或数据融合,则确定该数据的第四标识;在所述血缘表中记录所述第一标识、所述第二标识和所述第四标识的血缘表。
3.根据权利要求2所述的方法,其特征在于,若所述处理操作为数据转换或数据融合,所述方法还包括:
针对确定的每个数据的第四标识,记录包括该数据的第四标识、所述第一标识、所述第三标识、该数据所在的目标字段的标识以及该数据的来源字段的标识的关系表。
4.一种血缘追溯方法,其特征在于,所述方法包括:
接收追溯请求,其中,所述追溯请求中携带有所要追溯的目标信息,以及记载有数据的来源的血缘表;
在所述血缘表中,查询所述目标信息对应的来源。
5.根据权利要求4所述的方法,其特征在于,所述目标信息包括以下至少一种:目标数据、目标表、目标字段和目标行。
6.根据权利要求4所述的方法,其特征在于,所述在所述血缘表中,查询所述目标信息对应的来源包括:
在所述血缘表查询所述目标信息,确定所述血缘表中的所述目标信息对应的来源的第一来源标识,将所述第一来源标识对应的来源确定为所述目标信息的来源。
7.根据权利要求4或所述的方法,其特征在于,所述追溯请求中还包含关系表,所述在所述血缘表中,查询所述目标信息对应的来源包括:
在所述血缘表中确定所述目标信息对应的数据的数据标识,并确定所述关系表中所述数据标识对应的来源的第二来源标识,将所述第二来源标识对应的来源确定为所述目标信息的来源。
8.一种数据血缘构建装置,其特征在于,所述装置包括:
第一接收模块,用于接收对源表中数据的处理操作;
获取模块,用于获取所述处理操作后该数据所在的目标表的第一标识以及目标行的第二标识,记录包含所述第一标识、所述第二标识以及源表中该数据的来源的标识的血缘表。
9.一种血缘追溯装置,其特征在于,所述装置包括:
第二接收模块,用于接收追溯请求,其中,所述追溯请求中携带有所要追溯的目标信息,以及记载有数据的来源的血缘表;
查询模块,用于在所述血缘表中,查询所述目标信息对应的来源。
10.一种电子设备,其特征在于,所述电子设备至少包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序时执行权利要求1-3中任一所述数据血缘构建或权利要求4-7中任一所述血缘追溯的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110534157.2A CN113138990B (zh) | 2021-05-17 | 2021-05-17 | 一种数据血缘构建、追溯方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110534157.2A CN113138990B (zh) | 2021-05-17 | 2021-05-17 | 一种数据血缘构建、追溯方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113138990A true CN113138990A (zh) | 2021-07-20 |
CN113138990B CN113138990B (zh) | 2023-04-18 |
Family
ID=76817101
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110534157.2A Active CN113138990B (zh) | 2021-05-17 | 2021-05-17 | 一种数据血缘构建、追溯方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113138990B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114064640A (zh) * | 2021-11-09 | 2022-02-18 | 珠海市新德汇信息技术有限公司 | 应用于数据溯源的血缘关系构造方法、存储介质及设备 |
CN114064752A (zh) * | 2021-11-09 | 2022-02-18 | 珠海市新德汇信息技术有限公司 | 基于记录级血缘关系的数据影响分析方法、存储介质及设备 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5666526A (en) * | 1993-09-02 | 1997-09-09 | Microsoft Corp. | Method and system for supporting scrollable, updatable database queries |
US20100114628A1 (en) * | 2008-11-06 | 2010-05-06 | Adler Sharon C | Validating Compliance in Enterprise Operations Based on Provenance Data |
US20150134699A1 (en) * | 2013-11-11 | 2015-05-14 | International Business Machines Corporation | Data movement from a database to a distributed file system |
CN109299073A (zh) * | 2018-10-19 | 2019-02-01 | 杭州数梦工场科技有限公司 | 一种数据血缘的生成方法、系统、电子设备和存储介质 |
CN109325078A (zh) * | 2018-09-18 | 2019-02-12 | 拉扎斯网络科技(上海)有限公司 | 基于结构数据的数据血缘确定方法及装置 |
CN110019182A (zh) * | 2017-08-15 | 2019-07-16 | 华为技术有限公司 | 一种数据追溯方法及装置 |
WO2019184120A1 (zh) * | 2018-03-29 | 2019-10-03 | 平安科技(深圳)有限公司 | 一种账户管理方法、装置、终端设备及存储介质 |
WO2020015150A1 (zh) * | 2018-07-18 | 2020-01-23 | 平安科技(深圳)有限公司 | 数据表动态导出方法、装置、计算机设备及存储介质 |
CN110908997A (zh) * | 2019-10-09 | 2020-03-24 | 支付宝(杭州)信息技术有限公司 | 数据血缘构建方法、装置、服务器及可读存储介质 |
CN111723253A (zh) * | 2020-05-25 | 2020-09-29 | 贵州华泰智远大数据服务有限公司 | 一种基于图数据库的数据血缘查询方法及查询系统 |
WO2020259309A1 (zh) * | 2019-06-28 | 2020-12-30 | 苏宁云计算有限公司 | 一种多维数据查询方法及装置 |
CN112783857A (zh) * | 2020-12-31 | 2021-05-11 | 北京知因智慧科技有限公司 | 一种数据血缘管理方法、装置、电子设备及存储介质 |
US20210209089A1 (en) * | 2020-05-09 | 2021-07-08 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Data processing method, apparatus, device and storage medium |
-
2021
- 2021-05-17 CN CN202110534157.2A patent/CN113138990B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5666526A (en) * | 1993-09-02 | 1997-09-09 | Microsoft Corp. | Method and system for supporting scrollable, updatable database queries |
US20100114628A1 (en) * | 2008-11-06 | 2010-05-06 | Adler Sharon C | Validating Compliance in Enterprise Operations Based on Provenance Data |
US20150134699A1 (en) * | 2013-11-11 | 2015-05-14 | International Business Machines Corporation | Data movement from a database to a distributed file system |
CN110019182A (zh) * | 2017-08-15 | 2019-07-16 | 华为技术有限公司 | 一种数据追溯方法及装置 |
WO2019184120A1 (zh) * | 2018-03-29 | 2019-10-03 | 平安科技(深圳)有限公司 | 一种账户管理方法、装置、终端设备及存储介质 |
WO2020015150A1 (zh) * | 2018-07-18 | 2020-01-23 | 平安科技(深圳)有限公司 | 数据表动态导出方法、装置、计算机设备及存储介质 |
CN109325078A (zh) * | 2018-09-18 | 2019-02-12 | 拉扎斯网络科技(上海)有限公司 | 基于结构数据的数据血缘确定方法及装置 |
CN109299073A (zh) * | 2018-10-19 | 2019-02-01 | 杭州数梦工场科技有限公司 | 一种数据血缘的生成方法、系统、电子设备和存储介质 |
WO2020259309A1 (zh) * | 2019-06-28 | 2020-12-30 | 苏宁云计算有限公司 | 一种多维数据查询方法及装置 |
CN110908997A (zh) * | 2019-10-09 | 2020-03-24 | 支付宝(杭州)信息技术有限公司 | 数据血缘构建方法、装置、服务器及可读存储介质 |
US20210209089A1 (en) * | 2020-05-09 | 2021-07-08 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Data processing method, apparatus, device and storage medium |
CN111723253A (zh) * | 2020-05-25 | 2020-09-29 | 贵州华泰智远大数据服务有限公司 | 一种基于图数据库的数据血缘查询方法及查询系统 |
CN112783857A (zh) * | 2020-12-31 | 2021-05-11 | 北京知因智慧科技有限公司 | 一种数据血缘管理方法、装置、电子设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
叶隽毅;左志兆;陈龙云;: "探析公共安全视图智能分析系统的数据血缘" * |
陈欢;: "面向电子商务大数据的隐私信息追溯方法研究" * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114064640A (zh) * | 2021-11-09 | 2022-02-18 | 珠海市新德汇信息技术有限公司 | 应用于数据溯源的血缘关系构造方法、存储介质及设备 |
CN114064752A (zh) * | 2021-11-09 | 2022-02-18 | 珠海市新德汇信息技术有限公司 | 基于记录级血缘关系的数据影响分析方法、存储介质及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113138990B (zh) | 2023-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109977110B (zh) | 数据清洗方法、装置及设备 | |
US9201738B2 (en) | Method, computer readable storage medium and computer system for obtaining snapshots of data | |
CN110162516B (zh) | 一种基于海量数据处理的数据治理的方法及系统 | |
CN113138990B (zh) | 一种数据血缘构建、追溯方法、装置及设备 | |
CN108647357B (zh) | 数据查询的方法及装置 | |
CN110060139B (zh) | 账务处理方法及装置 | |
CN111597174A (zh) | 一种分布式数据统计处理系统、方法、存储介质、终端 | |
CN106844320B (zh) | 一种财务报表整合方法和设备 | |
CN111324781A (zh) | 一种数据分析方法、装置及设备 | |
CN111737148A (zh) | 自动回归测试方法、装置、计算机设备及存储介质 | |
CN108009223B (zh) | 一种交易数据的一致性检测方法及装置 | |
CN113704343A (zh) | 一种数据治理中的数据血缘可视化实现方法及系统 | |
CN113886373A (zh) | 一种数据处理方法、装置及电子设备 | |
CN107291749B (zh) | 一种数据指标关联关系的确定方法及装置 | |
CN117033205A (zh) | 一种流量回放对比测试方法及装置 | |
CN111784246A (zh) | 物流路径的估测方法 | |
US12026146B2 (en) | Data analysis method, apparatus and device | |
CN117763024A (zh) | 一种数据分片抽取方法及装置 | |
CN114691768A (zh) | 一种数据处理方法、核算系统及相关设备 | |
CN114860608A (zh) | 基于场景构建的系统自动化测试方法、装置、设备及介质 | |
CN113986762A (zh) | 一种测试用例的生成方法及装置 | |
CN114116773A (zh) | 一种结构化查询语言sql文本审核方法及装置 | |
CN114117052A (zh) | 一种业务数据报表的分类方法及装置 | |
US20080005159A1 (en) | Method and computer program product for collection-based iterative refinement of semantic associations according to granularity | |
CN112764888A (zh) | 一种基于日志分析的分布式事务检查判断方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220823 Address after: 266071 4th floor, building B3, Hisense R & D center, 399 Songling Road, Laoshan District, Qingdao, Shandong Province Applicant after: QINGDAO HISENSE TRANSTECH Co.,Ltd. Applicant after: Qingdao Guochuang Wisdom Cloud Brain Technology Co.,Ltd. Address before: 266071 No. 151, Zhuzhou Road, Laoshan District, Shandong, Qingdao Applicant before: QINGDAO HISENSE TRANSTECH Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |