CN111563103A

CN111563103A - 一种用于数据血缘检测方法和系统

Info

Publication number: CN111563103A
Application number: CN202010351018.1A
Authority: CN
Inventors: 吴鸿伟; 乔赞瑞; 林文楷; 齐战胜; 吴朝晖; 鄢小征
Original assignee: Xiamen Meiya Pico Information Co Ltd
Current assignee: Xiamen Meiya Pico Information Co Ltd
Priority date: 2020-04-28
Filing date: 2020-04-28
Publication date: 2020-08-21
Anticipated expiration: 2040-04-28
Also published as: CN111563103B

Abstract

本申请公开了一种用于数据血缘检测方法和系统。提取同一条存储记录在不同节点所对应的节点数据；利用路径规则库将节点数据映射存储于路径数据集合中，基于路径溯源算法将路径数据集合中的每个子集合进行归一化处理，获得节点数据的的上下级关系的路径标识集合；利用关系规则库将节点数据中的数据项映射存储于数据项集合中，基于关系溯源算法分析数据项之间的关联关系，获得数据项溯源结果集合；基于节点数据的路径标识集合和数据项溯源结果集合构建每条数据在不同节点的数据血缘信息库。该方案通过路径溯源和关系溯源分别从节点数据和数据项两个层面进行分析，实现业务数据或者业务要素的全面快速准确的溯源要求，提升大数据的业务支撑能力。

Description

一种用于数据血缘检测方法和系统

技术领域

本申请涉及数据处理技术领域，具体涉及一种用于数据血缘检测方法和系统。

背景技术

用户在使用大数据开发平台时，当生产的数据出现问题时，需要查看数据的血缘来辅助定位出问题数据的整个生产链路，来缩小排查范围。其中，数据的血缘用于描述在数据生产过程中，数据迁移、变换的整个过程。通过对数据的血缘的追踪，可以追溯出某条数据在整个数据流中的演化过程。这样一方面保证数据质量、可信度；另一方面当数据发生问题时，也可以用来快速定位原因并修复问题。不同来源的海量原始数据经过多个环节处理后，进入大数据资源池，依托大数据系统开展的业务办理过程中，往往需要对某项关键业务数据或某个关键业务属性、数据的来源、处理过程和关联关系等维度进行分析，以辅助业务决策。所以如何快速准确地掌握数据之间的血缘关系，掌握数据从哪里来，怎么来的，数据之间有什么联系，成为大数据能否高效支撑业务办理的关键点。

但是，由于大数据系统接入的原始数据经过的处理环节多、处理操作复杂等特点，目前市场上现有的数据血缘检测方法，主要通过手工维护数据记录之间的两两关系实现，由于不同处理环节存储数据记录的结构和方式都不一样，会存在多处理节点无法溯源和溯源效率低下等问题，此外，也无法实现数据项级的溯源需求。

发明内容

本申请的目的在于提出了一种用于数据血缘检测方法和系统，解决由于不同处理环节存储数据记录的结构和方式都不一样，存在多处理节点无法溯源和溯源效率低下等问题。

根据本发明的第一方面，提出了一种用于数据血缘检测方法，该方法包括：

S1：提取同一条存储数据记录在不同节点所对应的节点数据；

S2：利用路径规则库将节点数据映射存储于路径数据集合中，基于路径溯源算法将路径数据集合中的每个子集合进行归一化处理，获得节点数据的上下级关系的路径标识集合；

S3：利用关系规则库将节点数据中的数据项映射存储于数据项集合中，基于关系溯源算法分析数据项之间的关联关系，获得数据项溯源结果集合；以及

S4：基于节点数据的路径标识集合和数据项溯源结果集合构建每条数据在不同节点的数据血缘信息库。

在该方法中，提取同一条存储数据记录在不同节点的节点数据，先利用路径溯源算法，将每条数据在不同处理节点所对应的节点数据做归一化处理，并将归一化后的记录标识注册数据资源目录里，支持各业务系统获得每条数据的完整演进路径，实现数据的全流程溯源，此外，还利用关系溯源算法，将同一条存储记录的每个数据项在不同处理节点上结合关系规则库，精准分析出数据项之间的关联关系，实现数据项级的精准溯源。

在一些具体实施例中，节点数据包括源数据、产出数据和依赖数据。利用多种类型的数据进行路径溯源算法和关系溯源算法，使得溯源结果更加完整可靠，溯源颗粒更小更精准。

在一些具体实施例中，S2步骤中的路径溯源算法具体包括以下子步骤：

S21：将同一条存储数据记录的节点数据通过路径规则库映射存储到路径数据集合S_n；

S22：提取路径数据集合S_n中的源数据的前后记录进行加密算法，获得源数据接入处理操作的路径标识，利用路径标识和节点原始ID生成路径节点序列号；

S23：将路径数据集合S_n中每个节点的路径节点顺序号进行依次叠加形成节点数据归一化的路径标识集合，并将路径标识集合注册到数据资源目录进行广播。

在该方法中，将每条数据在不同处理节点，所对应的源数据、产出数据和依赖数据做归一化处理，并将归一化后的路径标识集合注册数据资源目录里，以便为各业务系统提供每条数据的完整演进路径，实现数据的全流程可溯源性。

在一些具体实施例中，路径节点序列号依次通过提取第1个节点的路径节点处理ID的32位序列号，作为第1个节点的顺序号，则第n+1个节点的顺序号表示为：第n个节点的顺序号+“/”+第n+1个节点的处理ID的32位序列号。凭借第1个节点顺序号的定义和与后续节点的联系，实现将各节点数据的归一化处理和向上向下的分级。

在一些具体实施例中，在S3步骤中的关联溯源算法具体包括以下子步骤：

S31：将节点数据的源数据和产出数据分别利用将数据类型、字段标识和字段值映射存储到原始数据集合X_n和产出数据集合Y_n；

S32：遍历比对原始数据集合X_n和产出数据集合Y_n中的字段标识，分别获得第一数据集合L_n和第二数据集合P_n，其中，第一数据集合L_n为原始数据集合X_n与产出数据集合Y_n存在相同字段标识的数据集合，第二数据集合P_n为仅存在于产出数据集合Y_n的字段标识的数据集合；

S33：将第一数据集合L_n和第二数据集合P_n分别取MD5值，分别作为新增数据项和保留数据项；

S34：结合关系规则库，循环遍历原始数据集合X_n和产出数据集合Y_n，与第一数据集合L_n对应的字段值进行比较，若字段值一样，则标记为上关联标识，否则标记为上转换标识；继续循环遍历原始数据集合X_n，与第二数据集合P_n对应的字段值一样标记为上提取标识，获得同一条存储数据记录的数据项溯源结果集合R_n。

在该方法中，利用关系溯源算法，将每个数据项在不同处理节点，所对应的源数据、产出数据和依赖数据做归一化处理，结合关系规则库，精准分析出数据项之间的关联关系，实现数据项级的精准溯源。

在一些具体实施例中，路径规则库包括第一记录ID、路径ID、操作顺序、节点ID、节点类型和节点信息。路径规则库的设置，实现对每条数据处理过程的操作路径信息进行定义，便于后续路径溯源算法进行归一化处理。

在一些具体实施例中，关系规则库包括第二记录ID、路径规则ID、字段标识集合、操作类型、集合类型和关系类型。规则关联库的设置，实现获取匹配的各种路径信息，便于在关系溯源算法中相应的字段值的比较。

在一些具体实施例中，响应于针对业务数据C₁进行溯源，基于数据资源目录的索引获得C₁对应的路径标识集合C_n，并遍历C_n和C₁的操作顺序，获得C₁的向上处理数据和向下处理数据，从而得到C₁的演进路径。

在一些具体实施例中，关系类型包括转换关系、关联关系和提取关系，其中，转换关系对应上转换标记，关联关系对应上关联标记，提取关系对应上提取标记。

根据本发明的第二方面提出了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述实施例的方法。

根据本发明的第三方面，提出了一种用于数据血缘检测系统，该系统包括：

节点数据单元：配置用于提取同一条存储数据记录在不同节点所对应的节点数据；

路径标识单元：配置用于利用路径规则库将节点数据映射存储于路径数据集合中，基于路径溯源算法将路径数据集合中的每个子集合进行归一化处理，获得节点数据的上下级关系的路径标识集合；

关联关系单元：配置用于利用关系规则库将节点数据中的数据项映射存储于数据项集合中，基于关系溯源算法分析数据项之间的关联关系，获得数据项溯源结果集合；以及

更新数据库单元：配置用于基于节点数据的路径标识集合和数据项溯源结果集合构建每条数据在不同节点的数据血缘信息库。

本申请提供的一种用于数据血缘检测方法和系统。提取同一条存储数据记录在不同节点的节点数据，先利用路径溯源算法，将每条数据在不同处理节点所对应的节点数据做归一化处理，并将归一化后的记录标识注册数据资源目录里，构建每条数据的演进路径图，此外，还通过关系溯源算法，将每个数据项在不同处理节点，所对应的源数据、产出数据和依赖数据做归一化处理，结合关系规则库，精准分析出数据项之间的关联关系，本发明高效支撑业务办理过程中，针对业务数据或业务要素的全面快速准确的溯源需求，提升大数据的业务支撑能力。支持各业务系统获得每条数据的完整演进路径，实现数据的全流程溯源，还能精准分析出数据项之间的关联关系，实现数据项级的精准溯源。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是根据本申请实施例中的用于数据血缘检测方法的流程图；

图2是根据本申请实施例中的用于数据血缘检测方法整体分析示意图：

图3是根据本申请实施例中的数据接入处理的流程图；

图4是根据本申请实施例中的路径溯源算法的分析流程图；

图5是根据本申请实施例中的关系溯源算法的分析流程图；

图6是根据本申请实施例中的一种用于数据血缘检测的系统的示意性结构框图；

图7适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了根据本申请实施例中的用于数据血缘检测方法的流程图。如图1所示，该方法包括节点处理，路径溯源算法、关系溯源算法和构建数据血缘信息库的步骤。

在步骤S1中：提取同一条存储数据记录在不同节点所对应的节点数据。

在该步骤中，从大数据系统接入的存储数据记录中，获取同一条存储数据记录在不同节点所对应的节点数据，包括源数据、产出数据和依赖数据。

在步骤S2中：利用路径规则库将节点数据映射存储于路径数据集合中，基于路径溯源算法将路径数据集合中的每个子集合进行归一化处理，获得节点数据的上下级关系的路径标识集合。

在该步骤中，将每条数据在不同处理节点，所对应的源数据、产出数据和依赖数据通过路径溯源算法做归一化处理，并将归一化后的路径标识集合注册数据资源目录广播给所有应用系统，支持各业务系统获得每条数据的完整演进路径，实现数据的全流程溯源。

在步骤S3中：利用关系规则库将节点数据中的数据项映射存储于数据项集合中，基于关系溯源算法分析数据项之间的关联关系，获得数据项溯源结果集合。

在该步骤中，通过提取源数据和产出数据的数据项，通过字段标识获得归一化后的唯一标识，并结合关系分析等算法，精准分析出数据项之间的关联关系，实现所有场景下的数据项溯源。

在步骤S4中：基于节点数据的路径标识集合和数据项溯源结果集合构建每条数据在不同节点的数据血缘信息库。

在该步骤中，通过优化不同类型数据间的关联特征识别方法，结合路径规则库和关系规则库，构建每条数据在不同节点的数据血缘信息库，以计算机程序自动、实现数据血缘的全方位检测，获取数据之间和数据项之间的关联关系，支撑业务办理决策的数据溯源需求，解决困扰已久的海量数据无法实现全面准确快速溯源的问题。

继续参考图2，其示出了根据本申请实施例中的用于数据血缘检测方法整体分析示意图。如图200所示，本申请的整体分析具体流程包括以下步骤：

步骤201：海量数据。不同来源的海量原始数据经过多个环节处理后，进入大数据资源池，依托大数据系统开展的执法业务办理过程中，往往需要对某项关键业务数据或某个关键业务属性数据的来源、处理过程和关联关系等维度进行分析，以辅助业务决策。

步骤202：接入处理环节。针对接入大数据系统的各种海量数据，对关键业务数据或关键业务属性数据的来源、处理过程和关联关系等维度进行溯源分析的使用场景。

步骤203：路径溯源。由于大数据系统接入的原始数据经过的处理环节多，不同处理环节存储数据记录的结构和方式都不一样，通过维护数据记录之间的两两关系，实现数据溯源，会存在溯源效率低下等问题。将每条数据在不同处理节点，所对应的源数据、产出数据和依赖数据利用路径溯源算法做归一化处理，并将归一化后的记录标识注册数据资源目录里，广播给所有的应用系统。

步骤204：关系溯源。由于大数据系统接入的原始数据经过的处理环节多，且针对不同数据项的处理和存储方式都不一样，传统做法是通过比对数据项的命名差异，来确认数据项的关联关系，无法实现复杂场景下的数据项级的溯源需求。通过对数据项归一化并利用关系溯源算法，精准分析出数据项之间的关联关系，实现所有场景下的数据项溯源。

步骤205：数据血缘结果保存。利用路径溯源和关系溯源两种算法，得到每条数据的完整演进路径和数据项之间的关联关系，实现数据的全流程和全属性溯源，提升大数据的业务支撑能力。

在一些具体的实施例中，步骤202的接入处理环节可参考图3，图3示出了根据本申请实施例中的数据接入处理的流程图，提取源数据A经过处理环节1生成产出数据B1和产出数据B2同时产生依赖数据E1，产出数据B1和产出数据B2经过处理环节2，分别生成产出数据C1、C2、C3和C4，其中，产出数据B1和产出数据B2可同时生成产出数据C2，产出数据C2经过处理环节3生成产出数据D1。本发明分别提取源数据A，依赖数据E1，产出数据B1、B2，产出数据C1-C4，产出数据D1，保存到操作路径分析数据集合，作为后续路径溯源算法和关系溯源算法的原始数据集。

继续参考图4，其示出了根据本申请实施例中的路径溯源算法的分析流程图。具体流程包括以下步骤：

步骤401：数据处理节点。每个处理环节，分别提取源数据、产出数据和依赖数据三种类型的详细信息，保存到操作路径分析数据集Sn，Sn包含n个子集合{S1，S2，…，Sn}，将路径ID、操作顺序、节点ID、节点类型、节点信息等信息存储在数据块表里。

步骤402：数据记录归一化。数据记录归一化算法的核心点有以下三子步骤，第一子步骤，提取源数据A的前10k和后10K的记录，结合特定加密算法，产生A作为源数据接入处理操作的唯一路径标识；第二子步骤，提取唯一路径标识+每个处理环节的原始记录ID，生成每个当前处理环节的记录ID；第三提取32位序列号作为A的顺序号，后续处理环节的顺序号为上个处理环节的顺序号+“|”+32位序列号；第三子步骤，利用第二子步骤的处理流程，在其他各处理环节的路径标识，都是叠加A产生的路径标识。

步骤403：资源目录注册。将数据集里Sn的路径ID注册到资源目录，广播给所有的应用系统。

步骤404：保存演进路径。结合业务系统，保存数据集中操作路径结果集，并展现该业务数据处理路径的具体信息。

在一些具体的实施例中，继续参考图3，若某项业务系统要对业务数据C1进行溯源时，获取C1的路径标识R，基于资源目录的索引，得到R对应的操作路径集Cn，遍历比对Cn和C1的操作顺序，得到C1的向上处理环节A、B1、B2和E1，和向下处理环节D1，构成C1的操作路径结果集Rn。保存结果集Rn，结合业务系统，展示C1的处理路径的具体信息。

在一些具体的实施例中，路径溯源算法具体包括以下子步骤：

S21：将同一条存储数据记录的节点数据通过路径规则库映射存储到路径数据集合S_n。

S22：提取路径数据集合S_n中的源数据的前后记录进行加密算法，获得源数据接入处理操作的路径标识，利用路径标识和节点原始ID生成路径节点序列号。首先，提取第1个节点的路径节点处理ID的32位序列号，作为第1个节点的顺序号，则第n+1个节点的顺序号表示为：第n个节点的顺序号+“/”+第n+1个节点的处理ID的32位序列号。

在一些具体的实施例中，通过路径规则库获取每一条数据处理过程的操作路径信息，路径规则库的具体定义如下表：

由于大数据系统接入的原始数据经过的处理环节多，且针对不同数据项的处理和存储方式都不一样，传统做法是通过比对数据项的命名差异，来确认数据项的关联关系，无法实现复杂场景下的数据项级的溯源需求，针对以上问题，本发明提出关系溯源算法，具体分析流程图，如图5所示，此外，本算法同时也支持配置新的关系分析规则，通过数据项归一化、关系分析等算法，精准分析出数据项之间的关联关系，实现所有场景下的数据项溯源。关系溯源算法具体流程包括以下步骤：

步骤501：数据处理节点。提取源数据作为原始分析数据集合X，集合X包含n个子集合{X1，X2，…，Xn}，提取产出数据作为原始分析数据集合Y，集合Y包含n个子集合{Y1，Y2，…，Yn}，将数据类型、字段标识和字段值存储在数据块表里。

步骤502：数据项归一化。循环遍历Xn和Yn，比对Xn和Yn的字段标识，得到Xn和Yn相同的字段标识集合Ln，Yn有而Xn没有的字段标识集合Pn；再将Ln和Pn分别取MD5值，分别作为新增数据项和保留数据项，归一化后的唯一标识。

步骤503：关系分析。关系分析具体从转换关系、关联关系和提取关系进行分析，具体算法，结合关系规则库，循环遍历数据集合Xn和Yn，取到Ln对应的字段值进行比对，如字段值一样，则打上关联标识，如字段值不一样，则打上转换标识；循环遍历数据集合Xn，取到Pn对应的字段值，打上提取的标识，得到最终的数据项溯源结果集合Rn。

步骤504：保存结果。保存结果集Rn，结合业务系统，展示某关键业务数据项的关联关系的具体信息。

在一些具体的实施例中，通过关系规则库获得匹配的各种数据源中同一条数据中不同处理节点的路径信息，具体关系规则库定义如下：

在一些具体的实施例中，关系溯源算法具体包括以下子步骤：

S31：将节点数据的源数据和产出数据分别通将数据类型、字段标识和字段值映射存储到原始数据集合X_n和产出数据集合Y_n；

S33：将第一数据集合L_n和第二数据集合P_n分别取MD5值，分别作为新增数据项和保留数据项：

S34：结合关系规则库，循环遍历原始数据集合X_n和产出数据集合Y_n并与第一数据集合L_n对应的字段值进行比较，若字段值一样，则标记为上关联标识，否则标记为上转换标识；继续循环遍历原始数据集合X_n，将与第二数据集合P_n对应的字段值一样标记为上提取标识，最终获得同一条存储数据记录的数据项溯源结果集合R_n。在数据项关系类型中包括转换关系、关联关系和提取关系，其中，转换关系对应上转换标记，关联关系对应上关联标记，提取关系对应上提取标记。

此外，本申请还提出了一种用于数据血缘检测的系统。其中如图6所示，数据血缘检测系统600包括节点数据单元601、路径标识单元602、关联关系单元603和更新数据库单元604。通过节点数据单元601提取同一条存储数据记录在不同节点所对应的节点数据，分别进行路径标识单元602、关联关系单元603，其中路径标识单元602通过路径溯源算法将每条数据在不同处理节点，所对应的源数据、产出数据和依赖数据做归一化处理，构建每条数据的演进路径图，关联关系单元603通过关系溯源算法，将每个数据项在不同处理节点，所对应的源数据、产出数据和依赖数据做归一化处理，结合关系规则库，精准分析出数据项之间的关联关系，最后汇聚于更新数据库单元604构件每条数据在不同节点的数据血缘信息库。本发明高效支撑业务办理过程中，针对业务数据或业务要素的全面快速准确的溯源需求，提升大数据的业务支撑能力。

目前市场上尚无类似的优化算法，该算法基于海量数据场景下，可实现数据的全流程和全属性溯源，支撑业务办理决策，经实际测算，在千亿级数据量下，数据血缘检测的准确率和效率可比市面上同类产品提高50％。本申请通过将每条数据和每个数据项，在不同处理节点，所对应的源数据、产出数据和依赖数据做归一化处理，实现数据的全流程和全属性溯源，溯源的准确率高，速度快，提升大数据的业务支撑能力，降低工作人员的分析工作负担。

下面参考图7，其示出了适于用来实现本申请实施例的电子设备的计算机系统700的结构示意图。图7示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图7所示，计算机系统700包括中央处理单元(CPU)701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中，还存储有系统700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也可以根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时，执行本申请的方法中限定的上述功能。

需要说明的是，本申请的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。计算机可读介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括节点数据单元、路径标识单元、关联关系单元和更新数据库单元。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，节点数据单元还可以被描述为“提取同一条存储数据记录在不同节点所对应的节点数据”。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：提取同一条存储数据记录在不同节点所对应的节点数据；利用路径规则库将节点数据映射存储于路径数据集合中，基于路径溯源算法将路径数据集合中的每个子集合进行归一化处理，获得节点数据的上下级关系的路径标识集合；利用关系规则库将节点数据中的数据项映射存储于数据项集合中，基于关系溯源算法分析数据项之间的关联关系，获得数据项溯源结果集合；以及基于节点数据的路径标识集合和数据项溯源结果集合构建每条数据在不同节点的数据血缘信息库。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种用于数据血缘检测方法，其特征在于，所述方法包括：

S2：利用路径规则库将所述节点数据映射存储于路径数据集合中，基于路径溯源算法将所述路径数据集合中的每个子集合进行归一化处理，获得所述节点数据的上下级关系的路径标识集合；

S3：利用关系规则库将所述节点数据中的数据项映射存储于数据项集合中，基于关系溯源算法分析所述数据项之间的关联关系，获得数据项溯源结果集合；以及

S4：基于所述节点数据的路径标识集合和所述数据项溯源结果集合构建每条数据在不同节点的数据血缘信息库。

2.根据权利要求1所述的一种用于数据血缘检测方法，其特征在于，所述节点数据包括源数据、产出数据和依赖数据。

3.根据权利要求2所述的一种用于数据血缘检测方法，其特征在于，所述S2步骤中的所述路径溯源算法具体包括以下子步骤：

S21：将同一条所述存储数据记录的所述节点数据通过所述路径规则库映射存储到路径数据集合S_n；

S22：提取所述路径数据集合S_n中的所述源数据的前后记录进行加密算法，获得所述源数据接入处理操作的路径标识，利用所述路径标识和节点原始ID生成路径节点序列号；

S23：将所述路径数据集合S_n中每个节点的所述路径节点顺序号进行依次叠加形成所述节点数据归一化的路径标识集合，并将所述路径标识集合注册到数据资源目录进行广播。

4.根据权利要求3所述的一种用于数据血缘检测方法，其特征在于，所述路径节点序列号依次通过提取第1个节点的所述路径节点处理ID的32位序列号，作为所述第1个节点的顺序号，则第n+1个节点的顺序号表示为：第n个节点的顺序号+“/”+第n+1个节点的处理ID的32位序列号。

5.根据权利要求2所述的一种用于数据血缘检测方法，其特征在于，在所述S3步骤中的关联溯源算法具体包括以下子步骤：

S31：将所述节点数据的源数据和所述产出数据分别利用数据类型、字段标识和字段值映射存储到原始数据集合X_n和产出数据集合Y_n；

S32：遍历比对所述原始数据集合X_n和所述产出数据集合Y_n中的字段标识，分别获得第一数据集合L_n和第二数据集合P_n，其中，所述第一数据集合L_n为所述原始数据集合X_n与所述产出数据集合Y_n存在相同所述字段标识的数据集合，所述第二数据集合P_n为仅存在于所述产出数据集合Y_n的所述字段标识的数据集合；

S33：将所述第一数据集合L_n和所述第二数据集合P_n分别取MD5值，分别作为新增数据项和保留数据项；

S34：结合所述关系规则库，循环遍历所述原始数据集合X_n和所述产出数据集合Y_n，与所述第一数据集合L_n对应的字段值进行比较，若所述字段值一样，则标记为上关联标识，否则标记为上转换标识；继续循环遍历所述原始数据集合X_n，与所述第二数据集合P_n对应的字段值一样标记为上提取标识，获得同一条所述存储数据记录的数据项溯源结果集合R_n。

6.根据权利要求1所述的一种用于数据血缘检测方法，其特征在于，所述路径规则库包括第一记录ID、路径ID、操作顺序、节点ID、节点类型和节点信息。

7.根据权利要求1或5所述的一种用于数据血缘检测方法，其特征在于，所述关系规则库包括第二记录ID、路径规则ID、字段标识集合、操作类型、集合类型和关系类型。

8.根据权利要求3所述的一种用于数据血缘检测方法，其特征在于，响应于针对业务数据C₁进行溯源，基于所述数据资源目录的索引获得C₁对应的路径标识集合C_n，并遍历C_n和C₁的操作顺序，获得C₁的向上处理数据和向下处理数据，从而得到C₁的演进路径。

9.根据权利要求7所述的一种用于数据血缘检测方法，其特征在于，所述关系类型包括转换关系、关联关系和提取关系，其中，所述转换关系对应上转换标记，所述关联关系对应上关联标记，所述提取关系对应上提取标记。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-9中任一所述的方法。

11.一种用于数据血缘检测系统，其特征在于，所述系统包括：

路径标识单元：配置用于利用路径规则库将所述节点数据映射存储于路径数据集合中，基于路径溯源算法将所述路径数据集合中的每个子集合进行归一化处理，获得所述节点数据的上下级关系的路径标识集合；

关联关系单元：利用关系规则库将所述节点数据中的数据项映射存储于数据项集合中，基于关系溯源算法分析所述数据项之间的关联关系，获得数据项溯源结果集合；以及

更新数据库单元：配置用于基于所述节点数据的路径标识集合和所述数据项溯源结果集合构建每条数据在不同节点的数据血缘信息库。

12.根据权利要求11所述的一种用于数据血缘检测系统，其特征在于，所述路径规则库包括第一记录ID、路径ID、操作顺序、节点ID、节点类型和节点信息。

13.根据权利要求11所述的一种用于数据血缘检测系统，其特征在于，所述关系规则库包括第二记录ID、路径规则ID、字段标识集合、操作类型、集合类型和关系类型。