CN105488222A

CN105488222A - 一种数据源回溯追踪方法及装置

Info

Publication number: CN105488222A
Application number: CN201510996259.0A
Authority: CN
Inventors: 简宋全; 李青海; 侯大勇; 邹立斌; 许飞月
Original assignee: Guangzhou Jing Dian Computing Machine Science And Technology Ltd
Current assignee: Guangzhou Jing Dian Computing Machine Science And Technology Ltd
Priority date: 2015-12-24
Filing date: 2015-12-24
Publication date: 2016-04-13

Abstract

本发明是一种数据源回溯追踪方法及装置，所述方法包括：对结构相似的原始数据进行归并处理为数据源块；对所述数据源块的每个数据在进行数据规整处理过程中在其新添加的属性字段中记录其流程编号；在对某个数据查找其原始数据时，根据所述新添加的属性字段记录的流程编号回溯到所述数据源块中；根据主键或模糊匹配得到所述原始数据。不仅能够追踪原始数据的来源，进一步的，还能够呈现出数据在进行构建数据仓库的过程中各个步骤处理后的历史数据变化。另外，还能够减少数据的冗余。

Description

一种数据源回溯追踪方法及装置

技术领域

本发明涉及一种商用智能数据处理领域，尤其是一种数据源回溯追踪方法及装置。

背景技术

随着大数据时代的到来，商业智能技术越来越被企业重视，如何在庞大的数据中挖掘出新的信息作为决策支持，降低风险，提高企业的绩效，成了企业在同行业获得领先地位的重要途径之一。

数据仓库的构建是商业智能技术的重要的组成部分，ETL，包括数据抽取(Extract)、数据转换(Transform)、数据加载(Loading)，在构建数据仓库过程中占据了很大的工作量，同时它的完善将极大地保证了数据的质量，只有ETL过程中数据处理妥当，接下来数据分析才能有意义。

ETL每个过程都需要根据项目要求对数据进行一定的处理，但是庞大的数据量使得在处理过程中不可能将变换时的所有历史数据保存下来，那样会造成很大的数据冗余，但是企业在做决策支持时往往需要追踪用户数据的来源，还有ETL开发时往往需要对错误的数据进行回溯分析，这些都是构建ETL过程中需要解决的问题。

同时，本发明人也发现，以上的问题不仅仅只存在于ETL的处理过程中，其他的商用智能数据处理领域也存在同样的问题。

鉴于上述问题，本发明创作者经过长时间的研究和实践终于获得了本创作。

发明内容

本发明的目的在于：提供一种数据源回溯追踪方法，能够追踪原始数据的来源。

为实现上述目的，本发明的数据源回溯追踪方法采用的技术方案包括：

对结构相似的原始数据进行归并处理为数据源块；

对所述数据源块的每个数据在进行数据规整处理过程中在其新添加的属性字段中记录流程编号；

在对某个数据查找其原始数据时，根据所述新添加的属性字段记录的流程编号回溯到所述数据源块中；

根据主键或模糊匹配得到所述原始数据。

较佳的，对所述数据源块的每个数据在进行数据规整处理过程中在其新添加的属性字段中记录其流程编号的过程包括：

对所述数据源块的第一个数据进行所述数据规整处理过程中所经过的步骤进行记录，并在新添加的属性字段中记录其流程编号，对所述数据源块的第二个数据进行所述数据规整处理，搜索经过的步骤是否已经存在于所述记录中，如果已存在，则直接记录流程编号，如果不存在，则对该流程中所经过步骤进行记录，并在属性字段中记录其流程编号，依次进行，直到所有的数据按照所述的数据规整处理完毕为止，使每个数据在新添加的属性字段上都会有一个流程编号。

较佳的，其还包括：

根据所述流程编号得到所述数据进行数据规整处理的流程步骤，根据所述流程步骤再次对所述源数据进行数据规整处理，并保存每个源数据的处理结果。

较佳的，所述数据规整处理为ETL处理。

与现有技术比较本发明提供的数据源回溯追踪方法的有益效果在于：不仅能够追踪原始数据的来源，进一步的，还能够呈现出数据在进行构建数据仓库的过程中各个步骤处理后的历史数据变化。另外，还能够减少数据的冗余。

另一方面，为实现上述目的，本发明还提供了一种数据源回溯追踪装置，

归并处理单元，对结构相似的原始数据进行归并处理为数据源块；

编号单元，对所述数据源块的每个数据在进行数据规整处理过程中在其新添加的属性字段中记录其流程编号；

回溯单元，在对某个数据查找其原始数据时，根据所述新添加的属性字段记录的流程编号回溯到所述数据源块中；

匹配单元，根据主键或模糊匹配得到所述原始数据。

较佳的，所述编号单元对所述数据源块的第一个数据进行所述数据规整处理过程中所经过的步骤进行记录，并在新添加的属性字段中记录其流程编号，对所述数据源块的第二个数据进行所述数据规整处理，搜索经过的步骤是否已经存在于所述记录中，如果已存在，则直接记录流程编号，如果不存在，则对该流程中所经过步骤进行记录，并在属性字段中记录其流程编号，依次进行，直到所有的数据按照所述的数据规整处理完毕为止，使每个数据在新添加的属性字段上都会有一个流程编号。

较佳的，所述数据源回溯追踪装置还包括：

再整理单元，根据所述流程编号得到所述数据进行数据规整处理的流程步骤，根据所述流程步骤再次对所述源数据进行数据规整处理，并保存每个数据的处理结果。

较佳的，所述数据规整处理为ETL处理。

与现有技术比较本发明提供的数据源回溯追踪装置的有益效果在于不仅能够追踪原始数据的来源，进一步的，还能够呈现出数据在进行构建数据仓库的过程中各个步骤处理后的历史数据变化。另外，还能够减少数据的冗余。

本发明还提供一种数据源回溯追踪装置，包括：数据源模块，ETC处理模块，数据仓库，所述数据源模块的各组数据源块通过所述ETC处理模块后进入数据仓库，其特征在于，所述数据源模块包括如所述的归并元处理单元；所述数据源回溯装置还包括记录存储模块，所述记录存储模块用来执行如所述的编号单元、所述回溯单元、所述匹配单元的功能。

较佳的，所述记录保存模块包括附表，所述附表执行所述编号单元和所述匹配单元的功能。

与现有技术比较本发明提供的数据源回溯追踪装置的有益效果在于可以更好地实现本发明提供的方法。

附图说明

图1是本发明数据源回溯追踪装置的附表结构图；

图2是本发明数据源回溯追踪装置的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种数据源回溯追踪方法，包括：对结构相似的原始数据进行归并处理为数据源块；对所述数据源块的每个数据在进行数据规整处理过程中在其新添加的属性字段中记录其流程编号；在对某个数据查找其原始数据时，根据所述新添加的属性字段记录的流程编号回溯到所述数据源块中；根据主键或模糊匹配得到所述原始数据。

实施例一

本发明可应用在多种不同的商用智能数据处理领域中，在此以ETL的数据仓建为具体实施例。

根据多种数据源的数据形式，对项目需求进行分析，确定数据抽取、清洗、转换过程中可能需要的各个步骤，如抽取过程中遵循的抽取规则1、抽取规则2、抽取规则3等等，同样地，清洗、转换和加载也是按照该方式确定各个过程可能实施的步骤。

对结构相似的原始数据进行归并处理为数据源块。这里的结构相似，指的是数据的属性和/或各个属性字符类型大致相同，某个属性值缺失情况大致相同，这样该模块的数据源进行ETL流程经过的步骤大致相同，便于减少步骤需要记录的步骤数目，减少数据的冗余，从而将确定了所要进行ETL的数据源块，并对数据源块进行编号。

对所述数据源块的每个数据在进行数据规整处理过程中在每个数据中新添加的属性字段中记录增加属性字段流程的流程编号。并且通过对流程编号的归类、分析、统计以方便实现追踪原始数据的来源，还可以呈现出数据在进行构建数据仓库的过程中各个步骤处理后的历史数据变化，还可以减少数据的冗余。具体的操作实施例是，对数据源块同时进行ETL处理，可以实现并行ETL处理。建立一个表来记录ETL流程(表的格式如图一所示)，这里称之为“附表”，对原数据块添加一个属性字段用来记录流程的编号。以第一个数据源块为例，对第一个数据进行ETL处理，对该流程中所经过步骤进行记录在新建的附表中，并在新添加的属性字段中记录其流程编号；对于第二个数据进行ETL处理，搜索经过的步骤是否已经存在于附表中，若存在，直接记录流程编号，若不存在，则对该流程中所经过步骤进行记录在附表中，并在属性字段中记录其流程编号，依次进行，直到所有的数据ETL处理完毕为止，这时每个数据在新添加的属性字段上都会有一个流程编号。

在对某个数据查找其原始数据时，根据所述新添加的属性字段记录的流程编号回溯到所述数据源块中。例如，最后得到经过ETL处理的数据表，若我们需要对某个数据查找其原始数据，则可根据新添加的属性字段记录的流程编号回溯到原数据块中，根据主键或者模糊匹配即可得到原始数据。若对于某个可能错误的数据，ETL开发人员想要对其进行回溯分析，则可根据新添加的属性字段记录的流程编号回溯到原数据块中，根据主键或者模糊匹配即可得到原始数据，再根据附表流程编号得到该数据进行ETL的流程步骤，根据该流程步骤再次对该原数据进行ETL处理，并且把每个数据的处理结果保存下来，这时ETL开发人员可对其数据转换过程进行分析。

本发明实施例的优点在于，并不需要存储数据在ETL过程中每个步骤进行转换后的历史数据，还能够根据需要追踪原始数据的来源和对错误的数据在进行ETL处理过程中各个步骤处理后的历史数据变化呈现出来，这样极大地减少数据的冗余，又能够满足数据血统分析的要求。

此外，采用数据源块，既可以在一定程度上减少附表的记录数，能减少一定的数据存储空间，还可以使数据源块并发进行ETL处理，加快了ETL进程。

实施例二

为了执行上述实施例的方法，本实施例提供了一种数据源回溯追踪装置，包括：

归并处理单元，对结构相似的原始数据进行归并处理为数据源块；这里的结构相似，指的是数据的属性和各个属性字符类型大致相同，和/或某个属性值缺失情况大致相同，这样该模块的数据源进行ETL流程经过的步骤大致相同，便于减少步骤需要记录的步骤数目，减少数据的冗余，从而将确定了所要进行ETL的数据源块，并对数据源块进行编号。

编号单元，对所述数据源块的每个数据在进行数据规整处理过程中在其新添加的属性字段中记录其流程编号。并且通过对流程编号的归类、分析、统计以方便实现追踪原始数据的来源，还可以呈现出数据在进行构建数据仓库的过程中各个步骤处理后的历史数据变化，还可以减少数据的冗余。具体的操作实施例是，对数据源块同时进行ETL处理，可以实现并行ETL处理。建立一个表来记录ETL流程(表的格式如图一所示)，这里称之为“附表”，对原数据块添加一个属性字段用来记录流程的编号。以第一个数据源块为例，对第一个数据进行ETL处理，对该流程中所经过步骤进行记录在新建的附表中，并在新添加的属性字段中记录其流程编号；对于第二个数据进行ETL处理，搜索经过的步骤是否已经存在于附表中，若存在，直接记录流程编号，若不存在，则对该流程中所经过步骤进行记录在附表中，并在属性字段中记录其流程编号，依次进行，直到所有的数据ETL处理完毕为止，这时每个数据在新添加的属性字段上都会有一个流程编号。

回溯单元，在对某个数据查找其原始数据时，根据所述新添加的属性字段记录的流程编号回溯到所述数据源块中。例如，最后得到经过ETL处理的数据表，若我们需要对某个数据查找其原始数据，则可根据新添加的属性字段记录的流程编号回溯到原数据块中。所述数据源回溯追踪装置还包括：再整理单元，根据所述流程编号得到所述数据进行数据规整处理的流程步骤，根据所述流程步骤再次对所述源数据进行数据规整处理，并保存每个步骤的结果。

匹配单元，根据主键或模糊匹配得到所述原始数据。若对于某个可能错误的数据，ETL开发人员想要对其进行回溯分析，则可根据新添加的属性字段记录的流程编号回溯到原数据块中，根据主键或者模糊匹配即可得到原始数据，再根据附表流程编号得到该数据进行ETL的流程步骤，根据该流程步骤再次对该原数据进行ETL处理，并且把每个步骤的结果保存下来，这时ETL开发人员可对其数据转换过程进行分析。

实施例三

本发明还提供了一种数据回溯追踪装置的第二实施例，包括数据源模块10，ETL处理模块20，数据仓库30，所述数据源模块10的信号通过ETL处理模块20进行数据规整处理后存入数据仓库30中。记录存储模块40包括附表401，源数据获取单元402，错误数据记录表403。所述附表401连接ETL处理模块，用于记录ETL流程。源数据获取单元402连接数据源模块10，源数据获取单元402对转换后的数据回溯获取其源数据。错误数据记录表403为对需要查询分析的错误数据记录其ETL过程中经过每一步骤后数据的变化，便于ETL开发人员进行分析。

对同一数据源结构相似的数据归并成一块，这里的结构相似，指的是数据的属性和各个属性字符类型大致相同，某个属性值缺失情况大致相同。因此可以得到了多个数据源块，分别对其编号1、2、……、n，如图一所示的数据源模块10。

根据多种数据源的数据形式，对项目需求进行分析，确定数据抽取、清洗、转换过程中可能需要的各个步骤，最终确定抽取过程中遵循的抽取规则1、抽取规则2、……、抽取规则m；清洗过程中的清洗规则1、清洗规则2、……、清洗规则n；转换过程中的转换规则1、转换规则2、……、转换规则k。如图1所示。

对数据源块按照自身的数据形式并行进行数据ETL处理(ETL处理模块20)，即数据抽取、清洗、转换、加载，记录流程于附表中，再在进行加载后的数据中添加一个新的属性字段记录其流程编号。具体实施如下：以第一个数据源块为例，对第一个数据进行ETL处理，对该流程中所经过步骤进行记录在新建的附表中，并在新添加的属性字段中记录其流程编号；对于第二个数据进行ETL处理，搜索流程是否已经存在于附表中，若存在，直接在属性字段中记录流程编号，若不存在，则对该流程中所经过步骤进行记录在附表中，并在属性字段中记录其流程编号，依次进行，直到所有的数据ETL处理完毕为止，这时每个数据在新添加的属性字段上都会有一个流程编号，并加载于数据仓库中。

这里，对于附表进行补充说明：其中第一列的属性为“数据源块”，主要记录的是数据源块的编号；其余的各列采用的是0、1变量，在经过的步骤记录为“1”，未经过的步骤记录为“0”，这样方便于计算机存储和识别。

当企业或ETL开发人员想要对数据仓库的某一个或某一部分数据查找其原始数据时，可根据其新添加的字段所记录的流程编号，在附表401中查找对应的流程中的数据源块的编号，根据主键或者模糊匹配在原数据源块中即可查找原始数据。

当ETL开发人员想要对错误数据回溯分析其原始数据变化的过程，可通过其新添加的字段中所记录的流程编号，在附表401中查找其对应的ETL的流程，跟上面的方法一样查找到原始数据，再对原始数据根据流程再运行一遍，并且在表(即错误数据记录表403)中记录每一个步骤数据的变化，便于开发人员对数据进行分析。

实施例四

所述数据源模块包括归并元处理单元；归并处理单元，对结构相似的原始数据进行归并处理为数据源块；这里的结构相似，指的是数据的属性和各个属性字符类型大致相同，和/或某个属性值缺失情况大致相同，这样该模块的数据源进行ETL流程经过的步骤大致相同，便于减少步骤需要记录的步骤数目，减少数据的冗余，从而将确定了所要进行ETL的数据源块，并对数据源块进行编号。

所述数据源回溯装置还包括记录存储模块，所述记录存储模块用来执行所述编号单元、所述回溯单元、所述匹配单元的功能。

所述记录保存模块包括附表，所述附表执行所述编号单元和所述匹配单元的功能。

所述记录保存模块还包括错误数据记录表，用来执行再整理单元功能。所述再整理单元，根据所述流程编号得到所述数据进行数据规整处理的流程步骤，根据所述流程步骤再次对所述源数据进行数据规整处理，并保存每个步骤的结果。

所述记录保存模块还包括源数据获取单元，用来对转换后的数据获取其源数据。

以上所述仅为本发明的较佳实施例，对本发明而言仅仅是说明性的，而非限制性的。本专业技术人员理解，在本发明权利要求所限定的精神和范围内可对其进行许多改变，修改，甚至等效，但都将落入本发明的保护范围内。

Claims

1.一种数据源回溯追踪方法，其特征在于，包括：

对结构相似的原始数据进行归并处理为数据源块；

根据主键或模糊匹配得到所述原始数据。

2.根据权利要求1所述的数据源回溯追踪方法，其特征在于，对所述数据源块的每个数据在进行数据规整处理过程中在其新添加的属性字段中记录其流程编号的过程包括：

3.根据权利要求1所述的数据源回溯追踪方法，其特征在于，其还包括：根据所述流程编号得到所述数据进行数据规整处理的流程步骤，根据所述流程步骤再次对所述源数据进行数据规整处理，并保存每个源数据的处理结果。

4.根据权利要求1至3任一所述的数据源回溯追踪方法，其特征在于，所述数据规整处理为ETL处理。

5.一种数据源回溯追踪装置，其特征在于，所述装置包括：

匹配单元，根据主键或模糊匹配得到所述原始数据。

6.根据权利要求5所述的数据源回溯追踪装置，其特征在于，所述编号单元对所述数据源块的第一个数据进行所述数据规整处理过程中所经过的步骤进行记录，并在新添加的属性字段中记录其流程编号，对所述数据源块的第二个数据进行所述数据规整处理，搜索经过的步骤是否已经存在于所述记录中，如果已存在，则直接记录流程编号，如果不存在，则对该流程中所经过步骤进行记录，并在属性字段中记录其流程编号，依次进行，直到所有的数据按照所述的数据规整处理完毕为止，使每个数据在新添加的属性字段上都会有一个流程编号。

7.根据权利要求5所述的数据源回溯追踪装置，其特征在于，所述数据源回溯追踪装置还包括：

8.根据权利要求5-7任一所述的数据源回溯追踪装置，其特征在于，所述数据规整处理为ETL处理。

9.一种数据源回溯追踪装置，包括：数据源模块，ETC处理模块，数据仓库，所述数据源模块的各组数据源块通过所述ETC处理模块后进入数据仓库，其特征在于，所述数据源模块包括如权利要求5-8任一所述的归并元处理单元；所述数据源回溯装置还包括记录存储模块，所述记录存储模块用来执行如权利要求5-8任一所述的编号单元、所述回溯单元、所述匹配单元的功能。

10.根据权利要求9所述的数据源回溯追踪装置，其特征在于，所述记录保存模块包括附表，所述附表执行所述编号单元和所述匹配单元的功能。