CN107818106A

CN107818106A - 一种大数据离线计算数据质量校验方法和装置

Info

Publication number: CN107818106A
Application number: CN201610821408.4A
Authority: CN
Inventors: 万志颖; 阮华; 李家昌; 何瑞; 史晓茸; 曾凡
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-09-13
Filing date: 2016-09-13
Publication date: 2018-03-20
Anticipated expiration: 2036-09-13
Also published as: CN107818106B

Abstract

本发明提供一种基于最终一致性的多系统间大数据质量校验方法及装置。通过将源数据集群落地到接口机集群，在落地过程中，对源数据集群计数，获得源数据集群计数。采集落地到接口机集群的数据，并存储到数据仓库，在所述采集过程中，对存储到数据仓库中的入库数据进行计数，获得入库数据计数，基于源数据计数和入库数据计数的最终一致性，校验多系统间大数据的传输质量。本发明无需中间校验的强一致性，只需校验数据源数据指标是否与最终入库数据指标是否一致，存储成本低，计算效率高，不会影响正常的数据流转效率。

Description

一种大数据离线计算数据质量校验方法和装置

技术领域

本发明涉及大数据处理技术领域，具体地，涉及一种基于最终一致性的多系统间大数据离线计算数据质量校验方法和装置。

背景技术

随着信息技术的快速发展，海量的信息需要被可靠存储的同时，还要满足被大量的使用者快速访问的需求。传统的存储方案已经从构架上越来越难以适应近几年来的业务的飞速发展，成为了业务发展的瓶颈和障碍，此时HDFS(Hadoop Distributed FileSystem，Hadoop分布式文件系统)应运而生。

HDFS是通过一个高效的分布式算法，将数据的访问和存储分布在大量服务器之中，在可靠地多备份存储的同时还能将访问分布在集群中的各个服务器之上，是传统存储构架的一个颠覆性的发展。

HDFS对数据存储的最小单位为块(block)，HDFS会将其存储的大文件打散成很多block。HDFS在进行block读写的时候是以packet为单位进行的，每一个packet由若干个chunk组成,chunk是进行数据校验的基本单位，对每一个chunk生成一个校验和checksum并将校验和进行存储,在默认情况下一个chunk的大小是512byte，生成的校验和是4byte。按照block的存储方式，每个block分为数据块文件(block文件)以及其对应的数据块验证文件(meta文件)，读取block文件中的数据时，首先从meta文件的checksumheader中确定校验算法等信息，继而读取block文件对应的内容，最后读取meta文件中的校验和信息。

发明内容

发明人在研究和实践过程中发现，当海量数据跨系统传输时，checksum算法采用如图1所示的模式，数据源和数据仓库之间在数据采集过程中直接进行对账操作。checksum的计算结果占用很大的存储空间，同时也会消耗很多的计算性能，checksum文件的存储和网络传输也会出现丢失风险。例如，现有的对账过程中hadoop的checksum算法，给每一个512bytes数据，生成一个4bytes长的checksum数据，每次读的时候，计算checksum值，并和原有的checksum比较，如果checksum值不一致，则表示数据损坏。在该算法中，每1GB数据则需要产生至少8MB的checksum数据，在海量数据传输过程中这将是一笔很大的数据开销，由于存储空间的占用和计算消费大，checksum算法可能影响到数据的正常流转效率。

发明人在进一步的研究过程中发现，在海量数据的传输过程中，而传输的最终目的是保证传输数据的最终一致性。而checksum算法则是强调在传输过程中数据之间的强一致性，因此，如果在数据对账过程中采用最终一致性算法，忽略中间流程，只校验数据源数据指标是否与最终入库数据指标是否一致，则可以减少由于checksum算法带来额外消费数据，进而降低存储成本，提高计算效率，更不会影响正常的数据流转效率。因此，可以采取长的周期对账，对账采用最终一致性算法，忽略中间流程，只校验数据源数据指标是否与最终入库数据指标是否一致。

为解决上述技术问题，本申请提出一种基于最终一致性的多系统间大数据离线计算数据质量校验方法，所述方法包括：

将源数据集群落地到接口机集群；

在所述落地过程中，对所述源数据集群计数，获得第一计数；

按周期上报所述第一计数；

采集所述落地到接口机集群的数据，并存储到数据仓库；

在所述采集过程中，对存储到数据仓库中的入库数据进行计数，获得第二计数；

按周期上报所述第二计数；

对所述第一计数和第二计数进行对账校验。

优选地，所述源数据集群来自多个子数据源。

优选地，所述第一计数是对所述源数据集群第一属性的计数，所述第二计数是对所述入库数据第二属性的计数，所述第一属性与所述第二属性为相同属性或者相对应属性。

优选地，所述第一属性是所述源数据集群的分隔行数，所述第二属性是所述入库数据的结果集行数。

优选地，所述第一属性和第二属性是所述源数据集群和所述入库数据的分隔字段数。

优选地，所述对账校验包括校验所述第一计数和第二计数是否一致。

优选地，如果所述第一计数和所述第二计数一致，则对账通过；否则，对账不通过，禁止依赖于所述数据的计算任务的触发。

优选地，所述计数上报周期小于等于所述对账校验周期。

本发明还提出一种基于最终一致性的多系统间大数据质量校验装置，所述装置包括如下模块：

数据落地模块，用于将源数据集群落地到接口机集群；

第一计数模块，用于在所述落地过程中，对所述源数据集群计数，获得第一计数；

第一上报模块，用于按周期上报所述第一计数；

数据采集模块，用于采集所述落地到接口机集群的数据，并存储到数据仓库；

第二计数模块，用于在所述采集过程中，对存储到数据仓库中的入库数据进行计数，获得第二计数；

第二上报模块，按周期上报所述第二计数；

对账校验模块，用于对所述第一计数和第二计数进行对账校验。

优选地，所述源数据集群来自多个子数据源。

优选地，所述第一计数模块对所述源数据集群的第一属性计数，所述第二计数模块对所述入库数据的第二属性计数，所述第一属性与所述第二属性为相同属性或者相对应属性。

优选地，所述对账校验模块校验所述第一计数和第二计数是否一致。

优选地，所述计数上报周期小于等于所述对账校验周期。

本发明具有如下有益效果：对账采用最终一致性算法，忽略中间流程，只校验数据源数据指标是否与最终入库数据指标是否一致，存储成本低，计算效率高，不会影响正常的数据流转效率。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细的说明；

图1是现有技术中的大数据校验方法示意图。

图2是本发明提供最终一致性校验系统原理框图。

图3是本发明实施一提供的方法流程图。

图4是本发明实施二提供的装置原理框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明涉及的技术术语解释如下：

大数据：一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据需要特殊的技术，以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术，包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

离线计算系统：一种针对海量数据周期性地存储、调度、计算以及计算结果出库的大数据系统。

数据对账：一种针对多个大数据系统间数据交互质量校验而设立的数据质量检验机制。数据质量是保障大数据计算结果准确无误的前提，所以保障数据质量准确是进行大数据计算的首要条件。

Hadoop：Hadoop实现了一个分布式文件系统(Hadoop Distributed FileSystem)，简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的(low-cost)硬件上；而且它提供高吞吐量(high throughput)来访问应用程序的数据，适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求，可以以流的形式访问(streaming access)文件系统中的数据。Hadoop的框架核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。

Mysql：MySQL是一个关系型数据库管理系统，由瑞典MySQL AB公司开发，目前属于Oracle旗下公司。MySQL最流行的关系型数据库管理系统，在WEB应用方面MySQL是最好的RDBMS(Relational Database Management System，关系数据库管理系统)应用软件之一。MySQL是一种关联数据库管理系统，关联数据库将数据保存在不同的表中，而不是将所有数据放在一个大仓库内，这样就增加了速度并提高了灵活性。

分布式系统：是建立在网络之上的软件系统。正是因为软件的特性，所以分布式系统具有高度的内聚性和透明性。因此，网络和分布式系统之间的区别更多的在于高层软件(特别是操作系统)，而不是硬件。内聚性是指每一个数据库分布节点高度自治，有本地的数据库管理系统。透明性是指每一个数据库分布节点对用户的应用来说都是透明的，看不出是本地还是远程。在分布式数据库系统中，用户感觉不到数据是分布的，即用户不须知道关系是否分割、有无副本、数据存于哪个站点以及事务在哪个站点上执行等。

HDFS：Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodityhardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束，来实现流式读取文件系统数据的目的。HDFS在最开始是作为ApacheNutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。

最终一致性：不保证在任意时刻任意节点上的同一份数据都是相同的，但是随着时间的迁移，不同节点上的同一份数据总是在向趋同的方向变化。也可以简单的理解为在一段时间后，节点间的数据会最终达到一致状态。

实施例一：

本实施例提供一种基于最终一致性的多系统间大数据质量校验方法，如图2，3所示，方法包括如下步骤：

步骤S101，将源数据集群落地到接口机集群。

步骤S102，在所述落地过程中，对所述源数据集群计数，获得第一计数，按周期上报所述第一计数。

步骤S103，采集所述落地到接口机集群的数据，并存储到数据仓库。

步骤S104，在所述采集过程中，对存储到数据仓库中的入库数据进行计数，获得第二计数，按周期上报所述第二计数。

步骤S105，对所述第一计数和第二计数进行对账校验。

在步骤S101中，源数据集群由分布在N台服务器上的子数据源构成，这些子数据源构成超大数据集(large data set)。记为W＝{A，B，C，…，N}，其中，A，B，…，N分别为分布在N台服务器上的子数据源。

在传输过程中，这些超大数据集落地到接口机集群。“落地”是指N台服务器上的子数据源分别传输到接口机集群中对应的接口机的过程，该过程可选择地包括数据格式的改变。

步骤S102，是步骤S101的伴随过程，对源数据集群中各个子数据源进行计数，获得计数结果，此处记为第一计数结果，并将第一计数结果上报到系统数据库。在具体的实施过程中，计数是对数据源中特定属性进行的，而周期是一个较长的周期，这是因为，在对账校验时，只需保证这个较长周期结束时，数据结果的最终一致性，对账周期可以选择以小时作为基本单位。

步骤S103，通过采集的方式获得落地到接口机集群的数据，并将获得的数据存储到数据仓库。“采集”是指从接口机集群获得数据的过程。

步骤S104，是步骤S103的伴随过程，在对落地到接口机集群的源数据进行采集过程中进行计数，获得计数结果，此处记为第二计数结果，并将第二计数结果上报到系统数据库。在具体的实施过程中，计数是对采集获得数据的特定属性进行的，而周期是一个较长的周期，这是因为，在对账校验时，只需保证这个较长周期结束时，数据结果的最终一致性，对账周期可以选择以小时作为基本单位。

步骤S105，对所述第一计数和第二计数进行对账校验。对账校验是比较一个较长的周期中，采集获得的入库数据是否和源数据一致的过程。如果第一计数与第二计数一致则校验通过。

由于校验周期是一个较长的周期，在上述过程中，不保证在任意时刻任意节点上的同一份数据都是相同的，但是随着时间的迁移，不同节点上的同一份数据总是在向趋同的方向变化。即在一段时间后，节点间的数据会最终达到一致状态。验证过程尤其适用离线计算系统等无需保持数据之间的强一致性的验证过程，只需保证数据之间的最终一致性。

实施例二：

本实施例提供一种基于最终一致性的多系统间大数据质量校验装置，如图2，4所示，所述装置包括如下模块：

数据落地模块，用于将源数据集群落地到接口机集群，所述源数据集群来自多个子数据源。源数据集群由分布在N台服务器上的子数据源构成，这些子数据源构成超大数据集(large data set)。记为W＝{A，B，C，…，N}，其中，A，B，…，N分别为分布在N台服务器上的子数据源。

第一计数模块，用于在所述落地过程中，对所述源数据集群计数，获得第一计数；第一上报模块，用于按周期上报所述第一计数。

在具体的实施过程中，计数是对数据源中特定属性进行的，而周期是一个较长的周期，这是因为，在对账校验时，只需保证这个较长周期结束时，数据结果的最终一致性，对账周期可以选择以小时作为基本单位。

数据采集模块，用于采集所述落地到接口机集群的数据，并存储到数据仓库，“采集”是指从接口机集群获得数据的过程。

第二计数模块，用于在所述采集过程中，对存储到数据仓库中的入库数据进行计数，获得第二计数；第二上报模块，按周期上报所述第二计数。在具体的实施过程中，计数是对采集获得数据的特定属性进行的，而周期是一个较长的周期，这是因为，在对账校验时，只需保证这个较长周期结束时，数据结果的最终一致性，对账周期可以选择以小时作为基本单位。

对账校验模块，用于对所述第一计数和第二计数进行对账校验，对账校验是比较一个较长的周期中，采集获得的入库数据是否和源数据一致的过程，如果第一计数与第二计数一致则校验通过。

所述第一计数模块对所述源数据集群的第一属性计数，所述第二计数模块对所述入库数据的第二属性计数，所述第一属性与所述第二属性为相同属性或者相对应属性。在具体的实施过程中，第一属性是所述源数据集群的分隔行数，所述第二属性是所述入库数据的结果集行数。在另一个具体实施过程中，所述第一属性和第二属性是所述源数据集群和所述入库数据的分隔字段数。所述计数上报周期小于等于所述对账校验周期，在具体的实施过程中，计数上报周期为1小时，而校验周期为24小时。

由于校验周期是一个较长的周期，在上述过程中，不保证在任意时刻任意节点上的同一份数据都是相同的，但是随着时间的迁移，不同节点上的同一份数据总是在向趋同的方向变化。即在一段时间后，节点间的数据会最终达到一致状态。验证过程尤其适用离线计算系统等无需保持数据之间的强一致性的验证过程，只需保证数据之间的最终一致性。如果所述第一计数和所述第二计数一致，则对账通过；否则，对账不通过，禁止依赖于所述数据的计算任务的触发。

实施例三：

本实施例提供一种基于最终一致性的多系统间大数据质量校验方法，方法包括如下步骤：

步骤S201，将源数据集群落地到接口机集群。例如，当用户有数据发到mysql存储集群时，同时将数据落地到接口机集群，同时定义数据格式，使用\t分隔字段，\n分隔行。

源数据集群由分布在N台服务器上的子数据源构成，这些子数据源构成超大数据集(large data set)。记为W＝{A，B，C，…，N}，其中，A，B，…，N分别为分布在N台服务器上的子数据源。

步骤S202，是步骤S201的伴随过程，对源数据集群中各个子数据源进行计数，获得计数结果，此处记为第一计数结果，并将第一计数结果上报到系统数据库。在具体的实施过程中，计数是对数据源中特定属性进行的，而周期是一个较长的周期，这是因为，在对账校验时，只需保证这个较长周期结束时，数据结果的最终一致性，对账周期可以选择以小时作为基本单位。在本实施例中，使用例如1小时作为计数周期。

在计数过程中，按照定义的数据格式进行计数，例如，使用步骤S201中，对数据中的\n进行计数，计数结果表示源数据的特征，即源数据计数，。上报周期是一个预设周期y＝1小时。在具体的实施过程中，计数是针对数据源的属性L，技术结果记为My＝AL+BL+….+NL。相比于checksum算法，这种上报周期的方式无论是占用的存储空间上还是消费的计算资源都大大减少了。这不会影响到数据的采集效率，能够平衡数据采集效率和数据质量。

步骤S203，通过采集的方式获得落地到接口机集群的数据，并将获得的数据存储到数据仓库。“采集”是指从接口机集群获得数据的过程。正是由于采集和落地过程中可能出现的问题，会导致源数据与入库数据的不一致。采集落地到接口机集群的数据，并将采集结果存储到数据仓库，采集后的数据记为J。

步骤S204，是步骤S203的伴随过程，在对落地到接口机集群的源数据进行采集过程中进行计数，获得计数结果，此处记为第二计数结果，并将第二计数结果上报到系统数据库。在具体的实施过程中，计数是对采集获得数据的特定属性进行的，而周期是一个较长的周期，这是因为，在对账校验时，只需保证这个较长周期结束时，数据结果的最终一致性，对账周期可以选择以小时作为基本单位。并在数据仓库侧对数据源J的属性进行按照时间y周期性计数，获得第二计数Ny＝JL，并按周期进行上报。例如，可以计算结果集行数，即以“行”作为计数条件。

需要注意的是，步骤S202和步骤S204中计数所针对的属性是相同或者相对应的，例如使用行数和结果集行数，或者按照分隔字段进行计数。由于在数据落地和采集过程中，数据格式可能会发生转换，例如行数(\n)可能会转换为段数(\p)，此时就计数而言，应该使用相对应的计数属性。

步骤S205，校验所述第一计数与所述第二计数。校验过程包括比较第一计数和第二计数的一致性，如果My＝Ny则校验通过。由于y是一个较长的周期，在上述过程中，不保证在任意时刻任意节点上的同一份数据都是相同的，但是随着时间的迁移，不同节点上的同一份数据总是在向趋同的方向变化。即在一段时间后，节点间的数据会最终达到一致状态。验证过程尤其适用离线计算系统等无需保持数据之间的强一致性的验证过程，只需保证数据之间的最终一致性。

如果第一计数和第二计数不一致，则校验未被通过，则系统会进行告警通知，依赖于该数据的计算任务也不会自动触发调度。

实施例四：

在具体实施过程中，对源数据集群中各个子数据源进行计数，获得计数结果，并将计数结果上报到系统数据库，可以由dumper进程完成。Dumper进程持续进行的，不断地将用户实时发送过来的数据格式化并落地在本地磁盘上，并完成对于落地数据的计数工作。

在对落地到接口机集群的源数据进行采集过程中进行计数，获得计数结果，并将计数结果上报到系统数据库，可以由agent是数据采集程序完成。agent是数据采集程序，每个小时定时从数据源机器上将上个小时的落地文件采集到数据仓库中。

Dumper进程和agent进程的计数周期通常设置为1个小时或者大于1个小时。这样，在用户选择数据从mysql存储集群接入系统后，系统会按小时从用户的数据源采集数据到底层hadoop HDFS集群,并周期性地对数据源和入库数据对账指标进行校验。

数据校验的周期则通常大于等于计数上报周期，例如可以每24个小时，即一天进行一次校验，如此，每天产生一次对账数据，对账采用最终一致性算法，忽略中间流程，只校验数据源数据指标是否与最终入库数据指标是否一致，存储成本低，计算效率高，不会影响正常的数据流转效率。

如果计数结果是一致的，则通过校验，表示数据落地和采集过程正常，数据质量高。如果计数结果不一致，则表明源数据和入库数据之间存在不一致，此时，需对用户进行告警通知，同时，依赖于该数据的计算任务也不能自动触发调度。

一致性校验所针对的计数是对于数据某种属性的计数，例如行数，字段数，段数等等，需要保证校验所针对的是相同或者相应的属性。

综上可知，本发明的关键点在于要在数据源数据落地的同时计算落地行数并进行周期性的统计指标上报，在不影响数据正常采集效率的前提下完成对账校验，很好地实现了数据采集效率与数据质量之间的平衡，是一种可大规模稳定运行的离线大数据平台数据质量校验工具。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于最终一致性的多系统间大数据质量校验方法，其特征在于，所述方法包括如下步骤：

将源数据集群落地到接口机集群；

按周期上报所述第一计数；

采集所述落地到接口机集群的数据，并存储到数据仓库；

按周期上报所述第二计数；

对所述第一计数和第二计数进行对账校验。

2.根据权利要求1所述的大数据质量校验方法，其特征在于，所述源数据集群来自多个子数据源。

3.根据权利要求1所述的大数据质量校验方法，其特征在于，所述第一计数是对所述源数据集群第一属性的计数，所述第二计数是对所述入库数据第二属性的计数，所述第一属性与所述第二属性为相同属性或者相对应属性。

4.根据权利要求3所述的大数据质量校验方法，其特征在于，所述第一属性是所述源数据集群的分隔行数，所述第二属性是所述入库数据的结果集行数。

5.根据权利要求3所述的大数据质量校验方法，其特征在于，所述第一属性和第二属性是所述源数据集群和所述入库数据的分隔字段数。

6.根据权利要求1所述的大数据质量校验方法，其特征在于，所述对账校验包括校验所述第一计数和第二计数是否一致。

7.根据权利要求6所述的大数据质量校验方法，其特征在于，如果所述第一计数和所述第二计数一致，则对账通过；否则，对账不通过，禁止依赖于所述数据的计算任务的触发。

8.根据权利要求8所述的大数据质量校验方法，其特征在于，计数上报周期小于等于对账校验周期。

9.一种基于最终一致性的多系统间大数据质量校验装置，其特征在于，所述装置包括如下模块：

数据落地模块，用于将源数据集群落地到接口机集群；

第一上报模块，用于按周期上报所述第一计数；

第二上报模块，按周期上报所述第二计数；

10.根据权利要求9所述的大数据质量校验装置，其特征在于，所述源数据集群来自多个子数据源。

11.根据权利要求9所述的大数据质量校验装置，其特征在于，所述第一计数模块对所述源数据集群的第一属性计数，所述第二计数模块对所述入库数据的第二属性计数，所述第一属性与所述第二属性为相同属性或者相对应属性。

12.根据权利要求11所述的大数据质量校验装置，其特征在于，所述第一属性是所述源数据集群的分隔行数，所述第二属性是所述入库数据的结果集行数。

13.根据权利要求11所述的大数据质量校验装置，其特征在于，所述第一属性和第二属性是所述源数据集群和所述入库数据的分隔字段数。

14.根据权利要求9所述的大数据质量校验装置，其特征在于，所述对账校验模块校验所述第一计数和第二计数是否一致。

15.根据权利要求9所述的大数据质量校验装置，其特征在于，如果所述第一计数和所述第二计数一致，则对账通过；否则，对账不通过，禁止依赖于所述数据的计算任务的触发。

16.根据权利要求9所述的大数据质量校验装置，其特征在于，计数上报周期小于等于对账校验周期。