CN112527776A

CN112527776A - 数据稽核方法、装置及存储介质

Info

Publication number: CN112527776A
Application number: CN202011506771.XA
Authority: CN
Inventors: 谢荣辉; 江敏; 段武举
Original assignee: Hangzhou Dtwave Technology Co ltd
Current assignee: Hangzhou Dtwave Technology Co ltd
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2021-03-19

Abstract

本公开提供了一种快速稽核方法、装置和系统，通过对源端和目标端执行语义相同的数据抽取任务来生成源端数据集和目标端数据集，通过比较源端数据集和目标端数据集的数据量来确定两者之间的数据差异。本公开能够实现同构数据库或异构数据库之间的数据的快速对比。

Description

数据稽核方法、装置及存储介质

技术领域

本公开涉及大数据技术领域，特别是涉及一种数据稽核方法、装置及存储介质。

背景技术

随着大数据技术的发展，越来越多的企业投入到大数据应用上。解决大数据应用场景，往往需要将数据进行汇聚(Extract，Transform and Load，ETL)。同时，在进行数据汇聚时经常需要判断汇聚后的数据的完整性。现有技术中缺乏很好的工具来快速分析数据完整性。

发明内容

根据本公开实施例的第一方面，提供一种数据质量监控方法，包括：

对源端数据库生成源数据抽取任务；

对目标端数据库生成目标数据抽取任务，该目标数据抽取任务具有与所述源数据抽取任务相同的语义；

对所述源端数据库执行所述源数据抽取任务，生成源端数据集；

对所述目标端数据库执行所述目标数据抽取任务，生成目标端数据集；和

比较所述源端数据集和目标端数据集的数据量。

根据本公开实施例的第二方面，提供另一种数据质量监控方法，包括：

对所述源端数据库执行源数据抽取任务，生成源端数据集；

对所述目标端数据库执行目标数据抽取任务，生成目标端数据集，所述源数据抽取任务与所述目标数据抽取任务具有相同的语义；

将所述源端表数据集和目标端数据集联合生成临时总数据集；

对临时总数据集的所有字段进行分组查询处理，并获取数量大于1的字段数据，依据所述数量大于1的字段数据生成差异数据集。

根据本公开实施例的第三方面，提供一种数据稽核装置，包括：

源表处理模块，用于对源端数据库生成源数据抽取任务；

目标表处理模块，用于对目标数据库生成目标数据抽取任务；和

核查稽对模块，用于在所述源数据库和目标数据库分别执行所述源数据抽取任务和目标数据抽取任务，以分别生成源端数据集和目标端数据集，并比较所述源端数据集和目标端数据集的数据量。

根据本公开实施例的第四方面，提供一种数据稽核装置，包括：

源表处理模块，用于对所述源端数据库执行源数据抽取任务，生成源端数据集；

目标表处理模块，用于对所述目标端数据库执行目标数据抽取任务，生成目标端数据集，所述源数据抽取任务与所述目标数据抽取任务具有相同的语义；

数据联合模块，用于将所述源端表数据集和目标端数据集联合生成临时总数据集；以及

差异获取模块，用于对临时总数据集的所有字段进行分组查询处理，以获取其行数量大于1的字段数据，并根据所述其行数量大于1的字段数据生成差异数据集。

根据本公开实施例的第五方面，提供一种数据稽核系统，包括：

处理器；

用于存储所述处理器的可执行指令的存储器；

其中，所述处理器被配置为能够执行所述可执行指令，以实现第一方面或第二方面所述的数据稽核方法。

根据本公开实施例的第六方面，一种计算机设备可读存储介质，所述计算机设备可读存储介质中包含可执行指令，所述可执行指令被执行时能执行第一方面或第二方面所述的数据稽核方法。

本公开的实施例提供的技术方案能够实现明细数据的对比，无需将数据导出到Excel。本公开的实施例能实现异构数据库的比对。本公开的实施例能利用多个节点进行计算，能够处理较大的数据量，并且速度较快。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并于说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种快速稽核方法的示意图；

图2是根据一示例性实施例示出的一种快速稽核方法的流程图；

图3是根据一示例性实施例示出的一种快速稽核系统的框图；

图4是根据一示例性实施例示出的一种快速稽核装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

应当理解的是，在本文中提及的“若干个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

图1是根据一示例性实施例示出的一种数据稽核方法的示意图，包括如下步骤。

源端任务配置步骤：对源端数据库配置数据抽取任务。在一些实施例中，基于预设的并行数将该数据抽取任务分成多个源端子任务。例如可以利用分区函数、随机取样、哈希函数求模来进行。

在本公开一实施例中，可利用分区函数来设置分区表，进而实现任务的切分。设置分区表的方式可以采用但不限于以下几种：

·基于RANGE(基于范围)；

·基于RANGE COLUMNS(具体值)；

·基于HASH(值hash)....

以基于HASH来设置分区表进行举例说明：P_TAB表里面已存储1000万数据。通过获取P_TAB分区元数据信息，返回具有10个分区p1、p2....p10对应的值。利用10个分区分别设置过滤条件，这样可以将抽取任务切分为10个任务，这些切分出的任务并行性执行，可很大提升数据抽取任务在抽取数据时的效率。

在本公开另一实施例中，还可利用随机取样来实现任务的切分，通过构造出筛选范围条件切分出各个数据抽取任务，以提高数据抽取效率。

举例说明：假定P_TAB表里面已存储1000万行数据，针对主键字段PID(long类型)以0.001％的概率随机取样若干条数据(如8条数据)，返回若干条结果记录(如8条结果记录)。例如：取样随机返回12万、120万......810万、900万等，则切分出的任务如下：

任务1 PID(主键)<12万

任务2 12万<＝PID(主键)<120万

任务..

任务9 810万<＝PID(主键)<900万

任务10 PID(主键)>＝900万

如上切分任务的方式可知，源数据抽取任务和目标数据抽取任务的切分数量是可变的。

目标端任务配置步骤：对目标端数据库配置具有相同语义(或算法)的数据抽取任务。虽然源端和目标端的任务的语义是相同的，但各自的任务可以根据两端数据库的实际类型或版本而由不同的语言来实现，或具有不同的语法。同时，由于可以在两端分别配置数据抽取任务，两端数据库的结构可以相同也可以不同，因此本公开的实施例既能处理两端数据库同构的情形，也能处理异构的情形。在一些实施例中，基于预设的并行数(可根据实际情况变动)将目标端数据抽取任务切分成多个目标端子任务。

并行处理步骤：分别执行源端和目标端的数据抽取任务，生成源端数据集和目标端数据集。在进行了任务切分的实施例中，执行源端子任务和目标端子任务。由于存在多个子任务，执行方式可以是并行的。

在并行处理过程中，存在一种实施方式，将多个源端子任务和目标端子任务分别发送至大数据底座Spark集群中，Spark基于任务数以及资源(例如内存)的使用情况，将所提交的任务拆分出不同的job，创建多个container，并提交到多个节点来行执行任务，以实现任务\数据的抓取和处理。本公开的实施例由于能灵活地配置两端数据库的数据抽取任务的并行数，并能充分利用大数据底座的并行处理功能，因而能更有效地实现数据的抓取和处理。

数据量比对步骤：在源和目标两端，汇聚各自的数据抽取任务所抓取的数据，分别形成源端数据集和目标端数据集。在本公开的实施例中，源端数据集和目标端数据集可以是Spark系统的RDD数据集。然后比较源端数据集和目标端数据集的数据量。

本公开一实施例中，在执行数据量比对时，可以采用但不限于以下步骤：

(1-1)源端任务和目标端任务，通过sparkSql将源端数据和目标端数据转为RDD数据集；

(1-2)基于RDD数据集的count算子(求总数量)分别操作源端RDD数据集和目标端RDD数据集，求出单个任务的数据记录的数量；

(1-3)将源端和目标端求出的单个任务的数据记录的数量分别累加，可算出源端记录总数量和目标端记录总数量；

(1-4)通过比较源端的记录总数量和目标端的记录总数量，可以得出两者是否在数据量上存在差异。

如果源端数据集和目标端数据集中各自包括的数据量不相等，则证明在数据迁移的过程中或稽核过程中存在错误，反之则初步说明迁移和稽核过程中未发生错误。

图2是根据一示例性实施例示出的一种快速稽核方法的流程图。如图2所示，本公开的实施例在前述比对步骤后还可以包括以下步骤：

临时总数据集生成步骤：将源端表数据集和目标端数据集联合生成临时总数据集。

在本公开一实施例中，在将源端表数据集和目标端数据集联合生成临时总数据集时，可对源端表数据和所述目标端数据集执行并集操作，该并集操作不合并重复数据，并得到并集操作后生成的临时总数据集。

在一些实施例中，可利用数据库笛卡尔积union all函数(简单合并，不会合并重复)，将(源端RDD数据集)UNION ALL(目标端RDD数据集)，并将返回的结果注册到Spark临时表中，生成一张新的临时表，即临时总数据集。

示例代码如下：

val tem_all＝sourceRDD.unionAll(targetRdd)

tem_all.registerTempTable("tem_table")

差异数据集生成步骤：在关系型数据库的情形下，对临时总数据集的所有字段进行分组查询处理，获取其行数量大于1的字段数据并生成差异数据集。

在本公开一实施例中，可利用开窗函数获取数量大于1的字段数据。

下面对差异数据集生成方式进行举例说明：

下表为临时总数据集tem_table

字段名	PID	C1	C2
				1	V_C1	V_C2
	2	V_D1	V_D1
				3	V_E1	V_E2
	3	V_E1	V_E2
				2	V_D1	V_D1
	1	V_C11	V_C2

利用Row_Number()Over()开窗函数及group分组函数计算出差异行。

示例代码如下：

SELECT tmp.*,Row_Number()Over(PARTITION BY PID ORDER BY PID)AS rownFROM(SELECT PID,C1,C2 FROM TEM_TABLE GROUP BY PID,C1,C2)AS tmp WHERE rown>1

返回差异的数据：

字段名	PID	C1	C2
				1	V_C1	V_C2
	1	V_C11	V_C2

其中，GROUP BY PID,C1,C2利用GROUP BY所有字段，可达到去重效果。

Row_Number()Over(PARTITION BY PID)AS rown且rown值大于1可获取到具体重复的数据。

差异明细计算步骤：根据所述差异数据集，计算所述源端数据库和目标端数据库之间的明细化的差异。

在一些实施例中，可基于返回的差异数据集，将差异数据构造出hashMap结构。并对差异数据集中的字段执行遍历操作，在遍历过程中比对字段的对应值，得到源端数据库和目标端数据库之间的明细化的差异。

具体而言，key＝主键，value＝该条记录的完整值,key与value一般是成对出现的。如：(“主键key”,“数据集对象value”)。在一实施例中，计算差异明细时，可以遍历由差异数据构造出的hash结构，在遍历过程中判断hashMap中是否存在主键key,如果存在，则需要对数据集对象value进行属性对应值逐条比较，并在值后边拼接差异标识符号。生成3维元组结构。

如：Tuple3(“1,“{\"PID\":1,\"C1\":\"V_C1\",\"C2\":\"V_C2\"}”，“{\"PID\":1,\"C1\":\"V_C11**差异**\",\"C2\":\"V_C2\"}”)并保存到新的RDD数据集(tupleRdd)。

在本公开的实施例中，可以保存数据量对比步骤和差异明细计算步骤的对比和计算结果，并以便捷的方式(例如以Web网页的可视化的方式)呈现给系统管理员或其他相关用户。

在一些实施例中，可以将新的数据集(tupleRdd)结果持久化到业务数据库中，便于后续使用WEB页面查看结果。

图3是根据本公开示例性实施例的系统的框图。如本领域中公知的，数据源管理模块提供基本关系型数据库或其他类型的数据库服务，同时可以具有高性能分析设备)、HIVE(数据仓库工具)等功能或工具。数据源管理对源端数据库和目标端数据库分别进行数据管理。稽核任务模块用于配置源端数据库和目标端数据库的抽取任务，以及通过分布式调动平台来将数据抽取任务提交给大数据底座来执行。大数据底座可以包括YARN(资源管理器)、HDFS(分布式文件系统)和SPARK(计算引擎)。大数据底座执行底层的数据计算，以得到源端数据集和目标端数据集以及二者之间的对比(包括数据量的比对以及明细化的差异)。上述计算和对比结果可以存储起来，并由稽核结果明细模块呈现给管理员或其他相关用户。

图4是根据一示例性实施例示出的一种快速稽核装置的框图，该快速稽核装置可以包括：

源表处理模块：该模块能够用于对源端数据库生成源数据抽取任务。

目标表处理模块：该模块能够用于对目标数据库生成目标数据抽取任务。

核查稽对模块:该模块能够在在所述源端数据库和目标端数据库分别执行所述源数据抽取任务和目标数据抽取任务，以分别生成源端数据集和目标端数据集，并比较所述源端数据集和目标端数据集的数据量。

可选的，所述核查稽对模块还能够计算所述源数据库和目标数据库之间的明细化的差异。

可选的，该快速稽核装置还包括差异获取模块，用于对临时总数据集的所有字段进行分组查询处理，以获取其行数量大于1的字段数据，并根据所述其行数量大于1的字段数据生成差异数据集。

图4所示的装置的各模块可以根据需要部署在大数据系统的一处或多处，并根据需要调用大数据系统的各底层功能(例如Spark集群的数据计算功能)。

需要说明的一点是，上述实施例提供的装置在实现其功能时，仅以上述各个功能模块的划分进行举例说明，实际应用中，可以根据实际需要而将上述功能分配由不同的功能模块完成，即将设备的内容结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本公开实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机设备可读介质中或者作为计算机设备可读介质上的一个或多个指令或代码进行传输。计算机设备可读介质包括计算机设备存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机设备程序的任何介质。存储介质可以是通用或专用计算机设备能够存取的任何可用介质。

本公开实施例还提供了一种计算机设备存储介质，用于储存为上述测试装置所用的计算机设备软件指令，其包含用于执行上述快速稽核方法所设计的程序。

本申请实施例还提供一种电子设备，其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行所述程序时实现本公开各实施例的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种数据稽核方法，包括：

对源端数据库生成源数据抽取任务；

比较所述源端数据集和目标端数据集的数据量。

2.根据权利要求1所述的数据稽核方法，还包括：

将所述源数据抽取任务切分成多个源端子任务；以及

将所述目标数据抽取任务切分成多个目标端子任务；

其中所述对所述源端数据库执行所述源数据抽取任务，生成源端数据集的步骤包括执行所述多个源端子任务，并且所述对所述目标端数据库执行所述目标数据抽取任务，生成目标端数据集的步骤包括执行所述多个目标端子任务。

3.根据权利要求2所述的数据稽核方法，所述将所述源数据抽取任务切分成多个源端子任务的步骤和将所述目标数据抽取任务切分成多个目标端子任务的步骤利用了分区函数或哈希函数求模。

4.根据权利要求2所述的数据稽核方法，所述多个源端子任务的执行是并行的。

5.根据权利要求2所述的数据稽核方法，所述多个目标端子任务的执行是并行的。

6.根据权利要求1所述的数据稽核方法，所述源端数据库和目标端数据库是异构的。

7.根据权利要求2所述的数据稽核方法，所述源数据抽取任务和目标数据抽取任务的切分数量是可变的。

8.根据权利要求2所述的数据稽核方法，所述多个源端子任务和目标端子任务的执行调用了大数据底座的计算功能。

9.一种数据稽核方法，包括：

对所述源端数据库执行源数据抽取任务，生成源端数据集；

将所述源端表数据集和目标端数据集联合生成临时总数据集；以及

对临时总数据集的所有字段进行分组查询处理，以获取其行数量大于1的字段数据，并根据所述其行数量大于1的字段数据生成差异数据集。

10.根据权利要求9所述的数据稽核方法，所述将所述源端表数据集和目标端数据集联合生成临时总数据集的步骤包括：

对所述源端表数据和所述目标端数据集进行并集操作，所述并集操作不合并重复数据，得到并集操作后生成的临时总数据集。

11.根据权利要求9所述的数据稽核方法，所述获取其行数量大于1的字段数据的步骤包括：利用开窗函数获取所述其行数量大于1的字段数据。

12.根据权利要求9所述的数据稽核方法，还包括：

根据所述差异数据集，计算所述源端数据库和目标端数据库之间的明细化的差异。

13.根据权利要求9所述的数据稽核方法，所述计算所述源端数据库和目标端数据库之间的明细化的差异的步骤包括：

对差异数据集中的字段执行遍历操作，在遍历过程中比对字段的对应值，得到源端数据库和目标端数据库之间的明细化的差异。

14.根据权利要求9所述的数据稽核方法，还包括：

以Web网页的形式可视化地呈现所述明细化的差异。

15.一种数据稽核装置，包括：

源表处理模块，用于对源端数据库生成源数据抽取任务；

核查稽对模块，用于在所述源端数据库和目标端数据库分别执行所述源数据抽取任务和目标数据抽取任务，以分别生成源端数据集和目标端数据集，并比较所述源端数据集和目标端数据集的数据量。

16.根据权利要求15所述的数据稽核装置，所述核查稽对模块还能够计算所述源数据库和目标数据库之间的明细化的差异。

17.一种数据稽核装置，包括：

18.一种数据稽核系统，包括：

处理器；

用于存储所述处理器的可执行指令的存储器；

其中，所述处理器被配置为能够执行所述可执行指令，以实现如权利要求1至8中任一项所述的方法，或权利要求9至14任一项所述的方法。

19.一种计算机设备可读存储介质，其特征在于，所述计算机设备可读存储介质中包含可执行指令，所述可执行指令被执行时能执行权利要求1至8中任一项所述的数据稽核方法，或9至14中任一项所述的数据稽核方法。