CN109408489A

CN109408489A - 数据稽核方法及系统

Info

Publication number: CN109408489A
Application number: CN201811102625.3A
Authority: CN
Inventors: 崔涛; 丛新法; 王晓明; 张朋; 张辉; 叶浩; 李团结; 张婷; 刘双; 张忠龙; 邱斌; 刘亚瑞; 赵家明
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2018-09-20
Filing date: 2018-09-20
Publication date: 2019-03-01

Abstract

本发明提供一种数据稽核方法及系统，通过获取稽核发起指令，其中稽核发起指令包括数据加载规则及数据稽核规则；然后根据所述数据加载规则从至少一个数据源获取数据，并将所述数据进行存储；再将所述数据输入Spark集群，由所述Spark集群根据所述数据稽核规则稽核所述数据，从而获取稽核结果。本发明的方法适用于跨数据库的数据的稽核，系统成本较低，稽核过程中不依赖数据库自身性能，降低了数据迁移的成本，解决了原有稽核系统不同稽核操作的较大差异性问题，做到了过程和结果的可控，同时采用规则化驱动和Spark处理技术，解决了以往资源不足和数据处理成本过高的问题，用户可以随时调整规则，变更逻辑，更加灵活和便捷。

Description

数据稽核方法及系统

技术领域

本发明涉及数据处理领域，尤其涉及一种数据稽核方法及系统。

背景技术

目前稽核的源数据往往在运营商生产系统中分别存放在关系数据库(Oracle)、分布式数据库(HBASE\HIVE\GreenPlum)、内存库(Qcubic)、Kafka、ES及文件等，数据源较多且数据格式不统一。现有的稽核系统主要以稽核核心Oracle数据库关系数据库为主，通过开发存储过程和稽核SQL语句完成数据的稽核处理。

目前基于数据库的稽核系统，过于依赖数据库的能力，面对跨数据库的、大量的表数据的稽核，由于表分区及参数都是限定的优化空间有限，往往在千万级数据处理时就会遇到瓶颈，系统消耗很大甚至根本无法执行，同时在对源数据迁移中，往往需要人工介入或外挂脚本导入，在数据及时性上无法做到保证，且数据成本和技术成本都很高。

发明内容

本发明提供一种数据稽核方法及系统，以适用于跨数据库的数据的稽核，降低数据稽核系统成本，稽核过程中不依赖数据库自身性能。

本发明的一个方面是提供一种数据稽核方法，包括：

获取稽核发起指令，所述稽核发起指令包括数据加载规则及数据稽核规则；

根据所述数据加载规则从至少一个数据源获取数据，并将所述数据进行存储；

将所述数据输入Spark集群，由所述Spark集群根据所述数据稽核规则稽核所述数据，从而获取稽核结果。

进一步的，所述获取稽核结果后，还包括：

按照预设的数据输出规则，输出所述稽核结果，其中所述预设的数据输出规则包括以下至少一种：

将所述稽核结果输出为文件或数据库表；或者

根据所述稽核结果直接执行预定服务。

进一步的，所述稽核结果包括：异常数据的稽核因子和所述异常数据的明细信息，其中，所述稽核因子为由所述异常数据的明细信息根据所述数据稽核规则生成的用于判定所述异常数据状态的参数。

进一步的，所述获取稽核结果后，还包括：

根据所述稽核因子以及预定的判定公式判定稽核指标状态，其中所述稽核指标为表征导致数据异常的可能因素的指标；

根据所述稽核指标状态获得所述异常数据状态。

进一步的，所述将所述数据进行存储，具体包括：

由所述Spark集群将所述数据转换为预定数据格式，并进行切分后，存储于分布式文件系统中。

进一步的，所述将所述数据输入Spark集群，具体包括：

采用并行的方式将所述数据加载到与所述Spark集群连接的分布式缓存中，以供所述Spark集群读取。

本发明的另一个方面是提供一种数据稽核系统，包括：

系统前端模块，用于获取稽核发起指令，所述稽核发起指令包括数据加载规则及数据稽核规则；

采集模块，用于根据所述数据加载规则从至少一个数据源获取数据；

存储模块，用于将所述数据进行存储；

Spark集群，用于从所述存储模块获取所述数据，并根据所述数据稽核规则稽核所述数据，从而获取稽核结果。

进一步的，所述系统还包括输出模块，所述输出模块用于：

将所述稽核结果输出为文件或数据库表；或者

根据所述稽核结果直接执行预定服务。

进一步的，所述系统还包括判定模块，所述判定模块用于：

根据所述稽核指标状态获得所述异常数据状态。

进一步的，所述存储模块为分布式文件系统；

所述Spark集群还用于，将所述数据转换为预定数据格式，并进行切分后，存储于所述分布式文件系统中。

进一步的，所述系统还包括缓存模块，所述缓存模块用于：

采用并行的方式将所述数据从所述存储模块加载到与所述Spark集群连接的分布式缓存中，以供所述Spark集群读取。

本发明提供的数据稽核方法及系统，通过获取稽核发起指令，其中稽核发起指令包括数据加载规则及数据稽核规则；然后根据所述数据加载规则从至少一个数据源获取数据，并将所述数据进行存储；再将所述数据输入Spark集群，由所述Spark集群根据所述数据稽核规则稽核所述数据，从而获取稽核结果。本发明的方法适用于跨数据库的数据的稽核，系统成本较低，稽核过程中不依赖数据库自身性能，降低了数据迁移的成本，解决了原有稽核系统不同稽核操作的较大差异性问题，做到了过程和结果的可控，同时采用规则化驱动和Spark处理技术，解决了以往资源不足和数据处理成本过高的问题，用户可以随时调整规则，变更逻辑，更加灵活和便捷。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的数据稽核方法流程图；

图2为本发明另一实施例提供的数据稽核系统的功能架构图；

图3为本发明实施例提供的数据稽核系统的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的数据稽核方法流程图。如图1所示，本实施例提供了数据稽核方法，该方法具体步骤如下：

S101、获取稽核发起指令，所述稽核发起指令包括数据加载规则及数据稽核规则。

在本实施例中，通过系统前端模块与用户进行交互，提供与用户交互使用的web界面，可供用户进行各种数据查询、稽核点设置配置以及数据加载规则及数据稽核规则的配置、权限控制、工单处理等操作，同时系统前端模块还包括调度框架，负责接收用户发送的稽核发起指令，进而根据稽核发起指令执行后续的数据稽核流程。其中稽核发起指令中包括数据加载规则及数据稽核规则，例如稽核点为用户欠费停机后缴费却未开机，则数据加载规则具体可为从外围的第一数据源获取用户开关机状态数据，从外围的第二数据源获取用户账户余额数据，而数据稽核规则具体可为查找用户账户余额大于零但处于停机状态的数据。当然对于不同的稽核点，数据加载规则及数据稽核规则各不相同，可由用户根据需要进行配置。其中外围的数据源可以包括外系统的数据库、ES日志库、远程文件系统和Kafka等。

S102、根据所述数据加载规则从至少一个数据源获取数据，并将所述数据进行存储。

在本实施例中，可以采用通用的spark-jdbc方式或具有专用导出功能的sqoop等工具进行数据采集。而对于一些特殊的数据源可以通过在采集层(采集模块)进行对接和采集操作。在本实施例中若数据来自不同的数据源，数据格式可能并不相同，例如数据可能用不同的符号进行分隔，因此可将所采集的数据转换为统一的数据格式，从而便于后续的数据稽核过程。当然，若数据格式相同，也可不转换数据格式。本实施例中优选采用parquet列式存储格式。本实施例中采用分布式文件系统对数据进行存储，例如HDFS数据平台，将采集的数据转换格式后根据配置的路径进行存储，完成数据从原始状态到HDFS平台状态的转换。数据的存放是可以进行分片的，通过配置分片字段或者设定分区数量，把数据进行切分，在处理时可以充分利用Spark+HDFS的优势实现并行处理，提高处理速度，同时有针对性的进行资源分配和资源隔离，避免并发时资源争抢和死锁问题。

S103、将所述数据输入Spark集群，由所述Spark集群根据所述数据稽核规则稽核所述数据，从而获取稽核结果。

在本实施例中，在进行数据稽核时，将数据加载到Spark集群中，进而根据数据稽核规则稽核数据，其中Spark是专为大规模数据处理而设计的快速通用的计算引擎。其中数据加载到Spark集群中时，形成Spark内存数据(Spark的内存表)，进一步根据数据稽核规则进行迭代，也即数据稽核规则可以包括多个子规则，根据每一子规则进行过一次稽核处理，数据在每次稽核后仍存放在Spark内存中并注册为Spark的内存表以供再次使用，直至迭代得出最终的稽核结果。其中，数据稽核规则的主要内容是业务人员编写的SQL语句，其与现有的稽核方法中常用的稽核SQL语句可以相同。使用SQL表示稽核逻辑，避免硬编码，可以有效的支持绝大多数稽核，也可以无技术门槛的面向运营人员推广。在执行时，使用SparkSQL的API去处理，把SQL逻辑解析为数据运算的任务。可选的，可将处理任务分解为多个子任务并行处理，也即把大数据处理的任务分解为多个分片数据的处理任务，充分利用了CPU的多核，提升了处理效率。本实施例将稽核结果存储处于MySQL数据库中。此外MySQL数据库还可用于对配置数据的存储，例如稽核发起指令中包括数据加载规则及数据稽核规则，也即Spark集群在进行数据稽核时，需要从MySQL数据库中读取数据稽核规则，此外数据采集时也需要从MySQL数据库读取数据加载规则。当然本发明中并不仅限于采用MySQL数据库，其他数据库亦可。

本实施例提供的数据稽核方法，通过获取稽核发起指令，其中稽核发起指令包括数据加载规则及数据稽核规则；然后根据所述数据加载规则从至少一个数据源获取数据，并将所述数据进行存储；再将所述数据输入Spark集群，由所述Spark集群根据所述数据稽核规则稽核所述数据，从而获取稽核结果。本实施例的方法适用于跨数据库的数据的稽核，系统成本较低，稽核过程中不依赖数据库自身性能，降低了数据迁移的成本，解决了原有稽核系统不同稽核操作的较大差异性问题，做到了过程和结果的可控，同时采用规则化驱动和Spark处理技术，解决了以往资源不足和数据处理成本过高的问题，用户可以随时调整规则，变更逻辑，更加灵活和便捷。

在上述实施例的基础上，S103所述的获取稽核结果后，还包括：

将所述稽核结果输出为文件或数据库表；或者

根据所述稽核结果直接执行预定服务。

本实施例中，当稽核完成时，根据预设的数据输出规则将Spark内存状态的数据转变为持久化状态，也即存储为文件或数据库表的形式，或者直接根据稽核结果直接执行预定服务，例如调用REST服务，根据稽核结果生成报文结果，以根据报文结果执行预定服务。具体在上述举例中，当稽核出用户欠费停机后缴费却未开机的数据，则直接调用开机服务，对该用户进行开机。

本实施例中为了对稽核结果更好的进行展现和判定，建立了统一的结果模型，让输出阶段更加标准化。可选的，所述稽核结果包括：异常数据的稽核因子和所述异常数据的明细信息，其中，所述稽核因子为由所述异常数据的明细信息根据所述数据稽核规则生成的用于判定所述异常数据状态的参数。例如，当稽核出满足用户欠费停机后缴费却未开机这一稽核点的异常数据后，可以根据稽核因子判断该异常数据是由什么因素造成的异常，例如是用户缴费却未到账，还是已到账却未执行开机服务，或是已执行开机服务但未更新开关机状态的数据，进而根据不同的原因判定异常数据状态，进而可根据异常数据不同的状态对异常数据进行不同的处理。

进一步可选的，稽核结果也可包括稽核点结果、稽核指标、稽核因子三层，从粗粒度到细粒度，一个稽核指标关联了一类明细信息，明细信息包含了一些具体的细节信息，可供用户核对，用户可以根据明细信息对稽核结果进行分类，例如在停机用户缴费不开机稽核场景中，判断该场景是否异常可以定义为一个“停机用户缴费不开机稽核点”，其中包含缴费未到账和到账未执行开机两类情况，可以定义为稽核点下的两类稽核指标，判断稽核指标状态需要定义相关因子进行判定，这里可以定义停机用户缴费未到账异常用户总数和停机用户缴费后未执行开机异常用户总数两个稽核因子，系统根据稽核规则输出这两种稽核因子供后续判定并根据用户需求输出指标相关的明细信息数据。

获取稽核结果后，后续处理还包括：

根据所述稽核因子以及预定的判定公式判定稽核指标状态，其中所述稽核指标为影响整个稽核点结果状态的分类因素指标；

根据所述稽核指标状态进一步根据稽核点的定义判断整个稽核点结果状态，可以根据稽核点的分级策略和稽核指标状态生成稽核点状态结果。例如，在停机用户缴费不开机稽核点中，输出稽核结果后，停机用户缴费未到账异常记录总数因子为数值1000，停机用户缴费后未执行开级异常用户总数因子为数值0，使用预先定义的指标判定公式：停机用户缴费未到账异常记录总数因子<100和停机用户缴费后未执行开级异常用户总数因子＝0进行判定得出缴费未到账指标公式判定不成立状态为异常，到账未执行开机指标公式判定成立状态为正常，再根据两类指标状态：异常、正常得出停机用户缴费不开机稽核点状态为异常。

需要说明的是，对于不同的稽核点，判定因子和判定公式不同，可由用户根据需要进行设定。

进一步的，在上述实施例的基础上，S102所述的将所述数据进行存储，具体可包括：

本实施例中，由Spark集群将采集到的数据转换为预定数据格式，优选为parquet列式存储格式，从而对数据格式进行统一，避免来自不同数据源的数据格式不同而导致无法进行数据稽核。将数据转换为预定数据格式后，进行分片存储，通过配置分片字段或者设定分区数量，把数据进行切分，存储于分布式文件系统中，从而提高存储速度和存储资源的高效利用，同时也便于Spark集群在稽核过程中对数据的分布式加载和并行处理。本实施例中分布式文件系统采用HDFS数据平台，将采集的数据转换格式后根据配置的路径进行存储，完成数据从原始状态到HDFS平台状态的转换，在处理时可以充分利用Spark+HDFS的优势实现并行处理，提高处理速度。

进一步的，所述将所述数据输入Spark集群，具体包括：

在本实施例中，为了保证稽核过程的运算速度，采用并行和减少数据读写(I/O，input/output)，也即采用并行的方式将数据加载到Spark集群连接的分布式缓存中。本实施例中分布式缓存采用Alluxio分布式缓存组件，与Spark进行了集成实现了内存的共享。根据预定的数据输入规则，由数据输入规则中的输入参数信息定位到HDFS上的数据路径，输出参数配置为自定义的表名，数据会从HDFS的磁盘上以数据块的粒度加载进Alluxio内存中，由于parquet格式具有scheme属性，同时会使用自定义的表名在引擎中静态注册为用于Spark集群运算的内存数据，以供Spark集群在运算中使用。

上述实施例提供的数据稽核方法，其具体的系统功能架构图如图2所示，包括系统前端和系统后端，系统后端包括采集层、处理层、数据层。数据稽核的核心是对数据的处理与加工，总得来说数据的生命周期包括4个阶段，分别为：加载阶段(LOAD)、输入阶段(INPUT)、稽核处理阶段(COMPUTE)和结果输出阶段(OUTPUT)，其阶段的划分是通过对数据状态的划分来确定的，在上述实施例中数据会有原始状态、HDFS平台状态、Spark内存状态和持久化状态，本发明通过设计4类场景规则，也即数据加载规则、数据输入规则、数据稽核规则、数据输出规则，驱动数据状态的转换和跃迁，达到最终的状态，从而也就完成了稽核。具体的，在每一稽核任务中，通过配置好4类场景规则，并依次加载运行，通过运行数据加载规则实现数据由原始状态到HDFS平台状态的转换，通过运行数据输入规则实现数据由HDFS平台状态到Spark内存状态的转换，通过运行数据稽核规则实现数据的主要稽核过程，其数据的输出状态仍为Spark内存状态，最后通过运行数据输出规则实现数据由Spark内存状态到持久化状态的转换，从而输出稽核结果，完成数据的稽核流程。

本实施例的数据稽核方法，通过获取稽核发起指令，其中稽核发起指令包括数据加载规则及数据稽核规则；然后根据所述数据加载规则从至少一个数据源获取数据，并将所述数据进行存储；再将所述数据输入Spark集群，由所述Spark集群根据所述数据稽核规则稽核所述数据，从而获取稽核结果。本实施例的方法适用于跨数据库的数据的稽核，系统成本较低，稽核过程中不依赖数据库自身性能，降低了数据迁移的成本，解决了原有稽核系统不同稽核操作的较大差异性问题，做到了过程和结果的可控，同时采用规则化驱动和Spark处理技术，解决了以往资源不足和数据处理成本过高的问题，用户可以随时调整规则，变更逻辑，更加灵活和便捷。

图3为本发明实施例提供的数据稽核系统的结构图。本实施例提供一种数据稽核系统，可以执行数据稽核方法实施例提供的处理流程，如图3所示，本实施例提供的数据稽核系统包括：系统前端模块201、采集模块202、存储模块203和Spark集群204。

其中，系统前端模块201，用于获取稽核发起指令，所述稽核发起指令包括数据加载规则及数据稽核规则；

采集模块202，用于根据所述数据加载规则从至少一个数据源获取数据；

存储模块203，用于将所述数据进行存储；

Spark集群204，用于从所述存储模块203获取所述数据，并根据所述数据稽核规则稽核所述数据，从而获取稽核结果。

进一步的，所述系统还包括输出模块，所述输出模块用于：

将所述稽核结果输出为文件或数据库表；或者

根据所述稽核结果直接执行预定服务。

进一步的，所述系统还包括判定模块，所述判定模块用于：

根据所述稽核指标状态获得所述异常数据状态。

进一步的，所述存储模块203为分布式文件系统；

所述Spark集群204还用于，将所述数据转换为预定数据格式，并进行切分后，存储于所述分布式文件系统中。

进一步的，所述系统还包括缓存模块，所述缓存模块用于：

采用并行的方式将所述数据从所述存储模块203加载到与所述Spark集群204连接的分布式缓存中，以供所述Spark集群204读取。

本发明实施例提供的数据稽核系统可以具体用于执行上述图1所提供的方法实施例，具体功能此处不再赘述。

本实施例提供的数据稽核系统，通过获取稽核发起指令，其中稽核发起指令包括数据加载规则及数据稽核规则；然后根据所述数据加载规则从至少一个数据源获取数据，并将所述数据进行存储；再将所述数据输入Spark集群204，由所述Spark集群204根据所述数据稽核规则稽核所述数据，从而获取稽核结果。本实施例的方法适用于跨数据库的数据的稽核，系统成本较低，稽核过程中不依赖数据库自身性能，降低了数据迁移的成本，解决了原有稽核系统不同稽核操作的较大差异性问题，做到了过程和结果的可控，同时采用规则化驱动和Spark处理技术，解决了以往资源不足和数据处理成本过高的问题，用户可以随时调整规则，变更逻辑，更加灵活和便捷。。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种数据稽核方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取稽核结果后，还包括：

将所述稽核结果输出为文件或数据库表；或者

根据所述稽核结果直接执行预定服务。

3.根据权利要求1所述的方法，其特征在于，所述稽核结果包括：异常数据的稽核因子和所述异常数据的明细信息，其中，所述稽核因子为由所述异常数据的明细信息根据所述数据稽核规则生成的用于判定所述异常数据状态的参数。

4.根据权利要求3所述的方法，其特征在于，所述获取稽核结果后，还包括：

根据所述稽核指标状态获得所述异常数据状态。

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述将所述数据进行存储，具体包括：

6.根据权利要求5所述的方法，其特征在于，所述将所述数据输入Spark集群，具体包括：

7.一种数据稽核系统，其特征在于，包括：

存储模块，用于将所述数据进行存储；

8.根据权利要求7所述的系统，其特征在于，还包括输出模块，所述输出模块用于：

将所述稽核结果输出为文件或数据库表；或者

根据所述稽核结果直接执行预定服务。

9.根据权利要求7所述的系统，其特征在于，所述稽核结果包括：异常数据的稽核因子和所述异常数据的明细信息，其中，所述稽核因子为由所述异常数据的明细信息根据所述数据稽核规则生成的用于判定所述异常数据状态的参数。

10.根据权利要求9所述的系统，其特征在于，还包括判定模块，所述判定模块用于：

根据所述稽核指标状态获得所述异常数据状态。

11.根据权利要求7-10中任一项所述的系统，其特征在于，所述存储模块为分布式文件系统；

12.根据权利要求11所述的系统，其特征在于，还包括缓存模块，所述缓存模块用于：