CN112988736B

CN112988736B - 一种海量数据质量检核方法及其系统

Info

Publication number: CN112988736B
Application number: CN202110549386.1A
Authority: CN
Inventors: 宋成平
Original assignee: Ruizhi Technology Group Co ltd
Current assignee: Ruizhi Technology Group Co ltd
Priority date: 2021-05-20
Filing date: 2021-05-20
Publication date: 2021-08-03
Anticipated expiration: 2041-05-20
Also published as: CN112988736A

Abstract

本申请公开了一种海量数据质量检核方法及其系统，其中，海量数据质量检核系统包括：电力数据中台、容器云和服务器集群；服务器集群包括多个服务器；电力数据中台用于存储待检核的海量数据并允许服务器集群进行访问；容器云用于从服务器集群中选择执行服务器；服务器集群用于对基础信息进行独立部署，确定数据检核信息并上传；根据数据检核信息对海量数据进行访问，确定待检核的海量数据的数据切块和数据检核任务的并行数量；根据并行数量确定需要调度的执行服务器；由执行服务器对数据切块进行处理，生成检核结果；对检核结果进行存储。本申请具有支持调度无限制的数据质量检核任务的执行、支持海量数据的数据质量检核结果分析和检索的技术效果。

Description

一种海量数据质量检核方法及其系统

技术领域

本申请涉及计算机技术领域，尤其涉及一种海量数据质量检核方法及其系统。

背景技术

数据质量是在一定业务场景下，以一定范围的业务和技术标准规范为依据，数据质量检核为手段的数据考核管理办法，是数据可用性和数据价值的基本保障和衡量手段。

国网电力数据每天增加60T，将这些海量的数据接入数据中台，在数据中台积累了超海量的数据，由于数据来源多样，格式无法统一，造成了严重的数据质量问题。为了向数据中台提供高质量可应用的数据服务和数据分析，需要对数据进行数据质量治理，通过数据质量检核工具检核出问题数据，进行专项的数据质量提升。

现在的数据质量检核都是通过定义检核方法实现，创建检核任务，根据检核方法的定义内容，所有任务调度都由调度中心统一调度，由数据质量检核中心统一执行检核任务，该方式便于管理和实现，但当数据量达到T级的时候，系统无法继续进行检核任务的执行，即无法处理海量数据的数据质量检核任务，也无法查看检核结果明细，无法对海量数据检核结果做实时的统计分析和检索。

此外，在电力数据中台中，海量数据对整体的数据质量检核工作形成了很大的挑战，海量数据的情况下检核执行时间都在30分钟以上，有的甚至4、5个小时，且当并行检核任务达到2000个以上，无法继续执行检核任务。针对检核结果明细存储到中台或mysql、Oracle、sqlserver等传统数据库上，海量结果集无法进行实时检核结果明细数据的查询和检索。由此可知，现有的实现方式很难支持针对海量数据的质量检核任务的执行，和数据检核结果明细的分析和检索。

发明内容

本申请的目的在于提供一种海量数据质量检核方法及其系统，具有支持调度无限制的数据质量检核任务的执行，以及支持海量数据的数据质量检核结果分析和检索的技术效果。

为达到上述目的，本申请提供一种海量数据质量检核系统，包括：电力数据中台、容器云和服务器集群；服务器集群包括多个服务器；电力数据中台：用于存储待检核的海量数据，并允许服务器集群对海量数据进行访问；容器云：用于从服务器集群中选择执行服务器；服务器集群：用于执行如下步骤：对基础信息进行独立部署，完成独立部署后，确定数据检核信息并上传，其中，基础信息包括：数据质量检核规则、检核任务定义和检核监控程序；根据数据检核信息对海量数据进行访问，确定待检核的海量数据的数据切块和数据检核任务的并行数量；根据并行数量对数据检核任务进行部署，并确定需要调度的执行服务器；由执行服务器根据数据检核信息中的数据质量检核规则对数据切块进行处理，生成检核结果；利用数据检核信息中的检核结果表对获得的检核结果进行存储。

如上的，其中，电力数据中台包括：数据质量检核库、数据质量检核结果库和计算单元；其中，数据质量检核库：用于存储待检核的海量数据，并允许服务器集群对海量数据进行访问；数据质量检核结果库：用于存放检核结果，并允许访问；计算单元：用于对待检核的海量数据的数据量进行预估计算，根据预估计算对数据量进行动态的数据切块，根据数据切块的数量确定数据检核任务的并行数量，并允许访问；用于对合并后的检核结果的数据量进行计算，并对合并后的检核结果进行分片获得多个数据分片，并允许对数据分片进行存储。

本申请还提供了一种海量数据质量检核方法，包括如下步骤：对基础信息进行独立部署，完成独立部署后，确定数据检核信息并上传，其中，基础信息包括：数据质量检核规则、检核任务定义和检核监控程序；根据数据检核信息对海量数据进行访问，确定待检核的海量数据的数据切块和数据检核任务的并行数量；根据并行数量对数据检核任务进行部署，并确定需要调度的执行服务器；由执行服务器根据数据检核信息中的数据质量检核规则对数据切块进行处理，生成检核结果；利用数据检核信息中的检核结果表对获得的检核结果进行存储。

如上的，其中，完成基础信息独立部署后，确定数据检核信息的子步骤如下：从基础信息中确定数据检核任务和数据质量检核规则，并同时对维护任务进行定义；创建数据检核任务的容器模板，并动态的创建数据检核任务的检核结果表；将数据检核任务、数据质量检核规则、维护任务、容器模板和检核结果表作为数据检核信息，并上传。

如上的，其中，根据数据检核信息对海量数据进行访问，确定数据检核任务的并行数量的子步骤如下：接收数据访问请求，根据数据检核信息确定待检核的海量数据；对待检核的海量数据进行切块处理，获得待检核的海量数据的数据切块，并确定数据检核任务的并行数量。

如上的，其中，根据并行数量对数据检核任务进行部署，并确定需要调度的执行服务器的子步骤如下：根据并行数量确定需要调度的执行服务器的调度个数；根据数据检核信息确定多个执行服务器，多个执行服务器的个数等于调度个数。

如上的，其中，利用数据检核信息中的检核结果表对获得的检核结果进行存储的子步骤如下：上传所有的检核结果用以分析获得多个数据分片；确定多个存储服务器，并利用检核结果表将多个数据分片存储于相应的存储服务器。

如上的，其中，检核结果采用面向联机分析处理的分布式分表列式存储的方式进行存储。

如上的，其中，对每个数据检核任务动态创建一个独享的检核结果表，当存在新增数据时，该检核结果表按照预先配置的指定排序进行存储。

如上的，其中，存储前，采用压缩算法对检核结果进行压缩。

本申请实现的有益效果如下：

（1）本申请的海量数据质量检核方法及其系统通过docker容器技术和自动化部署技术，动态的部署对待检核的海量数据的检核任务，从而实现对电力数据中台中的海量电力数据进行数据质量检核。

（2）本申请的海量数据质量检核方法及其系统通过针对每个检核任务单独创建检核结果表并对检核结果进行列试存储，从而实现对海量数据质量检核结果的实时分析和检索。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为海量数据质量检核系统一种实施例的结构示意图；

图2为海量数据质量检核方法一种实施例的流程图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本申请提供一种海量数据质量检核系统，包括：电力数据中台110、容器云120和服务器集群130；服务器集群130包括多个服务器1301。

电力数据中台110：用于存储待检核的海量数据，并允许服务器集群对海量数据进行访问。

容器云120：用于从服务器集群中选择执行服务器。

服务器集群130：用于执行如下步骤：

对基础信息进行独立部署，完成独立部署后，确定数据检核信息并上传，其中，基础信息包括：数据质量检核规则、检核任务定义和检核监控程序；

根据数据检核信息对海量数据进行访问，确定待检核的海量数据的数据切块和数据检核任务的并行数量；

根据并行数量对数据检核任务进行部署，并确定需要调度的执行服务器；

由执行服务器根据数据检核信息中的数据质量检核规则对数据切块进行处理，生成检核结果；

利用数据检核信息中的检核结果表对获得的检核结果进行存储。

进一步的，电力数据中台110包括：数据质量检核库、数据质量检核结果库和计算单元。

其中，数据质量检核库：用于存储待检核的海量数据，并允许服务器集群对海量数据进行访问。

数据质量检核结果库：用于存放检核结果，并允许访问。

计算单元：用于对待检核的海量数据的数据量进行预估计算，根据预估计算对数据量进行动态的数据切块，根据数据切块的数量确定数据检核任务的并行数量，并允许访问；用于对合并后的检核结果的数据量进行计算，并对合并后的检核结果进行分片获得多个数据分片，并允许对数据分片进行存储。

进一步的，电力数据中台110还包括：海量数据预检测装置，用于对获取的海量数据进行完整性检测。

进一步的，海量数据预检测装置包括：哈希单元、区块单元、区块链单元和分布式单元。其中，哈希单元，用于对获取的海量数据（海量数据为电网业务数据等）进行加密，保证数据完整性。区块单元，用于存储获取的海量数据并保证数据的完整性以及预检测数据是否被篡改。区块链单元，用于测试出海量数据预检测装置的挖掘速度，从而进一步对海量数据预检测装置进行优化。分布式单元，用来对海量数据预检测装置的数据进行仿真。

进一步的，挖掘速度的表达式如下：

；

其中，

为挖掘速度；

为区块的数量；

为挖掘时间；

为区块的平均挖掘效率；

为平均挖掘时间。

如图2所示，本申请提供一种海量数据质量检核方法，包括如下步骤：

S210：对基础信息进行独立部署，完成独立部署后，确定数据检核信息并上传，其中，基础信息包括：数据质量检核规则、检核任务定义和检核监控程序。

具体的，将数据质量检核规则、检核任务定义和检核监控程序分别部署于服务器集群中的不同服务器内，完成对基础信息的独立部署。

其中，不同的数据检核任务所使用的数据质量检核规则不同。

检核任务定义包括：对数据检核任务的任务名称和数据检核任务的执行时间进行定义。

检核监控程序：用于对数据检核任务的执行状态进行监控，例如：数据检核任务当前是否在执行、当前执行数据检核任务中的哪一步、数据检核任务当前是否完成等。

进一步的，完成基础信息独立部署后，确定数据检核信息的子步骤如下：

S2101：从基础信息中确定数据检核任务和数据质量检核规则，并同时对维护任务进行定义。

具体的，根据基础信息的检核任务定义确定数据检核任务，并从数据质量检核规则中选择与该数据检核任务相适配的数据质量检核规则，在确定数据检核任务的同时对维护任务进行定义。

其中，维护任务包括：对数据检核任务进行修改、删除和授权执行权限。

S2102：创建数据检核任务的容器模板，并动态的创建数据检核任务的检核结果表。

具体的，通过服务器集群创建数据检核任务的容器模板，例如：docker（应用容器引擎）容器模板，并动态的创建对应于数据检核任务的检核结果表，检核结果表用于存储海量数据的检核结果。

进一步的，每个数据检核任务对应一个单独的检核结果表。

进一步的，不同的数据检核任务的检核结果表均不相同。

S2103：将数据检核任务、数据质量检核规则、维护任务、容器模板和检核结果表作为数据检核信息，并上传。

具体的，将数据检核任务、数据质量检核规则、维护任务、容器模板和检核结果表作为数据检核信息，并上传，电力数据中台和容器云均能获取到该数据检核信息。

S220：根据数据检核信息对海量数据进行访问，确定待检核的海量数据的数据切块和数据检核任务的并行数量。

进一步的，根据数据检核信息对海量数据进行访问，确定数据检核任务的并行数量的子步骤如下：

S2201：接收数据访问请求，根据数据检核信息确定待检核的海量数据。

具体的，根据数据检核信息对电力数据中台内的海量数据进行访问，电力数据中台根据数据检核任务确定待检核的海量数据，并将待检核的海量数据存储于数据质量检核库中。

S2202：对待检核的海量数据进行切块处理，获得待检核的海量数据的数据切块，并确定数据检核任务的并行数量。

具体的，电力数据中台对待检核的海量数据的数据量进行预估计算，根据预估计算对数据量进行动态的数据切块，并根据数据切块的数量确定数据检核任务的并行数量。进一步的，根据当前数据检核任务的实际情况确定数据切块的大小和数量。

进一步的，数据检核任务的并行数量等于数据切块的数量。

例如：待检核的海量数据的数据量为10T，将数据量切为10块，则数据切块的数量为10，每一个数据切块的大小为1T，则数据检核任务的并行数量为10。

S230：根据并行数量对数据检核任务进行部署，并确定需要调度的执行服务器。

进一步的，根据并行数量对数据检核任务进行部署，并确定需要调度的执行服务器的子步骤如下：

S2301：根据并行数量确定需要调度的执行服务器的调度个数。

具体的，根据并行数量将数据检核任务动态的部署至容器云，容器云根据并行数量确定需要调度的执行服务器的调度个数，调度个数等于并行数据，即一个执行服务器处理一个数据切块，每个服务器所执行的数据检核任务相同。

S2302：根据数据检核信息确定多个执行服务器，多个执行服务器的个数等于调度个数。

具体的，根据数据检核信息中的数据检核任务、数据质量检核规则、维护任务和容器模板，并借助docker（应用容器引擎）容器云技术和自动部署技术从服务器集群中选择出能够执行本次数据检核任务（即符合本次数据检核任务执行条件和权限）的服务器作为执行服务器；其中，执行服务器的个数等于调度个数。

S240：由执行服务器根据数据检核信息中的数据质量检核规则对数据切块进行处理，生成检核结果。

具体的，每个执行服务器获得一个数据切块后，根据数据检核信息中的数据质量检核规则对该数据切块进行质量检核，完成质量检核后，生成检核结果。

S250：利用数据检核信息中的检核结果表对获得的检核结果进行存储。

进一步的，利用数据检核信息中的检核结果表对获得的检核结果进行存储的子步骤如下：

S2501：上传所有的检核结果用以分析获得多个数据分片。

具体的，执行服务器获得检核结果后，将所有的检核结果上传至电力数据中台的数据质量检核结果库，由电力数据中台对合并后的检核结果的数据量进行计算，动态的将合并后的检核结果分为多个数据分片，便于对海量的检核结果进行分布式存储。

进一步的，数据分片的分片方式包括：随机分片、固定分片、列值分片和自定义表达式分片。

具体的，根据数据的大小和类型选择分片方式。数据分片可以更加充分的利用集群的大规模并行计算能力，加快运算和查询分析结果返回。更重要的是，多样化的数据分片策略能力，提供了多样性的业务优化和分析能力。比如：针对JOIN格式的数据计算可以避免数据shuffle（打乱）从而降低磁盘I/O读取和网络传输量，直接在本地进行local join（本地连接）计算提高性能；可以自定义sharding（分片），可以为不同业务自定义最佳的数据分片策略；同时可以通过设置合理的sharding expression（分片及策略）解决数据分片间的数据倾斜问题。具体的策略如下：

1）随机分片：当数据写入时，将数据随机分发到指定的分布式集群中的某个节点上。

2）固定分片：当数据写入时，将数据分发到固定一个节点上。

3）列值分片：当数据写入时，按照系统指定列的值进行hash（散列函数）分片。

4）自定义表达式分片：当数据写入时，可以指定合法表达式，计算指定表达式的值，将计算后的值进行hash分片。

S2502：确定多个存储服务器，并利用检核结果表将多个数据分片存储于相应的存储服务器。

具体的，借助docker（应用容器引擎）容器云技术和自动部署技术从服务器集群中选择出符合数据分片存储条件服务器作为存储服务器；其中，存储服务器的个数等于数据分片的个数。将所有数据分片录入检核结果表，并存储至相应的存储服务器中。

进一步的，作为一个实施例，检核结果采用面向OLAP（Online AnalyticalProcessing，联机分析处理）的分布式分表列式存储的方式进行存储。其中，面向OLAP（Online Analytical Processing，联机分析处理）的分布式分表列式存储的方式是针对于数据本身的存储方式。

进一步的，作为另一个实施例，检核结果采用LSM Tree(Log Structured MergeTree，是一种分层、有序、面向磁盘的数据结构)的数据结构进行存储。将检核结果写入后周期性的后台Compaction（压缩），从而换取相对稳定的读取性能。在检核结果数据批量导入时全部按照顺序append（增补）写入，在后台compaction时是多个段merge sort（归并排序）后顺序的写回磁盘进行存储。顺序写可以充分利用了磁盘存储的I/O吞吐能力，能够达到200MB/s的写入吞吐能力，按照每行检核结果数据100Byte估算，相当于200W条/s的写入速度，可以满足海量数据的检核结果的存储要求。

进一步的，对每个数据检核任务动态创建一个独享的检核结果表，当存在新增数据时，该检核结果表按照预先配置的指定排序进行存储，为后续检核结果分析检索提供更高的查询效率。

进一步的，为了提高存储效率和I/O效率，存储前，采用LZ4和ZSTD两种压缩算法对检核结果进行压缩。

具体的，在数据质量检核结果库中对数据分片进行压缩后再存储至相应的存储服务器中。

本申请实现的有益效果如下：

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，本申请的保护范围意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请保护范围及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种海量数据质量检核系统，其特征在于，包括：电力数据中台、容器云和服务器集群；所述服务器集群包括多个服务器；

电力数据中台：用于存储待检核的海量数据，并允许服务器集群对海量数据进行访问；对待检核的海量数据进行切块处理，获得待检核的海量数据的数据切块，并确定数据检核任务的并行数量；

容器云：用于接收数据检核任务的动态部署，从服务器集群中选择执行服务器；

服务器集群：用于执行如下步骤：

根据数据检核信息对海量数据进行访问，获取待检核的海量数据的数据切块和数据检核任务的并行数量；

根据并行数量对数据检核任务进行部署，并获取需要调度的执行服务器；

2.根据权利要求1所述的海量数据质量检核系统，其特征在于，所述电力数据中台包括：数据质量检核库、数据质量检核结果库和计算单元；

其中，数据质量检核库：用于存储待检核的海量数据，并允许服务器集群对海量数据进行访问；

数据质量检核结果库：用于存放检核结果，并允许访问；

3.一种海量数据质量检核方法，其特征在于，包括如下步骤：

电力数据中台存储待检核的海量数据，并允许服务器集群对海量数据进行访问；电力数据中台对待检核的海量数据进行切块处理，获得待检核的海量数据的数据切块，并确定数据检核任务的并行数量；

容器云接收数据检核任务的动态部署，从服务器集群中选择执行服务器；

服务器集群对基础信息进行独立部署，完成独立部署后，确定数据检核信息并上传，其中，基础信息包括：数据质量检核规则、检核任务定义和检核监控程序；

服务器集群根据数据检核信息对电力数据中台的海量数据进行访问，获取待检核的海量数据的数据切块和数据检核任务的并行数量；

服务器集群根据并行数量对数据检核任务进行部署，并获取需要调度的执行服务器；

服务器集群由执行服务器根据数据检核信息中的数据质量检核规则对数据切块进行处理，生成检核结果；

服务器集群利用数据检核信息中的检核结果表对获得的检核结果进行存储。

4.根据权利要求3所述的海量数据质量检核方法，其特征在于，服务器集群完成基础信息独立部署后，确定数据检核信息的子步骤如下：

从基础信息中确定数据检核任务和数据质量检核规则，并同时对维护任务进行定义；

创建数据检核任务的容器模板，并动态的创建数据检核任务的检核结果表；

将数据检核任务、数据质量检核规则、维护任务、容器模板和检核结果表作为数据检核信息，并上传。

5.根据权利要求3所述的海量数据质量检核方法，其特征在于，电力数据中台允许服务器集群对海量数据进行访问，电力数据中台确定数据检核任务的并行数量的子步骤如下：

接收数据访问请求，根据数据检核信息确定待检核的海量数据；

对待检核的海量数据进行切块处理，获得待检核的海量数据的数据切块，并确定数据检核任务的并行数量。

6.根据权利要求3所述的海量数据质量检核方法，其特征在于，容器云接收数据检核任务的动态部署，从服务器集群中选择执行服务器的子步骤如下：

根据并行数量确定需要调度的执行服务器的调度个数；

根据数据检核信息确定多个执行服务器，多个执行服务器的个数等于调度个数。

7.根据权利要求3所述的海量数据质量检核方法，其特征在于，服务器集群利用数据检核信息中的检核结果表对获得的检核结果进行存储的子步骤如下：

上传所有的检核结果用以分析获得多个数据分片；

确定多个存储服务器，并利用检核结果表将多个数据分片存储于相应的存储服务器。

8.根据权利要求3所述的海量数据质量检核方法，其特征在于，检核结果采用面向联机分析处理的分布式分表列式存储的方式进行存储。

9.根据权利要求3或8所述的海量数据质量检核方法，其特征在于，对每个数据检核任务动态创建一个独享的检核结果表，当存在新增数据时，该检核结果表按照预先配置的指定排序进行存储。

10.根据权利要求3所述的海量数据质量检核方法，其特征在于，存储前，采用压缩算法对检核结果进行压缩。