CN118051511A

CN118051511A - 一种海量数据快速校验及异常数据处理方法及系统

Info

Publication number: CN118051511A
Application number: CN202410203712.7A
Authority: CN
Inventors: 曹立宁
Original assignee: Beijing Zhongnongxinda Information Technology Co ltd
Current assignee: Beijing Zhongnongxinda Information Technology Co ltd
Priority date: 2024-02-23
Filing date: 2024-02-23
Publication date: 2024-05-17

Abstract

本发明公开了一种海量数据快速校验及异常数据处理方法及系统，方法包括：提交数据检查任务至数据库集群，根据数据检查任务对应数据源，分区加载对应的数据；解析数据检查任务中预配置的检查规则，并根据检查规则生成检查任务工作流；自动执行检查任务工作流，获取检查筛选得到的异常数据，并对异常数据进行异常数据处理。通过本发明的技术方案，支持数据全生命周期管控，且只加载一次原始数据即可完成多规则的数据质量检查，实现了海量数据质检任务的高效处理，无需用户针对异常数据手动配置处理逻辑，极大的简化了繁琐的用户配置程序，实现了数据检查到数据处理的一站式全自动化配置。

Description

一种海量数据快速校验及异常数据处理方法及系统

技术领域

本发明涉及数据处理技术领域，尤其涉及一种海量数据快速校验及异常数据处理方法以及一种海量数据快速校验及异常数据处理系统。

背景技术

目前信息化建设开展了很多年，数据存储媒介逐渐增多，存储的数据更加复杂，数据量也随着快速增长，数据质量及治理的问题越来越受到关注。如果不校验筛选去除无效的数据，会导致大量无效数据污染，难以发现数据的潜在巨大价值。

在过去的发展中通常应用关系型数据库存储数据，对其进行数据质量检查也是基于关系型数据库及JAVA来处理。其数据检查效率不高，质量检查能处理的数据量不大。同时目前对于数据质量检测大部分是基于一些简单规则，检查结果未能与数据治理有效关联，不能实现数据的质量检查与治理的全过程闭环流程。

现有技术中，主要存在以下缺点：

1)通常只提供了数据的检查校验功能，但未实现异常数据的全生命周期管理；

2)对于复杂的业务场景的异常数据，尚未实现自动生成数据治理方案；

3)基于检查出的错误数据，缺乏治理前后数据直观展示，以及治理后的数据归集；

4)海量数据下，数据检查及异常数据定位的效率较低。

发明内容

针对上述问题，本发明提供了一种基于spark的海量数据校验及问题数据定位方法及系统，通过数据分区加载及检查任务工作流的自动生成和执行，能够支持数据全生命周期管控，且只加载一次原始数据即可完成多规则的数据质量检查，实现海量数据质检任务的高效处理，无需用户针对异常数据手动配置处理逻辑，极大的简化了繁琐的用户配置程序，实现数据检查到数据处理的一站式全自动化配置。

为实现上述目的，本发明提供了一种海量数据快速校验及异常数据处理方法，包括：

提交数据检查任务至数据库集群，根据所述数据检查任务对应数据源，分区加载对应的数据；

解析所述数据检查任务中预配置的检查规则，并根据所述检查规则生成检查任务工作流；

自动执行所述检查任务工作流，获取检查筛选得到的异常数据，并对所述异常数据进行异常数据处理。

在上述技术方案中，优选地，海量数据快速校验及异常数据处理方法还包括：

在分区加载数据的同时，为所述数据增加主键身份标识，并在检查到异常数据时，根据所述异常数据的主键身份标识进行异常数据定位。

在上述技术方案中，所述检查规则具有预配置的数据结构，解析所述检查规则能够自动生成所述检查任务工作流；

所述检查任务工作流依据所述检查规则生成预设的数据处理任务和任务执行顺序，生成所述数据处理任务时，自动装配所述数据处理任务所需的配置信息，所述配置信息包括数据源信息、异常数据信息、异常字段信息、处理组件信息和配置参数信息。

在上述技术方案中，所述自动执行所述检查任务工作流，获取检查筛选得到的异常数据，并对所述异常数据进行异常数据处理，具体过程包括：

将所述检查任务工作流提交至spark集群，所述spark集群执行所述检查任务工作流；

根据检查筛选得到的异常数据，展示所述异常数据；

将处理后的异常数据与数据库源表进行合并，得到最终结果数据。

在上述技术方案中，所述对所述异常数据进行异常数据处理的具体过程还包括：

将所述异常数据进行异常数据处理后，将处理前后的异常数据进行对比，并统计异常数据对比结果，生成对比检测报告。

本发明还提出一种海量数据快速校验及异常数据处理系统，应用如上述技术方案中任一项公开的海量数据快速校验及异常数据处理方法，包括：

数据加载模块，用于提交数据检查任务至数据库集群，根据所述数据检查任务对应数据源，分区加载对应的数据；

任务生成模块，用于解析所述数据检查任务中预配置的检查规则，并根据所述检查规则生成检查任务工作流；

异常处理模块，用于自动执行所述检查任务工作流，获取检查筛选得到的异常数据，并对所述异常数据进行异常数据处理。

在上述技术方案中，海量数据快速校验及异常数据处理系统还包括异常定位模块，用于在分区加载数据的同时，为所述数据增加主键身份标识，并在检查到异常数据时，根据所述异常数据的主键身份标识进行异常数据定位。

在上述技术方案中，在所述任务生成模块中，所述检查规则具有预配置的数据结构，解析所述检查规则能够自动生成所述检查任务工作流；

在上述技术方案中，所述异常处理模块具体用于：

根据检查筛选得到的异常数据，展示所述异常数据；

在上述技术方案中，所述异常处理模块还用于：

与现有技术相比，本发明的有益效果为：通过数据分区加载及检查任务工作流的自动生成和执行，能够支持数据全生命周期管控，且只加载一次原始数据即可完成多规则的数据质量检查，实现海量数据质检任务的高效处理，无需用户针对异常数据手动配置处理逻辑，极大的简化了繁琐的用户配置程序，实现了数据检查到数据处理的一站式全自动化配置。

附图说明

图1为本发明一种实施例公开的海量数据快速校验及异常数据处理方法的流程示意图；

图2为本发明一种实施例公开的加载数据的流程示意图；

图3为本发明一种实施例公开的生成检查任务工作流的流程示意图；

图4为本发明一种实施例公开的异常数据处理的流程示意图；

图5为本发明一种实施例公开的海量数据快速校验及异常数据处理系统的模块示意图。

图中，各组件与附图标记之间的对应关系为：

1.数据加载模块，2.任务生成模块，3.异常处理模块，4.异常定位模块。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图对本发明做进一步的详细描述：

如图1所示，根据本发明提供的一种海量数据快速校验及异常数据处理方法，包括：

提交数据检查任务至数据库集群，根据数据检查任务对应数据源，分区加载对应的数据；

解析数据检查任务中预配置的检查规则，并根据检查规则生成检查任务工作流；

自动执行检查任务工作流，获取检查筛选得到的异常数据，并对异常数据进行异常数据处理。

在该实施方式中，通过数据分区加载及检查任务工作流的自动生成和执行，能够支持数据全生命周期管控，且只加载一次原始数据即可完成多规则的数据质量检查，实现了海量数据质检任务的高效处理，无需用户针对异常数据手动配置处理逻辑，极大的简化了繁琐的用户配置程序，实现了数据检查到数据处理的一站式全自动化配置。

如图2所示，具体地，数据质量检查第一步需要加载源数据。数据质量检查支持不同类型数据库的联邦查询及数据加载。根据配置的数据源的类型，质量检查任务采用不同方式加载数据源数据。并根据加载的数据总量，将数据合理的分区，以提高数据质检效率。

进一步地，解析数据质量检查任务中配置的数据源信息、检查表信息、表下的字段信息以及字段中配置的检查规则信息。逐层遍历数据检查任务中的检查规则，根据配置的检查规则，校验数据是否符合该检查规则。为了提升效率，多个规则检查只加载一次数据即可完成检查。

在上述实施方式中，优选地，海量数据快速校验及异常数据处理方法还包括：

在分区加载数据的同时，为数据增加主键身份标识，并在检查到异常数据时，根据异常数据的主键身份标识进行异常数据定位。

具体地，该主键身份标识将伴随数据检查、数据治理等数据全生命周期。

如图3所示，在上述实施方式中，检查规则具有预配置的数据结构，解析检查规则能够自动生成检查任务工作流；

检查任务工作流依据检查规则生成预设的数据处理任务和任务执行顺序，生成数据处理任务时，自动装配数据处理任务所需的配置信息，配置信息包括数据源信息、异常数据信息、异常字段信息、处理组件信息和配置参数信息。

在该实施方式中，具体地，由于在数据质量检查在横跨不同类型数据库、多表、多字段及个性化参数配置的复杂业务场景下，形成的质量检查规则会相当复杂。为了能让处理系统能够快速的处理异常数据出现的问题，并自动形成数据治理方案，质量检查程序依据数据检查任务的任务配置及其参数配置，质量检查和数据处理之间定义了一种数据结构，质量检查程序生成并传递该数据结构，可以被数据处理系统理解，并由数据处理系统解析后，自动生成对应的数据治理方案。自动生成的数据治理方案依据异常数据违法的检查规则，生成多个数据处理任务，并决定其执行顺序，即为检查任务工作流。生成数据治理方案时，会自动装配其包含的数据处理任务所需配置，如数据源信息、异常数据信息、异常字段信息、处理组件信息、配置参数信息等。此外，生成的数据处理工作流可再次由用户根据具体业务需要，修改处理任务相关配置，并形成最终数据治理方案。

如图4所示，在上述实施方式中，自动执行检查任务工作流，获取检查筛选得到的异常数据，并对异常数据进行异常数据处理，具体过程包括：

将检查任务工作流提交至spark集群，spark集群执行检查任务工作流；

根据检查筛选得到的异常数据，展示异常数据；

在该实施方式中，基于检查中筛选出的异常数据，处理系统工作流中自动获取异常数据，并提供异常数据展示功能，使用户能更直观、有效的配置相关个性化需求参数。在进行数据处理时，流程可自动加载源表数据、异常数据及处理后的异常数据，基于处理后的异常数据与源表合并，并将数据持久化至用户指定的数据源及库表中，形成最终结果数据。

在上述实施方式中，对异常数据进行异常数据处理的具体过程还包括：

将异常数据进行异常数据处理后，将处理前后的异常数据进行对比，并统计异常数据对比结果，具体包含异常字段、数据处理前数据、数据处理后数据、处理方式等参数，生成对比检测报告。

如图5所示，本发明还提出一种海量数据快速校验及异常数据处理系统，应用如上述实施方式中任一项公开的海量数据快速校验及异常数据处理方法，包括：

数据加载模块1，用于提交数据检查任务至数据库集群，根据数据检查任务对应数据源，分区加载对应的数据；

任务生成模块2，用于解析数据检查任务中预配置的检查规则，并根据检查规则生成检查任务工作流；

异常处理模块3，用于自动执行检查任务工作流，获取检查筛选得到的异常数据，并对异常数据进行异常数据处理。

在该实施方式中，通过数据分区加载及检查任务工作流的自动生成和执行，能够支持数据全生命周期管控，且只加载一次原始数据即可完成多规则的数据质量检查，实现海量数据质检任务的高效处理，无需用户针对异常数据手动配置处理逻辑，极大的简化了繁琐的用户配置程序，实现了数据检查到数据处理的一站式全自动化配置。

在上述实施方式中，海量数据快速校验及异常数据处理系统还包括异常定位模块4，用于在分区加载数据的同时，为数据增加主键身份标识，并在检查到异常数据时，根据异常数据的主键身份标识进行异常数据定位。

在上述实施方式中，在任务生成模块2中，检查规则具有预配置的数据结构，解析检查规则能够自动生成检查任务工作流；

在上述实施方式中，异常处理模块3具体用于：

根据检查筛选得到的异常数据，展示异常数据；

在上述实施方式中，异常处理模块3还用于：

将异常数据进行异常数据处理后，将处理前后的异常数据进行对比，并统计异常数据对比结果，生成对比检测报告。

根据上述实施方式公开的海量数据快速校验及异常数据处理系统，其各模块所要实现的功能与上述实施方式公开的海量数据快速校验及异常数据处理方法的各步骤分别对应一致，在实施过程中，参照上述实施方式的记载进行实施，在此不再赘述。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种海量数据快速校验及异常数据处理方法，其特征在于，包括：

2.根据权利要求1所述的海量数据快速校验及异常数据处理方法，其特征在于，还包括：

3.根据权利要求1或2所述的海量数据快速校验及异常数据处理方法，其特征在于，所述检查规则具有预配置的数据结构，解析所述检查规则能够自动生成所述检查任务工作流；

4.根据权利要求3所述的海量数据快速校验及异常数据处理方法，其特征在于，所述自动执行所述检查任务工作流，获取检查筛选得到的异常数据，并对所述异常数据进行异常数据处理，具体过程包括：

根据检查筛选得到的异常数据，展示所述异常数据；

5.根据权利要求4所述的海量数据快速校验及异常数据处理方法，其特征在于，所述对所述异常数据进行异常数据处理的具体过程还包括：

6.一种海量数据快速校验及异常数据处理系统，其特征在于，应用如权利要求1至5中任一项所述的海量数据快速校验及异常数据处理方法，包括：

7.根据权利要求6所述的海量数据快速校验及异常数据处理系统，其特征在于，还包括异常定位模块，用于在分区加载数据的同时，为所述数据增加主键身份标识，并在检查到异常数据时，根据所述异常数据的主键身份标识进行异常数据定位。

8.根据权利要求6或7所述的海量数据快速校验及异常数据处理系统，其特征在于，在所述任务生成模块中，所述检查规则具有预配置的数据结构，解析所述检查规则能够自动生成所述检查任务工作流；

9.根据权利要求8所述的海量数据快速校验及异常数据处理系统，其特征在于，所述异常处理模块具体用于：

根据检查筛选得到的异常数据，展示所述异常数据；

10.根据权利要求9所述的海量数据快速校验及异常数据处理系统，其特征在于，所述异常处理模块还用于：