CN109033274A

CN109033274A - 一种数据清洗方法及装置

Info

Publication number: CN109033274A
Application number: CN201810751415.0A
Authority: CN
Inventors: 陈世强; 王鹏晴; 李晓东; 钟华剑; 徐雅光; 刘利刚
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2018-07-10
Filing date: 2018-07-10
Publication date: 2018-12-18

Abstract

本发明的实施例公开一种数据清洗方法及装置，涉及数据处理领域，能够在数据清洗引擎上实现动态的数据清洗。该方法，包括：在数据源中为每个数据清洗引擎确定待清洗数据；根据所述待清洗数据的类型在预存的至少一个清洗规则中为所述待清洗数据选择目标清洗规则；根据所述目标清洗规则在预存的至少一个清洗插件中调用目标清洗插件；其中每个所述清洗规则对应至少一个清洗插件；通过所述数据清洗引擎运行所述目标清洗插件按照所述目标清洗规则对所述待清洗数据进行清洗，获取清洗结果数据。

Description

一种数据清洗方法及装置

技术领域

本发明的实施例涉及数据处理领域，尤其涉及一种数据清洗方法及装置。

背景技术

数据清洗是指发现并纠正数据文件中可识别的错误的一道程序，包括检查数据一致性，处理无效值和缺失值等。是对数据进行重新审查和校验的过程，目的在于删除重复信息、纠正存在的错误，并提供数据一致性。

使用pro*c开发清洗程序并运行于AIX(Advanced Interactive eXecutive，高级执行交互体)操作系统上时，需要人为将需要清洗的数据按照数据清洗引擎(例如执行数据清洗的计算机或处理器)的多少，分成多份，每台数据清洗引擎使用清洗程序运行分配给数据清洗引擎的待清洗数据。并且，数据类系统在进行数据清洗时通常以单个数据清洗引擎对待清洗数据进行清洗，或者采用多个数据清洗引擎对待清洗数据进行清洗时，单独运行每个数据清洗引擎对待清洗数据进行清洗，在对数据清洗的过程中，每个数据清洗引擎运行固定的清洗程序，不能动态更换，因而由于清洗程序的版本部署以及更新速度均会影响到数据清洗的质量及速度，例如低版本的清洗程序效率低下或者代码逻辑错误均会引起数据清洗过程缓慢或报错。此外，由于每个数据清洗引擎独立运行，当多台清洗引擎同时运行时，并不能协调多个清洗引擎之间的清洗任务。

发明内容

本发明的实施例提供一种数据清洗方法及装置，能够在数据清洗引擎上实现动态的数据清洗。

第一方面，提供一种数据清洗方法，包括：在数据源中为每个数据清洗引擎确定待清洗数据；根据所述待清洗数据的类型在预存的至少一个清洗规则中为所述待清洗数据选择目标清洗规则；根据所述目标清洗规则在预存的至少一个清洗插件中调用目标清洗插件；其中每个所述清洗规则对应至少一个清洗插件；通过所述数据清洗引擎运行所述目标清洗插件按照所述目标清洗规则对所述待清洗数据进行清洗，获取清洗结果数据。

第二方面，提供一种数据清洗装置，包括：

数据输入模块，用于在数据源中为每个数据清洗引擎确定待清洗数据；

数据清洗模块，根据所述数据输入模块确定的待清洗数据的类型在预存的至少一个清洗规则中为所述待清洗数据选择目标清洗规则；根据所述目标清洗规则在预存的至少一个清洗插件中调用目标清洗插件；其中每个所述清洗规则对应至少一个清洗插件；

数据清洗模块，还用于通过所述数据清洗引擎运行所述目标清洗插件按照所述目标清洗规则对所述待清洗数据进行清洗，获取清洗结果数据。

在上述方案中，数据清洗装置能够在数据源中为每个数据清洗引擎确定待清洗数据；并根据根据待清洗数据的类型在预存的至少一个清洗规则中为待清洗数据选择目标清洗规则；根据目标清洗规则在预存的至少一个清洗插件中调用目标清洗插件；其中每个清洗规则对应至少一个清洗插件；通过数据清洗引擎运行目标清洗插件按照目标清洗规则对待清洗数据进行清洗，获取清洗结果数据。由于能够根据清洗规则为待清洗数据选择目标清洗规则，并且选择数据清洗引擎运行的清洗插件对待清洗数据进行数据清洗，实现了在数据清洗引擎上对待清洗数据动态的数据清洗，避免了清洗引擎运行固定的清洗程序，不能动态更换，对数据清洗的质量及速度的影响。同时当数据源采用分布式文件方式存储待清洗数据时，可以均衡分配给每个数据清洗引擎的数据清洗任务，实现了多个数据清洗引擎之间的协调。此外，由于采用清洗插件的方式对待清洗数据进行清洗，可以实现清洗规则以及清洗插件的共享，可以避免重复开发。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供一种应用场景示意图；

图2为本发明实施例提供的一种数据清洗方法的流程图；

图3为本发明实施例提供的一种数据清洗装置的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的实施例应用到如下技术术语：

数据清洗：因数据生成、数据采集方法、网络传输等过程会导致数据到达数据系统(例如大数据平台、各类MIS(Management Information System，管理信息系统))时，会存在数据项缺失、数据含义错误、长度超长等问题数据。为方便数据处理逻辑对数据的加工处理、达到准确的数据统计目标，需要对采集的数据进行数据清洗，以删除上述问题数据。

分布式：分布式是指数据在处理过程前先将数据拆分为不同的多个数据块，然后通过一定的协调机制，将多台处理装置(例如本发明中的数据清洗引擎)调度起来，同时对不同的数据块进行处理。本发明的实施例中是指待清洗数据进行分布式的清洗。

插件：插件是完成某项工作的具体程序单元，其可独立发布运行，不受其他环境影响，可以实现即插即用的效果。

scala：一门多范式的编程语言，一种类似java的编程语言，设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。

Hadoop：一种大数据框架，用于分布式数据存储、分布式运算等计算机集群软件。实现了一个分布式文件系统(Hadoop Distributed File System)，简称HDFS。

Hive：是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。可以支持pb级的超大数据量管理，支持类sql的开发语法。

Spark：一种通过Scala编写的大数据计算引擎框架，支持批量计算、流式计算、图计算、机器学习等多种计算框架，可以与hadoop\hive等组件实现对接，共同实现数据的存储、计算等功能。

配置数据库：一种关系型数据库如mysql等，用以存储待清洗数据的清洗规则、清洗插件等信息。在本发明的实施例中当清洗引擎对待清洗数据进行清洗前需要先读取该配置数据库，从中获取清洗规则以及清洗规则对应的清洗插件等，然后再进行数据清洗。

本发明的实施例应用于如下的系统架构，参照图1所示，包括数据源数据库11、配置数据库12、清洗结果数据库13、数据清洗装置14以及调度装置15，其中、数据源数据库11用于存储待清洗数据，配置数据库12用于存储清洗规则以及清洗规则对应的清洗插件，清洗结果数据库13用于存储数据清洗装置14对待清洗数据清洗后的清洗结果数据，调度装置15用于调度数据清洗装置14自数据源数据库11、配置数据库12读取待清洗数据、清洗规则以及清洗插件，并将清洗结果数据存入清洗结果数据库13。

基于上述的系统架构，参照图2所示，本发明的实施例提供一种数据清洗方法，包括如下步骤：

101、数据清洗装置在数据源中为每个数据清洗引擎确定待清洗数据。

其中，待清洗数据可以采用以下一种或多种形式存储于数据源中，例如：TXT(文本)文件、Hive表、HDFS文件、RDBMS(Relational Database Management System，关系数据库管理系统)表；具体的数据源可以是直接通过软件系统自动生成或者由后台维护人员制作，并存储于数据源数据库。数据清洗装置具体可以通过文本读取、数据库文件读取或者分布式文件读取等方式在数据源中读取每个数据清洗引擎的待清洗数据。

为实现，均衡分配给每个数据清洗引擎的数据清洗任务，实现了对多数据清洗引擎之间的协调，数据源采用分布式文件方式存储待清洗数据。例如，数据源可以采用基于分布式系统Hadoop、Hive的文件等。这样可以通过分布式系统的功能实现诸如分配给多个数据清洗引擎的待清洗数据的均衡，例如，按照每个数据清洗引擎当前处理的待清洗数据的类型分配待清洗数据至每个数据清洗引擎、按照每个数据清洗引擎可处理的任务量分配等等。

102、数据清洗装置根据待清洗数据的类型在预存的至少一个清洗规则中为待清洗数据选择目标清洗规则；根据目标清洗规则在预存的至少一个清洗插件中调用目标清洗插件；其中每个清洗规则对应至少一个清洗插件。

示例性的，步骤102之前，还包括：为待清洗数据配置至少一个清洗规则，并为每个清洗规则配置至少一个清洗插件，将至少一个清洗规则以及至少一个清洗插件预先保存至配置数据库中。在确定待清洗数据后，软件系统或者运维人员可以在配置数据库中导入匹配待清洗数据的类型的清洗规则以及清洗插件，以供数据清洗引擎调用。其中清洗规则至少包括行级数据清洗的清洗规则、列级数据清洗的清洗规则等。

103、数据清洗装置通过数据清洗引擎运行目标清洗插件按照目标清洗规则对待清洗数据进行清洗，获取清洗结果数据。

在步骤103中，数据清洗引擎可以利用步骤102中确定的目标清洗规则以及目标清洗插件对步骤101中准备好的待清洗数据进行数据清洗，其中在数据清洗开始之前，可以将待清洗数据暂时保存在待清洗缓冲区，在步骤102获取目标清洗规则以及目标清洗插件后，调用目标清洗插件按照目标清洗规则对待清洗数据进行清洗。对生成的清洗结果数据可以缓存至结果缓冲区，最终根据调度装置的的调度命令，存储清洗结果数据至清洗结果数据库13，根据清洗结果数据的类型，该清洗结果数据库可以为关系型数据库(例如mysql数据库)或者分布式文件系统(例如Hive、HDFS等)的数据库。

需要说明的是，在一种示例中，由于Spark可以与于Hadoop或Hive等组件完美对接，数据清洗引擎可以采用Spark框架。而Spark可以支持scala语言开发的软件程序，可以自动的，以分布式的方式在多台计算机中运行，因此步骤103中可以利用scala的反射机制实现在配置数据库中动态调用清洗规则及清洗插件的目的。

在上述方案中，数据清洗装置能够在数据源中为每个数据清洗引擎确定待清洗数据；并根据根据待清洗数据的类型在预存的至少一个清洗规则中为待清洗数据选择目标清洗规则；根据目标清洗规则在预存的至少一个清洗插件中调用目标清洗插件；其中每个清洗规则对应至少一个清洗插件；通过数据清洗引擎运行目标清洗插件按照目标清洗规则对待清洗数据进行清洗，获取清洗结果数据。由于能够根据清洗规则为待清洗数据选择目标清洗规则，并且选择数据清洗引擎运行的清洗插件对待清洗数据进行数据清洗，实现了在数据清洗引擎上对待清洗数据动态的数据清洗，避免了清洗引擎运行固定的清洗程序，不能动态更换，对数据清洗的质量及速度的影响。同时当数据源采用分布式文件方式存储待清洗数据时，可以均衡分配给每个数据清洗引擎的数据清洗任务，实现了对多个数据清洗引擎之间的协调。此外，由于采用清洗插件的方式对待清洗数据进行清洗，可以实现清洗规则以及清洗插件的共享，可以避免重复开发。

参照图3所示，提供一种数据清洗装置，包括：

数据输入模块31，用于在数据源中为每个数据清洗引擎确定待清洗数据；

数据清洗模块32，根据所述数据输入模块31确定的待清洗数据的类型在预存的至少一个清洗规则中为所述待清洗数据选择目标清洗规则；根据所述目标清洗规则在预存的至少一个清洗插件中调用目标清洗插件；其中每个所述清洗规则对应至少一个清洗插件；

数据清洗模块32，还用于通过所述数据清洗引擎运行所述目标清洗插件按照所述目标清洗规则对所述待清洗数据进行清洗，获取清洗结果数据。

在一种示例性的实现方式中，还包括：配置模块33，用于为所述待清洗数据配置所述至少一个清洗规则，并为每个所述清洗规则配置至少一个清洗插件，将所述至少一个清洗规则以及所述至少一个清洗插件预先保存至配置数据库中。

在一种示例性的实现方式中，还包括：数据输出模块34，用于存储所述数据清洗模块获取的所述清洗结果数据。

在一种示例性的实现方式中，所述数据源采用分布式文件方式存储所述待清洗数据。所述数据源采用以下一种或多种方式存储所述待清洗数据：TXT文件、Hive表、HDFS文件、RDBMS表。

需要说明的是，数据输入模块31、数据清洗模块32、配置模块33可以为单独设立的处理器，也可以集成在控制器的某一个处理器中实现，此外，也可以以程序代码的形式存储于控制器的存储器中，由控制器的某一个处理器调用并执行以上各单元的功能。这里所述的处理器可以是一个中央处理器(Central Processing Unit，CPU)，或者是特定集成电路(Application Specific Integrated Circuit，ASIC)，或者是被配置成实施本申请实施例的一个或多个集成电路。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

此外，还提供一种计算可读媒体(或介质)，包括在被执行时进行上述实施例中的方法的操作的计算机可读指令。

另外，还提供一种计算机程序产品，包括上述计算机可读媒体(或介质)。

应理解，在本发明的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称:read-only memory，英文简称：ROM)、随机存取存储器(英文全称：random access memory，英文简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种数据清洗方法，其特征在于，包括：

在数据源中为每个数据清洗引擎确定待清洗数据；

根据所述待清洗数据的类型在预存的至少一个清洗规则中为所述待清洗数据选择目标清洗规则；根据所述目标清洗规则在预存的至少一个清洗插件中调用目标清洗插件；其中每个所述清洗规则对应至少一个清洗插件；

通过所述数据清洗引擎运行所述目标清洗插件按照所述目标清洗规则对所述待清洗数据进行清洗，获取清洗结果数据。

2.根据权利要求1所述的数据清洗方法，其特征在于，根据所述待清洗数据的类型在预存的至少一个清洗规则中为所述待清洗数据选择目标清洗规则之前，包括：为所述待清洗数据配置所述至少一个清洗规则，并为每个所述清洗规则配置至少一个清洗插件，将所述至少一个清洗规则以及所述至少一个清洗插件预先保存至配置数据库中。

3.根据权利要求1所述的数据清洗方法，其特征在于，所述方法还包括：存储所述清洗结果数据。

4.根据权利要求1所述的数据清洗方法，其特征在于，所述数据源采用分布式文件方式存储所述待清洗数据。

5.根据权利要求1所述的数据清洗方法，其特征在于，所述数据源采用以下一种或多种方式存储所述待清洗数据：TXT文件、Hive表、HDFS文件、RDBMS表。

6.一种数据清洗装置，其特征在于，包括：

7.根据权利要求6所述的数据清洗装置，其特征在于，还包括：配置模块，用于为所述待清洗数据配置所述至少一个清洗规则，并为每个所述清洗规则配置至少一个清洗插件，将所述至少一个清洗规则以及所述至少一个清洗插件预先保存至配置数据库中。

8.根据权利要求6所述的数据清洗装置，其特征在于，还包括：数据输出模块，用于存储所述数据清洗模块获取的所述清洗结果数据。

9.根据权利要求6所述的数据清洗装置，其特征在于，所述数据源采用分布式文件方式存储所述待清洗数据。

10.根据权利要求6所述的数据清洗装置，其特征在于，所述数据源采用以下一种或多种方式存储所述待清洗数据：TXT文件、Hive表、HDFS文件、RDBMS表。

11.一种存储一个或多个程序的计算机可读存储介质，其特征在于，所述一个或多个程序包括指令，所述指令当被计算机执行时使所述计算机执行如权利要求1至5任一项所述的数据清洗方法。