CN106021543A

CN106021543A - 一种数据预处理方法及装置

Info

Publication number: CN106021543A
Application number: CN201610363231.8A
Authority: CN
Inventors: 郝玉琨; 梁生吉; 王昭; 陈龙; 曹睿
Original assignee: Agricultural Bank of China
Current assignee: Agricultural Bank of China
Priority date: 2016-05-26
Filing date: 2016-05-26
Publication date: 2016-10-12

Abstract

本发明实施例公开了一种数据预处理方法和装置，实现了改善现有技术程序重复开发状况的目的，减小了开发成本，降低了开发的工作量和错误率。其中所述方法包括：获取待处理数据；根据所述待处理数据的属性，获取与所述待处理数据匹配的配置文件，所述配置文件包括预处理流程的各步骤；根据所述预处理流程的各步骤分别获取各步骤对应的程序；按照所述各步骤的执行顺序执行所述各步骤对应的程序，实现对所述待处理数据的预处理。

Description

一种数据预处理方法及装置

技术领域

本发明涉及大数据处理领域，尤其涉及一种数据预处理方法及装置。

背景技术

现实世界中的数据通常是不完整、不一致的，包含各种各样的脏数据，无法直接进行分析、挖掘或联机访问。数据预处理是指在对数据进行分析、挖掘或联机访问等深度应用前对原始数据进行的去重、补全、转换等操作，在数据统计、分析及挖掘领域有着广泛应用。例如，银行系统每天会产生大量的业务数据，特别是交易明细等流水数据，业务要求保存时间长，数据总量达到千亿条，如何有效地对这些海量数据进行快速预处理，保证下一步数据分析或者联机查询的准确性，成了银行系统需要解决的问题。

目前采用基于Hadoop平台的分布式计算框架MapReduce来对海量数据进行预处理。所述Hadoop是一个能够对大量数据进行分布式处理的软件架构，该架构具有较高的可靠性、扩展性、容错性以及高效的数据处理速度，因而在大数据领域里被广泛使用。由于不同类型的预处理数据的数据处理流程存在差别，现有技术针对各类型的预处理数据分别单独编写对应的预处理程序，以满足这些不同类型的预处理数据的处理需求。但是这些不同类型的预处理数据的数据处理流程并不是完全不一样，对于相同的部分，则存在程序重复开发的情形，造成资源的浪费，增加开发成本。另外，在预处理数据类型众多的情况下，开发多次预处理程序出错的概率也随之提高。

发明内容

为了解决现有技术存在的技术问题，本发明提供了一种数据处理方法和装置，实现了改善现有技术程序重复开发的状况的目的，减小了开发成本，降低了开发的工作量和错误率。

本发明实施例提供了一种数据预处理方法，所述方法包括：

获取待处理数据；

根据所述待处理数据的属性，获取与所述待处理数据匹配的配置文件，所述配置文件包括预处理流程的各步骤；

根据所述预处理流程的各步骤分别获取各步骤对应的程序；

按照所述各步骤的执行顺序执行所述各步骤对应的程序，实现对所述待处理数据的预处理。

优选的，所述预处理流程的步骤包括预处理操作的标识和操作参数；

所述根据所述预处理流程的各步骤分别获取各步骤对应的程序包括：

根据所述预处理操作的标识得到对应的预处理操作程序；

所述按照所述各步骤的执行顺序执行所述各步骤对应的程序，实现对所述待处理数据的预处理包括：

按照所述预处理操作程序的执行顺序，结合所述操作参数，执行所述预处理操作程序。

优选的，所述预处理操作的标识为所述预处理操作的类名称；

所述根据所述预处理操作的标识得到对应的预处理操作程序包括：

根据所述预处理操作的类名称得到对应的预处理操作类对象；

所述按照所述预处理操作程序的执行顺序，结合所述操作参数，执行所述预处理操作程序包括：

按照所述预处理操作类对象的执行顺序，结合所述操作参数，执行所述预处理操作类对象。

优选的，所述预处理操作的标识为所述预处理操作的脚本名称；

根据所述预处理操作的脚本名称得到对应的预处理操作脚本程序。

本发明实施例提供了一种数据预处理装置，所述装置包括：数据获取单元、配置文件获取单元、程序获取单元和程序执行单元；

其中，所述数据获取单元，用于获取待处理数据；

所述配置文件获取单元，用于根据所述待处理数据的属性，获取与所述待处理数据匹配的配置文件，所述配置文件包括预处理流程的各步骤；

所述程序获取单元，用于根据所述预处理流程的各步骤分别获取各步骤对应的程序；

所述程序执行单元，用于按照所述各步骤的执行顺序执行所述各步骤对应的程序，实现对所述待处理数据的预处理。

所述程序获取单元，具体用于根据所述预处理操作的标识得到对应的预处理操作程序；

所述程序执行单元，具体用于按照所述预处理操作程序的执行顺序，结合所述操作参数，执行所述预处理操作程序。

所述程序获取单元，具体用于根据所述预处理操作的类名称得到对应的预处理操作类对象；

所述程序执行单元，具体用于按照所述预处理操作类对象的执行顺序，结合所述操作参数，执行所述预处理操作类对象。

所述程序获取单元，具体用于根据所述预处理操作的脚本名称得到对应的预处理操作脚本程序。

本发明通过预先按照待处理数据的属性分别对应设置配置文件，相同属性的待处理数据对应的配置文件相同，所述配置文件中包括预处理流程的各步骤，然后建立起所述预处理流程各步骤与程序的对应关系，这样，不同属性的待处理数据对应的预处理程序中只要存在相同的步骤，那么所述相同的步骤就可以调用同一个程序，因而改善了现有技术程序重复开发的状况，减小了开发成本，降低了开发的工作量和错误率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为银行系统对数据进行预处理采用的预处理流程；

图2本发明实施例一提供的一种数据预处理方法的流程图；

图3为本发明实施例二提供的一种数据预处理装置的结构框图。

具体实施方式

在介绍现有技术和本发明之前，首先对下文将提到的相关术语进行解释。

Hadoop：一种由Apache基金会主导开发的分布式系统基础架构，是目前世界上使用最为广泛的开源分布式系统平台，其生态环境内包含多种基础组件，下文提到的HDFS、Hive、HBase均为Hadoop生态环境的服务组件。

HDFS：Hadoop分布式文件系统，是一种被设计成适合运行于通用PC上的分布式文件系统，具有高度容错性，能够提供高吞吐量的数据访问，通常部署在低廉的PC上,适用于大规模数据集上的应用，一般用来存储文件。

Hive：分布式数据仓库工具，建立在HDFS之上，能支持类似于SQL的数据查询。

HBase：是一个分布式的、面向列的NoSQL数据库，建立在HDFS之上，可提供高并发实时数据访问。

现有技术在基于Hadoop平台进行大数据预处理的过程中，对每种类型的数据分别对应开发预处理程序，在一些预处理流程相同或相似的情况下，存在程序重复开发的问题，导致增加开发成本、浪费资源，且开发时出错率高。

例如，参见图1，银行系统在对每天产生的大量业务数据进行预处理时，可能会按照如下预处理流程来对数据进行预处理：

1、文件接收检查阶段对接收到的数据源文件进行文件名称、文件大小、文件扩展名、数据文件日期等进行检查；

2、文件分发阶段对接收到的文件进行分发处理，根据文件业务类型的不同，分发到各自的处理目录，并根据数据文件业务类型和日期建立子目录；

3、将数据源文件拷贝到HDFS中存储，传输过程中会对文件进行切分，采用多线程方式进行传输；

4、根据数据文件格式建立Hive外表，并加载数据文件存放目录到Hive分区中，通过Hive外表可以利用HQL访问数据文件；

5、对原始文件进行数据清洗，可以为不同类型数据设置不同清洗规则，保证数据质量；识别出的异常数据保存在单独的异常表中供后期修复；

6、编写数据预处理规则，利用HQL实现数据预处理逻辑，进行数据关联、转换等操作，相关操作经Hive解析后转换成MapReduce作业在集群各节点分布式执行，保证海量数据预处理操作的执行效率；

7、建立HBase表，用于提供高并发联机访问，建立Hive-HBase表之间的映射关系，利用Hive-Over-HBase机制，通过Hive读写HBase中的交易数据；

8、通过Hive-HBase表之间的映射关系写入数据到HBase，写入过程可执行对字段的逆序、拼接、补齐等操作，根据后续查询需求拼装HBase的Rowkey和数据列，执行数据导入；

9、清理数据预处理过程中产生的Hive中间表、中间分区等临时数据，减少数据冗余存放，节省存储空间；

10、对处理后的数据源文件进行备份，根据数据文件日期建立子目录，保存备份文件到该目录，清理超过备份时限的历史备份数据；

11、数据备份完成，结束流程。

上述预处理流程是各种类型待处理数据基本通用的流程，但是不同类型的待处理数据的预处理规则不同，其Hive-HBase表之间的具体映射关系也不同。现有技术为每类数据都分别设计了一套执行上述流程的程序，虽然对不同类型的数据都能够实现针对性的进行预处理，但同时也导致了通用流程的重复开发。

为了克服上述技术问题，本发明提供了一种数据预处理方法和装置。为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

参见图2，该图为本发明实施例一提供的一种数据预处理方法的流程图。

本实施例提供的数据预处理方法包括如下步骤：

步骤S101：获取待处理数据。

在本实施例中，所述待处理数据为需要进行预处理的数据，对所述预处理数据的预处理流程可以是图1的流程，当然也可以是其他预处理流程。

步骤S102：根据所述待处理数据的属性，获取与所述待处理数据匹配的配置文件，所述配置文件包括预处理流程的各步骤。

在本实施例中，将预处理流程的各个步骤编辑成配置文件，根据所述待处理数据的不同属性来设置不同的配置文件，所述待处理数据的属性可以是类型，由于同一种类型的待处理数据的待处理流程是相同的，因此可以对应一个配置文件，例如，贷款数据对应一个配置文件，存款数据对应一个配置文件。除了类型，所述待处理数据的属性还可以是其他属性，本领域技术人员可以根据实际应用场景自行设定。

本实施例在预先设置好不同属性的预处理数据分别对应的配置文件后，当获取到所述待处理数据后，根据所述待处理数据找到与其匹配的配置文件。

步骤S103：根据所述预处理流程的各步骤分别获取各步骤对应的程序。

在找到所述待处理数据对应的配置文件后，根据所述配置文件中预处理流程的各步骤分别获取各步骤对应的程序。本实施例将现有技术中预处理数据和程序之间的直接对应关系打破，而是通过设置配置文件，建立起待处理数据与配置文件的对应关系，以及配置文件中的预处理步骤与程序之间的对应关系，这样的话，不同的配置文件中若存在相同的步骤，则只需要编写一个程序即可，而无需重复开发，大大减少了开发的工作量和出错率。例如，待处理数据A与配置文件a对应，待处理数据B与配置文件b对应，所述配置文件a和所述配置文件b均存在步骤“对接收到的数据源文件进行文件名称、文件大小、文件扩展名、数据文件日期等进行检查”，但是该步骤对应的程序仅需要开发一个即可，而无需像现有技术那样开发两个，以分别与所述待处理数据A和待处理数据B对应。

另外，为了进一步的实现代码的可重用性，可以将所述配置文件中预处理流程各个步骤分别拆分为预处理操作标识和相应的操作参数，以适应不同属性的预处理数据。所述预处理操作的标识可以是预处理操作的名称、代号等，本发明不做具体限定。在确定所述预处理流程的步骤对应的程序时，可以根据所述预处理操作的标识确定对应的预处理操作程序。当根据所述预处理操作的标识找到对应的程序时，结合配置文件中的操作参数，得到与该预处理步骤对应的完整程序。

例如，所述配置文件a中的预处理流程存在有步骤“将待处理数据A存储在C盘中”，所述配置文件b中的预处理流程存在有步骤“将待处理数据B存储在D盘中”，这两个步骤的共同之处在于预处理操作本身，即均为存储，但是其操作参数却不同，一个存储在C盘中，另一个存储在D盘中，若是普通处理方式，则这两个步骤分别对应一段程序，但是为了实现代码的可重用性，可以将预处理操作和操作参数分离，即存储程序中只包括存储这个预处理操作，而不包括存储在哪个地方，而是通过配置文件体现。在本例子中，在对所述预处理数据A进行预处理时，可以通过预先设置在配置文件a中的预处理操作名称“存储”得到对应的程序R，再结合配置文件中a与“存储”对应的操作参数“C盘”，得到整个预处理步骤的程序，即“存储预处理数据A至C盘”。而在对所述预处理数据B进行预处理时，通过预先设置在配置文件b中的预处理操作名称“存储”得到所述程序R，再结合配置文件b中与“存储”对应的操作参数“D盘”，得到整个预处理步骤的程序，即“存储预处理数据B至D盘”。

在实际应用中，若所述预处理操作的标识为预处理操作的名称时，可以利用操作名称来得到所述预处理操作的程序，然后在下述步骤中可以结合所述预处理操作程序对应的操作参数按顺序执行所述预处理操作。所述预处理操作程序编写的语言不同，根据所述预处理操作的名称来得到所述预处理操作的程序的具体方式也不同。

例如，若所述预处理操作的程序采用面向对象的程序语言(例如java)实现，那么，可以通过反射机制来得到所述预处理操作的程序，即根据所述预处理操作的类名称得到对应的预处理操作类对象，然后结合所述预处理操作类对象对应的操作参数执行所述预处理操作类对象。

再例如，若所述预处理操作的程序采用脚本语言(例如shell、python等)编写，那么可以直接通过所述预处理操作的脚本名称来得到所述预处理操作脚本程序。

再例如，若所述预处理操作的程序采用预编译好的可执行程序，可以直接通过所述预处理操作的程序路径来得到所述预处理操作可执行程序。

此外，在本发明中，所述操作参数的含义并不仅仅局限于普通意义上理解的数字，而是还包括了其他的操作的必要信息，例如文件名、地址等，在执行预处理操作时，可以调用所述文件名或所述地址中的内容进行操作。

步骤S104：按照所述各步骤的执行顺序执行所述各步骤对应的程序，实现对所述待处理数据的预处理。

在得到所述配置文件中所述预处理流程的各步骤分别对应的程序后，按照所述各步骤的执行顺序执行所述程序，实现对所述待处理数据的预处理。

基于以上实施例提供的一种数据预处理方法，本发明实施例还提供了一种数据预处理装置，下面结合附图来详细说明其工作原理。

实施例二

参见图3，该图为本发明实施例二提供的一种数据预处理装置的结构框图。

本实施例提供的数据预处理装置包括：数据获取单元101、配置文件获取单元102、程序获取单元103和程序执行单元104；

其中，所述数据获取单元101，用于获取待处理数据；

所述配置文件获取单元102，用于根据所述待处理数据的属性，获取与所述待处理数据匹配的配置文件，所述配置文件包括预处理流程的各步骤；

所述程序获取单元103，可以用于根据所述预处理流程的各步骤分别获取各步骤对应的程序；

所述程序执行单元104，可以用于按照所述各步骤的执行顺序执行所述各步骤对应的程序，实现对所述待处理数据的预处理。

本实施例通过预先按照待处理数据的属性分别对应设置配置文件，相同属性的待处理数据对应的配置文件相同，所述配置文件中包括预处理流程的各步骤，然后建立起所述预处理流程各步骤与程序的对应关系，这样，不同属性的待处理数据对应的预处理程序中只要存在相同的步骤，那么所述相同的步骤就可以调用同一个程序，因而改善了现有技术程序重复开发的状况，减小了开发成本，降低了开发的工作量和错误率。

在实际应用中，所述预处理流程的步骤可以包括预处理操作的标识和操作参数；

所述程序获取单元103，具体用于根据所述预处理操作的标识得到对应的预处理操作程序；

所述程序执行单元104，具体用于按照所述预处理操作程序的执行顺序，结合所述操作参数，执行所述预处理操作程序。

当所述预处理操作的标识为所述预处理操作的类名称时，所述程序获取单元103可以具体用于根据所述预处理操作的类名称得到对应的预处理操作类对象；

所述程序执行单元104可以具体用于按照所述预处理操作类对象的执行顺序，结合所述操作参数，执行所述预处理操作类对象。

当所述预处理操作的标识为所述预处理操作的脚本名称时，所述程序获取单元103可以具体用于根据所述预处理操作的脚本名称得到对应的预处理操作脚本程序。

当所述预处理操作的标识为所述预处理操作的可执行程序路径时，所述程序获取单元103可以具体用于根据所述预处理操作的可执行程序路径得到对应的预处理操作可执行程序。

当介绍本发明的各种实施例的元件时，冠词“一”、“一个”、“这个”和“所述”都意图表示有一个或多个元件。词语“包括”、“包含”和“具有”都是包括性的并意味着除了列出的元件之外，还可以有其它元件。

需要说明的是，本领域普通技术人员可以理解实现上述方法实施例中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元及模块可以是或者也可以不是物理上分开的。另外，还可以根据实际的需要选择其中的部分或者全部单元和模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本发明的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种数据预处理方法，其特征在于，所述方法包括：

获取待处理数据；

根据所述预处理流程的各步骤分别获取各步骤对应的程序；

2.根据权利要求1所述的方法，其特征在于，所述预处理流程的步骤包括预处理操作的标识和操作参数；

根据所述预处理操作的标识得到对应的预处理操作程序；

3.根据权利要求2所述的方法，其特征在于，所述预处理操作的标识为所述预处理操作的类名称；

4.根据权利要求2所述的方法，其特征在于，所述预处理操作的标识为所述预处理操作的脚本名称；

5.一种数据预处理装置，其特征在于，所述装置包括：数据获取单元、配置文件获取单元、程序获取单元和程序执行单元；

其中，所述数据获取单元，用于获取待处理数据；

6.根据权利要求5所述的装置，其特征在于，所述预处理流程的步骤包括预处理操作的标识和操作参数；

7.根据权利要求6所述的装置，其特征在于，所述预处理操作的标识为所述预处理操作的类名称；

8.根据权利要求6所述的装置，其特征在于，所述预处理操作的标识为所述预处理操作的脚本名称；