CN103810272A

CN103810272A - 一种数据处理方法和系统

Info

Publication number: CN103810272A
Application number: CN201410048039.0A
Authority: CN
Inventors: 程渤; 陈俊亮; 刘传昌
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2014-02-11
Filing date: 2014-02-11
Publication date: 2014-05-21

Abstract

本发明公开了一种数据处理方法和系统，其中，所述方法包括：抽取指定数据源中的数据；将抽取的数据加载到分布式文件系统HDFS中；根据接收的业务规则对HDFS中的数据进行转换处理，得到处理结果；从HDFS中导出所述处理结果并加载到关系型数据库中。

Description

一种数据处理方法和系统

技术领域

本发明涉及计算机技术，尤其涉及一种数据处理方法和系统。

背景技术

随着互联网和物联网技术的飞速发展，一个“信息大爆炸”的时代已然来临。企业中，大量的日常业务数据被存储在相应的业务系统中，随着时间的呈现爆炸性的增长；微博、社交网络及各种电子商务网站每时每刻都产生着难以估量的数据；手机，平板电脑及各种各样的传感器，其数量越来越多，产生的数据也越来越难以衡量。然而数据并不等于信息（或称知识）。如何在大量的数据中找到需要的信息，为企业管理人员提供决策的依据，从而产生新业务，创造新利润，成为每个企业亟需解决的问题。

在上述背景下，数据集成与分析技术应运而生，然而，现有的数据集成与分析技术方案大都存在以下缺陷：

（一）整个数据集成与分析过程的设计、运行和管理都集中在一个节点上，因此需要价格昂贵的高性能服务器才能保证处理效率。

（二）数据源支持单一，传统数据集成与分析方案一般只能支持对结构化数据源，如关系型数据库、ERP系统等的支持，对非结构化和半结构化数据源，如网页、XML文件、TXT文件、办公文档等支持不足。

（三）无法高效处理大规模数据集。

（四）可扩展性、兼容性差。现有数据集成与分析技术一般仅对特定的产品具有兼容性，对其他产品一般不兼容。

发明内容

为解决现有存在的技术问题，本发明实施例提供一种数据处理方法和系统。

本发明实施例提供一种数据处理方法，所述方法包括：

抽取指定数据源中的数据；

将抽取的数据加载到分布式文件系统HDFS中；

根据接收的业务规则对HDFS中的数据进行转换处理，得到处理结果；

从HDFS中导出所述处理结果并加载到关系型数据库中。

本发明实施例提供一种数据处理系统，所述系统包括：

抽取模块，用于抽取指定数据源中的数据；

第一加载模块，将抽取的数据加载到分布式文件系统HDFS中；

转换模块，用于根据接收的业务规则对HDFS中的数据进行转换处理，得到处理结果；

第二加载模块，用于从HDFS中导出所述处理结果并加载到关系型数据库中。

由上可知，本发明的技术方案包括：抽取指定数据源中的数据；将抽取的数据加载到分布式文件系统HDFS中；根据接收的业务规则对HDFS中的数据进行转换处理，得到处理结果；从HDFS中导出所述处理结果并加载到关系型数据库中。由此，本发明采用开源的分布式文件系统HDFS作为大数据的存储系统，可以对异构大规模数据源进行集成与分析。本发明对数据源类型没有要求，无需使用价格昂贵的高性能服务器，数据处理效率高，而且兼容性好。

附图说明

图1为本发明提供的一种数据处理方法的实施例的实现流程图；

图2为本发明提供的一种数据处理系统的实施例的结构示意图；

图3为本发明提供的一种数据处理系统的另一实施例的结构示意图；

图4为本发明中数据抽取器的实施例的工作流程图；

图5为本发明中将数据载入HDFS的实施例的工作流程图；

图6为本发明中业务规则输入器的实施例的工作流程图；

图7为本发明从HDFS读取数据的实施例的实现流程图。

具体实施方式

本发明提供的一种数据处理方法的实施例，如图1所示，所述方法包括：

步骤101、抽取指定数据源中的数据；

这里，所述抽取指定数据源中数据包括：确定所述指定数据源是否发生变化；当所述指定数据源发生变化时，抽取所述指定数据源中发生变化的数据。

所述确定所述指定数据源是否发生变化为：根据标记的数据抽取截止标志判断所述指定数据源是否发生变化；所述数据抽取截止标志为每次数据抽取后标记的。

步骤102、将抽取的数据加载到分布式文件系统HDFS中；

步骤103、根据接收的业务规则对HDFS中的数据进行转换处理，得到处理结果；

所述根据接收的业务规则对HDFS中的数据进行转换处理为：使用并行大规模数据集计算框架MapRedcue根据接收的业务规则对HDFS中的数据进行转换处理。

步骤104、从HDFS中导出所述处理结果并加载到关系型数据库中。

在一实施例中，所述方法还包括：

确定收到的业务规则的作业类型；

当所述业务规则的作业类型为Hive作业时，将所述业务规则的作业类型转换成MapReduce作业。

本发明提供的一种数据处理系统的实施例，如图2所示，所述系统包括：

抽取模块201，用于抽取指定数据源中的数据；

这里，所述抽取模块201，具体用于根据标记的数据抽取截止标志判断所述指定数据源是否发生变化，所述数据抽取截止标志为每次数据抽取后标记的；当所述指定数据源发生变化时，抽取所述指定数据源中发生变化的数据。

第一加载模块202，将抽取的数据加载到分布式文件系统HDFS中；

转换模块203，用于根据接收的业务规则对HDFS中的数据进行转换处理，得到处理结果；

所述转换模块203，具体用于使用并行大规模数据集计算框架MapRedcue根据接收的业务规则对HDFS中的数据进行转换处理

在一实施例中，所述转换模块203，还用于确定收到的业务规则的作业类型；当所述业务规则的作业类型为Hive作业时，将所述业务规则的作业类型转换成MapReduce作业。

第二加载模块204，用于从HDFS中导出所述处理结果并加载到关系型数据库中。

本发明的各实施例包括：采用差异抽取传输的策略，抽取分布在不同位置不同结构的数据源中数据，并将抽取的数据加载到分布式文件系统HDFS中；对于分布式文件系统HDFS中的数据，使用并行大规模数据集计算框架MapRedcue，根据用户制定的相关的业务规则，对这些数据进行实际的处理转换，得到结果；将得到的结果加载到关系型数据库（如MySql）中。

下面结合附图对本发明做进一步的详细阐述。

图3所示为本发明提供的一种数据处理系统的另一实施例的结构示意图，所述系统包括：

抽取模块：该模块主要功能是抽取指定数据源中的数据。该模块除了支持抽取结构化数据（如关系型数据库中的数据）外，还可以抽取半结构化数据和非结构化数据（如各种格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等）。该抽取器采用差异抽取策略来执行数据抽取，对一个文件来说，使用该策略可以只抽取文件中发生变化的部分，这样可以大大减少数据传输，提高系统性能。

第一加载模块，该模块主要功能是将抽取到的数据加载到分布式文件系统HDFS中。

转换模块：该模块包含接收子模块和执行子模块。接收子模块用于接收用户定义的业务规则，对于熟悉SQL的用户来说，可以方便利用HiveQL语言来快速定义自己的业务规则；此外，对于复杂类型的数据和业务逻辑，用户可以编写自己的MapReduce程序来处理业务逻辑。执行子模块是由并行大规模数据集计算框架MapReduce来实现的，用户可依据要求编写自己的业务处理逻辑，然后将其交予执行子模块来执行具体的计算操作，得到最终结果。

第二加载模块：该模块的主要功能是将经过转换的数据加载到数据仓库中。该模块还可以按照用户的要求将数据加载到指定的目的地。

图4为本发明中抽取模块的工作流程图，如图4所示，该流程主要包括以下几个步骤:

步骤401：取得用户输入的数据源地址。对于结构化数据源（如数据库），用户需要输入数据库的用户名和密码；非结构化数据源，用户需要输入数据所在目录或该数据文件本身。

步骤402：判断是否是结构化数据源。根据用户输入的数据源地址，可判断出数据源类型，如果该数据源是结构化数据源则转到步骤403，否则转到步骤407。

步骤403：取得上一次数据抽取截止标志。对于结构化数据来说，数据抽取一般都采用增量抽取策略。增量抽取的关键内容是确定发生变化的数据，采用标记上一次抽取截止位置的方法来确定发生变化的数据，可标记的内容可以为时间戳或自增ID等。

步骤404：判断数据源是否发生变化。判断方法是利用步骤403中的上一次数据抽取截止标志。如果发生变化则跳到步骤405，如果没有发生变化则表示没有数据更新，则直接退出。

步骤405：导出变化数据。通过截止标志确定发生变化数据源，然后直接用数据库相关工具，如mysql dump工具直接将变化数据批量导出。

步骤406：得到本次数据抽取截止标志。利用本次截止标志去更新上一次截止标志，进入步骤408。

步骤407：使用差异抽取策略对非结构化数据源进行抽取。对一个文件来说，该差异抽取策略可以只传输文件当中发生变化的部分。

步骤408：将变化数据传输到HDFS所在从节点。

图5为本发明中将数据载入到分布式文件系统HDFS中的工作流程图，如图5所示，该流程的描述如下：

步骤1、HDFS客户端调用DistributedFileSystem.create（）方法创建文件。

步骤2、创建DFSOutputStream，并通过远程过程调用，由名字节点执行同名方法在文件系统的命名空间中创建一个新的文件。

名字节点创建新文件时需要执行各种检查，如名字节点状态、创建文件是否存在、客户端权限等。检查通过后，名字节点构造新文件，并记录创建操作到编辑日志中。

步骤3、HDFS客户端写入数据。

步骤4、DFSOutputStream实例向名字节点申请数据块，addBlock()成功执行后，返回LocatedBlock对象。

该对象主要包含Block_id、Version_id、LocatedBlock.locs等信息，通过上述信息，DFSOutputstream可以与数据节点联系，建立数据流管道。

步骤5、HDFS客户端通过该管道向数据节点写数据。

步骤6、数据写入数据节点后，数据节点发送确认信息到FSDataOutputStream。

步骤7、数据节点在数据块写完后，通过blockReceived()方法，向名字节点提交数据块。如果数据队列中还有等待输出的数据，DFSOutputStream对象会再次调用addBlock()方法，为文件添加新的Block。

步骤8、HDFS客户端完成所有数据写入后，调用close()函数关闭DataStream，

步骤9、当DFSOutputStream数据队列中的文件包都收到应答后，使用ClientProtocol.complete()方法通知名字节点关闭文件，从而完成一次正常的写文件流程。

图6为本发明中业务规则输入器的工作流程图，如图6所示，该流程主要包括以下步骤：

步骤601：接收用户提交的作业。

本发明需要用户根据自己特定的业务需要，编写相应的业务逻辑程序来处理数据，然后提交程序。

步骤602：判断作业类型。若该作业类型为Hive作业，则跳到步骤603，否则跳到步骤605。

步骤603：启动Hive工具。由于用户输入的是Hive作业，因此需要使用Hive来将作业翻译成MapReduce程序，然后进行处理。

步骤604：运行程序，执行作业。跳到步骤607。

步骤605：根据用户输入，获取MapReduce作业的参数。

由步骤602判断出，该作业时一个MapRedcue作业，执行MapReduce作业时需要一些特定参数，如作业名字、map任务和reduce任务的个数、输入数据的位置、输出数据的位置信息等。

步骤606：使用MapRedcue计算框架执行作业。获取到作业执行的相关参数信息后，并行大规模数据集计算框架MapReduce执行具体的计算操作。跳到步骤7。

步骤607：结束。

下面对本发明中执行子模块的工作原理进行介绍。

作业被提交后，首先作业客户端JobClient会将作业的相关信息，如job.jar(作业jar包)、job.xml（作业配置文件）以及Split的元信息（记录了每个InputSplit的位置信息）等上传到HDFS中。然后，JobClient启动远程过程调用（RPC）方法通知作业管理单元JobTracker。JobTracker接收到JobClient提交的作业请求后，调用任务调度单元TaskScheduler对所提交的作业进行初始化，主要执行以下操作：为每个作业创建作业进程JobInProgress对象，用于跟踪作业的实时运行状态；JobInProgress为每个任务Task创建一个任务进程TaskInProgress以跟踪每个任务的实时运行状态；每个TaskInProgress一般需要管理多个任务执行单元TaskAttempt。

在整个系统中JobTracker负责系统的资源监控和任务调度。其过程为：TaskTracker周期性地通过心跳机制（Heartbeat）向JobTracker报告所载节点的资源利用状况，若有资源空闲，则JobTracker调用TaskScheduler按照既定的算法策略选择合适的任务占有该空闲资源。TaskScheduler是一个独立的、可插拔的功能模块，具有双层架构，即从队列中选择作业和从作业中选择任务，任务的选择主要依据数据的本地行。此外，JobTracker追踪整个作业的运行状况，并为作业的成功运行提过了强大的容错机制：TaskTracker或Task失败时，转移计算任务；当某个任务的执行进度落后于所在作业的其他任务时，启动TaskAttempt机制，最后选择使用最先出现的结果，并杀掉没有还未运行完成的任务。

TaskTracker通过进行JVM启动和资源的隔离来准备Task运行环境。首先，为避免相互间的影响，TaskTracker会为每个任务启动一个独立的Java虚拟机；然后，为实现资源隔离，防止任务间资源的滥用，TaskTracker使用操作系统进程是运行Task，每个Task即是一个进程。

运行环境准备完毕后，TaskTracker开始启动Task。每个Task在运行的过程中会通过远程过程调用（RPC）方法将其最新的运行状态汇报给TaskTracker，后者通过心跳机制（hearbeat）汇报给JobTracker。

待所有任务执行完成以后，整个作业即执行成功。

图7为本发明中数据读取的工作流程图，如图所示，该流程可以分为以下几步：

步骤1：HDFS客户端调用FileSystem.open()方法来打开需要读取的文件。

其实对于HDFS来说，该FileSystem对象就是HDFS文件系统的一个实例。如图所示，DistributedFileSystem即为步骤1中FileSystem的一个具体实现。

步骤2：DistributedFileSystem通过远程过程调用方法getBlockLocations()来调用名字节点,从而得到希望读取的文件的起始块位置。然后DistributedFileSystem类返回一个FSDataInputStream对象给HDFS客户端并读取数据。

FSDataInputStream类中封装了管理数据节点和名字节点I/O的DFSInputStream输入流。

步骤3：HDFS客户端对步骤2中返回的输入流FSDataInputStream调用read()方法。

该方法主要功能是，调用DFSInputStream去连接距离最近的数据节点，因为该DFSInputStream存储着文件起始块的数据节点的地址。

步骤4：为了将数据从数据节点传输到HDFS客户端，需要反复不停地调用read()函数。当read()函数读取到数据块的末端时，DFSInputStream会关闭与该数据节点的连接。然后，再去寻找下一个数据块所在的最近的数据节点。

步骤5：当HDFS客户端完成读取时，对FSDataInputStream调用close()方法来关闭整个读取流程。

上述步骤为将结果从HDFS中导出的具体实现流程，最后还需要用户编写程序，或利用Sqoop工具，将数据加载到关系型数据库如MySql中。

本发明将分布式在不同物理位置、不同格式的数据，采用差异抽取传输策略，将其抽取到分布式文件系统HDFS中；使用处理大规模数据集的并行计算框架MapRedce，按照用户自定义的业务规则，对分布式文件系统HDFS中的数据，进行清洗转换，得到最终结果；最后，将最终结果加载到关系型数据库中，以便用户访问使用。

本发明所设计的分布式数据集成与分析方案，采用了开源的分布式文件系统HDFS作为大数据的存储系统，并使用大数据并行处理框架MapReduce进行数据转换，能够实现对异构大规模数据源的集成与分析，降低企业投入成本，提高数据处理效率。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器和光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

抽取指定数据源中的数据；

将抽取的数据加载到分布式文件系统HDFS中；

从HDFS中导出所述处理结果并加载到关系型数据库中。

2.根据权利要求1所述的方法，其特征在于，所述抽取指定数据源中数据包括：

确定所述指定数据源是否发生变化；

当所述指定数据源发生变化时，抽取所述指定数据源中发生变化的数据。

3.根据权利要求2所述的方法，其特征在于，所述确定所述指定数据源是否发生变化为：

根据标记的数据抽取截止标志判断所述指定数据源是否发生变化；

所述数据抽取截止标志为每次数据抽取后标记的。

4.根据权利要求1所述的方法，其特征在于，所述根据接收的业务规则对HDFS中的数据进行转换处理为：

使用并行大规模数据集计算框架MapRedcue根据接收的业务规则对HDFS中的数据进行转换处理。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

确定收到的业务规则的作业类型；

6.一种数据处理系统，其特征在于，所述系统包括：

抽取模块，用于抽取指定数据源中的数据；

第一加载模块，用于将抽取的数据加载到分布式文件系统HDFS中；

7.根据权利要求6所述的系统，其特征在于，所述抽取模块，具体用于确定所述指定数据源是否发生变化；

8.根据权利要求7所述的系统，其特征在于，所述抽取模块，具体用于根据标记的数据抽取截止标志判断所述指定数据源是否发生变化；

所述数据抽取截止标志为每次数据抽取后标记的。

9.根据权利要求6所述的系统，其特征在于，所述转换模块，具体用于使用并行大规模数据集计算框架MapRedcue根据接收的业务规则对HDFS中的数据进行转换处理。

10.根据权利要求9所述的系统，其特征在于，所述转换模块，还用于确定收到的业务规则的作业类型；