CN105608212A

CN105608212A - 一种确保MapReduce的数据输入分片包含完整记录的方法与系统

Info

Publication number: CN105608212A
Application number: CN201511011527.5A
Authority: CN
Inventors: 武志学; 赵阳; 田盛
Original assignee: Chengdu Chuandge Technology Co Ltd
Current assignee: Chengdu GoldTel Industry Group Co., Ltd.
Priority date: 2015-12-30
Filing date: 2015-12-30
Publication date: 2016-05-25
Anticipated expiration: 2035-12-30
Also published as: CN105608212B

Abstract

本发明公开了一种确保MapReduce的数据输入分片包含完整记录的方法与系统，其方法包括以下步骤：S1.在HDFS系统中创建存储文件；S2.向HDFS系统的客户端进行数据输入，并对输入的每条数据进行描述；S3.HDFS系统的客户端依次接收数据中的每条数据记录，并进行数据包构建，将在进行第n个数据包构建时，每进行一条数据记录的接收，均判断当前接收的数据记录能否完整保存于当前数据包中；S4.HDFS系统的服务器端将接收到的数据包构建成数据块，并将数据块写入存储文件中。提供一种确保MapReduce的数据输入分片包含完整记录的方法与系统，避免了在进行数据处理的时候，需要跨数据片读取数据的情况，保证了数据处理本地化，从而大大提高了系统处理的效率。

Description

一种确保MapReduce的数据输入分片包含完整记录的方法与系统

技术领域

本发明涉及一种确保MapReduce的数据输入分片包含完整记录的方法与系统。

背景技术

MapReduce是一个最先由Google提出的分布式计算软件构架，用来解决大数据量的分布式计算问题；这个架构是一个典型的数据分片处理的架构。

这个架构最初起源于函数式程式的map和reduce两个函数组成；Map主节点读入输入数据，把它分成可以用相同方法解决的小数据片（inputsplit），然后把这些小数据片分发到不同的数据节点上(DataNodes)上，每一个数据节点循环对每个小数据片进行同样的处理；Reduce主节点得到所有Map数据节点的处理结果，然后把所有结果组合并且返回到输出。

这里的每一个Map的操作都是相对独立的，所有的Map都是可以并行运行的，实践中会受到数据源和cpu个数的影响；同样的，这里用一个reducer集合来执行reduce操作，所有带有相同key的map输出会聚集到同一个reducer。

为了保证处理的效率，MapReduce架构有两个主要思想：

（1）数据划分：

系统自动将一个作业待处理的大数据划分为很多个数据片（inputsplit），每个数据片对应于一个map任务。

（2）数据处理本地化：

系统自动调度数据节点来处理相应的数据片；为了减少数据通信，任务调度一个基本原则就是本地化数据处理，即一个数据节点尽可能处理其本地磁盘上所分布存储的数据，这实现了代码向数据的迁移；也就是说，当系统在决策一个数据片应该由哪个数据节点来处理的时候，尽可能选择数据片所在的节点来处理该数据片；这样避免了需要把数据片向数据节点的迁移。

MapReduce处理的数据一般来讲都是存放在Hadoop的HDFS文件系统上；在HDFS中，大文件的存储会被分割为多个数据块（block）进行存储，默认为64MB；每一个block会在多个数据节点上存储多份副本，默认为3份。

Map任务的数量是由输入文件总大小和分片大小确定，根据数据处理本地化的原则，Map任务的分片（inputsplit）大小最好和HDFS数据块（datablock）大小一致。这是基于以下两点：

（1）map任务的个数=输入文件总大小/分片尺寸；也就是说分片尺寸越大，Map任务的个数就越少从而系统执行的开销越小，系统管理分片的开销越小。

（2）网络传输开销，如果分片太大以至于一个分片要跨越多个HDFS块，则一个map任务必须要由多个块通过网络传输，所以分片大小最好不要超过是HDFS块的大小。

根据以上分析，Hadoop的MapReduce架构的分片大小的缺省值为HDFS的数据块的大小，但是用户可以设置参数使一个map任务的分片为几个数据块的大小。

根据这种设置，似乎MapReduce架构已经可以保证数据处理的本地化，但是实际并非如此；这是因为，HDFS数据块的划分完全是按照文件的物理大小进行的，没有考虑文件的内容。而Map任务处理数据的时候是按照文件的内容来进行处理的；Map任务是对每个记录分别进行处理，每个记录是一个<key，value>对；但是，因为HDFS进行数据块切分的时候，完全可能把一个数据记录分割到两个数据块中，甚至不同的DataNode上去。

为了保证数据处理的正确性，MapReduce架构采取的策略是当一个数据跨数据片的时候，那么就从下一个数据片上读取该记录的剩余数据，直到把这一个完整的记录读取完成，但是，却会大大降低系统的处理效率，增加数据传输量。

发明内容

本发明的目的在于克服现有技术的不足，提供一种确保MapReduce的数据输入分片包含完整记录的方法与系统，避免了在进行数据处理的时候，需要跨数据片读取数据的情况，保证了数据处理本地化，从而大大提高了系统处理的效率。

本发明的目的是通过以下技术方案来实现的：一种确保MapReduce的数据输入分片包含完整记录的方法，包括以下步骤：

S1.在HDFS系统中创建存储文件；

S2.向HDFS系统的客户端进行数据输入，并对输入的每条数据进行描述；对数据的描述包括当前数据的长度、当前数据中包含的数据记录条数和每条数据记录的长度；

S3.HDFS系统的客户端依次接收数据中的每条数据记录，将接收到的数据记录构建成大小为m的数据包并传输给HDFS系统的服务器端，对已经发送给服务器端的数据包个数进行计数；在数据包计数达到n-1，也就是在进行第n个数据包构建时，每进行一条数据记录的接收，均判断当前接收的数据记录能否完整保存于当前数据包中：

（1）如果当前接收的数据记录能完整保存于当前数据包中，将当前接收到的数据记录保存到数据包中；

（2）如果当前接收的数据记录不能完整保存于当前数据包中，将当前的数据包直接传输给HDFS系统的服务器端，并将客户端中的数据包计数清0，将当前接收到的数据保存在下一个数据包中。

S4.HDFS系统的服务器端将接收到的数据包构建成数据块，并将数据块写入存储文件中；

HDFS的一个文件由多个数据块（block，默认大小为64M）构成；HDFS在进行数据块（block）读写的时候是以数据包（packet，默认大小为64K，即上文中所述的m为64kb）为单位进行的；一个数据块（block）包括1024个数据包（packet），保证数据块中每条数据记录的完整，只需要保证数据快中的最后一个数据包完整即可，故上文中所述的n为1024。

而步骤S3中在进行第n个数据包构建时，对于当前接收的数据记录能完整保存于当前数据包中的判断，其实是计算将当前接收到的数据存储到数据包中之后，会不会超出数据包的存储上限64kb，如果会超出上限，则说明当前接收到的数据中有一部分不能此处在当前数据包中，不能完整保存，如果不超过上限，则能够完整保存。

所述的步骤S3包括以下子步骤：

S31.定义客户端已经向服务器端发送的数据包个数为t；

S32.将t初始化为0；

S33.判断t的值是否小于n-1；

（1）如果t小于n-1，依次接收输入的每条数据记录，将输入的数据记录构建成大小为m的数据包，并将数据包发送给服务器端；同时更新t的值，更新后的t等于当前的t加1，跳转至步骤S33；

（2）如果t不小于n-1，并跳转至步骤S34；

S34.依次接收输入的每条数据记录，判断当前输入的数据记录是否能够完整保存于当前数据包中：

（1）当前输入的数据记录是否能够完整保存于当前数据包中，跳转至步骤S34进行下一条数据记录的接收；

（2）当前输入的数据记录是否能够完整保存于当前数据包中；将当前数据包发送给服务器端，并跳转至步骤S32。

所述的步骤S4包括以下子步骤：

S41.服务器端对接收到的数据包进行计数，并将接收到的数据包构建成数据块；

S42.在计数达到n时，将数据块写入存储文件中。

步骤S2中如果是将缓存中的数据依次输入HDFS系统的客户端，对数据的描述包括存放数据的缓存、数据在缓存中的起始位置、当前数据的长度、当前数据中包含的数据记录条数和每条数据记录的长度。

一种确保MapReduce的数据输入分片包含完整记录的系统，包括:存储文件创建模块、数据输入模块、HDFS系统的客户端和HDFS系统的服务器端；

所述的存储文件创建模块用于创建存储文件；

所述的数据输入模块包括数据描述单元和数据输入单元；数据描述单元用于对需要输入的数据进行描述；数据输入单元用于依次将数据中的每一条记录输入到数据包构建模块中；

HDFS系统的客户端包括数据包形成单元、数据包发送单元和数据包统计单元；所述的数据包形成单元用于将接收到的数据形成数据包，所述的数据包发送单元用于将形成的数据包发送给数据块构建模块；所述的数据包统计单元用于统计已经向数据块构建单元发送的数据包数目；

HDFS系统的服务器端用于将来自于客户端的数据形成数据块，并将形成的数据块保存到存储文件中。

所述的HDFS系统的客户端具体表现为HDFS系统自带的客户端程序；HDFS的服务器端具体表现为HDFS的服务器端的程序，运行在HDFS系统的各个数据节点上，每个数据节点负责一个数据块的构建和写入。

本发明的有益效果是：（1）提供一种确保数据输入分片包含完整记录的方法，避免了在进行数据处理的时候，需要跨数据片读取数据的情况，保证了数据处理本地化，从而大大提高了系统处理的效率。

（2）实现简单，只需要在每个数据片上进行最后一个数据包存储时，判断每一个数据记录是否能够完整保存于数据包中，方便快捷。

附图说明

图1为本发明的方法流程图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

如图1所示，一种确保MapReduce的数据输入分片包含完整记录的方法，包括以下步骤：

S1.在HDFS系统中创建存储文件；

所述的步骤S3包括以下子步骤：

S31.定义客户端已经向服务器端发送的数据包个数为t；

S32.将t初始化为0；

S33.判断t的值是否小于n-1；

（1）如果t小于n-1，依次接收输入的每条数据记录，将输入的数据记录构建成m的数据包，并将数据包发送给服务器端；同时更新t的值，更新后的t等于当前的t加1，跳转至步骤S33；

（2）如果t不小于n-1，并跳转至步骤S34；t不小于n-1，即t等于n-1；

所述的步骤S4包括以下子步骤：

S42.在计数达到n时，将数据块写入存储文件中。

所述的存储文件创建模块用于创建存储文件；

实施例一，根据本发明的方案来进行对HDFS系统的数据块（block）进行存储、划分，完全能够避免了在进行数据处理的时候，需要跨数据片读取数据的情况，保证了数据处理本地化，从而大大提高了系统处理的效率。

以前的HDFS文件设计，主要包括以下步骤：

S001.客户端调用DFSClient的DistributedFileSystem的create()来创建文件；

S002.DFSClient的DistributedFileSystem用RPC调用元数据节点（NameNode）的create（）方法，来创建新的文件，在此步骤中，元数据节点首先判断是否满足“文件原来不存在，并且客户端有创建文件的权限”的条件；若满足，则创建新的文件，若不满足则不进行文件创建；

S203.文件创建好后，DistributedFileSystem返回FSOutputStream给客户端；

S203.使用DFSClient的FSOutputStream的write（）方法写入数据；在数据写入过程包括以下子步骤：

A、FSOutputStream将数据分成块；

B、首先将package1写入DataNode1；然后由DataNode1负责将package1写入DataNode2；客户端可以将package2写入DataNode1；

C、然后DataNode2负责将package1写入DataNode3；同时客户端可以将package3写入DataNode1，DataNode1将package2写入DataNode2；就这样将一个个package排着队的传递下去，直到所有的数据全部写入并复制完毕。

D、当客户端结束写入数据，则调用stream的close函数。此操作将所有的数据块写入pipeline中的数据节点，并等待ackqueue返回成功。最后通知元数据节点写入完毕。

这种方式，block的划分完全是按照文件的物理大小来进行的，而不考虑文件的内容逻辑，一个block的大小是64M，由1024个packet组成，每个packet的大小是64K；客户端向数据节点传输数据的单位是packet，数据节点会首先将接收到的packet存放在内存，直到接收到1024个packet的时候，形成一个完整的block，然后写入到磁盘对应的数据片中。

从前面的叙述中可以看出，本申请的改进，实质上是在于FSOutputStream的write（）方法的改进，以及在进行数据包划分时的改进，

具体来说：就是在将数据写入客户端时，增加了对数据中两个量的描述，之前的数据写入，只包括对存放数据的缓存、数据在缓存中的起始位置、当前数据的长度进行描述；

也就是说，数据输入模块本质是一个软件程序，数据的描述也在程序中进行，本发明的改进点之一是在程序中添加了的数据记录条数和每条数据记录的长度描述的接口。

而本发明中，增加了当前数据中包含的数据记录条数和每条数据记录的长度，为数据包构建时第1024个数据包上的数据记录是否完整的判断提供依据；

另一个改进就是对客户端上已发送的数据包计数，在进行第1024个数据包进行构建时，要判断每一条数据记录是否能够完整写入数据包，从而保证第1024个数据包上数据记录的完整，也就保证了每个数据块上的数据记录完整（第1024个数据包即数据块上的最后一个数据包）。

更形象地来看，记录写入到数据节点（服务器端）的packet个数；因为每个blcok包含1024个packet；所以，当组成第1024个packet的时候，DFSClient通过计算来判断每个记录是否可以完全写入到当前packet中，从而保证该packet的最后一个记录是完整的，这样，我们就可以保证没有记录会跨block存放。

Claims

1.一种确保MapReduce的数据输入分片包含完整记录的方法，其特征在于：包括以下步骤：

S1.在HDFS系统中创建存储文件；

S3.HDFS系统的客户端依次接收数据中的每条数据记录，将接收到的数据记录构建成大小为m的数据包并传输给HDFS系统的服务器端，对已经发送给服务器端的数据包个数进行计数；在进行第n个数据包构建时，每进行一条数据记录的接收，均判断当前接收的数据记录能否完整保存于当前数据包中：

（2）如果当前接收的数据记录不能完整保存于当前数据包中，将当前的数据包直接传输给HDFS系统的服务器端，并将客户端中的数据包计数清0，将当前接收到的数据保存在下一个数据包中;

S4.HDFS系统的服务器端将接收到的数据包构建成数据块，并将数据块写入存储文件中。

2.根据权利要求1所述的一种确保MapReduce的数据输入分片包含完整记录的方法，其特征在于：所述的步骤S3包括以下子步骤：

S31.定义客户端已经向服务器端发送的数据包个数为t；

S32.将t初始化为0；

S33.判断t的值是否小于n-1；

（2）如果t不小于n-1，并跳转至步骤S34；

3.根据权利要求1所述的一种确保MapReduce的数据输入分片包含完整记录的方法，其特征在于：所述的步骤S4包括以下子步骤：

S42.在计数达到n时，将数据块写入存储文件中。

4.根据权利要求1所述的一种确保MapReduce的数据输入分片包含完整记录的方法，其特征在于：步骤S2中如果是将缓存中的数据依次输入HDFS系统的客户端，对数据的描述包括存放数据的缓存、数据在缓存中的起始位置、当前数据的长度、当前数据中包含的数据记录条数和每条数据记录的长度。

5.一种确保MapReduce的数据输入分片包含完整记录的系统，其特征在于：包括:存储文件创建模块、数据输入模块、HDFS系统的客户端和HDFS系统的服务器端；

所述的存储文件创建模块用于创建存储文件；