CN104407811B

CN104407811B - 一种基于云计算的合并io装置

Info

Publication number: CN104407811B
Application number: CN201410640777.4A
Authority: CN
Inventors: 别志铭; 张健明; 张勇鹏; 王旭; 王礼; 吴楠
Original assignee: Dingli Corp Ltd
Current assignee: Dingli Corp Ltd
Priority date: 2014-11-12
Filing date: 2014-11-12
Publication date: 2017-09-19
Anticipated expiration: 2034-11-12
Also published as: CN104407811A

Abstract

本发明公开了一种基于云计算的合并IO装置，包括任务分解器，用于在接收到批量任务时，提取出每个任务的输入信息和输出信息；输入合并器，以原子数据块为单位，分别将输入信息中相同的原子数据块合并为一个原子数据块；输出合并器，用于将输出信息及对应任务名分别合并为对应的一个数组，每个任务只保留对应其在不同数组中的序号值；智能数据总线，用于以原子数据块为单位管理输入和输出信息，并以原子数据块为单位向hadoop传递以输入或输出信息为对应读写内容的读写数据。本发明在批量处理多个任务时，提取合并每个任务的输入和输出信息，共享相同的数据，把需要使用的数据，映射入内存，最大限度的使用内存，提升读写效率。

Description

一种基于云计算的合并IO装置

技术领域

本发明涉及数据处理领域，特别是一种基于云计算的合并IO装置。

背景技术

Hadoop是一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高传输率（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large dataset）的应用程序。

大型数据量一般都是T级别或P级别（1T＝1024GB，1P＝1024TB），对于数据密集型的任务，在hadoop执行mapreduce的时候（MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算，其极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上），大部分时间都是用在磁盘和网络读写上面，而系统的CPU和内存都没有被充分的利用起来。假设一个任务读取一个P级的数据需要的时间为T，则批量N个任务同时处理的情况下，可能需要的时间为T*N，处理的速度太慢，效率太低。

发明内容

为解决上述问题，本发明的目的在于提供一种基于云计算的合并IO装置，把Hadoop读写时可能需要使用的数据，通过内存映射的方式，最大限度的使用内存，减少对磁盘和网络的读写，提升读写效率。

本发明解决其问题所采用的技术方案是：

一种基于云计算的合并IO装置，包括：

任务分解器，用于在接收到批量任务时，提取出每个任务的输入信息和输出信息；

输入合并器，以原子数据块为单位，分别将输入信息中相同的原子数据块合并为一个原子数据块；

输出合并器，用于将输出信息及对应任务名分别合并为对应的一个数组，每个任务只保留对应其在不同数组中的序号值；

智能数据总线，用于以原子数据块为单位管理输入和输出信息，并以原子数据块为单位向hadoop传递以输入或输出信息为对应读写内容的读写数据。

进一步，所述每个任务的输入信息包括输入数据的地址及输入数据的时间范围，以输入信息作为value值，任务分解器以对应任务的任务名作为key值，将每个任务的key值与value值存入至任务分解器的输入缓存对象中。

进一步，所述每个任务的输出信息包括输出数据地址，任务分解器以输出信息作为value值，以对应任务的任务名作为key值，将每个任务的key值与value值存入至任务分解器的输出缓存对象中。

进一步，所述输入合并器以输入缓存对象中存储的数据作为合并对象，根据每个任务的输入数据的地址及输入数据的时间范围判断是否有相同的原子数据块，如果有，则将其合并为一个原子数据块。

进一步，所述输出合并器以输出缓存对象中的数据作为合并对象，首先对不同任务的key值与value值进行分析合并，之后，分别将key值与value值并成对应一个大的key值数组和value值数组，每个任务只保留对应其在key值数组和value值数组中的序号值。

进一步，所述智能数据总线为与hadoop通信的唯一接口，且

当hadoop读取数据时，其每次读取的数据大小均为智能数据总线处理后的输入数据，此输入数据的大小为原子数据块的整数倍，不足以零补充；

当hadoop写入数据时，其首先将数据传输至智能数据总线，智能数据总线将写入数据拼装成原子数据块的整数倍大小的输出数据后，再统一写入磁盘。

进一步，所述合并IO装置还包括数据缓存器，当系统内存不能承受过多的原子数据块时，智能数据总线将多余的原子数据块下放给数据缓存器，数据缓存器用于根据原子数据块的下放时间信息构成时间索引树。

进一步，所述时间索引树的树枝分为三级，其中，第1级树枝存放天，第2级树枝存放小时，第3级树枝存放分钟，叶子节点存放原子数据块，且时间索引树的树枝节点全部存放内存中，叶子节点上的原子数据块经过压缩后，存放至磁盘。

进一步，所述原子数据块具有权重，权重的大小与该原子数据块被不同任务重复使用的次数成正比，当智能数据总线将多余的原子数据块下放给数据缓存器时，首先下放权利最小的原子数据块。

进一步，所述原子数据块的大小为1024KB。

本发明的有益效果是：

本发明采用一种基于云计算的合并IO装置，在批量处理多个任务的时候，提取每个任务的输入和输出信息，改变目前hadoop只是通过磁盘来读写数据和缓存数据的方式，共享相同的数据，把可能需要被使用的数据，通过内存映射的方式，最大限度的使用内存，尽量把数据存放到内存，减少对磁盘和网络读写，提升读写效率。

附图说明

下面结合附图和实例对本发明作进一步说明。

图1是本发明的原理示意图。

具体实施方式

实施例1：

参照图1所示，本发明提供了一种基于云计算的合并IO装置，包括：

其中，所述每个任务的输入信息包括输入数据的地址及输入数据的时间范围，任务分解器以输入信息作为value值，以对应任务的任务名作为key值，将每个任务的key值与value值存入至任务分解器的输入缓存对象中。

输入缓存对象存储于内存之中，当任务分解器提取输入信息后，将输入缓存对象传递至输入合并器，输入合并器根据每个任务的输入数据的地址和输入数据的时间范围进行分析，判断在本地磁盘中是否有相同的原子数据块，其中，每个原子数据块的大小被规定为1024k，且每个原子数据块均有一个权重，此权重的大小与该原子数据块被不同任务重复使用的次数成正比，如果有相同的原子数据块，则将输入缓存对象中的key值与value值进行对应合并，减小输入缓存对象的空间，释放对应内存空间，提升内存利用效率。

其中，所述每个任务的输出信息包括输出数据地址，任务分解器以输出信息作为value值，以对应任务的任务名作为key值，将每个任务的key值与value值存入至任务分解器的输出缓存对象中。

输出缓存对象存储于内存中，当任务分解器提取输出信息后，把输出缓存对象传递给输出合并器。输出合并器就输出的key和value值进行分析，把多个输出key和value值分别对应合并成一个大的key值数组和value值数组，每个任务只是保留key值数组和value值数组里面的对应的数组序号值。

本发明设置了与hadoop通信的唯一接口——智能数据总线。当hadoop读取数据时，hadoop就会从智能数据总线读取数据，每次读取的数据大小都是原子数据块的整数倍，不够用零来补充；当hadoop写数据时，hadoop就会从把数据写入智能数据总线，从hadoop提交的数据，不会被立即写入到磁盘，而是首先被智能数据总线拼装成原子数据块的整数倍后，统一写入磁盘。智能数据总线统一管理原子数据块。如果当前系统内存比较大，则保存到系统内存中的原子数据块就多；如果当前系统内存比较小，则保存到系统内存中的原子数据块就少。其中，智能数据总线将原子数据块添加入内存时，按照原子数据块的权重，由大到小进行添加，智能数据总线将原子数据块从内存中删除时，按照原子数据块的权重，由小到大进行删除。

智能数据总线是输入和输出数据的管理者，且以原子数据块为单位管理数据。当hadoop读取数据时，其每次读取的数据大小均为智能数据总线处理后的输入数据，此输入数据的大小为原子数据块的整数倍，不足以零补充；当hadoop写入数据时，其首先将数据传输至智能数据总线，智能数据总线将写入数据拼装成原子数据块的整数倍大小的输出数据后，再统一写入磁盘。由此，每次读写的数据均为原子数据块的整数倍，提升了读写效率。

由于智能数据总线要实时向内存中添加原子数据块或从内存中删除原子数据块，为了提高操作速度，本发明设置了数据缓存器，主要是通过时间索引树来管理磁盘上缓存数据，此缓存数据主要是智能数据总线管理的动态原子数据块。当系统内存不能承受过多的数据时，智能数据总线就把多余的原子数据块交给数据缓存器，数据缓存器会根据原子数据块的时间信息，构成时间索引树。本发明将时间索引树树枝分3级，第1级树枝存放天，第2级树枝存放小时，第3级树枝存放分钟，叶子节点存放原子数据块。其中时间索引树的树枝节点全部存放内存中，叶子节点上的原子数据块经过压缩后，存放到磁盘。

设置数据缓存器，可进一步提高智能数据总线的处理效率，提升整体运行速度。

实施例2：

本实施便例以具体的实例作为说明，对本发明作进一步的解释。

现在同时提交任务1与任务2，任务1与任务2具体如下：

任务1：从hdfs的bssap目录中，汇总2014年6月10日 9点到12点打电话的用户次数，结果输出到callcounter文件中。

任务2：从hdfs的bssap目录中，汇总2014年6月10日 10点到13点打电话和发短信的用户次数，结果输出到callsmcounter文件中。

具体流程参照图1所示：

（1）任务分解器从任务1与2里面提取出输入和输出信息。任务1的输入地址为hdfs中的bssap目录，时间是2014年6月10日 9点到12点；任务2的输入地址为hdfs中的bssap目录，时间是2014年6月10日 10点到13点。任务1的输出地址是callcounter文件中，其中key值是电话号码，value是打电话的个数；任务2的输出地址是callsmcounter文件中，其中key值是电话号码，value是打电话的个数、发短信个数。

（2）输入合并器把输入的数据分成3个块：第1块：bssap目录下面的2014年6月10日10点到12点；第2块：bssap目录下面的2014年6月10日 9点到10点；第3块：bssap目录下面的2014年6月10日 12点到13点。

（3）输出合并器把2个任务key和value合并成一个大的key和value数组。它的key值是电话号码，value值是打电话的个数、发短信个数。其中任务1的key值索引为0，value值索引为0，输出地址callcounter文件；任务2的key值索引为0，value值索引为0，1，输出地址为callsmcounter。

（4）智能数据总线分析输入合并器，因为第1块被2个应用同时使用，权重最高，再把第1块的数据分割成多个原子数据块，预先加载到内存中。其他权重低的数据，继续存放到磁盘上。

（5）hadoop的处理流程。在mapper阶段从智能总线读取数据时，当hadoop从智能数据总线读取到2014年6月10日 10点到12点的数据时，直接从内存中读取。因为数据是从内存中直接读取，因此数据的速度比从磁盘读取快很多倍。因为输入的数据都是bssap目录下，hadoop只是需要对记录读取一次就可以了，不需要重复读取2次，然后把读取的数据同时发送给任务1和任务2。在mapper计算结束时，任务1生成对象的key值是电话号码，value值是打电话的个数，把这个对象发送给智能数据总线。任务2把生成对象的key值是电话号码，value值是打电话的个数，发短信的个数，把这个对象发送给智能数据总线。智能总线接收到2条记录后，合并成一个对象，其中它的key值是电话号码，value值是打电话的个数，发短信个数。其中电话号码的key值和打电话次数value可以使用一个，不需要重复发送2条相同的值，大大减少了磁盘的和网络IO的数据量。当reducer阶段时，根据索引值和输出的地址，任务1从key值中提取出电话号码，从value中提取出打电话的次数，写入callcounter文件中；任务2从key值中提取出电话号码，从value中提取出打电话的次数和发短信次数，写入callsmcounter文件中。

以上所述，只是本发明的较佳实施例而已，本发明并不局限于上述实施方式，只要其以相同的手段达到本发明的技术效果，都应属于本发明的保护范围。

Claims

1.一种基于云计算的合并IO装置，其特征在于，包括：

智能数据总线，用于以原子数据块为单位管理输入和输出信息，并以原子数据块为单位向hadoop传递以输入或输出信息为对应读写内容的读写数据，智能数据总线为与hadoop通信的唯一接口，且当hadoop读取数据时，其每次读取的数据大小均为智能数据总线处理后的输入数据，此输入数据的大小为原子数据块的整数倍，不足以零补充，当hadoop写入数据时，其首先将数据传输至智能数据总线，智能数据总线将写入数据拼装成原子数据块的整数倍大小的输出数据后，再统一写入磁盘。

2.根据权利要求1所述的合并IO装置，其特征在于，所述每个任务的输入信息包括输入数据的地址及输入数据的时间范围，任务分解器以输入信息作为value值，以对应任务的任务名作为key值，将每个任务的key值与value值存入至任务分解器的输入缓存对象中。

3.根据权利要求1所述的合并IO装置，其特征在于，所述每个任务的输出信息包括输出数据地址，任务分解器以输出信息作为value值，以对应任务的任务名作为key值，将每个任务的key值与value值存入至任务分解器的输出缓存对象中。

4.根据权利要求2所述的合并IO装置，其特征在于，所述输入合并器以输入缓存对象中存储的数据作为合并对象，根据每个任务的输入数据的地址及输入数据的时间范围判断是否有相同的原子数据块，如果有，则将其合并为一个原子数据块。

5.根据权利要求3所述的合并IO装置，其特征在于，所述输出合并器以输出缓存对象中的数据作为合并对象，首先对不同任务的key值与value值进行分析合并，之后，分别将key值与value值并成对应一个大的key值数组和value值数组，每个任务只保留对应其在key值数组和value值数组中的序号值。

6.根据权利要求1所述的合并IO装置，其特征在于，所述合并IO装置还包括数据缓存器，当系统内存不能承受过多的原子数据块时，智能数据总线将多余的原子数据块下放给数据缓存器，数据缓存器用于根据原子数据块的下放时间信息构成时间索引树。

7.根据权利要求6所述的合并IO装置，其特征在于，所述时间索引树的树枝分为三级，其中，第1级树枝存放天，第2级树枝存放小时，第3级树枝存放分钟，叶子节点存放原子数据块，且时间索引树的树枝节点全部存放内存中，叶子节点上的原子数据块经过压缩后，存放至磁盘。

8.根据权利要求6所述的合并IO装置，其特征在于，所述原子数据块具有权重，权重的大小与该原子数据块被不同任务重复使用的次数成正比，当智能数据总线将多余的原子数据块下放给数据缓存器时，首先下放权利最小的原子数据块。

9.根据权利要求1－8任一所述的合并IO装置，其特征在于，所述原子数据块的大小为1024KB。