CN107102824A

CN107102824A - 一种基于存储和加速优化的Hadoop异构方法和系统

Info

Publication number: CN107102824A
Application number: CN201710382513.7A
Authority: CN
Inventors: 李瑞轩; 黄逸伟; 辜希武; 李玉华; 吴文哲; 薛正元; 杨琪; 王号召
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2017-05-26
Filing date: 2017-05-26
Publication date: 2017-08-29
Anticipated expiration: 2037-05-26
Also published as: CN107102824B

Abstract

本发明公开了一种基于存储和加速优化的Hadoop异构方法和系统，属于分布式计算领域。本发明技术方案针对数据处理需求将存储介质分为三类：固态存储介质、普通存储介质和高密度存储介质，为不同类型的数据找到最适合的存储方式；同时将需要提升计算性能的加速应用定向到有特定算法的FPGA加速器或GPU加速器上完成计算，以提升应用的处理性能，并且FPGA和GPU加速器的算法功能以及布局可以进行静态切换。本发明还实现了一种基于存储和加速优化的Hadoop异构系统。本发明技术方案提高了整个集群的读写性能、应用任务的执行性能和加速器件的资源利用率。

Description

一种基于存储和加速优化的Hadoop异构方法和系统

技术领域

本发明属于分布式计算领域，更具体地，涉及一种基于存储和加速优化的Hadoop异构系统。

背景技术

数据挖掘和机器学习在业内越来越受到关注，而针对大数据处理应用的MapReduce(一种分布式编程模型)框架由于自身Map(映射)和Reduce (归约)计算阶段的特性，是个极易并行化的编程模型。由于MapReduce 框架提供给开发者的Map和Reduce接口的简化方式，诸如并行性、扩展性和移植性等诸多问题都得以解决，其开源实现是Hadoop(一种分布式系统基础架构)，Hadoop由于自身单点故障问题，将功能解耦升级成YARN(另一种资源协调器)。

随着CPU工艺尺寸的限制在核心数扩展方面出现的问题，与之形成对照的是数据量的不断扩张和对计算性能要求的不断提高，定制化的加速器芯片尽管时钟频率不高，编程和架构优化具有一定难度，但由于其高度并行的性能优势、能耗低、能效高以及不变更硬件平台的前提下可重构的优势能够支撑这类大数据应用的运行，在普通机器的CPU不进行物理升级，集群不进行拓扑状态更改的时候作为一种协处理器的存在方式提升集群的计算性能，所以逐渐在数据中心规模集群中流行起来。随之而来，MapReduce 框架也逐渐在该研究领域流行起来。随着数据量的暴涨以及K均值聚类算法在诸多应用领域的流行，近些年在该趋势下越来越多的研究都基于K均值聚类算法开展。而GPU架构设计是一种协处理器架构并且编程API针对图形图像应用，虽然没有FPGA的编程灵活性，但是相较于CPU，在内存带宽和计算能力方面还是高出一个数据量级，并且以超过摩尔定律的性能增长方式提升自身性能，受到基于CPU的MapReduce框架应用的影响，基于 GPU的MapReduce框架的开发以及YARN平台下对GPU资源的管理都得到启发。

目前包括微软和英特尔在内的多家公司都在做大规模数据中心集成 FPGA加速器的实践，但是大规模部署加速器会带来诸多不利影响。首先， FPGA的重构编程以及优化的代价会在大规模部署的时候被放大，由于FPGA 功能的定制都需要人为通过硬件语言进行描述最后编译上板，给开发人员带来很多额外的负担；其次，由于FPGA本身昂贵的成本导致在权衡对大数据分析应用的加速和FPGA集群成本的时候需要做抉择，需要在尽量减少加速器的使用量尽可能地提升应用的计算性能；然后，由于现有基于 MapReduce编程模型的设计方案中ReduceFPGA(规约加速器)的资源利用率极低，大规模部署FPGA可能会造成ReduceFPGA本身资源的极大浪费。除了以上提到的三点，甚至还可能有其他不利的因素存在。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于存储和加速优化的Hadoop异构方法和系统，其目的在于针对数据处理需求将存储介质分为三类：固态存储介质、普通存储介质和高密度存储介质，为不同类型的数据找到最适合的存储方式；同时将需要提升计算性能的加速应用定向到有特定算法的FPGA加速器或GPU加速器上完成计算，以提升应用的处理性能，并且FPGA和GPU加速器的算法功能以及布局可以进行静态切换，由此提高了整个集群的读写性能、应用任务的执行性能和加速器件的资源利用率。

为实现上述目的，按照本发明的一个方面，提供了一种基于存储和加速优化的Hadoop异构方法，该方法包括：

(1)将系统中冷数据和普通应用的处理数据储存在普通存储介质中，将系统中热数据和需加速应用的处理数据储存在固态存储介质中，将系统中不断扩增的数据储存在高密度存储介质中；

其中，系统集群的所有计算节点中都配置有普通存储介质，系统集群中任意选取部分计算节点配置固态存储介质、高密度存储介质或固态存储介质和高密度存储介质；

(2)在系统集群中任意选取部分计算节点配置FPGA加速器、GPU加速器或FPGA加速器和GPU加速器，根据加速任务的功能需求为加速任务匹配合适的加速器进行加速计算。

进一步地，所述步骤(1)还包括：

若固态存储介质或高密度存储介质容量不满足分配需求时，则将待分配数据存储到普通存储介质中。

进一步地，所述步骤(2)包括：

(21)获取集群各计算节点中加速器的功能和数量并上报；

(22)获取集群各计算节点中加速器的负载情况并上报；

(23)集合集群中所有加速器的功能、数量和负载情况，结合加速器的分布情况构建加速器资源的网络拓扑；

(24)根据加速任务的功能需求和本地性需求查询加速器资源的网络拓扑，匹配合适加速器进行计算；同时将加速任务的数据块副本转存到加速器所在计算节点的固态存储介质中，没有固态存储介质则转存到普通存储介质中。

进一步地，所述步骤(2)还包括：

加速器支持布局、算法或功能的静态切换。

按照本发明的另一方面，提供了一种基于存储和加速优化的Hadoop异构系统，该系统包括：

存储异构模块，用于将系统中冷数据和普通应用的处理数据储存在普通存储介质中，将系统中热数据和需加速应用的处理数据储存在固态存储介质中，将系统中不断扩增的数据储存在高密度存储介质中；

加速异构模块，用于在系统集群中任意选取部分计算节点配置FPGA 加速器、GPU加速器或FPGA加速器和GPU加速器，根据加速任务的功能需求为加速任务匹配合适的加速器进行加速计算。

进一步地，所述存储异构模块还包括：

存储退化单元，用于判断若固态存储介质或高密度存储介质容量不满足分配需求时，则将待分配数据存储到普通存储介质中。

进一步地，所述加速异构模块包括：

节点加速资源获取单元，用于获取集群各计算节点中加速器的功能和数量并上报；

节点加速负载获取单元，用于获取集群各计算节点中加速器的负载情况并上报；

加速器网络拓扑构建单元，用于集合集群中所有加速器的功能、数量和负载情况，结合加速器的节点分布情况构建加速器资源的网络拓扑；

加速器分配单元，用于根据加速任务的功能需求和本地性需求查询加速器资源的网络拓扑，匹配合适加速器进行计算；同时将加速任务的数据块副本转存到加速器所在计算节点的固态存储介质中，没有固态存储介质则转存到普通存储介质中。

进一步地，所述加速异构模块还包括：

加速器切换单元，用于静态切换集群中加速器布局、算法或功能。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下技术特征及有益效果：

(1)在大数据下，集群针对不同类型数据的提供不同类型存储介质进行差异化存储,提高了数据读写性能，进而提升了应用执行性能；

(2)在大数据下，集群针对不同类型的加速任务提供不同功能的加速器，进而提升了应用执行速度；

(3)本地加速器管理模块插件化，提出的异构加速器向后兼容，可扩展集成更多的加速器件，降低了分布式系统集成加速器的难度。

附图说明

图1是本发明系统的系统构架图；

图2是本发明技术方案中存储异构定义图；

图3是本发明异构存储执行流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

首先，介绍本发明系统具体应用场景。实际场景中本系统可能由几十台甚至上千台计算机节点构成集群，计算节点可以同属一个机架或者同属不同机架，甚至在不同的数据中心。按照Hadoop2.0部署和配置好后，在每台计算节点安装高速串行计算机扩展总线标准设备驱动，包括FPGA、GPU 和SSD，需要注意的是这样安装不代表将来每台节点都会配置相应的硬件设施，而是一项基础准备工作。选择任意数量节点进行硬件设备安装，硬件设备暂时采取的是全定制化功能的方式为上层软件提供服务，每台服务器通过以太网互联。用户提交与FPGA加速器、GPU加速器功能对应的算法应用的作业时，需要向集群提交对应的执行数据，若指定数据的存储位置则分布式文件系统会将数据存储到具体计算节点的对应存储介质上。

该集群是向前向后兼容的，向前兼容即由MapReduce框架编写的普通程序依旧可以按照原来的执行方式继续与加速应用同时在集群中执行，向后兼容即在不变更Hadoop2.0软件的前提下，根据实际应用算法需要和硬件程序定制方式重新烧制FPGA和GPU加速器并便可以达到更新集群内的硬件配置布局的效果。另外，本发明系统还支持用户上传持续扩增的数据以及对冷热数据的区别处理。

如图1所示，本发明系统包括存储异构模块和加速异构模块：

存储异构模块，用于在系统集群的所有计算节点中都配置普通存储介质，固态存储介质和高密度存储介质配置在集群中部分计算节点中；将系统中冷数据和普通应用的处理数据储存在普通存储介质中，将系统中热数据和需加速应用的处理数据储存在固态存储介质中，将系统中不断扩增的数据储存在高密度存储介质中；

加速异构模块，用于在系统集群中部分计算节点上配置包含特定算法功能的加速器，针对不同算法应用利用包含相应算法功能的加速器完成加速任务。

存储异构主要用来实现三个功能：

(1)将持续扩增的数据存储在配置了高密度存储介质的计算节点上；

(2)将面向加速应用的数据存储在配置了高性能存储介质SSD的计算节点上；

(3)对于冷数据默认存储在普通存储介质中，对于热数据存储在配置了高性能存储介质SSD的计算节点上。

针对这三个功能，首先在文件系统的计算节点中定义存储介质类型，存储介质类型包括普通存储类型、SSD类型和高密度存储类型，如图2所示，这三种存储介质的读写性能由高到低依次为SSD>DISK>ARCHIVE；

计算节点具备的存储能力由配置文件的属性值预先指定，并且首部使用存储类型标签予以声明区分，由计算节点对本地存储设备类型进行细粒度的收集提取，创建列表并通过心跳实时汇报给名字节点；名字节点根据计算节点汇报的列表信息在数据上传过程中根据数据存储策略集合进行数据存储节点的选择，其中存储策略集合中根据定义的存储介质类型定义了热数据策略、冷数据策略、SSD策略和高密度策略；数据块副本存储节点分配过程具体如图3所示，以下分三种情况对待复制文件存储节点策略进行说明：

功能(1)：计算节点向名字节点提交分配对于将会持续扩增的数据块存储节点的请求，名字节点会在数据块管理器分配节点过程中根据请求到存储策略集合中调用高密度策略作为该数据块副本存储节点分配策略；

值得一提的是本发明系统中的存储节点分配策略中用到了一种退化思想，即当前分配的节点不完全满足请求的时候会采用降级的方式去分配其他的存储节点，比如数据块默认的副本数为3，但是满足分配条件的返回结果中只有第一个副本分配到了带有高密度存储介质的存储节点，那么其他两个存储节点则自动退化为普通盘的存储节点，退化的规则则是根据前文提到的存储介质的性能来订制；即固态盘存储退化为普通盘存储，高密度存储退化为普通盘存储。

功能(2)：计算节点向名字节点提交分配加速应用的数据块存储节点的请求，名字节点会在数据块管理器分配节点过程中根据请求到存储策略集合中调用SSD策略作为该数据块副本存储节点分配策略。

功能(3)：集群分布式文件系统在现有基础之上，向用户提供了实现了热数据重定址功能的命令，用户可以根据特定的冷热数据来划分集群内的数据，比如使用Linux系统自带命令blktrace，然后通过使用该命令向名字节点提交热数据重定址的请求，名字节点中的数据块管理器分配节点的过程会根据请求到存储策略集合中调用热数据策略作为新数据存储节点分配的依据，然后形成计算节点之间的数据流重定向，将热数据重新安排到配置了SSD的计算节点上，同时更新名字节点内部的文件与数据块副本的对应关系信息。

加速异构模块主要用来实现两个功能：

(1)利用高性能加速器去完成加速应用的计算；

(2)针对不同算法定制不同功能的加速器在本发明系统内的无痕切换。

针对分布式文件系统，加速器在Linux文件系统中以设备文件的方式存在，计算节点在启动的时候会通过一定方式识别本地加速器挂载情况并以四元组的方式组织在注册时向上汇报，四元组方式如下：<映射FPGA加速器，规约FPGA加速器，映射GPU加速器，规约GPU加速器>，如：若本地节点主板只挂载映射FPGA加速器，经过计算节点识别后设置该四元组表达为：<1,0,0,0>；名字节点分配数据存储节点的依据是根据计算节点注册时根据注册信息创建的集群计算节点网络拓扑图并利用数据结构保存计算节点与加速器挂载的对应信息，本发明系统中，名字节点会根据四元组的第一位和第三位信息创建三张该拓扑图来表示加速器形成的逻辑集群情况，即普通网络拓扑、FPGA加速节点网络拓扑、GPU加速节点网络拓扑，对于普通类型的MapReduce框架应用，则分配依据是普通网络拓扑，对于利用FPGA加速的MapReduce应用，则分配依据是FPGA加速节点网络拓扑，对于利用GPU加速的MapReduce应用，则分配依据是GPU加速节点网络拓扑；分布式文件系统的命令在原来的基础上提供了参数给用户用以向系统说明当前提交的数据对应的加速程序类型，如：FPGA类型或者GPU类型；当提交的数据针对FPGA类型，名字节点分配存储节点时会调用FPGA加速节点网络拓扑作为计算节点分配依据，当提交的数据针对GPU类型，则会调用 GPU加速节点网络拓扑作为计算节点分配依据。

GPU加速任务调用加速器过程：高级编程语言直接调用GPU函数即可将数据装载并调用加速器进行计算；FPGA加速器任务调用加速器过程：加速器加挂到计算节点后由计算节点对其进行虚拟化，并与物理地址映射。基于FPGA加速的任务启动后，计算节点为任务传入设备文件名，利用Linux 系统调用进行FPGA加速器计算。

确定加速器功能后寻找加速任务数据块副本所在计算节点和加速器所在计算节点的拓扑距离，选择拓扑距离最近的计算节点转存加速任务数据块副本。

值得说明的是，本发明系统是面向加速器通用的，当用户想切换加速器的算法的时候只需要将原来集群中配置了加速器的计算节点主板上的加速器取下，更新加速器算法后重新安装回加速器到集群中；想切换加速器功能时可以将FPGA加速器更换为GPU加速器或将GPU加速器更换为FPGA 加速器；加速器也可以任意更换计算节点。另外，本发明系统不影响原生 MapReduce算法应用的操作执行。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于存储和加速优化的Hadoop异构方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种基于存储和加速优化的Hadoop异构方法，其特征在于，所述步骤(1)还包括：

3.根据权利要求1所述的一种基于存储和加速优化的Hadoop异构方法，其特征在于，所述步骤(2)包括：

(21)获取集群各计算节点中加速器的功能和数量并上报；

(22)获取集群各计算节点中加速器的负载情况并上报；

4.根据权利要求1所述的一种基于存储和加速优化的Hadoop异构方法，其特征在于，所述步骤(2)还包括：

加速器支持布局、算法或功能的静态切换。

5.一种基于存储和加速优化的Hadoop异构系统，其特征在于，所述系统包括：

加速异构模块，用于在系统集群中任意选取部分计算节点配置FPGA加速器、GPU加速器或FPGA加速器和GPU加速器，根据加速任务的功能需求为加速任务匹配合适的加速器进行加速计算。

6.根据权利要求5所述的一种基于存储和加速优化的Hadoop异构系统，其特征在于，所述存储异构模块还包括：

7.根据权利要求5所述的一种基于存储和加速优化的Hadoop异构系统，其特征在于，所述加速异构模块包括：

8.根据权利要求5所述的一种基于存储和加速优化的Hadoop异构系统，其特征在于，所述加速异构模块还包括：