CN108255968A

CN108255968A - 一种大数据并行文件系统的设计方法

Info

Publication number: CN108255968A
Application number: CN201711431284.XA
Authority: CN
Inventors: 孙东坡; 吕灼恒; 王建敏; 王家尧; 原帅; 南亚; 王雄斌
Original assignee: Dawning Information Industry Beijing Co Ltd
Current assignee: Dawning Information Industry Beijing Co Ltd
Priority date: 2017-12-26
Filing date: 2017-12-26
Publication date: 2018-07-06

Abstract

本发明公开了一种大数据并行文件系统的设计方法，包括：安装并启动docker；利用所述docker构建hadoop的基础镜像；在宿主机上用所述基础镜像启动多个容器，并配置各个容器；在所述各个容器中配置hadoop配置文件。本发明的上述技术方案，至少能够达到快速部署、快速迁移的目的。

Description

一种大数据并行文件系统的设计方法

技术领域

本发明涉及数据处理技术领域，具体来说，涉及一种大数据并行文件系统的设计方法。

背景技术

近年来，随着容器技术的发展，越来越多的人认识到了该项技术给开发者带来的便利，它不但能够简化配置，提高开发者效率，还能够快速部署各种开发环境和系统，大大提高开发者的工作效率。docker是一个开源的引擎，可以轻松地为任何应用创建一个轻量级的、可移植的、自给自足的容器。以虚拟化技术的发展来举例，在没有虚拟机技术之前，开发者想要使用新的硬件资源往往需要消耗几天甚至更长的时间，在虚拟化技术出现之后，将这个时间缩短到了几分钟的级别。而docker通过启动一个进程就可以启动一个容器，而无需启动一个操作系统，便能达到同虚拟机一样的效果和功能，再次将这个过程缩短到了秒级。容器技术正在逐渐地改变开发者的开发方式和习惯。

hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。hadoop实现了一个分布式文件系统，简称HDFS。HDFS有高容错性的特点，而且它提供高吞吐量来访问应用程序的数据，适合那些有着超大数据集的应用程序。传统部署hadoop文件系统，往往是在独立的服务器或者虚拟机上，需要在多个设备上分别做安装、配置，最后由单独的一台或者多台服务器全局管理和调度这套系统。

随着开发人员对工作效率和时间成本的要求越来越高，开发者想要基于hadoop进行开发、研究工作，就迫切需要一种方法能够比较节省时间地部署和维护开发环境，如何快速部署hadoop文件系统及后期维护该系统成为了一个急需解决的问题。目前，尚没有类似于本专利的方案，既能够快速部署hadoop文件系统，又能便捷地、省时省力地解决后期维护该系统。

以现有的技术，如果想要部署一套稳定可靠又可用的hadoop文件系统，往往需要使用多台服务器或者虚拟机设备，这不仅对设备的投入方面要求比较高，对部署的时间成本要求也较高。系统部署完成以后，对后期系统的维护、管理也需要投入一定的时间和精力。由于网络通信的不稳定等原因，往往还会导致系统稳定性不好等问题。可移植性、可复用性较差，在一组设备上完成文件系统的部署以后，如果想要迁移到另一组设备上，往往无计可施，只能在新的设备上重新部署一套新的hadoop文件系统。

发明内容

针对相关技术中存在的问题，本发明提出一种大数据并行文件系统的设计方法，能够达到快速部署、快速迁移的目的。

本发明的技术方案是这样实现的：

根据本发明的一个方面，提供了一种大数据并行文件系统的设计方法，包括：安装并启动docker；利用docker构建hadoop的基础镜像；在宿主机上用基础镜像启动多个容器，并配置各个容器；在各个容器中配置hadoop配置文件。

优选的，配置各个容器具体包括：为各个容器创建网络、配置IP；为各个容器分别持载宿主机的本地磁盘，并选取各个容器分别作为NameNode、SecondaryNameNode和DataNode之中的一种。

优选的，基础镜像是具备ssh功能的hadoop的基础镜像，并且各个容器之间ssh为无密码访问。

优选的，在构建hadoop的基础镜像之后还包括：基于基础镜像构建带有jdk和hadoop的centos镜像。

优选的，设计方法还包括：在宿主机上安装监控引擎，监控引擎用于监控各个容器的进程状态；在各个容器中安装监控代理，监控代理用于向监控引擎发送容器异常信息，并且监控引擎根据容器异常信息排除异常。

本发明通过应用docker和hadoop技术，达到了快速部署，快速迁移的目的，节省了硬件设备的投入，解决了部署成本高、维护成本高、系统迁移成本高的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的大数据并行文件系统的设计方法的流程图；

图2是根据本发明具体实施例的大数据并行文件系统的设计方法的流程图；

图3是根据本发明实施例的大数据并行文件系统的监控设计方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，根据本发明实施例的大数据并行文件系统的设计方法100包括以下步骤：

步骤S10，安装并启动docker；

步骤S20，利用docker构建hadoop的基础镜像；应当理解，镜像是冗余的一种类型，一个磁盘上的数据在另一个磁盘上存在一个完全相同的副本即为镜像；

步骤S30，在宿主机上用基础镜像启动多个容器，并配置各个容器；

步骤S40，在各个容器中配置hadoop配置文件。

本发明的上述技术方案，通过应用docker和hadoop技术，达到了快速部署，快速迁移的目的，节省了硬件设备的投入，解决了部署成本高、维护成本高、系统迁移成本高的问题。

优选的，在步骤S20处配置各个容器具体包括：为各个容器创建网络、配置IP；并为各个容器分别持载宿主机的本地磁盘，并选取各个容器分别作为NameNode、SecondaryNameNode和DataNode之中的一种。其中，NameNode是主(Master)节点，是管理数据块映射、处理客户端的读写请求、配置副本策略、管理HDFS的名称空间；SecondaryNameNode是NameNode的冷备份；DataNode负责存储客户端(client)发来的数据块(block)，执行数据块的读写操作。

优选的，在步骤S20处构建的基础镜像是具备ssh功能的hadoop的基础镜像，并且各个容器之间ssh为无密码访问。ssh(安全外壳协议)是建立在应用层基础上的安全协议。

优选的，在步骤S20之后还包括：基于基础镜像构建带有jdk和hadoop的centos镜像。JDK是Java语言的软件开发工具包；centos(Community Enterprise OperatingSystem，社区企业操作系统)是Linux发行版之一。

如图2所示，示出了本发明的大数据并行文件系统的设计方法的一个具体实施例。在步骤S202和步骤S204处，分别在服务器上安装并启动docker。在步骤S206处，使用dockerfile构建一个具备ssh功能的hadoop的基础镜像，其中dockerfile是由一系列命令和参数构成的脚本，这些命令应用于基础镜像并最终创建一个新的镜像。在步骤S208处，基于基础镜像构建一个带有jdk和hadoop的centos镜像。在步骤S210处，在宿主机上用基础镜像启动N个容器，为各容器创建网络、配置IP，保证各容器间ssh可无密码访问。在步骤S212处，为每个容器分别挂载宿主机本地磁盘，分别选取容器作为NameNode、SecondaryNameNode和DataNode。在步骤S214处，在各容器中配置hadoop配置文件。至此，hadoop文件系统部署完成，使用docker将整个系统打包为系统镜像文件，以便后期迁移到其他宿主机或平台上使用。在本实施例中，基于docker技术，启动多个容器，为容器挂载本地磁盘，在启动的容器中部署hadoop集群，通过容器磁盘挂载方式将本地磁盘转化为数据存储节点，提高了文件读取、存储速度。

优选的，结合图3所示，本发明的大数据并行文件系统的设计方法还可以包括以下步骤：步骤S302，在宿主机上安装监控引擎，监控引擎用于监控各个容器的进程状态，待容器出现问题，能够及时自处理；步骤S304，在各个容器中安装监控代理；在步骤S306处，当容器出现网络不稳定或其他异常情况时，监控代理向监控引擎发送容器异常信息；并且在步骤S308处，监控引擎根据容器异常信息自动处理、排除异常。发明人通过编码开发出了能够实时监控设备和容器的监控引擎和监控代理，通过监控引擎持续对容器进程进行监控，实现了异常自动发现、自动恢复，能够解决系统不稳定的问题，在很大程度上提高了开发者的工作效率。

综上所述，本发明的上述技术方案通过应用docker和hadoop技术，达到了快速部署，快速迁移的目的，节省了硬件设备的投入；通过监控引擎解决了系统不稳定的问题，在很大程度上提高了开发者的工作效率。开发者再也不用为繁杂的部署过程和后期繁重的维护工作而担忧。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种大数据并行文件系统的设计方法，其特征在于，包括：

安装并启动docker；

利用所述docker构建hadoop的基础镜像；

在宿主机上用所述基础镜像启动多个容器，并配置各个容器；

在所述各个容器中配置hadoop配置文件。

2.根据权利要求1所述的大数据并行文件系统的设计方法，其特征在于，配置各个容器具体包括：

为各个容器创建网络、配置IP；

为所述各个容器分别持载所述宿主机的本地磁盘，并选取所述各个容器分别作为NameNode、SecondaryNameNode和DataNode之中的一种。

3.根据权利要求2所述的大数据并行文件系统的设计方法，其特征在于，

所述基础镜像是具备ssh功能的hadoop的基础镜像，并且所述各个容器之间ssh为无密码访问。

4.根据权利要求1所述的大数据并行文件系统的设计方法，其特征在于，在构建hadoop的基础镜像之后，还包括：

基于所述基础镜像构建带有jdk和hadoop的centos镜像。

5.根据权利要求1所述的大数据并行文件系统的设计方法，其特征在于，还包括：

在所述宿主机上安装监控引擎，所述监控引擎用于监控所述各个容器的进程状态；

在所述各个容器中安装监控代理，所述监控代理用于向所述监控引擎发送容器异常信息，并且所述监控引擎根据所述容器异常信息排除异常。