CN108255968A - 一种大数据并行文件系统的设计方法 - Google Patents

一种大数据并行文件系统的设计方法 Download PDF

Info

Publication number
CN108255968A
CN108255968A CN201711431284.XA CN201711431284A CN108255968A CN 108255968 A CN108255968 A CN 108255968A CN 201711431284 A CN201711431284 A CN 201711431284A CN 108255968 A CN108255968 A CN 108255968A
Authority
CN
China
Prior art keywords
container
hadoop
file system
big data
design method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711431284.XA
Other languages
English (en)
Inventor
孙东坡
吕灼恒
王建敏
王家尧
原帅
南亚
王雄斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dawning Information Industry Beijing Co Ltd
Original Assignee
Dawning Information Industry Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dawning Information Industry Beijing Co Ltd filed Critical Dawning Information Industry Beijing Co Ltd
Priority to CN201711431284.XA priority Critical patent/CN108255968A/zh
Publication of CN108255968A publication Critical patent/CN108255968A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种大数据并行文件系统的设计方法,包括:安装并启动docker;利用所述docker构建hadoop的基础镜像;在宿主机上用所述基础镜像启动多个容器,并配置各个容器;在所述各个容器中配置hadoop配置文件。本发明的上述技术方案,至少能够达到快速部署、快速迁移的目的。

Description

一种大数据并行文件系统的设计方法
技术领域
本发明涉及数据处理技术领域,具体来说,涉及一种大数据并行文件系统的设计方法。
背景技术
近年来,随着容器技术的发展,越来越多的人认识到了该项技术给开发者带来的便利,它不但能够简化配置,提高开发者效率,还能够快速部署各种开发环境和系统,大大提高开发者的工作效率。docker是一个开源的引擎,可以轻松地为任何应用创建一个轻量级的、可移植的、自给自足的容器。以虚拟化技术的发展来举例,在没有虚拟机技术之前,开发者想要使用新的硬件资源往往需要消耗几天甚至更长的时间,在虚拟化技术出现之后,将这个时间缩短到了几分钟的级别。而docker通过启动一个进程就可以启动一个容器,而无需启动一个操作系统,便能达到同虚拟机一样的效果和功能,再次将这个过程缩短到了秒级。容器技术正在逐渐地改变开发者的开发方式和习惯。
hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。hadoop实现了一个分布式文件系统,简称HDFS。HDFS有高容错性的特点,而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。传统部署hadoop文件系统,往往是在独立的服务器或者虚拟机上,需要在多个设备上分别做安装、配置,最后由单独的一台或者多台服务器全局管理和调度这套系统。
随着开发人员对工作效率和时间成本的要求越来越高,开发者想要基于hadoop进行开发、研究工作,就迫切需要一种方法能够比较节省时间地部署和维护开发环境,如何快速部署hadoop文件系统及后期维护该系统成为了一个急需解决的问题。目前,尚没有类似于本专利的方案,既能够快速部署hadoop文件系统,又能便捷地、省时省力地解决后期维护该系统。
以现有的技术,如果想要部署一套稳定可靠又可用的hadoop文件系统,往往需要使用多台服务器或者虚拟机设备,这不仅对设备的投入方面要求比较高,对部署的时间成本要求也较高。系统部署完成以后,对后期系统的维护、管理也需要投入一定的时间和精力。由于网络通信的不稳定等原因,往往还会导致系统稳定性不好等问题。可移植性、可复用性较差,在一组设备上完成文件系统的部署以后,如果想要迁移到另一组设备上,往往无计可施,只能在新的设备上重新部署一套新的hadoop文件系统。
发明内容
针对相关技术中存在的问题,本发明提出一种大数据并行文件系统的设计方法,能够达到快速部署、快速迁移的目的。
本发明的技术方案是这样实现的:
根据本发明的一个方面,提供了一种大数据并行文件系统的设计方法,包括:安装并启动docker;利用docker构建hadoop的基础镜像;在宿主机上用基础镜像启动多个容器,并配置各个容器;在各个容器中配置hadoop配置文件。
优选的,配置各个容器具体包括:为各个容器创建网络、配置IP;为各个容器分别持载宿主机的本地磁盘,并选取各个容器分别作为NameNode、SecondaryNameNode和DataNode之中的一种。
优选的,基础镜像是具备ssh功能的hadoop的基础镜像,并且各个容器之间ssh为无密码访问。
优选的,在构建hadoop的基础镜像之后还包括:基于基础镜像构建带有jdk和hadoop的centos镜像。
优选的,设计方法还包括:在宿主机上安装监控引擎,监控引擎用于监控各个容器的进程状态;在各个容器中安装监控代理,监控代理用于向监控引擎发送容器异常信息,并且监控引擎根据容器异常信息排除异常。
本发明通过应用docker和hadoop技术,达到了快速部署,快速迁移的目的,节省了硬件设备的投入,解决了部署成本高、维护成本高、系统迁移成本高的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的大数据并行文件系统的设计方法的流程图;
图2是根据本发明具体实施例的大数据并行文件系统的设计方法的流程图;
图3是根据本发明实施例的大数据并行文件系统的监控设计方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,根据本发明实施例的大数据并行文件系统的设计方法100包括以下步骤:
步骤S10,安装并启动docker;
步骤S20,利用docker构建hadoop的基础镜像;应当理解,镜像是冗余的一种类型,一个磁盘上的数据在另一个磁盘上存在一个完全相同的副本即为镜像;
步骤S30,在宿主机上用基础镜像启动多个容器,并配置各个容器;
步骤S40,在各个容器中配置hadoop配置文件。
本发明的上述技术方案,通过应用docker和hadoop技术,达到了快速部署,快速迁移的目的,节省了硬件设备的投入,解决了部署成本高、维护成本高、系统迁移成本高的问题。
优选的,在步骤S20处配置各个容器具体包括:为各个容器创建网络、配置IP;并为各个容器分别持载宿主机的本地磁盘,并选取各个容器分别作为NameNode、SecondaryNameNode和DataNode之中的一种。其中,NameNode是主(Master)节点,是管理数据块映射、处理客户端的读写请求、配置副本策略、管理HDFS的名称空间;SecondaryNameNode是NameNode的冷备份;DataNode负责存储客户端(client)发来的数据块(block),执行数据块的读写操作。
优选的,在步骤S20处构建的基础镜像是具备ssh功能的hadoop的基础镜像,并且各个容器之间ssh为无密码访问。ssh(安全外壳协议)是建立在应用层基础上的安全协议。
优选的,在步骤S20之后还包括:基于基础镜像构建带有jdk和hadoop的centos镜像。JDK是Java语言的软件开发工具包;centos(Community Enterprise OperatingSystem,社区企业操作系统)是Linux发行版之一。
如图2所示,示出了本发明的大数据并行文件系统的设计方法的一个具体实施例。在步骤S202和步骤S204处,分别在服务器上安装并启动docker。在步骤S206处,使用dockerfile构建一个具备ssh功能的hadoop的基础镜像,其中dockerfile是由一系列命令和参数构成的脚本,这些命令应用于基础镜像并最终创建一个新的镜像。在步骤S208处,基于基础镜像构建一个带有jdk和hadoop的centos镜像。在步骤S210处,在宿主机上用基础镜像启动N个容器,为各容器创建网络、配置IP,保证各容器间ssh可无密码访问。在步骤S212处,为每个容器分别挂载宿主机本地磁盘,分别选取容器作为NameNode、SecondaryNameNode和DataNode。在步骤S214处,在各容器中配置hadoop配置文件。至此,hadoop文件系统部署完成,使用docker将整个系统打包为系统镜像文件,以便后期迁移到其他宿主机或平台上使用。在本实施例中,基于docker技术,启动多个容器,为容器挂载本地磁盘,在启动的容器中部署hadoop集群,通过容器磁盘挂载方式将本地磁盘转化为数据存储节点,提高了文件读取、存储速度。
优选的,结合图3所示,本发明的大数据并行文件系统的设计方法还可以包括以下步骤:步骤S302,在宿主机上安装监控引擎,监控引擎用于监控各个容器的进程状态,待容器出现问题,能够及时自处理;步骤S304,在各个容器中安装监控代理;在步骤S306处,当容器出现网络不稳定或其他异常情况时,监控代理向监控引擎发送容器异常信息;并且在步骤S308处,监控引擎根据容器异常信息自动处理、排除异常。发明人通过编码开发出了能够实时监控设备和容器的监控引擎和监控代理,通过监控引擎持续对容器进程进行监控,实现了异常自动发现、自动恢复,能够解决系统不稳定的问题,在很大程度上提高了开发者的工作效率。
综上所述,本发明的上述技术方案通过应用docker和hadoop技术,达到了快速部署,快速迁移的目的,节省了硬件设备的投入;通过监控引擎解决了系统不稳定的问题,在很大程度上提高了开发者的工作效率。开发者再也不用为繁杂的部署过程和后期繁重的维护工作而担忧。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种大数据并行文件系统的设计方法,其特征在于,包括:
安装并启动docker;
利用所述docker构建hadoop的基础镜像;
在宿主机上用所述基础镜像启动多个容器,并配置各个容器;
在所述各个容器中配置hadoop配置文件。
2.根据权利要求1所述的大数据并行文件系统的设计方法,其特征在于,配置各个容器具体包括:
为各个容器创建网络、配置IP;
为所述各个容器分别持载所述宿主机的本地磁盘,并选取所述各个容器分别作为NameNode、SecondaryNameNode和DataNode之中的一种。
3.根据权利要求2所述的大数据并行文件系统的设计方法,其特征在于,
所述基础镜像是具备ssh功能的hadoop的基础镜像,并且所述各个容器之间ssh为无密码访问。
4.根据权利要求1所述的大数据并行文件系统的设计方法,其特征在于,在构建hadoop的基础镜像之后,还包括:
基于所述基础镜像构建带有jdk和hadoop的centos镜像。
5.根据权利要求1所述的大数据并行文件系统的设计方法,其特征在于,还包括:
在所述宿主机上安装监控引擎,所述监控引擎用于监控所述各个容器的进程状态;
在所述各个容器中安装监控代理,所述监控代理用于向所述监控引擎发送容器异常信息,并且所述监控引擎根据所述容器异常信息排除异常。
CN201711431284.XA 2017-12-26 2017-12-26 一种大数据并行文件系统的设计方法 Pending CN108255968A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711431284.XA CN108255968A (zh) 2017-12-26 2017-12-26 一种大数据并行文件系统的设计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711431284.XA CN108255968A (zh) 2017-12-26 2017-12-26 一种大数据并行文件系统的设计方法

Publications (1)

Publication Number Publication Date
CN108255968A true CN108255968A (zh) 2018-07-06

Family

ID=62723924

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711431284.XA Pending CN108255968A (zh) 2017-12-26 2017-12-26 一种大数据并行文件系统的设计方法

Country Status (1)

Country Link
CN (1) CN108255968A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377399A (zh) * 2019-07-22 2019-10-25 中国联合网络通信集团有限公司 HBase容器化方法、装置、设备及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106325975A (zh) * 2016-09-09 2017-01-11 浪潮软件股份有限公司 一种利用Docker容器自动化部署与管理大数据集群的方法
CN106790483A (zh) * 2016-12-13 2017-05-31 武汉邮电科学研究院 基于容器技术的Hadoop集群系统及快速构建方法
CN106850621A (zh) * 2017-02-07 2017-06-13 南京云创大数据科技股份有限公司 一种基于容器云技术快速搭建Hadoop集群的方法
CN107450961A (zh) * 2017-09-22 2017-12-08 济南浚达信息技术有限公司 一种基于Docker容器的分布式深度学习系统及其搭建方法、工作方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106325975A (zh) * 2016-09-09 2017-01-11 浪潮软件股份有限公司 一种利用Docker容器自动化部署与管理大数据集群的方法
CN106790483A (zh) * 2016-12-13 2017-05-31 武汉邮电科学研究院 基于容器技术的Hadoop集群系统及快速构建方法
CN106850621A (zh) * 2017-02-07 2017-06-13 南京云创大数据科技股份有限公司 一种基于容器云技术快速搭建Hadoop集群的方法
CN107450961A (zh) * 2017-09-22 2017-12-08 济南浚达信息技术有限公司 一种基于Docker容器的分布式深度学习系统及其搭建方法、工作方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377399A (zh) * 2019-07-22 2019-10-25 中国联合网络通信集团有限公司 HBase容器化方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN111211930B (zh) 一种区块链服务容灾备份容器化部署方法
CN107181808B (zh) 一种私有云系统及运行方法
CN111555913A (zh) 基于虚拟化对真实网络环境模拟的仿真方法、系统、电子设备及存储介质
JP2019032903A (ja) エッジ位置でのカスタマイズ可能なイベントトリガ型計算のためのシステム、方法、及びコンピュータ可読記憶媒体
EP1906347A1 (en) Object-based service oriented architecture method, apparatus and media
CN103810444B (zh) 一种云计算平台中多租户应用隔离的方法和系统
Guerrero-Contreras et al. A context-aware architecture supporting service availability in mobile cloud computing
WO2012125144A1 (en) Systems and methods for sizing resources in a cloud-based environment
CN111158859B (zh) 基于麒麟操作系统的应用管理系统及其实现与使用方法
CN113839814B (zh) 去中心化的Kubernetes集群联邦实现方法及系统
US20140045446A1 (en) System, method and program product for maintaining deployed response team members synchronized
JP2013533536A (ja) プロビジョニングサービスのためのリーダーアービトレーション
CN112698838B (zh) 多云容器部署系统及其容器部署方法
Suciu et al. Cloud computing as evolution of distributed computing-A case study for SlapOS distributed cloud computing platform
Rajalakshmi et al. An improved dynamic data replica selection and placement in cloud
Bertier et al. Beyond the clouds: How should next generation utility computing infrastructures be designed?
CN115733754A (zh) 基于云原生中台技术的资源管理系统及其弹性构建方法
CN108390886A (zh) 教育大数据安全访问控制系统
CN110705712A (zh) 面向第三方社会服务的人工智能基础资源与技术开放平台
CN108255968A (zh) 一种大数据并行文件系统的设计方法
CN110049081A (zh) 用于搭建及使用高可用性Docker私库的方法和系统
CN111459619A (zh) 一种基于云平台实现服务的方法和装置
CN115225645B (zh) 一种服务更新方法、装置、系统和存储介质
CN114615268B (zh) 基于Kubernetes集群的服务网络、监控节点、容器节点及设备
CN112822062A (zh) 一种用于桌面云服务平台的管理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180706

RJ01 Rejection of invention patent application after publication