CN106681956A - 一种大规模计算机集群的操作方法及装置 - Google Patents

一种大规模计算机集群的操作方法及装置 Download PDF

Info

Publication number
CN106681956A
CN106681956A CN201611227455.2A CN201611227455A CN106681956A CN 106681956 A CN106681956 A CN 106681956A CN 201611227455 A CN201611227455 A CN 201611227455A CN 106681956 A CN106681956 A CN 106681956A
Authority
CN
China
Prior art keywords
server
file
role
namenode
configuration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611227455.2A
Other languages
English (en)
Inventor
付凯
朱林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ruian Technology Co Ltd
Original Assignee
Beijing Ruian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ruian Technology Co Ltd filed Critical Beijing Ruian Technology Co Ltd
Priority to CN201611227455.2A priority Critical patent/CN106681956A/zh
Publication of CN106681956A publication Critical patent/CN106681956A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • G06F15/161Computing infrastructure, e.g. computer clusters, blade chassis or hardware partitioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/4401Bootstrapping
    • G06F9/4411Configuring for operating with peripheral devices; Loading of device drivers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44505Configuring for program initiating, e.g. using registry, configuration files

Abstract

本发明实施例公开了一种大规模计算机集群的操作的方法及装置。该方法包括:配置服务器的角色,所述角色包括全体服务器allnodes、namenodes、econdarynamenode、resourcemanager、jobhistoryserver和datanodes;获取执行动作,所述执行动作包括通过YUM仓库安装软件、修改配置文件中的值、删除文件、向所述服务器发送请求;获取所述执行动作对应的脚本文件,并运行所述脚本文件,所述脚本文件用于针对所述角色需要执行的动作按照预设顺序编排记录的脚本文件。从而ansible自动化运维组件将复杂的运维操作封装了起来,普通操作人员可以既快又准地进行集群的安装操作。

Description

一种大规模计算机集群的操作方法及装置
技术领域
本发明实施例涉及计算机操作软件的技术领域,尤其涉及一种大规模计算机集群的操作方法及装置。
背景技术
大规模计算机集群的运维,涉及到硬件、网络、操作系统、应用软件、数据和服务六大领域,每个领域都涉及专业的技术和操作。传统的运维模式下,运维工作依靠专业技术人员,定期对软硬件的运行情况进行检查,面对批量的或复杂的操作,需要编写脚本来执行。这样的操作方式,一方面严重依赖专业人员,另一方面操作效率有限。运维工作是集群平稳运行的重要因素,任何影响运维工作质量和效率的问题,都需要得到有效的解决。
从具体操作上看,大规模计算机集群的运维工作分为以下六个方面:
1、软硬件的部署。如硬件整体上架、操作系统和软件的安装;
2、硬件节点的扩充与缩减。如增加集群节点,减少集群节点;
3、软件的升级、降级与灰度发布。如软件新版本的部署,旧版本的恢复;
4、数据配置的部署。如元数据配置的部署;
5、工作模式的切换。如正常模式切换到维护模式;
6、日常管理。如服务的启停、运维日志的检索。
以上操作,从细节上看,都是由一些列的子步骤组成的。成功操作的要点,就是合理地设计这些步骤并且每步操作都执行到位;高效操作的要点,就是每个步骤都做得既快又好。
为了达到以上目的,常用的方法有:
1、由经验丰富的维护人员进行运维工作。这可以确保单个人的操作效率,但无法大面积推广;
2、编写操作说明文档供维护人员执行。这可以解决操作步骤的规划问题,但无法提高操作效率;
3、开发专门的操作工具或系统供维护人员使用。
这可以解决特定操作的执行效率问题,但操作工具有一定的开发周期和适用范围,在不能覆盖的范围,也无法提高效率。
发明内容
本发明实施例的目的在于提出一种大规模计算机集群的操作方法及装置,旨在解决如何基于Ansible自动化运维组件进行运维操作。
为达此目的,本发明实施例采用以下技术方案:
第一方面,一种大规模计算机集群的操作方法,所述方法包括:
配置服务器的角色,所述角色包括全体服务器allnodes、namenodes、secondarynamenode、resourcemanager、jobhistoryserver和datanodes;
获取执行动作,所述执行动作包括通过YUM仓库安装软件、修改配置文件中的值、删除文件、向所述服务器发送请求;
获取所述执行动作对应的脚本文件,并运行所述脚本文件,所述脚本文件用于针对所述角色需要执行的动作按照预设顺序编排记录的脚本文件。
优选地,所述配置服务器的角色,包括:
存储所述服务器的角色在预设目录下,所述预设目录包括服务器环境配置的模板文件和task任务执行的playbook脚本。
优选地,所述配置服务器的角色,包括:
部署主namenode部署角色和辅助namenode部署角色;
所述部署主namenode部署角色,包括:
创建所述主namenode的预设文件系统目录、所述辅助namenode的预设文件系统目录,再初始化所述预设文件系统,启动namenode服务进程。
优选地,所述配置服务器的角色,包括:
通过预设的数据节点部署的角色,创建目录和启动后台进程。
优选地,所述运行所述脚本文件,包括:
创建所述服务器的用户账号,设置权限,所述权限用于所述用户管理所述服务器的环境,所述管理包括启动、重启或者停止所述服务器;
创建操作系统的账号:
创建所述服务器的管理账号:
创建服务器安装目录,并把服务器的源文件解压;
部署所述模板文件到namenodes、secondarynamenode和datanode上。
优选地,所述配置服务器的角色之后,还包括:
然后通过main.yml文件调用create_user.yml:
获取所述服务器信息,所述服务器信息包括概览OverView、Datanodes、DatanodeVolume Failures、Snapshot、Startup Progress和Utilities;
创建HDFS文件目录,修改HDFS文件目录权限,显示输出HDFS文件系统信息。
第二方面,一种大规模计算机集群的操作装置,所述装置包括:
配置模块,用于配置服务器的角色,所述角色包括全体服务器allnodes、namenodes、secondarynamenode、resourcemanager、jobhistoryserver和datanodes;
第一获取模块,用于获取执行动作,所述执行动作包括通过YUM仓库安装软件、修改配置文件中的值、删除文件、向所述服务器发送请求;
第二获取模块,用于获取所述执行动作对应的脚本文件;
运行模块,用于运行所述脚本文件,所述脚本文件用于针对所述角色需要执行的动作按照预设顺序编排记录的脚本文件。
优选地,所述配置模块,具体用于:
存储所述服务器的角色在预设目录下,所述预设目录包括服务器环境配置的模板文件和task任务执行的playbook脚本。
优选地,所述配置模块,还具体用于:
部署主namenode部署角色和辅助namenode部署角色;
所述部署主namenode部署角色,包括:
创建所述主namenode的预设文件系统目录、所述辅助namenode的预设文件系统目录,再初始化所述预设文件系统,启动namenode服务进程。
优选地,所述配置模块,还具体用于:
通过预设的数据节点部署的角色,创建目录和启动后台进程。
优选地,所述运行模块,具体用于:
创建所述服务器的用户账号,设置权限,所述权限用于所述用户管理所述服务器的环境,所述管理包括启动、重启或者停止所述服务器;
创建操作系统的账号:
创建所述服务器的管理账号:
创建服务器安装目录,并把服务器的源文件解压;
部署所述模板文件到namenodes、secondarynamenode和datanode上。
优选地,所述装置还包括验证模块,用于:
在配置服务器的角色之后,通过main.yml文件调用create_user.yml:;获取所述服务器信息,所述服务器信息包括概览OverView、Datanodes、Datanode Volume Failures、Snapshot、Startup Progress和Utilities;创建HDFS文件目录,修改HDFS文件目录权限,显示输出HDFS文件系统信息。
本发明实施例提供的一种大规模计算机集群的操作方法及装置,配置服务器的角色,所述角色包括全体服务器allnodes、namenodes、econdarynamenode、resourcemanager、jobhistoryserver和datanodes;获取执行动作,所述执行动作包括通过YUM仓库安装软件、修改配置文件中的值、删除文件、向所述服务器发送请求;获取所述执行动作对应的脚本文件,并运行所述脚本文件,所述脚本文件用于针对所述角色需要执行的动作按照预设顺序编排记录的脚本文件。从而ansible自动化运维组件将复杂的运维操作封装了起来,普通操作人员可以既快又准地进行集群的安装操作。
附图说明
图1是本发明实施例提供的一种大规模计算机集群的操作方法的流程示意图;
图2是本发明实施例提供的另一种大规模计算机集群的操作方法的流程示意图;
图3是本发明实施例提供的一种大规模计算机集群的操作装置的功能模块示意图。
具体实施方式
下面结合附图和实施例对本发明实施例作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明实施例,而非对本发明实施例的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明实施例相关的部分而非全部结构。
参考图1,图1是本发明实施例提供的一种大规模计算机集群的操作方法的流程示意图。
如图1所示,所述大规模计算机集群的操作方法包括:
步骤101,配置服务器的角色,所述角色包括全体服务器所有节点(allnodes)、主节点(namenodes)、后备主节点(secondarynamenode)、资源管理器(resourcemanager)、任务管理器(jobhistoryserver)和数据节点(datanodes);
具体的,Ansible自动化运维组件,将运维操作抽象成了三个部分:角色、动作和剧本。Ansible是集群运维的项目基础支撑工具之一,是一款实现读/写跨平台的“Infrastructure-as-code”工具,从系统管理者到开发者,都可使用Ansible自动化部署并维护整个应用的生命周期,实现持续交付。
角色就是网络中的一台或一组设备,如某台服务器、某台交换机、某一组功能相同的服务器(如集群)。一个分布式存储和计算框架,包括Namenode、Datanode和资源管理器三个组件。
动作就是运维操作的一个步骤,如通过YUM仓库安装一个软件、修改配置文件中的某个值、删除某个文件、向某个服务发送请求等。YUM仓库为:Linux操作系统的标准软件分发方式之一,通过YUM仓库可以快捷地安装软件及其依赖。
剧本就是将针对角色需要执行的动作,按照一定的顺序编排记录的脚本文件。支持多个角色和多个动作。
在Ansible自动化管理中,首先需要分析被管节点的功能、需要部署软件、使用的配置文件,根据节点配置参数相同、相似、可继承等方式对节点进行分组,形成Ansible的资源清单(in-ventory),再由ansible-playbook对这些分组进行模板、任务的组织。
以集群的部署为例进行说明。首先,需要设计相关服务器的角色,与集群部署相关的角色有:
1、allnodes,即全体服务器;2、namenodes;3、secondarynamenode;
4、resourcemanager;5、jobhistoryserver;6、datanodes。
然后,再确定集群安装需要的步骤:
1、给allnodes安装集群软件(通过YUM仓库安装);
2、给allnodes修改core-site.xml、cluster-env.sh、hdfs-site.xml配置文件;
3、给各个角色的节点修改各角色的属性配置文件;
4、按角色启动各个服务器上的服务;
5、检查各个服务的运行情况;
6、检查集群整体的运行情况;
7、输出部署报告。
最后,将以上步骤按照playbook的语法,编写成playbook脚本,即可通过ansible相关命令执行。
优选地,所述配置服务器的角色,包括:
存储所述服务器的角色在预设目录下,所述预设目录包括服务器环境配置的模板文件和task任务执行的playbook脚本。
优选地,所述配置服务器的角色,包括:
部署主namenode部署角色和辅助namenode部署角色;
所述部署主namenode部署角色,包括:
创建所述主namenode的预设文件系统目录、所述辅助namenode的预设文件系统目录,再初始化所述预设文件系统,启动namenode服务进程。
优选地,所述配置服务器的角色,包括:
通过预设的数据节点部署的角色,创建目录和启动后台进程。
具体的,1、准备集群基础角色:
准备集群角色在roles/cdh5_commons目录下,主要包含集群环境配置的模板文件、task任务执行的playbook脚本。执行任务task的playbook脚本文件;创建集群用户账号,设置权限,该用户将用户对集群环境的管理,包括服务的启动、重启、停止等。首先是创建操作系统的账号。然后创建集群的管理账号:创建集群安装目录,并把集群安装包的源文件解压,部署模板文件到每个节点上。
2、部署NameNode角色:
在集群中,NameNode负责对HDFS的元数据(metadata)持久化存储,处理来自客户端对HDFS各种操作的交互反馈。为了保证交互速度,HDFS文件系统的元数据被转载到NameNode主机的内存中,并且会将内存中这些元数据保存到磁盘进行持久化存储。为了使这个持久化过程不会成为HDFS操作的瓶颈,集群通常不是对每一次操作的当前文件系统直接snapshot进行持久化,而是对HDFS最近一段时间的操作列表保存到NameNode中的Editlog文件中。当需要重启NameNode时,除了加载fsImage之外,还对EditLog文件中记录的HDFS操作进行重做(replay),恢复HDFS重启之前的最近状态。
部署NameNode包括主NameNode部署角色(cdh5_namenode_primary)和辅助NameNode部署角色(cdh5_namenode_secondary)。
1)、部署主NameNode:
创建主NameNode的cluster_hdfs文件系统目录、辅助NameNode的cluster_hdfs文件系统目录,然后初始化cluster_hdfs文件系统,最后启动Namenode服务进程。
2)、部署辅助NameNode:
为提高集群系统可靠性,生产系统一般还会部署辅助NameNode,会周期性地将EditLog中记录的Hadoop分布式文件系统(HDFS)操作合并到一个CheckPoint中,然后清空EditLog。在NameNode重启时就会装载最新的一个CheckPoint,并重做EditLog中记录的HDFS操作。由于EditLog中记录的是从上一次CheckPoint以后到现在的操作记录,所以比较小,能够快速恢复到重启集群最近的状态,保证系统的完整性。
部署辅助NameNode角色与部署主NameNode的playbook脚本基本一样,只是在启动服务时候参数是secondarynamenode。
3、部署资源管理器角色:
通过YARN大大扩展了集群传统应用的潜在应用范围。YARN构建于当前集群的现有元素之上,是一个真正的集群资源管理器,改进了JobTracker等元素,提高了可伸缩性和增强许多不同应用程序共享集群的能力,允许多个应用程序同时、高效地运行在一个的集群上。YARN是大数据发展的一个基础性组件。YARN将传统的集群放到了一个可组合的、契合目的(fit-to-purpose)的平台中,以处理数据管理、分析和交易计算等工作。
YARN中的资源管理器(Resource Manager)负责整个系统的资源管理和调度,并内部维护了各个应用程序的ApplictionMaster信息、NodeManager信息、资源使用信息等。
4、部署DataNode角色:
DataNode是文件系统的工作节点,最终存储数据的位置。它们根据客户端或者NameNode的调度存储和检索数据,并且定期向NameNode发送它们所存储的块(block)的列表。
集群中的每个数据服务节点都运行着一个DataNode后台进程,这个后台进程负责把HDFS数据块读写到本地的文件系统。当需要通过客户端读/写某个数据时,先由NameNode告诉客户端去哪个DataNode进行具体的读/写操作,然后客户端直接与这个DataNode服务节点的后台程序进行通信,并对相关的数据块进行读/写操作。
对于DataNode部署,我们编写了数据节点部署的角色,负责目录创建和启动后台进程。
在DataNode上启动集群进程时将会调用从cdh5_common/templates部署到yarn-site.xml的配置文件。
步骤102,获取执行动作,所述执行动作包括通过YUM仓库安装软件、修改配置文件中的值、删除文件、向所述服务器发送请求;
步骤103,获取所述执行动作对应的脚本文件,并运行所述脚本文件,所述脚本文件用于针对所述角色需要执行的动作按照预设顺序编排记录的脚本文件。
优选地,所述运行所述脚本文件,具体的执行动作有:
1、读取所有配置文件,并初始化运行环境;
2、获取allnodes和各个角色的节点列表;
3、根据脚本参数选定目标节点;
4、根据脚本参数选定待执行的命令;
5、将待执行的命令分发到各个目标节点上,并执行这些命令;
6、打印输出执行结果
优选地,所述运行所述脚本文件,包括:
创建所述服务器的用户账号,设置权限,所述权限用于所述用户管理所述服务器的环境,所述管理包括启动、重启或者停止所述服务器;
创建操作系统的账号:
创建所述服务器的管理账号:
创建服务器安装目录,并把服务器的源文件解压;
部署所述模板文件到namenodes、secondarynamenode和datanode上。
本发明实施例提供的一种大规模计算机集群的操作方法,配置服务器的角色,所述角色包括全体服务器allnodes、namenodes、econdarynamenode、resourcemanager、jobhistoryserver和datanodes;获取执行动作,所述执行动作包括通过YUM仓库安装软件、修改配置文件中的值、删除文件、向所述服务器发送请求;获取所述执行动作对应的脚本文件,并运行所述脚本文件,所述脚本文件用于针对所述角色需要执行的动作按照预设顺序编排记录的脚本文件。从而ansible自动化运维组件将复杂的运维操作封装了起来,普通操作人员可以既快又准地进行集群的安装操作。
参考图2,图2是本发明实施例提供的另一种大规模计算机集群的操作方法的流程示意图。
如图2所示,所述大规模计算机集群的操作方法包括:
步骤201,配置服务器的角色,所述角色包括全体服务器allnodes、namenodes、secondarynamenode、resourcemanager、jobhistoryserver和datanodes;
步骤202,通过main.yml文件调用create_user.yml:获取所述服务器信息,所述服务器信息包括概览OverView、Datanodes、Datanode Volume Failures、Snapshot、StartupProgress和Utilities;创建HDFS文件目录,修改HDFS文件目录权限,显示输出HDFS文件系统信息;
具体的,部署后集群初始化与验证:
集群系统部署完成后需要对集群DHFS进行初始化,同时运维也需要了解集群运行状态,可以从Web界面和命令行方式分别了解集群的使用情况。
1、部署后初始化:
安装好集群软件、启动了服务之后,就准备开始使用。这是需要对集群系统做些初始化工作,主要是创建集群用户账号、授权、创建服务目录。专门放置在post_install_setups角色中;
2、部署后集群验证:
下面分别从Web界面和命令行方式了解集群的使用情况。
1.Web查看集群信息;
在浏览器中输入http://主节点IP:50070/,将会看到集群的主要信息,包括概览(OverView)、DataNodes、Datanode Volume Failures、Snapshot、Startup Progress、Utilities等内容。
2.命令行;
创建HDFS文件目录:
修改HDFS文件目录权限:
显示输出HDFS文件系统信息。
步骤203,获取执行动作,所述执行动作包括通过YUM仓库安装软件、修改配置文件中的值、删除文件、向所述服务器发送请求;
步骤204,获取所述执行动作对应的脚本文件,并运行所述脚本文件,所述脚本文件用于针对所述角色需要执行的动作按照预设顺序编排记录的脚本文件。
参考图3,图3是本发明实施例提供的一种大规模计算机集群的操作装置的功能模块示意图。
如图3所示,所述装置包括:
配置模块301,用于配置服务器的角色,所述角色包括全体服务器allnodes、namenodes、secondarynamenode、resourcemanager、jobhistoryserver和datanodes;
优选地,所述配置模块301,具体用于:
存储所述服务器的角色在预设目录下,所述预设目录包括服务器环境配置的模板文件和task任务执行的playbook脚本。
优选地,所述配置模块301,还具体用于:
部署主namenode部署角色和辅助namenode部署角色;
所述部署主namenode部署角色,包括:
创建所述主namenode的预设文件系统目录、所述辅助namenode的预设文件系统目录,再初始化所述预设文件系统,启动namenode服务进程。
优选地,所述配置模块301,还具体用于:
通过预设的数据节点部署的角色,创建目录和启动后台进程。
第一获取模块302,用于获取执行动作,所述执行动作包括通过YUM仓库安装软件、修改配置文件中的值、删除文件、向所述服务器发送请求;
第二获取模块303,用于获取所述执行动作对应的脚本文件;
运行模块304,用于运行所述脚本文件,所述脚本文件用于针对所述角色需要执行的动作按照预设顺序编排记录的脚本文件。
优选地,所述运行模块304,具体用于:
创建所述服务器的用户账号,设置权限,所述权限用于所述用户管理所述服务器的环境,所述管理包括启动、重启或者停止所述服务器;
创建操作系统的账号:
创建所述服务器的管理账号:
创建服务器安装目录,并把服务器的源文件解压;
部署所述模板文件到namenodes、secondarynamenode和datanode上。
优选地,所述装置还包括验证模块,用于:
在配置服务器的角色之后,通过main.yml文件调用create_user.yml:;获取所述服务器信息,所述服务器信息包括概览OverView、Datanodes、Datanode Volume Failures、Snapshot、Startup Progress和Utilities;创建HDFS文件目录,修改HDFS文件目录权限,显示输出HDFS文件系统信息。
本发明实施例提供的一种大规模计算机集群的操作装置,配置服务器的角色,所述角色包括全体服务器allnodes、namenodes、econdarynamenode、resourcemanager、jobhistoryserver和datanodes;获取执行动作,所述执行动作包括通过YUM仓库安装软件、修改配置文件中的值、删除文件、向所述服务器发送请求;获取所述执行动作对应的脚本文件,并运行所述脚本文件,所述脚本文件用于针对所述角色需要执行的动作按照预设顺序编排记录的脚本文件。从而ansible自动化运维组件将复杂的运维操作封装了起来,普通操作人员可以既快又准地进行集群的安装操作。
以上结合具体实施例描述了本发明实施例的技术原理。这些描述只是为了解释本发明实施例的原理,而不能以任何方式解释为对本发明实施例保护范围的限制。基于此处的解释,本领域的技术人员不需要付出创造性的劳动即可联想到本发明实施例的其它具体实施方式,这些方式都将落入本发明实施例的保护范围之内。

Claims (12)

1.一种大规模计算机集群的操作方法,其特征在于,所述方法包括:
配置服务器的角色,所述角色包括全体服务器allnodes、namenodes、secondarynamenode、resourcemanager、jobhistoryserver和datanodes;
获取执行动作,所述执行动作包括通过YUM仓库安装软件、修改配置文件中的值、删除文件、向所述服务器发送请求;
获取所述执行动作对应的脚本文件,并运行所述脚本文件,所述脚本文件用于针对所述角色需要执行的动作按照预设顺序编排记录的脚本文件。
2.根据权利要1所述的方法,其特征在于,所述配置服务器的角色,包括:
存储所述服务器的角色在预设目录下,所述预设目录包括服务器环境配置的模板文件和task任务执行的playbook脚本。
3.根据权利要求2所述的方法,其特征在于,所述配置服务器的角色,包括:
部署主namenode部署角色和辅助namenode部署角色;
所述部署主namenode部署角色,包括:
创建所述主namenode的预设文件系统目录、所述辅助namenode的预设文件系统目录,再初始化所述预设文件系统,启动namenode服务进程。
4.根据权利要求2所述的方法,其特征在于,所述配置服务器的角色,包括:
通过预设的数据节点部署的角色,创建目录和启动后台进程。
5.根据权利要求2所述的方法,其特征在于,所述运行所述脚本文件,包括:
创建所述服务器的用户账号,设置权限,所述权限用于所述用户管理所述服务器的环境,所述管理包括启动、重启或者停止所述服务器;
创建操作系统的账号:
创建所述服务器的管理账号:
创建服务器安装目录,并把服务器的源文件解压;
部署所述模板文件到namenodes、secondarynamenode和datanode上。
6.根据权利要求1至5任意一项所述的方法,其特征在于,所述配置服务器的角色之后,还包括:
通过main.yml文件调用create_user.yml:
获取所述服务器信息,所述服务器信息包括概览OverView、Datanodes、DatanodeVolume Failures、Snapshot、Startup Progress和Utilities;
创建分布式文件系统HDFS文件目录,修改HDFS文件目录权限,显示输出HDFS文件系统信息。
7.一种大规模计算机集群的操作装置,其特征在于,所述装置包括:
配置模块,用于配置服务器的角色,所述角色包括全体服务器allnodes、namenodes、secondarynamenode、resourcemanager、jobhistoryserver和datanodes;
第一获取模块,用于获取执行动作,所述执行动作包括通过YUM仓库安装软件、修改配置文件中的值、删除文件、向所述服务器发送请求;
第二获取模块,用于获取所述执行动作对应的脚本文件;
运行模块,用于运行所述脚本文件,所述脚本文件用于针对所述角色需要执行的动作按照预设顺序编排记录的脚本文件。
8.根据权利要7所述的装置,其特征在于,所述配置模块,具体用于:
存储所述服务器的角色在预设目录下,所述预设目录包括服务器环境配置的模板文件和task任务执行的playbook脚本。
9.根据权利要求8所述的装置,其特征在于,所述配置模块,还具体用于:
部署主namenode部署角色和辅助namenode部署角色;
所述部署主namenode部署角色,包括:
创建所述主namenode的预设文件系统目录、所述辅助namenode的预设文件系统目录,再初始化所述预设文件系统,启动namenode服务进程。
10.根据权利要求8所述的装置,其特征在于,所述配置模块,还具体用于:
通过预设的数据节点部署的角色,创建目录和启动后台进程。
11.根据权利要求8所述的装置,其特征在于,所述运行模块,具体用于:
创建所述服务器的用户账号,设置权限,所述权限用于所述用户管理所述服务器的环境,所述管理包括启动、重启或者停止所述服务器;
创建操作系统的账号:
创建所述服务器的管理账号:
创建服务器安装目录,并把服务器的源文件解压;
部署所述模板文件到namenodes、secondarynamenode和datanode上。
12.根据权利要求7至11任意一项所述的装置,其特征在于,所述装置还包括验证模块,用于:
在配置服务器的角色之后,通过main.yml文件调用create_user.yml:;获取所述服务器信息,所述服务器信息包括概览OverView、Datanodes、Datanode Volume Failures、Snapshot、Startup Progress和Utilities;创建HDFS文件目录,修改HDFS文件目录权限,显示输出HDFS文件系统信息。
CN201611227455.2A 2016-12-27 2016-12-27 一种大规模计算机集群的操作方法及装置 Pending CN106681956A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611227455.2A CN106681956A (zh) 2016-12-27 2016-12-27 一种大规模计算机集群的操作方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611227455.2A CN106681956A (zh) 2016-12-27 2016-12-27 一种大规模计算机集群的操作方法及装置

Publications (1)

Publication Number Publication Date
CN106681956A true CN106681956A (zh) 2017-05-17

Family

ID=58872960

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611227455.2A Pending CN106681956A (zh) 2016-12-27 2016-12-27 一种大规模计算机集群的操作方法及装置

Country Status (1)

Country Link
CN (1) CN106681956A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107172208A (zh) * 2017-06-30 2017-09-15 联想(北京)有限公司 服务器的部署方法及其系统
CN108549717A (zh) * 2018-04-23 2018-09-18 泰华智慧产业集团股份有限公司 自动化部署运维Hadoop生态圈组件的方法及系统
CN108959030A (zh) * 2018-07-02 2018-12-07 郑州云海信息技术有限公司 一种集群管理方法及系统
CN109361572A (zh) * 2018-12-10 2019-02-19 浪潮(北京)电子信息产业有限公司 一种主机集群管理方法及相关装置
CN109376111A (zh) * 2018-09-26 2019-02-22 郑州云海信息技术有限公司 一种服务器集群及其后端管理方法
CN109510852A (zh) * 2017-09-15 2019-03-22 阿里巴巴集团控股有限公司 灰度发布的方法及装置
CN110209407A (zh) * 2019-06-12 2019-09-06 浪潮软件股份有限公司 一种大数据集群自动化部署系统及方法
CN111078490A (zh) * 2019-10-11 2020-04-28 广西电网有限责任公司信息中心 一种基于操作系统监控分析的服务器安全保障方法及系统
CN111309342A (zh) * 2020-02-19 2020-06-19 北京中数智汇科技股份有限公司 一种高可用分布式文件系统的自动部署系统及方法
CN111324356A (zh) * 2018-12-17 2020-06-23 北京数安鑫云信息技术有限公司 一种软件自动化部署方法及系统
CN111782205A (zh) * 2020-07-30 2020-10-16 杭州玳数科技有限公司 一种通用软件部署监控系统及方法
US10887192B2 (en) 2018-08-03 2021-01-05 Red Hat, Inc. Targeted network discovery and visualizations
CN112650537A (zh) * 2020-12-30 2021-04-13 平安证券股份有限公司 服务器配置方法、装置、设备以及计算机可读存储介质
CN112988694A (zh) * 2019-12-12 2021-06-18 北京车和家信息技术有限公司 集中化管理平台批量管理网络文件系统的运维方法及装置
CN114691357A (zh) * 2022-03-16 2022-07-01 东云睿连(武汉)计算技术有限公司 Hdfs容器化服务系统、方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591679A (zh) * 2011-11-30 2012-07-18 中国科学院计算机网络信息中心 一种集群系统应用软件快速部署方法
CN103607462A (zh) * 2013-11-22 2014-02-26 曙光信息产业股份有限公司 一种集群nas部署系统及其部署方法
CN104394223A (zh) * 2014-12-03 2015-03-04 浪潮集团有限公司 大规模计算机集群系统节点的自动化快速部署方法
US20150229715A1 (en) * 2014-02-13 2015-08-13 Linkedin Corporation Cluster management
CN106055486A (zh) * 2016-08-19 2016-10-26 浪潮(北京)电子信息产业有限公司 一种分布式文件系统的自动化运维方法及平台

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591679A (zh) * 2011-11-30 2012-07-18 中国科学院计算机网络信息中心 一种集群系统应用软件快速部署方法
CN103607462A (zh) * 2013-11-22 2014-02-26 曙光信息产业股份有限公司 一种集群nas部署系统及其部署方法
US20150229715A1 (en) * 2014-02-13 2015-08-13 Linkedin Corporation Cluster management
CN104394223A (zh) * 2014-12-03 2015-03-04 浪潮集团有限公司 大规模计算机集群系统节点的自动化快速部署方法
CN106055486A (zh) * 2016-08-19 2016-10-26 浪潮(北京)电子信息产业有限公司 一种分布式文件系统的自动化运维方法及平台

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NMSHUISHUI的博客: "ansible初步使用及YAML语法介绍", 《HTTP://WWW.MAMICODE.COM/INFO-DETAIL-300654.HTML》 *
生活就是过过看: "Ansible--批量 linux/unix服务器管理工具", 《HTTPS://WWW.CNBLOGS.COM/YEYOU/P/5975900.HTML》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107172208A (zh) * 2017-06-30 2017-09-15 联想(北京)有限公司 服务器的部署方法及其系统
CN107172208B (zh) * 2017-06-30 2021-09-14 联想(北京)有限公司 服务器的部署方法及其系统
CN109510852B (zh) * 2017-09-15 2021-07-06 阿里巴巴集团控股有限公司 灰度发布的方法及装置
CN109510852A (zh) * 2017-09-15 2019-03-22 阿里巴巴集团控股有限公司 灰度发布的方法及装置
CN108549717B (zh) * 2018-04-23 2021-06-29 泰华智慧产业集团股份有限公司 自动化部署运维Hadoop生态圈组件的方法及系统
CN108549717A (zh) * 2018-04-23 2018-09-18 泰华智慧产业集团股份有限公司 自动化部署运维Hadoop生态圈组件的方法及系统
CN108959030A (zh) * 2018-07-02 2018-12-07 郑州云海信息技术有限公司 一种集群管理方法及系统
US10887192B2 (en) 2018-08-03 2021-01-05 Red Hat, Inc. Targeted network discovery and visualizations
CN109376111A (zh) * 2018-09-26 2019-02-22 郑州云海信息技术有限公司 一种服务器集群及其后端管理方法
CN109361572A (zh) * 2018-12-10 2019-02-19 浪潮(北京)电子信息产业有限公司 一种主机集群管理方法及相关装置
CN111324356A (zh) * 2018-12-17 2020-06-23 北京数安鑫云信息技术有限公司 一种软件自动化部署方法及系统
CN110209407A (zh) * 2019-06-12 2019-09-06 浪潮软件股份有限公司 一种大数据集群自动化部署系统及方法
CN111078490A (zh) * 2019-10-11 2020-04-28 广西电网有限责任公司信息中心 一种基于操作系统监控分析的服务器安全保障方法及系统
CN111078490B (zh) * 2019-10-11 2024-04-16 广西电网有限责任公司信息中心 一种基于操作系统监控分析的服务器安全保障方法及系统
CN112988694A (zh) * 2019-12-12 2021-06-18 北京车和家信息技术有限公司 集中化管理平台批量管理网络文件系统的运维方法及装置
CN111309342A (zh) * 2020-02-19 2020-06-19 北京中数智汇科技股份有限公司 一种高可用分布式文件系统的自动部署系统及方法
CN111782205A (zh) * 2020-07-30 2020-10-16 杭州玳数科技有限公司 一种通用软件部署监控系统及方法
CN112650537A (zh) * 2020-12-30 2021-04-13 平安证券股份有限公司 服务器配置方法、装置、设备以及计算机可读存储介质
CN112650537B (zh) * 2020-12-30 2024-02-02 平安证券股份有限公司 服务器配置方法、装置、设备以及计算机可读存储介质
CN114691357A (zh) * 2022-03-16 2022-07-01 东云睿连(武汉)计算技术有限公司 Hdfs容器化服务系统、方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN106681956A (zh) 一种大规模计算机集群的操作方法及装置
CN110768833B (zh) 基于kubernetes的应用编排部署方法及装置
US10732960B2 (en) Systems and methods for implementing gold image as a service (GIaaS)
US9575739B2 (en) Performing unattended software installation
CN103336705B (zh) 脚本处理和工作流系统间的自动转码和语义自适应
US8640098B2 (en) Offline configuration and download approach
US8464246B2 (en) Automation of mainframe software deployment
US20090282042A1 (en) Method and system for managing the development of data integration projects to facilitate project development and analysis thereof
CN109298868B (zh) 测绘影像数据处理软件智能动态部署及卸载方法
WO2007105274A1 (ja) 適用パッチ選別装置及び適用パッチ選別方法
CN107885551A (zh) 一种服务部署方法、装置、可读介质及存储控制器
CN112083948B (zh) 一种基于数据配置化的自动化构建部署方法及工具
CN107783816A (zh) 虚拟机的创建方法及装置、大数据集群创建的方法及装置
CN113434158B (zh) 一种大数据组件的自定义管理方法、装置、设备及介质
CN109240716B (zh) 一种大数据平台版本管理与快速迭代部署方法及系统
CN103595707A (zh) 一种基于svn的文件自动网络同步方法
CN110795356B (zh) 基于Ansible实现软件一键式部署与自动化测试的系统及其方法
CN113296795A (zh) 应用部署方法、装置、设备、存储介质及程序产品
US10963227B2 (en) Technique for transforming a standard messaging component to a customized component
CN114443294B (zh) 大数据服务组件部署方法、系统、终端及存储介质
CN112564979B (zh) 构建任务的执行方法、装置、计算机设备和存储介质
US20210271458A1 (en) Managing an app method and system
CN113064698A (zh) 提供产品环境的方法及相应的装置、系统、设备和介质
JP2012053635A (ja) 改ざんチェック装置
KR20230067257A (ko) Ai 모델 서빙 시스템 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170517