CN106681956A

CN106681956A - 一种大规模计算机集群的操作方法及装置

Info

Publication number: CN106681956A
Application number: CN201611227455.2A
Authority: CN
Inventors: 付凯; 朱林
Original assignee: Beijing Ruian Technology Co Ltd
Current assignee: Beijing Ruian Technology Co Ltd
Priority date: 2016-12-27
Filing date: 2016-12-27
Publication date: 2017-05-17

Abstract

本发明实施例公开了一种大规模计算机集群的操作的方法及装置。该方法包括：配置服务器的角色，所述角色包括全体服务器allnodes、namenodes、econdarynamenode、resourcemanager、jobhistoryserver和datanodes；获取执行动作，所述执行动作包括通过YUM仓库安装软件、修改配置文件中的值、删除文件、向所述服务器发送请求；获取所述执行动作对应的脚本文件，并运行所述脚本文件，所述脚本文件用于针对所述角色需要执行的动作按照预设顺序编排记录的脚本文件。从而ansible自动化运维组件将复杂的运维操作封装了起来，普通操作人员可以既快又准地进行集群的安装操作。

Description

一种大规模计算机集群的操作方法及装置

技术领域

本发明实施例涉及计算机操作软件的技术领域，尤其涉及一种大规模计算机集群的操作方法及装置。

背景技术

大规模计算机集群的运维，涉及到硬件、网络、操作系统、应用软件、数据和服务六大领域，每个领域都涉及专业的技术和操作。传统的运维模式下，运维工作依靠专业技术人员，定期对软硬件的运行情况进行检查，面对批量的或复杂的操作，需要编写脚本来执行。这样的操作方式，一方面严重依赖专业人员，另一方面操作效率有限。运维工作是集群平稳运行的重要因素，任何影响运维工作质量和效率的问题，都需要得到有效的解决。

从具体操作上看，大规模计算机集群的运维工作分为以下六个方面：

1、软硬件的部署。如硬件整体上架、操作系统和软件的安装；

2、硬件节点的扩充与缩减。如增加集群节点，减少集群节点；

3、软件的升级、降级与灰度发布。如软件新版本的部署，旧版本的恢复；

4、数据配置的部署。如元数据配置的部署；

5、工作模式的切换。如正常模式切换到维护模式；

6、日常管理。如服务的启停、运维日志的检索。

以上操作，从细节上看，都是由一些列的子步骤组成的。成功操作的要点，就是合理地设计这些步骤并且每步操作都执行到位；高效操作的要点，就是每个步骤都做得既快又好。

为了达到以上目的，常用的方法有：

1、由经验丰富的维护人员进行运维工作。这可以确保单个人的操作效率，但无法大面积推广；

2、编写操作说明文档供维护人员执行。这可以解决操作步骤的规划问题，但无法提高操作效率；

3、开发专门的操作工具或系统供维护人员使用。

这可以解决特定操作的执行效率问题，但操作工具有一定的开发周期和适用范围，在不能覆盖的范围，也无法提高效率。

发明内容

本发明实施例的目的在于提出一种大规模计算机集群的操作方法及装置，旨在解决如何基于Ansible自动化运维组件进行运维操作。

为达此目的，本发明实施例采用以下技术方案：

第一方面，一种大规模计算机集群的操作方法，所述方法包括：

配置服务器的角色，所述角色包括全体服务器allnodes、namenodes、secondarynamenode、resourcemanager、jobhistoryserver和datanodes；

获取执行动作，所述执行动作包括通过YUM仓库安装软件、修改配置文件中的值、删除文件、向所述服务器发送请求；

获取所述执行动作对应的脚本文件，并运行所述脚本文件，所述脚本文件用于针对所述角色需要执行的动作按照预设顺序编排记录的脚本文件。

优选地，所述配置服务器的角色，包括：

存储所述服务器的角色在预设目录下，所述预设目录包括服务器环境配置的模板文件和task任务执行的playbook脚本。

优选地，所述配置服务器的角色，包括：

部署主namenode部署角色和辅助namenode部署角色；

所述部署主namenode部署角色，包括：

创建所述主namenode的预设文件系统目录、所述辅助namenode的预设文件系统目录，再初始化所述预设文件系统，启动namenode服务进程。

优选地，所述配置服务器的角色，包括：

通过预设的数据节点部署的角色，创建目录和启动后台进程。

优选地，所述运行所述脚本文件，包括：

创建所述服务器的用户账号，设置权限，所述权限用于所述用户管理所述服务器的环境，所述管理包括启动、重启或者停止所述服务器；

创建操作系统的账号：

创建所述服务器的管理账号：

创建服务器安装目录，并把服务器的源文件解压；

部署所述模板文件到namenodes、secondarynamenode和datanode上。

优选地，所述配置服务器的角色之后，还包括：

然后通过main.yml文件调用create_user.yml：

获取所述服务器信息，所述服务器信息包括概览OverView、Datanodes、DatanodeVolume Failures、Snapshot、Startup Progress和Utilities；

创建HDFS文件目录，修改HDFS文件目录权限，显示输出HDFS文件系统信息。

第二方面，一种大规模计算机集群的操作装置，所述装置包括：

配置模块，用于配置服务器的角色，所述角色包括全体服务器allnodes、namenodes、secondarynamenode、resourcemanager、jobhistoryserver和datanodes；

第一获取模块，用于获取执行动作，所述执行动作包括通过YUM仓库安装软件、修改配置文件中的值、删除文件、向所述服务器发送请求；

第二获取模块，用于获取所述执行动作对应的脚本文件；

运行模块，用于运行所述脚本文件，所述脚本文件用于针对所述角色需要执行的动作按照预设顺序编排记录的脚本文件。

优选地，所述配置模块，具体用于：

优选地，所述配置模块，还具体用于：

部署主namenode部署角色和辅助namenode部署角色；

所述部署主namenode部署角色，包括：

优选地，所述配置模块，还具体用于：

优选地，所述运行模块，具体用于：

创建操作系统的账号：

创建所述服务器的管理账号：

创建服务器安装目录，并把服务器的源文件解压；

部署所述模板文件到namenodes、secondarynamenode和datanode上。

优选地，所述装置还包括验证模块，用于：

在配置服务器的角色之后，通过main.yml文件调用create_user.yml：；获取所述服务器信息，所述服务器信息包括概览OverView、Datanodes、Datanode Volume Failures、Snapshot、Startup Progress和Utilities；创建HDFS文件目录，修改HDFS文件目录权限，显示输出HDFS文件系统信息。

本发明实施例提供的一种大规模计算机集群的操作方法及装置，配置服务器的角色，所述角色包括全体服务器allnodes、namenodes、econdarynamenode、resourcemanager、jobhistoryserver和datanodes；获取执行动作，所述执行动作包括通过YUM仓库安装软件、修改配置文件中的值、删除文件、向所述服务器发送请求；获取所述执行动作对应的脚本文件，并运行所述脚本文件，所述脚本文件用于针对所述角色需要执行的动作按照预设顺序编排记录的脚本文件。从而ansible自动化运维组件将复杂的运维操作封装了起来，普通操作人员可以既快又准地进行集群的安装操作。

附图说明

图1是本发明实施例提供的一种大规模计算机集群的操作方法的流程示意图；

图2是本发明实施例提供的另一种大规模计算机集群的操作方法的流程示意图；

图3是本发明实施例提供的一种大规模计算机集群的操作装置的功能模块示意图。

具体实施方式

下面结合附图和实施例对本发明实施例作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明实施例，而非对本发明实施例的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明实施例相关的部分而非全部结构。

参考图1，图1是本发明实施例提供的一种大规模计算机集群的操作方法的流程示意图。

如图1所示，所述大规模计算机集群的操作方法包括：

步骤101，配置服务器的角色，所述角色包括全体服务器所有节点(allnodes)、主节点(namenodes)、后备主节点(secondarynamenode)、资源管理器(resourcemanager)、任务管理器(jobhistoryserver)和数据节点(datanodes)；

具体的，Ansible自动化运维组件，将运维操作抽象成了三个部分：角色、动作和剧本。Ansible是集群运维的项目基础支撑工具之一，是一款实现读/写跨平台的“Infrastructure-as-code”工具，从系统管理者到开发者，都可使用Ansible自动化部署并维护整个应用的生命周期，实现持续交付。

角色就是网络中的一台或一组设备，如某台服务器、某台交换机、某一组功能相同的服务器(如集群)。一个分布式存储和计算框架，包括Namenode、Datanode和资源管理器三个组件。

动作就是运维操作的一个步骤，如通过YUM仓库安装一个软件、修改配置文件中的某个值、删除某个文件、向某个服务发送请求等。YUM仓库为：Linux操作系统的标准软件分发方式之一，通过YUM仓库可以快捷地安装软件及其依赖。

剧本就是将针对角色需要执行的动作，按照一定的顺序编排记录的脚本文件。支持多个角色和多个动作。

在Ansible自动化管理中，首先需要分析被管节点的功能、需要部署软件、使用的配置文件，根据节点配置参数相同、相似、可继承等方式对节点进行分组，形成Ansible的资源清单(in-ventory)，再由ansible-playbook对这些分组进行模板、任务的组织。

以集群的部署为例进行说明。首先，需要设计相关服务器的角色，与集群部署相关的角色有：

1、allnodes，即全体服务器；2、namenodes；3、secondarynamenode；

4、resourcemanager；5、jobhistoryserver；6、datanodes。

然后，再确定集群安装需要的步骤：

1、给allnodes安装集群软件(通过YUM仓库安装)；

2、给allnodes修改core-site.xml、cluster-env.sh、hdfs-site.xml配置文件；

3、给各个角色的节点修改各角色的属性配置文件；

4、按角色启动各个服务器上的服务；

5、检查各个服务的运行情况；

6、检查集群整体的运行情况；

7、输出部署报告。

最后，将以上步骤按照playbook的语法，编写成playbook脚本，即可通过ansible相关命令执行。

优选地，所述配置服务器的角色，包括：

部署主namenode部署角色和辅助namenode部署角色；

所述部署主namenode部署角色，包括：

优选地，所述配置服务器的角色，包括：

具体的，1、准备集群基础角色：

准备集群角色在roles/cdh5_commons目录下，主要包含集群环境配置的模板文件、task任务执行的playbook脚本。执行任务task的playbook脚本文件；创建集群用户账号，设置权限，该用户将用户对集群环境的管理，包括服务的启动、重启、停止等。首先是创建操作系统的账号。然后创建集群的管理账号：创建集群安装目录，并把集群安装包的源文件解压，部署模板文件到每个节点上。

2、部署NameNode角色：

在集群中，NameNode负责对HDFS的元数据(metadata)持久化存储，处理来自客户端对HDFS各种操作的交互反馈。为了保证交互速度，HDFS文件系统的元数据被转载到NameNode主机的内存中，并且会将内存中这些元数据保存到磁盘进行持久化存储。为了使这个持久化过程不会成为HDFS操作的瓶颈，集群通常不是对每一次操作的当前文件系统直接snapshot进行持久化，而是对HDFS最近一段时间的操作列表保存到NameNode中的Editlog文件中。当需要重启NameNode时，除了加载fsImage之外，还对EditLog文件中记录的HDFS操作进行重做(replay)，恢复HDFS重启之前的最近状态。

部署NameNode包括主NameNode部署角色(cdh5_namenode_primary)和辅助NameNode部署角色(cdh5_namenode_secondary)。

1)、部署主NameNode：

创建主NameNode的cluster_hdfs文件系统目录、辅助NameNode的cluster_hdfs文件系统目录，然后初始化cluster_hdfs文件系统，最后启动Namenode服务进程。

2)、部署辅助NameNode：

为提高集群系统可靠性，生产系统一般还会部署辅助NameNode，会周期性地将EditLog中记录的Hadoop分布式文件系统(HDFS)操作合并到一个CheckPoint中，然后清空EditLog。在NameNode重启时就会装载最新的一个CheckPoint，并重做EditLog中记录的HDFS操作。由于EditLog中记录的是从上一次CheckPoint以后到现在的操作记录，所以比较小，能够快速恢复到重启集群最近的状态，保证系统的完整性。

部署辅助NameNode角色与部署主NameNode的playbook脚本基本一样，只是在启动服务时候参数是secondarynamenode。

3、部署资源管理器角色：

通过YARN大大扩展了集群传统应用的潜在应用范围。YARN构建于当前集群的现有元素之上，是一个真正的集群资源管理器，改进了JobTracker等元素，提高了可伸缩性和增强许多不同应用程序共享集群的能力，允许多个应用程序同时、高效地运行在一个的集群上。YARN是大数据发展的一个基础性组件。YARN将传统的集群放到了一个可组合的、契合目的(fit-to-purpose)的平台中，以处理数据管理、分析和交易计算等工作。

YARN中的资源管理器(Resource Manager)负责整个系统的资源管理和调度，并内部维护了各个应用程序的ApplictionMaster信息、NodeManager信息、资源使用信息等。

4、部署DataNode角色：

DataNode是文件系统的工作节点，最终存储数据的位置。它们根据客户端或者NameNode的调度存储和检索数据，并且定期向NameNode发送它们所存储的块(block)的列表。

集群中的每个数据服务节点都运行着一个DataNode后台进程，这个后台进程负责把HDFS数据块读写到本地的文件系统。当需要通过客户端读/写某个数据时，先由NameNode告诉客户端去哪个DataNode进行具体的读/写操作，然后客户端直接与这个DataNode服务节点的后台程序进行通信，并对相关的数据块进行读/写操作。

对于DataNode部署，我们编写了数据节点部署的角色，负责目录创建和启动后台进程。

在DataNode上启动集群进程时将会调用从cdh5_common/templates部署到yarn-site.xml的配置文件。

步骤102，获取执行动作，所述执行动作包括通过YUM仓库安装软件、修改配置文件中的值、删除文件、向所述服务器发送请求；

步骤103，获取所述执行动作对应的脚本文件，并运行所述脚本文件，所述脚本文件用于针对所述角色需要执行的动作按照预设顺序编排记录的脚本文件。

优选地，所述运行所述脚本文件，具体的执行动作有：

1、读取所有配置文件，并初始化运行环境；

2、获取allnodes和各个角色的节点列表；

3、根据脚本参数选定目标节点；

4、根据脚本参数选定待执行的命令；

5、将待执行的命令分发到各个目标节点上，并执行这些命令；

6、打印输出执行结果

优选地，所述运行所述脚本文件，包括：

创建操作系统的账号：

创建所述服务器的管理账号：

创建服务器安装目录，并把服务器的源文件解压；

部署所述模板文件到namenodes、secondarynamenode和datanode上。

本发明实施例提供的一种大规模计算机集群的操作方法，配置服务器的角色，所述角色包括全体服务器allnodes、namenodes、econdarynamenode、resourcemanager、jobhistoryserver和datanodes；获取执行动作，所述执行动作包括通过YUM仓库安装软件、修改配置文件中的值、删除文件、向所述服务器发送请求；获取所述执行动作对应的脚本文件，并运行所述脚本文件，所述脚本文件用于针对所述角色需要执行的动作按照预设顺序编排记录的脚本文件。从而ansible自动化运维组件将复杂的运维操作封装了起来，普通操作人员可以既快又准地进行集群的安装操作。

参考图2，图2是本发明实施例提供的另一种大规模计算机集群的操作方法的流程示意图。

如图2所示，所述大规模计算机集群的操作方法包括：

步骤201，配置服务器的角色，所述角色包括全体服务器allnodes、namenodes、secondarynamenode、resourcemanager、jobhistoryserver和datanodes；

步骤202，通过main.yml文件调用create_user.yml：获取所述服务器信息，所述服务器信息包括概览OverView、Datanodes、Datanode Volume Failures、Snapshot、StartupProgress和Utilities；创建HDFS文件目录，修改HDFS文件目录权限，显示输出HDFS文件系统信息；

具体的，部署后集群初始化与验证：

集群系统部署完成后需要对集群DHFS进行初始化，同时运维也需要了解集群运行状态，可以从Web界面和命令行方式分别了解集群的使用情况。

1、部署后初始化：

安装好集群软件、启动了服务之后，就准备开始使用。这是需要对集群系统做些初始化工作，主要是创建集群用户账号、授权、创建服务目录。专门放置在post_install_setups角色中；

2、部署后集群验证：

下面分别从Web界面和命令行方式了解集群的使用情况。

1.Web查看集群信息；

在浏览器中输入http://主节点IP:50070/，将会看到集群的主要信息，包括概览(OverView)、DataNodes、Datanode Volume Failures、Snapshot、Startup Progress、Utilities等内容。

2.命令行；

创建HDFS文件目录：

修改HDFS文件目录权限：

显示输出HDFS文件系统信息。

步骤203，获取执行动作，所述执行动作包括通过YUM仓库安装软件、修改配置文件中的值、删除文件、向所述服务器发送请求；

步骤204，获取所述执行动作对应的脚本文件，并运行所述脚本文件，所述脚本文件用于针对所述角色需要执行的动作按照预设顺序编排记录的脚本文件。

参考图3，图3是本发明实施例提供的一种大规模计算机集群的操作装置的功能模块示意图。

如图3所示，所述装置包括：

配置模块301，用于配置服务器的角色，所述角色包括全体服务器allnodes、namenodes、secondarynamenode、resourcemanager、jobhistoryserver和datanodes；

优选地，所述配置模块301，具体用于：

优选地，所述配置模块301，还具体用于：

部署主namenode部署角色和辅助namenode部署角色；

所述部署主namenode部署角色，包括：

优选地，所述配置模块301，还具体用于：

第一获取模块302，用于获取执行动作，所述执行动作包括通过YUM仓库安装软件、修改配置文件中的值、删除文件、向所述服务器发送请求；

第二获取模块303，用于获取所述执行动作对应的脚本文件；

运行模块304，用于运行所述脚本文件，所述脚本文件用于针对所述角色需要执行的动作按照预设顺序编排记录的脚本文件。

优选地，所述运行模块304，具体用于：

创建操作系统的账号：

创建所述服务器的管理账号：

创建服务器安装目录，并把服务器的源文件解压；

部署所述模板文件到namenodes、secondarynamenode和datanode上。

优选地，所述装置还包括验证模块，用于：

本发明实施例提供的一种大规模计算机集群的操作装置，配置服务器的角色，所述角色包括全体服务器allnodes、namenodes、econdarynamenode、resourcemanager、jobhistoryserver和datanodes；获取执行动作，所述执行动作包括通过YUM仓库安装软件、修改配置文件中的值、删除文件、向所述服务器发送请求；获取所述执行动作对应的脚本文件，并运行所述脚本文件，所述脚本文件用于针对所述角色需要执行的动作按照预设顺序编排记录的脚本文件。从而ansible自动化运维组件将复杂的运维操作封装了起来，普通操作人员可以既快又准地进行集群的安装操作。

以上结合具体实施例描述了本发明实施例的技术原理。这些描述只是为了解释本发明实施例的原理，而不能以任何方式解释为对本发明实施例保护范围的限制。基于此处的解释，本领域的技术人员不需要付出创造性的劳动即可联想到本发明实施例的其它具体实施方式，这些方式都将落入本发明实施例的保护范围之内。

Claims

1.一种大规模计算机集群的操作方法，其特征在于，所述方法包括：

2.根据权利要1所述的方法，其特征在于，所述配置服务器的角色，包括：

3.根据权利要求2所述的方法，其特征在于，所述配置服务器的角色，包括：

部署主namenode部署角色和辅助namenode部署角色；

所述部署主namenode部署角色，包括：

4.根据权利要求2所述的方法，其特征在于，所述配置服务器的角色，包括：

5.根据权利要求2所述的方法，其特征在于，所述运行所述脚本文件，包括：

创建操作系统的账号：

创建所述服务器的管理账号：

创建服务器安装目录，并把服务器的源文件解压；

部署所述模板文件到namenodes、secondarynamenode和datanode上。

6.根据权利要求1至5任意一项所述的方法，其特征在于，所述配置服务器的角色之后，还包括：

通过main.yml文件调用create_user.yml：

创建分布式文件系统HDFS文件目录，修改HDFS文件目录权限，显示输出HDFS文件系统信息。

7.一种大规模计算机集群的操作装置，其特征在于，所述装置包括：

第二获取模块，用于获取所述执行动作对应的脚本文件；

8.根据权利要7所述的装置，其特征在于，所述配置模块，具体用于：

9.根据权利要求8所述的装置，其特征在于，所述配置模块，还具体用于：

部署主namenode部署角色和辅助namenode部署角色；

所述部署主namenode部署角色，包括：

10.根据权利要求8所述的装置，其特征在于，所述配置模块，还具体用于：

11.根据权利要求8所述的装置，其特征在于，所述运行模块，具体用于：

创建操作系统的账号：

创建所述服务器的管理账号：

创建服务器安装目录，并把服务器的源文件解压；

部署所述模板文件到namenodes、secondarynamenode和datanode上。

12.根据权利要求7至11任意一项所述的装置，其特征在于，所述装置还包括验证模块，用于：