CN105005487B

CN105005487B - 一种持续服务的高性能集群操作系统在线升级方法

Info

Publication number: CN105005487B
Application number: CN201510369044.6A
Authority: CN
Inventors: 杨涛; 王亚坤; 林宇; 葛云峰
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2015-06-29
Filing date: 2015-06-29
Publication date: 2018-06-22
Anticipated expiration: 2035-06-29
Also published as: CN105005487A

Abstract

本发明公开了一种持续服务的高性能集群操作系统在线升级方法，包括：确定集群系统中的一批待升级计算节点，作业调度和资源管理系统将作业请求分配到待升级计算节点之外的计算节点上，在待升级计算节点处理完其节点上的作业请求后，隔离待升级计算节点，由集群装机系统进行待升级计算节点的操作系统的升级；完成升级后，作业调度和资源管理系统控制部分用户通过第二提交节点向高性能集群系统提交作业请求，并将该部分用户的作业请求分配到升级后的计算节点上；之后确定新一批待升级计算节点，重复升级步骤直至完成所有计算节点的操作系统升级。该方法可在保持持续服务的状态下对集群进行升级改造，且升级对用户的影响较小，提高了用户满意度。

Description

一种持续服务的高性能集群操作系统在线升级方法

技术领域

本发明属于高性能科学计算领域，具体涉及一种持续服务的高性能集群操作系统在线升级方法。

背景技术

随着信息化社会的飞速发展，人类对信息处理能力的要求越来越高，越来越多的领域对高性能计算的需求迅猛增长。高性能计算(High performance computing，缩写HPC)指通常使用很多处理器(作为单个机器的一部分)或者某一集群中组织的几台计算机(作为单个计算资源操作)的计算系统和环境。有许多类型的HPC系统，其范围从标准计算机的大型集群，到高度专用的硬件。大多数基于集群的HPC系统使用高性能网络互连，比如基于InfiniBand(40GB或56GB带宽)的网络互连。基本的网络拓扑和组织可以使用一个简单的总线拓扑，在性能很高的环境中，网状网络系统在主机之间提供较短的潜伏期，所以可改善总体网络性能和传输速率。

高性能计算集群，英文原文为High Performance Computing Cluster,简称HPC集群，是指以提高科学计算能力为目的计算机集群技术。HPC集群上的软件安装和配置是一个比较复杂的工作，特别是集群规模达到100个以上的时候。随着操作系统的不断升级和工具软件的优化，如何在保持持续服务的状态下对集群进行升级改造，让升级对上层的实际用户透明化，是现有HPC集群操作系统升级中HPC管理员所面临的挑战，本发明正是针对该问题而提供的一种持续服务的高性能集群操作系统在线升级方法。

发明内容

针对现有技术中存在的缺陷，本发明的目的在于提供一种持续服务的高性能集群操作系统在线升级方法，该方法可在保持持续服务的状态下对集群进行升级改造。

为实现上述目的，本发明采用的技术方案如下：

一种持续服务的高性能集群操作系统在线升级方法，包括以下步骤：

(1)将待升级的高性能集群系统的计算节点进行分批，确定一批当前的待升级计算节点；

(2)高性能集群系统的作业调度和资源管理系统控制用户通过第一提交节点向高性能集群系统提交作业请求，并由管理节点将用户提交的作业请求分配到所述待升级计算节点之外的计算节点上；

(3)所述待升级计算节点处理完其节点上的作业请求后，隔离所述待升级计算节点，由高性能集群系统的集群装机系统进行所述待升级计算节点的操作系统的升级；

(4)完成所述待升级计算节点的操作系统的升级后，作业调度和资源管理系统控制部分用户通过第二提交节点向高性能集群系统提交作业请求，并由管理节点将该部分用户提交的作业请求分配到完成升级后的计算节点上；

(5)确定新的一批待升级计算节点，作业调度和资源管理系统的管理节点将用户提交的作业请求分配到所述待升级计算节点之外的计算节点上，重复步骤三和步骤四直至完成所有高性能集群系统中所有计算节点的操作系统的升级。

进一步，如上所述的一种持续服务的高性能集群操作系统在线升级方法，步骤(2)中，所述第一提交节点为与升级前的计算节点的操作系统相匹配的提交节点；步骤四中，所述第二提交节点为与升级后的计算节点的操作系统相匹配的提交节点。

进一步，如上所述的一种持续服务的高性能集群操作系统在线升级方法，步骤(2)中，管理节点分配给计算节点的作业请求存储在高性能集群系统的并行文件系统中，计算节点与并行文件系统通过两者之间的I/O端口通信。

进一步，如上所述的一种持续服务的高性能集群操作系统在线升级方法，步骤(3)中，隔离所述待升级计算节点包括隔离待升级计算节点与所述并行文件系统的I/O端口。

进一步，如上所述的一种持续服务的高性能集群操作系统在线升级方法，步骤(4)中，完成所述待升级计算节点的操作系统的升级后，在完成升级后的计算节点中重新安装所述并行文件系统，重启完成升级后的计算节点与所述并行文件系统的I/O端口，并将完成升级后的计算节点加入到作业调度和资源管理系统所管理的计算节点列表中，作业调度和资源管理系统控制部分用户通过第二提交节点向高性能集群系统提交作业请求。

进一步，如上所述的一种持续服务的高性能集群操作系统在线升级方法，步骤(4)中，作业调度和资源管理系统控制部分用户通过第二提交节点向高性能集群系统提交作业请求时，根据已升级的计算节点的数量以及用户作业请求的优先级别确定哪些用户通过第二提交节点向高性能集群系统提交作业请求。

再进一步，如上所述的一种持续服务的高性能集群操作系统在线升级方法，步骤(5)中，完成所有计算节点的操作系统升级后，所有用户都通过第二提交节点向高性能集群系统提交作业请求。

更进一步，如上所述的一种持续服务的高性能集群操作系统在线升级方法，当升级后的计算节点发生故障时，将升级后的计算节点的操作系统回退到升级前的操作系统。

本发明的有益效果在于：

1)本发明所述的在线升级方法，不需要集群停机，可在保持持续服务的状态下对集群进行升级改造，对提高HPC集群的连续服务能力有很好的效果；

2)集群承载的用户任务(作业请求)基本不受影响，用户基本感受不到升级所造成的影响，提高了集群用户的满意度；

3)采用分批次渐进的升级方式，能够有效减轻管理员的劳动强度，升级风险较小；

4)在升级后的系发生不可预测的问题时，还可平稳的会退到原有的操作系统。

附图说明

图1为本发明具体实施方式中提供的一种持续服务的高性能集群操作系统在线升级方法的流程图；

图2为实施例中的待升级的高性能集群系统的示意图。

具体实施方式

下面结合说明书附图与具体实施方式对本发明做进一步的详细说明。

本实施方式中的高性能集群系统即HPC系统主要包括了以下几个部分：

作业调度和资源管理系统，如LSF(Load Sharing Facility)系统，用于集群系统的作业调度、管理及负载均衡等，包括提交节点和管理节点，集群用户通过作业调度和资源管理系统的提交节点(即用户登录节点)向集群系统提交作业请求(即计算节点需要处理的任务)，提交节点将接收到的作业请求提交给管理节点，管理节点对集群的资源进行统一的监控和合理调度后，将作业请求分发到各计算节点上；

计算节点，用于接收并处理作业调度和资源管理系统的管理节点分配的作业请求；

并行文件系统，如GPFS(General Parallel File System)存储资源池，主要用于存储计算节点的待处理的作业任务，其下可以连接一些异构的不同厂家的磁盘阵列或存储系统，计算节点通过I/O接口与并行文件系统通信；

集群装机系统，如XCAT(Extreme Cloud Administration Toolkit)，用于集群中计算节点的操作系统的升级。

图1示出了本发明具体实施方式中提供的一种持续服务的高性能集群操作系统在线升级方法的流程图，由图中可以看出，该方法可以包括以下几个步骤：

步骤S100：确定高性能集群系统中的一批待升级计算节点；

由于高性能集群系统中计算节点很多，为了降低集群操作系统的升过程中对用户造成的影响，在高性能集群系统正常运行状态下，将待升级的高性能集群系统的计算节点进行分批，对计算节点进行分批次升级，在分批完成后，确定一批当前的待升级计算节点。例如，计算中的计算节点数量在100左右，可以将计算节点的升级窗口设置为10，即每次升级10个计算节点。

在实际应用中，首先升级哪一批计算节点，可以有管理员根据升级需要进行确定，如考虑计算节点上的作业处理能力及集群系统的作业处理需要，一批待升级的计算节点中，计算节点可以是连续的，也可以不连续的。

步骤S200：作业调度和资源管理系统控制用户通过第一提交节点向集群系统提交作业请求，并将作业请求分配到待升级计算节点之外的计算节点上；

在确定好需要升级的一批计算节点后，高性能集群系统中的作业调度和资源管理系统就会控制用户通过第一提交节点向高性能集群系统提交作业请求，并由管理节点将用户提交的作业请求分配到所述待升级计算节点之外的计算节点上。其中，所述第一提交节点为与升级前的计算节点的操作系统相匹配的提交节点。

在实际应用中，作业调度和资源管理系统中的提交节点至少是两个，当然可以是多个，这样才能保证在一些计算节点升级完成后，有与未升级的计算节点相对应的提交节点，也有与升级后的计算节点的相对应的提交节点(后文中的第二提交节点)。

管理节点分配给计算节点的作业请求存储在高性能集群系统的并行文件系统中，计算节点和并行文件系统通过两者之间的I/O端口通信。

步骤S300：隔离所述待升级计算节点，由高性能集群系统的集群装机系统进行所述待升级计算节点的操作系统的升级；

由于步骤S200中，在确定了待升级计算节点后，作业调度和资源管理系统的管理节点只会将用户提交的作业请求分配到待升级计算节点之外的计算节点上，因此待升级计算节点上不会再接受到新的作业请求(即计算任务)，在所述待升级计算节点处理完其节点上的作业请求(确定为当前待升级节点之前接收到的作业请求)后，隔离所述待升级计算节点，由高性能集群系统的集群装机系统进行所述待升级计算节点的操作系统的升级。

其中，由高性能集群系统的集群装机系统进行待升级计算节点的操作系统的升级的具体方式为现有技术，在此不再详细描述。

本实施方式中，隔离所述待升级计算节点还包括隔离待升级计算节点与所述并行文件系统的I/O端口。这是因为，在待升级计算节点的操作系统升级后，升级前的原有并行文件系统的版本很有可能是与升级后的计算节点的操作系统是不匹配的，因此，需要对计算节点与升级前的并行文件系统的I/O端口进行隔离，在升级完成后，再安装与升级后的计算节点的操作系统相匹配的并行文件系统。

步骤S400：完成待升级计算节点的操作系统升级后，将部分用户提交的作业请求搬迁到升级后的计算节点上；

完成所述待升级计算节点的操作系统的升级后，作业调度和资源管理系统控制部分用户通过第二提交节点向高性能集群系统提交作业请求，并由管理节点将该部分用户提交的作业请求分配到完成升级后的计算节点上。

其中，所述第二提交节点为与升级后的计算节点的操作系统相匹配的提交节点。也就是说，在确定了待升级节点之后，需要对作业调度和资源管理系统中的一个提交节点(如果原来有多个提交节点，也可以是多个提交节点中的一部分)进行系统升级，使升级后的提交节点的配置与升级后的计算节点的操作系统相匹配。

完成所述待升级计算节点的操作系统的升级后，在完成升级后的计算节点中重新安装所述并行文件系统，重启完成升级后的计算节点与所述并行文件系统的I/O端口，并将完成升级后的计算节点加入到作业调度和资源管理系统所管理的计算节点列表中，即告知作业调度和资源管理系统哪些是完成了升级后的计算节点，将升级后的计算节点加入到集群系统中，此时，作业调度和资源管理系统控制部分用户通过第二提交节点向高性能集群系统提交作业请求。

在作业调度和资源管理系统控制部分用户通过第二提交节点向高性能集群系统提交作业请求时，可以根据已升级的计算节点的数量以及用户作业请求的优先级别确定哪些用户通过第二提交节点向高性能集群系统提交作业请求。例如，集群系统中共有100个计算节点，此次升级完成后共有10个计算节点完成了升级，此时可以考虑将原有集群用户中的十分之一用户的作业请求搬迁到这10个计算节点上，当然，也可以根据需要，将处理优先级别不高的用户的作用请求搬迁到升级后的计算节点上。

步骤S500：确定新的一批待升级计算节点，重复升级步骤进行新的待升级计算节点的操作系统升级，直至完成所有计算节点的操作系统升级。

在完成一批计算节点的操作系统的升级后，确定步骤S100中分批后的计算节点中新的一批待升级计算节点，作业调度和资源管理系统的管理节点将用户提交的作业请求分配到所述待升级计算节点之外的计算节点上，重复S400和步骤S500，直至完成所有高性能集群系统中所有计算节点的操作系统的升级。

本实施方式中，在确定新的一批待升级计算节点后，步骤S400中所述的部分用户会向作业调度和资源管理系统的第二提交节点提交作业请求，管理节点将该部分用户的作业请求分配到已完成升级的计算节点上，该部分用户之外的其它用户仍然向第一提交节点提交作业请求，管理节点将第一提交节点上的作业请求分配到除新的一批待升级计算节点和升级完成后的计算节点之外的计算几点上。

在完成所有计算节点的操作系统升级后，所有用户都通过第二提交节点向高性能集群系统提交作业请求，即在完成整个集群系统的计算节点的操作系统的升级后，所有用户都向第二提交节点提交作业请求，再由管理节点将作业请求分配到所有计算节点上。

本实施方式中，当升级后的计算节点发生故障(如操作系统软件与上层用户应用软件不兼容、新的操作系统不稳定)时，可以将升级后的计算节点的操作系统回退到升级前的操作系统。回退的过程与待升级计算节点的升级过程类似，即：首先确定一批待回退的计算节点，隔离该批节点，由集群装机系统将该批节点的操作系统回退到原有的操作系统上，回退完成后，将部分用户搬迁到该批节点上，然后再确定新的一批待回退计算节点，重复上述回退过程，直至所有计算节点都回退到原有操作系统。

下面结合具体实施例对本发明所述的方法进行进一步说明。

实施例

本实施例中，待升级的HPC系统中采用的的作业调度和资源管理系统是LSF，并行文件系统为GPFS存储资源池，集群装机系统为XCAT。本实施例中所涉及的技术术语解释如下：

1.管理员：为集群软件升级提供支持的管理人员；

2.用户：使用该集群的实际用户，利用LSF提交应用作业；

3.XCAT：可扩展分布式计算机管理和准备工具，它提供了一个统一的用户界面来进行硬件控制、扫面和操作系统的部署；

4.LSF：Load Sharing Facility是Platform公司开发的基于负载均衡的作业调度和资源管理软件系统，是商用网格计算系统的代表性产品，对于解决大规模的计算问题具有很强的优势。

5.未升级窗口：还未进行升级的节点窗口，数量是动态减少的；

6.当前升级窗口：当前正在进行升级的节点窗口，数量是动态增加的；

7.已升级窗口：已升级完成的节点窗口，数量是动态增加的；

8.GPFS存储资源池：指利用GPFS并行文件系统构建的存储系统，其下连接一些异构的不同厂家的磁盘阵列或存储系统。

图2示出了本实施例中待升级的高性能集群系统的示意图，该实施例中的集群节点数量为100，即计算节点的数量为100，当前升级窗口的窗口宽度设置为10，即每次升级10个计算节点的操作系统。

本实施例中，LSF中包括两个提交节点(用户登录的节点)，即提交节点01和提交节点02，本实施例中记为Login01和Login02，集群用户通过提交节点提交作业请求，在集群系统不需要升级，正常运行时，Login01和Login02的作用是相同的，用户通过提交节点提交的作业请求由管理节点分配到计算节点上。

采用本发明所述的升级方法对图2中所示的集群系统进行操作系统升级的具体步骤如下：

步骤一：集群系统在正常运行状态，系统管理员使用root用户登录集群的mgt节点即管理节点，管理员通过管理节点集中管理和配置整个集群。

步骤二：安装XCAT升级环境并测试，即安装XCAT开源软件，如果集群系统在升级之前已经安装了XCAT，该步骤即可省略。

步骤三：确定提交节点中一个与升级后的计算节点操作系统相对应的提交节点；

由于计算节点的操作系统升级后，原有的提交节点很可能与升级后的节点操作系统是不匹配的，因此，需要选择一个提交节点作为升级后的操作系统的提交节点，即将原有的两个提交节点一个作为与原操作系统对应的提交节点(本实施例中称为第一提交节点)，一个作为与升级后的操作系统对应的提交节点(本实施例中称为第二提交节点)。本实施例中将Login02作为第二提交节点。

之后，对原有Login02进行系统升级，以使其与升级后的计算节点操作系统相匹配，对原有Login02进行系统升级的方式为现有技术，升级时还需将/Share/util/lsf913/conf/lsf.conf配置文件(LSF的主配置文件)里面的LSF_MASTER_LIST设置成login02，即将LSF的主控制器设置为login02，其作为升级后的集群系统的提交节点。

步骤四：确定第一批进行升级的计算节点为计算节点31-计算节点40，即node31-node40，在node31-node40执行完其节点上的任务(作业请求)后，隔离这10台计算节点，并修改这10待升级计算节点的启动方式，由硬盘启动方式修改为网络启动方式，这是因为采用XCAT进行系统时，要求带升级计算节点的启动方式为网络启动方式；最后关闭需要升级系统的计算节点即psh node31-node40"shutdown-h now"。

步骤五：XCAT升级本批10台计算节点：选择安装的系统镜像nodeset node31-node40 osimage＝rhels7.0-x86_64-install-compute；设置从网络启动节点rsetbootnode31-node40net；节点开机rpower node31-node40on；查看节点状态nodestat node31-node40，系统安装完成后nodestat会显示sshd，此时表示升级完成。

步骤六：升级完成后，GPFS安装本批10台计算节点客户端并挂载，即在升级后的计算节点上重新部署GPFS客户端软件和进行相应配置，重启完成升级后的计算节点与所述并行文件系统的I/O端口。

步骤七：LSF安装本批升级后的10台计算节点客户端，即告诉LSF哪些是升级后的计算节点，将完成升级后的计算节点加入到LSF所管理的计算节点列表中。

步骤八：迁移部分用户至已升级的计算节点：视LSF作业状态，通知部分用户通过已升级的Login02提交作业请求，由管理节点将这些用户的作业请求分配到升级后的计算节点上，即将部分用户的作业任务迁移至升级的计算节点上。

步骤九：采用给上述升级方式升级下一批10台计算节点，直至完成所有计算节点的升级，将全部用户都迁移至升级后的计算节点上，升级任务完成。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其同等技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种持续服务的高性能集群操作系统在线升级方法，包括以下步骤：

2.根据权利要求1所述的一种持续服务的高性能集群操作系统在线升级方法，其特征在于：步骤(2)中，所述第一提交节点为与升级前的计算节点的操作系统相匹配的提交节点；步骤四中，所述第二提交节点为与升级后的计算节点的操作系统相匹配的提交节点。

3.根据权利要求1所述的一种持续服务的高性能集群操作系统在线升级方法，其特征在于：步骤(2)中，管理节点分配给计算节点的作业请求存储在高性能集群系统的并行文件系统中，计算节点与并行文件系统通过两者之间的I/O端口通信。

4.根据权利要求3所述的一种持续服务的高性能集群操作系统在线升级方法，其特征在于：步骤(3)中，隔离所述待升级计算节点包括隔离待升级计算节点与所述并行文件系统的I/O端口。

5.根据权利要求4所述的一种持续服务的高性能集群操作系统在线升级方法，其特征在于：步骤(4)中，完成所述待升级计算节点的操作系统的升级后，在完成升级后的计算节点中重新安装所述并行文件系统，重启完成升级后的计算节点与所述并行文件系统的I/O端口，并将完成升级后的计算节点加入到作业调度和资源管理系统所管理的计算节点列表中，作业调度和资源管理系统控制部分用户通过第二提交节点向高性能集群系统提交作业请求。

6.根据权利要求1或5所述的一种持续服务的高性能集群操作系统在线升级方法，其特征在于：步骤(4)中，作业调度和资源管理系统控制部分用户通过第二提交节点向高性能集群系统提交作业请求时，根据已升级的计算节点的数量以及用户作业请求的优先级别确定哪些用户通过第二提交节点向高性能集群系统提交作业请求。

7.根据权利要求6所述的一种持续服务的高性能集群操作系统在线升级方法，其特征在于：步骤(5)中，完成所有计算节点的操作系统升级后，所有用户都通过第二提交节点向高性能集群系统提交作业请求。

8.根据权利要求7所述的一种持续服务的高性能集群操作系统在线升级方法，其特征在于：当升级后的计算节点发生故障时，将升级后的计算节点的操作系统回退到升级前的操作系统。