CN105005487B - 一种持续服务的高性能集群操作系统在线升级方法 - Google Patents

一种持续服务的高性能集群操作系统在线升级方法 Download PDF

Info

Publication number
CN105005487B
CN105005487B CN201510369044.6A CN201510369044A CN105005487B CN 105005487 B CN105005487 B CN 105005487B CN 201510369044 A CN201510369044 A CN 201510369044A CN 105005487 B CN105005487 B CN 105005487B
Authority
CN
China
Prior art keywords
node
calculate node
upgrading
upgraded
operating system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510369044.6A
Other languages
English (en)
Other versions
CN105005487A (zh
Inventor
杨涛
王亚坤
林宇
葛云峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201510369044.6A priority Critical patent/CN105005487B/zh
Publication of CN105005487A publication Critical patent/CN105005487A/zh
Application granted granted Critical
Publication of CN105005487B publication Critical patent/CN105005487B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Stored Programmes (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种持续服务的高性能集群操作系统在线升级方法,包括:确定集群系统中的一批待升级计算节点,作业调度和资源管理系统将作业请求分配到待升级计算节点之外的计算节点上,在待升级计算节点处理完其节点上的作业请求后,隔离待升级计算节点,由集群装机系统进行待升级计算节点的操作系统的升级;完成升级后,作业调度和资源管理系统控制部分用户通过第二提交节点向高性能集群系统提交作业请求,并将该部分用户的作业请求分配到升级后的计算节点上;之后确定新一批待升级计算节点,重复升级步骤直至完成所有计算节点的操作系统升级。该方法可在保持持续服务的状态下对集群进行升级改造,且升级对用户的影响较小,提高了用户满意度。

Description

一种持续服务的高性能集群操作系统在线升级方法
技术领域
本发明属于高性能科学计算领域,具体涉及一种持续服务的高性能集群操作系统在线升级方法。
背景技术
随着信息化社会的飞速发展,人类对信息处理能力的要求越来越高,越来越多的领域对高性能计算的需求迅猛增长。高性能计算(High performance computing,缩写HPC)指通常使用很多处理器(作为单个机器的一部分)或者某一集群中组织的几台计算机(作为单个计算资源操作)的计算系统和环境。有许多类型的HPC系统,其范围从标准计算机的大型集群,到高度专用的硬件。大多数基于集群的HPC系统使用高性能网络互连,比如基于InfiniBand(40GB或56GB带宽)的网络互连。基本的网络拓扑和组织可以使用一个简单的总线拓扑,在性能很高的环境中,网状网络系统在主机之间提供较短的潜伏期,所以可改善总体网络性能和传输速率。
高性能计算集群,英文原文为High Performance Computing Cluster,简称HPC集群,是指以提高科学计算能力为目的计算机集群技术。HPC集群上的软件安装和配置是一个比较复杂的工作,特别是集群规模达到100个以上的时候。随着操作系统的不断升级和工具软件的优化,如何在保持持续服务的状态下对集群进行升级改造,让升级对上层的实际用户透明化,是现有HPC集群操作系统升级中HPC管理员所面临的挑战,本发明正是针对该问题而提供的一种持续服务的高性能集群操作系统在线升级方法。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种持续服务的高性能集群操作系统在线升级方法,该方法可在保持持续服务的状态下对集群进行升级改造。
为实现上述目的,本发明采用的技术方案如下:
一种持续服务的高性能集群操作系统在线升级方法,包括以下步骤:
(1)将待升级的高性能集群系统的计算节点进行分批,确定一批当前的待升级计算节点;
(2)高性能集群系统的作业调度和资源管理系统控制用户通过第一提交节点向高性能集群系统提交作业请求,并由管理节点将用户提交的作业请求分配到所述待升级计算节点之外的计算节点上;
(3)所述待升级计算节点处理完其节点上的作业请求后,隔离所述待升级计算节点,由高性能集群系统的集群装机系统进行所述待升级计算节点的操作系统的升级;
(4)完成所述待升级计算节点的操作系统的升级后,作业调度和资源管理系统控制部分用户通过第二提交节点向高性能集群系统提交作业请求,并由管理节点将该部分用户提交的作业请求分配到完成升级后的计算节点上;
(5)确定新的一批待升级计算节点,作业调度和资源管理系统的管理节点将用户提交的作业请求分配到所述待升级计算节点之外的计算节点上,重复步骤三和步骤四直至完成所有高性能集群系统中所有计算节点的操作系统的升级。
进一步,如上所述的一种持续服务的高性能集群操作系统在线升级方法,步骤(2)中,所述第一提交节点为与升级前的计算节点的操作系统相匹配的提交节点;步骤四中,所述第二提交节点为与升级后的计算节点的操作系统相匹配的提交节点。
进一步,如上所述的一种持续服务的高性能集群操作系统在线升级方法,步骤(2)中,管理节点分配给计算节点的作业请求存储在高性能集群系统的并行文件系统中,计算节点与并行文件系统通过两者之间的I/O端口通信。
进一步,如上所述的一种持续服务的高性能集群操作系统在线升级方法,步骤(3)中,隔离所述待升级计算节点包括隔离待升级计算节点与所述并行文件系统的I/O端口。
进一步,如上所述的一种持续服务的高性能集群操作系统在线升级方法,步骤(4)中,完成所述待升级计算节点的操作系统的升级后,在完成升级后的计算节点中重新安装所述并行文件系统,重启完成升级后的计算节点与所述并行文件系统的I/O端口,并将完成升级后的计算节点加入到作业调度和资源管理系统所管理的计算节点列表中,作业调度和资源管理系统控制部分用户通过第二提交节点向高性能集群系统提交作业请求。
进一步,如上所述的一种持续服务的高性能集群操作系统在线升级方法,步骤(4)中,作业调度和资源管理系统控制部分用户通过第二提交节点向高性能集群系统提交作业请求时,根据已升级的计算节点的数量以及用户作业请求的优先级别确定哪些用户通过第二提交节点向高性能集群系统提交作业请求。
再进一步,如上所述的一种持续服务的高性能集群操作系统在线升级方法,步骤(5)中,完成所有计算节点的操作系统升级后,所有用户都通过第二提交节点向高性能集群系统提交作业请求。
更进一步,如上所述的一种持续服务的高性能集群操作系统在线升级方法,当升级后的计算节点发生故障时,将升级后的计算节点的操作系统回退到升级前的操作系统。
本发明的有益效果在于:
1)本发明所述的在线升级方法,不需要集群停机,可在保持持续服务的状态下对集群进行升级改造,对提高HPC集群的连续服务能力有很好的效果;
2)集群承载的用户任务(作业请求)基本不受影响,用户基本感受不到升级所造成的影响,提高了集群用户的满意度;
3)采用分批次渐进的升级方式,能够有效减轻管理员的劳动强度,升级风险较小;
4)在升级后的系发生不可预测的问题时,还可平稳的会退到原有的操作系统。
附图说明
图1为本发明具体实施方式中提供的一种持续服务的高性能集群操作系统在线升级方法的流程图;
图2为实施例中的待升级的高性能集群系统的示意图。
具体实施方式
下面结合说明书附图与具体实施方式对本发明做进一步的详细说明。
本实施方式中的高性能集群系统即HPC系统主要包括了以下几个部分:
作业调度和资源管理系统,如LSF(Load Sharing Facility)系统,用于集群系统的作业调度、管理及负载均衡等,包括提交节点和管理节点,集群用户通过作业调度和资源管理系统的提交节点(即用户登录节点)向集群系统提交作业请求(即计算节点需要处理的任务),提交节点将接收到的作业请求提交给管理节点,管理节点对集群的资源进行统一的监控和合理调度后,将作业请求分发到各计算节点上;
计算节点,用于接收并处理作业调度和资源管理系统的管理节点分配的作业请求;
并行文件系统,如GPFS(General Parallel File System)存储资源池,主要用于存储计算节点的待处理的作业任务,其下可以连接一些异构的不同厂家的磁盘阵列或存储系统,计算节点通过I/O接口与并行文件系统通信;
集群装机系统,如XCAT(Extreme Cloud Administration Toolkit),用于集群中计算节点的操作系统的升级。
图1示出了本发明具体实施方式中提供的一种持续服务的高性能集群操作系统在线升级方法的流程图,由图中可以看出,该方法可以包括以下几个步骤:
步骤S100:确定高性能集群系统中的一批待升级计算节点;
由于高性能集群系统中计算节点很多,为了降低集群操作系统的升过程中对用户造成的影响,在高性能集群系统正常运行状态下,将待升级的高性能集群系统的计算节点进行分批,对计算节点进行分批次升级,在分批完成后,确定一批当前的待升级计算节点。例如,计算中的计算节点数量在100左右,可以将计算节点的升级窗口设置为10,即每次升级10个计算节点。
在实际应用中,首先升级哪一批计算节点,可以有管理员根据升级需要进行确定,如考虑计算节点上的作业处理能力及集群系统的作业处理需要,一批待升级的计算节点中,计算节点可以是连续的,也可以不连续的。
步骤S200:作业调度和资源管理系统控制用户通过第一提交节点向集群系统提交作业请求,并将作业请求分配到待升级计算节点之外的计算节点上;
在确定好需要升级的一批计算节点后,高性能集群系统中的作业调度和资源管理系统就会控制用户通过第一提交节点向高性能集群系统提交作业请求,并由管理节点将用户提交的作业请求分配到所述待升级计算节点之外的计算节点上。其中,所述第一提交节点为与升级前的计算节点的操作系统相匹配的提交节点。
在实际应用中,作业调度和资源管理系统中的提交节点至少是两个,当然可以是多个,这样才能保证在一些计算节点升级完成后,有与未升级的计算节点相对应的提交节点,也有与升级后的计算节点的相对应的提交节点(后文中的第二提交节点)。
管理节点分配给计算节点的作业请求存储在高性能集群系统的并行文件系统中,计算节点和并行文件系统通过两者之间的I/O端口通信。
步骤S300:隔离所述待升级计算节点,由高性能集群系统的集群装机系统进行所述待升级计算节点的操作系统的升级;
由于步骤S200中,在确定了待升级计算节点后,作业调度和资源管理系统的管理节点只会将用户提交的作业请求分配到待升级计算节点之外的计算节点上,因此待升级计算节点上不会再接受到新的作业请求(即计算任务),在所述待升级计算节点处理完其节点上的作业请求(确定为当前待升级节点之前接收到的作业请求)后,隔离所述待升级计算节点,由高性能集群系统的集群装机系统进行所述待升级计算节点的操作系统的升级。
其中,由高性能集群系统的集群装机系统进行待升级计算节点的操作系统的升级的具体方式为现有技术,在此不再详细描述。
本实施方式中,隔离所述待升级计算节点还包括隔离待升级计算节点与所述并行文件系统的I/O端口。这是因为,在待升级计算节点的操作系统升级后,升级前的原有并行文件系统的版本很有可能是与升级后的计算节点的操作系统是不匹配的,因此,需要对计算节点与升级前的并行文件系统的I/O端口进行隔离,在升级完成后,再安装与升级后的计算节点的操作系统相匹配的并行文件系统。
步骤S400:完成待升级计算节点的操作系统升级后,将部分用户提交的作业请求搬迁到升级后的计算节点上;
完成所述待升级计算节点的操作系统的升级后,作业调度和资源管理系统控制部分用户通过第二提交节点向高性能集群系统提交作业请求,并由管理节点将该部分用户提交的作业请求分配到完成升级后的计算节点上。
其中,所述第二提交节点为与升级后的计算节点的操作系统相匹配的提交节点。也就是说,在确定了待升级节点之后,需要对作业调度和资源管理系统中的一个提交节点(如果原来有多个提交节点,也可以是多个提交节点中的一部分)进行系统升级,使升级后的提交节点的配置与升级后的计算节点的操作系统相匹配。
完成所述待升级计算节点的操作系统的升级后,在完成升级后的计算节点中重新安装所述并行文件系统,重启完成升级后的计算节点与所述并行文件系统的I/O端口,并将完成升级后的计算节点加入到作业调度和资源管理系统所管理的计算节点列表中,即告知作业调度和资源管理系统哪些是完成了升级后的计算节点,将升级后的计算节点加入到集群系统中,此时,作业调度和资源管理系统控制部分用户通过第二提交节点向高性能集群系统提交作业请求。
在作业调度和资源管理系统控制部分用户通过第二提交节点向高性能集群系统提交作业请求时,可以根据已升级的计算节点的数量以及用户作业请求的优先级别确定哪些用户通过第二提交节点向高性能集群系统提交作业请求。例如,集群系统中共有100个计算节点,此次升级完成后共有10个计算节点完成了升级,此时可以考虑将原有集群用户中的十分之一用户的作业请求搬迁到这10个计算节点上,当然,也可以根据需要,将处理优先级别不高的用户的作用请求搬迁到升级后的计算节点上。
步骤S500:确定新的一批待升级计算节点,重复升级步骤进行新的待升级计算节点的操作系统升级,直至完成所有计算节点的操作系统升级。
在完成一批计算节点的操作系统的升级后,确定步骤S100中分批后的计算节点中新的一批待升级计算节点,作业调度和资源管理系统的管理节点将用户提交的作业请求分配到所述待升级计算节点之外的计算节点上,重复S400和步骤S500,直至完成所有高性能集群系统中所有计算节点的操作系统的升级。
本实施方式中,在确定新的一批待升级计算节点后,步骤S400中所述的部分用户会向作业调度和资源管理系统的第二提交节点提交作业请求,管理节点将该部分用户的作业请求分配到已完成升级的计算节点上,该部分用户之外的其它用户仍然向第一提交节点提交作业请求,管理节点将第一提交节点上的作业请求分配到除新的一批待升级计算节点和升级完成后的计算节点之外的计算几点上。
在完成所有计算节点的操作系统升级后,所有用户都通过第二提交节点向高性能集群系统提交作业请求,即在完成整个集群系统的计算节点的操作系统的升级后,所有用户都向第二提交节点提交作业请求,再由管理节点将作业请求分配到所有计算节点上。
本实施方式中,当升级后的计算节点发生故障(如操作系统软件与上层用户应用软件不兼容、新的操作系统不稳定)时,可以将升级后的计算节点的操作系统回退到升级前的操作系统。回退的过程与待升级计算节点的升级过程类似,即:首先确定一批待回退的计算节点,隔离该批节点,由集群装机系统将该批节点的操作系统回退到原有的操作系统上,回退完成后,将部分用户搬迁到该批节点上,然后再确定新的一批待回退计算节点,重复上述回退过程,直至所有计算节点都回退到原有操作系统。
下面结合具体实施例对本发明所述的方法进行进一步说明。
实施例
本实施例中,待升级的HPC系统中采用的的作业调度和资源管理系统是LSF,并行文件系统为GPFS存储资源池,集群装机系统为XCAT。本实施例中所涉及的技术术语解释如下:
1.管理员:为集群软件升级提供支持的管理人员;
2.用户:使用该集群的实际用户,利用LSF提交应用作业;
3.XCAT:可扩展分布式计算机管理和准备工具,它提供了一个统一的用户界面来进行硬件控制、扫面和操作系统的部署;
4.LSF:Load Sharing Facility是Platform公司开发的基于负载均衡的作业调度和资源管理软件系统,是商用网格计算系统的代表性产品,对于解决大规模的计算问题具有很强的优势。
5.未升级窗口:还未进行升级的节点窗口,数量是动态减少的;
6.当前升级窗口:当前正在进行升级的节点窗口,数量是动态增加的;
7.已升级窗口:已升级完成的节点窗口,数量是动态增加的;
8.GPFS存储资源池:指利用GPFS并行文件系统构建的存储系统,其下连接一些异构的不同厂家的磁盘阵列或存储系统。
图2示出了本实施例中待升级的高性能集群系统的示意图,该实施例中的集群节点数量为100,即计算节点的数量为100,当前升级窗口的窗口宽度设置为10,即每次升级10个计算节点的操作系统。
本实施例中,LSF中包括两个提交节点(用户登录的节点),即提交节点01和提交节点02,本实施例中记为Login01和Login02,集群用户通过提交节点提交作业请求,在集群系统不需要升级,正常运行时,Login01和Login02的作用是相同的,用户通过提交节点提交的作业请求由管理节点分配到计算节点上。
采用本发明所述的升级方法对图2中所示的集群系统进行操作系统升级的具体步骤如下:
步骤一:集群系统在正常运行状态,系统管理员使用root用户登录集群的mgt节点即管理节点,管理员通过管理节点集中管理和配置整个集群。
步骤二:安装XCAT升级环境并测试,即安装XCAT开源软件,如果集群系统在升级之前已经安装了XCAT,该步骤即可省略。
步骤三:确定提交节点中一个与升级后的计算节点操作系统相对应的提交节点;
由于计算节点的操作系统升级后,原有的提交节点很可能与升级后的节点操作系统是不匹配的,因此,需要选择一个提交节点作为升级后的操作系统的提交节点,即将原有的两个提交节点一个作为与原操作系统对应的提交节点(本实施例中称为第一提交节点),一个作为与升级后的操作系统对应的提交节点(本实施例中称为第二提交节点)。本实施例中将Login02作为第二提交节点。
之后,对原有Login02进行系统升级,以使其与升级后的计算节点操作系统相匹配,对原有Login02进行系统升级的方式为现有技术,升级时还需将/Share/util/lsf913/conf/lsf.conf配置文件(LSF的主配置文件)里面的LSF_MASTER_LIST设置成login02,即将LSF的主控制器设置为login02,其作为升级后的集群系统的提交节点。
步骤四:确定第一批进行升级的计算节点为计算节点31-计算节点40,即node31-node40,在node31-node40执行完其节点上的任务(作业请求)后,隔离这10台计算节点,并修改这10待升级计算节点的启动方式,由硬盘启动方式修改为网络启动方式,这是因为采用XCAT进行系统时,要求带升级计算节点的启动方式为网络启动方式;最后关闭需要升级系统的计算节点即psh node31-node40"shutdown-h now"。
步骤五:XCAT升级本批10台计算节点:选择安装的系统镜像nodeset node31-node40 osimage=rhels7.0-x86_64-install-compute;设置从网络启动节点rsetbootnode31-node40net;节点开机rpower node31-node40on;查看节点状态nodestat node31-node40,系统安装完成后nodestat会显示sshd,此时表示升级完成。
步骤六:升级完成后,GPFS安装本批10台计算节点客户端并挂载,即在升级后的计算节点上重新部署GPFS客户端软件和进行相应配置,重启完成升级后的计算节点与所述并行文件系统的I/O端口。
步骤七:LSF安装本批升级后的10台计算节点客户端,即告诉LSF哪些是升级后的计算节点,将完成升级后的计算节点加入到LSF所管理的计算节点列表中。
步骤八:迁移部分用户至已升级的计算节点:视LSF作业状态,通知部分用户通过已升级的Login02提交作业请求,由管理节点将这些用户的作业请求分配到升级后的计算节点上,即将部分用户的作业任务迁移至升级的计算节点上。
步骤九:采用给上述升级方式升级下一批10台计算节点,直至完成所有计算节点的升级,将全部用户都迁移至升级后的计算节点上,升级任务完成。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其同等技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种持续服务的高性能集群操作系统在线升级方法,包括以下步骤:
(1)将待升级的高性能集群系统的计算节点进行分批,确定一批当前的待升级计算节点;
(2)高性能集群系统的作业调度和资源管理系统控制用户通过第一提交节点向高性能集群系统提交作业请求,并由管理节点将用户提交的作业请求分配到所述待升级计算节点之外的计算节点上;
(3)所述待升级计算节点处理完其节点上的作业请求后,隔离所述待升级计算节点,由高性能集群系统的集群装机系统进行所述待升级计算节点的操作系统的升级;
(4)完成所述待升级计算节点的操作系统的升级后,作业调度和资源管理系统控制部分用户通过第二提交节点向高性能集群系统提交作业请求,并由管理节点将该部分用户提交的作业请求分配到完成升级后的计算节点上;
(5)确定新的一批待升级计算节点,作业调度和资源管理系统的管理节点将用户提交的作业请求分配到所述待升级计算节点之外的计算节点上,重复步骤三和步骤四直至完成所有高性能集群系统中所有计算节点的操作系统的升级。
2.根据权利要求1所述的一种持续服务的高性能集群操作系统在线升级方法,其特征在于:步骤(2)中,所述第一提交节点为与升级前的计算节点的操作系统相匹配的提交节点;步骤四中,所述第二提交节点为与升级后的计算节点的操作系统相匹配的提交节点。
3.根据权利要求1所述的一种持续服务的高性能集群操作系统在线升级方法,其特征在于:步骤(2)中,管理节点分配给计算节点的作业请求存储在高性能集群系统的并行文件系统中,计算节点与并行文件系统通过两者之间的I/O端口通信。
4.根据权利要求3所述的一种持续服务的高性能集群操作系统在线升级方法,其特征在于:步骤(3)中,隔离所述待升级计算节点包括隔离待升级计算节点与所述并行文件系统的I/O端口。
5.根据权利要求4所述的一种持续服务的高性能集群操作系统在线升级方法,其特征在于:步骤(4)中,完成所述待升级计算节点的操作系统的升级后,在完成升级后的计算节点中重新安装所述并行文件系统,重启完成升级后的计算节点与所述并行文件系统的I/O端口,并将完成升级后的计算节点加入到作业调度和资源管理系统所管理的计算节点列表中,作业调度和资源管理系统控制部分用户通过第二提交节点向高性能集群系统提交作业请求。
6.根据权利要求1或5所述的一种持续服务的高性能集群操作系统在线升级方法,其特征在于:步骤(4)中,作业调度和资源管理系统控制部分用户通过第二提交节点向高性能集群系统提交作业请求时,根据已升级的计算节点的数量以及用户作业请求的优先级别确定哪些用户通过第二提交节点向高性能集群系统提交作业请求。
7.根据权利要求6所述的一种持续服务的高性能集群操作系统在线升级方法,其特征在于:步骤(5)中,完成所有计算节点的操作系统升级后,所有用户都通过第二提交节点向高性能集群系统提交作业请求。
8.根据权利要求7所述的一种持续服务的高性能集群操作系统在线升级方法,其特征在于:当升级后的计算节点发生故障时,将升级后的计算节点的操作系统回退到升级前的操作系统。
CN201510369044.6A 2015-06-29 2015-06-29 一种持续服务的高性能集群操作系统在线升级方法 Active CN105005487B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510369044.6A CN105005487B (zh) 2015-06-29 2015-06-29 一种持续服务的高性能集群操作系统在线升级方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510369044.6A CN105005487B (zh) 2015-06-29 2015-06-29 一种持续服务的高性能集群操作系统在线升级方法

Publications (2)

Publication Number Publication Date
CN105005487A CN105005487A (zh) 2015-10-28
CN105005487B true CN105005487B (zh) 2018-06-22

Family

ID=54378168

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510369044.6A Active CN105005487B (zh) 2015-06-29 2015-06-29 一种持续服务的高性能集群操作系统在线升级方法

Country Status (1)

Country Link
CN (1) CN105005487B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653318A (zh) * 2015-12-24 2016-06-08 北京奇虎科技有限公司 软件升级方法、装置及系统
CN106371889B (zh) * 2016-08-22 2020-05-29 浪潮(北京)电子信息产业有限公司 一种调度镜像的高性能集群系统实现方法及装置
CN106354531B (zh) * 2016-08-25 2020-03-27 杭州华为数字技术有限公司 物理节点升级方法及装置
CN107104834B (zh) * 2017-04-25 2021-05-07 网宿科技股份有限公司 多进程服务器及其软件的重启方法、流量调度方法
CN107071069B (zh) * 2017-06-14 2020-08-25 北京凤凰理理它信息技术有限公司 对用户透明切数据流量的方法、装置、存储介质及电子设备
CN109962938B (zh) * 2017-12-14 2021-02-05 亿度慧达教育科技(北京)有限公司 数据更新及访问方法及其装置、集群系统
CN108345462B (zh) * 2018-01-11 2020-12-22 华为技术有限公司 组件升级的方法和装置
CN110069265B (zh) * 2018-01-19 2021-02-12 华为技术有限公司 服务集群的升级方法、装置及存储介质
CN108958840B (zh) * 2018-07-09 2021-01-22 四川九洲电器集团有限责任公司 一种集群配置动态探测合并加载方法
CN110716826B (zh) * 2018-07-13 2023-11-24 阿里巴巴集团控股有限公司 一种云盘升级、调度方法及云主机、调度装置和系统
US10824413B2 (en) 2018-07-23 2020-11-03 International Business Machines Corporation Maintenance of computing nodes concurrently in a number updated dynamically
CN109213507A (zh) * 2018-08-27 2019-01-15 郑州云海信息技术有限公司 一种升级方法及服务器
CN109189444A (zh) * 2018-10-11 2019-01-11 郑州云海信息技术有限公司 一种服务器虚拟化系统的管理节点的升级控制方法及装置
CN111104134B (zh) * 2018-10-26 2021-09-07 华为技术有限公司 可编程器件的管理单元的更新方法、装置和存储介质
CN112470119B (zh) * 2019-07-09 2022-09-16 华为技术有限公司 一种分布式系统中的业务升级方法、装置及分布式系统
CN111538522B (zh) * 2020-04-29 2023-08-11 北京思特奇信息技术股份有限公司 一种基于zk的消息中间件在线升级方法及系统
CN112202909B (zh) * 2020-10-10 2021-06-04 上海威固信息技术股份有限公司 一种计算机存储系统在线升级方法及系统
CN112433740B (zh) * 2020-11-12 2022-08-09 苏州浪潮智能科技有限公司 一种集群离线升级的方法、系统、设备及介质
CN112363843B (zh) * 2020-12-07 2021-04-27 新华三技术有限公司 任务处理方法、装置及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103580918A (zh) * 2013-10-30 2014-02-12 华为技术有限公司 一种配置数据处理方法及装置
CN104094248A (zh) * 2012-02-02 2014-10-08 微软公司 分布式系统中的自更新功能

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7853609B2 (en) * 2004-03-12 2010-12-14 Microsoft Corporation Update distribution system architecture and method for distributing software

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104094248A (zh) * 2012-02-02 2014-10-08 微软公司 分布式系统中的自更新功能
CN103580918A (zh) * 2013-10-30 2014-02-12 华为技术有限公司 一种配置数据处理方法及装置

Also Published As

Publication number Publication date
CN105005487A (zh) 2015-10-28

Similar Documents

Publication Publication Date Title
CN105005487B (zh) 一种持续服务的高性能集群操作系统在线升级方法
US11194566B1 (en) Decentralized, cluster-managed deployment of software updates in a multi-cluster environment
US9798594B2 (en) Shared memory eigensolver
CN110417613B (zh) 基于Jmeter的分布式性能测试方法、装置、设备及存储介质
US9015708B2 (en) System for improving the performance of high performance computing applications on cloud using integrated load balancing
TWI520062B (zh) 使用硬性限制及軟性限制在主機上放置物件
CN109347681B (zh) 分布式系统中的自更新功能
CN111176804A (zh) 包括容器的集群环境中的自动基础设施更新
US11487591B1 (en) Automatically configuring execution of a containerized application
US20160299874A1 (en) Shared memory eigensolver
JP2015532997A (ja) 分散データストレージ・処理システムのためのチューニング
US20200026576A1 (en) Determining a number of nodes required in a networked virtualization system based on increasing node density
US20230035310A1 (en) Systems that deploy and manage applications with hardware dependencies in distributed computer systems and methods incorporated in the systems
Hanson et al. MetaPathways v2. 0: A master-worker model for environmental Pathway/Genome Database construction on grids and clouds
US10250455B1 (en) Deployment and management of tenant services
US20200293372A1 (en) Efficient resource allocation for concurrent graph workloads
CN111782341B (zh) 用于管理集群的方法和装置
CN113760638A (zh) 一种基于kubernetes集群的日志服务方法和装置
US20220300387A1 (en) System and method for availability group database patching
US11983151B2 (en) Resilience based database placement in clustered environment
US20210389994A1 (en) Automated performance tuning using workload profiling in a distributed computing environment
US10635336B1 (en) Cache-based partition allocation
CN105718297A (zh) 虚拟机建立系统以及方法
US10579301B1 (en) Processing platform configured to estimate storage system performance utilizing processor characteristics
US20180373552A1 (en) Consistent virtual machine performance across disparate physical servers

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant