CN117149235A - 云基础设施在线升级方法、系统、终端设备及存储介质 - Google Patents

云基础设施在线升级方法、系统、终端设备及存储介质 Download PDF

Info

Publication number
CN117149235A
CN117149235A CN202311114847.8A CN202311114847A CN117149235A CN 117149235 A CN117149235 A CN 117149235A CN 202311114847 A CN202311114847 A CN 202311114847A CN 117149235 A CN117149235 A CN 117149235A
Authority
CN
China
Prior art keywords
upgrade
upgrading
job
cluster
jobs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311114847.8A
Other languages
English (en)
Inventor
宋彪
刘光明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Merchants Bank Co Ltd
Original Assignee
China Merchants Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Merchants Bank Co Ltd filed Critical China Merchants Bank Co Ltd
Priority to CN202311114847.8A priority Critical patent/CN117149235A/zh
Publication of CN117149235A publication Critical patent/CN117149235A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/60Software deployment
    • G06F8/65Updates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/70Software maintenance or management
    • G06F8/71Version control; Configuration management
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Stored Programmes (AREA)

Abstract

本发明提出一种云基础设施在线升级方法、系统、终端设备及存储介质,应用于数据处理技术领域,该方法包括:获取多个待升级群集各自对应的群集升级作业队列;通过升级作业调度单元在多个群集升级作业队列中确定第一预设数量的升级作业作为升级作业队列,并执行升级作业队列中的多个升级作业;循环执行:确定升级作业队列中已执行完毕的升级作业,并基于已完成的升级作业、升级作业队列和多个群集升级作业队列得到新的升级作业队列的步骤,直至多个群集升级作业队列中的升级作业均执行完毕。本发明技术方案能够解决大规模云基础设施升级时,升级效率不高的技术问题。

Description

云基础设施在线升级方法、系统、终端设备及存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种云基础设施在线升级方法、系统、终端设备及存储介质。
背景技术
随着企业业务量的增加,硬件设施已经无法支撑企业未来扩增的业务量,故而,越来越多的企业选择将业务数据放置在云基础设施中,以减少企业在软硬件设备中的投入成本。
现如今,由于企业对云基础设施的性能要求逐渐变高,促使云基础设施也需要进行在线升级。然而,传统的灰度升级方法为对云基础设施中的节点进行逐一升级,若存在大规模云基础设施需要升级,则会造成升级速度缓慢,以致升级效率不高的问题。
发明内容
本发明提出一种云基础设施在线升级方法、系统、终端设备及存储介质,旨在解决大规模云基础设施升级时,升级效率不高的技术问题。
为解决上述问题,本发明云基础设施在线升级方法,所述云基础设施在线升级方法应用于云基础设施在线升级系统,所述云基础设施在线升级系统包括升级作业调度单元和多个待升级群集,所述云基础设施在线升级方法包括:
获取多个所述待升级群集各自对应的群集升级作业队列,其中,所述群集升级作业队列中包括多个升级作业;
通过所述升级作业调度单元在多个所述群集升级作业队列中确定第一预设数量的升级作业作为升级作业队列,并执行所述升级作业队列中的多个升级作业,其中,所述升级作业调度单元中存储有预设的升级规则;
确定所述升级作业队列中已执行完毕的升级作业,并基于已完成的升级作业、所述升级作业队列和多个所述群集升级作业队列得到新的升级作业队列;
基于所述新的升级作业队列,返回执行所述升级作业队列中的多个升级作业,和,确定所述升级作业队列中已执行完毕的升级作业的步骤,直至多个所述群集升级作业队列中的升级作业均执行完毕。
可选地,所述基于已完成的升级作业、所述升级作业队列和多个所述群集升级作业队列得到新的升级作业队列的步骤,包括:
在多个所述群集升级作业队列中,将与已完成的升级作业对应的群集升级作业队列作为目标作业队列;
通过所述升级作业调度单元在所述目标作业队列中确定第二预设数量的升级作业,并将第二预设数量的升级作业添加至所述升级作业队列中以得到新的升级作业队列。
可选地,在所述执行所述升级作业队列中的多个升级作业的步骤之前,所述方法包括:
获取所述升级作业队列中多个升级作业各自对应的升级类型,并获取多个所述升级类型各自对应的升级作业数量;
将多个所述升级作业数量中超过类型数量阈值的升级作业数量对应的升级类型作为升级限制类型,并将未超过所述类型数量阈值的升级作业数量对应的升级类型作为正常类型;
所述执行所述升级作业队列中的多个升级作业的步骤,包括:
执行所述升级作业队列中多个所述正常类型对应的升级作业,并分批次执行所述升级作业队列中多个所述升级限制类型对应的升级作业。
可选地,在所述执行所述升级作业队列中的多个升级作业的步骤之后,所述方法还包括:
将所述升级作业队列中执行失败的升级作业作为异常升级作业,并将与所述异常升级作业对应的待升级群集作为异常待升级群集;
对所述异常待升级群集进行修复处理,并执行修复完毕的异常待升级群集对应的群集升级作业队列中的升级作业。
可选地,在所述获取多个所述待升级群集各自对应的群集升级作业队列的步骤之前,所述方法还包括:
检测多个所述待升级群集各自对应的升级环境是否存在异常,若存在异常,则修复异常的升级环境;
所述获取多个所述待升级群集各自对应的群集升级作业队列的步骤,包括:
获取升级环境正常的多个所述待升级群集各自对应的群集升级作业队列。
可选地,所述通过所述升级作业调度单元在多个所述群集升级作业队列中确定第一预设数量的升级作业作为升级作业队列的步骤,包括:
在多个所述群集升级作业队列中,根据预设的队列选择规则确定多个目标群集升级作业队列;
基于所述升级作业调度单元中的升级规则在多个所述目标群集升级作业队列中分别确定第一预设数量的升级作业作为升级作业队列。
可选地,所述云基础设施在线升级系统还包括:后台作业生成器,所述执行所述升级作业队列中的多个升级作业的步骤,包括:
通过所述后台作业生成器生成与所述升级作业队列中多个升级作业各自对应的脚本文件,并执行各所述脚本文件。
此外,为解决上述问题,本发明还提出一种云基础设施在线升级系统,所述云基础设施在线升级系统包括升级作业调度单元和多个待升级群集,所述云基础设施在线升级系统还包括:
第一获取模块,用于获取多个所述待升级群集各自对应的群集升级作业队列,其中,所述群集升级作业队列中包括多个升级作业;
升级作业队列确定模块,用于通过所述升级作业调度单元在多个所述群集升级作业队列中确定第一预设数量的升级作业作为升级作业队列,并执行所述升级作业队列中的多个升级作业,其中,所述升级作业调度单元中存储有预设的升级规则;
升级作业队列更新模块,用于确定所述升级作业队列中已执行完毕的升级作业,并基于已完成的升级作业、所述升级作业队列和多个所述群集升级作业队列得到新的升级作业队列;
循环模块,用于基于所述新的升级作业队列,返回执行所述升级作业队列中的多个升级作业,和,确定所述升级作业队列中已执行完毕的升级作业的步骤,直至多个所述群集升级作业队列中的升级作业均执行完毕。
此外,为解决上述问题,本发明还提出一种终端设备,所述终端设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的云基础设施在线升级程序,所述云基础设施在线升级程序被所述处理器执行时实现如上所述的云基础设施在线升级方法的步骤。
此外,为解决上述问题,本发明还提出一种存储介质,所述存储介质上存储有云基础设施在线升级程序,所述云基础设施在线升级程序被处理器执行时实现如上所述的云基础设施在线升级方法的步骤。
本发明提出一种云基础设施在线升级方法、系统、终端设备及存储介质,其中,所述云基础设施在线升级方法应用于云基础设施在线升级系统,所述云基础设施在线升级系统包括升级作业调度单元和多个待升级群集,所述云基础设施在线升级方法包括:获取多个所述待升级群集各自对应的群集升级作业队列,其中,所述群集升级作业队列中包括多个升级作业;通过所述升级作业调度单元在多个所述群集升级作业队列中确定第一预设数量的升级作业作为升级作业队列,并执行所述升级作业队列中的多个升级作业,其中,所述升级作业调度单元中存储有预设的升级规则;确定所述升级作业队列中已执行完毕的升级作业,并基于已完成的升级作业、所述升级作业队列和多个所述群集升级作业队列得到新的升级作业队列;基于所述新的升级作业队列,返回执行所述升级作业队列中的多个升级作业,和,确定所述升级作业队列中已执行完毕的升级作业的步骤,直至多个所述群集升级作业队列中的升级作业均执行完毕。
云基础设施在线升级系统中包括多个待升级的群集,并且该系统中还设有用于调度各个升级作业的升级作业调度单元。在需要对系统中的多个待升级群集进行升级时,系统首先获取多个群集中各自对应的升级作业,并基于升级作业确定多个群集各自对应的群集升级作业队列,然后在多个群集升级作业队列中确定升级作业队列,进而执行升级作业队列中的多个升级作业,在升级作业执行完毕后,系统将移除该升级作业,并通过升级作业调度单元循环地将已执行完毕的升级作业对应的群集升级作业队列中的其他升级作业添加至原升级作业队列以得到新的升级作业队列,并执行新的升级作业队列中的升级作业,直至云基础设施在线升级系统中的所有待升级群集中的升级作业均执行完毕。
相比传统的灰度升级方法来说,本发明通过升级作业调度单元调度多个群集升级作业队列中的升级作业同时执行的方式,减少了云基础设施在线升级的整体时间,从而能够提高云基础设施在线升级的效率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例方案涉及的终端设备硬件运行环境的设备结构示意图;
图2为本发明云基础设施在线升级方法第一实施例的流程示意图;
图3为本发明云基础设施在线升级方法一实施例的单个MU升级流程示意图;
图4为本发明云基础设施在线升级方法一实施例的多个MU升级流程示意图;
图5为本发明云基础设施在线升级方法一实施例的升级步骤流程图;
图6为本发明云基础设施在线升级方法一实施例的检查流程示意图;
图7为本发明云基础设施在线升级系统一实施例的流水线调度示意图;
图8为本发明云基础设施在线升级方法一实施例的升级流程示意图;
图9为本发明云基础设施在线升级方法一实施例的升级调度流程示意图;
图10为本发明云基础设施在线升级系统一实施例的功能模块图。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
在本发明中,除非另有明确的规定和限定,术语“连接”、“固定”等应做广义理解,例如,“固定”可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
另外,在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
如图1所示,图1是本发明实施例方案涉及的终端设备硬件运行环境的设备结构示意图。
需要说明的是,本发明实施例涉及的终端设备可以是执行本申请云基础设施在线升级方法的云基础设施在线升级系统(在以下阐述中简称为在线升级系统)中的数据存储控制终端、PC或者便携计算机等终端。
如图1所示,在终端设备的硬件运行环境中,该终端设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的终端设备结构并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及云基础设施在线升级程序。
在图1所示的设备中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的云基础设施在线升级程序,并执行以下操作:
获取多个所述待升级群集各自对应的群集升级作业队列,其中,所述群集升级作业队列中包括多个升级作业;
通过所述升级作业调度单元在多个所述群集升级作业队列中确定第一预设数量的升级作业作为升级作业队列,并执行所述升级作业队列中的多个升级作业,其中,所述升级作业调度单元中存储有预设的升级规则;
确定所述升级作业队列中已执行完毕的升级作业,并基于已完成的升级作业、所述升级作业队列和多个所述群集升级作业队列得到新的升级作业队列;
基于所述新的升级作业队列,返回执行所述升级作业队列中的多个升级作业,和,确定所述升级作业队列中已执行完毕的升级作业的步骤,直至多个所述群集升级作业队列中的升级作业均执行完毕。
基于上述硬件结构,提出本发明云基础设施在线升级方法各个实施例的整体构思。
在本实施例中,随着企业业务量的增加,硬件设施已经无法支撑企业未来扩增的业务量,故而,越来越多的企业选择将业务数据放置在云基础设施中,以减少企业在软硬件设备中的投入成本。
现如今,由于企业对云基础设施的性能要求逐渐变高,促使云基础设施也需要进行在线升级。然而,传统的灰度升级方法为对云基础设施中的节点进行逐一升级,若存在大规模云基础设施需要升级,则会造成升级速度缓慢,以致升级效率不高的问题。
为解决上述问题,本发明实施例提出一种云基础设施在线升级方法、系统、终端设备及存储介质,云基础设施在线升级系统中包括多个待升级的群集,并且该系统中还设有用于调度各个升级作业的升级作业调度单元。在需要对系统中的多个待升级群集进行升级时,系统首先获取多个群集中各自对应的升级作业,并基于升级作业确定多个群集各自对应的群集升级作业队列,然后在多个群集升级作业队列中确定升级作业队列,进而执行升级作业队列中的多个升级作业,在升级作业执行完毕后,系统将移除该升级作业,并通过升级作业调度单元循环地将已执行完毕的升级作业对应的群集升级作业队列中的其他升级作业添加至原升级作业队列以得到新的升级作业队列,并执行新的升级作业队列中的升级作业,直至云基础设施在线升级系统中的所有待升级群集中的升级作业均执行完毕。
相比传统的灰度升级方法来说,本发明通过升级作业调度单元调度多个群集升级作业队列中的升级作业同时执行的方式,减少了云基础设施在线升级的整体时间,从而能够提高云基础设施在线升级的效率。
基于上述本发明云基础设施在线升级方法各个实施例的整体构思,提出本发明云基础设施在线升级方法的各个实施例。
请参照图2,图2为本发明云基础设施在线升级方法第一实施例的流程示意图。需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,当然可以以不同于此处的顺序执行本发明云基础设施在线升级方法的各个步骤。
在本实施例中,所述云基础设施在线升级方法应用于云基础设施在线升级系统,所述云基础设施在线升级系统包括升级作业调度单元和多个待升级群集,所述云基础设施在线升级方法包括:
步骤S10:获取多个所述待升级群集各自对应的群集升级作业队列,其中,所述群集升级作业队列中包括多个升级作业;
需要说明的是,群集升级作业队列指的是单个群集中各个升级作业的队列,而云基础设施是服务器硬件、存储资源、网络设备和应用软件的统称,例如虚拟机、物理机,对云基础设施进行升级的过程,主要通过执行升级文件的形式实现。
在本实施例中,在线升级系统在进行云基础设施在线升级时,将获取在线升级系统中多个群集中升级作业的执行进度,并根据升级作业的执行进度和升级作业所对应的待升级群集得到多个待升级群集各自对应的升级作业组成的队列。
步骤S20:通过所述升级作业调度单元在多个所述群集升级作业队列中确定第一预设数量的升级作业作为升级作业队列,并执行所述升级作业队列中的多个升级作业,其中,所述升级作业调度单元中存储有预设的升级规则;
需要说明的是,升级作业调度单元为在线升级系统中存储有预设的升级规则的硬件或者软件,其中,升级规则包括各个群集升级作业队列单次输出的升级作业的数量以及多个群集间的升级顺序。
在本实施例中,在线升级系统在得到多个群集升级作业队列后,再基于存储有各个群集升级作业队列单次输出的升级作业的数量信息的硬件或软件,在每个群集升级作业队列中选择出一个或者多个升级作业,然后将选择出的升级作业作为升级作业队列,然后,执行升级作业队列中的各个升级作业。其中,上述一个或者多个为第一预设数量。
步骤S30:确定所述升级作业队列中已执行完毕的升级作业,并基于已完成的升级作业、所述升级作业队列和多个所述群集升级作业队列得到新的升级作业队列;
在本实施例中,在线升级系统在执行升级作业队列中的升级作业后,将确定升级作业队列中执行完毕的升级作业,并将执行完毕的升级作业移除,进而根据执行完毕的升级作业,在多个群集升级作业队列中选择新的升级作业,并将新的升级作业和升级作业队列中未完成的升级作业作为新的升级作业队列。
步骤S40:基于所述新的升级作业队列,返回执行所述升级作业队列中的多个升级作业,和,确定所述升级作业队列中已执行完毕的升级作业的步骤,直至多个所述群集升级作业队列中的升级作业均执行完毕。
在本实施例中,在线升级系统基于新的升级作业队列,将循环执行:执行升级作业队列中多个升级作业,并基于升级作业的完成情况,再次确定新的升级作业队列的步骤,直至多个群集升级作业队列中的所有升级作业均执行完毕。
需要说明的是,本方案可以应用于包括单个MU(Management Unit,管理单元)和多个MU的在线升级系统。请参照图3,图3为本发明云基础设施在线升级方法一实施例的单个MU升级流程示意图,其中,单个MU中包括多个群集,图3中的C10、C11、C12均表示单个群集,在单个MU的群集升级过程中,主升级模块用于发起主升级进程,管理多个升级进程的生命周期,多个升级进程的调度,VMMigScheduler模块用于为部分升级进程提供服务,实现部分升级进程间的部分操作的互斥执行,MySql模块用于将升级的过程数据存储至数据库,以便监控和回溯升级过程。
请参照图4,图4为本发明云基础设施在线升级方法一实施例的多个MU升级流程示意图,其中,M01、M02、M04均表示单个MU,C03、C04、C05均表示单个群集,需要理解的是,多个MU的升级流程是以单MU升级的中心调度为基础,并加以改进实现的,多个MU的升级采用Master-Slave架构,使得升级作业对应的升级程序可以同时在多个MU进行升级。在其中的MU中的堡垒机上发起升级进程,并将升级单个MU所需要的升级程序复制到多个目标MU中,并运行升级程序。其中,每个MU中内的升级进程由该MU内的升级程序进行调度。同时,针对需要和其他MU中升级进程相互斥的进程,还能够将VMMigScheduler模块抽离,单独运行并为升级进程提供服务。
以升级单个MU中多个群集为例,假设该MU中存在3个群集(群集1,群集2,群集3),在线升级系统将获取3个群集中各个升级作业的升级进度(初次升级时,各个升级作业的升级进度均为0,而在非初次升级时,各个升级作业的升级进度为上一次升级的进度),并根据升级进度生成此次升级的环境配置和3个群集各自对应的群集升级作业队列。假设升级作业调度单元中存储的升级规则为:每个群集升级作业队列每次仅输出一个升级作业,则升级作业队列中由群集1的群集升级作业队列中的一个升级作业,群集2的群集升级作业队列中的一个升级作业,群集3的群集升级作业队列中的一个升级作业组成(即,第一预设数量为1),然后执行升级作业队列中的3个升级作业。
在执行升级作业队列中的3个升级作业后,在线升级系统将循环执行确定3个升级作业中已执行完毕的升级作业(假设群集1中的升级作业已执行完毕),并根据群集1中已完成的升级作业、升级作业队列中尚未完成的升级作业以及群集1至3各自对应的群集升级作业队列确定新的升级作业队列的步骤,直到群集1至3各自对应的群集升级作业队列中的升级作业均执行完毕。
在本实施例中,本发明通过升级作业调度单元调度多个群集升级作业队列中的升级作业同时执行的方式,减少了云基础设施在线升级的整体时间,从而能够提高云基础设施在线升级的效率。
基于上述本发明云基础设施在线升级方法的第一实施例,提出本发明云基础设施在线升级方法的第二实施例。
在本实施例中,上述步骤S30:基于已完成的升级作业、所述升级作业队列和多个所述群集升级作业队列得到新的升级作业队列,包括:
步骤S301:在多个所述群集升级作业队列中,将与已完成的升级作业对应的群集升级作业队列作为目标作业队列;
在本实施例中,在线升级系统在确定升级作业队列中已完成的升级作业后,将与已完成的升级作业所对应的群集升级作业队列作为目标作业队列。
步骤S302:通过所述升级作业调度单元在所述目标作业队列中确定第二预设数量的升级作业,并将第二预设数量的升级作业添加至所述升级作业队列中以得到新的升级作业队列。
在本实施例中,在线升级系统在确定目标作业队列后,再通过升级作业调度单元在目标作业队列中确定第二预设数量的升级作业,并将目标作业队列中选出的升级作业添加至原来的升级作业队列中以得到新的升级作业队列。需要说明的是,在线系统将移除升级作业队列中已执行完毕的升级作业。
示例性地,假设升级作业队列中包括3个升级作业:作业1,作业2和作业3,其中,作业1来自群集1对应的群集升级作业队列,作业2来自群集2对应的群集升级作业队列,作业3来自群集3对应的群集升级作业队列,并且假设在线升级系统检测出作业3已执行完毕。在线升级系统在检测出作业3已经执行完毕后,将与作业3对应的群集3的群集升级作业队列作为目标作业队列,并在升级作业队列中移除作业3,假设第二预设数量为2,则在线升级系统将在群集3的群集升级作业队列中确定2个未执行完毕的升级作业,并将确定的2个未执行完毕的升级作业添加至升级作业队列中,以得到新的升级作业队列,并执行新的升级作业队列中的各个升级作业。需要理解的是,在群集升级作业队列中确定第二预设数量的升级作业的方式,可以是根据群集升级作业队列中各个升级作业的先后顺序确定,也可以是根据群集升级作业队列中各个升级作业的优先级确定。
可选地,在一种可行的实施例中,上述步骤S20:通过所述升级作业调度单元在多个所述群集升级作业队列中确定第一预设数量的升级作业作为升级作业队列,包括:
步骤S201:在多个所述群集升级作业队列中,根据预设的队列选择规则确定多个目标群集升级作业队列;
需要说明的是,预设的队列选择规则指的是技术人员设定的从多个群集升级作业队列中选出M个群集升级作业队列的规则,其中,M为整数。
在本实施例中,由于在线升级系统中存在多个待升级群集,而在线升级系统的存储空间有限,故而在线升级系统将根据技术人员设定的从多个群集升级作业队列中选出M个群集升级作业队列的规则,从多个群集升级作业队列中选出多个目标群集升级作业队列。
步骤S202:基于所述升级作业调度单元中的升级规则在多个所述目标群集升级作业队列中分别确定第一预设数量的升级作业作为升级作业队列。
在本实施例中,在线升级系统在确定多个目标群集升级作业队列后,将基于升级作业调度单元中的升级规则,在多个目标群集升级作业队列中分别确定第一预设数量的升级作业作为升级作业队列。
需要理解的是,每个群集都有一个群集升级作业队列,而群集升级作业队列包含若干个有序升级作业。在进行升级时,在线升级系统需要从所有的群集升级作业队列中选出不超过预定义上限个升级群集(M个),并生成相应的群集升级作业队列。
示例性地,假设在线升级系统中存在50个群集升级作业队列(群集1-群集50),第一预设数量为2,而技术人员设定的队列选择规则为:将50个群集升级作业队列按照序号先后顺序分为5组,并分批次执行5组群集升级作业队列。则在线升级系统可以将第一组群集升级作业队列作为目标群集升级作业队列,并在群集1-群集10中分别选出2个升级作业,则群集1-群集10共得到20个升级作业,并将该20个升级作业组成的队列作为升级作业队列。
可选地,在一种可行的实施例中,所述云基础设施在线升级系统还包括:后台作业生成器,上述步骤S20:执行所述升级作业队列中的多个升级作业,包括:
步骤S203:通过所述后台作业生成器生成与所述升级作业队列中多个升级作业各自对应的脚本文件,并执行各所述脚本文件。
在本实施例中,在线升级系统中还设有用于生成与升级作业对应的脚本文件的后台作业生成器,并通过后台作业生成器生成与升级作业队列中多个升级作业各自对应的脚本文件,并通过运行脚本文件的方式以实现云基础设施的在线升级。
需要说明的是,升级作业中存储有升级配置,而后台作业生成器可基于升级配置生成对应的脚本文件。
请参照图5,图5为本发明云基础设施在线升级方法一实施例的升级步骤流程图,其中,在对云基础设施进行升级时,依次执行Plan脚本、Pre-Update脚本、Node-Update脚本和Post-Update脚本,若执行过程出现异常,则需人工修复。
示例性地,假设升级作业队列存在作业1和作业2,则在线升级系统将通过后台作业生成器和作业1中存储的升级配置生成与作业1对应的脚本文件1,并通过后台作业生成器和作业2中存储的升级配置生成与作业2对应的脚本文件2,然后执行脚本文件1和脚本文件2以实现云基础设施的在线升级。
作为另一种示例,在云基础设施在线升级过程中,以升级步骤逻辑上划分,可将升级流程分为四个部分:Plan-Update、Pre-Update、Node-Update、Post-Update。故而,在一种可行的实施例中,在线升级系统控制云基础设施进行在线升级时,需要分发补丁安装文件,检查并导出当前节点(群集中的节点)的PA、Network Interfaces及PACA MAPPING信息、进行VM(虚拟机)时间同步检查及设置;然后生成虚拟机迁移清单文件,并自动根据生成的迁移文件进行虚拟机迁移操作,每一次执行n个迁移Job,并监控Job的完成情况,迁移完成一台会检查虚拟机的运行状态及网络状态是否符合要求(迁移状态、网络状态),并将结果更新到节点迁移清单中保存在MigrationStatus文件夹中,直到清单中所有的VM迁移完成;当物理机节点中的虚拟机迁移走后,为防止后续操作过程中有虚拟机迁移至当前节点,执行暂停节点操作,重启机器,进行SSU、CU补丁安装,卸载SEP软件,再次重启节点;然后检查当前物理机的SCOMAgent、VMMAgent是否符合版本要求,否则进行版本升级;最后恢复当前节点并检查节点状态。在实际运行中,在线升级系统可执行如表1所示的步骤。
表1
/>
在本实施例中,本发明通过升级作业调度单元和后台作业生成器,在多个目标群体升级作业队列中确定并执行升级作业队列,并基于升级作业队列中已完成的升级作业确定新的升级作业队列的方式,能够在在线升级系统存储性能较差的前提下,有序高效地完成云基础设施的在线升级任务。
基于上述本发明云基础设施在线升级方法的第一实施例和第二实施例,提出本发明云基础设施在线升级方法的第三实施例。
在本实施例中,在上述步骤S10:获取多个所述待升级群集各自对应的群集升级作业队列之前,所述方法还包括:
步骤S50:检测多个所述待升级群集各自对应的升级环境是否存在异常,若存在异常,则修复异常的升级环境;
需要说明的是,在实际的升级中,每个MU都会出现各种各样的问题,并且这些问题将影响升级过程。故而,在进行升级前,在线升级系统需要检测各个待升级群集各自对应的升级环境,以发现升级环境存在的问题,然后按流程提变更处理,从而保障在线升级时,云基础设施的服务可用性不下降,并且不会发生重大问题。
在本实施例中,在线升级系统在对多个待升级群集进行升级前,将检测多个待升级群集各自对应的升级环境是否存在异常,若检测出待升级群集的升级环境存在异常,则修复异常的升级环境。
作为一种示例,为避免升级过程中升级环境的变化导致出现异常,每个升级流程的升级时间需要控制在一周内,计划阶段要比部署阶段提前一周进行,以确保有充足的时间进行整改计划阶段检查出的环境问题。在线升级系统在对各个群集进行升级环境检查时,可以执行以下步骤:
步骤A:检查前置环境是否符合升级要求,包括相关的执行工具版本、远程管理工具(ActiveDirectory、Failoverclusters、Hyper-V、NetworkController、Virtualmachinemanager)、管理套件(VMM Console)、账户权限等;
步骤B:进行升级过程的群集中全量虚拟机模拟迁移,以确保当前环境内存资源充足,可以进行升级,同时决策群集中所有物理机的升级顺序;
步骤C:检查资源状态是否正常,包括群集的节点状态、群集资源状态,群集节点VMMS服务状态、Clussvc状态、系统日志服务状态、SCVMM及SCOM的Agent状态、群集证书信息、补丁与Baseline匹配状态、节点Hang状态、BMC状态、节点Bios的版本、节点网络状态(NC、SLB、Agent TCP Connection、PA),并导出相关信息。
步骤D:检查用户虚机创建和配置服务是否正常,在Plan阶段会模拟测试VNet创建、测试虚机创建、NAT入栈规则添加配置、全节点虚机迁移测试。
请参照图6,图6为本发明云基础设施在线升级方法一实施例的检查流程示意图,其中,在线升级系统将执行Plan脚本,并检查群集状态、节点状态、虚拟机状态、迁移测试是否符合技术人员设定的要求,若检查发现异常,则需人工修复。
在实际运行中,在线升级系统还可以执行如表2所示的升级环境检查任务。
表2
基于此,上述步骤S10:获取多个所述待升级群集各自对应的群集升级作业队列,包括;
步骤S101:获取升级环境正常的多个所述待升级群集各自对应的群集升级作业队列。
在本实施例中,在修复异常的升级环境后,在线升级系统中多个待升级群集各自对应的升级环境均处于正常状态,则在线升级系统获取升级环境正常的多个待升级群集各自对应的群集升级作业队列,以便执行每个群集升级作业队列中的升级作业。
在本实施例中,本发明通过在升级前,对多个待升级群集各自对应的升级环境进行检查,并修复异常升级环境的方式,能够减小升级过程中,升级作业执行失败的概率。
进一步的,基于上述本发明云基础设施在线升级方法的第一实施例、第二实施例以及第三实施例,提出本发明云基础设施在线升级方法的第四实施例。
在本实施例中,在上述步骤S20:执行所述升级作业队列中的多个升级作业之前,所述云基础设施在线升级方法包括:
步骤S60:获取所述升级作业队列中多个升级作业各自对应的升级类型,并获取多个所述升级类型各自对应的升级作业数量;
需要理解的是,升级类型包括:节点导出、节点检查、节点迁移、节点重启等类型。
在本实施例中,在执行升级作业队列中的多个升级作业之前,在线升级系统还需要获取升级作业队列中每个升级作业对应的升级类型,并计算升级作业队列中,每个升级类型对应的升级作业数量。
需要说明的是,在线升级系统判断升级作业的升级类型的方式,可以是根据升级作业名称中的关键字来判断,还可以是根据升级作业中存储的标识来判断。
示例性地,假设升级作业队列中有20个升级作业,并且每个升级作业均存储有类型标识。则在线升级系统可以基于类型标识区分并计算每个升级类型对应的升级作业数量。例如,在当前升级作业队列中,包括5个节点检查类型的升级作业,包括10个节点迁移类型的升级作业,以及包括5个节点重启类型的升级作业。
步骤S70:将多个所述升级作业数量中超过类型数量阈值的升级作业数量对应的升级类型作为升级限制类型,并将未超过所述类型数量阈值的升级作业数量对应的升级类型作为正常类型;
需要说明的是,在线升级系统针对虚拟机服务单元和可用性集,需要控制多台虚拟机迁移时不能处于同一可用性集。其中,可用性集是虚拟机的高可用部署服务,可提升在云上部署虚拟机应用、云服务的可用性,在一个AZ内部通常有多个故障域,故障域之间在软硬件方面通常保持一定的隔离性。同一可用性集的位于多个故障域的多台虚拟机同时发生迁移,会影响虚拟机的可用性。相似的,为保证云基础设施在升级时,仍可提供正常服务,技术人员将设置类型数量阈值,其中,类型数量阈值指的是每个升级类型对应的单次可执行的升级作业的最大数量。
在本实施例中,在线升级系统将多个升级作业数量分别与技术人员设定的类型数量阈值进行比较,并记录升级作业数量超过类型数量阈值的升级类型,以及,记录升级作业数量未超过类型数量阈值的升级类型,并将升级作业数量超过类型数量阈值的升级类型记录为升级限制类型(该类型对应的升级作业过多,故而要限制单次执行的升级作业的数量),将升级作业数量未超过类型数量阈值的升级类型记录为正常类型(无需限制升级作业的数量)。
示例性地,假设类型数量阈值为7,即,对于单个升级类型来说,每次最多允许同时执行7个该升级类型的升级文件。假设当前升级作业队列中,包括5个节点检查类型的升级作业,包括10个节点迁移类型的升级作业,以及包括10个节点重启类型的升级作业。则在线升级系统通过将各个升级类型各自对应的升级作业数量分别与类型数量阈值进行比较的方式,将节点迁移类型和节点重启类型作为升级限制类型,而将节点检查类型为正常类型。
基于此,上述步骤S20:执行所述升级作业队列中的多个升级作业,包括:
步骤S210:执行所述升级作业队列中多个所述正常类型对应的升级作业,并分批次执行所述升级作业队列中多个所述升级限制类型对应的升级作业。
在本实施例中,在线升级系统在确定当前升级作业队列中的升级限制类型和正常类型后,将执行升级作业队列中多个正常类型各自对应的升级作业,并对升级限制类型对应的多个升级作业进行分批次处理,即,根据类型数量阈值,将升级限制类型对应的多个升级作业分为多组,每次仅执行一组升级作业。
示例性地,假设类型数量阈值为7,而升级限制类型包括节点迁移类型(升级作业数量为10)和节点重启类型(升级作业数量为10),正常类型包括:节点检查类型(升级作业数量5),则在线升级系统可以基于类型数量阈值7,将节点迁移类型对应的升级作业分为两组:第一组7个升级作业,第二组3个升级作业,并将节点重启类型对应的升级作业分为两组:第一组7个升级作业,第二组3个升级作业,然后在执行升级作业队列中的升级作业时,同时执行节点迁移类型的第一组、节点重启类型的第一组以及节点检查类型对应的升级作业,然后执行节点迁移类型的第二组、节点重启类型的第二组以及后续添加至升级作业队列中的升级作业。
在本实施例中,本发明通过限制云基础设施升级过程中,升级作业队列中各个升级类型对应的升级作业的执行数量的方式,能够有效保证升级过程中,云基础设置的服务可用性,以及,保证升级过程不超过在线升级系统的承载能力。
进一步地,基于上述本发明云基础设施在线升级方法的所有实施例,提出本发明云基础设施在线升级方法的第五实施例。
在本实施例中,在上述步骤S20:执行所述升级作业队列中的多个升级作业的步骤之后,所述方法还包括:
步骤S80:将所述升级作业队列中执行失败的升级作业作为异常升级作业,并将与所述异常升级作业对应的待升级群集作为异常待升级群集;
在本实施例中,在执行升级作业队列中的多个升级作业后,在线升级系统将实时或者定时检测升级作业队列中执行失败的升级作业,并将执行失败的升级作业作为异常升级作业,为避免异常升级作业对应的群集升级作业队列中的其他升级作业阻塞升级进度,在线升级系统将与异常升级作业对应的待升级群集作为异常待升级群集,并将异常升级作业移出升级作业队列。
步骤S90:对所述异常待升级群集进行修复处理,并执行修复完毕的异常待升级群集对应的群集升级作业队列中的升级作业。
在本实施例中,在线升级系统在检测出异常待升级群集后,将检查并修复异常待升级群集的异常原因,并在异常待升级群集修复完毕后,执行该异常待升级群集对应的群集升级作业队列中的升级作业。
需要说明的是,部分软硬件等有关环境的问题不可避免的导致升级的某一步骤失败。考虑到这种情况,当一个群集作业队列的一个作业升级失败时,会将该群集标记为Failed状态,停止该群集升级,并移除与该群集相关的元素,只在预备作业里成Failed状态保留,其他群集正常升级。待人工介入处理修复后,只需在自动生成的升级配置文件中将Failed状态的群集改为Pending或Start状态,之后系统会自动刷新,将之前失败的群集重新置为可升级状态。在人工介入处理的这个时间段,失败的群集被移除,同时会有未升级群集进行升级,减少升级中短时间。
需要理解的是,升级过程中的调度算法可以是:
(1)群集升级作业队列初始化;
(2)就绪作业池的数组初始化,执行作业池的数组初始化,完成作业池的数组初始化;
(3)遍历就绪作业池:若作业符合执行条件,则执行并移动至执行作业池;反之不处理;
(4)遍历执行作业池:
若作业状态为已完成,则将其移入完成作业池,并从该作业原先的群集升级作业队列中取出一个作业加入就绪作业池。
若作业状态为失败,则将与该作业原先的群集升级作业队列相关的作业移除,相应群集升级失败。同时从添加一个新的群集升级作业队列,从队列取出一个作业放入就绪作业池。
若作业状态进行,继续遍历。
(5)检查除升级失败的群集,其他所有群集是否全部升级完成,完成结束升级,未完成则重复执行(3)~(4)步。
示例性地,请参照图7,图7为本发明云基础设施在线升级系统一实施例的流水线调度示意图,其中,在线升级系统基于升级进度从群集A-P中选出群集A-E,并基于群集A-E中的升级作业生成后台升级作业(脚本),然后将脚本放入就绪作业池,并进行执行条件检查,检查通过后放入执行作业池执行,并检查作业的执行状态(执行成功/执行失败)。
示例性地,请参照图8,图8为本发明云基础设施在线升级方法一实施例的升级流程示意图。其中,Failed作业队列为异常待升级群集对应的升级作业组成的队列,预备升级群集作业队列指的是在线升级系统中所有待升级群集对应的升级作业组成的队列(不包括异常待升级群集),而升级群集作业队列指的是从多个待升级群集中选出的4个群集升级作业队列(A、B、C、D代表群集),然后基于后台作业生成器生成的后台程序,通过4个群集升级作业队列得到升级作业队列,并将升级作业队列对应的升级作业放入就绪作业池,再执行条件检查相关的步骤(检查虚拟机迁移与将要进行迁移的虚拟机是否处在同一可用性集和服务单元),并将检查通过的升级作业放入执行作业池中执行,并检查升级作业是否执行成功。
请参照图9,图9为本发明云基础设施在线升级方法一实施例的升级调度流程示意图,其中,在线升级系统基于各个升级作业进度生成每个待升级群集的群集升级作业队列,并从多个群集升级作业队列中选出N个群集队列,并各自取出一个作业并通过后台作业生成器生成相应的执行脚本,然后将后台作业执行脚本放入就绪作业池,并在执行条件检查通过后,将各脚本放入执行作业池,若脚本(后台作业)执行失败,则清理该脚本对应的升级作业和群集升级作业队列,将该群集作为异常待升级群集,并添加其他群集的升级作业进入就绪作业池,若执行完成,则移除该升级作业,并从该升级作业对应的群集升级作业队列中取出一个新的作业,并生成执行脚本,加入就绪作业池,然后在异常待升级群集修复后,执行该群集中的升级作业。
在本实施例中,本发明通过检查升级作业的执行状态,并对执行失败的升级作业所对应的群集进行修复,并选择新的群集的升级作业加入升级作业队列的方式,能够减小云基础设施升级的整体时间,从而提高云基础设施的升级效率。
此外,本发明还提出一种云基础设施在线升级系统,所述云基础设施在线升级系统包括升级作业调度单元和多个待升级群集。
请参照图10,所述云基础设施在线升级系统还包括:
第一获取模块10,用于获取多个所述待升级群集各自对应的群集升级作业队列,其中,所述群集升级作业队列中包括多个升级作业;
升级作业队列确定模块20,用于通过所述升级作业调度单元在多个所述群集升级作业队列中确定第一预设数量的升级作业作为升级作业队列,并执行所述升级作业队列中的多个升级作业,其中,所述升级作业调度单元中存储有预设的升级规则;
升级作业队列更新模块30,用于确定所述升级作业队列中已执行完毕的升级作业,并基于已完成的升级作业、所述升级作业队列和多个所述群集升级作业队列得到新的升级作业队列;
循环模块40,用于基于所述新的升级作业队列,返回执行所述升级作业队列中的多个升级作业,和,确定所述升级作业队列中已执行完毕的升级作业的步骤,直至多个所述群集升级作业队列中的升级作业均执行完毕。
可选地,所述升级作业队列更新模块30包括:
目标作业队列确定单元,用于在多个所述群集升级作业队列中,将与已完成的升级作业对应的群集升级作业队列作为目标作业队列;
队列更新单元,用于通过所述升级作业调度单元在所述目标作业队列中确定第二预设数量的升级作业,并将第二预设数量的升级作业添加至所述升级作业队列中以得到新的升级作业队列。
可选地,所述云基础设施在线升级系统还包括:
升级限制模块,用于获取所述升级作业队列中多个升级作业各自对应的升级类型,并获取多个所述升级类型各自对应的升级作业数量;
类型设置模块,用于将多个所述升级作业数量中超过类型数量阈值的升级作业数量对应的升级类型作为升级限制类型,并将未超过所述类型数量阈值的升级作业数量对应的升级类型作为正常类型;
基于此,上述升级作业队列确定模块20还用于执行所述升级作业队列中多个所述正常类型对应的升级作业,并分批次执行所述升级作业队列中多个所述升级限制类型对应的升级作业。
可选地,所述云基础设施在线升级系统还包括:
异常检测模块,用于将所述升级作业队列中执行失败的升级作业作为异常升级作业,并将与所述异常升级作业对应的待升级群集作为异常待升级群集;
异常修复模块,用于对所述异常待升级群集进行修复处理,并执行修复完毕的异常待升级群集对应的群集升级作业队列中的升级作业。
可选地,所述云基础设施在线升级系统还包括:
健康检查模块,用于检测多个所述待升级群集各自对应的升级环境是否存在异常,若存在异常,则修复异常的升级环境;
基于此,上述第一获取模块10,还用于获取升级环境正常的多个所述待升级群集各自对应的群集升级作业队列。
可选地,上述升级作业队列确定模块20,包括:
队列确定单元,用于在多个所述群集升级作业队列中,根据预设的队列选择规则确定多个目标群集升级作业队列;
升级作业选择单元,用于基于所述升级作业调度单元中的升级规则在多个所述目标群集升级作业队列中分别确定第一预设数量的升级作业作为升级作业队列。
可选地,所述云基础设施在线升级系统还包括:后台作业生成器,上述升级作业队列确定模块20,还包括:
脚本生成单元,用于通过所述后台作业生成器生成与所述升级作业队列中多个升级作业各自对应的脚本文件,并执行各所述脚本文件。
其中,上述云基础设施在线升级系统中各个模块的功能实现与上述云基础设施在线升级方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
此外,本发明还提出一种终端设备,该终端设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的云基础设施在线升级程序,所述云基础设施在线升级程序被所述处理器执行时实现如上所述本发明云基础设施在线升级方法的步骤。
本发明终端设备的具体实施例与上述云基础设施在线升级方法各实施例基本相同,在此不作赘述。
此外,本发明还提出一种存储介质,该存储介质上存储有云基础设施在线升级程序,该云基础设施在线升级程序被处理器执行时实现如上所述本发明云基础设施在线升级方法的步骤。
本发明存储介质的具体实施例与上述云基础设施在线升级方法各实施例基本相同,在此不作赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是车载电脑,智能手机,计算机,或者服务器等)执行本申请各个实施例所述的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种云基础设施在线升级方法,其特征在于,所述云基础设施在线升级方法应用于云基础设施在线升级系统,所述云基础设施在线升级系统包括升级作业调度单元和多个待升级群集,所述云基础设施在线升级方法包括:
获取多个所述待升级群集各自对应的群集升级作业队列,其中,所述群集升级作业队列中包括多个升级作业;
通过所述升级作业调度单元在多个所述群集升级作业队列中确定第一预设数量的升级作业作为升级作业队列,并执行所述升级作业队列中的多个升级作业,其中,所述升级作业调度单元中存储有预设的升级规则;
确定所述升级作业队列中已执行完毕的升级作业,并基于已完成的升级作业、所述升级作业队列和多个所述群集升级作业队列得到新的升级作业队列;
基于所述新的升级作业队列,返回执行所述升级作业队列中的多个升级作业,和,确定所述升级作业队列中已执行完毕的升级作业的步骤,直至多个所述群集升级作业队列中的升级作业均执行完毕。
2.如权利要求1所述的云基础设施在线升级方法,其特征在于,所述基于已完成的升级作业、所述升级作业队列和多个所述群集升级作业队列得到新的升级作业队列的步骤,包括:
在多个所述群集升级作业队列中,将与已完成的升级作业对应的群集升级作业队列作为目标作业队列;
通过所述升级作业调度单元在所述目标作业队列中确定第二预设数量的升级作业,并将第二预设数量的升级作业添加至所述升级作业队列中以得到新的升级作业队列。
3.如权利要求1所述的云基础设施在线升级方法,其特征在于,在所述执行所述升级作业队列中的多个升级作业的步骤之前,所述方法包括:
获取所述升级作业队列中多个升级作业各自对应的升级类型,并获取多个所述升级类型各自对应的升级作业数量;
将多个所述升级作业数量中超过类型数量阈值的升级作业数量对应的升级类型作为升级限制类型,并将未超过所述类型数量阈值的升级作业数量对应的升级类型作为正常类型;
所述执行所述升级作业队列中的多个升级作业的步骤,包括:
执行所述升级作业队列中多个所述正常类型对应的升级作业,并分批次执行所述升级作业队列中多个所述升级限制类型对应的升级作业。
4.如权利要求1所述的云基础设施在线升级方法,其特征在于,在所述执行所述升级作业队列中的多个升级作业的步骤之后,所述方法还包括:
将所述升级作业队列中执行失败的升级作业作为异常升级作业,并将与所述异常升级作业对应的待升级群集作为异常待升级群集;
对所述异常待升级群集进行修复处理,并执行修复完毕的异常待升级群集对应的群集升级作业队列中的升级作业。
5.如权利要求1所述的云基础设施在线升级方法,其特征在于,在所述获取多个所述待升级群集各自对应的群集升级作业队列的步骤之前,所述方法还包括:
检测多个所述待升级群集各自对应的升级环境是否存在异常,若存在异常,则修复异常的升级环境;
所述获取多个所述待升级群集各自对应的群集升级作业队列的步骤,包括:
获取升级环境正常的多个所述待升级群集各自对应的群集升级作业队列。
6.如权利要求1所述的云基础设施在线升级方法,其特征在于,所述通过所述升级作业调度单元在多个所述群集升级作业队列中确定第一预设数量的升级作业作为升级作业队列的步骤,包括:
在多个所述群集升级作业队列中,根据预设的队列选择规则确定多个目标群集升级作业队列;
基于所述升级作业调度单元中的升级规则在多个所述目标群集升级作业队列中分别确定第一预设数量的升级作业作为升级作业队列。
7.如权利要求1所述的云基础设施在线升级方法,其特征在于,所述云基础设施在线升级系统还包括:后台作业生成器,所述执行所述升级作业队列中的多个升级作业的步骤,包括:
通过所述后台作业生成器生成与所述升级作业队列中多个升级作业各自对应的脚本文件,并执行各所述脚本文件。
8.一种云基础设施在线升级系统,其特征在于,所述云基础设施在线升级系统包括升级作业调度单元和多个待升级群集,所述云基础设施在线升级系统还包括:
第一获取模块,用于获取多个所述待升级群集各自对应的群集升级作业队列,其中,所述群集升级作业队列中包括多个升级作业;
升级作业队列确定模块,用于通过所述升级作业调度单元在多个所述群集升级作业队列中确定第一预设数量的升级作业作为升级作业队列,并执行所述升级作业队列中的多个升级作业,其中,所述升级作业调度单元中存储有预设的升级规则;
升级作业队列更新模块,用于确定所述升级作业队列中已执行完毕的升级作业,并基于已完成的升级作业、所述升级作业队列和多个所述群集升级作业队列得到新的升级作业队列;
循环模块,用于基于所述新的升级作业队列,返回执行所述升级作业队列中的多个升级作业,和,确定所述升级作业队列中已执行完毕的升级作业的步骤,直至多个所述群集升级作业队列中的升级作业均执行完毕。
9.一种终端设备,其特征在于,所述终端设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的云基础设施在线升级程序,所述云基础设施在线升级程序被所述处理器执行时实现如权利要求1至7中任一项所述的云基础设施在线升级方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有云基础设施在线升级程序,所述云基础设施在线升级程序被处理器执行时实现如权利要求1至7中任一项所述的云基础设施在线升级方法的步骤。
CN202311114847.8A 2023-08-29 2023-08-29 云基础设施在线升级方法、系统、终端设备及存储介质 Pending CN117149235A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311114847.8A CN117149235A (zh) 2023-08-29 2023-08-29 云基础设施在线升级方法、系统、终端设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311114847.8A CN117149235A (zh) 2023-08-29 2023-08-29 云基础设施在线升级方法、系统、终端设备及存储介质

Publications (1)

Publication Number Publication Date
CN117149235A true CN117149235A (zh) 2023-12-01

Family

ID=88909468

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311114847.8A Pending CN117149235A (zh) 2023-08-29 2023-08-29 云基础设施在线升级方法、系统、终端设备及存储介质

Country Status (1)

Country Link
CN (1) CN117149235A (zh)

Similar Documents

Publication Publication Date Title
US10635473B2 (en) Setting support program, setting support method, and setting support device
US7698391B2 (en) Performing a provisioning operation associated with a software application on a subset of the nodes on which the software application is to operate
US8572607B2 (en) System and method for performing designated service image processing functions in a service image warehouse
JP2011118557A (ja) 仮想計算機の移動管理方法、前記移動管理方法を用いた計算機、前記移動管理方法を用いた仮想化機構および前記移動管理方法を用いた計算機システム
CN111897558A (zh) 容器集群管理系统Kubernetes升级方法和装置
EP2888685A2 (en) Transaction-level health monitoring of online services
WO2018036104A1 (zh) 一种布署虚拟机的方法、系统以及物理服务器
CN110825399A (zh) 一种应用程序的部署方法及装置
CN111897697A (zh) 服务器硬件故障修复方法和装置
CN112153126A (zh) 一种针对k8s集群的部署和节点管理方法和系统
US11656977B2 (en) Automated code checking
CN110187890B (zh) 项目部署的方法、电子设备、存储介质
CN111399999A (zh) 计算机资源处理方法、装置、可读存储介质和计算机设备
CN117149235A (zh) 云基础设施在线升级方法、系统、终端设备及存储介质
CN115277398A (zh) 一种集群的网络配置方法和装置
CN113746676B (zh) 基于容器集群的网卡管理方法、装置、设备、介质及产品
CN115576626A (zh) 一种usb设备安全挂载和卸载的方法、设备和存储介质
JP2023044720A (ja) クラッシュしたアプリケーションを修復するためのコンピュータ実装方法、コンピュータプログラム製品、およびリモートコンピュータサーバ(クラッシュしたプロセスのリモート修復)
CN114721781A (zh) 一种微服务部署方法、装置、计算机设备及存储介质
CN114327673A (zh) 一种任务启动方法、装置、电子设备及存储介质
CN115022317B (zh) 基于云平台的应用管理方法、装置、电子设备及存储介质
US20220326925A1 (en) Application deployment platform
US10776148B1 (en) System and method for utilizing computational power of a server farm
CN110287017B (zh) 一种任务调度方法及任务调度装置
CN108196990B (zh) 一种自检方法和服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination