CN117075937A - 升级服务恢复方法及计算设备 - Google Patents

升级服务恢复方法及计算设备 Download PDF

Info

Publication number
CN117075937A
CN117075937A CN202310954169.XA CN202310954169A CN117075937A CN 117075937 A CN117075937 A CN 117075937A CN 202310954169 A CN202310954169 A CN 202310954169A CN 117075937 A CN117075937 A CN 117075937A
Authority
CN
China
Prior art keywords
upgrade
upgrading
service
task
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310954169.XA
Other languages
English (en)
Inventor
郭健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
XFusion Digital Technologies Co Ltd
Original Assignee
XFusion Digital Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by XFusion Digital Technologies Co Ltd filed Critical XFusion Digital Technologies Co Ltd
Priority to CN202310954169.XA priority Critical patent/CN117075937A/zh
Publication of CN117075937A publication Critical patent/CN117075937A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/60Software deployment
    • G06F8/65Updates

Abstract

本申请公开了升级服务恢复方法及计算设备,涉及计算机技术领域,提高了升级服务中断后恢复的效率。方法包括:若确定升级服务在中断后启动恢复运行,获取目标顺序和升级运行状态;升级服务用于对至少一个子系统进行升级;升级运行状态用于指示按照目标顺序对至少一个子系统进行升级时需要执行的多个升级步骤各自的执行情况;基于升级运行状态,确定目标升级步骤;目标升级步骤是升级服务中断时正在执行且未完成的升级步骤,或者是升级服务中断时下一步将要执行的升级步骤;基于目标升级步骤,恢复运行升级服务。

Description

升级服务恢复方法及计算设备
技术领域
本申请涉及计算机技术领域,尤其涉及升级服务恢复方法及计算设备。
背景技术
随着计算机技术的不断发展,开发人员以及运维人员可以通过系统升级向用户提供计算设备的新功能或者修复当前版本系统存在的漏洞和缺陷,因此系统升级是完善计算设备的重要一环。
当前,计算设备中可以运行多个子系统,在对计算设备的多个子系统进行一键升级的过程中,由于各种原因可能会出现升级中断的情况,在运维人员根据系统日志以及其他的系统信息判断排查中断原因并解决中断问题后,需要运维人员依照经验确定并拉起升级任务。
上述相关技术中,由于人工干预恢复升级服务,可能存在响应滞后的问题,并且人工干预的场景依赖于运维人员本人的处理经验以及处理速度,一旦运维人员操作失误,可能会造成不可预估的系统风险,从而导致系统升级服务的效率较差。
发明内容
本申请实施例提供了一种升级服务恢复方法及计算设备,提高了升级服务中断后恢复的效率。
第一方面,本申请实施例提供了一种升级服务恢复方法,该方法包括:若确定升级服务在中断后启动恢复运行,获取目标顺序和升级运行状态;升级服务用于对至少一个子系统进行升级;升级运行状态用于指示按照目标顺序对至少一个子系统进行升级时需要执行的多个升级步骤各自的执行情况;基于升级运行状态,确定目标升级步骤;目标升级步骤是升级服务中断时正在执行且未完成的升级步骤,或者是升级服务中断时下一步将要执行的升级步骤;基于目标升级步骤,恢复运行升级服务。
可以理解的是,在对升级服务中断后启动恢复运行的情况下,通过获取升级服务中多个升级步骤的升级运行状态,确定多个升级步骤各自的执行情况,确定中断后需要恢复执行的目标升级步骤,从而使得自动执行目标升级步骤以及后续升级步骤,以完成目标升级步骤。通过自动识别中断后需要恢复执行的升级服务中的升级步骤,可以实现启动恢复升级服务后自动运行后续的升级服务,避免了由于人工判断中断时升级服务的进展偏差,所导致的重新拉起升级服务所出现的系统风险,同时也避免了人工判断中断时升级服务的进展所导致的中断后恢复升级服务的滞后性,从而提高了升级服务中断后恢复的效率。
在一种可能的实现方式中,若确定升级服务在中断后启动恢复运行,获取目标顺序和升级运行状态之前,方法还包括:按照目标顺序执行升级步骤;记录正在执行的升级步骤的执行信息;执行信息包括执行时间以及升级运行状态。
可以理解的是,在运行升级服务的过程中按照目标顺序执行升级步骤时,记录执行的每一个升级步骤对应的执行信息,该执行信息可以包括执行时间以及升级运行状态。以便后续通过查询记录的执行信息,确定各个升级步骤是否执行,以及是否已经执行完成,从而实现中断升级服务后从中断时未执行完成的升级步骤开始恢复执行,从而提高了中断后恢复升级服务的准确性。
在一种可能的实现方式中,按照目标顺序执行升级步骤之前,方法还包括:确定升级服务中正在执行的升级任务;升级任务包括升级子任务;按照至少一个子系统的数量,确定至少一个子系统各自对应的升级子任务;升级子任务包括至少一个待执行的升级步骤。
可以理解的是,由于升级服务可以包括多种升级任务,每种升级任务包括各自对应的升级子任务,针对不同子系统完成升级任务时可以分别执行各种升级子任务,所以可以构建升级任务对应的多种升级子任务后按照子系统的数量,将升级子任务分配给各个子系统,各个子系统执行升级子任务种包括的升级步骤,以使得将升级服务的粒度逐级划分为升级任务、升级子任务以及升级步骤,细化了升级过程中的步骤划分,便于后续确定需要恢复的中断前执行的升级步骤。
在一种可能的实现方式中,按照至少一个子系统的数量,确定至少一个子系统各自对应的升级子任务之后,方法还包括:根据正在执行的升级任务的种类以及至少一个子系统各自对应的升级子任务,确定升级子任务执行时的目标顺序。
可以理解的是,针对不同的升级任务分配执行其中包含的多个升级步骤的目标顺序可以是不同的,所以在按照目标顺序执行各个升级步骤之前可以根据需要执行的升级任务种类以及分配给至少一个子系统各自对应的升级子任务,确定升级子任务执行时的目标顺序,以便依次执行升级步骤。
在一种可能的实现方式中,若确定升级服务在中断后启动恢复运行,获取目标顺序和升级运行状态,包括:若确定升级服务在中断后启动恢复运行,确定升级服务中启动恢复运行的升级任务;升级任务包括升级子任务;根据升级服务中启动恢复运行的升级任务的种类以及启动恢复运行的升级任务中包含的升级子任务,获取目标顺序;按照目标顺序依次触发升级子任务,获取升级子任务中的升级步骤的升级运行状态。
可以理解的是,在中断后启动恢复运行升级服务的情况下,优先确定升级任务,根据确定的升级任务确定对应的目标顺序,然后按照目标顺序依次触发该升级任务包含的升级子任务,从而可以获取升级子任务中包括的升级步骤的运行状态,以实现启动恢复升级服务后自动确定升级服务中断前,其中的升级步骤的运行状态,以便后续确定中断前未完成需要恢复的升级步骤,从而使得后续的升级服务可以顺利恢复。
在一种可能的实现方式中,基于升级运行状态,确定目标升级步骤,包括:基于升级子任务中的各个升级步骤的升级运行状态,确定升级子任务是否在升级服务中断前执行完成;将目标升级子任务中在升级服务中断前未执行完成的升级步骤确定为目标升级步骤;目标升级子任务是在升级服务中断前未执行完成的升级子任务。
可以理解的是,通过获取各个升级步骤的升级运行状态,可以确定升级子任务是否在中断前执行完成,可以将升级服务中断前未执行完成的升级子任务确定为目标升级子任务,以便后续确定中断前未完成需要恢复的升级步骤,从而使得后续的升级服务可以顺利恢复。
在一种可能的实现方式中,将目标升级子任务中在升级服务中断前未执行完成的升级步骤确定为目标升级步骤之前,还包括:跳过执行在升级服务中断前执行完成的升级子任务中的升级步骤;将目标升级子任务中在升级服务中断前未执行完成的升级步骤确定为目标升级步骤,包括:依次触发目标升级子任务中的升级步骤;根据升级运行状态,确定目标升级子任务中的升级步骤是否在升级服务中断前执行完成;跳过执行在升级服务中断前执行完成的升级步骤;将在升级服务中断前未执行完成的升级步骤,确定为目标升级步骤。
可以理解的是,通过获取到的升级子任务中的各个升级步骤的升级运行状态,可以直接跳过执行各个升级步骤的升级运行状态均指示执行完成的升级子任务,依次触发目标升级子任务中的升级步骤;根据升级步骤的升级运行状态,确定升级步骤是否在升级服务中断前执行完成,跳过执行在升级服务中断前执行完成的升级步骤,将在升级服务中断前未执行完成的升级步骤,确定为目标升级步骤,从而使得后续的升级服务可以顺利恢复。
在一种可能的实现方式中,基于升级运行状态,确定目标升级步骤,包括:基于升级运行状态以及环境信息,确定目标升级步骤;环境信息用于指示当前启动恢复升级服务的至少一个子系统的状态。
可以理解的是,除了通过升级步骤的升级运行状态确定升级步骤是否为目标升级步骤,还可以通过用于指示启动恢复升级服务时的至少一个子系统的状态的环境信息,确定是否为目标升级步骤,避免了仅通过升级运行状态判断所造成的目标升级步骤确定失误,避免了目标升级步骤确定失误所导致的重新拉起升级服务所出现的系统风险。
在一种可能的实现方式中,目标顺序包括同一种类的升级子任务并行执行、不同种类的升级子任务串行执行以及同一升级子任务中的升级步骤串行执行。
可以理解的是,构建的升级服务中的升级任务、升级子任务以及升级步骤在执行时可以依照目标顺序执行,通过确定目标顺序包括同一种类的升级子任务并行执行、不同种类的升级子任务串行执行以及同一升级子任务中的升级步骤串行执行,可以使得升级服务运行以及重新恢复运行的过程有序进行,也便于通过目标顺序触发各升级步骤确定目标升级步骤,以实现升级服务的中断后成功恢复运行。
第二方面,本申请实施例提供了一种升级服务恢复装置,该升级服务恢复装置用于执行上述第一方面提供的任意一种升级服务恢复方法。
在一种可能的实现方式中,本申请实施例可以根据上述第一方面提供的方法,对该升级服务恢复装置进行功能模块的划分。例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。示例性的,本申请实施例可以按照功能将该升级服务恢复装置划分为获取模块、处理模块以及升级模块等。上述划分的各个功能模块执行的可能的技术方案和有益效果的描述均可以参考上述第一方面或其相应的可能的实现方式提供的技术方案,此处不再赘述。
第三方面,本申请实施例提供了一种计算设备,计算设备包含处理器和存储器,处理器与存储器耦合;该存储器用于存储计算机指令,该计算机指令由处理器加载并执行以使计算设备实现如上述方面所述的升级服务恢复方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条计算机程序指令,所述计算机程序指令由处理器加载并执行以实现如上述方面所述的升级服务恢复方法。
第五方面,本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算设备执行上述第一方面的各种可选实现方式中提供的升级服务恢复方法。
本申请中第二方面到第五方面及其各种实现方式的具体描述,可以参考第一方面及其各种实现方式中的详细描述;并且,第二方面到第五方面及其各种实现方式的有益效果,可以参考第一方面及其各种实现方式中的有益效果分析,此处不再赘述。
本申请的这些方面或其他方面在以下的描述中会更加简明易懂。
附图说明
图1是根据一示例性实施例示出的一种升级服务系统的示意图;
图2是根据一示例性实施例示出的一种升级服务系统的示意图;
图3是根据一示例性实施例示出的一种升级服务恢复方法的流程示意图;
图4是图3所示实施例中涉及的一种分发软件包任务框架示意图;
图5是图3所示实施例中涉及的一种升级任务中断后恢复的流程示意图;
图6是图3所示实施例中涉及的一种恢复升级步骤的流程示意图;
图7是图3所示实施例中涉及的一种升级步骤自识别流程示意图;
图8是图3所示实施例中涉及的一种恢复升级服务的流程框架示意图;
图9是本申请一个示例性实施例提供的升级服务恢复装置的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
并且,在本申请的描述中,除非另有说明,“多个”是指两个或多于两个。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。
另外,为了便于清楚描述本申请实施例的技术方案,在本申请的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。同时,在本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念,便于理解。
首先,对本申请实施例的应用场景进行示例性介绍。
当前,针对计算设备进行系统升级可以向用户提供计算设备的新功能,从而提高用户体验,还可以通过系统升级修复当前版本的系统漏洞以及缺陷,因此,系统升级是管理系统中重要的一环,由于计算设备中可以运行多个子系统,相较于对每个子系统进行手动升级,可以对计算设备中的多个子系统进行一键升级,以提高系统升级的效率,同时保证系统升级的安全性,避免人力资源的浪费。
但是,在对计算设备的系统进行一键升级的过程中,由于各种原因可能会出现升级中断的情况,在运维人员根据系统日志以及其他的系统信息判断排查中断原因并解决中断问题后,需要运维人员依照经验确定并拉起升级任务。这就导致了由于人工干预恢复升级服务的过程,可能存在响应滞后的问题,并且人工干预的场景依赖于运维人员本人的处理经验以及处理速度,一旦运维人员操作失误,可能会造成不可预估的系统风险,导致系统升级服务的效率较差,并且系统升级的安全性无法保证。
在相关技术中,尤其针对超融合基础架构(hyper converged infrastructure,HCI)场景下,对HCI中的各个子系统进行统一升级的过程中,若出现故障或者人为干预导致升级中断,则运维人员可以在解决导致中断的问题后,通过查询每个子系统对应的日志以及系统信息,结合经验恢复各个子系统升级服务继续运行。
其中,HCI可以是指在同一套单元设备(如,服务器)中不仅仅具备计算、网络、存储和服务器虚拟化等资源和技术,并且多套单元设备可以通过网络聚合起来,实现模块化的无缝横向扩展(scale-out),从而形成包含多套单元设备的统一的资源池。
有鉴于此,本申请下述实施例提供了一种升级服务恢复方法,在对升级服务中断后启动恢复运行的情况下,通过获取多个升级步骤各自的升级运行状态,确定升级步骤的执行情况,确定中断后需要恢复执行的目标升级步骤,从而使得自动执行目标升级步骤以及后续升级步骤,以完成目标升级步骤。通过自动识别中断后需要恢复执行的升级服务中的升级步骤,可以实现启动恢复升级服务后自动运行后续的升级服务,避免了由于人工判断中断时升级服务的进展偏差,所导致的重新拉起升级服务所出现的系统风险,同时也避免了人工判断中断时升级服务的进展所导致的中断后恢复升级服务的滞后性,从而提高了升级服务中断后恢复的效率。
其次,对本申请实施例的系统架构进行示例性介绍。
图1示出了本申请实施例提供的一种升级服务系统的示意图。如图1所示,针对应用在HCI场景下的子系统升级服务。在硬件方面,该升级服务系统10可以包括至少一个服务器(主机)11以及计算设备12。
其中,至少一个服务器11可以与计算设备12中的共享的存储网络进行数据交互,从而实现将至少一个服务器11通过网络聚合起来形成统一的资源池。计算设备12中还可以包括HCI管理面服务,该HCI管理面服务可以是用于管理通过HCI技术聚合的至少一个服务器11的模块,具体的可以用于控制至少一个服务器11中的各个子系统执行升级服务。
可选的,升级服务系统10中的服务器11可以是计算服务器,每一个服务器11中可以运行一个或者多个虚拟机,该虚拟机可以是普通虚拟机或者虚拟化服务器虚拟机,每个虚拟机可以运行独立的子系统,并且每一个服务器11中还可以包括管理面服务,该管理面服务可以是用于管理对应服务器的模块。
比如,升级服务系统10中的服务器11可以是X86服务器。
可选的,共享的存储网络可以包括存储设备,该存储设备可以是数据库或者磁盘阵列等。
可选的,计算设备12可以是服务器或者计算机设备。该计算设备12中的HCI管理面服务中可以包括任务调度器,任务调度器可以用于管理升级服务系统10中的各个服务器11进行子系统升级。
也就是说,在计算设备12确定升级服务系统10中的各个服务器11进行系统升级的升级服务中断后,并且在确定重新启动对各个服务器11进行系统升级的升级服务恢复运行的情况下,计算设备12可以从共享的存储网络中获取升级步骤的升级运行状态,计算设备12根据升级步骤的升级运行状态,确定升级服务中断后需要恢复执行的目标升级步骤,然后控制升级服务系统10中的各个服务器从目标升级步骤恢复运行对子系统的升级服务。
另外,图2示出了本申请实施例提供的一种升级服务系统示意图。如图2所示,升级服务系统10可以包括计算设备12,该计算设备12可以是服务器,该服务器中可以包括HCI管理服务21以及虚拟化服务22,虚拟化服务22可以用于提供虚拟化计算、虚拟化存储以及虚拟化网络。
其中,服务器上可以运行至少一种子系统,通过虚拟化存储可以用于集中存储各个虚拟化计算的数据。
可选的,服务器中的HCI管里面服务可以包括任务调度器,该任务调度器用于管理各个子系统进行升级。
也就是说,针对应用在HCI场景下的子系统升级服务,还可以通过计算设备对通过虚拟化服务运行的各个子系统进行升级服务,该计算设备可以包括HCI管理面服务。也就是说,HCI管理面服务可以通过软件抽象虚拟化计算、虚拟化存储以及虚拟化网络,使得在服务器上可以运行HCI的各个子系统,在HCI管理面服务确定各个子系统升级的升级服务中断后,并且在确定重新启动对各个子系统升级的升级服务恢复运行的情况下,HCI管理服务可以通过虚拟化网络与虚拟化存储获取升级步骤的升级运行状态,HCI管理面服务可以根据升级步骤的升级运行状态,确定升级服务中断后需要恢复执行的目标升级步骤,然后使得从执行目标升级步骤开始恢复运行对子系统的升级服务。
需要说明的,本申请实施例描述的系统架构以及应用场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着系统架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
为了便于理解,以下结合附图对本申请的提供的升级服务恢复方法进行示例性介绍,该升级服务恢复方法适用于图1或者图2所示的计算设备12。
图3示出了本申请一个示例性实施例提供的升级服务恢复方法的流程示意图。该升级服务恢复方法包括如下步骤:
S101,确定升级服务中正在执行的升级任务。
在本申请实施例中,对升级服务系统中的各个子系统进行一键升级的升级服务可以包括不同种类的升级任务,不同种类的升级任务可以依次执行。在运行升级服务的过程中,可以确定该升级服务中正在执行的升级任务。
其中,升级任务可以对一组或多组子系统执行。升级任务可以包括升级子任务(Task)。
比如,升级任务可以包括分发软件包任务、检查任务、升级任务等。
在一种可能的实现方式中,在升级服务正在执行的过程中,可以分别对一组或多组子系统执行各自的分发软件包任务、检查任务以及升级任务。对不同子系统执行同一种类的升级任务可以同时进行。
比如,在升级服务中,可以同时对多个子系统执行各自分发软件包任务,也可以同时对多个子系统执行各自的检查任务,还可以同时对多个子系统执行各自的升级任务。
在一种可能的实现方式中,升级服务系统中可以包括任务调度器(JobManager),该任务调度器可以升级服务系统中的总调度器,可以用于调度各个升级任务。
S102,按照至少一个子系统的数量,确定至少一个子系统各自对应的升级子任务。
在本申请实施例中,由于同一种类的升级子任务可以分配给至少一个子系统,所以通过确定需要进行升级服务的至少一个子系统的数量,可以确定分配给至少一个子系统各自对应的升级子任务。
其中,升级子任务可以对一组子系统执行,升级子任务可以包括至少一个升级步骤。
比如,若升级任务是分发软件包任务,则该升级任务的升级子任务可以包括分别向各个子系统对应的管理模块分发软件包的子任务,还可以包括分别构建各个子系统的管理模块对应的升级目录的子任务。
示例性的,若需要进行升级服务的子系统包括子系统1以及子系统2,且升级任务是分发软件包任务,则可以确定子系统1对应的升级子任务包括向子系统1对应的管理模块分发软件包的子任务,以及构建子系统1的管理模块对应的升级目录的子任务;确定子系统2对应的升级子任务包括向子系统2对应的管理模块分发软件包的子任务,以及构建子系统2的管理模块对应的升级目录的子任务。
在一种可能的实现方式中,升级服务系统中可以构建有升级任务调度器(Job),该升级任务调度器可以用于调度各个升级子任务,使得对子系统执行其对应的升级子任务。同时升级任务调度器可以按照目标顺序,确定调度的升级子任务之间的依赖关系,该依赖关系可以包括同一种类的升级子任务并行执行、不同种类的升级子任务串行执行,还可以包括同一种类的升级子任务按批次并行执行。
也就是说,若升级服务系统中需要进行升级服务的子系统数量超过指定阈值,可以按批次并行执行升级子任务,避免升级服务系统由于同时执行升级子任务超负荷占用处理资源所导致出现的系统问题。
在一种可能的实现方式中,根据正在执行的升级任务的种类以及至少一个子系统各自对应的升级子任务,可以确定各个升级子任务执行时的目标顺序。
也就是说,在确定正在执行的升级任务的种类后,可以确定该种类的升级任务所包括的升级子任务的种类,可以按照同一种类的升级子任务并行执行、不同种类的升级子任务串行执行的策略部署针对各个子系统的升级子任务执行的目标顺序,同时也可以根据子系统数量,按批次并行执行升级子任务。
示例性的,为了在升级服务中断后自识别并准确的恢复执行该升级服务,可以将升级服务按照从大到小的粒度拆分成各个单个可幂等执行的最小粒度的任务步骤(Step),保证各个任务步骤多次执行可以不影响升级流程。在升级服务运行时就按照拆分成的任务步骤进行执行。
其中,升级服务的任务调度器可以包括任务总调度器(JobManager)、升级任务调度器(Job)、升级子任务执行器(Task)以及升级步骤执行器(Step)。其中,JobManager负责调度由升级服务提交的各个种类的升级任务的Job;Job可以用于执行一组或多组子系统某个种类的升级任务,如分发软件包、检查、升级等;Task可以由Job调度,执行一个子系统某个步骤的升级任务,Task负责按照某种具体的策略执行,即目标顺序指示的维护任务实际步骤之间的依赖关系,具体的策略可以包括串行、并行、多节点按批次并行等;Step可以是实际的升级业务中的可幂等执行的最小步骤,负责完成子系统的实际升级业务。
S103,按照目标顺序执行升级步骤。
在本申请实施例中,按照目标顺序调度各个升级子任务,从而执行各个升级子任务中的升级步骤(Step)。
其中,升级步骤可以是在实际升级业务中可幂等执行的最小步骤,用于完成子系统的实际升级业务。
在一种可能的实现方式中,目标顺序包括同一种类的升级子任务并行执行、不同种类的升级子任务串行执行以及同一升级子任务中的升级步骤串行执行。
示例性的,图4是本申请实施例涉及的一种分发软件包任务框架示意图。如图4所示,以对两个子系统执行分发软件包任务为例,任务总调度器31调用分发软件包任务对应的数据,触发该升级任务,升级任务调度器32根据子系统的数量,生成对应的升级子任务(Task),并且按照目标顺序中包含的依赖关系执行调度,具体的,首先可以并行触发向两个子系统分发软件包的升级子任务,当向两个子系统分发软件包的升级子任务完成后,再并行触发对两个子系统构建升级目录的升级子任务。每个升级子任务的执行逻辑可以是根据实际业务将升级子任务执行细化为最小粒度的业务逻辑,并且抽象为一个升级步骤(Step),再串行调度升级步骤(Step)执行。也就是说,升级任务调度器32可以同时调度执行Task1以及Task2,执行Task1是按照先执行对应的Step1,如检查软件包,再执行对应的Step2,如上传软件包的顺序串行执行的,同样的,Task2也是按照先执行对应的Step1,如检查软件包,再执行对应的Step2,如上传软件包的顺序串行执行的,在Task1以及Task2执行完成后,再串行执行Task3以及Task4,同样的,执行Task3是按照先执行对应的Step1,如分发脚本,再执行对应的Step2,如查看升级目录的构建状态的顺序串行执行的,Task4也是按照先执行对应的Step1,如分发脚本,再执行对应的Step2,如查看升级目录的构建状态的顺序串行执行的。
S104,记录正在执行的升级步骤的执行信息。
在本申请实施例中,通过在运行升级服务的过程中实时记录正在执行的升级步骤的执行信息,以供后续查询获取对应的执行信息,确定恢复升级服务时第一个执行的升级步骤。
其中,执行信息可以包括执行时间以及升级运行状态。
在一种可能的实现方式中,正在执行的升级步骤的执行信息可以记录在升级任务系统的数据库中。
S105,若确定升级服务在中断后启动恢复运行,获取升级步骤的升级运行状态,并基于升级步骤的升级运行状态,确定目标升级步骤。
在本申请实施例中,在进行升级服务的过程中,可能出现异常故障中断或者人为中断的情况,在解决异常故障或者重新启动升级服务时,可以获取历史记录中升级步骤的升级运行状态,从而根据升级步骤的升级运行状态确定目标升级步骤。
其中,升级服务可以用于对至少一个子系统进行升级,升级步骤可以是按照目标顺序对至少一个子系统进行升级时需要执行的步骤,升级运行状态可以用于指示升级步骤的执行情况,目标升级步骤是升级服务中断时正在执行且未完成的升级步骤,或者是升级服务中断时正在执行且已经执行完成的升级步骤的下一步将要执行的升级步骤。
在一种可能的实现方式中,若确定升级服务在中断后启动恢复运行,确定升级服务中启动恢复运行的升级任务,按照目标顺序依次触发升级子任务,获取升级子任务中的升级步骤的升级运行状态。
也就是说,在升级服务中断后确定启动恢复运行时,任务调度器可以查询中断前正在执行的升级任务的执行信息,判断升级任务是否执行完成,若确定该升级任务已执行完成则任务调度器可以调度触发与该已执行完成的升级任务串行的下一种类的升级任务。若确定该升级任务未执行完成,则确定该升级任务需要恢复运行。
在一种可能的实现方式中,若确定升级任务需要恢复运行,根据数据库中保存的升级任务的相关信息重新构建该升级任务的执行器,并且触发该升级任务的执行器,通过该升级任务的执行器可以构建该升级任务包含的升级子任务的执行器。然后触发各个升级子任务的执行器,可以构建各个升级子任务各自包含的升级步骤的执行器,从而触发各个升级步骤的执行器,使得各个升级步骤的执行器根据数据库中记录的升级步骤的执行信息,获取各个升级步骤的升级运行状态。
在一种可能的实现方式中,基于升级子任务中的各个升级步骤的升级运行状态,确定升级子任务是否在升级服务中断前执行完成;将目标升级子任务中在升级服务中断前未执行完成的升级步骤确定为目标升级步骤;目标升级子任务是在升级服务中断前未执行完成的升级子任务。
其中,跳过执行在升级服务中断前执行完成的升级子任务中的升级步骤;依次触发目标升级子任务中的升级步骤;根据升级步骤的升级运行状态,确定升级步骤是否在升级服务中断前执行完成;跳过执行在所述升级服务中断前执行完成的升级步骤;将在升级服务中断前未执行完成的所升级步骤,确定为目标升级步骤。
示例性的,图5是本申请实施例涉及到的一种升级任务中断后恢复的流程示意图。如图5所示,首先,若确定升级服务中断后需要启动恢复,可以查询数据库中在升级服务中断之前正在执行的升级任务的执行信息(S21),根据获取到的升级任务的执行信息,判断该升级任务是否需要恢复(S22),若判断确定该升级任务中断前未执行完成,需要恢复执行,则在数据库中构建该升级任务的执行器(S23),然后触发该升级任务的执行器(S24),按照目标顺序指示的串行并行的依赖关系,在数据库中构建接下来需要触发的升级子任务的执行器(S25),触发升级子任务的执行器执行升级子任务(S26),同样的,通过升级子任务的执行器可以按照目标顺序在数据库中构建升级步骤的执行器(S27),然后,触发该升级步骤的执行器依次执行各个升级步骤(S28),各个升级步骤触发自识别确定是否需要恢复执行自身的升级步骤(S29),在确定需要恢复执行或者跳过执行后逐级上报升级步骤自身的执行状态(S210),以使得任务调度器可以控制升级服务恢复运行。
其中,通过触发升级任务的执行器,根据数据库中存储的升级子任务的信息,构建升级子任务的执行器。也就是说,若数据库中存储有升级子任务的执行器,触发升级任务的执行器可以更新数据库中已经存储有的该升级子任务的执行器;若数据库中未存储该升级子任务的执行器,触发升级任务的执行器后可以在数据库中插入新建的该升级子任务的执行器。
同样的,通过触发升级子任务的执行器,根据数据库中存储的升级步骤的信息,构建升级步骤的执行器。也就是说,若数据库中存储有升级步骤的执行器,触发升级子任务的执行器可以更新数据库中已经存储有的该升级步骤的执行器;若数据库中未存储该升级步骤的执行器,触发升级子任务的执行器后可以在数据库中插入新建的该升级步骤的执行器。
示例性的,图6是本申请实施例涉及的一种恢复升级步骤的流程示意图。如图6所示,在触发升级子任务的执行器后可以动态依次构建当前升级子任务包括的各个升级步骤的执行器(S31),然后在构建升级步骤的执行器时,判断数据库中是否存储有该升级步骤的执行信息(S32),该执行信息可以包括执行时间以及升级运行状态,若数据库中存储有该升级步骤的执行信息,则可以更新该升级步骤的执行时间以及升级运行状态(S33),若数据库中未存储该升级步骤的执行信息,则可以向数据库中插入该升级步骤的执行信息,创建执行器(S34),然后触发该升级步骤执行(S35)。
在一种可能的实现方式中,基于升级步骤的升级运行状态以及环境信息,确定目标升级步骤。
其中,环境信息可以用于指示当前启动恢复升级服务的至少一个子系统的状态。环境信息可以包括当前系统的版本信息以及当前系统的数据包。
也就是说,图7是本申请实施例涉及的一种升级步骤自识别流程示意图。如图7所示,通过获取数据库中存储的升级步骤的执行信息,可以判断该升级步骤在升级服务中断前是否执行完成(S41),在判断升级步骤在升级服务中断之前执行完成的情况下,直接跳过执行该升级步骤,在判断升级步骤在升级服务中断之前执行未完成的情况下,还可以根据环境信息判断该升级步骤是否执行(S42),若根据环境信息确定该升级步骤已执行,则可以跳过执行该升级步骤,若根据环境信息确定该升级步骤未执行,则可以确定该升级步骤为目标升级步骤,并触发该目标升级步骤恢复执行。
S106,恢复运行升级服务。
在本申请实施例中,在确定目标升级步骤,并且恢复执行目标升级步骤后,将执行状态逐级上报,使得执行目标升级步骤后可以继续执行后续的各个升级步骤,以完成升级服务。
示例性的,图8是本申请实施例涉及的一种恢复升级服务的流程框架示意图。如图8所示,在启动对各个子系统进行升级服务时,首先在数据库中构建升级任务执行器、升级任务包含的各个升级子任务的执行器以及各个升级子任务各自的升级步骤执行器,然后在任务总调度器触发升级任务执行器运行时,按照目标顺序调度升级子任务以及升级步骤,在执行时记录升级子任务以及升级步骤的执行信息。当Task1执行完成,正在执行Task2时,升级服务发生异常中断,然后可以对升级服务进行中断后恢复重启,任务总调度器可以查询数据库中在升级服务中断之前正在执行的升级任务的执行信息,根据获取到的升级任务的执行信息,判断该升级任务是否需要恢复,若判断确定该升级任务中断前未执行完成,需要恢复执行,则在数据库中构建该升级任务的执行器,然后触发该升级任务的执行器,按照目标顺序指示的串行或者并行的依赖关系,在数据库中需要构建接下来需要触发的Task1的执行器,由于数据库中包含指示Task1的已执行的执行信息,所以更新数据库中Task1的执行信息后,可以确定跳过执行Task1,然后触发构建Task1包含的Step1以及Step2的执行器,通过查询数据库中包含的Step1以及Step2的执行信息,确定Step1以及Step2已执行完成,跳过执行Step1以及Step2。然后,在数据库中需要构建接下来需要触发的Task2的执行器,由于数据库中包含指示Task2的已执行的执行信息,所以更新数据库中Task2的执行信息后,可以确定跳过执行Task2,然后触发构建Task2包含的Step1以及Step2的执行器,通过查询数据库中包含的Step1以及Step2的执行信息,确定Step1已执行完成,Step2未执行完成,跳过执行Step1,恢复执行Step2,然后,按照目标顺序指示的接下来执行的升级子任务,可以确定Task3等待执行,逐级上报升级步骤自身的执行状态,以使得任务调度器可以控制升级服务继续恢复后续运行。
上述主要从方法的角度对本申请实施例的方案进行了介绍。可以理解的是,升级服务恢复装置为了实现上述功能,其包含了执行各个功能相应的硬件结构和软件模块中的至少一个。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对模型外观更新装置进行功能单元的划分,例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
示例性的,图9示出了本申请一个示例性实施例提供的升级服务恢复装置400的结构示意图。该升级服务恢复装置400应用于升级服务系统中。该升级服务恢复装置400包括:
获取模块410,用于若确定所述升级服务在中断后启动恢复运行,获取目标顺序和升级运行状态;所述升级服务用于对至少一个子系统进行升级;所述升级运行状态用于指示按照所述目标顺序对所述至少一个子系统进行升级时需要执行的多个升级步骤各自的执行情况;
处理模块420,用于基于所述升级运行状态,确定目标升级步骤;所述目标升级步骤是所述升级服务中断时正在执行且未完成的升级步骤,或者是所述升级服务中断时下一步将要执行的升级步骤;
升级模块430,用于基于所述目标升级步骤,恢复运行所述升级服务。
在一种可能的实现方式中,所述装置还包括:
记录模块,用于若确定所述升级服务在中断后启动恢复运行,获取目标顺序和升级运行状态之前,按照所述目标顺序执行所述升级步骤;记录正在执行的所述升级步骤的执行信息;所述执行信息包括执行时间以及所述升级运行状态。
在一种可能的实现方式中,所述处理模块420,还用于按照所述目标顺序执行所述升级步骤之前,确定所述升级服务中正在执行的升级任务;所述升级任务包括升级子任务;按照所述至少一个子系统的数量,确定所述至少一个子系统各自对应的升级子任务;所述升级子任务包括至少一个待执行的升级步骤。
在一种可能的实现方式中,所述处理模块420,还用于按照所述至少一个子系统的数量,确定所述至少一个子系统各自对应的升级子任务之后根据所述正在执行的升级任务的种类以及所述至少一个子系统各自对应的升级子任务,确定所述升级子任务执行时的所述目标顺序。
在一种可能的实现方式中,获取模块410,还用于若确定所述升级服务在中断后启动恢复运行,确定所述升级服务中启动恢复运行的升级任务;所述升级任务包括升级子任务;根据所述升级服务中所述启动恢复运行的升级任务的种类以及所述启动恢复运行的升级任务中包含的所述升级子任务,获取所述目标顺序;按照所述目标顺序依次触发所述升级子任务,获取所述升级子任务中的所述升级步骤的升级运行状态。
在一种可能的实现方式中,获取模块410,还用于基于所述升级子任务中的各个升级步骤的升级运行状态,确定所述升级子任务是否在所述升级服务中断前执行完成;将目标升级子任务中在所述升级服务中断前未执行完成的升级步骤确定为所述目标升级步骤;所述目标升级子任务是在所述升级服务中断前未执行完成的所述升级子任务。
在一种可能的实现方式中,获取模块410,还用于将目标升级子任务中在所述升级服务中断前未执行完成的升级步骤确定为所述目标升级步骤之前,跳过执行所述在升级服务中断前执行完成的升级子任务中的所述升级步骤;获取模块410,还用于依次触发所述目标升级子任务中的所述升级步骤;根据所述升级步骤的升级运行状态,确定所述升级步骤是否在所述升级服务中断前执行完成;跳过执行所述在所述升级服务中断前执行完成的升级步骤;将在所述升级服务中断前未执行完成的所述升级步骤,确定为所述目标升级步骤。
在一种可能的实现方式中,处理模块420,还用于基于所述升级步骤的升级运行状态以及环境信息,确定所述目标升级步骤;所述环境信息用于指示当前启动恢复所述升级服务的所述至少一个子系统的状态。
在一种可能的实现方式中,所述目标顺序包括同一种类的所述升级子任务并行执行、不同种类的所述升级子任务串行执行以及同一所述升级子任务中的所述升级步骤串行执行。
关于上述可选方式的具体描述可以参见前述的方法实施例,此处不再赘述。此外,上述提供的任一种升级服务恢复装置的解释以及有益效果的描述均可参考上述对应的方法实施例,不再赘述。
作为示例,升级服务恢复装置中的获取模块410、处理模块420以及升级模块430中的部分或全部实现的功能可以通过图1或者图2中的计算设备执行。
在一示例性实施例中,还提供了一种计算机可读存储介质,用于存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述内存故障预测方法中的全部或部分步骤。例如,该计算机可读存储介质可以是只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、只读光盘(compact disc read-only memory,CD-ROM)、磁带、软盘和光数据存储设备等。
在一示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算设备执行上述图3任一实施例所示方法的全部或部分步骤。
在一些实施例中,本申请实施例所示的方法可以实施为以机器可读格式被编码在计算机可读存储介质上的或者被编码在其它非瞬时性介质或者制品上的计算机程序指令。
通过以上实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种升级服务恢复方法,其特征在于,所述方法包括:
若确定所述升级服务在中断后启动恢复运行,获取目标顺序和升级运行状态;所述升级服务用于对至少一个子系统进行升级;所述升级运行状态用于指示按照所述目标顺序对所述至少一个子系统进行升级时需要执行的多个升级步骤各自的执行情况;
基于所述升级运行状态,确定目标升级步骤;所述目标升级步骤是所述升级服务中断时正在执行且未完成的升级步骤,或者是所述升级服务中断时下一步将要执行的升级步骤;
基于所述目标升级步骤,恢复运行所述升级服务。
2.根据权利要求1所述的方法,其特征在于,所述若确定所述升级服务在中断后启动恢复运行,获取目标顺序和升级运行状态之前,所述方法还包括:
按照所述目标顺序执行所述升级步骤;
记录正在执行的所述升级步骤的执行信息;所述执行信息包括执行时间以及所述升级运行状态。
3.根据权利要求1或2所述的方法,其特征在于,所述按照所述目标顺序执行所述升级步骤之前,所述方法还包括:
确定所述升级服务中正在执行的升级任务;所述升级任务包括升级子任务;
按照所述至少一个子系统的数量,确定所述至少一个子系统各自对应的升级子任务;所述升级子任务包括至少一个待执行的升级步骤。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述按照所述至少一个子系统的数量,确定所述至少一个子系统各自对应的升级子任务之后,所述方法还包括:
根据所述正在执行的升级任务的种类以及所述至少一个子系统各自对应的升级子任务,确定所述升级子任务执行时的所述目标顺序。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述若确定所述升级服务在中断后启动恢复运行,获取目标顺序和升级运行状态,包括:
若确定所述升级服务在中断后启动恢复运行,确定所述升级服务中启动恢复运行的升级任务;所述升级任务包括升级子任务;
根据所述升级服务中所述启动恢复运行的升级任务的种类以及所述启动恢复运行的升级任务中包含的所述升级子任务,获取所述目标顺序;
按照所述目标顺序依次触发所述升级子任务,获取所述升级子任务中的升级步骤的所述升级运行状态。
6.根据权利要求5所述的方法,其特征在于,所述基于所述升级运行状态,确定目标升级步骤,包括:
基于所述升级子任务中的各个升级步骤的所述升级运行状态,确定所述升级子任务是否在所述升级服务中断前执行完成;
将目标升级子任务中在所述升级服务中断前未执行完成的升级步骤确定为所述目标升级步骤;所述目标升级子任务是在所述升级服务中断前未执行完成的所述升级子任务。
7.根据权利要求6所述的方法,其特征在于,所述将目标升级子任务中在所述升级服务中断前未执行完成的升级步骤确定为所述目标升级步骤之前,还包括:
跳过执行在所述升级服务中断前执行完成的升级子任务中的所述升级步骤;
所述将目标升级子任务中在所述升级服务中断前未执行完成的升级步骤确定为所述目标升级步骤,包括:
依次触发所述目标升级子任务中的所述升级步骤;
根据所述升级运行状态,确定所述目标升级子任务中的升级步骤是否在所述升级服务中断前执行完成;
跳过执行在所述升级服务中断前执行完成的升级步骤;
将在所述升级服务中断前未执行完成的所述升级步骤,确定为所述目标升级步骤。
8.根据权利要求1至7任一项所述的方法,其特征在于,所述基于所述升级运行状态,确定目标升级步骤,包括:
基于所述升级运行状态以及环境信息,确定所述目标升级步骤;所述环境信息用于指示当前启动恢复所述升级服务的所述至少一个子系统的状态。
9.根据权利要求1至8任一项所述的方法,其特征在于,所述目标顺序包括同一种类的所述升级子任务并行执行、不同种类的所述升级子任务串行执行以及同一所述升级子任务中的所述升级步骤串行执行。
10.一种计算设备,其特征在于,所述计算设备包括处理器和存储器;所述处理器与所述存储器耦合;所述存储器用于存储计算机指令,所述计算机指令由所述处理器加载并执行以使计算设备实现如权利要求1至9任一所述的升级服务恢复方法。
CN202310954169.XA 2023-07-28 2023-07-28 升级服务恢复方法及计算设备 Pending CN117075937A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310954169.XA CN117075937A (zh) 2023-07-28 2023-07-28 升级服务恢复方法及计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310954169.XA CN117075937A (zh) 2023-07-28 2023-07-28 升级服务恢复方法及计算设备

Publications (1)

Publication Number Publication Date
CN117075937A true CN117075937A (zh) 2023-11-17

Family

ID=88701486

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310954169.XA Pending CN117075937A (zh) 2023-07-28 2023-07-28 升级服务恢复方法及计算设备

Country Status (1)

Country Link
CN (1) CN117075937A (zh)

Similar Documents

Publication Publication Date Title
US11018955B2 (en) Change management optimization in cloud environment
US8863137B2 (en) Systems and methods for automated provisioning of managed computing resources
EP2630567B1 (en) Coordinated upgrades in distributed systems
US8549536B2 (en) Performing a workflow having a set of dependancy-related predefined activities on a plurality of task servers
WO2020157607A1 (en) Patch management in a hybrid computing environment
US8365009B2 (en) Controlled automatic healing of data-center services
US8862933B2 (en) Apparatus, systems and methods for deployment and management of distributed computing systems and applications
US7779298B2 (en) Distributed job manager recovery
US9483314B2 (en) Systems and methods for fault tolerant batch processing in a virtual environment
US20100095152A1 (en) Checkpointing A Hybrid Architecture Computing System
US20180067778A1 (en) Elasticity for highly availabile applications
CN108243012B (zh) 在线计费系统ocs中计费应用处理系统、方法及装置
CN113569987A (zh) 模型训练方法和装置
EP2008400A1 (en) Method, system and computer program for the centralized system management on endpoints of a distributed data processing system
US11765031B2 (en) System and method of strategy-driven optimization of computer resource configurations in a cloud environment
CN109144701A (zh) 一种任务流管理方法、装置、设备及系统
US20090158286A1 (en) Facility for scheduling the execution of jobs based on logic predicates
EP3798930A2 (en) Machine learning training resource management
CN111857951A (zh) 容器化部署平台及部署方法
US20100095100A1 (en) Checkpointing A Hybrid Architecture Computing System
CN105827744A (zh) 云存储平台的数据处理方法
CN112580816A (zh) 机器学习训练资源管理
CN117075937A (zh) 升级服务恢复方法及计算设备
CN115277398A (zh) 一种集群的网络配置方法和装置
Kanso et al. Designing a kubernetes operator for machine learning applications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination