CN113050974B - 云计算基础设施在线升级方法及装置 - Google Patents

云计算基础设施在线升级方法及装置 Download PDF

Info

Publication number
CN113050974B
CN113050974B CN202110484694.0A CN202110484694A CN113050974B CN 113050974 B CN113050974 B CN 113050974B CN 202110484694 A CN202110484694 A CN 202110484694A CN 113050974 B CN113050974 B CN 113050974B
Authority
CN
China
Prior art keywords
cloud computing
computing infrastructure
online
fault domain
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110484694.0A
Other languages
English (en)
Other versions
CN113050974A (zh
Inventor
杨晓峰
张志雄
李秀萍
彭博远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202110484694.0A priority Critical patent/CN113050974B/zh
Publication of CN113050974A publication Critical patent/CN113050974A/zh
Application granted granted Critical
Publication of CN113050974B publication Critical patent/CN113050974B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/60Software deployment
    • G06F8/65Updates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/70Software maintenance or management
    • G06F8/71Version control; Configuration management

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Stored Programmes (AREA)
  • Hardware Redundancy (AREA)

Abstract

本申请实施例提供一种云计算基础设施在线升级方法及装置,可用于云计算技术领域,方法包括:将目标云平台对应的各个应用在两个故障域中进行相同部署;对各个所述故障域逐一进行针对云计算基础设施的在线升级处理,以使在一个所述故障域进行在线升级的过程中,另一个所述故障域中的各个所述应用进行在线业务处理。本申请能够在提高云计算基础设施在线升级过程的可靠性的基础上,有效提高云平台中各应用向外提供在线业务服务的可靠性及有效性,在云计算基础设施在线升级的过程中实现业务延续,尤其能够满足网络敏感类应用业务延续要求。

Description

云计算基础设施在线升级方法及装置
技术领域
本申请涉及数据处理技术领域,特别涉及云计算技术领域,具体涉及云计算基础设施在线升级方法及装置。
背景技术
近年来,随着云计算基础设施的不断普及,云计算基础设施升级也已经成为云平台生命周期运维过程中必不可少的操作。根据对业务的影响程度,云计算基础设施升级可分为离线升级和在线升级两种。其中,离线升级是指带业务升级,即升级过程中主机重启会附带管理虚机、网元虚机、业务虚机一并重启且不做任何灰度处理,这种升级方式升级速度快,但是会存在长时间业务中断影响;在线升级指的是不带业务升级,即升级过程中借助滚动升级处理,尽可能保持业务在升级流程中不中断,但是升级时长相对较长。而在一些对业务延续性要求比价高的行业,例如金融领域,往往是采用在线升级的方式。
目前,现有的云计算基础设施在线升级的方式虽然可以借助云平台升级本身的高可靠能力,但是这种在线升级方式还不能做到完全意义上的业务延续,毫秒级的网络中断也可能对部分网络敏感类应用造成一定程度的业务影响,另外如果升级过程出现故障,也可能会对业务产生影响。
发明内容
针对现有技术中的问题,本申请提供一种云计算基础设施在线升级方法及装置,能够在提高云计算基础设施在线升级过程的可靠性的基础上,有效提高云平台中各应用向外提供在线业务服务的可靠性及有效性,在云计算基础设施在线升级的过程中实现业务延续,尤其能够满足网络敏感类应用业务延续要求。
为解决上述技术问题,本申请提供以下技术方案:
第一方面,本申请提供一种云计算基础设施在线升级方法,包括:
将目标云平台对应的各个应用在两个故障域中进行相同部署;
对各个所述故障域逐一进行针对云计算基础设施的在线升级处理,以使在一个所述故障域进行在线升级的过程中,另一个所述故障域中的各个所述应用进行在线业务处理。
进一步地,在所述将目标云平台对应的各个应用在两个故障域中进行相同部署之后,还包括:
在每个所述故障域中分别构建多个反亲和性组,以将功能相同的各个所述应用分别部署在不同的反亲和组中;
相对应的,所述对各个所述故障域逐一进行针对云计算基础设施的在线升级处理,包括:
对一个故障域中的各个所述反亲和组逐一进行针对云计算基础设施的在线升级处理,再对另一个故障域中的各个所述反亲和组逐一进行针对云计算基础设施的在线升级处理;其中,所述针对云计算基础设施的在线升级处理包括:对所述应用的宿主机进行系统版本在线升级处理。
进一步地,所述将目标云平台对应的各个应用在两个故障域中进行相同部署,包括:
构建两个相同的故障域;
接收针对目标云平台的云计算基础设施在线升级指令,并确定所述云计算基础设施在线升级指令对应的各个应用;
在两个所述故障域中分别部署相同的一套应用组,该应用组中包含有所述云计算基础设施在线升级指令对应的各个所述应用,并使得各个所述应用以负载均衡方式进行在线业务处理。
进一步地,所述对一个故障域中的各个所述反亲和组逐一进行针对云计算基础设施的在线升级处理,再对另一个故障域中的各个所述反亲和组逐一进行针对云计算基础设施的在线升级处理,包括:
选取一个所述故障域作为当前的目标故障域;
执行升级步骤:对所述目标故障域中的各个所述反亲和组逐一进行针对各个所述应用各自对应的宿主机的在线升级处理;判断所述目标故障域是否满足预设的升级完成条件,若是,则确定所述目标故障域已完成针对云计算基础设施的在线升级处理;
选取另一个所述故障域作为当前的目标故障域,并重新执行所述升级步骤。
进一步地,所述判断所述目标故障域是否满足预设的升级完成条件,若是,则确定所述目标故障域已完成针对云计算基础设施的在线升级处理,包括:
获取在线升级版本数据,其中,该在线升级版本数据中包含有各个宿主机的标识及对应的系统新版本标识;
判断所述目标故障域中的各个所述应用各自对应的宿主机的当前版本标识是否与所述在线升级版本数据中对应的各个系统新版本标识相匹配,若是,则基于预设的运行功能模块判断所述目标故障域中的各个所述应用是否均处于正常运行状态;
若所述目标故障域中的各个所述应用均处于正常运行状态,则确定所述目标故障域已完成针对云计算基础设施的在线升级处理。
进一步地,还包括:
若所述目标故障域中的各个所述应用各自对应的宿主机中存在当前版本标识与所述在线升级版本数据中对应的系统新版本标识不匹配的目标宿主机,则生成针对该目标宿主机的在线升级失败消息;
输出针对所述目标宿主机的在线升级失败消息。
进一步地,还包括:
若所述目标故障域中的各个所述应用对应的宿主机中存在当前未处于正常运行状态的目标宿主机,则生成针对该目标宿主机的不可用消息;
输出针对该目标应用的不可用消息。
第二方面,本申请提供一种云计算基础设施在线升级装置,包括:
故障域部署模块,用于将目标云平台对应的各个应用在两个故障域中进行相同部署;
在线升级模块,用于对各个所述故障域逐一进行针对云计算基础设施的在线升级处理,以使在一个所述故障域进行在线升级的过程中,另一个所述故障域中的各个所述应用进行在线业务处理。
第三方面,本申请提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的云计算基础设施在线升级方法。
第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的云计算基础设施在线升级方法。
由上述技术方案可知,本申请提供的一种云计算基础设施在线升级方法及装置,方法包括:将目标云平台对应的各个应用在两个故障域中进行相同部署;对各个所述故障域逐一进行针对云计算基础设施的在线升级处理,以使在一个所述故障域进行在线升级的过程中,另一个所述故障域中的各个所述应用进行在线业务处理;通过将跨故障域技术应用至云计算基础设施在线升级场景中,能够在提高云计算基础设施在线升级过程的可靠性的基础上,能够有效提高云平台中各应用向外提供在线业务服务的可靠性及有效性,能够在云计算基础设施在线升级的过程中实现业务延续,尤其针对部分网络敏感类应用,由于不会在云计算基础设施在线升级过程中出现网络中断的情况,因此能够尤其满足网络敏感类应用业务延续要求,即使升级工具存在升级故障风险也不会对业务处理产生影响,进而能够同时提高云平台中云计算基础设施升级及提供业务服务的可靠性,保证云平台的运转稳定性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例中的云计算基础设施在线升级方法的第一种流程示意图。
图2是本申请实施例中的云计算基础设施在线升级方法的第二种流程示意图。
图3是本申请实施例中的云计算基础设施在线升级方法的第三种流程示意图。
图4是本申请实施例中的云计算基础设施在线升级方法的第四种流程示意图。
图5是本申请实施例中的云计算基础设施在线升级方法的第五种流程示意图。
图6是本申请实施例中的云计算基础设施在线升级方法的第六种流程示意图。
图7是本申请实施例中的云计算基础设施在线升级方法的第七种流程示意图。
图8是本申请实施例中的云计算基础设施在线升级装置的结构示意图。
图9是本申请实施例中的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请公开的云计算基础设施在线升级方法及装置可用于云计算技术领域,也可用于除云计算技术领域之外的任意领域,本申请公开的云计算基础设施在线升级方法及装置的应用领域不做限定。
云计算基础设施在线升级需要借助云平台升级本身的高可靠能力,例如存储节点升级主动隔离、数据迁移完整性校验、网络节点NQA主动探测、流量自动切换以及虚机热迁毫秒级中断等技术,进而实现升级过程中业务无感。但是这种方式还不能做到完全意义上的业务延续,毫秒级的网络中断也可能对部分网络敏感类应用造成一定程度的业务影响,另外如果升级过程出现故障,也可能会对业务产生影响。
基于以上这些问题,本申请实施例提供提出一种云计算基础设施在线升级方法,通过将目标云平台对应的各个应用在两个故障域中进行相同部署;对各个所述故障域逐一进行针对云计算基础设施的在线升级处理,以使在一个所述故障域进行在线升级的过程中,另一个所述故障域中的各个所述应用进行在线业务处理、使得单故障域中即使出现严重升级故障,也不会影响业务正常使用,通过将跨故障域技术应用至云计算基础设施在线升级场景中,能够在提高云计算基础设施在线升级过程的可靠性的基础上,能够有效提高云平台中各应用向外提供在线业务服务的可靠性及有效性,能够在云计算基础设施在线升级的过程中实现业务延续,尤其针对部分网络敏感类应用,由于不会在云计算基础设施在线升级过程中出现网络中断的情况,因此能够尤其满足网络敏感类应用业务延续要求,即使升级工具存在升级故障风险也不会对业务处理产生影响,进而能够同时提高云平台中云计算基础设施升级及提供业务服务的可靠性,保证云平台的运转稳定性。
基于上述内容,本申请还提供一种用于实现本申请一个或多个实施例中提供的云计算基础设施在线升级方法的云计算基础设施在线升级装置,该云计算基础设施在线升级装置可以自行或通过第三方服务器等与技术人员持有的客户端设备之间通信连接,在确定所述云计算基础设施在线升级指令对应的各个应用,将各个应用在两个故障域中进行相同部署之后,接收各个客户端设备发送的云计算基础设施在线升级请求或指令,云计算基础设施在线升级装置接收针对目标云平台的云计算基础设施在线升级指令,对各个所述故障域逐一进行针对云计算基础设施的在线升级处理,以使在一个所述故障域进行在线升级的过程中,另一个所述故障域中的各个所述应用进行在线业务处理,而后,所述云计算基础设施在线升级装置将该云计算基础设施在线升级结果文件发送至所述客户端设备。
在本申请的一个或多个实施例中,云计算基础设施在线升级装置可以为设置在金融企业等企业服务系统中的一个功能模块,云计算基础设施在线升级装置也可以单独部署为可以与所述企业服务系统进行信息交互的服务器等装置。
前述的云计算基础设施在线升级装置进行云计算基础设施在线升级的部分可以在如上述内容的服务器中执行,在另一种实际应用情形中,也可以所有的操作都在所述客户端设备中完成。具体可以根据所述客户端设备的处理能力,以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述客户端设备中完成,所述客户端设备还可以包括处理器,用于云计算基础设施在线升级的具体处理。
可以理解的是,用于向云计算基础设施在线升级装置发送请求或指令的客户端设备可以包括智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(PDA)、车载设备、智能穿戴设备等。其中,所述智能穿戴设备可以包括智能眼镜、智能手表、智能手环等。而安装有云计算基础设施在线升级装置的客户端设备可以采用便携式计算机、台式电脑、机架式服务器等。上述的客户端设备可以具有通信模块(即通信单元),可以与远程的服务器进行通信连接,实现与所述服务器的数据传输。所述服务器可以包括任务调度中心一侧的服务器,其他的实施场景中也可以包括中间平台的服务器,例如与任务调度中心服务器有通信链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备,也可以包括多个服务器组成的服务器集群,或者分布式装置的服务器结构。
上述服务器与所述客户端设备之间可以使用任何合适的网络协议进行通信,包括在本申请提交日尚未开发出的网络协议。所述网络协议例如可以包括TCP/IP协议、UDP/IP协议、HTTP协议、HTTPS协议等。当然,所述网络协议例如还可以包括在上述协议之上使用的RPC协议(Remote Procedure Call Protocol,远程过程调用协议)、REST协议(Representational State Transfer,表述性状态转移协议)等。
具体通过下述各个实施例及应用实例分别进行详细说明。
为了解决现有的云计算基础设施在线升级方式还不能做到完全意义上的业务延续,毫秒级的网络中断也可能对部分网络敏感类应用造成一定程度的业务影响,另外如果升级过程出现故障,也可能会对业务产生影响等问题,本申请提供一种可以应用云计算基础设施在线升级装置执行的云计算基础设施在线升级方法的实施例,参见图1,所述云计算基础设施在线升级方法具体包含有如下内容:
步骤100:将目标云平台对应的各个应用在两个故障域中进行相同部署。
在步骤100中,两个故障域为相同类型的故障域,且每个应用都在这两个故障域中进行重复部署,使得每个故障域中的应用都在另一个故障域中有相同的备份。可以理解的是,所述故障域可以是一个管理容器或组合。
步骤200:对各个所述故障域逐一进行针对云计算基础设施的在线升级处理,以使在一个所述故障域进行在线升级的过程中,另一个所述故障域中的各个所述应用进行在线业务处理。
在步骤200中,对各个所述故障域逐一进行针对云计算基础设施的在线升级处理的具体方式为:对一个所述故障域进行针对云计算基础设施的在线升级处理,并在该在线升级处理结束后对另一个所述故障域进行云计算基础设施在线升级处理,以在一个所述故障域进行在线升级的过程中,另一个所述故障域中的各个所述应用进行在线业务处理。
可以理解的是,所述云计算基础设施是指云平台中的基础设施节点操作系统版本以及上层部署的虚拟化软件、云计算底座、高阶网络服务、云服务等版本升级的统称。其中的基础设施节点可以包含有管理节点、网络节点、计算节点、存储节点及裸机网关等。基于此,在本申请的一个或多个实施例中提及的应用所在的宿主机可以指管理节点、网络节点、计算节点、存储节点及裸机网关等。
从上述描述可知,本申请实施例提供的云计算基础设施在线升级方法,通过将跨故障域技术应用至云计算基础设施在线升级场景中,能够在提高云计算基础设施在线升级过程的可靠性的基础上,能够有效提高云平台中各应用向外提供在线业务服务的可靠性及有效性,能够在云计算基础设施在线升级的过程中实现业务延续,尤其针对部分网络敏感类应用,由于不会在云计算基础设施在线升级过程中出现网络中断的情况,因此能够尤其满足网络敏感类应用业务延续要求,即使升级工具存在升级故障风险也不会对业务处理产生影响,进而能够同时提高云平台中云计算基础设施升级及提供业务服务的可靠性,保证云平台的运转稳定性。
为进一步有高云平台中各应用向外提供在线业务服务的可靠性及有效性,在本申请提供的云计算基础设施在线升级方法的一个实施例中,参见图2,所述云计算基础设施在线升级方法的步骤100之后还具体包含有如下内容:
步骤010:在每个所述故障域中分别构建多个反亲和性组,以将功能相同的各个所述应用分别部署在不同的反亲和组中。
可以理解的是,反亲和组的设置主要是出于高可靠性考虑,尽量分散应用,以使得某个节点故障的时候,对应用的影响只是N分之一或者只是一个实例。
基于上述步骤010,所述云计算基础设施在线升级方法中的步骤200具体包含有如下内容:
步骤210:对一个故障域中的各个所述反亲和组逐一进行针对云计算基础设施的在线升级处理,再对另一个故障域中的各个所述反亲和组逐一进行针对云计算基础设施的在线升级处理;其中,所述针对云计算基础设施的在线升级处理包括:对所述应用的宿主机进行系统版本在线升级处理。
从上述描述可知,本申请实施例提供的云计算基础设施在线升级方法,通过设置反亲和组进行后续针对相同功能应用进行逐一升级,能够实现故障域内层面的可靠性升级过程,进而能够使得单个故障域中提供同一类功能服务的应用中,使用有至少一个处于正常的在线业务处理状态中,该种设置方式与跨故障域方式的共同应用,为整个云计算基础设施在线升级过程的业务服务提供了双重保障,进而能够进一步有高云平台中各应用向外提供在线业务服务的可靠性及有效性。
为了提高云计算基础设施在线升级的效率,在本申请提供的云计算基础设施在线升级方法的一个实施例中,参见图3,所述云计算基础设施在线升级方法的步骤100具体包含有如下内容:
步骤110:构建两个相同的故障域。
步骤120:接收针对目标云平台的云计算基础设施在线升级指令,并确定所述云计算基础设施在线升级指令对应的各个应用。
步骤130:在两个所述故障域中分别部署相同的一套应用组,该应用组中包含有所述云计算基础设施在线升级指令对应的各个所述应用,并使得各个所述应用以负载均衡方式进行在线业务处理。
从上述描述可知,本申请实施例提供的云计算基础设施在线升级方法,通过预先构建故障域,能够在接收到针对目标云平台的云计算基础设施在线升级指令,立即将指令指定的各个应用在两个故障域中进行相同部署,能够有效提高各个应用在两个故障域中进行相同部署的效率,进而能够有效提高云计算基础设施在线升级的效率。
为了进一步提高云计算基础设施在线升级的可靠性,在本申请提供的云计算基础设施在线升级方法的一个实施例中,参见图4,所述云计算基础设施在线升级方法的步骤210具体包含有如下内容:
步骤211:选取一个所述故障域作为当前的目标故障域。
步骤212:执行升级步骤:对所述目标故障域中的各个所述反亲和组逐一进行针对各个所述应用各自对应的宿主机的在线升级处理;判断所述目标故障域是否满足预设的升级完成条件,若是,则确定所述目标故障域已完成针对云计算基础设施的在线升级处理。
步骤213:选取另一个所述故障域作为当前的目标故障域,并重新执行所述升级步骤。
从上述描述可知,本申请实施例提供的云计算基础设施在线升级方法,通过在对所述目标故障域中的各个所述反亲和组逐一进行针对各个所述应用各自对应的宿主机的在线升级处理后判断所述目标故障域是否满足预设的升级完成条件,能够保证一个故障域中的应用对应的宿主机均升级完成后,再开始对另一个故障域中的应用对应的宿主机进行在线升级,进而能够进一步提高云计算基础设施在线升级的可靠性。
为了进一步提高云计算基础设施在线升级的可靠性,在本申请提供的云计算基础设施在线升级方法的一个实施例中,参见图5,所述云计算基础设施在线升级方法的步骤212的一种实现方式包含有如下内容:
步骤2121:获取在线升级版本数据,其中,该在线升级版本数据中包含有各个宿主机的标识及对应的系统新版本标识;
步骤2122:判断所述目标故障域中的各个所述应用各自对应的宿主机的当前版本标识是否与所述在线升级版本数据中对应的各个系统新版本标识相匹配,若是,则执行步骤2123;
步骤2123:基于预设的运行功能模块判断所述目标故障域中的各个所述应用对应的宿主机是否均处于正常运行状态,若是,则执行步骤2124;
步骤2124:若所述目标故障域中的各个所述应用对应的宿主机均处于正常运行状态,则确定所述目标故障域已完成针对云计算基础设施的在线升级处理。
可以理解的是,若应用虚机所在的宿主机升级失败,则不一定会导致应用运行故障。一般宿主机节点升级时会提前将其上的应用虚机热迁移至其他的宿主机节点,该种处理方式依托于升级本身的可靠性能力,所以宿主机升级失败一般是指该宿主机节点不可用,但迁移至其他宿主机节点的应用虚机的运行应是正常的,但应用虚机的热迁会存在毫秒级网络中断的问题,这也是本申请实施例提供的云计算基础设施在线升级方法所能够解决的问题。
从上述描述可知,本申请实施例提供的云计算基础设施在线升级方法,通过判断所述目标故障域中的各个所述应用各自对应的宿主机的当前版本标识是否与所述在线升级版本数据中对应的各个系统新版本标识相匹配,能够实现对升级完整度及升级后运行状态的检查,进而能够进一步提高云计算基础设施在线升级的可靠性。
为了提高对在线升级失败进行恢复处理的效率及可靠,在本申请提供的云计算基础设施在线升级方法的一个实施例中,参见图6,所述云计算基础设施在线升级方法的步骤2122之后还包含有如下内容:
若经步骤2122判断获知所述目标故障域中的各个所述应用各自对应的宿主机中存在当前版本标识与所述在线升级版本数据中对应的系统新版本标识不匹配的目标宿主机,则执行步骤300;
步骤310:若所述目标故障域中的各个所述应用各自对应的宿主机中存在当前版本标识与所述在线升级版本数据中对应的系统新版本标识不匹配的目标宿主机,则生成针对该目标宿主机的在线升级失败消息。
步骤320:输出针对所述目标宿主机的在线升级失败消息。
从上述描述可知,本申请实施例提供的云计算基础设施在线升级方法,通过在单个故障域未通过升级完整度检查时,生成并输出针对目标宿主机的在线升级失败消息,能够使得技术人员快速且直观地获知该升级失败情形,并能够有效提高对该在线升级失败进行恢复处理的效率及可靠性。
为了提高对运行故障进行恢复处理的效率及可靠,在本申请提供的云计算基础设施在线升级方法的一个实施例中,参见图7,所述云计算基础设施在线升级方法的步骤2123之后还包含有如下内容:
步骤410:若所述目标故障域中的各个所述应用对应的宿主机中存在当前未处于正常运行状态的目标宿主机,则生成针对该目标宿主机的不可用消息。
步骤420:输出针对该目标宿主机的不可用消息。
从上述描述可知,本申请实施例提供的云计算基础设施在线升级方法,通过在单个故障域未通过运行状态检查时,生成并输出针对目标应用的运行故障消息,能够使得技术人员快速且直观地获知该运行故障情形,并能够有效提高对该运行故障进行恢复处理的效率及可靠性。
从软件层面来说,为了解决现有的云计算基础设施在线升级方式还不能做到完全意义上的业务延续,毫秒级的网络中断也可能对部分网络敏感类应用造成一定程度的业务影响,另外如果升级过程出现故障,也可能会对业务产生影响等问题,本申请提供一种用于执行所述云计算基础设施在线升级方法中全部或部分内容的云计算基础设施在线升级装置的实施例,参见图8,所述云计算基础设施在线升级装置具体包含有如下内容:
故障域部署模块10,用于将目标云平台对应的各个应用在两个故障域中进行相同部署。
在故障域部署模块10中,两个故障域为相同类型的故障域,且每个应用都在这两个故障域中进行重复部署,使得每个故障域中的应用都在另一个故障域中有相同的备份。可以理解的是,所述故障域可以是一个管理容器或组合。
在线升级模块20,用于对各个所述故障域逐一进行针对云计算基础设施的在线升级处理,以使在一个所述故障域进行在线升级的过程中,另一个所述故障域中的各个所述应用进行在线业务处理。
可以理解的是,对各个所述故障域逐一进行针对云计算基础设施的在线升级处理的具体方式为:对一个所述故障域进行针对云计算基础设施的在线升级处理,并在该在线升级处理结束后对另一个所述故障域进行云计算基础设施在线升级处理,以在一个所述故障域进行在线升级的过程中,另一个所述故障域中的各个所述应用进行在线业务处理。
本申请提供的云计算基础设施在线升级装置的实施例具体可以用于执行上述实施例中的云计算基础设施在线升级方法的实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。
从上述描述可知,本申请实施例提供的云计算基础设施在线升级装置,通过将跨故障域技术应用至云计算基础设施在线升级场景中,能够在提高云计算基础设施在线升级过程的可靠性的基础上,能够有效提高云平台中各应用向外提供在线业务服务的可靠性及有效性,能够在云计算基础设施在线升级的过程中实现业务延续,尤其针对部分网络敏感类应用,由于不会在云计算基础设施在线升级过程中出现网络中断的情况,因此能够尤其满足网络敏感类应用业务延续要求,即使升级工具存在升级故障风险也不会对业务处理产生影响,进而能够同时提高云平台中云计算基础设施升级及提供业务服务的可靠性,保证云平台的运转稳定性。
为了进一步说明书本方案,为解决基础设施云在线升级场景,云平台升级工具本身的高可靠能力不足以满足网络敏感类应用业务延续要求,以及升级工具存在升级故障风险可能会对业务产生影响等问题,本申请还提供一种云计算基础设施在线升级方法的具体应用实例,在云平台升级工具本身提供的高可靠能力以外,实现多维度的升级过程业务延续保障。
所述云计算基础设施在线升级方法的具体应用实例主要包括以下几个步骤:
S1:应用跨故障域部署;
其中,首先在部署阶段,创建两个同等故障域,每个应用需在两个故障域上相同部署,并且依托SLB等负载均衡能力对外提供业务访问。
S2:单故障域内,同等功能的应用虚机反亲和部署;
其中,每个故障域内,同等功能的应用虚机建立反亲和性组打散部署。
S3:升级实施过程中同等故障域串行升级;
其中,在升级实施过程中,同等故障域需逐个升级,在确保单个故障域升级实施完成且部署在上面的业务虚机均运行正常后,再进行下一个对应故障域的升级操作。
S4:单个故障域内将主机划分多个批次升级。
其中,在对单个故障域升级过程中,采用分批升级的方式,同等功能的应用虚机所在主机尽量划分至不同批次,故障域内的主机按照批次逐批升级,直至所有主机均完成升级。
从上述描述可知,本申请应用实例提供的云计算基础设施在线升级方法,具备如下几个优点:
1、相较于升级工具本身的高可靠特性,本发明方法提供更高程度的升级过程业务延续性能力。
2、在升级工具出现升级故障的情况下,本发明方法能够将业务影响降至最低,实现多维度的升级业务延续保障。
从硬件层面来说,为了解决现有的云计算基础设施在线升级方式还不能做到完全意义上的业务延续,毫秒级的网络中断也可能对部分网络敏感类应用造成一定程度的业务影响,另外如果升级过程出现故障,也可能会对业务产生影响等问题,本申请提供一种用于实现所述云计算基础设施在线升级方法中的全部或部分内容的电子设备的实施例,所述电子设备具体包含有如下内容:
图9为本申请实施例的电子设备9600的系统构成的示意框图。如图9所示,该电子设备9600可以包括中央处理器9100和存储器9140;存储器9140耦合到中央处理器9100。值得注意的是,该图9是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。
在一实施例中,云计算基础设施在线升级功能可以被集成到中央处理器中。
其中,中央处理器可以被配置为进行如下控制:
步骤100:将目标云平台对应的各个应用在两个故障域中进行相同部署。
步骤200:对各个所述故障域逐一进行针对云计算基础设施的在线升级处理,以使在一个所述故障域进行在线升级的过程中,另一个所述故障域中的各个所述应用进行在线业务处理。
从上述描述可知,本申请实施例提供的电子设备,通过将跨故障域技术应用至云计算基础设施在线升级场景中,能够在提高云计算基础设施在线升级过程的可靠性的基础上,能够有效提高云平台中各应用向外提供在线业务服务的可靠性及有效性,能够在云计算基础设施在线升级的过程中实现业务延续,尤其针对部分网络敏感类应用,由于不会在云计算基础设施在线升级过程中出现网络中断的情况,因此能够尤其满足网络敏感类应用业务延续要求,即使升级工具存在升级故障风险也不会对业务处理产生影响,进而能够同时提高云平台中云计算基础设施升级及提供业务服务的可靠性,保证云平台的运转稳定性。
在另一个实施方式中,云计算基础设施在线升级装置可以与中央处理器9100分开配置,例如可以将云计算基础设施在线升级装置配置为与中央处理器9100连接的芯片,通过中央处理器的控制来实现云计算基础设施在线升级功能。
如图9所示,该电子设备9600还可以包括:通信模块(发送机/接收机)9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是,电子设备9600也并不是必须要包括图9中所示的所有部件;此外,电子设备9600还可以包括图9中没有示出的部件,可以参考现有技术。
如图9所示,中央处理器9100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。
其中,存储器9140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序,以实现信息存储或处理等。
输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器9140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142,该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。
存储器9140还可以包括数据存储部9143,该数据存储部9143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块(发送机/接收机)9110经由天线9111发送和接收信号。通信模块(发送机/接收机)9110耦合到中央处理器9100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块(发送机/接收机)9110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132,以经由扬声器9131提供音频输出,并接收来自麦克风9132的音频输入,从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器9130还耦合到中央处理器9100,从而使得可以通过麦克风9132能够在本机上录音,且使得可以通过扬声器9131来播放本机上存储的声音。
本申请的实施例还提供能够实现上述实施例中的云计算基础设施在线升级方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的执行主体为服务器或客户端的云计算基础设施在线升级方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
步骤100:将目标云平台对应的各个应用在两个故障域中进行相同部署。
步骤200:对各个所述故障域逐一进行针对云计算基础设施的在线升级处理,以使在一个所述故障域进行在线升级的过程中,另一个所述故障域中的各个所述应用进行在线业务处理。
从上述描述可知,本申请实施例提供的计算机可读存储介质,通过将跨故障域技术应用至云计算基础设施在线升级场景中,能够在提高云计算基础设施在线升级过程的可靠性的基础上,能够有效提高云平台中各应用向外提供在线业务服务的可靠性及有效性,能够在云计算基础设施在线升级的过程中实现业务延续,尤其针对部分网络敏感类应用,由于不会在云计算基础设施在线升级过程中出现网络中断的情况,因此能够尤其满足网络敏感类应用业务延续要求,即使升级工具存在升级故障风险也不会对业务处理产生影响,进而能够同时提高云平台中云计算基础设施升级及提供业务服务的可靠性,保证云平台的运转稳定性。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (7)

1.一种云计算基础设施在线升级方法,其特征在于,包括:
将目标云平台对应的各个应用在两个故障域中进行相同部署;
对各个所述故障域逐一进行针对云计算基础设施的在线升级处理,以使在一个所述故障域进行在线升级的过程中,另一个所述故障域中的各个所述应用进行在线业务处理;
在所述将目标云平台对应的各个应用在两个故障域中进行相同部署之后,还包括:
在每个所述故障域中分别构建多个反亲和性组,以将功能相同的各个所述应用分别部署在不同的反亲和组中;
相对应的,所述对各个所述故障域逐一进行针对云计算基础设施的在线升级处理,包括:
对一个故障域中的各个所述反亲和组逐一进行针对云计算基础设施的在线升级处理,再对另一个故障域中的各个所述反亲和组逐一进行针对云计算基础设施的在线升级处理;其中,所述针对云计算基础设施的在线升级处理包括:对所述应用的宿主机进行系统版本在线升级处理;
所述将目标云平台对应的各个应用在两个故障域中进行相同部署,包括:
构建两个相同的故障域;
接收针对目标云平台的云计算基础设施在线升级指令,并确定所述云计算基础设施在线升级指令对应的各个应用;
在两个所述故障域中分别部署相同的一套应用组,该应用组中包含有所述云计算基础设施在线升级指令对应的各个所述应用,并使得各个所述应用以负载均衡方式进行在线业务处理;
所述对一个故障域中的各个所述反亲和组逐一进行针对云计算基础设施的在线升级处理,再对另一个故障域中的各个所述反亲和组逐一进行针对云计算基础设施的在线升级处理,包括:
选取一个所述故障域作为当前的目标故障域;
执行升级步骤:对所述目标故障域中的各个所述反亲和组逐一进行针对各个所述应用各自对应的宿主机的在线升级处理;判断所述目标故障域是否满足预设的升级完成条件,若是,则确定所述目标故障域已完成针对云计算基础设施的在线升级处理;
选取另一个所述故障域作为当前的目标故障域,并重新执行所述升级步骤。
2.根据权利要求1所述的云计算基础设施在线升级方法,其特征在于,所述判断所述目标故障域是否满足预设的升级完成条件,若是,则确定所述目标故障域已完成针对云计算基础设施的在线升级处理,包括:
获取在线升级版本数据,其中,该在线升级版本数据中包含有各个宿主机的标识及对应的系统新版本标识;
判断所述目标故障域中的各个所述应用各自对应的宿主机的当前版本标识是否与所述在线升级版本数据中对应的各个系统新版本标识相匹配,若是,则基于预设的运行功能模块判断所述目标故障域中的各个所述应用是否均处于正常运行状态;
若所述目标故障域中的各个所述应用均处于正常运行状态,则确定所述目标故障域已完成针对云计算基础设施的在线升级处理。
3.根据权利要求2所述的云计算基础设施在线升级方法,其特征在于,还包括:
若所述目标故障域中的各个所述应用各自对应的宿主机中存在当前版本标识与所述在线升级版本数据中对应的系统新版本标识不匹配的目标宿主机,则生成针对该目标宿主机的在线升级失败消息;
输出针对所述目标宿主机的在线升级失败消息。
4.根据权利要求2所述的云计算基础设施在线升级方法,其特征在于,还包括:
若所述目标故障域中的各个所述应用对应的宿主机中存在当前未处于正常运行状态的目标宿主机,则生成针对该目标宿主机的不可用消息;
输出针对该目标宿主机的不可用消息。
5.一种云计算基础设施在线升级装置,其特征在于,包括:
故障域部署模块,用于将目标云平台对应的各个应用在两个故障域中进行相同部署;
在线升级模块,用于对各个所述故障域逐一进行针对云计算基础设施的在线升级处理,以使在一个所述故障域进行在线升级的过程中,另一个所述故障域中的各个所述应用进行在线业务处理;
所述故障域部署模块还用于在所述将目标云平台对应的各个应用在两个故障域中进行相同部署之后,在每个所述故障域中分别构建多个反亲和性组,以将功能相同的各个所述应用分别部署在不同的反亲和组中;
相对应的,在线升级模块对各个所述故障域逐一进行针对云计算基础设施的在线升级处理,包括:
对一个故障域中的各个所述反亲和组逐一进行针对云计算基础设施的在线升级处理,再对另一个故障域中的各个所述反亲和组逐一进行针对云计算基础设施的在线升级处理;其中,所述针对云计算基础设施的在线升级处理包括:对所述应用的宿主机进行系统版本在线升级处理;
所述故障域部署模块将目标云平台对应的各个应用在两个故障域中进行相同部署,包括:
构建两个相同的故障域;
接收针对目标云平台的云计算基础设施在线升级指令,并确定所述云计算基础设施在线升级指令对应的各个应用;
在两个所述故障域中分别部署相同的一套应用组,该应用组中包含有所述云计算基础设施在线升级指令对应的各个所述应用,并使得各个所述应用以负载均衡方式进行在线业务处理;
在线升级模块对一个故障域中的各个所述反亲和组逐一进行针对云计算基础设施的在线升级处理,再对另一个故障域中的各个所述反亲和组逐一进行针对云计算基础设施的在线升级处理,包括:
选取一个所述故障域作为当前的目标故障域;
执行升级步骤:对所述目标故障域中的各个所述反亲和组逐一进行针对各个所述应用各自对应的宿主机的在线升级处理;判断所述目标故障域是否满足预设的升级完成条件,若是,则确定所述目标故障域已完成针对云计算基础设施的在线升级处理;
选取另一个所述故障域作为当前的目标故障域,并重新执行所述升级步骤。
6.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4任一项所述的云计算基础设施在线升级方法。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至4任一项所述的云计算基础设施在线升级方法。
CN202110484694.0A 2021-04-30 2021-04-30 云计算基础设施在线升级方法及装置 Active CN113050974B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110484694.0A CN113050974B (zh) 2021-04-30 2021-04-30 云计算基础设施在线升级方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110484694.0A CN113050974B (zh) 2021-04-30 2021-04-30 云计算基础设施在线升级方法及装置

Publications (2)

Publication Number Publication Date
CN113050974A CN113050974A (zh) 2021-06-29
CN113050974B true CN113050974B (zh) 2024-02-20

Family

ID=76518108

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110484694.0A Active CN113050974B (zh) 2021-04-30 2021-04-30 云计算基础设施在线升级方法及装置

Country Status (1)

Country Link
CN (1) CN113050974B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017000586A1 (zh) * 2015-06-29 2017-01-05 中兴通讯股份有限公司 虚拟网元的升级方法、装置和计算机存储介质
CN107548549A (zh) * 2015-04-27 2018-01-05 微软技术许可有限责任公司 分布式计算环境中的资源平衡
CN110720091A (zh) * 2017-06-09 2020-01-21 瑞典爱立信有限公司 用于与托管的应用/虚拟网络功能(vnf)协调基础设施升级的方法
CN110795118A (zh) * 2019-09-11 2020-02-14 烽火通信科技股份有限公司 一种云平台升级工具及升级方法
CN111213343A (zh) * 2018-09-28 2020-05-29 华为技术有限公司 一种主机升级方法及设备
CN112241340A (zh) * 2020-11-05 2021-01-19 中国航空工业集团公司西安航空计算技术研究所 一种面向在线升级的启动和加载区域数据备份方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107548549A (zh) * 2015-04-27 2018-01-05 微软技术许可有限责任公司 分布式计算环境中的资源平衡
WO2017000586A1 (zh) * 2015-06-29 2017-01-05 中兴通讯股份有限公司 虚拟网元的升级方法、装置和计算机存储介质
CN110720091A (zh) * 2017-06-09 2020-01-21 瑞典爱立信有限公司 用于与托管的应用/虚拟网络功能(vnf)协调基础设施升级的方法
CN111213343A (zh) * 2018-09-28 2020-05-29 华为技术有限公司 一种主机升级方法及设备
CN110795118A (zh) * 2019-09-11 2020-02-14 烽火通信科技股份有限公司 一种云平台升级工具及升级方法
CN112241340A (zh) * 2020-11-05 2021-01-19 中国航空工业集团公司西安航空计算技术研究所 一种面向在线升级的启动和加载区域数据备份方法

Also Published As

Publication number Publication date
CN113050974A (zh) 2021-06-29

Similar Documents

Publication Publication Date Title
CN111813601B (zh) 有状态分布式集群的微服务回滚方法及装置
CN111031058A (zh) 基于WebSocket的分布式服务器集群交互方法及装置
CN112463451A (zh) 缓存灾备集群切换方法及软负载均衡集群装置
CN112463535B (zh) 多集群异常处理方法及装置
CN110764881A (zh) 分布式系统后台重试方法及装置
CN111143031A (zh) 一种虚拟机的容量更改方法及装置
CN113138812B (zh) 航天器任务调度方法及装置
CN112069154A (zh) etcd分布式数据库自动运维方法及相关装置
CN111510493B (zh) 分布式数据传输方法及装置
CN113206877A (zh) 一种会话保持方法及装置
CN112995303A (zh) 跨集群调度方法及装置
CN111858050A (zh) 服务器集群混合部署方法、集群管理节点及相关系统
CN111338905A (zh) 应用节点数据处理方法及装置
CN115412610A (zh) 故障场景下的流量调度方法及装置
CN104468947B (zh) 一种信息处理方法及电子设备
CN111698337B (zh) 建立通信连接的方法、装置及设备
CN114257532A (zh) 服务端状态探测方法及装置
CN112732660A (zh) 干预式文件传输方法、装置及系统
CN113050974B (zh) 云计算基础设施在线升级方法及装置
CN113452776B (zh) PaaS平台服务调度方法、装置及PaaS平台
CN114285657B (zh) 防火墙安全策略变更验证方法及装置
US20240022911A1 (en) Nfc tag verification method and related device
CN114697339A (zh) 集中式架构下的负载均衡方法及装置
CN113381887A (zh) 计算节点故障处理方法及装置
CN113268272A (zh) 基于私有云的应用交付方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant