CN115525385A - 一种云环境下的物理机运维方法及装置 - Google Patents

一种云环境下的物理机运维方法及装置 Download PDF

Info

Publication number
CN115525385A
CN115525385A CN202110702307.6A CN202110702307A CN115525385A CN 115525385 A CN115525385 A CN 115525385A CN 202110702307 A CN202110702307 A CN 202110702307A CN 115525385 A CN115525385 A CN 115525385A
Authority
CN
China
Prior art keywords
service
isolation
physical machine
maintenance
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110702307.6A
Other languages
English (en)
Inventor
刘海龙
赵彤
沈村敬
刘超千
强群力
董俊峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NetsUnion Clearing Corp
Original Assignee
NetsUnion Clearing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NetsUnion Clearing Corp filed Critical NetsUnion Clearing Corp
Priority to CN202110702307.6A priority Critical patent/CN115525385A/zh
Publication of CN115525385A publication Critical patent/CN115525385A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种云环境下的物理机运维方法及装置,由业务平台服务器执行,该方法包括:接收来自运维平台的物理机隔离任务,并根据物理机隔离任务确定第一目标物理机;确定第一目标物理机上部署的虚拟机以及虚拟机上部署的服务;根据服务中的目标服务调用相对应的服务隔离接口,以对目标服务进行隔离,目标服务与业务平台相关联;根据目标服务的隔离结果确定业务平台的隔离状态并返回至运维平台,以使运维平台根据隔离状态更新第一目标物理机的维修状态。本申请通过各业务团队提供的标准的服务隔离接口可以对存在故障隐患的物理机上的服务进行自动隔离,减少了运维平台与各业务团队的沟通成本,进而提高了云环境下物理机的运维效率。

Description

一种云环境下的物理机运维方法及装置
技术领域
本申请涉及微服务技术领域,尤其涉及一种云环境下的物理机运维方法及装置。
背景技术
云环境是指能够从动态虚拟化的资源池中向用户或者各种应用系统按需提供计算能力、存储能力或者虚拟机服务等的互联网或者大数据环境。在基于云环境下的虚拟化技术提供服务器硬件底层服务的IT架构中,不同团队往往承担不同的职能,例如A团队主要负责将物理机划分为多个虚拟机供不同B团队使用,C团队则使用A团队提供的虚拟机部署中间件服务等业务。
当对物理机进行巡检,发现物理机存在故障隐患时,部署在这台物理机上的多台虚拟机都将受到影响,因此需要及时对故障的物理机进行运维处理。
然而,现有技术中的运维方法需要各团队之间的相互配合,沟通成本较高,且运维效率低下。
发明内容
本申请实施例提供了一种云环境下的物理机运维方法及装置,以降低沟通成本,提高运维效率。
本申请实施例采用下述技术方案:
第一方面,本申请实施例提供一种云环境下的物理机运维方法,由业务平台服务器执行,其中,所述方法包括:
接收来自运维平台的物理机隔离任务,并根据所述物理机隔离任务确定第一目标物理机;
确定所述第一目标物理机上部署的虚拟机以及所述虚拟机上部署的服务;
根据所述虚拟机上部署的服务中的目标服务,调用与所述目标服务对应的服务隔离接口,以对所述目标服务进行隔离,其中所述目标服务与业务平台相关联;
根据对所述目标服务的隔离结果确定所述业务平台的隔离状态,并将所述业务平台的隔离状态返回至运维平台,以使所述运维平台根据所述业务平台的隔离状态更新所述第一目标物理机的维修状态。
可选地,所述确定所述第一目标物理机上部署的虚拟机以及所述虚拟机上部署的服务包括:
在配置管理数据库中查询所述第一目标物理机上部署的虚拟机以及所述虚拟机上部署的服务。
可选地,所述根据对所述目标服务的隔离结果确定业务平台的隔离状态包括:
通过所述虚拟机上的服务隔离接口,接收所述虚拟机返回的目标服务的隔离结果;
根据所述目标服务的隔离结果确定所述业务平台的隔离状态。
可选地,所述虚拟机包括多个,所述根据所述目标服务的隔离结果确定所述业务平台的隔离状态包括:
若各虚拟机返回的目标服务的隔离结果均为成功结果,则直接确定所述业务平台的隔离状态为成功状态;
若至少一个虚拟机返回的目标服务的隔离结果为失败结果,则触发告警,以使人工进行处理,并根据人工处理结果更新所述业务平台的隔离状态为成功状态。
可选地,所述接收来自运维平台的物理机隔离任务包括:
通过隔离任务接收接口接收来自运维平台的物理机隔离任务,其中所述隔离任务接收接口包括Dubbo服务隔离任务接收接口、数据库隔离任务接收接口和中间件隔离任务接收接口中的至少一种。
可选地,在根据对所述目标服务的隔离结果确定业务平台的隔离状态,并将所述业务平台的隔离状态返回至运维平台之后,所述方法还包括:
接收物理机恢复任务,并根据所述物理机恢复任务确定第二目标物理机;
根据所述第二目标物理机确定所述第二目标物理机上部署的虚拟机;
根据所述虚拟机上部署的目标服务,调用相应的服务恢复接口,以对所述虚拟机上部署的目标服务进行恢复;
根据对所述虚拟机上部署的目标服务的恢复结果确定所述业务平台的恢复状态,并将所述业务平台的恢复状态返回至所述运维平台,以使所述运维平台根据所述业务平台的恢复状态更新所述第二目标物理机的维修状态。
第二方面,本申请实施例还提供一种云环境下的物理机运维方法,由运维平台服务器执行,其中,所述方法包括:
生成物理机隔离任务;
将所述物理机隔离任务下发至业务平台服务器,其中所述业务平台服务器用于执行上述任一项所述的方法;
接收所述业务平台服务器返回的业务平台的隔离状态;
根据所述业务平台的隔离状态更新所述目标物理机的维修状态。
可选地,其中所述业务平台服务器包括多个,所述根据所述业务平台的隔离状态更新所述目标物理机的维修状态包括:
若各业务平台服务器返回的业务平台的隔离状态均为成功状态,则将所述目标物理机的维修状态更新为可维修状态。
可选地,在根据所述业务平台的隔离状态更新所述目标物理机的维修状态之后,所述方法还包括:
接收所述目标物理机的维修结果;
根据所述维修结果生成物理机恢复任务,并将所述物理机恢复任务下发至所述业务平台服务器,以使所述业务平台服务器对所述物理机上部署的服务进行恢复。
可选地,所述生成物理机隔离任务包括:
获取物理机巡检结果;
根据所述物理机巡检结果生成所述物理机隔离任务。
第三方面,本申请实施例还提供一种云环境下的物理机运维装置,应用于业务平台服务器,其中,所述装置用于实现前述之任一所述方法。
第四方面,本申请实施例还提供一种云环境下的物理机运维装置,应用于运维平台服务器,其中,所述装置用于实现前述之任一所述方法。
第五方面,本申请实施例还提供一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行前述之任一所述方法。
第六方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行前述之任一所述方法。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:本申请实施例的云环境下的物理机运维方法可以由单独部署的业务平台服务器执行,在进行物理机运维时,先接收来自运维平台的物理机隔离任务,并根据所述物理机隔离任务确定第一目标物理机,然后确定第一目标物理机上部署的虚拟机以及虚拟机上部署的服务,之后根据虚拟机上部署的服务中的目标服务,调用与目标服务对应的服务隔离接口,以对目标服务进行隔离,其中目标服务与业务平台相关联,最后根据对目标服务的隔离结果确定业务平台的隔离状态,并将所述业务平台的隔离状态返回至运维平台,以使所述运维平台根据所述业务平台的隔离状态更新所述第一目标物理机的维修状态。本申请实施例的云环境下的物理机运维方法可以由各业务团队分别执行,通过各业务团队提供的标准的服务隔离接口即可以对存在故障隐患的物理机上的虚拟机服务进行自动隔离,减少了运维平台与各业务团队的沟通成本,进而提高了云环境下物理机的运维效率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为现有的一种云环境下的物理机运维方法的流程示意图;
图2为本申请实施例一种云环境下的物理机运维系统架构示意图;
图3为本申请实施例一种云环境下的物理机运维方法的流程示意图;
图4为本申请实施例一种服务隔离流程示意图;
图5为本申请实施例另一种云环境下的物理机运维方法的流程示意图;
图6为本申请实施例另一种服务隔离流程示意图;
图7为本申请实施例一种云环境下的物理机运维装置的结构示意图;
图8为本申请实施例另一种云环境下的物理机运维装置的结构示意图;
图9为本申请实施例中一种电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图,详细说明本申请各实施例提供的技术方案。
为了便于对本申请各实施例的理解,如图1所示,提供了现有的一种云环境下的物理机运维方法的流程示意图。首先基础设施团队会对物理机进行巡检,当在巡检过程中发现存在故障隐患的物理机时,如主板异常,CPU使用率过高等,会线下通知各业务团队对存在故障隐患的物理机上部署的虚拟机服务进行隔离,然后各业务团队分别执行服务隔离操作。在隔离完成后,分别备注维修工单,再通知基础设施团队进行维修,基础设施团队维修完成后,需要提交物理机的交付信息给各业务团队,告知各业务团队拉起服务,从而完成整个的物理机运维流程。
然而,上述流程至少存在如下问题:
1)基础设施团队通知各业务团队,采用线下即时消息的方式进行通知,例如在讨论组里通知,导致通知效率低下;
2)在对存在故障隐患的物理机进行维修前,需各业务团队备注维修工单,沟通成本高;
3)维修交付后存在交付信息通知不到位,信息被忽略,导致虚拟机服务得不到及时拉起等问题。
基于此,本申请实施例提供了一种云环境下的物理机运维系统,如图2所示,提供了本申请实施例一种云环境下的物理机运维系统架构示意图,该系统架构主要涉及三部分结构,包括基础设施运维平台、业务平台和物理机集群。
本申请实施例的基础设施运维平台主要用于对物理机等基础设施的维护和管理,当发现物理机存在故障隐患时,会通过调用接口的方式通知各业务团队自动进行故障隔离,以避免对实际业务造成影响。
本申请实施例的业务平台可以由不同的业务团队单独部署和管理,当业务平台接收到基础设施运维平台发送过来的存在故障隐患的物理机信息后,各业务团队可以自行在其业务平台服务器上执行故障隔离操作,以对存在故障隐患的物理机上部署的相关服务进行隔离,并将隔离结果返回给基础设施运维平台,便于后续维修人员及时对物理机进行维修,进而及时排除故障隐患。
本申请实施例的物理机集群包括多台物理机,每一台物理机又可以看作是一个虚拟机集群的物理载体,也即一台物理机上可以部署有多个虚拟机,每一个虚拟机上均可以部署有多个服务。多台物理机的多个虚拟机集群统一部署在同一云环境下,进而能够为用户或者各种应用系统按需提供强大的计算能力、存储能力或者其他服务。当发现物理机存在故障隐患时,为了避免对整个业务系统的稳定性造成影响,需要将相应的物理机上部署的虚拟机服务进行隔离,之后再由相应的维修人员对物理机进行维修,以及时排除故障隐患。
具体实施时,本申请实施例提供了一种云环境下的物理机运维方法,由业务平台服务器执行,如图3所示,提供了本申请实施例一种云环境下的物理机运维方法的流程示意图,所述方法至少包括如下步骤S310至步骤S340:
步骤S310,接收来自运维平台的物理机隔离任务,并根据所述物理机隔离任务确定第一目标物理机。
本申请实施例的云环境下的物理机运维方法可以由各业务团队单独部署的业务平台服务器来执行,在进行物理机运维时,可以先接收运维平台发送过来的物理机隔离任务,这里的物理机隔离任务可以理解为是对一个或多个存在故障隐患的物理机即第一目标物理机上部署的虚拟机服务进行隔离操作的任务,因此任务中会携带有第一目标物理机的机器标识等信息,也即根据物理机隔离任务可以确定出第一目标物理机。
步骤S320,确定所述第一目标物理机上部署的虚拟机以及所述虚拟机上部署的服务。
在确定了第一目标物理机后,需要进一步确定该第一目标物理机上部署了哪些虚拟机。实际场景下,这里可以会有两种情况,一种是该第一目标物理机上没有部署虚拟机,则无需再进行后续的虚拟机服务的隔离操作,可以直接返回隔离成功的结果;另一种情况是该第一标物理机上部署了一个或多个虚拟机,则需要进行后续的服务隔离操作。
步骤S330,根据所述虚拟机上部署的服务中的目标服务,调用与所述目标服务对应的服务隔离接口,以对所述目标服务进行隔离,其中所述目标服务与业务平台相关联。
由于服务之间是互相依赖,因此任何组件都可能出错导致用户不能访问,为尽可能减少部分中断带来的影响,需要进行故障隔离。本申请提及的“隔离”可以理解为是将虚拟机上部署的服务之间隔离开,避免再相互影响,当物理机存在故障隐患时,通过对该物理机上部署的虚拟机服务进行隔离操作,能够避免对整个业务系统的稳定性造成影响。
具体实施时,如果确定了第一标物理机上部署了一个或多个虚拟机,则需要进一步确定每个虚拟机上部署了哪些目标服务,由于本申请实施例的隔离操作由不同的业务团队各自执行,每个业务团队仅需要负责隔离与本团队相关的虚拟机服务即可,因此这里的“目标服务”就可以理解为是各业务团队所关联的虚拟机服务。
之后根据不同的目标服务,调用虚拟机上相应的服务隔离接口,进而对各虚拟机上部署的目标服务进行隔离,这里的“服务隔离接口”就可以理解为是针对不同的目标服务所设置的具体隔离操作,具体可以由各业务团队进行标准化的部署。实际业务场景下,不同的服务的隔离操作可能是不同的,例如可以是直接下线服务,或者暂时停掉服务,还可以将服务切走,如果服务所在节点涉及主从关系,还需要考虑主从切换。因此本申请实施例通过根据不同的目标服务调用不同的服务隔离接口,可以自动实现不同的隔离操作。
步骤S340,根据对所述目标服务的隔离结果确定所述业务平台的隔离状态,并将所述业务平台的隔离状态返回至运维平台,以使所述运维平台根据所述业务平台的隔离状态更新所述第一目标物理机的维修状态。
在对各虚拟机部署的目标服务完成隔离后,需要根据隔离结果确定业务平台的隔离状态,这里的隔离状态包括成功状态和失败状态,然后将隔离状态返回至运维平台,使得运维平台可以根据业务平台的隔离状态确定是否对第一目标物理机进行维修。
本申请实施例的云环境下的物理机运维方法可以由各业务团队分别执行,通过各业务团队提供的标准的服务隔离接口即可以对存在故障隐患的物理机上的服务进行自动隔离,减少了运维平台与各业务团队的沟通成本,进而提高了云环境下物理机的运维效率。
在本申请的一个实施例中,所述确定所述第一目标物理机上部署的虚拟机以及所述虚拟机上部署的服务包括:在配置管理数据库中查询所述第一目标物理机上部署的虚拟机以及所述虚拟机上部署的服务。
本申请实施例的业务平台服务器在确定虚拟机及虚拟机上部署的服务时,可以通过查询配置管理数据库(Configuration Management Database,简称CMDB)来实现。CMDB中通常存储有与企业IT架构中设备的各种配置信息,它与所有服务支持和服务交付流程都紧密相联,支持这些流程的运转、发挥配置信息的价值,同时依赖于相关流程保证数据的准确性。
具体地,如图4所示,提供了本申请实施例一种服务隔离流程示意图。本申请实施例在确定第一目标物理机上部署的虚拟机时,可以从上述CMDB中查询第一目标物理机上部署了哪些虚拟机以及这些虚拟机上部署了哪些目标服务。CMDB中具体存储的数据内容例如可以包括物理机标识,虚拟机标识、服务标识等。当然,具体还包括哪些信息,本领域技术人员可根据实际需求灵活设置,在此不做具体限定。
在本申请的一个实施例中,所述根据对所述目标服务的隔离结果确定业务平台的隔离状态包括:通过所述虚拟机上的服务隔离接口,接收所述虚拟机返回的目标服务的隔离结果;根据所述目标服务的隔离结果确定所述业务平台的隔离状态。
实际应用场景下,业务平台服务器会通过调用虚拟机上的服务隔离接口来接收虚拟机返回的对目标服务的隔离结果,这里的隔离结果可能是隔离成功结果,也可能是隔离失败结果。如果一个虚拟机上部署的目标服务有多个,那么当各目标服务均隔离成功时,该虚拟机对应返回的隔离结果即为隔离成功结果,而只要有一个目标服务没有隔离成功,该虚拟机对应返回的隔离结果即为隔离失败结果。在得到虚拟机维度的隔离结果后,可以根据虚拟机维度的隔离结果进一步确定业务平台的隔离状态。
在本申请的一个实施例中,所述虚拟机包括多个,所述根据所述目标服务的隔离结果确定所述业务平台的隔离状态包括:若各虚拟机返回的目标服务的隔离结果均为成功结果,则直接确定所述业务平台的隔离状态为成功状态;若至少一个虚拟机返回的目标服务的隔离结果为失败结果,则触发告警,以使人工进行处理,并根据人工处理结果更新所述业务平台的隔离状态为成功状态。
实际应用场景下,一个物理机上可能部署有多个虚拟机,在根据各虚拟机返回的目标服务的隔离结果确定业务平台的隔离状态时,如果各虚拟机返回的目标服务的隔离结果均为成功结果,说明各虚拟机上部署的相关服务都已完成隔离操作,则可以直接确定业务平台的隔离状态为成功状态。如果有一个或多个虚拟机返回的目标服务的隔离结果为失败结果,说明有部分服务没有成功隔离,此时可以触发告警并生成告警信息,然后由人工介入处理,人工处理完成后,则相应的虚拟机维度的隔离结果即为成功结果,并以此更新业务平台的隔离状态为成功状态。
出现隔离失败的情况可能是因为服务集群节点已达到阈值,再执行隔离操作会导致服务能力不足。比如,实际环境中部署有10个服务节点,阈值要求是至少同时保持有6个服务节点是正常运行,如果现在已经4个服务节点发生了故障,当巡检时又发现了第5个存在故障隐患的服务节点时,如果继续隔离,将无法提供足够的服务能力,此时可以人工介入,人工介入的处理方式比如可以是增加新的服务节点,保证至少有6个服务节点在正常运转。
在本申请的一个实施例中,所述接收来自运维平台的物理机隔离任务包括:通过隔离任务接收接口接收来自运维平台的物理机隔离任务,其中所述隔离任务接收接口包括Dubbo服务隔离任务接收接口、数据库隔离任务接收接口和中间件隔离任务接收接口中的至少一种。
如前所述,本申请实施例的业务平台服务器可以由不同的业务团队分别部署和管理,例如具体可以包括Dubbo服务团队、数据库团队和中间件团队等。Dubbo服务团队主要负责基于Dubbo服务框架,使得业务应用可以通过高性能的RPC远程过程调用实现服务的输出和输入。数据库团队则主要负责各种数据库的搭建、管理和维护,并提供各种数据库服务等。中间件团队则主要负责多种中间件的各项性能参数设置、监控及优化,并提供各种中间件服务。
因此不同的业务团队,可以分别在在自己的业务平台服务器上设置相应的隔离任务接收接口,以接收运维平台发送过来的物理机隔离任务。例如对于Dubbo服务团队,可以设置Dubbo服务隔离任务接收接口;对于数据库团队,可以设置数据库隔离任务接收接口;对于中间件团队,可以设置中间件隔离任务接收接口。
需要说明的是,上述实施例仅设置了三种类型的隔离任务接收接口,这三种类型的隔离任务接收接口可以看作是一级接口,在进行后续的隔离操作时,可以进一步根据服务的类型细分二级接口,甚至是三级接口,在此不作具体限定。本申请实施例通过一级接口统一接收来自运维平台的物理机隔离任务,可以避免向运维平台暴露过多的隔离任务接收接口,便于运维平台对接口的管理和调用。
在本申请的一个实施例中,在根据对所述目标服务的隔离结果确定业务平台的隔离状态,并将所述业务平台的隔离状态返回至运维平台之后,所述方法还包括:接收物理机恢复任务,并根据所述物理机恢复任务确定第二目标物理机;根据所述第二目标物理机确定所述第二目标物理机上部署的虚拟机;根据所述虚拟机上部署的目标服务,调用相应的服务恢复接口,以对所述虚拟机上部署的目标服务进行恢复;根据对所述虚拟机上部署的目标服务的恢复结果确定所述业务平台的恢复状态,并将所述业务平台的恢复状态返回至所述运维平台,以使所述运维平台根据所述业务平台的恢复状态更新所述第二目标物理机的维修状态。
在对物理机上的所有虚拟机服务均完成隔离后,运维平台会对物理机进行维修,维修结束后需要相应地恢复或拉起这台物理机上的虚拟机服务。具体地,可以通过调用各虚拟机上事先部署好的标准的服务恢复接口进行服务恢复,其它的服务恢复流程与上述的服务隔离流程基本一致,在此不作赘述。
本申请实施例还提供了一种云环境下的物理机运维方法,由运维平台服务器执行,如图5所示,提供了本申请实施例另一种云环境下的物理机运维方法的流程示意图,所述方法至少包括如下的步骤S510至步骤S540:
步骤S510,生成物理机隔离任务。
本申请实施例的云环境下的物理机运维方法可以由单独部署的运维平台服务器来执行,在进行物理机运维时,可以先生成物理机隔离任务,这里的物理机隔离任务可以理解为是对一个或多个存在故障隐患的物理机上部署的虚拟机服务进行隔离操作的任务,因此任务中会携带有物理机的机器标识等信息,使得业务平台服务器可以根据物理机隔离任务确定对哪个或哪些物理机上的虚拟机服务进行隔离。
步骤S520,将所述物理机隔离任务下发至业务平台服务器,其中所述业务平台服务器用于执行上述任一项所述的方法。
如图6所示,提供了本申请实施例另一种服务隔离流程示意图。在生成物理机隔离任务后,可以通过调用接口将任务下发给业务平台服务器,使得业务平台服务器具体执行服务隔离操作。这里的接口可以事先由不同的业务团队分别进行设置,例如对于Dubbo服务团队,可以设置Dubbo服务隔离任务接收接口;对于数据库团队,可以设置数据库隔离任务接收接口;对于中间件团队,可以设置中间件隔离任务接收接口。
步骤S530,接收所述业务平台服务器返回的业务平台的隔离状态。
在业务平台服务器完成隔离操作后,可以接收到业务平台服务器返回的业务平台的隔离状态,具体可以包括成功状态和失败状态。
步骤S540,根据所述业务平台的隔离状态更新所述目标物理机的维修状态。
在得到业务平台服务器返回的业务平台的隔离状态后,需要根据业务平台的隔离状态更新目标物理机的维修状态,这里的维修状态具体可以是可维修状态和不可维修状态。只有是可维修状态,才能够由运维人员对相应的物理机进行维修。
当运维平台发现存在故障隐患的物理机时,通过本申请实施例的云环境下的物理机运维方法可以直接向各业务团队所对应的业务平台服务器下发物理机隔离任务,使各业务平台服务器分别自动进行服务隔离操作,该过程无需过多的人工干预,也无需线下通知各业务团队,大大降低了沟通成本,进而提高了运维效率。
在本申请的一个实施例中,其中所述业务平台服务器包括多个,所述根据所述业务平台的隔离状态更新所述目标物理机的维修状态包括:若各业务平台服务器返回的业务平台的隔离状态均为成功状态,则将所述目标物理机的维修状态更新为可维修状态。
实际场景下,一台物理机上部署的虚拟机服务通常会涉及到多个业务团队,因此本申请实施例的业务平台服务器就会包括多个。在根据业务平台的隔离状态更新目标物理机的维修状态,可以先确定每一个业务平台返回的隔离状态,如果各业务平台返回的隔离状态均为成功状态,说明该物理机上部署的所有虚拟机服务都已成功隔离,满足维修条件,因此这时可以将该物理机的维修状态更新为可维修状态,以便于维修人员及时进行维修。
在本申请的一个实施例中,在根据所述业务平台的隔离状态更新所述目标物理机的维修状态之后,所述方法还包括:接收所述目标物理机的维修结果;根据所述维修结果生成物理机恢复任务,并将所述物理机恢复任务下发至所述业务平台服务器,以使所述业务平台服务器对所述物理机上部署的服务进行恢复。
当目标物理机的维修状态为可维修状态时,维修人员会对物理机进行维修,维修完成后,运维平台就会接收到目标物理机的维修结果。为了使维修好的物理机能够尽快恢复工作,这里在接收到目标物理机的维修结果后,会自动触发物理机恢复任务,然后将物理机恢复任务下发给各业务平台服务器,以便于各业务平台服务器进行相应的服务恢复。
在本申请的一个实施例中,所述生成物理机隔离任务包括:获取物理机巡检结果;根据所述物理机巡检结果生成所述物理机隔离任务。
本申请实施例在生成物理机隔离任务时,会先获取物理机的巡检结果,这里的物理机巡检结果可以包括巡检正常结果和巡检异常结果,该结果可以是巡检人员手动录入的结果,也可以是巡检服务器巡检完成后自动发送过来的结果。如果巡检结果为巡检异常结果,则可以根据巡检异常结果确定存在故障隐患的物理机,并以此生成物理机隔离任务。
本申请实施例还提供了一种云环境下的物理机运维装置700,应用于业务平台服务器,如图7所示,提供了本申请实施例一种云环境下的物理机运维装置的结构示意图,所述装置700包括:第一接收单元710、第一确定单元720、隔离单元730和第一返回单元740,其中:
第一接收单元710,用于接收来自运维平台的物理机隔离任务,并根据所述物理机隔离任务确定第一目标物理机;
第一确定单元720,用于确定所述第一目标物理机上部署的虚拟机以及所述虚拟机上部署的服务;
隔离单元730,用于根据所述虚拟机上部署的服务中的目标服务,调用与所述目标服务对应的服务隔离接口,以对所述目标服务进行隔离,其中所述目标服务与业务平台相关联;
第一返回单元740,用于根据对所述目标服务的隔离结果确定所述业务平台的隔离状态,并将所述业务平台的隔离状态返回至运维平台,以使所述运维平台根据所述业务平台的隔离状态更新所述第一目标物理机的维修状态。
在本申请的一个实施例中,所述第一确定单元720具体用于:在配置管理数据库中查询所述第一目标物理机上部署的虚拟机以及所述虚拟机上部署的服务。
在本申请的一个实施例中,所述第一返回单元740具体用于:通过所述虚拟机上的服务隔离接口,接收所述虚拟机返回的目标服务的隔离结果;根据所述目标服务的隔离结果确定所述业务平台的隔离状态。
在本申请的一个实施例中,所述虚拟机包括多个,所述第一返回单元740具体用于:若各虚拟机返回的目标服务的隔离结果均为成功结果,则直接确定所述业务平台的隔离状态为成功状态;若至少一个虚拟机返回的目标服务的隔离结果为失败结果,则触发告警,以使人工进行处理,并根据人工处理结果更新所述业务平台的隔离状态为成功状态。
在本申请的一个实施例中,所述第一接收单元710具体用于:通过隔离任务接收接口接收来自运维平台的物理机隔离任务,其中所述隔离任务接收接口包括Dubbo服务隔离任务接收接口、数据库隔离任务接收接口和中间件隔离任务接收接口中的至少一种。
在本申请的一个实施例中,所述装置还包括:第二接收单元,用于接收物理机恢复任务,并根据所述物理机恢复任务确定第二目标物理机;第二确定单元,用于根据所述第二目标物理机确定所述第二目标物理机上部署的虚拟机;恢复单元,用于根据所述虚拟机上部署的目标服务,调用相应的服务恢复接口,以对所述虚拟机上部署的目标服务进行恢复;第二返回单元,用于根据对所述虚拟机上部署的目标服务的恢复结果确定所述业务平台的恢复状态,并将所述业务平台的恢复状态返回至所述运维平台,以使所述运维平台根据所述业务平台的恢复状态更新所述第二目标物理机的维修状态。
本申请实施例还提供了一种云环境下的物理机运维装置800,应用于运维平台服务器,如图8所示,提供了本申请实施例另一种云环境下的物理机运维装置的结构示意图,所述装置包括:生成单元810、第一下发单元820、第三接收单元830和更新单元840,其中:
生成单元810,用于生成物理机隔离任务;
第一下发单元820,用于将所述物理机隔离任务下发至业务平台服务器,其中所述业务平台服务器用于执行前述任一项所述的方法;
第三接收单元830,用于接收所述业务平台服务器返回的业务平台的隔离状态;
更新单元840,用于根据所述业务平台的隔离状态更新所述目标物理机的维修状态。
在本申请的一个实施例中,其中所述业务平台服务器包括多个,所述更新单元840具体用于:若各业务平台服务器返回的业务平台的隔离状态均为成功状态,则将所述目标物理机的维修状态更新为可维修状态。
在本申请的一个实施例中,所述装置还包括:第四接收单元,用于接收所述目标物理机的维修结果;第二下发单元,用于根据所述维修结果生成物理机恢复任务,并将所述物理机恢复任务下发至所述业务平台服务器,以使所述业务平台服务器对所述物理机上部署的服务进行恢复。
在本申请的一个实施例中,所述生成单元810具体用于:获取物理机巡检结果;根据所述物理机巡检结果生成所述物理机隔离任务。
能够理解,上述云环境下的物理机运维装置,能够实现前述实施例中提供的由业务平台服务器或者运维平台服务器执行的云环境下的物理机运维方法的各个步骤,关于云环境下的物理机运维方法的相关阐释均适用于云环境下的物理机运维装置,此处不再赘述。
图9是本申请的一个实施例电子设备的结构示意图。请参考图9,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成云环境下的物理机运维装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
接收来自运维平台的物理机隔离任务,并根据所述物理机隔离任务确定第一目标物理机;
确定所述第一目标物理机上部署的虚拟机以及所述虚拟机上部署的服务;
根据所述虚拟机上部署的服务中的目标服务,调用与所述目标服务对应的服务隔离接口,以对所述目标服务进行隔离,其中所述目标服务与业务平台相关联;
根据对所述目标服务的隔离结果确定所述业务平台的隔离状态,并将所述业务平台的隔离状态返回至运维平台,以使所述运维平台根据所述业务平台的隔离状态更新所述第一目标物理机的维修状态。
或者,用于执行以下操作:
生成物理机隔离任务;
将所述物理机隔离任务下发至业务平台服务器,其中所述业务平台服务器用于执行前述任一项所述的方法;
接收所述业务平台服务器返回的业务平台的隔离状态;
根据所述业务平台的隔离状态更新所述目标物理机的维修状态。
上述如本申请图7或图8所示实施例揭示的云环境下的物理机运维装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(CentralProcessing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图7或图8中云环境下的物理机运维装置执行的方法,并实现云环境下的物理机运维装置在图7或图8所示实施例的功能,本申请实施例在此不再赘述。
本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的电子设备执行时,能够使该电子设备执行图7或图8所示实施例中云环境下的物理机运维装置执行的方法,并具体用于执行:
接收来自运维平台的物理机隔离任务,并根据所述物理机隔离任务确定第一目标物理机;
确定所述第一目标物理机上部署的虚拟机以及所述虚拟机上部署的服务;
根据所述虚拟机上部署的服务中的目标服务,调用与所述目标服务对应的服务隔离接口,以对所述目标服务进行隔离,其中所述目标服务与业务平台相关联;
根据对所述目标服务的隔离结果确定所述业务平台的隔离状态,并将所述业务平台的隔离状态返回至运维平台,以使所述运维平台根据所述业务平台的隔离状态更新所述第一目标物理机的维修状态。
或者,用于执行以下操作:
生成物理机隔离任务;
将所述物理机隔离任务下发至业务平台服务器,其中所述业务平台服务器用于执行前述任一项所述的方法;
接收所述业务平台服务器返回的业务平台的隔离状态;
根据所述业务平台的隔离状态更新所述目标物理机的维修状态。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (14)

1.一种云环境下的物理机运维方法,由业务平台服务器执行,其中,所述方法包括:
接收来自运维平台的物理机隔离任务,并根据所述物理机隔离任务确定第一目标物理机;
确定所述第一目标物理机上部署的虚拟机以及所述虚拟机上部署的服务;
根据所述虚拟机上部署的服务中的目标服务,调用与所述目标服务对应的服务隔离接口,以对所述目标服务进行隔离,其中所述目标服务与业务平台相关联;
根据对所述目标服务的隔离结果确定所述业务平台的隔离状态,并将所述业务平台的隔离状态返回至运维平台,以使所述运维平台根据所述业务平台的隔离状态更新所述第一目标物理机的维修状态。
2.如权利要求1所述方法,其中,所述根据对所述目标服务的隔离结果确定业务平台的隔离状态包括:
通过所述虚拟机上的服务隔离接口,接收所述虚拟机返回的目标服务的隔离结果;
根据所述目标服务的隔离结果确定所述业务平台的隔离状态。
3.如权利要求2所述方法,其中,所述虚拟机包括多个,所述根据所述目标服务的隔离结果确定所述业务平台的隔离状态包括:
若各虚拟机返回的目标服务的隔离结果均为成功结果,则直接确定所述业务平台的隔离状态为成功状态;
若至少一个虚拟机返回的目标服务的隔离结果为失败结果,则触发告警。
4.如权利要求1所述方法,其中,所述接收来自运维平台的物理机隔离任务包括:
通过隔离任务接收接口接收来自运维平台的物理机隔离任务,其中所述隔离任务接收接口包括Dubbo服务隔离任务接收接口、数据库隔离任务接收接口和中间件隔离任务接收接口中的至少一种。
5.如权利要求1所述方法,其中,在根据对所述目标服务的隔离结果确定业务平台的隔离状态,并将所述业务平台的隔离状态返回至运维平台之后,所述方法还包括:
接收物理机恢复任务,并根据所述物理机恢复任务确定第二目标物理机;
根据所述第二目标物理机确定所述第二目标物理机上部署的虚拟机;
根据所述虚拟机上部署的目标服务,调用相应的服务恢复接口,以对所述虚拟机上部署的目标服务进行恢复;
根据对所述虚拟机上部署的目标服务的恢复结果确定所述业务平台的恢复状态,并将所述业务平台的恢复状态返回至所述运维平台,以使所述运维平台根据所述业务平台的恢复状态更新所述第二目标物理机的维修状态。
6.如权利要求1所述方法,其中,所述确定所述第一目标物理机上部署的虚拟机以及所述虚拟机上部署的服务包括:
在配置管理数据库中查询所述第一目标物理机上部署的虚拟机以及所述虚拟机上部署的服务。
7.一种云环境下的物理机运维方法,由运维平台服务器执行,其中,所述方法包括:
生成物理机隔离任务;
将所述物理机隔离任务下发至业务平台服务器,其中所述业务平台服务器用于执行上述权利要求1至6任一项所述的方法;
接收所述业务平台服务器返回的业务平台的隔离状态;
根据所述业务平台的隔离状态更新所述目标物理机的维修状态。
8.如权利要求7所述方法,其中,其中所述业务平台服务器包括多个,所述根据所述业务平台的隔离状态更新所述目标物理机的维修状态包括:
若各业务平台服务器返回的业务平台的隔离状态均为成功状态,则将所述目标物理机的维修状态更新为可维修状态。
9.如权利要求7所述方法,其中,在根据所述业务平台的隔离状态更新所述目标物理机的维修状态之后,所述方法还包括:
接收所述目标物理机的维修结果;
根据所述维修结果生成物理机恢复任务,并将所述物理机恢复任务下发至所述业务平台服务器,以使所述业务平台服务器对所述物理机上部署的服务进行恢复。
10.如权利要求7所述方法,其中,所述生成物理机隔离任务包括:
获取物理机巡检结果;
根据所述物理机巡检结果生成所述物理机隔离任务。
11.一种云环境下的物理机运维装置,应用于业务平台服务器,其中,所述装置用于实现权利要求1~6之任一所述方法。
12.一种云环境下的物理机运维装置,应用于运维平台服务器,其中,所述装置用于实现权利要求7-10之任一所述方法。
13.一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行所述权利要求1~6之任一所述方法,或者权利要求7-10之任一所述方法。
14.一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行所述权利要求1~6之任一所述方法,或者权利要求7-10之任一所述方法。
CN202110702307.6A 2021-06-24 2021-06-24 一种云环境下的物理机运维方法及装置 Pending CN115525385A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110702307.6A CN115525385A (zh) 2021-06-24 2021-06-24 一种云环境下的物理机运维方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110702307.6A CN115525385A (zh) 2021-06-24 2021-06-24 一种云环境下的物理机运维方法及装置

Publications (1)

Publication Number Publication Date
CN115525385A true CN115525385A (zh) 2022-12-27

Family

ID=84693569

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110702307.6A Pending CN115525385A (zh) 2021-06-24 2021-06-24 一种云环境下的物理机运维方法及装置

Country Status (1)

Country Link
CN (1) CN115525385A (zh)

Similar Documents

Publication Publication Date Title
WO2017140131A1 (zh) 数据写入、读取方法及装置、云存储系统
CN109150572B (zh) 实现告警关联的方法、装置以及计算机可读存储介质
CN107005426B (zh) 一种虚拟网络功能的生命周期管理方法及装置
CN106878363B (zh) 一种信息处理方法、装置及系统
CN109656742B (zh) 一种节点异常处理方法、装置及存储介质
CN108737132B (zh) 一种告警信息处理方法及装置
CN111708560A (zh) 数据库高可用管理系统的自动化部署方法及装置
CN108023939B (zh) 分布式系统中锁服务器故障的处理方法及其系统
WO2019034095A1 (zh) 软件处理方法、装置、电子设备及计算机可读存储介质
CN109445937B (zh) 一种组件化编程及无缝执行方法
CN107508700B (zh) 容灾方法、装置、设备及存储介质
CN111078468A (zh) 微服务架构下的服务回滚方法及装置
CN110196749B (zh) 虚拟机的恢复方法及装置、存储介质及电子装置
CN110647463B (zh) 一种恢复测试断点的方法、装置、电子设备
CN111897643A (zh) 线程池配置系统、方法、装置和存储介质
CN115525385A (zh) 一种云环境下的物理机运维方法及装置
CN113746676B (zh) 基于容器集群的网卡管理方法、装置、设备、介质及产品
CN114791900A (zh) 基于Operator的Redis运维方法、装置、系统及存储介质
CN114385504A (zh) 微服务应用的开发调试方法及装置
CN115080309A (zh) 数据备份系统、方法、存储介质以及电子设备
CN110673793B (zh) 存储设备节点事件管理方法、系统及电子设备和存储介质
CN111464357A (zh) 资源配置方法及装置
CN110780891A (zh) 监控系统的部署方法及部署装置
CN115525386A (zh) 一种虚拟机隔离方法及装置、电子设备及存储介质
CN115426247B (zh) 故障节点的处理方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination