CN114936106A - 一种主机故障的处理方法、装置及介质 - Google Patents

一种主机故障的处理方法、装置及介质 Download PDF

Info

Publication number
CN114936106A
CN114936106A CN202210469718.XA CN202210469718A CN114936106A CN 114936106 A CN114936106 A CN 114936106A CN 202210469718 A CN202210469718 A CN 202210469718A CN 114936106 A CN114936106 A CN 114936106A
Authority
CN
China
Prior art keywords
host
recovery
rule
fault
cloud
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210469718.XA
Other languages
English (en)
Inventor
苏正伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan Inspur Data Technology Co Ltd
Original Assignee
Jinan Inspur Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan Inspur Data Technology Co Ltd filed Critical Jinan Inspur Data Technology Co Ltd
Priority to CN202210469718.XA priority Critical patent/CN114936106A/zh
Publication of CN114936106A publication Critical patent/CN114936106A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1469Backup restoration techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/48Indexing scheme relating to G06F9/48
    • G06F2209/481Exception handling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/48Indexing scheme relating to G06F9/48
    • G06F2209/485Resource constraint

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明公开了一种主机故障的处理方法、装置及介质,适用于服务器技术领域。将故障主机节点和各云主机对应的恢复任务进行优先级排序得到优先级队列;根据熔断规则和限流规则将优先级队列的恢复任务进行恢复以完成主机故障的处理。在大规模主机故障时,先通过优先级排序以确定发生故障后云主机恢复的先后顺序,进而通过熔断规则,当云平台的承载故障能力不足或出错时,及时终止主机故障恢复流程,避免对整个云平台造成的风险影响;通过限流规则,当云平台发生故障时,保证主机故障在平台可承受的范围内稳定有序进行恢复。综上,通过对故障主机节点和对应的各云主机两者的恢复任务的处理,保证云主机稳定有序恢复,提高云平台的高可用性。

Description

一种主机故障的处理方法、装置及介质
技术领域
本发明涉及服务器技术领域,特别是涉及一种主机故障的处理方法、装置及介质。
背景技术
云计算平台是基于硬件资源和软件资源的服务,提供计算、网络和存储的能力。云平台通过硬件虚拟化的技术管理各种物理服务器,实现对用户按需分配资源。为了实现云平台的稳定运行并提供服务,云平台需要具备必要的故障检测能力及一定的自我恢复能力。
目前云平台在计算、网络和存储以及管理等方面提供了基础的高可用能力。对于大规模集群环境,计算高可用(High Available,HA)逐渐成为必备功能。当某一个主机节点发生故障不能继续提供服务后,可以将该主机节点对应的多个云主机通过高可用功能疏散到其他物理主机上,保证云主机能够正常使用,用户业务不受影响。现有的恢复流程将云主机从故障主机节点疏散到其他健康主机节点上,对于单个主机节点的故障完全适用。当大规模的主机故障时对应的多个云主机的恢复流程其缺乏相应的处理能力,多个云主机若同时疏散,可能会超出云平台的可承受范围,无法保证云主机稳定有序恢复,降低高可用性,甚至对整个云平台带来风险。
因此,如何提高云平台的高可用性是本领域技术人员亟需要解决的。
发明内容
本发明的目的是提供一种主机故障的处理方法、装置及介质,提高云平台的高可用性。
为解决上述技术问题,本发明提供一种主机故障的处理方法,包括:
获取故障主机节点对应的各云主机;
将故障主机节点对应的恢复任务和各云主机对应的恢复任务进行优先级排序得到优先级队列;
根据熔断规则和限流规则将优先级队列的恢复任务进行恢复以完成主机故障的处理。
优选地,将故障主机节点对应的恢复任务和各云主机对应的恢复任务进行优先级排序得到优先级队列,包括:
将故障主机节点对应的恢复任务作为节点恢复任务,将各云主机对应的恢复任务作为云主机恢复任务;
将节点恢复任务与云主机恢复任务分别进行优先级排序得到节点恢复任务队列和云主机恢复任务队列。
优选地,熔断规则的制定通过如下步骤:
熔断规则包括云主机熔断规则和节点熔断规则,其中云主机熔断规则至少包括第一熔断规则和第二熔断规则,节点熔断规则至少包括第三熔断规则、第四熔断规则和第五熔断规则;
其中,第一熔断规则为各云主机的云主机恢复任务恢复失败的个数超出第一阈值时,则获取当前恢复对应的云主机并根据当前恢复对应的云主机确定剩余未恢复云主机,控制剩余未恢复云主机不进行恢复处理的规则;
第二熔断规则为当前云主机的云主机恢复任务在预设时间内恢复次数超出第二阈值时,将云主机恢复任务对应的云主机不进行恢复处理的规则;
第三熔断规则为故障主机节点的个数超出第三阈值时,则将故障主机节点不进行恢复处理的规则;
第四熔断规则为故障主机节点的节点恢复任务恢复失败的个数超出第四阈值时,则获取当前恢复对应的故障主机节点并根据当前恢复对应的故障主机节点确定待恢复故障主机节点,控制待恢复故障主机节点不进行恢复处理的规则;
第五熔断规则为当前故障主机节点的节点恢复任务在预定时间内恢复次数超出第五阈值时,则将当前故障主机节点不进行恢复处理的规则。
优选地,限流规则的制定通过如下步骤:
限流规则包括云主机限流规则和节点限流规则;
云主机限流规则为在指定时间内获取当前故障主机节点对应的云主机个数,若云主机个数超出第一限流阈值时,则根据当前故障主机节点对应的各云主机的恢复任务的优先级进行疏散的规则;
节点限流规则为在特定时间内获取多个故障主机节点的个数超出第二限流阈值时,则根据多个故障主机节点对应的恢复任务的优先级进行疏散的规则。
优选地,根据熔断规则和限流规则将优先级队列的恢复任务进行恢复以完成主机故障的处理,包括:
判断优先级队列的恢复任务是否符合熔断规则;
若符合熔断规则,则判断优先级队列的恢复任务是否符合限流规则;
若符合限流规则,则将恢复任务进行恢复处理;
若不符合限流规则的任意一种规则,则将对应的恢复任务的状态设为等待状态并返回至将故障主机节点和各云主机对应的恢复任务进行优先级排序得到优先级队列的步骤;
若不符合熔断规则的任意一种规则,则将对应的恢复任务不做恢复处理。
优选地,根据熔断规则和限流规则将优先级队列的恢复任务进行恢复以完成主机故障的处理,包括:
判断优先级队列的恢复任务是否符合限流规则;
若符合限流规则,则判断恢复任务是否符合熔断规则;
若符合熔断规则,则将恢复任务进行恢复处理;
若不符合熔断规则的任意一种规则,则将恢复任务不做恢复处理;
若不符合限流规则的任意一种规则,则将对应的恢复任务的状态设为等待状态并返回至将故障主机节点和各云主机对应的恢复任务进行优先级排序得到优先级队列的步骤。
优选地,还包括:
将不做恢复处理对应的恢复任务汇集为表格信息以便用户查看。
为解决上述技术问题,本发明还提供一种主机故障的处理装置,包括:
获取模块,用于获取故障主机节点对应的各云主机;
排序模块,用于将故障主机节点对应的恢复任务和各云主机对应的恢复任务进行优先级排序得到优先级队列;
恢复模块,用于根据熔断规则和限流规则将优先级队列的恢复任务进行恢复以完成主机故障的处理。
为解决上述技术问题,本发明还提供一种主机故障的处理装置,包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现如上述主机故障的处理方法的步骤。
为解决上述技术问题,本发明还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述主机故障的处理方法的步骤。
本发明提供的一种主机故障的处理方法,包括获取故障主机节点对应的各云主机;将故障主机节点和各云主机对应的恢复任务进行优先级排序得到优先级队列;根据熔断规则和限流规则将优先级队列的恢复任务进行恢复以完成主机故障的处理。该方法在大规模主机故障时,先通过优先级排序以确定发生故障后云主机恢复的先后顺序,进而通过熔断规则,当云平台的承载故障能力不足或出错时,及时终止主机故障恢复流程,避免对整个云平台造成的风险影响;通过限流规则,当云平台发生故障时,保证主机故障在平台可承受的范围内稳定有序进行恢复。综上,通过对故障主机节点和对应的各云主机两者的恢复任务的处理,保证云主机稳定有序恢复,提高云平台的高可用性。
另外,本发明还提供了一种主机故障的处理装置及介质,具有如上述主机故障的处理方法相同的有益效果。
附图说明
为了更清楚地说明本发明实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种主机故障的处理方法的流程图;
图2为本发明实施例提供的一种主机故障的处理装置的结构图;
图3为本发明实施例提供的另一种主机故障的处理装置的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本发明保护范围。
本发明的核心是提供一种主机故障的处理方法、装置及介质,提高云平台的高可用性。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。
需要说明的是,本发明提供的主机故障的处理方法,可针对于多节点的故障处理,还可适用于单节点的故障处理。高可用的实现基本思路包括三个步骤,监控、隔离和恢复;监控用于检测故障主机节点,隔离用于隔离故障主机节点,恢复用于故障主机节点上的云主机疏散到其他健康的主机节点上。本发明仅是针对高可用性的恢复过程。现有的各厂商在恢复流程上基本相似,仅是机械地将云主机从故障主机节点疏散到其他健康的主机节点上,并未对恢复过程中进行有效的控制,例如多个云主机同时进行疏散,使得疏散通道会出现拥堵现象,导致丢包或者无法疏散,影响云平台的正常使用。
图1为本发明实施例提供的一种主机故障的处理方法的流程图,如图1所示,该方法包括:
S11:获取故障主机节点对应的各云主机。
可以理解的是,故障主机节点为出现故障的服务器主机,在多个服务器中作为节点使用,一个主机服务器对应多个云主机。本实施例获取的故障主机节点可以为单个主机服务器,也可以为多个主机服务器,当为多个主机服务器时,其对应的各云主机为多个云主机。
S12:将故障主机节点对应的恢复任务和各云主机对应的恢复任务进行优先级排序得到优先级队列。
具体地,获取故障主机节点对应的恢复任务和各云主机对应的恢复任务,可以将两种恢复任务进行合并,并根据资源类型的不同确定优先级,例如确定云主机的恢复任务为优先级较高,故障主机节点的恢复任务为优先级较低,进而在同种资源类型中根据疏散能力进行细分。也可以将两种不同的恢复任务并行处理,设定两种优先级队列,按照各自种类的优先级进行后续的恢复流程。例如,故障主机节点有5个,其对应的恢复任务也为5个;1个故障主机节点对应6个云主机,其1个云主机对应的恢复任务为1个,也就是结合故障主机节点,其共有故障主机节点恢复任务为5个,云主机对应的恢复任务为30个。将两种恢复任务进行各自的优先级排序得到对应的优先级队列。
优先级排序可以根据特定的算法计算出每个恢复任务的优先级,在待执行任务队列中进行排队,等待处理;也可以根据特定的属性进行排序,例如疏散能力的优先级等,本发明不做具体限定,只要能够将优先级顺序排序即可。对于优先级较高的恢复任务优先处理,对于优先级较低的恢复任务后处理。
S13:根据熔断规则和限流规则将优先级队列的恢复任务进行恢复以完成主机故障的处理。
在步骤S12中得到的优先级队列的恢复任务,进而根据熔断规则和限流规则进行恢复,服务熔断的作用类似家用保险丝,当某服务主线不可用或者响应超时的情况,为了防止整个系统出现雪崩,暂时停止对其调用。当前服务一旦对下由服务进行熔断,当请求到达时,当前服务不再对下由服务进行调用,而且是使用设定好的策略(如构建默认值)直接返回。
本发明仅是针对于熔断规则的停止执行,也就是在熔断环节中,首先根据恢复任务的资源类型初始化熔断器及加载响应的熔断规则,其次,恢复任务以此经过熔断规则的检查判断。当恢复任务无法通过某一条规则时,该恢复任务置为忽略状态,不再执行。当通过所有的熔断规则时,则恢复任务才可以进行下一环节。
限流是指上游服务去请求每秒查询率(Query Per Second,QPS)超过阈值时,通过一定的策略(如延迟处理、拒绝处理)对上游服务的请求量进行限制,以保证本服务不被压垮,从而维持提供稳定服务,常见的限流算法有滑动窗口、令牌桶或者漏桶等,本发明实施例的限流环节,首先针对恢复任务的资源类型初始化限流器及加载相应的限流规则,其次,恢复任务依次经过限流规则的检查判断。当恢复任务无法通过某一条规则时,该恢复任务置为等待状态,重新回到待执行任务队列中进行排队。当通过所有的限流规则,恢复任务才可以继续执行。
需要说明的是,本发明对于熔断规则和限流规则的优先顺序不做限定,可以先进行熔断规则后进行限流规则,也可以先进行限流规则后进行熔断规则,可根据实际情况进行设定。对于两种规则,本实施例站在云主机和故障主机节点两个层次进行,故两种规则的资源类型分为两类,一种是基于云主机,一种是基于故障主机节点。对于一种规则中的一类规则可以有多条规则,本发明不做具体限定。
本发明实施例提供的一种主机故障的处理方法,包括获取故障主机节点对应的各云主机;将故障主机节点和各云主机对应的恢复任务进行优先级排序得到优先级队列;根据熔断规则和限流规则将优先级队列的恢复任务进行恢复以完成主机故障的处理。该方法在大规模主机故障时,先通过优先级排序以确定发生故障后云主机恢复的先后顺序,进而通过熔断规则,当云平台的承载故障能力不足或出错时,及时终止主机故障恢复流程,避免对整个云平台造成的风险影响;通过限流规则,当云平台发生故障时,保证主机故障在平台可承受的范围内稳定有序进行恢复。综上,通过对故障主机节点和对应的各云主机两者的恢复任务的处理,保证云主机稳定有序恢复,提高云平台的高可用性。
在上述实施例的基础上,步骤S12中的将故障主机节点对应的恢复任务和各云主机对应的恢复任务进行优先级排序得到优先级队列,包括:
将故障主机节点对应的恢复任务作为节点恢复任务,将各云主机对应的恢复任务作为云主机恢复任务;
将节点恢复任务与云主机恢复任务分别进行优先级排序得到节点恢复任务队列和云主机恢复任务队列。
作为一种优选地实施例,将按照不同资源类型进行优先级排序,将故障主机节点对应的恢复任务作为节点恢复任务,将各云主机对应的恢复任务作为云主机恢复任务。将两种恢复任务分别进行优先级排序,得到的优先级队列包括两种,一种是节点恢复任务队列,一种是云主机恢复任务队列。
另外,对于优先级排序的方式,可以通过特定的优先级算法确定,也可以根据不同恢复任务的疏散能力确定其对应的优先级,本发明不做具体限定,只需要能确定其优先级顺序即可。
本发明实施例提供的将故障主机节点对应的恢复任务和各云主机对应的恢复任务进行优先级排序得到优先级队列,便于根据两种不同恢复任务进行后续的恢复过程,通过优先级排队,可以确定发生故障后云主机疏散的相对顺序,云主机按照顺序在新的主机节点上恢复,首先灰度优先级最高的云主机,然后依次根据优先级顺序进行恢复,直到恢复所有恢复任务。
在上述实施例的基础上,步骤S13中的熔断规则的制定通过如下步骤:
熔断规则包括云主机熔断规则和节点熔断规则,其中云主机熔断规则至少包括第一熔断规则和第二熔断规则,节点熔断规则至少包括第三熔断规则、第四熔断规则和第五熔断规则;
其中,第一熔断规则为各云主机的云主机恢复任务恢复失败的个数超出第一阈值时,则获取当前恢复对应的云主机并根据当前恢复对应的云主机确定剩余未恢复云主机,控制剩余未恢复云主机不进行恢复处理的规则;
第二熔断规则为当前云主机的云主机恢复任务在预设时间内恢复次数超出第二阈值时,将云主机恢复任务对应的云主机不进行恢复处理的规则;
第三熔断规则为故障主机节点的个数超出第三阈值时,则将故障主机节点不进行恢复处理的规则;
第四熔断规则为故障主机节点的节点恢复任务恢复失败的个数超出第四阈值时,则获取当前恢复对应的故障主机节点并根据当前恢复对应的故障主机节点确定待恢复故障主机节点,控制待恢复故障主机节点不进行恢复处理的规则;
第五熔断规则为当前故障主机节点的节点恢复任务在预定时间内恢复次数超出第五阈值时,则将当前故障主机节点不进行恢复处理的规则。
具体地,熔断规则根据恢复任务的资源类型分为两种,一种是基于云主机的熔断规则,一种是基于故障主机节点的熔断规则,即云主机熔断规则和节点熔断规则,其中云主机熔断规则至少包括第一熔断规则和第二熔断规则,节点熔断规则至少包括第三熔断规则、第四熔断规则和第五熔断规则,也就是,还可以包括其他规则。
第一熔断规则为单个故障主机节点上单词故障需要疏散的云主机恢复时表的数据超出第一阈值时,则说明该故障主机节点上剩余的云主机已经不具备继续恢复的能力,未疏散的云主机不再疏散的规则。其各云主机对应一个故障主机节点,其对应的云主机恢复任务进行恢复时恢复失败的个数超出第一阈值时,根据当前恢复对应的云主机确定剩余未恢复云主机,控制剩余未恢复云主机不进行恢复。例如,一个故障主机节点有10个云主机,在恢复到第5个云主机时,其恢复失败的云主机个数有3个,其第一阈值为2个,则超出,其后面第6-10个剩余未恢复云主机不再进行疏散恢复。
第二熔断规则为单个云主机在预设时间内只允许进行不超过设定次数的恢复,如果当前恢复任务超出第二阈值,则不进行疏散的规则。当前云主机的云主机恢复任务在预设时间内恢复次数超出第二阈值时,将云主机恢复任务对应的云主机不进行恢复处理。例如,云主机一天的设定恢复值为5次,实际恢复次数超出5次时,则该云主机不进行恢复处理。
第三熔断规则为某一时间段内出现故障主机节点数目超出设定值时,确定高可用集群已经不具备恢复的能力,待恢复的故障主机节点不再进行恢复的规则。其故障主机节点的个数超出第三阈值时,将故障主机节点不进行恢复处理。说明当前故障主机节点较多,需要进行停止恢复流程。
第四熔断规则为某一时间段内出现故障主机节点会反复失败的数据超出设定值时,则判定高可用集群已经不具备恢复的能力,待恢复的故障主机节点不再进行恢复的规则。故障主机节点的节点恢复任务恢复失败的个数超出第四阈值时,则获取当前恢复对应的故障主机节点并根据当前恢复对应的故障主机节点确定待恢复故障主机节点,控制待恢复故障主机节点不进行恢复处理。与第一熔断规则的描述方式相同,在此不再详细赘述。
第五熔断规则为单个主机节点在某一时间段内只允许进行不超过设定次数的恢复,如果当前恢复任务超出设定值,则故障主机节点不再进行故障恢复的规则。当前故障主机节点的节点恢复任务在预定时间内恢复次数超出第五阈值时,则将当前故障主机节点不进行恢复处理。与第二熔断规则的描述方式相同,在此不再详细赘述。
需要说明的是,第一阈值、第二阈值、第三阈值、第四阈值和第五阈值可以相同,也可以不同,不做具体限定。
本发明实施例提供的熔断规则包括云主机熔断规则和节点熔断规则,根据各熔断规则下的不同规则进行恢复,当云平台的承载故障处理能力不足或者出错时,及时终止主机的故障恢复流程,可以避免故障主机节点无法恢复时对整个云平台带来的更大危险。
在上述实施例的基础上,步骤S13中的限流规则的制定通过如下步骤:
限流规则包括云主机限流规则和节点限流规则;
云主机限流规则为在指定时间内获取当前故障主机节点对应的云主机个数,若云主机个数超出第一限流阈值时,则根据当前故障主机节点对应的各云主机的恢复任务的优先级进行疏散的规则;
节点限流规则为在特定时间内获取多个故障主机节点的个数超出第二限流阈值时,则根据多个故障主机节点对应的恢复任务的优先级进行疏散的规则。
具体地,限流规则根据恢复任务的资源类型分为两种,一种是基于云主机的限流规则,一种是基于故障主机节点的限流规则,即云主机限流规则和节点限流规则。
云主机限流规则为某一个故障主机节点在指定时间内给节点上允许疏散的云主机的数目,如果超出限流设定值,云主机个数超出第一限流阈值时,则根据云主机对应的恢复任务的优先级进行疏散。例如,该故障主机节点对应的多个云主机的个数为10个,第一限流阈值为3个,则对应云主机恢复任务根据优先级较高的恢复任务优先处理,先处理优先级较高的3个云主机恢复任务,按照顺序处理。
节点限流规则为当平台多个主机节点同时出现故障时,某一时间点或某一时间段允许处理的故障主机节点的数目。如果超出限流设定值,则优先级较低的故障主机节点会等待恢复。也就是在特定时间内获取多个故障主机节点的个数超出第二限流阈值时,则根据对应的恢复任务进行优先级疏散。与云主机限流规则的优先级顺序类似,故不在此赘述。
需要说明的是,第一限流阈值与第二限流阈值可以相同,也可以不同,不做具体限定。
本发明实施例提供的限流规则包括云主机限流规则和节点限流规则,根据各限流规则下的规则进行恢复,当发生大规模主机故障时,可以保障在平台可承受的范围内云主机及物理主机可以稳定有序的恢复。
作为一种优选地实施例,步骤S13中的根据熔断规则和限流规则将优先级队列的恢复任务进行恢复以完成主机故障的处理,包括:
判断优先级队列的恢复任务是否符合熔断规则;
若符合熔断规则,则判断优先级队列的恢复任务是否符合限流规则;
若符合限流规则,则将恢复任务进行恢复处理;
若不符合限流规则的任意一种规则,则将对应的恢复任务的状态设为等待状态并返回至将故障主机节点和各云主机对应的恢复任务进行优先级排序得到优先级队列的步骤;
若不符合熔断规则的任意一种规则,则将对应的恢复任务不做恢复处理。
具体地,先进行熔断规则后进行限流规则,还可以作为一种优选地实施例,先进行限流规则后进行熔断规则,其具体如下:
判断优先级队列的恢复任务是否符合限流规则;
若符合限流规则,则判断恢复任务是否符合熔断规则;
若符合熔断规则,则将恢复任务进行恢复处理;
若不符合熔断规则的任意一种规则,则将恢复任务不做恢复处理;
若不符合限流规则的任意一种规则,则将对应的恢复任务的状态设为等待状态并返回至将故障主机节点和各云主机对应的恢复任务进行优先级排序得到优先级队列的步骤。
本发明提供的根据熔断规则和限流规则将优先级队列的恢复任务进行恢复以完成主机故障的处理,无论先进行何种规则后进行何种规则,通过熔断,当云平台的承故障处理能力不足或出错时,及时中止主机的故障恢复流程,可以避免故障主机无法恢复时给整个云平台带来更大的危险;通过限流,当云平台发生大规模节点故障时,可以保障主机故障在平台可承受的范围内稳定有序的恢复。
在上述实施例的基础上,该方法还包括:
将不做恢复处理对应的恢复任务汇集为表格信息以便用户查看。
将不做恢复处理对应的恢复任务进行汇集,其中不做恢复处理的恢复任务包括云主机恢复任务和节点恢复任务,将其汇集为表格信息,以便于后续该故障主机节点故障时,可以跳过该恢复任务,直接进行下一个恢复任务。
本实施例提供的将不做恢复处理对应的恢复任务汇集为表格信息,便于后续该故障主机节点故障时,可以跳过该恢复任务,直接进行下一个恢复任务,减少恢复时间,同时便于用户查看当前恢复任务的进度情况。
上述详细描述了主机故障的处理方法对应的各个实施例,在此基础上,本发明还公开与上述方法对应的主机故障的处理装置,图2为本发明实施例提供的一种主机故障的处理装置的结构图。如图2所示,主机故障的处理装置包括:
获取模块11,用于获取故障主机节点对应的各云主机;
排序模块12,用于将故障主机节点对应的恢复任务和各云主机对应的恢复任务进行优先级排序得到优先级队列;
恢复模块13,用于根据熔断规则和限流规则将优先级队列的恢复任务进行恢复以完成主机故障的处理。
由于装置部分的实施例与上述的实施例相互对应,因此装置部分的实施例请参照上述方法部分的实施例描述,在此不再赘述。
本发明实施例提供的一种主机故障的处理装置,包括获取故障主机节点对应的各云主机;将故障主机节点和各云主机对应的恢复任务进行优先级排序得到优先级队列;根据熔断规则和限流规则将优先级队列的恢复任务进行恢复以完成主机故障的处理。在大规模主机故障时,先通过优先级排序以确定发生故障后云主机恢复的先后顺序,进而通过熔断规则,当云平台的承载故障能力不足或出错时,及时终止主机故障恢复流程,避免对整个云平台造成的风险影响;通过限流规则,当云平台发生故障时,保证主机故障在平台可承受的范围内稳定有序进行恢复。综上,通过对故障主机节点和对应的各云主机两者的恢复任务的处理,保证云主机稳定有序恢复,提高云平台的高可用性。
图3为本发明实施例提供的另一种主机故障的处理装置的结构图,如图3所示,该装置包括:
存储器21,用于存储计算机程序;
处理器22,用于执行计算机程序时实现主机故障的处理方法的步骤。
本实施例提供的主机故障的处理装置可以包括但不限于智能手机、平板电脑、笔记本电脑或者台式电脑等。
其中,处理器22可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器22可以采用数字信号处理器(Digital Signal Processor,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器22也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称中央处理器(CentralProcessing Unit,CPU);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器22可以集成有图像处理器(Graphics Processing Unit,GPU),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器22还可以包括人工智能(Artificial Intelligence,AI)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器21可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器21还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器21至少用于存储以下计算机程序211,其中,该计算机程序被处理器22加载并执行之后,能够实现前述任一实施例公开的主机故障的处理方法的相关步骤。另外,存储器21所存储的资源还可以包括操作系统212和数据213等,存储方式可以是短暂存储或者永久存储。其中,操作系统212可以包括Windows、Unix、Linux等。数据213可以包括但不限于主机故障的处理方法所涉及到的数据等等。
在一些实施例中,主机故障的处理装置还可包括有显示屏23、输入输出接口24、通信接口25、电源26以及通信总线27。
领域技术人员可以理解,图3中示出的结构并不构成对主机故障的处理装置的限定,可以包括比图示更多或更少的组件。
处理器22通过调用存储于存储器21中的指令以实现上述任一实施例所提供的主机故障的处理方法。
本发明实施例提供的一种主机故障的处理装置,包括获取故障主机节点对应的各云主机;将故障主机节点和各云主机对应的恢复任务进行优先级排序得到优先级队列;根据熔断规则和限流规则将优先级队列的恢复任务进行恢复以完成主机故障的处理。在大规模主机故障时,先通过优先级排序以确定发生故障后云主机恢复的先后顺序,进而通过熔断规则,当云平台的承载故障能力不足或出错时,及时终止主机故障恢复流程,避免对整个云平台造成的风险影响;通过限流规则,当云平台发生故障时,保证主机故障在平台可承受的范围内稳定有序进行恢复。综上,通过对故障主机节点和对应的各云主机两者的恢复任务的处理,保证云主机稳定有序恢复,提高云平台的高可用性。
进一步的,本发明还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器22执行时实现如上述主机故障的处理方法的步骤。
可以理解的是,如果上述实施例中的方法以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
对于本发明提供的一种计算机可读存储介质的介绍请参照上述方法实施例,本发明在此不再赘述,其具有上述主机故障的处理方法相同的有益效果。
以上对本发明所提供的一种主机故障的处理方法、主机故障的处理装置及介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种主机故障的处理方法,其特征在于,包括:
获取故障主机节点对应的各云主机;
将所述故障主机节点对应的恢复任务和各所述云主机对应的恢复任务进行优先级排序得到优先级队列;
根据熔断规则和限流规则将所述优先级队列的恢复任务进行恢复以完成所述主机故障的处理。
2.根据权利要求1所述的主机故障的处理方法,其特征在于,所述将所述故障主机节点对应的恢复任务和各所述云主机对应的恢复任务进行优先级排序得到优先级队列,包括:
将所述故障主机节点对应的恢复任务作为节点恢复任务,将各所述云主机对应的恢复任务作为云主机恢复任务;
将所述节点恢复任务与所述云主机恢复任务分别进行优先级排序得到所述节点恢复任务队列和所述云主机恢复任务队列。
3.根据权利要求2所述的主机故障的处理方法,其特征在于,所述熔断规则的制定通过如下步骤:
所述熔断规则包括云主机熔断规则和节点熔断规则,其中所述云主机熔断规则至少包括第一熔断规则和第二熔断规则,所述节点熔断规则至少包括第三熔断规则、第四熔断规则和第五熔断规则;
其中,所述第一熔断规则为各所述云主机的云主机恢复任务恢复失败的个数超出第一阈值时,则获取当前恢复对应的云主机并根据所述当前恢复对应的云主机确定剩余未恢复云主机,控制所述剩余未恢复云主机不进行恢复处理的规则;
所述第二熔断规则为当前云主机的云主机恢复任务在预设时间内恢复次数超出第二阈值时,将所述云主机恢复任务对应的云主机不进行恢复处理的规则;
所述第三熔断规则为所述故障主机节点的个数超出第三阈值时,则将所述故障主机节点不进行恢复处理的规则;
所述第四熔断规则为所述故障主机节点的节点恢复任务恢复失败的个数超出第四阈值时,则获取当前恢复对应的故障主机节点并根据所述当前恢复对应的故障主机节点确定待恢复故障主机节点,控制所述待恢复故障主机节点不进行恢复处理的规则;
所述第五熔断规则为当前故障主机节点的节点恢复任务在预定时间内恢复次数超出第五阈值时,则将当前故障主机节点不进行恢复处理的规则。
4.根据权利要求2所述的主机故障的处理方法,其特征在于,所述限流规则的制定通过如下步骤:
所述限流规则包括云主机限流规则和节点限流规则;
所述云主机限流规则为在指定时间内获取当前故障主机节点对应的云主机个数,若所述云主机个数超出第一限流阈值时,则根据所述当前故障主机节点对应的各云主机的恢复任务的优先级进行疏散的规则;
所述节点限流规则为在特定时间内获取多个故障主机节点的个数超出第二限流阈值时,则根据多个所述故障主机节点对应的恢复任务的优先级进行疏散的规则。
5.根据权利要求1所述的主机故障的处理方法,其特征在于,所述根据熔断规则和限流规则将所述优先级队列的恢复任务进行恢复以完成所述主机故障的处理,包括:
判断所述优先级队列的恢复任务是否符合所述熔断规则;
若符合所述熔断规则,则判断所述优先级队列的恢复任务是否符合所述限流规则;
若符合所述限流规则,则将所述恢复任务进行恢复处理;
若不符合所述限流规则的任意一种规则,则将对应的恢复任务的状态设为等待状态并返回至所述将所述故障主机节点和各所述云主机对应的恢复任务进行优先级排序得到优先级队列的步骤;
若不符合所述熔断规则的任意一种规则,则将对应的所述恢复任务不做恢复处理。
6.根据权利要求1所述的主机故障的处理方法,其特征在于,所述根据熔断规则和限流规则将所述优先级队列的恢复任务进行恢复以完成所述主机故障的处理,包括:
判断所述优先级队列的恢复任务是否符合所述限流规则;
若符合所述限流规则,则判断所述恢复任务是否符合所述熔断规则;
若符合所述熔断规则,则将所述恢复任务进行恢复处理;
若不符合所述熔断规则的任意一种规则,则将所述恢复任务不做恢复处理;
若不符合所述限流规则的任意一种规则,则将对应的所述恢复任务的状态设为等待状态并返回至所述将所述故障主机节点和各所述云主机对应的恢复任务进行优先级排序得到优先级队列的步骤。
7.根据权利要求5或6所述的主机故障的处理方法,其特征在于,还包括:
将不做恢复处理对应的恢复任务汇集为表格信息以便用户查看。
8.一种主机故障的处理装置,其特征在于,包括:
获取模块,用于获取故障主机节点对应的各云主机;
排序模块,用于将所述故障主机节点对应的恢复任务和各所述云主机对应的恢复任务进行优先级排序得到优先级队列;
恢复模块,用于根据熔断规则和限流规则将所述优先级队列的恢复任务进行恢复以完成所述主机故障的处理。
9.一种主机故障的处理装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述的主机故障的处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的主机故障的处理方法的步骤。
CN202210469718.XA 2022-04-30 2022-04-30 一种主机故障的处理方法、装置及介质 Pending CN114936106A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210469718.XA CN114936106A (zh) 2022-04-30 2022-04-30 一种主机故障的处理方法、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210469718.XA CN114936106A (zh) 2022-04-30 2022-04-30 一种主机故障的处理方法、装置及介质

Publications (1)

Publication Number Publication Date
CN114936106A true CN114936106A (zh) 2022-08-23

Family

ID=82861781

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210469718.XA Pending CN114936106A (zh) 2022-04-30 2022-04-30 一种主机故障的处理方法、装置及介质

Country Status (1)

Country Link
CN (1) CN114936106A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117290144A (zh) * 2023-10-12 2023-12-26 北京首都在线科技股份有限公司 故障处理方法、装置、电子设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117290144A (zh) * 2023-10-12 2023-12-26 北京首都在线科技股份有限公司 故障处理方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN112650576B (zh) 资源调度方法、装置、设备、存储介质及计算机程序产品
CN112650575B (zh) 资源调度方法、装置和云端服务系统
KR20210156243A (ko) 딥러닝 프레임워크의 훈련 방법, 장치 및 저장 매체
CN114936106A (zh) 一种主机故障的处理方法、装置及介质
CN110557432B (zh) 一种缓存池均衡优化方法、系统、终端及存储介质
CN113225265B (zh) 流量控制方法、装置、设备和计算机存储介质
CN110209548B (zh) 服务控制方法、系统、电子设备及计算机可读存储介质
CN114461365A (zh) 一种进程调度处理方法、装置、设备和存储介质
CN114327894A (zh) 资源分配方法、装置、电子设备及存储介质
CN113377998A (zh) 数据加载的方法、装置、电子设备及存储介质
CN111831408A (zh) 异步任务处理方法、装置、电子设备及介质
CN112231053A (zh) 一种负载均衡服务分配方法及装置
US8275865B2 (en) Methods, systems and computer program products for selecting among alert conditions for resource management systems
US11881984B2 (en) Method for handling large-scale host failures on cloud platform
CN115774602A (zh) 一种容器资源的分配方法、装置、设备及存储介质
CN111130834A (zh) 一种网络弹性策略的处理方法及装置
CN110413436B (zh) 一种故障处理方法及装置
CN115168096A (zh) 一种云计算节点控制方法、装置、介质
CN110493071B (zh) 消息系统资源均衡装置、方法及设备
CN108234615B (zh) 表项处理方法、主板及主网络设备
CN108664311B (zh) 虚拟机迁移控制方法及装置
KR102569001B1 (ko) 클라우드의 가상 머신 자동 최적화를 위한 장치 및 방법
KR102569002B1 (ko) 멀티 클러스터 환경에서의 가상 머신 자동 최적화를 위한 장치 및 방법
CN117112162B (zh) 一种数据处理方法、装置、设备和存储介质
CN115629918B (zh) 数据处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination