CN116633766A - 故障处理方法、装置、电子设备及存储介质 - Google Patents

故障处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN116633766A
CN116633766A CN202310686689.7A CN202310686689A CN116633766A CN 116633766 A CN116633766 A CN 116633766A CN 202310686689 A CN202310686689 A CN 202310686689A CN 116633766 A CN116633766 A CN 116633766A
Authority
CN
China
Prior art keywords
host
cke
node
cluster
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310686689.7A
Other languages
English (en)
Inventor
赵德山
任仲涛
刘国伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Unicom Digital Technology Co Ltd
Unicom Cloud Data Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Unicom Digital Technology Co Ltd
Unicom Cloud Data Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd, Unicom Digital Technology Co Ltd, Unicom Cloud Data Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN202310686689.7A priority Critical patent/CN116633766A/zh
Publication of CN116633766A publication Critical patent/CN116633766A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0668Management of faults, events, alarms or notifications using network fault recovery by dynamic selection of recovery network elements, e.g. replacement by the most appropriate element after failure
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • H04L67/1044Group management mechanisms 
    • H04L67/1051Group master selection mechanisms
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本申请提供一种故障处理方法、装置、电子设备及存储介质,涉及云计算技术领域,方法包括:根据来自所述CKE集群的主机告警信息和/或节点告警信息,确定所述CKE集群中第一主机发生故障;确定所述第一主机上部署有控制类型的目标节点;若所述第一主机上部署有所述目标节点,则从所述CKE集群的主机中确定第二主机;将所述目标节点从所述第一主机迁移至所述第二主机中。通过上述方法,在云平台的第一主机发生故障时,可以将部署于该主机中的节点迁移至其他主机的可用节点,无需人工介入,提升恢复节点正常运行的效率,降低因主机故障导致业务场景中断的时间,从而提升用户的使用体验。

Description

故障处理方法、装置、电子设备及存储介质
技术领域
本申请涉及云计算技术领域,尤其涉及一种故障处理方法、装置、电子设备及存储介质。
背景技术
随着云计算技术的突飞猛进,越来越多的用户选择建设云平台来对外提供更好的服务。
为了提升云平台的计算性能,通常采用容器技术,将业务场景中不同的业务流程部署于至云平台的不同主机的不同节点中。对于复杂度高的云平台,若某一主机出现节点故障,会使多个业务场景陷入失效状态,需要人工进行故障的处理,导致故障修复时间长,用户的使用体验差。
发明内容
针对目前故障处理中需要人工介入,导致故障修复时间长的问题,本申请实施例提供一种故障处理方法、装置、电子设备及存储介质,可以提升故障修复的效率。
第一方面,本申请提供一种故障处理方法,应用于云平台,所述云平台包括监控主机、多个CKE集群,每个CKE集群包括多个主机,每个所述主机上部署有至少一个类型的至少一个节点,所述方法应用于所述监控主机,所述方法包括:
根据来自所述CKE集群的主机告警信息和/或节点告警信息,确定所述CKE集群中第一主机发生故障;
确定所述第一主机上部署有控制类型的目标节点;
若所述第一主机上部署有所述目标节点,则从所述CKE集群的主机中确定第二主机;
将所述目标节点从所述第一主机迁移至所述第二主机中。
可选的,所述根据来自所述CKE集群的节点告警信息,确定所述第一主机发生故障,包括:
解析所述节点告警信息,获取所述节点所属的主机标识;
若解析得到的所述第一主机标识的数量大于或等于预设值时,则确定所述第一主机发生故障;
若解析得到的所述第一主机标识的数量小于所述预设值时,则输出请求人工验证所述第一主机是否发生故障的请求消息;
若接收到所述请求消息的响应消息,且所述响应消息表征所述第一主机发生故障,则确定所述第一主机发生故障。
可选的,所述从所述CKE集群的主机中确定第二主机之前,所述方法还包括:
预测所述第一主机的故障恢复时长;
若所述故障恢复时长大于预设时长,则从所述CKE集群的主机中确定第二主机。
可选的,所述获取所述第一主机的预测故障恢复时长,包括:
根据所述第一主机的运行参数,获取所述第一主机的故障原因;
根据所述第一主机的故障原因,预测所述第一主机的故障恢复时长。
可选的,所述从所述CKE集群的主机中确定第二主机,包括:
根据运行所述目标节点所需的资源,以及,所述CKE集群中除所述第一主机之外的其他主机的可用资源,从所述其他主机中确定所述第二主机。
可选的,所述将所述目标节点从所述第一主机迁移至所述第二主机中,包括:
配置所述目标节点的迁移信息文件,并备份所述CKE集群的数据;
根据所述迁移信息文件将所述目标节点迁移至所述第二主机的空闲节点;或者,新构建的节点。
可选的,所述将所述目标节点从所述第一主机迁移至所述第二主机中之后,所述方法还包括:
获取所述CKE集群的运行状态;
若所述节点集群的运行状态异常,则重新从所述CKE集群的主机中确定第三主机;
将所述目标节点从所述第一主机迁移至所述第三主机中。
第二方面,本申请提供一种故障处理装置,应用于云平台,所述云平台包括监控主机、多个CKE集群,每个CKE集群包括多个主机,每个所述主机上部署有至少一个类型的至少一个节点,所述装置应用于所述监控主机,所述装置包括:
第一确定模块,用于根据来自所述CKE集群的主机告警信息和/或节点告警信息,确定所述CKE集群中第一主机发生故障;
第二确定模块,用于确定所述第一主机上部署有控制类型的目标节点;
处理模块,用于若所述第一主机上部署有所述目标节点,则从所述CKE集群的主机中确定第二主机;
迁移模块,用于将所述目标节点从所述第一主机迁移至所述第二主机中。
第三方面,本申请提供一种电子设备,包括:存储器和处理器;
存储器用于存储计算机指令;处理器用于运行存储器存储的计算机指令实现第一方面中任一项的方法。
第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行以实现第一方面中任一项的方法。
第五方面,本申请提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现第一方面中任一项的方法。
本申请实施例提供的故障处理方法、装置、电子设备及存储介质,通过根据来自所述CKE集群的主机告警信息和/或节点告警信息,确定所述CKE集群中第一主机发生故障;确定所述第一主机上部署有控制类型的目标节点;若所述第一主机上部署有所述目标节点,则从所述CKE集群的主机中确定第二主机;将所述目标节点从所述第一主机迁移至所述第二主机中。通过上述方法,在云平台的第一主机发生故障时,可以将部署于该主机中的节点迁移至其他主机的可用节点,无需人工介入,提升恢复节点正常运行的速度,降低因主机故障导致业务场景中断的时间,从而提升用户的使用体验。
附图说明
图1为本申请实施例提供的场景示意图;
图2为本申请实施例提供的故障处理方法的流程示意图一;
图3为本申请实施例提供的故障处理方法的流程示意图二;
图4为本申请实施例提供的故障处理装置的结构示意图;
图5为本申请实施例提供的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分,并不对其先后顺序进行限定。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。
需要说明的是,本申请实施例中,“示例性的”或者“例如”等词用于表示例子、例证或说明。本申请中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
随着云计算技术的突飞猛进,越来越多的用户选择建设云平台来对外提供更好的服务。这也就意味着建设云平台不光要在技术上满足用户需求,还要保证云平台的运行可靠稳定。
为了提升云平台的计算性能,通常采用容器技术,将业务场景中不同的业务流程部署于至云平台的不同主机的不同节点中。其中,一个业务场景可以对应一个节点集群。
对于复杂度高的云平台,若某一主机故障,会使多个业务场景陷入失效状态,需要人工进行故障的处理,导致故障修复时间长,用户的使用体验差。
有鉴于此,本申请提供一种故障处理方法、装置、电子设备及存储介质,通过在云平台中设置监控主机,所述监控主机用于采集云平台的主机告警信息和/或部署于主机上的节点的告警信息,根据主机告警信息和/或节点的告警信息,确定所述主机发生故障时,可以将部署于该主机中的节点迁移至其他主机的可用节点。通过上述方法,在主机发生故障时,无需人工介入,可以快速恢复各节点的使用,降低因主机故障导致业务场景陷入失效状态的几率,从而提升用户的使用体验。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以独立实现,也可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
图1为本申请实施例的应用场景示意图,如图1所示,云平台包括监控主机和多个主机,每个主机上部署有多个节点,不同主机部署的多个节点可以构成一个ContainershipKubernetes Engine(CKE)集群。
示例性的,主机1中部署的节点1、主机2中部署的节点1,以及,主机N中部署的节点2共同构成CKE集群1。主机1中部署的节点2、主机1中部署的节点N,以及,主机2中部署的节点2共同构成CKE集群2。
应理解,各CKE集群中包括的节点数量可以根据实际需求进行设置,本申请实施例对此不进行限制。
应理解,上述云平台的架构也可以描述为所述云平台包括监控主机、多个CKE集群,每个CKE集群包括多个主机,每个所述主机上部署有多个节点。
本申请实施例中,监控主机可以与各主机进行通信,获取各主机的状态以及信息,例如,接收主机发送的主机告警信息,所述主机告警信息可以用于指示所述主机发生故障。
在一些实施例中,所述监控主机也可以获取各CKE集群中包括的各节点的状态以及信息,例如,接收主机发送的节点告警信息,所述节点告警信息可以用于指示所述节点发生故障。
监控主机可以根据主机告警信息和/或节点告警信息,判断对应的主机是否发生故障,若确定所述主机发生故障,则监控主机可以将部署于该主机中的节点迁移至其他主机的可用节点。可以快速将由于主机故障导致的节点处于不可用状态恢复至可用状态,降低对使用该节点的业务的影响。
上面对本申请实施例提供的应用场景进行了说明,下面以应用于图1中的监控主机为例,对本申请提供的故障处理方法进行详细说明。
图2为本申请实施例提供的故障处理方法的流程示意图一,如图2所示,包括如下步骤:
S201、根据来自所述CKE集群的主机告警信息和/或节点告警信息,确定所述CKE集群中第一主机发生故障。
本申请实施例中,CKE集群可以为一种基于分布式计算框架Mesos开发的K8s集群。CKE集群采用“容器on容器”的技术架构,CKE集群的系统服务运行在通过Mesos启动的节点容器中,CKE集群中的业务节点同样运行在节点容器中,整个CKE集群的节点的容器运行在计算节点主机上,通过容器cgroup进行资源的隔离。
在一种可能的实现方式中,监控主机可以与CKE集群对应的各主机进行交互,获取主机输出的主机告警信息和/或节点告警信息。
在一种可能的实现方式中,监控主机中部署有监控程序,所述监控程序可以采集主机运行的监控指标数据和/或节点状态数据,对所述主机运行的监控指标数据进行分析,得到所述主机告警信息。和/或,随所述节点状态数据进行分析,得到所述节点告警信息。
示例性的,监控主机中可以部署普罗米修斯prometheus监控程序,通过prometheus可以获取主机运行时的node_exporter监控指标数据,并对所述监控指标数据进行分析,若所述监控指标数据表征所述主机出现异常,则输出告警信息。
可选的,prometheus监控程序还包括联邦模式,通过prometheus联邦模式对CKE集群的节点状态进行监控,若所述节点状态表征所述节点异常时,输出节点告警信息。其中,prometheus联邦模式可以为包括主程序和多个子监控程序,每个子监控程序可以监控一个CKE集群的节点状态,主程序可以对各子程序收集的信息进行汇总输出。
在一种可能的实现方式中,若监控主机获取到主机告警信息时,对所述主机告警信息进行解析,确定所述告警信息对应的第一主机的标识,根据所述第一主机的标识,确定第一主机发生故障。
在一种可能的实现方式中,若监控主机获取到节点告警信息时,可以解析所述节点告警信息,根据所述告警信息包括的内容确定所述第一主机是否出现故障。
例如,所述节点告警信息中包括的第一主机的标识大于预设值时,可以确定所述第一主机出现故障,或者,所述节点告警信息中表征所述第一主机故障类型为预设类型时,可以确定所述第一主机出现故障。
S202、确定所述第一主机上部署有控制类型的目标节点。
本申请实施例中,确定所述第一主机出现故障时,监控主机可以判断所述第一主机中是否部署有控制类型的目标节点。其中,每个主机中部署的节点详情可以预先存储在监控主机中,或者云平台的其他存储单元。监控主机可以根据所述节点详情确定所述第一主机中是否部署有控制类型的目标节点。
本申请实施例中,CKE集群中的节点类型可以分为控制类型的节点和计算类型的节点,其中,控制类型的节点可以包括主控节点master和操作节点console,计算类型的节点包括pod。其中,pod可以在第一主机出现故障时漂移至其他主机的可用节点。
若第一主机中部署有控制类型的目标节点,则可以执行后续步骤,若第一主机中未部署有控制类型的目标节点,流程结束,和/或,向用户的终端推送告警信息。
S203、若所述第一主机上部署有所述目标节点,则从所述CKE集群的主机中确定第二主机。
本申请实施例中,若所述第一主机上部署有所述目标节点,监控主机需要将所述目标节点进行迁移,以保证该节点可以正常使用。
监控主机可以获取部署所述目标节点所需的资源,例如,内存、CPU等,在所述云平台中确定可以满足迁移所述目标节点所需资源的第二主机。即,第二主机包括满足所述目标节点运行的空闲资源。
S204、将所述目标节点从所述第一主机迁移至所述第二主机中。
本申请实施例中,监控主机确定第二主机时,可以将所述目标节点有关的信息以及数据进行整理合并,移动至所述第二主机的可用节点上。
本申请实施例提供的故障处理方法,通过根据来自所述CKE集群的主机告警信息和/或节点告警信息,确定所述CKE集群中第一主机发生故障;确定所述第一主机上部署有控制类型的目标节点;若所述第一主机上部署有所述目标节点,则从所述CKE集群的主机中确定第二主机;将所述目标节点从所述第一主机迁移至所述第二主机中。通过上述方法,在云平台的第一主机发生故障时,可以将部署于该主机中的节点迁移至其他主机的可用节点,无需人工介入,提升恢复节点正常运行的速度,降低因主机故障导致业务场景中断的时间,从而提升用户的使用体验。
可选的,在上述实施例的基础上,本申请实施例提供的故障处理方法,所述根据来自所述CKE集群的节点告警信息,确定所述第一主机发生故障,还可以根据如下所示方式确定。
示例性的,解析所述节点告警信息,获取所述节点所属的主机标识;若解析得到的所述第一主机标识的数量大于或等于预设值时,则确定所述第一主机发生故障;若解析得到的所述第一主机标识的数量小于所述预设值时,则输出请求人工验证所述第一主机是否发生故障的请求消息;若接收到所述请求消息的响应消息,且所述响应消息表征所述第一主机发生故障,则确定所述第一主机发生故障。
本申请实施例中,监控主机获取到节点告警信息时,可以对节点告警信息进行解析,得到所述节点告警信息中包括的所述节点所属主机的主机标识。通过包括所述第一主机标识的告警节点的数量,确定所述第一主机是否出现故障。
其中,若解析得到的所述第一主机标识的数量大于或等于预设值时,可以确认所述第一主机中部署的大部分节点出现异常,在次情况下,基本可以确认节点告警信息出现的原因为所述第一主机发生故障。
若解析得到的所述第一主机标识的数量小于所述预设值时,节点告警信息出现的原因可能是节点本身的状态出现问题,也可能是第一主机发生故障,此时,监控主机可以将节点告警信息推送至相关维护人员的终端设备,以请求验证所述第一主机是否发生故障。若接收到所述终端设备返回的响应消息,对所述响应消息进行解析,确定所述响应消息表征的内容,若所述响应消息表征所述第一主机发生故障,则确定所述第一主机发生故障。
可选的,在上述实施例的基础上,本申请实施例提供的故障处理方法,在迁移所述目标节点之后,还包括对迁移节点后的CKE集群状态的检查。
示例性的,获取所述CKE集群的运行状态;若所述节点集群的运行状态异常,则重新从所述CKE集群的主机中确定第三主机;将所述目标节点从所述第一主机迁移至所述第三主机中。
本申请实施例中,在将目标节点迁移至第二主机时,监控主机还可以判断此次的迁移是否成功,若不成功,则可以将所述目标节点迁移至第三主机,以提升目标节点迁移的成功率。
在一种可能的实现方式中,对目标节点重新进行迁移时,可以迁移至第三主机,也可以重新尝试迁移至第二主机,本申请实施例对此不进行限制。其中,重新尝试迁移至第二主机时,可以设定重试的最大次数,若在最大重试次数后,迁移还未成功,则将所述目标节点迁移至第三主机。
监控主机可以获取迁移目标节点后,所述目标节点所述的CKE集群的运行状态来判断此次的迁移是否成功。
示例性的,监控主机可以通过接口查询迁移节点完成后的CKE集群状态是否正常。
其中,接口查询的方式可以如下所示:
http://xxxx/service/{CKE-NAME}/k8s/v2/clusters
若接收到接口返回集群状态为running,则表示节点迁移正常,迁移验证完成。若接收到接口返回集群状态为其他状态,例如,Stop、error等,则表示目标节点迁移失败,需要重新进行迁移。
图3为本申请实施例提供的故障处理方法的流程示意图二,在图2所示实施例的基础上,对所述故障处理方法进行进一步的介绍,如图3所示,包括:
S301、根据来自所述CKE集群的主机告警信息和/或节点告警信息,确定所述CKE集群中第一主机发生故障。
S302、确定所述第一主机上部署有控制类型的目标节点。
本申请实施例中,S301与S302的具体实现方式与如图2所示实施例中S201与S202所示的具体实现方式类似,此处不再赘述。
可选的,若监控主机同时接收到主机告警信息和节点告警信息时,若所述主机告警信息和节点告警信息指向的主机相同,则以主机告警信息为准,若指向的主机不同,则可以分别进行确认。
S303、预测所述第一主机的故障恢复时长。
本申请实施例中,监控主机在确定所述第一主机发生故障时,可以对第一主机的恢复时长进行预测,若所述第一主机的恢复时长小于预设时长,则监控主机可以等待第一主机恢复,降低因迁移所述目标节点对云平台计算资源的消耗。
其中,所述预测所述第一主机的故障恢复时长可以根据如下所示方式进行:
示例性的,根据所述第一主机的运行参数,获取所述第一主机的故障原因;根据所述第一主机的故障原因,预测所述第一主机的故障恢复时长。
其中,所述运行参数可以包括但不限于所述第一主机的CPU占用率、缓存大小、内存占用率、存储空间占用率、栈使用状况等,核心硬件的温度等。
若根据所述运行参数确定所述第一主机的故障原因为所述运行参数导致,例如,CPU占用率过高、内存占用率过高、CPU温度过高等,则可以确定所述第一主机的恢复时长较短。
若根据所述运行参数确定所述第一主机的故障原因非所述运行参数导致,则可以确定所述第一主机的恢复时长较长。
在一种可能的实现方式中,监控主机也可以输出请求人工验证所述第一主机恢复时长的请求消息,根据接收到所述请求消息的响应消息,所述预测所述第一主机的故障恢复时长。
可选的,在一种可能的实现方式中,执行确定所述第一主机上部署有控制类型的目标节点的步骤,也可以为在执行预测所述第一主机的故障恢复时长的步骤之后,本申请实施例对该执行顺序不进行限制。
S304、判断所述故障恢复时长是否大于预设时长,若是,可以执行S305所示步骤,若否,流程结束。
S305、从所述CKE集群的主机中确定第二主机。
本申请实施例中,监控主机确定第一主机中部署有所述目标节点,以及,所述第一主机短时间不可恢复时,可以从所述CKE集群的主机中确定可以运行所述目标节点的第二主机。
示例性的,根据运行所述目标节点所需的资源,以及,所述CKE集群中除所述第一主机之外的其他主机的可用资源,从所述其他主机中确定所述第二主机。
其中,监控主机在部署各节点时,可以记录各节点运行所需的资源,并生成相关的记录信息,根据所述记录信息确定所述运行所述目标节点所需的资源。
监控主机可以获取处第一主机之外的其他主机的可用资源,若某一主机的所述可用资源大于或等于根据所述目标节点所需的资源,则可以将该主机作为所述第二主机。
可选的,若存在多个第二主机,则监控平台可以判断将所述目标节点迁移各第二主机所消耗的资源,将资源消耗最低的主机作为所述第二主机。
通过所述运行所述目标节点所需的资源来确定第二主机,可以降低因第二主机的可用资源不足导致迁移所述目标节点失败的概率。
应理解,所述第二主机可以为云平台中除第一主机之外的任一主机,不受所述CKE集群的限制。
S306、将所述目标节点从所述第一主机迁移至所述第二主机中。
示例性的,配置所述目标节点的迁移信息文件,并备份所述CKE集群的数据;根据所述迁移信息文件将所述目标节点迁移至所述第二主机的空闲节点;或者,新构建的节点。
其中,迁移信息文件可以为用于提供所述目标节点正常运行的文件,以及,迁移的路径信息文件等,所述提供所述目标节点正常运行的文件包括但不限于环境信息文件、数据信息文件等。
监控主机在根据所述迁移信息文件迁移所述目标节点时,可以判断所述第二主机是否存在满足所述目标节点运行的空闲节点,若存在,则可以将将所述目标节点迁移至所述第二主机的空闲节点。
若不存在,监控主机可以根据所述第二主机中运行所述目标节点所需的资源构建一个新的节点,将所述目标节点迁移至新构建的节点。
可选的,在迁移所述目标节点时,监控主机还可以备份所述目标节点所属的CKE集群的数据,降低迁移中目标节点的数据丢失或损坏,使得CKE集群的数据不完整的机率。从而降低因迁移失败导致所述目标节点所述的CKE集群无法正常运行的几率。
S307、获取迁移所述目标节点后,确定各所述CKE集群的状态是否正常。
本申请实施例中,S307所示步骤的实现方式可以参见上述实施例中的实现方式,此处不再赘述。
本申请实施例提供的故障处理方法,可以批量或单独迁移故障主机的目标节点,缩短用户业务或使用的影响时间,保证业务的可用性。在迁移过程中,无需人工介入,降低了获取需要迁移的目标节点信息,缩短了迁移前的准备阶段消耗的大量时间,也降低了人工作业的操作失误等意外情况。从而提升迁移目标节点的成功了效率。
本申请实施例还提供一种故障处理装置。
图4为本申请实施例提供的故障处理装置400的结构示意图,所述故障处理装置应用于云平台,所述云平台包括监控主机、多个CKE集群,每个CKE集群包括多个主机,每个所述主机上部署有至少一个类型的至少一个节点,所述装置应用于所述监控主机,所述装置包括:
第一确定模块401,用于根据来自所述CKE集群的主机告警信息和/或节点告警信息,确定所述CKE集群中第一主机发生故障。
第二确定模块402,用于确定所述第一主机上部署有控制类型的目标节点。
处理模块403,用于若所述第一主机上部署有所述目标节点,则从所述CKE集群的主机中确定第二主机。
迁移模块404,用于将所述目标节点从所述第一主机迁移至所述第二主机中。
可选的,第一确定模块401,还用于解析所述节点告警信息,获取所述节点所属的主机标识;若解析得到的所述第一主机标识的数量大于或等于预设值时,则确定所述第一主机发生故障;若解析得到的所述第一主机标识的数量小于所述预设值时,则输出请求人工验证所述第一主机是否发生故障的请求消息;若接收到所述请求消息的响应消息,且所述响应消息表征所述第一主机发生故障,则确定所述第一主机发生故障。
可选的,第一确定模块402,还用于预测所述第一主机的故障恢复时长;若所述故障恢复时长大于预设时长,则从所述CKE集群的主机中确定第二主机。
可选的,第一确定模块402,还用于根据所述第一主机的运行参数,获取所述第一主机的故障原因;根据所述第一主机的故障原因,预测所述第一主机的故障恢复时长。
可选的,处理模块403,还用于根据运行所述目标节点所需的资源,以及,所述CKE集群中除所述第一主机之外的其他主机的可用资源,从所述其他主机中确定所述第二主机。
可选的,迁移模块404,还用于配置所述目标节点的迁移信息文件,并备份所述CKE集群的数据;根据所述迁移信息文件将所述目标节点迁移至所述第二主机的空闲节点;或者,新构建的节点。
可选的,迁移模块404,还用于获取所述CKE集群的运行状态;若所述节点集群的运行状态异常,则重新从所述CKE集群的主机中确定第三主机;将所述目标节点从所述第一主机迁移至所述第三主机中。
本申请实施例提供的故障处理装置,可以执行上述任一实施例提供的故障处理方法的技术方案,其原理和技术效果类似,此处不再赘述。
图5为本申请提供的一种电子设备结构示意图。如图5所示,该电子设备500可以包括:至少一个处理器501、存储器502、通信接口503。
存储器502,用于存放程序。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。
存储器502可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
处理器501用于执行存储器502存储的计算机执行指令,以实现前述方法实施例所描述的故障处理方法的动作。其中,处理器501可能是一个中央处理器(CentralProcessing Unit,简称为CPU),或者是特定集成电路(Application Specific IntegratedCircuit,简称为ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。
在具体实现上,如果通信接口503、存储器502和处理器501独立实现,则通信接口503、存储器502和处理器501可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(Peripheral Component,简称为PCI)总线或扩展工业标准体系结构(Extended IndustryStandard Architecture,简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果通信接口503、存储器502和处理器501集成在一块芯片上实现,则通信接口503、存储器502和处理器501可以通过内部接口完成通信。
本申请实施例中还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述故障处理方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
一种可能的实现方式中,计算机可读介质可以包括随机存取存储器(RandomAccess Memory,RAM),只读存储器(Read-Only Memory,ROM),只读光盘(compact discread-only memory,CD-ROM)或其它光盘存储器,磁盘存储器或其它磁存储设备,或目标于承载的任何其它介质或以指令或数据结构的形式存储所需的程序代码,并且可由计算机访问。而且,任何连接被适当地称为计算机可读介质。例如,如果使用同轴电缆,光纤电缆,双绞线,数字用户线(Digital Subscriber Line,DSL)或无线技术(如红外,无线电和微波)从网站,服务器或其它远程源传输软件,则同轴电缆,光纤电缆,双绞线,DSL或诸如红外,无线电和微波之类的无线技术包括在介质的定义中。如本文所使用的磁盘和光盘包括光盘,激光盘,光盘,数字通用光盘(Digital Versatile Disc,DVD),软盘和蓝光盘,其中磁盘通常以磁性方式再现数据,而光盘利用激光光学地再现数据。上述的组合也应包括在计算机可读介质的范围内。
本申请实施例中还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述故障处理方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
在上述终端设备或者服务器的具体实现中,应理解,处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:ApplicationSpecific Integrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
本领域技术人员可以理解,上述任一方法实施例的全部或部分步骤可以通过与程序指令相关的硬件来完成。前述的程序可以存储于计算机可读取存储介质中,该程序被执行时,执行上述方法实施例的全部或部分的步骤。
本申请技术方案如果以软件的形式实现并作为产品销售或使用时,可以存储在计算机可读取存储介质中。基于这样的理解,本申请的技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括计算机程序或者若干指令。该计算机软件产品使得计算机设备(可以是个人计算机、服务器、网络设备或者类似的电子设备)执行本申请实施例所述方法的全部或部分步骤。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (10)

1.一种故障处理方法,其特征在于,应用于云平台,所述云平台包括监控主机、多个CKE集群,每个CKE集群包括多个主机,每个所述主机上部署有至少一个类型的至少一个节点,所述方法应用于所述监控主机,所述方法包括:
根据来自所述CKE集群的主机告警信息和/或节点告警信息,确定所述CKE集群中第一主机发生故障;
确定所述第一主机上部署有控制类型的目标节点;
若所述第一主机上部署有所述目标节点,则从所述CKE集群的主机中确定第二主机;
将所述目标节点从所述第一主机迁移至所述第二主机中。
2.根据权利要求1所述的方法,其特征在于,所述根据来自所述CKE集群的节点告警信息,确定所述第一主机发生故障,包括:
解析所述节点告警信息,获取所述节点所属的主机标识;
若解析得到的所述第一主机标识的数量大于或等于预设值时,则确定所述第一主机发生故障;
若解析得到的所述第一主机标识的数量小于所述预设值时,则输出请求人工验证所述第一主机是否发生故障的请求消息;
若接收到所述请求消息的响应消息,且所述响应消息表征所述第一主机发生故障,则确定所述第一主机发生故障。
3.根据权利要求2所述的方法,其特征在于,所述从所述CKE集群的主机中确定第二主机之前,所述方法还包括:
预测所述第一主机的故障恢复时长;
若所述故障恢复时长大于预设时长,则从所述CKE集群的主机中确定第二主机。
4.根据权利要求3所述的方法,其特征在于,所述获取所述第一主机的预测故障恢复时长,包括:
根据所述第一主机的运行参数,获取所述第一主机的故障原因;
根据所述第一主机的故障原因,预测所述第一主机的故障恢复时长。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述从所述CKE集群的主机中确定第二主机,包括:
根据运行所述目标节点所需的资源,以及,所述CKE集群中除所述第一主机之外的其他主机的可用资源,从所述其他主机中确定所述第二主机。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述将所述目标节点从所述第一主机迁移至所述第二主机中,包括:
配置所述目标节点的迁移信息文件,并备份所述CKE集群的数据;
根据所述迁移信息文件将所述目标节点迁移至所述第二主机的空闲节点;或者,新构建的节点。
7.根据权利要求1-4任一项所述的方法,其特征在于,所述将所述目标节点从所述第一主机迁移至所述第二主机中之后,所述方法还包括:
获取所述CKE集群的运行状态;
若所述节点集群的运行状态异常,则重新从所述CKE集群的主机中确定第三主机;
将所述目标节点从所述第一主机迁移至所述第三主机中。
8.一种故障处理装置,其特征在于,应用于云平台,所述云平台包括监控主机、多个CKE集群,每个CKE集群包括多个主机,每个所述主机上部署有至少一个类型的至少一个节点,所述装置应用于所述监控主机,所述装置包括:
第一确定模块,用于根据来自所述CKE集群的主机告警信息和/或节点告警信息,确定所述CKE集群中第一主机发生故障;
第二确定模块,用于确定所述第一主机上部署有控制类型的目标节点;
处理模块,用于若所述第一主机上部署有所述目标节点,则从所述CKE集群的主机中确定第二主机;
迁移模块,用于将所述目标节点从所述第一主机迁移至所述第二主机中。
9.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行以实现权利要求1-7中任一项所述的方法。
CN202310686689.7A 2023-06-09 2023-06-09 故障处理方法、装置、电子设备及存储介质 Pending CN116633766A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310686689.7A CN116633766A (zh) 2023-06-09 2023-06-09 故障处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310686689.7A CN116633766A (zh) 2023-06-09 2023-06-09 故障处理方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN116633766A true CN116633766A (zh) 2023-08-22

Family

ID=87592048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310686689.7A Pending CN116633766A (zh) 2023-06-09 2023-06-09 故障处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116633766A (zh)

Similar Documents

Publication Publication Date Title
CN108847982B (zh) 一种分布式存储集群及其节点故障切换方法和装置
CN110311831B (zh) 基于容器云的系统资源监控方法及相关设备
CN107666493B (zh) 一种数据库配置方法及其设备
CN108228444B (zh) 一种测试方法和装置
CN110018996B (zh) 一种分布式存储系统的快照回滚方法及相关装置
CN110187995B (zh) 一种熔断对端节点的方法及熔断装置
CN109391691B (zh) 一种单节点故障下nas服务的恢复方法及相关装置
CN106095483A (zh) 服务的自动化部署方法及装置
CN110275793B (zh) 一种用于MongoDB数据分片集群的检测方法及设备
CN103532870A (zh) 一种更新Web应用集群的方法和装置
CN104038366A (zh) 集群节点失效检测方法和系统
CN111342986A (zh) 分布式节点管理方法及装置、分布式系统、存储介质
CN112015595B (zh) 主从数据库的切换方法、计算设备及存储介质
CN110224872B (zh) 一种通信方法、装置及存储介质
CN111092956A (zh) 资源同步方法、装置、存储介质及设备
CN116633766A (zh) 故障处理方法、装置、电子设备及存储介质
CN114124727B (zh) 一种网管通信压力测试方法及系统
CN115981670A (zh) 容器集群业务部署方法、装置、服务器及存储介质
CN112685063B (zh) 特征库更新方法、装置、网络设备及可读存储介质
CN114296909A (zh) 一种根据kubernetes事件的节点自动扩容缩容方法及系统
CN109151016B (zh) 流量转发方法和装置、服务系统、计算设备及存储介质
CN112068935A (zh) kubernetes程序部署监控方法、装置以及设备
CN112799896A (zh) 分布式存储硬盘故障处理方法及装置
CN113032477A (zh) 基于gtid的长距离数据同步方法、装置及计算设备
CN110581786A (zh) Ncsi网络连通稳定性的测试方法、装置、系统及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination