CN111796959B - 宿主机容器自愈方法、装置及系统 - Google Patents

宿主机容器自愈方法、装置及系统 Download PDF

Info

Publication number
CN111796959B
CN111796959B CN202010611315.5A CN202010611315A CN111796959B CN 111796959 B CN111796959 B CN 111796959B CN 202010611315 A CN202010611315 A CN 202010611315A CN 111796959 B CN111796959 B CN 111796959B
Authority
CN
China
Prior art keywords
container
abnormal
host
self
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010611315.5A
Other languages
English (en)
Other versions
CN111796959A (zh
Inventor
安徐林
李彤
白佳乐
郑杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202010611315.5A priority Critical patent/CN111796959B/zh
Publication of CN111796959A publication Critical patent/CN111796959A/zh
Application granted granted Critical
Publication of CN111796959B publication Critical patent/CN111796959B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0712Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a virtual computing platform, e.g. logically partitioned systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/815Virtual
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种宿主机容器自愈方法、装置及系统。该宿主机容器自愈方法包括:接收来自宿主机的容器重启信息和来自监控服务器的容器磁盘信息;容器重启信息和容器磁盘信息均包括容器标识;根据容器重启信息和容器磁盘信息判断异常类型;根据异常类型修复容器标识对应的容器以完成自愈。本发明可以提升容器的快速自愈能力,为用户提供稳定的在线服务。

Description

宿主机容器自愈方法、装置及系统
技术领域
本发明涉及宿主机容器技术领域,具体地,涉及一种宿主机容器自愈方法、装置及系统。
背景技术
随着上云应用的广泛部署,管理容器的规模越来越大,容器的健康运行监控以及自我恢复自愈的能力显得越发的重要。目前云上资源管理主要采用kubernetes开源管理软件进行管理,kubernetes针对容器不健康场景提供了容器原地重启自愈机制。
在云上的集群容器管理中,容器的异常场景引发的原因较为复杂,一旦发生异常,容器不能第一时间修复,那么会影响应用的在线服务水平,导致应用不可用,严重的话导致企业的营收和服务形象。kubernetes对于宿主机自身的IO繁忙引起的容器响应慢以及容器的异常日志大量写入导致磁盘IO繁忙等亚健康的场景缺乏监控和自愈的能力,在容器异常时只能不断重启,不能及时自动干预自愈容器,无法保障容器的在线稳定提供服务能力。
发明内容
本发明实施例的主要目的在于提供一种宿主机容器自愈方法、装置及系统,以提升容器快速自愈的能力,为用户提供稳定的在线服务。
为了实现上述目的,本发明实施例提供一种宿主机容器自愈方法,包括:
接收来自宿主机的容器重启信息和来自监控服务器的容器磁盘信息;容器重启信息和容器磁盘信息均包括容器标识;
根据容器重启信息和容器磁盘信息判断异常类型;
根据异常类型修复容器标识对应的容器以完成自愈。
本发明实施例还提供一种宿主机容器自愈装置,包括:
接收单元,用于接收来自宿主机的容器重启信息和来自监控服务器的容器磁盘信息;容器重启信息和所述容器磁盘信息均包括容器标识;
第一判断单元,用于根据容器重启信息和容器磁盘信息判断异常类型;
自愈单元,用于根据异常类型修复容器标识对应的容器以完成自愈。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并在处理器上运行的计算机程序,处理器执行计算机程序时实现所述的宿主机容器自愈方法的步骤。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现所述的宿主机容器自愈方法的步骤。
本发明实施例还提供一种宿主机容器自愈系统,包括:
宿主机、监控服务器和宿主机容器自愈装置;
宿主机监听容器重启信息,上传容器重启信息至宿主机容器自愈装置;
监控服务器采集位于宿主机上的容器的容器磁盘信息,上传容器磁盘信息至宿主机容器自愈装置;
宿主机容器自愈装置接收容器重启信息和容器磁盘信息;容器重启信息和容器磁盘信息均包括容器标识;根据容器重启信息和容器磁盘信息判断异常类型;根据异常类型修复容器标识对应的容器以完成自愈。
本发明实施例的宿主机容器自愈方法、装置及系统根据容器重启信息和容器磁盘信息判断异常类型,并根据异常类型修复容器标识对应的容器以完成自愈,可以提升容器的快速自愈能力,为用户提供稳定的在线服务。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中宿主机容器自愈方法的流程图;
图2是本发明另一实施例中宿主机容器自愈方法的流程图;
图3是本发明实施例中宿主机容器自愈系统的结构框图;
图4是本发明实施例中宿主机容器自愈装置的结构框图;
图5是本发明实施例中计算机设备的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
鉴于现有技术缺乏监控和自愈的能力,不能及时自动干预自愈容器,影响应用的在线服务水平,本发明实施例提供一种宿主机容器自愈方法,以提升容器的快速自愈能力,为用户提供稳定的在线服务。以下结合附图对本发明进行详细说明。
本发明对宿主机的容器进行监控,记录容器的进程信息,对异常的容器进行上送报警,同时监控宿主机的IO(输入/输出)繁忙情况,结合异常的场景对容器进行智能判断,提升容器运行监控和快速自愈恢复的能力。
图1是本发明实施例中宿主机容器自愈方法的流程图。图2是本发明另一实施例中宿主机容器自愈方法的流程图。图3是本发明实施例中宿主机容器自愈系统的结构框图。如图1-图3所示,宿主机容器自愈方法包括:
S101:接收来自宿主机的容器重启信息和来自监控服务器的容器磁盘信息。
其中,容器重启信息和容器磁盘信息均包括容器标识、重启容器对应的应用、重启次数和宿主机IP地址等信息。容器标识包括“restartCnt”标志。
具体实施时,本发明通过kubernetes集群的daemonset部署方式制作Monitor监控进程,通过统一脚本下发部署到集群的宿主机上。宿主机上的Monitor监控进程组件用于监听宿主机事件,它主要监听docker服务的pods事件监控接口,通过多线程任务每隔固定时间间隔(如1分钟)扫描宿主机全量运行的容器,进行轮询监控,遍历获取每个容器的异常重启次数信息。当容器发生重启事件,则将容器的重启信息上报到宿主机容器自愈装置进行判断处理,宿主机容器自愈装置位于paas(Platform as a Service,平台即服务)管理平台。
S102:根据容器重启信息和容器磁盘信息判断异常类型。
一实施例中,S102包括:
1、根据重启信息判断容器是否出现容器对象异常。
其中,容器对象异常包括容器内存溢出异常和容器健康检查异常。
具体实施时,重启信息包括通过调用container接口获取pod事件的status(状态)对象。当状态对象包括“OOMKilled”标志时,表明容器出现容器内存溢出异常;当状态对象包括“unhealthy”标志时,表明容器出现容器健康检查异常。
2、当容器未出现对象异常时,根据容器磁盘信息判断容器是否出现容器亚健康异常。
3、当容器未出现容器亚健康异常时,确定异常类型为应用异常。
具体实施时,先判断容器是否出现容器内存溢出异常,当容器未出现容器内存溢出异常时,再判断容器是否出现容器健康检查异常;当容器未出现容器健康检查异常时,根据容器磁盘信息判断容器是否出现容器亚健康异常;当容器未出现容器亚健康异常时,确定异常类型为应用异常。
S103:根据异常类型修复容器标识对应的容器以完成自愈。
一实施例中,S103包括:
当异常类型为容器内存溢出异常时,表明容器分配的内存不够,此时调用扩容接口将异常容器的内存软限制提高以扩展容器的内存容量,自动升级容器或重新部署扩容内存配置的容器使其能够正常运行;
当异常类型为应用异常或容器健康检查异常时,则标记该容器为自身异常,下线隔离容器并发送报警信息至容器对应的运维系统,避免影响宿主机上其他运行的容器,保障其他应用容器的正常服务。报警信息包括报错信息。
图1所示的宿主机容器自愈方法的执行主体为宿主机容器自愈装置。由图1所示的流程可知,本发明实施例的宿主机容器自愈方法根据容器重启信息和容器磁盘信息判断异常类型,并根据异常类型修复容器标识对应的容器以完成自愈,可以提升容器的快速自愈能力,为用户提供稳定的在线服务。
一实施例中,本发明实施例的宿主机容器自愈方法还包括:当异常类型为容器亚健康异常时,获取与容器位于同一宿主机上的容器的容器磁盘信息以判断与容器位于同一宿主机上的容器是否出现容器亚健康异常。
其中,容器磁盘信息为容器磁盘的IO情况。当该容器的IO繁忙状态超过设定的阀值时,则认为该容器的异常类型为容器亚健康异常,此时查询该容器的宿主机IP地址上的容器,根据同一宿主机上其他容器的IO繁忙状态确定宿主机上的容器是否均出现容器亚健康异常。
S103还包括:当与容器位于同一宿主机上的容器均出现容器亚健康异常时,则判断宿主机处于亚健康状态,此时隔离宿主机并将宿主机上的全部容器漂移至当前集群中的其他健康宿主机上以达到自我恢复的能力;否则判定仅当前容器为容器亚健康状态,隔离下线容器并发送报警信息至容器对应的运维系统,运维系统根据报警信息进行异常排查,避免影响同一宿主机中其他容器的正常运行。
本发明实施例的具体流程为:
1、接收来自宿主机的容器重启信息和来自监控服务器的容器磁盘信息。
2、根据重启信息判断容器是否出现容器内存溢出异常。
当容器未出现容器内存溢出异常时,根据重启信息判断容器是否出现应用异常或容器健康检查异常。
当容器未出现容器健康检查异常时,根据容器磁盘信息判断容器是否出现容器亚健康异常;
当容器未出现容器亚健康异常时,确定异常类型为应用异常。
3、当异常类型为容器内存溢出异常时,调用扩容接口将异常容器的内存软限制提高以扩展容器的内存容量,自动升级容器或重新部署扩容内存配置的容器使其能够正常运行。
当异常类型为应用异常或容器健康检查异常时,标记该容器为自身异常,下线隔离容器并发送报警信息至容器对应的运维系统。
当异常类型为容器亚健康异常时,获取与容器位于同一宿主机上的容器的容器磁盘信息以判断与容器位于同一宿主机上的容器是否出现容器亚健康异常。
当与容器位于同一宿主机上的容器均出现容器亚健康异常时,隔离宿主机并将宿主机上的全部容器漂移至当前集群中的其他健康宿主机;否则隔离下线容器并发送报警信息至容器对应的运维系统。
综上,本发明将监控的粒度提升到宿主机的粒度,在宿主机上统一部署监控进程以监控宿主机上的容器生命周期,根据pod对象的重启次数进行轮询监控,如果发生异常重启事件,将异常重启信息通过调用接口传送给统一的宿主机容器自愈装置处理,宿主机容器自愈装置对容器的重启原因进行智能判断,在应用自身异常时隔离容器并发送报警信息通知运维人员及时处理。在容器内存溢出异常时触发接口调整对应的模板内存,重新部署容器;在容器健康检查异常时记录相关容器原因和进程信息,发送报警信息至运维人员处理;在容器亚健康时结合宿主机的磁盘IO情况和宿主机上全部容器的异常情况进行判断,如为宿主机亚健康,则隔离该宿主机并驱赶所有的容器,实现容器的快速自动恢复,无需人工干预;若为容器自身异常,则隔离下线该容器,记录进程信息并发送报警信息至运维人员以分析解决异常容器。本发明将大规模的集群异常监控提升到宿主机粒度,针对不同的异常场景记录详细的原因类型,第一时间将异常信息通知给运维支持人员,当宿主机亚健康等环境因素导致容器异常时,隔离宿主机、驱赶容器,将容器漂移到同一集群的其他健康宿主机上,可以提升容器的快速自恢复能力和应用的在线服务水平,减少运维人员的操作压力和人工干预的成本。
基于同一发明构思,本发明实施例还提供了一种宿主机容器自愈装置,由于该装置解决问题的原理与宿主机容器自愈方法相似,因此该装置的实施可以参见方法的实施,重复之处不再赘述。
图4是本发明实施例中宿主机容器自愈装置的结构框图。如图4所示,宿主机容器自愈装置包括:
接收单元,用于接收来自宿主机的容器重启信息和来自监控服务器的容器磁盘信息;容器重启信息和所述容器磁盘信息均包括容器标识;
第一判断单元,用于根据容器重启信息和容器磁盘信息判断异常类型;
自愈单元,用于根据异常类型修复容器标识对应的容器以完成自愈。
其中,在实际应用中,自愈单元位于自愈恢复模块。
在其中一种实施例中,第一判断单元具体用于:
根据重启信息判断容器是否出现容器对象异常;
当容器未出现对象异常时,根据容器磁盘信息判断容器是否出现容器亚健康异常。
在其中一种实施例中,容器对象异常包括容器内存溢出异常、应用异常和容器健康检查异常;
自愈单元具体用于:
当异常类型为容器内存溢出异常时,调用扩容接口以扩展容器的内存容量;
当异常类型为应用异常或容器健康检查异常时,下线容器并发送报警信息至容器对应的运维系统。
在其中一种实施例中,还包括:
第二判断单元,用于当异常类型为容器亚健康异常时,获取与容器位于同一宿主机上的容器的容器磁盘信息以判断与容器位于同一宿主机上的容器是否出现容器亚健康异常;
其中,在实际应用中,第一判断单元和第二判断单元位于异常判定模块。
自愈单元还用于:当与容器位于同一宿主机上的容器均出现容器亚健康异常时,隔离宿主机并将宿主机上的全部容器漂移至集群中的其他宿主机,否则下线容器并发送报警信息至容器对应的运维系统。
综上,本发明实施例的宿主机容器自愈装置根据容器重启信息和容器磁盘信息判断异常类型,并根据异常类型修复容器标识对应的容器以完成自愈,可以提升容器的快速自愈能力,为用户提供稳定的在线服务。
本发明实施例还提供能够实现上述实施例中的宿主机容器自愈方法中全部步骤的一种计算机设备的具体实施方式。图5是本发明实施例中计算机设备的结构框图,参见图5,所述计算机设备具体包括如下内容:
处理器(processor)501和存储器(memory)502。
所述处理器501用于调用所述存储器502中的计算机程序,所述处理器执行所述计算机程序时实现上述实施例中的宿主机容器自愈方法中的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
接收来自宿主机的容器重启信息和来自监控服务器的容器磁盘信息;容器重启信息和容器磁盘信息均包括容器标识;
根据容器重启信息和容器磁盘信息判断异常类型;
根据异常类型修复容器标识对应的容器以完成自愈。
综上,本发明实施例的计算机设备根据容器重启信息和容器磁盘信息判断异常类型,并根据异常类型修复容器标识对应的容器以完成自愈,可以提升容器的快速自愈能力,为用户提供稳定的在线服务。
本发明实施例还提供能够实现上述实施例中的宿主机容器自愈方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的宿主机容器自愈方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
接收来自宿主机的容器重启信息和来自监控服务器的容器磁盘信息;容器重启信息和容器磁盘信息均包括容器标识;
根据容器重启信息和容器磁盘信息判断异常类型;
根据异常类型修复容器标识对应的容器以完成自愈。
综上,本发明实施例的计算机可读存储介质根据容器重启信息和容器磁盘信息判断异常类型,并根据异常类型修复容器标识对应的容器以完成自愈,可以提升容器的快速自愈能力,为用户提供稳定的在线服务。
基于同一发明构思,本发明实施例还提供了一种宿主机容器自愈系统,由于该系统解决问题的原理与宿主机容器自愈方法相似,因此该系统的实施可以参见方法的实施,重复之处不再赘述。
如图3所示,宿主机容器自愈系统包括:
宿主机1、监控服务器和宿主机容器自愈装置;
宿主机位于Node节点上,宿主机上的进程监控模块用于监听容器重启信息,上传容器重启信息至宿主机容器自愈装置;
监控服务器上的数据采集模块通过prometheus(普罗米修斯)开源软件采集位于宿主机上的容器的容器磁盘信息,上传容器磁盘信息至宿主机容器自愈装置作为后续自愈能力的数据判断依据;
宿主机容器自愈装置接收容器重启信息和容器磁盘信息;容器重启信息和容器磁盘信息均包括容器标识;根据容器重启信息和容器磁盘信息判断异常类型;根据异常类型修复容器标识对应的容器以完成自愈。
综上,本发明实施例的宿主机容器自愈系统根据容器重启信息和容器磁盘信息判断异常类型,并根据异常类型修复容器标识对应的容器以完成自愈,可以提升容器的快速自愈能力,为用户提供稳定的在线服务。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrative components),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。
本发明实施例中所描述的各种说明性的逻辑块,或单元,或装置都可以通过通用处理器,数字信号处理器,专用集成电路(ASIC),现场可编程门阵列或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。
本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中,ASIC可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用户终端中的不同的部件中。
在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置,或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。

Claims (5)

1.一种宿主机容器自愈方法,其特征在于,包括:
接收来自宿主机的容器重启信息和来自监控服务器的容器磁盘信息;所述容器重启信息和所述容器磁盘信息均包括容器标识;
根据所述容器重启信息和所述容器磁盘信息判断异常类型;
根据所述异常类型修复所述容器标识对应的容器以完成自愈;
根据所述容器重启信息和所述容器磁盘信息判断异常类型包括:
根据所述重启信息判断容器是否出现容器对象异常;
当所述容器未出现对象异常时,根据所述容器磁盘信息判断所述容器是否出现容器亚健康异常;
当所述容器未出现容器亚健康异常时,确定所述异常类型为应用异常;
所述容器对象异常包括容器内存溢出异常和容器健康检查异常;
根据所述异常类型修复所述容器标识对应的容器以完成自愈包括:
当所述异常类型为容器内存溢出异常时,调用扩容接口以扩展所述容器的内存容量;
当所述异常类型为应用异常或容器健康检查异常时,下线所述容器并发送报警信息至所述容器对应的运维系统;
所述宿主机容器自愈方法还包括:
当所述异常类型为容器亚健康异常时,获取与所述容器位于同一宿主机上的容器的容器磁盘信息以判断与所述容器位于同一宿主机上的容器是否出现容器亚健康异常;
根据所述异常类型修复所述容器标识对应的容器以完成自愈还包括:
当与所述容器位于同一宿主机上的容器均出现容器亚健康异常时,隔离所述宿主机并将所述宿主机上的全部容器漂移至集群中的其他宿主机,否则下线所述容器并发送报警信息至所述容器对应的运维系统。
2.一种宿主机容器自愈装置,其特征在于,包括:
接收单元,用于接收来自宿主机的容器重启信息和来自监控服务器的容器磁盘信息;所述容器重启信息和所述容器磁盘信息均包括容器标识;
第一判断单元,用于根据所述容器重启信息和所述容器磁盘信息判断异常类型;
自愈单元,用于根据所述异常类型修复所述容器标识对应的容器以完成自愈;
所述第一判断单元具体用于:
根据所述重启信息判断容器是否出现容器对象异常;
当所述容器未出现对象异常时,根据所述容器磁盘信息判断所述容器是否出现容器亚健康异常;
当所述容器未出现容器亚健康异常时,确定所述异常类型为应用异常;
所述容器对象异常包括容器内存溢出异常和容器健康检查异常;
所述自愈单元具体用于:
当所述异常类型为容器内存溢出异常时,调用扩容接口以扩展所述容器的内存容量;
当所述异常类型为应用异常或容器健康检查异常时,下线所述容器并发送报警信息至所述容器对应的运维系统;
所述宿主机容器自愈装置还包括:
第二判断单元,用于当所述异常类型为容器亚健康异常时,获取与所述容器位于同一宿主机上的容器的容器磁盘信息以判断与所述容器位于同一宿主机上的容器是否出现容器亚健康异常;
所述自愈单元还用于:当与所述容器位于同一宿主机上的容器均出现容器亚健康异常时,隔离所述宿主机并将所述宿主机上的全部容器漂移至集群中的其他宿主机,否则下线所述容器并发送报警信息至所述容器对应的运维系统。
3.一种计算机设备,包括存储器、处理器及存储在存储器上并在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1所述的宿主机容器自愈方法的步骤。
4.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1所述的宿主机容器自愈方法的步骤。
5.一种宿主机容器自愈系统,其特征在于,包括:
宿主机、监控服务器和宿主机容器自愈装置;
所述宿主机监听容器重启信息,上传所述容器重启信息至所述宿主机容器自愈装置;
所述监控服务器采集位于所述宿主机上的容器的容器磁盘信息,上传所述容器磁盘信息至所述宿主机容器自愈装置;
所述宿主机容器自愈装置接收所述容器重启信息和所述容器磁盘信息;所述容器重启信息和所述容器磁盘信息均包括容器标识;根据所述容器重启信息和所述容器磁盘信息判断异常类型;根据所述异常类型修复所述容器标识对应的容器以完成自愈;
所述宿主机容器自愈装置根据所述容器重启信息和所述容器磁盘信息判断异常类型包括:根据所述重启信息判断容器是否出现容器对象异常;当所述容器未出现对象异常时,根据所述容器磁盘信息判断所述容器是否出现容器亚健康异常;当所述容器未出现容器亚健康异常时,确定所述异常类型为应用异常;
所述容器对象异常包括容器内存溢出异常和容器健康检查异常;所述宿主机容器自愈装置根据所述异常类型修复所述容器标识对应的容器以完成自愈包括:当所述异常类型为容器内存溢出异常时,调用扩容接口以扩展所述容器的内存容量;当所述异常类型为应用异常或容器健康检查异常时,下线所述容器并发送报警信息至所述容器对应的运维系统;
所述宿主机容器自愈装置还用于:当所述异常类型为容器亚健康异常时,获取与所述容器位于同一宿主机上的容器的容器磁盘信息以判断与所述容器位于同一宿主机上的容器是否出现容器亚健康异常;所述宿主机容器自愈装置根据所述异常类型修复所述容器标识对应的容器以完成自愈还包括:当与所述容器位于同一宿主机上的容器均出现容器亚健康异常时,隔离所述宿主机并将所述宿主机上的全部容器漂移至集群中的其他宿主机,否则下线所述容器并发送报警信息至所述容器对应的运维系统。
CN202010611315.5A 2020-06-30 2020-06-30 宿主机容器自愈方法、装置及系统 Active CN111796959B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010611315.5A CN111796959B (zh) 2020-06-30 2020-06-30 宿主机容器自愈方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010611315.5A CN111796959B (zh) 2020-06-30 2020-06-30 宿主机容器自愈方法、装置及系统

Publications (2)

Publication Number Publication Date
CN111796959A CN111796959A (zh) 2020-10-20
CN111796959B true CN111796959B (zh) 2023-08-08

Family

ID=72811423

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010611315.5A Active CN111796959B (zh) 2020-06-30 2020-06-30 宿主机容器自愈方法、装置及系统

Country Status (1)

Country Link
CN (1) CN111796959B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112328372A (zh) * 2020-11-27 2021-02-05 新华智云科技有限公司 一种kubernetes节点自愈方法和系统
CN113590370B (zh) * 2021-08-06 2022-06-21 北京百度网讯科技有限公司 一种故障处理方法、装置、设备及存储介质
CN113835837B (zh) * 2021-09-26 2023-08-11 亿咖通(湖北)技术有限公司 基于容器系统的恢复出厂设置方法、装置及电子设备
CN114064413B (zh) * 2021-11-24 2023-06-16 深圳前海微众银行股份有限公司 容器组调控方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103167004A (zh) * 2011-12-15 2013-06-19 中国移动通信集团上海有限公司 云平台主机系统故障修复方法及云平台前端控制服务器
CN107179957A (zh) * 2016-03-10 2017-09-19 阿里巴巴集团控股有限公司 物理机故障分类处理方法、装置和虚拟机恢复方法、系统
CN110262917A (zh) * 2019-05-15 2019-09-20 平安科技(深圳)有限公司 宿主机自愈方法、装置、计算机设备及存储介质
CN110430071A (zh) * 2019-07-19 2019-11-08 云南电网有限责任公司信息中心 业务节点故障自愈方法、装置、计算机设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108432219B (zh) * 2016-10-25 2020-09-11 华为技术有限公司 终端设备开机失败的恢复方法和终端设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103167004A (zh) * 2011-12-15 2013-06-19 中国移动通信集团上海有限公司 云平台主机系统故障修复方法及云平台前端控制服务器
CN107179957A (zh) * 2016-03-10 2017-09-19 阿里巴巴集团控股有限公司 物理机故障分类处理方法、装置和虚拟机恢复方法、系统
CN110262917A (zh) * 2019-05-15 2019-09-20 平安科技(深圳)有限公司 宿主机自愈方法、装置、计算机设备及存储介质
CN110430071A (zh) * 2019-07-19 2019-11-08 云南电网有限责任公司信息中心 业务节点故障自愈方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN111796959A (zh) 2020-10-20

Similar Documents

Publication Publication Date Title
CN111796959B (zh) 宿主机容器自愈方法、装置及系统
US20180067795A1 (en) Systems and methods for automatic replacement and repair of communications network devices
JP6333410B2 (ja) 障害処理方法、関連装置、およびコンピュータ
CN110830283B (zh) 故障检测方法、装置、设备和系统
GB2505644A (en) Managing network configurations
CN111314115A (zh) 一种基于idl日志的告警方法、装置、设备及可读介质
US11438249B2 (en) Cluster management method, apparatus and system
CN111124722B (zh) 一种隔离故障内存的方法、设备及介质
CN111104238B (zh) 一种基于ce的内存诊断的方法、设备及介质
WO2017220013A1 (zh) 业务处理方法及装置、存储介质
CN111342986B (zh) 分布式节点管理方法及装置、分布式系统、存储介质
CN113626238B (zh) ctdb服务健康状态监控方法、系统、装置及存储介质
CN117251333A (zh) 一种硬盘信息获取方法、装置、设备及存储介质
CN110968456B (zh) 分布式存储系统中故障磁盘的处理方法及装置
TWI685740B (zh) 運用於資料中心的機櫃異常狀態的遠端排除方法(一)
RU2710288C1 (ru) Способ удаленного сброса ненормального состояния стоек, применяемых в дата-центре
CN109144788B (zh) 一种重建osd的方法、装置及系统
CN111416721A (zh) 运用于数据中心的机柜异常状态的远端排除方法
CN111414274A (zh) 运用于数据中心的机柜异常状态的远端排除方法
TWI685736B (zh) 運用於資料中心的機櫃異常狀態的遠端排除方法(二)
RU2709677C1 (ru) Способ удаленного сброса ненормального состояния стоек, применяемых в дата-центре
CN117421177A (zh) 服务器运行状态的监控方法及装置
CN109039785B (zh) 基于SNMP的Trap告警恢复方法和装置
RU2711469C1 (ru) Способ удаленного сброса ненормального состояния стоек, применяемых в дата-центре
CN116962906A (zh) 故障处理方法、基带板、主控板、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant