CN112328372A - 一种kubernetes节点自愈方法和系统 - Google Patents

一种kubernetes节点自愈方法和系统 Download PDF

Info

Publication number
CN112328372A
CN112328372A CN202011363102.1A CN202011363102A CN112328372A CN 112328372 A CN112328372 A CN 112328372A CN 202011363102 A CN202011363102 A CN 202011363102A CN 112328372 A CN112328372 A CN 112328372A
Authority
CN
China
Prior art keywords
node
fault
pod
service
self
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011363102.1A
Other languages
English (en)
Inventor
王绍楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinhua Zhiyun Technology Co ltd
Original Assignee
Xinhua Zhiyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinhua Zhiyun Technology Co ltd filed Critical Xinhua Zhiyun Technology Co ltd
Priority to CN202011363102.1A priority Critical patent/CN112328372A/zh
Publication of CN112328372A publication Critical patent/CN112328372A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45575Starting, stopping, suspending or resuming virtual machine instances
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45591Monitoring or debugging support

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种kubernetes节点自愈方法和系统,所述方法包括:建立控制平面中的节点自愈控制器,建立数据平面内的监控代理,所述监控代理和节点自愈控制器通讯连接;监控代理识别故障节点ID并分析节点故障原因,建立故障数据;所述监控代理将所述故障节点ID和故障数据上传至节点自愈控制器;根据故障数据建立新节点,根据故障原因将故障节点的业务POD调度到新节点或正常节点;对于由业务POD故障引起的节点故障,将业务故障POD调度到所述新建立的节点;对于由非业务故障POD引起的节点故障,将故障节点删除,让故障节点上的业务POD调度到正常的节点。通过对两类故障节点原因的识别和不同的处理方式,可有效地避免正常业务POD受到业务故障POD的影响。

Description

一种kubernetes节点自愈方法和系统
技术领域
本发明涉及一种计算机领域,特别涉及一种kubernetes节点自愈方法和系统。
背景技术
Kubernetes简称k8s,是容器化微服务的重要工具,现有技术中采用namespace和cgroup技术对多个容器的资源进行隔离和限制,然而容器中采用cgroup技术并没有完全隔离所有的资源,比如在某些容器中使用大量的buffer IO(缓冲输入输出)或者inode(索引节点)时,容易导致容器宿主机的其他容器无法正常运行,可能会导致宿主机出现故障或崩溃。目前对于该问题的处理方式主要是通过删除故障节点或恢复故障节点的方式,但该处理方法时间较长,并且在节点业务转移的过程中将故障业务迁移到正常节点,影响正常节点的业务容器,容易发生故障蔓延的现象。
发明内容
本发明其中一个发明目的在于提供一种kubernetes节点自愈方法和系统,所述方法和系统通过建立新的节点,将部分故障POD调度到新节点上,可保障正常运行的节点不受影响,可提高系统的鲁棒性。
本发明另一个发明目的在于提供一种kubernetes节点自愈方法和系统,所述方法和系统在系统的数据平面建立监控代理,用于定时监控系统的控制平面中的节点自愈控制器,由于监控代理和节点自愈控制器分别位于不同平面,因此对故障节点故障原因的上传和节点自身的自愈相互之间无影响,提高故障节点的处理效率和质量。
本发明另一个发明目的在于提供一种kubernetes节点自愈方法和系统,所述的节点自愈控制器对故障节点建立故障处理队列,通过监控代理获取每一故障节点的故障原因,分别对不同故障原因的节点进行区分化处理,区分化处理包括删除节点、恢复节点和迁移故障节点POD,因此在提高故障节点处理效率的基础上提高节点处理的质量。
本发明另一个发明目的在于提供一种kubernetes节点自愈方法和系统,所述的节点自愈控制器通过k8s master将故障节点的原因分类为由业务POD故障引起和由非业务故障POD引起。对于由业务POD故障引起的节点故障,将业务故障POD驱逐到新建立的节点上,对于由非业务故障POD引起的节点故障,删除非业务故障POD,通过对两类故障节点原因的识别和不同的处理方式,可有效地避免正常POD受到业务故障POD的影响。
为了实现至少一个上述发明目的,本发明进一步提供一种kubernetes节点自愈方法,包括:
建立控制平面中的节点自愈控制器,建立数据平面内的监控代理,所述监控代理和节点自愈控制器通讯连接;
监控代理识别故障节点ID并分析节点故障原因,建立故障数据;
所述监控代理将所述故障节点ID和故障数据上传至节点自愈控制器;
节点自愈控制器根据故障数据建立新节点,根据故障原因将故障节点的业务POD调度到新节点或正常节点。
根据本发明其中一个较佳实施例,所述监控代理分析故障数据,其中所述监控代理根据故障原因将所述故障数据分类为业务POD故障和非业务POD故障,所述节点自愈控制器通过k8s master控制所述故障节点自愈。
根据本发明其中一个较佳实施例,所述节点自愈控制器通过k8s master获取故障节点ID后建立故障处理队列,定时查询故障处理队列,若所述故障处理队列存在故障节点,则通过所述节点自愈控制器处理队列中的故障节点。
根据本发明其中一个较佳实施例,当所述节点自愈控制器通过k8s master处理完故障节点后,判断该节点是否可用,若不可用,则分析判断该故障节点的故障原因,若故障原因为业务POD故障,则调用节点扩容接口或通过节点扩容脚本生成新节点。
根据本发明其中一个较佳实施例,设置第一时间阈值,若分析判断原因为非业务POD故障,则进一步判断所述节点故障时间是否超过所述第一时间阈值,若是,则删除该故障节点,并将该故障节点的业务故障POD调度至正常节点。
根据本发明其中一个较佳实施例,所述k8s master包括apiserver和client sdk,节点自愈控制器通过client sdk调用启动完成的apiserver处理所述故障节点。
根据本发明其中一个较佳实施例,生成新节点后,根据所述业务故障POD所需的资源设置业务故障POD调度方法,根据所述调度方法将故障节点中的业务故障POD调度至新节点。
根据本发明其中一个较佳实施例,所述业务故障POD调度方法包括:获取当前故障节点ID,并获取故障节点的业务故障POD,驱逐故障节点业务POD,并将业务故障POD调度到所述新节点。
根据本发明其中一个较佳实施例,所述业务故障POD的识别方法包括:
获取故障节点的资源信息;
分析业务POD是否处于包括高并发异常、资源受限制、资源泄露、代码bug原因中的至少一种;
若所述业务POD处于上升故障原因,则判断所述业务POD为业务故障POD。
根据本发明其中一个较佳实施例,所述节点自愈控制器和监控代理之间通过http/https协议建立通讯连接。
为了实现至少一个上述发明目的,本发明进一步提供一种kubernetes节点自愈系统,包括:
监控代理;
节点自愈控制器;
k8s集群;
其中所述监控代理被配于系统的数据平面,所述节点自愈控制器配置于系统的控制平面,所述k8s集群包含k8s master,用于承载业务POD运行,管理POD的调度策略和生命周期,所述监控代理监控每一k8s集群中的节点,并分析节点的故障类型,所述节点自愈控制器通过k8s master将所述故障节点的业务POD调度到正常节点或新节点。
附图说明
图1显示的是本发明一种kubernetes节点自愈方法的流程示意图;
图2显示的是本发明一种kubernetes节点自愈方法中数据平面监控代理监控k8s节点并分析故障pod的示意图;
图3显示的是本发明一种kubernetes节点自愈方法中控制平面节点自愈控制器处理故障节点并使节点自愈流程示意图;
图4显示的是本发明一种kubernetes节点自愈系统的模块示意图。
具体实施方式
以下描述用于揭露本发明以使本领域技术人员能够实现本发明。以下描述中的优选实施例只作为举例,本领域技术人员可以想到其他显而易见的变型。在以下描述中界定的本发明的基本原理可以应用于其他实施方案、变形方案、改进方案、等同方案以及没有背离本发明的精神和范围的其他技术方案。
本领域技术人员应理解的是,在本发明的揭露中,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系是基于附图所示的方位或位置关系,其仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此上述术语不能理解为对本发明的限制。
可以理解的是,术语“一”应理解为“至少一”或“一个或多个”,即在一个实施例中,一个元件的数量可以为一个,而在另外的实施例中,该元件的数量可以为多个,术语“一”不能理解为对数量的限制。
请参考图1显示的一种kubernetes节点自愈方法的流程示意图。首先在k8s集群中建立监控代理和节点自愈控制器,所述监控代理位于所述k8s集群的数据平面,所述节点自愈控制器建立在所述k8s集群的控制平面,所述监控代理用于监控每一节点状态,并将该节点状态上传至所述节点自愈控制器,所述节点自愈控制器将根据上传的节点状态启动自愈功能。
具体的,所述节点状态包括节点资源、节点负载、节点流量等状态,所述监控代理监控每一节点资源,根据节点资源分析节点状态,分析内容包括节点资源、节点负载和节点流量状态,进一步根据上述分析结果将所述节点状态分为故障节点和正常节点,并分析所述故障节点的故障原因,形成故障数据。其中所述监控代理获取故障节点的ID信息,将所述故障节点ID和故障数据上传至所述节点自愈控制器,所述节点自愈控制器启动所述k8s集群中的k8s master处理该故障节点,其中所述k8s master内具有client sdk,通过所述client sdk调用apiserver以处理所述故障节点。当其中一个节点资源完成监控和故障处理后继续监控下一个节点资源,直到所有资源都完成监控则本次监控完成。
其中所述故障节点的处理过程包括如下步骤:获取节点故障信息后,判断该节点的故障原因,所述故障原因包括:业务故障POD和非业务故障POD。非业务故障POD往往为不明原因的故障,所述节点自愈控制器在获取监控代理上传的故障ID后通过节点自愈控制器通过k8s master中的client sdk调用启动完成的apiserver用于所述非业务故障POD自愈,其中所述自愈操作包括但不仅限于对新增节点、删除节点和调度业务POD等。在本发明其中一个较佳实施例中,当所述故障节点在k8s master提供的的自愈操作下仍然无法完成节点的自愈时,进一步执行如下操作:监控出现故障的非业务POD宕机时间,根据预设的第一时间阈值和所述宕机时间对比,若所述宕机时间大于所述第一时间阈值,则通过所述k8smaster自动删除该出现故障的非业务POD对应的节点。
值得一提的是,所述业务故障POD原因包括:POD资源不足,业务高并发异常,资源受到系统限制、资源泄露和代码bug等原因,所述节点自愈控制器获取所述监控代理上传的业务故障POD数据后,分析判断后若存在至少一个上述业务故障POD原因,获取业务故障POD对应的节点ID,同时计算业务故障POD对应节点数目,通过k8s master调用节点扩容接口根据所述业务故障POD对应节点数目部署生成新节点。在本发明另一较佳实施例中,可设置节点扩容脚本,运行基础部署环境后,所述节点扩容脚本在部署的环境中通过kubeadm工具加入合适数目的新节点,其中所述节点扩容接口可以是外部IAAS服务商提供的接口。
进一步的,所述监控代理建立故障处理队列,并且对k8s集群中的节点执行间隔固定时间的监控查询,当存在故障节点后将该故障节点放置于故障处理队列中,依次将故障处理队列中的故障节点采用k8s master进行自愈,当所述监控代理监控到故障处理队列中的故障节点为零时,本次定时监控完毕。若存在故障节点,则可通过监控故障节点的资源判断是否是业务故障POD节点,若存在业务故障POD节点,则通过k8s master预设的控制规则将该业务节点调度到新生成的节点。
具体的,当所述故障队列中的节点是业务故障POD节点,则所述k8s master调用节点扩容接口生成新节点,将所述业务故障POD驱逐到新节点中。具体的,在所述新节点根据所述业务故障节点需要的资源部署CUP、内存、网络、磁盘等资源。分析每一业务故障POD节点对应的资源以及每一业务故障POD资源,进一步可分析业务POD的优先级,根据预设的优先级规则将业务故障POD调度到新生成的节点中,需要说明的是,所述调度规则包括分析新生成节点可用资源,对比业务故障POD需要的资源,两则相对比,若资源相近或新节点中资源大于所述业务故障POD资源,则可将所述业务故障POD调度到该新生成的节点中,在本发明另一较佳实施例中,若多个所述业务故障节点POD资源仍然小于单个新生成的节点所拥有的资源,则可将多个业务故障POD部署到该新生成的节点中。若业务故障POD需要指定资源或指定位置的节点,则在部署调度规则时,可手动输入调度方案。
当完成所述业务故障POD的调度到新节点后,业务故障POD独享新节点,因此即使业务故障POD还存在相应的故障,也不会影响原来正常节点的运行,相对于传统的故障节点处理方法,本发明采用区分化的故障节点处理方法使得节点故障对系统的影响大幅减小,不会出现故障转移获故障蔓延现象,可提高系统运行的鲁棒性。
所述监控代理和所述节点自愈器自身之间采用http/https协议通讯连接,所述监控代理在获取每一节点ID和对应的故障数据时,将节点ID和故障数据打包成浏览器页面请求数据包的形成发送给所述节点自愈控制器,所述节点自愈控制器接收该请求数据包后同步处理故障节点。所述代理监控实时监控节点的负载状况或所述代理监控通过监控程序获取异常资源,用于判断故障节点的故障类型,进一步执行本发明上述的故障节点处理方法。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线段、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线段的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线段、电线段、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域的技术人员应理解,上述描述及附图中所示的本发明的实施例只作为举例而并不限制本发明,本发明的目的已经完整并有效地实现,本发明的功能及结构原理已在实施例中展示和说明,在没有背离所述原理下,本发明的实施方式可以有任何变形或修改。

Claims (11)

1.一种kubernetes节点自愈方法,其特征在于,包括:
建立控制平面中的节点自愈控制器,建立数据平面内的监控代理,所述监控代理和节点自愈控制器通讯连接;
监控代理识别故障节点ID并分析节点故障原因,建立故障数据;
所述监控代理将所述故障节点ID和故障数据上传至节点自愈控制器;
根据故障数据建立新节点,根据故障原因将故障节点的业务POD调度到新节点或正常节点。
2.根据权利要求1所述的一种kubernetes节点自愈方法,其特征在于,所述监控代理分析故障数据,其中所述监控代理根据故障原因将所述故障数据分类为业务POD故障和非业务POD故障,所述节点自愈控制器通过k8s master控制所述故障节点自愈。
3.根据权利要求2所述的一种kubernetes节点自愈方法,其特征在于,所述节点自愈控制器通过k8s master获取故障节点ID后建立故障处理队列,定时查询故障处理队列,若所述故障处理队列存在故障节点,则通过所述节点自愈控制器处理队列中的故障节点。
4.根据权利要求2所述的一种kubernetes节点自愈方法,其特征在于,当所述节点自愈控制器通过k8s master处理完故障节点后,判断该节点是否可用,若不可用,则分析判断该故障节点的故障原因,若故障原因为业务POD故障,则调用节点扩容接口或通过节点扩容脚本生成新节点。
5.根据权利要求2所述的一种kubernetes节点自愈方法,其特征在于,设置第一时间阈值,若分析判断原因为非业务POD故障,则进一步判断所述节点故障时间是否超过所述第一时间阈值,若是,则删除该故障节点,并将该故障节点的业务故障POD调度至正常节点。
6.根据权利要求2所述的一种kubernetes节点自愈方法,其特征在于,所述k8s master包括apiserver和client sdk,节点自愈控制器通过client sdk调用启动完成的apiserver处理所述故障节点。
7.根据权利要求4所述的一种kubernetes节点自愈方法,其特征在于,生成新节点后,根据业务故障POD所需的资源设置业务故障POD调度方法,根据所述调度方法将故障节点中的业务故障POD调度至新节点。
8.根据权利要求7所述的一种kubernetes节点自愈方法,其特征在于,所述业务故障POD调度方法包括:获取当前故障节点ID,并获取故障节点的业务故障POD,驱逐故障节点业务POD,并将业务故障POD调度到所述新节点。
9.根据权利要求1所述的一种kubernetes节点自愈方法,其特征在于,所述业务故障POD的识别方法包括:
获取故障节点的资源信息;
分析业务POD是否处于包括高并发异常、资源受限制、资源泄露、代码bug故障原因中的至少一种;
若所述业务POD处于上述故障原因,则判断所述业务POD为业务故障POD。
10.根据权利要求1所述的一种kubernetes节点自愈方法,其特征在于,所述节点自愈控制器和监控代理之间通过http/https协议建立通讯连接。
11.一种kubernetes节点自愈系统,其特征在于,包括:
监控代理;
节点自愈控制器;
k8s集群;
其中所述监控代理被配于系统的数据平面,所述节点自愈控制器配置于系统的控制平面,所述k8s集群包含k8s master,用于承载业务POD运行,管理POD的调度策略和生命周期,所述监控代理监控每一k8s集群中的节点,并分析节点的故障类型,所述节点自愈控制器通过k8s master将所述故障节点的业务故障POD调度到新节点。
CN202011363102.1A 2020-11-27 2020-11-27 一种kubernetes节点自愈方法和系统 Pending CN112328372A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011363102.1A CN112328372A (zh) 2020-11-27 2020-11-27 一种kubernetes节点自愈方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011363102.1A CN112328372A (zh) 2020-11-27 2020-11-27 一种kubernetes节点自愈方法和系统

Publications (1)

Publication Number Publication Date
CN112328372A true CN112328372A (zh) 2021-02-05

Family

ID=74308336

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011363102.1A Pending CN112328372A (zh) 2020-11-27 2020-11-27 一种kubernetes节点自愈方法和系统

Country Status (1)

Country Link
CN (1) CN112328372A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113285836A (zh) * 2021-05-27 2021-08-20 中国人民解放军陆军工程大学 一种基于微服务实时迁移的软件系统韧性增强系统及方法
CN113778628A (zh) * 2021-09-14 2021-12-10 新华智云科技有限公司 边缘节点管控方法及系统
CN115396291A (zh) * 2022-08-23 2022-11-25 度小满科技(北京)有限公司 一种基于kubernetes托管的redis集群故障自愈方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106933662A (zh) * 2017-03-03 2017-07-07 广东神马搜索科技有限公司 分布式系统及其调度方法和调度装置
CN108989132A (zh) * 2018-08-24 2018-12-11 深圳前海微众银行股份有限公司 故障告警处理方法、系统及计算机可读存储介质
CN109885389A (zh) * 2019-02-19 2019-06-14 山东浪潮云信息技术有限公司 一种基于容器的并行深度学习调度训练方法及系统
CN110430071A (zh) * 2019-07-19 2019-11-08 云南电网有限责任公司信息中心 业务节点故障自愈方法、装置、计算机设备及存储介质
CN110519086A (zh) * 2019-08-08 2019-11-29 苏州浪潮智能科技有限公司 一种基于ctdb的快速恢复存储集群nas业务的方法和装置
CN110704231A (zh) * 2019-09-30 2020-01-17 深圳前海微众银行股份有限公司 一种故障处理方法及装置
CN110764915A (zh) * 2019-10-29 2020-02-07 西安邮电大学 一种针对kubernetes主节点选择的优化方法
US20200136943A1 (en) * 2019-12-27 2020-04-30 Intel Corporation Storage management in a data management platform for cloud-native workloads
US20200259746A1 (en) * 2019-02-07 2020-08-13 Cisco Technology, Inc. Preventing damage to flows in an sdn fabric by predicting failures using machine learning
CN111679888A (zh) * 2020-06-04 2020-09-18 深圳前海微众银行股份有限公司 一种代理容器的部署方法及装置
CN111752759A (zh) * 2020-06-30 2020-10-09 重庆紫光华山智安科技有限公司 Kafka集群故障恢复方法、装置、设备及介质
CN111796959A (zh) * 2020-06-30 2020-10-20 中国工商银行股份有限公司 宿主机容器自愈方法、装置及系统
CN111966558A (zh) * 2020-06-29 2020-11-20 北京百度网讯科技有限公司 集群的资源监控方法、装置、集群、设备和介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106933662A (zh) * 2017-03-03 2017-07-07 广东神马搜索科技有限公司 分布式系统及其调度方法和调度装置
CN108989132A (zh) * 2018-08-24 2018-12-11 深圳前海微众银行股份有限公司 故障告警处理方法、系统及计算机可读存储介质
US20200259746A1 (en) * 2019-02-07 2020-08-13 Cisco Technology, Inc. Preventing damage to flows in an sdn fabric by predicting failures using machine learning
CN109885389A (zh) * 2019-02-19 2019-06-14 山东浪潮云信息技术有限公司 一种基于容器的并行深度学习调度训练方法及系统
CN110430071A (zh) * 2019-07-19 2019-11-08 云南电网有限责任公司信息中心 业务节点故障自愈方法、装置、计算机设备及存储介质
CN110519086A (zh) * 2019-08-08 2019-11-29 苏州浪潮智能科技有限公司 一种基于ctdb的快速恢复存储集群nas业务的方法和装置
CN110704231A (zh) * 2019-09-30 2020-01-17 深圳前海微众银行股份有限公司 一种故障处理方法及装置
CN110764915A (zh) * 2019-10-29 2020-02-07 西安邮电大学 一种针对kubernetes主节点选择的优化方法
US20200136943A1 (en) * 2019-12-27 2020-04-30 Intel Corporation Storage management in a data management platform for cloud-native workloads
CN111679888A (zh) * 2020-06-04 2020-09-18 深圳前海微众银行股份有限公司 一种代理容器的部署方法及装置
CN111966558A (zh) * 2020-06-29 2020-11-20 北京百度网讯科技有限公司 集群的资源监控方法、装置、集群、设备和介质
CN111752759A (zh) * 2020-06-30 2020-10-09 重庆紫光华山智安科技有限公司 Kafka集群故障恢复方法、装置、设备及介质
CN111796959A (zh) * 2020-06-30 2020-10-20 中国工商银行股份有限公司 宿主机容器自愈方法、装置及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
魏新宇 等: "《Kubernetes权威指南:从Docker到Kubernetes实践全接触》", vol. 1, 30 June 2020, 机械工业出版社, pages: 359 - 364 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113285836A (zh) * 2021-05-27 2021-08-20 中国人民解放军陆军工程大学 一种基于微服务实时迁移的软件系统韧性增强系统及方法
CN113285836B (zh) * 2021-05-27 2022-05-10 中国人民解放军陆军工程大学 一种基于微服务实时迁移的软件系统韧性增强系统及方法
CN113778628A (zh) * 2021-09-14 2021-12-10 新华智云科技有限公司 边缘节点管控方法及系统
CN113778628B (zh) * 2021-09-14 2023-09-05 新华智云科技有限公司 边缘节点管控方法及系统
CN115396291A (zh) * 2022-08-23 2022-11-25 度小满科技(北京)有限公司 一种基于kubernetes托管的redis集群故障自愈方法

Similar Documents

Publication Publication Date Title
CN112328372A (zh) 一种kubernetes节点自愈方法和系统
US10152382B2 (en) Method and system for monitoring virtual machine cluster
EP3418921B1 (en) Dynamic migration script management
CN107016480B (zh) 任务调度方法、装置及系统
CN110196836B (zh) 一种数据存储方法及装置
CN111416821A (zh) 物联网设备信息采集方法、系统和装置
CN110457176B (zh) 用于分布式系统的监控方法、装置、存储介质及电子设备
CN104657212A (zh) 一种任务调度的方法及系统
CN105760240A (zh) 分布式任务处理方法及装置
CN108089915B (zh) 基于消息队列的业务控件化处理的方法及系统
CN107870948A (zh) 任务调度方法和装置
CN102479113A (zh) 异常自适应处理方法及系统
CN113312161A (zh) 一种应用调度方法、平台及存储介质
CN112286664B (zh) 任务调度方法、装置、计算机设备及可读存储介质
CN115002013A (zh) 运行状态的确定方法、装置、存储介质及电子装置
CN111506388B (zh) 容器性能探测方法、容器管理平台及计算机存储介质
CN114595075A (zh) 一种基于分布式调度的网络编排中异步任务执行方法
CN111767126A (zh) 分布式批量处理的系统和方法
CN116319758A (zh) 数据迁移方法、装置、电子设备及可读存储介质
CN103034545A (zh) 基于ace的通信框架和方法、及功能模块间的通信方法
CN108154343B (zh) 一种企业级信息系统的应急处理方法及系统
CN113746924B (zh) 一种电网业务数据跨区传输方法及装置
CN109947798A (zh) 一种流事件的处理方法及装置
CN114816866A (zh) 故障处理方法、装置、电子设备和存储介质
CN111064636B (zh) 前置机连接的控制方法、装置、系统、计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210205