CN108521339B - 一种基于集群日志的反馈式节点故障处理方法及系统 - Google Patents

一种基于集群日志的反馈式节点故障处理方法及系统 Download PDF

Info

Publication number
CN108521339B
CN108521339B CN201810204291.4A CN201810204291A CN108521339B CN 108521339 B CN108521339 B CN 108521339B CN 201810204291 A CN201810204291 A CN 201810204291A CN 108521339 B CN108521339 B CN 108521339B
Authority
CN
China
Prior art keywords
fault
node
log
processing
script
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810204291.4A
Other languages
English (en)
Other versions
CN108521339A (zh
Inventor
黄焰文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vcmy Guangzhou Technology Shares Co ltd
Original Assignee
Vcmy Guangzhou Technology Shares Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vcmy Guangzhou Technology Shares Co ltd filed Critical Vcmy Guangzhou Technology Shares Co ltd
Priority to CN201810204291.4A priority Critical patent/CN108521339B/zh
Publication of CN108521339A publication Critical patent/CN108521339A/zh
Application granted granted Critical
Publication of CN108521339B publication Critical patent/CN108521339B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Abstract

本发明提供了一种基于集群日志的反馈式节点故障处理方法及系统,属于通信技术领域,该处理方法包括:日志收集、处理、存储和故障判断及执行;该处理系统包括:日志收集子系统和故障判断&处理子系统,日志收集子系统由安装在节点上的日志收集探针、日志汇集器和日志储存模块三部分组成,故障判断&处理子系统由故障判断模块、故障处理脚本仓库和故障处理执行模块三部分组成。该方法及系统能够自动完成故障节点甄别、故障原因收集、故障分析、故障处理策略制定并对接kubernetes管理API,完成故障节点的重新纳管或打上详细故障标记。

Description

一种基于集群日志的反馈式节点故障处理方法及系统
技术领域
本发明属于通信技术领域,具体涉及一种基于集群日志的反馈式节点故障处理方法及系统。
背景技术
在kubernetes容器云集群中,往往会有几十甚至几百个节点,节点在使用过程中由于人为误操作、硬件故障、软件bug等种种因素,导致节点故障不可用,无法向上提供容器资源服务。对于批量多节点集群,大多数故障往往是可重现、甚至是在不同节点上重复出现的,而在kubernetes集群中,对于无法调度的节点,默认标志为not_ready,但不会对故障进行处理,即使节点可能只是一个简单的进程关闭(人为或其他因素)等小故障,也不能完成自动处理和恢复。
传统上,对于kubernetes集群节点故障往往会有如下两种处理方式:
工程师查看kubernetes管理平台(dashboard),发现某节点not ready,工程师远程登录节点查看日志定位问题,手动恢复故障节点并在kubernetes集群中重新加入节点(手动命令行)。
通过监控软件获取整个集群的节点日志信息,若发现有节点故障,远程登录节点定位问题,恢复故障节点并在kubernetes集群中重新加入节点(手动命令行)。
两种方式均无法完成从故障节点的甄别、定位、故障处理、及在kubernetes重新纳管整个环节的自动化,具体为:
对于方法一,kubernetes集群管理工具dashboard或者其自身的API可查询集群内节点情况,但只能知道节点是否可调度,无法得知节点的具体故障信息,若不可调度则工程师登录该节点故障定位,并重新将节点加入到kubernetes集群中。
对于方法二,通过监控软件(扫描系统硬件、操作系统、及进程等)如zabbix等实时获取节点的信息,发现故障节点,则由工程师登录该节点处理故障,处理后重新将节点纳入到kubernetes集群。这种方式仅仅了故障信息收集,但无法完成故障的自动处理及节点的重新纳管。
因此,有必要提出针对kubernetes容器云节点故障自动处理的方法,能够自动完成故障节点甄别、故障原因收集、故障分析、故障处理策略制定并对接kubernetes管理API,完成故障节点的重新纳管(或打上详细故障标记)。
发明内容
为了克服上述现有技术存在的不足,本发明提供了一种基于集群日志的反馈式节点故障处理方法及系统。
为了实现上述目的,本发明提供如下技术方案:
一种基于集群日志的反馈式节点故障处理方法,包括:
获取整个集群中每个节点的节点日志,收集、整理得出每个节点包含故障信息的日志,并将所述包含故障信息的日志进行储存,存储格式为时间戳+json格式;
根据收集到的所述包含故障信息的日志进行故障判断得到故障处理脚本;将所述故障处理脚本分发给故障节点执行,并获取故障节点脚本执行结果;根据所述故障节点脚本执行结果调用kubernetes集群API,若故障已恢复,则重新将节点加入集群,若故障无法恢复,将节点打上故障+故障类型+加故障原因的标签。
优选地,所述节点日志来源有2个:
c)/var/log目录日志;
d)获取kubelet组件监控指标,包括CPU利用率、内存利用率、网口带宽利用率、文件系统使用率、磁盘IO速率,并生成日志。
优选地,所述故障分为硬件故障、操作系统故障、kubernetes组件及docker组件故障,各故障分为高、中、低三个等级。
优选地,所述进行故障判断得到故障处理脚本的过程包括:
将收集到的日志与故障关键字进行匹配,根据匹配结果获得故障节点及故障原因,根据所述故障节点及故障原因生成故障判断报告;
获取所述故障判断报告,根据所述故障判断报告获得故障脚本索引信息;
根据所述故障脚本索引信息获取所述故障处理脚本。
本发明的另一目的在于提供一种基于集群日志的反馈式节点故障处理系统,包括日志收集子系统和故障判断&处理子系统;
所述日志收集子系统,用于获取整个集群中每个节点的节点日志,收集、整理得出每个节点包含故障信息的日志,并将所述包含故障信息的日志进行储存,存储格式为时间戳+json格式;
所述故障判断&处理子系统,用于根据收集到的所述包含故障信息的日志进行故障判断得到故障处理脚本;将所述故障处理脚本分发给故障节点执行,并获取故障节点脚本执行结果;根据所述故障节点脚本执行结果调用kubernetes集群API,若故障已恢复,则重新将节点加入集群,若故障无法恢复,将节点打上故障+故障类型+加故障原因的标签。
优选地,所述进行故障判断得到故障处理脚本的过程包括:
将收集到的日志与故障关键字匹配,获得故障节点及故障原因,根据所述故障节点及故障原因生成故障判断报告;
获取所述故障判断报告,根据所述故障判断报告获得故障脚本索引信息;
根据所述故障脚本索引信息获取所述故障处理脚本。
优选地,所述日志收集子系统由安装在节点上的日志收集探针、日志汇集器和日志储存模块三部分组成;
所述日志收集探针,用于收集各个节点上的节点日志,并定期通过UDP协议将所述节点日志发送到所述日志汇集器;
所述日志汇集器,用于整理、汇集整个集群的节点日志,并对外提供检索功能;
所述日志储存模块,用于格式化储存整个集群的所有节点日志,存储格式为时间戳+json格式;
所述故障判断&处理子系统由故障判断模块、故障处理脚本仓库和故障处理执行模块三部分组成;
所述故障判断模块,用于根据日志内容对故障进行分类,并将收集到的日志与故障关键字匹配,获得故障节点及故障原因,根据所述故障节点及故障原因生成故障判断报告;
所述故障处理脚本仓库,用于分类储存故障处理脚本;
所述故障处理执行模块,用于从所述故障处理脚本仓库中搜索并获取故障处理脚本,将所述故障处理脚本分发给故障节点执行,同时收集执行结果。
优选地,所述节点日志来源有2个:
c)/var/log目录日志;
d)获取kubelet组件监控指标,包括CPU利用率、内存利用率、网口带宽利用率、文件系统使用率、磁盘IO速率,并生成日志。
优选地,所述故障判断模块将故障分为硬件故障、操作系统故障、kubernetes组件及docker组件故障,各故障分为高、中、低三个等级。
本发明提供的基于集群日志的反馈式节点故障处理方法及系统,该方法包括:获取整个集群中每个节点的节点日志,收集、整理得出每个节点包含故障信息的日志,并将所述包含故障信息的日志进行储存,存储格式为时间戳+json格式;根据收集到的所述包含故障信息的日志进行故障判断得到故障处理脚本;将所述故障处理脚本分发给故障节点执行,并获取故障节点脚本执行结果;根据所述故障节点脚本执行结果调用kubernetes集群API,若故障已恢复,则重新将节点加入集群,若故障无法恢复,将节点打上故障+故障类型+加故障原因的标签;该方法能够自动完成故障原因收集、故障定位、故障处理、故障处理结果收集整个环节,对于kubernetes容器云大集群多节点常见的重复性故障批量处理有很大的帮助;能够快速感知kubernetes整个集群各个节点的的故障信息(硬件、操作系统、kubernetes组件等),并以此为基础快速定位故障,并通过自有的脚本处理仓库获取脚本处理下发故障节点执行,最后能够通过kubernetes管理平台或API自动完成故障节点的重新纳管或详细标识,对于常见重复性故障,整个故障处理环节实现全自动,无需人为干预。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于集群日志的反馈式节点故障处理方法流程示意图;
图2为本发明实施例提供的进行故障判断得到故障处理脚本的流程图;
图3为本发明实施例提供的的一种基于集群日志的反馈式节点故障处理系统的结构框图;
图4为本发明实施例1提供的一种基于集群日志的反馈式节点故障处理方法流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种基于集群日志的反馈式节点故障处理方法和系统,该方法和系统主要针对kubernetes容器云,Kubernetes是Google开源的容器集群管理系统,其提供应用部署、维护、扩展机制等功能,利用Kubernetes能方便地管理跨机器运行容器化的应用,因此对其节点故障进行有效处理可极大的优化运行效率。
图1为本发明实施例提供的一种基于集群日志的反馈式节点故障处理方法流程示意图,该方法包括以下步骤:
步骤101:获取整个集群中每个节点的节点日志,收集、整理得出每个节点包含故障信息的日志,并将包含故障信息的日志进行储存,存储格式为时间戳+json格式;
步骤102:根据收集到的包含故障信息的日志进行故障判断得到故障处理脚本;将故障处理脚本分发给故障节点执行,并获取故障节点脚本执行结果;根据故障节点脚本执行结果调用kubernetes集群API,若故障已恢复,则重新将节点加入集群,若故障无法恢复,将节点打上故障+故障类型+加故障原因的标签。
在步骤101中,节点日志来源有2个:
a)/var/log目录日志,/var/log/目录之下包含了整体系统信息、内核缓冲信息、系统授权信息、系统启动时的日志、各种系统后台守护进程日志信息、所以等级用户信息的日志等多个日志;
b)获取kubelet组件监控指标,包括CPU利用率、内存利用率、网口带宽利用率、文件系统使用率、磁盘IO速率,并生成日志。
在步骤步骤102中,本实施例将故障分为硬件故障(磁盘损坏、内存损坏等)、操作系统故障(内存溢出、文件系统损坏、驱动损坏等)、kubernetes组件及docker组件故障(进程崩溃、配置文件缺失等),各故障分为高、中、低三个等级,根据故障等级判断故障是否可以恢复,进而判断是否重新将节点加入集群。
图2为本发明实施例提供的进行故障判断得到故障处理脚本的流程图,包括以下步骤:
步骤201:将收集到的日志与故障关键字进行匹配,根据匹配结果获得故障节点及故障原因,根据所述故障节点及故障原因生成故障判断报告;
步骤202:获取所述故障判断报告,根据所述故障判断报告获得故障脚本索引信息;
步骤203:根据所述故障脚本索引信息获取所述故障处理脚本。
基于同一发明构思,本发明实施例提供了一种基于集群日志的反馈式节点故障处理系统,由于该系统解决技术问题的原理与一种基于集群日志的反馈式节点故障处理系方法相似,因此该系统的实施可以参见方法的实施,重复之处不再赘述。
图3为本发明实施例提供的一种基于集群日志的反馈式节点故障处理系统的结构框图,如图3所示,该系统主要包括日志收集子系统1和故障判断&处理子系统2;
日志收集子系统1,用于获取整个集群中每个节点的节点日志,收集、整理得出每个节点包含故障信息的日志,并将所述包含故障信息的日志进行储存,存储格式为时间戳+json格式;
故障判断&处理子系统2,用于根据收集到的所述包含故障信息的日志进行故障判断得到故障处理脚本;将所述故障处理脚本分发给故障节点执行,并获取故障节点脚本执行结果;根据所述故障节点脚本执行结果调用kubernetes集群API,若故障已恢复,则重新将节点加入集群,若故障无法恢复,将节点打上故障+故障类型+加故障原因的标签。
优选地,进行故障判断得到故障处理脚本的过程包括:
将收集到的日志与故障关键字匹配,获得故障节点及故障原因,根据故障节点及故障原因生成故障判断报告;
获取故障判断报告,根据故障判断报告获得故障脚本索引信息;
根据故障脚本索引信息获取故障处理脚本。
优选地,日志收集子系统1由安装在节点上的日志收集探针11、日志汇集器12和日志储存模块13三部分组成;
日志收集探针11,用于收集各个节点上的节点日志,并定期通过UDP协议将节点日志发送到日志汇集器12;
日志汇集器12,用于整理、汇集整个集群的节点日志,并对外提供检索功能;
日志储存模块13,用于格式化储存整个集群的所有节点日志,存储格式为时间戳+json格式;
故障判断&处理子系统由故障判断模块21、故障处理脚本仓库22和故障处理执行模块23三部分组成;
故障判断模块21,用于根据日志内容对故障进行分类,并将收集到的日志与故障关键字匹配,获得故障节点及故障原因,根据故障节点及故障原因生成故障判断报告;
故障处理脚本仓库22,用于分类储存故障处理脚本;
故障处理执行模块23,用于从故障处理脚本仓库22中搜索并获取故障处理脚本,将故障处理脚本分发给故障节点执行,同时收集执行结果。
优选地,节点日志来源有2个:
e)/var/log目录日志;
f)获取kubelet组件监控指标,包括CPU利用率、内存利用率、网口带宽利用率、文件系统使用率、磁盘IO速率,并生成日志。
优选地,故障判断模块21将故障分为硬件故障、操作系统故障、kubernetes组件及docker组件故障,各故障分为高、中、低三个等级。
基于上述处理系统,本发明实施例1提供的一种基于集群日志的反馈式节点故障处理方法流程示意图,如图4所示,该方法主要包括以下步骤:
日志收集、处理、存储:
步骤301:安装在每个节点(Node)上的日志收集探针11定期获取节点日志,日志收集探针11定期通过UDP协议发送性能参数给日志汇集器12,本实施例中日志来源有2个:
a)/var/log目录日志;
b)获取kubelet组件监控指标,包括CPU利用率、内存利用率、网口带宽利用率、文件系统使用率、磁盘IO速率,并生成日志;
步骤302:日志汇集器12汇总各节点日志,整理得出整个集群每个节点包含故障信息的日志;
步骤303:日志汇集器12将包含故障信息的日志储存进日志储存模块13,,存储格式为时间戳+json格式;
故障判断及执行:
步骤304:故障判断模块21将日志汇集器12汇收集到的日志与故障关键字匹配,获得故障节点(IP/域名)及故障原因,并生成故障判断报告;
步骤305:故障处理脚本仓库22从故障判断模块21中获取故障判断报告,根据故障判断报告并获得故障脚本索引信息;
步骤306:故障处理执行模块23从故障处理脚本仓库22中获取故障处理脚本,若没有相应故障处理脚本则直接执行步骤308;
步骤307:故障处理执行模块23将故障处理脚本分发给故障节点执行,并获取脚本执行结果;
步骤308:故障处理执行模块23根据故障节点脚本处理结果调用kubernetes集群API,若故障已恢复,则重新将节点加入集群,若故障无法恢复,则给节点打上故障+故障类型+加故障原因的标签,并附上相关故障细节。
本实施例提供的基于集群日志的反馈式节点故障处理方法及系统具有以下有益效果:
(1)本实施例提供的基于集群日志的反馈式节点故障处理方法及系统针对kubernetes容器云,该方法能够自动完成故障原因收集、故障定位、故障处理、故障处理结果收集整个环节,对于kubernetes容器云大集群多节点常见的重复性故障批量处理有很大的帮助;
(2)能够快速感知kubernetes整个集群各个节点的的故障信息(硬件、操作系统、kubernetes组件等),并以此为基础快速定位故障,并通过自有的脚本处理仓库获取脚本处理下发故障节点执行,最后能够通过kubernetes管理平台或API自动完成故障节点的重新纳管或详细标识,对于常见重复性故障,整个故障处理环节实现全自动,无需人为干预。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种基于集群日志的反馈式节点故障处理方法,其特征在于,包括:
获取整个集群中每个节点的节点日志,收集、整理得出每个节点包含故障信息的日志,并将所述包含故障信息的日志进行储存,存储格式为时间戳+json格式;
根据收集到的所述包含故障信息的日志进行故障判断得到故障处理脚本;将所述故障处理脚本分发给故障节点执行,并获取故障节点脚本执行结果;根据所述故障节点脚本执行结果调用kubernetes集群API,若故障已恢复,则重新将节点加入集群,若故障无法恢复,将节点打上故障+故障类型+加故障原因的标签;
所述进行故障判断得到故障处理脚本的过程包括:
将收集到的日志与故障关键字进行匹配,根据匹配结果获得故障节点及故障原因,根据所述故障节点及故障原因生成故障判断报告;
获取所述故障判断报告,根据所述故障判断报告获得故障脚本索引信息;
根据所述故障脚本索引信息获取所述故障处理脚本。
2.根据权利要求1所述的基于集群日志的反馈式节点故障处理方法,其特征在于,所述节点日志来源有2个:
a)/var/log目录日志;
b)获取kubelet组件监控指标,包括CPU利用率、内存利用率、网口带宽利用率、文件系统使用率、磁盘IO速率,并生成日志。
3.根据权利要求1所述的基于集群日志的反馈式节点故障处理方法,其特征在于,所述故障分为硬件故障、操作系统故障、kubernetes组件及docker组件故障,各故障分为高、中、低三个等级。
4.一种基于集群日志的反馈式节点故障处理系统,其特征在于,包括日志收集子系统和故障判断&处理子系统;
所述日志收集子系统,用于获取整个集群中每个节点的节点日志,收集、整理得出每个节点包含故障信息的日志,并将所述包含故障信息的日志进行储存,存储格式为时间戳+json格式;
所述故障判断&处理子系统,用于根据收集到的所述包含故障信息的日志进行故障判断得到故障处理脚本;将所述故障处理脚本分发给故障节点执行,并获取故障节点脚本执行结果;根据所述故障节点脚本执行结果调用kubernetes集群API,若故障已恢复,则重新将节点加入集群,若故障无法恢复,将节点打上故障+故障类型+加故障原因的标签。
5.根据权利要求4所述的基于集群日志的反馈式节点故障处理系统,其特征在于,所述进行故障判断得到故障处理脚本的过程包括:
将收集到的日志与故障关键字匹配,获得故障节点及故障原因,根据所述故障节点及故障原因生成故障判断报告。
6.根据权利要求4所述的基于集群日志的反馈式节点故障处理系统,其特征在于,所述日志收集子系统由安装在节点上的日志收集探针、日志汇集器和日志储存模块三部分组成;
所述日志收集探针,用于收集各个节点上的节点日志,并定期通过UDP协议将所述节点日志发送到所述日志汇集器;
所述日志汇集器,用于整理、汇集整个集群的节点日志,并对外提供检索功能;
所述日志储存模块,用于格式化储存整个集群的所有节点日志,存储格式为时间戳+json格式;
所述故障判断&处理子系统由故障判断模块、故障处理脚本仓库和故障处理执行模块三部分组成;
所述故障判断模块,用于根据日志内容对故障进行分类,并将收集到的日志与故障关键字匹配,获得故障节点及故障原因,根据所述故障节点及故障原因生成故障判断报告;
所述故障处理脚本仓库,用于分类储存故障处理脚本;
所述故障处理执行模块,用于从所述故障处理脚本仓库中搜索并获取故障处理脚本,将所述故障处理脚本分发给故障节点执行,同时收集执行结果。
7.根据权利要求6所述的基于集群日志的反馈式节点故障处理系统,其特征在于,所述节点日志来源有2个。
8.根据权利要求6所述的基于集群日志的反馈式节点故障处理系统,其特征在于,所述故障判断模块将故障分为硬件故障、操作系统故障、kubernetes组件及docker组件故障,各故障分为高、中、低三个等级。
CN201810204291.4A 2018-03-13 2018-03-13 一种基于集群日志的反馈式节点故障处理方法及系统 Active CN108521339B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810204291.4A CN108521339B (zh) 2018-03-13 2018-03-13 一种基于集群日志的反馈式节点故障处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810204291.4A CN108521339B (zh) 2018-03-13 2018-03-13 一种基于集群日志的反馈式节点故障处理方法及系统

Publications (2)

Publication Number Publication Date
CN108521339A CN108521339A (zh) 2018-09-11
CN108521339B true CN108521339B (zh) 2021-08-03

Family

ID=63433609

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810204291.4A Active CN108521339B (zh) 2018-03-13 2018-03-13 一种基于集群日志的反馈式节点故障处理方法及系统

Country Status (1)

Country Link
CN (1) CN108521339B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614289A (zh) * 2018-12-10 2019-04-12 浪潮(北京)电子信息产业有限公司 一种存储节点监控方法、系统、设备及计算机存储介质
CN109660397B (zh) * 2018-12-21 2022-02-15 北京百度网讯科技有限公司 用于采集日志的系统、方法和装置
CN111367775B (zh) * 2018-12-26 2023-11-14 北京嘀嘀无限科技发展有限公司 问题节点定位方法、计算机设备和计算机可读存储介质
CN110430071A (zh) * 2019-07-19 2019-11-08 云南电网有限责任公司信息中心 业务节点故障自愈方法、装置、计算机设备及存储介质
CN113296988A (zh) * 2020-06-08 2021-08-24 阿里巴巴集团控股有限公司 基于多容器共享异构计算设备实现故障隔离的方法及装置
CN113111240A (zh) * 2021-04-20 2021-07-13 康键信息技术(深圳)有限公司 日志监控方法、装置、电子设备及可读存储介质
CN113535474B (zh) * 2021-06-30 2022-11-11 重庆紫光华山智安科技有限公司 异构云存储集群故障自动修复的方法、系统、介质及终端
CN113726553A (zh) * 2021-07-29 2021-11-30 浪潮电子信息产业股份有限公司 一种节点故障恢复方法、装置、电子设备及可读存储介质
CN115118582B (zh) * 2022-06-15 2024-04-16 合肥移瑞通信技术有限公司 日志分析的方法和装置
CN115408194A (zh) * 2022-09-05 2022-11-29 摩尔线程智能科技(北京)有限责任公司 Kubernetes节点故障修复方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104036548A (zh) * 2014-07-01 2014-09-10 浪潮(北京)电子信息产业有限公司 Mha集群环境重建方法、装置和系统
CN105162632A (zh) * 2015-09-15 2015-12-16 浪潮集团有限公司 一种服务器集群故障自动处理系统
CN105376303A (zh) * 2015-10-23 2016-03-02 深圳前海达闼云端智能科技有限公司 一种Docker实现系统及其通信方法
CN105488610A (zh) * 2015-11-23 2016-04-13 国网山东省电力公司信息通信公司 一种电力应用系统故障实时分析诊断系统及方法
CN106844132A (zh) * 2015-12-03 2017-06-13 北京国双科技有限公司 集群服务器的故障修复方法和装置
CN107608826A (zh) * 2017-09-19 2018-01-19 郑州云海信息技术有限公司 一种存储集群的节点的故障恢复方法、装置及介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104036548A (zh) * 2014-07-01 2014-09-10 浪潮(北京)电子信息产业有限公司 Mha集群环境重建方法、装置和系统
CN105162632A (zh) * 2015-09-15 2015-12-16 浪潮集团有限公司 一种服务器集群故障自动处理系统
CN105376303A (zh) * 2015-10-23 2016-03-02 深圳前海达闼云端智能科技有限公司 一种Docker实现系统及其通信方法
CN105488610A (zh) * 2015-11-23 2016-04-13 国网山东省电力公司信息通信公司 一种电力应用系统故障实时分析诊断系统及方法
CN106844132A (zh) * 2015-12-03 2017-06-13 北京国双科技有限公司 集群服务器的故障修复方法和装置
CN107608826A (zh) * 2017-09-19 2018-01-19 郑州云海信息技术有限公司 一种存储集群的节点的故障恢复方法、装置及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"基于Kubernetes 的分布式ELK 日志分析系统";陈建娟 等;《电子技术与软件工程》;20160728;第211-214页 *
"基于容器技术的PaaS 云平台方案";齐磊 等;《电信科学》;20170420;第177-182页 *

Also Published As

Publication number Publication date
CN108521339A (zh) 2018-09-11

Similar Documents

Publication Publication Date Title
CN108521339B (zh) 一种基于集群日志的反馈式节点故障处理方法及系统
EP3798846B1 (en) Operation and maintenance system and method
CN109684053B (zh) 大数据的任务调度方法和系统
CN112612675B (zh) 微服务架构下的分布式大数据日志链路跟踪方法及系统
CN107689953B (zh) 一种面向多租户云计算的容器安全监控方法及系统
CN107508722B (zh) 一种业务监控方法和装置
CN105631026A (zh) 一种安全数据分析系统
CN107957940B (zh) 一种测试日志处理方法、系统及终端
CN111866016B (zh) 日志的分析方法及系统
CN105893225A (zh) 一种错误自动处理方法及装置
CN110489317B (zh) 基于工作流的云系统任务运行故障诊断方法与系统
CN111859047A (zh) 一种故障解决方法及装置
US10372572B1 (en) Prediction model testing framework
CN112711496A (zh) 日志信息全链路追踪方法、装置、计算机设备和存储介质
CN108108445A (zh) 一种智能数据处理方法和系统
CN115809183A (zh) 基于知识图谱的信创终端故障发现及处置的方法
CN110674231A (zh) 一种面向数据湖的用户id集成方法和系统
CN115102877B (zh) 一种虚拟网卡网络检测方法、装置、设备及介质
WO2015187001A2 (en) System and method for managing resources failure using fast cause and effect analysis in a cloud computing system
CN107463490B (zh) 一种应用于平台开发中的集群日志集中收集方法
CN102546235B (zh) 云计算环境下面向web应用的性能诊断方法和系统
CN112068981B (zh) Linux操作系统中基于知识库的故障扫描恢复方法及系统
CN110609761B (zh) 确定故障源的方法、装置、存储介质和电子设备
CN116126621A (zh) 大数据集群的任务监控方法及相关设备
US20230004478A1 (en) Systems and methods of continuous stack trace collection to monitor an application on a server and resolve an application incident

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant