CN114915541A - 系统故障排除方法及装置、电子设备及存储介质 - Google Patents

系统故障排除方法及装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114915541A
CN114915541A CN202210370004.3A CN202210370004A CN114915541A CN 114915541 A CN114915541 A CN 114915541A CN 202210370004 A CN202210370004 A CN 202210370004A CN 114915541 A CN114915541 A CN 114915541A
Authority
CN
China
Prior art keywords
fault
state
target subsystem
target
troubleshooting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210370004.3A
Other languages
English (en)
Other versions
CN114915541B (zh
Inventor
方超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shareit Information Technology Co Ltd
Original Assignee
Beijing Shareit Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Shareit Information Technology Co Ltd filed Critical Beijing Shareit Information Technology Co Ltd
Priority to CN202210370004.3A priority Critical patent/CN114915541B/zh
Publication of CN114915541A publication Critical patent/CN114915541A/zh
Application granted granted Critical
Publication of CN114915541B publication Critical patent/CN114915541B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本公开实施例是关于一种系统故障排除方法,应用于第一平台,其中,第一平台用于监控预定网络系统,预定网络系统包括多个具有网络连接的目标子系统,方法包括:监控各目标子系统的状态信息;根据状态信息,生成各目标子系统的状态图;检测系统的各目标子系统的稳定指标是否达到稳定阈值;当稳定指标未达到稳定阈值时,根据状态图确定故障信息;其中,故障信息,指示故障位置、故障范围以及故障类型的至少其中之一;根据故障信息,确定当前故障是否为自动排除故障类型;若当前故障为自动排除故障类型,执行故障排除操作;如此,可以提升确定排障效率和精准性。

Description

系统故障排除方法及装置、电子设备及存储介质
技术领域
本公开涉及互联网技术领域,尤其涉及一种系统故障排除方法及装置、电子设备及存储介质。
背景技术
互联网系统在出现故障时,即使是很小的故障原因,也有可能造成较大的影响甚至导致系统瘫痪。尤其是对于大规模的系统故障,从确定故障目标到排除故障,仅使用人工排除故障,耗时较长,并且不一定能起到较好的排障效果。在一些需要系统中各个部门协同排障时,仅人工排障,会相互影响排障结果,无法确切地解决故障,效率也低。因此,需要一种能提升排障效率的系统故障排除装置。
发明内容
本公开实施例公开了一种系统故障排除方法及装置、电子设备及存储介质。
本公开实施例第一方面提供一种系统故障排除方法,应用于第一平台,其中,所述第一平台用于监控预定网络系统,所述预定网络系统包括多个具有网络连接的目标子系统,所述方法包括:监控各所述目标子系统的状态信息;根据所述状态信息,生成各所述目标子系统的状态图;其中,所述状态图上具有状态标记,所述状态标记,标注所述目标子系统中的至少一个部分处于稳定状态、故障状态或者濒临故障状态的预警状态;检测所述预定网络系统的各目标子系统的稳定指标是否达到稳定阈值;其中,所述稳定指标,为:所述目标子系统在预设时长内的稳定时间与所述预设时长的占比;当所述稳定指标未达到所述稳定阈值时,根据所述状态图确定故障信息;其中,所述故障信息,指示故障位置、故障范围以及故障类型的至少其中之一;根据所述故障信息,确定当前故障是否为自动排除故障类型;若所述当前故障为自动排除故障类型,执行故障排除操作。
可选地,所述方法,还包括:若确定所述预定网络系统的部分目标子系统的稳定指标未达到稳定阈值,生成告警信息;其中,所述告警信息,至少包括:目标子系统以及所述目标子系统的定位信息以及故障信息。
可选地,所述当所述稳定指标未达到所述稳定阈值时,根据所述状态图确定故障信息,包括:当所述稳定指标未达到所述稳定阈值时,根据所述状态图中显示的故障范围,确定出现故障的所述目标子系统;根据确定的出现故障的所述目标子系统,确定所述目标子系统中出现故障的部分的故障信息。
可选地,所述若所述当前故障为自动排除故障类型,执行故障排除操作,包括:若所述当前故障为自动排除故障类型,根据所述自动排除故障类型包含的故障内容,生成故障查询索引;根据所述故障查询索引,在故障处理列表中查询对应的故障处理内容;根据所述故障处理内容,对处于故障状态的目标子系统的至少一个部分执行故障排除。
可选地,所述方法,还包括:执行故障排除操作之后,生成排障结果;所述排障结果,包括:所述目标子系统的至少一个部分的,排障成功或排障失败的结果;根据所述排障结果,生成排障记录日志;其中,所述排障记录日志,包括:被排障目标的状态变更记录以及所述目标子系统的至少一个部分涉及的业务。
可选地,所述方法,还包括:当至少一个所述目标子系统中的处于故障状态时,执行所述预定网络系统的保护操作。
可选地,所述当至少一个所述目标子系统中的处于故障状态时,执行所述预定网络系统的保护操作,包括:当至少一个所述目标子系统处于故障状态时,减少所述目标子系统的故障部分与所述目标子系统内正常部分之间的网络连接数量;和/或;当至少一个所述目标子系统处于故障状态时,减少发生故障的所述目标子系统与所述预定网络系统内处于正常状态的所述目标子系统之间的网络连接数量。
可选地,所述根据所述状态信息,生成各所述目标子系统的状态图,包括以下至少之一:若所述状态信息,指示所述目标子系统的至少一个部分处于稳定状态,则通过稳定状态标记标注所述至少一个部分;若所述状态信息,指示所述目标子系统的至少一个部分处于故障状态,则通过故障状态标记标注所述目标子系统以及所述至少一个部分;或,若所述状态信息,指示所述目标子系统的至少一个部分处于濒临故障状态的预警状态,则通过预警状态标记标注所述目标子系统以及所述至少一个部分;其中,所述故障状态标记的提示强度,高于预警状态标记的提示程度;所述预警状态标记提示强度,高于所述稳定状态标记的提示程度。
本公开第二方面提供一种系统故障排除装置,所述装置包括:监控模块,用于监控各所述目标子系统的状态信息;第一生成模块,用于根据所述状态信息,生成各所述目标子系统的状态图;其中,所述状态图上具有状态标记,所述状态标记,标注所述目标子系统中的至少一个部分处于稳定状态、故障状态或者濒临故障状态的预警状态;检测模块,用于检测所述预定网络系统的各目标子系统的稳定指标是否达到稳定阈值;其中,所述稳定指标,为:所述目标子系统在预设时长内的稳定时间与所述预设时长的占比;第一确定模块,用于当所述稳定指标未达到所述稳定阈值时,根据所述状态图确定故障信息;其中,所述故障信息,指示故障位置、故障范围以及故障类型的至少其中之一;第二确定模块,用于根据所述故障信息,确定当前故障是否为自动排除故障类型;第一执行模块,用于若所述当前故障为自动排除故障类型,执行故障排除操作。
可选地,所述装置,还包括:第二生成模块,用于若确定所述预定网络系统的部分目标子系统的稳定指标未达到稳定阈值,生成告警信息;其中,所述告警信息,至少包括:目标子系统以及所述目标子系统的定位信息以及故障信息。
可选地,所述第一确定模块,配置为:当所述稳定指标未达到所述稳定阈值时,根据所述状态图中显示的故障范围,确定出现故障的所述目标子系统;根据确定的出现故障的所述目标子系统,确定所述目标子系统中出现故障的部分的故障信息。
可选地,所述第一执行模块,配置为:若所述当前故障为自动排除故障类型,根据所述自动排除故障类型包含的故障内容,生成故障查询索引;根据所述故障查询索引,在故障处理列表中查询对应的故障处理内容;根据所述故障处理内容,对处于故障状态的目标子系统的至少一个部分执行故障排除。
可选地,所述装置,还包括:第二执行模块,用于执行故障排除操作之后,生成排障结果;所述排障结果,包括:所述目标子系统的至少一个部分的,排障成功或排障失败的结果;第三生成模块,用于根据所述排障结果,生成排障记录日志;其中,所述排障记录日志,包括:被排障目标的状态变更记录以及所述目标子系统的至少一个部分涉及的业务。
可选地,所述装置还包括:第三执行模块,用于当至少一个所述目标子系统中的处于故障状态时,执行所述预定网络系统的保护操作。
可选地,所述第三执行模块,配置为:当至少一个所述目标子系统处于故障状态时,减少所述目标子系统的故障部分与所述目标子系统内正常部分之间的网络连接数量;和/或;当至少一个所述目标子系统处于故障状态时,减少发生故障的所述目标子系统与所述预定网络系统内处于正常状态的所述目标子系统之间的网络连接数量。
可选地,所述第一生成模块,还配置为以下之一:若所述状态信息,指示所述目标子系统的至少一个部分处于稳定状态,则通过稳定状态标记标注所述至少一个部分;若所述状态信息,指示所述目标子系统的至少一个部分处于故障状态,则通过故障状态标记标注所述目标子系统以及所述至少一个部分;或,若所述状态信息,指示所述目标子系统的至少一个部分处于濒临故障状态的预警状态,则通过预警状态标记标注所述目标子系统以及所述至少一个部分;其中,所述故障状态标记的提示强度,高于预警状态标记的提示程度;所述预警状态标记提示强度,高于所述稳定状态标记的提示程度。
本公开第三方面提供一种电子设备,包括:用于存储处理器可执行指令的存储器;处理器,与所述存储器连接;其中,所述处理器被配置为执行如上述第一方面提供的系统故障排除方法。
本公开实施例第四方面提供一种非临时性计算机可读存储介质,所述计算机可读存储介质中存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现如上述第一方面提供的系统故障排除方法。
本公开的实施例提供的系统故障排除方法中,当所述稳定指标未达到所述稳定阈值时,根据所述状态图确定故障信息;其中,所述故障信息,指示故障位置、故障范围以及故障类型的至少其中之一;可以根据状态图,快速地确定故障范围,从而确定故障范围内的故障目标部分;并且若所述当前故障为自动排除故障类型,执行故障排除操作;执行自动化排除故障,相对于仅使用人工排障,可以提升排障效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是本公开一示例性实施例示出的系统故障排除方法的流程示意图;
图2是本公开一示例性实施例示出的系统故障排除方法的流程示意图;
图3是本公开一示例性实施例示出的系统故障排除方法的流程示意图;
图4是本公开一示例性实施例示出的系统故障排除方法的流程示意图;
图5是本公开一示例性实施例示出的系统故障排除方法的流程示意图;
图6是本公开一示例性实施例示出的系统故障排除方法的流程示意图;
图7是本公开一示例性实施例示出的系统故障排除方法的流程示意图;
图8是本公开一示例性实施例示出的系统故障排除方法的流程示意图;
图9是本公开一示例性实施例示出的系统故障排除方法的故障排除架构示意图;
图10是本公开一示例性实施例示出的系统故障排除方法的状态示意图;
图11是本公开一示例性实施例示出的系统故障排除方法的状态示意图;
图12是本公开一示例性实施例示出的系统故障排除方法的状态示意图;
图13是本公开一示例性实施例示出的系统故障排除方法的状态示意图;
图14是本公开一示例性实施例示出的系统故障排除方法的架构示意图;
图15是本公开一示例性实施例示出的系统故障排除装置的结构示意图;
图16是本公开一示例性实施例示出的系统故障排除装置的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附申请文件中所详述的、本公开的一些方面相一致的装置和方法的例子。
本公开实施例中,结合图1所示,提供一种系统故障排除方法,应用于第一平台,其中,所述第一平台用于监控预定网络系统,所述预定网络系统包括多个具有网络连接的目标子系统,所述方法包括:
步骤S101,监控各所述目标子系统的状态信息;
步骤S102,根据所述状态信息,生成各所述目标子系统的状态图;其中,所述状态图上具有状态标记,所述状态标记,标注所述目标子系统中的至少一个部分处于稳定状态、故障状态或者濒临故障状态的预警状态;
步骤S103,检测所述预定网络系统的各目标子系统的稳定指标是否达到稳定阈值;其中,所述稳定指标,为:所述目标子系统在预设时长内的稳定时间与所述预设时长的占比;
步骤S104,当所述稳定指标未达到所述稳定阈值时,根据所述状态图确定故障信息;其中,所述故障信息,指示故障位置、故障范围以及故障类型的至少其中之一;
步骤S105,根据所述故障信息,确定当前故障是否为自动排除故障类型;
步骤S106,若所述当前故障为自动排除故障类型,执行故障排除操作。
一个实施例中,所述第一平台,为:互联网网络监控平台,用于监控预定网络系统。
一个实施例中,所述第一平台,可以是设置在服务器中的监控平台。
一个实施例中,所述预定网络系统,为:提供服务和/或管理的应用系统或者局域网。
一个实施例中,所述目标子系统,为:属于所述预定网络系统的服务和/或管理子系统。
一个实施例中,所述状态信息,为:所述目标子系统和/或预定网络系统的所处的状态的信息。
一个实施例中,所述状态信息,包括但不限于是:
处于第一类状态信息;
处于第二类状态信息;
处于第三类状态信息;其中,第一类状态较所述第二类状态稳定;所述第二类状态比所述第三类状态稳定。
一个实施例中,关于步骤S101,监控各所述目标子系统的状态信息,包括:通过监控工具监控所述目标子系统的状态信息。
一个实施例中,所述监控工具,可以是配置在所述第一平台中,第一平台可以通过监控工具监控所述目标子系统的状态信息。
一个实施例中,关于步骤S102中,所述状态图,为:集成显示多个所述目标子系统的状态信息的状态图。
一个实施例中,所述状态图上所具有的状态标记,为:用于标识所述目标子系统的状态的标记。
一个实施例中,所述状态标记,是根据所述状态信息生成的。
一个实施例中,所述状态信息的第一类状态信息,对应稳定状态信息。
一个实施例中,所述状态信息的第二类状态信息,对应濒临故障状态的预警状态信息。
一个实施例中,所述状态信息的第三类状态信息,对应故障状态信息。
这里,稳定状态较所述预警状态稳定;预警状态较所述故障状态稳定。
对应地,若所述状态信息为第一类状态信息,则所述状态标记为第一类状态标记;
若所述状态信息为第二类状态信息,则所述状态标记为第二类状态标记;
若所述状态信息为第三类状态信息,则所述状态标记为第三类状态标记。
一个实施例中,所述步骤S101,包括:根据状态信息指示的各目标子系统的状态,确定与各所述目标子系统的状态对应的状态标记;
根据各所述目标子系统的对应的状态标记,生成各所述目标子系统的状态图。
一个实施例中,所述目标子系统中的至少一个部分,为:属于所述目标子系统的部分。
一个实施例中,所述目标子系统,包括:多个具有网络连接的部分。
一个实施例中,所述目标子系统的任意一个部分,包括:多个具有网络连接的子部分。
一个实施例中,所述预定网络系统有n个分层,则对应地:
第1个分层包括多个具有网络连接的目标子系统;
第2个分层中的任意一个目标子系统,有包括多个具有网络连接的部分;
第3个分层中的任意一个目标子系统的部分,有包括多个具有网络连接的子部分;
以此类推,第n个分层中,包括多个具有网络连接的最小单元。
一个实施例中,所述预定网络系统中的任意层级的所包括的业务类型,包括但不限于是:
负责管理任务的类型;
负责服务任务的类型;
负责维持任务的类型。
一个实施例中,关于步骤S103,包括:通过检测工具检测所述预定网络系统的稳定指标是否达到稳定阈值。
一个实施例中,所述检测工具,可以是配置在所述第一平台的检测工具。
一个实施例中,与所述稳定时间相对应地,在预设时长内的稳定时间之外,还可能有故障时间。所述稳定时间与所述故障时间的和,等于所述预设时长。
一个实施例中,所述预设时长,包括但不限于是:12个小时、24个小时、36个小时、48个小时等。
一个实施例中,所述稳定阈值,为:用于规范所述预定网络系统的各目标子系统的稳定指标的阈值。
一个实施例中,所述稳定阈值的取值,可以是根据预定网络系统的稳定需求设置的。
一个实施例中,所述预定网络系统的稳定需求,可以是:在预设时长内,允许故障的故障时间阈值。
示例性地,所述稳定阈值,可以是预设时长减去故障时间阈值,再除以预设时长的值。
一个实施例中,所述稳定阈值,可以取值为:99.99%;99.9%;99%;80%;70%等任意合适的取值。
一个实施例中,所述故障时间阈值,可以取值为:8.64秒、4.32s、12.96s等任意合适的取值。
示例性地,所述故障时间阈值,取值为8.64秒,预设时长为24小时,则稳定阈值为8.64/(24×60×60)=99.99%。
一个实施例中,所述稳定指标,为:所述目标子系统在预设时长内的稳定时间与所述预设时长的占比。
另一个实施例中,所述稳定指标,为:所述目标子系统在预设时长内,预设时间减去所述故障时长得到的稳定时间与所述预设时长的占比。
示例性地,若所述稳定阈值为99.99%,若预设时长为24个小时,若故障时间为8.64秒,则稳定时间,为86391.36秒,则稳定指标为99.99%,满足达到所述稳定阈值。
一个实施例中,关于所述步骤S104,所述故障位置,为:在所述状态图中出现故障的所述目标子系统的对应位置。
一个实施例中,所述故障范围,为:在所述状态图中,出现故障的目标子系统以及与所述目标子系统有网络连接的若干个目标子系统组成的位置范围。
一个实施例中,所述故障类型,为:根据是否自动和/或是否需要人工排除划分的类型。
一个实施例中,所述故障类型,包括:
自动排除故障类型;
人工排除故障类型;
自动与人工协同排除故障类型。
一个实施例中,关于步骤S104,包括:当所述稳定指标未达到所述稳定阈值时,将未达到所述稳定阈值的目标子系统的故障信息显示在所述状态图中;
根据所述状态图确定故障信息。
一个实施例中,关于步骤S105,包括:根据所述故障信息中的故障类型,确定当前故障是否为自动排除故障类型。
一个实施例中,所述故障类型,是可以从所述状态图的显示而确定的。
一个实施例中,所述故障类型,也可以是在所述稳定指标未达到所述稳定阈值时,所述第一平台可以默认确定所述当前故障为自动排除故障类型。
一个实施例中,关于步骤S106,可以包括:若第一平台默认确定所述当前故障为自动排除故障类型,执行故障排除操作。
一个实施例中,关于步骤S106,可以包括:若根据所述状态图确定所述当前故障为自动排除故障类型,执行故障排除操作。
一个实施例中,可以根据故障范围内的发生故障的各目标子系统的数量和/或难度,确定当前故障是否为自动排除故障类型。
示例性地,若所述故障范围内的发生故障的各目标子系统的数量大于或等于数量阈值时,则确定所述当前故障为自动排除故障类型。
再示例性地,若所述故障范围内的发生还在的各目标子系统的数量大于或等于数量阈值时,且能确定所述当前故障的难度低于难度阈值,则确定所述当前故障为自动排除故障类型。
一个实施例中,所述数量阈值,可以是占所述目标子系统数量的20%、30%、50%的任意合适的数量。
一个实施例中,从1至10对故障难度进行分级,所述难度阈值可以取值为4、5、6、7等任意合适的值。
本公开实施例中,自动排除故障,对于出现故障的目标子系统较多,但故障原因较为简单,或者为中等难度时,可以提升排除故障的效率。通过衡量稳定指标是否达到稳定阈值,来确定是否属于故障状态,并且进行排障,可以使所述预定网络系统能更长期地处于稳定状态,使得所述预定网络系统稳定运行。通过状态标记指示的故障范围,可以逐级确定故障源,进行高效且精准的排障。
本公开实施例中,结合图2所示,所述方法,还包括:
步骤S107,若确定所述预定网络系统的部分目标子系统的稳定指标未达到稳定阈值,生成告警信息;其中,所述告警信息,至少包括:目标子系统以及所述目标子系统的定位信息以及故障信息。
一个实施例中,所述第一平台配置有告警工具,用于执行所述步骤S107。
示例性地,所述告警工具,包括:监控稳定指标是否达到稳定阈值的部分以及告警部分。
一个实施例中,所述目标子系统的定位信息,为所述目标子系统在所述状态图中的显示定位的定位数据。
示例性地,所述定位数据,包括:处于所述状态图的列数和第行数。
一个实施例中,若是所述目标子系统的至少一部分出现故障,则在所述状态图显示的目标子系统的图标下,可以通过点击进入所述目标子系统的内部状态图,确定出现故障的至少一部分。
以此类推,不论目标子系统包括多少个部分,以及部分又包括多少级下属的子部分,都可以包括显示内部部分状态的内部状态图。因而,可以逐级确定出现故障的最小故障单元。
一个实施例中,任意层级的子系统、部分和/或子部分,都包括有内部状态图。
一个实施例中,所述内部状态图,用于显示对应层级的内部单元的状态信息的图。
一个实施例中,在第一平台发出告警信息之后,会触发第一平台配置的自动排障工具,进行自动排障。
另一个实施例中,在第一平台发出告警信息之后,会先确定故障类型是否属于自动排障类型,若确定属于自动排障类型,则触发第一平台配置的自动排障工具,进行自动排障。
本公开实施例中,通过稳定指标衡量预定网络系统的稳定性,并且对于未到达稳定阈值的部分目标子系统生成告警信息,可以及时且高效地进行报警,提升对故障的反应速度和能力。
本公开实施例中,结合图3所示,所述步骤S104,所述当所述稳定指标未达到所述稳定阈值时,根据所述状态图确定故障信息,包括:
步骤S1041,当所述稳定指标未达到所述稳定阈值时,根据所述状态图中显示的故障范围,确定出现故障的所述目标子系统;
步骤S1042,根据确定的出现故障的所述目标子系统,确定所述目标子系统中出现故障的部分的故障信息。
一个实施例中,所述故障范围,可以是:围设了出现故障的位置范围。
示例性地,在所述故障范围内,至少包括有发生故障的目标子系统或部分。
再示例性地,在所述故障范围内,还包括有与发生故障的目标子系统有网络连接的,处于正常状态的目标子系统或部分。
一个实施例中,在所述故障范围内的故障状态标记,确定出现故障的所述目标子系统或部分。
在所述故障范围内,可以用第一故障状态标记标识故障范围;用第二故障状态标记标识发生故障的目标子系统或部分;其中,第二故障状态标识的提示强度,强于所述第一故障状态标识。
示例性地,所述第一故障状态标识的颜色,可以比第二故障状态标识的颜色浅。
再示例性地,所述第一故障状态标识的尺寸大小,比所述第二故障状态标识的尺寸大。
可以根据第一故障状态标记,确定故障范围;
根据故障范围内的第二故障状态标记,确定发生故障的目标子系统或目标子系统的至少一个部分的位置。
一个实施例中,关于步骤S1041,在预定网络系统的状态图中,可以根据第一状态标记,确定发生故障的目标子系统的故障范围;
根据故障范围内的第二故障状态标记的所述目标子系统,确定发生故障的所述目标子系统的位置。
一个实施例中,关于步骤S1042,可以根据出现故障的所述目标子系统的内部状态图,确定所述目标子系统中发生故障的部分的故障范围;
根据所述部分的故障范围,确定发生故障的部分的位置。
示例性地,在目标子系统的内部状态图中,可以根据第一状态标记,确定发生故障的部分的故障范围;
根据故障范围内的第二故障状态标记的所述部分,确定发生故障的部分的位置。
本公开实施例中,以此类推,任意层级包含的状态图中,都有包括的下属层级的部分、子部分至最小单元的故障信息。因此,可以逐级地从显示出现故障的目标子系统,确定目标子系统内部出现故障的部分的故障信息;再进一步确定目标子系统的部分的内部出现故障的子部分的故障信息。从而可以通过每一级的状态图,逐级确定出现故障的源头。
本公开实施例中,结合图4所示,所述步骤S106,若所述当前故障为自动排除故障类型,执行故障排除操作,包括:
步骤S1061,若所述当前故障为自动排除故障类型,根据所述自动排除故障类型包含的故障内容,生成故障查询索引;
步骤S1062,根据所述故障查询索引,在故障处理列表中查询对应的故障处理内容;
步骤S1063,根据所述故障处理内容,对处于故障状态的目标子系统的至少一个部分执行故障排除。
一个实施例中,所述自动排除故障类型包含的故障内容,可以是:故障原因和/或故障处理类别。
一个实施例中,所述步骤S1061,包括:根据所述故障原因和/或故障处理类别,生成故障查询索引。
一个实施例中,所述故障查询索引,可以由故障原因和故障处理类别组成。
一个实施例中,所述故障查询索引,可以由故障处理类别组成。
一个实施例中,所述故障查询索引,可以由故障原因组成。
一个实施例中,所述故障处理列表中,存储有与所述故障内容对应的故障处理内容。
一个实施例中,所述故障处理内容,包括:故障自动处理程序。
一个实施例中,所述步骤S1062,包括:根据所述故障查询索引,在故障处理列表中查询对应的故障自动处理程序。
一个实施例中,关于所述步骤S1063,包括:通过执行所述故障自动处理程序,对处于故障状态的目标子系统的至少一个部分执行故障排除。
本公开实施例中,可以通过故障处理内容生成的故障查询索引,可以较快地调用出故障自动处理程序,进而实现故障的自动排除。
本公开实施例中,结合图5所示,所述方法,还包括:
步骤S108,执行故障排除操作之后,生成排障结果;所述排障结果,包括:所述目标子系统的至少一个部分的,排障成功或排障失败的结果;
步骤S109,根据所述排障结果,生成排障记录日志;其中,所述排障记录日志,包括:被排障目标的状态变更记录以及所述目标子系统的至少一个部分涉及的业务。
一个实施例中,在执行自动排除操作之后,再根据自动排障结果,确定是否需要人工介入辅助排障。
一个实施例中,在执行故障排除操作之后,生成自动排障结果。
一个实施例中,所述自动排障结果,至少包括以下之一:
自动排障成功;
自动排障失败。
示例性地,若所述自动排障结果指示自动排障成功,则确定不需要人工介入排障。
再示例性地,若所述自动排障结果指示自动排障失败,则确定需要人工介入排障。一个实施例中,若有至少一个目标子系统、目标子系统的至少一个部分排障失败,则自动排障结果为:自动排障失败。
一个实施例中,若所有的目标子系统、目标子系统的所有部分排障成功,则自动排障结果为:自动排障成功。
一个实施例中,关于所述步骤S108,若所述目标子系统的至少一个部分排障成功,则所述目标子系统的至少一个部分不需要再次执行排障。
一个实施例中,关于所述步骤S108,若所述目标子系统的至少一个部分排障失败,则所述目标子系统的至少一个部分需要再次执行排障。
示例性地,若所述目标子系统的至少一个部分排障失败,则需要人工介入执行排障。
一个实施例中,关于步骤S109中,若所述排障结果指示排障成功,则被排障目标的状态变更记录,包括:由报警时刻的故障状态更新到执行排障之后的稳定状态的记录。
一个实施例中,关于步骤S109中,若所述排障结果指示排障失败,则被排障目标的状态变更记录,包括:由报警时刻的故障状态保持为执行排障之后的故障状态的记录。
一个实施例中,所述目标子系统的至少一个部分涉及的业务,包括但不限于是:
服务业务;
管理业务。
一个实施例中,所述方法还包括:将所述排障记录日志发生至通讯软件,用于通知人工介入。人工介入之后可以根据状态图中的故障范围,快速确定出现故障的目标子系统。
一个实施例中,根据所述排障失败的结果,获取针对所述排障失败的部分的自动排障程序,并存储在排障处理列表中。
本公开实施例中,所述排障记录日志,可以用于分析排障失败的原因。可以使得人工介入,对排障失败的目标子系统和/或所述目标子系统的至少一个部分进行排障。对于排障失败的结果,可以用于获取更有效的自动排障程序,并更新在排障处理列表中,以便后续使用。
本公开实施例中,结合图6所示,所述方法,还包括:
步骤S110,当至少一个所述目标子系统中的处于故障状态时,执行所述预定网络系统的保护操作。
一个实施例中,所述执行网络系统的保护操作,可以是:为处于故障状态的所述目标子系统,提供的故障排除操作的时间的保护操作。
一个实施例中,所述执行网络系统的保护操作,包括但不限于是:
使所述目标子系统处于业务减少状态的保护操作;
使所述目标子系统处于业务空闲状态的保护操作。
一个实施例中,所述第一平台配置有保护开关,用于当至少一个所述目标子系统中的处于故障状态时,开启所述保护开关,以执行所述预定网络系统的保护操作。
一个实施例中,通过执行所述预定网络系统的保护操作,便于对处于故障状态的所述目标子系统执行障碍排除,并且也能降低处于故障状态的目标子系统对处于稳定状态的目标子系统的影响。
本公开实施例中,结合图7所示,所述步骤S110,当至少一个所述目标子系统中的处于故障状态时,执行所述预定网络系统的保护操作,包括:
步骤S1101,当至少一个所述目标子系统处于故障状态时,减少所述目标子系统的故障部分与所述目标子系统内正常部分之间的网络连接数量;
和/或;
步骤S1102,当至少一个所述目标子系统处于故障状态时,减少发生故障的所述目标子系统与所述预定网络系统内处于正常状态的所述目标子系统之间的网络连接数量。
一个实施例中,关于所述步骤S1101,对于目标子系统的发生故障的部分,减少该故障部分与所述目标子系统内正常部分之间的网络连接数量。从而减少发生故障的部分的业务量。
这里,所述正常部分,是指处于稳定指标达到稳定阈值的所述目标子系统的部分。
如此,可以降低所述目标子系统内的故障部分对正常部分的故障影响,并且便于对故障部分执行故障排除。
一个实施例中,关于所述步骤1102,对于发生故障状态的目标子系统,减少发生故障的目标子系统与所述预定网络系统内处于正常状态的所述目标子系统之间的网络连接数量。从而减少发生故障的目标子系统的业务量。
这里,所述正常状态,是指处于稳定指标达到稳定阈值的目标子系统的状态。
如此,可以降低出现故障的目标子系统对处于正常状态的目标子系统的影响,并且便于对出现故障的目标子系统执行故障排除。
本公开实施例中,结合图8所示,所述步骤S102,根据所述状态信息,生成各所述目标子系统的状态图,包括以下至少之一:
步骤S1021,若所述状态信息,指示所述目标子系统的至少一个部分处于稳定状态,则通过稳定状态标记标注所述至少一个部分;
步骤S1022,若所述状态信息,指示所述目标子系统的至少一个部分处于故障状态,则通过故障状态标记标注所述目标子系统以及所述至少一个部分;
或,
步骤S1023,若所述状态信息,指示所述目标子系统的至少一个部分处于濒临故障状态的预警状态,则通过预警状态标记标注所述目标子系统以及所述至少一个部分;其中,所述故障状态标记的提示强度,高于预警状态标记的提示程度;所述预警状态标记提示强度,高于所述稳定状态标记的提示程度。
一个实施例中,关于所述步骤S1021,还包括:若所述状态信息,指示所述目标子系统的所有部分处于稳定状态,则通过稳定状态标记标注所述目标子系统以及所述所有部分。
一个实施例中,关于所述步骤S1022,只要所述目标子系统的至少一个部分处于故障状态,则通过故障状态标记标注所述目标子系统以及所述至少一个部分。
如此,可以通过被故障状态标记的所述目标子系统以及所述至少一个部分,从状态图中,先确定故障状态标记的目标子系统,再进一步确定所述目标子系统中出现故障的至少一个部分。
一个实施例中,关于所述步骤S1023,只要所述目标子系统的至少一个部分处于濒临故障状态,则通预警状态标记标注所述目标子系统以及所述至少一个部分。
如此,可以通过被预警状态标记的所述目标子系统以及所述至少一个部分,从状态图中,先确定预警状态标记的目标子系统,再进一步确定所述目标子系统中处于预警状态的至少一个部分。
一个实施例中,所述故障状态标记、预警状态标记以及所述稳定状态标记之间的提示强度的区分,可以通过颜色深度和/或标记图标的尺寸大小来区分。
示例性地,所述故障状态标记的提示强度,高于预警状态标记的提示程度;所述预警状态标记提示强度,高于所述稳定状态标记的提示程度,用颜色来区分,可以是故障状态标记的颜色深度,深于预警状态标记的提示程度;所述预警状态标记的颜色深度,深于所述稳定状态标记的提示程度。
再示例性地,用标记图表的尺寸大小来区分,可以是故障状态标记的尺寸,大于预警状态标记的尺寸;预警状态标记的尺寸,大于稳定状态标记的尺寸。
如此,可以利用不同的状态标记,在所述状态图中,对不同状态的所述目标子系统以及目标子系统的部分,进行区分。
本公开实施例提供系统系统故障排除方法,具体为互联网自动化质量保障方案。
本公开实施例公开了一种互联网自动化质量保障方案,用于快速的保障线上系统的稳定性,从而达成更高的稳定SLO目标。这里,稳定SLO目标,可以用上述实施例的稳定指标表示。
本公开包括:自动排除故障程序配置化、报警触发自动排除故障程序、程序自动排除故障后反馈排除故障结果、自动排除故障失败通知人工介入、人工介入时提供高度集成的状态图报表。自动排除故障的架构流程图如图9所示。
如图9所示,包括通知层、排障层、监控层以及报警层,在稳定指标低于稳定阈值时,即当报警层的稳定指标监控部分(Influxdb Elasticsearch Prometheus)的监控到稳定指标低于稳定阈值时,通过告警推送部分(Grafana AlertManager)生成告警信息,并转发给告警中心,告警中心触发排障中心自动排障。
监控层的监控部分(Grafana Render)以及互联网技术中心(InternetTechnology,IT)监控状态信息。
排障层的配置中心、排障中心,以及业务应用程序编程接口(ApplicationProgrammi ng Interface,API)执行排障,配置中心配置自动排障规则,排障中心被触发后,调用业务应用程序编程接口,执行自动化排障,降低开关进行降级,排障前后更改状态以及存储日志数据,并且转发给排障中心。
排障中心会将排障结果和排障日志通过通知层的即时通讯软件、邮件和/或电话通知人工。
系统故障不可完全避免,但可管理。当系统遇到故障时,业内主要通过监控告警发现问题、通过日志分析找到线索、通过链路跟踪定位问题、通过(故障隔离、容灾切换、降级熔断、业务开关等方式)解决问题。人工在有效识别报警、梳理监控数据之间的逻辑关系、快速定位问题和确认影响范围、正确采取有效解决方式等过程时,都会投入时间从而拉长了排除故障效率,人工判断的正确性决定了排除故障效果。在遇到大规模的系统故障需要协同排除故障时,以上问题更为突出。以99.99%的可用性SLO为例,系统每天的可故障时间仅为8.64秒钟,面对复杂度较高的系统时,仅使用人工介入的保障方式,很难完成99.99%或更高的稳定性SLO目标,因此业内对自动化保障方案的诉求越加强烈。使用本自动化质量保障方案,遇到系统故障时,排除故障程序自动触发并高效的排除故障。当需要人工介入排除故障时,本方案可以帮助人工使用系统状态图,从颜色区别中快速识别定位故障范围。当遇到大规模的系统故障需要协同排除故障时,本监控状态大盘的宏观协同作用更加显著。本方案将使用到配置中心、自动排除故障中心、SLO、系统状态图、监控报警、消息通知群等系统。
一个实施例中,自动排除故障程序配置化,包括:互联网系统所依赖的资源及网络环境等复杂因素,共同决定了其系统交付能力。系统自身暴露的健康状态接口体现了其实时的交付能力,其自身的排除故障程序接口可以实时的完成其故障自查工作,其降级开关接口可以快速的止损降级。以上系统暴露的各种接口都可以通过配置中心系统,配置到“自动排除故障中心”中,以供排除故障工作自动化运行。
一个实施例中,报警触发自动排除故障程序,包括:互联网系统通常会建设监控报警设施,当报警被触发时将自动发送到“自动排除故障中心”以供触发自动化排除故障规则。
一个实施例中,人工介入排除故障时提供高度集成的状态图报表,该方法包括:
互联网系统排除故障时需要在众多的(日志、监控、报表)等数据中找出故障线索,当故障范围较大时,这些数据的集成度直接影响了排除故障效率。快速定位故障成为排除故障中最迫切的痛点。人工介入排除故障后,状态图快速识别故障范围。系统状态图借鉴了电网系统的实时状态图、发电站系统的实时状态图、铁路系统的实时状态图、公路系统的实时状态图、航空系统的实时状态图等,将系统的实时状态与系统间上下游影响体现在实时Dashboard中,利用系统SLO分层视角(上帝视角、业务视角、细节视角)来整体体现系统的健康程度,便于人工快速从颜色区别中识别定位故障的影响范围。图10、图11为系统状态图的实际效果图。这里,所述互联网系统可以用上述的预定网络系统表述。
在图10时,当目标子系统都为正常状态时,则颜色深度一致。
一个实施例中,结合图11所示,为有标记故障范围的状态图。
一个实施例中,结合图11所示,故障范围200内包含有出现故障的目标子系统202以及没有出现故障的目标子系统201。
在所述故障范围内,用第一深度的颜色标识故障范围200,用第二深度的颜色标识没有出现故障的目标子系统201,用第三深度的颜色标识出现故障的目标子系统202。
第一深度的颜色标识,比第二深度的颜色标识浅;第二深度的颜色,比第三深度的颜色标识浅。
一个实施例中,自动排除故障失败通知人工介入,包括:互联网系统的自动化排除故障规则可以对已知的故障进行覆盖,当遇到自动排除故障未能恢复系统交付能力时就需要人工介入排除故障,不同种类的系统故障由不同的人员来值班解决,“自动排除故障中心”负责将不同的报警分发给不同的人员介入。图12、图13为自动排除故障的实际效果图。
图12说明自动排障的结果为排障成功,无需人工介入。
图13说明自动排障的结果为排障失败,需要人工介入。
一个实施例中,由图9、图14举例,举例描述整体自动化质量保障方案如下:
步骤S201,业务系统开放出的(降级开关、故障排查、状态监测)等API接口,统一简称业务排障API;
步骤S202,将这类自动化接口按照排障配置规则录入到,配置中心系统中,形成自动化排障规则。
步骤S203,当业务系统遇到预期外的故障时,通过告警中心系统发出报警。
步骤S204,自动排障中心系统接收到报警后,按照相应的排障规则对业务排障API按照顺序依次调用。
步骤S205,最终将排除故障后的结果、收到报警时刻的系统状态、排除故障之后的状态、业务系统相关报表、是否需要人工介入等信息,汇总成富文本排障结果,发送到即时通讯软件中,通知人工。人工介入后,可以从系统状态图的颜色区别中快速识别定位故障的影响范围,起到缩小系统内的排障范围,提升排障效率的作用。
上述实施例中,用自动化故障排除的方式,程序可以代替人工,快速精准的解决部分的系统故障,从而将达成更高的稳定性SLO目标变为可能。当人工自动排障无法解决故障而交由人工介入时,也实时的将必要的排查结果汇总并提供给了人工,降低了人工排障的难度。当人工介入排除故障后,后续可以对故障进行复盘提炼为业务排障API,录入到配置中心系统中,持续不断的强化业务系统的自动排障能力。
本公开实施例中,可以快速的保障线上系统的稳定性,从而达成更高的SLO目标。
当系统遇到故障时,业内主要通过监控告警发现问题、通过日志分析找到线索、通过链路跟踪定位问题、通过(故障隔离、容灾切换、降级熔断、业务开关等方式)解决问题。
人工在有效识别报警、梳理监控数据之间的逻辑关系、快速定位问题和确认影响范围、正确采取有效解决方式等过程时,都会投入时间从而拉长了排除故障效率,人工判断的正确性决定了排除故障效果。在遇到大规模的系统故障需要协同排除故障时,以上问题更为突出。以99.99%的可用性SLO为例,系统每天的可故障时间仅为8.64秒钟,面对复杂度较高的系统时,仅使用人工介入的保障方式,很难完成99.99%或更高的稳定性SLO目标,因此业内对自动化保障方案的诉求越加强烈。
本公开实施例中,遇到系统故障时,排除故障程序自动触发并高效的排除故障。当需要人工介入排除故障时,本方案可以帮助人工使用系统状态图,从颜色区别中快速识别定位故障范围。当遇到大规模的系统故障需要协同排除故障时,本监控状态大盘的宏观协同作用更加显著。
本公开实施例中,结合图15所示,提供一种系统故障排除装置400,所述装置包括:
监控模块401,用于监控各所述目标子系统的状态信息;
第一生成模块402,用于根据所述状态信息,生成各所述目标子系统的状态图;其中,所述状态图上具有状态标记,所述状态标记,标注所述目标子系统中的至少一个部分处于稳定状态、故障状态或者濒临故障状态的预警状态;
检测模块403,用于检测所述预定网络系统的各目标子系统的稳定指标是否达到稳定阈值;其中,所述稳定指标,为:所述目标子系统在预设时长内的稳定时间与所述预设时长的占比;第一确定模块404,当所述稳定指标未达到所述稳定阈值时,根据所述状态图确定故障信息;其中,所述故障信息,指示故障位置、故障范围以及故障类型的至少其中之一;
第二确定模块405,用于根据所述故障信息,确定当前故障是否为自动排除故障类型;
第一执行模块406,用于若所述当前故障为自动排除故障类型,执行故障排除操作。
本公开实施例中,结合图16所示,所述装置400,还包括:
第二生成模块407,用于若确定所述预定网络系统的部分目标子系统的稳定指标未达到稳定阈值,生成告警信息;其中,所述告警信息,至少包括:目标子系统以及所述目标子系统的定位信息以及故障信息。
本公开实施例中,所述第一确定模块404,配置为:
当所述稳定指标未达到所述稳定阈值时,根据所述状态图中显示的故障范围,确定出现故障的所述目标子系统;
根据确定的出现故障的所述目标子系统,确定所述目标子系统中出现故障的部分的故障信息。
本公开实施例中,所述第一执行模块405,配置为:
若所述当前故障为自动排除故障类型,根据所述自动排除故障类型包含的故障内容,生成故障查询索引;
根据所述故障查询索引,在故障处理列表中查询对应的故障处理内容;
根据所述故障处理内容,对处于故障状态的目标子系统的至少一个部分执行故障排除。
本公开实施例中,结合图16所示,所述装置400,还包括:
第二执行模块408,用于执行故障排除操作之后,生成排障结果;所述排障结果,包括:所述目标子系统的至少一个部分的,排障成功或排障失败的结果;
第三生成模块409,用于根据所述排障结果,生成排障记录日志;其中,所述排障记录日志,包括:被排障目标的状态变更记录以及所述目标子系统的至少一个部分涉及的业务。
本公开实施例中,结合图16所示,所述装置400还包括:
第三执行模块410,用于当至少一个所述目标子系统中的处于故障状态时,执行所述预定网络系统的保护操作。
本公开实施例中,所述第三执行模块410,配置为:
当至少一个所述目标子系统处于故障状态时,减少所述目标子系统的故障部分与所述目标子系统内正常部分之间的网络连接数量;
和/或;
当至少一个所述目标子系统处于故障状态时,减少发生故障的所述目标子系统与所述预定网络系统内处于正常状态的所述目标子系统之间的网络连接数量。
本公开实施例中,所述第一生成模块406,还配置为以下之一:
若所述状态信息,指示所述目标子系统的至少一个部分处于稳定状态,则通过稳定状态标记标注所述至少一个部分;
若所述状态信息,指示所述目标子系统的至少一个部分处于故障状态,则通过故障状态标记标注所述目标子系统以及所述至少一个部分;
或,
若所述状态信息,指示所述目标子系统的至少一个部分处于濒临故障状态的预警状态,则通过预警状态标记标注所述目标子系统以及所述至少一个部分;其中,所述故障状态标记的提示强度,高于预警状态标记的提示程度;所述预警状态标记提示强度,高于所述稳定状态标记的提示程度。
本公开实施例提供一种电子设备,包括:
用于存储处理器可执行指令的存储器;
处理器,与存储器连接;
其中,处理器被配置为执行前述任意技术方案提供的系统故障排除方法。
处理器可包括各种类型的存储介质,该存储介质为非临时性计算机存储介质,在电子设备掉电之后能够继续记忆存储其上的信息。
处理器可以通过总线等与存储器连接,用于读取存储器上存储的可执行程序,例如,能够执行前述一个或多个技术方案所述方法。
本公开一实施例提供一种电子设备的结构。电子设备包括处理组件,其进一步包括一个或多个处理器,以及由存储器所代表的存储器资源,用于存储可由处理组件的执行的指令,例如应用程序。存储器中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件被配置为执行指令,以执行上述方法应用在所述电子设备的任意方法,例如,前述一个或多个技术方案所述方法。
电子设备还可以包括一个电源组件被配置为执行电子设备的电源管理,一个有线或无线网络接口被配置为将电子设备连接到网络,和一个输入输出(I/O)接口。电子设备可以操作基于存储在存储器的操作系统,例如Windows Server TM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本公开实施例提供一种非临时性计算机可读存储介质,当存储介质中的指令由计算机的处理器执行时,使得计算机能够执行前述一个或多个技术方案所述的系统故障排除方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附申请文件指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的申请文件来限制。

Claims (18)

1.一种系统故障排除方法,其特征在于,应用于第一平台,其中,所述第一平台用于监控预定网络系统,所述预定网络系统包括多个具有网络连接的目标子系统,所述方法包括:
监控各所述目标子系统的状态信息;
根据所述状态信息,生成各所述目标子系统的状态图;其中,所述状态图上具有状态标记,所述状态标记,标注所述目标子系统中的至少一个部分处于稳定状态、故障状态或者濒临故障状态的预警状态;
检测所述预定网络系统的各目标子系统的稳定指标是否达到稳定阈值;其中,所述稳定指标,为:所述目标子系统在预设时长内的稳定时间与所述预设时长的占比;
当所述稳定指标未达到所述稳定阈值时,根据所述状态图确定故障信息;其中,所述故障信息,指示故障位置、故障范围以及故障类型的至少其中之一;
根据所述故障信息,确定当前故障是否为自动排除故障类型;
若所述当前故障为自动排除故障类型,执行故障排除操作。
2.根据权利要求1所述的系统故障排除方法,其特征在于,所述方法,还包括:
若确定所述预定网络系统的部分目标子系统的稳定指标未达到稳定阈值,生成告警信息;其中,所述告警信息,至少包括:目标子系统以及所述目标子系统的定位信息以及故障信息。
3.根据权利要求1所述的系统故障排除方法,其特征在于,所述当所述稳定指标未达到所述稳定阈值时,根据所述状态图确定故障信息,包括:
当所述稳定指标未达到所述稳定阈值时,根据所述状态图中显示的故障范围,确定出现故障的所述目标子系统;
根据确定的出现故障的所述目标子系统,确定所述目标子系统中出现故障的部分的故障信息。
4.根据权利要求1所述的系统故障排除方法,其特征在于,所述若所述当前故障为自动排除故障类型,执行故障排除操作,包括:
若所述当前故障为自动排除故障类型,根据所述自动排除故障类型包含的故障内容,生成故障查询索引;
根据所述故障查询索引,在故障处理列表中查询对应的故障处理内容;
根据所述故障处理内容,对处于故障状态的目标子系统的至少一个部分执行故障排除。
5.根据权利要求2或3所述的系统故障排除方法,其特征在于,所述方法,还包括:
执行故障排除操作之后,生成排障结果;所述排障结果,包括:所述目标子系统的至少一个部分的,排障成功或排障失败的结果;
根据所述排障结果,生成排障记录日志;其中,所述排障记录日志,包括:被排障目标的状态变更记录以及所述目标子系统的至少一个部分涉及的业务。
6.根据权利要求1所述的系统故障排除方法,其特征在于,所述方法,还包括:
当至少一个所述目标子系统中的处于故障状态时,执行所述预定网络系统的保护操作。
7.根据权利要求6所述的系统故障排除方法,其特征在于,所述当至少一个所述目标子系统中的处于故障状态时,执行所述预定网络系统的保护操作,包括:
当至少一个所述目标子系统处于故障状态时,减少所述目标子系统的故障部分与所述目标子系统内正常部分之间的网络连接数量;
和/或;
当至少一个所述目标子系统处于故障状态时,减少发生故障的所述目标子系统与所述预定网络系统内处于正常状态的所述目标子系统之间的网络连接数量。
8.根据权利要求1所述的系统故障排除方法,其特征在于,所述根据所述状态信息,生成各所述目标子系统的状态图,包括以下至少之一:
若所述状态信息,指示所述目标子系统的至少一个部分处于稳定状态,则通过稳定状态标记标注所述至少一个部分;
若所述状态信息,指示所述目标子系统的至少一个部分处于故障状态,则通过故障状态标记标注所述目标子系统以及所述至少一个部分;
或,
若所述状态信息,指示所述目标子系统的至少一个部分处于濒临故障状态的预警状态,则通过预警状态标记标注所述目标子系统以及所述至少一个部分;其中,所述故障状态标记的提示强度,高于预警状态标记的提示程度;所述预警状态标记提示强度,高于所述稳定状态标记的提示程度。
9.一种系统故障排除装置,其特征在于,所述装置包括:
监控模块,用于监控各所述目标子系统的状态信息;
第一生成模块,用于根据所述状态信息,生成各所述目标子系统的状态图;其中,所述状态图上具有状态标记,所述状态标记,标注所述目标子系统中的至少一个部分处于稳定状态、故障状态或者濒临故障状态的预警状态;
检测模块,用于检测所述预定网络系统的各目标子系统的稳定指标是否达到稳定阈值;其中,所述稳定指标,为:所述目标子系统在预设时长内的稳定时间与所述预设时长的占比;
第一确定模块,当所述稳定指标未达到所述稳定阈值时,根据所述状态图确定故障信息;其中,所述故障信息,指示故障位置、故障范围以及故障类型的至少其中之一;
第二确定模块,用于根据所述故障信息,确定当前故障是否为自动排除故障类型;
第一执行模块,用于若所述当前故障为自动排除故障类型,执行故障排除操作。
10.根据权利要求9所述的系统故障排除装置,其特征在于,所述装置,还包括:
第二生成模块,用于若确定所述预定网络系统的部分目标子系统的稳定指标未达到稳定阈值,生成告警信息;其中,所述告警信息,至少包括:目标子系统以及所述目标子系统的定位信息以及故障信息。
11.根据权利要求9所述的系统故障排除装置,其特征在于,所述第一确定模块,配置为:
当所述稳定指标未达到所述稳定阈值时,根据所述状态图中显示的故障范围,确定出现故障的所述目标子系统;
根据确定的出现故障的所述目标子系统,确定所述目标子系统中出现故障的部分的故障信息。
12.根据权利要求9所述的系统故障排除装置,其特征在于,所述第一执行模块,配置为:
若所述当前故障为自动排除故障类型,根据所述自动排除故障类型包含的故障内容,生成故障查询索引;
根据所述故障查询索引,在故障处理列表中查询对应的故障处理内容;
根据所述故障处理内容,对处于故障状态的目标子系统的至少一个部分执行故障排除。
13.根据权利要求10或11所述的系统故障排除装置,其特征在于,所述装置,还包括:
第二执行模块,用于执行故障排除操作之后,生成排障结果;所述排障结果,包括:所述目标子系统的至少一个部分的,排障成功或排障失败的结果;
第三生成模块,用于根据所述排障结果,生成排障记录日志;其中,所述排障记录日志,包括:被排障目标的状态变更记录以及所述目标子系统的至少一个部分涉及的业务。
14.根据权利要求9所述的系统故障排除装置,其特征在于,所述装置还包括:
第三执行模块,用于当至少一个所述目标子系统中的处于故障状态时,执行所述预定网络系统的保护操作。
15.根据权利要求14所述的系统故障排除装置,其特征在于,所述第三执行模块,配置为:
当至少一个所述目标子系统处于故障状态时,减少所述目标子系统的故障部分与所述目标子系统内正常部分之间的网络连接数量;
和/或;
当至少一个所述目标子系统处于故障状态时,减少发生故障的所述目标子系统与所述预定网络系统内处于正常状态的所述目标子系统之间的网络连接数量。
16.根据权利要求9所述的系统故障排除装置,其特征在于,所述第一生成模块,还配置为以下之一:
若所述状态信息,指示所述目标子系统的至少一个部分处于稳定状态,则通过稳定状态标记标注所述至少一个部分;
若所述状态信息,指示所述目标子系统的至少一个部分处于故障状态,则通过故障状态标记标注所述目标子系统以及所述至少一个部分;
或,
若所述状态信息,指示所述目标子系统的至少一个部分处于濒临故障状态的预警状态,则通过预警状态标记标注所述目标子系统以及所述至少一个部分;其中,所述故障状态标记的提示强度,高于预警状态标记的提示程度;所述预警状态标记提示强度,高于所述稳定状态标记的提示程度。
17.一种电子设备,其特征在于,包括:
用于存储处理器可执行指令的存储器;
处理器,与所述存储器连接;
其中,所述处理器被配置为执行如权利要求1至8中任一项提供的系统故障排除方法。
18.一种非临时性计算机可读存储介质,当所述存储介质中的指令由计算机的处理器执行时,使得计算机能够执行如权利要求1至8中任一项提供的系统故障排除方法。
CN202210370004.3A 2022-04-08 2022-04-08 系统故障排除方法及装置、电子设备及存储介质 Active CN114915541B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210370004.3A CN114915541B (zh) 2022-04-08 2022-04-08 系统故障排除方法及装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210370004.3A CN114915541B (zh) 2022-04-08 2022-04-08 系统故障排除方法及装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN114915541A true CN114915541A (zh) 2022-08-16
CN114915541B CN114915541B (zh) 2023-03-10

Family

ID=82763637

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210370004.3A Active CN114915541B (zh) 2022-04-08 2022-04-08 系统故障排除方法及装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114915541B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116736027A (zh) * 2023-08-16 2023-09-12 深圳市环阳通信息技术有限公司 用于医疗自助终端的设备故障预警系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5761429A (en) * 1995-06-02 1998-06-02 Dsc Communications Corporation Network controller for monitoring the status of a network
CN103490919A (zh) * 2013-09-02 2014-01-01 用友软件股份有限公司 故障管理系统和故障管理方法
US20140164851A1 (en) * 2011-11-04 2014-06-12 Simon Pelly Fault Processing in a System
CN106789323A (zh) * 2017-01-05 2017-05-31 深圳奇迹智慧网络有限公司 一种通信网络管理方法及其装置
CN107592234A (zh) * 2017-11-03 2018-01-16 睿石网云(北京)科技有限公司 业务链路故障定位的方法、系统和计算机可读存储介质
CN111865673A (zh) * 2020-07-08 2020-10-30 上海燕汐软件信息科技有限公司 一种自动化故障管理方法、装置及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5761429A (en) * 1995-06-02 1998-06-02 Dsc Communications Corporation Network controller for monitoring the status of a network
US20140164851A1 (en) * 2011-11-04 2014-06-12 Simon Pelly Fault Processing in a System
CN103490919A (zh) * 2013-09-02 2014-01-01 用友软件股份有限公司 故障管理系统和故障管理方法
CN106789323A (zh) * 2017-01-05 2017-05-31 深圳奇迹智慧网络有限公司 一种通信网络管理方法及其装置
CN107592234A (zh) * 2017-11-03 2018-01-16 睿石网云(北京)科技有限公司 业务链路故障定位的方法、系统和计算机可读存储介质
CN111865673A (zh) * 2020-07-08 2020-10-30 上海燕汐软件信息科技有限公司 一种自动化故障管理方法、装置及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116736027A (zh) * 2023-08-16 2023-09-12 深圳市环阳通信息技术有限公司 用于医疗自助终端的设备故障预警系统
CN116736027B (zh) * 2023-08-16 2023-10-27 深圳市环阳通信息技术有限公司 用于医疗自助终端的设备故障预警系统

Also Published As

Publication number Publication date
CN114915541B (zh) 2023-03-10

Similar Documents

Publication Publication Date Title
KR101856543B1 (ko) 인공지능 기반의 장애 예측 시스템
CN101201786B (zh) 一种故障日志监控方法及装置
CN103607297B (zh) 一种计算机集群系统的故障处理方法
CN104202201B (zh) 一种日志处理方法、装置及终端
CN109034423B (zh) 一种故障预警判定的方法、装置、设备及存储介质
CN106385339B (zh) 企业网络的访问性能的监控方法和监控系统
CN113328872A (zh) 故障修复方法、装置和存储介质
CN106789306A (zh) 通信设备软件故障检测收集恢复方法和系统
CN114915541B (zh) 系统故障排除方法及装置、电子设备及存储介质
CN109240863A (zh) 一种cpu故障定位方法、装置、设备及存储介质
US20170351560A1 (en) Software failure impact and selection system
CN105607973B (zh) 一种虚拟机系统中设备故障处理的方法、装置及系统
CN104639352A (zh) 监控装置以及监控方法
CN105207797A (zh) 故障定位方法和装置
US20030023721A1 (en) Method and apparatus for generating context-descriptive messages
CN107968727A (zh) 一种cifs服务的检测方法、装置及介质
CN116895046B (zh) 基于虚拟化的异常运维数据处理方法
EP1653662A2 (en) Protection switch logging methods and systems
CA3144664A1 (en) Determining problem dependencies in application dependency discovery, reporting, and management tool
CN116643906A (zh) 云平台故障的处理方法、装置、电子设备及存储介质
CN115102838B (zh) 服务器宕机风险的应急处理方法和装置、电子设备
CN105955864A (zh) 电源故障处理方法、电源模块、监控管理模块及服务器
CN107682173B (zh) 基于交易模型的自动故障定位方法和系统
CN112131090B (zh) 业务系统性能监控方法及装置、设备及介质
CN114500249A (zh) 一种根因定位方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant