CN112363895A - 一种系统故障的定位方法、装置及电子设备 - Google Patents

一种系统故障的定位方法、装置及电子设备 Download PDF

Info

Publication number
CN112363895A
CN112363895A CN202010819471.0A CN202010819471A CN112363895A CN 112363895 A CN112363895 A CN 112363895A CN 202010819471 A CN202010819471 A CN 202010819471A CN 112363895 A CN112363895 A CN 112363895A
Authority
CN
China
Prior art keywords
service module
service
fault
module
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010819471.0A
Other languages
English (en)
Other versions
CN112363895B (zh
Inventor
白园
周建亮
马天驰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202010819471.0A priority Critical patent/CN112363895B/zh
Publication of CN112363895A publication Critical patent/CN112363895A/zh
Application granted granted Critical
Publication of CN112363895B publication Critical patent/CN112363895B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3495Performance evaluation by tracing or monitoring for systems

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

本公开关于一种系统故障的定位方法,方法包括:若目标系统发生故障,则从目标系统的各个服务中确定导致目标系统发生故障的目标服务;确定目标服务中至少一个第一服务模块的第一故障判定参数,以及与各第一服务模块关联的第二服务模块的运行状况信息;第二服务模块包括:第一服务模块的上游服务模块以及第一服务模块的下游服务模块;第一服务模块和第二服务模块为用于实现目标服务的服务模块;基于各第一服务模块的第一故障判定参数、第二服务模块的运行状况信息,从各第一服务模块、第二服务模块中确定发生故障的故障服务模块。本公开还公开一种系统故障的定位装置、电子设备及计算机可读存储介质。

Description

一种系统故障的定位方法、装置及电子设备
技术领域
本公开涉及故障处理技术领域,尤其涉及一种系统故障的定位方法、装置及电子设备。
背景技术
为了保障系统的正常稳定运行,当系统发生故障时,需及时地对故障进行定位。
相关技术中,在进行系统故障定位时,维护人员需要根据之前记载在运维故障经验库 中的历史故障信息,进行人工手动查找,以确定系统发生故障的模块,其中,历史故障信 息用于描述发生故障时系统的现象。
比如,以系统为Windows操作系统为例,假设运维故障经验库中记载:Windows操作系统出现蓝屏现象是由于内存条发生故障,出现黑屏现象是由于显卡、主板或CPU等 发生故障,则当Windows操作系统发生系统故障出现蓝屏现象时,则可以根据运维故障 经验库中记载的信息,确定出内存条发生故障。
然而,由于相关技术中需要依赖于维护人员手工查找运维经验库记载的信息进行故障 定位,而手工查找速度较慢,从而容易导致系统故障的定位效率较低。
基于此,如何提高系统故障的定位效率,是本领域技术人员亟需解决的技术问题。
发明内容
本公开提供一种系统故障的定位方法、装置及电子设备,以至少解决相关技术中通过 维护人员手工查找运维经验库记载的信息进行故障定位,导致的系统故障的定位效率较低 的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种系统故障的定位方法,包括:
若目标系统发生故障,则从目标系统的各个服务中确定导致目标系统发生故障的目标 服务;
确定目标服务中至少一个第一服务模块的第一故障判定参数,以及与各第一服务模块 关联的第二服务模块的运行状况信息;第二服务模块包括:第一服务模块的上游服务模块 以及第一服务模块的下游服务模块;第一服务模块和第二服务模块为用于实现目标服务的 服务模块;
基于各第一服务模块的第一故障判定参数、第二服务模块的运行状况信息,从各第一 服务模块、第二服务模块中确定发生故障的故障服务模块。
在一种可选的实施方式中,确定目标系统中导致目标系统发生故障的目标服务,包括:
若目标系统发生故障,则获取目标系统中的各个服务的第二故障判定参数;
从各个服务中选取第二故障判定参数满足预设的系统故障发生条件的第一服务,确定 为目标服务。
在一种可选的实施方式中,预设的系统故障发生条件,包括以下至少一种:
第一服务的第二故障判定参数与第一服务的历史第二故障判定参数之间的变化幅度 大于预设的幅度阈值;
第一服务的第二故障判定参数在预设时间段内的变化趋势与预设的第二服务的第三 故障判定参数在预设时间段内的变化趋势不同,其中,第二服务与第一服务的服务类型相 同。
在一种可选的实施方式中,若运行状况信息包括正常和异常,则基于各第一服务模块 的第一故障判定参数、第二服务模块的运行状况信息,从各第一服务模块、第二服务模块 中确定发生故障的故障服务模块,包括:
基于各第一服务模块的各第一故障判定参数以及预设的故障参数阈值,从各第一服务 模块中确定疑似导致发生故障的第三服务模块;
基于第二服务模块的运行状况信息,从各第一服务模块、第二服务模块中确定疑似导 致发生故障的第四服务模块;
从第三服务模块和第四服务模块中确定故障服务模块。
在一种可选的实施方式中,基于第二服务模块的运行状况信息,从各第一服务模块、 第二服务模块中确定疑似导致发生故障的第四服务模块,包括:
若第一服务模块的上游服务模块的运行状况信息为正常,且第一服务模块的下游服务 模块的运行状况信息均为异常,则将第一服务模块确定为疑似导致发生故障的第四服务模 块。
在一种可选的实施方式中,确定与各第一服务模块关联的第二服务模块的运行状况信 息,包括:
获取目标服务中各第一服务模块之间的链路关系;
基于链路关系确定目标服务中与各第一服务模块关联的第二服务模块;
确定第二服务模块的运行状况信息。
在一种可选的实施方式中,在基于各第一服务模块的第一故障判定参数、第二服务模 块的运行状况信息,从各第一服务模块、第二服务模块中确定发生故障的故障服务模块之 后,方法还包括:
获取预设时间段内目标系统的变更信息和/或异常信息;
基于变更信息的预设权重,和/或异常信息的预设权重,确定故障服务模块的故障原 因。
根据本公开实施例的第二方面,提供一种系统故障的定位装置,包括:
服务确定模块,被配置为执行若目标系统发生故障,则从目标系统的各个服务中确定 导致目标系统发生故障的目标服务;
信息确定模块,被配置为执行确定目标服务中至少一个第一服务模块的第一故障判定 参数,以及与各第一服务模块关联的第二服务模块的运行状况信息;第二服务模块包括: 第一服务模块的上游服务模块以及第一服务模块的下游服务模块;第一服务模块和第二服 务模块为用于实现目标服务的服务模块;
故障定位模块,被配置为执行基于各第一服务模块的第一故障判定参数、第二服务模 块的运行状况信息,从各第一服务模块、第二服务模块中确定发生故障的故障服务模块。
在一种可选的实施方式中,服务确定模块,用于:
若目标系统发生故障,则获取目标系统中的各个服务的第二故障判定参数;
从各个服务中选取第二故障判定参数满足预设的系统故障发生条件的第一服务,确定 为目标服务。
在一种可选的实施方式中,预设的系统故障发生条件,包括以下至少一种:
第一服务的第二故障判定参数与第一服务的历史第二故障判定参数之间的变化幅度 大于预设的幅度阈值;
第一服务的第二故障判定参数在预设时间段内的变化趋势与预设的第二服务的第三 故障判定参数在预设时间段内的变化趋势不同,其中,第二服务与第一服务的服务类型相 同。
在一种可选的实施方式中,若运行状况信息包括正常和异常,则故障定位模块,包括:
第一确定单元,被配置为执行基于各第一服务模块的各第一故障判定参数以及预设的 故障参数阈值,从各第一服务模块中确定疑似导致发生故障的第三服务模块;;
第二确定单元,被配置为执行基于第二服务模块的运行状况信息,从各第一服务模块、 第二服务模块中确定疑似导致发生故障的第四服务模块;
从第三服务模块和第四服务模块中确定故障服务模块。
在一种可选的实施方式中,第二确定单元,用于:
若第一服务模块的上游服务模块的运行状况信息为正常,且第一服务模块的下游服务 模块的运行状况信息均为异常,则将第一服务模块确定为疑似导致发生故障的第四服务模 块。
在一种可选的实施方式中,信息确定模块,用于:
获取目标服务中服务模块之间的链路关系;
基于链路关系确定目标服务中与各第一服务模块关联的第二服务模块;
确定第二服务模块的运行状况信息。
在一种可选的实施方式中,装置还包括故障原因确定模块,用于:
获取预设时间段内目标系统的变更信息和/或异常信息;
基于变更信息的预设权重,和/或异常信息的预设权重,确定发生故障的服务模块的 故障原因。
根据本公开实施例的第五方面,提供一种计算机程序产品,包括:
当其在电子设备上运行时,使得系统故障的定位电子设备执行上述第一方面所示的系 统故障的定位方法步骤。
本公开的实施例提供的技术方案至少带来以下有益效果:
采用本公开实施例提供的方法,若目标系统发生故障,可以从目标系统的各个服务中 确定导致目标系统发生故障的目标服务;确定目标服务中至少一个第一服务模块的第一故 障判定参数,以及与各第一服务模块关联的第二服务模块的运行状况信息;第二服务模块 包括:第一服务模块的上游服务模块以及第一服务模块的下游服务模块;第一服务模块和 第二服务模块为用于实现目标服务的服务模块;基于各第一服务模块的第一故障判定参 数、第二服务模块的运行状况信息,从各第一服务模块、第二服务模块中确定发生故障的 故障服务模块,这样,首先可以将故障发生范围从目标系统的多个服务中定位到目标服务 减小定位范围,进而从目标服务中确定发生故障的故障服务模块,缩短定位时间;其次, 相对于相关技术而言,本公开实施例中不需要依赖维护人员手工查找运维经验库记载的信 息进行故障定位,避免了维护人员手工查找导致系统故障的定位效率较低的问题,从而可 以提高系统故障的定位效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限 制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例, 并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种系统故障的定位方法的流程图。
图2是根据一示例性实施例示出的一种服务的第二故障判定参数的曲线的示意图。
图3是根据一示例性实施例示出的一种目标服务中各第一服务模块之间的链路关系 的示意图。
图4是根据一示例性实施例示出的一种基于各第一服务模块的各第一故障判定参数 以及预设的故障参数阈值,从各第一服务模块中确定疑似导致发生故障的第三服务模块的 流程图。
图5是根据一示例性实施例示出的一种系统故障的定位装置的框图。
图6是根据一示例性实施例示出的一种电子设备的结构框图。
图7是根据一示例性实施例示出的一种电子设备的硬件结构框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实 施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二” 等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的 数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或 描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相 一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方 面相一致的装置和方法的例子。
实施例1
在对本公开实施例提供的系统故障的定位方法进行详细介绍之前,先对本公开实施例 涉及的应用场景进行简单介绍。
通常,为了保障系统的正常稳定运行,当系统发生故障时,需及时地对故障进行定位。
然而,相关技术中,在进行系统故障定位时,维护人员需要根据之前记载在运维故障 经验库中的历史故障信息,进行人工手动查找,以确定系统发生故障的模块,容易导致系 统故障的定位效率较低。
为了解决上述技术问题,本申请人提出一种系统故障的自动定位方法,该定位方法的 主要思路包括从全局定位到局部,再由局部定位到点,在目标系统中即可以理解为由目标 系统定位到目标系统中的某个服务,再由某个服务定位到该服务下的某个具体模块。该方 法包括以下步骤:从目标系统的各个服务中确定导致目标系统发生故障的目标服务;确定 目标服务中至少一个第一服务模块的第一故障判定参数,以及与各第一服务模块关联的第 二服务模块的运行状况信息;第二服务模块包括:第一服务模块的上游服务模块以及第一 服务模块的下游服务模块;第一服务模块和第二服务模块为用于实现目标服务的服务模 块;基于各第一服务模块的第一故障判定参数、第二服务模块的运行状况信息,从各第一 服务模块、第二服务模块中确定发生故障的故障服务模块,这样,首先可以将故障发生范 围从目标系统的多个服务中定位到目标服务减小定位范围,进而从目标服务中确定发生故 障的故障服务模块,缩短定位时间;其次,相对于相关技术而言,本公开实施例中不需要 依赖维护人员手工查找运维经验库记载的信息进行故障定位,避免了维护人员手工查找导 致系统故障的定位效率较低的问题,从而可以提高系统故障的定位效率。
该方法的执行主体可以包括但不限于客户端、服务器、电脑、智能手机、可穿戴设备 等可以通过运行预定程序或指令来执行逻辑计算等预定处理过程的智能电子设备。其中, 服务器可以是单个服务器或者多个服务器组。
当服务器是服务器组时,服务器组中的每个服务器之间可以共享已存储的视频所关联 的拍摄素材数据等。
下面将以该方法的执行主体为服务器为例,结合附图对该方法包括的各步骤进行详细 介绍:
如图1所示,图1是根据一示例性实施例示出的一种系统故障的定位方法的流程图, 该方法包括以下步骤S11~步骤S13:
在步骤S11中,若目标系统发生故障,则通过服务器从目标系统的各个服务中确定导致所述目标系统发生故障的目标服务。
在本公开实施例中,目标系统可以理解为待进行故障定位的系统。当该目标系统不能 执行规定功能时,比如目标系统停止运行、目标系统在执行过程中以非正常的方式终止, 目标系统的信息丢失、目标系统的服务参数异常等,则可以确定目标系统发生故障。
需要说明的是,上述例举的目标系统发生故障的实例仅是一种示例性说明,并不对本 公开实施例造成任何限定。
实际应用中,若目标系统发生故障,在不确定导致系统发生故障的服务模块的前提下, 为了对目标系统进行及时维修,可能需要针对目标系统中的各个服务模块进行逐一检测, 以确定系统发生故障的服务模块,进而进行维修。然而,若发生系统故障的目标系统包括 多个不同的系统服务,且每个系统服务又包括多个服务模块,此时,若针对多个系统服务 中的多个服务模块进行逐一检测,确定导致系统发生故障的服务模块,则容易降低定位效 率。
针对上述技术问题,考虑到虽然目标系统中可能包括多个不同的系统服务,然而导致 目标系统发生故障的通常仅是少数系统服务,因此,为了解决上述问题,在定位目标系统 的故障时,可以先从目标系统中确定出导致目标系统发生故障的目标服务,这样,后续在 确定导致目标系统发生故障的具体服务模块时,则可以将范围缩小至目标服务中,而无需 关注除目标服务以外的服务中的服务模块,从而可以提高定位效率。
其中,目标系统的各个服务可以理解为用于执行目标系统功能的各个程序、各个进程 或各个例程。相应地,目标服务,可以包括导致目标系统发生故障的系统服务,即导致目 标系统发生故障的目标系统功能的程序、进程或例程。
在一种可选地实施方式中,为了保证确定的目标服务更准确,可以采用如下步骤111~ 步骤112的方式确定目标服务:
在步骤111中,若目标系统发生故障,则获取目标系统中的各个服务的第二故障判定 参数;
在步骤112中,从各个服务中选取第二故障判定参数满足预设的系统故障发生条件的 第一服务,确定为目标服务。
其中,第二故障判定参数可以理解为服务的对外关注点数据,或是有价值的服务数据。 例如,以服务为播放服务为例,则该播放服务的第二故障判定参数可以包括预设时间段内 的播放量。
在一种可选的实施方式中,第二故障判定参数还可以包括比如流量、错误率、浏览量 或点击量、相同用户独立访问的次数等数据。
在一种可选地实施方式中,预设的系统故障发生条件,包括以下至少一种:
第一服务的第二故障判定参数与第一服务的历史第二故障判定参数之间的变化幅度 大于预设的幅度阈值;
第一服务的第二故障判定参数在预设时间段内的变化趋势与预设的第二服务的第三 故障判定参数在预设时间段内的变化趋势不同,其中,第二服务与第一服务的服务类型相 同。
以下结合实施例以及预设的系统故障发生条件,详细说明如何确定目标服务。
在一种可选的实施例中,若预设的系统故障发生条件包括第一服务的第二故障判定参 数与第一服务的历史第二故障判定参数之间的变化幅度大于预设的幅度阈值,则确定导致 发生故障的目标服务时,可以采用如下方法:
获取目标系统发生故障时至少一个第一服务的第二故障判定参数,以及至少一个第一 服务的历史第二故障判定参数,并以各第二故障判定参数对应的时间点作为横坐标,以各 第二故障判定参数的数值作为纵坐标进行绘图;
在一种可选的实施方式中,为了可以直观地描述服务的第二故障判定参数的变化,绘 图时,比如可以选择曲线图、柱状图等。
基于绘制后的图(假设为曲线图),采用波动检测方法或对比检测方法等,检测该曲 线图是否有突增和/或突降现象,当检测到曲线图出现突增和/或突降现象,则确定该曲线 图对应的服务为目标服务。
其中,历史第二故障判定参数可以包括该服务在过去一个小时、过去十分钟、过去一 天、或过去一周的核心指标数据。
对比检测方法,比如可以包括同比检测方法、环比检测方法等。
其中,同比检测方法,即采用目标系统故障时获取的该服务的第二故障判定参数与过 去一天,或过去一周的该服务的历史第二故障判定参数进行比较,看变化幅度是否超过预 设的幅度阈值。
环比检测方法,即采用目标系统故障时获取的该服务的第二故障判定参数与过去一个 小时,或过去十分钟的该服务的历史第二故障判定参数进行比较,看变化幅度是否超过预 设的幅度阈值。
例如,如图2所示,假设图2为本公开实施例的一种服务的第二故障判定参数的曲线 的示意图,该曲线图的横坐标为时间,纵坐标为该服务的第二故障判定参数在各个时间点 的数值,可见该服务从T3时刻开始,第二故障判定参数的数值出现突增现象,且突增的幅度大于预设的幅度阈值,则可以确定该服务为导致目标系统发生故障的目标服务。
或者,在一种可选的实施方式中,若预设的系统故障发生条件包括第一服务的第二故 障判定参数在预设时间段内的变化趋势与预设的第二服务的第三故障判定参数在预设时 间段内的变化趋势不同,其中,第二服务与第一服务的服务类型相同,则确定导致发生故 障的目标服务时,可以采用如下方法:
获取目标系统中至少一个第一服务在预设时间段内的第二故障判定参数,以及与第一 服务的服务类型相同的第二服务在预设时间段内的第三故障判定参数。
基于获取的至少一个第一服务在预设时间段内的第二故障判定参数,以及第二服务在 预设时间段内的第三故障判定参数,采用类比算法,确定第一服务与第二服务之间的变化 趋势是否相同,当确定变化趋势不相同时,则可以确定该第一服务为导致目标系统发生故 障的目标服务。
或者,在一种可选的实施方式中,若预设的系统故障发生条件包括第一服务的第二故 障判定参数与第一服务的历史第二故障判定参数之间的变化幅度大于预设的幅度阈值,和 第一服务的第二故障判定参数在预设时间段内的变化趋势与预设的第二服务的第三故障 判定参数在预设时间段内的变化趋势不同,其中,第二服务与第一服务的服务类型相同, 则确定导致发生故障的目标服务时,可以获取第一服务的第二故障判定参数、第一服务的 历史第二故障判定参数以及与第一服务的服务类型相同的第二服务,然后分别采用上述波 动检测法、对比检测法等,进行检测,得到目标服务,为避免赘述,此处不再详细说明, 相关内容可参照上述描述。
在步骤S12中,服务器确定目标服务中至少一个第一服务模块的第一故障判定参数, 以及与各第一服务模块关联的第二服务模块的运行状况信息;其中,第二服务模块包括: 第一服务模块的上游服务模块以及下游服务模块,第一服务模块和第二服务模块可以理解 为用于实现目标服务的服务模块。
为了方便理解步骤S12,以下在介绍步骤S12之前,先对该步骤涉及的名词以及相关 概念进行简单描述。
第一服务模块,可以理解为目标服务中子程序或数据的封装体。实际应用中,可以理 解为目标系统界面的多个组件,比如以目标服务为用户信息管理服务为例,则该用户信息 管理服务中可以包括用户登录服务模块、用户历史交易服务模块等服务模块。
在一种可选的实施方式中,第一服务模块的第一故障判定参数可以包括以下至少一 种:
第一服务模块的容量;
第一服务模块的负载;
第一服务模块的错误率;
第一服务模块的延迟。
运行状况信息,可以理解为一种用于指示服务模块运行状况正常或异常的信息。本公 开实施例中,确定与各第一服务模块关联的第二服务模块的运行状况信息,可以理解为确 定各第一服务模块的上游服务模块的运行状况是正常或异常,以及确定各第一服务模块的 下游服务模块的运行状况是正常或异常。
上述内容即针对该步骤涉及的名词以及相关概念的简单描述,以下将对步骤S12进 行详细说明。
本公开实施例中,确定与各第一服务模块关联的第二服务模块的运行状况信息时,可 以采用如下步骤:
获取目标服务中各第一服务模块之间的链路关系;其中,目标服务中各第一服务模块 之间的链路关系可以表征各第一服务模块之间的层级关系/上、下游关系。
基于链路关系确定目标服务中与各第一服务模块关联的第二服务模块,即各第一服务 模块的上游服务模块和下游服务模块。
确定第二服务模块的运行状况信息,也即确定各第一服务模块的上游服务模块的运行 状况信息以及下游服务模块的运行状况信息。
例如,在一种可选的实施方式中,假设获取的目标服务A中各第一服务模块之间的链路关系如图3所示,即目标服务A包括第一服务模块A1、第一服务模块A2、第一服 务模块A3;其中,第一服务模块A2包括第二服务模块A21、第二服务模块A22、第二 服务模块A23三个下游服务模块,服务模块A22包括服务模块第二A221、第二服务模块 A222、第二服务模块A223三个下游服务模块。
换而言之,第二服务模块A221、第二服务模块A222、第二服务模块A223的上游服务模块为第二服务模块A22,第二服务模块A21、第二服务模块A22、第二服务模块A23 的上游服务模块为第一服务模块A2。
本公开实施例中,假设以第一服务模块A2为例,则可以先基于各第一服务模块之间 的链路关系确定出第一服务模块A2的上游服务模块为空,以及下游服务模块包括A21、A22、A23,然后分别确定下游服务模块A221、A222、A223的运行状况信息,即确定运 行状况正常或异常。需要说明的是,由于此处第一服务模块A2的上游服务模块为空,因 此,不需要上游服务模块的运行状况信息。
执行完上述步骤,目标服务中至少一个第一服务模块的第一故障判定参数,以及与各 第一服务模块关联的第二服务模块的运行状况信息后,则可以执行如下步骤S13,确定发 生故障的服务模块。
在步骤S13中,服务器基于各第一服务模块的第一故障判定参数、与各第一服务模块关联的第二服务模块的运行状况信息,从各第一服务模块、第二服务模块中确定发生故障的故障服务模块。
本公开实施例中,可以基于各第一服务模块的第一故障判定参数、与各第一服务模块 关联的第二服务模块的运行状况信息,采用决策树算法以及随机森林算法结合的方式,从 第一服务模块、第二服务模块中确定发生故障的故障服务模块。
在一种可选的实施方式中,也可以通过如下步骤S131~S133,从第一服务模块、第二服务模块中确定发生故障的故障服务模块:
在步骤S131中,基于各第一服务模块的各第一故障判定参数以及预设的故障参数阈 值,从各第一服务模块中确定疑似导致发生故障的第三服务模块。
例如,以第一服务模块的第一故障判定参数包括第一服务模块的容量为例,则可以先 获取目标服务中各第一服务模块的容量,然后基于预设的异常容量阈值,将容量超过预设 的异常容量阈值的第一服务模块,确定为疑似导致发生故障的第三服务模块。
或者,在一种可选的实施方式中,若第一服务模块的第一故障判定参数包括第一服务 模块的负载,则可以获取目标服务中各第一服务模块的负载,然后基于预设的异常负载阈 值,将负载超过预设的异常负载阈值的第一服务模块,确定为疑似导致发生故障的第三服 务模块。
或者,在一种可选的实施方式中,若第一服务模块的第一故障判定参数包括第一服务 模块的错误率和延迟,则可以分别获取目标服务中各第一服务模块的错误率以及延迟,然 后基于预设的异常错误率阈值、预设的异常延迟阈值,将错误率超过预设的异常错误率阈 值,以及延迟超过预设的异常延迟阈值的第一服务模块,确定为疑似导致发生故障的第三 服务模块。
此外,本公开实施例考虑到:除了可以基于各第一服务模块的各第一故障判定参数以 及预设的故障参数阈值,从各第一服务模块中确定疑似导致发生故障的第三服务模块之 外,各第一服务模块的上游服务模块的运行状况信息以及下游服务模块的运行状况信息也 可以间接地反映各第一服务模块的运行状况,比如,若第一服务模块的上游服务模块发生 故障,则第一服务模块可能无法正常运行;若第一服务模块的所有下游服务模块均异常, 则可以表明该第一服务模块异常,因此在一种可选的实施方式中,还可以通过以下步骤 S132确定出目标系统中疑似导致发生故障的第四服务模块。
在步骤S132中,基于第二服务模块的运行状况信息,从各第一服务模块、第二服务模块中确定疑似导致发生故障的第四服务模块。
在一种可选的实施方式中,基于第二服务模块的运行状况信息,从各第一服务模块、 第二服务模块中确定疑似导致发生故障的第四服务模块,可以包括:
若第一服务模块的上游服务模块的运行状况信息为正常,且第一服务模块的下游服务 模块的运行状况信息均为异常,则将第一服务模块确定为疑似导致发生故障的第四服务模 块。
在实际应用中,为了提高定位效率,可以采用至少两个定位器,同时执行上述步骤S131以及S132,对第三服务模块和第四服务模块定位。
例如,可以采用定位器1基于各第一服务模块的各第一故障判定参数,比如第一服务 模块的容量,以及预设的故障参数阈值(比如预设的异常容量阈值),从各服务模块中确定出疑似导致发生故障的第三服务模块;可以采用定位器2基于上游服务模块的运行状况信息及下游服务模块的运行状况信息,从各第一服务模块、第二服务模块中确定疑似导致发生故障的第四服务模块。
在步骤S133中,从第三服务模块和第四服务模块中确定出故障服务模块。
以下结合图4,对步骤S131~S133进行相关说明。
如图4所示,可以采用定位器1基于各第一服务模块的各第一故障判定参数以及预设 的故障参数阈值,从各第一服务模块中确定疑似导致发生故障的第三服务模块。
同时,采用定时器2基于第二服务模块的运行状况信息,从各第一服务模块、第二服 务模块中确定疑似导致发生故障的第四服务模块。
比如,假设预设的故障参数阈值包括预设的的异常容量阈值以及预设的异常负载阈 值,则定位器1可以根据异常容量阈值以及输入的第一服务模块,确定出疑似导致发生故 障的服务模块B、服务模块C;根据异常负载阈值以及输入的第一服务模块,确定出疑似导致发生故障的服务模块B、服务模块D;然后从服务模块B、服务模块C、服务模块D 中选出疑似概率最大的服务模块,作为疑似导致发生故障的第三服务模块。
同时,定位器2可以基于各第一服务模块的下游服务模块的运行状况信息,判断下游 服务模块中是一个下游服务模块异常,还是多个下游服务模块均异常;若多个下游服务模 块均异常,则将该第一服务模块作为疑似导致发生故障的第四服务模块;若一个下游服务 模块异常,则确定异常的下游服务模块,重复上述步骤,确定出第四服务模块。
最后,基于定位器1以及定位器2的定位结果,从第三服务模块和第四服务模块中确 定出导致发生故障的故障服务模块。
在一种可选的在基于各第一服务模块的第一故障判定参数、第二服务模块的运行状况 信息,从各第一服务模块、第二服务模块中确定发生故障的故障服务模块之后,还可以包 括对目标系统的故障原因进行推荐。
其中,对目标系统的故障原因进行推荐时,考虑到目标系统故障,通常可能与目标系 统发生的变更事件和/或目标系统出现的异常事件相关,因此,可以先基于目标系统的变 更信息和/或异常信息确定故障原因。
在一种实施方式中,确定故障原因时可以包括:获取预设时间段内目标系统的变更信 息和/或异常信息;基于变更信息的预设权重,和/或异常信息的预设权重,确定故障服务 模块的故障原因。
其中,目标系统的变更信息可以理解为目标系统中发生变化的信息,比如网络变更信 息等。目标系统的异常信息可以包括网络异常信息、服务模块异常信息、服务拓扑异常信 息等。
例如,假设确定目标系统发生故障的时间为14点25分,则可以获取14点至14点 25分这一时间段内的变更信息和/或异常信息,比如网络异常信息、服务模块异常信息、 服务拓扑异常信息、网络变更信息等。
其次,获取预设时间段内目标系统的变更信息和/或异常信息后,则可以基于各变更 信息和/或各异常信息的预设权重,对各变更信息和异常信息进行排序,以确定发生故障 的服务模块的故障原因。
比如,假设获取的变更信息中,网络异常的预设权重为a,服务模块异常的预设权重 为b,服务拓扑的预设权重为c,且a>b>c,则可以确定发生故障的服务模块的故障原因是网络异常。
在一种可选的实施方式中,还可以基于目标系统发生故障的时间确定故障原因,比如, 可以将在接近故障发生时间发生的事件,确定为导致故障发生的原因。
例如,沿用上例,假设目标系统发生故障的时间为14点25分,则可以获取14点至14点25分这一时间段内目标系统发生的事件,并将在接近14点25分发生的事件,确定 为故障原因。比如,假设获取到目标系统在14点21分进行了容量变更,在14点出现网 络异常,则根据故障发生时间,可以将容量变更作为导致故障发生的原因。
在一种可选的实施方式中,还可以基于故障服务模块的空间位置确定导致故障发生的 原因,比如,可以将与故障服务模块的空间位置相近的第一服务模块发生的事件,作为导 致故障发生的原因。
采用本公开实施例提供的方法,若目标系统发生故障,可以从目标系统的各个服务中 确定导致目标系统发生故障的目标服务;确定目标服务中至少一个第一服务模块的第一故 障判定参数,以及与各第一服务模块关联的第二服务模块的运行状况信息;第二服务模块 包括:第一服务模块的上游服务模块以及第一服务模块的下游服务模块;第一服务模块和 第二服务模块为用于实现目标服务的服务模块;基于各第一服务模块的第一故障判定参 数、第二服务模块的运行状况信息,从各第一服务模块、第二服务模块中确定发生故障的 故障服务模块,这样,首先可以将故障发生范围从目标系统的多个服务中定位到目标服务 减小定位范围,进而从目标服务中确定发生故障的故障服务模块,缩短定位时间;其次, 相对于相关技术而言,本公开实施例中不需要依赖维护人员手工查找运维经验库记载的信 息进行故障定位,避免了维护人员手工查找导致系统故障的定位效率较低的问题,从而可 以提高系统故障的定位效率。
实施例2
图5是根据一示例性实施例示出的一种系统故障的定位装置框图。参照图5,该装置 50包括服务确定模块51、信息确定模块52和故障定位模块53。
该服务确定模块51被配置为执行若目标系统发生故障,则从目标系统的各个服务中 确定导致目标系统发生故障的目标服务;
信息确定模块52被配置为执行确定目标服务中至少一个第一服务模块的第一故障判 定参数,以及与各第一服务模块关联的第二服务模块的运行状况信息;第二服务模块包括: 第一服务模块的上游服务模块以及第一服务模块的下游服务模块;第一服务模块和第二服 务模块为用于实现目标服务的服务模块;
故障定位模块53被配置为执行基于各第一服务模块的第一故障判定参数、第二服务 模块的运行状况信息,从各第一服务模块、第二服务模块中确定发生故障的故障服务模块。
关于本公开实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的 实施例中进行了详细描述,此处将不做详细阐述说明。
在一种可选的实施方式中,服务确定模块51,用于:
若目标系统发生故障,则获取目标系统中的各个服务的第二故障判定参数;
从各个服务中选取第二故障判定参数满足预设的系统故障发生条件的第一服务,确定 为目标服务。
在一种可选的实施方式中,预设的系统故障发生条件,包括以下至少一种:
第一服务的第二故障判定参数与第一服务的历史第二故障判定参数之间的变化幅度 大于预设的幅度阈值;
第一服务的第二故障判定参数在预设时间段内的变化趋势与预设的第二服务的第三 故障判定参数在预设时间段内的变化趋势不同,其中,第二服务与第一服务的服务类型相 同。
在一种可选的实施方式中,若运行状况信息包括正常和异常,则故障定位模块53,包括:
第一确定单元,被配置为执行基于各第一服务模块的各第一故障判定参数以及预设的 故障参数阈值,从各第一服务模块中确定疑似导致发生故障的第三服务模块;;
第二确定单元,被配置为执行基于第二服务模块的运行状况信息,从各第一服务模块、 第二服务模块中确定疑似导致发生故障的第四服务模块;
从第三服务模块和第四服务模块中确定故障服务模块。
在一种可选的实施方式中,第二确定单元,用于:
若第一服务模块的上游服务模块的运行状况信息为正常,且第一服务模块的下游服务 模块的运行状况信息均为异常,则将第一服务模块确定为疑似导致发生故障的第四服务模 块。
在一种可选的实施方式中,信息确定模块52,用于:
获取目标服务中服务模块之间的链路关系;
基于链路关系确定目标服务中与各第一服务模块关联的第二服务模块;
确定第二服务模块的运行状况信息。
在一种可选的实施方式中,装置还包括故障原因确定模块,用于:
获取预设时间段内目标系统的变更信息和/或异常信息;
基于变更信息的预设权重,和/或异常信息的预设权重,确定发生故障的服务模块的 故障原因。
采用本公开实施例提供的装置,若目标系统发生故障,可以从目标系统的各个服务中 确定导致目标系统发生故障的目标服务;确定目标服务中至少一个第一服务模块的第一故 障判定参数,以及与各第一服务模块关联的第二服务模块的运行状况信息;第二服务模块 包括:第一服务模块的上游服务模块以及第一服务模块的下游服务模块;第一服务模块和 第二服务模块为用于实现目标服务的服务模块;基于各第一服务模块的第一故障判定参 数、第二服务模块的运行状况信息,从各第一服务模块、第二服务模块中确定发生故障的 故障服务模块,这样,首先可以将故障发生范围从目标系统的多个服务中定位到目标服务 减小定位范围,进而从目标服务中确定发生故障的故障服务模块,缩短定位时间;其次, 相对于相关技术而言,本公开实施例中不需要依赖维护人员手工查找运维经验库记载的信 息进行故障定位,避免了维护人员手工查找导致系统故障的定位效率较低的问题,从而可 以提高系统故障的定位效率。
实施例3
本公开实施例还提出了一种电子设备,示意图请参考图6,在硬件层面,该电子设备 包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储 器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括 其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是 ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩 展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于 表示,图6中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机 操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上 形成系统故障的定位装置。处理器,执行存储器所存放的程序,并至少用于执行图1所示 实施例揭示的系统故障的定位方法中的各步骤。
处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的 各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器 可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Fetwork Processor,FP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集 成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field- Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器 件、分立硬件组件。可以实现或者执行本公开实施例中的公开的各方法、步骤及逻辑框图。 通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本公开实施 例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的 硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编 程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介 质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
实施例4
图7是根据一示例性实施例示出的一种电子设备的硬件结构示意图。如图7所示,电 子设备700包括但不限于:射频单元701、网络模块702、音频输出单元703、输入单元704、传感器705、显示单元706、用户输入单元707、接口单元708、存储器709、处理 器710、以及电源711等部件。
本领域技术人员可以理解,图7中示出的电子设备结构并不构成对电子设备的限定, 电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。 在本公开实施例中,电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。
其中,处理器710,耦合到存储器,用于:
若目标系统发生故障,则从目标系统的各个服务中确定导致目标系统发生故障的目标 服务;
确定目标服务中至少一个第一服务模块的第一故障判定参数,以及与各第一服务模块 关联的第二服务模块的运行状况信息;第二服务模块包括:第一服务模块的上游服务模块 以及第一服务模块的下游服务模块;第一服务模块和第二服务模块为用于实现目标服务的 服务模块;
基于各第一服务模块的第一故障判定参数、第二服务模块的运行状况信息,从各第一 服务模块、第二服务模块中确定发生故障的故障服务模块。
在一种可选的实施方式中,确定目标系统中导致目标系统发生故障的目标服务,包括:
若目标系统发生故障,则获取目标系统中的各个服务的第二故障判定参数;
从各个服务中选取第二故障判定参数满足预设的系统故障发生条件的第一服务,确定 为目标服务。
在一种可选的实施方式中,预设的系统故障发生条件,包括以下至少一种:
第一服务的第二故障判定参数与第一服务的历史第二故障判定参数之间的变化幅度 大于预设的幅度阈值;
第一服务的第二故障判定参数在预设时间段内的变化趋势与预设的第二服务的第三 故障判定参数在预设时间段内的变化趋势不同,其中,第二服务与第一服务的服务类型相 同。
在一种可选的实施方式中,若运行状况信息包括正常和异常,则基于各第一服务模块 的第一故障判定参数、第二服务模块的运行状况信息,从各第一服务模块、第二服务模块 中确定发生故障的故障服务模块,包括:
基于各第一服务模块的各第一故障判定参数以及预设的故障参数阈值,从各第一服务 模块中确定疑似导致发生故障的第三服务模块;
基于第二服务模块的运行状况信息,从各第一服务模块、第二服务模块中确定疑似导 致发生故障的第四服务模块;
从第三服务模块和第四服务模块中确定故障服务模块。
在一种可选的实施方式中,基于第二服务模块的运行状况信息,从各第一服务模块、 第二服务模块中确定疑似导致发生故障的第四服务模块,包括:
若第一服务模块的上游服务模块的运行状况信息为正常,且第一服务模块的下游服务 模块的运行状况信息均为异常,则将第一服务模块确定为疑似导致发生故障的第四服务模 块。
在一种可选的实施方式中,确定与各第一服务模块关联的第二服务模块的运行状况信 息,包括:
获取目标服务中各第一服务模块之间的链路关系;
基于链路关系确定目标服务中与各第一服务模块关联的第二服务模块;
确定第二服务模块的运行状况信息。
在一种可选的实施方式中,在基于各第一服务模块的第一故障判定参数、第二服务模 块的运行状况信息,从各第一服务模块、第二服务模块中确定发生故障的故障服务模块之 后,方法还包括:
获取预设时间段内目标系统的变更信息和/或异常信息;
基于变更信息的预设权重,和/或异常信息的预设权重,确定故障服务模块的故障原 因。
存储器709,用于存储可在处理器710上运行的计算机程序,该计算机程序被处理器 710执行时,实现处理器710所实现的上述功能。
应理解的是,本公开实施例中,射频单元701可用于收发信息或通话过程中,信号的 接收和发送,具体的,将来自基站的下行数据接收后,给处理器710处理;另外,将上行的数据发送给基站。通常,射频单元701包括但不限于天线、至少一个放大器、收发信机、 耦合器、低噪声放大器、双工器等。此外,射频单元701还可以通过无线通信系统与网络 和其他设备通信。
电子设备通过网络模块702为用户提供了无线的宽带互联网访问,如帮助用户收发电 子邮件、浏览网页和访问流式媒体等。
音频输出单元703可以将射频单元701或网络模块702接收的或者在存储器709中存 储的音频数据转换成音频信号并且输出为声音。而且,音频输出单元703还可以提供与电 子设备700执行的特定功能相关的音频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出单元703包括扬声器、蜂鸣器以及受话器等。
输入单元704用于接收音频或视频信号。输入单元704可以包括图形处理器(Graphics Processing Unit,GPU)7041和麦克风7042,图形处理器7041对在视频捕获模式或图像 捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处 理后的图像帧可以显示在显示单元706上。经图形处理器7041处理后的图像帧可以存储 在存储器709(或其它存储介质)中或者经由射频单元701或网络模块702进行发送。麦克风7042可以接收声音,并且能够将这样的声音处理为音频数据。处理后的音频数据可 以在电话通话模式的情况下转换为可经由射频单元701发送到移动通信基站的格式输出。
电子设备700还包括至少一种传感器705,比如光传感器、运动传感器以及其他传感 器。具体地,光传感器包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板7061的亮度,接近传感器可在电子设备700移动到耳边时, 关闭显示面板7061和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上 (一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别电子设备 姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、 敲击)等;传感器705还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、 陀螺仪、气压计、湿度计、温度计、红外线传感器等,在此不再赘述。
显示单元706用于显示由用户输入的信息或提供给用户的信息。显示单元706可包括 显示面板7061,可以采用液晶显示器(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板7061。
用户输入单元707可用于接收输入的数字或字符信息,以及产生与电子设备的用户设 置以及功能控制有关的键信号输入。具体地,用户输入单元707包括触控面板7071以及 其他输入设备7072。触控面板7071,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板7071上或在触控面板7071附近的操作)。触控面板7071可包括触摸检测装置和触摸控制器两个部分。其中, 触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制 器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器710,接收处理器710发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线 以及表面声波等多种类型实现触控面板7071。除了触控面板7071,用户输入单元707还 可以包括其他输入设备7072。具体地,其他输入设备7072可以包括但不限于物理键盘、 功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。
进一步的,触控面板7071可覆盖在显示面板7061上,当触控面板7071检测到在其上或附近的触摸操作后,传送给处理器710以确定触摸事件的类型,随后处理器710根据 触摸事件的类型在显示面板7061上提供相应的视觉输出。虽然在图7中,触控面板7071 与显示面板7067是作为两个独立的部件来实现电子设备的输入和输出功能,但是在某些 实施例中,可以将触控面板7071与显示面板7061集成而实现电子设备的输入和输出功能, 具体此处不做限定。
接口单元708为外部装置与电子设备700连接的接口。例如,外部装置可以包括有线 或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端 口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元708可以用于接收来自外部装置的输入(例如,数据信息、电力等 等)并且将接收到的输入传输到电子设备700内的一个或多个元件或者可以用于在电子设 备700和外部装置之间传输数据。
存储器709可用于存储软件程序以及各种数据。存储器709可主要包括存储程序区和 存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比 如音频数据、电话本等)等。此外,存储器709可以包括高速随机存取存储器,还可以包 括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器710是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部 分,通过运行或执行存储在存储器709内的软件程序和/或模块,以及调用存储在存储器 709内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。处理器710可包括一个或多个处理单元;优选的,处理器710可集成应用处理器和调制解调 处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器 主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器710中。
电子设备700还可以包括给各个部件供电的电源711(比如电池),优选的,电源711可以通过电源管理系统与处理器710逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
另外,电子设备700包括一些未示出的功能模块,在此不再赘述。
在示例性实施例中,还提供了一种包括指令的存储介质,计算机可读存储介质上存储 有计算机程序,该计算机程序被处理器执行时实现上述实施例中任意一种系统故障的定位 方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。可选地, 存储介质可以是非临时性计算机可读存储介质,例如,非临时性计算机可读存储介质可以 是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实 施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者 适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或 惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权 利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可 以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实 施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者 适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或 惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权 利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可 以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种系统故障的定位方法,其特征在于,包括:
若目标系统发生故障,则从所述目标系统的各个服务中确定导致所述目标系统发生故障的目标服务;
确定所述目标服务中至少一个第一服务模块的第一故障判定参数,以及与各所述第一服务模块关联的第二服务模块的运行状况信息;所述第二服务模块包括:所述第一服务模块的上游服务模块以及所述第一服务模块的下游服务模块;所述第一服务模块和所述第二服务模块为用于实现所述目标服务的服务模块;
基于各所述第一服务模块的所述第一故障判定参数、所述第二服务模块的运行状况信息,从各所述第一服务模块、所述第二服务模块中确定发生故障的故障服务模块。
2.根据权利要求1所述的方法,其特征在于,确定所述目标系统中导致所述目标系统发生故障的目标服务,包括:
若目标系统发生故障,则获取所述目标系统中的所述各个服务的第二故障判定参数;
从所述各个服务中选取所述第二故障判定参数满足预设的系统故障发生条件的第一服务,确定为所述目标服务。
3.根据权利要求2所述的方法,其特征在于,所述预设的系统故障发生条件,包括以下至少一种:
所述第一服务的第二故障判定参数与所述第一服务的历史第二故障判定参数之间的变化幅度大于预设的幅度阈值;
所述第一服务的第二故障判定参数在预设时间段内的变化趋势与预设的第二服务的第三故障判定参数在所述预设时间段内的变化趋势不同,其中,所述第二服务与所述第一服务的服务类型相同。
4.根据权利要求1所述的方法,其特征在于,若所述运行状况信息包括正常和异常,则所述基于各所述第一服务模块的所述第一故障判定参数、所述第二服务模块的运行状况信息,从各所述第一服务模块、所述第二服务模块中确定发生故障的故障服务模块,包括:
基于各所述第一服务模块的各所述第一故障判定参数以及预设的故障参数阈值,从各所述第一服务模块中确定疑似导致发生所述故障的第三服务模块;
基于所述第二服务模块的运行状况信息,从各所述第一服务模块、所述第二服务模块中确定疑似导致发生所述故障的第四服务模块;
从所述第三服务模块和所述第四服务模块中确定所述故障服务模块。
5.根据权利要求4所述的方法,其特征在于,所述基于所述第二服务模块的运行状况信息,从各所述第一服务模块、所述第二服务模块中确定疑似导致发生所述故障的第四服务模块,包括:
若所述第一服务模块的所述上游服务模块的运行状况信息为正常,且所述第一服务模块的所述下游服务模块的运行状况信息均为异常,则将所述第一服务模块确定为疑似导致发生所述故障的第四服务模块。
6.根据权利要求1所述的方法,其特征在于,所述确定与各所述第一服务模块关联的第二服务模块的运行状况信息,包括:
获取所述目标服务中各所述第一服务模块之间的链路关系;
基于所述链路关系确定所述目标服务中与各所述第一服务模块关联的所述第二服务模块;
确定所述第二服务模块的运行状况信息。
7.根据权利要求1所述的方法,其特征在于,在基于各所述第一服务模块的所述第一故障判定参数、所述第二服务模块的运行状况信息,从各所述第一服务模块、所述第二服务模块中确定发生故障的故障服务模块之后,所述方法还包括:
获取预设时间段内所述目标系统的变更信息和/或异常信息;
基于所述变更信息的预设权重,和/或所述异常信息的预设权重,确定所述故障服务模块的故障原因。
8.一种系统故障的定位装置,其特征在于,包括:
服务确定模块,被配置为执行若目标系统发生故障,则从所述目标系统的各个服务中确定导致所述目标系统发生故障的目标服务;
信息确定模块,被配置为执行确定所述目标服务中至少一个第一服务模块的第一故障判定参数,以及与各所述第一服务模块关联的第二服务模块的运行状况信息;所述第二服务模块包括:所述第一服务模块的上游服务模块以及所述第一服务模块的下游服务模块;所述第一服务模块和所述第二服务模块为用于实现所述目标服务的服务模块;
故障定位模块,被配置为执行基于各所述第一服务模块的所述第一故障判定参数、所述第二服务模块的运行状况信息,从各所述第一服务模块、所述第二服务模块中确定发生故障的故障服务模块。
9.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至7中任一项所述的系统故障的定位方法。
10.一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至7中任一项所述的系统故障的定位方法。
CN202010819471.0A 2020-08-14 2020-08-14 一种系统故障的定位方法、装置及电子设备 Active CN112363895B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010819471.0A CN112363895B (zh) 2020-08-14 2020-08-14 一种系统故障的定位方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010819471.0A CN112363895B (zh) 2020-08-14 2020-08-14 一种系统故障的定位方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN112363895A true CN112363895A (zh) 2021-02-12
CN112363895B CN112363895B (zh) 2024-02-23

Family

ID=74516287

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010819471.0A Active CN112363895B (zh) 2020-08-14 2020-08-14 一种系统故障的定位方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN112363895B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115877238A (zh) * 2022-12-06 2023-03-31 北汽福田汽车股份有限公司 电池容量的检测方法、装置、可读存储介质及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108833184A (zh) * 2018-06-29 2018-11-16 腾讯科技(深圳)有限公司 服务故障定位方法、装置、计算机设备及存储介质
CN110474799A (zh) * 2019-07-31 2019-11-19 中国联合网络通信集团有限公司 故障定位方法及装置
CN110716842A (zh) * 2019-10-09 2020-01-21 北京小米移动软件有限公司 集群故障检测方法和装置
CN111488289A (zh) * 2020-04-26 2020-08-04 支付宝实验室(新加坡)有限公司 一种故障定位方法、装置和设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108833184A (zh) * 2018-06-29 2018-11-16 腾讯科技(深圳)有限公司 服务故障定位方法、装置、计算机设备及存储介质
CN110474799A (zh) * 2019-07-31 2019-11-19 中国联合网络通信集团有限公司 故障定位方法及装置
CN110716842A (zh) * 2019-10-09 2020-01-21 北京小米移动软件有限公司 集群故障检测方法和装置
CN111488289A (zh) * 2020-04-26 2020-08-04 支付宝实验室(新加坡)有限公司 一种故障定位方法、装置和设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115877238A (zh) * 2022-12-06 2023-03-31 北汽福田汽车股份有限公司 电池容量的检测方法、装置、可读存储介质及电子设备
CN115877238B (zh) * 2022-12-06 2023-11-07 北汽福田汽车股份有限公司 电池容量的检测方法、装置、可读存储介质及电子设备

Also Published As

Publication number Publication date
CN112363895B (zh) 2024-02-23

Similar Documents

Publication Publication Date Title
US11528118B2 (en) Transmission method, mobile terminal and network device
CN108268366A (zh) 测试用例执行方法及装置
CN111309205B (zh) 一种应用分享方法、第一电子设备及计算机可读存储介质
CN110895509B (zh) 一种测试处理方法、装置、电子设备及存储介质
CN110837343A (zh) 处理快照的方法、装置及终端
CN110796552A (zh) 一种风险提示方法及装置
CN112363895B (zh) 一种系统故障的定位方法、装置及电子设备
CN114428546A (zh) 后台应用清理方法、装置、存储介质及终端设备
CN111103607B (zh) 一种定位提示方法及电子设备
CN112711516A (zh) 一种数据处理方法和相关装置
CN115510005A (zh) 异常日志信息的展示方法、装置、电子设备及存储介质
CN109561192A (zh) 一种天线故障检测方法和装置
CN112596980A (zh) ios性能收集方法及装置、移动终端、计算机可读存储介质
CN112311935B (zh) 一种异常检测方法、装置及电子设备
CN111866599B (zh) 一种质差的定界方法、装置及设备
CN109783379B (zh) 脚本执行异常确定方法和装置
CN113918757A (zh) 应用推荐方法、装置、电子设备及存储介质
CN109508425B (zh) 一种设置项推荐方法及终端设备
CN109040459B (zh) 一种终端设备的控制方法、终端设备及计算机可读存储介质
CN108965577B (zh) 一种界面显示方法及终端设备
CN112433877A (zh) 应用启动崩溃的检测方法、装置、电子设备及存储介质
CN110175105A (zh) 一种崩溃提示方法和终端
CN108989350A (zh) 一种检测拒绝服务漏洞的方法、装置及设备
CN115378791A (zh) 数据管理方法、装置、存储介质及电子设备
CN112291797B (zh) 一种数据的处理方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant