CN109597746B - 故障分析方法及装置 - Google Patents

故障分析方法及装置 Download PDF

Info

Publication number
CN109597746B
CN109597746B CN201811596676.6A CN201811596676A CN109597746B CN 109597746 B CN109597746 B CN 109597746B CN 201811596676 A CN201811596676 A CN 201811596676A CN 109597746 B CN109597746 B CN 109597746B
Authority
CN
China
Prior art keywords
resource
information
alarm
value
obtaining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811596676.6A
Other languages
English (en)
Other versions
CN109597746A (zh
Inventor
付永全
尹春福
刘闻宇
孙凯
陆巧翎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bringspring Technology Co ltd
Original Assignee
Bringspring Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bringspring Technology Co ltd filed Critical Bringspring Technology Co ltd
Priority to CN201811596676.6A priority Critical patent/CN109597746B/zh
Publication of CN109597746A publication Critical patent/CN109597746A/zh
Application granted granted Critical
Publication of CN109597746B publication Critical patent/CN109597746B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3495Performance evaluation by tracing or monitoring for systems

Abstract

本申请公开了一种故障分析方法及装置,所述方法应用于故障分析系统中的故障分析设备,所述故障分析系统包括多个资源,所述多个资源中包括第一资源以及与所述第一资源相关的多个第二资源,所述方法包括:获取故障时刻所述第一资源的告警信息,所述告警信息至少包括所述第一资源的资源名称、资源IP地址;根据预设的筛选规则获取所述第一资源的多项指标信息、日志信息和快照信息;根据获取的所述指标信息、所述快照信息以及所述日志信息进行故障分析。本申请实施例通过获取第一资源相关的部分指标信息、快照信息以及日志信息,从而能够极大地提高故障分析的准确度和分析效率。

Description

故障分析方法及装置
技术领域
本申请涉及设备运维技术领域,具体而言,涉及一种故障分析方法及装置。
背景技术
现有技术中,在进行资源的故障分析时,常常是通过获取资源的日志信息和运行信息,然后通过人工对资源的故障信息和运行信息进行分析。在现有的资源故障分析的过程中,需要人工登录系统查看资源的日志信息。
由于资源的运行信息是跟随资源的运行状态实时变化的,人工获取的大部分运行信息并不是故障发生时的运行信息,因此,在对资源故障进行分析时,需要对资源的大量日志信息进行分析,这样不仅会因为分析的数据过多导致分析效率低,还会因为分析的运行信息不够完整,导致分析的结果不够准确。
发明内容
为了克服现有技术中的上述不足,本申请的目的在于提供一种故障分析方法,应用于故障分析系统中的故障分析设备,所述故障分析系统包括多个资源,所述多个资源中包括第一资源以及与所述第一资源相关的多个第二资源,所述方法包括:
获取故障时刻所述第一资源的告警信息,所述告警信息至少包括所述第一资源的资源名称、资源IP地址;
根据预设的筛选规则获取所述第一资源的多项指标信息、日志信息和快照信息,所述指标信息包括表征资源上各个结构的运行状态或者使用状态的多个数据项,所述快照信息包括故障时刻与各个所述第二资源的指标信息相关的多个数据项,所述日志信息包括与所述第一资源的日志相关的多个数据项;
根据获取的所述指标信息、所述快照信息以及所述日志信息进行故障分析。
可选地,所述故障分析设备中预先配置有相关度阈值、第一预设数据项以及第二预设数据项,所述根据预设的筛选规则获取所述第一资源的多项指标信息、日志信息和快照信息的步骤包括:
获取故障时刻所在的第一预设时间长度内所述第一资源的指标信息和各个所述第二资源的指标信息,获取各个所述第二资源的各个指标信息与所述第一资源的相关度,筛选出所述相关度大于相关度阈值的第二资源的指标信息;
根据第一预设数据项筛选故障时刻第一资源的快照信息,获得筛选后的快照信息;
根据第二预设数据项获取故障时刻前的第二预设时间长度内第一资源的日志信息,获得筛选后的日志信息;
所述根据获取的所述指标信息、快照信息以及日志信息进行故障分析的步骤包括,
根据筛选出的所述指标信息、快照信息以及日志信息进行故障分析。
可选地,在所述获取故障时刻所述第一资源的告警信息的步骤前,所述方法还包括:
获取初始的告警信息,初始的所述告警信息为启动故障分析操作的告警信息,其中,初始的所述告警信息由所述第一资源和第二资源中的第三资源产生;
根据所述第三资源获得与所述第三资源相关的第四资源;
计算所述第三资源和各个所述第四资源的各个告警信息的告警关联度值,所述告警关联度值用于表征所述告警信息是生成其他告警信息的根源的可能性大小;
根据各个告警信息的所述告警关联度值确定所述第一资源。
可选地,所述故障分析设备预先存储有所述第三资源和各个所述第四资源的层级值,所述层级值用于表征资源在网络中对其他资源产生影响的大小,所述计算所述第三资源和各个所述第四资源的各个告警信息的告警关联度值的步骤包括:
获取各个所述第四资源的告警信息;
针对所述第三资源或者每个所述第四资源获取所述第三资源或者该第四资源的层级值;
根据所述第三资源或者该第四资源的告警信息获取所述第三资源或者该第四资源的告警值,所述告警值用于表征告警信息的严重程度;
获取所述第三资源或者所述第四资源的事件值,所述事件值用于表征初始的所述告警信息产生前第三预设时间长度内与第三资源相关的事件对故障的影响大小;
根据所述第三资源或者各个所述第四资源的层级值、告警值以及事件值计算所述第三资源或者该第四资源的告警关联度值。
可选地,所述根据所述第三资源或者各个所述第四资源的层级值、告警值以及事件值计算所述第三资源或者该第四资源的告警关联度值的步骤包括:
获取所述第三资源的层级值、告警值以及事件值三者的乘积,获得所述第三资源的告警关联度值;
针对每个所述第四资源,获取该第四资源的层级值、告警值以及事件值三者的乘积,获得该第四资源的告警关联度值。
可选地,所述根据各个告警信息的所述告警关联度值确定所述第一资源的步骤包括:
比较各个资源的告警关联度值的大小;
获得告警关联度值最大的资源作为第一资源。
本申请的另一目的在于提供一种故障分析装置,应用于故障分析系统中的故障分析设备,所述故障分析系统包括多个资源,所述多个资源中包括第一资源以及与所述第一资源相关的多个第二资源,所述装置包括第一获取模块,第二获取模块和故障分析模块;
所述第一获取模块用于获取故障时刻所述第一资源的告警信息,所述告警信息至少包括所述第一资源的资源名称、资源IP地址;
所述第二获取模块用于根据预设的筛选规则获取所述第一资源的多项指标信息、日志信息和快照信息,所述指标信息包括表征资源上各个结构的运行状态或者使用状态的多个数据项,所述快照信息包括故障时刻与各个所述第二资源的指标信息相关的多个数据项,所述日志信息包括与所述第一资源的日志相关的多个数据项;
所述故障分析模块用于根据获取的所述指标信息、所述快照信息以及所述日志信息进行故障分析。
可选地,所述故障分析设备中预先配置有相关度阈值、第一预设数据项以及第二预设数据项,所述第二获取模块包括第一获取单元、第二获取单元和第三获取单元;
所述第一获取单元用于获取故障时刻所在的第一预设时间长度内所述第一资源的指标信息和各个所述第二资源的指标信息,获取各个所述第二资源的各个指标信息与所述第一资源的相关度,筛选出所述相关度大于相关度阈值的第二资源的指标信息;
所述第二获取单元用于根据第一预设数据项筛选故障时刻第一资源的快照信息,获得筛选后的快照信息;
所述第三获取单元用于根据第二预设数据项获取故障时刻前的第二预设时间长度内第一资源的日志信息,获得筛选后的日志信息;
所述故障分析模块用于根据获取的所述指标信息、快照信息以及日志信息进行故障分析的步骤包括,
根据筛选出的所述指标信息、快照信息以及日志信息进行故障分析。
可选地,所述装置还包括第三获取模块、第四获取模块、计算模块和确定模块;
所述第三获取模块用于获取初始的告警信息,初始的所述告警信息为启动故障分析操作的告警信息,其中,初始的所述告警信息由所述第一资源和第二资源中的第三资源产生;
所述第四获取模块用于根据所述第三资源获得与所述第三资源相关的第四资源;
所述计算模块用于计算所述第三资源和各个所述第四资源的各个告警信息的告警关联度值,所述告警关联度值用于表征所述告警信息是生成其他告警信息的根源的可能性大小;
所述确定模块用于根据各个告警信息的所述告警关联度值确定所述第一资源。
可选地,所述故障分析设备预先存储有所述第三资源和各个所述第四资源的层级值,所述层级值用于表征资源在网络中对其他资源产生影响的大小,所述计算模块包括第四获取单元、第五获取单元和计算单元;
所述第四获取单元用于获取各个所述第四资源的告警信息;
所述第五获取单元用于针对所述第三资源或者每个所述第四资源获取所述第三资源或者该第四资源的层级值;
根据所述第三资源或者该第四资源的告警信息获取所述第三资源或者该第四资源的告警值,所述告警值用于表征告警信息的严重程度;
获取所述第三资源或者所述第四资源的事件值,所述事件值用于表征初始的所述告警信息产生前第三预设时间长度内与第三资源相关的事件对故障的影响大小;
所述计算单元用于根据所述第三资源或者各个所述第四资源的层级值、告警值以及事件值计算所述第三资源或者该第四资源的告警关联度值。
相对于现有技术而言,本申请实施例具有以下有益效果:本申请实施例根据在告警信息产生时,获取第一资源的告警信息,所述告警信息至少包括第一资源名称、第一资源IP地址,然后根据预设规则对运行信息进行过滤,获得过滤后第一资源的指标信息、快照信息以及日志信息,然后根据过滤后的所述指标信息、快照信息以及日志信息进行故障分析。本申请实施例中由于是根据过滤后的所述指标信息、快照信息以及日志信息进行故障分析,因此,使得用于故障分析的数据包括资源运行信息中的多种信息,且不存在与故障分析无关的数据,因此,使得分析的数据量大大减少,因而,能够极大提高故障分析的效率和准确度。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的故障分析设备的结构示意框图;
图2为本申请实施例提供的故障分析方法的流程示意图一;
图3为本申请实施例提供的故障分析方法的流程示意图二;
图4为本申请实施例提供的故障分析方法的流程示意图三;
图5为本申请实施例提供的故障分析方法的流程示意图四;
图6为本申请实施例提供的故障分析方法的流程示意图五;
图7为本申请实施例提供的故障分析方法的流程示意图六;
图8为本申请实施例提供的故障分析装置的结构示意框图一;
图9为本申请实施例提供的故障分析装置的结构示意框图二;
图10为本申请实施例提供的故障分析装置的结构示意框图三;
图11为本申请实施例提供的故障分析装置的结构示意框图四。
图标:100-故障分析设备;110-处理器;120-存储器;200-故障分析装置;210-第一获取模块;220-第二获取模块;221-第一获取单元;222-第二获取单元;223-第三获取单元;230-故障分析模块;240-第三获取模块;250- 第四获取模块;260-计算模块;261-第四获取单元;262-第五获取单元;263- 计算单元;270-确定模块。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
请参照图1,图是本申请实施例提供的故障分析设备100结构示意框图,所述故障分析设备100包括处理器110和存储器120,所述处理器110和所述存储器120连接,用于实现数据交互。
在本实施例的故障分析设备100中,所述存储器120可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory, PROM),可擦除只读存储器(ErasableProgrammable Read-Only Memory, EPROM),电可擦除只读存储器(Electric ErasableProgrammable Read-Only Memory,EEPROM)等。其中,存储器120用于存储可执行指令,所述处理器110在接收到可执行指令后,执行该指令。
请参见图2,图2是可以应用与上述故障分析设备100的故障分析方法,所述故障分析系统包括多个资源,所述多个资源中包括第一资源以及与所述第一资源相关的多个第二资源,其中,第一资源和第二资源相关是指第一资源的运行状态会对第二资源的运行状态产生影响。第一资源是最终用于根据该资源的运行状态确定故障的根本原因的资源。当第一资源和第二资源中的任何一个资源产生故障时,都可能引发与其相关的资源产生告警信息。所述方法包括步骤S110-步骤S130。
步骤S110,获取故障时刻所述第一资源的告警信息,所述告警信息至少包括所述第一资源的资源名称、资源IP地址。
本实施例中,所述告警信息可以包括,但不限于资源类型、资源ID以及告警来源。本实施例用于获取第一资源的告警信息。
步骤S120,根据预设的筛选规则获取所述第一资源的多项指标信息、日志信息和快照信息,所述指标信息包括表征资源上各个结构的运行状态或者使用状态的多个数据项,例如,所述指标信息可以包括资源的CPU利用率和资源的内存利用率,所述快照信息包括故障时刻与各个所述第二资源的指标信息相关的多个数据项,所述日志信息包括与所述第一资源的日志相关的多个数据项。
本实施例用于获取第一资源的快照信息以及从第一资源的所有指标信息、日志信息中筛选出多项指标信息和多个日志信息。
步骤S130,根据获取的所述指标信息、所述快照信息以及所述日志信息进行故障分析。
本实施例用于根据快照信息以及筛选后的指标信息和日志信息进行故障分析。
请参见图3,本实施例中,可选地,所述故障分析设备100中预先配置有相关度阈值、第一预设数据项以及第二预设数据项,所述步骤S120包括子步骤S121-子步骤S123。
步骤S121,筛选第二资源的指标信息。
获取故障时刻所在的第一预设时间长度内所述第一资源的指标信息和各个所述第二资源的指标信息,获取各个所述第二资源的各个指标信息与所述第一资源的相关度,筛选出所述相关度大于相关度阈值的第二资源的指标信息。当然,本实施例中的相关度可以是正相关,也可以是负相关。
例如,本实施例中,可以获取故障时刻点前30分钟以及后30分钟的第一资源和第二资源中各个资源的全部指标信息。例如,当计算某个资源的CPU利用率这项指标与第一资源的CPU利用率这项指标时,可以在该资源的CPU利用率与第一资源的CPU利用率高于相关度阈值的时,将该资源的CPU利用率筛选出来作为一项指标信息。
步骤S122,根据第一预设数据项筛选故障时刻第一资源的快照信息,获得筛选后的快照信息。
步骤S123,根据第二预设数据项获取故障时刻前的第二预设时间长度内第一资源的日志信息,获得筛选后的日志信息。
本实施例中,可以筛选出故障时刻前后30分钟内的全部日志内容,然后在这30分钟的日志中,根据预设的规则进一步筛选日志。预设的规则可以是预先存储在故障分析设备100中的规则,也可以是自定义的规则,例如第二数据项。
所述根据获取的所述指标信息、快照信息以及日志信息进行故障分析的步骤包括,根据筛选出的所述指标信息、快照信息以及日志信息进行故障分析。
本实施例中,故障时刻可以根据初始的告警信息产生时间确定,也就是说,可以将初始的告警信息产生时间作为故障时刻。
请参见图4,本实施例中,可选地,在所述获取故障时刻所述第一资源的告警信息的步骤前,所述方法还包括:步骤S210-步骤S240。
步骤S210,获取初始的告警信息,初始的所述告警信息为启动故障分析操作的告警信息,其中,初始的所述告警信息由所述第一资源和第二资源中的第三资源产生。
本实施例中,所述第三资源是第一资源或第二资源中的一个资源。
步骤S220,根据所述第三资源获得与所述第三资源相关的第四资源。
本实施例中,可以根据告警信息获取第三资源,根据资源名称、资源 ID、资源类型、资源IP地址、告警来源然后获取指定时间长度内与告警资源相关的其他资源。在判断资源相关时,可以获取与第一资源物理相关的资源,也就是与第一资源在同一个网络拓扑图中的资源。也可以获取与第一资源逻辑相关的资源,也就是与第一资源所在系统存在信号交互关系,或者与第一资源所处理的业务存在连续关系的资源。
步骤S230,计算所述第三资源和各个所述第四资源的各个告警信息的告警关联度值,所述告警关联度值用于表征所述告警信息是生成其他告警信息的根源的可能性大小。
步骤S240,根据各个告警信息的所述告警关联度值确定所述第一资源。
请参见图5,本实施例中,可选地,所述故障分析设备100预先存储有所述第三资源和各个所述第四资源的层级值,所述层级值用于表征资源在网络中对其他资源产生影响的大小,例如,在一个包含三层的树形网络中,如果第一层网络包括一个资源,第二层网络包括多个与第一层的资源连接的资源,第三层网络包括多个与第二层资源连接的多个资源,由于第一层资源处于非常重要的位置,其可能对第二层和第三层的所有资源都产生影响,所以这个结构中,第一层资源的层级值最大,第二层资源的层级值次之,第三层资源的层级值最小。
步骤S230包括子步骤S231-步骤S235。
步骤S231,获取各个所述第四资源的告警信息。
步骤S232,针对所述第三资源或者每个所述第四资源获取所述第三资源或者该第四资源的层级值。
本实施例用于针对第三资源和第四资源中的每个资源分别计算该资源的层级值。
步骤S233,根据所述第三资源或者该第四资源的告警信息获取所述第三资源或者该第四资源的告警值,所述告警值用于表征告警信息的严重程度。
本实施例用于针对第三资源和第四资源中的每个资源分别计算该资源的告警值。
步骤S234,获取所述第三资源或者所述第四资源的事件值,所述事件值用于表征初始的所述告警信息产生前第三预设时间长度内与第三资源相关的事件对故障的影响大小。
本实施例用于针对第四资源中的每个资源分别计算该资源的层级值。例如,可以获得第一资源产生初始的所述告警信息前两个小时内的各个资源的事件值。
步骤S235,计算所述第三资源或者该第四资源的告警关联度值。具体地,本实施例用于根据所述第三资源或者各个所述第四资源的层级值、告警值以及事件值计算所述第三资源或者该第四资源的告警关联度值。
请参见图6,本实施例中,可选地,所述步骤S235包括子步骤2351- 步骤2352。
步骤2351,获取所述第三资源的层级值、告警值以及事件值三者的乘积,获得所述第三资源的告警关联度值。
步骤2352,针对每个所述第四资源,获取该第四资源的层级值、告警值以及事件值三者的乘积,获得该第四资源的告警关联度值。
本实施例用于针对第三资源和第四资源中的每个资源分别计算该资源的告警关联度值。
请参见图7,本实施例中,可选地,步骤S240包括子步骤S241-步骤 S242。
步骤S241,比较各个资源的告警关联度值的大小。
步骤S242,获得告警关联度值最大的资源作为第一资源。
本实施例用于根据第三资源和第四资源的告警关联度值的大小确定第一资源,将告警关联度值最大的资源作为第一资源,也就是说,第一资源是第三资源和第四资源中的一个资源,且第一资源是引发第一资源是第三资源和第四资源中除第一资源外的其他各个资源的告警信息产生的根源。
请参见图8,本申请的另一目的在于提供一种故障分析装置200,应用于故障分析系统中的故障分析设备100,所述故障分析系统包括多个资源,所述多个资源中包括第一资源以及与所述第一资源相关的多个第二资源,所述装置包括第一获取模块210,第二获取模块220和故障分析模块230。所述故障分析装置200包括一个可以软件或固件的形式存储于所述存储器 120中或固化在所述故障分析设备100的操作系统(operating system,OS) 中的软件功能模块。
所述第一获取模块210用于获取故障时刻所述第一资源的告警信息,所述告警信息至少包括所述第一资源的资源名称、资源IP地址。
本实施例中的第一获取模块210用于执行步骤S110,关于所述第一获取模块210的具体描述可参照对所述步骤S110的描述。
所述第二获取模块220用于根据预设的筛选规则获取所述第一资源的多项指标信息、日志信息和快照信息,所述指标信息包括表征资源上各个结构的运行状态或者使用状态的多个数据项,所述快照信息包括故障时刻与各个所述第二资源的指标信息相关的多个数据项,所述日志信息包括与所述第一资源的日志相关的多个数据项。
本实施例中的第二获取模块220用于执行步骤S120,关于所述第二获取模块220的具体描述可参照对所述步骤S120的描述。
所述故障分析模块230用于根据获取的所述指标信息、所述快照信息以及所述日志信息进行故障分析。
本实施例中的故障分析模块230用于执行步骤S130,关于所述故障分析模块230的具体描述可参照对所述步骤S110的描述。
请参见图9,本实施例中,可选地,所述故障分析设备100中预先配置有相关度阈值、第一预设数据项以及第二预设数据项,所述第二获取模块 220包括第一获取单元221、第二获取单元222和第三获取单元223。
所述第一获取单元221用于获取故障时刻所在的第一预设时间长度内所述第一资源的指标信息和各个所述第二资源的指标信息,获取各个所述第二资源的各个指标信息与所述第一资源的相关度,筛选出所述相关度大于相关度阈值的第二资源的指标信息。
本实施例中的第一获取单元221用于执行步骤S121,关于所述第一获取单元221的具体描述可参照对所述步骤S121的描述。
所述第二获取单元222用于根据第一预设数据项筛选故障时刻第一资源的快照信息,获得筛选后的快照信息。
本实施例中的第二获取单元222用于执行步骤S122,关于所述第二获取单元222的具体描述可参照对所述步骤S122的描述。
所述第三获取单元223用于根据第二预设数据项获取故障时刻前的第二预设时间长度内第一资源的日志信息,获得筛选后的日志信息。
本实施例中的第三获取单元223用于执行步骤S123,关于所述第三获取单元223的具体描述可参照对所述步骤S123的描述。
所述故障分析模块230用于根据获取的所述指标信息、快照信息以及日志信息进行故障分析的步骤包括,根据筛选出的所述指标信息、快照信息以及日志信息进行故障分析。
请参见图10,本实施例中,可选地,所述装置还包括第三获取模块240、第四获取模块250、计算模块260和确定模块270。
所述第三获取模块240用于获取初始的告警信息,初始的所述告警信息为启动故障分析操作的告警信息,其中,初始的所述告警信息由所述第一资源和第二资源中的第三资源产生。
本实施例中的第三获取模块240用于执行步骤S210,关于所述第三获取模块240的具体描述可参照对所述步骤S210的描述。
所述第四获取模块250用于根据所述第三资源获得与所述第三资源相关的第四资源。
本实施例中的第四获取模块250用于执行步骤S220,关于所述第四获取模块250的具体描述可参照对所述步骤S220的描述。
所述计算模块260用于计算所述第三资源和各个所述第四资源的各个告警信息的告警关联度值,所述告警关联度值用于表征所述告警信息是生成其他告警信息的根源的可能性大小。
本实施例中的第四获取模块250用于执行步骤S230,关于所述第四获取模块250的具体描述可参照对所述步骤S230的描述。
所述确定模块270用于根据各个告警信息的所述告警关联度值确定所述第一资源。
本实施例中的确定模块270用于执行步骤S240,关于所述确定模块270 的具体描述可参照对所述步骤S240的描述。
请参见图11,本实施例中,可选地,所述故障分析设备100预先存储有所述第三资源和各个所述第四资源的层级值,所述层级值用于表征资源在网络中对其他资源产生影响的大小,所述计算模块260包括第四获取单元261、第五获取单元262和计算单元263。
所述第四获取单元261用于获取各个所述第四资源的告警信息。
本实施例中的第四获取单元261用于执行步骤S231,关于所述第四获取单元261的具体描述可参照对所述步骤S231的描述。
所述第五获取单元262用于针对所述第三资源或者每个所述第四资源获取所述第三资源或者该第四资源的层级值。
根据所述第三资源或者该第四资源的告警信息获取所述第三资源或者该第四资源的告警值,所述告警值用于表征告警信息的严重程度。
获取所述第三资源或者所述第四资源的事件值,所述事件值用于表征初始的所述告警信息产生前第三预设时间长度内与第三资源相关的事件对故障的影响大小。
本实施例中的第五获取单元262用于执行步骤S232-步骤S234,关于所述第五获取单元262的具体描述可参照对所述S232-步骤S234的描述。
所述计算单元263用于根据所述第三资源或者各个所述第四资源的层级值、告警值以及事件值计算所述第三资源或者该第四资源的告警关联度值。
本实施例中的计算单元263用于执行步骤S235,关于所述计算单元263 的具体描述可参照对所述步骤S235的描述。
综上所述,本申请实施例根据在告警信息产生时,获取第一资源的告警信息,所述告警信息至少包括第一资源名称、第一资源IP地址,然后根据第一预设规则对运行信息进行过滤,获得过滤后第一资源的指标信息、快照信息以及日志信息,然后根据过滤后的所述指标信息、快照信息以及日志信息进行故障分析。本申请实施例中由于是根据过滤后的所述指标信息、快照信息以及日志信息进行故障分析,因此,使得用于故障分析的数据包括资源运行信息中的多种信息,且不存在与故障分析无关的数据,因此,使得分析的数据量大大减少,因而,能够极大提高故障分析的效率和准确度。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (5)

1.一种故障分析方法,其特征在于,应用于故障分析系统中的故障分析设备,所述故障分析系统包括多个资源,所述多个资源中包括第一资源以及与所述第一资源相关的多个第二资源,所述故障分析设备预先存储有第三资源和各个第四资源的层级值,所述层级值用于表征资源在网络中对其他资源产生影响的大小;所述方法包括:
获取初始的告警信息,初始的所述告警信息为启动故障分析操作的告警信息,其中,初始的所述告警信息由所述第一资源和所述第二资源中的第三资源产生;
根据所述第三资源获得与所述第三资源相关的第四资源;
获取各个所述第四资源的告警信息;
针对所述第三资源或者每个所述第四资源获取所述第三资源或者该第四资源的层级值;
根据所述第三资源或者该第四资源的告警信息获取所述第三资源或者该第四资源的告警值,所述告警值用于表征告警信息的严重程度;
获取所述第三资源或者所述第四资源的事件值,所述事件值用于表征初始的所述告警信息产生前第三预设时间长度内与第三资源相关的事件对故障的影响大小;
获取所述第三资源的层级值、告警值以及事件值三者的乘积,获得所述第三资源的告警关联度值;
针对每个所述第四资源,获取该第四资源的层级值、告警值以及事件值三者的乘积,获得该第四资源的告警关联度值,所述告警关联度值用于表征所述告警信息是生成其他告警信息的根源的可能性大小;
根据各个告警信息的所述告警关联度值确定所述第一资源;
获取故障时刻所述第一资源的告警信息,所述告警信息至少包括所述第一资源的资源名称、资源IP地址;
根据预设的筛选规则获取所述第一资源的多项指标信息、日志信息和快照信息,所述指标信息包括表征资源上各个结构的运行状态或者使用状态的多个数据项,所述快照信息包括故障时刻与各个所述第二资源的指标信息相关的多个数据项,所述日志信息包括与所述第一资源的日志相关的多个数据项;
根据获取的所述指标信息、所述快照信息以及所述日志信息进行故障分析。
2.根据权利要求1所述的故障分析方法,其特征在于,所述故障分析设备中预先配置有相关度阈值、第一预设数据项以及第二预设数据项,所述根据预设的筛选规则获取所述第一资源的多项指标信息、日志信息和快照信息的步骤包括:
获取故障时刻所在的第一预设时间长度内所述第一资源的指标信息和各个所述第二资源的指标信息,获取各个所述第二资源的各个指标信息与所述第一资源的相关度,筛选出所述相关度大于相关度阈值的第二资源的指标信息;
根据第一预设数据项筛选故障时刻第一资源的快照信息,获得筛选后的快照信息;
根据第二预设数据项获取故障时刻前的第二预设时间长度内第一资源的日志信息,获得筛选后的日志信息;
所述根据获取的所述指标信息、快照信息以及日志信息进行故障分析的步骤包括,
根据筛选出的所述指标信息、快照信息以及日志信息进行故障分析。
3.根据权利要求1所述的故障分析方法,其特征在于,所述根据各个告警信息的所述告警关联度值确定所述第一资源的步骤包括:
比较各个资源的告警关联度值的大小;
获得告警关联度值最大的资源作为第一资源。
4.一种故障分析装置,其特征在于,应用于故障分析系统中的故障分析设备,所述故障分析系统包括多个资源,所述多个资源中包括第一资源以及与所述第一资源相关的多个第二资源,所述故障分析设备预先存储有第三资源和各个第四资源的层级值,所述层级值用于表征资源在网络中对其他资源产生影响的大小;所述装置包括第一获取模块,第二获取模块、第三获取模块、第四获取模块、计算模块、确定模块和故障分析模块,其中,所述计算模块包括第四获取单元、第五获取单元和计算单元;
所述第三获取模块用于获取初始的告警信息,初始的所述告警信息为启动故障分析操作的告警信息,其中,初始的所述告警信息由所述第一资源和第二资源中的第三资源产生;
所述第四获取模块用于根据所述第三资源获得与所述第三资源相关的第四资源;
所述第四获取单元用于获取各个所述第四资源的告警信息;
所述第五获取单元用于:
针对所述第三资源或者每个所述第四资源获取所述第三资源或者该第四资源的层级值;
根据所述第三资源或者该第四资源的告警信息获取所述第三资源或者该第四资源的告警值,所述告警值用于表征告警信息的严重程度;
获取所述第三资源或者所述第四资源的事件值,所述事件值用于表征初始的所述告警信息产生前第三预设时间长度内与第三资源相关的事件对故障的影响大小;
所述计算单元用于:
获取所述第三资源的层级值、告警值以及事件值三者的乘积,获得所述第三资源的告警关联度值;
针对每个所述第四资源,获取该第四资源的层级值、告警值以及事件值三者的乘积,获得该第四资源的告警关联度值,所述告警关联度值用于表征所述告警信息是生成其他告警信息的根源的可能性大小;
所述确定模块用于根据各个告警信息的所述告警关联度值确定所述第一资源;
所述第一获取模块用于获取故障时刻所述第一资源的告警信息,所述告警信息至少包括所述第一资源的资源名称、资源IP地址;
所述第二获取模块用于根据预设的筛选规则获取所述第一资源的多项指标信息、日志信息和快照信息,所述指标信息包括表征资源上各个结构的运行状态或者使用状态的多个数据项,所述快照信息包括故障时刻与各个所述第二资源的指标信息相关的多个数据项,所述日志信息包括与所述第一资源的日志相关的多个数据项;
所述故障分析模块用于根据获取的所述指标信息、所述快照信息以及所述日志信息进行故障分析。
5.根据权利要求4所述的故障分析装置,其特征在于,所述故障分析设备中预先配置有相关度阈值、第一预设数据项以及第二预设数据项,所述第二获取模块包括第一获取单元、第二获取单元和第三获取单元;
所述第一获取单元用于获取故障时刻所在的第一预设时间长度内所述第一资源的指标信息和各个所述第二资源的指标信息,获取各个所述第二资源的各个指标信息与所述第一资源的相关度,筛选出所述相关度大于相关度阈值的第二资源的指标信息;
所述第二获取单元用于根据第一预设数据项筛选故障时刻第一资源的快照信息,获得筛选后的快照信息;
所述第三获取单元用于根据第二预设数据项获取故障时刻前的第二预设时间长度内第一资源的日志信息,获得筛选后的日志信息;
所述故障分析模块用于根据获取的所述指标信息、快照信息以及日志信息进行故障分析的步骤包括,
根据筛选出的所述指标信息、快照信息以及日志信息进行故障分析。
CN201811596676.6A 2018-12-26 2018-12-26 故障分析方法及装置 Active CN109597746B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811596676.6A CN109597746B (zh) 2018-12-26 2018-12-26 故障分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811596676.6A CN109597746B (zh) 2018-12-26 2018-12-26 故障分析方法及装置

Publications (2)

Publication Number Publication Date
CN109597746A CN109597746A (zh) 2019-04-09
CN109597746B true CN109597746B (zh) 2022-05-13

Family

ID=65964585

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811596676.6A Active CN109597746B (zh) 2018-12-26 2018-12-26 故障分析方法及装置

Country Status (1)

Country Link
CN (1) CN109597746B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110932899B (zh) * 2019-11-28 2022-07-26 杭州东方通信软件技术有限公司 一种应用ai智能故障压缩研究方法及其系统
CN111401577A (zh) * 2020-02-14 2020-07-10 上海电气分布式能源科技有限公司 设备管理方法、装置、设备及存储介质
CN111522678B (zh) * 2020-04-14 2023-10-24 聚好看科技股份有限公司 故障检测方法和装置
CN112052147A (zh) * 2020-07-27 2020-12-08 网宿科技股份有限公司 监控方法、电子设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462846A (zh) * 2014-12-22 2015-03-25 山东鲁能软件技术有限公司 一种基于支持向量机的设备故障智能诊断方法
CN106250288A (zh) * 2016-07-29 2016-12-21 浪潮软件集团有限公司 一种基于数据挖掘的根告警分析识别方法
US9558056B2 (en) * 2013-07-28 2017-01-31 OpsClarity Inc. Organizing network performance metrics into historical anomaly dependency data
CN107124299A (zh) * 2017-03-31 2017-09-01 北京奇艺世纪科技有限公司 基于资源拓扑的资源预警方法及系统
CN107562601A (zh) * 2017-09-12 2018-01-09 郑州云海信息技术有限公司 一种告警方法及装置
CN107783731A (zh) * 2017-08-07 2018-03-09 荣科科技股份有限公司 一种大数据实时处理方法及处理系统
CN108009040A (zh) * 2017-12-12 2018-05-08 杭州时趣信息技术有限公司 一种确定故障根因的方法、系统和计算机可读存储介质
US10027534B1 (en) * 2015-05-27 2018-07-17 VCE IP Holding Company LLC Log management system and method for distributed computing systems
CN108696369A (zh) * 2017-04-06 2018-10-23 华为技术有限公司 一种告警信息处理设备及方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140297821A1 (en) * 2013-03-27 2014-10-02 Alcatel-Lucent Usa Inc. System and method providing learning correlation of event data
US10140171B2 (en) * 2016-04-14 2018-11-27 International Business Machines Corporation Method and apparatus for downsizing the diagnosis scope for change-inducing errors
US10216622B2 (en) * 2016-09-01 2019-02-26 International Business Machines Corporation Diagnostic analysis and symptom matching

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9558056B2 (en) * 2013-07-28 2017-01-31 OpsClarity Inc. Organizing network performance metrics into historical anomaly dependency data
CN104462846A (zh) * 2014-12-22 2015-03-25 山东鲁能软件技术有限公司 一种基于支持向量机的设备故障智能诊断方法
US10027534B1 (en) * 2015-05-27 2018-07-17 VCE IP Holding Company LLC Log management system and method for distributed computing systems
CN106250288A (zh) * 2016-07-29 2016-12-21 浪潮软件集团有限公司 一种基于数据挖掘的根告警分析识别方法
CN107124299A (zh) * 2017-03-31 2017-09-01 北京奇艺世纪科技有限公司 基于资源拓扑的资源预警方法及系统
CN108696369A (zh) * 2017-04-06 2018-10-23 华为技术有限公司 一种告警信息处理设备及方法
CN107783731A (zh) * 2017-08-07 2018-03-09 荣科科技股份有限公司 一种大数据实时处理方法及处理系统
CN107562601A (zh) * 2017-09-12 2018-01-09 郑州云海信息技术有限公司 一种告警方法及装置
CN108009040A (zh) * 2017-12-12 2018-05-08 杭州时趣信息技术有限公司 一种确定故障根因的方法、系统和计算机可读存储介质

Also Published As

Publication number Publication date
CN109597746A (zh) 2019-04-09

Similar Documents

Publication Publication Date Title
CN109597746B (zh) 故障分析方法及装置
CN110661659B (zh) 一种告警方法、装置、系统及电子设备
RU2017118317A (ru) Система и способ автоматического расчета кибер-риска в бизнес-критических приложениях
CN111045894B (zh) 数据库异常检测方法、装置、计算机设备和存储介质
US9524223B2 (en) Performance metrics of a computer system
US20170244595A1 (en) Dynamic data collection profile configuration
CN110399268A (zh) 一种异常数据检测的方法、装置及设备
CN111478889A (zh) 一种告警方法及装置
CN114936675A (zh) 一种故障预警方法、装置、存储介质及电子设备
CN112671767A (zh) 一种基于告警数据分析的安全事件预警方法及装置
CN111367747A (zh) 基于时间标注的指标异动检测预警的装置
CN111062642A (zh) 对象的行业风险程度识别方法、装置以及电子设备
CN108595685B (zh) 一种数据处理方法及装置
CN113569965A (zh) 一种基于物联网的用户行为分析方法及系统
US10936395B1 (en) Smart log parser for backup software to ease troubleshooting
CN114116391A (zh) Redis实例的健康检测方法、装置、设备及存储介质
US11675647B2 (en) Determining root-cause of failures based on machine-generated textual data
CN116668264A (zh) 一种告警聚类的根因分析方法、装置、设备及存储介质
CN110086840B (zh) 图像数据存储方法、装置及计算机可读存储介质
CN113568952A (zh) 一种物联网资源数据分析方法
CN109144816A (zh) 一种节点健康度检测方法和系统
CN113609111A (zh) 一种大数据测试方法及系统
CN113628073A (zh) 一种智慧小区的物业管理方法及系统
CN111581044A (zh) 集群优化方法、装置、服务器及介质
CN110020348B (zh) 圈选事件的预警方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant