CN109150635B - 故障影响分析方法及装置 - Google Patents

故障影响分析方法及装置 Download PDF

Info

Publication number
CN109150635B
CN109150635B CN201811258336.2A CN201811258336A CN109150635B CN 109150635 B CN109150635 B CN 109150635B CN 201811258336 A CN201811258336 A CN 201811258336A CN 109150635 B CN109150635 B CN 109150635B
Authority
CN
China
Prior art keywords
node
state value
alarm
state
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811258336.2A
Other languages
English (en)
Other versions
CN109150635A (zh
Inventor
张林建
顾杰
张存超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agricultural Bank Of China Financial Technology Co ltd
Agricultural Bank of China
Original Assignee
Agricultural Bank of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agricultural Bank of China filed Critical Agricultural Bank of China
Priority to CN201811258336.2A priority Critical patent/CN109150635B/zh
Publication of CN109150635A publication Critical patent/CN109150635A/zh
Application granted granted Critical
Publication of CN109150635B publication Critical patent/CN109150635B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/065Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving logical or physical relationship, e.g. grouping and hierarchies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/12Discovery or management of network topologies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/22Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks comprising specially adapted graphical user interfaces [GUI]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请实施例公开了一种故障影响分析方法及装置,预先根据业务结构建立树形业务拓扑视图,对视图中的各个节点进行故障监测,根据节点的状态值确定其父节点在其影响下的状态值,并在树形业务拓扑视中对应父节点显示父节点自身的状态值,父节点在子节点的影响下的状态值,以及子节点的状态值。由于树形业务拓扑视图直观的展现了业务系统的逻辑架构,因而运维人员能够站在业务的角度清晰的查看组成业务的各对象之间的关联关系,结合对应节点输出的三个状态值,当有节点发生故障告警时,运维人员可以快速定位业务故障根源及故障的影响范围。

Description

故障影响分析方法及装置
技术领域
本申请涉及故障分析技术领域,更具体地说,涉及一种故障影响分析方法及装置。
背景技术
在现代金融企业业务系统及相关领域,处理系统故障的工作模式往往是人工处理为主。故障或异常的发现渠道主要有三种:业务人员(也就是系统的使用者)上报、运维人员例行检查、监控系统实时监控。发现系统故障后,故障的排查以及对业务影响范围的评估便尤为重要,而现有工作模式主要依赖于运维人员的专业知识和运维经验。目前这种以人工处理为主的工作模式下,故障排查的时效性和业务影响范围评估的准确性及全面性很难得到保证。
因此,如何实现快速有效的故障排查和准确全面的影响范围分析成为亟待解决的技术问题。
发明内容
本申请的目的是提供一种故障影响分析方法及装置,以至少部分的克服现有技术中存在的技术问题。
为实现上述目的,本申请提供了如下技术方案:
一种故障影响分析方法,包括:
对预先建立的树形业务拓扑视图中的各个节点进行故障监测;所述树形业务拓扑视图中的根节点表征所述业务,所述树形业务拓扑视图中的非根节点表征组成所述业务的各对象,对象间的父子关系表征业务功能实现过程中对象之间的关联关系;
根据第一节点的自身状态值,以及所述第一节点的各个子节点的主状态值,确定所述第一节点的主状态值和子状态值;其中,所述自身状态值表征所述第一节点的自身状态是否发生故障告警,以及发生故障告警时的告警级别;所述子状态值表征所述第一节点的子节点中是否有节点的主状态发生故障告警,以及发生故障告警时的最高告警级别;所述第一节点的主状态值表征所述第一节点在自身状态和子节点的主状态影响下的综合状态;
输出所述树形业务拓扑视图,并与所述第一节点相关联地输出所述第一节点的自身状态值、子状态值和主状态值。
上述方法,优选的,所述根据第一节点的自身状态值,以及所述第一节点的各个子节点的主状态值,确定所述第一节点的主状态值,包括:
根据预置的父子节点的告警级别映射关系,确定所述子节点的主状态值对应的第二告警级别映射到所述第一节点的第一告警级别;
根据第一节点的自身状态值,以及各个所述第一告警级别对应的状态值,确定所述第一节点的主状态值。
上述方法,优选的,所述父子节点的告警级别映射关系,包括:
子节点的主状态发生故障告警,映射到父节点是严重告警;或者,
子节点的主状态发生故障告警,映射到父节点的是子节点的告警+1级的告警;或者,
子节点的主状态发生故障告警,映射到父节点的是子节点的告警-1级的告警;或者,
子节点的主状态发生故障告警,映射到父节点的全部是无告警;或者,
子节点的主状态发生故障告警,映射到父节点时告警级别不变。
上述方法,优选的,所述根据第一节点的自身状态值,以及各个所述第一告警级别对应的状态值,确定所述第一节点的主状态值,包括:
根据各个所述第一告警级别对应的状态值,确定子影响状态值;所述子影响状态值为:各个所述第一告警级别中最高级别的故障告警对应的状态值,或者,各个所述第一告警级别中最低级别的故障告警对应的状态值,或者,各个所述第一告警级别对应的状态值的平均值,或者,各个所述第一告警级别对应的状态值的加权和;
将所述自身状态值以及所述子影响状态值中,表征较高告警级别的状态值确定为所述第一节点的主状态值。
上述方法,优选的,若所述第一节点自身同时发生多个故障告警,所述自身状态值为:
所述第一节点自身发生的最高级别的故障告警对应的状态值;或者,
所述第一节点自身发生的多个故障告警对应的状态值的加权和。
上述方法,优选的,所述根据第一节点的自身状态值,以及所述第一节点的各个子节点的主状态值,确定所述第一节点的主状态值,包括:
根据各个所述子节点的主状态值,确定子影响状态值;所述子影响状态值为:各个所述子节点的主状态值中表征最高级别的故障告警的状态值,或者,各个所述子节点的主状态值中表征最低级别的故障告警的状态值,或者,各个所述子节点的主状态值的平均值,或者,各个所述子节点的主状态值的加权和;
将所述自身状态值以及所述子影响状态值中,表征较高告警级别的状态值确定为所述第一节点的主状态值。
一种故障影响分析装置,包括:
监测模块,用于对预先建立的树形业务拓扑视图中的各个节点进行故障监测;所述树形业务拓扑视图中的根节点表征所述业务,所述树形业务拓扑视图中的非根节点表征组成所述业务的各对象,对象间的父子关系表征业务功能实现过程中对象之间的关联关系;
确定模块,用于根据第一节点的自身状态值,以及所述第一节点的各个子节点的主状态值,确定所述第一节点的主状态值和子状态值;其中,所述自身状态值表征所述第一节点的自身状态是否发生故障告警,以及发生故障告警时的告警级别;所述子状态值表征所述第一节点的子节点中是否有节点的主状态发生故障告警,以及发生故障告警时的最高告警级别;所述第一节点的主状态值表征所述第一节点在自身状态和子节点的主状态影响下的综合状态;
输出模块,用于输出所述树形业务拓扑视图,并与所述第一节点相关联地输出所述第一节点的自身状态值、子状态值和主状态值。
上述装置,优选的,所述确定模块根据第一节点的自身状态值,以及所述第一节点的各个子节点的主状态值,确定所述第一节点的主状态值时,具体用于:
根据预置的父子节点的告警级别映射关系,确定所述子节点的主状态值对应的第二告警级别映射到所述第一节点的第一告警级别;
根据第一节点的自身状态值,以及各个所述第一告警级别对应的状态值,确定所述第一节点的主状态值。
上述装置,优选的,所述确定模块根据第一节点的自身状态值,以及各个所述第一告警级别对应的状态值,确定所述第一节点的主状态值时,具体用于:
根据各个所述第一告警级别对应的状态值,确定子影响状态值;所述子影响状态值为:各个所述第一告警级别中最高级别的故障告警对应的状态值,或者,各个所述第一告警级别中最低级别的故障告警对应的状态值,或者,各个所述第一告警级别对应的状态值的平均值,或者,各个所述第一告警级别对应的状态值的加权和;
将所述自身状态值以及所述子影响状态值中,表征较高告警级别的状态值确定为所述第一节点的主状态值。
上述装置,优选的,所述确定模块根据第一节点的自身状态值,以及所述第一节点的各个子节点的主状态值,确定所述第一节点的主状态值时,具体用于:
根据各个所述子节点的主状态值,确定子影响状态值;所述子影响状态值为:各个所述子节点的主状态值中表征最高级别的故障告警的状态值,或者,各个所述子节点的主状态值中表征最低级别的故障告警的状态值,或者,各个所述子节点的主状态值的平均值,或者,各个所述子节点的主状态值的加权和;
将所述自身状态值以及所述子影响状态值中,表征较高告警级别的状态值确定为所述第一节点的主状态值。
通过以上方案可知,本申请提供的一种故障影响分析方法及装置,预先根据业务结构建立树形业务拓扑视图,对视图中的各个节点进行故障监测,根据节点的状态值确定其父节点在其影响下的状态值,并在树形业务拓扑视中对应父节点显示父节点自身的状态值,父节点在子节点的影响下的状态值,以及子节点的状态值。由于树形业务拓扑视图直观的展现了业务系统的逻辑架构,因而运维人员能够站在业务的角度清晰的查看组成业务的各对象之间的关联关系,结合对应节点输出的三个状态值,当有节点发生故障告警时,运维人员可以快速定位业务故障根源(即自身发生故障告警的节点)及故障的影响范围(即发生故障告警的节点所在的拓扑路径)。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的故障影响分析方法的一种实现流程图;
图2为本申请实施例提供的树形业务拓扑视图的一种示例图;
图3为本申请实施例提供的故障影响分析装置的一种结构示意图。
说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的部分,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示的以外的顺序实施。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请的基本思想是,对组成业务的各对象之间的关联关系进行梳理,得到树形业务拓扑视图,该树形业务拓扑视图的根节点表征该业务,该树形业务拓扑视图的非根节点表征组成该业务的各对象,树形业务拓扑视图中具有父子关系的节点表征的对象存在关联关系。对各节点的对象进行故障监测,当监测到故障时,生成故障告警,不同级别的告警对应不同的状态值。对于每一个节点,可以根据该节点的状态值确定其父节点在其影响下的状态值,并在树形业务拓扑视中对应父节点显示父节点自身的故障告警状态值(为便于叙述,记为自身状态值),父节点在子节点的影响下的状态值(为便于叙述,记为主状态值),以及子节点的状态值(为便于叙述,记为子状态值)。由于树形业务拓扑视图直观的展现了业务系统的逻辑架构,因而运维人员能够站在业务的角度清晰的查看组成业务的各对象之间的关联关系,结合对应节点输出的三个状态值,当有节点发生故障时,运维人员可以快速定位业务故障根源(即自身发生故障告警的节点)及故障的影响范围(即发生故障告警的节点所在的拓扑路径)。
综上,本申请实施例中,树形业务拓扑视图中的每个节点均具有自身状态(自身状态的取值记为自身状态值),子状态(子状态的取值记为子状态值)和主状态(主状态的取值记为主状态值)这三个状态。其中,
节点的自身状态值表征该节点自身状态是否发生故障告警,以及发生故障告警时该故障告警的告警级别。需要说明的是,树形业务拓扑视图中,最顶端的根节点的自身状态值恒为无告警时的状态值。
节点的子状态值表征该节点的子节点中是否有节点的主状态发生告警,以及有节点的主状态发生故障告警时的最高告警级别。需要说明的是,树形业务拓扑视图中,最底端的叶子节点的子状态值恒为无告警时的状态值。
节点的主状态值表征该节点在该节点的自身状态和子节点的主状态影响下的综合状态,即该节点在该节点的自身状态和子节点的主状态影响下是否发生故障告警,以及发生故障告警时的告警级别。
也就是说,不同的状态值对应不同的告警级别。
本申请实施例中,对各节点的对象进行故障监测包括对上述三个状态的故障监测,其中,对节点的自身状态的故障监测是指监测节点的自身(与子节点无关)是否发生故障,根据监测结果产生相应级别的故障告警,从而可以确定自身状态值;对节点的子状态的故障监测是指监测节点的子状态值是否达到故障告警条件,以及达到故障告警条件时,该故障告警条件对应的故障告警的告警级别;同理,对节点的主状态的故障监测是指监测节点的主状态值是否达到故障告警条件,以及达到故障告警条件时,该故障告警条件对应的故障告警的告警级别。也就说,不同级别的故障告警对应不同的故障告警条件,故障告警条件可以为:状态值是否达到故障告警条件对应的状态值阈值。
如图1所示,为本申请实施例提供的故障影响分析方法的一种实现流程图,可以包括:
步骤S11:对预先建立的树形业务拓扑视图中的各个节点进行故障监测;该树形业务拓扑视图中的根节点表征业务,树形业务拓扑视图中的非根节点表征组成业务的各对象,对象之间的父子关系表征业务功能实现过程中对象之间的关联关系,如父子关系,和/或,次序关系(即业务实现过程中不同对象对应的处理环节的先后次序),和/或,物理连接关系等。
其中,组成业务的对象包括硬件和软件两大类,硬件可以包括主机,存储设备等,软件可以包括:进程、数据库、IP地址、程序等。硬件和软件的组成不仅限于上述列举的几种,还可以包括其它组成部分,这里不再一一列举。
在构建树形业务拓扑视图时,可以根据业务功能执行过程中对象间的上述关联关系建立对象间的父子关系。
如图2所示,为本申请实施例提供的报表业务的树形业务拓扑视图的一种示例图。
步骤S12:根据第一节点的自身状态值,以及第一节点的各个子节点的主状态值,确定第一节点的主状态值和子状态值;其中,第一节点的自身状态值表征第一节点的自身状态是否发生故障告警,以及发生故障告警时的告警级别;第一节点的子状态值表征第一节点的子节点中是否有节点的主状态发生故障告警,以及发生故障告警时的最高告警级别;第一节点的主状态值表征第一节点在自身状态和子节点的主状态影响下的综合状态。
第一节点为树形业务拓扑视图中的任意一个节点,该第一节点的自身状态值表征第一节点自身未发生故障,或者,表征第一节点自身发生故障告警,以及该故障告警的告警级别。
同理,第一节点的子状态值表征第一节点的子节点中没有节点发生故障,或者,表征第一节点的子节点中有节点发生故障告警,以及所有发生故障告警的子节点中发生的最高告警级别。
第一节点的主状态值表征第一节点的自身和子节点均未发生故障,或者,表征第一节点自身和/或子节点发生故障时,对第一节点产生的最大影响。
步骤S13:输出所述树形业务拓扑视图,并与所述第一节点相关联地输出第一节点的自身状态值,第一节点的子状态值,以及第一节点的主状态值。
可选的,对于状态值表征发生故障告警的节点,还可以改变其颜色、亮度等外观属性,以提示运维人员该节点发生故障。不同的告警级别的故障还可以通过不同的外观属性(例如,不同的颜色)表征。另外,同一节点的不同状态也可以通过不同的标记进行区分,以便运维人员快速定位节点的故障源。
本申请提供的故障影响分析方法,预先根据业务结构建立树形业务拓扑视图,对视图中的各个节点进行故障监测,根据节点的状态值确定其父节点在其影响下的状态值,并在树形业务拓扑视中对应父节点显示父节点自身的状态值,父节点在子节点的影响下的状态值,以及子节点的状态值。由于树形业务拓扑视图直观的展现了业务系统的逻辑架构,因而运维人员能够站在业务的角度清晰的查看组成业务的各对象之间的关联关系,结合对应节点输出的三个状态值,当有节点发生故障告警时,运维人员可以快速定位业务故障根源(即自身发生故障告警的节点)及故障的影响范围(即发生故障告警的节点所在的拓扑路径)。
在一可选的实施例中,根据第一节点的自身状态值,以及第一节点的各个子节点的主状态值,确定第一节点的主状态值的一种实现方式可以为:
根据预置的父子节点的告警级别映射关系,确定子节点的主状态值对应的第二告警级别映射到第一节点的第一告警级别;
根据第一节点的自身状态值,以及各个第一告警级别对应的状态值,确定第一节点的主状态值。
本申请中,假设子节点的主状值对应的告警级别为第二告警级别,其映射到第一节点的告警级别为第一告警级别。根据子节点对父节点的影响程度,建立了父子节点的告警级别映射关系。子节点对父节点的影响程度不同,建立的父子节点的告警级别映射关系可能不同。
从而根据映射后的告警级别对应的状态值确定第一节点的主状态值,更准确的反映子节点对父节点的影响。
在一可选的实施例中,父子节点的告警级别映射关系可以包括如下几种类型:
最大化型:子节点的主状态发生故障告警,映射到父节点是严重告警;或者,
增加型:子节点的主状态发生故障告警,映射到父节点的是子节点的告警+1级的告警;或者,
减小型:子节点的主状态发生故障告警,映射到父节点的是子节点的告警-1级的告警;或者,
最小化型:子节点的主状态发生故障告警,映射到父节点的全部是无告警;或者,
直接型:子节点的主状态发生故障告警,映射到父节点时告警级别不变。
在一个树形业务拓扑视图中,可以包括如上几种类型的映射关系中的至少一种。父子节点具体使用哪种映射关系,可以根据业务的实际应用场景设定。
在一可选的实施例中,根据第一节点的自身状态值,以及各个第一告警级别对应的状态值,确定第一节点的主状态值的一种实现方式可以为:
根据各个第一告警级别对应的状态值,确定子影响状态值;该子影响状态值的确定方法可以为:
标准算法:各个第一告警级别中最高级别的故障告警对应的状态值。例如,在不同的子节点对于父节点的重要程度不同时。子节点对于父节点的重要程度可以根据实际的业务需求由用户确定。
或者,
集群算法:各个第一告警级别中最低级别的故障告警对应的状态值。例如,父节点和子节点以集群方式连接时。
或者,
平均算法:各个第一告警级别对应的状态值的平均值。子节点为联机程序或者批量程序时。
或者,
加权算法:各个第一告警级别对应的状态值的加权和。例如,在不同的子节点对于父节点的重要程度相同时。
将自身状态值以及子影响状态值中,表征较高告警级别的状态值确定为第一节点的主状态值,也就说,第一节点的主状态值要么为自身状态值,要么为子影响状态值。
在一可选的实施例中,根据第一节点的自身状态值,以及第一节点的各个子节点的主状态值,确定第一节点的主状态值的一种实现方式可以为:
根据各个子节点的主状态值,确定子影响状态值;该子影响状态值为:各个子节点的主状态值中表征最高级别的故障告警的状态值,或者,各个子节点的主状态值中表征最低级别的故障告警的状态值,或者,各个子节点的主状态值的平均值,或者,各个子节点的主状态值的加权和;
将自身状态值以及子影响状态值中,表征较高告警级别的状态值确定为第一节点的主状态值,即第一节点的主状态值要么为自身状态值,要么为子影响状态值。
在一可选的实施例中,若第一节点自身同时发生多个故障告警,则自身状态值为:
第一节点自身发生的最高级别的故障告警对应的状态值;通常,在第一节点自身发生多个不同级别的故障告警中,将最高级别的故障告警确定为第一节点的自身状态值。例如,假设第一节点同时产生两个故障告警,告警1为IP地址ping不同,告警2为机器宕机,其中,告警1的级别高于告警2的级别,即告警1对应的故障更严重,则将告警1对应的状态值确定为第一节点的自身状态值。
或者,
第一节点自身发生的多个故障告警对应的状态值的加权和。通常,在第一节点自身的发生多个相同级别的故障告警时,可以根据预先为各个故障告警设置的权重计算该多个故障告警对应的状态值的加权和。例如,假设第一节点的接口1和接口2同时发生告警,可以根据该两个接口产生的告警对应的权重将该两个的接口对应的状态值求加权和,将该加权和作为第一节点的自身状态值。
在一可选的实施例中,第一节点的子状态值可以为:
第一节点的子节点的主状态发生的最高级别的故障告警对应的状态值;或者,
第一节点的子节点的主状态发生的故障告警映射到第一节点后,映射得到的最高级别的故障告警对应的状态值。具体映射规则可以参看前述内容,这里不再赘述。
以图2为例,假设告警级别由高到低依次为:严重告警、主要告警、次要告警、警告告警,对应的状态值分别为:严重告警,20;主要告警,40;次要告警,60;警告告警,80;无告警(即运行良好)时,状态值为100。其中,计算IP地址1的主状态值时,子影响状态值的计算采用集群算法;计算文档管理服务的主状态值时,子影响状态值的计算采用标准算法;计算报表业务的主状态值时,子影响状态值的计算采用加权算法,其中,文档管理服务对应的权重为1/2,接口、批量文件和进程1对应的权重分别为1/6。计算子影响状态值时,父子节点的告警级别映射关系均为直接型。
假设在某个时刻,主机A仅自身发生严重告警,主机B仅自身发生主要告警;其它节点均未发生任何告警,则:
主机A的自身态值为20,主机A的子状态值为100,主机A的主状态值为20。
主机B的自身态值为40,主机B的子状态值为100,主机B的主状态值为40。
IP地址1的自身态值为100,IP地址1的子状态值为20,IP地址1的主状态值为40。
数据库1的自身态值为100,数据库1的子状态值为100,数据库1的主状态值为100。
进程2的自身态值为100,进程2的子状态值为100,进程2的主状态值为100。
文档管理服务的自身态值为100,文档管理服务的子状态值为40,文档管理服务的主状态值为40。
接口、批量文件和进程1的自身状态值均为100,接口、批量文件和进程1的子状态值均为100,接口、批量文件和进程1的主状态值均为100。
报表业务的子状态值为40,报表业务的主状态值为70。
根据报表业务的主状态值,以及报表业务是否可用的范围可以确定报表业务是否可用。
例如,假设主状态值在0~25之间时,认为报表业务不可用,否则认为报表可用,则上述举例中,报表业务的主状态值为70,则可以确定报表业务是可用的。
与方法实施例相对应,本申请还提供一种故障影响分析装置,本申请提供的故障影响分析装置的一种结构示意图如图3所示,可以包括:
监测模块31,确定模块32和输出模块33;其中,
监测模块31用于对预先建立的树形业务拓扑视图中的各个节点进行故障监测;所述树形业务拓扑视图中的根节点表征所述业务,所述树形业务拓扑视图中的非根节点表征组成所述业务的各对象,对象间的父子关系表征业务功能实现过程中对象之间的关联关系;
确定模块32用于根据第一节点的自身状态值,以及所述第一节点的各个子节点的主状态值,确定所述第一节点的主状态值和子状态值;其中,所述自身状态值表征所述第一节点的自身状态是否发生故障告警,以及发生故障告警时的告警级别;所述子状态值表征所述第一节点的子节点中是否有节点的主状态发生故障告警,以及发生故障告警时的最高告警级别;所述第一节点的主状态值表征所述第一节点在自身状态和子节点的主状态影响下的综合状态;
输出模块33用于输出所述树形业务拓扑视图,并与所述第一节点相关联地输出所述第一节点的自身状态值、子状态值和主状态值。
本申请提供的故障影响分析装置,对预先根据业务结构建立的树形业务拓扑视图中的各个节点进行故障监测,根据节点的状态值确定其父节点在其影响下的状态值,并在树形业务拓扑视中对应父节点显示父节点自身的状态值,父节点在子节点的影响下的状态值,以及子节点的状态值。由于树形业务拓扑视图直观的展现了业务系统的逻辑架构,因而运维人员能够站在业务的角度清晰的查看组成业务的各对象之间的关联关系,结合对应节点输出的三个状态值,当有节点发生故障告警时,运维人员可以快速定位业务故障根源(即自身发生故障告警的节点)及故障的影响范围(即发生故障告警的节点所在的拓扑路径)。
在一可选的实施例中,确定模块32根据第一节点的自身状态值,以及所述第一节点的各个子节点的主状态值,确定所述第一节点的主状态值时,具体用于:
根据预置的父子节点的告警级别映射关系,确定所述子节点的主状态值对应的第二告警级别映射到所述第一节点的第一告警级别;
根据第一节点的自身状态值,以及各个所述第一告警级别对应的状态值,确定所述第一节点的主状态值。
在一可选的实施例中,所述父子节点的告警级别映射关系,包括:
子节点的主状态发生故障告警,映射到父节点是严重告警;或者,
子节点的主状态发生故障告警,映射到父节点的是子节点的告警+1级的告警;或者,
子节点的主状态发生故障告警,映射到父节点的是子节点的告警-1级的告警;或者,
子节点的主状态发生故障告警,映射到父节点的全部是无告警;或者,
子节点的主状态发生故障告警,映射到父节点时告警级别不变。
在一可选的实施例中,确定模块32根据第一节点的自身状态值,以及各个所述第一告警级别对应的状态值,确定所述第一节点的主状态值时,具体用于:
根据各个所述第一告警级别对应的状态值,确定子影响状态值;所述子影响状态值为:各个所述第一告警级别中最高级别的故障告警对应的状态值,或者,各个所述第一告警级别中最低级别的故障告警对应的状态值,或者,各个所述第一告警级别对应的状态值的平均值,或者,各个所述第一告警级别对应的状态值的加权和;
将所述自身状态值以及所述子影响状态值中,表征较高告警级别的状态值确定为所述第一节点的主状态值。
在一可选的实施例中,若所述第一节点自身同时发生多个故障告警,所述自身状态值为:
所述第一节点自身发生的最高级别的故障告警对应的状态值;或者,
所述第一节点自身发生的多个故障告警对应的状态值的加权和。
在一可选的实施例中,确定模块32根据第一节点的自身状态值,以及所述第一节点的各个子节点的主状态值,确定所述第一节点的主状态值时,具体用于:
根据各个所述子节点的主状态值,确定子影响状态值;所述子影响状态值为:各个所述子节点的主状态值中表征最高级别的故障告警的状态值,或者,各个所述子节点的主状态值中表征最低级别的故障告警的状态值,或者,各个所述子节点的主状态值的平均值,或者,各个所述子节点的主状态值的加权和;
将所述自身状态值以及所述子影响状态值中,表征较高告警级别的状态值确定为所述第一节点的主状态值。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
应当理解,本申请实施例中,从权、各个实施例、特征可以互相组合结合,都能实现解决前述技术问题。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种故障影响分析方法,其特征在于,包括:
对预先建立的树形业务拓扑视图中的各个节点进行故障监测;所述树形业务拓扑视图中的根节点表征业务,所述树形业务拓扑视图中的非根节点表征组成所述业务的各对象,对象间的父子关系表征业务功能实现过程中对象之间的关联关系;
根据第一节点的自身状态值,以及所述第一节点的各个子节点的主状态值,确定所述第一节点的主状态值和子状态值;其中,所述自身状态值表征所述第一节点的自身状态是否发生故障告警,以及发生故障告警时的告警级别;所述子状态值表征所述第一节点的子节点中是否有节点的主状态发生故障告警,以及发生故障告警时的最高告警级别;所述第一节点的主状态值表征所述第一节点在自身状态和子节点的主状态影响下的综合状态;
输出所述树形业务拓扑视图,并与所述第一节点相关联地输出所述第一节点的自身状态值、子状态值和主状态值。
2.根据权利要求1所述的方法,其特征在于,所述根据第一节点的自身状态值,以及所述第一节点的各个子节点的主状态值,确定所述第一节点的主状态值,包括:
根据预置的父子节点的告警级别映射关系,确定所述子节点的主状态值对应的第二告警级别映射到所述第一节点的第一告警级别;
根据第一节点的自身状态值,以及各个所述第一告警级别对应的状态值,确定所述第一节点的主状态值。
3.根据权利要求2所述的方法,其特征在于,所述父子节点的告警级别映射关系,包括:
子节点的主状态发生故障告警,映射到父节点是严重告警;或者,
子节点的主状态发生故障告警,映射到父节点的是子节点的告警+1级的告警;或者,
子节点的主状态发生故障告警,映射到父节点的是子节点的告警-1级的告警;或者,
子节点的主状态发生故障告警,映射到父节点的全部是无告警;或者,
子节点的主状态发生故障告警,映射到父节点时告警级别不变。
4.根据权利要求2所述的方法,其特征在于,所述根据第一节点的自身状态值,以及各个所述第一告警级别对应的状态值,确定所述第一节点的主状态值,包括:
根据各个所述第一告警级别对应的状态值,确定子影响状态值;所述子影响状态值为:各个所述第一告警级别中最高级别的故障告警对应的状态值,或者,各个所述第一告警级别中最低级别的故障告警对应的状态值,或者,各个所述第一告警级别对应的状态值的平均值,或者,各个所述第一告警级别对应的状态值的加权和;
将所述自身状态值以及所述子影响状态值中,表征较高告警级别的状态值确定为所述第一节点的主状态值。
5.根据权利要求1-4任意一项所述的方法,其特征在于,若所述第一节点自身同时发生多个故障告警,所述自身状态值为:
所述第一节点自身发生的最高级别的故障告警对应的状态值;或者,
所述第一节点自身发生的多个故障告警对应的状态值的加权和。
6.根据权利要求1所述的方法,其特征在于,所述根据第一节点的自身状态值,以及所述第一节点的各个子节点的主状态值,确定所述第一节点的主状态值,包括:
根据各个所述子节点的主状态值,确定子影响状态值;所述子影响状态值为:各个所述子节点的主状态值中表征最高级别的故障告警的状态值,或者,各个所述子节点的主状态值中表征最低级别的故障告警的状态值,或者,各个所述子节点的主状态值的平均值,或者,各个所述子节点的主状态值的加权和;
将所述自身状态值以及所述子影响状态值中,表征较高告警级别的状态值确定为所述第一节点的主状态值。
7.一种故障影响分析装置,其特征在于,包括:
监测模块,用于对预先建立的树形业务拓扑视图中的各个节点进行故障监测;所述树形业务拓扑视图中的根节点表征业务,所述树形业务拓扑视图中的非根节点表征组成所述业务的各对象,对象间的父子关系表征业务功能实现过程中对象之间的关联关系;
确定模块,用于根据第一节点的自身状态值,以及所述第一节点的各个子节点的主状态值,确定所述第一节点的主状态值和子状态值;其中,所述自身状态值表征所述第一节点的自身状态是否发生故障告警,以及发生故障告警时的告警级别;所述子状态值表征所述第一节点的子节点中是否有节点的主状态发生故障告警,以及发生故障告警时的最高告警级别;所述第一节点的主状态值表征所述第一节点在自身状态和子节点的主状态影响下的综合状态;
输出模块,用于输出所述树形业务拓扑视图,并与所述第一节点相关联地输出所述第一节点的自身状态值、子状态值和主状态值。
8.根据权利要求7所述的装置,其特征在于,所述确定模块根据第一节点的自身状态值,以及所述第一节点的各个子节点的主状态值,确定所述第一节点的主状态值时,具体用于:
根据预置的父子节点的告警级别映射关系,确定所述子节点的主状态值对应的第二告警级别映射到所述第一节点的第一告警级别;
根据第一节点的自身状态值,以及各个所述第一告警级别对应的状态值,确定所述第一节点的主状态值。
9.根据权利要求8所述的装置,其特征在于,所述确定模块根据第一节点的自身状态值,以及各个所述第一告警级别对应的状态值,确定所述第一节点的主状态值时,具体用于:
根据各个所述第一告警级别对应的状态值,确定子影响状态值;所述子影响状态值为:各个所述第一告警级别中最高级别的故障告警对应的状态值,或者,各个所述第一告警级别中最低级别的故障告警对应的状态值,或者,各个所述第一告警级别对应的状态值的平均值,或者,各个所述第一告警级别对应的状态值的加权和;
将所述自身状态值以及所述子影响状态值中,表征较高告警级别的状态值确定为所述第一节点的主状态值。
10.根据权利要求7所述的装置,其特征在于,所述确定模块根据第一节点的自身状态值,以及所述第一节点的各个子节点的主状态值,确定所述第一节点的主状态值时,具体用于:
根据各个所述子节点的主状态值,确定子影响状态值;所述子影响状态值为:各个所述子节点的主状态值中表征最高级别的故障告警的状态值,或者,各个所述子节点的主状态值中表征最低级别的故障告警的状态值,或者,各个所述子节点的主状态值的平均值,或者,各个所述子节点的主状态值的加权和;
将所述自身状态值以及所述子影响状态值中,表征较高告警级别的状态值确定为所述第一节点的主状态值。
CN201811258336.2A 2018-10-26 2018-10-26 故障影响分析方法及装置 Active CN109150635B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811258336.2A CN109150635B (zh) 2018-10-26 2018-10-26 故障影响分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811258336.2A CN109150635B (zh) 2018-10-26 2018-10-26 故障影响分析方法及装置

Publications (2)

Publication Number Publication Date
CN109150635A CN109150635A (zh) 2019-01-04
CN109150635B true CN109150635B (zh) 2021-09-07

Family

ID=64810249

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811258336.2A Active CN109150635B (zh) 2018-10-26 2018-10-26 故障影响分析方法及装置

Country Status (1)

Country Link
CN (1) CN109150635B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008047B (zh) * 2019-02-19 2023-10-27 创新先进技术有限公司 一种故障源系统排查方法、装置及设备
CN110661660B (zh) * 2019-09-25 2021-09-10 北京宝兰德软件股份有限公司 告警信息根源分析方法及装置
CN110888755B (zh) * 2019-11-15 2023-04-11 亚信科技(中国)有限公司 一种微服务系统异常根因节点的查找方法及装置
CN111144720B (zh) * 2019-12-13 2022-07-26 新华三大数据技术有限公司 运维场景的关联分析方法、装置及计算机可读存储介质
CN111191937B (zh) * 2019-12-31 2023-12-29 深圳市计通智能技术有限公司 一种告警危害评估方法、系统及终端设备
CN111506568A (zh) * 2020-01-17 2020-08-07 上饶市维斯顿数字科技有限公司 一种故障信息智能筛选方法
CN111271762B (zh) * 2020-03-25 2021-05-11 上海天麦能源科技有限公司 一种热力管网的安全控制方法和系统
CN111901156B (zh) * 2020-07-09 2024-02-13 腾讯科技(深圳)有限公司 一种监控故障的方法及装置
CN112347617B (zh) * 2020-10-20 2024-05-03 北京空间飞行器总体设计部 一种基于多因子的故障排查策略评价方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1279211A2 (en) * 2000-10-19 2003-01-29 TTI-Team Telecom International LTD. Topology-based reasoning apparatus for root-cause analysis of network faults
CN102045186A (zh) * 2009-10-19 2011-05-04 中国移动通信集团公司 一种事件分析方法及系统
CN107612970A (zh) * 2017-08-16 2018-01-19 国网上海市电力公司 基于电网拓扑分析的大图缓存方法、显示方法和系统
CN108206757A (zh) * 2016-12-20 2018-06-26 中国移动通信集团广东有限公司 无线传输故障告警处理方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1279211A2 (en) * 2000-10-19 2003-01-29 TTI-Team Telecom International LTD. Topology-based reasoning apparatus for root-cause analysis of network faults
CN102045186A (zh) * 2009-10-19 2011-05-04 中国移动通信集团公司 一种事件分析方法及系统
CN108206757A (zh) * 2016-12-20 2018-06-26 中国移动通信集团广东有限公司 无线传输故障告警处理方法及装置
CN107612970A (zh) * 2017-08-16 2018-01-19 国网上海市电力公司 基于电网拓扑分析的大图缓存方法、显示方法和系统

Also Published As

Publication number Publication date
CN109150635A (zh) 2019-01-04

Similar Documents

Publication Publication Date Title
CN109150635B (zh) 故障影响分析方法及装置
CN110036600B (zh) 网络健康数据汇聚服务
CN113328872B (zh) 故障修复方法、装置和存储介质
US10536323B2 (en) On-demand fault reduction framework
CN110036599B (zh) 网络健康信息的编程接口
US9071535B2 (en) Comparing node states to detect anomalies
US11348023B2 (en) Identifying locations and causes of network faults
US20130297603A1 (en) Monitoring methods and systems for data centers
CN106789323A (zh) 一种通信网络管理方法及其装置
CN112769605B (zh) 一种异构多云的运维管理方法及混合云平台
WO2006028808A2 (en) Method and apparatus for assessing performance and health of an information processing network
CN109039763A (zh) 一种基于回溯法的网络故障节点检测方法及网络管理系统
AU2020202851B2 (en) Automated electronic computing and communication system event analysis and management
CN114244676A (zh) 一种智能it综合网关系统
US20160191359A1 (en) Reactive diagnostics in storage area networks
CN110968479B (zh) 一种针对应用程序的业务级全链路监控方法及服务器
CN109964450A (zh) 一种确定共享风险链路组的方法及装置
CN114143160A (zh) 一种云平台自动化运维系统
CN113504996A (zh) 一种负载均衡检测方法、装置、设备及存储介质
CN113608457A (zh) 一种网络运维监控系统
JP2011176554A (ja) 監視装置、監視方法及びプログラム
CN113986677A (zh) 一种业务资源监测的方法和装置
Chen et al. The monitoring system of Business support system with emergency prediction based on machine learning approach
CN111917609B (zh) 网络设备连通性监控方法及系统
CN115086154B (zh) 故障定界方法及装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20221110

Address after: 100005 No. 69, inner main street, Dongcheng District, Beijing, Jianguomen

Patentee after: AGRICULTURAL BANK OF CHINA

Patentee after: Agricultural Bank of China Financial Technology Co.,Ltd.

Address before: 100005 No. 69, inner main street, Dongcheng District, Beijing, Jianguomen

Patentee before: AGRICULTURAL BANK OF CHINA

TR01 Transfer of patent right