发明内容
本发明实施例提供一种故障诊断方法及装置,以提高故障诊断效率。
第一方面,本发明实施例提供一种故障诊断方法,其中,所述方法包括:
接收故障诊断命令,所述故障诊断命令包括故障业务的起始节点和终止节点信息,及故障诊断时段信息;
根据所述故障业务的起始节点和终止节点信息,获取所述故障业务的业务路径信息及所述故障业务在所述故障诊断时段内的运行数据;所述故障业务的业务路径信息包括所述故障业务经过的物理实体;
建立三维坐标系,所述三维坐标系的三个坐标轴依次为时间轴、业务路径轴及业务逻辑层级轴;其中,所述时间轴对应所述故障诊断时段;所述业务路径轴用于承载所述故障业务的业务路径信息;所述业务逻辑层级按照自下而上的方向依次对应所述故障业务的物理层、链路层、路由层和传输层;所述三维坐标系的原点为所述故障业务的业务路径的起始节点、所述故障诊断时段的起点和所述业务逻辑层级的最底层的交点;
根据各所述运行数据对应的时间戳、物理实体及业务逻辑层级,确定各所述运行数据在所述三维坐标系中对应的坐标;
根据各所述坐标之间的相对位置关系确定故障点。
根据第一方面,在第一方面的第一种可能的实现方式中,所述根据各所述坐标之间的相对位置关系确定故障点,包括:
从各所述坐标中筛选出关键信息坐标,所述关键信息坐标对应的关键性能指标超过预设阈值;
根据各所述关键信息坐标之间的相对位置关系,将与所述原点的相对距离最近的关键信息坐标对应的物理实体确定为故障点。
根据第一方面,在第一方面的第二种可能的实现方式中,所述根据各所述坐标之间的相对位置关系确定故障点,包括:
上报并通过用户界面显示所述三维坐标系及各所述坐标;
通过点击所述三维坐标系的坐标平面或拖拉交换所述三维坐标系的坐标轴位置,将所述业务路径轴和所述业务逻辑层级轴相交的平面作为主视平面;
在所述主视平面上显示预设阈值,以使用户通过判断各所述坐标的关键性能指标是否低于所述预设阈值,并将关键性能指标低于所述预设阈值的坐标对应的物理实体确定故障点。
根据第一方面、第一方面的第一种至第二种可能的实现方式的任意一种,在第一方面的第三种可能的实现方式中,所述运行数据包括:所述故障业务经过的物理实体的告警信息、所述故障业务的关键性能指标、操作日志及所述故障业务的业务路径的数据配置信息。
第二方面,本发明实施例提供一种故障诊断装置,其中,所述装置包括:
接收模块,用于接收故障诊断命令,所述故障诊断命令包括故障业务的起始节点和终止节点信息,及故障诊断时段信息;
获取模块,用于根据所述故障业务的起始节点和终止节点信息,获取所述故障业务的业务路径信息及所述故障业务在所述故障诊断时段内的运行数据;所述故障业务的业务路径信息包括所述故障业务经过的物理实体;
处理模块,用于建立三维坐标系,所述三维坐标系的三个坐标轴依次为时间轴、业务路径轴及业务逻辑层级轴;其中,所述时间轴对应所述故障诊断时段;所述业务路径轴用于承载所述故障业务的业务路径信息;所述业务逻辑层级按照自下而上的方向依次对应所述故障业务的物理层、链路层、路由层和传输层;所述三维坐标系的原点为所述故障业务的业务路径的起始节点、所述故障诊断时段的起点和所述业务逻辑层级的最底层的交点;
所述处理模块,还用于根据各所述运行数据对应的时间戳、物理实体及业务逻辑层级,确定各所述运行数据在所述三维坐标系中对应的坐标;
所述处理模块,还用于根据各所述坐标之间的相对位置关系确定故障点。
根据第二方面,在第二方面的第一种可能的实现方式中,所述处理模块,具体用于:从各所述坐标中筛选出关键信息坐标,所述关键信息坐标对应的关键性能指标超过预设阈值;根据各所述关键信息坐标之间的相对位置关系,将与所述原点的相对距离最近的关键信息坐标对应的物理实体确定为故障点。
根据第二方面,在第二方面的第二种可能的实现方式中,所述处理模块,具体用于:上报并通过用户界面显示所述三维坐标系及各所述坐标;通过点击所述三维坐标系的坐标平面或拖拉交换所述三维坐标系的坐标轴位置,将所述业务路径轴和所述业务逻辑层级轴相交的平面作为主视平面;在所述主视平面上显示预设阈值,以使用户通过判断各所述坐标的关键性能指标是否低于所述预设阈值,并将关键性能指标低于所述预设阈值的坐标对应的物理实体确定故障点。
根据第二方面、第二方面的第一种至第二种可能的实现方式的任意一种,在第二方面的第三种可能的实现方式中,所述运行数据包括:所述故障业务经过的物理实体的告警信息、所述故障业务的关键性能指标、操作日志及所述故障业务的业务路径的数据配置信息。
本发明实施例提供的故障诊断方法及装置,通过建立时间、业务路径及业务逻辑层级的三维坐标系,并将故障业务在故障诊断时段内的运行数据映射到三维坐标系,将各个物理实体的运行信息一目了然的呈现给用户,使得用户在进行故障诊断分析时,无需或极少需要在多个功能界面之间反复切换,而可在一个三维坐标系上进行,直观便利,提高了工作效率;并且三维坐标系中显示了对故障诊断有重要价值的各坐标之间的相对位置关系,避免了信息丢失,降低了故障诊断的复杂度,提高了故障定位效率。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的故障诊断方法的流程图。如图1所示,本发明实施例提供的故障诊断方法,包括:
101、接收故障诊断命令,所述故障诊断命令包括故障业务的起始节点和终止节点信息,及故障诊断时段信息;
具体地,所述故障诊断命令可以是用户通过用户界面下发的命令,也可以是网络管理系统通过KPI的周期汇聚计算,自动发现业务故障的发生时间及起始节点和终止节点,从而触发故障诊断命令。所述方法的执行主体可以为故障诊断装置,所述故障诊断装置可以设置在网管内部,也可以独立设置,本发明对此不做限制。
102、根据所述故障业务的起始节点和终止节点信息,获取所述故障业务的业务路径信息及所述故障业务在所述故障诊断时段内的运行数据;所述故障业务的业务路径信息包括所述故障业务经过的物理实体;
具体地,所述故障业务在所述故障诊断时段内的运行数据,可以从网络管理系统查询获取,也可以从外部输入到系统。
可选的,所述运行数据包括:所述故障业务经过的物理实体的告警信息、所述故障业务的关键性能指标、操作日志及所述故障业务的业务路径的数据配置信息。所述物理实体至少包括网元节点、接口及线路。
可选的,根据故障业务的业务路径信息及故障诊断时段,往前追溯特定时间(如故障诊断时段具有周期性,则要覆盖若干周期),并采集历史KPI数据,进行均值计算(如果是若干周期的数据,需要计算的周期趋势的均值)。
103、建立三维坐标系,所述三维坐标系的三个坐标轴依次为时间轴、业务路径轴及业务逻辑层级轴;其中,所述时间轴对应所述故障诊断时段;所述业务路径轴用于承载所述故障业务的业务路径信息;所述业务逻辑层级按照自下而上的方向依次对应所述故障业务的物理层、链路层、路由层和传输层;所述三维坐标系的原点为所述故障业务的业务路径的起始节点、所述故障诊断时段的起点和所述业务逻辑层级的最底层的交点;
104、根据各所述运行数据对应的时间戳、物理实体及业务逻辑层级,确定各所述运行数据在所述三维坐标系中对应的坐标;
具体地,图2为本发明实施例提供的三维坐标系的原理示意图,如图2所示,所述三维坐标系的三个坐标轴依次为时间轴(以下简称T轴)、业务路径轴(也即空间轴,以下简称S轴)及业务逻辑层级轴(以下简称L轴)。S轴承载的是的所述故障业务的业务路径信息,即所述故障业务经过的物理实体,包括网元节点(起始节点、中间节点1、中间节点2、中间节点3、中间节点4及终止节点)、接口和线路等;可以理解的是,本实施例中故障业务经过的网元节点的数量为6个仅是一种举例,本发明并不对故障业务经过的网元节点的数量构成限制;L轴方向按照自下而上的方向以此为物理层、链路层、路由层和传输层。根据各所述运行数据对应的时间戳、物理实体及业务逻辑层级,确定各所述运行数据在所述三维坐标系中对应的坐标,即,所述三维坐标系中的坐标承载所述故障业务的运行数据(所述故障业务在其经过的物理实体上的业务逻辑配置数据、在不同业务逻辑层级的KPI、告警信息、操作日志等)。在任一物理实体对应的L轴与T轴的相交平面内,任一业务逻辑层级可以平行存在多个KPI值与时间的二维坐标平面。
105、根据各所述坐标之间的相对位置关系确定故障点。
具体地,业务路径上的性能故障,大多与某些方面性能劣化、资源繁忙或者是操作不当(如修改了网络参数)有关,表面现象就是性能指标变差,进而引发相关的其他指标变差或告警,用户感知业务变差产生投诉等,这种引发可能是大面积的,大量各种表面因素会把真正根因掩盖,这是故障定位的难点所在。故障表象之间存在一定的因果关系:后发生事件不可能是先发生事件的原因,上层故障不会引起下层指标变差,靠近业务起点的表象反映比远离业务起点的表象反映更有可能是故障原因。因此时间先后、业务逻辑下上层关系、业务空间方向前后是因和果的关系的可能性非常大。
本发明实施例提供的故障诊断方法,通过建立时间、业务路径及业务逻辑层级的三维坐标系,并将故障业务在故障诊断时段内的运行数据映射到三维坐标系,将各个物理实体的运行信息一目了然的呈现给用户,使得用户在进行故障诊断分析时,无需或极少需要在多个功能界面之间反复切换,而可在一个三维坐标系上进行,直观便利,提高了工作效率;并且三维坐标系中显示了对故障诊断有重要价值的各坐标之间的相对位置关系,避免了信息丢失,降低了故障诊断的复杂度,提高了故障定位效率。
在上述实施例的基础上,所述根据各所述坐标之间的相对位置关系确定故障点的实现方式至少包括以下两种方式:
方式1:从各所述坐标中筛选出关键信息坐标,所述关键信息坐标对应的关键性能指标超过预设阈值;根据各所述关键信息坐标之间的相对位置关系,将与所述原点的相对距离最近的关键信息坐标对应的物理实体确定为故障点。
具体地,所述方式1为自动故障诊断方式,具体如下:
1)将所述故障业务的业务路径的起始节点、所述故障诊断时段的起点和所述业务逻辑层级的最底层的交点作为三维坐标系的原点。
2)将所述故障业务在其经过的物理实体上不同业务逻辑层级的KPI、告警信息及业务逻辑配置数据,按照所属的时间戳、物理实体及业务逻辑层级,在三维坐标系中标注对应的坐标。
3)将获取的操作日志按照操作发生的物理实体位置、时间戳和业务逻辑层级,在三维坐标系中标注对应的坐标(以下称操作点)。
4)以任意两个坐标轴的相交平面,沿另外一个坐标轴的方向切割扫描,以L轴和S轴相交的平面(以下称L-S平面)切割扫描T轴为例,同时记录筛选出的关键信息坐标(以下简称故障点);所述关键信息坐标包括:KPI超过预设阈值的坐标及告警事件坐标;所述预设阈值可以是给定的KPI数值,或者相对历史KPI数据平均值往劣化方向的波动幅度等,此处不以为限。
5)针对上述筛选出的关键信息坐标(故障点),依据以下原则进行故障根因诊断:
先发原则:相同物理位置和业务逻辑层级,先发生的故障点更可能是根因;
最底原则:相同物理位置和时间,业务逻辑更底层的故障点更可能是根因;
近源原则:相同时间和业务逻辑层级,更接近业务起点的故障点更可能是根因。
在判断过程中,后发生事件不可能是先发生事件的原因,上层故障不会引起下层指标变差,优先考虑先发原则和最底原则,近源原则次之。
上述第4、5步其实是可以同时进行的,这里分开是为了便于理解。
6)以上规则最终判断到造成故障现象的异常点判定为疑似根因点,将疑似根因点和所有操作点进行对比,如果操作点与疑似根因点位置重合(S轴和L轴位置都相同),且操作点的发生时间早于该疑似根因点,则将操作点判定为最疑似根因点,否则将该疑似根因点判定为最疑似根因点。由于T轴和L轴上不进行优先级区分,因此最疑似根因点有可能会存在多个,认为是这些故障点共同造成了故障。
根据最疑似根因点可以进一步挖掘详细信息,协助人工进一步确认故障根源。
可选的,为所有故障点和操作点赋予体现因果关系的次序坐标值:即为每一个故障点及操作点分别赋予次序坐标值(T,L,S),其中,所述T,L,S分别代表时间、业务逻辑层级和业务路径。所有故障点和操作点的次序坐标初始值均是(0,0,0)。用L-S平面,从原点向T轴正方向扫描。第1批扫描到的所有故障点和操作点为T赋1个权重步长(先发原则的优先级用权重步长t表示),第2批扫描到的所有故障点和操作点为T赋2个权重步长,以此类推,第x批扫描到的所有故障点和操作点为T赋x个权重步长。图3为本发明实施例提供的次序坐标值的生成示意图,图3示出了前四批扫描到的所有故障点和操作点的次序坐标值,其中,第1批扫描到的所有故障点和操作点为T赋1个权重步长,即(t,0,0);第2批扫描到的所有故障点和操作点为T赋2个权重步长,即(2t,0,0);第3批扫描到的所有故障点和操作点为T赋3个权重步长,即(3t,0,0);第4批扫描到的所有故障点和操作点为T赋4个权重步长,即(4t,0,0)。
以同样的方式为所有故障点和操作点赋予L和S值。这样,在指定的故障诊断范围内,每个故障点和操作点都将有一个最终坐标值(xt,yl,zs)。在本实施例中,权重步长t和l是一样的,s的级别较低。
按权重步长,在T轴和L轴两个维度分别找出离原点最近的故障点(Min1(xt),yl,Min2(zs))和(xt,Min1(yl),Min2(zs)),(Min1表示第一优先级取最小,Min2表示第二优先级取最小),两个维度找出的点可能多个,也可能有重合,把这些点定为疑似根因点。将疑似根因点和所有操作点进行对比,如果操作点与疑似根因点位置重合(S轴和L轴位置都相同),且操作点的发生时间早于该疑似根因点,则将操作点判定为最疑似根因点,否则将该疑似根因点判定为最疑似根因点。
方式2:上报并通过用户界面显示所述三维坐标系及各所述坐标;通过点击所述三维坐标系的坐标平面或拖拉交换所述三维坐标系的坐标轴位置,将所述业务路径轴和所述业务逻辑层级轴相交的平面作为主视平面;在所述主视平面上显示预设阈值,以使用户通过判断各所述坐标的关键性能指标是否低于所述预设阈值,并将关键性能指标低于所述预设阈值的坐标对应的物理实体确定故障点。
具体地,所述方式2为人工故障诊断方式,既可在自动诊断结果基础上进行人工确认,也可以完全的人工进行诊断。首先定义坐标视图形态的切换,该定义适用于对鼠标键盘的操作机触摸屏上的手势操作,但鼠标键盘的点击和拖拽,分别对应着触摸屏手势中的轻触和按住滑动。为方便描述,后面只以鼠标键盘操作进行说明。坐标视图形态,举例如下:1)点击坐标平面切换坐标平面入视角;2)拖拽交换坐标轴位置,改变坐标平面入视角;3)沿坐标轴平行方向拖拽拉伸压缩坐标长短,来缩放三维坐标系中的元素(如拓扑图展示详细程度(如只展示网元,或同时展示网元及网元间的接口)、时间单位粗细等);4)拖拽移动坐标平面切割显示指定网元/接口或逻辑层面的信息。
方式2的方案具体为:通过点击坐标平面或拖拉交换坐标轴位置切换视角,把L-S平面作为正面从路径角度定位故障;在所述主视平面上显示预设阈值;按业务方向,映射物理实体,缺省分段显示超阈值的KPI(可以是当前值或若干周期的统计值,如各个接口的丢包率),用连线连接各个数据点,用户结合预设阈值等信息,通过判断各所述坐标的关键性能指标是否低于所述预设阈值,并将关键性能指标低于所述预设阈值的坐标对应的物理实体确定故障点。
可以理解的是,所述故障业务的关键性能指标可以有多种,例如流量、带宽使用率、丢包率、时延、抖动、处理器(CPU)使用率、内存使用率等。可选的,可以通过设置控件,根据需要在三维坐标系中选择特定的KPI进行显示及分析。
可选的,用户还可以通过核对业务逻辑配置数据,判断故障是否因为配置不当所引发,及确定故障所在的逻辑层级。
在将故障定位到单点(如节点、接口等)后,进一步,可以通过切换到单点视角进一步定位单点上的故障根源:在S轴上直接点击对应的单点,或者通过坐标交换交互坐标视角,再移动坐标平面切割过滤所需的信息。
可选的,可以在S轴上,将不同节点拖到另一个节点附近,同时对比分析两个节点的指标。
在人工诊断实施例中,体现的是信息汇聚与可视,通过交互设计,为人提供高效的信息筛选和辅助判断,从而达到降技能提效率的目的。为此坐标系提供响应式交互,为用户按需提供不同视角的信息呈现和辅助诊断操作。
图4为本发明实施例提供的故障诊断装置的结构示意图。如图4所示,本实施例提供的故障诊断装置400,包括:
接收模块401,用于接收故障诊断命令,所述故障诊断命令包括故障业务的起始节点和终止节点信息,及故障诊断时段信息;
获取模块402,用于根据所述故障业务的起始节点和终止节点信息,获取所述故障业务的业务路径信息及所述故障业务在所述故障诊断时段内的运行数据;所述故障业务的业务路径信息包括所述故障业务经过的物理实体;
处理模块403,用于建立三维坐标系,所述三维坐标系的三个坐标轴依次为时间轴、业务路径轴及业务逻辑层级轴;其中,所述时间轴对应所述故障诊断时段;所述业务路径轴用于承载所述故障业务的业务路径信息;所述业务逻辑层级按照自下而上的方向依次对应所述故障业务的物理层、链路层、路由层和传输层;所述三维坐标系的原点为所述故障业务的业务路径的起始节点、所述故障诊断时段的起点和所述业务逻辑层级的最底层的交点;
所述处理模块403,还用于根据各所述运行数据对应的时间戳、物理实体及业务逻辑层级,确定各所述运行数据在所述三维坐标系中对应的坐标;
所述处理模块403,还用于根据各所述坐标之间的相对位置关系确定故障点。
本实施例提供的故障诊断装置400可以用于执行图1所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
可选的,所述处理模块403,具体用于:从各所述坐标中筛选出关键信息坐标,所述关键信息坐标对应的关键性能指标超过预设阈值;根据各所述关键信息坐标之间的相对位置关系,将与所述原点的相对距离最近的关键信息坐标对应的物理实体确定为故障点。
或者,可选的,所述处理模块403,具体用于:上报并通过用户界面显示所述三维坐标系及各所述坐标;通过点击所述三维坐标系的坐标平面或拖拉交换所述三维坐标系的坐标轴位置,将所述业务路径轴和所述业务逻辑层级轴相交的平面作为主视平面;在所述主视平面上显示预设阈值,以使用户通过判断各所述坐标的关键性能指标是否低于所述预设阈值,并将关键性能指标低于所述预设阈值的坐标对应的物理实体确定故障点。
在上述实施例的基础上,所述运行数据包括:所述故障业务经过的物理实体的告警信息、所述故障业务的关键性能指标、操作日志及所述故障业务的业务路径的数据配置信息。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。