CN101360013B - 一种基于相关性分析的传输网通用快速故障定位方法 - Google Patents

一种基于相关性分析的传输网通用快速故障定位方法 Download PDF

Info

Publication number
CN101360013B
CN101360013B CN 200810222994 CN200810222994A CN101360013B CN 101360013 B CN101360013 B CN 101360013B CN 200810222994 CN200810222994 CN 200810222994 CN 200810222994 A CN200810222994 A CN 200810222994A CN 101360013 B CN101360013 B CN 101360013B
Authority
CN
China
Prior art keywords
fault
factor
failure
failure factor
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 200810222994
Other languages
English (en)
Other versions
CN101360013A (zh
Inventor
张丽雅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fiberhome Telecommunication Technologies Co Ltd
Original Assignee
Fiberhome Telecommunication Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fiberhome Telecommunication Technologies Co Ltd filed Critical Fiberhome Telecommunication Technologies Co Ltd
Priority to CN 200810222994 priority Critical patent/CN101360013B/zh
Publication of CN101360013A publication Critical patent/CN101360013A/zh
Application granted granted Critical
Publication of CN101360013B publication Critical patent/CN101360013B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明涉及一种基于相关性分析的传输网故障定位方法,其包括:获取要分析范围内发生的所有故障因素,形成待分析的因素集;按照时间相关性将故障因素划分为多个故障组,每个故障组给同样的处理优先级;按照空间相关性抑制每个故障组中的从故障因素,保留主故障因素;把每个故障组按照业务相关性抑制从故障因素,保留主故障因素;将多个故障组中的空故障组删除;根据知识库获取故障原因和故障处理方式。该方法可以减少知识库庞大不便于维护,降低规则相互矛盾的概率,提高告警压缩率以及可以在最大限度适应设备类型、业务类型、版本的多样性,同时树状故障组结构能清晰反映故障分析过程便于人工判断和修正。

Description

一种基于相关性分析的传输网通用快速故障定位方法
技术领域
本发明属于传输网技术领域,具体涉及一种利用时间相关性、空间相关性和业务相关性在传输网范畴内定位故障的通用分析方法。
背景技术
随着传输网络传输速率、容量越来越大,即使是一个细微故障所引发的损失也是灾难性的,因此为将损失降低到最低,需要快速定位故障、判断处理优先级,最短时间内处理最紧急故障,缩短故障处理时间。
目前的设备智能化程度比以往有所提高,设备本身例如单盘可以按照ITU-T定义的层次屏蔽同一实体产生的关联的不同层次的告警,但目前设备提供的告警抑制功能局限于单个网元甚至单个盘内,没有从全网关系处理告警数据,因此压缩率比较低,当故障发生时仍然有很多告警、信息产生,使维护人员难以处理。
随着时间推移,在网运行的设备类型、版本、支持的业务越来越多,导致告警种类繁多,差异性非常大,对网络运维的要求也越来越高,这种情况对于采用知识库作为分析基础的方法也带来冲击,即导致知识库异常庞大,甚至知识库内规则互相矛盾不可维护。
另外,申请号为200710179292.x的中国专利申请《基于倒换因素相关性分析的传输网通用倒换分析方法》中的分析只限于分析倒换状态和引发倒换的故障原因。其分析原理是维护操作发生点(如倒换)的时间附近必然存在引发该操作的故障,即根据故障引发的维护操作点,分析衍生因素得出倒换原因和倒换状态。但是,全网故障分析事先不知道维护操作点,也不能确定当前网络上有多少故障,甚至传输网络上可能存在并不引发维护操作部分故障(例如没有配置保护的业务),这种情况下200710179292.x号中国专利申请无法分析。此外,倒换只针对有保护的业务的分析,而传输网在运行过程中存在无业务的设备告警和没有保护的业务告警,所以也需要分析无业务或无保护的业务的设备告警。另外倒换没有考虑到方向一致性问题,会导致分析结果精度不够。综上所述,申请号为200710179292.x的中国专利申请在不知道确切维护点的情况下无法分析出若干个故障原因、处理优先级和故障处理方式,也不能对所有类型的故障进行分析,故无法进行全网故障分析。
综上述分析可知,目前故障定位的难点在于:
1)设备提供的告警分析功能局限性高,告警压缩率不高;
2)单纯基于知识库的告警分析信息庞大,规则甚至存在相互矛盾,不便于长期维护;
3)随着设备、业务类型、版本越来越多,现存的方法通用性不强;
4)目前专利《基于倒换因素相关性分析的传输网通用倒换分析方法》只能用于分析和倒换相关的情况,不适用全网故障分析。
5)目前的故障定位方法结果不提供自动分析过程的信息,不便于人工验证。
6)目前的故障定位方法没有提供处理优先级,不便于集中人力第一时间解决最迫切的问题。
发明内容
本发明目的在于提供一种基于相关性分析的传输网通用快速故障定位方法。该方法,可以减少知识库庞大不便于维护,降低规则相互矛盾的概率,提高告警压缩率、可以在最大限度适应设备类型、业务类型、版本的多样性,同时在分析结果中提供处理优先级以便最短时间内解决最迫切的问题。
本方法适用于传输网故障定位,协助运维人员快速定位需要优先处理的故障,减少处理的信息量。本方法扩充《基于倒换因素相关性分析的传输网通用倒换分析方法》的相关性原理。其基本原理是利用故障因素(设备发生故障时引发变更的信息总称,例如告警、状态、性能等等)的时间相关性、空间相关性和业务相关性,分析出每个故障因素处理优先等级,并向运维人员给出主故障因素(Focal Alarm即处理优先级最高的故障因素)和从故障因素(处理优先级小于主故障因素的)。再根据主故障因素定位出故障点,故障原因,最后按照处理知识库给出处理的紧急度和方案。故障处理优先级分为可缓处理级、一般处理级、紧急处理级和特紧急处理级。本方法为加快分析速度,集中人力解决最紧迫的问题,当处理优先级高的故障没有处理完时,低优先级的故障因素不予分析,因此本方法的另一个特征是需要重复调用直到没有需要处理的故障优先级,而不是一次性全部分析完。
一般而言从故障因素是衍生因素(由根因素引发的业务所经资源产生的和本次故障相关的因素,例如远端缺陷告等),主故障因素是根因素(根因素指由故障引发的最直接的故障因素,例如光纤中断告警,激光器故障等),但空间相关状态优先原则下从故障因素不一定是衍生因素,而是处理优先级低于主故障因素的故障因素。因此使用时需要多次重复用本方法获取主故障因素,一直到没有关心的主故障因素需要处理为止。
定义如下缩写:
E:事件结束时间
B:事件发生时间
A1:前向时间相关性阈值(故障因素发生变更到故障产生开始之间的时间)
A2:后向时间相关性阈值(故障产生开始到故障因素发生变更之间的时间)
FG:故障组(由一个或多个存在时间相关性的故障引发的全部故障因素集合)。故障组为分层树状结构,顶层由多个主故障因素组成,每个主故障因素由一个独立的故障引发,其下的层次存放被主故障因素抑制的从故障因素。
FGB:故障组的开始时间。(即发生故障后设备产生反映的最早时间)
FGE:故障组的结束时间。(即发生故障后设备不再产生其他动作的最早时间,也称为故障收敛时间)
每条故障因素包括发生时间(B)、结束时间(E)、在对象树上的位置信息,因素的名称和引发因素的可能原因,故障因素监控点方向(引发告警的故障在信号流中的方向),故障因素分类(包括环境类和其他),其中当故障因素没有消失时E为空。
本发明基于的信息模型符合ITU-TG.803,TMF814,608,513Version2.1规范。
本发明提供的基于相关性分析的传输网故障定位方法,具体包括以下步骤:
步骤1、获取要分析范围内发生的、且处理标签为未处理的所有故障因素,形成待分析的因素集;
步骤2、把步骤1产生的结果按照时间相关性将故障因素划分为多个故障组,每个故障组给同样的处理优先级;
步骤3、按照空间相关性抑制步骤2产生的每个故障组中的从故障因素,保留主故障因素;
步骤4、把步骤3产生的每个故障组按照业务相关性抑制从故障因素,保留主故障因素;
步骤5、将步骤4产生的多个故障组中的空故障组删除;
步骤6、把步骤5产生的结果根据知识库获取故障原因和故障处理方式,将当前处理过的主故障因素的处理标签设置为已处理。
本发明的有益效果表现在以下几个方面:
1)减少知识库的规模,减少知识库本身条例冲突的问题。
2)提高告警压缩率、告警原因定位准确度。
3)适应设备类型、版本和业务类型变化。
4)可以适应设备运行异常时某种程度误告的告警。
5)扩充《基于倒换因素相关性的传输网通用倒换分析方法》,使其在不知道确切维护点的情况下能够分析出若干个故障原因、处理优先级和故障处理方式,使其适应于全网的故障分析。
6)本方法采用树状故障组结构能清晰反映自动分析过程和原因、以及故障分析结果,以便人工判断、修正自动分析结果。
7)本发明提供故障处理优先级,便于最短时间内解决最迫切的问题。
附图说明
图1:本发明所采用的故障组结构图;
图2:本发明的故障定位方法的总体步骤流程图;
图3:基于时间相关性划分故障组的流程图;
图4:基于空间相关性抑制从故障因素的流程图;
图5:基于业务相关性抑制从故障因素的流程图;
图6:基于业务相关性盘保护相关抑制图;
图7:基于业务相关性交叉相关抑制图;
图8:故障维护提示知识库图。
具体实施方式
为了更清晰的描述本发明,下面结合附图给出实施例以对本发明做进一步的说明。
发明的描述不涉及传输设备的具体类型,而只针对故障因素的通用规则给出一种通用、快速的故障定位分析方法。
本发明中通用相关性主要从三方面分析的,第一是时间相关性,原理是一个故障引发的故障因素和该故障在时间上存在着关联,例如当光纤中断故障发生时,引发传输网上一系列实体告警,而这些告警发生在相邻端口(直接通过光纤连接的两个物理端口称为相邻端口)时间差一般不超过3秒,同一个节点内不相邻端口发生的告警则时间差不超过30S(同一个节点内通过交叉连接的实体传递告警需要做光电信号处理时差比相邻节点大,不同厂家设备时间差不一样,可以通过知识库设置)。第二是空间相关性,主要是实体在对象树上的包含关系存在着处理优先级的关系。例如当单盘通信中断时,单盘上其他部件的告警处理优先级低于通信中断,可以做为从故障因素被抑制。同样需要优先处理物理层的告警,然后再是更高层次的告警。第三是业务相关性,指只有存在业务或物理连接的实体发生的告警才可能是由一个故障引发的告警,其中优先级需要根据业务相关性规则确定。这三种相关性与具体设备类型无关,但适用于全部类型的设备,可以通用定位各种故障因素,抑制从故障因素。同时在设备误告不符合上述通用相关性原则时可以被抑制,因此可以防止设备某些情况的误告(错误的上报了故障因素)。
本发明将故障因素细化为告警,每条告警包括发生时间(B)、结束时间(E)、在对象树上的位置信息,因素的名称和引发因素的可能原因,告警监控点方向(引发告警的故障在信号流中的方向),告警分类,其中当告警没有消失时E为空。
本发明考虑到设备之间存在时间不同步问题(一般校时后偏差不超过秒级),并根据试验数据确定前向时间相关性阈值A1(10S)和后向时间相关性阈值A2(30S)。
本发明采用树状故障组结构反映故障分析结果,故障组结构图如图1所示。
图2给出了本发明的基于相关性分析的传输网通用故障分析方法的总体步骤流程图,具体包括以下步骤,
步骤(1)获取要分析范围内发生的且处理标签为未处理的所有故障因素,形成待分析的因素集。当故障因素发生点不是对象树上的合法实体时,将该告警转移至特定的无效故障组,抑制原因为找不到告警实体。
其中,步骤(1)包括以下步骤:
步骤(1.1)按照指定分析范围将故障因素取至缓存区。分析范围包括时间范围和实体范围。时间范围指故障因素的发生时间在指定的时间段内,实体范围是指故障因素的位置信息是指定的实体或者其子实体的位置信息。
步骤(1.2)根据故障因素位置信息判断本因素是否为对象树(指传输网中资源的实体,由于实体间存在父子关系和包含关系,因此形成了关系网,简称为对象树)上合法实体产生的。如果不是,将其转移至特定的无效故障组(即不需要维护人员立即处理的故障组,处理等级是可缓处理等级)。
步骤(2)把步骤(1)产生的结果按照时间相关性将故障因素划分故障组,每个故障组给同样的处理优先级—紧急处理级。
参见图3,步骤(2)具体包括如下步骤:
步骤(2.1)将待分析因素集中的故障因素按照发生时间在缓存区内排序。
步骤(2.2)判断每个故障因素的发生时间是否和某个现存有效故障组满足((FGB-A1)<B<(FGE+A2))规则,满足则转到步骤2.3,否则转到步骤2.4;其中B是故障因素的发生时间,A1为前向时间相关性阈值,即故障因素发生变更到故障产生开始之间的时间,A2为后向时间相关性阈值,即故障产生开始到故障因素发生变更之间的时间,FGB为故障组的开始时间,即故障组包含的全部故障因素最早的开始时间,也就是最可能的发生故障后设备产生反映的最早时间,FGE为故障组的结束时间,即故障组包含的全部故障因素最晚的开始时间,也就是最可能的发生故障后设备不再产生其他动作的最早时间,也称为故障收敛时间。
步骤(2.3)将故障因素作为主故障因素移至相关故障组中,并更新该故障组的FGB和FGE时间。
步骤(2.4)将故障因素放入新的故障组中,该新的故障组的FGB和FGE均为故障因素的发生时间。故障组的处理优先级为紧急处理。
步骤(2.5)判断现存有效故障组(即需要维护人员处理的故障组,其处理优先级为一般或者紧急或者特紧急)是否存在时间相关性,即两个故障组满足((FGB1-A1)<FGB2<(FGE1+A2))或者((FGB1-A1)<FGE2<(FGE1+A2))关系则为相关,如果存在,则将故障组合并,并更新合并后的故障组的FGB和FGE,一直处理到不再有任何故障组存在时间相关性。此时故障组包括一个或者多个故障引发的全部故障因素,即一个故障引发的故障因素不可能跨故障组存在。其中FGB1为两个故障组中的其中一个故障组的开始时间,FGE1为该其中一个故障组的结束时间,FGB2为两个故障组中的另一个故障组的开始时间,FGE1为该另一个故障组的结束时间。
其中,步骤(2.3)包括以下步骤:如果故障因素和故障组存在时间相关性,且开始时间和故障组的FGB、FGE不相同,则若故障因素开始时间早于FGB,则按照故障因素开始时间设置FGB,若故障因素开始时间晚于FGE,则按照故障因素开始时间设置FGE。
其中,步骤(2.5)包括以下步骤:如果需要合并的两个故障组的FGB、FGE不相同,则按照最早的FGB和最晚的FGE设置合并后的故障组的FGB、FGE。
步骤(3)把步骤2产生的结果按照空间相关性抑制从故障因素,保留主故障因素。参见图4空间相关性分析流程,其具体包括如下步骤:
步骤(3.1)同一个故障组中的主故障因素按照空间相关状态优先原则抑制。即如果故障因素产生的实体处于倒换状态、维护状态(例如环回等)或者通信中断状态时,则抑制其本身其他故障因素(即除了倒换状态、维护状态、通信中断状态之外的故障因素)和子故障因素(即子实体产生的故障因素),这些被抑制的故障因素必须和主故障因素同属一个故障组。抑制原因是倒换状态、维护状态、通信中断需要优先处理。
步骤(3.2)对于步骤3.1不能抑制的故障因素N按照实体空间相关低速率层次(LayerRate,用于描述TP点或连接的层次)优先原则抑制。获取本故障因素N发生实体上的全部故障因素(可能属于不同的故障组)形成同实体待分析故障因素集,故障因素N与该故障因素集比对,如果N与其中任意一个故障因素M的方向一致,速率层次(参考TMF814速率层次LayerRate_T定义)更低,则N抑制M,反之则M抑制N。抑制原因是同一个实体的故障因素需要优先处理底层故障因素。例如同一个PTP产生的故障因素,当其发生在RS(再生段)层时比发生在MS(复用段)层有更高处理优先等级。
步骤(3.3)对于步骤3.2不能抑制的故障因素判断是否可以被父实体产生的故障因素抑制。取父实体的全部故障因素,判断故障因素是否和父实体中某个故障因素存在空间相关性,即方向一致,并且同属于一个故障组的,则本故障因素被抑制,抑制原因为优先处理父实体的故障因素。
其中步骤(3.1)包括抑制故障因素,故障因素M抑制N即将从故障因素N从原来的故障组中移至主故障因素M所属故障组,故障因素N放于故障组底层做为从故障因素存储,并设置信号指示N被M抑制,抑制的原因为空间相关状态优先原则。
其中步骤(3.2)包括判断方向一致,即两个故障因素的监控点处于同一信号流方向中。
步骤(4)把步骤3处理后的故障组按照业务相关性抑制从故障因素,保留主故障因素;参见图5空间相关性分析流程,其具体包括如下步骤:
步骤(4.1)获取步骤(3)处理后的全部有效故障组中主故障因素,如果主故障因素是发生在单盘上则转4.2,如果是发生在PTP(物理端口)或者CTP(连接终端点)上则转4.3。
步骤(4.2)根据盘保护机制,抑制对耦盘(互为主备的单盘)上同故障组的相同故障因素;
步骤(4.3)获取故障因素发生点(即产生故障因素的实体)全部交叉;如果没有经过故障因素发生点的交叉转(4.4),否则转(4.5);
步骤(4.4)将主故障因素抑制到特殊的故障组,其处理优先级为可缓处理,抑制原因为本实体无交叉。
步骤(4.5)按照业务相关性中交叉相关原则抑制故障因素。
参见图6,步骤(4.2)的原理是互为盘保护的单盘在发生故障时会产生同样故障因素,只需要处理其中之一即可,包括如下步骤:
步骤(4.2.1)判断故障因素发生点的盘保护机制,获取主故障因素发生单盘的对耦盘。传输设备上盘备份有两种机制1:1和1:N,如果为1:1转到步骤4.2.2,为1:N转到步骤4.2.3。
步骤(4.2.2)按照机框槽位属性找到故障因素发生点所在单盘的唯一对耦盘。转到4.2.4。
步骤(4.2.3)、根据当前故障因素产生单盘是否为备用单盘找到对应的对耦盘。然后转到步骤4.2.4;
步骤(4.2.4)如果存在对耦盘,则获取对耦盘上全部故障因素,抑制对耦盘上属于同一个故障组,且同类型的故障因素。则当前故障因素N做为主故障因素,对偶盘发生的故障因素M为从故障因素,N抑制M。抑制原因为盘保护中相同告警只处理其一,这可抑制盘保护时主备上报相同故障因素。
其中步骤(4.2.3)包括:
步骤(4.2.3.1)如果当前故障因素发生是主用盘,则根据槽位属性找到备用盘做为对耦盘,,然后转步骤(4.2.4)。
步骤(4.2.3.2)如果当前故障因素发生的是备用单盘,则判断是否发生盘保护倒换,如果是则转4.2.3.3,否则转4.2.3.4。
步骤(4.2.3.3)根据倒换信息获取被保护主盘做为对耦盘,然后转步骤(4.2.4)。
步骤(4.2.3.4)根据槽位信息,取所有被保护的N块主盘做为对耦盘,然后转步骤(4.2.4)。
参见图7,步骤(4.5)对步骤4.3中获取的全部交叉中的每一条交叉执行如下步骤:
步骤(4.5.1)获取交叉经过的通道;通道由交叉经过的实体组成,包括端口、交叉和光纤。
步骤(4.5.2)获取交叉经过的通道上的全部实体,并获取这些实体的父、子实体所产生的全部故障因素形成新的待分析故障因素组。这些故障因素必须是待分析的(即未被抑制的),且和步骤4.5.1的主故障因素同一个故障组。
步骤(4.5.3)设置本通道的有效属性。其中无效状态包括通道是残损的、空闲的。如果通道是无效的,则转步骤4.5.4,否则转步骤4.5.5。
步骤(4.5.4)重新获取通道包含实体所产生的全部故障因素(可能不同故障组),按照无效通道业务相关性规则抑制故障因素,将满足规则的故障因素抑制到特殊故障组,其处理优先级是可缓处理等级,抑制原因为无有效业务。无效通道业务相关性规则为:故障因素产生点的速率<=通道的速率。例如速率大小为VC4(即155MBit/s)的无效通道包含的2M端口(即传输速度为2MBit/s的物理端口)产生的故障因素,其处理优先级是可缓处理等级。
步骤(4.5.5)遍历通道包含的实体,按照有效通道业务相关性规则逐个抑制步骤4.5.2产生的待分析故障因素组。
其中步骤(4.5.5)包括:
步骤(4.5.5.1)将要分析的主故障因素和每个通道实体产生的故障因素比对,满足以下规则的为主故障因素,即:方向一致(两个故障因素监控方向在通道中属同一个信号流方向);故障因素的速率层次更低;故障因素产生点所处PTP具有较高的速率;同属一个故障组。
步骤(4.5.5.2)将步骤(4.5.5.1)分析结果设置为主故障因素,如果没有主故障因素,则不抑制,否则主故障因素抑制从故障因素。
步骤(5)清理步骤(4)产生的故障组,将空的故障组删除。
步骤(6)把步骤(5)产生的结果按照知识库获取故障原因和处理操作;根据知识库获取主故障因素的原因。
其中步骤6包括
步骤(6.1)根据知识库中规则判断判断一个主故障因素和其屏蔽的次故障因素是否有符合的规则,有则提供处理建议。
步骤(6.2)根据知识库中规则同一故障组内的主故障因素是否存在关联性,如果有从规则中获得其处理建议。
其中步骤6中引用的知识库如图8。知识库类型指当前知识库的用途,例如操作建议知识库等等。规则标识指在同一种类型的知识库内规则的唯一标识。可信度表示本规则的信任程度。故障因素列表描述了可能同时出现的故障因素,故障原因列表指示了当故障因素列表中所列故障同时发生时可能的故障原因,处理建议列表存储了处理故障原因的建议操作和处理等级。
步骤(7)判断是否有需要处理的其他处理优先级的故障组,如果有,则再次采用步骤1-6分析故障组,如果得出的故障组处理优先级是不需要继续处理,则结束。
以上所属仅为本发明的较佳实施例,并不用于限制本发明,凡在本发明精神和原则之内所做的任何修改、等同替换和改进等,均包含于本发明的保护范围之内。

Claims (10)

1.一种基于相关性分析的传输网故障定位方法,其特征在于包括以下步骤:
步骤1、获取要分析范围内发生的、且处理标签为未处理的所有故障因素,形成待分析的因素集;
步骤2、把步骤1产生的结果按照时间相关性将故障因素划分为多个故障组,每个故障组给同样的处理优先级;
步骤3、按照空间相关性抑制步骤2产生的每个故障组中的从故障因素,保留主故障因素;
步骤4、把步骤3产生的每个故障组按照业务相关性抑制从故障因素,保留主故障因素;
步骤5、将步骤4产生的多个故障组中的空故障组删除;
步骤6、把步骤5产生的结果根据知识库获取故障原因和故障处理方式,将当前处理过的主故障因素的处理标签设置为已处理。
2.如权利要求1所述的方法,其特征在于所述步骤1包括以下步骤:
步骤1.1、按照指定分析范围将故障因素取至缓存区,其中分析范围包括时间范围和实体范围,所述时间范围指故障因素的发生时间在指定的时间段内,所述实体范围是指故障因素的位置信息是指定的实体或者其子实体的位置信息;
步骤1.2、根据故障因素位置信息判断本因素是否为对象树上合法实体产生的,如果不是,将其转移至特定的无效故障组,抑制原因为找不到告警实体。
3.如权利要求1或2所述的方法,其特征在于所述步骤2包括以下步骤:
步骤2.1、将待分析因素集中的故障因素按照发生时间B在缓存区内排序;
步骤2.2、判断待分析因素集中的每个故障因素的发生时间是否和某个现存有效故障组满足((FGB-A1)<B<(FGE+A2))规则,满足则转到步骤2.3,否则转到步骤2.4;其中B是故障因素的发生时间,A1为前向时间相关性阈值,即故障因素发生变更到故障产生开始之间的时间,A2为后向时间相关性阈值,即故障产生开始到故障因素发生变更之间的时间,FGB为故障组的开始时间,即故障组包含的全部故障因素最早的开始时间,也就是最可能的发生故障后设备产生反映的最早时间,FGE为故障组的结束时间,即故障组包含的全部故障因素最晚的开始时间,也就是最可能的发生故障后设备不再产生其他动作的最早时间,也称为故障收敛时间;
步骤2.3、将故障因素作为主故障因素移至相关故障组中,并更新该故障组的FGB和FGE时间;
步骤2.4、将故障因素放入新的故障组中,该新的故障组的FGB和FGE均为故障因素的发生时间;
步骤2.5、判断现存有效故障组是否存在时间相关性,即两个故障组满足((FGB1-A1)<FGB2<(FGE1+A2))或者((FGB1-A1)<FGE2<(FGE1+A2))关系则为相关,如果存在,则将故障组合并,并更新合并后的故障组的FGB和FGE,一直处理到不再有任何故障组存在时间相关性,此时故障组包括一个或者多个故障引发的全部故障因素,即一个故障引发的故障因素不可能跨故障组存在;其中FGB1为两个故障组中的其中一个故障组的开始时间,FGE1为该其中一个故障组的结束时间,FGB2为两个故障组中的另一个故障组的开始时间,FGE2为该另一个故障组的结束时间。
4.如权利要求3所述的方法,其特征在于:
步骤2.3包括以下步骤:如果故障因素和故障组存在时间相关性,且故障因素的发生时间和故障组的FGB、FGE不相同,则若故障因素发生时间早于FGB,则按照故障因素发生时间设置FGB,若故障因素发生时间晚于FGE,则按照故障因素发生时间设置FGE;
步骤2.5包括以下步骤:如果需要合并的两个故障组的FGB、FGE不相同,则按照最早的FGB和最晚的FGE设置合并后的故障组的FGB和FGE。
5.如权利要求1-2、4中任一项所述的方法,其特征在于步骤3包括以下步骤:
步骤3.1、同一个故障组中的主故障因素按照空间相关状态优先原则抑制,即如果故障因素产生的实体处于倒换状态、维护状态或者通信中断状态时,则抑制该实体的其他故障因素和子故障因素,其中所述其他故障因素为除了倒换状态、维护状态、通信中断状态之外的故障因素,所述子故障因素为子实体产生的故障因素,这些被抑制的故障因素必须和主故障因素同属一个故障组,抑制原因是倒换状态、维护状态、通信中断需要优先处理;
步骤3.2、对于步骤3.1不能抑制的故障因素N按照实体空间相关低速率层次优先原则抑制,即获取本故障因素N发生实体上的全部故障因素形成同实体待分析故障因素集,故障因素N与该故障因素集比对,如果N与其中任意一个故障因素M的方向一致,速率层次更低,则N抑制M,反之则M抑制N,抑制原因是同一个实体的故障因素需要优先处理底层故障因素;其中方向一致是指两个故障因素的监控点处于同一信号流方向中;
步骤3.3、对于步骤3.2不能抑制的故障因素判断是否可以被父实体产生的故障因素抑制,即取父实体的全部故障因素,判断故障因素是否和父实体中某个故障因素存在空间相关性,即方向一致,并且同属于一个故障组的,如果是,则本故障因素被抑制,抑制原因为优先处理父实体的故障因素。
6.如权利要求1-2、4中任一项所述的方法,其特征在于步骤4包括以下步骤:
步骤4.1、获取步骤3处理后的全部有效故障组中的所有主故障因素,依次进行处理,直至全部有效故障组中的所有主故障因素都处理完毕,对每个主故障因素的具体处理为:如果主故障因素是发生在单盘上则转步骤4.2,如果是发生在PTP或者CTP上则转步骤4.3;
步骤4.2、根据盘保护机制,抑制对耦盘上同故障组的相同故障因素;
步骤4.3、获取故障因素发生点的全部交叉,如果没有经过故障因素发生点的交叉则转步骤4.4,否则转步骤4.5;其中故障因素发生点即为产生故障因素的实体;
步骤4.4、将主故障因素抑制到无效故障组,抑制原因为本实体无交叉;
步骤4.5、按照业务相关性中交叉相关原则抑制故障因素。
7.如权利要求6所述的方法,其特征在于步骤4.2包括以下步骤:
步骤4.2.1、判断故障因素发生点的盘保护机制,传输设备上有两种盘保护机制,即1∶1和1∶N,如果为1∶1转到步骤4.2.2,如果为1∶N转到步骤4.2.3;
步骤4.2.2、按照机框槽位属性找到故障因素发生点所在单盘的唯一对耦盘,转到步骤4.2.4;
步骤4.2.3、根据当前故障因素发生点是否为备用单盘找到对应的对耦盘,然后转到步骤4.2.4;
步骤4.2.4、如果存在对耦盘,则获取对耦盘上全部故障因素,抑制对耦盘上属于同一个故障组、且同类型的故障因素,即当前故障因素N作为主故障因素,对耦盘上发生的故障因素M为从故障因素,N抑制M,抑制原因为盘保护中相同告警只处理其一。
8.如权利要求7所述的方法,其特征在于步骤4.2.3包括以下步骤:
步骤4.2.3.1、如果当前故障因素发生点是主用盘,则根据槽位属性找到唯一的备用盘作为对耦盘,然后转步骤4.2.4;
步骤4.2.3.2、如果当前故障因素发生点是备用单盘,则判断是否发生盘保护倒换,是则转4.2.3.3,否则转4.2.3.4;
步骤4.2.3.3、根据倒换信息获取被保护主盘作为对耦盘,然后转步骤4.2.4;
步骤4.2.3.4、根据槽位信息,取所有被保护的N块主盘作为对耦盘,然后转步骤4.2.4。
9.如权利要求6中任一项所述的方法,其特征在于步骤4.5包括以下步骤:
步骤4.5.1、获取主故障因素关联的全部网元交叉,依次进行处理,直至所有交叉都已处理完毕,对每个交叉的具体处理为:获取交叉经过的通道,通道由交叉经过的实体组成,然后进入步骤4.5.2;
步骤4.5.2、获取交叉经过的通道上的全部实体,并获取这些实体的父、子实体所产生的全部故障因素形成新的待分析故障因素组,该新的待分析故障因素组中的所有故障因素都是未被抑制的,且和步骤4.5.1中的主故障因素同一个故障组;
步骤4.5.3、设置本通道的有效属性,如果通道是无效的,则转步骤4.5.4,否则转步骤4.5.5;
步骤4.5.4、重新获取通道包含实体所产生的全部故障因素,该全部故障因素既包括与步骤4.5.1中的主故障因素同一个故障组的故障因素,也包括不同故障组的故障因素,按照无效通道业务相关性规则抑制故障因素,所述无效通道业务相关性规则为:故障因素产生点的速率<=通道的速率,将满足规则的故障因素抑制到无效故障组,抑制原因为无有效业务;
步骤4.5.5、遍历通道包含的实体,按照有效通道业务相关性规则逐个抑制步骤4.5.2产生的新的待分析故障因素组,即:将要分析的主故障因素和每个通道实体产生的故障因素比对,满足以下规则的为主故障因素:两个故障因素监控方向在通道中属同一个信号流方向,故障因素的速率层次更低,故障因素产生点所处PTP具有较高的速率,同属一个故障组;将满足该规则的故障因素设置为主故障因素,如果没有主故障因素,则不抑制,否则主故障因素抑制从故障因素。
10.如权利要求1-2、4、7-9中任一项所述的方法,其特征在于还包括步骤7:
判断是否有需要处理的其他处理优先级的故障组,如果有,则再次采用步骤1-6分析故障组,如果得出的故障组处理优先级是不需要继续处理,则结束。
CN 200810222994 2008-09-25 2008-09-25 一种基于相关性分析的传输网通用快速故障定位方法 Expired - Fee Related CN101360013B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200810222994 CN101360013B (zh) 2008-09-25 2008-09-25 一种基于相关性分析的传输网通用快速故障定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200810222994 CN101360013B (zh) 2008-09-25 2008-09-25 一种基于相关性分析的传输网通用快速故障定位方法

Publications (2)

Publication Number Publication Date
CN101360013A CN101360013A (zh) 2009-02-04
CN101360013B true CN101360013B (zh) 2011-05-04

Family

ID=40332359

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200810222994 Expired - Fee Related CN101360013B (zh) 2008-09-25 2008-09-25 一种基于相关性分析的传输网通用快速故障定位方法

Country Status (1)

Country Link
CN (1) CN101360013B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102083114B (zh) * 2009-11-27 2014-03-12 中国移动通信集团北京有限公司 断站业务核查的方法和装置
CN102546205B (zh) * 2010-12-20 2014-12-10 中国移动通信集团公司 一种故障关系生成及故障确定方法及装置
CN104243192B (zh) * 2013-06-17 2017-11-10 北京神州泰岳软件股份有限公司 故障处理方法及系统
CN104518905A (zh) * 2013-10-08 2015-04-15 华为技术有限公司 一种故障定位方法及装置
CN103713976B (zh) * 2013-12-30 2016-12-07 卡斯柯信号有限公司 用于信号集中监测系统的信号设备故障根源搜索方法
CN106789347B (zh) * 2017-01-22 2019-12-13 浪潮天元通信信息系统有限公司 一种基于告警数据实现告警关联和网络故障诊断的方法
CN106941423B (zh) * 2017-04-13 2018-06-05 腾讯科技(深圳)有限公司 故障原因定位方法及装置
CN107864011B (zh) * 2017-09-18 2019-07-23 中国南方电网有限责任公司 融合多源信息的保护通道异常位置判断的智能定位方法
CN107707401A (zh) * 2017-10-10 2018-02-16 上海联影医疗科技有限公司 一种数据处理方法和数据处理装置
CN107908530B (zh) * 2017-11-27 2019-10-18 新华三云计算技术有限公司 一种告警处理方法以及装置
CN108199880B (zh) * 2017-12-29 2021-08-27 珠海豹趣科技有限公司 一种故障修复方法及装置
CN111324757B (zh) * 2018-12-17 2023-08-22 北京四维图新科技股份有限公司 地图数据的问题处理方法及装置
CN109740770A (zh) * 2018-12-29 2019-05-10 广州供电局有限公司 设备异常处理方法、装置、计算机设备和存储介质
CN114693186B (zh) * 2022-05-31 2022-08-23 广东电网有限责任公司佛山供电局 一种差异化组合式变电站多故障事件分析处理方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5949759A (en) * 1995-12-20 1999-09-07 International Business Machines Corporation Fault correlation system and method in packet switching networks
CN1474542A (zh) * 2002-08-06 2004-02-11 华为技术有限公司 电信设备故障信息管理方法
CN1878322A (zh) * 2005-09-27 2006-12-13 华为技术有限公司 故障定位的方法及装置
CN101179367A (zh) * 2007-12-12 2008-05-14 烽火通信科技股份有限公司 基于倒换因素相关性分析的传输网通用倒换分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5949759A (en) * 1995-12-20 1999-09-07 International Business Machines Corporation Fault correlation system and method in packet switching networks
CN1474542A (zh) * 2002-08-06 2004-02-11 华为技术有限公司 电信设备故障信息管理方法
CN1878322A (zh) * 2005-09-27 2006-12-13 华为技术有限公司 故障定位的方法及装置
CN101179367A (zh) * 2007-12-12 2008-05-14 烽火通信科技股份有限公司 基于倒换因素相关性分析的传输网通用倒换分析方法

Also Published As

Publication number Publication date
CN101360013A (zh) 2009-02-04

Similar Documents

Publication Publication Date Title
CN101360013B (zh) 一种基于相关性分析的传输网通用快速故障定位方法
US6604208B1 (en) Incremental alarm correlation method and apparatus
US6907549B2 (en) Error detection in communication systems
CN102088363B (zh) 告警处理方法和系统
CN101446914B (zh) 一种数据库监控方法及装置
CN101997709B (zh) 一种根告警数据分析的方法及其系统
CN103019866A (zh) 基于消息队列的分布式方法和系统
CA2272609A1 (en) Software fault management system
CN101582812A (zh) 一种监控运维管理系统
CN104021195A (zh) 基于知识库的告警关联分析方法
CN100433647C (zh) 一种告警管理方法和系统
CN101388794A (zh) 一种定位网络管理系统异常事件的方法和系统
CN100499497C (zh) 一种快速处理告警的方法和系统
CN100375435C (zh) 光同步传送网告警相关性分析方法
CN100499482C (zh) 一种在网络管理系统中监控用户行为的方法
CN100384147C (zh) 一种告警上报方法
CN102111788A (zh) 一种告警处理方法及告警管理系统
CN109818795B (zh) 一种智能业务动态倒换的故障分析方法及系统
CN113688144A (zh) 一种记录数据同步方法、装置、设备和存储介质
CN104753712A (zh) 一种告警上报方法、告警上报节点及告警上报系统
CN113285840B (zh) 存储网络故障根因分析方法及计算机可读存储介质
CN1309217C (zh) 一种用于通信网络中的故障定位方法及装置
CN100550764C (zh) 自动交换光网络的快速恢复方法
CN101917284A (zh) 基于omg corba北向接口的告警方法、网络设备及系统
CN101179367B (zh) 基于倒换因素相关性分析的传输网通用倒换分析方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110504

Termination date: 20210925

CF01 Termination of patent right due to non-payment of annual fee