CN102055604A - 一种故障定位方法及其系统 - Google Patents

一种故障定位方法及其系统 Download PDF

Info

Publication number
CN102055604A
CN102055604A CN 200910210098 CN200910210098A CN102055604A CN 102055604 A CN102055604 A CN 102055604A CN 200910210098 CN200910210098 CN 200910210098 CN 200910210098 A CN200910210098 A CN 200910210098A CN 102055604 A CN102055604 A CN 102055604A
Authority
CN
China
Prior art keywords
fault
symptom
incidence relation
matrix
collection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 200910210098
Other languages
English (en)
Other versions
CN102055604B (zh
Inventor
陈刚
刘松森
王强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Group Shandong Co Ltd
Original Assignee
China Mobile Group Shandong Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Group Shandong Co Ltd filed Critical China Mobile Group Shandong Co Ltd
Priority to CN 200910210098 priority Critical patent/CN102055604B/zh
Publication of CN102055604A publication Critical patent/CN102055604A/zh
Application granted granted Critical
Publication of CN102055604B publication Critical patent/CN102055604B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种故障定位方法及其系统,该方法包括:化简故障集和症状集的关联关系矩阵;当监控到网络或设备发生故障症状时,根据化简后的故障集与症状集的关联关系矩阵,确定与监控到的故障症状具有关联关系的故障。该系统包括:矩阵化简模块,用于化简故障集和症状集的关联关系矩阵;故障定位模块,用于当监控到网络或设备发生故障症状时,根据所述矩阵化简模块化简后的故障集与症状集的关联关系矩阵,确定与监控到的故障症状具有关联关系的故障。采用本发明可提高故障定位效率。

Description

一种故障定位方法及其系统
技术领域
本发明涉及通信领域的故障定位技术,尤其涉及一种故障定位方法及其系统。
背景技术
随着网络规模的不断扩大,使得网络的维护和操作变得相当复杂,如何保证网络安全、稳定和可靠地运行,一直是网络维护领域的热门课题。由于网络固有的复杂性、不确定性,通常情况下无法获得所有与网络故障相关的信息,如何尽快定位故障仍然是一个棘手的问题。
现有的网络故障定位技术主要采用人工方式实现。在进行网络故障定位的时候,需要故障解决者人为地根据经验和相关的知识来根据故障现场来推测故障原因,并且通过不停的测试来验证推测的正确性以及定位的故障原因。该种方式存在如下缺陷:
人工判断存在着低效、不可靠和效率低,从而导致网络问题解决时间较长,在很大程度上降低了网络服务质量。另外,人工进行故障判断和故障原因定位对解决者人为的依赖性太大,很多时候故障准确定位和快速解决的时间依赖于解决人技术水平和工作经验,而且目前靠人工来进行故障定位和解决还不能实现知识共享,在故障定位、解决中长期积累的知识不能很好的传承,使得对技术专家的依赖越来越大,这样会造成技术的垄断和断层,不利于人才培养和知识传递。
发明内容
本发明实施例提供了一种故障定位方法及其系统,用以解决现有故障定位技术效率低的问题。
本发明实施例提供的技术方案包括:
一种故障定位方法,包括如下步骤:
化简故障集和症状集的关联关系矩阵;
当监控到网络或设备发生故障症状时,根据化简后的故障集与症状集的关联关系矩阵,确定与监控到的故障症状具有关联关系的故障。
一种故障定位系统,包括:
矩阵化简模块,用于化简故障集和症状集的关联关系矩阵;
故障定位模块,用于当监控到网络或设备发生故障症状时,根据所述矩阵化简模块化简后的故障集与症状集的关联关系矩阵,确定与监控到的故障症状具有关联关系的故障。
本发明的上述实施例,通过对故障集和症状集的关联关系进行化简,以得到相对简化的关联关系矩阵,并使用化简后的关联关系矩阵进行故障定位,一方面,由于采用故障集和症状集的关联关系矩阵进行故障定位,与现有技术相比提高了故障定位效率;另一方面,由于采用的是化简后的故障集和症状集的关联关系矩阵进行故障定位,因此可以进一步提高故障定位的效率。
附图说明
图1为本发明实施例提供的故障定位流程的矩阵化简阶段流程示意图;
图2为本发明实施例提供的故障定位流程的故障定位阶段流程示意图;
图3为本发明实施例提供的故障定位系统结构示意图。
具体实施方式
本发明实施例提供的故障定位方法,包括两个阶段:对故障集和症状集的关联关系矩阵的化简阶段,以及利用化简后的矩阵对监控到的故障进行定位的阶段。其中,矩阵化简阶段相对独立,在每次更新故障集(如增加或删除元素)、更新症状集(如增加或删除元素),或更新故障与症状的关联关系时,可以及时对更新后的故障集和症状集的关联关系矩阵进行化简,以便在网络或设备运行时,可利用更新后的矩阵进行故障定位。
参见图1,为本发明实施例提供的故障定位流程的矩阵化简阶段流程示意图,包括如下步骤:
步骤101、将故障集F和症状集E按照逻辑关系进行矩阵排列,排列后形成二维矩阵,矩阵的行对应故障集、列对应症状集,矩阵中的元素值表示症状和对应故障的关联关系,可用两个不同的参数值表示关联关系的有与无。故障集F={f0,f1,...,fm-1}和症状集E={e0,e1,...,en-1}所形成的矩阵FE[m,n]可如表1所示,其中,若故障和症状有关联关系,则在矩阵中该故障和症状的对应位置上(表1中该故障和症状的交叉位置的表格中)填1,没有关联关系则填0。
表1、故障集和症状集矩阵
  e0   e1   e2   e3 ...  En-1
  f0   1   0   1   0   0
  f1   0   1   1   0   1
  f2   1   0   1   1   0
  f3   1   1   1   0   0
  ......
  Fm-1   0   0   0   0   0
矩阵FE[m,n]中,将每一列看作一个列向量,如果列向量中只包含一个“1”、其余元素为0,则将该列向量称为单位列向量(本发明实施例中,将具有该特性的列向量统称为单位列向量)。遍历矩阵FE[m,n],如果其中包含有单位列向量,则记录下该列向量中值为1的元素所对应的故障和症状,以及该故障和症状的对应关系,如记录为fj=[ei],其中,fj为该列向量中元素值1所对应的故障(j的取值范围是[1,m],为单元列向量中元素值1所在的行数,也是故障的序号),ei为该列向量中值为1的元素所对应的症状(i的取值范围是[1,n],为单元列向量中值为1的元素所在的列数,也是症状的序号)。
步骤102、将矩阵FE[m,n]中每一个列向量与该矩阵中的其他列向量分别进行逻辑与运算,以及分别与其他列向量中所有组合形式的多个列向量进行逻辑与运算,如果逻辑与运算的结果为单位向量,则根据该单位向量确定故障与症状的对应关系,并进行记录。具体方式如下:
首先,取矩阵FE[m,n]的第1列列向量,将该列向量依次与矩阵FE[m,n]的第2列及其之后的列向量进行逻辑与运算(即分别与第2列进行逻辑与运算,与第3列进行逻辑与运算,与第4列进行逻辑与运算,以此类推,直到与第n列进行逻辑与运算),每两个列向量进行逻辑与运算后都生成一具有m个元素的中间结果向量,其中的每个元素值非0即1。将所有中间结果向量按照逻辑与运算执行顺序组成中间矩阵R1[m,n-1]。
在列向量的逻辑与运算过程中,生成中间结果向量后,判断该中间结果向量是否为单位列向量,如果是,则记录该单位列向量中值为1的元素所对应的故障和症状及其对应关系。由于该中间结果向量是由两列列向量运算得到的,因此,所记录的症状应该包括两个(即运算得到该值为1的元素的两个向量元素所分别对应的症状)。例如,如果当前中间结果向量为单位列向量,值为1的元素的序号为j(即该元素所在的行数),且当前中间结果集是矩阵FE[m,n]的第1列与第4列列向量运算得到的,则记录的故障和症状的对应关系为:fj=[e0,e3]。
当然,也可以在中间矩阵R1[m,n-1]生成之后,通过遍历该中间矩阵查找其中包含的所有单位列向量,并且在查找到单位列向量后,按照上述方式记录下该单位列向量中值为1的元素所对应的故障和症状及其对应关系。
然后,取中间矩阵R1[m,n-1]的第1列列向量,将该列向量依次与矩阵FE[m,n]的第3列及其之后的列向量进行逻辑与运算,每两个列向量进行逻辑与运算后都生成一具有m个元素的中间结果向量,将所有中间结果向量按照逻辑与运算执行顺序组成中间矩阵R2[m,n-2]。
在列向量的逻辑与运算过程中,生成中间结果向量后,判断该中间结果向量是否为单位列向量,如果是,则记录该单位列向量中值为1的元素所对应的故障和症状及其对应关系。由于该中间结果向量是由3列列向量运算得到的,因此,所记录的症状应该包括3个(即运算得到该值为1的元素的3个向量元素所分别对应的症状)。例如,如果当前中间结果向量为单位列向量,值为1的元素的序号为j,且当前中间结果集是中间矩阵R1[m,n-1]的第1列列向量与矩阵FE[m,n]的第4列列向量运算得到的,则记录的故障和症状的对应关系为:fj=[e0,e1,e3]。
当然,也可以在中间矩阵R1[m,n-1]生成之后,通过遍历该中间矩阵查找其中包含的所有单位列向量,并且在查找到单位列向量后,按照上述方式记录下该单位列向量中值为1的元素所对应的故障和症状及其对应关系。
接着,取矩阵R2[m,n-2]的第1列列向量,将该列向量依次与矩阵FE[m,n]的第4列及其之后的列向量进行逻辑与运算,将所有中间结果向量按照逻辑与运算执行顺序组成中间矩阵R3[m,n-3],并按照上述方式查找中间矩阵R3[m,n-3]中所有的单位列向量,并根据查找到的单位列向量记录故障和症状的对应关系。
再根据中间矩阵R3[m,n-3]与矩阵FE[m,n]的第5列及其之后的列向量依次进行列向量逻辑与运算,依此类推,直到中间矩阵Rn-1[m,1]与矩阵FE[m,n]的最后一列列向量进行逻辑与运算完成。
再从矩阵R1[m,n-1]的第2列列向量开始,按照上述方式,与其后的列向量进行逻辑与运算:
取矩阵FE[m,n]的第2列列向量,将该列向量依次与矩阵FE[m,n]的第3列及其之后的列向量进行逻辑与运算,每两个列向量进行逻辑与运算后都生成一具有m个元素的中间结果向量,将所有中间结果向量按照逻辑与运算执行顺序组成中间矩阵R1[m,n-2]。
在列向量的逻辑与运算过程中,生成中间结果向量后,判断该中间结果向量是否为单位列向量,如果是,则记录该单位列向量中值为1的元素所对应的故障和症状及其对应关系。由于该中间结果向量是由2列列向量运算得到的,因此,所记录的症状应该包括2个(即运算得到该值为1的元素的2个向量元素所分别对应的症状)。例如,如果当前中间结果向量为单位列向量,值为1的元素的序号为j,且当前中间结果集是矩阵FE[m,n]的第2列列向量与第4列列向量运算得到的,则记录的故障和症状的对应关系为:fj=[e1,e3]。
再根据中间矩阵R1[m,n-2]与矩阵FE[m,n]的第4列及其之后的列向量依次进行列向量逻辑与运算,依此类推,直到中间矩阵与矩阵FE[m,n]的最后一列列向量进行逻辑与运算完成。
步骤103、对历次记录的故障和症状的对应关系进行汇总,从而得到故障集和症状集关联关系的最简矩阵。
该步骤中,如果根据历次记录的故障和症状的对应关系,发现针对一种故障记录有多组对应的症状集,则从其中选择症状集元素数最少的一个症状集作为与该故障对应的症状集。最终得到的各故障与症状的对应关系称为Core,从Core可以看出故障与症状fj={en,em)的最为直接的关联关系。根据该Core可以得出一个症状集和故障集的最简矩阵,得到对应ei的候选故障fi。
按照以上流程,对如表2所示的矩阵进行矩阵化简处理后,可得到如表3所示的矩阵:
表2、待化简矩阵
e0  e1  e2  e3  e4  e5  e6  e7  e8  e9
f0 1  0  1  0  0  0  0  0  0  1
f1 0  1  1  0  1  0  1  1  1  1
f2 1  0  1  1  0  0  0  1  0  1
f3 1  1  1  0  0  0  0  0  1  0
f4 1  1  1  1  1  0  0  0  0  1
f5 0  0  0  0  1  1  1  0  0  0
f6 1  0  1  0  1  0  1  0  0  1
表3、化简后的矩阵:
e0  e1  e2  e3  e4  e5  e6  e7  e8  e9
 f0 0  0  0  0  0  0  0  0  0  0
 f1 0  1  0  0  0  0  1  0  0  0
 f2 1  0  0  0  0  0  0  1  0  0
 f3  1  0  0  0  0  0  0  0  1  0
 f4  1  0  0  1  0  0  0  0  0  0
 f5  0  0  0  0  0  1  0  0  0  0
 f6  1  0  0  0  0  0  1  0  0  0
根据表3,化简后得到的Core可表示为:
f1=[e1,e6]
f2=[e0,e7]
f3=[e0,e8]
f4=[e1,e3]
f5=[e5]
f6=[e0,e6]
需要说明的是,本领域技术人员应该理解,图1所示流程的步骤101中,由故障集和症状集所生成的矩阵,其行、列的设置可以调换,相应地,步骤102中的矩阵化简过程也需要相应进行调整,如,进行逻辑与运算的调整为行向量。
还需要说明的是,图1所示的矩阵化简流程中的对矩阵中的列向量进行逻辑与运算的流程是较优的实现方式,本领域技术人员应该理解,为了达到将故障集和症状集的关联关系矩阵的每一列列向量,分别与其他列向量进行逻辑与运算,以及分别与其他列向量中所有组合形式的多个列向量进行逻辑与运算的目的,还可以采用其他计算顺序,如,将矩阵FE[m,n]中的第1列与第2列、与第2和3列、与第2和3和4列、......、与第2列到第n列进行逻辑与运算,将矩阵FE[m,n]中的第2列与第3列、与第3和4列、与第3和4和5列、......、与第3列到第n列进行逻辑与运算......,并以此类推,直到将矩阵FE[m,n]中的第n-1列与第n列进行逻辑与运算。
参见图2,为本发明实施例提供的故障定位流程的故障监控及定位阶段流程示意图,包括如下步骤:
步骤201、监控网络或设备运行情况,收集各种故障表现症状,形成故障表现症状集EC(EC通常为故障表现症状集E的一个子集)。
该步骤中,可通过多维立体监控,包括信令监测、设备告警、性能指标、自动拨测等途径,获取网络运行实时状况信息。对网络运行进行实时监测和分析,当出现故障表现症状集E中某个或某些表现症状时,记录下该症状。
步骤202、利用矩阵化简处理后得到的故障集与症状集关联关系的最简矩阵,对故障表现症状集EC进行分析,找到与故障表现症状集EC中的症状有关联关系的故障,从而形成候选故障集Fc={f1,f2,...,ft}。
该步骤中,可将故障表现症状集EC作为最简矩阵的输入数据,触发该最简矩阵对其进行分析处理,即,根据该最简矩阵中症状和故障的对应关系,确定出输入的故障表现症状集EC中的所有症状所对应的所有故障。
进一步地,根据故障的发生概率,可以计算出候选故障集Fc中的所有故障针对故障表现症状集合EC的发生概率,并按照发生概率对候选故障集Fc中的所有故障进行优先级排序。根据优先级排序后的候选故障集Fc,可以根据各种故障发生的可能性的高低,较为直观地评价当前网络或设备的运行情况。其中,候选故障集Fc中的每个故障针对故障表现症状集合EC的发生概率,是该故障针对该症状集中的每个症状的发生概率之和,可按照如下公式计算:
P ( f j | E c ) = Σ e i ∈ E c p ( f j | e i ) s ( 1 ≤ j ≤ t )
其中,p(fj|ei)表示对于症状ei的每个候选故障fj的发生概率,该值可以是根据经验预设的值。由于故障表现症状集Ec中的多个表现症状也可能指向同一个可能故障fj,则此故障fj的发生概率为该故障fj针对各个症状的发生概率之和,如果故障不属于症状ei的候选故障集,则该故障针对症状ei的发生概率为0。
至此,对监控得到的故障表现症状集EC,利用故障定位安全模型确定出了对应的候选故障集FC,从而确定出了引起所监控到的故障症状的故障原因。
为了对候选故障集FC中的故障进一步验证,以提高故障诊断的准确性,该流程还可包括如下步骤:
步骤203、对于候选故障集FC中的每个故障,采用与该故障对应的验证方式对该故障的真实性或故障的严重程度进行验证,如果根据验证结果分析出该故障实际上并没有发生或该故障已经消除或故障程度并不严重(可通过与设定阈值来衡量故障的严重程度),则可将该故障从候选故障集FC中排除。
该步骤中,对于候选故障集Fc={f1,f2,...,ft}中每个故障fj(1≤j≤t),可以通过其中一个或多个诊断操作,或者通过一种或多种诊断方法进行故障验证。所有可以使用的故障诊断操作可列在诊断操作序列集Oj={o1,o2,...,ok}中,并且其中的每个诊断操作与故障集F中的故障建立有对应关系,表示对应特定的故障可以采用的故障诊断操作。根据该对应关系,可确定出候选故障集FC中的每种故障对应的诊断操作,从而采用对应的诊断操作对候选故障集FC中的故障进行故障诊断。例如:某个ERICSSON交换机出现CP负荷过高的症状,对交换机发送PLLDP的指令可以显示出当前交换机的负荷情况,根据显示出的负荷情况进一步判定故障导致CP负荷过高的故障是否确实发生。
在诊断过程中,可根据症状的严重程度,对候选故障集Fc中的故障进行排序,然后从程度最严重的症状所对应的故障开始进行故障验证;还可以根据故障发生概率采用前述优先级排序方式对候选故障集Fc中各故障进行优先级排序,然后按照优先级顺序从优先级最高(表明发生的概率越高)的故障开始依次对故障进行故障诊断。
如果根据诊断结果,当前被验证的故障确实已发生,可不再对其它故障进行诊断,诊断结束,并输出当前被验证的故障作为最终定位出的故障;如果候选故障集Fc中所有故障都诊断结束,但是未能输出定位出的故障,则可给出提示信息,提示出导致不能定位故障的原因可能是候选故障集Fc数据不足,需要进行数据补充,此种情况下,可返回步骤201再次执行故障监控和定位的流程。
上述流程中,对于症状ei的每个候选故障fj的发生概率,在安全模型初始化时,可以通过维护人员根据历史经验进行设定。该设定的发生概率可以作为一个训练集,随着故障数据的积累以及故障定位的结果,根据症状ei与故障fj的发生次数和关联情况,对发生概率值进行反馈修定,从而实现症状ei的每个候选故障fj的发生概率的自学习,以便用于后续故障诊断过程中对候选故障集进行排序。学习规则为:
对于一个表现症状ei的候选故障发生次数之和设定初始值Cei=10,则候选故障fj的初始次数为Cfj=10×p(fj|ei)。安全模型运行后,如果针对表现症状ei定位到故障fj,则故障fj的发生次数记为Cfj+1,同时候选故障发生次数之和为Cei+1,则故障fj的发生概率修订为:p(fj|ei)=Cfj+1/Cei+1,并且后续每次针对表现症状ei定位到故障fj,都按照上述规则修订故障fj的发生概,如,
Figure B2009102100982D0000101
其中,n表示本次针对ei定位出fj之前,针对ei定位出fj的次数。
需要说明的是,上述流程中的步骤201可由专门的监控设备完成,对于故障定位方法而言,只要能够获得表现症状集Ec即可,并不要求包含监控操作。
通过以上流程可以看出,本发明实施例是实现一个能够自学习的安全模型来对网络进行监控和对网络故障进行自动定位,安全模型的数据源是来自于告警监控、性能监控、信令监控、系统拨测,监控系统把输入的数据源送入安全模型进行处理,安全模型中有定义好的故障集和症状集组成的矩阵。在安全模型的初始矩阵中,数据较多,里面保存了较多的故障集数据和症状集数据,为了能提高效率准确定位,本发明实施例根据输入的数据对粗糙集矩阵进行划简,求出该矩阵的最简解数据,即一个故障集与症状集对应关系的最简集合。然后根据输入的症状快速定位到所对应的故障,把对应出的结果进行故障诊断,把经过安全模型诊断后的结果显示给监控人员,监控人员根据输出结果能够快速、准确地发现、定位故障,为网络故障的快速修复提供了有力的保障和支撑。
基于相同的技术构思,本发明实施例还提供了一种故障定位系统。
参见图3,为本发明实施例提供的故障定位系统的结构示意图,该系统包括:矩阵化简模块301、故障定位模块303,还可进一步包括:故障监控模块302,还可包括故障诊断模块304,其中:
矩阵化简模块301,用于化简故障集和症状集的关联关系矩阵;
故障监控模块302,用于通过监控到的信令、设备告警、性能指标、自动拨测数据之一或任意组合,确定出网络或设备发生的故障症状;
故障定位模块303,用于当故障监控模块302监控到网络或设备发生故障症状时,根据矩阵化简模块301化简后的故障集与症状集的关联关系矩阵,确定与监控到的故障症状具有关联关系的故障;
故障诊断模块304,用于在故障定位模块303确定出与监控到的症状具有关联关系的故障之后,对于确定出的所有故障,计算其中每个故障针对监控到的症状所形成的症状集的发生概率,其中,每个故障针对该症状集的发生概率为该故障针对该症状集中的每个症状的发生概率之和;以及,按照发生概率从高到低的顺序对故障进行诊断,并当诊断结果为当前被诊断的故障确实发生时,从确定出的故障所形成的故障集中删除除该当前被诊断的故障以外的其他故障。
该系统还可包括:
概率更新模块(未在图中示出),该模块用于在故障定位模块303确定出与监控到的故障症状具有关联关系的故障之后,将该故障针对所述症状的发生概率更新为:
P ( f j | e i ) = Cfj + n + 1 Cei + n + 1 ;
其中,fj表示所述故障,ei表示所述症状;Cfj表示ei发生的初始次数,Cei表示确定出fj的初始次数;n表示在本次确定出与ei具有关联关系的fj之前,ei被监控到并且确定出与fj具有关联关系的次数。
上述各功能模块实现上述功能的具体过程可如前所述,在此不再赘述。
本发明上述实施例提供的方法和系统,可通过计算机程序实现。
综上所述,本发明实施例提供的技术方案弥补了当前在网络监控和故障分析定位时人工判断、验证的不可靠性,和对高水平的技术支持人员过多地依赖的局限性,实现了验证的自动化,提高了对网络故障的分析和定位的效率和可靠性,同时简化了现有对网络故障分析的繁杂性,并且为提高网络质量提供了有效、高效的自动化手段。本发明实施例所提供的技术方案可可以从业务接续的角度对网络维护的知识进行自动总结合入库管理,并可以高效、自动的发现全网中那些症状可能引发网络故障,利用这个功能,可以起到对网络故障的预防作用。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (18)

1.一种故障定位方法,其特征在于,包括如下步骤:
化简故障集和症状集的关联关系矩阵;
当监控到网络或设备发生故障症状时,根据化简后的故障集与症状集的关联关系矩阵,确定与监控到的故障症状具有关联关系的故障。
2.如权利要求1所述的方法,其特征在于,还包括:
当故障集或症状集,或者故障集和症状集的关联关系发生变化时,根据变化后的故障集和症状集,或者变化后的故障集和症状集的关联关系,化简故障集和症状集的关联关系矩阵,并用该次化简得到的关联关系矩阵更新以前的关联关系矩阵;
当更新故障集和症状集的关联关系矩阵后,若监控到网络或设备发生故障症状,则根据更新后的关联关系矩阵,确定与监控到的故障症状具有关联关系的故障。
3.如权利要求1或2所述的方法,其特征在于,所述关联关系矩阵的行对应故障集、列对应症状集,矩阵元素用第一参数和第二参数对应表示关联关系的有与无;
化简故障集和症状集的关联关系矩阵,包括:
将故障集和症状集的关联关系矩阵的每一列列向量,分别与其他列向量进行逻辑与运算,以及分别与其他列向量中所有组合形式的多个列向量进行逻辑与运算;
若逻辑与运算得到的结果向量中仅包含一个值为1的元素,则根据该结果向量确定出对应的故障以及与该故障具有关联关系的症状,其中,所述故障为该结果向量中值为1的元素所在的行对应的故障,所述症状为参与本次逻辑与运算的所有列向量对应的症状;
根据确定出的故障以及与该故障具有关联关系的症状,确定化简后的关联关系矩阵。
4.如权利要求3所述的方法,其特征在于,在进行列向量逻辑与运算之前,还包括:
根据所述关联关系矩阵中仅包含一个值为1的元素的列向量,确定出对应的故障以及与该故障具有关联关系的症状,其中,所述故障为该列向量中值为1的元素所在的行对应的故障,所述症状为该列向量对应的症状;
将该确定出的故障以及与该故障具有关联关系的症状,包括在化简后的关联关系矩阵中。
5.如权利要求3所述的方法,其特征在于,如果确定出的故障以及与该故障具有关联关系的症状中,针对同一故障对应有多组症状,则选取其中症状数量最少的一组症状作为与该故障具有关联关系的症状。
6.如权利要求1所述的方法,其特征在于,确定出与监控到的症状具有关联关系的故障之后,还包括:
对确定出的故障进行诊断,若诊断结果为该故障已消除或故障程度低于设定阈值,则从确定出的故障所形成的故障集中将该故障删除。
7.如权利要求1所述的方法,其特征在于,确定出与监控到的症状具有关联关系的故障之后,还包括:
对于确定出的所有故障,计算其中每个故障针对监控到的症状所形成的症状集的发生概率,其中,每个故障针对该症状集的发生概率为该故障针对该症状集中的每个症状的发生概率之和;
按照发生概率从高到低的顺序对故障进行诊断,并当诊断结果为当前被诊断的故障确实发生时,从确定出的故障所形成的故障集中删除除该当前被诊断的故障以外的其他故障。
8.如权利要求7所述的方法,其特征在于,确定出与监控到的故障症状具有关联关系的故障之后,还包括:
将所述故障针对所述症状的发生概率更新为:
P ( f j | e i ) = Cfj + n + 1 Cei + n + 1 ;
其中,fj表示所述故障,ei表示所述症状;Cfj表示ei发生的初始次数,Cei表示确定出fj的初始次数;n表示在本次确定出与ei具有关联关系的fj之前,ei被监控到并且确定出与fj具有关联关系的次数。
9.如权利要求1所述的方法,其特征在于,确定出与监控到的故障症状具有关联关系的故障之后,还包括:
确定监控到的每个症状的故障严重程度;
按照故障严重程度从高到低的顺序对故障进行诊断,并当诊断结果为当前被诊断的故障确实发生时,从确定出的故障所形成的故障集中删除除该当前被诊断的故障以外的其他故障。
10.如权利要求1所述的方法,其特征在于,监控网络或设备发生的故障症状,具体为:
通过监控到的信令、设备告警、性能指标、自动拨测数据之一或任意组合,确定出网络或设备发生的故障症状。
11.一种故障定位系统,其特征在于,包括:
矩阵化简模块,用于化简故障集和症状集的关联关系矩阵;
故障定位模块,用于当监控到网络或设备发生故障症状时,根据所述矩阵化简模块化简后的故障集与症状集的关联关系矩阵,确定与监控到的故障症状具有关联关系的故障。
12.如权利要求11所述的系统,其特征在于,所述矩阵化简模块还用于,当故障集或症状集,或者故障集和症状集的关联关系发生变化时,根据变化后的故障集和症状集,或者变化后的故障集和症状集的关联关系,化简故障集和症状集的关联关系矩阵,并用该次化简得到的关联关系矩阵更新以前的关联关系矩阵;
所述故障定位模块还用于,当所述矩阵化简模块更新故障集和症状集的关联关系矩阵后,若监控到网络或设备发生故障症状,则根据更新后的关联关系矩阵,确定与监控到的故障症状具有关联关系的故障。
13.如权利要求11或12所述的系统,其特征在于,所述关联关系矩阵的行对应故障集、列对应症状集,矩阵元素用第一参数和第二参数对应表示关联关系的有与无;
所述化简模块化简故障集和症状集的关联关系矩阵的过程,包括:
将故障集和症状集的关联关系矩阵的每一列列向量,分别与其他列向量进行逻辑与运算,以及分别与其他列向量中所有组合形式的多个列向量进行逻辑与运算;
若逻辑与运算得到的结果向量中仅包含一个值为1的元素,则根据该结果向量确定出对应的故障以及与该故障具有关联关系的症状,其中,所述故障为该结果向量中值为1的元素所在的行对应的故障,所述症状为参与本次逻辑与运算的所有列向量对应的症状;
根据确定出的故障以及与该故障具有关联关系的症状,确定化简后的关联关系矩阵。
14.如权利要求13所述的系统,其特征在于,所述矩阵化简模块进一步用于,在进行列向量逻辑与运算之前,根据所述关联关系矩阵中仅包含一个值为1的元素的列向量,确定出对应的故障以及与该故障具有关联关系的症状,其中,所述故障为该列向量中值为1的元素所在的行对应的故障,所述症状为该列向量对应的症状;将该确定出的故障以及与该故障具有关联关系的症状,包括在化简后的关联关系矩阵中。
15.如权利要求13所述的系统,其特征在于,所述化简模块进一步用于,如果确定出的故障以及与该故障具有关联关系的症状中,针对同一故障对应有多组症状,则选取其中症状数量最少的一组症状作为与该故障具有关联关系的症状。
16.如权利要求11所述的系统,其特征在于,还包括:
故障诊断模块,用于在所述故障定位模块确定出与监控到的症状具有关联关系的故障之后,对于确定出的所有故障,计算其中每个故障针对监控到的症状所形成的症状集的发生概率,其中,每个故障针对该症状集的发生概率为该故障针对该症状集中的每个症状的发生概率之和;以及,按照发生概率从高到低的顺序对故障进行诊断,并当诊断结果为当前被诊断的故障确实发生时,从确定出的故障所形成的故障集中删除除该当前被诊断的故障以外的其他故障。
17.如权利要求16所述的系统,其特征在于,还包括:
概率更新模块,用于在所述故障定位模块确定出与监控到的故障症状具有关联关系的故障之后,将所述故障针对所述症状的发生概率更新为:
P ( f j | e i ) = Cfj + n + 1 Cei + n + 1 ;
其中,fj表示所述故障,ei表示所述症状;Cfj表示ei发生的初始次数,Cei表示确定出fj的初始次数;n表示在本次确定出与ei具有关联关系的fj之前,ei被监控到并且确定出与fj具有关联关系的次数。
18.如权利要求11所述的系统,其特征在于,还包括:
故障监控模块,用于通过监控到的信令、设备告警、性能指标、自动拨测数据之一或任意组合,确定出网络或设备发生的故障症状。
CN 200910210098 2009-11-05 2009-11-05 一种故障定位方法及其系统 Active CN102055604B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200910210098 CN102055604B (zh) 2009-11-05 2009-11-05 一种故障定位方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200910210098 CN102055604B (zh) 2009-11-05 2009-11-05 一种故障定位方法及其系统

Publications (2)

Publication Number Publication Date
CN102055604A true CN102055604A (zh) 2011-05-11
CN102055604B CN102055604B (zh) 2012-12-05

Family

ID=43959563

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200910210098 Active CN102055604B (zh) 2009-11-05 2009-11-05 一种故障定位方法及其系统

Country Status (1)

Country Link
CN (1) CN102055604B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102426671A (zh) * 2011-07-29 2012-04-25 北京航星机器制造公司 一种基于综合成本最优的排故方法
CN106165345A (zh) * 2014-03-24 2016-11-23 微软技术许可有限责任公司 标识用于化解网络故障的故障排除选项
WO2017005117A1 (zh) * 2015-07-09 2017-01-12 阿里巴巴集团控股有限公司 一种基于云平台的故障处理方法和装置
CN108009283A (zh) * 2017-12-22 2018-05-08 无线生活(杭州)信息科技有限公司 一种问题分析方法及装置
CN109270910A (zh) * 2018-10-31 2019-01-25 重庆长安汽车股份有限公司 一种生产线上的机器人故障分析方法、装置及系统
CN109992493A (zh) * 2017-12-29 2019-07-09 宁波方太厨具有限公司 一种排除燃气热水器软件异常的测试方法
CN110225540A (zh) * 2019-01-30 2019-09-10 北京中科晶上科技股份有限公司 一种面向集中式接入网的故障检测方法
CN111078456A (zh) * 2019-12-26 2020-04-28 新奥数能科技有限公司 设备故障诊断方法、装置、计算机可读存储介质和电子设备
CN111126815A (zh) * 2019-12-12 2020-05-08 中国移动通信集团内蒙古有限公司 一种信息筛选方法、装置、设备及存储介质
CN111356964A (zh) * 2017-09-30 2020-06-30 西门子股份公司 一种数控机床的故障诊断方法和装置
CN113010843A (zh) * 2021-03-05 2021-06-22 中国核电工程有限公司 测量参数集的确定方法及装置、验证方法及故障诊断方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AUPN479695A0 (en) * 1995-08-16 1995-09-07 Telstra Corporation Limited A network analysis system
CN101047738B (zh) * 2006-06-16 2010-06-09 华为技术有限公司 通信设备故障定位的方法和系统
CN101281229B (zh) * 2008-05-22 2010-06-16 重庆大学 配电网配电线路故障定位系统

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102426671B (zh) * 2011-07-29 2014-07-09 北京航星机器制造公司 一种基于综合成本最优的排故方法
CN102426671A (zh) * 2011-07-29 2012-04-25 北京航星机器制造公司 一种基于综合成本最优的排故方法
CN106165345A (zh) * 2014-03-24 2016-11-23 微软技术许可有限责任公司 标识用于化解网络故障的故障排除选项
US11057266B2 (en) 2014-03-24 2021-07-06 Microsoft Technology Licensing, Llc Identifying troubleshooting options for resolving network failures
WO2017005117A1 (zh) * 2015-07-09 2017-01-12 阿里巴巴集团控股有限公司 一种基于云平台的故障处理方法和装置
CN111356964A (zh) * 2017-09-30 2020-06-30 西门子股份公司 一种数控机床的故障诊断方法和装置
CN108009283A (zh) * 2017-12-22 2018-05-08 无线生活(杭州)信息科技有限公司 一种问题分析方法及装置
CN109992493A (zh) * 2017-12-29 2019-07-09 宁波方太厨具有限公司 一种排除燃气热水器软件异常的测试方法
CN109992493B (zh) * 2017-12-29 2021-12-10 宁波方太厨具有限公司 一种排除燃气热水器软件异常的测试方法
CN109270910A (zh) * 2018-10-31 2019-01-25 重庆长安汽车股份有限公司 一种生产线上的机器人故障分析方法、装置及系统
CN110225540A (zh) * 2019-01-30 2019-09-10 北京中科晶上科技股份有限公司 一种面向集中式接入网的故障检测方法
CN111126815A (zh) * 2019-12-12 2020-05-08 中国移动通信集团内蒙古有限公司 一种信息筛选方法、装置、设备及存储介质
CN111126815B (zh) * 2019-12-12 2023-09-08 中国移动通信集团内蒙古有限公司 一种信息筛选方法、装置、设备及存储介质
CN111078456A (zh) * 2019-12-26 2020-04-28 新奥数能科技有限公司 设备故障诊断方法、装置、计算机可读存储介质和电子设备
CN111078456B (zh) * 2019-12-26 2023-05-16 新奥数能科技有限公司 设备故障诊断方法、装置、计算机可读存储介质和电子设备
CN113010843A (zh) * 2021-03-05 2021-06-22 中国核电工程有限公司 测量参数集的确定方法及装置、验证方法及故障诊断方法
CN113010843B (zh) * 2021-03-05 2024-04-09 中国核电工程有限公司 测量参数集的确定方法及装置、验证方法及故障诊断方法

Also Published As

Publication number Publication date
CN102055604B (zh) 2012-12-05

Similar Documents

Publication Publication Date Title
CN102055604B (zh) 一种故障定位方法及其系统
WO2022105266A1 (zh) 电梯故障预测方法、系统、装置、计算机设备和存储介质
KR102118670B1 (ko) Ict 인프라 관리 시스템 및 이를 이용한 ict 인프라 관리 방법
CN103870659B (zh) 一种数控机床故障分析方法
CN111209131A (zh) 一种基于机器学习确定异构系统的故障的方法和系统
CN103761173A (zh) 一种基于日志的计算机系统故障诊断方法及装置
CN101753382B (zh) 一种自适应网络故障监控定位安全模型的构建方法
CN104796273A (zh) 一种网络故障根源诊断的方法和装置
CN101783749B (zh) 一种网络故障定位方法和装置
CN101583914A (zh) 与用于过程中的稳态检测的多元分析一起使用的统计特征
US11016477B2 (en) Devices, methods, and systems for a distributed rule based automated fault detection
CN106201829A (zh) 监控阈值确定方法及装置、监控报警方法、装置及系统
EP4020218B1 (en) Analyzing large-scale data processing jobs
JP2015011027A (ja) 時系列データにおける異常を検出する方法
CN104216825A (zh) 问题定位方法及系统
WO2022142013A1 (zh) 基于人工智能的ab测试方法、装置、计算机设备及介质
CN104506137A (zh) 一种设备故障诊断方法和装置
CN114662618A (zh) 一种基于联邦学习的故障诊断方法、装置及相关设备
CN103914386B (zh) 基于输入参数特征谱的软件缺陷定位方法
CN110609761B (zh) 确定故障源的方法、装置、存储介质和电子设备
CN110261159B (zh) 柔性制造刀具子系统故障诊断方法
CN110727669B (zh) 一种电力系统传感器数据清理装置及清理方法
CN104933492A (zh) 购物系统的在线可靠性预测和提高方法
CN107566193A (zh) 模糊故障Petri网及其网络故障诊断方法
CN109754490A (zh) 电力机车制动系统的健康管理方法、装置、介质及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant