CN104486115B - 定位故障的方法及系统 - Google Patents

定位故障的方法及系统 Download PDF

Info

Publication number
CN104486115B
CN104486115B CN201410765586.0A CN201410765586A CN104486115B CN 104486115 B CN104486115 B CN 104486115B CN 201410765586 A CN201410765586 A CN 201410765586A CN 104486115 B CN104486115 B CN 104486115B
Authority
CN
China
Prior art keywords
tree
reasoning
failure
pond
derivation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410765586.0A
Other languages
English (en)
Other versions
CN104486115A (zh
Inventor
谷伟波
方军
田津津
熊亚军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410765586.0A priority Critical patent/CN104486115B/zh
Publication of CN104486115A publication Critical patent/CN104486115A/zh
Application granted granted Critical
Publication of CN104486115B publication Critical patent/CN104486115B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种定位故障的方法及系统,所述方法包括:接收报警信息;确定所述接收的报警信息所归属的推理树,其中所述推理树存储了系统可识别并用于进行故障推理的规则集;通过所述确定的推理树定位出故障。通过采用本发明可以对报警快速进行收敛,从而有效地提高故障定位的效率。

Description

定位故障的方法及系统
技术领域
本发明涉及通信领域,更为具体而言,涉及定位故障的方法及系统。
背景技术
目前在各个领域都存在基础的监控系统,当发生故障时,会产生大量有关联性的故障告警。为了能够更快的发现故障根因,提高整个定位效率,目前在各个领域也存在不少故障定位系统的实现方案。例如,当监控到网络或设备发生故障症状时,根据化简后的故障集与症状集的关联关系矩阵,确定与监控到的故障症状具有关联关系的故障。然而只能根据一定的规则矩阵对一定量相关联的故障报警进行推理,在大型数据中心中,多个系统混合嵌套,故障报警关联杂乱、存在层级,现有技术无法很好解决此问题,或者在推理定位中存在较大的延时性。
发明内容
为有效地解决上述技术问题,本发明提供了一种定位故障的方法及系统。
一方面,本发明的实施方式提供了一种定位故障的方法,所述方法包括:
接收报警信息;
确定所述接收的报警信息所归属的推理树,其中所述推理树存储了系统可识别并用于进行故障推理的规则集;
通过所述确定的推理树定位出故障。
另一方面,本发明的实施方式提供了一种定位故障的系统,所述系统包括:
接收模块,用于接收报警信息;
确定模块,用于确定所述接收模块所接收的报警信息所归属的推理树,其中所述推理树存储了系统可识别并用于进行故障推理的规则集;
定位模块,用于通过所述确定模块所确定出的推理树定位出故障。
实施本发明提供的定位故障的方法及系统可以对报警快速进行收敛,从而有效地提高故障定位的效率。
附图说明
图1是根据本发明实施方式的定位故障的方法的流程图;
图2示出了图1所示的步骤S130的一种实施方式;
图3是根据本发明实施方式的定位故障的方法的另一种实施方式;
图4是示出本发明实施方式的推理树的示意图;
图5是示出本发明实施方式的混合二次推理机制的示意图;
图6是根据本发明实施方式的定位故障的系统的结构示意图;
图7是根据本发明实施方式的定位故障的系统的另一种实施方式。
具体实施方式
为使本发明的实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。
图1是根据本发明实施方式的定位故障的方法的流程图。参见图1,所述方法包括:
S110:接收报警信息;
S120:确定所述接收的报警信息所归属的推理树,其中所述推理树存储了系统可识别并用于进行故障推理的规则集,并且,在本发明的实施方式中,在执行该步骤S120前,该方法还可以预先以二叉树的数据结构存储所述规则集以构建所述推理树;
S130:通过所述确定的推理树定位出故障。
如图2所示,在本发明的实施方式中,该步骤S130可以通过以下方式实现:
S131:根据所述确定的推理树对所述报警信息进行整合以生成所述推理树的报警池;
S132:根据所述推理树的拆分原则,将所述报警池拆分成推理报警池,其中不同的推理树的拆分原则不同,可以预先根据经验设定,例如可以包括但不限于:按照报警信息归属的机房进行拆分的原则以及按照报警信息归属的设备进行拆分的原则;
S133:将所述推理报警池中的报警信息与所述推理树的节点信息进行匹配以定位出故障。
如图3所示,在本发明的一种优选的实施方式中,该方法包括:
S110’至S130’:同上所述的S110至S130,在此不再赘述;
S140’:判断是否定位所述故障的原因(导致所述故障的深度故障),若是,则执行S150’,否则,结束定位;
S150’:确定所述故障所归属的深度推理树,并通过所述确定的深度推理树定位出所述故障的原因,并返回执行步骤S140’。
其中,在本发明的实施方式中,该步骤S150’可以通过以下方式实现:
根据所述确定的深度推理树对所述故障进行整合以生成所述深度推理树的故障池;
根据所述深度推理树的拆分原则,将所述故障池拆分成推理故障池;
将所述推理故障池中的故障与所述深度推理树的节点信息进行匹配以定位出原因。
以下结合具体例子对本发明的实施方式进行具体说明。在本发明的实施方式中将人推理故障的过程程序化,或者说将人的故障推理经验配置化,利用人类专家的知识和经验,模拟人类专家的决策过程,来解决大型数据中心的故障定位问题。即将人类专家的经验抽象化、配置化,形成系统可识别的且可用于故障推理的规则集并进行存储,供故障定位使用,例如可以采用二叉树(推理树)的形式存储专家经验,同时每个二叉树的输出叶子节点都可以作为另外一棵二叉树的输入。根据收集到的条件和已知信息匹配推理树中存储的规则集中的规则,从而定位出故障。
图4是本发明实施方式的推理树的示意图。参见图4,从根节点到叶子节点的唯一路径为推导过程,即一条推导链,对应一种类型的故障;每个推理树中的叶子节点为一种推导链对应的故障类型,对应一类故障根因case;通过使用推导链编号作为其故障类型的编号;在推导的中间环节,判断某些报警信息是否同时呈现出某种特征,根据判定结果进入后续的推导流程。由于目前大型数据中心的监控现状,一般会有如下特点:1)报警信息是分层次的,如整机房级别报警、房间级别报警、集群级别报警、交换机级别报警、板卡级别报警、端口级别报警等;2)每一层的报警又可分为原子报警和衍生性报警。如以端口级别的报警为例,软件/协议层面的报警即为衍生性报警,物理UP/DOWN的报警即为原子报警。原子报警会产生衍生性报警,反之则不然。因此,根据上述特点在本发明的实施方式中,构建推理树的原则包括:1)从高层报警到底层报警;2)从原子报警到衍生性报警;3)推理树的数量取决于可组合在一起的有关联的报警的数量。
以下对定位故障的过程进行说明,在本发明的实施方式中,首先进行初始化,包括读取报警种类信息、推理树信息、报警归属的推理树信息、推理树节点信息,同时构建推理树、注册推理树节点函数、开启相关工作线程等;其次,接收底层系统的报警信息,对报警信息进行解析(解析报警信息的内容,例如是网络报警还是整机房报警、报警归属的机房和设备、报警发生的时间等),统一存储结构,生成原始报警链表;再根据预先载入的报警归属的推理树信息对原始报警进行整合,生成原始报警推理池(由归属于同一个推理树的原始报警构成);最后对原始报警推理池进行拆分(不同的推理树的拆分原则不同,可以根据经验预先设定,例如根据设备进行拆分),并根据预先载入的推理树信息、推理树节点信息进行推理,生成故障队列。同时,在本发明中提出混合二次推理机制,可将不同层次推理树推理出来的多个结论重新进行关联,并进行深度推理,从而得出更高层次的根因,解决复杂关系系统根因定位困难的问题。具体地如图5所示,混合推理的整体过程为:
1、原始报警按所归属的推理树进行整合,生成原始报警推理池;
2、原始报警推理池进行拆分、推理、生成初级故障;
3、初级故障按归属的推理树进行整合,生成初级故障推理池;
4、初级故障推理池进行拆分、推理,生成中级故障;
5、以此类推,重复步骤3、4,进行更高级的混合推理,可以根据配置的专家经验,决定是否要进行更深层次的推理,若不需要,则无相关配置,混合推理结束。
图6是根据本发明实施方式的定位故障的系统100的结构示意图。参见图6,该系统100包括:
接收模块110,用于接收报警信息。
确定模块120,用于确定所述接收模块所接收的报警信息所归属的推理树,其中所述推理树存储了系统可识别并用于进行故障推理的规则集,并且,在本发明的实施方式中,该系统100还可以包括构建模块,用于以二叉树的数据结构存储所述规则集以构建所述推理树。
定位模块130,用于通过所述确定模块所确定出的推理树定位出故障。
其中,在本发明的实施方式中,该定位模块130可以包括:
整合单元,用于根据所述确定的推理树对所述报警信息进行整合以生成所述推理树的报警池;
拆分单元,用于根据所述推理树的拆分原则,将所述整合单元所整合出的报警池拆分成推理报警池,其中,所述拆分原则包括:按照报警信息归属的机房进行拆分的原则以及按照报警信息归属的设备进行拆分的原则;
匹配定位单元,用于将所述拆分单元所拆分出的推理报警池中的报警信息与所述推理树的节点信息进行匹配以定位出故障。
图7是根据本发明实施方式的定位故障的系统的另一种实施方式。参见图7,该系统100’包括:
接收模块110’、确定模块120’、定位模块130’:分别同上述的接收模块110、确定模块120、定位模块130,在此不再赘述;
判断模块140’,用于判断是否定位所述定位模块130’所定出的故障的原因;
深度推理模块150’,包括:用于当所述判断模块判定为定位所述故障的原因时,确定所述故障所归属的深度推理树的确定单元,以及用于通过所述确定单元所确定的深度推理树定位出所述故障的原因的深度定位单元。
其中,在本发明的实施方式中,该深度定位单元可以包括:
整合子单元,用于根据所述确定的深度推理树对所述故障进行整合以生成所述深度推理树的故障池;
拆分子单元,用于根据所述深度推理树的拆分原则,将所述整合子单元所整合出的故障池拆分成推理故障池;
匹配定位子单元,用于将所述拆分子单元所拆分出的推理故障池中的故障与所述深度推理树的节点信息进行匹配以定位出原因。
实施本发明提供的定位故障的方法及系统可以将数据中心瞬间产生的有多面性、冗余性、耦合性的报警进行快速收敛,定位故障,提高发现事件、解决事件、通告事件的整体能力,同时为后续事件的自动化处理奠定基础,从而提高整个故障处理效率。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件结合硬件平台的方式来实现,当然也可以全部通过硬件来实施。基于这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,智能手机或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本发明说明书中使用的术语和措辞仅仅为了举例说明,并不意味构成限定。本领域技术人员应当理解,在不脱离所公开的实施方式的基本原理的前提下,对上述实施方式中的各细节可进行各种变化。因此,本发明的范围只由权利要求确定,在权利要求中,除非另有说明,所有的术语应按最宽泛合理的意思进行理解。

Claims (10)

1.一种定位故障的方法,其特征在于,所述方法包括:
接收报警信息;
确定所述接收的报警信息所归属的推理树,其中所述推理树存储了系统可识别并用于进行故障推理的规则集;
通过所述确定的推理树定位出故障,
其中,过所述确定的推理树定位出故障包括:
根据所述确定的推理树对所述报警信息进行整合以生成所述推理树的报警池,
根据所述推理树的拆分原则,将所述报警池拆分成推理报警池,
将所述推理报警池中的报警信息与所述推理树的节点信息进行匹配以定位出故障。
2.如权利要求1所述的方法,其特征在于,
所述拆分原则包括:按照报警信息归属的机房进行拆分的原则以及按照报警信息归属的设备进行拆分的原则。
3.如权利要求1或2所述的方法,其特征在于,所述方法还包括:
在执行所述通过所述确定的推理树定位出故障后,判断是否定位所述故障的原因;
若是,则确定所述故障所归属的深度推理树,并通过所述确定的深度推理树定位出所述故障的原因。
4.如权利要求3所述的方法,其特征在于,通过所述确定的深度推理树定位出所述故障的原因包括:
根据所述确定的深度推理树对所述故障进行整合以生成所述深度推理树的故障池;
根据所述深度推理树的拆分原则,将所述故障池拆分成推理故障池;
将所述推理故障池中的故障与所述深度推理树的节点信息进行匹配以定位出原因。
5.如权利要求1或2所述的方法,其特征在于,所述方法还包括:
在执行所述确定所述接收的报警信息所归属的推理树前,以二叉树的数据结构存储所述规则集以构建所述推理树。
6.一种定位故障的系统,其特征在于,所述系统包括:
接收模块,用于接收报警信息;
确定模块,用于确定所述接收模块所接收的报警信息所归属的推理树,其中所述推理树存储了系统可识别并用于进行故障推理的规则集;
定位模块,用于通过所述确定模块所确定出的推理树定位出故障;
其中,所述定位模块包括:
整合单元,用于根据所述确定的推理树对所述报警信息进行整合以生成所述推理树的报警池,
拆分单元,用于根据所述推理树的拆分原则,将所述整合单元所整合出的报警池拆分成推理报警池,
匹配定位单元,用于将所述拆分单元所拆分出的推理报警池中的报警信息与所述推理树的节点信息进行匹配以定位出故障。
7.如权利要求6所述的系统,其特征在于,
所述拆分原则包括:按照报警信息归属的机房进行拆分的原则以及按照报警信息归属的设备进行拆分的原则。
8.如权利要求6或7所述的系统,其特征在于,所述系统还包括:
判断模块,用于判断是否定位所述故障的原因;
深度推理模块,包括:用于当所述判断模块判定为定位所述故障的原因时,确定所述故障所归属的深度推理树的确定单元,以及用于通过所述确定单元所确定的深度推理树定位出所述故障的原因的深度定位单元。
9.如权利要求8所述的系统,其特征在于,所述深度定位单元包括:
整合子单元,用于根据所述确定的深度推理树对所述故障进行整合以生成所述深度推理树的故障池;
拆分子单元,用于根据所述深度推理树的拆分原则,将所述整合子单元所整合出的故障池拆分成推理故障池;
匹配定位子单元,用于将所述拆分子单元所拆分出的推理故障池中的故障与所述深度推理树的节点信息进行匹配以定位出原因。
10.如权利要求6或7所述的系统,其特征在于,所述系统还包括:
构建模块,用于以二叉树的数据结构存储所述规则集以构建所述推理树。
CN201410765586.0A 2014-12-11 2014-12-11 定位故障的方法及系统 Active CN104486115B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410765586.0A CN104486115B (zh) 2014-12-11 2014-12-11 定位故障的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410765586.0A CN104486115B (zh) 2014-12-11 2014-12-11 定位故障的方法及系统

Publications (2)

Publication Number Publication Date
CN104486115A CN104486115A (zh) 2015-04-01
CN104486115B true CN104486115B (zh) 2018-09-28

Family

ID=52760623

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410765586.0A Active CN104486115B (zh) 2014-12-11 2014-12-11 定位故障的方法及系统

Country Status (1)

Country Link
CN (1) CN104486115B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106526431B (zh) * 2016-12-30 2019-07-19 北京鼎科远图科技有限公司 接地和/或短路故障报警反演方法及装置
CN108632103B (zh) * 2017-03-17 2021-04-06 中兴通讯股份有限公司 系统异常诊断的方法和装置
CN110855480B (zh) * 2019-11-01 2023-01-13 中盈优创资讯科技有限公司 一种网络故障定因分析方法及装置
CN111106953B (zh) * 2019-12-16 2024-04-16 深圳前海微众银行股份有限公司 一种异常根因分析的方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1553328A (zh) * 2003-06-08 2004-12-08 华为技术有限公司 基于故障树分析的系统故障定位方法及装置
CN101916499A (zh) * 2010-08-12 2010-12-15 深圳市共济科技有限公司 一种智能报警装置及智能报警方法
CN102325036A (zh) * 2011-05-17 2012-01-18 中兴通讯股份有限公司 一种网络系统的故障诊断方法、系统及装置
CN102457390A (zh) * 2010-10-15 2012-05-16 中兴通讯股份有限公司 一种基于qoe的故障定位方法和系统
CN103580924A (zh) * 2013-11-12 2014-02-12 武汉钢铁(集团)公司 一种故障定位方法、装置及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE602008003668D1 (de) * 2008-04-08 2011-01-05 Tieto Oyj Dynamische Fehleranalyse für ein zentral verwaltetes Netzwerkelement in einem Telekommunikationssystem
CN101355451B (zh) * 2008-09-09 2011-05-11 中兴通讯股份有限公司 一种告警相关性分析方法及系统
CN101945009B (zh) * 2010-09-14 2012-11-28 国网电力科学研究院 基于案例和模式匹配的电力通信网故障定位方法及装置
CN102938708B (zh) * 2012-11-05 2016-03-30 国网电力科学研究院 基于告警传播模式的告警相关性分析系统及其分析方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1553328A (zh) * 2003-06-08 2004-12-08 华为技术有限公司 基于故障树分析的系统故障定位方法及装置
CN101916499A (zh) * 2010-08-12 2010-12-15 深圳市共济科技有限公司 一种智能报警装置及智能报警方法
CN102457390A (zh) * 2010-10-15 2012-05-16 中兴通讯股份有限公司 一种基于qoe的故障定位方法和系统
CN102325036A (zh) * 2011-05-17 2012-01-18 中兴通讯股份有限公司 一种网络系统的故障诊断方法、系统及装置
CN103580924A (zh) * 2013-11-12 2014-02-12 武汉钢铁(集团)公司 一种故障定位方法、装置及系统

Also Published As

Publication number Publication date
CN104486115A (zh) 2015-04-01

Similar Documents

Publication Publication Date Title
KR102483025B1 (ko) 운영 유지 시스템 및 방법
CN104486115B (zh) 定位故障的方法及系统
CN107704392A (zh) 一种测试用例的处理方法及服务器
CN105095048B (zh) 一种基于业务规则的监控系统告警关联处理方法
CN105868876A (zh) 一种基于过程监视的集中运维故障闭环处理方法
CN110224858A (zh) 基于日志的告警方法及相关装置
CN104021195A (zh) 基于知识库的告警关联分析方法
CN103324715B (zh) 一种灾备系统可用性检测方法及装置
CN106716454A (zh) 利用机器学习来识别非技术性损失
CN108197909A (zh) 一种项目进度监理控制系统
CN109447287A (zh) 多能源运维系统建立方法及终端设备
CN101631040A (zh) 一种统一管理多业务系统的实时监控报警系统和方法
CN109698823A (zh) 一种网络威胁发现方法
CN102857371A (zh) 一种面向集群系统的动态配置管理方法
CN105871957A (zh) 监控框架设计方法和监控服务器、代理单元、中控服务器
Martí Multisystem simulation: analysis of critical infrastructures for disaster response
CN110148937A (zh) 一种基于贝叶斯网络的大面积停电事件智能推演方法
CN110347694A (zh) 一种基于物联网的设备监控方法、装置及系统
CN113743892A (zh) 电网基建问题的跟踪处理方法、装置、计算机设备及介质
Zhang et al. [Retracted] Design of Multimedia Vocal Music Education Data Integration System Based on Adaptive Genetic Algorithm
CN110532312A (zh) 一种基于大数据的工业互联云平台系统
CN110347664A (zh) 一种数据可视化处理方法及装置
CN117371945A (zh) 一种环境产业的一站式大数据管理服务平台
CN116826961A (zh) 电网智能调度和运维系统、方法及存储介质
CN108023740A (zh) 监控中异常信息的风险提示方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant