CN115396287A - 一种故障分析方法和装置 - Google Patents
一种故障分析方法和装置 Download PDFInfo
- Publication number
- CN115396287A CN115396287A CN202211039483.7A CN202211039483A CN115396287A CN 115396287 A CN115396287 A CN 115396287A CN 202211039483 A CN202211039483 A CN 202211039483A CN 115396287 A CN115396287 A CN 115396287A
- Authority
- CN
- China
- Prior art keywords
- alarm
- alarms
- fault
- service
- relation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
- H04L41/065—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving logical or physical relationship, e.g. grouping and hierarchies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0677—Localisation of faults
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Maintenance And Management Of Digital Transmission (AREA)
Abstract
本发明涉及通信技术领域,提供了一种故障分析方法和装置。其中所述方法包括:根据网络中的全量告警数据,获取网络中的所有告警,并找到告警的关联业务;根据告警根衍规则,对网络中的所有告警进行匹配分析,找到所有告警中的物理故障告警,并得到物理故障告警之间的告警根衍关系;根据业务之间的关系和配置故障告警的关联业务,生成配置故障告警之间的关联关系;将存在关联关系的配置故障告警与告警根衍规则进行匹配,得到配置故障告警之间的告警根衍关系;根据故障分析规则,定位到具体故障。本发明通过对两类故障告警的区别处理,提高故障分析的准确性的同时,减少分析过程中的资源和时间消耗。
Description
技术领域
本发明涉及通信技术领域,特别是涉及一种故障分析方法和装置。
背景技术
通信技术发展日新月异,运营商网络拓扑结构及业务类型复杂度日渐升高,告警种类和数量日趋增多,网络运维人员定位故障根因愈发困难,因此需要一种找出告警中的根源告警以定位故障位置的方法。
现有技术中,主要通过对网络中告警进行监测、分析,结合网络中的通道信息,实现对传输网络的智能运维,这种方式需直接分析全网物理数据、拓扑数据、配置数据、告警数据等,常用的分析流程为获取数据->清洗数据->关联数据->分析数据,其中关联数据需要与网络中其他资源数据建立关联,直接查询存储全网物理数据、拓扑数据、配置数据、告警数据等进行分析需要大量计算和存储资源,实际工程使用场景中存储计算资源获取不易,且关联后的数据扩充了原有告警数据列,导致需要分析的数据更多,需耗费大量计算和存储资源。还存在通过建立模型对告警进行故障分析的方法,而模型分析通常需要大量的计算过程,耗费大量的资源,影响到网络故障究因的实时性,这两种方法均无法满足在网络中出现大量告警时的故障定位需求。
鉴于此,克服该现有技术所存在的缺陷是本技术领域亟待解决的问题。
发明内容
本发明要解决的技术问题是提供一种现有技术的故障分析方法在处理网络中出现大量告警时需耗费大量的资源,系统开销大,且计算速度慢。
第一方面,本发明提供了一种故障分析方法,包括:
根据网络中的全量告警数据,获取网络中的所有告警,并找到告警的关联业务;
根据告警根衍规则,对网络中的所有告警进行匹配分析,找到所有告警中的物理故障告警,并得到物理故障告警之间的告警根衍关系;
根据业务之间的关系和配置故障告警的关联业务,生成配置故障告警之间的关联关系;将存在关联关系的配置故障告警与告警根衍规则进行匹配,得到配置故障告警之间的告警根衍关系;其中,所述配置故障告警是由网络中的所有告警剔除物理故障告警得到的;
根据故障分析规则,对物理故障告警之间的告警根衍关系和配置故障告警之间的告警根衍关系进行分析,定位到具体故障。
优选的,所述根据业务之间的关系和配置故障告警的关联业务,生成配置故障告警之间的关联关系,具体包括:
根据业务基础信息,得到业务的层级关系;根据业务关联信息,得到业务之间的关联关系;
结合业务之间的关联关系和业务的层级关系,生成业务关联结构;
根据配置故障告警的关联业务和所述业务关联结构,生成配置故障告警之间的关联关系。
优选的,所述结合业务之间的关联关系和业务的层级关系,生成业务关联结构,具体包括:
根据业务的层级关系,从网络的所有业务中,以层级最低的业务作为根节点,构建树状的业务关联结构;
根据业务之间的关联关系,找到以第一节点的业务作为服务层时,所对应的客户层业务,以所述客户层业务作为所述第一节点的子节点,在所述业务关联结构中生成对应的分支;其中,以所述业务关联结构中的每一个节点作为第一节点,生成对应的分支,直至所述业务关联结构中不再生成新的分支。
优选的,所述根据配置故障告警的关联业务和所述业务关联结构,生成配置故障告警之间的关联关系,具体包括:
根据配置故障告警的关联业务,向所述业务关联结构的节点中填充所述节点的业务所对应的配置故障告警;
对填充后的业务关联结构中,未填充配置故障告警的节点及分支进行裁剪,得到配置故障告警之间的关联关系。
优选的,所述对填充后的业务关联结构中,未填充配置故障告警的节点及分支进行裁剪,具体包括:
当所述业务关联结构中的节点存在对应的配置故障告警时,保留所述节点所在的路径分支;
当所述业务关联结构中的节点不存在对应的配置故障告警时,若所述节点的父节点存在告警,且所述节点的至少一个子节点存在告警,则保留所述节点所在的路径分支;否则,裁剪所述节点所在的路径分支。
优选的,所述并找到告警的关联业务,具体包括:
在告警数据中的告警字段中携带告警的上报位置,并在告警数据中携带告警的关联业务信息;
在获取网络中的所有告警时,根据告警字段,获取告警的关联业务;
若在所述告警字段中未获取到告警的关联业务信息,则根据所述告警的上报位置,查询所述上报位置的关联业务,所述上报位置的关联业务即为告警的关联业务。
优选的,根据故障分析规则,对物理故障告警之间的告警根衍关系和配置故障告警之间的告警根衍关系进行分析,定位到具体故障,具体包括:
根据告警根衍关系,得到根源告警;
根据故障分析规则匹配所述根源告警,定位得到具体故障。
优选的,所述根据网络中的全量告警数据,获取网络中的所有告警,还包括:
在告警数据中携带告警闪断标识和告警重复次数信息;
在获取网络中的所有告警时,根据所述告警闪断标识过滤闪断告警,根据所述告警重复次数信息过滤重复上报的告警。
优选的,所述告警根衍规则具体包括根源告警层次、根源告警名、衍生告警层次和衍生告警名。
第二方面,本发明还提供了一种故障分析装置,包括解析模块、关系分析模块和故障分析模块;
所述解析模块用于根据网络中的全量告警数据,获取网络中的所有告警,并找到告警的关联业务;
所述关系分析模块用于根据告警根衍规则,对网络中的所有告警进行匹配分析,找到所有告警中的物理故障告警,并得到物理故障告警之间的告警根衍关系;根据业务之间的关系和配置故障告警的关联业务,生成配置故障告警之间的关联关系;将存在关联关系的配置故障告警与告警根衍规则进行匹配,得到配置故障告警之间的告警根衍关系;其中,所述配置故障告警是由网络中的所有告警剔除物理故障告警得到的;
所述故障分析模块用于根据故障分析规则,对物理故障告警之间的告警根衍关系和配置故障告警之间的告警根衍关系进行分析,定位到具体故障。
第三方面,本发明还提供了一种故障分析装置,用于实现第一方面所述的故障分析方法,所述装置包括:
至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述处理器执行,用于执行第一方面所述的故障分析方法。
第四方面,本发明还提供了一种非易失性计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行,用于完成第一方面所述的故障分析方法。
本发明通过将不因业务变动的物理故障告警根据告警根衍规则优先处理,使过滤得到配置故障告警,再根据业务对配置故障告警进行处理,使无需将每个故障与业务强关联,通过对两类故障告警的区别处理,提高故障分析的准确性的同时,减少分析过程中的资源和时间消耗。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种故障分析方法的流程示意图;
图2是本发明实施例提供的一种故障分析方法中业务层级关系的示意图;
图3是本发明实施例提供的一种告警根衍规则的示意表图;
图4是本发明实施例提供的一种故障分析规则的示意表图;
图5是本发明实施例提供的一种故障分析方法的流程示意图;
图6是本发明实施例提供的一种故障分析方法中业务层级关系的示意表图;
图7是本发明实施例提供的一种故障分析方法中业务之间的关联关系示意表图;
图8是本发明实施例提供的一种故障分析方法中业务关联结构的示意表图;
图9是本发明实施例提供的一种故障分析方法的流程示意图;
图10是本发明实施例提供的一种故障分析方法中告警数据的示意表图;
图11是本发明实施例提供的一种故障分析系统的架构示意图;
图12是本发明实施例提供的一种故障分析系统的架构示意图;
图13是本发明实施例提供的一种故障分析系统中智能缓存单元的架构示意图;
图14是本发明实施例提供的一种故障分析方法中进行业务关联结构进行裁剪的示意图;
图15是本发明实施例提供的一种故障分析方法中业务生成树状结构的示意图;
图16是本发明实施例提供的一种故障分析方法中得到配置故障告警的示意图;
图17是本发明实施例提供的一种故障分析方法中树状结构裁剪的示意图;
图18是本发明实施例提供的一种故障分析装置的架构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在本发明的描述中,术语“内”、“外”、“纵向”、“横向”、“上”、“下”、“顶”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明而不是要求本发明必须以特定的方位构造和操作,因此不应当理解为对本发明的限制。
此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
实施例1:
本发明实施例1提供了一种故障分析方法,如图1所示,包括:
在步骤201中,根据网络中的全量告警数据,获取网络中的所有告警,并找到告警的关联业务。
其中,所述全量告警数据是通过在网络系统中实时获取告警的上报和变更消息得到的。
在步骤202中,根据告警根衍规则,对网络中的所有告警进行匹配分析,找到所有告警中的物理故障告警,并得到物理故障告警之间的告警根衍关系。
所述物理故障告警是由物理设备如单盘等发生故障所产生的告警。
在步骤203中,根据业务之间的关系和配置故障告警的关联业务,生成配置故障告警之间的关联关系。
所述配置故障告警是由于业务中的配置错误所产生的告警,当网络中的业务发生变动时,其衍生的告警也可能发生变动。
所述配置故障告警之间的关联关系主要指告警依托于业务之间的关系,而告警根衍关系主要指告警之间的衍生关系。
在步骤204中,将存在关联关系的配置故障告警与告警根衍规则进行匹配,得到配置故障告警之间的告警根衍关系;其中,所述配置故障告警是由网络中的所有告警剔除物理故障告警得到的。
在步骤205中,根据故障分析规则,对物理故障告警之间的告警根衍关系和配置故障告警之间的告警根衍关系进行分析,定位到具体故障。
所述告警根衍规则由本领域技术人员通过网络中告警之间的关系分析得出并预先存储的,所述故障分析规则由本领域技术人员根据告警与故障之间的关系分析并预先存储,所述故障分析规则根据告警根衍规则匹配生成。
在实际使用中,如果是物理设备产生的告警,比如单盘掉电等,会引起后续的一连串告警,端口收不到光信号,进而业务停止并开始倒换,比如端口收无光、业务中断、倒换告警,影响范围从物理层到逻辑层都有。在分析物理故障告警时,业务层次是可靠的,因为这些业务都是经过这一物理设备,物理设备的问题会影响到承载的业务,即物理故障告警之间的根衍关系不因业务而变动,故可通过告警根衍规则直接进行分析。
而配置故障告警,即根源告警发生在逻辑层的告警不影响物理设备,不会衍生出物理层告警,对于根源告警在逻辑层的告警,单纯的业务层次是不可靠的。如图2所示,其中每一行代表一个业务层次,在C业务、E业务和G业务上存在告警,C业务上所产生的告警为OCH的FEC解码信号劣化,E业务和G业务上产生告警均为OTU服务层信号失效,那么可以判断C业务为E业务的根告警,在业务结构中C业务并不是G业务的关联业务,所以C业务不是G业务的根告警,如果直接对关联业务这个字段分析,是无法应对这种场景的。故在本实施例中,根据业务之间的关系对配置故障告警进行分析,使告警的故障定位可靠。
本实施例通过将不因业务变动的物理故障告警根据告警根衍规则优先处理,使过滤得到配置故障告警,再根据业务对配置故障告警进行处理,使无需将每个故障与业务强关联,通过对两类故障告警的区别处理,提高故障分析的准确性的同时,减少分析过程中的资源和时间消耗。
如图3所示,所述告警根衍规则具体包括根源告警层次、根源告警名、衍生告警层次和衍生告警名。
如图4所示,所述故障分析规则,包括故障名称和根源告警名,还可能包括故障类型和故障所属的领域等故障信息。
所述根据故障分析规则,对物理故障告警之间的告警根衍关系和配置故障告警之间的告警根衍关系进行分析,定位到具体故障,具体包括:
根据告警根衍关系,得到根源告警。
根据故障分析规则匹配所述根源告警,定位得到具体故障。
本实施例通过对网络中的告警进行集中处理分析,先通过根衍规则找到告警中不受业务变动影响的物理故障告警,并对物理故障告警进行分析,并剔除得到配置故障告警,结合业务之间的关系,对配置故障告警进行分析,使定位所有告警的故障,且通过将告警进行集中分析处理,使对多个存在关联关系的告警能够一同分析得到故障,从而提高了故障分析的效率,以满足在出现大量告警时实时的故障分析定位需求。
所述根据业务之间的关系和配置故障告警的关联业务,生成配置故障告警之间的关联关系,如图5所示,具体包括:
在步骤301中,根据业务基础信息,得到业务的层级关系。
在步骤302中,根据业务关联信息,得到业务之间的关联关系。
在步骤303中,结合业务之间的关联关系和业务的层级关系,生成业务关联结构。
在步骤304中,根据配置故障告警的关联业务和所述业务关联结构,生成配置故障告警之间的关联关系。
其中,所述业务基础信息和业务关联信息通过查询网管基础数据得到的。当网络中业务发生变动时,对所述业务关联结构进行实时更新。
所述业务的层级关系如图6所示,包括业务ID和业务上报位置所属的业务层次。
所述业务之间的关联关系如图7所示,包括服务层业务ID和客户层业务ID,所述服务层和客户层是相对的,如A业务是B业务的一部分,那么A就是B的服务层,B就是A的客户层。
本实施例还针对所述结合业务之间的关联关系和业务的层级关系,生成业务关联结构,提供了一种可选的实现方式,具体包括:
根据业务的层级关系,从网络的所有业务中,以层级最低的业务作为根节点,构建树状的业务关联结构。
根据业务之间的关联关系,找到以第一节点的业务作为服务层时,所对应的客户层业务,以所述客户层业务作为所述第一节点的子节点,在所述业务关联结构中生成对应的分支;其中,以所述业务关联结构中的每一个节点作为第一节点,生成对应的分支,直至所述业务关联结构中不再生成新的分支。
其中,对于具有关联关系的两个业务,如A是B的服务层,B是A的客户层时,在业务的层级关系中,B业务所在的层级必定与A业务所在层级相邻,且B业务所在层级为A业务所在层级的上层,故找到具有关联关系的两个业务A与B后,可直接将B作为A的子节点,生成对应的分支。
具体的:由业务层级关系和业务关联关系,可从一个最小层次业务出发,持续在业务关联关系中查找该业务的客户层,直至在业务关联关系中找到以该业务为服务层的所有业务。所述生成业务关联结构的过程具体包括:从一个最小的业务(例如SPN网络的spngroup层次)出发,找到他的上层业务,再通过上层业务查找到更上层的业务,最终形成业务关联结构。
所形成的业务关联结构如图8所示,包含业务ID、业务层次、客户层业务ID集合和服务层业务ID集合,其中所述客户层业务ID集合是以业务ID所指代业务为服务层业务的所有业务的ID的集合,所述服务层业务ID集合是以业务ID所指代业务为客户层业务的所有业务的ID的集合。
作为一种具体的业务关联结构的实现方式,所述根据配置故障告警的关联业务和所述业务关联结构,生成配置故障告警之间的关联关系,具体包括:
根据配置故障告警的关联业务,向所述业务关联结构的节点中填充所述节点的业务所对应的配置故障告警,对填充后的业务关联结构中,未填充配置故障告警的节点及分支进行裁剪,得到配置故障告警之间的关联关系。
为了保留更为完整的告警间关系,还存在以下优选的实施例,即所述对填充后的业务关联结构中,未填充配置故障告警的节点及分支进行裁剪,具体包括:
当所述业务关联结构中的节点存在对应的配置故障告警时,保留所述节点所在的路径分支。
当所述业务关联结构中的节点不存在对应的配置故障告警时,若所述节点的父节点存在告警,且所述节点的至少一个子节点存在告警,则保留所述节点所在的路径分支;否则,裁剪所述节点所在的路径分支。
本实施例通过树状结构存储业务之间的关系,通过向树状的业务关联结构的各节点中填充告警的方式,使能够根据业务关系直接得到告警之间的关联关系。且在进行裁剪时,还通过无告警节点的上下游节点综合判断是否进行裁剪,以确保告警的路径关系完整。
所述并找到告警的关联业务,如图9所示,具体包括:
在步骤401中,在告警数据中的告警字段中携带告警的上报位置,并在告警数据中携带告警的关联业务信息。
在步骤402中,在获取网络中的所有告警时,根据告警字段,获取告警的关联业务。
在步骤403中,若在所述告警字段中未获取到告警的关联业务信息,则根据所述告警的上报位置,查询所述上报位置的关联业务,所述上报位置的关联业务即为告警的关联业务。
在实际情况中,告警通常存在重复上报或闪断,针对此问题,存在一种优选的实现方式,即所述根据网络中的全量告警数据,获取网络中的所有告警,还包括:
在告警数据中携带告警闪断标识和告警重复次数信息。
在获取网络中的所有告警时,根据所述告警闪断标识过滤闪断告警,根据所述告警重复次数信息过滤重复上报的告警。
所述告警数据中所包含的字段如图10所示,包括告警编号、定位源、上报类型、告警闪断标识、告警重复上报次数、发生时间。告警类型、告警代码和告警的关联业务。
其中,所述告警的关联业务是由网管系统计算并上报的,逻辑层告警的告警发生位置是在业务上,所以必会携带业务的信息,物理层告警则不一定。由于物理层告警是发生在具体的网元/单盘/端口上,有些物理设备不具备上报告警功能,会由其他设备来上报(如网元内电源盘的告警会由主控盘来上报),此时这个告警没有携带业务信息,但是会有上报的盘的ID信息,通过查询有哪些业务经过这个盘,可以找到这个告警关联的业务。
在本发明实施例中,第一、第二等限定性描述,并非是指代特定顺序含义,仅仅是为了让对应限定的对象能够从同类中脱离出来,并且是为了方便描述同类中不同的两个对象或者多个对象方便而加的限定,不应该将其解释出进一步限定意义。
实施例2:
本发明在提供了实施例1所描述的一种故障分析方法后,还提供了一种故障分析装置,如图11所示,包括解析模块、关系分析模块和故障分析模块;
所述解析模块用于根据网络中的全量告警数据,获取网络中的所有告警,并找到告警的关联业务;
所述关系分析模块用于根据告警根衍规则,对网络中的所有告警进行匹配分析,找到所有告警中的物理故障告警,并得到物理故障告警之间的告警根衍关系;根据业务之间的关系和配置故障告警的关联业务,生成配置故障告警之间的关联关系;将存在关联关系的配置故障告警与告警根衍规则进行匹配,得到配置故障告警之间的告警根衍关系;其中,所述配置故障告警是由网络中的所有告警剔除物理故障告警得到的。
所述故障分析模块用于根据故障分析规则,对物理故障告警之间的告警根衍关系和配置故障告警之间的告警根衍关系进行分析,定位到具体故障。
作为一种优选的实现方式,如图12所示,所述故障分析装置还包括过滤模块、智能缓存模块和分类模块。
所述过滤模块用于根据告警数据中的告警字段,过滤掉闪断告警和用户屏蔽告警。
所述分类模块用于将物理层告警和逻辑层告警分别存储,以便于进行告警的剔除操作。
所述智能缓存模块用于缓存故障分析中所需用到的告警根衍规则、告警根衍规则、业务之间的关系、全量告警数据等。智能缓存单元的作用是首次通过网管接口查询,并放到智能缓存单元中,后续这个周期内再次查到这个盘,就可以快速得到影响的业务。这也是由于物理层告警会应发较大范围的告警链,所以有比较大的概率多次会需要查这个盘的信息。从而提高查询的效率。
需要说明的是,在所述图12中,解析模块表现为解析器,关系分析模块表现为分析器,故障分析模块表现为匹配器,过滤模块表现为过滤器,智能缓存模块变现为智能缓存单元,分类模块表现为匹配器。
所述智能缓存模块如图13所示,包括对象业务缓存器、二极缓存器、规则缓存器。对象业务缓存器根据系统设置的切片时间选择缓存失效时间,采取0.5*切片时间的失效时间,上限为2分钟。二极缓存器包括告警-业务队列和业务-告警队列,其中告警-业务队列是全量的告警数据,主键字段为告警序号,其他信息中填充此告警影响的业务,业务告警队列中为逻辑层告警,主键为业务序号,保留完整的业务层级结构。规则缓存器是系统内所有根衍规则的缓存存储,有益于加速告警数据的分析。
下面将结合实施例1中的方法对所述故障分析装置中的各模块功能进行具体阐述,如图14所示,具体包括。
在步骤501中,预先初始化智能缓存模块,智能缓存模块内包括对象业务缓存器、二极缓存器、规则缓存器。对象业务缓存器根据系统设置的切片时间选择缓存失效时间,采取0.5*切片时间的失效时间,上限为2分钟。
二极缓存器包括告警-业务队列和业务-告警队列,其中告警-业务队列用于存储全量告警数据,包括告警序号、告警位置、告警类型和告警的关联业务等信息。业务-告警队列中用于存储逻辑层告警,包括业务序号和业务的关联告警。在规则缓存器中存储告警根衍规则。
在步骤502中,获取到的告警数据首先经过一个过滤模块,利用上报告警的字段过滤掉闪断告警和用户屏蔽告警,有效减少告警风暴发生时的无效告警,将过滤后的告警发送到解析模块中。
在步骤503中,如图15所示,组合业务基础信息和业务关联信息数据,将平铺的关联关系数据组合为树状结构(可理解为实施例1中的业务关联结构),从业务的基础数据中获得业务的层次,填入树状结构,放在智能缓存模块中,其中,图15中左上角的A->C代表业务A与业务C之间的关联关系,即在该关系中,A为C的服务层,C为A的客户层,图15中左下角代表各业务所属的层级,如A业务属于SPN层。
在步骤504中,解析模块收到告警,开始分析,首先根据告警字段定位上报位置类型,为告警打上网元/单盘/端口/业务的标签,其中网元/单盘/端口为物理层,业务为逻辑层。解析物理层告警时,如果告警信息中携带了告警关联的业务信息,直接使用此信息;如果没有携带或信息为空,需要实时查询此物理层的关联业务,通过智能缓存模块获取。
在步骤505中,分类模块获取解析后的数据,将所有告警放入告警-业务队列,将逻辑层告警放入业务-告警队列。
在步骤506中,关系分析模块根据时间切片从上游的两个队列中获取数据,首先分析告警-业务队列,获取规则缓存器中的告警根衍规则,根据告警根衍规则,分析告警-业务队列中的告警,得到部分告警的告警根衍关系,所述部分告警为物理故障告警,由于物理故障告警所需的业务关系固定,故在所述告警根衍关系中存储告警所需的业务关系,是直接通过根衍关系生成告警根衍关系。
将告警-业务队列中的分析结果发送到业务-告警队列中,剔除已识别的告警,得到配置故障告警,如图16所示。然后将配置故障告警填入业务树状结构,裁剪无告警路径节点,分析业务层告警关系,如图17所示。在裁剪无告警路径节点时,当节点为有告警节点时保留该节点,当节点为无告警节点,但节点上游下游均有告警节点时保留该节点。可以在保障不丢失告警路径关系的前提下,节省内存资源。
在步骤507中,合并分析结果,根据切片内的根告警和规则库中的故障规则得出故障场景,同时向智能缓存模块发送当前故障情况,当故障内为单根情况较多时,会在下一周期采用底层为LRU的缓存器,多根情况较多时,会在下一周期采用底层为LFU的缓存器。
本实施例通过智能缓存模块将业务关系以树状结构的形式存储,并根据网络实时更新,使在进行告警故障分析时能够直接取用,而无需对网络拓扑数据等进行分析,且利用智能缓存模块,能够以更小的内存占用留存更多网络信息,使得系统在发生告警风暴时,仍然可以以较少的内存运行,保障了系统的稳定性。且通过找到物理故障告警,并加以剔除,使在后续的告警分析中,减少了分析数据量,提高了告警故障分析的效率。
实施例3:
如图18所示,是本发明实施例的故障分析装置的架构示意图。本实施例的故障分析装置包括一个或多个处理器21以及存储器22。其中,图18中以一个处理器21为例。
处理器21和存储器22可以通过总线或者其他方式连接,图18中以通过总线连接为例。
存储器22作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序和非易失性计算机可执行程序,如实施例1中的故障分析方法。处理器21通过运行存储在存储器22中的非易失性软件程序和指令,从而执行故障分析方法。
存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器22可选包括相对于处理器21远程设置的存储器,这些远程存储器可以通过网络连接至处理器21。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述程序指令/模块存储在所述存储器22中,当被所述一个或者多个处理器21执行时,执行上述实施例1中的故障分析方法,例如,执行以上描述的图1、图5和图9和图14所示的各个步骤。
值得说明的是,上述装置和系统内的模块、单元之间的信息交互、执行过程等内容,由于与本发明的处理方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
本领域普通技术人员可以理解实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁盘或光盘等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种故障分析方法,其特征在于,包括:
根据网络中的全量告警数据,获取网络中的所有告警,并找到告警的关联业务;
根据告警根衍规则,对网络中的所有告警进行匹配分析,找到所有告警中的物理故障告警,并得到物理故障告警之间的告警根衍关系;
根据业务之间的关系和配置故障告警的关联业务,生成配置故障告警之间的关联关系;将存在关联关系的配置故障告警与告警根衍规则进行匹配,得到配置故障告警之间的告警根衍关系;其中,所述配置故障告警是由网络中的所有告警剔除物理故障告警得到的;
根据故障分析规则,对物理故障告警之间的告警根衍关系和配置故障告警之间的告警根衍关系进行分析,定位到具体故障。
2.根据权利要求1所述的故障分析方法,其特征在于,所述根据业务之间的关系和配置故障告警的关联业务,生成配置故障告警之间的关联关系,具体包括:
根据业务基础信息,得到业务的层级关系;根据业务关联信息,得到业务之间的关联关系;
结合业务之间的关联关系和业务的层级关系,生成业务关联结构;
根据配置故障告警的关联业务和所述业务关联结构,生成配置故障告警之间的关联关系。
3.根据权利要求2所述的故障分析方法,其特征在于,所述结合业务之间的关联关系和业务的层级关系,生成业务关联结构,具体包括:
根据业务的层级关系,从网络的所有业务中,以层级最低的业务作为根节点,构建树状的业务关联结构;
根据业务之间的关联关系,找到以第一节点的业务作为服务层时,所对应的客户层业务,以所述客户层业务作为所述第一节点的子节点,在所述业务关联结构中生成对应的分支;其中,以所述业务关联结构中的每一个节点作为第一节点,生成对应的分支,直至所述业务关联结构中不再生成新的分支。
4.根据权利要求3所述的故障分析方法,其特征在于,所述根据配置故障告警的关联业务和所述业务关联结构,生成配置故障告警之间的关联关系,具体包括:
根据配置故障告警的关联业务,向所述业务关联结构的节点中填充所述节点的业务所对应的配置故障告警;
对填充后的业务关联结构中,未填充配置故障告警的节点及分支进行裁剪,得到配置故障告警之间的关联关系。
5.根据权利要求4所述的故障分析方法,其特征在于,所述对填充后的业务关联结构中,未填充配置故障告警的节点及分支进行裁剪,具体包括:
当所述业务关联结构中的节点存在对应的配置故障告警时,保留所述节点所在的路径分支;
当所述业务关联结构中的节点不存在对应的配置故障告警时,若所述节点的父节点存在告警,且所述节点的至少一个子节点存在告警,则保留所述节点所在的路径分支;否则,裁剪所述节点所在的路径分支。
6.根据权利要求1所述的故障分析方法,其特征在于,所述并找到告警的关联业务,具体包括:
在告警数据中的告警字段中携带告警的上报位置,并在告警数据中携带告警的关联业务信息;
在获取网络中的所有告警时,根据告警字段,获取告警的关联业务;
若在所述告警字段中未获取到告警的关联业务信息,则根据所述告警的上报位置,查询所述上报位置的关联业务,所述上报位置的关联业务即为告警的关联业务。
7.根据权利要求1所述的故障分析方法,其特征在于,根据故障分析规则,对物理故障告警之间的告警根衍关系和配置故障告警之间的告警根衍关系进行分析,定位到具体故障,具体包括:
根据告警根衍关系,得到根源告警;
根据故障分析规则匹配所述根源告警,定位得到具体故障。
8.根据权利要求1所述的故障分析方法,其特征在于,所述根据网络中的全量告警数据,获取网络中的所有告警,还包括:
在告警数据中携带告警闪断标识和告警重复次数信息;
在获取网络中的所有告警时,根据所述告警闪断标识过滤闪断告警,根据所述告警重复次数信息过滤重复上报的告警。
9.根据权利要求1-8任一所述的故障分析方法,其特征在于,所述告警根衍规则具体包括根源告警层次、根源告警名、衍生告警层次和衍生告警名。
10.一种故障分析装置,其特征在于,包括解析模块、关系分析模块和故障分析模块;
所述解析模块用于根据网络中的全量告警数据,获取网络中的所有告警,并找到告警的关联业务;
所述关系分析模块用于根据告警根衍规则,对网络中的所有告警进行匹配分析,找到所有告警中的物理故障告警,并得到物理故障告警之间的告警根衍关系;根据业务之间的关系和配置故障告警的关联业务,生成配置故障告警之间的关联关系;将存在关联关系的配置故障告警与告警根衍规则进行匹配,得到配置故障告警之间的告警根衍关系;其中,所述配置故障告警是由网络中的所有告警剔除物理故障告警得到的;
所述故障分析模块用于根据故障分析规则,对物理故障告警之间的告警根衍关系和配置故障告警之间的告警根衍关系进行分析,定位到具体故障。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211039483.7A CN115396287B (zh) | 2022-08-29 | 2022-08-29 | 一种故障分析方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211039483.7A CN115396287B (zh) | 2022-08-29 | 2022-08-29 | 一种故障分析方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115396287A true CN115396287A (zh) | 2022-11-25 |
CN115396287B CN115396287B (zh) | 2023-05-12 |
Family
ID=84121823
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211039483.7A Active CN115396287B (zh) | 2022-08-29 | 2022-08-29 | 一种故障分析方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115396287B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116821798A (zh) * | 2023-08-23 | 2023-09-29 | 北京集度科技有限公司 | 一种故障预警的服务器、方法及计算机程序产品 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1992636A (zh) * | 2005-12-29 | 2007-07-04 | 华为技术有限公司 | 一种处理告警信息的系统及方法 |
CN101707537A (zh) * | 2009-11-18 | 2010-05-12 | 华为技术有限公司 | 故障链路定位方法、告警根因分析方法及设备、系统 |
CN103378980A (zh) * | 2012-04-16 | 2013-10-30 | 中兴通讯股份有限公司 | 一种层网络告警与业务相关性分析方法和装置 |
WO2016090929A1 (zh) * | 2014-12-10 | 2016-06-16 | 中兴通讯股份有限公司 | 软件系统故障诊断方法、服务器及系统 |
WO2016119436A1 (zh) * | 2015-01-27 | 2016-08-04 | 中兴通讯股份有限公司 | 告警处理方法、装置及控制器 |
WO2016188175A1 (zh) * | 2015-10-14 | 2016-12-01 | 中兴通讯股份有限公司 | 一种硬件故障分析系统和方法 |
CN106209431A (zh) * | 2016-06-29 | 2016-12-07 | 瑞斯康达科技发展股份有限公司 | 一种告警关联方法及网管系统 |
CN107276818A (zh) * | 2017-07-04 | 2017-10-20 | 上海欣诺通信技术有限公司 | 一种应用于光传输设备的增强型告警抑制方法 |
CN108156019A (zh) * | 2017-11-29 | 2018-06-12 | 全球能源互联网研究院有限公司 | 一种基于sdn的网络衍生告警过滤系统及方法 |
CN109787816A (zh) * | 2018-12-28 | 2019-05-21 | 北京奇安信科技有限公司 | 业务故障定位方法、装置、设备及介质 |
CN111010297A (zh) * | 2019-12-04 | 2020-04-14 | 国网山东省电力公司信息通信公司 | 电力通信网支持跨专业故障的智能分析方法及系统 |
WO2020242275A1 (en) * | 2019-05-30 | 2020-12-03 | Samsung Electronics Co., Ltd. | Root cause analysis and automation using machine learning |
US20210099336A1 (en) * | 2018-06-15 | 2021-04-01 | Huawei Technologies Co., Ltd. | Fault root cause analysis method and apparatus |
-
2022
- 2022-08-29 CN CN202211039483.7A patent/CN115396287B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1992636A (zh) * | 2005-12-29 | 2007-07-04 | 华为技术有限公司 | 一种处理告警信息的系统及方法 |
CN101707537A (zh) * | 2009-11-18 | 2010-05-12 | 华为技术有限公司 | 故障链路定位方法、告警根因分析方法及设备、系统 |
WO2011060651A1 (zh) * | 2009-11-18 | 2011-05-26 | 华为技术有限公司 | 故障链路定位方法、告警根因分析方法及设备、系统 |
CN103378980A (zh) * | 2012-04-16 | 2013-10-30 | 中兴通讯股份有限公司 | 一种层网络告警与业务相关性分析方法和装置 |
WO2016090929A1 (zh) * | 2014-12-10 | 2016-06-16 | 中兴通讯股份有限公司 | 软件系统故障诊断方法、服务器及系统 |
WO2016119436A1 (zh) * | 2015-01-27 | 2016-08-04 | 中兴通讯股份有限公司 | 告警处理方法、装置及控制器 |
WO2016188175A1 (zh) * | 2015-10-14 | 2016-12-01 | 中兴通讯股份有限公司 | 一种硬件故障分析系统和方法 |
CN106209431A (zh) * | 2016-06-29 | 2016-12-07 | 瑞斯康达科技发展股份有限公司 | 一种告警关联方法及网管系统 |
CN107276818A (zh) * | 2017-07-04 | 2017-10-20 | 上海欣诺通信技术有限公司 | 一种应用于光传输设备的增强型告警抑制方法 |
CN108156019A (zh) * | 2017-11-29 | 2018-06-12 | 全球能源互联网研究院有限公司 | 一种基于sdn的网络衍生告警过滤系统及方法 |
US20210099336A1 (en) * | 2018-06-15 | 2021-04-01 | Huawei Technologies Co., Ltd. | Fault root cause analysis method and apparatus |
CN109787816A (zh) * | 2018-12-28 | 2019-05-21 | 北京奇安信科技有限公司 | 业务故障定位方法、装置、设备及介质 |
WO2020242275A1 (en) * | 2019-05-30 | 2020-12-03 | Samsung Electronics Co., Ltd. | Root cause analysis and automation using machine learning |
CN111010297A (zh) * | 2019-12-04 | 2020-04-14 | 国网山东省电力公司信息通信公司 | 电力通信网支持跨专业故障的智能分析方法及系统 |
Non-Patent Citations (1)
Title |
---|
李峰;: "光传输网告警相关性分析", 江西通信科技 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116821798A (zh) * | 2023-08-23 | 2023-09-29 | 北京集度科技有限公司 | 一种故障预警的服务器、方法及计算机程序产品 |
Also Published As
Publication number | Publication date |
---|---|
CN115396287B (zh) | 2023-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107294764A (zh) | 智能监管方法和智能监管系统 | |
CN110855473A (zh) | 一种监控方法、装置、服务器及存储介质 | |
CN103414596B (zh) | 基于简单管理网络协议识别所有厂商Trap及处理的方法 | |
CN109120461B (zh) | 一种业务性能端到端监控方法、系统及装置 | |
CN110166290A (zh) | 基于日志文件的告警方法及装置 | |
CN105095048A (zh) | 一种基于业务规则的监控系统告警关联处理方法 | |
CN108737182A (zh) | 系统异常的处理方法及系统 | |
CN110046073A (zh) | 一种日志采集方法及装置、设备、存储介质 | |
CN115858796A (zh) | 一种故障知识图谱构建方法及装置 | |
CN109218080A (zh) | 一种自动绘制网络拓扑架构的方法、监控系统及终端设备 | |
CN111382146A (zh) | 数据存储控制方法、装置、设备以及存储介质 | |
CN113542039A (zh) | 一种通过ai算法定位5g网络虚拟化跨层问题的方法 | |
CN113259176B (zh) | 一种告警事件分析方法和装置 | |
CN111258798A (zh) | 监控数据的故障定位方法、装置、计算机设备及存储介质 | |
CN113505048A (zh) | 基于应用系统画像的统一监控平台及实现方法 | |
CN114090555A (zh) | 一种ais数据处理方法及系统 | |
CN112769605A (zh) | 一种异构多云的运维管理方法及混合云平台 | |
CN114338746A (zh) | 一种用于物联网设备数据收集的分析预警方法及系统 | |
CN113240139B (zh) | 告警因果评估方法、故障根因定位方法及电子设备 | |
CN114328107A (zh) | 光磁融合存储服务器集群的监控方法、系统及电子设备 | |
CN109818808A (zh) | 故障诊断方法、装置和电子设备 | |
CN117376092A (zh) | 故障根因定位方法、装置、设备及存储介质 | |
CN117459365A (zh) | 故障原因确定方法、装置、设备及存储介质 | |
CN115396287B (zh) | 一种故障分析方法和装置 | |
GB2416091A (en) | High Capacity Fault Correlation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |