CN106789347B - 一种基于告警数据实现告警关联和网络故障诊断的方法 - Google Patents

一种基于告警数据实现告警关联和网络故障诊断的方法 Download PDF

Info

Publication number
CN106789347B
CN106789347B CN201710047121.5A CN201710047121A CN106789347B CN 106789347 B CN106789347 B CN 106789347B CN 201710047121 A CN201710047121 A CN 201710047121A CN 106789347 B CN106789347 B CN 106789347B
Authority
CN
China
Prior art keywords
alarm
association
rule
work order
correlation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710047121.5A
Other languages
English (en)
Other versions
CN106789347A (zh
Inventor
袁鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Communication Information System Co Ltd
Original Assignee
Inspur Tianyuan Communication Information System Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Tianyuan Communication Information System Co Ltd filed Critical Inspur Tianyuan Communication Information System Co Ltd
Priority to CN201710047121.5A priority Critical patent/CN106789347B/zh
Publication of CN106789347A publication Critical patent/CN106789347A/zh
Application granted granted Critical
Publication of CN106789347B publication Critical patent/CN106789347B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis

Abstract

本发明公开了一种基于告警数据实现告警关联和网络故障诊断的方法,其实现过程为,首先进行当前网络故障的告警收集;然后收集网络中存在的所有关联规则模板并保存,该关联规则模板是指针对不同网络故障的派单规则;进行规则挖掘,建立标题库和关联库;并将标题之间存在关联的纳入关联库;最后输出规则模板及落地效果分析,所述落地效果分析是指当规则分发落地后,分析落地效果,统计当月和累计优化规则下的告警关联效果及工单压缩效果。本发明的一种基于告警数据实现告警关联和网络故障诊断的方法与现有技术相比,提升系统告警关联率及处理效率,更加有效的支撑告警故障诊断,实用性强,适用范围广泛,具有很好的推广应用价值。

Description

一种基于告警数据实现告警关联和网络故障诊断的方法
技术领域
本发明涉及移动通信技术领域,具体地说是一种基于告警数据实现告警关联和网络故障诊断的方法。
背景技术
告警关联规则是网络故障智能预处理的重要支撑手段,但关联规则的生产多依赖于专家经验。人工梳理一条告警关联规则,需对多日以来甚至整月相同类型告警进行分析,工作量巨大。且只能通过对历史告警进行人工分析计算的方式进行告警收敛效果的评估,不易实现。
现网的告警关联规则存在进一步改进和优化的余地,达到降低最终派出的故障工单数量、提高派单有效性的目的。
前期集中故障告警处理流程,特别是针对传输专业的处理流程,仍延续之前专业网管的建设经验进行筛选派单,与集团的集中故障流程要求存在偏差,派单规则调整后,如不适时调整对应的告警关联规则,会造成故障工单数量不降反增。进一步增加了优化需求。
基于以上现状,本发明提出一种基于告警数据实现告警关联和网络故障诊断的方法。有效提升告警关联效果,实现准确的网络故障争端,开发自动化挖掘及效果评估工具。结合现网规则及其他省份优秀规则,进行综合的挖掘分析工作,对于已存在规则,比照他省规则及规则挖掘结果进行优化,并使用真实告警数据进行落地效果分析,择优选择。对于本地尚未配置的规则,同样放入评估算法中进行持续分析,择优使用。
发明内容
本发明的技术任务是针对以上不足之处,提供一种基于告警数据实现告警关联和网络故障诊断的方法。
一种基于告警数据实现告警关联和网络故障诊断的方法,其实现过程为:
首先进行当前网络故障的告警收集;
然后收集网络中存在的所有关联规则模板并保存,该关联规则模板是指针对不同网络故障的派单规则;
进行规则挖掘,建立标题库和关联库,其中标题库用于存储工单数量总占比80%以上的top告警标题;并将标题之间存在关联的纳入关联库;
最后输出规则模板及落地效果分析,所述落地效果分析是指当规则分发落地后,分析落地效果,统计当月和累计优化规则下的告警关联效果及工单压缩效果。
所述告警收集是指获取每日的告警数据,具体是指通过复用现有数据接口,进行告警数据的每日全量接入。
在进行规则挖掘的步骤,是指使用本地的派单规则对集中故障系统的告警进行筛选,针对需要派单的告警数据进行先分析挖掘;
将工单数量总占比80%以上的top告警标题筛选出来,录入标题库,并对标题之间潜在关联关系进行挖掘;
标题之间存在高频关联的,该高频关联是指在全部关联信息数量中,20%以上的信息是相互关联的,该关联包括空间关联性、时间关联性,然后将关联的标题纳入关联库;
将关联库中的关联关系按日进行关联数量统计,筛选出大量关联主次告警的关联关系,即被关联次要告警数量/次要告警总数量大于0.5时,录入规则库。
所述落地效果具体包括:统计工单数量,根据统计结果分析工单关联压缩率、告警派单比和工单压缩效果,其中工单关联压缩率指已关联、压缩的工单告警数占已派单告警占比;告警派单比指在固定时间内告警的故障工单数比例,工单压缩效果指优化后的告警关联规则对工单数量压缩的效果。
所述工单关联压缩率的计算公式为1-(已派发的工单量/已派单涉及的告警量)*100%,其中已派单涉及的告警量包括关联、追加、压缩、合并规则涉及的告警,其中追加规则是指基于派单规则产生工单后,当存在多条工单其工单标题、工单内容一致时,后派发的工单追加到先派发的工单上,压缩合并为一条工单;压缩、合并规则是指同设备同时间产生的同类告警之间存在关联性,则这些告警可以折叠为一条,以最先发生的那条告警为主;该指标反映了工单关联告警的效果,百分比越高代表效果越好。
所述告警派单比的计算公式为:告警总量/故障工单总量。
所述告警分为1-4级,告警派单比则是指在固定时间内1-4级告警的故障工单数比例,计算公式具体为:1-4级告警总量/故障工单总量,通过该指标的考核,促进告警预处理,减少故障派单。
所述工单压缩效果的计算公式为:优化后规则额外压缩工单数量/(优化后规则额外压缩工单数量+实际系统派发工单数量)*100%,指标越高说明压缩效果越好,告警关联规则的关联效果会影响该指标。
本发明的一种基于告警数据实现告警关联和网络故障诊断的方法和现有技术相比,具有以下有益效果:
本发明的一种基于告警数据实现告警关联和网络故障诊断的方法,一是规则库引入,引入各省份规则,针对本地告警情况进行落地评估,择优使用;二是存量规则优化,评估现有规则落地效果,改进或淘汰现有规则,提升故障系统处理效率;三是规则挖掘,基于现有告警数据,基于时间、空间关联性就行挖掘;四是,基于本地真实告警分析,确保规则有效性,实用性强,适用范围广泛,具有很好的推广应用价值。
附图说明
附图1是本发明实现示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步说明。
如附图1所示,一种基于告警数据实现告警关联和网络故障诊断的方法,其实现过程为,
首先进行当前网络故障的告警收集;
然后收集网络中存在的所有关联规则模板并保存,该关联规则模板是指针对不同网络故障的派单规则;
进行规则挖掘,建立标题库和关联库,其中标题库用于存储工单数量总占比80%以上的top告警标题;并将标题之间存在关联的纳入关联库;
最后输出规则模板及落地效果分析,规则交付厂商落地后,结合集团考核指标,确认落地效果KPI指标,并研发统计程序,做到每日自动提取。
所述落地效果分析是指当规则分发落地后,分析落地效果,统计当月和累计优化规则下的告警关联效果及工单压缩效果。
所述告警收集是指获取每日的告警数据,具体是指通过复用现有数据接口,进行告警数据的每日全量接入。
在进行规则挖掘的步骤,是指使用本地的派单规则对集中故障系统的告警进行筛选,针对需要派单的告警数据进行先分析挖掘;
将工单数量总占比80%以上的top告警标题筛选出来,录入标题库,并对标题之间潜在关联关系进行挖掘;
标题之间存在高频关联的,该高频关联是指在全部关联信息数量中,20%以上的信息是相互关联的,该关联包括空间关联性、时间关联性,然后将关联的标题纳入关联库;
将关联库中的关联关系按日进行关联数量统计,筛选出大量关联主次告警的关联关系,即被关联次要告警数量/次要告警总数量大于0.5时,录入规则库。
所述落地效果具体包括:统计工单数量,根据统计结果分析工单关联压缩率、告警派单比和工单压缩效果,其中工单关联压缩率指已关联、压缩的工单告警数占已派单告警占比;告警派单比指在固定时间内告警的故障工单数比例,工单压缩效果指优化后的告警关联规则对工单数量压缩的效果。
所述工单关联压缩率的计算公式为1-(已派发的工单量/已派单涉及的告警量)*100%,其中已派单涉及的告警量包括关联、追加、压缩、合并规则涉及的告警,其中追加规则是指基于派单规则产生工单后,当存在多条工单其工单标题、工单内容一致时,后派发的工单追加到先派发的工单上,压缩合并为一条工单;压缩、合并规则是指同设备同时间产生的同类告警之间存在关联性,则这些告警可以折叠为一条,以最先发生的那条告警为主;该指标反映了工单关联告警的效果,百分比越高代表效果越好。
所述告警派单比的计算公式为:告警总量/故障工单总量。
所述告警分为1-4级,告警派单比则是指在固定时间内1-4级告警的故障工单数比例,计算公式具体为:1-4级告警总量/故障工单总量,通过该指标的考核,促进告警预处理,减少故障派单。通过该指标的考核,促进告警预处理,减少故障派单。比值越高越好,告警关联规则的关联效果会影响该指标。
所述工单压缩效果的计算公式为:优化后规则额外压缩工单数量/(优化后规则额外压缩工单数量+实际系统派发工单数量)*100%,指标越高说明压缩效果越好,告警关联规则的关联效果会影响该指标。
在上述步骤中,涉及到的名词解释如下:
告警:移动通信运营商网络资源中各类设备,如基站、天线、电源等设备或者设施产生的各类故障消息,如基站退服、电源电压低于门限值等。
告警级别:指告警的重要程度,一般分为1到4级,重要程序依次降低,1级表示最重要。
告警关联:指告警之间存在的联系或者产生联系的动作,联系是指告警在时间及空间上的关系。如同一设备、设施或同一机房中的设备、设施产生的告警,其在空间上有联系;同一时间或者时间段内,设备、设施,产生的相同或不同告警,其在空间上存在联系。当多个告警同时满足时间、空间上的联系,则认为这些告警存在告警关联。
主要告警:在进行告警关联动作时,约定当作关联对象的告警为主要告警。如,A和B有关联,约定A为主要告警。
次要告警:在进行告警关联动作时,约定当作被关联对象的告警为次要告警。如A和B有关联,约定B为次要告警。
告警压缩、合并:告警关联的特殊情况,指同设备同时间产生的同类告警之间存在关联性,则这些告警可以折叠为一条,以最先发生的那条告警为主。
告警关联规则:即阐述告警关联的描述,明确何种告警,当满足什么空间关联性(同设备还是同机房中的设备或者其他空间关联性质)和什么时间关联性(同一时间发生还是5分钟内先后发生或者其他时间关联性质)时,即认为相关告警存在告警关联。
工单:指为了排除设备故障,消除设备告警,而通过系统派发的工作单据。一般工单会包含设备故障内容(即告警信息)、标题、工单责任人、处理时限等等。
派单规则:产生工单、派遣人员处理相关工单的依据。规定哪些告警需要产生工单,产生工单的条件(告警数量达到门限、告警发生频率达到门限、告警持续时间达到门限等等)是什么,产生工单的时限要求(派发后多久需要排除故障)等等。
工单追加:基于派单规则产生工单后,如存在多条工单其工单标题、工单内容一致,则后派发的工单可以追加到先派发的工单上,压缩合并为一条工单。
本发明通过对现有集中告警系统中采集的告警信息进行关联性分析,从而挖掘新的关联规则及优化原有关联规则;提升系统告警关联率及处理效率。
效果评估和分析,促进告警关联率持续提升。针对规则落地前后数据进行分析,评估成果。
建立跟踪和分析机制,确保规则持续有效性。
通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。

Claims (7)

1.一种基于告警数据实现告警关联和网络故障诊断的方法,其特征在于,其实现过程为,
1)首先进行当前网络故障的告警收集;
2)然后收集网络中存在的所有关联规则模板并保存,该关联规则模板是指针对不同网络故障的派单规则;
3)进行规则挖掘,建立标题库和关联库,其中标题库用于存储工单数量总占比80%以上的top告警标题;并将标题之间存在关联的纳入关联库;
具体包括:
使用本地的派单规则对集中故障系统的告警进行筛选,针对需要派单的告警数据进行先分析挖掘;
将工单数量总占比80%以上的top告警标题筛选出来,录入标题库,并对标题之间潜在关联关系进行挖掘;
标题之间存在高频关联的,该高频关联是指在全部关联信息数量中,20%以上的信息是相互关联的,该关联包括空间关联性、时间关联性,然后将关联的标题纳入关联库;
将关联库中的关联关系按日进行关联数量统计,筛选出大量关联主次告警的关联关系,即被关联次要告警数量/次要告警总数量大于0.5时,录入规则库;
4)最后输出规则模板及落地效果分析,所述落地效果分析是指当规则分发落地后,分析落地效果,统计当月和累计优化规则下的告警关联效果及工单压缩效果。
2.根据权利要求1所述的一种基于告警数据实现告警关联和网络故障诊断的方法,其特征在于,所述告警收集是指获取每日的告警数据,具体是指通过复用现有数据接口,进行告警数据的每日全量接入。
3.根据权利要求1所述的一种基于告警数据实现告警关联和网络故障诊断的方法,其特征在于,所述落地效果具体包括:统计工单数量,根据统计结果分析工单关联压缩率、告警派单比和工单压缩效果,其中工单关联压缩率指已关联、压缩的工单告警数占已派单告警占比;告警派单比指在固定时间内告警的故障工单数比例,工单压缩效果指优化后的告警关联规则对工单数量压缩的效果。
4.根据权利要求3所述的一种基于告警数据实现告警关联和网络故障诊断的方法,其特征在于,所述工单关联压缩率的计算公式为1-(已派发的工单量/已派单涉及的告警量)*100%,其中已派单涉及的告警量包括关联、追加、压缩、合并规则涉及的告警,其中追加规则是指基于派单规则产生工单后,当存在多条工单其工单标题、工单内容一致时,后派发的工单追加到先派发的工单上,压缩合并为一条工单;压缩、合并规则是指同设备同时间产生的同类告警之间存在关联性,则这些告警可以折叠为一条,以最先发生的那条告警为主;该指标反映了工单关联告警的效果,百分比越高代表效果越好。
5.根据权利要求3所述的一种基于告警数据实现告警关联和网络故障诊断的方法,其特征在于,所述告警派单比的计算公式为:告警总量/故障工单总量。
6.根据权利要求5所述的一种基于告警数据实现告警关联和网络故障诊断的方法,其特征在于,所述告警分为1-4级,告警派单比则是指在固定时间内1-4级告警的故障工单数比例,计算公式具体为:1-4级告警总量/故障工单总量,通过该指标的考核,促进告警预处理,减少故障派单。
7.根据权利要求3所述的一种基于告警数据实现告警关联和网络故障诊断的方法,其特征在于,所述工单压缩效果的计算公式为:优化后规则额外压缩工单数量/(优化后规则额外压缩工单数量+实际系统派发工单数量)*100%,指标越高说明压缩效果越好,告警关联规则的关联效果会影响该指标。
CN201710047121.5A 2017-01-22 2017-01-22 一种基于告警数据实现告警关联和网络故障诊断的方法 Active CN106789347B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710047121.5A CN106789347B (zh) 2017-01-22 2017-01-22 一种基于告警数据实现告警关联和网络故障诊断的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710047121.5A CN106789347B (zh) 2017-01-22 2017-01-22 一种基于告警数据实现告警关联和网络故障诊断的方法

Publications (2)

Publication Number Publication Date
CN106789347A CN106789347A (zh) 2017-05-31
CN106789347B true CN106789347B (zh) 2019-12-13

Family

ID=58943873

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710047121.5A Active CN106789347B (zh) 2017-01-22 2017-01-22 一种基于告警数据实现告警关联和网络故障诊断的方法

Country Status (1)

Country Link
CN (1) CN106789347B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109993390B (zh) * 2017-12-31 2021-06-25 中国移动通信集团湖北有限公司 告警关联及派单优化方法、装置、设备及介质
CN108900353B (zh) * 2018-07-18 2021-08-13 平安科技(深圳)有限公司 故障告警方法及终端设备
CN110061867B (zh) * 2019-04-02 2022-01-07 武汉烽火技术服务有限公司 基于故障源告警强度的通信网告警分析方法及系统
CN111267908A (zh) * 2020-02-26 2020-06-12 深圳市中兴系统集成技术有限公司 一种应用于轨道交通的集中告警系统及告警处理方法
CN114500230B (zh) * 2022-01-14 2024-01-26 云南电网有限责任公司玉溪供电局 一种基于时间轴的光传输故障录播方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105681286A (zh) * 2015-12-31 2016-06-15 中电长城网际系统应用有限公司 关联分析方法和关联分析系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100589418C (zh) * 2007-12-10 2010-02-10 中兴通讯股份有限公司 告警相关性规则的生成方法及生成系统
CN101247269B (zh) * 2008-03-05 2010-09-01 中兴通讯股份有限公司 一种自动发现判定冗余告警的关联规则的方法
CN101360013B (zh) * 2008-09-25 2011-05-04 烽火通信科技股份有限公司 一种基于相关性分析的传输网通用快速故障定位方法
CN102111296A (zh) * 2011-01-10 2011-06-29 浪潮通信信息系统有限公司 基于最大频繁项集的通信告警关联规则挖掘方法
CN102098175B (zh) * 2011-01-26 2015-07-01 浪潮通信信息系统有限公司 一种移动互联网告警关联规则获取方法
CN104767630B (zh) * 2014-01-03 2018-12-07 中国移动通信集团浙江有限公司 一种基于告警关联的派单方法及装置
US20160125674A1 (en) * 2014-11-04 2016-05-05 SYNCRUDE CANADA LTD. in trust for the owners of the Syncrude Project, as such owners exist now and Method and system for managing a mobile equipment fleet
CN105187239A (zh) * 2015-08-17 2015-12-23 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于数据挖掘的通信告警分析系统及其处理方法
CN106250288A (zh) * 2016-07-29 2016-12-21 浪潮软件集团有限公司 一种基于数据挖掘的根告警分析识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105681286A (zh) * 2015-12-31 2016-06-15 中电长城网际系统应用有限公司 关联分析方法和关联分析系统

Also Published As

Publication number Publication date
CN106789347A (zh) 2017-05-31

Similar Documents

Publication Publication Date Title
CN106789347B (zh) 一种基于告警数据实现告警关联和网络故障诊断的方法
CN110782370B (zh) 一种电力调度数据网综合运维管理平台
CN106815709B (zh) 一种服务快速响应中心支撑系统及方法
CN104410163B (zh) 一种基于电能管理系统的安全生产与节能方法
CN105608519A (zh) 一种电网通信设备运行状态的预测算法
CN110598975B (zh) 一种配网线路典型接线诊断分析方法
CN104463712A (zh) 一种配网故障信息智能统计分析系统
CN202167018U (zh) 适用于电力系统的供电可靠性数据统计处理装置
CN104778414A (zh) 一种漏洞管理系统及方法
CN106600114A (zh) 一种采集运维系统多维度质量评价方法
CN105119237B (zh) 继电保护操作校核的方法
CN112348521A (zh) 基于业务审核的智能风险质检方法、系统和电子设备
CN105353753A (zh) 基于多源录波文件的保护动作行为智能分析方法
CN108898239A (zh) 一种基于数据分析的配电变压器选址方法
CN111509840A (zh) 一种基于电网安全运维的无线集群可视化系统及方法
CN111861186A (zh) 一种检测电网风险事件并获取停电设备的方法
CN105930255A (zh) 一种系统健康度预测方法及装置
CN111327477A (zh) 一种基于边缘计算的变电站站域控制保护方法和系统
CN104967532A (zh) Toc技术运维系统及应用方法
CN107742162B (zh) 一种基于配调监控信息的多维特征关联分析方法
CN102882279A (zh) 电网负荷的实时实测与在线分析方法
Tang et al. A Bayesian network approach for human reliability analysis of power system
CN110738427A (zh) 一种电力部门工作质量评分系统
CN114971588A (zh) 一种工单自动审核传递方法及相关装置
CN115409264A (zh) 基于馈线故障预测的配电网抢修驻点位置优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20191120

Address after: 250100 Ji'nan high tech Zone, Shandong, No. 1036 wave road

Applicant after: Tianyuan Communication Information System Co., Ltd.

Address before: 250100, Ji'nan province high tech Zone, Sun Village Branch Road, No. 2877, building, floor, building, on the first floor

Applicant before: Shandong Inspur Business System Co., Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 250100 S06 tower, 1036, Chao Lu Road, hi tech Zone, Ji'nan, Shandong.

Patentee after: INSPUR COMMUNICATION AND INFORMATION SYSTEM Co.,Ltd.

Address before: No. 1036, Shandong high tech Zone wave road, Ji'nan, Shandong

Patentee before: INSPUR TIANYUAN COMMUNICATION INFORMATION SYSTEM Co.,Ltd.

CP03 Change of name, title or address