一种基于告警数据实现告警关联和网络故障诊断的方法
技术领域
本发明涉及移动通信技术领域,具体地说是一种基于告警数据实现告警关联和网络故障诊断的方法。
背景技术
告警关联规则是网络故障智能预处理的重要支撑手段,但关联规则的生产多依赖于专家经验。人工梳理一条告警关联规则,需对多日以来甚至整月相同类型告警进行分析,工作量巨大。且只能通过对历史告警进行人工分析计算的方式进行告警收敛效果的评估,不易实现。
现网的告警关联规则存在进一步改进和优化的余地,达到降低最终派出的故障工单数量、提高派单有效性的目的。
前期集中故障告警处理流程,特别是针对传输专业的处理流程,仍延续之前专业网管的建设经验进行筛选派单,与集团的集中故障流程要求存在偏差,派单规则调整后,如不适时调整对应的告警关联规则,会造成故障工单数量不降反增。进一步增加了优化需求。
基于以上现状,本发明提出一种基于告警数据实现告警关联和网络故障诊断的方法。有效提升告警关联效果,实现准确的网络故障争端,开发自动化挖掘及效果评估工具。结合现网规则及其他省份优秀规则,进行综合的挖掘分析工作,对于已存在规则,比照他省规则及规则挖掘结果进行优化,并使用真实告警数据进行落地效果分析,择优选择。对于本地尚未配置的规则,同样放入评估算法中进行持续分析,择优使用。
发明内容
本发明的技术任务是针对以上不足之处,提供一种基于告警数据实现告警关联和网络故障诊断的方法。
一种基于告警数据实现告警关联和网络故障诊断的方法,其实现过程为:
首先进行当前网络故障的告警收集;
然后收集网络中存在的所有关联规则模板并保存,该关联规则模板是指针对不同网络故障的派单规则;
进行规则挖掘,建立标题库和关联库,其中标题库用于存储工单数量总占比80%以上的top告警标题;并将标题之间存在关联的纳入关联库;
最后输出规则模板及落地效果分析,所述落地效果分析是指当规则分发落地后,分析落地效果,统计当月和累计优化规则下的告警关联效果及工单压缩效果。
所述告警收集是指获取每日的告警数据,具体是指通过复用现有数据接口,进行告警数据的每日全量接入。
在进行规则挖掘的步骤,是指使用本地的派单规则对集中故障系统的告警进行筛选,针对需要派单的告警数据进行先分析挖掘;
将工单数量总占比80%以上的top告警标题筛选出来,录入标题库,并对标题之间潜在关联关系进行挖掘;
标题之间存在高频关联的,该高频关联是指在全部关联信息数量中,20%以上的信息是相互关联的,该关联包括空间关联性、时间关联性,然后将关联的标题纳入关联库;
将关联库中的关联关系按日进行关联数量统计,筛选出大量关联主次告警的关联关系,即被关联次要告警数量/次要告警总数量大于0.5时,录入规则库。
所述落地效果具体包括:统计工单数量,根据统计结果分析工单关联压缩率、告警派单比和工单压缩效果,其中工单关联压缩率指已关联、压缩的工单告警数占已派单告警占比;告警派单比指在固定时间内告警的故障工单数比例,工单压缩效果指优化后的告警关联规则对工单数量压缩的效果。
所述工单关联压缩率的计算公式为1-(已派发的工单量/已派单涉及的告警量)*100%,其中已派单涉及的告警量包括关联、追加、压缩、合并规则涉及的告警,其中追加规则是指基于派单规则产生工单后,当存在多条工单其工单标题、工单内容一致时,后派发的工单追加到先派发的工单上,压缩合并为一条工单;压缩、合并规则是指同设备同时间产生的同类告警之间存在关联性,则这些告警可以折叠为一条,以最先发生的那条告警为主;该指标反映了工单关联告警的效果,百分比越高代表效果越好。
所述告警派单比的计算公式为:告警总量/故障工单总量。
所述告警分为1-4级,告警派单比则是指在固定时间内1-4级告警的故障工单数比例,计算公式具体为:1-4级告警总量/故障工单总量,通过该指标的考核,促进告警预处理,减少故障派单。
所述工单压缩效果的计算公式为:优化后规则额外压缩工单数量/(优化后规则额外压缩工单数量+实际系统派发工单数量)*100%,指标越高说明压缩效果越好,告警关联规则的关联效果会影响该指标。
本发明的一种基于告警数据实现告警关联和网络故障诊断的方法和现有技术相比,具有以下有益效果:
本发明的一种基于告警数据实现告警关联和网络故障诊断的方法,一是规则库引入,引入各省份规则,针对本地告警情况进行落地评估,择优使用;二是存量规则优化,评估现有规则落地效果,改进或淘汰现有规则,提升故障系统处理效率;三是规则挖掘,基于现有告警数据,基于时间、空间关联性就行挖掘;四是,基于本地真实告警分析,确保规则有效性,实用性强,适用范围广泛,具有很好的推广应用价值。
附图说明
附图1是本发明实现示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步说明。
如附图1所示,一种基于告警数据实现告警关联和网络故障诊断的方法,其实现过程为,
首先进行当前网络故障的告警收集;
然后收集网络中存在的所有关联规则模板并保存,该关联规则模板是指针对不同网络故障的派单规则;
进行规则挖掘,建立标题库和关联库,其中标题库用于存储工单数量总占比80%以上的top告警标题;并将标题之间存在关联的纳入关联库;
最后输出规则模板及落地效果分析,规则交付厂商落地后,结合集团考核指标,确认落地效果KPI指标,并研发统计程序,做到每日自动提取。
所述落地效果分析是指当规则分发落地后,分析落地效果,统计当月和累计优化规则下的告警关联效果及工单压缩效果。
所述告警收集是指获取每日的告警数据,具体是指通过复用现有数据接口,进行告警数据的每日全量接入。
在进行规则挖掘的步骤,是指使用本地的派单规则对集中故障系统的告警进行筛选,针对需要派单的告警数据进行先分析挖掘;
将工单数量总占比80%以上的top告警标题筛选出来,录入标题库,并对标题之间潜在关联关系进行挖掘;
标题之间存在高频关联的,该高频关联是指在全部关联信息数量中,20%以上的信息是相互关联的,该关联包括空间关联性、时间关联性,然后将关联的标题纳入关联库;
将关联库中的关联关系按日进行关联数量统计,筛选出大量关联主次告警的关联关系,即被关联次要告警数量/次要告警总数量大于0.5时,录入规则库。
所述落地效果具体包括:统计工单数量,根据统计结果分析工单关联压缩率、告警派单比和工单压缩效果,其中工单关联压缩率指已关联、压缩的工单告警数占已派单告警占比;告警派单比指在固定时间内告警的故障工单数比例,工单压缩效果指优化后的告警关联规则对工单数量压缩的效果。
所述工单关联压缩率的计算公式为1-(已派发的工单量/已派单涉及的告警量)*100%,其中已派单涉及的告警量包括关联、追加、压缩、合并规则涉及的告警,其中追加规则是指基于派单规则产生工单后,当存在多条工单其工单标题、工单内容一致时,后派发的工单追加到先派发的工单上,压缩合并为一条工单;压缩、合并规则是指同设备同时间产生的同类告警之间存在关联性,则这些告警可以折叠为一条,以最先发生的那条告警为主;该指标反映了工单关联告警的效果,百分比越高代表效果越好。
所述告警派单比的计算公式为:告警总量/故障工单总量。
所述告警分为1-4级,告警派单比则是指在固定时间内1-4级告警的故障工单数比例,计算公式具体为:1-4级告警总量/故障工单总量,通过该指标的考核,促进告警预处理,减少故障派单。通过该指标的考核,促进告警预处理,减少故障派单。比值越高越好,告警关联规则的关联效果会影响该指标。
所述工单压缩效果的计算公式为:优化后规则额外压缩工单数量/(优化后规则额外压缩工单数量+实际系统派发工单数量)*100%,指标越高说明压缩效果越好,告警关联规则的关联效果会影响该指标。
在上述步骤中,涉及到的名词解释如下:
告警:移动通信运营商网络资源中各类设备,如基站、天线、电源等设备或者设施产生的各类故障消息,如基站退服、电源电压低于门限值等。
告警级别:指告警的重要程度,一般分为1到4级,重要程序依次降低,1级表示最重要。
告警关联:指告警之间存在的联系或者产生联系的动作,联系是指告警在时间及空间上的关系。如同一设备、设施或同一机房中的设备、设施产生的告警,其在空间上有联系;同一时间或者时间段内,设备、设施,产生的相同或不同告警,其在空间上存在联系。当多个告警同时满足时间、空间上的联系,则认为这些告警存在告警关联。
主要告警:在进行告警关联动作时,约定当作关联对象的告警为主要告警。如,A和B有关联,约定A为主要告警。
次要告警:在进行告警关联动作时,约定当作被关联对象的告警为次要告警。如A和B有关联,约定B为次要告警。
告警压缩、合并:告警关联的特殊情况,指同设备同时间产生的同类告警之间存在关联性,则这些告警可以折叠为一条,以最先发生的那条告警为主。
告警关联规则:即阐述告警关联的描述,明确何种告警,当满足什么空间关联性(同设备还是同机房中的设备或者其他空间关联性质)和什么时间关联性(同一时间发生还是5分钟内先后发生或者其他时间关联性质)时,即认为相关告警存在告警关联。
工单:指为了排除设备故障,消除设备告警,而通过系统派发的工作单据。一般工单会包含设备故障内容(即告警信息)、标题、工单责任人、处理时限等等。
派单规则:产生工单、派遣人员处理相关工单的依据。规定哪些告警需要产生工单,产生工单的条件(告警数量达到门限、告警发生频率达到门限、告警持续时间达到门限等等)是什么,产生工单的时限要求(派发后多久需要排除故障)等等。
工单追加:基于派单规则产生工单后,如存在多条工单其工单标题、工单内容一致,则后派发的工单可以追加到先派发的工单上,压缩合并为一条工单。
本发明通过对现有集中告警系统中采集的告警信息进行关联性分析,从而挖掘新的关联规则及优化原有关联规则;提升系统告警关联率及处理效率。
效果评估和分析,促进告警关联率持续提升。针对规则落地前后数据进行分析,评估成果。
建立跟踪和分析机制,确保规则持续有效性。
通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。