CN112073208B - 一种告警分析方法、装置、芯片系统、存储介质 - Google Patents

一种告警分析方法、装置、芯片系统、存储介质 Download PDF

Info

Publication number
CN112073208B
CN112073208B CN201910442803.5A CN201910442803A CN112073208B CN 112073208 B CN112073208 B CN 112073208B CN 201910442803 A CN201910442803 A CN 201910442803A CN 112073208 B CN112073208 B CN 112073208B
Authority
CN
China
Prior art keywords
alarm
root
subsystem
association rule
alarms
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910442803.5A
Other languages
English (en)
Other versions
CN112073208A (zh
Inventor
王姗姗
具睿
危彦
郭银洲
龙瑞明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Huawei Technology Co Ltd
Original Assignee
Chengdu Huawei Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Huawei Technology Co Ltd filed Critical Chengdu Huawei Technology Co Ltd
Priority to CN201910442803.5A priority Critical patent/CN112073208B/zh
Priority to PCT/CN2020/091938 priority patent/WO2020238810A1/zh
Priority to EP20812553.4A priority patent/EP3965371A4/en
Publication of CN112073208A publication Critical patent/CN112073208A/zh
Priority to US17/534,632 priority patent/US11996974B2/en
Application granted granted Critical
Publication of CN112073208B publication Critical patent/CN112073208B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/0636Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis based on a decision tree analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明实施例公开了一种告警分析方法及相关设备,从第一告警集合中确定M个告警对,所述M个告警对中的每一个告警对包括具有相关性的第一告警和第二告警;根据关联规则生成所述M个告警对中以第一告警为告警对根源的N个告警对的第一特征集合,所述第一特征集合包括所述N个告警对中每一个第一告警所属的第一子系统为子系统根源且对应的第一告警对象为告警对象根源的第一概率、每一个第二告警所属的第二子系统为子系统根源且对应的第二告警对象为告警对象根源的第二概率;根据所述第一概率和所述第二概率,确定所述第一告警集合的根源信息。采用本申请,可以高效分析告警的相关性并准确定位根源告警。

Description

一种告警分析方法、装置、芯片系统、存储介质
技术领域
本申请涉及通信网络管理领域,尤其涉及一种告警分析方法及相关设备。
背景技术
伴随电信网络的规模日益庞大,其组网结构复杂,构成网络的硬件设备以及软件模块也多种多样。在网络的运行过程中,各类硬件设备和软件模块每天都产生海量告警。例如,信号劣化指示、输出信号丢失等告警以及因光缆阻断导致网元管理系统EMS网元脱管而产生告警等情况,一旦电信网络出现故障,要求快速准确判断故障所在位置、类型和故障原因,并快速修复故障。然而,由于告警之间存在相互触发关系,导致一条告警可能触发大量衍生告警,同时,众多衍生告警序列错综叠加以及失真数据或者噪声数据的存在,增加告警关联分析的难度和故障根源定位的复杂度。
目前,告警关联分析和故障根源定位以运用基于告警关联规则的故障智能分析方法为主,配合运维人员对告警数据的分析和处理。其中,故障智能分析方法利用特定领域知识包含在一组规则集中,通过推理机制对问题进行分析判断,从而实现对告警的关联分析,该方法对单一设备级的相关性具有一定实践效果。
然而,现有方案中的人工分析过程导致大量运维人员被占用,效率较低且易产生数据一致性问题,在智能分析过程,只能针对单一设备级的相关性,且告警数据处理量和故障自动定位准确度远远达不到电信运营的实际要求,对关联规则的挖掘不够充分。其中,告警关联规则主要来自于专业的故障处理专家,规则无法自主更新;关联规则库的维护成本较大,且由于关联规则往往隐含网络结构、设备功能等描述,导致规则的泛化性和普适性不足,难以灵活根据拓扑结构或者配置的变化而调整、维护。
因此,如何高效分析告警的相关性并准确定位根源告警,成为亟待解决的问题。
发明内容
本发明实施例所要解决的技术问题在于,提供一种告警分析方法及相关设备,实现了高效分析告警的相关性并准确定位根源告警。
第一方面,本发明实施例提供了一种告警分析方法,所述方法可包括:从第一告警集合中确定M个告警对,所述M个告警对中的每一个告警对包括具有相关性的第一告警和第二告警,M为大于0的整数;根据关联规则生成所述M个告警对中以第一告警为告警对根源的N个告警对的第一特征集合,其中,所述第一特征集合包括所述N个告警对中每一个第一告警所属的第一子系统为子系统根源且对应的第一告警对象为告警对象根源的第一概率、每一个第二告警所属的第二子系统为子系统根源且对应的第二告警对象为告警对象根源的第二概率,N为大于0且小于M的整数;根据所述第一概率和所述第二概率,确定所述第一告警集合的根源信息,所述根源信息包括所述第一告警集合中的根源告警、根源子系统和根源告警对象中的一个或者多个。
本发明实施例,通过在明确告警间相关性的基础上,根据告警中包含的子系统以及产生告警的对象等信息,挖掘告警对中的告警为根源告警的概率,以及告警所属资源实例的相关性等告警特征数据,进一步预测根源告警。即从业务关联逻辑和历史告警数据等多维度进行相关性分析和根因推断,提高告警分析以及根因的效率和准确性。区别于现有技术中,直接使用获得的关联规则对告警进行分析,本发明实施例中,根据获得的关联规则分析告警之后,进一步应用告警关联规则,提取告警集合的关键特征,不仅可以提高告警分析效率,还可实现在系统级以及设备级的相关性分析,满足电信运营的实际需求。
在一种可能的实现方式中,所述根据关联规则生成所述M个告警对中以第一告警为告警对根源的N个告警对的第一特征集合,包括:根据所述关联规则,判断所述M个告警对每一个告警对的告警对根源;统计所述第一子系统为子系统根源且所述第一告警对象为告警对象根源的次数,计算所述第一概率,统计所述第二子系统为子系统根源且所述第二告警对象为告警对象根源的次数,计算所述第二概率;获得以第一告警为告警对根源的N个告警对的第一特征集合。本发明实施例,通过关联规则确定每一个告警对中的告警对根源,并计算每一个告警对的第一概率和第二概率,得到每一个告警对对应的告警特征数据;然后从中筛选以第一告警为告警对根源的一个或者多个告警对,生成第一特征集合。充分利用关联规则,挖掘告警对的关键特征;通过对概率的统计,便于有效分析告警包含的子系统之间以及告警对象之间的相关性(或依赖关系);得到的第一特征集合,利于后续根据分类算法进行处理,更加有效地判断根源告警。
在一种可能的实现方式中,所述方法还包括:确定第三告警所属的第三子系统以及对应的第三告警对象,第四告警所属的第四子系统以及对应的第四告警对象,所述第三告警和所述第四告警为第二告警集合中的任意两个告警;根据所述关联规则生成所述M个告警对的第二特征集合,所述第二特征集合包括所述M个告警对中每一个第一告警所属的第一子系统为子系统根源且对应的第一告警对象为告警对象根源的第一概率、每一个第二告警所属的第二子系统为子系统根源且对应的第二告警对象为告警对象根源的第二概率;根据所述第二特征集合,确定所述第三子系统和所述第四子系统之间的第一相关性,所述第三告警对象和所述第四告警对象之间的第二相关性;根据所述第一相关性和所述第二相关性,判断所述第三告警和所述第四告警之间是否存在相关性。本发明实施例,利用已确认的子系统之间的依赖关系以及告警对象之间的依赖关系,确认待预测的告警之间的相关性,增加对告警相关性分析的方法,提高告警分析以及根源推断的效率。
在一种可能的实现方式中,所述根源信息包括所述第一告警集合中的根源告警、根源子系统和根源告警对象;所述根据所述第一概率和所述第二概率,确定所述第一告警集合的根源信息,包括:将所述第一特征集合作为随机森林算法的训练数据集合,根据对所述第一概率和所述第二概率的计算,分类得到所述根源告警、所述根源子系统和所述根源告警对象。本发明实施例,应用随机森林算法对基于规则再次挖掘得到数据进行分类,以此为训练集合,判断根源告警,减少了人工分析的过程,提高了根源告警推断的效率,有利于加快对电信网络中的故障进行定位和排查。
在一种可能的实现方式中,所述从第一告警集合中确定M个告警对,包括:根据所述关联规则,从第一告警集合中确定M个告警对,所述第一告警集合中的每一个告警包括告警所属的子系统和所述告警对应的告警对象。本发明实施例,根据关联规则分析第一告警集合中告警之间的相关性,得到M个告警对,所述关联规则的来源包括基于专家知识的累积得到以及根据告警关联分析而学习得到。保障了告警对之中的两个告警之间存在较强的相关性,以及明确告警之间的衍生关系,是告警准确分析的基础。
在一种可能的实现方式中,所述根据所述关联规则,从第一告警集合中确定M个告警对之前,还包括:将所述第一告警集合对应的原始告警集合中每一个原始告警的告警字段转换为整型,所述告警字段包括告警对象、告警源、告警发生时间、告警清除时间中的一个或者多个;过滤所述告警字段为无效整型的原始告警,得到L个标准化告警,L为大于0的整数;确定第三告警集合,所述第三告警集合包括所述L个标准化告警。本发明实施例,通过对原始告警的预处理,从而过滤无效告警。通过对告警数据的预处理,初步精简原始告警集合中的告警数量,减少了数据处理量,提高了告警分析效率。
在一种可能的实现方式中,所述标准化告警包括网元类型;所述确定第三告警集合之后,包括:对所述L个标准化告警进行滑窗建模,得到K种网元类型的频繁告警子序列集,K为大于0的整数,所述频繁告警子序列集包括频繁1项告警子序列集和频繁2项告警子序列集;根据所述频繁2项告警子序列集中置信度超过预设阈值的告警子序列和预设的筛选方法,生成所述关联规则。本发明实施例,根据频繁告警子序列的置信度对频繁告警子序列进行筛选,在有效地处理海量告警的基础上,避免数据挖掘过程中输出大量无用的关联规则,提升关联规则的可信度,能用更准确的关联规则,分析告警以及提取告警特征。
在一种可能的实现方式中,所述标准化告警还包括所述告警源和所述告警发生时间;所述对所述L个标准化告警进行滑窗建模,得到K种网元类型的频繁告警子序列集,包括:根据所述L个标准化告警的网元类型和告警源,得到同种网元类型中相同的告警源发出的第五告警;按照所述第五告警中每一条告警的所述告警发生时间,升序排列所述第五告警;基于预设的滑窗宽度和滑动步长,通过构造的滑窗获取P个告警序列,所述告警序列包括同一所述滑窗内的一个或者多个第五告警,P为大于0的整数;统计所述P个告警序列包含的告警子序列的发生频次,得到所述相同告警源的频繁告警子序列集;分别累计同种网元类型中不同的告警源的频繁告警子序列集,得到所述K种网元类型的频繁告警子序列集。本发明实施例,通过滑窗建模得到频繁告警子序列集,便于集中处理同一段时间内的系列告警,提高告警数据处理的准确度和处理效率。
在一种可能的实现方式中,所述预设的筛选方法,包括:计算第一关联规则的第一置信度和第二关联规则的第二置信度,所述第一关联规则和所述第二关联规则为一对或者多对对应相同告警的关联规则;比较所述第一置信度和所述第二置信度的大小,得到置信度大的关联规则作为所述关联规则。本发明实施例,根据一对或者多对对应相同告警的关联规则的置信度的大小,保留置信度大的关联规则(即该关联规则优先级更高),进行冗余规则处理而精简了规则的数量,保留了更加准确有效的关联规则,便于后续高效地应用关联规则,更有效地分析告警以及提取告警的关键特征。
在一种可能的实现方式中,所述告警字段还包括告警定位信息;所述预设的筛选方法,包括:计算第一关联规则的第一置信度和第二关联规则的第二置信度,所述第一关联规则和所述第二关联规则为多对对应相同告警的关联规则;比较所述第一置信度和所述第二置信度的大小,得到置信度大的多个第三关联规则;判断所述多个第三关联规则中第四关联规则对应的告警对有无相同的所述告警定位信息,所述第四关联规则为所述对应的告警对中的每一个告警均与同一个告警具有相关性的关联规则;若无相同的所述告警定位信息,抑制所述第四关联规则;得到除抑制的第四关联规则之外的多个第三关联规则,作为所述关联规则。本发明实施例,先对目标规则中的冗余规则进行处理,然后进行抑制规则处理,将最后剩余的规则作为最终的关联规则输出,经过冗余规则处理,抑制规则处理,输出关联规则,提高了关联规则的质量和减少多余的规则,加快了规则筛选效率,提升告警分析效率和准确性。
第二方面,本发明实施例提供了一种告警分析装置,所述装置可包括:确定单元,用于从第一告警集合中确定M个告警对,所述M个告警对中的每一个告警对包括具有相关性的第一告警和第二告警,M为大于0的整数;生成单元,用于根据关联规则生成所述M个告警对中以第一告警为告警对根源的N个告警对的第一特征集合,其中,所述第一特征集合包括所述N个告警对中每一个第一告警所属的第一子系统为子系统根源且对应的第一告警对象为告警对象根源的第一概率、每一个第二告警所属的第二子系统为子系统根源且对应的第二告警对象为告警对象根源的第二概率,N为大于0且小于M的整数;分析单元,用于根据所述第一概率和所述第二概率,确定所述第一告警集合的根源信息,所述根源信息包括所述第一告警集合中的根源告警、根源子系统和根源告警对象中的一个或者多个。
在一种可能的实现方式中,所述生成单元具体用于:根据所述关联规则,判断所述M个告警对每一个告警对的告警对根源;统计所述第一子系统为子系统根源且所述第一告警对象为告警对象根源的次数,计算所述第一概率,统计所述第二子系统为子系统根源且所述第二告警对象为告警对象根源的次数,计算所述第二概率;获得以第一告警为告警对根源的N个告警对的第一特征集合。
在一种可能的实现方式中,所述装置还包括反向推断单元,用于:确定第三告警所属的第三子系统以及对应的第三告警对象,第四告警所属的第四子系统以及对应的第四告警对象,所述第三告警和所述第四告警为第二告警集合中的任意两个告警;根据所述关联规则生成所述M个告警对的第二特征集合;根据所述第二特征集合,确定所述第三子系统和所述第四子系统之间的第一相关性,所述第三告警对象和所述第四告警对象之间的第二相关性;根据所述第一相关性和所述第二相关性,判断所述第三告警和所述第四告警之间是否存在相关性。
在一种可能的实现方式中,所述根源信息包括所述第一告警集合中的根源告警、根源子系统和根源告警对象;所述分析单元,具体用于:将所述第一特征集合作为随机森林算法的训练数据集合,根据对所述第一概率和所述第二概率的计算,分类得到所述根源告警、所述根源子系统和所述根源告警对象。
在一种可能的实现方式中,所述确定单元,具体用于:根据所述关联规则,从第一告警集合中确定M个告警对,所述第一告警集合中的每一个告警包括告警所属的子系统和所述告警对应的告警对象。
在一种可能的实现方式中,所述装置还包括,预处理单元,用于在根据所述关联规则,从第一告警集合中确定M个告警对之前,将所述第一告警集合对应的原始告警集合中每一个原始告警的告警字段转换为整型,所述告警字段包括告警对象、告警源、告警发生时间、告警清除时间中的一个或者多个;过滤所述告警字段为无效整型的原始告警,得到L个标准化告警,L为大于0的整数;确定第三告警集合,所述第三告警集合包括所述L个标准化告警。
在一种可能的实现方式中,所述标准化告警包括网元类型;所述装置还包括规则分析单元,所述规则生成单元包括序列统计单元和生成规则单元;所述序列统计单元,用于在确定第三告警集合之后,对所述L个标准化告警进行滑窗建模,得到K种网元类型的频繁告警子序列集,K为大于0的整数,所述频繁告警子序列集包括频繁1项告警子序列集和频繁2项告警子序列集;所述生成规则单元,用于根据所述频繁2项告警子序列集中置信度超过预设阈值的告警子序列和预设的筛选方法,生成所述关联规则。
在一种可能的实现方式中,所述标准化告警还包括所述告警源和所述告警发生时间;所述序列统计单元,具体用于:根据所述L个标准化告警的网元类型和告警源,得到同种网元类型中相同的告警源发出的第五告警;按照所述第五告警中每一条告警的所述告警发生时间,升序排列所述第五告警;基于预设的滑窗宽度和滑动步长,通过构造的滑窗获取P个告警序列,所述告警序列包括同一所述滑窗内的一个或者多个第五告警,P为大于0的整数;统计所述P个告警序列包含的告警子序列的发生频次,得到所述相同告警源的频繁告警子序列集;分别累计同种网元类型中不同的告警源的频繁告警子序列集,得到所述K种网元类型的频繁告警子序列集。
在一种可能的实现方式中,所述装置还包括第一筛选单元,用于:计算第一关联规则的第一置信度和第二关联规则的第二置信度,所述第一关联规则和所述第二关联规则为一对或者多对对应相同告警的关联规则;比较所述第一置信度和所述第二置信度的大小,得到置信度大的关联规则作为所述关联规则。
在一种可能的实现方式中,所述告警字段还包括告警定位信息;所述装置还包括第二筛选单元,用于:计算第一关联规则的第一置信度和第二关联规则的第二置信度,所述第一关联规则和所述第二关联规则为多对对应相同告警的关联规则;比较所述第一置信度和所述第二置信度的大小,得到置信度大的多个第三关联规则;判断所述多个第三关联规则中第四关联规则对应的告警对有无相同的所述告警定位信息,所述第四关联规则为所述对应的告警对中的每一个告警均与同一个告警具有相关性的关联规则;若无相同的所述告警定位信息,抑制所述第四关联规则;得到除抑制的第四关联规则之外的多个第三关联规则,作为所述关联规则。
第三方面,本申请提供一种计算机存储介质,用于储存为上述第二方面提供的告警分析装置所用的计算机软件指令,其包含用于执行上述方面所设计的程序。
第四方面,本发明实施例提供了一种计算机程序,该计算机程序包括指令,当该计算机程序被计算机执行时,使得计算机可以执行上述第一方面中任意一项的告警分析方法所执行的流程。
第五方面,本申请提供了一种芯片系统,该芯片系统包括处理器,用于支持告警分析装置实现上述第一方面中所涉及的功能,例如,接收或处理上述方法中所涉及的数据和/或信息。在一种可能的设计中,所述芯片系统还包括存储器,所述存储器,用于保存告警分析装置必要的程序指令和数据。该芯片系统,可以由芯片构成,也可以包含芯片和其他分立器件。
第六方面,本申请提供一种服务器,该服务器包括存储器,存储器存储有可执行程序代码;该服务器还可以包括与所述存储器耦合的处理器,所述处理器调用所述存储器中存储的所述可执行程序代码,执行第一方面提供的任意一种所述的告警分析方法中相应的功能。
第七方面,本申请提供一种设备,该设备中包括处理器,处理器被配置为支持该设备执行第一方面提供的一种告警分析方法中相应的功能。该设备还可以包括存储器,存储器用于与处理器耦合,其保存该设备必要的程序指令和数据。该设备还可以包括通信接口,用于该设备与其他设备或通信网络通信。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。
图1是本发明实施例提供的一种告警分析方法应用场景的示意图;
图2是本发明实施例提供的一种告警分析架构示意图;
图3是本发明实施例提供的一种告警分析的工作原理示意图;
图4是本发明实施例提供的一种节点设备的结构示意图;
图5是本发明实施例提供的一种告警分析方法的流程示意图;
图6是本发明实施例提供的一种根因分析处理流程示意图;
图7是本发明实施例提供的一种关联规则处理示意图;
图8是本发明实施例提供的一种关联规则与告警关联的示意图;
图9是本发明实施例提供的一种基于数据分析的子系统的依赖关系;
图10是本发明实施例提供的一种基于数据分析的告警对象的依赖关系;
图11是本发明实施例提供的一种告警特征数据结构;
图12是本发明实施例提供的另一种告警分析方法的流程示意图;
图13是本发明实施例提供的一种告警预处理的流程示意图;
图14是本发明实施例提供的一种标准数据单元SDU的数据结构;
图15是本发明实施例提供的一种告警序列统计处理的流程示意图;
图16是本发明实施例提供的网元实例一的滑窗建模流程示意图;
图17是本发明实施例提供的网元实例二的滑窗建模流程示意图;
图18是本发明实施例提供的一种关联规则筛选流程示意图;
图19是本发明实施例提供的一种告警分析装置的结构示意图;
图20是本发明实施例提供的一种设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例进行描述。
本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
在本说明书中使用的术语“部件”、“模块”、“系统”等用于表示计算机相关的实体、硬件、固件、硬件和软件的组合、软件、或执行中的软件。例如,部件可以是但不限于,在处理器上运行的进程、处理器、对象、可执行文件、执行线程、程序和/或计算机。通过图示,在计算设备上运行的应用和计算设备都可以是部件。一个或多个部件可驻留在进程和/或执行线程中,部件可位于一个计算机上和/或分布在2个或更多个计算机之间。此外,这些部件可从在上面存储有各种数据结构的各种计算机可读介质执行。部件可例如根据具有一个或多个数据分组(例如来自与本地系统、分布式系统和/或网络间的另一部件交互的二个部件的数据,例如通过信号与其它系统交互的互联网)的信号通过本地和/或远程进程来通信。
首先,对本申请中的部分用语进行解释说明,以便于本领域技术人员理解。
(1)告警,在网络管理领域,是指在特定事件发生时通过设备产生的提示性信息,可以由生产厂家提前定义。一条告警的出现表明系统可能出现故障,但并不是一定出现故障,而一个故障的发生则可能导致业务上其他网元的异常,从而引发一系列相关告警。一般情况下,告警信息应包含有关故障设备名称、故障症状、发生部位、发生时间等信息。
(2)电信管理网络(Telecommunication Management Network,TMN),是现代电信网运行的支撑系统之一,是为保持电信网正常运行和服务,对它进行有效的管理所建立的软、硬件系统和组织体系的总称。电信管理网主要包括网络管理系统、维护监控系统等。电信管理网的主要功能是:根据各局间的业务流向、流量统计数据有效地组织网络流量分配;根据网络状态,经过分析判断进行调度电路、组织迂回和流量控制等,以避免网络过负荷和阻塞扩散。
(3)网络管理系统(Network Management System,NMS)是移动通信网中的网络管理系统,它的管理对象可以包括网络中所有的实体,如:网络设备、应用程序、服务器系统、路由器、交换机、HUB、辅助设备等,给网络系统管理员提供一个全系统的网络视图。移动通信网络管理使用三层解决方案,包括NMS层、网元管理系统(Element Management System,EMS)层和网元层。
(4)网元(Network Element,NE),也称网络单元,由一个或多个机盘或机框组成,能够独立完成一定的传输功能。网管系统中的网元,可以简单理解为网络中的元素或者单元,或者网络中的设备。总之,网元是网络管理中可以监视和管理的最小单位,值得注意的是,网络元素和网元和被管设备是同义语,但被管设备容易被人理解成硬件。而网元管理系统 (EMS)是管理特定类型的一个或多个电信网络单元的系统。
(5)关联规则(Association Rules),是形如X→Y的蕴涵式,其中,X和Y分别称为关联规则的先导(antecedent或left-hand-side,LHS)和后继(consequent或right-hand-side,RHS)。其中,关联规则XY,存在支持度和信任度。关联规则定义为:假设I={I1、I2、…、Im}是项的集合。给定一个交易数据库D,其中每个事务(Transaction)t是I的非空子集,即,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则在D中的支持度(support) 是D中事务同时包含X、Y的百分比,即概率;置信度(confidence)是D中事务已经包含X 的情况下,包含Y的百分比,即条件概率。如果满足最小支持度阈值和最小置信度阈值,则认为关联规则是有趣的。这些阈值是根据挖掘需要人为设定。关联规则挖掘过程主要包含两个阶段:第一阶段必须先从资料集合中找出所有的高频项目组,第二阶段再由这些高频项目组中产生关联规则。
(6)频繁项集(Frequent Itemsets),或称高频项目组,是指支持度大于等于最小支持度(min_sup)的集合。其中支持度是指某个集合在所有事务中出现的频率。频繁项集的经典应用是购物篮模型。它可以告诉我们在数据集中经常一起出现的变量,为可能的决策提供一些支持。频繁项集挖掘是关联规则、相关性分析、因果关系、序列项集、局部周期性、情节片段等许多重要数据挖掘任务的基础。因此,频繁项集有着很广泛的应用。其中,项的集合称为项集。包含k个项的项集称为k-项集。项集的出项频率是包含项集的事务数,简称为项集的频率,支持度计数或计数。例如,在本发明实施例中,频繁1-项告警序列集包括若干个1-项告警序列,如A、E、C等,其中,A表示一个A类告警序列;频繁2-项告警序列集包括若干个2-项告警序列,如AE、AC、EC等,其中,AE表示一个A类告警与E类告警组成的告警序列。
(7)随机森林(random forests),在机器学习中,是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。根据下列算法而建造每棵树:用T来表示训练用例(样本)的个数,R表示特征数目;输入特征数目r,用于确定决策树上一个节点的决策结果,其中r应远小于R;从T个训练用例(样本)中以有放回抽样的方式,取样T次,形成一个训练集(即bootstrap取样),并用未抽到的用例(样本)作预测,评估其误差;对于每一个节点,随机选择r个特征,决策树上每个节点的决定都是基于这些特征确定的;根据这r个特征,计算其最佳的分裂方式。
(8)决策树(Decision Tree),也称分类树,是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。在机器学习中,决策树是一个预测模型,代表的是对象属性与对象值之间的一种映射关系。Entropy(熵)=系统的凌乱程度,使用算法 ID3,C4.5和C5.0生成树算法使用熵。决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。分类树(决策树)是一种十分常用的分类方法,即给定一堆样本,每个样本都有一组属性和一个类别,这些类别是事先确定的,那么通过学习得到一个分类器,这个分类器能够对新出现的对象给出正确的分类。
为了便于理解本发明实施例,以下示例性列举本申请中告警分析方法所应用的场景,可以包括如下通过智能告警关联模块提升故障管理模块的告警关联分析性能的场景。
请参见图1,图1是本发明实施例提供的一种告警分析方法应用场景的示意图,该应用场景中包括故障管理模块和智能告警关联模块,前述模块都可以配置在电信管理网络的一个或者多个网络节点(即节点设备,如具备管理功能的服务器)中,且搭载前述模块的不同设备间可以通过Wi-Fi、移动网络等进行通信,同一设备上的前述模块可以基于程序或者代码实现模块之间的数据交互。具体地,故障管理模块可以包括告警监控子模块、告警相关性处理子模块和告警相关性规则子模块。在告警监控子模块中存放被管理网络的拓扑结构信息以及网络中网元节点上报的实时告警信息,从而形成对被管理网络的实时监控;将网络中实时产生的告警与告警相关性规则子模块中的告警关联规则进行比较,从而实现对故障原因的判断,其中,所述告警关联规则可以为由故障处理专家经验得到的固化的已知规则;通过告警相关性处理模块实现对告警的关联分析。
智能告警关联模块可以包括告警数据处理子模块、相关性挖掘子模块和根因分析子模块。其中,告警数据处理子模块可以用于从告警监控子模块获取原始告警数据,再对原始告警数据(包括活动告警、历史告警)进行预处理,其中,因为告警状态的变化是由于接收到相关的事件和操作所致,所以告警数据可以分为活动告警和历史告警,所述活动告警可以为未被清除的告警,所述历史告警可以为曾经产生过的告警,例如,当接收到一个告警触发消息则产生一条未恢复未确认的告警,随后又收到该告警的恢复消息,则这条告警就从未恢复未确认状态自动转为己恢复未确认状态(网管监控人员未对该告警作确认操作),同时从当前的活动告警库转入历史告警库。相关性挖掘子模块用于根据经过预处理的告警数据得到目标告警序列的统计,再生成告警关联规则;进一步地,生成的新告警关联规则可以存入告警关联规则子模块的规则库中,更新后的规则库可以再应用于相关性挖掘子模块的分析以及后续对规则的二次挖掘,并且告警相关性处理子模块的处理结果可以完善告警关联规则;根因分析子模块用于对告警关联规则和告警数据的深入处理,利用随机森林算法训练得到告警所属资源实例的相关性,根据相关性模型预测根源告警。特别地,根据预测的各系统以及告警对象之间的依赖关系反向推断告警相关性或者反向校验关联规则的准确性,也能够有利于补充告警关联规则。
可以理解的是,图1中的应用场景的只是本发明实施例中的一种示例性的实施方式,本发明实施例中的应用场景包括但不仅限于以上应用场景。
结合上述应用场景,下面先对本发明实施例所基于的其中一种系统架构进行描述。请参见图2,图2是本发明实施例提供的一种告警分析架构示意图,本申请提出的告警分析方法可以应用于该系统架构。该系统架构中包含了网络管理系统NMS层、网元管理系统EMS层和网元NE层;一般来说,EMS管理着每个NE的功能和容量,但并不管理网络中不同NE之间的交流。为了支持NE间的交流,EMS需要与更高一级的网络管理系统(NMS)进行通信,NMS也是电信管理网络(TMN)层次模型中的一元。EMS是基于TMN层次模型的运作支持系统(Operation Support System,OSS)构架的基础,这个构架使得服务提供商(ServiceProvider,SP)能够满足客户对高速发展着的服务的需求,同时也能满足严厉的服务质量(Quality of Service,QOS)要求。在电信管理网络的系统架构中,该网络的节点设备(如EMS层中具备管理功能的服务器或者服务器组)可以执行所述告警分析方法。其中,
NMS层管理不同地域和不同设备供应商的网络,便于网络管理员通过NMS对网络进行全面监控。如图2所示,NMS层可以包括多个服务器,每一个服务器负责管理一定区域内的一定数量的设备构成的网络。
EMS层侧重于地域、网络、子网络内部的网元管理。它通过北向接口(NorthboundInterface, NBI)与高层网管系统连接。如图2所示,EMS层可以包括多个网元管理系统,每个网元管理系统中有主服务器以及多个子服务器。
NE层包括移动通信网网元设备与其操作维护中心(Operation&MaintenanceCenter, OMC)。OMC由设备供应商提供,与设备配套使用,并支持本地管理模式,例如,如图2所示:本地维护终端、操作维护模块(Operation&Maintenance Module,OMM)、集中维护模块(Unified Maintenance Module,UMM)。
基于前述电信管理网络的系统架构,示例性地描述告警分析的流程以及工作原理,请参见图3,图3是本发明实施例提供的一种告警分析的工作原理示意图,如图3所示,EMS对多个NE进行管理,内置的关联规则(即built-in default rules)可以通过网元输入关联规则引擎,也可以通过SRAN8.0输入或者手动输入到关联规则引擎(即correlationrule engine);然后,由EMS中的关联规则引擎实现对告警的关联分析,之后EMS通过NBI与NMS连接,在传输过程中标记关联告警(即具有相关性的告警),由NMS处理分析这些关联标记。
当节点设备为服务器时,该服务的构成可以参考图4,图4是本发明实施例提供的一种节点设备的结构示意图。该终端设备可包括处理器CPU以及相关的易失性存储器RAM和非易时性存储器ROM;用于存储告警分析程序的存储器,该告警分析程序用于实现对告警的相关性分析;用于与其它设备(包括管理网络中的网元设备)进行通信的无线通信模块。本申请实施例,对节点设备具体的实际结构本申请不作具体限定。
可以理解的是,图2中的系统架构只是本发明实施例中的一种示例性的实施方式,本发明实施例中的系统架构包括但不仅限于以上系统架构。
下面结合上述应用场景、系统架构和本申请中提供的告警分析方法的实施例,对本申请中提出的技术问题进行具体分析和解决。
请参见图5,图5是本发明实施例提供的一种告警分析方法的流程示意图,该告警分析方法应用于告警分析系统(包括上述系统架构),且适用于上述图1中所示的应用场景。其中,所述告警分析系统包括服务器(如EMS层以及NMS层的服务器)和终端(如NE层的网元设备),下面将结合附图5从服务器的单侧进行描述,该方法可以包括以下步骤S501-步骤S503。
步骤S501:从第一告警集合中确定M个告警对。
具体地,根据预设的固化关联规则或者积累的专家知识以及基于告警分析得到的关联规则,确定第一告警集合中告警之间的相关性,其中,所述第一告警集合中包括了多条告警,第一告警集合中的告警数据可以是原始告警,也可以是经过数据清洗、数据筛选等数据处理过程的告警数据。可选地,前述基于告警分析得到的关联规则可以是基于所述第一告警集合得到关联规则,也可以基于历史告警集合(即在处理第一告警集合之前分析过的告警集合) 得到的关联规则。所述M个告警对中的每一个告警对包括具有相关性的第一告警和第二告警, M为大于0的整数,所述相关性可以为一个告警的变更影响或者产生另一个告警的关系。本发明实施例,对如何从第一告警集合中确定告警对的方法不作限定。基于告警间的产生关系,可以划分为根告警(或称根源告警)和衍生告警。例如,服务器根据关联规则A→B得到告警A和告警B是一个告警对,并且告警A是该告警对中的根源告警(即告警对根源),告警B 是告警A的衍生告警。可选地,在利用关联规则确定M个告警对之前,根据目标告警集合(可以包括第一告警集合对应的原始告警集合以及其他原始告警集合)得到关联规则。
步骤S502:根据关联规则生成所述M个告警对中以第一告警为告警对根源的N个告警对的第一特征集合。
具体地,根据关联规则确定每一个告警对中的告警对根源,由于后续分类算法的应用,可以只获得第一特征集合作为算法,第一特征集合由N个告警对的告警特征数据组成,每个告警对中的告警对根源为第一个告警(即第一告警)。其中,所述第一特征集合包括所述N 个告警对中每一个第一告警所属的第一子系统为子系统根源且对应的第一告警对象为告警对象根源的第一概率、每一个第二告警所属的第二子系统为子系统根源且对应的第二告警对象为告警对象根源的第二概率,N为大于0且小于M的整数。例如,(A,B)为M个告警对中的一个告警对,其中可以设定告警A为第一告警、告警B为第二告警,如果根据关联规则(或称告警关联规则)确定告警A为告警对根源,那么(A,B)就是N个告警对中的一个告警对。
在一种可能的实现方式中,所述根据关联规则生成所述M个告警对中以第一告警为告警对根源的N个告警对的第一特征集合,包括:根据所述关联规则,判断所述M个告警对每一个告警对的告警对根源;统计所述第一子系统为子系统根源且所述第一告警对象为告警对象根源的次数,计算所述第一概率,统计所述第二子系统为子系统根源且所述第二告警对象为告警对象根源的次数,计算所述第二概率;获得以第一告警为告警对根源的N个告警对的第一特征集合。本发明实施例,通过关联规则确定每一个告警对中的告警对根源,并计算每一个告警对的第一概率和第二概率,得到每一个告警对对应的告警特征数据;然后从中筛选以第一告警为告警对根源的一个或者多个告警对,生成第一特征集合。充分利用关联规则,挖掘告警对的关键特征;通过对概率的统计,便于有效分析告警包含的子系统之间以及告警对象之间的相关性(或依赖关系);得到的第一特征集合,利于后续根据分类算法进行处理。本发明实施例对计算第一概率以及计算第二概率的先后计算顺序,以及判断告警对根源和前述的概率计算之间的顺序均不做限定。
对于上述步骤S502中如何根据关联规则生成第一特征集合,示例性地列举以下2个例子。
例1,请参见图6,图6是本发明实施例提供的一种根因分析处理流程示意图,由告警A、告警B、告警C和告警D推理(即告警依赖推断),得到每个告警对应的子系统类型以及MO对象(管理对象,即告警对象,在图6中以告警对象的类型进行描述);根据子系统类型之间的依赖关系以及MO对象之间的依赖关系,可以通过反向附着(即反向告警依赖推断),修正由关联规则判断的告警相关性的结果,得到告警相关性的最终准确结果,其中,在反向告警依赖推断的过程中,基于关联规则定义的告警相关性的先验输入数据,经过反向告警依赖推断得到的结果数据可以进一步修正这个输入数据,从而形成反馈feedback闭环,使算法最终结果收敛到正确的告警相关性判断结果上。图6中的MO对象以及告警子系统类型均为示例性的描述。其中,告警依赖推断过程可以包括如下步骤:
针对已知的告警关联规则和输入的告警序列(如告警A和告警B),记OSSa、OSSb分别代表告警A、B所属的子系统;MOa、MOb分别代表告警A、B的MO对象(即告警对象)。
1)如果在(A,B)告警对中,根据已知规则确定告警A是根源(即告警对根源),则(OSSa, OSSb)计数为(1,0),(MOa,MOb)计数为(1,0);如果告警B是根源,则(OSSa,OSSb)计数为(0,1), (MOa,MOb)计数为(0,1);所有告警对统计完毕后,可以得到(OSSa,OSSb)的计数情况以及 (MOa,MOb)的计数情况;
2)根据前述的计数情况进一步可以计算得到第一概率:
OSSa为根源的概率
Figure BDA0002072613230000111
MOa为根源的概率为
Figure BDA0002072613230000112
以此类推,可以得到第二概率,即OSSb为根源的概率且MOb为根源的概率。
3)基于上述所得概率和告警对的判断结果,可以得到如下数据:
(A,B,Poss_a,Poss_b,PMO_a,PMO_b,’X’/’Y’),其中,‘X’代表告警对中第一个告警为根源告警,‘Y’代表告警对中第二个告警为根源告警。
例2,前述已知的告警关联规则可以包括格式化的白盒规则,请参见图7,图7是本发明实施例提供的一种关联规则处理示意图;白盒规则原始格式如图7所示,其中"alm0"是衍生告警,以告警Y表示,["alm1","alm2","alm3","alm4"]是"alm0"的根源列表,根源列表中每一个告警均都是"alm0"的根源告警,均可以以告警X表示;转换上述白盒规则的原始格式,即alm0["alm1","alm2","alm3","alm4"],为图7表格中所示的数据格式。
从告警数据中得到告警的属性(如告警所属的子系统和告警对象),与格式化后的白盒规则进行关联,请参见图8,图8是本发明实施例提供的一种关联规则与告警关联的示意图,例如,以OSS_1表示告警X中的"alm1"所属的子系统,以OBJ_1(类似MO_1的表述方式)表示告警X中的"alm1"对应的告警对象,同理可得,OSS_0以及OBJ_0的表示意义,如,("alm1", "alm0",OSS_1,OSS_0,OBJ_1,OBJ_0)为一个关联规则和一对告警的关联结果,"alm1" 为一种告警X,"alm0"为一种告警Y,OSS_1为一种告警X所属子系统,OSS_0为一种告警 Y所属子系统,OBJ_1为一种告警X的MO对象,OBJ_0为一种告警Y的MO对象。
根据“告警X所属子系统”和“告警Y所属子系统”统计得到:
(OSS_1,OSS_0,OSS_1为根源的概率,OSS_0为根源的概率)
(OSS_2,OSS_0,OSS_2为根源的概率,OSS_0为根源的概率)
(OSS_3,OSS_0,OSS_3为根源的概率,OSS_0为根源的概率)
(OSS_4,OSS_0,OSS_4为根源的概率,OSS_0为根源的概率)
可选地,根据上述概率统计,得到告警所属子系统的依赖关系图,请参见图9,图9是本发明实施例提供的一种基于数据分析的子系统的依赖关系,如图所示,描述的是所分析的所有有效告警对应的全部子系统之间的相关性(即依赖关系),图中的边表示相连的两个子系统存在相关性,边上的数字表示相关程度(或称相关的概率)。其中,图9所示的概率、子系统类型以及子系统之间的依赖关系都是示例性的描述。
以此类推,同理,可选地,可以得到告警对应的告警对象的依赖关系图,请参见图10,图10是本发明实施例提供的一种基于数据分析的告警对象的依赖关系,如图所示,描述的是所分析的所有的有效告警对应的全部告警对象的类型之间的相关性(即依赖关系),图中的边表示相连的两个告警对象的类型存在相关性,边上的数字表示相关程度(或称相关的概率)。其中,图10中的告警对象以告警对象的类型为例,并且图10所示的概率、告警对象的类型以及告警对象的类型之间的依赖关系都是示例性的描述。
将所述告警所属子系统的依赖关系、告警对象的依赖关系数据作为告警数据的属性,得到告警特征数据结构。在所述告警特征数据结构中,选择根源告警为告警X或者根源告警为告警Y的特征数据实例作为训练数据(即第一特征集合),请参见图11,图11是本发明实施例提供的一种告警特征数据结构,例如,图中("alm1","alm0",OSS_1,OSS_0,OBJ_1,OBJ_0,P0,P0’)为一种示例性的告警特征数据结构,其中部分的具体含义请参见图8的描述,在此不再赘述,与前述的(A,B,Poss_a,Poss_b,PMO_a,PMO_b,’X’)对应,其中,P0,P0’两者对应’X’,P0,P0’是对该信息’X’的具体描述,P0为告警X所属子系统为根源的概率, P0’为告警X所属对象类型为根源的概率。
步骤S503:根据所述第一概率和所述第二概率,确定所述第一告警集合的根源信息。
具体地,将所述第一概率和所述第二概率作为分类算法的数据集合,通过对数据集合的处理,得到目标告警集合中的根源信息,所述根源信息包括所述第一告警集合中的根源告警、根源子系统和根源告警对象中的一个或者多个。由数据集合得到预测模型还可以应用于推断新数据集合的告警根源信息。
在一种可能的实现方式中,所述根源信息包括所述第一告警集合中的根源告警、根源子系统和根源告警对象;所述根据所述第一概率和所述第二概率,确定所述第一告警集合的根源信息,包括:将所述第一特征集合作为随机森林算法的训练数据集合,根据对所述第一概率和所述第二概率的计算,分类得到所述根源告警、所述根源子系统和所述根源告警对象。例如,在所述告警特征数据结构中,选择根源告警为告警X或者根源告警为告警Y的特征数据实例作为训练数据,利用随机森林算法(机器学习算法中的分类算法中的一种算法)训练决策规则,所述训练过程可以包括以下4个步骤:1.从S个样本中通过重采样的方式产生s 个样本,s<=S;2.从J个特征中随机选择选择j个特征,j<=J;3.基于上述包含j个特征s个样本的数据集建立决策树;4.重复c次,产生c棵决策树。根据所述随机森林算法生成的决策规则自动判断根源告警,可以包括如下步骤:1.基于新生成的告警数据提取特征;2.基于训练模型预测新生成告警对的根因与衍生关系。本发明实施例,应用随机森林算法对基于规则再次挖掘得到数据进行分类,以此为训练集合,判断根源告警,减少了人工分析的过程,提高了根源推断的效率,有利于加快对电信网络中的故障进行定位和排查。
在一种可能的实现方式中,所述方法还包括:确定第三告警所属的第三子系统以及对应的第三告警对象,第四告警所属的第四子系统以及对应的第四告警对象,所述第三告警和所述第四告警为第二告警集合中的任意两个告警;根据所述关联规则生成所述M个告警对的第二特征集合,所述第二特征集合包括所述M个告警对中每一个第一告警所属的第一子系统为子系统根源且对应的第一告警对象为告警对象根源的第一概率、每一个第二告警所属的第二子系统为子系统根源且对应的第二告警对象为告警对象根源的第二概率;根据所述第二特征集合,确定所述第三子系统和所述第四子系统之间的第一相关性,所述第三告警对象和所述第四告警对象之间的第二相关性;根据所述第一相关性和所述第二相关性,判断所述第三告警和所述第四告警之间是否存在相关性。前述的可能实现方式为一种反向告警依赖推断过程,根据告警归属的MO和子系统之间相关性信息推断未知相关性告警对的相关性。具体例如,对于待确定的告警对(C,D),即告警C和告警D之间的相关性未知,其所属子系统分别为OSSc、 OSSd,其所对应MO对象分别为MOc、MOd;根据图9和图10所示的依赖关系,可以反向得到告警对(C,D)的依赖关系(即告警C和告警D之间的相关性)。本发明实施例,利用已确认的子系统之间的依赖关系以及告警对象之间的依赖关系,确认待预测的告警之间的相关性,增加对告警相关性分析的方法,提高告警分析以及根源推断的效率。
本发明实施例,在明确告警间相关性的基础上,根据告警中包含的子系统以及产生告警的对象等信息,挖掘告警对中的告警为根源告警的概率,以及告警所属资源实例的相关性等告警特征数据,进一步预测根源告警。即从业务关联逻辑和历史告警数据等多维度进行相关性分析和根因推断,提高告警分析以及根因的效率和准确性。区别于现有技术中,直接使用获得的关联规则对告警进行分析,本发明实施例中,根据获得的关联规则分析告警之后,进一步应用告警关联规则,提取告警集合的关键特征,不仅可以提高告警分析效率,还可实现在系统级以及设备级的相关性分析,满足电信运营的实际需求。
请参见图12,图12是本发明实施例提供的另一种告警分析方法的流程示意图,该告警分析方法应用于上述系统架构,且适用于上述图1所示的应用场景。其中,所述告警分析系统包括服务器(如EMS层以及NMS层的服务器)和终端(如NE层的网元设备),下面将结合附图12从服务器的单侧进行描述,该方法可以包括以下步骤S1201-步骤S1208。
步骤S1201:将所述第一告警集合对应的原始告警集合中每一个原始告警的告警字段转换为整型。
具体地,所述告警字段包括告警对象、告警源、告警发生时间、告警清除时间中的一个或者多个。例如,本发明实施例中将告警对象、告警源、告警发生时间、告警清除时间按照预设的方式,映射为整型。请参见图14,图14是本发明实施例提供的一种标准数据单元SDU 的数据结构。如图所示,告警子系统可以包括通信系统、硬件系统、运行系统等,告警对象 (类型)可以包括Cell、SCTLink、RRU、Board等。以图中的第一条告警记录(即标准化告警)为例进行描述,告警记录{BTS3900 LTE,宝物中HL1H,29204,08/27/2015 12:12:47,08/27/2015 13:13:56,eNodeB名称=武电HL1H,X2接口标识=4294967295,运营商索引=65535,描述信息=NULL,具体问题=底层链路故障产生,通信系统,Board},经预处理后转化为标准数据单元{BTS3900 LTE,1,1,99744,103413,eNodeB名称=武电HL1H,X2接口标识=4294967295,运营商索引=65535,描述信息=NULL,具体问题=底层链路故障产生,通信系统,Board}。本发明实施例对“29204”以及“BTS3900 LTE”等标准数据单元具体包含的内容种类不作限定,图中以及对应的描述都是示例性的描述。其中,“宝物中HL1H”映射为1(告警源,即Alarm Source),“宝物中HL1H”标识的是上报这条告警数据的网元名称,定位信息中的告警对象(此处的告警对象为具体故障定位)“X2接口故障告警”映射为1(告警ID,即Alarm ID),告警发生时间(即Occurrence Time)“08/27/2015 12:12:47”转换为99744,告警清除时间(即Clear Time)“08/27/2015 13:13:56”转换为103413,定位信息(即LocationInfo)包括eNodeB名称=武电HL1H,其中,“武电HL1H”标识的是上报该条告警数据的网元里面产生该条告警的具体eNodeB实例的名称,X2接口标识=4294967295,运营商索引=65535, 描述信息=NULL,具体问题=底层链路故障产生;告警所属子系统的类型(即AlarmType)为通信系统,告警对象的类型(即ObjType)为Board。
步骤S1202:过滤所述告警字段为无效整型的原始告警,得到L个标准化告警。
具体地,过滤无效告警(字段为无效值)记录,将提取的经过转换的告警以及包含的有效字段,生成标准数据单元(SDU)数据结构,即标准化告警;L为大于0的整数。
步骤S1203:确定第三告警集合。
具体地,所述第三告警集合包括所述L个标准化告警,步骤S1203中所述第三告警集合与步骤S1201中所述第一告警集合可以对应相同的原始告警集合,可选地,第三告警集合对应的原始告警集合也可以不同于步骤S1201中所述第一告警集合对应的原始告警集合。本发明实施例中的步骤S1201-步骤S1203,通过对原始告警的预处理,从而过滤无效告警。请参见图13,图13是本发明实施例提供的一种告警预处理的流程示意图,图中告警数据库(即告警DB)存储一个或者多个原始告警集合,转换告警字段,再生成标准化告警。通过数据的预处理,初步精简原始告警集合中的告警数量,减少了数据处理量,提高了告警分析效率。
步骤S1204:对所述L个标准化告警进行滑窗建模,得到K种网元类型的频繁告警子序列集。
具体地,根据告警包含的网元类型,确定第三告警集合中L个标准化告警一共对应的网元类型的种类(如,一共有K种网元类型)和数量,以及每种网元类型下各个告警源。所述标准化告警包括网元类型。K为大于0的整数,所述频繁告警子序列集包括频繁1项告警子序列集和频繁2项告警子序列集。本发明实施例,通过滑窗建模得到频繁告警子序列集,便于集中处理同一段时间内的系列告警。
在一种可能的实现方式中,所述标准化告警还包括所述告警源和所述告警发生时间;所述对所述L个标准化告警进行滑窗建模,得到K种网元类型的频繁告警子序列集,包括:根据所述L个标准化告警的网元类型和告警源,得到同种网元类型中相同的告警源发出的第五告警;按照所述第五告警中每一条告警的所述告警发生时间,升序排列所述第五告警;基于预设的滑窗宽度和滑动步长,通过构造的滑窗获取P个告警序列,所述告警序列包括同一所述滑窗内的一个或者多个第五告警,P为大于0的整数;统计所述P个告警序列包含的告警子序列的发生频次,得到所述相同告警源的频繁告警子序列集;分别累计同种网元类型中不同的告警源的频繁告警子序列集,得到所述K种网元类型的频繁告警子序列集。请参见图15,图15是本发明实施例提供的一种告警序列统计处理的流程示意图。如图所示,对输入告警数据(即图中的标准化告警集),按每个网元实例分别滑窗建模,统计每个网元实例的告警序列,对每个网元的告警序列计算频繁告警子序列计数,对每个网元实例的频繁告警子序列计数;将同类型网元频繁告警序列计数合并,对每种网元类型的频繁告警序列计数。本发明实施例对告警序列计数和统计网元类型种类以及判断告警源(或称网元实例)对应的网元类型等步骤的顺序不作限定。
因此,具体的频繁告警序列计数方式也可以包括以下步骤:1、对于输入标准数据单元集,按照告警源筛选告警数据。依据网元类型、告警源,按网元实例筛选出同一网元类型下相同告警源发出的所有告警。2、将步骤1得到的告警转化为告警序列。经过筛选的告警数据按照发生时间升序排序,然后按照用户输入的滑窗宽度和滑动步长参数,构造时间窗对排列好的告警数据进行截取,将同一时间窗内的所有告警作为一条告警序列。其中,同一时间窗内相同告警名称若多次出现,则处理为重复告警,仅以该告警首次出现为准,过滤掉后续出现的告警;滑动窗口同时考虑相邻告警之间的间隔和滑动步长。以告警所处的时刻为准,滑动到超过步长(步长=时间窗宽度/滑动步长)的首个告警事件,按照这样的方式顺次推进滑动窗口,随着时间窗不断滑动,将告警记录逐渐转化为告警序列。3、对滑窗后生成的所有告警序列内的告警子序列进行计数,统计出各告警子序列的发生频次。按WINEPI算法通过候选集- 频繁集的架构方式生成频繁1项告警子序列集,频繁2项告警子序列集。4、将相同网元类型下不同告警源的告警子序列计数累积在一起作为最终的告警子序列计数结果。告警序列集个数相加,相同的频繁告警子序列(序列中元素不分先后顺序)计数相加,频繁告警子序列集取并集。
对于上述步骤S1204中如何对标准化告警进行滑窗建模,示例性地列举以下2个例子。
例1,请参见图16,图16是本发明实施例提供的网元实例一的滑窗建模流程示意图,如图所示,按照图15所示方法或者前述具体的频繁告警序列计数方式,通过告警序列去重,将实例转化为序列的种类。
以BTS3900 LTE网元类型中网元实例计算频繁告警序列计数为例,其中Ai~Gi代表告警实例,A~G代表告警种类,比如Ai、Aj等都是A告警种类的实例,依次类推。假设告警发生时间间隔是1s,算法时间窗口为4s,滑窗步长为2s。
Step1:针对网元实例1的告警数据进行滑窗建模,形成告警序列集S1~S6;
Step2:针对S1~S6告警去重和实例转种类得到告警序列集;
Step3:基于告警序列集计算频繁告警序列计数,得到频繁告警序列计数集。
BTS 3900 LTE网元实例1的频繁告警序列计数集(告警子序列S1~S6个数为6
个),具体如下:
1-项告警子序列集:A(4),E(3),C(4),G(2),B(3),D(4),F(2);
2-项告警子序列集:AE(2),AC(3),EC(1),CG(1),CB(2),AG(1),AB(1),GB(2),BC(2)。
其中,所述括号中的数字为频繁告警序列计数,比如A(4)表示A在4个告警序列中出现过,AE(2)表示AE同时在2个告警序列中出现过。
例2,请参见图17,图17是本发明实施例提供的网元实例二的滑窗建模流程示意图,如图所示,按照图15所示方法或者前述具体的频繁告警序列计数方式,通过告警序列去重,将实例转化为序列的种类。
同理,采用前述的Step1~Step3对同类型的BTS 3900 LTE网元实例2计算频繁告警序列计数,生成频繁告警序列计数集(告警子序列S1~S6个数为6个),具体如下:
1-项告警序列集:E(3),B(3),A(4),C(3),D(3),G(3),F(2);
2-项告警序列集:EB(1),EA(3),BA(2),AC(2),BC(2),BD(1),BG(1)。
将相同网元类型的两个网元实例(即上述网元实例1和网元实例2)的频繁告警序列计数加法合并得到BTS 3900 LTE网元类型的频繁告警序列计数集(告警子序列个数为12个),具体如下:
1-项告警子序列集(即频繁1项告警子序列集):A(8),E(6),C(7),G(5),B(6),D(7),F(4);
2-项告警子序列集(即频繁2项告警子序列集):
AE(5),AC(5),EC(1),CG(1),CB(4),AG(1),AB(3),GB(3),BC(2),EB(1),BD(1)。
步骤S1205:根据所述频繁2项告警子序列集中置信度超过预设阈值的告警子序列和预设的筛选方法,生成所述关联规则。
具体地,从告警序列统计获得的各网元频繁告警子序列集中,提取符合包含关系的告警子序列对组合生成关联规则。所述生成方式可以包括:取超过频次门限(即预设阈值)的告警序列,组合生成关联规则(或者目标规则,目标规则为需要结合预设筛选方法进行筛选的关联规则,经过筛选后的关联规则为最终的关联规则;当所述预设的筛选方法没有设置的情况下,目标规则即为所述最终的关联规则)。其中,所述置信度表示告警子序列集中所有包含告警1和告警2的告警序列个数与告警子序列集中所有包含告警1的告警序列数之比。本发明实施例,以置信度作为关联规则的生成条件,筛选了部分冗余的规则,提高了获得的关联规则的可信度。例如,根据频繁告警序列计数集计算2项告警子序列的置信度,以所述 BTS3900 LTE网元实例1为例进行描述,其告警子序列集个数为6;1-项告警子序列集: A(4),E(3),C(4),G(2),B(3),D(4),F(2);
2-项告警子序列集:AE(2),AC(3),EC(1),CG(1),CB(2),AG(1),AB(1),GB(2),BC(2)。
其中,AE(5)是一个频繁2项告警子序列,假设预设置信度的阈值为0.6,那么关联规则A→E的置信度为A和E同时出现的计数2除以A出现的计数4,即2/4=0.5;而关联规则 E→A的置信度为A和E同时出现的计数2除以E出现的计数3,即2/3=0.6667,最后获得关联规则为E→A。
在一种可能的实现方式中,所述预设的筛选方法,包括:计算第一关联规则的第一置信度和第二关联规则的第二置信度,所述第一关联规则和所述第二关联规则为一对或者多对对应相同告警的关联规则;比较所述第一置信度和所述第二置信度的大小,得到置信度大的关联规则作为所述关联规则。本发明实施例,根据一对或者多对对应相同告警的关联规则的置信度的大小,保留置信度大的关联规则(即该关联规则优先级更高),进行冗余规则处理而精简了规则的数量,保留了更加准确有效的关联规则,便于后续高效地应用关联规则。例如,筛选目标规则并剔除符合冗余类型的规则,所述筛选方法可以为:对于频繁告警子序列生成的告警关联规则,若关联规则A→B和关联规则B→A同时存在,取置信度大的规则。
在一种可能的实现方式中,所述告警字段还包括告警定位信息;所述预设的筛选方法,包括:计算第一关联规则的第一置信度和第二关联规则的第二置信度,所述第一关联规则和所述第二关联规则为多对对应相同告警的关联规则;比较所述第一置信度和所述第二置信度的大小,得到置信度大的多个第三关联规则;判断所述多个第三关联规则中第四关联规则对应的告警对有无相同的所述告警定位信息,所述第四关联规则为所述对应的告警对中的每一个告警均与同一个告警具有相关性的关联规则;若无相同的所述告警定位信息,抑制所述第四关联规则;得到除抑制的第四关联规则之外的多个第三关联规则,作为所述关联规则。本发明实施例,先对目标规则中的冗余规则进行处理,然后进行抑制规则处理,将最后剩余的规则作为最终的关联规则输出,请参见图18,图18是本发明实施例提供的一种关联规则筛选流程示意图,经过冗余规则处理,抑制规则处理,输出关联规则,提高了关联规则的质量和减少多余的规则,加快了处理效率。例如,没有公共定位参数(即告警定位信息)的两个告警对应的关联规则设置规则进行抑制。当A→B并且有公共定位参数,B→C并且有公共定位参数,A→C并且没有公共定位参数,则抑制A→C;同理,再存在C→D并且有公共定位参数,B→D并且没有公共定位参数,A→D并且没有公共定位参数,则抑制B→D和A→D,依次类推。
步骤S1206:根据所述关联规则,从第一告警集合中确定M个告警对。
具体地,在生成关联规则的过程中以及结合生成的关联规则,最终确定了M个告警对。所述第一告警集合中的每一个告警包括告警所属的子系统和所述告警对应的告警对象。本发明实施例,根据关联规则分析第一告警集合中告警之间的相关性,得到M个告警对,所述关联规则的来源包括基于专家知识的累积得到以及根据告警关联分析而学习得到。保障了告警对之中的两个告警之间存在较强的相关性,以及明确告警之间的衍生关系。
步骤S1207:根据关联规则生成所述M个告警对中以第一告警为告警对根源的N个告警对的第一特征集合。
具体地,请参见步骤S502。
步骤S1208:根据所述第一概率和所述第二概率,确定所述第一告警集合的根源信息。
具体地,请参见步骤S503。
本发明实施例,通过对告警的相关性进行分析而得到的关联规则,结合由专家经验得到固化关联规则,梳理告警集合中告警之间的衍生关系,再根据告警中包含的子系统以及产生告警的对象等信息,挖掘告警对中的告警为根源告警的概率,以及告警所属资源实例的相关性,利用分类算法预测根源告警,便于从业务关联逻辑和历史告警数据等多维度进行相关性分析,基于关联规则过滤和压缩告警数据而实现告警数据精简,提高告警根因的判断效率和准确性。不仅能够根据告警集合的关键特征,更新和调整关联规则,增强了关联规则的适用性,同时降低对专家知识的依赖,还对告警关联规则进行二次挖掘,实现在系统级以及设备级的相关性分析,满足实际电信网络的运营需求。
上述详细阐述了本发明实施例的方法,下面提供了本发明实施例的相关装置。
请参见图19,图19是本发明实施例提供的一种告警分析装置的结构示意图,所述告警分析装置10包括确定单元101、生成单元102、分析单元103、反向推断单元104、预处理单元105、规则分析单元106、序列统计单元107、生成规则单元108、第一筛选单元109和第二筛选单元110,可选的还可以包括反向推断单元104、预处理单元105、规则分析单元106、序列统计单元107、生成规则单元108、第一筛选单元109和第二筛选单元110。其中,
确定单元101,用于从第一告警集合中确定M个告警对,所述M个告警对中的每一个告警对包括具有相关性的第一告警和第二告警,M为大于0的整数;
生成单元102,用于根据关联规则生成所述M个告警对中以第一告警为告警对根源的N 个告警对的第一特征集合,其中,所述第一特征集合包括所述N个告警对中每一个第一告警所属的第一子系统为子系统根源且对应的第一告警对象为告警对象根源的第一概率、每一个第二告警所属的第二子系统为子系统根源且对应的第二告警对象为告警对象根源的第二概率, N为大于0且小于M的整数;
分析单元103,用于根据所述第一概率和所述第二概率,确定所述第一告警集合的根源信息,所述根源信息包括所述第一告警集合中的根源告警、根源子系统和根源告警对象中的一个或者多个。
在一种可能的实现方式中,所述生成单元102具体用于:根据所述关联规则,判断所述 M个告警对每一个告警对的告警对根源;统计所述第一子系统为子系统根源且所述第一告警对象为告警对象根源的次数,计算所述第一概率,统计所述第二子系统为子系统根源且所述第二告警对象为告警对象根源的次数,计算所述第二概率;获得以第一告警为告警对根源的 N个告警对的第一特征集合。
在一种可能的实现方式中,所述装置还包括反向推断单元104,用于:确定第三告警所属的第三子系统以及对应的第三告警对象,第四告警所属的第四子系统以及对应的第四告警对象,所述第三告警和所述第四告警为第二告警集合中的任意两个告警;根据所述关联规则生成所述M个告警对的第二特征集合;根据所述第二特征集合,确定所述第三子系统和所述第四子系统之间的第一相关性,所述第三告警对象和所述第四告警对象之间的第二相关性;根据所述第一相关性和所述第二相关性,判断所述第三告警和所述第四告警之间是否存在相关性。
在一种可能的实现方式中,所述根源信息包括所述第一告警集合中的根源告警、根源子系统和根源告警对象;所述分析单元103,具体用于:将所述第一特征集合作为随机森林算法的训练数据集合,根据对所述第一概率和所述第二概率的计算,分类得到所述根源告警、所述根源子系统和所述根源告警对象。
在一种可能的实现方式中,所述确定单元101,具体用于:根据所述关联规则,从第一告警集合中确定M个告警对,所述第一告警集合中的每一个告警包括告警所属的子系统和所述告警对应的告警对象。
在一种可能的实现方式中,所述装置还包括,预处理单元105,用于在根据所述关联规则,从第一告警集合中确定M个告警对之前,将所述第一告警集合对应的原始告警集合中每一个原始告警的告警字段转换为整型,所述告警字段包括告警对象、告警源、告警发生时间、告警清除时间中的一个或者多个;过滤所述告警字段为无效整型的原始告警,得到L个标准化告警,L为大于0的整数;确定第三告警集合,所述第三告警集合包括所述L个标准化告警。
在一种可能的实现方式中,所述标准化告警包括网元类型;所述装置还包括规则分析单元106,所述规则生成单元包括序列统计单元107和生成规则单元108;所述序列统计单元 107,用于在确定第三告警集合之后,对所述L个标准化告警进行滑窗建模,得到K种网元类型的频繁告警子序列集,K为大于0的整数,所述频繁告警子序列集包括频繁1项告警子序列集和频繁2项告警子序列集;所述生成规则单元108,用于根据所述频繁2项告警子序列集中置信度超过预设阈值的告警子序列和预设的筛选方法,生成所述关联规则。
在一种可能的实现方式中,所述标准化告警还包括所述告警源和所述告警发生时间;所述序列统计单元107,具体用于:根据所述L个标准化告警的网元类型和告警源,得到同种网元类型中相同的告警源发出的第五告警;按照所述第五告警中每一条告警的所述告警发生时间,升序排列所述第五告警;基于预设的滑窗宽度和滑动步长,通过构造的滑窗获取P个告警序列,所述告警序列包括同一所述滑窗内的一个或者多个第五告警,P为大于0的整数;统计所述P个告警序列包含的告警子序列的发生频次,得到所述相同告警源的频繁告警子序列集;分别累计同种网元类型中不同的告警源的频繁告警子序列集,得到所述K种网元类型的频繁告警子序列集。
在一种可能的实现方式中,所述装置还包括第一筛选单元109,用于:计算第一关联规则的第一置信度和第二关联规则的第二置信度,所述第一关联规则和所述第二关联规则为一对或者多对对应相同告警的关联规则;比较所述第一置信度和所述第二置信度的大小,得到置信度大的关联规则作为所述关联规则。
在一种可能的实现方式中,所述告警字段还包括告警定位信息;所述装置还包括第二筛选单元110,用于:计算第一关联规则的第一置信度和第二关联规则的第二置信度,所述第一关联规则和所述第二关联规则为多对对应相同告警的关联规则;比较所述第一置信度和所述第二置信度的大小,得到置信度大的多个第三关联规则;判断所述多个第三关联规则中第四关联规则对应的告警对有无相同的所述告警定位信息,所述第四关联规则为所述对应的告警对中的每一个告警均与同一个告警具有相关性的关联规则;若无相同的所述告警定位信息,抑制所述第四关联规则;得到除抑制的第四关联规则之外的多个第三关联规则,作为所述关联规则。
需要说明的是,本发明实施例中所描述的告警分析装置可参见上述图5和图12中所述的方法实施例中的告警分析方法的相关描述,此处不再赘述。
如图20所示,图20是本发明实施例提供的一种设备的结构示意图。告警分析装置10,可以以图20中的结构来实现,该设备20包括至少一个处理器201,至少一个存储器202、至少一个通信接口203。此外,该设备还可以包括天线等通用部件,在此不再详述。
处理器201可以是通用中央处理器(CPU),微处理器,特定应用集成电路(application-specific integrated circuit,ASIC),或一个或多个用于控制以上方案程序执行的集成电路。
通信接口203,用于与其他设备或通信网络通信。
存储器202可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(ElectricallyErasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory, CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过总线与处理器相连接。存储器也可以和处理器集成在一起。
其中,所述存储器202用于存储执行以上方案的应用程序代码,并由处理器201来控制执行。所述处理器201用于执行所述存储器202中存储的应用程序代码。
图19所示的设备为告警分析装置时,存储器202存储的代码可执行以上图5或者图12 提供的告警分析方法,比如,从第一告警集合中确定M个告警对;根据关联规则生成所述M 个告警对中以第一告警为告警对根源的N个告警对的第一特征集合;根据所述第一概率和所述第二概率,确定所述第一告警集合的根源信息。
需要说明的是,本发明实施例中所描述的设备20的功能可参见上述图5和图12中的所述的方法实施例中的相关描述,此处不再赘述。
本发明实施例还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序可以执行包括上述图1-图18对应的方法实施例中记载的任意一种的部分或全部步骤。
本发明实施例还提供一种计算机程序,该计算机程序包括指令,当该计算机程序被计算机执行时,使得计算机可以执行上述图1-图18对应的方法实施例中记载的任意一种的部分或全部步骤。
本发明实施例还提供一种服务器,该服务器包括处理器和存储器,所述处理器调用所述存储器中存储的所述可执行程序代码,可以执行上述图1-图18对应的方法实施例中记载的任意一种的部分或全部步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可能可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等,具体可以是计算机设备中的处理器)执行本申请各个实施例上述方法的全部或部分步骤。其中,而前述的存储介质可包括:U盘、移动硬盘、磁碟、光盘、只读存储器(Read-Only Memory,缩写:ROM)或者随机存取存储器(Random Access Memory,缩写:RAM)等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (22)

1.一种告警分析方法,其特征在于,所述方法包括:
从第一告警集合中确定M个告警对,所述M个告警对中的每一个告警对包括具有相关性的第一告警和第二告警,M为大于0的整数;
根据关联规则生成所述M个告警对中以第一告警为告警对根源的N个告警对的第一特征集合,其中,所述第一特征集合包括所述N个告警对中每一个第一告警所属的第一子系统为子系统根源且对应的第一告警对象为告警对象根源的第一概率、每一个第二告警所属的第二子系统为子系统根源且对应的第二告警对象为告警对象根源的第二概率,N为大于0且小于M的整数;
根据所述第一概率和所述第二概率,确定所述第一告警集合的根源信息,所述根源信息包括所述第一告警集合中的根源告警、根源子系统和根源告警对象中的一个或者多个;
所述第一概率为第一告警所属的第一子系统为子系统根源且对应的第一告警对象为告警对象根源的概率;所述第二概率为第二告警所属的第二子系统为子系统根源且对应的第二告警对象为告警对象根源的概率。
2.根据权利要求1所述的方法,其特征在于,所述根据关联规则生成所述M个告警对中以第一告警为告警对根源的N个告警对的第一特征集合,包括:
根据所述关联规则,判断所述M个告警对每一个告警对的告警对根源;
统计所述第一子系统为子系统根源且所述第一告警对象为告警对象根源的次数,计算所述第一概率,统计所述第二子系统为子系统根源且所述第二告警对象为告警对象根源的次数,计算所述第二概率;
获得以第一告警为告警对根源的N个告警对的第一特征集合。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定第三告警所属的第三子系统以及对应的第三告警对象,第四告警所属的第四子系统以及对应的第四告警对象,所述第三告警和所述第四告警为第二告警集合中的任意两个告警;
根据所述关联规则生成所述M个告警对的第二特征集合,所述第二特征集合包括所述M个告警对中每一个第一告警所属的第一子系统为子系统根源且对应的第一告警对象为告警对象根源的第一概率、每一个第二告警所属的第二子系统为子系统根源且对应的第二告警对象为告警对象根源的第二概率;
根据所述第二特征集合,确定所述第三子系统和所述第四子系统之间的第一相关性,所述第三告警对象和所述第四告警对象之间的第二相关性;
根据所述第一相关性和所述第二相关性,判断所述第三告警和所述第四告警之间是否存在相关性。
4.根据权利要求1所述的方法,其特征在于,所述根源信息包括所述第一告警集合中的根源告警、根源子系统和根源告警对象;所述根据所述第一概率和所述第二概率,确定所述第一告警集合的根源信息,包括:
将所述第一特征集合作为随机森林算法的训练数据集合,根据对所述第一概率和所述第二概率的计算,分类得到所述根源告警、所述根源子系统和所述根源告警对象。
5.根据权利要求1所述的方法,其特征在于,所述从第一告警集合中确定M个告警对,包括:
根据所述关联规则,从第一告警集合中确定M个告警对,所述第一告警集合中的每一个告警包括告警所属的子系统和所述告警对应的告警对象。
6.根据权利要求5所述的方法,其特征在于,所述根据所述关联规则,从第一告警集合中确定M个告警对之前,还包括:
将所述第一告警集合对应的原始告警集合中每一个原始告警的告警字段转换为整型,所述告警字段包括告警对象、告警源、告警发生时间、告警清除时间中的一个或者多个;
过滤所述告警字段为无效整型的原始告警,得到L个标准化告警,L为大于0的整数;
确定第三告警集合,所述第三告警集合包括所述L个标准化告警。
7.根据权利要求6所述的方法,其特征在于,所述标准化告警包括网元类型;所述确定第三告警集合之后,包括:
对所述L个标准化告警进行滑窗建模,得到K种网元类型的频繁告警子序列集,K为大于0的整数,所述频繁告警子序列集包括频繁1项告警子序列集和频繁2项告警子序列集;
根据所述频繁2项告警子序列集中置信度超过预设阈值的告警子序列和预设的筛选方法,生成所述关联规则。
8.根据权利要求7所述的方法,其特征在于,所述标准化告警还包括所述告警源和所述告警发生时间;所述对所述L个标准化告警进行滑窗建模,得到K种网元类型的频繁告警子序列集,包括:
根据所述L个标准化告警的网元类型和告警源,得到同种网元类型中相同的告警源发出的第五告警;
按照所述第五告警中每一条告警的所述告警发生时间,升序排列所述第五告警;
基于预设的滑窗宽度和滑动步长,通过构造的滑窗获取P个告警序列,所述告警序列包括同一所述滑窗内的一个或者多个第五告警,P为大于0的整数;
统计所述P个告警序列包含的告警子序列的发生频次,得到相同告警源的频繁告警子序列集;
分别累计同种网元类型中不同的告警源的频繁告警子序列集,得到所述K种网元类型的频繁告警子序列集。
9.根据权利要求7所述的方法,其特征在于,所述预设的筛选方法,包括:
计算第一关联规则的第一置信度和第二关联规则的第二置信度,所述第一关联规则和所述第二关联规则为一对或者多对对应相同告警的关联规则;
比较所述第一置信度和所述第二置信度的大小,得到置信度大的关联规则作为所述关联规则。
10.根据权利要求7所述的方法,其特征在于,所述告警字段还包括告警定位信息;所述预设的筛选方法,包括:
计算第一关联规则的第一置信度和第二关联规则的第二置信度,所述第一关联规则和所述第二关联规则为多对对应相同告警的关联规则;
比较所述第一置信度和所述第二置信度的大小,得到置信度大的多个第三关联规则;
判断所述多个第三关联规则中第四关联规则对应的告警对有无相同的所述告警定位信息,所述第四关联规则为所述对应的告警对中的每一个告警均与同一个告警具有相关性的关联规则;
若无相同的所述告警定位信息,抑制所述第四关联规则;
得到除抑制的第四关联规则之外的多个第三关联规则,作为所述关联规则。
11.一种告警分析装置,其特征在于,所述装置包括:
确定单元,用于从第一告警集合中确定M个告警对,所述M个告警对中的每一个告警对包括具有相关性的第一告警和第二告警,M为大于0的整数;
生成单元,用于根据关联规则生成所述M个告警对中以第一告警为告警对根源的N个告警对的第一特征集合,其中,所述第一特征集合包括所述N个告警对中每一个第一告警所属的第一子系统为子系统根源且对应的第一告警对象为告警对象根源的第一概率、每一个第二告警所属的第二子系统为子系统根源且对应的第二告警对象为告警对象根源的第二概率,N为大于0且小于M的整数;
分析单元,用于根据所述第一概率和所述第二概率,确定所述第一告警集合的根源信息,所述根源信息包括所述第一告警集合中的根源告警、根源子系统和根源告警对象中的一个或者多个;
所述第一概率为第一告警所属的第一子系统为子系统根源且对应的第一告警对象为告警对象根源的概率;所述第二概率为第二告警所属的第二子系统为子系统根源且对应的第二告警对象为告警对象根源的概率。
12.根据权利要求11所述的装置,其特征在于,所述生成单元具体用于:
根据所述关联规则,判断所述M个告警对每一个告警对的告警对根源;
统计所述第一子系统为子系统根源且所述第一告警对象为告警对象根源的次数,计算所述第一概率,统计所述第二子系统为子系统根源且所述第二告警对象为告警对象根源的次数,计算所述第二概率;
获得以第一告警为告警对根源的N个告警对的第一特征集合。
13.根据权利要求11所述的装置,其特征在于,所述装置还包括反向推断单元,用于:
确定第三告警所属的第三子系统以及对应的第三告警对象,第四告警所属的第四子系统以及对应的第四告警对象,所述第三告警和所述第四告警为第二告警集合中的任意两个告警;
根据所述关联规则生成所述M个告警对的第二特征集合;
根据所述第二特征集合,确定所述第三子系统和所述第四子系统之间的第一相关性,所述第三告警对象和所述第四告警对象之间的第二相关性;
根据所述第一相关性和所述第二相关性,判断所述第三告警和所述第四告警之间是否存在相关性。
14.根据权利要求11所述的装置,其特征在于,所述根源信息包括所述第一告警集合中的根源告警、根源子系统和根源告警对象;所述分析单元,具体用于:
将所述第一特征集合作为随机森林算法的训练数据集合,根据对所述第一概率和所述第二概率的计算,分类得到所述根源告警、所述根源子系统和所述根源告警对象。
15.根据权利要求11所述的装置,其特征在于,所述确定单元,具体用于:
根据所述关联规则,从第一告警集合中确定M个告警对,所述第一告警集合中的每一个告警包括告警所属的子系统和所述告警对应的告警对象。
16.根据权利要求15所述的装置,其特征在于,所述装置还包括,预处理单元,用于在根据所述关联规则,从第一告警集合中确定M个告警对之前,
将所述第一告警集合对应的原始告警集合中每一个原始告警的告警字段转换为整型,所述告警字段包括告警对象、告警源、告警发生时间、告警清除时间中的一个或者多个;
过滤所述告警字段为无效整型的原始告警,得到L个标准化告警,L为大于0的整数;
确定第三告警集合,所述第三告警集合包括所述L个标准化告警。
17.根据权利要求16所述的装置,其特征在于,所述标准化告警包括网元类型;所述装置还包括规则分析单元,所述规则生成单元包括序列统计单元和生成规则单元;
所述序列统计单元,用于在确定第三告警集合之后,对所述L个标准化告警进行滑窗建模,得到K种网元类型的频繁告警子序列集,K为大于0的整数,所述频繁告警子序列集包括频繁1项告警子序列集和频繁2项告警子序列集;
所述生成规则单元,用于根据所述频繁2项告警子序列集中置信度超过预设阈值的告警子序列和预设的筛选方法,生成所述关联规则。
18.根据权利要求17所述的装置,其特征在于,所述标准化告警还包括所述告警源和所述告警发生时间;所述序列统计单元,具体用于:
根据所述L个标准化告警的网元类型和告警源,得到同种网元类型中相同的告警源发出的第五告警;
按照所述第五告警中每一条告警的所述告警发生时间,升序排列所述第五告警;
基于预设的滑窗宽度和滑动步长,通过构造的滑窗获取P个告警序列,所述告警序列包括同一所述滑窗内的一个或者多个第五告警,P为大于0的整数;
统计所述P个告警序列包含的告警子序列的发生频次,得到相同告警源的频繁告警子序列集;
分别累计同种网元类型中不同的告警源的频繁告警子序列集,得到所述K种网元类型的频繁告警子序列集。
19.根据权利要求17所述的装置,其特征在于,所述装置还包括第一筛选单元,用于:
计算第一关联规则的第一置信度和第二关联规则的第二置信度,所述第一关联规则和所述第二关联规则为一对或者多对对应相同告警的关联规则;
比较所述第一置信度和所述第二置信度的大小,得到置信度大的关联规则作为所述关联规则。
20.根据权利要求17所述的装置,其特征在于,所述告警字段还包括告警定位信息;所述装置还包括第二筛选单元,用于:
计算第一关联规则的第一置信度和第二关联规则的第二置信度,所述第一关联规则和所述第二关联规则为多对对应相同告警的关联规则;
比较所述第一置信度和所述第二置信度的大小,得到置信度大的多个第三关联规则;
判断所述多个第三关联规则中第四关联规则对应的告警对有无相同的所述告警定位信息,所述第四关联规则为所述对应的告警对中的每一个告警均与同一个告警具有相关性的关联规则;
若无相同的所述告警定位信息,抑制所述第四关联规则;
得到除抑制的第四关联规则之外的多个第三关联规则,作为所述关联规则。
21.一种芯片系统,其特征在于,所述芯片系统包括至少一个处理器,存储器和接口电路,所述存储器、所述接口电路和所述至少一个处理器通过线路互联,所述至少一个存储器中存储有指令;所述指令被所述处理器执行时,权利要求1-10中任意一项所述的方法得以实现。
22.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述权利要求1-10任意一项所述的方法。
CN201910442803.5A 2019-05-25 2019-05-25 一种告警分析方法、装置、芯片系统、存储介质 Active CN112073208B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201910442803.5A CN112073208B (zh) 2019-05-25 2019-05-25 一种告警分析方法、装置、芯片系统、存储介质
PCT/CN2020/091938 WO2020238810A1 (zh) 2019-05-25 2020-05-22 一种告警分析方法及相关设备
EP20812553.4A EP3965371A4 (en) 2019-05-25 2020-05-22 ALARM ANALYSIS PROCESS AND ASSOCIATED DEVICE
US17/534,632 US11996974B2 (en) 2019-05-25 2021-11-24 Alarm analysis method and related device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910442803.5A CN112073208B (zh) 2019-05-25 2019-05-25 一种告警分析方法、装置、芯片系统、存储介质

Publications (2)

Publication Number Publication Date
CN112073208A CN112073208A (zh) 2020-12-11
CN112073208B true CN112073208B (zh) 2022-01-14

Family

ID=73552148

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910442803.5A Active CN112073208B (zh) 2019-05-25 2019-05-25 一种告警分析方法、装置、芯片系统、存储介质

Country Status (4)

Country Link
US (1) US11996974B2 (zh)
EP (1) EP3965371A4 (zh)
CN (1) CN112073208B (zh)
WO (1) WO2020238810A1 (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11888679B2 (en) * 2020-09-25 2024-01-30 Juniper Networks, Inc. Hypothesis driven diagnosis of network systems
CN114721912A (zh) * 2021-01-04 2022-07-08 腾讯科技(深圳)有限公司 一种数据分析方法、装置、设备及介质
CN112699007A (zh) * 2021-01-04 2021-04-23 网宿科技股份有限公司 监控机器性能的方法、系统、网络设备及存储介质
CN114064421B (zh) * 2021-11-16 2022-04-22 展讯通信(上海)有限公司 告警处理方法及装置
CN114448774B (zh) * 2021-12-16 2023-12-05 武汉光迅科技股份有限公司 告警处理方法、装置和存储介质
CN114513802B (zh) * 2022-01-04 2023-06-09 武汉烽火技术服务有限公司 一种基于事件流的承载网故障分析方法及装置
CN114389960B (zh) * 2022-01-04 2023-11-28 烽火通信科技股份有限公司 一种网络业务性能采集上报的方法和系统
US11722358B1 (en) * 2022-03-03 2023-08-08 Arista Networks, Inc. Root cause analysis for operational issues using a rules mining algorithm
CN114760186B (zh) * 2022-03-23 2024-05-28 深信服科技股份有限公司 告警分析方法、装置、电子设备及存储介质
CN114968727B (zh) * 2022-06-29 2023-02-10 北京柏睿数据技术股份有限公司 基于人工智能运维的数据库贯穿基础设施的故障定位方法
WO2024025549A1 (en) * 2022-07-29 2024-02-01 Rakuten Mobile, Inc. System, method, and non-transitory computer-readable media for defining logical dependency of alarm attributes
WO2024025554A1 (en) * 2022-07-29 2024-02-01 Rakuten Mobile, Inc. System, method, and non-transitory computer-readable media for providing subsequent and correlated alarm lists
CN116132257A (zh) * 2022-11-25 2023-05-16 浪潮通信信息系统有限公司 基于流式计算的衍生告警确定方法和装置
CN115941446A (zh) * 2022-12-27 2023-04-07 中国联合网络通信集团有限公司 告警根因定位方法、装置、电子设备和计算机可读介质
CN116016121B (zh) * 2023-03-24 2023-07-18 卡奥斯工业智能研究院(青岛)有限公司 告警数据的关联数据确定方法、装置、设备及存储介质
CN117274005B (zh) * 2023-11-21 2024-02-09 西昌学院 基于数字教育的大数据推送方法及系统

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7058707B1 (en) * 2000-08-01 2006-06-06 Qwest Communications International, Inc. Performance modeling in a VDSL network
US7032016B2 (en) * 2000-08-01 2006-04-18 Qwest Communications International, Inc. Proactive service request management and measurement
US7631058B2 (en) * 2001-10-12 2009-12-08 International Business Machines Corporation Systems and methods for validation, completion and construction of event relationship networks
GB2406741B (en) * 2003-09-30 2006-04-12 Siemens Ag A method and apparatus for identifying faults in a network that has generated a plurality of fault alarms
EP1976185B1 (en) * 2007-03-27 2019-05-01 Nokia Solutions and Networks GmbH & Co. KG Operating network entities in a communication system comprising a management network with agent and management levels
PL2392099T3 (pl) * 2009-02-02 2018-02-28 Nokia Solutions And Networks Oy Komunikowanie zdarzenia w sieci
CN101997709B (zh) * 2009-08-10 2014-03-12 中兴通讯股份有限公司南京分公司 一种根告警数据分析的方法及其系统
EP2566103B1 (en) * 2011-08-29 2017-08-02 Alcatel Lucent Apparatus and method for correlating faults in an information carrying network
WO2013149870A1 (en) * 2012-04-05 2013-10-10 Telefonaktiebolaget L M Ericsson (Publ) Method and system for managing actions implemented on a network element within a telecommunications network
CN103346912B (zh) * 2013-06-29 2017-04-12 华为技术有限公司 告警相关性分析的方法、装置及系统
US9491076B2 (en) * 2014-01-06 2016-11-08 Cisco Technology, Inc. Learning end-to-end delays in computer networks from sporadic round-trip delay probing
CN104348667B (zh) * 2014-11-11 2017-12-29 上海新炬网络技术有限公司 基于告警信息的故障定位方法
CN105991332A (zh) * 2015-01-27 2016-10-05 中兴通讯股份有限公司 告警处理方法及装置
EP3633922A1 (en) 2015-02-12 2020-04-08 Huawei Technologies Co. Ltd. Alarm information processing method, related device, and system
US10148489B2 (en) * 2015-09-01 2018-12-04 At&T Intellectual Property I, L.P. Service impact event analyzer for cloud SDN service assurance
US10999155B2 (en) * 2017-10-26 2021-05-04 Cisco Technology, Inc. System and method for hybrid and elastic services
CN108156037B (zh) * 2017-12-29 2020-12-15 中国移动通信集团江苏有限公司 告警关联分析方法、装置、设备及介质
US11080619B2 (en) * 2018-01-08 2021-08-03 Cisco Technology, Inc. Predicting wireless access point radio failures using machine learning
US10742486B2 (en) * 2018-01-08 2020-08-11 Cisco Technology, Inc. Analyzing common traits in a network assurance system
CN110086640B (zh) * 2018-01-26 2022-01-14 华为技术有限公司 业务使能的方法和装置
CN108600009B (zh) * 2018-04-25 2021-03-30 北京思特奇信息技术股份有限公司 一种基于告警数据分析的网络告警根源定位方法
CN108768753B (zh) * 2018-06-26 2022-03-25 腾讯科技(深圳)有限公司 告警源的定位方法、装置、存储介质及电子装置
CN109450677B (zh) * 2018-10-29 2021-07-13 中国联合网络通信集团有限公司 一种根源故障的定位方法和装置
US11271795B2 (en) * 2019-02-08 2022-03-08 Ciena Corporation Systems and methods for proactive network operations

Also Published As

Publication number Publication date
WO2020238810A1 (zh) 2020-12-03
CN112073208A (zh) 2020-12-11
EP3965371A4 (en) 2022-09-07
US11996974B2 (en) 2024-05-28
US20220086036A1 (en) 2022-03-17
EP3965371A1 (en) 2022-03-09

Similar Documents

Publication Publication Date Title
CN112073208B (zh) 一种告警分析方法、装置、芯片系统、存储介质
CN111885012B (zh) 基于多种网络设备信息采集的网络态势感知方法及系统
CN110351118B (zh) 根因告警决策网络构建方法、装置和存储介质
CN109684181B (zh) 告警根因分析方法、装置、设备及存储介质
US10225165B2 (en) Apparatus and method for processing data streams in a communication network
CN109189736B (zh) 一种告警关联规则的生成方法和装置
US11966319B2 (en) Identifying anomalies in a data center using composite metrics and/or machine learning
US9379949B2 (en) System and method for improved end-user experience by proactive management of an enterprise network
CN109120463B (zh) 流量预测方法及装置
US11321155B2 (en) Automatic resource dependency tracking and structure for maintenance of resource fault propagation
Wang et al. Efficient alarm behavior analytics for telecom networks
US20150207696A1 (en) Predictive Anomaly Detection of Service Level Agreement in Multi-Subscriber IT Infrastructure
CN112769605B (zh) 一种异构多云的运维管理方法及混合云平台
US20180248745A1 (en) Method and network node for localizing a fault causing performance degradation of a service
WO2011017955A1 (zh) 一种告警数据分析的方法及其系统
WO2023071761A1 (zh) 一种异常定位方法及装置
CN111669281A (zh) 告警分析方法、装置、设备及存储介质
US20210359899A1 (en) Managing Event Data in a Network
CN114090393A (zh) 一种告警级别的确定方法、装置及设备
CN116974805A (zh) 根因确定方法、设备和存储介质
CN115718691A (zh) 微服务系统的故障根因定位方法、装置和设备
Mijumbi et al. MAYOR: machine learning and analytics for automated operations and recovery
Kilinçer et al. Automatic fault detection with Bayes method in university campus network
US20090144214A1 (en) Data Processing System And Method
CN114422324B (zh) 一种告警信息的处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant