CN109597836A - 一种基于加权矩阵的通信设备告警关联规则挖掘方法 - Google Patents
一种基于加权矩阵的通信设备告警关联规则挖掘方法 Download PDFInfo
- Publication number
- CN109597836A CN109597836A CN201811441722.5A CN201811441722A CN109597836A CN 109597836 A CN109597836 A CN 109597836A CN 201811441722 A CN201811441722 A CN 201811441722A CN 109597836 A CN109597836 A CN 109597836A
- Authority
- CN
- China
- Prior art keywords
- alarm
- frequent
- item collection
- weighting
- affairs
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于关联规则分析的研究范畴,涉及一种基于加权矩阵的通信设备告警关联规则挖掘方法。考虑到检修人员对通信网设备不同类型告警的关注度各不相同,不同告警记录对于特定设备故障诊断的重要程度不同,根据专家经验为每一条事务记录设置垂直权值,为每一个项目设置水平权值,运用加权矩阵减少数据库扫描次数,以Aprior算法的连接、剪枝思想为基础,建立基于加权矩阵的告警关联规则分析的模型AARWM用于计算频繁项集,最后根据频繁项集生成符合最小置信度的加权告警关联规则,从而提高设备告警关联规则挖掘的效率和准确率,为设备故障诊断提供可靠依据。
Description
技术领域
本发明属于关联规则分析的研究范畴,特别涉及电力通信网络中设备告警的关联规则分析,提出了一种基于加权矩阵的通信设备告警关联规则挖掘方法。
背景技术
在当今电力系统智能调度和现代化管理中,电力通信网是不可或缺的一部分,其主要任务是为电力生产提供高质量的服务,主要包括继电保护、安全控制、视频会议电话、调度自动化和通信监控。为了保障电力通信网的可靠运行,有必要在最短时间内确定故障位置和故障原因,以便尽快恢复正常的业务传输。
然而,在真实的通信网络中,互连的设备具有密集的拓扑结构,而单个设备又具有精密的板件结构,而这就导致了某一设备出现故障时,其自身会发出多种不同类型的告警,也可能会引发多个不同设备的告警,严重阻碍了故障的排查与定位。复杂的网络拓扑结构和精密的设备结构带来了高速动态、高价值低密度的海量数据流,使得在规模化网络中,耗费在故障定位上的时间占其故障恢复总时间的93%。由于现代电力设备在线监测系统对于不同的故障类型有着不同的告警特征和日志数量,因此对告警特征之间的关系挖掘有着重要意义,对各告警进行相关性分析的成果可以应用到电网状态评估预警、电网运行负荷预测以及大规模检修策略计划等工作中,以保障通信网络中设备故障诊断的高效性。
故障和告警:在网络管理领域,故障是指被管网络的硬件设备发生原件损坏或软件系统发生功能紊乱,而告警是生产厂家提前定义,在特定事件发生时通过设备产生的提示性信息。一条告警的出现表明系统可能出现故障,但并不是一定出现故障,而一个故障的发生则可能导致业务上其他网元的异常,从而引发一系列相关告警。显然,这一系列相关告警并不都能表明发生故障的根源原因,因此需要进行告警相关性分析以确定故障根源,达到故障定位的目的。
告警相关性分析意义重大,因此国内外针对此问题的研究方法多种多样。基于案例推理的方法(Case-Baesd Reasoning,简称CBR),在新问题被解决时,将其添加到案例推理系统中,系统根据过往经验获取知识甚至自动改进系统本身,以达到指导目标案例的目的,例如刘晶运用案例推理方法,开发了大型电力变压器故障诊断专家系统,有效地指导了设备故障诊断和状态维修,但此方法存在复杂度高、通用性低以及效率不高的问题。基于神经网络的相关性分析方法,通过大量训练对应于某种故障的告警信息,不断调整权值,以达到根据当前告警预测故障源的目的。Wu D P,Zhao Y等人提出了一种基于小波神经网络的告警信息关联挖掘机制,将告警的等级、类型和设备类型三个关键属性作为小波神经网络的输入,通过训练历史样本来合理确定权重,综合考虑多种影响因素来挖掘相关性[3],神经网络具有自学习能力高、噪声容忍度高的特点,但在实际应用前需对各种故障情况进行训练,这在实际的电力通信网中难以达到。
关联规则挖掘:关联规则挖掘隶属于数据挖掘里的目标任务范畴,通过分析已经存在的大量数据提取多个变量间的潜在关联关系,其基本任务是确定事务数据库的项目之间的关联。假设I={i1,i2,i3,…,in}是一组项目的全集,D是由一组具有唯一标志TID的事务组成的事务集,其中每个事务T是一组项目,对应I 的一个子集,有T∈D,关联规则是形式为X=>Y的逻辑蕴含式,其中一般来说,每个关联规则必须满足用户指定的两个约束,一个是支持度,另一个是置信度。规则X=>Y的支持度被定义为包含X∪Y的事务总数占事务数据库D的比例,而置信度则被定义为包含X∪Y的事务数与包含X 的事务数之比。因此,目标是找到满足用户指定的最小支持度和置信度的所有关联规则。
Aprior算法:最初的关联规则分析通过分析购物篮中的商品集合找出客户的购买行为,上个世纪90年代,美国学者Agrawal提出了Aprior算法并被沃尔玛应用到POS机数据分析中,产生了经典的“啤酒与尿布”的成功案例。Aprior 算法基于层次迭代思想,算法步骤如图1所示:
(1)通过连接和剪枝,挖掘频繁项集。预处理原始数据库,提取事务集,设置最小支持度;首次扫描事务集,得到候选1项集C1,对比最小支持度,得到满足一阶频繁项集L1;再次扫描全量事务集,通过连接步将L1各项组合为候选2项集C2,经过剪枝删去非频繁项集,对比最小支持度确定2阶频繁项集L2基;以此循环直至无法构造满足最小支持度的更高阶频繁项集。
(2)基于频繁项集,生成强关联规则。设置最小置信度,将步骤(1)生成的各阶频繁项集作为数据源,计算不同项(集)之间的置信度,不小于最小置信度的项集作为强关联规则输出。
Aprior算法通过候选项集大大压缩了频繁集的大小,显示出良好的性能。但却产生了大量的候选集,并且需要多次扫描数据库,I/O负载大。
通过分析比较,在电力通信网领域,运用Aprior算法对告警数据进行关联规则挖掘存在以下不足:
(1)传统Aprior算法默认每一项目具有相同权重,而实际上,检修人员对通信网设备不同类型告警的关注度各不相同。例如用户可能对风扇告警和防尘网清洗告警的关注度较低,而对信号丢失、板卡功能失效关注度较高。
(2)传统Aprior算法假定各事务的重要性相同,而在实际情况下,不同记录对检修人员的重要程度不同。例如针对不同生产厂家,设备告警记录可能不一样。
(3)传统Aprior算法需要多次扫描数据库,I/O负载较大,且在项目数量较大时,存在候选频繁项集数量激增的问题,其中有些对于用户而言并无价值。
发明内容
针对以上分析的问题,结合电力通信网领域知识,同时考虑到设备告警关联规则挖掘对于设备故障诊断的重要性,本文发明了一种基于加权矩阵的通信设备告警关联规则挖掘方法。综合考虑检修人员对于不同告警的关注度不同,不同告警记录对于特定设备故障诊断的重要程度不同,为各项目和事务设置不同权值,通过运用加权矩阵减少数据库扫描次数,最后根据频繁项集生成符合最小置信度的加权告警关联规则,从而提高设备告警关联规则挖掘的效率和准确率,为设备故障诊断提供可靠依据。
一种基于加权矩阵的通信设备告警关联规则挖掘方法,其特征在于,包括以下步骤:
步骤1:对原始数据库D中的数据进行预处理,包括对告警表进行数据清洗,以及确定告警记录观察时间窗口,将连续型数据库转化为事务型数据库,存入新的数据库,记为事务库T;
步骤2:定义复合加权关联规则的支持度和置信度,根据专家经验知识,为数据库中的项目集的每个项目赋予告警水平加权,从而衡量不同告警的重要程度,根据数据库中各个告警事务的不同重要性而设置事务垂直加权,由此定义复合加权关联规则的支持度和置信度;
步骤3:提出频繁项集的评价标准,如果包含项集X的事务数不小于其最小支持数,则判定X为加权频繁k项集;即以此作为频繁项集的评价标准,以便后面对候选频繁项集进行剪枝操作;
步骤4:以Aprior算法的连接、剪枝思想为基础,建立基于加权矩阵的告警关联规则分析的模型AARWM,扫描事务数据库T,得到特征向量和频度矩阵,计算每个项目的最小支持数,计算加权频繁1-项集L1,通过连接与剪枝步骤,由加权频繁1-项集L1生成加权频繁2-项集L2,依次方式循环往复直到加权频繁k- 项集,以此来对通信网中海量告警记录进行关联规则挖掘;
步骤5:利用步骤4中提出的AARWM算法,得到加权频繁项集,依据置信度生成关联规则。
在上述的一种基于加权矩阵的通信设备告警关联规则挖掘方法,所述步骤1 具体包括
步骤1.1、清洗告警记录数据:对原始数据库中的告警表进行数据清洗,原始告警记录表中的告警数据字段众多,为了便于实际的告警数据关联分析工作,不必考虑表中的某些告警属性,需要去除冗余项,并且数据库中存在一些脏数据,要进行过滤,将进行数据清洗并剔除冗余信息后的告警数据导入到SQL数据库中,记为数据库D,为接下来要进行的数据处理做准备;
步骤1.2、确定告警记录观察时间窗口:对告警记录进行分组划分,从而将连续型转换为事务型,即离散的数据格式,也就是告警观察窗口的确定;在对数据库D中的原始告警数据进行关联规则挖掘工作时,采用WINEPI滑动窗口划分算法,定义左边为初始时间,一个宽为w的滑动窗口以固定步长向右方滑动,直至告警序列S最终结束为止,形成告警观察窗口集W(S,w),通过计算两个告警记录间的时间间隔来确定告警观察窗口w,将两个告警间隔之间的所有告警的集合作为一个告警事务;通过对比告警记录中相邻告警发生的时间,如果两告警时间差在小于w,则将它们划分在一个告警事务组中,若超过规定的时间,则划分在下一个告警事务组中,以此类推,最终实现对所有告警事务集的划分,记为事务库T。
在上述的一种基于加权矩阵的通信设备告警关联规则挖掘方法,所定义的复合加权关联规则的支持度和置信度,用于为各项目或事务赋予权重,得出判别频繁项集的标准,具体包括以下步骤:
步骤2.1、定义告警水平加权,根据专家经验知识为数据库中的项目集的每个项目赋予权重,从而衡量不同告警的重要程度;设I={i1,i2,i3,…,in}是告警全集,其中项目ia,a={1,2,…,n}表示某一告警类型,依据专家经验知识设定其权值为ha,其中0≤ha≤1;假设有属性项目集X,X={i1,i2,i3,…,im},,支持度表示为sup(X),定义项集X的水平加权支持度为:
suph(X)=M(X)sup(X)
其中M(X)=Max{h1,h2,h3,…,hm};
定义事务垂直加权,即基于数据库中各个告警事务的不同重要性而设置权值;设每个告警事务的权值为vb,其中0≤vb≤1,b={1,2,…,N},每条告警事务的权值依据告警时间、设备使用年限、设备端口占用率综合考虑后给出;
定义有M个告警事务包含项集X,表示为项集Xi,i={1,2,…,M},,对应的垂直加权值为vi,则表示包含项集X的所有记录的权值之和;设共有 N条告警事务,用N_v表示所有告警事务的权值和,记为定义某一项集X的垂直加权支持度为:
定义复合加权关联规则的支持度Usup(X):
定义复合加权关联规则X=>Y的支持度Usup(X=>Y):
定义复合加权关联规则X=>Y的置信度Uconf(X=>Y):
步骤2.2、提出频繁项集的评价标准;如果项集X是加权频繁k项集,可以推断出其支持数需要supcount(X)满足条件:
将向上取整后的值作为项集X的k-最小支持数。
在上述的一种基于加权矩阵的通信设备告警关联规则挖掘方法,所述建立的告警关联规则分析的模型AARWM,用于分析告警关联规则,得到加权频繁项集,具体包括以下步骤:
步骤3.1、扫描事务数据库T,得到特征向量和频度矩阵;设事务数据库T 中共包含m个互不相同的告警事务{t1,t2,t3,…,tm},共有n个互不相同的告警项 {i1,i2,i3,…,in},其中ti按照告警事务垂直加权倒序排列,ii按照告警水平加权倒序排列;建立事务T的特征向量初始矩阵Hn×m,形如:
步骤3.2、计算每个项目的最小支持数supmin(i)
步骤3.3、为频度矩阵Hn×m增加第(m+1)列,计算各个项目出现的次数(即每行中“1”的总数),若频度矩阵某行之和小于i的最小支持数supmin(i),则从初始频度矩阵Hn×m中删除该行;最后得到加权频繁1-项集L1;
步骤3.4、通过连接与剪枝步骤,由加权频繁1-项集L1生成加权频繁2-项集 L2;设表示L1的一个行向量,表示初始矩阵Hn×m的一个行向量,将加权频繁 1-项集L1中的各行向量 分别与初始矩阵Hn×m中的除自身外的其他行向量 进行逻辑与运算,并将和项目t加入到新矩阵H2中,用qij表示与的内积,此部分成为连接步;将矩阵H2中的2-项集的qij值与项集的最小支持度supmin(X)做比较,其中X为项目i,j的集合,若qij值不小于项集X的最小支持度supmin(X),则视X为加权频繁的,此部分成为剪枝步;得到加权频繁2-项集L2,用pxij表示项集Xi在事务j中出现的频度,值为0或1;例如,假设项集X1={i1,i2},X2={i1,i4},X3={i2,i4}是加权频繁的,则加权频繁2-项集L2表示为:
步骤3.5、对加权频繁(k-1)-项集Lk-1中的行向量通过连接步生成新矩阵Hk,用qij表示与的内积,然后将矩阵Hk中的(k-1)-项集的qij值与项集的最小支持度做比较,得到频繁(k-1)-项集。
在上述的一种基于加权矩阵的通信设备告警关联规则挖掘方法,所述步骤5 中,生成关联规则是利用步骤4中提出的AARWM算法,得到加权频繁项集,基于此生成关联规则,形如X=>Y,依据步骤2中的置信度公式,计算相应的置信度Uconf(X=>Y),置信度大于最小加权置信度minconf的关联规则为最终需要的强关联规则。
因此,本发明具有如下优点:
(1)基于检修人员对通信网设备不同类型告警的关注度各不相同,着重挖掘用户关注度高的告警项目之间的关联关系,减少了大量检修人员并不关注的频繁项。
(2)基于告警事务记录对于检修人员的重要程度不同,重点关注重要程度更高的事务。
(3)引入矩阵,在矩阵上进行计算,减少了扫描数据库的次数,降低I/O 负载。
附图说明
图1为Apriori算法流程图。
图2为基于加权矩阵的通信设备告警关联规则挖掘方法流程图。
图3为某电力公司TMS数据库原始告警记录部分信息图。
图4为WINEPI滑动窗口划分算法示意图。
具体实施方式
步骤1:数据预处理
1-1:清洗告警记录数据
对原始数据库中的告警表进行数据清洗,原始告警记录表中的告警数据字段众多,为了便于实际的告警数据关联分析工作,不必考虑表中的某些告警属性,需要去除冗余项。例如,图3来自某电力公司TMS系统数据库,展示了原始告警记录的部分信息,包含设备名称、生产厂家、设备类型、告警原因、告警级别、操作人员以及告警上报时间等字段。通过分析,这里去除与告警关联规则挖掘无关的数据字段,留取表中的“设备名称”、“告警原因”和“产生时间”字段用于后续的关联规则挖掘。
同时,数据库中存在一些“脏”数据,比如含有一些关键字段为空(表示为“null”)的记录或是有一些重复记录或数据发生冲突的记录,对于这些记录要进行过滤。
将进行数据清洗并剔除冗余信息后的告警数据导入到SQL数据库中,记为数据库D,为接下来要进行的数据处理做准备。
1-2:确定告警记录观察时间窗口
由于原始告警记录是关系型数据,是以一条独立告警信息为单位存储的,是以时间连续的。所以在进行关联规则分析之前,需要采用合理的方法对告警记录进行分组划分,从而将连续型转换为事务型,即离散的数据格式,也就是告警观察窗口的确定。在对数据库D中的原始告警数据进行关联规则挖掘工作时,采用 WINEPI滑动窗口划分算法。
WINEPI滑动窗口划分算法的基本过程如图4所示,其中不同的字母代表不同的告警类型。左边为初始时间,设定一个宽为w的滑动窗口以固定步长向右方滑动,直至告警序列S最终结束为止,形成告警观察窗口集W(S,w)。
由于网络中设备的相关告警在产生时间上往往是相近的,因此可以推论产生时间相近的告警之间有关联性的可能性较大,而产生时间相隔较长的告警之间有关联的可能性则相对要小一些,可以将原始告警数据中足够长的没有告警的时间段称为告警间隔。本文通过计算两个告警记录间的时间间隔来确定告警观察窗口 w,将两个告警间隔之间的所有告警的集合作为一个告警事务。通过对比告警记录中相邻告警发生的时间,如果两告警时间差在小于w,则将它们划分在一个告警事务组中,若超过规定的时间,则划分在下一个告警事务组中,以此类推,最终实现对所有告警事务集的划分,记为事务库T。
步骤2:定义复合加权关联规则的支持度和置信度
2-1告警水平加权
告警水平加权是指根据专家经验知识,为数据库中的项目集的每个项目赋予权重,从而衡量不同告警的重要程度。设I={i1,i2,i3,…,in}是告警全集,其中项目ia,a={1,2,…,n}表示某一告警类型,依据专家经验知识设定其权值为ha,其中0≤ha≤1。
假设有属性项目集X,X={i1,i2,i3,…,im},支持度表示为sup(X),定义项集X的水平加权支持度为:
suph(X)=M(X)sup(X)
其中M(X)=Max{h1,h2,h3,…,hm},显然有0≤W(X)≤1。
2-2告警事务垂直加权
数据库中,设备告警记录按照时间窗口规则生成的告警事务成千上万,每个告警事务记录对于检修人员的重要程度不同。例如在分析某种类型设备的告警关联规则时,设备平稳运行阶段产生的告警事务的可参考性就要优于设备投运阶段产生的告警事务。事务垂直加权就是基于数据库中各个告警事务的不同重要性而设置权值。
设每个告警事务的权值为vb,其中0≤vb≤1,b={1,2,…,N},每条告警事务的权值依据告警时间、设备使用年限、设备端口占用率综合考虑后给出。
假设有M个告警事务包含项集X,表示为项集Xi,i={1,2,…,M},对应的垂直加权值为vi,则表示包含项集X的所有记录的权值之和。设共有N 条告警事务,用Nv表示所有告警事务的权值和,记为定义某一项集X的垂直加权支持度为:
2-3复合加权关联规则的支持度和置信度定义
基于步骤1-2和步骤1-3,在给定告警事务集合T和项集I={i1,i2,i3,…,im}的情况下,首先依据告警时间、设备使用年限、设备端口占用率等综合因素设置每条告警事务的垂直权值vb,其中0≤vb≤1,b={1,2,…,n}。然后,专家衡量不同告警的重要程度后,为每一个项目ia,设置一个水平权值ha,a={1,2,…,n}。
定义复合加权关联规则项集X的支持度Usup(X),依据公式1.1和公式1.2,有:
同理,定义复合加权关联规则X=>Y的支持度Usup(X=>Y):
定义复合加权关联规则X=>Y的置信度Uconf(X=>Y):
规定若项集X的复合加权支持度Usup(X)不小于最小加权支持度minsup,则将项集X视为复合频繁项集,否则视为非频繁项集。若规则X=>Y的加权支持度不小于最小加权支持度minsup,并且加权置信度不小于最小加权置信度 minconf,则将规则X=>Y视为强关联规则。
步骤3:提出频繁项集的评价标准
如果项集X是加权频繁k项集,那么一定满足Usup(X)≥minsup,即:
其中minsup是给定的最小支持度,M(X)=Max{h1,h2,…,hm}是项集X的权值,表示所有告警事务的权值和,表示包含项集X的所有告警事务的权值和,如果项集X是加权频繁k项集,可以推断出其支持数需要supcount(X) 满足条件:
将向上取整后的值作为项集X的k-最小支持数,换句话说,如果包含项集X的事务数不小于supcount(X),则判定X为加权频繁k 项集。即以此作为频繁项集的评价标准,以便后面对候选频繁项集进行剪枝操作。
步骤4:以Aprior算法的连接、剪枝思想为基础,建立基于加权矩阵的告警关联规则分析的模型AARWM(Alarm Association Rules Based on Weighted Matrix)。
在对通信网中海量告警记录进行关联规则挖掘,设原始告警记录数据库为D,通过时间窗口将告警记录转化为若干条告警事务,存入新的数据库,记为事务库T。模型AARWM描述如下:
4-1扫描事务数据库T,得到特征向量和频度矩阵
设事务数据库T中共包含m个互不相同的告警事务{t1,t2,t3,…,tm},共有n 个互不相同的告警项{i1,i2,i3,…,in},其中ti按照告警事务垂直加权倒序排列,ii按照告警水平加权倒序排列。建立事务T的特征向量初始矩阵Hn×m,形如:
称矩阵Hn×m为事务数据库T的频度矩阵,若项目i在事务j中,则有pij=1,否则pij=0。则事务数据库可唯一表示成即:
4-2计算每个项目的最小支持数
根据步骤3中的定义,计算每个项目的最小支持数supmin(i)
4-3计算加权频繁1-项集L1
为频度矩阵Hn×m增加第(m+1)列,计算各个项目出现的次数(即每行中“1”的总数),得到矩阵H1,第(m+1)列可表示为:
若频度矩阵某行之和小于i的最小支持数supmin(i),则从事务T的特征向量中删去项目i,从初始频度矩阵Hn×m中删除该行。例如,若事务T中包含项目 i1,i2,i3,i4,i5,i6,其特征向量为而项目i5,i6的频度小于计算出的最小支持数,则从初始频度矩阵Hn×m中删除项目i5,i6对应的行,得到加权频繁1-项集L1。
4-4通过连接与剪枝步骤,由加权频繁1-项集L1生成加权频繁2-项集L2。
设表示L1的一个行向量,表示初始矩阵Hn×m的一个行向量,例如项目i1的行向量形如(p11 p22 … p1m),将加权频繁1-项集L1中的各行向量 分别与初始矩阵Hn×m中的除自身外的其他行向量 进行逻辑与运算,并将和项目t加入到新矩阵H2中,用qij表示与的内积,此部分成为连接步。将矩阵H2中的2-项集的qij值与项集的最小支持度supmin(X)做比较,其中 X为项目i,j的集合,若qij值不小于项集X的最小支持度supmin(X),则视X为加权频繁的,此部分成为剪枝步。得到加权频繁2-项集L2,用表示项集Xi在事务j中出现的频度,值为0或1。例如,假设项集X1={i1,i2},X2={i1,i4},X3={i2,i4}是加权频繁的,则加权频繁2-项集L2表示为:
4-4计算加权频繁k-项集
对加权频繁(k-1)-项集Lk-1中的行向量通过连接步生成新矩阵Hk,用 qij表示与的内积,然后将矩阵Hk中的(k-1)-项集的qij值与项集的最小支持度做比较,得到频繁(k-1)-项集。
步骤5:生成强关联规则
利用步骤4中提出的AARWM算法,得到加权频繁项集,基于此生成关联规则,形如X=>Y,依据步骤2中的置信度公式,计算相应的置信度Uconf(X=>Y),置信度大于最小加权置信度minconf的关联规则为我们最终需要的强关联规则。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可对所描述的具体实施例做修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (5)
1.一种基于加权矩阵的通信设备告警关联规则挖掘方法,其特征在于,包括以下步骤:
步骤1:对原始数据库D中的数据进行预处理,包括对告警表进行数据清洗,以及确定告警记录观察时间窗口,将连续型数据库转化为事务型数据库,存入新的数据库,记为事务库T;
步骤2:定义复合加权关联规则的支持度和置信度,根据专家经验知识,为数据库中的项目集的每个项目赋予告警水平加权,从而衡量不同告警的重要程度,根据数据库中各个告警事务的不同重要性而设置事务垂直加权,由此定义复合加权关联规则的支持度和置信度;
步骤3:提出频繁项集的评价标准,如果包含项集X的事务数不小于其最小支持数,则判定X为加权频繁k项集;即以此作为频繁项集的评价标准,以便后面对候选频繁项集进行剪枝操作;
步骤4:以Aprior算法的连接、剪枝思想为基础,建立基于加权矩阵的告警关联规则分析的模型AARWM,扫描事务数据库T,得到特征向量和频度矩阵,计算每个项目的最小支持数,计算加权频繁1-项集L1,通过连接与剪枝步骤,由加权频繁1-项集L1生成加权频繁2-项集L2,依次方式循环往复直到加权频繁k-项集,以此来对通信网中海量告警记录进行关联规则挖掘;
步骤5:利用步骤4中提出的AARWM算法,得到加权频繁项集,依据置信度生成关联规则。
2.根据权利要求书1所述的一种基于加权矩阵的通信设备告警关联规则挖掘方法,其特征在于,所述步骤1具体包括
步骤1.1、清洗告警记录数据:对原始数据库中的告警表进行数据清洗,原始告警记录表中的告警数据字段众多,为了便于实际的告警数据关联分析工作,不必考虑表中的某些告警属性,需要去除冗余项,并且数据库中存在一些脏数据,要进行过滤,将进行数据清洗并剔除冗余信息后的告警数据导入到SQL数据库中,记为数据库D,为接下来要进行的数据处理做准备;
步骤1.2、确定告警记录观察时间窗口:对告警记录进行分组划分,从而将连续型转换为事务型,即离散的数据格式,也就是告警观察窗口的确定;在对数据库D中的原始告警数据进行关联规则挖掘工作时,采用WINEPI滑动窗口划分算法,定义左边为初始时间,一个宽为w的滑动窗口以固定步长向右方滑动,直至告警序列S最终结束为止,形成告警观察窗口集W(S,w),通过计算两个告警记录间的时间间隔来确定告警观察窗口w,将两个告警间隔之间的所有告警的集合作为一个告警事务;通过对比告警记录中相邻告警发生的时间,如果两告警时间差在小于w,则将它们划分在一个告警事务组中,若超过规定的时间,则划分在下一个告警事务组中,以此类推,最终实现对所有告警事务集的划分,记为事务库T。
3.根据权利要求书1所述的一种基于加权矩阵的通信设备告警关联规则挖掘方法,其特征在于,所定义的复合加权关联规则的支持度和置信度,用于为各项目或事务赋予权重,得出判别频繁项集的标准,具体包括以下步骤:
步骤2.1、定义告警水平加权,根据专家经验知识为数据库中的项目集的每个项目赋予权重,从而衡量不同告警的重要程度;设I={i1,i2,i3,…,in}是告警全集,其中项目ia,a={1,2,…,n}表示某一告警类型,依据专家经验知识设定其权值为ha,其中0≤ha≤1;假设有属性项目集X,X={i1,i2,i3,…,im},支持度表示为sup(X),定义项集X的水平加权支持度为:
suph(X)=M(X)sup(X)
其中M(X)=Max{h1,h2,h3,…,hm};
定义事务垂直加权,即基于数据库中各个告警事务的不同重要性而设置权值;设每个告警事务的权值为vb,其中0≤vb≤1,b={1,2,…,N},每条告警事务的权值依据告警时间、设备使用年限、设备端口占用率综合考虑后给出;
定义有M个告警事务包含项集X,表示为项集Xi,i={1,2,…,M},,对应的垂直加权值为vi,则表示包含项集X的所有记录的权值之和;设共有N条告警事务,用N_v表示所有告警事务的权值和,记为定义某一项集X的垂直加权支持度为:
定义复合加权关联规则的支持度Usup(X):
定义复合加权关联规则X=>Y的支持度Usup(X=>Y):
定义复合加权关联规则X=>Y的置信度Uconf(X=>Y):
步骤2.2、提出频繁项集的评价标准;如果项集X是加权频繁k项集,可以推断出其支持数需要supcount(X)满足条件:
将向上取整后的值作为项集X的k-最小支持数。
4.根据权利要求书1所述的一种基于加权矩阵的通信设备告警关联规则挖掘方法,其特征在于,所述建立的告警关联规则分析的模型AARWM,用于分析告警关联规则,得到加权频繁项集,具体包括以下步骤:
步骤3.1、扫描事务数据库T,得到特征向量和频度矩阵;设事务数据库T中共包含m个互不相同的告警事务{t1,t2,t3,…,tm},共有n个互不相同的告警项{i1,i2,i3,…,in},其中ti按照告警事务垂直加权倒序排列,ii按照告警水平加权倒序排列;建立事务T的特征向量初始矩阵Hn×m,形如:
步骤3.2、计算每个项目的最小支持数supmin(i)
步骤3.3、为频度矩阵Hn×m增加第(m+1)列,计算各个项目出现的次数(即每行中“1”的总数),若频度矩阵某行之和小于i的最小支持数supmin(i),则从初始频度矩阵Hn×m中删除该行;最后得到加权频繁1-项集L1;
步骤3.4、通过连接与剪枝步骤,由加权频繁1-项集L1生成加权频繁2-项集L2;设表示L1的一个行向量,表示初始矩阵Hn×m的一个行向量,将加权频繁1-项集L1中的各行向量分别与初始矩阵Hn×m中的除自身外的其他行向量进行逻辑与运算,并将和项目t加入到新矩阵H2中,用qij表示与的内积,此部分成为连接步;将矩阵H2中的2-项集的qij值与项集的最小支持度supmin(X)做比较,其中X为项目i,j的集合,若qij值不小于项集X的最小支持度supmin(X),则视X为加权频繁的,此部分成为剪枝步;得到加权频繁2-项集L2,用表示项集Xi在事务j中出现的频度,值为0或1;例如,假设项集X1={i1,i2},X2={i1,i4},X3={i2,i4}是加权频繁的,则加权频繁2-项集L2表示为:
步骤3.5、对加权频繁(k-1)-项集Lk-1中的行向量通过连接步生成新矩阵Hk,用qij表示与的内积,然后将矩阵Hk中的(k-1)-项集的qij值与项集的最小支持度做比较,得到频繁(k-1)-项集。
5.根据权利要求书1所述的一种基于加权矩阵的通信设备告警关联规则挖掘方法,其特征在于,所述步骤5中,生成关联规则是利用步骤4中提出的AARWM算法,得到加权频繁项集,基于此生成关联规则,形如X=>Y,依据步骤2中的置信度公式,计算相应的置信度Uconf(X=>Y),置信度大于最小加权置信度minconf的关联规则为最终需要的强关联规则。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811441722.5A CN109597836B (zh) | 2018-11-29 | 2018-11-29 | 一种基于加权矩阵的通信设备告警关联规则挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811441722.5A CN109597836B (zh) | 2018-11-29 | 2018-11-29 | 一种基于加权矩阵的通信设备告警关联规则挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109597836A true CN109597836A (zh) | 2019-04-09 |
CN109597836B CN109597836B (zh) | 2023-06-27 |
Family
ID=65959393
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811441722.5A Active CN109597836B (zh) | 2018-11-29 | 2018-11-29 | 一种基于加权矩阵的通信设备告警关联规则挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109597836B (zh) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110188025A (zh) * | 2019-05-31 | 2019-08-30 | 安徽继远软件有限公司 | 一种告警日志的高效关联方法 |
CN110399262A (zh) * | 2019-06-17 | 2019-11-01 | 平安科技(深圳)有限公司 | 运维监测告警收敛方法、装置、计算机设备及存储介质 |
CN110442640A (zh) * | 2019-08-05 | 2019-11-12 | 西南交通大学 | 基于先验权重和多层tfp算法的地铁故障关联推荐方法 |
CN110503247A (zh) * | 2019-08-01 | 2019-11-26 | 中国科学院深圳先进技术研究院 | 电信网络告警预测方法及系统 |
CN110609858A (zh) * | 2019-09-17 | 2019-12-24 | 南京邮电大学 | 一种基于Apriori算法的指标关联方法 |
CN110955710A (zh) * | 2019-11-26 | 2020-04-03 | 杭州数梦工场科技有限公司 | 一种数据交换作业中脏数据的处理方法及装置 |
CN110968631A (zh) * | 2019-11-30 | 2020-04-07 | 航天科技控股集团股份有限公司 | 一种基于tbox的车辆故障告警方法 |
CN110991668A (zh) * | 2019-11-29 | 2020-04-10 | 合肥国轩高科动力能源有限公司 | 一种基于关联规则的电动汽车动力电池监控数据分析方法 |
CN111143428A (zh) * | 2019-11-30 | 2020-05-12 | 贵州电网有限责任公司 | 一种基于关联分析法的保护异常告警处理方法 |
CN111600761A (zh) * | 2020-05-25 | 2020-08-28 | 上海观安信息技术股份有限公司 | 一种基于运维业务风险告警分析归并方法 |
CN111666300A (zh) * | 2020-04-16 | 2020-09-15 | 广西电网有限责任公司 | 继电保护定值审核处理方法 |
CN112131083A (zh) * | 2019-06-25 | 2020-12-25 | 大唐移动通信设备有限公司 | 一种告警事务处理方法及装置 |
CN112286987A (zh) * | 2020-10-21 | 2021-01-29 | 国网电力科学研究院武汉南瑞有限责任公司 | 基于Apriori算法的电力物联异常告警压缩方法 |
CN112488181A (zh) * | 2020-11-26 | 2021-03-12 | 哈尔滨工程大学 | 一种基于MIDS-Tree的服务故障高响应匹配方法 |
CN113037575A (zh) * | 2021-05-28 | 2021-06-25 | 北京宝兰德软件股份有限公司 | 网元异常的根因定位方法、装置、电子设备及存储介质 |
CN113791924A (zh) * | 2021-08-13 | 2021-12-14 | 济南浪潮数据技术有限公司 | 一种基于gra的服务器故障诊断规则筛选方法 |
CN113836196A (zh) * | 2021-09-08 | 2021-12-24 | 国网江苏省电力有限公司 | 一种电网未定义事件类型识别方法及系统 |
CN114024829A (zh) * | 2021-10-26 | 2022-02-08 | 广东电网有限责任公司 | 电力通信网络的故障检修方法、装置、设备和存储介质 |
CN114221851A (zh) * | 2020-09-04 | 2022-03-22 | 华为技术有限公司 | 一种故障分析方法及装置 |
CN115033602A (zh) * | 2022-05-23 | 2022-09-09 | 中国电子科技集团公司第三十八研究所 | 基于数据挖掘的系留气球故障关联规则挖掘方法及系统 |
CN115460098A (zh) * | 2022-09-15 | 2022-12-09 | 中国人民解放军军事科学院系统工程研究院 | 基于时间间隔分布特征的网络管理系统故障模型建立方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120254242A1 (en) * | 2011-03-31 | 2012-10-04 | Infosys Technologies Limited | Methods and systems for mining association rules |
CN103279570A (zh) * | 2013-06-19 | 2013-09-04 | 广西教育学院 | 一种面向文本数据库的矩阵加权负模式挖掘方法 |
WO2016029570A1 (zh) * | 2014-08-28 | 2016-03-03 | 北京科东电力控制系统有限责任公司 | 一种面向电网调度的智能告警分析方法 |
CN105677759A (zh) * | 2015-12-30 | 2016-06-15 | 国家电网公司 | 一种信息通信网络中的告警关联性分析方法 |
CN106126577A (zh) * | 2016-06-17 | 2016-11-16 | 北京理工大学 | 一种基于数据源划分矩阵的加权关联规则挖掘方法 |
-
2018
- 2018-11-29 CN CN201811441722.5A patent/CN109597836B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120254242A1 (en) * | 2011-03-31 | 2012-10-04 | Infosys Technologies Limited | Methods and systems for mining association rules |
CN103279570A (zh) * | 2013-06-19 | 2013-09-04 | 广西教育学院 | 一种面向文本数据库的矩阵加权负模式挖掘方法 |
WO2016029570A1 (zh) * | 2014-08-28 | 2016-03-03 | 北京科东电力控制系统有限责任公司 | 一种面向电网调度的智能告警分析方法 |
CN105677759A (zh) * | 2015-12-30 | 2016-06-15 | 国家电网公司 | 一种信息通信网络中的告警关联性分析方法 |
CN106126577A (zh) * | 2016-06-17 | 2016-11-16 | 北京理工大学 | 一种基于数据源划分矩阵的加权关联规则挖掘方法 |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110188025A (zh) * | 2019-05-31 | 2019-08-30 | 安徽继远软件有限公司 | 一种告警日志的高效关联方法 |
CN110188025B (zh) * | 2019-05-31 | 2022-05-10 | 安徽继远软件有限公司 | 一种告警日志的高效关联方法 |
CN110399262A (zh) * | 2019-06-17 | 2019-11-01 | 平安科技(深圳)有限公司 | 运维监测告警收敛方法、装置、计算机设备及存储介质 |
CN112131083A (zh) * | 2019-06-25 | 2020-12-25 | 大唐移动通信设备有限公司 | 一种告警事务处理方法及装置 |
CN110503247A (zh) * | 2019-08-01 | 2019-11-26 | 中国科学院深圳先进技术研究院 | 电信网络告警预测方法及系统 |
CN110442640A (zh) * | 2019-08-05 | 2019-11-12 | 西南交通大学 | 基于先验权重和多层tfp算法的地铁故障关联推荐方法 |
CN110442640B (zh) * | 2019-08-05 | 2021-08-31 | 西南交通大学 | 基于先验权重和多层tfp算法的地铁故障关联推荐方法 |
CN110609858A (zh) * | 2019-09-17 | 2019-12-24 | 南京邮电大学 | 一种基于Apriori算法的指标关联方法 |
CN110955710A (zh) * | 2019-11-26 | 2020-04-03 | 杭州数梦工场科技有限公司 | 一种数据交换作业中脏数据的处理方法及装置 |
CN110955710B (zh) * | 2019-11-26 | 2023-12-26 | 杭州数梦工场科技有限公司 | 一种数据交换作业中脏数据的处理方法及装置 |
CN110991668A (zh) * | 2019-11-29 | 2020-04-10 | 合肥国轩高科动力能源有限公司 | 一种基于关联规则的电动汽车动力电池监控数据分析方法 |
CN110968631A (zh) * | 2019-11-30 | 2020-04-07 | 航天科技控股集团股份有限公司 | 一种基于tbox的车辆故障告警方法 |
CN111143428A (zh) * | 2019-11-30 | 2020-05-12 | 贵州电网有限责任公司 | 一种基于关联分析法的保护异常告警处理方法 |
CN111666300A (zh) * | 2020-04-16 | 2020-09-15 | 广西电网有限责任公司 | 继电保护定值审核处理方法 |
CN111600761A (zh) * | 2020-05-25 | 2020-08-28 | 上海观安信息技术股份有限公司 | 一种基于运维业务风险告警分析归并方法 |
CN114221851A (zh) * | 2020-09-04 | 2022-03-22 | 华为技术有限公司 | 一种故障分析方法及装置 |
CN114221851B (zh) * | 2020-09-04 | 2022-12-27 | 华为技术有限公司 | 一种故障分析方法及装置 |
CN112286987B (zh) * | 2020-10-21 | 2022-04-29 | 国网电力科学研究院武汉南瑞有限责任公司 | 基于Apriori算法的电力物联异常告警压缩方法 |
CN112286987A (zh) * | 2020-10-21 | 2021-01-29 | 国网电力科学研究院武汉南瑞有限责任公司 | 基于Apriori算法的电力物联异常告警压缩方法 |
CN112488181A (zh) * | 2020-11-26 | 2021-03-12 | 哈尔滨工程大学 | 一种基于MIDS-Tree的服务故障高响应匹配方法 |
CN113037575A (zh) * | 2021-05-28 | 2021-06-25 | 北京宝兰德软件股份有限公司 | 网元异常的根因定位方法、装置、电子设备及存储介质 |
CN113791924A (zh) * | 2021-08-13 | 2021-12-14 | 济南浪潮数据技术有限公司 | 一种基于gra的服务器故障诊断规则筛选方法 |
CN113836196A (zh) * | 2021-09-08 | 2021-12-24 | 国网江苏省电力有限公司 | 一种电网未定义事件类型识别方法及系统 |
CN114024829A (zh) * | 2021-10-26 | 2022-02-08 | 广东电网有限责任公司 | 电力通信网络的故障检修方法、装置、设备和存储介质 |
CN115033602A (zh) * | 2022-05-23 | 2022-09-09 | 中国电子科技集团公司第三十八研究所 | 基于数据挖掘的系留气球故障关联规则挖掘方法及系统 |
CN115033602B (zh) * | 2022-05-23 | 2024-09-17 | 中国电子科技集团公司第三十八研究所 | 基于数据挖掘的系留气球故障关联规则挖掘方法及系统 |
CN115460098A (zh) * | 2022-09-15 | 2022-12-09 | 中国人民解放军军事科学院系统工程研究院 | 基于时间间隔分布特征的网络管理系统故障模型建立方法 |
CN115460098B (zh) * | 2022-09-15 | 2023-04-07 | 中国人民解放军军事科学院系统工程研究院 | 基于时间间隔分布特征的网络管理系统故障模型建立方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109597836B (zh) | 2023-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109597836A (zh) | 一种基于加权矩阵的通信设备告警关联规则挖掘方法 | |
CN107358366B (zh) | 一种配电变压器故障风险监测方法及系统 | |
CN105677759B (zh) | 一种信息通信网络中的告警关联性分析方法 | |
CN103902816A (zh) | 基于数据挖掘技术的带电检测数据处理方法 | |
CN101247269B (zh) | 一种自动发现判定冗余告警的关联规则的方法 | |
CN109657547A (zh) | 一种基于伴随模型的异常轨迹分析方法 | |
CN115657617A (zh) | 一种用于火电厂智慧监盘报警系统实现方法 | |
CN110837963A (zh) | 一种基于数据、模型及策略的风险控制平台建设方法 | |
CN114385391A (zh) | 一种nfv虚拟化设备运行数据分析方法及装置 | |
CN109858140B (zh) | 一种基于信息熵离散型贝叶斯网络冷水机组故障诊断方法 | |
CN107145959A (zh) | 一种基于大数据平台的电力数据处理方法 | |
US20230083078A1 (en) | Method for intelligent fault detection and location of power distribution network | |
Fei et al. | Non-technical losses detection using missing values’ pattern and neural architecture search | |
Zhuang et al. | Machine-learning-based alarm prediction with GANs-based self-optimizing data augmentation in large-scale optical transport networks | |
CN117041312A (zh) | 基于物联网的企业级信息技术监控系统 | |
CN110532122B (zh) | 故障分析方法及系统、电子设备、存储介质 | |
CN116308883A (zh) | 一种基于大数据的区域电网数据统筹管理系统 | |
CN116361059A (zh) | 一种银行业务异常根因诊断方法及诊断系统 | |
Wang et al. | LSTM-based alarm prediction in the mobile communication network | |
CN117093919A (zh) | 基于深度学习的岩土工程地质灾害预测方法及系统 | |
CN108335231A (zh) | 一种自动匹配的配电网数据诊断方法 | |
Abusida et al. | An association prediction model: GECOL as a case study | |
CN113723478B (zh) | 一种基于先验知识的轨道电路故障诊断方法 | |
CN111931966A (zh) | 基于决策树回归的供电可靠性预测方法 | |
Zhao et al. | Multi-stage Location for Root-Cause Metrics in Online Service Systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |