CN112286987A

CN112286987A - 基于Apriori算法的电力物联异常告警压缩方法

Info

Publication number: CN112286987A
Application number: CN202011130821.9A
Authority: CN
Inventors: �田�浩; 陆艺伟; 高攀; 熊壮; 刘颖; 郭钧天; 杨俊�; 袁哲; 蒋鹏; 张泽文
Original assignee: Wuhan NARI Ltd
Current assignee: Wuhan NARI Ltd
Priority date: 2020-10-21
Filing date: 2020-10-21
Publication date: 2021-01-29
Anticipated expiration: 2040-10-21
Also published as: CN112286987B

Abstract

本发明所设计的基于Apriori算法的电力物联异常告警压缩方法，包括：步骤1、数据获取，包括告警日志记录建立以及告警数据整理；步骤2、数据预处理，包括告警数据的过滤和清洗；步骤3、Apriori算法模型构建。主要包含频繁项集构建和关联规则生成；步骤4、海量告警数据压缩，本发明综合考虑多因素对告警信息压缩算法性能、合并效果的影响，并引入最小支持度和最小置信度联合选择方法把定性评价转化为定量评价，对海量告警信息进行精准归类、高效合并，提取有用信息，以满足实际应用需要。

Description

基于Apriori算法的电力物联异常告警压缩方法

技术领域

本发明涉及告警数据的关联规则挖掘技术领域，具体地指一种基于Apriori(关联规则算法)算法的电力物联异常告警压缩方法。

技术背景

随着国网电力物联网业务规模的快速增长，运维正面临着更为频繁的故障告警。以某电力公司数据中心为例，该公司数据中心拥有500台内网核心服务器、10000套传感终端、50套上线系统共计30000个关键监控指标。覆盖云、管、边、端、应用和数据的硬件设备和软件系统，对服务器系统、网络、操作系统、数据库、微服务、中间件、边缘物联代理、应用系统、接入设备、连接省份、运行环境等监控项的状态和性能进行了全方位监控，为雷电监测中心、GIS监测中心、图像识别软件提供了全方面服务支撑，并且实现了14个省份远程监控运维托管。在如此庞大监控系统中，每周会产生海量告警信息，且一个故障的产生往往会引发多个告警，由此带来大量冗余告警，人为是很难从数量巨大的告警中找到有用信息。这对该中心运维工作人员而言工作量过大，且难以及时查看，也给短信网关带来较大压力，进一步影响故障的根因定位，致使核心告警延迟甚至遗漏，造成重大损失。因此，需要对海量告警信息进行压缩提取，以获取真正有价值的告警信息，确保告警在第一时间得到解决，减轻中心运维压力，实现效率提升、成本降低。

目前已有专利提出了以下几种异常告警压缩方法。专利CN109659904B提出一种基于IEC61850标准的柔直换流站告警归并及溯源方法，但是仅以柔直换流站监控数据为评估量，评价因素过于单一；专利CN107181604B提出了一种基于组的告警信息压缩方法，但是并不能对闪断告警外其它类型告警进行评估；专利CN110191005B提出一种告警日志处理方法，以预设的告警模式与告警日志消息进行匹配；获取与预设告警模式对应的告警压缩策略，但是该方法人为因素影响大，评价结果的准确性难以保证；专利CN105991337A采用告警对象的网络拓扑信息进行告警分类，生成携带告警信息的子告警集，并将子告警集压缩为一条告警，但此方法需要高效、可靠的告警网络拓扑结构，且面对新类别监控信息需要重新构建网络拓扑结构，普适性较差。

发明内容

本发明的目的就是要提供一种基于Apriori算法的电力物联异常告警压缩方法，本发明从实际运维场景的需求出发，对Apriori算法综合考虑算法执行时间、算法压缩效果等因素，对最小支持度、最小置信度联合选择进行量化评价，并在运维告警的时序信息场景中进行应用，以获取真正有价值的告警信息，确保告警在第一时间得到解决，减轻运维压力，实现效率提升、成本降低。

为实现此目的，本发明所设计的基于Apriori算法的电力物联异常告警压缩方法，它包括如下步骤：

步骤1：通过Java构建电力物联异常告警日志，并根据告警类型和告警时间对电力物联异常告警日志进行告警数据整理，得到整理后的电力物联异常告警数据，整理后的电力物联异常告警数据按照时间顺序排列，每项警告数据都对应相应告警类型和具体告警信息；

步骤2：采用时间滑动窗口的方法在整理后的电力物联异常告警数据中进行合组处理，即将告警时间相距B分钟(1分钟)内的告警数据合并成一组告警数据(组内多个告警按时间先后顺序排列，并认定几乎是一起发生,组间也按先后顺序排列)。具体方法为：将滑动时间窗口大小设置为A秒(60s)，对各项告警数据中告警具体名称缺失的告警数据以0填充，并对各项告警数据中重复告警数据进行去重处理(告警信息完全重复)，形成没有重复告警的告警组数据；

步骤3、利用Apriori算法扫描没有重复告警的各组告警数据，获取各组中所有项告警数据，生成1项集C₁，然后对1项集C₁中每个项进行计数并计算支持度，删除1项集C₁中支持度小于预设最小支持度的项，从而获得频繁1项集L₁，再对频繁1项集L₁自身连接生成的集合执行剪枝策略产生候选2项集的集合C₂，然后，利用Apriori算法扫描所有候选2项集的集合C₂，对候选2项集的集合C₂中每个项进行计数并计算支持度，删除候选2项集的集合C₂中支持度小于预设最小支持度的项，从而获得频繁2项集L₂，再对频繁2项集L₂自身连接生成的集合执行剪枝策略产生候选3项集的集合C₃，然后，利用Apriori算法扫描所有候选3项集的集合C₃，对候选3项集的集合C₃中每个项进行计数并计算支持度，删除候选3项集的集合C₃中支持度小于预设最小支持度的项，从而获得频繁3项集L₃；

以此类推，对频繁k-1项集L_k-1自身连接生成的集合执行剪枝策略产生候选k项集的集合C_k，然后，利用Apriori算法扫描所有候选k项集的集合C_k，对候选k项集的集合C_k中的每个项进行计数并计算支持度，删除候选k项集的集合C_k中支持度小于预设最小支持度的项，从而获得频繁k项集L_k；获取完频繁项集后，依据频繁项集构造关联规则，并计算关联规则的置信度，当置信度超过预设最小置信度时，输出该关联规则，并将其应用于告警信息压缩，其中构造关联规则方法为：将频繁项集L_i(i＝2,3..k)拆分为两个互不相交告警信息子集A、B，B＝L_i-A，A为L_i任意非空子集，构建关联规则(A)->(B)，意思是告警信息子集A发生情况下引发告警信息子集B发生，衡量这种规则的标准为置信度，置信度公式如下：

其中，

表示关联规则(A)->(B)的置信度，P(B|A)表示当A发生时B发生的概率，support(A∪B)表示表示A和B一起发生的支持度，也就是A和B一起发生的概率，support(A)表示A的支持度，即A发生的概率，当置信度超过预设最小置信度时，输出关联规则(A)->(B)；

步骤4：若告警时间窗口内告警数据里面有告警信息子集A和告警信息子集B，则告警信息子集A和告警信息子集B只保留告警信息子集A即可，告警信息子集B删掉，实现电力物联异常告警压缩。

所述步骤3中，预设最小支持度和预设最小置信度的确定方法为：

确定预设最小支持度和预设最小置信度的联合选择方法，建立综合评分公式，选择评分最高的预设最小支持度和预设最小置信度组合。

建立综合评分公式，选择评分最高的预设最小支持度和预设最小置信度组合的具体方法为：设确定预设最小支持度为min_support，预设最小置信度为min_confidence，apriori算法的运行时间为run_time,Apriori算法合并率为merge_rate，合并率＝(合前告警数量-合并后告警数量)/合并前告警数量，综合得分为sum，综合得分指算法执行时间和算法执行效果在Apriori算法执行时间所占比重调整系数α和Apriori算法告警项的合并率所占比重调整系数β设定下的得分(算法要想取得较好的效果(合并率或者压缩率)，那就需要执行较长时间，为了平衡算法执行时间与算法执行效果，引入参数α、β调整算法执行时间与算法执行效果重要性，比如α＝0.5β＝0.5就限定了算法执行时间和算法执行效果同等重要，若α＞β则限定算法执行时间重要性要强于算法执行效果)，在设定好α、β后，为了获得综合得分最大值，本发明采用遗传算法进行求取，α、β分别设定为各自一次拟合函数调整系数，建立下面综合评分公式，选择评分最高的预设最小支持度和预设最小置信度作为评价标准(这个评价是用来确定最优最小支持度和最小置信度值的组合，由于最小支持度和最小置信度范围均为0到1已确定，当我们设定好α、β后，本发明采用遗传算法求得综合评分sum取最大值时最小支持度和最小置信度的值)；

run_time＝f₁(min_support)

merge_rate＝f₂(min_confidence)

run_time＝f₁(min_support)；merge_rate＝f₂(min_confidence)分别

为Apriori算法运行时间与预设最小支持度的一次拟合函数，Apriori算法合并率与预设最小置信度的一次拟合函数；

所述步骤1中，通过Java构建电力物联异常告警日志为建立日志(logger)，创立处理器(handler)、设定格式器(formatter)、依次给处理器装载格式器和给日志装载处理器。

本发明的有益效果是：

1、本发明模型精度高、普适性强。现有方法大多采用告警对象的网络拓扑信息合并、服务组织合并、预设告警模式合并等合并方式，而这些方法无法实现大量告警精准合并的目标。比如，告警网络拓扑信息合并面对不同类型告警信息需要重新构建网络拓扑结构；服务组织合并以告警信息名称匹配进行合并，存在较大误差，预设告警模式合并面对复杂运维情景难度较高，不够及时有效。本文对利用告警数据时序信息，挖掘告警信息频繁项集，构建关联规则，针对众多类型告警信息，充分挖掘告警信息之间的关联关系，以实现告警信息高精度压缩。

2，本发明数据处理能力更大，同样机器性能，处理能力至少是常规合并算法2倍以上。本发明算法采用时间滑动窗口方法处理数据，形成有时序信息的告警序列，即每组告警信息中告警项存在先后顺序，比如某时间窗口取到的告警组(R1，R2，R3)，R1、R2、R3虽被认为几乎同时发生，但也存在先后顺序，即R1早于R2早于R3，由此可以极大减少关联规则产生的数目，若此告警组为频繁项集，则关联规则只会产生(R1)->(R2,R3)，(R1,R2)->(R3)，而不会逆序产生(R2,R3)->R1，(R3)->(R2,R1)，(R3,R2)->(R1)等关联规则，以此增强算法运行速度。

3、本发明构建了最小支持度和最小置信度联合选择方法，量化了评价指标，能够兼顾算法执行时间、告警信息合并率这些要素，降低客观因素对仿真结果影响。本发明综合评价指标主要为算法执行时间和告警信息合并率，由于这两个要素分别与模型Apriori算法中的最小支持度、最小置信度存在关系，故将综合评价指标转化为最小支持度和最小置信度联合函数，并通过遗传算法求出最优的最小支持度和最小置信度组合，以此兼顾算法执行时间、告警信息合并率这些要素，降低客观因素对仿真结果影响。

附图说明

图1为本发明的流程图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步的详细说明：

本发明涉及的一种基于Apriori算法的电力物联异常告警压缩方法，如图1所示，它包括如下步骤：

步骤2：采用时间滑动窗口的方法在整理后的电力物联异常告警数据中进行合组处理，即将告警时间相距B分钟(1分钟)内的告警数据合并成一组告警数据(组内多个告警按时间先后顺序排列，并认定几乎是一起发生,组间也按先后顺序排列)。具体方法为：将滑动时间窗口大小设置为A秒(60s)，对各项告警数据中告警具体名称缺失的告警数据以0填充，并对各项告警数据中重复告警数据进行去重处理(告警信息完全重复)，形成没有重复告警的告警组数据；以2019年8月15日8时0分到2019年8月15日8时30分之间半个小时部分设备告警数据为例，其中R1、R2、R3、R4、R5代表不同类型的告警项。将滑动时间窗口大小设置为60s，告警项缺失的数据以0填充，并对重复数据进行去重处理。处理后，原来50组项告警数据过滤清洗为表1中9组23项告警数据。

表1预处理后的数据

步骤3、利用Apriori算法扫描没有重复告警的各项告警数据，获取所有项告警数据，生成1项集C₁，然后对1项集C₁中每个项进行计数并计算支持度，删除1项集C₁中支持度小于预设最小支持度的项，从而获得频繁1项集L₁，再对频繁1项集L₁自身连接生成的集合执行剪枝策略产生候选2项集的集合C₂，然后，利用Apriori算法扫描所有候选2项集的集合C₂，对候选2项集的集合C₂中每个项进行计数并计算支持度，删除候选2项集的集合C₂中支持度小于预设最小支持度的项，从而获得频繁2项集L₂，再对频繁2项集L₂自身连接生成的集合执行剪枝策略产生候选3项集的集合C₃，然后，利用Apriori算法扫描所有候选3项集的集合C₃，对候选3项集的集合C₃中每个项进行计数并计算支持度，删除候选3项集的集合C₃中支持度小于预设最小支持度的项，从而获得频繁3项集L₃；

以此类推，对频繁k-1项集L_k-1自身连接生成的集合执行剪枝策略产生候选k项集的集合C_k，然后，利用Apriori算法扫描所有候选k项集的集合C_k，对候选k项集的集合C_k中的每个项进行计数并计算支持度，删除候选k项集的集合C_k中支持度小于预设最小支持度的项，从而获得频繁k项集L_k；获取完频繁项集后，依据频繁项集构造关联规则，并计算关联规则的置信度，当置信度超过预设最小置信度时，输出该关联规则，并将其应用于告警信息压缩。其中构造关联规则方法为：将频繁项集L_i(i＝2,3..k)拆分为两个互不相交告警信息子集A、B，B＝L_i-A，A为L_i任意非空子集，构建关联规则(A)->(B)，意思是告警信息子集A发生情况下引发告警信息子集B发生，衡量这种规则的标准为置信度，置信度公式如下：

其中，

按照上面操作方法，设定最小支持度为0.2，最小置信度为0.65，中途得到的频繁项集L₁、L₂、L₃数据如下表2、表3、表4。

表2频繁项集L₁数据

表3频繁项集L₂数据

表4频繁项集L₃数据

比如(R2,R4)支持度为0.22，R2的支持度为0.78，那么关联规则(R2)->(R4)的置信度为0.22/0.78；

频繁项集L_k根据最小支持度筛选得到，不再具体列出，获取频繁项集后，构造关联规则，计算出关联规则置信度如表5。

表5置信度表

步骤4：若告警时间窗口内告警数据里面有告警信息子集A和告警信息子集B，则告警信息子集A和告警信息子集B只保留告警信息子集A即可，告警信息子集B删掉，实现电力物联异常告警压缩。从表5中可以看出，(R1)->(R3)、(R1)->(R2)、关联规则置信度均超过最小置信度0.65，故将(R1，R3)、(R1，R2)这些出现的关联告警项分别压压缩合并成R1、R1告警信息。压缩前样本数据有23条，使用这种关联规则压缩之后的数据是17条，压缩了6条数据，压缩率(或合并率)为26％。

上面步骤只采用极少量数据做演示说明，下面，按照上面的步骤，换用大量数据进行实验。测试数据为：某电力公司数据中心2019年11月1日到2019年11月30日一个月的告警数据，模型训练数据为：2019年8月1日到2019年8月31日一个月的告警数据,测试结果如表6。表6结果显示，通过算法的合并使得原始告警数量有了较大程度的削减,完成了对有关联关系的规则的合并，起到了告警收敛的作用，减少了冗余告警数量。

表6海量数据实验效果

最小支持度涉及剪支后搜索范围，设置太高会丢失大量告警信息，设置过低会极大增加搜索时间。

最小置信度的设定过小，会使数据关联度增大，本来没有关联的数据进行合并后，对告警信息报警的准确率有一定干扰，设定太大，会削弱告警合并的效果，无法达到理想的合并效果。为此，本发明需要建立综合评分公式，依据综合评分公式选择评分最高的预设最小支持度和预设最小置信度组合的具体方法为：设确定预设最小支持度为min_support，预设最小置信度为min_confidence，apriori算法的运行时间为run_time,Apriori算法合并率为merge_rate，合并率＝(合前告警数量-合并后告警数量)/合并前告警数量，综合得分为sum，综合得分指算法执行时间和算法执行效果在Apriori算法执行时间所占比重调整系数α和Apriori算法告警项的合并率所占比重调整系数β设定下的得分(算法要想取得较好的效果(合并率或者压缩率)，那就需要执行较长时间，为了平衡算法执行时间与算法执行效果，引入参数α、β调整算法执行时间与算法执行效果重要性，比如α＝0.5β＝0.5就限定了算法执行时间和算法执行效果同等重要，若α＞β则限定算法执行时间重要性要强于算法执行效果)，在设定好α、β后，为了获得综合得分最大值，本发明采用遗传算法进行求取，建立下面综合评分公式，选择评分最高的预设最小支持度和预设最小置信度作为评价标准(这个评价是用来确定最优最小支持度和最小置信度值的组合，由于最小支持度和最小置信度范围均为0到1已确定，当我们设定好α、β后，本发明采用遗传算法求得综合评分sum取最大值时最小支持度和最小置信度的值)；

run_time＝f₁(min_support)

merge_rate＝f₂(min_confidence)

run_time＝f₁(min_support)；merge_rate＝f₂(min_confidence)分别为Apriori算法运行时间与预设最小支持度的一次拟合函数，Apriori算法合并率与预设最小置信度的一次拟合函数；

通过以上方法，本次实验设定α＝0.45,β＝0.55最小支持度和最小置信度通过遗传算法求出，分别为0.43、0.72。在I5 9500内存16G Win10平台下执行平均时间为2分37秒，合并率为68％。

本说明书未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种基于Apriori算法的电力物联异常告警压缩方法，其特征在于，它包括如下步骤：

步骤2：采用时间滑动窗口的方法在整理后的电力物联异常告警数据中进行合组处理，即将告警时间相距B分钟内的告警数据合并成一组告警数据，对各项告警数据中告警具体名称缺失的告警数据以0填充，并对各项告警数据中重复告警数据进行去重处理，形成没有重复告警的告警组数据；

其中，

2.根据权利要求1所述的基于Apriori算法的电力物联异常告警压缩方法，其特征在于：所述步骤3中，预设最小支持度和预设最小置信度的确定方法为：

3.根据权利要求2所述的基于Apriori算法的电力物联异常告警压缩方法，其特征在于：建立综合评分公式，选择评分最高的预设最小支持度和预设最小置信度组合的具体方法为：设确定预设最小支持度为min_support，预设最小置信度为min_confidence，Apriori算法的运行时间为run_time,Apriori算法合并率为merge_rate，综合得分为sum，综合得分指算法执行时间和算法执行效果在Apriori算法执行时间所占比重调整系数α和Apriori算法告警项的合并率所占比重调整系数β设定下的得分，在设定好α、β后，为了获得综合得分最大值，本发明采用遗传算法进行求取，f₁，f₂分别设定为各自一次拟合函数，建立下面综合评分公式，选择评分最高的预设最小支持度和预设最小置信度作为评价标准；

run_time＝f₁(min_support)

merge_rate＝f₂(min_confidence)

run_time＝f₁(min_support)；merge_rate＝f₂(min_confidence)分别为Apriori算法运行时间与预设最小支持度的一次拟合函数，Apriori算法合并率与预设最小置信度的一次拟合函数。

4.根据权利要求1所述的基于Apriori算法的电力物联异常告警压缩方法，其特征在于：所述步骤1中，通过Java构建电力物联异常告警日志为建立日志，创立处理器、设定格式器、依次给处理器装载格式器和给日志装载处理器。