CN107862406A

CN107862406A - 应用深度学习和改进Apriori算法综合的一次设备风险预测的方法

Info

Publication number: CN107862406A
Application number: CN201711046984.7A
Authority: CN
Inventors: 梁寿愚; 方文崇; 黄雄; 何超林; 朱文; 周志烽
Original assignee: China Southern Power Grid Co Ltd
Current assignee: China Southern Power Grid Co Ltd
Priority date: 2017-10-31
Filing date: 2017-10-31
Publication date: 2018-03-30

Abstract

本发明是一种应用深度学习和改进Apriori算法综合的一次设备风险预测的方法。包括有如下步骤：1）深度学习进行预测；2）改进Apriori算法；3）基于MapReduce的并行化Apriori算法的实现；4）将深度学习算法得到的结果和Apriori的结果结合。本发明所改进的算法，可以自由定义兴趣项、频数阀值，从而提高大量数据挖掘的效率，同时避免无效的输出项目。该特征可从方法输入、输出看出。本发明采用了深度学习算法对海量设备运行历史数据进行模型学习和预测。本发明利用分布式并行架构实现改进后的Apriori算法，进一步提升了计算的效率，可保证未来计算规模增大的情况下扩展计算能力，以在准实时的时间范围内给出风险预测结果。

Description

应用深度学习和改进Apriori算法综合的一次设备风险预测的方法

技术领域

本发明属于电力调度自动化领域，特别是一种涉及设备风险预测方法，属于应用深度学习和改进Apriori算法综合的一次设备风险预测的方法创新技术。

背景技术

随着国民经济和电力系统的发展，对电力系统安全可靠运行的要求不断提高，电力系统在线状态监测及状态检修已经成为重要的科学研究和工程应用方向。电力设备在线状态监测可以实时监控电力设备在实际运行状况下的健康状况，为系统的安全稳定运行提供保证。通过利用多种在线监测手段，综合设备的应用环境、气候等因素，对设备状态进行纵向（历史和现状）、横向（同类设备的运行状况）的比较分析，识别故障的早期征兆，并对故障部位、故障严重程度及发展趋势作出判断并预警，确定最佳检修时机，从而实现配电设备全寿命周期管理。

随着各类状态监测数据、运行数据、环境数据的增加，如何利用这些数据，对设备未来发生问题的风险进行分析，为计划检修、资源分配等提供指导，成为一个重要的问题。风险是由故障概率和故障后果共同决定的。通过对设备数据、运行数据以及巡检信息等，基于设备状态评估规则进行评估，计算设备的故障风险概率。传统被动式的安全管理模式已不能适应现代化电网企业安全生产管理的需要，需要有效的技术手段实现风险超前预警、分析、评估与预警，从而有效避免事故发生。

为了进行电网的风险分析，需要对前述的海量电网运行数据和相关环境数据进行挖掘分析处理。但是传统的数据挖掘算法在面对海量数据时，会面临诸多瓶颈，比如数据的存储问题和它的处理性能等，这就造成了数据挖掘算法不能有效地对海量数据进行处理。云计算具有高可靠性、虚拟性、分布式存储和强大的并行计算能力，并且具有良好的扩展性能，这些特点和数据挖掘相结合就能解决传统数据挖掘所面临的问题。

发明内容

本发明的目的在于考虑上述问题而提供一种应用深度学习和改进Apriori算法综合的一次设备风险预测的方法。本发明解决基于海量数据的挖掘分析并进行电网风险预测的问题。

本发明的技术方案是：本发明的应用深度学习和改进Apriori算法综合的一次设备风险预测的方法,包括有如下步骤：1）深度学习进行预测；2）改进算法；3）基于MapReduce的并行化Apriori算法的实现；4）将深度学习算法得到的结果和Apriori的结果结合。

本发明为了有效地对海量电力数据进行风险预测分析和分类，采用基于深度学习和关联规则Apriori俩种学习类算法，并针对算法本身的特点提出改进方案。深度学习算法需要根据数据特征建立响应的学习网络。关联规则Apriori算法中频繁项集的获取需要重复的计算，在这方面对算法进行并行化改进。最后，采用云计算技术中的MapReduce编程框架以及HBase分布式数据库等技术，对数据挖掘算法进行改进，并设计相应的Map和Reduce函数，提高其处理海量数据的能力。本发明利用深度学习算法需要根据数据特征建立学习网络对设备风险进行预测；利用MapReduce框架对关联规则Apriori算法进行并行化改进，在实际应用中，利用关联规则Apriori算法去分析多种因素对电网运行风险的影响。把二者结果结合作为对设备风险的最终预测。基于实际数据的测试证明，计算结果与实际情况相符，且经过并行化处理之后的算法在效率方面有了较大幅度的改进。

本发明使用电网调度运行积累的大量运行数据以及与设备状态相关的数据，对设备运行的风险进行预测。需要处理数据关联分析的问题。本发明采用深度学习网络、Apriori算法这两种方法进行分析并对其进行并行化改进，使其适用于电网风险分析的多因素和大运算量特点，以支持在准实时的时间范围内得到预测结果。本发明基于云平台的并行化计算框架和相关的处理函数，以实现风险预测的在线运行和准实时计算。本发明是一种方便实用的。

附图说明

图1为本发明深度学习算法的原理图；

图2为本发明改进Apriori算法的流程图。

具体实施方式

实施例：

本发明深度学习算法的原理图如图1所示，本发明的应用深度学习和改进Apriori算法综合的一次设备风险预测的方法,包括有如下步骤：

1）深度学习进行预测；

2）改进算法；

3）基于MapReduce的并行化Apriori算法的实现；

4）将深度学习算法得到的结果和Apriori的结果结合。

上述步骤1）深度学习进行预测的具体方法如下：

建立深度架构，底层是由GBRBM 与RBM组成的DBN的架构，用于非监督的特征学习；顶层加入了一个回归层用作预测。在DBN 预训练以后，顶层再通过有标签的数据进行BP算法去做参数调整。这种方法要强于以往传统神经网络直接用BP算法做梯度下降调整，直观的原因为：DBN 预训练后的参数已经接近于训练好，那么再做BP算法，只需要在已知参数里面进行一个局部的搜索，无论训练与收敛速度都快很多。此深度学习模型的训练步骤如下：

11）把设备历史数据进行归一化到[0，1]之间，那么输入向量X 便可以表示为：

X ={xt|i t ∈T，i∈N}

式中：X ti 表示为第i类设备在第t 时间的归一化后的数据。初始化训练次数、学习速率；

12）把向量X 作为输入，通过CD过程训练第一层的GBRBM；

13）把GBRBM的输出作为上层的RBM的输入，训练RBM；

14）把RBM 的输出作为上层的RBM 的输入，训练RBM；

15）重复执行步骤14），直到执行完给定的层数；

16）最后一个RBM 的输出作为顶层回归层的输入，随机初始化其参数；

17）通过监督式BP方法微调这个架构的参数。最后通过训练得出的模型就可以作为预测模型，当给定一组输入向量后，便得到对应设备的预测输出。

上述步骤2）改进算法的具体方法如下：

通过引入兴趣项、频数阀值，来提高挖掘的效率；通过动态挖掘数据关系来计算。改进后较传统算法在时空复杂度上有较大的提高。

21）提出兴趣项的各个子集的项频数,具体包括如下步骤：

211）输入兴趣项和挖掘事务数据库；

212）扫描事务数据库；

213）记录各个子集的项频数和数据库中记录的总条数，保存子集；

22）找出关联关系,具体包括如下步骤：

221）输入和，把转化为

222）扫描保存的兴趣项子集，找出频繁项集，删除频数小于的子集

223）在频繁项集中，找出置信度大于的关联关系，并输出。

上述步骤3）基于MapReduce的并行化Apriori算法的实现的具体方法如下：

关联规则的算法过程可知，在产生频繁项集的过程中，特别是对广域数据源，会产生大量的候选项集和重复扫描数据库，这就造成了算法的瓶颈，影响了挖掘的效率和精度。基于云计算平台的并行化的Apriori算法将上述的挖掘工作合理的分配给了云计算平台中的数据存储计算节点DataNode进行并行处理，在该平台中，复杂的数据挖掘任务就会被分配到各个计算节点，由它们并行的执行，从每个计算节点DataNode中获得小范围的频繁项集，然后再将各个节点的频繁项集传给执行reduce任务的计算节点进行汇集，并最终由NameNode节点对频繁项集进行统计，并最终确定全局频繁项集，这就极大地提高了Apriori算法的挖掘效率。

基于MapReduce的并行框架对改进Apriori算法进行计算，包括如下步骤:

31）读取程序参数，数据配置文件，输入最小支持度（min_support)、最小置信度（min_conf)，验证数据配置文件合法性，设置MapReduce参数，启动MapReduce任务；

32）Map阶段：每读入一条数据（事务)，将该数据中包含的项集作为key,数值1作为value输出；

33）Reduce阶段：得到以项集为key，1为value的输入，相同的项集映射到同一个reducer处理，统计项集出现的频率，满足最小支持度则为频繁项集；

34）Reduce阶段：将产生的K频繁集写到HBase，如果K频繁集为空，则结束迭代过程，转到步骤36）；

35）从HBase读入K频繁集，利用频繁K项集产生频繁k+1项集的候选集，回到步骤32），迭代执行，直到不产生新的候选集；

36)根据上述几个步骤所得到的数据的频繁项集，按照最小置信度的最终生成数据的关联规则。

上述步骤4）将深度学习算法得到的结果和Apriori的结果结合的具体方法如下：

对给定的设备e和预测时间t，利用深度学习方法和Apriori方法得到结果，分别记为R_DP(e,t)和R_A(e,t)

则最终的设备风险即为：

R(e,t)= w*R _DP (e,t)+(1-w)R _A (e,t)

其中，w为二者结合的权重分配系数。

R_DP(e,t)深度学习方法的结果

R_A(e,t)为Apriori方法得到结果

关联规则数据挖掘算法一直是近几年的研究热点，对于它的研究也从来没有中断过。关联规则主要是表现事务之间的相互依赖关系，在事务的相互关系中，如果一个事物和其他事物之间存在关联关系，这些事务中的某些属性值可以根据其他事物来推断出来。

将关联规则应用于商业领域中，则可以根据客户的购买交易记录发现商品间的关联，这些关联联系将可以反应顾客购买商品的行为习惯和兴趣。所发现的这些行为规则可以用来分析顾客购物习惯，例如如何摆放商品货架增加销售、商品广告策划等，并且关联分析也广泛应用到了零售业，如超市等。

本发明主要思想是按照一定的标准，将数据集进行准确的归类，这个过程使用分类模型或者分类函数也即是分类器来处理和分析所选取的数据，通过对待分类数据参数进行分析，将这些数据划分到一个已知的类别中，这是数据的分类过程。数据的分类在实际的应用中具有普遍性，所涉及的面也很广，所以在生产和生活中会得到广泛的使用。

主要从以下几方面对分类的效率和准确定进行评价:

(1)利用所获得的分类模型预测的准确性，预测的准确度就影响了对数据集进行预测分类的能力;

(2)分类模型的执行效率，这也就包括了模型本身的复杂度和计算速度,算法和模型的实现细节还有硬件环境会对执行效率有较大影响，在数据挖掘任务中，我们所面对的数据集往往具有很大的规模，有时候可以达到PB级别，这就需要我们使用的分类模型在时间复杂度和空间复杂度上达到最优，这就值得对分类模型进行比较深入的研究；

(3)所采用模型的易用性和易理解性。通过对算法的优化，使最终的数据挖掘算法能够具有高效性的同时也具有易用性的特点；

(4)分类模型的可扩展性。对于不同规模和类型数据集的处理，分类模型就需要进行一定的改变以使对数据集的分类具有更好地准确度，这就需要分类模型有一定的可扩展性。

算法的目的主要是为了对数据进行有效地处理，从数据中获取频繁项集。Apriori算法具有很多重要的性质，其中最重要的就是反单调性。它主要是利用迭代的原理去实现频繁项集的挖掘。Apriori算法使用逐层搜索的迭代方法产生频繁项目集，即利用(k-1)频繁项集来产生k项集，是一种基于生成候选项集的关联规则挖掘方法。算法首先扫描数据库，找出满足最小支持度的项目，称为1-频繁项集，记为L1;通过自身连接产生2-候选项集C2，由C2找出满足最小支持度的频繁项集L2(通过扫描数据库)；相同步骤，产生L3,如此迭代循环，直到没有新的k-频繁项集产生。

传统单节点Apriori算法一般利用单台服务器，即将数据挖掘流程的各个阶段都在单节点中完成，这就极大地限制了数据挖掘所能处理的数据量，并且随着数据的不断增加，它的处理效率在下降。而设备风险预测需要解决对海量电力数据进行处理的问题，这些数据不仅数据量大，并且关联关系复杂。

本发明使用电网调度运行积累的大量运行数据以及与设备状态相关的数据，对设备运行的风险进行预测。需要处理数据关联分析的问题。

本发明用深度学习网络、Apriori算法这两种方法并对其进行并行化改进，使其适用于电网风险分析的多因素和大运算量特点，以支持在准实时的时间范围内得到预测结果。

本发明设计了基于云平台的并行化计算框架和相关的处理函数，以实现风险预测的在线运行和准实时计算。

利用本发明所改进的算法，可以自由定义兴趣项、频数阀值，从而提高大量数据挖掘的效率，同时避免无效的输出项目，对后续的业务开展给出更有效的指导。

利用本发明深度学习方法，可以发现设备风险数据中的隐含规律，从而更准确的预测设备未来风险的数值，避免建立解析模型中遇到的适应性问题。

利用本发明分布式并行架构实现改进后的Apriori算法，进一步提升了计算的效率，可保证未来计算规模增大的情况下扩展计算能力，以在准实时的时间范围内给出风险预测结果。

单节点的处理方式就不能够有效地从中提炼出符合需要的规则。在传统单节点中，数据挖掘的执行都是顺序执行，这就使得只能按照数据挖掘的流程只能顺序执行，无法并行。这是目前电网企业中面临的一个常见的困境，即虽然拥有海量的数据资源，但是却无法有效地处理和利用，反而耗费了大量存储资源，造成了极大地数据资源浪费。

本发明所改进的算法，可以自由定义兴趣项、频数阀值，从而提高大量数据挖掘的效率，同时避免无效的输出项目。该特征可从方法输入、输出看出。

本发明采用了深度学习算法对海量设备运行历史数据进行模型学习和预测。

本发明利用分布式并行架构实现改进后的Apriori算法，进一步提升了计算的效率，可保证未来计算规模增大的情况下扩展计算能力，以在准实时的时间范围内给出风险预测结果。

Claims

1.一种应用深度学习和改进Apriori算法综合的一次设备风险预测的方法,其特征在于包括有如下步骤：

1）深度学习进行预测；

2）改进算法；

3）基于MapReduce的并行化Apriori算法的实现；

4）将深度学习算法得到的结果和Apriori的结果结合。

2.根据权利要求1所述的应用深度学习和改进Apriori算法综合的一次设备风险预测的方法,其特征在于上述步骤1）深度学习进行预测的具体方法如下：

建立深度架构，底层是由GBRBM 与RBM组成的DBN的架构，用于非监督的特征学习；顶层加入了一个回归层用作预测，在DBN 预训练以后，顶层再通过有标签的数据进行BP算法去做参数调整，这种方法要强于以往传统神经网络直接用BP算法做梯度下降调整，直观的原因为：DBN 预训练后的参数已经接近于训练好，那么再做BP算法，只需要在已知参数里面进行一个局部的搜索，无论训练与收敛速度都快很多，此深度学习模型的训练步骤如下：

X ={xt |i t ∈T，i ∈N}

式中：X ti 表示为第i 类设备在第t 时间的归一化后的数据，初始化训练次数、学习速率；

12）把向量X 作为输入，通过CD过程训练第一层的GBRBM；

13）把GBRBM的输出作为上层的RBM的输入，训练RBM；

14）把RBM 的输出作为上层的RBM 的输入，训练RBM；

15）重复执行步骤14），直到执行完给定的层数；

17）通过监督式BP方法微调这个架构的参数，最后通过训练得出的模型就可以作为预测模型，当给定一组输入向量后，便得到对应设备的预测输出。

3.根据权利要求1所述的应用深度学习和改进Apriori算法综合的一次设备风险预测的方法,其特征在于上述步骤2）改进算法的具体方法如下：

通过引入兴趣项、频数阀值，来提高挖掘的效率；通过动态挖掘数据关系来计算，改进后较传统算法在时空复杂度上有较大的提高；

21）提出兴趣项的各个子集的项频数，具体包括如下步骤：

211）输入兴趣项和挖掘事务数据库；

212）扫描事务数据库；

22）找出关联关系，具体包括如下步骤：

221）输入和，把转化为

223）在频繁项集中，找出置信度大于的关联关系，并输出。

4.根据权利要求1所述的应用深度学习和改进Apriori算法综合的一次设备风险预测的方法,其特征在于上述步骤3）基于MapReduce的并行化Apriori算法的实现的具体方法如下：

关联规则的算法过程可知，在产生频繁项集的过程中，特别是对广域数据源，会产生大量的候选项集和重复扫描数据库，这就造成了算法的瓶颈，影响了挖掘的效率和精度，基于云计算平台的并行化的Apriori算法将上述的挖掘工作合理的分配给了云计算平台中的数据存储计算节点DataNode进行并行处理，在该平台中，复杂的数据挖掘任务就会被分配到各个计算节点，由它们并行的执行，从每个计算节点DataNode中获得小范围的频繁项集，然后再将各个节点的频繁项集传给执行reduce任务的计算节点进行汇集，并最终由NameNode节点对频繁项集进行统计，并最终确定全局频繁项集，这就极大地提高了Apriori算法的挖掘效率。

5.根据权利要求1所述的应用深度学习和改进Apriori算法综合的一次设备风险预测的方法,其特征在于基于MapReduce的并行框架对改进Apriori算法进行计算，包括如下步骤:

6.根据权利要求1至5任一项所述的应用深度学习和改进Apriori算法综合的一次设备风险预测的方法,其特征在于上述步骤4）将深度学习算法得到的结果和Apriori的结果结合的具体方法如下：

则最终的设备风险即为：

R(e,t)= w*R _DP (e,t)+(1-w)R _A (e,t)

其中，

w为二者结合的权重分配系数；

R_DP(e,t)深度学习方法的结果；

R_A(e,t)为Apriori方法得到结果。