CN107862406A - 应用深度学习和改进Apriori算法综合的一次设备风险预测的方法 - Google Patents
应用深度学习和改进Apriori算法综合的一次设备风险预测的方法 Download PDFInfo
- Publication number
- CN107862406A CN107862406A CN201711046984.7A CN201711046984A CN107862406A CN 107862406 A CN107862406 A CN 107862406A CN 201711046984 A CN201711046984 A CN 201711046984A CN 107862406 A CN107862406 A CN 107862406A
- Authority
- CN
- China
- Prior art keywords
- algorithm
- deep learning
- data
- apriori
- frequent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000013135 deep learning Methods 0.000 title claims abstract description 38
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 7
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 7
- 238000004364 calculation method Methods 0.000 claims abstract description 11
- 238000007418 data mining Methods 0.000 claims description 17
- 238000005065 mining Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 13
- 230000006872 improvement Effects 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 6
- 238000013500 data storage Methods 0.000 claims description 3
- 238000009826 distribution Methods 0.000 claims description 3
- 241001155961 Baris Species 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 239000003638 chemical reducing agent Substances 0.000 claims description 2
- 238000013136 deep learning model Methods 0.000 claims description 2
- 230000010354 integration Effects 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 230000000007 visual effect Effects 0.000 claims 1
- 238000009412 basement excavation Methods 0.000 abstract description 2
- 238000001027 hydrothermal synthesis Methods 0.000 abstract 1
- 238000013145 classification model Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000012502 risk assessment Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000010219 correlation analysis Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000013439 planning Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/20—Software design
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- Entrepreneurship & Innovation (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Development Economics (AREA)
- Software Systems (AREA)
- Educational Administration (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明是一种应用深度学习和改进Apriori算法综合的一次设备风险预测的方法。包括有如下步骤:1)深度学习进行预测;2)改进Apriori算法;3)基于MapReduce的并行化Apriori算法的实现;4)将深度学习算法得到的结果和Apriori的结果结合。本发明所改进的算法,可以自由定义兴趣项、频数阀值,从而提高大量数据挖掘的效率,同时避免无效的输出项目。该特征可从方法输入、输出看出。本发明采用了深度学习算法对海量设备运行历史数据进行模型学习和预测。本发明利用分布式并行架构实现改进后的Apriori算法,进一步提升了计算的效率,可保证未来计算规模增大的情况下扩展计算能力,以在准实时的时间范围内给出风险预测结果。
Description
技术领域
本发明属于电力调度自动化领域,特别是一种涉及设备风险预测方法,属于应用深度学习和改进Apriori算法综合的一次设备风险预测的方法创新技术。
背景技术
随着国民经济和电力系统的发展,对电力系统安全可靠运行的要求不断提高,电力系统在线状态监测及状态检修已经成为重要的科学研究和工程应用方向。电力设备在线状态监测可以实时监控电力设备在实际运行状况下的健康状况,为系统的安全稳定运行提供保证。通过利用多种在线监测手段,综合设备的应用环境、气候等因素,对设备状态进行纵向(历史和现状)、横向(同类设备的运行状况)的比较分析,识别故障的早期征兆,并对故障部位、故障严重程度及发展趋势作出判断并预警,确定最佳检修时机,从而实现配电设备全寿命周期管理。
随着各类状态监测数据、运行数据、环境数据的增加,如何利用这些数据,对设备未来发生问题的风险进行分析,为计划检修、资源分配等提供指导,成为一个重要的问题。风险是由故障概率和故障后果共同决定的。通过对设备数据、运行数据以及巡检信息等,基于设备状态评估规则进行评估,计算设备的故障风险概率。传统被动式的安全管理模式已不能适应现代化电网企业安全生产管理的需要,需要有效的技术手段实现风险超前预警、分析、评估与预警,从而有效避免事故发生。
为了进行电网的风险分析,需要对前述的海量电网运行数据和相关环境数据进行挖掘分析处理。但是传统的数据挖掘算法在面对海量数据时,会面临诸多瓶颈,比如数据的存储问题和它的处理性能等,这就造成了数据挖掘算法不能有效地对海量数据进行处理。云计算具有高可靠性、虚拟性、分布式存储和强大的并行计算能力,并且具有良好的扩展性能,这些特点和数据挖掘相结合就能解决传统数据挖掘所面临的问题。
发明内容
本发明的目的在于考虑上述问题而提供一种应用深度学习和改进Apriori算法综合的一次设备风险预测的方法。本发明解决基于海量数据的挖掘分析并进行电网风险预测的问题。
本发明的技术方案是:本发明的应用深度学习和改进Apriori算法综合的一次设备风险预测的方法,包括有如下步骤:1)深度学习进行预测;2)改进算法;3)基于MapReduce的并行化Apriori算法的实现;4)将深度学习算法得到的结果和Apriori的结果结合。
本发明为了有效地对海量电力数据进行风险预测分析和分类,采用基于深度学习和关联规则Apriori俩种学习类算法,并针对算法本身的特点提出改进方案。深度学习算法需要根据数据特征建立响应的学习网络。关联规则Apriori算法中频繁项集的获取需要重复的计算,在这方面对算法进行并行化改进。最后,采用云计算技术中的MapReduce编程框架以及HBase分布式数据库等技术,对数据挖掘算法进行改进,并设计相应的Map和Reduce函数,提高其处理海量数据的能力。本发明利用深度学习算法需要根据数据特征建立学习网络对设备风险进行预测;利用MapReduce框架对关联规则Apriori算法进行并行化改进,在实际应用中,利用关联规则Apriori算法去分析多种因素对电网运行风险的影响。把二者结果结合作为对设备风险的最终预测。基于实际数据的测试证明,计算结果与实际情况相符,且经过并行化处理之后的算法在效率方面有了较大幅度的改进。
本发明使用电网调度运行积累的大量运行数据以及与设备状态相关的数据,对设备运行的风险进行预测。需要处理数据关联分析的问题。本发明采用深度学习网络、Apriori算法这两种方法进行分析并对其进行并行化改进,使其适用于电网风险分析的多因素和大运算量特点,以支持在准实时的时间范围内得到预测结果。本发明基于云平台的并行化计算框架和相关的处理函数,以实现风险预测的在线运行和准实时计算。本发明是一种方便实用的。
附图说明
图1为本发明深度学习算法的原理图;
图2为本发明改进Apriori算法的流程图。
具体实施方式
实施例:
本发明深度学习算法的原理图如图1所示,本发明的应用深度学习和改进Apriori算法综合的一次设备风险预测的方法,包括有如下步骤:
1)深度学习进行预测;
2)改进算法;
3)基于MapReduce的并行化Apriori算法的实现;
4)将深度学习算法得到的结果和Apriori的结果结合。
上述步骤1)深度学习进行预测的具体方法如下:
建立深度架构,底层是由GBRBM 与RBM组成的DBN的架构,用于非监督的特征学习;顶层加入了一个回归层用作预测。在DBN 预训练以后,顶层再通过有标签的数据进行BP算法去做参数调整。这种方法要强于以往传统神经网络直接用BP算法做梯度下降调整,直观的原因为:DBN 预训练后的参数已经接近于训练好,那么再做BP算法,只需要在已知参数里面进行一个局部的搜索,无论训练与收敛速度都快很多。此深度学习模型的训练步骤如下:
11)把设备历史数据进行归一化到[0,1]之间,那么输入向量X 便可以表示为:
X ={xt|i t ∈T,i∈N}
式中:X ti 表示为第i类设备在第t 时间的归一化后的数据。初始化训练次数、学习速率;
12)把向量X 作为输入,通过CD过程训练第一层的GBRBM;
13)把GBRBM的输出作为上层的RBM的输入,训练RBM;
14)把RBM 的输出作为上层的RBM 的输入,训练RBM;
15)重复执行步骤14),直到执行完给定的层数;
16)最后一个RBM 的输出作为顶层回归层的输入,随机初始化其参数;
17)通过监督式BP方法微调这个架构的参数。最后通过训练得出的模型就可以作为预测模型,当给定一组输入向量后,便得到对应设备的预测输出。
上述步骤2)改进算法的具体方法如下:
通过引入兴趣项、频数阀值,来提高挖掘的效率;通过动态挖掘数据关系来计算。改进后较传统算法在时空复杂度上有较大的提高。
21)提出兴趣项的各个子集的项频数,具体包括如下步骤:
211)输入兴趣项和挖掘事务数据库;
212)扫描事务数据库;
213)记录各个子集的项频数和数据库中记录的总条数,保存子集;
22)找出关联关系,具体包括如下步骤:
221)输入和,把转化为
222)扫描保存的兴趣项子集,找出频繁项集,删除频数小于的子集
223)在频繁项集中,找出置信度大于的关联关系,并输出。
上述步骤3)基于MapReduce的并行化Apriori算法的实现的具体方法如下:
关联规则的算法过程可知,在产生频繁项集的过程中,特别是对广域数据源,会产生大量的候选项集和重复扫描数据库,这就造成了算法的瓶颈,影响了挖掘的效率和精度。基于云计算平台的并行化的Apriori算法将上述的挖掘工作合理的分配给了云计算平台中的数据存储计算节点DataNode进行并行处理,在该平台中,复杂的数据挖掘任务就会被分配到各个计算节点,由它们并行的执行,从每个计算节点DataNode中获得小范围的频繁项集,然后再将各个节点的频繁项集传给执行reduce任务的计算节点进行汇集,并最终由NameNode节点对频繁项集进行统计,并最终确定全局频繁项集,这就极大地提高了Apriori算法的挖掘效率。
基于MapReduce的并行框架对改进Apriori算法进行计算,包括如下步骤:
31)读取程序参数,数据配置文件,输入最小支持度(min_support)、最小置信度(min_conf),验证数据配置文件合法性,设置MapReduce参数,启动MapReduce任务;
32)Map阶段:每读入一条数据(事务),将该数据中包含的项集作为key,数值1作为value输出;
33)Reduce阶段:得到以项集为key,1为value的输入,相同的项集映射到同一个reducer处理,统计项集出现的频率,满足最小支持度则为频繁项集;
34)Reduce阶段:将产生的K频繁集写到HBase,如果K频繁集为空,则结束迭代过程,转到步骤36);
35)从HBase读入K频繁集,利用频繁K项集产生频繁k+1项集的候选集,回到步骤32),迭代执行,直到不产生新的候选集;
36)根据上述几个步骤所得到的数据的频繁项集,按照最小置信度的最终生成数据的关联规则。
上述步骤4)将深度学习算法得到的结果和Apriori的结果结合的具体方法如下:
对给定的设备e和预测时间t,利用深度学习方法和Apriori方法得到结果,分别记为RDP(e,t)和RA(e,t)
则最终的设备风险即为:
R(e,t)= w*R
DP
(e,t)+(1-w)R
A
(e,t)
其中,w为二者结合的权重分配系数。
RDP(e,t)深度学习方法的结果
RA(e,t)为Apriori方法得到结果
关联规则数据挖掘算法一直是近几年的研究热点,对于它的研究也从来没有中断过。关联规则主要是表现事务之间的相互依赖关系,在事务的相互关系中,如果一个事物和其他事物之间存在关联关系,这些事务中的某些属性值可以根据其他事物来推断出来。
将关联规则应用于商业领域中,则可以根据客户的购买交易记录发现商品间的关联,这些关联联系将可以反应顾客购买商品的行为习惯和兴趣。所发现的这些行为规则可以用来分析顾客购物习惯,例如如何摆放商品货架增加销售、商品广告策划等,并且关联分析也广泛应用到了零售业,如超市等。
本发明主要思想是按照一定的标准,将数据集进行准确的归类,这个过程使用分类模型或者分类函数也即是分类器来处理和分析所选取的数据,通过对待分类数据参数进行分析,将这些数据划分到一个已知的类别中,这是数据的分类过程。数据的分类在实际的应用中具有普遍性,所涉及的面也很广,所以在生产和生活中会得到广泛的使用。
主要从以下几方面对分类的效率和准确定进行评价:
(1)利用所获得的分类模型预测的准确性,预测的准确度就影响了对数据集进行预测分类的能力;
(2)分类模型的执行效率,这也就包括了模型本身的复杂度和计算速度,算法和模型的实现细节还有硬件环境会对执行效率有较大影响,在数据挖掘任务中,我们所面对的数据集往往具有很大的规模,有时候可以达到PB级别,这就需要我们使用的分类模型在时间复杂度和空间复杂度上达到最优,这就值得对分类模型进行比较深入的研究;
(3)所采用模型的易用性和易理解性。通过对算法的优化,使最终的数据挖掘算法能够具有高效性的同时也具有易用性的特点;
(4)分类模型的可扩展性。对于不同规模和类型数据集的处理,分类模型就需要进行一定的改变以使对数据集的分类具有更好地准确度,这就需要分类模型有一定的可扩展性。
算法的目的主要是为了对数据进行有效地处理,从数据中获取频繁项集。Apriori算法具有很多重要的性质,其中最重要的就是反单调性。它主要是利用迭代的原理去实现频繁项集的挖掘。Apriori算法使用逐层搜索的迭代方法产生频繁项目集,即利用(k-1)频繁项集来产生k项集,是一种基于生成候选项集的关联规则挖掘方法。算法首先扫描数据库,找出满足最小支持度的项目,称为1-频繁项集,记为L1;通过自身连接产生2-候选项集C2,由C2找出满足最小支持度的频繁项集L2(通过扫描数据库);相同步骤,产生L3,如此迭代循环,直到没有新的k-频繁项集产生。
传统单节点Apriori算法一般利用单台服务器,即将数据挖掘流程的各个阶段都在单节点中完成,这就极大地限制了数据挖掘所能处理的数据量,并且随着数据的不断增加,它的处理效率在下降。而设备风险预测需要解决对海量电力数据进行处理的问题,这些数据不仅数据量大,并且关联关系复杂。
本发明使用电网调度运行积累的大量运行数据以及与设备状态相关的数据,对设备运行的风险进行预测。需要处理数据关联分析的问题。
本发明用深度学习网络、Apriori算法这两种方法并对其进行并行化改进,使其适用于电网风险分析的多因素和大运算量特点,以支持在准实时的时间范围内得到预测结果。
本发明设计了基于云平台的并行化计算框架和相关的处理函数,以实现风险预测的在线运行和准实时计算。
利用本发明所改进的算法,可以自由定义兴趣项、频数阀值,从而提高大量数据挖掘的效率,同时避免无效的输出项目,对后续的业务开展给出更有效的指导。
利用本发明深度学习方法,可以发现设备风险数据中的隐含规律,从而更准确的预测设备未来风险的数值,避免建立解析模型中遇到的适应性问题。
利用本发明分布式并行架构实现改进后的Apriori算法,进一步提升了计算的效率,可保证未来计算规模增大的情况下扩展计算能力,以在准实时的时间范围内给出风险预测结果。
单节点的处理方式就不能够有效地从中提炼出符合需要的规则。在传统单节点中,数据挖掘的执行都是顺序执行,这就使得只能按照数据挖掘的流程只能顺序执行,无法并行。这是目前电网企业中面临的一个常见的困境,即虽然拥有海量的数据资源,但是却无法有效地处理和利用,反而耗费了大量存储资源,造成了极大地数据资源浪费。
本发明所改进的算法,可以自由定义兴趣项、频数阀值,从而提高大量数据挖掘的效率,同时避免无效的输出项目。该特征可从方法输入、输出看出。
本发明采用了深度学习算法对海量设备运行历史数据进行模型学习和预测。
本发明利用分布式并行架构实现改进后的Apriori算法,进一步提升了计算的效率,可保证未来计算规模增大的情况下扩展计算能力,以在准实时的时间范围内给出风险预测结果。
Claims (6)
1.一种应用深度学习和改进Apriori算法综合的一次设备风险预测的方法,其特征在于包括有如下步骤:
1)深度学习进行预测;
2)改进算法;
3)基于MapReduce的并行化Apriori算法的实现;
4)将深度学习算法得到的结果和Apriori的结果结合。
2.根据权利要求1所述的应用深度学习和改进Apriori算法综合的一次设备风险预测的方法,其特征在于上述步骤1)深度学习进行预测的具体方法如下:
建立深度架构,底层是由GBRBM 与RBM组成的DBN的架构,用于非监督的特征学习;顶层加入了一个回归层用作预测,在DBN 预训练以后,顶层再通过有标签的数据进行BP算法去做参数调整,这种方法要强于以往传统神经网络直接用BP算法做梯度下降调整,直观的原因为:DBN 预训练后的参数已经接近于训练好,那么再做BP算法,只需要在已知参数里面进行一个局部的搜索,无论训练与收敛速度都快很多,此深度学习模型的训练步骤如下:
11)把设备历史数据进行归一化到[0,1]之间,那么输入向量X 便可以表示为:
X ={xt |i t ∈T,i ∈N}
式中:X ti 表示为第i 类设备在第t 时间的归一化后的数据,初始化训练次数、学习速率;
12)把向量X 作为输入,通过CD过程训练第一层的GBRBM;
13)把GBRBM的输出作为上层的RBM的输入,训练RBM;
14)把RBM 的输出作为上层的RBM 的输入,训练RBM;
15)重复执行步骤14),直到执行完给定的层数;
16)最后一个RBM 的输出作为顶层回归层的输入,随机初始化其参数;
17)通过监督式BP方法微调这个架构的参数,最后通过训练得出的模型就可以作为预测模型,当给定一组输入向量后,便得到对应设备的预测输出。
3.根据权利要求1所述的应用深度学习和改进Apriori算法综合的一次设备风险预测的方法,其特征在于上述步骤2)改进算法的具体方法如下:
通过引入兴趣项、频数阀值,来提高挖掘的效率;通过动态挖掘数据关系来计算,改进后较传统算法在时空复杂度上有较大的提高;
21)提出兴趣项的各个子集的项频数,具体包括如下步骤:
211)输入兴趣项和挖掘事务数据库;
212)扫描事务数据库;
213)记录各个子集的项频数和数据库中记录的总条数,保存子集;
22)找出关联关系,具体包括如下步骤:
221)输入和,把转化为
222)扫描保存的兴趣项子集,找出频繁项集,删除频数小于的子集
223)在频繁项集中,找出置信度大于的关联关系,并输出。
4.根据权利要求1所述的应用深度学习和改进Apriori算法综合的一次设备风险预测的方法,其特征在于上述步骤3)基于MapReduce的并行化Apriori算法的实现的具体方法如下:
关联规则的算法过程可知,在产生频繁项集的过程中,特别是对广域数据源,会产生大量的候选项集和重复扫描数据库,这就造成了算法的瓶颈,影响了挖掘的效率和精度,基于云计算平台的并行化的Apriori算法将上述的挖掘工作合理的分配给了云计算平台中的数据存储计算节点DataNode进行并行处理,在该平台中,复杂的数据挖掘任务就会被分配到各个计算节点,由它们并行的执行,从每个计算节点DataNode中获得小范围的频繁项集,然后再将各个节点的频繁项集传给执行reduce任务的计算节点进行汇集,并最终由NameNode节点对频繁项集进行统计,并最终确定全局频繁项集,这就极大地提高了Apriori算法的挖掘效率。
5.根据权利要求1所述的应用深度学习和改进Apriori算法综合的一次设备风险预测的方法,其特征在于基于MapReduce的并行框架对改进Apriori算法进行计算,包括如下步骤:
31)读取程序参数,数据配置文件,输入最小支持度(min_support)、最小置信度(min_conf),验证数据配置文件合法性,设置MapReduce参数,启动MapReduce任务;
32)Map阶段:每读入一条数据(事务),将该数据中包含的项集作为key,数值1作为value输出;
33)Reduce阶段:得到以项集为key,1为value的输入,相同的项集映射到同一个reducer处理,统计项集出现的频率,满足最小支持度则为频繁项集;
34)Reduce阶段:将产生的K频繁集写到HBase,如果K频繁集为空,则结束迭代过程,转到步骤36);
35)从HBase读入K频繁集,利用频繁K项集产生频繁k+1项集的候选集,回到步骤32),迭代执行,直到不产生新的候选集;
36)根据上述几个步骤所得到的数据的频繁项集,按照最小置信度的最终生成数据的关联规则。
6.根据权利要求1至5任一项所述的应用深度学习和改进Apriori算法综合的一次设备风险预测的方法,其特征在于上述步骤4)将深度学习算法得到的结果和Apriori的结果结合的具体方法如下:
对给定的设备e和预测时间t,利用深度学习方法和Apriori方法得到结果,分别记为RDP(e,t)和RA(e,t)
则最终的设备风险即为:
R(e,t)= w*R
DP
(e,t)+(1-w)R
A
(e,t)
其中,
w为二者结合的权重分配系数;
RDP(e,t)深度学习方法的结果;
RA(e,t)为Apriori方法得到结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711046984.7A CN107862406A (zh) | 2017-10-31 | 2017-10-31 | 应用深度学习和改进Apriori算法综合的一次设备风险预测的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711046984.7A CN107862406A (zh) | 2017-10-31 | 2017-10-31 | 应用深度学习和改进Apriori算法综合的一次设备风险预测的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107862406A true CN107862406A (zh) | 2018-03-30 |
Family
ID=61698038
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711046984.7A Pending CN107862406A (zh) | 2017-10-31 | 2017-10-31 | 应用深度学习和改进Apriori算法综合的一次设备风险预测的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107862406A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108735300A (zh) * | 2018-05-08 | 2018-11-02 | 西京学院 | 用于挖掘中医证型关联证素的Apriori算法的改进方法 |
CN109828549A (zh) * | 2019-01-28 | 2019-05-31 | 中国石油大学(华东) | 一种基于深度学习的工业互联网设备故障预测方法 |
CN110457786A (zh) * | 2019-05-06 | 2019-11-15 | 浙江工业大学 | 基于深度置信网络的卸船机关联规则故障预测模型方法 |
CN111429319A (zh) * | 2020-03-25 | 2020-07-17 | 中国工商银行股份有限公司 | 基于教育培训的资金监管方法及装置 |
CN111858662A (zh) * | 2020-06-01 | 2020-10-30 | 广东恒睿科技有限公司 | 一种底层网络潜在危险数据识别方法、系统及存储介质 |
CN114881223A (zh) * | 2020-12-18 | 2022-08-09 | 北京百度网讯科技有限公司 | 深度学习模型的转换方法、装置、电子设备和存储介质 |
CN117977581A (zh) * | 2024-03-29 | 2024-05-03 | 江苏冉闻信息科技有限公司 | 基于深度学习的电网风险预测方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105891629A (zh) * | 2016-03-31 | 2016-08-24 | 广西电网有限责任公司电力科学研究院 | 一种变压器设备故障的辨识方法 |
CN107084853A (zh) * | 2017-03-06 | 2017-08-22 | 上海大学 | 云制造下设备故障预测方法 |
-
2017
- 2017-10-31 CN CN201711046984.7A patent/CN107862406A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105891629A (zh) * | 2016-03-31 | 2016-08-24 | 广西电网有限责任公司电力科学研究院 | 一种变压器设备故障的辨识方法 |
CN107084853A (zh) * | 2017-03-06 | 2017-08-22 | 上海大学 | 云制造下设备故障预测方法 |
Non-Patent Citations (4)
Title |
---|
HAO JI等: "Hybrid collaborative filtering model for improved recommendation", 《IEEE》 * |
宋存利等: "基于多代理机制的车间作业调度算法动态混合生成策略", 《大连交通大学学报》 * |
尹邵龙等: "深度学习在城市交通流预测中的实践研究", 《现代电子技术》 * |
方文和等: "兴趣模型的构建与Apriori数据挖掘算法优化研究", 《计算机与数字工程》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108735300A (zh) * | 2018-05-08 | 2018-11-02 | 西京学院 | 用于挖掘中医证型关联证素的Apriori算法的改进方法 |
CN109828549A (zh) * | 2019-01-28 | 2019-05-31 | 中国石油大学(华东) | 一种基于深度学习的工业互联网设备故障预测方法 |
CN110457786A (zh) * | 2019-05-06 | 2019-11-15 | 浙江工业大学 | 基于深度置信网络的卸船机关联规则故障预测模型方法 |
CN110457786B (zh) * | 2019-05-06 | 2023-06-30 | 浙江工业大学 | 基于深度置信网络的卸船机关联规则故障预测模型方法 |
CN111429319A (zh) * | 2020-03-25 | 2020-07-17 | 中国工商银行股份有限公司 | 基于教育培训的资金监管方法及装置 |
CN111858662A (zh) * | 2020-06-01 | 2020-10-30 | 广东恒睿科技有限公司 | 一种底层网络潜在危险数据识别方法、系统及存储介质 |
CN114881223A (zh) * | 2020-12-18 | 2022-08-09 | 北京百度网讯科技有限公司 | 深度学习模型的转换方法、装置、电子设备和存储介质 |
CN114881223B (zh) * | 2020-12-18 | 2023-04-18 | 北京百度网讯科技有限公司 | 深度学习模型的转换方法、装置、电子设备和存储介质 |
CN117977581A (zh) * | 2024-03-29 | 2024-05-03 | 江苏冉闻信息科技有限公司 | 基于深度学习的电网风险预测方法及系统 |
CN117977581B (zh) * | 2024-03-29 | 2024-07-02 | 江苏冉闻信息科技有限公司 | 基于深度学习的电网风险预测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Neelakandan et al. | RETRACTED ARTICLE: An automated exploring and learning model for data prediction using balanced CA-SVM | |
Cheriyan et al. | Intelligent sales prediction using machine learning techniques | |
Karim et al. | BHyPreC: a novel Bi-LSTM based hybrid recurrent neural network model to predict the CPU workload of cloud virtual machine | |
CN107862406A (zh) | 应用深度学习和改进Apriori算法综合的一次设备风险预测的方法 | |
Ping et al. | Neighborhood rough set and SVM based hybrid credit scoring classifier | |
Cai et al. | Clustering approaches for financial data analysis: a survey | |
Lin et al. | Parameter tuning, feature selection and weight assignment of features for case-based reasoning by artificial immune system | |
US20240177075A1 (en) | Method and system for hierarchical forecasting | |
Patibandla et al. | Survey on clustering algorithms for unstructured data | |
Stein et al. | Big data on the shop-floor: sensor-based decision-support for manual processes | |
Choi et al. | Identifying emerging technologies to envision a future innovation ecosystem: A machine learning approach to patent data | |
Meng et al. | Intelligent salary benchmarking for talent recruitment: A holistic matrix factorization approach | |
US11977978B2 (en) | Finite rank deep kernel learning with linear computational complexity | |
US20230306505A1 (en) | Extending finite rank deep kernel learning to forecasting over long time horizons | |
Ren et al. | AI-based fashion sales forecasting methods in big data era | |
Kalifullah et al. | Retracted: Graph‐based content matching for web of things through heuristic boost algorithm | |
Obukhov et al. | Neural network method for automatic data generation in adaptive information systems | |
Ilieva | Decision analysis for big data platform selection | |
Kashyap | Machine Learning in Google Cloud Big Query using SQL | |
Singh et al. | A feature extraction and time warping based neural expansion architecture for cloud resource usage forecasting | |
Abdulrahman et al. | An Overview of the Algorithm Selection Problem | |
Kumar et al. | A Study On the Forecasting Bigmart Sales Using Optimized Data Mining Techniques | |
Al Ali et al. | Enhancing financial distress prediction through integrated Chinese Whisper clustering and federated learning | |
Cai et al. | Clustering Approaches for Financial Data Analysis | |
Lavingia et al. | Software effort estimation using machine learning algorithms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180330 |