CN108694175A - 一种基于数据挖掘算法分析电能检测大数据的方法 - Google Patents
一种基于数据挖掘算法分析电能检测大数据的方法 Download PDFInfo
- Publication number
- CN108694175A CN108694175A CN201710218671.9A CN201710218671A CN108694175A CN 108694175 A CN108694175 A CN 108694175A CN 201710218671 A CN201710218671 A CN 201710218671A CN 108694175 A CN108694175 A CN 108694175A
- Authority
- CN
- China
- Prior art keywords
- data
- database
- electric energy
- feature
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000001514 detection method Methods 0.000 title claims abstract description 24
- 238000007418 data mining Methods 0.000 title claims abstract description 14
- 238000004458 analytical method Methods 0.000 claims abstract description 19
- 238000003066 decision tree Methods 0.000 claims abstract description 19
- 230000000694 effects Effects 0.000 claims description 12
- 238000005259 measurement Methods 0.000 claims description 10
- 238000007726 management method Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 4
- 238000013480 data collection Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 239000012141 concentrate Substances 0.000 claims 1
- 239000000284 extract Substances 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 4
- 238000007405 data analysis Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000003139 buffering effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000005267 amalgamation Methods 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000010924 continuous production Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000003920 environmental process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000000556 factor analysis Methods 0.000 description 1
- 235000019580 granularity Nutrition 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000000843 powder Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Economics (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种基于数据挖掘算法分析电能检测大数据的方法,包括以下步骤:(S1)从上层管理平台数据库中得出电能检测数据库;(S2)根据用户需要采用分类算法对数据库中的数据进行分类;(S3)将相同分类类型的数据放置在同一数据库中;(S4)根据用户需要选择同一数据库类型中的数据;(S5)采用组合支持度关联算法对所选择数据库中的数据进行计算;(S6)得出结论,供用户分析、使用。本发明结合决策树算法与组合支持度关联算法从海量的数据库中提取有用的数据信息供用户研究使用,时间短、运行速度快,在相对短的时间内能够对大型数据源做出可行且效果良好的结果,从大量的数据中自动分析获得规律,使用方便。
Description
技术领域
本发明涉及数据分析领域,且更具体地涉及一种基于数据挖掘算法分析电能检测大数据的方法。
背景技术
随着电能技术的发展,检定电能质量的电能质量检定系统也不断发展,记录电能质量检定系统的数据呈海量趋势发展,在国电网计量单位、电能计量企业、电能表生产厂家、研究院等,通常要根据往年的计量数据情况分析电能情况,以方便用户更好地把握电能情况,为后期设备的研究、技术的提高、产品的发展提供重要的依据。为了提高电能质量综合评估的客观性、科学性,以及避免电测中不必要的隐患,就需要一种分析电能检测大数据的方法。
发明内容
针对上述指出的技术问题,本发明提供了一种基于数据挖掘算法分析电能检测大数据的方法,该方法能够针对电能计量行业数据量大和管理复杂的问题,构建合理的分类模型,根据建立的数据模型从大量电能计量数据中抽取计量信息,通过对这些信息进行处理,判断电能计量的一系列问题,该方法是提高用电管理的重要手段,并能及时对异常情况做出预警提示,从而保证电能计量的安全可靠运行。
为了实现上述目的,本发明采用以下技术方案:
一种基于数据挖掘算法分析电能检测大数据的方法,包括以下步骤:
(S1)从上层管理平台数据库中得出电能检测数据库;
(S2)根据用户需要采用分类算法对数据库中的数据进行分类;
(S3)将相同分类类型的数据放置在同一数据库中;
(S4)根据用户需要选择同一数据库类型中的数据;
(S5)采用组合支持度关联算法对所选择数据库中的数据进行计算;
(S6)得出结论,供用户分析、使用;
作为本发明进一步的技术方案,所述步骤(S1)中上层管理平台数据库为区级以上的ORACLE RAC系统数据库。
作为本发明进一步的技术方案,所述步骤(S2)中分类算法为基于决策树的数据挖掘算法,计算步骤为:
(S21)选择数据库中的待分类的数据;
(S22)对待处理的电能计量数据进行训练,根据用户需要选择节点,建立分类模型;
(S23)利用建立的分类模型对所选数据库中的数据分类;
(S24)输出分类结果。
作为本发明进一步的技术方案,所述步骤(S22)中选择节点的方法为:根据给定的样本数据集选择某个特征值作为树的节点,在数据集中,计算出特征值作用前的样本数据集中的信息熵以及特征值作用后的样本数据集中的信息熵,然后计算出二者的差,反复操作,求出差值中最大的值,即是节点的最大特征;其中扫描数据库前的信息熵计算公式为:
,其中 D 表示训练数据集,c 表示数据类别数,Pi 表示类别 i样本数量占所有样本的比例,Info(D)为信息熵;
对应数据集 D,选择特征 A 作为决策树判断节点时,在特征 A 作用后的信息熵的为InfoA(D),计算的信息熵计算公式为:
,其中 k 表示样本 D 被分为 k 个部分;
信息增益表示数据集 D 在特征 A 的作用后,其信息熵减少的值,信息熵差值计算公式如下:
,其中决策树节点最合适的特征选择,就是 Gain(A) 值最大的特征。
作为本发明进一步的技术方案,所述步骤(S5)中的组合支持度关联算法的步骤如下:
(S51)将所选区域中数据库划分为多个小型数据库;
(S52)将多个小型数据库中的每个数据赋予最小支持度MSk;
(S53)基于Apriori算法规则扫描每个数据库中的数据,将得到的每个数据的最小支持度Fk存储到独立的数据库D1;
(S54)比较MSk与Fk的大小,得出较大频集,针对每个数据库逐一操作,将每个数据库中的数据的较大频集存储到独立的数据库D2中,得出最大频集集合;
(S55)运用最小支持度筛选得出的最大频集集合;
(S56)得出关联结果。
积极有益效果:
本发明结合决策树算法与组合支持度关联算法从海量的数据库中提取有用的数据信息供用户研究使用,时间短、运行速度快,在相对短的时间内能够对大型数据源做出可行且效果良好的结果,从大量的数据中自动分析获得规律,并利用规律对未知数据进行预测的算法,本发明可根据用户需求选择相应的数据类型,对不同的数据类型进行数据分析。
附图说明
图1为本发明的步骤示意图;
图2为本发明中决策树算法的步骤示意图;
图3为本发明中组合支持度关联算法的步骤示意图;
图4为本发明中决策树算法一种实施例的示意图;
图5为本发明中决策树算法的另一种实施例的示意图;
图6a为本发明中采用单支持度与多支持度相结合的算法对所选数据库中数据进行筛选的过程第一步骤示意图;
图6b为本发明中采用单支持度与多支持度相结合的算法对所选数据库中数据进行筛选的过程第二步骤示意图;
图6c为本发明中采用单支持度与多支持度相结合的算法对所选数据库中数据进行筛选的过程第三步骤示意图;
图6d为本发明中采用单支持度与多支持度相结合的算法对所选数据库中数据进行筛选的过程第四步骤示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种基于数据挖掘算法分析电能检测大数据的方法,包括以下步骤:
(S1)从上层管理平台数据库中得出电能检测数据库;
(S2)根据用户需要采用分类算法对数据库中的数据进行分类;
(S3)将相同分类类型的数据放置在同一数据库中;
(S4)根据用户需要选择同一数据库类型中的数据;
(S5)采用组合支持度关联算法对所选择数据库中的数据进行计算;
(S6)得出结论,供用户分析、使用;
针对步骤(S1),所述步骤(S1)中上层管理平台数据库为区级以上的ORACLE RAC系统数据库。在本发明中,ORACLE RAC系统数据库为多用户共享模式,ORACLE RAC的全称为ORACLEReal application clusters,是ORACLE数据库中采用的一项新技术,多用户共享模式一般采用RAC双节点完成,各个整合的应用系统在该模式上建立不同用户区分各自的表空间、索引、存储过程。在RAC环境过程中,每个实例的内存结构和后台进程都是相同的,每个实施的SGA内有一个缓冲区,实用缓冲融合方式,因此,RAC实例的SGA要比单一的实例的SGA大。ORACLE RAC系统数据库中电能检测数据属于不同站点,在不同站点之间进行的数据传输,因此,数据管理比较零散而且无规则,比如,经过电能检测数据的潜动数据、误差检定数据、外观检测数据、功耗测试数据等。另一种数据类型为考虑时间周期的层次,如日、星期、月等,还可考虑日历的影响,如节假日等能代表共同特性的信息:①设备台账类,描述电力调度对象固有属性的数据,包括一次设备、二次设备、自动化设备、通信设备等,主要来自业务系统的设备数据库,包括各种参数、定值;②动作记录类,电力调度所从事的工作,实质上就是对电网设备的操作,以及处理电网设备的动作,这类数据来自日志(调度、保护、自动化、通信)、操作票、工作票,开关变位、保护故障信息系统等,反映电力系统运行的非连续过程;③时间采样类,反映电力系统连续变动过程的一系列数据,其最大特点就是时间性,根据应用目的不同设置不同的粒度,如来自SCADA/EMS的原始数据可达到秒级的时间间隔,有分钟级或小时级的采集电量,还有按日、旬、月、季、年汇总加工的报表数据等各种数据。
上述数据如果不按一定的规则查询就会显得杂乱无章,数据查询起来就非常困难,因此可采用本发明中的方法对上述数据进行筛选。
针对步骤(S2),如图2所示,所述步骤(S2)中分类算法为基于决策树的数据挖掘算法,计算步骤为:
(S21)选择数据库中的待分类的数据;
(S22)对待处理的电能计量数据进行训练,根据用户需要选择节点,建立分类模型;
(S23)利用建立的分类模型对所选数据库中的数据分类;
(S24)输出分类结果。
在建立决策树时,在步骤(S22)中,选择一个合适的特征作为判断节点,可以快速的分类,减少决策树的深度。把数据集按对应的类标签进行分类。因此,节点选择不同,就会有不同的结果。通过特征的选择能把不同类别的数据集贴上对应类标签。选择节点的依据的方法可以为:
假设在电能表数据库的样本数据集D中,混有c种类别的数据。构建决策树时,根据给定的样本数据集选择某个特征值作为树的节点。
根据给定的样本数据集选择某个特征值作为树的节点,在数据集中,计算出特征值作用前的样本数据集中的信息熵以及特征值作用后的样本数据集中的信息熵,然后计算出二者的差,反复操作,求出差值中最大的值,即是节点的最大特征;其中扫描数据库前的信息熵计算公式为:
,其中 D 表示训练数据集,c 表示数据类别数,Pi 表示类别 i样本数量占所有样本的比例,Info(D)为信息熵;
对应数据集 D,选择特征 A 作为决策树判断节点时,在特征 A 作用后的信息熵的为InfoA(D),计算的信息熵计算公式为:
,其中 k 表示样本 D 被分为 k 个部分;
信息增益表示数据集 D 在特征 A 的作用后,其信息熵减少的值,信息熵差值计算公式如下:,其中决策树节点最合适的特征选择,就是 Gain(A) 值最大的特征。
下面结合具体实施例,对步骤(S21)、(S22)、(S23)、(S24)做进一步的说明。
在一种实施例中,如图4所示,首先选择数据库中的待分类的数据,比如三相电能表检测数据、单相电能表检测数据、检定装置检测的电能表数据、电能表自动化流水线检定的电能表数据等,根据用户的需要是研究哪一领域的数据,比如,分析电能表自动化流水线检定的数据,和分析电能表检定台体的数据所选择的节点是不一样的。在图4中,是一棵结构简单的决策树,用于提供用户选择那种类型的数据库而建立起来的。选择的数据库具备三个属性:是否2016年之后数据,是否电能表检定流水线检定的数据,是否是三相电能表。每一个内部节点都表示一个属性条件判断,叶子节点表示用户要研究数据的类型。例如:如果是2016年之前数据,则直接不选作下一步分析的数据库,则开始左边的叶子节点,如果是2016年之后的数据,那么选作为待分析的数据库,然后进行下一个叶子节点,以 “检定设备”作为叶子节点继续判断,当是电能表检定装置检定出来的数据时,则不选,如果是“电能表检定流水线”检定流水线检定出的数据,则可以选为数据库,再进行下一步的选择,如果检定的是单相电能表,则不选,如果检定的是三相电能表,可选择。那么就得出了最终要选择作为数据库的数据类型。这样就大大地缩小了选择的范围。有利于研究人员进行数据分析。
在另一种实施例中,如图5所示,这是用户根据他们需求,采用该方法进行的另一种数据库选择,当分析电能表检定装置检定的数据时,则电能表检定流水线检定的数据可不选,然后进一步选择叶子节点,如果电能表类型是三相电能表的数据,则不选,如果检定的电能表类型是单相电能表,则进行下一步的分析,可以将“检定日期”作为叶子节点进行下一步的分析,如果检定日期是2014年之前数据,则不选,如果是2014年之后数据之后的数据则可以选择,因此用户选择的需要分析的数据为电能表检定装置在2014年之后采用电能表检定装置检定的单相电能表的数据。
针对步骤(S3)、(S4),利用上述方法分类的数据存放到指定的数据中供用户分析和使用,比如,在实施例1中分类出的数据放在指定的数据库中,将实施例2中分类出的数据放在另一个指定的数据库中,这样用户可根据实际需要,选择相应的类型的数据。
针对步骤(S5),如图3所示,所述步骤(S5)中的组合支持度关联算法的步骤如下:
(S51)将所选区域中数据库划分为多个小型数据库;
(S52)将多个小型数据库中的每个数据赋予最小支持度MSk;
(S53)基于Apriori算法规则扫描每个数据库中的数据,将得到的每个数据的最小支持度Fk存储到独立的数据库D1;
(S54)比较MSk与Fk的大小,得出较大频集,针对每个数据库逐一操作,将每个数据库中的数据的较大频集存储到独立的数据库D2中,得出最大频集集合;
(S55)运用最小支持度筛选得出的最大频集集合;
(S56)得出关联结果。
在步骤(S5)中,Apriori算法使用频繁项集的先验知识,使用一种称作逐层搜索的迭代方法,k项集用于探索(k+1)项集。首先,通过扫描事务(交易)记录,找出所有的频繁1项集,该集合记做L1,然后利用L1找频繁2项集的集合L2,L2找L3,如此下去,直到不能再找到任何频繁k项集。最后再在所有的频繁集中找出强规则,即产生用户感兴趣的关联规则。
所述步骤(S53)中筛选频繁项集合的方法采用单支持度与多支持度相结合的算法。采用这种方法在于,为了避免全部用同一支持度进行剪枝而造成规则大爆炸情况,在得到长度为一的频繁项时采用多支持度来剪枝,这种做法是根据在得到长度为一的频繁项集合时采用多支持度可以保留一些重要的稀少项,淘汰一些高频出现但对整个规律分析没有价值的数据项,在得到K-项频繁集时(K ≥2),采用同一最小支持度,能够保证所得的关联规则中的项和项集都在一定的支持度之上。
更进一步的方法为:对分隔成不同的单元的数据库中每个数据均被赋予最小支持度MSk
(k=1,2,….m),再扫描数据库,将每个数据项的支持度放入另一个支持度数据库Fk(k=1,2,….m),然后比较MSk与Fk的大小,选出比较大的一项,依次类推,将对分隔成不同的单元的数据库中每个数据都这样操作,最后合并所有的频集,得到频集集合,得到频集集合后,再根据已经设定的最小置信度来筛选规则,得可以得到期望的关联规则。
下面结合具体实施例,进一步说明采用单支持度与多支持度相结合的算法对所选数据库中数据进行筛选,如图6a-6d所示。
设有电能表检定数据库I={A,B,C,D,E},有5种不同的区域检测的数据记录为D,则记录为表一(见图6a),根据图6a示意图,其为对采用不同组合对数据进行筛选的过程。
在图6a中,是在数据库I={A,B,C,D,E}中进行数据扫描,每项检定类型的数据可以得到不同的支持度,再与最小支持度MSk比较,可得到与最小支持度MSk比较后的数据集。
如图6b-6d所示,分别用不同的数据组合来产生的关联度。图6b是选择两种不同的数据库,然后根据最小支持度,筛选出具有相应的关联性。图6c是选择两种不同的数据库,然后根据最小支持度,筛选出具有相应的关联性。在图6d中,上述用最小支持度筛选得出频集为{A,C,D},产生的关联规则及置信度,如图6d所示。在图6d中,设定最小置信度为1,则筛选后留下的规则为:,因此,检定项目A,C,D中的一种或者几种检定项目中用户再选择A,C,D中剩下的检定项目的几率非常大,应该将这3种检定项目放在一起。
这种将多支持度和单支持度相结合的挖掘方法主要的优点是兼顾了稀有项及运算效率两个方面的考虑,关联分析时利用多个支持度保留稀有的但有意义的数据项,同时删除没有意义但高频的干扰数据项,在得出k-项频繁集(k≥2)时,运用一个最小支持度的庞大的计数次数。通过了解频繁项的关联性,可了解那些检定项目关系到电能表的质量,哪些检定项目对电能表影响比较大,可以供用户分析检定项目分析、检表类型分析、综合影响因素分析、表计计量的影响因素分析等。
本发明结合决策树算法与组合支持度关联算法从海量的数据库中提取有用的数据信息供用户研究使用,时间短、运行速度快,在相对短的时间内能够对大型数据源做出可行且效果良好的结果,从大量的数据中自动分析获得规律,并利用规律对未知数据进行预测的算法,本发明可根据用户需求选择相应的数据类型,对不同的数据类型进行数据分析。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些具体实施方式仅是举例说明,本领域的技术人员在不脱离本发明的原理和实质的情况下,可以对上述方法和系统的细节进行各种省略、替换和改变。例如,合并上述方法步骤,从而按照实质相同的方法执行实质相同的功能以实现实质相同的结果则属于本发明的范围。因此,本发明的范围仅由所附权利要求书限定。
Claims (5)
1.一种基于数据挖掘算法分析电能检测大数据的方法,其特征在于,包括以下步骤:
(S1)从上层管理平台数据库中得出电能检测数据库;
(S2)根据用户需要采用分类算法对数据库中的数据进行分类;
(S3)将相同分类类型的数据放置在同一数据库中;
(S4)根据用户需要选择同一数据库类型中的数据;
(S5)采用组合支持度关联算法对所选择数据库中的数据进行计算;
(S6)得出结论,供用户分析、使用。
2.根据权利要求1所述的一种基于数据挖掘算法分析电能检测大数据的方法,其特征在于,所述步骤(S1)中上层管理平台数据库为区级以上的ORACLE RAC系统数据库。
3.根据权利要求1所述的一种基于数据挖掘算法分析电能检测大数据的方法,其特征在于,所述步骤(S2)中分类算法为基于决策树的数据挖掘算法,计算步骤为:
(S21)选择数据库中的待分类的数据;
(S22)对待处理的电能计量数据进行训练,根据用户需要选择节点,建立分类模型;
(S23)利用建立的分类模型对所选数据库中的数据分类;
(S24)输出分类结果。
4.根据权利要求3所述的一种基于数据挖掘算法分析电能检测大数据的方法,其特征在于,所述步骤(S22)中选择节点的方法为:根据给定的样本数据集选择某个特征值作为树的节点,在数据集中,计算出特征值作用前的样本数据集中的信息熵以及特征值作用后的样本数据集中的信息熵,然后计算出二者的差,反复操作,求出差值中最大的值,即是节点的最大特征;其中扫描数据库前的信息熵计算公式为:
,其中 D 表示训练数据集,c 表示数据类别数,Pi 表示类别 i
样本数量占所有样本的比例,Info(D)为信息熵;
对应数据集 D,选择特征 A 作为决策树判断节点时,在特征 A 作用后的信息熵的为InfoA(D),计算的信息熵计算公式为:
,其中 k 表示样本 D 被分为 k 个部分;
信息增益表示数据集 D 在特征 A 的作用后,其信息熵减少的值,信息熵差值计算公式如下:,其中决策树节点最合适的特征选择,就是 Gain(A) 值最大的特征。
5.根据权利要求1所述的一种基于数据挖掘算法分析电能检测大数据的方法,其特征在于,所述步骤(S5)中的组合支持度关联算法的步骤如下:
(S51)将所选区域中数据库划分为多个小型数据库;
(S52)将多个小型数据库中的每个数据赋予最小支持度MSk;
(S53)基于Apriori算法规则扫描每个数据库中的数据,将得到的每个数据的最小支持度Fk存储到独立的数据库D1;
(S54)比较MSk与Fk的大小,得出较大频集,针对每个数据库逐一操作,将每个数据库中的数据的较大频集存储到独立的数据库D2中,得出最大频集集合;
(S55)运用最小支持度筛选得出的最大频集集合;
(S56)得出关联结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710218671.9A CN108694175A (zh) | 2017-04-05 | 2017-04-05 | 一种基于数据挖掘算法分析电能检测大数据的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710218671.9A CN108694175A (zh) | 2017-04-05 | 2017-04-05 | 一种基于数据挖掘算法分析电能检测大数据的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108694175A true CN108694175A (zh) | 2018-10-23 |
Family
ID=63842040
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710218671.9A Pending CN108694175A (zh) | 2017-04-05 | 2017-04-05 | 一种基于数据挖掘算法分析电能检测大数据的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108694175A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109508335A (zh) * | 2018-12-03 | 2019-03-22 | 中国电波传播研究所(中国电子科技集团公司第二十二研究所) | 一种海量地杂波数据分类存储方法 |
CN110261154A (zh) * | 2019-06-21 | 2019-09-20 | 广州大学 | 一种结构损伤识别方法及装置 |
CN110865329A (zh) * | 2019-12-21 | 2020-03-06 | 国网山东省电力公司泰安供电公司 | 一种基于大数据自诊断的电能计量方法及系统 |
CN112948502A (zh) * | 2021-03-26 | 2021-06-11 | 江门职业技术学院 | 多来源传输数据分类存储方法、装置、设备及存储介质 |
CN113010597A (zh) * | 2021-04-06 | 2021-06-22 | 东北大学 | 一种面向海洋大数据的并行关联规则挖掘方法 |
CN113110385A (zh) * | 2021-04-16 | 2021-07-13 | 广东电网有限责任公司计量中心 | 基于决策树的计量自动化检定系统的启停预警方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104123395A (zh) * | 2014-08-13 | 2014-10-29 | 北京赛科世纪数码科技有限公司 | 一种基于大数据的决策方法和系统 |
CN104820716A (zh) * | 2015-05-21 | 2015-08-05 | 中国人民解放军海军工程大学 | 基于数据挖掘的装备可靠性评估方法 |
CN104881735A (zh) * | 2015-05-13 | 2015-09-02 | 国家电网公司 | 用于支撑智慧城市运行管理的智能电网大数据挖掘系统及方法 |
CN104936023A (zh) * | 2015-06-11 | 2015-09-23 | 嘉兴市广播电视集团 | 一种数字电视用户行为的大数据采集与分析方法及系统 |
CN105279276A (zh) * | 2015-11-11 | 2016-01-27 | 浪潮(北京)电子信息产业有限公司 | 一种数据库索引优化系统 |
CN106204366A (zh) * | 2016-07-22 | 2016-12-07 | 三峡大学 | 一种基于模糊推理的法律大数据管理系统 |
CN106451503A (zh) * | 2016-11-08 | 2017-02-22 | 温州商学院 | 带有温度和振动告警单元的三相不平衡治理装置及其实现方法 |
-
2017
- 2017-04-05 CN CN201710218671.9A patent/CN108694175A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104123395A (zh) * | 2014-08-13 | 2014-10-29 | 北京赛科世纪数码科技有限公司 | 一种基于大数据的决策方法和系统 |
CN104881735A (zh) * | 2015-05-13 | 2015-09-02 | 国家电网公司 | 用于支撑智慧城市运行管理的智能电网大数据挖掘系统及方法 |
CN104820716A (zh) * | 2015-05-21 | 2015-08-05 | 中国人民解放军海军工程大学 | 基于数据挖掘的装备可靠性评估方法 |
CN104936023A (zh) * | 2015-06-11 | 2015-09-23 | 嘉兴市广播电视集团 | 一种数字电视用户行为的大数据采集与分析方法及系统 |
CN105279276A (zh) * | 2015-11-11 | 2016-01-27 | 浪潮(北京)电子信息产业有限公司 | 一种数据库索引优化系统 |
CN106204366A (zh) * | 2016-07-22 | 2016-12-07 | 三峡大学 | 一种基于模糊推理的法律大数据管理系统 |
CN106451503A (zh) * | 2016-11-08 | 2017-02-22 | 温州商学院 | 带有温度和振动告警单元的三相不平衡治理装置及其实现方法 |
Non-Patent Citations (1)
Title |
---|
阮璐 等: ""利用组合支持度进行关联规则的挖掘"", 《微计算机信息》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109508335A (zh) * | 2018-12-03 | 2019-03-22 | 中国电波传播研究所(中国电子科技集团公司第二十二研究所) | 一种海量地杂波数据分类存储方法 |
CN110261154A (zh) * | 2019-06-21 | 2019-09-20 | 广州大学 | 一种结构损伤识别方法及装置 |
CN110865329A (zh) * | 2019-12-21 | 2020-03-06 | 国网山东省电力公司泰安供电公司 | 一种基于大数据自诊断的电能计量方法及系统 |
CN110865329B (zh) * | 2019-12-21 | 2022-04-08 | 国网山东省电力公司泰安供电公司 | 一种基于大数据自诊断的电能计量方法及系统 |
CN112948502A (zh) * | 2021-03-26 | 2021-06-11 | 江门职业技术学院 | 多来源传输数据分类存储方法、装置、设备及存储介质 |
CN112948502B (zh) * | 2021-03-26 | 2023-06-27 | 江门职业技术学院 | 多来源传输数据分类存储方法、装置、设备及存储介质 |
CN113010597A (zh) * | 2021-04-06 | 2021-06-22 | 东北大学 | 一种面向海洋大数据的并行关联规则挖掘方法 |
CN113010597B (zh) * | 2021-04-06 | 2023-08-01 | 东北大学 | 一种面向海洋大数据的并行关联规则挖掘方法 |
CN113110385A (zh) * | 2021-04-16 | 2021-07-13 | 广东电网有限责任公司计量中心 | 基于决策树的计量自动化检定系统的启停预警方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108694175A (zh) | 一种基于数据挖掘算法分析电能检测大数据的方法 | |
CN110223196B (zh) | 基于典型行业特征库和反窃电样本库的反窃电分析方法 | |
Strantzali et al. | Decision making in renewable energy investments: A review | |
CN109711424B (zh) | 一种基于决策树的行为规则获取方法、装置及设备 | |
CN107111625A (zh) | 实现数据的高效分类和探索的方法和系统 | |
CN108170769A (zh) | 一种基于决策树算法的装配制造质量数据处理方法 | |
CN113723844B (zh) | 一种基于集成学习的低压台区理论线损计算方法 | |
CN103020459A (zh) | 一种多维度用电行为的感知方法及系统 | |
CN109492022A (zh) | 基于语义的改进的k-means算法的搜索方法 | |
CN108830413A (zh) | 一种建筑能源消耗的可视化预测方法及系统 | |
CN111984873A (zh) | 一种服务推荐系统和方法 | |
CN112598234A (zh) | 一种低压台区线损异常分析方法、装置和设备 | |
CN108647729A (zh) | 一种用户画像获取方法 | |
CN115358481A (zh) | 一种企业外迁预警识别的方法、系统及装置 | |
Baembitov et al. | Fast extraction and characterization of fundamental frequency events from a large PMU dataset using big data analytics | |
Yu et al. | FastLink: a machine learning and GPU-based fast phase association method and its application to Yangbi M s 6.4 aftershock sequences | |
CN118194202A (zh) | 基于横向联邦的窃电识别算法及其原型系统 | |
Biruntha et al. | Rainfall prediction using kNN and decision tree | |
CN114240041A (zh) | 配网台区精益化线损分析方法及系统 | |
CN113506098A (zh) | 基于多源数据的电厂元数据管理系统及方法 | |
Sengupta et al. | LIGO-Virgo searches for gravitational waves from coalescing binaries: a status update | |
Pham et al. | Predictive analysis of the supply chain management using machine learning approaches: Review and taxonomy | |
KR20210030808A (ko) | 시장규모추정장치 및 그 동작 방법 | |
KR20170030016A (ko) | 특허정보를 이용한 지질자원 분야 유망기술군 분석방법 및 시스템 | |
CN114066219A (zh) | 一种关联矩阵下用电异常点智能识别的窃电分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181023 |
|
RJ01 | Rejection of invention patent application after publication |