CN108694175A

CN108694175A - 一种基于数据挖掘算法分析电能检测大数据的方法

Info

Publication number: CN108694175A
Application number: CN201710218671.9A
Authority: CN
Inventors: 李高峰; 周铭丽; 周铭秋
Original assignee: Zhengzhou Boxin Intellectual Property Agency Ltd
Current assignee: Zhengzhou Boxin Intellectual Property Agency Ltd
Priority date: 2017-04-05
Filing date: 2017-04-05
Publication date: 2018-10-23

Abstract

本发明公开一种基于数据挖掘算法分析电能检测大数据的方法，包括以下步骤：（S1）从上层管理平台数据库中得出电能检测数据库；（S2）根据用户需要采用分类算法对数据库中的数据进行分类；（S3）将相同分类类型的数据放置在同一数据库中；（S4）根据用户需要选择同一数据库类型中的数据；（S5）采用组合支持度关联算法对所选择数据库中的数据进行计算；（S6）得出结论，供用户分析、使用。本发明结合决策树算法与组合支持度关联算法从海量的数据库中提取有用的数据信息供用户研究使用，时间短、运行速度快，在相对短的时间内能够对大型数据源做出可行且效果良好的结果，从大量的数据中自动分析获得规律，使用方便。

Description

一种基于数据挖掘算法分析电能检测大数据的方法

技术领域

本发明涉及数据分析领域，且更具体地涉及一种基于数据挖掘算法分析电能检测大数据的方法。

背景技术

随着电能技术的发展，检定电能质量的电能质量检定系统也不断发展，记录电能质量检定系统的数据呈海量趋势发展，在国电网计量单位、电能计量企业、电能表生产厂家、研究院等，通常要根据往年的计量数据情况分析电能情况，以方便用户更好地把握电能情况，为后期设备的研究、技术的提高、产品的发展提供重要的依据。为了提高电能质量综合评估的客观性、科学性，以及避免电测中不必要的隐患，就需要一种分析电能检测大数据的方法。

发明内容

针对上述指出的技术问题，本发明提供了一种基于数据挖掘算法分析电能检测大数据的方法，该方法能够针对电能计量行业数据量大和管理复杂的问题，构建合理的分类模型，根据建立的数据模型从大量电能计量数据中抽取计量信息，通过对这些信息进行处理，判断电能计量的一系列问题，该方法是提高用电管理的重要手段，并能及时对异常情况做出预警提示，从而保证电能计量的安全可靠运行。

为了实现上述目的，本发明采用以下技术方案：

一种基于数据挖掘算法分析电能检测大数据的方法，包括以下步骤：

（S1）从上层管理平台数据库中得出电能检测数据库；

（S2）根据用户需要采用分类算法对数据库中的数据进行分类；

（S3）将相同分类类型的数据放置在同一数据库中；

（S4）根据用户需要选择同一数据库类型中的数据；

（S5）采用组合支持度关联算法对所选择数据库中的数据进行计算；

（S6）得出结论，供用户分析、使用；

作为本发明进一步的技术方案，所述步骤（S1）中上层管理平台数据库为区级以上的ORACLE RAC系统数据库。

作为本发明进一步的技术方案，所述步骤（S2）中分类算法为基于决策树的数据挖掘算法，计算步骤为：

（S21）选择数据库中的待分类的数据；

（S22）对待处理的电能计量数据进行训练，根据用户需要选择节点，建立分类模型；

（S23）利用建立的分类模型对所选数据库中的数据分类；

（S24）输出分类结果。

作为本发明进一步的技术方案，所述步骤（S22）中选择节点的方法为：根据给定的样本数据集选择某个特征值作为树的节点，在数据集中，计算出特征值作用前的样本数据集中的信息熵以及特征值作用后的样本数据集中的信息熵，然后计算出二者的差，反复操作，求出差值中最大的值，即是节点的最大特征；其中扫描数据库前的信息熵计算公式为：

,其中 D 表示训练数据集，c 表示数据类别数，Pi 表示类别 i样本数量占所有样本的比例,Info(D)为信息熵；

对应数据集 D,选择特征 A 作为决策树判断节点时，在特征 A 作用后的信息熵的为Info_A(D)，计算的信息熵计算公式为：

,其中 k 表示样本 D 被分为 k 个部分；

信息增益表示数据集 D 在特征 A 的作用后，其信息熵减少的值，信息熵差值计算公式如下：

,其中决策树节点最合适的特征选择，就是 Gain(A) 值最大的特征。

作为本发明进一步的技术方案，所述步骤（S5）中的组合支持度关联算法的步骤如下：

（S51）将所选区域中数据库划分为多个小型数据库；

（S52）将多个小型数据库中的每个数据赋予最小支持度MS_k；

（S53）基于Apriori算法规则扫描每个数据库中的数据，将得到的每个数据的最小支持度F_k存储到独立的数据库D₁；

（S54）比较MS_k与F_k的大小，得出较大频集，针对每个数据库逐一操作，将每个数据库中的数据的较大频集存储到独立的数据库D₂中，得出最大频集集合；

（S55）运用最小支持度筛选得出的最大频集集合；

（S56）得出关联结果。

积极有益效果：

本发明结合决策树算法与组合支持度关联算法从海量的数据库中提取有用的数据信息供用户研究使用，时间短、运行速度快，在相对短的时间内能够对大型数据源做出可行且效果良好的结果，从大量的数据中自动分析获得规律，并利用规律对未知数据进行预测的算法，本发明可根据用户需求选择相应的数据类型，对不同的数据类型进行数据分析。

附图说明

图1为本发明的步骤示意图；

图2为本发明中决策树算法的步骤示意图；

图3为本发明中组合支持度关联算法的步骤示意图；

图4为本发明中决策树算法一种实施例的示意图；

图5为本发明中决策树算法的另一种实施例的示意图；

图6a为本发明中采用单支持度与多支持度相结合的算法对所选数据库中数据进行筛选的过程第一步骤示意图；

图6b为本发明中采用单支持度与多支持度相结合的算法对所选数据库中数据进行筛选的过程第二步骤示意图；

图6c为本发明中采用单支持度与多支持度相结合的算法对所选数据库中数据进行筛选的过程第三步骤示意图；

图6d为本发明中采用单支持度与多支持度相结合的算法对所选数据库中数据进行筛选的过程第四步骤示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种基于数据挖掘算法分析电能检测大数据的方法，包括以下步骤：

（S1）从上层管理平台数据库中得出电能检测数据库；

（S3）将相同分类类型的数据放置在同一数据库中；

（S4）根据用户需要选择同一数据库类型中的数据；

（S6）得出结论，供用户分析、使用；

针对步骤（S1），所述步骤（S1）中上层管理平台数据库为区级以上的ORACLE RAC系统数据库。在本发明中，ORACLE RAC系统数据库为多用户共享模式，ORACLE RAC的全称为ORACLEReal application clusters,是ORACLE数据库中采用的一项新技术，多用户共享模式一般采用RAC双节点完成，各个整合的应用系统在该模式上建立不同用户区分各自的表空间、索引、存储过程。在RAC环境过程中，每个实例的内存结构和后台进程都是相同的，每个实施的SGA内有一个缓冲区，实用缓冲融合方式，因此，RAC实例的SGA要比单一的实例的SGA大。ORACLE RAC系统数据库中电能检测数据属于不同站点，在不同站点之间进行的数据传输，因此，数据管理比较零散而且无规则，比如，经过电能检测数据的潜动数据、误差检定数据、外观检测数据、功耗测试数据等。另一种数据类型为考虑时间周期的层次，如日、星期、月等，还可考虑日历的影响，如节假日等能代表共同特性的信息：①设备台账类，描述电力调度对象固有属性的数据，包括一次设备、二次设备、自动化设备、通信设备等，主要来自业务系统的设备数据库，包括各种参数、定值；②动作记录类，电力调度所从事的工作，实质上就是对电网设备的操作，以及处理电网设备的动作，这类数据来自日志（调度、保护、自动化、通信）、操作票、工作票，开关变位、保护故障信息系统等，反映电力系统运行的非连续过程；③时间采样类，反映电力系统连续变动过程的一系列数据，其最大特点就是时间性，根据应用目的不同设置不同的粒度，如来自SCADA/EMS的原始数据可达到秒级的时间间隔，有分钟级或小时级的采集电量，还有按日、旬、月、季、年汇总加工的报表数据等各种数据。

上述数据如果不按一定的规则查询就会显得杂乱无章，数据查询起来就非常困难，因此可采用本发明中的方法对上述数据进行筛选。

针对步骤（S2），如图2所示，所述步骤（S2）中分类算法为基于决策树的数据挖掘算法，计算步骤为：

（S21）选择数据库中的待分类的数据；

（S23）利用建立的分类模型对所选数据库中的数据分类；

（S24）输出分类结果。

在建立决策树时，在步骤（S22）中，选择一个合适的特征作为判断节点，可以快速的分类，减少决策树的深度。把数据集按对应的类标签进行分类。因此，节点选择不同，就会有不同的结果。通过特征的选择能把不同类别的数据集贴上对应类标签。选择节点的依据的方法可以为：

假设在电能表数据库的样本数据集D中，混有c种类别的数据。构建决策树时，根据给定的样本数据集选择某个特征值作为树的节点。

根据给定的样本数据集选择某个特征值作为树的节点，在数据集中，计算出特征值作用前的样本数据集中的信息熵以及特征值作用后的样本数据集中的信息熵，然后计算出二者的差，反复操作，求出差值中最大的值，即是节点的最大特征；其中扫描数据库前的信息熵计算公式为：

,其中 k 表示样本 D 被分为 k 个部分；

信息增益表示数据集 D 在特征 A 的作用后，其信息熵减少的值，信息熵差值计算公式如下：,其中决策树节点最合适的特征选择，就是 Gain(A) 值最大的特征。

下面结合具体实施例，对步骤（S21）、（S22）、（S23）、（S24）做进一步的说明。

在一种实施例中，如图4所示，首先选择数据库中的待分类的数据，比如三相电能表检测数据、单相电能表检测数据、检定装置检测的电能表数据、电能表自动化流水线检定的电能表数据等，根据用户的需要是研究哪一领域的数据，比如，分析电能表自动化流水线检定的数据，和分析电能表检定台体的数据所选择的节点是不一样的。在图4中，是一棵结构简单的决策树，用于提供用户选择那种类型的数据库而建立起来的。选择的数据库具备三个属性：是否2016年之后数据，是否电能表检定流水线检定的数据，是否是三相电能表。每一个内部节点都表示一个属性条件判断，叶子节点表示用户要研究数据的类型。例如：如果是2016年之前数据，则直接不选作下一步分析的数据库，则开始左边的叶子节点，如果是2016年之后的数据，那么选作为待分析的数据库，然后进行下一个叶子节点，以 “检定设备”作为叶子节点继续判断，当是电能表检定装置检定出来的数据时，则不选，如果是“电能表检定流水线”检定流水线检定出的数据，则可以选为数据库，再进行下一步的选择，如果检定的是单相电能表，则不选，如果检定的是三相电能表，可选择。那么就得出了最终要选择作为数据库的数据类型。这样就大大地缩小了选择的范围。有利于研究人员进行数据分析。

在另一种实施例中，如图5所示，这是用户根据他们需求，采用该方法进行的另一种数据库选择，当分析电能表检定装置检定的数据时，则电能表检定流水线检定的数据可不选，然后进一步选择叶子节点，如果电能表类型是三相电能表的数据，则不选，如果检定的电能表类型是单相电能表，则进行下一步的分析，可以将“检定日期”作为叶子节点进行下一步的分析，如果检定日期是2014年之前数据，则不选，如果是2014年之后数据之后的数据则可以选择，因此用户选择的需要分析的数据为电能表检定装置在2014年之后采用电能表检定装置检定的单相电能表的数据。

针对步骤（S3）、（S4），利用上述方法分类的数据存放到指定的数据中供用户分析和使用，比如，在实施例1中分类出的数据放在指定的数据库中，将实施例2中分类出的数据放在另一个指定的数据库中，这样用户可根据实际需要，选择相应的类型的数据。

针对步骤（S5），如图3所示，所述步骤（S5）中的组合支持度关联算法的步骤如下：

（S51）将所选区域中数据库划分为多个小型数据库；

（S52）将多个小型数据库中的每个数据赋予最小支持度MS_k；

（S55）运用最小支持度筛选得出的最大频集集合；

（S56）得出关联结果。

在步骤（S5）中，Apriori算法使用频繁项集的先验知识，使用一种称作逐层搜索的迭代方法，k项集用于探索(k+1)项集。首先，通过扫描事务（交易）记录，找出所有的频繁1项集，该集合记做L1，然后利用L1找频繁2项集的集合L2，L2找L3，如此下去，直到不能再找到任何频繁k项集。最后再在所有的频繁集中找出强规则，即产生用户感兴趣的关联规则。

所述步骤(S53)中筛选频繁项集合的方法采用单支持度与多支持度相结合的算法。采用这种方法在于，为了避免全部用同一支持度进行剪枝而造成规则大爆炸情况，在得到长度为一的频繁项时采用多支持度来剪枝，这种做法是根据在得到长度为一的频繁项集合时采用多支持度可以保留一些重要的稀少项，淘汰一些高频出现但对整个规律分析没有价值的数据项，在得到K-项频繁集时（K ≥2），采用同一最小支持度，能够保证所得的关联规则中的项和项集都在一定的支持度之上。

更进一步的方法为：对分隔成不同的单元的数据库中每个数据均被赋予最小支持度MS_k

(k=1,2,….m),再扫描数据库，将每个数据项的支持度放入另一个支持度数据库F_k(k=1,2,….m),然后比较MS_k与F_k的大小，选出比较大的一项，依次类推，将对分隔成不同的单元的数据库中每个数据都这样操作，最后合并所有的频集，得到频集集合，得到频集集合后，再根据已经设定的最小置信度来筛选规则，得可以得到期望的关联规则。

下面结合具体实施例，进一步说明采用单支持度与多支持度相结合的算法对所选数据库中数据进行筛选，如图6a-6d所示。

设有电能表检定数据库I={A,B,C,D,E},有5种不同的区域检测的数据记录为D，则记录为表一（见图6a），根据图6a示意图，其为对采用不同组合对数据进行筛选的过程。

在图6a中，是在数据库I={A,B,C,D,E}中进行数据扫描，每项检定类型的数据可以得到不同的支持度，再与最小支持度MS_k比较，可得到与最小支持度MS_k比较后的数据集。

如图6b-6d所示，分别用不同的数据组合来产生的关联度。图6b是选择两种不同的数据库，然后根据最小支持度，筛选出具有相应的关联性。图6c是选择两种不同的数据库，然后根据最小支持度，筛选出具有相应的关联性。在图6d中，上述用最小支持度筛选得出频集为{A,C,D},产生的关联规则及置信度，如图6d所示。在图6d中，设定最小置信度为1，则筛选后留下的规则为：，因此，检定项目A,C,D中的一种或者几种检定项目中用户再选择A,C,D中剩下的检定项目的几率非常大，应该将这3种检定项目放在一起。

这种将多支持度和单支持度相结合的挖掘方法主要的优点是兼顾了稀有项及运算效率两个方面的考虑，关联分析时利用多个支持度保留稀有的但有意义的数据项，同时删除没有意义但高频的干扰数据项，在得出k-项频繁集（k≥2）时，运用一个最小支持度的庞大的计数次数。通过了解频繁项的关联性，可了解那些检定项目关系到电能表的质量，哪些检定项目对电能表影响比较大，可以供用户分析检定项目分析、检表类型分析、综合影响因素分析、表计计量的影响因素分析等。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这些具体实施方式仅是举例说明，本领域的技术人员在不脱离本发明的原理和实质的情况下，可以对上述方法和系统的细节进行各种省略、替换和改变。例如，合并上述方法步骤，从而按照实质相同的方法执行实质相同的功能以实现实质相同的结果则属于本发明的范围。因此，本发明的范围仅由所附权利要求书限定。

Claims

1.一种基于数据挖掘算法分析电能检测大数据的方法，其特征在于，包括以下步骤：

（S1）从上层管理平台数据库中得出电能检测数据库；

（S3）将相同分类类型的数据放置在同一数据库中；

（S4）根据用户需要选择同一数据库类型中的数据；

（S6）得出结论，供用户分析、使用。

2.根据权利要求1所述的一种基于数据挖掘算法分析电能检测大数据的方法，其特征在于，所述步骤（S1）中上层管理平台数据库为区级以上的ORACLE RAC系统数据库。

3.根据权利要求1所述的一种基于数据挖掘算法分析电能检测大数据的方法，其特征在于，所述步骤（S2）中分类算法为基于决策树的数据挖掘算法，计算步骤为：

（S21）选择数据库中的待分类的数据；

（S23）利用建立的分类模型对所选数据库中的数据分类；

（S24）输出分类结果。

4.根据权利要求3所述的一种基于数据挖掘算法分析电能检测大数据的方法，其特征在于，所述步骤（S22）中选择节点的方法为：根据给定的样本数据集选择某个特征值作为树的节点，在数据集中，计算出特征值作用前的样本数据集中的信息熵以及特征值作用后的样本数据集中的信息熵，然后计算出二者的差，反复操作，求出差值中最大的值，即是节点的最大特征；其中扫描数据库前的信息熵计算公式为：

,其中 D 表示训练数据集，c 表示数据类别数，Pi 表示类别 i

样本数量占所有样本的比例,Info(D)为信息熵；

,其中 k 表示样本 D 被分为 k 个部分；

5.根据权利要求１所述的一种基于数据挖掘算法分析电能检测大数据的方法，其特征在于，所述步骤（S5）中的组合支持度关联算法的步骤如下：

（S51）将所选区域中数据库划分为多个小型数据库；

（S52）将多个小型数据库中的每个数据赋予最小支持度MS_k；

（S55）运用最小支持度筛选得出的最大频集集合；

（S56）得出关联结果。