CN114185956A

CN114185956A - 基于canopy、k-means算法的数据挖掘方法

Info

Publication number: CN114185956A
Application number: CN202111354100.0A
Authority: CN
Inventors: 王南; 胡博; 李伟; 王丽霞; 王大维; 王磊; 周桂平; 陈浩; 刘旸; 白钦予; 郎业兴; 左越; 钟元辰; 曾辉; 路志桐; 张博; 栗鹏辉; 廉洪波
Original assignee: State Grid Corp of China SGCC; State Grid Liaoning Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Liaoning Electric Power Co Ltd
Priority date: 2021-11-16
Filing date: 2021-11-16
Publication date: 2022-03-15

Abstract

本发明提出的是基于canopy、k‑means算法的数据挖掘方法。包括数据预测、数据分类和算法实现，步骤一、针对海量的电力数据进行数据预测，以得到数据的预期期望、量化范围以及聚散程度；步骤二、基于数据预测得到的相关数据指标，分析三类算法的优缺点，对数据进行分类以采用不同的数据挖掘算法；步骤三、将分类好的数据经过各算法，即canopy算法、k‑means算法以及二者结合优化的canopy‑k‑means算法进行数据挖掘的实现。本发明通过数据预测、数据分类以及算法完成数据的挖掘分析，对挖掘电力数据中的有价值信息具有重要意义。适宜作为基于canopy、k‑means算法的数据挖掘方法应用。

Description

基于canopy、k-means算法的数据挖掘方法

技术领域

本发明涉及电力领域的电网数据，特别是涉及基于canopy、k-means算法的数据挖掘方法。

背景技术

电网在为人们的生活提供充足电力的同时，也存在着大量的电力数据信息，这些电力数据信息存在着隐藏价值，而在电力大数据中采用数据挖掘方法，可以快速地实现信息的获取转换。由于电力系统的大数据高频且分散，因此需要针对电力大数据采用智能化方法实现其快速准确的信息挖掘进而优化电网的管理。

数据挖掘是数据库知识发现中的一个步骤。数据挖掘，一般是指从大量的数据中自动搜索隐藏于其中的特殊关系型的信息的过程。数据挖掘在技术上的定义是指从大量的、不完全的、有噪声的、模糊的和随机的数据中，提取隐含在其中的、事先不知道的，但又有潜在有用信息和知识的过程。云计算是通过在分布式存储设备或虚拟机，按需分配资源，实现快速计算功能。

发明内容

为了解决现有电网中存在着海量电力数据，其中的数据隐藏价值有待深入挖掘，以此更好地实现电网的规划管理问题，本发明提出了基于canopy、k-means算法的数据挖掘方法。该方法通过分析canopy算法、k-means算法以及二者结合优化的canopy-k-means算法的优缺点，对数据进行分类以更好得进行相应数据挖掘算法的实现，解决电力数据挖掘的技术问题。

本发明解决技术问题所采用的方案是：

基于canopy、k-means以及两者结合优化算法的电网数据挖掘方法，包括数据预测、数据分类和算法实现，具体的实现包括如下过程：

步骤一、针对海量的电力数据进行数据预测，以得到数据的预期期望、量化范围以及聚散程度。

步骤二、基于数据预测得到的相关数据指标，分析三类算法的优缺点，对数据进行分类以采用不同的数据挖掘算法。

步骤三、将分类好的数据经过各算法，即canopy算法、k-means算法以及二者结合优化的canopy-k-means算法进行数据挖掘的实现。

积极效果，本发明提出了一种数据预测算法，针对电网中蕴含的电力数据进行预测，以得到数据的预期期望、量化范围以及聚散程度。经过预测的数据可以更好地进行数据分类，数据分类的方法主要依据对应算法的优缺点。研究canopy算法、 k-means算法以及canopy-k-means算法，canopy算法抗干扰能力强且实现过程容易理解；k-means算法固有的属性可以很好地解决因样本数量少而产生的类别聚集不准确的问题；canopy-k-means算法是上述两种算法的结合优化，在处理的数据量较大时，所需耗时较短，效率较高。通过数据预测、数据分类以及算法实现三个过程更好地完成数据的挖掘分析，对挖掘电力数据中的有价值信息进而优化电网的规划管理具有重要意义。适宜作为基于canopy、k-means算法的数据挖掘方法应用。

附图说明

图1是数据挖掘的过程示意图；

图2是基于云模型的预测算法流程图；

其中，P为待预测数据输入的组数，M为转化为条件云的个数，N为每组样本均值的个数，Q为新条件数据的个数；

图3是数据挖掘算法实现的流程图；

其中，A、B、C为数据分类的类别，a为数据集中的数据，k为数据样本中随机选取的数据量，y为未标注数据。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

据图1所示，基于canopy、k-means算法的数据挖掘方法，包括数据预测、数据分类和算法实现，具体的实现包括如下过程：

本发明具体应用时，数据预测的实现流程参见图2，算法的开始进行P组数据输入，根据对应条件规则将P组数据转化成M个条件云以及一个结论云。求取条件云的熵以及超熵从而生成P组随机值，进行条件云的隶属度求取以及得到P组隶属度的样本均值，上述步骤重复N次得到每组N个样本均值。将N个样本均值的最大值以及对应的结论云记录下来，生成一个结论云滴并且该结论云滴的隶属度应大于设定值，选取对应的新条件数据，重复上述步骤至选取Q个新条件数据。最后经过反向云发生器生成所需结论云，得到数据的预期期望、量化范围以及聚散程度。

其中，P为待预测数据输入的组数；

M为转化为条件云的个数；

N为每组样本均值的个数；

Q为新条件数据的个数。

对于数据分类模块，针对数据预测结果，分析canopy算法、k-means算法以及二者结合优化的canopy-k-means算法的优缺点，对数据进行分类以更好得进行相应数据挖掘算法的实现。

canopy算法的抗干扰能力强，同时其算法实现过程更容易理解，算法也更具有科学性同时由于其算法的固有属性导致其相似计算的数量也较少；但是算法中距离设定值的确定存在问题。

对于k-means算法，通过较少的已知数据样本，就可以实现样本的分类；其次，该算法固有的属性可以很好地解决因样本数量少而产生的类别聚集不准确的问题；第三，由于样本处理的是数量较少的样本数据，其复杂程度保持在一个很低的水平；但是在算法的开始我们并不能掌握最好的数据集分类数量，因此这个k值的选取是非常随机的；其次，算法的类别聚集中心是随机选取的，这会对结果产生很大的影响，不好的选值甚至会让结果失效；最后，算法在处理的数据量较大时所需要的时间很长，效率很低。

canpy-k-means算法是上述两种算法的结合优化，在处理的数据量较大时，所需耗时较短，效率较高，相比较于上述两种算法，该算法在处理电力数据量较大时具有绝对的优势。基于以上对三种算法的分析，将经过预测的数据进行类别的划分。

对于算法实现部分，经过分类后的数据经由各个算法进行数据潜在价值挖掘的实现。算法实现流程图参见图3。canopy算法的实现过程包括：（1）检测是否存在未标记数据，若存在，进行下一步；若不存在，算法结束。（2）选择一个未标注数据为中心构造canopy。（3）求未标注数据与中心的距离，距离小于给定值1的归入一类，并将这些数据删除，依次归类。（4）重复步骤（2）和（3），直到所有数据均已被标记，算法结束。

k-means算法实现的过程包括：（1）从数据样本中随机取ｋ个数据作为初始的类别聚集中心。（2）计算其余的数据与这ｋ个数据的距离，数据就近划分至各个类别。（3）取每个类别的均值作为新的类别聚集中心。（4）判断中心的变化是否超过限定，若超过，转至步骤二；若未超过，算法结束。

其中，k为数据样本中随机选取的数据量。

canpy-k-means算法的实现过程包括：（1）随机选取数据a作为中心点，将该数据从数据集中删除。（2）求取其他数据与中心点的距离，依次进行归类。（3）求取类别聚集中心点。（4）计算canopy中的数据与聚集中心点的距离值。（5）将数据加入距离最短的类别中，重新计算聚集中心点。（6）求canopy中心点与类别聚集中心点的距离值。（7）类别聚集中心点划入对应的canopy中。（8）类别聚集中心点是否发生变化，若是，重复步骤（6）与（7）；若不是，算法结束。

采用归一化算法实现。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于canopy、k-means算法的数据挖掘方法，其特征是：包括数据预测、数据分类和算法实现，具体的实现包括如下过程：

步骤一、针对海量的电力数据进行数据预测，以得到数据的预期期望、量化范围以及聚散程度；

步骤二、基于数据预测得到的相关数据指标，分析三类算法的优缺点，对数据进行分类以采用不同的数据挖掘算法；

2.根据权利要求1所述的基于canopy、k-means算法的数据挖掘方法，其特征是：

所述数据预测，算法的开始进行P组数据输入，根据对应条件规则将P组数据转化成M个条件云以及一个结论云；求取条件云的熵以及超熵从而生成P组随机值，进行条件云的隶属度求取以及得到P组隶属度的样本均值，上述步骤重复N次得到每组N个样本均值；将N个样本均值的最大值以及对应的结论云记录下来，生成一个结论云滴并且该结论云滴的隶属度应大于设定值，选取对应的新条件数据，重复上述步骤至选取Q个新条件数据；最后经过反向云发生器生成所需结论云，得到数据的预期期望、量化范围以及聚散程度；

其中，P为待预测数据输入的组数；

M为转化为条件云的个数；

N为每组样本均值的个数；

Q为新条件数据的个数。

3.根据权利要求1所述的基于canopy、k-means算法的数据挖掘方法，其特征是：

所述数据分类，针对数据预测结果，分析canopy算法、k-means算法以及二者结合优化的canopy-k-means算法的优缺点，对数据进行分类以更好得进行相应数据挖掘算法的实现；

canopy算法的抗干扰能力强，同时其算法实现过程更容易理解，算法也更具有科学性同时由于其算法的固有属性导致其相似计算的数量也较少；但是算法中距离设定值的确定存在问题；

对于k-means算法，通过较少的已知数据样本，就可以实现样本的分类；其次，该算法固有的属性可以很好地解决因样本数量少而产生的类别聚集不准确的问题；第三，由于样本处理的是数量较少的样本数据，其复杂程度保持在一个很低的水平；但是在算法的开始我们并不能掌握最好的数据集分类数量，因此这个k值的选取是非常随机的；其次，算法的类别聚集中心是随机选取的，这会对结果产生很大的影响，不好的选值甚至会让结果失效；最后，算法在处理的数据量较大时所需要的时间很长，效率很低；

canpy-k-means算法是上述两种算法的结合优化，在处理的数据量较大时，所需耗时较短，效率较高，相比较于上述两种算法，该算法在处理电力数据量较大时具有绝对的优势；基于以上对三种算法的分析，将经过预测的数据进行类别的划分。

4.根据权利要求1所述的基于canopy、k-means算法的数据挖掘方法，其特征是：

所述算法实现，经过分类后的数据经由各个算法进行数据潜在价值挖掘的实现；

canopy算法的实现过程包括：（1）检测是否存在未标记数据，若存在，进行下一步；若不存在，算法结束；（2）选择一个未标注数据为中心构造canopy，（3）求未标注数据与中心的距离，距离小于给定值1的归入一类，并将这些数据删除，依次归类；（4）重复步骤（2）和（3），直到所有数据均已被标记，算法结束；

k-means算法实现的过程包括：（1）从数据样本中随机取ｋ个数据作为初始的类别聚集中心；（2）计算其余的数据与这ｋ个数据的距离，数据就近划分至各个类别；（3）取每个类别的均值作为新的类别聚集中心；（4）判断中心的变化是否超过限定，若超过，转至步骤二；若未超过，算法结束；

其中，k为数据样本中随机选取的数据量；

canpy-k-means算法的实现过程包括：（1）随机选取数据a作为中心点，将该数据从数据集中删除；（2）求取其他数据与中心点的距离，依次进行归类；（3）求取类别聚集中心点；（4）计算canopy中的数据与聚集中心点的距离值；（5）将数据加入距离最短的类别中，重新计算聚集中心点；（6）求canopy中心点与类别聚集中心点的距离值；（7）类别聚集中心点划入对应的canopy中；（8）类别聚集中心点是否发生变化，若是，重复步骤（6）与（7）；若不是，算法结束；

采用归一化算法实现。