CN114185956A - 基于canopy、k-means算法的数据挖掘方法 - Google Patents

基于canopy、k-means算法的数据挖掘方法 Download PDF

Info

Publication number
CN114185956A
CN114185956A CN202111354100.0A CN202111354100A CN114185956A CN 114185956 A CN114185956 A CN 114185956A CN 202111354100 A CN202111354100 A CN 202111354100A CN 114185956 A CN114185956 A CN 114185956A
Authority
CN
China
Prior art keywords
data
algorithm
canty
means algorithm
mining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111354100.0A
Other languages
English (en)
Inventor
王南
胡博
李伟
王丽霞
王大维
王磊
周桂平
陈浩
刘旸
白钦予
郎业兴
左越
钟元辰
曾辉
路志桐
张博
栗鹏辉
廉洪波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Liaoning Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Liaoning Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Liaoning Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202111354100.0A priority Critical patent/CN114185956A/zh
Publication of CN114185956A publication Critical patent/CN114185956A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出的是基于canopy、k‑means算法的数据挖掘方法。包括数据预测、数据分类和算法实现,步骤一、针对海量的电力数据进行数据预测,以得到数据的预期期望、量化范围以及聚散程度;步骤二、基于数据预测得到的相关数据指标,分析三类算法的优缺点,对数据进行分类以采用不同的数据挖掘算法;步骤三、将分类好的数据经过各算法,即canopy算法、k‑means算法以及二者结合优化的canopy‑k‑means算法进行数据挖掘的实现。本发明通过数据预测、数据分类以及算法完成数据的挖掘分析,对挖掘电力数据中的有价值信息具有重要意义。适宜作为基于canopy、k‑means算法的数据挖掘方法应用。

Description

基于canopy、k-means算法的数据挖掘方法
技术领域
本发明涉及电力领域的电网数据,特别是涉及基于canopy、k-means算法的数据挖掘方法。
背景技术
电网在为人们的生活提供充足电力的同时,也存在着大量的电力数据信息,这些电力数据信息存在着隐藏价值,而在电力大数据中采用数据挖掘方法,可以快速地实现信息的获取转换。由于电力系统的大数据高频且分散,因此需要针对电力大数据采用智能化方法实现其快速准确的信息挖掘进而优化电网的管理。
数据挖掘是数据库知识发现中的一个步骤。数据挖掘,一般是指从大量的数据中自动搜索隐藏于其中的特殊关系型的信息的过程。数据挖掘在技术上的定义是指从大量的、不完全的、有噪声的、模糊的和随机的数据中,提取隐含在其中的、事先不知道的,但又有潜在有用信息和知识的过程。云计算是通过在分布式存储设备或虚拟机,按需分配资源,实现快速计算功能。
发明内容
为了解决现有电网中存在着海量电力数据,其中的数据隐藏价值有待深入挖掘,以此更好地实现电网的规划管理问题,本发明提出了基于canopy、k-means算法的数据挖掘方法。该方法通过分析canopy算法、k-means算法以及二者结合优化的canopy-k-means算法的优缺点,对数据进行分类以更好得进行相应数据挖掘算法的实现,解决电力数据挖掘的技术问题。
本发明解决技术问题所采用的方案是:
基于canopy、k-means以及两者结合优化算法的电网数据挖掘方法,包括数据预测、数据分类和算法实现,具体的实现包括如下过程:
步骤一、针对海量的电力数据进行数据预测,以得到数据的预期期望、量化范围以及聚散程度。
步骤二、基于数据预测得到的相关数据指标,分析三类算法的优缺点,对数据进行分类以采用不同的数据挖掘算法。
步骤三、将分类好的数据经过各算法,即canopy算法、k-means算法以及二者结合优化的canopy-k-means算法进行数据挖掘的实现。
积极效果,本发明提出了一种数据预测算法,针对电网中蕴含的电力数据进行预测,以得到数据的预期期望、量化范围以及聚散程度。经过预测的数据可以更好地进行数据分类,数据分类的方法主要依据对应算法的优缺点。研究canopy算法、 k-means算法以及canopy-k-means算法,canopy算法抗干扰能力强且实现过程容易理解;k-means算法固有的属性可以很好地解决因样本数量少而产生的类别聚集不准确的问题;canopy-k-means算法是上述两种算法的结合优化,在处理的数据量较大时,所需耗时较短,效率较高。通过数据预测、数据分类以及算法实现三个过程更好地完成数据的挖掘分析,对挖掘电力数据中的有价值信息进而优化电网的规划管理具有重要意义。适宜作为基于canopy、k-means算法的数据挖掘方法应用。
附图说明
图1是数据挖掘的过程示意图;
图2是基于云模型的预测算法流程图;
其中,P为待预测数据输入的组数,M为转化为条件云的个数,N为每组样本均值的个数,Q为新条件数据的个数;
图3是数据挖掘算法实现的流程图;
其中,A、B、C为数据分类的类别,a为数据集中的数据,k为数据样本中随机选取的数据量,y为未标注数据。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
据图1所示,基于canopy、k-means算法的数据挖掘方法,包括数据预测、数据分类和算法实现,具体的实现包括如下过程:
步骤一、针对海量的电力数据进行数据预测,以得到数据的预期期望、量化范围以及聚散程度。
步骤二、基于数据预测得到的相关数据指标,分析三类算法的优缺点,对数据进行分类以采用不同的数据挖掘算法。
步骤三、将分类好的数据经过各算法,即canopy算法、k-means算法以及二者结合优化的canopy-k-means算法进行数据挖掘的实现。
本发明具体应用时,数据预测的实现流程参见图2,算法的开始进行P组数据输入,根据对应条件规则将P组数据转化成M个条件云以及一个结论云。求取条件云的熵以及超熵从而生成P组随机值,进行条件云的隶属度求取以及得到P组隶属度的样本均值,上述步骤重复N次得到每组N个样本均值。将N个样本均值的最大值以及对应的结论云记录下来,生成一个结论云滴并且该结论云滴的隶属度应大于设定值,选取对应的新条件数据,重复上述步骤至选取Q个新条件数据。最后经过反向云发生器生成所需结论云,得到数据的预期期望、量化范围以及聚散程度。
其中,P为待预测数据输入的组数;
M为转化为条件云的个数;
N为每组样本均值的个数;
Q为新条件数据的个数。
对于数据分类模块,针对数据预测结果,分析canopy算法、k-means算法以及二者结合优化的canopy-k-means算法的优缺点,对数据进行分类以更好得进行相应数据挖掘算法的实现。
canopy算法的抗干扰能力强,同时其算法实现过程更容易理解,算法也更具有科学性同时由于其算法的固有属性导致其相似计算的数量也较少;但是算法中距离设定值的确定存在问题。
对于k-means算法,通过较少的已知数据样本,就可以实现样本的分类;其次,该算法固有的属性可以很好地解决因样本数量少而产生的类别聚集不准确的问题;第三,由于样本处理的是数量较少的样本数据,其复杂程度保持在一个很低的水平;但是在算法的开始我们并不能掌握最好的数据集分类数量,因此这个k值的选取是非常随机的;其次,算法的类别聚集中心是随机选取的,这会对结果产生很大的影响,不好的选值甚至会让结果失效;最后,算法在处理的数据量较大时所需要的时间很长,效率很低。
canpy-k-means算法是上述两种算法的结合优化,在处理的数据量较大时,所需耗时较短,效率较高,相比较于上述两种算法,该算法在处理电力数据量较大时具有绝对的优势。基于以上对三种算法的分析,将经过预测的数据进行类别的划分。
对于算法实现部分,经过分类后的数据经由各个算法进行数据潜在价值挖掘的实现。算法实现流程图参见图3。canopy算法的实现过程包括:(1)检测是否存在未标记数据,若存在,进行下一步;若不存在,算法结束。(2)选择一个未标注数据为中心构造canopy。(3)求未标注数据与中心的距离,距离小于给定值1的归入一类,并将这些数据删除,依次归类。(4)重复步骤(2)和(3),直到所有数据均已被标记,算法结束。
k-means算法实现的过程包括:(1)从数据样本中随机取k个数据作为初始的类别聚集中心。(2)计算其余的数据与这k个数据的距离,数据就近划分至各个类别。(3)取每个类别的均值作为新的类别聚集中心。(4)判断中心的变化是否超过限定,若超过,转至步骤二;若未超过,算法结束。
其中,k为数据样本中随机选取的数据量。
canpy-k-means算法的实现过程包括:(1)随机选取数据a作为中心点,将该数据从数据集中删除。(2)求取其他数据与中心点的距离,依次进行归类。(3)求取类别聚集中心点。(4)计算canopy中的数据与聚集中心点的距离值。(5)将数据加入距离最短的类别中,重新计算聚集中心点。(6)求canopy中心点与类别聚集中心点的距离值。(7)类别聚集中心点划入对应的canopy中。(8)类别聚集中心点是否发生变化,若是,重复步骤(6)与(7);若不是,算法结束。
采用归一化算法实现。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.基于canopy、k-means算法的数据挖掘方法,其特征是:包括数据预测、数据分类和算法实现,具体的实现包括如下过程:
步骤一、针对海量的电力数据进行数据预测,以得到数据的预期期望、量化范围以及聚散程度;
步骤二、基于数据预测得到的相关数据指标,分析三类算法的优缺点,对数据进行分类以采用不同的数据挖掘算法;
步骤三、将分类好的数据经过各算法,即canopy算法、k-means算法以及二者结合优化的canopy-k-means算法进行数据挖掘的实现。
2.根据权利要求1所述的基于canopy、k-means算法的数据挖掘方法,其特征是:
所述数据预测,算法的开始进行P组数据输入,根据对应条件规则将P组数据转化成M个条件云以及一个结论云;求取条件云的熵以及超熵从而生成P组随机值,进行条件云的隶属度求取以及得到P组隶属度的样本均值,上述步骤重复N次得到每组N个样本均值;将N个样本均值的最大值以及对应的结论云记录下来,生成一个结论云滴并且该结论云滴的隶属度应大于设定值,选取对应的新条件数据,重复上述步骤至选取Q个新条件数据;最后经过反向云发生器生成所需结论云,得到数据的预期期望、量化范围以及聚散程度;
其中,P为待预测数据输入的组数;
M为转化为条件云的个数;
N为每组样本均值的个数;
Q为新条件数据的个数。
3.根据权利要求1所述的基于canopy、k-means算法的数据挖掘方法,其特征是:
所述数据分类,针对数据预测结果,分析canopy算法、k-means算法以及二者结合优化的canopy-k-means算法的优缺点,对数据进行分类以更好得进行相应数据挖掘算法的实现;
canopy算法的抗干扰能力强,同时其算法实现过程更容易理解,算法也更具有科学性同时由于其算法的固有属性导致其相似计算的数量也较少;但是算法中距离设定值的确定存在问题;
对于k-means算法,通过较少的已知数据样本,就可以实现样本的分类;其次,该算法固有的属性可以很好地解决因样本数量少而产生的类别聚集不准确的问题;第三,由于样本处理的是数量较少的样本数据,其复杂程度保持在一个很低的水平;但是在算法的开始我们并不能掌握最好的数据集分类数量,因此这个k值的选取是非常随机的;其次,算法的类别聚集中心是随机选取的,这会对结果产生很大的影响,不好的选值甚至会让结果失效;最后,算法在处理的数据量较大时所需要的时间很长,效率很低;
canpy-k-means算法是上述两种算法的结合优化,在处理的数据量较大时,所需耗时较短,效率较高,相比较于上述两种算法,该算法在处理电力数据量较大时具有绝对的优势;基于以上对三种算法的分析,将经过预测的数据进行类别的划分。
4.根据权利要求1所述的基于canopy、k-means算法的数据挖掘方法,其特征是:
所述算法实现,经过分类后的数据经由各个算法进行数据潜在价值挖掘的实现;
canopy算法的实现过程包括:(1)检测是否存在未标记数据,若存在,进行下一步;若不存在,算法结束;(2)选择一个未标注数据为中心构造canopy,(3)求未标注数据与中心的距离,距离小于给定值1的归入一类,并将这些数据删除,依次归类;(4)重复步骤(2)和(3),直到所有数据均已被标记,算法结束;
k-means算法实现的过程包括:(1)从数据样本中随机取k个数据作为初始的类别聚集中心;(2)计算其余的数据与这k个数据的距离,数据就近划分至各个类别;(3)取每个类别的均值作为新的类别聚集中心;(4)判断中心的变化是否超过限定,若超过,转至步骤二;若未超过,算法结束;
其中,k为数据样本中随机选取的数据量;
canpy-k-means算法的实现过程包括:(1)随机选取数据a作为中心点,将该数据从数据集中删除;(2)求取其他数据与中心点的距离,依次进行归类;(3)求取类别聚集中心点;(4)计算canopy中的数据与聚集中心点的距离值;(5)将数据加入距离最短的类别中,重新计算聚集中心点;(6)求canopy中心点与类别聚集中心点的距离值;(7)类别聚集中心点划入对应的canopy中;(8)类别聚集中心点是否发生变化,若是,重复步骤(6)与(7);若不是,算法结束;
采用归一化算法实现。
CN202111354100.0A 2021-11-16 2021-11-16 基于canopy、k-means算法的数据挖掘方法 Pending CN114185956A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111354100.0A CN114185956A (zh) 2021-11-16 2021-11-16 基于canopy、k-means算法的数据挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111354100.0A CN114185956A (zh) 2021-11-16 2021-11-16 基于canopy、k-means算法的数据挖掘方法

Publications (1)

Publication Number Publication Date
CN114185956A true CN114185956A (zh) 2022-03-15

Family

ID=80540958

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111354100.0A Pending CN114185956A (zh) 2021-11-16 2021-11-16 基于canopy、k-means算法的数据挖掘方法

Country Status (1)

Country Link
CN (1) CN114185956A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116192510A (zh) * 2023-02-16 2023-05-30 湖南强智科技发展有限公司 一种基于大数据的校园网络公共安全管理方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116192510A (zh) * 2023-02-16 2023-05-30 湖南强智科技发展有限公司 一种基于大数据的校园网络公共安全管理方法及系统
CN116192510B (zh) * 2023-02-16 2023-09-26 湖南强智科技发展有限公司 一种基于大数据的校园网络公共安全管理方法及系统

Similar Documents

Publication Publication Date Title
CN107122594B (zh) 一种新能源车辆电池的健康预测方法和系统
Li et al. An ant colony optimization based dimension reduction method for high-dimensional datasets
CN107526975A (zh) 一种基于差分隐私保护决策树的方法
CN109388565B (zh) 基于生成式对抗网络的软件系统性能优化方法
CN112668688B (zh) 一种入侵检测方法、系统、设备及可读存储介质
CN107832456A (zh) 一种基于临界值数据划分的并行knn文本分类方法
CN111950620A (zh) 基于DBSCAN和K-means算法的用户筛选方法
CN115563477B (zh) 谐波数据识别方法、装置、计算机设备和存储介质
CN108320027B (zh) 一种基于量子计算的大数据处理方法
CN109102008A (zh) 一种基于gpu的雷暴核识别方法
Gao et al. Icfs: An improved fast search and find of density peaks clustering algorithm
CN114185956A (zh) 基于canopy、k-means算法的数据挖掘方法
CN114386466A (zh) 一种用于脉冲星搜寻中候选体信号挖掘的并行的混合聚类方法
CN104468276A (zh) 基于随机抽样多分类器的网络流量识别方法
CN111814979A (zh) 一种基于动态规划的模糊集自动划分方法
CN115577259A (zh) 高压直流输电系统故障选极方法、装置和计算机设备
Ma The Research of Stock Predictive Model based on the Combination of CART and DBSCAN
CN115292361A (zh) 一种分布式能源异常数据的筛选方法及系统
Shao et al. Identifying multi-variable relationships based on the maximal information coefficient
Wang et al. An algorithm for decision tree construction based on rough set theory
Anitha et al. Improved Parallel Clustering with Optimal Initial Centroids
CN111310842A (zh) 一种密度自适应的快速聚类方法
CN115545107B (zh) 一种基于海量电力数据的云计算方法、系统
Xiong Initial clustering based on the swarm intelligence algorithm for computing a data density parameter
Guo et al. Ifrat: An iot field recognition algorithm based on time-series data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination