CN110069467A - 基于皮尔逊系数与MapReduce并行计算的电网尖峰负荷聚类提取法 - Google Patents

基于皮尔逊系数与MapReduce并行计算的电网尖峰负荷聚类提取法 Download PDF

Info

Publication number
CN110069467A
CN110069467A CN201910303202.6A CN201910303202A CN110069467A CN 110069467 A CN110069467 A CN 110069467A CN 201910303202 A CN201910303202 A CN 201910303202A CN 110069467 A CN110069467 A CN 110069467A
Authority
CN
China
Prior art keywords
data
coefficient
data set
cluster
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910303202.6A
Other languages
English (en)
Inventor
崔嘉
刘思彤
杨俊友
葛维春
张宇献
于仁哲
刘云飞
郭海宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang University of Technology
Original Assignee
Shenyang University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang University of Technology filed Critical Shenyang University of Technology
Priority to CN201910303202.6A priority Critical patent/CN110069467A/zh
Publication of CN110069467A publication Critical patent/CN110069467A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

基于皮尔逊系数与MapReduce并行计算的电网尖峰负荷聚类提取法,该方法步骤如下:第一步:对负荷数据集进行数据清理以及异常数据修复,然后对负荷数据集进行降维;第二步:将降维后数据集按行存储在Hadoop分布式文件系统中,并将数据集分成各个切片形成子数据集;第三步:利用MapReduce计算架构读取第二步中的每一个切片子数据集,通过并行模型利用皮尔逊相关系数作为相似性判据选取初始聚类中心;第四步:再将聚类计算任务分配给MapReduce中的Map任务节点,结合第三步中的初始聚类中心,完成数据集的并行聚类。本发明更加适应越来越蓬勃发展信息时代衍生的电力负荷大数据处理。

Description

基于皮尔逊系数与MapReduce并行计算的电网尖峰负荷聚类 提取法
技术领域
本发明涉及一种基于Map Reduce并行框架的大数据聚类算法,尤其适用于运算复杂的大规模电网尖峰时段负荷数据集。
背景技术
随着智能电网、储能等的蓬勃发展,海量电力数据源源不断的产生于电网的运行、维护以及管理等各个环节中,其中需求侧大数据占比很重。智能电网的规划和运行需要良好的数据基础,因而基于需求侧响应的大数据处理、负荷提取与预测亟待研究。在需求侧大数据中,包含高维海量的用户日/月负荷曲线,通过对这些电力消费信息数据进行精准的分析研究并获取相应负荷模式,可以为电网公司的决策提供重要依据。
在数据挖掘过程中,聚类分析作为基础性步骤起到至关重要的作用,已被广泛应用。在商业领域,通过对数据的聚类结果进行分析管理者能够对客户进行分类,将庞大的客户群体划分为不同消费群体制定相应的营销策略。在生物学中,聚类可用于基因和蛋白质的分类,获得分类群中固定结构的知识。同样聚类在地理学等领域中的应用也不可忽视。聚类分析可以作为一个独立的工具来获取数据分布,观察每个簇的特征,并进一步分析某些特定的节点。另外,聚类也可以用作其他方法的预处理步骤,聚类是将数据集按照不同的数据特征划分为若干组或簇的过程,在划分过程中最大化同一类的数据对象之间的相似性,尽量降低两类数据之间的相似度。
现今的聚类算法主要分为基于划分的聚类算法、基于层次的聚类算法、基于模型的聚类算法、基于密度的聚类算法以及基于网格的聚类算法几类。以上方法是针对不同领域中数据处理需求而产生的,具有自身特点的同时也往往存在一些缺点。划分聚类的算法参数K由于需要人为输入,具有很大的主观性,常陷入局部最优;层次聚类算法则因为分段环节的灵活性极差,聚类结果模式过于固定;基于模型的聚类算法、基于密度的聚类算法只适合少量数据的聚类处理,而面对海量数据时处理能力较弱;基于网格的聚类算法的网格划分参数具有很强的不确定性,直接影响算法的计算复杂度,其随机性致使操作者在聚类过程中难以找到之前尝试出的合理划分参数,即使在对数据分布有一定了解的情况下这一环节仍然存在一定难度。
此外,近年来的算法研究均以欧氏距离作为聚类的相似性判据。但以欧式距离作为相似性判据易受噪声和尖峰值影响,且欧式距离反映的是曲线间距离,而负荷曲线聚类更侧重于曲线轮廓的聚类。
发明内容
发明目的:
本发明在于克服传统聚类技术的缺陷,提出一种基于皮尔逊相关系数且结合Hadoop平台下的Map Reduce并行框架的负荷曲线聚类算法,其目的为解决以往的聚类算法面对高维复杂曲线中所存在的聚类效果差、运算速度慢的问题。
该方法是一种基于皮尔逊相关系数且结合Hadoop平台下的Map Reduce并行框架的负荷曲线聚类算法。聚类过程中,首先,对负荷数据进行数据清理以及异常数据修复,选择合适的降维算法进行降维;其次,将降维后数据集按行存储在Hadoop分布式文件系统中,并将数据集分成各个切片形成子数据集;再次,MapReduce计算架构读取每一个切片数据,通过并行模型利用皮尔逊相关系数作为相似性判据选取初始聚类中心,最后,将计算任务分配给Map任务节点,完成数据集的并行聚类。
技术方案:
基于皮尔逊系数与MapReduce并行计算的电网尖峰负荷聚类提取法,其特征在于:
该方法步骤如下:
第一步:对负荷数据集进行数据清理以及异常数据修复,然后对负荷数据集进行降维;
第二步:将降维后数据集按行存储在Hadoop分布式文件系统中,并将数据集分成各个切片形成子数据集;
第三步:利用MapReduce计算架构读取第二步中的每一个切片子数据集,通过并行模型利用皮尔逊相关系数作为相似性判据选取初始聚类中心;
第四步:再将聚类计算任务分配给MapReduce中的Map任务节点,结合第三步中的初始聚类中心,完成数据集的并行聚类。
第一步中,对负荷数据集进行数据清理以及异常数据修复方式为:利用基于拉格朗日插值的Neville算法对于异常数据修复,当负荷曲线功率相邻点的差值相差较大时,即达到需要修复的值时,分析方法基于拉格朗日插值的Neville算法对曲线X={x1,x2,…,xn}进行插值修复,对数据去噪,最终形成用于负荷预测的样本数据集,具体步骤如下:
对于三个二维点(x0,y0),(x1,y1),(x2,y2),yi=f(xi),i=0,1,2;设(x0,y0),(x1,y1)两个点的拉格朗日线性插值为P0,1(x);(x1,y1),(x2,y2)两个点的拉格朗日线性插值为P1,2(x);则有
P0,1(x)=y0×(x-x1)÷(x0-x1)+y1×(x-x0)÷(x1-x0)
P1,2(x)=y1×(x-x2)÷(x1-x2)+y2×(x-x1)÷(x2-x1)
进而得到f(x)关于节点x0,x1,x2的二次插值多项式
q(x)=P1,2(x)×(x-x0)÷(x2-x0)+P0,1(x)×(x2-x)÷(x2-x0),
其中q(xi)=yi,i=0,1,2。
第一步中,对负荷数据集进行降维的方法如下:
对修复后的负荷数据集使用主成分分析进行降维;
首先应用下式求出样本均值:
式中表示第i个样本的值,n表示样本个数;
其次使用下式计算Xm×n的协方差矩阵:
式中表示第i个样本的值,表示样本均值,Xm×n为所有的组成矩阵,i=1,2……n;
再计算协方差矩阵的特征值和特征向量,其中特征值按照从大到小排列:
λ=(λ12,…,λn),λ1≥λ2…≥λn
式中λ表示特征值,表示特征向量;
最后计算出在每一维的投影:
式中表示第i个样本的值,表示样本均值,表示第k维的特征向量。
第三步中初始聚类中心为:初始聚类中心mi={m1,m2,…,mK},其中K为聚类类簇个数;设yj为第j个数据样本,找出其与mi的最大皮尔逊相关系数rmax并归入其对应的聚类中心所在的类中;设X={x1,x2,…,xn}为待聚类数据集,设类间最大相关系数阈值为θ,聚类数目为K。
初始聚类中心选取具体步骤如下:
(3.1)、计算任意两组数据之间的皮尔逊相关系数,并生成系数矩阵R,将系数最大的两个数据归为一类,并取两个数据的中点作为第一个聚类中心;
(3.2)、根据事先设定的用于聚类中心选择的系数阈值θ,利用系数矩阵R,检测与第一个聚类中心的两组数据的系数都小于θ的所有数据,并在其中选择系数最高的两个数据定为一类,且取两个数据的中点为第二类聚类中心;
(3.3)、在剩下的数据中整理与已经确定的数据的系数都小于θ的数据,并在这些数据中选择系数最高的两个数据定为一类,且取两个数据的中点为新一类聚类中心;
(3.4)、重复第(3.3)步,直至找到K类为止。
第四步完成数据集的并行聚类步骤如下:
(1)Map阶段每获取到一个子数据集数据对象,都计算该数据对象与所有类簇的初始聚类中心之间的皮尔逊相关系数r,将该数据对象划分到与其相关性系数最大的聚类中心所代表的类中,然后将该类的标签作为key值,将数据对象作为value值,形成<key,value>键值对输出;
(2)Reduce阶段的输入数据为<key,list(value)>,其中key值是类标签,list(value)是属于同一类的数据对象的集合列表,通过如下公式计算同一类中所有数据对象属性值的均值,将其作为新的聚类中心,并输出;
式中,n表示数据对象的个数;
(3)Reduce阶段得到的新的聚类中心与原聚类中心进行比较,由以下方法判断是否聚类算法已经收敛:
设t为迭代次数,按下式计算Y中所有样本的系数误差偏移量J(t),并与前一次系数误差偏移量J(t-1)比较:
式中:N为样本数据总个数;r为系数误差偏移系数;NQ≥r为样本数据各类别中Q≥r的样本总数;
(4)若J(t)-J(t-1)<ε,即J(t)趋于稳定,则算法结束,运行一个没有Reduce的任务将聚类结果输出,并结束程序,输出最终K个簇的相应信息;否则将清空原聚类中心的数据文件,将Reduce的输出结果写到中心文件中,作为下次迭代时的聚类中心,转第(1)步重复迭代。
皮尔逊相关系数r的计算公式为:
式中为x的均值,为y的均值;
X的离均差平方和LXX为:
式中,n为变量个数;
Y的离均差平方和LYY为:
式中,n为变量个数。
皮尔逊相关系数绝对值的判断标准:
基于皮尔逊系数与MapReduce并行计算的电网尖峰负荷聚类提取系统,其特征在于:
该系统包括修复降维模块、子数据集形成模块、初始聚类中心选取模块和数据集并行聚类模块;
修复降维模块对负荷数据集进行数据清理以及异常数据修复,然后对负荷数据集进行降维;
子数据集形成模块将修复降维模块降维后的数据集按行存储在Hadoop分布式文件系统中,并将数据集分成各个切片形成子数据集;
初始聚类中心选取模块利用MapReduce计算架构读取子数据集形成模块中的每一个切片子数据集,通过并行模型利用皮尔逊相关系数作为相似性判据选取初始聚类中心;
数据集并行聚类模块将聚类计算任务分配给MapReduce中的Map任务节点,结合第三步中的初始聚类中心,完成数据集的并行聚类。
优点效果:
本发明的有益效果是:
(1)、采用皮尔逊系数作为相似性判据。传统聚类算法使用欧氏距离作为相关性判据,但在对于变量间取值范围不同时使用欧氏距离的运算结果误差较大、极易受噪声和尖峰值影响,且其不适用于曲线轮廓的聚类。而皮尔逊系数对于变量的取值范围没有要求,可在计算中消除不同变量在量纲上的差别,即本发明所提算法能够适应任何维度的负荷数据,兼顾了运算速度的前提下聚类效果稳定良好。
(2)、采用Hadoop平台下的MapReduce并行框架进行运算。当算法需要处理的数据量变大时,遍历每一个数据对象计算其与各类簇聚类中心之间距离或相似性的时间也随之激增。而本发明所提算法可以将庞大的数据集计算任务分摊到多个计算机上,几何式减少算法的运算时间,显著提升算法运算效率,为后续精确地功率预测奠定基础。
(3)、初始聚类中心的选择采用系数矩阵及设定系数阈值方法,以数据点和已确定数据点的相关系数进行比较,避免了传统方法中将聚类中心与全部数据点进行比较,大幅度减少了所需运算量,且精度比传统随机性选择方法要高。
(4)、首次提出适用于一切负荷包括电网最高峰处负荷数据聚类分析的聚类算法。如今储热、大电机等的应用使电网数据越发复杂、难以预测,故而聚类算法也应充分考虑需求侧响应,以适应瞬息万变的电力系统大数据。传统使用欧氏距离作为相似性判据的聚类分析方法,虽然在曲线平缓出聚类效果良好,但对于短时间内负荷波动较大的曲线如尖峰处曲线的分析结果聚类效果差,且运算速度快、效率低。而本方法采用皮尔逊相关系数判别相似性,可适用于任何维度数据,甚至在高维数据中表现更好,解决了无法有效识别相似性、尖峰处聚类效果差的问题;此外,本方法采用MapReduce框架并行运算提高了运算速度和效率,在保证了聚类效果的前提下充分兼顾了运算效率。本方法从需求侧出发,对负荷曲线中的以往无法解决的尖峰处负荷聚类分析给予关注,并解决了以上问题。
综上所述,本发明首次将皮尔逊系数与MapReduce运算架构结合起来,得到一种运算效率高且普适性强的聚类算法,该算法适用于任何维度的数据集,且不易受噪声影响,稳定性高,同时结合了分布式MapReduce框架运算效率高的优点,更加适应越来越蓬勃发展信息时代衍生的电力负荷大数据处理。
附图说明
图1为MRI-PCC算法总体流程图;
图2为MapReduce运算流程图;
图3为不同数据集多节点对比试验图;
图4为加速比结果图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好的理解本发明。
为实现上述发明目的,本发明一种基于皮尔逊系数与MapReduce并行计算的电网尖峰负荷聚类提取算法,其特征在于,包括以下步骤:
数据采集和预处理:
通过收集历史数据,对所收集数据进行预处理,清理异常数据,考虑到负荷功率的暴增或者骤降情况,当负荷曲线功率相邻点的差值相差较大时,利用基于Lagrange插值的Neville算法对曲线X={x1,x2,…,xn}进行插值修复,对数据去噪,最终形成可以用于负荷预测的样本数据集;
对数据集使用主成分分析进行降维。首先应用下式求出样本均值:
式中表示第i个样本的值,n表示样本个数。
其次使用下式计算Xm×n的协方差矩阵:
式中表示第i个样本的值,表示样本均值。
再计算协方差矩阵的特征值和特征向量,其中特征值按照从大到小排列:
λ=(λ12,…,λn),λ1≥λ2…≥λn
式中λ表示特征值,表示特征向量。
最后计算出在每一维的投影:
式中表示第i个样本的值,表示样本均值,表示第k维的特征向量。
于是得到一个降维的投影矩阵,该投影矩阵就是该样本空间的主成分并且按照主成分从大到小排列。
由初始聚类中心选取规则得到初始聚类中心mi={m1,m2,…,mK},其中K为聚类类簇个数。设yj为第j个数据样本,找出其与mi的最大皮尔逊相关系数rmax并归入其对应的聚类中心所在的类中。设X={x1,x2,…,xn}为待聚类数据集,设类间最大相关系数阈值为θ,聚类数目为K,初始聚类中心选取步骤如下:
(1)计算任意两组数据之间的皮尔逊相关系数,并生成系数矩阵R,将系数最大的两个数据归为一类,并取两个数据的中点作为第一个聚类中心。
(2)根据事先设定的用于聚类中心选择的系数阈值θ,利用系数矩阵R,检测与第一个聚类中心的两组数据的系数都小于θ的所有数据,并在其中选择系数最高的两个数据定为一类,且取两个数据的中点为第二类聚类中心。
(3)同理,在剩下的数据中整理与已经确定的数据的系数都小于θ的数据,并在这些数据中选择系数最高的两个数据定为一类,且取两个数据的中点为新一类聚类中心。
(4)重复第三步,直至找到K类为止。
皮尔逊相关也称为积差相关,它以两变量间的离均差积和与离均差平方和为算术基础进行计算。皮尔逊相关系数r的计算公式为:
式中为x的均值,为y的均值;
X的离均差平方和LXX为:
式中,n为变量个数;
Y的离均差平方和LYY为:
式中,n为变量个数。
表1皮尔逊相关系数的判断标准
将降维后数据集按行存储在Hadoop分布式文件系统中,并将数据集分成各个切片形成子数据集,之后MapReduce计算架构读取每一个切片数据完成数据集的聚类任务。
并行K-means的MapReduce计算任务具体执行步骤如下:
(1)对存储在分布式文件系统中的智能用电数据集进行初始化操作,Map阶段每当获取到一个数据对象,计算其与所有类别的聚类中心之间的皮尔逊相关系数r,将数据对象划分到与其系数最大的聚类中心所代表的类中,然后将该类的标签作为key值,将数据对象作为value值,形成<key,value>键值对输出。
(2)reduce阶段的输入数据为<key,list(value)>,其中key值是类标签,list(value)是属于同一类的数据对象的集合列表,通过如下公式计算同一类中所有数据对象属性值的均值,将其作为新的聚类中心,并输出;
式中,n表示数据对象的个数。
(3)reduce得到的新的聚类中心与原聚类中心进行比较,由以下方法判断是否聚类算法已经收敛:
设t为迭代次数,按下式计算Y中所有样本的系数误差偏移量J(t),并与前一次系数误差偏移量J(t-1)比较:
式中:N为样本数据总个数;r为系数误差偏移系数;NQ≥r为样本数据各类别中Q≥r的样本总数。
(4)若J(t)-J(t-1)<ε,即J(t)趋于稳定,则算法结束,运行一个没有reduce的任务将聚类结果输出,并结束程序,输出最终K个簇的相应信息;否则将清空原聚类中心的数据文件,将reduce的输出结果写到中心文件中,作为下次迭代时的聚类中心,转第一步重复迭代。
引入DBI聚类有效性指标对聚类结果进行效果评价,其计算公式如下:
式中:K为聚类数目;d(Xk)和d(Xj)为矩阵内部距离;d(ck,cj)为向量间的距离。IDBI越小则表明聚类结果越好。
图1为MRI-PCC算法总体流程图。
首先对数据进行预处理,包括清理异常数据,修复错误数据,对数据去噪,最终形成可以用于负荷预测的样本数据集。然后使用主成分分析方法进行降维,目的是用尽可能低维数的负荷曲线代替原来的负荷曲线,并保证原负荷曲线不会因降维而失真过多。并应用系数矩阵及系数阈值选定初始聚类中心,其原理为:事先设定一个初始相关系数阈值,使得到的初始聚类中心之间的相关系数尽量小于该阈值,即各初始聚类中心之间的相关性尽可能小,可以使原本随机生成的初始聚类中心变成有目的性的选取,提高算法精确性。Map阶段每获取到一个数据对象,都计算其与所有类簇的初始聚类中心之间的皮尔逊相关系数r,将数据对象划分到与其相关性系数最大的聚类中心所代表的类中,然后将该类的标签作为key值,将数据对象作为value值,形成<key,value>键值对输出。在Reduce阶段计算出新的聚类中心并进行收敛判断,若聚类结果不收敛则替代原有的聚类中心回到Map阶段,继续在Reduce阶段更新聚类中心,不断迭代,直到聚类中心达成收敛条件,则流程结束,输出聚类结果。
图2为MapReduce并行数据挖掘流程。
该流程图详细阐述了MapReduce框架的流程,即首先将数据集分成若干个晓得数据单元,即数据块,然后分别进入Map阶段进行并行运算,通过Map函数计算Value中特征向量与K个初始聚类中心的皮尔逊系数,找出系数最大的对应簇的簇号,进而得到键值对<Key,Value>。定义分区函数,将键值对信息按照Key值进行分区,划分成r个不同的分区,将每一个分区送到相应的Reduce函数。Reduce函数将每个分区中具有相同Key值的信息进行最后的合并、更新每个簇的聚类中心。最后,进行收敛判断,不断迭代,直到聚类中心达成收敛条件,输出最终的K个簇的信息,流程结束。
基于皮尔逊系数与MapReduce并行计算的电网尖峰负荷聚类提取系统,其特征在于:
该系统包括修复降维模块、子数据集形成模块、初始聚类中心选取模块和数据集并行聚类模块;
修复降维模块对负荷数据集进行数据清理以及异常数据修复,然后对负荷数据集进行降维;
子数据集形成模块将修复降维模块降维后的数据集按行存储在Hadoop分布式文件系统中,并将数据集分成各个切片形成子数据集;
初始聚类中心选取模块利用MapReduce计算架构读取子数据集形成模块中的每一个切片子数据集,通过并行模型利用皮尔逊相关系数作为相似性判据选取初始聚类中心;
数据集并行聚类模块将聚类计算任务分配给MapReduce中的Map任务节点,结合第三步中的初始聚类中心,完成数据集的并行聚类。
以下分别从运算速度及运算结果准确性两个方面对本文提出的基于皮尔逊系数与MapReduce并行计算的聚类提取法进行验证。
1.速度验证
当前用户端数据监测是15min一次,一天监测96次。选取不同数量级的数据进行实验,测试其处理效率。实验数据来源:辽宁电网用户2016年的电力负荷情况。
实验一:单机与Hadoop集群数据处理对比实验。实验选用实验数据量分别为23030条,34340条,45860条。实验结果如表1。
表1单机与集群数据处理对比表
由实验结果可以发现,当数据量为23040条时,数据处理时间差别不大,但是随着数据量的进一步提升,Hadoop平台的数据处理效率远高于单机处理模式,当数据量不是很大时,Hadoop平台中MapReduce任务启动需要耗费一定量的时间,数据实际处理时间占平台初始化时间的比例不是很大,而当数据量达到一定的规模后,集群带来的优势性才能展现出来。由实验一结果可以看出,集群在处理大数据的优势非常明显,但是只使用一个节点的集群也不能明显展现其处理效率。以下将通过实验二探究在Map阶段选取不同节点数的数据处理效率。
实验二:分别使用1个,2个,3个,4个,5个节点进行对比实验,数据量分别采用45860条,103250条,160640条。将数据量提升至十万条以上,查看数据处理效率情况,结果如表2。
表2集群节点对比实验
通过以上多组对比实验发现,当使用45860条数据在4个,5个节点上进行数据处理时效率有了较大的提升。当将数据量提升到103250条和160640条,同时比较不同节点下的数据处理效率发现,节点数愈多,数据处理效率愈巨幅提升。可以看出在多个节点下处理大规模数据,集群优势得到了体现,但是节点较少时,却提升的并不是很明显,通过分析发现主要原因如下:
(1)Hadoop任务启动和交互占用了时间。一次数据处理任务需要通过Map函数输出数据写入磁盘和Reduce函数读取磁盘数据的过程,当电力负荷数据规模越来越大的时间,任务启动和交互占用的时间会越来越多,在节点很少时,很难展现出集群的优势。
(2)网络传输速率影响处理效率。Reduce函数在进行数据读取时有时需要从多个Map函数中读取,这依赖与网络传输速率。所以当集群节点数增加时,平台的并行处理优势就能得到体现,将上述结果表格转化为如图3效果更明显。
实验三:利用加速比概念展现集群性能。如果说单纯的从由时间长短展现的效率图还是无法体现集群的性能的话,这里引入一个加速比的概念其中,Xn是加速比,t1是单节点下数据处理时间,tn是集群n个节点数据处理时间。分别由此计算出各个节点的加速比如表3。
表3加速比
加速比折线图如图4。
通过对比实验得出结论,在大规模数据处理时,使用MapReduce并行处理加速比单节点效率高。同时集群中节点数越多,处理效率越高。在同一个数据集下,节点数越多,集群优势越能体现。
2.准确性验证
使用准确率(Precision)、召回率(Recall)以及F值三个指标衡量聚类的效果,具体公式如下:
式中:|Ai∩Bi|表示聚类类别Ai中包含对应人工类别Bi的文本个数;|Ai|表示聚类类别Ai包含的样本个数,|Bi|表示人工类别Bi包含的样本个数。
实验结果分析为了验证本文算法的有效性,实验数据集采用均匀分布样本,分别与K-means算法、K-medoids算法、KNN算法进行实验对比。经过多次实验验证,实验结果如表4所示,根据表4的实验对比结果。本文提出的基于皮尔逊系数与MapReduce并行计算的聚类提取法相较于K-means算法的准确率最高提高了30.0%,召回率最好提高了26.2%;相较于K-medoids算法的准确率最高提高了12.3%,召回率最好提高了8.5%,F值平均提高了6.51%,表明本文提出的算法能较准确地聚类。相对于KNN算法,本文提出的基于皮尔逊系数与MapReduce并行计算的聚类提取法的准确率最高提高了2.79%,召回率最好提高了3%,F值平均提高了1.57%。
表3实验对比结果
本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
综上,为了更加充分反映曲线相似性,综合考虑前人发明的聚类算法的优缺点,本文提出一种基于皮尔逊相关系数且结合Hadoop平台下的Map Reduce并行框架的负荷曲线聚类算法。聚类过程中,首先对负荷数据进行数据清理以及去噪处理,选择合适的降维算法进行降维,再利用皮尔逊系数矩阵R及系数阈值选定初始聚类中心,并在分布式MapReduce计算架构中以皮尔逊相关系数作为相似性判据对负荷曲线进行聚类分析。与传统聚类算法进行对比的结果表明,该算法运行效率高、鲁棒性强,能够得到较好的聚类结果。

Claims (9)

1.基于皮尔逊系数与MapReduce并行计算的电网尖峰负荷聚类提取法,其特征在于:
该方法步骤如下:
第一步:对负荷数据集进行数据清理以及异常数据修复,然后对负荷数据集进行降维;
第二步:将降维后数据集按行存储在Hadoop分布式文件系统中,并将数据集分成各个切片形成子数据集;
第三步:利用MapReduce计算架构读取第二步中的每一个切片子数据集,通过并行模型利用皮尔逊相关系数作为相似性判据选取初始聚类中心;
第四步:再将聚类计算任务分配给MapReduce中的Map任务节点,结合第三步中的初始聚类中心,完成数据集的并行聚类。
2.根据权利要求1所述的基于皮尔逊系数与MapReduce并行计算的电网尖峰负荷聚类提取法,其特征在于:
第一步中,对负荷数据集进行数据清理以及异常数据修复方式为:利用基于拉格朗日插值的Neville算法对于异常数据修复,利用基于拉格朗日插值的Neville算法对曲线X={x1,x2,…,xn}进行插值修复,对数据去噪,最终形成用于负荷预测的样本数据集,具体步骤如下:
对于三个二维点(x0,y0),(x1,y1),(x2,y2),yi=f(xi),i=0,1,2;设(x0,y0),(x1,y1)两个点的拉格朗日线性插值为P0,1(x);(x1,y1),(x2,y2)两个点的拉格朗日线性插值为P1,2(x);则有
P0,1(x)=y0×(x-x1)÷(x0-x1)+y1×(x-x0)÷(x1-x0)
P1,2(x)=y1×(x-x2)÷(x1-x2)+y2×(x-x1)÷(x2-x1)
进而得到f(x)关于节点x0,x1,x2的二次插值多项式
q(x)=P1,2(x)×(x-x0)÷(x2-x0)+P0,1(x)×(x2-x)÷(x2-x0),
其中q(xi)=yi,i=0,1,2。
3.根据权利要求1所述的基于皮尔逊系数与MapReduce并行计算的电网尖峰负荷聚类提取法,其特征在于:
第一步中,对负荷数据集进行降维的方法如下:
对修复后的负荷数据集使用主成分分析进行降维;
首先应用下式求出样本均值:
式中表示第i个样本的值,n表示样本个数;
其次使用下式计算Xm×n的协方差矩阵:
式中表示第i个样本的值,表示样本均值,Xm×n为所有的组成矩阵,i=1,2……n;
再计算协方差矩阵的特征值和特征向量,其中特征值按照从大到小排列:
λ=(λ12,…,λn),λ1≥λ2…≥λn
式中λ表示特征值,表示特征向量;
最后计算出在每一维的投影:
式中表示第i个样本的值,表示样本均值,表示第k维的特征向量。
4.根据权利要求2所述的基于皮尔逊系数与MapReduce并行计算的电网尖峰负荷聚类提取法,其特征在于:
第三步中初始聚类中心为:初始聚类中心mi={m1,m2,…,mK},其中K为聚类类簇个数;设yj为第j个数据样本,找出其与mi的最大皮尔逊相关系数rmax并归入其对应的聚类中心所在的类中;设X={x1,x2,…,xn}为待聚类数据集,设类间最大相关系数阈值为θ,聚类数目为K。
5.根据权利要求4所述的基于皮尔逊系数与MapReduce并行计算的电网尖峰负荷聚类提取法,其特征在于:
初始聚类中心选取具体步骤如下:
(3.1)、计算任意两组数据之间的皮尔逊相关系数,并生成系数矩阵R,将系数最大的两个数据归为一类,并取两个数据的中点作为第一个聚类中心;
(3.2)、根据事先设定的用于聚类中心选择的系数阈值θ,利用系数矩阵R,检测与第一个聚类中心的两组数据的系数都小于θ的所有数据,并在其中选择系数最高的两个数据定为一类,且取两个数据的中点为第二类聚类中心;
(3.3)、在剩下的数据中整理与已经确定的数据的系数都小于θ的数据,并在这些数据中选择系数最高的两个数据定为一类,且取两个数据的中点为新一类聚类中心;
(3.4)、重复第(3.3)步,直至找到K类为止。
6.根据权利要求2所述的基于皮尔逊系数与MapReduce并行计算的电网尖峰负荷聚类提取法,其特征在于:
第四步完成数据集的并行聚类步骤如下:
(1)Map阶段每获取到一个子数据集数据对象,都计算该数据对象与所有类簇的初始聚类中心之间的皮尔逊相关系数r,将该数据对象划分到与其相关性系数最大的聚类中心所代表的类中,然后将该类的标签作为key值,将数据对象作为value值,形成<key,value>键值对输出;
(2)Reduce阶段的输入数据为<key,list(value)>,其中key值是类标签,list(value)是属于同一类的数据对象的集合列表,通过如下公式计算同一类中所有数据对象属性值的均值,将其作为新的聚类中心,并输出;
式中,n表示数据对象的个数;
(3)Reduce阶段得到的新的聚类中心与原聚类中心进行比较,由以下方法判断是否聚类算法已经收敛:
设t为迭代次数,按下式计算Y中所有样本的系数误差偏移量J(t),并与前一次系数误差偏移量J(t-1)比较:
式中:N为样本数据总个数;r为系数误差偏移系数;NQ≥r为样本数据各类别中Q≥r的样本总数;
(4)若J(t)-J(t-1)<ε,即J(t)趋于稳定,则算法结束,运行一个没有Reduce的任务将聚类结果输出,并结束程序,输出最终K个簇的相应信息;否则将清空原聚类中心的数据文件,将Reduce的输出结果写到中心文件中,作为下次迭代时的聚类中心,转第(1)步重复迭代。
7.根据权利要求5或6所述的基于皮尔逊系数与MapReduce并行计算的电网尖峰负荷聚类提取法,其特征在于:
皮尔逊相关系数r的计算公式为:
式中为x的均值,为y的均值;
X的离均差平方和LXX为:
式中,n为变量个数;
Y的离均差平方和LYY为:
式中,n为变量个数。
8.根据权利要求7所述的基于皮尔逊系数与MapReduce并行计算的电网尖峰负荷聚类提取法,其特征在于:
皮尔逊相关系数绝对值的判断标准:
9.基于皮尔逊系数与MapReduce并行计算的电网尖峰负荷聚类提取系统,其特征在于:
该系统包括修复降维模块、子数据集形成模块、初始聚类中心选取模块和数据集并行聚类模块;
修复降维模块对负荷数据集进行数据清理以及异常数据修复,然后对负荷数据集进行降维;
子数据集形成模块将修复降维模块降维后的数据集按行存储在Hadoop分布式文件系统中,并将数据集分成各个切片形成子数据集;
初始聚类中心选取模块利用MapReduce计算架构读取子数据集形成模块中的每一个切片子数据集,通过并行模型利用皮尔逊相关系数作为相似性判据选取初始聚类中心;
数据集并行聚类模块将聚类计算任务分配给MapReduce中的Map任务节点,结合第三步中的初始聚类中心,完成数据集的并行聚类。
CN201910303202.6A 2019-04-16 2019-04-16 基于皮尔逊系数与MapReduce并行计算的电网尖峰负荷聚类提取法 Pending CN110069467A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910303202.6A CN110069467A (zh) 2019-04-16 2019-04-16 基于皮尔逊系数与MapReduce并行计算的电网尖峰负荷聚类提取法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910303202.6A CN110069467A (zh) 2019-04-16 2019-04-16 基于皮尔逊系数与MapReduce并行计算的电网尖峰负荷聚类提取法

Publications (1)

Publication Number Publication Date
CN110069467A true CN110069467A (zh) 2019-07-30

Family

ID=67367784

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910303202.6A Pending CN110069467A (zh) 2019-04-16 2019-04-16 基于皮尔逊系数与MapReduce并行计算的电网尖峰负荷聚类提取法

Country Status (1)

Country Link
CN (1) CN110069467A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110718908A (zh) * 2019-09-29 2020-01-21 肖家锴 基于层次聚类法的配电网拓扑结构识别方法及系统
CN110796173A (zh) * 2019-09-27 2020-02-14 昆明电力交易中心有限责任公司 一种基于改进kmeans的负荷曲线形态聚类算法
CN110825723A (zh) * 2019-10-09 2020-02-21 上海电力大学 一种基于用电负荷分析的居民用户分类方法
CN110889431A (zh) * 2019-10-28 2020-03-17 杭州电子科技大学 基于K-Means算法改进的高频职业技能生命曲线聚类方法
CN111898857A (zh) * 2020-04-07 2020-11-06 沈阳工业大学 基于BEMD和kmeans电力用户特征分析方法及系统
CN111915449A (zh) * 2020-04-07 2020-11-10 沈阳工业大学 基于vmd与omp的电力负荷数据降维重构处理方法
CN112215490A (zh) * 2020-10-12 2021-01-12 国网重庆市电力公司电力科学研究院 一种基于相关性系数改进K-means的电力负荷聚类分析方法
CN112215287A (zh) * 2020-10-13 2021-01-12 中国光大银行股份有限公司 基于距离的多节聚类方法和装置、存储介质及电子装置
CN113128617A (zh) * 2021-05-08 2021-07-16 江西理工大学 基于Spark和ASPSO的并行化K-means的优化方法
CN115438035A (zh) * 2022-10-27 2022-12-06 江西师范大学 一种基于kpca和混合相似度的数据异常处理方法
CN116226468A (zh) * 2023-05-06 2023-06-06 北京国旺盛源智能终端科技有限公司 基于网格化终端业务数据存储管理方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063480A (zh) * 2014-07-02 2014-09-24 国家电网公司 一种基于电力大数据的负荷曲线并行聚类方法
CN106709869A (zh) * 2016-12-25 2017-05-24 北京工业大学 一种深度皮尔逊嵌入的维数约简方法
CN107291847A (zh) * 2017-06-02 2017-10-24 东北大学 一种基于MapReduce的大规模数据分布式聚类处理方法
CN107832876A (zh) * 2017-10-27 2018-03-23 国网江苏省电力公司南通供电公司 基于MapReduce框架的分区最大负荷预测方法
CN108898154A (zh) * 2018-09-29 2018-11-27 华北电力大学 一种电力负荷som-fcm分层聚类方法
CN108921324A (zh) * 2018-06-05 2018-11-30 国网江苏省电力有限公司南通供电分公司 基于配变聚类的台区短期负荷预测方法
CN109034244A (zh) * 2018-07-27 2018-12-18 国家电网有限公司 基于电量曲线特征模型的线损异常诊断方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063480A (zh) * 2014-07-02 2014-09-24 国家电网公司 一种基于电力大数据的负荷曲线并行聚类方法
CN106709869A (zh) * 2016-12-25 2017-05-24 北京工业大学 一种深度皮尔逊嵌入的维数约简方法
CN107291847A (zh) * 2017-06-02 2017-10-24 东北大学 一种基于MapReduce的大规模数据分布式聚类处理方法
CN107832876A (zh) * 2017-10-27 2018-03-23 国网江苏省电力公司南通供电公司 基于MapReduce框架的分区最大负荷预测方法
CN108921324A (zh) * 2018-06-05 2018-11-30 国网江苏省电力有限公司南通供电分公司 基于配变聚类的台区短期负荷预测方法
CN109034244A (zh) * 2018-07-27 2018-12-18 国家电网有限公司 基于电量曲线特征模型的线损异常诊断方法及装置
CN108898154A (zh) * 2018-09-29 2018-11-27 华北电力大学 一种电力负荷som-fcm分层聚类方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
周文全,杨天奇: "基于Neville型插值的过程神经网络", 《计算机工程与设计》 *
张承畅等: "基于云计算和改进K-means算法的海量用电数据分析方法", 《计算机应用》 *
李远博,曹菡: "基于PCA降维的协同过滤推荐算法", 《计算机技术与发展》 *
王星华等: "一种基于Pearson相关系数的电力用户负荷曲线聚类算法", 《黑龙江电力》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110796173A (zh) * 2019-09-27 2020-02-14 昆明电力交易中心有限责任公司 一种基于改进kmeans的负荷曲线形态聚类算法
CN110796173B (zh) * 2019-09-27 2023-05-16 昆明电力交易中心有限责任公司 一种基于改进kmeans的负荷曲线形态聚类算法
CN110718908A (zh) * 2019-09-29 2020-01-21 肖家锴 基于层次聚类法的配电网拓扑结构识别方法及系统
CN110718908B (zh) * 2019-09-29 2024-05-03 中科合创科技实业(深圳)有限公司 基于层次聚类法的配电网拓扑结构识别方法及系统
CN110825723B (zh) * 2019-10-09 2023-04-25 上海电力大学 一种基于用电负荷分析的居民用户分类方法
CN110825723A (zh) * 2019-10-09 2020-02-21 上海电力大学 一种基于用电负荷分析的居民用户分类方法
CN110889431A (zh) * 2019-10-28 2020-03-17 杭州电子科技大学 基于K-Means算法改进的高频职业技能生命曲线聚类方法
CN111898857A (zh) * 2020-04-07 2020-11-06 沈阳工业大学 基于BEMD和kmeans电力用户特征分析方法及系统
CN111915449B (zh) * 2020-04-07 2024-03-19 沈阳工业大学 基于vmd与omp的电力负荷数据降维重构处理方法
CN111915449A (zh) * 2020-04-07 2020-11-10 沈阳工业大学 基于vmd与omp的电力负荷数据降维重构处理方法
CN112215490A (zh) * 2020-10-12 2021-01-12 国网重庆市电力公司电力科学研究院 一种基于相关性系数改进K-means的电力负荷聚类分析方法
CN112215287A (zh) * 2020-10-13 2021-01-12 中国光大银行股份有限公司 基于距离的多节聚类方法和装置、存储介质及电子装置
CN112215287B (zh) * 2020-10-13 2024-04-12 中国光大银行股份有限公司 基于距离的多节聚类方法和装置、存储介质及电子装置
CN113128617A (zh) * 2021-05-08 2021-07-16 江西理工大学 基于Spark和ASPSO的并行化K-means的优化方法
CN113128617B (zh) * 2021-05-08 2022-04-15 江西理工大学 基于Spark和ASPSO的并行化K-means的优化方法
CN115438035A (zh) * 2022-10-27 2022-12-06 江西师范大学 一种基于kpca和混合相似度的数据异常处理方法
CN116226468A (zh) * 2023-05-06 2023-06-06 北京国旺盛源智能终端科技有限公司 基于网格化终端业务数据存储管理方法

Similar Documents

Publication Publication Date Title
CN110069467A (zh) 基于皮尔逊系数与MapReduce并行计算的电网尖峰负荷聚类提取法
Bu et al. Continuous dynamic constrained optimization with ensemble of locating and tracking feasible regions strategies
CN112561156A (zh) 基于用户负荷模式分类的短期电力负荷预测方法
Park et al. Explainability of machine learning models for bankruptcy prediction
CN113256066A (zh) 基于PCA-XGBoost-IRF的作业车间实时调度方法
CN111324642A (zh) 一种面向电网大数据分析的模型算法选型与评价方法
CN110147321A (zh) 一种基于软件网络的缺陷高风险模块的识别方法
CN109902953A (zh) 一种基于自适应粒子群聚类的电力用户分类方法
CN106022614A (zh) 一种基于最近邻聚类的神经网络数据挖掘方法
CN108241900A (zh) 工程项目建设周期预测方法、装置和系统
CN111339167A (zh) 基于K-means和主成分线性回归的台区线损率影响因素分析方法
CN114219216A (zh) 一种电力系统的运行调度方法、系统、装置及介质
CN114546797A (zh) 基于时序分解的云虚拟机老化预测方法
Wang et al. Partition cost-sensitive CART based on customer value for Telecom customer churn prediction
CN114064746A (zh) 一种信息设备运行状态评估方法
CN111461565A (zh) 一种电力调控下的电源侧发电性能评估方法
CN117094478B (zh) 能量调度管理方法、装置、设备及存储介质
CN112418987B (zh) 交通运输单位信用评级方法、系统、电子设备及存储介质
CN107274025B (zh) 一种实现用电模式智能识别与管理的系统和方法
Li et al. An efficient noise-filtered ensemble model for customer churn analysis in aviation industry
CN109840536A (zh) 一种电网供电可靠性水平聚类方法及系统
Li et al. Optimizing combination of aircraft maintenance tasks by adaptive genetic algorithm based on cluster search
CN107423759A (zh) 低维逐次投影寻踪聚类模型综合评价方法、装置及应用
Li Research on data mining technology based on machine learning algorithm
WO1992017853A2 (en) Direct data base analysis, forecasting and diagnosis method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190730

RJ01 Rejection of invention patent application after publication