CN110069467A

CN110069467A - 基于皮尔逊系数与MapReduce并行计算的电网尖峰负荷聚类提取法

Info

Publication number: CN110069467A
Application number: CN201910303202.6A
Authority: CN
Inventors: 崔嘉; 刘思彤; 杨俊友; 葛维春; 张宇献; 于仁哲; 刘云飞; 郭海宇
Original assignee: Shenyang University of Technology
Current assignee: Shenyang University of Technology
Priority date: 2019-04-16
Filing date: 2019-04-16
Publication date: 2019-07-30

Abstract

基于皮尔逊系数与MapReduce并行计算的电网尖峰负荷聚类提取法，该方法步骤如下：第一步：对负荷数据集进行数据清理以及异常数据修复，然后对负荷数据集进行降维；第二步：将降维后数据集按行存储在Hadoop分布式文件系统中，并将数据集分成各个切片形成子数据集；第三步：利用MapReduce计算架构读取第二步中的每一个切片子数据集，通过并行模型利用皮尔逊相关系数作为相似性判据选取初始聚类中心；第四步：再将聚类计算任务分配给MapReduce中的Map任务节点，结合第三步中的初始聚类中心，完成数据集的并行聚类。本发明更加适应越来越蓬勃发展信息时代衍生的电力负荷大数据处理。

Description

基于皮尔逊系数与MapReduce并行计算的电网尖峰负荷聚类提取法

技术领域

本发明涉及一种基于Map Reduce并行框架的大数据聚类算法，尤其适用于运算复杂的大规模电网尖峰时段负荷数据集。

背景技术

随着智能电网、储能等的蓬勃发展，海量电力数据源源不断的产生于电网的运行、维护以及管理等各个环节中，其中需求侧大数据占比很重。智能电网的规划和运行需要良好的数据基础，因而基于需求侧响应的大数据处理、负荷提取与预测亟待研究。在需求侧大数据中，包含高维海量的用户日/月负荷曲线，通过对这些电力消费信息数据进行精准的分析研究并获取相应负荷模式，可以为电网公司的决策提供重要依据。

在数据挖掘过程中，聚类分析作为基础性步骤起到至关重要的作用，已被广泛应用。在商业领域,通过对数据的聚类结果进行分析管理者能够对客户进行分类，将庞大的客户群体划分为不同消费群体制定相应的营销策略。在生物学中,聚类可用于基因和蛋白质的分类,获得分类群中固定结构的知识。同样聚类在地理学等领域中的应用也不可忽视。聚类分析可以作为一个独立的工具来获取数据分布,观察每个簇的特征,并进一步分析某些特定的节点。另外,聚类也可以用作其他方法的预处理步骤，聚类是将数据集按照不同的数据特征划分为若干组或簇的过程,在划分过程中最大化同一类的数据对象之间的相似性，尽量降低两类数据之间的相似度。

现今的聚类算法主要分为基于划分的聚类算法、基于层次的聚类算法、基于模型的聚类算法、基于密度的聚类算法以及基于网格的聚类算法几类。以上方法是针对不同领域中数据处理需求而产生的，具有自身特点的同时也往往存在一些缺点。划分聚类的算法参数K由于需要人为输入，具有很大的主观性，常陷入局部最优；层次聚类算法则因为分段环节的灵活性极差，聚类结果模式过于固定；基于模型的聚类算法、基于密度的聚类算法只适合少量数据的聚类处理，而面对海量数据时处理能力较弱；基于网格的聚类算法的网格划分参数具有很强的不确定性，直接影响算法的计算复杂度，其随机性致使操作者在聚类过程中难以找到之前尝试出的合理划分参数，即使在对数据分布有一定了解的情况下这一环节仍然存在一定难度。

此外，近年来的算法研究均以欧氏距离作为聚类的相似性判据。但以欧式距离作为相似性判据易受噪声和尖峰值影响，且欧式距离反映的是曲线间距离，而负荷曲线聚类更侧重于曲线轮廓的聚类。

发明内容

发明目的：

本发明在于克服传统聚类技术的缺陷，提出一种基于皮尔逊相关系数且结合Hadoop平台下的Map Reduce并行框架的负荷曲线聚类算法，其目的为解决以往的聚类算法面对高维复杂曲线中所存在的聚类效果差、运算速度慢的问题。

该方法是一种基于皮尔逊相关系数且结合Hadoop平台下的Map Reduce并行框架的负荷曲线聚类算法。聚类过程中，首先，对负荷数据进行数据清理以及异常数据修复，选择合适的降维算法进行降维；其次，将降维后数据集按行存储在Hadoop分布式文件系统中，并将数据集分成各个切片形成子数据集；再次，MapReduce计算架构读取每一个切片数据，通过并行模型利用皮尔逊相关系数作为相似性判据选取初始聚类中心，最后，将计算任务分配给Map任务节点，完成数据集的并行聚类。

技术方案：

基于皮尔逊系数与MapReduce并行计算的电网尖峰负荷聚类提取法，其特征在于：

该方法步骤如下：

第一步：对负荷数据集进行数据清理以及异常数据修复，然后对负荷数据集进行降维；

第二步：将降维后数据集按行存储在Hadoop分布式文件系统中，并将数据集分成各个切片形成子数据集；

第三步：利用MapReduce计算架构读取第二步中的每一个切片子数据集，通过并行模型利用皮尔逊相关系数作为相似性判据选取初始聚类中心；

第四步：再将聚类计算任务分配给MapReduce中的Map任务节点，结合第三步中的初始聚类中心，完成数据集的并行聚类。

第一步中，对负荷数据集进行数据清理以及异常数据修复方式为：利用基于拉格朗日插值的Neville算法对于异常数据修复，当负荷曲线功率相邻点的差值相差较大时，即达到需要修复的值时，分析方法基于拉格朗日插值的Neville算法对曲线X＝{x₁,x₂,…,x_n}进行插值修复，对数据去噪，最终形成用于负荷预测的样本数据集，具体步骤如下：

对于三个二维点(x₀,y₀)，(x₁,y₁)，(x₂,y₂)，y_i＝f(x_i),i＝0,1,2；设(x₀,y₀)，(x₁,y₁)两个点的拉格朗日线性插值为P_0,1(x)；(x₁,y₁)，(x₂,y₂)两个点的拉格朗日线性插值为P_1,2(x)；则有

P_0,1(x)＝y₀×(x-x₁)÷(x₀-x₁)+y₁×(x-x₀)÷(x₁-x₀)

P_1,2(x)＝y₁×(x-x₂)÷(x₁-x₂)+y₂×(x-x₁)÷(x₂-x₁)

进而得到f(x)关于节点x₀,x₁,x₂的二次插值多项式

q(x)＝P_1,2(x)×(x-x₀)÷(x₂-x₀)+P_0,1(x)×(x₂-x)÷(x₂-x₀)，

其中q(x_i)＝y_i,i＝0,1,2。

第一步中，对负荷数据集进行降维的方法如下：

对修复后的负荷数据集使用主成分分析进行降维；

首先应用下式求出样本均值:

式中表示第i个样本的值，n表示样本个数；

其次使用下式计算X_m×n的协方差矩阵:

式中表示第i个样本的值，表示样本均值，X_m×n为所有的组成矩阵，i＝1,2……n；

再计算协方差矩阵的特征值和特征向量，其中特征值按照从大到小排列:

λ＝(λ₁,λ₂,…,λ_n),λ₁≥λ₂…≥λ_n

式中λ表示特征值，表示特征向量；

最后计算出在每一维的投影:

式中表示第i个样本的值，表示样本均值，表示第k维的特征向量。

第三步中初始聚类中心为：初始聚类中心m_i＝{m₁,m₂,…,m_K}，其中K为聚类类簇个数；设y_j为第j个数据样本，找出其与m_i的最大皮尔逊相关系数r_max并归入其对应的聚类中心所在的类中；设X＝{x₁,x₂,…,x_n}为待聚类数据集，设类间最大相关系数阈值为θ，聚类数目为K。

初始聚类中心选取具体步骤如下：

(3.1)、计算任意两组数据之间的皮尔逊相关系数，并生成系数矩阵R，将系数最大的两个数据归为一类，并取两个数据的中点作为第一个聚类中心；

(3.2)、根据事先设定的用于聚类中心选择的系数阈值θ，利用系数矩阵R，检测与第一个聚类中心的两组数据的系数都小于θ的所有数据，并在其中选择系数最高的两个数据定为一类，且取两个数据的中点为第二类聚类中心；

(3.3)、在剩下的数据中整理与已经确定的数据的系数都小于θ的数据，并在这些数据中选择系数最高的两个数据定为一类，且取两个数据的中点为新一类聚类中心；

(3.4)、重复第(3.3)步，直至找到K类为止。

第四步完成数据集的并行聚类步骤如下：

(1)Map阶段每获取到一个子数据集数据对象，都计算该数据对象与所有类簇的初始聚类中心之间的皮尔逊相关系数r，将该数据对象划分到与其相关性系数最大的聚类中心所代表的类中，然后将该类的标签作为key值，将数据对象作为value值，形成<key,value>键值对输出；

(2)Reduce阶段的输入数据为<key,list(value)>，其中key值是类标签，list(value)是属于同一类的数据对象的集合列表，通过如下公式计算同一类中所有数据对象属性值的均值，将其作为新的聚类中心，并输出；

式中，n表示数据对象的个数；

(3)Reduce阶段得到的新的聚类中心与原聚类中心进行比较，由以下方法判断是否聚类算法已经收敛：

设t为迭代次数，按下式计算Y中所有样本的系数误差偏移量J(t)，并与前一次系数误差偏移量J(t-1)比较:

式中:N为样本数据总个数；r为系数误差偏移系数；N_Q≥r为样本数据各类别中Q≥r的样本总数；

(4)若J(t)-J(t-1)＜ε，即J(t)趋于稳定，则算法结束，运行一个没有Reduce的任务将聚类结果输出，并结束程序，输出最终K个簇的相应信息；否则将清空原聚类中心的数据文件，将Reduce的输出结果写到中心文件中，作为下次迭代时的聚类中心，转第(1)步重复迭代。

皮尔逊相关系数r的计算公式为：

式中为x的均值，为y的均值；

X的离均差平方和L_XX为：

式中，n为变量个数；

Y的离均差平方和L_YY为：

式中，n为变量个数。

皮尔逊相关系数绝对值的判断标准：

基于皮尔逊系数与MapReduce并行计算的电网尖峰负荷聚类提取系统，其特征在于：

该系统包括修复降维模块、子数据集形成模块、初始聚类中心选取模块和数据集并行聚类模块；

修复降维模块对负荷数据集进行数据清理以及异常数据修复，然后对负荷数据集进行降维；

子数据集形成模块将修复降维模块降维后的数据集按行存储在Hadoop分布式文件系统中，并将数据集分成各个切片形成子数据集；

初始聚类中心选取模块利用MapReduce计算架构读取子数据集形成模块中的每一个切片子数据集，通过并行模型利用皮尔逊相关系数作为相似性判据选取初始聚类中心；

数据集并行聚类模块将聚类计算任务分配给MapReduce中的Map任务节点，结合第三步中的初始聚类中心，完成数据集的并行聚类。

优点效果：

本发明的有益效果是：

(1)、采用皮尔逊系数作为相似性判据。传统聚类算法使用欧氏距离作为相关性判据，但在对于变量间取值范围不同时使用欧氏距离的运算结果误差较大、极易受噪声和尖峰值影响，且其不适用于曲线轮廓的聚类。而皮尔逊系数对于变量的取值范围没有要求，可在计算中消除不同变量在量纲上的差别，即本发明所提算法能够适应任何维度的负荷数据，兼顾了运算速度的前提下聚类效果稳定良好。

(2)、采用Hadoop平台下的MapReduce并行框架进行运算。当算法需要处理的数据量变大时，遍历每一个数据对象计算其与各类簇聚类中心之间距离或相似性的时间也随之激增。而本发明所提算法可以将庞大的数据集计算任务分摊到多个计算机上，几何式减少算法的运算时间，显著提升算法运算效率，为后续精确地功率预测奠定基础。

(3)、初始聚类中心的选择采用系数矩阵及设定系数阈值方法，以数据点和已确定数据点的相关系数进行比较，避免了传统方法中将聚类中心与全部数据点进行比较，大幅度减少了所需运算量，且精度比传统随机性选择方法要高。

(4)、首次提出适用于一切负荷包括电网最高峰处负荷数据聚类分析的聚类算法。如今储热、大电机等的应用使电网数据越发复杂、难以预测，故而聚类算法也应充分考虑需求侧响应，以适应瞬息万变的电力系统大数据。传统使用欧氏距离作为相似性判据的聚类分析方法，虽然在曲线平缓出聚类效果良好，但对于短时间内负荷波动较大的曲线如尖峰处曲线的分析结果聚类效果差，且运算速度快、效率低。而本方法采用皮尔逊相关系数判别相似性，可适用于任何维度数据，甚至在高维数据中表现更好，解决了无法有效识别相似性、尖峰处聚类效果差的问题；此外，本方法采用MapReduce框架并行运算提高了运算速度和效率，在保证了聚类效果的前提下充分兼顾了运算效率。本方法从需求侧出发，对负荷曲线中的以往无法解决的尖峰处负荷聚类分析给予关注，并解决了以上问题。

综上所述，本发明首次将皮尔逊系数与MapReduce运算架构结合起来，得到一种运算效率高且普适性强的聚类算法，该算法适用于任何维度的数据集，且不易受噪声影响，稳定性高，同时结合了分布式MapReduce框架运算效率高的优点，更加适应越来越蓬勃发展信息时代衍生的电力负荷大数据处理。

附图说明

图1为MRI-PCC算法总体流程图；

图2为MapReduce运算流程图；

图3为不同数据集多节点对比试验图；

图4为加速比结果图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好的理解本发明。

为实现上述发明目的，本发明一种基于皮尔逊系数与MapReduce并行计算的电网尖峰负荷聚类提取算法，其特征在于，包括以下步骤：

数据采集和预处理：

通过收集历史数据，对所收集数据进行预处理，清理异常数据，考虑到负荷功率的暴增或者骤降情况，当负荷曲线功率相邻点的差值相差较大时，利用基于Lagrange插值的Neville算法对曲线X＝{x₁,x₂,…,x_n}进行插值修复，对数据去噪，最终形成可以用于负荷预测的样本数据集；

对数据集使用主成分分析进行降维。首先应用下式求出样本均值:

式中表示第i个样本的值，n表示样本个数。

其次使用下式计算X_m×n的协方差矩阵:

式中表示第i个样本的值，表示样本均值。

λ＝(λ₁,λ₂,…,λ_n),λ₁≥λ₂…≥λ_n

式中λ表示特征值，表示特征向量。

最后计算出在每一维的投影:

于是得到一个降维的投影矩阵，该投影矩阵就是该样本空间的主成分并且按照主成分从大到小排列。

由初始聚类中心选取规则得到初始聚类中心m_i＝{m₁,m₂,…,m_K}，其中K为聚类类簇个数。设y_j为第j个数据样本，找出其与m_i的最大皮尔逊相关系数r_max并归入其对应的聚类中心所在的类中。设X＝{x₁,x₂,…,x_n}为待聚类数据集，设类间最大相关系数阈值为θ，聚类数目为K，初始聚类中心选取步骤如下：

(1)计算任意两组数据之间的皮尔逊相关系数，并生成系数矩阵R，将系数最大的两个数据归为一类，并取两个数据的中点作为第一个聚类中心。

(2)根据事先设定的用于聚类中心选择的系数阈值θ，利用系数矩阵R，检测与第一个聚类中心的两组数据的系数都小于θ的所有数据，并在其中选择系数最高的两个数据定为一类，且取两个数据的中点为第二类聚类中心。

(3)同理，在剩下的数据中整理与已经确定的数据的系数都小于θ的数据，并在这些数据中选择系数最高的两个数据定为一类，且取两个数据的中点为新一类聚类中心。

(4)重复第三步，直至找到K类为止。

皮尔逊相关也称为积差相关，它以两变量间的离均差积和与离均差平方和为算术基础进行计算。皮尔逊相关系数r的计算公式为：

式中为x的均值，为y的均值；

X的离均差平方和L_XX为：

式中，n为变量个数；

Y的离均差平方和L_YY为：

式中，n为变量个数。

表1皮尔逊相关系数的判断标准

将降维后数据集按行存储在Hadoop分布式文件系统中，并将数据集分成各个切片形成子数据集，之后MapReduce计算架构读取每一个切片数据完成数据集的聚类任务。

并行K-means的MapReduce计算任务具体执行步骤如下：

(1)对存储在分布式文件系统中的智能用电数据集进行初始化操作，Map阶段每当获取到一个数据对象，计算其与所有类别的聚类中心之间的皮尔逊相关系数r，将数据对象划分到与其系数最大的聚类中心所代表的类中，然后将该类的标签作为key值，将数据对象作为value值，形成<key,value>键值对输出。

式中，n表示数据对象的个数。

(3)reduce得到的新的聚类中心与原聚类中心进行比较，由以下方法判断是否聚类算法已经收敛：

式中:N为样本数据总个数；r为系数误差偏移系数；N_Q≥r为样本数据各类别中Q≥r的样本总数。

(4)若J(t)-J(t-1)＜ε，即J(t)趋于稳定，则算法结束，运行一个没有reduce的任务将聚类结果输出，并结束程序，输出最终K个簇的相应信息；否则将清空原聚类中心的数据文件，将reduce的输出结果写到中心文件中，作为下次迭代时的聚类中心，转第一步重复迭代。

引入DBI聚类有效性指标对聚类结果进行效果评价，其计算公式如下:

式中:K为聚类数目；d(X_k)和d(X_j)为矩阵内部距离；d(c_k,c_j)为向量间的距离。I_DBI越小则表明聚类结果越好。

图1为MRI-PCC算法总体流程图。

首先对数据进行预处理，包括清理异常数据，修复错误数据，对数据去噪，最终形成可以用于负荷预测的样本数据集。然后使用主成分分析方法进行降维，目的是用尽可能低维数的负荷曲线代替原来的负荷曲线，并保证原负荷曲线不会因降维而失真过多。并应用系数矩阵及系数阈值选定初始聚类中心，其原理为：事先设定一个初始相关系数阈值，使得到的初始聚类中心之间的相关系数尽量小于该阈值，即各初始聚类中心之间的相关性尽可能小，可以使原本随机生成的初始聚类中心变成有目的性的选取，提高算法精确性。Map阶段每获取到一个数据对象，都计算其与所有类簇的初始聚类中心之间的皮尔逊相关系数r，将数据对象划分到与其相关性系数最大的聚类中心所代表的类中，然后将该类的标签作为key值，将数据对象作为value值，形成<key,value>键值对输出。在Reduce阶段计算出新的聚类中心并进行收敛判断，若聚类结果不收敛则替代原有的聚类中心回到Map阶段，继续在Reduce阶段更新聚类中心，不断迭代，直到聚类中心达成收敛条件，则流程结束，输出聚类结果。

图2为MapReduce并行数据挖掘流程。

该流程图详细阐述了MapReduce框架的流程，即首先将数据集分成若干个晓得数据单元，即数据块，然后分别进入Map阶段进行并行运算，通过Map函数计算Value中特征向量与K个初始聚类中心的皮尔逊系数，找出系数最大的对应簇的簇号，进而得到键值对<Key,Value>。定义分区函数，将键值对信息按照Key值进行分区，划分成r个不同的分区，将每一个分区送到相应的Reduce函数。Reduce函数将每个分区中具有相同Key值的信息进行最后的合并、更新每个簇的聚类中心。最后，进行收敛判断，不断迭代，直到聚类中心达成收敛条件，输出最终的K个簇的信息，流程结束。

以下分别从运算速度及运算结果准确性两个方面对本文提出的基于皮尔逊系数与MapReduce并行计算的聚类提取法进行验证。

1.速度验证

当前用户端数据监测是15min一次，一天监测96次。选取不同数量级的数据进行实验，测试其处理效率。实验数据来源：辽宁电网用户2016年的电力负荷情况。

实验一：单机与Hadoop集群数据处理对比实验。实验选用实验数据量分别为23030条，34340条，45860条。实验结果如表1。

表1单机与集群数据处理对比表

由实验结果可以发现，当数据量为23040条时，数据处理时间差别不大，但是随着数据量的进一步提升，Hadoop平台的数据处理效率远高于单机处理模式，当数据量不是很大时，Hadoop平台中MapReduce任务启动需要耗费一定量的时间，数据实际处理时间占平台初始化时间的比例不是很大，而当数据量达到一定的规模后，集群带来的优势性才能展现出来。由实验一结果可以看出，集群在处理大数据的优势非常明显，但是只使用一个节点的集群也不能明显展现其处理效率。以下将通过实验二探究在Map阶段选取不同节点数的数据处理效率。

实验二：分别使用1个，2个，3个，4个，5个节点进行对比实验，数据量分别采用45860条，103250条，160640条。将数据量提升至十万条以上，查看数据处理效率情况，结果如表2。

表2集群节点对比实验

通过以上多组对比实验发现，当使用45860条数据在4个，5个节点上进行数据处理时效率有了较大的提升。当将数据量提升到103250条和160640条，同时比较不同节点下的数据处理效率发现，节点数愈多，数据处理效率愈巨幅提升。可以看出在多个节点下处理大规模数据，集群优势得到了体现，但是节点较少时，却提升的并不是很明显，通过分析发现主要原因如下：

(1)Hadoop任务启动和交互占用了时间。一次数据处理任务需要通过Map函数输出数据写入磁盘和Reduce函数读取磁盘数据的过程，当电力负荷数据规模越来越大的时间，任务启动和交互占用的时间会越来越多，在节点很少时，很难展现出集群的优势。

(2)网络传输速率影响处理效率。Reduce函数在进行数据读取时有时需要从多个Map函数中读取，这依赖与网络传输速率。所以当集群节点数增加时，平台的并行处理优势就能得到体现，将上述结果表格转化为如图3效果更明显。

实验三：利用加速比概念展现集群性能。如果说单纯的从由时间长短展现的效率图还是无法体现集群的性能的话，这里引入一个加速比的概念其中，X_n是加速比，t₁是单节点下数据处理时间，t_n是集群n个节点数据处理时间。分别由此计算出各个节点的加速比如表3。

表3加速比

加速比折线图如图4。

通过对比实验得出结论，在大规模数据处理时，使用MapReduce并行处理加速比单节点效率高。同时集群中节点数越多，处理效率越高。在同一个数据集下，节点数越多，集群优势越能体现。

2.准确性验证

使用准确率(Precision)、召回率(Recall)以及F值三个指标衡量聚类的效果，具体公式如下：

式中：|A_i∩B_i|表示聚类类别A_i中包含对应人工类别B_i的文本个数；|A_i|表示聚类类别A_i包含的样本个数，|B_i|表示人工类别B_i包含的样本个数。

实验结果分析为了验证本文算法的有效性，实验数据集采用均匀分布样本，分别与K-means算法、K-medoids算法、KNN算法进行实验对比。经过多次实验验证，实验结果如表4所示，根据表4的实验对比结果。本文提出的基于皮尔逊系数与MapReduce并行计算的聚类提取法相较于K-means算法的准确率最高提高了30.0％，召回率最好提高了26.2％；相较于K-medoids算法的准确率最高提高了12.3％，召回率最好提高了8.5％，F值平均提高了6.51％，表明本文提出的算法能较准确地聚类。相对于KNN算法，本文提出的基于皮尔逊系数与MapReduce并行计算的聚类提取法的准确率最高提高了2.79％，召回率最好提高了3％，F值平均提高了1.57％。

表3实验对比结果

本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

综上，为了更加充分反映曲线相似性，综合考虑前人发明的聚类算法的优缺点，本文提出一种基于皮尔逊相关系数且结合Hadoop平台下的Map Reduce并行框架的负荷曲线聚类算法。聚类过程中，首先对负荷数据进行数据清理以及去噪处理，选择合适的降维算法进行降维，再利用皮尔逊系数矩阵R及系数阈值选定初始聚类中心，并在分布式MapReduce计算架构中以皮尔逊相关系数作为相似性判据对负荷曲线进行聚类分析。与传统聚类算法进行对比的结果表明，该算法运行效率高、鲁棒性强，能够得到较好的聚类结果。

Claims

1.基于皮尔逊系数与MapReduce并行计算的电网尖峰负荷聚类提取法，其特征在于：

该方法步骤如下：

2.根据权利要求1所述的基于皮尔逊系数与MapReduce并行计算的电网尖峰负荷聚类提取法，其特征在于：

第一步中，对负荷数据集进行数据清理以及异常数据修复方式为：利用基于拉格朗日插值的Neville算法对于异常数据修复，利用基于拉格朗日插值的Neville算法对曲线X＝{x₁,x₂,…,x_n}进行插值修复，对数据去噪，最终形成用于负荷预测的样本数据集，具体步骤如下：

P_0,1(x)＝y₀×(x-x₁)÷(x₀-x₁)+y₁×(x-x₀)÷(x₁-x₀)

P_1,2(x)＝y₁×(x-x₂)÷(x₁-x₂)+y₂×(x-x₁)÷(x₂-x₁)

进而得到f(x)关于节点x₀,x₁,x₂的二次插值多项式

q(x)＝P_1,2(x)×(x-x₀)÷(x₂-x₀)+P_0,1(x)×(x₂-x)÷(x₂-x₀)，

其中q(x_i)＝y_i,i＝0,1,2。

3.根据权利要求1所述的基于皮尔逊系数与MapReduce并行计算的电网尖峰负荷聚类提取法，其特征在于：

第一步中，对负荷数据集进行降维的方法如下：

对修复后的负荷数据集使用主成分分析进行降维；

首先应用下式求出样本均值:

式中表示第i个样本的值，n表示样本个数；

其次使用下式计算X_m×n的协方差矩阵:

λ＝(λ₁,λ₂,…,λ_n),λ₁≥λ₂…≥λ_n

式中λ表示特征值，表示特征向量；

最后计算出在每一维的投影:

4.根据权利要求2所述的基于皮尔逊系数与MapReduce并行计算的电网尖峰负荷聚类提取法，其特征在于：

5.根据权利要求4所述的基于皮尔逊系数与MapReduce并行计算的电网尖峰负荷聚类提取法，其特征在于：

初始聚类中心选取具体步骤如下：

(3.4)、重复第(3.3)步，直至找到K类为止。

6.根据权利要求2所述的基于皮尔逊系数与MapReduce并行计算的电网尖峰负荷聚类提取法，其特征在于：

第四步完成数据集的并行聚类步骤如下：

式中，n表示数据对象的个数；

7.根据权利要求5或6所述的基于皮尔逊系数与MapReduce并行计算的电网尖峰负荷聚类提取法，其特征在于：

皮尔逊相关系数r的计算公式为：

式中为x的均值，为y的均值；

X的离均差平方和L_XX为：

式中，n为变量个数；

Y的离均差平方和L_YY为：

式中，n为变量个数。

8.根据权利要求7所述的基于皮尔逊系数与MapReduce并行计算的电网尖峰负荷聚类提取法，其特征在于：

皮尔逊相关系数绝对值的判断标准：

9.基于皮尔逊系数与MapReduce并行计算的电网尖峰负荷聚类提取系统，其特征在于：