CN107657266A

CN107657266A - 一种基于改进谱多流形聚类的负荷曲线聚类方法

Info

Publication number: CN107657266A
Application number: CN201710655501.7A
Authority: CN
Inventors: 高亚静; 孙永健; 周晓洁; 陈非凡
Original assignee: North China Electric Power University
Current assignee: North China Electric Power University
Priority date: 2017-08-03
Filing date: 2017-08-03
Publication date: 2018-02-02
Anticipated expiration: 2037-08-03
Also published as: CN107657266B

Abstract

本发明公开了一种基于改进谱多流形聚类的负荷曲线聚类方法，本发明包括典型日负荷曲线提取、负荷曲线聚类和聚类效果评价三步。首先提取用户负荷特性指标，结合非参数核密度估计方法计算提取用户典型日负荷曲线。在改进谱多流形聚类算法中，引入时间翘曲距离度量曲线相似性，并用高斯核函数计算局部相似性，基于此计算相似性矩阵。聚类后采用多种聚类有效性指标对聚类结果和算法性能进行评价。本发明采用保定地区若干用户的负荷数据作为算例样本进行聚类分析，验证了文中提出的典型日负荷曲线提取方法和改进谱多流形聚类方法的合理性和优越性。

Description

一种基于改进谱多流形聚类的负荷曲线聚类方法

技术领域

本发明涉及一种基于改进谱多流形聚类的负荷曲线聚类方法，属于光伏预测领域。

背景技术

电力负荷曲线聚类是配用电大数据挖掘和实施负荷管理的基础。通过数据挖掘中的聚类技术进行用户负荷曲线聚类从而得到合理的用户分类，有助于售电公司准确把握用户的用电特性，引入合理的需求响应机制并制定科学的营销策略，对于削峰填谷、优化用电曲线、提高电能质量等方面有着重要意义。

将聚类技术应用于用户负荷曲线分类这一领域的研究已相当深入。常用的聚类算法主要有：K-means、层次聚类法、模糊C均值 (fuzzy C-mean，FCM)、自组织映射神经网络(self-organizing map， SOM)等。主要思路为采集不同用户的连续负荷数据构成离散序列，以序列间的距离类指标描述曲线相似性，作为聚类的依据。随着电网中采集技术和计量装置的不断发展，负荷采集间隔越来越小，使得构成负荷曲线的数据维数越来越高。而很多基于欧氏距离的聚类算法如K-means都是通过计算数据点之间的几何平均距离来进行聚类，它难以反映负荷的时间序列这一属性，同时，负荷数据维数越高，平均距离这一测度的意义就越小。这就使得基于全维度负荷曲线欧氏距离的聚类方法在面对高维曲线的聚类问题时显得十分乏力。因此，很多现有技术都从数据降维的角度入手来解决此类问题。现有技术提出了一种基于信息熵分段聚合近似的方法，在充分表达负荷曲线波动性的同时降低了数据维度，兼顾了曲线的距离相似性和形状相似性。现有技术从负荷曲线中提取若干负荷特性指标，以此对负荷数据进行降维，再以加权欧氏距离作为相似性判据来完成聚类。现有技术定义并提取功率曲线、分时功率、功率频谱3类向量，再通过SOM神经网络对输入数据进行低维映射，进而完成可视化聚类。现有技术研究了多种数据集降维算法，在降维后的数据集上进行集成聚类，比较各种降维算法的信息损失和计算效率后，得出结合主成分分析降维的集成聚类算法可以取得最佳效果。总的来说，各类降维技术都是以负荷曲线形态为基础，不论是负荷指标提取或是低维映射，都应最大程度地保证负荷曲线的形态信息。但上述方法的降维过程均不可避免地会对原始信息造成一定程度的损失，影响聚类的质量。另外，许多常用降维方法如主成分分析 (principal componentanalysis，PCA)都是基于数据具有全局线性分布的假设，若数据结构不满足要求，则难以取得理想的降维效果。

发明内容

本发明所要解决的技术问题是提供一种基于改进谱多流形聚类的负荷曲线聚类方法，其基于多流形假设的聚类算法——谱多流形聚类(spectral multi-manifoldclustering,SMMC)，以该算法的思路为基础，在相似性矩阵的计算方法上进行改进，引入了典型时间翘曲距离(canonical warping distance)的概念用以衡量负荷曲线间的相似程度，利用传统谱聚类中基于欧氏距离的高斯核函数计算局部相似性，结合两种相似性计算相似度权值从而构成相似性矩阵。这样既考虑了负荷曲线之间的欧氏距离关系，又考虑了负荷数据本身的时间序列属性。

为解决上述技术问题，本发明所采取的技术方案是：一种基于改进谱多流形聚类的负荷曲线聚类方法，其特征在于：该方法包括如下步骤：

(1)基于非参数核密度估计的典型日负荷曲线提取

首先选择某用户一定周期T内的日负荷数据，从每个样本日日负荷曲线中提取负荷特性指标，得到每个样本日的日负荷特性指标向量Y_i＝[x_i1,x_i2,......,x_in],i＝1,2,3......,T；n为同一时刻采样的特性指标个数；采用非参数核密度估计方法对每个样本日日负荷曲线中提取的负荷特性指标进行概率密度拟合，进而确定周期T内的典型日负荷指标向量Y_c＝[x_c1,x_c2,......,x_cn],c＝1,2,......,T；n为同一时刻采样的特性指标个数；根据每个样本日的日负荷特性指标向量Y_i；以及周期T内的典型日负荷指标向量Y_c；确定每个相应样本日的日负荷负荷曲线权重w_i,i＝1,2,......,T；然后对每个样本日的日负荷曲线进行加权叠加，

最终得到所需的典型日负荷曲线；

(2)对谱多流形聚类算法的改进

首先构造K-近邻图，即当样本点同一类特性指标x_i在x_j的K个近邻点以内或x_i在x_j的K个近邻点以内时，连接x_j和x_j两个顶点， i＝1,2,......T,j＝1,2......T；

利用高斯核函数即公式(8)计算采样点的局部相似性p_ij；

其中，x_i和x_j为样本点内的同一类特性指标，σ为高斯核函数半径；

利用公式(7)、(9)计算采样点间的典型时间翘曲距离q_ij；

其中，x_i[n_r]和x_j[m_r]为样本同一类特性指标序列的对应元素，a_r和 β_r为用典型相关分析计算所得的空间变换矩阵；

构造相似性矩阵W，利用公式(11)计算相似性权值ω_ij；

其中，Knn(x)表示点x的K个近邻点；

根据相似性矩阵W计算对角矩阵D，其中d_ii＝∑_jω_ij；

求解非规范拉普拉斯矩阵L＝D-W的最小k个特征值对应的特征向量U；

在U构成的特征空间利用K-means将数据点进行聚类。

进一步的技术方案在于，所述负荷特性指标为从日负荷曲线中提取日负荷率、日峰谷差率、峰期负载率、平期负载率、谷期负载率。

进一步的技术方案在于，所述的非参数核密度估计方法为

令第n个特性指标x_n的T个样本为x_1n,x_2n,x_3n,......,x_Tn则基于非参数核密度理论可得负荷特性指标x_n的概率密度函数f_k(x_n)，如式(1)所示：

式中：h为带宽；T为样本数；x_in为第n个特性指标的第i个样本值；H为核函数；

为保证被估计概率密度函数的连续性，核函数通常为关于y 轴对称的单峰平滑概率密度函数，其需满足式(2)特性：

式中：c为大于0的常数；

最常用的核函数有Epanechikov函数和Gaussian函数，本发明选择Gaussian核函数，如式(3)所示；

进一步的技术方案在于，所述典型日负荷曲线提取步骤如下：

1)选择某用户一定周期T内的日负荷数据，提取日负荷率等负荷特性指标构成向量Y_i＝[x_i1,x_i2,......,x_in],i＝1,2,3......,T；n为同一时刻采样的特性指标个数；

2)采用非参数核密度估计对负荷特性指标进行概率密度拟合，得到典型日负荷指标向量Y_c＝[x_c1,x_c2,......,x_cn],c＝1,2,......,T；n为同一时刻采样的特性指标个数；

3)计算Y_i与Y_c的欧氏距离d_i，以此来确定样本日i的负荷曲线权重w_i,i＝1,2,......,T；为使得欧式距离越大，曲线所占权重越小，定义计算公式为：

其中，λ为区间[0,1]内的可调参数，用于调整d_i对w_i的影响程度；特别的，当λ＝0时，利用下一步骤中公式(6)所计算出的典型日负荷曲线即为对所有样本日负荷曲线求取算术平均所得的平均负荷曲线.在此取λ＝0.5计算典型日负荷曲线；

4)对样本日的日负荷曲线进行加权叠加，最终得到所需的典型日负荷曲线；设样本日i的日负荷数据为L_i＝[l_i1,l_i2,......,l_i24]，典型日负荷数据为L_c＝[l_c1,l_c2,......,l_c24]，其中l_ct(t＝1,2,…,24)的计算公式为：

进一步的技术方案在于，还包括对聚类结果的评价：其是基于时间翘曲距离和“去中心化”思想的曲线聚类评价指标CHCTW，通过计算类间曲线差异度(用S₁表示)与类内曲线相似度(用M₁表示)的比值衡量聚类效果；该指标以时间翘曲距离度量曲线差异度，同时摒弃了类中心和样本中心，在计算过程中动态地将计算对象作为中心；具体计算公式为：

式中，K为聚类数，C_i为聚类结果中的第i类，n_i为类C_i中的曲线条数；当且仅当n_k≥2,k∈[1,K]时公式(16)成立；

CHCTW的计算公式为：

同样，CHCTW指标越大，表明类间曲线愈相异而类内曲线愈相似，即聚类效果越好。

采用上述技术方案所产生的有益效果在于：本发明针对用户负荷曲线聚类问题，分别提出了新型的典型日负荷曲线提取方法和改进谱多流形聚类算法。首先基于负荷特性指标提取和非参数核密度拟合对用户的典型日负荷曲线进行提取，然后采用改进谱多流形聚类算法对若干用户的负荷曲线进行聚类。结合本发明提出的聚类评价指标，全面对聚类算法的性能和聚类效果进行对比分析。通过算例验证表明：

1)本发明提出的典型日负荷曲线提取方法能够发掘用户的典型负荷曲线形态并全面而准确地反映用户的用电特性和规律。

2)本发明所提的改进谱多流形聚类算法在曲线聚类问题上具有良好的效果，在聚类有效性和算法稳定性方面均优于K-means算法。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1是负荷特性指标拟合结果；

图2是典型日负荷曲线提取；

图3是基于CH指标确定最优聚类数；

图4是改进SMMC算法聚类结果；

图5是K-means聚类的CH指标；

图6是改进SMMC聚类的CH指标。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

本发明公开的技术方案如下：

1基于非参数核密度估计的典型日负荷曲线提取方法

现有的典型日负荷曲线确定方法主要有两种思路。第一种思路是有根据地选择某负荷日作为典型日(如最大负荷日)，直接提取其负荷曲线作为典型日负荷曲线。然而由于影响负荷变化的因素十分复杂，使得负荷曲线在具有一定规律性的同时也体现出了较强的随机性，因此很难保证此类方法选择的典型日足够“典型”；第二种思路是依照某种规律选择一定天数负荷日的负荷曲线，叠加后取平均作为典型日负荷曲线。这种方法虽然在一定程度上降低了随机性，但简单求取算术平均的计算方法往往在“平均化”的过程中减小了负荷曲线的波动幅度，使得日最大负荷、日最小负荷、日负荷率等负荷指标趋于“中心化”，损失了原有负荷曲线的特征。

因此，本发明基于概率统计的思想提出了一种新型的用户典型日负荷曲线提取方法，通过提取负荷特性指标进行概率密度拟合，进而对样本日的负荷曲线进行加权叠加得到最终的典型日负荷曲线，以保证该负荷曲线能最大程度地反映用户的用电特性和规律。

1.1负荷指标提取

首先选择某用户一定周期T内(如30天)的日负荷数据，从日负荷曲线中提取日负荷率、日峰谷差率、峰期负载率、平期负载率、谷期负载率等负荷特性指标，得到每个样本日的日负荷特性指标向量 Y_i＝[x_i1,x_i2,x_i3,x_i4,x_i5],i＝1,2,3,...,T。各指标的定义如表1所示。

表1日负荷特性指标

Tab.1 Daily load pattern indexes

1.2基于非参数核密度估计的概率密度拟合

本发明采用非参数核密度估计方法对从样本日负荷曲线中提取出的负荷特性指标进行概率密度拟合，进而确定最“典型”的典型日负荷指标向量Y_c＝[x_c1,x_c2,x_c3,x_c4,x_c5]。

非参数核密度估计方法无需任何先验知识、完全从数据样本出发研究数据分布特征^[12]。本发明利用该方法对负荷指标的提取结果进行参数拟合。

式中：h为带宽；T为样本数；x_in为第n个特性指标的第i个样本值；H为核函数。

为保证被估计概率密度函数的连续性，核函数通常为关于y轴对称的单峰平滑概率密度函数，其需满足式(2)特性：

式中：c为大于0的常数；

最常用的核函数有Epanechikov函数和Gaussian函数，本发明选择Gaussian核函数，如式(3)所示。

1.3典型日负荷曲线提取流程

本发明所提出的典型日负荷曲线提取具体流程为：

2用于曲线聚类的SMMC算法改进策略

针对本发明要解决的负荷曲线聚类问题，本发明基于谱多流形聚类算法的思路，对算法中相似性矩阵的构建过程进行了改进，引入典型时间翘曲距离来衡量和描述负荷曲线在时间尺度上的相似性，然后结合高斯核函数反映采样点在空间位置上的相似性，通过两种相似性的融合，计算并构建新的相似性矩阵W。

2.1时间翘曲距离

时间翘曲距离(canonical warping distance)是利用典型时间规整(canonicaltime warping,CTW)通过反复迭代对参考序列p 和查询序列q进行空间转换和动态时间规整(dynamic time warping, DTW)来找出两个序列间距离最小的匹配，进而可以采用计算公式(7) 求出典型时间翘曲距离^[19]：

其中，p[n_i]和q[m_i]为序列的对应元素，a和β为用典型相关分析计算所得的空间变换矩阵。

动态时间规整(DTW)是上世界60年代由日本学者提出，通过规整语音信号的长度来进行语音识别的一种算法。DTW结合了时间规整和距离测算，在成对样本时间特征最优匹配的情况下使得样本间差别最小，即距离测度最小。在CTW的计算中，可以根据计算的实际需要改变最大迭代次数、在动态时间规整中使用的距离函数等参数。

典型时间规整(CTW)具有三个性质：平移不变性、旋转不变性、标度不变性。简单来说，若一条曲线是由另一条曲线经过平移、旋转、放缩或三种变换的任意组合得到的，那么这两条曲线的典型时间翘曲距离为零。因此，CTW可以最大程度地发掘曲线的相似性，使得典型时间翘曲距离在曲线相似的情况下数值很小，避免了传统欧式距离测度算法的局限性。

2.2相似性矩阵

谱多流形聚类为了发掘空间结构，训练若干混合概率主成分分析器来估计采样点的局部切空间，通过计算数据点间的局部切空间的结构相似性来计算相似性矩阵W。

而在本发明的曲线聚类研究中，我们并不关注高维空间中采样点的局部切空间是否相似，而是更加关注数据点本身所具有的时间序列属性。因此，本发明在构造相似性矩阵时，既计入了数据点之间的欧氏距离关系p_ij，又考量了负荷曲线之间典型时间翘曲距离的大小q_ij。然后通过一个合适的融合函数将两者结合并计算相似性权值ω_ij。由于这样计算得到的W包含了样本点的时间序列信息，使得邻近图的构造更趋合理，也大大增强了对新样本点的泛化能力。

本发明采用在实际中应用广泛的高斯核函数度量数据点的局部相似性p_ij：

其中，x_i和x_j为样本点内的同一类特性指标，σ为高斯核函数半径。

将样本点x_i和x_j的特征向量作为两个序列代入公式(7)计算q_ij，如公式(9)所示：

然后需要一个合适的融合函数f将两者融合计算相似性权值：

ω_ij＝f(p_ij,q_ij) (10)

在公式(8)中计算的p_ij是数据点间欧氏距离的单调递减函数，描述了采样点的局部相似性；而公式(9)计算的q_ij为距离测度，其值越小说明相似性越高。因此此处的函数f应为p_ij的单调递增函数，是q_ij的递减函数，在这里本发明对两者做除法取其商来计算相似性权值，即：

其中，Knn(x)表示点x的K个近邻点。

2.3改进SMMC算法流程

前面两小节详细描述了改进SMMC算法中的关键步骤：相似性矩阵的构建思路和方法，在此基础上，本发明提出的改进SMMC算法的具体算法步骤如下：

1)首先构造K-近邻图，即当样本点同一类特性指标x_i在x_j的K 个近邻点以内或x_i在x_j的K个近邻点以内时，连接x_j和x_j两个顶点， i＝1,2,......T,j＝1,2......T。

2)利用高斯核函数即公式(8)计算采样点的局部相似性p_ij。

3)利用公式(9)计算采样点间的典型时间翘曲距离q_ij。

4)构造相似性矩阵，利用公式(11)计算相似性权值w_ij。

5)根据相似性矩阵W计算对角矩阵D，其中d_ii＝∑_jω_ij。

6)求解非规范拉普拉斯矩阵L＝D-W的最小k个特征值对应的特征向量U。

7)在U构成的特征空间利用K-means将数据点进行聚类。

基于上述算法步骤，利用软件Matlab R2012a进行编程，实现改进SMMC算法的聚类功能。

3聚类评价指标

本发明选取CH指标(Calinski-Harabasz Index，CHI)来确定最优聚类数，并以该指标思路为基础设计了一种基于时间翘曲距离的新指标CHCTW来辅助评价曲线聚类效果。

3.1最优聚类数的确定

良好的聚类结果具有两个特征：高的类内相似性和低的类间相似性。因此，本发明采用CH指标来确定聚类过程中的最优聚类数。CH 指标综合度量了类间的分离度(用S表示)和类内的紧密度(用M表示)，其值的大小即为分离度和紧密度的比值。具体计算公式为：

式中，K为聚类数，C_i为聚类结果中的第i类，c_i为类C_i的聚类中心，n_i为类C_i中的曲线条数，为样本集中N条负荷曲线x₁,x₂,…,x_N的样本中心。则CH指标的计算公式为：

由公式可见，CH指标越大，表明类间越分散且类内越紧凑，即聚类效果越好。

3.2基于时间翘曲距离的聚类效果评价指标

CH指标本质上是一种基于欧氏距离和“中心化”的聚类有效性指标，它的类内紧密度和类间分离度分别以类内对象与类中心、类中心与样本中心的欧氏距离为度量准则。

为全面评价聚类效果，还应从曲线相似程度的角度对聚类结果进行分析，从而衡量和比较算法的有效性。但若采用CH指标基于欧氏距离和“中心化”的设计原则，会在一定程度上损失类内曲线的相似度和类间曲线的差异度，使评价指标难以准确评价聚类效果。

因此，本发明提出了一种基于时间翘曲距离和“去中心化”思想的曲线聚类评价指标CHCTW，通过计算类间曲线差异度(用S₁表示) 与类内曲线相似度(用M₁表示)的比值衡量聚类效果。该指标以时间翘曲距离度量曲线差异度，同时摒弃了类中心和样本中心，在计算过程中动态地将计算对象作为中心。具体计算公式为：

CHCTW的计算公式为：

4算例分析

为验证本发明针对曲线聚类所提方法的有效性，本发明基于软件 Matlab R2012a进行各模块程序的编写和调试(包括负荷指标提取、概率密度拟合、改进SMMC聚类、聚类评价指标计算等)，以进行算例的验证和分析。首先选取了保定市50个用户在一个月内的负荷数据构成样本集，首先采用基于非参数核密度拟合的曲线提取方法分别提取各用户的典型日负荷曲线，然后采用改进谱多流形聚类方法对50 个用户的典型日负荷曲线进行聚类。

4.1基于非参数核密度估计的典型日负荷曲线提取

在选择用户一定周期内的负荷数据构成样本集时，考虑到用户用电特性受季节变化影响较为明显，因此周期不宜过长；同时也为了保证典型日曲线的拟合生成具有统计学意义，本发明选择30天作为周期。本发明以某用户为例，首先从样本集中该用户的日负荷数据中提取负荷特性指标，然后利用非参数核密度估计方法对各指标的概率密度曲线进行拟合，并辅以正态分布拟合作为对比，拟合过程如图1所示：

在非参数核密度估计中，带宽越大，拟合曲线越平滑；带宽越小，则曲线越容易出现峰值。由于概率密度函数拟合曲线与横坐标所包络的面积恒为1，因此对于本发明拟合的单峰概率密度函数来说，带宽越大，则拟合曲线的峰值越大；带宽越小，拟合曲线峰值越低。换言之，带宽的大小并不影响峰值的横坐标位置，即对“典型”负荷指标值的获取并无影响，因此本发明没有在最优带宽的确定上作过于深入的研究。本发明中，五个负荷指标进行拟合时的带宽分别为：0.009， 0.016，0.009，0.016，0.010。

从图中可以看出，非参数核密度估计拟合比正态分布拟合具有更好的拟合效果。通过概率密度拟合，得到典型日负荷特性指标向量 Yc＝[0.795，0.478，1.219，0.822，1.132]。

利用公式(5)计算权重(分别取λ＝0，0.5，1)并对样本中的负荷曲线进行加权叠加后得到三条提取后的负荷曲线，如图2所示。

λ＝0对应的负荷曲线表示所有曲线经过简单的算术平均所得到的平均负荷曲线，从图中可以看出，该曲线由于过于“平均化”使其难以准确表现用户的用电特性；而取λ＝1所提取的负荷曲线更注重于表现用户多数情况下的用电情形，在全面性上稍有欠缺。综合对比三者的表现，本发明取λ＝0.5计算提取典型日负荷曲线。

4.2基于改进SMMC算法的负荷曲线聚类

在提取了样本中50个用户的共50条典型日负荷曲线后，考虑到不同用户间负荷数据的数量级不同，因此为了消除此影响，本发明在聚类前首先对每条负荷曲线采取除以该曲线最大负荷值的归一化处理方法。然后采用改进SMMC算法对50条负荷曲线进行聚类。

4.2.1最优聚类数的确定

为确定最优聚类数，首先设置不同的聚类数依次进行聚类，并记录CH指标的值。除本发明所提算法外，还采用了K-means算法进行对比。本发明用两种方法对比了聚类数K的取值从2到20的情形，实验各进行10次，对于每个聚类数，取对应的CHI最大值作为该算法在该聚类数下的最优聚类结果，实验结果如图3所示：

由图可知，采用改进SMMC聚类算法的最优聚类数为7，此时CHI 为73.86。而采用K-means算法的最优聚类数为8，对应的CHI为 68.25，低于前者。因此本发明将聚类数定为7，对样本进行聚类和作图，结果如图4所示.

4.2.2聚类效果评价

本发明采用了经典的CH指标和本发明提出的CHCTW指标分别从欧氏距离角度和曲线相似性角度对聚类效果进行对比评估。同时，考虑到聚类算法的稳定性是衡量算法性能的一个重要指标，因此本发明也从算法稳定性的角度对算法性能进行了对比分析。

具体来说，本发明采用改进SMMC和K-means两种算法对聚类数 K从2到20的情形分别了进行10次实验，将CHI达到10次实验中最大值的情况称为“达到最优聚类”，本发明将达到最优聚类的次数作为衡量算法稳定性的依据。

将改进SMMC和K-means两种算法在聚类数为5～10情形下的CHI、 CHCTW指标和达到最优聚类的次数进行对比展示，如表2所示：

表2两种方法聚类效果对比

Tab.2 Clustering results’comparison of two methods

从表中可以看出，聚类数为7时CHCTW指标也达到了最大，这也反映出本发明将最优聚类数定为7的正确性。为更加直观地分析算法稳定性，将两种算法10次聚类的CHI绘图展示，如图5、图6所

从图中明显可以看出，改进SMMC算法的稳定性优于K-means算法。结合表2和图5、图6，通过利用三种指标对比评估两种算法的聚类效果，可得出本发明所提的改进SMMC算法全面优于K-means算法。

5结论

针对用户负荷曲线聚类问题，本发明分别提出了新型的典型日负荷曲线提取方法和改进谱多流形聚类算法。首先基于负荷特性指标提取和非参数核密度拟合对用户的典型日负荷曲线进行提取，然后采用改进谱多流形聚类算法对若干用户的负荷曲线进行聚类。结合本发明提出的聚类评价指标，全面对聚类算法的性能和聚类效果进行对比分析。通过算例验证表明：

Claims

1.一种基于改进谱多流形聚类的负荷曲线聚类方法，其特征在于：该方法包括如下步骤：

(1)基于非参数核密度估计的典型日负荷曲线提取

首先选择某用户一定周期T内的日负荷数据，从每个样本日日负荷曲线中提取负荷特性指标，得到每个样本日的日负荷特性指标向量Y_i＝[x_i1,x_i2,......,x_in],i＝1,2,3......,T；n为同一时刻采样的特性指标个数；采用非参数核密度估计方法对每个样本日日负荷曲线中提取的负荷特性指标进行概率密度拟合，进而确定周期T内的典型日负荷指标向量Y_c＝[x_c1,x_c2,......,x_cn],c＝1,2,......,T；n为同一时刻采样的特性指标个数；根据每个样本日的日负荷特性指标向量Y_i；以及周期T内的典型日负荷指标向量Y_c；确定每个相应样本日的日负荷负荷曲线权重w_i,i＝1,2,......,T；然后对每个样本日的日负荷曲线进行加权叠加，最终得到所需的典型日负荷曲线；

(2)对谱多流形聚类算法的改进

首先构造K-近邻图，即当样本点同一类特性指标x_i在x_j的K个近邻点以内或x_i在x_j的K个近邻点以内时，连接x_j和x_j两个顶点，i＝1,2,......T,j＝1,2......T；

利用高斯核函数即公式(8)计算采样点的局部相似性p_ij；

<mrow> <msub> <mi>p</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mi>exp</mi> <mrow> <mo>(</mo> <mfrac> <mrow> <mo>|</mo> <mo>|</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow> <mrow> <mn>2</mn> <msup> <mi>&sigma;</mi> <mn>2</mn> </msup> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>

利用公式(7)、(9)计算采样点间的典型时间翘曲距离q_ij；

<mrow> <mi>C</mi> <mi>T</mi> <mi>W</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>,</mo> <mi>q</mi> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </msubsup> <msup> <mrow> <mo>(</mo> <msub> <mi>&alpha;</mi> <mi>i</mi> </msub> <mo>&CenterDot;</mo> <mi>p</mi> <mo>&lsqb;</mo> <msub> <mi>n</mi> <mi>i</mi> </msub> <mo>&rsqb;</mo> <mo>-</mo> <msub> <mi>&beta;</mi> <mi>i</mi> </msub> <mo>&CenterDot;</mo> <mi>q</mi> <mo>&lsqb;</mo> <msub> <mi>m</mi> <mi>i</mi> </msub> <mo>&rsqb;</mo> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>q</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>r</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </msubsup> <msup> <mrow> <mo>(</mo> <msub> <mi>&alpha;</mi> <mi>r</mi> </msub> <mo>&CenterDot;</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>&lsqb;</mo> <msub> <mi>n</mi> <mi>r</mi> </msub> <mo>&rsqb;</mo> <mo>-</mo> <msub> <mi>&beta;</mi> <mi>r</mi> </msub> <mo>&CenterDot;</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>&lsqb;</mo> <msub> <mi>m</mi> <mi>r</mi> </msub> <mo>&rsqb;</mo> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> </mrow>

其中，x_i[n_r]和x_j[m_r]为样本同一类特性指标序列的对应元素，a_r和β_r为用典型相关分析计算所得的空间变换矩阵；

构造相似性矩阵W，利用公式(11)计算相似性权值ω_ij；

<mrow> <msub> <mi>&omega;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mfrac> <msub> <mi>p</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <msub> <mi>q</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mfrac> <mo>,</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>&Element;</mo> <mi>K</mi> <mi>n</mi> <mi>n</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>0</mn> <mo>,</mo> <mi>o</mi> <mi>t</mi> <mi>h</mi> <mi>e</mi> <mi>r</mi> <mi>w</mi> <mi>i</mi> <mi>s</mi> <mi>e</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>11</mn> <mo>)</mo> </mrow> </mrow>

其中，Knn(x)表示点x的K个近邻点；

根据相似性矩阵W计算对角矩阵D，其中

在U构成的特征空间利用K-means将数据点进行聚类。

2.根据权利要求1所述的一种基于改进谱多流形聚类的负荷曲线聚类方法，其特征在于：所述负荷特性指标为从日负荷曲线中提取日负荷率、日峰谷差率、峰期负载率、平期负载率、谷期负载率。

3.根据权利要求1所述的一种基于改进谱多流形聚类的负荷曲线聚类方法，其特征在于：所述的非参数核密度估计方法为

<mrow> <msub> <mi>f</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mi>T</mi> <mi>h</mi> </mrow> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>T</mi> </munderover> <mi>H</mi> <mrow> <mo>(</mo> <mfrac> <mrow> <msub> <mi>x</mi> <mi>n</mi> </msub> <mo>-</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>n</mi> </mrow> </msub> </mrow> <mi>h</mi> </mfrac> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mo>&Integral;</mo> <mi>K</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mi>d</mi> <mi>x</mi> <mo>=</mo> <mn>1</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>&Integral;</mo> <mi>x</mi> <mi>K</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mi>d</mi> <mi>x</mi> <mo>=</mo> <mn>0</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>&Integral;</mo> <msup> <mi>x</mi> <mn>2</mn> </msup> <mi>K</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mi>d</mi> <mi>x</mi> <mo>=</mo> <mi>c</mi> <mo>></mo> <mn>0</mn> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

式中：c为大于0的常数；

4.根据权利要求1所述的一种基于改进谱多流形聚类的负荷曲线聚类方法，其特征在于：所述典型日负荷曲线提取步骤如下：

<mrow> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <msup> <mrow> <mo>(</mo> <mn>1</mn> <mo>/</mo> <msub> <mi>d</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mi>&lambda;</mi> </msup> <mrow> <munderover> <mo>&Sigma;</mo> <mi>i</mi> <mi>T</mi> </munderover> <msup> <mrow> <mo>(</mo> <mn>1</mn> <mo>/</mo> <msub> <mi>d</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mi>&lambda;</mi> </msup> </mrow> </mfrac> <mo>,</mo> <mi>&lambda;</mi> <mo>&Element;</mo> <mo>&lsqb;</mo> <mn>0</mn> <mo>,</mo> <mn>1</mn> <mo>&rsqb;</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>l</mi> <mrow> <mi>c</mi> <mi>t</mi> </mrow> </msub> <mo>=</mo> <mover> <mi>&Sigma;</mi> <mn>24</mn> </mover> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>&CenterDot;</mo> <msub> <mi>l</mi> <mrow> <mi>i</mi> <mi>t</mi> </mrow> </msub> <mo>,</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>T</mi> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>

5.根据权利要求1所述的一种基于改进谱多流形聚类的负荷曲线聚类方法，其特征在于：还包括对聚类结果的评价：其是基于时间翘曲距离和“去中心化”思想的曲线聚类评价指标CHCTW，通过计算类间曲线差异度(用S₁表示)与类内曲线相似度(用M₁表示)的比值衡量聚类效果；该指标以时间翘曲距离度量曲线差异度，同时摒弃了类中心和样本中心，在计算过程中动态地将计算对象作为中心；具体计算公式为：

<mrow> <msub> <mi>S</mi> <mn>1</mn> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <mo>&lsqb;</mo> <mfrac> <msub> <mi>n</mi> <mi>i</mi> </msub> <mrow> <mi>K</mi> <mo>-</mo> <mn>1</mn> </mrow> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>K</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <munder> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mrow> <mi>x</mi> <mo>&Subset;</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>y</mi> <mo>&Subset;</mo> <msub> <mi>C</mi> <mi>j</mi> </msub> </mrow> </munder> <mrow> <mi>i</mi> <mo>&NotEqual;</mo> <mi>j</mi> </mrow> </munder> <mi>C</mi> <mi>T</mi> <mi>W</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>&rsqb;</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>15</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>M</mi> <mn>1</mn> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <mo>&lsqb;</mo> <mfrac> <mn>1</mn> <mrow> <msub> <mi>n</mi> <mi>k</mi> </msub> <mo>-</mo> <mn>1</mn> </mrow> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>n</mi> <mi>k</mi> </msub> </munderover> <munder> <munder> <mi>&Sigma;</mi> <mrow> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>&Subset;</mo> <msub> <mi>C</mi> <mi>k</mi> </msub> </mrow> </munder> <mrow> <mi>j</mi> <mo>&NotEqual;</mo> <mi>i</mi> </mrow> </munder> <mi>C</mi> <mi>T</mi> <mi>W</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>&rsqb;</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>16</mn> <mo>)</mo> </mrow> </mrow>

CHCTW的计算公式为：