CN110659699A

CN110659699A - 一种基于特征指标降维的分布式双层聚类分析方法

Info

Publication number: CN110659699A
Application number: CN201910947223.1A
Authority: CN
Inventors: 李春燕; 谢开贵; 胡博; 牛涛; 张谦; 王鑫; 蔡文悦
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2020-01-07

Abstract

本发明涉及一种基于特征指标降维的分布式双层聚类分析方法，属于电力系统用户响应聚类算法领域，包括以下步骤：S1：收集智能电表数据并传输到最近的局部站点，将大量负荷曲线按照所属站点分解为若干个规模较小、相互独立的子数据，对于本身负荷曲线较多的站点，可以进行进一步划分；S2：对分解到各站点的负荷数据进行数据降维，并采用复杂度较低的聚类算法进行一次聚类，对区域内不同客户进行聚类，得到聚类结果；S3：将从不同局部站点获得的聚类结果(仅上传聚类中心，而无需上传全部数据)，转发给全局数据中心进行二次聚类，并获得最终的聚类结果；S4：全局数据中心将全局聚类结果反馈给每个本地站点，并进行用户用电行为分析。

Description

一种基于特征指标降维的分布式双层聚类分析方法

技术领域

本发明属于电力系统用户响应聚类算法领域，涉及通过设计分布式双层聚类框架及改进相应算法快速精准实现用户响应聚类。

背景技术

随着科学技术的进步和电网信息化水平的提高，用户侧积累了大量用电数据。挖掘海量数据隐含的宝贵信息，有利于电网公司了解用户用电习惯，有针对性地提供服务，提高能源利用效率。然而由于电力系统数据量庞大，冗余特征增多，计算效率大幅度降低。

对电力负荷大数据聚类的研究尚在起步阶段，未有统一标准。现阶段主要采取分布式运算解决大数据处理问题，如利用云端分布式计算平台将数据集分解为任务包进行聚类，该类大数据框架有hadoop、spark、storm等。而分治法的基本思路是在局部聚类中提取准确的特征能快速上传聚类中心，全局应用高质量的聚类算法对局部的“代表”进一步聚类，常用的典型聚类算法包括Kmeans-Kmeans、AP-AP、Kmeans-CFSFDP(Clustering by FastSearch and Find of Density Peaks)等。该方法在进行局部聚类之后，仅将结果送到全局进行二次聚类，不需要上传整个数据。与分布式运算相比，分治法能够解决并行聚类需要把数据传送到一个中心进行处理的难题，为处理电力大数据提供了新的思路。然而，现有分治法框架或是不能实现完全自适应，或是不适用于电力负荷大数据聚类，对电力数据分治法框架的搭建需要进一步完善。

发明内容

有鉴于此，本发明的目的在于提高用户响应聚类的高效性与准确性，实现对用户行为的有效分析，提供一种基于特征指标降维的分布式双层聚类分析方法。

为达到上述目的，本发明提供如下技术方案：

一种基于特征指标降维的分布式双层聚类分析方法，包括以下步骤：

S1：收集智能电表数据并传输到最近的局部站点，将大量负荷曲线按照所属站点分解为若干个规模较小、相互独立的子数据，对于本身负荷曲线较多的站点，可以进行进一步划分；

S2：对分解到各站点的负荷数据进行数据降维，并采用复杂度较低的聚类算法进行一次聚类，即局部聚类，对区域内不同客户进行聚类，得到聚类结果；

S3：将从不同局部站点获得的聚类结果(仅上传聚类中心，而无需上传全部数据)，转发给全局数据中心进行二次聚类，并获得最终的聚类结果；

S4：全局数据中心将全局聚类结果反馈给每个本地站点，并进行用户用电行为分析。

进一步，步骤S2中，通过提取负荷曲线的时域特征和频域特征指标对数据进行降维处理，进而采用自适应kmeans聚类算法实现局部聚类。

更进一步，采用的时域特征指标包括五个典型负荷特性指标，即峰时耗电率、谷电系数、平段用电百分比、日负荷率和日平均负荷，分别从不同时段、用电水平和变动情况等方面全面表征负荷曲线，其中：

峰时耗电率用于衡量用户在高峰时段的用电倾向，谷电系数

用于衡量用户在低谷时段的用电倾向，平段用电百分比

用于衡量用户在平峰时段的用电倾向，日负荷率

用于衡量在规定时间内负荷变动情况，以及考核电气设备的利用程度，日平均负荷

用于衡量在规定时间内负荷的平均水平，其中，L_p为高峰时段用电量，L_v为谷用电量，L_f为平段用电量，L_z为总用电量，P_av为日平均负荷，P_max为日最大负荷；

为避免负荷特性指标设置的主观性，采用熵权法评价各特性指标对聚类结果的贡献，客观确定负荷特性的指标权重。其基本思路是根据指标变异性的大小来确定客观权重，通过评价各负荷特性指标对聚类的区分度大小，从而确定各指标的权重；评价规则如下：

1)根据经验或者专家打分对负荷特性指标设定初始权重λ＝[λ₁ λ₂ ... λ_z]，z为负荷曲线特征指标总数；

2)在每次生成新的聚类中心后，利用下式评价函数计算第i个特征指标对聚类中心的贡献度：

v_ij＝λ_i(X_randij-C_ij)²,j＝1,2,...,c (1)

其中，c为聚类中心数，C_ij是第j个聚类中心的第i个负荷特性指标值，X_randij代表在第j类中随机选择的负荷曲线对应的第i个负荷特性指标值，由于贡献度采用距离衡量，因此所述贡献度越小越好，所述贡献度形成的矩阵，即为针对c个评价对象的z个评价指标值的指标矩阵V＝(v_ij)_c×z；

3)通过式(2)-(4)计算第i个指标的客观权重，实现客观赋权：

对于权重有0≤λ_i′≤1，且

另外还引入两个能够对负荷曲线进行有效降维的频域指标，频率-幅度对和谐波畸变程度；频率-幅度对是指将典型日负荷曲线经过快速傅里叶变换FFT变换后得到的第i个频率和对应幅值视为一组特征[f_i,c_i]，根据幅值对“频率-幅度对”进行排序，得到经过排序后的“频率-幅度对”特征集为F_f＝[{f₁,c₁},{f₂,c₂},...,{f_n,c_n}]；取前n个“频率-幅度对”作为频域特征，进行聚类分析；谐波畸变程度是参考总谐波畸变率的定义并能够反映负荷曲线的最简特征集，其定义式如式(5)：

其中，c_m为前n个幅值的平均值。

更进一步，在对负荷曲线数据进行特征指标降维后采用自适应Kmeans算法对其进行局部聚类，算法原理是：首先随机选取c个中心作为初始聚类中心，再遍历所有数据，将每条数据划分到最近的中心中，然后计算每个聚类的平均值，并作为新的中心点，直至聚类中心不再变化(收敛)，或达到最大迭代次数；自适应Kmeans聚类算法流程如下：

S21：输入负荷曲线d、初始权重μ_i0＝[μ₁₀ μ₂₀ … μ_l0]以及聚类数范围[c_min,c_max]；

S22：计算特征指标；

S23：令c＝c_min；

S24：i＝1；

S25：执行Kmeans算法；

S26：判断是否存在以下情况：聚类中心不变或i>i_max；若否，使i＝i+1，返回步骤S25重新执行Kmeans算法；若是，则执行步骤S27；

S27：利用熵权法计算新特征权重μ′_i＝[μ′₁ μ′₂ … μ′_n]；

S28：计算SSE指标；

S29：判断SSE是否满足阈值，若是，输出最佳聚类数c下的聚类结果，结束算法；若否，执行步骤S210；

S210：判断c是否大于c_max，若是，输出最佳聚类数c下的聚类结果，结束算法；若否，令c＝c+1，返回步骤S24。

更进一步，由于在聚类前进行了特征提取，因此改进距离公式如下：

其中，F_t和F_k′分别为时域特征集和频域特征集，C_j和C_j′为聚类中心对应的特征集；λ_k为特征指标权重；

同时，对于Kmeans算法，SSE指标随聚类中心数的增加而收敛，因此，将SSE指标作为Kmeans算法的收敛准则，计算公式如下：

SSE＝∑(x-C_j)² (7)

且聚类数c的取值在区间[c_min,c_max]里，c_min,c_max是根据决策者的意愿或负荷曲线的特征而定；设置阈值为SSE值达到拐点或变化较小，如式(8)所示，当满足该条件时视为此时得到最佳聚类数目：

SSE-SSE_new＜ε (8)

其中精度ε的取值取决于决策者的意愿或聚类的要求。

进一步，步骤S3中，采用改进AP算法来获得精确的聚类结果，包括以下步骤：

S31：输入负荷曲线d和时域特征权重λ＝[λ₁,λ₂,...,λ_n]；

S32：特征提取，获得优选特征集；

S33：令i＝1,j＝1；

S34：生成相似度矩阵S；

S35：更新"responsibility"矩阵和"availability"矩阵；

S36：判断是否存在以下情况：聚类中心不变，或i>i_max；若否，则令i＝i+1，返回步骤S35再次更新"responsibility"矩阵和"availability"矩阵；若是，则执行步骤S37；

S37：计算DB_new；

S38：判断DB是否满足阈值，若是，记录当前聚类结果，结束算法；若否，执行步骤S39；

S39：判断是否存在以下情况：DB>Dbnew或j>j_max，若是，记录当前聚类结果，结束算法；若否，则令j＝j+1，返回步骤步骤S34。

更进一步，AP聚类算法本质是基于划分的聚类算法，基于“物以类聚”思想，引入竞争概念进行迭代。算法开始前，认为所有的节点都为潜在聚类中心，通过式(9)-(11)计算吸引信息矩阵(Responsibility)和归属信息矩阵(Availability)判断更适合成为聚类中心点的数据：

其中，s(i,k)是数据点i与数据点k之间的相似度，其值表明了k作为i的聚类中心的合适程度；r(i,k)是信息矩阵中的元素，表示数据对象i与数据对象k之间的吸引信息，描述数据对象i对数据对象k的认可程度；a(i,k)是归属信息矩阵中的元素，表示数据对象i与数据对象k之间的归属信息，描述数据对象i选择数据对象k作为其聚类中心的适合程度，下标t表示为当前值，如此反复直到聚类中心收敛；

为避免震荡以及加快算法收敛，在经式(9)-(11)计算后采用阻尼系数χ更新信息矩阵和归属信息矩阵的元素值，如下式所示：

r′_t+1(i,k)＝χ·r_t(i,k)+(1-χ)·r_t+1(i,k) (12)

a′_t+1(i,k)＝χ·a_t(i,k)+(1-χ)·a_t+1(i,k) (13)

其中，0＜χ＜1，选择χ＝0.9。

局部聚类得到每类负荷中心的时域特征及其对应权重，为区分不同局部站点的负荷情况，在全局聚类中不再对时域特征的权重进行更新；同时，在全局站点，需要考虑不同局部站点的数据特征，表示数据分布情况。故相似度矩阵的更新如式(14)所示：

其中，d_i和d_j分别为负荷曲线x_i和x_j优选出的特征集；

相似度矩阵主对角线上的元素值s(i,i)为偏向参数，其值与聚类结果数目有关；利用聚类评价指标选择合理的偏向参数值，能有效减少算法的迭代次数，提高聚类精度。

AP聚类算法的稳定性较好，对于多次迭代DB指标范围变动较小。因此，利用DB指标作为AP聚类算法的偏向参数选取和收敛判据，如式(15)所示：

s(i,i)＝p_m+δ×DB_min (15)

其中，p_m为非主对角线上的所有数的中位数，为初始值；DB_min为当前算法计算下的DB最小值；δ为搜索阈值，若要向前搜索，取δ＞0，反之，取δ＜0；DB指标计算公式如式(16)所示，其值越小，类间的相似度越低，从而聚类效果越好；W_i表示i类内数据点到聚类中心C_i的平均距离，W_j表示j类内数据点到聚类中心C_j的平均距离，C_ij表示聚类中心i与j之间的距离。

本发明的有益效果在于：

(1)本发明提出的算法通过应用综合特征降维，提取适当的特征，有利于降低负荷曲线的维数。

(2)由于同时保留了局部聚类算法和全局聚类算法的优点，本发明算法具有较高的聚类效率和精度。

(3)采用熵权法对时域特征客观赋权有利于提高聚类算法性能，同时所得权重可为用户用电分析提供服务。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明所述分布式聚类框架示意图；

图2为本发明所述自适应Kmeans聚类算法流程示意图；

图3为本发明所述改进AP聚类算法流程示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

本发明设计的分布式聚类框架如图1所示。

首先，智能电表数据被收集并传输到最近的局部站点，并进行数据降维和一次聚类，对区域内不同客户进行聚类，得到聚类结果。然后，将从不同局部站点获得的聚类结果(仅需上传聚类中心，而无需上传全部数据)转发给全局数据中心进行二次聚类，并获得最终的聚类结果。最后，全局数据中心将全局聚类结果反馈给每个本地站点，并进行用户用电行为分析。

分布式聚类框架主要包含三个步骤：分解、聚类和合并。

“分解”是指将大量负荷曲线按照所属站点分解为若干个规模较小，相互独立的子数据，对于本身负荷曲线较多的站点，可以进行进一步划分。

“聚类”是指对分解到各站点的负荷数据采用复杂度较低的聚类算法进行一次聚类，即局部聚类。为进一步降低数据规模，在聚类前需对数据进行降维。本发明通过提取负荷曲线的时域特征和频域特征指标对数据进行降维处理，进而采用自适应Kmeans聚类算法实现局部聚类。

本发明采用的时域特征指标主要是5个典型负荷特性指标，即峰时耗电率、谷电系数、平段用电百分比、日负荷率、日平均负荷，分别从不同时段、用电水平、变动情况等方面全面表征负荷曲线。各指标含义如表1所示。

表1负荷特性指标定义和含义

其中，L_p为高峰时段用电量，L_v为谷用电量，L_f为平段用电量，L_z为总用电量，P_av为日平均负荷，P_max为日最大负荷。

为避免负荷特性指标设置的主观性，采用熵权法评价各特性指标对聚类结果的贡献，客观确定负荷特性的指标权重。其基本思路是根据指标变异性的大小来确定客观权重，通过评价各负荷特性指标对聚类的区分度大小，从而确定各指标的权重。评价规则如下：

v_ij＝λ_i(X_randij-C_ij)²,j＝1,2,...,c (1)

其中，c为聚类中心数，C_ij是第j个聚类中心的第i个负荷特性指标值，X_randij代表在第j类中随机选择的负荷曲线对应的第i个负荷特性指标值。由于贡献度采用距离衡量，因此该贡献值越小越好。该贡献值形成的矩阵，即为针对c个评价对象的z个评价指标值的指标矩阵V＝(v_ij)_c×z。

3)通过式(2)-(4)计算第i个指标的客观权重，实现客观赋权：

对于权重有0≤λ_i′≤1，且

另外还引入两个能够对负荷曲线进行有效降维的频域指标，频率-幅度对和谐波畸变程度。频率-幅度对是指将典型日负荷曲线经过快速傅里叶变换(FFT)变换后得到的第i个频率和对应幅值视为一组特征[f_i,c_i]，根据幅值对“频率-幅度对”进行排序，得到经过排序后的“频率-幅度对”特征集为F_f＝[{f₁,c₁},{f₂,c₂},...,{f_n,c_n}]。取前n个“频率-幅度对”作为频域特征，进行聚类分析。谐波畸变程度是参考总谐波畸变率的定义并能够反映负荷曲线的最简特征集，其定义式如式(5)：

其中，c_m为前n个幅值的平均值。

在对负荷曲线数据进行特征指标降维后采用自适应Kmeans算法对其进行局部聚类。算法原理是：首先随机选取c个中心作为初始聚类中心，再遍历所有数据，将每条数据划分到最近的中心中，然后计算每个聚类的平均值，并作为新的中心点，直至聚类中心不再变化(收敛)，或达到最大迭代次数。自适应Kmeans聚类算法流程如图2所示。

S22：计算特征指标；

S23：令c＝c_min；

S24：i＝1；

S25：执行Kmeans算法；

S28：计算SSE指标；

S210：判断c是否大于c_max，若是，输出最佳聚类数c下的聚类结果，结束算法；若否，令c＝c+1，返回步骤S24；

由于在聚类前进行了特征提取，因此改进距离公式如下：

其中，F_t和F′_k分别为时域特征集和频域特征集，C_j和C_j′为聚类中心对应的特征集。λ_k为特征指标权重。

同时，对于Kmeans算法，SSE指标随聚类中心数的增加而收敛。因此，将SSE指标作为Kmeans算法的收敛准则，计算公式如下：

SSE＝∑(x-C_j)² (7)

且聚类数c的取值在区间[c_min,c_max]里，c_min,c_max是根据决策者的意愿或负荷曲线的特征而定。设置阈值为SSE值达到拐点或变化较小，如式(8)所示，当满足该条件时视为此时得到最佳聚类数目。

SSE-SSE_new＜ε (8)

其中精度ε的取值取决于决策者的意愿或聚类的要求。

“合并”是指将各个子站点的聚类中心传送至全局，利用复杂度较高、聚类结果稳定的算法，对数据代表进行二次聚类，将聚类结果返回到局部进行更新，合并为原问题的解。在分布式聚类框架中，本次聚类属于全局聚类范畴，采用改进AP算法来获得精确的聚类结果。

改进AP聚类算法的流程如图3所示，包括以下步骤：

S31：输入负荷曲线d和时域特征权重λ＝[λ₁,λ₂,...,λ_n]；

S32：特征提取，获得优选特征集；

S33：令i＝1,j＝1；

S34：生成相似度矩阵S；

S35：更新"responsibility"矩阵和"availability"矩阵；

S37：计算DB_new；

AP聚类算法本质是基于划分的聚类算法，基于“物以类聚”思想，引入竞争概念进行迭代。算法开始前，认为所有的节点都为潜在聚类中心，通过式(9)-(11)计算吸引信息矩阵(Responsibility)和归属信息矩阵(Availability)判断更适合成为聚类中心点的数据：

其中，s(i,k)是数据点i与数据点k之间的相似度，其值表明了k作为i的聚类中心的合适程度；r(i,k)是信息矩阵中的元素，表示数据对象i与数据对象k之间的吸引信息，描述数据对象i对数据对象k的认可程度；a(i,k)是归属信息矩阵中的元素，表示数据对象i与数据对象k之间的归属信息，描述数据对象i选择数据对象k作为其聚类中心的适合程度。下标t表示为当前值，如此反复直到聚类中心收敛。

r′_t+1(i,k)＝χ·r_t(i,k)+(1-χ)·r_t+1(i,k) (12)

a′_t+1(i,k)＝χ·a_t(i,k)+(1-χ)·a_t+1(i,k) (13)

其中，0＜χ＜1，本文选择χ＝0.9。

局部聚类可得到每类负荷中心的时域特征及其对应权重，为区分不同局部站点的负荷情况，在全局聚类中不再对时域特征的权重进行更新。同时，在全局站点，需要考虑不同局部站点的数据特征，表示数据分布情况。故相似度矩阵的更新如式(14)所示：

其中，d_i和d_j分别为负荷曲线x_i和x_j优选出的特征集。

相似度矩阵主对角线上的元素值s(i,i)为偏向参数，其值与聚类结果数目有关。利用聚类评价指标选择合理的偏向参数值，能有效减少算法的迭代次数，提高聚类精度。

s(i,i)＝p_m+δ×DB_min (15)

其中，p_m为非主对角线上的所有数的中位数，为初始值；DB_min为当前算法计算下的DB最小值；δ为搜索阈值，若要向前搜索，取δ＞0，反之，取δ＜0。DB指标计算公式如式(16)所示，其值越小，类间的相似度越低，从而聚类效果越好。W_i表示i类内数据点到聚类中心C_i的平均距离，W_j表示j类内数据点到聚类中心C_j的平均距离，C_ij表示聚类中心i与j之间的距离。

以下结合具体负荷聚类数据进一步验证本发明的高效性和准确性。

设模拟数据有8类典型日负荷曲线，并在此基础上加有20％比例的噪声。每类负荷曲线为250条，共计2000条负荷曲线。设置了两个局部站点，每个局部站点有1000条负荷曲线。

为综合说明本发明所提算法的优缺点，对以下几种方法进行对比分析：

方法一：集中式Kmeans聚类算法；

方法二：集中式AP聚类算法；

方法三：基于优选组合特征的分布式Kmeans-AP聚类算法，其中未采用熵权法对时域特征进行赋权；

方法四：本发明提出的算法，即基于优选组合特征的分布式Kmeans-AP聚类算法，其中采用熵权法对时域特征进行赋权。

四种方法的算法性能如表2所示，分别从精度(DB指标和分类准确率)和效率(迭代次数和计算时间)两个方面对算法进行评价。

表2算法性能比较

方法	方法一	方法二	方法三	方法四
					DB指标	0.31	0.30	0.34	0.305
分类准确率/％	97.7	99.2	87.6	99.1
					迭代次数	79	43	28	22
计算时间/s	9.22	9.51	5.15	5.229
					算法复杂度	O(N)	O(N<sup>3</sup>)	O(N+M<sup>3</sup>)	O(N+M<sup>3</sup>)

对比方法一、二(集中式聚类算法)和方法三、四(分布式聚类算法)，分布式算法的运行时间比集中式算法短。如果面对更大的数据量，使用分布式算法的优势将更为明显。在分布式聚类算法中，本发明所提的方法四与方法三对比，在聚类效果方面有着明显的优势，而两者在计算时间方面并没有明显的差异，同样说明了熵权法得到的权重能够反映数据的分布特征，在用户数据聚类方面有着重要价值。

综合来讲，本发明所提的基于特征指标降维的分布式双层聚类分析方法在准确度和计算效率上都有良好的效果，在实际电力系统中，具有更重要的应用价值。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于特征指标降维的分布式双层聚类分析方法，其特征在于：包括以下步骤：

S3：将从不同局部站点获得的聚类结果，转发给全局数据中心进行二次聚类，并获得最终的聚类结果，其中转发的数据仅为聚类中心，而无需上传全部数据；

2.根据权利要求1所述的基于特征指标降维的分布式双层聚类分析方法，其特征在于：步骤S2中，通过提取负荷曲线的时域特征和频域特征指标对数据进行降维处理，进而采用自适应kmeans聚类算法实现局部聚类。

3.根据权利要求2所述的基于特征指标降维的分布式双层聚类分析方法，其特征在于：采用的时域特征指标包括五个典型负荷特性指标，即峰时耗电率、谷电系数、平段用电百分比、日负荷率和日平均负荷，分别从不同时段、用电水平和变动情况等方面全面表征负荷曲线，其中：

峰时耗电率

用于衡量用户在高峰时段的用电倾向，谷电系数

用于衡量用户在低谷时段的用电倾向，平段用电百分比用于衡量用户在平峰时段的用电倾向，日负荷率

根据指标变异性的大小来确定客观权重，通过评价各负荷特性指标对聚类的区分度大小，从而确定各指标的权重；评价规则如下：

v_ij＝λ_i(X_randij-C_ij)²,j＝1,2,...,c (1)

3)通过式(2)-(4)计算第i个指标的客观权重，实现客观赋权：

对于权重有0≤λ_i′≤1，且

引入两个能够对负荷曲线进行有效降维的频域指标，频率-幅度对和谐波畸变程度；频率-幅度对是指将典型日负荷曲线经过快速傅里叶变换FFT变换后得到的第i个频率和对应幅值视为一组特征[f_i,c_i]，根据幅值对“频率-幅度对”进行排序，得到经过排序后的“频率-幅度对”特征集为F_f＝[{f₁,c₁},{f₂,c₂},...,{f_n,c_n}]；取前n个“频率-幅度对”作为频域特征，进行聚类分析；谐波畸变程度是参考总谐波畸变率的定义并能够反映负荷曲线的最简特征集，其定义式如式(5)：

其中，c_m为前n个幅值的平均值。

4.根据权利要求3所述的基于特征指标降维的分布式双层聚类分析方法，其特征在于：在对负荷曲线数据进行特征指标降维后采用自适应Kmeans算法对其进行局部聚类，算法原理是：首先随机选取c个中心作为初始聚类中心，再遍历所有数据，将每条数据划分到最近的中心中，然后计算每个聚类的平均值，并作为新的中心点，直至聚类中心不再变化，或达到最大迭代次数；自适应Kmeans聚类算法流程如下：

S22：计算特征指标；

S23：令c＝c_min；

S24：i＝1；

S25：执行Kmeans算法；

S28：计算SSE指标；

5.根据权利要求4所述的基于特征指标降维的分布式双层聚类分析方法，其特征在于：由于在聚类前进行了特征提取，因此改进距离公式如下：