CN111126499A

CN111126499A - 一种基于二次聚类的用电行为模式分类方法

Info

Publication number: CN111126499A
Application number: CN201911361607.1A
Authority: CN
Inventors: 张凯; 冯剑; 孙胜博; 董增波; 刘建华; 史善哲; 李冰; 白新雷; 陈宋宋; 李德智; 陈珂; 宫飞翔
Original assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Hebei Electric Power Co Ltd; China Electric Power Research Institute Co Ltd CEPRI; State Grid Hebei Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Hebei Electric Power Co Ltd; China Electric Power Research Institute Co Ltd CEPRI; State Grid Hebei Electric Power Co Ltd
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2020-05-08

Abstract

本发明涉及一种基于二次聚类的用电行为模式分类方法，主要包括三部分。首先，采用横向处理、纵向处理和温度处理三个方法将大量负荷数据中非正常数进行识别与处理；通过移动平均数法对数据进行处理，减少噪音；采用极差归一化处理和加权处理解决量纲差别大等问题。其次，将最优聚类法的聚类树和聚类中心提供给模糊C聚类法进行聚类并进行有效性分析并确定类别数；最后，聚类分析主要包括：由所得到的聚类数，重复进行聚类并还原数据输出聚类结果。该方法用于解决样本数量较大，特征向量维数较多用电行为模式分类问题，既可避免模糊C均值聚类法对初始参数的敏感性，又能取得分类准确客观的聚类效果。

Description

一种基于二次聚类的用电行为模式分类方法

技术领域

本发明涉及一种用电特性聚类分析的技术领域，具体的是一种基于二次聚类的用电行为模式分类方法。

背景技术

随着社会经济的飞速发展，我国的用电需求急剧增加，电力供应常常处于较紧张状态。在负荷高峰时，供需矛盾更加尖锐。一味的增加供电容量，不但需要大量的投资，而且在负荷低谷时，资产利用率不高。随着信息采集和处理技术的进步，对用户用电数据进行采集，基于大量数据分析负荷数据，对用电特性相同的用户进行归类，分析其用电行为特征具有重要意义。根据用户用电行为特征可以预测用户用电用电量，更加准确合理的安排电能生产工作。更进一步，根据用电特性，分析用户柔性用电潜力和影响用户用电因素，通过合理的引导，使用户用电行为符合电网调度要求，能够很大程度上使用户参加错峰调峰等，不仅能够保证电网安全，还可以减少用电量的损失。

然而电力用户纷繁复杂，难以做到对每个用户具体分析，而且单个用户用电行为随机性较大。对大量用户负荷数据进行分析归类意义重大。对具有相同用电行为特征的用户实施有针对性的用电方案引导对电网运行具有重要意义。目前对大量用电特性进行分析，普遍采用聚类分析方法。

发明内容

本发明所要解决的技术问题是提供一种基于二次聚类的用电行为模式分类方法，将输入样本数据进行数据处理，然后通过多种系统聚类方法形成聚类中心和聚类树，挑选出最优聚类树和聚类中心，提供给模糊C均值进行二次聚类的分析归类方法。

本发明的技术方案：

一种基于二次聚类的用电行为模式分类方法，包括以下具体步骤：

步骤一：读取负荷数据，采用横向处理、纵向处理和温度处理三个方法对非正常数据进行识别与处理；

步骤二：通过移动平均数法对数据进行平滑处理，减少噪音；

步骤三：采用极差归一化处理和加权处理解决量纲差别大的问题；

步骤四：使用不同聚类方法得到每种方法下的聚类树和聚类中心；

步骤五：通过Cophenetic相关系数选出最优聚类树和聚类中心；

步骤六：利用模糊C聚类法，以最优聚类法的聚类树和聚类中心进行聚类，选取效果最好的类别数作为最终确定的类别数；

步骤七：得到类别数后，重复步骤四到步骤六，进行模糊C聚类后还原数据并输出聚类后的结果。

优选的，步骤一所述的对非正常数据进行识别和处理三个方法：

横向处理认为短时间内数据横向相同，即样本日与附近同类日曲线相同，结合统计学原理，利用样本统计指标与设定阈值判断是否有非正常数据；

纵向处理认为短时间内数据纵向相同，即相隔15min的连续3个数据相对稳定，没有突变，结合统计学原理，利用样本统计指标与设定阈值判断是否有非正常数据；

温度处理认为某一温度下各日最大负荷数据是否小于30％的对应温度下的最大负荷数据的平均值，则认为此日为休息日或者限电日。

优选的，步骤二进行平滑处理，具体为：移动平均法对数据进行平滑处理，即对任意奇数个连续的点，将它们最中间的点的值替换为其他点的平均值，操作时将所有负荷点附近连续5个数据平均化，形成平滑后负荷序列，去除采集数据时随机性较强的毛刺数据。

优选的，步骤三解决量纲差别大等问题时，以当前元素值与观测值中最小值的差，除以观测值中最大值与最小值的差，即为归一化变换，经过极差归一化变换后每个元素的取值均在0～1之间；加权处理主要考虑特征向量中各维度特征值对负荷分类的不同贡献，聚类时对各维度特征值进行加权处理。

优选的，步骤四中不同聚类方法包括最短距离法、最长距离法、中间距离法、重心法、类平均法、离差平方和法和加权平均法。

优选的，步骤五选出最优聚类树和聚类中心，通过Cophenetic相关系数反映了聚类效果的好坏，Cophenetic相关系数越接近于1，说明聚类效果越好。

优选的，步骤六利用模糊C聚类法进行二次聚类，聚类中心由初次系统聚类提供，选择聚类效果最好的类别数作为最终确定的类别数。

优选的，步骤七根据类别数，重复系统聚类，选取最优聚类中心，模糊C均值二次聚类等步骤，并还原数据和输出聚类后的结果。

优选的，步骤五中通过Cophenetic相关系数选出最优聚类树和聚类中心具体步骤包括如下：

对变量观测矩阵，用y＝(y₁,y₂,…,y_n(n-1)/2)表示变量对距离向量，用(i,j)表示第i个变量和第j个变量构成的变量对；设d＝(d₁,d₂,…,d_n(n-1)/2)，其中d₁为第2个样品和第1个样品初次并为一类时的并类距离，d₂为第3个样品和第1个样品初次并为一类时的并类距离；

Cophenetic相关系数是指y和d之间的线性相关系数，即

式中：

分别表示y与d中元素的平均值，计算公式为：

优选的，步骤六模糊C聚类的描述：

其中，m称为加权指数模糊C均值算法的聚类准则为的极小值，极值的约束条件为

式中：m称为加权指数，U是隶属度矩阵，P是聚类中心，μ_ik是隶属函数，表示样本与子集的隶属关系，有μ_ik∈[0,1]。隶属度矩阵U＝[μ_ik]c*k。d_ik表示第i类中的样本x_k与第i类典型样本p_i之间的距离，J_m(U,P)表示各类中样本与典型样本的误差平方和；

模糊C均值算法的聚类准则为取J_m(U,P)的极小值，极值的约束条件为

本发明的有益效果：

本发明方法用于解决样本数量较大，特征向量维数较多用电行为模式分类问题，既可避免模糊C均值聚类法对初始参数的敏感性，又能取得分类准确客观的聚类效果。

模糊C均值(FCM，Fuzzyc-Means)类型算法的理论最早是从硬聚类目标函数的优化中导出，在基于目标函数的聚类算法中最为完善且得到最广泛的应用。但是模糊C均值聚类法对初始参数具有很强的敏感性，本发明采用传统聚类方法为模糊C均值聚类法提供聚类树和聚类中心。考虑到样本数量较大，特征向量维数较多，采用一种聚类方法效果不是很理想，因此本文采用多种聚类方法得到聚类树和聚类中心，通过Cophenetic相关系数从中挑选最优聚类数和聚类中心，作为模糊C均值聚类法的聚类中心进行二次聚类。既可避免模糊C均值聚类法对初始参数的敏感性，又能取得分类准确客观的聚类效果。

附图说明

图1为一种基于二次聚类的用电行为模式分类方法流程图。

具体实施方式

如图1所示，本发明所要解决的技术问题是提供一种基于二次聚类的用电行为模式分类方法，将输入样本数据进行数据处理，然后通过多种系统聚类方法形成聚类中心和聚类树，挑选出最优聚类树和聚类中心，提供给模糊C均值进行二次聚类的分析归类方法。

步骤一：读取负荷数据，采用横向处理、纵向处理和温度处理三个方法对非正常数据进行识别与处理：

(1)横向处理

此处认为短时间内数据横向相同，即样本日与附近同类日曲线相同，结合统计学原理，利用样本统计指标与设定阈值判断是否有非正常数据：

第一步：横向识别中式(3)(4)计算序列的均值与方差。

式中：N表示观察日总数，x_n,i表示第n个观察日第i个负荷数据，

即为计算序列的均值，

即为计算序列的方差。

第二步：再利用式(5)进行3σ原理的非正常数判断。

式中：ε为阈值，通常取1～1.5。

第三步：修正非正常数据。

如果式(5)满足，则x_n，i即为非正常数据。可以利用式(6)权重修正数据，式中：α₁+β₁+γ₁＝1，为权重系数；

为第n天第i点修正数据；x_n±1，i为附近两个横向负荷点，

为距离x_n，i最近的两个相同日负荷点。

(2)纵向处理

此处认为短时间内数据纵向相同，即相隔15min的连续3个数据相对稳定，没有突变，结合统计学原理，利用样本统计指标与设定阈值判断是否有非正常数据。

第一步：利用式(7)将某负荷点附近连续5个数据平均化，形成平滑后负荷序列。

第二步：判断原始数据与平滑后数据的误差是否满足式(9)，如满足，则负荷点为非正常数据，δ为阈值，通常取0.08～0.15。

σ_n,i＝|x_n,.i-x'_n,.i| (6)

σ_n,i>δx'_n,.i (7)

第三步：修正非正常数据。

若负荷点为非正常数据，则可利用式(10)进行修正。

为修正后数据，x_n,i-2，x_n,_i-1为第n天第i个负荷数据前面两个负荷点，x_n,i+1，x_n,i+2为第n天第i个数据后面两个负荷点，且α₂+β₂＝1。

(3)温度处理

由于本文研究的许多负荷为工业负荷，其中包含铸造、水泥制造、炼钢等高耗能负荷，它们的特点是通常进行连续生产，没有工作日和周末之分，休息日由每家企业视生产状况、设备状况而定，而为了保证能在单一变量下进行研究，希望在多维度负荷分类过程中剔除休息日和限电日负荷等的影响。又因为不同负控装置采集数据不相同，一天采集的负荷点可能为24个，也可能为48个，96个，负荷点较少时，用上述横向、纵向识别法存在困难，所以此处增加利用温度数据识别休息日和非正常数据：

第一步：

将日最大负荷数据

按照当日最高温度T进行排序。n表示数据采集日，P表示负荷点总数，T表示数据采集当日最高温度。

第二步：

依次求取对应各温度点的最大负荷数据平均值

M₂-M₁+1表示在T温度下的日总数。

第三步：

判断某一温度下各日最大负荷数据是否小于30％的对应温度下的最大负荷数据的平均值，如果式(11)成立，则认为此日为休息日或者限电日。

步骤二：通过移动平均数法对数据进行平滑处理，减少噪音。

由于大部分时间序列都存在噪音，某些值的大小会发生随机变化。实际上很多数据在采集时都存在噪音，因此需要通过对平滑处理的方式来减少噪音。本文使用最简单的移动平均法对数据进行平滑处理，即对任意奇数个连续的点，将它们最中间的点的值替换为其他点的平均值。

利用式(12)将所有负荷点附近连续5个数据平均化，形成平滑后负荷序列，去除采集数据时随机性较强的毛刺数据。

式中：x'_n,i为平滑处理后的数据。

步骤三：采用极差归一化处理和加权处理解决量纲差别大等问题。

(1)极差归一化处理

设p维向量X＝(X₁,X₂,...,X_p)的观测值矩阵为

对于式(13)的观测值矩阵X，极差归一化变换后的矩阵为：

其中

这里

为变量X_i的观测值的最小值，

为变量X_i的观测值的极差，经过极差归一化变换后，矩阵X^R的每个元素的取值均在0～1之间。

(2)加权处理

在聚类算法中，都隐含待分析样品提取的特征向量各维度对分类的贡献一致，忽略各维度对分类的影响不同。而在实际应用中，由于构成样品特征向量的各维度有着不同的物理含义，量纲、精度，重要性及可靠性等方面都可能存在不同，直接进行聚类分析有一定的局限。

本文引入加权的模糊聚类算法，将考虑特征向量中各维度特征值对负荷分类的不同贡献。作为配置电力资源的一种重要的经济手段，国家一直都鼓励和提倡实行峰谷分时电价政策。国家发改委多次下发文件，要求各地加大实行峰谷分时电价的力度，峰谷分时电价的峰、谷时段电价价差要提高至2-5倍之间，对电力供应紧缺的地区，可在尖峰时段再叠加实行尖峰电价，电价水平可适当高于高峰时段电价。

因此，有必要考虑不同时段负荷的重要性，使得在峰、平、谷特定时段具有最接近用电特性的用户划分到一类。作为研究探讨，本文设定负荷曲线高峰时段各点的权值为3(8:00-12:00,17:00-21:00)，即认为工作时段的权重较高，而夜间休息时段的权重较低。在提取其他维度特征向量时，也可以效仿按电价设定权重的做法，对不同维度特征值设定不同的权值，使分类结果更能说明目标问题。

步骤四：使用最短距离法、最长距离法、中间距离法、重心法、类平均法、离差平方和法、加权平均法聚类方法得到每种方法下的聚类树和聚类中心；

聚类分析中，通常用G来表示类，假定G中有m个元素，不失一般化，用列向量x_i(i＝1,2,...,m)来表示，d_ij表示元素x_i与x_j间距离，D_KL表示类G_K与类G_L之间的距离。

(1)最短距离法(singlelinkagemethod)

定义类与类之间的距离为两类最近样品间的距离，即

D_KL＝min{d_ij:x_i∈G_k,x_j∈G_L} (13)

若某一步类G_k与类G_L聚成一个新类，记为G_M，类G_M与任意已有类G_J之间的距离为

D_MJ＝min{D_KJ,D_LJ},J≠K,L (14)

最短距离法聚类的步骤如下：

①将初始的每个样品各自作为一类，并规定样品之间的距离，通常采用欧氏距离。计算n个样品的距离矩阵D₍₀₎。它是一个对称矩阵。

②寻找D₍₀₎中最小元素，设为D_KL，将G_k和G_L聚成一个新类，记为G_M，即G_M＝{G_k,G_L}。

③计算新类G_M与任一类G_J之间距离的递推公式为：

对距离矩阵D₍₀₎进行修改，将G_k和G_L所在行和列合并成一个新行新列，对应G_M，新行和新列上的距离由式(17)计算，其余行列上的值不变，这样得到的新距离矩阵记为D₍₁₎。

④对D₍₁₎重复上述对D₍₀₎的2步操作，得到距离矩阵D₍₂₎；如此下去，直至所有元素合并成一类为止。

(2)最长距离法(completelinkagemethod)

类与类之间的距离定义为两类最远样品间的距离，即：

D_KL＝max{d_ij:x_i∈G_k,x_j∈G_L} (16)

类间距离的递推公式为：

D_MJ＝max{D_KJ,D_LJ},J≠K,L (17)

(3)中间距离法(medianmethod)

类与类之间的距离采用中间距离。设某一步将类G_k与类G_L聚成一个新类，记为G_M，对于任一类G_J，考虑由D_KJ、D_LJ和D_KL为边长构成的三角形，取D_KL边的中线记作D_MJ。从而得类间平方距离的递推公式为：

式(18)可推广至更一般的情况

其中，β为权重系数，β<1，式(21)对应的系统聚类方法称为可变法。

(4)重心法(centroidhierarchicalmethod)

类与类之间的距离定义为它们的重心(即类均值)之间的欧氏距离。设G_k中有n_k个元素，G_L中有n_L个元素，定义类G_k和G_L的重心分别为：

则G_k和G_L之间的平方距离为：

类间平方距离的递推公式为：

(5)类平均法(averagelinkagemethod)

类与类之间的平方距离定义为样品对之间平方距离的平均值。G_k和G_L之间的平方距距离为：

类间平方距离的递推公式为：

类平均法很好地利用了所有样品之间的信息，在很多情况下它被认为是一种比较好的系统聚类法。

可在式(26)中增加

项，得到类间平方距离的递推公式为：

(6)离差平方和(Ward法)

离差平方和又称为Ward法，它是把方差分析的思想用于分类上，同一个类内的离差平方和小，而类间离差平方和应当大。类中各元素到类重心(即类均值)的平方欧氏距离之和称为类内离差平方和。设某一步G_k和G_L聚成一个新类G_M，则G_k、G_L和G_M的类内离差平方和分别为：

它们反映了类内元素的分散程度，将G_k与G_L合并成新类G_M时，类内离差平方和会有所增加，即W_M-(W_K+W_L)>0，若G_k与G_L距离比较近，则增加的离差平方和应较小，于是定义G_k与G_L平方距离为：

类间平方距离的递推公式为：

(7)系统聚类法的统一

通常有8种系统聚类法，它们的不同之处就在于类间距离的递推公式不一样。8种不同的距离计算公式统一为：

其中，α_K，α_L，β，γ为参数，不同的系统聚类法，对应参数的不同取值，具体对应关系如表1所列。

表1系统聚类法递推公式参数表

步骤五：通过Cophenetic相关系数选出最优聚类树和聚类中心；

对于同样的观测数据，用不同的方法进行聚类，得到的结果可能并不完全相同，通过以下的Cophenetic相关系数进行判断：

对变量观测矩阵，用y＝(y₁,y₂,…,y_n(n-1)/2)表示变量对距离向量，用(i,j)表示第i个变量和第j个变量构成的变量对。设d＝(d₁,d₂,…,d_n(n-1)/2)，其中d₁为第2个样品和第1个样品初次并为一类时的并类距离，d₂为第3个样品和第1个样品初次并为一类时的并类距离，其余类似。

Cophenetic相关系数是指y和d之间的线性相关系数，即

式中：

分别表示y与d中元素的平均值，计算公式为：

步骤六：利用模糊C聚类法，以最优聚类法的聚类树和聚类中心进行聚类，选取效果最好的类别数作为最终确定的类别数。

模糊C聚类一般的描述：

式中：m称为加权指数，U是隶属度矩阵，P是聚类中心，μ_ik是隶属函数，表示样本与子集的隶属关系，有μ_ik∈[0,1]。隶属度矩阵U＝[μ_ik]c*k。d_ik表示第i类中的样本x_k与第i类典型样本p_i之间的距离，J_m(U,P)表示各类中样本与典型样本的误差平方和。

Claims

1.一种基于二次聚类的用电行为模式分类方法，其特征在于，包括以下具体步骤：

步骤五：通过Cophenetic相关系数选出最优聚类树和聚类中心；

2.根据权利要求1所述的一种基于二次聚类的用电行为模式分类方法，其特征在于，步骤一所述的对非正常数据进行识别和处理三个方法：

3.根据如权利要求1所述的一种基于二次聚类的用电行为模式分类方法，其特征在于，步骤二进行平滑处理，具体为：移动平均法对数据进行平滑处理，即对任意奇数个连续的点，将它们最中间的点的值替换为其他点的平均值，操作时将所有负荷点附近连续5个数据平均化，形成平滑后负荷序列，去除采集数据时的毛刺数据。

4.根据如权利要求1所述的一种基于二次聚类的用电行为模式分类方法，其特征在于，步骤三解决量纲差别大的问题时，以当前元素值与观测值中最小值的差，除以观测值中最大值与最小值的差，即为归一化变换，经过极差归一化变换后每个元素的取值均在0～1之间；加权处理考虑特征向量中各维度特征值对负荷分类的不同贡献，聚类时对各维度特征值进行加权处理。

5.根据如权利要求1所述的一种基于二次聚类的用电行为模式分类方法，其特征在于，步骤四中不同聚类方法包括最短距离法、最长距离法、中间距离法、重心法、类平均法、离差平方和法和加权平均法。

6.根据如权利要求1所述的一种基于二次聚类的用电行为模式分类方法，其特征在于，步骤五选出最优聚类树和聚类中心，通过Cophenetic相关系数反映了聚类效果的好坏，Cophenetic相关系数越接近于1，说明聚类效果越好。

7.根据如权利要求1所述的一种基于二次聚类的用电行为模式分类方法，其特征在于，步骤六利用模糊C聚类法进行二次聚类，聚类中心由初次系统聚类提供，选择聚类效果最好的类别数作为最终确定的类别数。

8.根据如权利要求1所述的一种基于二次聚类的用电行为模式分类方法，其特征在于，步骤七根据类别数，重复系统聚类，选取最优聚类中心，模糊C均值二次聚类等步骤，并还原数据和输出聚类后的结果。

9.根据如权利要求1所述的一种基于二次聚类的用电行为模式分类方法，其特征在于，步骤五中通过Cophenetic相关系数选出最优聚类树和聚类中心具体步骤包括如下：

Cophenetic相关系数是指y和d之间的线性相关系数，即

式中：

分别表示y与d中元素的平均值，计算公式为：

10.根据如权利要求1所述的一种基于二次聚类的用电行为模式分类方法，其特征在于，步骤六模糊C聚类的描述：