CN111126499A - 一种基于二次聚类的用电行为模式分类方法 - Google Patents

一种基于二次聚类的用电行为模式分类方法 Download PDF

Info

Publication number
CN111126499A
CN111126499A CN201911361607.1A CN201911361607A CN111126499A CN 111126499 A CN111126499 A CN 111126499A CN 201911361607 A CN201911361607 A CN 201911361607A CN 111126499 A CN111126499 A CN 111126499A
Authority
CN
China
Prior art keywords
clustering
data
processing
power consumption
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911361607.1A
Other languages
English (en)
Inventor
张凯
冯剑
孙胜博
董增波
刘建华
史善哲
李冰
白新雷
陈宋宋
李德智
陈珂
宫飞翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Electric Power Research Institute of State Grid Hebei Electric Power Co Ltd
China Electric Power Research Institute Co Ltd CEPRI
State Grid Hebei Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Electric Power Research Institute of State Grid Hebei Electric Power Co Ltd
China Electric Power Research Institute Co Ltd CEPRI
State Grid Hebei Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Electric Power Research Institute of State Grid Hebei Electric Power Co Ltd, China Electric Power Research Institute Co Ltd CEPRI, State Grid Hebei Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201911361607.1A priority Critical patent/CN111126499A/zh
Publication of CN111126499A publication Critical patent/CN111126499A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Economics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Public Health (AREA)
  • Tourism & Hospitality (AREA)
  • Primary Health Care (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Water Supply & Treatment (AREA)
  • Probability & Statistics with Applications (AREA)
  • Game Theory and Decision Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于二次聚类的用电行为模式分类方法,主要包括三部分。首先,采用横向处理、纵向处理和温度处理三个方法将大量负荷数据中非正常数进行识别与处理;通过移动平均数法对数据进行处理,减少噪音;采用极差归一化处理和加权处理解决量纲差别大等问题。其次,将最优聚类法的聚类树和聚类中心提供给模糊C聚类法进行聚类并进行有效性分析并确定类别数;最后,聚类分析主要包括:由所得到的聚类数,重复进行聚类并还原数据输出聚类结果。该方法用于解决样本数量较大,特征向量维数较多用电行为模式分类问题,既可避免模糊C均值聚类法对初始参数的敏感性,又能取得分类准确客观的聚类效果。

Description

一种基于二次聚类的用电行为模式分类方法
技术领域
本发明涉及一种用电特性聚类分析的技术领域,具体的是一种基于二次聚类的用电行为模式分类方法。
背景技术
随着社会经济的飞速发展,我国的用电需求急剧增加,电力供应常常处于较紧张状态。在负荷高峰时,供需矛盾更加尖锐。一味的增加供电容量,不但需要大量的投资,而且在负荷低谷时,资产利用率不高。随着信息采集和处理技术的进步,对用户用电数据进行采集,基于大量数据分析负荷数据,对用电特性相同的用户进行归类,分析其用电行为特征具有重要意义。根据用户用电行为特征可以预测用户用电用电量,更加准确合理的安排电能生产工作。更进一步,根据用电特性,分析用户柔性用电潜力和影响用户用电因素,通过合理的引导,使用户用电行为符合电网调度要求,能够很大程度上使用户参加错峰调峰等,不仅能够保证电网安全,还可以减少用电量的损失。
然而电力用户纷繁复杂,难以做到对每个用户具体分析,而且单个用户用电行为随机性较大。对大量用户负荷数据进行分析归类意义重大。对具有相同用电行为特征的用户实施有针对性的用电方案引导对电网运行具有重要意义。目前对大量用电特性进行分析,普遍采用聚类分析方法。
发明内容
本发明所要解决的技术问题是提供一种基于二次聚类的用电行为模式分类方法,将输入样本数据进行数据处理,然后通过多种系统聚类方法形成聚类中心和聚类树,挑选出最优聚类树和聚类中心,提供给模糊C均值进行二次聚类的分析归类方法。
本发明的技术方案:
一种基于二次聚类的用电行为模式分类方法,包括以下具体步骤:
步骤一:读取负荷数据,采用横向处理、纵向处理和温度处理三个方法对非正常数据进行识别与处理;
步骤二:通过移动平均数法对数据进行平滑处理,减少噪音;
步骤三:采用极差归一化处理和加权处理解决量纲差别大的问题;
步骤四:使用不同聚类方法得到每种方法下的聚类树和聚类中心;
步骤五:通过Cophenetic相关系数选出最优聚类树和聚类中心;
步骤六:利用模糊C聚类法,以最优聚类法的聚类树和聚类中心进行聚类,选取效果最好的类别数作为最终确定的类别数;
步骤七:得到类别数后,重复步骤四到步骤六,进行模糊C聚类后还原数据并输出聚类后的结果。
优选的,步骤一所述的对非正常数据进行识别和处理三个方法:
横向处理认为短时间内数据横向相同,即样本日与附近同类日曲线相同,结合统计学原理,利用样本统计指标与设定阈值判断是否有非正常数据;
纵向处理认为短时间内数据纵向相同,即相隔15min的连续3个数据相对稳定,没有突变,结合统计学原理,利用样本统计指标与设定阈值判断是否有非正常数据;
温度处理认为某一温度下各日最大负荷数据是否小于30%的对应温度下的最大负荷数据的平均值,则认为此日为休息日或者限电日。
优选的,步骤二进行平滑处理,具体为:移动平均法对数据进行平滑处理,即对任意奇数个连续的点,将它们最中间的点的值替换为其他点的平均值,操作时将所有负荷点附近连续5个数据平均化,形成平滑后负荷序列,去除采集数据时随机性较强的毛刺数据。
优选的,步骤三解决量纲差别大等问题时,以当前元素值与观测值中最小值的差,除以观测值中最大值与最小值的差,即为归一化变换,经过极差归一化变换后每个元素的取值均在0~1之间;加权处理主要考虑特征向量中各维度特征值对负荷分类的不同贡献,聚类时对各维度特征值进行加权处理。
优选的,步骤四中不同聚类方法包括最短距离法、最长距离法、中间距离法、重心法、类平均法、离差平方和法和加权平均法。
优选的,步骤五选出最优聚类树和聚类中心,通过Cophenetic相关系数反映了聚类效果的好坏,Cophenetic相关系数越接近于1,说明聚类效果越好。
优选的,步骤六利用模糊C聚类法进行二次聚类,聚类中心由初次系统聚类提供,选择聚类效果最好的类别数作为最终确定的类别数。
优选的,步骤七根据类别数,重复系统聚类,选取最优聚类中心,模糊C均值二次聚类等步骤,并还原数据和输出聚类后的结果。
优选的,步骤五中通过Cophenetic相关系数选出最优聚类树和聚类中心具体步骤包括如下:
对变量观测矩阵,用y=(y1,y2,…,yn(n-1)/2)表示变量对距离向量,用(i,j)表示第i个变量和第j个变量构成的变量对;设d=(d1,d2,…,dn(n-1)/2),其中d1为第2个样品和第1个样品初次并为一类时的并类距离,d2为第3个样品和第1个样品初次并为一类时的并类距离;
Cophenetic相关系数是指y和d之间的线性相关系数,即
Figure BDA0002336049890000031
式中:
Figure BDA0002336049890000032
分别表示y与d中元素的平均值,计算公式为:
Figure BDA0002336049890000033
优选的,步骤六模糊C聚类的描述:
Figure BDA0002336049890000034
其中,m称为加权指数模糊C均值算法的聚类准则为的极小值,极值的约束条件为
Figure BDA0002336049890000035
式中:m称为加权指数,U是隶属度矩阵,P是聚类中心,μik是隶属函数,表示样本与子集的隶属关系,有μik∈[0,1]。隶属度矩阵U=[μik]c*k。dik表示第i类中的样本xk与第i类典型样本pi之间的距离,Jm(U,P)表示各类中样本与典型样本的误差平方和;
模糊C均值算法的聚类准则为取Jm(U,P)的极小值,极值的约束条件为
Figure BDA0002336049890000036
本发明的有益效果:
本发明方法用于解决样本数量较大,特征向量维数较多用电行为模式分类问题,既可避免模糊C均值聚类法对初始参数的敏感性,又能取得分类准确客观的聚类效果。
模糊C均值(FCM,Fuzzyc-Means)类型算法的理论最早是从硬聚类目标函数的优化中导出,在基于目标函数的聚类算法中最为完善且得到最广泛的应用。但是模糊C均值聚类法对初始参数具有很强的敏感性,本发明采用传统聚类方法为模糊C均值聚类法提供聚类树和聚类中心。考虑到样本数量较大,特征向量维数较多,采用一种聚类方法效果不是很理想,因此本文采用多种聚类方法得到聚类树和聚类中心,通过Cophenetic相关系数从中挑选最优聚类数和聚类中心,作为模糊C均值聚类法的聚类中心进行二次聚类。既可避免模糊C均值聚类法对初始参数的敏感性,又能取得分类准确客观的聚类效果。
附图说明
图1为一种基于二次聚类的用电行为模式分类方法流程图。
具体实施方式
如图1所示,本发明所要解决的技术问题是提供一种基于二次聚类的用电行为模式分类方法,将输入样本数据进行数据处理,然后通过多种系统聚类方法形成聚类中心和聚类树,挑选出最优聚类树和聚类中心,提供给模糊C均值进行二次聚类的分析归类方法。
步骤一:读取负荷数据,采用横向处理、纵向处理和温度处理三个方法对非正常数据进行识别与处理:
(1)横向处理
此处认为短时间内数据横向相同,即样本日与附近同类日曲线相同,结合统计学原理,利用样本统计指标与设定阈值判断是否有非正常数据:
第一步:横向识别中式(3)(4)计算序列的均值与方差。
Figure BDA0002336049890000041
Figure BDA0002336049890000042
式中:N表示观察日总数,xn,i表示第n个观察日第i个负荷数据,
Figure BDA0002336049890000043
即为计算序列的均值,
Figure BDA0002336049890000044
即为计算序列的方差。
第二步:再利用式(5)进行3σ原理的非正常数判断。
Figure BDA0002336049890000051
式中:ε为阈值,通常取1~1.5。
第三步:修正非正常数据。
Figure BDA0002336049890000052
如果式(5)满足,则xn,i即为非正常数据。可以利用式(6)权重修正数据,式中:α111=1,为权重系数;
Figure BDA0002336049890000053
为第n天第i点修正数据;xn±1,i为附近两个横向负荷点,
Figure BDA0002336049890000054
为距离xn,i最近的两个相同日负荷点。
(2)纵向处理
此处认为短时间内数据纵向相同,即相隔15min的连续3个数据相对稳定,没有突变,结合统计学原理,利用样本统计指标与设定阈值判断是否有非正常数据。
第一步:利用式(7)将某负荷点附近连续5个数据平均化,形成平滑后负荷序列。
Figure BDA0002336049890000055
第二步:判断原始数据与平滑后数据的误差是否满足式(9),如满足,则负荷点为非正常数据,δ为阈值,通常取0.08~0.15。
σn,i=|xn,.i-x'n,.i| (6)
σn,i>δx'n,.i (7)
第三步:修正非正常数据。
Figure BDA0002336049890000056
若负荷点为非正常数据,则可利用式(10)进行修正。
Figure BDA0002336049890000057
为修正后数据,xn,i-2,xn,i-1为第n天第i个负荷数据前面两个负荷点,xn,i+1,xn,i+2为第n天第i个数据后面两个负荷点,且α22=1。
(3)温度处理
由于本文研究的许多负荷为工业负荷,其中包含铸造、水泥制造、炼钢等高耗能负荷,它们的特点是通常进行连续生产,没有工作日和周末之分,休息日由每家企业视生产状况、设备状况而定,而为了保证能在单一变量下进行研究,希望在多维度负荷分类过程中剔除休息日和限电日负荷等的影响。又因为不同负控装置采集数据不相同,一天采集的负荷点可能为24个,也可能为48个,96个,负荷点较少时,用上述横向、纵向识别法存在困难,所以此处增加利用温度数据识别休息日和非正常数据:
第一步:
将日最大负荷数据
Figure BDA0002336049890000061
按照当日最高温度T进行排序。n表示数据采集日,P表示负荷点总数,T表示数据采集当日最高温度。
第二步:
依次求取对应各温度点的最大负荷数据平均值
Figure BDA0002336049890000062
M2-M1+1表示在T温度下的日总数。
第三步:
Figure BDA0002336049890000063
判断某一温度下各日最大负荷数据是否小于30%的对应温度下的最大负荷数据的平均值,如果式(11)成立,则认为此日为休息日或者限电日。
步骤二:通过移动平均数法对数据进行平滑处理,减少噪音。
由于大部分时间序列都存在噪音,某些值的大小会发生随机变化。实际上很多数据在采集时都存在噪音,因此需要通过对平滑处理的方式来减少噪音。本文使用最简单的移动平均法对数据进行平滑处理,即对任意奇数个连续的点,将它们最中间的点的值替换为其他点的平均值。
利用式(12)将所有负荷点附近连续5个数据平均化,形成平滑后负荷序列,去除采集数据时随机性较强的毛刺数据。
Figure BDA0002336049890000064
式中:x'n,i为平滑处理后的数据。
步骤三:采用极差归一化处理和加权处理解决量纲差别大等问题。
(1)极差归一化处理
设p维向量X=(X1,X2,...,Xp)的观测值矩阵为
Figure BDA0002336049890000065
对于式(13)的观测值矩阵X,极差归一化变换后的矩阵为:
Figure BDA0002336049890000071
其中
Figure BDA0002336049890000072
这里
Figure BDA0002336049890000073
为变量Xi的观测值的最小值,
Figure BDA0002336049890000074
为变量Xi的观测值的极差,经过极差归一化变换后,矩阵XR的每个元素的取值均在0~1之间。
(2)加权处理
在聚类算法中,都隐含待分析样品提取的特征向量各维度对分类的贡献一致,忽略各维度对分类的影响不同。而在实际应用中,由于构成样品特征向量的各维度有着不同的物理含义,量纲、精度,重要性及可靠性等方面都可能存在不同,直接进行聚类分析有一定的局限。
本文引入加权的模糊聚类算法,将考虑特征向量中各维度特征值对负荷分类的不同贡献。作为配置电力资源的一种重要的经济手段,国家一直都鼓励和提倡实行峰谷分时电价政策。国家发改委多次下发文件,要求各地加大实行峰谷分时电价的力度,峰谷分时电价的峰、谷时段电价价差要提高至2-5倍之间,对电力供应紧缺的地区,可在尖峰时段再叠加实行尖峰电价,电价水平可适当高于高峰时段电价。
因此,有必要考虑不同时段负荷的重要性,使得在峰、平、谷特定时段具有最接近用电特性的用户划分到一类。作为研究探讨,本文设定负荷曲线高峰时段各点的权值为3(8:00-12:00,17:00-21:00),即认为工作时段的权重较高,而夜间休息时段的权重较低。在提取其他维度特征向量时,也可以效仿按电价设定权重的做法,对不同维度特征值设定不同的权值,使分类结果更能说明目标问题。
步骤四:使用最短距离法、最长距离法、中间距离法、重心法、类平均法、离差平方和法、加权平均法聚类方法得到每种方法下的聚类树和聚类中心;
聚类分析中,通常用G来表示类,假定G中有m个元素,不失一般化,用列向量xi(i=1,2,...,m)来表示,dij表示元素xi与xj间距离,DKL表示类GK与类GL之间的距离。
(1)最短距离法(singlelinkagemethod)
定义类与类之间的距离为两类最近样品间的距离,即
DKL=min{dij:xi∈Gk,xj∈GL} (13)
若某一步类Gk与类GL聚成一个新类,记为GM,类GM与任意已有类GJ之间的距离为
DMJ=min{DKJ,DLJ},J≠K,L (14)
最短距离法聚类的步骤如下:
①将初始的每个样品各自作为一类,并规定样品之间的距离,通常采用欧氏距离。计算n个样品的距离矩阵D(0)。它是一个对称矩阵。
②寻找D(0)中最小元素,设为DKL,将Gk和GL聚成一个新类,记为GM,即GM={Gk,GL}。
③计算新类GM与任一类GJ之间距离的递推公式为:
Figure BDA0002336049890000081
对距离矩阵D(0)进行修改,将Gk和GL所在行和列合并成一个新行新列,对应GM,新行和新列上的距离由式(17)计算,其余行列上的值不变,这样得到的新距离矩阵记为D(1)
④对D(1)重复上述对D(0)的2步操作,得到距离矩阵D(2);如此下去,直至所有元素合并成一类为止。
(2)最长距离法(completelinkagemethod)
类与类之间的距离定义为两类最远样品间的距离,即:
DKL=max{dij:xi∈Gk,xj∈GL} (16)
类间距离的递推公式为:
DMJ=max{DKJ,DLJ},J≠K,L (17)
(3)中间距离法(medianmethod)
类与类之间的距离采用中间距离。设某一步将类Gk与类GL聚成一个新类,记为GM,对于任一类GJ,考虑由DKJ、DLJ和DKL为边长构成的三角形,取DKL边的中线记作DMJ。从而得类间平方距离的递推公式为:
Figure BDA0002336049890000082
式(18)可推广至更一般的情况
Figure BDA0002336049890000083
其中,β为权重系数,β<1,式(21)对应的系统聚类方法称为可变法。
(4)重心法(centroidhierarchicalmethod)
类与类之间的距离定义为它们的重心(即类均值)之间的欧氏距离。设Gk中有nk个元素,GL中有nL个元素,定义类Gk和GL的重心分别为:
Figure BDA0002336049890000091
则Gk和GL之间的平方距离为:
Figure BDA0002336049890000092
类间平方距离的递推公式为:
Figure BDA0002336049890000093
(5)类平均法(averagelinkagemethod)
类与类之间的平方距离定义为样品对之间平方距离的平均值。Gk和GL之间的平方距距离为:
Figure BDA0002336049890000094
类间平方距离的递推公式为:
Figure BDA0002336049890000095
类平均法很好地利用了所有样品之间的信息,在很多情况下它被认为是一种比较好的系统聚类法。
可在式(26)中增加
Figure BDA0002336049890000096
项,得到类间平方距离的递推公式为:
Figure BDA0002336049890000097
(6)离差平方和(Ward法)
离差平方和又称为Ward法,它是把方差分析的思想用于分类上,同一个类内的离差平方和小,而类间离差平方和应当大。类中各元素到类重心(即类均值)的平方欧氏距离之和称为类内离差平方和。设某一步Gk和GL聚成一个新类GM,则Gk、GL和GM的类内离差平方和分别为:
Figure BDA0002336049890000098
Figure BDA0002336049890000099
Figure BDA0002336049890000101
它们反映了类内元素的分散程度,将Gk与GL合并成新类GM时,类内离差平方和会有所增加,即WM-(WK+WL)>0,若Gk与GL距离比较近,则增加的离差平方和应较小,于是定义Gk与GL平方距离为:
Figure BDA0002336049890000102
类间平方距离的递推公式为:
Figure BDA0002336049890000103
(7)系统聚类法的统一
通常有8种系统聚类法,它们的不同之处就在于类间距离的递推公式不一样。8种不同的距离计算公式统一为:
Figure BDA0002336049890000104
其中,αK,αL,β,γ为参数,不同的系统聚类法,对应参数的不同取值,具体对应关系如表1所列。
表1系统聚类法递推公式参数表
Figure BDA0002336049890000105
步骤五:通过Cophenetic相关系数选出最优聚类树和聚类中心;
对于同样的观测数据,用不同的方法进行聚类,得到的结果可能并不完全相同,通过以下的Cophenetic相关系数进行判断:
对变量观测矩阵,用y=(y1,y2,…,yn(n-1)/2)表示变量对距离向量,用(i,j)表示第i个变量和第j个变量构成的变量对。设d=(d1,d2,…,dn(n-1)/2),其中d1为第2个样品和第1个样品初次并为一类时的并类距离,d2为第3个样品和第1个样品初次并为一类时的并类距离,其余类似。
Cophenetic相关系数是指y和d之间的线性相关系数,即
Figure BDA0002336049890000111
式中:
Figure BDA0002336049890000112
分别表示y与d中元素的平均值,计算公式为:
Figure BDA0002336049890000113
Figure BDA0002336049890000114
步骤六:利用模糊C聚类法,以最优聚类法的聚类树和聚类中心进行聚类,选取效果最好的类别数作为最终确定的类别数。
模糊C聚类一般的描述:
Figure BDA0002336049890000115
式中:m称为加权指数,U是隶属度矩阵,P是聚类中心,μik是隶属函数,表示样本与子集的隶属关系,有μik∈[0,1]。隶属度矩阵U=[μik]c*k。dik表示第i类中的样本xk与第i类典型样本pi之间的距离,Jm(U,P)表示各类中样本与典型样本的误差平方和。
模糊C均值算法的聚类准则为取Jm(U,P)的极小值,极值的约束条件为
Figure BDA0002336049890000116
步骤七:得到类别数后,重复步骤四到步骤六,进行模糊C聚类后还原数据并输出聚类后的结果。

Claims (10)

1.一种基于二次聚类的用电行为模式分类方法,其特征在于,包括以下具体步骤:
步骤一:读取负荷数据,采用横向处理、纵向处理和温度处理三个方法对非正常数据进行识别与处理;
步骤二:通过移动平均数法对数据进行平滑处理,减少噪音;
步骤三:采用极差归一化处理和加权处理解决量纲差别大的问题;
步骤四:使用不同聚类方法得到每种方法下的聚类树和聚类中心;
步骤五:通过Cophenetic相关系数选出最优聚类树和聚类中心;
步骤六:利用模糊C聚类法,以最优聚类法的聚类树和聚类中心进行聚类,选取效果最好的类别数作为最终确定的类别数;
步骤七:得到类别数后,重复步骤四到步骤六,进行模糊C聚类后还原数据并输出聚类后的结果。
2.根据权利要求1所述的一种基于二次聚类的用电行为模式分类方法,其特征在于,步骤一所述的对非正常数据进行识别和处理三个方法:
横向处理认为短时间内数据横向相同,即样本日与附近同类日曲线相同,结合统计学原理,利用样本统计指标与设定阈值判断是否有非正常数据;
纵向处理认为短时间内数据纵向相同,即相隔15min的连续3个数据相对稳定,没有突变,结合统计学原理,利用样本统计指标与设定阈值判断是否有非正常数据;
温度处理认为某一温度下各日最大负荷数据是否小于30%的对应温度下的最大负荷数据的平均值,则认为此日为休息日或者限电日。
3.根据如权利要求1所述的一种基于二次聚类的用电行为模式分类方法,其特征在于,步骤二进行平滑处理,具体为:移动平均法对数据进行平滑处理,即对任意奇数个连续的点,将它们最中间的点的值替换为其他点的平均值,操作时将所有负荷点附近连续5个数据平均化,形成平滑后负荷序列,去除采集数据时的毛刺数据。
4.根据如权利要求1所述的一种基于二次聚类的用电行为模式分类方法,其特征在于,步骤三解决量纲差别大的问题时,以当前元素值与观测值中最小值的差,除以观测值中最大值与最小值的差,即为归一化变换,经过极差归一化变换后每个元素的取值均在0~1之间;加权处理考虑特征向量中各维度特征值对负荷分类的不同贡献,聚类时对各维度特征值进行加权处理。
5.根据如权利要求1所述的一种基于二次聚类的用电行为模式分类方法,其特征在于,步骤四中不同聚类方法包括最短距离法、最长距离法、中间距离法、重心法、类平均法、离差平方和法和加权平均法。
6.根据如权利要求1所述的一种基于二次聚类的用电行为模式分类方法,其特征在于,步骤五选出最优聚类树和聚类中心,通过Cophenetic相关系数反映了聚类效果的好坏,Cophenetic相关系数越接近于1,说明聚类效果越好。
7.根据如权利要求1所述的一种基于二次聚类的用电行为模式分类方法,其特征在于,步骤六利用模糊C聚类法进行二次聚类,聚类中心由初次系统聚类提供,选择聚类效果最好的类别数作为最终确定的类别数。
8.根据如权利要求1所述的一种基于二次聚类的用电行为模式分类方法,其特征在于,步骤七根据类别数,重复系统聚类,选取最优聚类中心,模糊C均值二次聚类等步骤,并还原数据和输出聚类后的结果。
9.根据如权利要求1所述的一种基于二次聚类的用电行为模式分类方法,其特征在于,步骤五中通过Cophenetic相关系数选出最优聚类树和聚类中心具体步骤包括如下:
对变量观测矩阵,用y=(y1,y2,…,yn(n-1)/2)表示变量对距离向量,用(i,j)表示第i个变量和第j个变量构成的变量对;设d=(d1,d2,…,dn(n-1)/2),其中d1为第2个样品和第1个样品初次并为一类时的并类距离,d2为第3个样品和第1个样品初次并为一类时的并类距离;
Cophenetic相关系数是指y和d之间的线性相关系数,即
Figure FDA0002336049880000021
式中:
Figure FDA0002336049880000022
分别表示y与d中元素的平均值,计算公式为:
Figure FDA0002336049880000023
10.根据如权利要求1所述的一种基于二次聚类的用电行为模式分类方法,其特征在于,步骤六模糊C聚类的描述:
Figure FDA0002336049880000031
其中,m称为加权指数模糊C均值算法的聚类准则为的极小值,极值的约束条件为
Figure FDA0002336049880000032
式中:m称为加权指数,U是隶属度矩阵,P是聚类中心,μik是隶属函数,表示样本与子集的隶属关系,有μik∈[0,1]。隶属度矩阵U=[μik]c*k。dik表示第i类中的样本xk与第i类典型样本pi之间的距离,Jm(U,P)表示各类中样本与典型样本的误差平方和;
模糊C均值算法的聚类准则为取Jm(U,P)的极小值,极值的约束条件为
Figure FDA0002336049880000033
CN201911361607.1A 2019-12-25 2019-12-25 一种基于二次聚类的用电行为模式分类方法 Pending CN111126499A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911361607.1A CN111126499A (zh) 2019-12-25 2019-12-25 一种基于二次聚类的用电行为模式分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911361607.1A CN111126499A (zh) 2019-12-25 2019-12-25 一种基于二次聚类的用电行为模式分类方法

Publications (1)

Publication Number Publication Date
CN111126499A true CN111126499A (zh) 2020-05-08

Family

ID=70502626

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911361607.1A Pending CN111126499A (zh) 2019-12-25 2019-12-25 一种基于二次聚类的用电行为模式分类方法

Country Status (1)

Country Link
CN (1) CN111126499A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449793A (zh) * 2021-06-28 2021-09-28 国网北京市电力公司 用电状态的确定方法及装置
CN114626409A (zh) * 2022-02-21 2022-06-14 中铁第四勘察设计院集团有限公司 一种近断层加速度脉冲识别方法、存储介质及计算机设备
CN115018119A (zh) * 2022-04-26 2022-09-06 河北大学 用电负荷预测方法及系统
CN117992856A (zh) * 2024-04-03 2024-05-07 国网山东省电力公司营销服务中心(计量中心) 用户用电行为分析方法、系统、设备、介质及程序产品

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104200275A (zh) * 2014-06-24 2014-12-10 国家电网公司 基于用户行为特点的用电模式分类和控制方法
CN106408008A (zh) * 2016-09-08 2017-02-15 国网江西省电力公司赣州供电分公司 一种基于负荷曲线距离和形状的负荷分类方法
US20170161606A1 (en) * 2015-12-06 2017-06-08 Beijing University Of Technology Clustering method based on iterations of neural networks

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104200275A (zh) * 2014-06-24 2014-12-10 国家电网公司 基于用户行为特点的用电模式分类和控制方法
US20170161606A1 (en) * 2015-12-06 2017-06-08 Beijing University Of Technology Clustering method based on iterations of neural networks
CN106408008A (zh) * 2016-09-08 2017-02-15 国网江西省电力公司赣州供电分公司 一种基于负荷曲线距离和形状的负荷分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
宗柳等: "计及需求响应的多维度用电特征精细挖掘", 《电力系统自动化》 *
谢中华: "《MATLAB统计分析与应用:40个案例分析》", 31 May 2015 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449793A (zh) * 2021-06-28 2021-09-28 国网北京市电力公司 用电状态的确定方法及装置
CN114626409A (zh) * 2022-02-21 2022-06-14 中铁第四勘察设计院集团有限公司 一种近断层加速度脉冲识别方法、存储介质及计算机设备
CN114626409B (zh) * 2022-02-21 2023-09-26 中铁第四勘察设计院集团有限公司 一种近断层加速度脉冲识别方法、存储介质及计算机设备
CN115018119A (zh) * 2022-04-26 2022-09-06 河北大学 用电负荷预测方法及系统
CN117992856A (zh) * 2024-04-03 2024-05-07 国网山东省电力公司营销服务中心(计量中心) 用户用电行为分析方法、系统、设备、介质及程序产品

Similar Documents

Publication Publication Date Title
CN111126499A (zh) 一种基于二次聚类的用电行为模式分类方法
CN111199016B (zh) 一种基于DTW的改进K-means的日负荷曲线聚类方法
Ye et al. A novel forecasting method based on multi-order fuzzy time series and technical analysis
CN108681744B (zh) 一种基于数据划分的电力负荷曲线层次聚类方法
CN106096805A (zh) 一种基于熵权法特征选择的居民用电负荷分类方法
CN108428055B (zh) 一种考虑负荷纵向特性的负荷聚类方法
CN113393028B (zh) 一种基于数据挖掘技术的负荷预测方法
CN111460001B (zh) 一种配电网理论线损率评估方法及系统
CN111784093B (zh) 一种基于电力大数据分析的企业复工辅助判断方法
Jain et al. Validating clustering frameworks for electric load demand profiles
CN112884590A (zh) 基于机器学习算法的电网企业融资决策方法
CN103853939A (zh) 一种基于社会经济因素影响的电力系统月度负荷的组合预测方法
CN111815060A (zh) 一种用电地区短期负荷预测方法及装置
CN111339167A (zh) 基于K-means和主成分线性回归的台区线损率影响因素分析方法
CN111798333A (zh) 一种用能评估与用电安全分析方法和系统
CN109389517B (zh) 一种量化线路损耗影响因素的分析方法及装置
CN107274025B (zh) 一种实现用电模式智能识别与管理的系统和方法
CN114266457A (zh) 一种配电线路异损诱因检测的方法
CN113688960A (zh) 基于灰狼优化ghfcm的居民电力数据聚类方法及装置
CN109784748B (zh) 一种市场竞争机制下用户用电行为辨识方法及装置
CN111931992A (zh) 一种电力负荷预测指标选取方法及装置
CN115994784A (zh) 一种价格确定模型及其构建方法
CN112419084B (zh) 一种配电网设备利用率的优化方法及装置
CN114626429A (zh) 一种新能源大数据分类与可疑数据处理方法
CN114266593A (zh) 一种基于kpca和线性回归的电力消费预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200508

RJ01 Rejection of invention patent application after publication