CN111126499A - 一种基于二次聚类的用电行为模式分类方法 - Google Patents
一种基于二次聚类的用电行为模式分类方法 Download PDFInfo
- Publication number
- CN111126499A CN111126499A CN201911361607.1A CN201911361607A CN111126499A CN 111126499 A CN111126499 A CN 111126499A CN 201911361607 A CN201911361607 A CN 201911361607A CN 111126499 A CN111126499 A CN 111126499A
- Authority
- CN
- China
- Prior art keywords
- clustering
- data
- processing
- power consumption
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 114
- 238000012545 processing Methods 0.000 claims abstract description 43
- 230000002159 abnormal effect Effects 0.000 claims abstract description 19
- 239000013598 vector Substances 0.000 claims abstract description 14
- 230000000694 effects Effects 0.000 claims abstract description 13
- 238000010606 normalization Methods 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 17
- 230000005611 electricity Effects 0.000 claims description 14
- 238000009499 grossing Methods 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 7
- 230000009897 systematic effect Effects 0.000 claims description 6
- 230000005484 gravity Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000035772 mutation Effects 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 6
- 230000035945 sensitivity Effects 0.000 abstract description 4
- 238000007621 cluster analysis Methods 0.000 abstract description 3
- 239000010755 BS 2869 Class G Substances 0.000 description 13
- 230000006399 behavior Effects 0.000 description 12
- 235000012571 Ficus glomerata Nutrition 0.000 description 4
- 244000153665 Ficus glomerata Species 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 3
- 239000006185 dispersion Substances 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000013480 data collection Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000001154 acute effect Effects 0.000 description 1
- 238000000540 analysis of variance Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005266 casting Methods 0.000 description 1
- 239000004568 cement Substances 0.000 description 1
- 238000010924 continuous production Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004313 glare Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000009628 steelmaking Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Economics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Public Health (AREA)
- Tourism & Hospitality (AREA)
- Primary Health Care (AREA)
- Human Resources & Organizations (AREA)
- General Health & Medical Sciences (AREA)
- Water Supply & Treatment (AREA)
- Probability & Statistics with Applications (AREA)
- Game Theory and Decision Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于二次聚类的用电行为模式分类方法,主要包括三部分。首先,采用横向处理、纵向处理和温度处理三个方法将大量负荷数据中非正常数进行识别与处理;通过移动平均数法对数据进行处理,减少噪音;采用极差归一化处理和加权处理解决量纲差别大等问题。其次,将最优聚类法的聚类树和聚类中心提供给模糊C聚类法进行聚类并进行有效性分析并确定类别数;最后,聚类分析主要包括:由所得到的聚类数,重复进行聚类并还原数据输出聚类结果。该方法用于解决样本数量较大,特征向量维数较多用电行为模式分类问题,既可避免模糊C均值聚类法对初始参数的敏感性,又能取得分类准确客观的聚类效果。
Description
技术领域
本发明涉及一种用电特性聚类分析的技术领域,具体的是一种基于二次聚类的用电行为模式分类方法。
背景技术
随着社会经济的飞速发展,我国的用电需求急剧增加,电力供应常常处于较紧张状态。在负荷高峰时,供需矛盾更加尖锐。一味的增加供电容量,不但需要大量的投资,而且在负荷低谷时,资产利用率不高。随着信息采集和处理技术的进步,对用户用电数据进行采集,基于大量数据分析负荷数据,对用电特性相同的用户进行归类,分析其用电行为特征具有重要意义。根据用户用电行为特征可以预测用户用电用电量,更加准确合理的安排电能生产工作。更进一步,根据用电特性,分析用户柔性用电潜力和影响用户用电因素,通过合理的引导,使用户用电行为符合电网调度要求,能够很大程度上使用户参加错峰调峰等,不仅能够保证电网安全,还可以减少用电量的损失。
然而电力用户纷繁复杂,难以做到对每个用户具体分析,而且单个用户用电行为随机性较大。对大量用户负荷数据进行分析归类意义重大。对具有相同用电行为特征的用户实施有针对性的用电方案引导对电网运行具有重要意义。目前对大量用电特性进行分析,普遍采用聚类分析方法。
发明内容
本发明所要解决的技术问题是提供一种基于二次聚类的用电行为模式分类方法,将输入样本数据进行数据处理,然后通过多种系统聚类方法形成聚类中心和聚类树,挑选出最优聚类树和聚类中心,提供给模糊C均值进行二次聚类的分析归类方法。
本发明的技术方案:
一种基于二次聚类的用电行为模式分类方法,包括以下具体步骤:
步骤一:读取负荷数据,采用横向处理、纵向处理和温度处理三个方法对非正常数据进行识别与处理;
步骤二:通过移动平均数法对数据进行平滑处理,减少噪音;
步骤三:采用极差归一化处理和加权处理解决量纲差别大的问题;
步骤四:使用不同聚类方法得到每种方法下的聚类树和聚类中心;
步骤五:通过Cophenetic相关系数选出最优聚类树和聚类中心;
步骤六:利用模糊C聚类法,以最优聚类法的聚类树和聚类中心进行聚类,选取效果最好的类别数作为最终确定的类别数;
步骤七:得到类别数后,重复步骤四到步骤六,进行模糊C聚类后还原数据并输出聚类后的结果。
优选的,步骤一所述的对非正常数据进行识别和处理三个方法:
横向处理认为短时间内数据横向相同,即样本日与附近同类日曲线相同,结合统计学原理,利用样本统计指标与设定阈值判断是否有非正常数据;
纵向处理认为短时间内数据纵向相同,即相隔15min的连续3个数据相对稳定,没有突变,结合统计学原理,利用样本统计指标与设定阈值判断是否有非正常数据;
温度处理认为某一温度下各日最大负荷数据是否小于30%的对应温度下的最大负荷数据的平均值,则认为此日为休息日或者限电日。
优选的,步骤二进行平滑处理,具体为:移动平均法对数据进行平滑处理,即对任意奇数个连续的点,将它们最中间的点的值替换为其他点的平均值,操作时将所有负荷点附近连续5个数据平均化,形成平滑后负荷序列,去除采集数据时随机性较强的毛刺数据。
优选的,步骤三解决量纲差别大等问题时,以当前元素值与观测值中最小值的差,除以观测值中最大值与最小值的差,即为归一化变换,经过极差归一化变换后每个元素的取值均在0~1之间;加权处理主要考虑特征向量中各维度特征值对负荷分类的不同贡献,聚类时对各维度特征值进行加权处理。
优选的,步骤四中不同聚类方法包括最短距离法、最长距离法、中间距离法、重心法、类平均法、离差平方和法和加权平均法。
优选的,步骤五选出最优聚类树和聚类中心,通过Cophenetic相关系数反映了聚类效果的好坏,Cophenetic相关系数越接近于1,说明聚类效果越好。
优选的,步骤六利用模糊C聚类法进行二次聚类,聚类中心由初次系统聚类提供,选择聚类效果最好的类别数作为最终确定的类别数。
优选的,步骤七根据类别数,重复系统聚类,选取最优聚类中心,模糊C均值二次聚类等步骤,并还原数据和输出聚类后的结果。
优选的,步骤五中通过Cophenetic相关系数选出最优聚类树和聚类中心具体步骤包括如下:
对变量观测矩阵,用y=(y1,y2,…,yn(n-1)/2)表示变量对距离向量,用(i,j)表示第i个变量和第j个变量构成的变量对;设d=(d1,d2,…,dn(n-1)/2),其中d1为第2个样品和第1个样品初次并为一类时的并类距离,d2为第3个样品和第1个样品初次并为一类时的并类距离;
Cophenetic相关系数是指y和d之间的线性相关系数,即
优选的,步骤六模糊C聚类的描述:
式中:m称为加权指数,U是隶属度矩阵,P是聚类中心,μik是隶属函数,表示样本与子集的隶属关系,有μik∈[0,1]。隶属度矩阵U=[μik]c*k。dik表示第i类中的样本xk与第i类典型样本pi之间的距离,Jm(U,P)表示各类中样本与典型样本的误差平方和;
本发明的有益效果:
本发明方法用于解决样本数量较大,特征向量维数较多用电行为模式分类问题,既可避免模糊C均值聚类法对初始参数的敏感性,又能取得分类准确客观的聚类效果。
模糊C均值(FCM,Fuzzyc-Means)类型算法的理论最早是从硬聚类目标函数的优化中导出,在基于目标函数的聚类算法中最为完善且得到最广泛的应用。但是模糊C均值聚类法对初始参数具有很强的敏感性,本发明采用传统聚类方法为模糊C均值聚类法提供聚类树和聚类中心。考虑到样本数量较大,特征向量维数较多,采用一种聚类方法效果不是很理想,因此本文采用多种聚类方法得到聚类树和聚类中心,通过Cophenetic相关系数从中挑选最优聚类数和聚类中心,作为模糊C均值聚类法的聚类中心进行二次聚类。既可避免模糊C均值聚类法对初始参数的敏感性,又能取得分类准确客观的聚类效果。
附图说明
图1为一种基于二次聚类的用电行为模式分类方法流程图。
具体实施方式
如图1所示,本发明所要解决的技术问题是提供一种基于二次聚类的用电行为模式分类方法,将输入样本数据进行数据处理,然后通过多种系统聚类方法形成聚类中心和聚类树,挑选出最优聚类树和聚类中心,提供给模糊C均值进行二次聚类的分析归类方法。
步骤一:读取负荷数据,采用横向处理、纵向处理和温度处理三个方法对非正常数据进行识别与处理:
(1)横向处理
此处认为短时间内数据横向相同,即样本日与附近同类日曲线相同,结合统计学原理,利用样本统计指标与设定阈值判断是否有非正常数据:
第一步:横向识别中式(3)(4)计算序列的均值与方差。
第二步:再利用式(5)进行3σ原理的非正常数判断。
式中:ε为阈值,通常取1~1.5。
第三步:修正非正常数据。
如果式(5)满足,则xn,i即为非正常数据。可以利用式(6)权重修正数据,式中:α1+β1+γ1=1,为权重系数;为第n天第i点修正数据;xn±1,i为附近两个横向负荷点,为距离xn,i最近的两个相同日负荷点。
(2)纵向处理
此处认为短时间内数据纵向相同,即相隔15min的连续3个数据相对稳定,没有突变,结合统计学原理,利用样本统计指标与设定阈值判断是否有非正常数据。
第一步:利用式(7)将某负荷点附近连续5个数据平均化,形成平滑后负荷序列。
第二步:判断原始数据与平滑后数据的误差是否满足式(9),如满足,则负荷点为非正常数据,δ为阈值,通常取0.08~0.15。
σn,i=|xn,.i-x'n,.i| (6)
σn,i>δx'n,.i (7)
第三步:修正非正常数据。
若负荷点为非正常数据,则可利用式(10)进行修正。为修正后数据,xn,i-2,xn,i-1为第n天第i个负荷数据前面两个负荷点,xn,i+1,xn,i+2为第n天第i个数据后面两个负荷点,且α2+β2=1。
(3)温度处理
由于本文研究的许多负荷为工业负荷,其中包含铸造、水泥制造、炼钢等高耗能负荷,它们的特点是通常进行连续生产,没有工作日和周末之分,休息日由每家企业视生产状况、设备状况而定,而为了保证能在单一变量下进行研究,希望在多维度负荷分类过程中剔除休息日和限电日负荷等的影响。又因为不同负控装置采集数据不相同,一天采集的负荷点可能为24个,也可能为48个,96个,负荷点较少时,用上述横向、纵向识别法存在困难,所以此处增加利用温度数据识别休息日和非正常数据:
第一步:
第二步:
第三步:
判断某一温度下各日最大负荷数据是否小于30%的对应温度下的最大负荷数据的平均值,如果式(11)成立,则认为此日为休息日或者限电日。
步骤二:通过移动平均数法对数据进行平滑处理,减少噪音。
由于大部分时间序列都存在噪音,某些值的大小会发生随机变化。实际上很多数据在采集时都存在噪音,因此需要通过对平滑处理的方式来减少噪音。本文使用最简单的移动平均法对数据进行平滑处理,即对任意奇数个连续的点,将它们最中间的点的值替换为其他点的平均值。
利用式(12)将所有负荷点附近连续5个数据平均化,形成平滑后负荷序列,去除采集数据时随机性较强的毛刺数据。
式中:x'n,i为平滑处理后的数据。
步骤三:采用极差归一化处理和加权处理解决量纲差别大等问题。
(1)极差归一化处理
设p维向量X=(X1,X2,...,Xp)的观测值矩阵为
对于式(13)的观测值矩阵X,极差归一化变换后的矩阵为:
(2)加权处理
在聚类算法中,都隐含待分析样品提取的特征向量各维度对分类的贡献一致,忽略各维度对分类的影响不同。而在实际应用中,由于构成样品特征向量的各维度有着不同的物理含义,量纲、精度,重要性及可靠性等方面都可能存在不同,直接进行聚类分析有一定的局限。
本文引入加权的模糊聚类算法,将考虑特征向量中各维度特征值对负荷分类的不同贡献。作为配置电力资源的一种重要的经济手段,国家一直都鼓励和提倡实行峰谷分时电价政策。国家发改委多次下发文件,要求各地加大实行峰谷分时电价的力度,峰谷分时电价的峰、谷时段电价价差要提高至2-5倍之间,对电力供应紧缺的地区,可在尖峰时段再叠加实行尖峰电价,电价水平可适当高于高峰时段电价。
因此,有必要考虑不同时段负荷的重要性,使得在峰、平、谷特定时段具有最接近用电特性的用户划分到一类。作为研究探讨,本文设定负荷曲线高峰时段各点的权值为3(8:00-12:00,17:00-21:00),即认为工作时段的权重较高,而夜间休息时段的权重较低。在提取其他维度特征向量时,也可以效仿按电价设定权重的做法,对不同维度特征值设定不同的权值,使分类结果更能说明目标问题。
步骤四:使用最短距离法、最长距离法、中间距离法、重心法、类平均法、离差平方和法、加权平均法聚类方法得到每种方法下的聚类树和聚类中心;
聚类分析中,通常用G来表示类,假定G中有m个元素,不失一般化,用列向量xi(i=1,2,...,m)来表示,dij表示元素xi与xj间距离,DKL表示类GK与类GL之间的距离。
(1)最短距离法(singlelinkagemethod)
定义类与类之间的距离为两类最近样品间的距离,即
DKL=min{dij:xi∈Gk,xj∈GL} (13)
若某一步类Gk与类GL聚成一个新类,记为GM,类GM与任意已有类GJ之间的距离为
DMJ=min{DKJ,DLJ},J≠K,L (14)
最短距离法聚类的步骤如下:
①将初始的每个样品各自作为一类,并规定样品之间的距离,通常采用欧氏距离。计算n个样品的距离矩阵D(0)。它是一个对称矩阵。
②寻找D(0)中最小元素,设为DKL,将Gk和GL聚成一个新类,记为GM,即GM={Gk,GL}。
③计算新类GM与任一类GJ之间距离的递推公式为:
对距离矩阵D(0)进行修改,将Gk和GL所在行和列合并成一个新行新列,对应GM,新行和新列上的距离由式(17)计算,其余行列上的值不变,这样得到的新距离矩阵记为D(1)。
④对D(1)重复上述对D(0)的2步操作,得到距离矩阵D(2);如此下去,直至所有元素合并成一类为止。
(2)最长距离法(completelinkagemethod)
类与类之间的距离定义为两类最远样品间的距离,即:
DKL=max{dij:xi∈Gk,xj∈GL} (16)
类间距离的递推公式为:
DMJ=max{DKJ,DLJ},J≠K,L (17)
(3)中间距离法(medianmethod)
类与类之间的距离采用中间距离。设某一步将类Gk与类GL聚成一个新类,记为GM,对于任一类GJ,考虑由DKJ、DLJ和DKL为边长构成的三角形,取DKL边的中线记作DMJ。从而得类间平方距离的递推公式为:
式(18)可推广至更一般的情况
其中,β为权重系数,β<1,式(21)对应的系统聚类方法称为可变法。
(4)重心法(centroidhierarchicalmethod)
类与类之间的距离定义为它们的重心(即类均值)之间的欧氏距离。设Gk中有nk个元素,GL中有nL个元素,定义类Gk和GL的重心分别为:
则Gk和GL之间的平方距离为:
类间平方距离的递推公式为:
(5)类平均法(averagelinkagemethod)
类与类之间的平方距离定义为样品对之间平方距离的平均值。Gk和GL之间的平方距距离为:
类间平方距离的递推公式为:
类平均法很好地利用了所有样品之间的信息,在很多情况下它被认为是一种比较好的系统聚类法。
(6)离差平方和(Ward法)
离差平方和又称为Ward法,它是把方差分析的思想用于分类上,同一个类内的离差平方和小,而类间离差平方和应当大。类中各元素到类重心(即类均值)的平方欧氏距离之和称为类内离差平方和。设某一步Gk和GL聚成一个新类GM,则Gk、GL和GM的类内离差平方和分别为:
它们反映了类内元素的分散程度,将Gk与GL合并成新类GM时,类内离差平方和会有所增加,即WM-(WK+WL)>0,若Gk与GL距离比较近,则增加的离差平方和应较小,于是定义Gk与GL平方距离为:
类间平方距离的递推公式为:
(7)系统聚类法的统一
通常有8种系统聚类法,它们的不同之处就在于类间距离的递推公式不一样。8种不同的距离计算公式统一为:
其中,αK,αL,β,γ为参数,不同的系统聚类法,对应参数的不同取值,具体对应关系如表1所列。
表1系统聚类法递推公式参数表
步骤五:通过Cophenetic相关系数选出最优聚类树和聚类中心;
对于同样的观测数据,用不同的方法进行聚类,得到的结果可能并不完全相同,通过以下的Cophenetic相关系数进行判断:
对变量观测矩阵,用y=(y1,y2,…,yn(n-1)/2)表示变量对距离向量,用(i,j)表示第i个变量和第j个变量构成的变量对。设d=(d1,d2,…,dn(n-1)/2),其中d1为第2个样品和第1个样品初次并为一类时的并类距离,d2为第3个样品和第1个样品初次并为一类时的并类距离,其余类似。
Cophenetic相关系数是指y和d之间的线性相关系数,即
步骤六:利用模糊C聚类法,以最优聚类法的聚类树和聚类中心进行聚类,选取效果最好的类别数作为最终确定的类别数。
模糊C聚类一般的描述:
式中:m称为加权指数,U是隶属度矩阵,P是聚类中心,μik是隶属函数,表示样本与子集的隶属关系,有μik∈[0,1]。隶属度矩阵U=[μik]c*k。dik表示第i类中的样本xk与第i类典型样本pi之间的距离,Jm(U,P)表示各类中样本与典型样本的误差平方和。
步骤七:得到类别数后,重复步骤四到步骤六,进行模糊C聚类后还原数据并输出聚类后的结果。
Claims (10)
1.一种基于二次聚类的用电行为模式分类方法,其特征在于,包括以下具体步骤:
步骤一:读取负荷数据,采用横向处理、纵向处理和温度处理三个方法对非正常数据进行识别与处理;
步骤二:通过移动平均数法对数据进行平滑处理,减少噪音;
步骤三:采用极差归一化处理和加权处理解决量纲差别大的问题;
步骤四:使用不同聚类方法得到每种方法下的聚类树和聚类中心;
步骤五:通过Cophenetic相关系数选出最优聚类树和聚类中心;
步骤六:利用模糊C聚类法,以最优聚类法的聚类树和聚类中心进行聚类,选取效果最好的类别数作为最终确定的类别数;
步骤七:得到类别数后,重复步骤四到步骤六,进行模糊C聚类后还原数据并输出聚类后的结果。
2.根据权利要求1所述的一种基于二次聚类的用电行为模式分类方法,其特征在于,步骤一所述的对非正常数据进行识别和处理三个方法:
横向处理认为短时间内数据横向相同,即样本日与附近同类日曲线相同,结合统计学原理,利用样本统计指标与设定阈值判断是否有非正常数据;
纵向处理认为短时间内数据纵向相同,即相隔15min的连续3个数据相对稳定,没有突变,结合统计学原理,利用样本统计指标与设定阈值判断是否有非正常数据;
温度处理认为某一温度下各日最大负荷数据是否小于30%的对应温度下的最大负荷数据的平均值,则认为此日为休息日或者限电日。
3.根据如权利要求1所述的一种基于二次聚类的用电行为模式分类方法,其特征在于,步骤二进行平滑处理,具体为:移动平均法对数据进行平滑处理,即对任意奇数个连续的点,将它们最中间的点的值替换为其他点的平均值,操作时将所有负荷点附近连续5个数据平均化,形成平滑后负荷序列,去除采集数据时的毛刺数据。
4.根据如权利要求1所述的一种基于二次聚类的用电行为模式分类方法,其特征在于,步骤三解决量纲差别大的问题时,以当前元素值与观测值中最小值的差,除以观测值中最大值与最小值的差,即为归一化变换,经过极差归一化变换后每个元素的取值均在0~1之间;加权处理考虑特征向量中各维度特征值对负荷分类的不同贡献,聚类时对各维度特征值进行加权处理。
5.根据如权利要求1所述的一种基于二次聚类的用电行为模式分类方法,其特征在于,步骤四中不同聚类方法包括最短距离法、最长距离法、中间距离法、重心法、类平均法、离差平方和法和加权平均法。
6.根据如权利要求1所述的一种基于二次聚类的用电行为模式分类方法,其特征在于,步骤五选出最优聚类树和聚类中心,通过Cophenetic相关系数反映了聚类效果的好坏,Cophenetic相关系数越接近于1,说明聚类效果越好。
7.根据如权利要求1所述的一种基于二次聚类的用电行为模式分类方法,其特征在于,步骤六利用模糊C聚类法进行二次聚类,聚类中心由初次系统聚类提供,选择聚类效果最好的类别数作为最终确定的类别数。
8.根据如权利要求1所述的一种基于二次聚类的用电行为模式分类方法,其特征在于,步骤七根据类别数,重复系统聚类,选取最优聚类中心,模糊C均值二次聚类等步骤,并还原数据和输出聚类后的结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911361607.1A CN111126499A (zh) | 2019-12-25 | 2019-12-25 | 一种基于二次聚类的用电行为模式分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911361607.1A CN111126499A (zh) | 2019-12-25 | 2019-12-25 | 一种基于二次聚类的用电行为模式分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111126499A true CN111126499A (zh) | 2020-05-08 |
Family
ID=70502626
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911361607.1A Pending CN111126499A (zh) | 2019-12-25 | 2019-12-25 | 一种基于二次聚类的用电行为模式分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111126499A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113449793A (zh) * | 2021-06-28 | 2021-09-28 | 国网北京市电力公司 | 用电状态的确定方法及装置 |
CN114626409A (zh) * | 2022-02-21 | 2022-06-14 | 中铁第四勘察设计院集团有限公司 | 一种近断层加速度脉冲识别方法、存储介质及计算机设备 |
CN115018119A (zh) * | 2022-04-26 | 2022-09-06 | 河北大学 | 用电负荷预测方法及系统 |
CN117992856A (zh) * | 2024-04-03 | 2024-05-07 | 国网山东省电力公司营销服务中心(计量中心) | 用户用电行为分析方法、系统、设备、介质及程序产品 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104200275A (zh) * | 2014-06-24 | 2014-12-10 | 国家电网公司 | 基于用户行为特点的用电模式分类和控制方法 |
CN106408008A (zh) * | 2016-09-08 | 2017-02-15 | 国网江西省电力公司赣州供电分公司 | 一种基于负荷曲线距离和形状的负荷分类方法 |
US20170161606A1 (en) * | 2015-12-06 | 2017-06-08 | Beijing University Of Technology | Clustering method based on iterations of neural networks |
-
2019
- 2019-12-25 CN CN201911361607.1A patent/CN111126499A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104200275A (zh) * | 2014-06-24 | 2014-12-10 | 国家电网公司 | 基于用户行为特点的用电模式分类和控制方法 |
US20170161606A1 (en) * | 2015-12-06 | 2017-06-08 | Beijing University Of Technology | Clustering method based on iterations of neural networks |
CN106408008A (zh) * | 2016-09-08 | 2017-02-15 | 国网江西省电力公司赣州供电分公司 | 一种基于负荷曲线距离和形状的负荷分类方法 |
Non-Patent Citations (2)
Title |
---|
宗柳等: "计及需求响应的多维度用电特征精细挖掘", 《电力系统自动化》 * |
谢中华: "《MATLAB统计分析与应用:40个案例分析》", 31 May 2015 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113449793A (zh) * | 2021-06-28 | 2021-09-28 | 国网北京市电力公司 | 用电状态的确定方法及装置 |
CN114626409A (zh) * | 2022-02-21 | 2022-06-14 | 中铁第四勘察设计院集团有限公司 | 一种近断层加速度脉冲识别方法、存储介质及计算机设备 |
CN114626409B (zh) * | 2022-02-21 | 2023-09-26 | 中铁第四勘察设计院集团有限公司 | 一种近断层加速度脉冲识别方法、存储介质及计算机设备 |
CN115018119A (zh) * | 2022-04-26 | 2022-09-06 | 河北大学 | 用电负荷预测方法及系统 |
CN117992856A (zh) * | 2024-04-03 | 2024-05-07 | 国网山东省电力公司营销服务中心(计量中心) | 用户用电行为分析方法、系统、设备、介质及程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111126499A (zh) | 一种基于二次聚类的用电行为模式分类方法 | |
CN111199016B (zh) | 一种基于DTW的改进K-means的日负荷曲线聚类方法 | |
Ye et al. | A novel forecasting method based on multi-order fuzzy time series and technical analysis | |
CN108681744B (zh) | 一种基于数据划分的电力负荷曲线层次聚类方法 | |
CN106096805A (zh) | 一种基于熵权法特征选择的居民用电负荷分类方法 | |
CN108428055B (zh) | 一种考虑负荷纵向特性的负荷聚类方法 | |
CN113393028B (zh) | 一种基于数据挖掘技术的负荷预测方法 | |
CN111460001B (zh) | 一种配电网理论线损率评估方法及系统 | |
CN111784093B (zh) | 一种基于电力大数据分析的企业复工辅助判断方法 | |
Jain et al. | Validating clustering frameworks for electric load demand profiles | |
CN112884590A (zh) | 基于机器学习算法的电网企业融资决策方法 | |
CN103853939A (zh) | 一种基于社会经济因素影响的电力系统月度负荷的组合预测方法 | |
CN111815060A (zh) | 一种用电地区短期负荷预测方法及装置 | |
CN111339167A (zh) | 基于K-means和主成分线性回归的台区线损率影响因素分析方法 | |
CN111798333A (zh) | 一种用能评估与用电安全分析方法和系统 | |
CN109389517B (zh) | 一种量化线路损耗影响因素的分析方法及装置 | |
CN107274025B (zh) | 一种实现用电模式智能识别与管理的系统和方法 | |
CN114266457A (zh) | 一种配电线路异损诱因检测的方法 | |
CN113688960A (zh) | 基于灰狼优化ghfcm的居民电力数据聚类方法及装置 | |
CN109784748B (zh) | 一种市场竞争机制下用户用电行为辨识方法及装置 | |
CN111931992A (zh) | 一种电力负荷预测指标选取方法及装置 | |
CN115994784A (zh) | 一种价格确定模型及其构建方法 | |
CN112419084B (zh) | 一种配电网设备利用率的优化方法及装置 | |
CN114626429A (zh) | 一种新能源大数据分类与可疑数据处理方法 | |
CN114266593A (zh) | 一种基于kpca和线性回归的电力消费预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200508 |
|
RJ01 | Rejection of invention patent application after publication |