CN112149052B - 一种基于plr-dtw的日负荷曲线聚类方法 - Google Patents

一种基于plr-dtw的日负荷曲线聚类方法 Download PDF

Info

Publication number
CN112149052B
CN112149052B CN202010364813.4A CN202010364813A CN112149052B CN 112149052 B CN112149052 B CN 112149052B CN 202010364813 A CN202010364813 A CN 202010364813A CN 112149052 B CN112149052 B CN 112149052B
Authority
CN
China
Prior art keywords
curve
daily load
clustering
load curve
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010364813.4A
Other languages
English (en)
Other versions
CN112149052A (zh
Inventor
钟伟
崔益伟
李欣然
宋军英
李培强
毛振宇
陈泽弘
芦纯静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
State Grid Corp of China SGCC
State Grid Hunan Electric Power Co Ltd
Original Assignee
Hunan University
State Grid Corp of China SGCC
State Grid Hunan Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University, State Grid Corp of China SGCC, State Grid Hunan Electric Power Co Ltd filed Critical Hunan University
Priority to CN202010364813.4A priority Critical patent/CN112149052B/zh
Publication of CN112149052A publication Critical patent/CN112149052A/zh
Application granted granted Critical
Publication of CN112149052B publication Critical patent/CN112149052B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Human Resources & Organizations (AREA)
  • Pure & Applied Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Optimization (AREA)
  • Economics (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Strategic Management (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Operations Research (AREA)
  • Artificial Intelligence (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Game Theory and Decision Science (AREA)
  • Quality & Reliability (AREA)

Abstract

本发明公开了一种基于PLR‑DTW的日负荷曲线聚类方法。首先,利用PLR算法对被聚类日负荷曲线数据组进行降维处理,使每条曲线根据其曲线特性自适应地降至某一维度;然后,采用密度函数从原始数据库中选取初始聚类中心曲线,并对所选聚类中心曲线进行PLR降维处理;之后采用DTW对降维后的数据组与聚类中心曲线进行相似度对比分析;最后利用k‑means算法对数据组进行划分聚类,并以聚类离散度的误差值作为算法是否得出聚类结果的判断依据,最后基于DBI指标确定最佳聚类数及相应的聚类中心曲线。本方法有效解决了降维之后维度不同的曲线间的相似度衡量问题,改善了传统聚类计算效果与效率,且聚类结果与实际工程相符,具有一定的工程价值。

Description

一种基于PLR-DTW的日负荷曲线聚类方法
技术领域
本发明属于电力系统分析与控制技术领域,特别涉及一种基于PLR-DTW的日负荷曲线聚类方法。
背景技术
用户日负荷曲线可充分体现不同类型用户的负荷特性,因此对用户日负荷曲线进行聚类是对电力系统内负荷进行建模的前提。在当今电力系统中,一个可信赖的负荷模型是进行诸如负荷建模等研究的基础。随着智能电网建设进一步加深,电力系统信息化程度进一步提高,如何从记录着海量用户负荷特性的大数据平台中提取有价值的用户日负荷曲线,并进行识别、聚类,是目前电网大数据平台建设过程中所面临的重要问题,也是解决负荷模型可靠性的关键途径。
传统的日负荷曲线聚类方法通常直接对进行归一化之后的日负荷曲线进行计算处理,并利用诸如K-means、模糊C均值等算法对其进行聚类,且以欧氏距离作为相似度的评判依据。该类方法存在如下两个弊端:1)采用相应采样点之间的欧氏距离作为相似度衡量依据,只考虑了日负荷曲线的分布特性,没有考虑曲线动态特性,所以衡量精确度在极端爬坡情况下偏差较大,且当今负荷曲线的负荷点时间间隔越来越小,使得单纯求取负荷曲线间对应负荷点的欧式距离意义也随之变小;2)当今随着技术进步,日负荷曲线采样点日趋密集,使得日负荷曲线的维度较以往有很大程度提高,这也造成传统算法的运算效率大幅下降。
即现在传统聚类方法面临两个重要问题:1)相似度衡量准确度;2)日负荷曲线降维。具体而言,传统方法通常只是单纯选取欧氏距离衡量曲线间相似度,而忽视了曲线形态变化对曲线相似度的影响,且被聚类日负荷曲线的高维度在直接用于聚类时,严重影响了算法运算效率。因此选择合适的相似度衡量指标并对日负荷曲线进行保持其曲线特征的降维,可以在很大程度上提升日负荷曲线聚类结果的准确性及效率。
发明内容
本发明所解决的技术问题是,针对现有日负荷曲线聚类方法中存在的问题,提出一种基于PLR-DTW的日负荷曲线聚类方法,首先采用PLR对日负荷曲线数据组进行自适应降维处理,得到维度不尽相同的降维数据组,然后采用DTW算法计算降维后的日负荷曲线与聚类中心之间的距离,并以此为聚类算法的相似度衡量依据,最后利用聚类算法k-means对数据组进行划分聚类,以获取电力系统日负荷曲线集的聚类中心曲线。
本发明采取的技术方案为:
一种基于PLR-DTW的日负荷曲线聚类方法,包括以下步骤:
步骤1)采集日负荷曲线数据以形成日负荷曲线数据组,对日负荷曲线数据进行标幺化处理,得到标幺化数据矩阵,并确定初始聚类数目、迭代次数和最大聚类数目;
步骤2)在标幺化数据矩阵中日负荷曲线的密度参数集合内,选取与当前聚类数目相等且密度最大的这几个值作为聚类中心曲线集,并对标幺化数据矩阵进行PLR降维处理;
步骤3)对聚类中心曲线集进行PLR降维处理,以当前聚类数目,若为第一次循环计算则以初始聚类数目开始进行循环计算,采用DTW算法分别计算降维后的标幺化数据矩阵中每条日负荷曲线关于聚类中心曲线的相似度,再以此相似度数值作为聚类算法k-means的相似度衡量依据,进行降维后的标幺化数据组的归类,并根据归类对聚类中心曲线集进行更新;
步骤4)结合步骤3)所得更新后的聚类中心曲线集,计算日负荷曲线的综合聚类离散度,若综合聚类离散度的误差值不满足要求,则返回步骤3)重新执行,直至更新后的聚类中心曲线综合聚类离散度满足误差值要求为止;然后得到当前循环对应聚类数目下的聚类中心曲线及对应DBI的值,即完成本次循环,再对聚类数目加一后检查是否达到最大聚类数目,没有达到则返回步骤2),计算当前聚类数目加1后的聚类中心曲线及对应DBI值,达到则执行步骤5),其中DBI是类内距离之和与类外距离的比值;
步骤5)结合迭代完成后所得不同聚类数目下的聚类结果,基于DBI确定最佳聚类数目与最终聚类结果,其中DBI越小则聚类结果越好,即选取DBI数值最小时所对应的聚类数目和聚类中心曲线集作为最佳聚类数目与聚类结果。
所述的一种基于PLR-DTW的日负荷曲线聚类方法,所述步骤1)中,在进行标幺化处理前,还包括对日负荷曲线数据组中的异常数据进行识别与修正的步骤,其中对日负荷曲线中的异常数据进行识别,即计算日负荷曲线中各采样时刻点的负荷功率的变化率并与预设阈值比较,若超出阈值范围则视为异常数据;对异常数据进行修正,是首先判断负荷曲线的数据缺失量和异常量是否小于10%,若是,则先将异常量置为0即置为缺失量,再以一元三点抛物线插值算法对缺失量进行插值拟合,否则直接删除该条负荷曲线。
所述的一种基于PLR-DTW的日负荷曲线聚类方法,所述步骤1)中,对修正后的日负荷曲线数据进行标幺化处理,得到标幺化数据矩阵的方法为:
记Pk=[pk1,...,pki,...,pkm]∈R1×m为修正后第k条日负荷曲线的m点原始有功功率矩阵,k=1,2,3,…,N,N为日负荷曲线总条数,pki为第k条日负荷曲线的第i点原始有功功率,i=1,2,…,m,m为采样点个数;则P=[P1,...,Pk,...,PN]T∈RN×m为N条日负荷曲线的m点原始有功功率矩阵,其中T为矩阵转置符号;
取日负荷曲线的功率最大值pk.max=max{pk1,pk2,...,pki,...,pkm}为基准值,根据下式对原始数据样本进行标幺化处理,得到功率点pki的标幺值p'ki
p'ki=pki/pk.max
对各功率点计算标幺值,进而得到归一化的日负荷曲线有功功率标幺值矩阵P'k
P'k=[p'k1,p'k2,...,p'ki,...,p'km]∈R1×m,则标幺化后的日负荷曲线矩阵A=[P1',...,Pk',...,PN']T∈RN×m
所述的一种基于PLR-DTW的日负荷曲线聚类方法,所述步骤1)中,最大聚类数目
Figure GDA0004233076270000031
N为日负荷曲线数据组中的总曲线数目。
所述的一种基于PLR-DTW的日负荷曲线聚类方法,所述的步骤2)中得到聚类中心曲线集包括以下过程:
基于标幺化数据矩阵,首先计算其中任意两负荷曲线Px=(px1,px2,...,pxn),Py=(py1,py2,...,pyn)之间的欧氏距离d:
Figure GDA0004233076270000032
再计算得到日负荷曲线之间的平均距离dist:
Figure GDA0004233076270000033
其中
Figure GDA0004233076270000034
为n条日负荷曲线之间的组合数;
然后计算以每条日负荷曲线Pc为中心基于平均距离dist的密度参数den:
Figure GDA0004233076270000035
其中Pi为除Pc外的任意一条日负荷曲线,当dist-d(Pi,Pc)<0时,u(dist-d(Pi,Pc))=0;当dist-d(Pi,Pc)≥0时,u(dist-d(Pi,Pc))=1;
进而得到日负荷曲线的密度参数集合D,根据当前聚类数目L选取前L个密度最大的日负荷曲线,且每选取一个后,将该日负荷曲线和与该日负荷曲线欧式距离小于dist的日负荷曲线从标幺化数据矩阵A中删除,从而得出日负荷曲线的初始聚类中心曲线集合。
所述的一种基于PLR-DTW的日负荷曲线聚类方法,所述的步骤2)和步骤3)中,进行PLR降维处理包括以下过程:
对于待降维的标幺化数据矩阵或聚类中心曲线集中第k条维度为m的标幺化日负荷曲线P'k=[p'k1,…,p'ki,p'kj…,p'km],首先计算此日负荷曲线的变化序列
Figure GDA0004233076270000041
即日负荷曲线上每个采样点对应采样时段的变化量也即斜率集,其元素表达式如下:
Figure GDA0004233076270000042
然后,对于日负荷曲线上的第i时刻对应的采样点,通过计算该采样点关于其左右两侧相邻采样点变化量的差值绝对值,即计算该采样点的左斜率与右斜率差值的绝对值,以组成曲线P'k的SEEP序列S=(Δ1,...,Δi,...,Δm),由于首尾两端元素分别无左斜率与右斜率,所以规定
Figure GDA0004233076270000043
且中间元素Δi表达式如下:
Figure GDA0004233076270000044
之后,设定变化量阈值R,并比较SEEP序列中的元素是否大于阈值R,当大于时则对应采样点为特征点;
最后,将通过PLR算法所得的第k条日负荷曲线的所有特征点,按照采样点的先后顺序依次连接,即得到降维后的日负荷曲线hk=(p'k1,…,p'ki,…,p'kf),其中f为此第k条日负荷曲线降维之后的维度;降维后的日负荷曲线的集合为H=(h1,...,hi,...,hm)。
所述的一种基于PLR-DTW的日负荷曲线聚类方法,所述的步骤3)中,采用DTW来计算降维的标幺化数据矩阵中每条日负荷曲线关于聚类中心曲线的相似度,其过程为:
首先,对所得聚类中心曲线进行PLR降维处理,得到降维聚类中心曲线集合CL=(c1,c2,...,cL);
然后,计算每条降维后的日负荷曲线与聚类中心曲线相似度D1
D1(i,j)=dtw(hi,cj)
其中D1(i,j)表示,第i条降维后的日负荷曲线hi关于第j个聚类中心cj以DTW为衡量依据的相似度值;
其中基于DTW衡量相似度的方法为:
设有两负荷曲线Px=(px1,px2,...,pxn),Py=(py1,py2,...,pym),则有:
a)构建n×m的距离矩阵Dn×m,其中元素D(x,y)如下式所示;
Figure GDA0004233076270000051
b)将矩阵D中每一组相邻元素组成的集合称为弯曲路径,记为K=(K1,K2,K3,..Ks..,Kg),其中g为路径中元素的总个数,元素Ks为路径上第s个点的坐标,即Ks=(x,y);
c)通过DTW算法寻找弯曲路径K中的最优弯曲路径,使得序列Px和Py的弯曲总代价最小,即:
Figure GDA0004233076270000052
式中,D(Ks)为弯曲路径的累积距离,通过动态规划方法来构造一个累积代价矩阵G来求解上式,即Gxy=D(x,y)+min(G(x-1,y-1),G(x,y-1),G(x-1,y)),其中,x=1,2,…,n;y=1,2,…m;G(0,0)=0;G(x,0)=G(o,y)=+∞,则时间序列Px和Py的动态时间弯曲距离为DTW(Px,Py)=G(n,m)。
同时,弯曲路径还需满足如下的约束:1)所选路径必须从左下角出发,到右上角结束,即K1=(1,1),Kk=(n,m);2)每个点必须和相邻的点匹配,即若Ks=(i,j)则Ks+1=(a,b)必须满足0≤a-i≤1,0≤b-j≤1,同时为了避免路径在同一水平或垂直方向进行多次连续弯曲而导致过度弯曲的现象,即避免时间序列的一个点对应另一条时间序列过多的点,在已有约束的基础上加上对连续弯曲数的约束,即:
rx≤rx-max,ry≤ry-max
其中rx、ry分别为路径在x轴与y轴上的连续弯曲数;rx-max,ry-max分别为在x轴与y轴上所允许的最大连续弯曲数,其值由序列的特征及维数确定。
所述的一种基于PLR-DTW的日负荷曲线聚类方法,所述的步骤3)中,以相似度数值作为聚类算法k-means的相似度衡量依据,进行数据组的归类,并根据归类对聚类中心曲线集进行更新的步骤包括:
将每条标幺化曲线P'k归类于与其最相似的聚类中心曲线的一类中,之后,对数据组的聚类中心曲线,按照下式进行更新:
Figure GDA0004233076270000061
式中Cj(I+1)表示第I+1次迭代所得的聚类中心曲线;Nj表示属于第j类聚类中心的日负荷曲线条数;Pn表示属于第j类聚类中心的日负荷曲线。
所述的一种基于PLR-DTW的日负荷曲线聚类方法,所述的步骤4)中,综合聚类离散度通过以下公式计算:
Figure GDA0004233076270000062
式中,JN为第N次迭代所得聚类结果的综合聚类离散度;Ci(N)为第N次迭代所得的第i个聚类中心;Pn为属于聚类中心曲线Ci(N)这一类的日负荷曲线;L为聚类数目;
若JN+1-JN<Ω,则认为综合聚类离散度的误差值满足要求,其中Ω为预设的收敛极限值。
所述的一种基于PLR-DTW的日负荷曲线聚类方法,所述的步骤5)中以基于DBI指标确定最佳聚类数与最终聚类结果的方法如下:
Figure GDA0004233076270000063
式中,Ri用来衡量第i类曲线集的紧密程度;L为聚类数目;
Figure GDA0004233076270000064
其中,Rij用来衡量第i类与第j类的相似度,Si用来度量第i个类中数据点的分散程度,通过下式计算:
Figure GDA0004233076270000071
其中,Xl为第i类中第l个数据点;Ci为第i类的聚类中心曲线;Ti为第i类中数据点的个数;q取1时Si为各点到中心的距离的均值,q取2时Si为各点到中心距离的标准差,均用于衡量类内分散程度;Sj用来度量第j个类中数据点的分散程度,计算方式与Si相同;
Figure GDA0004233076270000072
其中Mij为第i类中心与第j类中心的距离;Ci为第i类的聚类中心曲线;Cj为第j类的聚类中心曲线;adi为第i类的中心点Ci的第d个属性的值;p取1时表示1-范数,p取2时表示2-范数,即两个类中心的欧式距离。
本发明的技术效果在于,对电力系统中高维度的日负荷曲线集进行了基于PLR的降维处理,且根据DTW算法可以计算不同维度曲线的相似度的特点,利用DTW算法对降维后的数据组进行关于聚类中心曲线的相似度计算,最后聚类算法k-means以此相似度为依据进行聚类划分,并求得最终聚类中心曲线。该发明在大数据背景下可以很大程度上提升日负荷曲线聚类的效率及质量。聚类结果与工程实际相符,能够为电网公司分析用户用电行为,制定合理的用电计划提供有力的支撑。具有良好的应用前景。
附图说明
图1为本方法流程示意图。
图2为经过PLR降维处理的日负荷曲线示意图。
图3为DTW路径示意图。
图4为k-means算法流程图。
图5为基于DBI指标确定最佳聚类数及聚类结果流程图。
具体实施方式
下面结合附图对本发明作进一步说明:
本实施例的总体思路框图如图1所示,包括以下步骤:
1)对日负荷曲线数据进行预处理和标幺化之后,对其进行PLR降维处理,得到降维数据矩阵A∈RN×m,其中N为日负荷曲线条数,m为维数,并确定初始聚类数目为Lmin为2、迭代次数为1000,并预设
Figure GDA0004233076270000081
N为日负荷曲线数据组中的总曲线数目。算法以Lmin为初始聚类数目开始进行循环算法,每次循环完成之后聚类数目加一,直至聚类数目达到Lmax
2)结合步骤1)所得标幺化数据矩阵A,以日负荷曲线数据组的密度函数为依据选取当前聚类数目下的初始聚类中心CL=(c1,c2,...,cL);
3)对聚类中心进行PLR降维处理,然后对每条降维日负荷曲线,以DTW算法为衡量依据,计算其关于各类聚类中心曲线的相似度,并以此相似度数值为聚类算法K-means的划分依据,对标幺化日负荷曲线进行聚类划分之后,对各类聚类中心曲线进行更新;
4)结合步骤3)所得更新后的聚类中心曲线,计算标幺化日负荷曲线集关于聚类中心的综合聚类离散度,若聚类离散度的误差值未满足要求,则返回步骤3),对聚类中心曲线进行降维处理之后,继续进行聚类运算,直至所得聚类中心曲线集满足要求为止,否则,停止聚类中心曲线的更新,完成本次循环;然后,计算当前循环对应聚类数目下的聚类中心曲线及对应DBI的值,完成本次循环;最后,对聚类数目加一后,判断聚类数L是否达到最大聚类数目Lmax,没有达到,则返回步骤2),计算下一个指定聚类数目的聚类中心曲线及对应DBI值运算,否则,执行步骤5);
5)结合步骤4)所得不同聚类数目下的聚类结果,基于DBI指标确定最佳聚类数与最终聚类结果。
其中步骤1)包括以下步骤:
1-1)对日负荷曲线中的异常数据进行识别与修正;
1-2)对修正后的日负荷曲线数据进行标幺化处理;
1-3)对标幺化处理后的日负荷曲线数据进行PLR降维;
对于以上步骤进行相关解释如下:
所述步骤1-1)中异常数据的识别方法具体为:
记Pk=[pk,1,pk,2···,pk,m]T为某条负荷曲线在各采样时刻点的功率值,以公式(1)对异常数据进行识别。
Figure GDA0004233076270000082
式中:δk,i为负荷曲线在第i点的负荷功率变化率,当其超过预设的阈值ε后视为异常数据,不失一般性ε可取0.5~0.8。
所述步骤1-1)中异常数据的修正方法具体为:
若某条负荷曲线的数据缺失量和异常量达到10%或以上时,认定该曲线无效直接删除该条负荷曲线。
若某条负荷曲线的数据缺失量和异常量低于10%时,将异常量置为0,再以一元三点抛物线插值算法对缺失量进行插值拟合。一元三点抛物线插值算法的原理为:
设n个节点xi(i=0,1,···,n-1)的函数值为yi=f(xi),有x0<x1<···<xn-1,对应函数值y0<y1<···<yn-1。为计算指定的插值点t的近似函数值z=f(t),选择最靠近t的3个节点:xk-1、xk、xk+1(xk<t<xk+1),然后根据抛物线插值公式(2)计算z的值,即
Figure GDA0004233076270000091
式中,当|xk-t|<|t-xk+1|时,m=k-1;当|xk-t|>|t-xk+1|时,m=k。
若插值点t不在包含n个节点的区间内,则只选取区间某一端的2个节点来进行线性插值。
所述步骤1-2)中对修正后的日负荷曲线数据进行标幺化处理的方法具体为:
记Pk=[pk1,...,pki,...,pkm]∈R1×m为修正后第k条日负荷曲线的m点原始有功功率矩阵,k=1,2,3,…,N,N为日负荷曲线总条数,pki为第k条日负荷曲线的第i点原始有功功率,i=1,2,…,m,m为采样点个数,一般为48;则P=[P1,...,Pk,...,PN]T∈RN×m为N条日负荷曲线的m点原始有功功率矩阵;
取日负荷曲线的功率最大值pk.max=max{pk1,pk2,...,pki,…,pkm}为基准值,根据式(3)对原始数据样本进行标幺化处理,
p'ki=pki/pkgmax (3)
得到归一化的日负荷曲线有功功率标幺值矩阵P'k=[p'k1,p'k2,…,p'ki,...,p'km]∈R1×m,并令该矩阵为A∈RN×m
所述步骤1-3)中对标幺化处理后的日负荷曲线数据进行PLR降维的方法具体为:
采用PLR对标幺化后的数据集中的每条曲线和聚类中心曲线进行自适应降维处理,该过程以采样点的斜率变化率作为参量进行分段线性化降维,降维后的曲线只保留能反映曲线特征的特征点,因此此过程产生的降维数据集的曲线维度不尽相同,步骤如下:
a)对于数据集中第k条维度为m的标幺化日负荷曲线P'k=[p'k1,...,p'ki,p'kj...,p'km],首先计算此曲线的变化序列
Figure GDA0004233076270000101
即曲线上每个采样点对应采样时段的变化量(即斜率)集,其元素表达式如下:
Figure GDA0004233076270000102
b)对于曲线上的第i时刻对应的采样点,通过计算该采样点关于其左右两侧相邻采样点变化量的差值绝对值(即计算该采样点的左斜率与右斜率差值的绝对值),以组成曲线的SEEP序列S=(Δ1,...,Δi,...,Δm),由于首尾两端元素分别无左斜率与右斜率,所以规定
Figure GDA0004233076270000103
且中间元素Δi表达式如下:
Figure GDA0004233076270000104
c)设定变化量阈值R,通过比较SEEP序列元素中的元素与阈值R的大小,来判断对应采样点是否为特征点,例如,对于第i时刻的采样点,若Δi>R,则认为第i时刻对应采样点即为特征点。需要注意的是,阈值R代表着对原始数据集的压缩程度,一般其取值越大,则压缩程度也越大,但对原始数据的过于压缩会导致原始数据的关键信息丢失,所以R的取值至关重要。通常在实际工程试验中,对于标幺化的数据集,该降维程序以0.05为阈值参考值。
d)最后,将通过PLR算法所得的第k条曲线的所有特征点,按照采样点的先后顺序依次连接,即得到降维后的曲线hk=(p'k1,...,p'ki,...,p'kf),其中f为此第k条曲线降维之后的维度,如图2所示;降维后的曲线的集合为H=(h1,...,hi,...,hm)。
2)结合步骤1)所得标幺化数据矩阵A,以日负荷曲线数据组的密度函数为依据选取初始聚类中心CL=(c1,c2,...,cL);
依据数据对象的密度参数集合D,把D中密度最大值作为初始聚类中心;
对以上步骤进行相关解释如下:
所述步骤2中由标幺化数据矩阵A中每条日负荷曲线的密度参数集合得出聚类中心的方法具体为:
根据式(4)计算任意两负荷曲线Px=(px1,px2,...,pxn),Py=(py1,py2,...,pyn)之间的欧氏距离d,再通过式(5)得到日负荷曲线之间的平均距离dist,根据式(6)计算以每条日负荷曲线为中心基于平均距离的密度参数den,得到日负荷曲线的密度参数集合D,根据当前聚类数目L选取L个密度最大者,且每次选取一个密度最大者之后,将该曲线和与该曲线欧式距离小于dist的负荷曲线从数据库A中删除,从而得出日负荷曲线初始分布特性聚类中心曲线集合CL=(c1,c2,...,cL)。
Figure GDA0004233076270000111
Figure GDA0004233076270000112
式(5)中,
Figure GDA0004233076270000113
为n条日负荷曲线之间的组合数。
Figure GDA0004233076270000115
式(6)中,当x<0时,u(x)=0;当x≥0式,u(x)=1
3)对聚类中心进行PLR降维处理,然后对每条降维日负荷曲线,以DTW算法为衡量依据,计算其关于各类聚类中心曲线的相似度,并以此相似度数值为聚类算法K-means的划分依据,对标幺化日负荷曲线进行聚类划分之后,对各类聚类中心曲线进行更新;
所述步骤3)中采用DTW算法衡量降维日负荷曲线与降维聚类中心曲线的相似度方法步骤为:
3-1)先根据式(8)计算每条日负荷曲线关于聚类中心曲线的相似度D1,D1越小表示相似度越高,最后将日负荷曲线归类于其关于所有聚类中心曲线中D1最小的那个类别;
D1(i,j)=dtw(hi,cj) (7)
其中D1(i,j)表示,第i条降维后的日负荷曲线hi关于第j个聚类中心cj以dtw为衡量依据的相似度;
3-2)按照式(8)对聚类中心进行更新;
Figure GDA0004233076270000114
式中Cj(I+1)表示第I+1次迭代所得的第j类聚类中心曲线;Nj表示属于第j类聚类中心的日负荷曲线条数;Pn表示属于第j类聚类中心的日负荷曲线。
所述步骤3-2)中DTW衡量相似度的方法为:
动态时间弯曲(DTW)运用动态规划思想调整时间序列不同时间点对应元素之间的关系来获取一条最优弯曲路径,使沿该路径时间序列间的距离最小,该算法的最大优势在于其能衡量不同维度间的时间序列的相似度。DTW路径示意图如图3所示。设有两负荷曲线Px=(px1,px2,...,pxn),Py=(py1,py2,...,pym),DTW算法步骤如下:
a)构建n×m的距离矩阵Dn×m,其中元素D(x,y)如下式所示;
Figure GDA0004233076270000121
b)将矩阵D中每一组相邻元素组成的集合称为弯曲路径,记为K=(K1,K2,K3,..Ks..,Kg),其中g为路径中元素的总个数,元素Ks为路径上第s个点的坐标,即Ks=(x,y);
c)上述的路径K有多条,需要通过DTW算法寻找1条最优弯曲路径,使得序列Px和Py的弯曲总代价最小,即:
Figure GDA0004233076270000122
式中,D(Ks)为弯曲路径的累积距离,通过动态规划方法来构造一个累积代价矩阵G来求解上式,即Gxy=D(x,y)+min(G(x-1,y-1),G(x,y-1),G(x-1,y)),其中,x=1,2,...,n;y=1,2,...m;G(0,0)=0;G(x,0)=G(o,y)=+∞,可知,时间序列Px和Py的动态时间弯曲距离为DTW(Px,Py)=G(n,m)。
同时,弯曲路径还需满足如下的约束:1)所选路径必须从左下角出发,到右上角结束,即K1=(1,1),Kk=(n,m);2)每个点必须和相邻的点匹配,即若Ks=(i,j)则Ks+1=(a,b)必须满足0≤a-i≤1,0≤b-j≤1。并且,为了避免路径在同一水平或垂直方向进行多次连续弯曲而导致过度弯曲的现象(即避免时间序列的一个点对应另一条时间序列过多的点),在已有约束的基础上加上对连续弯曲数的约束,即:
rx≤rx-max,ry≤ry-max
其中rx、ry分别为路径在x轴与y轴上的连续弯曲数;rx-max,ry-max分别为在x轴与y轴上所允许的最大连续弯曲数,其值由序列的特征及维数确定。
DBI指标是类内距离之和与类外距离的比值。DBI指标越小,代表聚类效果越好。同时,该指标也同时用于选择算法的聚类数目,即选取DBI指标数值最小时所对应的聚类数目L。如图5所示,所述步骤5)中以基于DBI指标确定最佳聚类数与最终聚类结果的方法如下:
Figure GDA0004233076270000131
式中,Ri用来衡量第i类与第j类的相似度;L为聚类数目。
Figure GDA0004233076270000132
其中,Si用来度量第i个类中数据点的分散程度,如下式所示:
Figure GDA0004233076270000133
其中,Xl为第i类中第l个数据点;Ci为第i类的中心;Ti为第i类中数据点的个数;q取1时Si为各点到中心的距离的均值,q取2时Si为各点到中心距离的标准差,两者皆可用于衡量类内分散程度。
Figure GDA0004233076270000134
其中Mij为第i类中心与第j类中心的距离;Ci为第i类的中心;adi为第i类的中心点Ci的第d个属性的值;p取1时表示1-范数,p取2时表示2-范数(即两个类中心的欧式距离)。
本实例首先从SQL2012数据库里随机选取969条日负荷曲线,在对所选负荷曲线进行筛选之后进行归一化处理,并对归一化的日负荷曲线数据组进行基于PLR的降维处理,之后设定初始化聚类数目Lmin;然后,基于密度函数从数据组中选取L条日负荷曲线作为初始聚类中心曲线,并对其进行PLR降维处理;随后,利用DTW算法,以动态时间弯曲距离作为负荷曲线与聚类中心曲线的相似度衡量依据,聚类算法k-means以此相似度值为依据进行日负荷曲线集的划分,并得出相应聚类中心曲线以完成对聚类中心曲线的更新;之后,本算法以聚类中心曲线与聚类离散度的误差值,作为算法是否得出最终聚类结果的判断依据,若未达到允许误差值则继续进行运算,否则则完成此次以L为聚类数目的聚类算法运算;最后,判定此时聚类数目L是否达到规定的最大聚类数目Lmax,若未满足则L=L+1,继续进行聚类算法的运算,否则,跳出循环,以DBI指标最小对应的最佳聚类数及聚类中心曲线作为算法的最终聚类结果。

Claims (9)

1.一种基于PLR-DTW的日负荷曲线聚类方法,其特征在于,包括以下步骤:
步骤1)采集日负荷曲线数据以形成日负荷曲线数据组,对日负荷曲线数据进行标幺化处理,得到标幺化数据矩阵,并确定初始聚类数目、迭代次数和最大聚类数目;
步骤2)在标幺化数据矩阵中日负荷曲线的密度参数集合内,选取与当前聚类数目相等且密度最大的这几个值作为聚类中心曲线集,并对标幺化数据矩阵进行PLR降维处理;
步骤3)对聚类中心曲线集进行PLR降维处理,以当前聚类数目,若为第一次循环计算则以初始聚类数目开始进行循环计算,采用DTW算法分别计算降维后的标幺化数据矩阵中每条日负荷曲线关于聚类中心曲线的相似度,再以此相似度数值作为聚类算法k-means的相似度衡量依据,进行降维后的标幺化数据组的归类,并根据归类对聚类中心曲线集进行更新;
步骤4)结合步骤3)所得更新后的聚类中心曲线集,计算日负荷曲线的综合聚类离散度,若综合聚类离散度的误差值不满足要求,则返回步骤3)重新执行,直至更新后的聚类中心曲线综合聚类离散度满足误差值要求为止;然后得到当前循环对应聚类数目下的聚类中心曲线及对应DBI的值,即完成本次循环,再对聚类数目加一后检查是否达到最大聚类数目,没有达到则返回步骤2),计算当前聚类数目加1后的聚类中心曲线及对应DBI值,达到则执行步骤5),其中DBI是类内距离之和与类外距离的比值;
步骤5)结合迭代完成后所得不同聚类数目下的聚类结果,基于DBI确定最佳聚类数目与最终聚类结果,其中DBI越小则聚类结果越好,即选取DBI数值最小时所对应的聚类数目和聚类中心曲线集作为最佳聚类数目与聚类结果;
所述的步骤4)中,综合聚类离散度通过以下公式计算:
Figure FDA0004233076260000011
式中,JN为第N次迭代所得聚类结果的综合聚类离散度;Ci(N)为第N次迭代所得的第i个聚类中心;Pn为属于聚类中心曲线Ci(N)这一类的日负荷曲线;L为聚类数目;
若JN+1-JN<Ω,则认为综合聚类离散度的误差值满足要求,其中Ω为预设的收敛极限值。
2.根据权利要求1所述的一种基于PLR-DTW的日负荷曲线聚类方法,其特征在于,所述步骤1)中,在进行标幺化处理前,还包括对日负荷曲线数据组中的异常数据进行识别与修正的步骤,其中对日负荷曲线中的异常数据进行识别,即计算日负荷曲线中各采样时刻点的负荷功率的变化率并与预设阈值比较,若超出阈值范围则视为异常数据;对异常数据进行修正,是首先判断负荷曲线的数据缺失量和异常量是否小于10%,若是,则先将异常量置为0即置为缺失量,再以一元三点抛物线插值算法对缺失量进行插值拟合,否则直接删除该条负荷曲线。
3.根据权利要求1所述的一种基于PLR-DTW的日负荷曲线聚类方法,其特征在于,所述步骤1)中,对日负荷曲线数据进行标幺化处理,得到标幺化数据矩阵的方法为:
记Pk=[pk1,...,pki,...,pkm]∈R1×m为修正后第k条日负荷曲线的m点原始有功功率矩阵,k=1,2,3,…,N,N为日负荷曲线总条数,pki为第k条日负荷曲线的第i点原始有功功率,i=1,2,…,m,m为采样点个数;则P=[P1,...,Pk,...,PN]T∈RN×m为N条日负荷曲线的m点原始有功功率矩阵,其中T为矩阵转置符号;
取日负荷曲线的功率最大值pk.max=max{pk1,pk2,...,pki,...,pkm}为基准值,根据下式对原始数据样本进行标幺化处理,得到功率点pki的标幺值p'ki
p'ki=pki/pk.max
对各功率点计算标幺值,进而得到归一化的日负荷曲线有功功率标幺值矩阵P'k
P'k=[p'k1,p'k2,...,p'ki,...,p'km]∈R1×m,则标幺化后的日负荷曲线矩阵A=[P1',...,Pk',...,PN']T∈RN×m
4.根据权利要求1所述的一种基于PLR-DTW的日负荷曲线聚类方法,其特征在于,所述步骤1)中,最大聚类数目
Figure FDA0004233076260000021
N为日负荷曲线数据组中的总曲线数目。
5.根据权利要求1所述的一种基于PLR-DTW的日负荷曲线聚类方法,其特征在于,所述的步骤2)中得到聚类中心曲线集包括以下过程:
基于标幺化数据矩阵,首先计算其中任意两负荷曲线Px=(px1,px2,...,pxn),Py=(py1,py2,...,pyn)之间的欧氏距离d:
Figure FDA0004233076260000022
再计算得到日负荷曲线之间的平均距离dist:
Figure FDA0004233076260000031
其中
Figure FDA0004233076260000037
为n条日负荷曲线之间的组合数;
然后计算以每条日负荷曲线Pc为中心基于平均距离dist的密度参数den:
Figure FDA0004233076260000032
其中Pi为除Pc外的任意一条日负荷曲线,当dist-d(Pi,Pc)<0时,u(dist-d(Pi,Pc))=0;当dist-d(Pi,Pc)≥0时,u(dist-d(Pi,Pc))=1;
进而得到日负荷曲线的密度参数集合D,根据当前聚类数目L选取前L个密度最大的日负荷曲线,且每选取一个后,将该日负荷曲线和与该日负荷曲线欧式距离小于dist的日负荷曲线从标幺化数据矩阵A中删除,从而得出日负荷曲线的初始聚类中心曲线集合。
6.根据权利要求1所述的一种基于PLR-DTW的日负荷曲线聚类方法,其特征在于,所述的步骤2)和步骤3)中,进行PLR降维处理包括以下过程:
对于待降维的标幺化数据矩阵或聚类中心曲线集中第k条维度为m的标幺化日负荷曲线P'k=[p'k1,…,p'ki,p'kj...,p'km],首先计算此日负荷曲线的变化序列
Figure FDA0004233076260000033
即日负荷曲线上每个采样点对应采样时段的变化量也即斜率集,其元素表达式如下:
Figure FDA0004233076260000034
然后,对于日负荷曲线上的第i时刻对应的采样点,通过计算该采样点关于其左右两侧相邻采样点变化量的差值绝对值,即计算该采样点的左斜率与右斜率差值的绝对值,以组成曲线P'k的SEEP序列S=(Δ1,...,Δi,...,Δm),由于首尾两端元素分别无左斜率与右斜率,所以规定
Figure FDA0004233076260000035
且中间元素Δi表达式如下:
Figure FDA0004233076260000036
之后,设定变化量阈值R,并比较SEEP序列中的元素是否大于阈值R,当大于时则对应采样点为特征点;
最后,将通过PLR算法所得的第k条日负荷曲线的所有特征点,按照采样点的先后顺序依次连接,即得到降维后的日负荷曲线hk=(p'k1,...,p'ki,...,p'kf),其中f为此第k条日负荷曲线降维之后的维度;降维后的日负荷曲线的集合为H=(h1,...,hi,...,hm)。
7.根据权利要求6所述的一种基于PLR-DTW的日负荷曲线聚类方法,其特征在于,所述的步骤3)中,采用DTW来计算降维的标幺化数据矩阵中每条日负荷曲线关于聚类中心曲线的相似度,其过程为:
首先,对所得聚类中心曲线进行PLR降维处理,得到降维聚类中心曲线集合CL=(c1,c2,...,cL);
然后,计算每条降维后的日负荷曲线与聚类中心曲线相似度D1
D1(i,j)=dtw(hi,cj)
其中D1(i,j)表示,第i条降维后的日负荷曲线hi关于第j个聚类中心cj以DTW为衡量依据的相似度值;
其中基于DTW衡量相似度的方法为:
设有两负荷曲线Px=(px1,px2,...,pxn),Py=(py1,py2,...,pym),则有:
a)构建n×m的距离矩阵Dn×m,其中元素D(x,y)如下式所示;
Figure FDA0004233076260000041
b)将矩阵D中每一组相邻元素组成的集合称为弯曲路径,记为K=(K1,K2,K3,..Ks..,Kg),其中g为路径中元素的总个数,元素Ks为路径上第s个点的坐标,即Ks=(x,y);
c)通过DTW算法寻找弯曲路径K中的最优弯曲路径,使得序列Px和Py的弯曲总代价最小,即:
Figure FDA0004233076260000042
式中,D(Ks)为弯曲路径的累积距离,通过动态规划方法来构造一个累积代价矩阵G来求解上式,即Gxy=D(x,y)+min(G(x-1,y-1),G(x,y-1),G(x-1,y)),其中,x=1,2,...,n;y=1,2,...m;G(0,0)=0;G(x,0)=G(o,y)=+∞,则时间序列Px和Py的动态时间弯曲距离为DTW(Px,Py)=G(n,m);
同时,弯曲路径还需满足如下的约束:1)所选路径必须从左下角出发,到右上角结束,即K1=(1,1),Kk=(n,m);2)每个点必须和相邻的点匹配,即若Ks=(i,j)则Ks+1=(a,b)必须满足0≤a-i≤1,0≤b-j≤1,同时为了避免路径在同一水平或垂直方向进行多次连续弯曲而导致过度弯曲的现象,即避免时间序列的一个点对应另一条时间序列过多的点,在已有约束的基础上加上对连续弯曲数的约束,即:
rx≤rx-max,ry≤ry-max
其中rx、ry分别为路径在x轴与y轴上的连续弯曲数;rx-max,ry-max分别为在x轴与y轴上所允许的最大连续弯曲数,其值由序列的特征及维数确定。
8.根据权利要求1所述的一种基于PLR-DTW的日负荷曲线聚类方法,其特征在于,所述的步骤3)中,以相似度数值作为聚类算法k-means的相似度衡量依据,进行数据组的归类,并根据归类对聚类中心曲线集进行更新的步骤包括:
将每条标幺化曲线P'k归类于与其最相似的聚类中心曲线的一类中,之后,对数据组的聚类中心曲线,按照下式进行更新:
Figure FDA0004233076260000051
式中Cj(I+1)表示第I+1次迭代所得的聚类中心曲线;Nj表示属于第j类聚类中心的日负荷曲线条数;Pn表示属于第j类聚类中心的日负荷曲线。
9.根据权利要求1所述的一种基于PLR-DTW的日负荷曲线聚类方法,其特征在于,所述的步骤5)中以基于DBI指标确定最佳聚类数与最终聚类结果的方法如下:
Figure FDA0004233076260000052
式中,Ri用来衡量第i类曲线集的紧密程度;L为聚类数目;
Figure FDA0004233076260000053
其中,Rij用来衡量第i类与第j类的相似度,Si用来度量第i个类中数据点的分散程度,通过下式计算:
Figure FDA0004233076260000061
其中,Xl为第i类中第l个数据点;Ci为第i类的聚类中心曲线;Ti为第i类中数据点的个数;q取1时Si为各点到中心的距离的均值,q取2时Si为各点到中心距离的标准差,均用于衡量类内分散程度;Sj用来度量第j个类中数据点的分散程度,计算方式与Si相同;
Figure FDA0004233076260000062
其中Mij为第i类中心与第j类中心的距离;Ci为第i类的聚类中心曲线;Cj为第j类的聚类中心曲线;adi为第i类的中心点Ci的第d个属性的值;p取1时表示1-范数,p取2时表示2-范数,即两个类中心的欧式距离。
CN202010364813.4A 2020-04-30 2020-04-30 一种基于plr-dtw的日负荷曲线聚类方法 Active CN112149052B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010364813.4A CN112149052B (zh) 2020-04-30 2020-04-30 一种基于plr-dtw的日负荷曲线聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010364813.4A CN112149052B (zh) 2020-04-30 2020-04-30 一种基于plr-dtw的日负荷曲线聚类方法

Publications (2)

Publication Number Publication Date
CN112149052A CN112149052A (zh) 2020-12-29
CN112149052B true CN112149052B (zh) 2023-07-11

Family

ID=73891839

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010364813.4A Active CN112149052B (zh) 2020-04-30 2020-04-30 一种基于plr-dtw的日负荷曲线聚类方法

Country Status (1)

Country Link
CN (1) CN112149052B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116109009B (zh) * 2023-04-10 2023-07-18 山东理工大学 基于多特征量提取的光储型园区负荷曲线动态识别方法
CN117076990B (zh) * 2023-10-13 2024-02-27 国网浙江省电力有限公司 基于曲线降维和聚类的负荷曲线辨识方法、装置及介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103400109A (zh) * 2013-07-10 2013-11-20 西安交通大学 一种手绘草图离线识别与整形方法
CN103488790A (zh) * 2013-10-08 2014-01-01 河海大学 基于加权borda计数法的多元时间序列相似分析方法
AU2017100013A4 (en) * 2014-09-29 2017-02-02 Tongji University Clustering coefficient-based adaptive clustering method and system
CN107657266A (zh) * 2017-08-03 2018-02-02 华北电力大学(保定) 一种基于改进谱多流形聚类的负荷曲线聚类方法
CN108596362A (zh) * 2018-03-22 2018-09-28 国网四川省电力公司经济技术研究院 基于自适应分段聚合近似的电力负荷曲线形态聚类方法
CN109871860A (zh) * 2018-11-02 2019-06-11 湖南大学 一种基于核主成分分析的日负荷曲线降维聚类方法
CN110659699A (zh) * 2019-09-30 2020-01-07 重庆大学 一种基于特征指标降维的分布式双层聚类分析方法
CN110737975A (zh) * 2019-10-08 2020-01-31 国家电网有限公司 基于经验模态分解与自回归模型的风电场风速、功率预测和异常修正方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9720998B2 (en) * 2012-11-19 2017-08-01 The Penn State Research Foundation Massive clustering of discrete distributions

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103400109A (zh) * 2013-07-10 2013-11-20 西安交通大学 一种手绘草图离线识别与整形方法
CN103488790A (zh) * 2013-10-08 2014-01-01 河海大学 基于加权borda计数法的多元时间序列相似分析方法
AU2017100013A4 (en) * 2014-09-29 2017-02-02 Tongji University Clustering coefficient-based adaptive clustering method and system
CN107657266A (zh) * 2017-08-03 2018-02-02 华北电力大学(保定) 一种基于改进谱多流形聚类的负荷曲线聚类方法
CN108596362A (zh) * 2018-03-22 2018-09-28 国网四川省电力公司经济技术研究院 基于自适应分段聚合近似的电力负荷曲线形态聚类方法
CN109871860A (zh) * 2018-11-02 2019-06-11 湖南大学 一种基于核主成分分析的日负荷曲线降维聚类方法
CN110659699A (zh) * 2019-09-30 2020-01-07 重庆大学 一种基于特征指标降维的分布式双层聚类分析方法
CN110737975A (zh) * 2019-10-08 2020-01-31 国家电网有限公司 基于经验模态分解与自回归模型的风电场风速、功率预测和异常修正方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A new index and classification approach for load pattern analysis of large electricity customers;Zhang Tiefeng 等;《IEEE Transactions on Power Systems》;第27卷(第1期);153-160 *
Beats: Blocks of eigenvalues algorithm for time series segmentation;Gonzalez-Vidal Aurora 等;《IEEE Transactions on Knowledge and Data Engineering》;第30卷(第11期);2051-2064 *
时间序列挖掘技术及其在短期电力负荷预测中的应用研究;李锁花;《中国优秀博硕士学位论文全文数据库 (硕士)信息科技辑》(第04期);I138-268 *
采用自适应分段聚合近似的典型负荷曲线形态聚类算法;王潇笛 等;《电力系统自动化》;第43卷(第1期);110-118 *

Also Published As

Publication number Publication date
CN112149052A (zh) 2020-12-29

Similar Documents

Publication Publication Date Title
CN111199016B (zh) 一种基于DTW的改进K-means的日负荷曲线聚类方法
CN109871860B (zh) 一种基于核主成分分析的日负荷曲线降维聚类方法
He et al. A two-stage genetic algorithm for automatic clustering
CN110796173B (zh) 一种基于改进kmeans的负荷曲线形态聚类算法
CN112149052B (zh) 一种基于plr-dtw的日负荷曲线聚类方法
CN106067034B (zh) 一种基于高维矩阵特征根的配电网负荷曲线聚类方法
CN116821832A (zh) 针对高压工商业用户用电负荷的异常数据辨识与修正方法
JP5262582B2 (ja) 表面欠陥の分布形態解析装置、方法、及びプログラム
CN112085619A (zh) 一种用于配电网数据优化的特征选择方法
CN113988358A (zh) 基于迁移强化学习的碳排放指数预测与治理方法
CN115345297A (zh) 一种基于生成对抗网络的台区样本生成方法及系统
CN115809719A (zh) 一种基于形态聚类的短期负荷预测修正方法
CN116701919B (zh) 一种陀螺式氢燃料发电机的优化监测方法及系统
CN107274025B (zh) 一种实现用电模式智能识别与管理的系统和方法
CN112905716A (zh) 一种半导体生产过程数据预处理方法及装置
CN109800702B (zh) 指静脉识别的快速比对方法及计算机可读取的存储介质
CN111898653A (zh) 基于鲁棒l1,2范数约束的有监督降维方法
CN111026741A (zh) 基于时间序列相似性的数据清洗方法及装置
CN115758184A (zh) 应用于电力用户的聚类分析方法及装置
CN112738724B (zh) 一种区域目标人群的精准识别方法、装置、设备和介质
CN113595242B (zh) 一种基于深度cnn-hmm的非侵入式负荷辨识方法
CN112967755B (zh) 一种面向单细胞rna测序数据的细胞类型识别方法
CN115081551A (zh) 基于K-Means聚类和优化RVM线损模型建立方法及系统
Cai et al. Fuzzy criteria in multi-objective feature selection for unsupervised learning
CN114429172A (zh) 基于变电站用户构成的负荷聚类方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant