发明内容
针对上述现有技术中存在的问题,本发明的目的在于提供一种基于聚类的典型日负荷曲线选取方法及一种基于聚类的典型日负荷曲线选取装置,其可以发现大规模数据的隐藏规律、减少随机及主观因素的影响,能够表征出整体规律。
为达到上述目的,本发明采用以下技术方案:
一种基于聚类的典型日负荷曲线选取方法,包括步骤:
步骤一、读入预设时间跨度内的各日负荷曲线,进入步骤二;
步骤二、确定典型日负荷曲线的条数k,并选取k条日负荷曲线作为集合中心,进入步骤三;
步骤三、分别计算各日负荷曲线与各集合中心的距离,将各日负荷曲线归入与其距离最近的集合中心所在的集合,进入步骤四;
步骤四、计算各集合的样本均值,将该样本均值作为该集合的新的集合中心,进入步骤五;
步骤五、判断该新的集合中心与上一次的集合中心是否相同,若不相同,进入步骤六,若相同,进入步骤七;
步骤六、判断当前集合的目标函数与上一次集合的目标函数的差值是否在预设范围内,若否,返回上述步骤三,若是,进入步骤七;
步骤七、将当前各集合中与集合中心距离最近的曲线确定为典型日负荷曲线。
一种基于聚类的典型日负荷曲线选取装置,包括:
曲线读入单元,用于读入预设时间跨度内的各日负荷曲线;
条数确定单元,用于确定典型日负荷曲线的条数k;
初始集合中心单元,用于选取k条日负荷曲线作为集合中心;
集合单元,用于在所述初始集合中心单元确定了集合中心之后、或者在集合中心判定单元的判定结果为否时、或者目标函数判定单元的判定结果为否时,分别计算各日负荷曲线与各集合中心的距离,将各日负荷曲线归入与其距离最近的集合中心所在的集合,并计算各集合的样本均值,将该样本均值作为该集合的新的集合中心;
集合中心判定单元,用于判断该所述集合单元确定的新的集合中心与上一次的集合中心是否相同;
目标函数判定单元,用于判断当前集合的目标函数与上一次集合的目标函数的差值是否在预设范围内;
典型日负荷曲线判定单元,用于在所述集合中心判定单元的判定结果为相同、或者目标函数判定单元的判断结果为是时,将当前各集合中与集合中心距离最近的曲线确定为典型日负荷曲线。
根据上述本发明方案,其是基于聚类的思想,对所有的数据样本(日负荷曲线)进行整体把握,生成的数据集合具有内部样本相似、不同集合样本相异的特点,从而可以有利于发现全局的分布模式,较传统方式而言,避免了计算单一指标或者进行平均化处理,可以减少随机因素及主观因素的影响,同时降低了直接提取单一曲线对坏数据的敏感程度,更适合于发现大规模数据的隐藏规律,通过对全局数据的迭代分析,更能够表征出整体规律。
具体实施方式
以下结合实施例对本发明方案进行详细阐述。
如图3所示,是本发明的基于聚类的典型日负荷曲线选取方法实施例的流程示意图,如图3所示,其包括步骤:
步骤S101、读入预设时间跨度内的各日负荷曲线,进入步骤S 102;
步骤S102、确定典型日负荷曲线的条数k,进入步骤S103;
步骤S103:选取k条日负荷曲线作为集合中心,进入步骤S104;
步骤S104、分别计算各日负荷曲线与各集合中心的距离,将各日负荷曲线归入与其距离最近的集合中心所在的集合,进入步骤S105;
步骤S105、计算各集合的样本均值,将该样本均值作为该集合的新的集合中心,进入步骤S106;
步骤五、判断该新的集合中心与上一次的集合中心是否相同,若不相同,进入步骤S107,若相同,进入步骤S108;
步骤S107、判断当前集合的目标函数与上一次集合的目标函数的差值是否在预设范围内,若否,返回上述步骤S104,若是,进入步骤S108;
步骤S108、将当前各集合中与集合中心距离最近的曲线确定为典型日负荷曲线。
上述本发明方法,是基于聚类的思想,对所有的数据样本(日负荷曲线)进行整体把握,生成的数据集合具有内部样本相似、不同集合样本相异的特点,从而可以有利于发现全局的分布模式,较传统方式而言,避免了计算单一指标或者进行平均化处理,可以减少随机因素及主观因素的影响,同时降低了直接提取单一曲线对坏数据的敏感程度,更适合于发现大规模数据的隐藏规律,通过对全局数据的迭代分析,更能够表征出整体规律。
聚类的基本思想,是将全部数据样本按照相似度分成多个类或者簇,在同一个簇中的样本之间具有较高的相似度,而不同簇中样本的差别较大。这里的相似度可以理解为两个样本在空间中的距离,一般采用欧式距离或者曼哈顿距离,欧式距离表示为:
依据该欧式距离,可以得知,d(X,Y)则两个样本X与Y越相似。
因此,在上述确定典型日负荷曲线的条数k时,k的取值可以根据实际分析的需要自己定义,例如工作人员依据样本本身的相似度来设定,这是因为,从数学角度上来说,样本本身的相似程度(例如空间中的距离)已经决定了其最佳的分类个数,簇内距离尽可能小,簇间距离尽可能大,以图4中所示的聚类样本的示意图为例,k的最佳个数为4,工作人员观测该样本示意图即可直接设定。
在优选情况下,可以通过计算聚类指标,依据聚类指标来确定k值。以下针对通过聚类指标确定k值的过程进行详细说明。
通过聚类指标确定k值的方式,是将簇个数分别设定为不同的值,通过计算不同的簇个数(即k个数)下的聚类指标,综合各聚类指标来选取对应的簇个数(k值)来设定为典型日负荷曲线的个数k。
聚类指标可通过下述公式来计算:
其中,
式中,DBindex表示聚类指标,k表示簇个数,||·||表示两条样本之间的距离,cxm是第m个簇的簇心,cxn是第n个簇的簇心,cm和cn分别为属于第m个簇和第n个簇的所有样本,Nm和Nn为第m个簇和第n个簇的样本个数。其中,簇心cxm、cxn可以通过最经典的聚类算法k-均值法获得,也可以通过其他的方式获得。
观察上式可以发现,R(m,n)的分母为第m个和第n个簇的簇心之间的距离,其分子为第m个和第n个簇的簇内平均距离。因此DBindex可以从整体上表征聚类的效果,即簇内越紧密(距离小),簇间越稀疏(距离大),则DBindex值越小,可为典型样本个数的选取提供依据。
在依据各簇个数对应的聚类指标来设定典型日负荷曲线的个数时,可以依据情况进行综合设定,例如聚类指标趋于稳定的拐点、聚类指标最小的点等等。依据如上对聚类指标DBindex的分析,DBindex越小,簇内越紧密,DBindex越大,簇内越稀疏,因此,通常情况下,可将最小的聚类指标对应的簇个数设定为典型日负荷曲线的条数k。依据实际应用的需要,可以采用不同的方式来通过聚类指标确定k。
在一个具体示例中,首先读入待分析的时间跨度内的全部n条曲线,例如,若要分析一整年的数据,则n=365或者n=366。
随后,针对这全部n条曲线,确定典型曲线的条数k,确定了k的值之后,从全部的n条日负荷曲线中选取k条曲线作为初始集合中心
(j=1,2...k),这k条曲线可以任意、随机选取。
随后,计算各曲线Xi与各集合中心Cj s间的距离di,j:di,j=||Xi-Cj s||
式中,i=1,2...n,j=1,2...k,s表示当前迭代的次数。
随后,根据每条日负荷曲线与各集合中心间的距离,选择与之最相似的集合中心,逐一归入各集合中心所代表的集合:
即:若
则
然后计算各集合的样本均值,作为新的集合中心:C
j s+1=mean(Φ
j),式中C
j s+1代表新的集合中心,mean(Φ
j)代表计算得出的样本均值。
然后判断得出的新的集合中心与上一次迭代的集合中心有没有发生变化:如果没有发生变化,即Cj s+1=Cj s,则说明当前的聚类已经是最佳聚类,结束迭代过程,直接进入最后一步,从各集合中分别选取距离集合中心最近的日负荷曲线,作为典型日负荷曲线;
如果有发生变化,则说明无法确定当前聚类是不是最佳聚类,进一步判断两次迭代的目标函数的差值是否在预设范围内,即两次迭代的目标函数的差是否小于允许值:|Es+1-Es|<ε,如果是小于,则说明当前聚类已经能够符合要求,则结束迭代过程,进入最后一步,从各集合中分别选取距离集合中心最近的日负荷曲线,作为典型日负荷曲线,否则的话,返回步骤S104中继续迭代,重新对各日负荷曲线与当前的集合中心的距离进行计算、对各日负荷曲线重新进行归类。
其中,上述ε的值可以依据实际需要进行设定,目标函数E可以是平方误差准则函数
根据上述本发明的基于聚类的典型日负荷曲线选取方法,本发明还提供一种基于聚类的典型日负荷曲线选取装置,如图5所示,是本发明基于聚类的典型日负荷曲线选取装置实施例的结构示意图,其包括有:
曲线读入单元201,用于读入预设时间跨度内的各日负荷曲线;
条数确定单元202,与上述曲线读入单元201相连接,用于确定典型日负荷曲线的条数k;
初始集合中心单元203,与上述条数确定单元202相连接,用于选取k条日负荷曲线作为集合中心;
集合单元204,与上述初始集合中心单元203相连接,用于在上述初始集合中心单元203确定了集合中心之后、或者在集合中心判定单元205的判定结果为不相同时、或者目标函数判定单元206的判定结果为否时,分别计算各日负荷曲线与各集合中心的距离,将各日负荷曲线归入与其距离最近的集合中心所在的集合,还用于计算各集合的样本均值,并将该样本均值作为该集合的新的集合中心;
集合中心判定单元205,与上述集合单元204相连接,用于判断该集合单元204确定的新的集合中心与上一次的集合中心是否相同;
目标函数判定单元206,与上述集合单元204、集合中心判定单元205相连接,用于判断当前集合的目标函数与上一次集合的目标函数的差值是否在预设范围内;
典型日负荷曲线判定单元207,与上述集合中心判定单元205、目标函数判定单元206相连接,用于在上述集合中心判定单元205的判定结果为相同、或者上述目标函数判定单元206的判断结果为是时,将当前各集合中与集合中心距离最近的曲线确定为典型日负荷曲线。
上述本发明装置,是基于聚类的思想,对所有的数据样本(日负荷曲线)进行整体把握,生成的数据集合具有内部样本相似、不同集合样本相异的特点,从而可以有利于发现全局的分布模式,较传统方式而言,避免了计算单一指标或者进行平均化处理,可以减少随机因素及主观因素的影响,同时降低了直接提取单一曲线对坏数据的敏感程度,更适合于发现大规模数据的隐藏规律,通过对全局数据的迭代分析,更能够表征出整体规律。
在上述确定典型日负荷曲线的条数k时,k的取值可以根据实际分析的需要自己定义,例如工作人员依据样本本身的相似度来设定,这是因为,从数学角度上来说,样本本身的相似程度(例如空间中的距离)已经决定了其最佳的分类个数,簇内距离尽可能小,簇间距离尽可能大,以图4中所示的聚类样本的示意图为例,k的最佳个数为4,工作人员观测该样本示意图即可直接设定。
在优选情况下,可以通过计算聚类指标,依据聚类指标来确定k值。因此,上述条数确定单元具体包括:
簇个数设定单元,用于设定不同的簇个数;
聚类指标计算单元,用于分别计算各不同的簇个数情况下的聚类指标;
比较判定单元,用于根据聚类指标计算单元计算得出的聚类指标的值设定所述典型日负荷曲线的条数k。
以下针对通过聚类指标确定k值的过程进行详细说明。
通过聚类指标确定k值的方式,是将簇个数分别设定为不同的值,通过计算不同的簇个数(即k个数)下的聚类指标,综合各聚类指标来选取对应的簇个数(k值)来设定为典型日负荷曲线的个数k。
聚类单元在计算聚类指标时,可通过下述公式来计算:
其中,
式中,DBindex表示聚类指标,k表示簇个数,||·|表示两条样本之间的距离,cxm是第m个簇的簇心,cxn是第n个簇的簇心,cm和cn分别为属于第m个簇和第n个簇的所有样本,Nm和Nn为第m个簇和第n个簇的样本个数。其中,簇心cxm、cxn可以通过最经典的聚类算法k-均值法获得,也可以通过其他的方式获得。
观察上式可以发现,R(m,n)的分母为第m个和第n个簇的簇心之间的距离,其分子为第m个和第n个簇的簇内平均距离。因此DBindex可以从整体上表征聚类的效果,即簇内越紧密(距离小),簇间越稀疏(距离大),则DBindex值越小,可为典型样本个数的选取提供依据。
比较判定单元在依据各簇个数对应的聚类指标来设定典型日负荷曲线的个数k时,可以依据情况进行综合设定,例如聚类指标趋于稳定的拐点、聚类指标最小的点等等。依据如上对聚类指标DBindex的分析,DBindex越小,簇内越紧密,DBindex越大,簇内越稀疏,因此,通常情况下,可将最小的聚类指标对应的簇个数设定为典型日负荷曲线的条数k。依据实际应用的需要,可以采用不同的方式来通过聚类指标确定k。
上述目标函数的设定可以与上述本发明的基于聚类的典型日负荷曲线选取方法中的相同,在此不予赘述。
根据上述本发明基于聚类的典型日负荷曲线选取方法及装置,以下就一个具体示例进行详细阐述。
如图6所示,是某地某年全年时间段内的365条统调日负荷曲线的示意图,每日曲线为96个采样点,即采样间隔15分钟。图中可以发现有些曲线有突变幅度过大的毛刺,可能是系统采集的坏数据。对坏数据通常可采用修正的预处理,但为了说明本发明方案不易受噪声和随机因素的影响,可保持原始数据不变。
读入待分析的上述365条曲线后,首先确定聚类的个数k,即“典型日”的个数。传统分析中常对典型日负荷曲线按照季节分别选取,如夏季和冬季各选取一条,或者四个季节分别选取。本发明方案采用DBindex,即聚类指标,来推荐k的取值:
集合个数的最佳取值应符合聚类的思想,同一类别内样本距离尽可能小,而类别间的距离尽可能大。图7计算了这些样本在不同k取值(簇个数)下的DBindex指标的示意图。由图可知,在k取2时不能取得较好的聚类效果,即归为同一类的样本中仍有些许彼此相异,因此提取出的典型负荷曲线不能代表部分样本,而k取3及以后的个数时,指标下降并趋于稳定,因此在实际分析时不妨取拐点k=3。
随后,通过选取k=3,采用上述本发明方案进行迭代,最终获得三条典型日负荷曲线,这三条典型日负荷曲线分别如图8、图9、图10所示,其分别代表了该地春秋冬季、夏季和长假的日用电情况。
上述本发明方案,通过采用基于聚类的思想,为典型日负荷曲线的选取提供客观合理的方法。通过相似性进行迭代,使得距离近(相似性高)的样本不断聚集成为同一集合,集合的中心样本作为典型的曲线。传统的按照最大负荷出现时间或者按照指定工作日选取的方法,主观且随机。而且本发明采取的处理方法从曲线本身出发,避免计算特性指标(如日负荷率)产生的偏差。
此外,本发明方案通过计算聚类指标DBindex为集合个数的选择提供依据,即典型日的个数由数据自身的特性而决定。传统的负荷特性曲线选取通常按照季节简单化处理,即按月份划分集合。而本发明示例所示的某地的数据分析可知,如此划分没有考虑到长假的特殊用电方式,会忽略某些隐藏的模式,而且春秋冬三季用电特性由于广东省所处地理位置和用电习惯并没有太大差别。
以上所述的本发明实施方式,仅仅是对本发明的较佳实施方式的详细说明,并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明的权利要求保护范围之内。