CN106530132A - 一种电力负荷聚类的方法及装置 - Google Patents
一种电力负荷聚类的方法及装置 Download PDFInfo
- Publication number
- CN106530132A CN106530132A CN201611023849.6A CN201611023849A CN106530132A CN 106530132 A CN106530132 A CN 106530132A CN 201611023849 A CN201611023849 A CN 201611023849A CN 106530132 A CN106530132 A CN 106530132A
- Authority
- CN
- China
- Prior art keywords
- canopy
- cluster
- point
- data
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 53
- 238000003064 k means clustering Methods 0.000 claims abstract description 21
- 230000005611 electricity Effects 0.000 claims abstract description 15
- 238000004220 aggregation Methods 0.000 claims description 31
- 230000002776 aggregation Effects 0.000 claims description 31
- 238000004364 calculation method Methods 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 10
- 201000004569 Blindness Diseases 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 34
- 230000008569 process Effects 0.000 description 18
- 238000004590 computer program Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000004519 manufacturing process Methods 0.000 description 6
- 235000013399 edible fruits Nutrition 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 240000002853 Nelumbo nucifera Species 0.000 description 2
- 235000006508 Nelumbo nucifera Nutrition 0.000 description 2
- 235000006510 Nelumbo pentapetala Nutrition 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 206010008190 Cerebrovascular accident Diseases 0.000 description 1
- 241000122205 Chamaeleonidae Species 0.000 description 1
- 241001269238 Data Species 0.000 description 1
- 244000131316 Panax pseudoginseng Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 208000006011 Stroke Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本发明提供了一种电力负荷聚类的方法及装置。所述方法包括:采集电力负荷数据;将所述电力负荷数据进行Canopy聚类,生成若干canopy类和canopy中心;将所述canopy中心作为K值,利用K‑Means聚类算法,生成电力负荷聚类结果。本发明提出运用Canopy聚类和K‑means聚类相结合的方法进行客户聚类,极大地提高了聚类的速度和准确度,避免了k值选择的随机性和盲目性;并且,通过对不同属性和行为特征的用电客户聚类分群,分析同群体内客户用电负荷趋势,可以使电力公司有针对性的对批量客户提供主动服务,实现改善客户关系,提高客户满意度、防范电费风险,减少峰谷负荷,实现优质服务、降本增效等目标。
Description
技术领域
本发明涉及聚类分析领域,尤其涉及一种应用在电力负荷领域的聚类方法及装置。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
聚类分析(cluster analysis)简称聚类(clustering),是一个把数据对象(或观测)划分成子集的过程。每个子集是一个簇(cluster),使得簇中的对象有很高的相似性,但与其他簇中的对象不相似。由聚类分析产生的簇的集合称作一个聚类。在相同的数据集上,不同的聚类方法可能产生不同的聚类。划分不是通过人,而是通过聚类算法进行。聚类分析一个重要用途就是针对目标群体进行多指标的群体划分,从而指导企业进行精细化运营、服务及产品支持等。
聚类分析已经广泛的用于许多应用领域,包括商务智能、图像模式识别、生物学和安全。在商务智能应用中,聚类可以用来把大量客户分组,其中组内的用户具有非常类似的特征,这有利于开发加强客户关系管理的商务策略。客户聚类的目的不仅仅是实现企业内部对于客户的统一有效识别,也常常用于指导企业客户管理的战略性资源配置与战术性服务营销对策应用,支撑企业以客户为中心的个性化服务与专业化营销。客户聚类可以对客户的消费行为进行分析,也可以对顾客的消费心理进行分析。企业可以针对不同行为模式的客户提供不同的产品内容,针对不同消费心理的客户提供不同的销售手段等。客户聚类也是其他客户分析的基础,在聚类后的数据中进行挖掘更有针对性,可以得到更有意义的结果。
电力系统中,电气设备所需用的电功率称为电力负荷或电力。电力负荷就是电力系统中所有用电设备消耗功率的总和。用电负荷是一个不断变化的量,不同的用电单位或部门以及不同的用电设备,对电力的需要量、用电方式都有明显的差别。
伴随着大数据和电力信息化的飞速发展,国家电网公司开发应用了用电信息采集系统,该系统采集了用电客户每天96个点的用电负荷和用电量数据,在对该数据的分析和使用的过程中,对电力公司实现远方控制,保障限电不拉闸,实现计划用电、安全用电提高国民经济效益,起到了至关重要的作用。通过收集、归类和定义不同属性和行为特征的用电客户群,分析客户用电负荷趋势,使电力公司有针对性的对客户提供主动服务,是电力行业中急需解决的问题。
聚类算法的深入研究到今天已持续了半个多世纪,聚类技术也已经成为最常用的数据分析技术之一。其各种算法的提出、发展、演化已经相当成熟,目前,数据分析和数据挖掘业界最常用的聚类算法有K—Means,K—Medoids,Chameleon聚类,Canopy聚类等。
K—Means聚类算法又叫K均值算法,这是目前最著名,使用最广泛的聚类算法。在给定一个数据集和需要划分的数目k后,该算法可以根据某个距离函数反复把数据划分到k个簇中,直到收敛为止。其大致步骤是:
首先从随机抽取的k个数据点作为初始的聚类中心(种子中心),k值是基本k-means算法的一个关键的输入,确定k值的典型做法是依据某些先验知识,例如集合D中实际存在的或当前应用所预期的聚簇数量,当然也可以通过测试不同k值进行探查聚簇的类型信息,从而最终选定合适的k值。
然后计算每个数据点到每个种子中心的距离,并把每个数据点分配到距离它最近的种子中心,形成一个个聚簇。在k-means算法中,每个聚簇都用中的一个点来代表。可以将这些聚簇用集合C={cj|j=1,2,...,k}来表示。这个聚簇代表有时也被称为聚簇均值或聚簇中心。一旦所有的数据点都被分配完成,每个聚类的聚类中心(种子中心)按照本聚类(本簇)的现有数据点重新计算。聚类算法通常基于“紧密度”或者“相似度”等概念对点集进行分组。具体到k-means算法,默认的紧密度度量标准是欧氏距离:
这个过程不断重复,直到收敛,即满足某个终止条件为止,最常见的终止条件是误差平方和(SSE)局部最小。k-means算法实质要最小化一个如下的非负代价函数:
换言之,K-means算法要最小化的目标是:每个点xj和它最近的聚类中心ui之间的欧氏距离平方和,上述代价函数通常被称为K-means目标函数,这个函数收敛到最小时,聚类结果表示为最优解。
K—Means聚类的结果可能依赖于初始类中心的选择,可能使得结果严重偏离全局最优分类,实践中,为了得到较好的效果,通常以不同的初始类中心,多次运行K—Means算法,才能尽可能地规避出现局部最优解问题,并且不能保证多次计算以后得出的结果一定是全局最优解。
另一种聚类方法为Canopy算法,其把聚类分为两个阶段:阶段一,通过使用一个简单、快捷的距离计算方法把数据分为可重叠的子集,称为“canopy”;阶段二,通过使用一个精准、严密的距离计算方法来计算出现在阶段一中同一个canopy的所有数据向量的距离。
这种方式和其他聚类方式不同的地方在于使用了两种距离计算方式,同时因为只计算了重叠部分的数据向量,所以达到了减少计算量的目的。其具体的运算步骤为:
1.将数据集向量化得到一个list后放入内存,选择两个距离阈值:T1和T2,其中T1>T2,T1和T2的值可以用交叉校验来确定;
2.从list中任取一点P,用低计算成本方法快速计算点P与所有Canopy之间的距离(如果当前不存在Canopy,则把点P作为一个Canopy),如果点P与某个Canopy距离在T1以内,则将点P加入到这个Canopy;
3.如果点P曾经与某个Canopy的距离在T2以内,则需要把点P从list中删除,这一步是认为点P此时与这个Canopy已经够近了,因此它不可以再做其它Canopy的中心了;
4.重复步骤2、3,直到list为空结束。
经过canopy clustering之后,初始样本被聚合成若干类,每一类称为一个canopy;一个样本点可能分属于几个不同的canopy。
Canopy算法优点是计算速度快,缺点是结果准确性较低。
发明内容
本发明实施例提出一种电力负荷数据的聚类方法及装置,以解决现有的用于电力负荷数据聚类的聚类方法准确度和速度不可兼顾的问题。
为了达到上述目的,本发明实施例提供一种电力负荷聚类的方法,包括:采集电力负荷数据;将所述电力负荷数据进行Canopy聚类,生成若干canopy类和canopy中心;将所述canopy中心作为K值,利用K-Means聚类算法,生成电力负荷聚类结果。
进一步地,在一实施例中,将所述电力负荷数据进行Canopy聚类,生成若干canopy类和canopy中心,包括:步骤11,将采集的所述电力负荷数据进行数据向量化后生成数据列表;步骤12,利用曼哈顿距离计算两个距离阈值T1和T2,其中T1=2*T2;步骤13,从所述数据列表中任取一点P,如果当前不存在canopy类,则把点P作为一个canopy类,并计算所述点P与所有canopy类之间的距离,如果所述点P与某个canopy类的距离在所述距离阈值T1以内,则将所述点P加入到这个canopy类,如果所述点P与某个canopy类的距离在所述距离阈值T2以内,则将所述点P从所述数据列表中删除;步骤14,重复步骤13,直到所述数据列表为空。
进一步地,在一实施例中,所述将所述canopy中心作为K值,利用K-Means聚类算法,生成电力负荷聚类结果,包括:步骤21,将所述canopy中心放入K-Means中作为聚类中心;步骤22,计算采集的所述电力负荷数据与所述聚类中心之间的欧氏距离,判断所述电力负荷数据中的样本点属于哪一聚类;步骤23,当所述样本点被分配完成后,重新计算每个聚类的聚类中心;步骤24,重复步骤22和23,直至准则函数收敛。
进一步地,在一实施例中,使用有效性函数作为聚类算法停止的判别条件,当聚类划分结果达到所述有效性函数时即停止算法运行。
进一步地,在一实施例中,所述有效性函数为全局误差函数。
为了达到上述目的,本发明实施例还提供一种电力负荷聚类的装置,包括:数据采集装置,用于采集电力负荷数据;Canopy聚类装置,用于将所述电力负荷数据进行Canopy聚类,生成若干canopy类和canopy中心;K-Means聚类装置,用于将所述canopy中心作为K值,利用K-Means聚类算法,生成电力负荷聚类结果。
进一步地,在一实施例中,所述Canopy聚类装置将所述电力负荷数据进行Canopy聚类,生成若干canopy类和canopy中心,具体包括:向量化模块,用于将采集的所述电力负荷数据进行数据向量化后生成数据列表;阈值计算模块,用于利用曼哈顿距离计算两个距离阈值T1和T2,其中T1=2*T2;聚类模块,用于从所述数据列表中任取一点P,如果当前不存在canopy类,则把点P作为一个canopy类,并计算所述点P与所有canopy类之间的距离,如果所述点P与某个canopy类的距离在所述距离阈值T1以内,则将所述点P加入到这个canopy类,如果所述点P与某个canopy类的距离在所述距离阈值T2以内,则将所述点P从所述数据列表中删除;重复上述操作,直到所述数据列表为空。
进一步地,在一实施例中,所述K-Means聚类装置将所述canopy中心作为K值,利用K-Means聚类算法,生成电力负荷聚类结果,具体包括:聚类中心设定模块,用于将所述canopy中心放入K-Means中作为聚类中心;聚类判定模块,用于计算采集的所述电力负荷数据与所述聚类中心之间的欧氏距离,判断所述电力负荷数据中的样本点属于哪一聚类;聚类中心重新计算模块,用于当所述样本点被分配完成后,重新计算每个聚类的聚类中心;收敛模块,用于设定准则函数,当所述准则函数收敛到最小时,K-Means聚类结果为最优。
进一步地,在一实施例中,还包括:聚类停止判别模块,用于使用有效性函数作为聚类算法停止的判别条件,当聚类划分结果达到所述有效性函数时即停止算法运行。
进一步地,在一实施例中,所述有效性函数为全局误差函数。
本发明实施例的电力负荷数据的聚类方法及装置,提出运用Canopy聚类和K-means聚类相结合的方法进行客户聚类,极大地提高了聚类的速度和准确度,避免了k值选择的随机性和盲目性;并且,通过对不同属性和行为特征的用电客户聚类分群,分析同群体内客户用电负荷趋势,可以使电力公司有针对性的对批量客户提供主动服务,实现改善客户关系,提高客户满意度、防范电费风险,减少峰谷负荷,实现优质服务、降本增效等目标。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的电力负荷聚类的方法的处理流程图;
图2为本发明实施例的Canopy聚类方法的处理步骤图;
图3为本发明实施例的K-Means聚类方法的处理步骤图;
图4为本发明实施例的电力负荷聚类的装置的结构示意图;
图5为图4所示实施例中的Canopy聚类装置102的结构示意图;
图6为图4所示实施例中的K-Means聚类装置103的结构示意图;
图7-图14为本发明具体实施例中的在K-Means聚类完成后,生成的各聚类中心的曲线图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本领域技术技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
聚类最耗费计算的地方是计算对象相似性的时候,Canopy聚类在第一阶段选择简单、计算代价较低的方法计算对象相似性,将相似的对象放在一个子集中,这个子集被叫做Canopy,通过一系列计算得到若干Canopy,Canopy之间可以是重叠的,但不会存在某个对象不属于任何Canopy的情况,可以把这一阶段看作数据预处理。Canopy算法是一种可以并行运算的算法,数据并行意味着可以多线程进行,加快聚类速度。
K—Means算法相对于其他算法,更为简洁、高效、易理解易实施,但K—Means需要对k值进行人为确定并多次实验,才能得到最终符合实际业务的类别。Canopy能够快速聚类出来簇中心,将canopy计算出的的簇中心放入K—Means算法作为K值,再进行聚类,省略了多次重复迭代寻找类中心的过程,避免了K值在选择过程中的随机性和盲目性,能够有效地规避局部最优解的问题,保证了计算结果的准确度。
也就是说,在现有的聚类方法中,Canopy计算速度快,K—Means较其他算法更加准确,本发明即是将二者结合起来作为组合模型,既能发挥Canopy的优势,提高聚类的速度,又能保证聚类的精准度,是一种很有应用价值的新方法。
与传统的聚类算法相比,Canopy聚类最大的特点是不需要事先指定k值(即clustering的个数),Canopy聚类虽然精度较低,但其在速度上有很大优势,因此本发明中可以使用Canopy聚类先对数据进行“粗”聚类,得到k值后再使用K-means进行进一步“细”聚类。
图1为本发明实施例的电力负荷聚类的方法的处理流程图。如图1所示,包括:
步骤S101,采集电力负荷数据;步骤S102,将所述电力负荷数据进行Canopy聚类,生成若干canopy类和canopy中心;步骤S103,将所述canopy中心作为K值,利用K-Means聚类算法,生成电力负荷聚类结果。
在本实施例的步骤S101中,采集电力负荷数据为采集某天的96点负荷数据作为样本数据,生成数据集。
在本实施例的步骤S102中,将所述电力负荷数据进行Canopy聚类,生成若干canopy类和canopy中心,这一步骤为数据进行“粗”聚类的过程。Canopy算法的主要思想,把聚类分为两个阶段:
阶段一,通过使用一个简单、快捷的距离计算方法把数据分为可重叠的子集,称为“canopy”;
阶段二,通过使用一个精准、严密的距离计算方法来计算出现在阶段一中同一个canopy的所有数据向量的距离。
这种方式和之前的聚类方式不同的地方在于使用了两种距离计算方式,同时因为只计算了重叠部分的数据向量,所以达到了减少计算量的目的。
其具体方法步骤参看图2所示:
①将数据集向量化得到一个list后进行存储。在一实施例中,如果采集的为96点负荷数据,则需要将采集的96点负荷数据除以合同容量,将数据标准化为0到1之间的标准化数据,使用InputDriver类将txt文档转换为Canopy算法需要的文档格式(VectorWritable)。
然后,选择两个距离阈值:T1和T2,其中T1=2*T2,T2的距离计算公式采用曼哈顿距离来计算:其中,xi表示数据集中x用户在i位置的数据,yi表示数据集中y用户在i位置的数据。
并且,T1指定为T2的2倍:T1=2*T2。
②从list中任取一点P,用低计算成本方法快速计算点P与所有canopy之间的距离d,距离d采用欧式距离公式:
如果当前不存在canopy,则把点P作为一个canopy,如果点P与某个canopy距离在T1以内,即d<T1,则将点P加入到这个canopy;①
③如果点P曾经与某个canopy的距离在T2以内(即d<T2),则需要把点P从list中删除,这一步是认为点P此时与这个canopy已经够近了,因此它不可以再做其它canopy的中心了;
④重复步骤②和③,直到list为空结束。
经过canopy clustering之后,初始样本数据集被聚合成若干类,每一类称为一个canopy;一个样本点可能分属于几个不同的canopy。最后,将聚类结果和canopy中心保存起来。
在本实施例的步骤S103中,所述将所述canopy中心作为K值,利用K-Means聚类算法,生成电力负荷聚类结果,这一步骤为数据进行“细”聚类的过程。具体实施时,运行完Canopy之后,将生成的canopy中心放入K-Means作为K值,进行K-Means聚类,运算过程如图3所示:
①使用步骤S102中生成的canopy中心来运行k-means聚类算法;
②在k-means方法的参数(-c)中设置canopy聚类结果的输出文件夹,并去掉-k参数;
③选取数据集中的数据赋给初始的聚类中心(即放入到K-Means中的canopy中心);
④计算样本数据集与聚类中心(canopy中心)之间的欧氏距离:并获取该样本点的所属类别;
⑤重新计算聚类中心;
⑥重复上述两个步骤④和⑤,直至准则函数收敛。
在步骤S103得到K-Means聚类结果后,由于在聚类算法的不同阶段会得到不同的类别划分结果,可以通过聚类有效性函数来判断多个划分结果中哪个是有效的。
也就是说,使用有效性函数作为算法停止的判别条件,当类别划分结果达到聚类有效性函数时即可停止算法运行。本实施例中可以采用全局误差函数作为检验聚类有效性的标准,即将每一个样本和其所属类的中心点的距离求平方,然后加总,公式为:
其中,E代表误差,k代表k个聚类中心,si代表k个类中的一个,ui是群组si的聚类中心,xj是si中的任意元素。
应当注意,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
在介绍了本发明示例性实施方式的方法之后,接下来,参考图4对本发明示例性实施方式的电力负荷聚类的装置进行介绍。该装置的实施可以参见上述方法的实施,重复之处不再赘述。以下所使用的术语“模块”和“单元”,可以是实现预定功能的软件和/或硬件。尽管以下实施例所描述的模块较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图4为本发明实施例的电力负荷聚类的装置的结构示意图。如图所示,包括:
数据采集装置101,用于采集电力负荷数据;Canopy聚类装置102,用于将所述电力负荷数据进行Canopy聚类,生成若干canopy类和canopy中心;K-Means聚类装置103,用于将所述canopy中心作为K值,利用K-Means聚类算法,生成电力负荷聚类结果。
进一步地,如图5所示,所述Canopy聚类装置102将所述电力负荷数据进行Canopy聚类,生成若干canopy类和canopy中心,具体包括:向量化模块1021,用于将采集的所述电力负荷数据进行数据向量化后生成数据列表;阈值计算模块1022,用于利用曼哈顿距离计算两个距离阈值T1和T2,其中T1=2*T2;聚类模块1023,用于从所述数据列表中任取一点P,如果当前不存在canopy类,则把点P作为一个canopy类,并计算所述点P与所有canopy类之间的距离,如果所述点P与某个canopy类的距离在所述距离阈值T1以内,则将所述点P加入到这个canopy类,如果所述点P与某个canopy类的距离在所述距离阈值T2以内,则将所述点P从所述数据列表中删除;重复上述操作,直到所述数据列表为空。
进一步地,如图6所示,所述K-Means聚类装置103将所述canopy中心作为K值,利用K-Means聚类算法,生成电力负荷聚类结果,具体包括:聚类中心设定模块1031,用于将所述canopy中心放入K-Means中作为聚类中心;聚类判定模块1032,用于计算采集的所述电力负荷数据与所述聚类中心之间的欧氏距离,判断所述电力负荷数据中的样本点属于哪一聚类;聚类中心重新计算模块1033,用于当所述样本点被分配完成后,重新计算每个聚类的聚类中心;收敛模块1034,用于设定准则函数,当所述准则函数收敛到最小时,K-Means聚类结果为最优。
进一步地,本实施例的电力负荷聚类的装置还包括:聚类停止判别模块,用于使用有效性函数作为聚类算法停止的判别条件,当聚类划分结果达到所述有效性函数时即停止算法运行。在一实施例中,所述有效性函数为全局误差函数。
此外,尽管在上文详细描述中提及了电力负荷聚类的装置的若干单元,但是这种划分仅仅并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。同样,上文描述的一个单元的特征和功能也可以进一步划分为由多个单元来具体化。
具体实施例:
该实施例中选用了某地市11万企业用户的某一天的96点数据(如图7所示)进行聚类,在hadooop环境下,用Spark进行聚类操作。
步骤一、数据集准备
样本数据库中包含某地市11万企业用户某天的96点负荷数据,Canopy和Kmeans支持并列式运算,因此该模型在hadoop平台运行,上传数据到HDFS上。
步骤二、数据向量化
将数据库中采集的96点负荷数据除以合同容量,将数据标准化为0到1之间的标准化数据,使用InputDriver类将txt文档转换为Canopy算法需要的文档格式(VectorWritable)。
步骤三、Canopy聚类
1.将数据集向量化得到一个List后放入内存,利用曼哈顿距离,计算所有样本间的距离得到:T1=40.027。
2.用欧氏距离计算得出8个类别,聚类中心如表1所示:
表1
步骤四、K—Means聚类
使用刚刚生成的Canopy中心来运行K—Means算法,在k-means方法的参数(-c)中设置canopy聚类结果的输出文件夹,并去掉-k参数,运行K-Means算法,得到新的聚类结果为表2所示:
表2
在K-Means聚类完成后,生成的各聚类中心的曲线如图7-14所示。
如图7所示,此类企业属于机械化运行型企业,因为全天曲线趋于一致,并且稳定,合同容量占有率约在40%-50%,是非常优质的用电用户。
如图8所示,此类企业属于白天停工,晚上生产型。
如图9所示,此类企业属于白天生产,运行不稳定型。
如图10所示,此类用户同第一类用户一样,属于全天生产的企业,但不同于第一类,此类用户在7点和19点用餐的时间,负荷下降,说明此类企业多以人工为主,机械化程度不高,用电量不是太稳定。
如图11所示,此类型在正常上班时间(6:00-10:00,22:00-24:00)几乎不工作,有可能电器负荷较大,为了跟其他电器错峰使用,从合同容量使用率来看,大多数用电的时间,使用率都在1附近浮动,甚至较长时间都在1.5左右,也印证了这一点,此类企业如果数量较多,用电量很大,很容易给发电公司带来运营风险。
如图12所示,此类企业多为污染较严重企业,因此大多在夜间进行作业,生产时用电严重不稳定,峰值时合同使用率高达1.8,与低谷落差较大,运行极其不稳定,属于质量很差的用户,需特别注意,必要时采取相应的应对措施。
如图13所示,此类企业属于白天运行稳定,夜晚突击型。
如图14所示,此类企业属于全天生产,运行不稳定型。
步骤五、聚类有效性
本实施例采用全局误差函数作为检验聚类有效性的标准,即将每一个样本和其所属类的中心点的距离求平方,然后加总,公式为:计算出的全局误差函数E为97600。
步骤六、结果保存
将聚类中心及每个类别的cons_no明细保存,便于进一步贴标签并分析使用。
本发明实施例的电力负荷数据的聚类方法及装置,提出运用Canopy聚类和K-means聚类相结合的方法进行客户聚类,,极大地提高了聚类的速度和准确度,避免了k值选择的随机性和盲目性;并且,通过对不同属性和行为特征的用电客户聚类分群,分析同群体内客户用电负荷趋势,可以使电力公司有针对性的对批量客户提供主动服务,实现改善客户关系,提高客户满意度、防范电费风险,减少峰谷负荷,实现优质服务、降本增效等目标。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种电力负荷聚类的方法,其特征在于,包括:
采集电力负荷数据;
将所述电力负荷数据进行Canopy聚类,生成若干canopy类和canopy中心;
将所述canopy中心作为K值,利用K-Means聚类算法,生成电力负荷聚类结果。
2.根据权利要求1所述的电力负荷聚类的方法,其特征在于,将所述电力负荷数据进行Canopy聚类,生成若干canopy类和canopy中心,包括:
步骤11,将采集的所述电力负荷数据进行数据向量化后生成数据列表;
步骤12,利用曼哈顿距离计算两个距离阈值T1和T2,其中T1=2*T2;
步骤13,从所述数据列表中任取一点P,如果当前不存在canopy类,则把点P作为一个canopy类,并计算所述点P与所有canopy类之间的距离,如果所述点P与某个canopy类的距离在所述距离阈值T1以内,则将所述点P加入到这个canopy类,如果所述点P与某个canopy类的距离在所述距离阈值T2以内,则将所述点P从所述数据列表中删除;
步骤14,重复步骤13,直到所述数据列表为空。
3.根据权利要求1所述的电力负荷聚类的方法,其特征在于,所述将所述canopy中心作为K值,利用K-Means聚类算法,生成电力负荷聚类结果,包括:
步骤21,将所述canopy中心放入K-Means中作为聚类中心;
步骤22,计算采集的所述电力负荷数据与所述聚类中心之间的欧氏距离,判断所述电力负荷数据中的样本点属于哪一聚类;
步骤23,当所述样本点被分配完成后,重新计算每个聚类的聚类中心;
步骤24,重复步骤22和23,直至准则函数收敛。
4.根据权利要求1所述的电力负荷聚类的方法,其特征在于,使用有效性函数作为聚类算法停止的判别条件,当聚类划分结果达到所述有效性函数时即停止算法运行。
5.根据权利要求4所述的电力负荷聚类的方法,其特征在于,所述有效性函数为全局误差函数。
6.一种电力负荷聚类的装置,其特征在于,包括:
数据采集装置,用于采集电力负荷数据;
Canopy聚类装置,用于将所述电力负荷数据进行Canopy聚类,生成若干canopy类和canopy中心;
K-Means聚类装置,用于将所述canopy中心作为K值,利用K-Means聚类算法,生成电力负荷聚类结果。
7.根据权利要求6所述的电力负荷聚类的装置,其特征在于,所述Canopy聚类装置将所述电力负荷数据进行Canopy聚类,生成若干canopy类和canopy中心,具体包括:
向量化模块,用于将采集的所述电力负荷数据进行数据向量化后生成数据列表;
阈值计算模块,用于利用曼哈顿距离计算两个距离阈值T1和T2,其中T1=2*T2;
聚类模块,用于从所述数据列表中任取一点P,如果当前不存在canopy类,则把点P作为一个canopy类,并计算所述点P与所有canopy类之间的距离,如果所述点P与某个canopy类的距离在所述距离阈值T1以内,则将所述点P加入到这个canopy类,如果所述点P与某个canopy类的距离在所述距离阈值T2以内,则将所述点P从所述数据列表中删除;重复上述操作,直到所述数据列表为空。
8.根据权利要求6所述的电力负荷聚类的装置,其特征在于,所述K-Means聚类装置将所述canopy中心作为K值,利用K-Means聚类算法,生成电力负荷聚类结果,具体包括:
聚类中心设定模块,用于将所述canopy中心放入K-Means中作为聚类中心;
聚类判定模块,用于计算采集的所述电力负荷数据与所述聚类中心之间的欧氏距离,判断所述电力负荷数据中的样本点属于哪一聚类;
聚类中心重新计算模块,用于当所述样本点被分配完成后,重新计算每个聚类的聚类中心;
收敛模块,用于设定准则函数,当所述准则函数收敛到最小时,K-Means聚类结果为最优。
9.根据权利要求6所述的电力负荷聚类的装置,其特征在于,还包括:
聚类停止判别模块,用于使用有效性函数作为聚类算法停止的判别条件,当聚类划分结果达到所述有效性函数时即停止算法运行。
10.根据权利要求9所述的电力负荷聚类的装置,其特征在于,所述有效性函数为全局误差函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611023849.6A CN106530132A (zh) | 2016-11-14 | 2016-11-14 | 一种电力负荷聚类的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611023849.6A CN106530132A (zh) | 2016-11-14 | 2016-11-14 | 一种电力负荷聚类的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106530132A true CN106530132A (zh) | 2017-03-22 |
Family
ID=58352998
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611023849.6A Pending CN106530132A (zh) | 2016-11-14 | 2016-11-14 | 一种电力负荷聚类的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106530132A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107220732A (zh) * | 2017-05-31 | 2017-09-29 | 福州大学 | 一种基于梯度提升树的停电投诉风险预测方法 |
CN107368556A (zh) * | 2017-07-04 | 2017-11-21 | 广西电网有限责任公司电力科学研究院 | 一种输电线路多源地理信息一致性匹配系统 |
CN107423764A (zh) * | 2017-07-26 | 2017-12-01 | 西安交通大学 | 基于NSS‑AKmeans和MapReduce处理大数据的K‑Means聚类方法 |
CN108776814A (zh) * | 2018-06-01 | 2018-11-09 | 广东电网有限责任公司 | 一种电力通信数据资源并行化聚类方法 |
CN109410588A (zh) * | 2018-12-20 | 2019-03-01 | 湖南晖龙集团股份有限公司 | 一种基于交通大数据的交通事故演化分析方法 |
CN109509513A (zh) * | 2018-12-25 | 2019-03-22 | 刘万里 | 基于分布聚类的胃食管反流疾病危险因素提取方法及系统 |
CN110795610A (zh) * | 2019-09-18 | 2020-02-14 | 国网江苏省电力有限公司 | 一种基于聚类的电力负荷分析方法 |
CN111476316A (zh) * | 2020-04-28 | 2020-07-31 | 福建师范大学 | 一种基于云计算下电力负荷特征数据均值聚类的方法及系统 |
CN112035715A (zh) * | 2020-07-10 | 2020-12-04 | 广西电网有限责任公司 | 一种用户标签设计方法及装置 |
CN112035454A (zh) * | 2020-08-28 | 2020-12-04 | 江苏徐工信息技术股份有限公司 | 一种基于聚类集成的黑工地检测算法 |
CN112215490A (zh) * | 2020-10-12 | 2021-01-12 | 国网重庆市电力公司电力科学研究院 | 一种基于相关性系数改进K-means的电力负荷聚类分析方法 |
CN112767189A (zh) * | 2020-11-10 | 2021-05-07 | 国网浙江杭州市余杭区供电有限公司 | 一种计及风电并网下电网灵活性评估方法 |
CN112785457A (zh) * | 2021-02-02 | 2021-05-11 | 东南大学 | 一种基于面板数据的分布式供能系统典型场景构建方法 |
CN112819299A (zh) * | 2021-01-21 | 2021-05-18 | 上海电力大学 | 一种基于中心优化的差分K-means负荷聚类方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102946566A (zh) * | 2012-10-24 | 2013-02-27 | 北京奇虎科技有限公司 | 基于历史信息的视频推荐方法和装置 |
CN104102726A (zh) * | 2014-07-22 | 2014-10-15 | 南昌航空大学 | 基于层次聚类的改进k均值聚类算法 |
CN105678607A (zh) * | 2016-01-07 | 2016-06-15 | 合肥工业大学 | 一种基于改进的K-Means算法的订单分批方法 |
CN105678398A (zh) * | 2015-12-24 | 2016-06-15 | 国家电网公司 | 基于大数据技术的电力负荷预测方法及基于该方法的研究应用系统 |
-
2016
- 2016-11-14 CN CN201611023849.6A patent/CN106530132A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102946566A (zh) * | 2012-10-24 | 2013-02-27 | 北京奇虎科技有限公司 | 基于历史信息的视频推荐方法和装置 |
CN104102726A (zh) * | 2014-07-22 | 2014-10-15 | 南昌航空大学 | 基于层次聚类的改进k均值聚类算法 |
CN105678398A (zh) * | 2015-12-24 | 2016-06-15 | 国家电网公司 | 基于大数据技术的电力负荷预测方法及基于该方法的研究应用系统 |
CN105678607A (zh) * | 2016-01-07 | 2016-06-15 | 合肥工业大学 | 一种基于改进的K-Means算法的订单分批方法 |
Non-Patent Citations (1)
Title |
---|
孟海东等: "《大数据挖掘技术与应用》", 31 December 2014, 冶金工业出版社 * |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107220732A (zh) * | 2017-05-31 | 2017-09-29 | 福州大学 | 一种基于梯度提升树的停电投诉风险预测方法 |
CN107368556B (zh) * | 2017-07-04 | 2020-10-20 | 广西电网有限责任公司电力科学研究院 | 一种输电线路多源地理信息一致性匹配系统 |
CN107368556A (zh) * | 2017-07-04 | 2017-11-21 | 广西电网有限责任公司电力科学研究院 | 一种输电线路多源地理信息一致性匹配系统 |
CN107423764A (zh) * | 2017-07-26 | 2017-12-01 | 西安交通大学 | 基于NSS‑AKmeans和MapReduce处理大数据的K‑Means聚类方法 |
CN108776814A (zh) * | 2018-06-01 | 2018-11-09 | 广东电网有限责任公司 | 一种电力通信数据资源并行化聚类方法 |
CN109410588A (zh) * | 2018-12-20 | 2019-03-01 | 湖南晖龙集团股份有限公司 | 一种基于交通大数据的交通事故演化分析方法 |
CN109410588B (zh) * | 2018-12-20 | 2022-03-15 | 湖南晖龙集团股份有限公司 | 一种基于交通大数据的交通事故演化分析方法 |
CN109509513A (zh) * | 2018-12-25 | 2019-03-22 | 刘万里 | 基于分布聚类的胃食管反流疾病危险因素提取方法及系统 |
CN110795610B (zh) * | 2019-09-18 | 2022-02-18 | 国网江苏省电力有限公司 | 一种基于聚类的电力负荷分析方法 |
CN110795610A (zh) * | 2019-09-18 | 2020-02-14 | 国网江苏省电力有限公司 | 一种基于聚类的电力负荷分析方法 |
CN111476316A (zh) * | 2020-04-28 | 2020-07-31 | 福建师范大学 | 一种基于云计算下电力负荷特征数据均值聚类的方法及系统 |
CN111476316B (zh) * | 2020-04-28 | 2023-04-14 | 福建师范大学 | 一种基于云计算下电力负荷特征数据均值聚类的方法及系统 |
CN112035715A (zh) * | 2020-07-10 | 2020-12-04 | 广西电网有限责任公司 | 一种用户标签设计方法及装置 |
CN112035715B (zh) * | 2020-07-10 | 2023-04-14 | 广西电网有限责任公司 | 一种用户标签设计方法及装置 |
CN112035454A (zh) * | 2020-08-28 | 2020-12-04 | 江苏徐工信息技术股份有限公司 | 一种基于聚类集成的黑工地检测算法 |
CN112215490A (zh) * | 2020-10-12 | 2021-01-12 | 国网重庆市电力公司电力科学研究院 | 一种基于相关性系数改进K-means的电力负荷聚类分析方法 |
CN112767189A (zh) * | 2020-11-10 | 2021-05-07 | 国网浙江杭州市余杭区供电有限公司 | 一种计及风电并网下电网灵活性评估方法 |
CN112767189B (zh) * | 2020-11-10 | 2022-07-19 | 国网浙江杭州市余杭区供电有限公司 | 一种计及风电并网下电网灵活性评估方法 |
CN112819299A (zh) * | 2021-01-21 | 2021-05-18 | 上海电力大学 | 一种基于中心优化的差分K-means负荷聚类方法 |
CN112785457A (zh) * | 2021-02-02 | 2021-05-11 | 东南大学 | 一种基于面板数据的分布式供能系统典型场景构建方法 |
CN112785457B (zh) * | 2021-02-02 | 2023-10-10 | 东南大学 | 一种基于面板数据的分布式供能系统典型场景构建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106530132A (zh) | 一种电力负荷聚类的方法及装置 | |
CN105224606B (zh) | 一种用户标识的处理方法及装置 | |
CN108764984A (zh) | 一种基于大数据的电力用户画像构建方法及系统 | |
US20200382380A1 (en) | Efficiency indexes | |
CN102591940B (zh) | 一种基于Map/Reduce的快速支持向量数据描述方法及系统 | |
US10373071B2 (en) | Automated intelligent data navigation and prediction tool | |
CN104750780B (zh) | 一种基于统计分析的Hadoop配置参数优化方法 | |
CN103019855B (zh) | MapReduce作业执行时间预测方法 | |
CN105808582A (zh) | 基于分层策略的决策树并行生成方法和装置 | |
CN108399553A (zh) | 一种考虑地理和线路从属关系的用户特征标签设定方法 | |
Wang et al. | A fast candidate viewpoints filtering algorithm for multiple viewshed site planning | |
CN115796559A (zh) | 一种考虑需求响应场景的可调负荷排序方法及系统 | |
CN111967521A (zh) | 跨境活跃用户识别方法及装置 | |
CN107943947A (zh) | 一种基于Hadoop平台的改进并行KNN网络舆情分类算法 | |
CN112418258A (zh) | 一种特征离散化方法和装置 | |
CN107679133B (zh) | 一种实用于海量实时pmu数据的挖掘方法 | |
CN103984723A (zh) | 一种针对增量数据对频繁项进行更新数据挖掘方法 | |
Zhong et al. | Analysis of enterprise strategic management issues and coping strategies based on big data analysis | |
CN109977977A (zh) | 一种识别潜在用户的方法及对应装置 | |
Wang et al. | Accelerating artificial bee colony algorithm by using an external archive | |
CN108268876A (zh) | 一种基于聚类的近似重复记录的检测方法及装置 | |
US20050197936A1 (en) | Monte Carlo grid scheduling algorithm selection optimization | |
CN113641705B (zh) | 一种基于计算引擎的营销处置规则引擎方法 | |
CN109902178A (zh) | 一种多级文本分类方法及系统 | |
CN109670526A (zh) | 一种电网的干扰源类型辨识方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170322 |
|
RJ01 | Rejection of invention patent application after publication |