CN110851502B - 一种基于数据挖掘技术的负荷特征场景分类方法 - Google Patents
一种基于数据挖掘技术的负荷特征场景分类方法 Download PDFInfo
- Publication number
- CN110851502B CN110851502B CN201911131730.4A CN201911131730A CN110851502B CN 110851502 B CN110851502 B CN 110851502B CN 201911131730 A CN201911131730 A CN 201911131730A CN 110851502 B CN110851502 B CN 110851502B
- Authority
- CN
- China
- Prior art keywords
- load
- data
- user
- cluster
- electricity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 238000007418 data mining Methods 0.000 title claims abstract description 14
- 238000005516 engineering process Methods 0.000 title claims abstract description 9
- 230000005611 electricity Effects 0.000 claims abstract description 43
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 33
- 238000013145 classification model Methods 0.000 claims abstract description 14
- 239000013598 vector Substances 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 11
- 230000002159 abnormal effect Effects 0.000 claims description 8
- 230000000694 effects Effects 0.000 claims description 8
- 239000013589 supplement Substances 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 238000004891 communication Methods 0.000 description 15
- 230000006399 behavior Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000005259 measurement Methods 0.000 description 6
- 238000003066 decision tree Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000007635 classification algorithm Methods 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 239000013256 coordination polymer Substances 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005201 scrubbing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
- 230000005612 types of electricity Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- Fuzzy Systems (AREA)
- Public Health (AREA)
- Game Theory and Decision Science (AREA)
- General Engineering & Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Tourism & Hospitality (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于数据挖掘技术的负荷特征场景分类方法,适于在计算设备中执行,包括步骤:基于用户的用电数据,确定出关于用户用电的负荷曲线;利用聚类算法,生成各聚类下的负荷曲线;利用负荷曲线计算用户对应的负荷形状指标;将用户的负荷形状指标和商业指标输入分类模型,输出用户所属的负荷特征场景类别。
Description
技术领域
本发明涉及能源电力技术领域,更具体地,涉及一种基于数据挖掘技术的负荷特征场景分类方法。
背景技术
电力市场自由化的一个主要后果是所有用户在选择其电力供应商时都享有自由。这个新的方案创造了几个零售公司竞争终端用户的电力供应的环境。为了使得市场运作良好,有必要确定有关数据收集与描述的新规则和结构,以及市场不同参与者之间通信协议的定义。这种新的结构将大大增加市场参与者收集的数据量。这些数据以动态的形式增长,在决策支持和市场战略行为定义中发挥重要作用。框架和工具的开发能够从这些数据中提取有用的知识,这对于市场参与者来说是一种竞争优势。
目前主要的电能用户特征描述方法,在电能用户特征的分类方面,存在无法处理大型数据集、无法填补数据缺失和处理异常数据、无法完整详细地描绘各类特点等问题。许多电能用户特征描述方法在处理大型数据集时,由于采用简单的聚类分析方法,缺乏学习能力。当数据扩大时,这些简单的聚类分析方法运算量就显得尤为不足。除此之外,当数据出现损失或异常时,许多电能用户特征描述方法并不能将此类特殊情况区分出去,因此缺失数据和异常数据将对电能用户特征分类产生影响,造成分类不精确。此外,在描绘各类别特点方面,由于用户标签体系的构建太过主观,通过设置用户标签体系的方法进行电力用户画像分析具有很大的不精确性。故再将各个用户的数据归入所建立的各个标签内,涉及主观观念成分太大,电能用户特征描绘不够精确。
因此,需要一种基于数据挖掘技术的负荷特征场景分类方法,来准确描述用户的用电特征。
发明内容
为此,本发明提供了基于数据挖掘技术的负荷特征场景分类方法,以力图解决或者至少缓解上面存在的至少一个问题。
根据本发明的一个方面,提供了一种基于数据挖掘技术的负荷特征场景分类方法,适于在计算设备中执行,包括步骤:基于用户的用电数据,确定出关于用户用电的负荷曲线;利用聚类算法,生成各聚类下的负荷曲线;利用负荷曲线计算用户对应的负荷形状指标;将用户的负荷形状指标和商业指标输入分类模型,输出用户所属的负荷特征场景类别。
可选地,根据本发明的方法还包括步骤:对用户的用电数据进行预处理,以确定出不同负荷条件下的用电数据。
可选地,在根据本发明的方法中,对用户的用电数据进行预处理的步骤包括:对用电数据进行处理,来更正其中的异常数据并补充其中的缺失数据。
可选地,在根据本发明的方法中,负荷条件包括以下条件中的一个或多个:冬季、夏季、工作日和周末。
可选地,在根据本发明的方法中,基于用户的用电数据,确定出关于用户用电的负荷曲线的步骤包括:利用对应于每个负荷条件的实测日的负荷曲线,生成一个具有代表性的负荷曲线,作为该用户用电的负荷曲线。
可选地,在根据本发明的方法中,利用聚类算法,生成各集群对应的负荷曲线的步骤包括:利用聚类算法,对用户的用电数据进行聚类,来得到多个集群;对于各集群,根据其所属用户用电的负荷曲线,生成该集群对应的负荷曲线。
可选地,在根据本发明的方法中,利用聚类算法,对用户的用电数据进行聚类,来得到多个集群的步骤包括:利用自组织映射算法,对用户的用电数据进行降维,生成对应的权值向量;利用K-means算法,对权值向量进行分组,得到聚类后的多个集群。
可选地,在根据本发明的方法中,商业指标包括以下指标中的一个或多个:活动类型、合同功率、电价类型、供电电压水平。
根据本发明的再一方面,提供了一种计算设备,包括:一个或多个处理器;和存储器;一个或多个程序,其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序包括用于执行如上所述方法中的任一方法的指令。
根据本发明的再一方面,提供了一种存储一个或多个程序的计算机可读存储介质,一个或多个程序包括指令,指令当计算设备执行时,使得计算设备执行如上所述的方法中的任一方法。
综上,根据本发明的方案,着眼于负荷特征场景的分类方法,对配电和售电公司来说是一个有用的工具,可以帮助他们根据电能用户的特征描述分类,定义和选择最合适的电力供应合同,以满足客户的需求。根据本发明的方案有利于充分利用数据资源,挖掘数据价值,为电力公司智能化发展提供支撑,并通过电力用户画像研究,发掘不同标签用户的用电行为差异,有效实现用户用电管理的精准营销和个性化服务,为丰富电力行业增值服务提供有力支撑。
附图说明
为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
图1示出了根据本发明一个实施例的计算设备100的构造示意图;
图2示出了根据本发明一个实施例的基于数据挖掘技术的负荷特征场景分类方法200的流程图;以及
图3示出了根据本发明一个实施例的基于MIA测度的数据集聚类趋势示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1是示例计算设备100的框图。在基本的配置102中,计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。
取决于期望的配置,处理器104可以是任何类型的处理器,包括但不限于:微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用,或者在一些实现中,存储器控制器118可以是处理器104的一个内部部分。
取决于期望的配置,系统存储器106可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个应用122以及程序数据124。在一些实施方式中,应用122可以布置为在操作系统上利用程序数据124进行操作。在一些实施例中,计算设备100被配置为执行确定新能源发电系统运营风险的方法200,程序数据124中就包含了用于执行上述方法的指令。
计算设备100还可以包括有助于从各种接口设备(例如,输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156,它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、图像输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160,其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。
网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以是这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。在一些实施例中,计算机可读介质中存储一个或多个程序,这一个或多个程序中包括执行根据本发明的基于数据挖掘技术的负荷特征场景分类方法的指令。
计算设备100被配置为执行根据本发明的基于数据挖掘技术的负荷特征场景分类方法200。计算设备100可以实现为小尺寸便携(或者移动)电子设备的一部分,这些电子设备可以是诸如蜂窝电话、数码照相机、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备100还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。
以下将结合图2,详细介绍根据本发明一个实施例的基于数据挖掘技术的负荷特征场景分类方法200的流程。
如图2所述,该方法200始于步骤S210。在步骤S210中,基于用户的用电数据,确定出关于用户用电的负荷曲线。用户的用电数据指与用电设备相关的数据,例如在家庭场景中,用户的用电数据包括使用空调、电视、照明设备等所产生的用电数据。
根据本发明实施方式,在执行步骤S210之前,方法200还包括步骤:对用户的用电数据进行预处理,以确定出不同负荷条件下的用电数据。可选地,负荷条件包括以下条件中的一个或多个:冬季、夏季、工作日和周末。
具体地,首先选择对整个处理过程更有意义的数据,来作为待处理的用户的用电数据。这种选择是根据用户的电压水平进行的,必须对不同的电压水平进行单独的研究。接着,对用户的用电数据进行处理,来更正其中的异常数据并补充其中的缺失数据。例如,在数据清洗阶段,检查数据的不一致性,并使用以下步骤去除异常值:根据相似日(相似日是指消耗值和停机时间与平均值偏差在10%之内的数据日)的信息,确定和替换异常的消耗值和停机时间;在预处理阶段,使用回归技术检测和替换缺失值;采用线性回归的方法对缺失的度量值等重要数值进行估计,采用逻辑回归的方法对缺失的商业信息等名义属性进行估计,如活动类型、关税类型等。通过上述处理,最大限度地减少了实际数据库的主要问题,并对初始数据集进行了清理和完善。
在完成对用户用电数据的预处理后,利用对应于每个负荷条件(如季节、工作日类型)的实测日的负荷曲线,生成一个具有代表性的负荷曲线,作为该用户用电的负荷曲线。可选地,对于每个用户,具有代表性的负荷曲线可以利用用户在各负荷条件下的多条负荷曲线的测量均值来构建。然后,在每个数据集中用一个单一的代表性负荷曲线来描述每个用户,用于不同的负荷条件。这些图表是使用现场测量值计算的,因此需要将它们合并到一个类似的比例,以便进行模式比较。这是通过标准化实现的。对于每个用户,使用代表性负荷曲线的峰值功率,将代表性负荷曲线的矢量标准化为[0-1]范围。这种标准化的方式可以保持曲线的形状,并比较消费模式。
当然,所采集的用户的用电数据,除了负荷曲线外,还包括各用户对应的配送公司所使用的商业指标。可用的商业指标具有合同性质(如,活动类型、合同功率、电价类型、供电电压水平等)。一般地,分销公司为了对客户进行分类,事先定义了这些商业指标。
随后在步骤S220中,利用聚类算法,生成各聚类下的负荷曲线。
根据本发明的实施例,步骤S220可以分两步执行。
第一步,利用聚类算法,对用户的用电数据进行聚类,来得到多个集群。具体地,利用自组织映射(SOM)算法,对用户的用电数据进行降维,生成对应的权值向量;再利用K-means算法,对经SOM算法输出的权值向量进行分组,得到聚类结果,将每个聚类成为一个集群。
通过执行本步骤,将具有最相似行为的用户归为同一类,具有不同行为的用户归为不同类。以下来对本步骤进行更详细的说明。
在训练阶段,首先是选择聚类模型要使用的最合适的属性。为使得类别之间具有最好的区分度,使用有关用户负荷曲线的最详细信息十分重要。具有标准化代表性负荷曲线的向量是最佳选择。通过执行不同的聚类操作,测试了几种算法。为了评估不同算法的性能,使用了两种适当性度量:簇紧度度量(MIA)和簇分离度度量(CDI)。将自组织映射(SOM)与经典的K-means算法相结合得到了最佳结果。这种组合有两个层次。在第一层中,SOM用于获得初始数据集的降维。SOM将H维空间(包含表示初始数据集中用户的负荷曲线的M个向量)投影到二维空间。为每个客户机分配了两个坐标,表示二维空间中的SOM属性。在第一层结束时,初始数据集被减少到SOM的输出层中的获胜单元的数目,由其权重向量表示。该向量集能够保持初始数据集的特征,实现初始数据集的降维。在第二层中,利用K-means算法对SOM单元的权值向量进行分组,得到最终的聚类结果。在第二层中K-means的使用可以将类别的数量定义为模型的输入。这种组合对于大型数据集非常有趣,在数据挖掘问题中非常常见。SOM在处理大型数据集时具有良好的性能,能够处理大量数据,从而将这些数据缩减为较小的数据集。在比较分析过程中,我们可以得出结论,K-means算法对于具有连续属性的数据集(如正在使用的数据集)表现出了非常好的性能,但是该算法对于大型数据集存在局限性。两种算法的结合能够解决这些限制,并创建一个能够处理大型数据集的解决方案。通过对两种方案的测试,可以得出结论,得到的结果是相似的,这证明了所提出的组合的有效性。
第二步,对于各集群,根据其所属用户用电的负荷曲线,生成该集群对应的负荷曲线。可选地,通过计算分配到同一集群中的用户的负荷曲线的平均值,来获得每个集群的负荷曲线。
随后在步骤S230中,利用负荷曲线计算用户对应的负荷形状指标。
在根据本发明的实施例中,将每个用户的负荷曲线简化为一组负荷形状指标,而后,将负荷形状指标进行离散化,得到最终的负荷形状指标。离散化的过程包括:使用区间均衡法对负荷形状指标进行离散化,将每个区间视为一个类别标签,作为标称属性。在一个实施例中,负荷形状指标包括负荷系数、夜间影响和午餐影响。如表1示出了根据本发明一个实施例的负荷形状指标的示意及相关定义。
表1标准化负荷形状指标
在表1中,Pav,day表示一天内负荷的平均值,Pmax,day表示一天内负荷的最大值,Pav,night表示晚上8小时中负荷的平均值,Pav,lunch表示午餐3小时负荷的平均值。在代表性负荷曲线中,读取各小时负荷数据值,分时间区段求得各指标数值,再利用负荷系数、夜间影响和午餐影响的计算公式,最终计算得负荷形状指标。
随后在步骤S240中,将用户的负荷形状指标和商业指标输入分类模型,输出用户所属的负荷特征场景类别。
根据本发明的实施方式,分类模型是事先构建好的,将用户的负荷形状指标和商业指标输入该分类模型中进行处理,输出的就是用户所属的负荷特征场景类别。负荷特征场景类别也可以预先定义,以便于训练分类模型。
在一种实施例中,采用的分类算法是C5.0。选择该算法是因为它建立了稳健的模型,并且不需要很长的训练时间来进行估计,因此与数据挖掘中使用的算法一样,该算法在大数据集情况下具有良好的性能。该算法使用分而治之策略,并基于提供最大信息增益的属性对样本(即,用户的负荷形状指标和商业指标)进行分裂。第一次拆分定义的每个子样本将根据不同的属性再次拆分,重复该过程直到子样本无法进一步拆分为止。最后,重新检查最低级别的拆分,并删除或修剪那些对模型值没有显著贡献的拆分。C5.0可以生成两种模型:决策树和规则集。决策树是对算法发现的分割的直接描述;规则集则表示在决策树中找到的信息的简化版本。
对模型的评估使用十倍交叉验证的方法。选择这种评估是为了改进在小数据集情况下获得的结果。使用这种评估技术,可以利用整个数据集来训练算法,获得更精确的模型。这将增加计算量,但可以提高模型对不同数据集的泛化能力。评估通过将初始样本随机分成10个子样本进行。模型使用9/10的数据集进行训练,并将留下的1/10进行测试。这一过程在不同的训练集上执行了10次,最后对10个误差估计值进行平均以得到总误差估计值。
在完成模型评估后,即确定出分类模型的各参数。在一种实施例中,分类模型根据模型选择的最相关属性创建用户类别的完整特征。该模型可用于将新用户分配给现有类别。
根据本发明的方法200,着眼于负荷特征场景的分类方法,对配电和售电公司来说是一个有用的工具,可以帮助他们根据电能用户的特征描述分类,定义和选择最合适的电力供应合同,以满足客户的需求。根据本发明的方案有利于充分利用数据资源,挖掘数据价值,为电力公司智能化发展提供支撑,并通过电力用户画像研究,发掘不同标签用户的用电行为差异,有效实现用户用电管理的精准营销和个性化服务,为丰富电力行业增值服务提供有力支撑。
为进一步说明方法200,以下以一个示例来说明方法200的执行过程。
该示例是对一个包含165个低压用户信息的数据库的案例研究。这些信息是通过葡萄牙分销公司开展的测量活动收集的。这些测量活动分别在夏季的三个月和冬季的三个月内进行,对样本人群中的每个用户的工作日和周末进行测量。实时电表以15分钟的频率采集每个用户的瞬时功耗。活动还收集了与活动代码和合同功率相关的商业指标。在表2和表3中,我们可以根据商业指标分析样本人口的分布。
表2用户数据集的描述(合同功率)
合同功率(KW) | 1.1 | 3.3 | 6.6 | 9.9 | 13.2 | 16.5 | 19.8 | 39.6 | 缺失值 |
用户分布(%) | 4.6 | 28.7 | 21.3 | 23,0 | 7.5 | 1,7 | 6.3 | 1.2 | 5.8 |
表3用户数据集的描述(活动类型)
可以看到,采集的数据的质量通常很差,这是使用真实数据库的主要问题之一。所提供的数据库存在信息错误、数据丢失等问题。首先,对上述数据进行数据预处理。
由于样本大小的有限,我们必须将数据损失降到最低,因此对数据的预处理显得尤为重要。在数据清理阶段,错误信息已被更正。异常值和停机的检测通过交互式图形和基于相似日数据的回归技术进行,这种方法允许使用最可能的值进行替换。
研究利用回归技术检测和估计缺失值。通过对这些数据进行清理并完成程序,数据的质量得到了改善,信息损失降到了最低。创建一个不同的代表性负荷曲线,并将其标准化为定义的每个负荷条件:冬季、夏季、工作日和周末。
在这一阶段,通过标准化代表性日负荷曲线描述每个用户,并分别对其中不同的负荷条件进行研究。在此处中展示冬季工作日和周末数据集的结果,来说明根据本发明实施例的案例研究。
接下来,确定模型需要输入的类别数量。在根据本发明的实施例中,集群模块所获得的类别数量必须在2到之间,其中M是数据集中的用户数量。根据电力公司的信息,确定了类别数量最小6个和最大9个。为了定义类别数量,我们使用了MIA测度,进行一些聚类操作来研究簇紧度的演化。以下的距离1)和2)用于帮助制定充分性度量。
1)两个负荷曲线间的距离
式中,l(i),l(j)分别为两个负荷曲线,h为计量时间点的标号,每间隔15分钟计量一次。如上文所所述,H=96,li(h)和lj(h)分别为i负荷曲线和j负荷曲线在计量时间点h时的功率。
2)一个代表性负荷曲线和一组负荷曲线中心之间的距离
式中,r(k)是分配给集群k的代表性负荷曲线,L(k)为集群k的一组负荷曲线,n(k)为集群k的负荷曲线总数,m为集群k的负荷曲线标号。
考虑用k个类别拆分的一组M负荷曲线。其中k=1,…,K,K为集群的总数。每个类别都由负荷曲线的子集c(k)构成。MIA的定义如下:
MIA值越小,表示集群越紧凑。利用K-means算法研究了基于MIA测度的数据集聚类趋势。所得结果如图3所示。由分销公司的指示和MIA的演变可以看出,9个集群是最佳选择。因为对于9个以上的集群,以MIA值降低为代表的集群紧凑性的改善不是很相关。
之后,根据所考虑的不同负荷条件,对每个数据集进行不同用户的特征描述。
每个数据集被应用到模块中,并获得一个完整的特征描述,这些特征由一个负荷曲线和一个描述每个类别的规则集表示。将冬季工作日和冬季周末数据集应用于聚类模块。在第一层,训练SOM以获得数据集的降维表示,并使用尺寸为7×10的矩形网格。在根据本发明的一个实施例中,SOM具有以下架构:输入层有96个单元,输出层有70个单元。输出层中的获胜单位向量表示要在第二层中通过K-means聚类的简化数据集。最后的集群数量作为这个级别的输入。表4列出了9个集群中用户的最终分布情况。每个集群对应一个不同的类。该算法将具有非典型行为的用户隔离在元素数较少的簇中。非典型行为的集群并不代表典型的消费模式,因此它们将不被考虑构建分类模型。
表4每个集群的用户数量
典型行为类别的负荷曲线是通过平均同一集群中用户的代表性负荷曲线得到的。使用具有代表性的负荷曲线来计算每个用户的负荷形状指标d1、d3和d5。表5描述了分类算法使用的表示每个用户的属性。
表5分类算法使用的属性
分类模块能够生成由决策树和规则集表示的分类模型。上述属性是模型为生成决策树而选择的属性。典型类中的用户数据用于构建冬季工作日和周末的模型。使用十倍交叉验证对这些模型进行了评估,得到的总体精度如表6所示。
表6分类模型的特征
数据集 | 总体精度 | 相关属性 | 规则集 |
工作日 | 81% | d1和d3 | 13个规则 |
周末 | 74% | d1,d3和CP | 15个规则 |
该分类模型根据数据集选择不同的相关属性。可以得出结论,负荷系数和夜间影响是描述消费者特征的最相关属性。如下示出了用于本案例研究的针对冬季工作日数据集获得的规则集的示例。其中,if(如果)表示条件,class1、class3、class4、class7和class9分别表示第1、3、4、7、9个类别。所得规则简单,解释直观。这些规则可以集成到决策支持系统中。
综上所述,根据本发明的负荷特征场景分类方案具有如下优点:
1)电能用户负荷特征数据处理更加完善。本方法200在采集到用电数据后,先对用电数据进行了预处理(如数据清洗),使数据的可用性大大提高。根据相似日的信息,确定和替换异常的消耗值和停机时间。在预处理阶段,使用回归技术检测和替换缺失值。通过对这些数据进行清理并完成程序,数据的质量得到了改善,信息损失降到了最低,消除了异常数据带来的影响,分类的精确性进一步提高。
2)具备处理大型数据的能力,分类结果更加客观、准确。本方法200利用SOM和K-means两种聚类方法,将聚类处理分为两层。首先利用SOM方法将大型数据集缩减为较小的数据集,然后再利用K-means算法对SOM单元的权值向量进行分组,得到最终的聚类结果,能够很好地解决数据集庞大带来的分类问题。并且在分类模块建设方面,本发明的分类模型采用监督学习方法,基于用户特征与相应类别之间关系的知识通过聚类运算得到,相较标签设立而言更具客观、准确性。
应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。
Claims (6)
1.一种基于数据挖掘技术的负荷特征场景分类方法,所述方法适于在计算设备中执行,所述方法包括步骤:
对用户的用电数据进行预处理,以确定出不同负荷条件下的用电数据,所述负荷条件包括冬季、夏季、工作日和周末中的一个或多个,并利用对应于每个所述负荷条件的实测日的负荷曲线,生成一个具有代表性的负荷曲线,作为该用户用电的负荷曲线;
利用聚类算法,生成各聚类下的负荷曲线,其中,各聚类下的负荷曲线为各聚类中的用户用电的负荷曲线的平均值;
在所述各聚类中的用户用电的负荷曲线的平均值中,读取各小时负荷数据值,分时间区段求得各指标数值,再利用负荷系数、夜间影响和午餐影响的计算公式,计算出用户对应的负荷形状指标;
将用户的负荷形状指标和商业指标输入分类模型,所述商业指标包括活动类型、合同功率、电价类型、供电压水平中的一个或多个,输出用户所属的负荷特征场景类别。
2.如权利要求1所述的方法,其中,对用户的用电数据进行预处理的步骤包括:
对所述用电数据进行处理,来更正其中的异常数据并补充其中的缺失数据。
3.如权利要求1所述的方法,其中,所述利用聚类算法,生成各聚类下的负荷曲线的步骤包括:
利用聚类算法,对用户的用电数据进行聚类,来得到多个集群;
对于各集群,根据其所属用户用电的负荷曲线,生成该集群对应的负荷曲线。
4.如权利要求3所述的方法,其中,所述利用聚类算法,对用户的用电数据进行聚类,来得到多个集群的步骤包括:
利用自组织映射算法,对用户的用电数据进行降维,生成对应的权值向量;
利用K-means算法,对所述权值向量进行分组,得到聚类后的多个集群。
5.一种计算设备,包括:
一个或多个处理器;和
存储器;
一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1-4所述方法中的任一方法的指令。
6.一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当计算设备执行时,使得所述计算设备执行根据权利要求1-4所述的方法中的任一方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911131730.4A CN110851502B (zh) | 2019-11-19 | 2019-11-19 | 一种基于数据挖掘技术的负荷特征场景分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911131730.4A CN110851502B (zh) | 2019-11-19 | 2019-11-19 | 一种基于数据挖掘技术的负荷特征场景分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110851502A CN110851502A (zh) | 2020-02-28 |
CN110851502B true CN110851502B (zh) | 2023-04-07 |
Family
ID=69602500
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911131730.4A Active CN110851502B (zh) | 2019-11-19 | 2019-11-19 | 一种基于数据挖掘技术的负荷特征场景分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110851502B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111784381B (zh) * | 2020-06-09 | 2023-05-16 | 北京邮电大学 | 基于隐私保护和som网络的电力客户细分方法及系统 |
CN112131217A (zh) * | 2020-09-03 | 2020-12-25 | 河南网络广播电视台有限公司 | 一种大数据分析系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104331840A (zh) * | 2014-10-27 | 2015-02-04 | 东南大学 | 电力市场环境下负荷零售商的最优购电方法 |
CN107944630A (zh) * | 2017-12-01 | 2018-04-20 | 华北电力大学 | 一种季节性分时电价优化制定方法 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012205432A (ja) * | 2011-03-25 | 2012-10-22 | Tokyo Electric Power Co Inc:The | 変圧器の負荷推定方法および負荷推定システム |
CN104268681A (zh) * | 2014-09-18 | 2015-01-07 | 东南大学 | 基于负荷分类的分时电价下家居设备优化运行方法 |
CN105761022A (zh) * | 2016-03-14 | 2016-07-13 | 东南大学 | 一种直接负荷控制方案评估及甄选方法 |
CN106446967A (zh) * | 2016-10-28 | 2017-02-22 | 国网福建省电力有限公司 | 一种新型电力系统负荷曲线聚类方法 |
CN108009938B (zh) * | 2016-11-02 | 2021-12-03 | 中国电力科学研究院 | 一种基于形状的系统负荷聚类及负荷周期的模式识别方法 |
CN108009943A (zh) * | 2018-01-17 | 2018-05-08 | 贵州电网有限责任公司 | 一种对用户实施不同电价策略的聚类方法 |
CN108280479B (zh) * | 2018-01-25 | 2020-06-05 | 重庆大学 | 一种基于负荷特性指标加权聚类算法的电网用户分类方法 |
CN109284851A (zh) * | 2018-06-11 | 2019-01-29 | 西安交通大学 | 一种适用于需求侧响应的用户用电行为分类方法 |
CN109522934A (zh) * | 2018-10-22 | 2019-03-26 | 云南电网有限责任公司 | 一种基于聚类算法的电力用户聚类方法 |
CN109685567A (zh) * | 2018-12-20 | 2019-04-26 | 长沙理工大学 | 一种基于卷积神经网络和模糊聚类的用电客户画像新方法 |
CN109685581A (zh) * | 2019-01-03 | 2019-04-26 | 江苏方天电力技术有限公司 | 一种基于标签聚类技术的电力大客户用电行为分析方法 |
CN109902953B (zh) * | 2019-02-27 | 2021-06-18 | 华北电力大学 | 一种基于自适应粒子群聚类的电力用户分类方法 |
-
2019
- 2019-11-19 CN CN201911131730.4A patent/CN110851502B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104331840A (zh) * | 2014-10-27 | 2015-02-04 | 东南大学 | 电力市场环境下负荷零售商的最优购电方法 |
CN107944630A (zh) * | 2017-12-01 | 2018-04-20 | 华北电力大学 | 一种季节性分时电价优化制定方法 |
Non-Patent Citations (3)
Title |
---|
Xiao-Juan Wang 等.Research on load classification based on user's typical daily load curve.《2017 IEEE Conference on Energy Internet and Energy System Integration (EI2)》.2018,1-4. * |
黄宇腾 等.一种面向需求侧管理的用户负荷形态组合分析方法.《电力系统保护与控制》.2013,第41卷(第13期),20-25. * |
黄永皓 等.用户分类电价决策方法的研究.《中国电力》.2004,(第01期),5. * |
Also Published As
Publication number | Publication date |
---|---|
CN110851502A (zh) | 2020-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Deb et al. | Determining key variables influencing energy consumption in office buildings through cluster analysis of pre-and post-retrofit building data | |
CN107220732B (zh) | 一种基于梯度提升树的停电投诉风险预测方法 | |
CN109063945B (zh) | 一种基于价值评估体系的售电公司360度客户画像构建方法 | |
Gerbec et al. | Allocation of the load profiles to consumers using probabilistic neural networks | |
CN111144468B (zh) | 电力用户信息标签化方法和装置、电子设备以及存储介质 | |
Figueiredo et al. | An electric energy consumer characterization framework based on data mining techniques | |
Chicco et al. | Emergent electricity customer classification | |
Vercamer et al. | Predicting consumer load profiles using commercial and open data | |
Bidoki et al. | Evaluating different clustering techniques for electricity customer classification | |
CN111612275B (zh) | 一种预测区域用户负荷量的方法及装置 | |
CN110851502B (zh) | 一种基于数据挖掘技术的负荷特征场景分类方法 | |
CN114519514B (zh) | 一种低压台区合理线损值测算方法、系统及计算机设备 | |
CN113591899A (zh) | 电力客户画像识别方法、装置及终端设备 | |
Yang et al. | Portfolio optimization based on empirical mode decomposition | |
Bidoki et al. | Comparison of several clustering methods in the case of electrical load curves classification | |
CN112288172A (zh) | 台区线损率的预测方法、装置 | |
CN112163781A (zh) | 基于多维度指标聚类的园区用电群体生命周期评价方法 | |
Moran et al. | Analysis of electricity consumption profiles in public buildings with dimensionality reduction techniques | |
CN114202179A (zh) | 目标企业的识别方法以及装置 | |
WO2022137664A1 (ja) | データ分析システムおよび方法 | |
Soltani et al. | Ranking decision making units based on the multi-directional efficiency measure | |
CN116628534A (zh) | 基于电力大数据的园区用能动态画像划分方法 | |
CN114372835B (zh) | 综合能源服务潜力客户识别方法、系统及计算机设备 | |
CN116245380A (zh) | 目标业务的业务问题的确定方法、装置、计算机设备 | |
Wang et al. | Application of clustering technique to electricity customer classification for load forecasting |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |