CN113988161B - 一种用户用电行为模式识别方法 - Google Patents
一种用户用电行为模式识别方法 Download PDFInfo
- Publication number
- CN113988161B CN113988161B CN202111204205.8A CN202111204205A CN113988161B CN 113988161 B CN113988161 B CN 113988161B CN 202111204205 A CN202111204205 A CN 202111204205A CN 113988161 B CN113988161 B CN 113988161B
- Authority
- CN
- China
- Prior art keywords
- data
- load curve
- shapelet
- category
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005611 electricity Effects 0.000 title claims abstract description 29
- 238000012567 pattern recognition method Methods 0.000 title claims description 7
- 238000000034 method Methods 0.000 claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 31
- 238000007637 random forest analysis Methods 0.000 claims abstract description 28
- 238000012360 testing method Methods 0.000 claims abstract description 21
- 239000011159 matrix material Substances 0.000 claims abstract description 18
- 238000012216 screening Methods 0.000 claims abstract description 10
- 238000006243 chemical reaction Methods 0.000 claims abstract description 9
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 238000003066 decision tree Methods 0.000 claims description 31
- 239000013598 vector Substances 0.000 claims description 28
- 238000004422 calculation algorithm Methods 0.000 claims description 21
- 230000000903 blocking effect Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 4
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 230000006399 behavior Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 6
- 238000000513 principal component analysis Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000007635 classification algorithm Methods 0.000 description 3
- 238000013145 classification model Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000012952 Resampling Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 241000287196 Asthenes Species 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/003—Load forecast, e.g. methods or systems for forecasting future load demand
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- Power Engineering (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Probability & Statistics with Applications (AREA)
- Water Supply & Treatment (AREA)
- Public Health (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种用户用电行为模式识别方法,包括:采集日负荷曲线数据,对日负荷曲线数据进行预处理,随机划分为第一数据集和第二数据集,第一数据集用于负荷曲线类别标签数据的提取与筛选;筛选第一数据集,获取精准负荷曲线类别标签数据;提取精准负荷曲线类别标签数据中的Shapelet集合;利用Shapelet集合对第二数据集进行Shapelet转换获得时序轨迹特征矩阵,将时序轨迹特征矩阵随机划分为训练集和测试集;利用训练集构建并训练随机森林分类器;利用训练好的随机森林分类器对测试集进行分类,获得分类结果,识别用户用电行为模式。本发明充分利用提高负荷分类质量和分类效率、同时使分类结果具有较强可解释性。
Description
技术领域
本发明涉及电力系统及自动化技术领域,特别是涉及一种用户用电行为模式识别方法。
背景技术
随着我国电力行业飞速发展,各行业电力用户在用电的过程中产生了海量负荷数据。电力系统数据具有高频度和高密度的特点,电网与用户之间的交互行为快速增长,导致电力系统产生体量庞大的用户侧负荷数据,这些数据涉及多个领域且数据质量参差不齐。用户用电过程中产生了大量电力相关数据,包括结构化数据以及非结构化数据。并且伴随着用户用电行为逐渐多样化,其用电数据所蕴含的潜在信息更加复杂。
目前,我国用户用电行为模式识别领域还存在以下几个问题:
随着用电模式的复杂化以及智能电表的普及,电力负荷数据的维度和体量显著攀升。如何高效且有效的挖掘分析电网积累的海量负荷数据,提升用户侧用电数据质量,是目前电力行业重点研究的内容之一。
用户用电特征识别研究依然存在需求侧响应分析不够充分的问题。随着社会经济快速发展,人们生活质量提升,对于电力能源的需求也日趋多元化,传统电力用户分类标准难以适用于当今用电行为模式。如果无法对电力用户行为分析做出正确判断,将会影响未来电网的发展方向和决策制定。
现有负荷数据挖掘方法常常仅将负荷分类结果作为唯一目标,虽然相关领域专家提供了诸多改进分类方法以获取高精度分类结果,但是忽略了分类结果的可解释性。所构建的负荷分类模型作为“黑盒子”难以解释,导致无法为电力企业的决策制定和市场分析等提供可解释的分类依据。
因此,有必要从提高负荷分类可解释性的角度出发,研究兼顾分类性能和分类解释性的“白盒子”分类模型。
发明内容
本发明的目的是提供一种用户用电行为模式识别方法,以解决上述现有技术存在的问题,充分利用提高负荷分类质量和分类效率、同时使分类结果具有较强可解释性。
为实现上述目的,本发明提供了如下方案:本发明提供一种用户用电行为模式识别方法,包括:
采集日负荷曲线数据,对所述日负荷曲线数据进行预处理,随机划分为第一数据集和第二数据集,所述第一数据集用于负荷曲线类别标签数据的筛选;
筛选所述第一数据集,获取精准负荷曲线类别标签数据;
提取所述精准负荷曲线类别标签数据中的Shapelet集合;
利用所述Shapelet集合对所述第二数据集进行Shapelet转换获得时序轨迹特征矩阵,将所述时序轨迹特征矩阵随机划分为训练集和测试集;
利用所述训练集构建并训练随机森林分类器;
利用训练好的所述随机森林分类器对所述测试集进行分类,获得分类结果,识别用户用电行为模式。
可选地,对所述日负荷曲线数据进行预处理包括:
清除或修正所述日负荷曲线数据中的异常数据,获取待分析日负荷曲线数据;
对所述待分析日负荷曲线数据进行归一化处理。
可选地,筛选所述训练集,获取精准负荷曲线类别标签数据包括:
对所述第一数据集进行聚类,获取负荷曲线类别标签数据;
计算各类所述负荷曲线类别标签数据中每条日负荷曲线到本类别其他所述日负荷曲线的距离之和;
设置阈值,剔除所述距离之和大于所述阈值的所述负荷曲线类别标签数据,提取所述精准负荷曲线类别标签数据。
可选地,对所述训练集进行聚类采用SVD-KICIC聚类算法。
可选地,提取所述精准负荷曲线类别标签数据中的Shapelet集合包括:
基于所述精准负荷曲线类别标签数据,构建Shapelet指针向量;
构建TV-LAsso正则器,利用所述TV-LAsso正则器,稀疏模块化所述Shapelet指针向量,获取稀疏块化指针向量;
利用所述稀疏块化指针向量确定所述Shapelet集合。
可选地,利用所述稀疏块化指针向量确定所述Shapelet集合包括:
利用所述稀疏块化指针向量提取每一类别所述Shapelet集合,计算相同时段的每一类别所述Shapelet集合的平均值,
由所述每一类别Shapelet集合的平均值构成的集合,即为所述Shapelet集合。
可选地,利用所述Shapelet集合对所述第二数据集进行Shapelet转换获得时序轨迹特征矩阵包括:
按照最小距离准则计算第一子序列和第二子序列之间的欧氏距离,所述第一子序列为长度为l的所述Shapelet集合中子序列,所述第二子序列为长度为l的所述训练集的负荷曲线子序列:
基于所述欧氏距离,将所述第二数据集中的所有子序列通过所述Shapelet集合转换获取所述第二数据集中的所有子序列的时序轨迹特征;
所述第二数据集中的所有子序列的时序轨迹特征构成所述时序轨迹特征矩阵。
可选地,所述利用训练集构建并训练随机森林分类器包括:
从所述Shapelet集合中进行m次抽样,生成m个子样本集,其中,所述m个子样本集包含的样本数量相同;
利用所述子样本集训练CART决策树组合生成随机森林分类模型;
对所述随机森林分类模型中的每棵决策树的节点进行分裂,获得最终的每棵所述决策树,计算每棵所述决策树的袋外数据误差;
保留每棵所述决策树的完整性,利用所述测试集对所有所述决策树进行测试,获得分类结果;
对所述分类结果进行投票,选出票数最多的类别作为所述测试集的所属类别。
本发明公开了以下技术效果:
本发明提供的一种用户用电行为模式识别方法,基于Shapelet快速学习算法,充分考虑负荷曲线时序变化趋势,通过Shapelet转换技术提取负荷曲线时序轨迹特征,提高分类速度的同时为分类结果提供了较强的可解释性。突破了传统分类算法可解释性弱的局限,通过时序轨迹特征实现了不同类别的有效区分并提供了Shapelet分类依据,表示出各类负荷在某一时间段的典型用电特征,有利于提供更加精确的发电指导与用户用电方案,为负荷曲线精确建模提供良好的实践基础。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中用户用电行为模式识别流程示意图;
图2为本发明实施例中聚类样本择优选取示意图;
图3为本发明实施例中模拟负荷曲线Shapelet提取结果,其中,(a)为模拟负荷曲线示意图;(b)为稀疏模块化指针向量v示意图;(c)为Shapelet示例示意图;
图4为本发明实施例中聚类数的选择示意图;
图5为本发明实施例中Shapelet子序列示意图示意图;
图6为本发明实施例中决策树数目与OOB误差的关系示意图;
图7为本发明实施例中用户用电行为模式识别分类结果示意图;
图8为本发明实施例中六种典型负荷曲线示意图;
图9为本发明实施例中不同分类器的分类指标对比示意图;
图10为本发明实施例中本发明的方法与K-means算法10次分类结果对比示意图,其中,(a)为本发明提供的方法;(b)为K-means算法;
图11为本发明实施例中不同方法的分类效率对比示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明提供一种用户用电行为模式识别方法,如图1所示。
采集日负荷曲线数据,对日负荷曲线数据进行预处理,随机划分为训练集和测试集。
本实施例中的日负荷曲线数据采取某市智能电表实测的大量负荷曲线数据,对采集到的日负荷曲线数据清除或者异常数据,并进行归一化处理后,获得10万条原始日负荷曲线数据,每条负荷曲线用电量采样间隔为每半小时采样一次,由此构成100000×48原始负荷曲线矩阵Z。
在对用户日负荷曲线进行分类前,对10万条原始日负荷曲线数据以3:7的比例进行随机划分,其中30%的日负荷曲线数据作为无检查聚类的训练集,70%的日负荷曲线数据作为。
对训练集中的日负荷曲线数据进行筛选,获取精准负荷曲线类别标签数据。
首先对随机选出的约3万条曲线进行SVD-KICIC聚类获取负荷曲线类别标签数据,在获取负荷曲线类别标签数据后,计算各类负荷曲线类别标签数据中每条负荷曲线到其所属类其他曲线的距离之和,并将超过设定阈值的负荷曲线剔除,只保留m'条精准标签负荷曲线,获取每个类别中具有精准标签的负荷数据,如图2所示,图中剩余紫色样本为具有精准标签的负荷数据,将作为Shapelet学习样本。本实施例中,每个类别中以获取具有精准标签的负荷数据,最佳聚类数的选取根据ΩSilM指标计算确定,选取ΩSilM最大时的K值作为最佳聚类数。根据图4中ΩSilM指标变化趋势可选取最佳聚类数K=6。由此可以获得40000×49维的带标签数据,第49列为1-6的类别标签。
根据所获取的精准负荷曲线类别标签数据,获取Shapelet集合。
本实施例中采用FLAG(Fused LAsso Generalized eigenvector method)算法从带标签负荷数据中获取稀疏模块化指针向量v以确定Shapelet位置信息。
广义特征向量法(Generalized Eigenvector Method,GEM)是一种先进的特征提取技术。与主成分分析法(Principal Component Analysis,PCA)本质的区别是后者寻找使得整体样本映射数据方差较大的若干正交基向量。但是面向多类别数据时,PCA方法基于所有类别数据寻找的正交基向量0并不具有类别间的辨识性。GEM在PCA的基础上,寻找使得类别p和类别q的映射数据方差之比最大的正交基向量v,如式(1)所示:
式中,argmax()表示求解获得最大值所对应的解(或解集),Covmp和Covmq分别是类别p和类别q的协方差矩阵,vT是v的转置矩阵,式(1)可进一步表示为如式(2)所示:
与传统PCA方法对单一数据集进行映射不同,GEM方法采用两种不同类别的数据集,以其中一类作为参照,在其信息被最大程度保留的前提下,另一类数据被最大化压缩,因此所获取的特征向量具有判别特性。由于Shapelet是时间序列中最能表征样本类别的连续子序列,所以为了区分Shapelet与可忽略子序列,同时保证Shapelet的连续性,需要将特征向量v稀疏模块化。
稀疏模块化指针向量v的过程为:
LAsso回归是一种常用的稀疏建模算法,它使用L1范数将变量的系数进行压缩并使某些回归系数变为0,表示该项特征在全局中的作用可以忽略不计,从而达到选取重要特征的作用。然而负荷曲线是按时间排列的序列,主要特征体现在连续的时间序列中,而不是某个时间节点,传统LAsso回归未考虑时序轨迹特征。为了获得连续Shapelet指针向量,突出显示重要特征所处范围,在本实施例中构建TV-LAsso正则器如式(3)所示:
TV-LAsso正则化器可以进一步简化为如式(4)所示:
α1||Dv||1+α2||v||1 (4)
每一类中的Shapelet是最能区分所属类别与其他类别不同的子序列。因此,面对多分类问题,本实施例采用一对剩余的思想,将其中一类作为主导类q,其余类别的集合视作类别p。通过特征向量v选取的Shapelet可以最大程度的表征所属类别的主要特征,但是对于其他类别主要特征的表征能力却很弱,因此具有极强的辨别性。
通过在GEM公式上添加一个TV-LAsso正则化函数并进行求解,可以获得针对Shapelet位置的稀疏块状指针向量。优化问题变为如式(5)所示:
需要注意的是,仅使用||v||1正则化器会生成具有较弱块结构的特征向量,无法从中选取子序列片段。而仅使用||Dv||1会生成模块化但不稀疏的特征向量,无法区分主要特征和可忽略特征。本实施例使用ADMM求解器对目标函数如式(5)所示,进行优化求解。
当使用类别k作为主导类别时,设获得的Shapelet指针向量v中有Bk个非零块,第t个非零块从时刻st开始到et结束,可表示为将第k类中Nk个样本的集合表示为则按照指针向量v所构造该主导类别的Shapelet集为如式(6)所示:
其中第t个模块所指示的Shapelet为如式(7)所示:
式中,是第k类别中第i条负荷曲线Xi k从时刻st到时刻et的子序列,第k类负荷曲线共产生Ak=NkBk个Shapelet。同理,其余各类别分别作为主导类时,可按照上述方法求解得到该类别的Shapelet。此时,基于数据集X'可得个Shapelet。另外,从同类别负荷曲线中获取的Shapelet相似度高且均局限于已有负荷曲线,导致整体解释性降低且分类速度下降。因此,本实施例对基于相同时段提取得到的Shapelet取平均值作为最终第t个模块的Shapelet如式(8)所示:
通过均值处理后,可从第k类负荷数据中学习获得Bk条Shapelet如式(9)所示:
从标签负荷数据中学习到的Shapelet为各类别Shapelet的集合如式(10)所示:
为直观展示上述Shapelet提取过程,基于已知标签数据的双类别模拟负荷曲线,提取其Shapelet如图3所示,c图中蓝色虚线为聚类所得典型负荷曲线,红色实线是基于带标签负荷数据所提取到的Shapelet。
利用Shapelet集合对训练集进行Shapelet转换获得时序轨迹特征矩阵,对所述测试集进行Shapelet转换获得测试集。
如图5所示,从六类负荷曲线中提取出共20条可以最大程度表征原始负荷曲线特征的Shapelet,完成所有Shapelet的提取后,按照最小距离准则计算长度为l的Shapelet子序列与负荷曲线中相同长度子序列之间的欧氏距离如式(11)所示:
负荷曲线Xi通过Shapelet转换获取时序轨迹特征如式12所示:
通过这种以Shapelet子序列为基准的距离度量方式,原始负荷数据集被量化为时序轨迹特征矩阵如式(13)所示:
X′={X1′,…,Xj′,…,Xm′′} (13)
得到距离矩阵即时序轨迹特征,用于后续随机森林分类器的训练和测试。
利用时序轨迹特征矩阵构建并训练随机森林分类器,利用训练好的随机森林分类器对所述模式识别测试集进行分类,获得分类结果,识别用户用电行为模式。
随机森林本质是一种集成算法,使用分类回归树(Classification andRegression Tree,CART)作为基分类器。采用Bagging算法的集成思想,通过有放回重采样的方式获取若干子数据集作为决策树的训练集,然后对所有决策树的分类结果进行投票的方式选取众数作为最终分类结果。基分类器的分类强度及其之间的关联性对随机森林分类模型的分类精度具有显著的影响。随机森林地分类性能可由泛化误差界的数值大小表示,泛化误差界计算方法如式(14)所示:
式中,s表示每棵决策树的分类性能,ρ代表不同决策树之间的关联性。由式可知,泛化误差界与s成负相关,与ρ成正相关,因此当s越大ρ越小时,泛化误差界越小,随机森林分类准确度越高。
随机森林分类模型构建过程如下:
1)基于Bagging算法的分类方式,通过有放回随机采样的方式从原始训练样本集中进行m次抽样,生成m个子样本集作为基分类器的训练集,同时需要保证每个子样本集包含的样本数量相同,表示为:{S1,S2,…,Sm}。基于随机重采样得到某子样本集St(t∈1,2,…,m)中不含原始样本集中某一样本的概率为如式(15)所示:
当m→∞时,如式(16)所示,有
随机抽取的子样本集中不存在的样本数据一般被称为袋外数据(out of bag,OOB),当样本量足够大时,袋外数据占训练集样本量的36.8%。在搭建每棵决策树的同时,计算得到一个相应的OOB误差估计,将所有决策树的OOB误差估计取均值即可得到随机森林的泛化误差估计。
通过OOB误差率确定最优的决策树数量,OOB误差率与决策树数量的关系如图6所示,综合考虑分类模型的识别结果和计算时间以及计算机内存大小,本实施例中选取150作为最优的决策树棵数。
2)利用随机抽取的子样本集训练CART决策树组合生成随机森林分类模型,表示为{T1,…,Tr,…,TR}。
3)利用随机子空间思想对步骤2)中生成的随机森林中每棵决策树的节点进行分裂。随机等概率地从KBk个特征变量中抽取个子变量组成该节点的分裂特征变量子集,并利用CART算法中基尼系数(Gini index)最小原则选出一个最优的分裂特征变量和最优分裂值对该节点进行分裂,直到每个特征变量被用作分裂节点。Gini系数可定义为如式(17)所示:
式中,ti表示当前某一所选特征变量;K表示特征ti对应的类别数;pk表示样本点属于第k类的概率。进一步,在确定最优分裂特征变量ti的基础上,假设某子集Qr根据ti分裂为两个子集Qr1和Qr2,则最优分裂值a可由下式计算得到如式(18)所示:
式中,|Qr|,|Qr1|和|Qr2|分别是样本集Qr,Qr1和Qr2的样本个数。
在确定决策树数量的基础上,对每一棵树从根节点开始利用Gini系数表达式和最优分裂值计算式确定每一分裂节点的最优分裂特征和最优分裂值,直到每棵树都完整生长。最终分类结果如图7所示。
4)在每棵决策树都自上而下构建好之后,保留树的完整性不对其进行剪枝处理,利用测试集Y'对所有决策树进行测试,得到预测类别T1(Y′),…,Tr(Y′),…,TR(Y′);
5)对于测试得到的预测类别结果进行投票,选出票数最多的类别作为测试集最后的所属类别。投票思想可表示为如式(19)所示:
式中,fRF(y′)表示RF对测试集样本y′的分类结果,I()表示满足括号中表达式的决策树个数,fr tree(y′)=k表示第r棵决策树的输出结果为k。
在分类算法运行前,需要对随机森林中决策树棵数(ntree)进行初始化。
对于负荷存在平峰、双峰及多峰的用电特性,通过提取典型负荷曲线可以验证本实施例所提分类方法针对用户负荷特征识别的有效性。图8展示了本实施例方法从海量负荷数据中提取到的六种典型负荷曲线,其中类别1和类别5的用户用电属于双峰型用电,同时由于季节等因素的影响导致峰值不尽相同。类别2和类别6属于尖峰型用电,白天用电量较低,晚上用电量攀升。类别3的用户用电时刻集中在8:00-18:00,属于平峰型用电,类别4曲线为避峰型曲线,峰值出现在19:00-次日5:30,用户在白天呈现出用电低谷。各类别用电负荷曲线的有效区分对参与移峰等需求响应项目具有重要意义。
本实施例所提方法突破了传统分类算法可解释性弱的局限,通过时序轨迹特征实现了不同类别的有效区分并提供了Shapelet分类依据,表示出各类负荷在某一时间段的典型用电特征,有利于提供更加精确的发电指导与用户用电方案,为负荷曲线精确建模提供良好的实践基础。
另外,为验证本实施例方法选取随机森林作为分类器具有优秀的分类性能,选取BP神经网络(BPNN)、支持向量机(SVM)以及决策树(C4.5)三种不同分类器的分类结果对比,不同分类器对分类效果的影响如表1所示。
表1
对50次试验所得聚类指标平均值以及运行时间进行对比分析,本实施例分类方法在DBI指标与ΩSilM指标方面表现显著优于其他三种分类器,能够更好的区分不同类别负荷曲线,具有明显的优越性。
为测试所提方法的分类稳定性,比较K-means、K-means+RF以及本实施例方法在10次实验中各类负荷曲线数目的标准差,如图9所示。可知本实施例方法的标准差均值最小,算法的稳定性较好。
为进一步说明,记录10次分类结果中各类别的负荷曲线数量,统计结果如图10所示。可知,采用本实施例负荷分类方法的10次分类结果具有较高一致性,相较于经典K-means算法的稳定性能更好。
实验将K-means、K-means+RF分类器与本发明的方法在面对不同数量级负荷数据情况下的运行时间进行对比,如图9所示。本实施例所提算法具有处理海量负荷数据的优势。K-means作为经典聚类算法在数据量小于64MB时计算速度较快,这也是K-means应用广泛的原因之一。但是随着负荷数据体量不断增大,传统算法逐渐暴露出计算效率低下的缺陷。而K-means与RF分类器结合的算法由于缺少了时序轨迹特征提取环节,随着数据量的增大,计算时间呈指数型增长。而本实施例所提算法在面对海量负荷数据时具有更高的运行效率。
本发明主要分为SVD-KICIC无监督聚类算法获取并筛选精准标签样本、基于标签负荷数据进行Shapelet快速学习、以及基于时序轨迹特征的随机森林优化负荷分类三个部分。通过实际用户数据实验验证本发明方法的有效性。
(1)算法通过SVD-KICIC聚类局部数据以获取类别标签,并基于K-mediods聚类中心计算思想筛选更加切合实际的精准负荷曲线标签数据作为Shapelet学习样本。
(2)基于Shapelet快速学习算法,充分考虑负荷曲线时序变化趋势,通过Shapelet转换技术提取负荷曲线时序轨迹特征,提高分类速度的同时为分类结果提供了较强的可解释性。
(3)基于时序轨迹特征的随机森林继承Shapelet可解释性的同时,在数据分类DBI、ΩSilM等分类有效性指标上表现更佳,对于负荷曲线分类更加有效。
以上所述的实施例仅是对本发明的优选方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。
Claims (5)
1.一种用户用电行为模式识别方法,其特征在于,包括:
采集日负荷曲线数据,对所述日负荷曲线数据进行预处理,随机划分为第一数据集和第二数据集,所述第一数据集用于负荷曲线类别标签数据的筛选;
筛选所述第一数据集,获取精准负荷曲线类别标签数据;
提取所述精准负荷曲线类别标签数据中的Shapelet集合,包括:
基于所述精准负荷曲线类别标签数据,构建Shapelet指针向量;
构建TV-LAsso正则器,利用所述TV-LAsso正则器,稀疏模块化所述Shapelet指针向量,获取稀疏块化指针向量;
利用所述稀疏块化指针向量确定所述Shapelet集合,包括:
利用所述稀疏块化指针向量提取每一类别所述Shapelet集合,计算相同时段的每一类别所述Shapelet集合的平均值,
由所述每一类别Shapelet集合的平均值构成的集合,即为所述Shapelet集合;
利用所述Shapelet集合对所述第二数据集进行Shapelet转换获得时序轨迹特征矩阵,包括:
按照最小距离准则计算第一子序列和第二子序列之间的欧氏距离,所述第一子序列为长度为l的所述Shapelet集合中子序列,所述第二子序列为长度为l的日负荷曲线子序列;
基于所述欧氏距离,将所述第二数据集中的所有子序列通过所述Shapelet集合转换获取所述第二数据集中的所有子序列的时序轨迹特征;
所述第二数据集中的所有子序列的时序轨迹特征构成所述时序轨迹特征矩阵
将所述时序轨迹特征矩阵随机划分为训练集和测试集;
利用所述训练集构建并训练随机森林分类器;
利用训练好的所述随机森林分类器对所述测试集进行分类,获得分类结果,识别用户用电行为模式。
2.根据权利要求1所述的用户用电行为模式识别方法,其特征在于,对所述日负荷曲线数据进行预处理包括:
清除或修正所述日负荷曲线数据中的异常数据,获取待分析日负荷曲线数据;
对所述待分析日负荷曲线数据进行归一化处理。
3.根据权利要求1所述的用户用电行为模式识别方法,其特征在于,筛选所述训练集,获取精准负荷曲线类别标签数据包括:
对所述第一数据集进行聚类,获取负荷曲线类别标签数据;
计算各类所述负荷曲线类别标签数据中每条日负荷曲线到本类别其他所述日负荷曲线的距离之和;
设置阈值,剔除所述距离之和大于所述阈值的所述负荷曲线类别标签数据,提取所述精准负荷曲线类别标签数据。
4.根据权利要求3所述的用户用电行为模式识别方法,其特征在于,采用SVD-KICIC聚类算法对所述第一数据集进行聚类。
5.根据权利要求1所述的用户用电行为模式识别方法,其特征在于,所述利用训练集构建并训练随机森林分类器包括:
从所述Shapelet集合中进行m次抽样,生成m个子样本集,其中,所述m个子样本集包含的样本数量相同;
利用所述子样本集训练CART决策树组合生成随机森林分类模型;
对所述随机森林分类模型中的每棵决策树的节点进行分裂,获得最终的每棵所述决策树,并计算每棵所述决策树的袋外数据误差;
保留每棵所述决策树的完整性,利用所述测试集对所有所述决策树进行测试,获得分类结果;
对所述分类结果进行投票,选出票数最多的类别作为所述测试集的所属类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111204205.8A CN113988161B (zh) | 2021-10-15 | 2021-10-15 | 一种用户用电行为模式识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111204205.8A CN113988161B (zh) | 2021-10-15 | 2021-10-15 | 一种用户用电行为模式识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113988161A CN113988161A (zh) | 2022-01-28 |
CN113988161B true CN113988161B (zh) | 2022-08-19 |
Family
ID=79738827
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111204205.8A Active CN113988161B (zh) | 2021-10-15 | 2021-10-15 | 一种用户用电行为模式识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113988161B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114881077A (zh) * | 2022-05-05 | 2022-08-09 | 西安交通大学 | 一种基于时序轨迹特征的电压暂降源分类方法及系统 |
CN115630831B (zh) * | 2022-12-06 | 2023-05-12 | 北京华联电力工程监理有限公司 | 一种电力需求侧管理辅助决策支持系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106127229A (zh) * | 2016-06-16 | 2016-11-16 | 南京大学 | 一种基于时间序列类别的计算机数据分类方法 |
CN108491487A (zh) * | 2018-03-14 | 2018-09-04 | 中国科学院重庆绿色智能技术研究院 | 一种临床指南知识编码方法及系统 |
CN108537281A (zh) * | 2018-04-13 | 2018-09-14 | 贵州电网有限责任公司 | 一种基于随机森林的电力用户特征识别分类方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108062560A (zh) * | 2017-12-04 | 2018-05-22 | 贵州电网有限责任公司电力科学研究院 | 一种基于随机森林的电力用户特征识别分类方法 |
CN109614904A (zh) * | 2018-12-03 | 2019-04-12 | 东北大学 | 一种基于Shapelet的多传感器融合的活动识别方法 |
JP7085513B2 (ja) * | 2019-04-01 | 2022-06-16 | 株式会社東芝 | 情報処理装置、情報処理方法、及びコンピュータプログラム |
-
2021
- 2021-10-15 CN CN202111204205.8A patent/CN113988161B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106127229A (zh) * | 2016-06-16 | 2016-11-16 | 南京大学 | 一种基于时间序列类别的计算机数据分类方法 |
CN108491487A (zh) * | 2018-03-14 | 2018-09-04 | 中国科学院重庆绿色智能技术研究院 | 一种临床指南知识编码方法及系统 |
CN108537281A (zh) * | 2018-04-13 | 2018-09-14 | 贵州电网有限责任公司 | 一种基于随机森林的电力用户特征识别分类方法 |
Non-Patent Citations (2)
Title |
---|
Qianli Ma,and etc.Triple-Shapelet Networks for Time Series Classification.《2019 IEEE International Conference on Data Mining (ICDM)》.2020, * |
原继东等.基于逻辑shapelets转换的时间序列分类算法.《计算机学报》.2015, * |
Also Published As
Publication number | Publication date |
---|---|
CN113988161A (zh) | 2022-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106845717B (zh) | 一种基于多模型融合策略的能源效率评价方法 | |
Cui et al. | Multi-scale convolutional neural networks for time series classification | |
CN113988161B (zh) | 一种用户用电行为模式识别方法 | |
CN112561156A (zh) | 基于用户负荷模式分类的短期电力负荷预测方法 | |
CN102324038B (zh) | 一种基于数字图像的植物种类识别方法 | |
CN113962259B (zh) | 一种燃料电池系统多模式双层故障诊断方法 | |
US20080063264A1 (en) | Method for classifying data using an analytic manifold | |
CN110765587A (zh) | 基于动态正则化判别局部保留投影的复杂石化过程故障诊断方法 | |
CN109871880A (zh) | 基于低秩稀疏矩阵分解、局部几何结构保持和类别信息最大统计相关的特征提取方法 | |
CN105930792A (zh) | 一种基于视频局部特征字典的人体动作分类方法 | |
Himeur et al. | On the applicability of 2d local binary patterns for identifying electrical appliances in non-intrusive load monitoring | |
Song et al. | Fingerprint indexing based on pyramid deep convolutional feature | |
CN111177216A (zh) | 综合能源消费者行为特征的关联规则生成方法及装置 | |
Li et al. | Time series classification based on complex network | |
Li et al. | Exploring Feature Selection With Limited Labels: A Comprehensive Survey of Semi-Supervised and Unsupervised Approaches | |
CN114881077A (zh) | 一种基于时序轨迹特征的电压暂降源分类方法及系统 | |
CN114841266A (zh) | 一种小样本下基于三元组原型网络的电压暂降识别方法 | |
CN117349786B (zh) | 基于数据均衡的证据融合变压器故障诊断方法 | |
Brucker et al. | An empirical comparison of flat and hierarchical performance measures for multi-label classification with hierarchy extraction | |
CN105760471B (zh) | 基于组合凸线性感知器的两类文本分类方法 | |
Mahmoodzadeh | Human Activity Recognition based on Deep Belief Network Classifier and Combination of Local and Global Features | |
Zhang et al. | Unsupervised and supervised learning combined power load curve classification based on sequential trajectory feature extraction algorithm | |
CN102609732A (zh) | 基于泛化视觉词典图的物体识别方法 | |
Qin | Software reliability prediction model based on PSO and SVM | |
Gong et al. | Visual Clustering Analysis of Electricity Data Based on t-SNE |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |