CN113190595B - 一种小样本驱动的异常用电数据集的构建方法及装置 - Google Patents
一种小样本驱动的异常用电数据集的构建方法及装置 Download PDFInfo
- Publication number
- CN113190595B CN113190595B CN202110424608.7A CN202110424608A CN113190595B CN 113190595 B CN113190595 B CN 113190595B CN 202110424608 A CN202110424608 A CN 202110424608A CN 113190595 B CN113190595 B CN 113190595B
- Authority
- CN
- China
- Prior art keywords
- data set
- data
- sample
- electricity
- abnormal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005611 electricity Effects 0.000 title claims abstract description 256
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 148
- 238000010276 construction Methods 0.000 title claims description 13
- 230000006399 behavior Effects 0.000 claims abstract description 120
- 238000000034 method Methods 0.000 claims abstract description 52
- 238000000342 Monte Carlo simulation Methods 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 10
- 239000013598 vector Substances 0.000 claims description 25
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 230000000737 periodic effect Effects 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 5
- 238000007500 overflow downdraw method Methods 0.000 claims description 4
- 238000012847 principal component analysis method Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims 1
- 238000007405 data analysis Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 8
- 238000004088 simulation Methods 0.000 description 7
- 230000004927 fusion Effects 0.000 description 5
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 230000002547 anomalous effect Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005684 electric field Effects 0.000 description 1
- 238000004146 energy storage Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Economics (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Water Supply & Treatment (AREA)
- Tourism & Hospitality (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Public Health (AREA)
- Fuzzy Systems (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Computational Linguistics (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种小样本驱动的异常用电数据集的构建方法,其特征在于,包括以下步骤:步骤1,采集低压居民用户的用电数据,对所述用电数据进行处理并生成分类数据集;步骤2,采用蒙特卡洛方法对所述分类数据集进行概率密度拟合,并基于概率密度函数构建随机样本,以及基于所述随机样本生成正常用电行为数据集;步骤3,基于用户的异常用电行为构建异常用电数据篡改模型,并基于所述异常用电数据篡改模型和所述正常用电行为数据集生成异常用电行为数据集;步骤4,合并所述正常用电行为数据集与所述异常用电行为数据集,以生成用电行为数据集。本发明能主动创建新型数据特征,有效扩充低压居民用户异常用电数据量,为电力大数据分析应用提供支撑。
Description
技术领域
本发明涉及电力数据分析领域,更具体地,涉及一种小样本驱动的异常用电数据集的构建方法及装置。
背景技术
降低异常用电行为造成的损失,是世界各国电网长期以来亟待解决的重要问题,众多的科研人员投入其中。现有技术中,电力系统中的非技术性损失通常由窃电、计量故障、私搭乱接、私自改变用电性质等异常用电行为造成。这些异常用电一方面作为未被计费或未被正确计费的电能消费,会给电力部门带来巨大的经济损失,另一方面也会严重威胁到电力系统的正常运行。例如,一些未被监管的异常用电行为,如变更居民用电为商业用电、私接电动汽车充电桩等,都会对电力系统的正常运行造成严重影响。同时,这些异常用电行为的长期存在,还会伴随着供电设备的过载、超压,并造成电气设备的超负荷、电网系统的动态不确定性以及负载信息不足引发的电能调度不足等等,上述这些问题都是电力系统的重大安全隐患。
同时,用电信息采集系统对低压居民用户仅能够采集到非常少的数据,采集的数据存在密度过低、信息量有限等问题,例如,低压居民用户异常用电案例数据严重不足。
现有技术中,尽管已经建立了异常用电特征的分析,但这些分析的数据来源也仅仅限于少数个案,特征模型的适应性存在片面性,低压居民用户异常用电识别准确率不高、不稳定。
因此,亟需一种新的异常用电数据集的构建方法及装置。
发明内容
为解决现有技术中存在的不足,本发明的目的在于,提供一种小样本驱动的异常用电数据集的构建方法及装置,通过构建分类数据集,采用概率密度拟合生成正常用电行为数据,并基于异常用电数据篡改模型生成异常用电行为数据集。
本发明采用如下的技术方案。
一种小样本驱动的异常用电数据集的构建方法,其特征在于,包括以下步骤:步骤1,采集低压居民用户的用电数据,对用电数据进行处理并生成分类数据集;步骤2,采用蒙特卡洛方法对分类数据集进行概率密度拟合,并基于概率密度函数构建随机样本,以及基于随机样本生成正常用电行为数据集;步骤3,基于用户的异常用电行为构建异常用电数据篡改模型,并基于异常用电数据篡改模型和正常用电行为数据集生成异常用电行为数据集;步骤4,合并正常用电行为数据集与异常用电行为数据集,以生成用电行为数据集。
优选地,分类数据集的构建方法为:步骤1.1,对低压居民用户的智能电表中用电数据进行采集和预处理,并基于预处理后的数据生成样本数据集;步骤1.2,基于用户用电的周期特性和数值特性生成样本数据集判据,并基于样本数据集判据建立分类数据集;步骤1.3,对分类数据集中的数据分别进行聚类,并基于聚类结果剔除分类数据集中的异常样本。
优选地,对低压居民用户的智能电表中用电数据进行预处理还包括:去除采集到的原始数据中的异常值和离群值样本,同时采用插值法填充原始数据中的缺失值。
优选地,样本数据集判据包括周期特性判据和数值特性判据;其中,周期特性判据用于将样本数据集中的样本数据区分为工作日数据和非工作日数据,数值特性判据区分样本数据和基于样本数据生成的标准化数据;分类数据集包括工作日样本数据集、非工作日样本数据集、工作日标准数据集、非工作日标准数据集。
优选地,采用聚类算法对每一分类数据集进行聚类,从聚类结果中筛选距离中心曲线最远的5%的样本,将样本作为异常样本剔除;其中,聚类算法的聚类数是以轮廓系数作为评价指标确定的。
优选地,步骤2中采用蒙特卡洛方法对分类数据集进行概率密度拟合并基于概率密度函数构建随机样本还包括:步骤2.1,采用主成分分析法对每一分类数据集中的所有样本数据进行原始维度解耦和维度转换,以基于新的维度生成数据组;步骤2.2,对每一数据组进行概率密度拟合,并基于概率密度函数构建当前数据组所在维度下的随机数据;步骤2.3,对所有维度执行步骤2.2,并合成所有维度下的随机数据为多维数据样本;步骤2.4,对多维数据样本进行维度解耦反变换,以获得原始维度下的随机样本。
优选地,步骤2中基于随机样本生成正常用电行为数据集还包括:采用交叉融合方法分别为数值特征样本和趋势特征样本中的随机样本分配随机权重,并基于随机权重,生成正常用电行为样本;其中,正常用电行为样本的计算公式为:
S=Sa×Sb (3)
式中,Sa为原数据集即数值特征样本,Sb为将原数据集标准化之后趋势特征样本,且有 为基于样本数据集构建的随机样本中第i个数据的权重,i∈[1,n],/>为基于样本数据集构建的随机样本中的每i个数据,wbj为基于标准数据集构建的随机样本中第j个数据的权重,j∈[1,m],/>为基于标准数据集构建的随机样本中的第j个数据,并且,/> 即两个随机样本的总权重为1。
优选地,异常用电数据篡改模型包括比例篡改模型、阶段置零模型、移峰填谷模型、私拉乱接模型和商业用电模型。
优选地,比例篡改模型的攻击向量为h1(xt)=αxt,其中,xt为正常用电行为数据集中的样本数据,并且,α∈(0,1),t∈[1,24]。
优选地,阶段置零模型的攻击向量为h2(xt)=βtxt,其中, ts与te均为预设时刻。
优选地,移峰填谷模型的攻击向量
其中,Δx1、Δx2和Δx3分别为移峰填谷电量值。
优选地,私拉乱接模型的攻击向量为h4(xt)=h4(xt)+Δp,其中,t∈[ts,te],并且Δp为私拉乱接违规电器的充电功率。
优选地,商业用电模型的攻击向量为其中,C1<1<C2。
优选地,采用异常用电数据篡改模型中的每一个对正常用电行为数据集进行篡改,并生成异常用电行为数据;将异常用电行为数据进行合并,以生成异常用电行为数据集。
优选地,步骤4中合并正常用电行为数据集与异常用电行为数据集还包括:采用蒙特卡洛模拟对正常用电行为数据集与异常用电行为数据集中的数据进行合并。
优选地,如本发明第一方面中所述的一种小样本驱动的异常用电数据集的构建装置,其特征在于,包括以下单元:采集单元,用于采集低压居民用户的智能电表中的用电数据,对用电数据进行处理并生成分类数据集;构建单元,用于采用蒙特卡洛方法对分类数据集进行概率密度拟合,并基于概率密度函数构建随机样本,以及基于随机样本生成正常用电行为数据集;篡改单元,用于基于用户的异常用电行为构建异常用电数据篡改模型,并基于异常用电数据篡改模型和正常用电行为数据集生成异常用电行为数据集;合并单元,用于合并正常用电行为数据集与异常用电行为数据集,以生成用电行为数据集。
本发明的有益效果在于,与现有技术相比,本发明中一种小样本驱动的异常用电数据集的构建方法及装置,能够针对低压居民用户异常用电真实案例数据缺乏的现状,对小样本居民用户正常用电数据进行特征分析,构建正常用电仿真数据集。同时基于异常用电行为,构建低压居民用户异常用电仿真数据集,融合正常用电仿真数据集,形成全模式用电行为海量数据集。本发明能够在真实数据严重缺乏的限制下,突破样本原有数据类型并主动创建新型数据特征,有效扩充低压居民用户异常用电数据量,为电力大数据分析应用提供支撑。
本发明的有益效果还包括:
1)采用多维度判据对用电数据进行拆分,通过聚类算法对拆分数据集分别聚类,相比较传统分析方法更全面的反应数据多特征特性;
2)通过多类特征样本的交叉融合生成居民用户正常用电数据集,相比较传统数据生成方法能包含居民多种用电场景与模式特征。
附图说明
图1为本发明一种小样本驱动的异常用电数据集的构建方法的方法流程示意图;
图2为本发明一种小样本驱动的异常用电数据集的构建方法的一个实施例中分类数据集的示意图;
图3为本发明一种小样本驱动的异常用电数据集的构建方法的一个实施例中每一个分类数据集聚类数-轮廓系数曲线;
图4为本发明一种小样本驱动的异常用电数据集的构建方法的一个实施例中四种分类数据集的聚类中心曲线的示意图;
图5为本发明一种小样本驱动的异常用电数据集的构建方法的一个实施例中剔除异常样本的分类数据的示意图;
图6为本发明一种小样本驱动的异常用电数据集的构建方法的一个实施例中一分类数据集的概率密度分布示意图;
图7为本发明一种小样本驱动的异常用电数据集的构建方法的一个实施例中一构建的正常用电行为数据集的示意图;
图8为本发明一种小样本驱动的异常用电数据集的构建方法的一个实施例中利用异常用电数据篡改模型篡改获得的异常用电行为数据集;
图9为本发明一种小样本驱动的异常用电数据集的构建装置的结构示意图。
具体实施方式
下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本申请的保护范围。
图1为本发明一种小样本驱动的异常用电数据集的构建方法的方法流程示意图。如图1所示,一种小样本驱动的异常用电数据集的构建方法,包括步骤1至步骤4。
步骤1,采集低压居民用户的用电数据,对用电数据进行处理并生成分类数据集。
具体来说,采集用电数据可以采集低压居民用户的智能电表中的用电数据。例如,可以读取智能电表中采集到的低压居民用户的每小时用电功率或电压、电流数据等。
优选地,分类数据集的构建方法为:步骤1.1,对低压居民用户的智能电表中用电数据进行采集和预处理,并基于预处理后的数据生成样本数据集;步骤1.2,基于用户用电的周期特性和数值特性生成样本数据集判据,并基于样本数据集判据建立分类数据集;步骤1.3,对分类数据集中的数据分别进行聚类,并基于聚类结果剔除分类数据集中的异常样本。
优选地,对低压居民用户的智能电表中用电数据进行预处理还包括:去除采集到的原始数据中的异常值和离群值样本,同时采用插值法填充原始数据中的缺失值。通过对数据进行预处理,可以去除极端异常数据,同时确保数据的完整性。由于考虑到居民用电的行为可能按照每一个星期具有周期性的波动规律。因此,在对缺失值进行插值运算的过程中,可以采用下述原则。
首先,若当前缺失数据的前后两周的同一天中均具有用电数据,则可以将前后两周的同一天的数据取均值并补足;
其次,若当前缺失数据的前后两周的同一天中不都具有用电数据,则可以判断当前缺失数据的前后两天中是否均具有用电数据,若是则取均值并补足;
第三,若否,则获取当前缺失数据相邻一周同一天的量测值,并在0.9至1.1的范围内生成一个随机数,基于随机数与量测值的乘积补足。
优选地,样本数据集判据包括周期特性判据和数值特性判据;其中,周期特性判据用于将样本数据集中的样本数据区分为工作日数据和非工作日数据,数值特性判据区分样本数据和基于样本数据生成的标准化数据;分类数据集包括工作日样本数据集、非工作日样本数据集、工作日标准数据集、非工作日标准数据集。
具体来说,可以根据采集数据中携带的时间标签来判断当前数据属于工作日中的数据还是非工作日中的数据。若当前数据属于工作日中的数据,将其划分至工作日的数据集,否则划分至非工作日的数据集中。
另外,采集到的数据能够反映出居民用电的数值大小。因此,直接采集到的原始数据就可以作为样本数据集。另外,可以对直接采集到的原始数据进行标准化的加工。
数据标准化的公式为:
其中,x为原始数据,
y为标准化数据,
xmin和xmax分别为原始数据向量中的最小值和最大值,
ymin和ymax分别为标准化数据向量中的最小值和最大值。
根据本发明中的数据标准化方法,可以将原始数据标准化至0.5至1.5之间,并且不仅保留了数据的趋势特征,还减少了绝对数值差异的影响。
数值特性判据就是判断当前数据是否属于标准化后的数据,并且将数据分类至不同的数据集。最后,根据两种判据,分类出四个不同的数据集,分别为工作日数值特征样本数据集、非工作日数值特征样本数据集、工作日趋势特征样本数据集以及非工作日趋势特征样本数据集。
优选地,采用聚类算法对每一分类数据集进行聚类,从聚类结果中筛选距离中心曲线最远的5%的样本,将样本作为异常样本剔除;其中,聚类算法的聚类数是以轮廓系数作为评价指标确定的。
具体来说,可以对四个不同的数据集进行分别的聚类运算。其中每一个数据集可以选择一个合适的聚类数。对于聚类数的选择,可以参考轮廓系数的取值来确定。
可以理解的是,在没有先验知识的情况下,聚类算法很难确定聚类数以及对聚类结果的合理性做出准确评价。因此可以通过综合比较样本的簇内不相似度和簇间不相似度,构建聚类结果轮廓系数作为对聚类算法合理性的评价指标。
具体来说,轮廓系数的计算公式为
/>
其中,ai为簇内不相似度,表征样本i到该簇内其他样本点的平均欧式距离,
bi为簇间不相似度,定义为bi=min{bi1,bi2,...,bin},
bij为样本i与簇j的簇间不相似度,表征样本i到簇j中所有样本的平均距离,且有j∈[1,n]。
具体来说,所有样本的轮廓系数si的均值为聚类结果的轮廓系数。该轮廓系数越接近于1,则说明该聚类的分类越合理,越有效。因此,可以基于轮廓系数的取值来获得最优的聚类数,并基于最优的聚类数实现聚类。
步骤2,采用蒙特卡洛方法对分类数据集进行概率密度拟合,并基于概率密度函数构建随机样本,以及基于随机样本生成正常用电行为数据集。
优选地,步骤2中采用蒙特卡洛方法对分类数据集进行概率密度拟合并基于概率密度函数构建随机样本还包括:步骤2.1,采用主成分分析法对每一分类数据集中的所有样本数据进行原始维度解耦和维度转换,以基于新的维度生成数据组;步骤2.2,对每一数据组进行概率密度拟合,并基于概率密度函数构建当前数据组所在维度下的随机数据;步骤2.3,对所有维度执行步骤2.2,并合成所有维度下的随机数据为多维数据样本;步骤2.4,对多维数据样本进行维度解耦反变换,以获得原始维度下的随机样本。
具体来说,通过采集低压区民用户在智能电表中的用电数据,可以获得每一天24小时内的用电数据。在这些数据中,每一个采样点数据,都应当具备一个时间标签,用于表征数据采集的时间。因此,根据一天24小时,可以将每个小时内的数据设置为一个维度,所有的采样数据就可以被构建为一个具有24个维度的样本数据。
主成分分析法作为一种统计方法可以通过正交变换将一组具有一定相关性的指标重新组合称为一组相互无关的综合指标。对具有24个维度的样本数据进行解耦,可以将原始采样数据以天为循环的规律打破。例如,在24小时内,居民用电具有工作日白天的用电量可能较少,傍晚的用电量比较集中等规律。通过主成分分析方法,能够对样本数据进行维度转换,并为更好地生成随机采样数据奠定基础。
概率密度拟合可以计算出解耦后的采样数据的概率密度函数,通过样本数据的概率密度函数,可以获知样本数据的概率密度分布的特性,从而根据相同的概率密度分布随机的生成更多的随机数据。这样就确保了在采样数据数量不足的情况下,通过计算方法自动生成更多的数据,这些数据具有相同的概率密度分布,但其取值却是完全随机分布的,不会产生任何的规律。
将上述数据集合起来形成多维数据样本后,对该样本进行解耦逆变换,从而将上述数据样本恢复成与原始采集时刻同样的具有24个维度的随机样本。
通过前文中所述的方式,可以将每一个分类数据集中的随机样本进行充分的的扩充,实现这一步骤后,这些分类数据集中就具有了充足的随机数据。随后,将这些不同的数据集中的数据进行融合,就可以生成正常用电情况下的用电行为样本了。
优选地,步骤2中基于随机样本生成正常用电行为数据集还包括:构建数值特征样本Sa与趋势特征样本Sb,并采用交叉融合方法分别为数值特征样本与趋势特征样本的样本分配随机权重,并基于随机权重,生成正常用电行为样本;
其中,正常用电行为样本的计算公式为:
S=Sa×Sb
(3)
式中,Sa为数值特征样本,Sb为趋势特征样本,且有
wai为数值特性用电行为样本中第i个数据的权重,i∈[1,n],
Sai为数值特性用电行为样本的第i个数据,
wbj为趋势特性用电行为样本中的第j个数据的权重,j∈[1,m],
Sbj为趋势特性用电行为样本的第j个数据,
并且,即两个随机样本的总权重为1。
本方法中采用了交叉融合,同时,各个随机样本中每一数据的权重可以完全随机的生成,因此,通过这种完全随机的蒙特卡洛模拟,可以生成正常用电模式下用户行为的海量数据。
本发明的这一方法,首先基于分类数据集的内部特征随机的生成分类的随机样本,其次基于随机权重的交叉融合生成了分类数据集的各种不同的融合方式。通过本发明的方法,能够保证样本在包含原始数据集各类特征的基础上,拥有充分的异变性,涵盖了更多的用电场景与用电模式时产生的用电特征。
然而,在用户用电的过程中,除了正常的用电行为之外,还会因为异常的用电行为而对行为数据造成严重的影响。在构建海量数据集的过程中,应当全面的考虑各种特殊的异常用电行为,并根据不同的异常用电行为构建不同的异常用电数据篡改模型。
步骤3,基于用户的异常用电行为构建异常用电数据篡改模型,并基于异常用电数据篡改模型和正常用电行为数据集生成异常用电行为数据集。
优选地,异常用电数据篡改模型包括比例篡改模型、阶段置零模型、移峰填谷模型、私拉乱接模型和商业用电模型。
通常来说,构建的异常用电数据篡改模型,可以从构建异常用电的攻击向量入手,通过攻击向量对正常的用电数据进行篡改。因此,篡改模型的通用公式为a=h(xt),其中,a为攻击向量,h(·)为攻击向量的函数,xt为正常用电行为数据集中的样本数据,t∈[1,24]。
优选地,比例篡改模型的攻击向量为h1(xt)=axt,其中,xt为所述正常用电行为数据集中的样本数据,并且,α∈(0,1),t∈[1,24]。在异常用电中,有一种用户私换互感器的窃电方式,因其能够很好的隐藏窃电行为而普遍被使用,在这种异常用电行为中,实际用电和电表计量值之间通常成一定比例分布。因此,根据这一规律,可以设置比例篡改模型的攻击向量。
优选地,阶段置零模型的攻击向量为h2(xt)=βtxt,其中, ts与te均为预设时刻。另外一种常见异常可能是由于对用电数据采集不全或采集不到造成的。因此,可以将部分时段,例如t∈[ts,te]这一时段的用电数据修改为0。
优选地,移峰填谷模型的攻击向量为
其中,Δx1、Δx2和Δx3分别为移峰填谷电量值。通常来说,为了平抑低电价时段的用电高峰,并防止高电价时段的配电浪费,现有的电网中经常采用储能电站实现移峰填谷的电能供应平衡。为了对这种电能供应平衡方法所产生的用电量数据进行良好模拟,因此本发明中提出了针对移峰填谷的篡改模型。
优选地,私拉乱接模型的攻击向量为h4(xt)=h4(xt)+Δp,其中,t∈[te,te],并且Δp为私拉乱接违规电器的充电功率。在异常用电行为中,还存在私拉乱接违规电器进行用电的行为。在这种行为中,可以随机设置时间段,并在随机时间段上增加违规电器的用电功率。例如,若要对用户私拉电瓶车充电口的违规用电行为进行模拟,可以设置t∈[ts,te]为工作日傍晚下班时间,例如18:00至24:00之间的随机三个小时,设置Δp为电瓶车的充电功率。
优选地,商业用电模型的攻击向量为其中,C1<1<C2。通常来说,为了节约电费,还有许多商业用电采用的居民电表进行计量。而这些电表采集到的商业用电电量,其特征与居民的正常用电行为的特征有所不同。这些用电的用电区间主要集中在工作时间,而其他时间的用电量则相对较小。根据这一情况,可以将不同时段的用电量乘以系数从而获得篡改模型。
优选地,采用异常用电数据篡改模型中的每一个对正常用电行为数据集进行篡改,并生成异常用电行为数据;将异常用电行为数据进行合并,以生成异常用电行为数据集。具体来说,可以以每个模型作为攻击向量,执行蒙特卡洛模拟,以生成针对不同攻击向量的异常用电行为数据,合并后就可以得到全面的异常用电行为数据集了。
步骤4,合并正常用电行为数据集与异常用电行为数据集,以生成用电行为数据集。
优选地,采用蒙特卡洛模拟对正常用电行为数据集与异常用电行为数据集中的数据进行合并。可以理解的是,再次对正常用电行为数据集中的数据与异常用电行为数据集中的数据进行蒙特卡洛模拟,将两个数据集中的数据随机的合并在一起,从而生成合并的数据集。
本发明一实施例中,以16户家庭2020年8月13日至9月13日的每日用电数据为原始数据进行异常用电仿真数据集的构建。
首先,在数据预处理阶段进行数据的初步筛选,发现其中有两户用户在所有日期内的用电数据均为零,因此对其作无用电用户处理。对于剩余的14户用户,其用电数据中的缺失值进行了插值处理后,为了防止电表采集的异常,将离群值最大的5%用电数据去除。
图2为本发明一种小样本驱动的异常用电数据集的构建方法的一个实施例中分类数据集的示意图。如图2所示,将上述过程中的预处理数据按照两个判据进行分类,分成四个不同的分类数据集。这些数据集中的数据能够较好的体现出工作日、非工作日、标准化数据、原始数据等不同类别数据的特征。例如,标准化数据集中的数据由于进行了标准化,其用电功率的取值范围充分地分布于0.5至1.5之间。同时,在工作日与非工作日中,随着时间维度用电功率的取值有很大区别,这与居民用户的工作生活习惯、用电习惯密切相关。
随后,可以采用k-means聚类算法对每一个分类数据集中的数据进行聚类。由于聚类数不同可能对聚类结果造成严重影响。因此,本发明中,采用了轮廓系数作为评价指标对聚类数进行选取。图3为本发明一种小样本驱动的异常用电数据集的构建方法的一个实施例中每一个分类数据集聚类数-轮廓系数曲线。本发明中,可以计算聚类数在2与8之间取值时,每一个分类数据库的轮廓系数值。如图中所示,对于工作日样本数据集(即图3中工作日-原数据集)来说,聚类数目选取为2能够获得最大的轮廓系数,因此其聚类效果最好。
表1为分类数据集的最优聚类数表,如表1所示,对于四个不同的分类数据集工作日样本数据集、非工作日样本数据集、工作日标准数据集、非工作日标准数据集,其最优聚类数分别为2、2、2、3。
表1分类数据集的最优聚类数表
工作日 | 非工作日 | |
样本数据集 | 2 | 2 |
标准化数据集 | 2 | 3 |
通过最优聚类数,对每一个分类数据集进行聚类。图4为本发明一种小样本驱动的异常用电数据集的构建方法的一个实施例中原数据集即数值特征样本数据集四个聚类中心曲线与标准化数据集即趋势特征样本数据集五个聚类中心曲线的示意图。其中数值特征样本中,工作日聚类出两类,非工作日聚类出两类。趋势特征样本中,工作日聚类出两类,非工作日聚类出三类。根据中心曲线的分布规律,计算每一个样本数据点与中心曲线的欧式聚类,从而选取聚类最大的5%作为异常样本剔除。
图5为本发明一种小样本驱动的异常用电数据集的构建方法的一个实施例中剔除异常样本的分类数据的示意图。如图5所示,剔除5%的异常样本后,四类数据具有更加明显的规律。
获取到剔除了异常样本的分类数据集后,针对每一个数据集计算概率密度函数。图6为本发明一种小样本驱动的异常用电数据集的构建方法的一个实施例中一分类数据集的概率密度分布示意图。如图6所示,在24个不同维度内,样本数据的概率密度有所不同。根据不同的概率密度分布情况,即可构建出具有相同概率密度分布的随机数据了。本发明中,对数值特征样本中的四类样本和趋势特征样本中的五类样本分别进行聚类,剔除异常样本后,构建出如图6所示的分类数据集的概率密度分布示意图。
图7为本发明一种小样本驱动的异常用电数据集的构建方法的一个实施例中一构建的正常用电行为数据集的示意图。如图7所示,通过交叉融合方法,将上述步骤中生成的随机数据进行融合,生成了正常用电行为数据集。本发明实施例中,该数据集中包含了10000个样本。
图8为本发明一种小样本驱动的异常用电数据集的构建方法的一个实施例中利用异常用电数据篡改模型篡改获得的异常用电行为数据集。如图8所示,根据五种不同的异常行为攻击向量,可以将正常用电行为数据集中的数据进行篡改,从而获得新的异常用电行为数据集。
图9为本发明一种小样本驱动的异常用电数据集的构建模块的结构示意图。如图9所示,本发明第二部分涉及一种如本发明第一方面中所述的小样本驱动的异常用电数据集的构建装置100。该装置包括以下单元:
采集单元101,用于采集低压居民用户的智能电表中的用电数据,对用电数据进行处理并生成分类数据集;
构建单元102,用于采用蒙特卡洛方法对分类数据集进行概率密度拟合,并基于概率密度函数构建随机样本,以及基于随机样本生成正常用电行为数据集;
篡改单元103,用于基于用户的异常用电行为构建异常用电数据篡改模型,并基于异常用电数据篡改模型和正常用电行为数据集生成异常用电行为数据集;
合并单元104,用于合并正常用电行为数据集与异常用电行为数据集,以生成用电行为数据集。
本发明的有益效果在于,与现有技术相比,本发明中一种小样本驱动的异常用电数据集的构建方法,能够针对低压居民用户异常用电真实案例数据缺乏的现状,对小样本居民用户正常用电数据进行特征分析,构建正常用电仿真数据集。同时基于异常用电行为,构建低压居民用户异常用电仿真数据集,融合正常用电仿真数据集,形成全模式用电行为海量数据集。本发明能够在真实数据严重缺乏的限制下,突破样本原有数据类型并主动创建新型数据特征,有效扩充低压居民用户异常用电数据量,为电力大数据分析应用提供支撑。
本发明的有益效果还包括:
1)采用多维度判据对用电数据进行拆分,通过聚类算法对拆分数据集分别聚类,相比较传统分析方法更全面的反应数据多特征特性;
2)通过多类特征样本的交叉融合生成居民用户正常用电数据集,相比较传统数据生成方法能包含居民多种用电场景与模式特征;
本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述,但是本领域技术人员应该理解,以上实施示例仅为本发明的优选实施方案,详尽的说明只是为了帮助读者更好地理解本发明精神,而并非对本发明保护范围的限制,相反,任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。
Claims (9)
1.一种小样本驱动的异常用电数据集的构建方法,其特征在于,包括以下步骤:
步骤1,采集低压居民用户的用电数据,对所述用电数据进行处理并生成分类数据集;
步骤2,采用蒙特卡洛方法对所述分类数据集进行概率密度拟合,并基于概率密度函数构建随机样本,以及基于所述随机样本生成正常用电行为数据集;
步骤3,基于用户的异常用电行为构建异常用电数据篡改模型,并基于所述异常用电数据篡改模型和所述正常用电行为数据集生成异常用电行为数据集;
其中,所述异常用电数据篡改模型包括比例篡改模型、阶段置零模型、移峰填谷模型、私拉乱接模型和商业用电模型;
所述比例篡改模型的攻击向量为h1(xt)=αxt,其中,xt为所述正常用电行为数据集中的样本数据,并且,α∈(0,1),t∈[1,24];
所述阶段置零模型的攻击向量为h2(xt)=βtxt,其中, ts与te均为预设时刻;
所述移峰填谷模型的攻击向量为
其中,Δx1、Δx2和Δx3分别为移峰填谷电量值;
所述私拉乱接模型的攻击向量为h4(xt)=h4(xt)+Δp,其中,t∈[ts,te],并且Δp为私拉乱接违规电器的充电功率;
所述商业用电模型的攻击向量为其中,C1<1<C2;
采用所述异常用电数据篡改模型中的每一个对所述正常用电行为数据集进行篡改,并生成异常用电行为数据;
将所述异常用电行为数据进行合并,以生成所述异常用电行为数据集;
步骤4,合并所述正常用电行为数据集与所述异常用电行为数据集,以生成用电行为数据集。
2.根据权利要求1中一种小样本驱动的异常用电数据集的构建方法,其特征在于:
所述分类数据集的构建方法为:
步骤1.1,对所述低压居民用户的智能电表中用电数据进行采集和预处理,并基于预处理后的数据生成样本数据集;
步骤1.2,基于用户用电的周期特性和数值特性生成样本数据集判据,并基于所述样本数据集判据建立分类数据集;
步骤1.3,对分类数据集中的数据分别进行聚类,并基于聚类结果剔除所述分类数据集中的异常样本。
3.根据权利要求2中所述的一种小样本驱动的异常用电数据集的构建方法,其特征在于:
对所述低压居民用户的智能电表中用电数据进行预处理还包括:
去除采集到的原始数据中的异常值和离群值样本,同时采用插值法填充原始数据中的缺失值。
4.根据权利要求2中所述的一种小样本驱动的异常用电数据集的构建方法,其特征在于:
所述样本数据集判据包括周期特性判据和数值特性判据;
其中,所述周期特性判据用于将所述样本数据集中的样本数据区分为工作日数据和非工作日数据,所述数值特性判据区分所述样本数据和基于所述样本数据生成的标准化数据;
所述分类数据集包括工作日样本数据集、非工作日样本数据集、工作日标准数据集、非工作日标准数据集。
5.根据权利要求2中所述的一种小样本驱动的异常用电数据集的构建方法,其特征在于:
采用聚类算法对每一分类数据集进行聚类,从聚类结果中筛选距离中心曲线最远的5%的样本,将所述样本作为异常样本剔除;
其中,所述聚类算法的聚类数是以轮廓系数作为评价指标确定的。
6.根据权利要求1中所述的一种小样本驱动的异常用电数据集的构建方法,其特征在于:
所述步骤2中采用蒙特卡洛方法对所述分类数据集进行概率密度拟合并基于概率密度函数构建随机样本还包括:
步骤2.1,采用主成分分析法对每一分类数据集中的所有样本数据进行原始维度解耦和维度转换,以基于新的维度生成数据组;
步骤2.2,对每一数据组进行概率密度拟合,并基于概率密度函数构建当前数据组所在维度下的随机数据;
步骤2.3,对所有维度执行步骤2.2,并合成所有维度下的随机数据为多维数据样本;
步骤2.4,对所述多维数据样本进行维度解耦反变换,以获得原始维度下的随机样本。
7.根据权利要求1中所述的一种小样本驱动的异常用电数据集的构建方法,其特征在于:
所述步骤2中基于所述随机样本生成正常用电行为数据集还包括:
采用交叉融合方法分别为数值特征样本和趋势特征样本中的随机样本分配随机权重,并基于所述随机权重,生成正常用电行为样本;
其中,所述正常用电行为样本的计算公式为:
S=Sa×Sb (3)
式中,Sa为原数据集即数值特征样本,Sb为将原数据集标准化之后趋势特征样本,且有
为基于所述样本数据集构建的随机样本中第i个数据的权重,i∈
[1,n],
为基于所述样本数据集构建的随机样本中的每i个数据,
wbj为基于所述标准数据集构建的随机样本中第j个数据的权重,j∈
[1,m],
Sbj为基于所述标准数据集构建的随机样本中的第j个数据,
并且,即两个随机样本的总权重为1。
8.根据权利要求1中所述的一种小样本驱动的异常用电数据集的构建方法,其特征在于:
所述步骤4中合并所述正常用电行为数据集与所述异常用电行为数据集还包括:
采用蒙特卡洛模拟对所述正常用电行为数据集与所述异常用电行为数据集中的数据进行合并。
9.如权利要求1-8中一种小样本驱动的异常用电数据集的构建方法中所述的一种小样本驱动的异常用电数据集的构建装置,其特征在于,包括以下单元:
采集单元,用于采集低压居民用户的智能电表中的用电数据,对所述用电数据进行处理并生成分类数据集;
构建单元,用于采用蒙特卡洛方法对所述分类数据集进行概率密度拟合,并基于概率密度函数构建随机样本,以及基于所述随机样本生成正常用电行为数据集;
篡改单元,用于基于用户的异常用电行为构建异常用电数据篡改模型,并基于所述异常用电数据篡改模型和所述正常用电行为数据集生成异常用电行为数据集;
合并单元,用于合并所述正常用电行为数据集与所述异常用电行为数据集,以生成用电行为数据集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110424608.7A CN113190595B (zh) | 2021-04-20 | 2021-04-20 | 一种小样本驱动的异常用电数据集的构建方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110424608.7A CN113190595B (zh) | 2021-04-20 | 2021-04-20 | 一种小样本驱动的异常用电数据集的构建方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113190595A CN113190595A (zh) | 2021-07-30 |
CN113190595B true CN113190595B (zh) | 2024-03-05 |
Family
ID=76977540
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110424608.7A Active CN113190595B (zh) | 2021-04-20 | 2021-04-20 | 一种小样本驱动的异常用电数据集的构建方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113190595B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2740334A1 (en) * | 2010-05-14 | 2011-11-14 | National Research Council | Order-preserving clustering data analysis system and method |
EP3109801A1 (en) * | 2015-06-26 | 2016-12-28 | National University of Ireland, Galway | Data analysis and event detection method and system |
CN110852906A (zh) * | 2019-11-19 | 2020-02-28 | 国网四川省电力公司电力科学研究院 | 一种基于高维随机矩阵进行窃电嫌疑识别的方法和系统 |
CN111275576A (zh) * | 2020-01-19 | 2020-06-12 | 烟台海颐软件股份有限公司 | 一种电价执行异常用户的识别方法及识别系统 |
-
2021
- 2021-04-20 CN CN202110424608.7A patent/CN113190595B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2740334A1 (en) * | 2010-05-14 | 2011-11-14 | National Research Council | Order-preserving clustering data analysis system and method |
EP3109801A1 (en) * | 2015-06-26 | 2016-12-28 | National University of Ireland, Galway | Data analysis and event detection method and system |
CN110852906A (zh) * | 2019-11-19 | 2020-02-28 | 国网四川省电力公司电力科学研究院 | 一种基于高维随机矩阵进行窃电嫌疑识别的方法和系统 |
CN111275576A (zh) * | 2020-01-19 | 2020-06-12 | 烟台海颐软件股份有限公司 | 一种电价执行异常用户的识别方法及识别系统 |
Non-Patent Citations (1)
Title |
---|
居住建筑用电数据分析与随机模型构建;康旭源;燕达;孙红三;晋远;;建筑科学(12);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113190595A (zh) | 2021-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109359389B (zh) | 基于典型负荷动态博弈的城市电动汽车充电决策方法 | |
CN110097297A (zh) | 一种多维度窃电态势智能感知方法、系统、设备及介质 | |
Sun et al. | Probabilistic peak load estimation in smart cities using smart meter data | |
Dahal et al. | Comprehensive clustering of disturbance events recorded by phasor measurement units | |
Chicco et al. | Emergent electricity customer classification | |
Cheng et al. | Enhanced state estimation and bad data identification in active power distribution networks using photovoltaic power forecasting | |
CN111932070A (zh) | 一种家庭电力用户用电能效分析装置 | |
Lu et al. | Research on creating multi-attribute power consumption behavior portraits for massive users | |
CN106651093A (zh) | 一种用于低压集抄系统的智能复核管控方法 | |
CN116777124B (zh) | 一种基于用户用电行为的窃电监测方法 | |
CN113190595B (zh) | 一种小样本驱动的异常用电数据集的构建方法及装置 | |
CN112365164A (zh) | 基于改进密度峰值快速搜索聚类算法的中大型能源用户用能特性画像方法 | |
Zhang et al. | User power interaction behavior clustering analysis that is based on the self-organizing-center K-means algorithm | |
Zhao et al. | Spatio-temporal load forecasting considering aggregation features of electricity cells and uncertainties in input variables | |
CN112113316B (zh) | 一种空调负荷提取的方法 | |
CN114048200A (zh) | 一种计及缺失数据补齐的用户用电行为分析方法 | |
Jin et al. | Comprehensive evaluation of impacts of connecting distributed generation to the distribution network | |
Yan et al. | Cross-domain feature extraction-based household characteristics identification approach using smart meter data | |
CN113191409A (zh) | 标签数据扩充与深度学习的居民异常用电行为检测方法 | |
Ferreira et al. | Zonal prices analysis supported by a data mining based methodology | |
Luo et al. | Detection of abnormal power consumption patterns of power users based on machine learning | |
Guo et al. | Research on recognition and classification of user stealing detection based on weighted naive Bayes | |
Feng et al. | A novel load clustering method based on entropy features considering longitudinal characteristics | |
Gong et al. | Abnormal electricity customer clustering method based on electricity big data | |
Jiang et al. | Research on multi-type demand response user profile based on improved k-means clustering algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |