CN114818313A - 一种基于合成少数类过采样技术的隐蔽窃电行为辨识方法 - Google Patents
一种基于合成少数类过采样技术的隐蔽窃电行为辨识方法 Download PDFInfo
- Publication number
- CN114818313A CN114818313A CN202210428344.7A CN202210428344A CN114818313A CN 114818313 A CN114818313 A CN 114818313A CN 202210428344 A CN202210428344 A CN 202210428344A CN 114818313 A CN114818313 A CN 114818313A
- Authority
- CN
- China
- Prior art keywords
- data
- electricity
- user
- electricity stealing
- behavior
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2113/00—Details relating to the application field
- G06F2113/04—Power grid distribution networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2119/00—Details relating to the type or aim of the analysis or the optimisation
- G06F2119/02—Reliability analysis or reliability optimisation; Failure analysis, e.g. worst case scenario performance, failure mode and effects analysis [FMEA]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于合成少数类过采样技术的隐蔽窃电行为辨识方法,属供电管理领域。收集某一时段正常用户及记录到的异常用户用电数据;收集对应时段的天气温度数据;进行数据输入及预处理:基于少数类过采样技术的数据扩充:进行用户特征数据标签构建:进行随机森林算法窃电行为预测:对用户最终是否存在窃电的行为作出判断或预测。其除了考虑用户用电特征指标外,将天气因素与用户用电时空相关性考虑在内,并考虑窃电行为隐蔽型的特点,利用合成少数类过采样技术对小样本量的异常样本进行扩充,提高样本有效数据量及覆盖范围,提高了模型训练的精度,增强了窃电行为的辨识能力。
Description
技术领域
本发明属于供电管理领域,尤其涉及一种用基于合成少数类过采样的方式来辨识窃电行为的方法。
背景技术
随着经济的快速发展,人们对电力的依赖程度越来越高,家庭用电器功率、用电量都得到了快速发展。
然而,部分用户为了少缴电费,甚至不缴电费,通过更改电能表计量线路、电表结构等措施进行窃电,且窃电行为越发猖獗。
窃电行为不仅会造成电网公司收入下降,影响其他用户安全可靠用电,更改线路等还可能造成短路,引发火灾等严重灾害,威胁他人生命财产安全。
完全依靠电力工人逐户摸排检查来杜绝窃电行为是难以实现的,一方面电力工人数量有限,除了供电、保电任务外,还要承担临时抢险、巡线排查等,难以实现逐户检查;另一方面,部分窃电是通过更改简易装置实现的,可以快速复原设备,在检查期间正常运行,这样就导致无法发现异常。
而随着智能电网建设,终端用户用电信息的计量和记录已经很方便了,且人工智能等技术也为出力大量用户用电数据提供了可能。
虽然对隐蔽窃电行为数据的记录有限,但通过合适的方法仍然能够挖掘窃电用户用电行为特征,为电网公司辨识潜在窃电用户提供技术和方法支撑。因此,研究小样本数据下的用户窃电行为辨识方法具有重要的经济效益和社会效益。
国内对用户窃电行为预测进行了广泛研究。例如,在文献“基于无监督学习的电力用户异常用电模式检测”(庄池杰,张斌,胡军,等在《中国电机工程学报》(2016,36(2):379-387)中,公开了采用基于局部离群因子算法的无监督学习对终端用户用电异常行为进行检测和识别,利用主成分分析及因子分析实现了特征变量的降维,并根据定义的波动性指标、趋势指标等数据标签进行无监督学习;在文献“基于实值深度置信网络的用户侧窃电行为检测”(张承勇,肖先勇,郑子萱.《电网技术》(2019,43(3):1083-1091)中提出了基于实值深度置信网络的用户侧窃电行为检测方法,为了提高预测精度避免随机初始化产生的局部最优解的问题,提出了通过萤火虫算法对网络参数进行全局寻优以加快求解速度。文献“稀疏随机森林下的用电侧异常行为模式检测”(许刚,谈元鹏,戴腾辉.《电网技术》(2017,41(6):1964-1971)中,公开了利用多个决策树构成的稀疏随机森林算法对用户窃电行为进行辨识,基于套索算法对各个决策树进行稀疏化表示,并通过在连续时间序列中进行随机推移采样,提高了模型预测的准确度。在文献“基于大数据混合数据驱动模型的多用户反窃电甄别研究”(薛峪峰,马占海,罗红郊.《自动化与仪表仪器》(2020,254(12):215-218)中,为了提高多用户窃电行为的甄别,提出了以驱动电源、有功功率、直流电压及电流相位差等参数为约束变量,利用大数据混合调度方法进行多用户窃电行为识别和输出反馈控制。文献“基于曲线相似性分析的窃电用户判断”(吴迪.《中国电力》(2017,50(2):181-184)利用用户线损的特点,采用时域和频域曲线相似性的分析方法对用户负荷曲线与异常馈线线损曲线之间的相似度来判断用户窃电行为,相似度则利用欧氏距离、余弦距离和街区距离进行计算。而文献“基于密度聚类技术的电力系统用电量异常分析算法”(田力,向敏.《电力系统自动化》(2017,41(5):64-70)则使用密度聚类方法计算异常用户用电得分,进而实现对用户窃电行为进行预测和识别,通过构建离群对象得分、相对用电频率以及关联规则支持度指标的乘积来量化用户小时级用电数据行为特征。
此外,授权公告日为2021年8月3日,授权公告为CN 108734602 B的中国发明专利,公开了“一种基于高维随机矩阵的用户窃电行为辨识系统”,其利用高维随机矩阵算法,综合考虑了用户电量、电压、电流、有功功率等特征,对用户窃电行为进行了挖掘;申请公布日为2018年11月6日,申请公布号为CN 108765004 A的发明专利申请,公开了“一种基于数据挖掘识别用户窃电行为的方法”,其通过对用户基本属性特征,用电规律,行业特征,用电时间特征,电力行业运行特征等数据的挖掘,能够准确地判别窃电行为;申请公布日为2019年9月6日,申请公布号为CN 110210723 A的发明专利申请,公开了“一种基于层次分析法和孤立森林的窃电辨识方法”,其基于用户用电计量和窃电手段,构建了电压不平衡率,电流不平衡率,功率因数不平衡率,电量同比,电量环比,负荷不平衡率的窃电行为指标,通过计算指标权重构建数据集进行训练,最后通过孤立森林算法进行窃电用户识别和定位;申请公布日为2018年3月30日,申请公布号为CN 107862347 A的发明专利申请,公开了“一种基于随机森林的窃电行为的发现方法”,其通过提取用户用电数据的方差特征和含零百分数特征构建评价指标,最后基于随机森林算法对指标进行挖掘,得到窃电行为数据;申请公布日为2020年7月17日,申请公布号为CN 111428804 A的发明专利申请,公开了“一种优化加权的随机森林窃电用户检测方法”,其通过对若干单一窃电决策模型进行加权,组成了综合窃电决策模型,并将其用于用户窃电行为检测中。
以上针对窃电行为的检测和识别方法完全基于用户自身电力数据,并没有与环境温度等额外因素考虑在内,而个体用户受环境温度影响,用电行为会存在较大偏差。
此外,上述方法都是基于用户窃电数据样本足够多的前提下进行的,实际上,窃电行为都是比较隐蔽的,且窃电用户的数据往往是比较少的,有时很难形成足够的样本用来评估。
因此,有必要考虑窃电行为的隐蔽性,研究在小样本异常数据中辨识用户窃电行为的方法,同时为了提高预测精度,除了用户用电自身数据外,融合更广泛的诸如环境温度等数据标签也是十分有意义和必要的。
发明内容
本发明所要解决的技术问题是提供一种基于合成少数类过采样技术的隐蔽窃电行为辨识方法。其基于合成少数类过采样技术的小样本异常数据窃电行为辨识方法,除了考虑用户用电特征指标外,将天气因素与用户用电时空相关性考虑在内,并考虑窃电行为隐蔽型的特点,利用合成少数类过采样技术对小样本量的异常样本进行扩充,提高样本有效数据量、覆盖范围,提高了模型训练的精度,增强了窃电行为的辨识能力。
本发明的技术方案是:提供一种基于合成少数类过采样技术的隐蔽窃电行为辨识方法,其特征是:
1)收集某一时段正常用户及记录到的异常用户用电数据;收集对应时段的天气温度数据;
2)数据输入及预处理:
利用四分位区间构建箱型图,判别异常数据和记录的不合理数据,同时通过线性插值等方法对缺失数据进行补充;
3)基于少数类过采样技术的数据扩充:
考虑到隐蔽窃电行为的样本数据通常比较少,利用少数类过采样技术对预处理后的数据进行扩充,在保证样本规律不变的前提下尽量增加窃电样本的数量,以得到更丰富的样本数据;
4)用户特征数据标签构建:
利用用户包括平电量、谷电量、总电量在内的数据,构建评电量评价指标,利用用户用电量与环境温度的关系,构建包括友好度、稳定度在内的指标,进而形成完整的用户特征数据标签;
5)随机森林算法窃电行为预测:
将数据进行分类,一部分作为训练数据,另一部分作为验证数据;利用随机森林算法对不同用户得到的数据进行训练,得到各项超参数;然后利用验证数据测试窃电行为辨识模型的有效性及其精度;
6)对用户最终是否存在窃电的行为作出判断或预测:
利用训练集得到模型以后,将用户用电数据测试集代入模型进行测试,最终采用大多数投票法对用户最终是否窃电的行为作出判断或预测。
具体的,所述的数据输入及预处理,获取正常用户及已有窃电用户时序用电数据、对应时段的天气温度数据;根据用户的平电量、谷电量和总电量对异常数据进行检测;对于缺失的数据,采用线性插值进行补全。
进一步的,所述的对异常数据进行检测,采用“1.5IQR规则”,即:找到数据的25%分位数Q1和75%分位数Q3,定义Q3与Q1的差值为IQR,认为数据中小于Q1-1.5×IQR的、或大于Q3+1.5×IQR的为异常数据,剔除异常数据。
具体的,所述数据扩充,对于包含正常用户和窃电用户的整体样本W,计算与窃电用户样本中的元素xs同类的l-临近集合Qi,并从中随机选定样本xa,定义少量样本元素xs与随机样本xa在某个属性r上的差值为Dr;则利用少类窃电样本数据和随机样本数据得到的合成类样本xh,r可表示为:
Dr=xa,r-xs,r
xh,r=xs+Dr×rand(0,1)
其中,rand(0,1)表示随机生成(0,1)之间的实数;xs表示窃电用户样本中的元素,xs∈W;随机选定样本xa∈Qi;
根据设定的采样率,可以生成新的正常用户及窃电用户用电数据,提高数据的覆盖度和广度。
具体的,所述的用户特征数据标签,分别包括谷电量的平滑度指标、落差度指标、中值度指标,平电量的平滑度指标、落差度指标、中值度指标,总电量的平滑度指标、落差度指标、指标中值度指标,用户气温友好度ρspe(Q,C)指标,以及用电量稳定度S(Qj,t,Qj+1,t)指标;
其中,所述的谷电量表示负荷低谷期间的用电量;所述的平电量表示负荷平时段期间的用电量;所述的总电量表示周期内用户总用电量;所述的用户气温友好度ρspe(Q,C)指标表示用户用电量与温度变化的契合程度,以Spearman相关性系数表示;所述的用电量稳定度S(Qj,t,Qj+1,t)指标描述相邻两个研究周期内用户用电量的相似程度。
进一步的,所述的平滑度指标Qv,sm表示周期内用户在负荷低谷期间的用电量标准差;所述的落差度指标Qv,diff,表示周期内用户负荷低谷期用电量差值的最大绝对值;所述的中值度Qv,med,表示周期内用户负荷低谷期用电量的中间值。
具体的,所述的随机森林算法窃电行为预测包括:
第一步:为决策树随机抽样形成训练集;
第二步:构建不同的电力用户用电行为决策树;
重复上述两个步骤,直到算法收敛。
进一步的,利用训练集得到模型以后,将用户用电数据测试集代入模型进行测试,最终采用大多数投票法对用户最终是否窃电的行为作出判断。
具体的,所述的隐蔽窃电行为辨识方法,在小样本窃电数据集中,能够高效地辨识窃电行为。
本发明所述的隐蔽窃电行为辨识方法,除了考虑用户用电特征指标外,将天气因素与用户用电时空相关性考虑在内,并考虑窃电行为隐蔽型的特点,利用合成少数类过采样技术对小样本量的异常样本进行扩充,提高样本有效数据量、覆盖范围,提高了模型训练的精度,增强了窃电行为的辨识能力。
与现有技术比较,本发明的优点是:
1、本发明的技术方案,基于合成少数类过采样技术的小样本异常数据窃电行为辨识方法,除了考虑用户用电特征指标外,将天气因素与用户用电时空相关性考虑在内,并考虑窃电行为隐蔽型的特点,利用合成少数类过采样技术对小样本量的异常样本进行扩充,提高了模型训练的精度;
2、采用本发明的技术方案,能够准确、快速地辨识窃电行为,提高了窃电行为预测的准确度,有助于保证电网公司电费正常回收及用户用电的可靠性,提高电网公司经济收入;
3、本发明的技术方案,利用少数类过采样技术对少量(小样本量)的隐蔽窃电记录数据进行扩充,提高样本有效数据量、覆盖范围,增强窃电行为的辨识能力;通过快速辨识窃电用户,及时拆除窃电装置,更换为合格的产品,有助于保障用户用电的安全性,避免因擅自更改电表等设备造成线路短路而引发的触电、火灾等灾害。
附图说明
图1是本发明基于合成少数类过采样技术的隐蔽窃电行为辨识方法流程示意图;
图2是合成少数类过采样技术使用前验证集上的ROC及AUC值示意图;
图3是合成少数类过采样技术使用后验证集上的ROC曲线及AUC值示意图;
图4是随机森林模型在均衡后的测试集上的效果示意图。
具体实施方式
下面结合附图和实施例对本发明做进一步说明。
在已有的文献和专利中,均只考虑用户用电数据的变化,并没有将温度等环境指标考虑在内。而本专利中考虑环境温度对用户用电行为习惯的影响,提出了环境友好度、用电量稳定度等评价指标,提高了窃电行为预测的准确度。
同时,现有方法都是在假设窃电行为数据足够多,且样本覆盖范围足够广的前提下进行的,这在实际应用中是非常困难的。因为窃电行为普遍具有隐蔽性,甚至部分窃电人员具有反侦察意识。而本专利提出利用少数类过采样技术对少量的隐蔽窃电记录数据进行扩充,提高样本有效数据量、覆盖范围,增强了窃电行为的辨识能力。
本发明的技术方案,具体包括以下步骤:
1)数据输入及预处理:
收集正常用户及记录到的异常用户用电数据,对应时段的天气温度。利用四分位区间构建箱型图判别异常数据和记录的不合理数据,同时通过线性插值等方法对缺失数据进行补充。
2)基于少数类过采样技术的数据扩充:
考虑到隐蔽窃电行为的样本数据通常比较少,利用少数类过采样技术对预处理后的数据进行扩充,得到更丰富的样本数据。
3)用户特征数据标签构建:
利用用户的平电量、谷电量、总电量等构建评电量评价指标,利用用户用电量与环境温度的关系构建友好度、稳定度等指标,进而形成完整的用户特征数据标签。
4)随机森林算法窃电行为预测:
将数据进行分类,一部分作为训练数据,另一部分作为验证数据,利用随机森林算法对不同用户得到的数据进行训练,得到各项超参数,然后利用验证数据测试窃电行为辨识模型的有效性及其精度。
实施例:
实施例1:
如图1所示,本发明所述的基于合成少数类过采样技术的隐蔽窃电行为辨识方法,分为数据输入及预处理、数据扩充、特征指标构建和窃电行为预测四个模块部分。
所述数据输入与预处理模块,获取正常用户及已有窃电用户时序用电数据、对应时段的天气温度数据,根据用户的平电量、谷电量和总电量对异常数据进行检测,采用“1.5IQR规则”,即找到数据的25%分位数Q1和75%分位数Q3,定义Q3与Q1的差值为IQR,认为数据中小于Q1-1.5×IQR的、或大于Q3+1.5×IQR的为异常数据,剔除异常数据。对于缺失的数据,采用线性插值进行补全。
所述数据扩充模块是为了在保证样本规律不变的前提下尽量增加窃电样本的数量。对于包含正常用户和窃电用户的整体样本W,xs∈W表示窃电用户样本中的元素。计算与xs同类的l-临近集合Qi,并从中随机选定样本xa∈Qi,定义少量样本元素xs与随机样本xa在某个属性r上的差值为Dr。则利用少类窃电样本数据和随机样本数据得到的合成类样本xh,r可表示为:
Dr=xa,r-xs,r
xh,r=xs+Dr×rand(0,1)
上式中,rand(0,1)表示随机生成(0,1)之间的实数。根据设定的采样率可以生成新的正常用户及窃电用户用电数据,提高数据的覆盖度和广度。
所述用户特征数据标签构建模块,在本发明的技术方案中,分别构建了谷电量的平滑度、落差度、中值度三个指标;平电量的平滑度、落差度、中值度三个指标;总电量的平滑度、落差度、中值度三个指标。为了考虑环境温度对用户用电行为的影响,提出了气温友好度和用电量稳定度两个指标。
上述所提用户特征数据标签中的各类指标定义如下:
(1)谷电量的平滑度、落差度、中值度指标
1)平滑度指标Qv,sm,以研究周期内用户在负荷低谷期间的用电量标准差表示,定义如下:
2)落差度指标Qv,diff,以研究周期内用户负荷低谷期用电量差值的最大绝对值表示,定义如下:
Qv,diff=max{|Qv,t-Qv,t-Δt|,|Qv,t+Δt-Qv,t|,...,|Qv,m*t-Qv,m*t-Δ|}
上式中,Δt表示时序数据采样间隔,电网公司数据采集通常为15分钟一个点;m表示一个研究周期内的采样点个数。
3)中值度Qv,med,以研究周期内用户负荷低谷期用电量的中间值表示,定义如下:
(2)平电量的平滑度、落差度、中值度指标:
1)平滑度指标Qe,sm,以研究周期内用户在负荷平时段的用电量标准差表示,定义如下:
2)落差度指标Qe,diff,以研究周期内用户负荷平时段用电量差值的最大绝对值表示,定义如下:
Qe,diff=max{|Qe,t-Qe,t-Δt|,|Qe,t+Δt-Qe,t|,...,|Qe,m*t-Qe,m*t-Δ|}
3)中值度Qe,med,以研究周期内用户负荷平时段用电量的中间值表示,定义如下:
(3)总电量的平滑度、落差度、中值度指标
1)平滑度指标Qu,sm,以研究周期内用户总用电量标准差表示,定义如下:
2)落差度指标Qu,diff,以研究周期内用户总用电量差值的最大绝对值表示,定义如下:
Qu,diff=max{|Qu,t-Qu,t-Δt|,|Qu,t+Δt-Qu,t|,...,|Qu,m*t-Qu,m*t-Δ|}
3)中值度Qu,med,以研究周期内用户总用电量的中间值表示,定义如下:
(4)用户气温友好度ρspe(Q,C),表示用户用电量与温度变化的契合程度,以Spearman相关性系数表示:
(5)用电量稳定度S(Qj,t,Qj+1,t),该指标描述相邻两个研究周期内用户用电量的相似程度,定义如下:
上式中,j表示研究周期的编号,g表示研究周期内的时段编号。
所述随机森林预测模块第一步:为决策树随机抽样形成训练集。在随机森林算法中,每一棵决策树都代表一个电力用户用电标签训练集,这些标签由用户特征数据标签构建模块给出。采用无权重抽样技术,对扩充后的电力用户用电数据集进行有放回重复采样,直到形成足够数量的训练集。
所述随机森林预测模块第二步:构建不同的电力用户用电行为决策树。在构建决策过程中需要考虑两个重要的过程,即决策树的节点分裂和用户用电行为特征的随机选取。在决策树节点分裂中,采用C4.5算法实现。首先,根据电力用户用电行为训练集中的用户用电行为的各种标签,计算其信息增益IncInE(Z)和信息增益率RaInE(U)。
IncInE(Z)=InE(U)-InEz(U)
上式中,InE(U)表示节点U的信息熵;Prk表示信源概率空间k的概率;Num表示信源个数;InEZ(U)表示按照Z规则划分时对U中样本分类所需要的期望信息;c表示分类的编号;Vum表示最大分类数;|Uc/U|表示信息划分的权重;SpInEZ(U)表示分裂信息比率。然后,根据电力用户用电行为标签计算得到的信息增益率,选择其中最大的标签作为分裂节点,并将电力用户用电行为划分为多个数据子集。重复上述两个步骤,直到算法收敛。
在用户用电行为特征的随机选取中,采用Forestes-RI方法实现。即随机选择F个用户用电行为特征标签参与节点分裂。
所述随机森林预测模块第三步:在用户用电数据测试集上进行预测分析。利用训练集得到模型以后,将用户用电数据测试集代入模型进行测试,最终采用大多数投票法对用户最终是否窃电的行为作出判断。
实施例2:
将基于合成少数类过采样技术的隐蔽窃电行为辨识方法应用于国内某实际电网中,对用户窃电进行辨识。
样本数据共记录了1352户家庭一年内的用电数据及对应的天气温度,数据采样间隔为15分钟,窃电用户数据仅有90户,且部分窃电用户的窃电行为并未达到一年,对这部分数据可以采用合成少数类过采样技术对样本进行扩充和均衡,测试集不参与合成少数类过采样数据均衡。
以0.5为阈值,对合成少数类过采样技术使用前后电力用户用电数据集的均衡性等进行测试,以受试者工作特征曲线(Receiver Operating Characteristic Curve,ROC)和ROC曲线下的面积(Area Under Curve,AUC)为指标,结果如图2、图3和图4及表1所示。
表1以0.5为阈值不同类别上的精度和召回率等信息
从图2和图3的AUC数值对比可以看出,利用合成少数类过采样技术后,样本的ROC曲线更接近于直角,AUC数值也从0.86提高到了0.98,表明在数据均衡性提高后,分类器的性能更好,可以在较低的FPR(FPR:假正类率,又叫假阳率,代表预测是异常但实际是正常的样本数,占实际正常总数的比例值越小性能越好)下获得比较大的TPR(TPR:真正类率,又叫真阳率,代表预测是异常实际也是异常的样本数,占实际总异常数的比例值越大性能越好)。
进一步对所述的基于合成少数类过采样技术的隐蔽窃电行为辨识方法在窃电行为预测中进行应用,分别以0.5和0.6为阈值,利用混淆矩阵对所提算法性能进行分析,结果分别如表2和表3所示。
表2以0.5为阈值辨识结果分析
表3以0.6为阈值辨识结果分析
从上述结果可以看出,以0.5为阈值,可以检出65名异常用户;检测得到1255人为正常用户,其中1230人为正常用户。若以0.6为阈值,则在90名异常用户中可以检出70名用户,而此时错被纳入异常用户的正常用户为52户,此时被误检为正常用户的仅有20户,预测精度可以达到96%,表明本发明技术方案所述的基于合成少数类过采样技术的隐蔽窃电行为辨识方法,在小样本窃电数据集中,能够高效地辨识窃电行为。
本发明的技术方案,基于合成少数类过采样技术的小样本异常数据窃电行为辨识方法,除了考虑用户用电特征指标外,将天气因素与用户用电时空相关性考虑在内,并考虑窃电行为隐蔽型的特点,利用合成少数类过采样技术对小样本量的异常样本进行扩充,提高样本有效数据量、覆盖范围,提高了模型训练的精度,增强了窃电行为的辨识能力。
本发明可广泛用于供电管理领域。
Claims (10)
1.一种基于合成少数类过采样技术的隐蔽窃电行为辨识方法,其特征是:
1)收集某一时段正常用户及记录到的异常用户用电数据;收集对应时段的天气温度数据;
2)数据输入及预处理:
利用四分位区间构建箱型图,判别异常数据和记录的不合理数据,同时通过线性插值等方法对缺失数据进行补充;
3)基于少数类过采样技术的数据扩充:
考虑到隐蔽窃电行为的样本数据通常比较少,利用少数类过采样技术对预处理后的数据进行扩充,在保证样本规律不变的前提下尽量增加窃电样本的数量,以得到更丰富的样本数据;
4)用户特征数据标签构建:
利用用户包括平电量、谷电量、总电量在内的数据,构建评电量评价指标,利用用户用电量与环境温度的关系,构建包括友好度、稳定度在内的指标,进而形成完整的用户特征数据标签;
5)随机森林算法窃电行为预测:
将数据进行分类,一部分作为训练数据,另一部分作为验证数据;利用随机森林算法对不同用户得到的数据进行训练,得到各项超参数;然后利用验证数据测试窃电行为辨识模型的有效性及其精度;
6)对用户最终是否存在窃电的行为作出判断或预测:
利用训练集得到模型以后,将用户用电数据测试集代入模型进行测试,最终采用大多数投票法对用户最终是否窃电的行为作出判断或预测。
2.按照权利要求1所述的基于合成少数类过采样技术的隐蔽窃电行为辨识方法,其特征是所述的数据输入及预处理,获取正常用户及已有窃电用户时序用电数据、对应时段的天气温度数据;根据用户的平电量、谷电量和总电量对异常数据进行检测;对于缺失的数据,采用线性插值进行补全。
3.按照权利要求2所述的基于合成少数类过采样技术的隐蔽窃电行为辨识方法,其特征是所述的对异常数据进行检测,采用“1.5IQR规则”,即:找到数据的25%分位数Q1和75%分位数Q3,定义Q3与Q1的差值为IQR,认为数据中小于Q1-1.5×IQR的、或大于Q3+1.5×IQR的为异常数据,剔除异常数据。
4.按照权利要求1所述的基于合成少数类过采样技术的隐蔽窃电行为辨识方法,其特征是所述的数据扩充,对于包含正常用户和窃电用户的整体样本W,计算与窃电用户样本中的元素xs同类的l-临近集合Qi,并从中随机选定样本xa,定义少量样本元素xs与随机样本xa在某个属性r上的差值为Dr;则利用少类窃电样本数据和随机样本数据得到的合成类样本xh,r可表示为:
Dr=xa,r-xs,r
xh,r=xs+Dr×rand(0,1)
其中,rand(0,1)表示随机生成(0,1)之间的实数;xs表示窃电用户样本中的元素,xs∈W;随机选定样本xa∈Qi;
根据设定的采样率,可以生成新的正常用户及窃电用户用电数据,提高数据的覆盖度和广度。
5.按照权利要求1所述的基于合成少数类过采样技术的隐蔽窃电行为辨识方法,其特征是所述的用户特征数据标签,分别包括谷电量的平滑度指标、落差度指标、中值度指标,平电量的平滑度指标、落差度指标、中值度指标,总电量的平滑度指标、落差度指标、指标中值度指标,用户气温友好度ρspe(Q,C)指标,以及用电量稳定度S(Qj,t,Qj+1,t)指标;
其中,所述的谷电量表示负荷低谷期间的用电量;所述的平电量表示负荷平时段期间的用电量;所述的总电量表示周期内用户总用电量;所述的用户气温友好度ρspe(Q,C)指标表示用户用电量与温度变化的契合程度,以Spearman相关性系数表示;所述的用电量稳定度S(Qj,t,Qj+1,t)指标描述相邻两个研究周期内用户用电量的相似程度。
6.按照权利要求5所述的基于合成少数类过采样技术的隐蔽窃电行为辨识方法,其特征是所述的平滑度指标Qv,sm表示周期内用户在负荷低谷期间的用电量标准差;所述的落差度指标Qv,diff,表示周期内用户负荷低谷期用电量差值的最大绝对值;所述的中值度Qv,med,表示周期内用户负荷低谷期用电量的中间值。
7.按照权利要求1所述的基于合成少数类过采样技术的隐蔽窃电行为辨识方法,其特征是所述的随机森林算法窃电行为预测包括:
第一步:为决策树随机抽样形成训练集;
第二步:构建不同的电力用户用电行为决策树;
重复上述两个步骤,直到算法收敛。
8.按照权利要求1所述的基于合成少数类过采样技术的隐蔽窃电行为辨识方法,其特征是利用训练集得到模型以后,将用户用电数据测试集代入模型进行测试,最终采用大多数投票法对用户最终是否窃电的行为作出判断。
9.按照权利要求1所述的基于合成少数类过采样技术的隐蔽窃电行为辨识方法,其特征是所述的隐蔽窃电行为辨识方法,在小样本窃电数据集中,能够高效地辨识窃电行为。
10.按照权利要求1所述的基于合成少数类过采样技术的隐蔽窃电行为辨识方法,其特征是所述的隐蔽窃电行为辨识方法,除了考虑用户用电特征指标外,将天气因素与用户用电时空相关性考虑在内,并考虑窃电行为隐蔽型的特点,利用合成少数类过采样技术对小样本量的异常样本进行扩充,提高样本有效数据量、覆盖范围,提高了模型训练的精度,增强了窃电行为的辨识能力。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210428344.7A CN114818313A (zh) | 2022-04-22 | 2022-04-22 | 一种基于合成少数类过采样技术的隐蔽窃电行为辨识方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210428344.7A CN114818313A (zh) | 2022-04-22 | 2022-04-22 | 一种基于合成少数类过采样技术的隐蔽窃电行为辨识方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114818313A true CN114818313A (zh) | 2022-07-29 |
Family
ID=82505210
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210428344.7A Pending CN114818313A (zh) | 2022-04-22 | 2022-04-22 | 一种基于合成少数类过采样技术的隐蔽窃电行为辨识方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114818313A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116304962A (zh) * | 2023-05-25 | 2023-06-23 | 湖南东润智能仪表有限公司 | 一种用于水表计量数据的智能异常监测方法 |
CN116449284A (zh) * | 2023-03-30 | 2023-07-18 | 宁夏隆基宁光仪表股份有限公司 | 居民用电异常监测方法及其智能电表 |
CN116777124A (zh) * | 2023-08-24 | 2023-09-19 | 国网山东省电力公司临沂供电公司 | 一种基于用户用电行为的窃电监测方法 |
CN116881639A (zh) * | 2023-07-10 | 2023-10-13 | 国网四川省电力公司营销服务中心 | 一种基于生成对抗网络的窃电数据合成方法 |
-
2022
- 2022-04-22 CN CN202210428344.7A patent/CN114818313A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116449284A (zh) * | 2023-03-30 | 2023-07-18 | 宁夏隆基宁光仪表股份有限公司 | 居民用电异常监测方法及其智能电表 |
CN116304962A (zh) * | 2023-05-25 | 2023-06-23 | 湖南东润智能仪表有限公司 | 一种用于水表计量数据的智能异常监测方法 |
CN116304962B (zh) * | 2023-05-25 | 2023-08-04 | 湖南东润智能仪表有限公司 | 一种用于水表计量数据的智能异常监测方法 |
CN116881639A (zh) * | 2023-07-10 | 2023-10-13 | 国网四川省电力公司营销服务中心 | 一种基于生成对抗网络的窃电数据合成方法 |
CN116777124A (zh) * | 2023-08-24 | 2023-09-19 | 国网山东省电力公司临沂供电公司 | 一种基于用户用电行为的窃电监测方法 |
CN116777124B (zh) * | 2023-08-24 | 2023-11-07 | 国网山东省电力公司临沂供电公司 | 一种基于用户用电行为的窃电监测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110223196B (zh) | 基于典型行业特征库和反窃电样本库的反窃电分析方法 | |
CN110097297B (zh) | 一种多维度窃电态势智能感知方法、系统、设备及介质 | |
CN114818313A (zh) | 一种基于合成少数类过采样技术的隐蔽窃电行为辨识方法 | |
Cao et al. | A novel false data injection attack detection model of the cyber-physical power system | |
Tsai | Combining cluster analysis with classifier ensembles to predict financial distress | |
Oprea et al. | Machine learning classification algorithms and anomaly detection in conventional meters and Tunisian electricity consumption large datasets | |
CN104503874A (zh) | 一种云计算平台的硬盘故障预测方法 | |
CN110458230A (zh) | 一种基于多判据融合的配变用采数据异常甄别方法 | |
CN104636449A (zh) | 基于lsa-gcc的分布式大数据系统风险识别方法 | |
CN103390154A (zh) | 基于进化多特征提取的人脸识别方法 | |
Fei et al. | Electricity frauds detection in Low-voltage networks with contrastive predictive coding | |
Messinis et al. | Unsupervised classification for non-technical loss detection | |
CN116433333B (zh) | 基于机器学习的数字商品交易风险防控方法及装置 | |
CN116861331A (zh) | 一种融合专家模型决策的数据识别方法及系统 | |
CN118052558B (zh) | 基于人工智能的风控模型决策方法及系统 | |
CN113988220A (zh) | 一种采煤机健康状态评估方法 | |
CN117390546A (zh) | 一种面向即时反窃电检测的多模数据库融合存算模型 | |
Gao et al. | Electricity theft detection based on contrastive learning and non-intrusive load monitoring | |
CN104570109A (zh) | 一种储层油气预测的方法 | |
Simmons et al. | Data mining on extremely long time-series | |
Aquize et al. | Self-organizing maps for anomaly detection in fuel consumption. Case study: Illegal fuel storage in Bolivia | |
Poudel et al. | Artificial intelligence for energy fraud detection: a review | |
Qian et al. | Large-scale kpi anomaly detection based on ensemble learning and clustering | |
Dian-Gang et al. | Anomaly behavior detection based on ensemble decision tree in power distribution network | |
Dimf et al. | CNN with BI-LSTM electricity theft detection based on modified cheetah optimization algorithm in deep learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |