CN111160401B - 一种基于均值漂移和XGBoost的异常用电判别方法 - Google Patents
一种基于均值漂移和XGBoost的异常用电判别方法 Download PDFInfo
- Publication number
- CN111160401B CN111160401B CN201911252147.9A CN201911252147A CN111160401B CN 111160401 B CN111160401 B CN 111160401B CN 201911252147 A CN201911252147 A CN 201911252147A CN 111160401 B CN111160401 B CN 111160401B
- Authority
- CN
- China
- Prior art keywords
- electricity consumption
- electricity
- abnormal
- data
- electricity utilization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005611 electricity Effects 0.000 title claims abstract description 164
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 67
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000003066 decision tree Methods 0.000 claims abstract description 26
- 230000008014 freezing Effects 0.000 claims abstract description 15
- 238000007710 freezing Methods 0.000 claims abstract description 15
- 238000010606 normalization Methods 0.000 claims abstract description 15
- 238000007621 cluster analysis Methods 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims abstract description 8
- 238000012216 screening Methods 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 27
- 230000017105 transposition Effects 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 4
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 230000008602 contraction Effects 0.000 claims description 2
- 238000001914 filtration Methods 0.000 abstract description 3
- 238000007405 data analysis Methods 0.000 abstract description 2
- 238000007418 data mining Methods 0.000 abstract description 2
- 238000001514 detection method Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Economics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Probability & Statistics with Applications (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于电力技术领域,尤其涉及一种基于均值漂移和XGBoost的异常用电判别方法,是一种数据分析与挖掘的方法。包括采集台区用户的日冻结用电量信息并转置为列标;基于用电量信息及用电量归一化后的用电波动性进行均值漂移聚类分析;对均值漂移聚类结果差别进行标识与交集,形成初始疑似异常用电列表;从已确认的异常用电名单中选80%为样本训练学习,形成决策树模型;再对剩余20%异常用电名单的数据验证调整;对疑似异常用电列表进行二次筛选,得到最终异常用电名单。本发明对异于常规的用电特征,利用决策树模型进行二次过滤,使异常用电的判断更加高效准确,达80%以上,解决了异常用电客户的检测问题,其应用市场较为广阔。
Description
技术领域
本发明属于电力技术领域,尤其涉及一种基于均值漂移和XGBoost的异常用电判别方法,具体是一种数据分析与挖掘的方法。
背景技术
当前,对于用电异常行为的手段除了常规用电检查手段外,也借助了一些数据统计手段,例如:按用户用电性质、电量同比、环比核查,对台区、专变用户和电量异常用户进行分析,排查可能存在异常用电的用户。利用基于标准的K-means聚类分析方法来实现用户用电分析是一种常见方法,但是,k-means需要事先确定分几类合适,并且,不能单一地从用电量和用电特征就判定是否异常用电。并且,上述手段需要大量的人工核查识别工作,效率较低且工作量大,在面向动辄上千万条记录的用电量数据时,常用方法无法运行。
普通居民每日的用电量比较有限,商业用电用电量一般会比较大;居民用电工作日与周末用电量可能会有波动,部分24小时营业的商业用电则相对平稳。如果在档案中登记为居民用电的,但是用电量与用电波动性方面却较为符合商业用电的特征,则认为该用户异常用电的可能性较大。
聚类个数不能简单地认定为居民和非居民2种,所以采用均值漂移算法来对用电量与用电波动性进行聚类,再结合两者结果输出结果,但这样的结果往往误判率较高,或者输出结果集数量较多,无法进一步筛选。
发明内容
针对上述现有技术中存在的问题,本发明提供了一种基于均值漂移和XGBoost的异常用电判别方法,其目的是为了实现在海量的用电数据中,快速、高效、准确地找出在居民用电中的异常情况,辅助用电稽查,规范用电。
为实现上述发明目的,本发明是采用如下技术方案来实现的:
一种基于均值漂移和XGBoost的异常用电判别方法,包括以下步骤:
步骤1:采集台区用户的日冻结用电量信息,通过行列转置将日期转置为列标,定义公式Pij(i=1,2,…,k;j=1,2,…,n)表示用户i在第j天的用电量;
步骤2:基于用电量信息及用电量归一化后的用电波动性进行均值漂移聚类分析;
步骤3:对步骤2得到的均值漂移聚类结果差别进行标识,并对聚类分析结果取交集,形成初始疑似异常用电列表;
步骤4:从已经确认的异常用电名单中选取80%作为样本进行训练学习,形成基于用电数据的决策树模型;用决策树模型对剩余20%的异常用电名单的数据进行验证,并不断优化调整决策树模型;
步骤5:利用步骤4中得到的决策树模型对步骤3中的疑似异常用电列表进行二次筛选,得到最终的异常用电名单。
所述用电量归一化方法指面向所有数据统一的归一化处理,表示如下:
其中:Pij表示第i个用户第j个日期的用电量。
所述均值漂移聚类分析的方法步骤如下:
步骤2.1:选取随机中心点C;
步骤2.2:计算其他数据点与中心点C的欧氏距离小于半径H的集合M;
步骤2.3:计算从中心点开始到集合M中每个元素的向量,将这些向量相加,得到偏移向量;
步骤2.4:将该中心点沿着偏移的方向移动,移动距离就是该偏移向量的模;中心点偏移方法,表示如下:
xt+1=Mt+xt
其中,Mt为t状态下求得的偏移均值;xt为t状态下的中心;
步骤2.5:迭代步骤2.2~2.4,得到偏移向量的大小满足偏移量阈值的中心点;
步骤2.6:迭代步骤2.1~2.5,对各点进行归类。
所述偏移向量计算方程,表示如下:
其中,Sh:表示以x为中心点,半径为h的高维球区域;k:表示包含在Sh范围内点的个数;xi:表示包含在Sh范围内的点。
进一步的,步骤3中所述均值漂移聚类结果进行标识与交集的方法,表示如下:
取用电量聚类结果中心曲线中除去数量最少的,以及居民用户占比在5%以下或95%以上的类别集合C1;以及用电波动性最大的聚类类别C2,取C1∩C2。
进一步的,步骤4中所述基于用电数据的决策树模型建立步骤如下:
步骤4.1:对异常用电名单中选取的80%样本进行行列转置,缺失补0;
步骤4.2:设置num_class为2,利用XGBoost算法建模;
步骤4.3:模型验证,参数调整。
进一步的,步骤4中所述决策树模型,其目标函数表示如下:
其中i表示第i个样本,表示第i个样本的预测误差,l表示预测误差,k表示建立了k个回归树,fk表示回归树的复杂度的函数。
所述步骤1中采集台区用户的日冻结用电量信息,日冻结电量的数据以列的列式存储,一个用户一天的数据为一条记录;一个用户一年的数据为365条记录;
首先按照日期由远及近的方式进行排列,并通过行列转置将日期转换为列标,使得整理后的数据每行代表一个用户,上表中用户日冻结用电量信息转换之后记录;
用公式Pij(i=1,2,…,k;j=1,2,…,n)表示用户i在第j天的用电量。
所述步骤2中:基于用电量的均值飘移聚类分析,是根据用户的日用电量信息将用户按照均值标称的思路进行分类,在一年的用电量数据中:
S1.在用电量数据,长度为365的数列集合中随机选取一个作为初始中心点C;
S2.计算得出其他数据点与当前中心点欧氏距离小于半径H的所有点;
S3.计算从中心点开始到集合M中每个元素的向量,将这些向量相加,得到偏移向量;
偏移均值的公式如下:
其中,Sh:表示以x为中心点,半径为h的高维球区域;k:表示包含在Sh范围内点的个数;xi:表示包含在Sh范围内的点;
S4.将该中心点沿着偏移的方向移动,移动距离就是该偏移向量的模;移动公式如下:
xt+1=Mt+xt
其中,Mt为t状态下求得的偏移均值;xt为t状态下的中心;
S5.迭代步骤S2~S4,直到偏移向量的大小满足设定的阈值要求,记住此时的中心点;
S6.迭代步骤S2-S5,直到所有的点都被归类;
S7.根据每个类,对每个点的访问频率,取访问频率最大的那个类,作为当前点集的所属类。
所述步骤4中从已经确认的异常用电名单中选取80%作为样本进行训练学习,形成基于用电数据的决策树模型,是对样本数据同样作行列转置,并将缺失的值补0;给定相应的训练参数,包括树的最大深度,收缩步长;使用归一化指数函数softmax进行训练;分类结果为异常和正常二分类,设置分类结果参数num_class类别个数为2模型输出值是样本为第一类的概率,将概率值转化为0或1,即异常和正常两类。
本发明的优点及有益效果是:
随着用户用电分析的逐步深入,发现一些用电客户的用电特征与当时档案登记的用电类型不一致,例如,登记为居民用电,但是用电量及用电特征与商业用电很相像,猜测其在实际用电过程中出现了异常用电的现象。发明将用户分为具有特征的几类,并利用XGBoost决策树算法来提升结界输出的准确性。
本发明利用机器学习的方法,进一步过滤结果,以用电量和用电波动相结合的方式,找出异于常规的用电特征,在此基础上利用决策树模型进行二次过滤,异常用电的判断更加高效准确。本发明方法相关参数经过实际验证,满足实际需求。异常用电的查找准确率在80%以上,解决了异常用电客户的检测问题,其应用市场较为广阔。
附图说明
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及具体实施方式对本发明作进一步的详细描述,以下实施例用于说明本发明,但应当理解本发明的保护范围并不受具体实施方式的限制。
图1为本发明异常用电判别方法流程图;
图2为本发明针对样例数据对用电量进行聚类的结果;
图3为本发明针对样例数据对用电波动性进行聚类的结果。
具体实施方式
本发明是一种基于均值漂移和XGBoost的异常用电判别方法,包括以下步骤:
步骤1:采集台区用户的日冻结用电量信息,通过行列转置将日期转置为列标,定义公式Pij(i=1,2,…,k;j=1,2,…,n)表示用户i在第j天的用电量;
上式中:Pij表示用户i在第j天的用电量,i表示用户,j表示第j天。
步骤2:基于用电量信息及用电量归一化后的用电波动性进行均值漂移聚类分析;
所述用电量归一化方法,指面向所有数据统一的归一化处理,表示如下:
其中:Pij表示第i个用户第j个日期的用电量。
所述均值漂移聚类分析的方法具体步骤如下:
步骤2.1:选取随机中心点C;
步骤2.2:计算其他数据点与中心点C的欧氏距离小于半径H的集合M;
步骤2.3:计算从中心点开始到集合M中每个元素的向量,将这些向量相加,得到偏移向量;
所述偏移向量计算方程,表示如下:
其中,Sh:表示以x为中心点,半径为h的高维球区域;k:表示包含在Sh范围内点的个数;xi:表示包含在Sh范围内的点。
步骤2.4:将该中心点沿着偏移的方向移动,移动距离就是该偏移向量的模;中心点偏移方法,表示如下:
xt+1=Mt+xt
其中,Mt为t状态下求得的偏移均值;xt为t状态下的中心;
步骤2.5:迭代步骤2.2~2.4,得到偏移向量的大小满足偏移量阈值的中心点;
步骤2.6:迭代步骤2.1~2.5,对各点进行归类;
步骤3:对步骤2得到的均值漂移聚类结果差别进行标识与交集,形成初始疑似异常用电列表;
所述均值漂移聚类结果进行标识与交集的方法,表示如下:
取用电量聚类结果中心曲线中除去数量最少的,以及居民用户占比在5%以下或95%以上的类别集合C1;以及用电波动性最大的聚类类别C2,取C1∩C2。
步骤4:从已经确认的异常用电名单中选取80%作为样本进行训练学习,形成基于用电数据的决策树模型。用决策树模型对剩余20%的异常用电名单的数据进行验证,并不断优经调整决策树模型。
基于用电数据的决策树模型建立步骤如下:
步骤4.1:对异常用电名单中选取的80%样本进行行列转置,缺失补0;
步骤4.2:设置num_class为2,利用XGBoost算法建模;
步骤4.3:模型验证,参数调整。
所述决策树模型,其目标函数表示如下:
其中i表示第i个样本,表示第i个样本的预测误差,l表示预测误差,k表示建立了k个回归树,fk表示回归树的复杂度的函数。
步骤5:利用步骤4的决策树模型对步骤3的疑似异常用电列表进行二次筛选,得到最终的异常用电名单。
本发明具体步骤为针对用电量数据,首先进行数据清洗与相关处理;利用均值漂移方法对用电量数据进行聚类;将数据归一化后同样进行聚类;选取用电量大且用电波动幅度大的用户作为疑似异常用电用户;利用已知的异常用电样本数据,基于XGBoost分类进行训练形成模型,对前期聚类形成的结果进行差别,输出最终结果,如图1所示,图1为本发明异常用电判别方法流程图。
实施例1:
本发明具体实施步骤如下:
步骤1.采集台区用户的日冻结用电量信息,日冻结电量的数据以列的列式存储,一个用户一天的数据为一条记录。一个用户一年的数据为365条记录,如表1所示。
首先按照日期由远及近的方式进行排列,并通过行列转置将日期转换为列标,使得整理后的数据每行代表一个用户,上表中用户日冻结用电量信息转换之后记录,如表2所示。
用公式Pij(i=1,2,…,k;j=1,2,…,n)表示用户i在第j天的用电量。
上式中:Pij表示用户i在第j天的用电量,i表示用户,j表示第j天。
步骤2.基于用电量的均值飘移聚类分析。根据用户的日用电量信息将用户按照均值标称的思路进行分类,同样以一年数据为例。
S1.在用电量数据,长度为365的数列集合中随机选取一个作为初始中心点C;
S2.计算得出其他数据点与当前中心点欧氏距离小于半径H的所有点;
S3.计算从中心点开始到集合M中每个元素的向量,将这些向量相加,得到偏移向量;
偏移均值的公式如下:
其中,Sh:表示以x为中心点,半径为h的高维球区域;k:表示包含在Sh范围内点的个数;xi:表示包含在Sh范围内的点。
S4.将该中心点沿着偏移的方向移动,移动距离就是该偏移向量的模;移动公式如下:
xt+1=Mt+xt
其中,Mt为t状态下求得的偏移均值;xt为t状态下的中心。
S5.迭代步骤S2~S4,直到偏移向量的大小满足设定的阈值要求,记住此时的中心点。
S6.迭代步骤S2-S5,直到所有的点都被归类。
S7.根据每个类,对每个点的访问频率,取访问频率最大的那个类,作为当前点集的所属类。
步骤3.根据步骤2得到的均值漂移聚类得到的结果,对每个类别的用户用电量特性进行分析,确定每类用户的用电特点。
步骤4.基于用电波动性的用户聚类分析。
根据步骤1的用户用电量数据,对同一个用户一年的用电量数据进行0-1归一化处理,用电量归一化方法公式如下:
其中:Pij表示第i个用户第j个日期的用电量。
此步骤消除用电量大小对用电波动性特征的影响,归一化后利用步骤2的方法再进行聚类。
步骤5.根据步骤2对用电量归一化之后的数据进行基于均值漂移聚类得到的结果,对每个类别的用户用电波动性特性进行分析,确定每类用户的用电波动性特点。
步骤6.综合上述分布情况的统计,获取不同用电量类别的的特性及不同用电波动性类别的特性,一般为用电量大并且用电波动幅度较大的居民用户为疑似取异常用电的用户,具体方法为取用电量聚类结果中心曲线中除去数量最少的,以及居民用户占比在5%以下或95%以上的类别集合C1;以及用电波动性最大的聚类类别C2,取C1∩C2。
步骤7.依据已确定为异常用电名单的数据,取其中80%作为样本数据,形成基于用电数据的决策树模型。对样本数据同样作行列转置,并将缺失的值补0。给定相应的训练参数,如树的最大深度,收缩步长。使用归一化指数函数softmax目标函数进行训练。因为分类结果为异常和正常二分类,设置分类结果参数num_class类别个数为2模型输出值是样本为第一类的概率,因此将概率值转化为0或1,即异常和正常两类。
步骤8.利用步骤7生成的决策树模型,对异常用电名单的数据中剩余的20%进行分类,并与结果进行验证,计算模型分类的准确率,以调整相关参数,进一步优化模型,最终将模型固化。
步骤9.利用步骤8固化的模型对步骤6输出的异常用电用户进行分类过滤,输出为最终的异常用电用户。
结论:
本发明所述的基于均值漂移和XGBoost的异常用电判别方法,通过本发明的实施,能够快速准确地找出异常用电的用户,实现了自动化的稳定科学的判别方法。
表1:用户的日冻结用电量信息
NO | TQBH | YHBH | YHMC | DATE | … | POWER |
1 | 06900XXXX | XXX | 张XX | 2017/01/01 | … | 4.9 |
2 | 06900XXXX | XXX | 张XX | 2017/01/02 | … | 5.1 |
… | … | … | … | … | … | … |
365 | 06900XXXX | XXX | 张XX | 2017/12/31 | … | 4.8 |
表2:将用户日冻结用电量信息转换之后记录
TQBH | YHBH | 0101 | 0102 | … | 1231 |
06900XXXX | XXX | 4.9 | 5.1 | … | 4.8 |
Claims (7)
1.一种基于均值漂移和XGBoost的异常用电判别方法,其特征是:包括以下步骤:步骤1:采集台区用户的日冻结用电量信息,通过行列转置将日期转置为列标,定义公式Pij(i=1,2,…,k;j=1,2,…,n)表示用户i在第j天的用电量;步骤2:基于用电量信息及用电量归一化后的用电波动性进行均值漂移聚类分析;步骤3:对步骤2得到的均值漂移聚类结果差别进行标识,并对聚类分析结果取交集,形成初始疑似异常用电列表;步骤4:从已经确认的异常用电名单中选取80%作为样本进行训练学习,形成基于用电数据的决策树模型;用决策树模型对剩余20%的异常用电名单的数据进行验证,并不断优化调整决策树模型;步骤5:利用步骤4中得到的决策树模型对步骤3中的疑似异常用电列表进行二次筛选,得到最终的异常用电名单;
所述步骤2中:基于用电量的均值漂移聚类分析,是根据用户的日用电量信息将用户按照均值标称的思路进行分类,在一年的用电量数据中:
S1.在用电量数据长度为365的数列集合中,随机选取一个作为初始中心点C;
S2.计算得出其他数据点与当前中心点欧氏距离小于半径H的所有点;
S3.计算从中心点开始到集合M中每个元素的向量,将这些向量相加,得到偏移向量;
偏移均值的公式如下:其中,Sh:表示以x为中心点,半径为h的高维球区域;k:表示包含在Sh范围内点的个数;xi:表示包含在Sh范围内的点;
S4.将该中心点沿着偏移的方向移动,移动距离就是该偏移向量的模;移动公式如下:xt +1=Mt+xt其中,Mt为t状态下求得的偏移均值;xt为t状态下的中心;
S5.迭代步骤S2~S4,直到偏移向量的大小满足设定的阈值要求,记住此时的中心点;
S6.迭代步骤S2-S5,直到所有的点都被归类;
S7.根据每个类,对每个点的访问频率,取访问频率最大的那个类,作为当前点集的所属类。
2.根据权利要求1所述的种基于均值漂移和XGBoost的异常用电判别方法,其特征是:所述用电量归一化方法指面向所有数据统一的归一化处理,表示如下:
其中:Pij表示第i个用户第j个日期的用电量。
3.根据权利要求1所述的种基于均值漂移和XGBoost的异常用电判别方法,其特征是:步骤3中所述均值漂移聚类结果进行标识与交集的方法,表示如下:
取用电量聚类结果中心曲线中除去数量最少的,以及居民用户占比在5%以下或95%以上的类别集合C1;以及用电波动性最大的聚类类别C2,取C1∩C2。
4.根据权利要求1所述的种基于均值漂移和XGBoost的异常用电判别方法,其特征是:步骤4中所述基于用电数据的决策树模型建立步骤如下:
步骤4.1:对异常用电名单中选取的80%样本进行行列转置,缺失补0;
步骤4.2:设置分类结果参数num_class为2,利用XGBoost算法建模;
步骤4.3:模型验证,参数调整。
5.根据权利要求1所述的一种基于均值漂移和XGBoost的异常用电判别方法,其特征是:步骤4中所述决策树模型,其目标函数表示如下:
其中i表示第i个样本,表示第i个样本的预测误差,l表示预测误差,k表示建立了k个回归树,fk表示回归树的复杂度的函数。
6.根据权利要求1所述的种基于均值漂移和XGBoost的异常用电判别方法,其特征是:所述步骤1中采集台区用户的日冻结用电量信息,日冻结电量的数据采用列式存储,一个用户一天的数据为一条记录;一个用户一年的数据为365条记录;
首先按照日期由远及近的方式进行排列,并通过行列转置将日期转换为列标,使得整理后的数据每行代表一个用户,用户日冻结用电量信息转换之后记录;
用公式Pij(i=1,2,…,k;j=1,2,…,n)表示用户i在第j天的用电量。
7.根据权利要求1所述的种基于均值漂移和XGBoost的异常用电判别方法,其特征是:所述步骤4中从已经确认的异常用电名单中选取80%作为样本进行训练学习,形成基于用电数据的决策树模型,是对样本数据同样作行列转置,并将缺失的值补0;给定相应的训练参数,包括树的最大深度,收缩步长;使用归一化指数函数softmax进行训练;分类结果为异常和正常二分类,设置分类结果参数num_class类别个数为2模型输出值是样本为第一类的概率,将概率值转化为0或1,即异常和正常两类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911252147.9A CN111160401B (zh) | 2019-12-09 | 2019-12-09 | 一种基于均值漂移和XGBoost的异常用电判别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911252147.9A CN111160401B (zh) | 2019-12-09 | 2019-12-09 | 一种基于均值漂移和XGBoost的异常用电判别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111160401A CN111160401A (zh) | 2020-05-15 |
CN111160401B true CN111160401B (zh) | 2024-07-02 |
Family
ID=70556578
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911252147.9A Active CN111160401B (zh) | 2019-12-09 | 2019-12-09 | 一种基于均值漂移和XGBoost的异常用电判别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111160401B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111754337B (zh) * | 2020-06-30 | 2024-02-23 | 上海观安信息技术股份有限公司 | 一种信用卡养卡套现团体识别的方法及系统 |
CN111913081B (zh) * | 2020-07-14 | 2023-05-02 | 上海电力大学 | 一种基于均值漂移聚类的开关柜绝缘状态异常检测方法 |
CN112036725B (zh) * | 2020-08-24 | 2024-04-30 | 国网河北省电力有限公司营销服务中心 | 一种电能表故障识别方法 |
CN112232886B (zh) * | 2020-10-30 | 2021-06-04 | 南方电网能源发展研究院有限责任公司 | 一种电价概率预测方法、系统、计算机设备和存储介质 |
CN112241767A (zh) * | 2020-11-03 | 2021-01-19 | 广州杰赛科技股份有限公司 | 管网水压监测节点布置方法、装置、设备及存储介质 |
CN112463740A (zh) * | 2020-11-18 | 2021-03-09 | 苏州浪潮智能科技有限公司 | 一种自动化日志安全审计的方法及系统 |
CN112906736A (zh) * | 2021-01-13 | 2021-06-04 | 国网山东省电力公司日照供电公司 | 一种基于住户用电量的社区安全精准管控方法和系统 |
CN113094448B (zh) * | 2021-04-06 | 2023-10-27 | 国网北京市电力公司 | 住宅空置状态的分析方法及分析装置、电子设备 |
CN113222245A (zh) * | 2021-05-11 | 2021-08-06 | 深圳供电局有限公司 | 居民用户月度电量电费异常核查方法及系统、存储介质 |
CN113538063A (zh) * | 2021-07-28 | 2021-10-22 | 广东电网有限责任公司 | 基于决策树的电费异常数据分析方法、装置、设备及介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105630885A (zh) * | 2015-12-18 | 2016-06-01 | 国网福建省电力有限公司泉州供电公司 | 一种用电异常检测方法及系统 |
CN108427669A (zh) * | 2018-02-27 | 2018-08-21 | 华青融天(北京)技术股份有限公司 | 异常行为监控方法和系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10489716B2 (en) * | 2016-07-08 | 2019-11-26 | Intellergy, Inc. | Method for performing automated analysis of sensor data time series |
CN108847022B (zh) * | 2018-06-08 | 2021-04-16 | 浙江银江智慧交通集团有限公司 | 一种微波交通数据采集设备的异常值检测方法 |
-
2019
- 2019-12-09 CN CN201911252147.9A patent/CN111160401B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105630885A (zh) * | 2015-12-18 | 2016-06-01 | 国网福建省电力有限公司泉州供电公司 | 一种用电异常检测方法及系统 |
CN108427669A (zh) * | 2018-02-27 | 2018-08-21 | 华青融天(北京)技术股份有限公司 | 异常行为监控方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111160401A (zh) | 2020-05-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111160401B (zh) | 一种基于均值漂移和XGBoost的异常用电判别方法 | |
CN106650767B (zh) | 基于聚类分析和实时校正的洪水预报方法 | |
Goh et al. | Incorporating the rough sets theory into travel demand analysis | |
CN106845717B (zh) | 一种基于多模型融合策略的能源效率评价方法 | |
CN103617429A (zh) | 一种主动学习分类方法和系统 | |
CN110610121B (zh) | 基于曲线聚类的小时级源荷功率异常数据辨识与修复方法 | |
CN111539845B (zh) | 一种基于用电模式隶属评分的企业环保管控响应研判方法 | |
CN110909963A (zh) | 一种信用评分卡模型训练方法及纳税人非正常风险评估方法 | |
CN105574642A (zh) | 一种基于智能电网大数据的电价执行稽查方法 | |
CN104851025A (zh) | 一种基于案例推理的电商网站商品的个性化推荐方法 | |
CN104850868A (zh) | 一种基于k-means和神经网络聚类的客户细分方法 | |
CN105469219A (zh) | 一种基于决策树的电力负荷数据处理方法 | |
CN110119948A (zh) | 基于时变权重动态组合的电力用户信用评价方法及系统 | |
CN111626614A (zh) | 一种基于电费回收的用户分类方法 | |
CN113256409A (zh) | 基于机器学习的银行零售客户流失预测方法 | |
CN112418476A (zh) | 一种超短期电力负荷预测方法 | |
CN116823496A (zh) | 基于人工智能的智能保险风险评估和定价系统 | |
CN111461921A (zh) | 一种基于机器学习的负荷建模典型用户数据库更新方法 | |
CN114611738A (zh) | 一种基于用户用电行为分析的负荷预测方法 | |
CN115794803A (zh) | 一种基于大数据ai技术的工程审计问题监测方法与系统 | |
CN111324790A (zh) | 基于支持向量机分类的负荷类型识别方法 | |
Seo et al. | Genetic feature selection for very short-term heavy rainfall prediction | |
CN117349786B (zh) | 基于数据均衡的证据融合变压器故障诊断方法 | |
CN113487241A (zh) | 企业环保信用等级的分类方法、装置、设备及存储介质 | |
CN114330440B (zh) | 基于模拟学习判别的分布式电源负荷异常识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |