CN111160401A - 一种基于均值漂移和XGBoost的异常用电判别方法 - Google Patents

一种基于均值漂移和XGBoost的异常用电判别方法 Download PDF

Info

Publication number
CN111160401A
CN111160401A CN201911252147.9A CN201911252147A CN111160401A CN 111160401 A CN111160401 A CN 111160401A CN 201911252147 A CN201911252147 A CN 201911252147A CN 111160401 A CN111160401 A CN 111160401A
Authority
CN
China
Prior art keywords
abnormal
data
mean shift
electricity consumption
electricity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911252147.9A
Other languages
English (en)
Inventor
孙峰
王刚
程绪可
李家珏
温鑫
张冠锋
曾辉
白雪
张潇桐
赵清松
董鹤楠
李平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Original Assignee
State Grid Corp of China SGCC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC filed Critical State Grid Corp of China SGCC
Priority to CN201911252147.9A priority Critical patent/CN111160401A/zh
Publication of CN111160401A publication Critical patent/CN111160401A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Economics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Probability & Statistics with Applications (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于电力技术领域,尤其涉及一种基于均值漂移和XGBoost的异常用电判别方法,是一种数据分析与挖掘的方法。包括采集台区用户的日冻结用电量信息并转置为列标;基于用电量信息及用电量归一化后的用电波动性进行均值漂移聚类分析;对均值漂移聚类结果差别进行标识与交集,形成初始疑似异常用电列表;从已确认的异常用电名单中选80%为样本训练学习,形成决策树模型;再对剩余20%异常用电名单的数据验证调整;对疑似异常用电列表进行二次筛选,得到最终异常用电名单。本发明对异于常规的用电特征,利用决策树模型进行二次过滤,使异常用电的判断更加高效准确,达80%以上,解决了异常用电客户的检测问题,其应用市场较为广阔。

Description

一种基于均值漂移和XGBoost的异常用电判别方法
技术领域
本发明属于电力技术领域,尤其涉及一种基于均值漂移和XGBoost的异常用电判别方法,具体是一种数据分析与挖掘的方法。
背景技术
当前,对于用电异常行为的手段除了常规用电检查手段外,也借助了一些数据统计手段,例如:按用户用电性质、电量同比、环比核查,对台区、专变用户和电量异常用户进行分析,排查可能存在异常用电的用户。利用基于标准的K-means聚类分析方法来实现用户用电分析是一种常见方法,但是,k-means需要事先确定分几类合适,并且,不能单一地从用电量和用电特征就判定是否异常用电。并且,上述手段需要大量的人工核查识别工作,效率较低且工作量大,在面向动辄上千万条记录的用电量数据时,常用方法无法运行。
普通居民每日的用电量比较有限,商业用电用电量一般会比较大;居民用电工作日与周末用电量可能会有波动,部分24小时营业的商业用电则相对平稳。如果在档案中登记为居民用电的,但是用电量与用电波动性方面却较为符合商业用电的特征,则认为该用户异常用电的可能性较大。
聚类个数不能简单地认定为居民和非居民2种,所以采用均值漂移算法来对用电量与用电波动性进行聚类,再结合两者结果输出结果,但这样的结果往往误判率较高,或者输出结果集数量较多,无法进一步筛选。
发明内容
针对上述现有技术中存在的问题,本发明提供了一种基于均值漂移和XGBoost的异常用电判别方法,其目的是为了实现在海量的用电数据中,快速、高效、准确地找出在居民用电中的异常情况,辅助用电稽查,规范用电。
为实现上述发明目的,本发明是采用如下技术方案来实现的:
一种基于均值漂移和XGBoost的异常用电判别方法,包括以下步骤:
步骤1:采集台区用户的日冻结用电量信息,通过行列转置将日期转置为列标,定义公式Pij(i=1,2,…,k;j=1,2,…,n)表示用户i在第j天的用电量;
步骤2:基于用电量信息及用电量归一化后的用电波动性进行均值漂移聚类分析;
步骤3:对步骤2得到的均值漂移聚类结果差别进行标识,并对聚类分析结果取交集,形成初始疑似异常用电列表;
步骤4:从已经确认的异常用电名单中选取80%作为样本进行训练学习,形成基于用电数据的决策树模型;用决策树模型对剩余20%的异常用电名单的数据进行验证,并不断优化调整决策树模型;
步骤5:利用步骤4中得到的决策树模型对步骤3中的疑似异常用电列表进行二次筛选,得到最终的异常用电名单。
所述用电量归一化方法指面向所有数据统一的归一化处理,表示如下:
Figure BDA0002309327860000031
其中:Pij表示第i个用户第j个日期的用电量。
所述均值漂移聚类分析的方法步骤如下:
步骤2.1:选取随机中心点C;
步骤2.2:计算其他数据点与中心点C的欧氏距离小于半径H的集合M;
步骤2.3:计算从中心点开始到集合M中每个元素的向量,将这些向量相加,得到偏移向量;
步骤2.4:将该中心点沿着偏移的方向移动,移动距离就是该偏移向量的模;中心点偏移方法,表示如下:
xt+1=Mt+xt
其中,Mt为t状态下求得的偏移均值;xt为t状态下的中心;
步骤2.5:迭代步骤2.2~2.4,得到偏移向量的大小满足偏移量阈值的中心点;
步骤2.6:迭代步骤2.1~2.5,对各点进行归类。
所述偏移向量计算方程,表示如下:
Figure BDA0002309327860000032
其中,Sh:表示以x为中心点,半径为h的高维球区域;k:表示包含在Sh范围内点的个数;xi:表示包含在Sh范围内的点。
进一步的,步骤3中所述均值漂移聚类结果进行标识与交集的方法,表示如下:
取用电量聚类结果中心曲线中除去数量最少的,以及居民用户占比在5%以下或95%以上的类别集合C1;以及用电波动性最大的聚类类别C2,取C1∩C2
进一步的,步骤4中所述基于用电数据的决策树模型建立步骤如下:
步骤4.1:对异常用电名单中选取的80%样本进行行列转置,缺失补0;
步骤4.2:设置num_class为2,利用XGBoost算法建模;
步骤4.3:模型验证,参数调整。
进一步的,步骤4中所述决策树模型,其目标函数表示如下:
Figure BDA0002309327860000041
其中i表示第i个样本,
Figure BDA0002309327860000042
表示第i个样本的预测误差,l表示预测误差,k表示建立了k个回归树,fk表示回归树的复杂度的函数。
所述步骤1中采集台区用户的日冻结用电量信息,日冻结电量的数据以列的列式存储,一个用户一天的数据为一条记录;一个用户一年的数据为365条记录;
首先按照日期由远及近的方式进行排列,并通过行列转置将日期转换为列标,使得整理后的数据每行代表一个用户,上表中用户日冻结用电量信息转换之后记录;
用公式Pij(i=1,2,…,k;j=1,2,…,n)表示用户i在第j天的用电量。
所述步骤2中:基于用电量的均值飘移聚类分析,是根据用户的日用电量信息将用户按照均值标称的思路进行分类,在一年的用电量数据中:
S1.在用电量数据,长度为365的数列集合中随机选取一个作为初始中心点C;
S2.计算得出其他数据点与当前中心点欧氏距离小于半径H的所有点;
S3.计算从中心点开始到集合M中每个元素的向量,将这些向量相加,得到偏移向量;
偏移均值的公式如下:
Figure BDA0002309327860000051
其中,Sh:表示以x为中心点,半径为h的高维球区域;k:表示包含在Sh范围内点的个数;xi:表示包含在Sh范围内的点;
S4.将该中心点沿着偏移的方向移动,移动距离就是该偏移向量的模;移动公式如下:
xt+1=Mt+xt
其中,Mt为t状态下求得的偏移均值;xt为t状态下的中心;
S5.迭代步骤S2~S4,直到偏移向量的大小满足设定的阈值要求,记住此时的中心点;
S6.迭代步骤S2-S5,直到所有的点都被归类;
S7.根据每个类,对每个点的访问频率,取访问频率最大的那个类,作为当前点集的所属类。
所述步骤4中从已经确认的异常用电名单中选取80%作为样本进行训练学习,形成基于用电数据的决策树模型,是对样本数据同样作行列转置,并将缺失的值补0;给定相应的训练参数,包括树的最大深度,收缩步长;使用归一化指数函数softmax进行训练;分类结果为异常和正常二分类,设置分类结果参数num_class类别个数为2模型输出值是样本为第一类的概率,将概率值转化为0或1,即异常和正常两类。
本发明的优点及有益效果是:
随着用户用电分析的逐步深入,发现一些用电客户的用电特征与当时档案登记的用电类型不一致,例如,登记为居民用电,但是用电量及用电特征与商业用电很相像,猜测其在实际用电过程中出现了异常用电的现象。发明将用户分为具有特征的几类,并利用XGBoost决策树算法来提升结界输出的准确性。
本发明利用机器学习的方法,进一步过滤结果,以用电量和用电波动相结合的方式,找出异于常规的用电特征,在此基础上利用决策树模型进行二次过滤,异常用电的判断更加高效准确。本发明方法相关参数经过实际验证,满足实际需求。异常用电的查找准确率在80%以上,解决了异常用电客户的检测问题,其应用市场较为广阔。
附图说明
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及具体实施方式对本发明作进一步的详细描述,以下实施例用于说明本发明,但应当理解本发明的保护范围并不受具体实施方式的限制。
图1为本发明异常用电判别方法流程图;
图2为本发明针对样例数据对用电量进行聚类的结果;
图3为本发明针对样例数据对用电波动性进行聚类的结果。
具体实施方式
本发明是一种基于均值漂移和XGBoost的异常用电判别方法,包括以下步骤:
步骤1:采集台区用户的日冻结用电量信息,通过行列转置将日期转置为列标,定义公式Pij(i=1,2,…,k;j=1,2,…,n)表示用户i在第j天的用电量;
上式中:Pij表示用户i在第j天的用电量,i表示用户,j表示第j天。
步骤2:基于用电量信息及用电量归一化后的用电波动性进行均值漂移聚类分析;
所述用电量归一化方法,指面向所有数据统一的归一化处理,表示如下:
Figure BDA0002309327860000071
其中:Pij表示第i个用户第j个日期的用电量。
所述均值漂移聚类分析的方法具体步骤如下:
步骤2.1:选取随机中心点C;
步骤2.2:计算其他数据点与中心点C的欧氏距离小于半径H的集合M;
步骤2.3:计算从中心点开始到集合M中每个元素的向量,将这些向量相加,得到偏移向量;
所述偏移向量计算方程,表示如下:
Figure BDA0002309327860000081
其中,Sh:表示以x为中心点,半径为h的高维球区域;k:表示包含在Sh范围内点的个数;xi:表示包含在Sh范围内的点。
步骤2.4:将该中心点沿着偏移的方向移动,移动距离就是该偏移向量的模;中心点偏移方法,表示如下:
xt+1=Mt+xt
其中,Mt为t状态下求得的偏移均值;xt为t状态下的中心;
步骤2.5:迭代步骤2.2~2.4,得到偏移向量的大小满足偏移量阈值的中心点;
步骤2.6:迭代步骤2.1~2.5,对各点进行归类;
步骤3:对步骤2得到的均值漂移聚类结果差别进行标识与交集,形成初始疑似异常用电列表;
所述均值漂移聚类结果进行标识与交集的方法,表示如下:
取用电量聚类结果中心曲线中除去数量最少的,以及居民用户占比在5%以下或95%以上的类别集合C1;以及用电波动性最大的聚类类别C2,取C1∩C2
步骤4:从已经确认的异常用电名单中选取80%作为样本进行训练学习,形成基于用电数据的决策树模型。用决策树模型对剩余20%的异常用电名单的数据进行验证,并不断优经调整决策树模型。
基于用电数据的决策树模型建立步骤如下:
步骤4.1:对异常用电名单中选取的80%样本进行行列转置,缺失补0;
步骤4.2:设置num_class为2,利用XGBoost算法建模;
步骤4.3:模型验证,参数调整。
所述决策树模型,其目标函数表示如下:
Figure BDA0002309327860000091
其中i表示第i个样本,
Figure BDA0002309327860000092
表示第i个样本的预测误差,l表示预测误差,k表示建立了k个回归树,fk表示回归树的复杂度的函数。
步骤5:利用步骤4的决策树模型对步骤3的疑似异常用电列表进行二次筛选,得到最终的异常用电名单。
本发明具体步骤为针对用电量数据,首先进行数据清洗与相关处理;利用均值漂移方法对用电量数据进行聚类;将数据归一化后同样进行聚类;选取用电量大且用电波动幅度大的用户作为疑似异常用电用户;利用已知的异常用电样本数据,基于XGBoost分类进行训练形成模型,对前期聚类形成的结果进行差别,输出最终结果,如图1所示,图1为本发明异常用电判别方法流程图。
实施例1:
本发明具体实施步骤如下:
步骤1.采集台区用户的日冻结用电量信息,日冻结电量的数据以列的列式存储,一个用户一天的数据为一条记录。一个用户一年的数据为365条记录,如表1所示。
首先按照日期由远及近的方式进行排列,并通过行列转置将日期转换为列标,使得整理后的数据每行代表一个用户,上表中用户日冻结用电量信息转换之后记录,如表2所示。
用公式Pij(i=1,2,…,k;j=1,2,…,n)表示用户i在第j天的用电量。
上式中:Pij表示用户i在第j天的用电量,i表示用户,j表示第j天。
步骤2.基于用电量的均值飘移聚类分析。根据用户的日用电量信息将用户按照均值标称的思路进行分类,同样以一年数据为例。
S1.在用电量数据,长度为365的数列集合中随机选取一个作为初始中心点C;
S2.计算得出其他数据点与当前中心点欧氏距离小于半径H的所有点;
S3.计算从中心点开始到集合M中每个元素的向量,将这些向量相加,得到偏移向量;
偏移均值的公式如下:
Figure BDA0002309327860000101
其中,Sh:表示以x为中心点,半径为h的高维球区域;k:表示包含在Sh范围内点的个数;xi:表示包含在Sh范围内的点。
S4.将该中心点沿着偏移的方向移动,移动距离就是该偏移向量的模;移动公式如下:
xt+1=Mt+xt
其中,Mt为t状态下求得的偏移均值;xt为t状态下的中心。
S5.迭代步骤S2~S4,直到偏移向量的大小满足设定的阈值要求,记住此时的中心点。
S6.迭代步骤S2-S5,直到所有的点都被归类。
S7.根据每个类,对每个点的访问频率,取访问频率最大的那个类,作为当前点集的所属类。
步骤3.根据步骤2得到的均值漂移聚类得到的结果,对每个类别的用户用电量特性进行分析,确定每类用户的用电特点。
步骤4.基于用电波动性的用户聚类分析。
根据步骤1的用户用电量数据,对同一个用户一年的用电量数据进行0-1归一化处理,用电量归一化方法公式如下:
Figure BDA0002309327860000111
其中:Pij表示第i个用户第j个日期的用电量。
此步骤消除用电量大小对用电波动性特征的影响,归一化后利用步骤2的方法再进行聚类。
步骤5.根据步骤2对用电量归一化之后的数据进行基于均值漂移聚类得到的结果,对每个类别的用户用电波动性特性进行分析,确定每类用户的用电波动性特点。
步骤6.综合上述分布情况的统计,获取不同用电量类别的的特性及不同用电波动性类别的特性,一般为用电量大并且用电波动幅度较大的居民用户为疑似取异常用电的用户,具体方法为取用电量聚类结果中心曲线中除去数量最少的,以及居民用户占比在5%以下或95%以上的类别集合C1;以及用电波动性最大的聚类类别C2,取C1∩C2
步骤7.依据已确定为异常用电名单的数据,取其中80%作为样本数据,形成基于用电数据的决策树模型。对样本数据同样作行列转置,并将缺失的值补0。给定相应的训练参数,如树的最大深度,收缩步长。使用归一化指数函数softmax目标函数进行训练。因为分类结果为异常和正常二分类,设置分类结果参数num_class类别个数为2模型输出值是样本为第一类的概率,因此将概率值转化为0或1,即异常和正常两类。
步骤8.利用步骤7生成的决策树模型,对异常用电名单的数据中剩余的20%进行分类,并与结果进行验证,计算模型分类的准确率,以调整相关参数,进一步优化模型,最终将模型固化。
步骤9.利用步骤8固化的模型对步骤6输出的异常用电用户进行分类过滤,输出为最终的异常用电用户。
结论:
本发明所述的基于均值漂移和XGBoost的异常用电判别方法,通过本发明的实施,能够快速准确地找出异常用电的用户,实现了自动化的稳定科学的判别方法。
表1:用户的日冻结用电量信息
NO TQBH YHBH YHMC DATE POWER
1 06900XXXX XXX 张XX 2017/01/01 4.9
2 06900XXXX XXX 张XX 2017/01/02 5.1
365 06900XXXX XXX 张XX 2017/12/31 4.8
表2:将用户日冻结用电量信息转换之后记录
TQBH YHBH 0101 0102 1231
06900XXXX XXX 4.9 5.1 4.8

Claims (10)

1.一种基于均值漂移和XGBoost的异常用电判别方法,其特征是:包括以下步骤:
步骤1:采集台区用户的日冻结用电量信息,通过行列转置将日期转置为列标,定义公式Pij(i=1,2,…,k;j=1,2,…,n)表示用户i在第j天的用电量;
步骤2:基于用电量信息及用电量归一化后的用电波动性进行均值漂移聚类分析;
步骤3:对步骤2得到的均值漂移聚类结果差别进行标识,并对聚类分析结果取交集,形成初始疑似异常用电列表;
步骤4:从已经确认的异常用电名单中选取80%作为样本进行训练学习,形成基于用电数据的决策树模型;用决策树模型对剩余20%的异常用电名单的数据进行验证,并不断优化调整决策树模型;
步骤5:利用步骤4中得到的决策树模型对步骤3中的疑似异常用电列表进行二次筛选,得到最终的异常用电名单。
2.根据权利要求1所述的种基于均值漂移和XGBoost的异常用电判别方法,其特征是:所述用电量归一化方法指面向所有数据统一的归一化处理,表示如下:
Figure FDA0002309327850000011
其中:Pij表示第i个用户第j个日期的用电量。
3.根据权利要求1所述的种基于均值漂移和XGBoost的异常用电判别方法,其特征是:所述均值漂移聚类分析的方法步骤如下:
步骤2.1:选取随机中心点C;
步骤2.2:计算其他数据点与中心点C的欧氏距离小于半径H的集合M;
步骤2.3:计算从中心点开始到集合M中每个元素的向量,将这些向量相加,得到偏移向量;
步骤2.4:将该中心点沿着偏移的方向移动,移动距离就是该偏移向量的模;中心点偏移方法,表示如下:
xt+1=Mt+xt
其中,Mt为t状态下求得的偏移均值;xt为t状态下的中心;
步骤2.5:迭代步骤2.2~2.4,得到偏移向量的大小满足偏移量阈值的中心点;
步骤2.6:迭代步骤2.1~2.5,对各点进行归类。
4.根据权利要求1所述的种基于均值漂移和XGBoost的异常用电判别方法,其特征是:所述偏移向量计算方程,表示如下:
Figure FDA0002309327850000021
其中,Sh:表示以x为中心点,半径为h的高维球区域;k:表示包含在Sh范围内点的个数;xi:表示包含在Sh范围内的点。
5.根据权利要求1所述的种基于均值漂移和XGBoost的异常用电判别方法,其特征是:步骤3中所述均值漂移聚类结果进行标识与交集的方法,表示如下:
取用电量聚类结果中心曲线中除去数量最少的,以及居民用户占比在5%以下或95%以上的类别集合C1;以及用电波动性最大的聚类类别C2,取C1∩C2
6.根据权利要求1所述的种基于均值漂移和XGBoost的异常用电判别方法,其特征是:步骤4中所述基于用电数据的决策树模型建立步骤如下:
步骤4.1:对异常用电名单中选取的80%样本进行行列转置,缺失补0;
步骤4.2:设置num_class为2,利用XGBoost算法建模;
步骤4.3:模型验证,参数调整。
7.根据权利要求1所述的一种基于均值漂移和XGBoost的异常用电判别方法,其特征是:步骤4中所述决策树模型,其目标函数表示如下:
Figure FDA0002309327850000031
其中i表示第i个样本,
Figure FDA0002309327850000032
表示第i个样本的预测误差,l表示预测误差,k表示建立了k个回归树,fk表示回归树的复杂度的函数。
8.根据权利要求1所述的种基于均值漂移和XGBoost的异常用电判别方法,其特征是:所述步骤1中采集台区用户的日冻结用电量信息,日冻结电量的数据以列的列式存储,一个用户一天的数据为一条记录;一个用户一年的数据为365条记录;
首先按照日期由远及近的方式进行排列,并通过行列转置将日期转换为列标,使得整理后的数据每行代表一个用户,上表中用户日冻结用电量信息转换之后记录;
用公式Pij(i=1,2,…,k;j=1,2,…,n)表示用户i在第j天的用电量。
9.根据权利要求1所述的种基于均值漂移和XGBoost的异常用电判别方法,其特征是:所述步骤2中:基于用电量的均值飘移聚类分析,是根据用户的日用电量信息将用户按照均值标称的思路进行分类,在一年的用电量数据中:
S1.在用电量数据,长度为365的数列集合中随机选取一个作为初始中心点C;
S2.计算得出其他数据点与当前中心点欧氏距离小于半径H的所有点;
S3.计算从中心点开始到集合M中每个元素的向量,将这些向量相加,得到偏移向量;
偏移均值的公式如下:
Figure FDA0002309327850000041
其中,Sh:表示以x为中心点,半径为h的高维球区域;k:表示包含在Sh范围内点的个数;xi:表示包含在Sh范围内的点;
S4.将该中心点沿着偏移的方向移动,移动距离就是该偏移向量的模;移动公式如下:
xt+1=Mt+xt
其中,Mt为t状态下求得的偏移均值;xt为t状态下的中心;
S5.迭代步骤S2~S4,直到偏移向量的大小满足设定的阈值要求,记住此时的中心点;
S6.迭代步骤S2-S5,直到所有的点都被归类;
S7.根据每个类,对每个点的访问频率,取访问频率最大的那个类,作为当前点集的所属类。
10.根据权利要求1所述的种基于均值漂移和XGBoost的异常用电判别方法,其特征是:所述步骤4中从已经确认的异常用电名单中选取80%作为样本进行训练学习,形成基于用电数据的决策树模型,是对样本数据同样作行列转置,并将缺失的值补0;给定相应的训练参数,包括树的最大深度,收缩步长;使用归一化指数函数softmax进行训练;分类结果为异常和正常二分类,设置分类结果参数num_class类别个数为2模型输出值是样本为第一类的概率,将概率值转化为0或1,即异常和正常两类。
CN201911252147.9A 2019-12-09 2019-12-09 一种基于均值漂移和XGBoost的异常用电判别方法 Pending CN111160401A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911252147.9A CN111160401A (zh) 2019-12-09 2019-12-09 一种基于均值漂移和XGBoost的异常用电判别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911252147.9A CN111160401A (zh) 2019-12-09 2019-12-09 一种基于均值漂移和XGBoost的异常用电判别方法

Publications (1)

Publication Number Publication Date
CN111160401A true CN111160401A (zh) 2020-05-15

Family

ID=70556578

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911252147.9A Pending CN111160401A (zh) 2019-12-09 2019-12-09 一种基于均值漂移和XGBoost的异常用电判别方法

Country Status (1)

Country Link
CN (1) CN111160401A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111754337A (zh) * 2020-06-30 2020-10-09 上海观安信息技术股份有限公司 一种信用卡养卡套现团体识别的方法及系统
CN111913081A (zh) * 2020-07-14 2020-11-10 上海电力大学 一种基于均值漂移聚类的开关柜绝缘状态异常检测方法
CN112036725A (zh) * 2020-08-24 2020-12-04 国网河北省电力有限公司营销服务中心 一种电能表故障识别方法
CN112232886A (zh) * 2020-10-30 2021-01-15 南方电网能源发展研究院有限责任公司 一种电价概率预测方法、系统、计算机设备和存储介质
CN112241767A (zh) * 2020-11-03 2021-01-19 广州杰赛科技股份有限公司 管网水压监测节点布置方法、装置、设备及存储介质
CN112463740A (zh) * 2020-11-18 2021-03-09 苏州浪潮智能科技有限公司 一种自动化日志安全审计的方法及系统
CN112906736A (zh) * 2021-01-13 2021-06-04 国网山东省电力公司日照供电公司 一种基于住户用电量的社区安全精准管控方法和系统
CN113094448A (zh) * 2021-04-06 2021-07-09 国网北京市电力公司 住宅空置状态的分析方法及分析装置、电子设备
CN113222245A (zh) * 2021-05-11 2021-08-06 深圳供电局有限公司 居民用户月度电量电费异常核查方法及系统、存储介质
CN113538063A (zh) * 2021-07-28 2021-10-22 广东电网有限责任公司 基于决策树的电费异常数据分析方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105630885A (zh) * 2015-12-18 2016-06-01 国网福建省电力有限公司泉州供电公司 一种用电异常检测方法及系统
US20180012132A1 (en) * 2016-07-08 2018-01-11 Curtis MEADOW Method for performing automated analysis of sensor data time series
CN108427669A (zh) * 2018-02-27 2018-08-21 华青融天(北京)技术股份有限公司 异常行为监控方法和系统
CN108847022A (zh) * 2018-06-08 2018-11-20 浙江银江智慧交通集团有限公司 一种微波交通数据采集设备的异常值检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105630885A (zh) * 2015-12-18 2016-06-01 国网福建省电力有限公司泉州供电公司 一种用电异常检测方法及系统
US20180012132A1 (en) * 2016-07-08 2018-01-11 Curtis MEADOW Method for performing automated analysis of sensor data time series
CN108427669A (zh) * 2018-02-27 2018-08-21 华青融天(北京)技术股份有限公司 异常行为监控方法和系统
CN108847022A (zh) * 2018-06-08 2018-11-20 浙江银江智慧交通集团有限公司 一种微波交通数据采集设备的异常值检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王旭冕;黄廷林;刘勇;邸尚志;: "供水管网水质分区聚类分析中的指标三步筛选法", 西安建筑科技大学学报(自然科学版), no. 05 *
王欣;胡平;景波;: "基于度量阈值裁决的WSN恶意节点筛选算法", 计算机工程与设计, no. 05 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111754337A (zh) * 2020-06-30 2020-10-09 上海观安信息技术股份有限公司 一种信用卡养卡套现团体识别的方法及系统
CN111754337B (zh) * 2020-06-30 2024-02-23 上海观安信息技术股份有限公司 一种信用卡养卡套现团体识别的方法及系统
CN111913081A (zh) * 2020-07-14 2020-11-10 上海电力大学 一种基于均值漂移聚类的开关柜绝缘状态异常检测方法
CN112036725A (zh) * 2020-08-24 2020-12-04 国网河北省电力有限公司营销服务中心 一种电能表故障识别方法
CN112036725B (zh) * 2020-08-24 2024-04-30 国网河北省电力有限公司营销服务中心 一种电能表故障识别方法
CN112232886B (zh) * 2020-10-30 2021-06-04 南方电网能源发展研究院有限责任公司 一种电价概率预测方法、系统、计算机设备和存储介质
CN112232886A (zh) * 2020-10-30 2021-01-15 南方电网能源发展研究院有限责任公司 一种电价概率预测方法、系统、计算机设备和存储介质
CN112241767A (zh) * 2020-11-03 2021-01-19 广州杰赛科技股份有限公司 管网水压监测节点布置方法、装置、设备及存储介质
CN112463740A (zh) * 2020-11-18 2021-03-09 苏州浪潮智能科技有限公司 一种自动化日志安全审计的方法及系统
CN112906736A (zh) * 2021-01-13 2021-06-04 国网山东省电力公司日照供电公司 一种基于住户用电量的社区安全精准管控方法和系统
CN113094448A (zh) * 2021-04-06 2021-07-09 国网北京市电力公司 住宅空置状态的分析方法及分析装置、电子设备
CN113094448B (zh) * 2021-04-06 2023-10-27 国网北京市电力公司 住宅空置状态的分析方法及分析装置、电子设备
CN113222245A (zh) * 2021-05-11 2021-08-06 深圳供电局有限公司 居民用户月度电量电费异常核查方法及系统、存储介质
CN113538063A (zh) * 2021-07-28 2021-10-22 广东电网有限责任公司 基于决策树的电费异常数据分析方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN111160401A (zh) 一种基于均值漂移和XGBoost的异常用电判别方法
WO2022110557A1 (zh) 一种台区户变关系异常诊断方法及装置
CN110263846B (zh) 基于故障数据深度挖掘及学习的故障诊断方法
CN110634080B (zh) 异常用电检测方法、装置、设备及计算机可读存储介质
CN109376772B (zh) 一种基于神经网络模型的电力负荷组合预测方法
CN106529707A (zh) 一种负荷用电模式识别方法
CN108304567B (zh) 高压变压器工况模式识别与数据分类方法及系统
CN101615248A (zh) 年龄估计方法、设备和人脸识别系统
CN111008726B (zh) 一种电力负荷预测中类图片转换方法
CN110738232A (zh) 一种基于数据挖掘技术的电网电压越限成因诊断方法
CN110795690A (zh) 风电场运行异常数据检测方法
CN108596227B (zh) 一种用户用电行为主导影响因素挖掘方法
CN105469219A (zh) 一种基于决策树的电力负荷数据处理方法
CN104281779A (zh) 一种异常数据判定与处理方法及装置
CN104850868A (zh) 一种基于k-means和神经网络聚类的客户细分方法
CN111626614A (zh) 一种基于电费回收的用户分类方法
CN111680764A (zh) 一种行业复工复产程度监控方法
CN103780588A (zh) 数字家庭网络中用户异常行为检测方法
CN111461921A (zh) 一种基于机器学习的负荷建模典型用户数据库更新方法
CN114611738A (zh) 一种基于用户用电行为分析的负荷预测方法
CN110544047A (zh) 一种不良数据辨识方法
CN116823496A (zh) 基于人工智能的智能保险风险评估和定价系统
CN111324790A (zh) 基于支持向量机分类的负荷类型识别方法
CN113127464A (zh) 农业大数据环境特征处理方法、装置及电子设备
CN112434886A (zh) 一种预测客户抵押贷款违约概率的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination