CN111695639A - 一种基于机器学习的电力用户用电异常检测方法 - Google Patents
一种基于机器学习的电力用户用电异常检测方法 Download PDFInfo
- Publication number
- CN111695639A CN111695639A CN202010553003.3A CN202010553003A CN111695639A CN 111695639 A CN111695639 A CN 111695639A CN 202010553003 A CN202010553003 A CN 202010553003A CN 111695639 A CN111695639 A CN 111695639A
- Authority
- CN
- China
- Prior art keywords
- data
- formula
- data set
- period
- power
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 39
- 238000010801 machine learning Methods 0.000 title claims abstract description 16
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 18
- 238000012216 screening Methods 0.000 claims abstract description 13
- 238000005070 sampling Methods 0.000 claims abstract description 7
- 238000004140 cleaning Methods 0.000 claims abstract description 5
- 238000004364 calculation method Methods 0.000 claims description 36
- 230000005611 electricity Effects 0.000 claims description 36
- 230000002159 abnormal effect Effects 0.000 claims description 21
- 238000000034 method Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 9
- 230000000694 effects Effects 0.000 claims description 8
- 230000005856 abnormality Effects 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 238000007637 random forest analysis Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000010219 correlation analysis Methods 0.000 claims description 3
- 238000003066 decision tree Methods 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000000513 principal component analysis Methods 0.000 claims description 3
- 230000000630 rising effect Effects 0.000 claims description 3
- 238000003064 k means clustering Methods 0.000 claims description 2
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 2
- 230000008901 benefit Effects 0.000 description 3
- 230000002265 prevention Effects 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/06—Electricity, gas or water supply
Abstract
本发明公开了一种基于机器学习的电力用户用电异常检测方法,具体步骤如下:1)电力负荷数据清洗;2)电力负荷特征提取;3)电力负荷特征评估;4)基于孤立森林算法筛选可靠度高的数据;5)基于聚类的分层最近邻欠采样技术,获得类间平衡数据集;6)构建基于半监督学习的协同森林异常检测模型。本发明提出了基于聚类的分层最近邻采样算法,按比例和距离进行采样,有较强的泛化能力,提高了不平衡数据集分类的准确性;对数据集进行了预处理及特征提取和评估,对重复信息的时间序列进行剔除,消除了特征间的线性关系对结果的影响。
Description
技术领域
本发明涉及一种基于机器学习的电力用户用电异常检测方法,属于电力领域。
背景技术
电力行业作为国民经济的基础产业迅速发展。长期以来,窃电、欺诈等现象屡禁不止,并呈现智能化、多样化等特点,不仅危害了国家的经济利益,还扰乱了正常的供电秩序,危及了电网的安全运行。目前的防窃电手段主要包括由专业人员定期勘察以及在电表箱处安装可以检测和报警的仪器等,这造成了运营成本的增加,并且浪费了大量的人力、物力资源。机器学习迅速发展,利用电能表电力负荷数据将机器学习与智能防窃电相结合,有效地检测电力用户用电异常是现阶段的研究方向。目前针对电力用户异常的检测大多基于无监督学习,使得异常检测的准确率低且学习效果缺乏有效的验证。
发明内容
为解决现有技术中的不足,本发明提供一种基于机器学习的电力用户用电异常检测方法,引入监督学习,提高异常检测的准确率,对学习效果进行有效的验证。
本发明中主要采用的技术方案为:
一种基于机器学习的电力用户用电异常检测方法,具体包括如下步骤:
S1:对电力负荷数据进行清洗,包括数据异常值的处理与数据缺失值的补全,将清洗过的数据集记为X1;
S2:提取电力负荷数据的统计性特征指标、趋势特征指标和频域特征指标;
S3:筛选出分辨率高的特征,将具有该特征的数据组成样本数据集X2;
S4:基于孤立森林算法进行数据筛选,从样本数据集X2中随机抽取n个样本数据放进孤立树的根节点,样本数据的特征维度上产生一个分割点p,将该特征维度里小于p的样本数据放在当前节点的左侧子节点中,将大于等于p的数据放在当前节点的右侧子节点中,在每个子节点中重复分割过程,不断构造新的子节点,直到每个子节点中只有一个数据点,筛选出异常度得分低的数据的前50%作为正常样本,与异常样本组合成数据集X3;
S5:通过基于聚类的分层最近邻欠采样算法,对数据集X3选取最优的聚类簇数,按比例和距离进行采样,获得类间平衡数据集X4;
S6:基于类间平衡数据集X4构建基于半监督学习的协同森林异常检测模型。
优选地,所述步骤S1中对电力负荷数据进行清洗的具体步骤如下:
S1-1:当时间序列中出现20%以上电力负荷数据为负值,则将该时间序列删除,不作为样本;当时间序列中电力负荷数据少于20%为负值,看作缺失值;
S1-2:将时间序列中缺失量达到50%的电力负荷数据进行删除,对于缺失量低于50%的电力负荷数据,用当日的前一日电表示数和前一日的当日电表示数互相填补,从而将缺失值准确填充,填充的方式如式(1)所示:
其中,df是缺失时间段用电量的均值,datea和dateb分别表示缺失段后端电表示数和前端表示数,numday表示缺失段天数;
S1-3:将经过步骤S1-1和S1-2清洗过的数据集记为X1。
优选地,所述步骤S2的具体步骤如下:
S2-1:提取电力负荷数据的统计性特征指标,包括用电量均值、用电量极差、用电量方差、用电量标准差、前r个点标准差、后r个点的标准差、偏度和峰度,其中,
用电量均值mean的计算公式如式(2)所示:
其中,xi表示用户该周期第i天的用电量,n表示该周期的天数;
该周期中用户用电量极差range的计算公式如式(3)所示:
range=xmax-xmin (3);
其中,xmax、xmin表示该周期中用户用电量的最大值和最小值;
该周期中用户用电量方差var的计算公式如式(4)所示:
该周期中用户用电量标准差sd的计算公式如式(5)所示:
该周期中前r日用户用电量标准差fsd_r的计算公式如式(6)所示:
其中,r表示天数;
该周期中后n-r日用户用电量标准差lsdn-r的计算公式如式(7)所示:
该周期中用户用电量偏度skew的计算公式如式(8)所示:
其中,xi表示在该用户在该周期中某天的用电量,E是均值操作;
周期中用户用电量峰值kurt的计算公式如式(9)所示
S2-2:提取电力负荷数据的趋势特征指标,利用滑动窗口求均值的方式对时间序列进行处理,得到各个时间序列的平均时间序列,将原始时间序列与平均时间序列重合的部分中的各个值分别作差,若差值大于0,则原始时间序列在平均序列之上,反之,则原始时间序列在平均序列之下;
周期中用户用电量上升趋势tra的计算公式如式(10)所示:
其中,z为原始时间序列在平均时间序列下的段数,每段包含的点数为ai;
周期中用户用电量下降趋势trb的计算公式如式(11)所示:
其中,v为原始时间序列在平均时间序列上的段数,每段包含的点数为bi;
S2-3:提取电力负荷数据的频域特征指标,包括幅值极差、前r个点与后r个点快速傅里叶变换的系数序列差值的模,其中,
该周期中用户用电量幅值极差F_range的计算公式如式(12)所示:
F_range=Fmax-Fmin (12);
其中,Fmax和Fmin为时间序列进行快速傅里叶变换后的最大值和最小值;
该周期中用户用电量前r个点与后r个点快速傅里叶变换的系数序列差值模dfour_r的计算公式如式(13)所示:
其中,y1为前r个点快速傅里叶变换的系数序列,y2为后r个点快速傅里叶变换的系数序列。
优选地,所述步骤S3的具体步骤如下:
S3-1:对所有提取的特征进行归一化,将特征值映射到[0,1]之间,公式如式(14)所示:
其中,X*为特征归一化后的值,X为该特征归一化之前的值,Xmax和Xmin分别为该特征所有取值中的最大值和最小值;
S3-2:对获取的特征形成的相关度热力图进行相关性分析,对相互之间具有大相关性的特征使用主成分分析算法进行降维处理,通过特征方程得到最优的系数矩阵,将最初具有相关性的特征进行线性组合,获得数量减少的新特征,剔除部分无关特征;
S3-3:采用梯度提升算法,根据决策树在提升过程中,每个特征提供的价值给出其重要性得分,对步骤S3-2获取的数量减少的新特征的重要度进行排序,筛选出特征重要性得分高于4分的特征用于训练模型,记为样本数据集X2。
优选地,所述步骤S5的具体步骤如下:
S5-1:使用K均值聚类算法对数据集X3中多数类样本即正常样本进行聚类,计算各个簇畸变程度之和dist,公式如式(15)所示:
其中,k为聚类的簇数,p为第i个簇内样本点的个数,distij为簇内第j个样本点xij与该簇中心点的欧式距离,在k值增大的过程中,畸变程度减小幅度最大位置所对应的k值就是最优聚类的簇数K;
S5-2:通过公式(16)计算每个簇内应抽取的样本数量numi,计算公式(16)如下:
其中,M表示多数类样本即正常样本的数量,N表示少数类样本即异常样本的数量,得到类间平衡数据集X4。
优选地,所述步骤S6具体步骤如下:
S6-1:将数据集X4分为有标签数据集X5和无标签数据集X6两个子集;
S6-2:使用有标签数据集X5训练随机森林,得到初始异常检测模型;
S6-3:在无标签数据集X6中随机抽取n个样本作为活动数据集u;
S6-4:将活动数据集u中每个样本输入初始异常检测模型进行异常检测,活动数据集u中的每个样本遍历模型中的每一棵树,当初始异常检测模型中t-1棵树有80%对样本检测结果一致时,将活动数据集u中将符合条件的样本加入有标签数据集X5中,得到新的有标签数据集X7;
S6-5:利用新的有标签数据集X7训练随机森林,得到新的异常检测模型,将剩余的无标签数据集X6中随机抽取n个样本作为新的活动数据集u’,返回步骤S6-4,重复上述步骤,直到将所有的无标签数据集X6全部添加到有标签数据集X7或达到设置的迭代次数,得到最终的异常检测模型。
有益效果:本发明提供一种基于机器学习的电力用户用电异常检测方法,具有如下优点:
(1)提出了基于聚类的分层最近邻采样算法,按比例和距离进行采样,有较强的泛化能力,提高了不平衡数据集分类的准确性;
(2)对数据集进行了预处理及特征提取和评估,对重复信息的时间序列进行剔除,消除了特征间的线性关系对结果的影响。
附图说明
图1为本发明的检测流程图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
如图1所示,一种基于机器学习的电力用户用电异常检测方法,具体包括如下步骤:
S1:对电力负荷数据进行清洗,包括数据异常值的处理与数据缺失值的补全,将清洗过的数据集记为X1;
S2:提取电力负荷数据的统计性特征指标、趋势特征指标和频域特征指标;
S3:筛选出分辨率高的特征,将具有该特征的数据组成样本数据集X2;
S4:基于孤立森林算法进行数据筛选,从样本数据集X2中随机抽取n个样本数据放进孤立树的根节点,样本数据的特征维度上产生一个分割点p,将该特征维度里小于p的样本数据放在当前节点的左侧子节点中,将大于等于p的数据放在当前节点的右侧子节点中,在每个子节点中重复分割过程,不断构造新的子节点,直到每个子节点中只有一个数据点,筛选出异常度得分低的数据的前50%作为正常样本,与异常样本(数据采集时,由技术人员检查认定为异常数据的样本)组合成数据集X3;
S5:通过基于聚类的分层最近邻欠采样算法,对数据集X3选取最优的聚类簇数,按比例和距离进行采样,获得类间平衡数据集X4;
S6:基于类间平衡数据集X4构建基于半监督学习的协同森林异常检测模型。
优选地,所述步骤S1中对电力负荷数据进行清洗的具体步骤如下:
S1-1:当时间序列(本发明中,电力负荷数据是时间序列数据,是一个时间段的数据)中出现20%以上电力负荷数据为负值,则将该时间序列删除,不作为样本;当时间序列中电力负荷数据少于20%为负值,看作缺失值;
S1-2:将时间序列中缺失量达到50%的电力负荷数据进行删除,对于缺失量低于50%的电力负荷数据,用当日的前一日电表示数和前一日的当日电表示数互相填补,从而将缺失值准确填充,填充的方式如式(1)所示:
其中,df是缺失时间段用电量的均值,datea和dateb分别表示缺失段后端电表示数和前端表示数,numday表示缺失段天数;
S1-3:将经过步骤S1-1和S1-2清洗过的数据集记为X1。
优选地,所述步骤S2的具体步骤如下:
S2-1:提取电力负荷数据的统计性特征指标,包括用电量均值、用电量极差、用电量方差、用电量标准差、前r个点标准差、后r个点的标准差、偏度和峰度,其中,
用电量均值mean的计算公式如式(2)所示:
其中,xi表示用户该周期第i天的用电量,n表示该周期的天数;
该周期中用户用电量极差range的计算公式如式(3)所示:
range=xmax-xmin (3);
其中,xmax、xmin表示该周期中用户用电量的最大值和最小值;
该周期中用户用电量方差var的计算公式如式(4)所示:
该周期中用户用电量标准差sd的计算公式如式(5)所示:
该周期中前r日用户用电量标准差fsd_r的计算公式如式(6)所示:
其中,r表示天数;
该周期中后n-r日用户用电量标准差lsdn-r的计算公式如式(7)所示:
该周期中用户用电量偏度skew的计算公式如式(8)所示:
其中,xi表示在该用户在该周期中某天的用电量,E是均值操作;
周期中用户用电量峰值kurt的计算公式如式(9)所示
S2-2:提取电力负荷数据的趋势特征指标,利用滑动窗口求均值的方式对时间序列进行处理,得到各个时间序列的平均时间序列,将原始时间序列与平均时间序列重合的部分中的各个值分别作差,若差值大于0,则原始时间序列(本发明中,原始时间序列是指将X1按时间排序,反映数据集随时间不断变化的趋势)在平均序列之上,反之,则原始时间序列在平均序列之下;
周期中用户用电量上升趋势tra的计算公式如式(10)所示:
其中,z为原始时间序列在平均时间序列下的段数,每段包含的点数为ai;
周期中用户用电量下降趋势trb的计算公式如式(11)所示:
其中,v为原始时间序列在平均时间序列上的段数,每段包含的点数为bi,即各个重合部分的差值数据量;
S2-3:提取电力负荷数据的频域特征指标,包括幅值极差、前r个点与后r个点快速傅里叶变换的系数序列差值的模,其中,
该周期中用户用电量幅值极差F_range的计算公式如式(12)所示:
F_range=Fmax-Fmin (12);
其中,Fmax和Fmin为时间序列进行快速傅里叶变换后的最大值和最小值;
该周期中用户用电量前r个点与后r个点快速傅里叶变换的系数序列差值模dfour_r的计算公式如式(13)所示:
其中,y1为前r个点快速傅里叶变换的系数序列,y2为后r个点快速傅里叶变换的系数序列。
优选地,所述步骤S3的具体步骤如下:
S3-1:对所有提取的特征进行归一化,将特征值映射到[0,1]之间,公式如式(14)所示:
其中,X*为特征归一化后的值,X为该特征归一化之前的值,Xmax和Xmin分别为该特征所有取值中的最大值和最小值;
S3-2:对获取的特征形成的相关度热力图进行相关性分析,对相互之间具有大相关性的特征使用主成分分析算法进行降维处理(本发明中的大相关性指的是满足设置的相关性阈值,属于常规技术),通过特征方程得到最优的系数矩阵,将最初具有相关性的特征进行线性组合,获得数量减少的新特征,剔除部分无关特征;
S3-3:采用梯度提升算法,根据决策树在提升过程中,每个特征提供的价值给出其重要性得分,对步骤S3-2获取的数量减少的新特征的重要度进行排序,筛选出特征重要性得分高于4分的特征用于训练模型,记为样本数据集X2。
优选地,所述步骤S5的具体步骤如下:
S5-1:使用K均值聚类算法对数据集X3中多数类样本即正常样本进行聚类,计算各个簇畸变程度之和dist,公式如式(15)所示:
其中,k为聚类的簇数,p为第i个簇内样本点的个数,distij为簇内第j个样本点xij与该簇中心点的欧式距离,在k值增大的过程中,畸变程度减小幅度最大位置所对应的k值就是最优聚类的簇数K;
S5-2:通过公式(16)计算每个簇内应抽取的样本数量numi,计算公式(16)如下:
其中,M表示多数类样本即正常样本的数量,N表示少数类样本即异常样本的数量,得到类间平衡数据集X4。
优选地,所述步骤S6具体步骤如下:
S6-1:将数据集X4分为有标签数据集X5和无标签数据集X6两个子集;
S6-2:使用有标签数据集X5训练随机森林,得到初始异常检测模型;
S6-3:在无标签数据集X6中随机抽取n个样本作为活动数据集u;
S6-4:将活动数据集u中每个样本输入初始异常检测模型进行异常检测,活动数据集u中的每个样本遍历模型中的每一棵树,当初始异常检测模型中t-1棵树有80%对样本检测结果一致时,将活动数据集u中将符合条件的样本加入有标签数据集X5中,得到新的有标签数据集X7;
S6-5:利用新的有标签数据集X7训练随机森林,得到新的异常检测模型,将剩余的无标签数据集X6中随机抽取n个样本作为新的活动数据集u’,返回步骤S6-4,重复上述步骤,直到将所有的无标签数据集X6全部添加到有标签数据集X7或达到设置的迭代次数,得到最终的异常检测模型。
本发明提出了基于聚类的分层最近邻采样算法,按比例和距离进行采样,有较强的泛化能力,提高了不平衡数据集分类的准确性;对数据集进行了预处理及特征提取和评估,对重复信息的时间序列进行剔除,消除了特征间的线性关系对结果的影响。
以上所述仅是本发明的优选实施方式,应当指出,本领域普通技术人员可以理解,以上所述仅为发明的优选实例而已,并不用于限制发明,尽管参照前述实例对发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在发明的精神和原则之内,所做的修改、等同替换等均应包含在发明的保护范围之内。
Claims (6)
1.一种基于机器学习的电力用户用电异常检测方法,其特征在于,具体包括如下步骤:
S1:对电力负荷数据进行清洗,包括数据异常值的处理与数据缺失值的补全,将清洗过的数据集记为X1;
S2:提取电力负荷数据的统计性特征指标、趋势特征指标和频域特征指标;
S3:筛选出分辨率高的特征,将具有该特征的数据组成样本数据集X2;
S4:基于孤立森林算法进行数据筛选,从样本数据集X2中随机抽取n个样本数据放进孤立树的根节点,样本数据的特征维度上产生一个分割点p,将该特征维度里小于p的样本数据放在当前节点的左侧子节点中,将大于等于p的数据放在当前节点的右侧子节点中,在每个子节点中重复分割过程,不断构造新的子节点,直到每个子节点中只有一个数据点,筛选出异常度得分低的数据的前50%作为正常样本,与异常样本组合成数据集X3;
S5:通过基于聚类的分层最近邻欠采样算法,对数据集X3选取最优的聚类簇数,按比例和距离进行采样,获得类间平衡数据集X4;
S6:基于类间平衡数据集X4构建基于半监督学习的协同森林异常检测模型。
2.根据权利要求1所述的基于机器学习的电力用户用电异常检测方法,其特征在于,所述步骤S1中对电力负荷数据进行清洗的具体步骤如下:
S1-1:当时间序列中出现20%以上电力负荷数据为负值,则将该时间序列删除,不作为样本;当时间序列中电力负荷数据少于20%为负值,看作缺失值;
S1-2:将时间序列中缺失量达到50%的电力负荷数据进行删除,对于缺失量低于50%的电力负荷数据,用当日的前一日电表示数和前一日的当日电表示数互相填补,从而将缺失值准确填充,填充的方式如式(1)所示:
其中,df是缺失时间段用电量的均值,datea和dateb分别表示缺失段后端电表示数和前端表示数,numday表示缺失段天数;
S1-3:将经过步骤S1-1和S1-2清洗过的数据集记为X1。
3.根据权利要求1所述的基于机器学习的电力用户用电异常检测方法,其特征在于,所述步骤S2的具体步骤如下:
S2-1:提取电力负荷数据的统计性特征指标,包括用电量均值、用电量极差、用电量方差、用电量标准差、前r个点标准差、后r个点的标准差、偏度和峰度,其中,
用电量均值mean的计算公式如式(2)所示:
其中,xi表示用户该周期第i天的用电量,n表示该周期的天数;
该周期中用户用电量极差range的计算公式如式(3)所示:
range=xmax-xmin (3);
其中,xmax、xmin表示该周期中用户用电量的最大值和最小值;
该周期中用户用电量方差var的计算公式如式(4)所示:
该周期中用户用电量标准差sd的计算公式如式(5)所示:
该周期中前r日用户用电量标准差fsd_r的计算公式如式(6)所示:
其中,r表示天数;
该周期中后n-r日用户用电量标准差lsdn-r的计算公式如式(7)所示:
该周期中用户用电量偏度skew的计算公式如式(8)所示:
其中,xi表示在该用户在该周期中某天的用电量,E是均值操作;
周期中用户用电量峰值kurt的计算公式如式(9)所示:
S2-2:提取电力负荷数据的趋势特征指标,利用滑动窗口求均值的方式对时间序列进行处理,得到各个时间序列的平均时间序列,将原始时间序列与平均时间序列重合的部分中的各个值分别作差,若差值大于0,则原始时间序列在平均序列之上,反之,则原始时间序列在平均序列之下;
周期中用户用电量上升趋势tra的计算公式如式(10)所示:
其中,z为原始时间序列在平均时间序列下的段数,每段包含的点数为ai;
周期中用户用电量下降趋势trb的计算公式如式(11)所示:
其中,v为原始时间序列在平均时间序列上的段数,每段包含的点数为bi;
S2-3:提取电力负荷数据的频域特征指标,包括幅值极差、前r个点与后r个点快速傅里叶变换的系数序列差值的模,其中,
该周期中用户用电量幅值极差F_range的计算公式如式(12)所示:
F_range=Fmax-Fmin (12);
其中,Fmax和Fmin为时间序列进行快速傅里叶变换后的最大值和最小值;
该周期中用户用电量前r个点与后r个点快速傅里叶变换的系数序列差值模
dfour_r的计算公式如式(13)所示:
其中,y1为前r个点快速傅里叶变换的系数序列,y2为后r个点快速傅里叶变换的系数序列。
4.根据权利要求1所述的基于机器学习的电力用户用电异常检测方法,其特征在于,所述步骤S3的具体步骤如下:
S3-1:对所有提取的特征进行归一化,将特征值映射到[0,1]之间,公式如式(14)所示:
其中,X*为特征归一化后的值,X为该特征归一化之前的值,Xmax和Xmin分别为该特征所有取值中的最大值和最小值;
S3-2:对获取的特征形成的相关度热力图进行相关性分析,对相互之间具有大相关性的特征使用主成分分析算法进行降维处理,通过特征方程得到最优的系数矩阵,将最初具有相关性的特征进行线性组合,获得数量减少的新特征,剔除部分无关特征;
S3-3:采用梯度提升算法,根据决策树在提升过程中,每个特征提供的价值给出其重要性得分,对步骤S3-2获取的数量减少的新特征的重要度进行排序,筛选出特征重要性得分高于4分的特征用于训练模型,记为样本数据集X2。
5.根据权利要求1所述的基于机器学习的电力用户用电异常检测方法,其特征在于,所述步骤S5的具体步骤如下:
S5-1:使用K均值聚类算法对数据集X3中多数类样本即正常样本进行聚类,计算各个簇畸变程度之和dist,公式如式(15)所示:
其中,k为聚类的簇数,p为第i个簇内样本点的个数,distij为簇内第j个样本点xij与该簇中心点的欧式距离,在k值增大的过程中,畸变程度减小幅度最大位置所对应的k值就是最优聚类的簇数K;
S5-2:通过公式(16)计算每个簇内应抽取的样本数量numi,计算公式(16)如下:
其中,M表示多数类样本即正常样本的数量,N表示少数类样本即异常样本的数量,得到类间平衡数据集X4。
6.根据权利要求1所述的基于机器学习的电力用户用电异常检测方法,其特征在于,所述步骤S6具体步骤如下:
S6-1:将数据集X4分为有标签数据集X5和无标签数据集X6两个子集;
S6-2:使用有标签数据集X5训练随机森林,得到初始异常检测模型;
S6-3:在无标签数据集X6中随机抽取n个样本作为活动数据集u;
S6-4:将活动数据集u中每个样本输入初始异常检测模型进行异常检测,活动数据集u中的每个样本遍历模型中的每一棵树,当初始异常检测模型中t-1棵树有80%对样本检测结果一致时,将活动数据集u中将符合条件的样本加入有标签数据集X5中,得到新的有标签数据集X7;
S6-5:利用新的有标签数据集X7训练随机森林,得到新的异常检测模型,将剩余的无标签数据集X6中随机抽取n个样本作为新的活动数据集u’,返回步骤S6-4,重复上述步骤,直到将所有的无标签数据集X6全部添加到有标签数据集X7或达到设置的迭代次数,得到最终的异常检测模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010553003.3A CN111695639A (zh) | 2020-06-17 | 2020-06-17 | 一种基于机器学习的电力用户用电异常检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010553003.3A CN111695639A (zh) | 2020-06-17 | 2020-06-17 | 一种基于机器学习的电力用户用电异常检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111695639A true CN111695639A (zh) | 2020-09-22 |
Family
ID=72481499
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010553003.3A Pending CN111695639A (zh) | 2020-06-17 | 2020-06-17 | 一种基于机器学习的电力用户用电异常检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111695639A (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111505433A (zh) * | 2020-04-10 | 2020-08-07 | 国网浙江余姚市供电有限公司 | 一种低压台区户变关系纠错及相位识别方法 |
CN112465245A (zh) * | 2020-12-04 | 2021-03-09 | 复旦大学青岛研究院 | 一种针对不平衡数据集的产品质量预测方法 |
CN112816774A (zh) * | 2020-12-15 | 2021-05-18 | 国网宁夏电力有限公司营销服务中心(国网宁夏电力有限公司计量中心) | 一种基于大数据的窃电排查方法 |
CN112836926A (zh) * | 2020-12-27 | 2021-05-25 | 四川大学 | 基于电力大数据的企业经营状况评估方法 |
CN112926686A (zh) * | 2021-03-30 | 2021-06-08 | 武汉工程大学 | 基于brb和lstm模型的电力大数据用电异常检测方法及装置 |
CN113125903A (zh) * | 2021-04-20 | 2021-07-16 | 广东电网有限责任公司汕尾供电局 | 线损异常检测方法、装置、设备及计算机可读存储介质 |
CN113127716A (zh) * | 2021-04-29 | 2021-07-16 | 南京大学 | 一种基于显著性图的情感时间序列异常检测方法 |
CN113222624A (zh) * | 2021-05-31 | 2021-08-06 | 江苏新智合电力技术有限公司 | 一种反窃电智能分析方法及系统 |
CN113239619A (zh) * | 2021-05-08 | 2021-08-10 | 国网江西省电力有限公司萍乡供电分公司 | 一种基于机器学习混合模型的专变用户异常用电行为检测方法 |
CN113344134A (zh) * | 2021-06-30 | 2021-09-03 | 广东电网有限责任公司 | 一种低压配电监控终端数据采集异常检测方法及系统 |
CN113435664A (zh) * | 2021-07-15 | 2021-09-24 | 广东电网有限责任公司 | 一种电费异常数据分析方法、装置、终端设备及介质 |
CN113645232A (zh) * | 2021-08-10 | 2021-11-12 | 克拉玛依和中云网技术发展有限公司 | 一种面向工业互联网的智能化流量监测方法、系统及存储介质 |
CN113884807A (zh) * | 2021-09-24 | 2022-01-04 | 广西电网有限责任公司电力科学研究院 | 基于随机森林和多层架构聚类的配电网故障预测方法 |
CN114280352A (zh) * | 2021-12-27 | 2022-04-05 | 杭州电子科技大学 | 一种基于电流的大仪工时计算方法 |
CN114662622A (zh) * | 2022-05-24 | 2022-06-24 | 深圳市信润富联数字科技有限公司 | 一种基于小样本数据的phm端到端系统的实现方法 |
WO2022147684A1 (zh) * | 2021-01-06 | 2022-07-14 | 罗伯特·博世有限公司 | 用于识别机械装置或机械部件中的异常的方法及装置 |
CN114872290A (zh) * | 2022-05-20 | 2022-08-09 | 深圳市信润富联数字科技有限公司 | 一种注塑件的自适应生产异常监测方法 |
CN114881775A (zh) * | 2022-07-12 | 2022-08-09 | 浙江君同智能科技有限责任公司 | 一种基于半监督集成学习的欺诈检测方法及系统 |
CN116418882A (zh) * | 2023-06-09 | 2023-07-11 | 北京国旺盛源智能终端科技有限公司 | 基于hplc双模载波通信的存储器数据压缩方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108985632A (zh) * | 2018-07-16 | 2018-12-11 | 国网上海市电力公司 | 一种基于孤立森林算法的用电数据异常检测模型 |
CN109522936A (zh) * | 2018-10-23 | 2019-03-26 | 北京邮电大学 | 一种基于聚类的分层最近邻欠采样方法 |
CN110213222A (zh) * | 2019-03-08 | 2019-09-06 | 东华大学 | 基于机器学习的网络入侵检测方法 |
US20190392351A1 (en) * | 2018-06-22 | 2019-12-26 | Amadeus S.A.S. | System and method for evaluating and deploying unsupervised or semi-supervised machine learning models |
-
2020
- 2020-06-17 CN CN202010553003.3A patent/CN111695639A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190392351A1 (en) * | 2018-06-22 | 2019-12-26 | Amadeus S.A.S. | System and method for evaluating and deploying unsupervised or semi-supervised machine learning models |
CN108985632A (zh) * | 2018-07-16 | 2018-12-11 | 国网上海市电力公司 | 一种基于孤立森林算法的用电数据异常检测模型 |
CN109522936A (zh) * | 2018-10-23 | 2019-03-26 | 北京邮电大学 | 一种基于聚类的分层最近邻欠采样方法 |
CN110213222A (zh) * | 2019-03-08 | 2019-09-06 | 东华大学 | 基于机器学习的网络入侵检测方法 |
Non-Patent Citations (1)
Title |
---|
梁跃: "基于机器学习的电力用户用电异常检测技术研究" * |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111505433A (zh) * | 2020-04-10 | 2020-08-07 | 国网浙江余姚市供电有限公司 | 一种低压台区户变关系纠错及相位识别方法 |
CN112465245A (zh) * | 2020-12-04 | 2021-03-09 | 复旦大学青岛研究院 | 一种针对不平衡数据集的产品质量预测方法 |
CN112816774A (zh) * | 2020-12-15 | 2021-05-18 | 国网宁夏电力有限公司营销服务中心(国网宁夏电力有限公司计量中心) | 一种基于大数据的窃电排查方法 |
CN112836926B (zh) * | 2020-12-27 | 2022-03-11 | 四川大学 | 基于电力大数据的企业经营状况评估方法 |
CN112836926A (zh) * | 2020-12-27 | 2021-05-25 | 四川大学 | 基于电力大数据的企业经营状况评估方法 |
WO2022147684A1 (zh) * | 2021-01-06 | 2022-07-14 | 罗伯特·博世有限公司 | 用于识别机械装置或机械部件中的异常的方法及装置 |
CN112926686A (zh) * | 2021-03-30 | 2021-06-08 | 武汉工程大学 | 基于brb和lstm模型的电力大数据用电异常检测方法及装置 |
CN112926686B (zh) * | 2021-03-30 | 2023-11-17 | 武汉工程大学 | 基于brb和lstm模型的电力大数据用电异常检测方法及装置 |
CN113125903A (zh) * | 2021-04-20 | 2021-07-16 | 广东电网有限责任公司汕尾供电局 | 线损异常检测方法、装置、设备及计算机可读存储介质 |
CN113127716A (zh) * | 2021-04-29 | 2021-07-16 | 南京大学 | 一种基于显著性图的情感时间序列异常检测方法 |
CN113127716B (zh) * | 2021-04-29 | 2023-07-28 | 南京大学 | 一种基于显著性图的情感时间序列异常检测方法 |
CN113239619A (zh) * | 2021-05-08 | 2021-08-10 | 国网江西省电力有限公司萍乡供电分公司 | 一种基于机器学习混合模型的专变用户异常用电行为检测方法 |
CN113222624A (zh) * | 2021-05-31 | 2021-08-06 | 江苏新智合电力技术有限公司 | 一种反窃电智能分析方法及系统 |
CN113344134B (zh) * | 2021-06-30 | 2024-04-19 | 广东电网有限责任公司 | 一种低压配电监控终端数据采集异常检测方法及系统 |
CN113344134A (zh) * | 2021-06-30 | 2021-09-03 | 广东电网有限责任公司 | 一种低压配电监控终端数据采集异常检测方法及系统 |
CN113435664A (zh) * | 2021-07-15 | 2021-09-24 | 广东电网有限责任公司 | 一种电费异常数据分析方法、装置、终端设备及介质 |
CN113645232A (zh) * | 2021-08-10 | 2021-11-12 | 克拉玛依和中云网技术发展有限公司 | 一种面向工业互联网的智能化流量监测方法、系统及存储介质 |
CN113884807B (zh) * | 2021-09-24 | 2023-10-20 | 广西电网有限责任公司电力科学研究院 | 基于随机森林和多层架构聚类的配电网故障预测方法 |
CN113884807A (zh) * | 2021-09-24 | 2022-01-04 | 广西电网有限责任公司电力科学研究院 | 基于随机森林和多层架构聚类的配电网故障预测方法 |
CN114280352A (zh) * | 2021-12-27 | 2022-04-05 | 杭州电子科技大学 | 一种基于电流的大仪工时计算方法 |
CN114280352B (zh) * | 2021-12-27 | 2024-02-13 | 杭州电子科技大学 | 一种基于电流的大仪工时计算方法 |
CN114872290A (zh) * | 2022-05-20 | 2022-08-09 | 深圳市信润富联数字科技有限公司 | 一种注塑件的自适应生产异常监测方法 |
CN114872290B (zh) * | 2022-05-20 | 2024-02-06 | 深圳市信润富联数字科技有限公司 | 一种注塑件的自适应生产异常监测方法 |
CN114662622B (zh) * | 2022-05-24 | 2022-09-16 | 深圳市信润富联数字科技有限公司 | 一种基于小样本数据的phm端到端系统的实现方法 |
CN114662622A (zh) * | 2022-05-24 | 2022-06-24 | 深圳市信润富联数字科技有限公司 | 一种基于小样本数据的phm端到端系统的实现方法 |
CN114881775A (zh) * | 2022-07-12 | 2022-08-09 | 浙江君同智能科技有限责任公司 | 一种基于半监督集成学习的欺诈检测方法及系统 |
CN116418882B (zh) * | 2023-06-09 | 2023-08-04 | 北京国旺盛源智能终端科技有限公司 | 基于hplc双模载波通信的存储器数据压缩方法 |
CN116418882A (zh) * | 2023-06-09 | 2023-07-11 | 北京国旺盛源智能终端科技有限公司 | 基于hplc双模载波通信的存储器数据压缩方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111695639A (zh) | 一种基于机器学习的电力用户用电异常检测方法 | |
Zheng et al. | Wide and deep convolutional neural networks for electricity-theft detection to secure smart grids | |
Chen et al. | Improved faster R-CNN for fabric defect detection based on Gabor filter with Genetic Algorithm optimization | |
WO2019237492A1 (zh) | 一种基于半监督学习的异常用电用户检测方法 | |
Din et al. | Exploiting evolving micro-clusters for data stream classification with emerging class detection | |
WO2021114231A1 (zh) | 网络流量异常检测模型的训练方法及检测方法 | |
Sun et al. | A new convolutional neural network with random forest method for hydrogen sensor fault diagnosis | |
Wu et al. | Non-intrusive load monitoring using factorial hidden markov model based on adaptive density peak clustering | |
Azzalini et al. | A minimally supervised approach based on variational autoencoders for anomaly detection in autonomous robots | |
CN111340065B (zh) | 一种基于复杂用户行为分析的用户负荷窃电模型挖掘系统及方法 | |
CN113866455A (zh) | 基于深度学习的桥梁加速度监测数据异常检测方法、系统和装置 | |
CN116051479A (zh) | 融合跨域迁移和异常检测的纺织品缺陷识别方法 | |
CN113033596A (zh) | 用户用电行为类别和典型用电模式精细化辨识方法 | |
Shi et al. | An improved agglomerative hierarchical clustering anomaly detection method for scientific data | |
Mao et al. | Deep domain-adversarial anomaly detection with one-class transfer learning | |
Akarslan et al. | A novel approach based on a feature selection procedure for residential load identification | |
Gao et al. | Incremental prediction model of disk failures based on the density metric of edge samples | |
Cai et al. | Electricity theft detection based on hybrid random forest and weighted support vector data description | |
CN113987910A (zh) | 一种耦合神经网络与动态时间规划的居民负荷辨识方法及装置 | |
Kennedy et al. | A novel approach for unsupervised learning of highly-imbalanced data | |
CN117092581A (zh) | 基于段一致性判别自编码器电能表异常检测方法及装置 | |
CN113343123A (zh) | 一种生成对抗多关系图网络的训练方法和检测方法 | |
Gu et al. | A novel method for predicting fault labels of roller bearing by generalized laplacian matrix | |
Bhoomika et al. | Time Series Forecasting and Point Anomaly Detection of Sensor Signals Using LSTM Neural Network Architectures | |
Stržinar et al. | Soft sensor for non-invasive detection of process events based on Eigenresponse Fuzzy Clustering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200922 |