CN106504111A - 异常电力用户挖掘中类分布不平衡问题的解决方法 - Google Patents

异常电力用户挖掘中类分布不平衡问题的解决方法 Download PDF

Info

Publication number
CN106504111A
CN106504111A CN201610833861.7A CN201610833861A CN106504111A CN 106504111 A CN106504111 A CN 106504111A CN 201610833861 A CN201610833861 A CN 201610833861A CN 106504111 A CN106504111 A CN 106504111A
Authority
CN
China
Prior art keywords
sample
algorithms
class
rose
abnormal power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610833861.7A
Other languages
English (en)
Inventor
庄池杰
张斌
胡军
段炼
罗怿
曾嵘
赵云
肖勇
孙宇军
王岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China South Power Grid International Co ltd
Tsinghua University
Original Assignee
China South Power Grid International Co ltd
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China South Power Grid International Co ltd, Tsinghua University filed Critical China South Power Grid International Co ltd
Priority to CN201610833861.7A priority Critical patent/CN106504111A/zh
Publication of CN106504111A publication Critical patent/CN106504111A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Theoretical Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Tourism & Hospitality (AREA)
  • Complex Calculations (AREA)

Abstract

一种异常电力用户挖掘中类分布不平衡问题的解决方法,包括SMOTE算法、ROSE算法,其有益效果是:从训练集入手,通过重采样改变训练数据的分布,即构造一个样本数相对平衡的合成数据集,并在新数据集上进行建模,从而提高分类器的性能,解决类分布不平衡问题。

Description

异常电力用户挖掘中类分布不平衡问题的解决方法
技术领域
本发明涉及电力系统配用电数据挖掘领域,特别是一种异常电力用户挖掘过程中,类分布不平衡问题的解决方法。
背景技术
对于电力公司,检测异常用电模式的主要目的在于降低非技术性损失(non-technical losses,NTL)。所谓NTL是指由配电网侧电力用户的窃电、欺诈等一系列欺骗性用电行为所导致的电能损失。NTL损失集中在中低压网络遍布整个电力分布系统,而目前的处理方法多是基于现场检查,这不仅需要大量的人力资源而且增加了运营成本。
现有的分类算法都是基于类分布大致平衡这一假设,即假定用于训练的数据集中各类所含样本数大致相当。然而在电力用户构成的数据集中,异常用户所占的比例非常小,因此,异常用户挖掘属于不平衡数据集的二元分类问题。传统的分类器倾向于对多数类(正常用户)有较高的识别率,而对于少数类(异常用户)的识别率却很低。因此,对异常电力用户挖掘的问题需要采用特殊的处理技术。
发明内容
本发明的目的是为了解决上述问题,设计了一种异常电力用户挖掘中类分布不平衡问题的解决方法。具体设计方案为:
一种异常电力用户挖掘中类分布不平衡问题的解决方法,包括SMOTE算法、ROSE算法,
所述SMOTE算法为合成少数类过采样算法,所述ROSE算法为随机过采集样本算法,所述SMOTE算法通过在位置相近的少数样本点之间插入新样本来实现对样本数量的平衡,其样本采集公式为:
pi=x+rand(0,1)×(yi-x),i=1,2,…,N,
其中pi为获得少数类样本,
x为原少数类样本,
y为随机采集样本,
N为过采集样本倍率,
所述ROSE算法为随机过采集样本算法,所述ROSE算法中,首先从n的训练集Tn训练集中抽取一个元
组(xi,yi),然后在其近邻生成一个新元组该近邻区域的形状由概率分布确定,范围由协方差矩阵Hj确定。
所述SMOTE算法中,所述随机采集样本y通过搜索原少数类样本x的k个同类最近邻样本,并在原少数类样本x的k个最近邻样本中随机选择N个样本获得,记为y1,y2,···,yN,在x与yi(i=1,2,···,N)之间进行随机线性插值。
所述SMOTE算法中,所述rand(0,1)是区间(0,1)内的随机数。
所述ROSE算法中,元组(xi,yi),i=1,2,···,n。其中元组的类标号yi∈{y0,y1}。
所述ROSE算法中,xi是Rd上随机向量x的某个实现,服从概率密度函数f(x)。
所述ROSE算法中,令类别yj(j=0,1)对应的元组数为nj,则:
以概率πj选择
以概率1/nj选择元组(xi,yi)∈Tn,其中
中随机抽样得到其中是以xi为分布中心,以Hj为协方差矩阵的概率分布。
重复所述ROSE算法m次,则可以得到一个规模为m的新的合成训练集
所述合成训练集的不平衡程度由概率πj确定,若πj=1/2,则中两类的样本数大致相等。
通过本发明的上述技术方案得到的异常电力用户挖掘中类分布不平衡问题的解决方法,其有益效果是:
从训练集入手,通过重采样改变训练数据的分布,即构造一个样本数相对平衡的合成数据集,并在新数据集上进行建模,从而提高分类器的性能,解决类分布不平衡问题。
具体实施方式
一种异常电力用户挖掘中类分布不平衡问题的解决方法,包括SMOTE算法、ROSE算法,
所述SMOTE算法为合成少数类过采样算法,所述ROSE算法为随机过采集样本算法,所述SMOTE算法通过在位置相近的少数样本点之间插入新样本来实现对样本数量的平衡,其样本采集公式为:
pi=x+rand(0,1)×(yi-x),i=1,2,…,N,
其中pi为获得少数类样本,
x为原少数类样本,
y为随机采集样本,
N为过采集样本倍率,
所述ROSE算法为随机过采集样本算法,所述ROSE算法中,首先从n的训练集Tn训练集中抽取一个元组(xi,yi),然后在其近邻生成一个新元组该近邻区域的形状由概率分布确定,范围由协方差矩阵Hj确定。
所述SMOTE算法中,所述随机采集样本y通过搜索原少数类样本x的k个同类最近邻样本,并在原少数类样本x的k个最近邻样本中随机选择N个样本获得,记为y1,y2,···,yN,在x与yi(i=1,2,···,N)之间进行随机线性插值。
所述SMOTE算法中,所述rand(0,1)是区间(0,1)内的随机数。
所述ROSE算法中,元组(xi,yi),i=1,2,···,n。其中元组的类标号yi∈{y0,y1}。
所述ROSE算法中,xi是Rd上随机向量x的某个实现,服从概率密度函数f(x)。
所述ROSE算法中,令类别yj(j=0,1)对应的元组数为nj,则:
以概率πj选择
以概率1/nj选择元组(xi,yi)∈Tn,其中
中随机抽样得到其中是以xi为分布中心,以Hj为协方差矩阵的概率分布。
重复所述ROSE算法m次,则可以得到一个规模为m的新的合成训练集
所述合成训练集的不平衡程度由概率πj确定,若πj=1/2,则中两类的样本数大致相等。
实施例1
本实施例所用的数据集为6200个电力用户18个月的用电负荷数据,采样频率为30分钟。由于本实施例重点研究用户长期用电模式的异常性,因此研究的时间单位取一个月,即对原始数据集进行处理,计算每个用户的月平均负荷以反映其用电模式,即30天。故本例中一共有111600条负荷曲线。6200个电力用户包含6123个正常用户和77个异常用户,异常用户比例为1.24%。模型的输入为原始数据集,输出为用户异常度及疑似概率排序。
异常用户比例过小,在本实施例中采用SMOTE算法进行数据集平衡,异常数据集为2310个异常负荷曲线Xn(n=1,2,…,2310)。
步骤1.设定过采样倍率N和搜索最近样本数k;
步骤2.找出每个异常用户相邻最近的k个样本
步骤3.寻找距离X1最近的k个样本,并随机选取其中一个Y,通过以下公式构造少类样本P1
p1=x+rand(0,1)×(y-x)
步骤4.将步骤3循环N次,计算出少类样本X1的N个过采样样本Pi(i=1,2,…,N)。
重复步骤3、4,得出所有2310个异常负荷曲线的过采样样本。
实施例2
本实施例所用的数据集为6200个电力用户18个月的用电负荷数据,采样频率为30分钟。由于本实施例重点研究用户长期用电模式的异常性,因此研究的时间单位取一个月,即对原始数据集进行处理,计算每个用户的月平均负荷以反映其用电模式,即30天。故本例中一共有111600条负荷曲线。6200个电力用户包含6123个正常用户和77个异常用户,异常用户比例为1.24%。模型的输入为原始数据集,输出为用户异常度及疑似概率排序。
异常用户比例过小,在本实施例中采用ROSE算法进行数据集平衡,异常数据集为2310个异常负荷曲线Xn(n=1,2,…,2310)。
步骤1.将111600条负荷曲线Xn,n=111600合成训练集T,数据规模为111600。T的每行对应一个元组(Xi,Yi),i=1,2,…,111600。其中Xi为负荷曲线,Yi∈{0,1},若Xi为正常用户,则Yi=0,否则,Yi=1。故本例中共110214个Y=0,n0=110214;1386个Y=1,n1=1386
步骤2.以概率π选择Y*=Yi
步骤3.若Y*=0,以概率1/n0选择元组(Xi,Yi)∈Tn,其中Yi=0,从中随机抽样得到X*,其中是以Xi为分布中心,以Hj为协方差矩阵的概率分布;
步骤4.若Y*=1,以概率1/n1选择元组(Xi,Yi)∈Tn,其中Yi=1,从中随机抽样得到X*,其中是以Xi为分布中心,以Hj为协方差矩阵的概率分布;
重复以上步骤m次,则可以得到一个规模为m的新的合成训练集其不平衡程度由概率π确定,如果π=1/2,则中两类的样本数大致相等。
上述技术方案仅体现了本发明技术方案的优选技术方案,本技术领域的技术人员对其中某些部分所可能做出的一些变动均体现了本发明的原理,属于本发明的保护范围之内。

Claims (8)

1.一种异常电力用户挖掘中类分布不平衡问题的解决方法,包括SMOTE算法、ROSE算法,其特征在于,
所述SMOTE算法为合成少数类过采样算法,所述ROSE算法为随机过采集样本算法,所述SMOTE算法通过在位置相近的少数样本点之间插入新样本来实现对样本数量的平衡,其样本采集公式为:
pi=x+rand(0,1)×(yi-x),i=1,2,…,N,
其中pi为获得少数类样本,
x为原少数类样本,
y为随机采集样本,
N为过采集样本倍率,
所述ROSE算法为随机过采集样本算法,所述ROSE算法中,首先从n的训练集Tn训练集中抽取一个元组(xi,yi),然后在其近邻生成一个新元组(x*,y*)。该近邻区域的形状由概率分布确定,范围由协方差矩阵Hj确定。
2.根据权利要求1中所述的异常电力用户挖掘中类分布不平衡问题的解决方法,其特征在于,所述SMOTE算法中,所述随机采集样本y通过搜索原少数类样本x的k个同类最近邻样本,并在原少数类样本x的k个最近邻样本中随机选择N个样本获得,记为y1,y2,…,yN,在x与yi(i=1,2,…,N)之间进行随机线性插值。
3.根据权利要求1中所述的异常电力用户挖掘中类分布不平衡问题的解决方法,其特征在于,所述SMOTE算法中,所述rand(0,1)是区间(0,1)内的随机数。
4.根据权利要求1中所述的异常电力用户挖掘中类分布不平衡问题的解决方法,其特征在于,所述ROSE算法,元组(xi,yi),i=1,2,…,n。其中元组的类标号yi∈{y0,y1}。
5.根据权利要求1中所述的异常电力用户挖掘中类分布不平衡问题的解决方法,其特征在于,所述ROSE算法,xi是Rd上随机向量x的某个实现,服从概率密度函数f(x)。
6.根据权利要求1中所述的异常电力用户挖掘中类分布不平衡问题的解决方法,其特征在于,所述ROSE算法,令类别yj(j=0,1)对应的元组数为nj,则:
以概率πj选择y*=yj
以概率1/nj选择元组(xi,yi)∈Tn,其中yi=y*
中随机抽样得到x*,其中是以xi为分布中心,以Hj为协方差矩阵的概率分布。
7.根据权利要求1中所述的异常电力用户挖掘中类分布不平衡问题的解决方法,其特征在于,重复ROSE算法m次,则可以得到一个规模为m的新的合成训练集
8.根据权利要求7中所述的异常电力用户挖掘中类分布不平衡问题的解决方法,其特征在于,所述合成训练集的不平衡程度由概率πj确定,若πj=1/2,则中两类的样本数大致相等。
CN201610833861.7A 2016-09-19 2016-09-19 异常电力用户挖掘中类分布不平衡问题的解决方法 Pending CN106504111A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610833861.7A CN106504111A (zh) 2016-09-19 2016-09-19 异常电力用户挖掘中类分布不平衡问题的解决方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610833861.7A CN106504111A (zh) 2016-09-19 2016-09-19 异常电力用户挖掘中类分布不平衡问题的解决方法

Publications (1)

Publication Number Publication Date
CN106504111A true CN106504111A (zh) 2017-03-15

Family

ID=58290865

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610833861.7A Pending CN106504111A (zh) 2016-09-19 2016-09-19 异常电力用户挖掘中类分布不平衡问题的解决方法

Country Status (1)

Country Link
CN (1) CN106504111A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509982A (zh) * 2018-03-12 2018-09-07 昆明理工大学 一种处理二分类不平衡医学数据的方法
CN108573040A (zh) * 2018-04-08 2018-09-25 西北工业大学 一种基于目标分布的样本集优化算法
CN108932470A (zh) * 2017-05-22 2018-12-04 丰田自动车株式会社 图像处理系统、图像处理方法、信息处理装置和记录介质
CN109726821A (zh) * 2018-11-27 2019-05-07 东软集团股份有限公司 数据均衡方法、装置、计算机可读存储介质及电子设备
CN113469536A (zh) * 2021-07-06 2021-10-01 云南电网有限责任公司 一种供电服务客户投诉风险等级识别方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108932470A (zh) * 2017-05-22 2018-12-04 丰田自动车株式会社 图像处理系统、图像处理方法、信息处理装置和记录介质
CN108509982A (zh) * 2018-03-12 2018-09-07 昆明理工大学 一种处理二分类不平衡医学数据的方法
CN108573040A (zh) * 2018-04-08 2018-09-25 西北工业大学 一种基于目标分布的样本集优化算法
CN109726821A (zh) * 2018-11-27 2019-05-07 东软集团股份有限公司 数据均衡方法、装置、计算机可读存储介质及电子设备
CN113469536A (zh) * 2021-07-06 2021-10-01 云南电网有限责任公司 一种供电服务客户投诉风险等级识别方法

Similar Documents

Publication Publication Date Title
CN106504111A (zh) 异常电力用户挖掘中类分布不平衡问题的解决方法
Brzeziński et al. Accuracy updated ensemble for data streams with concept drift
Purshouse et al. On the evolutionary optimization of many conflicting objectives
Kucukvar et al. Linking national food production to global supply chain impacts for the energy-climate challenge: the cases of the EU-27 and Turkey
Mazza et al. Optimal multi-objective distribution system reconfiguration with multi criteria decision making-based solution ranking and enhanced genetic operators
Li et al. Potts model based on a Markov process computation solves the community structure problem effectively
CN109002933A (zh) 基于ReliefF和t-SNE的配电线路线变关系模型优化方法
CN103325071A (zh) 一种基于密度聚类的用户典型负荷曲线的构建方法
CN109376944A (zh) 智能电表预测模型的构建方法及装置
Ganjisaffar et al. Distributed tuning of machine learning algorithms using MapReduce clusters
Rao et al. A new approach for detection of common communities in a social network using graph mining techniques
von Lücken et al. An overview on evolutionary algorithms for many‐objective optimization problems
Behrens et al. Precise measurement of B0− B0 mixing parameters at the ϒ (4S)
CN103440539A (zh) 一种用户用电数据处理方法
CN103778567A (zh) 一种用户异常用电甄别的方法及系统
Singh et al. Exclusion within the excluded: The economic divide within scheduled castes and scheduled tribes
Pessanha et al. Combining statistical clustering techniques and exploratory data analysis to compute typical daily load profiles-Application to the expansion and operational planning in Brazil
Pompili Structure and performance of less developed regions in the EC
CN107515892A (zh) 一种基于大数据挖掘的电网低电压成因诊断方法
CN102622447B (zh) 一种基于Hadoop的频繁闭项集挖掘方法
Ząbkowski et al. Grade analysis for energy usage patterns segmentation based on smart meter data
CN105117859A (zh) 基于iowa算子的电力发展水平通用评价方法
CN105069517A (zh) 基于混合算法的配电网多目标故障恢复方法
Karakostas Bridging the gap between multi-objective optimization and spatial planning: a new post-processing methodology capturing the optimum allocation of land uses against established transportation infrastructure
Zheng et al. Enhancing diversity for NSGA-II in evolutionary multi-objective optimization

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170315

RJ01 Rejection of invention patent application after publication