CN106504111A - 异常电力用户挖掘中类分布不平衡问题的解决方法 - Google Patents
异常电力用户挖掘中类分布不平衡问题的解决方法 Download PDFInfo
- Publication number
- CN106504111A CN106504111A CN201610833861.7A CN201610833861A CN106504111A CN 106504111 A CN106504111 A CN 106504111A CN 201610833861 A CN201610833861 A CN 201610833861A CN 106504111 A CN106504111 A CN 106504111A
- Authority
- CN
- China
- Prior art keywords
- sample
- algorithms
- class
- rose
- abnormal power
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 32
- 238000005065 mining Methods 0.000 title claims abstract description 16
- 238000000034 method Methods 0.000 title claims description 6
- 241000220317 Rosa Species 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 18
- 238000005070 sampling Methods 0.000 claims description 9
- 150000001875 compounds Chemical class 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 8
- HUTDUHSNJYTCAR-UHFFFAOYSA-N ancymidol Chemical compound C1=CC(OC)=CC=C1C(O)(C=1C=NC=NC=1)C1CC1 HUTDUHSNJYTCAR-UHFFFAOYSA-N 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 238000003780 insertion Methods 0.000 claims description 3
- 230000037431 insertion Effects 0.000 claims description 3
- 238000003786 synthesis reaction Methods 0.000 claims description 3
- 239000004744 fabric Substances 0.000 claims 2
- 238000012952 Resampling Methods 0.000 abstract description 2
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 230000005856 abnormality Effects 0.000 description 4
- 239000012141 concentrate Substances 0.000 description 3
- 230000005611 electricity Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Finance (AREA)
- Marketing (AREA)
- Theoretical Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Tourism & Hospitality (AREA)
- Complex Calculations (AREA)
Abstract
一种异常电力用户挖掘中类分布不平衡问题的解决方法,包括SMOTE算法、ROSE算法,其有益效果是:从训练集入手,通过重采样改变训练数据的分布,即构造一个样本数相对平衡的合成数据集,并在新数据集上进行建模,从而提高分类器的性能,解决类分布不平衡问题。
Description
技术领域
本发明涉及电力系统配用电数据挖掘领域,特别是一种异常电力用户挖掘过程中,类分布不平衡问题的解决方法。
背景技术
对于电力公司,检测异常用电模式的主要目的在于降低非技术性损失(non-technical losses,NTL)。所谓NTL是指由配电网侧电力用户的窃电、欺诈等一系列欺骗性用电行为所导致的电能损失。NTL损失集中在中低压网络遍布整个电力分布系统,而目前的处理方法多是基于现场检查,这不仅需要大量的人力资源而且增加了运营成本。
现有的分类算法都是基于类分布大致平衡这一假设,即假定用于训练的数据集中各类所含样本数大致相当。然而在电力用户构成的数据集中,异常用户所占的比例非常小,因此,异常用户挖掘属于不平衡数据集的二元分类问题。传统的分类器倾向于对多数类(正常用户)有较高的识别率,而对于少数类(异常用户)的识别率却很低。因此,对异常电力用户挖掘的问题需要采用特殊的处理技术。
发明内容
本发明的目的是为了解决上述问题,设计了一种异常电力用户挖掘中类分布不平衡问题的解决方法。具体设计方案为:
一种异常电力用户挖掘中类分布不平衡问题的解决方法,包括SMOTE算法、ROSE算法,
所述SMOTE算法为合成少数类过采样算法,所述ROSE算法为随机过采集样本算法,所述SMOTE算法通过在位置相近的少数样本点之间插入新样本来实现对样本数量的平衡,其样本采集公式为:
pi=x+rand(0,1)×(yi-x),i=1,2,…,N,
其中pi为获得少数类样本,
x为原少数类样本,
y为随机采集样本,
N为过采集样本倍率,
所述ROSE算法为随机过采集样本算法,所述ROSE算法中,首先从n的训练集Tn训练集中抽取一个元
组(xi,yi),然后在其近邻生成一个新元组该近邻区域的形状由概率分布确定,范围由协方差矩阵Hj确定。
所述SMOTE算法中,所述随机采集样本y通过搜索原少数类样本x的k个同类最近邻样本,并在原少数类样本x的k个最近邻样本中随机选择N个样本获得,记为y1,y2,···,yN,在x与yi(i=1,2,···,N)之间进行随机线性插值。
所述SMOTE算法中,所述rand(0,1)是区间(0,1)内的随机数。
所述ROSE算法中,元组(xi,yi),i=1,2,···,n。其中元组的类标号yi∈{y0,y1}。
所述ROSE算法中,xi是Rd上随机向量x的某个实现,服从概率密度函数f(x)。
所述ROSE算法中,令类别yj(j=0,1)对应的元组数为nj,则:
以概率πj选择
以概率1/nj选择元组(xi,yi)∈Tn,其中
从中随机抽样得到其中是以xi为分布中心,以Hj为协方差矩阵的概率分布。
重复所述ROSE算法m次,则可以得到一个规模为m的新的合成训练集
所述合成训练集的不平衡程度由概率πj确定,若πj=1/2,则中两类的样本数大致相等。
通过本发明的上述技术方案得到的异常电力用户挖掘中类分布不平衡问题的解决方法,其有益效果是:
从训练集入手,通过重采样改变训练数据的分布,即构造一个样本数相对平衡的合成数据集,并在新数据集上进行建模,从而提高分类器的性能,解决类分布不平衡问题。
具体实施方式
一种异常电力用户挖掘中类分布不平衡问题的解决方法,包括SMOTE算法、ROSE算法,
所述SMOTE算法为合成少数类过采样算法,所述ROSE算法为随机过采集样本算法,所述SMOTE算法通过在位置相近的少数样本点之间插入新样本来实现对样本数量的平衡,其样本采集公式为:
pi=x+rand(0,1)×(yi-x),i=1,2,…,N,
其中pi为获得少数类样本,
x为原少数类样本,
y为随机采集样本,
N为过采集样本倍率,
所述ROSE算法为随机过采集样本算法,所述ROSE算法中,首先从n的训练集Tn训练集中抽取一个元组(xi,yi),然后在其近邻生成一个新元组该近邻区域的形状由概率分布确定,范围由协方差矩阵Hj确定。
所述SMOTE算法中,所述随机采集样本y通过搜索原少数类样本x的k个同类最近邻样本,并在原少数类样本x的k个最近邻样本中随机选择N个样本获得,记为y1,y2,···,yN,在x与yi(i=1,2,···,N)之间进行随机线性插值。
所述SMOTE算法中,所述rand(0,1)是区间(0,1)内的随机数。
所述ROSE算法中,元组(xi,yi),i=1,2,···,n。其中元组的类标号yi∈{y0,y1}。
所述ROSE算法中,xi是Rd上随机向量x的某个实现,服从概率密度函数f(x)。
所述ROSE算法中,令类别yj(j=0,1)对应的元组数为nj,则:
以概率πj选择
以概率1/nj选择元组(xi,yi)∈Tn,其中
从中随机抽样得到其中是以xi为分布中心,以Hj为协方差矩阵的概率分布。
重复所述ROSE算法m次,则可以得到一个规模为m的新的合成训练集
所述合成训练集的不平衡程度由概率πj确定,若πj=1/2,则中两类的样本数大致相等。
实施例1
本实施例所用的数据集为6200个电力用户18个月的用电负荷数据,采样频率为30分钟。由于本实施例重点研究用户长期用电模式的异常性,因此研究的时间单位取一个月,即对原始数据集进行处理,计算每个用户的月平均负荷以反映其用电模式,即30天。故本例中一共有111600条负荷曲线。6200个电力用户包含6123个正常用户和77个异常用户,异常用户比例为1.24%。模型的输入为原始数据集,输出为用户异常度及疑似概率排序。
异常用户比例过小,在本实施例中采用SMOTE算法进行数据集平衡,异常数据集为2310个异常负荷曲线Xn(n=1,2,…,2310)。
步骤1.设定过采样倍率N和搜索最近样本数k;
步骤2.找出每个异常用户相邻最近的k个样本
步骤3.寻找距离X1最近的k个样本,并随机选取其中一个Y,通过以下公式构造少类样本P1
p1=x+rand(0,1)×(y-x)
步骤4.将步骤3循环N次,计算出少类样本X1的N个过采样样本Pi(i=1,2,…,N)。
重复步骤3、4,得出所有2310个异常负荷曲线的过采样样本。
实施例2
本实施例所用的数据集为6200个电力用户18个月的用电负荷数据,采样频率为30分钟。由于本实施例重点研究用户长期用电模式的异常性,因此研究的时间单位取一个月,即对原始数据集进行处理,计算每个用户的月平均负荷以反映其用电模式,即30天。故本例中一共有111600条负荷曲线。6200个电力用户包含6123个正常用户和77个异常用户,异常用户比例为1.24%。模型的输入为原始数据集,输出为用户异常度及疑似概率排序。
异常用户比例过小,在本实施例中采用ROSE算法进行数据集平衡,异常数据集为2310个异常负荷曲线Xn(n=1,2,…,2310)。
步骤1.将111600条负荷曲线Xn,n=111600合成训练集T,数据规模为111600。T的每行对应一个元组(Xi,Yi),i=1,2,…,111600。其中Xi为负荷曲线,Yi∈{0,1},若Xi为正常用户,则Yi=0,否则,Yi=1。故本例中共110214个Y=0,n0=110214;1386个Y=1,n1=1386
步骤2.以概率π选择Y*=Yi;
步骤3.若Y*=0,以概率1/n0选择元组(Xi,Yi)∈Tn,其中Yi=0,从中随机抽样得到X*,其中是以Xi为分布中心,以Hj为协方差矩阵的概率分布;
步骤4.若Y*=1,以概率1/n1选择元组(Xi,Yi)∈Tn,其中Yi=1,从中随机抽样得到X*,其中是以Xi为分布中心,以Hj为协方差矩阵的概率分布;
重复以上步骤m次,则可以得到一个规模为m的新的合成训练集其不平衡程度由概率π确定,如果π=1/2,则中两类的样本数大致相等。
上述技术方案仅体现了本发明技术方案的优选技术方案,本技术领域的技术人员对其中某些部分所可能做出的一些变动均体现了本发明的原理,属于本发明的保护范围之内。
Claims (8)
1.一种异常电力用户挖掘中类分布不平衡问题的解决方法,包括SMOTE算法、ROSE算法,其特征在于,
所述SMOTE算法为合成少数类过采样算法,所述ROSE算法为随机过采集样本算法,所述SMOTE算法通过在位置相近的少数样本点之间插入新样本来实现对样本数量的平衡,其样本采集公式为:
pi=x+rand(0,1)×(yi-x),i=1,2,…,N,
其中pi为获得少数类样本,
x为原少数类样本,
y为随机采集样本,
N为过采集样本倍率,
所述ROSE算法为随机过采集样本算法,所述ROSE算法中,首先从n的训练集Tn训练集中抽取一个元组(xi,yi),然后在其近邻生成一个新元组(x*,y*)。该近邻区域的形状由概率分布确定,范围由协方差矩阵Hj确定。
2.根据权利要求1中所述的异常电力用户挖掘中类分布不平衡问题的解决方法,其特征在于,所述SMOTE算法中,所述随机采集样本y通过搜索原少数类样本x的k个同类最近邻样本,并在原少数类样本x的k个最近邻样本中随机选择N个样本获得,记为y1,y2,…,yN,在x与yi(i=1,2,…,N)之间进行随机线性插值。
3.根据权利要求1中所述的异常电力用户挖掘中类分布不平衡问题的解决方法,其特征在于,所述SMOTE算法中,所述rand(0,1)是区间(0,1)内的随机数。
4.根据权利要求1中所述的异常电力用户挖掘中类分布不平衡问题的解决方法,其特征在于,所述ROSE算法,元组(xi,yi),i=1,2,…,n。其中元组的类标号yi∈{y0,y1}。
5.根据权利要求1中所述的异常电力用户挖掘中类分布不平衡问题的解决方法,其特征在于,所述ROSE算法,xi是Rd上随机向量x的某个实现,服从概率密度函数f(x)。
6.根据权利要求1中所述的异常电力用户挖掘中类分布不平衡问题的解决方法,其特征在于,所述ROSE算法,令类别yj(j=0,1)对应的元组数为nj,则:
以概率πj选择y*=yj;
以概率1/nj选择元组(xi,yi)∈Tn,其中yi=y*;
从中随机抽样得到x*,其中是以xi为分布中心,以Hj为协方差矩阵的概率分布。
7.根据权利要求1中所述的异常电力用户挖掘中类分布不平衡问题的解决方法,其特征在于,重复ROSE算法m次,则可以得到一个规模为m的新的合成训练集
8.根据权利要求7中所述的异常电力用户挖掘中类分布不平衡问题的解决方法,其特征在于,所述合成训练集的不平衡程度由概率πj确定,若πj=1/2,则中两类的样本数大致相等。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610833861.7A CN106504111A (zh) | 2016-09-19 | 2016-09-19 | 异常电力用户挖掘中类分布不平衡问题的解决方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610833861.7A CN106504111A (zh) | 2016-09-19 | 2016-09-19 | 异常电力用户挖掘中类分布不平衡问题的解决方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106504111A true CN106504111A (zh) | 2017-03-15 |
Family
ID=58290865
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610833861.7A Pending CN106504111A (zh) | 2016-09-19 | 2016-09-19 | 异常电力用户挖掘中类分布不平衡问题的解决方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106504111A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108509982A (zh) * | 2018-03-12 | 2018-09-07 | 昆明理工大学 | 一种处理二分类不平衡医学数据的方法 |
CN108573040A (zh) * | 2018-04-08 | 2018-09-25 | 西北工业大学 | 一种基于目标分布的样本集优化算法 |
CN108932470A (zh) * | 2017-05-22 | 2018-12-04 | 丰田自动车株式会社 | 图像处理系统、图像处理方法、信息处理装置和记录介质 |
CN109726821A (zh) * | 2018-11-27 | 2019-05-07 | 东软集团股份有限公司 | 数据均衡方法、装置、计算机可读存储介质及电子设备 |
CN113469536A (zh) * | 2021-07-06 | 2021-10-01 | 云南电网有限责任公司 | 一种供电服务客户投诉风险等级识别方法 |
-
2016
- 2016-09-19 CN CN201610833861.7A patent/CN106504111A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108932470A (zh) * | 2017-05-22 | 2018-12-04 | 丰田自动车株式会社 | 图像处理系统、图像处理方法、信息处理装置和记录介质 |
CN108509982A (zh) * | 2018-03-12 | 2018-09-07 | 昆明理工大学 | 一种处理二分类不平衡医学数据的方法 |
CN108573040A (zh) * | 2018-04-08 | 2018-09-25 | 西北工业大学 | 一种基于目标分布的样本集优化算法 |
CN109726821A (zh) * | 2018-11-27 | 2019-05-07 | 东软集团股份有限公司 | 数据均衡方法、装置、计算机可读存储介质及电子设备 |
CN113469536A (zh) * | 2021-07-06 | 2021-10-01 | 云南电网有限责任公司 | 一种供电服务客户投诉风险等级识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106504111A (zh) | 异常电力用户挖掘中类分布不平衡问题的解决方法 | |
Brzeziński et al. | Accuracy updated ensemble for data streams with concept drift | |
Purshouse et al. | On the evolutionary optimization of many conflicting objectives | |
Kucukvar et al. | Linking national food production to global supply chain impacts for the energy-climate challenge: the cases of the EU-27 and Turkey | |
Mazza et al. | Optimal multi-objective distribution system reconfiguration with multi criteria decision making-based solution ranking and enhanced genetic operators | |
Li et al. | Potts model based on a Markov process computation solves the community structure problem effectively | |
CN109002933A (zh) | 基于ReliefF和t-SNE的配电线路线变关系模型优化方法 | |
CN103325071A (zh) | 一种基于密度聚类的用户典型负荷曲线的构建方法 | |
CN109376944A (zh) | 智能电表预测模型的构建方法及装置 | |
Ganjisaffar et al. | Distributed tuning of machine learning algorithms using MapReduce clusters | |
Rao et al. | A new approach for detection of common communities in a social network using graph mining techniques | |
von Lücken et al. | An overview on evolutionary algorithms for many‐objective optimization problems | |
Behrens et al. | Precise measurement of B0− B0 mixing parameters at the ϒ (4S) | |
CN103440539A (zh) | 一种用户用电数据处理方法 | |
CN103778567A (zh) | 一种用户异常用电甄别的方法及系统 | |
Singh et al. | Exclusion within the excluded: The economic divide within scheduled castes and scheduled tribes | |
Pessanha et al. | Combining statistical clustering techniques and exploratory data analysis to compute typical daily load profiles-Application to the expansion and operational planning in Brazil | |
Pompili | Structure and performance of less developed regions in the EC | |
CN107515892A (zh) | 一种基于大数据挖掘的电网低电压成因诊断方法 | |
CN102622447B (zh) | 一种基于Hadoop的频繁闭项集挖掘方法 | |
Ząbkowski et al. | Grade analysis for energy usage patterns segmentation based on smart meter data | |
CN105117859A (zh) | 基于iowa算子的电力发展水平通用评价方法 | |
CN105069517A (zh) | 基于混合算法的配电网多目标故障恢复方法 | |
Karakostas | Bridging the gap between multi-objective optimization and spatial planning: a new post-processing methodology capturing the optimum allocation of land uses against established transportation infrastructure | |
Zheng et al. | Enhancing diversity for NSGA-II in evolutionary multi-objective optimization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170315 |
|
RJ01 | Rejection of invention patent application after publication |