CN109583680A - 一种基于支持向量机的窃电辨识方法 - Google Patents
一种基于支持向量机的窃电辨识方法 Download PDFInfo
- Publication number
- CN109583680A CN109583680A CN201811163295.9A CN201811163295A CN109583680A CN 109583680 A CN109583680 A CN 109583680A CN 201811163295 A CN201811163295 A CN 201811163295A CN 109583680 A CN109583680 A CN 109583680A
- Authority
- CN
- China
- Prior art keywords
- sample
- data
- stealing
- parameter
- support vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012706 support-vector machine Methods 0.000 title claims abstract description 24
- 238000012850 discrimination method Methods 0.000 title claims abstract description 20
- 230000005611 electricity Effects 0.000 claims abstract description 72
- 238000000034 method Methods 0.000 claims abstract description 25
- 238000013145 classification model Methods 0.000 claims abstract description 14
- 238000012360 testing method Methods 0.000 claims abstract description 12
- 238000004458 analytical method Methods 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims description 45
- 230000002159 abnormal effect Effects 0.000 claims description 21
- 238000005457 optimization Methods 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 9
- 241001269238 Data Species 0.000 claims description 8
- 238000002790 cross-validation Methods 0.000 claims description 4
- 238000012886 linear function Methods 0.000 claims description 4
- 230000001174 ascending effect Effects 0.000 claims description 3
- 238000007405 data analysis Methods 0.000 claims description 3
- KJFMBFZCATUALV-UHFFFAOYSA-N phenolphthalein Chemical compound C1=CC(O)=CC=C1C1(C=2C=CC(O)=CC=2)C2=CC=CC=C2C(=O)O1 KJFMBFZCATUALV-UHFFFAOYSA-N 0.000 claims description 2
- 241000208340 Araliaceae Species 0.000 claims 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims 1
- 235000003140 Panax quinquefolius Nutrition 0.000 claims 1
- 235000008434 ginseng Nutrition 0.000 claims 1
- 238000013507 mapping Methods 0.000 claims 1
- 238000011835 investigation Methods 0.000 abstract description 3
- 230000002411 adverse Effects 0.000 abstract description 2
- 230000008859 change Effects 0.000 abstract description 2
- 230000000694 effects Effects 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000001514 detection method Methods 0.000 description 5
- 238000009940 knitting Methods 0.000 description 5
- 238000013499 data model Methods 0.000 description 3
- 235000006508 Nelumbo nucifera Nutrition 0.000 description 2
- 240000002853 Nelumbo nucifera Species 0.000 description 2
- 235000006510 Nelumbo pentapetala Nutrition 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Development Economics (AREA)
- Health & Medical Sciences (AREA)
- Educational Administration (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- Theoretical Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于支持向量机的窃电辨识方法,涉及一种窃电辨识方法。当前防窃电技术仅仅依靠用户每月电量变化、台区线损异常确定窃电嫌疑户,存在时效性差、准确率低,现场排查发现窃电行为又效率不高的问题。本发明包括步骤波动率计算、正常负荷数据样本选取、根据正常负荷数据样本建立SVM正常负荷数据分类模型、根据SVM正常负荷数据分类模型进行窃电辨识、分离窃电嫌疑的离群点、确定窃电样本点和设置窃点警报。本技术方案结合计算电量波动率的方法和支持向量机分析方法的一种新型的窃电辨识方法,通过计算电量波动率为支持向量机选取合适的样本数据,可以比较有效地降低因样本问题对检测分析结果产生的不良影响,窃电检测结果更加准确。
Description
技术领域
本发明涉及一种窃电辨识方法,尤其涉及一种基于支持向量机的窃电辨识方法。
背景技术
随着高科技窃电手段层出不穷,窃电问题越来越突出,全国每年因窃电导致的经济损失约几百亿人民币,已经严重危及到了经济秩序的正常运行。当前防窃电技术仅仅依靠用户每月电量变化、台区线损异常确定窃电嫌疑户,存在时效性差、准确率低,现场排查发现窃电行为又效率不高的问题。
发明内容
本发明要解决的技术问题和提出的技术任务是对现有技术方案进行完善与改进,提供一种基于支持向量机的窃电辨识方法,以准确、快速辨别窃电目的。为此,本发明采取以下技术方案。
一种基于支持向量机的窃电辨识方法包括以下步骤:
1)获取用电用户的用电数据;
2)数据预处理:采用线性函数的归一化方法,即 其中,x(k)代表任意一个样本值,min(x(n))代表样本极小值,max(x(n))代表样本极大值;将y(k)化为介于0和1之间的数,以消除了样本受量纲和属性的影响;
2)波动率计算;
定义标准差和均值的比值作为电量波动系数,即 式中,di为用户单日电量,为日电量平均值,N为累计天数,σ为标准差,μ为均值;
3)正常负荷数据样本选取;
计算变异系数,当一段连续时间的电量波动系数CV满足0<CV<0.2时,则视为该该段连续时间的用电情况正常,其负荷数据也是正常的,该负荷数据可以作为训练样本进行训练;规定正常用电数据用标签+1表示,异常数据用标签-1表示,训练样本数据全部用标签+1表示;训练数据的时间长度不超过一个月;
4)根据正常负荷数据样本建立SVM正常负荷数据分类模型;
按工作日和节假日的负荷加以区分,对于工作日和节假日的负荷数据建立不同的负荷模型,根据负荷模型将工作日和节假日的负荷数据区分开来,并分别选取工作日和节假日的正常负荷数据进行训练,得到相应正常负荷数据的分类模型;
5)根据SVM正常负荷数据分类模型进行窃电辨识;
将经数据预处理的用电数据输入SVM负荷数据分类模型中,对该数据进行处理,并将结果导入决策函数分析,进行窃电辨识;
6)分离窃电嫌疑的离群点;
601)从波动率值CV>0.2的月份中找到最小的样本波动率CVm,并初步确定窃电可能发生的时间段;
602)确定质心以及参数p和D;
603)算法判定及离群点筛选;
计算两两样本之间的欧氏距离,在调节参数p并计算参数D后,找到与其它至少p部分样本距离大于D的所有样本点,确定为离群点;
604)确定窃电样本集合
将高于样本平均水平的离群点去除,排除这些样本点得到的离群点集合为最终确定的窃电样本集合;
7)确定窃电样本点和设置窃点警报;
对步骤5)、6)的结果进行比对,若均判断为窃电,且时间连续多天,则进行窃电报警。
本发明结合了计算电量波动率的方法和支持向量机分析方法的一种新型的窃电辨识方法。通过计算电量波动率为支持向量机选取合适的样本数据,可以比较有效地降低因样本问题对检测分析结果产生的不良影响。支持向量机的样本选取一直是研究的重点,本方法结合所分析的用电数据特征,以用户每月的电量波动率为选取样本的依据,只有当用户月电量波动率小于某一数值时,该用户的用电情况被视为正常,可以作为支持向量机的训练样本,这样可以有效合理的选取样本。这也是本发明的优势所在。
在已知样本的情况下,采用支持向量机对用电数据进行分析处理,得到正常用电数据模型,将该模型用于用户用电数据检测,当检测到异常用电数据数量超过某个阈值,可判断该用户存在窃电嫌疑。
作为优选技术手段:在步骤602)中,采用求两次均值的方法;第一次计算所有数据的均值,即其中,d1、d2、dn代表每天的用电量,n为样本总数;第二次求均值是除去异常偏高值后计算剩余样本的均值,即排除若干个异常偏高值后,剩余m个样本求均值,以avg2为总样本质心,计算所有样本与该质心的距离集合Dist,设置自定义条件确定参数p;D为对Dist集合进行升序排列后,求出的新的集合的p分位数。
作为优选技术手段:自定义参数p的设置方法为:考虑到0≤p<1,观察Dist矩阵的数值分布,用发现Dist矩阵中距离在0<Dist(i)<d范围内的样本个数占样本总体比例的方式设置p;其中,d≤maxDist,maxDist为Dist矩阵中的最大值;P设置好以后,p分位数D是根据函数求得。
作为优选技术手段:异常偏高值dx定义为dx>k*avg1,若0≤CVm<0.2,k取1;若0.2≤CVm≤0.5,k取1.2;若0.5<CVm<0.8,k取1.4;0.8≤CVm为严重波动范围,则可直接进行排查。
作为优选技术手段:求avg2的各个样本值是去除dx后进行重新排序的结果;参数p为:其中r为距离集合Dist中满足设置条件的样本数。
作为优选技术手段:连续三天或以上均出现异常,进行窃电报警。
作为优选技术手段:在步骤4)中,选择5-10天的负荷数据作为训练样本,节假日选择4天以上的负荷数据作为训练样本。
作为优选技术手段:SVM正常负荷数据分类模型采用One-class SVM算法;通过SVM训练得到具有最大分类间隔的超平面,从而把一分类问题转化成一个特殊的二值分类问题;实际在采用训练数据集进行训练的时候,One-class SVM只选取一类具有相似特征的数据集合进行训练,得到的模型其基于的分类规则只有一类数据的特性A,然后在分类的时候模型就将测试数据集分为属于A类和不属于A类两种类型,公式如下所示;模型优化函数:
决策函数:
s.t(w·φ(xi)+b)≥ρ-ζi,ζi≥0.
式中w和ρ为超平面的法向量和截距,ζi为松弛变量,v是惩罚参数,φ为非线性映射,即核函数;v是一个比例值,其范围是0到1之间;其体现为所选取的训练集数据中规定的异类数据的比例;选取高斯核函数,其定义为空间中任一点x1到某中心点x2之间欧氏距离的单调函数,其公式如下;
其中β为函数的宽度参数,为简化公式令通过对γ的调整以获得合适的分类结果;
作为优选技术手段:最优参数的选择,包括两种方法,A:根据历史数据分析后进行选择,模型优化函数中的参数v取0.01,0.001,0.0001,核函数中γ取10。
B:利用程序自身寻找最优参数,采用的是网格参数寻优;网格参数寻优核心的思想是k折交叉验证;即随机选取一部分样数据作为训练数据,其他作为测试数据检验,经过k次循环找到最优参数。
有益效果:本发明将One-class SVM算法引入到疑似窃电判断当中,提出了一种将电量波动特征和One-class SVM结合的窃电辨识模型。利用电量数据波动指标为One-classSVM选取相对优化的训练样本,训练得到相应分类模型。通过该模型对用户用电数据进行分类,将结果进行分析处理从而辨别出是否存在窃电行为。本技术方案的辨识结果对窃电排查人员的现场操作具有指导意义,可以提高窃电排查效率,及时对窃电嫌疑用户进行处理和案例归档,保证用电秩序正常运行。
附图说明
图1是本发明的基于One-class SVM的负荷数据异常检测流程图。
图2是本发明的SVM正常负荷数据分类模型建立流程图。
图3是本发明的SVM正常负荷数据分类模型分类流程图。
图4是本发明的正常负荷数据样本选取流程图。
图5是某针织厂每月电量波动系数。
图6某针织厂5月份三相电流特征及分析结果。
图7某针织厂3月份三相电流特征及分析结果
具体实施方式
以下结合说明书附图对本发明的技术方案做进一步的详细说明。
本发明包括以下步骤:
1)获取用电用户的用电数据;
2)数据预处理:采用线性函数的归一化方法,即 其中,x(k)代表任意一个样本值,min(x(n))代表样本极小值,max(x(n))代表样本极大值;将y(k)化为介于0和1之间的数,以消除了样本受量纲和属性的影响;
2)波动率计算;
定义标准差和均值的比值作为电量波动系数,即 式中,di为用户单日电量,为日电量平均值,N为累计天数,σ为标准差,μ为均值;
3)正常负荷数据样本选取;
计算变异系数,当一段连续时间的电量波动系数CV满足0<CV<0.2时,则视为该该段连续时间的用电情况正常,其负荷数据也是正常的,该负荷数据可以作为训练样本进行训练;规定正常用电数据用标签+1表示,异常数据用标签-1表示,训练样本数据全部用标签+1表示;训练数据的时间长度不超过一个月;
4)根据正常负荷数据样本建立SVM正常负荷数据分类模型;
按工作日和节假日的负荷加以区分,对于工作日和节假日的负荷数据建立不同的负荷模型,根据负荷模型将工作日和节假日的负荷数据区分开来,并分别选取工作日和节假日的正常负荷数据进行训练,得到相应正常负荷数据的分类模型;选择5-10天的负荷数据作为训练样本,节假日选择4天以上的负荷数据作为训练样本;
SVM正常负荷数据分类模型采用One-class SVM算法;通过SVM训练得到具有最大分类间隔的超平面,从而把一分类问题转化成一个特殊的二值分类问题;实际在采用训练数据集进行训练的时候,One-class SVM只选取一类具有相似特征的数据集合进行训练,得到的模型其基于的分类规则只有一类数据的特性A,然后在分类的时候模型就将测试数据集分为属于A类和不属于A类两种类型,公式如下所示;
模型优化函数:
决策函数:
s.t(w·φ(xi)+b)≥ρ-ζi,ζi≥0.
式中w和ρ为超平面的法向量和截距,ζi为松弛变量,v是惩罚参数,φ为非线性映射,即核函数;v是一个比例值,其范围是0到1之间;其体现为所选取的训练集数据中规定的异类数据的比例;选取高斯核函数,其定义为空间中任一点x1到某中心点x2之间欧氏距离的单调函数,其公式如下;
其中β为函数的宽度参数,为简化公式令通过对γ的调整以获得合适的分类结果;
最优参数的选择,包括两种方法:
A:根据历史数据分析后进行选择,模型优化函数中的参数v取0.01,0.001,0.0001,核函数中γ取10。
B:利用程序自身寻找最优参数,采用的是网格参数寻优;网格参数寻优核心的思想是k折交叉验证;即随机选取一部分样数据作为训练数据,其他作为测试数据检验,经过k次循环找到最优参数。
5)根据SVM正常负荷数据分类模型进行窃电辨识;
将经数据预处理的用电数据输入SVM负荷数据分类模型中,对该数据进行处理,并将结果导入决策函数分析,进行窃电辨识;
6)分离窃电嫌疑的离群点;
601)从波动率值CV>0.2的月份中找到最小的样本波动率CVm,并初步确定窃电可能发生的时间段;
602)确定质心以及参数p和D;
采用求两次均值的方法;第一次计算所有数据的均值,即其中,d1、d2、dn代表每天的用电量,n为样本总数;第二次求均值是除去异常偏高值后计算剩余样本的均值,即排除若干个异常偏高值后,剩余m个样本求均值,以avg2为总样本质心,计算所有样本与该质心的距离集合Dist,设置自定义条件确定参数p;D为对Dist集合进行升序排列后,求出的新的集合的p分位数。
自定义参数p的设置方法为:考虑到0≤p<1,观察Dist矩阵的数值分布,用发现Dist矩阵中距离在0<Dist(i)<d范围内的样本个数占样本总体比例的方式设置p;其中,d≤maxDist,maxDist为Dist矩阵中的最大值;P设置好以后,p分位数D是根据函数求得。
异常偏高值dx定义为dx>k*avg1,若0≤CVm<0.2,k取1;若0.2≤CVm≤0.5,k取1.2;若0.5<CVm<0.8,k取1.4;0.8≤CVm为严重波动范围,则可直接进行排查。
求avg2的各个样本值是去除dx后进行重新排序的结果;参数p为:其中r为距离集合Dist中满足设置条件的样本数。
603)算法判定及离群点筛选;
计算两两样本之间的欧氏距离,在调节参数p并计算参数D后,找到与其它至少p部分样本距离大于D的所有样本点,确定为离群点;
604)确定窃电样本集合
将高于样本平均水平的离群点去除,排除这些样本点得到的离群点集合为最终确定的窃电样本集合;
7)确定窃电样本点和设置窃点警报;
对步骤5)、6)的结果进行比对,若均判断为窃电,且时间连续多天,则进行窃电报警,在本实施例中,连续三天或以上均出现异常,进行窃电报警。
本发明总原理框图如图1所示,其包括负荷数据训练样本采集、负荷模型选取、负荷数据预处理、参数优化、正常负荷数据模型分类模型建立和分类、决策报警等部分。本方案主要分为两个步骤,首先以电量波动率为指标,选取相应时间正常的负荷数据作为样本,训练得到SVM负荷数据分类器,然后用得到的SVM负荷数据分类器对该数据进行处理,将结果导入决策函数分析,如发现窃电行为则进行报警。正常负荷数据模型分类模型建立和分类以及样本选取如图2、图3和图4分别所示。
1、数据来源
本方法通过用电信息采集系统和远程抄表系统对若干个用户的用电数据进行采集。主要分析对象是专变用户负荷数据的三相电流数据。同时分析专变用户的电量数据为支持向量机提供训练样本做准备。
2、数据预处理
采用线性函数的归一化方法,即其中,x(k)代表任意一个样本值,min(x(n))代表样本极小值,max(x(n))代表样本极大值。这种归一化处理方法一般是将y(k)化为介于0和1之间的数,它消除了样本受量纲和属性的影响,可以将数量级大的数据转化成可以相互进行数学运算的具有可比性的数据,降低数据处理的复杂度。3、电量波动率计算和样本选取
定义标准差和均值的比值作为变异系数,即式中,di为用户单日电量,为日电量平均值,N为累计天数,σ为标准差,μ为均值。由公式可知,CV是单位均值上的离散程度,CV越大,反映样本偏离度越大,即电量波动程度越大。其数据大小不仅受变量值离散程度的影响,而且还受变量值平均水平大小的影响。样本均值本身也反映了样本所代表的整体水平,因此用标准差和均值共同定义的指标CV可以准确地描述用电量数据的波动情况。规定当一段连续时间的电量波动系数CV满足0<CV<0.2时,则视为该该段连续时间的用电情况正常,其负荷数据也是正常的,该负荷数据可以作为训练样本进行训练。规定正常用电数据用标签+1表示,异常数据用标签-1表示,训练样本数据全部用标签+1表示。一般训练数据的时间长度不超过一个月。
4、模型选取
可按工作日和节假日的负荷加以区分,对于工作日和节假日的负荷数据建立不同的负荷模型,根据负荷模型将工作日和节假日的负荷数据区分开来,并分别选取工作日和节假日的正常负荷数据进行训练,得到相应正常负荷数据的分类模型。一般工作日选择5-10天的负荷数据作为训练样本,节假日选择4天以上的负荷数据作为训练样本。
5、参数选取
本方法中对于参数选择主要通过网格参数寻优法和经验选取相结合进行选取。网格参数寻优核心的思想是k折交叉验证。即随机选取一部分样本数据作为训练数据,其他作为测试数据检验,经过k次循环找到最优参数。在网格参数寻优的基础上再根据实际数据分析结果的经验进一步选取最优参数。最后得出模型优化函数中的参数v一般取0.01,0.001,0.0001,核函数中γ一般取10,最后分类的结果较为理想。这主要是因为在选择训练样本集时尽可能采用正常的用电数据作为训练数据集样本,因此v的值也就是异常用电数据占训练样本集的比例会很小。
6、设置窃电警报
由于模型分类的结果一定存在误差和窃电问题的特殊性,不能把每个时间点检测出来的异常数据都当成是窃电数据,像某些时间点的数据异常可能是其他非窃电行为如跳闸,设备检修等原因导致的,不能将其纳入窃电行为的范畴。
经查证有关电力公司的资料和根据数据规律分析,采用以连续3天发现异常数据作为警报的触发条件。也就是说,当每天96个检测时间点,连续3天,共计288个检测时间点均为异常数据时,可以认定其存在窃电行为,并报告首次检测到异常数据的时间和窃电报警的时间。当报出的窃电时间小于10天时,按每天0.1的窃电系数递增,当报出的窃电时间大于10天时,窃电系数均为1,也就是报出的窃电时间越长,窃电系数越大,窃电嫌疑越高。通过这样设置就可以有效的防止个别异常数据对分类结果的影响,排除误报。
7、实现事例
本发明方法的实现事例如下所示。用电数据采集系统中提取某地区针织厂的用电数据,并对其进行分析。
图5为根据公式计算某地区针织厂的电量数据波动率。图6和图7为算法检测结果,上子图中三线分别代表中A、B、C三相电流(单位为A);横坐标代表数据的序号,对应各个负荷数据采样点;双箭头标注的区域为样本数据选取范围。下子图纵坐标代表分类的类别,1代表正常数据,-1代表异常数据;蓝色部分代表实际的数据分类,而红色的部分代表模型分类的结果(注:为了在图上以示区分,将预测测试集分类的值乘以系数0.8)。
将分析结果中正确分类的个数占总测试数据个数的比值称作分类准确率,用以衡量分类结果的好坏。从图6和图7中可以看出,选取3月份(31天)的负荷数据作为训练样本得到的分类效果要明显好于选取5月份(31天)的负荷数据作为训练样本的分类效果,它们的分类准确率分别为97.85%和87.90%,且前者发出窃电警报的时间与实际窃电时间相符。同时,若分别以窃电发生之前的4月份(30天)、6月份(30天)的负荷数据作为训练样本,得到的分类结果与图3相似,分类准确度分别为97.79%和97.82%。以上分析说明根据电量波动系数选取样本的方法是可行的,使窃电检测结果更加准确。
以上图1-4所示的一种基于支持向量机的窃电辨识方法是本发明的具体实施例,已经体现出本发明实质性特点和进步,可根据实际的使用需要,在本发明的启示下,对其进行形状、结构等方面的等同修改,均在本方案的保护范围之列。
Claims (9)
1.一种基于支持向量机的窃电辨识方法,其特征在于包括以下步骤:
1)获取用电用户的用电数据;
2)数据预处理:采用线性函数的归一化方法,即 其中,x(k)代表任意一个样本值,min(x(n))代表样本极小值,max(x(n))代表样本极大值;将y(k)化为介于0和1之间的数,以消除了样本受量纲和属性的影响;
2)波动率计算;
定义标准差和均值的比值作为电量波动系数,即 式中,di为用户单日电量,为日电量平均值,N为累计天数,σ为标准差,μ为均值;
3)正常负荷数据样本选取;
计算变异系数,当一段连续时间的电量波动系数CV满足0<CV<0.2时,则视为该该段连续时间的用电情况正常,其负荷数据也是正常的,该负荷数据可以作为训练样本进行训练;规定正常用电数据用标签+1表示,异常数据用标签-1表示,训练样本数据全部用标签+1表示;训练数据的时间长度不超过一个月;
4)根据正常负荷数据样本建立SVM正常负荷数据分类模型;
按工作日和节假日的负荷加以区分,对于工作日和节假日的负荷数据建立不同的负荷模型,根据负荷模型将工作日和节假日的负荷数据区分开来,并分别选取工作日和节假日的正常负荷数据进行训练,得到相应正常负荷数据的分类模型;
5)根据SVM正常负荷数据分类模型进行窃电辨识;
将经数据预处理的用电数据输入SVM负荷数据分类模型中,对该数据进行处理,并将结果导入决策函数分析,进行窃电辨识;
6)分离窃电嫌疑的离群点;
601)从波动率值CV>0.2的月份中找到最小的样本波动率CVm,并初步确定窃电可能发生的时间段;
602)确定质心以及参数p和D;
603)算法判定及离群点筛选;
计算两两样本之间的欧氏距离,在调节参数p并计算参数D后,找到与其它至少p部分样本距离大于D的所有样本点,确定为离群点;
604)确定窃电样本集合
将高于样本平均水平的离群点去除,排除这些样本点得到的离群点集合为最终确定的窃电样本集合;
7)确定窃电样本点和设置窃点警报;
对步骤5)、6)的结果进行比对,若均判断为窃电,且时间连续多天,则进行窃电报警。
2.根据权利要求1所述的一种基于支持向量机的窃电辨识方法,其特征在于:在步骤602)中,采用求两次均值的方法;第一次计算所有数据的均值,即其中,d1、d2、dn代表每天的用电量,n为样本总数;第二次求均值是除去异常偏高值后计算剩余样本的均值,即排除若干个异常偏高值后,剩余m个样本求均值, 以avg2为总样本质心,计算所有样本与该质心的距离集合Dist,设置自定义条件确定参数p;D为对Dist集合进行升序排列后,求出的新的集合的p分位数。
3.根据权利要求2所述的一种基于支持向量机的窃电辨识方法,其特征在于:自定义参数p的设置方法为:考虑到0≤p<1,观察Dist矩阵的数值分布,用发现Dist矩阵中距离在0<Dist(i)<d范围内的样本个数占样本总体比例的方式设置p;其中,d≤maxDist,maxDist为Dist矩阵中的最大值;P设置好以后,p分位数D是根据函数求得。
4.根据权利要求3所述的一种基于支持向量机的窃电辨识方法,其特征在于:异常偏高值dx定义为dx>k*avg1,若0≤CVm<0.2,k取1;若0.2≤CVm≤0.5,k取1.2;若0.5<CVm<0.8,k取1.4;0.8≤CVm为严重波动范围,则可直接进行排查。
5.根据权利要求4所述的一种基于支持向量机的窃电辨识方法,其特征在于:求avg2的各个样本值是去除dx后进行重新排序的结果;参数p为:其中r为距离集合Dist中满足设置条件的样本数。
6.根据权利要求5所述的一种基于支持向量机的窃电辨识方法,其特征在于:连续三天或以上均出现异常,进行窃电报警。
7.根据权利要求1所述的一种基于支持向量机的窃电辨识方法,其特征在于:在步骤4)中,选择5-10天的负荷数据作为训练样本,节假日选择4天以上的负荷数据作为训练样本。
8.根据权利要求7所述的一种基于支持向量机的窃电辨识方法,其特征在于:SVM正常负荷数据分类模型采用One-class SVM算法;通过SVM训练得到具有最大分类间隔的超平面,从而把一分类问题转化成一个特殊的二值分类问题;实际在采用训练数据集进行训练的时候,One-class SVM只选取一类具有相似特征的数据集合进行训练,得到的模型其基于的分类规则只有一类数据的特性A,然后在分类的时候模型就将测试数据集分为属于A类和不属于A类两种类型,公式如下所示;
模型优化函数:
决策函数:
s.t(w·φ(xi)+b)≥ρ-ζi,ζi≥0.
式中w和ρ为超平面的法向量和截距,ζi为松弛变量,v是惩罚参数,φ为非线性映射,即核函数;v是一个比例值,其范围是0到1之间;其体现为所选取的训练集数据中规定的异类数据的比例;选取高斯核函数,其定义为空间中任一点x1到某中心点x2之间欧氏距离的单调函数,其公式如下;
其中β为函数的宽度参数,为简化公式令通过对γ的调整以获得合适的分类结果。
9.根据权利要求8所述的一种基于支持向量机的窃电辨识方法,其特征在于:最优参数的选择,包括两种方法,
A:根据历史数据分析后进行选择,模型优化函数中的参数v取0.01,0.001,0.0001,核函数中γ取10。
B:利用程序自身寻找最优参数,采用的是网格参数寻优;网格参数寻优核心的思想是k折交叉验证;即随机选取一部分样数据作为训练数据,其他作为测试数据检验,经过k次循环找到最优参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811163295.9A CN109583680B (zh) | 2018-09-30 | 2018-09-30 | 一种基于支持向量机的窃电辨识方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811163295.9A CN109583680B (zh) | 2018-09-30 | 2018-09-30 | 一种基于支持向量机的窃电辨识方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109583680A true CN109583680A (zh) | 2019-04-05 |
CN109583680B CN109583680B (zh) | 2023-08-25 |
Family
ID=65919972
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811163295.9A Active CN109583680B (zh) | 2018-09-30 | 2018-09-30 | 一种基于支持向量机的窃电辨识方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109583680B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109919520A (zh) * | 2019-04-08 | 2019-06-21 | 四川大学 | 窃电行为检测方法及装置 |
CN110210723A (zh) * | 2019-05-15 | 2019-09-06 | 电子科技大学 | 一种基于层次分析法和孤立森林的窃电辨识方法 |
CN110321919A (zh) * | 2019-04-30 | 2019-10-11 | 广东电网有限责任公司 | 一种用于低压单相用户户相关系辨识的聚类方法 |
CN110751264A (zh) * | 2019-09-19 | 2020-02-04 | 清华大学 | 一种基于正交自编码神经网络的用电模式识别方法 |
CN110824270A (zh) * | 2019-10-09 | 2020-02-21 | 中国电力科学研究院有限公司 | 结合台区线损和异常事件的窃电用户辨识方法及装置 |
CN110910028A (zh) * | 2019-11-28 | 2020-03-24 | 温岭市非普电气有限公司 | 基于时间特征分析的光伏窃电发现方法和系统 |
CN111223006A (zh) * | 2019-12-25 | 2020-06-02 | 国网冀北电力有限公司信息通信分公司 | 一种异常用电检测方法及装置 |
CN112150036A (zh) * | 2020-10-15 | 2020-12-29 | 北京市燃气集团有限责任公司 | 一种基于数据驱动的锅炉用气用户偷盗气检测方法及装置 |
CN112884042A (zh) * | 2021-02-23 | 2021-06-01 | 新疆大学 | 一种基于关联向量机的输配电线路最大负荷辨识方法 |
CN112884307A (zh) * | 2021-02-02 | 2021-06-01 | 国网甘肃省电力公司信息通信公司 | 一种基于用电数据的常住人口预测模型构建方法 |
CN113589034A (zh) * | 2021-07-30 | 2021-11-02 | 南方电网科学研究院有限责任公司 | 一种配电系统的窃电检测方法、装置、设备和介质 |
CN113762332A (zh) * | 2021-07-19 | 2021-12-07 | 深圳供电局有限公司 | 窃电检测方法、装置、计算机设备和存储介质 |
CN116777121A (zh) * | 2023-08-18 | 2023-09-19 | 武汉振铭科技发展有限公司 | 基于大数据的非法用电的稽查方法、存储介质及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110078099A1 (en) * | 2001-05-18 | 2011-03-31 | Health Discovery Corporation | Method for feature selection and for evaluating features identified as significant for classifying data |
CN106373025A (zh) * | 2016-08-22 | 2017-02-01 | 重庆邮电大学 | 基于离群点检测的用电信息采集系统实时防窃电监测方法 |
CN206057402U (zh) * | 2016-09-30 | 2017-03-29 | 江苏跃腾电气有限公司 | 一种新型防窃电计量箱 |
-
2018
- 2018-09-30 CN CN201811163295.9A patent/CN109583680B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110078099A1 (en) * | 2001-05-18 | 2011-03-31 | Health Discovery Corporation | Method for feature selection and for evaluating features identified as significant for classifying data |
CN106373025A (zh) * | 2016-08-22 | 2017-02-01 | 重庆邮电大学 | 基于离群点检测的用电信息采集系统实时防窃电监测方法 |
CN206057402U (zh) * | 2016-09-30 | 2017-03-29 | 江苏跃腾电气有限公司 | 一种新型防窃电计量箱 |
Non-Patent Citations (5)
Title |
---|
卢峰等: "基于样本优化选取的支持向量机窃电辨识方法", 《计算机测量与控制》 * |
卢峰等: "基于样本优化选取的支持向量机窃电辨识方法", 《计算机测量与控制》, no. 06, 25 June 2018 (2018-06-25), pages 231 - 234 * |
田力: "基于电量离群点挖掘的窃电辨识方法研究", 《 电力系统自动化》, pages 64 - 70 * |
程超等: "基于离群点算法和用电信息采集系统的反窃电研究", 《电力系统保护与控制》 * |
程超等: "基于离群点算法和用电信息采集系统的反窃电研究", 《电力系统保护与控制》, 1 September 2015 (2015-09-01), pages 69 - 73 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109919520B (zh) * | 2019-04-08 | 2020-02-11 | 四川大学 | 窃电行为检测方法及装置 |
CN109919520A (zh) * | 2019-04-08 | 2019-06-21 | 四川大学 | 窃电行为检测方法及装置 |
CN110321919A (zh) * | 2019-04-30 | 2019-10-11 | 广东电网有限责任公司 | 一种用于低压单相用户户相关系辨识的聚类方法 |
CN110210723A (zh) * | 2019-05-15 | 2019-09-06 | 电子科技大学 | 一种基于层次分析法和孤立森林的窃电辨识方法 |
CN110751264A (zh) * | 2019-09-19 | 2020-02-04 | 清华大学 | 一种基于正交自编码神经网络的用电模式识别方法 |
CN110824270B (zh) * | 2019-10-09 | 2022-04-26 | 中国电力科学研究院有限公司 | 结合台区线损和异常事件的窃电用户辨识方法及装置 |
CN110824270A (zh) * | 2019-10-09 | 2020-02-21 | 中国电力科学研究院有限公司 | 结合台区线损和异常事件的窃电用户辨识方法及装置 |
CN110910028A (zh) * | 2019-11-28 | 2020-03-24 | 温岭市非普电气有限公司 | 基于时间特征分析的光伏窃电发现方法和系统 |
CN111223006A (zh) * | 2019-12-25 | 2020-06-02 | 国网冀北电力有限公司信息通信分公司 | 一种异常用电检测方法及装置 |
CN112150036A (zh) * | 2020-10-15 | 2020-12-29 | 北京市燃气集团有限责任公司 | 一种基于数据驱动的锅炉用气用户偷盗气检测方法及装置 |
CN112150036B (zh) * | 2020-10-15 | 2023-05-09 | 北京市燃气集团有限责任公司 | 一种基于数据驱动的锅炉用气用户偷盗气检测方法及装置 |
CN112884307A (zh) * | 2021-02-02 | 2021-06-01 | 国网甘肃省电力公司信息通信公司 | 一种基于用电数据的常住人口预测模型构建方法 |
CN112884042A (zh) * | 2021-02-23 | 2021-06-01 | 新疆大学 | 一种基于关联向量机的输配电线路最大负荷辨识方法 |
CN113762332A (zh) * | 2021-07-19 | 2021-12-07 | 深圳供电局有限公司 | 窃电检测方法、装置、计算机设备和存储介质 |
CN113762332B (zh) * | 2021-07-19 | 2024-03-19 | 深圳供电局有限公司 | 窃电检测方法、装置、计算机设备和存储介质 |
CN113589034A (zh) * | 2021-07-30 | 2021-11-02 | 南方电网科学研究院有限责任公司 | 一种配电系统的窃电检测方法、装置、设备和介质 |
CN113589034B (zh) * | 2021-07-30 | 2023-08-08 | 南方电网科学研究院有限责任公司 | 一种配电系统的窃电检测方法、装置、设备和介质 |
CN116777121A (zh) * | 2023-08-18 | 2023-09-19 | 武汉振铭科技发展有限公司 | 基于大数据的非法用电的稽查方法、存储介质及电子设备 |
CN116777121B (zh) * | 2023-08-18 | 2023-11-03 | 武汉振铭科技发展有限公司 | 基于大数据的非法用电的稽查方法、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN109583680B (zh) | 2023-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109583680A (zh) | 一种基于支持向量机的窃电辨识方法 | |
CN107742127B (zh) | 一种改进的防窃电智能预警系统及方法 | |
WO2019237492A1 (zh) | 一种基于半监督学习的异常用电用户检测方法 | |
CN116304766B (zh) | 基于多传感器的开关柜状态快速评估方法 | |
CN108805202B (zh) | 一种用于电解槽故障预警的机器学习方法及其应用 | |
CN109387712A (zh) | 基于状态矩阵决策树的非侵入式负荷检测与分解方法 | |
CN111738364A (zh) | 一种基于用户负荷与用电参量相结合的窃电检测方法 | |
CN109947815B (zh) | 一种基于离群点算法的窃电辨识方法 | |
CN111178396A (zh) | 用电异常用户的识别方法及装置 | |
CN113572625B (zh) | 故障预警方法、预警装置、设备及计算机介质 | |
CN109150564A (zh) | 一种用于小区故障告警的预测方法及装置 | |
CN109583679A (zh) | 一种多算法融合的窃电疑似度分析方法 | |
CN110458195A (zh) | 一种基于多判据融合的异常数据甄别方法 | |
CN109409444B (zh) | 一种基于先验概率的多元电网故障类型的判别方法 | |
CN109816031A (zh) | 一种基于数据不均衡度量的变压器状态评估聚类分析方法 | |
CN113591393B (zh) | 智能变电站的故障诊断方法、装置、设备和存储介质 | |
CN113344133B (zh) | 一种时序行为异常波动检测方法及系统 | |
CN108492043A (zh) | 一种基于聚类算法的电力用户负荷测算方法 | |
CN111797887A (zh) | 一种基于密度筛选与k-均值聚类的反窃电预警方法及系统 | |
CN111861786A (zh) | 一种基于特征选择和孤立随机森林的专变窃电识别方法 | |
CN113125903A (zh) | 线损异常检测方法、装置、设备及计算机可读存储介质 | |
CN116796271A (zh) | 一种居民用能异常识别方法 | |
CN112906738A (zh) | 一种水质检测及处理方法 | |
CN107909822B (zh) | 基于流量和饱和度分析的scats线圈检测器自动诊断方法 | |
CN107274025B (zh) | 一种实现用电模式智能识别与管理的系统和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |