CN116231631B - 一种数据驱动的电压暂降下用户生产场景辨识方法 - Google Patents

一种数据驱动的电压暂降下用户生产场景辨识方法 Download PDF

Info

Publication number
CN116231631B
CN116231631B CN202310018367.5A CN202310018367A CN116231631B CN 116231631 B CN116231631 B CN 116231631B CN 202310018367 A CN202310018367 A CN 202310018367A CN 116231631 B CN116231631 B CN 116231631B
Authority
CN
China
Prior art keywords
data
scene
production
representing
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310018367.5A
Other languages
English (en)
Other versions
CN116231631A (zh
Inventor
肖先勇
肖宇
汪颖
胡文曦
郑子萱
李长松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202310018367.5A priority Critical patent/CN116231631B/zh
Publication of CN116231631A publication Critical patent/CN116231631A/zh
Application granted granted Critical
Publication of CN116231631B publication Critical patent/CN116231631B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/001Methods to deal with contingencies, e.g. abnormalities, faults or failures
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J13/00Circuit arrangements for providing remote indication of network conditions, e.g. an instantaneous record of the open or closed condition of each circuitbreaker in the network; Circuit arrangements for providing remote control of switching means in a power distribution network, e.g. switching in and out of current consumers by using a pulse code signal carried by the network
    • H02J13/00002Circuit arrangements for providing remote indication of network conditions, e.g. an instantaneous record of the open or closed condition of each circuitbreaker in the network; Circuit arrangements for providing remote control of switching means in a power distribution network, e.g. switching in and out of current consumers by using a pulse code signal carried by the network characterised by monitoring
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J13/00Circuit arrangements for providing remote indication of network conditions, e.g. an instantaneous record of the open or closed condition of each circuitbreaker in the network; Circuit arrangements for providing remote control of switching means in a power distribution network, e.g. switching in and out of current consumers by using a pulse code signal carried by the network
    • H02J13/00006Circuit arrangements for providing remote indication of network conditions, e.g. an instantaneous record of the open or closed condition of each circuitbreaker in the network; Circuit arrangements for providing remote control of switching means in a power distribution network, e.g. switching in and out of current consumers by using a pulse code signal carried by the network characterised by information or instructions transport means between the monitoring, controlling or managing units and monitored, controlled or operated power network element or electrical equipment
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Power Engineering (AREA)
  • Remote Monitoring And Control Of Power-Distribution Networks (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种数据驱动的电压暂降下用户生产场景辨识方法,首先选取某用户特定时间段内有功监测数据,进行预处理,并提取反映功率数据特点的特征;然后利用条件深度卷积生成对抗网络,建立场景生成模型:引入生产场景条件信息,将已知生产场景编码与随机噪声拼接作为生成器输入,将已知生产场景编码与该生产场景对应的真实样本数据拼接作为判别器输入,且生成器输出一并输入判别器,判别器判定相应数值为真实数据还是为生成数据;最后利用随机森林算法建立场景分类模型,计算决策树票数,实现用户生产场景辨识。本发明预先使用场景生成模型进行用户全生产场景数据生成,涵盖用户全部生产场景,解决数据不全面的问题。

Description

一种数据驱动的电压暂降下用户生产场景辨识方法
技术领域
本发明涉及电压暂降技术领域,具体为一种数据驱动的电压暂降下用户生产场景辨识方法。
背景技术
电压暂降是指电压均方根值在极短时间内突然下降,然后又恢复到正常状态的一种现象,据国际电气与电子工程师协会(Institute of Electrical and ElectronicsEngineers,IEEE)规定,供电电压均方根值为正常状态的90%-10%,持续时间在10ms-1min的供电扰动现象均属于电压暂降的范畴。
用户生产场景是指用户存在多条生产线,用户不同的生产线投入组合情况称为一个生产场景。对电压暂降造成的影响进行评估时,需首先对用户实际生产场景进行辨识工作,但调研所得的用户数据是不全面的,无法涵盖用户全部生产场景。
采取相关措施治理电压暂降问题时,均需准确评估因电压暂降而产生的设备跳停,生产中断,产品报废等问题的严重程度,但现有评估方法默认用户保持全生产线持续生产,然而实际情况中,用户生产场景随着需求而实时变化,现有方法未考虑用户生产场景变化,将会造成评估不准确的问题;与此同时,经过调研获取的用户数据往往是不全面的,调研所得用户生产场景未覆盖用户全部生产场景,用户特定生产场景实际运行监测数据过少,这都将对用户生产场景的辨识造成困难,现有辨识方法未考虑到数据不全面的问题,将会严重影响用户生产场景辨识的准确性。
发明内容
针对上述问题,本发明的目的在于提供一种数据驱动的电压暂降下用户生产场景辨识方法,使用改进的生成对抗网络搭建场景生成模型,使用随机森林算法构建分类模型,解决了在数据不全面的情况下进行用户场景辨识的问题。技术方案如下:
一种数据驱动的电压暂降下用户生产场景辨识方法,包括以下步骤:
步骤1:选取某用户特定时间段内有功监测数据,进行预处理,并提取反映功率数据特点的特征;
步骤2:利用条件深度卷积生成对抗网络,建立场景生成模型
通过对生产场景编码进行不同生产场景的区分,作为生产场景条件信息;将已知生产场景编码与随机噪声拼接作为生成器输入,将已知生产场景编码与该生产场景对应的真实样本数据拼接作为判别器输入,且生成器输出一并输入判别器,判别器判定相应数值为真实数据还是为生成数据;
步骤3:利用随机森林算法建立场景分类模型,计算决策树票数,实现用户生产场景辨识。
进一步的,步骤1中,对数据进行预处理包括:
采用中值滤波算法平滑有功功率曲线,降低噪声对检测结果的影响,计算公式如下:
其中,x1,x2,...,xn为用户功率数据序列,y则为数据序列的中值,n是设立的窗口宽度,med表示取中值;
对监测数据进行归一化处理:
式中,xe为归一化后数据值,xmax为监测数据最大值,xmin为监测数据最小值,x为选取的监测数据值。
更进一步的,步骤1中,提取反映功率数据特点的特征具体包括:
步骤1.1:进行样本数据均值的计算,表征平均功率值:
式中,μ为均值,M为样本个数,dj表示数据序列d中的第j个数据;
步骤1.2:进行样本数据最大值提取,表征当天功率最大值:
dmax=max(d1,d2,...,dM) (4)
式中,dmax为最大值,max()为求取最大值;
步骤1.3:进行样本数据最小值提取,表征当天功率最小值:
dmin=min(d1,d2,...,dM) (5)
式中,dmin为最大值,min()为求取最小值;
步骤1.4:进行样本数据全距的计算,表征功率的最大波动值:
R=dmax-dmin (6)
式中,R表示全距;
步骤1.5:进行样本数据变异系数的计算,表征功率的波动性:
式中,CV为变异系数,σ为方差;
步骤1.6:进行样本数据偏度的计算,表征功率分布的偏斜方向:
式中,P表示偏度;
步骤1.7:对样本数据峰度进行计算,表征功率分布的陡缓程度:
式中,K表示峰度。
更进一步的,所述步骤2具体包括:
步骤2.1:设用户共有m条生产线,则不同生产线的排列组合共有2m种,共有(2m-1)种生产场景;引入生产场景条件信息cd以区分不同生产场景,将用户生产线按序号排列,则形成具有m个数据的序列,若序列中某一位置所表示的生产线处于运行状态,则相应位置数字取为1,若生产线处于停工状态,则相应位置数字取为0,通过对生产场景编码进行不同生产场景的区分并作为条件信息cd;
步骤2.2:假定已知生产场景数为a,则a≤(2m-1),将a个已知场景进行编码;给定随机噪声z,并且服从(0,1)的均匀分布Pz,将已知生产场景编码与随机噪声拼接作为生成器输入;定义真实数据为r,同样服从某分布Pr,将已知生产场景编码与该生产场景对应的真实样本数据拼接作为判别器输入;此时判别器损失函数为:
式中,Loss表示求取损失值,r为真实数据,G(z)为生成数据,Pr为真实数据分布,PG(z)为生成数据分布,cd为生产场景条件信息,E表示求取均值,D为判别器函数;
步骤2.3:为满足在拉进真实数据分布与生成数据分布距离的同时,保证生成数据特征分布与真实数据特征分布基本一致,则生成器损失函数为:
式中,l为数据特征总数,Gc(z)表示cd场景生成样本的数据特征,表示cd场景生成样本数据特征分布,rc表示cd场景真实样本的数据特征,/>表示cd场景真实样本数据特征分布,/>表示选取第lc个特征,||·||表示求分布的距离;
步骤2.4:引入瓦瑟斯坦距离以提高训练的稳定性,Wasserstein距离的定义如下:
式中,W表示Wasserstein距离,Π(Pr,PG(z))是Pr和PG(z)组合起来的所有可能的联合分布的集合,γ为每一个可能的联合分布,inf表示在所有可能的联合分布中能够对这个值取到的下界;
将上式转化为下式:
式中,||D||L表示对判别器函数D取其利普希茨常数,K为限值,D(r)为真实数据在判别器函数D中判断为真的概率,D(G(z))为生成数据在判别器函数D中判定为真的概率,sup表示取上界;
则此时,GAN的目标函数如下所示:
式中,表示对生成器而言,其目标是使得该部分值取得最小值,/>表示对于判别器而言,其目标是使得该部分值取得最大值;λ为正则项系数,/>为梯度计算,||·||nn表示nn范数,nr均表示正整数,r'为从生成数据和真实数据中取值而成的组合数,Pr'为r'的数据分布,ε为随机数,Runi[]表示从区间内均匀取值;
更进一步的,所述步骤2和步骤3之间还包括生成数据质量评估,具体为:
未知场景数据验证集采用预留部分已知生产场景的全部监测数据作为评估数据集,而已知生产场景数据验证集则预留对应场景中的部分数据作为评估数据集;则对应生产场景的评估指标如下式所示,第一部分评估生成数据与真实数据之间的偏差,第二部分评估生成数据特征分布与真实数据特征分布之间的差异;
式中,Eass,s表示S场景下的评估值;i1表示该场景下的第i1个生成数据序列,N1为生成数据序列总数;i2为数据序列中的第i2个数据,N2为数据序列包含数据个数;rt为真实数据中所选择的典型数据,Gs(z)表示S场景下的生成数据;i3表示选取第i3个特征;i4表示特征分布序列数据中的第i4个数据,N4表示特征分布序列数据总数;F表示取特征,rs表示S场景下的真实数据。
更进一步的,所述步骤3具体包括:
步骤3.1:设生成样本与真实样本混合后的数据集为T,提取混合数据集的样本特征,同时在T中随机有放回的进行t次抽取组成一个样本子集,重复t次获得t个样本子集;将不会被抽取到的样本定义为袋外样本,作为测试集;
步骤3.2:对于每个样本子集,利用决策回归树算法构建决策树并组合形成随机森林,表示为{C1,C2,...,Ct};对于每一个决策树,随机抽取特征,数据集在每一个节点再分为两个子集Tt1和Tt2,假设将第v个特征的h取值处划分作为最优划分点,则此时,目标函数表示:
式中,U1为子集Tt1对应的类别数,pb1为数据序列属于第b1类的概率;U2为子集Tt2对应的类别数,pb2为数据序列属于第b2类的概率。
步骤3.2:利用测试集对决策树进行测试,对于测试得到的分类结果进行投票,选出票数最多的类别作为随机森林最后判定的所属类别,将其与实际的所属类别进行比较,所属类别即为实际的生产场景,并判断随机森林的分类正确率:
式中,Score为分类正确率,Hright为正确分类的数量,H为测试集样本总数量;
步骤3.3:对单个类型的输入特征数值添加噪声,重新进行训练,辨识特征敏感度:
式中,表示第ld个特征的敏感度,Scoreinv为模型的初始分类正确率,/>为在第ld个特征添加噪声后模型的正确率;/>表示在第le个特征添加噪声后模型的正确率;
步骤3.4:根据决策树票数差异表征不同决策树对于最终分类结果的影响,决策树敏感度即为票数评价指标:
式中,Esen,Ci表示第Ci个决策树的敏感度,lCi,total表示第Ci个决策树的特征总数,lCi,g表示第Ci个决策树的第g个特征,表示第Ci个决策树的第g个特征的敏感度,VoteCi表示第Ci个决策树的票数,Esen,Ca表示第Ca个决策树的敏感度,Ct表示随机森林的决策树数量。
本发明的有益效果是:本发明首先考虑到电压暂降影响评估时用户生产场景变化的问题,提出在该种情况下引入场景辨识模型辨识用户实际生产场景,实施过程中,针对用户数据不全面对场景辨识造成的影响,预先使用场景生成模型进行用户全生产场景数据生成,涵盖用户全部生产场景,解决数据不全面的问题。
附图说明
图1为本发明数据驱动的电压暂降下用户生产场景辨识方法的流程图。
图2为生成对抗网络示意图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步详细说明。本发明使用改进的生成对抗网络搭建场景生成模型,使用随机森林算法构建分类模型,解决了在数据不全面的情况下进行用户场景辨识的问题。流程图如图1所示,具体过程如下:
1)监测数据预处理
选取某用户前一年的有功监测数据,数据每三分钟记录一个点,一天内共记录480个点。监测数据容易受到噪声的影响,产生异常数值,需首先对监测数据进行处理。采用中值滤波算法平滑有功功率曲线,降低噪声对检测结果的影响,计算公式如下式所示。
其中,x1,x2,...,xn视作一段用户功率数据序列,y则为数据序列的中值,n是设立的窗口宽度,med表示取中值。
对监测数据进行归一化处理,如下式所示。
式中,xe为归一化后数据值,xmax为监测数据最大值,xmin为监测数据最小值,x为选取的监测数据值。
以一天的数据为基准提取样本数据特征,针对样本数据的特点,共提取7项特征以全面反映功率数据的特点,分别为功率数据的均值、最大值、最小值、全距、变异系数、偏度、峰度等,从而可对样本数据数值的一般水平、发散程度、分布偏斜方向和程度、分布形态的陡缓程度等特征进行描述。
首先进行样本数据均值的计算,表征平均功率值,如下式所示。
式中,μ为均值,M为样本个数,dj表示数据序列d中的第j个数据。
进行样本数据最大值提取,表征当天功率最大值,如下式所示。
dmax=max(d1,d2,...,dM) (4)
式中,dmax为最大值,max()为求取最大值。
进行样本数据最小值提取,表征当天功率最小值,如下式所示。
dmin=min(d1,d2,...,dM) (5)
式中,dmin为最大值,min()为求取最小值。
进行样本数据全距的计算,表征功率的最大波动值,如下式所示。
R=dmax-dmin (6)
式中,R表示全距。
进行样本数据变异系数的计算,表征功率的波动性,如下式所示
式中,CV为变异系数,σ为方差。
进行样本数据偏度的计算,表征功率分布的偏斜方向,如下式所示
式中,P表示偏度。
对样本数据峰度进行计算,表征功率分布的陡缓程度,如下式所示
式中,K表示峰度。
2)建立场景生成模型
设用户共有m条生产线,则不同生产线的排列组合共有2m种,排除用户完全停工情况,则共有(2m-1)种生产场景,传统GAN为无监督学习模型,不满足多场景数据生成的情况,因此引入生产场景条件信息cd以区分不同生产场景,将用户生产线按序号排列,则形成具有m个数据的序列,若序列中某一位置所表示的生产线处于运行状态,则相应位置数字取为1,若生产线处于停工状态,则相应位置数字取为0,通过对生产场景编码进行不同生产场景的区分并作为条件信息cd。
假定已知生产场景数为a,则a≤(2m-1),将a个已知场景进行编码。给定随机噪声z,此处取为20个点,并且服从(0,1)的均匀分布Pz,将已知生产场景编码与随机噪声拼接作为生成器输入。定义真实数据为r,同样服从某分布Pr,将已知生产场景编码与该生产场景对应的真实样本数据拼接作为判别器输入,此处生产场景编码以一天的生产场景为准进行编码,其对应的真实样本数据也为一天的数据,生产场景编码数据为m个点,其对应的一天的真实样本数据共480个点。同时,生成器输出一并输入判别器,判别器判定相应数值为真实数据还是为生成数据。同时,为了挖掘功率数据的时序特征,引入卷积网络,提高数据样本生成质量,从而采用条件深度卷积生成对抗网络(conditional deep convolutionsgenerative adversarial network,C-DC-GAN)构造场景生成模型,生成对抗网络示意图如图2所示。
则此时对于判别器而言,其损失函数如下式所示。
式中,Loss表示求取损失值,r为真实数据,G(z)为生成数据,Pr为真实数据分布,PG(z)为生成数据分布,cd为生产场景条件信息,E表示求取均值,D为判别器函数。
对于用户而言,即使是同一生产场景,在不同的时间内,其功率数据仍然会出现相应波动,即同一生产场景的有功监测数据特征存在差异,因此对于生成器而言,其不仅需要生成不同生产场景的数据,同时对于同一生产场景,其生成数据特征分布同样应满足真实样本数据特征的分布,因而针对生成器损失函数,其应该包含生成数据与真实数据之间数据特征分布的描述,从而生成器损失函数如下式所示,在满足了拉进真实数据分布与生成数据分布距离的同时,保证生成数据特征分布与真实数据特征分布基本一致。
式中,l为数据特征总数,Gc(z)表示cd场景生成样本的数据特征,表示cd场景生成样本数据特征分布,rc表示cd场景真实样本的数据特征,/>表示cd场景真实样本数据特征分布,/>表示选取第lc个特征,||·||表示求分布的距离。
传统GAN在反向传递时容易出现梯度消失等问题,影响场景数据生成的准确性,为此,引入瓦瑟斯坦(Wasserstein)距离以提高训练的稳定性。Wasserstein距离的定义如下式所示。
式中,W表示Wasserstein距离,Π(Pr,PG(z))是Pr和PG(z)组合起来的所有可能的联合分布的集合,γ为每一个可能的联合分布,inf表示在所有可能的联合分布中能够对这个值取到的下界。
Wasserstein距离无法直接求取,因而转化为下式的形式进行计算。
式中,||D||L表示对判别器函数D取其利普希茨(Lipschitz)常数,K为限值,D(r)为真实数据在D中判断为真的概率,D(G(z))为生成数据在D中判定为真的概率,sup表示取上界。
则此时,GAN的目标函数如下式所示。
式中,表示对生成器而言,其目标是使得该部分值取得最小值,/>表示对于判别器而言,其目标是使得该部分值取得最大值,λ为正则项系数,/>为梯度计算,||·||nn表示nn范数,nr均表示正整数,r'为从生成数据和真实数据中取值而成的组合数,Pr'为r'的数据分布,为ε为随机数,Runi[]表示从区间内均匀取值。
式(14)中,λ以及nr的不同取值会影响GAN网络的性能,因此,需明确其值,但是,若用全部数据进行完整的训练,再比较不同取值下GAN网络性能,则需耗费极多的时间,因而此处以全部数据训练设定的完整训练周期数epoch的1/4周期数即可,此时模型损失值已基本趋于平稳。则此时在不同的λ以及nr取值下训练1/4epoch周期数,比较此时鉴别器输出的生成器生成数据与真实数据的差异,如下式所示。
式中,ξ表示函数关系,Rpint[]表示取值范围内随机取值的正整数。
针对所有已知的生产场景以及对应的监测数据,预留两部分数据,其一为某些已知生产场景的全部数据,用于验证未知场景生成数据的正确性,其二为某些已知生产场景的部分数据,用于验证已知场景生成数据的正确性,其余数据均作为训练集输入到网络中。
3)生成数据质量评估
训练完毕后,将所有的(2m-1)种生产场景编码与随机噪声数据拼接后输入到生成器,解决调研场景数据未覆盖用户全部生产场景数据的问题,同时解决用户特定调研生产场景实际运行监测数据过少的问题。
为了评估生成数据的正确性,需对生成数据质量进行评估,此时的生成数据包含两部分结果,一部分结果为未知生产场景生成数据,一部分结果为已知生产场景扩充数据,须同时对两部分数据的正确性进行评估以反映模型数据挖掘以及数据扩充的性能。针对此种情况,未知场景数据验证集采用预留部分已知生产场景的全部监测数据作为评估数据集,而已知生产场景数据验证集则预留对应场景中的部分数据作为评估数据集。
则对应生产场景的评估指标如下式所示,第一部分评估生成数据与真实数据之间的偏差,第二部分评估生成数据特征分布与真实数据特征分布之间的差异,相较于传统评估方法,能更进一步的评估生成数据的准确性。
式中,i1表示该场景下的第i1个生成数据序列,N1为生成数据序列总数,i2为数据序列中的第i2个数据,N2为数据序列包含数据个数,rt为真实数据中所选择的典型数据,Gs(z)表示S场景下的生成数据,i3表示选取第i3个特征,i4表示特征分布序列数据中的第i4个数据,N4表示特征分布序列数据总数,F表示取特征,rs表示S场景下的真实数据,Eass,s表示S场景下的评估值。
4)建立场景辨识模型
设生成样本与真实样本混合后的数据集为T,提取混合数据集的样本特征,同时在T中随机有放回的进行t次抽取组成一个样本子集,重复t次获得t个样本子集。在抽取过程中,有36.8%的样本不会被抽取到,这部分样本定义为袋外样本(out of bag,OOB),以OBB数据作为测试集。
对于每个样本子集,利用决策回归树(classification and regression tree,CART)算法构建决策树并组合形成随机森林(random forest,RF),表示为{C1,C2,...,Ct}。对于每一个决策树,随机抽取特征,数据集在每一个节点再分为两个子集Tt1和Tt2,假设将第v个特征的h取值处划分作为最优划分点,则此时,目标函数可表示为(17)。
式中,U1为子集Tt1对应的类别数,pb1为数据序列属于第b1类的概率,U2为子集Tt2对应的类别数,pb2为数据序列属于第b2类的概率。
决策树构建好之后,利用测试集对其进行测试,对于测试得到的分类结果进行投票,此时,每个决策树票数相同,选出票数最多的类别作为随机森林最后判定的所属类别,将其与实际的所属类别进行比较,此处所属类别即为实际的生产场景,并判断随机森林的分类正确率,如(18)所示。
式中,Score为分类正确率,Hright为正确分类的数量,H为测试集样本总数量。
特征的选择对于随机森林正确率有极大的影响,因此每次对单个类型的输入特征数值添加噪声,重新进行训练,辨识特征敏感度,如(19)所示。
式中,表示第ld个特征的敏感度,Scoreinv为模型的初始分类正确率,/>为在第ld个特征添加噪声后模型的正确率,/>表示在第le个特征添加噪声后模型的正确率。
从而根据(19),敏感度值越大,表明该特征对于模型分类正确率具有更大的影响,因而,根据决策树随机选择特征的不同,决策树对于分类结果正确性具有不同的贡献,则不同的决策树根据所选取特征的差异具有不同的票数,决策树敏感度即为票数评价指标,如(20)所示。
式中,Esen,Ci表示第Ci个决策树的敏感度,lCi,total表示第Ci个决策树的特征总数,lCi,g表示第Ci个决策树的第g个特征,表示第Ci个决策树的第g个特征的敏感度,VoteCi表示第Ci个决策树的票数,Esen,Ca表示第Ca个决策树的敏感度,Ct表示随机森林的决策树数量。
此时即可根据决策树票数差异表征不同决策树对于最终分类结果的影响,从而提高随机森林整体的分类正确率,进而成功辨识用户生产场景。

Claims (5)

1.一种数据驱动的电压暂降下用户生产场景辨识方法,其特征在于,包括以下步骤:
步骤1:选取某用户特定时间段内有功监测数据,进行预处理,并提取反映功率数据特点的特征;
步骤2:利用条件深度卷积生成对抗网络,建立场景生成模型;
通过对生产场景编码进行不同生产场景的区分,作为生产场景条件信息;将已知生产场景编码与随机噪声拼接作为生成器输入,将已知生产场景编码与该生产场景对应的真实样本数据拼接作为判别器输入,且生成器输出一并输入判别器,判别器判定相应数值为真实数据还是为生成数据;
步骤3:利用随机森林算法建立场景分类模型,计算决策树票数,实现用户生产场景辨识;
所述步骤2具体包括:
步骤2.1:设用户共有m条生产线,则不同生产线的排列组合共有2m种,共有(2m-1)种生产场景;引入生产场景条件信息cd以区分不同生产场景,将用户生产线按序号排列,则形成具有m个数据的序列,若序列中某一位置所表示的生产线处于运行状态,则相应位置数字取为1,若生产线处于停工状态,则相应位置数字取为0,通过对生产场景编码进行不同生产场景的区分并作为条件信息cd;
步骤2.2:假定已知生产场景数为a,则a≤(2m-1),将a个已知场景进行编码;给定随机噪声z,并且服从(0,1)的均匀分布Pz,将已知生产场景编码与随机噪声拼接作为生成器输入;定义真实数据为r,同样服从某分布Pr,将已知生产场景编码与该生产场景对应的真实样本数据拼接作为判别器输入;此时判别器损失函数为:
式中,Loss表示求取损失值,r为真实数据,G(z)为生成数据,Pr为真实数据分布,PG(z)为生成数据分布,cd为生产场景条件信息,E表示求取均值,D为判别器函数;
步骤2.3:为在满足拉进真实数据分布与生成数据分布距离的同时,保证生成数据特征分布与真实数据特征分布基本一致,则生成器损失函数为:
式中,l为数据特征总数,Gc(z)表示cd场景生成样本的数据特征,表示cd场景生成样本数据特征分布,rc表示cd场景真实样本的数据特征,/>表示cd场景真实样本数据特征分布,/>表示选取第lc个特征,||·||表示求分布的距离;
步骤2.4:引入瓦瑟斯坦距离以提高训练的稳定性,Wasserstein距离的定义如下:
式中,W表示Wasserstein距离,Π(Pr,PG(z))是Pr和PG(z)组合起来的所有可能的联合分布的集合,γ为每一个可能的联合分布,inf表示在所有可能的联合分布中能够对这个值取到的下界;
将上式转化为下式:
式中,||D||L表示对判别器函数D取其利普希茨常数,K为限值,D(r)为真实数据在判别器函数D中判断为真的概率,D(G(z))为生成数据在判别器函数D中判定为真的概率,sup表示取上界;
则此时,生成对抗网络的目标函数如下所示:
式中,表示对生成器而言,其目标是使得该部分值取得最小值,/>表示对于判别器而言,其目标是使得该部分值取得最大值;λ为正则项系数,/>为梯度计算,||·||nn表示nn范数,nr均表示正整数,r′为从生成数据和真实数据中取值而成的组合数,Pr′为r′的数据分布,ε为随机数,Runi[]表示从区间内均匀取值。
2.根据权利要求1所述的数据驱动的电压暂降下用户生产场景辨识方法,其特征在于,步骤1中,对数据进行预处理包括:
采用中值滤波算法平滑有功功率曲线,降低噪声对检测结果的影响,计算公式如下:
其中,x1,x2,...,xn为用户功率数据序列,y则为数据序列的中值,n是设立的窗口宽度,med表示取中值;
对监测数据进行归一化处理:
式中,xe为归一化后数据值,xmax为监测数据最大值,xmin为监测数据最小值,x为选取的监测数据值。
3.根据权利要求1所述的数据驱动的电压暂降下用户生产场景辨识方法,其特征在于,步骤1中,提取反映功率数据特点的特征具体包括:
步骤1.1:进行样本数据均值的计算,表征平均功率值:
式中,μ为均值,M为样本个数,dj表示数据序列d中的第j个数据;
步骤1.2:进行样本数据最大值提取,表征当天功率最大值:
dmax=max(d1,d2,...,dM) (4)
式中,dmax为最大值,max()为求取最大值;
步骤1.3:进行样本数据最小值提取,表征当天功率最小值:
dmin=min(d1,d2,...,dM) (5)
式中,dmin为最大值,min()为求取最小值;
步骤1.4:进行样本数据全距的计算,表征功率的最大波动值:
R=dmax-dmin (6)
式中,R表示全距;
步骤1.5:进行样本数据变异系数的计算,表征功率的波动性:
式中,CV为变异系数,σ为方差;
步骤1.6:进行样本数据偏度的计算,表征功率分布的偏斜方向:
式中,P表示偏度;
步骤1.7:对样本数据峰度进行计算,表征功率分布的陡缓程度:
式中,K表示峰度。
4.根据权利要求1所述的数据驱动的电压暂降下用户生产场景辨识方法,其特征在于,所述步骤2和步骤3之间还包括生成数据质量评估,具体为:
未知场景数据验证集采用预留部分已知生产场景的全部监测数据作为评估数据集,而已知生产场景数据验证集则预留对应场景中的部分数据作为评估数据集;则对应生产场景的评估指标如下式所示,第一部分评估生成数据与真实数据之间的偏差,第二部分评估生成数据特征分布与真实数据特征分布之间的差异;
式中,Eass,s表示S场景下的评估值;i1表示该场景下的第i1个生成数据序列,N1为生成数据序列总数;i2为数据序列中的第i2个数据,N2为数据序列包含数据个数;rt为真实数据中所选择的典型数据,Gs(z)表示S场景下的生成数据;i3表示选取第i3个特征;i4表示特征分布序列数据中的第i4个数据,N4表示特征分布序列数据总数;F表示取特征,rs表示S场景下的真实数据。
5.根据权利要求1所述的数据驱动的电压暂降下用户生产场景辨识方法,其特征在于,所述步骤3具体包括:
步骤3.1:设生成样本与真实样本混合后的数据集为T,提取混合数据集的样本特征,同时在T中随机有放回的进行t次抽取组成一个样本子集,重复t次获得t个样本子集;将不会被抽取到的样本定义为袋外样本,作为测试集;
步骤3.2:对于每个样本子集,利用决策回归树算法构建决策树并组合形成随机森林,表示为{C1,C2,...,Ct};对于每一个决策树,随机抽取特征,数据集在每一个节点再分为两个子集Tt1和Tt2,假设将第v个特征的h取值处划分作为最优划分点,则此时,目标函数表示:
式中,U1为子集Tt1对应的类别数,pb1为数据序列属于第b1类的概率;U2为子集Tt2对应的类别数,pb2为数据序列属于第b2类的概率;
步骤3.2:利用测试集对决策树进行测试,对于测试得到的分类结果进行投票,选出票数最多的类别作为随机森林最后判定的所属类别,将其与实际的所属类别进行比较,所属类别即为实际的生产场景,并判断随机森林的分类正确率:
式中,Score为分类正确率,Hright为正确分类的数量,H为测试集样本总数量;
步骤3.3:对单个类型的输入特征数值添加噪声,重新进行训练,辨识特征敏感度:
式中,表示第ld个特征的敏感度,Scoreinv为模型的初始分类正确率,/>为在第ld个特征添加噪声后模型的正确率;/>表示在第le个特征添加噪声后模型的正确率;步骤3.4:根据决策树票数差异表征不同决策树对于最终分类结果的影响,决策树敏感度即为票数评价指标:
式中,Esen,Ci表示第Ci个决策树的敏感度,lCi,total表示第Ci个决策树的特征总数,lCi,g表示第Ci个决策树的第g个特征,表示第Ci个决策树的第g个特征的敏感度,VoteCi表示第Ci个决策树的票数,Esen,Ca表示第Ca个决策树的敏感度,Ct表示随机森林的决策树数量。
CN202310018367.5A 2023-01-06 2023-01-06 一种数据驱动的电压暂降下用户生产场景辨识方法 Active CN116231631B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310018367.5A CN116231631B (zh) 2023-01-06 2023-01-06 一种数据驱动的电压暂降下用户生产场景辨识方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310018367.5A CN116231631B (zh) 2023-01-06 2023-01-06 一种数据驱动的电压暂降下用户生产场景辨识方法

Publications (2)

Publication Number Publication Date
CN116231631A CN116231631A (zh) 2023-06-06
CN116231631B true CN116231631B (zh) 2024-03-12

Family

ID=86576092

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310018367.5A Active CN116231631B (zh) 2023-01-06 2023-01-06 一种数据驱动的电压暂降下用户生产场景辨识方法

Country Status (1)

Country Link
CN (1) CN116231631B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102141403A (zh) * 2010-12-17 2011-08-03 北京航空航天大学 基于小波阈值去噪、中值滤波和均值滤波的实时混合去噪方法
CN113269314A (zh) * 2021-06-16 2021-08-17 福州大学 基于生成对抗网络的新能源发电场景数据迁移方法
CN113591960A (zh) * 2021-07-22 2021-11-02 江阴长仪集团有限公司 一种基于改进生成对抗网络的电压暂降事件类型辨识方法
CN114530847A (zh) * 2022-02-23 2022-05-24 安徽理工大学 非活性电流谐波结合XGBoost的非侵入式负荷辨识方法
CN114881077A (zh) * 2022-05-05 2022-08-09 西安交通大学 一种基于时序轨迹特征的电压暂降源分类方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220036199A1 (en) * 2020-07-31 2022-02-03 VoltSense, Inc. System and method for predictive foliage impingement and wildfire management using generative adversarial network

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102141403A (zh) * 2010-12-17 2011-08-03 北京航空航天大学 基于小波阈值去噪、中值滤波和均值滤波的实时混合去噪方法
CN113269314A (zh) * 2021-06-16 2021-08-17 福州大学 基于生成对抗网络的新能源发电场景数据迁移方法
CN113591960A (zh) * 2021-07-22 2021-11-02 江阴长仪集团有限公司 一种基于改进生成对抗网络的电压暂降事件类型辨识方法
CN114530847A (zh) * 2022-02-23 2022-05-24 安徽理工大学 非活性电流谐波结合XGBoost的非侵入式负荷辨识方法
CN114881077A (zh) * 2022-05-05 2022-08-09 西安交通大学 一种基于时序轨迹特征的电压暂降源分类方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于条件深度卷积生成对抗网络的新能源发电场景数据迁移方法;张承圣 等;《电网技术》(第6期);第2182-2189页 *
基于模糊C均值聚类和样本加权卷积神经网络的日前光伏出力预测研究;吕伟杰 等;《电网技术》(第1期);第231-238页 *
电压暂降源异质堆叠集成学习识别法;汪颖 等;《电力系统保护与控制》(第15期);第1-8页 *

Also Published As

Publication number Publication date
CN116231631A (zh) 2023-06-06

Similar Documents

Publication Publication Date Title
CN111181939B (zh) 一种基于集成学习的网络入侵检测方法及装置
CN110132598B (zh) 旋转设备滚动轴承故障噪声诊断算法
CN111444951B (zh) 样本识别模型的生成方法、装置、计算机设备和存储介质
CN101464950A (zh) 基于在线学习和贝叶斯推理的视频人脸识别与检索方法
CN105095238A (zh) 用于检测欺诈交易的决策树生成方法
CN112465124B (zh) 孪生深度时空神经网络模型获取/故障诊断方法、装置
CN111401785A (zh) 一种基于模糊关联规则的电力系统设备故障预警方法
CN115510042A (zh) 基于生成对抗网络的电力系统负荷数据填补方法及装置
CN113052271B (zh) 基于深度神经网络的生物发酵数据预测方法
CN112989361A (zh) 一种基于生成对抗网络的模型安全性检测方法
CN115908842A (zh) 变压器局部放电数据增强与识别方法
CN113780432B (zh) 基于增强学习的网络信息系统运维异常智能检测方法
Zhou et al. Credit card fraud identification based on principal component analysis and improved AdaBoost algorithm
CN110705693A (zh) 一种无人机异常行为识别模块及其识别方法
CN109033205B (zh) 基于数据输入行为分析的航天测试数据校核装置
CN114037001A (zh) 基于wgan-gp-c和度量学习的机械泵小样本故障诊断方法
CN114091360A (zh) 一种多模型融合的电压互感器误差状态评估方法
CN114460481A (zh) 基于Bi-LSTM和注意力机制的储能电池热失控预警方法
CN116231631B (zh) 一种数据驱动的电压暂降下用户生产场景辨识方法
CN116977834A (zh) 一种开放条件下分布内外图像识别方法
CN116433049A (zh) 一种基于模糊粗糙熵的用电异常检测方法
CN113722239B (zh) 机载嵌入式软件质量检测方法、装置、介质及电子设备
CN115470839A (zh) 一种电力变压器故障诊断方法
CN114492830A (zh) 基于个体歧视实例对生成的深度学习模型去偏方法及其装置
CN111816404A (zh) 一种消磁方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant