CN114839586B - 基于em算法的低压台区计量装置失准计算方法 - Google Patents
基于em算法的低压台区计量装置失准计算方法 Download PDFInfo
- Publication number
- CN114839586B CN114839586B CN202210512249.5A CN202210512249A CN114839586B CN 114839586 B CN114839586 B CN 114839586B CN 202210512249 A CN202210512249 A CN 202210512249A CN 114839586 B CN114839586 B CN 114839586B
- Authority
- CN
- China
- Prior art keywords
- data
- misalignment
- metering device
- electric quantity
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 47
- 238000012549 training Methods 0.000 claims abstract description 61
- 238000000034 method Methods 0.000 claims abstract description 44
- 238000010276 construction Methods 0.000 claims abstract description 12
- 238000005457 optimization Methods 0.000 claims abstract description 8
- 238000009826 distribution Methods 0.000 claims description 54
- 230000006870 function Effects 0.000 claims description 19
- 230000011218 segmentation Effects 0.000 claims description 17
- 238000012360 testing method Methods 0.000 claims description 15
- 238000009499 grossing Methods 0.000 claims description 14
- 238000012417 linear regression Methods 0.000 claims description 13
- 230000000737 periodic effect Effects 0.000 claims description 12
- 230000000694 effects Effects 0.000 claims description 6
- 238000007476 Maximum Likelihood Methods 0.000 claims description 5
- 238000012217 deletion Methods 0.000 claims description 4
- 230000037430 deletion Effects 0.000 claims description 4
- 238000010801 machine learning Methods 0.000 claims description 4
- 238000002790 cross-validation Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 11
- 230000005611 electricity Effects 0.000 abstract description 9
- 238000005259 measurement Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01R—MEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
- G01R35/00—Testing or calibrating of apparatus covered by the other groups of this subclass
- G01R35/04—Testing or calibrating of apparatus covered by the other groups of this subclass of instruments for measuring time integral of power or current
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Business, Economics & Management (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Water Supply & Treatment (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Supply And Distribution Of Alternating Current (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于EM算法的低压台区计量装置失准计算方法,包括:提取参与建模的计量装置的电量数据并进行处理,完成训练数据构建;构建含有隐变量的混合聚类模型,使用EM算法进行优化求解;归档聚类参数,构建失准计算模型,计算计量装置的失准电量。本方法利用台区各线路之间的电量关系,并结合台区电气特性与用电规律进行计量装置失准分析,不要求台区有完整的拓扑结构,可直接建模进行台区出线处计量装置与全部末端处计量装置的失准计算,并可以计算出具体时刻下每个计量装置的失准值,精细度高、适应性强。
Description
技术领域
本发明涉及配网自动化技术领域,具体涉及一种基于EM算法的低压台区计量装置失准计算方法。
背景技术
随着低压台区智能化的推进,台区下的分支箱、表箱等节点处的智能设备(智能开关、末端感知、电能表)均带有计量和通讯功能,满足了各线路与节点的电压、电流、电量等数据项的采集和传输。计量失准指的是计量装置所在线路电量的计量值与实际值存在偏差,造成计量失准的具体原因可能为装置异常和人为窃电等多方面因素。
目前比较常见的低压台区计量装置失准分析/计算方法有如下三种:第一,使用日用电量/总表日电量与台区日线损的相关性实现户变关系纠错及失准分析,通过计算出相邻台区中相关性为负的用户,在跨台区分析比对,推断户变的关系错误或是计量失准,该方法的特点是简单易行、无需增加设备和成本,但依赖台区线损的相关性,复杂环境下结果不准确,而且只能作分析推断,无法计算每个计量装置的线损,最终验证还需人工现场排查。
第二,在线路中增加失准分析设备,周期性采集相关的离散的电压、电流和计量装置的电能脉冲,通过计算积分电量实现失准校验,该方法的优点是可计算出具体时刻计量装置的线损,且需的数据少,准确性高,但是增加的装置硬件成本较高,同时涉及人工选点、安装和测试等工作,且高频采集数据会对台区的运行造成不稳定影响,不利于电力业务的深入应用。
第三,基于台区拓扑结构的最小二乘法:使用N个计量周期电量、电压的数据,构建表箱侧的最小二乘法模型,模型有解析解,分析模型系数以获得计量失准信息,该方法优点是不需要增加投资,方法较新颖,但存在两个问题:一方面,该方法需要台区有箱表的拓扑关系,在箱表侧进行建模,即参与失准的计量装置数量不宜过多;另一方面,该方法需要台区N个计量周期的相对误差加权平均值保持不变,即需要N个计量周期内计量装置的误差相对恒定,其计算的结果为N个周期的综合值,运用该方法无法计算具体时刻的计量装置失准值。
发明内容
本发明提出了一种基于EM算法的低压台区计量装置失准计算方法,其目的是:克服现有技术的缺陷,利用计量周期电量数据进行失准分析,具有良好的适应性,不依赖于台区拓扑结构,并能够实现具体时刻下的失准电量计算。
本发明技术方案如下:
一种基于EM算法的低压台区计量装置失准计算方法,包括如下步骤:
S1:提取参与建模的计量装置的电量数据并进行处理,完成训练数据构建;
S2:构建含有隐变量的混合聚类模型,使用EM算法进行优化求解;
S3:归档聚类参数,构建失准计算模型,计算计量装置的失准电量。
进一步地,所述步骤S2具体包括:
S21:训练数据服从偏态分布,记为w~(μ,σ2,λ),检验采集数据集Zn×m的损耗曲线Dm,分析损耗序列数据的特征,估算失准类型,并根据失准类型生成K个偏态分布模型,随机生成K个偏态分布的初始参数所述K个偏态分布模型组合构成EM混合聚类模型,正整数K及每个偏态分布参数为隐变量,αk代表第j个训练数据wj属于第k个子模型的概率,其中
k=1,2,3,...,K
S22:E-step步骤
首先构建训练数据中隐变量的概率分布:
其中N为训练数据的个数,N=(n-1)(I+H);
然后利用所述概率分布计算期望:
S23:M-step步骤
计算函数最大化:
构建Q(θ,θ(t))的下界函数并求其最大,得到的新一轮迭代值,返回步骤S22;
S24:不断循环E-step和M-step步骤,直到参数收敛,即||θt+1-θt||<εEM。
进一步地,所述步骤S3具体包括:
S31:构建失准计算模型,所述失准计算模型包含K个类别的分类器,所述K个类别的分类器与所述K个偏态分布模型相对应,定义优化函数:
s.t.(w2X2+w3X3+....+wnXn+ξ-D)2-ε≤0
wi∈Pk的定义域i=2,3,...,n
其中,Pk(wθk)代表第k偏态分布模型,X2,X3,....,Xn为某一时刻台区下所有末端计量装置的电量,D为同一时刻的台区损耗,ξ为同一时刻的线损的补偿常数,ε为松弛变量,wi为失准系数,wi是所述失准计算模型的待优化变量;
S32:依次求K个偏态分布模型的似然值选择似然值最大的偏态分布模型的系数wi作为最优解;
S33:计算计量装置的失准电量:若输入变量为某一时刻的电量数据,使用wi乘以对应的Xi得到对应计量装置的失准电量;若输入变量为多个时刻的序列数据,则将序列数据拆分为多个单一时刻数据,分别使用wi乘以对应的Xi求得单一时刻计量装置的失准电量,将所有计算结果求和即得到该序列数据的失准电量。
进一步地,所述步骤S1具体包括:
S11:提取一个时间段内的参与建模的计量装置电量数据,形成采集数据集Zn×m,对采集数据集Zn×m中的缺失数据进行删除和填充,其中n代表参与建模的计量装置标识,m代表电量数据采集时刻;
S12:利用损耗曲线Dm完成采集数据集Zn×m的更新,并生成线损数据集
S13:对采集数据集Zn×m和线损数据集进行归一化,分别对采集数据集Zn×m和线损数据集/>按列进行数据段的切分,线损数据集/>的切分数为I,切分后的数据段记为{Z`1,Z`2,...,Z`I},采集数据集Zn×m的切分数为H,切分后的数据段记为{Z`1,Z`2,...,Z`H};
S14:合并步骤S13得到的两组切分数据段形成序列,依次对所述序列的每个数据段进行多元线性回归,完成训练数据的构建。
进一步地,步骤S13所述分别对采集数据集Zn×m和线损数据集按列进行数据段的切分具体包括:
对线损数据集使用连续切分形成I个数据段,每个数据段的列数均大于n;
对采集数据集Zn×m使用周期切分:首先使用常数T将Zn×m按列切分成个数据段,记为周期数据段,然后对所述周期数据段使用连续切分的方式再次切分,每个周期数据段被切分为H个二级数据段,抽取每个周期数据段内偏移位置相同的二级数据段进行合并形成时间数据段,将所有时间数据段按段合并形成最终数据段{Z`1,Z`2,...,Z`H}。
进一步地,所述步骤S14具体包括:
Ⅰ.按段合并步骤S13得到的两组切分数据段,构建一个数据段序列,记为{Z`1,Z`2,...,Z`I,Z`I+1,Z`I+2,...,Z`I+H};
Ⅱ.对数据段Z`1进行多元线性回归:
其中,(Xn)i表示计量装置电量,为计量装置电量乘失准系数的加和,/>为时刻线路损耗,/>指数据段Z1`的长度,/>为失准系数,(ξ)i为线路线损的补偿常数,||w(1)||1为L1正则项;
使用L1正则的线性回归模型求得失准系数的解,记为:
w=(XT·X)-1·(XT·D-η)
其中,X为计量装置电量矩阵,D为损耗向量,η为超参数;
Ⅲ.按照步骤Ⅱ所述方法依次对{Z`1,Z`2,...,Z`I,Z`I+1,Z`I+2,...,Z`I+H}中的数据段进行多元线性回归,合并全部系数解得到一个数据集合,记为上角标表示对应的数据段,至此完成训练数据的构建。
进一步地,所述步骤S13中,I与H的值受训练偏好影响:
进一步地,步骤S11所述对采集数据集Zn×m中的缺失数据进行删除具体包括:
若任一数据采集时刻的出线计量装置的电量数据缺失,则删除该时刻的电量数据;
若任一数据采集时刻的末端计量装置的电量数据缺失,则判断该时刻的数据缺失率,若数据缺失率在设定范围内,则执行下一步,对缺失数据进行填充,若数据缺失率大于设定范围,则删除该时刻的电量数据;
步骤S11所述对采集数据集Zn×m的缺失数据进行填充的方法为:
首先通过下式进行一次指数平滑拟合:
其中,为t时刻的第一期平滑值,/>为t时刻的第二期平滑值,xt-1为t-1时刻的实际值,a为平滑常数;
然后通过下式进行二次指数平滑拟合,使用已有数据完成缺失数据的拟合填充:
xt+T=AT+BT·T T=1,2,3,…
其中,AT为基础偏移,BT为波动趋势,T代表二次指数平滑的预测时期。
进一步地,所述计量装置失准计算方法还包括步骤S4:进行失准计算模型训练,所述失准计算模型训练方法具体包括:
S41:调整步骤S1-S3中的可调参数的值,使用自动化机器学习的方式对所述可调参数进行网格化搜索,生成不同的参数组合;
S42:进行交叉验证:提取m1+m2连续时间段的电量数据,取m1时间段的数据作为训练数据,取m2时间段的数据作为测试数据,生成多个训练集和测试集,测试集按照基于拓扑结构的最小二乘法计算失准电量,验证多个训练集和测试集方案在不同参数组合时分数,所述分数使用RMSE或MSE统计,得到拟合效果最好的参数组合;
S43:利用步骤S42得到的参数组合,将m1+m2连续时间段的全部数据作为训练集按照所述步骤S1-S3再进行一次训练,得到优化的失准计算模型。
相对于现有技术,本发明具有以下有益效果:
(1)本方法利用台区各线路之间的电量关系,并结合台区电气特性与用电规律进行计量装置失准分析:首先对原始数据进行填充、切分、建模分析,构建出训练数据,然后构建含有隐变量的聚类模型,使用EM算法进行优化求解,最后归档聚类参数,构建失准分类计算模型,分析出低压台区的精细失准值,本方法不要求台区有完整的拓扑结构,可直接建模进行台区出线处计量装置与全部末端处计量装置的失准计算,并可以计算出具体时刻下每个计量装置的失准值,精细度高、适应性强;
(2)采用连续切分方式对线损数据集进行数据段切分、周期切分方式对采集数据集进行切分,两种切分方式从线损值和时间值的角度将数据集进行了特征加强,提升了失准计算模型对数据特征不明显的台区的适应性,进一步提高了失准计算的精确度;
(3)通过调整模型参数和自动化机器学习的方式进行模型训练,对失准计算模型进行优化,增强模型的泛化能力,使所构建的失准计算模型能够从训练集出发,经过训练与调优后,具有更广泛的拟合效果。
附图说明
图1为本发明的流程图;
图2为台区参与建模计量装置结构示意图;
图3为线损数据集的切分示意图;
图4为采集数据集的切分示意图;
图5为不同类型失准系数分布示意图;
图6为失准电量精细计算示意图。
具体实施方式
下面结合附图详细说明本发明的技术方案:
如图1,一种基于EM算法的低压台区计量装置失准计算方法,包括如下步骤:
S1:提取参与建模的计量装置的电量数据并进行处理,完成训练数据构建,参与建模的计量装置的结构如图2所示,低压台区规模一般在220-320户左右。具体包括如下步骤:
S11:首先,提取一个时间段内的参与建模的计量装置电量数据,形成采集数据集Zn×m,如下:
其中,(Xn)m表示计量装置电量,n代表参与建模的计量装置标识,m代表电量数据采集时刻,(X1)m代表出线计量装置电量,(X2)m,(X3)m,…,(Xn)m代表末端处计量装置电量。
对采集数据集Zn×m中的缺失数据进行删除和填充。
优选地,对所述采集数据集Zn×m的缺失数据进行删除的方法为:
若任一数据采集时刻的出线计量装置的电量数据缺失,则删除该时刻的电量数据;若任一数据采集时刻的末端计量装置的电量数据缺失,则判断该时刻的数据缺失率,若数据缺失率在设定范围内(如:小于10%),则执行下一步,利用已有数据对缺失数据进行拟合填充,若数据缺失率大于或等于10%,则删除该时刻的电量数据。
一次指数平滑拟合具有滞后性,受节假日,天气等因素影响,本实施例使用二次指数平滑拟合值对缺失数据进行填充。
首先通过下式进行一次指数平滑拟合:
其中,为t时刻的第一期平滑值,/>为t时刻的第二期平滑值,xt-1为t-1时刻的实际值,a为平滑常数,指向近期与远期对于数据的影响程度。。
在此基础上,通过下式进行二次指数平滑拟合:
xt+T=AT+BT·T T=1,2,3,…
其中,AT为基础偏移,BT为波动趋势,T代表二次指数平滑的预测时期,T=1,2,3,…,T=1表示预测t时刻的第一期的平滑值xt+1,同理,T=2表示预测t时刻的第二期平滑值xt+2,以此类推,使用已有数据完成缺失数据的拟合填充。
S12:利用损耗曲线Dm完成采集数据集Zn×m的更新,并生成线损数据集
优选地,计算损耗曲线Dm:
线路损耗=出线计量装置电量-∑末端处计量装置电量
将损耗曲线按时刻关联到采集数据集Zn×m,并从其中移除出线处计量装置电量,完成对采集数据集Zn×m的更新,如下:
将采集数据集Zn×m的列按线路损耗曲线作升序排序(列默认为时间排序),保存排序完的数据集记为即线损数据集。
S13:使用最大最小值的方式按下式对采集数据集Zn×m和线损数据集分别进行归一化:
其中,Zmin为数据集中的最小值,Zmax为数据集中的最大值。
分别对采集数据集Zn×m和线损数据集按列进行数据段的切分,线损数据集的切分数为I,切分后的数据段记为{Z`1,Z`2,...,Z`I},采集数据集Zn×m的切分数为H,切分后的数据段记为{Z`1,Z`2,...,Z`H}。
优选地,如图3,对线损数据集使用连续切分形成I个数据段,每个数据段包含的数据长度不必相等,每个数据段的列数均大于n,n为参与建模的计量装置数量。
如图4,对采集数据集Zn×m使用周期切分:首先使用常数T(T默认取30天)将Zn×m按列切分成个数据段,记为周期数据段,同样,每个周期数据段的列数都大于n,然后对所述周期数据段使用连续切分的方式再次切分,每个周期数据段被切分为H个二级数据段,抽取每个周期数据段内偏移位置相同的二级数据段进行合并形成时间数据段,将所有时间数据段按段合并形成最终数据段{Z`1,Z`2,...,Z`H}。
两种切分方式从线损值和时间值的角度将数据集进行了特征加强,I与H的值受训练偏好影响,对于一般性台区使用混合偏好,如下:
S14:通过多元线性回归方法构建训练数据。具体包括如下步骤:
Ⅰ.按段合并步骤S13得到的两组切分数据段,构建一个数据段序列,记为{Z`1,Z`2,...,Z`I,Z`I+1,Z`I+2,...,Z`I+H}。
Ⅱ.对数据段Z`1进行多元线性回归:
其中,(Xn)i表示计量装置电量,为计量装置电量乘失准系数的加和,/>为时刻线路损耗,/>指数据段Z1`的长度,/>为失准系数,(ξ)i为线路线损的补偿常数,一般设为台区出线计量装置电量的2~3%,||w(1)||1为L1正则项。
使用L1正则的线性回归模型(也叫Lasso回归,模型有解析解)求得失准系数的解,记为:
w=(XT·X)-1·(XT·D-η)
其中,X为计量装置电量矩阵,D为损耗向量,η为超参数。
Ⅲ.按照步骤Ⅱ所述方法依次对{Z`1,Z`2,...,Z`I,Z`I+1,Z`I+2,...,Z`I+H}中的数据段进行多元线性回归,合并全部系数解得到一个数据集合,记为上角标表示对应的数据段,系数值保留两位小数,至此完成训练数据的构建。
S2:构建含有隐变量的混合聚类模型,使用EM算法进行优化求解。
系数为数据段Zl`的计量装置电量乘系数的加和与线路损耗的回归模型系数,可近似表示一段数据序列范围内线路损耗在各计量装置电量的分摊情况。这里的训练数据的下角标从2开始,下角标1在数据集中代表损耗曲线,故没有与其对应的系数,上角标l为分组信息,l∈[1,(I+H)]。
计量装置的损耗情况主要考虑为装置异常、线路线损、人为窃电的综合因素,具体展开三种情况:
(1)根据国网2018年拆回的36.6万电能表检定报告,电表失准误差及误差变化均成正态分布,失准在[-1.5%,1.5%]内;
(2)线路线损是电能通过输电线路传输中的能量损失;
(3)人为窃电是通过相关手段减少计量装置采集的用电量,以达到少缴电费的行为,可视为概率事件。
基于以上分析,应服从偏正态分布,即w服从数学期望μ、方差σ2、偏度参数λ的偏正态分布,简称偏态分布,记为w~(μ,σ2,λ),其概率密度函数如下:
其中,φ(·)和为标准正态分布的密度函数和分布函数,偏态分布形态受均值、方差、偏度等指标的影响,可理解以正态分布为基础,在均值影响分布位置,方差影响峰度的基础上,增加了偏度参数,导致分布具有一定的有偏性和长尾性。在EM混合聚类算法步骤中,需要初始化这些参数,初始参数对算法收敛性有一定的影响。
EM混合聚类模型可看作是由K个偏态分布模型组合而成的混合模型,正整数K及每个偏态分布参数即是隐变量(Hidden variable),包含了训练数据的分类信息。从1开始重新编号训练数据记为{w1,w2,...,w(n-1)·(I+H)},取wj代表{w1,w2,...,w(n-1)(I+H)}中的第j个训练数据,αk代表训练数据wj属于第k个子模型的概率,即子模型在偏态混合中的权重系数,其中:
k=1,2,3,...,K
代表第k个子模型的偏态概率密度函数,则K个偏态分布的混合分布模型的概率密度函数表示为:
其中,θ=(μ,σ2,λ),至此,训练数据wj是已知的,而训练数据属于K中的哪个子模型显然是未知的,使用γjk进一步表示训练数据wj的隐变量信息:
则完全似然函数可以表示为:
其中,令θ=(μ,σ2,λ),N=(n-1)(I+H),一般对似然函数取对数简化计算,直接使用极大似然估计对混合偏态分布进行参数估计,其似然函数解析表达式过于复杂,求解微分方程组非常困难,故使用EM算法求解混合模型的参数,使用的为有限混合分布,优选地,结合实际用电业务情况,取K∈[2,5]的正整数。具体包括如下步骤:
S21:初始化参数其代表第k个偏态分布的数学期望、方差系数、偏度系数及该偏态分布在混合分布中的权重系数。
具体方法:检验采集数据集Zn×m的损耗曲线Dm,分析损耗序列数据的特征(均值、最值、众数等),估算在数据序列范围内存在的失准情况以及失准类型,如损耗曲线较小且最值与众数也与损耗曲线接近,那么可以认为数据序列属于无失准,反之损耗曲线较大可以认为属于高失准。不同失准情况的偏态分布图像也不同,失准值高的图像更离散更偏平,即期望与方差较低失准更大一些,不同的失准类型系数分布如图5所示。
根据失准类型生成K个偏态分布模型,每个模型包含各自的参数再通过随机数生成αk,为不失去随机性,同时生成对应参数的随机分量/>将随机分量加到对应的原参数上,至此完成/>的初始化。
S22:E-step步骤,计算期望:
要计算期望,需构建训练数据中隐变量的概率分布:
其中N为训练数据的个数,N=(n-1)(I+H);
是由/>的当前迭代值计算出的,即建立了变量之间的函数关系,同时有了概率分布,便可以表示出期望函数Q(θ,θ(t)),在M-step步骤中求其下界最大。
S23:M-step步骤,计算函数最大化:
构建Q(θ,θ(t))的下界函数并求其最大,通过求导令其偏导数为0,解出方程求得的值,作为新一轮迭代值,返回步骤S22。
S24:不断循环E-step和M-step步骤,直到参数收敛,其含义为||θt+1-θt||<εEM,εEM取较小的正数,表示每次迭代已经很接近,EM算法流程束。
S3:归档聚类参数,构建失准计算模型,计算计量装置的失准电量。
由于通过步骤S2的EM混合聚类得到了K个偏态分布的模型,模型的参数θ=(μ,σ2,λ),K个偏态分布模型是从(n-1)(I+H)个的训练数据中聚类所得到,聚类本身就是训练数据的特征与规律进一步抽象过程,如:失准的形态及分布参数等。
具体包括如下步骤:
S31:构建失准计算模型,所述失准计算模型包含K个类别的分类器,所述K个类别的分类器与所述K个偏态分布模型相对应,定义优化函数:
s.t.(w2X2+w3X3+....+wnXn+ξ-D)2-ε≤0
wi∈Pk的定义域i=2,3,...,n
其中,Pk(w|θk)代表第k偏态分布模型,其参数均为已知,由步骤S2的EM混合聚类求得。X2,X3,....,Xn为某一时刻台区下所有末端计量装置的电量,D为同一时刻的台区损耗,ξ为同时刻的线损的补偿常数,ε为松弛变量,这里作为超参数,wi为失准系数,wi是所述失准计算模型的待优化变量。
这里所说的某一时刻的数据可以是步骤S1所述提取参与建模的计量装置的电量数据之外的数据(即电量数据采集时刻m之外的数据),即对一新时刻的失准电量进行分析。
S32:所述失准计算模型本质是一个带约束的极大似然估计,其含义为约束失准系数wi在偏态分布模型的定义域内,约束wiXi与D相互接近,保证有较好数据拟和,故依次求K个偏态分布模型的似然值选择似然值最大的偏态分布模型的系数wi作为最优解。
S33:如图6,计算计量装置的失准电量:若输入变量为某一时刻的电量数据,使用wi乘以对应的Xi得到对应计量装置的失准电量;若输入变量为多个时刻的序列数据,则将序列数据拆分为多个单一时刻数据,分别使用wi乘以对应的Xi求得单一时刻计量装置的失准电量,将所有计算结果求和即得到该序列数据的失准电量。
为增强模型的泛化能力,使所构建的失准计算模型能够从训练集出发,经过训练与调优后具有更广泛的拟合效果,在拓扑结构已知的低压台区使用本模型进行失准计算,当所述失准计算模型存在过拟合或欠拟合情况时,执行步骤S4:进行失准计算模型训练/验证。完成模型训练/验证后,即可投入生产进行使用。
所述步骤S4具体包括如下步骤:
S41:调整步骤S1-S3中的可调参数的值,所述可调参数包括:数据训练的偏好值(调整I或者H)、混合聚类模型数K的值、多元线性回归的超参数η、失准计算模型的松弛变量ε等。
为了提高失准计算模型的拟合能力,减少欠拟合与过拟合情况,使用自动化机器学习的方式对所述可调参数进行网格化搜索,生成不同的参数组合。
S42:进行交叉验证:提取m1+m2连续时间段的电量数据(如:10个月内的15分钟电量曲线数据),取m1时间段(7个月)的数据作为训练数据,取m2时间段(3个月)的数据作为测试数据,生成多个训练集和测试集,测试集按照背景技术中所述基于拓扑结构的最小二乘法计算失准电量,验证多个训练集和测试集方案在不同参数组合时分数,所述分数使用RMSE或MSE统计,得到拟合效果最好的参数组合。
S43:利用步骤S42得到的参数组合,将m1+m2连续时间段的全部数据作为训练集按照所述步骤S1-S3再进行一次训练,得到优化的失准计算模型。
Claims (7)
1.一种基于EM算法的低压台区计量装置失准计算方法,其特征在于,包括如下步骤:
S1:提取参与建模的计量装置的电量数据并进行处理,完成训练数据构建;
所述步骤S1具体包括:
S11:提取一个时间段内的参与建模的计量装置电量数据,形成采集数据集Zn×m,对采集数据集Zn×m中的缺失数据进行删除和填充,其中n代表参与建模的计量装置标识,m代表电量数据采集时刻;
S12:利用损耗曲线Dm完成采集数据集Zn×m的更新,并生成线损数据集
损耗曲线Dm计算方式为:
线路损耗=出线计量装置电量-∑末端处计量装置电量;
S13:对采集数据集Zn×m和线损数据集进行归一化,分别对采集数据集Zn×m和线损数据集/>按列进行数据段的切分,线损数据集/>的切分数为I,切分后的数据段记为{Z1`,Z2`,...,ZI`},采集数据集Zn×m的切分数为H,切分后的数据段记为{Z1`,Z2`,...,Z`H};
S14:合并步骤S13得到的两组切分数据段形成序列,依次对所述序列的每个数据段进行多元线性回归,完成训练数据的构建;
S2:构建含有隐变量的混合聚类模型,使用EM算法进行优化求解;所述步骤S2具体包括:
S21:训练数据服从偏态分布,记为w~(μ,σ2,λ),检验采集数据集Zn×m的损耗曲线Dm,分析损耗序列数据的特征,估算失准类型,并根据失准类型生成K个偏态分布模型,随机生成K个偏态分布的初始参数所述K个偏态分布模型组合构成EM混合聚类模型,正整数K及每个偏态分布参数为隐变量,αk代表第j个训练数据wj属于第k个子模型的概率,其中
k=1,2,3,...,K
S22:E-step步骤
首先构建训练数据中隐变量的概率分布:
其中N为训练数据的个数,N=(n-1)(I+H);
然后利用所述概率分布计算期望:
S23:M-step步骤
计算函数最大化:
构建Q(θ,θ(t))的下界函数并求其最大,得到μk,λk,αk的新一轮迭代值,返回步骤S22;
S24:不断循环E-step和M-step步骤,直到参数收敛,即||θt+1-θt||<εEM;εEM取正数;
S3:归档聚类参数,构建失准计算模型,计算计量装置的失准电量。
2.如权利要求1所述的基于EM算法的低压台区计量装置失准计算方法,其特征在于:所述步骤S3具体包括:
S31:构建失准计算模型,所述失准计算模型包含K个类别的分类器,所述K个类别的分类器与所述K个偏态分布模型相对应,定义优化函数:
s.t.(w2X2+w3X3+....+wnXn+ξ-D)2-ε≤0
wi∈Pk的定义域i=2,3,...,n
其中,Pk(w|θk)代表第k偏态分布模型,X2,X3,....,Xn为某一时刻台区下所有末端计量装置的电量,D为同一时刻的台区损耗,ξ为同一时刻的线损的补偿常数,ε为松弛变量,wi为失准系数,wi是所述失准计算模型的待优化变量;
S32:依次求K个偏态分布模型的似然值选择似然值最大的偏态分布模型的系数wi作为最优解;
S33:计算计量装置的失准电量:若输入变量为某一时刻的电量数据,使用wi乘以对应的Xi得到对应计量装置的失准电量;若输入变量为多个时刻的序列数据,则将序列数据拆分为多个单一时刻数据,分别使用wi乘以对应的Xi求得单一时刻计量装置的失准电量,将所有计算结果求和即得到该序列数据的失准电量。
3.如权利要求1所述的基于EM算法的低压台区计量装置失准计算方法,其特征在于:步骤S13所述分别对采集数据集Zn×m和线损数据集按列进行数据段的切分具体包括:
对线损数据集使用连续切分形成I个数据段,每个数据段的列数均大于n;
对采集数据集Zn×m使用周期切分:首先使用常数T将Zn×m按列切分成个数据段,记为周期数据段,然后对所述周期数据段使用连续切分的方式再次切分,每个周期数据段被切分为H个二级数据段,抽取每个周期数据段内偏移位置相同的二级数据段进行合并形成时间数据段,将所有时间数据段按段合并形成最终数据段{Z1`,Z2`,...,Z`H}。
4.如权利要求1所述的基于EM算法的低压台区计量装置失准计算方法,其特征在于:所述步骤S14具体包括:
Ⅰ.按段合并步骤S13得到的两组切分数据段,构建一个数据段序列,记为{Z1`,Z2`,...,ZI`,ZI`+1,ZI`+2,...,ZI`+H};
Ⅱ.对数据段Z1`进行多元线性回归:
其中,(Xn)i表示计量装置电量,为计量装置电量乘失准系数的加和,/>为时刻线路损耗,/>指数据段Z1`的长度,/>为失准系数,(ξ)i为线路线损的补偿常数,||w(1)||1为L1正则项;
使用L1正则的线性回归模型求得失准系数的解,记为:
w=(XT·X)-1·(XT·D-η)
其中,X为计量装置电量矩阵,D为损耗向量,η为超参数;
Ⅲ.按照步骤Ⅱ所述方法依次对{Z1`,Z2`,...,ZI`,ZI`+1,ZI`+2,...,ZI`+H}中的数据段进行多元线性回归,合并全部系数解得到一个数据集合,记为上角标表示对应的数据段,至此完成训练数据的构建。
5.如权利要求1所述的基于EM算法的低压台区计量装置失准计算方法,其特征在于:所述步骤S13中,I与H的值受训练偏好影响:
6.如权利要求1所述的基于EM算法的低压台区计量装置失准计算方法,其特征在于:步骤S11所述对采集数据集Zn×m中的缺失数据进行删除具体包括:
若任一数据采集时刻的出线计量装置的电量数据缺失,则删除该时刻的电量数据;
若任一数据采集时刻的末端计量装置的电量数据缺失,则判断该时刻的数据缺失率,若数据缺失率在设定范围内,则执行下一步,对缺失数据进行填充,若数据缺失率大于设定范围,则删除该时刻的电量数据;
步骤S11所述对采集数据集Zn×m的缺失数据进行填充的方法为:
首先通过下式进行一次指数平滑拟合:
其中,为t时刻的第一期平滑值,/>为t时刻的第二期平滑值,xt-1为t-1时刻的实际值,a为平滑常数;
然后通过下式进行二次指数平滑拟合,使用已有数据完成缺失数据的拟合填充:
xt+T=AT+BT·T T=1,2,3,…
其中,AT为基础偏移,BT为波动趋势,T代表二次指数平滑的预测时期。
7.如权利要求1至6任一所述的基于EM算法的低压台区计量装置失准计算方法,其特征在于:还包括步骤S4:进行失准计算模型训练,所述失准计算模型训练方法具体包括:
S41:调整步骤S1-S3中的可调参数的值,使用自动化机器学习的方式对所述可调参数进行网格化搜索,生成不同的参数组合;
S42:进行交叉验证:提取m1+m2连续时间段的电量数据,取m1时间段的数据作为训练数据,取m2时间段的数据作为测试数据,生成多个训练集和测试集,测试集按照基于拓扑结构的最小二乘法计算失准电量,验证多个训练集和测试集方案在不同参数组合时分数,所述分数使用RMSE或MSE统计,得到拟合效果最好的参数组合;
S43:利用步骤S42得到的参数组合,将m1+m2连续时间段的全部数据作为训练集按照所述步骤S1-S3再进行一次训练,得到优化的失准计算模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210512249.5A CN114839586B (zh) | 2022-05-12 | 2022-05-12 | 基于em算法的低压台区计量装置失准计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210512249.5A CN114839586B (zh) | 2022-05-12 | 2022-05-12 | 基于em算法的低压台区计量装置失准计算方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114839586A CN114839586A (zh) | 2022-08-02 |
CN114839586B true CN114839586B (zh) | 2023-07-18 |
Family
ID=82569266
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210512249.5A Active CN114839586B (zh) | 2022-05-12 | 2022-05-12 | 基于em算法的低压台区计量装置失准计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114839586B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116979552B (zh) * | 2023-06-30 | 2024-05-03 | 国网江苏省电力有限公司泰州供电分公司 | 一种基于固定个数电容补偿点位选择的台区线损补偿方法 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7474997B2 (en) * | 2003-04-16 | 2009-01-06 | Sony Corporation | Construction and selection of a finite mixture model for use in clustering and vector quantization |
CN106772195A (zh) * | 2017-01-04 | 2017-05-31 | 国网江苏省电力公司电力科学研究院 | 一种计量系统电流互感器长期误差稳定性可靠性评价方法 |
CN107273445A (zh) * | 2017-05-26 | 2017-10-20 | 电子科技大学 | 一种大数据分析中缺失数据混合多重插值的装置和方法 |
CN109472404A (zh) * | 2018-10-31 | 2019-03-15 | 山东大学 | 一种电力负荷短期预测方法、模型、装置及系统 |
CN110942173B (zh) * | 2019-10-15 | 2022-04-19 | 合肥工业大学 | 一种基于负荷预测和相序优化的配电台区节能降损方法 |
CN111142501B (zh) * | 2019-12-27 | 2021-10-22 | 浙江科技学院 | 基于半监督自回归动态隐变量模型的故障检测方法 |
CN111564842B (zh) * | 2020-06-03 | 2021-06-04 | 吉林大学 | 一种非侵入式用电负荷监测中长期能耗统计估算的方法 |
CN112380714A (zh) * | 2020-11-19 | 2021-02-19 | 国网宁夏电力有限公司电力科学研究院 | 基于统计规律的新能源出力概率区间建模方法 |
CN113409166A (zh) * | 2021-08-19 | 2021-09-17 | 国网江西综合能源服务有限公司 | 基于XGBoost模型的用户异常用电行为检测方法及装置 |
CN113887916A (zh) * | 2021-09-27 | 2022-01-04 | 国网山西省电力公司电力科学研究院 | 一种配电网线损动态量化评估方法及系统 |
CN114189313B (zh) * | 2021-11-08 | 2023-11-24 | 广东电网有限责任公司广州供电局 | 一种电表数据重构方法及装置 |
CN114200245A (zh) * | 2021-11-19 | 2022-03-18 | 南方电网科学研究院有限责任公司 | 一种配电网的线损异常识别模型的构建方法 |
-
2022
- 2022-05-12 CN CN202210512249.5A patent/CN114839586B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN114839586A (zh) | 2022-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110991786B (zh) | 基于相似日负荷曲线的10kV静态负荷模型参数辨识方法 | |
CN106372747B (zh) | 基于随机森林的台区合理线损率估计方法 | |
CN110837915B (zh) | 一种基于混合集成深度学习的电力系统低压负荷点预测及概率预测方法 | |
CN115099511A (zh) | 基于优化copula的光伏功率概率估计方法及系统 | |
CN109902868A (zh) | 一种基于负荷特性的大用户业扩辅助分析方法和装置 | |
CN111178585A (zh) | 基于多算法模型融合的故障接报量预测方法 | |
CN112434848A (zh) | 基于深度信念网络的非线性加权组合风电功率预测方法 | |
CN112418476A (zh) | 一种超短期电力负荷预测方法 | |
CN114839586B (zh) | 基于em算法的低压台区计量装置失准计算方法 | |
CN111882114B (zh) | 一种短时交通流量预测模型构建方法及预测方法 | |
CN110807490A (zh) | 一种基于单基塔的输电线路工程造价智能预测方法 | |
CN112508244A (zh) | 一种用户级综合能源系统多元负荷预测方法 | |
CN116187835A (zh) | 一种基于数据驱动的台区理论线损区间估算方法及系统 | |
CN110766190A (zh) | 一种配电网负荷预测方法 | |
CN115983710A (zh) | 高比例新能源接入的电力系统基建项目决策方法及系统 | |
CN108694475B (zh) | 基于混合模型的短时间尺度光伏电池发电量预测方法 | |
CN112508254B (zh) | 变电站工程项目投资预测数据的确定方法 | |
CN105447767A (zh) | 一种基于联合矩阵分解模型的电力用户细分方法 | |
Liu et al. | A clustering-based feature enhancement method for short-term natural gas consumption forecasting | |
CN115051363B (zh) | 一种配网台区户变关系辨识方法、装置及计算机存储介质 | |
CN110852628A (zh) | 考虑发展模式影响的农村中长期负荷预测方法 | |
CN116404637A (zh) | 电力系统短期负荷预测方法和电力系统短期负荷预测装置 | |
CN116167465A (zh) | 基于多变量时间序列集成学习的太阳辐照度预测方法 | |
CN113296947B (zh) | 基于改进XGBoost模型的资源需求预测方法 | |
CN115392347A (zh) | 一种基于生成对抗网络的用户相位关系识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |