CN114839586B

CN114839586B - 基于em算法的低压台区计量装置失准计算方法

Info

Publication number: CN114839586B
Application number: CN202210512249.5A
Authority: CN
Inventors: 吕家慧; 谭伟; 慕健; 张玉勇; 孙敬科; 郑和稳; 迟子悦; 郑一鹏; 孔健沣; 江晨洁; 黄良栋; 张雷
Original assignee: Yantai Dongfang Wisdom Electric Co Ltd
Current assignee: Yantai Dongfang Wisdom Electric Co Ltd
Priority date: 2022-05-12
Filing date: 2022-05-12
Publication date: 2023-07-18
Anticipated expiration: 2042-05-12
Also published as: CN114839586A

Abstract

本发明公开了一种基于EM算法的低压台区计量装置失准计算方法，包括：提取参与建模的计量装置的电量数据并进行处理，完成训练数据构建；构建含有隐变量的混合聚类模型，使用EM算法进行优化求解；归档聚类参数，构建失准计算模型，计算计量装置的失准电量。本方法利用台区各线路之间的电量关系，并结合台区电气特性与用电规律进行计量装置失准分析，不要求台区有完整的拓扑结构，可直接建模进行台区出线处计量装置与全部末端处计量装置的失准计算，并可以计算出具体时刻下每个计量装置的失准值，精细度高、适应性强。

Description

基于EM算法的低压台区计量装置失准计算方法

技术领域

本发明涉及配网自动化技术领域，具体涉及一种基于EM算法的低压台区计量装置失准计算方法。

背景技术

随着低压台区智能化的推进，台区下的分支箱、表箱等节点处的智能设备(智能开关、末端感知、电能表)均带有计量和通讯功能，满足了各线路与节点的电压、电流、电量等数据项的采集和传输。计量失准指的是计量装置所在线路电量的计量值与实际值存在偏差，造成计量失准的具体原因可能为装置异常和人为窃电等多方面因素。

目前比较常见的低压台区计量装置失准分析/计算方法有如下三种：第一，使用日用电量/总表日电量与台区日线损的相关性实现户变关系纠错及失准分析，通过计算出相邻台区中相关性为负的用户，在跨台区分析比对，推断户变的关系错误或是计量失准，该方法的特点是简单易行、无需增加设备和成本，但依赖台区线损的相关性，复杂环境下结果不准确，而且只能作分析推断，无法计算每个计量装置的线损，最终验证还需人工现场排查。

第二，在线路中增加失准分析设备，周期性采集相关的离散的电压、电流和计量装置的电能脉冲，通过计算积分电量实现失准校验，该方法的优点是可计算出具体时刻计量装置的线损，且需的数据少，准确性高，但是增加的装置硬件成本较高，同时涉及人工选点、安装和测试等工作，且高频采集数据会对台区的运行造成不稳定影响，不利于电力业务的深入应用。

第三，基于台区拓扑结构的最小二乘法：使用N个计量周期电量、电压的数据，构建表箱侧的最小二乘法模型，模型有解析解，分析模型系数以获得计量失准信息，该方法优点是不需要增加投资，方法较新颖，但存在两个问题：一方面，该方法需要台区有箱表的拓扑关系，在箱表侧进行建模，即参与失准的计量装置数量不宜过多；另一方面，该方法需要台区N个计量周期的相对误差加权平均值保持不变，即需要N个计量周期内计量装置的误差相对恒定，其计算的结果为N个周期的综合值，运用该方法无法计算具体时刻的计量装置失准值。

发明内容

本发明提出了一种基于EM算法的低压台区计量装置失准计算方法，其目的是：克服现有技术的缺陷，利用计量周期电量数据进行失准分析，具有良好的适应性，不依赖于台区拓扑结构，并能够实现具体时刻下的失准电量计算。

本发明技术方案如下：

一种基于EM算法的低压台区计量装置失准计算方法，包括如下步骤：

S1：提取参与建模的计量装置的电量数据并进行处理，完成训练数据构建；

S2：构建含有隐变量的混合聚类模型，使用EM算法进行优化求解；

S3：归档聚类参数，构建失准计算模型，计算计量装置的失准电量。

进一步地，所述步骤S2具体包括：

S21：训练数据服从偏态分布，记为w～(μ,σ²,λ)，检验采集数据集Z_n×m的损耗曲线D_m，分析损耗序列数据的特征，估算失准类型，并根据失准类型生成K个偏态分布模型，随机生成K个偏态分布的初始参数所述K个偏态分布模型组合构成EM混合聚类模型，正整数K及每个偏态分布参数为隐变量，α_k代表第j个训练数据w_j属于第k个子模型的概率，其中

k＝1,2,3,...,K

S22：E-step步骤

首先构建训练数据中隐变量的概率分布：

其中N为训练数据的个数，N＝(n-1)(I+H)；

然后利用所述概率分布计算期望：

S23：M-step步骤

计算函数最大化：

构建Q(θ,θ^(t))的下界函数并求其最大，得到的新一轮迭代值，返回步骤S22；

S24：不断循环E-step和M-step步骤，直到参数收敛，即||θ^t+1-θ^t||＜ε_EM。

进一步地，所述步骤S3具体包括：

S31：构建失准计算模型，所述失准计算模型包含K个类别的分类器，所述K个类别的分类器与所述K个偏态分布模型相对应，定义优化函数：

s.t.(w₂X₂+w₃X₃+....+w_nX_n+ξ-D)²-ε≤0

w_i∈P_k的定义域i＝2,3,...,n

其中，P_k(wθ_k)代表第k偏态分布模型，X₂,X₃,....,X_n为某一时刻台区下所有末端计量装置的电量，D为同一时刻的台区损耗，ξ为同一时刻的线损的补偿常数，ε为松弛变量，w_i为失准系数，w_i是所述失准计算模型的待优化变量；

S32：依次求K个偏态分布模型的似然值选择似然值最大的偏态分布模型的系数w_i作为最优解；

S33：计算计量装置的失准电量：若输入变量为某一时刻的电量数据，使用w_i乘以对应的X_i得到对应计量装置的失准电量；若输入变量为多个时刻的序列数据，则将序列数据拆分为多个单一时刻数据，分别使用w_i乘以对应的X_i求得单一时刻计量装置的失准电量，将所有计算结果求和即得到该序列数据的失准电量。

进一步地，所述步骤S1具体包括：

S11：提取一个时间段内的参与建模的计量装置电量数据，形成采集数据集Z_n×m，对采集数据集Z_n×m中的缺失数据进行删除和填充，其中n代表参与建模的计量装置标识，m代表电量数据采集时刻；

S12：利用损耗曲线D_m完成采集数据集Z_n×m的更新，并生成线损数据集

S13：对采集数据集Z_n×m和线损数据集进行归一化，分别对采集数据集Z_n×m和线损数据集/>按列进行数据段的切分，线损数据集/>的切分数为I，切分后的数据段记为{Z`₁,Z`₂,...,Z`_I}，采集数据集Z_n×m的切分数为H，切分后的数据段记为{Z`₁,Z`₂,...,Z`_H}；

S14：合并步骤S13得到的两组切分数据段形成序列，依次对所述序列的每个数据段进行多元线性回归，完成训练数据的构建。

进一步地，步骤S13所述分别对采集数据集Z_n×m和线损数据集按列进行数据段的切分具体包括：

对线损数据集使用连续切分形成I个数据段，每个数据段的列数均大于n；

对采集数据集Z_n×m使用周期切分：首先使用常数T将Z_n×m按列切分成个数据段，记为周期数据段，然后对所述周期数据段使用连续切分的方式再次切分，每个周期数据段被切分为H个二级数据段，抽取每个周期数据段内偏移位置相同的二级数据段进行合并形成时间数据段，将所有时间数据段按段合并形成最终数据段{Z`₁,Z`₂,...,Z`_H}。

进一步地，所述步骤S14具体包括：

Ⅰ.按段合并步骤S13得到的两组切分数据段，构建一个数据段序列，记为{Z`₁,Z`₂,...,Z`_I,Z`_I+1,Z`_I+2,...,Z`_I+H}；

Ⅱ.对数据段Z`₁进行多元线性回归：

其中，(X_n)_i表示计量装置电量，为计量装置电量乘失准系数的加和，/>为时刻线路损耗，/>指数据段Z₁`的长度，/>为失准系数，(ξ)_i为线路线损的补偿常数，||w⁽¹)||₁为L1正则项；

使用L1正则的线性回归模型求得失准系数的解，记为：

w＝(X^T·X)^-1·(X^T·D-η)

其中，X为计量装置电量矩阵，D为损耗向量，η为超参数；

Ⅲ.按照步骤Ⅱ所述方法依次对{Z`₁,Z`₂,...,Z`_I,Z`_I+1,Z`_I+2,...,Z`_I+H}中的数据段进行多元线性回归，合并全部系数解得到一个数据集合，记为上角标表示对应的数据段，至此完成训练数据的构建。

进一步地，所述步骤S13中，I与H的值受训练偏好影响：

进一步地，步骤S11所述对采集数据集Z_n×m中的缺失数据进行删除具体包括：

若任一数据采集时刻的出线计量装置的电量数据缺失，则删除该时刻的电量数据；

若任一数据采集时刻的末端计量装置的电量数据缺失，则判断该时刻的数据缺失率，若数据缺失率在设定范围内，则执行下一步，对缺失数据进行填充，若数据缺失率大于设定范围，则删除该时刻的电量数据；

步骤S11所述对采集数据集Z_n×m的缺失数据进行填充的方法为：

首先通过下式进行一次指数平滑拟合：

其中，为t时刻的第一期平滑值，/>为t时刻的第二期平滑值，x_t-1为t-1时刻的实际值，a为平滑常数；

然后通过下式进行二次指数平滑拟合，使用已有数据完成缺失数据的拟合填充：

x_t+T＝A_T+B_T·T T＝1,2,3,…

其中，A_T为基础偏移，B_T为波动趋势，T代表二次指数平滑的预测时期。

进一步地，所述计量装置失准计算方法还包括步骤S4：进行失准计算模型训练，所述失准计算模型训练方法具体包括：

S41：调整步骤S1-S3中的可调参数的值，使用自动化机器学习的方式对所述可调参数进行网格化搜索，生成不同的参数组合；

S42：进行交叉验证：提取m1+m2连续时间段的电量数据，取m1时间段的数据作为训练数据，取m2时间段的数据作为测试数据，生成多个训练集和测试集，测试集按照基于拓扑结构的最小二乘法计算失准电量，验证多个训练集和测试集方案在不同参数组合时分数，所述分数使用RMSE或MSE统计，得到拟合效果最好的参数组合；

S43：利用步骤S42得到的参数组合，将m1+m2连续时间段的全部数据作为训练集按照所述步骤S1-S3再进行一次训练，得到优化的失准计算模型。

相对于现有技术，本发明具有以下有益效果：

(1)本方法利用台区各线路之间的电量关系，并结合台区电气特性与用电规律进行计量装置失准分析：首先对原始数据进行填充、切分、建模分析，构建出训练数据，然后构建含有隐变量的聚类模型，使用EM算法进行优化求解，最后归档聚类参数，构建失准分类计算模型，分析出低压台区的精细失准值，本方法不要求台区有完整的拓扑结构，可直接建模进行台区出线处计量装置与全部末端处计量装置的失准计算，并可以计算出具体时刻下每个计量装置的失准值，精细度高、适应性强；

(2)采用连续切分方式对线损数据集进行数据段切分、周期切分方式对采集数据集进行切分，两种切分方式从线损值和时间值的角度将数据集进行了特征加强，提升了失准计算模型对数据特征不明显的台区的适应性，进一步提高了失准计算的精确度；

(3)通过调整模型参数和自动化机器学习的方式进行模型训练，对失准计算模型进行优化，增强模型的泛化能力，使所构建的失准计算模型能够从训练集出发，经过训练与调优后，具有更广泛的拟合效果。

附图说明

图1为本发明的流程图；

图2为台区参与建模计量装置结构示意图；

图3为线损数据集的切分示意图；

图4为采集数据集的切分示意图；

图5为不同类型失准系数分布示意图；

图6为失准电量精细计算示意图。

具体实施方式

下面结合附图详细说明本发明的技术方案：

如图1，一种基于EM算法的低压台区计量装置失准计算方法，包括如下步骤：

S1：提取参与建模的计量装置的电量数据并进行处理，完成训练数据构建，参与建模的计量装置的结构如图2所示，低压台区规模一般在220-320户左右。具体包括如下步骤：

S11：首先，提取一个时间段内的参与建模的计量装置电量数据，形成采集数据集Z_n×m，如下：

其中，(X_n)_m表示计量装置电量，n代表参与建模的计量装置标识，m代表电量数据采集时刻，(X₁)_m代表出线计量装置电量，(X₂)_m,(X₃)_m,…,(X_n)_m代表末端处计量装置电量。

对采集数据集Z_n×m中的缺失数据进行删除和填充。

优选地，对所述采集数据集Z_n×m的缺失数据进行删除的方法为：

若任一数据采集时刻的出线计量装置的电量数据缺失，则删除该时刻的电量数据；若任一数据采集时刻的末端计量装置的电量数据缺失，则判断该时刻的数据缺失率，若数据缺失率在设定范围内(如：小于10％)，则执行下一步，利用已有数据对缺失数据进行拟合填充，若数据缺失率大于或等于10％，则删除该时刻的电量数据。

一次指数平滑拟合具有滞后性，受节假日，天气等因素影响，本实施例使用二次指数平滑拟合值对缺失数据进行填充。

首先通过下式进行一次指数平滑拟合：

其中，为t时刻的第一期平滑值，/>为t时刻的第二期平滑值，x_t-1为t-1时刻的实际值，a为平滑常数，指向近期与远期对于数据的影响程度。。

在此基础上，通过下式进行二次指数平滑拟合：

x_t+T＝A_T+B_T·T T＝1,2,3,…

其中，A_T为基础偏移，B_T为波动趋势，T代表二次指数平滑的预测时期，T＝1,2,3,…，T＝1表示预测t时刻的第一期的平滑值x_t+1，同理，T＝2表示预测t时刻的第二期平滑值x_t+2，以此类推，使用已有数据完成缺失数据的拟合填充。

优选地，计算损耗曲线D_m：

线路损耗＝出线计量装置电量-∑末端处计量装置电量

将损耗曲线按时刻关联到采集数据集Z_n×m，并从其中移除出线处计量装置电量，完成对采集数据集Z_n×m的更新，如下：

将采集数据集Z_n×m的列按线路损耗曲线作升序排序(列默认为时间排序)，保存排序完的数据集记为即线损数据集。

S13：使用最大最小值的方式按下式对采集数据集Z_n×m和线损数据集分别进行归一化：

其中，Z_min为数据集中的最小值，Z_max为数据集中的最大值。

分别对采集数据集Z_n×m和线损数据集按列进行数据段的切分，线损数据集的切分数为I，切分后的数据段记为{Z`₁,Z`₂,...,Z`_I}，采集数据集Z_n×m的切分数为H，切分后的数据段记为{Z`₁,Z`₂,...,Z`_H}。

优选地，如图3，对线损数据集使用连续切分形成I个数据段，每个数据段包含的数据长度不必相等，每个数据段的列数均大于n，n为参与建模的计量装置数量。

如图4，对采集数据集Z_n×m使用周期切分：首先使用常数T(T默认取30天)将Z_n×m按列切分成个数据段，记为周期数据段，同样，每个周期数据段的列数都大于n，然后对所述周期数据段使用连续切分的方式再次切分，每个周期数据段被切分为H个二级数据段，抽取每个周期数据段内偏移位置相同的二级数据段进行合并形成时间数据段，将所有时间数据段按段合并形成最终数据段{Z`₁,Z`₂,...,Z`_H}。

两种切分方式从线损值和时间值的角度将数据集进行了特征加强，I与H的值受训练偏好影响，对于一般性台区使用混合偏好，如下：

S14：通过多元线性回归方法构建训练数据。具体包括如下步骤：

Ⅰ.按段合并步骤S13得到的两组切分数据段，构建一个数据段序列，记为{Z`₁,Z`₂,...,Z`_I,Z`_I+1,Z`_I+2,...,Z`_I+H}。

Ⅱ.对数据段Z`₁进行多元线性回归：

其中，(X_n)_i表示计量装置电量，为计量装置电量乘失准系数的加和，/>为时刻线路损耗，/>指数据段Z₁`的长度，/>为失准系数，(ξ)_i为线路线损的补偿常数，一般设为台区出线计量装置电量的2～3％，||w⁽¹)||₁为L1正则项。

使用L1正则的线性回归模型(也叫Lasso回归，模型有解析解)求得失准系数的解，记为：

w＝(X^T·X)^-1·(X^T·D-η)

其中，X为计量装置电量矩阵，D为损耗向量，η为超参数。

Ⅲ.按照步骤Ⅱ所述方法依次对{Z`₁,Z`₂,...,Z`_I,Z`_I+1,Z`_I+2,...,Z`_I+H}中的数据段进行多元线性回归，合并全部系数解得到一个数据集合，记为上角标表示对应的数据段，系数值保留两位小数，至此完成训练数据的构建。

S2：构建含有隐变量的混合聚类模型，使用EM算法进行优化求解。

系数为数据段Z_l`的计量装置电量乘系数的加和与线路损耗的回归模型系数，可近似表示一段数据序列范围内线路损耗在各计量装置电量的分摊情况。这里的训练数据的下角标从2开始，下角标1在数据集中代表损耗曲线，故没有与其对应的系数，上角标l为分组信息，l∈[1,(I+H)]。

计量装置的损耗情况主要考虑为装置异常、线路线损、人为窃电的综合因素，具体展开三种情况：

(1)根据国网2018年拆回的36.6万电能表检定报告，电表失准误差及误差变化均成正态分布，失准在[-1.5％，1.5％]内；

(2)线路线损是电能通过输电线路传输中的能量损失；

(3)人为窃电是通过相关手段减少计量装置采集的用电量，以达到少缴电费的行为，可视为概率事件。

基于以上分析，应服从偏正态分布，即w服从数学期望μ、方差σ²、偏度参数λ的偏正态分布，简称偏态分布，记为w～(μ,σ²,λ)，其概率密度函数如下：

其中，φ(·)和为标准正态分布的密度函数和分布函数，偏态分布形态受均值、方差、偏度等指标的影响，可理解以正态分布为基础，在均值影响分布位置，方差影响峰度的基础上，增加了偏度参数，导致分布具有一定的有偏性和长尾性。在EM混合聚类算法步骤中，需要初始化这些参数，初始参数对算法收敛性有一定的影响。

EM混合聚类模型可看作是由K个偏态分布模型组合而成的混合模型，正整数K及每个偏态分布参数即是隐变量(Hidden variable)，包含了训练数据的分类信息。从1开始重新编号训练数据记为{w₁,w₂,...,w_(n-1)·(I+H)}，取w_j代表{w₁,w₂,...,w_(n-1)(I+H)}中的第j个训练数据，α_k代表训练数据w_j属于第k个子模型的概率，即子模型在偏态混合中的权重系数，其中：

k＝1,2,3,...,K

代表第k个子模型的偏态概率密度函数，则K个偏态分布的混合分布模型的概率密度函数表示为：

其中，θ＝(μ,σ²,λ)，至此，训练数据w_j是已知的，而训练数据属于K中的哪个子模型显然是未知的，使用γ_jk进一步表示训练数据w_j的隐变量信息：

则完全似然函数可以表示为：

其中，令θ＝(μ,σ²,λ)，N＝(n-1)(I+H)，一般对似然函数取对数简化计算，直接使用极大似然估计对混合偏态分布进行参数估计，其似然函数解析表达式过于复杂，求解微分方程组非常困难，故使用EM算法求解混合模型的参数，使用的为有限混合分布，优选地，结合实际用电业务情况，取K∈[2,5]的正整数。具体包括如下步骤：

S21：初始化参数其代表第k个偏态分布的数学期望、方差系数、偏度系数及该偏态分布在混合分布中的权重系数。

具体方法：检验采集数据集Z_n×m的损耗曲线D_m，分析损耗序列数据的特征(均值、最值、众数等)，估算在数据序列范围内存在的失准情况以及失准类型，如损耗曲线较小且最值与众数也与损耗曲线接近，那么可以认为数据序列属于无失准，反之损耗曲线较大可以认为属于高失准。不同失准情况的偏态分布图像也不同，失准值高的图像更离散更偏平，即期望与方差较低失准更大一些，不同的失准类型系数分布如图5所示。

根据失准类型生成K个偏态分布模型，每个模型包含各自的参数再通过随机数生成α_k，为不失去随机性，同时生成对应参数的随机分量/>将随机分量加到对应的原参数上，至此完成/>的初始化。

S22：E-step步骤，计算期望：

要计算期望，需构建训练数据中隐变量的概率分布：

其中N为训练数据的个数，N＝(n-1)(I+H)；

是由/>的当前迭代值计算出的，即建立了变量之间的函数关系，同时有了概率分布，便可以表示出期望函数Q(θ,θ^(t))，在M-step步骤中求其下界最大。

S23：M-step步骤，计算函数最大化：

构建Q(θ,θ^(t))的下界函数并求其最大，通过求导令其偏导数为0，解出方程求得的值，作为新一轮迭代值，返回步骤S22。

S24：不断循环E-step和M-step步骤，直到参数收敛，其含义为||θ^t+1-θ^t||＜ε_EM，ε_EM取较小的正数，表示每次迭代已经很接近，EM算法流程束。

由于通过步骤S2的EM混合聚类得到了K个偏态分布的模型，模型的参数θ＝(μ,σ²,λ)，K个偏态分布模型是从(n-1)(I+H)个的训练数据中聚类所得到，聚类本身就是训练数据的特征与规律进一步抽象过程，如：失准的形态及分布参数等。

具体包括如下步骤：

s.t.(w₂X₂+w₃X₃+....+w_nX_n+ξ-D)²-ε≤0

w_i∈P_k的定义域i＝2,3,...,n

其中，P_k(w|θ_k)代表第k偏态分布模型，其参数均为已知，由步骤S2的EM混合聚类求得。X₂,X₃,....,X_n为某一时刻台区下所有末端计量装置的电量，D为同一时刻的台区损耗，ξ为同时刻的线损的补偿常数，ε为松弛变量，这里作为超参数，w_i为失准系数，w_i是所述失准计算模型的待优化变量。

这里所说的某一时刻的数据可以是步骤S1所述提取参与建模的计量装置的电量数据之外的数据(即电量数据采集时刻m之外的数据)，即对一新时刻的失准电量进行分析。

S32：所述失准计算模型本质是一个带约束的极大似然估计，其含义为约束失准系数w_i在偏态分布模型的定义域内，约束w_iX_i与D相互接近，保证有较好数据拟和，故依次求K个偏态分布模型的似然值选择似然值最大的偏态分布模型的系数w_i作为最优解。

S33：如图6，计算计量装置的失准电量：若输入变量为某一时刻的电量数据，使用w_i乘以对应的X_i得到对应计量装置的失准电量；若输入变量为多个时刻的序列数据，则将序列数据拆分为多个单一时刻数据，分别使用w_i乘以对应的X_i求得单一时刻计量装置的失准电量，将所有计算结果求和即得到该序列数据的失准电量。

为增强模型的泛化能力，使所构建的失准计算模型能够从训练集出发，经过训练与调优后具有更广泛的拟合效果，在拓扑结构已知的低压台区使用本模型进行失准计算，当所述失准计算模型存在过拟合或欠拟合情况时，执行步骤S4：进行失准计算模型训练/验证。完成模型训练/验证后，即可投入生产进行使用。

所述步骤S4具体包括如下步骤：

S41：调整步骤S1-S3中的可调参数的值，所述可调参数包括：数据训练的偏好值(调整I或者H)、混合聚类模型数K的值、多元线性回归的超参数η、失准计算模型的松弛变量ε等。

为了提高失准计算模型的拟合能力，减少欠拟合与过拟合情况，使用自动化机器学习的方式对所述可调参数进行网格化搜索，生成不同的参数组合。

S42：进行交叉验证：提取m1+m2连续时间段的电量数据(如：10个月内的15分钟电量曲线数据)，取m1时间段(7个月)的数据作为训练数据，取m2时间段(3个月)的数据作为测试数据，生成多个训练集和测试集，测试集按照背景技术中所述基于拓扑结构的最小二乘法计算失准电量，验证多个训练集和测试集方案在不同参数组合时分数，所述分数使用RMSE或MSE统计，得到拟合效果最好的参数组合。

Claims

1.一种基于EM算法的低压台区计量装置失准计算方法，其特征在于，包括如下步骤：

所述步骤S1具体包括：

损耗曲线D_m计算方式为：

线路损耗＝出线计量装置电量-∑末端处计量装置电量；

S13：对采集数据集Z_n×m和线损数据集进行归一化，分别对采集数据集Z_n×m和线损数据集/>按列进行数据段的切分，线损数据集/>的切分数为I，切分后的数据段记为{Z₁`,Z₂`,...,Z_I`}，采集数据集Z_n×m的切分数为H，切分后的数据段记为{Z₁`,Z₂`,...,Z`_H}；

S14：合并步骤S13得到的两组切分数据段形成序列，依次对所述序列的每个数据段进行多元线性回归，完成训练数据的构建；

S2：构建含有隐变量的混合聚类模型，使用EM算法进行优化求解；所述步骤S2具体包括：

k＝1,2,3,...,K

S22：E-step步骤

首先构建训练数据中隐变量的概率分布：

其中N为训练数据的个数，N＝(n-1)(I+H)；

然后利用所述概率分布计算期望：

S23：M-step步骤

计算函数最大化：

构建Q(θ,θ^(t))的下界函数并求其最大，得到μ_k,λ_k,α_k的新一轮迭代值，返回步骤S22；

S24：不断循环E-step和M-step步骤，直到参数收敛，即||θ^t+1-θ^t||＜ε_EM；ε_EM取正数；

2.如权利要求1所述的基于EM算法的低压台区计量装置失准计算方法，其特征在于：所述步骤S3具体包括：

s.t.(w₂X₂+w₃X₃+....+w_nX_n+ξ-D)²-ε≤0

w_i∈P_k的定义域i＝2,3,...,n

其中，P_k(w|θ_k)代表第k偏态分布模型，X₂,X₃,....,X_n为某一时刻台区下所有末端计量装置的电量，D为同一时刻的台区损耗，ξ为同一时刻的线损的补偿常数，ε为松弛变量，w_i为失准系数，w_i是所述失准计算模型的待优化变量；

3.如权利要求1所述的基于EM算法的低压台区计量装置失准计算方法，其特征在于：步骤S13所述分别对采集数据集Z_n×m和线损数据集按列进行数据段的切分具体包括：

对采集数据集Z_n×m使用周期切分：首先使用常数T将Z_n×m按列切分成个数据段，记为周期数据段，然后对所述周期数据段使用连续切分的方式再次切分，每个周期数据段被切分为H个二级数据段，抽取每个周期数据段内偏移位置相同的二级数据段进行合并形成时间数据段，将所有时间数据段按段合并形成最终数据段{Z₁`,Z₂`,...,Z`_H}。

4.如权利要求1所述的基于EM算法的低压台区计量装置失准计算方法，其特征在于：所述步骤S14具体包括：

Ⅰ.按段合并步骤S13得到的两组切分数据段，构建一个数据段序列，记为{Z₁`,Z₂`,...,Z_I`,Z_I`₊₁,Z_I`₊₂,...,Z_I`_+H}；

Ⅱ.对数据段Z₁`进行多元线性回归：

其中，(X_n)_i表示计量装置电量，为计量装置电量乘失准系数的加和，/>为时刻线路损耗，/>指数据段Z₁`的长度，/>为失准系数，(ξ)_i为线路线损的补偿常数，||w⁽¹⁾||₁为L1正则项；

使用L1正则的线性回归模型求得失准系数的解，记为：

w＝(X^T·X)^-1·(X^T·D-η)

其中，X为计量装置电量矩阵，D为损耗向量，η为超参数；

Ⅲ.按照步骤Ⅱ所述方法依次对{Z₁`,Z₂`,...,Z_I`,Z_I`₊₁,Z_I`₊₂,...,Z_I`_+H}中的数据段进行多元线性回归，合并全部系数解得到一个数据集合，记为上角标表示对应的数据段，至此完成训练数据的构建。

5.如权利要求1所述的基于EM算法的低压台区计量装置失准计算方法，其特征在于：所述步骤S13中，I与H的值受训练偏好影响：

6.如权利要求1所述的基于EM算法的低压台区计量装置失准计算方法，其特征在于：步骤S11所述对采集数据集Z_n×m中的缺失数据进行删除具体包括：

首先通过下式进行一次指数平滑拟合：

x_t+T＝A_T+B_T·T T＝1,2,3,…

7.如权利要求1至6任一所述的基于EM算法的低压台区计量装置失准计算方法，其特征在于：还包括步骤S4：进行失准计算模型训练，所述失准计算模型训练方法具体包括：