CN114168574A

CN114168574A - 一种面向工业负荷的数据缺失处理方法及装置

Info

Publication number: CN114168574A
Application number: CN202111256421.7A
Authority: CN
Inventors: 仇瑜; 高云鹏; 褚晓泉; 唐杰; 李亚坤; 王朝亮; 胡若云
Original assignee: Tsinghua University; Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Current assignee: Tsinghua University; Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2021-10-27
Filing date: 2021-10-27
Publication date: 2022-03-11

Abstract

本申请涉及电力系统负荷技术领域，尤其涉及一种面向工业负荷的数据缺失处理方法及装置。其中，一种面向工业负荷的数据缺失处理方法，包括：获取每个用户的负荷数据以及用户特征数据，根据用户特征数据将负荷数据拆分为多个数据集；对数据集中可基于已有的负荷数据直接获取的缺失数据进行初步填充；利用矩阵分解算法对进行初步填充后仍存在缺失数据的数据集进行深度填充。采用上述方案的本申请通过利用智能电表中多种不同类型量测数据之间的相关性，对数据中复杂的关联模式进行挖掘，有效挖掘出不同时刻、不同负荷分量之间的关联关系，从而提升缺失值填充的准确性，有效填充工业负荷数据的缺失值，从而实现对细粒度智能电表的缺失数据填充。

Description

一种面向工业负荷的数据缺失处理方法及装置

技术领域

本申请涉及电力系统负荷技术领域，尤其涉及一种面向工业负荷的数据缺失处理方法及装置。

背景技术

工业负荷是我国电力负荷的重要组成部分，随着电力系统的不断发展及智能电表技术的持续进步，如今电力系统中的工业负荷数据能够获取细粒度的多维度数据，相比常规负荷量测而言，工业负荷数据通常更为全面而细致，对各个工业区域、工业设备等均会配置智能电表，以实时监测工业负荷的健康状态。因此工业负荷数据相对而言规模较为庞大，数据维数较高，在时间粒度方面，工业负荷数据的测量周期通常为15分钟-1小时。

而由于通信问题、设备故障等方面的原因，工业负荷数据中经常存在较多以随机形式存在的缺失值，会为后续的负荷预测、负荷分解等任务带来显著的困难，而如果直接将含缺失值的样本删除则会损失大量的数据，因此，需要针对负荷数据的缺失值进行填充。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的第一个目的在于提出一种面向工业负荷的数据缺失处理方法，以解决需要针对负荷数据的缺失值进行填充的技术问题。

本申请的第二个目的在于提出一种面向工业负荷的数据缺失处理装置。

为达到上述目的，本申请第一方面实施例提出的一种面向工业负荷的数据缺失处理方法，包括：

获取每个用户的负荷数据以及用户特征数据，根据所述用户特征数据将所述负荷数据拆分为多个数据集；

对数据集中可基于已有的负荷数据直接获取的缺失数据进行初步填充；

利用矩阵分解算法对进行初步填充后仍存在缺失数据的数据集进行深度填充。

可选地，在本申请的一个实施例中，所述根据所述用户特征数据将所述负荷数据拆分为多个数据集，包括：

所述用户特征数据包括行业标识；

根据所述行业标识将所述负荷数据逐层拆分为多个数据集，每进行一层拆分，判断拆分出来的所有数据集是否具有低秩性；

若拆分出来的任一数据集不具有低秩性，则对不具有低秩性的数据集进行下一层拆分，若拆分出来的所有数据集均具有低秩性，则停止拆分。

可选地，在本申请的一个实施例中，所述拆分出来的所有数据集是否具有低秩性，包括：

根据下式将数据集进行分解：

X＝U∑V^T

其中，X为m×n维的数据集，U为m×m维酉矩阵，V为n×n维酉矩阵，∑为m×n维对角阵；

根据下式确定数据集的范数比：

其中，β_r为范数比，σ₁，σ₂，...，σ_l为矩阵∑中主对角线上的元素；

确定范数比近似等于1时的r值，当r值不大于预设的低秩性值时，该数据集具有低秩性。

可选地，在本申请的一个实施例中，所述根据所述用户特征数据将所述负荷数据拆分为多个数据集，还包括；对每个用户的负荷数据进行归一化处理，根据所述用户特征数据将归一化后的负荷数据拆分为多个数据集，其中，根据下式对每个用户的负荷数据进行归一化处理：

其中，

为电表i于t时刻的负荷数据，capi为电表i所属用户的用电合同容量，x_i，t为归一化后的负荷数据。

可选地，在本申请的一个实施例中，所述对数据集中可基于已有的负荷数据直接获取的缺失数据进行初步填充，包括：

基于物理定律根据已有的负荷数据对缺失数据进行精确填充，从而完成对数据集的初步填充。

可选地，在本申请的一个实施例中，所述利用矩阵分解算法对进行初步填充后仍存在缺失数据的数据集进行深度填充，包括：

确定初始拟合矩阵，并将所述初始拟合矩阵分解为行挖掘矩阵以及列挖掘矩阵；

对仍存在缺失数据的数据集进行矩阵分解；

利用梯度下降法迭代更新行挖掘矩阵以及列挖掘矩阵，得到迭代更新后的行挖掘矩阵以及列挖掘矩阵；

根据迭代更新后的行挖掘矩阵以及列挖掘矩阵得到拟合矩阵，利用拟合矩阵中的元素对存在缺失数据的数据集进行深度填充。

可选地，在本申请的一个实施例中，所述确定初始拟合矩阵，并将所述初始拟合矩阵分解为行挖掘矩阵以及列挖掘矩阵，包括：根据下式将初始拟合矩阵分解为行挖掘矩阵以及列挖掘矩阵：

其中，

为m×n维初始拟合矩阵，U为m×k维行挖掘矩阵，V^T为n×k维列挖掘矩阵，k为预设好的嵌入向量维数。

可选地，在本申请的一个实施例中，所述对仍存在缺失数据的数据集进行矩阵分解，包括：

对行挖掘矩阵以及列挖掘矩阵进行时序正则化以及特征正则化：

根据下式对存在缺失数据的数据集进行矩阵分解：

其中，J为目标函数，目标函数最小时表示矩阵分解完成，⊙为哈达玛积即矩阵逐元素相乘，X为根据存在缺失数据的数据集确定的m×n维矩阵，

为m×n维初始拟合矩阵，λ₁||U||²、λ₂||V||²为正则项，λ₃||BU||²为时序正则化项、λ₄||c^TV||²为特征正则化项，λ₁-λ₄为预设好的正则化系数；B为矩阵

c为预设好的1×k维向量；

根据矩阵X确定矩阵A，令矩阵X中缺失数据处的元素记为0，非缺失数据处的元素记为1，从而得到矩阵A。

可选地，在本申请的一个实施例中，所述利用梯度下降法迭代更新行挖掘矩阵以及列挖掘矩阵，包括：

确定学习率，根据下式利用梯度下降法迭代更新行挖掘矩阵以及列挖掘矩阵：

其中，

为行挖掘矩阵以及列挖掘矩阵的梯度，d为学习率，

为迭代更新后的行挖掘矩阵，

为迭代更新后的列挖掘矩阵。

综上，本申请第一方面实施例提出的方法，通过获取每个用户的负荷数据以及用户特征数据，根据所述用户特征数据将所述负荷数据拆分为多个数据集；对数据集中可基于已有的负荷数据直接获取的缺失数据进行初步填充；利用矩阵分解算法对进行初步填充后仍存在缺失数据的数据集进行深度填充。本申请能够利用智能电表中多种不同类型量测数据之间的相关性，对数据中复杂的关联模式进行挖掘，有效挖掘出不同时刻、不同负荷分量之间的关联关系，从而提升缺失值填充的准确性，有效填充工业负荷数据的缺失值，从而实现对细粒度智能电表的缺失数据填充，为工业负荷的缺失数据填充提供有效参考。

为达到上述目的，本申请第二方面实施例提出的一种面向工业负荷的数据缺失处理装置，包括：

拆分模块，用于获取每个用户的负荷数据以及用户特征数据，并根据所述用户特征数据将所述负荷数据拆分为多个数据集；

初步填充模块，用于对数据集中可基于已有的负荷数据直接获取的缺失数据进行初步填充；

深度填充模块，用于利用矩阵分解算法对进行初步填充后仍存在缺失数据的数据集进行深度填充。

综上，本申请实施例提供的技术方案至少带来以下有益效果：

1)通过利用矩阵分解方法处理多变量工业负荷数据填充，分解出的两个矩阵分别挖掘负荷数据在时序上的相关性及不同类型量测数据上的相关性，从而对数据中复杂的关联模式进行挖掘，实现对细粒度智能电表的缺失数据修复；

2)通过基于行业标识的分层划分数据集，使得划分后的各数据集均满足低秩性，使各数据集规模适中从而保证矩阵分解的可行性；

3)通过在矩阵分解时，基于工业负荷数据的固有特性，为行挖掘矩阵以及列挖掘矩阵设计合适的正则化项，使得矩阵分解结果具有合理性及可解释性。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例所提供的多重填充法的流程图；

图2为本申请实施例所提供的一种面向工业负荷的数据缺失处理方法的流程图；

图3为本申请实施例所提供的用户特征数据结构示意图；

图4为本申请实施例所提供的预处理后的负荷数据结构示意图；

图5为本申请实施例所提供的拟合矩阵分解示意图；

图6为本申请实施例所提供的缺失值填充效果表格对比示意图；

图7为本申请实施例所提供的缺失值填充效果折现对比示意图；

图8为本申请实施例所提供的一种面向工业负荷的数据缺失处理装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。相反，本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

对于电力系统中的负荷数据的缺失值，现有的处理方法主要是基于统计的方法进行填充，主要包括以下四种方法：

第一种方法：均值填充法，即利用同一特征的非缺失数据的均值来填充缺失值，具体通过以下公式进行填充：

其中，y_imp表示特征y的填充值，Y_kno表示特征y的已知数据(非缺失数据)的集合，n表示Y_kno中的元素数目；

均值填充法虽然过程简单，应用广泛，但是其没有有效考虑不同特征之间的关联，因而误差往往较大；

第二种方法：回归填充法，即将特征y与特征x之间进行线性回归，使得当y缺失时可基于已知的x进行推断，具体通过以下公式进行填充：

其中，X_kno、Y_kno分别为特征x、特征y中已知数据的集合，

分别为特征x、特征y中已知数据的均值，y_imp，i为特征y中第i个数据的填充值；

回归填充法一定程度地考虑了不同特征之间的关联，但是将不同特征之间建模为线性关系，在应用于复杂的数据集时仍存在一定的误差；

第三种方法：K近邻法(k-Nearest Neighbor，KNN)，即基于已知的数据计算样本之间的距离，从而找到距离待填充样本最近的k个样本，利用这k个样本在待填充维度上的均值作为待填充样本的填充值，距离的计算方式通常为欧式距离，具体通过下式计算距离样本y最近的k个样本x⁽¹⁾，...，x^(k)：

其中，x，y分别为特征x样本、特征y样本，x_i、y_i分别为特征x样本、特征y样本中第i个已知的特征；

通过下式计算填充值：

其中，y_m为特征y样本的第m个待填充特征；

第四种方法：多重填充法，即基于一定的随机性对缺失数据进行多次填充，得到多组填充值，再基于一定的统计方法对这几组结果进行合并，得到最终的填充值，具体流程如图1所示，其中，mice函数对数据集进行多次填充，得到多组填充后的数据；with函数则基于统计的方法对多组填充后的数据进行分析；pool函数则基于分析结果将多组填充后的数据进行合并，并基于标准差和p值表示多重填充法带来的不确定性。

上述四种方法都是基于一些朴素的统计或计算方法对缺失值进行填充，较多应用于没有安装智能电表的电网变压器节点负荷、新能源缺数据填充中。这些节点的电量数据通常只包含电量信息，数据维数较为单一，数据并不复杂，数据修复的误差对后续预测等数据处理任务的影响也相对较小，因而用上述方法可以取得一定的效果，能够满足实际应用的需求。

而工业负荷数据相对而言较为复杂，一个工业用户对应着多个电表的数据，而每个电表又实时监控着多相有功、无功功率等数据，数据维数较高。因此对于装设了智能电表的多维度工业负荷数据而言，通常能够获取到细粒度的用户用电量测数据，通常包含了三相总的有功、无功以及A、B、C项的有功和无功数据。可以发现，智能电表提供的量测数据的各个维度之间可能存在着复杂的关联关系，甚至存在明确的物理规律上的相关约束，如果修复中不恰当对后续数据的分析的影响更大，因而传统的数据填充方法可能并不适用，但是目前面向细粒度工业负荷的量测数据缺失填充研究相对较少。

实施例1

图2为本申请实施例所提供的一种面向工业负荷的数据缺失处理方法的流程图。

如图2所示，本申请实施例提供的一种面向工业负荷的数据缺失处理方法，包括以下步骤：

步骤110，获取每个用户的负荷数据以及用户特征数据，根据用户特征数据将负荷数据拆分为多个数据集；

步骤120，对数据集中可基于已有的负荷数据直接获取的缺失数据进行初步填充；

步骤130，利用矩阵分解算法对进行初步填充后仍存在缺失数据的数据集进行深度填充。

具体地，原始数据中每个用户下有多个电表，每个电表的量测数据包括总有功功率、A相有功功率、B相有功功率、C相有功功率、总无功功率、A相无功功率、B相无功功率、C相无功功率，每个用户的数据分为负荷数据以及用户特征数据；

进一步地，用户特征数据结构如图3所示，其中，基于用户标识、电表标识、行业标识、运行容量对每个电表量测的原始负荷数据进行拆分以及预处理为合适的格式，预处理后的负荷数据结构如图4所示，其中，

中存在缺失值。

进一步地，由于不同电压等级、不同行业的负荷模式差异较大，因此基于行业标识对每个电表量测的原始负荷数据进行拆分为多个数据集，从而使得同一数据集中的用户具有较为相似的用电行为，进而再对拆分出的多个数据集分别进行训练以及缺失值填充。

在本申请实施例中，根据用户特征数据将负荷数据拆分为多个数据集，包括：

用户特征数据包括行业标识；

根据行业标识将负荷数据逐层拆分为多个数据集，每进行一层拆分，判断拆分出来的所有数据集是否具有低秩性；

需要说明的是，拆分后的每个数据集需要具备合适的规模，若数据集规模太大，则其中许多用户的用电行为差异大，数据集形成的矩阵难以满足低秩性，会为矩阵分解带来困难；若数据集规模太小，则有效数据较少，会影响数据填充的准确性。

具体地，行业标识是基于《国民经济行业分类标准(GB/T4754-2002)》的四位编码，前两位表示行业大类，前三位表示中类，前四位表示小类，例如行业标识为0111，则其中01表示农业，011表示谷物及其他作物的种植，0111表示谷物的种植；基于行业标识，将数据集由行业大类至小类逐层进行拆分。

在本申请实施例中，拆分出来的所有数据集是否具有低秩性，包括：

根据下式将数据集进行分解：

X＝U∑V^T

根据下式确定数据集的范数比：

具体地，σ₁，σ₂，...，σ_l为矩阵∑中主对角线上的元素即奇异值，其中，σ₁≥σ₂≥…≥σ_l≥0，r∈{1，2，…，l}；

进一步地，基于行业标识，设置低秩性阈值为5，确定β_r＞0.99时的r值，若r≤5则说明X满足低秩性条件。

在本申请实施例中，根据用户特征数据将负荷数据拆分为多个数据集，还包括；对每个用户的负荷数据进行归一化处理，根据用户特征数据将归一化后的负荷数据拆分为多个数据集，其中，根据下式对每个用户的负荷数据进行归一化处理：

其中，

为电表i于t时刻的负荷数据，cap_i为电表i所属用户的用电合同容量，x_i，t为归一化后的负荷数据。

具体地，基于运行容量对每个用户的负荷数据进行归一化，从而使得各个用户的负荷数据尺度一致，归一化后各用户的负荷数据尺度一致，均处于[0，1]区间。

在本申请实施例中，对数据集中可基于已有的负荷数据直接获取的缺失数据进行初步填充，包括：

进一步地，对于总有功功率、A相有功功率、B相有功功率、C相有功功率这四项有功功率来说，若有且仅有一个有功功率缺失，则可基于其余三个有功功率将其精准填充；同理可得，对于总无功功率、A相无功功率、B相无功功率、C相无功功率这四项无功功率来说，若有且仅有一个无功功率缺失，则可基于其余三个无功功率将其精准填充。

进一步地，若总有功功率或者总无功功率缺失，则根据下式进行数据填充：

x_total＝x_A+x_B+x_C

其中，x_total为总有功功率或者总无功功率的填充值，x_A为A相有功功率或者A相无功功率，x_B为B相有功功率或者B相无功功率，x_C为C相有功功率或者C相无功功率；

若总有功功率或者总无功功率已知，另外三项有功功率中任一项缺失或者另外三项无功功率中任一项缺失，则根据下式进行数据填充：

其中，x_i为另外三项有功功率中缺失的那一项有功功率或者另外三项无功功率中缺失的那一项无功功率；x_-i为另外三项有功功率中已有的两项有功功率或者另外三项无功功率中已有的两项无功功率；x_total为总有功功率或者总无功功率。

在本申请实施例中，利用矩阵分解算法对进行初步填充后仍存在缺失数据的数据集进行深度填充，包括：

确定初始拟合矩阵，并将初始拟合矩阵分解为行挖掘矩阵以及列挖掘矩阵；

对仍存在缺失数据的数据集进行矩阵分解；

在本申请实施例中，确定初始拟合矩阵，并将初始拟合矩阵分解为行挖掘矩阵以及列挖掘矩阵，包括：根据下式将初始拟合矩阵分解为行挖掘矩阵以及列挖掘矩阵：

其中，

具体地，矩阵分解的核心思想是用矩阵

拟合数据集X。如果

与X中未缺失部分之间的误差足够小，则说明

这样的矩阵分解能够有效挖掘出数据集X中各个样本及各个特征之间的关联，即认为

能够有效拟合X，从而可以用

中的元素填充数据集X中缺失的部分，如图5所示；

具体地，

为m×n维初始拟合矩阵，在对存在缺失数据的数据集进行深度填充时，m为时间点的数目，n为智能电表量测的变量数；矩阵U为每一行数据赋予一个k维嵌入向量，以挖掘各样本或者各行之间的关联；矩阵V为每一列数据赋予一个k维嵌入向量，以挖掘各特征或者各列之间的关联；

进一步地，不同行代表不同的电表及量测时间，不同列代表不同类型的量测数据，矩阵U挖掘时序数据之间的关联，矩阵V挖掘各类型量测数据之间的关联。

在本申请实施例中，对仍存在缺失数据的数据集进行矩阵分解，包括：

根据下式对存在缺失数据的数据集进行矩阵分解：

c为预设好的1×k维向量；

具体地，

为拟合误差，由于工业负荷的负荷量较为平稳，相邻时刻之间的负荷变化量通常较小，所以通过时序正则化项λ₃||BU||²为对矩阵U的一阶差分进行正则化，从而对矩阵U进行约束，使得拟合出的数据具有时序稳定性，避免出现负荷显著波动的情况。

具体地，装设了智能电表的工业负荷所提供的量测数据变量：总有功功率、A相有功功率、B相有功功率、C相有功功率、总无功功率、A相无功功率、B相无功功率、C相无功功率之间，根据基尔霍夫定律存在着明显的相关性，在修复过程中，通过对相关性的考虑可以有助于提升修复的精度。

进一步地，根据总有功功率、A相有功功率、B相有功功率、C相有功功率、总无功功率、A相无功功率、B相无功功率、C相无功功率这八个电表的量测数据，确定矩阵V为

向量c为

其中，v₁代表总有功功率的嵌入向量，v₂，v₃，v₄分别表示A相有功功率、B相有功功率、C相有功功率的嵌入向量；v₅代表总无功功率的嵌入向量，v₆，v₇，v₈分别代表A相无功功率、B相无功功率、C相无功功率的嵌入向量；

进一步地，基于矩阵V以及向量c可得到

c^TV＝(v₁-v₂-v₃-v₄)+(v₅-v₆-v₇-v₈)

由此可得特征正则化项λ₄||c^TV||²使得总有功功率嵌入向量与A相有功功率、B相有功功率、C相有功功率的嵌入向量之和尽可能接近，总无功功率嵌入向量与A相无功功率、B相无功功率、C相无功功率的嵌入向量之和尽可能接近，即赋予了总有功功率等于A相有功功率、B相有功功率、C相有功功率之和，总无功功率等于A相无功功率、B相无功功率、C相无功功率之和的约束，从而使矩阵分解的结果具备合理性以及可解释性。

在本申请实施例中，利用梯度下降法迭代更新行挖掘矩阵以及列挖掘矩阵，包括：

其中，

为行挖掘矩阵以及列挖掘矩阵的梯度，d为学习率，

为迭代更新后的行挖掘矩阵，

为迭代更新后的列挖掘矩阵。

具体地，随机初始化矩阵U以及矩阵V，利用梯度下降法迭代更新矩阵U以及矩阵V，直至梯度

中各元素值均小于设定阈值时停止迭代，基于最终得到的矩阵

以及矩阵

得到拟合矩阵

利用

中的元素填充X中的缺失值。

以一种场景举例，选取某地区3个月的工业负荷数据作为算例，共包括200个工业用户共计345个电表的量测数据，负荷数据共有8个特征，即总有功功率、A相有功功率、B相有功功率、C相有功功率、总无功功率、A相无功功率、B相无功功率、C相无功功率；负荷每15分钟进行一次量测，每种负荷一天包含96个负荷数据；

从这3个月的工业负荷数据中随机剔除20％的数据作为缺失值，用本申请实施例提出的方法对缺失值进行补全，从而将填充结果与真实值进行对比，评价指标采用均方根误差(Root Mean Square Error，RMSE)，通过下式确定均方根误差：

其中，x_true，i为第i个真实值，x_imp，i为第i个填充值。

具体地，基于评价指标将本申请实施例提出的方法与均值填充法、K近邻法、多重填充法的填充效果进行对比，对比结果如图6所示，其中，本申请实施例提出的方法的均方根误差为1.41，均值填充法的均方根误差为2.07，K近邻法的均方根误差为1.55，多重填充法的均方根误差为1.63，由此可得，本申请实施例提出的方法的均方根误差最小，验证了本申请实施例提出的方法应用于工业负荷数据的有效性。

进一步地，某电表某日的总有功功率曲线的缺失值填充效果如图7所示，其中，MF为本申请实施例提出的方法，KNN为K近邻法，MICE为多重填充法，由此可得，本申请实施例提出的方法与真实值较为接近，有着较好的缺失值填充效果。

综上，本申请实施例提出的方法，通过获取每个用户的负荷数据以及用户特征数据，根据用户特征数据将负荷数据拆分为多个数据集；对数据集中可基于已有的负荷数据直接获取的缺失数据进行初步填充；利用矩阵分解算法对进行初步填充后仍存在缺失数据的数据集进行深度填充。本申请能够利用智能电表中多种不同类型量测数据之间的相关性，对数据中复杂的关联模式进行挖掘，有效挖掘出不同时刻、不同负荷分量之间的关联关系，从而提升缺失值填充的准确性，有效填充工业负荷数据的缺失值，从而实现对细粒度智能电表的缺失数据填充，为工业负荷的缺失数据填充提供有效参考。

为了实现上述实施例，本申请还提出一种面向工业负荷的数据缺失处理装置。

图8为本申请实施例提供的一种面向工业负荷的数据缺失处理装置的结构示意图。

如图8所示，一种面向工业负荷的数据缺失处理装置，包括：

拆分模块810，用于获取每个用户的负荷数据以及用户特征数据，并根据用户特征数据将负荷数据拆分为多个数据集；

初步填充模块820，用于对数据集中可基于已有的负荷数据直接获取的缺失数据进行初步填充；

深度填充模块830，用于利用矩阵分解算法对进行初步填充后仍存在缺失数据的数据集进行深度填充。

综上，本申请实施例提出的装置，通过拆分模块获取每个用户的负荷数据以及用户特征数据，并根据用户特征数据将负荷数据拆分为多个数据集；初步填充模块对数据集中可基于已有的负荷数据直接获取的缺失数据进行初步填充；深度填充模块利用矩阵分解算法对进行初步填充后仍存在缺失数据的数据集进行深度填充。本申请能够利用智能电表中多种不同类型量测数据之间的相关性，对数据中复杂的关联模式进行挖掘，有效挖掘出不同时刻、不同负荷分量之间的关联关系，从而提升缺失值填充的准确性，有效填充工业负荷数据的缺失值，从而实现对细粒度智能电表的缺失数据填充，为工业负荷的缺失数据填充提供有效参考。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是两个或两个以上。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。