CN117093830A

CN117093830A - 一种考虑局部与全局的用户负荷数据修复方法

Info

Publication number: CN117093830A
Application number: CN202310812473.0A
Authority: CN
Inventors: 沈晓东; 赵俊豪; 刘友波
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2023-07-04
Filing date: 2023-07-04
Publication date: 2023-11-21

Abstract

本发明涉及一种考虑局部与全局的用户负荷数据修复方法，属于负荷数据插补技术领域，局部插补模型利用数据点之间存在局部的相似性，基于局部相似性对缺失值进行插补；全局插补模型利用整个数据集的特征与分布信息，基于全局信息对缺失值进行插补。基于相似数据点的插补方法简单易用，但是受到局部相似性的限制，缺乏数据集的全局信息；基于全局模型的插补方法可以利用整个数据集的特征和分布信息，但计算复杂度较高，受极端数据点的影响较大。通过将二者结合，首先利用GCN挖掘数据的局部相似性，进行局部插补，再基于局部插补的结果使用GAN的对抗训练，进行全局插补。经实验验证，相比现有插补算法，本发明所提插补方法更加准确和稳定。

Description

一种考虑局部与全局的用户负荷数据修复方法

技术领域

本发明属于负荷数据插补技术领域，具体涉及一种考虑局部与全局的用户负荷数据修复方法。

背景技术

在新一轮电力体制改革推动下，售电侧进一步放开，售电公司作为一个新兴市场主体应运而生。准确的用户级负荷预测对于公司掌握用户需求、减少偏差考核风险和提高经济效益具有重要意义。然而单一用户的负荷相较于系统负荷具有更强的不确定性，基于统计学的传统预测方法难以获得精确的预测结果，而深度学习方法的非线性拟合能力和泛化能力更强,能够获取更加精确的预测结果。深度学习模型是数据驱动的方法，数据的质量对模型的性能有着重要的影响。但是在售电公司对用户用电量数据的采集、传输、转换的过程中可能会因为采集设备故障、通信设备故障、遭受攻击等原因，导致采集数据存在缺失，数据质量不佳。

目前对于缺失数据的处理方法可分为直接删除法和插补法。直接删除法虽然简单易用，但只适用于缺失值占比较小的情况，当其占比较大时，会丢失大量关键有用信息，会导致模型的效果差甚至是模型训练失败。插补法可以分为两类，第一类方法是基于相似的数据点进行缺失值的推断，主要包括使用简单的统计量(如平均值、中位数等)以及k近邻(KNN)等方法，第二类方法是基于整个数据集的信息建立全局模型进行插补，主要包括多重插补和生成对抗网络(generative adversarial networks,GAN)等方法。现阶段有采用基于k近邻的插补方法，该方法简单易用，但是建模局限于相似的数据点，并未构建全局模型，插补精度较低。还有采用拉格朗日插值方法进行缺失值填充，从数学的角度构建模型捕捉数据的局部相似性进行插补。提出一种基于链式规则的多重插补方法(MICE)，该方法通过多次遍历整个数据集以获取数据关联规则，利用关联规则进行缺失值插补，是目前比较流行的一种插补方法。由于深度学习的多层非线性结构，其在捕获数据中的复杂相关性、构建全局模型方面更具优势。GAN是一种深度学习生成模型，能够在原始数据集质量不佳时通过生成类似于原始数据且服从同一概率分布的样本，迫使重建数据接近原始数据的自然分布，用于提升原始数据的质量。使用GAN对电力系统量测缺失数据进行重建，取得了较好的效果。

上述基于相似数据点的插补方法简单易用，但是受到局部相似性的限制，缺乏数据集的全局信息；基于全局模型的插补方法可以利用整个数据集的特征和分布信息，但计算复杂度较高，受极端数据点的影响较大。

因此，现阶段需设计一种考虑局部与全局的用户负荷数据修复方法，来解决以上问题。

发明内容

本发明目的在于提供一种考虑局部与全局的用户负荷数据修复方法，用于解决上述现有技术中存在的技术问题，先利用图卷积神经网络(graph convolutional network,GCN)挖掘相似数据点之间的潜在联系，构建局部插补模型；再通过GAN构建全局插补模型，二者相结合以提高数据插补的精度。

为实现上述目的，本发明的技术方案是：

一种考虑局部与全局的用户负荷数据修复方法，包括下述步骤：

S1、首先利用GCN挖掘数据的局部相似性，进行局部插补；即，局部插补模型利用数据点之间存在局部的相似性，基于局部相似性对缺失值进行插补；

S2、再基于局部插补的结果使用GAN的对抗训练，进行全局插补；即，全局插补模型利用整个数据集的特征与分布信息，基于全局信息对缺失值进行插补；

S3、最后进行实验仿真，验证将局部插补与全局插补相结合对插补性能提升的有效性。

进一步的，步骤S1具体如下：

(1)计算相似度矩阵；

将原始数据集的每一个特征向量表示为图中的一个节点，然后计算各个节点之间的相似性，构成相似矩阵，对相似矩阵进行处理后得到邻接矩阵，根据邻接矩阵即可得到图结构的数据；基于欧氏距离的相似度计算公式如下：

式中：d表示欧氏距离；表示哈达玛积；M是二值掩码矩阵，用于表示数据是否缺失，若M＝0，则表示数据缺失，反之则表示数据没有缺失，M_i是矩阵M的第i列；

通过对其最近的K个非缺失点的相似度进行处理，从而得到缺失点的相似度；设数据缺失点为x_m，其最近的K个非缺失点为x_ik，根据高斯核函数计算缺失点的相似度表达式为：

式中：σ为高斯核函数的带宽参数；

由此得到一个相对完整的相似度矩阵S_ij，对其进行阈值截取操作，以获得一个稀疏矩阵；对相似矩阵S_ij的每一行从大到小进行排序，并指定一个分位数p，每一行只保留排名在前p％的值；如下式：

(2)构造GCN自编码器；

自编码器由编码器和解码器组成，编码器用于将原始输入x映射到一个低维空间h＝encode(x)中进行中间表示，而解码器则将编码后的输入映射到原始维度空间中对输入进行重构：通过训练减少x与/>之间的误差；使用去噪自编码器；去噪自编码器接收有噪声的原始样本作为输入并对原始样本进行重构作为输出；在局部插补模型中，通过使用dropout层随机删除50％的输入后再作为去噪自编码器的输入，以完成对原始有缺失输入的重构；

利用GCN作为编码器和解码器，构建局部插补模型；在编码阶段的图卷积只涉及1阶邻居节点，在解码阶段的图卷积扩展到2阶邻居节点；在解码器部分加入一个跳过层和全局信息；在跳过层部分只考虑1阶邻居节点；在解码器中加入一个全局信息向量g，通过加权的方式将全局信息与每个节点相结合，加强节点表示的表达能力；

基于GCN的编码器和解码器的定义如下：

式中：是不考虑自连接的对称归一化拉普拉斯矩阵；g是全局信息向量，通过加权的方式将全局信息与每个节点相结合；

使用MSE作为自编码器的损失函数：

进一步的，步骤S2具体如下：

考虑在使用GCN进行局部插补的基础之上将对抗性训练引入，构成全局插补模型；GAN由生成器和判别器组成，生成器负责生成伪造数据，而判别器负责对生成的伪造数据和真实数据进行区分，二者进行对抗训练，最终迫使生成的伪造数据的概率分布接近真实数据的概率分布；在全局插补模型当中，生成器使用基于GCN的自编码器，判别器使用多层感知机；

全局插补模型首先通过生成器进行局部插补得到填充后的数据,随后将X和输入到判别器中，判别器输出它们真实性的概率值，判别器和生成器通过训练反馈进行更新，再将对应的值去填充X的缺失部分完成数据的全局插补；

GAN模型为WGAN-GP形式；WGAN-GP的损失函数为：

式中：E(·)为数学期望；P_x(x)和分别为真实数据x的概率分布和生成数据/>的概率分布；D(·)为判别器的函数；λ是梯度惩罚项的权重系数；其中/>ε为随机数；

生成器的损失函数在L₁的基础上需要进行改动，变为：

在训练过程当中，设置判别器的权重每更新5次，生成器更新1次。

进一步的，步骤S3具体如下：

选取多个企业的用户数据，仅包含历史负荷特征，采样间隔1h；以7:1:2的比例划分训练集、验证集和测试集；采用均方根误差RMSE作为实验结果的评价指标；RMSE用于衡量预测值与真实值之间的相近程度；其中，手动设置两种负荷数据的缺失场景，分别是随机缺失场景和片段缺失场景；在随机缺失场景中，设置10％到60％的6种不同的随机缺失率；在片段缺失场景中，设置1天到9天的9种不同的片段缺失；使用GCIN、KNN、MICE、Mean和MF基线模型作为对比。

与现有技术相比，本发明所具有的有益效果为：

本方案其中一个有益效果在于，

局部插补模型利用数据点之间存在局部的相似性，基于局部相似性对缺失值进行插补；全局插补模型利用整个数据集的特征与分布信息，基于全局信息对缺失值进行插补。基于相似数据点的插补方法简单易用，但是受到局部相似性的限制，缺乏数据集的全局信息；基于全局模型的插补方法可以利用整个数据集的特征和分布信息，但计算复杂度较高，受极端数据点的影响较大。通过将二者结合，首先利用GCN挖掘数据的局部相似性，进行局部插补，再基于局部插补的结果使用GAN的对抗训练，进行全局插补。经实验验证，相比现有插补算法，本发明所提插补方法更加准确和稳定。

附图说明

图1是本发明的基于GCN的局部插补模型示意图。

图2是本发明的基于GAN的全局插补模型示意图。

图3是本发明的算法流程示意图。

图4是本发明的随机缺失插补误差结果示意图。

图5是本发明的缺失插补误差结果示意图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

图卷积神经网络(graph convolutional network,GCN)是近年来提出的一种用于学习图结构数据的神经网络模型，能够挖掘图结构数据中的节点信息以及节点间的相关性信息。在局部插补中，将原始数据转换为图结构数据，通过GCN利用节点之间的关系和相似性，进行数据的插补和预测。基于GCN的局部插补模型原理如下:

1)计算相似度矩阵

将原始数据集的每一个特征向量表示为图中的一个节点，然后计算各个节点之间的相似性，构成相似矩阵，对相似矩阵进行处理后得到邻接矩阵，根据邻接矩阵即可得到图结构的数据。基于欧氏距离的相似度计算公式如下：

式中：d表示欧氏距离；表示哈达玛积；M是二值掩码矩阵，用于表示数据是否缺失，若M＝0，则表示数据缺失，反之则表示数据没有缺失，M_i是矩阵M的第i列。

但数据集X中存在数据缺失点，数据缺失点无法直接通过(1)式进行相似度计算，因而需要通过对其最近的K个非缺失点的相似度进行处理，从而得到缺失点的相似度。设数据缺失点为x_m，其最近的K个非缺失点为x_ik，根据高斯核函数计算缺失点的相似度表达式为：

式中：σ为高斯核函数的带宽参数。

由此就得到了一个相对完整的相似度矩阵S_ij，但该矩阵是稠密的，计算成本较高，很难直接应用于图卷积当中，需要对其进行阈值截取操作，以获得一个稀疏矩阵。在本文中，对相似矩阵S_ij的每一行从大到小进行排序，并指定一个分位数p，每一行只保留排名在前p％的值。如下式：

2)构造GCN自编码器

自编码器由编码器和解码器组成，编码器用于将原始输入x映射到一个低维空间h＝encode(x)中进行中间表示，而解码器则将编码后的输入映射到原始维度空间中对输入进行重构：通过训练不断减少x与/>之间的误差，提升重构的精度。但是由于数据是有缺失的，在训练阶段是未知的，不能直接用于训练自编码器，故需要使用去噪自编码器DAE。去噪自编码器接收有噪声的原始样本(被破坏的原始样本)作为输入并对原始样本进行重构作为输出。在局部插补模型中，通过使用dropout层随机删除50％的输入后再作为DAE的输入，以完成对原始有缺失输入的重构。

如图1所示，此处利用GCN作为编码器和解码器，构建局部插补模型。在编码阶段的图卷积只涉及1阶邻居节点，而在解码阶段为了获取更多邻居节点的信息以提升重构精度，图卷积扩展到了2阶邻居节点。另外，为了进一步提高数据插补的质量，在解码器部分还加入了一个跳过层和全局信息。在跳过层中所执行的图卷积操作与编码器部分类似，唯一不同的是在跳过层中的图卷积不涉及到自身节点，那么如此一来跳过层的输出只包含邻居节点的信息而不包含当前节点自身的信息。因此，跳过层有助于强制模型学习相邻节点之间的相似性，避免自编码器学习到恒等函数，从而提高了模型对数据的理解和重构能力。为了提高最相似节点的贡献，在跳过层部分只考虑了1阶邻居节点。由于GCN通常更关注节点和边级别的信息，加入全局信息有利于提高图神经网络的表达能力。全局信息通常是指整个数据集的统计信息，例如平均值、众数等，本文使用平均值作为全局信息，在解码器中加入一个全局信息向量g，通过加权的方式将全局信息与每个节点相结合，加强节点表示的表达能力。

基于GCN的编码器和解码器的定义如下：

式中：是不考虑自连接的对称归一化拉普拉斯矩阵；g是全局信息向量，通过加权的方式将全局信息与每个节点相结合。

使用MSE作为自编码器的损失函数：

由于GAN在数据重构中的出色表现，考虑在使用GCN进行局部插补的基础之上将对抗性训练引入，构成全局插补模型。GAN由生成器和判别器组成，生成器负责生成伪造数据，而判别器负责对生成的伪造数据和真实数据进行区分，二者进行对抗训练，最终迫使生成的伪造数据的概率分布接近真实数据的概率分布。在全局插补模型当中，生成器使用基于GCN的自编码器，判别器使用多层感知机(multi-layer perceptron,MLP)。

全局插补模型的结构如图2所示,模型首先通过生成器进行局部插补得到填充后的数据,随后将X和输入到判别器中，判别器输出它们真实性的概率值，判别器和生成器通过训练反馈进行更新，在经过多轮的对抗训练后填充后的数据已经非常接近真实的不完整数据X的概率分布，再将对应的值去填充X的缺失部分完成数据的全局插补。

传统模式的GAN在训练过程中存在模式崩塌和梯度消失的问题，后来有学者提出了采用Wasserstein距离的WGAN来解决这些问题，但是WGAN使用权重裁剪的方式来限制判别器的网络参数，这会导致网络参数值分布不均匀，训练过程不稳定。WGAN-GP在WGAN的基础上提出了使用梯度惩罚来代替权重裁剪，提高了训练过程的稳定性，更容易生成高质量的样本^[27]。故本文采用的GAN模型为WGAN-GP形式。本文中使用WGAN-GP的损失函数为：

式中：E(·)为数学期望；P_x(x)和分别为真实数据x的概率分布和生成数据/>的概率分布；D(·)为判别器的函数；λ是梯度惩罚项的权重系数；其中/>ε为随机数。

另外，为了使生成器在最小化重构误差的同时，提升骗过判别器的能力，生成器的损失函数在上文L₁的基础上需要进行改动，变为：

在训练过程当中，设置判别器的权重每更新5次，生成器更新1次。对判别器的训练更多是为了使其能够更加精准地区分生成数据和真实数据，也是为了避免生成器的训练次数过多而产生较多的噪声，从而使训练过程更加稳定，提升生成数据的质量。

如图3所示，算法流程：

将原始数据表示为图结构数据，利用GCN自编码器进行局部插补。

利用GCN自编码器作为GAN中的生成器。

GCN根据GAN的训练反馈进行更新，提升插补效果，构成全局插补模型。

实例分析：

选取中国某省市某区域内2020年5月1日至2022年3月31日31个企业的用户数据，仅包含历史负荷特征，采样间隔1h。以7:1:2的比例划分训练集、验证集和测试集。本实验采用均方根误差RMSE作为实验结果的评价指标。RMSE用于衡量预测值与真实值之间的相近程度，值越小说明预测效果越好。在插补实验中，手动设置了两种负荷数据常见的缺失场景，分别是随机缺失场景和片段缺失场景。在随机缺失场景中，本文设置了10％到60％的6种不同的随机缺失率；在片段缺失场景中，本文设置了1天到9天的9种不同的片段缺失。在插补实验中，为对比插补效果，还使用了GCIN(不使用对抗训练，仅局部插补模型)、KNN(基于k近邻的插补算法)、MICE(基于链式规则的多重插补算法)、Mean(均值插补法)和MF(基于矩阵分解的插补算法)几种基线模型作为对比。

随机缺失场景插补结果：

由表1和图4可知，在随机缺失场景中不同的缺失率下，AGCIN模型(本文所提模型)均具有最优的插补性能，且随着缺失率的提升，AGCIN模型的性能优势愈发明显。而不使用对抗训练、仅有局部插补的GCIN模型的性能略逊于AGCIN模型，但仍优于其他插补方法。这表明图卷积神经网络在局部插补任务中能够有效地学习数据的特征和关联性，完成局部插补任务，而加入GAN进行全局插补能够有效提升插补精度，验证了将局部插补与全局插补相结合对插补性能提升的有效性。

表1随机缺失插补误差对比

片段缺失场景插补结果：

表2片段缺失插补误差对比

由表2和图5可知，在片段缺失场景中不同的缺失天数下，AGCIN和GCIN模型依然具有最优和次优的插补性能。但是相较于随机缺失场景，AGCIN与GCIN模型之间的性能差异减小，这是因为随机缺失更具有随机性和不连续性，而片段缺失中数据是连续缺失的，数据之间的关联性和趋势更为明显，单独的局部插补(GCIN)模型已经能够较好地利用数据的内在关系进行插补从而获得较好的插补性能。虽然在连续缺失场景中，单独的局部插补模型已经能够较好地利用数据的局部关联性，但加入GAN的全局插补后仍然可以略微提升插补性能。

性能分析：

通过随机缺失和片段缺失两个场景进行的试验，验证了局部插补和全局插补相结合在提升插补精度方面的有效性。实验结果表明，在片段缺失场景中，数据之间的关联性和趋势更为明显，局部插补已经能够较好地利用数据内在的关联性进行插补。在随机缺失场景中，数据缺失的随机性和不连续更强，局部插补模型的性能相对有限，引入GAN进行全局插补，将局部插补与全局插补相结合能够更好地捕捉整体数据分布和特征，进一步改善插补结果的准确性。因此，结合局部插补和全局插补的方法对于提升插补精度是有效的，能够充分利用数据的局部关联性和全局分布特征，从而获得更准确的缺失值估计。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种考虑局部与全局的用户负荷数据修复方法，其特征在于，包括下述步骤：

2.根据权利要求1的一种考虑局部与全局的用户负荷数据修复方法，其特征在于，步骤S1具体如下：

(1)计算相似度矩阵；

S_ij＝d(x_i⊙(M_i⊙M_j),x_j⊙(M_i⊙M_j))；

式中：d表示欧氏距离；⊙表示哈达玛积；M是二值掩码矩阵，用于表示数据是否缺失，若M＝0，则表示数据缺失，反之则表示数据没有缺失，M_i是矩阵M的第i列；

式中：σ为高斯核函数的带宽参数；

(2)构造GCN自编码器；

基于GCN的编码器和解码器的定义如下：

使用MSE作为自编码器的损失函数：

3.根据权利要求2的一种考虑局部与全局的用户负荷数据修复方法，其特征在于，步骤S2具体如下：

GAN模型为WGAN-GP形式；WGAN-GP的损失函数为：

生成器的损失函数在L₁的基础上需要进行改动，变为：

4.根据权利要求3的一种考虑局部与全局的用户负荷数据修复方法，其特征在于，步骤S3具体如下：