CN110781167A

CN110781167A - 一种基于聚类压缩感知的用户缺失电量数据修复方法

Info

Publication number: CN110781167A
Application number: CN201910986927.XA
Authority: CN
Inventors: 严明辉; 段沛恒; 卜祺; 王睿琛; 冯莹莹; 孙恒一
Original assignee: Kunming Electric Power Trading Center LLC
Current assignee: Kunming Electric Power Trading Center LLC
Priority date: 2019-10-17
Filing date: 2019-10-17
Publication date: 2020-02-11
Anticipated expiration: 2039-10-17
Also published as: CN110781167B

Abstract

本发明公开了一种基于聚类压缩感知的用户缺失电量数据修复方法。本发明首先从计量系统中获取用户当月用电信息，设置数据缺失日以及缺失时段；采用k‑means聚类对用户的用电模式进行划分，依据分类结果构建相似日用电量矩阵；通过相似日用电量矩阵求取相似日平均用电量序列；依据平均用电量对相似日矩阵中缺失时段的电量预填充；判断用户电量曲线的失真程度，就严重失真采用预填充值进行修复；将缺失时段依据前后是否连续进行分块，计算各块时段的电能增长率；若缺失时段电能波动在正常范围采用线性插值的方式进行修复，若不在正常范围时采用压缩感知进行修复。本发明能够同时考虑数据的横向、纵向相似性，对用户连续缺失电量的修复具有较高的准确率。

Description

一种基于聚类压缩感知的用户缺失电量数据修复方法

技术领域

本发明属于智能电网技术领域，尤其涉及一种基于聚类压缩感知的用户缺失电量数据修复方法。

背景技术

2018年7月，南方能源监管局组织召开南方电力现货市场交易规则专家研讨会，广东电力现货市场正式运行。在未来，中国电力市场将逐步形成中长期加现货交易的市场模式，届时电能交易与结算将会变得非常复杂，对电能量数据采集及技术处理手段也会提出更高要求。

高级量测体系作为智能电网的重要组成部分，经过多年的建设，目前已日趋完善。其通过运用各种先进的测量技术和通讯手段使电网整体运行情况易于感知，能够及时发现异常情况，保障系统安全稳定运行。分时计量是电网高级量测体系中非常重要的功能之一，其能够记录用户各个时段的用电情况，为各市场主体参与现货市场交易提供条件。

分时电量数据作为电能结算中最重要的基础数据，其重要性不言而喻。然而在实际情况中由于各种原因会导致计量系统中的电量数据出现缺失、跳变以及死数等异常情况。如何识别、修复异常数据成为电力现货市场建设亟待解决的问题。

传统的数据修复方法原理简单，主要考虑缺失点与周围数据的相关性或者历史数据的周期性，在处理单点缺失时，计算时间短且修复效果较好；但是在处理多点和连续数据缺失时求解将会变得非常复杂，修复所得数据与原始数据相差较大。

发明内容

鉴于上述技术存在的问题，本发明提出了一种基于聚类压缩感知的用户缺失电量数据修复方法，包括以下步骤：

步骤1：从计量系统中获取得到用户当月用电量，根据缺失数据日以及缺失时段序列设置用户缺失电量，根据缺失时段将用户当月每天相同缺失时段的电量数据全部置零，得到聚类算法输入数据集以构建输入矩阵；

步骤2：采用k-means聚类方法对输入矩阵按行聚类得到聚类结果，将用户在当月M天的用电模式按日分为k类，构建相似日矩阵；

步骤3：找到缺失数据日所属的相似日矩阵，将矩阵中缺失数据日的用电量整行置空后得到中间矩阵，进一步计算得到缺失时段的相似日平均用电量序列；

步骤4：采用相似日平均用电量对相似日矩阵中缺失时段的电量进行预填充；

步骤5：判断用户缺失数据日电量曲线的失真程度以进行修复；

步骤6：将缺失时段序列依据前后是否为连续缺失分块成多个子时段序列，得到分块后缺失时段序列，计算分块后缺失数据时段电量的平均增长率；

步骤7：若分块后缺失数据时段电量的平均增长率在正常范围时采用线性插值的方式进行修复，若分块后缺失数据时段电量的平均增长率不在正常范围时采用压缩感知方法对电量序列进行修复；

作为优选，步骤1中所述用户当月第d天，h时段的用电量为：

W_d,h

其中，d∈(1,…M)，M表示该月所具有的天数，h∈(1,…N)，N表示一天内电表能够计量的时段数目；

步骤1中所述根据缺失数据日以及缺失时段序列设置用户缺失电量为：

设置用户缺失电量的位置在d₀天h₀时段；

其中，d₀为缺失数据日，h₀为缺失时段序列，h₀＝(h₀(1),h₀(2),…h₀(q))，其长度q表示当日电量缺失的数目；

设置用户缺失电量为：：

步骤1中所述聚类算法输入数据集：

b_d,h＝W_d,h d∈(1,…M),h∈(1…N)

步骤1中根据缺失时段将用户当月每天相同缺失时段的电量数据全部置零：

其中h₀表示缺失时段，

为b_d,h中缺失时段的数据；

步骤1中所述构建输入矩阵具体为：

B＝b_d,h d∈(1,…M),h∈(1…N)

其中，b_d,h为聚类算法输入数据集，B为输入矩阵；

作为优选，步骤2中所述聚类结果具体为：

将输入矩阵B的M行进行分类，记录每一类别所包含的行：

d_i＝(d_i(1),d_i(2),…d_i(m_i))i∈(1,2,…k)

其中,d_i表示矩阵B中类别为i的行，m_i为类别为i的行数；

步骤2中所述的相似日矩阵具体为：

依据聚类结果将矩阵B中划为同一类的行所对应日的各时段用电量重新排列，组成相似日用电量矩阵：

此处考虑到矩阵B中缺失时段的电量前述步骤已经置零，所以需要找到每一行所对应的日各时段的用电量即W_d,h，因为后续要求缺失时段用电量的平均值；

其中，P_i为类别i的相似日用电量矩阵，维度为m_i×N，

为类别i中第m_i天第N个时段的用电量；

作为优选，步骤3中所述找到缺失数据日所属的相似日矩阵为：

找到d₀日所属的相似日矩阵为P_i；

将P_i中d₀日的用电量整行置空后得到中间矩阵P_i′；

步骤3中所述进一步计算得到相似日平均用电量序列为：

对P_i′按列求取平均值得到相似日平均用电量序列：

作为优选，步骤4中对相似日矩阵中缺失时段的电量进行预填充为：

P_i(n₁,h₀(j))＝f(h₀(j))j∈(1,…q)

其中f为相似日平均用电量序列，h₀为缺失电量时段，P_i为相似日矩阵，n₁表示P_i中d₀日用电量所处的行数，0≤n₁≤m_i；

作为优选，步骤5中所述判断用户缺失数据日电量曲线的失真程度以进行修复具体为：

所述缺失数据日为d₀；

所述失真程度是指缺失数据个数与缺失量阈值的大小关系：

当q＞L时，直接选用相似日矩阵缺失时段的预填充值作为修复结果修复结束，所述预填充值为根据所述步骤4预填充处理得到：

w(j)＝P_i(n₁,h₀(j))j∈(1,2,…q)

其中，q为缺失数据个数，P_i为相似日矩阵，w为修复电量序列；

当q≤L时，执行步骤6；

作为优选，步骤6中所述将缺失时段序列依据前后是否为连续缺失分块成多个子时段序列，得到分块后缺失时段序列具体为：

将h₀依据前后是否为连续缺失分块成m个子时段序列：

h_0,e e∈(1,…,m)

其中，h₀为缺失时段序列，h_0,e为第e块缺失时段，length(h_0,e)表示h_0,e的长度；

步骤6中所述计算分块后缺失数据时段电量的平均增长率为：

a_e(j)＝f(h_0,e(j)+1)/f(h_0,e(j))j∈(1,…length(h_0,e)),e∈(1,…m)

其中，a_e为分块后第e块缺失时段的平均增长率；

作为优选，步骤7中所述若分块后缺失数据时段电量的平均增长率在正常范围时采用线性插值的方式进行修复为：

当缺失数据时段电量的平均增长率满足公式：

l₁≤a_e(j)≤l₂j∈(1,…,length(h_0,e)),e∈(1,…m)

其中，a_e(j)为第e块缺失时段中第j个点的电量增长率，length(h_0,e)表示h_0,e的长度；l₁代表电量波动的下波动阈值，l₂代表电量波动的上波动阈值；

采用线性插值的方式进行修复，具体为：

利用表码前后读数计算平均电量填补缺失数据，具体如下：

其中，Q表示从用户计量电表中所读取的d₀日表码数值，h_0,e表示第e块缺失时段，length(h_0,e)表示h_0,e的长度，w_e(j)为第e块缺失时段中第j个点的修复电量；

步骤7中所述当分块后缺失时段电量的平均增长率不在正常范围时采用压缩感知方法对电量序列进行修复具体为：

当缺失时段电量增长率满足：

a_e(j)＜l₁或a_e(j)＞l₂j∈(1,…,length(h_0e))

采用压缩感知方法对电量序列进行修复；

进一步地，所述采用压缩感知方法对电量序列进行修复为：

步骤7.1，重构缺失日所属的相似日矩阵；

作为优选，步骤7.1中所述的重构相似日矩阵具体为：

所述相似日矩阵为P_i,i∈(1,…k)；

对P_i中的元素按行依次排列构成一条长度为1×Nm_i的电量序列：

x＝[P_i(1,1),…P_i(1,N),P_i(2,1),…P_i(2,N),…P_i(m_i,1),…P_i(m_i,N)]^T

其中，x中各元素分别代表同类用电模式下每天不同时段的用电量，特别的P_i(m_i,1),…P_i(m_i,N)表示类别i用电模式下第m_i天中1～N各时段的用电量；

步骤7.2，选取smooth滤波函数，对电量序列做平滑处理；

步骤7.3，对平滑后的电量序列进行离散余弦变换：

θ＝ψx

其中，x为电量序列，ψ为Nm_i×Nm_i的离散余弦变换矩阵，θ表示x经离散余弦变换之后的稀疏序列；

步骤7.4，选择高斯随机测量矩阵，对稀疏序列进行压缩：

所述压缩过程为：

y＝φψ'θ+ε＝Aθ+ε

其中，ψ'为ψ求逆的结果，φ为M×Nm_i的高斯随机测量矩阵，A为观测矩阵，ε为随机噪声，y表示观测结果，维度为M×1；

步骤7.5，选用正交匹配追踪算法对压缩所得观测结果进行重构，从重构输出结果中找到缺失点的电量修复数据，修复过程结束；

作为优选，步骤7.5所述选用正交匹配追踪算法对压缩所得观测结果进行重构具体为：

z＝g(y,A,k)

其中，g为正交匹配追踪算法函数关系，A为观测矩阵，k为θ中非零元素的数目，z表示对x经压缩再重构后的结果，维度为1×Nm_i；

步骤7.5所述从重构输出结果中找到缺失点的电量修复数据，具体为：

w_e(j)＝z((n₁-1)×N+h_0e(j))j∈(1,…length(h_0e))

其中，z为重构结果，n₁为P_i中d₀日所在的行，h_0e为第e块缺失电量时段，w_e(j)为第e块缺失时段中第j个点的修复电量。

本发明能够同时考虑数据的横向、纵向相似性，对用户连续缺失电量的修复具有较高的准确率。

附图说明

图1：为本发明方法流程图；

图2：为正交匹配追踪重构算法流程图；

图3：为分别设置缺失点数为2～20时的修复误差对比；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1至图3介绍本发明的具体实施方式为：

步骤1：从计量系统中获取得到用户当月的用电量，根据缺失数据日以及缺失时段序列设置用户缺失电量，根据缺失时段将用户当月每天相同缺失时段的电量数据全部置零，得到聚类算法输入数据集以构建输入矩阵；

步骤1中所述用户当月第d天，h时段的用电量为：

W_d,h

其中，d∈(1,…M)，M表示该月所具有的天数，h∈(1,…N)，N表示一天内电表能够计量的时段数目，以12月为例，M＝30N＝96；

设置用户缺失电量的位置在d₀天h₀时段；

其中，d₀为缺失数据日，d₀＝15，h₀为一时间序列，h₀＝(h₀(1),h₀(2),…h₀(q))，其长度q表示当日电量缺失的数目，将缺失点数q分别设置为2～20后随机生成缺失时间序列进行电量修复；

设置用户缺失电量为：：

步骤1中所述聚类算法输入数据集：

b_d,h＝W_d,h d∈(1,…M),h∈(1…N)

其中h₀表示缺失时段，

为b_d,h中缺失时段的数据；

步骤1中所述构建输入矩阵具体为：

B＝b_d,h d∈(1,…M),h∈(1…N)

其中，b_d,h为聚类算法输入数据集，B为输入矩阵；

步骤2：采用k-means聚类方法对输入矩阵按行聚类得到聚类结果，将用户在当月M天的用电模式按日分为k类，k＝3，构建相似日矩阵；

步骤2中所述聚类结果具体为：

将输入矩阵B的M行进行分类，记录每一类别所包含的行：

d_i＝(d_i(1),d_i(2),…d_i(m_i))i∈(1,2,…k)

其中,d_i表示矩阵B中类别为i的行，m_i为类别为i的行数；

步骤2中所述的相似日矩阵具体为：

其中，P_i为类别i的相似日用电量矩阵，维度为m_i×N，W_di(mi),N为类别i中第m_i天第N个时段的用电量；

步骤3中所述找到缺失数据日所属的相似日矩阵为：

找到d₀日所属的相似日矩阵为P_i；

将P_i中d₀日的用电量整行置空后得到中间矩阵P_i′；

步骤3中所述进一步计算得到相似日平均用电量序列为：

对P_i′按列求取平均值得到相似日平均用电量序列：

步骤4中对相似日矩阵中缺失时段的电量进行预填充为：

P_i(n₁,h₀(j))＝f(h₀(j))j∈(1,…q)

其中f为相似日平均用电量序列，h₀为缺失电量时段，P_i为相似日矩阵，n₁表示P_i中d₀日用电量所处的行数，0≤n₁≤m_i

步骤5中所述判断用户缺失数据日电量曲线的失真程度以进行修复具体为：

所述缺失数据日为d₀；

所述失真程度是指缺失数据个数与缺失量阈值的大小关系：

w(j)＝P_i(n₁,h₀(j))j∈(1,2,…q)

其中，q为缺失数据个数，L为缺失量阈值，L＝10，P_i为相似日矩阵，w为修复电量序列；

当q≤L时，执行步骤6；

步骤6中所述将缺失时段序列依据前后是否为连续缺失分块成多个子时段序列，得到分块后缺失时段序列具体为：

将h₀依据前后是否为连续缺失分块成m个子时段序列：

h_0,e e∈(1,…,m)

步骤6中所述计算分块后缺失数据时段电量的平均增长率为：

a_e(j)＝f(h_0,e(j)+1)/f(h_0,e(j))j∈(1,…length(h_0,e)),e∈(1,…m)

其中，a_e为分块后第e块缺失时段的平均增长率；

步骤7：:若分块后缺失数据时段电量的平均增长率在正常范围时采用线性插值的方式进行修复，若分块后缺失数据时段电量的平均增长率不在正常范围时采用压缩感知方法对电量序列进行修复；

步骤7中所述若分块后缺失数据时段电量的平均增长率在正常范围时采用线性插值的方式进行修复为：

当缺失数据时段电量的平均增长率满足公式：

l₁≤a_e(j)≤l₂j∈(1,…,length(h_0,e)),e∈(1,…m)

其中，a_e(j)为第e块缺失时段中第j个点的电量增长率，length(h_0,e)表示h_0,e的长度；l₁代表电量波动的下波动阈值，l₁＝0.95，l₂代表电量波动的上波动阈值l₂＝1.05；

采用线性插值的方式进行修复，具体为：

利用表码前后读数计算平均电量填补缺失数据，具体如下：

当缺失时段电量增长率满足：

a_e(j)＜l₁或a_e(j)＞l₂j∈(1,…,length(h_0e))

采用压缩感知方法对电量序列进行修复；

进一步地，所述采用压缩感知方法对电量序列进行修复为：

步骤7.1，重构缺失日所属的相似日矩阵；

步骤7.1中所述的重构相似日矩阵具体为：

所述相似日矩阵为P_i,i∈(1,…k)；

x＝[P_i(1,1),…P_i(1,N),P_i(2,1),…P_i(2,N),…P_i(m_i,1),…P_i(m_i,N)]^T

步骤7.2，选取smooth滤波函数，对电量序列做平滑处理；

步骤7.3，对平滑后的电量序列进行离散余弦变换：

θ＝ψx

步骤7.4，选择高斯随机测量矩阵，对稀疏序列进行压缩：

所述压缩过程为：

y＝φψ'θ+ε＝Aθ+ε

步骤7.5，参见图2，选用正交匹配追踪算法对压缩所得观测结果进行重构，从重构输出结果中找到缺失点的电量修复数据，修复过程结束；

步骤7.5所述选用正交匹配追踪算法对压缩所得观测结果进行重构具体为：

z＝g(y,A,k)

w_e(j)＝z((n₁-1)×N+h_0e(j))j∈(1,…length(h_0e))

在对缺失时段的电量修复完成之后，为评估本方法的有效性需要对修复结果的误差进行计算：

其中，q为缺失电量的个数，h₀为电量缺失时段，real为缺失数据日各时段的真实电量序列，w为缺失时段的修复电量，E为日电量相对误差。

参见图3，将误差与现有的线性插值方法、局部加权回归方法和平均电量填充方法所得结果的误差进行对比，。

通过比较分析可以得到如下结论：

由于分时电量是由表码读数通过前后相减间接计算得到的，表码数据的单点缺失就会导致分时2点电量连续缺失。此种情况下，采用线性插值的方法不仅计算简单，而且修复误差更小。

除此之外在表码读数连续缺失时，从图中可以看出，采用聚类-压缩感知方法得到的修复数据结果始终具有最高的准确率。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于聚类压缩感知的用户缺失电量数据修复方法，包括以下步骤：

步骤7：若分块后缺失数据时段电量的平均增长率在正常范围时采用线性插值的方式进行修复，若分块后缺失数据时段电量的平均增长率不在正常范围时采用压缩感知方法对电量序列进行修复。

2.根据权利要求1所述的基于聚类压缩感知的用户缺失电量数据修复方法，其特征在于：

步骤1中所述用户当月第d天，h时段的用电量为：

W_d,h

设置用户缺失电量的位置在d₀天h₀时段；

设置用户缺失电量为：：

步骤1中所述聚类算法输入数据集：

b_d,h＝W_d,h d∈(1,…M),h∈(1…N)

其中h₀表示缺失时段，

为b_d,h中缺失时段的数据；

步骤1中所述构建输入矩阵具体为：

B＝b_d,h d∈(1,…M),h∈(1…N)

其中，b_d,h为聚类算法输入数据集，B为输入矩阵。

3.根据权利要求1所述的基于聚类压缩感知的用户缺失电量数据修复方法，其特征在于：

步骤2中所述聚类结果具体为：

将输入矩阵B的M行进行分类，记录每一类别所包含的行：

d_i＝(d_i(1),d_i(2),…d_i(m_i))i∈(1,2,…k)

其中,d_i表示矩阵B中类别为i的行，m_i为类别为i的行数；

步骤2中所述的相似日矩阵具体为：

其中，P_i为类别i的相似日用电量矩阵，维度为m_i×N，

为类别i中第m_i天第N个时段的用电量。

4.根据权利要求1所述的基于聚类压缩感知的用户缺失电量数据修复方法，其特征在于：

步骤3中所述找到缺失数据日所属的相似日矩阵为：

找到d₀日所属的相似日矩阵为P_i；

将P_i中d₀日的用电量整行置空后得到中间矩阵P_i′；

步骤3中所述进一步计算得到相似日平均用电量序列为：

对P_i′按列求取平均值得到相似日平均用电量序列：

5.根据权利要求1所述的基于聚类压缩感知的用户缺失电量数据修复方法，其特征在于：

步骤4中对相似日矩阵中缺失时段的电量进行预填充为：

P_i(n₁,h₀(j))＝f(h₀(j))j∈(1,…q)

其中f为相似日平均用电量序列，h₀为缺失电量时段，P_i为相似日矩阵，n₁表示P_i中d₀日用电量所处的行数，0≤n₁≤m_i。

6.根据权利要求1所述的基于聚类压缩感知的用户缺失电量数据修复方法，其特征在于：

所述缺失数据日为d₀；

所述失真程度是指缺失数据个数与缺失量阈值的大小关系：

w(j)＝P_i(n₁,h₀(j))j∈(1,2,…q)

当q≤L时，执行步骤6。

7.根据权利要求1所述的基于聚类压缩感知的用户缺失电量数据修复方法，其特征在于：

将h₀依据前后是否为连续缺失分块成m个子时段序列：

h_0,e e∈(1,…,m)

步骤6中所述计算分块后缺失数据时段电量的平均增长率为：

a_e(j)＝f(h_0,e(j)+1)/f(h_0,e(j))j∈(1,…length(h_0,e)),e∈(1,…m)

其中，a_e为分块后第e块缺失时段的平均增长率。

8.根据权利要求1所述的基于聚类压缩感知的用户缺失电量数据修复方法，其特征在于：

当缺失数据时段电量的平均增长率满足公式：

l₁≤a_e(j)≤l₂ j∈(1,…,length(h_0,e)),e∈(1,…m)

采用线性插值的方式进行修复，具体为：

利用表码前后读数计算平均电量填补缺失数据，具体如下：

当缺失时段电量增长率满足：

a_e(j)＜l₁或a_e(j)＞l₂ j∈(1,…,length(h_0e))

采用压缩感知方法对电量序列进行修复；

进一步地，所述采用压缩感知方法对电量序列进行修复为：

步骤7.1，重构缺失日所属的相似日矩阵；

作为优选，步骤7.1中所述的重构相似日矩阵具体为：

所述相似日矩阵为P_i,i∈(1,…k)；

x＝[P_i(1,1),…P_i(1,N),P_i(2,1),…P_i(2,N),…P_i(m_i,1),…P_i(m_i,N)]^T

步骤7.2，选取smooth滤波函数，对电量序列做平滑处理；

步骤7.3，对平滑后的电量序列进行离散余弦变换：

θ＝ψx

步骤7.4，选择高斯随机测量矩阵，对稀疏序列进行压缩：

所述压缩过程为：

y＝φψ'θ+ε＝Aθ+ε

z＝g(y,A,k)

w_e(j)＝z((n₁-1)×N+h_0e(j))j∈(1,…length(h_0e))