CN113726343A

CN113726343A - 一种量测数据压缩方法及装置

Info

Publication number: CN113726343A
Application number: CN202111051314.0A
Authority: CN
Inventors: 王守相; 张晟; 赵倩宇; 陈海文; 胡诗尧; 容春艳
Original assignee: Tianjin University; State Grid Corp of China SGCC; Economic and Technological Research Institute of State Grid Hebei Electric Power Co Ltd
Current assignee: Tianjin University; State Grid Corp of China SGCC; Economic and Technological Research Institute of State Grid Hebei Electric Power Co Ltd
Priority date: 2021-09-08
Filing date: 2021-09-08
Publication date: 2021-11-30

Abstract

本发明提出了一种量测数据压缩方法，包括如下步骤：获取待压缩的量测数据；以待压缩的量测数据为稀疏自动编码器模型的输入，进行模型训练，输出训练结果数据；当所述训练结果数据与输入的数据的误差小于预设阈值时，将误差小于预设阈值时对应的训练结果数据作为初步压缩数据；通过无损压缩算法对所述初步压缩数据进行二次压缩，获得最终压缩数据。本发明所提方法在相同压缩率下的重建误差具有明显优势。

Description

一种量测数据压缩方法及装置

技术领域

本发明属于电力技术领域，尤其涉及量测数据压缩方法及装置。

背景技术

随着电力系统信息化水平的不断提高，电网的可靠稳定运行越来越依赖海量传感器终端的支持，各种量测终端产生的信息给数据存储、传输造成了很大负担。尤其对于同步相量测量装置而言，其采样频率高、采集数据类型多，因而产生的数据量显著高于其他终端量测装置，因此根据电力数据特点研究关于同步相量测量装置的压缩算法越来越重要。

数据压缩算法主要分为无损压缩和有损压缩两大类。无损压缩是可逆压缩，数据通过压缩和解压能够恢复到原始数据。当前常用的无损压缩主要有Huffman编码、算术编码和字典编码等。有损压缩是不可逆的，允许少量数据损失，但是通常有较大的压缩比，能够节省更多存储空间。在电力系统中，特别是配用电系统，已经广泛使用了各种有损数据压缩算法。但已有的传统数据压缩算法并非针对电力数据的特点和要求进行设计，在压缩效果、计算速度等方面难以满足电力系统的实际要求。

因此，针对这些问题，提出一种有利于解决电力大数据带来的挑战的量测数据压缩方法，具有重要的现实意义。

发明内容

随着电力系统信息化水平的不断提高，各种量测终端，尤其是同步相量测量装置采集到的海量数据给数据存储、处理、传输带来了较大压力。传统数据压缩方法未能考虑电力数据的特点和要求，对此，本专利提出了一种基于自编码器和LSTM解码器的量测数据压缩算法。首先，将数据输入到自编码器进行编码，降低时间序列维度，从而实现减小存储空间的效果，然后构建基于LSTM的解码器，利用LSTM的时序特征实现对复杂非线性关系的拟合，完成数据的重建。

本发明解决其技术问题是采取以下技术方案实现的：

一种量测数据压缩方法，其特征在于，包括如下步骤：

获取待压缩的量测数据；

以待压缩的量测数据为稀疏自动编码器模型的输入，进行模型训练，输出训练结果数据；

当所述训练结果数据与输入的数据的误差小于预设阈值时，将误差小于预设阈值时对应的训练结果数据作为初步压缩数据；

通过无损压缩算法对所述初步压缩数据进行二次压缩，获得最终压缩数据。

进一步的，所述量测数据为同步相量量测数据。

可选地，所述同步相量量测数据包括电压模值、电流模值、电压相角、电流相角数据中的任意一种。

进一步的，所述训练结果数据包括：电压模值的训练结果数据、电流模值的训练结果数据、电压相角的训练结果数据、电流相角数据的训练结果数据中的任意一种。

进一步的，所述以待压缩的量测数据为稀疏自动编码器模型的输入，进行模型训练的步骤之前，还包括：

对所述待压缩的量测数据进行数据清洗。

进一步的，所述对所述待压缩的量测数据进行数据清洗，包括：

若检测到数据缺失，则用上一时刻的待压缩的量测数据对当前时刻的缺失值进行修补；

若检测到异常数据，则用上一时刻的待压缩的量测数据对当前时刻的缺失值进行修补。

进一步的，所述方法还包括：

构建基于LSTM神经网络的稀疏自动编码器模型，所述稀疏自动编码器模型包括编码器与解码器，其中，解码器为基于3层堆叠的LSTM神经网络结构。

一种量测数据压缩方法，包括如下步骤：

获取待压缩的量测数据；

将待压缩的量测数据输入训练好的稀疏自动编码器模型中，输出初步压缩数据；

一种量测数据压缩装置，包括：

量测数据获取模块，用于获取待压缩的量测数据；

模型训练模块，用于以待压缩的量测数据为稀疏自动编码器模型的输入，进行模型训练，输出训练结果数据；

初步压缩数据获取模块，用于当所述训练结果数据与输入的数据的误差小于预设阈值时，将误差小于预设阈值时对应的训练结果数据作为初步压缩数据；

最终压缩数据获取模块，用于通过无损压缩算法对所述初步压缩数据进行二次压缩，获得最终压缩数据。

一种量测数据压缩装置，包括：

量测数据获取模块，用于获取待压缩的量测数据；

初步压缩数据获取模块，用于将待压缩的量测数据输入训练好的稀疏自动编码器模型中，输出初步压缩数据；

一种计算设备，包括：

一个或多个处理单元；

存储单元，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理单元执行，使得所述一个或多个处理单元执行所述的量测数据压缩方法。

一种具有处理器可执行的非易失的程序代码的计算机可读存储介质，所述计算机程序被处理器执行时实现所述量测数据压缩方法的步骤。

本发明的优点和积极效果是：

本专利提出的方法首先建立基于LSTM的稀疏自动编码器模型，然后利用该模型对量测数据进行压缩，其中，基于LSTM的稀疏自动编码器模型利用LSTM的时序特征实现对复杂非线性关系的拟合，完成数据的压缩，之后通过无损压缩方法进行二次压缩，本发明方法充分考虑了量测数据特点，与传统方法相比计算速度快、误差小，有利于解决大数据的存储、分析、传输问题。

附图说明

以下将结合附图和实施例来对本发明的技术方案作进一步的详细描述，但是应当知道，这些附图仅是为解释目的而设计的，因此不作为本发明范围的限定。此外，除非特别指出，这些附图仅意在概念性地说明此处描述的结构构造，而不必要依比例进行绘制。

图1(a)为本发明实施例1提供的电压模值压缩误差指标图；

图1(b)为本发明实施例1提供的电流模值压缩误差指标图；

图1(c)为本发明实施例1提供的电压相角压缩误差指标图；

图1(d)为本发明实施例1提供的电流相角压缩误差指标图；

图2为本发明实施例1提供的电压幅值数据压缩前后的效果图；

图3为本发明实施例1提供的电流幅值数据压缩前后的效果图；

图4为本发明实施例1提供的一种量测数据压缩方法的流程示意图；

图5为本发明实施例2提供的一种量测数据压缩方法的流程示意图。

具体实施方式

首先，需要说明的是，以下将以示例方式来具体说明本发明的具体结构、特点和优点等，然而所有的描述仅是用来进行说明的，而不应将其理解为对本发明形成任何限制。此外，在本文所提及各实施例中予以描述或隐含的任意单个技术特征，仍然可在这些技术特征(或其等同物)之间继续进行任意组合或删减，从而获得可能未在本文中直接提及的本发明的更多其他实施例。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

实施例1

一种量测数据压缩方法，如图4，包括如下步骤：

S1、获取待压缩的量测数据；

S2、以待压缩的量测数据为稀疏自动编码器模型的输入，进行模型训练，输出训练结果数据；

S3、当所述训练结果数据与输入的数据的误差小于预设阈值时，将误差小于预设阈值时对应的训练结果数据作为初步压缩数据；

S4、通过无损压缩算法对所述初步压缩数据进行二次压缩，获得最终压缩数据。

需要说明的是，当步骤S1获取了待压缩的量测数据后，还可以对所述待压缩的量测数据进行数据清洗，具体包括：

若检测到异常数据，则用上一时刻的压缩的量测数据对当前时刻的缺失值进行修补。

步骤S2中的稀疏自动编码器模型为基于LSTM神经网络的稀疏自动编码器模型，所述稀疏自动编码器模型包括编码器与解码器，其中，解码器为基于3层堆叠的LSTM神经网络结构。

其中，所述量测数据为同步相量量测数据，例如，可以为电压模值、电流模值、电压相角、电流相角数据中的任意一种。训练结果数据包括：电压模值的训练结果数据、电流模值的训练结果数据、电压相角的训练结果数据、电流相角数据的训练结果数据中的任意一种。

相应的，步骤S3中的训练结果数据与输入的数据的误差阈值可根据实际压缩效果进行设定，例如，当同步相量量测数据为电压模值时，电压模值的训练结果数据与输入数据的误差阈值为0.5V；当同步相量量测数据为电流模值时，电流模值的训练结果数据与输入数据的误差阈值为0.007A；当同步相量量测数据为电压相角时，电压相角的训练结果数据与输入数据的误差阈值为0.01度；当同步相量量测数据为电流相角时，电流相角数据的训练结果数据与输入数据的误差阈值为0.02度。

具体的，所述基于LSTM的稀疏自动编码器原理如下：

每个LSTM单元包含三个门，分别是输入门i_t、遗忘门f_t和输出门o_t；输入门将当前时刻的输入x_t和上个单元的输出h_t-1组合为一个输入向量，遗忘门负责信息的删除、保留并形成状态向量c_t，输出门用于确定下一个隐藏状态h_t。具体机制为：

f_t＝σ(W_f[h_t-1,x_t]+b_f)

i_t＝σ(W_i[h_t-1,x_t]+b_i)

o_t＝σ(W_o[h_t-1，x_t]+b_o)

h_t＝o_t⊙tanh(c_t)

其中：W_f表示遗忘门的权重矩阵；W_c表示记忆单元的权重矩阵；W_i表示输入门的权重矩阵；W_o表示输出门的权重矩阵；b_f表示遗忘门的偏置矩阵；b_c表示记忆单元的偏置矩阵；b_i表示输入门的偏置矩阵；b_o表示输出门的偏置矩阵；x_t为当前时刻输入向量，h_t-1为上一时刻的隐藏状态、c_t为记忆单元的状态信息，

表示记忆单元激活向量，σ表示sigmoid激活函数。

当将待压缩数据输入稀疏自动编码器模型时，通过Adam算法对模型进行训练，更新网络权重，使得解码器输出数据与输入数据保持在一定误差内。

作为举例，在本实施例中，本实施例采用洛桑联邦理工学院公开的校园电网PMU量测数据集。该校园电网共安装了五台PMU量测设备和一台状态估计设备。PMU量测设备的采样频率为50Hz，采集数据包括三相电压模值、电流模值、电压相角和电流相角。此外，由于其安装了2MW的光伏板和6MW的热电联产装置，因此节点存在有功注入，使得电压和电流的波形变得更加复杂。

本实施例针对PMU量测数据的特点分别设计了数据压缩模型中编码器和解码器的网络结构。其主要结构如表1所示

表1稀疏自动编码器网络结构

对上述网络模型进行训练，初始学习率为0.005，损失函数为MSE，训练的batchsize为256，采用Adam作为优化器；

使用训练好的编码器对PMU量测数据集进行初步压缩；

为了进一步提升压缩效果，对初步压缩后的数据进行二次压缩；二次压缩采用ZIP无损压缩的方式，因此能够在不增大误差的前提下进一步节约存储空间。具体压缩效果如表2所示

表2二次压缩后数据大小

编码数	初步压缩大小	压缩率	二次压缩后大小	压缩率
					4	1069KB	13.81	459KB	32.17
6	1569KB	9.41	670KB	22.04
					8	2131KB	6.93	900KB	16.41
10	2651KB	5.57	1109KB	13.31

此外，利用本实施例的方法对采集数据三相电压模值、电流模值、电压相角和电流相角分别压缩，并对压缩前后的数据进行MAE误差计算，并采用对比方法K-PCA(核主成分分析)、AE(自编码器)、T-SVD(截断奇异值分解)进行数据压缩，并进行误差计算，获得如图1(a)、1(b)、1(c)、1(d)所示的压缩误差指标图，从图中可以看出：本实施例所提数据压缩算法(LSTM-AE)误差相较于其他算法在不同编码数下均具有明显的降低，总体趋势为随着编码数的增加重建误差不断降低。且随着编码数的减少本实施例所提数据压缩算法与其他算法的重建误差之间差距不断增加，因此在编码数较少的情况下能够更加准确的对压缩数据进行重建。

图2为电压幅值数据压缩前后的效果图，其中，原始数据为利用本发明的方法压缩前的电压幅值数据，重建数据为利用本发明的方法压缩后的电压幅值数据；图3为电流幅值数据压缩前后的效果图，其中，原始数据为利用本发明的方法压缩前的电流幅值数据，重建数据为利用本发明的方法压缩后的电流幅值数据；从图2中可以看出：随着时间的变化，重建数据与原始电压模值数据的整体变化趋势高度一致，且在波动细节方面重建数据与原始电压模值数据之间差距较小，能够实现对绝大多数的波动细节的重现；从图3中可以看出：随着时间的变化，重建数据与原始电流模值数据的整体变化趋势高度一致，且在波动细节方面重建数据与原始电流模值数据之间差距较小，能够实现对绝大多数的波动细节的重现。本实施例所提方法在将数据还原后能够在保留时间序列整体变化趋势的情况下较好的保留时间序列的细节。

一种量测数据压缩装置，包括：

量测数据获取模块，用于获取待压缩的量测数据；

一种计算设备，包括：

一个或多个处理单元；

存储单元，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理单元执行，使得所述一个或多个处理单元执行上述的量测数据压缩方法；需要说明的是，计算设备可包括但不仅限于处理单元、存储单元；本领域技术人员可以理解，计算设备包括处理单元、存储单元并不构成对计算设备的限定，可以包括更多的部件，或者组合某些部件，或者不同的部件，例如计算设备还可以包括输入输出设备、网络接入设备、总线等。

一种具有处理器可执行的非易失的程序代码的计算机可读存储介质，所述计算机程序被处理器执行时实现上述的量测数据压缩方法的步骤；需要说明的是，可读存储介质例如可以是，但不限于，电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合；可读介质上包含的程序可以用任何适当的介质传输，包括，但不限于无线、有线、光缆，RF等等，或者上述的任意合适的组合。例如，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java，C++等，还包括常规的过程式程序设计语言，诸如C语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行，或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

实施例2

本实施例提供的一种量测数据压缩方法，包括如下步骤：

S1、获取待压缩的量测数据；

S2、将待压缩的量测数据输入训练好的稀疏自动编码器模型中，输出初步压缩数据；

其中，稀疏自动编码器模型需要提前进行训练，当训练到量测数据满足：当量测数据为电压模值时，电压模值的训练结果数据与输入数据的误差阈值为0.5V；当量测数据为电流模值时，电流模值的训练结果数据与输入数据的误差阈值为0.007A；当量测数据为电压相角时，电压相角的训练结果数据与输入数据的误差阈值为0.01度；当量测数据为电流相角时，电流相角数据的训练结果数据与输入数据的误差阈值为0.02度时，则稀疏自动编码器模型训练完成；

S3、通过无损压缩算法对所述初步压缩数据进行二次压缩，获得最终压缩数据。

本实施例中的稀疏自动编码器模型具体结构同实施例1中的一致，在此不再赘述。

通过上述的方法对量测数据进行压缩后，优于现有技术中的本领域其他常规量测数据压缩方法。

一种量测数据压缩装置，包括：

量测数据获取模块，用于获取待压缩的量测数据；

一种计算设备，包括：

一个或多个处理单元；

存储单元，用于存储一个或多个程序，

以上实施例对本发明进行了详细说明，但所述内容仅为本发明的较佳实施例，不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进等，均应仍归属于本发明的专利涵盖范围之内。

Claims

1.一种量测数据压缩方法，其特征在于，包括如下步骤：

获取待压缩的量测数据；

2.根据权利要求1所述的一种量测数据压缩方法，其特征在于，所述量测数据为同步相量量测数据。

3.根据权利要求2所述的一种量测数据压缩方法，其特征在于，所述同步相量量测数据包括电压模值、电流模值、电压相角、电流相角数据中的任意一种。

4.根据权利要求3所述的一种量测数据压缩方法，其特征在于：所述训练结果数据包括：电压模值的训练结果数据、电流模值的训练结果数据、电压相角的训练结果数据、电流相角数据的训练结果数据中的任意一种。

5.根据权利要求1所述的一种量测数据压缩方法，其特征在于，所述以待压缩的量测数据为稀疏自动编码器模型的输入，进行模型训练的步骤之前，还包括：

对所述待压缩的量测数据进行数据清洗。

6.根据权利要求1所述的一种量测数据压缩方法，其特征在于，所述对所述待压缩的量测数据进行数据清洗，包括：

7.根据权利要求1所述的一种量测数据压缩方法，其特征在于，所述方法还包括：

8.一种量测数据压缩方法，其特征在于，包括如下步骤：

获取待压缩的量测数据；

9.一种量测数据压缩装置，其特征在于，包括：

量测数据获取模块，用于获取待压缩的量测数据；

10.一种量测数据压缩装置，其特征在于，包括：

量测数据获取模块，用于获取待压缩的量测数据；

11.一种计算设备，其特征在于：包括：

一个或多个处理单元；

存储单元，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理单元执行，使得所述一个或多个处理单元执行如权利要求1至7中任一项所述的方法，或执行如权利要求8所述的方法。

12.一种具有处理器可执行的非易失的程序代码的计算机可读存储介质，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任意一项所述方法的步骤，或执行如权利要求8所述的方法的步骤。