CN113271106A

CN113271106A - 一种稀疏表示的电厂数据压缩方法

Info

Publication number: CN113271106A
Application number: CN202110449069.2A
Authority: CN
Inventors: 孙栓柱; 孙彬; 周春蕾; 王林; 王其祥; 刘克云; 沈洋; 高进; 曹瑀宏; 张世豪
Original assignee: Jiangsu Fangtian Power Technology Co Ltd
Current assignee: Jiangsu Fangtian Power Technology Co Ltd
Priority date: 2021-04-25
Filing date: 2021-04-25
Publication date: 2021-08-17
Anticipated expiration: 2041-04-25
Also published as: CN113271106B

Abstract

本发明提供了一种稀疏表示的电厂数据压缩方法，属于电厂运行过程数据的存储和传输领域。该方法按照一种新的策略对电厂数据进行筛选，引入以数据密度分布为准则的模型的设计方法，达到数据压缩的效果。该方法具体步骤如下：通过迭代时间不断更新圆形区域的方式去过滤电厂数据中相似或重合的数据，然后再利用最大过滤准则限制单个圆形区域数据过滤量去防止数据结构被破坏，这样压缩后的电厂数据不仅存储量小，而且数据结构并没发生较大变化。该方法不仅能将压缩率降到15%以下，而且压缩后的数据仍能够保持原始数据的特征，验证所提出算法的可行性与有效性，可应用于现实电厂运行过程中数据的存储和传输领域。

Description

一种稀疏表示的电厂数据压缩方法

技术领域

本发明属于电厂数据的存储和传输领域，特别涉及一种稀疏表示的电厂数据压缩方法。

背景技术

身边随处可见电力设备的使用，电力设备在人们的生产生活中占据着非常重要的位置，已经与人们的生活息息相关，人们的任何活动都离不开电力行业的支撑。因此，国家大力实行电力行业体制的改革以及相关电力技术的更新换代。但是，由于电力行业涉及的工艺设备以及领域数据较不完备，导致电力设备仍存在运行状态不稳定、设备参数多样化，突发故障与参数复杂性较高等问题。为了提高电力生产的实际价值，实时监测电力设备对电力生产的安全性和经济性具有重要的前瞻意义。

近年来，我国大数据技术取得了快速的发展，已经服务于多个领域包括公共安全、人工智能、工业生产的状态评估和监控等，且都取得了较大的成功。因此，如何将大数据技术服务于电力设备是电力行业近些年较热的一个话题。因为对于任何一家电力企业，每天监测电力设备都会产生大量的电力数据，甚至还包括设备管理、运行、检修、电网维护等方面的数据。面对如此庞大复杂的电厂数据，电力企业如何高效的存储和利用这些数据获取有效信息更好的服务电力行业是必须需要去考虑的两个难点。随着人工智能和大数据技术的快速发展和不断成熟，通过数据挖掘技术就可以从海量数据中得到所需的有效信息，这很好的解决了电力企业所面临的难题之一。但是，对海量电厂数据进行数据挖掘的前提是关于数据的高效存储和传输问题，海量的电厂数据需要被存储后才能供后期用大数据技术进行分析、挖掘、预测。尽管这个问题可以通过大量的存储设备来解决，但是考虑到电厂数据种类繁多，并且电厂数据大部分属于生产过程数据，采集的数据是实时动态变化的，刷新速度快，数据量非常大，把全部实时数据以数据原型长期保存下来显得有点不切实际。针对上述问题，通用的做法是将原始数据进行压缩后进行选择性存储，这样不仅减少存储空间，而且能提高数据的传输效率。考虑到现实的电厂数据不仅体量大而且种类繁多，并且数据以秒级进行数据存储，所形成数据的波动幅度较小，因此更适合采用有损压缩方式进行数据压缩。但是如果用现今较流行的旋转门算法压缩电厂数据则很容易造成数据舍弃过多，形成数据断层和破坏数据结构等现象。因此，如何通过分析和利用电厂数据，研究在特定目标下具有更高压缩比的压缩算法，减少数据存储量的同时提升数据传输效率是需要去考虑的问题。

发明内容

发明目的：本发明针对传统的压缩方法对电厂数据进行压缩时存在破坏原始数据结构和出现数据断层等问题，提出了一种稀疏表示的压缩算法，该方法不仅可以快速的压缩数据，还能有效保留原始数据特征。

技术方案：一种稀疏表示的电厂数据压缩方法，包括如下步骤：

步骤1、数据采集：电厂采集的数据形式为.txt文件，每行分为三个字段，代表测点编码字段、时间戳、负荷值，将其中时间戳为测点时间数值减去2001年1月1日0 时0分0秒所形成的差值，编码字段为所在电厂名字的脱敏数据，以时间序列的形式进行存储；

步骤2、数据预处理：对所述步骤1中的时序数据进行预处理得到建模数据集；

步骤3、数据建模：采用建模数据集建立一种基于稀疏表示的电厂数据压缩模型，然后对建模数据集进行数据压缩，记录压缩后的数据文本、压缩率以及压缩时间；

步骤4、实时数据采集与预处理：在线采集电厂上实时测定的时序数据，并对其进行预处理操作；

步骤5、获得压缩数据：将所述步骤4预处理后的样本输入到所述步骤3的基于稀疏表示的电厂数据压缩模型中，得到压缩后的数据文本、压缩率以及压缩时间。

所述步骤2中所述时序数据预处理过程为：

其中，时序数据为D＝{(x₁′,y₁),(x₂′,y₂),L,(x′_m,y_m)}，

表示单个数据，

表示第i个数据中第d个属性值，对时序数据进行预处理得到建模数据集，可以表示为：D＝{(x₁,y₁),(x₂,y₂),L,(x_m,y_m)}。

所述步骤3中数据建模步骤如下：

步骤31、先选取初始点作为压缩后数据集，用半径为r的圆形区域度量原始数据的每个点与压缩后数据集上每个点的最短距离；

步骤32、判断该点是否小于用户自定义的r：如果小于r，判断该点的样本密度是否小于数量阈值δ，如果是则选择过滤该点，否则将该点加到压缩后数据集上；如果大于r，则直接将该点加到压缩后数据集上，反复迭代进行，得到最终的压缩后的数据集。

所述步骤3中建立一种基于稀疏表示的电厂数据压缩模型的具体算法过程如下：

步骤41、初始化输入建模数据集S，Q＝{x₂}，以及用户自定义常数r、δ和存储索引的集合L＝{1}；

步骤42、设定i＝1，t₀＝time(now)，计算x_i与Q中第一个数据点即x₂间的欧氏距离，得到x_i与Q中第一个数据点距离并保存该距离为mindis，计算两点间的欧氏距离具体计算方法为：给定建模数据集S＝{(x₁,L,x_n}，压缩后的数据集Q＝{d₁,d₂,L,d_q}，两点间的欧氏距离dis＝argmin D(x_i,d_j)i＝1,2,L n,j＝1,2,L,q，其中 D(x_i,d_j)＝||x_i-d_j||表示样本点x_i和d_j之间的欧氏距离，具体表示为：

步骤43、令m＝len(Q)，此时m表示Q中数据点的个数，将j＝1，通过所述步骤 42的方法计算x_i与Q中的数据点d_j间的欧氏距离，得到x_i与Q中数据点d_j的欧氏距离并保存该距离为dis；

步骤44、判断mindis是否不小于dis，如果是，则将mindis＝dis，否则mindis＝mindis；

步骤45、判断将j≤m，如果是，j＝j+1转到步骤43，否则转到步骤46；

步骤6、判断mindis≥r，如果是，Q＝{x_i,Q}，L＝{1,L}后转到步骤47；否则，需要进一步判断len(L)≥δ，如果是，Q＝{x_i,Q}，将L置为初始化状态L＝{1}，如果不是，则需要将L＝{1,L}，然后转到步骤47；

步骤47、判断i≤n，如果是，i＝i+1转到步骤42，否则转到步骤48；

步骤48、将最终的压缩后数据集Q进行输出，此时t₁＝time(now)；

步骤49、针对得到的数据集Q与先前的建模数据集S，对比这两个文件所占用字节数大小得到该方法的压缩率，而该方法的压缩时间可以用t₁-t₀进行计算。

有益效果：本发明通过对电厂产生的海量数据进行分析，实时的对数据进行压缩，有效的解决了海量电厂数据高效存储和传输问题，避免采用大量存储设备造成的资源浪费；为电厂数据的高效压缩提供了一种方法。

附图说明

图1是一种稀疏表示的电厂数据压缩方法中算法步骤一维可视化图。

图2是一种稀疏表示的电厂数据压缩方法的过滤准则可视化图。

图3是一种稀疏表示的电厂数据压缩方法的整体架构图。

图4是一种稀疏表示的电厂数据压缩方法的压缩前后电厂数据的可视化图。

图5是一种稀疏表示的电厂数据压缩方法的压缩前后电厂数据的实验结果。

具体实施方式

下面结合附图对本发明的具体实施方式做进一步说明。一种稀疏表示的电厂数据压缩方法，包括以下步骤：

步骤1、数据的采集：电厂上采集的数据形式为.txt文件，每行分为三个字段，代表测点编码字段、时间戳、负荷值，其中时间戳为测点时间数值减去2001年1月1日0 时0分0秒所形成的差值，编码字段为所在电厂名字的脱敏数据，以时间序列的形式进行存储；

步骤2、数据的预处理：对上述时序数据进行预处理得到建模数据集；

步骤3、数据的建模：采用建模数据集，建立一种基于稀疏表示的电厂数据压缩模型，然后对建模数据集进行数据压缩，记录压缩后的数据文本、压缩率以及压缩时间；

步骤5、获得压缩数据：将预处理后的样本输入到步骤3中的一种基于稀疏表示的电厂数据压缩模型中，记录压缩后的数据文本、压缩率以及压缩时间；

在进一步实施例中，所述步骤2中，对上述时序数据进行预处理得到建模数据集，具体预处理过程为：

其中，时序数据为D＝{(x₁′,y₁),(x₂′,y₂),L,(x′_m,y_m)}，

表示单个数据，

表示第i个数据中第d个属性值。对时序数据进行预处理得到建模数据集，可以表示为：D＝{(x₁,y₁),(x₂,y₂),L,(x_m,y_m)}；

在进一步实施例中，所述步骤3中，建立一种基于稀疏表示的电厂数据压缩模型，具体过程为：

步骤32、判断该点是否小于用户自定义的r：如果小于r，判断该点的样本密度是否小于数量阈值δ，如果是则选择过滤该点，否则将该点加到压缩后数据集上；如果大于r，则直接将该点加到压缩后数据集上，反复迭代进行，得到最终的压缩后的数据集。即给定建模数据集S＝{(x₁,L,x_n}，压缩后的数据集Q＝{d₁,d₂,L,d_q}；首先计算两点间的欧氏距离；对于压缩后数据集Q，首先迭代数据集S的每个样本点，得到dis，判断所得到距离是否小于用户自定义常数r，这里实际是在筛选后数据集上每个样本点限定圆形区域，只要在筛选后的数据集上每个样本点的r圆形区域内的点，都需要被过滤；判断所得到距离是否小于用户自定义常数r，则将原始数据上的该样本点添加到压缩后数据集上进行更新，具体方法见说明书附图中图1。

步骤43、令m＝len(Q)，此时m表示Q中数据点的个数，将j＝1，通过所述步骤 42中的方法计算x_i与Q中的数据点d_j间的欧氏距离，得到x_i与Q中数据点d_j的欧氏距离并保存该距离为dis；

以上详细描述了本发明的优选实施方式，但是，本发明并不限于上述实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种等同变换，这些等同变换均属于本发明的保护范围。

Claims

1.一种稀疏表示的电厂数据压缩方法，其特征在于包括步骤如下：

步骤1、数据采集：电厂采集的数据形式为.txt文件，每行分为三个字段，代表测点编码字段、时间戳、负荷值，将其中时间戳为测点时间数值减去2001年1月1日0时0分0秒所形成的差值，编码字段为所在电厂名字的脱敏数据，以时间序列的形式进行存储；

2.根据权利要求1所述的一种稀疏表示的电厂数据压缩方法，其特征在于，所述步骤2进一步为，所述时序数据预处理过程为：

其中，时序数据为D＝{(x′₁,y₁),(x′₂,y₂),L,(x′_m,y_m)}，

表示单个数据，

3.根据权利要求1所述的一种稀疏表示的电厂数据压缩方法，其特征在于，所述步骤3进一步为：

4.根据权利要求3所述的一种稀疏表示的电厂数据压缩方法，其特征在于，所述建立一种基于稀疏表示的电厂数据压缩模型具体方法为：

步骤42、设定i＝1，t₀＝time(now)，计算x_i与Q中第一个数据点即x₂间的欧氏距离，得到x_i与Q中第一个数据点距离并保存该距离为mindis，计算两点间的欧氏距离具体计算方法为：给定建模数据集S＝{(x₁,L,x_n}，压缩后的数据集Q＝{d₁,d₂,L,d_q}，两点间的欧氏距离dis＝argmin D(x_i,d_j)i＝1,2,L n,j＝1,2,L,q，其中D(x_i,d_j)＝||x_i-d_j||表示样本点x_i和d_j之间的欧氏距离，具体表示为：

步骤43、令m＝len(Q)，此时m表示Q中数据点的个数，将j＝1，通过所述步骤42中方法计算x_i与Q中的数据点d_j间的欧氏距离，得到x_i与Q中数据点d_j的欧氏距离并保存该距离为dis；

步骤46、判断mindis≥r，如果是，Q＝{x_i,Q}，L＝{1,L}后转到步骤47；否则，需要进一步判断len(L)≥δ，如果是，Q＝{x_i,Q}，将L置为初始化状态L＝{1}，如果不是，则需要将L＝{1,L}，然后转到步骤47；