CN113271106A - 一种稀疏表示的电厂数据压缩方法 - Google Patents

一种稀疏表示的电厂数据压缩方法 Download PDF

Info

Publication number
CN113271106A
CN113271106A CN202110449069.2A CN202110449069A CN113271106A CN 113271106 A CN113271106 A CN 113271106A CN 202110449069 A CN202110449069 A CN 202110449069A CN 113271106 A CN113271106 A CN 113271106A
Authority
CN
China
Prior art keywords
data
power plant
point
compression
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110449069.2A
Other languages
English (en)
Other versions
CN113271106B (zh
Inventor
孙栓柱
孙彬
周春蕾
王林
王其祥
刘克云
沈洋
高进
曹瑀宏
张世豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Fangtian Power Technology Co Ltd
Original Assignee
Jiangsu Fangtian Power Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Fangtian Power Technology Co Ltd filed Critical Jiangsu Fangtian Power Technology Co Ltd
Priority to CN202110449069.2A priority Critical patent/CN113271106B/zh
Publication of CN113271106A publication Critical patent/CN113271106A/zh
Application granted granted Critical
Publication of CN113271106B publication Critical patent/CN113271106B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明提供了一种稀疏表示的电厂数据压缩方法,属于电厂运行过程数据的存储和传输领域。该方法按照一种新的策略对电厂数据进行筛选,引入以数据密度分布为准则的模型的设计方法,达到数据压缩的效果。该方法具体步骤如下:通过迭代时间不断更新圆形区域的方式去过滤电厂数据中相似或重合的数据,然后再利用最大过滤准则限制单个圆形区域数据过滤量去防止数据结构被破坏,这样压缩后的电厂数据不仅存储量小,而且数据结构并没发生较大变化。该方法不仅能将压缩率降到15%以下,而且压缩后的数据仍能够保持原始数据的特征,验证所提出算法的可行性与有效性,可应用于现实电厂运行过程中数据的存储和传输领域。

Description

一种稀疏表示的电厂数据压缩方法
技术领域
本发明属于电厂数据的存储和传输领域,特别涉及一种稀疏表示的电厂数据压缩方 法。
背景技术
身边随处可见电力设备的使用,电力设备在人们的生产生活中占据着非常重要的位 置,已经与人们的生活息息相关,人们的任何活动都离不开电力行业的支撑。因此,国家大力实行电力行业体制的改革以及相关电力技术的更新换代。但是,由于电力行业涉 及的工艺设备以及领域数据较不完备,导致电力设备仍存在运行状态不稳定、设备参数 多样化,突发故障与参数复杂性较高等问题。为了提高电力生产的实际价值,实时监测 电力设备对电力生产的安全性和经济性具有重要的前瞻意义。
近年来,我国大数据技术取得了快速的发展,已经服务于多个领域包括公共安全、人工智能、工业生产的状态评估和监控等,且都取得了较大的成功。因此,如何将大数 据技术服务于电力设备是电力行业近些年较热的一个话题。因为对于任何一家电力企 业,每天监测电力设备都会产生大量的电力数据,甚至还包括设备管理、运行、检修、 电网维护等方面的数据。面对如此庞大复杂的电厂数据,电力企业如何高效的存储和利 用这些数据获取有效信息更好的服务电力行业是必须需要去考虑的两个难点。随着人工 智能和大数据技术的快速发展和不断成熟,通过数据挖掘技术就可以从海量数据中得到 所需的有效信息,这很好的解决了电力企业所面临的难题之一。但是,对海量电厂数据 进行数据挖掘的前提是关于数据的高效存储和传输问题,海量的电厂数据需要被存储后 才能供后期用大数据技术进行分析、挖掘、预测。尽管这个问题可以通过大量的存储设 备来解决,但是考虑到电厂数据种类繁多,并且电厂数据大部分属于生产过程数据,采 集的数据是实时动态变化的,刷新速度快,数据量非常大,把全部实时数据以数据原型 长期保存下来显得有点不切实际。针对上述问题,通用的做法是将原始数据进行压缩后 进行选择性存储,这样不仅减少存储空间,而且能提高数据的传输效率。考虑到现实的 电厂数据不仅体量大而且种类繁多,并且数据以秒级进行数据存储,所形成数据的波动 幅度较小,因此更适合采用有损压缩方式进行数据压缩。但是如果用现今较流行的旋转 门算法压缩电厂数据则很容易造成数据舍弃过多,形成数据断层和破坏数据结构等现 象。因此,如何通过分析和利用电厂数据,研究在特定目标下具有更高压缩比的压缩算 法,减少数据存储量的同时提升数据传输效率是需要去考虑的问题。
发明内容
发明目的:本发明针对传统的压缩方法对电厂数据进行压缩时存在破坏原始数据结 构和出现数据断层等问题,提出了一种稀疏表示的压缩算法,该方法不仅可以快速的压缩数据,还能有效保留原始数据特征。
技术方案:一种稀疏表示的电厂数据压缩方法,包括如下步骤:
步骤1、数据采集:电厂采集的数据形式为.txt文件,每行分为三个字段,代表测点编码字段、时间戳、负荷值,将其中时间戳为测点时间数值减去2001年1月1日0 时0分0秒所形成的差值,编码字段为所在电厂名字的脱敏数据,以时间序列的形式进 行存储;
步骤2、数据预处理:对所述步骤1中的时序数据进行预处理得到建模数据集;
步骤3、数据建模:采用建模数据集建立一种基于稀疏表示的电厂数据压缩模型,然后对建模数据集进行数据压缩,记录压缩后的数据文本、压缩率以及压缩时间;
步骤4、实时数据采集与预处理:在线采集电厂上实时测定的时序数据,并对其进行预处理操作;
步骤5、获得压缩数据:将所述步骤4预处理后的样本输入到所述步骤3的基于稀疏表示的电厂数据压缩模型中,得到压缩后的数据文本、压缩率以及压缩时间。
所述步骤2中所述时序数据预处理过程为:
Figure BDA0003038081680000021
其中,时序数据为D={(x1′,y1),(x2′,y2),L,(x′m,ym)},
Figure BDA0003038081680000022
表示单个数据,
Figure BDA0003038081680000023
表示第i个数据中第d个属性值,对时序数据 进行预处理得到建模数据集,可以表示为:D={(x1,y1),(x2,y2),L,(xm,ym)}。
所述步骤3中数据建模步骤如下:
步骤31、先选取初始点作为压缩后数据集,用半径为r的圆形区域度量原始数据的每个点与压缩后数据集上每个点的最短距离;
步骤32、判断该点是否小于用户自定义的r:如果小于r,判断该点的样本密度是否小于数量阈值δ,如果是则选择过滤该点,否则将该点加到压缩后数据集上;如果大 于r,则直接将该点加到压缩后数据集上,反复迭代进行,得到最终的压缩后的数据集。
所述步骤3中建立一种基于稀疏表示的电厂数据压缩模型的具体算法过程如下:
步骤41、初始化输入建模数据集S,Q={x2},以及用户自定义常数r、δ和存储 索引的集合L={1};
步骤42、设定i=1,t0=time(now),计算xi与Q中第一个数据点即x2间的欧氏距离,得到xi与Q中第一个数据点距离并保存该距离为mindis,计算两点间的欧氏距离具 体计算方法为:给定建模数据集S={(x1,L,xn},压缩后的数据集Q={d1,d2,L,dq}, 两点间的欧氏距离dis=argmin D(xi,dj)i=1,2,L n,j=1,2,L,q,其中 D(xi,dj)=||xi-dj||表示样本点xi和dj之间的欧氏距离,具体表示为:
Figure BDA0003038081680000031
步骤43、令m=len(Q),此时m表示Q中数据点的个数,将j=1,通过所述步骤 42的方法计算xi与Q中的数据点dj间的欧氏距离,得到xi与Q中数据点dj的欧氏距离 并保存该距离为dis;
步骤44、判断mindis是否不小于dis,如果是,则将mindis=dis,否则mindis=mindis;
步骤45、判断将j≤m,如果是,j=j+1转到步骤43,否则转到步骤46;
步骤6、判断mindis≥r,如果是,Q={xi,Q},L={1,L}后转到步骤47;否则,需 要进一步判断len(L)≥δ,如果是,Q={xi,Q},将L置为初始化状态L={1},如果不是, 则需要将L={1,L},然后转到步骤47;
步骤47、判断i≤n,如果是,i=i+1转到步骤42,否则转到步骤48;
步骤48、将最终的压缩后数据集Q进行输出,此时t1=time(now);
步骤49、针对得到的数据集Q与先前的建模数据集S,对比这两个文件所占用字 节数大小得到该方法的压缩率,而该方法的压缩时间可以用t1-t0进行计算。
有益效果:本发明通过对电厂产生的海量数据进行分析,实时的对数据进行压缩,有效的解决了海量电厂数据高效存储和传输问题,避免采用大量存储设备造成的资源浪费;为电厂数据的高效压缩提供了一种方法。
附图说明
图1是一种稀疏表示的电厂数据压缩方法中算法步骤一维可视化图。
图2是一种稀疏表示的电厂数据压缩方法的过滤准则可视化图。
图3是一种稀疏表示的电厂数据压缩方法的整体架构图。
图4是一种稀疏表示的电厂数据压缩方法的压缩前后电厂数据的可视化图。
图5是一种稀疏表示的电厂数据压缩方法的压缩前后电厂数据的实验结果。
具体实施方式
下面结合附图对本发明的具体实施方式做进一步说明。一种稀疏表示的电厂数据压 缩方法,包括以下步骤:
步骤1、数据的采集:电厂上采集的数据形式为.txt文件,每行分为三个字段,代表测点编码字段、时间戳、负荷值,其中时间戳为测点时间数值减去2001年1月1日0 时0分0秒所形成的差值,编码字段为所在电厂名字的脱敏数据,以时间序列的形式进 行存储;
步骤2、数据的预处理:对上述时序数据进行预处理得到建模数据集;
步骤3、数据的建模:采用建模数据集,建立一种基于稀疏表示的电厂数据压缩模型,然后对建模数据集进行数据压缩,记录压缩后的数据文本、压缩率以及压缩时间;
步骤4、实时数据采集与预处理:在线采集电厂上实时测定的时序数据,并对其进行预处理操作;
步骤5、获得压缩数据:将预处理后的样本输入到步骤3中的一种基于稀疏表示的电厂数据压缩模型中,记录压缩后的数据文本、压缩率以及压缩时间;
在进一步实施例中,所述步骤2中,对上述时序数据进行预处理得到建模数据集,具体预处理过程为:
Figure BDA0003038081680000041
其中,时序数据为D={(x1′,y1),(x2′,y2),L,(x′m,ym)},
Figure BDA0003038081680000042
表示单个数据,
Figure BDA0003038081680000043
表示第i个数据中第d个属性值。对时序数据 进行预处理得到建模数据集,可以表示为:D={(x1,y1),(x2,y2),L,(xm,ym)};
在进一步实施例中,所述步骤3中,建立一种基于稀疏表示的电厂数据压缩模型,具体过程为:
步骤31、先选取初始点作为压缩后数据集,用半径为r的圆形区域度量原始数据的每个点与压缩后数据集上每个点的最短距离;
步骤32、判断该点是否小于用户自定义的r:如果小于r,判断该点的样本密度是否小于数量阈值δ,如果是则选择过滤该点,否则将该点加到压缩后数据集上;如果大 于r,则直接将该点加到压缩后数据集上,反复迭代进行,得到最终的压缩后的数据集。 即给定建模数据集S={(x1,L,xn},压缩后的数据集Q={d1,d2,L,dq};首先计算两点 间的欧氏距离;对于压缩后数据集Q,首先迭代数据集S的每个样本点,得到dis,判 断所得到距离是否小于用户自定义常数r,这里实际是在筛选后数据集上每个样本点限 定圆形区域,只要在筛选后的数据集上每个样本点的r圆形区域内的点,都需要被过滤; 判断所得到距离是否小于用户自定义常数r,则将原始数据上的该样本点添加到压缩后 数据集上进行更新,具体方法见说明书附图中图1。
所述步骤3中建立一种基于稀疏表示的电厂数据压缩模型的具体算法过程如下:
步骤41、初始化输入建模数据集S,Q={x2},以及用户自定义常数r、δ和存储 索引的集合L={1};
步骤42、设定i=1,t0=time(now),计算xi与Q中第一个数据点即x2间的欧氏距离,得到xi与Q中第一个数据点距离并保存该距离为mindis,计算两点间的欧氏距离具 体计算方法为:给定建模数据集S={(x1,L,xn},压缩后的数据集Q={d1,d2,L,dq}, 两点间的欧氏距离dis=argmin D(xi,dj)i=1,2,L n,j=1,2,L,q,其中 D(xi,dj)=||xi-dj||表示样本点xi和dj之间的欧氏距离,具体表示为:
Figure BDA0003038081680000051
步骤43、令m=len(Q),此时m表示Q中数据点的个数,将j=1,通过所述步骤 42中的方法计算xi与Q中的数据点dj间的欧氏距离,得到xi与Q中数据点dj的欧氏距 离并保存该距离为dis;
步骤44、判断mindis是否不小于dis,如果是,则将mindis=dis,否则mindis=mindis;
步骤45、判断将j≤m,如果是,j=j+1转到步骤43,否则转到步骤46;
步骤6、判断mindis≥r,如果是,Q={xi,Q},L={1,L}后转到步骤47;否则,需 要进一步判断len(L)≥δ,如果是,Q={xi,Q},将L置为初始化状态L={1},如果不是, 则需要将L={1,L},然后转到步骤47;
步骤47、判断i≤n,如果是,i=i+1转到步骤42,否则转到步骤48;
步骤48、将最终的压缩后数据集Q进行输出,此时t1=time(now);
步骤49、针对得到的数据集Q与先前的建模数据集S,对比这两个文件所占用字 节数大小得到该方法的压缩率,而该方法的压缩时间可以用t1-t0进行计算。
以上详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的 具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种等同变换,这些等同变换均属于本发明的保护范围。

Claims (4)

1.一种稀疏表示的电厂数据压缩方法,其特征在于包括步骤如下:
步骤1、数据采集:电厂采集的数据形式为.txt文件,每行分为三个字段,代表测点编码字段、时间戳、负荷值,将其中时间戳为测点时间数值减去2001年1月1日0时0分0秒所形成的差值,编码字段为所在电厂名字的脱敏数据,以时间序列的形式进行存储;
步骤2、数据预处理:对所述步骤1中的时序数据进行预处理得到建模数据集;
步骤3、数据建模:采用建模数据集建立一种基于稀疏表示的电厂数据压缩模型,然后对建模数据集进行数据压缩,记录压缩后的数据文本、压缩率以及压缩时间;
步骤4、实时数据采集与预处理:在线采集电厂上实时测定的时序数据,并对其进行预处理操作;
步骤5、获得压缩数据:将所述步骤4预处理后的样本输入到所述步骤3的基于稀疏表示的电厂数据压缩模型中,得到压缩后的数据文本、压缩率以及压缩时间。
2.根据权利要求1所述的一种稀疏表示的电厂数据压缩方法,其特征在于,所述步骤2进一步为,所述时序数据预处理过程为:
Figure FDA0003038081670000011
其中,时序数据为D={(x′1,y1),(x′2,y2),L,(x′m,ym)},
Figure FDA0003038081670000012
表示单个数据,
Figure FDA0003038081670000013
表示第i个数据中第d个属性值,对时序数据进行预处理得到建模数据集,可以表示为:D={(x1,y1),(x2,y2),L,(xm,ym)}。
3.根据权利要求1所述的一种稀疏表示的电厂数据压缩方法,其特征在于,所述步骤3进一步为:
步骤31、先选取初始点作为压缩后数据集,用半径为r的圆形区域度量原始数据的每个点与压缩后数据集上每个点的最短距离;
步骤32、判断该点是否小于用户自定义的r:如果小于r,判断该点的样本密度是否小于数量阈值δ,如果是则选择过滤该点,否则将该点加到压缩后数据集上;如果大于r,则直接将该点加到压缩后数据集上,反复迭代进行,得到最终的压缩后的数据集。
4.根据权利要求3所述的一种稀疏表示的电厂数据压缩方法,其特征在于,所述建立一种基于稀疏表示的电厂数据压缩模型具体方法为:
步骤41、初始化输入建模数据集S,Q={x2},以及用户自定义常数r、δ和存储索引的集合L={1};
步骤42、设定i=1,t0=time(now),计算xi与Q中第一个数据点即x2间的欧氏距离,得到xi与Q中第一个数据点距离并保存该距离为mindis,计算两点间的欧氏距离具体计算方法为:给定建模数据集S={(x1,L,xn},压缩后的数据集Q={d1,d2,L,dq},两点间的欧氏距离dis=argmin D(xi,dj)i=1,2,L n,j=1,2,L,q,其中D(xi,dj)=||xi-dj||表示样本点xi和dj之间的欧氏距离,具体表示为:
Figure FDA0003038081670000021
步骤43、令m=len(Q),此时m表示Q中数据点的个数,将j=1,通过所述步骤42中方法计算xi与Q中的数据点dj间的欧氏距离,得到xi与Q中数据点dj的欧氏距离并保存该距离为dis;
步骤44、判断mindis是否不小于dis,如果是,则将mindis=dis,否则mindis=mindis;
步骤45、判断将j≤m,如果是,j=j+1转到步骤43,否则转到步骤46;
步骤46、判断mindis≥r,如果是,Q={xi,Q},L={1,L}后转到步骤47;否则,需要进一步判断len(L)≥δ,如果是,Q={xi,Q},将L置为初始化状态L={1},如果不是,则需要将L={1,L},然后转到步骤47;
步骤47、判断i≤n,如果是,i=i+1转到步骤42,否则转到步骤48;
步骤48、将最终的压缩后数据集Q进行输出,此时t1=time(now);
步骤49、针对得到的数据集Q与先前的建模数据集S,对比这两个文件所占用字节数大小得到该方法的压缩率,而该方法的压缩时间可以用t1-t0进行计算。
CN202110449069.2A 2021-04-25 2021-04-25 一种稀疏表示的电厂数据压缩方法 Active CN113271106B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110449069.2A CN113271106B (zh) 2021-04-25 2021-04-25 一种稀疏表示的电厂数据压缩方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110449069.2A CN113271106B (zh) 2021-04-25 2021-04-25 一种稀疏表示的电厂数据压缩方法

Publications (2)

Publication Number Publication Date
CN113271106A true CN113271106A (zh) 2021-08-17
CN113271106B CN113271106B (zh) 2022-07-08

Family

ID=77229330

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110449069.2A Active CN113271106B (zh) 2021-04-25 2021-04-25 一种稀疏表示的电厂数据压缩方法

Country Status (1)

Country Link
CN (1) CN113271106B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102437854A (zh) * 2011-11-03 2012-05-02 电子科技大学 一种高压缩比的工业实时数据压缩方法
CN102510287A (zh) * 2011-11-03 2012-06-20 电子科技大学 一种工业实时数据的快速压缩方法
CN112256686A (zh) * 2020-11-12 2021-01-22 北京理工大学 一种基于mes的故障数据压缩与预测方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102437854A (zh) * 2011-11-03 2012-05-02 电子科技大学 一种高压缩比的工业实时数据压缩方法
CN102510287A (zh) * 2011-11-03 2012-06-20 电子科技大学 一种工业实时数据的快速压缩方法
CN112256686A (zh) * 2020-11-12 2021-01-22 北京理工大学 一种基于mes的故障数据压缩与预测方法及系统

Also Published As

Publication number Publication date
CN113271106B (zh) 2022-07-08

Similar Documents

Publication Publication Date Title
CN111738462B (zh) 电力计量装置故障抢修主动服务预警方法
CN114580706A (zh) 基于gru-lstm神经网络的电力金融业务风控方法及系统
CN113242207A (zh) 一种迭代聚类的网络流量异常检测方法
CN109445935A (zh) 云计算环境下一种高性能大数据分析系统自适应配置方法
CN112231306B (zh) 基于大数据的能源数据分析系统及方法
CN109344990A (zh) 一种基于dfs和svm特征选择的短期负荷预测方法及系统
Kaboli et al. An expression-driven approach for long-term electric power consumption forecasting
CN117495109B (zh) 一种基于神经网络的窃电用户识别系统
CN116340830B (zh) 一种基于深层记忆模型的高速公路机电系统故障分类方法
CN118114955B (zh) 虚拟电厂的电力调度方法及相关设备
CN116090819A (zh) 一种基于关联规则的配电网风险态势预测方法
CN116231871A (zh) 一种基于数字孪生的电网态势监管方法、系统及存储介质
CN113762591B (zh) 一种基于gru和多核svm对抗学习的短期电量预测方法及系统
CN107992112A (zh) 一种基于排列熵的控制回路性能评估方法及系统
CN107590747A (zh) 基于综合能源大数据分析的电网资产周转率计算方法
CN117407681B (zh) 一种基于向量聚类的时序数据预测模型建立方法
CN113271106B (zh) 一种稀疏表示的电厂数据压缩方法
CN117391257A (zh) 一种道路拥堵情况的预测方法及装置
CN116883057A (zh) 一种基于XGBoost的高精度电力客户营销渠道偏好预测系统
CN113837486B (zh) 一种基于rnn-rbm的配网馈线长期负荷预测方法
CN115563877A (zh) 一种基于历史负荷数据的短期负荷预测与修复方法
CN114492998A (zh) 能源类大数据处理方法、装置、计算机设备和存储介质
CN113935023A (zh) 一种数据库异常行为检测方法及装置
Ponta et al. Detrending Moving Average algorithm: quantifying heterogeneity in financial data
CN117633456B (zh) 基于自适应焦点损失的海上风电天气事件辨识方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant