CN102361458B - 一种在快速数据管理系统实现高效数据压缩的方法 - Google Patents
一种在快速数据管理系统实现高效数据压缩的方法 Download PDFInfo
- Publication number
- CN102361458B CN102361458B CN 201110235290 CN201110235290A CN102361458B CN 102361458 B CN102361458 B CN 102361458B CN 201110235290 CN201110235290 CN 201110235290 CN 201110235290 A CN201110235290 A CN 201110235290A CN 102361458 B CN102361458 B CN 102361458B
- Authority
- CN
- China
- Prior art keywords
- data
- type
- compression
- time
- threshold value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种在快速数据管理系统实现高效数据压缩的方法,属于对流程工厂中的大量过程数据采集后压缩处理技术领域。压缩步骤为:根据过程数据的数据类型和取值范围对数据进行类型的基本压缩;采用阈值自适应的变点存储方法;采用段页式时间存储法。优点在于,摈弃了大部分系统采样的直接将过程数据存入数据库的模式,直接将过程数据文件压缩处理,形成二进制文件,实现了对历史数据文件的高效压缩,有效节约了存储空间。
Description
技术领域
本发明属于对流程工厂中的大量过程数据采集后压缩处理技术领域,特别涉及提供了一种在快速数据管理系统实现高效数据压缩的方法。具体涉及到在采集到大量的快速数据和普通过程数据后,对大量数据实现高效的数据压缩的方法。
背景技术
在流程工程中,随着自动化水平的不断提高,设备也越来越复杂。生长过程的数据点也越来越多。通过对这些过程数据进行回放不仅可以再现生产过程,同时也是设备调试、生产过程数据优化、生产过程故障问题的有效手段。通常情况下,这些数据采集周期小、数据通讯量大,动辄上万点甚至更多。如果不对这些采集到的数据进行一定的压缩处理而直接存储,生成的数据文件会在极短的时间内会占据大量的存储空间,从而造成对存储空间容量的需求越来越高,造成极大的浪费。
发明内容
本发明的目的在于提供一种在快速数据管理系统实现高效数据压缩的方法,解决了对采集到的大量的过程数据实现高效压缩的问题是。与传统的数据采集系统对比,利用该方法后,解决了把大量过程数据不加处理的存入数据库表或文件中,造成大量存储空间浪费的问题。
为了解决以上问题,本发明的实施方案步骤如下:
步骤1、根据过程数据的数据类型和取值范围对数据进行类型的基本压缩。
数据压缩模块对采集到的过程数据进行高效的压缩,最终形成二进制数据文件。压缩的算法包括参从数据类型、阈值自适应的变点存储和数据时间戳三个方面进行。首先是数据类型的压缩。数据的类型决定数据占内存的字节数和取值范围。在采集的过程数据中,一般都是整型(int)和浮点型(float)。单精度的实型,使用四个字节空间存储,取值范围为10-38~10+38,数据的有效位数为7位数字;而对于双精度实型,使用八个字节空间存储,取值范围为10-308~10+308,数据的有效位数为15位数字。无疑,如果按照这样存储的方式进行存储,会带来极大存储空间的浪费。
本发明的方法在于,对于BOOL型数据,我们按照一个字节进行存储,对于float型和long型数据,在精度允许范围内,我们转换成short类型进行存储,将存储空间从4字节有效的降低为2字节。
步骤2、采用阈值自适应的变点存储方法。对每个过程数据,都会有最大值和最小值。本发明结合最大值和最小值的范围设定阈值,每个采样周期,系统对采集到的数据与前一个采样周期的数据进行对比,如果两个数的差小于阈值,则认为该数未发生变化,在该采样周期不对该数进行采集,只有当前采样周期的数值与上一个采样数据的大小差超过阈值的时候我们才对该数进行存储。同时,结合过程数据采集的过程中的范围,对阈值说的大小进行不断的修正和自学习,以达到阈值的最佳取值。
阈值自学习方法在于,对每个压缩周期(例如1小时)内的数据的最大值和最小值进行记录后,最大值和最小值的差的一定比例(例如万分之一或者千分之一)作为下一个压缩周期内数据采集的阈值。这样,该阈值可以根据数据范围进行不断的调整和优化。
步骤3,采用段页式时间存储法。生产过程数据如果没用时间坐标,也没有任何意义。从第二步的计算中可以看出,每个数据的时间戳在存储过程中占用了大部分的存储空间。为了解决该问题,本发明了以下段页式时间存储方法。首先,我们选择一个时间基准点,我们称为段时间T0,该时间我们称为标准时间戳。从段时间T0开始,对于该周期的时间戳,我们选取他与段时间的间隔,我们称为页时间,也就是时间偏移量。段时间在存储的时候占有8字节,而页时间为short类型,只占2字节。数据压缩率进一步得到提高。
本发明取得了以下效果:摈弃了大部分系统采样的直接将过程数据存入数据库的模式,直接将过程数据文件压缩处理,形成二进制文件,实现了对历史数据文件的高效压缩,有效节约了存储空间。
附图说明
图1为工业生产过程数据采集分析整体架构示意图。
图2为压缩过程水温变化趋势示意图。
具体实施方式
下面结合附图对所述的压缩过程的具体方法进行说明。
图1是工业生产过程数据采集分析整体架构示意图。PLC一侧最为数据源,将过程数据源源不断的发送给数据接收端。数据接收服务接收到数据后,发送给快速数据分析系统。数据分析系统对这部分数据进行压缩。
以现场水温参数为例,最小值为0摄氏度,最大值为100摄氏度,阈值首先设定为0.1,采样周期为500ms。如果不做任何处理,经过一天的时间,水温数据文件所占空间为:4×2×24×3600=691200字节。压缩过程如下:
假设,采集过程中水温的变化趋势在一定的时间内如图2所示:
水温的类型为float类型,存储的时候占据4字节,而水温的范围为0-100。因此在存储的时候,我们首先将25.0、25.1和25.2等数据按照250,251和252进行存储,这样数据转换为short型,存储占据2字节。
再次,根据变点存储的方式,从25.0到25.3,数据从图中看出,采集到的数据显示变化超过了30次,但是因为我们定义的阈值范围,从图中可以看出,我们只有3次该值的变化超过了阈值,所以采集的过程中我们只存储三次即可。
最后,对于段页式时间存储方式。按照常规的模式,数据时间在存储的时候,我们采用系统时间的格式进行,需要8字节。而采用段页式时间存储的模式,我们仅对T0存储的时候采用系统时间的格式,而对于T1、T2和T3则为时间的偏移量,以500ms作为一个采样周期的话,T1则为3000,T2则为10500,T3则为11000。时间存储占用的空间明显减少。
Claims (1)
1.一种在快速数据管理系统实现高效数据压缩的方法,数据压缩模块对采集到的过程数据进行高效的压缩,最终将压缩后的过程数据以二进制数据文件的形式进行存储;压缩的算法采用以下三个步骤:数据类型、阈值自适应的变点存储和数据时间戳;首先是数据类型的压缩,数据的类型决定数据占内存的字节数和取值范围,在采集的过程数据中,都是整型int和浮点型float,单精度的实型,使用四个字节空间存储,取值范围为10^-38~10^+38,数据的有效位数为7位数字;而对于双精度实型,使用八个字节空间存储,取值范围为10^-308~10^+308,数据的有效位数为15位数字;无疑,如果按照这样存储的方式进行存储,会带来极大存储空间的浪费;其特征和步骤如下:
(1)根据过程数据的数据类型和取值范围对数据进行类型的基本压缩
对于BOOL型数据,按照一个字节进行存储,对于float型和long型数据,在精度允许范围内,我们转换成short类型进行存储,将存储空间从4字节有效的降低为2字节;
(2)采用阈值自适应的变点存储方法:对每个过程数据,都会有最大值和最小值;结合最大值和最小值的范围设定阈值,每个采样周期,系统对采集到的数据与前一个采样周期的数据进行对比,如果两个数的差小于阈值,则认为该数未发生变化,在该采样周期不对该数进行采集,只有当前采样周期的数值与上一个采样数据的大小差超过阈值的时候我们才对该数进行存储;同时,结合过程数据采集的过程中的范围,对阈值的大小进行不断的修正和自学习,以达到阈值的最佳取值;
阈值自学习方法在于,对每个压缩周期1小时内的数据的最大值和最小值进行记录后,最大值和最小值的差的一定比例:万分之一或者千分之一作为下一个压缩周期内数据采集的阈值;这样,该阈值可以根据数据范围进行不断的调整和优化;
(3)采用段页式时间存储法:首先,选择一个时间基准点,称为段时间T0,该时间我们称为标准时间戳;从段时间T0开始,对于该周期的时间戳,选取他与段时间的间隔,称为页时间,也就是时间偏移量;段时间在存储的时候占有8字节,而页时间为short类型,只占2字节;数据压缩率进一步得到提高。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110235290 CN102361458B (zh) | 2011-08-16 | 2011-08-16 | 一种在快速数据管理系统实现高效数据压缩的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110235290 CN102361458B (zh) | 2011-08-16 | 2011-08-16 | 一种在快速数据管理系统实现高效数据压缩的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102361458A CN102361458A (zh) | 2012-02-22 |
CN102361458B true CN102361458B (zh) | 2013-09-04 |
Family
ID=45586716
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201110235290 Active CN102361458B (zh) | 2011-08-16 | 2011-08-16 | 一种在快速数据管理系统实现高效数据压缩的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102361458B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109189788A (zh) * | 2018-08-20 | 2019-01-11 | 中冶南方工程技术有限公司 | 用于钢铁过程控制的高速数据存储方法和系统 |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103226572B (zh) * | 2013-03-27 | 2016-12-07 | 上海瀛联体感智能科技有限公司 | 一种基于数据压缩的可扩展的监控方法及系统 |
CN103198157B (zh) * | 2013-04-28 | 2016-02-03 | 南京信息工程大学 | 一种大地电场数据的压缩存储处理方法 |
CN103971500B (zh) * | 2014-05-08 | 2017-07-28 | 福建工程学院 | 一种远程设备故障信息采集系统数据压缩传输方法 |
CN104267281B (zh) * | 2014-09-25 | 2017-03-15 | 国家电网公司 | 一种分布式低压配电网状态监测数据压缩方法 |
CN104503407B (zh) * | 2014-12-20 | 2017-06-06 | 北京首钢自动化信息技术有限公司 | 一种工业生产过程中数据采集回放系统和方法 |
CN104484476B (zh) * | 2014-12-31 | 2019-04-12 | 中国石油天然气股份有限公司 | 一种抽油机示功图数据压缩存储方法及装置 |
CN106156037B (zh) * | 2015-03-26 | 2019-11-12 | 深圳市腾讯计算机系统有限公司 | 数据处理方法、装置及系统 |
CN106055275A (zh) * | 2016-05-24 | 2016-10-26 | 深圳市敢为软件技术有限公司 | 数据压缩记录方法及装置 |
CN110096693B (zh) * | 2018-01-29 | 2024-05-28 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
CN110766928A (zh) * | 2019-10-22 | 2020-02-07 | 山东思科赛德矿业安全工程有限公司 | 一种基于物联网的矿山智能传感器数据采集方法 |
CN111177170B (zh) * | 2019-12-31 | 2022-04-01 | 杭州当虹科技股份有限公司 | 一种关于多维有限枚举数据的压缩更新方法 |
CN112087470A (zh) * | 2020-09-27 | 2020-12-15 | 山东云海国创云计算装备产业创新中心有限公司 | 一种行情数据传输方法及相关装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1352866A (zh) * | 1998-12-18 | 2002-06-05 | 艾利森电话股份有限公司 | 在无线电通信系统中过区切换的动态阈值调整的方法和系统 |
US20080292002A1 (en) * | 2004-08-05 | 2008-11-27 | Siemens Aktiengesellschaft | Coding and Decoding Method and Device |
-
2011
- 2011-08-16 CN CN 201110235290 patent/CN102361458B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1352866A (zh) * | 1998-12-18 | 2002-06-05 | 艾利森电话股份有限公司 | 在无线电通信系统中过区切换的动态阈值调整的方法和系统 |
US20080292002A1 (en) * | 2004-08-05 | 2008-11-27 | Siemens Aktiengesellschaft | Coding and Decoding Method and Device |
Non-Patent Citations (4)
Title |
---|
数据压缩技术在实时数据库中的应用研究;黄文君等;《仪器仪表学报》;20060630;第27卷(第6期);第911-914页 * |
汤同奎等.过程数据压缩技术综述.《计算机与应用化学》.2000,第17卷(第3期),第193-198页. |
过程数据压缩技术综述;汤同奎等;《计算机与应用化学》;20000528;第17卷(第3期);第193-198页 * |
黄文君等.数据压缩技术在实时数据库中的应用研究.《仪器仪表学报》.2006,第27卷(第6期),第911-914页. |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109189788A (zh) * | 2018-08-20 | 2019-01-11 | 中冶南方工程技术有限公司 | 用于钢铁过程控制的高速数据存储方法和系统 |
CN109189788B (zh) * | 2018-08-20 | 2021-04-13 | 中冶南方工程技术有限公司 | 用于钢铁过程控制的高速数据存储方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN102361458A (zh) | 2012-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102361458B (zh) | 一种在快速数据管理系统实现高效数据压缩的方法 | |
CN101923569B (zh) | 一种实时数据库的结构类型数据的存储方法 | |
CN104317800A (zh) | 一种海量智能用电数据混合存储系统及方法 | |
CN104484476B (zh) | 一种抽油机示功图数据压缩存储方法及装置 | |
CN102254024A (zh) | 海量数据处理系统及方法 | |
CN102722582A (zh) | 基于逆向清理的数据整合系统及方法 | |
CN101795138A (zh) | 电力系统广域测量系统高密度时间序列数据的压缩处理方法 | |
US20230067182A1 (en) | Data Processing Device and Method, and Computer Readable Storage Medium | |
CN108153483A (zh) | 一种基于属性分组的时序数据压缩方法 | |
CN103198157B (zh) | 一种大地电场数据的压缩存储处理方法 | |
CN103678688A (zh) | 电力自动化通讯全过程报文快速存储及检索方法 | |
CN102768666A (zh) | 一种工业数据存储读取方法及其系统 | |
CN105574074A (zh) | 一种基于智能电网wams的时序大数据存储方法 | |
CN104778017A (zh) | 一种智能变电站二次设备状态数据采集方法 | |
CN105338107A (zh) | 一种据点运营同步管理系统及方法 | |
CN104579358B (zh) | 一种故障录波数据压缩方法 | |
CN111258758A (zh) | 一种分流数据处理系统 | |
CN102479211A (zh) | 基于数据库的海量数据处理系统及方法 | |
CN104731716A (zh) | 一种数据存储方法 | |
CN105005464A (zh) | 一种Burrows Wheeler变换硬件处理装置 | |
CN105631000A (zh) | 基于移动终端位置特征信息的终端缓存的数据压缩方法 | |
CN104111945A (zh) | 一种海量电能质量数据的存储管理方法及系统 | |
CN115544305A (zh) | 一种用于数字钢卷系统的数据存储方法及装置 | |
CN104734726B (zh) | 一种支持编辑的时序数据在线压缩方法 | |
CN103226620B (zh) | 一种smc模块状态信息处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |