CN104331495B - 一种数据压缩方法 - Google Patents
一种数据压缩方法 Download PDFInfo
- Publication number
- CN104331495B CN104331495B CN201410661112.1A CN201410661112A CN104331495B CN 104331495 B CN104331495 B CN 104331495B CN 201410661112 A CN201410661112 A CN 201410661112A CN 104331495 B CN104331495 B CN 104331495B
- Authority
- CN
- China
- Prior art keywords
- data
- extrapolation
- point
- time
- points
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000013144 data compression Methods 0.000 title claims abstract description 17
- 238000007906 compression Methods 0.000 claims abstract description 21
- 230000006835 compression Effects 0.000 claims abstract description 21
- 230000008569 process Effects 0.000 claims abstract description 15
- 230000008859 change Effects 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 238000013213 extrapolation Methods 0.000 claims description 27
- 238000005070 sampling Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000013500 data storage Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 abstract description 2
- 238000013480 data collection Methods 0.000 abstract 1
- 230000014759 maintenance of location Effects 0.000 abstract 1
- 238000004321 preservation Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种数据压缩方法,包括死区压缩步骤和插值拟合压缩步骤,所述死区压缩步骤作为所述数据压缩算法的前置数据预处理过程,用于滤掉噪音数据;所述插值拟合压缩示步骤为针对实时数据变化过程中具备连续的趋势特征而设计对应的数据压缩算法。本发明在工业领域中应用实时数据库进行数据处理时,其实时数据具备数据采集量大、数据趋势效应明显。本拟合压缩算法解决了实时数据存储中的细节保存问题,实现了在较少的存储点的情况下,实现了较高的细节留存度。
Description
技术领域
本发明公开了一种数据压缩方法,涉及数据处理技术领域。
背景技术
传统的定点(定周期)采样减少了实时数据采样点数,但同时也损失了数据变化的细节内容。现有技术中,大多数数据记录采用定点(定周期)方式进行数据采样记录保存。该方法以给定的时间间隔(或给定一定时间范围内计划保存的点数来确定平均的时间间隔),对实时数据进行采样记录保存。该方法实现简单,几乎没有运算量。但是同时,该方法也存在着比较明显的不足之处。首先,采用定周期的记录采样,该周期一般取得比较大,因此实时数据中间的波动过程损失比较明显,后期无法利用保存的数据还原其趋势数据精度。其次,若大幅减小采样周期,那么需要的存储空间必然迅速增大,在实时数据变化比较平稳时,记录下来的冗余数据比例会比较大,即占用了存储空间又降低了数据还原时的检索效率,在实际应用中很不经济。
发明内容
本发明所要解决的技术问题是:针对现有技术的缺陷,提供一种数据压缩方法,用于实时数据库中对数据进行压缩,在尽量保持数据精度的条件下,减少存储空间的使用。
本发明为解决上述技术问题采用以下技术方案:
一种数据压缩方法,包括死区压缩步骤和插值拟合压缩步骤,其中,
所述死区压缩步骤作为所述数据压缩算法的前置数据预处理过程,用于滤掉噪音数据,其具体过程包括:
101、对于时间相关的实时数据序列,设定其变化限值;
102、如果当前数据点与其前一个保存的数据点的偏差大于步骤101中设定的变化限值,则保存当前数据点,否则丢弃当前数据点;
所述插值拟合压缩示步骤为针对实时数据变化过程中具备连续的趋势特征而设计对应的数据压缩算法,具体过程包括:
201、设定样条插值连续的约束点;
202、通过步骤201设定的点所形成连续曲线,应用样条插值算法得到上述连续曲线的样条插值参数;
203、由步骤202所得的样条插值参数,沿时间轴做外插计算;
204、设定容忍变化范围,形成外插区间;
205、若后继点在步骤204所形成的外插区间内,则临时记录最后一个在外插区间内的点,同时丢弃掉其他外插区间内的点;
206、若出现一个在步骤204所形成的外插区间外,则保存步骤205临时记录的点;
207、继续根据步骤201设定新的样条插值连续约束点,重复步骤202至步骤206,对后继的点执行相同的处理过程。
作为本发明的进一步优选方案,所述步骤202中的样条插值算法具体为三次样条插值算法。
作为本发明的进一步优选方案,步骤101中所述的变化限值是根据数据采样的离散特征,在保持数据有效性的前提下,设置为原始数据精度的1-2倍。
作为本发明的进一步优选方案,步骤201中所述约束点的数量根据所三次样条插值算法的特征,选取8个以上的点作为外插计算的约束点。
作为本发明的进一步优选方案,所述步骤203和步骤204中,沿时间轴做外插计算时,以数据点的采样时间作为输入参数,计算出该时间点上的外插值,然后附加上容忍变化范围,形成外插区间。
作为本发明的进一步优选方案,步骤204中所述的容忍变化范,设置为步骤101中变化限值的2-4倍。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:本发明所公开的插值拟合数据压缩算法具有数据还原度好的特点。读取压缩存储数据时,采用内插法即可还原数据的真实趋势。同时,由于实时数据具备的连续趋势特征,使得该算法具备比较好的数据压缩率,极为有效地降低了数据存储空间需求。
附图说明
图1是本发明中死区压缩示意图。
图2是本发明中插值拟合压缩示意图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
下面结合附图对本发明的技术方案做进一步的详细说明:
本发明中死区压缩示意图如图1所示,死区压缩是作为整个拟合压缩算法的前置数据预处理过程。该算法对于时间相关的实时数据序列,按设定好的变化限值(即死区),如果当前数据点与上一个保存的数据点的偏差超过了设定的死区,那么就保存当前数据点,否则丢弃。如下图所示。该步骤主要用于滤掉噪音数据。
本发明中插值拟合压缩示意图如图2所示,插值拟合压缩是针对实时数据变化过程中具备连续的趋势特征而设计的数据压缩算法。其实现原理如下图所示。按设定好的样条插值连续的约束点数(即保证样条插值的连续性点数量)。A1、A2 – A8是要保存的点,通过由这些点形成的连续曲线,应用样条插值算法得到连续曲线的样条插值参数。并以此计算所得样条插值参数,沿时间轴做外插计算。如图中所示,以设定好的容忍变化范围(精度区)形成外插区间,外插区间包含了B点和C点;当外插区间不能包含所有点时,如图中E点,那么其前一个点即D点需要进行保存;然后从D点前推月俗点数个点(即A2 – A8、D)再次进行样条插值计算新的外插区间。由于高次插值不收敛又不稳定,计算量也比较大。在本次算法中选择更具实用价值的三次样条插值算法作为首要算法,这样比较适应实时数据的变化趋势以及变化的快速特征。
作为具体实施例中的优选方案:
步骤101中的限值,根据数据采样的离散特征,从保持数据的有效性出发,一般设置为原始数据精度的1-2倍。
步骤201中的约束点的数量根据所三次样条插值算法的特征,从实际应用方面一般选取8个以上点作为外插计算的约束点数。
步骤203中沿时间轴做外插计算时,以数据点的采样时间作为输入参数,计算出该时间点上的外插值,然后附加上容忍变化范围,形成外插区间。
步骤204中的容忍变化范围,从实际压缩有效性考虑,一般选取步骤101中变化限值的2-4倍值。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质,在本发明的精神和原则之内,对以上实施例所作的任何简单的修改、等同替换与改进等,均仍属于本发明技术方案的保护范围之内。
Claims (3)
1.一种数据压缩方法,其特征在于:包括死区压缩步骤和插值拟合压缩步骤,其中,
所述死区压缩步骤作为所述数据压缩算法的前置数据预处理过程,用于滤掉噪音数据,其具体过程包括:
101、对于时间相关的实时数据序列,设定其变化限值;
102、如果当前数据点与其前一个保存的数据点的偏差大于步骤101中设定的变化限值,则保存当前数据点,否则丢弃当前数据点;
所述插值拟合压缩步骤为针对实时数据变化过程中具备连续的趋势特征而设计对应的数据压缩算法,具体过程包括:
201、设定样条插值连续的约束点;
202、通过步骤201设定的点所形成连续曲线,应用样条插值算法得到上述连续曲线的样条插值参数;
203、由步骤202所得的样条插值参数,沿时间轴做外插计算;
204、设定容忍变化范围,形成外插区间;
205、若后继点在步骤204所形成的外插区间内,则临时记录最后一个在外插区间内的点,同时丢弃掉其他外插区间内的点;
206、若出现一个在步骤204所形成的外插区间外,则保存步骤205临时记录的点;
207、继续根据步骤201设定新的样条插值连续约束点,重复步骤202至步骤206,对后继的点执行相同的处理过程;
所述步骤202中的样条插值算法具体为三次样条插值算法;
步骤201中所述约束点的数量根据所三次样条插值算法的特征,选取8个以上的点作为外插计算的约束点;
所述步骤203和步骤204中,沿时间轴做外插计算时,以数据点的采样时间作为输入参数,计算出该时间点上的外插值,然后附加上容忍变化范围,形成外插区间。
2.如权利要求1所述的一种数据压缩方法,其特征在于:步骤101中所述的变化限值是根据数据采样的离散特征,在保持数据有效性的前提下,设置为原始数据精度的1-2倍。
3.如权利要求2所述的一种数据压缩方法,其特征在于:步骤204中所述的容忍变化范围 ,设置为步骤101中变化限值的2-4倍。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410661112.1A CN104331495B (zh) | 2014-11-19 | 2014-11-19 | 一种数据压缩方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410661112.1A CN104331495B (zh) | 2014-11-19 | 2014-11-19 | 一种数据压缩方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104331495A CN104331495A (zh) | 2015-02-04 |
CN104331495B true CN104331495B (zh) | 2018-07-06 |
Family
ID=52406222
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410661112.1A Expired - Fee Related CN104331495B (zh) | 2014-11-19 | 2014-11-19 | 一种数据压缩方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104331495B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11143545B2 (en) * | 2019-02-12 | 2021-10-12 | Computational Systems, Inc. | Thinning of scalar vibration data |
CN111090662B (zh) * | 2019-12-19 | 2024-01-30 | 浪潮通用软件有限公司 | 从实时数据库获取数据到关系数据库的方法及设备、介质 |
CN117650791B (zh) * | 2024-01-30 | 2024-04-05 | 苏芯物联技术(南京)有限公司 | 一种融合焊接工艺机理的焊接历史气流数据压缩方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006279272A (ja) * | 2005-03-28 | 2006-10-12 | Toshiba Corp | 動画像符号化装置およびその符号化制御方法 |
CN1866241A (zh) * | 2006-06-21 | 2006-11-22 | 浙江中控软件技术有限公司 | 一种基于最小二乘线性拟合的实时数据压缩方法 |
KR20110070687A (ko) * | 2009-12-18 | 2011-06-24 | 한국전자통신연구원 | 다차원 변환 및 양자화가 가능한 부호화 장치 및 방법, 그리고, 복호화 장치 및 방법 |
CN102437856A (zh) * | 2011-11-04 | 2012-05-02 | 国电南京自动化股份有限公司 | 基于特征点提取的地铁综合监控系统三级数据压缩方法 |
-
2014
- 2014-11-19 CN CN201410661112.1A patent/CN104331495B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006279272A (ja) * | 2005-03-28 | 2006-10-12 | Toshiba Corp | 動画像符号化装置およびその符号化制御方法 |
CN1866241A (zh) * | 2006-06-21 | 2006-11-22 | 浙江中控软件技术有限公司 | 一种基于最小二乘线性拟合的实时数据压缩方法 |
KR20110070687A (ko) * | 2009-12-18 | 2011-06-24 | 한국전자통신연구원 | 다차원 변환 및 양자화가 가능한 부호화 장치 및 방법, 그리고, 복호화 장치 및 방법 |
CN102437856A (zh) * | 2011-11-04 | 2012-05-02 | 国电南京自动化股份有限公司 | 基于特征点提取的地铁综合监控系统三级数据压缩方法 |
Non-Patent Citations (1)
Title |
---|
基于PMAC 数控系统的速度约束轨迹插补研究;李小号等;《中国期刊全文数据库 煤矿机械》;20080731;第29卷(第7期);第45-46页 * |
Also Published As
Publication number | Publication date |
---|---|
CN104331495A (zh) | 2015-02-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105159915B (zh) | 可动态适应的lsm树合并方法及系统 | |
CN104331495B (zh) | 一种数据压缩方法 | |
TWI796286B (zh) | 一種機器學習系統的訓練方法和訓練系統 | |
CN103150260B (zh) | 重复数据删除方法和装置 | |
CN104348490A (zh) | 一种基于效果优选的组合数据压缩算法 | |
CN108540136B (zh) | 一种适用于农业传感数据的压缩方法 | |
CN106569750A (zh) | 一种数据压缩方法及装置 | |
CN104618361A (zh) | 一种网络流数据重排序方法 | |
CN105824574A (zh) | 一种内存数据存储方法 | |
CN103631972B (zh) | 一种列访问感知的数据缓存方法及系统 | |
WO2019114754A1 (zh) | 一种列式存储下多时间序列的连接查询方法及系统 | |
US20240039561A1 (en) | Huffman correction encoding method and system, and relevant components | |
CN104731716B (zh) | 一种数据存储方法 | |
CN104318046A (zh) | 增量式的高维数据转换为低维数据的系统及方法 | |
CN110580307A (zh) | 一种快速统计的处理方法及装置 | |
CN103116877A (zh) | 一种水库水位过程平滑处理方法 | |
CN106326252B (zh) | 数据库的数据处理方法及装置 | |
CN104050100B (zh) | 一种适用于大数据环境的数据流存储管理方法及系统 | |
CN105787107B (zh) | 一种大数据冗余检测方法 | |
CN110175185A (zh) | 一种基于时序数据分布特征的自适应无损压缩方法 | |
CN105335475B (zh) | 一种基于流式数据的局部性非聚簇索引方法及系统 | |
CN114819425A (zh) | 一种区域用电量智能预测方法、系统及存储介质 | |
CN114996245A (zh) | 一种应用在水泥生产大数据的数据压缩方法 | |
CN115455594A (zh) | 基于涡轮叶片冷却设计数据库的内流通道数据修正方法 | |
CN102306198B (zh) | 一种性能数据汇聚方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180706 |