CN104331495B - 一种数据压缩方法 - Google Patents

一种数据压缩方法 Download PDF

Info

Publication number
CN104331495B
CN104331495B CN201410661112.1A CN201410661112A CN104331495B CN 104331495 B CN104331495 B CN 104331495B CN 201410661112 A CN201410661112 A CN 201410661112A CN 104331495 B CN104331495 B CN 104331495B
Authority
CN
China
Prior art keywords
data
point
compression
extrapolation
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410661112.1A
Other languages
English (en)
Other versions
CN104331495A (zh
Inventor
陈锁柱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING GDISOFT JIANGSU TECHNOLOGY Co Ltd
Original Assignee
BEIJING GDISOFT JIANGSU TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING GDISOFT JIANGSU TECHNOLOGY Co Ltd filed Critical BEIJING GDISOFT JIANGSU TECHNOLOGY Co Ltd
Priority to CN201410661112.1A priority Critical patent/CN104331495B/zh
Publication of CN104331495A publication Critical patent/CN104331495A/zh
Application granted granted Critical
Publication of CN104331495B publication Critical patent/CN104331495B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种数据压缩方法,包括死区压缩步骤和插值拟合压缩步骤,所述死区压缩步骤作为所述数据压缩算法的前置数据预处理过程,用于滤掉噪音数据;所述插值拟合压缩示步骤为针对实时数据变化过程中具备连续的趋势特征而设计对应的数据压缩算法。本发明在工业领域中应用实时数据库进行数据处理时,其实时数据具备数据采集量大、数据趋势效应明显。本拟合压缩算法解决了实时数据存储中的细节保存问题,实现了在较少的存储点的情况下,实现了较高的细节留存度。

Description

一种数据压缩方法
技术领域
本发明公开了一种数据压缩方法,涉及数据处理技术领域。
背景技术
传统的定点(定周期)采样减少了实时数据采样点数,但同时也损失了数据变化的细节内容。现有技术中,大多数数据记录采用定点(定周期)方式进行数据采样记录保存。该方法以给定的时间间隔(或给定一定时间范围内计划保存的点数来确定平均的时间间隔),对实时数据进行采样记录保存。该方法实现简单,几乎没有运算量。但是同时,该方法也存在着比较明显的不足之处。首先,采用定周期的记录采样,该周期一般取得比较大,因此实时数据中间的波动过程损失比较明显,后期无法利用保存的数据还原其趋势数据精度。其次,若大幅减小采样周期,那么需要的存储空间必然迅速增大,在实时数据变化比较平稳时,记录下来的冗余数据比例会比较大,即占用了存储空间又降低了数据还原时的检索效率,在实际应用中很不经济。
发明内容
本发明所要解决的技术问题是:针对现有技术的缺陷,提供一种数据压缩方法,用于实时数据库中对数据进行压缩,在尽量保持数据精度的条件下,减少存储空间的使用。
本发明为解决上述技术问题采用以下技术方案:
一种数据压缩方法,包括死区压缩步骤和插值拟合压缩步骤,其中,
所述死区压缩步骤作为所述数据压缩算法的前置数据预处理过程,用于滤掉噪音数据,其具体过程包括:
101、对于时间相关的实时数据序列,设定其变化限值;
102、如果当前数据点与其前一个保存的数据点的偏差大于步骤101中设定的变化限值,则保存当前数据点,否则丢弃当前数据点;
所述插值拟合压缩示步骤为针对实时数据变化过程中具备连续的趋势特征而设计对应的数据压缩算法,具体过程包括:
201、设定样条插值连续的约束点;
202、通过步骤201设定的点所形成连续曲线,应用样条插值算法得到上述连续曲线的样条插值参数;
203、由步骤202所得的样条插值参数,沿时间轴做外插计算;
204、设定容忍变化范围,形成外插区间;
205、若后继点在步骤204所形成的外插区间内,则临时记录最后一个在外插区间内的点,同时丢弃掉其他外插区间内的点;
206、若出现一个在步骤204所形成的外插区间外,则保存步骤205临时记录的点;
207、继续根据步骤201设定新的样条插值连续约束点,重复步骤202至步骤206,对后继的点执行相同的处理过程。
作为本发明的进一步优选方案,所述步骤202中的样条插值算法具体为三次样条插值算法。
作为本发明的进一步优选方案,步骤101中所述的变化限值是根据数据采样的离散特征,在保持数据有效性的前提下,设置为原始数据精度的1-2倍。
作为本发明的进一步优选方案,步骤201中所述约束点的数量根据所三次样条插值算法的特征,选取8个以上的点作为外插计算的约束点。
作为本发明的进一步优选方案,所述步骤203和步骤204中,沿时间轴做外插计算时,以数据点的采样时间作为输入参数,计算出该时间点上的外插值,然后附加上容忍变化范围,形成外插区间。
作为本发明的进一步优选方案,步骤204中所述的容忍变化范,设置为步骤101中变化限值的2-4倍。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:本发明所公开的插值拟合数据压缩算法具有数据还原度好的特点。读取压缩存储数据时,采用内插法即可还原数据的真实趋势。同时,由于实时数据具备的连续趋势特征,使得该算法具备比较好的数据压缩率,极为有效地降低了数据存储空间需求。
附图说明
图1是本发明中死区压缩示意图。
图2是本发明中插值拟合压缩示意图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
下面结合附图对本发明的技术方案做进一步的详细说明:
本发明中死区压缩示意图如图1所示,死区压缩是作为整个拟合压缩算法的前置数据预处理过程。该算法对于时间相关的实时数据序列,按设定好的变化限值(即死区),如果当前数据点与上一个保存的数据点的偏差超过了设定的死区,那么就保存当前数据点,否则丢弃。如下图所示。该步骤主要用于滤掉噪音数据。
本发明中插值拟合压缩示意图如图2所示,插值拟合压缩是针对实时数据变化过程中具备连续的趋势特征而设计的数据压缩算法。其实现原理如下图所示。按设定好的样条插值连续的约束点数(即保证样条插值的连续性点数量)。A1、A2 – A8是要保存的点,通过由这些点形成的连续曲线,应用样条插值算法得到连续曲线的样条插值参数。并以此计算所得样条插值参数,沿时间轴做外插计算。如图中所示,以设定好的容忍变化范围(精度区)形成外插区间,外插区间包含了B点和C点;当外插区间不能包含所有点时,如图中E点,那么其前一个点即D点需要进行保存;然后从D点前推月俗点数个点(即A2 – A8、D)再次进行样条插值计算新的外插区间。由于高次插值不收敛又不稳定,计算量也比较大。在本次算法中选择更具实用价值的三次样条插值算法作为首要算法,这样比较适应实时数据的变化趋势以及变化的快速特征。
作为具体实施例中的优选方案:
步骤101中的限值,根据数据采样的离散特征,从保持数据的有效性出发,一般设置为原始数据精度的1-2倍。
步骤201中的约束点的数量根据所三次样条插值算法的特征,从实际应用方面一般选取8个以上点作为外插计算的约束点数。
步骤203中沿时间轴做外插计算时,以数据点的采样时间作为输入参数,计算出该时间点上的外插值,然后附加上容忍变化范围,形成外插区间。
步骤204中的容忍变化范围,从实际压缩有效性考虑,一般选取步骤101中变化限值的2-4倍值。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质,在本发明的精神和原则之内,对以上实施例所作的任何简单的修改、等同替换与改进等,均仍属于本发明技术方案的保护范围之内。

Claims (3)

1.一种数据压缩方法,其特征在于:包括死区压缩步骤和插值拟合压缩步骤,其中,
所述死区压缩步骤作为所述数据压缩算法的前置数据预处理过程,用于滤掉噪音数据,其具体过程包括:
101、对于时间相关的实时数据序列,设定其变化限值;
102、如果当前数据点与其前一个保存的数据点的偏差大于步骤101中设定的变化限值,则保存当前数据点,否则丢弃当前数据点;
所述插值拟合压缩步骤为针对实时数据变化过程中具备连续的趋势特征而设计对应的数据压缩算法,具体过程包括:
201、设定样条插值连续的约束点;
202、通过步骤201设定的点所形成连续曲线,应用样条插值算法得到上述连续曲线的样条插值参数;
203、由步骤202所得的样条插值参数,沿时间轴做外插计算;
204、设定容忍变化范围,形成外插区间;
205、若后继点在步骤204所形成的外插区间内,则临时记录最后一个在外插区间内的点,同时丢弃掉其他外插区间内的点;
206、若出现一个在步骤204所形成的外插区间外,则保存步骤205临时记录的点;
207、继续根据步骤201设定新的样条插值连续约束点,重复步骤202至步骤206,对后继的点执行相同的处理过程;
所述步骤202中的样条插值算法具体为三次样条插值算法;
步骤201中所述约束点的数量根据所三次样条插值算法的特征,选取8个以上的点作为外插计算的约束点;
所述步骤203和步骤204中,沿时间轴做外插计算时,以数据点的采样时间作为输入参数,计算出该时间点上的外插值,然后附加上容忍变化范围,形成外插区间。
2.如权利要求1所述的一种数据压缩方法,其特征在于:步骤101中所述的变化限值是根据数据采样的离散特征,在保持数据有效性的前提下,设置为原始数据精度的1-2倍。
3.如权利要求2所述的一种数据压缩方法,其特征在于:步骤204中所述的容忍变化范围 ,设置为步骤101中变化限值的2-4倍。
CN201410661112.1A 2014-11-19 2014-11-19 一种数据压缩方法 Active CN104331495B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410661112.1A CN104331495B (zh) 2014-11-19 2014-11-19 一种数据压缩方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410661112.1A CN104331495B (zh) 2014-11-19 2014-11-19 一种数据压缩方法

Publications (2)

Publication Number Publication Date
CN104331495A CN104331495A (zh) 2015-02-04
CN104331495B true CN104331495B (zh) 2018-07-06

Family

ID=52406222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410661112.1A Active CN104331495B (zh) 2014-11-19 2014-11-19 一种数据压缩方法

Country Status (1)

Country Link
CN (1) CN104331495B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11143545B2 (en) * 2019-02-12 2021-10-12 Computational Systems, Inc. Thinning of scalar vibration data
CN111090662B (zh) * 2019-12-19 2024-01-30 浪潮通用软件有限公司 从实时数据库获取数据到关系数据库的方法及设备、介质
CN117650791B (zh) * 2024-01-30 2024-04-05 苏芯物联技术(南京)有限公司 一种融合焊接工艺机理的焊接历史气流数据压缩方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006279272A (ja) * 2005-03-28 2006-10-12 Toshiba Corp 動画像符号化装置およびその符号化制御方法
CN1866241A (zh) * 2006-06-21 2006-11-22 浙江中控软件技术有限公司 一种基于最小二乘线性拟合的实时数据压缩方法
KR20110070687A (ko) * 2009-12-18 2011-06-24 한국전자통신연구원 다차원 변환 및 양자화가 가능한 부호화 장치 및 방법, 그리고, 복호화 장치 및 방법
CN102437856A (zh) * 2011-11-04 2012-05-02 国电南京自动化股份有限公司 基于特征点提取的地铁综合监控系统三级数据压缩方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006279272A (ja) * 2005-03-28 2006-10-12 Toshiba Corp 動画像符号化装置およびその符号化制御方法
CN1866241A (zh) * 2006-06-21 2006-11-22 浙江中控软件技术有限公司 一种基于最小二乘线性拟合的实时数据压缩方法
KR20110070687A (ko) * 2009-12-18 2011-06-24 한국전자통신연구원 다차원 변환 및 양자화가 가능한 부호화 장치 및 방법, 그리고, 복호화 장치 및 방법
CN102437856A (zh) * 2011-11-04 2012-05-02 国电南京自动化股份有限公司 基于特征点提取的地铁综合监控系统三级数据压缩方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于PMAC 数控系统的速度约束轨迹插补研究;李小号等;《中国期刊全文数据库 煤矿机械》;20080731;第29卷(第7期);第45-46页 *

Also Published As

Publication number Publication date
CN104331495A (zh) 2015-02-04

Similar Documents

Publication Publication Date Title
CN104331495B (zh) 一种数据压缩方法
CN106503175B (zh) 相似文本的查询、问题扩展方法、装置及机器人
CN106484803B (zh) 一种数据分析方法及系统
CN102377790B (zh) 一种推送数据的方法和装置
CN102800048B (zh) 一种电子地图缩放的显示方法
CN103488709A (zh) 一种索引建立方法及系统、检索方法及系统
CN104077309A (zh) 一种对时序序列进行降维处理的方法和装置
CN105070035A (zh) 红外遥控码流的实时压缩方法和装置
CN106598977A (zh) 数据迁移方法和装置
CN105245202B (zh) 一种数字滑动平均低通滤波器及其滤波方法
CN107833051A (zh) 一种数据统计方法以及系统
CN103002061A (zh) 一种长域名与短域名互相转化的方法及装置
CN104408128B (zh) 一种基于b+树异步更新索引的读优化方法
CN103604968B (zh) 消除峰值检测误产生毛刺的系统
CN110688362A (zh) 基于时间戳的数据分段式存储方法
CN109446206A (zh) 用户饮食数据更新方法及更新系统
CN104573002A (zh) 基于人、事、物分类建档的数据组织模型
CN107273403A (zh) 一种历史数据收集及存储的方法
CN103984723A (zh) 一种针对增量数据对频繁项进行更新数据挖掘方法
CN105099460B (zh) 字典压缩方法、字典解压缩方法与字典建构方法
CN105117403B (zh) 日志数据分片与查询方法及装置
CN104731716A (zh) 一种数据存储方法
CN103873522B (zh) 一种电子设备及应用于电子设备的文件分块方法
CN106484782A (zh) 一种基于多核哈希学习的大规模医学图像检索方法
CN105373583A (zh) 基于数据压缩的支撑向量机建模方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant