CN100430943C

CN100430943C - 一种过程工业历史数据智能两级压缩方法

Info

Publication number: CN100430943C
Application number: CNB2006100007171A
Authority: CN
Inventors: 刘国平; 朱友志; 郑耿
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2006-01-09
Filing date: 2006-01-09
Publication date: 2008-11-05
Anticipated expiration: 2026-01-09
Also published as: CN101000605A

Abstract

本发明涉及数据压缩技术领域，特别是一种过程工业历史数据智能两级压缩方法。本两级压缩方法的步骤有：第一步，将历史数据经由本发明的基于偏差的自适应旋转门压缩算法进行一级压缩。先将待压缩历史数据进行分组，每组数据利用本发明中改进的旋转门趋势算法进行压缩。第二步，通过一定的数据转换处理，将一级压缩数据转换为字节流数据或字节数据块。再通过可选的二级字节流压缩算法，得到最终的历史数据压缩结果。可选的二级压缩算法有内存内的LZSS算法及相关改进算法、内存内的算术编码算法及相关改进算法以及内存内BWT算法及相关改进算法，选用何种算法的依据是系统的时间性能要求、空间性能要求以及实现难度等因素的平衡。

Description

一种过程工业历史数据智能两级压缩方法

技术领域

本发明涉及数据压缩技术领域，特别是一种过程工业历史数据智能两级压缩方法。

背景技术

历史数据是过程工业的重要信息资源。对于过程工业企业来说，历史数据保存极为重要。一般历史数据的保存、恢复以及管理和维护是依靠历史数据库来完成的。近期的历史数据为监控系统运行状态和趋势、先进控制算法的实施提供了可能。同时历史数据库可以在线存储每个过程工艺点的多年数据，为用户提供了解当前和回顾过去工业企业生产状况的平台，为企业规划和管理提供重要的基础。当工业生产过程发生故障后，历史数据库为系统的故障分析和生产恢复起巨大的作用。历史数据库管理经验说明，现在很难知道将来分析时需要那些数据，因此保存所有的数据是防止丢失所需信息的最好方法[1]。

保存历史数据存在一定的困难：由于过程工业往往工艺点数量巨大，需要保存的历史数据十分可观，若不经压缩直接存储，将需要很多的存储介质。因此，过程工业的历史数据的压缩方法显得十分重要。

Bristol[2]提出的旋转门趋势分析(Swinging Door Trending，SDT)算法和美国OSI公司[3]公开的旋转门压缩算法对于慢变的历史数据提供了较高的压缩和恢复性能，但两者都存在如下缺点，算法的参数是固定的，并且由于算法性能与算法参数选取有很大的关系，合适的参数选取只能依靠经验和试验。文献[4]和专利[5]中均提出了动态改变算法参数的思想，相较于前面的算法是一种改进。文献[4]提出根据强制存储限度(Forced Storage-Recording Limit(FSRL))和压缩区间长度(Compression Interval Length(CIL))的大小关系动态调整SDT算法的参数从而得到改进的SDT(ImprovedSwinging Door Trending(ISDT))算法。这种算法的问题是当FSRL取得较大时(实际系统中往往很大)算法不能工作。专利[5]中提出根据当前的最大和最小斜率动态调整算法参数，但调整算法较为复杂，压缩性能的提高有限，并且引入的新参数的选取依然依靠经验和试验。另外，所有上述算法都存在如下两个问题：(1)不能控制压缩算法的最重要性能指标之一即算法的恢复误差。(2)算法的初值选择对算法的性能影响很大甚至是决定性的，但方法本身又不能给出算法初值选择的一般准则。

对于经过类似旋转门算法压缩后的数据，北京三维天地公司[6]提出了二级压缩方法。即对上述压缩后的数据经基于字典的压缩算法LZSS再进行以及压缩，以更进一步提高压缩效率。LZSS算法综合性能较高，但其效率并不是最高的。

本发明人在参与中国科学院“百人计划创新”项目——基于以太网的现场网络化控制系统研究的过程中，实现了实时数据库系统“ICData”中的历史数据库功能部件，并对过程工业历史数据的智能两级压缩算法进行了深入的研究，对上述所有存在的问题都有了较好的解决。

参考文献及文档

[1]北京三维力控科技有限公司力控pSpace-企业级历史数据库介绍(详细内容)http://www.sunwayland.com.cn/product/detail.asp？id＝26

[2]Bristol，E.H.，“Swinging Door Trending：Adaptive Trend Recording？”，ISANational Conference Proceedings，1990，pp.749-753.

[3]Swinging Door Compression，OSISoftware，Inc April 1991(revised in August，1999)

[4]Feng Xiaodong；Cheng Changling；Liu Changling；Shao Huihe，“An improvedprocess data compression algorithm”，Intelligent Control and Automation，2002.Proceedings of the 4th World Congress on Volume 3，10-14 June 2002Page(s)：2190-2193 vol.3 Digital Object Identifier10.1109/WCICA.2002.1021475

[5]王宏安，金宏，王强，戴国忠，名称：自适应的历史数据库压缩方法专利号：02120383.0

[6]王建新SuperInfo原理与应用北京三维天地计算机技术开发有限公司2001年6月

[7]数据压缩相关电子资源：

http://www.contextfree.net/wangyg/

http://datacompression.info/

http://www.bzip.org/

http://mti.xidian.edu.cn/multimedia/multi/

http://compression.ca/

http://www dogma.net/markn/articles/bwt/bwt.htm

http://dev.gameres.com/Program/Other/LZSS.htm

发明内容

本发明提出了过程工业历史数据两级压缩方法，其一级压缩方法基于偏差反馈的旋转门自适应压缩方法，首次建立了旋转门压缩算法的反馈控制系统模型，并将反馈控制理论的方法引入了旋转门压缩算法中，使得本方法具有下面几方面的突出优点：算法参数调整策略物理意义明确，压缩算法的性能指标可控，解决了以往算法参数初值选取依靠经验和试验的难题，在保证被控性能指标的前提下，一定程度上兼顾了其他性能的优化需求。旋转门压缩方法属于有损压缩方法，并且对快变数据的压缩性能很低。通过本发明中提供的判别方法发现其压缩性能很低时，可将一级算法屏蔽。二级压缩采取了可选多种高效通用无损压缩方法，进一步提高了压缩方法性能。二级算法可以是高性能的内存内的基于字典的文本压缩方法-LZSS，及相关改进算法，也可以是内存内自适应多阶算术编码压缩方法及相关改进算法，抑或是内存内的BWT算法及相关改进算法。

本发明对历史数据处理流程可用附图1表示。

一种过程工业历史数据智能两级压缩方法，第一级采用可屏蔽基于偏差反馈的旋转门压缩方法，经过数据转换接口，进入可替换二级字节流或字节数据块压缩算法。

所述的过程工业历史数据智能两级压缩方法，两级压缩方法的内容为：

第一级压缩，将历史数据经由基于偏差的自适应旋转门压缩算法进行一级压缩，在一级压缩中，先将待压缩历史数据进行分组，每组数据利用改进的旋转门趋势算法进行压缩，然后计算出压缩实际性能与性能期望之间的偏差大小，根据偏差大小利用反馈控制律对算法参数进行调整并作为新的一组数据的压缩算法参数；

第二级压缩，通过一定的数据转换处理，将一级压缩数据或在一级压缩被屏蔽时的原始数据转换为字节流数据或字节数据块，再通过可选的二级字节流压缩算法，得到最终的历史数据压缩结果，可选的二级压缩算法有内存内的LZSS算法及相关改进算法、内存内的算术编码算法及相关改进算法以及内存内BWT算法及相关改进算法，选用何种算法的依据是系统的时间性能要求、空间性能要求以及实现难度等因素的平衡。

所述的过程工业历史数据智能两级压缩方法，可屏蔽基于偏差反馈的旋转门压缩方法与自适应LZSS算法及相关改进算法的结合，可屏蔽基于偏差反馈的旋转门压缩方法与算术编码压缩方法及相关改进算法的结合，可屏蔽基于偏差反馈的旋转门压缩方法与BWT算法及相关改进算法的结合。

所述的过程工业历史数据智能两级压缩方法，两级压缩算法的具体步骤为：

第一步，根据历史数据的变化规律或压缩效率决定是否需要屏蔽自适应旋转门算法这一级压缩：当已知数据是快变数据或一级压缩效率很低时，将一级算法予以屏蔽；

第二步，当一级算法没有被屏蔽时，将数据经由自适应旋转门算法进行一级压缩；

第三步，一级压缩完成后，将压缩后数据通过数据转换模块将其变为字节流或字节块数据；当一级算法被屏蔽时，直接将原始历史数据经由数据转换模块，转换为字节流或字节块数据；

第四步，根据系统的时间性能要求、空间性能要求以及实现复杂度决定采用何种二级历史数据压缩算法；

第五步，将第三步的字节流和字节块数据进行二级压缩，可选的二级压缩算法有内存内的LZSS算法及相关改进算法、内存内的算术编码算法及相关改进算法以及内存内BWT算法及相关改进算法；

第六步，经二级压缩后得到最终的压缩历史数据。

所述的过程工业历史数据智能两级压缩方法，旋转门压缩算法的控制系统模型建立方法：将欲控制的系统性能指标作为给定值，数据压缩过程为被控过程，系统实际的性能指标作为输出，给定算法参数调整规律为控制器。

所述的过程工业历史数据智能两级压缩方法，选取压缩方法恢复误差作为系统的被控量，进而通过控制技术控制恢复误差。

所述的过程工业历史数据智能两级压缩方法，旋转门算法的参数反馈控制调整策略，先对待压缩数据进行分组，然后采用如下策略：策略1当实际性能指标与给定值的偏差大于一定比例阈值时，将旋转门算法的两个参数除以一个大于1的常数；当偏差小于另一一定的比例阈值时，将参数乘以一个大于1的常数；策略2基于当前的偏差，采用PID策略对算法参数进行在线调整。

所述的过程工业历史数据智能两级压缩方法，旋转门压缩算法参数调整必须在一定范围内进行，即设定参数调整的上下限的方法。

所述的过程工业历史数据智能两级压缩方法，当压缩偏差超过一定的范围时，要对当前压缩的数据组利用新的算法参数进行重新压缩。

所述的过程工业历史数据智能两级压缩方法，旋转门压缩方法的初始值可取为一定范围的随机数。

所述的过程工业历史数据智能两级压缩方法，可屏蔽基于偏差反馈的旋转门压缩方法，当经过一定次数的参数调整后，如果算法的压缩比仍小于一定的压缩比阈值时，将本级算法屏蔽。

所述的过程工业历史数据智能两级压缩方法，基于偏差反馈的自适应旋转门压缩方法的步骤为：

第一步：取出待压缩历史数据中的一个新的分组；

第二步：用改进的旋转门趋势算法进行压缩；

第三步：计算经上步压缩后算法性能指标，并计算与给定性能指标的偏差；

第四步：判断实际性能指标与给定性能指标的偏差是否超过给定的阈值，如超过，则根据控制策略调整算法参数，并对该组数据重新进行压缩，即转第二步；如果在阈值范围之内，则转下一步；

第五步：进度测试，判断是否完成当前所有历史数据的压缩，如未完成，则转第一步；否则，转第六步；

第六步：结束。

所述的过程工业历史数据智能两级压缩方法，数据转换接口模块，原始数据或一级压缩数据通过本模块的转换，由原始数据的数据结构变为字节流，在类C语言中，主要是通过指针转换实现的。

所述的过程工业历史数据智能两级压缩方法，内存内的字节流压缩算法在二级压缩中应用。

所述的过程工业历史数据智能两级压缩方法，其具体步骤如下：

图1给出了本发明的过程工业历史数据智能两级压缩方法，其具体步骤如下：

两级压缩算法的具体步骤为：

第六步，经二级压缩后得到最终的压缩历史数据。

下面分别详细介绍图1中的各个模块：

1、屏蔽判断模块

本发明中提出的基于偏差反馈的旋转门方法仍属于基于斜率的压缩方法，对慢变数据压缩效果较好，但对变化无规律及快变数据压缩效果很差。为了在本级算法压缩效果较差的情况下将其屏蔽，同时要求算法屏蔽与否对用户透明，故本发明提出了算法屏蔽的方法。具体介绍如下：

第一种情况：当对待压缩数据变化规律有一定了解，且能确认是快变数据时，将不进行基于偏差反馈的旋转门压缩方法这一级，直接进入后继压缩级；

第二种情况：当经本方法压缩N_threshold组数据后发现数据的压缩比性能指标(压缩前数据量/压缩后数据量，具体定义见下)仍低于阈值η(η≥1)时，后来的数据将不再进行基于偏差反馈的旋转门算法这一级压缩，直接进入后继的压缩级。

2、基于偏差反馈的旋转门压缩方法

本方法的突出优点有：(1)第一次建立了旋转门压缩算法的反馈控制系统模型，使得本方法的物理意义明确。此模型可推广至任何含可调参数的压缩算法中。(2)压缩算法的恢复误差性能指标可逼近给定值，显然，此时压缩算法的性能指标是可控的。(3)从很大程度上解决了旋转门算法初始参数依靠经验和试验的难题，具有很大的工程意义。(4)动态调整旋转门压缩算法的参数，使得本方法在保证可控性能指标逼近给定值的基础上，尽可能的提高其他性能指标。另外，借助于上面介绍的屏蔽判断模块，本级方法处理过程在压缩效率不高时可予以屏蔽。

本方法的第一步是建立旋转门算法的反馈控制系统模型。反馈控制系统由给定值、控制器、被控过程输出以及反馈量组成。反馈控制策略通过一定的控制规律产生控制量，通过控制量控制被控过程，使得被控量(此时是输出)逼近给定值。针对旋转门压缩算法，本发明首次建立了其反馈控制系统模型。旋转门压缩算法与控制系统部件的对应关系如下：

给定值：给定的压缩性能指标，本方法推荐采用旋转门算法的恢复相对误差或类似的相对指标作为被控性能指标

控制器：本方法中给出的控制规律，

被控过程：旋转门算法数据压缩过程

输出：经旋转门压缩后的实际压缩性能指标

反馈量：本方法将输出直接反馈

偏差：反馈量与给定值之间的偏差

旋转门压缩过程反馈控制系统框图见图2。

为方便下面的说明，特作如下假设：设待压缩的N个数据为{d₁，d₂，…，d_N}，经本方法压缩后的数据个数为M(M≤N)，分别为{c₁，c₂，…，c_M}，经本方法解压恢复后的数据为N个，分别为{r₁，r₂，…，r_N}。性能指标定义如下：压缩倍数

CR = \frac{N}{M},

平方和误差

SE = Σ_{i = 1}^{N} {(r_{i} - d_{i})}^{2},

方差

MSE = \frac{1}{N} Σ_{i = 1}^{N} {(r_{i} - d_{i})}^{2},

绝对误差

AE = Σ_{i = 1}^{N} | (r_{i} - d_{i}) |,

相对误差

RE = \frac{Σ_{i = 1}^{N} | r_{i} - d_{i} |}{Σ_{i = 1}^{N} | d_{i} |} .

另外，同[3]中所设，旋转门算法的例外测试参数设为Excep，旋转门偏差参数设为Devi，压缩最小时间T_min，压缩最大时间T_max，这几个参数的意义见注1。根据系统的实际情况，本方法提出设置Excep的最大最小值Excep_max和Excep_min的方案，并且设置Devi_max＝2*Excep_max，Devi_min＝2*Excep_min。

借鉴Bristol[2]提出的旋转门趋势分析(Swinging Door Trending，SDT)算法和OSI公司[3]的旋转门算法(SD)，下面给出基于偏差反馈的自适应旋转门压缩方法的步骤(这里以推荐性能指标即恢复相对误差性能指标为例)。

第一步：设初值。根据系统要求给出系统的恢复误差性能指标给定值P_s。设定旋转门算法的参数T_min和T_max，取Excep为(0，1]之间的随机数，Devi＝2*Excep。设本方法中的旋转门算法参数调整幅度参数为F_adj·(F_adj≥1本方法建议F_adj＝2)，参数调整误差相对比率下界为α(α≥0)(本方法建议为α＝0.2)，参数调整误差相对比率上界为β(β≥0，本方法建议为β＝0.5)，参数意义见下面的步骤。设置计数器i并赋初值0，计数器用于判断是否所有历史数据都压缩完成。

第二步：将待压缩历史数据分组。设待压缩历史数据为N个{d₁，d₂，…，d_n，d_n+1，…，d_2n，…，d_(m-1)n，…，d_(m-1)n+k}，将其分为m组，除最后一组外每组元素个数为n，最后一组元素个数为k(k≤n).个。

第三步：得到一组数据，首先利用改进的旋转门趋势算法(注1)对数据进行压缩，并在压缩的过程中计算出恢复的各元素值。本组数据压缩完成后，计算本组数据的实际性能指标P。紧接着计算系统的实际性能指标和给定性能指标之间的偏差e＝P-P_s。当e≥α时，Excep＝Excep/F_adj，Devi＝Devi/F_adj；当e≤-α时，Excep＝Excep*F_adj，Devi＝Devi*F_adj。当Excep＞Excep_max时，设置Excep＝Excep_max，当Excep＜Excep_min时，设置Excep＝Excep_min，同时Devi＝2*Excep。完成上面的调整后，当e≤-β或e≥β时，用新的算法参数对本组数据进行重新压缩，即返回本步重新进行压缩，这就是误差性能越界时的处理。上述处理完成后设置i＝i+1。

第四步：如果i≥m，转第五步；否则，返回第三步继续处理。

第五步：结束

上述过程可用图3的流程来表示。

注1：改进的旋转门趋势分析算法结合了旋转门趋势分析算法[2]和旋转门算法[3]的优点，效率进一步提高。具体步骤如下：

第一步：时间间隔测试。取一个新点p_new进行压缩，当该点与上个存储点p_stored的时间间隔小于T_min时，该点一定不保存，继续取一个新点；如果该点与上个存储点的时间间隔大于T_max时，系统将当前点的前一个点保存，并作为下一轮数据压缩测试的起点和新的上一个存储点；否则，转下一步。

第二步：例外测试。当新点与上一点值的偏差绝对值E＜Excep时，新点一定不保存，返回第一步；否则，转第三步。

第三步：最大内角计算。首先将p_stored之值加上Devi得到点p_stored ⁺，然后将p_stored之值减去Devi得到点p_stored ^-，计算如下两个内角(两个内角均为[0，π)之间的某个角度)，∠p_newp_stored ⁺p_stored和∠p_newp_stored ^-p_stored，并与p_stored点之后p_new点之前的所有点相应的两个内角相比，并分别取最大值，记为∠Up_max和∠Dn_max。第四步：压缩测试。计算∠Up_max和∠Dn_max之和，若大于π，则存储当前点的前一点，并将其作为下一轮数据压缩测试的起点和新的上一个存储点，转第五步。否则，直接转第五步。

第五步：进度测试。判断当前一轮数据压缩是否完成，如完成，则结束。否则，转第一步。

上述改进的旋转门压缩方法的处理流程可用图4表示。

3、数据转换模块

经过基于偏差反馈的旋转门方法进行一级压缩后，一级压缩数据仍是具有与未压缩数据相同的结构。而下一级的数据压缩方法是基于字节流或字节数据块的压缩，每次只能处理一个字节。因此引入本级数据转换模块，将一级压缩数据通过本模块转换为字节流。在用类C等提供指针操作的语言实现本发明时，可以通过指针转换实现本模块功能。

4、二级压缩算法选择模块

本发明为二级压缩提供了三种选择方案：内存内的算术编码压缩算法及其改进算法压缩方法、内存内的LZSS压缩算法及其改进算法的压缩方法以及内存内的BWT算法及其改进算法的压缩方法。首先，本发明提出了二级压缩采用压缩效率接近信息论中压缩极限的算术编码压缩备选方法。本方法采用自适应阶数算术编码压缩，同时为了提高算法的时间效率，设置内存缓冲区存储待压缩数据，然后对待压缩数据直接在内存进行压缩。第二，本发明为提高历史数据压缩LZSS方法的时间效率，放弃了[6]中提出的物理文件LZSS压缩方法，同上面思路将待压缩数据直接留在内存中进行压缩，而不是[6]中先写入临时文件，再通过读文件完成LZSS压缩。近年来发展起来的BWT算法压缩效率很高，本发明中将其作为一种备选方案。具体选择何种算法是根据系统对压缩方法的时间性能要求、空间性能要求和实现复杂性要求等方面综合考虑得到的。

5、二级压缩算法

本级算法采用可替换的内存内字节流或字节数据块压缩算法。具体说来可采用通用无损数据压缩方法进行压缩。目前提供三种可选方案，三种方案的原理如下所述。

(1)内存内的算术编码方法

本方法采用自适应模型的算术编码方式，压缩比接近信息论极限。基于统计的无损数据压缩算法的基本原理是将出现概率较多的“事件”(这里，“事件”可以是一个字符，也可以是一组字符)用尽可能少的数据元(位或字节)来表示。只要某些“事件”出现的概率比其他事件的概率更高，那么这一事件序列标识的信息就可以压缩。采用自适应模型可以统计出某个符号在某一局部的出现的概率或某个符号相对于某一上下文的出现概率。较之与静态模型，自适应模型更能适应待压缩符号概率信息无法预先得到的情况，并且节省了存储空间和概率统计时间，效率得到较大程度的提高。

(2)内存内的LZSS算法压缩方法

本方法中的采用的内存内的LZSS算法是基于字典的动态压缩技术，它对LZ77的改进有：如果匹配串的长度比指针长度长就输出指针，否则就输出真实字符。由于输出的压缩数据流中包含有指针和字符本身，为了区分它们就需要额外的标志位，即ID位。

(3)采用内存内BWT算法压缩的方法

BWT算法一次读入一整块数据，然后利用一定的排序算法进行可逆重排。重排后的元素与原始数据块相同，但次序不同。BWT对整块数据进行一次性处理，不同于大多数的通用无损压缩算法只能按字节压缩。通过一定的方法对重排数据进行处理，BWT算法得到了很好的压缩效果。

在本发明的压缩方法中，将反馈控制理论的思想引入了旋转门压缩算法中，使得本方法有以下突出的特有优点：1、压缩算法参数调整策略的物理意义明确；2、压缩算法的恢复误差性能指标可控，即实际恢复误差逼近给定值；3、解决了旋转门算法参数初值选取依靠经验和试验的难题，只需用一个一定范围的随机数给参数赋值，即可得到较为满意的压缩性能；4、在保证压缩算法恢复误差的性能指标的前提下，使得压缩比性能指标较优。另外，本发明基于偏差反馈的自适应旋转门算法是可屏蔽的。

附图说明

图1、本发明的过程工业历史数据智能两级压缩方法流程图。

图2、旋转门压缩算法反馈控制系统模型图。

图3、基于偏差反馈的自适应旋转门压缩方法处理流程图。

图4、本发明中改进的旋转门趋势分析压缩方法流程图。

图5、第一组测试压缩性能指标图。

图6、第一组测试中的原始数据与恢复数据比较图。

图7、第二组测试压缩性能指标图。

图8、第二组测试中的原始数据与恢复数据比较图。

图9、第三组测试压缩性能指标图。

图10、第三组测试中的原始数据与恢复数据比较图。

具体实施方式

下面结合上面的发明内容以及附图，通过实例对本发明给出一个具体的实施方案。

本发明在实际系统中的实施流程是按照图1来进行的。这里我们要控制的性能指标依然是恢复相对误差，其给定值设为P_s。

对于数量巨大的历史数据，第一步就是对其分组，设每组数据的大小为n(同上说明中所述，最后一组数据长度可以小于等于n)。根据系统要求及基于对待压缩数据变化基本规律的预期来设置FSRL(FSRL＝T_max)，T_min，Excep_max，Excep_min。设置α＝0.2，β＝0.5，F_adj＝2。取Excep为(0，1]之间的随机数，Devi＝2*Excep。

图3的基于偏差反馈的自适应旋转门压缩方法的步骤为：

第一步：取出待压缩历史数据中的一个新的分组；

第二步：用改进的旋转门趋势算法进行压缩；

第六步：结束。

取来一组数据，根据说明书及图4中的改进的旋转门趋势算法对该组数据进行压缩。具体步骤如下：

第一步，对每个新取来的点p_new，判断其与上一存储点p_stored的时间间隔大小，如果小于T_min，则该点的前一点一定不被保存，直接取入下一点；如果大于T_max，则保存上一点，并将其作为下一轮测试的起点和新的上一存储点p_stored；如果介于两者之间，则继续下面的处理。

第二步，进行例外测试，将上一步通过测试的点与前一点相比，如果偏差的绝对值小于Excep，则本点的前一点一定不被保存，继续新点的处理；否则，继续下面的步骤。第三步，将上一存储点加上Devi得到p_stored ⁺，将上一存储点减去Devi得到p_stored ^-，计算两个∠p_newp_stored ⁺p_stored和∠p_newp_stored ^-p_stored，并与p_stored点之后的所有点相应的两个内角相比，并分别取最大值，记为∠Up_max和∠Dn_max。

第四步，计算∠Up_max和∠Dn_max之和，若大于π，则存储当前点的前一点，并将其作为下一轮数据压缩测试的起点和新的上一个存储点p_stored，转下一步。否则，直接转下一步。

第五步，判断本组数据是否压缩完成。如果未完成，取入新点继续安上面的步骤进行处理，即转第一步；如完成，则计算出本组数据压缩的实际性能指标CR，RE(为系统的被控变量P)，AE，SE，MSE，接着计算出被控性能指标的偏差e＝P-P_s，并转第六步。

第六步，结束。

上面的过程就是每组数据的内部处理过程。每组数据经过内部处理完成后，根据其被控性能指标的偏差e，利用控制理论的反馈控制方法，可以设计出各种控制算法，这里给出一种简单有效的反馈控制律：当e≥α时，Excep＝Excep/F_adj，Devi＝Devi/F_adj；当e≤-α时，Excep＝Excep*F_adj，Devi＝Devi*F_adj，当Excep＞Excep_max时，设置Excep＝Excep_max，当Excep＜Excep_min时，设置Excep＝Excep_min，同时Devi＝2*Excep，完成上面的调整后，当e≤-β或e≥β时，用新的算法参数对本组数据进行重新压缩，这就是误差性能越界时的处理。如果要对下一组数据进行处理时，也要以新的Excep和Devi作为算法参数进行新一轮的压缩处理。如果压缩比性能指标在经过N_threshold组数据压缩后仍小于阈值η时，将本级压缩算法屏蔽。当所有数据组都处理完成后，本级压缩算法已经完成。

接下来的工作是数据转换工作。由于经过一级压缩的数据(或者一级压缩被屏蔽时的原始数据)一般情况下具有其特殊的数据结构，而二级通用字节流或字节块压缩方法压缩的对象是字节流或字节块压缩算法不能直接对一级压缩的结果进行压缩，因此引入本模块。具体的实现方法是利用数据类型转换，将原始数据结构变为字节数组。在类C语言中可利用指针类型转换实现。

经过数据类型转换之后，进入二级压缩算法。由于通用字节流或字节数据块有大量压缩算法存在，并且压缩效果方面各有千秋，故本级压缩算法提供了多种选择，根据系统的具体要求可以选择不同的二级压缩算法。本发明中提出了三种较好的选择实现方案。下面以内存内的LZSS算法为例说明二级压缩的具体实施方案。

LZSS算法相对于LZ77减小了数据冗余度，并且压缩解压速度极快，对于速度优先的场合，可以选取本方法中的内存内LZSS算法。

设置环形缓冲区的长度为N＝4096字节，前向缓冲设置为F＝18字节长，最小匹配长度ML_min＝2。对经一次压缩的一组数据转换而来的字节流数组，压缩过程如下所述：

第一步：将编码位置置于输入数据流的开始位置。

第二步：在前向缓冲区中查找余窗口中最长位置的匹配串，并找出(Position，Length)组，其中Position为匹配位置，Length为匹配长度。

第三步：判断匹配串长度Length是否大于等于最小匹配长度ML_min，如果大于，则输出(Position，Length)组，并把编码位置向前移动Length个字符；否则，输出前向缓冲区中的第一个字符，然后把编码位置向前移动一个字节。

第四步：如果前向缓冲区不是空的，返回第一步；否则，本次压缩完成。

需要注意的是[7]：

1、作字符串比较是十分耗时的，为了提高效率，可以利用二叉树结构来提高字符串比较的效率。

2、为了窗口滑动的方便，将滑动窗口做成了一个环状缓冲。

3、由于输出的压缩数据流中包含(Position，Length)组和真实字符本身，为了区分他们需要额外的标志位，及ID位。程序的输出格式时这样的：用一位表示一个单元的类型，该位为1表示字符未经处理直接输出(一个字节)、为0表示经过了处理，输出上面所说的<匹配位置，匹配长度>二元组(两个字节)，把这样的8位合在一起(一个字节)表示后面输出的八组元素的类型，其后就是经过处理或未经处理的八组数据，每组一或二个字节，当八组数据满时，将输出缓冲区中的数据输出到文件。二元组的两个字节是这样安排的：第一个字节表示匹配位置的低八位，第二个字节的高四位表示匹配位置的高四位，第二个字节的第四位表示匹配长度(程序中定义N为4096，因此位置值占用12位，F值定义为18，除去匹配长度为1和2的两种情况，共16种情况占4位)。

对每组数据都要进行上述压缩处理，所有数据分组经两级压缩方法压缩完成后，得到最终的历史数据压缩。

对比实验

为了阐明本发明的优势，下面给出几个简单的对比例子。

(一)本发明中的基于偏差反馈的自适应旋转门压缩方法与现有的各种旋转门压缩方法方法的比较

下面的对比实验均取时间区间为(1-10000)秒，时间间隔为1秒，即t(i)＝i。

1、将本发明中的基于偏差反馈的旋转门方法与OSI公司公布的旋转门算法[3]进行比较

为了方便比较，选取在相同的参数情况下两者的性能指标进行对比实验。待压缩函数设为y(i)＝mod(i，100)*sin(0.1*i)，其中mod(a，b)表示a除以b的余数。[3]中旋转门压缩参数Excep取为4，Devi取为8，最长压缩时间T_max＝100秒。本发明中基于偏差反馈的旋转门压缩方法旋转门压缩参数Excep初值取为4，Devi初值取为8，最长压缩时间T_max＝100秒，参数调节幅度F_adj＝2，α＝0.2。两种方法压缩性能指标为：

文献[3]中方法的压缩性能指标为：

CR＝3.9262，RE＝0.1158，AE＝36463，SE＝228120，MSE＝22.8120

本发明中的基于偏差反馈的旋转门方法的性能指标为：

CR＝9.0334，RE＝0.1018，AE＝32046，SE＝188920，MSE＝18.8920

2、将本发明中的基于偏差反馈的旋转门压缩方法与文献[4]中的方法进行比较

为方便比较，我们比较相同相对误差(定义见说明书)情况下两种压缩方法的压缩比，误差等性能指标。

待压缩函数类似文献[4]中函数y(i)＝10*sin(500*π*i/9999)。文献[4]中方法旋转门压缩参数Devi(即文献中的E)初值取为1.0，最长压缩时间T_max＝100秒，参数调节幅度F_adj＝0.8，Devi调整的范围是[(0.5*F_adj)²，(0.5/F_adj)²](文献[4]中参数如不对其范围进行限制，将不能进行正常的压缩，而本发明中的方法则可无此限制)。本发明中基于偏差反馈的旋转门压缩方法旋转门压缩参数Excep初值取为0.1，Devi初值取为0.2，最长压缩时间T_max＝100秒，参数调节幅度F_adj＝2，α＝0.2，相对误差的给定值取为P_RE＝0.181。两者的压缩结果如下：

文献[4]中方法的压缩性能指标为：

CR＝9.9800，RE＝0.1791，AE＝11398，SE＝17895，MSE＝1.7895

本发明中的基于偏差反馈的旋转门方法的性能指标为：

CR＝10.5263，RE＝0.1741，AE＝11082，SE＝18613，MSE＝1.8613

3、本发明中基于偏差反馈的旋转门压缩方法与专利[5]中所使用的方法的比较

待压缩函数设为y(i)＝10*sin(0.1*i)。实验中我们将两者的相对误差均设为0.1。

将专利[5]中参数设置为：旋转门压缩参数Devi初值取为1.0，当前压缩偏差参数的上界及其相应的变化参数取为0.3和3(这两个参数的意义参见专利[5])，最长压缩时间T_max＝100秒。

本方法的参数设置如下：旋转门压缩参数Excep初值取为0.5，Devi初值取为1.0，最长压缩时间T_max＝100秒，参数调节幅度F_adj＝2，α＝0.2。

在上述设置下，

专利[5]中方法的压缩性能指标为：

CR＝7.8493，RE＝0.1028，AE＝6542.8，SE＝6830.8，MSE＝0.68308

本发明中的基于偏差反馈的旋转门方法的性能指标为：

CR＝11.0497，RE＝0.1025，AE＝6525.7，SE＝6520.9，MSE＝0.65209

(二)本发明中方法的特有优点举例

本发明中的基于偏差反馈的旋转门压缩方法优点还包括：算法参数调整方法的物理意义明确；被控性能指标能逼近给定值，使得性能指标可控。

本发明中的基于偏差反馈的旋转门压缩方法还具有一个突出的优点：算法性能对算法初始参数的设置鲁棒性高，即算法初始参数的选取在一定范围之内，系统的性能指标都能达到满意的程度。本特性的工程意义较大，我们可以通过选取一定范围内的随机数为算法参数赋初值，从而较好的解决了以往算法参数依靠经验和试验的难题。

下面给出几个例子说明本方法的上述良好特性。

下面的对比实验均取时间区间为(0-9999)秒，时间间隔为1秒，即t(i)＝i，三个待压缩函数分别为y(i)＝mod(i，100)*sin(0.1*i)，y(i)＝i²/10+3*i和y(i)＝10*sin((i-1)*500*π/9999)。本例在初始参数选取随机值时，对三个待压缩函数的压缩过程进行了1000次测试。分别称为第一组测试，第二组测试和第三组测试。

采用本发明中的基于偏差反馈的旋转门压缩算法对上述三组数据进行压缩，参数选取为Excep初值取为rand()，Devi初值取为2*Excep，最长压缩时间T_max＝100秒，参数调节幅度F_adj＝2，α＝0.2，恢复误差性能指标的给定值为P_s＝0.1。其中rand()表示取(0，1)之间的随机数。设最大压缩比的为CR_max，最小压缩比为CR_min，平均压缩比CR_mean；最大相对误差为RE_max，最小相对误差为RE_min，平均相对误差RE_mean；最大绝对误差为AE_max，最小绝对误差为AE_min平均绝对误差AE_mean；最大平方和误差SE_max，最小平方和误差SE_min，平均平方和误差SE_mean。

上述三个待压缩函数经本方法压缩后的性能指标变化如分别如图5(y(i)＝mod(i，100)*sin(0.1*i))、图7(y(i)＝i²/10+3*i)和图9(y(i)＝10*sin((i-1)*500*π/9999))所示，恢复效果分别如图6(y(i)＝mod(i，100)*sin(0.1*i))、图8(y(i)＝i²/10+3*i)和图10(y(i)＝10*sin((i-1)*500*π/9999))所示。且有：

y(i)＝mod(i，100)*sin(0.1*i)函数压缩结果

CR_max＝9.1912，CR_min＝6.4144，RE_max＝0.1092，RE_min＝0.0917，

AE_max＝34384，AE_min＝28875，SE_max＝243500，SE_min＝165520，

CR_mean＝8.5252，RE_mean＝0.1014，AE_mean＝31936，SE_mean＝201710

y(i)＝i²/10+3*i函数压缩结果

CR_max＝25.3165，CR_min＝11.3895，RE_max＝0.000045，RE_min＝0.000041，

AE_max＝1520300，AE_min＝1367100，SE_max＝2.9672e08，SE_min＝2.6695e08，

CR_mean＝21.6520，RE_mean＝0.000045，AE_mean＝1497200，SE_mean＝2.9229e08

y(i)＝5000*sin(i-1)*π/9999函数压缩结果

CR_max＝8.1103，CR_min＝5.0942，RE_max＝0.1097，RE_min＝0.0855，

AE_max＝6980.7，AE_min＝5442.6，SE_max＝8401.4，SE_min＝4680.4，

CR_mean＝7.0796，RE_mean＝0.1009，AE_mean＝6424.6，SE_mean＝6958.4

(三)本发明中方法与现有二级压缩方法性能比较

本发明中提出了将通用无损压缩算法压缩作为二级压缩，以进一步提高压缩效率。为了提高二级压缩的时间效率，将所有的二级压缩的待压缩数据均放在内存中，以减少访问慢速磁盘的次数，故提高了时间效率。下面给出三个两级压缩算法的例子，并与[6]中方法做了对比。

下面的对比实验均取时间区间为(0-9999)秒，时间间隔为1秒，即t(i)＝i，待压缩函数为y(i)＝mod(i，200)*sin(0.1*i)。

[6]中一级压缩算法旋转门算法完全同[3]所述，方法的参数设置：Excep取为0.3，Devi取为0.6，最长压缩时间T_max＝100秒。

一级压缩的性能指标如下：

CR＝1.924928，RE＝0.003492，AE＝2210.642578，SE＝1228.866455，MSE＝0.1229

二级压缩：

CR＝1.070748

综合：

CR＝2.061112，RE＝0.003492，AE＝2210.642578，SE＝1228.866455，MSE＝0.1229

本发明中基于偏差反馈的旋转门压缩方法参数Excep初值取为0.3，Devi初值取为0.6，最长压缩时间T_max＝100秒，参数调节幅度F_adj＝2，α＝0.2，恢复误差性能指标的给定值为P_s＝0.1。

一级压缩的性能指标如下：

CR＝6.301197，RE＝0.085421，AE＝54083.468750，SE＝535369.187500，MSE＝53.5369

(i)当二级压缩算法采用LZSS算法时，本发明的压缩效果如下：

二级压缩：

CR＝1.058088

综合：

CR＝6.667222，RE＝0.085421，AE＝54083.468750，SE＝535369.187500，MSE＝53.5369

(ii)当二级压缩算法采用自适应算术编码压缩方法时，本发明的压缩效果如下：

二级压缩：

CR＝1.161223

综合：

CR＝7.317095，RE＝0.085421，AE＝54083.468750，SE＝535369.187500，MSE＝53.5369(iii)当二级压缩算法采用BWT压缩算法时，本发明的压缩效果如下：

二级压缩：

CR＝1.25

综合：

CR＝9.146369，RE＝0.085421，AE＝54083.468750，SE＝535369.187500，MSE＝53.5369。

Claims

1、一种过程工业历史数据智能两级压缩方法，第一级采用可屏蔽基于偏差反馈的旋转门压缩算法，经过数据转换模块，进入二级字节流或字节数据块无损压缩算法，两级压缩方法的内容为：

第一级压缩，将历史数据经由可屏蔽基于偏差反馈的旋转门压缩算法进行一级压缩，在一级压缩中，先将待压缩历史数据进行分组，每组数据利用改进的旋转门趋势算法进行压缩，然后计算出压缩实际性能与性能期望之间的偏差大小，根据偏差大小利用反馈控制调整策略对算法参数进行调整并作为新的一组数据的压缩算法参数；

设旋转门算法的例外测试参数为Excep，偏差参数为Devi，压缩最小时间为T_min，压缩最大时间为T_max，所述改进的旋转门趋势算法的具体步骤如下：

第一步：时间间隔测试，取一个新点p_new进行压缩，当该点与上个存储点p_stored的时间间隔小于T_min时，该点一定不保存，继续取一个新点；如果该点与上个存储点的时间间隔大于T_max时，系统将当前点的前一个点保存，并作为下一轮数据压缩测试的起点和新的上一个存储点；否则，转下一步；

第二步：例外测试，当新点与上一点值的偏差绝对值E＜Excep时，新点一定不保存，返回第一步；否则，转第三步；

第三步：最大内角计算，首先将p_stored之值加上Devi得到点p_stored ⁺，然后将p_stored之值减去Devi得到点p_stored ^-，计算如下两个内角，∠p_newp_stored ⁺p_stored和∠p_newp_stored ^-p_stored，两个内角均为[0，π)之间的某个角度，并与p_stored点之后p_new点之前的所有点相应的两个内角相比，并分别取最大值，记为∠Up_max和∠Dn_max；

第四步：压缩测试，计算∠Up_max和∠Dn_max之和，若大于π，则存储当前点的前一点，并将其作为下一轮数据压缩测试的起点和新的上一个存储点，转第五步；否则，直接转第五步；

第五步：进度测试，判断当前一轮数据压缩是否完成，如完成，则结束，否则，转第一步；

第二级压缩，通过数据转换处理，将一级压缩数据或在一级压缩被屏蔽时的原始数据转换为字节流数据或字节数据块，再通过二级字节流无损压缩算法，得到最终的历史数据压缩结果，所述的二级字节流压缩算法有内存内的LZSS算法及相关改进算法、内存内的算术编码算法及相关改进算法以及内存内BWT算法及相关改进算法，选用何种算法的依据是系统的时间性能要求、空间性能要求以及实现难度因素的平衡。

2、根据权利要求1所述的过程工业历史数据智能两级压缩方法，其特征在于，两级压缩方法的具体步骤为：

第一步，根据历史数据的变化规律或压缩效率决定是否需要屏蔽可屏蔽基于偏差反馈的旋转门压缩算法这一级压缩：当已知数据是快变数据或一级压缩效率很低时，将一级算法予以屏蔽；

第二步，当一级算法没有被屏蔽时，将数据经由可屏蔽基于偏差反馈的旋转门压缩算法进行一级压缩；

第五步，将第三步的字节流或字节块数据进行二级压缩，所述二级压缩方法为内存内的LZSS算法及相关改进算法、或内存内的算术编码算法及相关改进算法或内存内BWT算法及相关改进算法之一；

第六步，经二级压缩后得到最终的压缩历史数据。

3、根据权利要求1所述的过程工业历史数据智能两级压缩方法，其特征在于，可屏蔽基于偏差反馈的旋转门压缩算法的控制系统模型建立方法是：将欲控制的系统性能指标作为给定值，数据压缩过程为被控过程，系统实际的性能指标作为输出，给定算法参数调整规律为控制器。

4、根据权利要求1所述的过程工业历史数据智能两级压缩方法，其特征在于，所述可屏蔽基于偏差反馈的旋转门压缩算法的参数反馈控制调整策略步骤是，先对待压缩数据进行分组，然后采用策略1：当实际性能指标与给定值的偏差大于一定比例阈值时，将旋转门算法的例外测试参数、旋转门偏差参数分别除以一个大于1的常数；当偏差小于另一一定的比例阈值时，将参数乘以一个大于1的常数；或采用策略2：基于当前的偏差，采用PID比例积分微分策略对例外测试参数和旋转门偏差参数进行在线调整。

5、根据权利要求1所述的过程工业历史数据智能两级压缩方法，其特征在于，所述实际性能与性能期望之间的偏差作为控制系统模型的被控量，进而通过反馈控制调整策略控制所述的偏差。

6、根据权利要求1所述的过程工业历史数据智能两级压缩方法，其特征在于，可屏蔽基于偏差反馈的旋转门压缩算法的参数调整必须在一定范围内进行，即设定参数调整的上下限。

7、根据权利要求1所述的过程工业历史数据智能两级压缩方法，其特征在于，所述第一级压缩，当压缩偏差超过一定的范围时，要对当前压缩的数据组利用新的算法参数值进行重新压缩。

8、根据权利要求1所述的过程工业历史数据智能两级压缩方法，其特征在于，可屏蔽基于偏差反馈的旋转门压缩算法的例外测试参数初始值取为(0，1]之间的随机数。

9、根据权利要求1所述的过程工业历史数据智能两级压缩方法，其特征在于，可屏蔽基于偏差反馈的旋转门压缩算法，当经过一定次数的参数调整后，如果算法的压缩比仍小于一定的压缩比阈值时，将本级算法屏蔽。

10、根据权利要求1所述的过程工业历史数据智能两级压缩方法，其特征在于，可屏蔽基于偏差反馈的旋转门压缩算法的步骤为：

第一步：取出待压缩历史数据中的一个新的分组；

第二步：用改进的旋转门趋势算法进行压缩；

第四步：判断实际性能指标与给定性能指标的偏差是否超过给定的阈值，如超过，则根据反馈控制调整策略调整算法参数，并对该组数据重新进行压缩，即转第二步；如果在阈值范围之内，则转下一步；

第六步：结束。

11、根据权利要求1所述的过程工业历史数据智能两级压缩方法，其特征在于，所述原始数据或一级压缩数据通过数据转换模块的转换，由原始数据的数据结构变为字节流，在类C语言中通过指针转换实现。