CN1437738A

CN1437738A - 数据发送和存储的有效且无损耗转换

Info

Publication number: CN1437738A
Application number: CN00819272.3A
Authority: CN
Inventors: C·埃弗里
Original assignee: Efeckta Technologies Corp
Current assignee: Efeckta Technologies Corp
Priority date: 2000-01-03
Filing date: 2000-12-29
Publication date: 2003-08-20
Also published as: WO2001050325A3; US6633244B2; JP2003519945A; EP1248991A2; US20010038347A1; CA2396369A1; IL150556A0; WO2001050325A2; AU2610701A; TW502178B

Abstract

一种无损耗数据压缩的系统和方法。找到一种等于数据的内容值并取较少位的数学变换。

Description

数据发送和存储的有效且无损耗转换

本申请在35U.S.C.§119(e)条约下要求申请日为2000年1月3日，申请序列号为NO.60/174,305的美国专利申请优先权，该申请全部引入作为参考。

背景

发明领域

本发明涉及数据变换，尤其是涉及无损耗数据压缩。

发明背景

现存的压缩技术集中于查找和删除所输入的二进制数据的冗余。早期压缩方法集中于数据的格式化。这些格式方法利用行程长度编码(RLE)和各种频率变换方法。这些模式编码方法对ASCII特征码来说可以执行的很好，但对其他数据格式来说，从来不能达到压缩潜力。

压缩技术的发展是从信息理论，特别是克劳德香农关于信息熵的研究演变而来。此研究的大部分工作实际上是统计。Shannon-Fano和Huffman编码以符号在源数据中出现频率的降序建立符号概率树，使得“优秀”的可变大小的编码产生。这常称为熵编码。由于出现频率较多的二进制模式被分配以更短的编码，使得一条消息所需的总体平均位减少，所以压缩得以完成。

仅仅在模式的出现概率为2的负幂时，Shannon-Fano和Huffman编码是最优的。这些方法造成大量随着数据变化来优化概率树的自适应方案。

通过为这个数据指派一个(一般长度通常很长的)码，算术编码克服了2的负幂概率问题。这个方法一个符号接着一个符号的读取数据，并在每次认出更多的模式后向输出编码中追加位。

对更有效文本编码的需求导致字典编码的发展和演变，代表的有J.Ziv和A.Lempel发展的LZ系列算法。这些方法生成许多的变化。在这些方法中，字符串(字典)当他们被遇到时建立，然后编码作为标记。输出是指数和源数据的混合。

当用熵编码时，字典方法可以是静态的或自适应的。LZ系列使用不同的技术来优化字典和它的指数。这些技术包括：搜寻缓存器、预备缓存器、纪录缓存器、滑动窗口、散列表、指针和循环排列。这些技术用来减少很少使用的字典词条的膨胀。这些方法的普及归功于他们的简单、速度、合理压缩速率和低内存需求。

不同类型的信息趋向创造特殊二进制模式。冗余或熵压缩方法是直接依靠符号数据，且本文固有的模式可以被实现、变换和简化。结果就是，为不同类型的信号，不同方法必须被优化。压缩与模拟基础数据的方法一样有效。然而，结构的变换和简化是有限的。

基于冗余的方法论在应用和/或执行上是有限的。通常，在解决可有效去除的有限冗余的时候，熵编码不是折衷速度就是折衷压缩。具有代表性的是这些方法有非常低的压缩增益。基本优势是熵编码可以实现来保持无损耗。

有损压缩常应用于扩散数据例如代表话音数据、音频、图像和视频。有损压缩隐含不能被精确重构的数据。某些应用可以提供损失数据，这些损失数据是在压缩和重组过程中，由于人类在解释信息时听觉和视觉系统的局限性产生的。感性的编码技术被用来利用这些人类眼睛和耳朵的局限性。熵编码遵循感性编码模式，它使用以前讨论的技术之一，产生有效的压缩。然而，由于各自需求的不同，所以每类数据需要一个独特的模型(熵编码器)。此外，有时可注意到，从根本上说，这种压缩技术的损耗特性意味着损耗一些保真度的结果，并使得他们不适合许多目的。

从而，需要既无损耗又可有高压缩增益的压缩方法。

发明概要

本发明压缩二进制数据。将数据拆分成段。每个段有一个数字值。为每个段选择一种变换以及该变换的状态信息。变换与其状态信息的数字值等于段的数字值。将变换、状态信息和包开销打包在一个变换数据包中。该变换数据包的位长与段数据包的位长相当，段数据包包括原始段和任何需要的包开销。选择并存储或发送具有较小位长的包。如果需要的话，在接收数据或从存储器检索数据包后，从变换和状态信息重新计算每个段的数字值。将段复合以重构原始二进制数据。

附图概述

图1是压缩过程纵览流程图

图2是恢复过程纵览流程图

图3是压缩系统方框图和数据通过压缩系统的一般流程图解。

图4是预处理器流程图

图5是变换引擎流程图

图6是变换过程流程图

图7示出寻找一组有利状态数据，无需测试每组可能状态信息。

图8示出在段内的部分解。

较佳实施例的详细描述

图1是压缩过程100纵览流程图。初始输入102是二进制数据。任何一段二进制数据以二进制形式被简单表示成一个数字。从而，任何一段二进制数据有一个数字值。这个数字值是数据的“内容值”。

如果需要的话，输入二进制数据102被拆分104成段。输入二进制数据可以足够短以使它不能再拆分。每个段有一个内容值。每个段的内容值被识别，且为每个段选择和测试106变换以及适当状态信息。一般变换能够表示许多值。状态信息提供为变换指定精确值所必需的信息。术语“状态信息”包括任何变量、系数、余数或为变换设置特殊数字值所必需的任何其他信息。在某些实施例中，“包开销”是加入变换和状态信息中。包开销包括除变换和状态信息需要之外的任何信息，以允许后来重新计算原始段和重建原始输入二进制数据。

具有其状态信息的变换与相应段有同样的数字值。下列方程式表示了变换概念：

M＝T(状态信息)，

M是段的内容值，T是变换。变换是算术变换、逻辑变换或其他数学变换。

带自身状态信息和包开销的变换有表示效率增益(“REG”)。REG是测量变换、状态信息和任何包开销的效率的尺寸。REG定义为Log₂M/Log₂T的比率，Log₂M是表示M所需要的二进制位的数目，Log₂T是可解码地表示变换、状态信息和包开销所需的二进制位的数目。从而，假如REG值大于段1，变换加上状态信息和包开销比段占据更少的位。

例如，一个9位大小的消息能表示变换

，其中a、b和c每个是一个3位消息。在这个案例中，是变换，a、b和c是每个变换的变量。a、b和c的值构成状态信息。为了形成表达式，其数字值等于段的内容值，变换和状态信息都是必须的。

用上述

例子，9位可以表示一个超过700,000十进制数长，相当于230万二进制位的整数。作为一个例子，这变换仅仅使用9位可以表示150,094,635,296,999,121内容值，或。假如在二进制形式中传统的表示，这个数字将占据58位。因此，通过使用这种变换，9位信息传送58位内容值。58位数据段被大大的压缩。

每个变换和伴随的状态信息接着被打包108成数据包。数据包包括附加包开销，此包开销提供为允许后来解封和恢复包内容值的任何其他必要信息。包开销可以包括识别段、识别变换或任何其他必须信息的信息。数据包(代表性的携带)典型地比原始段更少的位来表示。因此段被压缩。

每个数据包被存储或发送110。因为数据包典型地比段较小，存储数据包比段占据较小的空间，且发送数据包比发送段花费更少的时间。

图2是恢复过程纵览流程图，其中原始数据被从数据包中恢复。假如数据包已经被发送，则接收数据包，或者假如已被存储，则从存储器中检索数据包为202。接下来，数据包编码被解码204，判定变换识别和如何使用状态信息恢复原始段。使用解码信息，原始段的内容值被重新计算出来206。最后，所有已验算段又被按照他们原始顺序放在一起，以重建208原始输入二进制数据。因此，恢复过程200的输出201是标识压缩过程的输入102。

系统纵览

图3是压缩系统300方框图和数据通过压缩系统300的一般流程图解。压缩系统300执行图1和图2的过程。贯穿压缩系统300的流程是由被压缩的二进制字符串302的输入开始。

作为处理控制器，控制程序306服务于所有系统300功能。一个控制程序306监控压缩系统300其他组成部分和跟踪所有涉及输入二进制字符串整个处理过程的信息。根据时间、试验或其他参数，控制程序306也与终接任何过程相互作用。

预处理器304获取输入二进制字符串302，并拆分二进制字符串302成段。每个段的长度适合于所给的数据类型、适合使用的变换、处理器容量和应用参数。在某些情况下，为了将段更有利的变化给变换引擎308，预处理器304也变异段。

变换引擎308接收来自预处理器304的段，并计算变换和状态信息的排列，每个排列等同于段的内容值。每个排列的长度被分析，包括相关的包开销，且变换、状态信息和包开销最有效的结合被选择。假如排列显示没有数据压缩，则段被作为未处理数据不修改地送往打包器310。

打包器310接收变换引擎308的输出。对于每个段，打包器接收来自控制程序306的所有有关段如何被变换的信息，包括状态信息。来自变换、状态信息和其他相关信息，打包器310产生一个数据包。从而，数据包包括变换、状态信息和包开销信息，这些合起来允许后来的数据包解码。

在这一点，输入二进制字符串302被分段、变换和打包到数据包中。合起来数据包比原始输入二进制字符串302较小。通过已建立的存储器和发送协议312，这些数据不是被存储，就是被发送。因为数据包比原始输入二进制字符串小，所以他们具有占据更少的存储空间，且发送速度比原始二进制数据更快的优点。

假如数据包被发送，则解包器314接收数据包，或假如数据包被存储，则从存储器中检索数据包。解包器314解释包开销指令，通过使用解码器316来拆开数据包组成和相关信息，并拆开任何未修改数据作为未处理数据段。

解码器316接收来自解包器314的解封装信息，并重新计算原始段的内容值。解码器316应用状态信息到合适的变换来重新计算段的内容值。假如数据被变异，对所给的段来说过程颠倒，来恢复段的原始形式。

重组器318接收来自解码器316的段，并按次序级联端来重新组成原始二进制字符串。基于应用参数，可以作为应用需要的整个文件或通量。重组器然后输出二进制字符串320。重组器输出的二进制字符串320是等同于输入二进制字符串。从而，压缩系统300提供了无损耗压缩。

控制程序

控制程序306跟踪数据，这些数据涉及每个数据段和段变换，以及关于预处理器304与变换引擎308的信息和所有其它压缩系统300功能。这信息可以包括，但不局限于：

1、每段的标识，包括提供原始输入二进制字符串中段位置的信息。

2、每段的尺寸

3、每段的数据类型

4、变换引擎308的计算能力

5、解码器316的计算能力

6、应用程序要求，如实时流式发送应用程序的时间约束

7、数据类型要求

8、段是否已被变异，对段作变异用的技术

9、预处理器304花在段上的时间

10、预处理器304花在段上的计算周期

11、变换引擎308花在段上的时间

12、变换引擎308花在段上的计算周期

13、用于段的变换标识或变换

14、用于选择状态信息变量的任何最优组合搜索

15、涉及任何启发式的跟踪信息

16、成功的变换

17、成功变换的状态信息

18、变换位长的基准值和成功变换的相关状态信息

19、成功变换的相关数据包开销的位长

20、部分解变换

21、部分解的状态信息(包括偏移)

22、变换参考的位长和部分解的相关状态信息

23、部分解用的变换的包开销的位长

24、使用的有限状态机器

25、有限状态机器信息，如参考数据和有限状态机器树数据

26、de Bruijn序列开始点和指数对数

27、三维图像树轨迹信息

28、N-空间曲线数据

29、使用的“BOTS”

30、BOTS信息，如BOTS的内容值位置和从BOTS到段内容值的增值

过程监控器(未显示)是控制程序306的主要子部分。过程监控器监控预处理器304和变换引擎308。过程监控器有制约监控预处理器304和变换引擎308的参数。这些制约参数可以包括目标REG、过程所花的时间、用于处理过程所花的计算周期值或其他参数。目标REG是一个十分高的REG值，以至于当携带目标REG的变换、状态信息和包开销组合被找到时，压缩系统300停止搜索更高的REG变换。过程所花时间和过程所花计算周期的制约参数确保压缩系统300不会花费不确定数量的时间和资源去搜索变换和状态信息的最好组合。参数是预置或由控制程序306改变的。假如数据类型改变，假如计算资源改变，假如应用改变，则参数被改变。或被人类或被其他外界干预。

假如预处理器304或变换引擎308超过制约参数，过程监控器发信号给控制程序306以终止预处理器304或变换引擎308运行。当预处理器304运行被终止，二进制字符串被拆分成段。段的长度是由预处理器304决定的迄今最适宜长度的最近似值。当变换引擎308运行被终止，变换引擎308将输出当前最好变换和状态信息，或假如没有变换压缩数据，发送段作为未处理数据。

预处理器

图4是预处理器304的流程图。首先，预处理器304分析二进制字符串302的数据类型400。在分析数据类型中，预处理器304试图识别或表征二进制字符串302的数据类型。数据类型用于帮助确定段尺寸、变换和变幻的状态信息，这些将用于测试和变换二进制字符串。预处理器304通过了解产生二进制字符串302的应用或分析数据本身，来表征二进制字符串302。分析数据以确定数据类型的一种方法是比较二进制字符串302和现存数据类型数据库。为产生这样的数据库的方法是通过由已知数据应用产生的采样信息构成。

假如预处理器304表征二进制字符串302，控制程序306存储与此字符串相关的数据类型。假如预处理器304不能表征二进制字符串302，控制程序306保持此二进制字符串的302数据类型未知的纪录。

预处理器304接下来确定402，输入二进制字符串的302的尺寸是否大于最小优化处理块的尺寸。不同数据类型的最小优化处理尺寸不同。控制程序306存储每个与相应数据类型相关的已知最小优化处理尺寸。假如预处理器304已经表征数据类型，且此数据类型的最小优化处理尺寸已知，则预处理器304简单比较输入二进制字符串的302和存储的最小优化处理尺寸即可。

假如数据类型未知，或数据类型最佳尺寸未知，则二进制字符串的302拆分404成段，此段的尺寸在先前许多个据类型工作良好。替换地，二进制字符串的302被初始的拆分404成不同位长的段。当这些不同位长的段被压缩系统300处理时，控制程序306保持此段尺寸是最容易处理的纪录。通过尝试不同的尺寸和工作最佳尺寸的轨迹，控制程序306建立每个数据类型最优处理尺寸的纪录，以至数据类型的最优处理尺寸变得已知。假如控制程序306发展一个数据类型最优处理尺寸的纪录，则段尺寸可以被结合给将来使用。

假如输入二进制字符串的302大于最小优化处理块尺寸，则二进制字符串的302被拆分404成段。段的位长是由几个因素确定。

变换引擎308的计算能力影响段的位长。假如变换引擎308拥有小的可用计算能力，段必须比假如变换引擎308拥有大量计算能力更短。同样，假如解码器316的计算能力已知，它将影响段的位长。解码器316拥有越大的计算能力，段就可以有越大的位长。

使用压缩系统300的应用程序也影响段的位长。例如，诸如视频会议，要求人类可察觉的实时编码、要求位长比脱机归档的段位长更短的段。在脱机归档时，更大的段可以在更长的时间帧和更多的处理周期中被变换和编码。

数据类型也影响段的位长。例如，音频数据比ASCII数据可以更适宜于不同的段尺寸。涉及数据类型的另一个因素是对数据类型使用什么变换。对特殊数据类型使用的变换带特别的段长度，可以执行得更好。控制程序306监视变换引擎308，并存储带特别数据类型工作良好的变换、段尺寸在这些变换是良好的，以及段尺寸可以被结合将来使用。从而，当预处理器304成功表征数据类型时，控制程序306能够检索信息作为段的最优位长。

假如输入二进制字符串302等于或小于最小优化处理块尺寸，则二进制字符串302作为单个段看待。每个段，无论它是拆分二进制字符串302的一部分，还是整个二进制字符串，在压缩系统300的整个余下部分都被同样对待。

段尺寸是输出406到控制程序306。控制程序306存储段尺寸，并使用它来比较变换可能组合的尺寸、状态信息和包开销。

控制程序306给每个段指定特殊指示信息，以使原始二进制数据在后来可以被重组，并根据指示信息、相关数据类型、处理监视设置和任何其他的相关数据来跟踪每个段。

接下来，每个段被变异408。假如控制程序306已经存储信息，此信息指示先前数据类型和段尺寸的变异段导致成功变换，或数据类型和段尺寸的未变异段没有导致成功变换，则段被变异408。假如控制程序306没有信息存储来指示变异段将导致成功变换，则段不被变异。然而，假如没有找到对未变异段的成功变换，接着段可以从变换引擎308回到412来被变异。

预处理器304通过创建不同型式的段对段作变异408，给变换引擎308提供相同段的更多排列。通过提供相同段的更多排列，增加找到有效变换的可能性。变换引擎308失败于产生有效变换412的一些段也回到预处理器304和变异408。

通过监视和存储信息，此信息是对数据类型和段尺寸回到预处理器304来被变异408，控制程序306获得数据类型和段尺寸应该被初始变异的信息。此外，通过监视变异段穿过压缩系统300，控制程序306获得变异导致成功变换的信息。这个信息可以被重新结合到控制程序。

有几种方法来变异段。假如控制程序306存储有变异技术已导致成功变换的纪录，则变异技术被使用。假如控制程序306没有存储这样的纪录，则变异技术通过穿过已存储可能变异库步骤来选择。

在第一变异技术中，调节段的位长。这包括不同的拆分一组段。通过这样做，预处理器306发送不同的内容值给变换引擎308来处理。另一个技术是“切缓和重排”数据。使用前面定义的重排库。重排指数包括作为包开销的一部分。而另一个技术是寻找段的补充和发送补充给变换引擎308。在另一个技术中，段的位被移位或转动。当被移位或转动时，移位或转动的位的方向和数字被作为包开销的一部分发送。通过算术(换算)或逻辑(异运算)操作来修改段。在可替换技术中，其他传统压缩被用于改变段的内容值。

控制程序306跟踪变异段，和变异段如何被变异。此信息提供给打包器310以使打包器310可以增加相关适用的包开销码。这些码指示数据作为变异数据，且数据如何被变异。

接下来被变异的或没有变异的段输出410到变换引擎308。

变换引擎

图5是变换引擎308的流程图。通过预处理器304输出的段输入410到变换引擎308。段被送到作为可用和数据资源允许的许多变换处理502。通过变换处理502串联或并联来处理段。

每个变换处理502提供另一个变换(或变换组)适用表示段内容值。变换引擎308有多个变换处理502适用它，因为单个变换不能适合每个输入段的内容值。这可从学习前面讨论的9位尺寸变换例子中看出，其中每个a、b和c是3位的信息。使用这个变换，超过700,000十进制数据长的整数内容值可以被仅仅使用9位发送。假如传统表示，这样的数字占据超过230万位。当这个变换提供9位的能力来发送230万位数字，9位仍仅仅有能力发送少于512种不同信息，相应512种不同内容值。从而，0和

之间存在变换不能表示的有效数字值。

一般，算术变换包括余数R，以至先前检验的

变换变成

+R。选择好a、b和c的值后，变换设为等于内容值和解余数。这允许变换表示任何内容值。然而，在很多情况余数R是一个很大的数字，要求许多位来表示。这导致段很小或没有压缩。通过提供多种不同变换处理502，变换引擎308大大增加了找到没有余数或余数足够小以至达到压缩REG的变换的机会。

此外，找到了允许混合解的拥有多种变换处理502。在混合解中，使用一个以上的变换。例如，一个变换有能力表示从零到一个非常大的整数这一大范围的内容值。然而，这变换不使用余数拥有低的间隔尺度。为了使变换能表示大多个的内容值，则要求许多位表示的大余数是必需的。使用第二变换来表示余数，替代使用大余数。第二变换有能力表示值的范围比第一变换较小，但有更好的间隔尺度和典型较小的余数。在一个实施例中，来自一个变换处理过程502的余数被输入另一个变换处理过程502。变换处理过程502对待输入的余数与它对待其他任何段一样。因此，由多种带小余数的变换组成的混合解，替代有大余数的变换。

变换处理过程502每个测试段的变换解。一个变换解是结合特殊状态信息的变换。变换处理过程502继续测试状态信息的、变换和包开销，直到达到目标REG或达到时间、数字或试验或其他约束限度。处理过程监控器监控变换处理过程502，以确定是否达到目标REG、处理所费时间、计算周期数字或其他约束限度。达到约束限度，处理监控器停止变换处理过程502。

控制程序306选择504，变换、状态信息和包开销的最佳组合。这些均被变换处理过程502测试过。为选择最佳组合，控制程序306测量每个变换、状态信息和相关包开销的位长。要求最小位长来表示变换、状态信息和相关包开销的排列是最佳排列。

控制程序306也继续跟踪以测试的排列。在这时，变换、状态信息和开销的组合，对于单个段来说不是最佳组合，但假如应用于仅在一个包中发送一般信息，并隐含在剩余中的多种段，则是最佳组合。控制程序306监视这样的组合，假如它们发生，则这个组合是最佳排列。

比较变换、状态信息和开销最佳组合的位长506和原始段406及相关用于标志原始段的包开销的位长。假如变换、状态信息和相关开销最佳组合的位长比原始段406及相关用于标志原始段的包代码的位长短，则变换和状态信息被输出510。否则，原始段被输出508。

变换过程

图6是变化过程502的流程图，显示变化过程502如何测试段变换和状态信息的组合。由预处理器304输出的段被输入410到变换过程502。

变化过程502选择602变换(或变换组)来测试。变化过程502有能力应用许多不同变换。变化过程502使用的变换被存储在变换数据库里。基于数据段的尺寸、数据类型、预处理的执行和控制程序306为段跟踪的其他因素，从变换数据库中选择一个或更多变换。假如控制程序306有存储一个纪录，说明在同样或相关因素下，变换已导致对段的成功压缩，则选择该变换。假如控制程序306没有这样的纪录，则基于数据类型或其他启发式，通过变换数据库逐步选择变换。然后控制程序306存储证实成功的变换，以发展一个在同样或相关因素下，变换已导致对段成功压缩的纪录。这些信息被重新组合到控制程序中。

假如变换过程502选择602多种变换，变换处理器可以使用混合解，部分解或其他变换组合。混合结局方法使用变换的附加频率来表示段的内容值。部分解使用相同或不同变换来表示一个段的不同部分。

在混合解中，组合多个变换来表示内容值。所有可能内容值的有效覆盖范围，使用单个变换难于达到。例如，如上所讨论的变换可以导致大余数和小压缩。替代的是，组合变换来在变换内容值的组合上创造一个有效附加频率，该变换伴是状态信息值范围通过不同组变换来填充左边间隙。例如，内容值M₁，用如下解决：M₁＝(变换1)_γs1+(变换2)_γs2+(变换3)_γs3+…+(变换n)_γsn(在此γs是该变换的变量组)。同样，对第二内容值M₂，M₂＝(变换1)_γs4+(变换2)_γs5+(变换3)_γs6+…+(变换n)_γsn和第三内容值，M3＝(变换1)_γs7+(变换2)_γs8+(变换3)_γs9+…+(变换n)_γsn。

使用多种变换的另一种方法是部分解。在部分解中，替代全变换，变换过程502为段的部分选择变换。为选择部分变换，找到形式三元组(开始、结尾和压缩长度)的选择H，其表示变换提供压缩的已知位串。已知位串是拥有变换等于为已知组合状态信息的内容值的位串。变换过程502找到这些三元组的组合是最小总长度加段未覆盖部分的长度。

特别是，段是长度为n的位串M。控制程序306提供变换过程502一个目标REGB，和正确解的有限选择H。每个正确解是一个三元组h＝(i(h)，j(h)，c(h))，在此1≤i(h)＜j(h)≤n是已知位串的开始和结尾。而c(h)是它描述的长度。变换过程502选择一个已给正确方法的子集SH，以使它的累计长度(对无叠加部分解)遵守：

x = \underset{h}{Σ} [c (h) + l (i (h)) - (j (h) - i (h)]

此处l(I(h))是表达i(h)所需的位数目。部分解可以发生在段的任何地方。变换和相关状态信息的高效率组合在段中被上上下下地测试以搜寻部分段的最佳配对。对段来说可以找到变换和相关状态信息的多种配对。每个变换和相关状态信息的组合表示段的部分。变换的位长、每个所选变换的状态信息和段的原始数据部分一起的和加上包开销，为原始段提供压缩。

选择变换或变换组后，变换的状态信息被选择604。在某个实施例中，数字技术用于辅助选择适当状态信息。这些数字技术包括牛顿方法、二等分、正割方法和其他用于寻找等式根的数字技术。提供例子 +R算术变换表示状态信息的选择。在这变换中，变量a、b、c和R构成状态信息。变换过程502选择a、b和c的值。变换过程502使用几个数字技术中的一个来选择值。然后，解出余数R，以使R和变换的剩余部分之和等于内容值M。因此，伴随算术变换，变换过程502可以为除了R外的所有变量选择任何值，R的结果可使有它的状态信息的变换值恒等于段的内容值。

选好状态信息后，有所选状态信息的变换被测试608。在测试中，根据将用于最终包中的所有状态信息和相关包开销，控制程序306确定表示变换所必需的位长。假如位长比REG目标位长短，或者假如位长比其他已经测试过的变换、状态信息和包开销组合的位长短，则变换、状态信息和包开销作为可能最佳变换排列被存储和标记。

接下来，过程监控器确定约束限度是否到达610。约束包括试凑的次数、用于试凑的时间、计算周期的数字、目标REG或其他约束。假如达到约束限度，如目标RE6达到或达到处理的时间限度，过程监控器停止614变换过程502。在这一点，在该变换过程502中已经测试过的变换、状态信息和包开销的最佳组合被输出，所以从所有变换处理过程502中选出最佳变换排列504。

假如约束变换没有达到，变换过程502确定612段是否应该被异化。对于变换的多种这组状态信息被测试后，假如控制程序306确定已测试的变换、状态信息和包开销排列608的位长太大，则段将返回412到预处理器304。在预处理器304中，段被异化，然后发送回变换引擎308。否则，变换过程502将选择604另一组状态信息来测试。

因此，变换过程502包括一个循环，用于测试有不同状态信息的变换的排列。假如控制程序306确定变换不是导致所需的位长数据包，循环暂停且段被变异。当达到约束限度，循环暂停且找到变换、状态信息和包开销的最佳组合，输出此点。

变换

接下来描述用于变换过程502的几种不同变换。当接下来变换的列表是冗长的，则其是没有方法完成。变换过程502有能力使用许多变换，包括标准数学，在文献中有描述，如Herbert Dwight’s、积分和其他数学数据列表、MiltonAbtamowitz’s和IreneStegun’s、数学函数手册、Alan Jeffery’s、数学公式和积分手册以及N.J.A.Sloane’s和Simon Plouffe’s、积分频率百科全书。

许多变换自然分为算术变换等级。这些算术变换包括但不局限于：

指数因素：指数因素带的通常形式T(x)＝xⁿ+R。对于内容值M，变换过程502确定变换变量x、n和R的值。变换变量构成变换的状态信息。例如，假如一个64位数据段M＝3E1386BE784F351₁₆遵循变换，然后设置M等于扩展M＝xⁿ+R。变换过程502选择变换变量x和n和R结果的值。例如，选择n＝15₁₆和x＝11₁₆，结果R＝0。因为M＝T(x)，段可以由变换和状态信息x、n和R的标识表示。

变换过程502同样选择除了余数R以外的变量值，然后在其他算术变换系列列表下计算出余数R。

幂级数：幂级数形式T(x)＝(a+x)ⁿ+R，带变换变量x、a、n和R。扩展到第四级循环x＝0，序列变为

T(x)＝aⁿ+na^n-1x+(n-1)a^n-2x²+n(n-1)(n-2)a^n-3x3+n(n-1)(n-2)(n-3)a^n-4x⁴+R

多项式：另-个变换级数是多项式。带变换变量a、b、c、d、x、y和R的抽样多项式是：

T(x)＝ax⁵y³+bx⁴y²+cx³y+R

几何级数：几何级数是另外一个变换序列。例如，

T (x) = Σ_{n = 1}^{m} {ax}^{n} + R,

带变换变量x、m、a和R。整数级数：整数级数提供额外变换。一个整数级数例子：

T (x) = Σ_{i = 0}^{n} {(a_{i} + x)}^{x} + R

，带变换变量x、n、a_i和R。

三角函数：三角变换序列也有能力产生外加结果。带变换变量x和R的三角变换例子是：

T (x) = \frac{Sin (x)}{x^{2}} + R,

贝塞尔函数：贝塞尔函数序列也是可接收的变换。例如，

T (x) = Σ_{i = 0}^{n} \frac{x^{n}}{{(n!)}^{2}} + R

，带变换变量x和R。渐进级数：渐进级数也有能力产生可测量可表示的有效增益。例如：

T (x) = 1 + \frac{1}{x} + \frac{1}{2} {(\frac{1}{x})}^{2} + \frac{1}{6} {(\frac{1}{x})}^{3} + R

，带变换变量x和R。

其他变换过程502可以使用的变换包括：无限发生、连分数、丢番图方程、Mobins函数、代数曲线、积分变换、逆循环(三角)函数、球三角函数、对数函数、双曲函数、正交多项式、多对数、勒让德函数、椭圆形积分、序列变换(Z-变换)和马尔可夫链。

另一个基础级变换是逻辑。逻辑变换与算数变换相似。使用逻辑或布尔构建(即AND(与)，OR(或)，NOT(非))替代算术操作，在表示使用比段更少位的解中，描述内容值。逻辑变换案例包括但不局限于，使用析取范式(“DNF”)或使用有限状态机器(有时称为有限状态自动机或“FSA”)。DNF：每个有限布尔代数B与{0，1}^M同构，对某些正整数M使

位算符。对n布尔变量的公式或表达式驱动函数是函数f：Bⁿ→B，其中表达式完全且唯一的确定f的动作。DNF逻辑变换使用布尔操作(AND·，OR+和NOT～)和一组对打包器310和解码器316的已知前置指定布尔基字符串。可替代的是，使用的基字符串，它对解码器来说不是初始知道的，但是一旦包中被送往解码器，并使用许多后续数据包。

每个公式驱动函数是完全由它对布尔变量的动作确定。例如，假如n＝3布尔变量，输入2ⁿ或8(即2³)，对3变量有2⁸或256这样的公式。DNF是标准或规范方法，通过确定标准函数项的系数来表示这些256公式。系数为0或1来指示项的存在和缺席。n＝3的标准DNF表达式为：

f(x₁，x₂，x₃)＝c₁(x₁·x₂·x₃)+c₂(x₁·x₂·～x₃)+c₃(x₁·～x₂·x₃)+c₄(x₁·～x₂·～x₃)+

c₅(～x₁·x₂·x₃)+c₆(～x₁·x₂·～x₃)+c₇(～x₁·～x₂·x₃)+c₈(～x₁·～x₂·～x₃)

因此，对任意的8位二进制字符串11110100，标准DNF表达式是：

f(x₁，x₂，x₃)＝1(x₁·x₂·x₃)+1(x₁·x₂·～x₃)+1(x₁·～x₂·x₃)+1(x₁·～x₂·～x₃)+

0(～x₁·x₂·x₃)+1(～x₁·x₂·～x₃)+0(～x₁·～x₂·x₃)+0(～x₁·～x₂·～x₃)

此处8系数的序列(对DNF每个项的一个)刚好是需表示的二进制字符串的位值。从此以后，由于序列刚好是需表示的二进制字符串的位值，256特殊8位串中的每个可以由256不同标准DNF函数中的一个来唯一表示。

尽管对已给位串仅有一个DNF函数，但有许多不同方法来表示这函数已知标准基字符串的项。使用先前例子，标准DNF函数是：

f(x₁，x₂，x₃)＝1(x₁·x₂·x₃)+1(x₁·x₂·～x₃)+1(x₁·～x₂·x₃)+1(x₁·～x₂·～x₃)

+1(～x₁·x₂·～x₃)

也可以表示成：

f(x₁，x₂，x₃)＝(x₁·x₂)+(x₁·～x₂·x₃)+(x₁·～x₂·～x₃)+(～x₁·x₂·～x₃)

也可以表示成：

f(x₁，x₂，x₃)＝(x₁·x₂)+(x₁·～x₂)+(～x₁·x₂·～x₃)

以下是一组抽样基字符串的例子

BS0＝AAAAAAAAAAAAAAAA₁₆

BS1＝CCCCCCCCCCCCCCCC₁₆

BS2＝F0F0F0F0F0F0F0F0₁₆

BS3＝FF00FF00FF00FF00₁₆

BS4＝FFFF0000FFFF0000₁₆，和

BS5＝FFFFFFFF00000000₁₆

例如，内容值M＝7766554433221100₁₆的段，服从使用DNF和抽样基字符串变换。以下是对此等效于M变换的次最优解：

M＝(((～BS5·BS3·～BS1)+(BS5·～BS3·BS1)+(BS5·BS3·～BS1)+

(BS5·BS3·BS1))·((～BS5·～BS0)+(BS5·BS0)))+(((～BS5·BS4)

+(BS5·BS4))·((～BS1·BS0)))

在以上解中，等效于M表达式仅仅依靠三个基字符串，而不是所有六个基字符串。

有限状态机器/自动机：FSA是带有与段相关的许多固定状态的状态机器。每个状态可执行每个动作。动作通常更基于数据输入。输入可导致某些数据输出and/or过渡到新的状态。

段的内容值是输入到FSA和作为FSA遍历内容值建立的树。树发送到打包器310。解码器316简单跟踪树以恢复内容值。变换过程502和解码器316都不得不通过发送接入FSA或在任一终端接入FSA数据库。

另外三个变换例子，变换过程502可以使用de Bruijn序列、三维图形树和在N-空间间隔中的相交曲线。

de Bruijn序列是一个二进制序列，其中可找到每个可能字符串。起始点被发送，然后为重建信息，从序列中抽出log₂M。由于这是个非常长的序列，且解码所需开销的log₂可达到原始段的log₂，所以变换常导致小或没有效率增益。

在开始点和通过三维图形树跟踪的路径中，使用三维图形树类似于deBruijn序列，产生每个可能位组合。如伴随de Bruijn序列，可达到段尺寸的解，导致小或没有效率增益。

第三，通过表示段的内容值作为在N-空间间隔中的几何物体(此处N小于数据段的长度)，表示在此空间曲线的公式是适合于此物体。由于曲线可能又通过曲线重心指定内容值，故曲线不一定遍历。假如需要，曲线增量可用于N-空间目标中更有效的目标内容值点。

状态信息选择技术

有多种技术来选择604变量值或变换的其他状态信息。虽然不是总是，但是算术变换选取变量比逻辑或其他变换选取变量值更为通常地使用不同的技术。通常选择用于选择算术变换变量的技术，包括下面的技术。

第一选择方法是简单尝试一个随机产生的变量值，保持尝试不同变量值，直到找到导致伴随所需压缩的变换和状态信息的变量值。这花费相当多的时间。

替代的方法，所有从已给算术变换的每个可能组变量值(除余数)得出的内容值可进行预计算，并存储在数据库中。然后，内容值与数据库比较，检索出适当的变量值。预计算这些内容值排列大大增加了变换过程502的速度，但花费了存储器的项目。通过仅存储每隔第10、第100、第1000等等变量值组，存储器要求可以降低，且仍然提供变换过程502应该测试的近似变量值。

通过连接变量值排列支路到必然邻域，可以用于降低尝试不同变量值的时间。此处先前尝试显示了通过预处理器304确定应用数据类型特征后，成功变换方法的最高似然。图7说明没有测试每一个可能变量值而找到一组变量值。这样的方法是有需求的，因为测试每个可能的变量值组合花费大量禁止的时间或计算周期。

从特殊数据类型的先前处理，控制程序306存储倾向于导致成功数据段压缩的变量值。这些成功变量值为变量值的序列选择规定一个“允许的邻域”。允许的邻域是一个变量值范围。当选择变量值时，变换过程502挑选允许邻域中的起始点。变换过程502随机挑选起始点，或基于先前成功值。在图7显示的例子中，挑选了变换、状态信息和包信息排列的n典型位长的7个起始点，A、B、C、D、F、G和H。在其他实施例中选择更少或更多起始点。在图7的例子中，最多起始点是实际扩展变量组，它导致内容值的典型位长大于原始段406典型的位长。

变换过程502使用最优算法来迭代的测试作为状态信息的不同变量值组。对每个起始点，变换过程502选择变量值一个点对在允许邻域中起始点的左边，一个点对在允许邻域中起始点的右边(即实际一个更高一个更低)。控制程序306比较表示每个变换、状态信息和包开销所需的位长和用较小或更长位长表示变量值的跟踪。变换过程502选择带最小位长典型的一组变量值作为新起始点。因此，变换过程502所选变量值达到本地最优。变换过程502重复此过程直到它达到点仅从最近选择变为更少典型效率。这些点是本地最优，由点A′、B′、C′、D′、F′、G′和H′表示。如上述所讨论的，变换过程502或变换引擎308然后从这组群中选择最佳点。

尽管E′在允许邻域中是全局最优，但是因为起始点E(或任何点选择E′)从没检测，所以从没找到它。在这种情况，为避免在允许邻域中穷举测试每个和每组变量值，牺牲全局最优。此外，尽管E′是比C′更好的变量组，但过程监控器一旦找到匹配目标REG的变换、状态信息和包开销组合，可设置终端处理过程。另外，从图7出现的它从C到C′花费的处理周期比H到H′花费的更少。

当使用部分解时应用特殊策略。如以上所讨论的，对部分解，变换过程502选择已给正确解的子集SH，以使它累计长度遵守(对未重叠部分解)：

x = \underset{h}{Σ} [c (h) + l (i (h)) - j (h) - i (h)]

此处l(I(h))是表达i(h)所需的位数。变换过程502使用叫动态程序的技术，特别是一个量值动态程序来解决这个。在这个技术中，首先由增加了长度的字符子串解决了一个必须由字符串解决的问题，每一个字符串中的问题也由参照其字符子串的方法而相应解决。如伴随许多最优问题，这成为一个智能“转移和限度”策略问题。这个策略达到一个解，没有穷局搜索全局最优，可能是次最优。

图8说明段内的部分解。部分解发生在段内的任何地方。测试上下段的变换和状态信息的最高效率组合，使用动态程序技术搜寻最佳匹配。匹配发生的地方，产生偏移指针来测量它涉及字符串的开始或结尾或度其他部分解的位置。产生部分解匹配804、806和808。在匹配804和806中来看，匹配中的一些彼此重叠，略略降低整机效率增益。最后，有一区域没有匹配810，且位作为原始数据简单发送。

偏移用于指示段内带内容值存在的变换排列的好匹配。当确定压缩是否达到时，偏移的典型(和相关余数)成为与段406位长尺寸比较的测量总和的部分。

组合化最佳启发式的应用也可以辅助减少寻找状态信息所需时间，这导致成功压缩率。这些启发式包括(但不局限于)：

1、爬山法；

2、“渴望”爬山法；

3、T禁忌搜索；

4、模拟退火；

5、人工神经网络应用；

6、波尔兹曼机的应用；

7、调优算法的应用；和

8、遗传算法/遗传程序的应用

任何这些启发式应用可能导致一个不是全局最优的位长解，全局最优是从变换的每个和每组可能变量值的位长的测量中得出的。然而，解可接受的是可利用的变换引擎308的计算能力、处理监视器设置的时间或试约束和任何反射特殊应用需求的所需目标效率增益。

应用的启发式不仅影响待测试、计算和测量的不同这组状态信息的数目，而且影响在由启发式所瞄准的状态信息排列邻域中的搜寻策略的效率。不同数据类型特征让自己不同启发式应用以瞄准段的内容值。通过预处理器304对数据类型的分析获得的信息和通过控制程序306跟踪的信息，变换过程502确定是否和如何应用组合的最佳启发式。

为变换寻找解的另一个方法是使用智能代理(“BOTS”)。通过参考先前段变换的结果，BOTS处理利用段组群的相似特征。分析变换引擎308的输出来为BOTS建立优势初始位置。BOTS是智能的，独立于主体。BOTS是有效的在内容值空间扫描的点。如接收到后续段，它们也表示在内容值空间的点。通过给这些点附加一个假吸引力潜能，BOTS移动更接近“重力中心”。变换引擎308测量从BOT到每个前面成功测试的算术变换的增量。在过程监控器设置的点(例如，段数量或处理时间)，送往打包器310的信息是BOT状态信息(位置和各种增量)，而不是变换和它们的变量值。

因为内容值群有时重新出现，BOT位置是抽样到数据库中以备以后重新调取。例如，视频线的开始常常可以拥有的内容值不同于在每线中间和结尾的内容值。每个后续线重复那些内容值群。因此，第一线之后变换引擎308拥有的BOT位置最适合视频线的各种段。在每个后续视频线中，BOTS继续优化它们位置和它们的结果增量。当视频景物改变，BOTS跟着改变视频信息。

与用算术变换一样，存在有效地搜寻逻辑变换内容值的有效表示的技术。组合的最优用于为内容值典型有效搜寻所有可能逻辑排列。

对于DNF变换，选择状态信息包括寻找标准DNF表达式的更压缩的典型(布尔表达式)等于内容值。然后这提供压缩，此处压缩典型可以被重新更改回标准DNF形式，从而允许原始字符串的检索。如前面所提到的，标准DNF函数：

+1(～x₁·x₂·～x₃)

也可以更紧凑的表示为：

还可以更紧凑的表示为：

f(x₁，x₂，x₃)＝(x₁·x₂)+(x₁·～x₂)+(～x₁·x₂·～x₃)

在实施例中，遗传算法用于为标准DNF表达式的简化表达式选择状态信息。遗传算法(GA)使用规则来完成找到DNF电信和找到最小DNF表达式的两个目标。

遗传搜索算法使用几个步骤：

1、初始化：构建一个n潜能的初始总数解；

2、调准：首先通过它的典型的完成度，然后通过它的REG值来估计每个总数成员的调准度，按照调准度来分类总数。

3、选择：从总数的上层、高层表示、高REG部分中为配对选择母对；

4、复制：通过交叠母对产生后代；

5、变异：通过重排他们来变异随机选择的总数成员；

6、替代：拥有带和变异的成员来替代总数的更低部分；和

7、终结：、重复步骤2-5直到达到处理监视器设置的停止判定。

此外，当使用DNF变换时，有方法选择成功基字符串。标准基本字符

串可用于目标任何内容值。然而，更少基字符串选择产生更好的结果。第一选择是数据派生基字符串。在预处理中通过从分析段的数据类型确定段的特征，派生有最优效率增益的基字符串。因为基字符串必须送往解码器316，以使打包器310和解码器316都有字符串的纪录，新派生的设置应该用于多种段来提高整体效率增益。

第二选择是预先定义基字符串数据库。已知数据类型或已知产生段的应用的地方，或预处理器304能够通过分析400派生数据类型的地方，变换过程502使用基字符串的数据库。控制程序306通过存储先前成功基字符串，产生基字符串的数据库。解码器316也参考基字符串的数据库。当使用基字符串的数据库时，仅仅索引参考基字符串数据库是包括在包开销内。

第三选择是为选择基字符串预处理段。通过对段排列适当的预处理，变换过程502选择有最优效率增益的基字符串。

打包器

打包器310产生包括包，其包括所有标识变换、状态信息所需的信息，加上所有其它重新计算段的内容值和重建原始二进制字符所需的信息。信息标识包是否包括变换或段是否作为原始数据发送。信息也标识用于编码段内容值的变换和变换的状态信息，包括任何余数。最后，信息表明段是否及如何被变异。打包器310使用已知包编码技术来尽可能小的封装此数据到数据包中。

包的优先组成是以下三部分：

1)包开销意义：

a)一个“标识位”意味着是否变换或未变换以下数据；

b)段的位长；

c)数据包的位长；

d)段的标识；

e)段变异信息(假如任何)；

f)任何用于表示段内容值的变换的标识；

2)任何变换所需明确状态信息，包括：

a)任何系数、变量、余数、启发式派生信息或其他变换使用的状态信息来目标内容值；

b)任何部分解的偏移；

c)任何涉及信息的有限状态机器；

d)任何涉及信息的BOT；

3)任何未变换的数据。

在某些实施例中，优先权、隐式、数据类型和被驱动应用标准和隐式规则

水平用于避免封装所有此数据到每个包中。信息可隐式编码也可以显式编码。为节省空间，不显式的发送或存储隐式信息。例如，假如发送原始数据，它被标识，并仅所需额外包开销是原始数据的位长。同样假如通过解包器314和解码器316得知所有段是同样位长，段的位长不包括在数据包内。可选择的，某些数据类型和某些应用是建立使用标准和隐式包格式，包括固定位长、变换、变量值长或其他标准信息。

例如，一个压缩系统300实施例只使用一个指数因子变换，

T = a^{b^{c}}

或者发送原始数据。在这个压缩系统300实施例中的包由一个标志位开始，在这个标志位中“1”表示原始段正在被发送，“0”表示段已经被变换。不同尺寸的a，b，c变量的值必须写入包，以至于解码器316能够不模棱两可地读到它们。做到这个的一个方法就是把三个变量的尺寸放在它们的值前，尺寸被写成m位的数字，在数字前是m的值，用5位写。

如果二进制字符串被限制在1兆位内(1兆位＝2²⁰)，并只考虑a，b，c的总共尺寸不超过n/2(n是二进制字符串的位数)的指数因子，那么3个因子a，b，c的每一个最大位512K长(512K＝2¹⁹)，所以它的尺寸可以用19位来表达。用19位的数字把这3个尺寸写入压缩文件增加了文件大小57位。参数m应该能够表达1到19间的数字值，所以它的尺寸正好是5位。总共的开销是57+5＝62位，于1兆位相比是很小的。

将指数因子应用于48位数字33，232，930，569，601，它是，a，b，c的值分别指定为7，2，4。因为n/2＝3，a，b，c的最大尺寸是3位，所以它们的尺寸3，2，4被写成3位的数字(因为最大的一个是一个3位的数字)，之前则是5位的数字m＝3。因此，最后的23位包是：

0|m|3|2|3|7|2|4＝0|00011|011|010|011|111|10|100

这提供了一个如何把所有的开销编码和必要信息，如变量值，用打包器打包成一个包的例子。

下面是一个打包器310用一个DNF逻辑变换生成包的详细的例子。正如上面所讨论的，DNF使用布尔操作符和一组对编码器和解码器来说是已知的事先定义的基字符串。

BS0 AA AA AA AA AA AA AA AA

BS1 CC CC CC CC CC CC CC CC

BS2 F0 F0 F0 F0 F0 F0 F0 F0

BS3 FF 00 FF 00 FF 00 FF 00

BS4 FF FF 00 00 FF FF 00 00

BS5 FF FF FF FF 00 00 00 00

如果段有一个M＝7766554433221100₁₆的64位内容值，和M相等的标准DNF表达式的简易表达式为：

M＝7766554433221100₁₆＝(((～BS5·BS3·～BS1)+(BS5·～BS3·BS1)+

(BS5·BS3·～BS1)+(BS5·BS3·BS1))·((～BS5·BS0)+(BS5·～BS0)))+

(((～BS5·BS4)+(BS5·BS4))·((～BS1·BS0)))

表述这个解的一个可能的数据包是：

100|101010|11100100|1|100001|0101|0|110000|1010|1|000011|0010

包中每一位的意义在下表中详述。

位	二进制	值	说明
位	二进制	值	说明	0-2	100	4	子表达式的数目
3-8	101010	BS5、BS3、BS1	子表达式1用的基字符串的位映射	0-2	100	4	子表达式的数目
3-8	101010	BS5、BS3、BS1	子表达式1用的基字符串的位映射	9-16	11100100	(～BS5·BS3·～BS1)+(BS5·～BS3·BS1)+(BS5·BS3·～BS1)+(BS5·BS3·BS1)	变量长度域，表示析取范式(DNF)真实列表的系数，仅使用在前一域中指定的基字符串。
17	1	AND(因为AND运算在OR运算之前)	子表达式之间布尔算符	9-16	11100100	(～BS5·BS3·～BS1)+(BS5·～BS3·BS1)+(BS5·BS3·～BS1)+(BS5·BS3·BS1)	变量长度域，表示析取范式(DNF)真实列表的系数，仅使用在前一域中指定的基字符串。
17	1	AND(因为AND运算在OR运算之前)	子表达式之间布尔算符	18-23	100001	BS5、BS0	子表达式用2的基字符串的位映射

24-27	0101	(～BS5·～BS0)+(BS5·～BS0)	子表达式2的DNF
24-27	0101	(～BS5·～BS0)+(BS5·～BS0)	子表达式2的DNF	28	0	OR	子表达式之间布尔算符
29-34	110000	BS5、BS4	子表达式3用的基字符串的位映射	28	0	OR	子表达式之间布尔算符
29-34	110000	BS5、BS4	子表达式3用的基字符串的位映射	35-38	1010	(～BS5·BS4)+(BS5·BS4)	子表达式3的DNF
39	1	AND	子表达式之间布尔算符	35-38	1010	(～BS5·BS4)+(BS5·BS4)	子表达式3的DNF
39	1	AND	子表达式之间布尔算符	40-45	000011	BS1、BS0	子表达式4用的基字符串的位映射
46-49	0010	～BS1·BS0	子表达式4的DNF	40-45	000011	BS1、BS0	子表达式4用的基字符串的位映射

从而，打包器310产生表示64位内容值的50位数据包。

存储/发送

数据包是简单的二进制数据。因此，如前所述，数据包能够用已经建立的存储和发送方法来存储和发送。因为数据包比原始输入二进制字符串小，所以它们有着较原始输入二进制字符串占用空间较小，发送较快等优点。

解包器

如前所述，如果数据包已经被发送，解包器314收到数据包，或者如果数据包被存储，则解包器314从存储器中检索数据包。解包器314解释数据包开销指令，用解码器316解开数据包组件和所用到的关联信息，并解开任何原始数据。

解码器

解码器316从解包器314收到解包后的信息并重算原始段。解码器316在适当的变换中应用状态信息来重算段的内容值。如果数据变异了，则对获悉的段颠倒过程来找出段的原始格式。

如果关于变换、变异或其它过程的任何信息是解码器316所需但没有在本地存储，则解码器316需要信息来自：1)控制程序306；2)一个关于变换、变异或其它过程信息的存储库；或者3)靠从一个关于变换、变异或其它过程信息的本地有效存储库中重建它们。

在一些实施例中，解码器316在一个变换内容值的数据库中搜寻内容值，而不是计算它们。

重构器

如前面所讨论，重构器318从解码器316收到段，并按序列连接段来重构原始二进制字符串。在应用参数的基础上，这能生成一个完整的文件或按照应用所需形成数据流。然后，重构器318输出二进制字符串320。重构器318输出的二进制字符串320和输入的二进制字符串完全相同。因此，压缩系统300提供了无损耗压缩。

Claims

1、一种压缩消息的计算机实施方法，其特征在于包括：

估计消息的数字值；

选择一种变换和相关状态信息，所选变换和相关状态信息拥有的数字值等于消息的数字值；以及

产生一个代码来表示所选变换和相关状态信息。

2、如权利要求1所述的方法，其特征在于：变换是数学变换。

3、如权利要求2所述的方法，其特征在于：变换是算术变换。

4、如权利要求3所述的方法，其特征在于：算术变换包括至少有一个变量的算术函数。

5、如权利要求4所述的方法，其特征在于：选择变换和相关状态信息包括：

为算术函数的所有变量选择值；

由所选变量值来确定函数的数字值；

由所选变量值来确定余数，余数等于消息的数字值和函数的数字值之间的差值；以及

其中状态信息包括所选变量值和余数。

6、如权利要求1所述的方法，其特征在于：选择变换和相关状态信息包括：

选择第一变换和与第一变换相关的状态信息；

由相关状态信息确定第一变换的数字值；

由相关状态信息确定余数，余数等于消息的数字值和第一变换的数字值之间的差值；

选择第二变换和相关状态信息，第二变换和状态信息拥有的数字值等于余数的数字值；以及

其中变换和相关状态信息包括第一变换和相关状态信息以及第二变换和相关状态信息。

7、如权利要求2所述的方法，其特征在于：变换是逻辑变换。

8、如权利要求7所述的方法，其特征在于：变换是有限状态机器。

9、如权利要求7所述的方法，其特征在于：变换是析取范式(DNF)函数。

10、如权利要求9所述的方法，其特征在于：DNF函数包括多个基字符串。

11、如权利要求10所述的方法，其特征在于：多个基字符串存储于基字符串的数据库中。

12、如权利要求10所述的方法，其特征在于：进一步包括识别消息的数据类型。

13、如权利要求12所述的方法，其特征在于：基于消息的数据类型，多个基字符串从基字符串的数据库中检索。

14、如权利要求9所述的方法，其特征在于：为变换选择一组状态信息，包括：

以标准DNF函数表示消息；以及

选择标准DNF函数的简化表示。

15、如权利要求14所述的方法，其特征在于：选择标准DNF函数的简化表示法包括应用组合最佳启发式。

16、如权利要求15所述的方法，其特征在于：组合最佳启发式是一种遗传算法。

17、如权利要求1所述的方法，其特征在于：选择变换和相关状态信息包括测试多组状态信息。

18、如权利要求17所述的方法，其特征在于：测试多组状态信息包括：

为多组状态信息的每一组，产生一个表示变换和一组状态信息的代码；

估计每个代码的尺寸；以及

选择拥有最小尺寸代码的变换和相关状态信息。

19、如权利要求18所述的方法，其特征在于：代码进一步表示包开销。

20、如权利要求1所述的方法，其特征在于：从变换的存储库中选择变换。

21、如权利要求1所述的方法，其特征在于：选择变换和相关状态信息包括测试多个变换。

22、如权利要求21所述的方法，其特征在于：测试多个变换包括：

为多个变换中的每一个，测试与该变换相关的多组状态信息，每个变换和一组状态信息拥有的数字值等于消息的数字值；

为多组状态信息中的每一组，产生一个表示变换和一组状态信息的代码；

确定每个代码尺寸；以及

选择拥有最小尺寸代码的变换和相关状态信息。

23、如权利要求22所述的方法，其特征在于：选择拥有最小尺寸代码的变换和相关状态信息包括选择代码尺寸等于或小于目标代码尺寸的变换和相关状态信息。

24、如权利要求22所述的方法，其特征在于：进一步包括，响应于消逝的时间周期，选择已测试拥有最小尺寸代码的变换和相关状态信息。

25、如权利要求22所述的方法，其特征在于：进一步包括，响应于执行数次计算循环，选择已测试拥有最小尺寸代码的变换和相关状态信息。

26、如权利要求1所述的方法，其特征在于：进一步包括识别消息的数据类型。

27、如权利要求26所述的方法，其特征在于：识别消息的数据类型包括对消息的数据库将消息与已知数据类型作比较。

28、如权利要求26所述的方法，其特征在于：识别消息的数据类型包括识别产生消息的应用程序。

29、如权利要求26所述的方法，其特征在于：基于消息数据类型选择变换。

30、如权利要求26所述的方法，其特征在于：基于消息数据类型选择状态信息。

31、如权利要求1所述的方法，其特征在于：进一步包括，在选择变换和相关状态信息之前对消息施加变异。

32、如权利要求31所述的方法，其特征在于：表示所选变换和相关状态信息的代码进一步表示包开销。

33、如权利要求32所述的方法，其特征在于：包开销识别所施加的变异。

34、如权利要求31所述的方法，其特征在于：变异选自重排、余数、移位、压缩方法、比例缩放方法和异或方法。

35、如权利要求26所述的方法，其特征在于：进一步包括基于消息的数据类型对消息施加变异。

36、如权利要求26所述的方法，其特征在于：进一步包括：

基于数据类型选择变换；和

对消息施加变异，施加的变异基于所选变换。

37、如权利要求1所述的方法，其特征在于：代码进一步表示包开销。

38、如权利要求37所述的方法，其特征在于：包开销包括表示已被变换的消息的标识。

39、如权利要求37所述的方法，其特征在于：包开销包括消息的位长。

40、如权利要求37所述的方法，其特征在于：包开销包括代码的位长。

41、如权利要求37所述的方法，其特征在于：包开销包括消息的标识。

42、如权利要求37所述的方法，其特征在于：包开销包括所选变换的标识。

43、如权利要求37所述的方法，其特征在于：包开销包括解释所选状态信息所需的信息。

44、如权利要求1所述的方法，其特征在于：变换选自指数因数、幂级数、几何级数、整数级数、三角函数、贝塞尔函数、渐近线级数、析取范式函数、有限状态自动机、de Bruijn序列、三维图形树、N维空间表示法、无限积、连分数、丢番图方程、Mobins函数、代数曲线、积分变换、逆圆的(三角)函数、球三角函数、对数函数、双曲函数、正交多项式、多对数、勒让德函数、椭圆积分、序列变换(Z-变换)和马尔可夫链组成的组。

45、如权利要求1所述的方法，其特征在于：选择变换和相关状态信息包括：从预计算数据库中选择状态信息，预计算数据库包括多组状态信息，以及对于多组状态信息的每一组来说的变换和这组状态信息的相应数字值。

46、如权利要求45所述的方法，其特征在于：从预计算数据库中选择状态信息包括：在预计算数据库中选择相应数字值最接近于消息的数字值的这组状态信息。

47、如权利要求1所述的方法，其特征在于：选择变换和相关状态信息包括：

从预计算数据库中选择第一变换和相关状态信息，预计算数据库包括与第一变换相关的多组状态信息和对多组状态信息的每一组来说的第一变换和这组状态信息的相应数字值；

确定余数，余数等于消息的数字值与第一变换和相关状态信息的数字值的差值；

从预计算数据库中选择第二变换和相关状态信息；以及

其中变换和相关状态信息包括第一变换和相关状态以及消息第二变换和相关状态信息。

48、如权利要求47所述的方法，其特征在于：从预计算数据库中选择第一变换和相关状态信息包括：在预计算数据库中选择相应数字值最接近消息的数字值的变换和相关状态信息。

49、如权利要求1所述的方法，其特征在于：选择变换和相关状态信息包括：

从状态信息的先前成功范围的存储列表中检索状态信息范围；

利用最佳算法在状态信息的范围内迭代测试不同组的状态信息；

对于每一组状态信息，产生一个表示变换和这组状态信息的代码；以及

选择拥有最小代码的已测试的这组状态信息。

50、如权利要求1所述的方法，其特征在于：选择变换和相关状态信息包括：

施加组合的最佳启发式以确定最好状态信息，最好状态信息拥有表示变换和该状态信息的最小代码尺寸；和

选择最好状态信息。

51、如权利要求50所述的方法，其特征在于：施加的组合最佳启发式选自爬山法、渴望爬山法、禁忌搜索、模拟退火、人工神经网络、波尔兹曼机、调优算法和遗传算法。

52、如权利要求1所述的方法，其特征在于：选择变换和相关状态信息包括：

应用智能代理来确定最好状态信息，最好状态信息拥有表示变换和此状态信息的最小代码尺寸；和

选择最好状态信息。

53、如权利要求52所述的方法，其特征在于：智能代理存储为先前消息所选的变换和状态信息。

54、如权利要求1所述的方法，其特征在于：选择变换和相关状态信息包括：

选择多个部分解变换，多个部分解变换结合组成变换；和

对于多个部分解变换的每一个，选择与该部分解变换相关的状态信息，部分解变换和状态信息拥有的数字值等于部分消息的数字值，与每个部分解变换相关的状态信息结合组成状态信息。

55、如权利要求54所述的方法，其特征在于：选择多个部分解变换和相关状态信息包括施加动态编程。

56、如权利要求55所述的方法，其特征在于：选择多个部分解变换和相关状态信息包括施加一维动态编程。

57、如权利要求1所述的方法，其特征在于：进一步包括存储表示所选变换和相关状态信息的代码。

58、如权利要求57所述的方法，其特征在于：代码被存储在计算机可读介质中。

59、如权利要求1所述的方法，其特征在于：进一步包括发送表示所选变换和相关状态信息的代码。

60、如权利要求1所述的方法，其特征在于：进一步包括：

估计表示所选变换和相关状态信息的代码的尺寸；

比较代码的尺寸和消息的尺寸；和

假如代码的尺寸大于消息的尺寸，则存储消息。

61、如权利要求1所述的方法，其特征在于：进一步包括：

估计表示所选变换和相关状态信息的代码的尺寸；

比较代码的尺寸和消息的尺寸；和

假如代码的尺寸大于消息的尺寸，则发送消息。

62、一种压缩消息的计算机执行方法，包括：

拆分消息成多个段；

对每个段，估计该段的数字值；

对每个段，选择该段的变换和相关状态信息，所选变换和相关状态信息拥有的数字值等于该段的数字值；和

对每个段，产生一个表示所选变换和相关状态信息的代码。

63、如权利要求62所述的方法，其特征在于：拆分消息成多个段包括：

确定消息的数据类型；

基于数据类型确定数据段的最佳尺寸；和

拆分消息成最优尺寸的数据段。

64、如权利要求62所述的方法，其特征在于：拆分消息成多个段包括：

确定压缩消息的时间限制；

基于时间限制确定数据段的最佳尺寸；和

拆分消息成最佳尺寸的数据段。

65、如权利要求64所述的方法，其特征在于：确定压缩消息的时间限制包括，确定可用于选择变换和相关状态信息的计算资源。

66、如权利要求62所述的方法，其特征在于：进一步包括对段施加变异。

67、如权利要求66所述的方法，其特征在于：进一步包括基于所选变换对段施加变异。

68、如权利要求66所述的方法，其特征在于：变异是段尺寸的调整。

69、一种用数字值压缩消息的计算机执行方法，包括：

选择变换和相关状态信息，所选变换和相关状态信息拥有的数字值等于消息的数字值；以及

产生一个表示所选变换和相关状态信息的代码。

70、一种恢复已压缩消息的计算机执行方法，包括：

接收表示变换和状态信息的代码；

计算变换和相关状态信息的数字值，变换和相关状态信息拥有的数字值

等于消息的数字值；和

输出数字值作为已恢复消息。

71、一种恢复已压缩消息的计算机执行方法，包括：

接收多个代码，每个代码表示一种变换和相关状态信息；

计算每个变换和相关状态信息的数字值，每个变换和相关状态信息的数

字值拥有的数字值等于消息段的数字值；和

通过组合所有段的数字值重建消息。

72、如权利要求71所述的方法，其特征在于：接收到的第一代码提供关于接收到的第二代码的消息。

73、一种数据压缩系统，包括：

预处理模块：

接收消息；

拆分该消息成多个段，每个段拥有一个数字值；

对每个段，估计这个段的数字值；

对每个段，输出段的数字值到变换模块；和

变换模块：

对每个段，选择变换和相关状态信息，所选变换和相关状态信息拥有的数字值等于段的数字值；

产生一个表示所选变换和相关状态信息的代码。

74、一种数据解压缩系统，包括：

解包模块：

接收多个代码，每个代码表示变换和状态信息；

对每个代码，输出变换和状态信息到解码模块；和

解码模块：

对每个变换和状态信息，计算变换和相关状态信息的数字值，变换和相关状态信息拥有的数字值等于段的数字值；

通过连接所有段的数字值重建消息。

75、一种计算机可读载波，包括表示变换和相关状态信息的代码，变换和相关状态信息拥有的数字值等于消息的数字值，该代码拥有的长度小于消息的长度。

76、一种编码在计算机可读介质上的并控制处理器执行压缩消息方法的的计算机程序产品，包括：

估计消息的数字值；

选择变换和相关状态信息，所选变换和相关状态信息拥有的数字值等于消息的数字值；和

产生一个表示所选变换和相关状态信息的代码。

77、一种压缩和解压缩消息的计算机执行方法，包括：

估计消息的数字值；

选择变换和相关状态信息，所选变换和相关状态信息拥有的数字值等于消息的数字值；

产生一个表示所选变换和相关状态信息的代码；

存储表示所选变换和相关状态信息的代码；

从存储器中检索表示变换和相关状态信息的代码；以及

计算变换和相关状态信息的数字值，变换和相关状态信息拥有的数字值等于消息的数字值。

78、一种压缩和解压缩消息的计算机执行方法，包括：

估计消息的数字值；

产生一个表示所选变换和相关状态信息的代码；

发送表示所选变换和相关状态信息的代码；

接收表示所选变换和相关状态信息的代码；和

79、一种压缩和解压缩消息的系统，包括：

预处理模块：

接收具有数字值的消息；

估算消息的数字值；

输出消息的数字值到变换模块；

变换模块：

产生一个表示所选变换和相关所选状态信息的代码；

输出表示所选变换和相关所选状态信息的代码；

解包模块：

接收表示变换和状态信息的代码；和

解码模块：

80、一种压缩消息系统，包括：

用于估计消息的数字值的装置；

用于选择变换和相关状态信息的装置，所选变换和相关状态信息拥有的数字值等于消息的数字值；

用于产生表示所选变换和相关状态信息的代码的装置。

81、如权利要求80所述的系统，其特征在于：进一步包括用于识别消息的数据类型的装置。

82、如权利要求80所述的系统，其特征在于：进一步包括在选择变换和相关状态信息之前对消息施加变异的装置。

83、一种压缩消息系统，包括：

用于拆分消息成多个段的装置；

用于估计每个段的段数字值的装置；

用于为每个段选择变换和相关状态信息的装置，所选变换和相关状态信息拥有的数字值等于段的数字值；和

用于为每个段产生表示所选变换和相关状态信息的代码的装置。

84、一种恢复已压缩消息的系统，包括：

用于接收表示变换和状态信息的代码的装置；和

用于计算变换和相关状态信息的数字值的装置，变换和相关状态信息拥有的数字值等于消息的数字值。

85、一种压缩和解压缩消息的系统，包括：

用于估计消息的数字值的装置；

用于产生表示所选变换和相关状态信息的代码的装置；

用于存储表示所选变换和相关状态信息的代码的装置；

用于在存储器中检索表示变换和相关状态信息的代码的装置；和

用于计算变换和相关状态信息的数字值的装置，变换和相关状态信息的数字值等于消息的数字值。

86、一种压缩和解压缩消息的系统，包括：

用于估计消息的数字值的装置；

用于产生表示所选变换和相关状态信息的代码的装置；

用于发送表示所选变换和相关状态信息的代码的装置；

用于接收表示所选变换和相关状态信息的代码的装置；