CN111357203A

CN111357203A - 用于将大数据变换成较小的表示的系统和方法

Info

Publication number: CN111357203A
Application number: CN201880051817.8A
Authority: CN
Inventors: 斯蒂芬·泰琳
Original assignee: Si DifenTailin
Current assignee: Si DifenTailin
Priority date: 2017-06-26
Filing date: 2018-06-26
Publication date: 2020-06-30
Also published as: KR20240019390A; KR102366069B1; KR20210107136A; EP3646208A1; JP7488798B2; KR20200064054A; US20210326269A1; EP3646208A4; US20190018793A1; US10621108B2; JP6903773B2; WO2019005888A1; US11003589B2; JP2020527302A; US20200218666A1; JP2021166072A

Abstract

一种系统包括：具有一个或更多个核心的处理器；以及存储器，其包括配置处理器以执行方法的指令，该方法包括：接收具有数据长度的数据集；确定数据集的位模式；生成位模式的参考集合，该集合具有设定长度，该设定长度等同于数据长度，该位模式的集合包括从全0到全1的每个可能的不同位模式；使用应用于测试数据的第一位模式生成函数来确定第一测试位模式；使用第一测试位模式的位置和数据集的位模式的位置来确定在第一测试位模式和数据集的位模式之间的距离，所述位置是相对于位模式的参考集合的；在数据集的位模式的方向上迭代第一测试模式生成函数，并将第一测试模式生成函数与至少一个第二测试模式生成函数组合以确定应用于测试数据的第二测试位模式；使用第二测试位模式的位置和数据集的位模式的位置来确定在第二测试位模式和数据集的位模式之间的距离，所述位置是相对于位模式的参考集合的；如果在第二测试位模式和数据集的位模式之间的距离在阈值距离内或等于阈值距离，则基于阈值距离来生成误差函数并提供位模式函数和误差函数以重新产生数据集，位模式函数等同于第一测试模式生成函数的迭代以及第一测试模式生成函数与至少一个第二测试模式生成函数的组合；以及基于位模式函数和误差函数来恢复数据集。

Description

用于将大数据变换成较小的表示的系统和方法

技术领域

本发明的实施例通常涉及数据压缩和解压缩技术。

背景

大数据存储储存起来是昂贵的，且花费大量时间来越过通信线路传输。有可以将大数据存储的大小相当多地减小到较小的表示并将较小的表示返回到原始大数据存储的系统和方法将是有帮助的。

概述

在一些实施例中，本发明提供了一种系统，其包括：具有一个或更多个核心的至少一个处理器；以及存储器，其部分地包括配置至少一个处理器以执行方法的指令，该方法包括：接收具有数据长度的数据集；确定数据集的位模式；生成位模式的参考集合，该集合具有设定长度，该设定长度等同于数据长度，该位模式的集合包括从全0到全1的每个可能的不同位模式；使用应用于测试数据的第一位模式生成函数来确定第一测试位模式；使用第一测试位模式的位置和数据集的位模式的位置来确定在第一测试位模式和数据集的位模式之间的距离，所述位置是相对于位模式的参考集合的；在数据集的位模式的方向上迭代第一测试模式生成函数，并将第一测试模式生成函数与至少一个第二测试模式生成函数组合以确定应用于测试数据的第二测试位模式；使用第二测试位模式的位置和数据集的位模式的位置来确定在第二测试位模式和数据集的位模式之间的距离，所述位置是相对于位模式的参考集合的；如果在第二测试位模式和数据集的位模式之间的距离在阈值距离内或等于阈值距离，则基于阈值距离来生成误差函数并提供位模式函数和误差函数以重新产生数据集，位模式函数等同于第一测试模式生成函数的迭代以及第一测试模式生成函数与至少一个第二测试模式生成函数的组合；以及基于位模式函数和误差函数来恢复数据集。

附图简述

在所附的权利要求中以特殊性阐述了本技术的各种实施例的某些特征。通过参考阐述说明性实施例(其中本发明的原理被利用)的下面的详细描述和附图将获得本技术的特征和优点的更好理解，其中：

图1是描绘根据一些实施例的用于在数据的较大表示和数据的较小表示之间变换数据的系统的框图。

图2是示出根据一些实施例的计算机系统的框图，在该计算机系统上可以实现本文描述的一个或更多个数据变换操作。

图3(a)、3(b)和3(c)示出数据编译器(DC)和Turing Dedekind设备(TD)的多个可能的实现。

图4示出为所有N提供任何大小的N位模式的组合复杂性的视觉表示的向量，该向量还提供示出由在加载时间的DC和在运行时间的TD执行的N个不同的但相关的操作集合的模板。

图5示出HCSSFHIL，其示出它由两个或更多个循环组成，每个循环表示生成产生输出位模式的函数，输出位模式包含使它有资格作为如由HCSSFHIL的描述性名称所表示的HCSSFHIL的特征。这些循环由可以表示加法或任何其他函数的一个或更多个不同的运算连接。

图6示出顺序地迭代的HCSSFHIL如何由DC产生，每个HCSSFHIL输出特定的J值，该DC然后被改变以产生输出下一个J值的下一个HCSSFHIL。

图7示出DC如何利用(包括但不限于虚拟存储器地址和/或时间戳的)元数据项来变换(可能包括它的误差项的表示的)它的一些或所有参数，以降低空间覆盖区和/或增加TD将通过一种方法实际上存储和利用的参数的计算能力，在该方法中，这些参数中的一个或更多个本身从在虚拟存储器地址、时间戳和/或其他元数据中包含的位模式和/或从在虚拟存储器地址、时间戳和/或其他元数据中包含的位模式的函数被重新计算。

图8示出TD如何在运行时间实现类似的操作。

图9表示在这些规范中描述的迭代步骤，其逐步示出从输入位模式k开始的DC如何执行一系列迭代步骤，该一系列迭代步骤产生以内核的形式的DC的输出，DC将该输出递给TD。

详细描述

本发明对一系列长期存在的、表面上看来棘手的问题提供游戏改变解决方案，这些问题用于极大地限制追溯到集成电路的发明和第一批微处理器的出现的在摩尔定律下的四十多代指数硬件改进的潜在积极性能影响。这些问题包括大数据问题连同网络拥塞问题以及我们无法为多核架构找到有用的应用。

如在传统上理解的，大数据问题的核心在于在高速数据处理器与存储和传输大量数据的成本之间的长期存在的、不断恶化的、表面上看来不可避免的性能失配，其中保存、存储、检索和传输大数据存储的成本早就压倒所有其他成本，从而使数据处理速度的不间断的指数增长与数据吞吐量越来越不相关。

本发明提供的对大数据问题的有力的、彻底的突破性解决方案从下面的事实得到：高速微处理器的可用性连同本发明的方法和装置消除了继续保存、存储、检索和传输大数据存储的需要，因为本发明以允许我们以快得多的故障安全方式从一个小得多的内核快速重新计算大的位模式的方式来利用在数据处理和数据存储之间的迄今为止隐藏的基本等价关系，而不是如在能够以足够及时的方式执行必要的数据重新计算的足够快速的处理器的出现之前所需的那样继续保存、存储和再使用大数据存储。

类似地，本发明产生的网络拥塞的改善源自于从四处移动较少的数据以便通过重新计算来重新创建相同的信息内容的需要，而由多核架构提供的高度显著的革命性效用源自于当利用多核架构作为它的核心的数量、速度和功率的函数时快得多执行复杂数据重新计算的能力。

本发明的方法和装置(如下面直接描述的)操作于的数据的基本单位是位模式。每个位模式的信息内容首先通过如下所述在数据编译器(下文中的DC)中包含的机制在空间上被减小到高度压缩的内核来被变换，以便随后通过从内核的内容重新计算、通过在Turing Dedekind设备(下文中的TD)中包含的机制以它的原始格式被重新创建一次或更多次，如同样在下面所述的。

本发明的实施例对位模式操作并允许位模式的重新计算，同时消除了存储位模式的需要。每个这样的位模式具有以位为单位可测量的特定长度，使得如由它包含的位的数量测量的具有任何和所有特定长度n的任何和所有特定位模式k表示数据的基本单位，而不管本发明的方法和装置操作于的那个数据的内容、目的和/或效用如何，从而首先使DC能够创建占据小得多的空间覆盖区的必要的内核，包括参数和代码，然后TD能够执行该内核，以便以实际的故障安全方式快速无损地重新计算最初被输入到DC内的特定的n位长位模式k，从而实现前面提到的期望的结果。

为了简单起见，我们为了这个说明的目的将认为这种位模式由在传统上由0和1表示的经典的互斥打开或关闭二进制数字组成，但本发明的方法和装置同样可适用于以知道如何在多个可能的替代数据表示领域——包括但不限于利用(非二进制、非简单的“打开是不关闭”)q位和e位的量子计算的领域——中实现本发明的能力而在数据上被实现，该数据存储在其它不是必须然而完全实用的但潜在地有效得多的基本数据表示单元——包括但不限于q位和e位——中，这能够由在这种最新技术实践中训练的人员完成。

同样，本发明的方法和装置能够以硬件、软件或通过其他机制例如固件和/或微代码和/或其任何组合来实现。此外，在下面的介质/设备/实现等的部分或全部或任一个中在硬件、软件、固件和/或微代码等中(包括基于任何或所有上述可能性的任何可能的实际可实行的组合的任何和所有可能的各种混合实现)的以各种可能的组合的本发明的多个实施例也可以适应从最小到广泛的部分人类干预和可能的人类或其他非计算机化贡献的变化的可能程度，使得对在硬件、软件、固件、微代码的任何可能的实际可实行的组合中实现的任何设备、装置和/或方法和/或如本文描述的本发明的实施例的主体和内容的至少一些部分或全部的任何其他计算机化实现、方法和/或装置(包括或不包括任何可能或潜在的部分人类干预)的任何可能的部分人类和/或其它非计算机化贡献和/或其它输入或干预(或根本没有)构成本发明的实际实施例。

对本发明的方法和装置的发现的一个相当大的实际阻碍在于现代信息、数据熵、压缩和复杂性理论的基本方面，表现在Shannon极限和Kolmogorov复杂性理论(包括通常被称为计数论据或鸽巢原理的简化说明)的长期接受的、以前毫无疑问的但可证明错误的解释中，所述解释如果是真实的则将使本发明变得无法实现。

因此，根据仍然频繁地遇到的解释，Shannon极限对数据可压缩性建立表面上看来绝对的、不可侵犯的、严格地在数学上证明的极限，这将冗余减少确立为无损数据压缩的唯一可用手段，从而使所有随机化位模式变成固有地不可压缩的。然而在本文中，我们识别任意大量的反例来使这个断言无效。在1948年的7月和10月最初在“The Bell SystemTechnical Journal”(第27卷379–423页和623–656页)中发表的且现在在http://math.havard.edu/～ctm/home/text/others/shannon/entropy/entropy.pdf处在线可得到的标题为“A Mathematical Theory of Communication”的Shannon 1948年的开创性论文(上述错误断言的支持者同意该论文负责最初建立并在稳固的基础上放置现代信息、数据熵、可压缩性和通信理论)明确驳斥早就认为是他做出的前面提到的错误断言，包括通过特别提到直接反驳它的反例之一来这么做。

Shannon的数据熵理论完全依靠利用Markov链的随机分析，Markov链的概率术语引用我们对所讨论的数据的知识，使得对我们已知的任何位模式都没有对它从高度压缩的内核被重新计算的理论限制，Shannon通过计算π的示例来说明该理论限制，π的数位早就被证明几乎完美地被随机化到它的十进制数字的至少前22万亿多个。

因此，Shannon特别陈述了他的假设：在他的数据熵理论的核心处的随机分析依赖于传输的特定数据流在他的如下的论文的第二段中并不是完全已知的假设：“通信的基本问题是在一个点处确切地或近似地重新产生在另一个点处选择的消息的问题。消息常常具有意义；也就是说，它们指某些物理或概念实体或根据某个系统与某些物理或概念实体相关联。通信的这些语义方面与工程问题无关。重要的方面是，实际消息是从一组可能的消息选择的一个消息。该系统必须设计为针对每个可能的选择而不仅仅是实际上被选择的一个选择进行操作，因为这在设计的时间是未知的。”(http://math.havard.edu/～ctm/home/text/others/shannon/entropy/entropy.pdf,pg.1)

Shannon接着继续以特别提供π作为反例，证明如果数据的特定内容在传输的时间是预先已知的，则没有这样的理论限制成立，如下：“如果源可以只产生一个特定的消息，那么它的熵为零且没有通道是需要的。例如，被建立来计算π的连续数位的计算机器产生没有机会元素的有限序列。不需要通道来将此“传输”到另一个点。我们可以构建第二机器以计算在这点处的相同序列。然而，这可能是不切实际的。在这种情况下，我们可以选择忽略我们有的源的一些或所有统计知识。”(http://math.havard.edu/～ctm/home/text/others/shannon/entropy/entropy.pdf,pg.18)

此外，主张Shannon极限建立对数据可压缩性的绝对的、不可侵犯的、严格地在数学上证明的极限(其建立冗余减少作为无损数据压缩的唯一可用手段，从而使所有随机化位模式变成固有地不可压缩的)的这种仍然频繁地重复的错误断言至少现在相当普遍地与当代学术文章相矛盾，这些文章在Shannon的1948年的全体论文例如由Peter Grunwald和Paul Vitanyi于2010年7月22日发表的标题为“Shannon Information and KolmogorovComplexity”的论文(其通过明确地陈述下面的暗示来跟踪全部引用我们在上面呈现的两个Shannon引用中的第一个：“对于每个源发出的但两个消息，Shannon信息至多是一位”，即使“我们可选择所涉及的高Kolmogorov复杂性的这两个消息”(第2页))的背景中充分关注前面提到的引用。

此外，虽然上面引用的陈述凭借本身的条件肯定是足够干脆和清楚的，但这两位作者继续通过陈述下面的内容来更广泛和严格得多地进一步澄清在这里涉及的根本问题：“详细的数学理论以本质上最终的形式从单个出版物跳出很少发生。对Shannon信息理论的情况就是这样，Shannon信息理论只以C.E.Shannon的论文“The mathematical theory ofcommunication”(sic)的出现正确地开始。在这篇论文中，Shannon提出了在分布中的信息的度量，他将该度量称为“熵”。分布P的熵H(P)测量“在P中的固有不确定性”，或者(事实上等价地)“当P的结果被观察到时多少信息被得到”。为了使这变得更精确，让我们想象知道X是根据P而分布的观察者。然后观察者观察到X＝x。P的熵代表“观察者在他观察到结果x之前对关于结果x的不确定性”。现在把观察者想象为接收包含X的值的消息的“接收者”。从这个双重观点看，熵代表观察者在接收到随机变量X的所实现的结果x之后获得的信息的平均数量”(第8页)，作者通过用下面的语言提供Shannon对熵的数学定义来进一步追踪。“使

是有限的或可数的集合，使X是取在

中的值的随机变量，分布P(X＝x)＝px。然后随机变量X的(Shannon-)熵由

给出。”(第8页)，作者通过陈述“熵在这里被定义为将随机变量映射到实数的函数”来进一步澄清该等式。在许多文本中，熵本质上等效地被定义为从随机变量的分布到实数的映射。因此，按照定义：H(P):

”(第8页)。

然而，由于下面的事实：如由我们对Kolmogorov复杂性的目前仍被接受的理解的计数论据/鸽巢原则版本所代表的核心论据展示至少四个主要的谬误，当情况回到Kolmogorov复杂性的仍然实质上被普遍接受、但高度原始和同样有缺陷的理解时，情况变得更加复杂。

因此，核心普遍持有的Kolmogorov复杂性的理解存在于下面的主张中：唯一能够将任何位模式的压缩形式映射回到必须在长度为N位的每个位模式中包含2N个可能性的相同位模式的原始非压缩形式上的必要性强加下面的要求：只有1/256个可能的这种位模式可以被压缩1字节，而只有1/65,536个可能的这种位模式可以被压缩2字节，等等，这通常以这种毫无疑问的、自称的表面上看来明显的不言而喻的确信被断言，由于所有四个下面的原因，该核心完全未能强加任何这种严厉的限制。

第一，包含N位的位模式可以本身只用于区分2N个可能的唯一不同的单独位模式的论据可以至多只用于尝试主张为了试图唯一地区分包含N位的多于2N个不同的位模式将需要附加标准的使用。然而，这远远没有达到明确地在逻辑上无根据的断言，其然而仅仅在这个基础上被做出：没有这种进一步的区别特征也许可能存在。例如，考虑一种情况，其中我们想要区分开三个灯泡，每个灯泡由单个单一的二进制选择打开/关闭灯开关控制，打开/关闭灯开关本身只能够代表二进制信息内容的一个位。根据由鸽巢原理/计数论据的倡导者做出的明确地过于简化的主张，这种装置只能够区分开两种单独的灯泡状态——打开和关闭。然而，通过保持一个开关关闭、立即打开一个开关并且在打开第三个开关之前简单地等待足够长的时间提供了足够的信息内容以区分开关闭、打开和冷以及打开和热的三种单独的不同灯泡状态。类似地，早已知道的并被利用的是，通过通信线路发送的位模式还可以(除了仅基于位模式的2N个可能的不同信息内容状态之外)通过例如频率、信号强度等的特征进一步被彼此区分开，且本发明的实施例同样提供通过使用例如这些位模式被存储于的虚拟存储器地址和指示某些操作在这些位模式上被执行的时间的时间戳的因素来区分在两个或更多个单独的但位内容相同的位模式内包含的信息内容的手段。

第二，在可以将N个位分成K个单独的配置——每个配置包含操作码相对于数据的不同百分比——的条件下，每个这样的配置可以包含2N个不同的位模式，使得能够由所采用的所有这些可能的配置联合地产生的不同的单独位模式的实际累积总数将在明确地没有原因来预期所有这样的可能结果的累积总数不超过2N个不同的位模式的条件下由例如重复结果的数量和特定操作是否是可交换的因素来确定。

第三，我们对Kolmogorov复杂性的传统理解将每个压缩位模式视为独立的完备单元。然而，我们从极小内核创建理论上任意大的压缩比的能力创建了建立折衷的大量等价关系，其中压缩少量极端压缩的位模式的能力可以“换取”以可以大致直观地被视为计数论据/鸽巢原理所依靠的指数关系的方式创建大量稍微较少压缩的位模式的能力，该指数关系反向地运行和/或反对自身。因此，例如，通过取非常少量位的连续幂或者通过执行经由具有大索引和具有短空间覆盖区的少量参数的其他循环实现类似比来创建n个单独的比如万亿比一压缩比的能力产生了一种情况，a)其中在任何两个或更多个这种高度压缩的位串之间的所有数值差异和/或其他简单的功能组合产生几乎同样高度压缩的位串的大得多的新集合，b)其中如在上面的a)中描述的这个或其他类似的操作可以递归地被执行，导致对每次迭代高度压缩的位模式的另一组合爆炸，以及c)其中可以在例如一千字节中描述的任何可能的函数的额外操作创建2**8000单独地乘以由在上面的a)和b)中描述的操作产生的位模式的总和，每个操作将展示大约十亿比一的压缩比。

第四，为了创建实际压缩机制，必须创建能够唯一地区分我们在那个数字的Kolmogorov复杂性几乎肯定远小于20字节的条件下实际遇到的任何特定的不同位模式的、在功能上可实现的映射，注意到能够执行每秒10**-24次运算的计算机将花费自从大爆炸以来的宇宙年龄的当前估计值的200万到300万倍日以继夜地运行来耗尽仅20字节的组合复杂性。

最初由建立所存储的程序计算的存在的所谓的Von Neumann架构所预示的迄今为止隐藏的双向存储计算等价关系通过利用极快的微处理器以计算数据来达到完全的成果，从而澄清如上所述的大数据问题并非源自于存储和传输极大数据存储的高成本的不可避免的结果，而是源自于我们继续在现代计算机系统中以基于追溯到在集成电路和摩尔定律的出现之前的计算机科学的黎明的原始得多的机器的能力和限制而设计的方式来表示和处理数据，产生长期以来普遍持有的错误原理的临界复合体，该错误原理极大地消极地影响如上所示的信息、数据熵、可压缩性和复杂性理论的领域。

摆脱这些错误限制的遗留影响(类似于在二战后普遍持有的观点：空间飞行是不可能的，因为到达轨道所需的燃料的重量阻止逃逸速度被达到，该错误限制由多级火箭解决)，足够快的处理器的存在使数据能够通过DC和TD的方法和装置以如下所述的相对简单的概念方式被计算而不是存储。

图1是描绘根据一些实施例的数据变换系统100的示例的框图。数据变换方案100包括大数据存储102、数据变换设备104、较小的数据表示106和目的地/源108。在数据变换到较小表示中时，序列从大数据存储102流向目的地/源108。在数据重新变换回到大数据存储中时，序列从目的地/源108流到大数据存储102。在一些实施例中，在本文描述的数据编译器(DC)可以被称为“变换设备”，并且在本文描述的Turing Dedekind设备(TD)可以被称为“重新变换设备”。

大数据存储102表示以未压缩、未改变的形式的数据。大数据存储可以包括原始数据。在一些实施例中，大数据存储102将由计算机系统的处理器处理，用于基于大数据存储102来执行预期操作。在一些实施例中，大数据存储102可以包括用户数据，例如文档、图像、图片、视频和音频等，以由处理器处理并呈现给用户。在一些实施例中，大数据存储102可以包括程序文件，该程序文件包括将由处理器执行以执行由指令指示的操作的指令。在一些实施例中，大数据存储102可以包括用于管理由计算系统管理的硬件和软件资源的系统数据。大数据存储102可以存储在存储器、永久存储装置或其组合中。大数据存储102可以由计算系统部分地消耗。

数据变换设备104包括用于将数据变换成较小表示的设备(例如，DC)和用于重新变换回到原始大数据存储的设备(例如，TD)。当数据变换被执行时，大数据存储102被变换成较小的数据表示106。根据本公开，在这个论文中描述的变换技术被采用来生成较小的数据表示106。当数据重新变换被执行时，使用这些技术的相反技术来将较小的数据表示106重新变换回到大数据存储102。根据本公开，使用特定的数据变换算法来执行与变换技术相对应的在很大程度上可扩展的数据变换技术。本文描述了用于数据变换和重新变换的特定技术。

较小的数据表示106代表可以被重新产生回到大数据存储的在小覆盖区中的数据。较小的数据表示可以包括作为通过数据变换设备104的数据变换的结果的变换数据和从数据源108获得的较小的数据表示。

在一些实施例中，目的地108可以表示数据暂存器(例如，存储器、永久存储装置、可移动存储装置或高速缓存)，其中作为数据变换的结果而生成的较小数据表示106被接收。在一些实施例中，数据源108可以表示数据暂存器(例如，存储器、永久存储装置或高速缓存)，待重新变换的较小数据表示106从数据暂存器被获得。在一些实施例中，目的地/源108可以包括本地存储驱动器，包括与计算系统集成的内部存储设备和连接到计算系统的可移动外部存储设备。内部存储设备可以包括光学驱动器、硬盘和固态驱动器等。可移动外部存储设备可以包括存储卡(例如SD卡)、记忆棒(例如USB存储器)等。在一些实施例中，目的地/源108可以包括外部计算系统，该外部计算系统通过计算机网络连接到执行数据变换的本地计算系统。外部计算系统可以包括云服务器系统、专用于特定实体的服务器系统、客户端计算系统等。在一些实施例中，目的地/源108可以包括能够传输或接收较小数据表示的数据传输层。

图2是示出计算机系统200的框图，根据本文所述的实施例的一个或更多个数据变换操作可在计算机系统200上实现。计算机系统200包括总线202或用于传递数据的其他通信机构、与总线202耦合用于处理数据的一个或更多个硬件处理器204。硬件处理器204可以是例如一个或更多个通用微处理器或者一个或更多个专用微处理器。如在本文提到的，处理器204可以是多核处理器。硬件处理器204可以被配置为在其中执行数据变换引擎218，其将在下面被描述。

计算机系统200还包括耦合到总线202用于存储临时数据和由处理器204执行的指令的主存储器206，例如随机存取存储器(RAM)、高速缓存和/或其他动态存储设备。指令包括被配置为使处理器204根据在本公开中描述的数据变换算法来将数据(原始的)变换成较小的数据表示并将较小的数据表示重新变换成大数据存储的数据变换引擎218。主存储器206还可以用于临时存储通过执行数据变换引擎218生成的重新变换的数据，使得处理器204可以处理重新变换的数据。这样的指令当存储在处理器204可访问的存储介质中时使计算机系统200转化为专用机器，专用机器被定制为执行在指令中指定的操作。

通常，词“引擎”可以构成软件引擎(例如，包含在机器可读介质上的代码)或硬件引擎。“硬件引擎”是能够执行某些操作并且可以以某种物理方式被配置或布置的有形单元。在各种示例性实施例中，一个或更多个计算机系统(例如，独立计算机系统、客户端计算机系统或服务器计算机系统)或计算机系统的一个或更多个硬件引擎(例如，处理器或一组处理器)可通过软件(例如，应用或应用部分)被配置为操作来执行如本文所述的某些操作的硬件引擎。

计算机系统200还包括耦合到总线202用于存储用于处理器204的静态信息和指令的只读存储器(ROM)208或其他静态存储设备。根据特定实现，当处理器204执行数据变换操作时，数据变换引擎218可以被加载到主存储器206。

例如磁盘、光盘或USB拇指驱动器(闪存驱动器)等的存储设备210被提供并耦合到总线202用于存储数据和指令。存储设备210包括大数据存储220。

计算机系统200可经由总线202耦合到例如阴极射线管(CRT)或LCD显示器(或触摸屏)的输出设备212，以用于向计算机用户显示信息。输入设备214(包括字母数字和其他键)耦合到总线202用于向处理器204传递信息和命令选择。另一种类型的用户输入设备是用于向处理器204传递方向信息和命令选择以及用于控制在输出设备212上的光标移动的光标控制器216，例如鼠标、轨迹球或光标方向键。这个输入设备214在两个轴——第一轴(即，x)和第二轴(即，y)——上通常具有二度的自由度，这允许设备指定在平面中的位置。在一些实施例中，可以通过在没有光标的触摸屏上接收触摸来实现与光标控制相同的方向信息和命令选择。

计算系统200可以包括用户界面模块以实现GUI，GUI可以作为由计算设备执行的可执行软件代码存储在大容量存储设备中。作为示例，该模块和其他模块可以包括部件，例如软件部件、面向对象的软件部件、类部件和任务部件、进程、函数、属性、过程、子例程、程序代码段、驱动器、固件、微代码、电路、数据、数据库、数据结构、表、数组和变量。

计算机系统200可以使用定制的硬连线逻辑、一个或更多个ASIC或FPGA、固件和/或程序逻辑来实现本文描述的技术，这些逻辑与计算机系统结合来使计算机系统200是或将计算机系统200编程为专用机器。根据一些实施例，响应于处理器204执行在存储器206中包含的一个或更多个指令的一个或更多个序列在本文由计算机系统200执行技术。这样的指令可从另一存储介质例如存储设备210被读取到主存储器206中。被包含在主存储器206中的指令的序列的执行使处理器204执行本文中所描述的过程步骤。在可选的实施例中，可代替软件指令或与软件指令组合来使用硬连线电路。

计算机系统200还包括耦合到总线202的通信接口218。通信接口218提供耦合到一个或更多个网络链路的双向数据通信，该一个或更多个网络链路连接到一个或更多个本地网络。例如，通信接口218可以是综合业务数字网(ISDN)卡、电缆调制解调器、卫星调制解调器或提供到相应类型的电话线的数据通信连接的调制解调器。作为另一个示例，通信接口218可以是局域网(LAN)卡以提供到兼容LAN(或与WAN通信的WAN部件)的数据通信连接。也可以实现无线链路。在任何这样的实现中，通信接口218发送和接收携带代表各种类型的信息的数字数据流的电、电磁或光信号。

网络链路通常通过一个或更多个网络向其他数据设备提供数据通信。例如，网络链路可以通过本地网络提供到主机计算机或到由互联网服务提供商(ISP)操作的数据装备的连接。ISP又通过现在通常被称为“互联网”的全世界分组数据通信网络来提供数据通信服务。局域网和互联网都使用携带数字数据流的电信号、电磁信号或光信号。携带来往于计算机系统200的数字数据的通过各种网络的信号以及在网络链路上并通过通信接口218的信号是传输介质的示例形式。

计算机系统200可以通过网络、网络链路和通信接口218来发送消息和接收数据，特别是较小的数据表示。在互联网示例中，服务器可以通过互联网、ISP、局域网和通信接口218来传输应用程序的所请求的代码。

在前面的章节中描述的过程、方法和算法中的每个可以包含在由一个或更多个计算机系统或包括计算机硬件的计算机处理器执行的代码模块中，并且完全或部分地由代码模块自动化。过程和算法可以部分地或全部在专用电路中实现。

数据变换设备104操作来变换和重新变换数据，如在本文一般描述的。

术语“数据编译器”是有启发性的，就优化编译器以将计算机代码从人更容易可理解的但非常机器低效得多的格式变换成在功能上等效的非常计算机高效得多的但大致相应地人远远不容易可理解的格式而言，而如本文所述的数据编译器(DC)通过将以高度计算机低效的位模式(其存储和四处移动在成本上是昂贵的)的形式的数据变换成可以完全或在很大程度上配合到机器的片上高速缓存内的小得多的内核来执行类似的功能，该片上高速缓存给CPU、图形或其他处理实体提供快速无损地重新计算最初输入到数据编译器中的原始位模式的能力，而相应的Turing Dekekind设备(TD)执行来自DC产生的内核的这个原始位模式的必要的高速无损重新计算。值得注意的是，将DC执行的过程考虑为“加载时间”并同样将TD执行的过程考虑为“运行时间”是有用的。

类似地，术语“Turing Dekekind设备”源自于一种方法，TD使用该方法来以可以通过考虑它所拥有的关键方法设计特征被有用地概念化的方式执行重新计算，关键方法设计特征使人有利地联想到Turing机和Dedekind切割。以引起对包含n个位的特定位模式k的组合复杂性的注意的方式以及TD通过高速处理器(例如，处理器204)经由更通用的方法的特定示例从高度压缩的内核重新计算该特定位模式k的方式考虑该特定位模式k是有用的，该更通用的方法被设计成确切地重新产生这个特定位模式k，这个特定位模式k以前通过考虑线段在加载时间由DC确定为足够有效，在该线段中从左到右的每个连续点表示位模式K1等于K0的数值加上1，其中K0表示该线段上紧挨着它的左边的点，其中在该线段上的最左边位置上的第一点表示包含所有off位的n位长位模式，而在该线段上的最右边位置上的最后一点表示包含所有on位的n位长位模式(即，其中每个线段精确地包含2**N个不同的点)，其中TD已经被特别配置为通过由一个或更多个高速处理器经由在特定内核上操作的特定指令集执行的特定重新计算来无损地重新产生的每个特定的有效的n位长位模式k表示在该线段中的Dedekind切割，特定的内核以前为了这个目的由DC根据下面描述的方法和/或通过能够由本领域中的技术人员设计和/或执行的替代和/或不同的方法由计算设备以完全自动化的方式和/或可选地用借助于人工干预而执行的这些步骤中的一个或更多个而被设计。

此外，除了引起对如经由包含2**N个点的每个线段实现的在该过程中所涉及的组合复杂性(其是更加相关的和启发性的，给定上面提到的Kolmogorov复杂性的长期存在的、目前仍然接受的可证明错误的理解)的注意之外，用于使它变得特别适合于将每个特定的这样的位模式k考虑为在该线段中的Dedekind切割的另一个原因源自于下面的现实：在几乎所有情况下，重新计算先前已经由DC在加载时间建立的位模式k以便由TD在一个或更多个运行时间执行的方法将不允许我们直接无损地重新计算k，而将使得我们能够计算与k足够接近的一些其他位模式j，使得k可以从计算j的高度压缩的内核无损地重复地被重新产生，然后在j和k之间的差异的绝对值越小初始近似就越好且误差项越小的条件下，k经由将j转换成k的误差项的加法或减法或某个其他简单函数被导出来，再次引起对Dedekind切割的特性的注意，同时展示这些设备在最典型的情况下与由设计成实现经典双向变换(例如傅立叶变换)的设备所使用的方法在最一般的比较级别上共享的方法。

同样，就过程(TD通过该过程重新计算j和/或k)是通过以已知速率继续进行的可以或可以不是单调的--对应于Turing机单向地或来回地移动磁带的能力-以已知速率进行--累加过程而言，位模式例如j和k被重新计算的方式使人联想到Turing机，使得TD最有效地无损地重新产生k的能力的关键在于DC用更小的误差项导出越来越准确的近似值的能力，误差项中的最有效的误差项最一般地由TD在运行时间执行，该运行时间基于对系统已知的精确地重复地重新产生j所需的累积速率，该方法(当TD产生位模式j时TD通过该方法停止累加)在概念上对应于Turing机与知道正确的时间来停止结合以确切的适当的预定方式单向地或来回地移动磁带。

假定TD的基本功能是在运行时间执行实施必要的重新计算所必须的程序，该重新计算在加载时间已经由DC建立，上面的简要说明连同本文提出的详细的有利实施例的描述为本领域中的技术人员提供十分足够的信息以能够实现TD。

TD是这两种设备中的概念上更简单的，就它“简单地”针对内核执行代码而言，内核和键盘都由DC交给TD，以便重新创建最初输入到DC内的位模式的某个明确指定的子集或全部，与TD相反，DC需要“执行重提升”，包括对于它接收的每个位模式k确定内核和在内核上操作的代码，为了消除存储位模式k的需要的明确目的，DC需要设计和创建该内核和代码，存储该位模式k的需要现在被TD利用高速处理器从DC需要提供给TD的小得多的内核连同代码一起重新计算k的能力代替，DC同样需要该代码来提供同样展示足够小的空间覆盖区的代码，其使得TD能够以比保存、存储及传输和检索“原样的”原始的、通常大得多的位模式k的传统遗留过程更机器有效得多的方式将DC已经将交给它的高度压缩的内核转换成原始位模式k。

注意，术语“内核”可以合理地用于提及参数和在内核上运行的代码，或可选地仅仅参数(代码对参数进行操作)，而这个潜在的模糊双重含义决不成为混淆的潜在或实际源，只要它在每一个这样的特定实例中明确地或通过上下文隐含地变得清楚，术语“内核”以这两种不同的方式中的哪一种方式被使用。

关于DC的实际运作更实质地，我们初步注意到下面的三点，其中每一点都证明在使本领域中的技术人员能够使用两种不同的方法创建DC的两种单独类型的有利实施例方面是有用的，如我们在下面将看到的：

第一，重要地，如上所述假设存在足够快的处理器连同足够的数据完整性检查，需要另外的能力来使本领域中的技术人员能够产生DC。这些由下列项组成：a)无损、准确并快速地重新计算直观地对应于一种“泵起动”的大的未压缩位模式的相当大数量的但然而成比例地极小的子集(包括通过来自小得多的高度压缩内核的循环这样做)的能力，和b)以包含n位的任何特定位模式k为目标的能力，其使得该特定位模式k或足够接近k的某个其他位模式j可以以使重新计算渐进地接近k的一系列这样的连续ja成为可能的方式被无损地重新计算，同时保持内核和重新计算来自该压缩内核的原始位模式所必需的必要代码足够小，以使该代码和该内核的全部的足够重要或更有益的子集能够配合在微处理器的片上高速缓存内部。

第二，如下所示，实现目标a)和b)以便实现DC的两种完全不同的独立方法存在——在这两种不同方法中的任一种的利用构成本发明的有利实施例同时本发明的当前已知的优选实施例一起利用这两种方法的情况下。

第三，DC单独或联合地利用来实现如上面直接提到的必要的双重功能a)和b)的这两种不同的独立方法依赖于前面提到的四个单独问题中的两个，即未能认识到Kolmogorov复杂性的在传统上接受的错误解释，其中实现下面描述的DC的第一种方法直接利用创建任意大的理论可压缩性的能力连同在对Kolmogorov复杂性的传统过度苛刻解释的第三异议中联合地提到的一系列等价关系的存在(所述双重能力展示对双重前述所需关键功能a)和b)的极其接近的非偶然概念对应性)，而独立地单独和/或联合地实现这些双重关键功能a)和b)的第二种方法仍然更有效地通过如我们在前面提到的四个问题中的第一个的说明中所提到的特性(例如虚拟存储器地址和时间戳)与上面提出的Kolmogorov复杂性的严重有缺陷的遗留解释来利用区分相同位模式的信息内容的方法。

在有用于产生DC的上述初步考虑的益处的情况下，我们直接转到所采用的技术的考虑(为了由本发明所利用的这两种不同方法中的每一种来实现DC)来以使全功能DC的创建成为可能的方式实现上述两个关键双重功能a)和b)。

首先，在DC的第一实施例中，成比例地小的数量的所有可能大小的n位模式(其仍然代表来自极小内核的不同的单独的、任意大的位模式的相对大的数字集合，该极小内核的任意大的理论压缩比实际上仅被我们的处理器的速度和执行必要的计算所需的时间限制)的创建由本领域中的技术人员经由包含小空间覆盖区和几行代码的循环通过如由大索引指示的多次迭代容易可实现。

此外，如果被认为是有用的，总体计算的速度和随后更快地、仍然产生更大的任意位模式的能力可以不仅通过额外的并行化和多核架构而且通过忽略跨越任意大小的字边界的进位以我们的已经非常大的压缩比的略微降低为代价被进一步提高。由于我们的计算的唯一要求是一致的位模式再生性而不是数学准确度的事实，也用于通过函数依赖性的降低来增加进一步的并行化的这个过程是可实现的。

也许最简单的这样的循环是任何大的幂的任何基数的浮点数。其他这种有效的循环包括但不限于对于潜在地大的k将X递归地提高k倍到N次幂，通过每k次迭代增加、减少或以其他方式在功能上变换在循环内的一个或更多个参数来周期性地改变循环内部内容，包括但不限于例如对在实平面而不是复平面中执行的Mandelbrot集合的生成函数的确切模拟、任何计算模m、任何平均值、加权平均、在两个或更多个生成函数之间的数值差或在两个或更多个生成函数的任何组合的其他简单函数、对包含常数的附加项的包括，以及各种可能的位移位操作、位模式反转、切割和/或拼接和/或不同位模式段的串联，以及执行其他简单的逻辑和/或其他数学操作连同本领域中的技术人员可识别和/或可发现的许多其他变形，所有这些可能性都可以通过包括甚至相当大的误差项或误差函数来进一步扩展，这些误差项或误差函数大致直观地等同于从大量非常大、高度压缩的不同位模式的立场开始反转鸽巢原理/计数论据，这些大量非常大、高度压缩的不同位模式仍然只代表它的总Kolmogorov复杂性的极小部分。

注意，为了避免潜在的混淆，本文提到的各种参数k并不意味着指示并且没有与如最初输入到DC内的位模式k的必要的功能或其他关系。

我们应在下文中将如上面直接所述的这样的一般高度压缩的小空间覆盖区高索引循环一组两个或更多个或者或多或少理想地近似于上面直接列出的标准的任何这样的其他计算机制称为HCSSFHIL(发音为HICKS-FILL或HICKSVILLE或LONG ISLAND)，而在下文中将在HCSSFHIL中的每个不同的计算单元——所述计算单元也许最好且最有效地由包括但不一定限于在紧接着前一段中描述的示例的高度压缩的小空间覆盖区高索引循环的类型来说明——称为“循环”，而不管这些或多或少理想地高度压缩的小空间覆盖区高索引循环计算单元中的每一个的全部内容是否完全被包含在单个循环内或在两个或更多个嵌套循环内。

虽然HCSSFHIL按照定义可以包含大于一的任何数量的循环，但在每HCSSFHIL更多循环以在TD中的更多的处理步骤为代价来提供更有效的导向机制的情况下，本发明的优选实施例中在每个HCSSFHIL中的循环的数量由实际优化效率考虑因素确定。

因此，虽然连接两个或更多个循环以形成这样的HCSSFHIL(其同样提供由DC执行以将多个循环组合成HCSSFHIL的操作的最简单的说明性示例)的最简单的手段由对在该HCSSFHIL中的每个循环的输出的数值求和以产生对应于该特定HCSSFHIL(其相关数值等于由在该特定HCSSFHIL内部的每个循环输出的不同的单独数值的总和)的合成位模式组成，但将多个循环连接在一起以产生HCSSFHIL的任何其他手段可以被利用来将两个或多个循环连接在一起以形成HCSSFHIL。因此，除了加法(其将由两个或更多个循环产生的多个位模式组合在一起以产生一般明显更长的不同位模式，其数值对应于由HCSSFHIL产生的位模式的数值，作为对照在每个HCSSFHIL内部的特定的多个循环的输出的内容执行这些可选的、不一定加法的函数中的一个或更多个的结果)之外的任何替代函数能够提供连接机制，DC利用该连接机制将多个循环转变成HCSSFHIL。

同样，类似于两个或更多个循环如何连接以形成HCSSFHIL，在下一级上向上，向DC提供输入的每个位模式(其随后将被重新计算以提供由它的相应TD产生的输出)可以但不需要被分成两个或更多个HCSSFHIL。

此外，正如求和提供可用于连接多个循环以形成HCSSFHIL的最简单的但不是唯一的有利机制一样，将位模式划分为两个或更多个HCSSFHIL(其后跟随有使TD能够在运行时间重新连接多个不同的较小的部分地重新计算的位模式以便无损地重新创建在加载时间从这些单独部分首先输入到DC内的原始位模式)的最简单的方式是首先将首先输入到DC内的整个原始位模式划分为K个单独的N位长位模式，然后每个N位长位模式如由DC在加载时间所建立的那样被单独地处理，以便由TD在运行时间通过串联来重新组合。尽管仍然再次类似于如上所述的两个或更多个循环的组合以产生HCSSFHIL，但用于首先将位模式划分成两个或更多个HCSSFHIL的任何函数可以在本发明的实施例中被使用，HCSSFHIL的逆运算然后用于在运行时间重新组合由此得到的输出，以便无损地重新产生原始位模式。

返回到我们的压缩性和确定目标的双重目的的考虑，注意在上面的b)中表示的必要的确定目标功能，如在Turing和Dedekind方法的我们的先前讨论中已经直观和实质性地描述的(Turing和Dedekind方法如我们对TD的初始描述中以及在对无损地将在包含小空间覆盖区的内核内部的少量参数扩展成多个理论上任意大的位模式的能力的先前说明中说明的)，通过利用与一系列等价关系组合的高速处理器，这个能力作为单独但相关的功能等价的结果而在一组其他不同的单独位模式当中自动建立，该功能等价使如以前已经在我们的四个论据中的第三个中说明的从具有极端地、在理论上任意高的压缩比的较小数量的位模式到具有轻微到稍微更小的压缩比的明显更大数量的位模式的压缩比的“趋于平滑”成为可能，这四个论据暴露在如上面提到的Kolmogorov复杂性的长期接受的错误理解中的谬误(其如已经提到的可以有用地、直观地被理解为反向运行基本鸽巢原理/计数论据))。进一步注意，为了实现本发明的一个或更多个实施例，如上所述的这些特定原理和技术能够根据下面直接呈现的细节来实际地实现。

考虑HCSSFHIL如上所定义的包含多个循环，在当DC通过循环和HCSSFHIL的连续迭代继续进行时DC顺序地创建它们以便使它随着每次迭代输出的每个最终结果位模式ja越来越接近DC的输入位模式k的值的过程中，注意，包含每个HCSSFHIL的每个循环可以在此过程中有用地被设想为表示生成函数或具有相关值的特定位模式或随时间的过去动态地变化的混合状态，作为以下项的函数：它的内部循环参数的总体是否为常数(在这种情况下，循环输出具有相关数值的位模式)，或者该循环的一个或更多个参数(其可能包括循环的循环索引)是变量(在这种情况下，循环可以更有用地被设想为生成函数)，或者循环执行的迭代的次数是否由某个其他停止事件例如中断来确定(在这种情况下，循环在它停止之前起正在进行的生成函数的作用，在被停止的点处，循环输出并促成HCSSFHIL，该循环是该HCSSFHIL的一部分，具有该循环的特定相关数值的特定位模式)。

此外最重要地，注意到除了包含这些循环中的每一个的HCSSFHIL之外，在特定HCSSFHIL内部的每一个循环还展示对DC已知的且用已知的第一和第二以及可能更高的导数可表示的该每一个循环自己的特定累积率，基于此，CD总是可以改变在其循环中的一个或更多个参数，包括但不限于确定循环何时停止的索引，以及DC总是可以添加具有特别选择的参数的新循环和/或DC可以以总是可以被设计为确保每个连续的新设计的“下一迭代”HCSSFHIL输出的新改变的位模式ja+1将包含相关数值的方式来移除HCSSFHIL已经包含的一个或更多个循环，该相关数值比它的紧接着前面的“前任”位模式ja的相关数值更接近如由位模式k的唯一相关值所确定的该相关数值的目标，HCSSFHIL正试图最佳地逼近该目标，如最终由对应于最初输入到DC的位模式的唯一相关输入值和更接近地近似于最初作为DC的输入呈现的位模式的相关值的任务是否以前如上面所讨论的在2个或更多个HCSSFHIL当中被划分来确定的。

接下来注意，除了DC已经处置的杠杆(包括但不限于上面直接指示的用于确保每个新位模式ja的相关值将更接近地近似于目标位模式k的相关值的那些杠杆)的总体之外，还可以利用本领域中的技术人员已知的各种其他工具，以便使DC能够更有效地逐步通过上述迭代过程。

这样的额外的改进(包括但不限于被设计成更好地近似于各种中间目标值的计算，包括预先计算某些逆运算，例如取连续的根而不是连续的幂来产生更好的近似，以及由实验数学家通常使用的一系列各种统计和/或复杂计算优化方法，尤其包括但不限于各种整数关系检测技术，例如PSLQ连同各种更复杂的更快加权平均和/或截断二进制搜索技术，例如由Daniel g7J Bernstein规定的、如在他的关于在基本上线性的时间内寻找素数的工作过程中规定的那些技术)当以对本领域中的技术人员明显的方式被使用来更好地优化如上所述的DC和/或TD的操作时都被认为代表本发明的组成部分。

值得提到的本发明的一个特定的这种替代实施例包括在将位模式k输入到DC之前利用现有的已知标准压缩方法来首先更好地随机化位模式k的可能性，以便以执行这种标准数据压缩所需的时间为代价来产生下面的可能的双重优点。包含更随机的位模式的位模式k的优点包括利用通过由于与非随机位模式相关联的统计异常而大大降低任两个任意位模式将以极大地不同的速率通过上述迭代过程继续进行的可能性而产生的可能的分布结果的增加的“平滑度”，统计异常可以或可以不积极或消极地影响前面提到的迭代过程将由DC成功地结束的速率。起初随机化最初输入到DC的位模式k的第二个潜在优点在于积极利用将应用于位模式的极小子集的统计异常，该子集拥有与给定的高度随机化的输入位模式k的必要的等价关系，这种技术的潜在优点在原始位模式k占据足够小的空间覆盖区和/或原始位模式k可以被充分有利地细分成这样的更小的段的极端情况下是最明确地明显的，并且这种技术的潜在优点通过广泛的多核架构或其他这样的方法来利用具有大规模并行化的可能的大的昂贵服务器，其他这样的方法使我们能够实现足够快的平均处理速度，足够快的平均处理速度将使我们能够利用如下面直接定义和描述的下述“RooseveltIsland”方法作为上面已经描述的迭代过程的替代实现。

在这种情况下：在位模式k的内容已知被高度随机地分布的情况下简单地基于位模式k的Kolmogorov复杂性仅从位模式k的大小得到特定位模式k的每个统计上的一对N(one-in-N)的随机变换，我们可以平凡地明显地以极高程度的统计确定性预先知道这些变换，以及此外在这种情况下：DC可以在具有足够处理能力的计算机上实现，以在被认为在运行时间执行是合理的时间窗口内执行必要的N个操作和测试N个可能的合成位模式，而不管如以目标时间单位测量的处理器的数量和平均速度且不管被认为执行由DC创建内核和代码所需的必要运行时间是合理的时间量(如同样以任何这样的目标时间单位例如秒、年等测量的)，DC能够简单地通过执行如上所述的N个随机位模式变换和测试来执行DC的所需的所有操作，直到DC“命中”正确的一个操作为止，此时DC只需要传送它现在对TD可用的适当代码和内核，使得TD能够在运行时间执行这些操作。

关于DC在极端的“Roosevelt Island”条件下或如前所述的普遍得多地预期的“正常”情况下的操作，通常假设如在例外的“Roosevelt Island”情况下以及在此之前描述的正常得多的一般情况下如上所述的“直接命中”，DC确定能够由TD无损地准确地计算的位模式最一般地仍然不展示与输入到DC的目标位模式的确切的一对一位对位对应，但更确切地，在输入到DC的位模式的相关数值和DC产生并提供给TD的输出位模式中的差异足够小，使得我们定义为相关“误差项”的该数值可以直接被提供为具有足够小的空间覆盖区的不同的单独位模式(作为其低相关数值的微不足道的结果)，或可选地，在函数和计算它所需的代码本身都拥有足够小的空间覆盖范围的条件下，对DC已知的这个误差项的某个函数能够作为内核的一部分被提供。包括在DC采用本领域中的技术人员已知的标准方法(例如，当利用实验数学方法例如前面提到的整数关系检测方法时)以便揭示如上所述对误差项有效地编码所需的函数以及同样采用可以由DC在实现本发明的实施例时利用的本领域中的技术人员已知的其他这样的方法以便以利用其他已知方法以进一步减小表示在内核内部的误差项所需的空间覆盖区的大小的方式经由函数的使用来直接或间接地表示误差项的情况下，能够满足这些要求的必要的先决条件将被认为被满足。为了提供一个这样的简单示例，考虑在大服务器上的DC的实现广泛地利用在多核架构中的很多内核和/或提供非常有效的快速并行化的其他手段——其提供不引起与功能依赖性有关的相关问题的n倍并行处理能力，并且此外考虑到在该大服务器的正常运行的过程中，这个同一服务器将被利用来在运行时间实现TD，并且该TD将在实现DC提供给它的操作的过程中在服务器的n个可用并行处理节点中的每一个上快速执行m个操作，等于误差项的1/m*n倍的较小的分数部分x和/或其某个更小的函数可以存储在内核中，使TD能够在运行时间无损地重新计算最初输入到DC内的位模式。

如已经规定的，满足由DC在加载时间执行和由TD在运行时间执行的双重必要的高压缩性和准确确定目标功能(在上述说明中被指定为“a)”和“b)”)的一系列附加方法代表本发明的重要方面。利用进一步区分两个或更多个不同的信息内容的替代手段的在本文直接描述的这些附加方法——不管它们都展示它们共同享有的相同位模式的事实，如上面在提到关于Kolmogorov复杂性的四个普遍接受的谬误中的第一个的章节中在前面顺便提到的——在下面的情况下构成本发明的替代实施例：这些实施例中的每一个可以独立地被实现但本发明的优选的有利实施例利用这些方法。

此外，如在本说明中以本领域中的技术人员可有用地理解的方式所指示的，各种已知技术(包括但不限于基于各种算术值计算的技术和统计技术连同从实验数学的领域获取的技术)使DC能够基于它对在手边的问题的广泛知识来利用相对大的一组更精确的导向技术，如下面在本说明中的其他地方更详细描述的。这些技术(包括例如诸如PSLQ(源自于PSLQ对平方向量和LQ(下对角正交)矩阵因式分解的部分和的使用的缩写词)的技术的使用)和如已经提到的其他整数关系检测方法不仅可以有用地应用于任务(例如进一步降低在内核内部的误差项的空间覆盖区)，而且还可以用于找到更有效的路径，该更有效的路径如本文所述的经过多个迭代，得到对单独LOOP或HCSSFHIL特定的一系列ja项以更有效地接近某个目标k。基于如由这样的方法所揭示的这样的更深入的知识，DC可以采用一个或更多个迭代，其中两个或更多个连续的ja可以暂时远离k移动得更远，以便找到在对DC已知的这些特定情况下比它利用更直接的路线更快地接近k的路径。注意在这一点上，当我们在本说明中早些时候写到DC的总是能够找到越来越近地接近k的一系列连续ja的能力时，我们提到具有DC执行关键有用的操作以实现它的目标的能力的重要暗示的重要的真实原则，但在该说明中没有什么东西应该被解释为阻止DC利用更优化的路径来将在j和k之间的距离大大降低到该距离可以由足够小的误差项直接表示的程度，误差项涉及DC如上所述有目的地选择两个或更多个连续迭代，这临时增加在j和k之间的差异的绝对值。

而且，还有实现更小的空间覆盖区的其它一般常常特别投机取巧的手段和/或进一步加速重新计算的手段和/或其它处理和/或实现这些方法的其它手段和/或对于本领域中的技术人员明显的和/或已知的装置，当与如本文所述的本发明的方法和/或装置结合来使用时也被考虑为本发明的一部分。这种方法包括但完全不限于利用大量精确地准确的统计数据(DC对其可用)的上面规定的方法，包括例如最初输入到DC的位模式的每个子部分的知识以及能够产生不同的相关数值的切开和切割DC的不同方式，以及在这些多个可能的切开和切割操作下DC的每个单独段的其他这种明显有用的逻辑逐位确定属性，连同在这些部分中的每个之间的距离的数值的完整知识以及已知生成函数的已知的高度可压缩的小空间覆盖区的大集合，生成函数的变化的累积率对DC也是已知的，并且可以渐近地目标直接地被修改，然而DC发现是最有用的，如上所述。但这并不是DC随意处置的工具的几乎无遗漏的类型。

例如，考虑由本发明利用的关键方法之一的使用，该关键方法之一通过除了位模式以外的替代手段来表示实质性信息内容，位模式区分在两个或更多个位模式之间的基础信息内容，两个或更多个位模式否则例如按照虚拟存储器地址、时间戳和/或其他标准是逐位相同的。下面描述的这些附加方法包括但不限于方法，通过该方法，表示信息内容和/或区分两个或更多个以其他方式相同的位模式的数据表示功能的这些替代手段通过访问对应于相关数值和/或这些值的函数的位模式的大存储库来实现，这些数值在元数据和/或其他内务管理或其他任务中被表示、由元数据和/或其他内务管理或其他任务计算和/或以其他方式被发现被包含在元数据和/或其他内务管理或其他任务中和/或被元数据和/或其他内务管理或其他任务“选排”，这些任务形成正在进行的计算机运行和/或辅助数据处理操作的某个组成部分，如在上面所提到的和在下面更详细描述的。表示信息内容的这种手段可以经常经由多个指针、映射和/或其他服务于实质上相似和/或相同的有用功能目的但其空间覆盖区常常是相当不同的内容标记、内容引用和/或内容识别指示和/或过程来表示。考虑例如小系列时间戳和/或虚拟存储器地址，其本身是64位实体，但可以通过它们在列表中的顺序或位置和/或通过某个其他指针机制——包括例如通过可以用于唯一地识别特定数据项的指针和/或映射的递归系统——来被唯一地识别，其中这些指向(pointing)或其他这样的功能实体常常可以作为例如在更大更复杂的层次结构中的不同级别处指向的不同项目的数量的函数由不同长度的指针表示。例如，考虑指向更大系列的250个指针的十几个指针的列表，250个指针指向64k个不同的唯一虚拟存储器地址的有序列表，从而使4位指针能够指向8位指针以指向可以表示如由DC在0和2**64(选择64k乘64k阶乘)之间预先确定的任何值的唯一数字。利用这些和/或其他类似的方法以进一步减少内核的必要空间覆盖区都用于构成本发明方法的另外的有利实施例。同样，许多这样的其它机会，例如有利地利用在共享存储器系统的正在进行的运行中表现的不同的相互关联的复杂映射和/或源自于不同类型的关联或非关联片上高速缓存的使用的不同的复杂独特的组合映射和/或通过例如计算在64位时间戳的相对小的列表中的多个有效32位段之间的差异的某个函数来指定大的位模式的数值或可以在功能上用于唯一地识别大的位模式的某个数字，所述64位时间戳由它们在相对短的有序列表中的相应位置或它们的相应位置的某个函数唯一地指定给TD，所述操作能够在多个单个或嵌套循环中重复地并且可能递归地被执行，所有操作连同本领域中的技术人员已知或容易发现的许多其他类似和/或相似的方法一起提供进一步降低内核的空间覆盖区的另外的手段，其进一步构成代表本发明的组成方面的新方法。

如已经规定的，这些额外的方法利用区分两个或更多个位模式的替代手段，而不管它们展示本发明的逐位相同的位模式特征的事实。如已经指示的，它们提供更大的可压缩性和更有效的目标确定，并且它们可以在如上所述使j的系列能够在k上更有效地收敛方面和同样在更有效地表示我们的误差项方面提供这两个优点。并且如已经示出的这些方法最重要地当在两种非常不同类型的位模式上操作时提供这些改进，我们可以有用地将这两种位模式分类为“DID”和“C”，如下面直接定义的，其中“DID”以包含显著的不连续性为代价代表非常大数量的非常长的可能任意大的位模式(例如从上述高度压缩的生成函数输出的那些位模式)，而“C”代表有用的“填充”位模式以基于它们在a和b之间的显著范围内在没有不连续性的情况下采用任何任意值或任何任意值的任何任意函数的能力来更有效地处理这些不连续性的影响，如由下面的事实展示的：在该方法的正常操作的过程中，计算机以已经指示的方式产生许多任意位模式，而时间戳和虚拟存储器地址例如可以被“预设”为任何64位值而没有不连续性，这些区别的重要性和不同的效率能力每个对本领域中的技术人员是明显的。

确定例如在其他元数据当中的哪些特别地取值的存储器地址和时间戳与哪些特定数据项和操作相关联或被分配给哪些特定数据项和操作的能力先前被如下现实抑制：在现代计算机系统中移动、操纵和利用大的位模式(与本发明实现的从已经完全或几乎完全驻留在片上高速缓存中的内核快速重新计算那些位模式相反)是需要复杂的耗时例程的存在的足够艰巨的非常低效的过程，这些例程通常由操作系统和/或其他系统软件的一些部件执行，或者在更低的一些过程中更接近硬件并且更不可访问，这些例程被专门设计为最佳地优化计算机操作的所有这些方面，包括不同数据在什么虚拟存储器地址处被最低效地存储，以及在什么时间和以什么时间顺序对该数据执行数据处理操作。摆脱了这些限制，DC能够将像虚拟存储器地址、时间戳和系统已知的其他元数据参数一样的东西分配给具有特别选择的相关值的特定位模式，这些特别选择的相关值然后作为由TD执行的数据重新计算的一部分以至少提供下面的所有主要优点的方式被利用：

a)使TD能够以相当小的空间覆盖区明显更快地执行TD的计算的、对本领域中的技术人员不言而喻的可压缩性和目标确定的优点已经用上面的示例被说明。在DC驻留在一台计算机例如服务器上而TD驻留在另一台计算机例如客户端上的实现中，类似的优点可以通过利用例如频率、信号强度、传输速度变化等的网络传输的特别选择的方面对这样的信息编码来在数据传输过程中以本领域中的技术人员已知的方式提供。

b)本发明的这一方面提供了实现实时更新的能力(在传统数据压缩中不存在的能力)，就位模式的最终输出值以DC已知的确定性方式部分地依赖于例如虚拟存储器地址和/或时间戳和/或其功能的因素而言，通过以使TD输出新改变的位模式的方式改变相关虚拟存储器地址和/或时间戳和/或其他元数据存储库和/或其功能的值，可以实现对大比特流的某些段进行快速动态改变。注意，虽然该方法利用在存储和在反向方向上的处理之间的基础功能双向等效(即，通过改变存储位置以改变数据值)，但实际上不需要物理地移动任何位模式，因为例如在改变虚拟存储器地址分配以更新数据值的情况下，适当的改变可以通过DC改变标签信息来适应。

在代表虚拟存储器地址、时间戳或其他元数据的例如64位实体中的这种改变可以用于编索引目的，提供访问在任意指定的点处开始或停止的整体位模式的一部分的能力。注意，这可以利用在例如64位实体(例如虚拟存储器地址或时间戳或一些其他元数据存储库)中的位模式的子集来实现，和/或它可以在位置上被表示，和/或其某种组合，这对于例如在以适应两个或更多个独立编索引标准的方式执行这种编索引时可以是有用的。例如，考虑在一部四个半小时长的电影中每秒需要14位(其可以用来表示任何任意选择的开始和/或停止点)来区分。因此，如果我们想要像在本示例中的那样搜索对应于相应大小的分数部分的开始点(注意DC和TD的优点——知道DC和TD的每个子部分的所有导数，并且同样注意随机化的可能的另一优点)，而不是从开始到结束顺序地遍历片上高速缓存，我们将从存储在虚拟存储器地址处的高速缓存行开始直接到达高速缓存位置，该虚拟存储器地址在它的虚拟存储器地址中包含适当的相关联的14位段(可以通过选择被设计成促进这些类型的搜索的相关高速缓存方案而容易加速的任务)。此外，可选地，基于知道累积率的所有导数和平滑程度，我们可以在没有这种索引的情况下计算适当的位置开始点，并且可选地可以利用混合机制，其适应在高速缓存行内的某个特定位置处按位搜索特定子位置的能力。

注意，当不用于这些目的时，位置信息可以用于其他目的，包括更有效地对信息编码。例如，在固定或至少已知大小的单元正被交换操作处理的情况下，该计算的最终结果将是顺序不变的，这允许DC根据某种排序原则(例如，在该二进制位模式内的适当长度的那个子部分的相关数值)放置单元的顺序，且然后基于n！可能的置换排序中的哪个事实上被选择来对另外的信息编码。

此外，注意，虽然上面的定义指定输入到DC内的每个位模式由一个或更多个HCSSFHIL表示并且每个HCSSFHIL由两个或多个循环表示的情况，但整个输入位模式能够从单个循环被重新计算的情况也被认为是本发明的实施例。

图3(a)、3(b)和3(c)示出DC和TD的多种可能的实现。图3(a)示出主要或全部驻留在单个计算机上的片上高速缓存中的DC和相应的TD，其中DC建立(在加载时间)处理操作和数据参数，这些数据参数形成TD将操作于的内核，以快速无损地重新产生最初输入到DC内的位模式。图3(b)示出当DC驻留在一台机器(例如服务器)上而包含内核的TD主要或全部驻留在单独机器(例如客户端)的片上高速缓存中的情况下实现的相同功能。图3(c)与图3(b)区分开，因为向DC提供输入的位模式发源于除了服务器之外的机器，而不是发源于可以是或可以不是客户机的另一机器。

图4示出为所有N提供任何大小的N位模式的组合复杂性的视觉表示的向量，该向量还提供示出由在加载时间的DC和在运行时间的TD执行的操作的N个不同的但相关的集合的模板。向量本身包含每个可能的位内容的概念表示，位内容可以被表示为大小N的位模式，例如，它包含以全0开始并以全1结束的2**8N个元素，其中每个元素的相关数值等于紧接在它前面的位模式的相关数值加上1。表示在对应于被指定为k的该向量的线段上的某个位置的一个这样的位模式表示在加载时间被输入到DC的特定位模式，该特定位模式同样确切地对应于在运行时间由TD输出的位模式。DC和TD通常产生一系列其他不同大小的N位模式，这些模式被设计成越来越接近位模式k的数值，每个位模式k由特定的Ja指定。由DC产生的连续J值通常被迭代地改变，而由DC产生的最后一组Ja对应于由TD利用的Ja。

图5示出HCSSFHIL，其示出它由两个或更多个循环组成，每个循环表示产生输出位模式的生成函数，输出位模式包含使它有资格作为如由HCSSFHIL的描述性名称所表示的HCSSFHIL的特征。这些循环由可以表示加法或任何其他函数的一个或更多个不同的运算连接。

图6示出顺序地迭代的HCSSFHIL如何由DC产生，每个HCSSFHIL输出特定的J值，其然后被改变以产生输出下一个J值的下一个HCSSFHIL。

图7示出DC如何利用包括但不限于虚拟存储器地址和/或时间戳的元数据项来变换可能包括DC的误差项的表示的DC的一些或所有参数，以降低空间覆盖区和/或增加TD将通过一种方法实际上存储和利用的参数的计算能力，在该方法中，这些参数中的一个或更多个本身从在虚拟存储器地址、时间戳和/或其他元数据中包含的位模式和/或从在虚拟存储器地址、时间戳和/或其他元数据中包含的位模式的函数被重新计算。

图8示出TD如何在运行时间实现类似的操作。因此，它表示在图7中所示的反向操作，使得图8的输出确切地对应于图7的输入，而图6的输入确切地对应于图7的输出。

图9表示在这些规范中描述的迭代步骤，其逐步示出从输入位模式k开始的DC如何执行产生以内核的形式产生DC的输出的一系列迭代步骤，DC将输出递给TD。步骤一和二表示通过应用例如传统的压缩方法和过程来最初随机化位模式k，DC可以使用或不使用这些压缩方法和过程来优化计算它的初始j值的第一次迭代。然后，DC通过这里所示的各个步骤迭代以提供一系列附加的j值，其目的是更近地接近原始位模式k。DC在每个阶段根据它的内部测试标准测试它是否足够接近，其后它可以或可以不实现图7所示的另外的步骤以进一步提高将形成TD将实现的内核的操作和/或数据的效率，该另外的步骤包括通过进一步降低TD的空间覆盖区。

Claims

1.一种系统，包括：

至少一个处理器，其具有一个或更多个核心；以及

存储器，其部分地包括配置所述至少一个处理器以执行方法的指令，所述方法包括：

接收具有数据长度的数据集；

确定所述数据集的位模式；

生成位模式的参考集合，所述集合具有设定长度，所述设定长度等同于所述数据长度，所述位模式的集合包括从全0到全1的每个可能的不同位模式；

使用应用于测试数据的第一位模式生成函数来确定第一测试位模式；

使用所述第一测试位模式的位置和所述数据集的所述位模式的位置来确定在所述第一测试位模式和所述数据集的所述位模式之间的距离，所述位置是相对于位模式的所述参考集合的；

在所述数据集的所述位模式的方向上迭代所述第一测试模式生成函数，并将所述第一测试模式生成函数与至少一个第二测试模式生成函数组合以确定应用于所述测试数据的第二测试位模式；

使用所述第二测试位模式的位置和所述数据集的所述位模式的位置来确定在所述第二测试位模式和所述数据集的所述位模式之间的距离，所述位置是相对于位模式的所述参考集合的；

如果在所述第二测试位模式和所述数据集的所述位模式之间的距离在阈值距离内或等于阈值距离，则基于所述阈值距离来生成误差函数并提供位模式函数和所述误差函数以重新产生所述数据集，所述位模式函数等同于所述第一测试模式生成函数的迭代以及所述第一测试模式生成函数与所述至少一个第二测试模式生成函数的组合；以及

基于所述位模式函数和所述误差函数来恢复所述数据集。