CN110990603B

CN110990603B - 用于分段图像数据的格式识别的方法和系统

Info

Publication number: CN110990603B
Application number: CN201910992848.XA
Authority: CN
Inventors: M.查里卡; D.拉马克里什纳
Original assignee: EMC Corp
Current assignee: EMC Corp
Priority date: 2012-08-21
Filing date: 2013-06-30
Publication date: 2024-02-27
Anticipated expiration: 2033-06-30
Also published as: CN104718706A; EP2888819A4; US20140059091A1; EP2888819B1; WO2014031241A9; WO2014031241A3; US9384218B2; CN104718706B; CN110990603A; US10114839B2; US9495390B2; US20140059021A1; US20140059022A1; WO2014031241A2; EP2888819A2

Abstract

公开对于分段数据的格式识别。在一些实施例中，接收包括连续性性质的输入信息流。确定流的至少一部分的格式标识符，其中该格式标识符包括数据表示大小、组大小和与连续性性质一致的对齐。使用选择的压缩技术基于格式标识符来压缩信息流以产生压缩流，并且存储压缩流。

Description

用于分段图像数据的格式识别的方法和系统

对其他申请的交叉引用

该申请要求于2012年8月21日提交的题为FORMAT IDENTIFICATION FORFRAGMENTED BYTE ALIGNED INTEGER IMAGE DATA（分段字节对齐整数图像数据的格式识别）的美国临时专利申请号61/691,737的优先权，其为了所有目的通过引用合并于此；以及2012年8月21日提交的题为FORMAT IDENTIFICATION FOR FRAGMENTED BYTE NON-ALIGNEDINTEGER IMAGE DATA（分段字节未对齐整数图像数据的格式识别）的美国临时专利申请号61/691,740的优先权，其为了所有目的通过引用合并于此。

背景技术

在许多应用中，具有不同格式的数据片段或包典型地采用相同的方式处理。这样的无差别处理可能不是高效或最佳的。

附图说明

本发明的各种实施例在下列详细描述和附图中公开。

图1图示输入数据的数据结构的实施例。

图2图示序列的连续性性质的实施例。

图3图示计算拟合惩罚的实施例。

图4A-4B图示小字节序和大字节序格式的实施例。

图5图示包括片段的典范布局的各种元素的实施例。

图6图示对于输入图像片段的数据模型的实施例的各种特征。

图7图示对于窗口的完整格式识别的过程的实施例。

图8图示用于基于关于之前窗口的识别格式的信息来识别输入窗口的数据格式的过程的实施例。

图9图示用于识别未知窗口的数据格式的过程的实施例。

图10图示接受分段数据作为输入的存储系统的实施例的高级图。

图11图示其中在写到存储之前在压缩期间采用数据类型识别的过程的实施例。

图12图示其中在从存储读取时在解压期间采用数据类型识别的过程的实施例。

图13图示WAN环境的实施例。

图14图示传送和接收WAN优化过程的实施例。

具体实施方式

本发明可以采用许多方式实现，包括作为：过程；设备；系统；物质组成；计算机可读存储介质上包含的计算机程序产品；和/或处理器，例如配置成执行存储在存储器（其耦合于处理器）上和/或由该存储器提供的指令的处理器。在该说明书中，这些实现或本发明可采取的任何其他形式可称为技术。一般，公开的过程的步骤的顺序可在本发明的范围内更改。除非另外规定，例如描述为配置成执行任务的处理器或存储器等部件可实现为暂时配置成在指定时间执行任务的通用部件或被制造来执行任务的特定部件。如本文使用的，术语‘处理器’指一个或多个装置、电路和/或处理核，其配置成处理例如计算机程序指令等数据。

本发明的一个或多个实施例的详细描述在下文连同图示本发明的原理的附图一起提供。本发明连同这样的实施例描述，但本发明不限于任何实施例。本发明的范围仅由权利要求限制并且本发明包含许多备选、修改和等同物。在下列描述中阐述许多特定细节以便提供对本发明的全面理解。为了示例目的提供这些细节，并且本发明可根据权利要求实践而没有这些具体细节中的一些或全部。为了清楚起见，在与本发明有关的技术领域中已知的技术材料未被详细描述使得不会不必要地掩盖本发明。

格式识别（字节-对齐的）

本文描述用于识别独立于图像/传感器数据的报头或余下部分的字节对齐的整数图像/传感器数据的片段的数据格式的技术。在各种实施例中，确定输入数据是否包括具有连续性性质的数值的序列（或值的组）。在一些实施例中，每个值包括这样的整数，其的表示取整数个字节（即，对于小的整数k是1、2、3、4或k个字节）。

表示格式

在一些实施例中，输入数据包括同质图像数据片的级联，其在本文有时称为“段”或“片段”。例如，输入数据可包括来自一个或多个图像文件（其具有一个或多个格式）的段。

图1图示输入数据的数据结构的实施例。如描绘的，输入数据100包括段序列。分解图102图示段104的格式。对于段104，整数表示大小(k)是四个字节，组大小(t)是三个整数（即，十二个字节），并且对齐(a)是两个字节。

在一些实施例中，段的长度不是先验已知的，并且要确定段之间的（近似）断点。在一些实施例中，每个段中的数据包括整数值序列，其中每个这样的值使用少量字节（即，对于小的整数k是1、2、3、4或k个字节）表示。在图1的示例中，段104包括红(r)、绿(g)和蓝(b)信道，并且每个信道由整数值表示。在一些实施例中，表示大小（即，用于表示每个值的字节的数量）在每个段中始终恒定，但可跨段变化。在一些实施例中，第一完整的k字节整数的表示可在段的字节1、2…k处开始，即，段边界可不与用于表示单一整数值的k个连续字节的集的起始一致。在各种实施例中，段中第一完整的k字节整数的开始位置称为“对齐”(a)。

此外，整数值序列可组织成具有连续值的组。每个组中的值的数量是小的整数t。例如，在段包括红、绿和蓝信道的情况下，每个组包括三个整数值，其对应于相应的红、绿和蓝信道。在一些实施例中，组大小跨段是恒定的，但可以跨段变化。对于组中的每个位置i=1…t，假设包括每个组中的位置i中的值的子序列展现连续性性质。也就是说，预期任何这样的子序列中的连续值是接近的。在每个组包括三个整数值（其对应于相应的红、绿和蓝信道）的示例中，预期来自连续组的红整数值接近、来自连续组的绿整数值接近并且来自连续组的蓝整数值接近。

图2图示序列的连续性性质的实施例。如在图2中描绘的，具有红、绿和蓝整数值的序列200包括快速变化序列，其由包括每个信道的缓慢变化组成子序列组成。

在各种实施例中，格式识别过程的目标包括（近似）识别段之间的断点以及对于每个段识别整数表示大小（即，用于每个整数的字节k的数量）、对齐a和组大小t。

连续性性质的测量

在各种实施例中，在连续性性质测量阶段期间，检查指定输入数据的连续性性质，并且做出输入数据如何很好地拟合特定格式的确定，例如之前提到的包括具有t个值的组中的k字节整数值的格式。注意这在还未确定段边界和对齐的情况下进行。实际上，来自该阶段的连续性性质测量将用于促使段边界和对齐的确定。在该阶段中，检查指定输入数据中的多个位置（例如，对于参数s每隔s个字节处的位置）。对于每个这样的位置，检查该位置的局部邻近中的字节，并且基于此来对考虑的(k, t, a)的每个选择分配“拟合惩罚”，其中k是整数表示大小，t是组大小，并且a是对齐，其可由具有可能值1、2…k的整数表示。在各种实施例中，(k, t, a)元组称为“格式标识符”。

考虑下列用于分配拟合惩罚的示例技术，其中在位置i处测量连续性性质，其具有表示大小k和组大小t。让v_k,t(i)成为t维向量，其的坐标是由在位置i、i+k、i+2k、…i+(t-1)k中开始的k个连续字节表示的整数的值。对于取0、…、k-1中的值的j，比较向量v_k,t(i+j)和v_k,t(i+j+kt)。对于该k、t的选择的拟合惩罚，a=(i+j) mod k是适当选择的这些向量v_k,t(i+j)和v_k,t(i+j+kt)的函数。理想的拟合惩罚函数是这样的函数，其的值对于正确的k和t的选择（即，在k和t的值与数据的实际表示大小和组大小匹配时）是最低的并且这时j使得位置i+j对应于代表整数值的k字节窗口的开始。注意因为每个整数具有k字节表示，这也意指位置i+j+k、i+j+2k、…i+j+(t-1)k对应于代表序列中的连续整数值的k个字节窗口的开始。从而，对于该k、t和j的选择，向量v_k,t(i+j)的坐标简单地是序列中的t个连续整数值，并且v_k,t(i+j+kt)的坐标是序列中的接着的t个整数值。

图3图示计算拟合惩罚的实施例。具体地，图3直观地示出正确对齐为什么将产生拟合惩罚的最低值。在指定示例中，段300包括红(r)、绿(g)和蓝(b)信道，其中整数表示大小k是四个字节并且组大小t是三个整数（即，十二个字节）。如示出的，在对齐302错误的情况下，连续红整数值（如由向量v₁和v₄表示的）之间的差是高的，连续绿整数值（如由向量v₂和v₅表示的）之间的差是高的，并且连续蓝整数值（如由向量v₃和v₆表示的）之间的差是高的。然而，在对齐304正确的情况下，连续红整数值（如由向量r_i和r_i+1表示的）之间的差是低的，连续绿整数值（如由向量g_i和g_i+1表示的）之间的差是低的，并且连续蓝整数值（如由向量b_i和b_i+1表示的）之间的差是低的。

在各种实施例中，可关于上文描述的方案采用任何适合的拟合惩罚函数。接着描述拟合惩罚函数的一个示例。该拟合惩罚函数逼近对连续组中的对应值之间的差编码所需要的输入的每字节平均位数量。对于位置i和k、t和j的特定选择，让u(r)指示v_k,t(i+j)的第r个坐标并且让v(r)指示v_k,t(i+j+kt)的第r个坐标。示例拟合惩罚函数是。

确定表示格式和段之间的边界的算法

在输入中的各种位置处计算的拟合惩罚函数给出关于每个采样点处的表示长度k、组大小t和对齐a的可能值的信息。如描述的，对于任何点的正确格式标识符(k, t, a)可能具有分配给它的低拟合惩罚。然而，在一些实施例中，该逐点信息在几个位置处可能是有噪的并且不正确（例如，由于数据自身中的噪声、数据中报头字段的存在，等）。为了做出对于邻接数据片的正确格式标识符的高置信度评价并且确定段边界，在一些实施例中，使用下列两个原理。

首先，预期对于邻接数据片的正确格式标识符(k, t, a)一致地对于大量连续样本点具有低的平均拟合惩罚。合理的假设是在大量样本点上具有最小分数的元组对于那些样本确实是正确元组。因此，对于大的区间，如果没有格式标识符实现低拟合惩罚（例如，如由适当选择的阈值测量的），可以推断该区间中的数据不是平滑变化的整数值序列。

其次，连续段（其的对应格式标识符不同）之间的边界可以通过检测实现长期最小平均分数的(k, t, a)元组中的改变而检测。注意这将不检测其对应格式标识符相同的连续段之间的边界。为了例如压缩等某些目的，不需要这样的连续段之间的区分。对于重要的是识别这样的段边界的情况，这可以在两个阶段中进行：首先识别其中对应的格式标识符改变的段边界并且然后识别由第一阶段识别的每个“段”内的另外的断点。该第二阶段可以通过计算值序列的适当选择的统计性质并且检测这些统计性质中的改变而执行。这样的统计性质的示例包括连续组的对应值中的差的方差的度量或具有t个桶（每个组位置一个）的方差直方图。

存在前面提到的两个原理可以适用于确定段边界并且对每个段分配格式标识符所采用的若干方式。接着描述证明这些原理的使用的一个示例技术。到该过程的输入是输入数据中位置的序列i=1、2、…m。对于每个这样的位置i，对于每个考虑的格式标识符(k,t, a)，拟合惩罚指示为s(i, (k, t, a))，其中低值指示很好的拟合。过程的目标是对每个位置i=1、2、…m分配格式标识符标签f(i)，其中f(i)是(k, t, a)元组。为了这样做，限定目标函数，其将对位置的格式标识符标签的每个分配f(i)分配数值。由该过程输出的分配将是使该目标函数最小化的分配。成本函数使用标度参数C并且限定如下：

其中如果，/>是1并且如果/>则是0。

成本函数惩罚格式标识符到连续位置的分配中的改变，从而促进相同格式标识符到邻接位置集的分配。同时，将格式标识符f(i)分配给位置i对成本函数添加s(i, f(i))的贡献。这促进具有低拟合惩罚（即，很好的拟合）的分配，从而加强格式标识符的分配必须适应于数据特性这一性质。使该成本函数最小化的格式标识符到位置的分配可经由任何动态编程算法而容易找到。

从而很大程度上描述用于识别字节对齐的整数图像/传感器数据的片段的数据格式的技术。此后描述用于识别非（或未必）字节对齐的整数图像/传感器数据的片段的数据格式而不依靠图像/传感器数据的报头或余下部分的技术。尽管指定示例中的一些关于数据片段描述，描述的识别技术也可适用于若干这样的数据片段的级联。

格式识别（字节未对齐的）

综览

在高级别处，描述的格式识别技术检查输入数据的结构并且通过利用未压缩传感器和图像数据的自然重复结构而自动识别数据格式。在这样做的过程中，输入数据分区成一个或多个片段，其中每个片段具有同质结构。在一些实施例中，每个这样的片段转换成一个或多个数值序列（和少量的额外信息）使得一个或多个数值序列和额外信息的组合可用于重建片段。在一些实施例中，使用的序列的数量以及用于产生一个或多个序列的规则取决于特定片段的结构。

数据模型

数据模型是输入数据的结构的描述。在一些实施例中，使用灵活模型，其可以拟合多种未压缩图像格式、传感器数据格式以及可以是来自不同格式的数据的级联的输入。在一些实施例中，分析输入的结构的过程通过使数据模型拟合到输入数据而完成。

接着描述数据模型的一个示例。输入数据包括片段级联。例如，每个片段可包括图像数据的一部分。对于每个片段，对盘上的位的物理布局和位的典范布局进行区分。典范布局具有重复结构。在一些实施例中，该重复结构对于自动格式识别是重要的。在一些实施例中，位的该典范布局可以通过物理布局中位的合适的局部变换（即，重新布置）而从物理布局获得。例如，物理布局可划分成四个字节块，并且每个块中的位可被适当记录来获得典范布局。在一些实施例中，从物理到典范布局的该变换通过存储格式的节序（小字节序字节顺序对大字节序字节顺序）和字大小来确定，但可存在影响变换的其他因素。

图4A-4B图示小字节序和大字节序格式的实施例。具体地在图4A和4B中的每个中描述双字节整数序列A0B0、A1B1、A2B2的物理或逻辑布局。图4A图示大字节序格式的示例。在大字节序格式中，首先存储高位字节，并且因此它在每个双字节整数的左侧处出现。图4B图示小字节序格式的示例。在小字节序格式中，首先存储低位字节，并且因此它在每个双字节整数的左侧处出现。

接着描述片段的典范布局的结构。在一些实施例中，每个片段包括同质结构的级联，这些同质结构包括具有t个位的固定宽度元组（元组大小t是参数），其中第一和最后的元组可以仅部分存在。在一些实施例中，元组指一个或多个信道或维度的组。例如，每个信道可代表不同的颜色（例如，红、绿和蓝）。在一些实施例中，部分存在的元组可包括少于对应于元组的信道的所有位（例如，由于生成片段所采用的方式）。在一些实施例中，每个元组中位位置的子集指派给特定信道的表示。指派给信道的这些位位置大体上但不一定邻接。在一些实施例中，对于每个元组，假设指派给每个信道的位的数量相同。在一些实施例中，假设每个信道的表示格式是无符号整数。

图5图示包括片段的典范布局的各种元素的实施例。如描绘的，元素集包括元组大小、信道数量、每信道的位数量和/或MSB（最高有效位）的位置。

在各种实施例中，在底层数据具有连续性性质时，这本身表明如下：在元组内存在位位置的子集使得连续元组中这些位置处的位高度相关（例如，连续元组中这些位置处的位之间的差是小的）。该一般性质的特定情况是两个连续元组之间的Hamming距离是小的（这对应于对于大小=1的子集（即，个体位位置）的相关）这一性质。

图6图示对于输入图像片段的数据模型的实施例的各种特征。如描绘的，数据模型包括三信道数据格式，其中每个信道在长度上是一个字节（即，8个位）。

数据模型拟合-综览

在各种实施例中，使数据模型拟合到输入数据包括将输入数据分区成片段并且确定最佳拟合每个片段的模型。注意片段边界不是先验已知的，因此作为模型拟合过程的部分，需要确定片段边界。在一些实施例中，模型拟合过程的输出包括对于分区片段的自动识别格式和对于它们中的每个的最佳拟合模型。

接着描述执行模型拟合的概述。输入数据划分成具有L个字节的固定大小的窗口（L是参数）。在一些实施例中，连续窗口可不相交或重叠。窗口大小L选为大到足以使得每个窗口包括若干元组和小到足以使得大多数窗口完全落在片段内部，如稍后将论述的。对于每个窗口，执行下列两个步骤。

首先，确定物理到典范布局变换（此后叫作“布局变换”）和最佳拟合窗口中的数据的元组大小t。例如，确定布局变换和元组大小t，使得连续元组中的位相关。该步骤在下文进一步详细描述。

其次，元组中的位位置分区成不相交组，其中每个组对应于信道。在这里，使用个体位位置（和可能地，位置的更大子集）的统计信息。一般，变化最小的位位置在位位置到信道的最终分配中对于MSB（最高有效位）位置是似真候选。该步骤也在下文进一步详细描述。

在各种实施例中，可以成功确定对于完全包含在片段内部的窗口的元组大小t。对于跨越两个片段的那些窗口，数据拟合过程将找到低置信度拟合，并且这样的窗口将称为“未知的”。在一些实施例中，窗口大小L选为小到足以使得大比例的窗口完全包含在片段内部并且因此预期具有将被检测的同质性质。同时，L应选为大到足以使得存在足够的数据来精确计算个体位位置（和位的子集）的统计信息，需要这些统计信息来获得每个元组中的位成为信道的分区。

在一些实施例中，一旦连续推断对于大部分窗口的数据格式，然后对余下的未知窗口执行外推。在一些实施例中，数据格式指三个组成：布局变换、元组大小和分区成信道。例如，假设具有未知格式的窗口被具有不同格式的两个窗口环绕。然后，推断该未知窗口横过片段边界，其部分包括采用一个格式的数据并且部分包括采用另一个的数据。然后确定未知窗口内从一个格式转变成另一个的最佳断点。最后，在一些实施例中，连续窗口和/或具有相同格式的窗口的部分组合成单个推断片段。

数据模型拟合-布局变换和元组大小

在该过程中，检查个体窗口并且尝试布局变换和元组大小的若干组合以便找到导致典范布局中具有t个位的连续元组的内容之间的相关的组合。

为了确定在连续元组之间是否存在相关，在一些实施例中，确定该元组内位位置的子集，使得连续元组中的这些位置的内容高度相关。也就是说，对于s个位位置的子集，检查两个连续元组中的对应位，并且确定2s个位的联合分布是否远未均匀分布在2^2s个可能性上。接着提供基于检查具有大小1的所有子集的这样的相关测试的一些简单的特殊情况的描述。

对于位位置i，让p_i指示位置i中的位对于两个连续元组不同的次数的比例。然后代表连续元组中的位之间的平均Hamming距离。注意如果连续元组的内容不相关，预期每个p_i接近1/2并且预期/>接近t/2。另一方面，接近0的一些p_i的存在指示连续元组之间的相关。从而，例如/>或/>可以用作相关的度量（即，高值指示相关），或更一般地，可以使用/>，其中f()是适当选择的函数。注意相关的度量需要归一化（例如，除以t）以便跨不同元组大小来比较。

在各种实施例中，选择给出最高相关（如由计分函数测量的）布局变换和元组大小。图7图示对于窗口的完整格式识别的过程的实施例。在图7的过程700中，在步骤702-708中对每个（布局变换，元组大小）组合计算输入窗口的连续元组之间的相关，并且在步骤710-714处选择给出最高相关并且满足最小阈值的第m个组合。

在一些实施例中，计分函数的值作为置信测度而采用。例如，高的分数指示对当前窗口找到很好的拟合，并且低的分数指示模型拟合不成功。如之前提到的，具有低分数的窗口有时称为未知窗口。在一些实施例中，低分数可以指示两个可能性中的一个。一个可能性是窗口具有在两个片段（并且因此两个不同格式）之间的转变或具有对齐改变。在任一情况下，可稍后再访问这样的窗口来确定两个片段之间的转变点。第二可能性是窗口包含这样的数据，其不是未压缩图像或传感器数据。在再访问这样的窗口时，可未完成良好转变点的识别。因此，这样的窗口可标记为不包含图像或传感器数据的窗口。

数据模型拟合-分区成信道

在一些实施例中，在分区成信道过程中，元组内的个体位位置（和可能地，位置的更大子集）的统计信息用于将位位置分区成不相交的组，其中每个组对应于信道。一般，变化最小的位位置在位位置到信道的最终分配中对于MSB（最高有效位）位置是似真候选。因为假设连续元组包括重复结构，假设连续元组内的MSB位置变化最小。

接着描述要用于执行这样的分区过程的方案的一个示例系列。在该方案系列中，对将连续位分组成单个信道进行限制（尽管更一般的分区方案可不这样限制它们自己）。如在之前的示例中使用的，让p_i（1≤ i≤ t）指示位置i中的位对于两个连续窗口不同的次数的比例。考虑p_i值序列作为循环序列，即。检测p_i值序列中的显著下降，如由大的p_i/p_i+1（或log (p_i/p_i+1)）值测量的。对于该度量的大的值被看作信道的断点。在该情况下，位置i+1被看作对于在位位置i+1处开始向前的信道的MSB。划分成信道通过识别所有这样的断点并且将断点之间的邻接位位置视为信道而进行。

数据模型拟合-优化

在一些实施例中，为了提高效率，采样用于使关于窗口内的数据的统计信息聚集以用于确定布局变换、元组大小和信道分区目的。在确定对于窗口的数据格式（布局变换、元组大小和信道分区）中，常见情况是格式与对之前窗口确定的那个匹配。另一个可能性是格式是相同的，但对齐移位。

图8图示用于基于关于之前窗口的识别格式的信息来识别输入窗口的数据格式的过程的实施例。在图8的过程800中，步骤802-810确定对于之前窗口的格式是否适用于当前窗口。可另外采用步骤812-814来确定在对齐移位的情况下相同格式是否适用。如果前面提到的两个测试都失败，在步骤816处对当前窗口发起完整格式识别过程。

接着描述检查（可能移位的）之前的窗口的数据格式是否适用于当前窗口的示例方法。该检查可通过测量位统计信息之间的相关而完成。让t成为对之前窗口确定的元组宽度。如早先限定的，对于元组内的位置i，让p_i指示位置i中的位对于之前窗口的两个连续元组不同的次数的比例。相似地，让q_i指示位置i中的位对于当前窗口的两个连续元组不同的次数的比例。p和q是具有长度w的向量。为了测量它们之间的相关，计算，其中g()是适当选择的函数。例如，可以选择g()以便对使p和w的条目与接近0的值（其对应于MSB位置）匹配给出较高权重。例如，可以使用函数/>或/>。在一些情况下，之前窗口的移位格式适用于当前窗口。移位s使位统计向量p旋转s个位置，从而产生新的向量/>。在这样的情况下，计算/>。

数据模型拟合-处理未知窗口

如之前提到的，可找到未知窗口（即这样的窗口，对于其在布局变换和元组大小确定的过程期间确定低置信度分数）。接着描述用于使用相邻窗口的确定格式信息来推断未知窗口的格式的示例技术。

考虑这样的未知窗口，其中在它之前和之后的窗口具有高的置信度分数。让t₁和t₂分别成为对于未知窗口之前和之后的窗口的确定元组大小。让p和q分别成为对于未知窗口之前和之后的窗口的位统计向量。注意p是具有长度t₁的向量，并且q是具有长度t₂的向量。对于未知窗口，计算两个统计集：对应于之前窗口的格式的p’和对应于下一个窗口的格式的q’。对于未知窗口中的每个位置x，让p’[a, b]指示未知窗口中位置a至b的位统计信息（其对应于之前窗口的格式）并且让q’[a, b]指示未知窗口中位置a至b的位统计信息（其对应于接着的窗口的格式）。找到断点b使得未知窗口中从起始到位置b的位统计信息与之前窗口的那些匹配，并且未知窗口中从位置b+1直到最后的位统计信息与下一个窗口的统计信息匹配。在数学上，这表达为找到断点b以便使最大化。备选地，表达中的相关项可通过它们所代表的未知窗口中区间的长度来加权，使得应选择b以便使/>最大化。

图9图示用于识别未知窗口的数据格式的过程的实施例。例如，如果确定格式的之前的测试未产生结果则可采用过程900。在过程900中，具有未知格式的输入窗口在步骤910和920处被分配对应的之前和/或接着的窗口的一个或多个格式，或在步骤930处确定输入窗口包括非图像数据。

应用

对于描述的格式识别技术存在许多应用。一些应用接着作为示例来描述。描述的技术不限于指定的应用示例而可相似地关于任何适合的应用而采用。

存储系统

存储系统可以通过压缩它们的数据段或块来减少它们的存储占用空间。大部分存储系统在不知道它们的数据格式的情况下将它们的文件划分成数据段。

图10图示接受分段数据作为输入的存储系统的实施例的高级图。如描绘的，输入束通过使来自不同文件的段级联而创建。如果存储系统执行数据去除重复，数据经受去除重复来去除冗余段。要存储的段然后被压缩。如果段是图像的部分，则可应用为这样的数据定制的某些压缩方法来实现更高效压缩。如果段不属于图像，则它可通过例如LZ或GZIP等通用无损压缩技术来压缩。为了便于该数据选择性压缩，首先确定输入段是否是图像的部分，这可是有利的。描述的格式识别的技术可用于做出该确定。图11图示其中在写到存储之前在压缩期间采用数据类型识别的过程的实施例，而图12图示其中在从存储读取时在解压过程期间采用数据类型识别的过程的实施例。

通信网络

为了使用广域网（WAN）链路来高效传输数据，企业日益使用WAN优化设备或软件以通过具有有限带宽的网络链路来传输大的数据集。图13图示WAN环境的实施例。图14图示传送和接收WAN优化过程的实施例。WAN优化通过在通过网络链路发送数据段之前使用压缩算法来压缩它们而减少网络业务。在压缩数据段到达它们的目的地时，接收WAN优化设备将对数据段解压并且恢复原始数据流。一些WAN优化产品在段粒度执行去除重复以进一步减少数据量。在数据段属于图像时，不同的压缩技术集可用于更高效压缩。描述的用于格式识别的技术可用于确定要压缩的数据的性质。从而，可以对图像片段实现高压缩比，这直接影响WAN性能和速度。

尽管前面的实施例已经为了清楚理解的目的而相当详细地描述，本发明不限于提供的细节。存在实现本发明的许多备选方式。公开的实施例是说明性而非限制性的。

Claims

1.一种用于存储信息的系统，包括：

接口，其接收信息流来作为输入，其中所述信息流划分成具有同质结构的片段；

数据模型生成器，其确定片段边界并且基于连续性性质找到对于每个片段的数据格式，其中所述数据模型生成器：

将所述信息流划分成窗口；

确定每个窗口是具有已知还是未知的格式；以及

在如下情况下确定具有未知格式的每个窗口横过所述片段边界之一：如果所述窗口被具有不同格式的两个窗口环绕；

数据压缩器，其使用选择的压缩技术基于所述数据格式来压缩所述信息流；以及

存储器，其存储所述压缩流。

2.如权利要求1所述的系统，其中所述数据模型生成器检查每个窗口是否与之前窗口的格式匹配。

3.如权利要求1所述的系统，其中所述数据模型生成器通过检查所述窗口中连续元组之间的相关而检查每个窗口是否与之前窗口的格式匹配。

4.如权利要求1所述的系统，其中所述数据模型生成器通过检查所述窗口中连续元组之间的相关并且使所述窗口内的对齐移位而检查每个窗口是否与之前窗口的格式匹配。

5.如权利要求1所述的系统，其中选择所述窗口的大小使得每个窗口包括多个元组。

6.如权利要求1所述的系统，其中选择所述窗口的大小使得大多数的窗口完全落在片段内部。

7.如权利要求1所述的系统，其中在进行环绕的窗口具有相同格式时对所述具有未知格式的窗口分配其环绕窗口的格式。

8.如权利要求1所述的系统，其中在具有所述未知格式并且具有带不同格式的环绕窗口的窗口内确定断点。

9.如权利要求1所述的系统，其中所述信息流对应于图像数据。

10.一种用于存储信息的方法，包括：

接收信息流来作为输入，其中所述信息流划分成具有同质结构的片段；

确定片段边界并且基于连续性性质找到对于每个片段的数据格式，其包括通过以下：

将所述信息流划分成窗口；

确定每个窗口是具有已知还是未知的格式；以及

使用选择的压缩技术基于所述数据格式来将所述信息流压缩成压缩流；以及

存储所述压缩流。

11.如权利要求10所述的方法，进一步包括检查每个窗口是否与之前窗口的格式匹配。

12.如权利要求10所述的方法，进一步包括通过检查所述窗口中连续元组之间的相关而检查每个窗口是否与之前窗口的格式匹配。

13.如权利要求10所述的方法，进一步包括通过检查所述窗口中连续元组之间的相关并且使所述窗口内的对齐移位而检查每个窗口是否与之前窗口的格式匹配。

14.如权利要求10所述的方法，其中选择所述窗口的大小使得每个窗口包括多个元组。

15.如权利要求10所述的方法，其中选择所述窗口的大小使得大多数的窗口完全落在片段内部。

16.如权利要求10所述的方法，在进行环绕的窗口具有相同格式时对所述具有未知格式的窗口分配其环绕窗口的格式。

17.如权利要求10所述的方法，其中在具有所述未知格式并且具有带不同格式的环绕窗口的窗口内确定断点。

18.如权利要求10所述的方法，其中所述信息流对应于图像数据。

19.一种计算机可读存储介质，其中包含有计算机程序产品，所述计算机程序产品包括计算机指令用于：

将所述信息流划分成窗口；

确定每个窗口是具有已知还是未知的格式；以及

存储所述压缩流。

20.如权利要求19所述的计算机可读存储介质，其中所述信息流对应于图像数据。