CN103514247A

CN103514247A - 将去除了重复的数据打包到有限大小容器中的方法和系统

Info

Publication number: CN103514247A
Application number: CN201310242409.XA
Authority: CN
Inventors: M·海尔什; T·卡罗斯
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2012-06-19
Filing date: 2013-06-19
Publication date: 2014-01-15
Also published as: US20130339316A1; US11079953B2; US9880771B2; US20180113643A1

Abstract

本发明涉及将去除了重复的数据打包到有限大小容器中的方法和系统。去除了重复的数据被打包到有限大小容器中。在具有去除了重复的数据的相似文件之间计算相似性分数。相似性分数用于将去除了重复的数据的相似比较文件分组成子集，用于使每个所述子集从去除重复系统离台到一个有限大小容器。

Description

将去除了重复的数据打包到有限大小容器中的方法和系统

技术领域

本发明总体上涉及计算机，更具体地讲，涉及在计算环境中将去除了重复的数据打包到有限大小容器中。

背景技术

在当今社会，计算机系统已经非常普遍。可在工作场所、家里或学校发现计算机系统。计算机系统可包括数据存储系统或盘存储系统，用以处理和存储数据。每天必须处理大量的数据，并且当前的趋势为这些数据量在可预见的未来将持续增长。缓解该问题的有效方式是使用去除重复（deduplication）。基于去除重复系统的思想要利用这样的事实：通过定位重复的数据并仅存储其第一次出现，可得到的数据的大部分被一次又一次地复制并不加任何改变地被转发。后续的副本被替代成指向所存储的出现的指针，这显著减少了数据确实重复的情况下的存储需求。

发明内容

数据去除重复指的是减少和/或消除冗余数据。在数据去除重复中，可为文件、数据流或某其它形式的数据的数据对象被分裂成一个或多个称为子块的部分。在数据去除重复处理中，数据的重复副本被减少或消除，分别留下最小量的冗余副本或数据的单个副本。使用去除重复处理提供了各种益处，诸如减少所需的存储能力和提高网络带宽。由于这些和其它益处，近年来，去除重复已经出现成为计算机存储系统中高度重要的技术领域。

通常，被托付给去除重复系统的数据还必须被导出和/或备份到不同的地点。这可通过将数据复制到远程储存库（repository）或再合成去除重复的数据并将再合成的数据写入到物理磁带来实现。然而，以其去除重复的形式将数据复制到远程地点是低效的处理。这是因为数据中心每天产生大量数据，并且新数据足够唯一从而新数据没有去除重复或没有高效地去除重复。而且，由于数据中心取决于没去除重复的数据量和期待何时数据完成复制处理的服务水平协议，所以难以测量带宽需求。另外，再合成处理使数据中心的资源和带宽过度紧张，以及增加了管理开销。再合成处理还要求物理磁带盒与用户数据备份的量成比例，而不是物理磁带盒与该数据的去除重复后的大小成比例。

与之相对，并且为了解决这些低效率，示出的在此描述的实施例提供了一种将来自去除重复系统的去除重复的数据导出到提高效率和性能的替换位置。因此，并且根据前面的描述，提供了在计算环境中将去除重复的数据打包到多个有限大小容器中的各种示例性方法、系统和计算机程序产品实施例。在一个实施例中，仅通过示例的方式，计算具有去除重复的数据的相似文件之间的相似性分数。该相似性分数用于将去除重复的数据的相似比较文件分组成子集，以使每个所述子集从去除重复系统离台（destage）到一个有限大小容器。

除了上述的示例性方法实施例，提供了其它示例性系统和计算机产品实施例并提供了相关优点。已经提供了上述概述来引入简化形式的概念的选择，在下面的具体实施方式部分中将进一步地详细描述。此概述并不意图识别要求保护的主题的关键特征或必要特征，也不意图用来帮助确定要求保护的主题的范围。要求保护的主题不限于解决了背景技术中所指出的任何或全部缺点的实施方式。

附图说明

为了使本发明的优点容易理解，将参考在附图中例示的具体实施例给出以上简要描述的本发明的更具体的描述。应当理解，这些附图绘出了本发明的实施例，但不能因此就认为是对其范围的限制，本发明将通过附图的使用利用另外的特征与细节进行描述和解释，在附图中：

图1是示出可实现本发明的各方面的具有示例存储装置的计算系统环境的框图；

图2是示出可实现本发明的各方面的计算机系统中的数据存储系统的硬件结构的框图；

图3是示出可实现本发明的各方面的示例性去除重复系统的框图；

图4是示出将去除重复的数据打包到多个有限大小容器中的示例性方法的流程图；以及

图5A至图5B是示出将去除重复的数据打包到多个有限大小容器中的另外的示例性方法的流程图。

具体实施方式

在整个下面的描述和要求保护的主题中，描述了与示出的实施例相关的以下术语。“文件”意图描述去除重复系统用来在对象的用户视图（被发送到去除重复系统的字节流，其可能为一个或多个“用户文件”的一部分）和该对象的内部的去除重复表示（通常为指向储存库中的共同和非共同数据段的指针的列表）之间进行桥接的抽象管理单位。“储存库”意图指的是盘子系统。

如前所述，要求将常常被托付给去除重复系统的数据导出和/或备份到不同的地点。然而，需要提高将去除重复的数据从去除重复系统导出到提高效率和性能的替换位置的效率。因此，下面将描述提供的将去除相互重复的数据打包到有限大小容器中的例示实施例。在一个实施例中，仅通过示例的方式，计算相似地具有去除重复的数据的文件之间的相似性分数。该相似性分数用于将去除重复的数据的相似比较文件分组成子集，用于将来自去除重复系统的每个子集离台到一个有限大小容器。

现在参照图1，描述了计算系统环境的示例性架构10。计算机系统10包括中央处理单元（CPU）12，CPU12连接到通信端口18和存储器装置16。通信端口18与通信网络20通信。通信网络20和存储网络可被构造为与服务器（主机）22、24和存储系统进行通信，其中存储系统可包括存储装置14。存储系统可包括硬盘驱动器（HDD）装置、固态装置（SSD）等，它们可以以独立磁盘冗余阵列（RAID）进行配置。可对位于系统10中或其它位置的存储装置14执行下面描述的操作，并且所述操作可具有独立工作和/或与其它CPU装置12结合工作的多个存储器装置16。存储器装置16可包括诸如电可擦除可编程只读存储器（EEPROM）的存储器或相关装置的主机。存储器装置16和存储装置14经由与信号承载介质连接到CPU12。另外，CPU12通过通信端口18连接到通信网络20，通信网络20具有附接的多个另外的计算机主机系统22、24。另外，存储器装置16和CPU12可被嵌入和包括在计算系统10的每个组件中。每个存储系统还可包括分离的和/或不同的存储器装置16和CPU12，所述存储器装置16和CPU12结合地工作或作为分离的存储器装置16和/或CPU12工作。

图2是示出根据本发明的计算机系统中的数据存储系统的硬件结构的示例性框图200。示出了主机计算机210、220、225，每个主机计算机作为数据存储系统200的一部分，用作执行数据处理的中央处理单元。群（cluster）主机/节点（物理或虚拟装置）210、220和225可为数据存储系统200中的实现本发明的目的的一个或多个新的物理装置或逻辑装置。在一个实施例中，仅通过示例的方式，数据存储系统200可实施为ProtecTIER^TMTS7650G^TM。网络连接260可为光纤信道网络结构、光纤信道点对点链接、以太网网络结构或点对点链接上的光纤信道、FICON或ESCON I/O接口、任何其它I/O接口类型、无线网络、有线网路、LAN、WAN、异构网络、同构网络、公共网络（即，互联网）、私有网络、或它们的任何组合。主机210、220和225可为本地的或者分布在一个或多个位置，并可配备有至存储控制器240的任何类型的网络结构（或网络结构信道）（图2中未示出）或网络适配器260，诸如光纤信道、FICON、ESCON、以太网、光纤、无线、或同轴适配器。数据存储系统200因此配备有适合的网络结构（图2中未示出）或网络260以进行通信。在图2中描述了数据存储系统200，它包括存储控制器240和群主机210、220和225。群主机210、220和225可包括群节点。

为了有助于更清楚地理解这里描述的方法，在图2中存储控制器240被示出为单个处理单元，包括微处理器242、系统存储器243和非易失性存储器（“NVS”）216。需要指出的是，在一些实施例中，存储控制器240由通过数据存储系统200内的专用网络互连的多个处理单元构成，每个处理单元具有它自己的处理器复合体和系统存储器。存储器230（标记为230a、230b和230n）可由（通过存储网络）连接到存储控制器240的一个或多个存储装置（诸如存储阵列）构成，并且一个或多个群主机210、220和225连接到每个存储控制器240。

在一些实施例中，包括在存储器230中的装置可以以环形架构连接。存储控制器240管理存储器230并帮助处理针对存储器230的写入和读取请求。存储控制器240的系统存储器243存储程序指令和数据，处理器242可访问该程序指令和数据，以执行用于如这里描述地执行和管理存储器230的本发明的执行功能和方法步骤。在一个实施例中，系统存储器243包括用于执行这里描述的方法和操作的操作软件250、与操作软件250相关联或与操作软件250通信。如图2所示，系统存储器243还可包括存储器230的缓存245或与缓存245通信，缓存245在这里还称为“缓冲存储器”，用于缓冲“写入数据”和“读取数据”，其中“写入数据”和“读取数据”分别指的是写入/读取请求和它们的关联数据。在一个实施例中，缓存245被分配在系统存储器243之外的装置中，但是微处理器242仍可访问，并且除了执行这里描述的操作之外，还可用来提供针对数据丢失的额外安全性。

在一些实施例中，用易失性存储器或非易失性存储器实现缓存245，并且缓存245经由局部总线（图2中未示出）耦接到微处理器242，用以提高数据存储系统200的性能。包括在数据存储控制器中的NVS216可由微处理器242访问，并用于对如在其它附图中描述的本发明的操作和执行提供另外的支持。NVS216也可以称作“持久（persistent）”缓存或“缓冲存储器”，并用非易失性存储器来实现，该非易失性存储器可利用或可不利用外部电源来保持存储在其中的数据。出于适合实现本发明的目标的任何目的，NVS可存储在缓存245中以及与缓存245一起存储。在一些实施例中，在数据存储系统200失去供电的情况下，诸如电池的备用电源（图2中未示出）向NVS216提供充足的电力以保持存储在其中的数据。在特定的实施例中，NVS216的容量小于或等于缓存245的总容量。

存储器230在物理上可包括一个或多个存储装置，诸如存储阵列。存储阵列是诸如硬盘的个体存储装置的逻辑组群。在特定的实施例中，存储器230由JBOD（简单磁盘捆绑，Just a Bunch of Disk）阵列或RAID（独立磁盘冗余阵列）阵列构成。物理存储阵列的集合可进一步组合以形成盘包（rank），盘包使物理存储与逻辑构造分离。盘包中的存储空间可分配到逻辑卷，逻辑卷限定在写入/读取请求中指定的存储位置。

在一个实施例中，仅通过示例的方式，如图2中所示的存储系统可包括逻辑卷、或简单的“卷”，可具有不同种类的分配。在数据存储系统200中存储器230a、230b和230n被示出为盘包，并且在此称作盘包230a、230b和230n。盘包可在数据存储系统200本地，或者可位于物理上的远程位置。换言之，本地存储控制器可与远程存储控制器连接并管理远程位置处的存储。示出的盘包230a配置有两个完整卷234和236以及一个部分卷232a。盘包230b被示出有另一部分卷232b。因此，卷232被分配成跨盘包230a和230b。盘包230n被示出为完全分配给卷238，即，盘包230n指的是用于卷238的整个物理存储器。从上面的示例将理解的是，盘包可被构造成包括一个或多个部分卷和/或完整卷。卷和盘包可进一步被划分成所谓的“轨道”，轨道表示存储的固定块。因此，轨道与给定卷关联并可被给予给定盘包。

存储控制器240可包括去除重复引擎模块255、打包模块257和文件相似性索引模块259。去除重复引擎模块255、打包模块257和文件相似性索引模块259可与存储控制器240、主机210、220和225以及存储装置230中的各个和每个组件相结合地工作。去除重复引擎模块255、打包模块257和文件相似性索引模块259在结构上可为一个完整的模块或者可与其它个体模块相关联和/或包括在其它个体模块中。去除重复引擎模块255、打包模块257和文件相似性索引模块259也可以位于缓存245或其它组件中。

存储控制器240包括：控制开关241，用于控制至主机计算机210、220和225的光纤信道协议；微处理器242，用于控制整个存储控制器240；用于存储微程序（操作软件）250（用于控制存储控制器240的操作）、用于控制的数据的非易失性控制存储器243；缓存245，用于临时存储（缓冲）数据；和缓冲器244，用于帮助缓存245读取和写入数据；控制开关241，用于控制用来控制到存储装置230的数据传输或来自存储装置230的数据传输的协议；去除重复引擎模块255；打包模块257；和文件相似性索引模块259，在其中可设置信息。利用本发明可实现多个缓冲器244以帮助进行里描述的操作。在一个实施例中，群主机/节点210、220、225以及存储控制器240通过作为接口的网络适配器（这可为光纤信道）260（即，经由称作“网络结构（fabric）”的至少一个开关）相连接。

在一个实施例中，主机计算机或一个或多个物理或虚拟装置210、220和225和存储控制器240通过作为接口的网络（这可为光纤信道）260（即，经由称作“网络结构”的至少一个开关）相连接。在一个实施例中，将描述图2中示出的系统的操作。微处理器242可控制存储器243以存储来自主机装置（物理或虚拟）210的命令信息和用于识别主机装置（物理或虚拟）210的信息。控制开关241、缓冲器244、缓存245、操作软件250、微处理器242、存储器243、NVS216、去除重复引擎模块255、打包模块257和文件相似性索引模块259相互通信并可以是分离的或为一个单独的组件。另外，诸如操作软件250的几个组件（如果不是全部组件的话）可包括在存储器243中。出于适合本发明的目的，示出的装置内的每个组件可链接在一起并可相互通信。

如上所述，去除重复引擎模块255、打包模块257和文件相似性索引模块259也可以位于缓存245或其它组件中。这样，基于存储架构和用户偏好，如需要可使用去除重复引擎模块255、打包模块257和文件相似性索引模块259中的一个或多个。

现在参照图3、图4和图5，更详细地描述将去除相互重复的数据打包到有限大小容器中的过程。而且，这些附图示出了计算相似性分数，该相似性分数用于将去除相互重复的数据的相似比较文件分组为子集以使每个所述子集从去除重复系统离台到一个有限大小容器。

在一个实施例中，去除重复系统可接受用于去除重复的很多不同种类的很多不同大小的输入数据流（见图3，302）。这些输入数据流可为虚拟磁带盒、OST映像或NAS（用户）文件。每个输入被切割成1GB的段，用于通过去除重复引擎独立地进行去除重复。在去除重复之后，这些1GB的段（见图3，308a-n）也可以称作“文件”。

图3是示出可实现本发明的各方面的示例性去除重复系统的框图。在去除重复系统300的一个实施例中，输入数据流302被去除重复，仅将唯一数据存储到作为去除重复系统的一部分的盘子系统（例如，储存库）上。提供给去除重复系统300的数据302可以以几种形式出现。这些形式可为虚拟磁带系统中的虚拟磁带盒映像308或网络附加存储（NAS）系统中的文件。如前所述，使用“文件”来描述去除重复系统用来在对象的用户视图（被发送到去除重复系统的字节流，其可能为“用户文件”）和该对象的内部的去除重复表示（通常为指向储存库中的共同和非共同数据段的指针的列表）之间进行桥接的抽象管理单位。例如，去除重复系统300可接受虚拟磁带映像308（示出为308a-n），虚拟磁带映像308的大小通常为大约100GB，然后为了易于操纵，将映像分割成1GB文件308a-n。每个1GB文件308a-n相互独立，并且每个1GB文件308a-n具有其自己的存储器310（图3中示出为310a-n），可能在储存库中与另一1GB文件308a-n共享。接下来，提供相似性搜索以扫描输入数据流302的1GB的段308a-n，寻找储存库中与输入数据最相似的数据（312，310a-n）。“输入”是输入数据流302，被分割成1GB的段308a-n。去除重复引擎304在1GB的段308a-n中寻找与储存库（312、310）中的现有数据相似的数据，并以308的形式（示出为308a-n）（即，指向共同数据块310a-n的指针）来存储输入302。采用的相似性搜索相对于使用散列去除重复技术的去除重复系统具有的独特优势在于，它处理储存库中的1GB文件，而散列去除重复技术仅可处理通过分段得到的小块。这些块的大小通常为平均8KB，因此在1PB储存库中存在巨量的这些小块（即，大约2³⁷～=1.3*10¹¹个）。去除重复引擎被提供用于在摄取时间（例如，将外部数据导入到系统中的过程）检查每个1GB文件，并寻找与该文件最相似的其它文件312。换言之，检查输入数据流302的每个1GB段308a-n，并搜索储存库中与输入数据流302的该1GB段308a-n最相似的其它文件312（例如，在图3中描述为1GB，但是大小可根据用户的偏好而改变）。这提供了寻找共同数据的基础，相似文件的这种信息可用于文件之间的字节级比较。新摄取的文件被存储为指向共同数据以及指向存储其唯一数据的地点的一系列指针。关于相似的其它文件的信息并不被维护。

在此描述的去除重复引擎304提高了维护关于摄取的哪些文件308a-n与已在储存库中的其它文件312相似的信息的能力，并向这些文件提供指示它们实际上有多相似的相似性分数（基于它们共享的共同数据的百分比）。然后，当用户指示哪些文件应该存储在去除重复系统外时，使用以上取得的信息（例如，文件之间的相似性分数）将这些文件分组成子集，这些子集反映了哪些文件被一起良好地去除了重复。（通过一起良好地去除重复，保持被转换成内部1GB表示308a-n的新输入302和当302到达时已经在储存库中的最相似文件312之间的关系）。然后，这些组中的每个组被一起存储在外部有限容器（例如，物理磁带盒）中。换言之，具有较高相似性分数的去除了相互重复的数据被优选存储在同一外部有限大小容器中，因为它们之间的去除重复可节省该容器中的空间。（相似性分数可为用户预定义的特定百分数）。这样，该过程通过实质上允许计算输入和具有最多10⁶个条目（与处理10¹¹个元素相比容易追踪得多）的稀疏图的对称传递闭包之间的交集，提高了可行性和生产率。该“输入”指的是用户希望打包到容器中的东西，与如上所述的输入302不同。10⁶指的是1GB文件的数量，并且10¹¹指的是8KB块的数量，这是在没有相似性索引的情况下所需的工作。

如将在图4中所描述的，去除重复系统可将去除相互重复的条目打包到最小数量的物理磁带盒中。这样做所需的所有磁带盒的空间之和将与储存库的大小成比例。所有磁带盒的空间之和还接近整体去除重复比，而不是名义上的大小（即，如果扩展到原始大小的话则为存储在储存库中的全部用户数据）。现在参照图4，绘出了示出用于将去除重复的数据打包到多个有限大小容器中的示例性方法400的流程图。方法400开始处理（步骤402），计算去除重复的数据的相似比较文件之间的相似性分数（步骤404）。该相似性分数用于将去除重复的数据的相似比较文件分组成子集，用于使每个所述子集从去除重复系统离台到有限大小容器中的一个（步骤406）。方法400结束（步骤408）。

去除重复引擎计算每个文件和已经存在于储存库中的文件之间共同的数据。去除重复系统可存储新文件作为指向现有的和新16KB块或其部分的指针的列表。除了这个过程，存储表示新文件和发现为与该新文件相似的其它文件的相似性的统计信息。“文件相似性索引”可用于存储该统计信息。更具体地讲，文件相似性索引中的每个条目具有3个字段：两个相似文件的标识中的每个有一个字段，并且指示每对的两个相似文件之间的相似性的基于分数的相似性有一个字段。这个基于分数的相似性可为每个相似性文件共享的16KB块当被除以文件的平均大小时的百分数。

定义的两个文件之间的基于分数的相似性是对称的。例如，如果文件“A”80%相似于文件“B”（并且文件A和文件B都具有相同大小），则文件B80%相似于文件A。该关系也是传递的。例如，如果文件A和文件B共享80%的数据，并且文件B和文件C共享70%的数据，则文件A和文件C共享至少56%（80%×70%）的数据。当寻找其它候选文件（例如，相似文件）与一文件进行打包时，通过聚焦于包含至少某百分数的共同数据的文件的对称传递闭包中的文件集合，这种传递关系使得效率提高。由此，如果这些文件被复制到相同的外部有限大小容器，则文件的对称传递闭包指示可节省的最小空间。下面在图5中进一步展示该将去除了相互重复的实体打包到最小数量的物理磁带盒中的处理。

下面的图5A和图5B是示出了将去除了相互重复的数据打包到有限大小容器中的另外的示例性方法500的流程图。方法500可向去除重复系统指示：哪些备份项目需要从去除重复系统复制到外部的有限大小容器中（步骤504）。仅通过示例的方式，这些容器可为物理磁带盒或任何其它固定或可变大小的数据容器，所述数据容器可以是或可以不是可移除和可移动的，诸如可移除硬盘驱动器或固态装置（SSD）（诸如闪速存储器驱动器或等同物）。备份项目的集合被转换成作为组分的1GB文件（见图3，308a-n），并且创建被称作“输入文件的列表”的列表（步骤506）。创建文件的初始空集（“处理文件的集合”），它将被用于保持哪些文件已经被处理（步骤508）。方法500可确定输入文件的列表是否为空（步骤510）。如果输入文件的列表为空，则方法500可开始将去除重复的数据的集合打包到外部有限磁带盒中，因为所有文件已经被分类成每个文件的输入闭包（步骤512），然后结束。换言之，该方法可将所有文件打包到有限大小容器中，同时尝试将相同的“输入闭包”中的文件打包到相同的容器中，以用于该容器中的最优空间节省。如果输入文件的列表不为空，则方法500可从输入文件的列表中取回第一文件（“当前文件”）（步骤514）。从输入文件的列表中去除当前文件（步骤516）。方法500确定当前文件是否在处理文件的集合中（步骤518）。如果当前文件在处理文件的集合中，则方法500返回步骤510。如果当前文件不在处理文件的集合中，则方法500可使用文件相似性索引并计算具有标记为“与当前文件相似的文件的集合”的当前文件的相似对称传递闭包的文件的第n百分数（步骤520）。

方法500可定义“相交集合”为与当前文件相似的文件的集合与输入列表之间的交集（步骤522）。相交集合是如果复制到相同的外部有限大小容器则在那个容器中将节省最多空间的文件的集合。去除相交集合中的已经出现在处理文件的集合中的任何文件（步骤524）。从输入列表中去除相交集合中的所有文件（步骤526）。当前文件被添加到相交集合并可称作当前文件的“输入闭包”（步骤528）。“输入闭包”中的所有文件被添加到“处理文件的集合”（步骤529）。当前文件的“输入闭包”被遍历，并计算存储空间度量，存储空间度量表示存储文件中的数据所需的空间量的上限（步骤530）。该存储空间度量是在不同的“输入闭包”集合之间的其它附带去除重复的数据没有被考虑的情况下输入闭包将要求的外部有限大小容器的空间。当前文件的输入闭包被添加到需要被复制到外部有限大小容器的文件集合的列表（步骤532），并且该方法500返回步骤510。对所述打包的输入是需要被复制到外部有限大小容器的输入闭包的集合的列表，每个输入闭包的集合具有各自的把去除重复的数据打包到外部有限磁带盒中所需的空间上限的度量。

所属技术领域的技术人员知道，本发明的各个方面可以实现为系统、方法或计算机程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式（包括固件、驻留软件、微代码等），或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。此外，在一些实施例中，本发明的各个方面还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。

可以采用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

上面已经参照根据本发明实施例的方法、装置（系统）和计算机程序产品的流程图和/或框图描述了本发明。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些计算机程序指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机程序指令存储在计算机可读介质中，这些指令使得计算机、其它可编程数据处理装置、或其他设备以特定方式工作，从而，存储在计算机可读介质中的指令就产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令的制造品（article of manufacture）。这些计算机程序指令也可以加载在计算机、其它可编程数据处理设备或其它装置上，使得在计算机、其它可编程设备或其它装置上执行一系列操作步骤以产生计算实现的处理，从而在计算机或其它可编程设备上执行的指令提供了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的处理。

以上附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

Claims

1.一种使用处理器装置将去除了重复的数据打包到多个有限大小容器中的方法，包括：

计算去除了重复的数据的多个相似比较文件之间的相似性分数；以及

使用该相似性分数将去除了重复的数据的所述多个相似比较文件分组成子集，用于使每个所述子集从去除重复系统离台到所述多个有限大小容器中的一个。

2.根据权利要求1所述的方法，还包括在创建去除了重复的数据的所述多个相似比较文件的摄取时间，将去除重复系统中之前去除重复的数据文件与进入去除重复系统中要被去除重复的新数据文件进行比较。

3.根据权利要求1所述的方法，其中，计算相似性分数还包括，计算去除了重复的数据的所述多个相似比较文件之间共享的共同数据交集的第n百分数阈值，其中确定去除了重复的数据的所述多个相似比较文件之间的传递闭包。

4.根据权利要求3所述的方法，还包括使用所述传递闭包以帮助使用相似性分数将去除了重复的数据的所述多个相似比较文件分组成子集。

5.根据权利要求4所述的方法，还包括通过遍历每个所述子集以确定所述多个有限大小容器中的一个的要求存储空间来计算存储度量值。

6.根据权利要求3所述的方法，还包括在文件相似性索引中保持所述多个相似比较文件中的每个的标识以及针对所述多个相似比较文件中的每个计算的相似性分数。

7.根据权利要求1所述的方法，还包括接收要将所述多个相似比较文件中的哪些分组成子集用于使每个所述子集从去除重复系统离台到所述多个有限大小容器中的一个的用户指示。

8.一种用于在计算环境中将去除了重复的数据打包成多个有限大小容器的系统，包括：

处理器装置，在计算环境中可操作，其中至少一个处理器装置适于：

9.根据权利要求8所述的系统，其中，处理器装置还适于在创建去除了重复的数据的所述多个相似比较文件的摄取时间，将去除重复系统中之前去除重复的数据文件与进入去除重复系统中要被去除重复的新数据文件进行比较。

10.根据权利要求8所述的系统，其中，为了计算所述相似性分数，处理器装置还适于计算去除了重复的数据的所述多个相似比较文件之间共享的共同数据交集的第n百分数阈值，其中确定去除了重复的数据的所述多个相似比较文件之间的传递闭包。

11.根据权利要求10所述的系统，其中，处理器装置还适于使用所述传递闭包以帮助使用相似性分数将去除了重复的数据的所述多个相似比较文件分组成子集。

12.根据权利要求11所述的系统，其中处理器装置还适于通过遍历每个所述子集以确定所述多个有限大小容器中的一个的要求存储空间来计算存储度量值。

13.根据权利要求10所述的系统，其中，处理器装置还适于在文件相似性索引中保持所述多个相似比较文件中的每个的标识以及针对所述多个相似比较文件中的每个计算的相似性分数。

14.根据权利要求8所述的系统，其中，处理器装置还适于接收要将所述多个相似比较文件中的哪些分组成子集用于使每个所述子集从去除重复系统离台到所述多个有限大小容器中的一个的用户指示。