CN102004690B

CN102004690B - 用于帮助重复数据删除产品测试的方法及其装置

Info

Publication number: CN102004690B
Application number: CN2010102673296A
Authority: CN
Inventors: 布鲁斯·麦克纳特
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2009-08-28
Filing date: 2010-08-27
Publication date: 2013-10-30
Anticipated expiration: 2030-08-27
Also published as: US9633034B2; US20140012823A1; US20110055171A1; US20160292177A1; US8560507B2; US9396203B2; US8224792B2; US20120221896A1; CN102004690A

Abstract

本发明提供了用于在计算环境中帮助重复数据删除产品测试的方法、系统和计算机程序产品。在一个这种实施例中，要通过重复数据删除产品测试处理的数据被排列为单个连续流。在呈现尺寸恒定的自相似模式中对所排列的数据施加多个随机修改中的至少一个。将利用自相似模式修改的排列的数据的多个随机大小的子集映射到多个随机大小的重复数据删除测试文件中的每个中。

Description

用于帮助重复数据删除产品测试的方法及其装置

技术领域

本发明一般涉及计算机，更具体地涉及用于在计算存储环境中产生用于重复数据删除(deduplication)测试的真实文件内容改变的设备、方法和计算机程序产品装置。

背景技术

当今社会的各种场合中都有计算机和计算机系统。可以在家、工作单位、学校、政府以及其他场合发现计算环境和网络。计算环境越来越多地将数据存储在与呈现给用户的本地界面分离的一个或多个存储环境中。在许多情况中，跨越广域网(WAN)部署存储环境，其中，向远离主机的存储系统发送数据和/或从其中接收数据。

在某些情形中，数据存储既被本地提供也被提供到远程存储环境，以通过提供冗余而增强数据安全性。在这些情形中，可以在多个地点存储数据的若干个实例。虽然此方案在—个地点处数据丢失的情况下提供了故障保护(failsafe)的恢复，但大量冗余副本的维护耗费资源，诸如耗费网络带宽。

为了解决此问题，重复数据删除机制正被更高频率地实施。重复数据删除是指冗余数据的消除。在重复数据删除处理中，删除重复数据，仅留下要被存储的数据的一个副本。然而，若该数据被需要，仍然保留所有数据的索引。因为仅存储唯一的数据，所以重复数据删除机制降低了所需要的存储容量。

发明内容

计算机部件、软件和硬件需要测试来证实和/或验证性能。因此，测试重复数据删除机制来判定通过这些重复数据删除机制处理的文件是否呈现各种重复数据删除要素，诸如特定的重复数据删除比例。这是为了展示来源于将重复数据删除技术合并到现有存储机制(诸如备份处理)中的性能和存储需求上的改进所需要的。

一个当前的验证机制利用修改指定比例的一组文件内容的测试工具。然而，此机制的缺点在于重复数据删除的性能和有效性取决于可以被辨识的数据内的重复数据删除字段的最小大小。为了确保测试将对于重复数据删除算法和最小字段大小的特定选择反映可靠的结果，必须控制已修改的和未修改的字段大小的分布。对测试文件的一定大小和内容的需要可以负面地影响后续重复数据删除测试的精度。

由于前面所述，存在对在很多种真实文件内容改变(包括文件大小和内容)上帮助重复数据删除测试的机制的需要。因此，提供了用于在计算环境中通过产生实际文件内容改变来帮助重复数据删除产品测试的各种方法、系统以及计算机程序产品实施例。在一个实施例中，仅仅通过示例提供了用于在计算环境中通过与存储器装置通信的处理器来帮助重复数据删除产品测试的方法。要通过重复数据删除产品测试被处理的数据被排列到单个连续流中。在呈现尺寸恒定性(scale invariance)的自相似(self-similar)模式中对排列数据施加多个随机修改中的至少一个。将在自相似模式中修改的排列数据的多个随机大小的子集映射到多个随机大小的重复数据删除测试文件的每个中。

除了前面的示例实施例外，还提供了各种其它系统、计算机程序产品以及制造方法的实施例，并且提供了相关优点。

附图说明

为了使本发明的优点易于理解，将参照通过在附图中示出的具体实施例呈现上文概述的本发明的更具体的描述。可以理解这些附图描述本发明的实施例，并不因此被认为是其范围的限制，将通过使用附图以额外的特征和细节描述和解释本发明，其中：

图1是图示示例性数据重复数据删除处理的方框图；

图2是图示示例性重复数据删除产品的方框图；

图3是图示本发明的各方面可以在其中实施的示例性计算环境的方框图；以及

图4是用于帮助重复数据删除产品测试的示例性方法的流程图，可以在该方法中实施本发明的各方面。

具体实施方式

下面阐述的实施例提供了用于在计算环境中帮助重复数据删除产品测试的机制。这些机制通过产生多种呈现真实文件内容改变的重复数据删除测试文件来帮助这种重复数据删除产品测试。当通过特定重复数据删除产品的测试来处理这些重复数据删除测试文件时，如果对生产数据(production data)应用重复数据删除产品(包括特定重复数据删除算法)，观察到可以被推断到可以发生的影响的特征。结果，所阐述的实施例使得目标重复数据删除产品测试能使用多种具有变化的大小和文件内容的文件，非常类似在生产数据的重复数据删除中发生的情况。

转向图1，图示了示例性重复数据删除处理10的方框图。用于存储的数据片段(fragment)12被提供给重复数据删除机制用于分析。在一个实施例中，通过重复数据删除算法动态地计算用于数据片段的边界。此重复数据删除算法试图通过在选择/比较分析14中与数据片段的现有片段档案16比较而在到达的材料中发现新的重复部分(section)。将不能与文件档案20中的现有文件匹配的材料加入片断档案16(见判定18，并存储为片段块22)。通过替换尽可能多的带有到片段档案16中的链接的部分而存储新文件。

为了概念性的目的，图1区分数据片段的档案16与用于取回(retrieve)文件的档案(即，文件档案20)。虽然这有助于阐述减小文件大小的链接的使用，但实践中这种清晰的区分不可能发生。实际的装置典型地将在公共存储区域中保存这两种类型的信息。而且，可以利用这两个数据片段的混合以及链接良好地表示特定文件。

可以使用两个处理之一实施选择/比较块14。一个处理涉及潜在匹配的识别与随后的验证。为了验证匹配，将到达的片段的完整内容与档案比较。另一可选处理通过被认为对保证匹配的正确性足够可靠的数字指纹技术的使用来省略验证。

现在转向图2，图示了示例性重复数据删除产品30。主机32被连接在具有虚拟磁带(tape)库36与文件和片段存档仓库(repository)38之间。主机32可以是运行备份/恢复软件的专用备份服务器(诸如，IBM(注册商标)Tivoli(注册商标)存储管理器(TSM))或者是可以为整个计算环境内的多个客户机执行备份服务的类似产品。这些服务可以包括执行全部或递增的备份以及恢复单独文件或与文件系统或存储卷关联的所有备份文件的能力。

如所示，主机32向服务器36发送执行磁带装/卸以及读/写操作的命令(由箭头34表示)。接着，服务器36从仓库38存储/取回数据文件和片段(由箭头42表示)并执行片段验证(箭头40)，如前所述。

图3图示了可以用于实施本发明的实施例的示例性计算环境100。计算机(诸如服务器)102包括处理器104和存储器106，诸如随机访问存储器(RAM)。计算机102被操作性地连接到显示器119，其在图形用户界面118上向用户呈现诸如窗口的图像。计算机102可以连接到其它装置，诸如键盘116、鼠标装置120、打印机128等。当然，本领域的技术人员将认识到可以与计算机102一起使用上述部件的任何组合，或任何数目的不同部件、外围设备及其它装置。

一般地，计算机102在存储于存储器106中的操作系统(OS)108(例如，z/OS、OS/2、LINUX、UNIX、WINDOWS、MAC OS)的控制下操作，并例如通过图形用户界面(GUI)模块132与用户接口以接受输入和命令，并呈现结果。在本发明的一个实施例中，OS 108帮助重复数据删除和备份操作。虽然GUI模块132被描述为独立的模块，但执行GUI功能的指令可以驻留于或分布在操作系统108、计算机程序110中，或被利用特殊功能存储器和处理器实施。

OS 108包括提供用于创建和/或测试一个或多个重复数据删除测试文件的工具的重复数据删除模块140。计算机102还实施允许将以编程语言(诸如COBOL、PL/1、C、C++、JAVA、ADA、BASIC、VISUAL BASIC或任何其他编程语言)编写的应用程序110翻译为处理器104可读的代码的编译器112。完成之后，计算机程序110使用关系和使用编译器112产生的逻辑访问并操控存储在计算机102的存储器106中的数据。

如前所述的几个重复数据删除测试文件的重复数据删除文件集114存储在存储器106上。计算机102还可选地包括外部数据通信装置130，诸如调制解调器、卫星链接、以太网卡、无线链接或其它用于与其它计算机通信的装置，例如经由因特网或其它网络。

数据存储装置122是直接访问存储器装置(DASD)122，包括一个或多个持有大量数据集的主卷(primary volume)。DASD 122可以包括多个存储介质，诸如硬盘驱动器(HDD)、磁带等。数据存储装置136也可以包括多个类似于装置122的存储介质。装置136可以被指定为用于持有主要存储在装置122上的数目的数据集的备份版本的备份装置136。本领域的技术人员将理解，装置122和136不需要位于相同的机器上。装置122可以位于地理上的不同位置，并且通过诸如以太网的网络链接连接。装置122和136可以包括一个或多个卷，并且对于每个卷带有相应的内容卷表(VTOC)。

在一个实施例中，实施操作系统108的指令、计算机程序110和编译器112以及定义文件142和重复数据删除文件集114被有形地(tangibly)包含在计算机可读介质(例如，数据存储装置120)中，所述计算机可读介质可以包括一个或多个固定的或可移除的数据存储装置，诸如zip驱动器、盘124、硬盘驱动器、DVD/CD-ROM、数字磁带、固态驱动器(SSD)等，它们被一般地表示为盘124。此外，操作系统108和计算机程序110包括指令，当所述指令被计算机102读取和执行时，使得计算机102执行实施和/或使用本发明所必需的步骤。计算机程序110和/或操作系统108的指令还可以被有形地包含在存储器106中并且/或者通过数据通信装置130传送或被数据通信装置130访问。如此，这里可以使用的术语“产品”、“程序存储器”和“计算机程序产品”意在包括可从任何计算机可读装置或介质访问和/或操作的计算机程序。

本发明的实施例可以包括一个或多个关联的软件应用程序110，其包括例如用于管理包括计算装置的网络(诸如存储区域网络(SAN))的分布计算机系统的功能。因此，处理器104可以包括存储管理处理器(SMP)。程序110可以在单个计算机102内或作为包括计算装置的网络的分布计算机系统的一部分操作。该网络可以包括一个或多个经由局域网和/或因特网连接(其可以是公共的或安全的，例如，通过虚拟私有网络(VPN)连接)而连接的，或者经由光纤信道SAN或其它如本领域的技术人员理解的公知网络类型而连接的计算机。(注意，光纤信道SAN典型地仅被用于计算机与存储系统通信，而不是计算机互相之间。)然而，正如本领域技术人员将理解，环境100的各种额外部件可以独立地或协同的工作，以定义、初始化和执行用于帮助重复数据删除产品测试(将被进一步描述)的功能。

为了使用多种产生的重复数据删除测试文件在测试重复数据删除技术中获得真实响应，将内容的构造与将包含这种内容的文件的定义数据分离。可以首先以单个连续数据流的形式构造该内容。此形式的数据构造考虑了通过以一般形式开始的后续数据组织和修改，并且通过更多种类的处理帮助数据的校准。

在数据以单个连续流的排列之后，可以将所述内容以随机顺序映射到大量重复数据删除测试文件中。当期望对内容构造改变时，在数据被放入文件之前将改变施加到连续数据流。依据连续流中被映射到给定文件的部分，文件保持不变、完全改变或包含改变和未改变区域的混合。

为了完成文件与它们内容之间的此分离，如果施加到数据流的修改的随机模式是“自相似的”，则是有益的。下面描述用于产生自相似模式的数据修改的示例性技术。一旦对数据流进行了自相似修改，该修改呈现尺寸恒定的特征。自相似模式的尺寸恒定性导致其中流的小和大的子集都可以被随机地放置到小和大的文件中的情况，同时保留恒定的原始分布特征。

通过将数据的构造与它到文件中的放置分离，本发明的机制简化了数据修改的真实模式的产生，以及这种模式相对真实系统的校准。例如，可以相对物理I/O参考的简单轨迹(trace)执行校准，而不是还需要文件系统的关联部件。本领域的技术人员公知获得这种数据的I/O轨迹的性能。

为了在数据流内产生自相似模式的数据修改，可以利用诸如佩瑞多(Pareto)分布的概率分布。根据佩瑞多分布，遵循此分布的随机变量X具有以下形式的累积分布函数：

P(X＞x)＝(x/x_min)^-alpha (1)，

其中，x_min是最小值，alpha是选择所期望的分布“形状”的正实数。测试显示，在一个实施例中，所述参数的合理值可以是，x_min约等于4K，alpha约等于1.02。

首先，可以将数据分解为某个大小(例如4K)的块。可以从左至右将这些块编号为0、1、2、3...。然后，可以选择块用于修改，如以下伪代码所示：

N＝-1

While(N＜desired stream length(期望的长度))

select random Pareto variable X(选择随机佩瑞多变量X)

N＝floor(N+X)(取整(N+X))

modify block N(修改块N)。

转向图4，描述了用于在计算环境中使用本发明的机制，帮助在计算环境中的重复数据删除产品测试的示例性方法200。如本领域的技术人员将理解的，可以以不同的方法实施方法200中的各个步骤，以适合特定应用。此外，可以通过各种手段实施所描述的方法，诸如在存储环境上操作的或与存储环境关联的硬件、软件、固件或它们的组合。例如，所述方法可以被部分或全部实施为包括具有存储在其中的计算机可读程序代码部分的计算机可读存储介质的计算机程序产品。计算机可读存储介质可以包括盘驱动器、闪存、数字通用盘(DVD)、压缩盘(CD)以及其它类型的存储介质。

方法200开始(步骤202)，将要通过重复数据删除产品测试处理的数据排列为单个连续流(步骤204)，然后，在如前文所述的自相似模式中对排列的数据施加随机修改(步骤206)。随机修改的应用在步骤208-218中进行。在步骤208中，所排列的数据被分解为相同大小的块N。作为下一步骤，N＝-1(步骤210)，并且当N小于所期望的流长度(步骤212)时，选择随机佩瑞多变量X(步骤214)，将N的值加上佩瑞多变量X作为(N+X)，并将其取整(步骤216)，并且相应修改块N(步骤218)。

在施加了随机修改之后，所排列和修改的数据的随机大小的子集被映射到随机大小的重复数据删除测试文件上(步骤220)。然后，手动或通过计算环境的应用将重复数据删除文件提供给计算环境中的测试环境(步骤222)用于重复数据删除测试。然后，方法结束(步骤226)。虽然方法200描述了包含用于在自相似模式中修改数据的特定技术的一个示例性方法，但本领域的技术人员将理解，可以执行对所描述的方法的变化。

上面图4中描述的方法考虑了所产生的随机模式的数据相对真实计算系统的校准。如前所述，在一个实施例中，可以执行校准，由此可以在特定计算环境中相对物理I/O参考的I/O轨迹数据来校准排列的、修改的数据。如本领域的技术人员将理解，可以执行额外校准，以在特定实施中改进如前面所述的x_min和alpha的参数。对本领域的技术人员将显然的是，使用上面方法的校准的简易和灵活性以及作为结果的已修改数据。

如本领域的技术人员将理解，本发明的各方面可以被实施为系统、方法或计算机程序产品。因此，本发明的各方面可以采用完整硬件实现的形式，完整软件实现的形式(包括固件、驻留软件、微代码等)或者组合软件和硬件方面的实现，这里它们全部被一般地称为“电路”、“模块”或“系统”。此外，本发明的各方面可以采用在一个或多个具有在其上包含的计算机可读程序代码的计算机可读介质中包含的计算机程序产品的形式。

可以利用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是，例如但不限制于，电子、磁、光学、电磁、红外或半导体系统、设备或装置，或者前者任何合适的组合。计算机可读存储介质的更具体示例(非穷举列表)将包括以下：具有一根或多根导线的电气连接、便携的计算机盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光纤、便携压缩盘只读存储器(CD-ROM)、光学存储器、磁存储器、或前者任何合适的组合。在此文献的上下文中，计算机可读存储介质可以是可以包含或存储用于由或连同指令执行系统、设备或装置使用的程序的任何有形介质。

可以使用任何合适的介质(包括但不限制于：无线、有线、光纤光缆、RF等，或前者任何合适的组合)传送在计算机可读介质上包含(embody)的程序代码。可以以一种或多种编程语言的任何组合编写用于执行用于本发明的各方面的操作的计算机程序代码，包括面向对象的编程语言，如Java、Smalltalk、C++等，以及传统面向过程的编程语言，诸如“C”编程语言或者类似的编程语言。程序代码可以全部在用户计算机上执行，部分在用户计算机上执行，如单机软件包，部分在用户计算机上执行以及部分在远程计算机上执行，或者全部在远程计算机或服务器上执行。在后者的方案中，远程计算机可以通过任何类型的网络连接到用户计算机，包括局域网(LAN)或广域网(WAN)，或者可以连接到外部计算机(例如，通过使用因特网服务提供商的因特网)。

下面参照根据本发明的实施例的方法、设备(系统)和计算机程序产品的流程图说明和/或方框图描述本发明的各方面。将理解，可以通过计算机程序指令实施流程图说明和/或方框图中的每个块，以及流程图说明和/或方框图中的块的组合。可以将这些计算机程序指令提供给通用目的计算机、特殊目的计算机或其它可编程数据处理设备的处理器来生产机器，从而，经由计算机或其它可编程数据处理设备的处理器执行的所述指令创建用于实施在流程图和/或方框图块(一个或多个)中指定的功能/动作的装置。

这些计算机程序指令还可以存储在可以引导计算机、其它可编程数据处理设备或其它装置以特定方式作用的计算机可读介质中，使得存储在计算机可读介质中的指令产生包括实施在流程图和/或方框图的块(一个或多个)中指定的功能/动作的指令的产品。计算机程序指令还可以被载入到计算机、其它可编程数据处理设备或其它装置上，以使得在计算机、其它可编程设备或其它装置上执行一系列操作步骤来产生计算机实施的处理，使得在计算机或其它可编程设备上执行的指令提供用于实施在流程图和/或方框图的块(一个或多个)中指定的功能/动作的处理。

上述图中的流程图和方框图示出了根据本发明的各个实施例的系统、方法以及计算机程序产品的可能实施的架构、功能和操作。在这点上，流程图或方框图中的每个块可以表示代码的模块、片段或部分，其包括一个或多个用于实施指定逻辑功能的可执行指令。还应该注意，在某些可选实施例中，块中标注的功能可以不以图中所标注的顺序发生。例如，连续示出的两个块事实上可以基本被同时执行，或者有时可以以相反的顺序执行所述块，这取决于所涉及的功能。还将注意，可以通过执行指定的功能或动作的基于硬件的特殊目的系统或者特殊目的硬件与计算机指令的组合实施方框图和/或流程图说明的每个块，以及方框图和/或流程图说明中的块的组合。

虽然已经详细阐述了本发明的一个或多个实施例，但本领域的技术人员将理解，可以对这些实施例进行修改和改变，而不偏离所附的权利要求中所描述的本发明的范围。

Claims

1.一种用于在计算环境中通过与存储器装置通信的处理器帮助重复数据删除产品测试的方法，包括：

将要通过所述重复数据删除产品测试处理的数据排列为单个连续流；

在呈现尺寸恒定的自相似模式中对排列的数据施加多个随机修改中的至少一个；以及

将多个利用自相似模式修改的排列的数据的随机大小的子集映射到多个随机大小的重复数据删除测试文件的每个中。

2.如权利要求1所述的方法，其中，所述在自相似模式中对排列的数据施加多个随机修改中的至少一个包括：

将排列的数据分解为多个相等大小的块，以及

对所述多个相等大小的块中的一个加上随机选择的遵循概率分布的变量。

3.如权利要求2所述的方法，其中，所述概率分布包括佩瑞多分布。

4.如权利要求2所述的方法，其中，当所述相等大小的块的数目小于期望的流长度时，对所述多个相等大小的块中的每个执行所述分解所排列的数据以及所述加上所述随机选择的变量。

5.如权利要求1所述的方法，还包括将所述多个随机大小的重复数据删除测试文件提供给所述计算环境中的测试环境，其中由所述测试环境访问所述多个随机大小的重复数据删除测试文件。

6.如权利要求1所述的方法，还包括相对在所述计算环境中获得的输入/输出轨迹数据，校准所述多个随机大小的重复数据删除测试文件。

7.一种用于在计算环境中通过与存储器装置通信的处理器帮助重复数据删除产品测试的装置，包括：

用于将要通过所述重复数据删除产品测试处理的数据排列为单个连续流的装置；

用于在呈现尺寸恒定的自相似模式中对排列的数据施加多个随机修改中的至少一个的装置；以及

用于将多个利用自相似模式修改的排列的数据的随机大小的子集映射到多个随机大小的重复数据删除测试文件的每个中的装置。

8.如权利要求7所述的装置，其中，所述用于在呈现尺寸恒定的自相似模式中对排列的数据施加多个随机修改中的至少一个的装置包括：

用于将排列的数据分解为多个相等大小的块的装置，以及

用于对所述多个相等大小的块中的一个加上随机选择的遵循概率分布的变量的装置。

9.如权利要求8所述的装置，其中所述概率分布包括佩瑞多分布。

10.如权利要求8所述的装置，其中还包括：用于当所述多个相等大小的块的数目小于期望的流长度时，对所述多个相等大小的块中的每个执行所述分解所排列的数据以及所述加上所述随机选择的变量的装置。

11.如权利要求7所述的装置，其中还包括，用于将所述多个随机大小的重复数据删除测试文件提供给所述计算环境中的测试环境的装置，其中由所述测试环境访问所述多个随机大小的重复数据删除测试文件。

12.如权利要求7所述的装置，其中还包括：用于相对在所述计算环境中获得的输入/输出轨迹数据，校准所述多个随机大小的重复数据删除测试文件的装置。

13.一种制造用于在计算环境中通过与存储器装置通信的处理器帮助重复数据删除产品测试的工具的方法，包括：

提供重复数据删除模块，所述重复数据删除模块被配置为与所述计算环境中的处理器和存储器装置通信，其中所述重复数据删除模块被配置为：

14.如权利要求13所述的制造方法，其中按照在所述自相似模式中对排列的数据施加所述多个随机修改中的至少一个，所述重复数据删除模块还被配置为：

将排列的数据分解为多个相等大小的块，以及

15.如权利要求14所述的制造方法，其中，所述重复数据删除模块还被配置为：当所述多个相等大小的块的数目小于期望的流长度时，对所述多个相等大小的块中的每个执行所述分解所排列的数据以及所述加上所述随机选择的变量。

16.如权利要求13所述的制造方法，还包括将所述多个随机大小的重复数据删除测试文件提供给所述计算环境中的测试环境，其中由所述测试环境访问所述多个随机大小的重复数据删除测试文件。

17.如权利要求13所述的制造方法，其中，所述重复数据删除模块还被配置为相对在所述计算环境中获得的输入/输出轨迹数据，校准所述多个随机大小的重复数据删除测试文件。