CN102207951A

CN102207951A - 分布式数据归档系统和/或方法

Info

Publication number: CN102207951A
Application number: CN2011100761390A
Authority: CN
Inventors: 迈克尔·C.·米汉
Original assignee: Software AG
Current assignee: Software AG
Priority date: 2010-03-29
Filing date: 2011-03-29
Publication date: 2011-10-05
Also published as: US9002801B2; US20110238935A1

Abstract

本发明实施例涉及将数据提取器和数据累加器配对的系统和/或方法，其中这些组成部分可以设置于网络系统中的任何一个或多个计算机中。这种分布式同级提取-累加方案具有如下优点：减少（且有时是完全消除）对数据归档中的“漏斗”方式的需要，其中所有数据通过中央计算机或中央计算机系统移动或备份。在具体实施例中，召回-累加、检索、验证、和/或其他涉及归档的活动可以以类似同级和/或分布式方式进行。在具体实施例中还提供附加或替换的用于验证归档系统中的数据的完整性的混合技术，和/或用于从不可用格式恢复/输入数据的技术。

Description

分布式数据归档系统和/或方法

技术领域

本发明涉及分布式数据归档系统和/或方法。更具体的说，本发明实施例涉及将数据提取（器）和数据累加（器）配对的系统和/或方法，其中，这些部件可位于网络系统中的任何一个或多个计算机中。这种分布式同级提取-累加方案具有如下优点，减少（而且有时可以完全消除）数据归档时对“漏斗（funnel）”操作的需求，其中所有数据都通过中央计算机或中央计算机系统进行转移或备份。在具体实施例中，召回（recall）-累加、搜索、检验、和/或其他与归档有关的活动都可以以基于同级的和/或分布式的方式进行。

背景技术及发明内容

数据库以及其他数据存储中的数据随着时间在不断增长。引起这种持续膨胀的原因有很多。其中一个原因与每天越来越多的商业交易的发生有关。互联网、内联网、和/或系统具有增长极大的交易数目，在很多商业领域中的合并和收购也是如此。最终结果就是更多的数据需要被归档以便，例如，保持对法律法规（例如，需要保留这样的信息的法律法规）的遵守，保持商业系统中的主要“生产（production）”部分处于最大效能等。关于交易的细节包括，例如，参与者、条款、条件、相关的产品或数据等，都需要进行存档。此外，近期还出现了接近归档元数据（move towards archiving metadata）（元数据有时其被看作“与数据有关的数据”）涉及商业交易中的这些和/或其他各方面。

在需要更多对数据的归档的同时，随之而来还需要更好的方式来完成它。比如，瞬时引用中的发明者认识到需要在允许服务中央控制情况下归档商业和/或其他数据，同时，最大化整个网络中的分布的潜在范围。

现有的归档方法不能解决归档的迅速扩散问题。现有的系统通常只能通过漏斗方式到达一个或仅仅非常少的一些，网络中的特定计算机。这种方式限制了容量并降低了容错能力，因为存在一个所有数据都必须通过的“漏斗”。这种漏斗方式被专用于漏斗通道的资源所限制。且还具有单点失效的缺点。

曾经可通过商业方式从Neon获得产品，其声称可以以分布式方式进行操作。从一定程度上来说，其声称的内容是真实的。即是，Neon的产品涉及的数据“提取”可以在多个计算机中发生。但是，将这些提取的数据“累加”进归档需要通过特定的计算机，该特定的计算机作为归档控制中心进行工作。这样，即使数据提取可以发生在整个网络中的多个计算机中，系统仍然不利的涉及“漏斗”方式处理所有归档的提取数据。

图1所示为网络系统的简要视图，该图用于说明采用漏斗方式进行数据归档的缺点。图1中的网络100包括多台计算机102。每台计算机与数据存储104连接，并将所有或部分存储的数据发送累加器计算机106，然后，在归档存储位置108归档提取的数据。从图1中的例子可以看出，在数据可以存储到归档存储位置108之前，所有的数据都以漏斗方式传输到累加器106。这样，如果累加器106发生了任何故障（例如，被损坏、被破坏、暂时不可连接等等），归档操作将会失败。即使数据提取已经在一定程度上以分步式方式执行，但是累加器106提供的中央漏斗方式仍然具有极大的不足。

值得庆幸的是，本领域中存在改进归档系统和/或方法的需要。例如，在本领域中存在对数据提取和数据累加的真正的分布式方式的需求。

本发明具体实施例的一个方面涉及允许服务的中央控制方式的数据归档，并且，最大化整个网络的分布的潜在范围。在具体实施例中，任意数量的数据“提取”可以在任意数量和/或类型的计算机中运行。同时，在具体实施例中，任意数量的数据“累加”可以在任意数量的计算机中运行。累加器计算机可以是与提取器计算机相同或不同的计算机。在具体实施例中，部分（而不是全部）累加器计算机也可以同时是提取器计算机，反之亦然。此处描述的分布式设计具有增加容量并提高故障容错率的优点。

本发明具体实施例的另一方面涉及自动确定数据是遗失还是被破坏的技术。在这种情况下，数据完整性检验可以与安全-增强加密技术一起执行，或代替该加密技术。一种示例的情形是，归档数据被存储了很长一段时间但并没有被碰触过（untouched）。相应的，可能发生了一个事件，例如，在硬件层面，存储介质丢失-即使是相关个人职员（例如，信息技术部分、数据所有者等等）也不知道，不存在明显的丢失，和/或明显的对服务的干扰。一段时间（例如，几天、几个月、几年等）以后，需要对归档进行检索才知道到底丢失了什么。不幸的是，由于自丢失事件发生已经过了很长时间，可能已经不存在改正该问题的机会了。但是，采用本发明具体实施例提供的技术，可以有助于保证归档的所有部分都在一个可控的时间范围内（以可变的程度）被定期的访问。本例中的方案可以，相应的，提高识别、寻址、以及修正任何丢失的能力，由于发现问题的时间可能会比较接近丢失事件发生的时间。

本发明的具体实施例涉及归档系统。网络中连接有多台计算机。至少一个源数据存储器和至少一个目标数据存储器被连接到上述网络。配置至少一个归档服务以协调多个提取操作和多个累加操作，每一个所述提取操作在所述多个计算机中的一台计算机上可执行用以从一个所述源数据存储器读出数据，同时每一个所述累加操作在所述多个计算机中的一个计算机上可执行用以将数据写入到一个所述目标数据存储器。每一个所述提取操作被配置为在所述多个计算机中任意一个预定的计算机上运行，并和一个所述累加操作配对，一个所述累加操作被配置为在所述多个计算机中任意一个预定的计算机上运行。

在本发明的具体实施例中，所述至少一个归档服务可被进一步配置以实现规则（a）将提取和累加操作映射到执行这些操作的各计算机，以及（b）存储同级提取操作和累加操作之间的配对。在具体实施例中，该规则还可进一步识别至少一个所述源数据存储器用于每一个所述提取操作和识别至少一个所述目标数据存储器用于每一个所述累加操作。在具体实施例中，该规则可进一步包括定义提取规则，所述提取规则用以识别从至少一个源数据存储器中将被读出的数据和是否有另外的数据将被附加在所述读出的数据上，和/或累加规则用以指示如何处理重复的表项和/或将在每一个所述的目标数据存储器中保留多长的数据。

具体实施例中的系统被布置为当向至少一个目标数据存储器写入数据时不使用中心枢纽或漏斗的系统。

按照本发明具体实施例，至少一个归档服务可被进一步配置为与至少一个召回操作相配合，以从所述至少一个目标数据存储器取回数据，该存储器可访问所述计算机。在所述至少一个召回操作中，从所述至少一个目标数据存储器取回的数据被放置到至少一个所述源数据存储器中。

按照本发明具体实施例，所述至少一个归档服务可被进一步配置为与至少一个验证操作相配合，以验证至少一个目标数据存储器内数据的完整性。所述至少一个验证操作可被配置为连续运行预定长的时间，周期性运行以使所述至少一个验证操作在预定的时间或以预定的时间间隔开始执行，等等。所述至少一个验证操作可被配置为根据可被至少一个验证操作获得的预定规则确定数据是否存在、是否与校验和匹配、和/或是否可被召回。所述至少一个验证操作可被进一步配置为如果所述至少一个验证操作在执行过程中遇到故障时报警。

依照本发明具体实施例，所述至少一个归档服务被进一步配置为与至少一个输入操作相配合，以使来自另外的不可用的备份位置（the otherwise non-consumable backup location）的数据并入到所述至少一个源数据存储器和/或所述至少一个目标数据存储器。所述至少一个输入操作可被配置为确定（a）存在于来自另外的不可用的备份位置的数据中的哪些数据被备份；（b）来自别的不可用的备份位置的数据怎样被备份。所述至少一个输入操作可执行用于从所述另外的不可用的备份位置重获数据的规则，用于重获数据的所述规则是一个或更多的用户编程的规则、一个或更多的预定义算法、和/或由所述至少一个输入操作自动生成。

在本发明的具体实施例中还提供了相应的方法用于提供、配置、和/或执行相同的方案。

在本发明的具体实施例中还提供了相应的计算机可读存储介质，该介质存储有执行上述方法的命令。

本发明实施例的各方面可以单独的使用，和/或以各种组合方式使用以获得本发明的其他具体实施例。

附图说明

为了更好和更完整地说明本发明实施例中的各种特征和优点技术方案，下面将结合附图对本发明的具体实施例的细节进行描述。

图1是网络系统的简要视图，其有助于说明漏斗方式进行数据归档的缺点。

图2是示意了与本发明实施例中的提取操作有关的参数的屏幕截图。

图3是示意了与本发明实施例中的累加操作有关的参数的屏幕截图。

图4是示意了本发明实施例中的提取和累加操作过程的系统图。

图5是示意了本发明实施例中的提取操作的执行流程图。

图6是本发明实施例中包括多分布归档相关活动的系统示意图。

图7是示意了本发明实施例中的用于执行数据验证/完整性检测的参数的屏幕截图。

图8是示意了本发明实施例中的执行验证操作的流程图。

图9是示意了本发明实施例中的用于在在先时间点恢复数据的参数的屏幕截图。

图10是示意了本发明实施例中的在在先时间点恢复数据的流程图。

具体实施方式

在本发明的具体实施例中，在整个网络中可并行的运行任意数目的自动进行的归档操作。这种分布式的处理模型可有利的允许了在计算机中和计算机之间的并行操作，因而不存在（或本质上不存在）对可能发生的归档操作的数目的实际限制。例如，在业务中可存在多台计算机。这些计算机中的每一台都可以用于从原始数据库或其他原始数据存储器中提取数据以便进行归档，并且还/或可被配置为将数据累加入归档。

通过允许非限制或本质上非限制的并行活动，归档操作的处理可以散布于整个网络中而不是被漏斗的通往或通过网络中的一小部分。这种分布式方案可以提高归档操作的吞吐量。该方案还允许将归档处理定向到处理过程成本低或处理能力高的计算机上。可基于每一个单独的归档操作的需求来做出这种决定。例如，与个人财务交易中的归档相联系的法定需求（legal requirements）包括，例如，归档将要发生的时间、保留持续的时间长度等等。而这些法定需求会相应的提升这种数据的重要性，这种数据的归档操作可被给予高优先级，这样它们会被设置为在更高速度的计算机中执行。相反地，与内部资本（internal stock）层级有关的数据相应的具有较低的与之相关的法定需求，即其重要性要低一些，表明其归档操作会被设置在较便宜、较慢的计算机中执行。这说明归档处理的费用可以在具有处理能力的网络中的各部分进行定向，并伴随有费用的有效利用。

例如，即是代理人（instant assignee）的一个客户在除主机以外运行了大约60000个服务。如果安排了一个或多个“提取器”在这些计算机中的每一个中运行，并且所有同级的“累加器”通过一个特定的“中央拥有”（或具有在其上运行的许可）归档的计算漏斗连接，这样的归档情形是不可行的。其存在过多的进入连接，其漏斗传输过多的数据至集中拥有归档的特定计算机。相反的，本发明实施例涉及降低并且有时甚至完全消除对漏斗传输的需要的方案。当这么做时，本发明实施例中使能的活动与同时或实质上同时必须发生的活动一样多，同时不受漏斗传输的潜在的瓶颈限制。实际上，在本发明的具体实施例中，储存仓库（storage vault）本身提供了实际的处理限制，而不是漏斗计算机施加的瓶颈和/或受限的吞吐量。这有助于保证储存库系统被最大限度或最终希望的利用。

如上述的暗示，此处描述的归档处理可以被看作是涉及同级提取和累加的操作。如图2所示，为具体实施例中的提取操作涉及的特定参数的屏幕截图。可，例如，从下拉式列表202（其中列表了所有可被选中的配置为执行提取操作的计算机）中指定提取计算机（Computer）。在图2的示例中，选择名为“UKMCM002”的计算机作为提取计算机。被访问的存储器的类型（Type）在区域204识别，本例中为ADABAS数据库。当然，需要说明的是，此处描述的技术可被用于与任何类型的数据库或数据存储器连接，而ADABAS仅仅是可用的数据库中的一个例子。在任何情况下，ADABAS数据库的位置和/或从其提取的信息由位置（Location）区域206提供。在如图2所示的例子中，位置区域206指明了数据库（Database）号码1将被在文件（File）612访问。访问区域208的模式（Mode）确定了取得数据的方式。在图2的示例中，采用ADABAS命令来访问数据。当然，也可以有其他的选择。例如，可以全部或部分的复制原始文件（raw file），可采用SQL命令等等。归档操作的范围（Scope）在区域210选定。如图2所示，该区域涉及整个归档。当然，其他的选择可以包括，例如，被选择的数据如预指定关键字或重要数据、近期修改或的数据、自上一次归档操作后改变的数据、遵循预定义规则或要求（例如，法定报告要求等）的数据、和/或类似数据。在具体实施例中，所有的数据都被认为是备选的用于归档的数据，而对数据的选择权则属于企业本身。有些数据可能具有特定的与之相关的需遵守的要求，这些将从本质上描述归档活动。然而，即时应用（instant application）的发明者发现大多数企业倾向于归档远远多于其当前负载的信息。考虑到这一点，即时应用的发明者还发现障碍常常存在于与之一起执行的归档的下降趋势（ease）。在任何情况下，用于归档的示例的技术数据类型可包括，例如，普通文本数据、二进制、打包、数值、浮点等等。除了业务数据外，也可能需要归档元数据（例如，描述业务数据的系统数据）。例如，在ADABAS示例中，每个文件都具有称为FDT（区域描述表格，field description table）的描述图表，在具体例子中其可能被需要，以便对FDT（或其他数据库或数据存储类型的等同者）进行归档。实际上，常常需要这样的元数据以便允许系统正确的在当前和未来控制和整理业务数据。

类似的，归档操作的累加部分可被配置为在网络中的任何计算机上执行，这些计算机可与其同级或搭档的提取操作的计算机相同或不同。在这点上，图3示意了本发明实施例中的累加操作涉及的特定参数的屏幕截图。在图3的示例中，累加计算机为“UKMCM001”，与其同级的提取器（如前图所述为“UKMCM002”）为不同的计算机。提取数据的累加目的地采用目的地（Destination）选择304来指定。如前所述，提取的数据被累加到数据仓库（有时也称为归档存储位置或仅称为归档）中。在具体实施例中，数据仓库可以是位于中央的且所有或本质上所有计算机可访问的存储区域。换句话说，数据仓库实质上可以是网络主干的一部分。在具体实施例中，存储到数据仓库的数据可以被存储在平面文件（flat file）中，例如，在文件系统或录结构（directory structure）的文件中。在具体实施例中，提取的数据可以替代性的或附加的存储到其他同级数据库或数据存储器（例如，其他ADABAS数据库、不同类型的数据库、或与被提取数据的数据存储器相同或不同的其他存储器）中。如图3中的示例，可选择（但实际上其不是）特定的ADABAS数据库和/或存储位置。在具体实施例中的数据仓库可包括一个或多个物理存储位置并且，这样，单个数据仓库即可被认为包括多个仓库或子仓库。在具体实施例中，数据仓库可以是呈现为任何合适的物理和/或逻辑形式的安全仓库的一种形式。

还可指定数据存储参数306。这些参数可包括若文件并没有存在时是否产生文件、如何处理二次录入（例如，替换、忽略、改变、将生成的错误信息等等）、如何处理二次录入的描述（例如，采用上述的和/或其他选择方案）等等。还可以指定保留类型（retention type）的细节这样，例如，就可以实施自动或手动的保留策略。自动保留策略涉及，例如，以预定时长保留数据、保留哪种类型的数据、何时和/或如何进行备份或清除备份等等。

在整个网络的任何组合中，可在任何时间运行任何数目的上述处理对而没有实际的限制。在具体实施例中，可在一台计算机和多台计算机之间同时运行多个操作。图4是示意了本发明实施例中的提取和累加操作过程的系统图。更具体来说，在图4的示例中，两个提取/累加对以相反的方向在两台相同的计算机之间运行。更具体来说，计算机A和B分别包括归档服务402a和402b的相应实例。归档服务402基于配置服务器404中的设置协调提取和累加操作（以下将对其进行详细描述）。配置服务器可包括归档规则，例如，基于前述的图2和3中的屏幕截图中示例的参数建立。考虑到这一点，管理者用户接口（User Interface，UI）406可允许用户观察归档过程和/或调整配置规则。

如前所述，在任何情况下，归档服务可在实质上控制或协调提取和累加活动。如图4的示例中，计算机A发起提取操作410a。该提取操作410a从ADABAS数据库412a中，例如按照指定的规则，提取数据。与计算机A的提取操作410a配对的是计算机B中执行的同级累加过程414b。然后，累加过程414b获取从ADABAS数据库412a提取的数据并将其放置在数据仓库416。如前所述，仓库可以是中央数据存储器（例如，在文件系统中实施），即使其是显示在图4中的计算机B侧。

如前所述，被选择的数据可被累加进其他的数据存储器中而不是通常的仓库或归档中，或是附加的累加进通常的仓库或归档中。如图4所示，ADABAS数据库412b被归档至ADABAS数据库412c。在图4示例中，这是通过利用计算机B侧的提取操作410b并配合计算机A侧的累加操作414a来完成。换句话说，提取操作410b从ADABAS数据库412b提取数据，然后将其发送至累加操作414a，这样其就可被归档至ADABAS数据库414a。

在具体实施例中，通讯（例如，在提取和累加操作之间的通讯）可以由TCP/IP通讯来路由。当然，也可以是其他的通讯协议。例如，在具体实施例中，另一示例运输可以是基于代理的运输。例如，在申请序列号为12/458030、12/385104、和11/896310的美国专利申请中，其整个内容整体上与此处相关。在具体实施例中，商业上可获得的产品EntireX可以用来作为传输工具。在具体实施例中，累加和提取操作可在与其相应的源和目的数据库“相近”的计算机中执行，而在本发明的不同实施例中还可以有其他的安排方式。此外，在具体实施例中，特定归档活动的提取和累加操作被设置为在相同的计算机那里执行，这些组成部分可被组合成一个以减少（有时甚至是消除）对路由通讯的需求。

图4中示例的结构提供了在整个企业网络中进行归档操作的自由度。将其与自动执行（例如，基于预定义的规律的或不规律的时间表）相结合可实现在作为专业管理的公司服务的整个业务中流畅的处理归档。

图5是示意了本发明实施例中的提取操作的执行流程图。在步骤S501中，在提取计算机中部署的归档服务发现到了运行特定操作（例如，根据预设的时间表）的时间。归档服务可自身可检测这一点，或其也可按照指示执行归档操作，例如，通过配置服务器，在本发明的不同实施例中。在步骤S503中，归档服务接着发起在合适的计算机上的提取过程。在步骤S505中，归档服务接着识别将要运行的配对的累加过程（例如，在相同或其他计算机中的过程）。其相应的与在合适的计算机中的归档服务通讯以安排发起同级的累加器。在步骤S507中，在合适的计算机中的归档服务发起本地的配对的累加过程。在步骤S509中，设定提取和累加过程的通讯接口，这样它们可以一起工作以完成处理。在步骤S511中，提取器按照定义的标准从原始数据库或存储器中获取信息。在具体实施例中，提取器可将“n”个记录打包（block up）为一个到达同级累加器的通讯。在步骤S513中，配对的累加器将最近的“包（block）”存储到选择的目的地。最近的包的存储也可与提取器和/或归档服务一致。在具体实施例中，该包可以从原始源中移出。然后，提取器可获取下一个包，并不断重复直到所有数据被从原始数据库或源中提取、存储、和移出。在该过程中，提取和累加过程都可向其本地归档服务提供进展信息。管理者可以使用UI来观察两台计算机中任一台中的流程，并具按照日期进展的图解显示。

归档活动并不局限于提取和累加。例如，其他归档活动涉及检索、验证、召回、和/或其他操作。这些操作也可以被配置在网络中的任何位置运行，例如，可以分布式方式提供这类活动。图6是本发明实施例中包括多个分布式归档相关活动的系统示意图。图6中的系统包括提取、累加、检索、验证和召回组成部分。当然，需要说明的是系统中上述组成部分也可替换为其他组成部分，或增加其他组成部分。还需要说明的是，可向一台或多台计算机的上下文中提供特定的组成部分，而图6中的方框仅仅示例了本发明的一个具体的实施例。

参考图6中的细节，背景网格602代表存储介质（例如，示例磁盘空间）网络。在图6的示例中其示例了全包围存储网格。该网格表明即使有时候对所有计算机来说使用存储网络的所有部分是可行的，但是常常会对存储网络进行划分这样每一台计算机只会看到其需要看到的部分。这种配置是企业安全策略的惯常配置。该示例的配置也说明了在具体实施例中可并行的使用多个逻辑归档或数据仓库，例如，在同一公司（或者甚至是共享相同计算机/存储网络的不同公司）中的不同业务区域。当然，需要说明的是并没有实际的固定的示意图，其概括了所有可能的系统归档配置，这是因为存在各种各样不同的组成部分，就像公司以相同的方式管理存储网络一样。这种灵活性表明在具体实施例中的归档的并行、分布式特点可以通过采用归档或仓库的并行分布式网络来被增强，例如，在相同的计算机网络中对不同的目的和/或数据。在网络中的所有或大部分计算机常常共享所有或大部分的介质。网格602代表整个企业的这种共享的变化特性。在一些实施例中，网络中的所有计算机都可以看到网络602中的一个部分，但是网格602的其他部分仅仅能被一部分计算机看到。许多网络系统中都普遍具有这种类型的变化。网格602的描述可以去向极端情况，即网格的一块可代表不能被其他对象访问的本地磁盘或计算机。

示意图中的其他方框以看上去不规则的方式散布在存储网格602之上。实际上，网络中每一计算机分布的位置时常具有其理由，对于旁观者而言这并不总是明显可知的。每一个带有文字的方框代表企业网络中的计算机，且每一个计算机可以访问存储网络602的部分（或全部）。企业中有时会有成千上万台分布在世界各地的服务计算机，但是要简单而清楚的描述这样的网络太困难。相应的，图6中的示例可以仅仅考虑一个大的典范的企业的一小部分。

每一个方框中的文字代表了计算机中在随机时间点发生的涉及的归档活动。箭头连接了归档数据需要的特定的配对活动（例如，提取和累加）。例如，计算机604与计算机606配对用于进行提取和累加。计算机604和606都可以访问存储网格602中的归档，但是组成部分可被配置为在这两台计算机604和606之间划分操作的两部分，例如，以前述描述的方案进行划分。这可分散负载，在较便宜的硬件运行其一部分，以减少前述讨论的漏斗问题。

在方框608中同时包括提取和累加。这示例了在相同计算机中配置两种活动的情形。

图中还示意了召回（Recall）方框。该召回过程也可以是分布式的，例如，采用与前述相似的技术。累加的反面则是从归档中读回数据。例如，类似上述的提取-召回同级过程，该过程可被配置为在一台计算机上运行，而提取的相反过程（例如，将数据放回进其原始形式）可被配置为在另一计算机上运行。这可能是出于负载均衡目的，或其他原因。例如，召回可以用来取回（retrieve）任何已经归档的数据，已经归档的数据的任意部分。考虑到这一点，在本发明实施例中，用户可以选择召回的数据（例如，基于用户指定和/或预定义标准过滤提取什么数据）。需要说明的是，图中示例了在与提取器处于相同计算机的一个召回组成部分（覆盖在提取器之上），表明了活动不一定分布在一个到一个的不同计算机上。换句话说，召回计算机610可以独自执行，或计算机612可以执行提取和召回过程等等。即使计算机612可执行提取和召回两个过程，相同的计算机612也可以执行提取过程而依靠另一计算机622执行累加过程。可选择指定这种可选择的同级映射图。其他的选择可包括，例如，召回数据的范围（例如，整个数据输入、单输入的部分、自指定货预定时间后改变的输入的部分等等）、召回数据的位置、源中的数据（如果有的话）发生了什么（例如，是否被删除、保留、作为召回标识等等）、或/和类似对象。基于上述说明，可以了解到召回可以相反于提取和累加配对而被配对，这样，在具体实施例中召回对于并行活动可具有相同的范围。

也可使用网络中的不同计算机实现归档检索。如图6的示例，使用计算机614和616进行搜索。此外，在这些搜索执行的地方具有杰出的控制，例如，对相关存储介质的访问。

也会发生验证活动。并且，可将其配置为其运行在计算机618和620上，例如，它们需要自该处被运行、需要自该处运行它们等等。

从图6中可以了解到，具体实施例中的归档技术涉及多个不同活动的组合。每一个这种活动被作为一组成部分，该组成部分在协作组成部分的构架中存在。这些协作组成部分，相应的，可被安排为在任何规模的多样化的企业网络上运行，例如，以得到分布式归档解决方案。

虽然术语“配对的（paired）”被用来描述特定活动和/或组成部分之间的关系，但是此处描述的具体实施例并不局限于严格的一对一映射图（mappings）。实际上，在具体实施例中，可以提供活动和/或组成部分之间n-m的映射关系。例如，提取器可从一个或多个源存储器提取数据，累加器可从一个或多个提取器累加数据并且/或向一个或多个目标存储器提供数据。在本发明的具体实施例中，召回、验证、和/或其他活动和/或组成部分或外围设备的连接也可以具有类似的配置。进一步的，需要说明的是，在具体实施例中可使用一个或多个代理者中介n-m映射关系实施时的通讯，虽然其他运输机制也可以采用。类似的，在其他实施例中，可采用云计算以提供高分布但可控的方式来执行上述和/或其他的归档操作。实际上，在具体实施例中的云计算有助于减少归档中对漏斗方式的需要。

数据丢失检测系统和方法的实施例

附加于或替代于上述的分布式归档技术，具体实施例也涉及数据丢失检测技术。归档系统通常需要在多年有时甚至是几十年时间中容纳数据。多方研究表明，归档中的绝大部分数据从其文件形成到过期期间从来没有被访问过。然而，归档中的所有数据通常必须保持可访问，以防在过期前需要被使用，而常常不存在可以完全预测哪些数据会被需要哪些数据不会被需要的方法。如果可以绝对正确的预测哪些数据会被需要，那么只有一小部分数据会被需要在第一位置归档。实际上，法律法规和/或商业守则的需要常常要求保留所有的数据以防会需要这些数据（例如，解决未来的法律争议）。这样，如果归档中的任何单独的数据片在未来的几年甚至几十年都可能不会被访问，则存在在任何时间丢失、损坏、破坏等存储在介质上的部分或所有数据的可能。这种损坏或丢失在需要该单独的数据之前通常不会被发现。

许多现有的产品被设计为保护基础的数据不被盗窃、改变、或伪造。常常采用加密和其他安全技术来满足这些要求。不幸的是，这些安全措施不保护再次的丢失或损坏而是专注在盗窃的可能性上。归档中的数据已经被加密的事实与损坏或丢失并没有多大关系，这是由于问题在于其存在将被丢失或损坏的情况同时并不是非法被访问的。换句话说，存在在数据安全性外提供数据完整性的需求。现在的归档方案没有被设计为重复的验证归档中的数据是否仍然有效。这样一来没有被检出的数据丢失就可能发生，这样归档中表现内容变得不完整或无用。许多产品趋向于专注在加密（其可以通过硬件容易的实现）上而不是数据丢失的主动监测。

数据或存储数据的介质的丢失和损坏有可能发生。归档数据的问题在于上述情况通常不会被发现而被发现时又已经太晚了。一般而言，存在一些“事故（incident）”（例如，诸如DVD或其他存储介质被破坏或丢失的硬件损坏、软件失效、电力中断等等）会在数据丢失产生时发生，而与此同时将会产生一些事故报告类型。然而，如果丢失涉及的数据已经被使用了一段时间（例如，几天、几个月、几年等等），可能不存在明显的商业的损坏或风险。此外，随着时间的流逝事故报告本身也会过期，但是相关的丢失或损坏的数据并没有过期并且可能在任何已知或未知的时间被需要，例如，在未来的归档的检索中。

不能在所有情况下都绝对的阻止数据的损坏/丢失。归档的问题在于提供最早的可能的对已经发生的事情的报警。这种报警发生得越及时，采取手段解决该事故就越有可能。因而，当潜在的重要数据变得不可访问、不可用等等时，需要提供报警，这样就可以依照用于特定数据的规则采取某些手段解决问题。

需要归档系统（通过硬件备份）提供对归档数据的加密。加密本质上是保护数据不被盗窃的手段。虽然加密通常是可取的，但是其提供的仍然是不完整的解决方案，因为加密不能防止数据丢失。需要更主动的防止数据丢失的方法以保证提供尽可能及时的早期报警机制（例如，自动的不需要直接人工干预的），而不是将问题遗留下来直至太晚（例如，在丢失或损坏事故后需要数据时，已经不能再获得该数据了）。

本发明的具体实施例涉及用于不断地或周期地访问一些或所有归档中的数据以保证数据仍然可用的技术，在短时间（例如，涉及归档中的数据度过的时间）内不断地或本质上不断地。在发现丢失或问题的地方，可以进行报警以保证及时的而不是当时间已经太晚时将注意力拉到该情形中。

考虑到这一点，图7是示意了本发明实施例中的用于执行数据验证/完整性检测的参数的屏幕截图。授权用户可以选择发起的验证检测的类型，例如，通过从下拉列表702中选择。以下为示例：

存在（Exists）—其中，验证简单的进行检查以查看数据被正确的如文件系统或其他存储位置中呈现的那样列出，并且可被打开或是访问；

校验和（Checksum）—其中，数据被真实的读取和校验和、或类似操作以检测正确性；和/或

可召回的（Recallable）—其中，将数据通过完整的达到召回的点的仿真进行处理，以观察其可以完整的返回到当前系统。

以上定义的检测级别表明越来越高的级别。可以理解的是，按照实际需要（例如，取决于数据敏感性）也可以执行其他类型的验证。实际上，决定使用哪种检验通常涉及成本估计，即依照检验的数据的价值和重要性执行的每一业务。非常简单的检验譬如如果（例如）文件可在列表中被看见则其可被执行、或进一步设置验证，例如，真实的验证以保证文件可被打开。还可有更多的选择，且包括在一定程度上整个数据可以被读取和理解、检验、校验和等等。

当进行检验时还可对其提供进一步的控制，例如，采用检验类型和/和频率选择704和/或706。一个实施例涉及检验处理器连续运行、在一个给定时间段内检验整个归档内容、在何种程度上重新启动整个过程。其表明随着归档的增加检验必须运行得更深入以在特定的时间段内检验整个对象。如图7的示例中，每个月进行整个归档内容的连续检验。其结果为从其丢失开始一个月内检测到的数据丢失，无论在丢失发生时数据存在了多久。通过上述的每月检测整个内容，施加的“步调（pacing）”的级别可自动的通过归档系统进行确认，例如，基于归档中的数据的总数（为所考虑的特定数据）。因此，由于提供了足够的时间，该技术将沿着背景中的轨迹而不会引起对周边计算资源的干扰。在具体实施例中，其可自动启动，例如，在有意的、偶然的、或其他干扰的情况下。如果处理过程推算出在分配的时间内不能检查所有的内容，则可以进行报警这样该处理过程可以被进一步扩展，或被移到一个处理速度更快的计算机上。确定使用的是连续还是周期的检测可以留待业务来选择。虽然在处理策略上存在有不同，但是在以较早可能性检测数据丢失的潜在的需求中并没有实质的不同。一些用户的想法可能是不断地运行检测器，例如，作为背景中的轨迹（trickle），然而其他用户可能想要在特定的时间段内的特定时间运行检测器。其他用户甚至希望手动的进行检测（例如，比如用户特别地要求启动检测过程），而不是或附加的自动进行检测。

另一实施例涉及验证过程周期的（例如，一周一次、两周一次等）运行，这样会引起其从起始点开始尽快的运行至完成。在两周一次的周期检查中，任何数据丢失都会自其丢失之日起两周内被检查到，不管数据丢失的部分已经存在多久。同时，在其运行到下一次运行之间间隔的时间段具有默认的步调，这样可以在需要的地方进行报警。

图8是示意了本发明实施例中的执行验证操作的流程图。在步骤S801中，验证计算机中的归档服务根据设置的日程发现已经到了验证操作运行的时间。在步骤S803中，归档服务启动验证过程。在步骤S805中，验证过程一段一段（piece by piece）的与归档内容联系，例如，在已经使用了归档基础结构来确定归档的所在位置之后。在步骤S807中根据检查的级别和产生的费用处理每一段。如前所述，级别可以仅仅是打开数据段（例如，接触它）、读取和验证内部校验和、按照在必要时被完全召回的程度处理数据段。

在该过程中，可向本地归档服务提供处理信息。管理者可使用UI来监控验证过程，具有按日期的处理过程的图像显示。在具体实施例中，当检测到问题时，如前所述可进行报警。该报警涉及产生电子邮件、文档、或对授权用户的其他信息、可听的警报灯。在具体实施例中，当检测到问题时，可尝试自动修复、替代、或其他解决问题的手段。

数据恢复系统和方法的实施例

附加于或替代于上述的分布式归档技术，本发明实施例还涉及数据恢复系统和/或方法。从业务者为其数据库和其他系统投资归档系统时开始，需要良好组织的专业的归档服务以进行进一步的操作。然而，仍然存在对数据的处理需求，该数据具有预先设置的不可被普通业务应用使用的形式。例如，公司可能在很长一段时间已经备份了用于恢复的数据，但是并不一定用于归档。这种数据通常不能被应用和/或归档系统使用。这种数据可能处于不能被业务系统使用的格式或介质中。这样在本领域中就产生了对用于归档系统的系统和/或方法“及时移动回（travel back in time）”不可用数据（例如，以旧的归档和/或其他非结构化的格式）以便将数据移动为新的、管理良好的系统的需求。该优点使得新的归档系统可以包含和获得用于提早新归档系统调试日期的数据。这也可以使得原先不符合规定的公司可以在调试时或之后产生的数据之外补上旧数据。

考虑以下的实施例中的情况。公司从未正式的归档大多数数据。现在，假定公司的审计告知该公司其部分或所有数据不符合规定。还假定公司需要新的归档产品。当然，从今天起他们可以变得符合规定。然而，几年之后，不符合规定的情况仍然存在。虽然公司可能已经将旧的数据库进行了备份，但它们仍然可能不能容易的被业务系统使用，遗留的数据库系统软件跨越多个版本，并不能容易的恢复为可使用的格式（如果根本上可能），并极大的与现有的业务系统不协调由于新领域出现在当今的现代数据中、或旧数据中的领域已经不再存在、或数据的格式/长度等随时间不断该段。目前所需要的适合的新归档系统可以开采旧数据、刮净与旧归档系统相关的数据并将其复制到新的归档系统中（例如，根据过去的时期按时的记载日期），这样该归档系统可以实质上回溯时间，而不是只能向前。

现有的归档方案通常没有被设计为可了解并获得仅以不可用格式存在的、提前了新归档系统的介绍的日期的数据的复件。这表明，只要在其活动信息生命周期管理（information life cycle management，ILM）内保留有旧数据，公司就必须寻找到管理两个不同归档系统的方法、或承受旧数据的不符合规定的情况。这些归档系统的类型在其有效性上会受到限制直到时间显著的向前移动，例如，直到旧数据已经不再被需要、实质上需要、或涉及。

本发明实施例意识到存在如下的需求，即用于数据库和其他数据存储器的现代归档系统可以回溯处理旧数据备份（例如，具有与当前版本不同的格式，该格式不能被应用系统使用）以便将其输入到现代归档。可以进行上述处理的能力可自被采用起的第一天就增加现代系统的效率。其本质上表明新的归档系统可以回溯时间以记录相关信息，即使其目前为不可用格式。这使得在前的（常常为非正式和无组织的）归档或备份系统可以立即退休而使用新的管理良好的工具集。

例如，假定从今天起新的工具集将会管理所有归档，向前趋进。然而，在归档中仍然需要提前了今天的新归档系统的执行的日期的备份数据，即使其已经被非新工具集的其他方法累加。例如，旧数据可能已经被采用工具进行了备份。然而，在具体实施例中，使能该新工具访问这些数据的非标准的格式并获得更老的归档数据，可以本质上及时抑制新工具、极大的增加归档的价值、等，其可帮助服务的公司和客户。

图9是示意了本发明实施例中的用于在在先时间点恢复数据的参数的屏幕截图。图9中示例从其他资源获取数据的选择，而不是从实时源获取数据。例如，可以选择和读取旧的或被弃用的备份，这样在新归档系统中可以流畅的获取来自过去的不可用数据。这样现代归档系统可将自己在时间上退回过去，因而可以从第一日起极大的增加新系统的范围，而不是仅仅增加在时间上缓慢前进的价值。如图9的示例，下拉列表包括不同的已知的包括ADASAV（一种备份应用）、ADACMP（一种压缩应用）等的ADABAS应用。采用具体实施例中的技术，可以写入或预先定义程序来从这些和/或其他输出获得数据，并以已知但是恰当的（并且实质上不是通常可用的）格式提供这样的数据。

数据的这些附加的格式的一些地方是众所周知的，比如数据库应用输出，这样数据就被预测的处理。这也可以延及未知数据额格式，通过提供基于规则的数据的挖掘这样当其并不是众所周知时业务可直接影响这些数据的获取。换句话说，可以指定重新获取（可简称重获）数据的规则，例如，使用基于公司的知识，其中在指定该规则之前该知识可以不被新归档系统自身所知晓。在具体实施例中，这些规则可描述，例如，整体上在特定执行的用以访问特定格式的数据的程序之间发生的交互，该交互还/或代表了实际应用数据到具有相应的元数据描述的归档系统。这种交互可被用在特定的数据库系统类型，或者其可以是仅对位置特定的格式。在具体实施例中，需要将数据以某种格式存储，以使得之后可以以原始格式和/或可用格式提取、重新格式化等该数据。需要说明的是，如果从已知数据库备份中提取数据，则数据可能是可管理的因为其首先是来自于该数据库类型又可在该点被直接的召回到该格式，如果需要的话。

图10是示意了本发明实施例中的在在先时间点恢复数据的流程图。在步骤S1001中，归档系统（或输入/恢复模型或服务）被分配任务从过去时间点恢复或输入数据库或数据存储备份。该数据库可以是ADABAS数据库、SQL数据库、一系列平面文件、使用应用备份的文件等等。在步骤S1003中，新归档系统根据备份数据和/或数据是如何备份的读取备份数据并制定结构、平台、版本、和/或任何其他相关的信息。例如，通过用户指定该信息或至少告诉归档系统去何处寻找确定这些信息可帮助上述操作。一旦确定了该背景信息，在步骤1005中，新归档系统可选择适当的算法，根据该算法可以将相关数据解构为可用格式。该算法可由用于指定或用户编程、手动或自动的从预定义的算法中选择、自动产生基于（如，基于被发明的数据和/或用户定义信息）等等。在步骤S1007中解构数据，然后将可用数据装载到归档在步骤1009中，这样其就以普通方式被归档到过去时间。采用预定义的算法可以完成上述过程，其中旧系统和工具是已知的、使用用户定义的算法、或这些算法的组合。当然，数据库备份具有众所周知的内容，例如，和存在算法，该算法可形成于这些和/或其他操作。在具体实施例中，可对新增进归档的数据进行标记，以表明其被在该种模式下输入（例如，为了未来审计的目的）。可选择的，有一个或多个步骤并没有显示在图中，过滤了应当或不应当被写入归档的领域，例如，被归档系统管理者管理的部分。

虽然已经描述了涉及以前的系统的具体实施例，但是此处描述的归档系统的例子中的“恢复”特性也可被用来“输入”数据。例如，这种输入技术可用于过去使用的不同的系统、与其他系统并行的系统、和/或具体实施例中的归档系统执行后执行的归档系统。实际上，在具体实施例中，这种类型的输入可以作为归档的“惯常”方式使用。

需要说明的是此处描述的术语，系统、子系统、服务、可编程逻辑电路、和其他类似对象可以以软件、硬件、固件、和/或类似对象的任何合适的组合实现。还需要说明的是，此处的存储位置可以是磁盘驱动设备、内存位置、固态驱动器、CD-ROMs、DVDs、磁带备份、存储区域网络（storage area network，SAN）系统、和/或任何其他合适的实体计算机可读存储介质的任意组合。还需要说明的是，此处描述的技术可通过执行指令的处理器完成，该指令物理上存储在计算机可读存储介质中。不同的实施例可涉及异类（heterogeneous）网络（例如，至少有两种类型的计算机和/或周边设备连接到网络中的网络）、或同类（homogenous）网络（只具有单一类型的计算机和/或周边设备的网络）。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种归档系统，包括：

多个连接到网络的计算机；

连接到所述网络的至少一个源数据存储器和至少一个目标数据存储器；以及

至少一个归档服务，所述归档服务被配置为与多个提取操作和多个累加操作相配合，每一个所述提取操作在所述多个计算机中的一个计算机上被执行，用以从一个所述源数据存储器读出数据，每一个所述累加操作在所述多个计算机中的一个计算机上被执行，用以将数据写入到一个所述目标数据存储器；

其中，每一个所述提取操作被配置为在所述多个计算机中的任何一个预定的计算机上运行，并与一个所述累加操作配对，所述累加操作被配置为在所述多个计算机中的任何一个预定的计算机上运行。

2.如权利要求1所述的归档系统，其中至少一个归档服务被进一步配置以接入规则，所述规则（a）将提取和累加操作映射到这些操作被执行的各个计算机；以及（b）存储同级提取操作和累加操作之间的配对。

3.如权利要求2所述的归档系统，其中所述规则进一步识别至少一个所述源数据存储器用于每一个所述提取操作和识别至少一个所述目标数据存储器用于每一个所述累加操作。

4.如权利要求3所述的归档系统，其中所述规则进一步包括提取规则，用以识别从至少一个源数据存储器中将被读出的数据，和是否有另外的数据将被附加在所述将被读出的数据上。

5.如权利要求4所述的归档系统，其中将被附加的另外的数据是用于至少一个源数据存储器的图表。

6.如权利要求3所述的归档系统，其中所述规则进一步包括累加规则，用以指示重复的表项如何被处理和/或多长的数据将被保留在每一个所述的目标数据存储器中。

7.如权利要求3所述的归档系统，进一步包括与所述至少一个归档服务通信的配置服务器，所述配置服务器包括所述规则。

8.如权利要求7所述的归档系统，进一步包括与所述配置服务器和/或至少一个归档服务通信的管理用户接口，用于设置所述规则和/或监视所述操作的进展。

9.如权利要求3所述的归档系统，其中一个所述目标存储器是一个仅可被每一个所述计算机部分地存取的仓库。

10.如权利要求3所述的归档系统，其中所述系统被设置使得中央枢纽或漏斗在数据被写入到所述至少一个目标数据存储器时不被使用。

11.如权利要求3所述的归档系统，其中所述至少一个归档服务被进一步配置为与至少一个召回操作相配合，以从所述至少一个目标数据存储器取回数据用于在一个所述计算机上存取。

12.如权利要求11所述的归档系统，其中所述至少一个召回操作进一步被配置为将从所述至少一个目标数据存储器取回的数据放置到至少一个所述源数据存储器中。

13.如权利要求3所述的归档系统，其中所述至少一个归档服务被进一步配置为与至少一个验证操作相配合，以验证所述至少一个目标数据存储器内数据的完整性。

14.如权利要求13所述的归档系统，其中所述至少一个验证操作被配置为连续运行预定长的时间。

15.如权利要求13所述的归档系统，其中所述至少一个验证操作被配置为周期性运行以使所述至少一个验证操作以预定的时间或时间间隔开始执行。

16.如权利要求13所述的归档系统，其中所述至少一个验证操作被配置为根据可被至少一个验证操作获得的预定规则确定数据是否存在、是否与校验和匹配、和/或是否可被召回。

17.如权利要求16所述的归档系统，其中所述至少一个验证操作被进一步配置为如果所述至少一个验证操作在执行过程中遇到故障时报警。

18.如权利要求3所述的归档系统，其中所述至少一个归档服务被进一步配置为与至少一个输入操作相配合，以使来自另外的不可用的备份位置的数据并入到所述至少一个源数据存储器和/或所述至少一个目标数据存储器。

19.如权利要求18所述的归档系统，其中所述至少一个输入操作被配置为确定（a）存在于来自另外的不可用的备份位置的数据中的哪些数据被备份；（b）来自另外的不可用的备份位置的数据怎样被备份。

20.如权利要求19所述的归档系统，其中所述至少一个输入操作执行用于从所述另外的不可用的备份位置重获数据的规则，用于重获数据的所述规则是一个或更多的用户编程的规则，一个或更多的预定义算法，和/或由所述至少一个输入操作自动生成。

21.一种通过计算机实现的用于在一个归档系统中有形的存储数据的方法，所述方法包括：

提供多个连接到网络的计算机；

提供连接到所述网络的至少一个源数据存储器和至少一个目标数据存储器；

提供至少一个归档服务给所述一个或更多的计算机，所述至少一个归档服务被配置为与多个提取操作和多个累加操作接口，每一个所述提取操作被配置为在所述多个计算机中任何一个预定的计算机上运行；以及

将每一个所述提取操作和每一个累加操作配对，所述每一个所述累加操作在所述多个计算机中任何一个预定的计算机上运行；

其中，每一个所述提取操作在所述多个计算机中的一个计算机上可执行用以从一个所述源数据存储器读出数据；每一个所述累加操作在所述多个计算机中的一个计算机上可执行用以将数据写入到一个所述目标数据存储器。

22.如权利要求21所述的方法，进一步包括：

将提取和累加操作映射到这些操作被执行的各个计算机；以及

存储同级提取操作和累加操作之间的配对。

23.如权利要求22所述的方法，进一步包括识别至少一个所述源数据存储器用于每一个所述提取操作和识别至少一个所述目标数据存储器用于每一个所述累加操作。

24.如权利要求23所述的方法，进一步包括定义提取规则，所述提取规则用以识别（a）从至少一个源数据存储器中将被读出的数据和（b）是否有另外的数据将被附加在所述将被读出的数据上。

25.如权利要求24所述的方法，其中将被附加的另外的数据是用于至少一个源数据存储器的图表。

26.如权利要求23所述的方法，进一步包括定义累加规则，所述累加规则用以指示（a）重复的表项如何被处理和/或（b）多长的数据将被保留在每一个所述的目标数据存储器中。

27.如权利要求23所述的方法，进一步包括提供与所述至少一个归档服务通信的配置服务器，所述配置服务器包括对规则的访问，所述规则描述所述映射、配对、识别出的用于每一个所述提取操作的至少一个所述源数据存储器、和识别出的用于每一个所述累加操作的至少一个所述目标数据存储器。

28.如权利要求27所述的方法，进一步包括提供与所述配置服务器和/或至少一个归档服务通信的管理用户接口，用于设置所述规则和/或监视所述操作的进展。

29.如权利要求23所述的方法，其中所述目标存储器是一个仅可被每一个所述计算机部分地存取的仓库。

30.如权利要求23所述的方法，其中所述操作在执行时无需借助中心枢纽或漏斗。

31.如权利要求23所述的方法，其中所述至少一个归档服务被进一步配置为与至少一个召回操作相配合，以从所述至少一个目标数据存储器取回数据，以在一个所述计算机上存取。

32.如权利要求31所述的方法，其中所述至少一个召回操作进一步被配置为将从所述至少一个目标数据存储器取回的数据放置到至少一个所述源数据存储器中。

33.如权利要求23所述的方法，其中所述至少一个归档服务可被进一步配置为与至少一个验证操作相配合，以验证所述至少一个目标数据存储器内数据的完整性。

34.如权利要求33所述的方法，其中所述至少一个验证操作可被配置为连续运行预定长的时间。

35.如权利要求33所述的方法，其中所述至少一个验证操作可被配置为周期性运行以使所述至少一个验证操作以预定的时间或时间间隔开始执行。

36.如权利要求33所述的方法，其中所述至少一个验证操作可被配置为根据可被至少一个验证操作获得的预定规则确定数据是否存在、是否与校验和匹配、和/或是否可被召回。

37.如权利要求36所述的方法，其中所述至少一个验证操作可被进一步配置为如果所述至少一个验证操作在执行过程中遇到故障时报警。

38.如权利要求23所述的方法，其中所述至少一个归档服务被进一步配置为与至少一个输入操作相配合，以使来自另外的不可用的备份位置的数据并入到所述至少一个源数据存储器和/或所述至少一个目标数据存储器。

39.如权利要求38所述的方法，其中所述至少一个输入操作可被配置为确定（a）存在于来自另外的不可用的备份位置的数据中的哪些数据被备份；（b）来自别的不可用的备份位置的数据怎样被备份。

40.如权利要求39所述的方法，其中所述至少一个输入操作执行用于从所述另外的不可用的备份位置重获数据的规则，用于重获数据的所述规则是一个或更多的用户编程的规则，一个或更多的预定义算法，和/或由所述至少一个输入操作自动生成。

41.一种有形地存储命令的计算机可读存储介质，所述命令在被执行时，使计算机包括至少一个处理器用以执行如权利要求21所述的方法。