CN103577528B

CN103577528B - 用于数据传送优化的方法和系统

Info

Publication number: CN103577528B
Application number: CN201310341950.6A
Authority: CN
Inventors: I.T.史密斯
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2012-08-07
Filing date: 2013-08-07
Publication date: 2016-12-28
Anticipated expiration: 2033-08-07
Also published as: GB201214116D0; US20140046917A1; US20160026701A1; US9195696B2; GB2504716A; CN103577528A; DE102013215009A1; US9495433B2

Abstract

一种用于将数据对象从源实体迁移到目标实体的数据迁移系统和方法，其中源实体包括在分离的系统之间共享的基础架构，该系统包括：存储设备，其存储在共享的基础架构上存储的数据对象的索引以及该数据对象的对象属性，所述索引处于独立于分离的系统的原本格式的标准化数据模型中；选择器，适于基于至少一个所述对象属性选择迁移哪个对象；以及优化器，适于优化从共享的基础架构到目标实体的数据的迁移。

Description

用于数据传送优化的方法和系统

技术领域

本发明涉及用于优化源实体和目标实体之间的数据传送的装置、系统和方法。

背景技术

组织机构正在运行越来越复杂的计算机系统。例如，仅具有位于单个场所的30个雇员的小型企业可能用单个服务器运行一个或两个网络。雇员可能具有由不同的OEM制造、且使用不同的操作系统的不同工作站或计算机。由不同雇员创建和操纵的数据类型将取决于其角色以及其使用的软件而变化。

由于IT系统的需求有机地增长，因此工作站、网络、服务器和存储设备的数量增加。此外，在组织机构中使用的OEM产品和IT系统中存在增加的变化。在具有遍布许多场所的数以千计的雇员的较大组织机构中，场所内和场所之间两者在硬件和软件中都存在相当大的变化。此外，数据保持和保护策略在场所之间以及在场所中（或之间的）的部门之间可能变化。因此，当IT基础架构更新时，变得越来越难以管理从遗留硬件到替换设备的数据传送。

典型地，由组织机构存储的所有（或至少所有重要的）信息在夜间或以其它固定间隔进行备份。存在两个备份数据的主要理由。第一个理由是在丢失后恢复数据。第二个理由是允许根据用户定义的保持策略从较早的时间恢复数据。因此，被备份的数据通常将被给予有效期限，设定该被备份的数据的副本应当保持的时间。

由于必须对计算机系统上值得保存的所有数据进行至少一个复制，因此存储需求可以是非常大的且备份系统可以是非常复杂的。使复杂度增加的是，存在对于进行备份有用的存储数据的许多不同类型、许多不同的备份模型、许多不同的访问类型以及备份解决方案的许多不同提供者。

简要地，备份可以是非结构的，其通常是文件系统类型备份，其中在介质或一系列介质上进行数据的备份，具有关于备份什么以及何时备份的最少信息，以及备份可以是结构的，其通常使用诸如SQL、Orable和BD2的产品特定格式。

不论是结构的还是非结构的，备份可以是：完全的，其中在不同时间点制作完整系统映像；增量的，其中数据被组织为不同时间点之间的变化的增量；逆增量（reversedelta），其中最近源数据的镜像与最近镜像和较早状态之间的一系列不同一起保存；以及连续的，其中立即存储数据的所有改变。

除此之外，可使用各种介质存储数据，该各种介质包括磁带、硬盘、光存储器、软盘和固态存储器。典型地，一个企业会保持其自身的备份介质设备，但是远程备份服务正变得更加普遍。

使复杂性进一步增加一层的是，备份可以是：在线的，其中使用内部硬盘或盘阵列；近线的，诸如磁带库，具有机械设备以将介质单元从存储器移动到可以读/写该介质的驱动器；离线的，其中需要直接的人的行为以使得能够物理地访问存储介质；异地的；或在灾难恢复中心。

此外，不同的备份提供者使用专有的系统用于组织备份。这些系统可以不同地处理文件的复制或部分复制；并且其可以不同地复制文件系统，例如通过使文件系统转储（dump）或通过询问归档位（archive bit）或通过使用版本管理（versioning）文件系统。其还可以以不同的方式处理实时数据的备份。除了复制文件数据之外，备份系统通常会复制计算机系统的元数据，诸如系统描述、引导扇区、分区布局、文件元数据（文件许可、所有者、组等），以及系统元数据（由于不同的操作系统具有不同的存储配置信息的方式）。

除此之外，不同的备份提供者经常操纵正被备份的数据以优化备份速度、恢复速度、数据安全性、介质利用率以及带宽需求。这些操纵可以涉及压缩、重复以及去重复（deduplication）、加密、复用、重分解（refactoring）和分级，并且在不同产品和不同供应商之间变化。

显而易见的是，当使用多个不同的备份系统时，会非常难以适当地管理数据从遗留、低效的磁带基础架构到现代、更高效的基础架构的迁移。

当涉及移动性时，处理大和复杂的数据集带来了许多挑战。在由传统备份服务器和数据索引管理的企业磁带环境中，可以容易地存在高等级的竞争和性能瓶颈。这是由于在分离的备份系统之间共享具有对数据的直接访问的存储资源。这些备份系统会在它们需要时访问资源，而不了解来自其它供应商的其它管理服务器实际正在做什么。因此，可能由两个分离器请求者（例如，备份服务器）同时请求磁带库、可用的磁带驱动器或单个介质。这导致挂起进程有效地等待基础架构变成可用以服务第二数据请求。即使存在可用的基础架构以访问符合条件的数据的不同块，也会发生这种情况。

如果底层资源包括数以万计的磁带卷并且在很多备份服务器之间共享，则复杂性是指数的，且来自这样的复杂环境的大规模数据访问几乎是不可能的。在这一直是个潜在的问题的同时，目前正存储的泛滥的数据和无结构的内容量已经极大地加剧了该问题。

本发明旨在解决这些问题，并提供控制和分组大且复杂的数据集用于从源实体到目标实体的迁移或移动性、以及优化自底层的共享基础架构的访问的能力。

发明内容

根据本发明的第一方面，提供了一种用于将数据对象从源实体迁移到目标实体的数据迁移方法，其中所述源实体包括在分离的系统之间共享的基础架构，所述方法包括：

提供存储在共享的基础架构上的数据对象的索引和该数据对象的对象属性，所述索引以独立于分离的系统的原本格式的标准化格式提供；

基于至少一个所述对象属性选择要迁移哪个对象；以及

优化从所述共享的基础架构到所述目标实体的数据的迁移。

优选地，用于选择要迁移哪个对象的所述至少一个对象属性是对象所有者、组所有者、数据类型和有效期限之一。

优选地，对象属性包括顾客数据、场所数据、源数据、节点数据、对象数据和片段数据中的至少一个。

优选地，对象数据属性包括创建时间、大小、文件数量和有效日期中的至少一个。

在优选的实施例中，该方法还包括在优化该迁移之前，将对象的迁移分成多个阶段，由此对每个阶段优化迁移。

在该情况下，优选的，基于以下至少一个分割迁移：调度的开始日期、对象所有者、组所有者、数据类型、顾客数据和场所数据。

优选地，通过基于所述对象属性将对象一起分组到迁移集合中来优化数据的迁移。

在这种情况下，进一步优选的，共享的基础架构包括存储介质且迁移集合基于对象在存储介质上的位置、对象与各个分离的系统的关系、以及用于对象从分离的系统到共享的存储介质的可用访问路径。

更优选地，基于对象在存储介质上的位置而在每个迁移集合中顺序排序对象。

优选地，迁移集合允许跨越并行的数据路径迁移数据。

根据本发明的第二方面，提供了一种用于将数据对象从源实体迁移到目标实体的数据迁移系统，其中所述源实体包括在分离的系统之间共享的基础架构，所述系统包括：

存储设备，其存储在共享的基础架构上存储的数据对象的索引以及该数据对象的对象属性，所述索引处于独立于分离的系统的原本格式的标准化数据模型中；

选择器，适于基于至少一个所述对象属性选择迁移哪个对象；以及

优化器，适于优化从共享的基础架构到目标实体的数据的迁移。

更优选地，对象数据属性包括创建时间、大小、文件数量和有效日期中的至少一个。

优选的，系统还包括组织器，用于在优化迁移之前，将对象的迁移分成多个阶段，由此对每个阶段优化迁移。

在这种情况下，优选的，组织器适于基于以下至少一个分割迁移：调度的开始日期、对象所有者、组所有者、数据类型、顾客数据和场所数据。

优选地，优化器适于通过基于所述对象属性将对象一起分组到迁移集合中来优化数据的迁移。

更优选地，共享的基础架构包括存储介质，且迁移集合基于对象在存储介质上的位置、对象与各个分离的系统的关系、以及用于对象从分离的系统到共享的存储介质的可用访问路径。

还更优选地，基于对象在存储介质上的位置而在每个迁移集合中顺序排序对象。

此外优选的，迁移集合允许跨越并行的数据路径地迁移数据。

附图说明

现在将仅通过进一步的示例并且参照附图来描述本发明的实施例，其中：

图1是备份系统和主存储器层的示意性表示；

图2是根据现有技术将图1的备份系统迁移到目标实体所需的磁带安装（mounting）操作的示意性表示；

图3是示出根据本发明的迁移方法的流程图；

图4是本发明中使用的源实体和索引的示意性表示；

图5是示出索引的创建的示意性表示；

图6是示出索引的创建的流程图；

图7根据本发明的迁移系统的示意性表示；

图8是根据本发明将图1的备份系统迁移到目标实体所需的磁带安装操作的示意性表示；

图9是根据本发明的又一方面的系统和方法的示意性表示；以及

图10示出可在本发明的各个组件中使用的计算机系统的示例性实施例。

具体实施方式

图1是组织机构的IT体系架构的简单的示例性布置。在图1的布置中，提供了多个不同的（distinct）层，即介质层400、备份服务器层300，以及主存储器层250。主存储器层250包括多个联网的服务器和存储设备，其存储并服务由组织机构的雇员通过台式计算机、膝上型计算机和其它装置创建和使用的数据。该主存储器层250可以包括那些台式计算机、膝上型计算机和其它装置。

备份服务器层300包括四个备份服务器310、320、330、340，每个使用不同的专有备份系统——在本示例中是EMC² Tivolihp和Symantec备份系统。应当理解，这些系统仅是示例的，且可以使用其它系统取代它们。每个备份服务器310、320、330、340将数据从主存储器层250备份到共同的介质层400，该介质层包括多个库410。每个库410包括多个磁带或其它介质驱动器420，以及多个磁带430或其它物理介质。磁带430加载到库410的驱动器420或从库410的驱动器420卸载是自动的。

图10图示出可用来实现备份服务器310-340的示例性计算机体系架构1100。计算机体系架构110可以是台式计算机或膝上型计算机、主存储器层中的服务器、或任何类似的计算机设备，或形成台式计算机或膝上型计算机、主存储器层中的服务器、或任何类似的计算机设备的一部分，但是备份服务器310-340优选地被实现为孤立的服务器。

计算机体系架构1100可以通过调制解调器或网络接口1102（诸如模拟调制解调器、ISDN调制解调器、光缆调制解调器、令牌环接口或卫星传输接口）与诸如存储介质层400和主存储器层250中的外部设备接口。如图10所示，计算机体系架构110包括处理单元1104，其可以是传统微处理器，诸如计算机技术领域的普通技术人员公知的Intel Pentium微处理器、Intel Core Duo微处理器或者Motorola Power PC微处理器。系统存储器1106通过系统总线1108耦接到处理单元1104。系统存储器1106可以是DRAM、RAM、静态RAM（SRAM）或其组合。总线1108将处理单元1104耦接到系统存储器1106、非易失性存储器1110、图形子系统1112以及输入/输出（I/O）控制器1114。图形子系统1112控制诸如液晶显示器的显示设备1116，其可以是图形子系统1112的一部分。I/O设备1118可以包括计算机技术领域的普通技术人员公知的键盘、盘驱动器、打印机、鼠标、触摸屏等中的一个或多个。

备份服务器310-340控制软件通常将存储在非易失性存储器1110上。因此，其可存储在机器的硬盘驱动器上，或可能存储在诸如USB记忆棒或CD的外部可连接存储介质上。这两个设备于是将构成图10中示出为项1118的I/O设备的部分。非易失性存储器还可以存储由以下讨论的备份服务器40、45创建的索引数据。

每个备份服务器310、320、330、340适于向一个或多个库写入或从一个或多个库读取，并存储其已经存储在一个或多个库410中的数据的专有格式的索引。

备份服务器层300和介质层400一起可以被认为是源实体260，备份服务器310、320、330、340是共享介质层基础架构的分离的系统。本发明适用于期望安装新的备份系统的情况，该新的备份系统包括新的备份层和新的介质层。该新的备份系统可以被认为是目标实体280，且需要将数据从源实体260迁移到目标实体280。

目标实体280也将具有备份层和介质层，当数据迁移穿过时，目标备份层中的备份服务器将创建其自身专有格式的数据的新索引。

目前，通过以下方式迁移数据：以顺序的方式浏览（run through）在源实体260中的每个备份服务器310、320、330、340中存储的索引，且以对象在索引中出现的顺序将所述对象从源介质层260复制到目标介质层。由此，基于非介质感应的（sympathetic）参数，通过构建要被访问的数据的列表来处理迁移。因此，迁移可以是非常艰苦的过程，特别是由于对象可能在多个片段中复制，且该多个片段可能存在于同一个或分离的介质上。

这在图2中示出，图2代表三个磁带介质，在每个磁带上驻留各种数据对象。阴影表示数据从源实体迁移到目标实体的顺序。由于对象以其在备份服务器310、320、330、340的索引中列出的顺序在迁移列表中列出，在迁移期间对源实体的数据访问将遵循该顺序，而不考虑对象是在分离的介质上，并且一些对象在介质之间被分割。这需要在其上存储各种对象的磁带介质的大量安装和拆卸操作。

在图2中，每个块代表数据对象，且不同的阴影示出在源实体260上访问数据对象的组用于迁移跨越到目标实体280的顺序。由于该顺序对应于各个备份服务器310、320、330、340的索引，因此示出要被访问的第一数据的阴影线的数据对应于由第一备份服务器310索引的数据，示出要被访问的第二数据的阴影线的数据对应于由第二备份服务器320索引的数据，示出要被访问的第三数据的交叉阴影线的数据对应于由第三备份服务器330索引的数据，以及示出要被访问的第四数据的打圆点的数据对应于由第四备份服务器340索引的数据。

所有数据需要被访问，且可以仅对于与第一备份服务器310对应的第一数据查看安装顺序。在这种情景下，仅跨越迁移第一数据就需要六个安装操作。具体地，首先安装介质1、然后介质3、然后又是介质1、然后又是介质3、然后又是介质1、最后介质3。一旦第二时期（stage）开始用于迁移对应于第二备份服务器320的数据，所述介质将被重新安装用于访问。在迁移操作中介质1总共将被安装6次。

此外，在决定从第一至第四备份服务器的两个或多个备份服务器的索引同时迁移数据对象的情况下，则很有可能存在来自不同的备份服务器同时访问同一磁带430上的数据的有竞争的请求。如以上所讨论的，这会导致挂起进程，在该进程中一个或多个备份服务器等待共享的基础架构变成可用的以服务其数据请求。即使存在可用的基础架构用于访问不同的符合要求的数据，这一情况也会发生。

这是非常低效的，且导致极大的开销，特别是就将数据从源实体迁移跨越到目标实体的时间、复杂度和成本而言。

图3是解决这些问题的本发明的方法的流程图。以下将更详细地讨论该方法的具体方面。然而，简言之，该方法包括创建在介质层400上存储的数据对象的索引的步骤S10。这事实上是由备份服务器310、320、330、340以及相关联的共享基础架构保持的索引的索引。如以下将更详细地讨论的，步骤S10中创建的索引允许智能（intelligence）移除竞争并极大地减少同时的数据访问操作的持续时间。

在步骤S20，该索引被用来进行范围选取（scoping）操作，在该操作中决定哪个数据对象需要被迁移到目标实体。

在步骤S30中，执行组织操作，在该操作中决定应进行哪些时期的数据迁移。例如，该组织操作可被用来将数据的迁移分到不同的阶段，从而来自组织机构的第一部门的数据在第一阶段中迁移，并且来自第二部门的数据稍后在第二阶段中迁移。组织操作还可以被用来安排每个阶段的开始时间。

接着，在步骤S40中进行优化操作以将对象分组到迁移集合中并减少每个迁移阶段的持续时间。

最后，在步骤S50中迁移数据。特别地，基于在组织步骤中设置的迁移阶段以及在优化阶段中建立的迁移集合，将在范围选取步骤中选择的数据从源实体260迁移到目标实体280。

现在将参照图4至6更详细地描述索引和索引的生成。如图4中示意地表示的，单个索引210存储与备份层300中的所有备份服务器310-340相关的数据。

每个备份服务器310-340将调度来自主存储器层250的数据的备份，并将以各个供应商或各个供应商的产品特有的方式存储数据，包括备份的数据的操纵。特别地，每个备份服务器310-340将存储以各自的产品特有的格式备份的数据的索引。所述格式在供应商之间极大地变化，供应商对类似的概念使用不同的名称，并且还以不同的方式存储数据和记录数据的存储。依赖于物理介质的类型，索引中存储的信息的类型也可能变化。

与之相反，单个索引210以标准化的格式存储关于每个数据对象的信息，而不管各个备份服务器310-320的原本的格式。实际上，索引210是使用标准化格式的索引的额外索引。由于该额外索引210使用标准化格式，其始终理解与存储器资源上的数据的全部基础架构关系，并且因此可以管理对基础架构组件的同时访问以确保在迁移或其它数据移动操作期间避免竞争。

可使用任何适当的方式产生索引210。然而优选地，使用适于询问专有备份系统310、320、330、340、从它们中提取预定的数据、并且将提取的数据翻译为标准化格式的各个收集器220和导入器230，生成索引210。

如图5和7中所示，本发明的实施例中的系统200包括数据库或索引210，其存储有关图1中所示的备份服务器310-340的配置和状态的信息，还包括导入器230。收集器220在图7中被示出为位于系统200和源实体260之间，然而其可以被包括在系统200或源实体260中的任何一个中。（事实上，导入器230也可以放置在收集器220的任何位置处）。数据库210通过收集器220的运行来填充（populated），该收集器通过服务器的原本的接口（诸如专有备份服务器310-340的标准命令行接口）询问备份系统310-340。特别地，如图5所示，每个收集器220运行一系列命令（查询），并从各个备份服务器310-340接收产品特有格式的信息和配置，作为这些命令的结果。收集器220产生转储文件225，该文件包括产品特有格式的状态信息和配置。

随后使用导入器230处理转储文件，该导入器被特别提供用来提取被认为对于支持所需要的随后的分析重要的预定系统配置和状态信息。

提取的配置和状态信息在被存储在数据库210中之前，被导入器230从其供应商和产品特有格式翻译为标准化格式（数据模型）。

标准化格式（数据模型）包含独立于被分析的供应商的产品以及任何产品的特质或表达其配置和状态的不同方式的混合的、标准化和一致方式的用于随后的分析的所有需要的数据点。

可以使用任何适当的已知方式存储并访问数据库210。例如，其可以存储在服务器上，例如在硬盘驱动器或硬盘驱动器的任何阵列上。数据库服务器或其它存储设备可以具有与图10中所示的相同的体系架构。可替换地，其可以跨越在相同位置或地理上分散的位置处的多个不同的服务器分布和存储。该数据库可以存储在具有图10中所示体系架构的服务器的RAM 1106或非易失性存储器1110上。

收集器220可以以硬件、以软件或以硬件和软件的组合来实现。优选地，其以存储在光或磁介质上、或者经由诸如因特网的网络下载的软件的形式实现。收集器220可以在数据库210的硬件或单独的硬件上实现。更优选地，其加载到ROM 1110上且在备份服务器310-340的RAM 1106中实现。具体地，其可以在预定的时间，或基于一次性地被备份服务器310-340的微处理器1104调用。每个收集器220适于和特定的备份服务器310-340操作。因此，对于不同的备份服务器310-340提供不同的收集器220，尽管在可替换实施例中单个收集器220可以适于在两个或多个备份服务器310-340上操作。在又一个选择中，对于一个备份服务器310-340可以提供两个或多个收集器220。

类似地，导入器230可以以硬件、以软件或以硬件和软件的组合实现。优选地，其以存储在光或磁介质上、或者经由诸如因特网的网络下载的软件的形式实现。导入器230可以存储在ROM 1110上，并在备份服务器310-340的RAM 1106中实现，或更优选地在存储数据库210的硬件的RAM 1106中实现，或其可以在分离的硬件中实现。导入器230通过任何适当的方式与收集器220和存储数据库210的硬件通信，所述适当的方式包括直接连接或经由诸如因特网的网络。每个导入器230适于与特定的收集器220操作。因此，对于不同的收集器220提供不同的导入器230，尽管在可替换实施例中，单个导入器230可以适于与两个或多个收集器220操作，或者两个或多个导入器230可以适于与一个收集器220操作。

图6中示出索引生成过程。如步骤S1中所示，使用收集器220询问备份服务器310-340。特别地，使用每个相应的服务器310-340特有的标准命令行接口，收集器220输入备份服务器310-340理解的一系列标准命令。响应于所述指令，备份服务器310-340输出相应的备份服务器310-340特有的格式的配置和状态信息。收集器220在步骤S2中使用输出的配置和状态信息来产生一个或多个转储文件225，所述转储文件被传送到并由导入器230接收（或取得）。转储文件中的配置和状态信息是备份服务器310-340所使用的格式。

在步骤S3，导入器230从转储文件225提取预定的配置和状态信息。导入器230适于理解转储文件的格式或用转储文件的格式工作，并且因此能够搜索并提取该格式的预定信息。一旦提取，导入器230适于在步骤S4中将提取的数据的格式翻译为本发明的数据库210中使用的标准化格式。

最后，在步骤S5中，导入器230将标准化的配置和状态信息存储在数据库210中。

应理解，步骤S3和S4可以颠倒，使得转储文件225中的所有数据先被翻译为标准化的格式，然后提取和存储预定的数据。然而，通常先执行数据提取更有效。

标准化的格式是适于存储备份服务器310-340特有的配置和状态数据的数据模型。特别地，标准化的格式包括有关介质层400上存储的数据的信息，而不管介质的类型并且不管备份服务器310-340的产品类型。标准化格式中包括的信息包括执行用于优化迁移过程的数据分析所需要的所有信息。

从图1显而易见具有分离的数据索引的使用共享存储器基础架构的复杂性。此处可以看到，如果备份服务器310上的索引和备份服务器320上的索引请求一数据，则在库、驱动器和介质层两者存在可能的冲突。在索引210中没有公共的理解，这会导致数据访问操作的主要冲击。手动配置可以尝试硬编码基础架构至索引，然而这导致更低的效率。如以下所描述的，索引的索引210以及相关联的基础架构使组合的智能来处理该复杂性。

现在将参照图7更详细地描述范围选取、优化和组织步骤，图7示出根据本发明的数据迁移系统200以及源实体260和目标实体280。在迁移系统200中，索引或数据库210提供有组织器模块212、范围选取器模块214以及优化器模块216。迁移系统200可以在孤立的服务器中提供或在具有如图10所示的体系架构的其它计算机中提供。特别地，索引210可以存储在非易失性存储器1110上，并且根据需要由处理器1104部分地调用。范围选取器212、组织器214和优化器216的每个可以以软件或硬件提供。优选地，每个作为在非易失性存储器1110上存储的软件提供，并且由处理单元1104使用RAM1106操作。迁移系统200还被示出为包括一个或多个导入器230，尽管这些导入器可以被外部地提供，如之前所描述的。应理解，收集器220、导入器230、范围选取器212、组织器214、优化器216和移动器270（以下描述）中的两个或多个可在同一模块中实现。可替换地，任何或所有这些模块可在分离的硬件上提供，到在其上提供索引的硬件。即，迁移系统200可以是物理地分布的。

范围选取器212基于多个元数据策略执行要被迁移的数据的步骤S20的范围选取。所述元数据策略可在范围选取器212中被重新编程，由用户经由I/O设备1118和I/O控制器1114或更优选地两者的组合手动地输入。范围选取器212的提供和使用允许本发明的方法能够处理数百万的单个对象。该范围选取允许基于多个关键属性的移动性决定的海量应用，所述多个关键属性例如所有者（顾客）、组所有者、数据类型、有效期等。一旦已经选择关键属性并且最终确定元数据策略，具有与元数据策略匹配的属性的数据对象被标记为适合迁移。

在图7中，索引210包括多个对象的细节，所述多个对象由圆圈表示。横线之上的对象A不满足任何用于数据迁移的标准，例如因为其属于组织机构中数据没有被迁移的组，其属于不同的组织机构（顾客），其已经过期并且不再需要被备份等。反之，该线之下的对象B满足元数据策略并且被标记为符合迁移条件。范围选取也可被叫做选择。

组织器214执行被标记为符合迁移条件的数据的步骤S30的组织。这允许基于调度的开始日期，将数据移动性分为分离的阶段。组织器214还允许输入诸如商业需求的外部因素，以指示数据访问的调度。作为示例，组织器214可被用来在第一阶段中迁移属于一组织机构的财务部门的数据，并在第二阶段中迁移属于工程部门的数据。因此，图7示出在范围选取步骤中被选择用于迁移的对象被分到两个阶段。在该示意性表示中，在竖线右边的数据对象在第一阶段中迁移，在左边的数据对象在第二阶段中迁移。组织步骤S30“覆盖(override)”优化步骤S40，因为优化在组织时期创建的阶段中执行。对于优化时期的阶段的数学上最有效的配置是仅配置一个阶段。

在随后的优化步骤S30中，优化器216应用逻辑以加速从源实体260到目标实体280的数据迁移。使用索引210，能够理解在每个迁移阶段的范围内的所有数据，以及与用于访问该数据的下层技术的所有关系。特别地，对于所有对象，能够理解其存储在介质层400中的哪里以及其如何被访问，而不管备份服务器310-340用来存储其的专有技术。

为了减少每个迁移阶段的持续时间，优化器216通过多个属性将数据对象聚集在一起，以从迁移中移除竞争，并通过每当磁带可用时利用磁带极大地减少了物理磁带操作的数量。数据的索引分组被称为迁移集合。在图7中，优化器216目前为止将要在阶段1中迁移的对象分组为两个迁移集合。每个迁移集合包含存在于同一介质位置且具有已知基础架构访问路径的数据对象。构建所述迁移集合，使得可以并行运行两个或多个迁移集合的迁移，而不会产生基础架构冲突，由此每当磁带可用时利用磁带以减少磁带安装。这意味着当介质被装载时，所有数据都可以被提取而无需在过程中稍后的介质的重新安装和重新访问。因此，每个迁移集合被优化用于减少磁带开销，且可以一起执行迁移集合以提高聚合利用率并由此减少迁移期间数据访问的总持续时间。

由于索引210是标准化的格式，因此可以跨越不同类型的介质、和管理各种备份服务器310-340的各自的数据索引的备份软件的不同类型的介质管理，使用优化器216。

在优化步骤S40之后，中央索引210有效地存储所有需要的数据移动操作，尽管所述数据移动操作也可以存储在分离的数据库中。这些数据移动操作被用于以任何适当的方式控制在步骤S50中从源实体260到目标实体280的随后的数据迁移，如图7中所示。

优选地，数据移动操作已经被数学地（mathematically）创建并处理，优选地每个数据移动操作具有多个属性，诸如源位置、目标目的地、平台类型和数据类型。对每个迁移操作贴这些属性的标签，意味着存在控制每个数据操作的元数据。随后在中央索引上输入迁移操作作为符合条件的操作，有效地将每个迁移操作标记为应当由数据移动器270完成的一项工作。

换言之，中央索引210在标准化数据模型中存储迁移操作的阵列。数据移动器270将迁移操作转换为适当的源和目标语言。可对每个源语言和目标语言的组合提供单独的数据移动器270。例如，基于索引210中的迁移操作，数据移动器270可以产生检索（retrieve）源实体中备份服务器310的语言的数据的请求，并将该请求发送到与数据移动器270连接的备份服务器310。数据移动器270由此从备份服务器310检索相关的数据对象。随后其提供任何到目标实体280中目标备份服务器的语言的必需的转换，并使用源实体中的目标备份服务器将该数据对象存储在目标实体280的介质层中分配的位置处。

在图7中移动器270被示出为与迁移系统200是分离的，但是移动器270可以形成该系统的一部分，并在相同硬件、或在相同位置处物理链接的硬件上实现。可替换地，其可以在位于远程位置的（或在与目标和源实体260、280中的一个或两者相同的位置、但是远离迁移系统200）分离的硬件上提供，并且例如经由因特网网络连接到迁移系统。

因此，在本发明的系统和方法中，新索引210在其中保持从数据对象起经过可用的访问路径并且最终是请求索引的所有关系。这些可用的数据路径允许由优化器216执行的决定做出过程仅跨越用于访问各个介质项的可用数据路径的限制来构建每个迁移集合。由于知道服务该访问可用的数据介质位置和可用的数据路径，被请求的数据也可以再次并行化。跨越由组织器214创建的最宽的可能的阶段运行优化器216给予优化在共享的基础架构（即介质层400）的限制中的尽可能多的可用的数据路径。这些可用的数据路径随后被用来当磁带可用时尽可能利用磁带，以减少操作的持续时间。

由于优化器216理解数据在物理磁带介质430上的位置，因此就其在物理磁带介质430上的位置而言将被迁移的顺序对象在迁移阶段顺序排序。这意味着在已经请求对第一对象的访问和迁移之后，当请求访问第二对象时，与降级至近线状态相反，磁带介质已经被安装且在线。这避免每次通过标准索引请求新对象时的安装操作。有效地，优化器216提供预取得功能，以确保保持物理操作为服务数据访问请求的尽可能的少。

使用尽可能多的数据路径以及基于对象在介质上的物理位置在迁移阶段中排序对象这两个特征确保可以执行多个流而没有介质或基础架构竞争，且当迁移流已经开始时，其在迁移阶段的范围内尽可能有效。

利用添加额外的索引210，能够极大地减少对于访问范围内所有数据的介质开销的量，所述额外的索引提供有关数据对象位置和基础架构组件的信息。其还意味着存在与传统数据模型的顺序性质相反的同时操作。因此，图8示出迁移在图2中所示的三个介质上的数据所需的磁带安装操作。这两幅图的对比示出在三个介质上相同物理位置中的相同数据对象。再次，不同的阴影示出在源实体260上数据对象的分组被访问用于迁移跨越到目标实体280的顺序。然而，这次该顺序不对应于各个备份服务器310、320、330、340的索引，而是对应于对象在迁移集合中的顺序。因此，在迁移集合1中，介质1和介质2同时安装，且在其上的数据对象同时流传输跨越至目标实体280。

在这种情况下，在迁移操作中每个介质将仅被安装一次，导致总共仅三个安装操作，用于在一个阶段的迁移操作中跨越地流传输所有数据。

因此，从该基本示例可以看出本发明如何简化数据迁移。然而，还需记住将数据对象布置到其中在数据访问路径之间没有竞争的迁移集合避免了挂起进程，由此减少了迁移数据所用的时间。

对于复杂环境中的较大数据集，本发明通过增加附加的索引210以及使用范围选取器212、组织器214以及优化器216用于较大数据访问操作的操纵，表现了对当前非智能技术的巨大改进。其确保过程的并行而没有基础架构请求冲突，并且提供从顺序的访问介质类型读取全异的对象的效率的提高。因此，本发明极大地简化了聚合数据移动，极大地改善了性能并且极大地减少了迁移持续时间和物理组件上的操作耗损两者。

意识到该思想可以应用到需要管理和移动大量和大规模对象的任何需求是重要的。因此，本发明不但适于在数据保护层260中遗留和新的备份服务器和系统之间的数据迁移，而且还适于数据从源主存储器层250迁移到目标主存储器层，或者甚至从在之上的应用层720和原始数据层710的迁移。这在图9中通过对一个或多个不同层提供创建索引210的收集器220和导入器230而示意性的示出。

本发明还适于对传统磁带基础架构的访问的加速；对大数据移动性和访问的加速；以及适于近线技术的预取得和数据访问的加速。因此，“迁移”等术语应被宽泛地阐释为覆盖任意形式的数据的传送，并且不限于当组织机构或个人更换计算机系统或升级到新系统时或当系统合并（诸如当使用其的组织机构经历并购或接管）时，产生的类别。同样，源实体不需要是备份系统，而是可以是包括共享基础结构的分离系统的主存储器层250系统，且目标实体可以是位于之上且网络连接到主存储层250的另一个计算机。

已经通过仅仅是示例的方式给出以上描述，且本领域的技术人员应理解在不背离本发明的范围的情况下可以进行修改。

Claims

1.一种用于将数据对象从源实体迁移到目标实体的数据迁移方法，其中所述源实体包括在分离的系统之间共享的基础架构，所述方法包括：

提供存储在共享的基础架构上的数据对象的单个索引和该数据对象的对象属性，所述索引以独立于分离的系统的原本格式的标准化格式提供；

基于至少一个所述对象属性选择要迁移哪个数据对象；

将所选择的数据对象的迁移分割成多个阶段，将每个所选择的数据对象分配到所述多个阶段中的一个，一个阶段的所选择的数据对象的迁移时间不同于另一个阶段的所选择的数据对象的迁移时间；

通过基于所述对象属性将每个阶段的所选择的数据对象分组到迁移集合中，优化所选择的数据对象从所述共享的基础架构到所述目标实体的迁移；以及

基于在分割期间建立的迁移阶段以及在优化期间建立的迁移集合，将所选择的数据对象从所述共享的基础架构迁移到所述目标实体。

2.根据权利要求1所述的数据迁移方法，其中用于选择要迁移哪个数据对象的所述至少一个对象属性是对象所有者、组所有者、数据类型和有效期限之一。

3.根据权利要求1或2所述的数据迁移方法，其中对象属性包括顾客数据、场所数据、源数据、节点数据、对象数据和片段数据中的至少一个。

4.根据权利要求1所述的数据迁移方法，其中共享的基础架构包括存储介质且迁移集合基于所选择的数据对象在存储介质上的位置、所选择的数据对象与各个分离的系统的关系、以及用于所选择的数据对象从分离的系统到存储介质的可用访问路径。

5.根据权利要求4所述的数据迁移方法，其中基于所选择的数据对象在存储介质上的位置而在每个迁移集合中顺序排序所选择的数据对象。

6.一种用于将数据对象从源实体迁移到目标实体的数据迁移系统，其中所述源实体包括在分离的系统之间共享的基础架构，所述系统包括：

存储设备，其存储在共享的基础架构上存储的数据对象的单个索引以及该数据对象的对象属性，所述索引处于独立于分离的系统的原本格式的标准化数据模型中；

选择器，适于基于至少一个所述对象属性选择迁移哪个数据对象；

组织器，适于将所选择的数据对象的迁移分割成多个阶段，将每个所选择的数据对象分配到所述多个阶段中的一个，一个阶段的所选择的数据对象的迁移时间不同于另一个阶段的所选择的数据对象的迁移时间；

优化器，适于通过基于所述对象属性将每个阶段的所选择的数据对象分组到迁移集合中，优化所选择的数据对象从共享的基础架构到目标实体的迁移；以及

移动器，适于基于在分割期间建立的迁移阶段以及在优化期间建立的迁移集合，将所选择的数据对象从所述共享的基础架构迁移到所述目标实体。

7.根据权利要求6所述的数据迁移系统，其中用于选择要迁移哪个数据对象的所述至少一个对象属性是对象所有者、组所有者、数据类型和有效期限之一。

8.根据权利要求6所述的数据迁移系统，其中对象属性包括顾客数据、场所数据、源数据、节点数据、对象数据和片段数据中的至少一个。

9.根据权利要求6所述的数据迁移系统，其中共享的基础架构包括存储介质，且迁移集合基于所选择的数据对象在存储介质上的位置、所选择的数据对象与各个分离的系统的关系、以及用于所选择的数据对象从分离的系统到存储介质的可用访问路径。

10.根据权利要求9所述的数据迁移系统，其中基于所选择的数据对象在存储介质上的位置而在每个迁移集合中顺序排序所选择的数据对象。

11.根据权利要求9或10所述的数据迁移系统，其中迁移集合允许跨越并行的数据路径的所选择的数据对象的数据迁移。