CN107220263B - 数据迁移的优化方法、评估方法及处理方法及装置 - Google Patents

数据迁移的优化方法、评估方法及处理方法及装置 Download PDF

Info

Publication number
CN107220263B
CN107220263B CN201610166580.0A CN201610166580A CN107220263B CN 107220263 B CN107220263 B CN 107220263B CN 201610166580 A CN201610166580 A CN 201610166580A CN 107220263 B CN107220263 B CN 107220263B
Authority
CN
China
Prior art keywords
data
bandwidth
units
migrated
migration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610166580.0A
Other languages
English (en)
Other versions
CN107220263A (zh
Inventor
黄俨
何乐
史英杰
张�杰
张辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201610166580.0A priority Critical patent/CN107220263B/zh
Priority to TW106104944A priority patent/TWI740899B/zh
Priority to EP17769310.8A priority patent/EP3435252A4/en
Priority to SG11201807494UA priority patent/SG11201807494UA/en
Priority to PCT/CN2017/076037 priority patent/WO2017162033A1/zh
Publication of CN107220263A publication Critical patent/CN107220263A/zh
Priority to US16/140,435 priority patent/US20190026290A1/en
Application granted granted Critical
Publication of CN107220263B publication Critical patent/CN107220263B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
    • H04L67/61Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources taking into account QoS or priority requirements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/119Details of migration of file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/214Database migration support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0604Improving or facilitating administration, e.g. storage management
    • G06F3/0605Improving or facilitating administration, e.g. storage management by facilitating the interaction with a user or administrator
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0646Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
    • G06F3/0647Migration mechanisms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1095Replication or mirroring of data, e.g. scheduling or transport for data synchronisation between network nodes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明实施例提供了一种数据迁移的优化方法、评估方法及处理方法及装置,其中,优化方法包括按照将第一被依赖数据量较多的一个或多个待迁移数据单元优先复制到目标集群,然后切换计算集群的原则,生成多个数据迁移方案;计算切换计算集群后集群间的带宽状态数据;根据带宽状态数据对各个数据迁移方案进行优化选择。本发明实施例的数据迁移的优化方法,通过按照优先复制被依赖数据量较多的热数据单元然后切换计算集群的原则,并对各个方案进行基于带宽状态数据的预测评估,然后在进行优化选择,从而能够获得较为优选的数据迁移方案,提高数据迁移的效率,降低数据迁移失败的风险。

Description

数据迁移的优化方法、评估方法及处理方法及装置
技术领域
本发明实施例涉及一种数据迁移的优化方法、评估方法及处理方法及装置,属于计算机技术领域。
背景技术
现有技术的数据迁移方式是先将待迁移的项目单元的全部数据单元从源集群复制到目标集群,在此期间与迁移数据相关的一切计算任务仍然运行在源集群,直至完全复制完成后,再将计算任务从源集群切换到目标集群。对于大规模的数据迁移(例如包含数据量比较大的项目单元)来说,整个过程会耗时很长。并且,现有数据在迁移执行之前,并未进行基于数据依赖关系的评估,即没有考虑数据依赖关系在迁移后对于集群件带宽的影响。
发明人的实现本发明的过程中,发现现有技术存在如下缺陷:
1)新数据产生所带来的缺陷:一些大型业务的新数据产生非常频繁,新数据的产生速度非常快,而现有技术是等待全部数据复制完后再进行计算任务的切换,这样会导致迁移的时间会非常长,迁移效率极低,而在此期间,计算任务仍然运行在源集群中,会持续产生新数据。如果新数据产生的速度大于迁移复制数据的速度(这种情况也是经常发生),在这种情况下,如果不停止业务产生新数据,那么迁移任务将永远不能结束。
2)缺少基于数据依赖关系的评估所带来的缺陷:在数据迁移前缺少基于数据依赖关系的评估,往往是在迁移之后才发现重大问题。由于数据单元之间存在复杂的依赖关系,迁移之后会导致集群间数据访问量发生变化。如果未做充分评估而贸然迁移,迁移后可能导致集群间的网络带宽恶化。
发明内容
本发明实施例提供了一种数据迁移的优化方法、评估方法及处理方法及装置,以解决现有技术中新业务产生所带来的缺陷以及缺少数据依赖关系的评估所带来的缺陷。
本发明实施例提供了一种数据迁移的优化方法,包括:
按照将第一被依赖数据量较多的一个或多个待迁移数据单元作为待复制数据单元优先复制到目标集群,然后切换计算集群的原则,生成多个数据迁移方案,其中,所述第一被依赖数据量为所述待迁移数据单元的所有被依赖数据量;
针对所述各个数据迁移方案,计算切换计算集群后集群间的带宽状态数据;
根据所述带宽状态数据对各个所述数据迁移方案进行优化选择。
本发明实施例还提供了一种数据迁移的评估方法,包括:
获取在切换计算集群前,源集群中要复制到目标集群中的一个或多个待复制数据单元的第二被依赖数据量,所述第二被依赖数据量为所述待复制数据单元与所述目标集群之外的其他数据单元之间的被依赖数据量;
计算切换计算集群后集群间的带宽状态数据;
根据所述带宽状态数据是否满足预设带宽可行性条件来确定数据迁移方案是否可行。
本发明实施例还提供了一种数据迁移的处理方法,包括:
将第一被依赖数据量较多的一个或多个待迁移数据单元作为待复制数据单元优先复制到目标集群,其中,所述第一被依赖数据量为所述待迁移数据单元的所有被依赖数据量;
切换计算集群;
迁移剩余的一个或多个待迁移数据单元至目标集群。
本发明实施例还提供了一种数据迁移的优化装置,包括:
数据迁移方案生成模块,用于按照将第一被依赖数据量较多的一个或多个待迁移数据单元作为待复制数据单元优先复制到目标集群,然后切换计算集群的原则,生成多个数据迁移方案,并触发带宽状态数据计算模块对各个数据迁移方案进行计算处理,其中,所述第一被依赖数据量为所述待迁移数据单元的所有被依赖数据量;
所述带宽状态数据计算模块,用于计算切换计算集群后集群间的带宽状态数据;
优化选择模块,用于根据所述带宽状态数据对各个所述数据迁移方案进行优化选择。
本发明实施例还提供了一种数据迁移的评估装置,包括:
第四获取模块,用于获取在切换计算集群前,源集群中要复制到目标集群中的一个或多个待复制数据单元的第二被依赖数据量,所述第二被依赖数据量为所述待复制数据单元与所述目标集群之外的其他数据单元之间的被依赖数据量;
带宽状态数据计算模块,用于计算切换计算集群后集群间的带宽状态数据;
判定模块,用于根据所述带宽状态数据是否满足预设带宽可行性条件来确定数据迁移方案是否可行。
本发明实施例还提供了一种数据迁移的处理装置,包括:
复制模块,用于将第一被依赖数据量较多的一个或多个待迁移数据单元作为待复制数据单元优先复制到目标集群,其中,所述第一被依赖数据量为所述待迁移数据单元的所有被依赖数据量;
切换模块,用于切换计算集群;
剩余数据迁移模块,用于迁移剩余的一个或多个待迁移数据单元至目标集群。
本发明实施例的数据迁移的优化方法及装置,通过按照优先复制被依赖数据量较多的热数据单元然后切换计算集群的原则生成多个迁移方案,并对各个方案进行基于带宽状态数据的预测评估,然后再进行优化选择,从而能够获得较为优选的数据迁移方案,提高数据迁移的效率,降低数据迁移失败的风险。
本发明实施例的数据迁移的评估方法及装置,应用于实际进行数据迁移操作之前,基于对待复制数据单元的被依赖数据量对网路带宽状态进行模拟评估,并根据带宽状态数据来最终确定是否可行,从而降低了数据迁移失败的风险。
本发明实施例的数据迁移的处理方法及装置,通过采用先复制被依赖数据量较多的热数据单元然后进行计算集群的切换,最后再迁移冷数据的方式,能够尽早完成计算集群的切换,从而提高了数据迁移的效率,并且由于在计算集群切换后,产生的新数据会存放在目标集群,因此,也解决了新数据持续产生所带来了影响。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
图1为发明实施例的用于说明数据迁移原理的示意图之一。
图2为发明实施例的用于说明数据迁移原理的示意图之二。
图3为本发明实施例一的数据迁移的优化方法的流程示意图之一。
图4为本发明实施例一的数据迁移的优化方法的流程示意图之二。
图5为本发明实施例一的带宽监控设备采集的当前带宽使用量的曲线示意图。
图6为叠加后的带宽使用量的曲线示意图。
图7为根据各个数据迁移方案对应的复制时间和带宽打满的概率生成的曲线示意图。
图8为本发明实施例二的数据迁移的评估方法的流程示意图。
图9为本发明实施例三的数据迁移的处理方法的流程示意图。
图10为本发明实施例四的数据迁移的优化装置的结构示意图。
图11为本发明实施例五的数据迁移的评估装置的结构示意图。
图12为本发明实施例六的数据迁移的处理装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例涉及的主要技术内容为数据迁移,数据迁移是指将一个或多个项目单元从源集群迁移到目标集群,其中,项目单元包含至少一个数据单元和至少一个计算任务,而数据单元可以是一张数据表也可以是多张数据表构成的集合单元。从另一个角度来说,数据迁移也可以认为是将一个或多个数据单元以及与这些数据单元对应的一个或多个计算任务迁移从源集群迁移至目标集群。此外,集群可以认为是一组协同工作的计算机组系统,对外提供统一的服务。
数据迁移需要完成如下两部分工作:
1)数据单元的转移:将源集群中各个项目单元中的数据单元转移到目标集群中。一般是采用复制的方式从源集群复制到的目标集群,在此期间,计算任务仍然工作在源集群中。
2)计算集群切换:将各个项目单元的全部或部分计算任务从源集群切换到目标集群(该过程不涉及数据传输),切换后,整个计算任务将运行在目标集群中,产生的新数据也将存储在目标集群中。
数据迁移还会涉及到数据单元间的依赖关系,由于依赖关系的存在,在完成数据迁移后,会导致目标集群与其他集群间的网络带宽受到影响。其中,网络带宽是指在单位时间内从一端流到另一端的信息量,即数据传输率,是衡量网络使用情况的一个重要指标。
数据间的依赖关系是由计算任务的输入输出关系而产生的。例如,数据单元a是某个计算任务的输入,而数据单元b是给计算任务的输出,则定义为数据单元a被数据单元b所依赖,即依赖关系是有计算任务的数据输入输出关系而确定的。对于数据单元a而言,被依赖关系主要是体现在计算任务为了输出数据到数据单元b,而需要读取数据单元a中的数据。
下面通过图1和图2来进一步说明一下,数据间的依赖关系对于数据迁移的影响。如下图1和图2所示,图中的圆点代表项目单元中的各个数据单元,图中的连线代表数据单元之间的依赖关系。
从图中可以看出,项目单元B和项目单元C中的数据单元之间的依赖关系较多,而项目单元B与项目单元A中的数据单元之间的依赖关系较少。由此,项目单元B中的计算任务会较多地访问项目单元C中的数据单元,从而产生较多的数据访问量。在图1中,由于项目单元B和项目单元C都处于同一集群中,因此,项目单元B与项目单元C之间的数据访问量不会占用集群间的带宽。并且,在图1和图2中,项目单元B中,内部的数据单元之间的依赖关系也不会对带宽造成影响。
如果将项目单元B从集群2迁移到集群1中,则迁移后的结果如图2所示,从图中可以看出发生如下变化:项目单元B和项目单元C之间的数据访问量将占用集群1和集群2之间的带宽,项目单元A与项目单元B之间的数据访问量将不再占用集群间带宽。由于项目单元B与项目单元C之间的数据访问量明显大于项目单元B与项目单元A之间的数据访问量,从而导致了集群1和集群2之间的数据访问量增加,较图1中的情形占用了更多的带宽。如果贸然将项目单元B从集群2迁移到集群1中,可能会导致集群1和集群2之间的带宽被打满,导致网络环境恶化。
由此可见,由于依赖关系的存在,数据迁移会对集群间的网络环境尤其是带宽产生较大影响。
实施例一
如图3所示,其为本发明实施例一的数据迁移的优化方法的流程示意图之一,该优化方法包括如下步骤101至步骤103的处理。
步骤101:按照将第一被依赖数据量较多的一个或多个待迁移数据单元作为待复制数据单元优先复制到目标集群,然后切换计算集群的原则,生成多个数据迁移方案。其中,第一被依赖数据量为所述待迁移数据单元的所有被依赖数据量。第一被依赖数据量可能包括同一个项目单元内部的被依赖数据量,也可能包括了数据单元所在的项目单元之外的其他项目单元的被依赖数据量,实际上还会存在跨集群的被依赖数据量等。另外,这里所说的切换计算集群是指将待迁移数据单元相关的计算任务切换到目标集群的动作,可以是将全部关联的计算任务进行切换的行为,也可以是切换一部分计算任务的行为。需要说明的是,计算任务与数据单元之间仅仅是数据访问的关系,这种数据访问关系并一定要求计算任务与数据单元必然存在与同一个计算集群中。
在上述原则中,实际上将全部的待迁移数据单元划分为了两部分,一部分数据单元(可以视作热数据单元)优先复制,另一部分数据单元(可以视作冷数据单元)待切换计算集群后,再逐步复制到目标集群。冷数据的迁移可以不通过集中复制的方式来完成,因此,可以认为很少占用集群件带宽。例如,通过集群间的底层数据传输机制,或者可以在集群系统相对空闲时间段进行复制等等。
这里的热数据单元和冷数据单元完全是相对概念,可以人为设定标准。在该步骤中,也会存在一种特殊情况,就是待复制数据单元的数量等于待迁移数据单元的数量,即该数据迁移方案为全量迁移方案。
此外,在实际进行选择复制哪些数据单元时,还可以考虑数据单元的生命周期,生命周期是指数据单元的有效存在时间。例如,很多数据只是需要被暂时访问的,而过了预定时间后,就没有存在的价值,可以被删除。因此,在进行复制的过程中,也可以对数据的生命周期进行判断,在要复制的数据单元列表中,提出掉那些已经超过生命周期的,或者生命周期快要结束的数据单元,从而进一步提高数据迁移的效率,避免复制无用的数据单元。
步骤102:针对各个数据迁移方案,计算切换计算集群后集群间的带宽状态数据。其中,切换计算集群后集群间的带宽状态数据至少包括两部分因素的叠加:当前的带宽使用数据和被优先迁移的数据单元而导致的变动的带宽使用数据。具体地,如图4所示,其为本发明实施例一的数据迁移的优化方法的流程示意图之二,在步骤103中,计算切换计算集群后集群间的带宽状态数据的处理可以进一步包括:
步骤1021:获取当前的带宽使用数据,这里所说的当前的带宽使用数据是指未进行计算集群切换前的带宽使用数据。
步骤1022:根据一个或多个待复制数据单元的第二被依赖数据量,获取在切换计算集群后而导致的变动的带宽使用数据。其中,第二被依赖数据量为一个或多个待复制数据单元与目标集群之外的其他数据单元之间的被依赖数据量。这里的第二被依赖数据量是仅对集群间带宽造成影响的被依赖数据量。
步骤1023:将当前的带宽使用数据与变动的带宽使用数据进行叠加,基于叠加后的带宽使用数据,生成带宽状态数据。
步骤103:根据带宽状态数据对各个数据迁移方案进行优化选择。
上述的多个待迁移数据单元一般会属于一个或多个待迁移项目单元,而如前所说的,数据迁移一般是以项目单元为单位进行迁移的。而上述的切换计算集群的操作具体为将一个或多个待迁移项目单元中的全部计算任务切换至目标集群。
在上述数据迁移的优化方法中,通过按照优先复制被依赖数据量较多的热数据单元然后切换计算集群的原则生成多个数据迁移方案,并对各个方案进行基于带宽状态数据的预测评估,然后在进行优化选择,从而能够获得较为优选的数据迁移方案,提高数据迁移的效率,降低数据迁移失败的风险。
此外,在上述的步骤101之前,还可以包括:
步骤100:对源集群中多个待迁移数据单元按照第一被依赖数据量的大小进行排序。各个待迁移数据单元的第一被依赖数据量可以从各个待迁移数据单元对应的历史数据中获取,在系统日志中,会存在数据的访问记录信息,根据这些访问记录信息即可获取到上述的第一被依赖数据量。
例如,欲将项目单元1(下表中的P1)和项目单元2(下表中的P2)从源集群迁移至目标集群,获取到了项目单元1和项目单元2中的各个数据表(T1至T8)的第一被依赖数据量和各个数据表自身的大小,并且按照第一被依赖数据量进行了排序,如下表:
Figure BDA0000947043190000091
需要说明的是,在上述流程中,在上述步骤101中生成多个迁移方案之后再执行步骤102,但是本领域技术人员能够理解,也可以在步骤102中产生一个数据迁移方案后,就执行步骤102的计算带宽状态数据的操作,而无需等待多个数据迁移方案全部生成,或者也可以采用循环遍历的方式,按照步骤101中的原则,根据步骤100中的待迁移数据单元的排序,以从一次性复制全部待迁移数据单元开始逐个数据单元递减直至仅复制第一被依赖数据量最多个的待迁移数据单元为止(也可以反向递增),生成多个数据迁移方案。
下面再对如何计算切换计算集群后集群间的带宽状态数据以及如何对方案进行优选评估这两个方面进行更加详细的说明。
(一)带宽状态数据的计算
在上述步骤中,带宽使用数据可以为预定时间段内的与时间点对应的带宽使用量的采样数据,带宽状态数据可以为带宽打满的概率。
进一步地,上述步骤1021可以具体包括:获取当前带宽使用量,并对预定时间段内的当前带宽使用量进行采样,生成第一采样数据。当前带宽使用量的获取方式可以通过带宽监控设备进行实时监控记录而获得。如图5所示,其为带宽监控设备采集的当前带宽使用量的曲线示意图,横轴为时间,单位为小时,纵轴为带宽使用量,单位为TB(太字节)。对该图形进行采样即可获得上述第一采样数据,从图上部的横线为带宽上限,带宽使用量超过该上限值,认为带宽被打满。
上述步骤1022可以具体包括:根据与第二依赖数据量相关的历史数据,生成预定时间段内的与时间点对应的历史带宽使用量的第二采样数据。数据单元的被访问的记录都会记录在历史日志中,可以通过查询历史日志中的记录,筛选出符合与第二依赖数据量相关的信息,然后进行统计和采样,生成上述第二采样数据。
上述步骤1023可以具体包括:将第一采样数据和第二采样数据进行叠加,基于叠加后的第三采样数据计算带宽打满的概率。如图6所示,其为叠加后的带宽使用量的曲线示意图,其中,可以看出存在部分时间段内,带宽使用量超过了带宽上限,即出现了带宽打满的情况。
带宽打满的概率的计算公式可以具体为:P=TM1/TM2……公式(1)
其中,P为带宽打满的概率,TM1为在第三采用数据中,带宽超过带宽上限的时长,TM2为预定时间段的时长。在实际应用中,TM1和TM2可以以分钟为单位进行统计。
上述的步骤1021和步骤1022中的预定时间段可以是每天的一个固定时间段,例如,根据最近N天内(例如使用30天)每天0点到9点的的历史数据或者带宽监控数据进行统计和采样,分别生成第一采样数据和第二采样数据,然后根据叠加后的第三采样数据,计算该时间段内的带宽打满的概率。
(二)如何对方案进行优选评估
如上面计算出带宽状态数据后,可以直接根据带宽状态数据的优劣来进行方案的筛选。例如,直接选择对带宽打满的概率较低的方案。此外,在针对数据迁移方案预测出带宽打满率后,还可以根据预设的条件对打满率进行判断,如果该带宽打满率过高,则认为该数据迁移方案根本不可行,则直接放弃该数据迁移方案。例如,将带宽打满的概率阈值设为95%,如果预测的带宽打满的概率超过95%,则直接放弃该数据迁移方案。
另外,在开始上述数据迁移的优化方法之前,可以先对全量迁移的方案进行带宽状态数据的预测评估,即计算全量数据迁移的情况下的集群间的带宽状态数据,如果带宽状态数据不满足预设的带宽可行性条件(例如带宽打满概率过高),则认为全部的迁移方案均不可行(因为无论任何一种迁移方案,只是优先复制的数据单元不同,而最终都会完成全量迁移),因此,直接终止优化方法的流程。
此外,在实际应用中,会结合在进行计算集群切换前,复制上述待复制的数据单元所耗费的复制时间对方案进行优化选择,即综合考虑带宽打满的概率和复制时间来确定优选方案。
复制时间可以根据给定复制传输带宽的条件和待复制数据单元的自身数据量来计算。例如,会预先给定用于数据迁移的带宽,然后根据复制单元的大小和给定的带宽就可以计算出复制时间。如果以天数作为计算单位,则产生如下公式:
复制天数=待复制的数据单元的数据量/预先给定用于数据迁移的带宽/3600/24。由于带宽一般是以“数据量/秒”为单位,因此,在该公式中除以3600得到所用的小时数,然后再除以24转换为天数。
如图7所示,其为根据各个数据迁移方案对应的复制时间和带宽打满的概率生成的曲线示意图。基于图7的曲线,根据实际的需求来进行综合选择。例如,综合考虑复制时间和带宽打满的概率,认为复制时间为d天时,带宽打满的概率为10%,相对较低,因此,该点对应的数据迁移方案较为优选。当然,也可以以尽早完成计算集群的切换为首要条件进行考虑的,则可能会选择复制时间较短但是带宽打满的概率相对较高的数据迁移方案。
本实施例的数据迁移的优化方法,能够基于优先复制热数据然后进行计算集群的切换的原则,生成多个数据迁移方案,然后基于带宽打满的概率和复制时间这两个因素进行综合判断,从而选择出优选的数据迁移方案,从而极大的提高了数据迁移的效率,并且降低了数据迁移失败的风险。
实施例二
本实施例涉及数据迁移的评估方法,该方法用于在实际进行数据迁移操作之前,对数据迁移方案进行模拟评估,以确定其可行性。如图8所示,其为本发明实施例二的数据迁移的评估方法的流程示意图,该评估方法包括:
步骤201:获取在切换计算集群前,源集群中要复制到目标集群中的一个或多个待复制数据单元的第二被依赖数据量,这里的第二被依赖数据量与上述实施例中的含义一致,即待复制数据单元与目标集群之外的其他数据单元之间的被依赖数据量。在本步骤中,待复制数据单元可以是全部需要迁移的待迁移数据单元,也可以是部分需要迁移的待迁移数据单元,即本实施例的评估装置可以针对全量迁移方案进行评估,也可以针对先迁移部分热数据,然后执行计算集群切换后,再迁移冷数据的方案进行评估。
步骤202:计算切换计算集群后集群间的带宽状态数据。其中,该步骤可以具体为上述实施例一中的步骤1021至步骤1023。进一步地,带宽使用数据可以为预定时间段内的与时间点对应的带宽使用量的采样数据,带宽状态数据可以包括带宽打满的概率。对于带宽状态数据的具体计算方法可以采用上述实施例一中第(一)点中所描述的具体方案,在此不再赘述。
步骤203:根据带宽状态数据是否满足预设带宽可行性条件来确定数据迁移方案是否可行。具体地,可以根据预设的带宽打满的概率阈值,对数据迁移方案的带宽打满的概率进行判断,如果超过概率阈值,则确定该数据迁移方案不可行,否则确定为可行。
本发明实施例的数据迁移的评估方法,应用于实际进行数据迁移操作之前,基于对待复制数据单元的被依赖数据量对网路带宽状态进行了模拟评估,并根据带宽状态数据来最终确定是否可行,从而降低了数据迁移失败的风险。
实施例三
本实施例涉及一种数据迁移的处理方法,如图9所示,其为本发明实施例三的数据迁移的处理方法的流程示意图,包括:
步骤301:将第一被依赖数据量较多的一个或多个待迁移数据单元作为待复制数据单元优先复制到目标集群,其中,第一被依赖数据量为所述待迁移数据单元的所有被依赖数据量。。
步骤302:切换计算集群。这里的切换计算集群可以具体为将一
个或多个待迁移项目单元中的全部计算任务切换至目标集群。在切换完计算集群之后,计算任务产生的新数据会默认存储在目标集群中。
步骤303:迁移剩余的一个或多个待迁移数据单元至目标集群。
在上述的步骤301之前,还可以包括:步骤300:对源集群中多个待迁移数据单元按照第一被依赖数据量的大小进行排序。其中,多个待迁移数据单元可以属于一个或多个待迁移项目单元。具体地,在执行步骤300之前,第一被依赖数据量可以根据待迁移数据单元的历史数据进行统计而获得。
此外,在执行本实施例的数据迁移的处理方法之前,可以应用实施例二的评估方法,以确定迁移方案的可行性,也可以应用实施例一的数据迁移的优化方法,选择较为合理的数据迁移方案来进行数据迁移。
本发明实施例的数据迁移的处理方法,通过采用先复制被依赖数据量较多的热数据单元然后进行计算集群的切换,最后再迁移冷数据的方式,能够尽早完成计算集群的切换,从而提高了数据迁移的效率,并且由于在计算集群切换后,产生的新数据会存放在目标集群,因此,也解决了新数据持续产生所带来了影响。
实施例四
如图10所示,其为本发明实施例四的数据迁移的优化装置的结构示意图,该优化装置包括数据迁移方案生成模块11、带宽状态数据计算模块12以及优化选择模块13。
数据迁移方案生成模块11,用于按照将第一被依赖数据量较多的一个或多个待迁移数据单元作为待复制数据单元优先复制到目标集群,然后切换计算集群的原则,生成多个数据迁移方案,并触发带宽状态数据计算模块对各个数据迁移方案进行计算处理,其中,第一被依赖数据量为所述待迁移数据单元的所有被依赖数据量。
带宽状态数据计算模块12,用于计算切换计算集群后集群间的带宽状态数据。
优化选择模块13,用于根据带宽状态数据对各个数据迁移方案进行优化选择。
其中,该优化装置还可以包括:排序模块10,用于对源集群中多个待迁移数据单元按照第一被依赖数据量的大小进行排序。其中,多个待迁移数据单元可以属于一个或多个待迁移项目单元,相应地,切换计算集群可以具体为将一个或多个待迁移项目单元中的全部计算任务切换至目标集群。此外,本实施例的数据迁移的优化装置还可以包括:第三获取模块14,用于根据待迁移数据单元的历史数据,获取第一被依赖数据量。
上述带宽状态数据计算模块12可以进一步包括:
第一获取模块121,用于获取当前的带宽使用数据,当前的带宽使用数据为未进行计算集群切换前的带宽使用数据。
第二获取模块122,根据一个或多个待复制数据单元的第二被依赖数据量,获取在切换计算集群后而导致的变动的带宽使用数据,其中,第二被依赖数据量为一个或多个待复制数据单元与目标集群之外的其他数据单元之间的被依赖数据量;
叠加模块123,用于将当前的带宽使用数据与变动的带宽使用数据进行叠加,生成叠加后的带宽使用数据;
生成模块124,用于基于叠加后的带宽使用数据,生成带宽状态数据。
其中,上述的带宽使用数据可以为预定时间段内的与时间点对应的带宽使用量的采样数据,带宽状态数据可以包括带宽打满的概率。
在上述第一获取模块121中,获取当前的带宽使用数据可以包括:获取当前带宽使用量,并对预定时间段内的当前带宽使用量进行采样,生成第一采样数据。
在上述第二获取模块122中,根据一个或多个待复制数据单元的第二被依赖数据量,获取在切换计算集群后而导致的变动的带宽使用数据可以包括:根据待复制数据单元的历史数据,生成预定时间段内的与时间点对应的历史带宽使用量的第二采样数据。
在上述叠加模块123中,将当前的带宽使用数据与变动的带宽使用数据进行叠加,生成叠加后的带宽使用数据可以包括:将第一采样数据和第二采样数据进行叠加,生成叠加后的第三采样数据。
在上述生成模块124中,基于叠加后的带宽使用数据,生成带宽状态数据可以包括:基于叠加后的第三采样数据计算带宽打满的概率。其中,带宽打满的概率可以采用上述公式(1)计算。
此外,本实施例的数据迁移的优化装置还可以包括:
复制时间计算模块15,用于根据一个或多个待复制数据单元的自身数据量计算在给定复制传输带宽的条件下,复制一个或多个待复制数据单元的复制时间。相应地,在优化选择模块中,根据带宽状态数据对各个数据迁移方案进行优化选择包括:根据带宽状态数据和复制时间综合确定优选的数据迁移方案。
进一步地,本实施例的数据迁移的优化装置还可以包括:
数据迁移方案筛选模块,用于根据预设的带宽打满的概率阈值,对数据迁移方案的带宽打满的概率进行判断,如果超过概率阈值,则剔除该数据迁移方案。
此外,本实施例的数据迁移的优化装置还可以包括:
全量迁移评估模块,用于在进行优化处理前,计算全量数据迁移的情况下的集群间的带宽状态数据,如果带宽状态数据不满足预设的带宽可行性条件,则停止对数据迁移方案的优化处理。
本发明实施例的数据迁移的优化装置,通过按照优先复制被依赖数据量较多的热数据单元然后切换计算集群的原则生成多个迁移方案,并对各个方案进行基于带宽状态数据的预测评估,然后在进行优化选择,从而能够获得较为优选的数据迁移方案,提高数据迁移的效率,降低数据迁移失败的风险。
实施例五
如图11所示,其为本发明实施例五的数据迁移的评估装置的结构示意图,该评估装置包括第四获取模块21、带宽状态数据计算模块12以及判定模块22。
其中,第四获取模块21,用于获取在切换计算集群前,源集群中要复制到目标集群中的一个或多个待复制数据单元的第二被依赖数据量。具体地,可以根据待复制数据单元的历史数据,获取第二被依赖数据量。其中,第二被依赖数据量为待复制数据单元与目标集群之外的其他数据单元之间的被依赖数据量。待复制数据单元可以是全部需要迁移的待迁移数据单元,也可以是部分需要迁移的待迁移数据单元,即本实施例的评估装置可以针对全量迁移方案进行评估,也可以针对先迁移部分热数据,然后执行计算集群切换后,再迁移冷数据的方案进行评估。
带宽状态数据计算模块12,用于计算切换计算集群后集群间的带宽状态数据。
判定模块22,用于根据带宽状态数据是否满足预设带宽可行性条件来确定数据迁移方案是否可行。
上述带宽状态数据计算模块12可以进一步包括:
第一获取模块121,用于获取当前的带宽使用数据。
第二获取模块122,用于根据一个或多个待复制数据单元的第二被依赖数据量,获取在切换计算集群后而导致的变动的带宽使用数据。
叠加模块123,用于将当前的带宽使用数据与变动的带宽使用数据进行叠加,生成叠加后的带宽使用数据。
生成模块124,用于基于叠加后的带宽使用数据,生成带宽状态数据。
其中,上述的带宽使用数据为预定时间段内的与时间点对应的带宽使用量的采样数据,带宽状态数据可以包括带宽打满的概率。
在上述第一获取模块121中,获取当前的带宽使用数据可以包括:获取当前带宽使用量,并对预定时间段内的当前带宽使用量进行采样,生成第一采样数据。
在上述第二获取模块122中,根据一个或多个待复制数据单元的第二被依赖数据量,获取在切换计算集群后而导致的变动的带宽使用数据可以包括:根据待复制数据单元的历史数据,生成预定时间段内的与时间点对应的历史带宽使用量的第二采样数据。
在上述叠加模块123中,将当前的带宽使用数据与变动的带宽使用数据进行叠加,生成叠加后的带宽使用数据可以包括:将第一采样数据和第二采样数据进行叠加,生成叠加后的第三采样数据。
在上述生成模块124中,基于叠加后的带宽使用数据,生成带宽状态数据可以包括:基于叠加后的第三采样数据计算带宽打满的概率。其中,带宽打满的概率可以采用上述公式(1)计算。
进一步地,在上述判定模块22中,根据带宽状态数据是否满足预设带宽条件来确定数据迁移方案是否可行可以包括:根据预设的带宽打满的概率阈值,对数据迁移方案的带宽打满的概率进行判断,如果超过概率阈值,则确定该数据迁移方案不可行,否则确定为可行。
本发明实施例的数据迁移的评估装置,可以应用于实际进行数据迁移操作之前,基于对待复制数据单元的被依赖数据量对网路带宽状态进行了模拟评估,并根据带宽状态数据来最终确定是否可行,从而降低了数据迁移失败的风险。
实施例六
如图12所示,其为本发明实施例六的数据迁移的处理装置的结构示意图,该处理装置包括复制模块31、切换模块32以及剩余数据迁移模块33。
复制模块31,用于将第一被依赖数据量较多的一个或多个待迁移数据单元作为待复制数据单元优先复制到目标集群,其中,第一被依赖数据量为所述待迁移数据单元的所有被依赖数据量。
切换模块32,用于切换计算集群。
剩余数据迁移模块33,用于迁移剩余的一个或多个待迁移数据单元至目标集群。
其中,本实施例的处理装置还可以包括:排序模块11,用于对源集群中多个待迁移数据单元按照第一被依赖数据量的大小进行排序。其中,多个待迁移数据单元可以属于一个或多个待迁移项目单元,相应地,切换计算集群可以具体为将一个或多个待迁移项目单元中的全部计算任务切换至目标集群。
进一步地,该处理装置还可以包括:第三获取模块14,用于根据待迁移数据单元的历史数据,获取第一被依赖数据量。
本发明实施例的数据迁移的处理装置,通过采用先复制被依赖数据量较多的热数据单元然后进行计算集群的切换,最后再迁移冷数据的方式,能够尽早完成计算集群的切换,从而提高了数据迁移的效率,并且由于在计算集群切换后,产生的新数据会存放在目标集群,因此,也解决了新数据持续产生所带来了影响。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (19)

1.一种数据迁移的优化方法,其特征在于,包括:
按照将待复制数据单元优先复制到目标集群,然后切换计算集群并且然后迁移剩余的一个或多个待迁移数据单元至目标集群的原则,生成多个数据迁移方案,其中,所述待复制数据单元为第一被依赖数据量大于指定基准量的一个或多个待迁移数据单元,并且所述第一被依赖数据量为所述待迁移数据单元的所有被依赖数据量,其中,数据间的依赖关系是由计算任务的输入输出关系而产生的;
针对各个数据迁移方案,计算切换计算集群后集群间的带宽状态数据;
根据所述带宽状态数据选择所述数据迁移方案中对带宽打满的概率低于预设概率阈值的方案作为优化方案,
所述多个待迁移数据单元属于一个或多个待迁移项目单元,所述切换计算集群包括:将所述一个或多个待迁移项目单元中的全部计算任务切换至所述目标集群,
所述计算切换计算集群后集群间的带宽状态数据包括:
获取当前的带宽使用数据,所述当前的带宽使用数据为未进行计算集群切换前的带宽使用数据;
根据一个或多个待复制数据单元的第二被依赖数据量,获取在切换计算集群后而导致的变动的带宽使用数据,其中,所述第二被依赖数据量为所述一个或多个待复制数据单元与所述目标集群之外的其他数据单元之间的被依赖数据量;
将所述当前的带宽使用数据与所述变动的带宽使用数据进行叠加,基于叠加后的带宽使用数据,生成所述带宽状态数据。
2.根据权利要求1所述的优化方法,其特征在于,所述带宽使用数据为预定时间段内的与时间点对应的带宽使用量的采样数据,所述带宽状态数据包括带宽打满的概率。
3.根据权利要求2所述的优化方法,其特征在于,
所述获取当前的带宽使用数据包括:获取当前带宽使用量,并对预定时间段内的当前带宽使用量进行采样,生成第一采样数据,
所述根据一个或多个待复制数据单元的第二被依赖数据量,获取在切换计算集群后而导致的变动的带宽使用数据包括:根据所述待复制数据单元的历史数据,生成所述预定时间段内的与时间点对应的历史带宽使用量的第二采样数据,
所述将所述当前的带宽使用数据与所述变动的带宽使用数据进行叠加,基于叠加后的带宽使用数据,生成所述带宽状态数据包括:
将所述第一采样数据和所述第二采样数据进行叠加,基于叠加后的第三采样数据计算所述带宽打满的概率。
4.根据权利要求3所述的优化方法,其特征在于,所述带宽打满的概率等于所述第三采样数据中带宽超过带宽上限的时长除以所述预定时间段的时长。
5.根据权利要求2所述的优化方法,其特征在于,还包括:根据预设的带宽打满的概率阈值,对所述数据迁移方案的带宽打满的概率进行判断,如果超过所述概率阈值,则剔除该数据迁移方案。
6.根据权利要求1所述的优化方法,其特征在于,在所述生成多个数据迁移方案之前还包括:对源集群中多个待迁移数据单元按照所述第一被依赖数据量的大小进行排序。
7.根据权利要求6所述的优化方法,其特征在于,在对源集群中多个待迁移数据单元按照第一被依赖数据量的大小进行排序之前还包括:
根据待迁移数据单元的历史数据,获取所述第一被依赖数据量。
8.根据权利要求6所述的优化方法,其特征在于,在对源集群中多个待迁移数据单元按照第一被依赖数据量的大小进行排序之前,还包括:
计算全量数据迁移的情况下的集群间的带宽状态数据;
如果所述带宽状态数据不满足预设的带宽可行性条件,则结束所述优化方法。
9.根据权利要求1所述的优化方法,其特征在于,所述按照将待复制数据单元优先复制到目标集群,然后切换计算集群的原则,生成多个数据迁移方案包括:
按照将所述第一被依赖数据量大于指定基准量的一个或多个待迁移数据单元作为待复制数据单元优先复制到目标集群,然后切换计算集群的原则,根据所述待迁移数据单元的排序,以从一次性复制全部待迁移数据单元开始逐个数据单元递减直至仅复制所述第一被依赖数据量最多个的待迁移数据单元为止,生成多个数据迁移方案。
10.根据权利要求1至9任一所述的优化方法,其特征在于,还包括:根据一个或多个待复制数据单元的自身数据量计算在给定复制传输带宽的条件下,复制所述一个或多个待复制数据单元的复制时间;
所述根据所述带宽状态数据选择所述数据迁移方案中对带宽打满的概率低于预设概率阈值的方案作为优化方案包括:根据所述带宽状态数据选择所述数据迁移方案中对带宽打满的概率低于预设概率阈值并且复制时间低于预设时间阈值的方案作为优化方案。
11.一种数据迁移的优化装置,其特征在于,包括:
数据迁移方案生成模块,用于按照待复制数据单元优先复制到目标集群,然后切换计算集群并且然后迁移剩余的一个或多个待迁移数据单元至目标集群的原则,生成多个数据迁移方案,并触发带宽状态数据计算模块对各个数据迁移方案进行计算处理,其中,所述待复制数据单元为第一被依赖数据量大于指定基准量的一个或多个待迁移数据单元,其中,数据间的依赖关系是由计算任务的输入输出关系而产生的;
所述带宽状态数据计算模块,用于计算切换计算集群后集群间的带宽状态数据;
优化选择模块,用于根据所述带宽状态数据选择所述数据迁移方案中对带宽打满的概率低于预设概率阈值的方案作为优化方案,
所述多个待迁移数据单元属于一个或多个待迁移项目单元,所述切换计算集群包括:将所述一个或多个待迁移项目单元中的全部计算任务切换至所述目标集群,
所述带宽状态数据计算模块包括:
第一获取模块,用于获取当前的带宽使用数据,所述当前的带宽使用数据为未进行计算集群切换前的带宽使用数据;
第二获取模块,根据一个或多个待复制数据单元的第二被依赖数据量,获取在切换计算集群后而导致的变动的带宽使用数据,其中,所述第二被依赖数据量为所述一个或多个待复制数据单元与所述目标集群之外的其他数据单元之间的被依赖数据量;
叠加模块,用于将所述当前的带宽使用数据与所述变动的带宽使用数据进行叠加,生成叠加后的带宽使用数据;
生成模块,用于基于叠加后的带宽使用数据,生成所述带宽状态数据。
12.根据权利要求11所述的优化装置,其特征在于,所述带宽使用数据为预定时间段内的与时间点对应的带宽使用量的采样数据,所述带宽状态数据包括带宽打满的概率。
13.根据权利要求12所述的优化装置,其特征在于,
所述获取当前的带宽使用数据包括:获取当前带宽使用量,并对预定时间段内的当前带宽使用量进行采样,生成第一采样数据,
所述根据一个或多个待复制数据单元的第二被依赖数据量,获取在切换计算集群后而导致的变动的带宽使用数据包括:根据所述待复制数据单元的历史数据,生成所述预定时间段内的与时间点对应的历史带宽使用量的第二采样数据,
所述将所述当前的带宽使用数据与所述变动的带宽使用数据进行叠加,生成叠加后的带宽使用数据包括:将所述第一采样数据和所述第二采样数据进行叠加,生成叠加后的第三采样数据;
所述基于叠加后的带宽使用数据,生成所述带宽状态数据包括:基于叠加后的第三采样数据计算所述带宽打满的概率。
14.根据权利要求13所述的优化装置,其特征在于,所述带宽打满的概率等于所述第三采样数据中带宽超过带宽上限的时长除以所述预定时间段的时长。
15.根据权利要求12所述的优化装置,其特征在于,还包括:
数据迁移方案筛选模块,用于根据预设的带宽打满的概率阈值,对所述数据迁移方案的带宽打满的概率进行判断,如果超过所述概率阈值,则剔除该数据迁移方案。
16.根据权利要求11所述的优化装置,其特征在于,还包括:
全量迁移评估模块,用于在进行优化处理前,计算全量数据迁移的情况下的集群间的带宽状态数据,如果所述带宽状态数据不满足预设的带宽可行性条件,则结束对数据迁移方案的优化处理。
17.根据权利要求11至16任一所述的优化装置,其特征在于,还包括:
复制时间计算模块,用于根据一个或多个待复制数据单元的自身数据量计算在给定复制传输带宽的条件下,复制所述一个或多个待复制数据单元的复制时间;
在所述优化选择模块中,所述根据所述带宽状态数据选择所述数据迁移方案中对带宽打满的概率低于预设概率阈值的方案作为优化方案包括:根据所述带宽状态数据选择所述数据迁移方案中对带宽打满的概率低于预设概率阈值并且复制时间低于预设时间阈值的方案作为优化方案。
18.根据权利要求11所述的优化装置,其特征在于,还包括:
排序模块,用于对源集群中多个所述待迁移数据单元按照所述第一被依赖数据量的大小进行排序。
19.根据权利要求18所述的优化装置,其特征在于,还包括:
第三获取模块,用于根据待迁移数据单元的历史数据,获取所述第一被依赖数据量。
CN201610166580.0A 2016-03-22 2016-03-22 数据迁移的优化方法、评估方法及处理方法及装置 Active CN107220263B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN201610166580.0A CN107220263B (zh) 2016-03-22 2016-03-22 数据迁移的优化方法、评估方法及处理方法及装置
TW106104944A TWI740899B (zh) 2016-03-22 2017-02-15 資料遷移的最佳化方法、評估方法及處理方法及裝置
EP17769310.8A EP3435252A4 (en) 2016-03-22 2017-03-09 OPTIMIZATION METHOD, EVALUATION METHOD, PROCESSING METHOD, AND DEVICE FOR DATA MIGRATION
SG11201807494UA SG11201807494UA (en) 2016-03-22 2017-03-09 Optimization method, evaluation method and processing method and apparatuses for data migration
PCT/CN2017/076037 WO2017162033A1 (zh) 2016-03-22 2017-03-09 数据迁移的优化方法、评估方法及处理方法及装置
US16/140,435 US20190026290A1 (en) 2016-03-22 2018-09-24 Optimization method, evaluation method, and processing method and apparatuses for data migration

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610166580.0A CN107220263B (zh) 2016-03-22 2016-03-22 数据迁移的优化方法、评估方法及处理方法及装置

Publications (2)

Publication Number Publication Date
CN107220263A CN107220263A (zh) 2017-09-29
CN107220263B true CN107220263B (zh) 2021-09-03

Family

ID=59899363

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610166580.0A Active CN107220263B (zh) 2016-03-22 2016-03-22 数据迁移的优化方法、评估方法及处理方法及装置

Country Status (6)

Country Link
US (1) US20190026290A1 (zh)
EP (1) EP3435252A4 (zh)
CN (1) CN107220263B (zh)
SG (1) SG11201807494UA (zh)
TW (1) TWI740899B (zh)
WO (1) WO2017162033A1 (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509556B (zh) * 2018-03-22 2021-03-23 上海达梦数据库有限公司 数据迁移方法和装置、服务器、存储介质
CN108989127B (zh) * 2018-08-15 2020-10-27 中科边缘智慧信息科技(苏州)有限公司 多数据中心间用户漫游与随遇接入方法
CN109144791B (zh) * 2018-09-30 2020-12-22 北京金山云网络技术有限公司 数据转存方法、装置和数据管理服务器
US10915455B2 (en) 2018-12-04 2021-02-09 Netflix, Inc. Cache warming: agility for a stateful service
CN110045924B (zh) * 2019-03-01 2022-02-11 平安科技(深圳)有限公司 分级存储方法、装置、电子设备及计算机可读存储介质
US11797729B2 (en) * 2019-06-19 2023-10-24 Vmware, Inc. Hyper-converged infrastructure (HCI) operation predictor
CN110569233A (zh) * 2019-06-30 2019-12-13 华为技术有限公司 一种热点数据的管理方法、装置及系统
CN110597609A (zh) * 2019-09-17 2019-12-20 深圳市及响科技有限公司 一种集群迁移与自动恢复方法及系统
TWI753329B (zh) 2019-12-06 2022-01-21 財團法人工業技術研究院 具風險評估之最佳取樣參數搜尋系統、方法與圖案化使用者介面
CN111258755A (zh) * 2020-01-09 2020-06-09 阿里巴巴集团控股有限公司 数据迁移及信息确定方法、数据处理系统、电子设备
CN111274230B (zh) * 2020-03-26 2024-03-08 北京奇艺世纪科技有限公司 数据迁移的管理方法、装置、设备及存储介质
CN116107993B (zh) * 2022-12-26 2023-08-29 北京万里开源软件有限公司 一种MySQL协议数据库中数据迁移评估方法及系统
KR102543749B1 (ko) * 2023-02-17 2023-06-14 주식회사 헤카톤에이아이 데이터 레이크 이관을 위한 인공지능 기반 자동화 시스템
CN116614379B (zh) * 2023-07-18 2023-10-10 中移(苏州)软件技术有限公司 迁移服务的带宽调整方法、装置及相关设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102722381A (zh) * 2011-03-25 2012-10-10 微软公司 优化升级任务的技术
CN103856548A (zh) * 2012-12-07 2014-06-11 华为技术有限公司 动态资源调度方法和动态资源调度器
CN103957261A (zh) * 2014-05-06 2014-07-30 湖南体运通信息技术有限公司 一种基于能耗优化的云计算资源分配的方法
CN104869140A (zh) * 2014-02-25 2015-08-26 阿里巴巴集团控股有限公司 多集群系统和控制多集群系统的数据存储的方法
CN105245405A (zh) * 2015-10-27 2016-01-13 浙江大学软件学院(宁波)管理中心(宁波软件教育中心) 一种面向数据交换的云迁移优化评估方法
CN105324769A (zh) * 2013-07-09 2016-02-10 甲骨文国际公司 用于产生用于自动数据库迁移的脚本集的解决方案

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7080221B1 (en) * 2003-04-23 2006-07-18 Emc Corporation Method and apparatus for managing migration of data in a clustered computer system environment
US7613738B2 (en) * 2007-01-16 2009-11-03 Microsoft Corporation FAT directory structure for use in transaction safe file system
US7552152B2 (en) * 2007-03-05 2009-06-23 International Business Machines Corporation Risk-modulated proactive data migration for maximizing utility in storage systems
US8812799B2 (en) * 2009-12-11 2014-08-19 International Business Machines Corporation Cluster families for cluster selection and cooperative replication
US9141919B2 (en) * 2010-02-26 2015-09-22 International Business Machines Corporation System and method for object migration using waves
WO2012083679A1 (zh) * 2011-07-13 2012-06-28 华为技术有限公司 一种数据迁移方法、数据迁移装置及数据迁移系统
US8694644B2 (en) * 2011-09-29 2014-04-08 Nec Laboratories America, Inc. Network-aware coordination of virtual machine migrations in enterprise data centers and clouds
US9207873B2 (en) * 2013-12-19 2015-12-08 Netapp, Inc. Parallel migration of data objects to clustered storage
CN105227374B (zh) * 2015-10-23 2018-05-29 浪潮(北京)电子信息产业有限公司 一种集群应用的故障迁移方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102722381A (zh) * 2011-03-25 2012-10-10 微软公司 优化升级任务的技术
CN103856548A (zh) * 2012-12-07 2014-06-11 华为技术有限公司 动态资源调度方法和动态资源调度器
CN105324769A (zh) * 2013-07-09 2016-02-10 甲骨文国际公司 用于产生用于自动数据库迁移的脚本集的解决方案
CN104869140A (zh) * 2014-02-25 2015-08-26 阿里巴巴集团控股有限公司 多集群系统和控制多集群系统的数据存储的方法
CN103957261A (zh) * 2014-05-06 2014-07-30 湖南体运通信息技术有限公司 一种基于能耗优化的云计算资源分配的方法
CN105245405A (zh) * 2015-10-27 2016-01-13 浙江大学软件学院(宁波)管理中心(宁波软件教育中心) 一种面向数据交换的云迁移优化评估方法

Also Published As

Publication number Publication date
WO2017162033A1 (zh) 2017-09-28
EP3435252A1 (en) 2019-01-30
EP3435252A4 (en) 2019-01-30
TW201734752A (zh) 2017-10-01
TWI740899B (zh) 2021-10-01
CN107220263A (zh) 2017-09-29
SG11201807494UA (en) 2018-10-30
US20190026290A1 (en) 2019-01-24

Similar Documents

Publication Publication Date Title
CN107220263B (zh) 数据迁移的优化方法、评估方法及处理方法及装置
CN106886485B (zh) 系统容量分析预测方法及装置
CN105912479B (zh) 一种并发数据的缓存方法及装置
CN103139302A (zh) 考虑负载均衡的实时副本调度方法
CN110289994B (zh) 一种集群容量调整方法及装置
CN102521014B (zh) 虚拟机的部署方法及装置
EP3285187B1 (en) Optimized merge-sorting of data retrieved from parallel storage units
CN104268003A (zh) 一种适用于虚拟机动态迁移的内存状态迁移方法
CN113391913A (zh) 一种基于预测的分布式调度方法和装置
CN104424118B (zh) 热点文件自适应拷贝方法及系统
WO2021194673A1 (en) Servicing queries during data ingress
CN107977167A (zh) 一种基于纠删码的分布式存储系统的退化读优化方法
CN109189552A (zh) 虚拟网络功能扩容与缩容方法及系统
CN104144127A (zh) 负载均衡方法和负载均衡器
CN109902859A (zh) 基于大数据和机器学习算法的排队高峰时段预估方法
CN111443867A (zh) 一种数据存储方法、装置、设备及存储介质
Li et al. Improving the shuffle of hadoop MapReduce
US20220067577A1 (en) Systems and methods for intelligent data shuffling for high-performance distributed machine learning training
CN104917788A (zh) 一种数据存储方法及装置
CN113596153A (zh) 一种数据均衡方法及系统
CN104239520B (zh) 一种基于历史信息的hdfs数据块放置策略
CN117472652A (zh) 一种云计算运维平台的数据备份方法、装置及系统
CN102546235A (zh) 云计算环境下面向web应用的性能诊断方法和系统
CN116226056A (zh) 一种Hadoop平台文件存储方法、装置及设备
Guo et al. Handling data skew at reduce stage in Spark by ReducePartition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant