CN109814812B - 基于内容碎片化放置的快速数据转移方法 - Google Patents

基于内容碎片化放置的快速数据转移方法 Download PDF

Info

Publication number
CN109814812B
CN109814812B CN201910110786.5A CN201910110786A CN109814812B CN 109814812 B CN109814812 B CN 109814812B CN 201910110786 A CN201910110786 A CN 201910110786A CN 109814812 B CN109814812 B CN 109814812B
Authority
CN
China
Prior art keywords
content
data
transfer
transferred
placement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910110786.5A
Other languages
English (en)
Other versions
CN109814812A (zh
Inventor
沈纲祥
李泳成
揭水平
房洪莲
赵玉立
张伟
缪鹏
缪爱林
汤俊勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongtian Broadband Technology Co Ltd
Original Assignee
Zhongtian Broadband Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongtian Broadband Technology Co Ltd filed Critical Zhongtian Broadband Technology Co Ltd
Priority to CN201910110786.5A priority Critical patent/CN109814812B/zh
Publication of CN109814812A publication Critical patent/CN109814812A/zh
Application granted granted Critical
Publication of CN109814812B publication Critical patent/CN109814812B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种基于内容碎片化放置的快速数据转移方法,包含以下步骤:内容选择,将需要转移的内容添加到集合,然后按照重要性进行排序;将CEva中内容的足够数量的数据块快速转移到安全区域内的数据中心中。本发明通过对基于内容碎片化放置的数据快速转移方法的研究,本发明可以有效提高其灾前数据转移的高效性,有效提高了数据中心网络面对大范围灾难的内容恢复的可能性,避免了大量数据的丢失造成的严重损失。

Description

基于内容碎片化放置的快速数据转移方法
技术领域
本发明涉及一种数据转移方法,特别是一种基于内容碎片化放置的快速数据转移方法。
背景技术
目前,云服务提供商(CSP)通常建立或租用分布式云来互连数据中心(DC),并向用户提供云应用(如云数据存储、视频流等)。这些数据中心需要存储海量的数据以服务数以百万计的用户。
为避免或减少灾难造成的数据丢失,目前的研究主要集中在数据中心网络中内容/服务的放置策略(CR策略)上。最常用的方法是内容/服务复制策略。其主要的方式是增加内容/服务的备份,并在网络中多个数据中心之间存储,以减少数据丢失的概率。此外,最近针对具有较低数据冗余度(通常小于100%)的内容放置,有人提出了一种基于内容碎片化的放置方法(CF策略)。该方法不会为每个内容生成多个副本,而是将数据编码为多个数据块(包含数据块和校验数据块),并将这些数据块分发给各个数据中心。该方案可以有效减少数据冗余度,从而节约宝贵的存储资源。
然而,在大规模灾难的情况下,例如2011年的日本地震,某些内容的所有副本(对于CR方案)或大多数块(对于CF方案)可能被损坏,导致永久性的数据丢失和服务中断。为了避免这种情况,我们需要研究有效的策略,将数据副本/块从位于灾难区域的数据中心转移到安全的数据中心中。由于这类灾前的数据转移,涉及到大量的数据,且存在时间限制,所以是一个重要且具有挑战性的问题。目前,已有的研究只针对基于CR的内容放置策略,提出了快速的数据转移策略,但是对于基于最新的CF内容放置策略,并没有一个高效的灾前数据转移策略。
发明内容
本发明所要解决的技术问题是提供一种基于内容碎片化放置的快速数据转移方法,实现最小化的数据转移时间。
为解决上述技术问题,本发明所采用的技术方案是:
一种基于内容碎片化放置的快速数据转移方法,其特征在于包含以下步骤:
步骤一:内容选择,将需要转移的内容添加到集合,然后按照重要性进行排序;
步骤二:将CEva中内容的足够数量的数据块快速转移到安全区域内的数据中心中。
进一步地,所述步骤一具体为
1.1在灾难发生前,找到即将由于灾难而会发生丢失的所有内容;
1.2对于其中某一个内容,若受影响的数据中心中存储了其超过 r个数据块,则将属于该内容的数据块转移到安全的数据中心中,该内容为需要转移的内容;其中r为能够恢复某一内容的最少数据块的数量;
1.3将需要转移的内容添加到集合CEva
1.4根据列表中每个内容的重要性αc,按αc降序对CEva进行排序。
进一步地,所述步骤二具体为
2.1遍历集合CEva中所有的内容c,当|Gc|>r时,即内容c无法进行恢复,存在丢失的可能,则执行步骤1)
1)遍历内容c的所有在灾难区域数据块集合Gc,对其中每一个数据块k执行以下操作
A、找到当前所有安全区域的数据中心,对于每一个数据中心p,计算转移结束时间
Figure GDA0003389966710000031
B、选择所有数据块中转移时间最短的数据块
Figure GDA0003389966710000032
2)通过计算每个数据块k的转移时间,计算出每个内容c的最短转移时间,以及需要转移的数据块k*和路由p*;按要求进行数据转移,从Gc中移除k*,并将其加入集合Ec
2.2将所有的内容转移的结束时间中最大的时间作为整个转移过程的所需时间
Figure GDA0003389966710000033
本发明与现有技术相比,具有以下优点和效果:本发明通过对基于内容碎片化放置的数据快速转移方法的研究,本发明可以有效提高其灾前数据转移的高效性,有效提高了数据中心网络面对大范围灾难的内容恢复的可能性,避免了大量数据的丢失造成的严重损失。
附图说明
图1是本发明的一种基于内容碎片化放置的快速数据转移方法的内容选择示意图。
图2是本发明的实施例的一种CF内容放置策略的数据中心网络示意图。
图3是本发明的实施例的两种网络节点示意图。
图4是本发明的实施例的算法模型在转移时间性能比较示意图。
图5是本发明的实施例的转移数据总量示意图。
图6是本发明的实施例的转移时间示意图。
具体实施方式
下面通过实施例对本发明作进一步的详细说明,以下实施例是对本发明的解释而本发明并不局限于以下实施例。
本发明的一种基于内容碎片化放置的快速数据转移方法,其特征在于包含以下步骤:
步骤一:内容选择,将需要转移的内容添加到集合,然后按照重要性进行排序;
1.1在灾难发生前,找到即将由于灾难而会发生丢失的所有内容;
1.2对于其中某一个内容,若受影响的数据中心中存储了其超过 r个数据块,则将属于该内容的数据块转移到安全的数据中心中,该内容为需要转移的内容;其中r为能够恢复某一内容的最少数据块的数量;
如图2所示,展示了一个采用CF内容放置策略的数据中心网络,在灾难发生前进行数据转移的例子。在示例中,我们采用了RS(5,2) 对数据进行编码编码。内容1被分成五个数据块,此外,添加了两个额外的奇偶校验块用于纠错,这七个块随机存储在节点B、C、E和F的数据中心中。其中,节点B、C和F的数据中心分别存储两个数据块,节点E的数据中心存储一个数据块。假设,区域M发生了大范围的灾难,即将影响节点B和C处的两个数据中心。通过统计,节点B和C处两个数据中心总共存储了内容1的4个数据块,按RS (5,2)的编码方式,至少需要5个数据块才能完全恢复该数据。因此,至少需要从处在灾难区域的数据中心转移出至少2个数据块。在该例子中,我们将需要从4个数据块中选择2个进行转移,并需要为这些数据块选择目的节点和转移路径。
1.3将需要转移的内容添加到集合CEva
对于集合CEva的建立,如图1所示,假设一个数据中心网络存储了四个内容C1、C2、C3和C4。四个内容具有不同的重要性。基于 RS(2,2)的CF内容放置策略,我们将每个内容分为2个内容数据块和2个奇偶校验数据块,并将这些数据块随机存储在不同的数据中心中。在灾难发生之前,我们发现C1、C2和C4在受影响的数据中心(C和B)都存储了2个数据块以上。因此,我们需要将C1、C2 和C4添加到内容集CEva。然后,按重要性度量对C_Eva进行降序排序,得到CEva={C1,C4,C2}。
1.4根据列表中每个内容的重要性αc,按αc降序对CEva进行排序。
步骤二:将CEva中内容的足够数量的数据块快速转移到安全区域内的数据中心中。
2.1遍历集合CEva中所有的内容c,当|Gc|>r时,即内容c无法进行恢复,存在丢失的可能,则执行步骤1)
1)遍历内容c的所有在灾难区域数据块集合Gc,对其中每一个数据块k执行以下操作
A、找到当前所有安全区域的数据中心,对于每一个数据中心p,计算转移结束时间
Figure GDA0003389966710000061
B、选择所有数据块中转移时间最短的数据块
Figure GDA0003389966710000062
2)通过计算每个数据块k的转移时间,计算出每个内容c的最短转移时间,以及需要转移的数据块k*和路由p*;按要求进行数据转移,从Gc中移除k*,并将其加入集合Ec
2.2将所有的内容转移的结束时间中最大的时间作为整个转移过程的所需时间
Figure GDA0003389966710000063
如图3所示,为了评估所提出的基于CF内容放置策略的快速数据转移算法的性能,我们考虑两个测试网络。包括(1)具有六个分布式数据中心的六节点八链路(n6s8)网络和(2)具有八个分布式数据中心的24节点43链路美国骨干网(USNET)。
假设灾难将分别影响n6s8网络中节点1和节点2上的数据中心以及USNET网络中节点6、9和12的数据中心。此外,我们假设每个数据的存储容量均匀地分布在10T字节到100T字节的范围内,平均占用率为40%。此外,在每个链路上,数据传输容量范围从500Gb/s 到1Tb/s,对于常规DC间通信,其利用率为30%。总共考虑100个内容,其中假定每个内容项的大小遵循从200G字节到500G字节范围的均匀分布。注意,这里每个内容项都由许多较小的内容项聚合而成。我们还为每个内容项分配重要性级别从1到10。对于CF方案,每个内容项的分割块随机分布在多个数据中心之间。对于CR方案,假设所有内容项具有相同数量的副本(x=2)(即,一个原始内容和一个副本),并且它们中的每一个在DC之间随机分布,但是不允许存储在公共DC上。本发明也将结果与建立的线性规划模型(ILP)进行了比较。
1、转移时间
图4展示了在在灾难发生前,为受影响的内容能够完全恢复,进行快速数据转移的结果。在图中我们比较了整数线性规划(ILP)模型和基于CF内容放置策略的快速数据转移算法的转移时间,其中采用了RS(4,2)编码方案。根据结果,我们可以看到,随着内容项的增加,ILP模型(即“ILP_n6s8”和“ILP_USNET”)和基于CF内容放置策略的快速数据转移算法(即“CF-RDA_n6s8”和“CF-RDA_USNET”) 的转移时间都增加。这是合理的,因为大量的内容需要转移时,其所需时间也将更长。此外,我们发现ILP模型所需的转移时间最短,而基于CF内容放置策略的快速数据转移算法与ILP模型的结果非常接近。最后,对比n6s8和USNET两个网例的结果,我们发现,无论是 ILP模型还是启发式算法,USNET网络总是需要比n6s8更少的转移时间。这是因为USNET比n6s8具有更高的平均节点度和更多处于安全区域的数据中心,这有助于在灾难发生之前为需要转移的数据块提供更多的转移路径。
2、基于CF内容放置策略的快速转移算法与基于CR的比较
通过对基于CF内容放置策略的快速转移算法和基于CR内容放置策略的快速转移算法进行仿真,比较了基于CF和CR两种内容放置方案在快速数据转移时的转移数据量和转移时间方面的性能。图5 展示了USNET网络的转移数据量。对于基于CR内容放置策略,我们将每个内容的副本数量固定为2。对于CF内容放置策略,我们考虑了采用Reed-Solomon(RS)编码方案,并采用了不同的配置方法。具体地,我们将r设置为常数(等于2),并将k(由图例所示)从2变为4。这表明随着RS编码的冗余度随着k的增加而减少。
从图6的结果中可以看出,随着内容数量的增加,基于两种内容放置方案的快速转移算法所需的转移时间都在增加。此外,有趣的是,对基于CF内容放置方案的快速转移算法,较大的k表示有更多的数据要被转移。这是合理的,因为较大的k意味着需要更多的数据块进行转移以恢复受影响的内容。最后,比较基于CF和CR的内容放置方案,我们发现基于CF且采用RS(2,2)编码方式的方案所需转移的数据明显最少,最高降幅达34%。由此可见,CF的内容放置策略的高效性。
除此之外,我们还评估了两种内容放置方案所需的转移时间。我们发现,与基于CR的内容放置方案相比,在采用RS(2,2)和RS(3, 2)编码方式下,本发明提出的基于CF内容放置策略的快速数据转移算法所需的转移时间总是最短的,这再次证明了本发明提出的算法的性能。
本发明与现有技术相比,具有以下优点和效果:本发明通过对基于内容碎片化的放置方案的数据快速转移方法的研究,本发明可以有效提高其灾前数据转移的高效性,有效提高了数据中心网络面对大范围灾难的内容恢复的可能性,避免了大量数据的丢失造成的严重损失。
本说明书中所描述的以上内容仅仅是对本发明所作的举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种修改或补充或采用类似的方式替代,只要不偏离本发明说明书的内容或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。

Claims (1)

1.一种基于内容碎片化放置的快速数据转移方法,其特征在于包含以下步骤:
步骤一:内容选择,将需要转移的内容添加到集合,然后按照重要性进行排序;
所述步骤一具体为
1.1在灾难发生前,找到即将由于灾难而会发生丢失的所有内容;
1.2对于其中某一个内容,若受影响的数据中心中存储了其超过r个数据块,则将属于该内容的数据块转移到安全的数据中心中,该内容为需要转移的内容;其中r为能够恢复某一内容的最少数据块的数量;
1.3将需要转移的内容添加到集合CEva
1.4根据列表中每个内容的重要性αc,按αc降序对CEva进行排序;
步骤二:将CEva中内容的足够数量的数据块快速转移到安全区域内的数据中心中;
所述步骤二具体为
2.1遍历集合CEva中所有的内容c,当|Gc|>r时,即内容c无法进行恢复,存在丢失的可能,则执行步骤1)
1)遍历内容c的所有在灾难区域数据块集合Gc,对其中每一个数据块k执行以下操作
A、找到当前所有安全区域的数据中心,对于每一个数据中心p,计算转移结束时间
Figure FDA0003382734840000011
B、选择所有数据块中转移时间最短的数据块
Figure FDA0003382734840000021
2)通过计算每个数据块k的转移时间,计算出每个内容c的最短转移时间,以及需要转移的数据块k*和路由p*;按要求进行数据转移,从Gc中移除k*,并将其加入集合Ec
2.2将所有的内容转移的结束时间中最大的时间作为整个转移过程的所需时间
Figure FDA0003382734840000022
CN201910110786.5A 2019-02-12 2019-02-12 基于内容碎片化放置的快速数据转移方法 Active CN109814812B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910110786.5A CN109814812B (zh) 2019-02-12 2019-02-12 基于内容碎片化放置的快速数据转移方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910110786.5A CN109814812B (zh) 2019-02-12 2019-02-12 基于内容碎片化放置的快速数据转移方法

Publications (2)

Publication Number Publication Date
CN109814812A CN109814812A (zh) 2019-05-28
CN109814812B true CN109814812B (zh) 2022-03-01

Family

ID=66606333

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910110786.5A Active CN109814812B (zh) 2019-02-12 2019-02-12 基于内容碎片化放置的快速数据转移方法

Country Status (1)

Country Link
CN (1) CN109814812B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102393828A (zh) * 2011-07-13 2012-03-28 北京邮电大学 一种信息系统灾难恢复点目标的计算方法
CN102902600A (zh) * 2011-09-02 2013-01-30 微软公司 有效的应用感知的灾难恢复
CN107154945A (zh) * 2017-05-31 2017-09-12 中南大学 一种基于纠删码的多云碎片化安全存储方法及系统
CN108418858A (zh) * 2018-01-23 2018-08-17 南京邮电大学 一种面向Geo-distributed云存储的数据副本放置方法
CN109144777A (zh) * 2018-07-27 2019-01-04 北京友普信息技术有限公司 一种基于Docker的异构虚拟计算灾备的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10067711B2 (en) * 2015-11-01 2018-09-04 International Business Machines Corporation Data transfer between data storage libraries

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102393828A (zh) * 2011-07-13 2012-03-28 北京邮电大学 一种信息系统灾难恢复点目标的计算方法
CN102902600A (zh) * 2011-09-02 2013-01-30 微软公司 有效的应用感知的灾难恢复
CN107154945A (zh) * 2017-05-31 2017-09-12 中南大学 一种基于纠删码的多云碎片化安全存储方法及系统
CN108418858A (zh) * 2018-01-23 2018-08-17 南京邮电大学 一种面向Geo-distributed云存储的数据副本放置方法
CN109144777A (zh) * 2018-07-27 2019-01-04 北京友普信息技术有限公司 一种基于Docker的异构虚拟计算灾备的方法

Also Published As

Publication number Publication date
CN109814812A (zh) 2019-05-28

Similar Documents

Publication Publication Date Title
US10169129B2 (en) Dispersed B-tree directory trees
US20190087109A1 (en) Applying multiple hash functions to generate multiple masked keys in a secure slice implementation
Rashmi et al. Explicit construction of optimal exact regenerating codes for distributed storage
EP1999615B1 (en) Reliable, efficient peer-to-peer storage
Li et al. Tree-structured data regeneration in distributed storage systems with regenerating codes
CN109491835B (zh) 一种基于动态分组码的数据容错方法
US10142257B2 (en) Dynamic scaling of redundancy elimination middleboxes
US11500725B2 (en) Methods for data recovery of a distributed storage system and storage medium thereof
Wang et al. MFR: Multi-loss flexible recovery in distributed storage systems
WO2011033174A1 (en) Method and a storage server for data redundancy
Tebbi et al. A code design framework for multi-rack distributed storage
CN103650462B (zh) 基于同态的自修复码的编码、解码和数据修复方法及其存储系统
CN109889440A (zh) 一种基于最大生成树的纠删码失效节点重构路径选择方法
CN112130772A (zh) 一种基于稀疏随机纠删码技术的区块链安全存储方法
CN113258936B (zh) 一种基于循环移位的双重编码的构造方法
CN109814812B (zh) 基于内容碎片化放置的快速数据转移方法
JP5583851B2 (ja) 伝送システム及び伝送方法
WO2014059651A1 (zh) 一种射影自修复码的编码、数据重构及修复方法
CN115118737B (zh) 一种基于节点分组的联盟链区块存储方法
CN108304264A (zh) 一种基于spark流式计算的纠删码归档方法
JP6671708B2 (ja) バックアップリストアシステム及びバックアップリストア方法
CN113258938B (zh) 一种单节点故障快速修复纠删码的构造方法
Wei et al. expanCodes: Tailored LDPC codes for big data storage
CN110781025B (zh) 基于完全图的对称部分重复码构造及故障节点修复方法
Miyake et al. Network coding and its application to content centric networking

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant