CN105357257A - 一种跨数据中心的关联云数据部署方法 - Google Patents

一种跨数据中心的关联云数据部署方法 Download PDF

Info

Publication number
CN105357257A
CN105357257A CN201510628675.5A CN201510628675A CN105357257A CN 105357257 A CN105357257 A CN 105357257A CN 201510628675 A CN201510628675 A CN 201510628675A CN 105357257 A CN105357257 A CN 105357257A
Authority
CN
China
Prior art keywords
data
data center
center
subset
cloud
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510628675.5A
Other languages
English (en)
Inventor
周天和
卢晓飞
蔡荣
张元元
徐赟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HANGZHOU TIANKUAN TECHNOLOGY Co Ltd
Original Assignee
HANGZHOU TIANKUAN TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HANGZHOU TIANKUAN TECHNOLOGY Co Ltd filed Critical HANGZHOU TIANKUAN TECHNOLOGY Co Ltd
Priority to CN201510628675.5A priority Critical patent/CN105357257A/zh
Publication of CN105357257A publication Critical patent/CN105357257A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • H04L67/1061Peer-to-peer [P2P] networks using node-based peer discovery mechanisms
    • H04L67/1063Discovery through centralising entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • H04L67/1061Peer-to-peer [P2P] networks using node-based peer discovery mechanisms
    • H04L67/1065Discovery involving distributed pre-established resource-based relationships among peers, e.g. based on distributed hash tables [DHT] 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • H04L67/1074Peer-to-peer [P2P] networks for supporting data block transmission mechanisms

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种跨数据中心的关联云数据部署方法,首先结合大规模云数据间的关联关系和数据中心的存储空间信息,对云数据进行限定规模的聚类划分,将关联紧密的云数据划分到相同数据子集;然后在数据放置阶段,结合数据集间传输量大小和数据中心间彼此的带宽资源,决定数据集部署位置。有益效果在于:(1)本方法解决了跨数据中心的数据传输影响计算任务执行的难题;(2)本方法在满足数据中心存储能力约束的前提下,将依赖度高的数据尽可能部署到相同或彼此间网络带宽资源充沛的数据中心上。

Description

一种跨数据中心的关联云数据部署方法
技术领域
本发明涉及数据中心领域,尤其涉及一种跨数据中心的关联云数据部署方法。
背景技术
为提高数据密集型计算任务在云平台上的执行效率,制定合理的数据部署策略是管理者所须解决的关键问题之一。当前主流分布式数据管理系统均采用一致性哈希策略对数据进行划分,并基于哈希结果对数据随机部署。该策略忽略了数据间的关联关系,导致大量不必要的数据传输任务。针对科学计算任务的跨数据中心数据部署策略,采用聚类思想将关联紧密的数据划分到相同数据子集,并结合数据中心存储能力对其进行部署。但该策略忽略了数据中心带宽资源的差异,无法降低跨数据中心传输时间开销。采用遗传算法对云数据的跨数据中心部署策略进行优化,但由于结果很大程度上取决于交叉变异参数的选择,导致算法的适用性较差。
发明内容
本发明为克服上述的不足之处,目的在于提供一种跨数据中心的关联云数据部署方法,从数据部署的角度出发,提出基于数据关联依赖关系的跨数据中心云数据部署算法,在满足数据中心存储能力约束的前提下,将依赖度高的数据尽可能部署到相同或彼此间网络带宽资源充沛的数据中心上。本方法解决了跨数据中心的数据传输影响计算任务执行的难题。
本发明是通过以下技术方案达到上述目的:一种跨数据中心的关联云数据部署方法,包括如下步骤:
(1)基于云数据间的关联关系与数据中心的存储空间信息对云数据进行聚类划分,得到数据子集;
(2)结合数据子集之间的传输量大小和数据中心间的带宽资源,完成数据子集的部署。
作为优选,所述步骤(1)采用限定规模的云数据划分算法完成聚类划分,得到数据集,步骤如下:
(a)依据云数据间关联依赖关系的强弱,将云数据划分成若干数据子集,并部署到同一数据中心上;
(b)根据数据中心的存储空间大小对其进行降序排序;
(c)在该排序基础上,对有固定部署限制的数据,根据其部署数据中心的存储能力决定相应的数据子集规模;根据关联紧密程度和数据大小,从固定部署到相同位置的数据集合和无部署位置限制的数据集合中选取该数据子集的成员;
(d)重复执行步骤(c)直至固定部署需求集合中的全部数据被划分完毕;
(e)对于无部署位置限制的数据,根据当前单个数据中心的最大存储能力决定部署到该数据中心的数据子集规模;并根据数据间的关联紧密程度和数据大小,从数据集合中选取该数据子集的成员;
(f)重复执行步骤(e)直至无位置限制集合中的全部数据被划分完毕;至此,全部数据均被划分到对应的数据子集中。
作为优选,所述步骤(2)完成数据集的部署的步骤如下:
(i)当数据子集有固定部署要求时,将该数据子集部署到其要求的数据中心上;
(ii)当数据子集没有固定部署要求时,且数据子集面对多可部署的数据中心时,则对数据中心的网络带宽资源进行排序比较,将数据子集部署到带宽资源充足的数据中心上。
作为优选,所述数据中心的网络带宽资源的大小是基于图论中节点度的概念,将每个数据中心与其他数据中心间的通信带宽资源量相加得到。
作为优选,所述固定部署限制的数据与无部署位置限制的数据的定义如下:设D={d1,d2,...,dm}为全部数据组成的集合,将数据集分为固定数据集Dfix和非固定数据集Dunfix,其中:Dfix中的数据必须部署到固定的数据中心;而Dunfix中的数据则对其部署数据中心没有限制;D中每个数据由一个三元组di=<s,l,f>表示,其中:s(di)表示数据di的大小;l(di)表示数据所部署的数据中心;f(di)为true则表示di是固定数据;反之,f(di)为false则表示di是非固定数据。
作为优选,所述得到约束条件的过程如下:
(A)设定各数据中心存储空间信息为C,带宽信息为B,数据密集型计算任务请求集合为R,执行任务请求时所需的数据集Di
(B)对于跨数据中心的云数据部署问题引入三个离散变量进行建模,三个离散变量的定义如下:
(C)得到模型表达式为基于模型表达式得到约束条件。
作为优选,所述的约束条件包括6个,如下所示:
1)
2)
3)
4)
5)
6)
作为优选,所述步骤(A)的数据密集型计算任务请求集合为R={r1,r2,...,rk},其中对于ri∈R,则有Di={di1,di2,...},用于表示计算任务请求ri执行时所需数据的集合。
本发明的有益效果在于:(1)本方法解决了跨数据中心的数据传输影响计算任务执行的难题;(2)本方法在满足数据中心存储能力约束的前提下,将依赖度高的数据尽可能部署到相同或彼此间网络带宽资源充沛的数据中心上。
具体实施方式
下面结合具体实施例对本发明进行进一步描述,但本发明的保护范围并不仅限于此:
实施例:一种跨数据中心的关联云数据部署方法,具体如下:
本实施例中设V={v1,v2,...,vn}为各数据中心组成的集合,其中vi∈V为编号为i的数据中心。C(vi)为数据中心vi的存储空间大小。V中n个数据中心间的网络带宽资源则通过带宽矩阵B=[bij]n×n表示,对于i,j=1,2,...,n且i≠j,带宽矩阵B中元素bi,j表示从数据中心vi到vj的网络带宽值;当i=j时,bi,j值为无穷.由于数据中心间网络带宽资源通常由云平台所有者按需配置,因此假设其网络带宽值提前可知,并且忽略其实时波动.设D={d1,d2,...,dm}为全部数据组成的集合。由于某些数据具有私有性和产权性,或者某些数据须特定数据中心的专有设备才能处理,因此将数据集分为固定数据集Dfix和非固定数据集Dunfix,其中:Dfix中的数据必须部署到固定的数据中心;而Dunfix中的数据则对其部署数据中心没有限制.D中每个数据由一个三元组di=<s,l,f>表示,其中:s(di)表示数据di的大小;l(di)表示数据所部署的数据中心;f(di)为true表示di是固定数据,其指定存放的数据中心为l(di),反之f(di)为false则表示di是非固定数据。
设R={r1,r2,...,rk}为数据密集型计算任务的集合,其中对于ri∈R,有Di={di1,di2,...},表示计算任务请求ri执行时所需数据的集合.由于云平台上计算任务的复杂性,因此每个任务所须要处理的数据都不完全相同,同时每个数据都可能被多个不同任务处理。当某些数据须同时被多个计算任务处理时,这些数据间关联依赖关系便较强;反之,数据间关联依赖关系便较弱。
在本发明的实施例中,给定云环境下各数据中心存储空间信息C和带宽信息B;给定数据密集型计算任务请求集合R,以及每个计算任务ri执行时所需的数据集Di。跨数据中心大规模云数据部署问题为:如何设计跨数据中心数据部署策略,通过为每个数据选择合理的数据中心进行部署,在满足数据中心存储空间约束和数据固定存放位置约束的前提下,降低数据部署后的跨数据中心传输时间开销.为对跨数据中心的云数据优化部署问题进行建模,引入三个离散变量来描述跨数据中心云数据部署策略,其定义分别如下:
在此基础上,使用整数规划技术对该问题进行建模,其整数规划模型如下:
该模型目标(1)为通过计算合理的数据部署策略,最小化全部数据密集型任务执行时的跨数据中心数据传输时间开销。需要满足的约束包括:约束(2)保证对数据集D中任意数据d,都必须被部署到某个数据中心上;约束(3)保证对有固定部署位置限制的数据dfix,被部署到其要求的数据中心l(dfix)上;约束(4)保证对任意数据中心i∈V,在其上部署的数据总大小满足其存储能力C(i)的限制;约束(5)保证对任意数据中心i∈V,当数据d未部署到i时,i可从其他数据中心j获得数据d;约束(6)保证对任意数据中心i,j∈V,仅当数据d部署到数据中心j时,i才可从j获得数据d;约束(7)限定了xd,i和zr,i的取值范围。
在本发明的实施例中,设计了启发式数据部署算法,在多项式时间复杂度下求得较优的部署策略。所设计的算法分两个阶段:首先结合大规模云数据间的关联关系和数据中心的存储空间信息,对云数据进行限定规模的聚类划分,将关联紧密的云数据划分到相同数据子集;然后在数据放置阶段,结合数据集间传输量大小和数据中心间彼此的带宽资源,决定数据集部署位置;具体如下
依据数据间关联依赖关系的强弱对其进行划分,使关联强的数据被划分到相同数据子集并部署到同一数据中心上。但数据中心存储空间有限,当对数据划分时须考虑数据子集规模是否超出单个数据中心的最大存储能力。因此先根据数据中心存储空间大小对其进行降序排序。在该排序基础上,限定规模的数据划分算法流程如下。首先对有固定部署限制的数据,根据其部署数据中心的存储能力决定相应的数据子集规模;根据关联紧密程度和数据大小,从须固定部署到相同位置的数据集合和无部署位置限制的数据集合中选取该数据子集的成员。重复上述过程直至固定部署需求集合中的全部数据被划分完毕。其次对于无部署位置限制的数据,根据当前单个数据中心的最大存储能力决定部署到该数据中心的数据子集规模;并根据数据间的关联紧密程度和数据大小,从数据集合中选取该数据子集的成员。重复上述过程直至无位置限制集合中的全部数据被划分完毕。至此,全部数据均被划分到对应的数据子集中。具体算法如下:
输入:计算任务集合R,数据集合D,数据中心集合V
输出:云数据划分子集的集合P={P1,P2,…}根据数据中心存储空间大小降序排列,得到Vsort
FOR(Dfix中每个数据dfix)
intsubSetSize=C(l(dfix));Pi设为空;
GetPartition(R,D,Pi,subSetSize,fix-DataList);
P=P∪Pi;D=D-Pi
FOR(Vsort中每个数据中心vi)
intsubSetSize=C(vi);Pi设为空;
GetPartition(R,D,Pi,subSetSize,null);
P=P∪Pi;D=D-Pi
IF(D==null)BREAK;
EXIT.
过程GetPartition(R,D,Pi,subSetSize,fix-DataList)参数:计算任务集合R,数据集合D,待划分子集P1,子集规模subSetSize,已确定元素列表fix-DataList。
输出:划分完成后的子集
P1={fixDataList}
WHILE(s(P1)<subSetSize)
P1=P1∪{randomElement(D)};
P2=D-P1;Punid=P1-{fixDataList};
FOR(Punid中每个数据dp1)
计算P1和P2间的传输量T′;
IF(T′<T)
交换dp1和dp2;Punid=Punid-{dp2};BREAK;
ELSE
继续尝试交换P2中新的数据;
IF(循环中未交换任何元素)Punid=Punid-{dp1};
IF(Punid==null)BREAK;
EXIT.
以上的所述乃是本发明的具体实施例及所运用的技术原理,若依本发明的构想所作的改变,其所产生的功能作用仍未超出说明书所涵盖的精神时,仍应属本发明的保护范围。

Claims (8)

1.一种跨数据中心的关联云数据部署方法,其特征在于包括如下步骤:(1)基于云数据间的关联关系与数据中心的存储空间信息对云数据进行聚类划分,得到数据子集;
(2)结合数据子集之间的传输量大小和数据中心间的带宽资源,完成数据子集的部署。
2.根据权利要求1所述的一种跨数据中心的关联云数据部署方法,其特征在于:所述步骤(1)采用限定规模的云数据划分算法完成聚类划分,得到数据集,步骤如下:
(a)依据云数据间关联依赖关系的强弱,将云数据划分成若干数据子集,并部署到同一数据中心上;
(b)根据数据中心的存储空间大小对其进行降序排序;
(c)在该排序基础上,对有固定部署限制的数据,根据其部署数据中心的存储能力决定相应的数据子集规模;根据关联紧密程度和数据大小,从固定部署到相同位置的数据集合和无部署位置限制的数据集合中选取该数据子集的成员;
(d)重复执行步骤(c)直至固定部署需求集合中的全部数据被划分完毕;
(e)对于无部署位置限制的数据,根据当前单个数据中心的最大存储能力决定部署到该数据中心的数据子集规模;并根据数据间的关联紧密程度和数据大小,从数据集合中选取该数据子集的成员;
(f)重复执行步骤(e)直至无位置限制集合中的全部数据被划分完毕;至此,全部数据均被划分到对应的数据子集中。
3.根据权利要求1所述的一种跨数据中心的关联云数据部署方法,其特征在于:所述步骤(2)完成数据集的部署的步骤如下:
(i)当数据子集有固定部署要求时,将该数据子集部署到其要求的数据中心上;
(ii)当数据子集没有固定部署要求时,且数据子集面对多个满足约束条件的数据中心时,则对数据中心的网络带宽资源进行排序比较,将数据子集部署到带宽资源充足的数据中心上。
4.根据权利要求3所述的一种跨数据中心的关联云数据部署方法,其特征在于:所述数据中心的网络带宽资源的大小是基于图论中节点度的概念,将每个数据中心与其他数据中心间的通信带宽资源量相加得到。
5.根据权利要求2所述的一种跨数据中心的关联云数据部署方法,其特征在于:所述固定部署限制的数据与无部署位置限制的数据的定义如下:设D={d1,d2,...,dm}为全部数据组成的集合,将数据集分为固定数据集Dfix和非固定数据集Dunfix,其中:Dfix中的数据必须部署到固定的数据中心;而Dunfix中的数据则对其部署数据中心没有限制;D中每个数据由一个三元组di=<s,l,f>表示,其中:s(di)表示数据di的大小;l(di)表示数据所部署的数据中心;f(di)为true则表示di是固定数据;反之,f(di)为false则表示di是非固定数据。
6.根据权利要求3所述的一种跨数据中心的关联云数据部署方法,其特征在于:所述得到约束条件的过程如下:
(A)设定各数据中心存储空间信息为C,带宽信息为B,数据密集型计算任务请求集合为R,执行任务请求时所需的数据集Di
(B)对于跨数据中心的云数据部署问题引入三个离散变量进行建模,三个离散变量的定义如下:
(C)得到模型表达式为基于模型表达式得到约束条件。
7.根据权利要求3或6所述的一种跨数据中心的关联云数据部署方法,其特征在于:所述的约束条件包括6个,如下所示:
1 ) - - - s . t . &Sigma; i &Element; V x d , i = 1 ( &ForAll; d &Element; D ) ;
2 ) - - - x d f i x , i = 1 ( i = 1 ( d f i x ) ) , 0 ( i &NotEqual; 1 ( d f i x ) ) ( &ForAll; d f i x &Element; D f i x ) ;
3 ) - - - &Sigma; d &Element; D x d , i s ( d ) &le; C ( i ) ( &ForAll; i &Element; V ) ;
4 ) - - - &Sigma; i &NotEqual; j y i , j d = 1 - x d , i ( &ForAll; i &Element; V , d &Element; D ) ;
5 ) - - - y i , j d &le; x d , j ( &ForAll; i , j &Element; V ; d &Element; D ) ;
6 ) - - - x d , i , y i , j d , z r , i &Element; { 0 , 1 } ( &ForAll; i , j &Element; V ; d &Element; D ; r &Element; R ) .
8.根据权利要求6所述的一种跨数据中心的关联云数据部署方法,其特征在于:所述步骤(A)的数据密集型计算任务请求集合为R={r1,r2,...,rk},其中对于ri∈R,则有Di={di1,di2,...},用于表示计算任务请求ri执行时所需数据的集合。
CN201510628675.5A 2015-09-29 2015-09-29 一种跨数据中心的关联云数据部署方法 Pending CN105357257A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510628675.5A CN105357257A (zh) 2015-09-29 2015-09-29 一种跨数据中心的关联云数据部署方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510628675.5A CN105357257A (zh) 2015-09-29 2015-09-29 一种跨数据中心的关联云数据部署方法

Publications (1)

Publication Number Publication Date
CN105357257A true CN105357257A (zh) 2016-02-24

Family

ID=55333116

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510628675.5A Pending CN105357257A (zh) 2015-09-29 2015-09-29 一种跨数据中心的关联云数据部署方法

Country Status (1)

Country Link
CN (1) CN105357257A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609138A (zh) * 2017-09-19 2018-01-19 中南大学 一种云模型数据布局方法和系统
CN109788013A (zh) * 2017-11-14 2019-05-21 阿里巴巴集团控股有限公司 分布式系统中作业资源分配方法、装置及设备
CN113655969A (zh) * 2021-08-25 2021-11-16 北京中电兴发科技有限公司 一种基于流式分布式存储系统的数据均衡存储方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王艺文,苏森,谢琛甫,双锴: "跨数据中心的关联云数据部署策略", 《华中科技大学学报(自然科学版)》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609138A (zh) * 2017-09-19 2018-01-19 中南大学 一种云模型数据布局方法和系统
CN109788013A (zh) * 2017-11-14 2019-05-21 阿里巴巴集团控股有限公司 分布式系统中作业资源分配方法、装置及设备
CN109788013B (zh) * 2017-11-14 2022-02-25 阿里巴巴集团控股有限公司 分布式系统中作业资源分配方法、装置及设备
CN113655969A (zh) * 2021-08-25 2021-11-16 北京中电兴发科技有限公司 一种基于流式分布式存储系统的数据均衡存储方法
CN113655969B (zh) * 2021-08-25 2022-09-16 北京中电兴发科技有限公司 一种基于流式分布式存储系统的数据均衡存储方法

Similar Documents

Publication Publication Date Title
CN104035751B (zh) 基于多图形处理器的数据并行处理方法及装置
CN103235743B (zh) 一种基于分解和最优解跟随策略的多目标测试任务调度方法
CN112100155A (zh) 一种云边协同的数字孪生模型组装与融合方法
CN110490322A (zh) 运算节点的拆分方法和装置、电子设备和存储介质
CN105357257A (zh) 一种跨数据中心的关联云数据部署方法
CN113918314A (zh) 任务处理方法、边缘计算设备、计算机设备、介质
Baillie et al. Cluster identification algorithms for spin models—Sequential and parallel
CN103679564B (zh) 一种用于配电网拓扑分析分布式计算的任务分配方法
CN110503199A (zh) 运算节点的拆分方法和装置、电子设备和存储介质
CN112948123A (zh) 一种基于Spark的网格水文模型分布式计算方法
CN104303176A (zh) 查询处理
CN109062867A (zh) 对象和属性同时增加的矩阵动态属性约简方法
CN113568759B (zh) 一种基于云计算的大数据处理方法及其系统
CN108197075A (zh) 一种Inception结构的多核实现方法
US20020087299A1 (en) Fully scalable computer architecture
CN109190450A (zh) 基于分布式计算平台的人工智能遥感影像数据提取方法
CN106484532A (zh) 面向sph流体模拟的gpgpu并行计算方法
Zavala et al. Computational and economic limitations of dispatch operations in the next-generation power grid
CN112799852A (zh) 逻辑节点的多维sbp分布式签名决策系统及其方法
CN109885401B (zh) 基于lpt局部优化的结构化网格负载平衡方法
CN115878729B (zh) 一种基于联盟链的节点区块存储分配优化方法及系统
CN105589896B (zh) 数据挖掘方法及装置
CN104598600B (zh) 一种基于分布式内存的并行数字地形分析优化方法
CN110211227A (zh) 一种三维场景数据处理方法、装置及终端设备
CN104507150A (zh) 一种基带池内虚拟资源分簇方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160224

WD01 Invention patent application deemed withdrawn after publication