CN105430074B - 基于数据依赖性和访问量的云数据分配存储的优化方法及系统 - Google Patents

基于数据依赖性和访问量的云数据分配存储的优化方法及系统 Download PDF

Info

Publication number
CN105430074B
CN105430074B CN201510779709.0A CN201510779709A CN105430074B CN 105430074 B CN105430074 B CN 105430074B CN 201510779709 A CN201510779709 A CN 201510779709A CN 105430074 B CN105430074 B CN 105430074B
Authority
CN
China
Prior art keywords
data
data set
degree
correlation
center
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510779709.0A
Other languages
English (en)
Other versions
CN105430074A (zh
Inventor
周俊
王习庆
闫闯
姚俊峰
苏劲松
陈明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Jinguan Copper Industry Branch of Tongling Nonferrous Metals Group Holding Co Ltd
Original Assignee
Xiamen University
Jinguan Copper Industry Branch of Tongling Nonferrous Metals Group Holding Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University, Jinguan Copper Industry Branch of Tongling Nonferrous Metals Group Holding Co Ltd filed Critical Xiamen University
Priority to CN201510779709.0A priority Critical patent/CN105430074B/zh
Publication of CN105430074A publication Critical patent/CN105430074A/zh
Application granted granted Critical
Publication of CN105430074B publication Critical patent/CN105430074B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
    • H04L67/63Routing a service request depending on the request content or context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种基于数据依赖性和访问量的云数据分配存储的优化方法(1)初始阶段的数据分配,a:原始数据中的固定数据集分配到相应数据中心;计算非固定数据集中每一个数据集与其他数据集之间的相关度;b:依次分配每一个数据集,选择与之相关度最大的数据集;若无法分配则放置等待队列中,等待最后阶段分配;(2)运行阶段,a:根据传输开销将任务调度到传输开销最小的数据中心执行;b:执行完毕后若新产生任务与数据集,则首先更新任务集合,然后根据数据集与数据中心的相关度,选择相关度最大的数据中心放置中间数据集。本发明还公开一种实现上述方法的系统。采用本发明不仅考虑数据的访问量而且考虑数据间的依赖性,大大提高了云计算下的访问效率。

Description

基于数据依赖性和访问量的云数据分配存储的优化方法及 系统
技术领域
本发明涉及一种基于数据依赖性和访问量的云数据分配存储的优化方法,特别是涉及一种实现上述方法的系统。
背景技术
随着大数据时代的来临,在许多领域计算的数据量已经从TB级到PB级,而随着云计算的发展,其高效的特点为工作流提供了一个新思路。但是大规模的数据分配也同样存在着许多挑战,不同于传统的分布式网络,云计算采用的是廉价的虚拟化集群,硬件已经不再是数据分配所应该考虑的因素。大规模数据存在着依赖性,同时数据在单位时间的访问量是固定的,但是在各个单位时间的访问量一般是变化的,如果不考虑访问量,可能存在负载不均衡,造成系统瓶颈。因此,云计算动态存储的优化主要是解决数据访问量变化带来的负载不均衡问题,同时利用大规模数据间的依赖性来提高访问效率。
目前数据动态分配算法虽然能考虑访问量带来的负载不均衡问题,但是对数据直接的相关性考虑较少,随着数据量的增大,访问效率大大提高,因此在一定程度上还有较大的改进空间。
发明内容
有鉴于此,本发明的目的在于提供一种基于数据依赖性和访问量的云数据分配存储的优化方法,能提高访问效率。
本发明还提供一种基于数据依赖性和访问量的云数据分配存储的优化系统,能提高访问效率。
为了达成上述目的,本发明的解决方案是:
一种基于数据依赖性和访问量的云数据分配存储的优化方法,基于数据依赖性的定义:
定义1、数据集D={di|i=1,2,...,|D|},其中:di表示第i个数据集,|D|表示数据级个数,|di|表示数据集的大小;di分为固定数据集和非固定数据集;固定数据集为有固定数据中心的数据集,即需要特定方位的数据集;非固定数据集为无固定数据中心的数据集,即不需要特定方位的数据集;
定义2、数据中心集合M={mi|i=1,2,...,|M|},其中:mi表示第i个数据中心,|M|表示数据中心的个数,|mi|表示第i个数据中心存储空间的大小;
定义3、count(Ti∩Tj),其中:Ti和Tj分别表示数据集上的任务集,count(Ti∩Tj)表示数据集Ti和数据集Tj共有的任务数量;
定义4、数据依赖性用数据相关度衡量,包括数据集之间的相关度,以及数据集与数据中心的相关度,定义如下:
(1)数据集di和dj之间的相关度定义为:
同时,每一个数据集均有一个属性depLink,depLink定义为depLink(i)={<di,depij>|j≠i},根据depij的大小形成降序链表;
(2)数据集dk与数据中心mm之间的相关度定义为:
定义5、定义调度任务Tk在数据中心mm上执行引起的传输开销为:
thansCostmk=[size(DSk)-size(DSk∩DSm)+size(DS'gen∩DS'm)]
其中size(DS)表示DS中所有数据集大小的和,DSk是Tk需要用的数据集,DSm包含数据中心Mm上的所有数据集,DS'gen是Tk执行后产生的数据集,DS'm表示DS'gen中应该放在Mm上的数据集;
采用如下优化方法:
(1)初始阶段的数据分配
a:原始数据中的固定数据集分配到相应数据中心;计算非固定数据集中每一个数据集与其他数据集之间的相关度并加入至其属性链表中;
b:依次分配每一个数据集,选择与之相关度最大的数据集;若选择出的数据集固定或非固定已分配,且分配到的数据中心空间足够则进行分配;若选择出的数据集非固定且还未分配,选择计算能力最强且空间足够则进行分配;若均无法分配则放置等待队列中,等待最后阶段分配;
c:对等待队列中的数据集进行分配,选择计算能力最强且空间足够的数据中心进行分配,否则找到下一个,直到放置完成为止;
(2)运行阶段
a:根据传输开销将任务调度到传输开销最小的数据中心执行;
b:执行完毕后若新产生任务与数据集,则首先更新任务集合,然后根据数据集与数据中心的相关度,选择相关度最大的数据中心放置中间数据集。
所述运行阶段,对于数据中心空间不足处理如下:
a:与所述初始阶段的数据分配相同,但在下面两种情况时如下处理:当与非固定数据集相关度最大的数据集未分配时,将后者放置在前者的物理数据中心中;在分配等待队列中数据时也做相同处理;
b:对比每个数据集,若逻辑数据中心与物理数据中心相同,则移动数据集到指定的逻辑数据中心,否则不移动。
一种基于数据依赖性和访问量的云数据分配存储的优化系统,采用如前所述的方法。
采用上述方案后,本发明的基于数据依赖性和访问量的云数据分配存储的优化方法具有以下有益效果:本发明基于访问量和依赖性的数据分配,结合随机游走算法计算数据间的相关性,然后在其基础上,进行数据的分配存储;本发明能很好将随机游走算法和数据相关性结合起来,即将随机游走算法结合两阶段数据分配和任务调度不仅考虑了数据的访问量还考虑了数据的依赖性,大大提高了数据的访问效率。
本发明的基于数据依赖性和访问量的云数据分配存储的优化系统也具有上述有益效果。
具体实施方式
为了进一步解释本发明的技术方案,下面通过具体实施例来对本发明进行详细阐述。
本发明的基于数据依赖性和访问量的云数据分配存储的优化方法分为初始阶段的数据分配和运行阶段的数据分配,为了便于说明原理,先作如下定义:
1、数据集D={di|i=1,2,...,|D|},其中:di表示第i个数据集,|D|表示数据集个数,|di|表示数据集的大小;di分为固定数据集FD和非固定数据集NFD;固定数据集FD:为有固定数据中心的数据集,即需要特定方位的数据集;非固定数据集NFD:为无固定数据中心的数据集,即不需要特定方位的数据集。
2、数据中心的集合M={mi|i=1,2,...,|M|},其中:mi表示第i个数据中心,|M|表示数据中心的个数,|mi|表示第i个数据中心存储空间的大小;
3、count(Ti∩Tj)表示数据集(中心)Ti和数据集(中心)Tj共有的任务数量;Ti和Tj分别表示数据集(数据中心)上的任务集;
4、数据依赖性用数据相关度来衡量,包括数据集之间的相关度,以及数据集与数据中心的相关度,定义如下:
(1)数据集di和dj之间的相关度定义为:
同时,每一个数据集均有一个属性depLink,depLink定义为depLink(i)={<di,depij>|j≠i},根据depij的大小形成一个降序链表。
(2)数据集dk与数据中心mm之间的相关度定义为:
5、传输开销,定义调度任务Tk在数据中心mm上执行引起的传输开销为:
thansCostmk=[size(DSk)-size(DSk∩DSm)+size(DS'gen∩DS'm)]
其中size(DS)表示DS中所有数据集大小的和,这里的DS表达普遍含义,不仅仅指size(DSk),是泛指所有数据集大小的数据集合;DSk是Tk需要用的数据集,DSm包含数据中心Mm上的所有数据集,DS'gen是Tk执行后产生的数据集,DS'm表示DS'gen中应该放在Mm上的数据集。
本方法的原理分为两个阶段:
(1)初始阶段的数据分配
根据数据中心的计算能力与存储能力,在考虑数据集大小的前提下分析数据集之间的相关度,完成初始化阶段的预分配。
在计算数据集之间的相关度时,引入马尔可夫的随机游走理论,作为相关度的补充,从全局角度更为准确地衡量数据集之间的相关度,特别是间接相关的数据集的相关度。
(2)运行阶段
由于运行会产生一堆中间数据,所以运行阶段是对中间数据进行分配,在对中间数据进行放置时,若出现数据中心存储时间不足,表明出现了负载不均衡,此时需要对所有数据集进行重新调整。
本发明的优点在于不仅考虑了数据的访问量而且考虑了数据间的依赖性,大大提高了云计算下的访问效率。本发明将随机游走算法和两阶段数据分配结合,极大优化了存储算法。
实施例一
(1)初始阶段的数据分配
第一步:原始数据中的固定数据集FD分配到相应数据中心;计算非固定数据集NFD中每一个数据集与其他数据集之间的相关度并加入至其属性链表中;这里的“其他数据集”包括固定数据集和非固定数据集。
第二步:依次分配每一个数据集,选择与之相关度最大的数据集;若选择出的数据集为固定数据集FD或非固定数据集NFD但已分配,且分配到的数据中心空间足够则进行分配;若选择出的数据集非固定且还未分配,选择计算能力最强且空间足够的数据中心则进行分配;若均无法分配则放置等待队列中,等待最后阶段分配;
第三步:对等待队列中的数据集进行分配,选择计算能力最强且空间足够的数据中心进行分配,否则找到下一个,直到放置完成为止;
(2)运行阶段
第一步:根据传输开销将任务调度到传输开销最小的数据中心执行;
第二步:执行完毕后若新产生任务与数据集,则首先更新任务集或者说任务集合,然后根据数据集与数据中心的相关度,选择相关度最大的数据中心放置中间数据集;
对于数据中心空间不足处理如下:
第一步:基本与初始化阶段算法相同,只在两种情况下略有不同:当与非固定数据集相关度最大的数据集未分配时,将后者放置在前者的物理数据中心中;在分配等待队列中数据时也做相同处理;
第二步:对比每个数据集,若逻辑数据中心与物理数据中心相同,则移动数据集到指定的逻辑数据中心,否则不移动。
对于数据中心空间不足处理有上面的两步实现,先实现第一步数据中心空间充足,然后进行第二步。
本发明的基于数据依赖性和访问量的云数据分配存储的优化系统,能实现上述方法。
上述实施例并非限定本发明的产品形态和式样,任何所属技术领域的普通技术人员对其所做的适当变化或修饰,皆应视为不脱离本发明的专利范畴。

Claims (1)

1.一种基于数据依赖性和访问量的云数据分配存储的优化方法,其特征在于:
基于数据依赖性的定义:
定义1、数据集的集合D={di|i=1,2,...,|D|},其中:di表示第i个数据集,|D|表示D中数据集的个数,|di|表示数据集的大小;di分为固定数据集和非固定数据集;固定数据集为有固定数据中心的数据集,即需要特定存储位置的数据集;非固定数据集为无固定数据中心的数据集,即不需要特定存储位置的数据集;
定义2、数据中心集合M={mi|i=1,2,...,|M|},其中:mi表示第i个数据中心,|M|表示数据中心的个数,|mi|表示第i个数据中心存储空间的大小;
定义3、count(Ti∩Tj),其中:Ti和Tj分别表示数据集上的任务集,count(Ti∩Tj)表示任务集Ti和任务集Tj共有的任务数量;
定义4、数据依赖性用数据相关度衡量,包括数据集之间的相关度,以及数据集与数据中心的相关度,定义如下:
(1)数据集di和dj之间的相关度定义为:
其中,FD表示固定数据集,NFD表示非固定数据集;同时,每一个数据集均有一个属性depLink,depLink定义为
depLink(i)={<di,dep(i,j)>|j≠i},根据dep(i,j)的大小形成降序链表;
(2)数据集dk与数据中心mm之间的相关度定义为:
定义5、定义调度任务Tk在数据中心mm上执行引起的传输开销为:
thansCostmk=[size(DSk)-size(DSk∩DSm)+size(DS'gen∩DS'm)]
其中size(DS)表示DS中所有数据集大小的和,DSk是Tk需要用的数据集,DSm包含数据中心mm上的所有数据集,DS’gen是Tk执行后产生的数据集,DS'm表示DS'gen中应该放在数据中心mm上的数据集;
采用如下优化方法:
(1)初始阶段的数据分配
a:原始数据中的固定数据集分配到相应数据中心;计算非固定数据集中每一个数据集di与其他数据集之间的相关度并加入至该数据集di的属性链表中;
b:依次分配每一个非固定数据集,选择与之相关度最大的数据集;若选择出的相关度最大的数据集为固定数据集或非固定数据集已分配,且选出的相关度最大的数据集所分配到的数据中心的存储空间足够,那么就将该非固定数据集分配到该数据中心;若选择出的相关度最大的数据集为非固定数据集且还未分配,选择计算能力最强且空间足够的数据中心进行分配;若均无法分配则放置等待队列中;
c:对等待队列中的数据集进行分配,依次选择计算能力最强且存储空间足够的数据中心进行分配,直到放置完成为止;
(2)运行阶段的数据分配
a:根据传输开销将任务调度到传输开销最小的数据中心执行;
b:执行完毕后若新产生任务与中间数据集,则首先更新任务集合,然后根据中间数据集与数据中心的相关度,选择相关度最大的数据中心放置中间数据集。
CN201510779709.0A 2015-11-13 2015-11-13 基于数据依赖性和访问量的云数据分配存储的优化方法及系统 Active CN105430074B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510779709.0A CN105430074B (zh) 2015-11-13 2015-11-13 基于数据依赖性和访问量的云数据分配存储的优化方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510779709.0A CN105430074B (zh) 2015-11-13 2015-11-13 基于数据依赖性和访问量的云数据分配存储的优化方法及系统

Publications (2)

Publication Number Publication Date
CN105430074A CN105430074A (zh) 2016-03-23
CN105430074B true CN105430074B (zh) 2018-06-29

Family

ID=55508010

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510779709.0A Active CN105430074B (zh) 2015-11-13 2015-11-13 基于数据依赖性和访问量的云数据分配存储的优化方法及系统

Country Status (1)

Country Link
CN (1) CN105430074B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106484520A (zh) * 2016-10-17 2017-03-08 北京集奥聚合科技有限公司 一种基于数据血缘关系的智能调度方法及系统
CN107609138B (zh) * 2017-09-19 2020-05-08 中南大学 一种云模型数据布局方法和系统
CN110125931B (zh) * 2019-04-30 2021-05-07 厦门大学 一种导览机器人任务调度方法、装置、机器人和存储介质
CN110290215B (zh) * 2019-06-28 2021-09-28 深圳前海微众银行股份有限公司 一种信号传输方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101997929A (zh) * 2010-11-29 2011-03-30 北京卓微天成科技咨询有限公司 一种云存储的数据存取的方法、装置及系统
CN103984737A (zh) * 2014-05-22 2014-08-13 武汉大学 一种基于计算相关度的多数据中心数据布局优化方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101997929A (zh) * 2010-11-29 2011-03-30 北京卓微天成科技咨询有限公司 一种云存储的数据存取的方法、装置及系统
CN103984737A (zh) * 2014-05-22 2014-08-13 武汉大学 一种基于计算相关度的多数据中心数据布局优化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
云计算环境中基于访问量和依赖性评价的数据分配算法;孙熙领等;《计算机科学》;20120531;第39卷(第5期);141-146,171 *

Also Published As

Publication number Publication date
CN105430074A (zh) 2016-03-23

Similar Documents

Publication Publication Date Title
CN104461740B (zh) 一种跨域集群计算资源聚合和分配的方法
CN105430074B (zh) 基于数据依赖性和访问量的云数据分配存储的优化方法及系统
CN107301504B (zh) 基于混合蛙跳—路径重连的生产运输协同调度方法和系统
CN102932279A (zh) 一种云环境数据中心多维资源调度系统及方法
CN103853618B (zh) 基于截止日期驱动的云系统代价最小化资源分配方法
Alfarrarjeh et al. Scalable spatial crowdsourcing: A study of distributed algorithms
CN102929989B (zh) 一种地理空间数据在云计算平台上的负载均衡方法
CN107346264A (zh) 一种虚拟机负载均衡调度的方法、装置和服务器设备
CN109885397A (zh) 一种边缘计算环境中时延优化的负载任务迁移算法
CN104657220A (zh) 混合云中基于截止时间和费用约束的调度模型及方法
CN104333569A (zh) 基于用户满意度的云任务调度算法
CN103281374B (zh) 一种云存储中数据快速调度的方法
CN105471985A (zh) 负载均衡方法及云平台计算方法、云平台
CN106708917A (zh) 一种数据处理方法、装置以及olap系统
CN106293952A (zh) 一种基于任务需求与服务能力匹配的遥感任务调度方法
CN104239555A (zh) 基于mpp的并行数据挖掘架构及其方法
CN112685138B (zh) 云环境下基于多种群混合智能优化的多工作流调度方法
CN106251071A (zh) 一种支持多种引擎的云工作流实现方法
CN104283963B (zh) 一种分布合作式的cdn负载均衡方法
CN111309472A (zh) 一种基于虚拟机预部署的在线虚拟资源分配方法
CN105608138B (zh) 一种优化阵列数据库并行数据加载性能的系统
CN104156505B (zh) 一种基于用户行为分析的Hadoop集群作业调度方法及装置
CN105227616A (zh) 一种遥感卫星地面处理系统任务动态创建与分配的方法
CN109062683A (zh) 主机资源分配的方法、装置及计算机可读存储介质
CN108304253A (zh) 基于缓存感知和数据本地性的map任务调度方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant