CN110033076A - 混合云环境下面向代价优化的工作流数据布局方法 - Google Patents
混合云环境下面向代价优化的工作流数据布局方法 Download PDFInfo
- Publication number
- CN110033076A CN110033076A CN201910317130.0A CN201910317130A CN110033076A CN 110033076 A CN110033076 A CN 110033076A CN 201910317130 A CN201910317130 A CN 201910317130A CN 110033076 A CN110033076 A CN 110033076A
- Authority
- CN
- China
- Prior art keywords
- data
- particle
- indicate
- cost
- data center
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000005457 optimization Methods 0.000 title claims abstract description 24
- 238000013396 workstream Methods 0.000 title claims abstract description 12
- 239000002245 particle Substances 0.000 claims abstract description 101
- 230000002068 genetic effect Effects 0.000 claims abstract description 17
- 230000005540 biological transmission Effects 0.000 claims description 68
- 239000008186 active pharmaceutical agent Substances 0.000 claims description 18
- 238000013480 data collection Methods 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 4
- 238000013461 design Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 239000011164 primary particle Substances 0.000 claims description 3
- 210000000352 storage cell Anatomy 0.000 claims description 3
- 230000006870 function Effects 0.000 description 23
- 230000035772 mutation Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000002028 premature Effects 0.000 description 3
- 230000010429 evolutionary process Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Optimization (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Pure & Applied Mathematics (AREA)
- Molecular Biology (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Genetics & Genomics (AREA)
- Physiology (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种混合云环境下面向代价优化的工作流数据布局方法。首先,进行混合云环境下面向代价优化的科学工作流数据布局问题建模,将问题目标形式化得到目标函数;其次,对遗传粒子进行问题编码,实现粒子到数据布局策略的一一对应关系;再而,基于目标函数设计适应度函数来评价粒子优劣;最后,基于适应度函数,初始化种群并根据GAPSO的粒子更新策略对粒子种群不断更新迭代从而求得近似最优解。本发明方法可以有效降低混合云环境下科学工作流的执行代价。
Description
技术领域
本发明涉及一种混合云环境下面向代价优化的工作流数据布局方法。
背景技术
科学工作流是一种以降低计算成本为目标的海量密集数据流的典型应用系统。科学工作流中计算任务节点之间的依赖关系非常复杂,数据集的大小可以达到TB甚至PB量级。随着云计算的出现,其高效、灵活、可伸缩性等特点为执行大型科学工作流提供了新的思路。云上充足的计算、存储与网络资源等使得科学工作流能更好的执行。通过在云环境下执行科学工作流,可以有效的减少执行代价,降低成本,然而如何在云上合理调度和管理资源是云计算目前面临的一个重要问题。混合云是一种融合了公有云和私有云的混合计算环境,公有云以其高伸缩性、低成本、可定制等特点为科学工作流的执行提供了服务保障,而私有云是一个公司或组织建立的内部数据存储中心。混合云结合了公有云与私有云各自的优势,而混合云环境下的科学工作流研究已经成为了科学工作流研究的热点。在混合云环境下对科学工作流进行数据布局,需要综合考虑公有云与私有云的优势。如何针对公有云与私有云各自的优势,降低数据传输延时以及数据布局代价,形成合理的数据布局方案成为了科学工作流数据布局问题的新的挑战。
发明内容
本发明的目的在于提供一种混合云环境下面向代价优化的工作流数据布局方法,该方法考虑了公有云数据中心与私有云数据中心的不同特点如存储容量、存储代价等因素以及数据传输时延约束对传输代价的影响,并结合遗传算法与粒子群优化算法的优点,生成科学工作流的布局策略。
为实现上述目的,本发明的技术方案是:一种混合云环境下面向代价优化的工作流数据布局方法,首先,进行混合云环境下面向代价优化的科学工作流数据布局问题建模,将问题目标形式化得到目标函数;其次,对遗传粒子进行问题编码,实现粒子到数据布局策略的一一对应关系;再而,基于目标函数设计适应度函数来评价粒子优劣;最后,基于适应度函数,初始化种群并根据GAPSO的粒子更新策略对粒子种群不断更新迭代从而求得近似最优解。
在本发明一实施例中,所述目标函数如下:
Minimize Ctotal
subject to Ttotal≤TimeLimit
上式表示目标是最小化数据布局总代价Ctotal的同时,满足科学工作流的总传输时延约束和满足每个数据中心容量限制;其中,Ttotal表示整个科学工作流的总传输时延,TimeLimit表示整个科学工作流的总传输时延约束;availsizei表示数据中心dci的可用容量。
在本发明一实施例中,所述进行混合云环境下面向代价优化的科学工作流数据布局问题建模,将问题目标形式化得到目标函数的具体过程如下:
科学工作流由有向无环图W=(T,DS,E,G)组成,其中,T={t1,t2,...,tn}表示包含n个任务的集合;而DS={ds1,ds2,...,dsm}表示该科学工作流中所有数据集的集合;E表示任务与数据之间的依赖矩阵,若eij=1,代表任务tj的执行需要数据集dsi;G表示数据与任务之间的依赖矩阵,若gnm=1,代表数据集dsm是由任务tn产生;任务ti=<Inputi,Outputi>,其中,Inputi表示其输入数据集的集合,Outputi表示其输出数据集的集合;数据集dsi=<sizei,gti,pci>,其中,sizei表示该数据集的大小,gti表示生成数据集dsi的任务,pci表示dsi必须存放的私有数据中心;其中,gti由公式(1)表示,pci由公式(2)表示:
其中,DSinit和DSgen分别表示初始数据集集合和生成数据集集合,GT(dsi)表示产生数据集dsi的任务;数据集按照其隐私性又可以分成隐私数据集DSpri和非隐私数据集DSpub,place(dsi)表示dsi指定存放的数据中心;
混合云环境由多个数据中心组成,数据中心集合DC={dc1,dc2,...,dcn},其中,dci=<sizei,availsizei,prii,storecosti>sizei表示数据中心dci的存储容量,availsizei表示数据中心dci的可用容量,prii表示数据中心的类型,当prii=1时,表示数据中心属于私有云数据中心,能够存放隐私数据和非隐私数据;当prii=0时,表示数据中心属于共有云数据中心,只能够存放非隐私数据;storecosti表示存储单位容量的数据需要的花费;不同数据中心之间具有不同的传输带宽,其中对且i≠j,bandij表示数据中心dci和数据中心dcj之间的网络传输带宽,并且bandij=bandji;不同数据中心之间具有不同的单位传输代价,对且i≠j,costij表示数据中心dci和数据中心dcj之间的单位传输代价,并且costij=costji;
而后,将整个数据布局的方案定义为S=(Map,Trans,Ctotal,Ttotal),其中,Map是数据放置的映射集合,集合中每一个元素map(dsi,dcj)表示数据集dsi被放置在数据中心dcj上;Trans={trans1,trans2,...,transn}表示一组产生传输代价的数据调度集合,transn=<dsk,dci,dcj>表示数据集dsk从数据中心dci传输到数据中心dcj的一次传输,该传输将同时产生传输时间和传输代价;其中,传输时间如公式(3)所示,传输代价如公式(4)所示;
数据的存储总代价Cs如公式(5)所示:
Ctotal表示数据布局下,整个科学工作流完成时产生的总代价,如公式(6)所示,Ttotal表示该数据布局下,科学工作流的总传输时延,如公式(7)所示;
同时,对于整个科学工作流,定义一个总传输时延约束TimeLimit,表示该工作流产生的总传输时延不能超过该约束;
综上,将混合云环境下面向代价优化的科学工作流数据布局问题,用下述公式(8)表示,其目标是最小化数据布局总代价Ctotal的同时,满足科学工作流的总传输时延约束和满足每个数据中心容量限制;
在本发明一实施例中,所述对遗传粒子进行问题编码的具体过程如下:
采用数据集-数据中心的离散编码方式来构造粒子;在第t次迭代时,粒子i的位置Xi t如公式(9)所示:
Xi t=(xi1 t,xi2 t,...,xin t) (9)
每个粒子由n维元素组成,n代表科学工作流中非隐私数据集的数量;xik t(k=1,2,…,n)表示第k个非隐私数据集在第t次迭代的存储的数据中心编号,即xik t的取值范围为[1,|DC|]。
在本发明一实施例中,所述适应度函数公式如下:
若粒子为可行解粒子,则其适应度函数值为其数据布局总代价Ctotal,若粒子为不可行解粒子,则将其数据布局总代价视为无限,即其适应度函数值为无限大;其中,可行解粒子表示编码粒子所对应的数据布局总传输延时小于总传输时延限制要求,且所有数据中心的剩余可用容量均大于0;不可行解粒子表示编码粒子所对应的数据布局总传输延时学大于科学工作流总传输时延限制要求,或某个数据中心的剩余容量小于0。
在本发明一实施例中,所述基于适应度函数,初始化种群并根据GAPSO的粒子更新策略对粒子种群不断更新迭代从而求得近似最优解的具体过程如下:
1)初始化种群
2)对于每一代粒子,按照适应度函数值排序,选择前50%的优秀个体,通过如下公式(11)变化后进入到下一代;
其中个体交叉部分与种群交叉部分如公式(10)与公式(11):
若变化后的粒子为不可行解粒子,则重新对原粒子进行变化直到其变为可行解粒子;
3)剩下的50%个体,随机选取前50%优秀个体中的一个,进行遗传算法中的交叉与变异操作后进入下一代,其变化公式(14)如下:
其中变异部分如公式(13):
若变化后的粒子为不可行解粒子,则重新选择前50%优秀个体中的一个进行交叉与变异操作,直到下一代种群个体数目达到原始种群规模;
4)对于每一代粒子,更新一次族群历史最优值,若更新超过100代,族群历史最优值没有更新或更新迭代次数达到设置的最大迭代次数,停止更新,并将族群历史最优粒子做为解输出。
相较于现有技术,本发明具有以下有益效果:本发明方法既注重了种群每一代之间的进化过程,又注重了优秀个体的保留与再成熟,解决了传统遗传算法的过早收敛问题,提高了种群多样性。
附图说明
图1为本发明方法流程示意图。
图2为默认实验环境下两种不同规模大小的五种真实科学工作流在不同算法下的执行代价。
具体实施方式
下面结合附图,对本发明的技术方案进行具体说明。
如图1所示,对于一个给定的科学工作流以及一个混合云环境,本发明提出一种基于遗传粒子群优化混合算法(GAPSO)的数据布局方法。首先,对混合云环境下面向代价优化的工作流数据布局问题进行问题建模,将问题目标形式化得到目标函数。其次,对遗传粒子进行问题编码,实现粒子到数据布局策略的一一对应关系。再而,设计合适的适应度函数来评价粒子优劣。最后,初始化种群并根据GAPSO的粒子更新策略对粒子种群不断更新迭代从而求得近似最优解。该方法可以有效降低混合云环境下科学工作流的执行代价。
本发明具体实现方式如下:
1、设计模式
定义1:科学工作流
科学工作流由有向无环图W=(T,DS,E,G)组成,其中,T={t1,t2,...,tn}表示包含n个任务的集合;而DS={ds1,ds2,...,dsm}表示该科学工作流中所有数据集的集合;E表示任务与数据之间的依赖矩阵,若eij=1,代表任务tj的执行需要数据集dsi;G表示数据与任务之间的依赖矩阵,若gnm=1,代表数据集dsm是由任务tn产生。
定义2:任务
对于科学工作流中的每个任务ti=<Inputi,Outputi>,其中,Inputi表示其输入数据集的集合,Outputi表示其输出数据集的集合;在科学工作流中,任务和数据集之间的关系是多对多的,一个任务可以产生多个数据集,一个数据也可以被多个任务使用。
定义3:数据集
对于科学工作流中的每个数据集dsi=<sizei,gti,pci>,其中,sizei表示该数据集的大小,gti表示生成数据集dsi的任务,pci表示dsi必须存放的私有数据中心;其中,gti由公式(1)表示,pci由公式(2)表示:
其中,DSinit和DSgen分别表示初始数据集集合和生成数据集集合,GT(dsi)表示产生数据集dsi的任务;数据集按照其隐私性又可以分成隐私数据集DSpri和非隐私数据集DSpub,place(dsi)表示dsi指定存放的数据中心。
定义4:数据中心
混合云环境由多个数据中心组成,数据中心集合DC={dc1,dc2,...,dcn},其中,dci=<sizei,availsizei,prii,storecosti>sizei表示数据中心dci的存储容量,availsizei表示数据中心dci的可用容量,prii表示数据中心的类型,当prii=1时,表示数据中心属于私有云数据中心,能够存放隐私数据和非隐私数据;当prii=0时,表示数据中心属于共有云数据中心,只能够存放非隐私数据;storecosti表示存储单位容量的数据需要的花费。私有云的建立及维护等需要花费大量代价,因此私有云存储代价会远远大于公有云存储代价。
定义5:带宽矩阵
不同数据中心之间具有不同的传输带宽,其中对且i≠j,bandij表示数据中心dci和数据中心dcj之间的网络传输带宽,并且bandij=bandji;本发明实验假设数据中心的带宽值是固定的,即不会产生变化。因为地理距离等原因,私有云数据中心间的带宽大小大约是公有云数据中心的带宽的10倍。
定义6:传输代价矩阵
不同数据中心之间具有不同的单位传输代价,对且i≠j,costij表示数据中心dci和数据中心dcj之间的单位传输代价,并且costij=costji。由于私有云之间使用内网传输,所以相比于私有云与公有云之间的数据传输,私有云之间的数据传输代价可以忽略不计。
定义7:数据布局方案
本发明将整个数据布局的方案定义为S=(Map,Trans,Ctotal,Ttotal),其中,Map是数据放置的映射集合,集合中每一个元素map(dsi,dcj)表示数据集dsi被放置在数据中心dcj上;Trans={trans1,trans2,...,transn}表示一组产生传输代价的数据调度集合,transn=<dsk,dci,dcj>表示数据集dsk从数据中心dci传输到数据中心dcj的一次传输,该传输将同时产生传输时间和传输代价;其中,传输时间如公式(3)所示,传输代价如公式(4)所示;
数据的存储总代价Cs如公式(5)所示:
Ctotal表示数据布局下,整个科学工作流完成时产生的总代价,如公式(6)所示,Ttotal表示该数据布局下,科学工作流的总传输时延,如公式(7)所示;
同时,对于整个科学工作流,定义一个总传输时延约束TimeLimit,表示该工作流产生的总传输时延不能超过该约束;
通过上述的基本定义,本发明混合云环境下面向代价优化的科学工作流数据布局问题,可用下述公式(8)表示,其目标是最小化数据布局总代价Ctotal的同时,满足科学工作流的总传输时延约束和满足每个数据中心容量限制;
2、问题编码
本发明提出一种基于遗传粒子群优化混合算法(GAPSO)的数据布局策略,粒子在GAPSO算法中是非常重要的概念,每一个粒子代表优化问题的一个候选解,粒子通过自身历史最优值与族群历史最优值不断在解空间中迭代更新。
问题编码的方式会直接影响到算法搜索效率和性能,因此我们需要一种好的问题编码来解决科学工作流数据布局问题。本文采用数据集-数据中心的离散编码方式来构造粒子。在第t次迭代时,粒子i的位置Xi t如公式(9)所示。
Xi t=(xi1 t,xi2 t,...,xin t) (9)
每个粒子由n维元素组成,n代表科学工作流中非隐私数据集的数量。xik t(k=1,2,…,n)表示第k个非隐私数据集在第t次迭代的存储的数据中心编号,即xik t的取值范围为[1,|DC|]。因为在混合云环境下,隐私数据集的存储位置始终是固定不变的,不会因粒子的迭代而变化,所以我们只对非隐私数据集做编码。
3、适应度函数
粒子的适应度函数是评价粒子的优劣性的主要指标,我们通常规定适应度函数值较小的粒子对应更优的解。由于会出现粒子对应的解的总传输时延超过约束总传输时延或某个数据中心存储的数据集总大小超过其容量,则该粒子为不可行粒子,所以我们需要对可行粒子与不可行粒子的适应度函数区分定义。本文的目的是最小化科学工作流数据布局的跨数据中心传输与存储代价,所以可以直接将适应度函数定义为该粒子所对应解的数据布局总代价,这样,粒子适应度值越小的粒子表现越优。
定义8:可行解粒子
编码粒子所对应的数据布局总传输延时小于总传输时延限制要求,且所有数据中心的剩余可用容量均大于0。
定义9:不可行解粒子
编码粒子所对应的数据布局总传输延时学大于科学工作流总传输时延限制要求,或某个数据中心的剩余容量小于0。
适应度函数如公式(10)所示。
若粒子为可行解粒子,则其适应度函数值为其数据布局总代价Ctotal,若粒子为不可行解粒子,则将其数据布局总代价视为无限,即其适应度函数值为无限大。
4、粒子更新策略
为结合PSO算法与GA算法各自的优点,粒子采用如下更新策略。
1)初始化种群
2)对于每一代粒子,按照适应度函数值排序,选择前50%的优秀个体,通过如下公式(11)变化后进入到下一代;
其中个体交叉部分与种群交叉部分如公式(10)与公式(11):
若变化后的粒子为不可行解粒子,则重新对原粒子进行变化直到其变为可行解粒子;
3)剩下的50%个体,随机选取前50%优秀个体中的一个,进行遗传算法中的交叉与变异操作后进入下一代,其变化公式(14)如下:
其中变异部分如公式(13):
若变化后的粒子为不可行解粒子,则重新选择前50%优秀个体中的一个进行交叉与变异操作,直到下一代种群个体数目达到原始种群规模。
4)对于每一代粒子,我们更新一次族群历史最优值,若更新超过100代,族群历史最优值没有更新或更新迭代次数达到设置的最大迭代次数,停止更新,并将族群历史最优粒子做为解输出。
5、实验结果及分析
为了对比基于GAPSO算法的数据布局策略的有效性,改进了基于遗传算法的数据布局策略,使之可以适应于本发明的问题模型。同时,加入随机布局与本发明策略对比。
如图2所示,是默认实验环境下两种不同规模大小的五种真实科学工作流在不同算法下的执行代价。总体上来看,无论是小型、中型、还是大型工作流,GA算法与本文的GAPSO算法对比随机布局结果,均能取得更好的数据布局结果,其数据布局产生的数据布局代价平均只有随机布局结果的30%到40%。而本发明的GAPSO算法在数据布局代价上略优于GA算法,其主要原因是遗传算法策略每次迭代的搜索范围较为固定,且没有充分考虑每一代的个体的情况,导致遗传算法在搜索后期效率低下且过早收敛。而本发明GAPSO算法既注重了种群每一代之间的进化过程,又注重了优秀个体的保留与再成熟,解决了传统遗传算法的过早收敛问题,提高了种群多样性,因此平均数据布局代价要略低于GA算法。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。
Claims (6)
1.一种混合云环境下面向代价优化的工作流数据布局方法,其特征在于,首先,进行混合云环境下面向代价优化的科学工作流数据布局问题建模,将问题目标形式化得到目标函数;其次,对遗传粒子进行问题编码,实现粒子到数据布局策略的一一对应关系;再而,基于目标函数设计适应度函数来评价粒子优劣;最后,基于适应度函数,初始化种群并根据GAPSO的粒子更新策略对粒子种群不断更新迭代从而求得近似最优解。
2.根据权利要求1所述的混合云环境下面向代价优化的工作流数据布局方法,其特征在于:所述目标函数如下:
Minimize Ctotal
subject to Ttotal≤TimeLimit
上式表示目标是最小化数据布局总代价Ctotal的同时,满足科学工作流的总传输时延约束和满足每个数据中心容量限制;其中,Ttotal表示整个科学工作流的总传输时延,TimeLimit表示整个科学工作流的总传输时延约束;availsizei表示数据中心dci的可用容量。
3.根据权利要求2所述的混合云环境下面向代价优化的工作流数据布局方法,其特征在于,所述进行混合云环境下面向代价优化的科学工作流数据布局问题建模,将问题目标形式化得到目标函数的具体过程如下:
科学工作流由有向无环图W=(T,DS,E,G)组成,其中,T={t1,t2,...,tn}表示包含n个任务的集合;而DS={ds1,ds2,...,dsm}表示该科学工作流中所有数据集的集合;E表示任务与数据之间的依赖矩阵,若eij=1,代表任务tj的执行需要数据集dsi;G表示数据与任务之间的依赖矩阵,若gnm=1,代表数据集dsm是由任务tn产生;任务ti=<Inputi,Outputi>,其中,Inputi表示其输入数据集的集合,Outputi表示其输出数据集的集合;数据集dsi=<sizei,gti,pci>,其中,sizei表示该数据集的大小,gti表示生成数据集dsi的任务,pci表示dsi必须存放的私有数据中心;其中,gti由公式(1)表示,pci由公式(2)表示:
其中,DSinit和DSgen分别表示初始数据集集合和生成数据集集合,GT(dsi)表示产生数据集dsi的任务;数据集按照其隐私性又可以分成隐私数据集DSpri和非隐私数据集DSpub,place(dsi)表示dsi指定存放的数据中心;
混合云环境由多个数据中心组成,数据中心集合DC={dc1,dc2,...,dcn},其中,dci=<sizei,availsizei,prii,storecosti>sizei表示数据中心dci的存储容量,availsizei表示数据中心dci的可用容量,prii表示数据中心的类型,当prii=1时,表示数据中心属于私有云数据中心,能够存放隐私数据和非隐私数据;当prii=0时,表示数据中心属于共有云数据中心,只能够存放非隐私数据;storecosti表示存储单位容量的数据需要的花费;不同数据中心之间具有不同的传输带宽,其中对且i≠j,bandij表示数据中心dci和数据中心dcj之间的网络传输带宽,并且bandij=bandji;不同数据中心之间具有不同的单位传输代价,对且i≠j,costij表示数据中心dci和数据中心dcj之间的单位传输代价,并且costij=costji;
而后,将整个数据布局的方案定义为S=(Map,Trans,Ctotal,Ttotal),其中,Map是数据放置的映射集合,集合中每一个元素map(dsi,dcj)表示数据集dsi被放置在数据中心dcj上;Trans={trans1,trans2,...,transn}表示一组产生传输代价的数据调度集合,transn=<dsk,dci,dcj>表示数据集dsk从数据中心dci传输到数据中心dcj的一次传输,该传输将同时产生传输时间和传输代价;其中,传输时间如公式(3)所示,传输代价如公式(4)所示;
数据的存储总代价Cs如公式(5)所示:
Ctotal表示数据布局下,整个科学工作流完成时产生的总代价,如公式(6)所示,Ttotal表示该数据布局下,科学工作流的总传输时延,如公式(7)所示;
同时,对于整个科学工作流,定义一个总传输时延约束TimeLimit,表示该工作流产生的总传输时延不能超过该约束;
综上,将混合云环境下面向代价优化的科学工作流数据布局问题,用下述公式(8)表示,其目标是最小化数据布局总代价Ctotal的同时,满足科学工作流的总传输时延约束和满足每个数据中心容量限制;
4.根据权利要求3所述的混合云环境下面向代价优化的工作流数据布局方法,其特征在于:所述对遗传粒子进行问题编码的具体过程如下:
采用数据集-数据中心的离散编码方式来构造粒子;在第t次迭代时,粒子i的位置Xi t如公式(9)所示:
Xi t=(xi1 t,xi2 t,...,xin t) (9)
每个粒子由n维元素组成,n代表科学工作流中非隐私数据集的数量;xik t(k=1,2,…,n)表示第k个非隐私数据集在第t次迭代的存储的数据中心编号,即xik t的取值范围为[1,|DC|]。
5.根据权利要求4所述的混合云环境下面向代价优化的工作流数据布局方法,其特征在于,所述适应度函数公式如下:
若粒子为可行解粒子,则其适应度函数值为其数据布局总代价Ctotal,若粒子为不可行解粒子,则将其数据布局总代价视为无限,即其适应度函数值为无限大;其中,可行解粒子表示编码粒子所对应的数据布局总传输延时小于总传输时延限制要求,且所有数据中心的剩余可用容量均大于0;不可行解粒子表示编码粒子所对应的数据布局总传输延时学大于科学工作流总传输时延限制要求,或某个数据中心的剩余容量小于0。
6.根据权利要求5所述的混合云环境下面向代价优化的工作流数据布局方法,其特征在于,所述基于适应度函数,初始化种群并根据GAPSO的粒子更新策略对粒子种群不断更新迭代从而求得近似最优解的具体过程如下:
1)初始化种群
2)对于每一代粒子,按照适应度函数值排序,选择前50%的优秀个体,通过如下公式(11)变化后进入到下一代;
其中个体交叉部分与种群交叉部分如公式(10)与公式(11):
若变化后的粒子为不可行解粒子,则重新对原粒子进行变化直到其变为可行解粒子;
3)剩下的50%个体,随机选取前50%优秀个体中的一个,进行遗传算法中的交叉与变异操作后进入下一代,其变化公式(14)如下:
其中变异部分如公式(13):
若变化后的粒子为不可行解粒子,则重新选择前50%优秀个体中的一个进行交叉与变异操作,直到下一代种群个体数目达到原始种群规模;
4)对于每一代粒子,更新一次族群历史最优值,若更新超过100代,族群历史最优值没有更新或更新迭代次数达到设置的最大迭代次数,停止更新,并将族群历史最优粒子做为解输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910317130.0A CN110033076B (zh) | 2019-04-19 | 2019-04-19 | 混合云环境下面向代价优化的工作流数据布局方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910317130.0A CN110033076B (zh) | 2019-04-19 | 2019-04-19 | 混合云环境下面向代价优化的工作流数据布局方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110033076A true CN110033076A (zh) | 2019-07-19 |
CN110033076B CN110033076B (zh) | 2022-08-05 |
Family
ID=67239172
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910317130.0A Expired - Fee Related CN110033076B (zh) | 2019-04-19 | 2019-04-19 | 混合云环境下面向代价优化的工作流数据布局方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110033076B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110809275A (zh) * | 2019-11-08 | 2020-02-18 | 福州大学 | 基于无线城域网的微云节点放置方法 |
CN112256925A (zh) * | 2020-10-21 | 2021-01-22 | 西安电子科技大学 | 一种面向多请求的科学工作流数据集存储方法 |
CN112256926A (zh) * | 2020-10-21 | 2021-01-22 | 西安电子科技大学 | 一种云环境中科学工作流数据集的存储方法 |
CN112632615A (zh) * | 2020-12-30 | 2021-04-09 | 福州大学 | 基于混合云环境的科学工作流数据布局方法 |
CN113411369A (zh) * | 2020-03-26 | 2021-09-17 | 山东管理学院 | 一种云服务资源协同优化调度方法、系统、介质及设备 |
CN114595914A (zh) * | 2021-07-27 | 2022-06-07 | 北方工业大学 | 一种面向云环境的工作流调度方法及系统 |
CN114595914B (zh) * | 2021-07-27 | 2024-06-07 | 北方工业大学 | 一种面向云环境的工作流调度方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105068863A (zh) * | 2015-07-16 | 2015-11-18 | 福州大学 | 多云环境下带截止日期约束工作流的基于代价驱动调度方法 |
CN105260818A (zh) * | 2015-09-17 | 2016-01-20 | 福州大学 | 混合云环境下带截止日期约束工作流组的在线优化调度方法 |
CN107656799A (zh) * | 2017-11-06 | 2018-02-02 | 福建师范大学 | 一种多云环境下考虑通信和计算代价的工作流调度方法 |
US20180136976A1 (en) * | 2016-11-14 | 2018-05-17 | King Abdulaziz University | Temporal task scheduling in a hybrid system |
CN108182109A (zh) * | 2017-12-28 | 2018-06-19 | 福州大学 | 一种云环境下的工作流调度与数据分配方法 |
CN108647771A (zh) * | 2018-05-07 | 2018-10-12 | 福建师范大学 | 一种混合云环境下科学工作流数据的布局方法 |
CN108989098A (zh) * | 2018-08-24 | 2018-12-11 | 福建师范大学 | 一种混合云环境面向时延优化的科学工作流数据布局方法 |
-
2019
- 2019-04-19 CN CN201910317130.0A patent/CN110033076B/zh not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105068863A (zh) * | 2015-07-16 | 2015-11-18 | 福州大学 | 多云环境下带截止日期约束工作流的基于代价驱动调度方法 |
CN105260818A (zh) * | 2015-09-17 | 2016-01-20 | 福州大学 | 混合云环境下带截止日期约束工作流组的在线优化调度方法 |
US20180136976A1 (en) * | 2016-11-14 | 2018-05-17 | King Abdulaziz University | Temporal task scheduling in a hybrid system |
CN107656799A (zh) * | 2017-11-06 | 2018-02-02 | 福建师范大学 | 一种多云环境下考虑通信和计算代价的工作流调度方法 |
CN108182109A (zh) * | 2017-12-28 | 2018-06-19 | 福州大学 | 一种云环境下的工作流调度与数据分配方法 |
CN108647771A (zh) * | 2018-05-07 | 2018-10-12 | 福建师范大学 | 一种混合云环境下科学工作流数据的布局方法 |
CN108989098A (zh) * | 2018-08-24 | 2018-12-11 | 福建师范大学 | 一种混合云环境面向时延优化的科学工作流数据布局方法 |
Non-Patent Citations (5)
Title |
---|
ZHANGHUI LIU ET AL.: "A Data Placement Strategy for Scientific Workflow in Hybrid Cloud", 《2018 IEEE 11TH INTERNATIONAL CONFERENCE ON CLOUD COMPUTING (CLOUD)》 * |
李学俊 等: "混合云中面向数据中心的工作流数据布局方法", 《软件学报》 * |
林兵 等: "多云环境下带截止日期约束的科学工作流调度策略", 《通信学报》 * |
程慧敏 等: "云环境下基于多目标优化的科学工作流数据布局策略", 《计算机应用与软件》 * |
黄引豪: "混合云环境下面向代价优化的工作流数据布局方法", 《计算机科学》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110809275A (zh) * | 2019-11-08 | 2020-02-18 | 福州大学 | 基于无线城域网的微云节点放置方法 |
CN113411369A (zh) * | 2020-03-26 | 2021-09-17 | 山东管理学院 | 一种云服务资源协同优化调度方法、系统、介质及设备 |
CN112256925A (zh) * | 2020-10-21 | 2021-01-22 | 西安电子科技大学 | 一种面向多请求的科学工作流数据集存储方法 |
CN112256926A (zh) * | 2020-10-21 | 2021-01-22 | 西安电子科技大学 | 一种云环境中科学工作流数据集的存储方法 |
CN112256926B (zh) * | 2020-10-21 | 2022-10-04 | 西安电子科技大学 | 一种云环境中科学工作流数据集的存储方法 |
CN112632615A (zh) * | 2020-12-30 | 2021-04-09 | 福州大学 | 基于混合云环境的科学工作流数据布局方法 |
CN112632615B (zh) * | 2020-12-30 | 2023-10-31 | 福州大学 | 基于混合云环境的科学工作流数据布局方法 |
CN114595914A (zh) * | 2021-07-27 | 2022-06-07 | 北方工业大学 | 一种面向云环境的工作流调度方法及系统 |
CN114595914B (zh) * | 2021-07-27 | 2024-06-07 | 北方工业大学 | 一种面向云环境的工作流调度方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110033076B (zh) | 2022-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110033076A (zh) | 混合云环境下面向代价优化的工作流数据布局方法 | |
Wang et al. | Modeling and optimization of multi-objective partial disassembly line balancing problem considering hazard and profit | |
Ding et al. | A bi-objective load balancing model in a distributed simulation system using NSGA-II and MOPSO approaches | |
Trivedi et al. | Enhanced multiobjective evolutionary algorithm based on decomposition for solving the unit commitment problem | |
Konak et al. | Multi-objective optimization using genetic algorithms: A tutorial | |
Torabi et al. | A particle swarm optimization for a fuzzy multi-objective unrelated parallel machines scheduling problem | |
Afshar et al. | Optimizing multi-reservoir operation rules: an improved HBMO approach | |
Mohammadi et al. | Development, application, and comparison of hybrid meta-heuristics for urban land-use allocation optimization: Tabu search, genetic, GRASP, and simulated annealing algorithms | |
Wang et al. | Partial disassembly line balancing for energy consumption and profit under uncertainty | |
Bergey et al. | A simulated annealing genetic algorithm for the electrical power districting problem | |
CN107579518B (zh) | 基于mhba的电力系统环境经济调度方法和装置 | |
CN103488537B (zh) | 一种数据抽取、转换和加载etl的执行方法及装置 | |
Jat et al. | A memetic algorithm for the university course timetabling problem | |
CN114565239A (zh) | 用于产业园区的综合低碳能源调度方法及系统 | |
CN110390491A (zh) | 一种公路工程多目标施工计划确定方法 | |
Zaman et al. | Multi-method based algorithm for multi-objective problems under uncertainty | |
Zhang et al. | Multi-hive artificial bee colony algorithm for constrained multi-objective optimization | |
Wang et al. | Simultaneous node and link districting in transportation networks: Model, algorithms and railway application | |
Guo et al. | An effective fruit fly optimization algorithm for the distributed permutation flowshop scheduling problem with total flowtime | |
Liang et al. | Multi-parallel disassembly line balancing problem and improved ant lion optimizer for mixed-waste electrical and electronic equipment | |
Cai et al. | Multitasking bi-level evolutionary algorithm for data-intensive scientific workflows on clouds | |
CN107180286A (zh) | 基于改进型花粉算法的制造服务供应链优化方法及系统 | |
Liang et al. | Recycling scheduling of urban damaged shared bicycles based on improved genetic algorithm | |
Hu et al. | Dynamic services selection algorithm in web services composition supporting cross-enterprises collaboration | |
CN110119317A (zh) | 一种基于遗传算法的云计算任务调度方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220805 |