CN110033076A

CN110033076A - 混合云环境下面向代价优化的工作流数据布局方法

Info

Publication number: CN110033076A
Application number: CN201910317130.0A
Authority: CN
Inventors: 於志勇; 黄引豪; 陈星�; 郑勇杰; 黄志豪
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2019-04-19
Filing date: 2019-04-19
Publication date: 2019-07-19
Anticipated expiration: 2039-04-19
Also published as: CN110033076B

Abstract

本发明涉及一种混合云环境下面向代价优化的工作流数据布局方法。首先，进行混合云环境下面向代价优化的科学工作流数据布局问题建模，将问题目标形式化得到目标函数；其次，对遗传粒子进行问题编码，实现粒子到数据布局策略的一一对应关系；再而，基于目标函数设计适应度函数来评价粒子优劣；最后，基于适应度函数，初始化种群并根据GAPSO的粒子更新策略对粒子种群不断更新迭代从而求得近似最优解。本发明方法可以有效降低混合云环境下科学工作流的执行代价。

Description

混合云环境下面向代价优化的工作流数据布局方法

技术领域

本发明涉及一种混合云环境下面向代价优化的工作流数据布局方法。

背景技术

科学工作流是一种以降低计算成本为目标的海量密集数据流的典型应用系统。科学工作流中计算任务节点之间的依赖关系非常复杂，数据集的大小可以达到TB甚至PB量级。随着云计算的出现，其高效、灵活、可伸缩性等特点为执行大型科学工作流提供了新的思路。云上充足的计算、存储与网络资源等使得科学工作流能更好的执行。通过在云环境下执行科学工作流，可以有效的减少执行代价，降低成本，然而如何在云上合理调度和管理资源是云计算目前面临的一个重要问题。混合云是一种融合了公有云和私有云的混合计算环境，公有云以其高伸缩性、低成本、可定制等特点为科学工作流的执行提供了服务保障，而私有云是一个公司或组织建立的内部数据存储中心。混合云结合了公有云与私有云各自的优势，而混合云环境下的科学工作流研究已经成为了科学工作流研究的热点。在混合云环境下对科学工作流进行数据布局，需要综合考虑公有云与私有云的优势。如何针对公有云与私有云各自的优势，降低数据传输延时以及数据布局代价，形成合理的数据布局方案成为了科学工作流数据布局问题的新的挑战。

发明内容

本发明的目的在于提供一种混合云环境下面向代价优化的工作流数据布局方法，该方法考虑了公有云数据中心与私有云数据中心的不同特点如存储容量、存储代价等因素以及数据传输时延约束对传输代价的影响，并结合遗传算法与粒子群优化算法的优点，生成科学工作流的布局策略。

为实现上述目的，本发明的技术方案是：一种混合云环境下面向代价优化的工作流数据布局方法，首先，进行混合云环境下面向代价优化的科学工作流数据布局问题建模，将问题目标形式化得到目标函数；其次，对遗传粒子进行问题编码，实现粒子到数据布局策略的一一对应关系；再而，基于目标函数设计适应度函数来评价粒子优劣；最后，基于适应度函数，初始化种群并根据GAPSO的粒子更新策略对粒子种群不断更新迭代从而求得近似最优解。

在本发明一实施例中，所述目标函数如下：

Minimize C_total

subject to T_total≤TimeLimit

上式表示目标是最小化数据布局总代价C_total的同时，满足科学工作流的总传输时延约束和满足每个数据中心容量限制；其中，T_total表示整个科学工作流的总传输时延，TimeLimit表示整个科学工作流的总传输时延约束；availsize_i表示数据中心dc_i的可用容量。

在本发明一实施例中，所述进行混合云环境下面向代价优化的科学工作流数据布局问题建模，将问题目标形式化得到目标函数的具体过程如下：

科学工作流由有向无环图W＝(T,DS,E,G)组成，其中，T＝{t₁,t₂,...,t_n}表示包含_n个任务的集合；而DS＝{ds₁,ds₂,...,ds_m}表示该科学工作流中所有数据集的集合；E表示任务与数据之间的依赖矩阵，若e_ij＝1，代表任务t_j的执行需要数据集ds_i；G表示数据与任务之间的依赖矩阵，若g_nm＝1，代表数据集ds_m是由任务t_n产生；任务t_i＝<Input_i,Output_i>，其中，Input_i表示其输入数据集的集合，Output_i表示其输出数据集的集合；数据集ds_i＝<size_i,gt_i,pc_i>，其中，size_i表示该数据集的大小，gt_i表示生成数据集ds_i的任务，pc_i表示ds_i必须存放的私有数据中心；其中，gt_i由公式(1)表示，pc_i由公式(2)表示：

其中，DS_init和DS_gen分别表示初始数据集集合和生成数据集集合，GT(ds_i)表示产生数据集ds_i的任务；数据集按照其隐私性又可以分成隐私数据集DS_pri和非隐私数据集DS_pub，place(ds_i)表示ds_i指定存放的数据中心；

混合云环境由多个数据中心组成，数据中心集合DC＝{dc₁,dc₂,...,dc_n}，其中，dc_i＝<size_i,availsize_i,pri_i,storecost_i>size_i表示数据中心dc_i的存储容量，availsize_i表示数据中心dc_i的可用容量，pri_i表示数据中心的类型，当pri_i＝1时，表示数据中心属于私有云数据中心，能够存放隐私数据和非隐私数据；当pri_i＝0时，表示数据中心属于共有云数据中心，只能够存放非隐私数据；storecost_i表示存储单位容量的数据需要的花费；不同数据中心之间具有不同的传输带宽，其中对且i≠j,bandij表示数据中心dc_i和数据中心dc_j之间的网络传输带宽，并且band_ij＝band_ji；不同数据中心之间具有不同的单位传输代价，对且i≠j,costij表示数据中心dc_i和数据中心dc_j之间的单位传输代价，并且cost_ij＝cost_ji；

而后，将整个数据布局的方案定义为S＝(Map,Trans,C_total,T_total)，其中，Map是数据放置的映射集合，集合中每一个元素map(ds_i,dc_j)表示数据集ds_i被放置在数据中心dc_j上；Trans＝{trans₁,trans₂,...,trans_n}表示一组产生传输代价的数据调度集合，trans_n＝<ds_k,dc_i,dc_j>表示数据集ds_k从数据中心dc_i传输到数据中心dc_j的一次传输，该传输将同时产生传输时间和传输代价；其中，传输时间如公式(3)所示，传输代价如公式(4)所示；

数据的存储总代价C_s如公式(5)所示：

C_total表示数据布局下，整个科学工作流完成时产生的总代价，如公式(6)所示，T_total表示该数据布局下，科学工作流的总传输时延，如公式(7)所示；

同时，对于整个科学工作流，定义一个总传输时延约束TimeLimit，表示该工作流产生的总传输时延不能超过该约束；

综上，将混合云环境下面向代价优化的科学工作流数据布局问题，用下述公式(8)表示，其目标是最小化数据布局总代价C_total的同时，满足科学工作流的总传输时延约束和满足每个数据中心容量限制；

在本发明一实施例中，所述对遗传粒子进行问题编码的具体过程如下：

采用数据集-数据中心的离散编码方式来构造粒子；在第t次迭代时，粒子i的位置X_i ^t如公式(9)所示：

X_i ^t＝(x_i1 ^t,x_i2 ^t,...,x_in ^t) (9)

每个粒子由n维元素组成，n代表科学工作流中非隐私数据集的数量；x_ik ^t(k＝1,2,…,n)表示第k个非隐私数据集在第t次迭代的存储的数据中心编号，即x_ik ^t的取值范围为[1,|DC|]。

在本发明一实施例中，所述适应度函数公式如下：

若粒子为可行解粒子，则其适应度函数值为其数据布局总代价C_total，若粒子为不可行解粒子，则将其数据布局总代价视为无限，即其适应度函数值为无限大；其中，可行解粒子表示编码粒子所对应的数据布局总传输延时小于总传输时延限制要求，且所有数据中心的剩余可用容量均大于0；不可行解粒子表示编码粒子所对应的数据布局总传输延时学大于科学工作流总传输时延限制要求，或某个数据中心的剩余容量小于0。

在本发明一实施例中，所述基于适应度函数，初始化种群并根据GAPSO的粒子更新策略对粒子种群不断更新迭代从而求得近似最优解的具体过程如下：

1)初始化种群

2)对于每一代粒子，按照适应度函数值排序，选择前50％的优秀个体，通过如下公式(11)变化后进入到下一代；

其中个体交叉部分与种群交叉部分如公式(10)与公式(11)：

若变化后的粒子为不可行解粒子，则重新对原粒子进行变化直到其变为可行解粒子；

3)剩下的50％个体，随机选取前50％优秀个体中的一个，进行遗传算法中的交叉与变异操作后进入下一代，其变化公式(14)如下：

其中变异部分如公式(13)：

若变化后的粒子为不可行解粒子，则重新选择前50％优秀个体中的一个进行交叉与变异操作，直到下一代种群个体数目达到原始种群规模；

4)对于每一代粒子，更新一次族群历史最优值，若更新超过100代，族群历史最优值没有更新或更新迭代次数达到设置的最大迭代次数，停止更新，并将族群历史最优粒子做为解输出。

相较于现有技术，本发明具有以下有益效果：本发明方法既注重了种群每一代之间的进化过程，又注重了优秀个体的保留与再成熟，解决了传统遗传算法的过早收敛问题，提高了种群多样性。

附图说明

图1为本发明方法流程示意图。

图2为默认实验环境下两种不同规模大小的五种真实科学工作流在不同算法下的执行代价。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

如图1所示，对于一个给定的科学工作流以及一个混合云环境，本发明提出一种基于遗传粒子群优化混合算法(GAPSO)的数据布局方法。首先，对混合云环境下面向代价优化的工作流数据布局问题进行问题建模，将问题目标形式化得到目标函数。其次，对遗传粒子进行问题编码，实现粒子到数据布局策略的一一对应关系。再而，设计合适的适应度函数来评价粒子优劣。最后，初始化种群并根据GAPSO的粒子更新策略对粒子种群不断更新迭代从而求得近似最优解。该方法可以有效降低混合云环境下科学工作流的执行代价。

本发明具体实现方式如下：

1、设计模式

定义1：科学工作流

科学工作流由有向无环图W＝(T,DS,E,G)组成，其中，T＝{t₁,t₂,...,t_n}表示包含_n个任务的集合；而DS＝{ds₁,ds₂,...,ds_m}表示该科学工作流中所有数据集的集合；E表示任务与数据之间的依赖矩阵，若e_ij＝1，代表任务t_j的执行需要数据集ds_i；G表示数据与任务之间的依赖矩阵，若g_nm＝1，代表数据集ds_m是由任务t_n产生。

定义2：任务

对于科学工作流中的每个任务t_i＝<Input_i,Output_i>，其中，Input_i表示其输入数据集的集合，Output_i表示其输出数据集的集合；在科学工作流中，任务和数据集之间的关系是多对多的，一个任务可以产生多个数据集，一个数据也可以被多个任务使用。

定义3：数据集

对于科学工作流中的每个数据集ds_i＝<size_i,gt_i,pc_i>，其中，size_i表示该数据集的大小，gt_i表示生成数据集ds_i的任务，pc_i表示ds_i必须存放的私有数据中心；其中，gt_i由公式(1)表示，pc_i由公式(2)表示：

其中，DS_init和DS_gen分别表示初始数据集集合和生成数据集集合，GT(ds_i)表示产生数据集ds_i的任务；数据集按照其隐私性又可以分成隐私数据集DS_pri和非隐私数据集DS_pub，place(ds_i)表示ds_i指定存放的数据中心。

定义4：数据中心

混合云环境由多个数据中心组成，数据中心集合DC＝{dc₁,dc₂,...,dc_n}，其中，dc_i＝<size_i,availsize_i,pri_i,storecost_i>size_i表示数据中心dc_i的存储容量，availsize_i表示数据中心dc_i的可用容量，pri_i表示数据中心的类型，当pri_i＝1时，表示数据中心属于私有云数据中心，能够存放隐私数据和非隐私数据；当pri_i＝0时，表示数据中心属于共有云数据中心，只能够存放非隐私数据；storecost_i表示存储单位容量的数据需要的花费。私有云的建立及维护等需要花费大量代价，因此私有云存储代价会远远大于公有云存储代价。

定义5：带宽矩阵

不同数据中心之间具有不同的传输带宽，其中对且i≠j,bandij表示数据中心dc_i和数据中心dc_j之间的网络传输带宽，并且band_ij＝band_ji；本发明实验假设数据中心的带宽值是固定的，即不会产生变化。因为地理距离等原因，私有云数据中心间的带宽大小大约是公有云数据中心的带宽的10倍。

定义6：传输代价矩阵

不同数据中心之间具有不同的单位传输代价，对且i≠j,costij表示数据中心dci和数据中心dc_j之间的单位传输代价，并且cost_ij＝cost_ji。由于私有云之间使用内网传输，所以相比于私有云与公有云之间的数据传输，私有云之间的数据传输代价可以忽略不计。

定义7：数据布局方案

本发明将整个数据布局的方案定义为S＝(Map,Trans,C_total,T_total)，其中，Map是数据放置的映射集合，集合中每一个元素map(ds_i,dc_j)表示数据集ds_i被放置在数据中心dc_j上；Trans＝{trans₁,trans₂,...,trans_n}表示一组产生传输代价的数据调度集合，trans_n＝<ds_k,dc_i,dc_j>表示数据集ds_k从数据中心dc_i传输到数据中心dc_j的一次传输，该传输将同时产生传输时间和传输代价；其中，传输时间如公式(3)所示，传输代价如公式(4)所示；

数据的存储总代价C_s如公式(5)所示：

通过上述的基本定义，本发明混合云环境下面向代价优化的科学工作流数据布局问题，可用下述公式(8)表示，其目标是最小化数据布局总代价C_total的同时，满足科学工作流的总传输时延约束和满足每个数据中心容量限制；

2、问题编码

本发明提出一种基于遗传粒子群优化混合算法(GAPSO)的数据布局策略，粒子在GAPSO算法中是非常重要的概念，每一个粒子代表优化问题的一个候选解，粒子通过自身历史最优值与族群历史最优值不断在解空间中迭代更新。

问题编码的方式会直接影响到算法搜索效率和性能，因此我们需要一种好的问题编码来解决科学工作流数据布局问题。本文采用数据集-数据中心的离散编码方式来构造粒子。在第t次迭代时，粒子i的位置X_i ^t如公式(9)所示。

X_i ^t＝(x_i1 ^t,x_i2 ^t,...,x_in ^t) (9)

每个粒子由n维元素组成，n代表科学工作流中非隐私数据集的数量。x_ik ^t(k＝1,2,…,n)表示第k个非隐私数据集在第t次迭代的存储的数据中心编号，即x_ik ^t的取值范围为[1,|DC|]。因为在混合云环境下，隐私数据集的存储位置始终是固定不变的，不会因粒子的迭代而变化，所以我们只对非隐私数据集做编码。

3、适应度函数

粒子的适应度函数是评价粒子的优劣性的主要指标，我们通常规定适应度函数值较小的粒子对应更优的解。由于会出现粒子对应的解的总传输时延超过约束总传输时延或某个数据中心存储的数据集总大小超过其容量，则该粒子为不可行粒子，所以我们需要对可行粒子与不可行粒子的适应度函数区分定义。本文的目的是最小化科学工作流数据布局的跨数据中心传输与存储代价，所以可以直接将适应度函数定义为该粒子所对应解的数据布局总代价，这样，粒子适应度值越小的粒子表现越优。

定义8：可行解粒子

编码粒子所对应的数据布局总传输延时小于总传输时延限制要求，且所有数据中心的剩余可用容量均大于0。

定义9：不可行解粒子

编码粒子所对应的数据布局总传输延时学大于科学工作流总传输时延限制要求，或某个数据中心的剩余容量小于0。

适应度函数如公式(10)所示。

若粒子为可行解粒子，则其适应度函数值为其数据布局总代价C_total，若粒子为不可行解粒子，则将其数据布局总代价视为无限，即其适应度函数值为无限大。

4、粒子更新策略

为结合PSO算法与GA算法各自的优点，粒子采用如下更新策略。

1)初始化种群

其中个体交叉部分与种群交叉部分如公式(10)与公式(11)：

其中变异部分如公式(13)：

若变化后的粒子为不可行解粒子，则重新选择前50％优秀个体中的一个进行交叉与变异操作，直到下一代种群个体数目达到原始种群规模。

4)对于每一代粒子，我们更新一次族群历史最优值，若更新超过100代，族群历史最优值没有更新或更新迭代次数达到设置的最大迭代次数，停止更新，并将族群历史最优粒子做为解输出。

5、实验结果及分析

为了对比基于GAPSO算法的数据布局策略的有效性，改进了基于遗传算法的数据布局策略，使之可以适应于本发明的问题模型。同时，加入随机布局与本发明策略对比。

如图2所示，是默认实验环境下两种不同规模大小的五种真实科学工作流在不同算法下的执行代价。总体上来看，无论是小型、中型、还是大型工作流，GA算法与本文的GAPSO算法对比随机布局结果，均能取得更好的数据布局结果，其数据布局产生的数据布局代价平均只有随机布局结果的30％到40％。而本发明的GAPSO算法在数据布局代价上略优于GA算法，其主要原因是遗传算法策略每次迭代的搜索范围较为固定，且没有充分考虑每一代的个体的情况，导致遗传算法在搜索后期效率低下且过早收敛。而本发明GAPSO算法既注重了种群每一代之间的进化过程，又注重了优秀个体的保留与再成熟，解决了传统遗传算法的过早收敛问题，提高了种群多样性，因此平均数据布局代价要略低于GA算法。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种混合云环境下面向代价优化的工作流数据布局方法，其特征在于，首先，进行混合云环境下面向代价优化的科学工作流数据布局问题建模，将问题目标形式化得到目标函数；其次，对遗传粒子进行问题编码，实现粒子到数据布局策略的一一对应关系；再而，基于目标函数设计适应度函数来评价粒子优劣；最后，基于适应度函数，初始化种群并根据GAPSO的粒子更新策略对粒子种群不断更新迭代从而求得近似最优解。

2.根据权利要求1所述的混合云环境下面向代价优化的工作流数据布局方法，其特征在于：所述目标函数如下：

Minimize C_total

subject to T_total≤TimeLimit

3.根据权利要求2所述的混合云环境下面向代价优化的工作流数据布局方法，其特征在于，所述进行混合云环境下面向代价优化的科学工作流数据布局问题建模，将问题目标形式化得到目标函数的具体过程如下：

数据的存储总代价C_s如公式(5)所示：

4.根据权利要求3所述的混合云环境下面向代价优化的工作流数据布局方法，其特征在于：所述对遗传粒子进行问题编码的具体过程如下：

X_i ^t＝(x_i1 ^t,x_i2 ^t,...,x_in ^t) (9)

5.根据权利要求4所述的混合云环境下面向代价优化的工作流数据布局方法，其特征在于，所述适应度函数公式如下：

6.根据权利要求5所述的混合云环境下面向代价优化的工作流数据布局方法，其特征在于，所述基于适应度函数，初始化种群并根据GAPSO的粒子更新策略对粒子种群不断更新迭代从而求得近似最优解的具体过程如下：

1)初始化种群

其中个体交叉部分与种群交叉部分如公式(10)与公式(11)：

其中变异部分如公式(13)：