CN112632615A - 基于混合云环境的科学工作流数据布局方法 - Google Patents

基于混合云环境的科学工作流数据布局方法 Download PDF

Info

Publication number
CN112632615A
CN112632615A CN202011599293.1A CN202011599293A CN112632615A CN 112632615 A CN112632615 A CN 112632615A CN 202011599293 A CN202011599293 A CN 202011599293A CN 112632615 A CN112632615 A CN 112632615A
Authority
CN
China
Prior art keywords
data
data center
task
data set
scientific workflow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011599293.1A
Other languages
English (en)
Other versions
CN112632615B (zh
Inventor
刘漳辉
赵旭
林兵
陈星�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202011599293.1A priority Critical patent/CN112632615B/zh
Publication of CN112632615A publication Critical patent/CN112632615A/zh
Application granted granted Critical
Publication of CN112632615B publication Critical patent/CN112632615B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6263Protecting personal data, e.g. for financial or medical purposes during internet communication, e.g. revealing personal data from cookies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于混合云环境的科学工作流数据布局方法,包括以下步骤:步骤S1:设定隐私数据集和数据中心最大容量条件,并初始化相关参数;步骤S2:以最小化数据模糊传输时间为目标,并考虑到数据中心的容量约束,在引入不确定性概念后,构建混合云环境下面向模糊时间优化的科学工作流数据布局模型;步骤S3:构建若干初始方案;步骤S4:构建粒子到数据布局结果的映射关系;步骤S5:基于改进的FGA‑DPSO的数据布局算法,获取最优方案。本发明基于混合云环境,实现有效的科学工作流数据布局。

Description

基于混合云环境的科学工作流数据布局方法
技术领域
本发明涉及信息技术领域,具体涉及一种基于混合云环境的科学工作流数据布局方法。
背景技术
随着大数据技术的广泛应用,现代网络环境产生的数据量日益增长,传统的网格计算等分布式计算已经不能满足海量数据的处理需要,云计算成为了研究热点。混合云环境具有高共享性、高利用性和可定制的优点,由分布在不同地理位置上的数据中心组成,是包括多个私有数据中心和公有数据中心的混合网络计算环境:公有云具有高可靠性和容量极大等优点,其核心特质是资源共享;私有云具有高灵活性和高安全性等优点,能够在工作运行过程中保证数据的隐私。
许多工作步骤严格的科学研究因为流程的复杂和数据量的不断增加,无法人工管理这些科学研究过程,所以采用工作流技术来管理。用于管理、监控和执行这些科学过程的工作流叫做科学工作流。科学工作流涉及到的数据量巨大,通常需要存储于分布在不同地理位置的数据中心,而在科学工作流的运行过程中需要跨数据中心传输这些数据,所以以减少科学工作流运行时的数据传输时间为目标,在带宽有限的条件下对混合云环境下的科学工作流进行数据布局是必要的。
发明内容
有鉴于此,本发明的目的在于提供一种基于混合云环境的科学工作流数据布局方法,有效的对科学工作流数据进行布局。
为实现上述目的,本发明采用如下技术方案:
一种基于混合云环境的科学工作流数据布局方法,包括以下步骤:
步骤S1:设定隐私数据集和数据中心最大容量条件,并初始化相关参数;
步骤S2:以最小化数据模糊传输时间为目标,并考虑到数据中心的容量约束,在引入不确定性概念后,构建混合云环境下面向模糊时间优化的科学工作流数据布局模型;
步骤S3:构建若干初始方案;
步骤S4:构建粒子到数据布局结果的映射关系;
步骤S5:基于改进的FGA-DPSO的数据布局算法,获取最优方案。
进一步的,所述混合云环境由一定数量的公有数据中心和一定数量的私有数据中心构成,其中私有数据中心容量一定,具体的如式(1)所示:
Figure BDA0002870624770000021
其中:DCpub表示公有数据中心集合;DCpri表示私有数据中心集合;dci表示编号为i的数据中心;Vi表示数据中心的最大容量;Δi∈{0,1}表示数据中心dci的属性,若dci∈DCpub,则Δi=0,dci只能存放公有数据,若dci∈DCpri,则Δi=1,dci可以存放公有数据和隐私数据。
进一步的,所述科学工作流由任务和数据集构成
所述任务之间存在数据依赖关系,即一个任务的输出数据集可能是其他任务的输入数据集,还存在时序上的先后关系,即只有当一个任务的前驱任务全部执行完毕,该任务才能执行,当所有任务执行完毕后,该科学工作流也随即结束;
所述数据集分为隐私数据集和公有数据集两类:隐私数据集只能存放在固定的私有数据中心,以其为输入数据集的任务也必须调度到该数据中心上运行;公有数据集则无存储位置限制;
具体的科学工作流为有向无环图G,如式(2)所示:
Figure BDA0002870624770000031
其中:T表示科学工作流中所有任务的集合;E表示科学工作流中不同任务之间的所有数据依赖关系的集合,DS表示科学工作流中所有数据集的集合;tc表示编号为c的任务;eij表示任务ti与任务tj之间的数据依赖关系,且ti是tj的直接先驱任务;dsl表示编号为l的数据集;Ii表示任务ti的输入数据集合;Oi表示任务ti的输出数据集合;DC(ti)表示任务ti的执行数据中心;vi表示数据集dsi的大小;gti表示生成数据集dsi的任务编号,其中初始数据集的gti为0;lci表示存放数据集dsi的数据中心编号。
进一步的,所述混合云环境下面向模糊时间优化的科学工作流数据布局模型,具体为:
Figure BDA0002870624770000041
其中uij={0,1}表示数据集dsj是否存放于数据中心dci,是则uij=1,否则uij=0。
进一步的,所述步骤S4具体为:
①初始化每个数据中心的已存储数据量dccur(i)为0,布局方案的总模糊传输时间设置为
Figure BDA0002870624770000042
②初始化完成后,按照每个初始数据集对应的编号,将其放置到对应编号的数据中心,更新该数据中心的已存储量dccur(X[i])并进行判断,即若该数据中心的已存储量超过该数据中心的最大容量,则该粒子对应的解不可行,中止当前操作并返回;
③按执行顺序遍历所有任务,在遍历过程中总是选择模糊传输时间最小的数据中心dcj将任务tj放置并进行判断,当该粒子对应的解不可行,即数据中心dcj的当前存储量、任务tj的输入数据集大小sum(Ij)和输出数据集大小sum(Oj)之和超出该数据中心的最大容量时,中止当前操作并返回;反之,则将任务tj的输出数据集Oj放置到对应的数据中心并更新已存储量;
④按执行顺序遍历所有任务,计算每条需要跨数据中心传输的数据集所花费的模糊数据传输时间
Figure BDA0002870624770000043
累加得到总模糊传输时间
Figure BDA0002870624770000044
⑤输出
Figure BDA0002870624770000045
和该编码粒子及其对应的数据布局策略。
进一步的,所述步骤S5具体为:
步骤S51:随机生成一个含有N个粒子的初始种群;
步骤S52:将每个初始粒子记为自己的历史最优个体;
步骤S53:评估初始种群中每个粒子的适应度函数值;
步骤S54:采用比较运算,找出并记录初始种群的全局最优个体Xbest
步骤S55:设置惯性权重w、个体认知因子c1、种群认知因子c2和最大迭代次数Itera_max
步骤S56:对个体进行变异和交叉操作,完成粒子更新,并根据比较运算更新粒子和种群的历史最优个体;
步骤S57:更新惯性权重w、个体认知因子c1、种群认知因子c2
步骤S58:循环步骤S56-57,直至迭代达到最大迭代次数Itera_max,得到全局最优个体。
进一步的,所述适应度函数值如式(17)所示:
Figure BDA0002870624770000051
其中:F(S)表示数据布局策略S的适应度函数;
Figure BDA0002870624770000052
表示粒子Xi的数据模糊传输时间。
进一步的,所述步骤S54具体为:对于惯性部分,采用变异操作,定义运算符
Figure BDA0002870624770000053
如式(20):
Figure BDA0002870624770000054
其中:r0∈(0,1)表示随机因子;Mu()表示随机地在取值范围内改变编码粒子中的一个分位,即变异操作;
对于其中的个体认知和种群认知部分,采用交叉操作,定义运算符
Figure BDA0002870624770000061
如式(22)和式(23)所示:
Figure BDA0002870624770000062
Figure BDA0002870624770000063
其中:r1,r2∈(0,1)表示随机因子;Cp(Ai(t+1),pi(t))和Cg(Bi(t+1),g(t))表示随机选择编码粒子Ai(t+1)和Bi(t+1)的两个随机分位,并与pi(t)和g(t)相同位置上的数值进行交叉;
粒子的更新过程改进为式(25):
Figure BDA0002870624770000064
进一步的,所述惯性权重w如式(26)所示:
Figure BDA0002870624770000065
其中:d(Xi(t),g(t))表示当前粒子Xi(t)对应的解与当前种群历史最优粒子g(t)对应的解的差异程度。
进一步的,所述比较预算具体为对于三角模糊数
Figure BDA0002870624770000066
定义三个比较值:
Figure BDA0002870624770000067
定义取大运算法则如下:若
Figure BDA0002870624770000068
Figure BDA0002870624770000069
否则若
Figure BDA00028706247700000610
Figure BDA00028706247700000611
否则若
Figure BDA00028706247700000612
Figure BDA00028706247700000613
否则
Figure BDA00028706247700000614
本发明与现有技术相比具有以下有益效果:
本发明综合考虑了混合云环境下数据布局特点、科学工作流任务之间的数据依赖关系、私有数据中心最大容量、云间带宽与波动,基于模糊理论将数据传输时间模糊化以适应实际网络环境,有效的对科学工作流数据进行布局。
附图说明
图1是本发明方法流程图;
图2是本发明一实施例中不同算法在不同科学工作流下的平均模糊传输时间;
图3是本发明一实施例中私有云数据中心个数不同时3种算法的平均数据模糊传输时间;
图4是本发明一实施例中私有云数据中心容量不同时3种算法的平均数据模糊传输时间;
图5是本发明一实施例中数据中心间带宽不同时3种算法的平均数据模糊传输时间。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
请参照图1,本发明提供一种基于混合云环境的科学工作流数据布局方法,包括以下步骤:
步骤S1:设定隐私数据集和数据中心最大容量条件,并初始化相关参数;
步骤S2:以最小化数据模糊传输时间为目标,并考虑到数据中心的容量约束,在引入不确定性概念后,构建混合云环境下面向模糊时间优化的科学工作流数据布局模型;
步骤S3:构建若干初始方案;
步骤S4:构建粒子到数据布局结果的映射关系;
步骤S5:基于改进的FGA-DPSO的数据布局算法,获取最优方案。
在本实施例中,混合云环境由一定数量的公有数据中心和一定数量的私有数据中心构成,其中私有数据中心容量一定,公有数据中心容量不设上限。定义混合云环境DC如式(1)所示:
Figure BDA0002870624770000081
其中:DCpub表示公有数据中心集合;DCpri表示私有数据中心集合;dci表示编号为i的数据中心;Vi表示数据中心的最大容量;Δi∈{0,1}表示数据中心dci的属性,若dci∈DCpub,则Δi=0,dci只能存放公有数据,若dci∈DCpri,则Δi=1,dci可以存放公有数据和隐私数据。另外,对于任意2个数据中心dci和dcj,bij表示它们之间的网络带宽值,设所有数据中心之间的网络带宽值已知,且会产生一定范围内的波动。
在本实施例中,所述科学工作流由任务和数据集构成一个任务可能与多个数据集相关,一个数据集也可能与多个任务相关。
任务之间存在数据依赖关系,即一个任务的输出数据集可能是其他任务的输入数据集,还存在时序上的先后关系,即只有当一个任务的前驱任务全部执行完毕,该任务才能执行,当所有任务执行完毕后,该科学工作流也随即结束;
数据集可分为初始数据集和生成数据集两类:一个科学工作流的原始输入数据集称为初始数据集,运行过程中产生的数据集称为生成数据集。数据集还可分为隐私数据集和公有数据集两类:隐私数据集只能存放在固定的私有数据中心,以其为输入数据集的任务也必须调度到该数据中心上运行;公有数据集则无存储位置限制。
综上所述,定义科学工作流为有向无环图G,如式(2)所示:
Figure BDA0002870624770000091
其中:T表示科学工作流中所有任务的集合;E表示科学工作流中不同任务之间的所有数据依赖关系的集合,DS表示科学工作流中所有数据集的集合;tc表示编号为c的任务;eij表示任务ti与任务tj之间的数据依赖关系,且ti是tj的直接先驱任务;dsl表示编号为l的数据集;Ii表示任务ti的输入数据集合;Oi表示任务ti的输出数据集合;DC(ti)表示任务ti的执行数据中心;vi表示数据集dsi的大小;gti表示生成数据集dsi的任务编号,其中初始数据集的gti为0;lci表示存放数据集dsi的数据中心编号。
在本实施例中,基于模糊理论,引入三角模糊数来表示数据在数据中心之间的传输时间。对于每个独立的数据传输过程,映射<dci,dsk,dcj>表示数据集dsk从数据中心dci传输到数据中心dcj,该过程产生的数据传输时间如式(3)所示:
Figure BDA0002870624770000101
其中:
Figure BDA0002870624770000102
Figure BDA0002870624770000103
分别是该三角模糊数的下界元素与上界元素,其差值表示三角模糊数的模糊程度。当
Figure BDA0002870624770000104
时,三角模糊数退化为一个清晰数,即实数。该三角模糊数的隶属函数表达式如式(4)所示:
Figure BDA0002870624770000105
隶属函数表示元素x属于该模糊区间的程度,当
Figure BDA0002870624770000106
时,元素x完全属于该区间。
在本实施例中,采用的模糊数的运算,具体包括如下:
(1)模型涉及到了模糊数之间的加法运算和比较运算。
对于2个三角模糊数
Figure BDA0002870624770000107
Figure BDA0002870624770000108
有:
①加法运算(用于计算模糊数据传输时间)
Figure BDA0002870624770000109
②比较运算(用于定性比较模糊完成时间的大小,从而选取合适的值)
对于三角模糊数
Figure BDA00028706247700001010
定义三个比较值:
Figure BDA00028706247700001011
定义取大运算法则如下:若
Figure BDA00028706247700001012
Figure BDA00028706247700001013
否则若
Figure BDA00028706247700001014
Figure BDA00028706247700001015
否则若
Figure BDA00028706247700001016
Figure BDA00028706247700001017
否则
Figure BDA00028706247700001018
(2)模型涉及到了模糊数与实数之间的加减运算、乘除运算和模糊化与去模糊化运算。
对于1个三角模糊数
Figure BDA0002870624770000111
和1个清晰数t,有:
①加减运算
Figure BDA0002870624770000112
Figure BDA0002870624770000113
②乘除运算(其中除法运算指用模糊数除以清晰数,该清晰数的值不为0)
Figure BDA0002870624770000114
Figure BDA0002870624770000115
③模糊化与去模糊化运算
模糊化运算:对于清晰值s,有几种将其模糊化为
Figure BDA0002870624770000116
的方法,如专家定义法、概率分布法和范围定义法等。本文采取如下方法,即:
Figure BDA0002870624770000117
其中δ1<1,δ2>1,且均为对应范围的随机数。
去模糊化运算:去模糊化运算一般用于定量比较模糊数的大小,常常在对结果进行分析时使用。基于模糊事件概率测度的概念,定义模糊数在均匀分布和比例分布下的均值和标准差,其中比例分布适用于传输时间的不确定性问题。对于三角模糊数
Figure BDA0002870624770000118
其均值
Figure BDA0002870624770000119
和标准差
Figure BDA00028706247700001110
由式(12)给出:
Figure BDA0002870624770000121
其中:
Figure BDA0002870624770000122
表示模糊数
Figure BDA0002870624770000123
的均值,反映了模糊数在概率测度下的最可能值;
Figure BDA0002870624770000124
表示模糊数
Figure BDA0002870624770000125
的标准差,反映了模糊数不确定性程度;
Figure BDA0002870624770000126
表示标准差
Figure BDA0002870624770000127
的所占权重。
在本实施例中,数据布局策略的目的是在满足数据集隐私比例、任务执行顺序和数据中心容量约束的前提下,最小化数据模糊传输时间。由于只有当一个任务所需的所有数据集都在同一个数据中心时,该任务才能够执行,而向一个数据中心调度任务的时间远小于向该数据中心传输数据的传输时间,所以任务调度并非模型重点,模型主要关注数据布局策略。每个任务在执行前,总是选择将该任务调度至模糊传输时间最少的数据中心。整个数据布局策略定义如式(13)所示:
Figure BDA0002870624770000128
其中:M表示数据集合DS到数据中心集合DC的映射关系;{dci,dsk,dcj}为数据集dsk从数据中心dci传输到到数据中心dcj
Figure BDA0002870624770000129
为映射{dci,dsk,dcj}的模糊传输时间;
Figure BDA00028706247700001210
表示数据布局过程中跨数据中心的数据传输所造成的总模糊时间;eijk={0,1}表示表示数据布局过程中是否存在数据集dsk从数据中心dci传输到数据中心dcj,若存在,则eijk为1,否则eijk为0。
在本实施例中,以最小化数据模糊传输时间为目标并考虑到数据中心的容量约束,在引入不确定性概念后,混合云环境下面向模糊时间优化的科学工作流数据布局问题可形式化表示为式(14):
Figure BDA0002870624770000131
其中uij={0,1}表示数据集dsj是否存放于数据中心dci,是则uij=1,否则uij=0。
在本实施例中,基于粒子群优化算法(PSO,Particle Swarm Optimization)、遗传算法(GA,Genetic Algorithm)和模糊理论(Fuzzy Theory),以最小化传输时间
Figure BDA0002870624770000132
为目标,提出了FGA-DPSO算法,具体的:
传统的PSO算法是受到飞鸟集群活动的规律性启发而建立的一个简化模型,其利用个体对信息的共享使整个群体的运动在问题求解空间中产生从无序到有序的演化过程,最终获得最优解。每个优化问题的解都是搜索空间中的一只鸟,称为“粒子”。算法随机初始化出固定规模的粒子群,在之后的每次迭代中,粒子通过跟踪2个最优解来更新自己,分别是粒子自己所找到的最优解和整个种群所找到的最优解。粒子的更新包含2个方面:
①速度更新如式(15)所示,
Vi(t+1)=wVi(t)+c1r1[pi(t)-Xi(t)]+c2r2[g(t)-Xi(t)]; (15)
②位置更新如式(16)所示,
Xi(t+1)=Xi(t)+Vi(t+1).
(16)
适应度函数定义为:由于数据模糊传输时间是算法的优化目标,故直接将其定义为适应度函数值:
Figure BDA0002870624770000141
其中:F(S)表示数据布局策略S的适应度函数;
Figure BDA0002870624770000142
表示粒子Xi的数据模糊传输时间。若布局在某个数据中心的数据集大小之和不超过该数据中心的最大容量,则该粒子为可行解,否则为不可行解。对于可行解与不可行解之间的取舍,直接选择可行解;对于可行解之间的取舍,选择适应度函数最小的粒子;对于不可行解之间的取舍,同样选择适应度函数最小的粒子,因为其在后续操作中更有可能变为可行解。
粒子的编码方式需要满足完备性、非冗余性和健全性三个原则。本发明采取离散编码方法来构建n维粒子,其中n表示该科学工作流涉及到的数据集数量。粒子i在第t次迭代的位置Xi(t)的表达形式如式(18)所示:
Figure BDA0002870624770000143
X3(10)=[1,2,4,3,2,1,3,4,2,1]. (19)
式(19)为一个粒子编码示例,该粒子编号为3,当前迭代次数为10,数据集数量n为10,数据中心数量为4,下划线表示对应位置的数据集为隐私数据集,隐私数据集在后续的更新过程中的存储数据中心不可改动。
本发明引入遗传算法中的交叉和变异操作到传统PSO算法中。需要注意,数据集中存在一定比例的隐私数据集,在粒子的更新过程中需要注意固定隐私数据集的存储数据中心不可改动。
对于其中的惯性部分,引入遗传算法中的变异操作,定义运算符
Figure BDA0002870624770000151
如式(20):
Figure BDA0002870624770000152
其中:r0∈(0,1)表示随机因子;Mu()表示随机地在取值范围内改变编码粒子中的一个分位,即变异操作。需要注意:隐私数据集所在分位不可变异;不可行解对应的粒子应选取导致该粒子不可行的位置进行变异,即选择分位为超载的数据中心编号的位置进行变异。
对于其中的个体认知和种群认知部分,引入遗传算法中的交叉操作,定义运算符
Figure BDA0002870624770000153
如式(22)和式(23)所示:
Figure BDA0002870624770000154
Figure BDA0002870624770000155
其中:r1,r2∈(0,1)表示随机因子;Cp(Ai(t+1),pi(t))和Cg(Bi(t+1),g(t))表示随机选择编码粒子Ai(t+1)和Bi(t+1)的两个随机分位,并与pi(t)和g(t)相同位置上的数值进行交叉。需要注意,交叉时不可改变隐私数据集的存放编号。
综上所述,粒子的更新过程改进为式(25):
Figure BDA0002870624770000156
在本实施例中,粒子到数据布局结果的映射具体为:
输入:(G,DC,X)
输出:(DS,DC,Map,
Figure BDA0002870624770000161
)
Figure BDA0002870624770000162
在本实施例中,优选的,式(15)中的惯性权重w对原始PSO算法的收敛性和搜索能力有直接作用,能影响粒子在解空间搜索时的速度。本文设计了一种惯性权重w的定义方法,它能够按照当前粒子对应解的优劣程度,即与种群历史最优的粒子的差异程度,来自适应调整w的值,如式(26)所示:
Figure BDA0002870624770000171
其中:d(Xi(t),g(t))表示当前粒子Xi(t)对应的解与当前种群历史最优粒子g(t)对应的解的差异程度,即相同分位上不同取值的个数。在算法的运行初期,d(Xi(t),g(t))通常较大,w的值也相应较大,此时需要扩大粒子在解空间的搜索范围以寻找最优解,也避免过早地陷入局部最优;在算法的运行后期,d(Xi(t),g(t))通常较小,w的值也相应较小,此时需要缩小粒子的搜索范围并加速粒子在当前搜索范围内的速度,以更快的速度找到最优解。
优选的,个体认知因子c1和种群认知因子c2采取梯度下降方法来定义。
在本实施例中,所述FGA-DPSO的伪代码,具体为
输入:(G,DC)
输出:Xbest
Figure BDA0002870624770000172
Figure BDA0002870624770000181
实施例1:
在本实施例中科学工作流模型来自对5个深入研究的不同科学领域,CyberShake,Epigenomics,Inspiral,Montage和Sipht。每个科学领域都有不同任务数量的科学工作流,每个科学工作流都有独特的任务结构、数据集数量以及计算需求,选取每个领域的中型(约50个任务)工作流进行实验。实验参数与环境设置如表1所示,其中参数意义见详见前文。
表1实验环境与参数设置
Figure BDA0002870624770000182
Figure BDA0002870624770000191
下列是除表1所示参数和环境外的额外设置。
①最大容量设置:基准容量设置为
Figure BDA0002870624770000192
3个私有云数据中心的最大容量均设置为基准容量的2.6倍。
②数据中心之间带宽设置(单位:M/s):dc1与{dc2,dc3,dc4}之间的带宽设置为{10,20,30};dc2与{dc3,dc4}之间的带宽设置为{150,150};dc3与{dc4}之间的带宽设置为{100}。
③隐私数据集比例设置:由于不同工作流之间数据集数量的差异,领域为CyberShake,Epigenomics,Inspiral,Montage和Sipht的科学工作流的隐私数据集比例分别设置为[0.25,0.2,0.2,0.2,0.02]。
④模糊参数设置:基于模糊理论,将数据传输时间T模糊化为对应的三角模糊数
Figure BDA0002870624770000193
具体模糊化方法在前文已介绍,模糊参数设置为:σ1=0.85,σ2=1.2。
本实施例中,为验证FGA-DPSO的有效性,基于模糊理论,考虑科学工作流的应用场景和隐私设置、容量约束等限制条件,改进了传统数据布局中经常使用的随机算法(RA,Randomized Algorithm)和贪婪算法(GA,Greedy Algorithm),称为条件模糊随机算法(CFRA,Constraint Fuzzy Randomized Algorithm)和条件模糊贪婪算法(CFGA,Constraint Fuzzy Greedy Algorithm),其中条件是指在数据布局的过程中需满足数据中心的最大容量要求和数据集的隐私比例要求、模糊是指将数据传输时间模糊化,最后与本发明提出的FGA-DPSO进行对比。
CFRA算法流程
①设定隐私数据集和数据中心最大容量条件,初始化相关参数,与FGA-DPSO相同的参数对应的值保持一致;
②依照FGA-DPSO的离散编码方式生成满足条件的随机种群,种群包含一定数量的个体,每个个体代表数据布局的一个候选解;
③定义适应度函数为该个体编码对应解的模糊传输时间,个体编码到数据布局策略的方式见算法1;
④遍历计算每个个体的适应度值并与种群当前最优个体比较优劣性,若当前个体更优则更新种群最优个体;
⑤遍历结束,输出最优个体及其对应的适应度值。
CFGA算法流程
①设定隐私数据集和数据中心最大容量条件,初始化相关参数,与FGA-DPSO相同的参数对应的值保持一致;
②设计数据布局方案。按照科学工作流的任务执行序列遍历每个任务所有尚未布局的数据集,进行判断:若当前任务已经布局,依据贪婪原则,将该数据集布局到当前任务的执行数据中心;若当前任务尚未布局但该任务存在已经布局的数据集,依据贪婪原则,将该数据集布局在与已布局数据集相同的数据中心;若当前任务尚未布局且该任务不存在已经布局的数据集,则随机布局该数据集到容量未满的数据中心;
③计算当前布局方案的数据模糊传输时间。
为了避免结果的随机性,对5种科学工作流在不同环境设置下分别进行10组独立重复实验,记录相关数据并取其平均值如表2,数据传输时间单位为s。
表2不同算法在不同科学工作流下的平均模糊传输时间
Figure BDA0002870624770000211
为了使各算法之间的对比更加直观,后续不同实验环境下的对比结果对模糊数据传输时间进行了去模糊化处理,具体方法详见第2.1节定义4,其中
Figure BDA0002870624770000212
设置为1。
图3-1为默认实验环境下5种科学工作流在不同执行算法下的模糊时间的去模糊化结果,其中科学工作流类型名称均用首字母表示,对该结果分析如下。
①从算法来看,FGA-DPSO算法的性能最优,其次是CFRA算法,而CFGA算法的性能较差。CFGA算法表现较差的原因主要是贪心类算法在执行过程中具有易陷入局部最优解的特点,从而忽视了全局;CFRA算法的总体表现优于CFGA,这是因为CFRA搜索解的空间更为广阔,不会陷入局部最优解,因此在随机次数较多时往往能得到较优解,但CFRA算法在每一次生成解时,没有根据当前染色体的性能进行自适应调整,所以性能较FGA-DPSO差。
②从工作流来看,相同算法在不同领域的科学工作流环境下的传输时间差异很大,这主要是由于虽然这些科学工作流包含的任务规模都是50左右,但是它们各自涉及到的数据集数量有很大差异,如CyberShake科学工作流使用数据集次数仅有70左右,而Sipht科学工作流使用数据集次数多达4000,这就造成了后者所需要的传输时间远大于前者。
在真实环境中,混合云环境中的私有数据中心数量有时会发生变化,所以需要对FGA-DPSO在私有数据中心数量变化时的表现进行实验对比。同时为了与之前结果对比,实验采取控制变量法,即仅改变私有云数据中心数量而不改变其他默认设置。实验测试了私有云数据中心的数量分别为{3,5,6,8,10}时3种不同算法的结果,其中新增私有数据中心与公有数据中心之间的带宽设置为20M/s,与其他私有数据中心之间的带宽设置为120M/s。
针对私有数据中心数量变化的实验结果如图3-2所示,对其分析如下:
①从算法来看,FGA-DPSO算法的性能最优,其次是CFRA算法,而CFGA算法的性能较差。原因与图3-1相同,不再赘述。
②从私有数据中心来看,随着其数量的增加,3种算法的传输时间呈上升趋势,这主要是由于随着私有数据中心数量的增加,依照隐私比例随机设置的隐私数据集分散且固定在更多的私有数据中心,涉及到隐私数据集的固定任务所需要运行的位置便越来越分散,从而导致传输时间上升。
本发明模型中引入了私有数据中心最大容量作为约束条件,因此需要测试FGA-DPSO算法对私有数据中心最大容量的敏感程度。实验采用控制变量法,选取具有代表性的CyberShake科学工作流,将私有数据中心最大容量相对于基准容量倍数分别调整为{2,2.6,3,5,8},其余设置保持默认,结果见图3-3。
私有云数据中心容量不同时3种算法的平均数据模糊传输时间如图3-3所示,分析如下。
①随着私有数据中心最大容量的增加而数据中心之间的带宽保持不变,每个数据中心存放更多的数据集,造成每个任务所需要的数据集越来越集中在该任务所运行的数据中心,因此FGA-DPSO算法的传输时间总体呈现出下降的趋势。
②虽然传输时间总体呈下降趋势,但观察图像可以发现,传输时间下降最快是在数据最大中心容量相对于基准容量倍数从2倍到3倍之间,最慢是在数据最大中心容量相对于基准容量倍数从5倍到8倍之间。这是由于当数据中心最大容量相对较小时,数据中心的可用空间较小,数据集的布局位置受到的限制则较大,因此最大容量增加对传输时间影响显著;当数据中心最大容量相对较大时,每个数据中心均可存放大量的数据集,足够满足科学工作流的运行要求,因此最大容量增加对传输时间影响不大。
由于本发明模型引入模糊理论主要是基于对数据中心之间带宽变化的考量,因此有必要验证算法在数据中心之间不同带宽下的表现。实验采用控制变量法,选取具有代表性的CyberShake科学工作流,将数据中心之间带宽相对于默认带宽的倍数分别为{0.5,0.8,1.5,3,5},其余设置保持默认。
数据中心间带宽不同时3种算法的平均数据模糊传输时间结果如图3-4所示,随着数据中心之间的带宽增加,传输时间显著降低。实验表明了数据中心之间带宽的变化并不会显著影响算法对数据集的布局策略。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (10)

1.一种基于混合云环境的科学工作流数据布局方法,其特征在于,包括以下步骤:
步骤S1:设定隐私数据集和数据中心最大容量条件,并初始化相关参数;
步骤S2:以最小化数据模糊传输时间为目标,并考虑到数据中心的容量约束,在引入不确定性概念后,构建混合云环境下面向模糊时间优化的科学工作流数据布局模型;
步骤S3:构建若干初始方案;
步骤S4:构建粒子到数据布局结果的映射关系;
步骤S5:基于改进的FGA-DPSO的数据布局算法,获取最优方案。
2.根据权利要求1所述的基于混合云环境的科学工作流数据布局方法,其特征在于,所述混合云环境由一定数量的公有数据中心和一定数量的私有数据中心构成,其中私有数据中心容量一定,具体的如式(1)所示:
Figure FDA0002870624760000011
其中:DCpub表示公有数据中心集合;DCpri表示私有数据中心集合;dci表示编号为i的数据中心;Vi表示数据中心的最大容量;Δi∈{0,1}表示数据中心dci的属性,若dci∈DCpub,则Δi=0,dci只能存放公有数据,若dci∈DCpri,则Δi=1,dci可以存放公有数据和隐私数据。
3.根据权利要求1所述的基于混合云环境的科学工作流数据布局方法,其特征在于,所述科学工作流由任务和数据集构成
所述任务之间存在数据依赖关系,即一个任务的输出数据集可能是其他任务的输入数据集,还存在时序上的先后关系,即只有当一个任务的前驱任务全部执行完毕,该任务才能执行,当所有任务执行完毕后,该科学工作流也随即结束;
所述数据集分为隐私数据集和公有数据集两类:隐私数据集只能存放在固定的私有数据中心,以其为输入数据集的任务也必须调度到该数据中心上运行;公有数据集则无存储位置限制;
具体的科学工作流为有向无环图G,如式(2)所示:
Figure FDA0002870624760000021
其中:T表示科学工作流中所有任务的集合;E表示科学工作流中不同任务之间的所有数据依赖关系的集合,DS表示科学工作流中所有数据集的集合;tc表示编号为c的任务;eij表示任务ti与任务tj之间的数据依赖关系,且ti是tj的直接先驱任务;dsl表示编号为l的数据集;Ii表示任务ti的输入数据集合;Oi表示任务ti的输出数据集合;DC(ti)表示任务ti的执行数据中心;vi表示数据集dsi的大小;gti表示生成数据集dsi的任务编号,其中初始数据集的gti为0;lci表示存放数据集dsi的数据中心编号。
4.根据权利要求1所述的基于混合云环境的科学工作流数据布局方法,其特征在于,所述混合云环境下面向模糊时间优化的科学工作流数据布局模型,具体为:
Figure FDA0002870624760000031
其中uij={0,1}表示数据集dsj是否存放于数据中心dci,是则uij=1,否则uij=0。
5.根据权利要求1所述的基于混合云环境的科学工作流数据布局方法,其特征在于,所述步骤S4具体为:
①初始化每个数据中心的已存储数据量dccur(i)为0,布局方案的总模糊传输时间设置为
Figure FDA0002870624760000032
②初始化完成后,按照每个初始数据集对应的编号,将其放置到对应编号的数据中心,更新该数据中心的已存储量dccur(X[i])并进行判断,即若该数据中心的已存储量超过该数据中心的最大容量,则该粒子对应的解不可行,中止当前操作并返回;
③按执行顺序遍历所有任务,在遍历过程中总是选择模糊传输时间最小的数据中心dcj将任务tj放置并进行判断,当该粒子对应的解不可行,即数据中心dcj的当前存储量、任务tj的输入数据集大小sum(Ij)和输出数据集大小sum(Oj)之和超出该数据中心的最大容量时,中止当前操作并返回;反之,则将任务tj的输出数据集Oj放置到对应的数据中心并更新已存储量;
④按执行顺序遍历所有任务,计算每条需要跨数据中心传输的数据集所花费的模糊数据传输时间
Figure FDA0002870624760000041
累加得到总模糊传输时间
Figure FDA0002870624760000042
⑤输出
Figure FDA0002870624760000043
和该编码粒子及其对应的数据布局策略。
6.根据权利要求1所述的基于混合云环境的科学工作流数据布局方法,其特征在于,所述步骤S5具体为:
步骤S51:随机生成一个含有N个粒子的初始种群;
步骤S52:将每个初始粒子记为自己的历史最优个体;
步骤S53:评估初始种群中每个粒子的适应度函数值;
步骤S54:采用比较运算,找出并记录初始种群的全局最优个体Xbest
步骤S55:设置惯性权重w、个体认知因子c1、种群认知因子c2和最大迭代次数Itera_max
步骤S56:对个体进行变异和交叉操作,完成粒子更新,并根据比较运算更新粒子和种群的历史最优个体;
步骤S57:更新惯性权重w、个体认知因子c1、种群认知因子c2
步骤S58:循环步骤S56-57,直至迭代达到最大迭代次数Itera_max,得到全局最优个体。
7.根据权利要求6所述的基于混合云环境的科学工作流数据布局方法,其特征在于,所述适应度函数值如式(17)所示:
Figure FDA0002870624760000044
其中:F(S)表示数据布局策略S的适应度函数;
Figure FDA0002870624760000045
表示粒子Xi的数据模糊传输时间。
8.根据权利要求6所述的基于混合云环境的科学工作流数据布局方法,其特征在于,所述步骤S54具体为:对于惯性部分,采用变异操作,定义运算符
Figure FDA0002870624760000051
如式(20):
Figure FDA0002870624760000052
其中:r0∈(0,1)表示随机因子;Mu()表示随机地在取值范围内改变编码粒子中的一个分位,即变异操作;
对于其中的个体认知和种群认知部分,采用交叉操作,定义运算符⊕如式(22)和式(23)所示:
Figure FDA0002870624760000053
Figure FDA0002870624760000054
其中:r1,r2∈(0,1)表示随机因子;Cp(Ai(t+1),pi(t))和Cg(Bi(t+1),g(t))表示随机选择编码粒子Ai(t+1)和Bi(t+1)的两个随机分位,并与pi(t)和g(t)相同位置上的数值进行交叉;
粒子的更新过程改进为式(25):
Figure FDA0002870624760000055
9.根据权利要求6所述的基于混合云环境的科学工作流数据布局方法,其特征在于,所述惯性权重w如式(26)所示:
Figure FDA0002870624760000056
其中:d(Xi(t),g(t))表示当前粒子Xi(t)对应的解与当前种群历史最优粒子g(t)对应的解的差异程度。
10.根据权利要求6所述的基于混合云环境的科学工作流数据布局方法,其特征在于,所述比较预算具体为:对于三角模糊数
Figure FDA0002870624760000061
定义三个比较值:
Figure FDA0002870624760000062
定义取大运算法则如下:若
Figure FDA0002870624760000063
Figure FDA0002870624760000064
否则若
Figure FDA0002870624760000065
Figure FDA0002870624760000066
否则若
Figure FDA0002870624760000067
Figure FDA0002870624760000068
否则
Figure 1
CN202011599293.1A 2020-12-30 2020-12-30 基于混合云环境的科学工作流数据布局方法 Active CN112632615B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011599293.1A CN112632615B (zh) 2020-12-30 2020-12-30 基于混合云环境的科学工作流数据布局方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011599293.1A CN112632615B (zh) 2020-12-30 2020-12-30 基于混合云环境的科学工作流数据布局方法

Publications (2)

Publication Number Publication Date
CN112632615A true CN112632615A (zh) 2021-04-09
CN112632615B CN112632615B (zh) 2023-10-31

Family

ID=75286521

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011599293.1A Active CN112632615B (zh) 2020-12-30 2020-12-30 基于混合云环境的科学工作流数据布局方法

Country Status (1)

Country Link
CN (1) CN112632615B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115237592A (zh) * 2022-07-12 2022-10-25 苏州大学 隐私感知的混合云服务流程调度方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130030859A1 (en) * 2011-07-27 2013-01-31 Xerox Corporation Methods and systems for deploying a service workflow in a hybrid cloud environment
CN107123991A (zh) * 2017-05-17 2017-09-01 华北水利水电大学 基于模糊粒子群算法的动态电压恢复器控制方法及装置
CN108647771A (zh) * 2018-05-07 2018-10-12 福建师范大学 一种混合云环境下科学工作流数据的布局方法
CN108989098A (zh) * 2018-08-24 2018-12-11 福建师范大学 一种混合云环境面向时延优化的科学工作流数据布局方法
CN110033076A (zh) * 2019-04-19 2019-07-19 福州大学 混合云环境下面向代价优化的工作流数据布局方法
CN111859525A (zh) * 2020-06-02 2020-10-30 北京航空航天大学 机载分布式pos布局优化方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130030859A1 (en) * 2011-07-27 2013-01-31 Xerox Corporation Methods and systems for deploying a service workflow in a hybrid cloud environment
CN107123991A (zh) * 2017-05-17 2017-09-01 华北水利水电大学 基于模糊粒子群算法的动态电压恢复器控制方法及装置
CN108647771A (zh) * 2018-05-07 2018-10-12 福建师范大学 一种混合云环境下科学工作流数据的布局方法
CN108989098A (zh) * 2018-08-24 2018-12-11 福建师范大学 一种混合云环境面向时延优化的科学工作流数据布局方法
CN110033076A (zh) * 2019-04-19 2019-07-19 福州大学 混合云环境下面向代价优化的工作流数据布局方法
CN111859525A (zh) * 2020-06-02 2020-10-30 北京航空航天大学 机载分布式pos布局优化方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘家州: "稀疏阵列综合及DOA估计方法的研究", 《万方数据学位论文库》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115237592A (zh) * 2022-07-12 2022-10-25 苏州大学 隐私感知的混合云服务流程调度方法

Also Published As

Publication number Publication date
CN112632615B (zh) 2023-10-31

Similar Documents

Publication Publication Date Title
Joe et al. Deep reinforcement learning approach to solve dynamic vehicle routing problem with stochastic customers
Balaprakash et al. Improvement strategies for the F-Race algorithm: Sampling design and iterative refinement
Tan et al. Solving multiobjective vehicle routing problem with stochastic demand via evolutionary computation
CN108989098B (zh) 一种混合云环境面向时延优化的科学工作流数据布局方法
Ayoubi et al. An autonomous IoT service placement methodology in fog computing
Lo et al. Multiprocessor system scheduling with precedence and resource constraints using an enhanced ant colony system
Demir et al. Dynamic integrated process planning, scheduling and due-date assignment using ant colony optimization
CN111313957B (zh) 基于分类多目标优化的混合卫星通信系统资源分配方法
CN113037877A (zh) 云边端架构下时空数据及资源调度的优化方法
Tran et al. Using Fuzzy Clustering Chaotic-based Differential Evolution to solve multiple resources leveling in the multiple projects scheduling problem
CN113344356A (zh) 一种多目标资源分配决策方法和装置
Palacios et al. Swarm lexicographic goal programming for fuzzy open shop scheduling
CN112632615A (zh) 基于混合云环境的科学工作流数据布局方法
Moazeni et al. Dynamic resource allocation using an adaptive multi-objective teaching-learning based optimization algorithm in cloud
CN117407921A (zh) 基于必连和勿连约束的差分隐私直方图发布方法及系统
CN112232401A (zh) 一种基于差分隐私及随机梯度下降的数据分类方法
Vahidipour et al. Priority assignment in queuing systems with unknown characteristics using learning automata and adaptive stochastic Petri nets
Wu et al. Knowledge and Behavior‐Driven Fruit Fly Optimization Algorithm for Field Service Scheduling Problem with Customer Satisfaction
Prado et al. On providing quality of service in grid computing through multi-objective swarm-based knowledge acquisition in fuzzy schedulers
CN115689201A (zh) 面向企业资源供需调配的多准则智能决策优化方法及系统
CN113220437B (zh) 一种工作流多目标调度方法及装置
Hossain et al. PSO-based harmony search algorithm to aggregate production planning under possibilistic environment
Peters et al. Resource optimization in business processes
Zulueta et al. A dynamic multi-expert multi-criteria decision making model for risk analysis
Londoño et al. A hybrid heuristic approach for the multi-objective multi depot vehicle routing problem

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant