CN102799957B - 一种云计算环境下安全感知的科学工作流调度方法 - Google Patents

一种云计算环境下安全感知的科学工作流调度方法 Download PDF

Info

Publication number
CN102799957B
CN102799957B CN201210172306.6A CN201210172306A CN102799957B CN 102799957 B CN102799957 B CN 102799957B CN 201210172306 A CN201210172306 A CN 201210172306A CN 102799957 B CN102799957 B CN 102799957B
Authority
CN
China
Prior art keywords
task
scientific workflow
workflow
security service
scientific
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210172306.6A
Other languages
English (en)
Other versions
CN102799957A (zh
Inventor
杜薇
刘伟
位凯志
彭苏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN201210172306.6A priority Critical patent/CN102799957B/zh
Publication of CN102799957A publication Critical patent/CN102799957A/zh
Application granted granted Critical
Publication of CN102799957B publication Critical patent/CN102799957B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种云计算环境下安全感知的科学工作流调度方法,它首先根据科学工作流中单个任务的计算时间以及任务之间的数据传输时间,计算出科学工作流任务中单个任务的空闲时间,然后根据安全服务模型和空闲时间以及任务之间的依赖关系,随机为科学工作流中的单个任务设置空闲时间允许的安全服务;最后把科学工作流中单个任务安全服务带来的开销加入到对任务执行时间的预测中,并把这种任务开销计算的改进加入到MCP算法中,最后根据云计算环境数据中心中的资源情况为科学工作流中的单个任务映射资源,用于创建虚拟机和执行任务。本发明能在不影响科学工作流调度性能的前提下,提高整体的安全服务级别,降低部署到云计算环境下的安全风险。

Description

一种云计算环境下安全感知的科学工作流调度方法
技术领域
本发明涉及数据密集型科学工作流的调度方法,特别是一种云计算环境下安全感知的科学工作流调度方法。
背景技术
云计算是一种典型的网络计算模式,强调在虚拟计算环境下运行大规模应用的可伸缩性和可用性。基于云计算的大型网络应用呈现异出分布、异构的特点和数据密集的趋势,如科学工作流系统,这类应用被称为数据密集型应用。目前数据密集型应用已被广泛的应用于天文学、高能物理学以及生物信息学等领域。这类应用的数据密集性主要体现在其处理的数据大小通常达TB级甚至PB级,其中既有已存在的输入数据源,也有在对数据进行分析和处理的过程中产生的中间数据和最终结果数据,而通过流程管理技术可以实现这类数据密集型应用的自动化执行。但是科学工作流在利用云计算环境的过程中遇到了一些新的问题,其中在如何保证数据安全和工作流性能方面显得尤为突出。一方面,由于云计算环境的开放性和共享性,数据安全是科学工作流部署到云计算环境下必须要考虑的问题,尤其是那些关键应用,如地震预测等;另一方面,由于数据密集型科学工作流具有数据量巨大、任务多的特点,对数据加密势必会带来一定的性能开销,因此如何在保证数据安全的同时兼顾工作流的执行性能(主要指调度的时间)是亟待解决的重要问题之一;合理的调度方法可以在不影响科学工作流调度长度的同时来提高科学工作流整体安全级别。
科学工作流调度技术是针对云计算环境下科学工作流自身的特点,从保证科学工作流调度性能和提高数据安全性两方面对科学工作流进行调度。科学工作流具有任务个数多、数据量大的特点,其中任务之间具有相互依赖的关系,这种依赖关系一般体现在数据之间的依赖关系。因此在进行任务调度的时候,综合考虑任务之间的依赖关系、数据的安全服务和科学工作流的调度性能等因素,为任务选择合适的执行位置,以达到在保证科学工作流性能的情况下提高科学工作流数据的安全服务级别。
在云计算环境中,科学工作流数据调度的一般方法是:先根据一定的QoS目标(一般指科学工作流的性能)为科学工作流中的单个任务选择指定的数据中心执行任务,然后在运行科学工作流任务的时候根据任务的依赖关系以及执行位置依次执行科学工作流中的任务,任务运行过程中根据布局策略把产生的数据放置到指定的数据中心上。由于云计算环境的开放性、多租户等特性,安全问题是部署科学工作流到云计算环境下亟待解决的重要问题之一,因此在云计算环境下调度执行科学工作流的时候应该考虑提高科学工作流的数据安全服务级别同时兼顾性能。
目前,国内外关于云计算环境下科学工作流调度问题的研究较少,当前的工作大多是针对网格环境的,并且主要侧重于如何提高科学工作流调度性能:
澳大利亚的Ke Liu等人提出了一种云计算环境下针对实例密集型工作流的基于时间和成本调度算法,充分考虑数用户对调度时间和成本两方面的要求,对云计算环境下实例密集型的工作流进行调度,从而满足用户对调度时间和成本的要求。
上海交通大学的伍民友等人提出了MCP(Modified Critical-Path)算法用于在分布式计算系统中调度基于DAG(Directed Acyclic Graphs)的任务,如并行任务、科学工作流等,实验表明此算法具有较好的性能。
然而,云计算环境作为一个开放的环境,允许多用户共享硬件资源,如何在保障科学工作流调度性能的前提下提高数据安全服务级别是部署科学工作流到云计算环境下面临的问题之一。然而上述云计算环境下科学工作流数据调度方面的研究,并没有综合考虑科学工作流的数据安全和性能。
发明内容
本发明的目的是提出一种基于MCP算法同时利用科学工作流非关键任务的空闲时间做数据安全服务的云计算环境下安全感知的科学工作流调度方法。本发明提出的调度方法的优势在于能以较小的性能开销来对科学工作流非关键任务的数据做安全服务,以达到提高科学工作流数据整体安全服务级别同时兼顾科学工作流性能的目的。
为了实现上述目的,本发明的技术方案是:
一种云计算环境下安全感知的科学工作流调度方法,包括以下步骤
第一步:先计算出科学工作流中各个任务的最早开始时间和最晚开始时间;
第二步:根据科学工作流中单个任务的最早开始时间和最晚开始时间计算出单个任务的空闲时间;
第三步:根据安全服务模型和科学工作单个任务的空闲时间,对单个任务的数据采取相应的安全服务,同时更新后继任务的空闲时间。
该步骤针对侦听、篡改、哄骗三种常见的攻击手段,对数据的安全服务需求和数据中心安全服务进行建模,设定数据安全服务向量,Si表示数据中心i的安全服务能力,其中代表保密服务,代表完整性服务,代表授权服务;的值分别代表各个安全服务的不同服务系数;系数越大代表安全服务的级别越高,相应的安全服务带来的时间开销也越大。安全服务模型详见图4、图5、图6,其中加密算法代表安全服务的具体实现技术,安全级别代表相应算法的安全级别,加密性能代表单位时间内加密算法加密数据的效率,注意此数据为在90MHz的处理器上测得,在具体实施部署算法时,应把此加密效率转化为对应的处理器上的效率。
第四步:重复第三步,直到把科学工作流所有任务的安全服务设置完毕。
第五步:根据第三步中制定的数据加密方案,重新计算科学工作流单个任务的预测时间,然后再利用改进的MCP算法对科学工作流进行调度。
本发明的特点:综合考虑在云计算环境下部署科学工作流时存在的数据安全问题和科学工作流的性能两方面问题。通过计算科学工作流中单个任务的最早开始时间和最迟开始时间,计算出非关键任务的空闲时间,然后根据安全服务模型和空闲时间的大小动态的设置科学工作流中单个任务的安全服务,然后在调度执行的阶段利用改进的MCP算法调度执行任务,本发明对MCP算法的改进主要侧重于把任务安全服务的开销加入到了MCP算法中。通过上述步骤,在科学工作流执行之前根据自身的特点即非关键任务的空闲时间,求得一个科学工作流整体的安全服务方案,因为本发明利用非关键任务的空闲时间做数据安全服务,因此在理论上来说不会影响科学工作流的调度性能;根据实际仿真实验数据,表明本发明中所提的算法可以适用于不同类型的科学工作流,科学工作流可以得到较可靠的安全服务,即10%~90%的任务可以获得安全服务。总之,本发明利用非关键任务的空闲时间对任务数据做安全服务不会增加额外的性能开销,另外数据安全服务模型也可以采取不同的模型,因此具有良好的适应性。
附图说明
图1 为本发明的调度执行模型图。
图2 为本发明的科学工作流应用实例图。
图3为本发明的流程框图。
图4为安全服务模型中保密服务的图示。
图5为安全服务模型中授权服务的图示。
图6为安全服务模型中完整性服务的图示。
具体实施方式
下面结合附图和实例对本发明作进一步的详细描述。
为了便于阐述本发明的内容,先说明相关定义。
定义1:科学工作流任务的最早开始时间(Tasap(ti))
科学工作流任务的最早开始时间是指任务的最早开始时间。
定义2:科学工作流任务的最晚开始时间(Talap(ti))
科学工作流任务的最晚开始时间是指任务在不影响科学工作流调度关键路径长度的前提下,任务的最晚开始时间。
定义3:科学工作流任务的空闲时间(Tidle(ti))
科学工作流任务的空闲时间是指科学工作流任务最早开始时间和最晚开始时间之间的时间差,任务在最早开始时间和最晚开始时间之间的任何时刻开始执行都会影响科学工作流调度长度,因此本发明定义此段时间为空闲时间。本发明正是利用这段空闲时间对科学工作流的任务做数据安全服务的。
定义4:科学工作流任务ti前驱任务集合Sparent(ti)和后继任务的集合Schild(ti)
科学工作流任务ti所有前驱任务的集合为Sparent(ti),科学工作流任务ti的所有后继任务的集合为Schild(ti)。
定义5:科学工作流任务ti的安全服务开销Cost(ti)
对科学工作流任务ti的数据采用数据加密等数据安全服务时所带来的性能开销,本发明中性能开销主要指安全服务带来的时间开销,即Cost(ti)。
如图1所示,云计算环境主要包含三大部分:由不同带宽连接的多个数据中心资源的集合、云计算环境的用户接口层和科学工作流调度管理模块组成。运行一个科学工作流任务的具体方法如下:
(1)在云环境下部署科学工作流的时候,用户通过云计算环境的用户接口层提交工作流任务到云计算环境中;
(2)云计算环境下的科学工作流管理模块在接收到用户提交的科学工作流任务后计算科学工作流任务的空闲时间,然后再根据安全服务模型设置科学工作流的安全服务方案;
(3)根据步骤(2)中制定的科学工作流安全服务方案和安全服务模型更新科学工作流任务的预测执行时间,然后根据改进的MCP算法调度科学工作任务到云计算环境下执行;
(4)根据步骤(3)中的调度方案,如果待调度任务ti的前驱任务执行完毕,云计算环境下的可学工作流执行管理器会在执行ti的数据中心创建相应的虚拟机然后再把任务ti执行所需的数据传输到执行ti的数据中心上;
(5)判断是否所有的输入数据均已传输完毕,如果是,则提交任务给为该任务创建好的VM,否则转向步骤(4);
(6)VM执行任务,将结果返回给科学工作流执行管理器,如果科学工作流中还有任务未完成那么转向步骤(4);
(7)云计算环境下的科学工作流管理收到任务执行结果,向数据中心发出销毁VM的请求,并释放资源。
如图2所示,在下面实例的描述中,一个科学科学工作流任务W=<T,C,DS>,其中T为科学工作流任务的集合,C是各任务间控制流的集合,在本发明中,控制流是通过任务之间的数据流来反映的;DS是W中所有数据的集合。图2所示科学工作流P中有T={T1、T2、T3、T4、T5、T6、T7},以任务T2为例有T2={{dT1},{dT2},length2,Vm2;任务T2的输入数据包括任务T1产生的数据dT1,任务T2的输出数据为dT2。length2为任务T2在虚拟机Vm2上的运行时间,在本例中计算时间为20个时间单位。科学工作流的控制流C在图(2)中用虚线表示,主要通过任务之间的数据依赖关系来表达,例如任务T1和T2之间虚线代表任务T2的运行需要任务Ti产生的数据dT1,数字6代表任务T1产生的数据传输到执行任务T2数据中心上的传输时间。本发明研究的安全感知的科学工作流调度方法所要解决的主要问题是在尽量不增加科学工作流执行性能的前提下,提高科学工作流数据的整体安全服务级别。
下面结合图3对本发明进行详细说明。
第一步:计算用户输入科学工作流中单个任务的前驱任务集合Sparent(ti)和后继任务集合Schild(ti);
第二步:根据科学工作流中单个任务的计算时间和数据(主要指输入数据)的传输时间计算科学工作流单个任务ti的最早开始时间Tasap(ti)和最晚开始时间Talap(ti);
第三步:根据第二步中计算的科学工作流中单个任务ti的最早开始时间Tasap(ti)和最晚开始时间Talap(ti),计算科学工作流单个任务ti的空闲时间Tideal(ti);
第四步:把科学工作流中前驱集合为空且没有设置安全服务的任务ti加入到集合G中,同时把以ti为前驱的任务ti的前驱任务集合中删除科学工作流任务ti
第五步:判断集合G是否为空,如果否,转向第六步;如果是,转向第七步;
第六步:根据集合G中任务ti的空闲时间和安全服务模型随机选择数据安全服务且ti应满足约束;在为ti设置安全服务时,ti的安全服务在vmi上的时间开销应小于当Tidle(ti)且需满足Tidle(tj)>0,Tidle(tj)=Tidle(tj)-Cost(tj)tj∈Schild(ti),然后再利用公式Tidle(tj)=Tidle(tj)-Cost(tj)tj∈Schild(ti)更新集合Schild(ti)中任务tj的空闲时间,最后把任务ti从集合G中删除;然后转向第四步;
第七步:科学工作流中所有单个任务设置完安全服务后,根据MCP算法为科学工作流中所有任务分配合适的数据中心,用于创建虚拟机和执行科学工作流任务;其中科学工作流中单个任务执行时间的预测值为Cost(ti)+lengthi
第八步:按照科学工作流中单个任务的执行次序和MCP算法生成的调度策略,在云环境下执行科学工作流任务,最后返回结果。
本说明书中未做详细描述的内容属于本领域中专业技术人员公知的现有技术。

Claims (1)

1.一种云计算环境下安全感知的科学工作流调度方法,其特征在于:所述调度方法包括以下步骤:
第一步:计算用户输入科学工作流中单个任务的前驱任务集合Sparent(ti)和后继任务集合Schild(ti);
第二步:根据科学工作流中单个任务的计算时间和数据的传输时间计算科学工作流单个任务ti的最早开始时间Tasap(ti)和最晚开始时间Talap(ti);
第三步:根据第二步中计算的科学工作流中单个任务ti的最早开始时间Tasap(ti)和最晚开始时间Talap(ti),计算科学工作流单个任务ti的空闲时间Tideal(ti);
第四步:把科学工作流中前驱集合为空且没有设置安全服务的任务ti加入到集合G中,同时从以ti为前驱的任务tj的前驱任务集合中删除科学工作流任务ti
第五步:判断集合G是否为空,如果否,转向第六步;如果是,转向第七步;
第六步:根据集合G中任务ti的空闲时间和安全服务模型随机选择数据安全服务,且ti应满足约束tj∈Schild(ti);在为ti设置安全服务时,ti的安全服务在虚拟机vmi上的时间开销应小于Tidle(ti),且需满足Tideal(tj)>0,Tidle(tj)=Tidle(tj)-Cost(ti),tj∈Schild(ti),然后再利用公式Tidle(tj)=Tidle(tj)-Cost(ti),tj∈Schild(ti)更新集合Schild(ti)中任务tj的空闲时间,其中Tideal(tj)为单个任务tj的空闲时间,Tidle(tj)为科学工作流任务tj的空闲时间,Cost(ti)为科学工作流任务ti的安全服务开销,最后把任务ti从集合G中删除;然后转向第四步;
第七步:科学工作流中所有单个任务设置完安全服务后,根据MCP算法为科学工作流中所有任务分配合适的数据中心,数据中心用于创建虚拟机和执行科学工作流任务;其中科学工作流中单个任务执行时间的预测值为Cost(ti)+lengthi,其中lengthi为任务ti在虚拟机vmi上的运行时间;
第八步:按照科学工作流中单个任务的执行次序和MCP算法生成的调度策略,在云环境下执行科学工作流任务,最后返回结果。
CN201210172306.6A 2012-05-30 2012-05-30 一种云计算环境下安全感知的科学工作流调度方法 Expired - Fee Related CN102799957B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210172306.6A CN102799957B (zh) 2012-05-30 2012-05-30 一种云计算环境下安全感知的科学工作流调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210172306.6A CN102799957B (zh) 2012-05-30 2012-05-30 一种云计算环境下安全感知的科学工作流调度方法

Publications (2)

Publication Number Publication Date
CN102799957A CN102799957A (zh) 2012-11-28
CN102799957B true CN102799957B (zh) 2015-10-14

Family

ID=47199056

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210172306.6A Expired - Fee Related CN102799957B (zh) 2012-05-30 2012-05-30 一种云计算环境下安全感知的科学工作流调度方法

Country Status (1)

Country Link
CN (1) CN102799957B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106775932A (zh) * 2016-11-29 2017-05-31 中国人民解放军国防科学技术大学 一种云计算系统中随机事件触发的实时工作流调度方法
EP4209908A1 (en) * 2022-01-05 2023-07-12 Tata Consultancy Services Limited Method and system for secure scheduling of workflows and virtual machine utilization in cloud

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473122B (zh) * 2013-08-21 2017-01-25 上海交通大学 一种云计算环境中的工作流系统资源调度方法
CN104915253B (zh) * 2014-03-12 2019-05-10 中国移动通信集团河北有限公司 一种作业调度的方法及作业处理器
CN104536806B (zh) * 2014-12-26 2017-11-03 东南大学 一种云环境下的工作流应用弹性资源供应方法
CN104834571B (zh) * 2015-05-25 2018-05-25 南京大学 一种应用于云工作流调度的数据预取方法
CN105005506B (zh) * 2015-07-17 2017-11-10 中国人民解放军国防科学技术大学 一种虚拟化云中容错资源供给方法
CN105260818B (zh) * 2015-09-17 2018-12-25 福州大学 混合云环境下带截止日期约束工作流组的在线优化调度方法
CN106973030A (zh) * 2016-01-14 2017-07-21 北京仿真中心 一种基于sla的云仿真资源调度方法
CN105761056A (zh) * 2016-02-23 2016-07-13 浪潮通信信息系统有限公司 一种基于大数据分析的工作流智能生成方法
CN105912406B (zh) * 2016-05-05 2018-01-12 中国人民解放军国防科学技术大学 一种低能耗的独立任务调度与资源配置方法
CN107291536B (zh) * 2017-05-23 2020-06-30 南京邮电大学 一种云计算环境下应用任务流调度方法
CN109788043A (zh) * 2018-12-28 2019-05-21 亚信科技(中国)有限公司 任务处理方法、装置、计算机设备和存储介质
CN110084507B (zh) * 2019-04-24 2021-07-20 信雅达科技股份有限公司 云计算环境下分级感知的科学工作流调度优化方法
CN111861412B (zh) * 2020-07-27 2024-03-15 上海交通大学 面向完成时间优化的科学工作流调度方法及系统
CN114168610B (zh) * 2022-02-08 2022-05-10 深圳华强电子交易网络有限公司 一种基于线序划分的分布式存储和查询方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1936839A (zh) * 2005-09-22 2007-03-28 联想(北京)有限公司 一种新型的网络复制系统与方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1936839A (zh) * 2005-09-22 2007-03-28 联想(北京)有限公司 一种新型的网络复制系统与方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Hypertool:A Programming Aid for Message-Passing Systems;Min-You Wu等;《IEEE Transactions on parallel and distributed systems》;19900731;第1卷(第3期);第333-335页 *
面向分布式实时系统的新型可信任务调度算法;夏平等;《西北工业大学学报》;20110430;第29卷(第2期);第156-158页 *
面向路径搜索的多虚拟机协同计算关键技术;陈小军等;《计算机集成制造系统》;20111031;第17卷(第10期);第2302页 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106775932A (zh) * 2016-11-29 2017-05-31 中国人民解放军国防科学技术大学 一种云计算系统中随机事件触发的实时工作流调度方法
EP4209908A1 (en) * 2022-01-05 2023-07-12 Tata Consultancy Services Limited Method and system for secure scheduling of workflows and virtual machine utilization in cloud

Also Published As

Publication number Publication date
CN102799957A (zh) 2012-11-28

Similar Documents

Publication Publication Date Title
CN102799957B (zh) 一种云计算环境下安全感知的科学工作流调度方法
Hu et al. Scheduling of manufacturers based on chaos optimization algorithm in cloud manufacturing
CN112148455B (zh) 一种任务处理方法、设备及介质
CN104331321A (zh) 基于禁忌搜索和负载均衡的云计算任务调度方法
CN102567851B (zh) 一种云计算环境下安全感知的科学工作流数据布局方法
Farhat et al. Stochastic modeling and optimization of stragglers
CN102739785B (zh) 基于网络带宽估计的云计算任务调度方法
CN101034362A (zh) 运用移动代理实现网格作业调度的方法
Gawali et al. Standard deviation based modified cuckoo optimization algorithm for task scheduling to efficient resource allocation in cloud computing
CN105373426A (zh) 一种基于Hadoop的车联网内存感知实时作业调度方法
Chen et al. Resource virtualization methodology for on-demand allocation in cloud computing systems
CN114741169B (zh) 负荷聚合公共服务平台异构密码计算服务多任务调度方法
Lin et al. Real-time divisible load scheduling with different processor available times
He et al. Modeling and analyzing the impact of authorization on workflow executions
Ge et al. Cloud computing task scheduling strategy based on improved differential evolution algorithm
Akintoye et al. Optimization of virtual resources allocation in cloud computing environment
Sana et al. Improved particle swarm optimization based on blockchain mechanism for flexible job shop problem
CN104915250A (zh) 一种实现作业内的MapReduce数据本地化的方法
Wang et al. A hard real-time scheduler for Spark on YARN
Ding et al. Data locality-aware and QoS-aware dynamic cloud workflow scheduling in Hadoop for heterogeneous environment
Gawali et al. Implementation of IDEA, BATS, ARIMA and queuing model for task scheduling in cloud computing
Proaño et al. Empirical modeling and simulation of an heterogeneous Cloud computing environment
Yin et al. A data-aware workflow scheduling algorithm for heterogeneous distributed systems
Farhat Stochastic modeling and optimization of stragglers in mapreduce framework
Wang et al. A survey of system scheduling for hpc and big data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20151014

Termination date: 20190530

CF01 Termination of patent right due to non-payment of annual fee