CN100570569C - 网格计算环境下的作业跨域控制方法 - Google Patents

网格计算环境下的作业跨域控制方法 Download PDF

Info

Publication number
CN100570569C
CN100570569C CNB2008101241334A CN200810124133A CN100570569C CN 100570569 C CN100570569 C CN 100570569C CN B2008101241334 A CNB2008101241334 A CN B2008101241334A CN 200810124133 A CN200810124133 A CN 200810124133A CN 100570569 C CN100570569 C CN 100570569C
Authority
CN
China
Prior art keywords
grid
resource
user
job
virtual organization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CNB2008101241334A
Other languages
English (en)
Other versions
CN101308468A (zh
Inventor
王汝传
莫晓莉
张琳
王海艳
陈建刚
王杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JIANGSU YITONG HIGH-TECH Co., LTD.
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CNB2008101241334A priority Critical patent/CN100570569C/zh
Publication of CN101308468A publication Critical patent/CN101308468A/zh
Application granted granted Critical
Publication of CN100570569C publication Critical patent/CN100570569C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Multi Processors (AREA)

Abstract

网格计算环境下的作业跨域控制方法是运用信任机制来实现网格环境中的作业控制,对于网格中可用的资源进行信任评估,对需要处理的作业进行分解,依靠网格中的控制系统所提供的信息,并利用移动代理将其迁移至合适的资源上执行。该方案克服了其他作业控制方案的可靠性差,响应时间没有得到保证,在资源上的运行时间可能过长以及出错处理不完善等的缺点,可以实现对网格中资源和作业控制的自适应,降低网格通信量,提高网络的利用率,形成作业的并行求解,从而达到提高网格资源的利用效率和网格计算的执行效率的目标,加快任务的执行,提高结果的正确度,从而提高分布式系统的处理效率。

Description

网格计算环境下的作业跨域控制方法
技术领域
本发明是一种用于在网格,运用信任机制实现的作业控制方案,实现了跨域操作,属于网格计算和分布式计算的交叉技术应用领域。
背景技术
网格计算已经发展成为计算机工业的一个重要领域,该领域与分布式计算的不同之处在于,网格计算更加集中于资源共享和协同工作以及高性能的定位,致力于解决多个个体或组织之间有关资源共享的问题。网格计算环境下,采用基于虚拟组织的分布式管理控制模式,它使得各级服务器和作业实体从资源控制、作业调度和控制等复杂的工作中解脱出来。各级服务器只是负责收集其辖域的各种资源信息并建立相应的分布式数据库,当某个实体提交作业处理请求时,系统将自动为该作业创建一个虚拟组织,它全权负责该作业的调度、资源的使用和安全保证等工作,如图1所示。
实际上,网格系统中是由一系列的基本功能模块协作,向用户提供服务的,网格系统的基本功能模块,如图2所示。
在网格系统中,有大量的应用在运行,这些应用共享网格的各种资源,这些应用通常被称为作业,所谓作业是指用户代码、数据、任务和相关资源描述信息的集合。而作业管理控制是随着集群技术和网络技术的应用发展而发展起来的一项技术,它根据作业的资源需求和网格资源的状态,对作业所要求的资源进行选择和分配,并进行任务的调度和作业执行的控制,其目标是实现对网格资源的优化使用,为网格用户提供更好的QoS。
网格作业控制要达到的目的如下:
1.提供良好的用户接口,控制数据输入/输出,并保证数据的正确性;
2.控制作业的生命周期,这是网格作业控制的基本功能,负责网格从提交创建至结束返回计算结果的全部过程;
3.资源与作业的匹配,利用资源控制模块为作业寻找合适资源。
4.负责作业分解与迁移,实现资源的负载平衡。
目前网格作业管理控制系统主要有Condor-G系统、Sun网格引擎和GRAM。
Globus项目所开发的网格计算技术提供了远程资源访问的标准协议和服务。特别是通过GSI(网格安全基础设施Grid Security Infrastructure)、网格资源分配管理GRAM(Grdi Resource Allocation Manager)、全局二级存储服务GASS(GlobalAcess to Secondary Storage)等协议,可以实现跨组织的安全远程执行系统,并且可以不做修改使用现有的批处理系统。但是,实现这三个协议的成功结合不是一件容易的事情,它需要客户端即使遇到复杂错误的情况下也能处理大量作业。为了达到这个目的,Condor与Globus项目合作开发出Condor-G。
Sun网格引擎SGE(Sun Grid Engine)将网格定义为执行任务的计算资源的集合。系统提供单入口,用户一次可提交多个作业,而无需考虑执行细节。
GT3中有一些服务被合在一起成为GRAM。GRAM为用户提供一个使用远程系统的简单接口。用户通过该接口可以在远程资源上执行“作业”,GRAM最常用的功能就是作业提交和作业控制。
发明内容
技术问题:本发明的目的是提供一种网格计算环境下的作业跨域控制方法,通过使用本发明提出的方法可以实现对网格中可用资源的安全动态性查找和作业控制的自适应性,使当前域降低网格的通信量,提高网络的利用率,形成作业的并行求解,从而提高网格资源的利用效率和网格计算的执行效率。若资源遇到掉电等不可抗拒的自然原因而离开网格,运行节点还没有将信息交给网格控制机构,这时就没有办法整合,得到最终的正确结果。为了让用户在发生突发灾难时,仍然能获得正确的运行结果,需要对各资源节点进行监控,即时处理子作业故障,在当前域资源匮乏的情况下及时进行跨域操作。
技术方案:网格的最终目的就是为了给用户提供一种进行高性能计算的便利环境。为了使我们的作业执行尽可能靠近数据源,降低网络通信开销,节省带宽,平衡负载,加强子任务节点的监控,加快任务的执行,从而提高分布式系统的处理效率和结果的正确率,我们提出了一种运用信任机制的作业控制方案。
信任是对一个实体身份和行为的可信度的评估,与这个实体的可靠性、诚信和性能有关,信任是一个主观概念,取决于经验,通常用信任值来表示信任等级的高低,信任值随实体的行为而动态变化。网格把地理上分布的个人计算机、工作站、集群、科学仪器等资源同用户联系起来。网格实体包括资源和用户,根据网格实体所属组织的不同以及地理位置的不同,我们把网格划分成若干个独立的自治域(Autonomous Domain),每个自治域包含若干个网格实体,有自己的管理策略、安全策略,自治域之间通过网络连接。通过把网格划分为不同的自治域,可以很容易的解决可扩展性、站点的自治性以及异构性问题。当网格中不同的实体要进行交易时,需要知道他们之间的信任关系,根据实体所处自治域的不同,我们把实体之间的信任关系分为域内实体之间的信任关系和域间实体之间的信任关系。这里仅简单的运用到了一种域内信任模型来计算实体之间的信任值,域间实体之间的信任关系不作考虑。
本发明的网格环境下作业跨域控制方法中的作业控制是运用信任机制的,并实现了网格的跨域操作,具体步骤如下:
步骤1:在提交作业之前,用户首先要经过注册成为该网格的用户,
步骤2:在用户加入网格之前,网格应用层进行环境的初始化,为网格用户接下来的一系列活动作准备,
步骤3:如果用户身份合法,网格确定用户对资源的访问控制权限,网格用户提交作业请求,
①网格用户填写要提交的作业:网格用户在提交网格作业时,需给出提交的任务名称、作业描述以及作业执行的起始时间和终止时间,在提交的过程中,提交该作业的宿主机会自发地将本地IP地址和主机名附加在作业描述中,
②网格用户提交自己的作业,网格虚拟组织控制机构需要对网格用户提交的作业的合法性、用户访问控制权限等级进行检验,如果该作业请求合法,不存在语义冲突问题,网格虚拟组织作业控制器将接受该请求,
③网格虚拟组织中该网格用户作业进入作业等待对列,并将请求状态设置为:提交状态,等待调度执行,
步骤4:网格虚拟组织中心的作业控制机构为作业进行次序调度,定时向作业等待队列中提取位于队首的作业,如果队列不为空,执行步骤5;否则作业控制机构等待直至有用户提交的作业进入队列,
步骤5:作业控制机构获取作业的描述信息,
步骤6:在网格作业控制机构根据信任机制筛选出可用的计算资源,
步骤7:作业控制机构为作业进行资源匹配调度,确定分配到每一个计算资源的子任务,
步骤8:将作业进行分解、迁移:在得到匹配的资源节点后,虚拟组织服务端将用户所提交的作业按照匹配的资源性能进行划分,该作业分配算法是根据资源的性能权重来划分,资源的综合性能高则划分到的作业量也大,相反则作业量小;然后虚拟组织服务端通过移动代理平台启动移动代理将各划分的作业分配给相应的资源节点,如果作业迁移成功,作业控制机构将作业状态设置为准备好状态进入步骤9,否则,作业状态被设置为出错状态进入步骤11,
步骤9:子任务被迁移至计算资源,接受本地资源操作系统的调度,
步骤10:当虚拟组织中的作业通过移动代理迁移到资源节点运行时,虚拟组织服务端启动监听线程,监测作业以及资源节点,看是否返回运行结果,
如果用户查询出作业已经完成,则可以通过输入作业的标识号来查看作业的执行结果,否则进入步骤11,
步骤11:若该过程中出现了某个资源运行的作业结果返回失败,这时虚拟组织服务端就需要将分配给该资源的作业重新进行分配,若这时其他在运行的资源节点还没有结束任务运行,虚拟组织服务端则需要请求其他虚拟组织服务端来协助完成该段作业,因而虚拟组织1的服务端将该作业发送给虚拟组织2的服务端,同时还发送该用户的认证断言,虚拟组织2的服务端对该断言进行验证,若通过则就能够接收该段作业,并在虚拟组织2的域中相应地分配资源来运行,最后运行结果返回给虚拟组织1的服务端,此服务端再对这些结果进行整合并返回给用户,这样就实现了网格作业的跨域动态迁移调度。
此信任模型的设计思路是以网格各资源节点与用户之间的直接或间接信任关系为出发点,进行建模和编程实现的,用户和资源节点之间存在如图3的树状关系。
此树状图分为4层,h表示树的高度.某一用户处在第一层即树根(h=1)以此类推,直到h=4为子叶。用户如果想要找到网格中所有符合自己要求的资源节点来为自己提供服务,则要以所有节点作为目标节点进行一一遍历,然后筛选出可用节点。
1.首先打开用户的信任记录,先查找与用户有直接信任关系的资源节点,取IP地址最后一位表示该节点有120、170、190三个,先从节点120开始,如果不是目标节点则又以此120节点为源,进行深度遍历。
2.直到深度遍历结束后(查到h=4的170为止)才进行广度,即横向遍历,返回到h=2层,查找节点170,如果不是目标节点,并且没有信任记录,则转到同层的下一节点190。
3.再进行深度遍历,直到所有节点都遍历一遍,程序结束。
4.针对网格中的每个节点都有一条或多条信任路径,对其进行整合,加权平均后得出用户对此节点的最终信任值,然后再根据可信度阈值筛选出满足要求的节点,来完成此用户提交的作业任务。
移动代理是一个能够在异构网络中自主地从一台主机迁移到另外一台主机,并可与其它代理或资源交互的程序。实际上它是代理Agent技术与分布式技术的综合体。
对于网格中需要处理的作业,首先动态的查找可用的资源,这里的可用资源是指根据信任值筛选出的满足要求的并且在线空闲的资源节点,并根据各自的资源性能来综合评判,动态的将作业分解。依靠网格中的控制系统所提供的信息,并利用移动代理(Mobile代理)将其迁移至合适的资源上执行。如果在执行过程中出现某一个或某些资源节点发生异常而无法返回正确的结果,那么就要进行异常处理,在网格的其他节点上保存该作业在运行过程中的副本,包括运行程序、输入数据、描述信息等。为了降低网格作业执行时间和网络通信负载,移动代理尽可能地将异常节点的子作业迁移至本地域的其他节点上。这里只需设置一个标志器,当运行节点有任何异常而无法返回正常信息或结果,就抛出异常,将标志器置其他值,进入异常处理阶段,即将该异常节点设为离线状态,并将其信息中的作业范围取出,交于本域中的其他正常节点继续执行,最后汇总出正确的结果。但如果在本地域中资源匮乏,很难找到符合网格作业描述的资源时,移动代理就将其作业执行副本发送至其他域,让其为该作业需求寻求合适的资源,实现调度中的跨域操作。
资源存在着一个生命周期:包括资源的注册、共享以及注销。其具体过程如下:
1.向资源控制器注册自己。
2.资源控制器把资源的注册信息写到资源信息数据库中。注册的结果在资源信息数据库中有了自己的信息。注册之后的资源就变成了网格资源。
3.用户需要资源时,向资源控制器提出请求。
4.资源控制器从资源信息数据库中获得匹配资源的信息,返回给用户,用户获得了资源信息。
5.有了资源信息,服务器就可以同资源之间进行各种交互。
网格作业控制中心需要对网格用户提交的作业进行任务分解,这里对作业的分解采用了树行分支结构,如图4所示。
其中根节点A为在网格作业提交界面中提交的原始作业,而真正在网格计算资源节点上执行的作业是叶子节点E、F、G、H、I。网格作业的分解应该考虑到网格环境中的静态负载问题,即每一个任务的分配都要求资源节点的计算能力满足任务节点的计算需求,以避免计算量较大的任务被分配到计算能力差的资源上,或者计算量较小的任务被分配到计算能力强的资源上,实现静态的负载平衡。
当将任务分解之后,我们所希望网格接下来的工作便是将分解后的网格任务在网格中发布,并在当前时间迁移至有可用资源的宿主机中继续执行。作业迁移的意义在于:
1.实现负载平衡。负载平衡是用户获得良好服务质量和资源充分共享的前提,在作业运行阶段,采用资源迁移机制,将重载节点上的一部分作业迁移到轻载节点上,使系统内各资源的负载大致平衡。
2.处理作业故障和资源离开请求。当资源由于故障或能力限制不能再继续运行其上已经运行的作业时,可以把这些作业迁移到其他资源上,继续作业的运行。当资源提出退出网格请求时,把其上正在运行的网格作业迁移到其他资源上,准许资源退出网格,尊重资源拥有者的意愿。
3.充分利用网格资源,降低作业的整体开销。
移动代理决定作业的自由迁移,它是根据迁移对象的不同分为代码迁移和数据迁移。为了降低网格作业执行时间和网络通信负载,移动代理尽可能地将我们的网格作业迁移至本地的局域网中,只有在本地局域网中很难找到符合网格作业描述的资源的情况下,移动代理将其作业执行副本的Agent发送至网关,让其为该作业需求寻求另外一个或几个局域网中的合适的资源中继续执行,如图5所示。
对于网格环境下的负载问题,由于网格计算环境中计算资源的组成结构十分复杂,它可以由上万台单个PC机、多个集群、甚至可数个组织的局域网。由于计算负载的差异、处理机体系结构的差异、高速缓存使用效率的差异等原因,都会造成各个资源节点之间计算负载的不均衡,导致出现有的计算资源节点空闲等待,有的计算资源节点负载过大的现象。
我们要求能对计算资源的计算能力ci和并行任务的计算需求ψj都进行较为准确的定量描述,使得每一次任务的分配都要求资源节点的计算能力满足任务节点的计算需求,以避免计算量较大的任务被分配到计算能力差的资源上,或者计算量较小的任务被分配到计算能力强的资源上,从而实现任务的负载平衡。所以若计算资源的计算能力参数和并行任务的计算需求量能够比较准确地反映真实的情况,那么系统中计算能力强的资源会得到更多的任务,这符合网格环境的负载平衡的需求。
对于网络通信负载问题,网格之所以有着强大的分布式计算能力,得益于它能尽一切所能地利用网格资源。但是这也因此带来了另外一个我们需要关注的问题:网络通信负载。目前,通信网络是网格的物理基础,网格作业的处理如作业实体的迁移至远程资源节点、进程间通信等无一不需要通信网络的支持。这势必会产生大量的网络通信负载,如何尽可能地降低这些负载也是我们设计所要考虑的问题。
网格为人们提供了可以进行并行计算的物理基础。就像前面所述,网格中由于计算负载的差异、处理机体系结构的差异、高速缓存使用效率的差异等原因,都会造成各个资源节点之间计算负载的不均衡,导致出现有的计算资源节点空闲等待,有的计算资源节点负载过大的现象。
当原子任务被分配到计算资源上开始计算时,占用了该资源的全部或部分计算能力,资源控制器将从当前资源的计算能力中减去该原子任务所占用的部分。同时,为了保证在分配其它并行任务时能够得到正确的计算能力参数值,当非原子任务在资源树的非叶子结点上开始进行调度之时,也将该非原子任务总需求从该资源节点的计算能力中减去。当然原子任务的计算完成后,资源控制器将在当前资源的计算能力参数中恢复被该原子任务所占用的部分,如图6所示。
定义如下变量:Ti:用户提交的作业;Ri:网格资源节点;ci:Ri的CPU计算能力估值;linki,j:Ri和Rj之间的带宽;ψj,i:Tj分配到Ri的任务工作量。在只考虑网格各资源的CPU计算能力的前提下,对于任意Ri来说,其计算能力 e i = 1 1 c i + A link 0 , i , 网格任务控制中心将Tj分解,由于 ψ j = Σ i = 1 n ψ j , i , 所以在Rk上所分配到的 ψ j , k = ψ j Σ i = 1 n c i * link 0 , i link 0 , j + A * c i c k * link 0 , k link 0 , k + A * c k . 随着计算资源中迁移任务的迁入和迁出,ci的值会随之不断的相应调整。
有益效果:
(1)运用信任机制可以有效的查找出可用的资源节点。
(2)运用移动代理可以迁移到网格环境的各级客户服务器或中央服务器上,与之进行本地高速通信,它不再占用网络资源,从而大大降低了网格的通讯量,并提高了网络资源的利用效率。
(3)在地域上分布的异构网格计算环境中能自主地将计算任务从一计节点迁移到另一节点;并与其它代理或资源交互,实现作业和资源的控制和自适应。
(4)在网格计算中,移动代理不需要统一的调度。由用户创建的代理可以异步在不同计算节点运行,等任务完成再将结果传送给用户。同一用户或同一计算节点可创建多种代理,同时在一个或多个节点运行,形成并行求解的能力。
(5)克服了响应时间没有得到保证和在资源上的运行时间可能过长等的缺点。在本域资源匮乏的情况下调用其他域的资源,有效借助跨域完成作业任务。
(6)作业控制有效的提供良好的用户接口,控制数据输入/输出,并保证数据的正确性,负责网格从提交创建至结束返回计算结果的全部过程。
(7)有效的负责作业分解与迁移,实现资源的负载平衡。
附图说明
图1是网格计算环境下的作业实体与虚拟组织示意图。
图2是网格系统的基本功能模块示意图。
图3是用户ZL的关联节点树状图。
图4是任务树分支结构。
图5是网格作业迁移图。
图6是作业分解图。
图7是运用移动代理的网格作业控制体系结构图。
图8是作业控制执行生命周期图。
图9是应用移动代理的网格安全平台的作业调度图。
图10是应用移动代理的网格安全平台的作业异常时的跨域调度图。
具体实施方式
一.体系结构
运用信任机制的主要网格组件:
移动代理支撑环境:作为移动代理运行的中间件,提供移动代理移动、安全以及智能性的底层支持,可以与其它网格组件集成。
节点:是网格计算资源的提供者,泛指各种计算机设备、仪器等。
网格控制系统:负责不同网格用户对资源使用的统一指挥、协调处理以及判断异常时是否需要跨域;提供网格计算的信息服务,可以采用基于移动代理的信息查询、搜集和发布方法。
作业代理:是根据一定的作业描述规范生成的移动代理(或子代理)用于协同完成一个复杂的网格计算任务。
网格作业控制系统的结构:
网格作业控制是负责控制网格作业生命周期的模块。这里提出了一种运用移动代理的网格作业控制体系结构,如图7所示。
客户端本地移动代理:在合法用户在网格客户端输入作业请求描述,客户端的本地移动代理根据该作业请求描述信息生成网格作业并提交至网格虚拟组织作业控制中心。
作业信息:存储所有各种状态队列下的网格作业,以及网格作业的执行信息,如作业的执行状态、作业的执行数据等。
作业调度:为网格作业进行次序调度、匹配调度。
作业分解:根据网格虚拟组织控制中心中的资源控制信息动态得将作业进行分解。
作业分配:将子任务和资源进行匹配。
服务端代理:服务端代理根据作业分配模块与宿主机中的移动代理进行通信。
宿主机代理:宿主机代表了网格资源,一旦开启移动代理,在区域region中注册,就意味着该网格资源在虚拟组织中有效。
网格作业控制需要完成如下任务:
1.控制作业的整个生命周期,负责作业从用户提交开始直到给用户返回计算结果的全过程;
2.为作业查找合适的资源,匹配作业需求。根据用户作业的需求,从网格中当前可用的资源中选择合适的资源,并把所选择的资源分配给用户使用;
3.控制作业的输入/输出。网格作业的输入/输出一般都在远程节点之间进行,但这个特点并不一定要在作业的代码体现出来,输入可能是读键盘,输出可能是写屏幕,网格作业控制机构要能从正确的位置读到数据,能向正确的位置写数据;
4.负责作业的迁移,把作业从一个资源迁移到一个新的资源上接着运行,实现资源的负载平衡。由于不能准确预测作业运行的实际情况,在网格中也会出现负载不平衡并需要作业迁移的情况,资源的动态进出也需要进行作业的迁移。
作业控制机构还要提供作业信息查询接口,以便用户随时获取自己提交的作业状态信息。
目前,网格上支持的作业大多都是批处理作业,用户提交以后,网格要找到合适的节点运行作业,运行结束后需要返回给用户结果。一般的作业在运行过程中很少需要甚至是不需要再与用户交互。
网格计算环境中的作业的调度包括作业分解、资源发现与选取、任务分配、任务运行、任务监视与恢复、任务协调与集成等六个方面。
1.作业分解的主要功能是将提交的作业分解成多个尽可能高并行度的子任务。
2.资源发现与选取:资源拥有者应该发布的资源及访问策略给资源媒介(resource matchmaker);资源媒介存储这些资源的发布信息;资源请求者发布它的资源需求信息给资源媒介;资源媒介依据资源请求者的需求信息选取合适的资源集合给资源请求者。
3.任务分配:一作业被分解为m个任务T={T1,T2,...,Tm},系统中有n个可利用的资源R={R1,R2,...,Rn}。任务分配的目的就是将这m个模块分配到n个资源中,使预期的性能目标函数值最小。
4.任务运行:资源预留;提交任务到资源;准备阶段可以包括建立、分段运输、要求保留资源或其它需要准备运行应用程序相关资源动作;任务在本地调度策略的控制下,运行任务。
5.任务监视与恢复:任务监视有两个目的:便于用户与作业之间的交互;及时为作业控制程序反馈信息,便于作业控制程序快速做出决策。
6.任务协调与集成:可以通过一个协调者来完成任务间执行的同步。当所有任务执行完毕后,我们必须将它们的执行结果集成起来,成为整个任务的结果。此外,网格工作调度还包括工作调度的性能分析、QoS考虑等等功能。
二.方法流程
网格作业控制执行流程:
一般情况下,网格作业的执行都在远程节点上进行,一个完整的网格作业控制执行周期如图8所示。
1.在提交作业之前,用户首先要经过注册成为该网格的用户。
2.在用户加入网格之前,网格应用层首先要进行环境的初始化,为网格用户接下来的一系列活动作准备。
3.如果用户身份合法,网格确定用户对资源的访问控制权限,网格用户提交作业请求。
①网格用户填写要提交的作业。
网格用户在提交网格作业时,需给出提交的任务名称、作业描述以及作业执行的起始时间和终止时间。在提交的过程中,提交该作业的宿主机会自发地将本地IP地址和主机名附加在作业描述中。这样做的原因,是为了避免网格用户写错本机的IP地址及其主机名造成作业发布等接下来的一系列步骤出错。
②网格用户提交自己的作业;网格虚拟组织控制机构需要对网格用户提交的作业的合法性、用户访问控制权限等级进行检验,如果该作业请求合法,不存在语义冲突问题,网格虚拟组织作业控制器将接受该请求。
③网格虚拟组织中该网格用户作业进入作业等待对列,并将请求状态设置为:提交状态,等待调度执行。
网格用户在提交作业之后,作业进入网格虚拟组织中心作业等待队列。每一个被提交的作业都被赋予唯一的标识号。网格虚拟组织调度中心会为网格作业进行次序调度和匹配调度。对于次序调度,网格作业遵循“FIFO”的原则,虚拟组织中心的网格作业控制机构总是在作业等待队列中挑选位于队首的作业首先进行处理。网格虚拟组织中记录网格用户的资源,虚拟组织根据之前所提到的信任机制为当前的作业选择合适的网格资源进行匹配调度。
4.网格虚拟组织中心的作业控制机构为作业进行次序调度,定时向作业等待队列中提取位于队首的作业,如果队列不为空,执行步骤5;否则作业控制机构等待直至有用户提交的作业进入队列。
5.作业控制机构获取作业的描述信息,如提交者的用户信息、作业内容等。
6.在网格作业控制机构根据信任机制筛选出可用的计算资源(其数额不超过资源控制中可用资源数的最大值)。
7.作业控制机构为作业进行资源匹配调度,确定分配到每一个计算资源的子任务。
8.将作业进行分解、迁移。
在得到匹配的资源节点后,VO服务端将用户所提交的作业按照匹配的资源性能进行划分,该作业分配算法目前只是根据资源的性能权重(包括CPU性能,带宽性能,内存性能进行综合)来划分,资源的综合性能高则划分到的作业量也大,相反则作业量小。然后VO服务端通过移动代理平台启动agent将各划分的作业分配给相应的资源节点,如图9。如果作业迁移成功,作业控制机构将作业状态设置为准备好状态进入步骤9,否则,作业状态被设置为出错状态进入步骤11。
9.子任务被迁移至计算资源,接受本地资源操作系统的调度。
10.当VO中的作业通过agent迁移到资源节点运行时,VO服务端启动监听线程,监测作业以及资源节点,看是否返回运行结果。
网格虚拟组织控制者可以通过作业控制中心查询目前队列中网格作业的运行状态。对于网格用户来说可以利用作业的标识号查询提交的作业状态,显示作业当前的运行状态,如目前有哪些资源在执行该作业,每一个资源分配到的子作业的内容以及当前每一个资源运行作业的进程状态。
如果用户查询出作业已经完成,则可以通过输入作业的标识号来查看作业的执行结果,否则进入步骤11。
11.若该过程中出现了某个资源运行的作业结果返回失败(其原因如该资源节点掉线或负荷过重而瘫痪等),这时VO服务端就需要将分配给该资源的作业重新进行分配,若这时其他在运行的资源节点还没有结束任务运行,VO服务端则需要请求其他VO服务端(如:VO2)来协助完成该段作业,如图10。因而VO1服务端将该作业发送给VO2服务端,同时还发送该用户的SAML断言,VO2服务端对该断言进行验证,若通过则就能够接收该段作业,并在VO2域中相应地分配资源来运行。最后运行结果返回给VO1服务端,VO1服务端再对这些结果进行整合并返回给用户,这样就实现了网格作业的跨域动态迁移调度。

Claims (1)

1.一种网格计算环境下的作业跨域控制方法,其特征在于该方法中的作业控制是运用信任机制的,并实现了网格的跨域操作,具体步骤如下:
步骤1:在提交作业之前,用户首先要经过注册成为该网格的用户,
步骤2:在用户加入网格之前,网格应用层进行环境的初始化,为网格用户接下来的一系列活动作准备,
步骤3:如果用户身份合法,网格确定用户对资源的访问控制权限,网格用户提交作业请求,
①网格用户填写要提交的作业:网格用户在提交网格作业时,需给出提交的任务名称、作业描述以及作业执行的起始时间和终止时间,在提交的过程中,提交该作业的宿主机会自发地将本地IP地址和主机名附加在作业描述中,
②网格用户提交自己的作业,网格虚拟组织控制机构需要对网格用户提交的作业的合法性、用户访问控制权限等级进行检验,如果该作业请求合法,不存在语义冲突问题,网格虚拟组织作业控制器将接受该请求,
③网格虚拟组织中该网格用户作业进入作业等待对列,并将请求状态设置为:提交状态,等待调度执行,
步骤4:网格虚拟组织的作业控制机构为作业进行次序调度,定时向作业等待队列中提取位于队首的作业,如果队列不为空,执行步骤5;否则作业控制机构等待直至有用户提交的作业进入队列,
步骤5:作业控制机构获取作业的描述信息,
步骤6:在网格作业控制机构根据信任机制筛选出可用的计算资源,
步骤7:作业控制机构为作业进行资源匹配调度,确定分配到每一个计算资源的子任务,
步骤8:将作业进行分解、迁移:在得到匹配的资源节点后,虚拟组织服务端将用户所提交的作业按照匹配的资源性能进行划分,该作业分配算法是根据资源的性能权重来划分,资源的综合性能高则划分到的作业量也大,相反则作业量小;然后虚拟组织服务端通过移动代理平台启动移动代理将各划分的作业分配给相应的资源节点,如果作业迁移成功,作业控制机构将作业状态设置为准备好状态进入步骤9,否则,作业状态被设置为出错状态进入步骤11,
步骤9:子任务被迁移至计算资源,接受本地资源操作系统的调度,
步骤10:当虚拟组织中的作业通过移动代理迁移到资源节点运行时,虚拟组织服务端启动监听线程,监测作业以及资源节点,看是否返回运行结果,
如果用户查询出作业已经完成,则可以通过输入作业的标识号来查看作业的执行结果,否则进入步骤11,
步骤11:若该过程中出现了某个资源运行的作业结果返回失败,这时虚拟组织服务端就需要将分配给该资源的作业重新进行分配,若这时其他在运行的资源节点还没有结束任务运行,虚拟组织服务端则需要请求其他虚拟组织服务端来协助完成该段作业,因而虚拟组织1的服务端将该作业发送给虚拟组织2的服务端,同时还发送该用户的认证断言,虚拟组织2的服务端对该断言进行验证,若通过则就能够接收该段作业,并在虚拟组织2的域中相应地分配资源来运行,最后运行结果返回给虚拟组织1的服务端,此服务端再对这些结果进行整合并返回给用户,这样就实现了网格作业的跨域动态迁移调度。
CNB2008101241334A 2008-06-13 2008-06-13 网格计算环境下的作业跨域控制方法 Active CN100570569C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2008101241334A CN100570569C (zh) 2008-06-13 2008-06-13 网格计算环境下的作业跨域控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2008101241334A CN100570569C (zh) 2008-06-13 2008-06-13 网格计算环境下的作业跨域控制方法

Publications (2)

Publication Number Publication Date
CN101308468A CN101308468A (zh) 2008-11-19
CN100570569C true CN100570569C (zh) 2009-12-16

Family

ID=40124933

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2008101241334A Active CN100570569C (zh) 2008-06-13 2008-06-13 网格计算环境下的作业跨域控制方法

Country Status (1)

Country Link
CN (1) CN100570569C (zh)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8819183B2 (en) * 2009-12-15 2014-08-26 International Business Machines Corporation Concurrent execution of request processing and analytics of requests
US8874638B2 (en) 2009-12-15 2014-10-28 International Business Machines Corporation Interactive analytics processing
US8892762B2 (en) 2009-12-15 2014-11-18 International Business Machines Corporation Multi-granular stream processing
EP2520070B1 (en) 2009-12-28 2019-01-09 Telefonaktiebolaget LM Ericsson (publ) A social web of objects
CN101907989A (zh) * 2010-06-01 2010-12-08 南京大学 一种基于移动代理的应用无缝迁移方法
CN101977395B (zh) * 2010-10-04 2013-05-22 桂林电子科技大学 无线传感器网络中节点信任管理系统
CN101958808B (zh) * 2010-10-18 2012-05-23 华东交通大学 一种服务于多网格接入的集群任务调度管理器
CN102147750A (zh) * 2011-01-27 2011-08-10 中国农业银行股份有限公司 作业处理方法和系统
CN102799467B (zh) * 2011-05-27 2017-07-21 金蝶软件(中国)有限公司 一种任务分配的方法及系统
CN102841822B (zh) * 2011-06-23 2016-10-05 腾讯科技(深圳)有限公司 对jobTracker主机进行宕机保护的方法和系统
CN102685266B (zh) * 2012-05-14 2015-04-15 中国科学院计算机网络信息中心 区文件签名方法及系统
CN102694877A (zh) * 2012-05-14 2012-09-26 中国科学院计算机网络信息中心 区文件签名控制方法、装置及区文件签名系统
CN103092698B (zh) * 2012-12-24 2017-06-13 中国科学院深圳先进技术研究院 云计算应用自动部署系统及方法
CN103581200B (zh) * 2013-11-15 2016-06-29 中国科学院信息工程研究所 一种实现多级安全域间结构化文档快速流转的方法及系统
CN103617086B (zh) * 2013-11-20 2017-02-08 东软集团股份有限公司 一种并行计算方法及系统
CN103701894A (zh) * 2013-12-25 2014-04-02 浙江省公众信息产业有限公司 动态资源调度方法与系统
CN104239144A (zh) * 2014-09-22 2014-12-24 珠海许继芝电网自动化有限公司 一种多级分布式任务处理系统
US20180198855A1 (en) * 2014-11-24 2018-07-12 Alibaba Group Holding Limited Method and apparatus for scheduling calculation tasks among clusters
CN104506600A (zh) * 2014-12-16 2015-04-08 苏州海博智能系统有限公司 一种共享计算资源方法、装置、系统及客户端和服务器
US10296383B2 (en) 2015-07-10 2019-05-21 Samsung Electronics Co., Ltd. Computing system with resource management mechanism and method of operation thereof
CN105630598B (zh) * 2015-12-29 2019-06-11 宇龙计算机通信科技(深圳)有限公司 数据处理方法、数据处理装置和可穿戴智能设备
CN105592160B (zh) * 2015-12-30 2019-09-13 南京邮电大学 一种云计算环境下面向服务消费者的资源配置方法
CN105653365A (zh) * 2016-02-22 2016-06-08 青岛海尔智能家电科技有限公司 任务处理方法及装置
CN107977257A (zh) * 2016-10-25 2018-05-01 杭州海康威视数字技术股份有限公司 一种任务调度方法及装置
CN107682068B (zh) * 2017-09-06 2021-04-06 西安电子科技大学 一种任务驱动的可重构空间信息网络资源管理架构及方法
CN107704318A (zh) * 2017-09-20 2018-02-16 北京京东尚科信息技术有限公司 实例调度的方法和装置
CN108304261B (zh) * 2017-12-29 2022-05-24 曙光信息产业(北京)有限公司 一种基于6D-Torus网络的作业调度方法和装置
CN108255607A (zh) * 2018-01-08 2018-07-06 武汉斗鱼网络科技有限公司 任务处理方法、装置、电子终端及可读存储介质
CN108491253A (zh) * 2018-01-30 2018-09-04 济南浪潮高新科技投资发展有限公司 一种计算任务处理方法以及边缘计算设备
WO2020082702A1 (en) * 2018-10-24 2020-04-30 Huawei Technologies Co., Ltd. Objective driven dynamic object placement optimization
CN109491793A (zh) * 2018-11-15 2019-03-19 郑州云海信息技术有限公司 云计算系统中业务处理方法和装置
CN109960573B (zh) * 2018-12-29 2021-01-08 天津南大通用数据技术股份有限公司 一种基于智能感知的跨域计算任务调度方法及系统
CN109960574B (zh) * 2019-03-12 2023-04-07 昆明理工大学 一种网格环境下的静态调度改进方法
CN111078399B (zh) * 2019-11-29 2023-10-13 珠海金山数字网络科技有限公司 一种基于分布式架构的资源分析方法及系统
CN113139260B (zh) * 2020-01-17 2024-02-09 中国石油化工股份有限公司 一种用于提高钻井仿真计算速度的系统及方法
CN115580655B (zh) * 2022-11-23 2023-03-10 亚信科技(中国)有限公司 任务调度方法、装置、电子设备及存储介质
CN117608863B (zh) * 2024-01-23 2024-04-23 聊城市洛溪信息科技有限公司 基于智能资源分配的云计算任务跟踪处理方法及系统

Also Published As

Publication number Publication date
CN101308468A (zh) 2008-11-19

Similar Documents

Publication Publication Date Title
CN100570569C (zh) 网格计算环境下的作业跨域控制方法
Masdari et al. Efficient task and workflow scheduling in inter-cloud environments: challenges and opportunities
US8387058B2 (en) Minimizing complex decisions to allocate additional resources to a job submitted to a grid environment
CN101946258B (zh) 基于计算机的业务过程在专用硬件上的基于模型的部署
Liu et al. Resource preprocessing and optimal task scheduling in cloud computing environments
US8275881B2 (en) Managing escalating resource needs within a grid environment
CN104050042B (zh) Etl作业的资源分配方法及装置
Mahato et al. On scheduling transactions in a grid processing system considering load through ant colony optimization
Mahato et al. On scheduling transaction in grid computing using cuckoo search-ant colony optimization considering load
Prakash et al. An optimal job scheduling in grid using cuckoo algorithm
Peddi Design of Simulators for Job Group Resource Allocation Scheduling In Grid and Cloud Computing Environments
Sotiriadis et al. Meta-scheduling algorithms for managing inter-cloud interoperability
In et al. Sphinx: A scheduling middleware for data intensive applications on a grid
Cao et al. Performance prediction technology for agent-based resource management in grid environments
Castillo et al. Resource co-allocation for large-scale distributed environments
Li et al. Cost-aware scheduling for ensuring software performance and reliability under heterogeneous workloads of hybrid cloud
Daming et al. Load balancing mechanism in the cloud environment using preference alignments and an optimisation algorithm
Wen et al. Load balancing consideration of both transmission and process responding time for multi-task assignment
JP2007526558A (ja) コンピューティング・ユーティリティ・システムにおけるアービトレーションのための装置
Liu et al. A Fast and Efficient Task Offloading Approach in Edge-Cloud Collaboration Environment
Zhang et al. Research on the construction and robustness testing of SaaS cloud computing data center based on the MVC design pattern
Singhal et al. An economic allocation of resources in grid environment
Choudhary et al. A novel strategy for deterministic workflow scheduling with load balancing using modified min-min heuristic in cloud computing environment
Ardagna et al. A cost-oriented approach for infrastructural design
Touzene et al. Analytical Model for Performance Evaluation of Load Balancing Algorithm for Grid Computing

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: JIANGSU YITONG HIGH-TECH CO., LTD.

Free format text: FORMER OWNER: NANJING POST + TELECOMMUNICATION UNIV.

Effective date: 20101117

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 210003 NO. 66, XINMOFAN ROAD, NANJING CITY, JIANGSU PROVINCE TO: 215500 NO.28, TONGLIN ROAD, CHANGSHU CITY, JIANGSU PROVINCE

TR01 Transfer of patent right

Effective date of registration: 20101117

Address after: 215500 Jiangsu Province, Changshou City Tonglinlu No. 28

Patentee after: JIANGSU YITONG HIGH-TECH Co., LTD.

Address before: 210003 Nanjing City, Jiangsu Province, the new model road No. 66

Patentee before: Nanjing Post & Telecommunication Univ.