CN1290887A - 在具有本地作业控制系统的分布式处理系统内的外部作业调度 - Google Patents

在具有本地作业控制系统的分布式处理系统内的外部作业调度 Download PDF

Info

Publication number
CN1290887A
CN1290887A CN00129298A CN00129298A CN1290887A CN 1290887 A CN1290887 A CN 1290887A CN 00129298 A CN00129298 A CN 00129298A CN 00129298 A CN00129298 A CN 00129298A CN 1290887 A CN1290887 A CN 1290887A
Authority
CN
China
Prior art keywords
job
ljcs
user job
mark operation
resource scheduler
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN00129298A
Other languages
English (en)
Other versions
CN1127689C (zh
Inventor
D·P·布雷斯福德
J·F·斯克韦拉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1290887A publication Critical patent/CN1290887A/zh
Application granted granted Critical
Publication of CN1127689C publication Critical patent/CN1127689C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/485Task life-cycle, e.g. stopping, restarting, resuming execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/52Program synchronisation; Mutual exclusion, e.g. by means of semaphores

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Multi Processors (AREA)
  • Computer And Data Communications (AREA)
  • Stored Programmes (AREA)

Abstract

对缺少或具有不足的作业调度能力的本地作业控制系统提供外部作业调度能力。这是通过把本地作业控制系统(LJCS)对用户作业的运行封装在一个节点管理系统处的一个标记作业的运行内来完成的,该标记作业的运行是响应于一个外部资源调度程序的。这个技术包括通过该本地作业控制系统外部的该资源调度程序开始一个标记作业,其中该标记作业相应于要被LJCS运行的一个用户作业;响应于该标记作业的开始,通过LJCS开始该用户作业;并且该用户作业一终止,结束由该资源调度程序开始的该标记作业,其中LJCS对该用户作业的开始响应于该资源调度程序对该标记作业的开始,以及该标记作业的结束响应于该用户作业的结束。

Description

在具有本地作业控制系统的分布 式处理系统内的外部作业调度
本发明广义上涉及数据处理技术,并且尤其涉及用于在具有预先存在的“本地”作业控制系统的分布式处理系统内进行外部作业调度的技术,该分布式处理系统没有足够的作业调度能力。
由互联网连接的并通过适当的软件和管理策略统一起来的一堆自动机器自身是一个计算机系统。基于网络的计算机系统的这个概念在计算机工业中持续地变得越来越重要。基于网络计算机包括多于一个的客户-服务器计算并且它的重点放在两方的关系上。在基于网络的计算中,服务(或资源)成为一个更普遍的概念,并且不再需要与单一的机器相关联,相反,它成为整个基于网络的计算机的特征。基于网络的计算机或环境可在若干语境中出现,如在局域网上一堆异质的用户工作站和服务器中;在由经高速网络连接的各个处理器构成的特定目的的一“族”机器中;或在把几个这种环境连接一起的校园网、企业网或全球网中。
在所有这些环境中一个重要的组成部分是资源管理系统,并且资源管理系统的一个重要方面是它的作业调度能力。通常,分布式处理系统具有现有的方法来在分布式系统内管理作业。该现有的方法,这里被称为“本地作业控制系统”可拥有或者不拥有基本的作业调度能力。在很多这样的系统中,作业调度可被认为是人工的,因为系统的操作员或用户开始一个作业并且本地作业控制系统仅监测作业的进展。
由于各种原因,申请人确定维持本地作业控制系统并且同时对本地系统提供增强的和自动的外部作业调度能力是必要的。
简单概括,本发明一方面包括一种用于在具有本地作业控制系统(LJCS)的分布式处理系统内处理作业的方法,该本地作业控制系统接收要被处理的用户作业。该方法包括:通过该本地作业控制系统外部的一个资源调度程序开始一个标记作业,其中该标记作业相应于要被该LJCS运行的一个用户作业;响应于该资源调度程序对该标记作业的开始,通过该LJCS开始该用户作业;并且该用户作业一终止,结束由该资源调度程序(scheduler)开始的该标记作业,其中该LJCS对该用户作业的开始响应于该资源调度程序对该标记作业的开始,以及该标记作业的结束响应于该LJCS对该用户作业的结束。
在另一方面,提供一种用于在分布式处理系统内处理作业的系统。分布式处理系统具有一个本地作业控制系统(LJCS),其接收要被处理的用户作业。该系统包括位于LJCS外部的一个资源调度程序,该资源调度程序具有用于开始一个标记作业的装置,其中标记作业相应于要被LJCS运行的一个用户作业。该系统还包括响应于资源调度程序的标记作业的开始而通过LJCS开始该用户作业的装置;并且其后还有用于在该用户作业一终止就结束由资源调度程序开始的该标记作业的装置。从而用于由LJCS开始用户作业的装置是响应于用于开始标记作业的资源调度程序的装置,并且结束标记作业的装置响应于用户作业的结束。
在又一方面,至少一个确实体现由机器执行的指令组成的至少一个程序的可机读的程序存储设备被提供来执行用于在分布式处理系统内处理作业的方法,该分布式处理系统具有接收要被处理的用户作业的本地作业控制系统(LJCS)。该方法包括:由LJCS外部的资源调度程序开始一个标记作业,其中标记作业相应于要被LJCS运行的一个用户作业;响应于由资源调度程序对标记作业的开始,通过LJCS开始该用户作业;并且当用户作业一终止,结束由资源调度程序开始的该标记作业,其中LJCS对用户作业的开始是响应于资源调度程序的标记作业的开始,以及其中标记作业的结束响应于用户作业的结束。
重申一下,这里提供的是用于对预先存在的作业控制设备增加资源调度能力的技术,该预先存在的作业控制设备可具有或不具有它自己的作业调度程序。该技术包括用资源调度程序开始和结束标记作业在本地作业控制系统上用户作业的封装运行。优选地,资源调度程序使用诸如由国际商业机器(IBM)公司提供的负载校平器程序的节点管理系统。使用该技术,客户能够维持现有的本地作业控制系统的接口,同时具有在该系统上叠加的自动的作业调度能力。此外,当使对以下的先存在的本地作业控制系统的任何改变最小时提供这些能力。
提供的方案有效地避免了在该方案中的多个编码之间的不同步错误的可能性,即在外部资源调度程序,节点管理系统与本地作业控制系统之间的不同步错误的可能性。而且,本发明的方案是对在节点管理系统与本地作业控制系统上叠加外部调度程序的一个简单而稳固的实施。客户编码(即,本地作业控制系统)被保留,没有高价的变化,以支持调度子系统之间的同步。通过使客户编码服从于节点管理系统/外部资源调度程序的控制,节点管理系统数据的检查提供关于客户任务的进展的完整的信息。
本发明的上述目标、优点和特征以及其它的方面,在联系附图考虑时从下面的对本发明的某些优选实施例的具体说明中可更容易理解,其中:
图1是使用本发明的作业调度能力的分布式数据处理系统的简图;
图2是表示根据本发明的作业调度能力的本地作业控制系统、资源调度程序和节点管理系统之间的相互作用的框图;
图3是用于实施在本地作业控制系统检测新的用户作业的一个实施例的伪码;
图3a是用于在本地作业控制系统检测用户作业的一个逻辑电路的一个实施例的流程图;
图4是根据本发明的原理用于在节点管理系统中实施用于标记作业的编译命令文件(BCF)程序的一个实施例的伪码;
图4a是根据本发明的原理用于编译命令文件程序逻辑电路的一个实施例的流程图;
图4b是在用户作业要在本地作业控制系统中被运行时用于节点管理系统执行的逻辑电路的一个实施例的流程图。
图1是可与本发明一起使用的分布式计算机系统100的简图。分布式计算机系统100可以是来自纽约Armonk的国际机器商业公司的可利用的IBM RISC系统/6000 Scalable POWERparallel系统(SP)分布式计算机系统。在图1中公开的该实施例是具有总共8个框架的SP计算机,每个框架具有直到16的节点,总共是128个节点。所有的节点106由局域网(LAN)102连接。各个节点106是计算机本身,并且可以是RISC系统/6000工作站,这一点是本领域人员所熟知的。
在SP计算机100的一个框架中的所有节点被包括在由其它LAN部分经过其它LAN门104连接的LAN部分中。而且连接到LAN102的是控制工作站(CWS)112,该工作站控制SP计算机100的操作。控制工作站具有被称为系统共享盘的直接访问存储设备(DASD)114,该系统共享盘上存储系统数据储存库(SDR)文件。SDR文件包括象处于系统中的一列节点和它们的配置的信息,并且包括对于每一个节点106的资源和目标定义。各个节点106也包括DASD设备107,用于存储由SP计算机100处理的数据。
在一个实施例中,各个帧中的节点也被连接于IBM ScalablePOWERparallel开关(SPS)105。各帧的每一个SPS开关105被总线110连接于其它帧的相邻的SPS开关105。
在已有技术中已知,CWS节点112通过LAN102发送系统数据和控制信号到SP计算机100的帧,同时信息和数据可通过高性能开关105从这些节点106的一个被发送到另一个。
而且在图1中还与外部调度程序(由虚线分开)一起示出了内部任务或作业调度程序,如标为113的IBM负载校平器并行批调度程序。负载校平器并行批调度程序是由IBM推出的商业上可利用的产品,尽管在图1中示出的为不连续的块,实际上是驻留在分布式处理系统的各个节点上的分布式的调度程序。除是一个批系统控制外,负载校平器程序也可以是作业调度程序。但是,根据本发明的原理,外部作业调度程序与分布式系统耦合,用于管理员控制作业处理。这种外部调度程序的示例在现有技术中存在。例如,参考在网页:http:∥www.tc.cornell.edu可使用的Easy-II并行作业调度程序。商业上可利用的外部作业调度程序的另一个示例是由夏威夷的Maui的Maui高性能计算中心支持的Maui外部调度程序。根据本发明的一个实施例,这里公开的程序编码是对外部作业调度程序如Easy-Ⅱ或Maui调度程序(其在这里仅以例示方式)的增强,同样也是对如参考的负载校平器程序之类的批系统控制的增强。
如上面提到的那样,本发明指向的是在保留客户的作业控制软件的同时解决并行作业调度的问题,客户的作业控制软件在这里被称为本地作业控制系统。给出的是对分布式处理系统中的一般协调问题的解决方案,该系统使用诸如负载校平器的节点管理系统,其中除提供预先存在的本地作业控制系统外还提供外部或特定资源的调度程序(SRS),这使客户能够有希望来维持最小的变化,例如是由于它的熟悉性。图2描述根据本发明的原理的通常以200表示的作业调度逻辑电路的一个实施例。逻辑电路200包括节点管理系统210,如上面参考的负载校平器系统,其包括批作业队列215。节点管理系统210外部是调度和控制逻辑电路220,在该实施例中其包括特定资源调度程序(SRS)230(如上面参考的Easy-II或Maui调度程序)和本地作业控制系统(LJCS)240,本地作业控制系统240包括包含要被分布式处理系统运行的用户或实际作业的用户作业队列245。
操作上,SRS用节点对作业特定资源匹配执行回填调度。SRS230从节点管理系统210接收节点和作业信息,并在作出调度决定时使用该信息。根据本发明的原理,SRS230在节点管理系统210启动“标记作业”,其依次在节点管理系统210内启动编译命令文件程序,以发送作业命令到LJCS240来开始用户作业队列245处实际作业的处理。因此在本地作业控制系统处的队列管理器通过在节点管理系统处标记作业的开始而响应于资源调度程序。LJCS对实际作业的处理被监测,一旦完成或者失败了,在节点管理系统处SRS结束标记作业。从而在LJCS中运行的实际或真正的作业被封装在标记作业的开始与结束之间。
更具体讲,外部调度程序230经调度接口从节点管理系统210获得全部节点和作业信息。SRS230对每一个调度过程读出一次该信息。因此,各个调度决定是使用在作业队列中节点的状态的瞬时快照而在时间上的一瞬时作出的。各个调度过程完成了,节点管理系统信息被丢弃。在下一个过程的开始,信息再次从节点管理系统210被装载上,从而刷新管理系统检测到的任何改变的状态。简言之,外部调度程序230暂时处理节点管理系统210信息。通过依赖于节点管理系统的规模的数据库性能,相关数据结构的额外拷贝不必要在外部调度程序内被复制。这防止了节点管理系统与SRS之间的任何不同步状态的发生。
可选择的是,用户拥有作业管理程序,暂时增加处理节点和作业信息的限制可要求客户程序的广泛地再写入。通常,本地作业控制系统维持一组作业队列,以跟踪分布式系统上的并行作业的进展。一旦节点管理系统和特定资源调度程序的组合确定开始一项作业,本地作业控制系统承担跟踪作业进展的任务。但是,作业信息现在存在于LJCS和节点管理系统中。如果作业改变这些编码之一中的状态,其它编码必须意识到这一改变事件。这种通信必须紧密地耦合来防止在节点管理系统与本地作业控制系统之间的作业状态不匹配的不同步错误。
这个问题的一个方案在图3和4的伪码中图示出来。当用户提交一项作业到LJCS时,在用户作业队列245上生成该作业。在SRS的下一个过程上,节点和作业队列信息首先从节点管理系统210被读出。接着,资源调度程序比较LJCS用户作业队列与批作业队列215。如果作业存在于LJCS队列上而不在节点管理系统队列上,新用户作业已经被检测到。扫描仪程序然后建立相应的节点管理系统作业命令文件,以提交到节点管理系统,作为“标记作业”。节点管理系统内可执行的命令文件(shell命令表)包含如图4所示的步骤。在这些步骤内的逻辑电路保证对于系统中的作业近遵从正确开始和关闭的顺序。尤其,节点管理系统作业首先开始,然后其发射LJCS作业。节点管理系统作业保持执行LJCS作业的整个持续期间。当LJCS作业成功地完成而结束时或者失败而结束时,LJCS将在节点管理系统结束标记作业之前首先关闭。因此,节点管理系统作业有效的周期总是包括LJCS作业的持续期间。
上面总结的处理在下面参考图3a,4a&4b的流程图进行更具体描述。
图3a是对于SRS230(图2)中的示例执行的,其描述用于在LJCS处检测用户作业的逻辑电路。通过在步骤300从节点管理系统(在图3a,4a&4b中标记为LL)和在步骤310从LJCS的用户作业队列中读出节点和批作业队列信息而开始检测新的用户作业。对于在步骤320的各个过程,在步骤330处理确定是否队列中的所有作业已经被考虑了,即是否已经到达了列表的末端。如果是的,那么在步骤340完成检测处理。
否则,处理确定是否每一项作业列出在LJCS中的用户作业队列上但是不在节点管理系统250中的批作业队列上。这种询问是对于用户作业队列中的各个作业提出的。对于用户作业队列中的每个新的作业,逻辑电路接着通过从LJCS读出作业所需要的节点数、建立需要的挂钟时间并获得作业的名称而获得它的作业信息360。建立命令文件程序370然后被调用,以输入节点管理系统的批作业队列中的相应的标记作业。一旦标记作业存在于节点管理系统中,该作业被放置于节点管理系统中的批作业队列上380。
图4a是对在资源调度程序230(图2)中执行的逻辑电路的描述,用于建立编译命令文件程序。该逻辑电路包括在步骤400建立节点管理系统命令文件关键字和输入/输出及错误目录、节点数目以及对于新作业的挂钟估测。而且,在步骤410命令文件包括对运行程序的调用,以在节点管理系统上运行标记作业(这里是LL任务),此后在步骤420处理完成。
图4b是运行程序的一个实施例的描述,该运行程序用于在节点管理系统处运行标记作业。在一个示例中,该逻辑电路在节点管理系统内被执行。响应于节点管理系统上标记作业的开始,在步骤450本地作业控制系统中实际的作业被开始了。在步骤460设置计时器T1并且在步骤470处理询问是否实际的作业已经在LJCS中开始了。如果没有,在步骤480处理确定是否时间T1已经期满。如果在作业开始之前计时器期满,那么在步骤490作业不能开始,然后在步骤500开始失败被记录在7由节点管理系统所维持的出错记录中,此后在步骤510对于该标记作业的处理结束。
在作业已经开始后,在步骤520开始第二计时器T2并且在步骤530询问作业是否已经激活起LJCS中的运行队列。如果是的,那么在步骤540作业成功地完成,并且处理结束,允许在节点管理系统处的标记作业也随后停止。如果在步骤550在作业已经激活起LJCS中的运行队列之前计时器T2已经期满,那么在步骤560发生错误,并且作业从本地作业控制系统被取消。处理等待,直到在步骤570作业推出运行队列,此后节点管理系统中的标记作业可被停止。
熟悉本领域的技术人员从上述注意到这里提供的方案有效地避免了在多个编码之间的不同步错误发生的可能性,即在外部资源调度程序、节点管理系统与本地作业控制系统之间的不同步错误发生的可能性。而且,本地作业控制系统编码被保留,而不明显改变,以支持调度子系统之间的同步。通过使客户编码服从于节点管理系统/外部资源调度程序的控制,节点管理系统数据的检查提供关于客户任务的进展的完整的信息。
本发明可被包括在例如一件具有例如计算机可用媒体的产品(例如一个或多个计算机程序产品)中。该媒体中包含例如计算机可读程序编码装置,用于提供和促进本发明的能力。这件产品可被包括来作为计算机程序的一部分或被独立地卖出。
另外,至少一个可机读的确实包含可由机器执行的指令组成的至少一个程序的程序存储设备被提供来执行本发明的性能。
这里描述的流程图以例示的方式被提供。在不脱离本发明的精神的情况下对于这里描述的这些图或步骤(或操作)可有各种变形。例如,在某些情况下,步骤可以以不同次序来执行,或者步骤可被增加、删除或修改。所有这些变化被视为包括本发明的一部分,在后附的权利要求中被引证。
尽管根据某些优选的实施例对本发明进行了具体描述,熟悉本领域的技术人员可进行许多修改和变化。因此本发明旨在以后附的权利要求覆盖所有的修改和改变,使之落在本发明的真正精神和范围内。

Claims (31)

1.一种用于在具有本地作业控制系统(LJCS)的分布式处理系统内处理作业的方法,该本地作业控制系统接收要被处理的用户作业,所述方法包括:
通过所述LJCS外部的一个资源调度程序开始一个标记作业,其中所述标记作业相应于要被LJCS运行的一个用户作业;
响应于由所述资源调度程序开始所述标记作业,通过所述LJCS开始所述用户作业;及
所述用户作业一终止,结束由所述资源调度程序开始的所述标记作业,其中由所述LJCS开始所述用户作业是响应于所述标记作业的所述资源调度程序的开始,以及其中所述标记作业的结束是响应于所述用户作业的结束。
2.根据权利要求1的方法,还包括在由所述资源调度程序开始所述标记作业之前在所述LJCS处确定所述用户作业的存在。
3.根据权利要求2的方法,其中所述确定由所述资源调度程序开始。
4.根据权利要求1的方法,其中所述资源调度程序使用所述资源调度程序和所述LJCS外部的一个节点管理系统开始所述标记作业,并且其中所述标记作业存在于所述节点管理系统处而不在所述LJCS处。
5.根据权利要求4的方法,其中所述标记作业的开始在所述资源调度程序把所述标记作业提交给所述节点管理系统中的一个批作业队列之前,并且其中由所述LJCS对所述用户作业的所述开始是响应于从所述标记作业开始之后的所述节点管理系统对一个作业命令文件的发射,所述作业命令文件要求所述LJCS在所述分布式处理系统的一个节点组上开始所述用户作业,其中所述标记作业的运行包括所述用户作业的运行。
6.根据权利要求4的方法,还包括在由所述资源调度程序开始所述标记作业之前在所述LJCS处确定所述用户作业的存在,其中所述确定包括比较所述LJCS的一个用户作业队列中的用户作业与由所述节点管理系统所维持的一个批作业队列中的标记作业,并且识别一个新的用户作业来作为列出在所述用户作业队列中的但是没有列出在所述批作业队列中的任何作业。
7.根据权利要求6的方法,还包括响应于在所述LJCS的所述用户作业队列中的一个新的用户作业的识别,获得关于所述新的用户作业的作业信息,包括读出所述新的用户作业需要的多个节点,估测从而需要的运行时间并获得所述新的用户作业的作业名称,以及使用所述作业信息来建立一个命令文件,来在所述节点管理系统处开始一个新的标记作业。
8.根据权利要求7的方法,还包括响应于所述作业命令文件由所述LJCS监测所述用户文件的开始,并且如果所述用户作业不能在一个第一时间周期开始,把开始失败记录在在所述节点管理系统所维持的出错记录中。
9.根据权利要求8的方法,还包括在所述LJCS开始所述用户作业后,开始一个第二时间周期并监测所述用户作业的完成,其中所述方法还包括一旦没有成功完成所述用户作业的所述第二时间周期期满,就取消所述用户作业的运行并且把所述用户作业从所述LJCS的运行队列中移开。
10.根据权利要求1的方法,还包括由所述LJCS监测所述用户作业的完成失败,并且一检测到所述失败,从所述LJCS的运行队列中移开所述用户作业,从而停止所述用户作业,此后结束由所述资源调度程序开始的所述标记作业。
11.一种用于在分布式处理系统内处理作业的系统,该分布式处理系统具有一个本地作业控制系统(LJCS),其接收要被处理的用户作业,所述系统包括:
所述LJCS外部的一个资源调度程序,所述资源调度程序包括用于开始一个标记作业的装置,其中所述标记作业相应于要被所述LJCS运行的一个用户作业;
响应于由所述资源调度程序开始所述标记作业而通过所述LJCS开始所述用户作业的装置;及
用于在所述用户作业一终止就结束由所述资源调度程序开始的所述标记作业的装置,其中用于由所述LJCS对所述用户作业的开始的所述装置响应于用于开始所述标记作业的所述资源调度程序的装置,并且其中用于结束所述标记作业的所述装置响应于所述用户作业的结束。
12.根据权利要求11的系统,还包括在由所述资源调度程序对所述标记作业的所述开始之前在所述LJCS处确定所述用户作业的存在的装置。
13.根据权利要求12的系统,其中用于确定的所述装置由所述资源调度程序开始。
14.根据权利要求11的系统,其中所述资源调度程序使用所述资源调度程序和所述LJCS外部的一个节点管理系统开始所述标记作业,并且其中所述标记作业存在于所述节点管理系统处而不在所述LJCS处。
15.根据权利要求14的系统,其中所述资源调度程序还包括把所述标记作业提交给所述节点管理系统中的一个批作业队列的装置,其中由所述LJCS开始所述用户作业的所述装置是响应于从所述标记作业开始之后的所述节点管理系统对一个作业命令文件的发射,所述作业命令文件要求所述LJCS在所述分布式处理系统的一个节点组上开始所述用户作业,其中所述标记作业的运行包括所述用户作业的运行。
16.根据权利要求14的系统,还包括在所述标记作业由所述资源调度程序开始之前在所述LJCS处确定所述用户作业的存在的装置,其中所述用于确定的装置包括用于比较所述LJCS的一个用户作业队列中的用户作业与由所述节点管理系统所维持的一个批作业队列中的标记作业的装置,以及用于识别一个新的用户作业来作为列出在所述用户作业队列中的但是没有列出在所述批作业队列中的任何作业的装置。
17.根据权利要求16的系统,还包括响应于在所述LJCS的所述用户作业队列中的一个新的用户作业的识别,用于获得关于所述新的用户作业的作业信息的装置,包括读出所述新的用户作业需要的多个节点,估测从而需要的运行时间并获得所述新的用户作业的作业名称,以及用于使用所述作业信息来建立一个命令文件,来在所述节点管理系统处开始一个新的标记作业的装置。
18.根据权利要求17的系统,还包括响应于所述作业命令文件由所述LJCS监测所述用户文件的开始的装置,并且如果所述用户作业不能在一个第一时间周期开始,把开始失败记录在在所述节点管理系统所维持的出错记录中。
19.根据权利要求18的系统,还包括在由所述LJCS开始所述用户作业后,开始一个第二时间周期并监测所述用户作业的完成的装置,其中所述系统还包括一旦没有成功完成所述用户作业的所述第二时间周期期满,就取消所述用户作业的运行并且把所述用户作业从所述LJCS的运行队列中移开的装置。
20.根据权利要求11的系统,还包括由所述LJCS监测所述用户作业的完成失败的装置,并且一检测到所述失败,从所述LJCS的运行队列中移开所述用户作业,从而停止所述用户作业,此后结束由所述资源调度程序开始的所述标记作业。
21.一种用于在分布式处理系统内处理作业的系统,该分布式处理系统具有一个本地作业控制系统(LJCS),其接收要被处理的用户作业,所述系统包括:
一个用于控制在所述LJCS内执行的一个作业的调度的资源调度程序,所述调度程序在所述LJCS外部并包括计算机编码,该编码用于:
开始一个在所述LJCS外部的标记作业,其中所述标记作业相应于要被所述LJCS运行的一个用户作业;
响应于所述标记作业的开始而通过所述LJCS开始所述用户作业;及
在所述用户作业一终止就结束所述标记作业,其中由所述LJCS对所述用户作业的开始响应于所述标记作业的所述资源调度程序的开始,并且所述标记作业的结束响应于所述用户作业的结束。
22.至少一个可机读的确实体现可由机器执行的指令程序的至少一个程序的程序存储设备,用于执行用于在分布式处理系统内处理作业的方法,该分布式处理系统具有接收要被处理的用户作业的本地作业控制系统(LJCS),所述方法包括:
由所述LJCS外部的一个资源调度程序开始一个标记作业,其中所述标记作业相应于要被所述LJCS运行的一个用户作业;
响应于所述资源调度程序对所述标记作业的开始,通过所述LJCS开始所述用户作业;及
所述用户作业一终止,结束由所述资源调度程序开始的所述标记作业,其中由所述LJCS对所述用户作业的开始响应于所述标记作业的所述资源调度程序开始,以及所述标记作业的结束响应于所述用户作业的结束。
23.根据权利要求22的至少一个程序存储设备,还包括在由所述资源调度程序开始所述标记作业之前在所述LJCS处确定所述用户作业的存在。
24.根据权利要求23的至少一个程序存储设备,其中所述确定由所述资源调度程序开始。
25.根据权利要求22的至少一个程序存储设备,其中所述资源调度程序使用所述资源调度程序和所述LJCS外部的一个节点管理系统开始所述标记作业,并且所述标记作业存在于所述节点管理系统处而不在所述LJCS处。
26.根据权利要求25的至少一个程序存储设备,其中所述标记作业的所述开始在所述资源调度程序把所述标记作业提交给所述节点管理系统中的一个批作业队列之前,并且所述LJCS对所述用户作业的所述开始是响应于从所述标记作业开始之后的所述节点管理系统对一个作业命令文件的发射,所述作业命令文件要求所述LJCS在所述分布式处理系统的一个节点组上开始所述用户作业,其中所述标记作业的运行包括所述用户作业的运行。
27.根据权利要求25的至少一个程序存储设备,还包括在由所述资源调度程序开始所述标记作业之前在所述LJCS处确定所述用户作业的存在,其中所述确定包括比较所述LJCS的一个用户作业队列中的用户作业与由所述节点管理系统所维持的一个批作业队列中的标记作业,并且识别一个新的用户作业来作为列出在所述用户作业队列中的但是没有列出在所述批作业队列中的任何作业。
28.根据权利要求27的至少一个程序存储设备,还包括响应于在所述LJCS的所述用户作业队列中的一个新的用户作业的识别,获得关于所述新的用户作业的作业信息,包括读出所述新的用户作业需要的多个节点数,估测从而需要的运行时间并获得所述新的用户作业的作业名称,以及使用所述作业信息来建立一个命令文件,来在所述节点管理系统处开始一个新的标记作业。
29.根据权利要求28的至少一个程序存储设备,还包括响应于所述作业命令文件由所述LJCS监测所述用户文件的开始,并且如果所述用户作业不能在一个第一时间周期开始,把开始失败记录在在所述节点管理系统所维持的出错记录中。
30.根据权利要求29的至少一个程序存储设备,还包括在由所述LJCS开始所述用户作业后,开始一个第二时间周期并监测所述用户作业的完成,其中所述方法还包括一旦没有成功完成所述用户作业的所述第二时间周期期满,就取消所述用户作业的运行并且把所述用户作业从所述LJCS的运行队列中移开。
31.根据权利要求22的至少一个程序存储设备,还包括由所述LJCS监测所述用户作业的完成失败,并且一旦检测到所述失败,从所述LJCS的运行队列中移开所述用户作业,从而停止所述用户作业,此后结束由所述资源调度程序开始的所述标记作业。
CN00129298A 1999-10-05 2000-10-08 用于在分布式处理系统内处理作业的系统和方法 Expired - Fee Related CN1127689C (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/412,932 1999-10-05
US09/412932 1999-10-05
US09/412,932 US6694345B1 (en) 1999-10-05 1999-10-05 External job scheduling within a distributed processing system having a local job control system

Publications (2)

Publication Number Publication Date
CN1290887A true CN1290887A (zh) 2001-04-11
CN1127689C CN1127689C (zh) 2003-11-12

Family

ID=23635057

Family Applications (1)

Application Number Title Priority Date Filing Date
CN00129298A Expired - Fee Related CN1127689C (zh) 1999-10-05 2000-10-08 用于在分布式处理系统内处理作业的系统和方法

Country Status (5)

Country Link
US (1) US6694345B1 (zh)
JP (1) JP3887160B2 (zh)
CN (1) CN1127689C (zh)
CA (1) CA2315446C (zh)
IL (1) IL134681A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103380608A (zh) * 2011-03-09 2013-10-30 中国科学院计算机网络信息中心 在计算环境中汇聚队列信息及作业信息的方法
CN103581264A (zh) * 2012-08-06 2014-02-12 中兴通讯股份有限公司 一种作业生命期的控制方法和装置

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6771386B1 (en) * 2000-09-14 2004-08-03 Kabushiki Kaisha Toshiba Image forming system
US7797368B1 (en) * 2000-11-17 2010-09-14 Intel Corporation Managing a network of consumer-use computing devices
JP3732497B2 (ja) * 2004-01-14 2006-01-05 コナミ株式会社 メッセージ出力装置、メッセージ制御方法、および、プログラム
US7533384B2 (en) * 2004-05-27 2009-05-12 International Business Machines Corporation Job routing to earliest available resources in a parallel job scheduler
US7844969B2 (en) * 2004-06-17 2010-11-30 Platform Computing Corporation Goal-oriented predictive scheduling in a grid environment
US7861246B2 (en) * 2004-06-17 2010-12-28 Platform Computing Corporation Job-centric scheduling in a grid environment
US7340654B2 (en) * 2004-06-17 2008-03-04 Platform Computing Corporation Autonomic monitoring in a grid environment
US7984443B2 (en) * 2004-07-22 2011-07-19 Computer Associates Think, Inc. System and method for normalizing job properties
US8028285B2 (en) * 2004-07-22 2011-09-27 Computer Associates Think, Inc. Heterogeneous job dashboard
US8427667B2 (en) * 2004-07-22 2013-04-23 Ca, Inc. System and method for filtering jobs
US7886296B2 (en) 2004-07-22 2011-02-08 Computer Associates Think, Inc. System and method for providing alerts for heterogeneous jobs
US9600216B2 (en) * 2004-07-22 2017-03-21 Ca, Inc. System and method for managing jobs in heterogeneous environments
US20060037018A1 (en) * 2004-08-16 2006-02-16 Dell Products L.P. System, method and software providing an adaptive job dispatch algorithm for large distributed jobs
US7680970B2 (en) * 2004-10-22 2010-03-16 Fisher-Rosemount Systems, Inc. Method and system for batch process arbitration in a process control system
JP2006155187A (ja) * 2004-11-29 2006-06-15 Sony Corp 情報処理システム、情報処理装置および方法、記録媒体、並びにプログラム。
US7995474B2 (en) * 2005-09-13 2011-08-09 International Business Machines Corporation Grid network throttle and load collector
US7831971B2 (en) * 2005-10-24 2010-11-09 International Business Machines Corporation Method and apparatus for presenting a visualization of processor capacity and network availability based on a grid computing system simulation
US7853948B2 (en) * 2005-10-24 2010-12-14 International Business Machines Corporation Method and apparatus for scheduling grid jobs
US20070118839A1 (en) * 2005-10-24 2007-05-24 Viktors Berstis Method and apparatus for grid project modeling language
US7926057B2 (en) * 2005-12-15 2011-04-12 International Business Machines Corporation Scheduling of computer jobs employing dynamically determined top job party
US7865896B2 (en) * 2005-12-15 2011-01-04 International Business Machines Corporation Facilitating scheduling of jobs by decoupling job scheduling algorithm from recorded resource usage and allowing independent manipulation of recorded resource usage space
US8347291B2 (en) * 2006-12-29 2013-01-01 Sap Ag Enterprise scheduler for jobs performable on the remote system by receiving user specified values for retrieved job definitions comprising metadata representation of properties of jobs
DE102007047916A1 (de) 2007-01-25 2008-08-07 Denso Corp., Kariya Steuergerät zur Kraftstoffeinspritzung
JP5642338B2 (ja) * 2008-03-10 2014-12-17 富士通株式会社 ジョブ管理プログラムおよびジョブ管理方法
US8458712B2 (en) * 2008-04-30 2013-06-04 International Business Machines Corporation System and method for multi-level preemption scheduling in high performance processing
CN102176122B (zh) * 2011-03-07 2013-02-20 华中科技大学 一种基于有限自动机的自动控制系统及其控制方法
US8849748B2 (en) * 2011-05-16 2014-09-30 Post Pro Finance Co., Inc. System and method for tracking progress of media processing jobs
KR20130079864A (ko) * 2012-01-03 2013-07-11 삼성전자주식회사 클라우드 환경을 위한 다단계 스케쥴링 장치 및 방법
US9373074B2 (en) * 2012-10-09 2016-06-21 Qualcomm Incorporated Method and apparatus for time management and scheduling for sychronous processing on a cluster of processing nodes
US10185582B2 (en) * 2012-11-28 2019-01-22 Red Hat Israel, Ltd. Monitoring the progress of the processes executing in a virtualization environment
CN110431806B (zh) 2017-04-19 2021-02-05 华为技术有限公司 分布式资源管理中低时延节点本地调度的系统和方法
US10261837B2 (en) 2017-06-30 2019-04-16 Sas Institute Inc. Two-part job scheduling with capacity constraints and preferences
US10310896B1 (en) 2018-03-15 2019-06-04 Sas Institute Inc. Techniques for job flow processing
US10666510B2 (en) * 2018-10-30 2020-05-26 Bank Of America Corporation Conserving computing resources during network parallel processing

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4633387A (en) 1983-02-25 1986-12-30 International Business Machines Corporation Load balancing in a multiunit system
US5794005A (en) 1992-01-21 1998-08-11 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Synchronous parallel emulation and discrete event simulation system with self-contained simulation objects and active event objects
US5414845A (en) 1992-06-26 1995-05-09 International Business Machines Corporation Network-based computer system with improved network scheduling system
US5363175A (en) 1993-03-01 1994-11-08 Xerox Corporation Distributed job scheduling with modular components
US5437032A (en) 1993-11-04 1995-07-25 International Business Machines Corporation Task scheduler for a miltiprocessor system
US5799149A (en) 1996-06-17 1998-08-25 International Business Machines Corporation System partitioning for massively parallel processors

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103380608A (zh) * 2011-03-09 2013-10-30 中国科学院计算机网络信息中心 在计算环境中汇聚队列信息及作业信息的方法
CN103380608B (zh) * 2011-03-09 2015-12-02 中国科学院计算机网络信息中心 在计算环境中汇聚队列信息及作业信息的方法
CN103581264A (zh) * 2012-08-06 2014-02-12 中兴通讯股份有限公司 一种作业生命期的控制方法和装置
CN103581264B (zh) * 2012-08-06 2019-01-18 中兴通讯股份有限公司 一种作业生命期的控制方法和装置

Also Published As

Publication number Publication date
CN1127689C (zh) 2003-11-12
CA2315446C (en) 2007-08-07
CA2315446A1 (en) 2001-04-05
JP3887160B2 (ja) 2007-02-28
JP2001147901A (ja) 2001-05-29
IL134681A (en) 2006-04-10
IL134681A0 (en) 2001-04-30
US6694345B1 (en) 2004-02-17

Similar Documents

Publication Publication Date Title
CN1127689C (zh) 用于在分布式处理系统内处理作业的系统和方法
CN1272707C (zh) 用于进行远程软件分发和安装的方法和系统
CN110309024B (zh) 数据处理系统及其执行数据处理任务的方法
CN1213376C (zh) 用于被复制的服务器的协议
US20090204694A1 (en) Grid computing system, management server, processing server, control method, control program and recording medium
CN1975655B (zh) 用于管理对存储装置的访问的方法和设备
US7085831B2 (en) Intelligent system control agent for managing jobs on a network by managing a plurality of queues on a client
CN104601668B (zh) 基于状态管理的数据推送方法、装置和系统
CN1333507A (zh) 分布式计算机系统中协调器服务的非中断性迁移
US7996507B2 (en) Intelligent system control agent for managing jobs on a network by managing a plurality of queues on a client
CN1410901A (zh) 再生用于备份软件的代理程序
US7877757B2 (en) Work item event monitor for procession of queued events
EP2715526B1 (en) Episodic coordination model for distributed applications
EP3018581B1 (en) Data staging management system
JP4607999B2 (ja) ロック関連の一貫性欠如を処理する方法
CN116560801B (zh) 一种跨容器的柜面系统信创迁移方法及设备
CN1176423C (zh) 主机板测试程序处理系统及方法
JPH08249279A (ja) オンラインシステム
CN1842048A (zh) 数据中继方法和数据中继装置
CN116996505B (zh) 一种基于调度引擎的文件交换控制方法和系统
JP3508285B2 (ja) プリントジョブスケジューリング装置
CN117376194B (zh) 网络检测方法、系统、电子设备及计算机可读存储介质
US20040221015A1 (en) Processing messages having categorized contents
JP2004302630A (ja) メッセージ処理方法及びその実施装置並びにその処理プログラム
JP2009277119A (ja) ログ記録システム

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20031112

Termination date: 20181008

CF01 Termination of patent right due to non-payment of annual fee