JP2001147901A - ローカル・ジョブ制御システムを有する分散処理システム内での外部ジョブ・スケジューリング方法及びシステム - Google Patents

ローカル・ジョブ制御システムを有する分散処理システム内での外部ジョブ・スケジューリング方法及びシステム

Info

Publication number
JP2001147901A
JP2001147901A JP2000304802A JP2000304802A JP2001147901A JP 2001147901 A JP2001147901 A JP 2001147901A JP 2000304802 A JP2000304802 A JP 2000304802A JP 2000304802 A JP2000304802 A JP 2000304802A JP 2001147901 A JP2001147901 A JP 2001147901A
Authority
JP
Japan
Prior art keywords
job
ljcs
marker
user
user job
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000304802A
Other languages
English (en)
Other versions
JP3887160B2 (ja
Inventor
Paul Brelsford David
デヴィッド・ポウル・ブレルスフォード
Francis Skovira Joseph
ジョセフ・フランシス・スコヴィラ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2001147901A publication Critical patent/JP2001147901A/ja
Application granted granted Critical
Publication of JP3887160B2 publication Critical patent/JP3887160B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/485Task life-cycle, e.g. stopping, restarting, resuming execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/52Program synchronisation; Mutual exclusion, e.g. by means of semaphores

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Multi Processors (AREA)
  • Stored Programmes (AREA)
  • Computer And Data Communications (AREA)

Abstract

(57)【要約】 【課題】 拡張及び自動外部ジョブ・スケジューリング
機能をローカル・システムに与えながら、同時に、ロー
カル・ジョブ制御システムを保持する方法を提供する。 【解決手段】 本方法は、ローカル・ジョブ制御システ
ムの外部にあるリソース・スケジューラによってマーカ
・ジョブを開始するステップを含み、マーカ・ジョブ
が、LJCSによって実行されるユーザ・ジョブに対応
し、マーカ・ジョブの開始に応じて、LJCSによって
ユーザ・ジョブを開始するステップと、ユーザ・ジョブ
の終了時に、リソース・スケジューラによって開始され
たマーカ・ジョブを終了するステップとを含み、LJC
Sによるユーザ・ジョブの開始は、リソース・スケジュ
ーラのマーカ・ジョブの開始に応答し、マーカ・ジョブ
の終了は、ユーザ・ジョブの終了に応答する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、一般的にはデータ
処理方法に関し、特に、ジョブ・スケジューリング機能
が不十分な先在“ローカル”ジョブ制御システムを有す
る分散処理システム内での、外部ジョブ・スケジューリ
ング方法に関する。
【0002】
【従来の技術】ネットワークによって接続され、適切な
ソフトウェア及び管理方針によって統一された自律マシ
ンの集合体は、それ自体がコンピュータ・システムであ
る。このネットワーク・ベースのコンピュータ・システ
ムの概念は、コンピュータ産業において、ますます重要
になりつつある。ネットワーク・ベースのコンピュータ
は、クライアント/サーバ・コンピューティング及びク
ライアント/サーバ関係の強調以上のものを含む。ネッ
トワーク・ベースのコンピューティングにおいて、サー
ビス(もしくはリソース)は、より一般的な概念にな
り、もはや、単一のマシンに拘束される必要がない。む
しろ、サービスは、ネットワーク・ベースのコンピュー
タ全体の一つの特徴となる。ネットワーク・ベースのコ
ンピュータ、あるいは環境は、例えば、ローカル・エリ
ア・ネットワーク上のユーザ・ワークステーション及び
サーバ・マシンの異機種集合において、高速ネットワー
クによって接続された個別のプロセッサからなる特殊目
的の“クラスタ化”マシンにおいて、または、いくつか
のこのような環境を相互に接続する、学校、企業又はグ
ローバル・ネットワークにおいて、など多数の状況にお
いて発生する。
【0003】これら環境の全てにおいて、重要な要素は
リソース管理システムであり、リソース管理システムの
重要な側面は、ジョブ・スケジューリング機能である。
多くの場合、分散処理システムは、分散システム内のジ
ョブ管理に対して既存の手法を有することができる。こ
こでは“ローカル・ジョブ制御システム”と称されるこ
の既存の手法は、初歩的なジョブ・スケジューリング機
能を備えてもよく、あるいは備えなくともよい。多くの
このようなシステムにおいて、ジョブ・スケジューリン
グは、システムのオペレータ又はユーザがジョブを開始
し、ローカル・ジョブ制御システムが単にジョブの進行
を監視するという点で、手動的であると考えられる。
【0004】
【発明が解決しようとする課題】様々な理由で、出願人
は、拡張及び自動外部ジョブ・スケジューリング機能を
ローカル・システムに与えながら、同時に、ローカル・
ジョブ制御システムを保持することが望ましいとの結論
に至った。
【0005】
【課題を解決するための手段】発明の概要として、本発
明は、一態様として、処理されるユーザ・ジョブを受信
するローカル・ジョブ制御システム(LJCS)を有す
る分散処理システム内でジョブを処理する方法を含み、
この方法は、LJCSによって実行されるユーザ・ジョ
ブに対応するマーカ・ジョブをローカル・ジョブ制御シ
ステムの外部にあるリソース・スケジューラによって開
始するステップと、リソース・スケジューラによるマー
カ・ジョブの開始に応じて、LJCSによってユーザ・
ジョブを開始するステップと、ユーザ・ジョブの終了時
に、リソース・スケジューラによって開始されたマーカ
・ジョブを終了するステップとを含み、LJCSによる
ユーザ・ジョブの開始は、リソース・スケジューラのマ
ーカ・ジョブの開始に応答し、マーカ・ジョブの終了
は、LJCSによるユーザ・ジョブの終了に応答する。
【0006】もう一つの態様として、分散処理システム
内でジョブを処理するシステムを提供する。この分散処
理システムは、処理されるユーザ・ジョブを受信するロ
ーカル・ジョブ制御システム(LJCS)を有する。こ
のシステムは、LJCSの外部に配置されたリソース・
スケジューラを備え、リソース・スケジューラは、マー
カ・ジョブを開始する手段を有し、マーカ・ジョブは、
LJCSによって実行されるユーザ・ジョブに対応す
る。このシステムは、さらに、リソース・スケジューラ
によるマーカ・ジョブの開始に応じて、LJCSによっ
てユーザ・ジョブを開始する手段と、ユーザ・ジョブの
終了時に、リソース・スケジューラによって開始された
マーカ・ジョブを終了する手段とを備える。従って、L
JCSによりユーザ・ジョブを開始する手段は、リソー
ス・スケジューラのマーカ・ジョブを開始する手段に応
答し、マーカ・ジョブを終了する手段は、ユーザ・ジョ
ブの終了に応答する。
【0007】さらなる態様として、処理されるユーザ・
ジョブを受信するローカル・ジョブ制御システム(LJ
CS)を有する分散処理システム内でジョブを処理する
方法を実行するための、機械によって実行可能な命令の
少なくとも一つのプログラムを有形的に具体化する、少
なくとも一つの機械可読プログラム記憶装置を提供す
る。本方法は、LJCSによって実行されるユーザ・ジ
ョブに対応するマーカ・ジョブをLJCSの外部にある
リソース・スケジューラによって開始するステップと、
リソース・スケジューラによるマーカ・ジョブの開始に
応じて、LJCSによってユーザ・ジョブを開始するス
テップと、ユーザ・ジョブの終了時に、リソース・スケ
ジューラによって開始されたマーカ・ジョブを終了する
ステップとを含み、LJCSによるユーザ・ジョブの開
始は、リソース・スケジューラのマーカ・ジョブの開始
に応答し、マーカ・ジョブの終了は、ユーザ・ジョブの
終了に応答する。
【0008】言い換えれば、ここでは、独自のジョブ・
スケジューラを有することももしくは有さないこともで
きる先在ジョブ制御ファシリティに、リソース・スケジ
ューリング機能を加える方法を提供する。本方法は、ロ
ーカル・ジョブ制御システムでのユーザ・ジョブの実行
を、リソース・スケジューラによるマーカ・ジョブの開
始と終了の中に閉じこめるステップを含む。リソース・
スケジューラは、International Bus
iness Machines (IBM)Corpに
よって提供されるLoad Levelerプログラム
のようなノード管理システムを利用すると好ましい。こ
の方法を使用することにより、クライアントは、システ
ムに付加された自動ジョブ・スケジューリング機能を備
えながら、同時にローカル・ジョブ制御システムの既存
インターフェースを保持することが可能となる。さら
に、これらの機能は、基礎をなす、先在ローカル・ジョ
ブ制御システムへの変更を最小限に抑えながら提供され
る。
【0009】提示する解決方法は、本解決方法における
複数のコード間、すなわち、外部リソース・スケジュー
ラ、ノード管理システム、及びローカル・ジョブ制御シ
ステムの間の、同期はずれエラーのどんな機会も効果的
にクローズする。さらに、本発明の解決方法は、ノード
管理システム及びローカル・ジョブ制御システムの上に
外部スケジューラを追加する簡潔かつ堅固なインプリメ
ンテーションである。カスタマのコード(すなわち、ロ
ーカル・ジョブ制御システム)は、スケジューリング・
サブシステム間の同期をサポートするためには、高価な
変更なしに保存される。カスタマ・コードをノード管理
システム/外部リソース・スケジューラの制御に従属さ
せることにより、ノード管理システム・データの調査
は、カスタマ・タスクの進行に関する完全な情報を提供
する。
【0010】
【発明の実施の形態】図1は、本発明を使用できる分散
コンピュータ・システム100の略図である。分散コン
ピュータ・システム100は、New York;Ar
monkのInternational Busine
ss Machines Corporationから
入手できるIBM RISC System/6000
Scalable POWERparallel S
ystem (SP)分散コンピュータ・システムとす
ることができる。図1に示された実施の形態は、総計8
個のフレームを有し、各フレームは、16個のノードを
有するので、総計128個のノードを備えるSPコンピ
ュータである。ノード106の全ては、ローカル・エリ
ア・ネットワーク(LAN)102によって結合されて
いる。それぞれのノード106は、それ自体コンピュー
タであり、当業者によって周知のように、RISC S
ystem/6000ワークステーションとすることが
できる。
【0011】SPコンピュータ100の1フレーム内の
ノードの全ては、LANセグメント内に含まれる。この
LANセグメントは、LANゲート104を介して他の
LANセグメントにより結合されている。SPコンピュ
ータ100のオペレーションを制御するコントロール・
ワークステーション(CWS)112も、LAN102
に接続されている。コントロール・ワークステーション
は、システム共用ディスクと称され、その上にシステム
・データ・リポジトリー(SDR)ファイルが格納され
るダイレクト・アクセス記憶装置(DASD)114を
有する。SDRファイルは、システム内にあるノード及
びノードの構成のリストのような情報を含み、及び、ノ
ード106の各々に対してのリソース及びオブジェクト
定義を含む。各ノード106は、また、SPコンピュー
タ100によって処理されたデータを格納するDASD
装置107を有する。
【0012】一実施形態では、各フレーム内のノード
は、IBM Scalable POWERparal
lel スイッチ(SPS)105にも接続される。各
フレームのSPSスイッチ105の各々は、他のフレー
ムの隣接するSPSスイッチ105にバス110によっ
て接続される。
【0013】技術上良く理解されているように、CWS
ノード112は、システム・データ及び制御信号を、L
AN102によってSPコンピュータ100のフレーム
へ送信する。他方、メッセージ及びデータは、高性能ス
イッチ105によってノード106のうちの1つのノー
ドから他のノードへ送ることができる。
【0014】また、図1には、IBM Load Le
veler Parallel Batch Sche
dulerのような、内部タスク又はジョブ・スケジュ
ーラが、外部スケジューラと共に示されている(これら
は点線によって分離され、参照番号113が付されてい
る)。Load Leveler ParallelB
atch Schedulerは、IBMによって販売
される商業的に入手可能な製品である。そして、図1に
おいて別個のブロックとして示されているが、実際は、
分散処理システムの各ノード上に常駐する分散スケジュ
ーラである。バッチ・システム制御であることに加え
て、Load Levelerプログラムは、ジョブ・
スケジューラでもある。しかし、本発明の原理に従え
ば、外部ジョブ・スケジューラは、ジョブ処理のアドミ
ニストレータ制御のために、分散システムに結合され
る。技術上、このような外部スケジューラの例が存在す
る。例えば、ウェブ・ページ:http://www.
tc.cornell.eduで公に入手可能である、
Easy―II Parallel Job Sche
dulerを参照されたい。
【0015】商業的に入手可能な外部ジョブ・スケジュ
ーラのもう一つの例は、Hawaii;MauiのMa
ui High Performance Compu
ting CenterによってサポートされるMau
i External Schedulerである。本
発明の一実施形態に従えば、ここで開示されるプログラ
ム・コードは、Easy―IIあるいはMaui Sc
hedulers(これらは、単に一例としてここに提
示される)のような外部ジョブ・スケジューラに対する
機能強化であり、及び、上述のLoad Levele
rプログラムのようなバッチ・システム制御に対する機
能強化である。
【0016】上述したように、本発明は、ここではロー
カル・ジョブ制御システムと称されるカスタマのジョブ
制御ソフトウェアを保持しながら、パラレル・ジョブ・
スケジューリングの問題を解決することに関する。Lo
ad Levelerのようなノード管理システムを利
用する、分散処理システムにおける一般的な調整問題に
対する解決方法が提供される。この解決方法では、カス
タマが、例えばその習熟性の故に、最低限の変更で維持
したいと望み得る先在ローカル・ジョブ制御システムの
他に、外部又は特殊リソース・スケジューラ(SRS)
を備える。図2は、本発明の原理に従ったジョブ・スケ
ジューリング・ロジック(200で示される)の一実施
形態を示す。ロジック200は、バッチ・ジョブ・キュ
ー215を有する、上述のLoad Levelerシ
ステムのようなノード管理システム210を含む。ノー
ド管理システム210の外部には、スケジューリング及
び制御ロジック220がある。このロジック220は、
この実施の形態において、(上述のEasy―IIもし
くはMaui Schedulerのような)特殊リソ
ース・スケジューラ(SRS)230と、分散処理シス
テムによって実行されるユーザ又は実ジョブを収容する
ユーザ・ジョブ・キュー245を有するローカル・ジョ
ブ制御システム(LJCS)240とを含む。
【0017】動作的には、SRS230は、ノード/ジ
ョブ特殊リソース・マッチングによるバックフィル・ス
ケジューリングを実行する。SRS230は、ノード及
びジョブ情報を、ノード管理システム210から受信
し、この情報をスケジューリング決定に使用する。本発
明の原理に従えば、SRS230は、ノード管理システ
ム210で“マーカ・ジョブ”を開始させ、続いてノー
ド管理システム210内でビルド・コマンド・ファイル
・ルーチンを開始させ、LJCS240へジョブ・コマ
ンドを送信し、ユーザ・ジョブ・キュー245で保持さ
れる実ジョブの処理を開始させる。従って、ローカル・
ジョブ制御システムでのキュー管理プログラムは、ノー
ド管理システムでのマーカ・ジョブの開始によって、リ
ソース・スケジューラに応答する。LJCSによる実ジ
ョブの処理は監視され、その完了あるいは失敗の際に、
SRSは、ノード管理システムでのマーカ・ジョブを終
了させる。従って、LJCSにおいて実行される実ジョ
ブあるいは認証ジョブは、マーカ・ジョブの開始と終了
との間に閉じこめられる。
【0018】特に、外部スケジューラ230は、ノード
管理システム210からスケジューリング・インターフ
ェースを介して、全てのノード及びジョブ情報を獲得す
る。SRS230は、各スケジューリング・パスに対し
て、一回この情報を読取る。その結果、ジョブ・キュー
内のノード状態の瞬間スナップショットを使用して、瞬
時に各スケジューリング決定がなされる。各スケジュー
リング・パスの完了時に、ノード管理システム情報は廃
棄される。次のパスの開始時に、ノード管理システム2
10から情報が再びロードされ、これにより、管理シス
テムが検出した変更状態をリフレッシュする。要する
に、外部スケジューラ230は、一時的にノード管理シ
ステム210の情報を扱う。ノード管理システムの拡張
データベース機能に依存することにより、関連データ構
造の余分なコピーを、外部スケジューラ内に複製する必
要がない。これは、ノード管理システムとSRSとの間
の非同期状態の発生を防止する。
【0019】任意のカスタマ所有のジョブ管理プログラ
ムに対して、一時的にノード及びジョブ情報を取り扱う
ことの制限を付加することは、カスタマのプログラムの
拡張再書込みを要求できる。多くの場合、ローカル・ジ
ョブ制御システムは、分散システム上のパラレル・ジョ
ブの進行を追跡するために、一組のジョブ・キューを保
持する。ノード管理システムと特殊リソース・スケジュ
ーラとの組合せが、ジョブの開始を決定すると、ローカ
ル・ジョブ制御システムは、ジョブの進行を追跡するこ
とを引継ぐ。しかしながら、ジョブ情報は、現在、LJ
CS及びノード管理システムの両方に存在する。ジョブ
が、これらのコードの一方において状態を変更する場合
には、他方のコードは、その事象を知らなければならな
い。このコミュニケーションは、ノード管理システムと
ローカル・ジョブ制御システムとの間のジョブ状態が一
致しない同期はずれエラーを防止するために、密に結合
されなければならない。
【0020】この問題に対する一つの解決方法は、図3
および図5の疑似コードにおいて説明される。ユーザが
LJCSへジョブの実行を依頼すると、ジョブは、ユー
ザ・ジョブ・キュー245に作成される。SRSの次の
パスで、ノード及びジョブ・キュー情報が、ノード管理
システム210から最初に読み取られる。次に、リソー
ス・スケジューラは、LJCSユーザ・ジョブ・キュー
245をバッチ・ジョブ・キュー215と比較する。ジ
ョブが、LJCSキューに存在するが、ノード管理シス
テム・キューに存在しない場合には、新しいユーザ・ジ
ョブが検出される。スキャナ・ルーチンは、次に、“マ
ーカ・ジョブ”としてノード管理システムへの実行依頼
をするため、対応するノード管理システム・ジョブ・コ
マンド・ファイルを作成する。ノード管理システム・コ
マンド・ファイル内で実行可能な手順(シェル・スクリ
プト)は、図5において示されるステップを含む。これ
らのステップ内のロジックは、システムにおけるジョブ
に対して、正確な開始及び終了のシーケンスが続くこと
を保証する。特に、ノード管理システム・ジョブが最初
に開始し、それからLJCSジョブを立ち上げる。ノー
ド管理システム・ジョブは、LJCSジョブの全所要時
間の間、実行状態のままである。LJCSジョブが、サ
クセスフルに完了するか失敗するかのどちらかで終了す
ると、ノード管理システムがマーカ・ジョブを終了する
前に、LJCSが最初に終了する。その結果、ノード管
理システム・ジョブがアクティブである期間は、常に、
LJCSジョブの所要時間を包含する。
【0021】上術した処理を、図4,6,7のフローチ
ャートを参照して、以下に詳細に説明する。
【0022】図4は、例えば、(図2の)SRS230
において実行される、LJCSでのユーザ・ジョブ検出
のためのロジックを示す。新しいユーザ・ジョブの検出
は、ノード及びバッチ・ジョブ・キュー情報を、ノード
管理システム(Load Levelerについては、
図4,6,7においてLLと表示される)から読取り
(ステップ300)、及びLJCS内のユーザ・ジョブ
・キューから読取る(ステップ310)ことによって開
始する。それぞれのパスに対して(ステップ320)、
処理は、キュー内の全てのジョブが考慮されたか否か
を、すなわち、リストの終りに達したか否かを判別する
(ステップ330)。達した場合には、検出処理は、完
了する(ステップ340)。
【0023】達しない場合には、処理は、LJCS内の
ユーザ・ジョブ・キューにリストされたジョブが存在す
るが、ノード管理システム内のバッチ・ジョブ・キュー
には存在しないか否かを判別する(ステップ350)。
この照会は、ユーザ・ジョブ・キュー内の各ジョブに対
して行われる。ユーザ・ジョブ・キュー内のそれぞれの
新しいジョブに対して、ロジックは、次に、ジョブによ
って要求されるノードの数をLJCSから読取り、要求
されるウォールクロック時間(wall clock
time)を見積もり、そして、ジョブの名前を獲得す
ることにより、そのジョブ情報を獲得する(ステップ3
60)。ビルド・コマンド・ファイル・ルーチンが、ノ
ード管理システムのバッチ・ジョブ・キュー内の対応す
るマーカ・ジョブを実行するためにコールされる(ステ
ップ370)。ノード管理システムにマーカ・ジョブが
存在すると、ジョブは、ノード管理システム内のバッチ
・ジョブ・キューに配置される(ステップ380)。
【0024】図6は、例えば、(図2の)リソース・ス
ケジューラ230内で実行される、ビルド・コマンド・
ファイル・ルーチンをセットアップするロジックを示
す。このロジックは、ノード管理システム・コマンド・
ファイル・キーワード、入出力及びエラー・ディレクト
リ,ノードの数,及び新しいジョブに対するウォールク
ロックの見積もりのセットアップを含む(ステップ40
0)。さらに、コマンド・ファイルは、ノード管理シス
テム(ここでは、LLタスク)上でマーカ・ジョブを実
行するためのランタイム・ルーチンのコールをインクル
ードし(ステップ410)、この後、処理は完了する
(ステップ420)。
【0025】図7は、ノード管理システムでマーカ・ジ
ョブを実行するランタイム・ルーチンについての一実施
形態を示す。このロジックは、一例として、ノード管理
システム内で実現される。ノード管理システム上のマー
カ・ジョブの開始に応答して、ローカル・ジョブ制御シ
ステムにおける実ジョブが開始される(ステップ45
0)。タイマT1がセットされ(ステップ460)、処
理は、LJCSにおいて実ジョブが開始したか否かを照
会する(ステップ470)。実ジョブが開始していない
場合には、処理は、タイマT1が満了したか否かを判別
する(ステップ480)。ジョブが開始する前にタイマ
が満了する場合には、ジョブは開始に失敗し(ステップ
490)、開始失敗が、ノード管理システムによって保
持されるエラー・ログに記録され(ステップ500)、
その後、処理が、このマーカ・ジョブに対して終了され
る(ステップ510)。
【0026】ジョブが開始した後に、第2のタイマT2
が開始され(ステップ520)、処理は、ジョブがLJ
CSの実行キューを終了したか否かを照会する(ステッ
プ530)。終了した場合には、ジョブは、サクセスフ
ルに完了し(ステップ540)、処理は終了して、ノー
ド管理システムでのマーカ・ジョブが終了することを許
可する。ジョブがLJCSの実行キューを終了する前
に、タイマT2が満了した場合には(ステップ55
0)、エラーが発生し、ジョブがローカル・ジョブ制御
システムからキャンセルされる(ステップ560)。処
理は、ジョブが実行キューを終了するまで待機し(ステ
ップ570)、その後、ノード管理システムにおけるマ
ーカ・ジョブが終了可能となる。
【0027】当業者は、上記の詳細な説明から、ここで
提示された解決方法は、複数のコードの間で、すなわ
ち、外部リソース・スケジューラと、ノード管理システ
ムと、ローカル・ジョブ制御システムとの間で、同期は
ずれエラーが発生するどんな機会も効果的になくすこと
が分かるであろう。さらに、ローカル・ジョブ制御シス
テム・コードは、スケジューリング・サブシステム間の
同期をサポートするためには、著しい変更を伴わずに保
存される。カスタマ・コードをノード管理システム/外
部リソース・スケジューラの制御に従属させることによ
り、ノード管理システム・データの調査は、カスタマ・
タスクの進行に関する完全な情報を提供する。
【0028】本発明は、例えば、コンピュータ可用な媒
体を有する製造物品(例えば、一つ以上のコンピュータ
プログラム製品)内に含めることができる。この媒体
は、その中で、例えば、本発明の機能を提供および促進
する手段としてのコンピュータ可読プログラムコードを
具体化する。この製造物品は、コンピュータシステムの
一部として含めることができ、また、別々に販売するこ
ともできる。
【0029】それに加えて、本発明の機能を実行するた
めに、機械によって実行可能な命令の少なくとも一つの
プログラムを有形的に具体化する、少なくとも一つの機
械可読プログラム記憶装置を提供することができる。
【0030】ここに示された流れ図は、例示として提供
されたものである。本発明の趣旨に反することなしに、
ここで述べられたこれらの図もしくはステップ(または
オペレーション)に対するバリエーションが存在し得
る。例えば、ある場合においては、ステップは、異なる
順番で実行可能であり、また、ステップは、付加、削
除、又は修正可能である。これらのバリエーションの全
ては、請求の範囲に記載された本発明の一部を含むと判
断される。
【0031】いくつかの好ましい実施の形態に従って、
本発明を詳細に述べてきが、当業者によれば、多くの修
正や変更を行うことができる。従って、本発明の範囲お
よび本発明の真の趣旨に含まれるそのような修正や変更
の全てをカバーすることが、請求の範囲によって意図さ
れている。
【0032】まとめとして、本発明の構成に関して以下
の事項を開示する。 (1)処理されるユーザ・ジョブを受信するローカル・
ジョブ制御システム(LJCS)を有する分散処理シス
テム内でジョブを処理する方法であって、前記LJCS
によって実行されるユーザ・ジョブに対応するマーカ・
ジョブを前記LJCSの外部にあるリソース・スケジュ
ーラによって開始するステップと、前記リソース・スケ
ジューラによる前記マーカ・ジョブの開始に応じて、前
記LJCSによって前記ユーザ・ジョブを開始するステ
ップと、前記ユーザ・ジョブの終了時に、前記リソース
・スケジューラによって開始された前記マーカ・ジョブ
を終了するステップとを含み、前記LJCSによる前記
ユーザ・ジョブの開始は、前記リソース・スケジューラ
の前記マーカ・ジョブの開始に応答し、前記マーカ・ジ
ョブの終了は、前記ユーザ・ジョブの終了に応答する方
法。 (2)前記リソース・スケジューラによる前記マーカ・
ジョブの前記開始の前に、前記LJCSで前記ユーザ・
ジョブの存在を判別するステップを、さらに含む上記
(1)に記載の方法。 (3)前記判別するステップは、前記リソース・スケジ
ューラによって開始される上記(2)に記載の方法。 (4)前記リソース・スケジューラは、前記リソース・
スケジューラ及び前記LJCSの外部にあるノード管理
システムを利用して前記マーカジョブを開始し、前記マ
ーカ・ジョブは前記ノード管理システムに存在するが、
前記LJCSに存在しない上記(1)に記載の方法。 (5)前記マーカ・ジョブの前記開始は、前記ノード管
理システム内のバッチ・ジョブ・キューへ前記マーカ・
ジョブを実行依頼する前記リソース・スケジューラに先
行され、前記LJCSによる前記ユーザ・ジョブの前記
開始は、前記マーカ・ジョブの開始に続く前記ノード管
理システムでのジョブ・コマンド・ファイルの立ち上げ
に応答し、前記ジョブ・コマンド・ファイルは、前記分
散処理システムのノード集合で前記ユーザ・ジョブを開
始することを、前記LJCSへ要求し、前記マーカ・ジ
ョブの実行は、前記ユーザ・ジョブの実行を包含する上
記(4)に記載の方法。 (6)前記リソース・スケジューラによる前記マーカ・
ジョブの開始の前に、前記LJCSで前記ユーザ・ジョ
ブの存在を判別するステップをさらに含み、前記判別す
るステップは、前記LJCSのユーザ・ジョブ・キュー
内のユーザ・ジョブを、前記ノード管理システムによっ
て保持されるバッチ・ジョブ・キュー内のマーカ・ジョ
ブと比較するステップと、前記ユーザ・ジョブ・キュー
にリストされているが、前記バッチ・ジョブ・キューに
リストされていないジョブとして新しいユーザ・ジョブ
を識別するステップとを含む上記(4)に記載の方法。 (7)前記LJCSの前記ユーザ・ジョブ・キュー内の
新しいユーザ・ジョブの識別に応じて、前記新しいユー
ザ・ジョブにあるジョブ情報を獲得し、前記新しいユー
ザ・ジョブによって要求されるノード数を読取り、前記
新しいユーザ・ジョブによって要求される実行時間を見
積もり、前記新しいユーザ・ジョブのジョブ名を獲得す
るステップと、コマンド・ファイルを作成して、前記ノ
ード管理システムで新しいマーカ・ジョブを開始するた
めに、前記ジョブ情報を使用するステップとを、さらに
含む上記(6)に記載の方法。 (8)前記ジョブ・コマンド・ファイルに応じて、前記
LJCSによる前記ユーザ・ジョブの開始を監視するス
テップと、前記ユーザ・ジョブが、第1の期間内で開始
することに失敗する場合には、開始失敗を、前記ノード
管理システムで保持されるエラー・ログに記録するステ
ップとを、さらに含む上記(7)に記載の方法。 (9)前記LJCSによる前記ユーザ・ジョブの開始の
後に、第2の期間を開始するステップと、前記ユーザ・
ジョブの完了を監視するステップとをさらに含み、前記
方法は、前記ユーザ・ジョブのサクセスフルな完了を伴
わない前記第2の期間の満了時に、前記ユーザ・ジョブ
が実行することをキャンセルするステップと、前記ユー
ザ・ジョブを、前記LJCSの実行キューから取り除く
ステップとを、さらに含む上記(8)に記載の方法。 (10)前記LJCSによる前記ユーザ・ジョブの完了
の失敗を監視するステップと、前記失敗の検出時に、前
記ユーザ・ジョブを前記LJCSの実行キューから取り
除き、前記ユーザ・ジョブを終了させるステップと、そ
の後、前記リソース・スケジューラによって開始された
前記マーカ・ジョブを終了するステップとを、さらに含
む上記(1)に記載の方法。 (11)処理されるユーザ・ジョブを受信するローカル
・ジョブ制御システム(LJCS)を有する分散システ
ム内でジョブを処理するシステムであって、前記LJC
Sの外部にあって、前記LJCSによって実行されるユ
ーザ・ジョブに対応するマーカ・ジョブを開始する手段
を有するリソース・スケジューラと、前記リソース・ス
ケジューラによる前記マーカ・ジョブの開始に応じて、
前記LJCSによって前記ユーザ・ジョブを開始する手
段と、前記ユーザ・ジョブの終了時に、前記リソース・
スケジューラによって開始された前記マーカ・ジョブを
終了する手段とを備え、前記LJCSにより前記ユーザ
・ジョブを開始する手段は、前記リソース・スケジュー
ラの前記マーカ・ジョブを開始する手段に応答し、前記
マーカ・ジョブを終了する前記手段は、前記ユーザ・ジ
ョブの終了に応答するシステム。 (12)前記リソース・スケジューラによる前記マーカ
・ジョブの前記開始の前に、前記LJCSで前記ユーザ
・ジョブの存在を判別する手段を、さらに備える上記
(11)に記載のシステム。 (13)前記判別する手段は、前記リソース・スケジュ
ーラによって開始される上記(12)に記載のシステ
ム。 (14)前記リソース・スケジューラは、前記リソース
・スケジューラ及び前記LJCSの外部にあるノード管
理システムを利用して前記マーカジョブを開始し、前記
マーカ・ジョブは前記ノード管理システムに存在する
が、前記LJCSに存在しない上記(11)に記載のシ
ステム。 (15)前記リソース・スケジューラは、さらに、前記
マーカ・ジョブを、前記ノード管理システム内のバッチ
・ジョブ・キューへ実行依頼する手段を備え、前記LJ
CSによる前記ユーザ・ジョブを開始する前記手段は、
前記マーカ・ジョブの開始に続く前記ノード管理システ
ムでのジョブ・コマンド・ファイルの立ち上げに応答
し、前記ジョブ・コマンド・ファイルは、前記分散処理
システムのノード集合で前記ユーザ・ジョブを開始する
ことを、前記LJCSへ要求し、前記マーカ・ジョブの
実行は、前記ユーザ・ジョブの実行を包含する上記(1
4)に記載のシステム。 (16)前記リソース・スケジューラによる前記マーカ
・ジョブの開始の前に、前記LJCSで前記ユーザ・ジ
ョブの存在を判別する手段をさらに備え、前記判別する
手段は、前記LJCSのユーザ・ジョブ・キュー内のユ
ーザ・ジョブを、前記ノード管理システムによって保持
されるバッチ・ジョブ・キュー内のマーカ・ジョブと比
較する手段と、前記ユーザ・ジョブ・キューにリストさ
れているが、前記バッチ・ジョブ・キューにリストされ
ていないジョブとして新しいユーザ・ジョブを識別する
手段とを備える上記(14)に記載のシステム。 (17)前記LJCSの前記ユーザ・ジョブ・キュー内
の新しいユーザ・ジョブの識別に応じて、前記新しいユ
ーザ・ジョブにあるジョブ情報を獲得し、前記新しいユ
ーザ・ジョブによって要求されるノード数を読取り、前
記新しいユーザ・ジョブによって要求される実行時間を
見積もり、前記新しいユーザ・ジョブのジョブ名を獲得
する手段と、コマンド・ファイルを作成して、前記ノー
ド管理システムで新しいマーカ・ジョブを開始するため
に、前記ジョブ情報を使用する手段とを、さらに備える
上記(16)に記載のシステム。 (18)前記ジョブ・コマンド・ファイルに応じて、前
記LJCSによる前記ユーザ・ジョブの開始を監視する
手段と、前記ユーザ・ジョブが、第1の期間内で開始す
ることに失敗する場合には、開始失敗を、前記ノード管
理システムで保持されるエラー・ログに記録する手段と
を、さらに備える上記(17)に記載のシステム。 (19)前記LJCSによる前記ユーザ・ジョブの開始
の後に、第2の期間を開始する手段と、前記ユーザ・ジ
ョブの完了を監視する手段とをさらに備え、前記システ
ムは、前記ユーザ・ジョブのサクセスフルな完了を伴わ
ない前記第2の期間の満了時に、前記ユーザ・ジョブが
実行することをキャンセルする手段と、前記ユーザ・ジ
ョブを、前記LJCSの実行キューから取り除く手段と
を、さらに備える上記(18)に記載のシステム。 (20)前記LJCSによる前記ユーザ・ジョブの完了
の失敗を監視する手段と、前記失敗の検出時に、前記ユ
ーザ・ジョブを前記LJCSの実行キューから取り除
き、前記ユーザ・ジョブを終了させる手段と、その後、
前記リソース・スケジューラによって開始された前記マ
ーカ・ジョブを終了する手段とを、さらに備える上記
(11)に記載のシステム。 (21)処理されるユーザ・ジョブを受信するローカル
・ジョブ制御システム(LJCS)を有する分散処理シ
ステム内でジョブを処理するシステムであって、前記L
JCSの外部にあって、前記LJCS内で実行するため
のジョブのスケジューリングを制御するスケジューラ・
モジュールを備え、前記スケジューラ・モジュールは、
前記LJCSの外部にあって、前記LJCSによって実
行されるユーザ・ジョブに対応するマーカ・ジョブを開
始するコード手段と、前記マーカ・ジョブの開始に応じ
て、前記LJCSによって前記ユーザ・ジョブの開始を
始動させるコード手段と、前記ユーザ・ジョブの終了時
に、前記マーカ・ジョブを終了するコード手段とを含
み、前記LJCSによる前記ユーザ・ジョブの開始は、
前記スケジューラの前記マーカ・ジョブの開始に応答
し、前記マーカ・ジョブの終了は、前記ユーザ・ジョブ
の終了に応答するシステム。 (22)上記(1)乃至上記(10)のいずれかに記載
の方法を実行するためのプログラムを記憶した機械可読
プログラム記憶装置。
【図面の簡単な説明】
【図1】本発明のジョブ・スケジューリング機能を使用
する分散データ処理システムの略図である。
【図2】本発明のジョブ・スケジューリング機能に従っ
て、ローカル・ジョブ制御システム、リソース・スケジ
ューラ及びノード管理システム間の対話を示すブロック
図である。
【図3】ローカル・ジョブ制御システムで、新しいユー
ザ・ジョブを検出する一実施形態を実行する疑似コード
である。
【図4】ローカル・ジョブ制御システムで、新しいユー
ザ・ジョブを検出するロジックの一実施形態の流れ図で
ある。
【図5】本発明の原理に従って、ノード管理システムに
おけるマーカ・ジョブについてのビルド・コマンド・フ
ァイル(build command file;BC
F)・ルーチンの一実施形態を実現する疑似コードであ
る。
【図6】本発明の原理に従った、ビルド・コマンド・ル
ーチン・ロジックの一実施形態についての流れ図であ
る。
【図7】ユーザ・ジョブがローカル・ジョブ制御システ
ムにおいて実行される場合の、ノード管理システムの実
行についてのロジックの一実施形態の流れ図である。
【符号の説明】
100 分散コンピュータ・システム 102 ローカル・エリア・ネットワーク(LAN) 104 LANゲート 105 SPSスイッチ 106 ノード 107 ダイレクト・アクセス記憶装置 110 バス 112 コントロール・ワークステーション・ノード 113 ジョブ・スケジューラ,外部スケジューラ 114 ダイレクト・アクセス記憶装置 200 ジョブ・スケジューリング・ロジック 210 ノード管理システム 215 バッチ・ジョブ・キュー 220 スケジューリング及び制御ロジック 230 特殊リソース・スケジューラ(SRS) 240 ローカル・ジョブ制御システム(LJCS) 245 ユーザ・ジョブ・キュー
───────────────────────────────────────────────────── フロントページの続き (72)発明者 デヴィッド・ポウル・ブレルスフォード アメリカ合衆国 12538 ニューヨーク州 ハイド パーク パイン ツリー レー ン 1 (72)発明者 ジョセフ・フランシス・スコヴィラ アメリカ合衆国 13827 ニューヨーク州 オーウィーゴー ソーンホロウ ロード 25

Claims (22)

    【特許請求の範囲】
  1. 【請求項1】処理されるユーザ・ジョブを受信するロー
    カル・ジョブ制御システム(LJCS)を有する分散処
    理システム内でジョブを処理する方法であって、 前記LJCSによって実行されるユーザ・ジョブに対応
    するマーカ・ジョブを前記LJCSの外部にあるリソー
    ス・スケジューラによって開始するステップと、 前記リソース・スケジューラによる前記マーカ・ジョブ
    の開始に応じて、前記LJCSによって前記ユーザ・ジ
    ョブを開始するステップと、 前記ユーザ・ジョブの終了時に、前記リソース・スケジ
    ューラによって開始された前記マーカ・ジョブを終了す
    るステップとを含み、 前記LJCSによる前記ユーザ・ジョブの開始は、前記
    リソース・スケジューラの前記マーカ・ジョブの開始に
    応答し、前記マーカ・ジョブの終了は、前記ユーザ・ジ
    ョブの終了に応答する方法。
  2. 【請求項2】前記リソース・スケジューラによる前記マ
    ーカ・ジョブの前記開始の前に、前記LJCSで前記ユ
    ーザ・ジョブの存在を判別するステップを、さらに含む
    請求項1に記載の方法。
  3. 【請求項3】前記判別するステップは、前記リソース・
    スケジューラによって開始される請求項2に記載の方
    法。
  4. 【請求項4】前記リソース・スケジューラは、前記リソ
    ース・スケジューラ及び前記LJCSの外部にあるノー
    ド管理システムを利用して前記マーカジョブを開始し、
    前記マーカ・ジョブは前記ノード管理システムに存在す
    るが、前記LJCSに存在しない請求項1に記載の方
    法。
  5. 【請求項5】前記マーカ・ジョブの前記開始は、前記ノ
    ード管理システム内のバッチ・ジョブ・キューへ前記マ
    ーカ・ジョブを実行依頼する前記リソース・スケジュー
    ラに先行され、前記LJCSによる前記ユーザ・ジョブ
    の前記開始は、前記マーカ・ジョブの開始に続く前記ノ
    ード管理システムでのジョブ・コマンド・ファイルの立
    ち上げに応答し、前記ジョブ・コマンド・ファイルは、
    前記分散処理システムのノード集合で前記ユーザ・ジョ
    ブを開始することを、前記LJCSへ要求し、前記マー
    カ・ジョブの実行は、前記ユーザ・ジョブの実行を包含
    する請求項4に記載の方法。
  6. 【請求項6】前記リソース・スケジューラによる前記マ
    ーカ・ジョブの開始の前に、前記LJCSで前記ユーザ
    ・ジョブの存在を判別するステップをさらに含み、前記
    判別するステップは、前記LJCSのユーザ・ジョブ・
    キュー内のユーザ・ジョブを、前記ノード管理システム
    によって保持されるバッチ・ジョブ・キュー内のマーカ
    ・ジョブと比較するステップと、前記ユーザ・ジョブ・
    キューにリストされているが、前記バッチ・ジョブ・キ
    ューにリストされていないジョブとして新しいユーザ・
    ジョブを識別するステップとを含む請求項4に記載の方
    法。
  7. 【請求項7】前記LJCSの前記ユーザ・ジョブ・キュ
    ー内の新しいユーザ・ジョブの識別に応じて、前記新し
    いユーザ・ジョブにあるジョブ情報を獲得し、前記新し
    いユーザ・ジョブによって要求されるノード数を読取
    り、前記新しいユーザ・ジョブによって要求される実行
    時間を見積もり、前記新しいユーザ・ジョブのジョブ名
    を獲得するステップと、コマンド・ファイルを作成し
    て、前記ノード管理システムで新しいマーカ・ジョブを
    開始するために、前記ジョブ情報を使用するステップと
    を、さらに含む請求項6に記載の方法。
  8. 【請求項8】前記ジョブ・コマンド・ファイルに応じ
    て、前記LJCSによる前記ユーザ・ジョブの開始を監
    視するステップと、前記ユーザ・ジョブが、第1の期間
    内で開始することに失敗する場合には、開始失敗を、前
    記ノード管理システムで保持されるエラー・ログに記録
    するステップとを、さらに含む請求項7に記載の方法。
  9. 【請求項9】前記LJCSによる前記ユーザ・ジョブの
    開始の後に、第2の期間を開始するステップと、前記ユ
    ーザ・ジョブの完了を監視するステップとをさらに含
    み、前記方法は、前記ユーザ・ジョブのサクセスフルな
    完了を伴わない前記第2の期間の満了時に、前記ユーザ
    ・ジョブが実行することをキャンセルするステップと、
    前記ユーザ・ジョブを、前記LJCSの実行キューから
    取り除くステップとを、さらに含む請求項8に記載の方
    法。
  10. 【請求項10】前記LJCSによる前記ユーザ・ジョブ
    の完了の失敗を監視するステップと、前記失敗の検出時
    に、前記ユーザ・ジョブを前記LJCSの実行キューか
    ら取り除き、前記ユーザ・ジョブを終了させるステップ
    と、その後、前記リソース・スケジューラによって開始
    された前記マーカ・ジョブを終了するステップとを、さ
    らに含む請求項1に記載の方法。
  11. 【請求項11】処理されるユーザ・ジョブを受信するロ
    ーカル・ジョブ制御システム(LJCS)を有する分散
    システム内でジョブを処理するシステムであって、 前記LJCSの外部にあって、前記LJCSによって実
    行されるユーザ・ジョブに対応するマーカ・ジョブを開
    始する手段を有するリソース・スケジューラと、 前記リソース・スケジューラによる前記マーカ・ジョブ
    の開始に応じて、前記LJCSによって前記ユーザ・ジ
    ョブを開始する手段と、 前記ユーザ・ジョブの終了時に、前記リソース・スケジ
    ューラによって開始された前記マーカ・ジョブを終了す
    る手段とを備え、 前記LJCSにより前記ユーザ・ジョブを開始する手段
    は、前記リソース・スケジューラの前記マーカ・ジョブ
    を開始する手段に応答し、前記マーカ・ジョブを終了す
    る前記手段は、前記ユーザ・ジョブの終了に応答するシ
    ステム。
  12. 【請求項12】前記リソース・スケジューラによる前記
    マーカ・ジョブの前記開始の前に、前記LJCSで前記
    ユーザ・ジョブの存在を判別する手段を、さらに備える
    請求項11に記載のシステム。
  13. 【請求項13】前記判別する手段は、前記リソース・ス
    ケジューラによって開始される請求項12に記載のシス
    テム。
  14. 【請求項14】前記リソース・スケジューラは、前記リ
    ソース・スケジューラ及び前記LJCSの外部にあるノ
    ード管理システムを利用して前記マーカジョブを開始
    し、前記マーカ・ジョブは前記ノード管理システムに存
    在するが、前記LJCSに存在しない請求項11に記載
    のシステム。
  15. 【請求項15】前記リソース・スケジューラは、さら
    に、前記マーカ・ジョブを、前記ノード管理システム内
    のバッチ・ジョブ・キューへ実行依頼する手段を備え、
    前記LJCSによる前記ユーザ・ジョブを開始する前記
    手段は、前記マーカ・ジョブの開始に続く前記ノード管
    理システムでのジョブ・コマンド・ファイルの立ち上げ
    に応答し、前記ジョブ・コマンド・ファイルは、前記分
    散処理システムのノード集合で前記ユーザ・ジョブを開
    始することを、前記LJCSへ要求し、前記マーカ・ジ
    ョブの実行は、前記ユーザ・ジョブの実行を包含する請
    求項14に記載のシステム。
  16. 【請求項16】前記リソース・スケジューラによる前記
    マーカ・ジョブの開始の前に、前記LJCSで前記ユー
    ザ・ジョブの存在を判別する手段をさらに備え、前記判
    別する手段は、前記LJCSのユーザ・ジョブ・キュー
    内のユーザ・ジョブを、前記ノード管理システムによっ
    て保持されるバッチ・ジョブ・キュー内のマーカ・ジョ
    ブと比較する手段と、前記ユーザ・ジョブ・キューにリ
    ストされているが、前記バッチ・ジョブ・キューにリス
    トされていないジョブとして新しいユーザ・ジョブを識
    別する手段とを備える請求項14に記載のシステム。
  17. 【請求項17】前記LJCSの前記ユーザ・ジョブ・キ
    ュー内の新しいユーザ・ジョブの識別に応じて、前記新
    しいユーザ・ジョブにあるジョブ情報を獲得し、前記新
    しいユーザ・ジョブによって要求されるノード数を読取
    り、前記新しいユーザ・ジョブによって要求される実行
    時間を見積もり、前記新しいユーザ・ジョブのジョブ名
    を獲得する手段と、コマンド・ファイルを作成して、前
    記ノード管理システムで新しいマーカ・ジョブを開始す
    るために、前記ジョブ情報を使用する手段とを、さらに
    備える請求項16に記載のシステム。
  18. 【請求項18】前記ジョブ・コマンド・ファイルに応じ
    て、前記LJCSによる前記ユーザ・ジョブの開始を監
    視する手段と、前記ユーザ・ジョブが、第1の期間内で
    開始することに失敗する場合には、開始失敗を、前記ノ
    ード管理システムで保持されるエラー・ログに記録する
    手段とを、さらに備える請求項17に記載のシステム。
  19. 【請求項19】前記LJCSによる前記ユーザ・ジョブ
    の開始の後に、第2の期間を開始する手段と、前記ユー
    ザ・ジョブの完了を監視する手段とをさらに備え、前記
    システムは、前記ユーザ・ジョブのサクセスフルな完了
    を伴わない前記第2の期間の満了時に、前記ユーザ・ジ
    ョブが実行することをキャンセルする手段と、前記ユー
    ザ・ジョブを、前記LJCSの実行キューから取り除く
    手段とを、さらに備える請求項18に記載のシステム。
  20. 【請求項20】前記LJCSによる前記ユーザ・ジョブ
    の完了の失敗を監視する手段と、前記失敗の検出時に、
    前記ユーザ・ジョブを前記LJCSの実行キューから取
    り除き、前記ユーザ・ジョブを終了させる手段と、その
    後、前記リソース・スケジューラによって開始された前
    記マーカ・ジョブを終了する手段とを、さらに備える請
    求項11に記載のシステム。
  21. 【請求項21】処理されるユーザ・ジョブを受信するロ
    ーカル・ジョブ制御システム(LJCS)を有する分散
    処理システム内でジョブを処理するシステムであって、 前記LJCSの外部にあって、前記LJCS内で実行す
    るためのジョブのスケジューリングを制御するスケジュ
    ーラ・モジュールを備え、前記スケジューラ・モジュー
    ルは、 前記LJCSの外部にあって、前記LJCSによって実
    行されるユーザ・ジョブに対応するマーカ・ジョブを開
    始するコード手段と、 前記マーカ・ジョブの開始に応じて、前記LJCSによ
    って前記ユーザ・ジョブの開始を始動させるコード手段
    と、 前記ユーザ・ジョブの終了時に、前記マーカ・ジョブを
    終了するコード手段とを含み、 前記LJCSによる前記ユーザ・ジョブの開始は、前記
    スケジューラの前記マーカ・ジョブの開始に応答し、前
    記マーカ・ジョブの終了は、前記ユーザ・ジョブの終了
    に応答するシステム。
  22. 【請求項22】請求項1乃至請求項10のいずれかに記
    載の方法を実行するためのプログラムを記憶した機械可
    読プログラム記憶装置。
JP2000304802A 1999-10-05 2000-10-04 ローカル・ジョブ制御システムを有する分散処理システム内での外部ジョブ・スケジューリング方法及びシステム Expired - Fee Related JP3887160B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/412932 1999-10-05
US09/412,932 US6694345B1 (en) 1999-10-05 1999-10-05 External job scheduling within a distributed processing system having a local job control system

Publications (2)

Publication Number Publication Date
JP2001147901A true JP2001147901A (ja) 2001-05-29
JP3887160B2 JP3887160B2 (ja) 2007-02-28

Family

ID=23635057

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000304802A Expired - Fee Related JP3887160B2 (ja) 1999-10-05 2000-10-04 ローカル・ジョブ制御システムを有する分散処理システム内での外部ジョブ・スケジューリング方法及びシステム

Country Status (5)

Country Link
US (1) US6694345B1 (ja)
JP (1) JP3887160B2 (ja)
CN (1) CN1127689C (ja)
CA (1) CA2315446C (ja)
IL (1) IL134681A (ja)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6771386B1 (en) * 2000-09-14 2004-08-03 Kabushiki Kaisha Toshiba Image forming system
US7797368B1 (en) * 2000-11-17 2010-09-14 Intel Corporation Managing a network of consumer-use computing devices
JP3732497B2 (ja) * 2004-01-14 2006-01-05 コナミ株式会社 メッセージ出力装置、メッセージ制御方法、および、プログラム
US7533384B2 (en) * 2004-05-27 2009-05-12 International Business Machines Corporation Job routing to earliest available resources in a parallel job scheduler
US7844969B2 (en) * 2004-06-17 2010-11-30 Platform Computing Corporation Goal-oriented predictive scheduling in a grid environment
US7861246B2 (en) * 2004-06-17 2010-12-28 Platform Computing Corporation Job-centric scheduling in a grid environment
US7340654B2 (en) * 2004-06-17 2008-03-04 Platform Computing Corporation Autonomic monitoring in a grid environment
US7886296B2 (en) 2004-07-22 2011-02-08 Computer Associates Think, Inc. System and method for providing alerts for heterogeneous jobs
US9600216B2 (en) * 2004-07-22 2017-03-21 Ca, Inc. System and method for managing jobs in heterogeneous environments
US8028285B2 (en) * 2004-07-22 2011-09-27 Computer Associates Think, Inc. Heterogeneous job dashboard
US8427667B2 (en) * 2004-07-22 2013-04-23 Ca, Inc. System and method for filtering jobs
US7984443B2 (en) * 2004-07-22 2011-07-19 Computer Associates Think, Inc. System and method for normalizing job properties
US20060037018A1 (en) * 2004-08-16 2006-02-16 Dell Products L.P. System, method and software providing an adaptive job dispatch algorithm for large distributed jobs
US7680970B2 (en) * 2004-10-22 2010-03-16 Fisher-Rosemount Systems, Inc. Method and system for batch process arbitration in a process control system
JP2006155187A (ja) * 2004-11-29 2006-06-15 Sony Corp 情報処理システム、情報処理装置および方法、記録媒体、並びにプログラム。
US7995474B2 (en) * 2005-09-13 2011-08-09 International Business Machines Corporation Grid network throttle and load collector
US7831971B2 (en) * 2005-10-24 2010-11-09 International Business Machines Corporation Method and apparatus for presenting a visualization of processor capacity and network availability based on a grid computing system simulation
US7853948B2 (en) * 2005-10-24 2010-12-14 International Business Machines Corporation Method and apparatus for scheduling grid jobs
US20070118839A1 (en) * 2005-10-24 2007-05-24 Viktors Berstis Method and apparatus for grid project modeling language
US7926057B2 (en) * 2005-12-15 2011-04-12 International Business Machines Corporation Scheduling of computer jobs employing dynamically determined top job party
US7865896B2 (en) * 2005-12-15 2011-01-04 International Business Machines Corporation Facilitating scheduling of jobs by decoupling job scheduling algorithm from recorded resource usage and allowing independent manipulation of recorded resource usage space
US8347291B2 (en) * 2006-12-29 2013-01-01 Sap Ag Enterprise scheduler for jobs performable on the remote system by receiving user specified values for retrieved job definitions comprising metadata representation of properties of jobs
DE102007047916A1 (de) 2007-01-25 2008-08-07 Denso Corp., Kariya Steuergerät zur Kraftstoffeinspritzung
JP5642338B2 (ja) * 2008-03-10 2014-12-17 富士通株式会社 ジョブ管理プログラムおよびジョブ管理方法
US8458712B2 (en) * 2008-04-30 2013-06-04 International Business Machines Corporation System and method for multi-level preemption scheduling in high performance processing
CN102176122B (zh) * 2011-03-07 2013-02-20 华中科技大学 一种基于有限自动机的自动控制系统及其控制方法
WO2012119310A1 (zh) * 2011-03-09 2012-09-13 中国科学院计算机网络信息中心 在计算环境中汇聚队列信息及作业信息的方法
US8849748B2 (en) * 2011-05-16 2014-09-30 Post Pro Finance Co., Inc. System and method for tracking progress of media processing jobs
KR20130079864A (ko) * 2012-01-03 2013-07-11 삼성전자주식회사 클라우드 환경을 위한 다단계 스케쥴링 장치 및 방법
CN103581264B (zh) * 2012-08-06 2019-01-18 中兴通讯股份有限公司 一种作业生命期的控制方法和装置
US9373074B2 (en) * 2012-10-09 2016-06-21 Qualcomm Incorporated Method and apparatus for time management and scheduling for sychronous processing on a cluster of processing nodes
US10185582B2 (en) * 2012-11-28 2019-01-22 Red Hat Israel, Ltd. Monitoring the progress of the processes executing in a virtualization environment
EP4083800A1 (en) 2017-04-19 2022-11-02 Huawei Technologies Co., Ltd. System and method for low latency node local scheduling in distributed resource management
US10261837B2 (en) 2017-06-30 2019-04-16 Sas Institute Inc. Two-part job scheduling with capacity constraints and preferences
US10310896B1 (en) 2018-03-15 2019-06-04 Sas Institute Inc. Techniques for job flow processing
US10666510B2 (en) * 2018-10-30 2020-05-26 Bank Of America Corporation Conserving computing resources during network parallel processing

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4633387A (en) 1983-02-25 1986-12-30 International Business Machines Corporation Load balancing in a multiunit system
US5794005A (en) 1992-01-21 1998-08-11 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Synchronous parallel emulation and discrete event simulation system with self-contained simulation objects and active event objects
US5414845A (en) 1992-06-26 1995-05-09 International Business Machines Corporation Network-based computer system with improved network scheduling system
US5363175A (en) 1993-03-01 1994-11-08 Xerox Corporation Distributed job scheduling with modular components
US5437032A (en) 1993-11-04 1995-07-25 International Business Machines Corporation Task scheduler for a miltiprocessor system
US5799149A (en) 1996-06-17 1998-08-25 International Business Machines Corporation System partitioning for massively parallel processors

Also Published As

Publication number Publication date
CA2315446C (en) 2007-08-07
US6694345B1 (en) 2004-02-17
CN1127689C (zh) 2003-11-12
CN1290887A (zh) 2001-04-11
JP3887160B2 (ja) 2007-02-28
IL134681A0 (en) 2001-04-30
IL134681A (en) 2006-04-10
CA2315446A1 (en) 2001-04-05

Similar Documents

Publication Publication Date Title
JP2001147901A (ja) ローカル・ジョブ制御システムを有する分散処理システム内での外部ジョブ・スケジューリング方法及びシステム
US7707455B2 (en) Self-service recovery of application data
US7093002B2 (en) Handling of malware scanning of files stored within a file storage device of a computer network
US7150042B2 (en) Techniques for performing malware scanning of files stored within a file storage device of a computer network
US7426729B2 (en) Distributed processing framework system
US8327425B2 (en) Method for establishing an agency relationship to perform delegated computing tasks
US20050071209A1 (en) Binding a workflow engine to a data model
US7574592B2 (en) Approval process for booting devices in pre-boot execution environment (PXE)
US20100057865A1 (en) Transferable Debug Session in a Team Environment
JPH06202996A (ja) 加入者分散2相コミット・プロトコルの拡張機能
US20030217131A1 (en) Processing distribution using instant copy
JPH10143381A (ja) 遊休ワークステーションを共用するための装置および方法
JP4141875B2 (ja) リカバリ処理方法及びその実施システム並びにその処理プログラム
CN110968478B (zh) 日志采集方法、服务器及计算机存储介质
US8938490B2 (en) System and method for accessing mainframe system automation from a process automation application
US7340651B2 (en) System and method for maintaining functionality during component failures
US11216343B1 (en) System and method for accelerating processing in event-driven server-less computing
CN113438292A (zh) 一种基于自动化运维工具的代理部署方法及装置
US20140033204A1 (en) Background Services Launcher For Dynamic Service Provisioning
CN109218338B (zh) 信息处理系统、方法和装置
US9191298B1 (en) Distributed forensic investigation
CN115150464B (zh) 应用代理方法、装置、设备及介质
US11734122B2 (en) Backup task processing in a data storage system
KR100550477B1 (ko) 임베디드 시스템에서의 원격 디바이스 드라이버 개발환경을 지원하기 위한 드라이버 에이전트 장치 및 그 운용방법
US9672083B2 (en) Operating a program code object in conjunction with an application context

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040727

RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20040806

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20040806

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041026

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050809

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051108

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060404

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060703

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061114

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20061114

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061124

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091201

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101201

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101201

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111201

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111201

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121201

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121201

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131201

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees