JP2000194674A - 分散ジョブ統合管理システム - Google Patents

分散ジョブ統合管理システム

Info

Publication number
JP2000194674A
JP2000194674A JP10374485A JP37448598A JP2000194674A JP 2000194674 A JP2000194674 A JP 2000194674A JP 10374485 A JP10374485 A JP 10374485A JP 37448598 A JP37448598 A JP 37448598A JP 2000194674 A JP2000194674 A JP 2000194674A
Authority
JP
Japan
Prior art keywords
management system
job
slave
distributed
job management
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10374485A
Other languages
English (en)
Inventor
Kazuo Yamada
一男 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP10374485A priority Critical patent/JP2000194674A/ja
Priority to US09/472,901 priority patent/US6438553B1/en
Publication of JP2000194674A publication Critical patent/JP2000194674A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/505Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/1008Server selection for load balancing based on parameters of servers, e.g. available memory or workload
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1029Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers using data related to the state of servers by a load balancer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/40Network security protocols
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/10015Access to distributed or replicated servers, e.g. using brokers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/30Definitions, standards or architectural aspects of layered protocol stacks
    • H04L69/32Architecture of open systems interconnection [OSI] 7-layer type protocol stacks, e.g. the interfaces between the data link level and the physical level
    • H04L69/322Intralayer communication protocols among peer entities or protocol data unit [PDU] definitions
    • H04L69/329Intralayer communication protocols among peer entities or protocol data unit [PDU] definitions in the application layer [OSI layer 7]

Abstract

(57)【要約】 【課題】 異なる分散ジョブ管理システム毎にネットワ
ークリソースを分離する必要がなく、ネットワークリソ
ースを有効に活用する。 【解決手段】 スレーブ分散ジョブ管理システム3のジ
ョブに必要なCPU数をマスター分散処理管理システム
2に与えるリソース予約部5と、CPU数分のホスト名
リストからスレーブ分散ジョブ管理システム3のリソー
スを割り付けるリソース割付部6と、スレーブメインコ
マンドをマスター分散ジョブ管理システム2に対して投
入するスレーブメインコマンド投入部7と、スレーブメ
インコマンドの実行をモニタするスレーブメインコマン
ド監視部8と、スレーブメインコマンドの実行が終了し
た時点で、マスター分散ジョブ管理システム2に対して
予約されたリソースの解放を行うリソース解放部9とを
備える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、分散ジョブ管理
システムを管理する分散ジョブ統合管理システムに関す
る。
【0002】
【従来の技術】図12は、ネットワーク上で2つの異な
る分散ジョブ管理システムが稼働している場合の従来の
システム構成図である。ネットワークリソース23は、
ホストAとホストBで構成されており、ネットワークリ
ソース24は、複数のホストCとホストDで構成されて
おり、それぞれのホストはCPUを2つ備えている。こ
れらのホストを使う分散ジョブ管理システムが2つあ
り、ホストAとホストBからなるネットワークリソース
23は、分散ジョブ管理システム21により管理されて
おり、ホストCとホストDからなるネットワークリソー
ス24は、分散ジョブ管理システム22により管理され
ている。
【0003】分散ジョブ管理システムとは、あるジョブ
aという仕事をするときにCPU_A1を割り当て、ジ
ョブbという仕事をするときにCPU_A2を割り当て
て並行して処理させるものである。すなわち、ジョブa
とジョブbは、それぞれCPU_A1、CPU_A2を
使うことによって処理される。ここで、ジョブbが先に
終了してしまったという場合には、CPU_A2は空き
状態であるので新たなジョブcの仕事をCPU_A2に
割り当てて処理させることで、全体の処理を速くするこ
とができるというのが分散ジョブ管理システムである。
【0004】具体的には、分散ジョブ管理システム自体
が、自分の管理しているホストのCPUの稼働率を監視
し、ジョブの実行状況を把握しつつどのジョブがどのC
PUに投入されていて、処理状況、実行状況がどうなっ
ているかを把握している。すなわち、分散ジョブ管理シ
ステムが、リソースに対して管理、監視、処理、分析を
行っている。分析を行うことによって、例えば空いてい
るCPUがある場合、あるいは処理負荷の軽いCPUが
あれば、処理負荷をフルにするように、分散ジョブ管理
システム自体がインテリジェントにホストのCPUを、
すなわちリソースを管理している。
【0005】分散ジョブ管理システムの一例が、特開平
2−224169号公報に記載されている。特開平2−
224169号公報に記載の発明は、ネットワークに接
続された複数の計算機システムの処理分散方式におい
て、タスク管理制御部が、投入された1つのジョブをタ
スクに分割し、分割したタスクのパラメータに従って、
他の計算機システムに転送して処理し、他の計算機シス
テムで処理されたタスクの処理結果を自計算機システム
で処理されたタスクの処理結果と統合するものであり、
ネットワーク内に自動的に負荷を分散し処理を行うこと
により、ネットワーク内のリソースを有効に利用し、個
々のリソースに対する負荷を低減させて、ジョブの実行
待ちの時間を短くしてターンアランウンドタイム(TA
T)を短縮できるようにしたものである。
【0006】しかしながら、上述した個々の分散ジョブ
管理システム自体は、それぞれ行う処理が異なっており
独立となっているため、一方の分散ジョブ管理システム
から投入される全てのジョブを他方の分散ジョブ管理シ
ステムから管理、監視することができず、それぞれで使
われるハードウェア等のリソースも完全に分離されてい
る。したがって、例えば、分散ジョブ管理システム22
のCPU_C2があまり使われていない状態であって、
分散ジョブ管理システム21の方が、CPU_A1,C
PU_A2,CPU_B1,CPU_B2を使って、フ
ルに処理を行っていて常に空き時間がないという場合
に、CPU_C2を使いたくても、システムとして完全
に分離されてしまっているので使うことができない。
【0007】
【発明が解決しようとする課題】上述したように、ネッ
トワーク上に複数の異なる分散ジョブ管理システムがあ
る場合には、それぞれジョブ管理方法が異なるため、一
方の分散ジョブ管理システムから投入される全てのジョ
ブを他方の分散ジョブ管理システムから管理、監視する
ことができず、ネットワークリソースを静的に分離しな
ければならない。したがって、それぞれの分散ジョブ管
理システムから投入されるジョブが全てのネットワーク
リソースを共有できないという欠点がある。
【0008】また、投入されるジョブが全てのネットワ
ークリソースを共有できないため、一方の分散ジョブ管
理システムから投入されるジョブの負荷が低い場合で
も、他方の分散ジョブ管理システムから投入されるジョ
ブのターンアランウンドタイム(TAT)が、短縮され
ないという欠点がある。
【0009】この発明の目的は、異なる分散ジョブ管理
システム毎にネットワークリソースを分離する必要がな
く、ネットワークリソースを有効に活用できる分散ジョ
ブ統合管理システムを提供することにある。
【0010】
【課題を解決するための手段】この発明は、ネットワー
ク上の負荷に対し、複数のコンピュータを1つのシステ
ムとして統括することで、ネットワークリソースを有効
に活用する異種の分散ジョブ管理システムの一をマスタ
ー、その他をスレーブとし、マスター分散ジョブ管理シ
ステムが、各ホスト資源の状況を用いて、入力したジョ
ブを処理するリソースの割付けを決め、必要に応じてス
レーブ分散ジョブ管理システムに割り付けるジョブを渡
すことを特徴とする。
【0011】この発明は、異機種混合のネットワーク上
の負荷に対し、複数のコンピュータを1つのシステムと
して統括することで、ネットワークリソースを有効に活
用する異種の分散ジョブ管理システムの一をマスター、
その他をスレーブとする分散ジョブ管理システムにおい
て、スレーブ分散処理管理システムのジョブに必要なC
PU数をマスター分散処理管理システムに与えるリソー
ス予約部と、CPU数分のホスト名リストからスレーブ
分散ジョブ管理システムのリソースを割り付けるリソー
ス割付部と、スレーブメインコマンドをマスター分散ジ
ョブ管理システムに対して投入するスレーブメインコマ
ンド投入部と、スレーブメインコマンドの実行をモニタ
するスレーブメインコマンド監視部と、スレーブメイン
コマンドの実行が終了した時点で、マスター分散ジョブ
管理システムに対して予約されたリソースの解放を行う
リソース解放部と、とを備えることを特徴とする。
【0012】
【発明の実施の形態】次に、この発明の実施の形態につ
いて図面を参照して説明する。
【0013】図1は、この発明の分散ジョブ統合管理シ
ステムの実施の形態を示すシステム構成図である。図1
において、分散ジョブ統合管理システム1は、マスター
分散ジョブ管理システム2とスレーブ分散ジョブ管理シ
ステム3を統合管理する。
【0014】分散ジョブ統合管理システム1は、スレー
ブ分散ジョブ管理システム3のジョブに必要なCPU数
をマスター分散処理管理システム2に与えるリソース予
約部5と、CPU数分のホスト名リストからスレーブ分
散ジョブ管理システム3のリソースを割り付けるリソー
ス割付部6と、スレーブメインコマンドをマスター分散
ジョブ管理システム2に対して投入するスレーブメイン
コマンド投入部7と、スレーブメインコマンドの実行を
モニタするスレーブメインコマンド監視部8と、スレー
ブメインコマンドの実行が終了した時点で、マスター分
散ジョブ管理システム2に対して予約されたリソースの
解放を行うリソース解放部9とを備えている。
【0015】ネットワークリソース4は、ホストAとホ
ストBとホストCとにより構成されており、ホストA〜
ホストCは、マスター分散ジョブ管理システム2により
管理されている。ホストAは、CPU_A1とCPU_
A2を備え、ホストBはCPU_B1とCPU_B2を
備え、ホストCはCPU_C1とCPU_C2を備えて
いる。
【0016】次に、この発明の実施の形態の動作につい
て説明する。
【0017】まず、スレーブ分散処理管理システム3の
ジョブに必要なCPU数をマスター分散処理管理システ
ム2に与えてリソース予約部5でダミージョブを発行し
てリソース(CPU_B2,CPU_C1,CPU_C
2)を予約する。
【0018】リソース割付部6では、CPU数分のホス
ト名リストからスレーブ分散ジョブ管理システム3のリ
ソースデータに変換し、リソース(CPU_B2,CP
U_C1,CPU_C2)の割り付けを行う。
【0019】スレーブメインコマンド投入部7でスレー
ブメインコマンドをマスター分散ジョブ管理システム2
に対して投入する。
【0020】スレーブメインコマンドを親とした子の分
散ジョブがスレーブ分散ジョブ管理システム3から発行
される。
【0021】スレーブメインコマンドの実行が終了する
のをスレーブメインコマンド監視部8においてモニタ
し、スレーブメインコマンドの実行が終了した時点で、
リソース解放部9は、マスター分散ジョブ管理システム
2に対してダミージョブをKILLして予約されたリソ
ース(CPU_B2,CPU_C1,CPU_C2)の
解放を行う。
【0022】次に、具体例を元にして、この実施の形態
の動作について図2および図3を参照して更に詳細に説
明する。図2および図3は、分散ジョブ統合管理システ
ムの動作を更に詳細に説明するフローチャートである。
【0023】マスター分散ジョブ管理システムとして、
Platform Computing Corpor
ation社のLSF(Load Shareing
Fascility)を利用する。LSFは、異機種混
合のネットワーク上の負荷に対し、管理、監視および分
析を行い、複数のコンピュータを1つのシステムとして
統括することでネットワークリソースをより有効に活用
できる。LSFを使用すると、異機種混合のネットワー
クを1つのシステムとして使用することができる。以
下、マスター分散ジョブ管理システムをLSF分散ジョ
ブ管理システムという。
【0024】スレーブ分散ジョブ管理システムとして、
Quickturn DesignSystems社の
分散ジョブ管理システムを利用する。以下、スレーブ分
散ジョブ管理システムをクイックターン分散ジョブ管理
システムという。
【0025】図4は、LSF分散ジョブ管理システムの
ホスト負荷情報を示している。statusはホストの
状態を表しており、okは使用可能を、unavail
は使用不可を表している。r15sは15秒指数平均の
CPU実行キュー長、r1mは1分指数平均のCPU実
行キュー長、r15mは15分指数平均のCPU実行キ
ュー長、utはCPU利用率、pgはメモリページング
率、lsはログインユーザー数、itは、アイドル時間
(分)、tmpは空きテンポラリのディスク容量、sw
pは空きスワップ領域の容量、memは空きメモリ容量
を表している。
【0026】図5は、LSF分散ジョブ管理システムで
管理しているホストの一部を表している。図5では、h
ost74,host72,host64,host8
1,host71,host56,host67,ho
st57がネットワークによって接続されている。
【0027】まず、LSF分散ジョブ管理システム内の
いずれかのホストコンピュータにおいて、この発明に係
る分散ジョブ統合管理システムを構築するプログラムを
必要CPU数を指定して起動する(S100)。図6
に、プログラムを起動するコマンドの一例を示す。最初
の「qjob」は、この発明に係る分散ジョブ統合管理
システムを構築するプログラムのコマンド名であり、1
つ目の引数“4”は必要CPU数を与えている。2つ目
の引数“qtmain.sh”は、クイックターン分散
ジョブ管理システムに与えるスレーブメインコマンド名
を表しており、3つ目の引数“parallel.te
mplate”は、クイックターン分散ジョブ管理シス
テムで使用されるパラレルホストファイルを作成するた
めのパラレルテンプレートファイル名を表している。
【0028】次に、リソース予約部15において、必要
なCPU数分のダミージョブを発行したかを判断し(S
110)、発行していなければ、LSF分散ジョブ管理
システムに対してダミージョブを発行してクイックター
ン分散ジョブ管理システムのためのリソースを予約する
(S120)。
【0029】図7は、LSF分散ジョブ管理システムに
おけるリソースの予約状態を示す図であり、リソース予
約前とリソース予約後を表している。図7において、S
TATは、ジョブの実行状態を表しており、PEND
は、保留中であることを表している。FROM_HOS
Tは、図6に示すコマンドを投入したホストを表してお
り、EXEC_HOSTは、実行ホストを表している。
【0030】リソース予約部15においてダミージョブ
が発行されると、LSF分散ジョブ管理システムは、ダ
ミージョブを発行し(S130)、投入先ホスト名を通
知する(S140)。リソース予約部15において、確
保したCPUのホスト名を受け取り、ホスト名リスト3
0に追加する(S150)。
【0031】図8は、LSF分散ジョブ管理システムか
ら通知されたホスト名を表している。図8では、hos
t67,host71,host56,host67の
4CPU3ホスト(host67では2CPUが予約さ
れている)の通知例が示されている。
【0032】LSF分散ジョブ管理システムから確保し
たCPUのホスト名を受け取り、ホスト名リスト30に
追加すると、リソース割付部16において、ホスト名リ
スト30とパラレルテンプレートファイル31からクイ
ックターン分散ジョブ管理システム用のパラレルホスト
ファイル32を作成する(S160)。
【0033】パラレルテンプレートファイルとは、クイ
ックターン分散ジョブ管理システムにおいて資源を割り
当てるときに用いるテンプレートファイルであり、CP
Uの個数に応じて実際の資源を割り当てるパラレルホス
トファイル作るためのファイルである。
【0034】クイックターン分散ジョブ管理システムで
のジョブは、パラレルホストファイルに従って分散され
る。パラレルホストファイルは、使用するCPUの数に
応じて作らなければならない。CPUの数に関係なく予
め作っておき、そのジョブに対して共通に用意しておく
のが前述のパラレルテンプレートファイルである。
【0035】図9は、クイックターン分散ジョブ管理シ
ステム用のリソース指定情報と、各ホストに処理を割り
当てた状態を示す図である。パラレルホストファイル3
2には図9に示すリソース指定情報が含まれている。h
ost71,host56,host67は、ホスト名
リスト30に追加されたホスト名であり、host71
には、3つの処理top_LM_1,top_LM_
5,top_LM_9が割り当てられ、host56に
は、3つの処理top_LM_2,top_LM_6,
top_LM_10が割り当てられ、host67に
は、CPUが2つなので6つの処理top_LM_3,
top_LM_4,top_LM_7,top_LM_
8,top_LM_11,top_LM_12が割り当
てられている。
【0036】次に、スレーブメインコマンド投入部17
において、スレーブメインコマンドが投入され(S17
0)、クイックターン分散ジョブ管理システムにおい
て、スレーブメインコマンドが実行される(S18
0)。
【0037】次に、スレーブメインコマンド監視部18
において、一定時間ごとにLSF分散ジョブ管理システ
ムにスレーブメインコマンド実行の問い合わせを行い
(S190〜S220)、スレーブコマンドが終了した
ならば、リソース解放部19において、ホスト名リスト
30を用いて全てのダミージョブをKILLし(S23
0)、ダミージョブを終了する(S240)。
【0038】図10は、LSF分散ジョブ管理システム
におけるリソースの解放状態を示す図であり、リソース
解放前とリソース解放後を表している。
【0039】このようにして、この実施の形態は、LS
F分散ジョブ管理システムとクイックターン分散ジョブ
管理システムとの間で、クイックターン分散ジョブ管理
システム側のジョブに必要なネットワークリソースが動
的に割り当てられ、クイックターン分散ジョブ管理シス
テムでジョブが実行されない時間は、LSF分散ジョブ
管理システムから投入された他のジョブがネットワーク
リソースを占有することができる。
【0040】次に、この発明の他の実施の形態について
説明する。
【0041】図11は、この発明の他の実施の形態を示
すLSF分散ジョブ管理システム(マスター)における
ダミージョブ発行までの処理の流れを説明するフローチ
ャートである。
【0042】この実施の形態では、LSF分散ジョブ管
理システム(マスター)に複数のバッチジョブキュー
(図11ではバッチジョブキューAとバッチジョブキュ
ーB)を設定しておく。クイックターン分散ジョブ管理
システム(スレーブ)で処理するジョブの必要CPU数
を指定し(S300)、必要CPU数によりバッチジョ
ブキューを選択し(S310)、ダミージョブを発行す
る(S320)。
【0043】例えば、必要CPU数が5以下のジョブ
は、バッチジョブキューAに投入し、必要CPU数が6
以上のジョブは、バッチジョブキューBを投入する。扱
うデータ規模(LSIのゲート数)の小さいジョブは、
バッチジョブキューAで処理され、扱うデータ規模の大
きいジョブは、バッチジョブキューBで処理されるよう
にジョブを振り分けることができる。
【0044】このように、処理するジョブに応じて、ジ
ョブを異なるバッチジョブキューに振り分けることによ
って全てのジョブの平均スケジュール待ち時間を軽減す
ることができる。
【0045】
【発明の効果】以上説明したように、この発明は、異な
る分散ジョブ管理システム毎にネットワークリソースを
分離する必要がないため、ネットワークリソースを有効
に活用できる。マスター分散ジョブ管理システムとスレ
ーブ分散ジョブ管理システムとの間でスレーブ側のジョ
ブに必要なネットワークリソースを動的に割り当てられ
るため、ネットワークリソースの余裕がある限り、短時
間でスレーブ側のジョブを実行することができる。
【0046】また、この発明は、異種の分散ジョブ管理
システム間で同一のネットワークリソースを共用して、
マスター分散ジョブ管理システムとスレーブ分散ジョブ
管理システム間で動的にネットワークリソースを配分で
きるため、スレーブ分散ジョブ管理システムでジョブが
実行されない時間は、マスター分散ジョブ管理システム
から投入された他のジョブがネットワークリソースを占
有することができる。したがって、ネットワークリソー
スを有効に活用できるため、処理の高速化を図ることが
できる。
【図面の簡単な説明】
【図1】この発明の分散ジョブ統合管理システムの実施
の形態を示すシステム構成図である。
【図2】分散ジョブ統合管理システムの動作を詳細に説
明するフローチャートである。
【図3】分散ジョブ統合管理システムの動作を詳細に説
明するフローチャートである。
【図4】LSF分散ジョブ管理システムのホスト負荷情
報を示す図である。
【図5】LSF分散ジョブ管理システムで管理している
ホストの一部を表す図である。
【図6】プログラムを起動するコマンドの一例を示す図
である。
【図7】LSF分散ジョブ管理システムにおけるリソー
スの予約状態を示す図である。
【図8】LSF分散ジョブ管理システムから通知された
ホスト名を表す図である。
【図9】クイックターン分散ジョブ管理システム用のリ
ソース指定情報と、各ホストに処理を割り当てた状態を
示す図である。
【図10】LSF分散ジョブ管理システムにおけるリソ
ースの解放状態を示す図である。
【図11】この発明の他の実施の形態を示すLSF分散
ジョブ管理システムにおけるダミージョブ発行までの処
理の流れを説明するフローチャートである。
【図12】ネットワーク上で2つの異なる分散ジョブ管
理システムが稼働している場合の従来のシステム構成図
である。
【符号の説明】
1 分散ジョブ統合管理システム 2 マスター分散ジョブ管理システム 3 スレーブ分散ジョブ管理システム 4,23,24 ネットワークリソース 5,15 リソース予約部 6,16 リソース割付部 7,17 スレーブメインコマンド投入部 8,18 スレーブメインコマンド監視部 9,19 リソース解放部 12 LSF分散ジョブ管理システム 13 クイックターン分散ジョブ管理システム 21,22 分散ジョブ管理システム 30 ホスト名リスト 31 パラレルテンプレートファイル 32 パラレルホストファイル

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】ネットワーク上の負荷に対し、複数のコン
    ピュータを1つのシステムとして統括することで、ネッ
    トワークリソースを有効に活用する異種の分散ジョブ管
    理システムの一をマスター、その他をスレーブとし、マ
    スター分散ジョブ管理システムが、各ホスト資源の状況
    を用いて、入力したジョブを処理するリソースの割付け
    を決め、必要に応じてスレーブ分散ジョブ管理システム
    に割り付けるジョブを渡すことを特徴とする分散ジョブ
    統合管理システム。
  2. 【請求項2】前記マスター分散ジョブ管理システムに入
    力したジョブをマスター分散ジョブ管理システムまたは
    スレーブ分散ジョブ管理システムのいずれで処理すべき
    か判断する機能を有することを特徴とする請求項1に記
    載の分散ジョブ統合管理システム。
  3. 【請求項3】前記マスター分散ジョブ管理システム内に
    設けられたマスター側ジョブ待ちキューとスレーブ側ジ
    ョブ待ちキューへ、前記判断によってジョブを選択して
    入力することを特徴とする請求項2に記載の分散ジョブ
    統合管理システム。
  4. 【請求項4】複数の分散ジョブ管理システムを各々負荷
    分散するように統合管理することを特徴とする分散ジョ
    ブ統合管理システム。
  5. 【請求項5】異機種混合のネットワーク上の負荷に対
    し、複数のコンピュータを1つのシステムとして統括す
    ることで、ネットワークリソースを有効に活用する異種
    の分散ジョブ管理システムの一をマスター、その他をス
    レーブとする分散ジョブ管理システムにおいて、 スレーブ分散処理管理システムのジョブに必要なCPU
    数をマスター分散処理管理システムに与えるリソース予
    約部と、 CPU数分のホスト名リストからスレーブ分散ジョブ管
    理システムのリソースを割り付けるリソース割付部と、 スレーブメインコマンドをマスター分散ジョブ管理シス
    テムに対して投入するスレーブメインコマンド投入部
    と、 スレーブメインコマンドの実行をモニタするスレーブメ
    インコマンド監視部と、 スレーブメインコマンドの実行が終了した時点で、マス
    ター分散ジョブ管理システムに対して予約されたリソー
    スの解放を行うリソース解放部と、とを備えることを特
    徴とするマスター・スレーブ型分散ジョブ統合管理シス
    テム。
  6. 【請求項6】異機種混合のネットワーク上の負荷に対
    し、複数のコンピュータを1つのシステムとして統括す
    ることで、ネットワークリソースを有効に活用する異種
    の分散ジョブ管理システムの一をマスター、その他をス
    レーブとする分散ジョブ管理システムの統合管理方法に
    おいて、 スレーブ分散処理管理システムのジョブに必要なCPU
    数をマスター分散処理管理システムに与える手順と、 CPU数分のホスト名リストからスレーブ分散ジョブ管
    理システムのリソースを割り付ける手順と、 スレーブメインコマンドをマスター分散ジョブ管理シス
    テムに対して投入する手順と、 スレーブメインコマンドの実行をモニタする手順と、 スレーブメインコマンドの実行が終了した時点で、マス
    ター分散ジョブ管理システムに対して予約されたリソー
    スの解放を行う手順と、を含むことを特徴とする分散ジ
    ョブ管理システムの統合管理方法。
  7. 【請求項7】ネットワーク上の負荷に対し、複数のコン
    ピュータを1つのシステムとして統 括することで、ネットワークリソースを有効に活用する
    異種の分散ジョブ管理システムの一をマスター、その他
    をスレーブとし、マスターとされた分散ジョブ管理シス
    テムが、各ホスト資源の状況を用いて、入力したジョブ
    を処理するリソースの割付けを決め、必要に応じてスレ
    ーブとした分散ジョブ管理システムに割り付けるジョブ
    を渡す手順を実行させるためのプログラムを記録したコ
    ンピュータ読み取り可能な記録媒体。
JP10374485A 1998-12-28 1998-12-28 分散ジョブ統合管理システム Pending JP2000194674A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP10374485A JP2000194674A (ja) 1998-12-28 1998-12-28 分散ジョブ統合管理システム
US09/472,901 US6438553B1 (en) 1998-12-28 1999-12-28 Distributed job integrated management system and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10374485A JP2000194674A (ja) 1998-12-28 1998-12-28 分散ジョブ統合管理システム

Publications (1)

Publication Number Publication Date
JP2000194674A true JP2000194674A (ja) 2000-07-14

Family

ID=18503931

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10374485A Pending JP2000194674A (ja) 1998-12-28 1998-12-28 分散ジョブ統合管理システム

Country Status (2)

Country Link
US (1) US6438553B1 (ja)
JP (1) JP2000194674A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005276164A (ja) * 2004-02-27 2005-10-06 Sony Corp 情報処理装置、情報処理方法、情報処理システムおよび情報処理用プログラム

Families Citing this family (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6618820B1 (en) 2000-01-10 2003-09-09 Imagex.Com, Inc. Method for configuring an application server system
US6618742B1 (en) 2000-01-10 2003-09-09 Imagex.Com, Inc. Method for job impact learning
US6963897B1 (en) * 2000-03-30 2005-11-08 United Devices, Inc. Customer services and advertising based upon device attributes and associated distributed processing system
US7092985B2 (en) * 2000-03-30 2006-08-15 United Devices, Inc. Method of managing workloads and associated distributed processing system
US20010039497A1 (en) * 2000-03-30 2001-11-08 Hubbard Edward A. System and method for monitizing network connected user bases utilizing distributed processing systems
USRE42153E1 (en) 2000-03-30 2011-02-15 Hubbard Edward A Dynamic coordination and control of network connected devices for large-scale network site testing and associated architectures
US20090216641A1 (en) 2000-03-30 2009-08-27 Niration Network Group, L.L.C. Methods and Systems for Indexing Content
US8010703B2 (en) * 2000-03-30 2011-08-30 Prashtama Wireless Llc Data conversion services and associated distributed processing system
US7092983B1 (en) * 2000-04-19 2006-08-15 Silicon Graphics, Inc. Method and system for secure remote distributed rendering
US7062527B1 (en) 2000-04-19 2006-06-13 Silicon Graphics, Inc. Management and scheduling of a distributed rendering method and system
US7783695B1 (en) * 2000-04-19 2010-08-24 Graphics Properties Holdings, Inc. Method and system for distributed rendering
US7085835B2 (en) * 2001-05-09 2006-08-01 International Business Machines Corporation Apparatus, system and method for subscription computing using spare resources of subscriber computing platforms
JP2003029989A (ja) * 2001-07-16 2003-01-31 Matsushita Electric Ind Co Ltd 分散処理システムおよびジョブ分散処理方法
US7376693B2 (en) * 2002-02-08 2008-05-20 Jp Morgan Chase & Company System architecture for distributed computing and method of using the system
US7103628B2 (en) * 2002-06-20 2006-09-05 Jp Morgan Chase & Co. System and method for dividing computations
US7640547B2 (en) * 2002-02-08 2009-12-29 Jpmorgan Chase & Co. System and method for allocating computing resources of a distributed computing system
US20040019890A1 (en) * 2002-07-23 2004-01-29 Sun Microsystems, Inc., A Delaware Corporation Distributing and executing tasks in peer-to-peer distributed computing
JP2004102449A (ja) 2002-09-05 2004-04-02 Hitachi Ltd ジョブネットワークの設定方法、ジョブネットワークの実行方法、ジョブ管理システム、管理端末、およびプログラム
US7395536B2 (en) * 2002-11-14 2008-07-01 Sun Microsystems, Inc. System and method for submitting and performing computational tasks in a distributed heterogeneous networked environment
JP4393774B2 (ja) * 2003-02-28 2010-01-06 株式会社日立製作所 ジョブ管理方法、情報処理システム、プログラム、及び記録媒体
US20050144184A1 (en) * 2003-10-01 2005-06-30 Dictaphone Corporation System and method for document section segmentation
US7996458B2 (en) * 2004-01-28 2011-08-09 Apple Inc. Assigning tasks in a distributed system
JP2005235019A (ja) * 2004-02-20 2005-09-02 Sony Corp ネットワークシステム、分散処理方法、情報処理装置
EP1738258A4 (en) 2004-03-13 2009-10-28 Cluster Resources Inc SYSTEM AND METHOD IMPLEMENTING OBJECT TRIGGERS
US8427667B2 (en) * 2004-07-22 2013-04-23 Ca, Inc. System and method for filtering jobs
US7886296B2 (en) 2004-07-22 2011-02-08 Computer Associates Think, Inc. System and method for providing alerts for heterogeneous jobs
US9600216B2 (en) * 2004-07-22 2017-03-21 Ca, Inc. System and method for managing jobs in heterogeneous environments
US8028285B2 (en) * 2004-07-22 2011-09-27 Computer Associates Think, Inc. Heterogeneous job dashboard
US7984443B2 (en) * 2004-07-22 2011-07-19 Computer Associates Think, Inc. System and method for normalizing job properties
GB2417580A (en) * 2004-08-26 2006-03-01 Hewlett Packard Development Co Method for executing a bag of tasks application on a cluster by loading a slave process onto an idle node in the cluster
US7624163B2 (en) * 2004-10-21 2009-11-24 Apple Inc. Automatic configuration information generation for distributed computing environment
CA2586763C (en) 2004-11-08 2013-12-17 Cluster Resources, Inc. System and method of providing system jobs within a compute environment
US8346843B2 (en) 2004-12-10 2013-01-01 Google Inc. System and method for scalable data distribution
US9231886B2 (en) 2005-03-16 2016-01-05 Adaptive Computing Enterprises, Inc. Simple integration of an on-demand compute environment
EP3203374B1 (en) 2005-04-07 2021-11-24 III Holdings 12, LLC On-demand access to compute resources
US8972993B2 (en) * 2006-03-01 2015-03-03 Ca, Inc. Method and system for scheduling computer processes using a common scheduling interface
US8291419B2 (en) * 2006-09-26 2012-10-16 International Business Machines Corporation Fault tolerant system for execution of parallel jobs
US7940266B2 (en) * 2006-10-13 2011-05-10 International Business Machines Corporation Dynamic reallocation of processing cores for balanced ray tracing graphics workload
US8347291B2 (en) * 2006-12-29 2013-01-01 Sap Ag Enterprise scheduler for jobs performable on the remote system by receiving user specified values for retrieved job definitions comprising metadata representation of properties of jobs
US20090158276A1 (en) 2007-12-12 2009-06-18 Eric Lawrence Barsness Dynamic distribution of nodes on a multi-node computer system
US11720290B2 (en) 2009-10-30 2023-08-08 Iii Holdings 2, Llc Memcached server functionality in a cluster of data processing nodes
US8615764B2 (en) * 2010-03-31 2013-12-24 International Business Machines Corporation Dynamic system scheduling
US8621473B2 (en) 2011-08-01 2013-12-31 Honeywell International Inc. Constrained rate monotonic analysis and scheduling
US8875146B2 (en) * 2011-08-01 2014-10-28 Honeywell International Inc. Systems and methods for bounding processing times on multiple processing units
US9207977B2 (en) 2012-02-06 2015-12-08 Honeywell International Inc. Systems and methods for task grouping on multi-processors
US9678791B2 (en) * 2012-02-14 2017-06-13 International Business Machines Corporation Shared resources in a docked mobile environment
US9612868B2 (en) 2012-10-31 2017-04-04 Honeywell International Inc. Systems and methods generating inter-group and intra-group execution schedules for instruction entity allocation and scheduling on multi-processors
CN103593274B (zh) * 2013-11-01 2016-09-21 浪潮电子信息产业股份有限公司 一种根据计算机集群资源使用情况动态开关机达到节约功耗的方法
US10120904B2 (en) * 2014-12-31 2018-11-06 Cloudera, Inc. Resource management in a distributed computing environment
US9459933B1 (en) * 2015-01-30 2016-10-04 Amazon Technologies, Inc. Contention and selection of controlling work coordinator in a distributed computing environment
US10802973B1 (en) 2019-07-01 2020-10-13 Bank Of America Corporation Data access tool

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6077258A (ja) 1983-10-05 1985-05-01 Fujitsu Ltd 計算機ネツトワ−クシステムにおける負荷分散処理方式
JPS62219061A (ja) 1986-03-19 1987-09-26 Fujitsu Ltd マルチプロセツサ制御方式
JPS62287361A (ja) 1986-06-06 1987-12-14 Fujitsu Ltd 並列処理の終了判定方式
JPS63286958A (ja) 1987-05-20 1988-11-24 Hitachi Ltd マルチプロセツサシステム
JPH02224169A (ja) 1989-02-27 1990-09-06 Nec Corp 計算機システムの処理分散方式
JPH02275563A (ja) 1989-04-17 1990-11-09 Nippon Telegr & Teleph Corp <Ntt> 情報処理システムにおけるサーバ利用方式
US5481707A (en) * 1991-05-19 1996-01-02 Unisys Corporation Dedicated processor for task I/O and memory management
JPH05233570A (ja) * 1991-12-26 1993-09-10 Internatl Business Mach Corp <Ibm> 異オペレーティング・システム間分散データ処理システム
US5414845A (en) * 1992-06-26 1995-05-09 International Business Machines Corporation Network-based computer system with improved network scheduling system
JPH0659906A (ja) * 1992-08-10 1994-03-04 Hitachi Ltd 並列計算機の実行制御方法
JP3541212B2 (ja) 1993-12-28 2004-07-07 富士通株式会社 プロセッサ割当て装置
JPH08249294A (ja) 1995-03-10 1996-09-27 Hitachi Ltd 並列計算機システム及びプロセッサ数制御方法
JPH09146898A (ja) 1995-11-22 1997-06-06 Hitachi Ltd プロセッサ割当て制御方法
US5689625A (en) * 1995-11-28 1997-11-18 Xerox Corporation Document server for processing a distribution job in a document processing system
US5761396A (en) * 1995-11-28 1998-06-02 Xerox Corporation Document server for processing a distribution job in a document processing system
JPH09259092A (ja) 1996-03-25 1997-10-03 Toshiba Microelectron Corp 複数ワークステーション管理方法
JPH09265363A (ja) * 1996-03-28 1997-10-07 Fuji Xerox Co Ltd 印刷処理装置および方法
US6130757A (en) * 1996-05-21 2000-10-10 Minolta Co., Ltd. Client-server system with effectively used server functions

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005276164A (ja) * 2004-02-27 2005-10-06 Sony Corp 情報処理装置、情報処理方法、情報処理システムおよび情報処理用プログラム
JP4586526B2 (ja) * 2004-02-27 2010-11-24 ソニー株式会社 情報処理装置、情報処理方法、情報処理システムおよび情報処理用プログラム
KR101096308B1 (ko) * 2004-02-27 2011-12-20 소니 주식회사 정보 처리 장치, 정보 처리 방법, 정보 처리 시스템 및 기록 매체
US8413149B2 (en) 2004-02-27 2013-04-02 Sony Corporation Priority based processor reservations

Also Published As

Publication number Publication date
US6438553B1 (en) 2002-08-20

Similar Documents

Publication Publication Date Title
JP2000194674A (ja) 分散ジョブ統合管理システム
TWI239450B (en) Apparatus, computer readable recording medium, and method for yielding to a processor within a logically partitioned data processing system
TWI353525B (en) Apparatus, system, and method for autonomic contro
CN110647394B (zh) 一种资源分配方法、装置及设备
US7810098B2 (en) Allocating resources across multiple nodes in a hierarchical data processing system according to a decentralized policy
US9189268B2 (en) Limiting simultaneous data transfers and efficient throttle management
CN101727357B (zh) 用于分配计算中心中资源的方法和装置
CN100568182C (zh) 在逻辑地分区的数据处理系统内分布工作的方法和系统
US8185907B2 (en) Method and system for assigning logical partitions to multiple shared processor pools
CN100487659C (zh) 用于优化分段资源分配的方法和设备
US7739685B2 (en) Decoupling a central processing unit from its tasks
CN100527119C (zh) 信息处理设备和信息处理方法
US8046759B2 (en) Resource allocation method and system
TW200405206A (en) Virtualization of input/output devices in a logically partitioned data processing system
JP2019121240A (ja) ワークフロースケジューリングシステム、ワークフロースケジューリング方法及び電子機器
AU603876B2 (en) Multiple i/o bus virtual broadcast of programmed i/o instructions
JP2008108261A (ja) 予備計算容量の追加を選択的に制御するシステム及び方法
CN114546587A (zh) 一种在线图像识别服务的扩缩容方法及相关装置
Jones NAS requirements checklist for job queuing/scheduling software
CN114721824A (zh) 一种资源分配方法、介质以及电子设备
US8505019B1 (en) System and method for instant capacity/workload management integration
JPH11120147A (ja) 負荷分散制御方法
JP4057454B2 (ja) ジョブ処理装置およびジョブ処理プログラム
JPH09330241A (ja) デッドロック防止排他制御方式
CN116302059A (zh) 服务器与数据库间的对应关系维护方法、装置和系统