JP4099115B2 - ジョブ実行システム及び実行制御方法 - Google Patents

ジョブ実行システム及び実行制御方法 Download PDF

Info

Publication number
JP4099115B2
JP4099115B2 JP2003194986A JP2003194986A JP4099115B2 JP 4099115 B2 JP4099115 B2 JP 4099115B2 JP 2003194986 A JP2003194986 A JP 2003194986A JP 2003194986 A JP2003194986 A JP 2003194986A JP 4099115 B2 JP4099115 B2 JP 4099115B2
Authority
JP
Japan
Prior art keywords
resource
error
manager host
job
resource manager
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003194986A
Other languages
English (en)
Other versions
JP2005031892A (ja
Inventor
隆博 池田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2003194986A priority Critical patent/JP4099115B2/ja
Publication of JP2005031892A publication Critical patent/JP2005031892A/ja
Application granted granted Critical
Publication of JP4099115B2 publication Critical patent/JP4099115B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Multi Processors (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、ジョブ実行システム及び実行制御方法に係り、特に、情報処理システムにおけるスケジューリングされたジョブの実行システム及び実行制御方法に関する。
【0002】
【従来の技術】
近年の情報処理システムは、無人で業務ジョブを処理するために、時刻予約によるジョブの自動起動、先行ジョブの終了による次に予約した接続ジョブの自動起動等のジョブスケジューリングが行われている。
【0003】
また、情報処理システムとして、1台のマネージャホストを用意し、そのマネージャホストで定義したジョブを、他の複数の実行ホストで実行することができるようにし、さらに、実行結果をマネージャホストで集中管理することができるシステムが知られている。
【0004】
前述のようなジョブ実行システムは、特許文献1等に記載されているように、あるホストで実行していたジョブが、そのホストで実行することができなくなっとき、他のホストで再実行することができる。
【0005】
【特許文献1】
特開平11−353284号公報
【0006】
【発明が解決しようとする課題】
ジョブのスケジュールを行ってジョブの実行を制御する前述した従来技術は、ジョブスケジュールの構築時に、マシン情報、実行ジョブ情報、ジョブ実行条件等を考慮して、スケジューリングを決定するが、その後のシステム運用により、業務データ容量が変更され、各ジョブの実行時間がスケジュール構築時の予想と大きく異なった場合等に、各ホストマシンのCPUに割り当てられているジョブの実行が非効率的なものとなり、システムにスケジューリングされているジョブの処理時間が増大するという問題点を生じさせていた。
【0007】
また、前述した従来技術は、システム運用中に、実行中のホスト内で、メモリやディスクの容量不足等のリソースエラー等、マシントラブルが生じた場合、エラー時に行うジョブを定義しておくことにより、トラブルを回避することができるが、正常なケースのジョブ実行が停止してしまうという問題点を有している。
【0008】
本発明の目的は、前述した従来技術の問題点を解決し、ジョブ実行中のリソースエラーによる業務自体の停止を回避することができるようにしたジョブの実行システム及び実行制御方法を提供することにある。
【0009】
【課題を解決するための手段】
本発明によれば前記目的は、スケジューリングされているジョブ群を実行するジョブ実行システムにおいて、
複数種のリソースを備えてジョブの実行を行う複数のリソースマネージャホストと、ジョブ実行の管理を行う統合マネージャホストとを備え、
前記リソースマネージャホストは、ジョブ実行中のリソースの状況を監視してリソースエラーを検知するリソースエラー検知手段と、前記リソースエラー検知手段により検知されたリソースエラーを、エラーが生じたリソースの種別、エラーの種類を示すエラー種別、エラー発生日時を含む情報として、前記統合マネージャホストに報告するリソースエラー通知手段と、実行することができなくなったジョブの情報、ジョブ実行に必要なメモリ容量、ディスク容量、CPU性能、必要数のアプリケーション名、そのバージョンを含むリソース情報を、前記統合マネージャホストに通知するリソース情報通知手段とを有し、
前記統合マネージャホストは、リソースエラーを報告してきたリソースマネージャホスト以外の他のリソースマネージャホストのそれぞれから各リソースマネージャホストのリソースの状況を取得する取得手段と、該取得手段により取得したリソースエラーを報告してきたリソースマネージャホスト以外の他のリソースマネージャホストのリソースの状況、及び、前記リソースエラーを報告してきたリソースマネージャホストから受け取ったリソース情報により、リソースエラーの報告を行ったリソースマネージャホストで行っていたジョブを実行することが可能な移行先のリソースマネージャホストを決定する手段を有することにより達成される。
【0010】
また、前記目的は、スケジューリングされているジョブ群の実行を制御するジョブ実行制御方法において、複数種のリソースを備えてジョブを実行するリソースマネージャホストからのエラーが生じたリソースの種別、エラーの種類を示すエラー種別、エラー発生日時を含むリソースエラーの報告、及び、実行することができなくなったジョブの情報、ジョブ実行に必要なメモリ容量、ディスク容量、CPU性能、必要数のアプリケーション名、そのバージョンを含むリソース情報の報告を受け、リソースエラーを報告してきたリソースマネージャホスト以外の他のリソースマネージャホストのそれぞれから各リソースマネージャホストのリソースの状況を取得し、取得したリソースエラーの報告を行ったリソースマネージャホスト以外の他のリソースマネージャホストのリソースの状況、及び、前記リソースエラーを報告してきたリソースマネージャホストから受け取ったリソース情報により、リソースエラーの報告を行ったリソースマネージャホストで行っていたジョブを実行することが可能な移行先のリソースマネージャホストを決定することにより達成される。
【0011】
【発明の実施の形態】
以下、本発明によるジョブ実行システム及び実行制御方法の実施形態を図面により詳細に説明する。
【0012】
図1は本発明の一実施形態によるジョブ実行システムの構成を示すブロック図、図2は統合マネージャホストの内部構成を示すブロック図、図3はリソースマネージャホストの内部構成を示すブロック図である。図1〜図3において、10は統合マネージャホスト、20〜40はリソースマネージャホスト、50〜90はリソース、100はPP情報データベース、110はジョブスケジュール実行部、120はジョブ実行部、130はリソースエラー情報受信部、140はリソースエラー情報解読部、150は各リソース使用状況判定部、160はリソース調査部、170はリソース削除依頼部、180はインストール指示部、190はインストール情報送信部、200はジョブスケジュール定義変更部、210はリソースエラー検知部、220はリソースエラー通知部、230はリソース情報通知部、240は命令受け付け部、250はリソース削除部、260はインストール情報受信部、270はインストール実行部である。
【0013】
本発明の実施形態によるジョブ実行システムは、図1に示すように、統合マネージャホスト10と複数のリソースマネージャホスト20〜40とがネットワークを介して接続されて構成されている。リソースマネージャホスト20〜40は、管理対象となるCPU、メモリ、ディスク等の多種のリソース50〜90を含んで、あるいは、接続されて構成され、ジョブの実行を行う。また、統合マネージャホスト10は、リソースマネージャホストで使用するアプリケーション(PP)情報を格納して管理するPP情報データベース100が接続されており、実行すべきジョブのスケジュール管理、ジョブを実行するリソースマネージャホストの管理を行う。
【0014】
統合マネージャホスト10は、図2に示すような各種の機能部を備えて構成されており、次に、これらの機能部のそれぞれについて説明する。
【0015】
ジョブスケジュール実行部110は、すでに定義されているジョブスケジュールを元にそのジョブスケジュールを制御する。
【0016】
ジョブ実行部120は、ジョブスケジュールにより定義されている1つ1つのジョブを実行する。
【0017】
リソースエラー情報受信部130は、リソースマネージャホストから送信されてきたエラー通知を受信する。
【0018】
リソースエラー情報解読部140は、リソースエラー情報受信部130で受け取ったエラー通知を解読する。
【0019】
リソース使用状況判定部150は、ネットワークを介して接続されている全てのリソースマネージャホストのリソース群がどの程度使用されているかを調査し、リソースエラーにより停止しているジョブを行うことのできる移動先のリソースマネージャホストを決定する。
【0020】
リソース調査部160は、ジョブを実行することができる移動先のリソースマネージャホストが決定したら、そのリソースマネージャホストにインストールしなくてはならないPP等の情報や、そのリソースマネージャホストに存在する不要な情報を洗い出す。
【0021】
リソース削除依頼部170は、リソース使用状況判定部150の判定で、どのリソースマネージャホストも、移動先としてジョブの実行を行うことができるだけの余裕がない場合に、各リソースマネージャホストが持つリソースの使用率をみて、解放できそうなリソースを持つリソースマネージャに不要情報の削除の依頼を行う。
【0022】
インストール指示部180は、移動先のリソースマネージャホストにPP情報等のジョブの実行に必要な情報のインストールを依頼する。
【0023】
インストール情報送信部190は、実際にマシンにインストールする情報を、リソースマネージャホストに送信する。
【0024】
ジョブスケジュール定義部200は、ジョブをどのような順番で、どのリソースマネージャホストを使用するか、どの時間帯で実行するかを決定し、ジョブスケジュールテーブルの書き換えを行う。
【0025】
リソースマネージャホストのそれぞれは、図に示すような各種の機能部を備えて構成されており、次に、これらの機能部のそれぞれについて説明する。
【0026】
リソースエラー検知部210は、自リソースマネージャホスト内でのリソースエラーを検知し、リソースエラー通知部220は、取得したリソースエラーの情報を統合マネージャホスト10に対して通知する。
【0027】
リソース情報通知部230は、自リソースマネージャホスト内でどんなリソースがどれだけ不足しているかの情報、及び、ジョブの実行に必要なPP等の情報を統合マネージャホスト10に対し通知する。
【0028】
命令受け付け部240は、統合マネージャホスト10から送信されてきた命令を受け付けて解読する。
【0029】
リソース削除部250は、リソース削除依頼部170から通知された不要と判断された情報によりリソースを解放する。
【0030】
インストール情報受信部260は、ジョブ実行に必要なインストール情報を統合マネージャホスト10から受信し、インストール実行部270は、ジョブ実行に必要な情報をインストールする。
【0031】
次に、前述したように構成されるジョブ実行システムにおけるジョブ実行中のリソースエラーによる業務の停止を回避する処理動作を説明するが、その処理動作を説明する前に、処理の中で必要とするリソースマネージャホストのリソース監視画面、各種データの通信プロトコル、各種データテーブルの構成について図面により説明する。
【0032】
図4はリソースマネージャホストで自ホストのリソースを監視するために用いるリソース監視画面の例を示す図である。この表示画面は、リソースマネージャホストに登録されているそのホストのリソースの使用状況を表示するものであり、図示例は、この画面を表示しているリソースマネージャホストが、リソースA〜Dとして、CPU、メモリ、ディスク、その他を有し、リソースA〜Cがジョブ▲1▼により使用されており、リソースA(CPU)の使用率が30%、リソースB(メモリ)、C(ディスク)をそれぞれ20MB、80MB使用していることを表示している。
【0033】
図5はエラー情報データの通信プロトコルの例を示す図である。このプロトコルは、リソースマネージャホストのリソースエラー通知部220から統合マネージャホスト10にエラー情報を通知するために使用されるもので、データの先頭にこのデータがエラー情報データであることを示すエラーデータ開始のフラグを設定し、それに続いて、エラーが発生したリソースマネージャホスト名、エラー要因となった容量不足等のリソースの種別、どのようなエラーが発生したのかを示すエラー種別、エラーが発生した日時が設定されて構成される。
【0034】
図6はエラー情報データテーブルの構成例を示す図である。エラー情報データテーブルは、統合マネージャホストがリソースマネージャホストから送信されてきた図5に示すエラー情報を切り分けて格納管理するためのものである。どのリソースマネージャホストのどのリソースで、どのようなエラーが起きたのかを切り分けて示し、エラーが発生したリソースマネージャホスト名、エラー要因となった容量不足等のリソースの種別、どのようなエラーが発生したのかを示すエラー種別、エラーが発生した日時が管理される。図示の第1行のレコードの例の場合、リソースマネージャホストAにおいて、Memory1で、Empty となるエラーが日時YYY/MM/DD hh/mm/ddに発生したことを示している。
【0035】
図7はリソース情報データの通信プロトコルの例を示す図である。このリソース情報1000は、リソースエラーを生じたリソースマネージャホストが統合マネージャホストに送信する移動したい(実行中だった)ジョブの情報やジョブ実行に必要なPP情報等のリソース情報である。
【0036】
このリソース情報1000は、データの先頭にこのデータがリソース情報データであることを示すリソースデータ開始のフラグを設定し、それに続いて、送信元リソースマネージャホスト名、実行中であったジョブのID、送信日時が設定され、その後ろに、ジョブ実行に必要なメモリ容量、ディスク容量、推奨CPU性能、PP数、PP名とそのバージョンを付け、最後に、このリソース情報データの後に送信するPPのインストールに必要なレジストリファイルのファイル数、PPの緩急設定に必要な情報のファイル数を付与して構成されている。図示例では、2つのPPのPP名1、2があり、それぞれに、バージョン、レジストリファイルのファイル数、情報のファイル数が設定されている。
【0037】
図8はリソース情報データテーブルの構成例を示す図である。このリソース情報データテーブル1010は、リソースマネージャホストから送信されてきた図7に示すリソース情報を、統合マネージャホスト側で切り分けて、リソース情報データテーブルに格納したものである。
【0038】
図9はパフォーマンス情報データテーブルの構成例を示す図である。このパフォーマンス情報データテーブル1011は、統合マネージャホストが、他に利用可能なリソースマネージャホストのリソースの使用状況を調べ、その結果を格納するものであり、管理対象のリソースマネージャホスト名、リソース数、日時、リソース名、使用率が格納される。図示例では、管理対象のリソースマネージャホスト名HostAが3つのリソースを持ち、日時 2003/02/21 10:30:00の状態で、リソースとしてCPU、MEMORY、DISKを持ち、それぞれ、50%、30%、60%の使用率であることを示している。なお、使用状況を調査する方法は、公知の方法を使用することができる。
【0039】
図10は統合マネージャホスト10に接続されているPP情報データベース100の構成を説明する図である。このPP情報データベース100には、統合マネージャホストが管理しているリソースマネージャホストにインストールしてあるPP名とバージョンとが、各リソースマネージャホスト毎に区別して登録されている。管理対象のリソースマネージャホストに新しくPPがインストールされると、このデータベースに、PP名とバージョンとが逐次登録される。
【0040】
図11はインストール指示の通信プロトコル例を示す図である。インストール指示は、ジョブ実行に必要な情報が足りなくて、そのリソースマネージャホストがジョブ実行可能状態になかった場合に、インストール指示部180が、リソースマネージャホストに送信する指示である。
【0041】
このインストール指示の通信プロトコル1100は、データの先頭にこのデータがインストール指示のデータであることを示すインストール指示データ開始フラグを設定し、それに続いて、インストールするPP名、バージョンNo、このデータの後に送信するインストールに必要なインストール設定ファイルのファイル数、レジストリの設定に必要なレジストリ情報ファイルのファイル数、インストールするPPの環境設定に必要な情報ファイルのファイル数を付加して送信される。
【0042】
図12はインストール情報について説明する図である。このインストール情報1110は、図11により説明したプロトコルによるインストール指示の後に送信する、実際にインストールに必要な情報ファイル群である。これらのファイル群は、インストールを行うインストーラファイルとそのインストーラに必要な情報を記載したインストーラ設定ファイル群、レジストリの設定に必要なレジストリファイル群、インストールPPの環境設定に必要なPP環境設定ファイル群により構成される。
【0043】
図13はリソースの削除依頼の通信プロトコルの例を示す図である。このリソースの削除依頼は、ジョブスケジューリングを再定義して実行可能なリソースマネージャホストを決定した場合に、リソースの不要な情報の削除をリソースマネージャホストに依頼するときに、統合マネージャホストからリソースマネージャホストに送信するものである。そして、このプロトコルは、その先頭に、このデータが削除依頼のデータであることを示す削除依頼開始のフラグが設定され、それに続いて、削除するPP名称、バージョンNoを付与して送信される。
【0044】
図14はリソースマネージャホストでリソースエラーが生じた場合の統合マネージャホストにおけるリソースエラー回避の処理動作を説明するフローチャートであり、次に、これについて説明する。
【0045】
(1)統合マネージャホストは、ジョブの全てが正常に実行されている場合、リソースエラー情報がリソースマネージャホストから送信されてくるのを待ち受ける待機状態にある。リソースエラー情報がリソースマネージャホストから図5により説明した通信データプロトコル900の形で送信されてくると、このエラー情報は、統合マネージャホストのリソースエラー情報受信部130で受け取られる(ステップ300)。
【0046】
(2)リソースエラー情報受信部130は、受信したリソースエラー情報をリソースエラー情報解読部140に渡す。リソースエラー情報解読部140は、どのリソースマネージャホストのどのリソースで、どのようなエラーが起きたのかを切り分け、図6により説明したエラー情報データテーブル910に格納する(ステップ310)。
【0047】
(3)統合マネージャホストは、ステップ310の情報の解読後、再びリソースマネージャホストから送信されてくる移動したい(実行中だった)ジョブの情報やジョブ実行に必要なPP情報等のリソース情報の待ち受け状態になる。そして、統合マネージャホストは、図7により説明したようなリソース情報1000をリソースマネージャホストから受け取ると、リソース情報を切り分けて、図8により説明したリソース情報テーブル1010に格納する。統合マネージャホストは、さらに、リソースマネージャホストから送信されてくるレジストリ情報ファイル、設定情報ファイルを受け取り、それらのファイルをユーザ指定のディレクトリへ一時保存する(ステップ320)。
【0048】
(4)次に、統合マネージャホストは、リソース使用状況判定部150で、各リソースマネージャホストのリソースのパフォーマンス情報を取得(公知の機能を使用)し、図9により説明したようなパーフォーマンステーブルを作成する(ステップ330)。
【0049】
(5)次に、統合マネージャホストは、他に利用することができるリソースマネージャホストを検索する。この検索は、前述したステップ330の処理で作成した図9に示すパフォーマンス情報データテーブル内のリソースとステップ320の処理で内容を格納した図8に示すリソース情報テーブルに格納されている移動したいジョブが必要とするリソースと比較することにより行われる。
【0050】
例えば、リソースマネージャホストAで実行されていたジョブ▲1▼をリソースマネージャホストBに移すことが可能かを調べるものとする。ジョブ▲1▼が必要とするリソースとしてのメモリの最大容量は、図8に示しているように71MBであり、リソースマネージャホストBのリソース使用率におけるメモリの使用率は、図9に示しているように50%である。このため、リソースマネージャホストBが備えているメモリの容量の残量、この場合50%の残容量が71MB以上あるか否かを調べる。同様に、ジョブ▲1▼が必要とするリソースとしてのディスク容量は、図8に示しているように1GBであり、2つのディスクを持つリソースマネージャホストBのリソース使用率におけるディスクの使用率は、図9に示しているように、それぞれ40%、70%である。このため、リソースマネージャホストBが備えている2つのディスクの容量の残量、この場合60%、30%の残容量の何れか一方の残容量が1GB以上あるか否かを調べる。
【0051】
全てのリソースについて前述したような比較を行い、この比較の結果、移動したいジョブが必要とするリソースより使用可能容量が大きいリソースを有する他のリソースマネージャホストを発見した場合、使用可能リソースマネージャホスト発見とし、発見できなかった場合、使用可能リソースマネージャホストなしと判定する(ステップ340)。
【0052】
(6)ステップ340の判定で、他に利用できるリソースマネージャホストを発見できなかった場合、統合マネージャホストは、ジョブスケジュールを組み直して、組み直した結果、実行順序が遅いジョブの実行を行うリソースマネージャホストを実行可能なリソースマネージャホストとして決定する。なお、ジョブスケジュールの組み直しは、公知の手段を使用して行うことができる(ステップ350、360)。
【0053】
(7)ステップ360の処理後、または、ステップ340の判定で、他に利用できるリソースマネージャホストを発見できた場合、リソース調査部160は、ジョブを実行する対象リソースマネージャホストに、ジョブ実行に必要なPP情報等が存在するか、その対象リソースマネージャホストに不要な情報はないか等、そのリソースマネージャホストがジョブ実行可能状態であるか否かを調査する。必要なPP等の調査は、図10により説明した統合マネージャホストに接続されているPP情報データベース100に登録されている管理対象のリソースマネージャホストのPP情報101を元に、図8に示したリソース情報の必要PP名を比較することにより行う(ステップ370)。
【0054】
(8)ステップ370の調査での管理対象リソースマネージャホストのPP情報に必要PPが登録されているか等の結果により、そのリソースマネージャホストがジョブ実行可能状態か否かを判定する。すなわち、管理対象リソースマネージャホストのPP情報に必要PPが登録されていた場合、そのリソースマネージャホストがジョブ実行可能状態であると判定し、登録れていなかった場合、ジョブ実行可能状態にないと判定する。そして、そのリソースマネージャホストが実行可能状態になかった場合、ジョブ実行に必要な情報が足りないのか、後回しになったジョブが使用していたリソースがあり、その結果として必要なリソースが足りないのかを判定する(ステップ380)。
【0055】
(9)ステップ380の判定で、ジョブ実行に必要な情報が足りないで、そのリソースマネージャホストがジョブ実行可能状態になかった場合、インストール指示部180は、図11により説明したようなインストール指示通信プロトコル1100を作成し、リソースマネージャホストに送信する(ステップ390)。
【0056】
(10)続いて、インストール情報送信部190は、ユーザ指定のディレクトリに保存してある図12により説明したような必要PPのインストーラや設定ファイル群であるインストール情報1110をリソースマネージャに送信する。その後、ステップ370からの処理に戻って、再びリソース調査からの処理を続ける(ステップ400)。
【0057】
(11)ステップ380の判定で、後回しになったジョブが使用していたリソースがあり、その結果として必要なリソースが足りないで、そのリソースマネージャホストがジョブ実行可能状態になかった場合、すなわち、ステップ340の判定で、実行可能なリソースマネージャホストを発見することができずに、ジョブスケジューリングを再定義することにより、実行可能なリソースマネージャホストを決定した場合、リソース削除依頼部170は、そのリソースマネージャホストにリソース削除の依頼を行う。ここでは、図13に示したようなリソースの不要な情報の削除依頼プロトコル1200を作成して、リソースマネージャホストに送信する。削除して欲しいPP情報の決定は、ステップ350、ステップ360の処理で決定された後回しになったジョブのPP情報を削除対象PPとする。その後、ステップ370からの処理に戻って、再びリソース調査からの処理を続ける(ステップ410)。
【0058】
(12)ステップ380の判定で、そのリソースマネージャホストがジョブ実行可能状態にあると判断された場合、ジョブスケジュール定義変更部200は、ジョブスケジュールを組み直し、ジョブ実行部120は、ジョブの実行を再開する。ジョブスケジュールの組み直し、及び、ジョブ実行は、公知の手段により行うことができる(ステップ420、430)。
【0059】
図15は前述したステップ350の処理で行われるジョブスケジュールの組み直しの例について説明する図であり、次に、これについて説明する。
【0060】
図15(a)に600として示すように、ジョブ▲1▼、▲2▼が同一のあるいは異なるリソースマネージャホストで実行され、いま、ジョブ▲3▼、▲4▼、▲5▼が異なるリソースマネージャホスト上で実行中であるとし、この状態で、ジョブ▲3▼を実行中のリソースマネージャホストでリソースエラーが生じたとする。そして、このときに、ステップ350のジョブスケジュールの組直しの処理に移行して、ジョブスケジュールの組み直しを行うと、実行順序が遅くてもかまわないジョブ▲5▼を実行しているリソースマネージャホストにジョブ▲3▼を移動して実行させる。すなわち、ジョブ▲5▼を実行しているリソースマネージャホストは、ジョブ▲5▼の実行に必要であったリソースが不要となり、このジョブ▲5▼に実行に必要であったリソースを使用することにより、ジョブ▲3▼の処理を実行することが可能となる。ジョブ▲5▼は、ジョブ▲3▼か、ジョブ▲4▼の実行後に実行するようにスケジュールすることになるが、ジョブ▲4▼がすでに実行中であるため、ジョブ▲4▼はジョブ▲3▼より先にその処理が終了することになる。このため、ジョブ▲5▼は、ジョブ▲4▼の実行中であるリソースマネージャホストに移動する。このような、ジョブスケジュールの組み直しにより、ジョブスケジュール変更後のスケジュールは、図15(b)に601として示すようなものとなる。なお、図15(a)で最後に実行されればよいとされていたジョブ▲6▼は、図15(b)に示す組み直しの場合にも最後に行われるようにされる。
【0061】
図16はリソースマネージャホストでリソースエラーが生じた場合のリソースマネージャホストにおけるリソースエラー回避の処理動作を説明するフローチャートであり、次に、これについて説明する。ここでの処理は、自リソースマネージャホストでリソースエラーを生じた場合、及び、他のリソースマネージャホストでリソースエラーを生じた場合の両者の処理を含むものである。
【0062】
(1)各リソースマネージャホストは、自ホスト内のリソースを監視している。いま、図1に示すリソースマネージャホストA20において、リソースA−1でリソース不足が発生したものとする。この場合、リソースマネージャホストのリソースエラー検知部210(図4により説明したリソース監視画面)は、そのリソース不足エラーを検知する。このエラー検知は、公知の手段により行うことができ、各リソースに使用率のしきい値(ユーザ設定)を設け、それを越えた場合にエラーとみなすこととして行う(ステップ500)。
【0063】
(2)リソースエラー検知部210がリソースエラーを検知すると、リソースマネージャホストのリソースエラー情報通知部220は、統合マネージャホストにリソースエラーが起きたことを通知する。この通知は、図5により説明したエラー情報データ通信プロトコル900を作成し、これを統合マネージャホストに送信することにより行われる(ステップ510)。
【0064】
(3)次に、リソースマネージャホストは、実行することができなくなったジョブの情報や、ジョブ実行に必要なPP情報等のリソース情報を、リソース情報通知部230から統合マネージャホストに通知する。この通知は、図7により説明したように、リソース情報通信プロトコルを作成して送信し、その後、必要PPのレジストリ情報からレジストリ情報ファイルを作成し、さらに、PPの設定が定義してあるファイルをコピーし、これらのファイル群を、リソース情報通知後に、続けて統合マネージャホストに転送することにより行われる(ステップ520)。
【0065】
ステップ520の処理の後、リソースエラーを発生したリソースマネージャホストは、統合マネージャホスト側からの命令を待ち受ける状態となる。また、リソースエラーを発生しなかったリソースマネージャホストは、リソースの監視を行いながら統合マネージャホスト側からの命令を待ち受ける状態となっている。
【0066】
(4)リソースマネージャホストの命令受け付け部240は、統合マネージャホストから送信された命令を受信すると、その命令が「リソース削除依頼」であるか、「インストール指示」であるか、「ジョブ実行」であるかに切り分ける(ステップ530)。
【0067】
(5)ステップ530で受信した命令がインストール指示であった場合、インストール情報受信部260は、次に送られてくるインストール情報を受信し、インストール実行部270が、そのインストール情報をマシン内にインストールする。その後、再び、命令待ち受け状態となる(ステップ550、560)。
【0068】
(6)ステップ530で受信した命令がリソース削除依頼であった場合、リソース削除部250は、送られてきた削除依頼データで指定してある不要な情報を削除し、その後、再び、命令待ち受け状態となる(ステップ540)。
【0069】
(7)ステップ530で受信した命令がジョブ実行であった場合、そのリソースマネージャホストは、ジョブの実行を開始し、また、実行中に使用する各リソースの監視を開始する(ステップ570)。
【0070】
前述した本発明の実施形態における各処理は、処理プログラムとして構成することができ、この処理プログラムは、HD、DAT、FD、MO、DVD−ROM、CD−ROM等の記録媒体に格納して提供することができる。
【0071】
前述した本発明の実施形態によれば、ジョブ実行中にリソースエラーを発生させたリソースマネージャホストは、統合マネージャホストに対して、リソースエラーの発生を報告し、他のリソースマネージャホスト実行中のジョブを移すことができるので、リソースエラーによる業務停止を回避することができる。
【0072】
前述した本発明の実施形態は、リソースマネージャホストでリソースエラーが発生した場合を例として説明したが、本発明は、リソースマネージャホストのリソース以外の他の機能に障害が発生して、そのリソースマネージャホストでジョブの実行を行うことができなくなった場合にも適用することができる。この場合、統合マネージャホストが、リソースマネージャホストとの間で通信を行うことができなくなったことを検出して対応すればよい。
【0073】
【発明の効果】
以上説明したように本発明によれば、ジョブ実行中にそのジョブを実行しているリソースマネージャホストでリソースエラーが発生した場合にも、業務停止を回避することができる。
【図面の簡単な説明】
【図1】本発明の一実施形態によるジョブ実行システムの構成を示すブロック図である。
【図2】統合マネージャホストの内部構成を示すブロック図である。
【図3】リソースマネージャホストの内部構成を示すブロック図である。
【図4】リソースマネージャホストで自ホストのリソースを監視するために用いるリソース監視画面の例を示す図である。
【図5】エラー情報データの通信プロトコルの例を示す図である。
【図6】エラー情報データテーブルの構成例を示す図である。
【図7】リソース情報データの通信プロトコルの例を示す図である。
【図8】リソース情報データテーブルの構成例を示す図である。
【図9】パフォーマンス情報データテーブルの構成例を示す図である。
【図10】統合マネージャホストに接続されているPP情報データベースの構成を説明する図である。
【図11】インストール指示の通信プロトコル例を示す図である。
【図12】インストール情報について説明する図である。
【図13】リソースの削除依頼の通信プロトコルの例を示す図である。
【図14】リソースマネージャホストでリソースエラーが生じた場合の統合マネージャホストにおけるリソースエラー回避の処理動作を説明するフローチャートである。
【図15】ジョブスケジュールの組み直しの例について説明する図である。
【図16】リソースマネージャホストでリソースエラーが生じた場合のリソースマネージャホストにおけるリソースエラー回避の処理動作を説明するフローチャートである。
【符号の説明】
10 統合マネージャホスト
20〜40 リソースマネージャホスト
50〜90 リソース
100 PP情報データベース
110 ジョブスケジュール実行部
120 ジョブ実行部
130 リソースエラー情報受信部
140 リソースエラー情報解読部
150 各リソース使用状況判定部
160 リソース調査部
170 リソース削除依頼部
180 インストール指示部
190 インストール情報送信部
200 ジョブスケジュール定義変更部
210 リソースエラー検知部
220 リソースエラー通知部
230 リソース情報通知部
240 命令受け付け部
250 リソース削除部
260 インストール情報受信部
270 インストール実行部

Claims (6)

  1. スケジューリングされているジョブ群を実行するジョブ実行システムにおいて、
    複数種のリソースを備えてジョブの実行を行う複数のリソースマネージャホストと、ジョブ実行の管理を行う統合マネージャホストとを備え、
    前記リソースマネージャホストは、ジョブ実行中のリソースの状況を監視してリソースエラーを検知するリソースエラー検知手段と、前記リソースエラー検知手段により検知されたリソースエラーを、エラーが生じたリソースの種別、エラーの種類を示すエラー種別、エラー発生日時を含む情報として、前記統合マネージャホストに報告するリソースエラー通知手段と、実行することができなくなったジョブの情報、ジョブ実行に必要なメモリ容量、ディスク容量、CPU性能、必要数のアプリケーション名、そのバージョンを含むリソース情報を、前記統合マネージャホストに通知するリソース情報通知手段とを有し、
    前記統合マネージャホストは、リソースエラーを報告してきたリソースマネージャホスト以外の他のリソースマネージャホストのそれぞれから各リソースマネージャホストのリソースの状況を取得する取得手段と、該取得手段により取得したリソースエラーを報告してきたリソースマネージャホスト以外の他のリソースマネージャホストのリソースの状況、及び、前記リソースエラーを報告してきたリソースマネージャホストから受け取ったリソース情報により、リソースエラーの報告を行ったリソースマネージャホストで行っていたジョブを実行することが可能な移行先のリソースマネージャホストを決定する手段を有することを特徴とするジョブ実行システム。
  2. スケジューリングされているジョブ群の実行を制御するジョブ実行制御方法において、複数種のリソースを備えてジョブを実行するリソースマネージャホストからのエラーが生じたリソースの種別、エラーの種類を示すエラー種別、エラー発生日時を含むリソースエラーの報告、及び、実行することができなくなったジョブの情報、ジョブ実行に必要なメモリ容量、ディスク容量、CPU性能、必要数のアプリケーション名、そのバージョンを含むリソース情報の報告を受け、リソースエラーを報告してきたリソースマネージャホスト以外の他のリソースマネージャホストのそれぞれから各リソースマネージャホストのリソースの状況を取得し、取得したリソースエラーの報告を行ったリソースマネージャホスト以外の他のリソースマネージャホストのリソースの状況、及び、前記リソースエラーを報告してきたリソースマネージャホストから受け取ったリソース情報により、リソースエラーの報告を行ったリソースマネージャホストで行っていたジョブを実行することが可能な移行先のリソースマネージャホストを決定することを特徴とするジョブ実行制御方法。
  3. 前記移行先のリソースマネージャホストで不足するアプリケーションの情報として、アプリケーションのインストールに必要なバージョン、レジストリファイル数、情報のファイル数を移行先のリソースマネージャホストに送信してインストールさせることを特徴とする請求項2記載のジョブ実行制御方法。
  4. 前記リソースの状況から移行先のリソースマネージャホストを決定することができない場合、ジョブスケジュールの変更を行って移行先のリソースマネージャホストを決定することを特徴とする請求項2または3記載のジョブ実行制御方法。
  5. 前記移行先のリソースマネージャホストのリソースに不要な情報がある場合、それらを削除させることを特徴とする請求項2、3または4記載のジョブ実行制御方法。
  6. スケジューリングされているジョブ群の実行を制御するために統合マネージャホストに実行させるジョブ実行制御プログラムにおいて、
    複数種のリソースを備えてジョブを実行するリソースマネージャホストからのエラーが生じたリソースの種別、エラーの種類を示すエラー種別、エラー発生日時を含むリソースエラーの報告、及び、実行することができなくなったジョブの情報、ジョブ実行に必要なメモリ容量、ディスク容量、CPU性能、必要数のアプリケーション名、そのバージョンを含むリソース情報の報告を受け付ける処理ステップと、
    リソースエラーを報告してきたリソースマネージャホスト以外の他のリソースマネージャホストのそれぞれから各リソースマネージャホストのリソースの状況を取得する処理ステップと、
    取得したリソースエラーの報告を行ったリソースマネージャホスト以外の他のリソースマネージャホストのリソースの状況、及び、前記リソースエラーを報告してきたリソースマネージャホストから受け取ったリソース情報により、リソースエラーの報告を行ったリソースマネージャホストで行っていたジョブを実行することが可能な移行先のリソースマネージャホストを決定する処理ステップとを有し、前記各処理ステップを前記統合マネージャホストに実行させることを特徴とするジョブ実行制御プログラム。
JP2003194986A 2003-07-10 2003-07-10 ジョブ実行システム及び実行制御方法 Expired - Fee Related JP4099115B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003194986A JP4099115B2 (ja) 2003-07-10 2003-07-10 ジョブ実行システム及び実行制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003194986A JP4099115B2 (ja) 2003-07-10 2003-07-10 ジョブ実行システム及び実行制御方法

Publications (2)

Publication Number Publication Date
JP2005031892A JP2005031892A (ja) 2005-02-03
JP4099115B2 true JP4099115B2 (ja) 2008-06-11

Family

ID=34205961

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003194986A Expired - Fee Related JP4099115B2 (ja) 2003-07-10 2003-07-10 ジョブ実行システム及び実行制御方法

Country Status (1)

Country Link
JP (1) JP4099115B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5317010B2 (ja) * 2006-11-24 2013-10-16 日本電気株式会社 仮想マシン配置システム、仮想マシン配置方法、プログラム、仮想マシン管理装置およびサーバ装置
WO2008152687A1 (ja) * 2007-06-11 2008-12-18 Fujitsu Limited ワークフロー定義変更プログラム、ワークフロー定義変更方法およびワークフロー定義変更装置
JP5229223B2 (ja) * 2007-06-11 2013-07-03 富士通株式会社 ワークフロー定義変更プログラムおよびワークフロー定義変更方法
JP6152675B2 (ja) 2013-03-27 2017-06-28 富士通株式会社 ワークフロー制御プログラム、装置および方法
WO2014192132A1 (ja) * 2013-05-31 2014-12-04 株式会社日立製作所 負荷分散装置及び方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05257719A (ja) * 1992-03-12 1993-10-08 Chubu Nippon Denki Software Kk システム資源利用状況監視方式
JP2001014286A (ja) * 1999-06-29 2001-01-19 Hitachi Ltd 並列計算機での負荷分散制御方法
JP2001155003A (ja) * 1999-11-30 2001-06-08 Ntt Comware Corp サービス復旧システムおよびその記録媒体

Also Published As

Publication number Publication date
JP2005031892A (ja) 2005-02-03

Similar Documents

Publication Publication Date Title
JP5018133B2 (ja) ジョブ管理装置、クラスタシステム、およびジョブ管理プログラム
US6178452B1 (en) Method of performing self-diagnosing and self-repairing at a client node in a client/server system
US7856496B2 (en) Information gathering tool for systems administration
US7802128B2 (en) Method to avoid continuous application failovers in a cluster
US5941996A (en) Distributed network agents
US7062676B2 (en) Method and system for installing program in multiple system
JP4321705B2 (ja) スナップショットの取得を制御するための装置及び記憶システム
US8214823B2 (en) Cluster system, process for updating software, service provision node, and computer-readable medium storing service provision program
US6816860B2 (en) Database load distribution processing method and recording medium storing a database load distribution processing program
US7698251B2 (en) Fault tolerant facility for the aggregation of data from multiple processing units
EP1357465A2 (en) Storage system having virtualized resource
JP4327831B2 (ja) ストレージシステム、管理計算機及びコピーペア監視方法
JP2005031771A (ja) ジョブスケジューリング管理方法及びシステム並びにプログラム
JP2005258847A (ja) フェイルオーバクラスタシステム及びフェイルオーバ方法
JP3062155B2 (ja) 計算機システム
US9629928B1 (en) Hash-based inventory identification
US6266697B1 (en) System automatically maintaining client under control of client, and a recording medium therefor
JP4099115B2 (ja) ジョブ実行システム及び実行制御方法
US9032014B2 (en) Diagnostics agents for managed computing solutions hosted in adaptive environments
JP5154843B2 (ja) クラスタシステム、計算機、および障害回復方法
KR101692964B1 (ko) 프로비저닝 장치 및 그 방법
WO2006043322A1 (ja) サーバ管理プログラム、サーバ管理方法、およびサーバ管理装置
JP3992029B2 (ja) オブジェクト管理方法
JP3995023B2 (ja) オブジェクト管理方法
JP4703681B2 (ja) クラスタシステム及び引き継ぎ先ノード決定方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050812

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061212

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070213

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070626

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070824

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20070831

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080304

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080314

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110321

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110321

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120321

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130321

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130321

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees