JP5642338B2 - ジョブ管理プログラムおよびジョブ管理方法 - Google Patents

ジョブ管理プログラムおよびジョブ管理方法 Download PDF

Info

Publication number
JP5642338B2
JP5642338B2 JP2008059656A JP2008059656A JP5642338B2 JP 5642338 B2 JP5642338 B2 JP 5642338B2 JP 2008059656 A JP2008059656 A JP 2008059656A JP 2008059656 A JP2008059656 A JP 2008059656A JP 5642338 B2 JP5642338 B2 JP 5642338B2
Authority
JP
Japan
Prior art keywords
job
virtual machine
unit
execution
management
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008059656A
Other languages
English (en)
Other versions
JP2009217474A (ja
Inventor
武俊 吉田
武俊 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2008059656A priority Critical patent/JP5642338B2/ja
Priority to US12/367,294 priority patent/US8584127B2/en
Publication of JP2009217474A publication Critical patent/JP2009217474A/ja
Application granted granted Critical
Publication of JP5642338B2 publication Critical patent/JP5642338B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/485Task life-cycle, e.g. stopping, restarting, resuming execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)
  • Stored Programmes (AREA)
  • Hardware Redundancy (AREA)

Description

本発明は、ジョブの実行管理および前記ジョブを仮想マシン上で実行する物理マシンの計算資源の状態管理をおこなう管理装置と、前記仮想マシンが稼働する物理マシンとを有する情報処理装置にジョブ管理処理を実行させるジョブ管理プログラム、当該情報処理装置およびジョブ管理方法に関する。
従来から、計算機(特に、大型汎用計算機)において、膨大な計算量の演算をおこなう場合に、複数の処理単位から構成されるジョブを実行することによって、演算処理をおこなう。このジョブの処理時間は、数時間から数週間まで至る場合もある。
そのため、何らかの理由によってジョブを中断(以下、チェックポイントと呼ぶ)、再開(以下、リスタートと呼ぶ)せざるを得ない状況が発生する場合があった。中断されたジョブは、必ず再開されなければならないため、中断ジョブの管理および制御が重要であった。
そこで、例えば、大型汎用計算機におけるジョブの中断方法として、一つのジョブのチェックポイントおよびリスタートを、シグナルによっておこなうための機構を提供し、中断ジョブの管理および制御をおこなう仮想計算機データ処理システムにおけるジョブ処理の中断方法が提案されている。
ところで、近年、ネットワーク上に分散して存在するコンピュータ装置を、ネットワークを介した接続によって一体として協働させる、グリッド・コンピューティング・システムと呼ばれる情報処理システムの技術が普及しつつある。
グリッド・コンピューティング・システムは、さらに膨大な計算量の演算を、各コンピュータ装置に負荷分散させて処理をおこなわせることにより、従来の大型汎用計算機と比較して、低コストで短時間に演算処理をおこなうことができる。
しかし、各コンピュータ装置は、当該コンピュータ装置のユーザによって優先的に使用されるため、あるコンピュータ装置がそのユーザによって使用される場合には、当該コンピュータ装置で実行されているジョブの実行を中断せざるを得ない状況となる場合がある。そして、中断ジョブは、リスタートのために管理される必要がある。
そこで、例えば、計算資源である各コンピュータ装置のユーザが、ジョブを実行するコンピュータ装置上の仮想マシンが、チェックポイントおよびリスタートを指示したことを契機として、当該指示をグリッド・コンピューティング・システムの管理装置へ通知する、仮想マシンのための動的なサービス・レジストリが提案されている。
また、グリッド・コンピューティング・システムにおいて、Webサービスを用いたオンラインアプリケーションのチェックポイントおよびリスタートの制御を管理するトポロジ・アウェア・グリッド・サービス・スケジューラ・アーキテクチャが提案されている。
特公平6−64538号公報 特表2006−519423号公報 特開2004−206712号公報
しかしながら、上記従来技術では、次のような問題点があった。すなわち、計算資源がオープンソースなど特定のOS(Operating System)によって稼働している場合は、ジョブのチェックポイントおよびリスタートの管理、制御のジョブ管理をおこなうことが可能であった。
しかし、オープンソース以外のOSでは、ジョブ管理に未対応であるため、ジョブのチェックポイントおよびリスタートの管理、制御をおこなうことができなかった。また、オープンソースのOSであっても、特定のライブラリを組み込む必要があり、ジョブのソースコードがないと、チェックポイントすらおこなえない、という問題があった。
本発明は、上記問題点(課題)を解消するためになされたものであって、グリッド・コンピューティング・システムにおいて、計算資源である各コンピュータ装置のOSに依存せず、チェックポイントおよびリスタートを効率的におこなうことを可能とするジョブ管理プログラム、情報処理装置およびジョブ管理方法を提供することを目的とする。
上述した問題を解決し、目的を達成するため、開示のジョブ管理プログラム、情報処理装置およびジョブ管理方法の一観点において、情報処理装置の管理装置が、ジョブの実行要求が投入または再投入される以前に、計算資源の状態がジョブの実行が可能な状態である物理マシンを選択し、ジョブの実行要求を、物理マシンのOSに依存しない形式で、物理マシンへ投入または再投入し、物理マシンへ投入または再投入されたジョブの実行要求に対応するジョブを、仮想マシンに対して実行するよう投入または再投入することを要件とする。
また、情報処理装置の管理装置が、物理マシンの計算資源の状態が、物理マシンへ投入されたジョブの実行要求に対応するジョブを、仮想マシンにおいて実行継続可能であるか否かを判定し、ジョブを実行継続可能であると判定されなかった場合に、仮想マシンに対して、ジョブの中断を指示し、計算資源の状態がジョブの実行が可能な状態である物理マシンを選択して、選択された物理マシンに対して、ジョブの実行要求を再投入することを要件とする。
開示のジョブ管理プログラム、情報処理装置およびジョブ管理方法によれば、グリッド・コンピューティング・システムにおいて、計算資源であるコンピュータ装置の事情などによって、ジョブの処理が中断されても、他の計算資源であるコンピュータ装置において同一のジョブの実行を継続するので、ジョブ全体の処理時間を短縮することが可能となり、グリッド・コンピューティング・システムのスループットを向上させることができるという効果を奏する。
以下に添付図面を参照し、本発明のジョブ管理プログラム、情報処理装置およびジョブ管理方法にかかる実施形態の一例を詳細に説明する。なお、以下に示す情報処理システムは、インターネットなどの広域ネットワークに分散するコンピュータ装置を協働させ、あたかも1台の高速計算機装置として機能させるグリッド・コンピューティング・システムであるとする。しかし、これに限らず、開示の実施形態は、複数のコンピュータ装置を接続して協働させる並列計算機一般に適用可能である。
なお、以下の実施形態の一例で使用する用語である「親ジョブ」および「子ジョブ」とは、次のようなものである。すなわち、バッチシステムに対して直接投入する、見かけ上の擬似的なジョブを「親ジョブ」と呼ぶ。また、バッチシステムにおいて、投入された「親ジョブ」のジョブ実行命令に応じて投入される実質的なジョブを「子ジョブ」と呼ぶ。
また、「マイグレーション」とは、ジョブ管理において、計算資源であるコンピュータ装置の事情によって、実行しているジョブの中断をせざるを得なくなった場合に、チェックポイントおよびリスタートの一連の処理を指す。特に、以下の実施形態の一例では、リスタートが、他のコンピュータ装置でおこなわれる場合があるため、当該一連の処理を「マイグレーション」と呼ぶ。
先ず、実施形態の一例にかかる情報処理システムの構成について説明する。図1は、実施形態の一例にかかる情報処理システムの構成を示すブロック図である。同図に示すように、実施形態の一例にかかる情報処理システムSは、ネットワークを介して、物理マシンA100と、物理マシンB200と、マスタ装置300と、仮想マシン共有ファイル記憶装置400とが相互通信可能に接続され、一体の計算機装置となっている。
なお、物理マシンA100および物理マシンB200(以下、物理マシン150と総称する)は、情報処理システムSに含まれる、ジョブの実行主体であるコンピュータ装置である。実施形態の一例の説明では、簡単のため、物理マシンA100および物理マシンB200は、実施形態の一例にかかる特徴部分は、同一の構成要件を有し、当該各構成要件は、同一の機能を有するとする。物理マシンB200の各構成要件の符号は、物理マシンA100において同一の構成要件の符号に“100”を加算した数値を付与している。
実施形態の一例にかかる説明では、情報処理システムSは、物理マシンA100および物理マシンB200の2台の物理マシンを有するものとして説明する。しかし、これに限らず、情報処理システムSは、一般には、多数の物理マシンを有する。
また、マスタ装置300は、情報処理システムS全体の制御をつかさどる制御装置である。また、仮想マシン共有ファイル記憶装置400は、情報処理システムS全体で共有され、仮想マシン共有ファイル管理テーブル400aを格納する。なお、実施形態の一例では、仮想マシン共有ファイル記憶装置400は、情報処理システムS内で独立した装置として説明するが、これに限らず、マスタ装置300、または、物理マシン150のうちの代表的な1台の物理マシン150と一体となる構成であってもよい。
物理マシンB200の構成は、物理マシンA100の構成と同一であることを前提としているので、物理マシンA100に代表させて、物理マシン150の構成を説明する。物理マシンA100は、物理マシンA100のBIOS108およびホストOS109上で機能する計算資源管理部101と、親ジョブ実行部102と、マイグレーションフラグファイル記憶部103と、バッチシステム部104とを有する。
計算資源管理部101は、親ジョブ実行部102から送信される子ジョブのバイナリデータ、パラメータおよび子ジョブの実行に必要なファイルを、ゲストOS実行部107上のジョブ管理部107cへ送信して実行要求を行ったり、子ジョブの処理結果を親ジョブ実行部102へ通知したりする。これによって、親ジョブと子ジョブとの実行環境の独立性を実現し、子ジョブの実行OSの選択範囲を拡げることが可能になる。
計算資源管理部101は、ジョブ管理部101aと、仮想マシン管理部101bと、計算資源監視制御部101cとを有する。ジョブ管理部101aは、親ジョブ実行部102からの子ジョブ実行命令に応じて、子ジョブを実行する。また、ジョブ管理部101aは、子ジョブの実行結果を、親ジョブ実行部102に返す。
仮想マシン管理部101bは、仮想マシンの停止や起動を仮想マシン共有ファイル管理テーブル400aの情報をもとにおこなう。これによって、子ジョブに必要な仮想マシンイメージファイルの運用を効率的におこなうことが可能になる。
すなわち、仮想マシン管理部101bは、仮想マシンを実行するためプラットフォームであるゲストOSの起動および仮想マシンの起動をおこない、起動中および停止中の仮想マシンの管理をおこなう。また、仮想マシン管理部101bは、マイグレーションを行う際には、仮想マシン実行部105の停止および起動をおこなう。
さらに、仮想マシン管理部101bは、バッチシステム部104の制御を行う。これらの機能を、親ジョブに実装する場合に比べ、確実かつきめ細かに仮想マシンの管理およびジョブの制御をおこなうことができる。
計算資源監視制御部101cは、マイグレーションの判断情報として、例えば、マウスやキーボードの利用状況、ユーザのログイン/ログオフ状況の情報を、ホストOS109から取得し、マスタ管理部301に通知し、マイグレーションの判断を受けることにより、マイグレーションのポリシーを一元的に効率よく管理できるようになる。
すなわち、計算資源監視制御部101cは、物理マシンA100の計算資源の状況(マウスやキーボードなど入力装置の使用状況、CPU(Central Processing Unit)使用率、メモリ使用率、仮想メモリ使用率など含む)を監視する。特に、ユーザによる物理マシンA100へのログイン操作が、ホストOS109から通知された場合には、物理マシンA100で実行されているジョブの実行を中断させるために、仮想マシン管理部101bに対して、子ジョブ実行部107aの実行を停止させ、仮想マシン実行部105自体の機能を停止させる。
親ジョブ実行部102は、マスタ装置300からの親ジョブ実行命令を受けたバッチシステム部104からの指示に応じて、親ジョブを実行する。親ジョブ実行部102は、実行開始した親ジョブから実行命令される子ジョブの子ジョブIDを、マイグレーションフラグファイル記憶部103のマイグレーションフラグファイルに登録する。
なお、マイグレーションフラグファイルは、図2に例示するように、「子ジョブID」と、「チェックポイントフラグ」と、「マイグレーションフラグ」と、「終了結果」とのカラムを有する。例えば、図2によれば、例えば、子ジョブIDが『z=f』のエントリは、「チェックポイントフラグ」が『0(オフ)』、「マイグレーションフラグ」が『0』、「終了結果」が『正常終了』である。
また、親ジョブ実行部102は、ジョブ管理部101aに対して、親ジョブから実行命令される子ジョブの起動を、ゲストOS管理部107bに対して要求する。そして、ゲストOS管理部107bによって起動された子ジョブ実行部107aによる子ジョブの実行結果を受け取り、バッチシステム部104およびバッチシステム部303を介して、ジョブ生成部302へと通知する。
このようにすると、バッチシステム部104およびバッチシステム部303から見ると、親ジョブ実行部102しか見えないため、子ジョブのチェックポイントやリスタートを、バッチシステムから隠蔽することができ、バッチシステムへの影響を与えることなく、ジョブの制御を効率よくおこなえるようになる。
また、親ジョブ実行部102は、ジョブ管理部101aから、仮想マシン実行部105における子ジョブの実行中止の通知を受けたならば、実行中止された子ジョブIDに該当するマイグレーションフラグファイルのチェックポイントフラグをオンにする。
また、親ジョブ実行部102は、マスタ装置300から、物理マシンA100において、実行が中止されたジョブを、他の物理マシンに委任して実行させると通知された場合に、実行中止された子ジョブIDに該当するマイグレーションフラグファイルのマイグレーションフラグをオンにする。
また、親ジョブ実行部102は、ジョブ管理部101aから、仮想マシン実行部105における子ジョブの実行終了の通知を、実行結果とともに受けたならば、実行終了した子ジョブIDに該当するマイグレーションフラグファイルの実行結果を登録する。
バッチシステム部104は、マスタ装置300のバッチシステム部303から投入されたバッチジョブを解析し、対応する親ジョブを、親ジョブ実行部102に実行させる。また、親ジョブ実行部102から受け取った親ジョブの実行結果を、バッチシステム部303へと受け渡す。
物理マシンA100は、ホストOS109とは異なるOSであるゲストOSを仮想マシンとして起動する仮想マシン実行部105を有する。仮想マシン実行部105は、仮想マシンインタフェース106と、ゲストOS実行部107とを有する。ゲストOS実行部107は、子ジョブ実行部107aと、ゲストOS管理部107bとを有する。さらに、ゲストOS管理部107bは、ジョブ管理部107cを有する。
仮想マシンインタフェース106は、仮想マシン共有ファイル管理テーブル400aに記憶されている仮想マシンイメージファイルを元に、仮想マシンを、ゲストOSとして起動、停止したりするインタフェースである。また、計算資源管理部101の仮想マシン管理部101bの要求に応じて、仮想マシンの制御をおこなう。
ゲストOS実行部107は、仮想マシン実行部105によって実行される仮想マシンである。子ジョブ実行部107aは、実際のジョブである子ジョブの実行をおこなう。子ジョブは、子ジョブ実行部107aで、親ジョブとは別に実行されることにより、実処理を、バッチシステム部104およびバッチシステム部303から隠蔽して実行することができる。また、子ジョブの実行OSであるゲストOSは、ホストOS109に依存しないことから、ホストOSからの制約を受けず、子ジョブの実行OS環境の選択範囲をひろげることが可能になる。
ゲストOS管理部107bは、ホストOS109側との通信や、子ジョブの実行結果をゲストOS上で保持することにより、計算資源管理部101のジョブ管理部101aの支援をおこなう。これによって、ジョブ管理部101aの負荷軽減をおこなうことができる。
ゲストOS管理部107bのジョブ管理部107cは、計算資源管理部101のジョブ管理部101aより、子ジョブを実行するために必要な情報(子ジョブのバイナリデータ、引数、ファイルなど)を受け取り、ゲストOS実行部107上で実行する。
ジョブ管理部107cは、子ジョブの実行が終わり、その実行結果を、ジョブ管理部101aの要求に応じて送信する。若しくは、ジョブ管理部101aの要求以前に子ジョブが終了した場合は、実行結果を保持し、その後の要求に応じて送信する。これによって、親ジョブから独立して子ジョブの実行をおこなうことが可能になり、処理効率を高めることができる。
マスタ装置300は、マスタ管理部301と、ジョブ生成部302と、バッチシステム部303とを有する。マスタ管理部301は、計算資源管理テーブル記憶部301aと、計算資源制御部301bとを有する。
計算資源管理テーブル記憶部301aは、例えば、図3に一例を示すように、マスタ装置300によって管理されるすべての物理マシンの「物理マシンID」、「物理マシンネットワークID」、「チェックポイント状態」を記憶する計算資源管理テーブルを格納する。
「物理マシンID」は、物理マシンを識別するためのIDである。「物理マシンネットワークID」は、当該物理マシンをネットワーク上で識別するための識別子である。また、「チェックポイント状態」は、当該物理マシンで稼働するすべての仮想マシンが子ジョブ実行中若しくは機能が停止されている場合にフラグ『1』が立てられる。これら以外は、フラグ『0』となる。
計算資源制御部301bは、計算資源である各物理マシンから送信されてくる利用情報(キーボードやマウスの利用状況、ユーザのログイン/ログオフなど)に基づき、マイグレーションの実行命令を、当該物理マシンの計算資源管理部101へ送信する。これによって、計算資源である物理マシンの管理ポリシーを効率的に実行できる。
ジョブ生成部302は、マスタ管理部301aから指示された物理マシンへ投入するバッチジョブを生成する。バッチシステム部303は、ジョブ生成部302によって生成されたバッチジョブを、例えば、物理マシンA100のバッチシステム部104へと受け渡す。
仮想マシン共有ファイル記憶装置400に格納される仮想マシン共有ファイル管理テーブル400aは、子ジョブと、当該子ジョブを実行している仮想マシンイメージファイルとの関係を管理するとともに、当該仮想マシンの現在の状態を表す情報(仮想マシン状態)を表し、マイグレーションを効率的におこなうためのデータ構造のテーブルである。
図4に例示するように、仮想マシン共有ファイル管理テーブル400aは、「仮想マシン状態」と、「子ジョブID」と、「仮想マシンID」と、「仮想マシンイメージファイルの保管場所」と、「仮想マシンネットワークID」と、「親ジョブID」とのカラムを有する。
例えば、「仮想マシン状態」が『CHECK(Checkpoint中)』である仮想マシンは、「子ジョブID」が『z=f』の子ジョブが割り当てられており、「仮想マシンID」が『win#1』であり、当該仮想マシンのイメージファイルが『/home/vm1/vm1@mst1』で特定される。また、『仮想マシンネットワークID』は、当該仮想マシンをネットワーク上で一意に識別するための情報であり、「親ジョブID」が『x=a、y=c』であることが示されている。
次に、実施形態の一例にかかる情報処理システムで実行されるジョブ管理処理について説明する。図5は、実施形態の一例にかかる情報処理システムにおいて実行されるジョブ管理処理手順を示すフローチャートである。
なお、以下のジョブ管理処理では、物理マシンA100上の仮想マシンにてジョブがおこなわれ、ジョブのマイグレーションが必要な場合には、物理マシンB200の仮想マシンへと、ジョブのマイグレーションがおこなわれることを前提とする。
しかし、これに限らず、ジョブを実行可能な計算資源の状況である物理マシンを選択して、当該物理マシン上の仮想マシンでジョブを実行し、ジョブのマイグレーションの必要性が発生した場合には、ジョブを実行可能な計算資源の状況である他の物理マシンを選択して、当該他の物理マシン上の仮想マシンで、ジョブを実行させてもよい。
同図に示すように、先ず、マスタ装置300のジョブ生成部302は、マスタ装置300によって管理される計算資源である物理マシンの状態がジョブの実行が可能な状態である物理マシンを選択した上で、親ジョブを生成し、当該親ジョブを、当該物理マシンへ投入または再投入をおこなう(ステップS101)。
続いて、マスタ装置300のバッチシステム部303からの指示に応じて、物理マシンA100のバッチシステム部104は、親ジョブ実行部102に対して、親ジョブの実行をおこなわせる(ステップS102)。
続いて、親ジョブ実行部102は、計算資源管理部101に対して、対応する子ジョブの実行を依頼する(ステップS103)。続いて、仮想マシン管理部101bは、仮想マシン共有ファイル管理テーブル400aを参照して、親ジョブIDに対応する仮想マシンイメージが存在するか否かを判定する(ステップS104)。
親ジョブIDに対応する仮想マシンイメージが存在すると判定された場合に(ステップS104肯定)、ステップS108へ移り、親ジョブIDに対応する仮想マシンイメージが存在すると判定されなかった場合に(ステップS104否定)、ステップS105へ移る。
ステップS105では、仮想マシン管理部101bは、例えば、物理マシンA100において、ゲストOSが起動しているか否かを判定する。物理マシンA100でゲストOSが起動していると判定された場合に(ステップS105肯定)、ステップS107へ移り、物理マシンA100でゲストOSが起動していると判定されなかった場合に(ステップS105否定)、ステップS106へ移る。
ステップS106では、仮想マシン管理部101bは、仮想マシン共有ファイル管理テーブル400aから、ジョブ未割り当ての仮想マシンのイメージファイルを選択して、物理マシンA100において仮想マシンを起動する(仮想マシン実行部105の起動)。
続いて、ステップS107では、計算資源管理部101のジョブ管理部101aは、子ジョブ、パラメータおよびその他必要なファイルを、ゲストOS管理部107bのジョブ管理部107cへ送信する。
そして、ゲストOS管理部107bのジョブ管理部107cは、受信した子ジョブ、パラメータおよびその他必要なファイルを使用して、子ジョブを起動する(以上、ステップS107)。ステップS107が終了すると、ステップS111へ移る。なお、起動された子ジョブは、子ジョブ実行部107aで実行される。
一方、ステップS108では、仮想マシン管理部101bは、仮想マシン共有ファイル管理テーブル400aから、親ジョブIDに対応する仮想マシンイメージを選択して、例えば、物理マシンA100において仮想マシンを起動する。
続いて、計算資源管理部101のジョブ管理部101aは、子ジョブ、パラメータおよびその他必要なファイルを、ゲストOS管理部107bのジョブ管理部107cへ送信する。
そして、ゲストOS管理部107bのジョブ管理部107cは、受信した子ジョブ、パラメータおよびその他必要なファイルを使用して、子ジョブを起動する(以上、ステップS109)。なお、起動された子ジョブは、子ジョブ実行部107aで実行される。
続いて、ジョブ管理部101aは、親ジョブからの子ジョブ起動要求を無視して、子ジョブの終了を待つ(ステップS110)。続いて、計算資源監視制御部101cは、物理マシンA100において、ジョブをマイグレーションすべきイベントが発生したか否かを判定する(ステップS111)。
ジョブをマイグレーションすべきイベントが発生したと判定された場合に(ステップS111肯定)、ステップS112へ移り、ジョブをマイグレーションすべきイベントが発生したと判定されなかった場合に(ステップS111否定)、ステップS116へ移る。
ステップS112では、仮想マシン管理部101bは、マイグレーションすべきイベントが発生した物理マシンA100上の仮想マシンを停止する。続いて、ジョブ管理部101aは、親ジョブ実行部102に対して、マイグレーションによる子ジョブの処理停止を通知する(ステップS113)。
ジョブ管理部101aからの子ジョブの処理停止を通知された親ジョブ実行部102は、バッチシステム部104およびバッチシステム部303を介して、マスタ装置300のジョブ生成部302に、マイグレーションによる子ジョブの処理停止を通知する(ステップS114)。
続いて、計算資源管理部101は、物理マシンA100のバッチシステム部104の機能を停止させる(ステップS115)。この処理が終了すると、ステップS101へ移る。ステップS101では、ジョブ生成部302は、ステップS112で処理が中止された子ジョブに対応する親ジョブを生成し、バッチシステム部303へ再投入する。
一方、ステップS116では、ジョブ管理部101aは、子ジョブ実行部107aから、ゲストOS管理部107bを経由して通知されてきた子ジョブ終了結果を、親ジョブ実行部102へ通知する。
続いて、マスタ装置300のマスタ管理部301は、起動している物理マシン(例えば、物理マシンA100)のジョブ管理部101aからのジョブ処理結果通知を受け取る(ステップS117)。この処理が終了すると、ジョブ管理処理は終了する。
次に、実施形態の一例にかかる並列計算機システムにおけるジョブ管理処理を、シーケンス図を参照して説明する。図6は、実施形態の一例にかかる情報処理システムにおけるジョブ管理処理を示すシーケンス図である。
図6では、ジョブ生成部302は、子ジョブ実行に必要なファイルやパラメータなどを含む親ジョブを生成してバッチシステム部303へ投入し、物理マシンA100のバッチシステム部104で親ジョブが実行される。そして、親ジョブは、子ジョブの起動を、ジョブ管理部101aへ依頼し、ゲストOS実行部107の子ジョブ実行部107aにおいて子ジョブが起動している状態にある(以上、図5における「ジョブ管理処理の通常シーケンス」に相当)。以上を前提として、物理マシンA100に、ユーザがログインしてきたとする。
先ず、物理マシンA100の計算資源監視制御部101cは、ユーザのログインを検知し、マスタ装置300の計算資源制御部301bへ通知する(ステップS201)。計算資源制御部301bは、マイグレーション・ポリシーに従い、物理マシンA100の計算資源監視制御部101cへ、チェックポイントをおこなう要求を送信する(ステップS202)。
チェックポイントの要求を受信した計算資源監視制御部101cは、仮想マシン管理部101bへ、ゲストOSの実行を停止する要求を送信する(ステップS203)。仮想マシン管理部101bは、仮想マシンインタフェース106を介して、仮想マシン実行部105に対して、ゲストOSの実行を停止する要求を通知する。これにっよって、仮想マシン実行部105のゲストOS実行部107の機能が停止される(ステップS204)。
続いて、計算資源監視制御部101cは、親ジョブ実行部102に対して、チェックポイント通知を送信する(ステップS205)。チェックポイント通知を受信した親ジョブ実行部102は、マイグレーションフラグファイルにおいて、チェックポイント状態を示すフラグをオンにしてジョブの実行を終了する(ステップS206)。
上記結果は、バッチシステム部104およびバッチシステム部303を介して、ジョブ生成部302へ通知される(ステップS207、ステップS208、ステップS209)。そして、計算資源監視制御部101cは、バッチシステム部104を停止する(ステップS210)。
そして、計算資源監視制御部101cは、仮想マシン共有ファイル管理テーブル400aにおいて、該当する仮想マシンIDの仮想マシン状態のカラムに、子ジョブID、子ジョブがチェックポイント中である旨を示す“CHECK”などを記述し、同テーブルを更新する(ステップS211)。
ジョブの実行終了の通知を受信したジョブ生成部302は、マイグレーションフラグファイル103aを参照し、チェックポイントを示すフラグがオンであれば、同一親ジョブを、バッチシステム部303へ再投入する(ステップS212)。
ステップS213で、バッチシステム部303へ再投入された親ジョブは、バッチシステム部303によって、別の物理マシンB200に投入される(ステップS214)。こでは、物理マシンA100のバッチシステム部104が停止されており、ジョブの投入が出来ないためである。
物理マシンB200のバッチシステム部204において、再投入された親ジョブが起動されると、子ジョブを起動するために必要なパラメータやファイルを、ホストOS209上で稼働するジョブ管理部207cへ渡す(ステップS215)。
子ジョブを起動するために必要なパラメータやファイルを渡されたジョブ管理部207aは、仮想マシン共有ファイル管理テーブル400aを参照し、子ジョブが含まれる仮想マシンイメージファイルを特定し、対応する仮想マシンを起動するように仮想マシン管理部201bへ通知する(ステップS216)。
そして、仮想マシン管理部201bは、子ジョブIDを元に、仮想マシン共有ファイル管理テーブル400aを参照し、仮想マシンイメージファイルを特定して、対応する仮想マシンを、ゲストOSとして起動する。既に他のゲストOSが起動中であれば、仮想マシン管理部201bは、ゲストOSの起動はおこなわない(以上、ステップS217)。
そして、仮想マシン管理部201bは、ゲストOS上で、子ジョブIDに対応する仮想マシンを起動するように、仮想マシンインタフェース206を介して、仮想マシン実行部205に要求する(以上、ステップS218)。
そして、ジョブ管理部201aは、ゲストOS管理部207bが有するジョブ管理部207cに対して、同一のジョブが既に起動しているか否かを問合せる(ステップS219)。既に、同一のジョブが起動していれば、ジョブ管理部201aは、子ジョブIDのジョブが既に起動していることを、ジョブ管理部207cに対して通知する(ステップS220)。この場合、親ジョブからの子ジョブ起動要求は無視し、子ジョブの終了を待つ。
また、既に子ジョブの処理が終了しているならば、子ジョブ実行部207bは、ゲストOS管理部207bのジョブ管理部207cに保持されているジョブ実行結果を取得する。そして、子ジョブ実行部207bは、子ジョブの処理が終了したことを、ゲストOS管理部207bのジョブ管理部207cへ通知する(ステップS221)。
ジョブ管理部207cは、子ジョブの処理が終了したことを、子ジョブ実行部207bから受信すると、ホストOS209上のジョブ管理部201aへ通知する。ジョブ管理部207cは、子ジョブの処理の終了結果を、親ジョブ実行部202へ通知するとともに、ジョブ管理部201aへ通知する(ステップS222)。
続いて、ジョブ管理部201aは、仮想マシン管理部201bおよび親ジョブ実行部202へ、子ジョブ終了を通知する(ステップS223、ステップS224)。仮想マシン管理部201bは、仮想マシン共有ファイル管理テーブル400aの該当する子ジョブIDを削除する。また、親ジョブ実行部202は、子ジョブ終了通知を通知されると、正常終了状態で子ジョブの処理が終了した旨を、マイグレーションフラグファイル103aに記載する。
そして、親ジョブの終了結果を、バッチシステム部204およびバッチシステム部303を介して、ジョブ生成部302へ通知する(ステップS225、ステップS226、ステップS227)。
以上、本発明の実施形態の一例を説明したが、本発明は、これに限られるものではなく、特許請求の範囲に記載した技術的思想の範囲内で、更に種々の異なる実施形態の一例で実施されてもよいものである。また、実施形態の一例に記載した効果は、これに限定されるものではない。
また、上記実施形態の一例において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記実施形態の一例で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPU(またはMPU(Micro Processing Unit)、MCU(Micro Controller Unit)などのマイクロ・コンピュータ)および当該CPU(またはMPU、MCUなどのマイクロ・コンピュータ)にて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現されてもよい。
以上の実施形態の一例を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)ジョブの実行管理および前記ジョブを仮想マシン上で実行する物理マシンの計算資源の状態管理をおこなう管理装置と、前記仮想マシンが稼働する物理マシンとを有する情報処理システムにおいておこなわれるジョブ管理処理をコンピュータ装置に実行させるジョブ管理プログラムであって、
前記管理装置において、前記物理マシンのOS(Operating System)に依存しない形式で、前記ジョブの実行要求を、前記物理マシンへ投入または再投入するジョブ実行要求投入手順と、
前記物理マシンにおいて、前記ジョブ実行要求投入ステップによって前記物理マシンへ投入または再投入された前記ジョブの実行要求に対応する前記ジョブを実行するように、前記仮想マシンに対して投入または再投入するジョブ投入手順と
を前記コンピュータ装置に実行させることを特徴とするジョブ管理プログラム。
(付記2)前記ジョブ実行要求投入手順によって、前記管理装置に、前記ジョブの実行要求が投入または再投入される前に、前記管理装置によって管理される前記計算資源の状態が前記ジョブの実行が可能な状態である物理マシンを選択する物理マシン選択手順をさらに前記コンピュータ装置に実行させ、
前記ジョブ実行要求投入手順は、前記物理マシン選択手順によって選択された物理マシンへ前記ジョブの実行要求を投入または再投入することを特徴とする付記1に記載のジョブ管理プログラム。
(付記3)前記物理マシン選択手順によって選択された物理マシンにおいて、前記仮想マシンが起動されていない場合に、当該物理マシンに、前記仮想マシンを起動させる仮想マシン起動手順をさらに前記コンピュータ装置に実行させることを特徴とする付記1または2に記載のジョブ管理プログラム。
(付記4)前記ジョブ実行要求投入手順によって前記物理マシンへ投入または再投入された前記ジョブの実行要求に応じて、前記ジョブ投入手順によって前記仮想マシンに投入された前記ジョブの実行結果を、前記仮想マシンに、当該仮想マシンが稼働する前記物理マシンへ出力させるジョブ実行結果出力手順と、
前記ジョブ実行結果出力手順によって前記仮想マシンが稼働する前記物理マシンへ出力された前記ジョブの実行結果を、当該物理マシンに、前記管理装置へ通知させる実行結果通知手順と
を前記コンピュータ装置にさらに実行させることを特徴とする付記1、2または3に記載のジョブ管理プログラム。
(付記5)前記ジョブ投入手順によって前記仮想マシンへ投入または再投入された前記ジョブの実行結果を、当該仮想マシンに保持させる実行結果保持手順さらに含み、
前記ジョブ実行結果出力手順は、前記ジョブ実行要求投入手順によって前記ジョブの実行要求が前記物理マシンへ投入または再投入された際に、前記実行結果保持手順によって保持された前記ジョブの実行結果を、当該物理マシンへと通知することを特徴とする付記4に記載のジョブ管理プログラム。
(付記6)前記管理装置において、前記物理マシンの計算資源の状態が、前記ジョブ実行要求投入ステップによって前記物理マシンへ投入された前記ジョブの実行要求に対応する前記ジョブを、前記仮想マシンにおいて実行継続可能であるか否かを判定する実行継続可能判定手順と、
前記実行継続可能判定手順によって、前記ジョブを実行継続可能であると判定されなかった場合に、前記管理装置に、前記仮想マシンに対して、前記ジョブの中断を指示させる中断指示手順と
を前記コンピュータ装置にさらに実行させることを特徴とする付記1〜5のいずれか一つに記載のジョブ管理プログラム。
(付記7)前記物理マシン選択手順は、前記中断指示手順によって中断を指示された前記ジョブを再投入可能な物理マシンを選択することを特徴とする付記6に記載のジョブ管理プログラム。
(付記8)前記情報処理装置内において、前記ジョブの識別子と、前記仮想マシンのイメージファイルの格納アドレスおよび前記イメージファイルの名称と、前記仮想マシンが稼働する前記物理マシンのネットワーク識別子とを関連付けて共有管理するジョブ共有管理手順を前記コンピュータ装置にさらに実行させることを特徴とする付記1〜7のいずれか一つに記載のジョブ管理プログラム。
(付記9)ジョブの実行管理および前記ジョブを仮想マシン上で実行する物理マシンの計算資源の状態管理をおこなう管理装置と、前記仮想マシンが稼働する物理マシンとを有する情報処理装置であって、
前記管理装置は、前記物理マシンのOS(Operating System)に依存しない形式で、前記ジョブの実行要求を、前記物理マシンへ投入または再投入するジョブ実行要求投入手段を有し、
前記前記物理マシンは、前記ジョブ実行要求投入手段によって前記物理マシンへ投入または再投入された前記ジョブの実行要求に対応する前記ジョブを実行するように、前記仮想マシンに対して投入または再投入するジョブ投入手段を有する
ことを特徴とする情報処理装置。
(付記10)前記管理装置は、前記ジョブ実行要求投入手段によって前記ジョブの実行要求が投入または再投入される前に、前記管理装置によって管理される前記計算資源の状態が前記ジョブの実行が可能な状態である物理マシンを選択する物理マシン選択手段をさらに有し、
前記ジョブ実行要求投入手段は、前記物理マシン選択手段によって選択された物理マシンへ前記ジョブの実行要求を投入または再投入することを特徴とする付記9に記載の情報処理装置。
(付記11)前記物理マシン選択手段によって選択された物理マシンにおいて、前記仮想マシンが起動されていない場合に、当該物理マシンが、前記仮想マシンを起動する仮想マシン起動手段をさらに有することを特徴とする付記9または10に記載の情報処理装置。
(付記12)前記仮想マシンは、前記ジョブ実行要求投入手段によって前記物理マシンに投入または再投入された前記ジョブの実行要求に応じて、前記ジョブ投入手段によって前記仮想マシンに投入された前記ジョブの実行結果を、当該仮想マシンが稼働する前記物理マシンへ出力するジョブ実行結果出力手段を有し、
前記物理マシンは、前記ジョブ実行結果出力手段によって前記仮想マシンが稼働する前記物理マシンへと出力された前記ジョブの実行結果を前記管理装置へ通知する実行結果通知手段を有する
ことを特徴とする付記9、10または11に記載の情報処理装置。
(付記13)前記仮想マシンは、前記ジョブ投入手段によって前記仮想マシンへ投入または再投入された前記ジョブの実行結果を保持する実行結果保持手段をさらに有し、
前記ジョブ実行結果出力手段は、前記ジョブ実行要求投入手段によって前記ジョブの実行要求が前記物理マシンへ投入または再投入された際に、前記実行結果保持手段によって保持される前記ジョブの実行結果を、当該物理マシンへと通知することを特徴とする付記12に記載の情報処理装置。
(付記14)前記管理装置は、
前記物理マシンの計算資源の状態が、前記ジョブ実行要求投入手段によって前記物理マシンへ投入された前記ジョブの実行要求に対応する前記ジョブを、前記仮想マシンにおいて実行継続可能であるか否かを判定する実行継続可能判定手段と、
前記実行継続可能判定手段によって、前記ジョブを実行継続可能であると判定されなかった場合に、前記仮想マシンに対して、前記ジョブの中断を指示する中断指示手段と
をさらに有することを特徴とする付記9〜13のいずれか一つに記載の情報処理装置。
(付記15)前記物理マシン選択手段は、前記中断指示手段によって中断を指示された前記ジョブを再投入可能な物理マシンを選択することを特徴とする付記14に記載の情報処理装置。
(付記16)前記ジョブの識別子と、前記仮想マシンのイメージファイルの格納アドレスおよび前記イメージファイルの名称と、前記仮想マシンが稼働する前記物理マシンのネットワーク識別子とを関連付けて共有管理するジョブ共有管理手段をさらに有することを特徴とする付記9〜15のいずれか一つに記載の情報処理装置。
(付記17)ジョブの実行管理および前記ジョブを仮想マシン上で実行する物理マシンの計算資源の状態管理をおこなう管理装置と、前記仮想マシンが稼働する物理マシンとを有する情報処理装置においておこなわれるジョブ管理方法であって、
前記管理装置が、前記物理マシンのOS(Operating System)に依存しない形式で、前記ジョブの実行要求を、前記物理マシンへ投入または再投入するジョブ実行要求投入ステップと、
前記物理マシンが、前記ジョブ実行要求投入ステップによって前記物理マシンへ投入または再投入された前記ジョブの実行要求に対応する前記ジョブを実行するように、前記仮想マシンに対して投入または再投入するジョブ投入ステップと
を含むことを特徴とするジョブ管理方法。
(付記18)前記管理装置が、前記ジョブ実行要求投入ステップによって前記ジョブの実行要求が投入または再投入される前に、前記管理装置によって管理される前記計算資源の状態が前記ジョブの実行が可能な状態である物理マシンを選択する物理マシン選択ステップをさらに含み、
前記ジョブ実行要求投入ステップは、前記物理マシン選択ステップによって選択された物理マシンへ前記ジョブの実行要求を投入または再投入することを特徴とする付記17に記載のジョブ管理方法。
(付記19)前記物理マシン選択ステップによって選択された物理マシンにおいて、前記仮想マシンが起動されていない場合に、当該物理マシンが、前記仮想マシンを起動する仮想マシン起動ステップをさらに含むことを特徴とする付記17または18に記載のジョブ管理方法。
(付記20)前記ジョブ実行要求ステップによって前記物理マシンへ投入または再投入された前記ジョブの実行要求に応じて、前記ジョブ投入ステップによって前記仮想マシンに投入された前記ジョブの実行結果を、前記仮想マシンが、当該仮想マシンが稼働する前記物理マシンへと出力するジョブ実行結果出力ステップと、
前記ジョブ実行結果出力ステップによって前記仮想マシンが稼働する前記物理マシンへと出力された前記ジョブの実行結果を、当該物理マシンが、前記管理装置へ通知する実行結果通知ステップと
をさらに含むことを特徴とする付記17、18または19に記載のジョブ管理方法。
(付記21)前記ジョブ投入ステップによって前記仮想マシンへ投入または再投入された前記ジョブの実行結果を、当該仮想マシンが保持する実行結果保持ステップさらに含み、
前記ジョブ実行結果出力ステップは、前記ジョブ実行要求投入ステップによって前記ジョブの実行要求が前記物理マシンへ投入または再投入された際に、前記実行結果保持ステップによって保持される前記ジョブの実行結果を、当該物理マシンへと通知することを特徴とする付記20に記載のジョブ管理方法。
(付記22)前記管理装置が、前記物理マシンの計算資源の状態が、前記ジョブ実行要求投入ステップによって前記物理マシンへ投入された前記ジョブの実行要求に対応する前記ジョブを、前記仮想マシンにおいて実行継続可能であるか否かを判定する実行継続可能判定ステップと、
前記実行継続可能判定ステップによって、前記ジョブを実行継続可能であると判定されなかった場合に、前記管理装置が、前記仮想マシンに対して、前記ジョブの中断を指示する中断指示ステップと
をさらに含むことを特徴とする付記17〜21のいずれか一つに記載のジョブ管理方法。
(付記23)前記物理マシン選択ステップは、前記中断指示ステップによって中断を指示された前記ジョブを再投入可能な物理マシンを選択することを特徴とする付記22に記載のジョブ管理方法。
(付記24)前記情報処理装置内において、前記ジョブの識別子と、前記仮想マシンのイメージファイルの格納アドレスおよび前記イメージファイルの名称と、前記仮想マシンが稼働する前記物理マシンのネットワーク識別子とを関連付けて共有管理するジョブ共有管理ステップをさらに含むことを特徴とする付記17〜23のいずれか一つに記載のジョブ管理方法。
実施形態の一例にかかる情報処理システムの構成を示すブロック図である。 実施形態の一例にかかるマイグレーションフラグファイルの一例を示す図である。 実施形態の一例にかかる計算資源管理テーブルの一例を示す図である。 実施形態の一例にかかる仮想マシン共有ファイル管理テーブルの一例を示す図である。 実施形態の一例にかかる情報処理システムにおいて実行されるジョブ管理処理手順を示すフローチャートである。 実施形態の一例にかかる情報処理システムにおけるジョブ管理処理を示すシーケンス図である。
符号の説明
100 物理マシンA
101 計算資源管理部
101a ジョブ管理部
101b 仮想マシン管理部
101c 計算資源監視制御部
102 親ジョブ実行部
103 マイグレーションフラグファイル記憶部
103a マイグレーションフラグファイル
104 バッチシステム部
105 仮想マシン実行部
106 仮想マシンインタフェース
107 ゲストOS実行部
107a 子ジョブ実行部
107b ゲストOS管理部
107c ジョブ管理部
108 BIOS
109 ホストOS
150 物理マシン
200 物理マシンB
201 計算資源管理部
201a ジョブ管理部
201b 仮想マシン管理部
201c 計算資源監視制御部
202 親ジョブ実行部
203 マイグレーションフラグファイル記憶部
204 バッチシステム部
205 仮想マシン実行部
206 仮想マシンインタフェース
207 仮想マシン実行部
207a 子ジョブ実行部
207b ゲストOS管理部
207c ジョブ管理部
208 BIOS
209 ホストOS
300 マスタ装置
301 マスタ管理部
301a 計算資源管理テーブル記憶部
301b 計算資源制御部
302 ジョブ生成部
303 バッチシステム部
400 仮想マシン共有ファイル記憶装置
400a 仮想マシン共有ファイル管理テーブル
S 情報処理システム

Claims (4)

  1. 複数のコンピュータについてのジョブの実行管理を行うジョブ管理プログラムであって、
    前記ジョブの実行要求をコンピュータに依頼し、
    記ジョブの依頼先の前記コンピュータから前記ジョブの終了通知を受けたときに、前記ジョブの依頼先の前記コンピュータが更新した、前記ジョブに関連付けられた前記コンピュータで動作する仮想マシンの状態を示す情報を記憶する記憶部を参照し、前記仮想マシンの状態を示す情報にジョブを中断した情報が含まれているか否かに基づいて終了通知を受けた前記ジョブが再実行すべきジョブか否かを判断し、
    再実行すべきジョブであると判断したときに、前記ジョブの終了通知を受けたコンピュータではないコンピュータに終了通知を受けた前記ジョブの実行要求を依頼する、
    処理を管理装置としてのコンピュータに実行させることを特徴とするジョブ管理プログラム。
  2. 複数のコンピュータについてのジョブの実行管理を行う管理装置が実行するジョブ管理方法であって、
    前記ジョブの実行要求をコンピュータに依頼し、
    記ジョブの依頼先の前記コンピュータから前記ジョブの終了通知を受けたときに、前記ジョブの依頼先の前記コンピュータが更新した、前記ジョブに関連付けられた前記コンピュータで動作する仮想マシンの状態を示す情報を記憶する記憶部を参照し、前記仮想マシンの状態を示す情報にジョブを中断した情報が含まれているか否かに基づいて終了通知を受けた前記ジョブが再実行すべきジョブか否かを判断し、
    再実行すべきジョブであると判断したときに、前記ジョブの終了通知を受けたコンピュータではないコンピュータに終了通知を受けた前記ジョブの実行要求を依頼する、
    処理を含むことを特徴とするジョブ管理方法。
  3. 前記ジョブの実行要求をコンピュータに依頼する際に、当該コンピュータで動作する仮想マシンの状態が、前記ジョブを実行可能な状態であるコンピュータに前記ジョブの実行要求を依頼する
    ことを特徴とする請求項に記載のジョブ管理方法。
  4. 前記ジョブの依頼先の前記コンピュータから、当該コンピュータが前記ジョブの実行結果を記憶する場合に、当該実行結果に基づく前記ジョブの終了通知を受ける
    ことを特徴とする請求項2または3に記載のジョブ管理方法。
JP2008059656A 2008-03-10 2008-03-10 ジョブ管理プログラムおよびジョブ管理方法 Expired - Fee Related JP5642338B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008059656A JP5642338B2 (ja) 2008-03-10 2008-03-10 ジョブ管理プログラムおよびジョブ管理方法
US12/367,294 US8584127B2 (en) 2008-03-10 2009-02-06 Storage medium storing job management program, information processing apparatus, and job management method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008059656A JP5642338B2 (ja) 2008-03-10 2008-03-10 ジョブ管理プログラムおよびジョブ管理方法

Publications (2)

Publication Number Publication Date
JP2009217474A JP2009217474A (ja) 2009-09-24
JP5642338B2 true JP5642338B2 (ja) 2014-12-17

Family

ID=41054949

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008059656A Expired - Fee Related JP5642338B2 (ja) 2008-03-10 2008-03-10 ジョブ管理プログラムおよびジョブ管理方法

Country Status (2)

Country Link
US (1) US8584127B2 (ja)
JP (1) JP5642338B2 (ja)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8239648B2 (en) * 2009-04-13 2012-08-07 Microsoft Corporation Reclamation of thin provisioned disk storage
JP2011198299A (ja) * 2010-03-23 2011-10-06 Fujitsu Ltd プログラム、コンピュータ、通信装置および通信制御システム
US8782434B1 (en) 2010-07-15 2014-07-15 The Research Foundation For The State University Of New York System and method for validating program execution at run-time
US9304867B2 (en) 2010-09-28 2016-04-05 Amazon Technologies, Inc. System and method for providing flexible storage and retrieval of snapshot archives
US8688660B1 (en) 2010-09-28 2014-04-01 Amazon Technologies, Inc. System and method for providing enhancements of block-level storage
US9110600B1 (en) 2012-03-19 2015-08-18 Amazon Technologies, Inc. Triggered data shelving to a different storage system and storage deallocation
US9823840B1 (en) 2012-05-07 2017-11-21 Amazon Technologies, Inc. Data volume placement techniques
US9804993B1 (en) 2012-05-07 2017-10-31 Amazon Technologies, Inc. Data volume placement techniques
US11379354B1 (en) 2012-05-07 2022-07-05 Amazon Technologies, Inc. Data volume placement techniques
US9503517B1 (en) 2012-05-07 2016-11-22 Amazon Technologies, Inc. Data volume placement techniques
US9246996B1 (en) 2012-05-07 2016-01-26 Amazon Technologies, Inc. Data volume placement techniques
US9122873B2 (en) 2012-09-14 2015-09-01 The Research Foundation For The State University Of New York Continuous run-time validation of program execution: a practical approach
US9069782B2 (en) 2012-10-01 2015-06-30 The Research Foundation For The State University Of New York System and method for security and privacy aware virtual machine checkpointing
CN103812823B (zh) 2012-11-07 2017-10-10 华为技术有限公司 虚拟机热迁移时配置信息迁移的方法、设备及系统
US9563385B1 (en) 2013-09-16 2017-02-07 Amazon Technologies, Inc. Profile-guided data preloading for virtualized resources
US10250673B1 (en) 2014-03-14 2019-04-02 Amazon Technologies, Inc. Storage workload management using redirected messages
US10715460B2 (en) 2015-03-09 2020-07-14 Amazon Technologies, Inc. Opportunistic resource migration to optimize resource placement
CN106155812A (zh) 2015-04-28 2016-11-23 阿里巴巴集团控股有限公司 一种对虚拟主机的资源管理的方法、装置、系统及电子设备
CN105589744B (zh) * 2015-08-25 2019-03-15 新华三技术有限公司 一种虚拟机迁移方法及装置
US10452296B1 (en) 2018-03-23 2019-10-22 Amazon Technologies, Inc. Accelerated volumes
US11023157B2 (en) 2018-04-30 2021-06-01 Amazon Technologies, Inc. Intermediary duplication to facilitate copy requests in distributed storage systems
US10459655B1 (en) 2018-04-30 2019-10-29 Amazon Technologies, Inc. Rapid volume backup generation from distributed replica
US10776173B1 (en) 2018-04-30 2020-09-15 Amazon Technologies, Inc. Local placement of resource instances in a distributed system
US11343314B1 (en) 2018-04-30 2022-05-24 Amazon Technologies, Inc. Stream-based logging for distributed storage systems
US10768835B1 (en) 2018-06-27 2020-09-08 Amazon Technologies, Inc. Opportunistic storage service
US11121981B1 (en) 2018-06-29 2021-09-14 Amazon Technologies, Inc. Optimistically granting permission to host computing resources
US11360804B2 (en) * 2018-06-29 2022-06-14 International Business Machines Corporation Resource management for parent child workload
US10956442B1 (en) 2018-07-30 2021-03-23 Amazon Technologies, Inc. Dedicated source volume pool for accelerated creation of block data volumes from object data snapshots
US10931750B1 (en) 2018-07-30 2021-02-23 Amazon Technologies, Inc. Selection from dedicated source volume pool for accelerated creation of block data volumes
US11068192B1 (en) 2019-03-26 2021-07-20 Amazon Technologies, Inc. Utilizing mutiple snapshot sources for creating new copy of volume in a networked environment wherein additional snapshot sources are reserved with lower performance levels than a primary snapshot source
US10983719B1 (en) 2019-03-28 2021-04-20 Amazon Technologies, Inc. Replica pools to support volume replication in distributed storage systems
US11288104B2 (en) * 2019-08-06 2022-03-29 International Business Machines Corporation Automatic dynamic operating system provisioning
US11262918B1 (en) 2020-09-30 2022-03-01 Amazon Technologies, Inc. Data storage system with uneven drive wear reduction
US20220318099A1 (en) * 2021-03-31 2022-10-06 Nutanix, Inc. File analytics systems and methods including retrieving metadata from file system snapshots
US11526286B1 (en) 2021-06-29 2022-12-13 Amazon Technologies, Inc. Adaptive snapshot chunk sizing for snapshots of block storage volumes

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4912628A (en) 1988-03-15 1990-03-27 International Business Machines Corp. Suspending and resuming processing of tasks running in a virtual machine data processing system
JPH11353284A (ja) * 1998-06-10 1999-12-24 Hitachi Ltd ジョブ再実行方法
US6463457B1 (en) * 1999-08-26 2002-10-08 Parabon Computation, Inc. System and method for the establishment and the utilization of networked idle computational processing power
US6694345B1 (en) * 1999-10-05 2004-02-17 International Business Machines Corporatioin External job scheduling within a distributed processing system having a local job control system
JP2001166956A (ja) * 1999-12-06 2001-06-22 Hitachi Ltd 複合システムにおけるジョブスケジューリング方式
JP2003015900A (ja) * 2001-06-28 2003-01-17 Hitachi Ltd 追走型多重化システム、及び追走により信頼性を高めるデータ処理方法
US7103628B2 (en) * 2002-06-20 2006-09-05 Jp Morgan Chase & Co. System and method for dividing computations
US7243352B2 (en) * 2002-11-27 2007-07-10 Sun Microsystems, Inc. Distributed process runner
US7383550B2 (en) 2002-12-23 2008-06-03 International Business Machines Corporation Topology aware grid services scheduler architecture
US7962545B2 (en) 2002-12-27 2011-06-14 Intel Corporation Dynamic service registry for virtual machines
CN1292346C (zh) * 2003-09-12 2006-12-27 国际商业机器公司 用于在分布式计算体系结构中执行作业的系统和方法
US20050060704A1 (en) * 2003-09-17 2005-03-17 International Business Machines Corporation Managing processing within computing environments including initiation of virtual machines
US20050198303A1 (en) * 2004-01-02 2005-09-08 Robert Knauerhase Dynamic virtual machine service provider allocation
US20060070067A1 (en) * 2004-06-03 2006-03-30 Dell Products L.P. Method of using scavenger grids in a network of virtualized computers
JPWO2007108062A1 (ja) 2006-03-17 2009-07-30 富士通株式会社 サーバ管理方法、プログラム及び装置
US8205205B2 (en) * 2007-03-16 2012-06-19 Sap Ag Multi-objective allocation of computational jobs in client-server or hosting environments

Also Published As

Publication number Publication date
JP2009217474A (ja) 2009-09-24
US8584127B2 (en) 2013-11-12
US20090228889A1 (en) 2009-09-10

Similar Documents

Publication Publication Date Title
JP5642338B2 (ja) ジョブ管理プログラムおよびジョブ管理方法
JP5251002B2 (ja) 分散処理プログラム、分散処理方法、分散処理装置、および分散処理システム
KR102027604B1 (ko) 상태 보존형 애플리케이션의 가용성 증가 기법
JP5089380B2 (ja) 仮想マシン・コンピュータ・プログラムの動的マイグレーション
CN103744734A (zh) 一种任务作业处理方法、装置及系统
US9335998B2 (en) Multi-core processor system, monitoring control method, and computer product
US20080263390A1 (en) Cluster system and failover method for cluster system
EP1329809B1 (en) Distributed computing system and method
JP2007018282A (ja) プロセス制御システム及びその制御方法
JP2007207219A (ja) 計算機システムの管理方法、管理サーバ、計算機システム及びプログラム
US10928883B2 (en) System management device
JP4957765B2 (ja) ソフトウェアプログラム実行装置、ソフトウェアプログラム実行方法、及びプログラム
RU2754714C2 (ru) Динамическая деактивация "холодной" базы данных в службе работы с базами данных
JP2009223519A (ja) クラスタシステム及び同システムにおいてマスタノードを選択する方法
JP2007206955A (ja) 情報処理装置および方法、プログラム、並びに記録媒体
US8806500B2 (en) Dynamically setting the automation behavior of resources
JP2008250427A (ja) 情報処理システムに用いられるバージョンアップ装置及び該装置を備えた情報処理システム並びに情報処理システムをバージョンアップするためのプログラム
JP2006277278A (ja) 自律型コンピュータシステムおよびその自動整合方法
Fagg et al. Taskers and general resource managers: PVM supporting DCE process management
JP2016184310A (ja) 情報処理システム、制御装置および情報処理システムの制御方法
JP5786870B2 (ja) 分散システム、装置、方法及びプログラム
JP5637934B2 (ja) 仮想化装置、仮想化装置制御方法、仮想化装置制御プログラム
JP2008129709A (ja) タスク制御方法、データ処理システム、タスク制御プログラム及びその記憶媒体
JP2003022190A (ja) 計算機システムのマルチブート方法、および、マルチブートプログラム
JP5747557B2 (ja) 省電力制御装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101018

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120409

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121002

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121130

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130402

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130702

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20130710

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20130906

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140908

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141029

R150 Certificate of patent or registration of utility model

Ref document number: 5642338

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees