JP2011186606A - コンピュータシステム、およびそのチェックポイントリスタート方法 - Google Patents

コンピュータシステム、およびそのチェックポイントリスタート方法 Download PDF

Info

Publication number
JP2011186606A
JP2011186606A JP2010049182A JP2010049182A JP2011186606A JP 2011186606 A JP2011186606 A JP 2011186606A JP 2010049182 A JP2010049182 A JP 2010049182A JP 2010049182 A JP2010049182 A JP 2010049182A JP 2011186606 A JP2011186606 A JP 2011186606A
Authority
JP
Japan
Prior art keywords
node number
job
management information
restart
conversion table
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010049182A
Other languages
English (en)
Other versions
JP5672521B2 (ja
Inventor
Aoi Kawahara
葵 川原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010049182A priority Critical patent/JP5672521B2/ja
Publication of JP2011186606A publication Critical patent/JP2011186606A/ja
Application granted granted Critical
Publication of JP5672521B2 publication Critical patent/JP5672521B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Retry When Errors Occur (AREA)
  • Hardware Redundancy (AREA)

Abstract

【課題】NUMAシステムにおけるチェックポイントリスタート機能として、リスタート時に、プロセスの復元を任意の2つ以上のノードを指定して行うことができるシステムを提供する。
【解決手段】論理ノード番号と物理ノード番号との対応関係を示すノード番号変換テーブルを含むジョブ管理情報を記憶する手段と、前記論理ノード番号を含むプロセス管理情報を記憶する手段と、前記各情報を取得してリスタートファイルを作成する手段と、リスタートファイルから前記各情報を復元する手段と、リスタート要求時に、前記復元したノード番号変換テーブルを更新する手段と、前記復元した前記論理ノード番号に対応する物理ノード番号を前記更新されたノード番号変換テーブルを参照して決定する手段と、前記決定された物理ノード番号を有する前記ノード上で前記ジョブのプロセスを復元する手段と、を備えるコンピュータシステム。
【選択図】図2

Description

本発明は、コンピュータシステム、およびそのチェックポイントリスタート方法に関する。
コンピュータシステムにおいて、障害回復やプロセスのマイグレーションのため、ある時点でのプロセス群の状態を保存し、後に、保存した状態からプロセスを再開する方法として、チェックポイント/リスタート機能が知られている。
チェックポイント機能は、カーネルレベルで実現するものとして、プロセスで使用するデータ、プログラムテキスト等のユーザレベルの情報と、プロセス管理、ジョブ管理データ等のカーネルレベルの情報とをリスタートファイルとしてまとめて保存する。また、リスタート機能は、リスタートファイルとして保存した時点におけるプロセスの状態をシステムに復元する。このようなチェックポイント/リスタート機能の動作例は、下記特許文献1に記載されている。
しかしながら、特許文献1に記載のチェックポイント/リスタート機能は、SMP(Symmetrical Multi−Processing)システムでの利用を前提としており、NUMA(Non−Uniform Memory Access)システムでのノード構成の復元までは考慮されていない。
NUMAシステムとは、1つ以上のCPUとメモリが対になったノードを1つ以上有するアーキテクチャであり、自ノード内のCPUとメモリの通信速度は速く、他のノード上のCPUとメモリへの通信速度は著しく遅いという特徴を有する。そのため、NUMAシステムは、ジョブを実行する際、関連するプロセスはできるだけ1つのノード内で処理を行うようにノードを割り当てるノード構成制御を行うことが、高実行効率を実現する上で重要である。
よって、特許文献1に記載のチェックポイント/リスタート機能を、NUMAシステムにおける障害対応等のために使用した場合、上記ノード構成制御などにより、ジョブ生成時とは異なるノード構成でリスタートする可能性があり、プロセスが実行されるノードの識別番号と、プロセスが保持しているノードの識別番号とが異なってしまう。この場合、プロセスは、自ノード以外の他ノードにアクセスすることになるため、システム上の通信速度が低下し、システム性能は著しく低下してしまう。また、複数のNUMAシステム間で処理を実行するマルチノードシステムでは、処理自体がエラーになる可能性もある。これらの問題を回避するためには、ジョブ生成時と同じノード構成で復元する必要があるが、その場合は、障害時のノード管理やスケジュール管理の柔軟性に欠けてしまうという問題が生じる。
よって、NUMAシステムに適したチェックポイント/リスタート方法の開発が望まれる。
特開平6−230981号公報 特開2002−288149号公報
NUMAシステムを前提としたチェックポイント/リスタート機能としては、SGI/IRIXのチェックポイント/リスタート機能が知られている。しかし、該チェックポイント/リスタート機能は、リスタートファイル保存時のノードや、任意のノードにプロセスを復元することは可能であっても、2つ以上のノードを指定してプロセスを割り当てて復元することはできないという問題点があった。
また、特許文献2にも、NUMAシステムを前提としたチェックポイント/リスタート機能に関する技術が開示されている。特許文献2に記載の技術は、システムコールの前後において、ノード座標変換テーブルを用いて、ジョブの初回起動時(生成時)に割り当てられたノード座標と、リスタート時に再度割り当てるノード座標の変換を行うものである。しかし、該チェックポイント/リスタート機能は、ノード座標変換テーブルがシステム内に1つしかないため、あるジョブがノード座標変換テーブルの操作のために排他制御でロックした場合、他のジョブは実行を待たされてしまい、ジョブの実行効率が落ちるという問題があった。また、システムコール、チェックポイント、リスタートのたびに、ノード座標変換テーブルにエントリがあるか否かを確認する必要があり、CPUの投機実行が無駄になる可能性もある。
したがって、本発明は上記問題点を解決し、NUMAシステムにおけるチェックポイント/リスタート機能として、リスタート時に、プロセスの復元を任意の2つ以上のノードを指定して行うことができ、また、他のジョブからの影響を受けずに実行できる新しいコンピュータシステム、およびチェックポイントリスタート方法を提供することを目的とする。
本発明によるコンピュータシステムは、少なくとも1以上のプロセッサ、および該少なくとも1以上のプロセッサが共有するメモリをそれぞれ有する複数のノードを含んで構成されるコンピュータシステムであって、ジョブのプロセスごとに割り当て可能な論理ノード番号と、前記ジョブのプロセスを実行する前記ノードに固有の物理ノード番号との対応関係を示すノード番号変換テーブルの情報を含むジョブ管理情報を記憶するジョブ管理情報記憶手段と、前記ジョブのプロセスごとに割り当てられた前記論理ノード番号の情報を含むプロセス管理情報を記憶するプロセス管理情報記憶手段と、チェックポイント要求を受け付けると、実行中のジョブに関する前記ジョブ管理情報、および該ジョブの各プロセスに関する前記プロセス管理情報をそれぞれ前記ジョブ管理情報記憶手段および前記プロセス管理情報記憶手段から取得して、該取得した前記ジョブ管理情報および前記ジョブ管理情報から前記ジョブをリスタートするためのリスタートファイルを作成するリスタートファイル作成手段と、リスタート要求を受け付けると、前記リスタートファイルから前記ジョブ管理情報、および前記プロセス管理情報を復元する復元手段と、前記リスタート要求時において、前記物理ノード番号の更新要求を受け付けると、前記復元した前記ジョブ管理情報に含まれる前記ノード番号変換テーブルを更新する更新手段と、前記復元したプロセス管理情報に含まれる前記ジョブのプロセスごとに割り当てられた前記論理ノード番号に対応する前記物理ノード番号を、前記物理ノード番号の更新要求を受け付けた場合、前記更新手段により更新された前記ノード番号変換テーブルを参照して決定し、前記物理ノード番号の更新要求を受け付けていない場合、前記復元手段により復元したジョブ管理情報に含まれる前記ノード番号変換テーブルを参照して決定する決定手段と、前記決定された前記物理ノード番号を有する前記ノード上で前記ジョブのプロセスを復元するプロセス復元手段と、を備える。
本発明によるチェックポイント/リスタート方法は、少なくとも1以上のプロセッサ、および該少なくとも1以上のプロセッサが共有するメモリをそれぞれ有する複数のノードを含んで構成されるコンピュータシステムにおけるチェックポイントリスタート方法であって、ジョブのプロセスごとに割り当て可能な論理ノード番号と、前記ジョブのプロセスを実行する前記ノードに固有の物理ノード番号との対応関係を示すノード番号変換テーブルの情報を含むジョブ管理情報を記憶する段階と、前記ジョブのプロセスごとに割り当てられた前記論理ノード番号の情報を含むプロセス管理情報を記憶する段階と、チェックポイント要求を受け付けると、実行中のジョブに関する前記ジョブ管理情報、および該ジョブの各プロセスに関する前記プロセス管理情報をそれぞれ前記ジョブ管理情報記憶手段および前記プロセス管理情報記憶手段から取得して、該取得した前記ジョブ管理情報および前記ジョブ管理情報から前記ジョブをリスタートするためのリスタートファイルを作成する段階と、リスタート要求を受け付けると、前記リスタートファイルから前記ジョブ管理情報、および前記プロセス管理情報を復元する段階と、前記リスタート要求時において、前記物理ノード番号の更新要求を受け付けると、前記復元したジョブ管理情報に含まれる前記ノード番号変換テーブルを更新する段階と、前記復元したプロセス管理情報に含まれる前記ジョブのプロセスごとに割り当てられた前記論理ノード番号に対応する前記物理ノード番号を、前記物理ノード番号の更新要求を受け付けた場合、前記更新手段により更新された前記ノード番号変換テーブルを参照して決定し、前記物理ノード番号の更新要求を受け付けていない場合、前記復元手段により復元したジョブ管理情報に含まれる前記ノード番号変換テーブルを参照して決定する段階と、前記決定された物理ノード番号を有する前記ノード上で前記ジョブのプロセスを復元する段階と、を備える。
以上のように構成された本発明によれば、リスタート処理時に、必要に応じて、ノード番号変更テーブルを更新することで、ジョブのプロセスの復元を任意のノードに対して行うことができる。
本実施形態のNUMAシステムのハードウェア構成を例示する図である。 本実施形態のチェックポイント/リスタート機能を有するノードの概略構成を例示する図である。 本実施形態のノード番号変換テーブルの遷移を説明するための図である。 本実施形態のチェックポイント/リスタート方法におけるチェックポイントの処理内容を示すフローチャートである。 本実施形態のチェックポイント/リスタート方法におけるリスタートの処理内容を示すフローチャートである。 本実施形態の変形例のノード番号変換テーブルの遷移を説明するための図である。
以下、本発明を実施するための好適な実施形態を、図面を参照しながら説明する。なお、以下の実施形態では、コンピュータシステムとして、1つ以上のノードがインターコネクトにより相互に接続され、二次記憶装置を共有するNUMAシステムを用いる場合を例にとって説明する。
図1は、本発明の実施形態のNUMAシステム(以下、「システム」と称する)1の概略構成を例示する図であり、図2は、本実施形態のチェックポイント/リスタート機能を有するノードの概略構成を例示する図である。
システム1は、図1に示すとおり、複数のノード100,110,・・150がインターコネクトにより相互に接続され、二次記憶装置200を共有する。
ノード100は、1つ以上のCPUと、メインメモリ(たとえば、ROMやRAMなどのメモリ)とから構成される。ノード110,・・・,150も、ノード100と同様に構成される。二次記憶装置200は、各ノード100,・・・150に共有のデータベースであって、後述するリスタートファイルを記憶する。二次記憶装置200は、たとえば、HDDなどの記憶装置を用いることができる。なお、ノード100自体のハードウェア構成は、原則として、従来のNUMAシステムで用いられるノードと同様とすることができるので、ここでの詳細な説明は省略する。また、ノードの数は、6つに限られず、適宜変更することができる。
ノード100は、カーネル部101やジョブ部102などの実行イメージを格納し、本実施形態のチェックポイント/リスタート機能を有する。
ジョブ部102は、1つ以上のプロセス群で構成され、1つ以上のノードに分散して実行される多数のプロセスをまとめて管理する。
カーネル部101は、図2に示すように、ジョブ管理情報記憶手段10、プロセス管理情報記憶手段11、リスタートファイル作成手段12、リスタートファイル復元手段13、更新手段14、物理ノード番号決定手段15、プロセス復元手段16、およびリスタートファイル入出力手段17を含む。なお、本実施形態では、カーネル部101の実行イメージがノード100に格納されている場合を例として説明するが、カーネル部がどのノードに格納されるかはOSの実装に依存するものとする。また、これら各手段は、たとえば、主にCPUがメインメモリに格納されるプログラムを実行し、各ハードウェアを制御することにより、実現することができる。
ジョブ管理情報記憶手段10は、プロセス群が属するジョブの実行に必要な情報を保持し、論理ノード番号と物理ノード番号との対応関係を表すノード番号変換テーブルを含むジョブ管理情報を記憶する。ノード番号変換テーブルは、ジョブが生成されると作成され、ジョブ管理情報記憶手段10に記憶される。なお、ノード番号変換テーブルは、複数のジョブごとに作成され、ジョブ管理情報記憶手段10に記憶することができる。
ここで、本実施形態において、論理ノード番号とは、システム1内で利用可能であるノードの識別番号であって、ジョブのプロセスごとに割り当てられる。論理ノード番号は、0から始まり、使用するノード数分、たとえば、ノード数が6であれば、0〜5の番号を用意する。一方、物理ノード番号とは、各ノード100,・・・150のシステム1内で一意かつ固定に割り当てられるノード識別番号である。物理ノード番号は、たとえば、障害等により利用できないノードの場合、欠番となる。
プロセス管理情報記憶手段11は、プロセスの実行に必要な情報を保持し、論理ノード番号および物理ノード番号を含むプロセス管理情報を記憶する。プロセス管理情報は、ジョブに属するプロセスの生成時に、ジョブ管理情報記憶手段10のノード番号変換テーブルを参照して、使用するノードの論理ノード番号と物理ノード番号の情報を得て、プロセス管理情報記憶手段11に記憶される。
リスタートファイル作成手段12は、チェックポイント要求を受け付けると、実行中のジョブに関するジョブ管理情報、および該ジョブの各プロセスに関するプロセス管理情報をそれぞれジョブ管理情報記憶手段10およびプロセス管理情報記憶手段11から取得して、該取得したジョブ管理情報およびプロセス管理情報から、ジョブをリスタートするためのリスタートファイルを作成する。すなわち、リスタートファイル作成手段12は、チェックポイント機能(実行中のジョブの状態のスナップショットを取る機能)を有し、作成したリスタートファイルを、リスタートファイル入出力手段17を介して二次記憶装置200に格納する。また、リスタートファイル作成手段12は、チェックポイント要求を所定のタイミング(たとえば、定期的に)で受け付けるごとに、前記リスタートファイルを作成することもできる。なお、チェックポイント要求の発行は、ユーザによって発行の回数・タイミングを適宜決めることができる。
ここで、リスタートファイル復元手段13、更新手段14、物理ノード番号決定手段15、およびプロセス復元手段16は、本実施形態において、リスタート機能として機能する。リスタート機能は、リスタートファイルから各管理情報、実行イメージを復元し、チェックポイント機能の実行時のジョブの状態から実行を再開する機能である。
リスタートファイル復元手段(復元手段)13は、リスタート要求を受け付けると、リスタートファイル入出力手段17を通じて二次記憶装置200からリスタートファイルを取得し、該取得したリスタートファイルからジョブ管理情報およびプロセス管理情報を復元する。
更新手段14は、リスタート要求時において、ジョブのプロセスを実行するノードの更新要求を受け付けると、復元したジョブ管理情報に含まれるノード番号変換テーブルを更新する。一例として、復元されたノード番号変換テーブルの更新前のテーブルおよび該テーブルで示す場合の各プロセス群の各ノードへの配置の関係を図3(a)に示し、更新後のテーブルおよび該テーブルで示す場合の各プロセス群の各ノードへの配置の関係を図3(b)に示す。
物理ノード番号決定手段(決定手段)15は、復元したプロセス管理情報に含まれるジョブのプロセスごとに割り当てられた論理ノード番号に対応する物理ノード番号を、ノード番号変換テーブルを参照して決定する。物理ノード番号決定手段15は、上記更新手段14によってノード番号変換テーブルが更新された場合、更新されたノード番号変換テーブルを参照して決定し、一方、更新手段14によってノード番号変換テーブルが更新されていない場合、リスタートファイル復元手段13によって復元したジョブ管理情報に含まれるノード番号変換テーブルを参照して決定する。
プロセス復元手段16は、物理ノード番号決定手段15によって決定された物理ノード番号を有するノード上でジョブのプロセスを復元する。
リスタートファイル入出力手段17は、上述のように、ノード100の各手段と二次記憶装置200とでリスタートファイルの入出力を実行する。
以下、図4,5に示すフローチャートを参照して、システム1を用いて実施される本実施形態のチェックポイント/リスタート方法を説明する。なお、システム1は、ノード1〜6(各物理ノード番号は「1」〜「6」とする)を含んで構成され、ノード1がチェックポイント/リスタート方法を実行する上述した各手段を有しているものとする。また、チェックポイント/リスタート方法を実行する前処理として、ジョブ管理情報記憶手段10には、ジョブ生成時のノード番号変換テーブルが記憶されており、また、プロセス管理情報記憶手段11には、実行中のジョブの各プロセスの論理ノード番号および物理ノード番号が記憶されているものとする。
図4を用いて、本実施形態のチェックポイント方法について説明する。なお、図4に示す各処理は、処理内容に矛盾を生じない範囲で任意に順番を変更して又は並列に実行することができる。
まず、ノード1は、チェックポイント要求を受け付ける(ステップS100)。チェックポイント要求は、たとえば、一定時間経過後、定期的に発行される。
チェックポイント要求を受け付けると、ノード1は、ジョブを構成するプロセス群の実行状態を停止にし(ステップS101)、全プロセスの停止を確認後、ジョブ管理情報記憶手段10から、ノード番号変換テーブルを含むジョブ管理情報を取得する(ステップS102)。ノード番号変換テーブルは、たとえば、各プロセスの実行が、図3(a)の右図に示すように、ノード2,3,5(物理ノード番号「2」,「3」,「5」)で実行されていた場合、図3(a)の左図に示すテーブルとなる。
次いで、ノード1は、全プロセスについて、論理ノード番号を含むプロセス管理情報、およびプロセス実行イメージを取得する(ステップS103,S104)。
次いで、ノード1は、上記取得した各情報と、リスタートに必要な情報をまとめ、リスタートファイルを作成する(ステップS105)。
次いで、ノード1は、作成したリスタートファイルを、リスタートファイル入出力手段17を通じて二次記憶装置200に出力する(ステップS106)。
なお、上記ステップS100〜S106の各処理は、チェックポイント採取手段として、リスタートファイル作成手段12によって処理され得る。
次に、図5を用いて、本実施形態のリスタート方法について説明する。なお、図5に示す各処理は、処理内容に矛盾を生じない範囲で任意に順番を変更して又は並列に実行することができる。
まず、ノード1は、リスタート要求を受け付ける(ステップS200)。
リスタート要求を受け付けると、ノード1は、リスタートファイル入出力手段17を通じて、二次記憶装置200からリスタートファイルを取得して読み込む(ステップS201)。
次いで、ノード1は、リスタートファイルに含まれるジョブ管理情報を復元し、ノード番号変換テーブルなどジョブ実行の再開に必要な各情報を復元する(ステップS202)。
リスタート要求時に、物理ノード番号の更新要求を受け付けた場合(ステップS203:Yes)、ノード1は、復元したノード番号変換テーブルを更新する(ステップS203:No)。たとえば、復元されたノード番号変換テーブルの更新前のテーブルを図3(a)に示し、更新後のテーブルおよび該テーブルの時の各プロセス群の各ノードへの配置の関係を図3(b)に示す。図3(a),(b)に示すように、論理ノード「0」に対応する物理ノードを「2」→「1」、論理ノード1に対応する物理ノードを「3」→「4」に更新している。なお、物理ノード番号の更新要求を受け付けていない場合(ステップS203:No)、ノード1は、ノード番号変換テーブルの更新をせずに、ステップS205の処理に移る。
次いで、ノード1は、リスタートファイルに含まれる全プロセスについて、プロセス管理情報を復元し(ステップS205)、チェックポイント要求時に利用していた論理ノード番号から対応する物理ノード番号をノード番号変換テーブルから決定し(ステップS206)、物理ノード番号を持つノード上にプロセスを復元する(ステップS207)。たとえば、復元した論理ノード番号が「0」のとき、物理ノード番号の更新要求を受け付けていない場合では、図3(a)のノード番号変換テーブルを用いるため、プロセスを復元するノードの物理ノード番号は「2」となる。一方、物理ノード番号の更新要求を受け付けた場合では、図3(b)のノード番号変換テーブルを用いるため、プロセスを復元するノードの物理ノード番号は「1」となる。
なお、上記ステップS200〜S202,ステップS205の各処理は、リスタートファイル復元手段によって処理され、ステップS203,S204の各処理は、更新手段14によって処理され、ステップS206の処理は、物理ノード番号決定手段15によって処理され、ステップS207の処理は、プロセス復元手段16によって処理され得る。
以上のように、本実施形態のシステム1およびそのチェックポイント/リスタート方法によれば、プロセスの復元を任意の2つ以上のノードに対して行うことができる。その理由は、リスタート時にノード番号変換テーブルを必要に応じて更新することで、論理ノード番号に対応する物理ノード番号を変更することができるためである。
また、物理的なノード構成を意識することなくジョブを実行することができる。その理由は、ユーザは論理ノード番号を使って処理を行うため、リスタート時の物理ノードの構成変化に影響されないためである。
さらに、リスタート時に、論理ノード番号と物理ノード番号の対応表であるノード番号変換テーブルをジョブごとに用いることで、任意の物理ノード群にプロセスを復元し、他のジョブからの影響を受けずに実行することができる。
<変形例>
以上のように本発明の好適な実施形態について説明したが、本発明は、以上の実施形態に限定されるべきものではなく、特許請求の範囲に表現された思想および範囲を逸脱することなく、種々の変形、追加、および省略が当業者によって可能である。
たとえば、上記本実施形態のシステム1は、定期的にチェックポイントを採取して障害に備えているものとし、障害によってジョブの各プロセスの実行処理の続行が不能になった場合に、障害直前に採取したリスタートファイルを復元してジョブの復旧を実施するようにしてもよい。たとえば、図6(a)の右図に示すように、6つのノードを備えるNUMAシステムにおいて、各ノードに1つずつプロセスが実行されているとすると、この時のノード番号変換テーブルは、図6(a)の左図のようになる。ノード2が障害によってプロセスの実行処理の続行が不能になった場合、障害直前に採取したリスタートファイルを復元しジョブの復旧を行う。すなわち、ノード2は使用できないため、リスタート時に更新手段14によって物理ノード番号を更新する。障害前に論理ノード番号「0」に割り当てられていた物理ノード番号「2」を、物理ノード番号「5」に更新した場合のノード番号変換テーブルを図6(b)の左図に示す。ノード2(物理ノード番号「2」)で動いていたプロセス3の復元は、更新されたノード番号変換テーブルを用いるため、論理ノード番号「0」に対応する物理ノード番号「5」のノード5で実行される。
また、上記実施形態では、システムを構成する1つのノードにおいて、チェックポイント/リスタート機能を有する各手段が備えられている構成を説明したが、本発明はこれに限られず、たとえば、各ノードに通信可能に接続される別途のノード管理装置を設けて、該ノード管理装置にチェックポイント/リスタート機能を実行させる構成とすることもできる。また、1つのノードに備えられている各手段は、そのいくつかを一纏めにして構成されていてもよいし、一つの手段をさらに複数の手段に分割して構成されていてもよい。
さらに、上記実施形態では、NUMAシステムを例にとって説明したが、少なくとも1以上のプロセッサ、および該少なくとも1以上のプロセッサが共有するメモリをそれぞれ有する複数のノードを含んで構成されるコンピュータシステムにおいて適用することができる。
上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)少なくとも1以上のプロセッサ、および該少なくとも1以上のプロセッサが共有するメモリをそれぞれ有する複数のノードを含んで構成されるコンピュータシステムであって、ジョブのプロセスごとに割り当て可能な論理ノード番号と、前記ジョブのプロセスを実行する前記ノードに固有の物理ノード番号との対応関係を示すノード番号変換テーブルの情報を含むジョブ管理情報を記憶するジョブ管理情報記憶手段と、前記ジョブのプロセスごとに割り当てられた前記論理ノード番号の情報を含むプロセス管理情報を記憶するプロセス管理情報記憶手段と、チェックポイント要求を受け付けると、実行中のジョブに関する前記ジョブ管理情報、および該ジョブの各プロセスに関する前記プロセス管理情報をそれぞれ前記ジョブ管理情報記憶手段および前記プロセス管理情報記憶手段から取得して、該取得した前記ジョブ管理情報および前記ジョブ管理情報から前記ジョブをリスタートするためのリスタートファイルを作成するリスタートファイル作成手段と、リスタート要求を受け付けると、前記リスタートファイルから前記ジョブ管理情報、および前記プロセス管理情報を復元する復元手段と、前記リスタート要求時において、前記物理ノード番号の更新要求を受け付けると、前記復元した前記ジョブ管理情報に含まれる前記ノード番号変換テーブルを更新する更新手段と、前記復元したプロセス管理情報に含まれる前記ジョブのプロセスごとに割り当てられた前記論理ノード番号に対応する前記物理ノード番号を、前記物理ノード番号の更新要求を受け付けた場合、前記更新手段により更新された前記ノード番号変換テーブルを参照して決定し、前記物理ノード番号の更新要求を受け付けていない場合、前記復元手段により復元したジョブ管理情報に含まれる前記ノード番号変換テーブルを参照して決定する決定手段と、前記決定された前記物理ノード番号を有する前記ノード上で前記ジョブのプロセスを復元するプロセス復元手段と、を備えるコンピュータシステム。
(付記2)前記リスタートファイル作成手段は、前記チェックポイント要求を所定のタイミングで受け付けるごとに、前記リスタートファイルを作成する付記1に記載のコンピュータシステム。
(付記3)前記複数のノードのうち少なくとも1つのノードにおいて障害が発生した場合、前記復元手段は、前記リスタートファイル作成手段により作成された最新の前記リスタートファイルから前記ジョブ管理情報、および前記プロセス管理情報を復元し、前記更新手段は、前記復元したジョブ管理情報に含まれる前記ノード番号変換テーブルにおいて、前記障害が発生したノードの物理ノード番号を他の物理ノード番号に更新する、請求項2に記載のコンピュータシステム。
(付記4)少なくとも1以上のプロセッサ、および該少なくとも1以上のプロセッサが共有するメモリをそれぞれ有する複数のノードを含んで構成されるコンピュータシステムにおけるチェックポイントリスタート方法であって、ジョブのプロセスごとに割り当て可能な論理ノード番号と、前記ジョブのプロセスを実行する前記ノードに固有の物理ノード番号との対応関係を示すノード番号変換テーブルの情報を含むジョブ管理情報を記憶する段階と、前記ジョブのプロセスごとに割り当てられた前記論理ノード番号の情報を含むプロセス管理情報を記憶する段階と、チェックポイント要求を受け付けると、実行中のジョブに関する前記ジョブ管理情報、および該ジョブの各プロセスに関する前記プロセス管理情報をそれぞれ前記ジョブ管理情報記憶手段および前記プロセス管理情報記憶手段から取得して、該取得した前記ジョブ管理情報および前記ジョブ管理情報から前記ジョブをリスタートするためのリスタートファイルを作成する段階と、リスタート要求を受け付けると、前記リスタートファイルから前記ジョブ管理情報、および前記プロセス管理情報を復元する段階と、前記リスタート要求時において、前記物理ノード番号の更新要求を受け付けると、前記復元したジョブ管理情報に含まれる前記ノード番号変換テーブルを更新する段階と、前記復元したプロセス管理情報に含まれる前記ジョブのプロセスごとに割り当てられた前記論理ノード番号に対応する前記物理ノード番号を、前記物理ノード番号の更新要求を受け付けた場合、前記更新手段により更新された前記ノード番号変換テーブルを参照して決定し、前記物理ノード番号の更新要求を受け付けていない場合、前記復元手段により復元したジョブ管理情報に含まれる前記ノード番号変換テーブルを参照して決定する段階と、前記決定された物理ノード番号を有する前記ノード上で前記ジョブのプロセスを復元する段階と、を備えるチェックポイントリスタート方法。
1 NUMAシステム、
10 プロセス管理情報、
11 ジョブ管理情報、
12 リスタートファイル作成手段、
13 リスタートファイル復元手段、
14 更新手段、
15 物理ノード番号決定手段、
16 プロセス復元手段、
17 リスタートファイル入出力手段、
100 ノード
101 カーネル部、
102 ジョブ部、
200 二次記憶装置。

Claims (4)

  1. 少なくとも1以上のプロセッサ、および該少なくとも1以上のプロセッサが共有するメモリをそれぞれ有する複数のノードを含んで構成されるコンピュータシステムであって、
    ジョブのプロセスごとに割り当て可能な論理ノード番号と、前記ジョブのプロセスを実行する前記ノードに固有の物理ノード番号との対応関係を示すノード番号変換テーブルの情報を含むジョブ管理情報を記憶するジョブ管理情報記憶手段と、
    前記ジョブのプロセスごとに割り当てられた前記論理ノード番号の情報を含むプロセス管理情報を記憶するプロセス管理情報記憶手段と、
    チェックポイント要求を受け付けると、実行中のジョブに関する前記ジョブ管理情報、および該ジョブの各プロセスに関する前記プロセス管理情報をそれぞれ前記ジョブ管理情報記憶手段および前記プロセス管理情報記憶手段から取得して、該取得した前記ジョブ管理情報および前記ジョブ管理情報から前記ジョブをリスタートするためのリスタートファイルを作成するリスタートファイル作成手段と、
    リスタート要求を受け付けると、前記リスタートファイルから前記ジョブ管理情報、および前記プロセス管理情報を復元する復元手段と、
    前記リスタート要求時において、前記物理ノード番号の更新要求を受け付けると、前記復元した前記ジョブ管理情報に含まれる前記ノード番号変換テーブルを更新する更新手段と、
    前記復元したプロセス管理情報に含まれる前記ジョブのプロセスごとに割り当てられた前記論理ノード番号に対応する前記物理ノード番号を、前記物理ノード番号の更新要求を受け付けた場合、前記更新手段により更新された前記ノード番号変換テーブルを参照して決定し、前記物理ノード番号の更新要求を受け付けていない場合、前記復元手段により復元したジョブ管理情報に含まれる前記ノード番号変換テーブルを参照して決定する決定手段と、
    前記決定された前記物理ノード番号を有する前記ノード上で前記ジョブのプロセスを復元するプロセス復元手段と、
    を備えるコンピュータシステム。
  2. 前記リスタートファイル作成手段は、前記チェックポイント要求を所定のタイミングで受け付けるごとに、前記リスタートファイルを作成する請求項1に記載のコンピュータシステム。
  3. 前記複数のノードのうち少なくとも1つのノードにおいて障害が発生した場合、
    前記復元手段は、前記リスタートファイル作成手段により作成された最新の前記リスタートファイルから前記ジョブ管理情報、および前記プロセス管理情報を復元し、
    前記更新手段は、前記復元したジョブ管理情報に含まれる前記ノード番号変換テーブルにおいて、前記障害が発生したノードの物理ノード番号を他の物理ノード番号に更新する、請求項2に記載のコンピュータシステム。
  4. 少なくとも1以上のプロセッサ、および該少なくとも1以上のプロセッサが共有するメモリをそれぞれ有する複数のノードを含んで構成されるコンピュータシステムにおけるチェックポイントリスタート方法であって、
    ジョブのプロセスごとに割り当て可能な論理ノード番号と、前記ジョブのプロセスを実行する前記ノードに固有の物理ノード番号との対応関係を示すノード番号変換テーブルの情報を含むジョブ管理情報を記憶する段階と、
    前記ジョブのプロセスごとに割り当てられた前記論理ノード番号の情報を含むプロセス管理情報を記憶する段階と、
    チェックポイント要求を受け付けると、実行中のジョブに関する前記ジョブ管理情報、および該ジョブの各プロセスに関する前記プロセス管理情報をそれぞれ前記ジョブ管理情報記憶手段および前記プロセス管理情報記憶手段から取得して、該取得した前記ジョブ管理情報および前記ジョブ管理情報から前記ジョブをリスタートするためのリスタートファイルを作成する段階と、
    リスタート要求を受け付けると、前記リスタートファイルから前記ジョブ管理情報、および前記プロセス管理情報を復元する段階と、
    前記リスタート要求時において、前記物理ノード番号の更新要求を受け付けると、前記復元したジョブ管理情報に含まれる前記ノード番号変換テーブルを更新する段階と、
    前記復元したプロセス管理情報に含まれる前記ジョブのプロセスごとに割り当てられた前記論理ノード番号に対応する前記物理ノード番号を、前記物理ノード番号の更新要求を受け付けた場合、前記更新手段により更新された前記ノード番号変換テーブルを参照して決定し、前記物理ノード番号の更新要求を受け付けていない場合、前記復元手段により復元したジョブ管理情報に含まれる前記ノード番号変換テーブルを参照して決定する段階と、
    前記決定された物理ノード番号を有する前記ノード上で前記ジョブのプロセスを復元する段階と、
    を備えるチェックポイントリスタート方法。
JP2010049182A 2010-03-05 2010-03-05 コンピュータシステム、およびそのチェックポイントリスタート方法 Expired - Fee Related JP5672521B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010049182A JP5672521B2 (ja) 2010-03-05 2010-03-05 コンピュータシステム、およびそのチェックポイントリスタート方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010049182A JP5672521B2 (ja) 2010-03-05 2010-03-05 コンピュータシステム、およびそのチェックポイントリスタート方法

Publications (2)

Publication Number Publication Date
JP2011186606A true JP2011186606A (ja) 2011-09-22
JP5672521B2 JP5672521B2 (ja) 2015-02-18

Family

ID=44792817

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010049182A Expired - Fee Related JP5672521B2 (ja) 2010-03-05 2010-03-05 コンピュータシステム、およびそのチェックポイントリスタート方法

Country Status (1)

Country Link
JP (1) JP5672521B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016132432A1 (ja) * 2015-02-16 2016-08-25 三菱電機株式会社 プロセッサ及びマイクロコンピュータ
JP2017037507A (ja) * 2015-08-11 2017-02-16 日本電信電話株式会社 演算処理管理方法及び演算装置
US10055252B2 (en) 2015-04-09 2018-08-21 Fujitsu Limited Apparatus, system and method for estimating data transfer periods for job scheduling in parallel computing
US11392463B2 (en) 2018-10-22 2022-07-19 Fujitsu Limited Effective backup of data used by multiple nodes executing parallel processing

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06230981A (ja) * 1993-02-08 1994-08-19 Nec Corp チェックポイント/リスタート制御装置
JPH07152697A (ja) * 1993-11-30 1995-06-16 Hitachi Ltd 疎結合計算機システム
JP2002288149A (ja) * 2001-03-26 2002-10-04 Hitachi Ltd 並列計算機のチェックポイントリスタートにおけるノード座標変換方法
JP2008502953A (ja) * 2003-11-17 2008-01-31 ヴァージニア テック インテレクチュアル プロパティーズ,インコーポレイテッド 分散システムにおけるトランスペアレントなチェックポインティング及びプロセス移行
JP2008046889A (ja) * 2006-08-17 2008-02-28 Hitachi Ltd プロセス管理方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06230981A (ja) * 1993-02-08 1994-08-19 Nec Corp チェックポイント/リスタート制御装置
JPH07152697A (ja) * 1993-11-30 1995-06-16 Hitachi Ltd 疎結合計算機システム
JP2002288149A (ja) * 2001-03-26 2002-10-04 Hitachi Ltd 並列計算機のチェックポイントリスタートにおけるノード座標変換方法
JP2008502953A (ja) * 2003-11-17 2008-01-31 ヴァージニア テック インテレクチュアル プロパティーズ,インコーポレイテッド 分散システムにおけるトランスペアレントなチェックポインティング及びプロセス移行
JP2008046889A (ja) * 2006-08-17 2008-02-28 Hitachi Ltd プロセス管理方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016132432A1 (ja) * 2015-02-16 2016-08-25 三菱電機株式会社 プロセッサ及びマイクロコンピュータ
US10055252B2 (en) 2015-04-09 2018-08-21 Fujitsu Limited Apparatus, system and method for estimating data transfer periods for job scheduling in parallel computing
JP2017037507A (ja) * 2015-08-11 2017-02-16 日本電信電話株式会社 演算処理管理方法及び演算装置
US11392463B2 (en) 2018-10-22 2022-07-19 Fujitsu Limited Effective backup of data used by multiple nodes executing parallel processing

Also Published As

Publication number Publication date
JP5672521B2 (ja) 2015-02-18

Similar Documents

Publication Publication Date Title
EP2851799B1 (en) Fault tolerant batch processing
US9335998B2 (en) Multi-core processor system, monitoring control method, and computer product
KR101332840B1 (ko) 병렬 컴퓨팅 프레임워크 기반의 클러스터 시스템, 호스트 노드, 계산 노드 및 어플리케이션 실행 방법
JP2014123365A (ja) MapReduceフレームワークにおけるデータ処理の最適化のためのデバイスおよび方法
JP2010079622A (ja) マルチコアプロセッサシステム、および、そのタスク制御方法
CN106354563B (zh) 用于3d重建的分布式计算系统以及3d重建方法
JP2007305029A (ja) リアルタイムosにおける処理時間配分方法
US20130311751A1 (en) System and data loading method
JP5672521B2 (ja) コンピュータシステム、およびそのチェックポイントリスタート方法
JP2010231502A (ja) ジョブ処理方法、ジョブ処理プログラムを格納したコンピュータ読み取り可能な記録媒体、および、ジョブ処理システム
JP2006285474A (ja) 並列計算機及びその制御方法
JP2020160482A (ja) 性能見積もり装置、端末装置、システムlsi及びプログラム
JP4259390B2 (ja) 並列演算処理装置
JP2006202285A (ja) レジスタを同期させる方法
Gautier et al. Fine grain distributed implementation of a dataflow language with provable performances
JP2010231295A (ja) 解析システム
JP6657725B2 (ja) データベースシステム、レプリケーション制御装置、レプリケーション方法、及びプログラム
JP2021043725A (ja) 計算システム、計算方法及びプログラム
JP3708891B2 (ja) フォールトトレラントシステムにおけるプロセスペア実行制御方法、プロセスペア実行制御プログラム、及びフォールトトレラントシステム
JP5867630B2 (ja) マルチコアプロセッサシステム、マルチコアプロセッサシステムの制御方法、およびマルチコアプロセッサシステムの制御プログラム
JP4992745B2 (ja) チェックポイント・リスタート装置及びチェックポイント・リスタート方法
KR20190066712A (ko) Gpu 사용량을 이용한 고성능 컴퓨팅 시스템의 체크포인트 생성 방법
JP5791524B2 (ja) Os動作装置及びos動作プログラム
JP7259380B2 (ja) 情報処理実行制御装置、情報処理実行制御システム、情報処理実行制御方法、及び、情報処理実行制御プログラム
JP2014119964A (ja) 計算機システムおよびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130212

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140218

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140417

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140924

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141112

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141128

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141211

R150 Certificate of patent or registration of utility model

Ref document number: 5672521

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees