JP2011186606A - コンピュータシステム、およびそのチェックポイントリスタート方法 - Google Patents
コンピュータシステム、およびそのチェックポイントリスタート方法 Download PDFInfo
- Publication number
- JP2011186606A JP2011186606A JP2010049182A JP2010049182A JP2011186606A JP 2011186606 A JP2011186606 A JP 2011186606A JP 2010049182 A JP2010049182 A JP 2010049182A JP 2010049182 A JP2010049182 A JP 2010049182A JP 2011186606 A JP2011186606 A JP 2011186606A
- Authority
- JP
- Japan
- Prior art keywords
- node number
- job
- management information
- restart
- conversion table
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Retry When Errors Occur (AREA)
- Hardware Redundancy (AREA)
Abstract
【解決手段】論理ノード番号と物理ノード番号との対応関係を示すノード番号変換テーブルを含むジョブ管理情報を記憶する手段と、前記論理ノード番号を含むプロセス管理情報を記憶する手段と、前記各情報を取得してリスタートファイルを作成する手段と、リスタートファイルから前記各情報を復元する手段と、リスタート要求時に、前記復元したノード番号変換テーブルを更新する手段と、前記復元した前記論理ノード番号に対応する物理ノード番号を前記更新されたノード番号変換テーブルを参照して決定する手段と、前記決定された物理ノード番号を有する前記ノード上で前記ジョブのプロセスを復元する手段と、を備えるコンピュータシステム。
【選択図】図2
Description
<変形例>
10 プロセス管理情報、
11 ジョブ管理情報、
12 リスタートファイル作成手段、
13 リスタートファイル復元手段、
14 更新手段、
15 物理ノード番号決定手段、
16 プロセス復元手段、
17 リスタートファイル入出力手段、
100 ノード
101 カーネル部、
102 ジョブ部、
200 二次記憶装置。
Claims (4)
- 少なくとも1以上のプロセッサ、および該少なくとも1以上のプロセッサが共有するメモリをそれぞれ有する複数のノードを含んで構成されるコンピュータシステムであって、
ジョブのプロセスごとに割り当て可能な論理ノード番号と、前記ジョブのプロセスを実行する前記ノードに固有の物理ノード番号との対応関係を示すノード番号変換テーブルの情報を含むジョブ管理情報を記憶するジョブ管理情報記憶手段と、
前記ジョブのプロセスごとに割り当てられた前記論理ノード番号の情報を含むプロセス管理情報を記憶するプロセス管理情報記憶手段と、
チェックポイント要求を受け付けると、実行中のジョブに関する前記ジョブ管理情報、および該ジョブの各プロセスに関する前記プロセス管理情報をそれぞれ前記ジョブ管理情報記憶手段および前記プロセス管理情報記憶手段から取得して、該取得した前記ジョブ管理情報および前記ジョブ管理情報から前記ジョブをリスタートするためのリスタートファイルを作成するリスタートファイル作成手段と、
リスタート要求を受け付けると、前記リスタートファイルから前記ジョブ管理情報、および前記プロセス管理情報を復元する復元手段と、
前記リスタート要求時において、前記物理ノード番号の更新要求を受け付けると、前記復元した前記ジョブ管理情報に含まれる前記ノード番号変換テーブルを更新する更新手段と、
前記復元したプロセス管理情報に含まれる前記ジョブのプロセスごとに割り当てられた前記論理ノード番号に対応する前記物理ノード番号を、前記物理ノード番号の更新要求を受け付けた場合、前記更新手段により更新された前記ノード番号変換テーブルを参照して決定し、前記物理ノード番号の更新要求を受け付けていない場合、前記復元手段により復元したジョブ管理情報に含まれる前記ノード番号変換テーブルを参照して決定する決定手段と、
前記決定された前記物理ノード番号を有する前記ノード上で前記ジョブのプロセスを復元するプロセス復元手段と、
を備えるコンピュータシステム。 - 前記リスタートファイル作成手段は、前記チェックポイント要求を所定のタイミングで受け付けるごとに、前記リスタートファイルを作成する請求項1に記載のコンピュータシステム。
- 前記複数のノードのうち少なくとも1つのノードにおいて障害が発生した場合、
前記復元手段は、前記リスタートファイル作成手段により作成された最新の前記リスタートファイルから前記ジョブ管理情報、および前記プロセス管理情報を復元し、
前記更新手段は、前記復元したジョブ管理情報に含まれる前記ノード番号変換テーブルにおいて、前記障害が発生したノードの物理ノード番号を他の物理ノード番号に更新する、請求項2に記載のコンピュータシステム。 - 少なくとも1以上のプロセッサ、および該少なくとも1以上のプロセッサが共有するメモリをそれぞれ有する複数のノードを含んで構成されるコンピュータシステムにおけるチェックポイントリスタート方法であって、
ジョブのプロセスごとに割り当て可能な論理ノード番号と、前記ジョブのプロセスを実行する前記ノードに固有の物理ノード番号との対応関係を示すノード番号変換テーブルの情報を含むジョブ管理情報を記憶する段階と、
前記ジョブのプロセスごとに割り当てられた前記論理ノード番号の情報を含むプロセス管理情報を記憶する段階と、
チェックポイント要求を受け付けると、実行中のジョブに関する前記ジョブ管理情報、および該ジョブの各プロセスに関する前記プロセス管理情報をそれぞれ前記ジョブ管理情報記憶手段および前記プロセス管理情報記憶手段から取得して、該取得した前記ジョブ管理情報および前記ジョブ管理情報から前記ジョブをリスタートするためのリスタートファイルを作成する段階と、
リスタート要求を受け付けると、前記リスタートファイルから前記ジョブ管理情報、および前記プロセス管理情報を復元する段階と、
前記リスタート要求時において、前記物理ノード番号の更新要求を受け付けると、前記復元したジョブ管理情報に含まれる前記ノード番号変換テーブルを更新する段階と、
前記復元したプロセス管理情報に含まれる前記ジョブのプロセスごとに割り当てられた前記論理ノード番号に対応する前記物理ノード番号を、前記物理ノード番号の更新要求を受け付けた場合、前記更新手段により更新された前記ノード番号変換テーブルを参照して決定し、前記物理ノード番号の更新要求を受け付けていない場合、前記復元手段により復元したジョブ管理情報に含まれる前記ノード番号変換テーブルを参照して決定する段階と、
前記決定された物理ノード番号を有する前記ノード上で前記ジョブのプロセスを復元する段階と、
を備えるチェックポイントリスタート方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010049182A JP5672521B2 (ja) | 2010-03-05 | 2010-03-05 | コンピュータシステム、およびそのチェックポイントリスタート方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010049182A JP5672521B2 (ja) | 2010-03-05 | 2010-03-05 | コンピュータシステム、およびそのチェックポイントリスタート方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011186606A true JP2011186606A (ja) | 2011-09-22 |
JP5672521B2 JP5672521B2 (ja) | 2015-02-18 |
Family
ID=44792817
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010049182A Expired - Fee Related JP5672521B2 (ja) | 2010-03-05 | 2010-03-05 | コンピュータシステム、およびそのチェックポイントリスタート方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5672521B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016132432A1 (ja) * | 2015-02-16 | 2016-08-25 | 三菱電機株式会社 | プロセッサ及びマイクロコンピュータ |
JP2017037507A (ja) * | 2015-08-11 | 2017-02-16 | 日本電信電話株式会社 | 演算処理管理方法及び演算装置 |
US10055252B2 (en) | 2015-04-09 | 2018-08-21 | Fujitsu Limited | Apparatus, system and method for estimating data transfer periods for job scheduling in parallel computing |
US11392463B2 (en) | 2018-10-22 | 2022-07-19 | Fujitsu Limited | Effective backup of data used by multiple nodes executing parallel processing |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06230981A (ja) * | 1993-02-08 | 1994-08-19 | Nec Corp | チェックポイント/リスタート制御装置 |
JPH07152697A (ja) * | 1993-11-30 | 1995-06-16 | Hitachi Ltd | 疎結合計算機システム |
JP2002288149A (ja) * | 2001-03-26 | 2002-10-04 | Hitachi Ltd | 並列計算機のチェックポイントリスタートにおけるノード座標変換方法 |
JP2008502953A (ja) * | 2003-11-17 | 2008-01-31 | ヴァージニア テック インテレクチュアル プロパティーズ,インコーポレイテッド | 分散システムにおけるトランスペアレントなチェックポインティング及びプロセス移行 |
JP2008046889A (ja) * | 2006-08-17 | 2008-02-28 | Hitachi Ltd | プロセス管理方法 |
-
2010
- 2010-03-05 JP JP2010049182A patent/JP5672521B2/ja not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06230981A (ja) * | 1993-02-08 | 1994-08-19 | Nec Corp | チェックポイント/リスタート制御装置 |
JPH07152697A (ja) * | 1993-11-30 | 1995-06-16 | Hitachi Ltd | 疎結合計算機システム |
JP2002288149A (ja) * | 2001-03-26 | 2002-10-04 | Hitachi Ltd | 並列計算機のチェックポイントリスタートにおけるノード座標変換方法 |
JP2008502953A (ja) * | 2003-11-17 | 2008-01-31 | ヴァージニア テック インテレクチュアル プロパティーズ,インコーポレイテッド | 分散システムにおけるトランスペアレントなチェックポインティング及びプロセス移行 |
JP2008046889A (ja) * | 2006-08-17 | 2008-02-28 | Hitachi Ltd | プロセス管理方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016132432A1 (ja) * | 2015-02-16 | 2016-08-25 | 三菱電機株式会社 | プロセッサ及びマイクロコンピュータ |
US10055252B2 (en) | 2015-04-09 | 2018-08-21 | Fujitsu Limited | Apparatus, system and method for estimating data transfer periods for job scheduling in parallel computing |
JP2017037507A (ja) * | 2015-08-11 | 2017-02-16 | 日本電信電話株式会社 | 演算処理管理方法及び演算装置 |
US11392463B2 (en) | 2018-10-22 | 2022-07-19 | Fujitsu Limited | Effective backup of data used by multiple nodes executing parallel processing |
Also Published As
Publication number | Publication date |
---|---|
JP5672521B2 (ja) | 2015-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2851799B1 (en) | Fault tolerant batch processing | |
US9335998B2 (en) | Multi-core processor system, monitoring control method, and computer product | |
KR101332840B1 (ko) | 병렬 컴퓨팅 프레임워크 기반의 클러스터 시스템, 호스트 노드, 계산 노드 및 어플리케이션 실행 방법 | |
JP2014123365A (ja) | MapReduceフレームワークにおけるデータ処理の最適化のためのデバイスおよび方法 | |
JP2010079622A (ja) | マルチコアプロセッサシステム、および、そのタスク制御方法 | |
CN106354563B (zh) | 用于3d重建的分布式计算系统以及3d重建方法 | |
JP2007305029A (ja) | リアルタイムosにおける処理時間配分方法 | |
US20130311751A1 (en) | System and data loading method | |
JP5672521B2 (ja) | コンピュータシステム、およびそのチェックポイントリスタート方法 | |
JP2010231502A (ja) | ジョブ処理方法、ジョブ処理プログラムを格納したコンピュータ読み取り可能な記録媒体、および、ジョブ処理システム | |
JP2006285474A (ja) | 並列計算機及びその制御方法 | |
JP2020160482A (ja) | 性能見積もり装置、端末装置、システムlsi及びプログラム | |
JP4259390B2 (ja) | 並列演算処理装置 | |
JP2006202285A (ja) | レジスタを同期させる方法 | |
Gautier et al. | Fine grain distributed implementation of a dataflow language with provable performances | |
JP2010231295A (ja) | 解析システム | |
JP6657725B2 (ja) | データベースシステム、レプリケーション制御装置、レプリケーション方法、及びプログラム | |
JP2021043725A (ja) | 計算システム、計算方法及びプログラム | |
JP3708891B2 (ja) | フォールトトレラントシステムにおけるプロセスペア実行制御方法、プロセスペア実行制御プログラム、及びフォールトトレラントシステム | |
JP5867630B2 (ja) | マルチコアプロセッサシステム、マルチコアプロセッサシステムの制御方法、およびマルチコアプロセッサシステムの制御プログラム | |
JP4992745B2 (ja) | チェックポイント・リスタート装置及びチェックポイント・リスタート方法 | |
KR20190066712A (ko) | Gpu 사용량을 이용한 고성능 컴퓨팅 시스템의 체크포인트 생성 방법 | |
JP5791524B2 (ja) | Os動作装置及びos動作プログラム | |
JP7259380B2 (ja) | 情報処理実行制御装置、情報処理実行制御システム、情報処理実行制御方法、及び、情報処理実行制御プログラム | |
JP2014119964A (ja) | 計算機システムおよびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130212 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140214 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140218 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140417 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140924 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141112 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141128 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141211 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5672521 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |