JP2013156886A - 計算装置、演算処理システム、チェックポイント設定方法及びプログラム - Google Patents
計算装置、演算処理システム、チェックポイント設定方法及びプログラム Download PDFInfo
- Publication number
- JP2013156886A JP2013156886A JP2012017856A JP2012017856A JP2013156886A JP 2013156886 A JP2013156886 A JP 2013156886A JP 2012017856 A JP2012017856 A JP 2012017856A JP 2012017856 A JP2012017856 A JP 2012017856A JP 2013156886 A JP2013156886 A JP 2013156886A
- Authority
- JP
- Japan
- Prior art keywords
- memory
- memory usage
- checkpoint
- instruction
- execution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 121
- 238000000034 method Methods 0.000 title claims abstract description 114
- 230000015654 memory Effects 0.000 claims abstract description 385
- 238000004891 communication Methods 0.000 claims abstract description 24
- 230000001360 synchronised effect Effects 0.000 claims description 25
- 238000010586 diagram Methods 0.000 description 15
- FFBHFFJDDLITSX-UHFFFAOYSA-N benzyl N-[2-hydroxy-4-(3-oxomorpholin-4-yl)phenyl]carbamate Chemical compound OC1=C(NC(=O)OCC2=CC=CC=C2)C=CC(=C1)N1CCOCC1=O FFBHFFJDDLITSX-UHFFFAOYSA-N 0.000 description 5
- 230000002776 aggregation Effects 0.000 description 3
- 238000004220 aggregation Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000011084 recovery Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Images
Landscapes
- Retry When Errors Occur (AREA)
Abstract
【解決手段】本発明にかかる計算装置は、チェックポイント情報に基づいて、障害発生時に計算ジョブのリスタートを行うためのメモリイメージを取得する計算装置である。計算装置は、計算ジョブ実行中のメモリ操作命令に応じてメモリ使用量を記録するメモリ使用量記録部101と、複数のプロセスにおけるメモリ使用量を集計し集計したメモリ使用量に基づいてチェックポイントを設定する操作端末30に対してメモリ使用量記録部101に記録されたメモリ使用量を送信する通信部102と、を備えるものである。
【選択図】図1
Description
以下、図面を参照して本発明の実施の形態について説明する。図1を用いて本発明の実施の形態1にかかる計算装置の構成例について説明する。計算装置10は、プロセス11〜13を備えている。また、それぞれのプロセスは、メモリ使用量記録部101と、通信部102とから構成されている。また、計算装置10のそれぞれのプロセスは、通信部102を介して操作端末30と通信を行う。
本発明の実施の形態1においては、初回のユーザプログラム実行時におけるメモリ使用量を収集し、収集したデータに基づいて、次回以降のユーザプログラム実行時におけるチェックポイント実施位置を決定する。本発明の実施の形態2においては、初回のユーザプログラム実行時のみではなく、各回においてメモリ使用量を収集し、常に最新のメモリ使用量に応じてチェックポイント実施位置を決定する処理の流れについて説明する。
続いて、図16を用いて本発明の実施の形態3にかかるメモリ使用量の算出方法について説明する。実施の形態3においては、同じプログラムの実行を複数回繰り返すパラメータサーベイを前提として説明を行う。パラメータサーベイを実行する場合、過去に実行されたプログラムにおけるメモリ使用量の平均を計算して、ユーザに対して平均結果に関するメモリ使用量を確認させてもよい。
続いて、図17を用いて本発明の実施の形態4にかかる計算プロセス120の構成例について説明する。図17の計算プロセス120は、図3における計算プロセス120に、チェックポイント要求記録部111を追加した点において異なる。その他の構成は、図3における計算プロセス120と同様である。
続いて、本発明の実施の形態5にかかるチェックポイント実施処理について説明する。実施の形態5においては、全プロセスでチェックポイントの実施を待ち合わせ、プロセス間の通信状態等の不整合を解消した後、同時にチェックポイントを実施する方法について説明する。このようなチェックポイントの実施方法を同期チェックポイントとする。
11 プロセス
12 プロセス
13 プロセス
30 操作端末
31 メモリ使用量取得部
32 メモリ使用量集計部
33 チェックポイント採取位置作成部
40 記憶装置
50 ネットワーク
101 メモリ使用量記録部
102 通信部
103 ユーザプログラム
104 メモリ操作命令実行部
105 同期命令実行部
106 分散メモリ並列部
107 チェックポイント実施指示記録部
108 メモリ操作命令実行位置記録部
109 メモリ管理部
110 チェックポイント実施部
111 チェックポイント要求記録部
120 計算プロセス
Claims (10)
- チェックポイント情報に基づいて、障害発生時に計算ジョブのリスタートを行うためのメモリイメージを取得する計算装置であって、
前記計算ジョブ実行中のメモリ操作命令に応じてメモリ使用量を記録するメモリ使用量記録部と、
複数のプロセスにおける前記メモリ使用量を集計し前記集計したメモリ使用量に基づいて前記チェックポイントを設定する操作端末に対して前記メモリ使用量記録部に記録されたメモリ使用量を送信する通信部と、を備える計算装置。 - 前記メモリ操作命令の実行回数及び前記複数のプロセスにおける前記計算ジョブの実行を待ち合せる同期命令の実行回数を用いて示される位置情報を記録する位置情報記録部をさらに備え、
前記メモリ使用量記録部は、
前記位置情報と前記メモリ使用量とを対応付けて記録する、請求項1に記載の計算装置。 - 前記位置情報は、
前記メモリ操作命令が実行される際に、前記メモリ操作命令の実行回数が増加され、前記同期命令が実行される際に前記同期命令の実行回数が増加される、請求項2に記載の計算装置。 - 前記操作端末から、前記位置情報を用いて前記チェックポイントの設定位置を示すメモリイメージ取得指示に関する情報を受け取る指示情報記録部をさらに備え、
前記指示情報記録部は、
前記メモリ操作命令が実行される際に、前記位置情報記録部に記録されている前記位置情報と、前記メモリイメージ取得指示において示された前記チェックポイントの設定位置情報とが一致する場合に、前記チェックポイントにおける前記メモリイメージを取得する、請求項3に記載の計算装置。 - 前記計算ジョブが複数回繰り返し実行される場合、
前記メモリ使用量記録部は、
初回に実行される前記計算ジョブ実行中のメモリ操作命令に応じて前記メモリ使用量を記録し、
前記指示情報記録部は、
前記メモリ使用量に基づいて前記操作端末において決定された前記チェックポイントの設定位置を受け取る、請求項4に記載の計算装置。 - 前記計算ジョブが複数回繰り返し実行される場合、
前記メモリ使用量記録部は、
前記計算ジョブが実行される毎に前記メモリ使用量を更新し、
前記指示情報記録部は、
前記更新されたメモリ使用量に基づいて前記操作端末において決定された前記チェックポイントの設定位置を受け取る、請求項4に記載の計算装置。 - 前記メモリ操作命令を実行する際に操作されるメモリ上の実行アドレス及び前記複数のプロセスにおける前記計算ジョブの実行を待ち合せる同期命令の実行回数を用いて示される位置情報を記録する位置情報記録部をさらに備え、
前記メモリ使用量記録部は、
前記位置情報と前記メモリ使用量とを対応付けて記録する、請求項1に記載の計算装置。 - チェックポイント情報に基づいて、障害発生時に計算ジョブのリスタートを行うためのメモリイメージを取得する計算装置と、前記計算装置に対して前記チェックポイント情報を送信する操作端末とを備える演算処理システムであって、
前記計算装置は、
前記計算ジョブ実行中のメモリ操作命令に応じてメモリ使用量を記録するメモリ使用量記録部と、
前記操作端末に対して前記メモリ使用量記録部に記録されたメモリ使用量を送信する通信部と、を有し、
前記操作端末は、
複数のプロセスにおける前記メモリ使用量を集計し前記集計したメモリ使用量を表示し、ユーザから前記チェックポイントの設定位置に関する情報の入力を受け付ける、演算処理システム。 - チェックポイント情報に基づいて、障害発生時に計算ジョブのリスタートを行うためのメモリイメージを取得する計算装置において実行されるチェックポイント設定方法であって、
前記計算ジョブ実行中のメモリ操作命令に応じてメモリ使用量を記録し、
複数のプロセスにおける前記メモリ使用量を集計し前記集計したメモリ使用量に基づいて前記チェックポイントを設定する操作端末に対して前記記録したメモリ使用量を送信する、チェックポイント設定方法。 - チェックポイント情報に基づいて、障害発生時に計算ジョブのリスタートを行うためのメモリイメージを取得する計算装置のコンピュータに実行させるプログラムであって、
前記計算ジョブ実行中のメモリ操作命令に応じてメモリ使用量を記録するステップと、
複数のプロセスにおける前記メモリ使用量を集計し前記集計したメモリ使用量に基づいて前記チェックポイントを設定する操作端末に対して前記記録したメモリ使用量を送信するステップと、をコンピュータに実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012017856A JP5966389B2 (ja) | 2012-01-31 | 2012-01-31 | 計算装置、演算処理システム、チェックポイント設定方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012017856A JP5966389B2 (ja) | 2012-01-31 | 2012-01-31 | 計算装置、演算処理システム、チェックポイント設定方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013156886A true JP2013156886A (ja) | 2013-08-15 |
JP5966389B2 JP5966389B2 (ja) | 2016-08-10 |
Family
ID=49051989
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012017856A Expired - Fee Related JP5966389B2 (ja) | 2012-01-31 | 2012-01-31 | 計算装置、演算処理システム、チェックポイント設定方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5966389B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102022481B1 (ko) * | 2017-12-06 | 2019-09-18 | 연세대학교 산학협력단 | Gpu 사용량을 이용한 고성능 컴퓨팅 시스템의 체크포인트 생성 방법 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0887424A (ja) * | 1994-09-16 | 1996-04-02 | Toshiba Corp | 電子計算機 |
JPH11345137A (ja) * | 1998-05-29 | 1999-12-14 | Toshiba Corp | チェックポイントロールバック方式計算機システム、チェックポイントロールバック計算機システムに於けるメモリ管理制御方法、及び同方法を格納した記憶媒体 |
JP2006172065A (ja) * | 2004-12-15 | 2006-06-29 | Hitachi Ltd | チェックポイント採取方法、システム及びプログラム |
JP2008502953A (ja) * | 2003-11-17 | 2008-01-31 | ヴァージニア テック インテレクチュアル プロパティーズ,インコーポレイテッド | 分散システムにおけるトランスペアレントなチェックポインティング及びプロセス移行 |
JP2008077498A (ja) * | 2006-09-22 | 2008-04-03 | Toshiba Corp | 保守制御装置 |
JP2010102404A (ja) * | 2008-10-21 | 2010-05-06 | Canon Inc | 情報処理装置及びその制御方法、並びに、プログラム |
-
2012
- 2012-01-31 JP JP2012017856A patent/JP5966389B2/ja not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0887424A (ja) * | 1994-09-16 | 1996-04-02 | Toshiba Corp | 電子計算機 |
JPH11345137A (ja) * | 1998-05-29 | 1999-12-14 | Toshiba Corp | チェックポイントロールバック方式計算機システム、チェックポイントロールバック計算機システムに於けるメモリ管理制御方法、及び同方法を格納した記憶媒体 |
JP2008502953A (ja) * | 2003-11-17 | 2008-01-31 | ヴァージニア テック インテレクチュアル プロパティーズ,インコーポレイテッド | 分散システムにおけるトランスペアレントなチェックポインティング及びプロセス移行 |
JP2006172065A (ja) * | 2004-12-15 | 2006-06-29 | Hitachi Ltd | チェックポイント採取方法、システム及びプログラム |
JP2008077498A (ja) * | 2006-09-22 | 2008-04-03 | Toshiba Corp | 保守制御装置 |
JP2010102404A (ja) * | 2008-10-21 | 2010-05-06 | Canon Inc | 情報処理装置及びその制御方法、並びに、プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5966389B2 (ja) | 2016-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104618693B (zh) | 一种基于云计算的监控视频在线处理任务管理方法及系统 | |
WO2023005075A1 (zh) | 数据的容灾恢复方法、系统、终端设备及计算机存储介质 | |
KR20120040707A (ko) | 폴트 톨러런트 배치 처리 | |
CN110019469B (zh) | 分布式数据库数据处理方法、装置、存储介质及电子装置 | |
CN107566214B (zh) | 一种性能测试方法和装置 | |
WO2021057514A1 (zh) | 任务调度方法、装置、计算机设备和计算机可读介质 | |
US20140156853A1 (en) | Computer and resource retrieval method | |
WO2015014117A1 (zh) | 云服务器及其虚拟机管理方法 | |
EP3438847A1 (en) | Method and device for duplicating database in distributed system | |
WO2018177350A1 (zh) | 一种提供序列号的方法、装置、电子设备和可读存储介质 | |
TW201835764A (zh) | 監控服務設備之系統 | |
JPWO2018131556A1 (ja) | リソース設定制御装置、リソース設定制御システム、リソース設定制御方法、および、リソース設定制御プログラム | |
CN106375103B (zh) | 一种告警数据采集和发送方法 | |
US11070635B2 (en) | Device management server and method | |
JP5966389B2 (ja) | 計算装置、演算処理システム、チェックポイント設定方法及びプログラム | |
EP3602301B1 (en) | Anticipatory collection of metrics and logs | |
JPWO2010018637A1 (ja) | 業務フロー分散処理システム及び方法 | |
JP6040894B2 (ja) | ログ生成装置、及びログ生成方法 | |
JP6915345B2 (ja) | クラウド管理装置、クラウド管理方法、及びプログラム | |
JP6279816B2 (ja) | ストレージ監視システムおよびその監視方法 | |
CN111723064A (zh) | 日志采集方法、装置、服务器及存储介质 | |
CN103180824A (zh) | 分配信息 | |
JP6412462B2 (ja) | トランザクション管理方法、トランザクション管理装置 | |
CN105760215A (zh) | 基于映射规约模型分布式文件系统作业的运行方法 | |
CN106484523B (zh) | 一种硬件设备管理方法及其装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20141210 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20151106 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160105 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160215 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160607 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160620 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5966389 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |