JPH11134208A - 計算機システム、計算機システムの障害情報収集方法、及び記録媒体 - Google Patents

計算機システム、計算機システムの障害情報収集方法、及び記録媒体

Info

Publication number
JPH11134208A
JPH11134208A JP9300914A JP30091497A JPH11134208A JP H11134208 A JPH11134208 A JP H11134208A JP 9300914 A JP9300914 A JP 9300914A JP 30091497 A JP30091497 A JP 30091497A JP H11134208 A JPH11134208 A JP H11134208A
Authority
JP
Japan
Prior art keywords
data
failure
address
checkpoint
main memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9300914A
Other languages
English (en)
Inventor
Koji Takemura
功司 武村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP9300914A priority Critical patent/JPH11134208A/ja
Publication of JPH11134208A publication Critical patent/JPH11134208A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Retry When Errors Occur (AREA)

Abstract

(57)【要約】 【課題】本発明は、障害時のシステムの状態を復元し、
その状態を障害情報として2次記憶に出力することを特
徴とする。 【解決手段】障害発生時、障害情報収集装置14に、そ
の時のシステムの状態を障害情報収集手段15により収
集してメモリ装置16に格納する。リカバリ実行手段1
2によりロールバックを実行し、処理再開した後に、再
度障害発生した場合はメモリ装置16に格納した情報に
基づきシステムの状態を復元し、この復元したシステム
の状態を2次記憶に出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、チェックポイント
を採取しながら処理を進めていき、障害が発生した際
に、最後に採取したチェックポイントまでロールバック
し処理を再実行することにより障害からの回復を実現す
るチェックポイントロールバック方式の計算機システ
ム、その計算機システムの障害情報収集方法、及びその
障害情報収集プログラムを記録したコンピュータ読取り
可能な記録媒体に関する。
【0002】
【従来の技術】従来、計算機に障害が発生した場合の故
障回復機能として、チェックポイントを採取しながら処
理を進めていき、障害が発生したとき、最後に採取した
チェックポイントまでロールバックし処理を再実行する
ことにより障害からの回復を実現して、システムダウン
に至る頻度を下げるチェックポイント・ロールバック方
式を採用した計算機システムが提供されている。
【0003】図3に、上記チェックポイント・ロールバ
ック方式を採用した計算機システムの一例を示す。図3
に示す計算機システムには、CPU(Central Processi
ng Unit )30、主記憶装置35、システムバス34、
I/O装置33等の計算機システムに基本的な構成の
他、チェックポイントに於いて主記憶装置35上への変
更が発生した場合、変更されるメモリのアドレスと、変
更前のデータをバストランザクションを監視することで
獲得して内部のメモリに保存するビフォアイメージ格納
用メモリ装置36と、チェックポイントに於いて計算機
システムの状態を主記憶装置35上に収集し上記メモリ
に保存した情報をクリアするチェックポイント採取手段
31と、障害が発生した場合は、保存したデータをビフ
ォアイメージ格納用メモリ装置36から主記憶装置35
に戻して、ロールバックを実現するリカバリ実行手段3
2とを具備している。
【0004】
【発明が解決しようとする課題】上述計算機システムが
チェックポイント時に収集する計算機システムの状態と
は、CPUのレジスタの値や、メモリのデータ、I/O
装置のメモリの内容等である。この計算機システムの場
合は、直前のチェックポイント時のシステムの状態を障
害発生時に早期に再現する手段を備えているだけであ
る。
【0005】上記計算機システムでは、障害が発生した
場合、直前に採取したチェックポイントに戻って以前の
処理を再実行してしまうため、再実行を開始してから別
の障害の発生等により処理の継続が不可能となった場
合、1度目の障害時のメモリの内容が失われてしまって
いた。
【0006】従来、トレース等を用い、障害に関する情
報を部分的に残す技術があるが、その場合、情報の欠落
が生じて障害の解析を不能にさせることがある。より多
くの情報を含んでいる障害時のメモリダンプを全て保存
し処理を継続するのは、必要な記憶媒体の容量等を考慮
すると難しい。
【0007】また、障害に関する情報を記録するのに多
くの時間を要するため、障害発生時にダンプを行うと、
計算機システムが処理を再開するまでの時間を多く費や
してしまう。
【0008】そこで、本発明は上記事情を考慮して成さ
れたもので、チェックポイント・ロールバック方式の計
算機システムに於いて、通常処理中にシステムの状態が
変更された時に、状態が変更された場所の情報と変更後
の状態を保存し、チェックポイントではその情報をクリ
アし、障害が発生し、ロールバックを行った後、次のチ
ェックポイントまで処理の継続が不能と判断した場合
は、もう一度ロールバックしチェックポイントを採取し
たときのシステムの状態と障害発生時に保存した部分的
な状態とにより、障害時のシステムの状態を再生し、そ
の状態を障害情報として2次記憶に出力することを特徴
とした障害発生情報収集方法を提供することを目的とす
る。
【0009】
【課題を解決するための手段】本発明は、上記目的を達
成するため以下の通りとする。 (1)本発明の計算機システムは、チェックポイントを
採取しながら処理を進めていきチェックポイント採取時
のシステムの状態を主記憶装置上に収集してこの収集し
た情報を保存し障害が発生したとき最後に採取したチェ
ックポイントまでロールバックし上記保存したチェック
ポイント採取時のシステムの状態に基づき処理を再実行
することにより障害からの回復を実現するチェックポイ
ント・ロールバック方式の計算機システムに於いて、上
記主記憶装置上のデータに変更が発生した場合、変更さ
れる上記主記憶装置上のアドレスと変更前のデータをバ
ストランザクションを監視することで獲得し格納するビ
フォアイメージ格納手段と、障害発生時に上記ビフォア
イメージ格納手段に格納した上記主記憶装置上のアドレ
スを取り出しこの取り出したアドレスに対応する上記障
害発生時の上記主記憶装置上のデータを獲得してこの獲
得したデータを上記取り出したアドレスと共に格納する
障害情報格納手段とを備えたことを特徴とする。
【0010】この構成によれば、チェックポイント時の
システムの状態を保存しておくだけでなく、障害発生時
のシステムの状態を障害情報として保存しておくことが
できる。これにより、障害発生時のシステムの状態を得
ることができる。
【0011】(2)上記(1)記載の計算機システムに
あって、上記障害発生時にはロールバックを実行して処
理を継続し、次のチェックポイントを採取する前に処理
の継続が不可能となった場合は再度ロールバックを実行
し上記障害情報格納手段に格納したアドレスとデータを
取り出してこの取り出したアドレスの上記主記憶上のデ
ータをこの取り出したデータに置き換え、上記主記憶装
置に障害発生時のシステムの状態を復元しこの復元した
システムの状態を上記計算機システムの2次記憶に出力
することを特徴とする。
【0012】上記構成によれば、チェックポイント時の
システムの状態を保存しておくだけでなく、障害が発生
した場合、障害発生時のシステムの状態を障害情報とし
て保存しておくことで、再度障害が発生した場合に処理
を再開する前に障害時のメモリのダンプをすべて保存す
ることなしに、処理再開後に1度目の障害発生時のメモ
リダンプを入手することができる。
【0013】
【発明の実施の形態】以下、図面を参照して本発明の実
施形態について説明する。図1は、本発明の一実施の形
態による計算機システムの構成を示すブロックである。
【0014】この計算機システムでは、この計算機シス
テムの各種の制御を行うCPU10と、主記憶装置18
とがシステムバス17により接続されている。また、シ
ステムバス17には、ビフォアイメージ格納用メモリ装
置19が接続されている。
【0015】この他にも、キーボード、ディスプレイ等
の各種I/O装置、ハードディスク等の二次記憶装置等
が接続されて、通常の計算機システムに必要な構成を備
えているものとする。
【0016】CPU10は、チェックポイントを採取す
るチェックポイント採取手段11、ロールバックを実行
するリカバリ実行手段12、メモリイメージを図示しな
い2次記憶に出力するダンプ実行手段13をソフトウェ
アとして備えている。
【0017】障害情報収集装置14は、障害情報を収集
する障害情報収集手段15、及び収集した障害情報を格
納するメモリ装置16を備えている。図1の計算機シス
テムでは、通常の動作中に、定期的にチェックポイント
採取手段11が、システムの状態、例えば、CPU10
のレジスタの内容などを集め、主記憶装置18に記録す
る。
【0018】その後、主記憶装置18のデータの変更
が、発生した場合には、ビフォアイメージ格納用メモリ
装置19がバストランザクションを監視し、変更される
メモリのアドレスと変更前のデータを獲得し、内部のメ
モリに保存する。
【0019】チェックポイント採取時にビフォアイメー
ジ格納用メモリ装置19に保存された情報は図示しない
クリア手段によりクリアされる。次に、図2を参照し
て、この計算機システムによる障害発生時の処理の流れ
を説明する。
【0020】障害が発生した場合、リカバリ実行手段1
2が、障害情報収集装置14の手続きを呼び出す。この
手続きは、上記ビフォアイメージ格納用メモリ19から
メモリのアドレスを取り出し、この取り出したアドレス
に対応する主記憶装置上のデータを獲得して(A1)、
この獲得した取り出したアドレスに対応する主記憶装置
上のデータと取り出したアドレスとを障害情報として、
障害情報収集装置14のメモリ装置16に保存する(A
2)。
【0021】その後、リカバリ実行手段12のリカバリ
実行手続きが、チェックポイント採取時に保存したデー
タをビフォアイメージ格納用メモリ装置19から主記憶
装置18に戻して、ロールバックを実現する。続いて、
リカバリ実行手段12は、チェックポイント時から処理
を再開する(A3)。
【0022】計算機システムは、処理の再開後、チェッ
クポイントを迎えるまえに処理の継続が可能か否かを判
定する(A4)。障害等が起こらず処理の継続が可能な
場合は、そのまま処理を継続する(A4のNo)。
【0023】再び障害が起きる等により処理の継続が不
可能な場合(A4のYES)、リカバリ実行手段12の
リカバリ実行手続きがダンプ実行手段13のメモリダン
プ実行手続きを呼び出す。
【0024】この際のメモリダンプ実行手続きは、先
ず、再度ロールバックを実現する(A5)。その後、障
害時に障害情報収集装置14のメモリ装置16に保存さ
れた障害情報のアドレスとデータを取り出し、取り出し
たアドレスの主記憶装置上のデータを、取り出したデー
タに置き換え、主記憶装置18に障害時のシステムの状
態を復元し、2次記憶にダンプする(A6)。計算機シ
ステムは、この後、システム停止する。
【0025】上記したような本発明の実施形態による処
理によって、1度システムの状態をチェックポイント時
に戻しても、障害時のメモリイメージをメモリダンプの
形式で得ることが可能である。
【0026】尚、この実施形態では、ビフォアイメージ
格納用メモリ装置19と、障害情報収集装置15をシス
テムバス17に別々に接続するモジュールとして示して
いるが、一つのモジュールとして実装されていても良い
ことは勿論である。
【0027】
【発明の効果】以上詳記したように本発明によれば、チ
ェックポイント・ロールバック方式の計算機システムに
於いて、チェックポイント時のシステムの状態を保存し
ておくだけでなく、障害が発生した場合、障害発生時の
システムの状態を障害情報として保存しておくことで、
再度障害が発生した場合に処理を再開する前に障害時の
主記憶装置のメモリダンプを全て保存することなしに、
処理再開後に1度目の障害発生時の主記憶装置のメモリ
ダンプを入手することができるという優れた効果を奏す
る。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る計算機システムの構
成を示すブロック図。
【図2】同実施形態による処理手順を示すフローチャー
ト。
【図3】従来の計算機システムの構成を示すブロック
図。
【符号の説明】
10…CPU 11…チェックポイント採取手段 12…リカバリ実行手段 13…ダンプ実行手段 14…障害情報収集装置 15…障害情報収集手段 16…メモリ装置 17…システムバス 18…主記憶装置 19…ビフォアイメージ格納用メモリ装置 30…CPU 31…チェックポイント採取手段 32…リカバリ実行手段 33…I/O装置 34…システムバス 35…主記憶装置 36…ビフォアイメージ格納用メモリ装置

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 チェックポイント採取時のシステムの状
    態を主記憶上に収集し保存して、障害が発生したとき、
    最後に採取したチェックポイントまでロールバックし上
    記保存したチェックポイント採取時のシステムの状態に
    基づき処理を再実行することにより障害からの回復を実
    現するチェックポイントロールバック方式の計算機シス
    テムに於いて、 上記主記憶上のデータに変更が発生した場合に変更され
    る上記主記憶上のアドレスと変更前のデータをバストラ
    ンザクションの監視により獲得し格納するビフォアイメ
    ージ格納手段と、 障害発生時に上記ビフォアイメージ格納手段に格納した
    上記主記憶上のアドレスを取り出し当該アドレスに対応
    する上記障害発生時の上記主記憶上のデータを獲得し上
    記取り出したアドレスとともに格納する障害情報格納手
    段とを備えたことを特徴とする計算機システム。
  2. 【請求項2】 障害発生時にロールバックを実行して処
    理を継続し、次のチェックポイントを採取する前に処理
    の継続が不可能となった場合に、再度ロールバックを実
    行し、障害情報格納手段に格納したアドレスとデータを
    取り出し、この取り出したアドレスの主記憶上のデータ
    を上記取り出したデータに置き換え主記憶上に障害発生
    時のシステムの状態を復元して、この復元したシステム
    の状態を2次記憶手段に出力する請求項1記載の計算機
    システム。
  3. 【請求項3】 チェックポイントを採取しながら処理を
    進め、チェックポイント採取時のシステムの状態を主記
    憶上に収集し保存して、障害が発生したとき、最後に採
    取したチェックポイントまでロールバックし上記保存し
    たチェックポイント採取時のシステムの状態に基づき処
    理を再実行することにより障害からの回復を実現するチ
    ェックポイントロールバック方式の計算機システムに於
    ける障害情報収集方法に於いて、 上記主記憶上のデータに変更が発生したとき、変更され
    る上記主記憶上のアドレスと変更前のデータをバストラ
    ンザクションの監視により獲得し格納して、障害発生時
    に上記格納した上記主記憶上のアドレスを取り出し、こ
    の取り出したアドレスに対応する上記障害発生時の上記
    主記憶上のデータを獲得して、この獲得したデータを上
    記取り出したアドレスとともに格納することを特徴とす
    る障害情報収集方法。
  4. 【請求項4】 障害発生時にロールバックを実行して処
    理を継続し、次のチェックポイントを採取する前に処理
    の継続が不可能となった場合に、再度ロールバックを実
    行し、上記障害発生時に格納したアドレスとデータを取
    り出して、取り出したアドレスの主記憶上のデータを取
    り出したデータに置き換え主記憶上に障害発生時のシス
    テムの状態を復元して、この復元したシステムの状態を
    計算機システムの2次記憶に出力することを特徴とする
    請求項3記載の障害情報収集方法。
  5. 【請求項5】 チェックポイントを採取しながら処理を
    進め、チェックポイント採取時のシステムの状態を主記
    憶上に収集し保存して、障害が発生したとき、最後に採
    取したチェックポイントまでロールバックし、保存した
    チェックポイント採取時のシステムの状態に基づき処理
    を再実行することにより障害からの回復を実現するチェ
    ックポイントロールバック方式の計算機システムにける
    障害情報収集方法であって、 上記主記憶上のデータに変更が発生した場合、変更され
    る上記主記憶上のアドレスと変更前のデータをバストラ
    ンザクションを監視することにより獲得し格納して、障
    害発生時に上記格納した上記主記憶上のアドレスを取り
    出し、この取り出したアドレスに対応する上記障害発生
    時の上記主記憶上のデータを獲得して、この獲得したデ
    ータを上記取り出したアドレスとともに格納することを
    特徴とする、障害情報収集方法のプログラム情報を格納
    したコンピュータ読取り可能な記録媒体。
  6. 【請求項6】 障害発生時にロールバックを実行して処
    理を継続し、次のチェックポイントを採取する前に処理
    の継続が不可能となった場合に再度ロールバックを実行
    して、上記障害発生時に格納したアドレスとデータを取
    り出し、取り出したアドレスの上記主記憶上のデータを
    取り出したデータに置き換えて上記主記憶上に障害発生
    時のシステムの状態を復元し、この復元したシステムの
    状態を2次記憶に出力することを特徴とする請求項5記
    載のコンピュータ読取り可能な記録媒体。
JP9300914A 1997-10-31 1997-10-31 計算機システム、計算機システムの障害情報収集方法、及び記録媒体 Pending JPH11134208A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9300914A JPH11134208A (ja) 1997-10-31 1997-10-31 計算機システム、計算機システムの障害情報収集方法、及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9300914A JPH11134208A (ja) 1997-10-31 1997-10-31 計算機システム、計算機システムの障害情報収集方法、及び記録媒体

Publications (1)

Publication Number Publication Date
JPH11134208A true JPH11134208A (ja) 1999-05-21

Family

ID=17890657

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9300914A Pending JPH11134208A (ja) 1997-10-31 1997-10-31 計算機システム、計算機システムの障害情報収集方法、及び記録媒体

Country Status (1)

Country Link
JP (1) JPH11134208A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9448560B2 (en) 2006-06-19 2016-09-20 Amazon Technologies, Inc. System and method for coordinating movement of mobile drive units
US9519284B2 (en) 2006-06-19 2016-12-13 Amazon Technologies, Inc. Transporting inventory items using mobile drive units and conveyance equipment
US10093526B2 (en) 2006-06-19 2018-10-09 Amazon Technologies, Inc. System and method for maneuvering a mobile drive unit

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9448560B2 (en) 2006-06-19 2016-09-20 Amazon Technologies, Inc. System and method for coordinating movement of mobile drive units
US9519284B2 (en) 2006-06-19 2016-12-13 Amazon Technologies, Inc. Transporting inventory items using mobile drive units and conveyance equipment
US9740212B2 (en) 2006-06-19 2017-08-22 Amazon Technologies, Inc. System and method for coordinating movement of mobile drive units
US10067501B2 (en) 2006-06-19 2018-09-04 Amazon Technologies, Inc. Method and system for transporting inventory items
US10093526B2 (en) 2006-06-19 2018-10-09 Amazon Technologies, Inc. System and method for maneuvering a mobile drive unit
US10133267B2 (en) 2006-06-19 2018-11-20 Amazon Technologies, Inc. Method and system for transporting inventory items
US10809706B2 (en) 2006-06-19 2020-10-20 Amazon Technologies, Inc. Method and system for transporting inventory items
US10990088B2 (en) 2006-06-19 2021-04-27 Amazon Technologies, Inc. Method and system for transporting inventory items
US11066282B2 (en) 2006-06-19 2021-07-20 Amazon Technologies, Inc. System and method for maneuvering a mobile drive unit

Similar Documents

Publication Publication Date Title
US7472139B2 (en) Database recovery method applying update journal and database log
JP4645837B2 (ja) メモリダンプ方法、コンピュータシステム、およびプログラム
US20060095478A1 (en) Consistent reintegration a failed primary instance
JPH07117863B2 (ja) オンラインシステムの再立上げ方式
US7478273B2 (en) Computer system including active system and redundant system and state acquisition method
JP3481737B2 (ja) ダンプ採取装置およびダンプ採取方法
JPH07234808A (ja) システムダンプ採取方式
JP6880961B2 (ja) 情報処理装置、およびログ記録方法
JPH11134208A (ja) 計算機システム、計算機システムの障害情報収集方法、及び記録媒体
US20040003313A1 (en) Black box recorder using machine check architecture in system management mode
JPH0594353A (ja) データベース管理方式
JPH0816881B2 (ja) データベース更新方法
JP2001188690A (ja) コンピュータシステム及びチェックポイント情報保存方法
JPH0962555A (ja) ファイル復旧方法
JPS63132351A (ja) メモリデ−タベ−ス処理装置
JPS6383843A (ja) トレ−ス情報の収集方式
JPH04369735A (ja) 計算機システムのバックアップ方式
JP3191282B2 (ja) 障害情報データ収集方式
JPH1040123A (ja) ジョブ管理方式と方法
JPH04184641A (ja) データベース復旧方式
JPH05216697A (ja) 計算機システムの障害回復方法
JPH0259837A (ja) データリカバリ処理方式
JP2972439B2 (ja) ポータブル端末のバックアップ方式
JPH09160845A (ja) プロセスデータロギング装置
JPH09212390A (ja) システムログ処理方式