JPH09258995A

JPH09258995A - 計算機システム

Info

Publication number: JPH09258995A
Application number: JP8062840A
Authority: JP
Inventors: Tomofumi Shimada; 智文島田; Hideaki Hirayama; 秀昭平山; Masaharu Nozaki; 正治野崎
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1996-03-19
Filing date: 1996-03-19
Publication date: 1997-10-03
Anticipated expiration: 2016-03-19
Also published as: JP3072048B2; KR970066876A; CN1164708A; US5948112A

Abstract

(57)【要約】【課題】本発明は、ソフトウェア障害の発生を認識した
際、当該認識時点の状態情報及び採取を有効に活用して
ソフトウェア障害の発生要因を推定し、又はシステム環
境を変化させる等の手段を用いて、チェックポイント時
点までロールバック後、システムを再実行させて、ソフ
トウェア障害を回避する。【解決手段】障害識別手段１０３により当該故障がソフ
トウェア障害と判断された場合に、障害発生時のシステ
ムの状況を記録するシステム状況記録手段１０４と、当
該ソフトウェア障害に関する発生要因を推定するソフト
ウェア障害発生要因推定手段１０５と、当該ソフトウェ
ア障害を回避する方法を推定するソフトウェア障害回避
方法推定手段１０６と、システム再実行前に、ソフトウ
ェア障害回避方法推定手段１０６により推定された当該
ソフトウェア障害回避方法を実施するソフトウェア障害
回避方法実施手段１０７とを具備することを特徴とす
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、システムに障害が
発生したとき障害発生前の状態からデータ処理を再実行
することにより耐障害性を実現するチェックポイントロ
ールバック方式による故障回復機構を有する計算機シス
テムに係り、特にソフトウェアバグ等に起因して発生す
るソフトウェア障害に関しての故障回復機能をもつ計算
機システムに関する。

【０００２】

【従来の技術】計算機システムに於いては、信頼性確保
の面から種々の故障回復手段が開発され実施されてい
る。特に近年では計算機システムの普及に伴って障害対
応等の信頼性に対する要求も年々厳しいものとなってき
ている。

【０００３】この耐障害性を確保する計算機システムの
構成法の一つとして、チェックポイントロールバック方
式が存在する。このチェックポイントロールバック方式
の計算機システムを実現する方法として、例えばＵＳＰ
−４７４０９６９「METHOD AND APPARATUS FOR RECOVER
ING FROM HARDWARE FAULTS」、或いは、Sequoia:A Faul
t-Tolerant Tightly Coupled Multiprocessor for Tran
saction Processing，IEEE Computer,February 1988 に
開示されるものがある。

【０００４】これらが、どのようにしてチェックポイン
トロールバック方式を実現しているのかを図９を参照し
てその概略を説明する。尚、図中の実線はタイムフレー
ムを示す。

【０００５】これらの技術は、計算機システムを構成す
るハードウェアの間欠故障からのシステムの回復に備
え、システムで稼働するプロセス或いはスレッドのロー
ルバック後の再実行に必要な情報を定期的に保存する。

【０００６】この情報を保存する時点をチェックポイン
トと呼び、その情報を保存することをチェックポイント
の採取と呼ぶ（図９の（１），（２）参照）。計算機シ
ステムを構成するハードウェアの間欠故障の発生（図９
の（３）参照）によってプログラム実行が中断されたと
き、その中断されたプロセス或いはスレッドの状態は障
害発生前のチェックポイントまでロールバックされ（図
９の（４）参照）、プログラムは、そのチェックポイン
トから再実行される（図９の（５）参照）。

【０００７】ここで上記チェックポイント採取処理で保
存される情報には、プロセッサの内部状態、キャッシュ
メモリ、メインメモリ等がある。計算機システムにこの
ような故障回復方式を具備することにより、ハードウェ
アの間欠故障が発生した場合に於いても、システムを停
止させることなく継続して運用することが可能となる。

【０００８】一般に計算機システムに於ける障害には、
上記したようなハードウェアに起因するものと、ソフト
ウェアに起因するものが存在する。上記した従来技術に
於いては、回復の対象とする故障は、ハードウェアの間
欠故障であり、所謂ソフトウェアバグによる、次に挙げ
る各種の障害（以下これらの障害をまとめて「ソフトウ
ェア障害」と称す）がある。

【０００９】その一つは回復が困難なシステムクラッシ
ュであり、他の一つはプロセッサ無限ループ状態といっ
たシステムクラッシュには至らないが、正常なシステム
稼働を阻害する不具合が発生した場合にシステムを継続
して運用することができないソフトウェア障害である。

【００１０】従来では、このようなソフトウェアバグ等
に起因して発生するソフトウェア障害に対して、そのソ
フトウェア障害を除いてシステムを正常復帰させる有効
な回復機能をもつ技術が存在しなかった。

【００１１】即ち、従来では、ハードウェア故障に起因
したハードウェア障害については回復を可能とする有効
な手段が存在したが、ソフトウェアバグに起因して発生
するソフトウェア障害については有効な回復手段が存在
しなかった。

【００１２】

【発明が解決しようとする課題】上述したように、従来
では、ソフトウェアバグ等に起因して発生するソフトウ
ェア障害に対して、そのソフトウェア障害を除いてシス
テムを正常復帰させる有効な回復機能をもつ技術が存在
しなかった。

【００１３】本発明は上記実情に鑑みなされたもので、
ハードウェアの間欠故障からの故障回復のみならず、ソ
フトウェア障害が発生した場合に於いても計算機システ
ムを継続して運用させ、システムの可用性を大幅に向上
させることができる故障回復機能を備えた計算機システ
ムを提供することを目的とする。

【００１４】

【課題を解決するための手段】本発明は、ソフトウェア
バグに起因して発生するシステムクラッシュ或いはプロ
セッサ無限ループ状態のようなシステムクラッシュには
至らないが正常なシステム稼働を阻害する状態となる所
謂ソフトウェア障害の発生を認識して、そのソフトウェ
ア障害の発生を認識した際、当該認識時点の状態情報及
び採取を有効に活用してソフトウェア障害の発生要因を
推定し、又はシステム環境を変化させる等の手段を用い
て、チェックポイント時点までロールバック後、システ
ムを再実行させることにより、前記ソフトウェアバグに
起因して発生するソフトウェア障害を回避することを特
徴とする。

【００１５】即ち、第１の発明は、計算機システムに障
害が発生した場合に、障害発生前の状態からデータ処理
を再実行することにより、耐障害性を実現するチェック
ポイントロールバック方式による故障回復機構を有する
計算機システムに於いて、ハードウェア故障に起因した
ハードウェア障害、又はソフトウェアバグに起因して発
生するシステムクラッシュ或いはプロセッサ無限ループ
状態のようなシステムクラッシュには至らないが正常な
システム稼働を阻害する状態となる所謂ソフトウェア障
害が発生した場合に、前記ハードウェア障害と前記ソフ
トウェア障害とを切り分ける障害識別手段と、前記ソフ
トウェア障害が発生した場合に障害発生時のシステムの
状況を記録するシステム状況記録手段と、前記ソフトウ
ェア障害に関する発生要因を推定するソフトウェア障害
発生要因推定手段と、前記ソフトウェア障害発生要因推
定手段により推定された、ソフトウェア障害発生要因に
関する回避方法を推定するソフトウェア障害回避方法推
定手段と、チェックポイント時点までロールバック後、
前記ソフトウェア障害回避方法推定手段によって推定さ
れた前記ソフトウェア障害発生要因に関する回避方法を
実施するソフトウェア障害回避方法実施手段とを具備し
て、システムを再実行することにより、前記ソフトウェ
アバグに起因して発生するソフトウェア障害を回避する
ことを特徴とする。

【００１６】このように、ソフトウェア障害の発生に伴
う障害要因の解析手段、当該解析に基づく障害回避アク
ションの推定手段、ロールバックにより障害発生前の状
態に戻りこれらの障害回避アクションを実施する手段等
を備えて、ソフトウェア障害を積極的に除去した後、シ
ステムを再実行する機能を付加することにより、チェッ
クポイントロールバック方式によるハードウェアの間欠
故障のみを対象とした故障回復に加えて、ソフトウェア
障害からの故障回復を可能とし、計算機システムの可用
性を向上させることができる。

【００１７】第２の発明は、計算機システムに障害が発
生した場合に、障害発生前の状態からデータ処理を再実
行することにより、耐障害性を実現するチェックポイン
トロールバック方式による故障回復機構を有する計算機
システムに於いて、ハードウェア故障に起因したハード
ウェア障害又はソフトウェアバグに起因して発生するソ
フトウェア障害が発生した場合に、前記ハードウェア障
害と前記ソフトウェア障害とを切り分ける障害識別手段
と、前記ソフトウェア障害が発生した場合に障害発生時
のシステムの状況を記録するシステム状況記録手段と、
チェックポイント時点までロールバック後、前記ソフト
ウェア障害に関してソフトウェア障害発生時の状況から
プログラム実行環境を変化させるソフトウェア実行環境
操作手段とを具備して、システムを再実行することによ
り、前記ソフトウェアバグに起因して発生する、ソフト
ウェア障害を回避することを特徴とする。

【００１８】このように、ソフトウェア障害の発生を検
知し、ソフトウェア障害の発生に伴い、ロールバックに
より障害発生前の状態に戻り、障害発生をもたらしたソ
フトウェア実行環境を変化させた後、システムを再実行
する手段を付加した構成とすることにより、従来のチェ
ックポイントロールバック方式によるハードウェア間欠
故障のみを対象とした故障回復に加えて、ソフトウェア
障害からの故障回復を可能とし、計算機システムの可用
性を向上させることができる。

【００１９】第３の発明は、システムに障害が発生した
とき障害発生前の状態からデータ処理を再実行すること
により耐障害性を実現するチェックポイントロールバッ
ク方式による故障回復機構を有する計算機システムであ
って、システムに障害が発生したとき、当該障害がソフ
トウェアバグに起因して発生するソフトウェア障害であ
ることを識別する障害識別手段と、前記障害識別手段で
ソフトウェア障害の発生を認識したとき障害発生時のシ
ステムの状況を記録するシステム状況記録手段と、前記
システム状況記録手段により記録された情報をもとにソ
フトウェア障害に関する発生要因を推定するソフトウェ
ア障害発生要因推定手段と、前記ソフトウェア障害発生
要因推定手段により推定された、ソフトウェア障害発生
要因に関する回避方法を推定するソフトウェア障害回避
方法推定手段と、前記ソフトウェア障害回避方法推定手
段によって推定された前記ソフトウェア障害発生要因に
関する回避方法をロールバック後に実施するソフトウェ
ア障害回避方法実施手段と、前記システム状況記録手段
により記録された情報をもとに、ロールバック後の再実
行時に於けるプログラム実行環境を変化させるソフトウ
ェア実行環境操作手段とを具備して、ソフトウェア障害
の発生時に於いて前記ソフトウェア障害に関する発生要
因の推定による回避方法の推定が困難な場合に前記ソフ
トウェア実行環境操作手段によりソフトウェア実行環境
を操作した後、システムを再実行して、ソフトウェアバ
グに起因して発生するソフトウェア障害を回避すること
を特徴とする。

【００２０】このように、ソフトウェア障害回避方法推
定手段によって推定されたソフトウェア障害発生要因に
関する回避方法を実施するソフトウェア障害回避方法実
施手段により実現される、ソフトウェア障害を積極的に
除去した後にチェックポイントからのシステムを再スタ
ートする機能と、ソフトウェア障害発生時の状況からプ
ログラム実行環境を変化させる、ソフトウェア実行環境
操作手段により実現される、ソフトウェア実行環境を変
化させた後、チェックポイントからのシステムを再スタ
ートする機能とを組み合わせることにより、ソフトウェ
ア障害に関する回避率を向上させて、より計算機システ
ムの可用性を向上させることができる。

【００２１】第４の発明は、少なくとも前記ソフトウェ
ア障害回避方法実施手段により実施されるソフトウェア
障害発生要因に関する回避方法、又は前記ソフトウェア
実行環境操作手段により実施される複数のソフトウェア
実行環境操作の方法による処理を、ソフトウェア障害が
回避されるまで、規定回数内で、繰り返し実施すること
を特徴とする。

【００２２】このように、一つのソフトウェア障害に関
して、ソフトウェア障害回避方法実施手段により実施さ
れるソフトウェア障害発生要因に関する回避方法、及び
ソフトウェア実行環境操作手段により実施される複数の
ソフトウェア実行環境操作の方法が、当該ソフトウェア
障害の回避まで、規定回数内で、繰り返し実施されるこ
とにより、ソフトウェア障害に関する回避率を高めるこ
とができる。

【００２３】第５の発明は、前記ソフトウェア障害回避
方法実施手段、或いは前記ソフトウェア実行環境操作手
段を実施し、システムを再実行した後に於いて、再びソ
フトウェア障害が出現したとき、障害要因を有するソフ
トウェアモジュールをシステムから切り離した後、シス
テムを再実行することにより、前記ソフトウェアバグに
起因して発生するソフトウェア障害を回避することを特
徴とする。

【００２４】このように、関連するモジュールを切り離
して不具合発生を未然に防止することにより、最終的な
ソフトウェア障害を回避することが可能となる。第６の
発明は、前記ソフトウェア障害回避方法実施手段、又は
前記ソフトウェア実行環境操作手段を実施し、システム
を再実行した後に於いて、再びソフトウェア障害が出現
した場合、ソフトウェア障害を誘発させた、プロセス或
いはスレッドをシステムから抹消した後、システムを再
実行することを特徴とする。

【００２５】このような機能を付加して、ソフトウェア
障害を誘発させたプロセス或いはスレッドを抹消するこ
とにより、不具合発生を未然に防いで、最終的なソフト
ウェア障害を回避することが可能となる。

【００２６】第７の発明は、前記第５の発明に於いて、
障害要因を有するソフトウェアモジュールから、障害要
因を除去したソフトウェアモジュールに、動的且つシス
テム停止を伴うことなく切り替えることを特徴とする。

【００２７】このような機能を付加して、切り離された
モジュールに関して不具合を修正後、ハードウェア部品
の部品交換のように入れ替え可能とすることによりシス
テムの可用性を高めることができる。

【００２８】第８の発明は、少なくとも前記ソフトウェ
ア障害回避方法実施手段又は前記ソフトウェア実行環境
操作手段による動作をソフトウェア障害が回避されるま
で規定回数内で繰り返し実施した後に於いて、再びソフ
トウェア障害が出現した場合、システムの再立ち上げを
実施することを特徴とする。

【００２９】このような機能を付加することにより、種
々のソフトウェア障害回避策を有限回実施することで、
回避策の無限回の適用を回避できる。第９の発明は、前
記システム状況記録手段が、ソフトウェア障害発生時の
システムの状況を、ソフトウェア障害発生要因を解析す
るための提供情報として、ロールバックされないメモリ
領域或いは不揮発性の記憶装置に記録することを特徴と
する。

【００３０】このように、ソフトウェア障害に関する情
報をロールバックされないメモリ領域或いは不揮発性の
記憶装置に記録することにより、障害に関する原因解析
を可能としたシステムの保守性を高めることが可能とな
る。

【００３１】第１０の発明は、前記ソフトウェア障害発
生要因推定手段が、推定した障害発生要因を、障害発生
要因を解析するための提供情報として、ロールバックさ
れないメモリ或いは不揮発性の記憶装置に記録すること
を特徴とする。

【００３２】このように、ソフトウェア障害回避に実施
された発生要因をロールバックされないメモリ或いは不
揮発性の記憶装置に記録することにより障害発生後のシ
ステムの保守性を高めることが可能となる。

【００３３】第１１の発明は、前記ソフトウェア障害回
避方法推定手段が、推定したソフトウェア障害発生要因
に関する回避方法を、障害回避方法を実施するための提
供情報として、ロールバックされないメモリ或いは不揮
発性の記憶装置に記録することを特徴とする。

【００３４】このように、ソフトウェア障害回避に実施
された発生要因をロールバックされないメモリ或いは不
揮発性の記憶装置に記録することにより、障害発生後の
システムの保守性を高めることが可能となる。

【００３５】第１２の発明は、前記システム状況記録手
段が、ソフトウェア障害発生時のシステムのメモリ、各
種装置に関するデータ等のダンプを、ユーザの要求に応
じて外部記憶装置に書き出し、ソフトウェア障害発生要
因を解析するための情報として提供することを特徴とす
る。

【００３６】このような機能を付加して、ソフトウェア
障害に関するシステムのダンプ情報を記録することによ
り、障害に関する原因解析を可能とし、システムの保守
性を高めることが可能となる。

【００３７】第１３の発明は、前記ソフトウェア実行環
境操作手段が、稼働するプロセッサ数を、ソフトウェア
実行環境操作の一つとして変更する手段を含むことを特
徴とする。

【００３８】このような機能を備えて、稼働するプロセ
ッサ数を変更し、不具合発生を未然に防止することによ
り、ソフトウェア障害を回避することができる。第１４
の発明は、前記ソフトウェア実行環境操作手段が、ソフ
トウェア障害を誘発させたプロセス或いはスレッドに関
するスタック上の自動変数領域を、ソフトウェア実行環
境操作の一つとしてクリアする手段を含むことを特徴と
する。

【００３９】このように、自動変数初期化忘れ対策とし
て、これを積極的にクリアし、不具合の発生を未然に防
止することにより、ソフトウェア障害を回避することが
可能となる。

【００４０】第１５の発明は、前記ソフトウェア実行環
境操作手段が、ソフトウェア実行環境操作の一つとし
て、システムで使用するリソースを動的に補充する手段
を含むことを特徴とする。

【００４１】このような手段を備えて、リソース不足に
よる不具合発生を未然に防止することにより、ソフトウ
ェア障害を回避することが可能とする。第１６の発明
は、前記ソフトウェア実行環境操作手段が、ソフトウェ
ア実行環境操作の一つとして、入出力要求の発行タイミ
ングを調整する手段を含むことを特徴とする。

【００４２】このような手段を備えて、入出力要求に関
する発行タイミングを変更し、不具合発生を未然に防止
することにより、ソフトウェア障害を回避することが可
能となる。

【００４３】第１７の発明は、前記ソフトウェア障害回
避方法実施手段に於いて、ソフトウェア障害発生要因
が、物理メモリ上にロードされていない仮想メモリへの
アクセスであるとソフトウェア障害発生要因推定手段に
より推定され、ソフトウェア障害回避方法推定手段に於
いて、当該ソフトウェア障害発生要因に関する回避方法
として、仮想メモリに関する物理メモリを確保すること
と推定されたとき、前記推定された回避方法を実施する
ことを特徴とする。

【００４４】このような手段を備えて、ページング不可
状況の発生を未然に防止することにより、ソフトウェア
障害を回避することが可能となる。第１８の発明は、前
記ソフトウェア障害回避方法実施手段に於いて、ソフト
ウェア障害発生要因が、マルチプロセッサ環境に於ける
排他制御に関するデッドロックであるとソフトウェア障
害発生要因推定手段により推定され、ソフトウェア障害
回避方法推定手段に於いて、当該ソフトウェア障害発生
要因に関する回避方法として、稼働するプロセッサ数の
変更、及び排他制御を実施するコードを変更することと
推定されたとき、前記推定された回避方法を実施するこ
とを特徴とする。

【００４５】このような手段を備えて、デッドロック状
況の発生を未然に防止することにより、ソフトウェア障
害を回避することが可能となる。第１９の発明は、前記
マルチプロセッサ環境に於ける排他制御に関するデッド
ロックに関する回避方法を実施して、システムの再実行
後、ソフトウェア障害の回避がなされた場合、その後の
チェックポイント採取手段の一環で、稼働するプロセッ
サ数及び排他制御を実施するコードを元の状態に戻し、
システムをソフトウェア障害発生前のシステムの運用状
態にすることを特徴とする。

【００４６】このような手段を備えて、障害回避手段と
して実施したシステムへの変更（システム運用にあたっ
ての仕様縮小）状態を、障害回避後に於いて解除する
（元に戻す）ことにより、障害排除後、システムを通常
状態に戻すことができ、良好なシステム運用が可能とな
る。

【００４７】第２０の発明は、前記ロールバックされな
いメモリ或いは不揮発性の記憶装置に記載された情報
が、ソフトウェア障害回避後、チェックポイント採取手
段の一環として、計算機システムがもつシステムのログ
機構を介して記憶されることを特徴とする。

【００４８】このような手段を備えて、ソフトウェア障
害回避に実施された状況を、障害回復後のチェックポイ
ント時点でシステムのログ機構を陽に起動することによ
り、システムのログに残すことで、障害発生後のシステ
ムの保守性を高めることが可能となる。

【００４９】

【発明の実施の形態】以下図面を参照して本発明の実施
の形態を説明する。図１は本発明の一実施の形態に係る
計算機システム全体の構成を示すブロック図である。

【００５０】図１に於いて、１０はシステムの制御を司
るプロセッサであり、２０はプロセッサ１０にバスを介
して接続された主記憶をなすメモリ、３０は同じくバス
を介して接続された不揮発性メモリである。ここでは、
ソフトウェア障害発生時のシステムの状況、ソフトウェ
ア障害発生要因、ソフトウェア障害回避方法等の各情報
が、少なくとも、メモリ２０のロールバックされないメ
モリ領域、又は不揮発性メモリ３０のいずれかに記憶さ
れる。

【００５１】１００乃至１０８はそれぞれプロセッサ１
０がもつ故障回復機構を実現するためのオペレーティン
グシステムの構成要素をなすもので、１００はシステム
のチェックポイントを採取するチェックポイント採取手
段、１０１は故障発生時にチェックポイントへロールバ
ックするチェックポイントロールバック手段、１０２は
システムを再スタートさせるシステム再実行手段であ
る。

【００５２】１０３はハードウェア故障に起因したハー
ドウェア障害、或いはソフトウェアバグに起因したソフ
トウェア障害の発生時に、ハードウェア障害、或いはソ
フトウェア障害を切り分ける障害識別手段である。

【００５３】１０４は前記障害識別手段１０３により当
該故障がソフトウェア障害と判断された場合に、障害発
生時のシステムの状況（プロセッサのレジスタ、スタッ
クの内容等）を記録するシステム状況記録手段である。

【００５４】１０５はソフトウェア障害の発生時に当該
ソフトウェア障害に関する発生要因を推定するソフトウ
ェア障害発生要因推定手段、１０６は当該ソフトウェア
障害を回避する方法を推定するソフトウェア障害回避方
法推定手段である。

【００５５】１０７は前記システム再実行手段１０２に
よるシステム再実行前に、前記ソフトウェア障害回避方
法推定手段１０６によって推定された、当該ソフトウェ
ア障害回避方法を実施するソフトウェア障害回避方法実
施手段である。

【００５６】１０８は前記ソフトウェア障害発生要因推
定手段１０５により、当該ソフトウェア障害に関する発
生要因を推定することが困難な場合にロールバック後、
実施されるソフトウェア実行環境操作手段である。

【００５７】メモリ２０には、障害識別手段１０３によ
って、故障がソフトウェア障害であると判断された場
合、当該ソフトウェア障害発生時のシステムの状況（プ
ロセッサのレジスタ、スタックの内容等）が、前記シス
テム状況記録手段１０４によって記録されるソフトウェ
ア障害発生状況記録領域２００、ソフトウェア障害発生
要因推定手段１０５によって推定された当該ソフトウェ
ア障害に関する発生要因が記録されるソフトウェア障害
発生要因ログ２０１、及び、当該ソフトウェア障害に関
してソフトウェア障害回避方法推定手段１０６によって
推定される当該ソフトウェア障害回避方法が記録される
ソフトウェア障害回避方法記録領域２０２等が設けられ
る。

【００５８】不揮発性メモリ３０には、上記ソフトウェ
ア障害発生状況記録領域２００と同様の内容が記録され
るソフトウェア障害発生状況記録領域３００、上記ソフ
トウェア障害発生要因ログ２０１と同様の内容が記録さ
れるソフトウェア障害発生要因ログ３０１、及び、上記
ソフトウェア障害回避方法記録領域２０２と同様の内容
が記録されるソフトウェア障害回避方法記録領域３０２
等が設けられる。

【００５９】上記メモリ２０と、不揮発性メモリ３０と
は、計算機システムにその双方或いはいずれかを選択的
に具備することができる。但し、メモリ２０を具備する
場合には、チェックポイントロールバックによって、ロ
ールバックされないメモリである必要がある。

【００６０】図２は上記プロセッサ１０上で動作する上
記一連の手段の関係を示すブロック図であり、図１と同
一部分に同一符号を付して示している。通常のシステム
運用に於いて、チェックポイント採取手段１００は、チ
ェックポイント採取の条件が成立すると、システムのチ
ェックポイントを採取し、何等かの障害が発生した場合
に、チェックポイントロールバック手段１０１によりチ
ェックポイント時点にロールバックし、システム再実行
手段１０２によりチェックポイント時点からデータ処理
を再実行することにより耐障害性を実現する。

【００６１】以上を念頭に、図３に示すフローチャート
を参照しながら故障発生に伴う本発明の第１の実施形態
に係る計算機システムの動作の流れを説明する。システ
ムに障害が発生すると、障害識別手段１０３は、発生し
た障害が、ハードウェア障害（ハードウェアの故障に起
因するもの）であるか、ソフトウェア障害（ソフトウェ
アのバグに起因するもの）であるかの切り分けを実施す
る（図３ステップＳ１）。

【００６２】一般に、ハードウェア障害の検出は、ハー
ドウェア機構により実施され、故障割り込みによりソフ
トウェアに通知される。一方、ソフトウェア障害の検出
は、ソフトウェアによるロジック一貫性チェック（アサ
ートやパニックルーチン等）、或いはエクセプション等
により検出される。

【００６３】前記障害識別手段１０３は、これら検出機
構を通じて実施され、障害の識別を行なう。ここで、故
障要因がハードウェア障害であると判断された場合に
は、チェックポイントロールバック手段１０１により、
システムのロールバックを実施する（図３ステップＳ
１，Ｓ８）。

【００６４】この実施形態では、ハードウェア障害に関
する対応については、一般のチェックポイントロールバ
ック方式の計算機と同じであるため、その詳細な説明は
省略する。

【００６５】故障要因がソフトウェア障害と判断された
場合には、システム状況記録手段１０４によって、障害
発生時のシステムの状況（プロセッサのレジスタ、スタ
ックの内容等）を、ソフトウェア障害発生状況記録領域
２００，３００に記録する（図３ステップＳ３）。尚、
オプションによって、この時点で、不具合発生時のシス
テムのメモリ、各種装置に関するデータ等のダンプを外
部記憶装置に書き出すことも可能である。

【００６６】上記ソフトウェア障害に関して、ここでは
［故障回復に要するシステムリカバリ時間（ダウンタイ
ムの短縮化による早期回復）］、［不具合発生時、より
詳細なシステム情報の獲得］のいずれを必要とするかに
より、適宜、ユーザに処理を選択させる。

【００６７】ソフトウェア障害発生要因推定手段１０５
は、当該ソフトウェア障害発生要因が推定できるか否か
を判断し、推定が不可能の場合、チェックポイントロー
ルバック手段１０１により、システムのロールバックを
実施する（図３ステップＳ４）。

【００６８】又、当該ソフトウェア障害発生要因の推定
が可能な場合は、ソフトウェア障害発生要因推定手段１
０５によって推定された当該ソフトウェア障害に関する
発生要因を、ソフトウェア障害発生要因ログ２０１，３
０１に記録する（図３ステップＳ５）。

【００６９】続いて、当該ソフトウェア障害を回避する
方法をソフトウェア障害回避方法推定手段１０６が推定
し（図３ステップＳ６）、当該ソフトウェア障害回避方
法を、ソフトウェア障害回避方法記録領域２０２，３０
２に記録し（図３ステップＳ７）、チェックポイントロ
ールバック手段１０１により、システムのロールバック
を実施する（図３ステップＳ８）。

【００７０】チェックポイントロールバック後、発生し
た障害が、ソフトウェアバグであるか、ハードウェア障
害であるかを判断し、ハードウェア障害と判断された場
合には、システム再実行手段１０２による再実行処理を
実施する（図３ステップＳ９，Ｓ１４）。

【００７１】ソフトウェア障害の場合には、当該ソフト
ウェア障害に関する一連のリカバリ処理が初めて実施さ
れたか否かを判断し（図３ステップＳ１１）、初めて実
施の場合には、ソフトウェア障害回避方法推定手段１０
６による、当該ソフトウェア障害回避方法が推定されて
いるか否かを、ソフトウェア障害回避方法記録領域２０
２，３０２より判断し（図３ステップＳ１２）、推定さ
れている場合には、前記ソフトウェア障害回避方法記録
領域２０２，３０２の情報から、当該ソフトウェア障害
回避方法を、ソフトウェア障害回避方法実施手段１０７
により実施した後（図３ステップＳ１３）、システム再
実行手段１０２を実施する（図３ステップＳ１４）。

【００７２】ソフトウェア障害回避方法推定手段１０６
により、当該ソフトウェア障害回避方法が推定されてい
ない場合には、ソフトウェア実行環境操作手段１０８を
実施した後（図３ステップＳ１５）、システム再実行手
段１０２を実施する（図３ステップＳ１４）。

【００７３】当該ソフトウェア障害に関する一連のリカ
バリ処理が２回目の実施の場合（初めに実施したソフト
ウェア障害回避方法が有効でなく再びソフトウェア障害
が発生した場合）には（図３ステップＳ１６）、障害要
因を有するソフトウェアモジュールをシステムから切り
離すか、或いは、障害要因を誘発したと考えられるプロ
セス（或いはスレッド）をシステムから抹消する（図３
ステップＳ１７）。

【００７４】当該ソフトウェア障害に関する一連のリカ
バリ処理が３回目の実施の場合（２回目に実施した処理
が有効でなく、再びソフトウェア障害が発生した場合）
には、システムの再立ち上げを実施する（図３ステップ
Ｓ１８）。

【００７５】次に図４に示すフローチャートを参照しな
がら故障発生に伴う本発明の第２実施形態に係る計算機
システムの動作の流れを説明する。システムに障害が発
生すると、障害識別手段１０３は、発生した障害がハー
ドウェア障害であるか、ソフトウェア障害であるかの切
り分けを実施する（図４ステップＦ１）。

【００７６】故障要因がハードウェア障害と判断された
場合には、チェックポイントロールバック手段１０１に
より、システムのロールバックを実施する（図４ステッ
プＦ１，Ｆ８）。

【００７７】故障要因がソフトウェア障害と判断された
場合には、システム状況記録手段１０４によって、障害
発生時のシステムの状況（プロセッサのレジスタ、スタ
ックの内容等）を、ソフトウェア障害発生状況記録領域
２００，３００に記録する（図４ステップＦ３）。尚、
オプションによって、この時点で、不具合発生時のシス
テムのメモリ、各種装置に関するデータ等のダンプを外
部記憶装置に書き出すことも可能である。

【００７８】上記第１実施形態と同様に［故障回復に要
するシステムリカバリ時間（ダウンタイムの短縮化によ
る早期回復）］、［不具合発生時、より詳細なシステム
情報の獲得］のいずれを必要とするかにより、適宜、ユ
ーザに処理を選択させる。

【００７９】ソフトウェア障害発生要因推定手段１０５
は、当該ソフトウェア障害発生要因が推定できるか否か
を判断し、推定が不可能の場合は、チェックポイントロ
ールバック手段１０１により、システムのロールバック
を実施する（図４ステップＦ４）。

【００８０】又、当該ソフトウェア障害発生要因の推定
が可能な場合は、ソフトウェア障害発生要因推定手段１
０５によって推定された当該ソフトウェア障害に関する
発生要因を、ソフトウェア障害発生要因ログ２０１，３
０１に記録する（図４ステップＦ５）。

【００８１】続いて、当該ソフトウェア障害を回避する
方法をソフトウェア障害回避方法推定手段１０６が推定
し（図４ステップＦ６）、当該ソフトウェア障害回避方
法を、ソフトウェア障害回避方法記録領域２０２，３０
２に記録し（図４ステップＦ７）、チェックポイントロ
ールバック手段１０１により、システムのロールバック
を実施する（図４ステップＦ８）。

【００８２】チェックポイントロールバック後、故障原
因がソフトウェア障害に起因するものであるか、ハード
ウェア障害に起因するものであるかを判断し（図４ステ
ップＦ９）、ハードウェア障害に起因すると判断された
場合には、システム再実行手段１０２を実施する（図４
ステップＦ９，Ｆ１４）。

【００８３】故障原因がソフトウェア障害に起因する場
合には、当該ソフトウェア障害による一連のリカバリ処
理が規定回数「Ｎ」以内の実施か否かを判断し（図４ス
テップＦ１１）、規定回数「Ｎ」以内の実施の場合に
は、ソフトウェア障害回避方法推定手段１０６により、
当該ソフトウェア障害回避方法が推定されているか否か
を、ソフトウェア障害回避方法記録領域２０２，３０２
の情報により判断し（図４ステップＦ１２）、推定され
ている場合には、前記ソフトウェア障害回避方法記録領
域２０２，３０２の情報から、当該ソフトウェア障害回
避方法を、ソフトウェア障害回避方法実施手段１０７に
より実施した後（図４ステップＦ１３）、システム再実
行手段１０２を実施する（図４ステップＦ１４）。

【００８４】ソフトウェア障害回避方法推定手段１０６
により当該ソフトウェア障害回避方法が推定されていな
い場合には、ソフトウェア実行環境操作手段１０８を実
施した後（図４ステップＦ１５）、システム再実行手段
１０２を実施する（図４ステップＦ１４）。

【００８５】当該ソフトウェア障害による一連のリカバ
リ処理が規定回数「Ｎ」以内の実施でない場合には、シ
ステムの立ち上げを実施する（図４ステップＦ１６）。
一つのソフトウェア障害発生に関して、これがシステム
から回避されるまでの間、上記ステップＦ１乃至ステッ
プＦ１４の処理を、規定回数「Ｎ」回を上限に繰り返し
実施する。

【００８６】一般に、第１のソフトウェア障害発生に関
して、第１の障害回避方法を実施し、システムを再実行
した後、第２のソフトウェア障害が発生する場合、その
発生要因は、第１のソフトウェア障害発生時の発生要因
と同一か或いは異なる要因となる。以降、規定回数
「Ｎ」以内の一連の処理については、個々に障害発生要
因を分析し各障害要因に応じた処理を個別に実施するこ
とを特徴とする。

【００８７】次に、本発明の実施形態を具体的なソフト
ウェア障害を例に説明する。先ず、第１の具体的なソフ
トウェア障害を例に本発明の実施形態を説明する。この
実施形態では、仮想メモリに関するアクセスでエクセプ
ションが発生した場合に関する。

【００８８】一般にページング機構を有するオペレーテ
ィングシステムでは、物理メモリ上に存在しない、仮想
メモリへのアクセスに関して、プロセッサからのページ
フォルトのエクセプションをトリガとして、該当ページ
を外部記憶装置等からローディング（ページイン）する
ことによりデマンドページングを実現している。

【００８９】この場合、ページングの対象となる仮想メ
モリページでは、ページング入出力処理が可能な状況で
アクセスされなければならない。即ち、オペレーティン
グシステムの割込みハンドラ等、割り込みの延長として
プログラム実行される部分は、一般にページングの対象
としてはならず、ソフトウェアモジュールを作成する際
に、常に、物理メモリ上に常駐するように考慮する必要
がある。

【００９０】一般に、上記割込みハンドラの物理ページ
への常駐処理の考慮を怠った場合、オペレーティングシ
ステムは、当該仮想メモリへのページイン処理を不可能
と判断し、システムをクラッシュさせる。

【００９１】図５は、上記障害発生時に、本発明によっ
てどのように回復処理を実施するかを示す概念図であ
る。尚、図中の実線はタイムフレームを示す。チェック
ポイント採取後（図５の（１））、上記のような状況に
於いて、本来常駐されていて、その仮想ページに関する
アクセス時点（図５の（２））でページフォルトを発生
すべきでないページへのアクセスによりページフォルト
のエクセプションがプロセッサからオペレーティングシ
ステムに通知される（図５の（３））。

【００９２】一般にオペレーティングシステムでは、前
記ページフォルトのエクセプション発生から、ページフ
ォルトハンドラが実施され、当該ページフォルトのエク
セプションによるページング処理が可能か否かのチェッ
クを実施する（図５の（４））。

【００９３】このチェックは、ページフォルト発生時、
［仮想ページが割り込みハンドラである］、［割り込み
マスクがページング入出力で使用される割り込みより高
い］等の条件に合致する場合、ページング不可能と判断
する。

【００９４】通常のオペレーティングシステムでは、こ
の後、システムのメモリダンプ等を採取するなどして、
クラッシュ後、リブートされる。本発明の実施形態で
は、前記ページング不可能と判断した後、その時点での
システム状況（プロセッサのレジスタ、オペレーティン
グシステムのスタック情報等）をロールバックされない
メモリ或いは不揮発性の記憶装置に記録し（図５の
（５））、障害要因を解析するための情報を提供する。

【００９５】前記記録されたログ情報から、前記ソフト
ウェア障害発生要因推定手段（図１、図２の符号１０
５）を介し、当該ソフトウェア障害発生要因を推定し、
前記ソフトウェア障害回避方法推定手段（図１、図２の
符号１０６）の一環として、リカバリ処理として実施す
べき動作を推定し、その動作をロールバックされないメ
モリ或いは不揮発性の記録装置に記録する（図５の
（６））。

【００９６】その後、チェックポイント時点までロール
バックする（図５の（７））。ロールバック後、前記リ
カバリ処理として推定され、ロールバックされないメモ
リ或いは不揮発性の記録装置に記録された動作を、前記
ソフトウェア障害回避方法実施手段（図１、図２の符号
１０７）の一環として実施する（図５の（８））。

【００９７】この実施形態の場合には、当該ソフトウェ
ア障害回避方法実施手段（図１、図２の符号１０７）
は、先にページフォルトのエクセプションが発生した仮
想ページをページインするものである。

【００９８】この後、システム再実行手段（図１、図２
の符号１０２）によりシステムをチェックポイント時点
から再スタートさせる（図５の（９））。これらの処理
を実施することにより、再実行によりページフォルトが
発生した当該仮想ページに関するアクセスが再び発生し
た場合に於いて（図５の（１０））、ページフォルトの
発生を抑止し、システムクラッシュを回避することによ
り良好なシステム運用を可能とするものである。

【００９９】次に、第２の具体的なソフトウェア障害を
例に本発明の実施形態を説明する。この実施形態では、
マルチプロセッサ環境に於ける排他制御処理で同一のス
ピンロックを二重に確保することによるデッドロックに
関する。

【０１００】図６は、上記障害発生時に、本発明によっ
てどのように回復処理を実施するかを示す概念図であ
る。尚、図中の実線はタイムフレームを示す。チェック
ポイント採取後（図６の（１））、同一のスピンロック
を二重に確保することによるデッドロックが発生（図６
の（２））し、スピンロック処理に予め規定されたスピ
ンロックカウンタを設け、このカウンタのオーバフロー
によりデッドロックを検出する、デッドロック故障検出
処理を具備することにより、デッドロック発生時に、オ
ペレーティングシステムに故障発生を通知する（図６の
（３））。

【０１０１】この際、デッドロックが発生したこと、デ
ッドロックが発生したロックの種類、デッドロック発生
に至ったオペレーティングシステムでの関数の呼び出し
状況等を前記ロールバックされないメモリ或いは不揮発
性の記憶装置に記録し、障害要因を解析するための情報
を提供する。

【０１０２】前記記録されたログ情報から、前記ソフト
ウェア障害発生要因推定手段を介し当該ソフトウェア障
害発生要因を推定し、前記ソフトウェア障害回避方法推
定手段の一環として、リカバリ処理として実施すべき動
作を推定し、その動作をロールバックされないメモリ或
いは不揮発性の記録装置に記録する（図６の（４））。

【０１０３】その後、チェックポイント時点までロール
バックする（図６の（５））。ロールバック後、前記リ
カバリ処理として推定され、ロールバックされないメモ
リ或いは不揮発性の記録装置に記録された動作を前記ソ
フトウェア障害回避方法実施手段（図１、図２の符号１
０７）の一環として実施する（図６の（６））。

【０１０４】この実施形態の場合には、当該ソフトウェ
ア障害回避方法実施手段（図１、図２の符号１０７）
は、システムをシングルプロセッサモードに移行する
（例えば、単一のプロセッサに全てのスレッドをバイン
ド、ロック処理プリミティブ関数を、ロック変数を操作
しない割り込みマスク処理関数に変更する）等の処理を
実施する。

【０１０５】この後、システム再実行手段（図１、図２
の符号１０２）によりシステムをチェックポイント時点
から再スタートさせる（図６の（７））。これらの処理
を実施することにより、再実行により同一のロックを二
重に確保することが再び発生した場合に於いて（図６の
（８））、デッドロックの発生を抑止し、プロセッサ無
限ループ状態のようなシステムクラッシュには至らない
が正常なシステム稼働を阻害するソフトウェア障害を回
避して、良好なシステム運用を可能とする。

【０１０６】尚、或る時間を経過して、前記ソフトウェ
ア障害が回避された後は、シングルプロセッサモードか
らマルチプロセッサモードに戻し、計算機システムを通
常の状態に戻す（図６の（９））。

【０１０７】次に、第３の具体的なソフトウェア障害を
例に本発明の実施形態を説明する。この実施形態では、
ソフトウェアモジュールでのロジックミスによる、デー
タ破壊等のソフトウェア障害発生に関する。

【０１０８】図７は上記障害発生時に本発明によってど
のように回復処理を実施するかを示す概念図である。
尚、図の実線はタイムフレームを示す。チェックポイン
ト採取後（図７の（１））、或るソフトウェアモジュー
ルでのロジックミスにより、データ破壊が発生し（図７
の（２））し、これを原因として、不正アドレスへのア
クセスによるエクセプションの発生、或いは、ソフトウ
ェアによるロジック一貫性チェックルーチン（アサート
やパニックルーチン等）によりソフトウェア障害が検出
され（図７の（３））、オペレーティングシステムに通
知される（図７の（４））。

【０１０９】通常のオペレーティングシステムでは、こ
の後、システムのメモリダンプ等を採取するなどして、
クラッシュ後、リブートされる。本発明の実施形態で
は、この時点でのシステム状況（プロセッサのレジス
タ、オペレーティングシステムのスタック情報等）をロ
ールバックされないメモリ或いは不揮発性の記憶装置に
記録し（図７の（５））、障害要因を解析するための情
報を提供する。

【０１１０】前記記録されたログ情報から、前記ソフト
ウェア障害発生要因推定手段（図１、図２の符号１０
５）を介して、当該ソフトウェア障害発生要因の推定を
試みる。

【０１１１】一般にこの実施形態にあるような、ソフト
ウェアモジュールのロジックミスによるデータ破壊に関
しては、前記第１及び第２実施形態にあるような典型的
な障害要因の推定は困難である。

【０１１２】そこで、この種の障害発生要因を推定する
ことが困難な状況に於いては、チェックポイント時点ま
でロールバック（図７の（６））した後、前記ソフトウ
ェア実行環境操作手段により、［シングルプロセッサモ
ードへ移行（全てのスレッド、資源を単一プロセッサに
バインド）］、［稼働していたスレッドのスタック上の
自動変数領域をクリア（自動変数の初期化忘れを回
避）］、［システムで使用するリソースの補充（リソー
ス枯渇によるクラッシュ回避）］、［入出力要求発行の
タイミングを調整（入出力要求に伴う発行タイミング、
割込みタイミングの変更による障害発生ケースの回
避）］等、ソフトウェア障害の発生するタイミングを変
化させることにより、前記ソフトウェア障害発生要因を
回避する可能性のある一連のソフトウェア障害回避方法
を実施（図７の（７））した後、システム再実行手段
（図１、図２の符号１０２）により、システムをチェッ
クポイント時点から再スタートさせる（図７の（８））
手続きを介して、ソフトウェア実行環境を操作すること
により、ソフトウェア障害発生を回避する。

【０１１３】以上の一連の処理を実施後、再度ソフトウ
ェア障害に起因した故障が発生する場合も考えられる。
このような状況に於ける処理方法については、次に示す
第４の具体的なソフトウェア障害を例にした本発明の実
施形態に於ける障害回避処理を実施する。

【０１１４】次に、第４の具体的なソフトウェア障害を
例に本発明の実施形態を説明する。この実施の形態で
は、前記第３の具体的なソフトウェア障害を例にした実
施形態によるソフトウェア障害回避策を適用した後、再
びソフトウェア障害が発生して、ソフトウェア障害を回
避することが困難な状況にある場合に関する。

【０１１５】図８は、上記障害発生時に本発明によって
どのように回復処理を実施するかを示す概念図である。
尚、図中の実線はタイムフレームを示す。前記第３の具
体的なソフトウェア障害を例にした実施形態によるソフ
トウェア障害回避処理を実施後、再びソフトウェア障害
が発生（図８（２））し、これを原因とした不正アドレ
スへのアクセスによるエクセプションの発生、或いはソ
フトウェアによるロジック一貫性チェックルーチン（ア
サートやパニックルーチン等）によりソフトウェア障害
が検出され（図８の（３））、オペレーティングシステ
ムに通知される（図８の（４））。

【０１１６】通常のオペレーティングシステムでは、こ
の後、システムのメモリダンプ等を採取するなどして、
クラッシュ後、リブートされる。本発明の実施の形態で
は、この時点でシステム状況（プロセッサのレジスタ、
オペレーティングシステムのスタック情報等）をロール
バックされないメモリ或いは不揮発性の記憶装置に記録
し（図８の（５））、障害要因を解析するための情報を
提供する。

【０１１７】チェックポイント時点までロールバック
（図８（６））後、この時点で、今回発生のソフトウェ
ア障害が、既に一連の回避策を実施後に、再び発生した
ものと判断されると（既に一連の回避策を実施したこと
はフラグなどにより管理する）（図８の（７））、［不
具合を発生させたソフトウェアモジュールをシステムか
ら切り離す。］、［不具合を誘発させたと考えられるプ
ロセス（或いはスレッド）をシステムから抹消する。］
等の処理を実施（図８の（８））した後、システム再実
行手段（図１、図２の符号１０２）によりシステムをチ
ェックポイント時点から再スタートさせる（図８の
（９））ことにより、ソフトウェアの不具合発生を回避
する。

【０１１８】尚、上記［不具合を発生させたソフトウェ
アモジュールをシステムから切り離す。］手段によりシ
ステムから切り離されたソフトウェアモジュールは、前
記システム状況（ロールバックされないメモリ或いは不
揮発性の記憶装置に記録）から、ソフトウェア障害要因
に関する原因究明、ソフトウェアモジュールの修正を実
施した後、修正されたソフトウェアモジュールに動的か
つシステム停止を伴うことなく切り替え可能である。

【０１１９】例えば、ＵＮＩＸオペレーティングシステ
ムでは、個々のデバイスドライバに関する入出力インタ
フェースは、デバイススイッチテーブルと呼ばれる共通
の構造を有しており、このテーブル上の当該デバイスド
ライバエントリを変更、デバイスドライバの使用してい
るリソースの解放、等の処理を実施することにより、シ
ステムからの切り離しが可能となる。

【０１２０】尚、これらの処理を実施しても、再びソフ
トウェア障害が発生する場合には、システム再立ち上げ
を実施することにより、一連のソフトウェア障害回避処
理が無限に実施されることを回避する。

【０１２１】以上、具体的なソフトウェア障害を例に本
発明の実施形態を説明したが、前記チェックポイント採
取手段１００によって採取されるチェックポイント時の
システムの状態は、「安定した状態」であることが望ま
しい。ここで、「安定した状態」とは次にあげるような
条件を満たす状態である。（１）割り込み処理中でない。（２）スピンロックを獲得していない。（３）入出力要求を処理中でない。

【０１２２】その理由は、例えば（２）について、スピ
ンロックを獲得した状態でチェックポイントが採取され
たことを許容すると、前記した具体的なソフトウェア障
害を例に示した第２の具体的なソフトウェア障害の例に
あるようなマルチプロセッサ環境に於ける排他制御処理
で同一のスピンロックを二重に確保することによるデッ
ドロック状態が発生後、チェックポイントが採取され、
その後、デッドロック発生が検出されるような状況に於
いては、ロールバック後のシステムの状態は、デッドロ
ック状態のままであり、チェックポイントロールバック
しても、デッドロック状態を抜け出すことが不可能とな
り、ソフトウェア障害を回避することが困難となるため
である。

【０１２３】上記（１）乃至（３）を考慮したチェック
ポイント採取方式は、例えば特願平８−１５６６０号
（計算機システム）に開示されている。尚、この計算機
システムに於けるチェックポイント採取は、故障などに
よって処理が中断された場合に備え、その中断された処
理を再開始するためのチェックポイントを定期的に取得
しながら処理を進めていく耐障害性の計算機システムに
おいて、前記チェックポイントを取得するチェックポイ
ント取得プロセスを前記計算機システムのもつプロセッ
サそれぞれに対応して設け、前記チェックポイントの取
得時に、前記チェックポイント取得プロセスを実行可能
状態とし、そのチェックポイント取得プロセスが前記チ
ェックポイントを取得した後に、そのチェックポイント
取得プロセスを再度待機状態とする手段を具備してなる
ことを特徴とする。また、故障などによって処理が中断
された場合に備え、その中断された処理を再開始するた
めのチェックポイントを定期的に取得しながら処理を進
めていく耐障害性の計算機システムにおいて、前記計算
機システムを制御するオペレーティングシステムのディ
スパッチャに、前記チェックポイントを取得する手段を
設け、前記ディスパッチャは、前記計算機システムのも
つプロセッサそれぞれで実行中である処理すべてが完結
した際に前記チェックポイントを取得することを特徴と
する。この発明によれば、チェックポイントは、必ずチ
ェックポイント取得プロセスの実行中、あるいはプロセ
ッサがいずれの処理も実行していない状態でのディスパ
ッチャ中でのみ取得されることになり、従来のチェック
ポイントの取得方式では考慮する必要のあった、ロック
ランアウト機構が不要になり、チェックポイント採取機
能を含むオペレーティングシステムが大幅に簡単化でき
る。

【０１２４】

【発明の効果】以上詳記したように本発明によれば、シ
ステムに障害が発生したとき障害発生前の状態からデー
タ処理を再実行することにより耐障害性を実現するチェ
ックポイントロールバック方式による故障回復機構を有
する計算機システムに於いて、ソフトウェアバグに起因
して発生するシステムクラッシュ或いはプロセッサ無限
ループ状態のようなシステムクラッシュには至らないが
正常なシステム稼働を阻害する状態となる所謂ソフトウ
ェア障害の発生を認識し、そのソフトウェア障害の発生
を認識した際に、当該認識時点の状態情報及び採取を有
効に活用してソフトウェア障害の発生要因を推定し、又
はシステム環境を変化させる等の手段を用いて、チェッ
クポイント時点までロールバック後、システムを再実行
させることにより、前記ソフトウェアバグに起因して発
生するソフトウェア障害を回避することにより、ハード
ウェアの間欠故障からの故障回復のみならず、ソフトウ
ェア障害が発生した場合に於いても計算機システムを継
続して運用させ、システムの可用性を大幅に向上させる
ことができる。

【０１２５】即ち、第１の発明によれば、ハードウェア
故障に起因したハードウェア障害、又はソフトウェアバ
グに起因して発生するシステムクラッシュ或いはプロセ
ッサ無限ループ状態のようなシステムクラッシュには至
らないが正常なシステム稼働を阻害する状態となる所謂
ソフトウェア障害が発生した場合に、前記ハードウェア
障害と前記ソフトウェア障害とを切り分ける障害識別手
段と、前記ソフトウェア障害が発生した場合に障害発生
時のシステムの状況を記録するシステム状況記録手段
と、前記ソフトウェア障害に関する発生要因を推定する
ソフトウェア障害発生要因推定手段と、前記ソフトウェ
ア障害発生要因推定手段により推定された、ソフトウェ
ア障害発生要因に関する回避方法を推定するソフトウェ
ア障害回避方法推定手段と、チェックポイント時点まで
ロールバック後、前記ソフトウェア障害回避方法推定手
段によって推定された前記ソフトウェア障害発生要因に
関する回避方法を実施するソフトウェア障害回避方法実
施手段とを具備して、システムを再実行することによ
り、前記ソフトウェアバグに起因して発生するソフトウ
ェア障害を回避する構成としたことにより、チェックポ
イントロールバック方式によるハードウェアの間欠故障
のみを対象とした故障回復に加えて、ソフトウェア障害
からの故障回復を可能とし、計算機システムの可用性を
向上させることができる。

【０１２６】又、第２の発明によれば、ハードウェア故
障に起因したハードウェア障害又はソフトウェアバグに
起因して発生するソフトウェア障害が発生した場合に、
前記ハードウェア障害と前記ソフトウェア障害とを切り
分ける障害識別手段と、前記ソフトウェア障害が発生し
た場合に障害発生時のシステムの状況を記録するシステ
ム状況記録手段と、チェックポイント時点までロールバ
ック後、前記ソフトウェア障害に関してソフトウェア障
害発生時の状況からプログラム実行環境を変化させるソ
フトウェア実行環境操作手段とを具備して、システムを
再実行することにより、前記ソフトウェアバグに起因し
て発生する、ソフトウェア障害を回避する構成としたこ
とにより、従来のチェックポイントロールバック方式に
よるハードウェア間欠故障のみを対象とした故障回復に
加えて、ソフトウェア障害からの故障回復を可能とし、
計算機システムの可用性を向上させることができる。

【０１２７】又、第３の発明によれば、システムに障害
が発生したとき、当該障害がソフトウェアバグに起因し
て発生するソフトウェア障害であることを識別する障害
識別手段と、前記障害識別手段でソフトウェア障害の発
生を認識したとき障害発生時のシステムの状況を記録す
るシステム状況記録手段と、前記システム状況記録手段
により記録された情報をもとにソフトウェア障害に関す
る発生要因を推定するソフトウェア障害発生要因推定手
段と、前記ソフトウェア障害発生要因推定手段により推
定された、ソフトウェア障害発生要因に関する回避方法
を推定するソフトウェア障害回避方法推定手段と、前記
ソフトウェア障害回避方法推定手段によって推定された
前記ソフトウェア障害発生要因に関する回避方法をロー
ルバック後に実施するソフトウェア障害回避方法実施手
段と、前記システム状況記録手段により記録された情報
をもとに、ロールバック後の再実行時に於けるプログラ
ム実行環境を変化させるソフトウェア実行環境操作手段
とを具備して、ソフトウェア障害の発生時に於いて前記
ソフトウェア障害に関する発生要因の推定による回避方
法の推定が困難な場合に前記ソフトウェア実行環境操作
手段によりソフトウェア実行環境を操作した後、システ
ムを再実行して、ソフトウェアバグに起因して発生する
ソフトウェア障害を回避する構成としたことにより、ソ
フトウェア障害に関する回避率を向上させて、より計算
機システムの可用性を向上させることができる。

【０１２８】又、第４の発明によれば、少なくとも前記
ソフトウェア障害回避方法実施手段により実施されるソ
フトウェア障害発生要因に関する回避方法、又は前記ソ
フトウェア実行環境操作手段により実施される複数のソ
フトウェア実行環境操作の方法による処理を、ソフトウ
ェア障害が回避されるまで、規定回数内で、繰り返し実
施する構成としたことにより、ソフトウェア障害に関す
る回避率を高めることができる。

【０１２９】又、第５の発明によれば、前記ソフトウェ
ア障害回避方法実施手段、或いは前記ソフトウェア実行
環境操作手段を実施し、システムを再実行した後に於い
て、再びソフトウェア障害が出現したとき、障害要因を
有するソフトウェアモジュールをシステムから切り離し
た後、システムを再実行することにより、前記ソフトウ
ェアバグに起因して発生するソフトウェア障害を回避す
る構成としたことにより、関連するモジュールを切り離
して不具合発生を未然に防止し、最終的なソフトウェア
障害を回避することが可能となる。

【０１３０】又、第６の発明によれば、前記ソフトウェ
ア障害回避方法実施手段、又は前記ソフトウェア実行環
境操作手段を実施し、システムを再実行した後に於い
て、再びソフトウェア障害が出現した場合、ソフトウェ
ア障害を誘発させた、プロセス或いはスレッドをシステ
ムから抹消した後、システムを再実行する機能を付加す
ることにより、ソフトウェア障害に伴う不具合の発生を
未然に防いで、最終的なソフトウェア障害を回避するこ
とが可能となる。

【０１３１】又、第７の発明によれば、前記第５の発明
に於いて、障害要因を有するソフトウェアモジュールか
ら、障害要因を除去したソフトウェアモジュールに、動
的且つシステム停止を伴うことなく切り替える機能を付
加することにより、切り離されたモジュールに関して不
具合を修正後、ハードウェア部品の部品交換のように入
れ替え可能とすることでシステムの可用性を高めること
ができる。

【０１３２】又、第８の発明によれば、少なくとも前記
ソフトウェア障害回避方法実施手段又は前記ソフトウェ
ア実行環境操作手段による動作をソフトウェア障害が回
避されるまで規定回数内で繰り返し実施した後に於い
て、再びソフトウェア障害が出現した場合、システムの
再立ち上げを実施する機能を付加することにより、種々
のソフトウェア障害回避策を有限回実施することで、回
避策の無限回の適用を回避できる。

【０１３３】又、第９の発明によれば、前記システム状
況記録手段が、ソフトウェア障害発生時のシステムの状
況を、ソフトウェア障害発生要因を解析するための提供
情報として、ロールバックされないメモリ領域或いは不
揮発性の記憶装置に記録することにより、障害に関する
原因解析を可能としたシステムの保守性を高めることが
可能となる。

【０１３４】又、第１０の発明によれば、前記ソフトウ
ェア障害発生要因推定手段が、推定した障害発生要因
を、障害発生要因を解析するための提供情報として、ロ
ールバックされないメモリ或いは不揮発性の記憶装置に
記録することにより、障害発生後のシステムの保守性を
高めることが可能となる。

【０１３５】又、第１１の発明によれば、前記ソフトウ
ェア障害回避方法推定手段が、推定したソフトウェア障
害発生要因に関する回避方法を、障害回避方法を実施す
るための提供情報として、ロールバックされないメモリ
或いは不揮発性の記憶装置に記録することにより、障害
発生後のシステムの保守性を高めることが可能となる。

【０１３６】又、第１２の発明によれば、前記システム
状況記録手段が、ソフトウェア障害発生時のシステムの
メモリ、各種装置に関するデータ等のダンプを、ユーザ
の要求に応じて外部記憶装置に書き出し、ソフトウェア
障害発生要因を解析するための情報として提供すること
により、障害に関する原因解析を可能とし、システムの
保守性を高めることが可能となる。

【０１３７】又、第１３の発明によれば、前記ソフトウ
ェア実行環境操作手段が、稼働するプロセッサ数を、ソ
フトウェア実行環境操作の一つとして変更する手段を含
むことにより、稼働するプロセッサ数を変更した際の不
具合発生を未然に防止して、ソフトウェア障害を回避す
ることができる。

【０１３８】又、第１４の発明によれば、前記ソフトウ
ェア実行環境操作手段が、ソフトウェア障害を誘発させ
たプロセス或いはスレッドに関するスタック上の自動変
数領域を、ソフトウェア実行環境操作の一つとしてクリ
アする手段を含むことにより、自動変数初期化忘れ対策
としてこれを積極的にクリアし、不具合の発生を未然に
防止して、ソフトウェア障害を回避することが可能とな
る。

【０１３９】又、第１５の発明によれば、前記ソフトウ
ェア実行環境操作手段が、ソフトウェア実行環境操作の
一つとして、システムで使用するリソースを動的に補充
する手段を含むことにより、リソース不足による不具合
発生を未然に防止して、ソフトウェア障害を回避するこ
とが可能とする。

【０１４０】又、第１６の発明によれば、前記ソフトウ
ェア実行環境操作手段が、ソフトウェア実行環境操作の
一つとして、入出力要求の発行タイミングを調整する手
段を含むことにより、入出力要求に関する発行タイミン
グを変更した際の不具合発生を未然に防止して、ソフト
ウェア障害を回避することが可能となる。

【０１４１】又、第１７の発明によれば、前記ソフトウ
ェア障害回避方法実施手段に於いて、ソフトウェア障害
発生要因が、物理メモリ上にロードされていない仮想メ
モリへのアクセスであるとソフトウェア障害発生要因推
定手段により推定され、ソフトウェア障害回避方法推定
手段に於いて、当該ソフトウェア障害発生要因に関する
回避方法として、仮想メモリに関する物理メモリを確保
することと推定されたとき、前記推定された回避方法を
実施することにより、ページング不可状況の発生を未然
に防止して、ソフトウェア障害を回避することが可能と
なる。

【０１４２】又、第１８の発明によれば、前記ソフトウ
ェア障害回避方法実施手段に於いて、ソフトウェア障害
発生要因が、マルチプロセッサ環境に於ける排他制御に
関するデッドロックであるとソフトウェア障害発生要因
推定手段により推定され、ソフトウェア障害回避方法推
定手段に於いて、当該ソフトウェア障害発生要因に関す
る回避方法として、稼働するプロセッサ数の変更、及び
排他制御を実施するコードを変更することと推定された
とき、前記推定された回避方法を実施することにより、
デッドロック状況の発生を未然に防止して、ソフトウェ
ア障害を回避することが可能となる。

【０１４３】又、第１９の発明によれば、前記マルチプ
ロセッサ環境に於ける排他制御に関するデッドロックに
関する回避方法を実施して、システムの再実行後、ソフ
トウェア障害の回避がなされた場合、その後のチェック
ポイント採取手段の一環で、稼働するプロセッサ数及び
排他制御を実施するコードを元の状態に戻し、システム
をソフトウェア障害発生前のシステムの運用状態にする
ことにより、障害回避手段として実施したシステムへの
変更（システム運用にあたっての仕様縮小）状態を、障
害回避後に於いて解除する（元に戻す）ことで、障害排
除後、システムを通常状態に戻すことができ、良好なシ
ステム運用が可能となる。

【０１４４】又、第２０の発明によれば、前記ロールバ
ックされないメモリ或いは不揮発性の記憶装置に記載さ
れた情報が、ソフトウェア障害回避後、チェックポイン
ト採取手段の一環として、計算機システムがもつシステ
ムのログ機構を介して記憶されることにより、ソフトウ
ェア障害回避に実施された状況を、障害回復後のチェッ
クポイント時点でシステムのログ機構を陽に起動しシス
テムのログに残すことで、障害発生後のシステムの保守
性を高めることが可能となる。

【図面の簡単な説明】

【図１】本発明の実施形態に係る計算機システム全体の
構成を示すブロック図。

【図２】本発明の実施形態に係る一連の手段の関係を示
すブロック図。

【図３】本発明の第１実施形態に係る計算機システムの
動作の流れを説明するためのフローチャート。

【図４】本発明の第２実施形態に係る計算機システムの
動作の流れを説明するためのフローチャート。

【図５】本発明の実施形態に於ける、第１の具体的なソ
フトウェア障害を例に示す動作概念図。

【図６】本発明の実施形態に於ける、第２の具体的なソ
フトウェア障害を例に示す動作概念図。

【図７】本発明の実施形態に於ける、第３の具体的なソ
フトウェア障害を例に示す動作概念図。

【図８】本発明の実施形態に於ける、第４の具体的なソ
フトウェア障害を例に示す動作概念図。

【図９】チェックポイントロールバック方式の概念を示
す図。

【符号の説明】

１０…プロセッサ、２０…メモリ、３０…不揮発性メモリ、１００…チェックポイント採取手段、１０１…チェックポイントロールバック手段、１０２…システム再実行手段、１０３…障害識別手段、１０４…システム状況記録手段、１０５…ソフトウェア障害発生要因推定手段、１０６…ソフトウェア障害回避方法推定手段、１０７…ソフトウェア障害回避方法実施手段、１０８…ソフトウェア実行環境操作手段、２００…ソフトウェア障害発生状況記録領域、２０１…ソフトウェア障害発生要因ログ、２０２…ソフトウェア障害回避方法記録領域、３００…ソフトウェア障害発生状況記録領域、３０１…ソフトウェア障害発生要因障害識別手段、３０２…ソフトウェア障害回避方法記録領域。

Claims

【特許請求の範囲】

【請求項１】システムに障害が発生したとき障害発生
前の状態からデータ処理を再実行することにより耐障害
性を実現するチェックポイントロールバック方式による
故障回復機構を有する計算機システムであって、システムに障害が発生したとき、当該障害がソフトウェ
アバグに起因して発生するソフトウェア障害であること
を識別する障害識別手段と、前記障害識別手段でソフトウェア障害の発生を認識した
とき障害発生時のシステムの状況を記録するシステム状
況記録手段と、前記システム状況記録手段により記録された情報をもと
にソフトウェア障害に関する発生要因を推定するソフト
ウェア障害発生要因推定手段と、前記ソフトウェア障害発生要因推定手段により推定され
た、ソフトウェア障害発生要因に関する回避方法を推定
するソフトウェア障害回避方法推定手段と、前記ソフトウェア障害回避方法推定手段によって推定さ
れた前記ソフトウェア障害発生要因に関する回避方法に
従う障害回避アクションをロールバック後に実施するソ
フトウェア障害回避方法実施手段とを具備し、システムにソフトウェア障害が発生したとき、システム
を再実行して、ソフトウェアバグ等に起因して発生する
ソフトウェア障害を回避する故障回復機能を備えたこと
を特徴とする計算機システム。
【請求項２】システムに障害が発生したとき障害発生
前の状態からデータ処理を再実行することにより、耐障
害性を実現するチェックポイントロールバック方式によ
る故障回復機構を有する計算機システムであって、ソフトウェアバグに起因して発生するソフトウェア障害
が発生したとき当該ソフトウェア障害を識別する障害識
別手段と、前記障害識別手段でソフトウェア障害の発生を認識した
とき障害発生時のシステムの状況を記録するシステム状
況記録手段と、前記システム状況記録手段により記録された情報をもと
に、ロールバック後の再実行時に於けるプログラム実行
環境を変化させるソフトウェア実行環境操作手段とを具
備し、システムにソフトウェア障害が発生したとき、システム
を再実行して、ソフトウェアバグ等に起因して発生する
ソフトウェア障害を回避する故障回復機能を備えたこと
を特徴とする計算機システム。
【請求項３】システムに障害が発生したとき障害発生
前の状態からデータ処理を再実行することにより耐障害
性を実現するチェックポイントロールバック方式による
故障回復機構を有する計算機システムであって、システムに障害が発生したとき、当該障害がソフトウェ
アバグに起因して発生するソフトウェア障害であること
を識別する障害識別手段と、前記障害識別手段でソフトウェア障害の発生を認識した
とき障害発生時のシステムの状況を記録するシステム状
況記録手段と、前記システム状況記録手段により記録された情報をもと
にソフトウェア障害に関する発生要因を推定するソフト
ウェア障害発生要因推定手段と、前記ソフトウェア障害発生要因推定手段により推定され
た、ソフトウェア障害発生要因に関する回避方法を推定
するソフトウェア障害回避方法推定手段と、前記ソフトウェア障害回避方法推定手段によって推定さ
れた前記ソフトウェア障害発生要因に関する回避方法を
ロールバック後に実施するソフトウェア障害回避方法実
施手段と、前記システム状況記録手段により記録された情報をもと
に、ロールバック後の再実行時に於けるプログラム実行
環境を変化させるソフトウェア実行環境操作手段とを具
備し、ソフトウェア障害の発生時に於いて前記ソフトウェア障
害に関する発生要因の推定による回避方法の推定が困難
な場合に前記ソフトウェア実行環境操作手段によりソフ
トウェア実行環境を操作した後、システムを再実行し
て、ソフトウェアバグに起因して発生するソフトウェア
障害を回避することを特徴とする計算機システム。
【請求項４】少なくともソフトウェア障害回避方法実
施手段又はソフトウェア実行環境操作手段による動作を
ソフトウェア障害が回避されるまで規定回数内で繰り返
し実施する請求項１又は２又は３記載の計算機システ
ム。
【請求項５】ソフトウェア障害回避方法実施手段又は
ソフトウェア実行環境操作手段を実施し、システムを再
実行した後に於いて、再びソフトウェア障害が出現した
場合、障害要因を有するソフトウェアモジュールをシス
テムから切り離した後、システムを再実行する請求項１
又は２又は３又は４記載の計算機システム。
【請求項６】ソフトウェア障害回避方法実施手段又は
ソフトウェア実行環境操作手段を実施し、システムを再
実行した後に於いて、再びソフトウェア障害が出現した
場合、ソフトウェア障害を誘発させた、プロセス或いは
スレッドをシステムから抹消した後、システムを再実行
する請求項１又は２又は３又は４記載の計算機システ
ム。
【請求項７】システムから切り離されたソフトウェア
モジュールは、システム稼働状態に於いて、障害要因を
有するソフトウェアモジュールから、障害要因を除去し
たソフトウェアモジュールに、動的かつシステム停止を
伴うことなく切り替え可能である請求項５記載の計算機
システム。
【請求項８】少なくともソフトウェア障害回避方法実
施手段又はソフトウェア実行環境操作手段による動作を
ソフトウェア障害が回避されるまで規定回数内で繰り返
し実施した後に於いて、再びソフトウェア障害が出現し
た場合、システムの再立ち上げを実施する請求項１又は
２又は３又は４記載の計算機システム。
【請求項９】システム状況記録手段は、ソフトウェア
障害発生時のシステムの状況を、ソフトウェア障害発生
要因を解析するための提供情報として、ロールバックさ
れないメモリ領域或いは不揮発性の記憶装置に記録する
請求項１又は２又は３記載の計算機システム。
【請求項１０】ソフトウェア障害発生要因推定手段
は、推定した障害発生要因を、障害発生要因を解析する
ための提供情報として、ロールバックされないメモリ或
いは不揮発性の記憶装置に記録する請求項１又は２又は
３記載の計算機システム。
【請求項１１】ソフトウェア障害回避方法推定手段
は、推定したソフトウェア障害発生要因に関する回避方
法を、障害回避方法を実施するための提供情報として、
ロールバックされないメモリ或いは不揮発性の記憶装置
に記録する請求項１又は３記載の計算機システム。
【請求項１２】システム状況記録手段は、ソフトウェ
ア障害発生時のシステムのメモリ、各種装置に関するデ
ータ等のダンプを、ユーザの要求に応じて外部記憶装置
に書き出し、ソフトウェア障害発生要因を解析するため
の情報として提供する請求項１又は２又は３記載の計算
機システム。
【請求項１３】ソフトウェア実行環境操作手段は、稼
働するプロセッサ数を、ソフトウェア実行環境操作の一
つとして変更する請求項２又は３記載の計算機システ
ム。
【請求項１４】ソフトウェア実行環境操作手段は、ソ
フトウェア障害を誘発させたプロセス或いはスレッドに
関するスタック上の自動変数領域を、ソフトウェア実行
環境操作の一つとしてクリアする請求項２又は３記載の
計算機システム。
【請求項１５】ソフトウェア実行環境操作手段は、ソ
フトウェア実行環境操作の一つとして、システムで使用
するリソースを動的に補充することを特徴とする請求項
２又は３記載の計算機システム。
【請求項１６】ソフトウェア実行環境操作手段は、ソ
フトウェア実行環境操作の一つとして、入出力要求の発
行タイミングを調整する請求項２又は３記載の計算機シ
ステム。
【請求項１７】ソフトウェア障害回避方法実施手段
は、ソフトウェア障害発生要因が、物理メモリ上にロー
ドされていない仮想メモリへのアクセスであるとソフト
ウェア障害発生要因推定手段により推定され、ソフトウ
ェア障害回避方法推定手段により、当該ソフトウェア障
害発生要因に関する回避方法として、仮想メモリに関す
る物理メモリを確保することと推定されたとき、前記推
定された回避方法を実施する請求項１又は３記載の計算
機システム。
【請求項１８】ソフトウェア障害回避方法実施手段
は、ソフトウェア障害発生要因が、マルチプロセッサ環
境に於ける排他制御に関するデッドロックであるとソフ
トウェア障害発生要因推定手段により推定され、ソフト
ウェア障害回避方法推定手段により、当該ソフトウェア
障害発生要因に関する回避方法として、稼働するプロセ
ッサ数の変更、及び排他制御を実施するコードを変更す
ることと推定されたとき、前記推定された回避方法を実
施する請求項１又は３記載の計算機システム。
【請求項１９】マルチプロセッサ環境に於ける排他制
御に関するデッドロックに関する回避方法を実施して、
システムの再実行後、ソフトウェア障害の回避がなされ
た場合、その後のチェックポイント採取手段の一環で、
稼働するプロセッサ数及び排他制御を実施するコードを
元の状態に戻し、システムをソフトウェア障害発生前の
システムの運用状態にする請求項１８記載の計算機シス
テム。
【請求項２０】ロールバックされないメモリ或いは不
揮発性の記憶装置に記載された情報は、ソフトウェア障
害回避後、チェックポイント採取手段の一環として、計
算機システムがもつシステムのログ機構を介して記憶さ
れる請求項９又は１０又は１１記載の計算機システム。