JPH09212390A - システムログ処理方式 - Google Patents

システムログ処理方式

Info

Publication number
JPH09212390A
JPH09212390A JP8015666A JP1566696A JPH09212390A JP H09212390 A JPH09212390 A JP H09212390A JP 8015666 A JP8015666 A JP 8015666A JP 1566696 A JP1566696 A JP 1566696A JP H09212390 A JPH09212390 A JP H09212390A
Authority
JP
Japan
Prior art keywords
system log
log
failure
memory
buffer memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8015666A
Other languages
English (en)
Inventor
Haruo Tomita
治男 冨田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP8015666A priority Critical patent/JPH09212390A/ja
Publication of JPH09212390A publication Critical patent/JPH09212390A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

(57)【要約】 【課題】本発明は、特別なメモリを装備しこれを参照す
ることにより、耐障害性を確保しながら正常にシステム
ログを採取できる計算機システムを構築することを主な
特徴とする。 【解決手段】定期的にチェックポイントを採取し、障害
が発生した場合にシステムを直前のチェックポイントの
状態に復元し、その状態からデータ処理を再開する計算
機システムであって、システムが採取するログ情報を記
録するためにバッファメモリ13を備え、障害発生後の
故障回復処理において障害発生時のシステムログ情報を
上記バッファに採取し、故障回復後に採取したシステム
ログ情報を上記バッファメモリから読み込み主記憶装置
14に書き込む。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、例えば、耐信頼性
を要求される、複数のCPUを有して成るマルチプロセ
ッサシステム等に適用して好適なシステムログ処理方式
に関する。
【0002】
【従来の技術】耐障害性を確保する計算機システムの構
成法のひとつに、主記憶の更新履歴をログメモリ等に採
取し、レジスタ類およびキャッシュメモリの内容等を定
期的に主記憶に退避することにより、主記憶の内容を最
新のものにした後にログメモリに保持したそれ以前の更
新履歴を破棄する方式がある。即ち、定期的にCPUの
内部状態を復元し、主記憶の更新履歴をチェックするも
ので、これをチェックポイント方式と呼び、更に、主記
憶にCPUの内部状態を保持することをチェックポイン
トを取るという。
【0003】
【発明が解決しようとする課題】上述したチェックポイ
ント方式により、耐障害性を高めた計算機システムにお
いては、従来、チェックポイントが取得されるまではデ
ィスク等入出力装置へのアクセスを抑制し、チェックポ
イント取得後に入出力装置へのアクセスまとめて行って
いた。
【0004】そのため、システムログ採取処理の延長で
出力装置へのアクセスが発生した場合には、チェックポ
イント取得までアクセスが遅延されてしまう結果とな
る。このため、故障の発生等により最終チェックポイン
トからスタートする場合には、システムの状態が最終チ
ェックポイントにロールバックしてしまい、故障が発生
した時のシステムログや障害回復処理のシステムログを
採取することができないといった欠点を有していた。
【0005】また、故障の原因がシステムログ用のデバ
イスにあった場合には、システムログ処理を中断する手
段がないため、故障回復処理を行ったとしても再度故障
の原因となってしまう。
【0006】更に、システムがダウンする場合には、シ
ステムログ処理が行う出力装置へのアクセスが保留され
ているため、システムログはデバイスへ書き込まれてお
らず、従ってシステムログは採取されない状態のままで
ある。
【0007】本発明は、上記実情に鑑みてなされたもの
であり、特別なメモリを装備し、これを参照することに
より、従来技術の欠点を除去し、耐障害性を確保しなが
ら正常にシステムログを採取できるシステムログ処理方
式を提供することを目的とする。
【0008】
【課題を解決するための手段】本発明は、定期的にチェ
ックポイントを採取し、障害が発生した場合にシステム
を直前のチェックポイントの状態に復元し、その状態か
らデータ処理を再開する計算機システムにおいて、シス
テムが採取するログ情報を記録するためにバッファメモ
リを備え、障害発生後の故障回復処理において障害発生
時のシステムログ情報を上記バッファに採取し、故障回
復後に採取したシステムログ情報を上記バッファメモリ
から読み込み主記憶装置に書き込むことを特徴とする。
上記バッファメモリは、チェックポイントとして採取さ
れている更新前の主記憶上のデータの他にログデータ用
のバッファが格納され、ログデータ用のバッファとし
て、故障が発生してから障害回復処理が終了し、システ
ムが正常に稼働するまでの間にシステムが採取するシス
テムログの要求とチェックポイントによりシステムログ
用のデバイスに対する出力が保留されているシステムロ
グ要求を保存すめための情報領域と、各ログ領域から指
されたシステムログデータを格納するデータ領域が割り
当てられ記憶される。
【0009】システムログを上記バッファメモリからシ
ステムログ用のデバイスに書き出す必要があるか否かを
判断することにより、書き出すと判断された場合、障害
回復後にシステムログを書き出すデーモンプロセスにウ
エイクアップ通知を発行する。また、システムログ用の
ディバイス装置が故障原因であったか否かを診断するこ
とにより、故障が特定できた場合には、故障回復後にシ
ステムログ中断処理を実行することにより、システムロ
グを書き出すデーモンプロセスを無効にすることでシス
テムログ出力を中断する。更に、システムログ出力用の
デバイスが故障した場合には、故障回復処理後に上記バ
ッファメモリを参照することでシステムログ処理を継続
する。また、システムがダウンする時にシステムダンプ
を採取する場合には、上記バッファメモリに保存してあ
った最終チェックポイントのシステムログ情報と、主記
憶のシステムログ情報を検査した後、システムログ用の
デバイスに書き込みが保留されているログをシステムダ
ンプに取り込むことにより、システムログをシステムダ
ンプとして出力する。そして、システムが故障回復出来
ずにリブートする場合、ブート処理の延長のシステムロ
グ初期化ステップにおいて、故障回復後に採取したシス
テムログ情報を上記バッファメモリから読み込み、主記
憶に書き込むことにより、システムログ用のデバイスに
書き込みが保留されているログを主記憶に復元する。
【0010】
【作用】上述した構成に従い、チェックポイントを採取
しながら処理を進めていき、障害が発生したときに最終
チェックポイントからリスタートするもので、採取した
ログ情報が記録される特別な記憶装置としてバッファメ
モリが用意され、障害発生後の故障回復処理において障
害発生時のシステムログをこのバッファメモリに取り込
み、故障回復後にここで採取したシステムログ情報をバ
ッファメモリから読み込み主記憶に書き込む。
【0011】そして、システムログをバッファメモリか
らシステムログ用のデバイスに書き出す必要があるかを
判断するソフトウェアにより、書き出すと判断された場
合には、障害回復後にシステムログを書き出すデーモン
プロセスにウエイクアップ通知をする。
【0012】また、システムログ用のデバイスが故障原
因であったかどうかを診断する故障検出診断ステップに
より、故障が特定できた場合には、故障回復後にシステ
ムログ中断処理を実行することにより、システムログ出
力の中断と、システムログがダウンする場合にそのプロ
セスを無効にすることも特徴とする。
【0013】更に、システムがダウンする場合にシステ
ムダンプを採取する場合には、バッファメモリに保存し
てあった最終チェックポイントのシステムログ情報と、
主記憶上のシステムログ情報を検査した後、保留されて
いるログをシステムダンプに取り込む処理を実行するこ
とにより、システムログをシステムダンプとして出力す
ることが可能となる。
【0014】システムがダウンする場合にシステムダン
プを採取できずにブートする場合には、ブート処理の延
長のシステムログ初期化ステップにおいて、故障回復後
に採取したシステムログ情報をバッファメモリから読み
込み主記憶に書き込むことも特徴とする。
【0015】本発明では、チェックポイント方式によ
り、耐障害性を高めた計算機システムにおいて、チェッ
クポイントが取得されるまでディスク等の入出力装置へ
のアクセスを抑制し、チェックポイント取得後に入出力
装置へのアクセスをまとめて行うことにより採取不可能
だった故障発生時のシステムログや故障回復処理中のシ
ステムログが故障回復もしくはシステムのリブート後に
採取可能になる。
【0016】また、故障の原因がシステムログ用のデバ
イスであった場合には、システムログ処理を中断するこ
とにより故障回復処理後にシステムを稼働することがで
きるようになる。このことにより、耐障害性を確保しな
がら正常にシステムログを採取できる処理方式を提供で
きる。
【0017】
【発明の実施の形態】以下図面を参照して本発明の一実
施形態を説明する。図1は本発明の一実施形態を示すブ
ロック図である。図において、11はキャッシュメモ
リ、12はプロセッサ、13、14、15はそれぞれ記
憶装置であり、これらはシステムバス10を介し共通接
続される。このように構成された計算機システム1にお
いて、外部記憶装置15にシステムログ用のファイルが
格納されている。
【0018】このファイルはメモリ14に採取されたシ
ステムログ情報がダンプされたものである。また、履歴
バッファメモリ13は、プロセッサ12によってアクセ
スされる主記憶14上に存在するプログラムや各種デー
タ等の情報をチェックポイントとして保持するものであ
り、システムが採取するログ情報を記録するため、特別
に用意された記憶装置である。
【0019】図2は、図1に示す実施形態におけるシス
テムログ処理の動作概念を説明するために引用した図で
ある。ここでは、計算機システム1からアクセス要求さ
れるシステムログファイルAが、計算機システム1上の
外部記憶装置15に作成されていることを前提としてい
る。もちろん、システムログファイルAがネットワーク
を介したモートファイルである場合でも問題はない。
【0020】図2の(a)に示すように、ファイルシス
テムインターフェースに使用する指標ノードは、外部記
憶装置15上に作成されているシステムログファイルを
アクセスするために必要なものである(業界でほぼ標準
的に使用されているUNIXでいうファイルシステム指
標ノード)。
【0021】また、図2の(b)に示すように、計算機
システム1からのシステムログ要求は主記憶14に記憶
される。主記憶14に記憶されるシステムログ要求は、
採取するログのID、採取するログデータが格納されて
いる領域を示すポインタ、採取されるログデータのレン
グスが記録される。
【0022】次に図3を参照して同実施例に係わるシス
テムログ処理方式の動作原理を説明する。図3は、同実
施態様に係わるシステムログの処理方式の動作原理を説
明するための概念図である。主記憶14に記録されたシ
ステムログ要求を含むデータは、データが更新される前
に履歴メモリ13にチェックポイントとして格納され
る。
【0023】履歴バッファメモリ13には、チェックポ
イントとして採取されている更新前の主記憶14上のデ
ータ領域の他に、同発明実施形態に係わるシステムログ
処理方式が使用するログデータ用のバッファが割り当て
られ、記憶される。
【0024】ログデータ用のバッファは、故障が発生し
てから障害回復処理が終了し、システムが正常に稼働す
るまでの間にシステムが採取するシステムログの要求と
チェックポイントによりシステムログ用のディバイス装
置に対する出力が保留されているシステムログ要求を保
存すめための情報領域と、各ログ領域から指されたシス
テムログデータを格納するデータ領域から構成される。
【0025】外部記憶装置15にシステムログを格納す
るプロセスは、計算機システム1のデーモンプロセス
は、主記憶14のシステムログ要求が空になるまで、フ
ァイルシステムのインタフェースに従って外部記憶装置
15に作成されているシステムログファイルAに書き込
みシステムコールを実現する。
【0026】図4乃至図7は本発明の実施形態の動作を
示すフローチャートである。以下、図4乃至図6に示す
フローチャートを参照しながら本発明の実施態様の動作
につき詳細に説明する。
【0027】図4は上記実施形態に係わるシステムログ
の出力処理方式の動作手順を説明したものである。計算
機システム1におけるシステムログの出力は以下のよう
な手順により処理が行われる。
【0028】まず、システムログ出力では、計算機シス
テム1が故障回復処理中であるか、またはシステムログ
を出力するディバイスが故障しているか否かを判断する
(ステップ41)。
【0029】この判断結果が故障回復処理中でもディバ
イスの故障ないと判断された場合には、通常のログ出力
処理を行う(ステップ44)。この判断結果が故障回復
処理中またはディバイスが故障していると判断された場
合には、履歴バッファメモリ13にシステムログ要求を
保存し(ステップ42)、ログ要求から指されているロ
グデータの内容を履歴バッファメモリ13に保存する。
【0030】これにより、チェックポイント処理に伴う
ディバテス装置への書き込み遅延が解決される。図5は
本発明の実施形態に係わる故障回復処理の動作手順を説
明するためのフローチャートである。
【0031】計算機システム1におけるシステムログ処
理の故障回復処理は、以下のような手順により行なわれ
る。即ち、計算機システム1で故障が発生した場合に
は、チェックポイント時点にロークバック前か否かを判
断する(ステップ51)。この判断結果、ロールバック
前であったと判断された場合には、故障が発生した時点
のシステム状態にあるため、主記憶14上の各種データ
は更新された状態にある。
【0032】この主記憶14上にシステムログ要求か存
在する否かを確認する(ステップ52)。ここでの判断
の結果、主記憶14上にシステムログ要求が存在すると
確認された場合には、リレキバッファメモリ13にシス
テムログ要求を保存(ステップ53)し、主記憶14上
にあるログデータを履歴バッファメモリ13のログバッ
ファのデータ領域へ保存する(ステップ54)。
【0033】この処理は主記憶14上のシステムログ要
求が無くなるまで繰り返される。チェックポイント時点
にロールバックしている場合には、メモリの各種のデー
タはチェックポイント採取時点に復元されている。
【0034】そこで、はじめにログファイル用のディバ
イスが故障だったか否かを確認する(ステップ55)。
この判断でディバイスが故障だったと判断された場合に
は、ログ出力用のデーモンプロセスにKILLのシグナ
ルを受信した状態を設定する(ステップ57)。
【0035】この判断でログファイル用のデバイスが故
障でないと判断された場合には、履歴バッファメモリ1
3に保存してあったシステムログ要求及びログデータを
主記憶14上に書き戻す(ステップ56)。
【0036】更に、各システムログ要求を検査し(ステ
ップ58)、ログをディバイスに書き出す要求があった
場合には、ログ書き出しのデーモンプロセスにウエイク
アップの要求を受けた状態にする(ステップ59)。こ
れらの処理により、チェックポイントロールバック方式
により失われてしまうシステムログ要求と、故障回復処
理中のシステムログを採取することができる。
【0037】図6は本発明の実施形態に係わるシステム
ログ処理方式のダンプ処理の動作手順を説明するための
フローチャートである。計算機システム1におけるデバ
イスに書き込まれていないシステムログのダンプ処理
は、以下のような手順により処理が行なわれる。
【0038】チェックポイントまで保留されている出力
装置への書き込み要求の中に、システムログのディバイ
スのものがあるか否かを確認する(ステップ61)。こ
の判断結果、保留されている書き込み要求の中にシステ
ムログのものがあると判断された場合には、書き込まれ
ていないログ要求を主記憶14から履歴バッファメモリ
13へ保存し(ステップ62)、履歴バッファメモリ1
3のログバッファをダンプする。
【0039】図7は本発明の実施形態に係わるシステム
ログ処理方式のブート時の初期化処理のための動作手順
を説明するために引用したフローチャートである。計算
機システム1がブートする場合には、はじめに通常のシ
ステムログの初期化処理を行う(ステップ71)。
【0040】次に、システムがダウンした後(正常にシ
ャットダウン処理が行われていない状態)のブートか否
かを判断する(ステップ72)。この結果、システムが
ダウンした後のブートであると判断された場合には、シ
ステムダウンが発生した時点でチェックポイントまで遅
延されていたシステムログ要求が存在するか否かを履歴
バッファメモリ13内のシステムログ要求の有無により
判断する(ステップ73)。
【0041】まだ処理されていないシステムログ要求が
あった場合には、この履歴バッファメモリ13に保存し
てあるシステムログ要求とログデータを主記憶14上に
記憶する(ステップ75)。
【0042】次に、通常のシステムログの初期化処理と
同様にログ書き出しのデーモンプロセスを起動する(ス
テップ75)。これらの処理により、チェックポイント
まで遅延されていたシステムログ要求を復元することが
できる。
【0043】
【発明の効果】以上説明のように本発明では、チェック
ポイント方式により、耐障害性を高めた計算機システム
において、チェックポイントが取得されるまでディスク
等の入出力装置へのアクセスを抑制し、チェックポイン
ト取得後に入出力装置へのアクセスをまとめて行うこと
により採取不可能だった故障発生時のシステムログや故
障回復処理中のシステムログが故障回復もしくはシステ
ムのリブート後に採取可能になる。また、故障の原因が
システムログ用のディバイス装置あった場合には、シス
テムログ処理を中断することにより故障回復処理後にシ
ステムを稼働することができるようになる。これによ
り、耐障害性を確保しつつ、正常にシステムログを採取
できる処理機構が実現ができる。
【図面の簡単な説明】
【図1】本発明の実施形態を示すブロック図。
【図2】本発明の実施形態に係わるシステムログ処理方
式の動作原理を説明するための概念図。
【図3】本発明の実施形態に係わるシステムログ処理方
式の動作原理を説明するための概念図。
【図4】本発明の実施形態に係わるシステムログ処理方
式のシステムログ出力処理の動作手順を説明するための
フローチャート。
【図5】本発明の実施形態に係わるシステムログ処理方
式の故障回復処理の動作手順を説明するためのフローチ
ャート。
【図6】本発明の実施形態に係わるシステムログ処理方
式のダンプ処理の動作手順を説明するためのフローチャ
ート。
【図7】本発明の実施形態に係わるシステムログ処理方
式の初期化処理の動作手順を説明するためのフローチャ
ート。
【符号の説明】
1…計算機システム、11…キャッシュ、12…プロセ
ッサ、13…履歴バッファメモリ、14…主記憶、15
…外部記憶装置。

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 定期的にチェックポイントを採取し、障
    害が発生した場合にシステムを直前のチェックポイント
    の状態に復元し、その状態からデータ処理を再開する計
    算機システムにおいて、システムが採取するログ情報を
    記録するためにバッファメモリを備え、障害発生後の故
    障回復処理において障害発生時のシステムログ情報を上
    記バッファに採取し、故障回復後に採取したシステムロ
    グ情報を上記バッファメモリから読み込み主記憶装置に
    書き込むことを特徴とするシステムログ処理方式。
  2. 【請求項2】 上記バッファメモリは、チェックポイン
    トとして採取されている更新前の主記憶上のデータの他
    にログデータ用のバッファが格納され、ログデータ用の
    バッファとして、故障が発生してから障害回復処理が終
    了し、システムが正常に稼働するまでの間にシステムが
    採取するシステムログの要求とチェックポイントにより
    システムログ用のディバイス装置に対する出力が保留さ
    れているシステムログ要求を保存すめための情報領域
    と、各ログ領域から指されたシステムログデータを格納
    するデータ領域が割り当てられ記憶されることを特徴と
    する請求項1記載のシステムログ処理方式。
  3. 【請求項3】 システムログを上記バッファメモリから
    システムログ用のデバイスに書き出す必要があるか否か
    を判断することにより、書き出すと判断された場合、障
    害回復後にシステムログを書き出すデーモンプロセスに
    ウエイクアップ通知を発行することを特徴とする請求項
    1記載のシステムログ処理方式。
  4. 【請求項4】 システムログ用のデバイスが故障原因で
    あったか否かを診断することにより、故障が特定できた
    場合には、故障回復後にシステムログ中断処理を実行す
    ることにより、システムログを書き出すデーモンプロセ
    スを無効にすることでシステムログ出力を中断すること
    を特徴とする請求項1記載のシステムログ処理方式。
  5. 【請求項5】 システムログ出力用のデバイスが故障し
    た場合には、故障回復処理後に上記バッファメモリを参
    照することでシステムログ処理を継続することを特徴と
    する請求項1記載のシステムログ処理方式。
  6. 【請求項6】 システムがダウンする時にシステムダン
    プを採取する場合には、上記バッファメモリに保存して
    あった最終チェックポイントのシステムログ情報と、主
    記憶のシステムログ情報を検査した後、システムログ用
    のデバイスに書き込みが保留されているログをシステム
    ダンプに取り込むことにより、システムログをシステム
    ダンプとして出力することを特徴とする請求項1記載の
    システムログ処理方式。
  7. 【請求項7】 システムが故障回復出来ずにリブートす
    る場合、ブート処理の延長のシステムログ初期化ステッ
    プにおいて、故障回復後に採取したシステムログ情報を
    上記バッファメモリから読み込み、主記憶に書き込むこ
    とにより、システムログ用のデバイスに書き込みが保留
    されているログを主記憶に復元することを特徴とする請
    求項1記載のシステムログ処理方式。
JP8015666A 1996-01-31 1996-01-31 システムログ処理方式 Pending JPH09212390A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8015666A JPH09212390A (ja) 1996-01-31 1996-01-31 システムログ処理方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8015666A JPH09212390A (ja) 1996-01-31 1996-01-31 システムログ処理方式

Publications (1)

Publication Number Publication Date
JPH09212390A true JPH09212390A (ja) 1997-08-15

Family

ID=11895072

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8015666A Pending JPH09212390A (ja) 1996-01-31 1996-01-31 システムログ処理方式

Country Status (1)

Country Link
JP (1) JPH09212390A (ja)

Similar Documents

Publication Publication Date Title
US5845326A (en) Computer system and method for obtaining memory check points and recovering from faults using the checkpoints and cache flush operations
US7853825B2 (en) Methods and apparatus for recovering from fatal errors in a system
US5948112A (en) Method and apparatus for recovering from software faults
JP4363676B2 (ja) コンピュータシステム
US5333314A (en) Distributed data base system of composite subsystem type, and method of fault recovery for the system
JP3481737B2 (ja) ダンプ採取装置およびダンプ採取方法
JPS638835A (ja) 障害回復方法
US7953914B2 (en) Clearing interrupts raised while performing operating system critical tasks
US7430683B2 (en) Method and apparatus for enabling run-time recovery of a failed platform
KR100290057B1 (ko) 파일 시스템 및 파일 관리 방법
JP2015114750A (ja) 調査用プログラム,情報処理装置及び情報処理方法
JP2004102395A (ja) メモリダンプデータの取得方法および情報処理装置、ならびにそのプログラム
US8195981B2 (en) Memory metadata used to handle memory errors without process termination
JP3070453B2 (ja) 計算機システムのメモリ障害回復方法および回復システム
US20040003313A1 (en) Black box recorder using machine check architecture in system management mode
US11226875B2 (en) System halt event recovery
CN115421960A (zh) 一种ue内存故障恢复方法、装置、电子设备及介质
JPH09212390A (ja) システムログ処理方式
JP6164283B2 (ja) ソフトウェア安全停止システム、ソフトウェア安全停止方法、およびプログラム
JP2513060B2 (ja) 故障回復型計算機
JPH11212836A (ja) 障害処理方法及びその実施装置並びにその処理プログラムを記録した媒体
JP3312652B2 (ja) マルチプロセッサアーキテクチャでのデータベース管理方式
JP2006092055A (ja) 計算機システム
JP2933011B2 (ja) ファイルの排他制御システム
JPH11134208A (ja) 計算機システム、計算機システムの障害情報収集方法、及び記録媒体