JP2001005699A

JP2001005699A - 計算機システムおよび障害情報採取方法

Info

Publication number: JP2001005699A
Application number: JP11180023A
Authority: JP
Inventors: Minako Sakamoto; 美奈子坂本; Isao Hirasawa; 勲平沢
Original assignee: Toshiba Corp; Toshiba Software Engineering Corp
Current assignee: Toshiba Corp; Toshiba Software Engineering Corp
Priority date: 1999-06-25
Filing date: 1999-06-25
Publication date: 2001-01-12

Abstract

(57)【要約】【課題】システム障害の原因調査用の障害情報をより効
率的に採取できるようにし、ディスク資源の節約、解析
作業の迅速化を図る。【解決手段】システムクラッシュ発生時には、スタック
データ検索／採取部１２１は、主メモリ２１上の全デー
タではなく、オペレーティングシステム１１がシステム
状態情報の保存に使用しているスタックデータに限定し
て障害情報の採取を行い、その採取データをファイルシ
ステムを介さずにディスク装置２２のダミーファイルに
直接書き込む。スタックデータはＣＰＵレジスタ値と、
ストップコードおよびそのパラメータを含んでいるの
で、ほとんどの場合、このスタックデータだけで十分な
原因究明を行うことができる。システム再起動時には、
ダミーファイルのスタックデータがテキストファイルに
コピーされ、そのテキストファイルが添付された電子メ
ールが障害解析担当者宛に自動送信される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、計算機システムお
よびその計算機システムの障害発生原因を調べるために
必要な障害情報を採取するための障害情報採取方法に関
する。

【０００２】

【従来の技術】一般に、計算機システムにおいては、ソ
フトウェアまたはハードウェア障害によってオペレーテ
ィングシステムがシステム続行不可能な状態（システム
クラッシュ）に陥った場合には、原因調査用の障害情報
を採取するために、いわゆるクラッシュダンプ機能が実
行される。クラッシュダンプ機能は、システムクラッシ
ュ発生時の主メモリ上の全てのデータを採取し、ハード
ディスク装置などの補助記憶装置に保存する機能であ
る。

【０００３】通常、クラッシュダンプ機能は、オペレー
ティングシステムがシステムクラッシュ発生時に実行す
るシステムクラッシュ処理内に実装されており、システ
ムクラッシュ発生時に自動的に実行される。

【０００４】クラッシュダンプ機能によって採取／保存
されたメモリデータは例えば保守センタの解析担当者や
現場の解析担当者などに渡され、障害発生の要因解析な
どに用いられる。

【０００５】

【発明が解決しようとする課題】しかし、企業内のコン
ピュータネットワークのサーバとして使用されている計
算機システム等においては、その主メモリのサイズは非
常に大きく、またパーソナルコンピュータにおいても、
主メモリのサイズは年々増加する傾向にある。このた
め、最近では、クラッシュダンプ機能によって採取され
るデータ量は膨大なものとなってきている。また、実際
の解析作業を考えると、障害発生の原因調査を行う上で
は必ずしも全てのメモリデータを必要としないことが多
く、採取したメモリデータのほとんどが無駄になる場合
もある。

【０００６】このように、従来のクラッシュダンプ機能
によるデータ採取には無駄が多く、ディスク資源の浪費
を招くばかりか、解析担当者は採取された膨大なデータ
の中から解析に必要なデータを抽出しなければならず、
その作業にも多くの時間が費やされるという問題があ
る。

【０００７】さらに、従来のクラッシュダンプ機能によ
って採取／保存される情報は、主メモリ上の生データ
（バイナリーデータ）そのものであり、ユーザが直接認
識することができない状態となっている。従って、ユー
ザまたは解析担当者がデータを参照するためには、デー
タ参照用の特殊なソフトウェアを使用することが必要と
された。

【０００８】本発明はこのような点に鑑みてなされたも
のであり、システム障害の原因調査用の障害情報をより
効率的に採取できるようにし、ディスク資源の節約、解
析作業の迅速化を図ることが可能な計算機システムおよ
び障害情報採取方法を提供することを目的とする。

【０００９】

【課題を解決するための手段】上述の課題を解決するた
め、本発明は、システム障害の発生時に、その障害発生
の原因を調べるために主メモリ上のデータを採取する計
算機システムであって、システム障害が発生したとき、
前記主メモリの中から、オペレーティングシステムがシ
ステム状態情報の保存に使用しているスタック領域の位
置を検出する検出手段と、前記主メモリ上の全データの
内、前記検出されたスタック領域に保存されているシス
テム状態情報を、前記障害発生の原因を調べるための障
害情報として採取する障害情報採取手段とを具備するこ
とを特徴とする。

【００１０】この計算機システムにおいては、主メモリ
上の全データではなく、オペレーティングシステムがシ
ステム状態情報の保存に使用しているスタック領域に限
定してメモリデータの採取が行われる。スタック領域の
システム状態情報はシステム障害発生時の命令実行状態
等を示す情報であるので、ほとんどの場合、このシステ
ム状態情報のみを障害発生の原因を調べるための障害情
報として採取するだけで十分な原因究明を行うことがで
きる。このため、原因究明に使用されない不要なデータ
を排除できるようになり、障害情報のデータサイズの縮
小を図ることができる。よって、障害情報を保存するた
めのディスク装置の記憶容量の節約を実現できると共
に、解析作業においては速やかに必要な情報を見つける
ことが可能となり、解析作業の迅速化を図ることができ
る。さらに、データサイズの縮小により、障害情報を解
析担当者に渡すためのデータの可搬性の向上を実現で
き、解析者に対して障害情報を電子メールによって通知
することが可能となる。

【００１１】また、通常、スタック領域へのシステム状
態情報の保存は、システム障害の発生時にオペレーティ
ングシステムのシステムクラッシュ処理によって実行さ
れることが多い。したがって、この場合には、例えばオ
ペレーティングシステムの一連のシステムクラッシュ処
理シーケンスの途中に割り込むことなどによって、前記
検出手段および前記障害情報採取手段をオペレーティン
グシステムによってシステム状態情報の保存処理が行わ
れたときに実行させることがことが好ましい。

【００１２】また、本発明は、前述の構成に加え、障害
情報採取手段によって採取されたシステム状態情報を、
ディスク装置上の予め決められた特定領域にファイルシ
ステムを介さずに直接的に書き込むシステム状態情報保
存手段をさらに具備することを特徴とする。このように
ファイルシステムを介さずにファイル出力する機能を追
加することにより、システム障害の発生によってファイ
ルシステムが既に正常動作してない場合であっても、シ
ステム状態情報をファイルとして保存することが可能と
なる。

【００１３】前記ディスク装置上の特定領域としては、
前記計算機システムの動作期間中オープンされ続けてい
る所定のファイルが存在する領域を使用することができ
る。この場合、前記システム状態情報保存手段は、予め
取得されている前記所定ファイルの存在位置にシステム
状態情報を書き込むことのみによって、ファイルシステ
ムを介さずにファイル出力を容易に行うことが可能とな
る。

【００１４】また、本発明は、システム障害の発生時
に、その障害発生の原因を調べるために主メモリ上のデ
ータを採取する計算機システムであって、システム障害
が発生したとき、前記メモリの中から障害発生の原因を
調べるために必要な障害情報を採取する障害情報採取手
段と、前記障害情報採取手段によって採取された障害情
報をテキスト形式のデータに変換してディスク装置に保
存するテキストデータ保存手段とを具備することを特徴
とする。

【００１５】このように、ユーザが直接参照できる形で
障害情報を保存しておくことにより、その障害情報の内
容を即座に認識することが可能となる。また、例えば電
子メールによる障害情報通知と組み合わせることによ
り、障害情報をテキスト形式で解析者に通知することが
可能となる。

【００１６】

【発明の実施の形態】以下、図面を参照して本発明の実
施形態を説明する。図１には、本発明の一実施形態に係
る計算機システムの機能構成が示されている。この計算
機システム１は例えばオフィスや事業所などに配備され
たコンピュータネットワークシステムのサーバ等として
使用されるコンピュータであり、システム障害によって
オペレーティングシステム１１が動作続行不可能な状態
に陥った場合に、主メモリ２１から原因調査に必要な障
害情報を自動採取する機能を有している。オペレーティ
ングシステム１１が動作停止されるようなシステム障害
はソフトウェア又はハードウェア障害によって引き起こ
されるものであり、システムクラッシュ、ブルーパニッ
ク、あるいはブルースクリーンなどと称されている。

【００１７】オペレーティングシステム（ＯＳ）１１に
は、システムクラッシュ発生時に動作するシステムクラ
ッシュ処理部１１１が設けられている。システムクラッ
シュ処理部１１１は、システムクラッシュ発生時の命令
実行状態などを含むシステム状態情報を主メモリ２１の
現在のスタック領域にセーブした後、主メモリ２１上の
全データをディスク装置２２に保存するためのクラッシ
ュダンプ処理を実行する。本実施形態では、ディスク装
置２２に保存するデータを必要最小限のデータに限定す
るために、ＯＳ１１の一連のシステムクラッシュ処理シ
ーケンスに割り込んで実行されるように構成された障害
情報管理プログラム１２が用意されている。

【００１８】すなわち、障害情報管理プログラム１２
は、大別して、スタックデータ検索／採取処理部１２１
と、システム処理起動部１２２から構成されている。ス
タックデータ検索／採取処理部１２１は、システムクラ
ッシュ処理部１１１の処理途中に割り込んで、主メモリ
２１からシステム障害解析に必要な情報を検索および取
得するためのコンピュータプログラムである。また、シ
ステム処理起動部１２２は、オペレーティングシステム
（ＯＳ）１１の再起動時に実行されるコンピュータプロ
グラムであり、システムクラッシュ発生時にスタックデ
ータ検索／採取処理部１２１が採取した障害情報をテキ
ストファイルに保存したり、メール送信用の障害通知プ
ログラム１４を用いて障害情報を計算機システム１の保
守管理サイト宛に電子メールで送信する処理などを実行
する。

【００１９】ここで、本実施形態で用いられる障害情報
採取方法の一連の手順を説明する。

【００２０】１）システムクラッシュが発生した場
合、ＯＳ１１のシステムクラッシュ処理部１１１の処理
が開始され、システム状態情報がスタック領域に保存さ
れる。システム状態情報はシステムクラッシュ発生時の
命令実行状態などを示すものであり、ブルースクリーン
情報などと称される場合もある。

【００２１】２）この保存処理が終了した時点で、障
害情報管理プログラム１２のスタックデータ検索／採取
処理部１２１が、システムクラッシュ処理部１１１の処
理途中に割り込んで、検索／採取処理を開始する。これ
は、たとえばスタックデータ検索／採取処理部１２１が
特定の命令を実行したときにスタックデータ検索／採取
処理部１２１が呼び出されるような仕組みを良く知られ
たフック機能等を用いて実現したり、あるいはスタック
データ検索／採取処理部１２１が特定の命令を実行した
ときに計算機システム１のＣＰＵにスタックデータ検索
／採取処理部１２１を呼び出すためのハードウェア割り
込み信号が発行されるようなロジックを用意すること、
等によって実現できる。

【００２２】３）スタックデータ検索／採取処理部１
２１は、現在使用されているスタック領域の位置を検出
することによって、主メモリ２１上のデータの中から、
スタック領域に保存されているシステム状態情報（以
下、スタックデータと称する）のみを検索し、それを採
取する。

【００２３】４）スタックデータ検索／採取処理部１
２１は、スタックデータをバイナリデータからテキスト
形式のコードデータに変換した後、ディスクダンプドラ
イバ１３を用いて、計算機システムの補助記憶装置とし
て使用されているディスク装置２２に対するスタックデ
ータの保存処理を開始する。

【００２４】５）ディスクダンプドライバ１３は、Ｏ
Ｓ１１のファイルシステムを介さずにファイル出力する
ための専用のプログラムであり、スタックデータ検索／
採取処理部１２１によって指定されたダミーファイル領
域にスタックデータを書き込む。

【００２５】６）この後、ＯＳ１１が再起動された時
には、障害情報管理プログラム１２のシステム処理起動
部１２２が動作する。

【００２６】７）システム処理起動部１２２は、ファ
イルシステムを介して、ディスク装置２２のダミーファ
イルをオープンし、そこからスタックデータを読み取
る。

【００２７】８）システム処理起動部１２２は、読み
取ったスタックデータをディスク装置２２上にオープン
したテキストファイルにコピーする。ダミーファイル
は、システム動作期間中は常時オープンされ続ける。何
時システムクラッシュが発生した場合でもディスクダン
プドライバ１３に対してスタックデータの書き込み位置
を指定できるようにするためである。オープン状態のダ
ミーファイルは排他制御によってロックされているた
め、他のユーザプログラムなどから使用することはでき
ないが、ダミーファイルの内容をテキストファイルにコ
ピーすることにより、ユーザによるスタックデータの参
照が可能となる。

【００２８】９）障害通知プログラムは、システム処
理起動部１２２によったスタックデータが書き込まれた
テキストファイルから電子メール用の添付ファイルを作
成し、そのファイルを電子メールに添付して保守管理サ
イト宛に送信する。これにより、障害発生の事実とその
障害解析に必要な情報を解析担当者に通知することがで
きる。

【００２９】（ＯＳと障害情報管理プログラムとの関
係）次に、図２のフローチャートを参照して、オペレー
ティングシステム１１と障害情報管理プログラム１２の
関係を説明する。

【００３０】システムクラッシュが発生すると、システ
ムクラッシュ処理部１１１は、まず、そのときの命令実
行状態を示す情報としてＣＰＵのレジスタ値をスタック
領域に格納し（ステップＳ１１）、次いで、ストップコ
ードとそのパラメータをスタック領域に格納する（ステ
ップＳ１２）。ここで、ストップコードとはシステムク
ラッシュの原因の種別を示す情報であり、パラメータは
その補足情報である。例えば、不正なメモリアクセスに
よってシステムクラッシュが発生した場合には、それを
示すストップコードと、不正なメモリアクセスが発生し
たメモリアドレス値を示すパラメータがスタック領域に
格納される。

【００３１】ストップコードおよびパラメータの保存処
理が終了した時点で、障害情報管理プログラム１２のス
タックデータ検索／採取処理部１２１が、システムクラ
ッシュ処理部１１１の処理途中に割り込んで検索／採取
処理を開始する。検索／採取処理では、前述したよう
に、スタックデータのみの採取および保存が行われる。
この場合、システムクラッシュ発生時の命令実行状態を
示しているＣＰＵレジスタ値のみならず、ストップコー
ドおよびパラメータも一緒に採取される。ストップコー
ドおよびそのパラメータは、システムクラッシュ発生時
にＯＳによって画面表示される場合もあるが、使用して
いるＯＳの種類やバージョンによっては、画面表示され
ない場合もある。本実施形態では、使用しているＯＳの
種類やバージョンによらずその原因情報を常にユーザや
解析担当者が参照できるようにするために、ストップコ
ードおよびパラメータを、ＣＰＵレジスタ値と共に採取
する。

【００３２】スタックデータ検索／採取処理部１２１の
処理が終了すると、システムクラッシュ処理部１１１に
制御が戻されて、メモリダンプ生成／出力処理が実行さ
れる（ステップＳ１３）。メモリダンプ生成／出力処理
では、主メモリ２１上の全データをディスク装置２２に
保存するクラッシュダンプ処理などが行われる。この
後、オペレーティングシステム１１によってシステム再
起動処理が行われた後（ステップＳ１４）、障害情報管
理プログラム１２のシステム処理起動部１２２がオペレ
ーティングシステム１１によって呼び出されて実行され
る。システム処理起動部１２２は、前述したように、ス
タックデータをテキストファイルに保存したり、メール
送信用の障害通知プログラム１４を用いてスタックデー
タを保守管理サイト宛に電子メールで送信する処理など
を行う。

【００３３】（スタックデータ検索／採取処理：その
１）次に、図３乃至図５を参照して、スタックデータ検
索／採取のための第１の方法について具体的に説明す
る。図３にその処理手順を示す。

【００３４】ソフトウェアまたはハードウェア障害によ
って、オペレーティングシステム１１が続行不可能な状
態に陥った場合、オペレーティングシステム１１のシス
テムクラッシュ処理部１１１が実行される（ステップＳ
１０１）。そして、システムクラッシュ処理部１１１の
処理途中で、スタックデータ検索／採取処理部１２１が
実行される。スタックデータ検索／採取処理部１２１
は、まず、主メモリ２１上にスタックデータ出力用バッ
ファを準備する（ステップＳ１０２）。スタックデータ
出力用バッファは、採取したスタックデータを格納する
ための領域である。

【００３５】次いで、スタックデータ検索／採取処理部
１２１は、オペレーティングシステム１１がシステム状
態の保存に使用しているスタック領域の位置を検出する
ために、ＣＰＵの現在のスタックベースレジスタの値を
取得する（ステップＳ１０３）。現在のスタックベース
レジスタの値は、スタックデータ検索／採取処理部１２
１が使用可能なスタックデータ領域の先頭位置を指すも
のであり、スタックベースレジスタの値で指定される位
置に保持されている値を調べることにより、オペレーテ
ィングシステム１１が使用したスタック領域の位置を検
出することができる。

【００３６】すなわち、スタックデータ検索／採取処理
部１２１は、ステップＳ１０３で取得したスタックベー
スレジスタの値が示す、スタックの別領域の位置を参照
して、システム状態情報の格納位置を調べ、そこに格納
されているデータを取得する（ステップＳ１０４）。

【００３７】図４は、ステップ１０４の処理イメージを
示したものである。２０１がスタックベースレジスタ値
であり、スタックベースレジスタ値（＝Ｆ００）で指定
されるメモリ上の位置に格納されている値（＝Ｆ０３）
が、ＯＳ１１によって保存されたシステム情報の位置
（＝Ｆ０３）を示している。つまり、Ｆ０３がシステム
クラッシュ発生時のスタック位置であり、この箇所か
ら、スタックデータ検索／採取処理部１２１はスタック
データの採取を行い、ステップ１０２の処理で準備して
いたスタックデータ出力バッファにコピーする（ステッ
プＳ１０５）。

【００３８】このようにして、スタックデータ検索／採
取処理を行った後、オペレーティングシステム１１のシ
ステムクラッシュ処理部１１１に処理を戻す（ステップ
Ｓ１０６）。

【００３９】図５は全体の処理イメージであり、オペレ
ーティングシステム１１のシステムクラッシュ処理中に
スタックデータの採取が行われる様子を示している。

【００４０】このように、本例では、主メモリ２１上の
全データではなく、オペレーティングシステム１１がシ
ステム状態情報の保存に使用しているスタック領域に限
定してメモリデータの採取が行われる。スタックデータ
は前述したようにＣＰＵレジスタ値と、ストップコード
およびそのパラメータを含んでいるので、ほとんどの場
合、このスタックデータだけで十分な原因究明を行うこ
とができる。このため、原因究明に使用されない不要な
データを排除できるようになり、障害情報のデータサイ
ズの縮小を図ることができる。

【００４１】（スタックデータ検索／採取処理：その
２）次に、図６および図７を参照して、スタックデータ
検索／採取のための第２の方法について説明する。ここ
では、スタックデータの内、ストップコードおよびパラ
メータについてのみ主メモリ２１上から検索し、その検
索したストップコードおよびパラメータのみを障害情報
として採取する場合を想定する。これは、採取すべき障
害情報をより限定すると共に、障害発生の原因情報を画
面表示しないＯＳを使用している場合であっても、障害
発生の原因情報を常にユーザや解析担当者に提供できる
ようにするためである。図６にその処理手順を示す。

【００４２】ソフトウェアまたはハードウェア障害によ
って、オペレーティングシステム１１が続行不可能な状
態に陥った場合、前述したように、オペレーティングシ
ステム１１のシステムクラッシュ処理部１１１が実行さ
れる（ステップＳ１１１）。システムクラッシュ処理部
１１１の処理途中において、スタックデータ検索／採取
処理部１２１が実行される。システムクラッシュ処理部
１１１は、まず、主メモリ２１上に採取データ出力用バ
ッファを準備する（ステップＳ１１２）。次いで、スタ
ックデータ検索／採取処理部１２１は、オペレーティン
グシステム１１がシステム状態の保存に使用しているス
タック領域の位置を検出するために、ＣＰＵの現在のス
タックベースレジスタの値を取得する（ステップＳ１１
３）。そして、スタックデータ検索／採取処理部１２１
は、スタックベースレジスタの値に基づいてオペレーテ
ィングシステム１１がシステム状態情報の保存に使用し
ているスタックを調べ、その箇所から、順にデータを検
索／採取していく（ステップＳ１１４）。このスタック
領域を図７（Ａ）に示す。

【００４３】図７（Ａ）において、３０１がスタックベ
ースレジスタの値で、スタックベースレジスタの値が示
す箇所から順に、３０２がストップコード、３０２がパ
ラメータ１、３０４がパラメータ２、３０５がパラメー
タ３、３０６がパラメータ４である。ステップＳ１１４
では、図７（Ｂ）に示すように、これら３０２〜３０６
の情報のみが採取される。

【００４４】続く、ステップＳ１１５では、スタックデ
ータ検索／採取処理部１２１は、ステップＳ１１４で採
取した値（ストップコード、パラメータ１〜４）を採取
データ出力用バッファに格納する。このようにして、ス
タックデータ検索／採取処理を行った後、オペレーティ
ングシステムのシステムクラッシュ処理部１１１に処理
を戻す（ステップＳ１１６）。

【００４５】このように、システムクラッシュ発生時に
表示される画面情報と同じ障害原因情報をスタックデー
タから検索、取得することにより、障害原因情報が画面
表示されない場合でも、その情報をユーザや解析担当者
に提供することが可能となる。特に、障害原因情報を電
子メールにて保守管理サイトの解析担当者に送信するこ
とにより、計算機システム１の使用者が解析担当者に電
話によって障害の症状を伝える場合などに比べて、障害
の内容を迅速且つ正確に通知することが可能となる。

【００４６】（スタックデータ検索／採取処理：その
３）次に、図８および図９を参照して、スタックデータ
検索／採取のための第３の方法について説明する。ここ
では、メモリデータからスタックデータのみを検索して
採取するだけでなく、そのスタックデータの解析処理も
合わせて行い、採取したスタックデータに解析結果を付
加して出力する場合を説明する。

【００４７】ソフトウェアまたはハードウェア障害によ
って、オペレーティングシステム１１が続行不可能な状
態に陥った場合、オペレーティングシステム１１のシス
テムクラッシュ処理部１１１が実行される（ステップＳ
１２）。そして、システムクラッシュ処理部１１１の処
理途中で、スタックデータ検索／採取処理部１２１が実
行される。スタックデータ検索／採取処理部１２１は、
まず、主メモリ２１上にスタックデータ出力用バッファ
を準備する（ステップＳ１２２）。次いで、スタックデ
ータ検索／採取処理部１２１は、オペレーティングシス
テム１１がシステム状態の保存に使用しているスタック
領域の位置を検出するために、ＣＰＵの現在のスタック
ベースレジスタの値を取得する（ステップＳ１２３）。
現在のスタックベースレジスタの値は、スタックデータ
検索／採取処理部１２１が使用可能なスタックデータ領
域の先頭位置を指すものであり、スタックベースレジス
タの値で指定される位置に保持されている値を調べるこ
とにより、オペレーティングシステム１１が使用したス
タック領域の位置を検出することができる。

【００４８】すなわち、スタックデータ検索／採取処理
部１２１は、ステップＳ１２３で取得したスタックベー
スレジスタの値が示す、スタックの別領域の位置を参照
して、システム状態情報の格納位置を調べ、そこに格納
されているデータを取得し（ステップＳ１２４）、ステ
ップ１２２の処理で準備していたスタックデータ出力バ
ッファにコピーする（ステップＳ１２５）。ここまで
は、図３の処理と同じである。

【００４９】この後、ステップＳ１２６の処理におい
て、スタックデータの解析処理が行われる。この解析処
理では、スタックデータ出力バッファからトラップフレ
ーム（システムクラッシュ発生の直接な原因となった命
令実行時の状態が格納されているデータ群）を検索す
る。図９は、ステップＳ１２６の処理イメージを示した
ものである。

【００５０】まず、スタックデータ出力バッファの先頭
から、システムクラッシュ発生時のフラグレジスタ値を
検索し、フラグレジスタ値が格納されているスタック位
置を取得する（６０１参照）。フラグレジスタ値はトラ
ップフレームの一部であり、フラグレジスタ値が格納さ
れている位置は、トラップフレーム内で固定であるた
め、フラグレジスタ値が格納されているスタック位置か
ら、トラップフレームの先頭位置を算出することが可能
である（６０２参照）。トラップフレームの先頭位置を
取得することによって、トラップフレーム内の各データ
への参照が可能になる。このようにして、スタックデー
タ検索／採取処理を行った後、オペレーティングシステ
ム１１のシステムクラッシュ処理部１１１に処理を戻す
（ステップＳ１２７）。

【００５１】このように、スタックデータを単に採取す
るだけでなく解析結果を補足情報として付加して出力す
ることにより、より効率の良い障害解析が可能となる。

【００５２】（採取データのディスク保存／テキスト変
換）次に、図１０のフローチャートを参照して、採取し
たスタックデータをファイルシステムを介さずにディス
ク装置２２に保存する処理、およびスタックデータをユ
ーザ可視可能なテキストデータに変換する処理について
具体的に説明する。これら処理は、システム処理起動部
１２２とスタックデータ検索／採取処理部１２１との２
つの処理によって実現される。

【００５３】オペレーティングシステム１１による起動
処理が終了すると、まず、最初に、システム処理起動部
１２２が実行される。システム処理起動部１２２は、ま
ず、ディスク装置２２上に存在するダミーファイルをオ
ープンする（ステップＳ２０１）。ダミーファイルは、
スタックデータ検索／採取処理部１２１にて、採取デー
タを出力するためのファイルである。通常は、ダミーフ
ァイルへのデータ出力はファイルシステムを経由して行
う。しかし、システムクラッシュ発生時にはファイルシ
ステムが既に正常に動作していないため、ファイルシス
テム経由での出力が不可能な状態となる。そこで、ファ
イルシステムを経由せずに、ファイルに対するデータ出
力を可能にする特別なソフトウェア（前述のディスクダ
ンプドライバ１３）を利用する。

【００５４】このディスクダンプドライバ１３を使用し
てデータ出力を行うためには、ダミーファイルのディス
ク装置２２上での論理位置を取得する必要があるため、
ステップＳ２０１でダミーファイルをオープンし、その
論理位置の取得を後述のステップＳ２０７で行うのであ
る。ダミーファイルのクローズ処理は行わないので、フ
ァイルの排他処理により、ダミーファイル記憶領域は常
時確保された状態に維持することができる。よって、シ
ステムクラッシュが何時発生しても、採取したスタック
データをファイルシステムを介さずにファイル出力する
ことができる。

【００５５】ダミーファイルをオープンした後、システ
ム処理起動部１２２は、ダミーファイルのデータを読み
込み（ステップＳ２０２）、その先頭データを調べるこ
とによってスタックデータが保存されているか否かを判
断する（ステップＳ２０３）。スタックデータが保存さ
れている場合には、今回のシステム起動処理はシステム
クラッシュ後の再起動処理であることを意味している。

【００５６】この場合、システム処理起動部１２２は、
ディスク装置２２上にテキストファイルを生成およびオ
ープンし（ステップＳ２０４）、ステップＳ２０２で読
み込んだダミーファイルのデータをそのテキストファイ
ルにコピーする（ステップＳ２０５）。ダミーファイル
の内容をテキストファイルへコピーするのは、前述した
ようにシステム動作中はダミーファイルは常にオープン
されており、ロック状態（排他制御）になっているた
め、ユーザが直接ダミーファイルをアクセスすることが
できないからである。

【００５７】次いで、システム処理起動部１２２は、テ
キストファイルをクローズした後（ステップＳ２０
６）、ダミーファイルのディスク上の論理位置を取得
し、それを記憶しておく（ステップＳ２０７）。

【００５８】システムクラッシュが発生した場合には、
前述したように、オペレーティングシステム１１のシス
テムクラッシュ処理の途中でスタックデータ検索／採取
処理部１２１が実行される。スタックデータ検索／採取
処理部１２１は、ディスクダンプドライバ１３を動作さ
せるためにその初期化処理およびオープン処理を実行し
た後（ステップＳ３０１，Ｓ３０２）、前述したスタッ
クデータ検索／採取処理１、２、または３の方法を用い
て、ダミーファイルに出力すべきデータの検索および採
取を行う（ステップＳ３０３）。次いで、スタックデー
タ検索／採取処理部１２１は、採取データをバイナリデ
ータからユーザ可視可能なコードデータ（テキストデー
タ）に変換した後（ステップＳ３０４）、ダミーファイ
ルのディスク上の論理位置をディスクダンプドライバ１
３に指示して、ダミーファイルに採取データを直接書き
込むダンプ処理を実行させる（ステップＳ３０５）。ダ
ミーファイルへの書き込み処理が終了した時点で、スタ
ックデータ検索／採取処理部１２１はディスクダンプド
ライバ１３を終了させ（ステップＳ３０６）、オペレー
ティングシステム１１に処理を戻す。

【００５９】このように、ファイルシステムを介さずに
採取データをディスクに保存しておき、再起動時に採取
データをテキストファイルに出力することにより、何時
再起動が行われても、その時点で障害解析に必要な情報
をテキストデータによってメール送信したり、ユーザに
よる参照を可能にすることができる。

【００６０】なお、本実施形態の障害情報管理プログラ
ムおよびディスクダンプドライバ１３、さらには障害通
知プログラム１４をコンピュータ読み取り可能な記録媒
体に記録しておくことにより、その記録媒体を通じてそ
れら障害情報管理プログラムおよびディスクダンプドラ
イバ１３、さらには障害通知プログラム１４などをコン
ピュータに導入するだけで、本実施形態と同様の効果を
得ることが可能となる。

【００６１】

【発明の効果】以上説明したように、本発明によれば、
システム障害の原因調査用の障害情報をより効率的に採
取できると共に、ユーザが参照しやすい形式でディスク
に保存、さらにはメール送信することにより、解析作業
の迅速化を図ることが可能となる。

【図面の簡単な説明】

【図１】本発明の一実施形態に係る計算機システムの機
能構成と基本的な処理の流れを説明するための図。

【図２】同実施形態のシステムで利用されるＯＳと障害
情報管理プログラムとの関係を示すフローチャート。

【図３】同実施形態のシステムで利用されるスタックデ
ータ検索／採取処理の第１の手順を示すフローチャー
ト。

【図４】図３のスタックデータ検索／採取処理による検
索動作を示す図。

【図５】図３のスタックデータ検索／採取処理とオペレ
ーティングシステムとの関係を示す図。

【図６】同実施形態のシステムで利用されるスタックデ
ータ検索／採取処理の第２の手順を示すフローチャー
ト。

【図７】図６のスタックデータ検索／採取処理による検
索動作を示す図。

【図８】同実施形態のシステムで利用されるスタックデ
ータ検索／採取処理の第３の手順を示すフローチャー
ト。

【図９】図３のスタックデータ検索／採取処理によって
実行されるスタックデータ解析処理の一例を示す図。

【図１０】同実施形態のシステムで利用されるスタック
データのディスク保存／テキスト変換処理の手順を説明
するためのフローチャート。

【符号の説明】

１１…オペレーティングシステム（ＯＳ）１２…障害情報管理プログラム１３…ディスクダンプドライバ１４…障害通知プログラム２１…主メモリ２２…ディスク装置１２１…スタックデータ検索／採取処理部１２２…システム処理起動部

───────────────────────────────────────────────────── フロントページの続き (72)発明者平沢勲東京都青梅市新町３丁目３番地の５東芝ソフトウェアエンジニアリング株式会社内Ｆターム(参考） 5B042 GA21 KK13 KK14 MA01 MA05 MA08 MA15 MC05 MC07 MC15 NN56

Claims

【特許請求の範囲】

【請求項１】システム障害の発生時に、その障害発生
の原因を調べるために主メモリ上のデータを採取する計
算機システムであって、システム障害が発生したとき、前記主メモリの中から、
オペレーティングシステムがシステム状態情報の保存に
使用しているスタック領域の位置を検出する検出手段
と、前記主メモリ上の全データの内、前記検出されたスタッ
ク領域に保存されているシステム状態情報を、前記障害
発生の原因を調べるための障害情報として採取する障害
情報採取手段とを具備することを特徴とする計算機シス
テム。
【請求項２】前記スタック領域への前記システム状態
情報の保存は、オペレーティングシステムがシステム障
害発生時に実行する一連の障害処理シーケンス内で行わ
れ、前記検出手段および前記障害情報採取手段は、前記障害
処理シーケンスの途中に割り込むことによって、前記ス
タック領域の検出および前記システム状態情報の採取を
実行するように構成されていることを特徴とする請求項
１記載の計算機システム。
【請求項３】前記障害情報採取手段は、前記システム
状態情報を解析し、その解析結果付きのシステム状態情
報を前記障害情報として出力することを特徴とする請求
項１記載の計算機システム。
【請求項４】前記計算機システムの再起動時に、シス
テム障害発生時に前記障害情報採取手段によって採取さ
れた前記システム状態情報を電子メールに添付して前記
計算機システムの保守管理サイト宛に送信するメール送
信手段をさらに具備することを特徴とする請求項１記載
の計算機システム。
【請求項５】システム障害の発生時に、その障害発生
の原因を調べるために主メモリ上のデータを採取する計
算機システムであって、システム障害が発生したとき、前記主メモリの中から、
オペレーティングシステムがシステム状態情報の保存に
使用しているスタック領域の位置を検出する検出手段
と、前記主メモリ上の全データの内、前記検出されたスタッ
ク領域に保存されているシステム状態情報を、前記障害
発生の原因を調べるための障害情報として採取する障害
情報採取手段と、前記障害情報採取手段によって採取されたシステム状態
情報を、ディスク装置上の予め決められた特定領域にフ
ァイルシステムを介さずに直接的に書き込むシステム状
態情報保存手段とを具備することを特徴とする計算機シ
ステム。
【請求項６】前記ディスク装置上の特定領域は、前記
計算機システムの動作期間中オープンされ続けている所
定のファイルが存在する領域であり、前記システム状態情報保存手段は、予め取得されている
前記所定ファイルの存在位置に、前記障害情報採取手段
によって採取されたシステム状態情報を書き込むことを
特徴とする請求項５記載の計算機システム。
【請求項７】前記計算機システムの再起動時に、前記
所定ファイルの内容を前記ディスク装置上にテキストフ
ァイルとして保存する手段をさらに具備することを特徴
とする請求項６記載の計算機システム。
【請求項８】前記計算機システムの再起動時に、前記
テキストファイルを電子メールに添付して前記計算機シ
ステムの保守管理サイト宛に送信するメール送信手段を
さらに具備することを特徴とする請求項７記載の計算機
システム。
【請求項９】システム障害の発生時に、その障害発生
の原因を調べるために主メモリ上のデータを採取する計
算機システムであって、システム障害が発生したとき、前記メモリの中から障害
発生の原因を調べるために必要な障害情報を採取する障
害情報採取手段と、前記障害情報採取手段によって採取された障害情報をテ
キスト形式のデータに変換してディスク装置に保存する
テキストデータ保存手段とを具備することを特徴とする
計算機システム。
【請求項１０】システム障害の発生時に、その障害発
生の原因を調べるために計算機システムの主メモリ上の
データを採取する障害情報採取方法であって、システム障害が発生したとき、前記メモリの中から、オ
ペレーティングシステムがシステム状態情報の保存に使
用しているスタック領域の位置を検出し、前記主メモリ上の全データの内、前記検出されたスタッ
ク領域に保存されているシステム状態情報を、前記障害
発生の原因を調べるための障害情報として採取すること
を特徴とする障害情報採取方法。
【請求項１１】システム障害の発生時に、その障害発
生の原因を調べるために計算機システムの主メモリ上の
データを採取する障害情報採取方法であって、システム障害が発生したとき、前記主メモリの中から、
オペレーティングシステムがシステム状態情報の保存に
使用しているスタック領域の位置を検出し、前記主メモリ上の全データの内、前記検出されたスタッ
ク領域に保存されているシステム状態情報を、前記障害
発生の原因を調べるための障害情報として採取し、前記採取されたシステム状態情報を、ディスク装置上の
予め決められた特定領域にファイルシステムを介さずに
直接的に書き込むことを特徴とする障害情報採取方法。
【請求項１２】システム障害の発生時に、その障害発
生の原因を調べるために計算機システムの主メモリ上の
データを採取する障害情報採取方法であって、システム障害が発生したとき、前記主メモリの中から障
害発生の原因を調べるために必要な障害情報を採取し、採取された障害情報をテキスト形式のデータに変換して
前記計算機システムのディスク装置に保存することを特
徴とする障害情報採取方法。