JP2001005699A - 計算機システムおよび障害情報採取方法 - Google Patents

計算機システムおよび障害情報採取方法

Info

Publication number
JP2001005699A
JP2001005699A JP11180023A JP18002399A JP2001005699A JP 2001005699 A JP2001005699 A JP 2001005699A JP 11180023 A JP11180023 A JP 11180023A JP 18002399 A JP18002399 A JP 18002399A JP 2001005699 A JP2001005699 A JP 2001005699A
Authority
JP
Japan
Prior art keywords
failure
information
data
computer system
main memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11180023A
Other languages
English (en)
Inventor
Minako Sakamoto
美奈子 坂本
Isao Hirasawa
勲 平沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Software Engineering Corp
Original Assignee
Toshiba Corp
Toshiba Software Engineering Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Software Engineering Corp filed Critical Toshiba Corp
Priority to JP11180023A priority Critical patent/JP2001005699A/ja
Publication of JP2001005699A publication Critical patent/JP2001005699A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

(57)【要約】 【課題】システム障害の原因調査用の障害情報をより効
率的に採取できるようにし、ディスク資源の節約、解析
作業の迅速化を図る。 【解決手段】システムクラッシュ発生時には、スタック
データ検索/採取部121は、主メモリ21上の全デー
タではなく、オペレーティングシステム11がシステム
状態情報の保存に使用しているスタックデータに限定し
て障害情報の採取を行い、その採取データをファイルシ
ステムを介さずにディスク装置22のダミーファイルに
直接書き込む。スタックデータはCPUレジスタ値と、
ストップコードおよびそのパラメータを含んでいるの
で、ほとんどの場合、このスタックデータだけで十分な
原因究明を行うことができる。システム再起動時には、
ダミーファイルのスタックデータがテキストファイルに
コピーされ、そのテキストファイルが添付された電子メ
ールが障害解析担当者宛に自動送信される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、計算機システムお
よびその計算機システムの障害発生原因を調べるために
必要な障害情報を採取するための障害情報採取方法に関
する。
【0002】
【従来の技術】一般に、計算機システムにおいては、ソ
フトウェアまたはハードウェア障害によってオペレーテ
ィングシステムがシステム続行不可能な状態(システム
クラッシュ)に陥った場合には、原因調査用の障害情報
を採取するために、いわゆるクラッシュダンプ機能が実
行される。クラッシュダンプ機能は、システムクラッシ
ュ発生時の主メモリ上の全てのデータを採取し、ハード
ディスク装置などの補助記憶装置に保存する機能であ
る。
【0003】通常、クラッシュダンプ機能は、オペレー
ティングシステムがシステムクラッシュ発生時に実行す
るシステムクラッシュ処理内に実装されており、システ
ムクラッシュ発生時に自動的に実行される。
【0004】クラッシュダンプ機能によって採取/保存
されたメモリデータは例えば保守センタの解析担当者や
現場の解析担当者などに渡され、障害発生の要因解析な
どに用いられる。
【0005】
【発明が解決しようとする課題】しかし、企業内のコン
ピュータネットワークのサーバとして使用されている計
算機システム等においては、その主メモリのサイズは非
常に大きく、またパーソナルコンピュータにおいても、
主メモリのサイズは年々増加する傾向にある。このた
め、最近では、クラッシュダンプ機能によって採取され
るデータ量は膨大なものとなってきている。また、実際
の解析作業を考えると、障害発生の原因調査を行う上で
は必ずしも全てのメモリデータを必要としないことが多
く、採取したメモリデータのほとんどが無駄になる場合
もある。
【0006】このように、従来のクラッシュダンプ機能
によるデータ採取には無駄が多く、ディスク資源の浪費
を招くばかりか、解析担当者は採取された膨大なデータ
の中から解析に必要なデータを抽出しなければならず、
その作業にも多くの時間が費やされるという問題があ
る。
【0007】さらに、従来のクラッシュダンプ機能によ
って採取/保存される情報は、主メモリ上の生データ
(バイナリーデータ)そのものであり、ユーザが直接認
識することができない状態となっている。従って、ユー
ザまたは解析担当者がデータを参照するためには、デー
タ参照用の特殊なソフトウェアを使用することが必要と
された。
【0008】本発明はこのような点に鑑みてなされたも
のであり、システム障害の原因調査用の障害情報をより
効率的に採取できるようにし、ディスク資源の節約、解
析作業の迅速化を図ることが可能な計算機システムおよ
び障害情報採取方法を提供することを目的とする。
【0009】
【課題を解決するための手段】上述の課題を解決するた
め、本発明は、システム障害の発生時に、その障害発生
の原因を調べるために主メモリ上のデータを採取する計
算機システムであって、システム障害が発生したとき、
前記主メモリの中から、オペレーティングシステムがシ
ステム状態情報の保存に使用しているスタック領域の位
置を検出する検出手段と、前記主メモリ上の全データの
内、前記検出されたスタック領域に保存されているシス
テム状態情報を、前記障害発生の原因を調べるための障
害情報として採取する障害情報採取手段とを具備するこ
とを特徴とする。
【0010】この計算機システムにおいては、主メモリ
上の全データではなく、オペレーティングシステムがシ
ステム状態情報の保存に使用しているスタック領域に限
定してメモリデータの採取が行われる。スタック領域の
システム状態情報はシステム障害発生時の命令実行状態
等を示す情報であるので、ほとんどの場合、このシステ
ム状態情報のみを障害発生の原因を調べるための障害情
報として採取するだけで十分な原因究明を行うことがで
きる。このため、原因究明に使用されない不要なデータ
を排除できるようになり、障害情報のデータサイズの縮
小を図ることができる。よって、障害情報を保存するた
めのディスク装置の記憶容量の節約を実現できると共
に、解析作業においては速やかに必要な情報を見つける
ことが可能となり、解析作業の迅速化を図ることができ
る。さらに、データサイズの縮小により、障害情報を解
析担当者に渡すためのデータの可搬性の向上を実現で
き、解析者に対して障害情報を電子メールによって通知
することが可能となる。
【0011】また、通常、スタック領域へのシステム状
態情報の保存は、システム障害の発生時にオペレーティ
ングシステムのシステムクラッシュ処理によって実行さ
れることが多い。したがって、この場合には、例えばオ
ペレーティングシステムの一連のシステムクラッシュ処
理シーケンスの途中に割り込むことなどによって、前記
検出手段および前記障害情報採取手段をオペレーティン
グシステムによってシステム状態情報の保存処理が行わ
れたときに実行させることがことが好ましい。
【0012】また、本発明は、前述の構成に加え、障害
情報採取手段によって採取されたシステム状態情報を、
ディスク装置上の予め決められた特定領域にファイルシ
ステムを介さずに直接的に書き込むシステム状態情報保
存手段をさらに具備することを特徴とする。このように
ファイルシステムを介さずにファイル出力する機能を追
加することにより、システム障害の発生によってファイ
ルシステムが既に正常動作してない場合であっても、シ
ステム状態情報をファイルとして保存することが可能と
なる。
【0013】前記ディスク装置上の特定領域としては、
前記計算機システムの動作期間中オープンされ続けてい
る所定のファイルが存在する領域を使用することができ
る。この場合、前記システム状態情報保存手段は、予め
取得されている前記所定ファイルの存在位置にシステム
状態情報を書き込むことのみによって、ファイルシステ
ムを介さずにファイル出力を容易に行うことが可能とな
る。
【0014】また、本発明は、システム障害の発生時
に、その障害発生の原因を調べるために主メモリ上のデ
ータを採取する計算機システムであって、システム障害
が発生したとき、前記メモリの中から障害発生の原因を
調べるために必要な障害情報を採取する障害情報採取手
段と、前記障害情報採取手段によって採取された障害情
報をテキスト形式のデータに変換してディスク装置に保
存するテキストデータ保存手段とを具備することを特徴
とする。
【0015】このように、ユーザが直接参照できる形で
障害情報を保存しておくことにより、その障害情報の内
容を即座に認識することが可能となる。また、例えば電
子メールによる障害情報通知と組み合わせることによ
り、障害情報をテキスト形式で解析者に通知することが
可能となる。
【0016】
【発明の実施の形態】以下、図面を参照して本発明の実
施形態を説明する。図1には、本発明の一実施形態に係
る計算機システムの機能構成が示されている。この計算
機システム1は例えばオフィスや事業所などに配備され
たコンピュータネットワークシステムのサーバ等として
使用されるコンピュータであり、システム障害によって
オペレーティングシステム11が動作続行不可能な状態
に陥った場合に、主メモリ21から原因調査に必要な障
害情報を自動採取する機能を有している。オペレーティ
ングシステム11が動作停止されるようなシステム障害
はソフトウェア又はハードウェア障害によって引き起こ
されるものであり、システムクラッシュ、ブルーパニッ
ク、あるいはブルースクリーンなどと称されている。
【0017】オペレーティングシステム(OS)11に
は、システムクラッシュ発生時に動作するシステムクラ
ッシュ処理部111が設けられている。システムクラッ
シュ処理部111は、システムクラッシュ発生時の命令
実行状態などを含むシステム状態情報を主メモリ21の
現在のスタック領域にセーブした後、主メモリ21上の
全データをディスク装置22に保存するためのクラッシ
ュダンプ処理を実行する。本実施形態では、ディスク装
置22に保存するデータを必要最小限のデータに限定す
るために、OS11の一連のシステムクラッシュ処理シ
ーケンスに割り込んで実行されるように構成された障害
情報管理プログラム12が用意されている。
【0018】すなわち、障害情報管理プログラム12
は、大別して、スタックデータ検索/採取処理部121
と、システム処理起動部122から構成されている。ス
タックデータ検索/採取処理部121は、システムクラ
ッシュ処理部111の処理途中に割り込んで、主メモリ
21からシステム障害解析に必要な情報を検索および取
得するためのコンピュータプログラムである。また、シ
ステム処理起動部122は、オペレーティングシステム
(OS)11の再起動時に実行されるコンピュータプロ
グラムであり、システムクラッシュ発生時にスタックデ
ータ検索/採取処理部121が採取した障害情報をテキ
ストファイルに保存したり、メール送信用の障害通知プ
ログラム14を用いて障害情報を計算機システム1の保
守管理サイト宛に電子メールで送信する処理などを実行
する。
【0019】ここで、本実施形態で用いられる障害情報
採取方法の一連の手順を説明する。
【0020】1) システムクラッシュが発生した場
合、OS11のシステムクラッシュ処理部111の処理
が開始され、システム状態情報がスタック領域に保存さ
れる。システム状態情報はシステムクラッシュ発生時の
命令実行状態などを示すものであり、ブルースクリーン
情報などと称される場合もある。
【0021】2) この保存処理が終了した時点で、障
害情報管理プログラム12のスタックデータ検索/採取
処理部121が、システムクラッシュ処理部111の処
理途中に割り込んで、検索/採取処理を開始する。これ
は、たとえばスタックデータ検索/採取処理部121が
特定の命令を実行したときにスタックデータ検索/採取
処理部121が呼び出されるような仕組みを良く知られ
たフック機能等を用いて実現したり、あるいはスタック
データ検索/採取処理部121が特定の命令を実行した
ときに計算機システム1のCPUにスタックデータ検索
/採取処理部121を呼び出すためのハードウェア割り
込み信号が発行されるようなロジックを用意すること、
等によって実現できる。
【0022】3) スタックデータ検索/採取処理部1
21は、現在使用されているスタック領域の位置を検出
することによって、主メモリ21上のデータの中から、
スタック領域に保存されているシステム状態情報(以
下、スタックデータと称する)のみを検索し、それを採
取する。
【0023】4) スタックデータ検索/採取処理部1
21は、スタックデータをバイナリデータからテキスト
形式のコードデータに変換した後、ディスクダンプドラ
イバ13を用いて、計算機システムの補助記憶装置とし
て使用されているディスク装置22に対するスタックデ
ータの保存処理を開始する。
【0024】5) ディスクダンプドライバ13は、O
S11のファイルシステムを介さずにファイル出力する
ための専用のプログラムであり、スタックデータ検索/
採取処理部121によって指定されたダミーファイル領
域にスタックデータを書き込む。
【0025】6) この後、OS11が再起動された時
には、障害情報管理プログラム12のシステム処理起動
部122が動作する。
【0026】7) システム処理起動部122は、ファ
イルシステムを介して、ディスク装置22のダミーファ
イルをオープンし、そこからスタックデータを読み取
る。
【0027】8) システム処理起動部122は、読み
取ったスタックデータをディスク装置22上にオープン
したテキストファイルにコピーする。ダミーファイル
は、システム動作期間中は常時オープンされ続ける。何
時システムクラッシュが発生した場合でもディスクダン
プドライバ13に対してスタックデータの書き込み位置
を指定できるようにするためである。オープン状態のダ
ミーファイルは排他制御によってロックされているた
め、他のユーザプログラムなどから使用することはでき
ないが、ダミーファイルの内容をテキストファイルにコ
ピーすることにより、ユーザによるスタックデータの参
照が可能となる。
【0028】9) 障害通知プログラムは、システム処
理起動部122によったスタックデータが書き込まれた
テキストファイルから電子メール用の添付ファイルを作
成し、そのファイルを電子メールに添付して保守管理サ
イト宛に送信する。これにより、障害発生の事実とその
障害解析に必要な情報を解析担当者に通知することがで
きる。
【0029】(OSと障害情報管理プログラムとの関
係)次に、図2のフローチャートを参照して、オペレー
ティングシステム11と障害情報管理プログラム12の
関係を説明する。
【0030】システムクラッシュが発生すると、システ
ムクラッシュ処理部111は、まず、そのときの命令実
行状態を示す情報としてCPUのレジスタ値をスタック
領域に格納し(ステップS11)、次いで、ストップコ
ードとそのパラメータをスタック領域に格納する(ステ
ップS12)。ここで、ストップコードとはシステムク
ラッシュの原因の種別を示す情報であり、パラメータは
その補足情報である。例えば、不正なメモリアクセスに
よってシステムクラッシュが発生した場合には、それを
示すストップコードと、不正なメモリアクセスが発生し
たメモリアドレス値を示すパラメータがスタック領域に
格納される。
【0031】ストップコードおよびパラメータの保存処
理が終了した時点で、障害情報管理プログラム12のス
タックデータ検索/採取処理部121が、システムクラ
ッシュ処理部111の処理途中に割り込んで検索/採取
処理を開始する。検索/採取処理では、前述したよう
に、スタックデータのみの採取および保存が行われる。
この場合、システムクラッシュ発生時の命令実行状態を
示しているCPUレジスタ値のみならず、ストップコー
ドおよびパラメータも一緒に採取される。ストップコー
ドおよびそのパラメータは、システムクラッシュ発生時
にOSによって画面表示される場合もあるが、使用して
いるOSの種類やバージョンによっては、画面表示され
ない場合もある。本実施形態では、使用しているOSの
種類やバージョンによらずその原因情報を常にユーザや
解析担当者が参照できるようにするために、ストップコ
ードおよびパラメータを、CPUレジスタ値と共に採取
する。
【0032】スタックデータ検索/採取処理部121の
処理が終了すると、システムクラッシュ処理部111に
制御が戻されて、メモリダンプ生成/出力処理が実行さ
れる(ステップS13)。メモリダンプ生成/出力処理
では、主メモリ21上の全データをディスク装置22に
保存するクラッシュダンプ処理などが行われる。この
後、オペレーティングシステム11によってシステム再
起動処理が行われた後(ステップS14)、障害情報管
理プログラム12のシステム処理起動部122がオペレ
ーティングシステム11によって呼び出されて実行され
る。システム処理起動部122は、前述したように、ス
タックデータをテキストファイルに保存したり、メール
送信用の障害通知プログラム14を用いてスタックデー
タを保守管理サイト宛に電子メールで送信する処理など
を行う。
【0033】(スタックデータ検索/採取処理:その
1)次に、図3乃至図5を参照して、スタックデータ検
索/採取のための第1の方法について具体的に説明す
る。図3にその処理手順を示す。
【0034】ソフトウェアまたはハードウェア障害によ
って、オペレーティングシステム11が続行不可能な状
態に陥った場合、オペレーティングシステム11のシス
テムクラッシュ処理部111が実行される(ステップS
101)。そして、システムクラッシュ処理部111の
処理途中で、スタックデータ検索/採取処理部121が
実行される。スタックデータ検索/採取処理部121
は、まず、主メモリ21上にスタックデータ出力用バッ
ファを準備する(ステップS102)。スタックデータ
出力用バッファは、採取したスタックデータを格納する
ための領域である。
【0035】次いで、スタックデータ検索/採取処理部
121は、オペレーティングシステム11がシステム状
態の保存に使用しているスタック領域の位置を検出する
ために、CPUの現在のスタックベースレジスタの値を
取得する(ステップS103)。現在のスタックベース
レジスタの値は、スタックデータ検索/採取処理部12
1が使用可能なスタックデータ領域の先頭位置を指すも
のであり、スタックベースレジスタの値で指定される位
置に保持されている値を調べることにより、オペレーテ
ィングシステム11が使用したスタック領域の位置を検
出することができる。
【0036】すなわち、スタックデータ検索/採取処理
部121は、ステップS103で取得したスタックベー
スレジスタの値が示す、スタックの別領域の位置を参照
して、システム状態情報の格納位置を調べ、そこに格納
されているデータを取得する(ステップS104)。
【0037】図4は、ステップ104の処理イメージを
示したものである。201がスタックベースレジスタ値
であり、スタックベースレジスタ値(=F00)で指定
されるメモリ上の位置に格納されている値(=F03)
が、OS11によって保存されたシステム情報の位置
(=F03)を示している。つまり、F03がシステム
クラッシュ発生時のスタック位置であり、この箇所か
ら、スタックデータ検索/採取処理部121はスタック
データの採取を行い、ステップ102の処理で準備して
いたスタックデータ出力バッファにコピーする(ステッ
プS105)。
【0038】このようにして、スタックデータ検索/採
取処理を行った後、オペレーティングシステム11のシ
ステムクラッシュ処理部111に処理を戻す(ステップ
S106)。
【0039】図5は全体の処理イメージであり、オペレ
ーティングシステム11のシステムクラッシュ処理中に
スタックデータの採取が行われる様子を示している。
【0040】このように、本例では、主メモリ21上の
全データではなく、オペレーティングシステム11がシ
ステム状態情報の保存に使用しているスタック領域に限
定してメモリデータの採取が行われる。スタックデータ
は前述したようにCPUレジスタ値と、ストップコード
およびそのパラメータを含んでいるので、ほとんどの場
合、このスタックデータだけで十分な原因究明を行うこ
とができる。このため、原因究明に使用されない不要な
データを排除できるようになり、障害情報のデータサイ
ズの縮小を図ることができる。
【0041】(スタックデータ検索/採取処理:その
2)次に、図6および図7を参照して、スタックデータ
検索/採取のための第2の方法について説明する。ここ
では、スタックデータの内、ストップコードおよびパラ
メータについてのみ主メモリ21上から検索し、その検
索したストップコードおよびパラメータのみを障害情報
として採取する場合を想定する。これは、採取すべき障
害情報をより限定すると共に、障害発生の原因情報を画
面表示しないOSを使用している場合であっても、障害
発生の原因情報を常にユーザや解析担当者に提供できる
ようにするためである。図6にその処理手順を示す。
【0042】ソフトウェアまたはハードウェア障害によ
って、オペレーティングシステム11が続行不可能な状
態に陥った場合、前述したように、オペレーティングシ
ステム11のシステムクラッシュ処理部111が実行さ
れる(ステップS111)。システムクラッシュ処理部
111の処理途中において、スタックデータ検索/採取
処理部121が実行される。システムクラッシュ処理部
111は、まず、主メモリ21上に採取データ出力用バ
ッファを準備する(ステップS112)。次いで、スタ
ックデータ検索/採取処理部121は、オペレーティン
グシステム11がシステム状態の保存に使用しているス
タック領域の位置を検出するために、CPUの現在のス
タックベースレジスタの値を取得する(ステップS11
3)。そして、スタックデータ検索/採取処理部121
は、スタックベースレジスタの値に基づいてオペレーテ
ィングシステム11がシステム状態情報の保存に使用し
ているスタックを調べ、その箇所から、順にデータを検
索/採取していく(ステップS114)。このスタック
領域を図7(A)に示す。
【0043】図7(A)において、301がスタックベ
ースレジスタの値で、スタックベースレジスタの値が示
す箇所から順に、302がストップコード、302がパ
ラメータ1、304がパラメータ2、305がパラメー
タ3、306がパラメータ4である。ステップS114
では、図7(B)に示すように、これら302〜306
の情報のみが採取される。
【0044】続く、ステップS115では、スタックデ
ータ検索/採取処理部121は、ステップS114で採
取した値(ストップコード、パラメータ1〜4)を採取
データ出力用バッファに格納する。このようにして、ス
タックデータ検索/採取処理を行った後、オペレーティ
ングシステムのシステムクラッシュ処理部111に処理
を戻す(ステップS116)。
【0045】このように、システムクラッシュ発生時に
表示される画面情報と同じ障害原因情報をスタックデー
タから検索、取得することにより、障害原因情報が画面
表示されない場合でも、その情報をユーザや解析担当者
に提供することが可能となる。特に、障害原因情報を電
子メールにて保守管理サイトの解析担当者に送信するこ
とにより、計算機システム1の使用者が解析担当者に電
話によって障害の症状を伝える場合などに比べて、障害
の内容を迅速且つ正確に通知することが可能となる。
【0046】(スタックデータ検索/採取処理:その
3)次に、図8および図9を参照して、スタックデータ
検索/採取のための第3の方法について説明する。ここ
では、メモリデータからスタックデータのみを検索して
採取するだけでなく、そのスタックデータの解析処理も
合わせて行い、採取したスタックデータに解析結果を付
加して出力する場合を説明する。
【0047】ソフトウェアまたはハードウェア障害によ
って、オペレーティングシステム11が続行不可能な状
態に陥った場合、オペレーティングシステム11のシス
テムクラッシュ処理部111が実行される(ステップS
12)。そして、システムクラッシュ処理部111の処
理途中で、スタックデータ検索/採取処理部121が実
行される。スタックデータ検索/採取処理部121は、
まず、主メモリ21上にスタックデータ出力用バッファ
を準備する(ステップS122)。次いで、スタックデ
ータ検索/採取処理部121は、オペレーティングシス
テム11がシステム状態の保存に使用しているスタック
領域の位置を検出するために、CPUの現在のスタック
ベースレジスタの値を取得する(ステップS123)。
現在のスタックベースレジスタの値は、スタックデータ
検索/採取処理部121が使用可能なスタックデータ領
域の先頭位置を指すものであり、スタックベースレジス
タの値で指定される位置に保持されている値を調べるこ
とにより、オペレーティングシステム11が使用したス
タック領域の位置を検出することができる。
【0048】すなわち、スタックデータ検索/採取処理
部121は、ステップS123で取得したスタックベー
スレジスタの値が示す、スタックの別領域の位置を参照
して、システム状態情報の格納位置を調べ、そこに格納
されているデータを取得し(ステップS124)、ステ
ップ122の処理で準備していたスタックデータ出力バ
ッファにコピーする(ステップS125)。ここまで
は、図3の処理と同じである。
【0049】この後、ステップS126の処理におい
て、スタックデータの解析処理が行われる。この解析処
理では、スタックデータ出力バッファからトラップフレ
ーム(システムクラッシュ発生の直接な原因となった命
令実行時の状態が格納されているデータ群)を検索す
る。図9は、ステップS126の処理イメージを示した
ものである。
【0050】まず、スタックデータ出力バッファの先頭
から、システムクラッシュ発生時のフラグレジスタ値を
検索し、フラグレジスタ値が格納されているスタック位
置を取得する(601参照)。フラグレジスタ値はトラ
ップフレームの一部であり、フラグレジスタ値が格納さ
れている位置は、トラップフレーム内で固定であるた
め、フラグレジスタ値が格納されているスタック位置か
ら、トラップフレームの先頭位置を算出することが可能
である(602参照)。トラップフレームの先頭位置を
取得することによって、トラップフレーム内の各データ
への参照が可能になる。このようにして、スタックデー
タ検索/採取処理を行った後、オペレーティングシステ
ム11のシステムクラッシュ処理部111に処理を戻す
(ステップS127)。
【0051】このように、スタックデータを単に採取す
るだけでなく解析結果を補足情報として付加して出力す
ることにより、より効率の良い障害解析が可能となる。
【0052】(採取データのディスク保存/テキスト変
換)次に、図10のフローチャートを参照して、採取し
たスタックデータをファイルシステムを介さずにディス
ク装置22に保存する処理、およびスタックデータをユ
ーザ可視可能なテキストデータに変換する処理について
具体的に説明する。これら処理は、システム処理起動部
122とスタックデータ検索/採取処理部121との2
つの処理によって実現される。
【0053】オペレーティングシステム11による起動
処理が終了すると、まず、最初に、システム処理起動部
122が実行される。システム処理起動部122は、ま
ず、ディスク装置22上に存在するダミーファイルをオ
ープンする(ステップS201)。ダミーファイルは、
スタックデータ検索/採取処理部121にて、採取デー
タを出力するためのファイルである。通常は、ダミーフ
ァイルへのデータ出力はファイルシステムを経由して行
う。しかし、システムクラッシュ発生時にはファイルシ
ステムが既に正常に動作していないため、ファイルシス
テム経由での出力が不可能な状態となる。そこで、ファ
イルシステムを経由せずに、ファイルに対するデータ出
力を可能にする特別なソフトウェア(前述のディスクダ
ンプドライバ13)を利用する。
【0054】このディスクダンプドライバ13を使用し
てデータ出力を行うためには、ダミーファイルのディス
ク装置22上での論理位置を取得する必要があるため、
ステップS201でダミーファイルをオープンし、その
論理位置の取得を後述のステップS207で行うのであ
る。ダミーファイルのクローズ処理は行わないので、フ
ァイルの排他処理により、ダミーファイル記憶領域は常
時確保された状態に維持することができる。よって、シ
ステムクラッシュが何時発生しても、採取したスタック
データをファイルシステムを介さずにファイル出力する
ことができる。
【0055】ダミーファイルをオープンした後、システ
ム処理起動部122は、ダミーファイルのデータを読み
込み(ステップS202)、その先頭データを調べるこ
とによってスタックデータが保存されているか否かを判
断する(ステップS203)。スタックデータが保存さ
れている場合には、今回のシステム起動処理はシステム
クラッシュ後の再起動処理であることを意味している。
【0056】この場合、システム処理起動部122は、
ディスク装置22上にテキストファイルを生成およびオ
ープンし(ステップS204)、ステップS202で読
み込んだダミーファイルのデータをそのテキストファイ
ルにコピーする(ステップS205)。ダミーファイル
の内容をテキストファイルへコピーするのは、前述した
ようにシステム動作中はダミーファイルは常にオープン
されており、ロック状態(排他制御)になっているた
め、ユーザが直接ダミーファイルをアクセスすることが
できないからである。
【0057】次いで、システム処理起動部122は、テ
キストファイルをクローズした後(ステップS20
6)、ダミーファイルのディスク上の論理位置を取得
し、それを記憶しておく(ステップS207)。
【0058】システムクラッシュが発生した場合には、
前述したように、オペレーティングシステム11のシス
テムクラッシュ処理の途中でスタックデータ検索/採取
処理部121が実行される。スタックデータ検索/採取
処理部121は、ディスクダンプドライバ13を動作さ
せるためにその初期化処理およびオープン処理を実行し
た後(ステップS301,S302)、前述したスタッ
クデータ検索/採取処理1、2、または3の方法を用い
て、ダミーファイルに出力すべきデータの検索および採
取を行う(ステップS303)。次いで、スタックデー
タ検索/採取処理部121は、採取データをバイナリデ
ータからユーザ可視可能なコードデータ(テキストデー
タ)に変換した後(ステップS304)、ダミーファイ
ルのディスク上の論理位置をディスクダンプドライバ1
3に指示して、ダミーファイルに採取データを直接書き
込むダンプ処理を実行させる(ステップS305)。ダ
ミーファイルへの書き込み処理が終了した時点で、スタ
ックデータ検索/採取処理部121はディスクダンプド
ライバ13を終了させ(ステップS306)、オペレー
ティングシステム11に処理を戻す。
【0059】このように、ファイルシステムを介さずに
採取データをディスクに保存しておき、再起動時に採取
データをテキストファイルに出力することにより、何時
再起動が行われても、その時点で障害解析に必要な情報
をテキストデータによってメール送信したり、ユーザに
よる参照を可能にすることができる。
【0060】なお、本実施形態の障害情報管理プログラ
ムおよびディスクダンプドライバ13、さらには障害通
知プログラム14をコンピュータ読み取り可能な記録媒
体に記録しておくことにより、その記録媒体を通じてそ
れら障害情報管理プログラムおよびディスクダンプドラ
イバ13、さらには障害通知プログラム14などをコン
ピュータに導入するだけで、本実施形態と同様の効果を
得ることが可能となる。
【0061】
【発明の効果】以上説明したように、本発明によれば、
システム障害の原因調査用の障害情報をより効率的に採
取できると共に、ユーザが参照しやすい形式でディスク
に保存、さらにはメール送信することにより、解析作業
の迅速化を図ることが可能となる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る計算機システムの機
能構成と基本的な処理の流れを説明するための図。
【図2】同実施形態のシステムで利用されるOSと障害
情報管理プログラムとの関係を示すフローチャート。
【図3】同実施形態のシステムで利用されるスタックデ
ータ検索/採取処理の第1の手順を示すフローチャー
ト。
【図4】図3のスタックデータ検索/採取処理による検
索動作を示す図。
【図5】図3のスタックデータ検索/採取処理とオペレ
ーティングシステムとの関係を示す図。
【図6】同実施形態のシステムで利用されるスタックデ
ータ検索/採取処理の第2の手順を示すフローチャー
ト。
【図7】図6のスタックデータ検索/採取処理による検
索動作を示す図。
【図8】同実施形態のシステムで利用されるスタックデ
ータ検索/採取処理の第3の手順を示すフローチャー
ト。
【図9】図3のスタックデータ検索/採取処理によって
実行されるスタックデータ解析処理の一例を示す図。
【図10】同実施形態のシステムで利用されるスタック
データのディスク保存/テキスト変換処理の手順を説明
するためのフローチャート。
【符号の説明】
11…オペレーティングシステム(OS) 12…障害情報管理プログラム 13…ディスクダンプドライバ 14…障害通知プログラム 21…主メモリ 22…ディスク装置 121…スタックデータ検索/採取処理部 122…システム処理起動部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 平沢 勲 東京都青梅市新町3丁目3番地の5 東芝 ソフトウェアエンジニアリング株式会社内 Fターム(参考) 5B042 GA21 KK13 KK14 MA01 MA05 MA08 MA15 MC05 MC07 MC15 NN56

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 システム障害の発生時に、その障害発生
    の原因を調べるために主メモリ上のデータを採取する計
    算機システムであって、 システム障害が発生したとき、前記主メモリの中から、
    オペレーティングシステムがシステム状態情報の保存に
    使用しているスタック領域の位置を検出する検出手段
    と、 前記主メモリ上の全データの内、前記検出されたスタッ
    ク領域に保存されているシステム状態情報を、前記障害
    発生の原因を調べるための障害情報として採取する障害
    情報採取手段とを具備することを特徴とする計算機シス
    テム。
  2. 【請求項2】 前記スタック領域への前記システム状態
    情報の保存は、オペレーティングシステムがシステム障
    害発生時に実行する一連の障害処理シーケンス内で行わ
    れ、 前記検出手段および前記障害情報採取手段は、前記障害
    処理シーケンスの途中に割り込むことによって、前記ス
    タック領域の検出および前記システム状態情報の採取を
    実行するように構成されていることを特徴とする請求項
    1記載の計算機システム。
  3. 【請求項3】 前記障害情報採取手段は、前記システム
    状態情報を解析し、その解析結果付きのシステム状態情
    報を前記障害情報として出力することを特徴とする請求
    項1記載の計算機システム。
  4. 【請求項4】 前記計算機システムの再起動時に、シス
    テム障害発生時に前記障害情報採取手段によって採取さ
    れた前記システム状態情報を電子メールに添付して前記
    計算機システムの保守管理サイト宛に送信するメール送
    信手段をさらに具備することを特徴とする請求項1記載
    の計算機システム。
  5. 【請求項5】 システム障害の発生時に、その障害発生
    の原因を調べるために主メモリ上のデータを採取する計
    算機システムであって、 システム障害が発生したとき、前記主メモリの中から、
    オペレーティングシステムがシステム状態情報の保存に
    使用しているスタック領域の位置を検出する検出手段
    と、 前記主メモリ上の全データの内、前記検出されたスタッ
    ク領域に保存されているシステム状態情報を、前記障害
    発生の原因を調べるための障害情報として採取する障害
    情報採取手段と、 前記障害情報採取手段によって採取されたシステム状態
    情報を、ディスク装置上の予め決められた特定領域にフ
    ァイルシステムを介さずに直接的に書き込むシステム状
    態情報保存手段とを具備することを特徴とする計算機シ
    ステム。
  6. 【請求項6】 前記ディスク装置上の特定領域は、前記
    計算機システムの動作期間中オープンされ続けている所
    定のファイルが存在する領域であり、 前記システム状態情報保存手段は、予め取得されている
    前記所定ファイルの存在位置に、前記障害情報採取手段
    によって採取されたシステム状態情報を書き込むことを
    特徴とする請求項5記載の計算機システム。
  7. 【請求項7】 前記計算機システムの再起動時に、前記
    所定ファイルの内容を前記ディスク装置上にテキストフ
    ァイルとして保存する手段をさらに具備することを特徴
    とする請求項6記載の計算機システム。
  8. 【請求項8】 前記計算機システムの再起動時に、前記
    テキストファイルを電子メールに添付して前記計算機シ
    ステムの保守管理サイト宛に送信するメール送信手段を
    さらに具備することを特徴とする請求項7記載の計算機
    システム。
  9. 【請求項9】 システム障害の発生時に、その障害発生
    の原因を調べるために主メモリ上のデータを採取する計
    算機システムであって、 システム障害が発生したとき、前記メモリの中から障害
    発生の原因を調べるために必要な障害情報を採取する障
    害情報採取手段と、 前記障害情報採取手段によって採取された障害情報をテ
    キスト形式のデータに変換してディスク装置に保存する
    テキストデータ保存手段とを具備することを特徴とする
    計算機システム。
  10. 【請求項10】 システム障害の発生時に、その障害発
    生の原因を調べるために計算機システムの主メモリ上の
    データを採取する障害情報採取方法であって、 システム障害が発生したとき、前記メモリの中から、オ
    ペレーティングシステムがシステム状態情報の保存に使
    用しているスタック領域の位置を検出し、 前記主メモリ上の全データの内、前記検出されたスタッ
    ク領域に保存されているシステム状態情報を、前記障害
    発生の原因を調べるための障害情報として採取すること
    を特徴とする障害情報採取方法。
  11. 【請求項11】 システム障害の発生時に、その障害発
    生の原因を調べるために計算機システムの主メモリ上の
    データを採取する障害情報採取方法であって、 システム障害が発生したとき、前記主メモリの中から、
    オペレーティングシステムがシステム状態情報の保存に
    使用しているスタック領域の位置を検出し、 前記主メモリ上の全データの内、前記検出されたスタッ
    ク領域に保存されているシステム状態情報を、前記障害
    発生の原因を調べるための障害情報として採取し、 前記採取されたシステム状態情報を、ディスク装置上の
    予め決められた特定領域にファイルシステムを介さずに
    直接的に書き込むことを特徴とする障害情報採取方法。
  12. 【請求項12】 システム障害の発生時に、その障害発
    生の原因を調べるために計算機システムの主メモリ上の
    データを採取する障害情報採取方法であって、 システム障害が発生したとき、前記主メモリの中から障
    害発生の原因を調べるために必要な障害情報を採取し、 採取された障害情報をテキスト形式のデータに変換して
    前記計算機システムのディスク装置に保存することを特
    徴とする障害情報採取方法。
JP11180023A 1999-06-25 1999-06-25 計算機システムおよび障害情報採取方法 Pending JP2001005699A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11180023A JP2001005699A (ja) 1999-06-25 1999-06-25 計算機システムおよび障害情報採取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11180023A JP2001005699A (ja) 1999-06-25 1999-06-25 計算機システムおよび障害情報採取方法

Publications (1)

Publication Number Publication Date
JP2001005699A true JP2001005699A (ja) 2001-01-12

Family

ID=16076124

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11180023A Pending JP2001005699A (ja) 1999-06-25 1999-06-25 計算機システムおよび障害情報採取方法

Country Status (1)

Country Link
JP (1) JP2001005699A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005332030A (ja) * 2004-05-18 2005-12-02 Mitsubishi Electric Corp コントローラ
WO2009147782A1 (ja) * 2008-06-06 2009-12-10 パナソニック株式会社 再生装置、集積回路及び再生方法
JP2010287097A (ja) * 2009-06-12 2010-12-24 Hitachi Ltd 記憶装置制御方法、記憶装置制御プログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005332030A (ja) * 2004-05-18 2005-12-02 Mitsubishi Electric Corp コントローラ
JP4558376B2 (ja) * 2004-05-18 2010-10-06 三菱電機株式会社 コントローラ
WO2009147782A1 (ja) * 2008-06-06 2009-12-10 パナソニック株式会社 再生装置、集積回路及び再生方法
JP2009295248A (ja) * 2008-06-06 2009-12-17 Panasonic Corp 再生装置、集積回路及び再生方法
JP2010287097A (ja) * 2009-06-12 2010-12-24 Hitachi Ltd 記憶装置制御方法、記憶装置制御プログラム

Similar Documents

Publication Publication Date Title
US6681348B1 (en) Creation of mini dump files from full dump files
KR101393992B1 (ko) 정보 처리 장치, 정보 처리 방법, 및 프로그램을 기록한 컴퓨터 판독가능한 기록 매체
EP1870810A2 (en) Kernel-aware debugging system, medium, and method
US20010051952A1 (en) Sample analyzing system for facilitating control and maintenance of registered information
CN102597962A (zh) 用于虚拟计算环境中的故障管理的方法和系统
US20080148241A1 (en) Method and apparatus for profiling heap objects
JPH06208486A (ja) ソフトウェア例外条件に対する選択的データ捕獲方法
KR101816751B1 (ko) 하이퍼바이저 기반의 가상머신 모니터링 장치 및 방법
US8412751B2 (en) Determining whether a Java object has been scan-missed by a garbage collector scan
JP5381059B2 (ja) 機器、ログ記録制御方法、及びプログラム
CN109189652A (zh) 一种封闭网络终端行为数据的采集方法及系统
JP2001005699A (ja) 計算機システムおよび障害情報採取方法
US7421613B2 (en) Method and system for managing of job execution
WO2012067034A1 (ja) 設計・開発支援システム
JP2001005698A (ja) 計算機システムおよび障害情報採取方法
TWI328188B (en) Method and system of screen capture
US7389442B1 (en) Apparatus and method for self diagnosis, repair, removal by reversion of computer problems from desktop and recovery from booting or loading of operating system errors by removable media
JP2002312205A (ja) アクセスログ情報の保存処理方法とその保存処理装置およびその処理プログラム
CN117909160B (zh) 基于物联网的固件崩溃分析方法及装置
CN113326004B (zh) 云计算环境下高效日志集中化方法及设备
JPH10333938A (ja) 計算機システムにおける実行ログの記録、表示方法、ならびに同方法を用いた計算機システム、及び同方法がプログラムされ記録される記録媒体
JP4838226B2 (ja) ネットワークロギング処理プログラム,情報処理システムおよびネットワークロギング情報自動退避方法
JP2882459B2 (ja) エラー情報収集試験システム
JP2008123438A (ja) コンピュータシステム、プログラム情報収集方法、およびコンピュータプログラム
JP2979553B2 (ja) 障害診断方式