JP2012194930A

JP2012194930A - 障害解析情報収集装置

Info

Publication number: JP2012194930A
Application number: JP2011059967A
Authority: JP
Inventors: Junichi Ito; 純一井登; Atsushi Settsu; 敦攝津
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2011-03-18
Filing date: 2011-03-18
Publication date: 2012-10-11
Anticipated expiration: 2031-03-18
Also published as: JP5427814B2

Abstract

【課題】主記憶装置やＨＤＤ装置に一時的に不具合、誤動作が発生した場合においても、再起動後に障害情報を可能な限り収集することができる障害解析情報収集装置を得ることを目的とする。
【解決手段】障害解析情報収集装置１００は、主記憶装置５と、バックアップメモリ２と、ＨＤＤ６とを有し、
障害発生時に、主記憶装置５に記録されている主記憶情報を、ダンプファイル１３としてＨＤＤ６に設けた主記憶情報記録領域に保存する主記憶情報記録手段９と、ＣＰＵレジスタ３やＩ／Ｏレジスタ４の値をバックアップメモリ２に設けたＨ／Ｗ情報記録領域１２に保存するハードウェア情報管理手段８と、障害発生後に装置１００を再起動した後で、保存されている主記憶情報及びハードウェア情報を結合して解析ファイル１４としてＨＤＤ６に保存する障害情報管理手段１１とを備える。
【選択図】図１

Description

本発明は、計算機システムで発生する障害を解析するために、計算機システムに障害時のハードウェア情報を収集する手段を組み込んだ障害解析情報収集装置に関するものである。

従来の障害解析情報収集装置として、障害発生時に、障害情報をすべて主記憶に保存してから、ダンプファイルとしてハードディスク装置にイメージとして保存し、再起動後にそのまま読み出して表示する方法が提案されている。

特開平９−３２５９０３号公報（第２−３頁、第２１図）

従来の収集方式では、障害情報をすべて主記憶装置上に一旦配置し、その後ＨＤＤに保存するため、主記憶やＨＤＤ装置に一時的に不具合が発生している場合に、再起動後に障害情報を収集できないという問題があった。

この発明は上記のような課題を解決するためになされたものであり、主記憶装置やＨＤＤ装置に一時的に不具合、誤動作が発生した場合においても、障害情報を可能な限り収集することができる障害解析情報収集装置を得ることを目的とする。

この発明に係る障害解析情報収集装置は、
主記憶装置と複数の補助記憶装置とを有し、障害解析に必要な情報を収集する障害解析情報収集装置において、
障害発生時に、主記憶装置に記録されている主記憶情報を、複数の補助記憶装置のいずれかの補助記憶装置に設けた、主記憶情報記録領域に保存する主記憶情報管理手段と、
障害発生時に、主記憶情報以外のハードウェア情報を、主記憶情報を保存した補助記憶装置以外の複数の補助記憶装置のいずれかの補助記憶装置に設けたハードウェア情報記録領域に保存するハードウェア情報管理手段と、
障害発生後かつ障害解析情報収集装置の再起動後に、前記主記憶情報及びハードウェア情報が共に保存されている場合は、主記憶情報及びハードウェア情報を結合して解析ファイルとして複数の補助記憶装置のいずれかの補助記憶装置に保存し、主記憶情報又はハードウェア情報のいずれか一方しか保存されていない場合は、当該保存されている情報を解析ファイルとして複数の補助記憶装置のいずれかの補助記憶装置に保存する障害情報管理手段とを備えるものである。

この発明に係る障害解析情報収集装置は、
障害発生時に、主記憶装置に記録されている主記憶情報を、複数の補助記憶装置のいずれかの補助記憶装置に設けた、主記憶情報記録領域に保存する主記憶情報管理手段と、
障害発生時に、主記憶情報以外のハードウェア情報を、主記憶情報を保存した補助記憶装置以外の複数の補助記憶装置のいずれかの補助記憶装置に設けたハードウェア情報記録領域に保存するハードウェア情報管理手段と、
障害発生後かつ障害解析情報収集装置の再起動後に、主記憶情報及びハードウェア情報が共に保存されている場合は、主記憶情報及びハードウェア情報を結合して解析ファイルとして複数の補助記憶装置のいずれかの補助記憶装置に保存し、主記憶情報又はハードウェア情報のいずれか一方しか保存されていない場合は、当該保存されている情報を解析ファイルとして複数の補助記憶装置のいずれかの補助記憶装置に保存する障害情報管理手段とを備えるものなので、
ＣＰＵレジスタやＩ／Ｏレジスタなどの情報をバックアップメモリに保存し、主記憶装置の情報は別の補助記憶装置であるＨＤＤにダンプファイルとして保存し、障害解析情報収集装置の再起動後にそれぞれのファイルの有無によって所定の解析ファイルを生成するので、一時的に主記憶やＨＤＤにアクセスができないような障害が発生した場合でも、再起動後に原因解明のための各種障害情報を効果的に収集することができる。

この発明に係る障害解析情報収集装置の実施の形態１の構成を示すブロック図である。障害発生時における装置１００の動作を示すフローチャートである。装置１００が障害発生後に再起動する時の動作を示すフローチャートである。この発明に係る障害解析情報収集装置の実施の形態２の構成を示すブロック図である。障害発生時における装置２００の動作を示すフローチャートである。装置２００が障害発生後に再起動する時の動作を示すフローチャートである。この発明に係る障害解析情報収集装置の実施の形態３の構成を示すブロック図である。装置３００が障害発生後に再起動する時の動作を示すフローチャートである。この発明に係る障害解析情報収集装置の実施の形態４の構成を示すブロック図である。実施の形態４におけるダンプファイル１３の構成を示す図である。装置４００が障害発生後に再起動する時の動作を示すフローチャートである。この発明に係る障害解析情報収集装置の実施の形態５の構成を示すブロック図である。装置５００が障害発生後に再起動する時の動作を示すフローチャートである。この発明に係る障害解析情報収集装置の実施の形態６の構成を示すブロック図である。装置６００が障害発生後に再起動する時の動作を示すフローチャートである。

実施の形態１．
以下、この発明に係る障害解析情報収集装置の実施の形態１について、図を用いて説明する。
図１は、この発明に係る障害解析情報収集装置１００（以下装置１００という）の構成を示すブロック図である。
ＯＳ１０１は、装置１００の基本動作を担当するオペレーティングシステム（ＯＳ）である。
バックアップメモリ２は、装置１００の電源がＯＦＦしても記録したデータが保持されるバックアップメモリであり、本出願の特許請求の範囲では補助記憶装置の一つに分類される。
ＣＰＵレジスタ３は、ＣＰＵプロセッサを操作するためのレジスタである。
Ｉ／Ｏレジスタ４は、シリアルやネットワーク等のデバイスを操作するためのＩ／Ｏレジスタである。
ＣＰＵレジスタ３及びＩ／Ｏレジスタ４は、本出願の特許請求の範囲ではそれぞれ「主記憶情報以外のハードウェア情報」に分類される。
主記憶装置５は、装置１００がＯＳ１０１や各種データを保持するために使用する揮発性のメモリであって、電源ＯＦＦにてデータが消去される。
ＨＤＤ６は、大容量の補助記憶装置である。
装置１００は以上のハードウェアで構成される。

次に、ＯＳ１０１のソフトウェア構成を説明する。
障害検出手段７はＯＳ１０１に発生した障害を検出等する手段である。
ハードウェア情報管理手段８（以下Ｈ／Ｗ情報管理手段８という。ハードウェアについて以下同様にＨ／Ｗと省略する。）は、障害の発生を検出した障害検出手段７から指示を受けて、ＣＰＵレジスタ３の値およびＩ／Ｏレジスタ４の値をバックアップメモリ２内のハードウェア情報記録領域１２に保存する手段である。
主記憶情報管理手段９は、装置１００に発生した障害を検出した障害検出手段７からの指示を受けて、主記憶装置５の内容（主記憶情報）をＨＤＤ６内にダンプファイル１３として保存する手段である。特許請求の範囲に記載する「主記憶情報記録領域」がダンプファイル１３に相当する。

ＯＳ起動手段１０は、装置１００の起動によりＨ／Ｗリセットが入ることで動作し、障害発生後の再起動の場合は、次に説明する障害情報管理手段１１を呼び出す手段である。
障害情報管理手段１１は、ＯＳ起動手段１０の指示により、Ｈ／Ｗ情報記録領域１２の内容とダンプファイル１３の内容を結合し、解析ファイル１４を生成しＨＤＤ６に保存する手段である。

次に、装置１００の障害発生時の動作について図１、図２を用いて説明する。
図２は、障害発生時における装置１００の動作を示すフローチャートである。
まず、装置１００内にて障害が発生すると、ＯＳ１０１の障害検出手段７が障害を検出する（Ｓ１０１）。
次に、障害検出手段７は、Ｈ／Ｗ情報管理手段８にＨ／Ｗ情報を収集するよう指示する。ここで、Ｈ／Ｗ情報管理手段８は、ＣＰＵレジスタ３の情報およびＩ／Ｏレジスタ４の情報をＨ／Ｗ情報記録領域１２に保存する（Ｓ１０２）。
Ｈ／Ｗ情報管理手段８により、ＣＰＵレジスタ３およびＩ／Ｏレジスタ４の情報がＨ／Ｗ情報記録領域１２に保存されると、障害検出手段７は、主記憶情報管理手段９に主記憶情報を収集するように指示する。

ここで、主記憶情報管理手段９は、主記憶装置５の内容をダンプファイル１３としてＨＤＤ６に記録する（Ｓ１０３）。
この処理において、主記憶装置５およびＨＤＤ６が故障しており、主記憶装置５の読み出しや、ダンプファイル１３への書き込みができない場合、ダンプファイル１３はＨＤＤ６内に存在しないことになる。以上が、本実施の形態１における装置１００の障害発生時の動作である。

次に、装置１００が障害発生後に再起動する時の動作について図１及び図３を用いて説明する。
図３は、装置１００が障害発生後に再起動する時の動作を示すフローチャートである。
障害の発生後、装置１００が再起動すると、装置１００にＨ／Ｗリセットが入り、ＯＳ１０１のＯＳ起動手段１０が動作を開始する（Ｓ１１１）。
ＯＳ起動手段１０は、ＯＳ１０１内の初期化処理を行うとともに、障害情報管理手段１１に障害情報の収集を指示する。

障害情報管理手段１１は、Ｈ／Ｗ情報記録領域１２に障害発生時のＨ／Ｗ情報データが存在するか否かをチェックする（Ｓ１１２）。
障害発生検出時に、ＣＰＵレジスタ３とＩ／Ｏレジスタ４の読み出しと、Ｈ／Ｗ情報記録領域１２への書き込みが正しく行われている場合、Ｈ／Ｗ情報記録領域１２にデータが存在する。
当該データが存在する場合は、Ｓ１１３へ、存在しない場合はＳ１１６へ進む。

Ｓ１１２でＨ／Ｗ情報記録領域１２にデータが存在する場合（Ｓ１１２Ｙ）、障害情報管理手段１１は、ＨＤＤ６にダンプファイル１３が存在するか否かをチェックする（Ｓ１１３）。
障害発生検出後に、主記憶装置５の読み出しと、ＨＤＤ６へのダンプファイル１３の書き込みが正しく行われている場合、ダンプファイル１３が存在する。
ダンプファイル１３が存在する場合はＳ１１４へ、存在しない場合はＳ１１５へ進む。

ダンプファイル１３が存在する場合（Ｓ１１３Ｙ）は、先のＨ／Ｗ情報記録領域１２の内容とダンプファイル１３の内容とを解析ファイル１４に合わせてコピーして（Ｓ１１４）終了する（Ｓ１１８）。

Ｓ１１３でＨＤＤ６にダンプファイル１３が存在しない場合（Ｓ１１３Ｎ）は、Ｈ／Ｗ情報記録領域１２のデータ内容をのみを解析ファイル１４にコピーして（Ｓ１１５）終了する（Ｓ１１８）。

Ｓ１１２でＨ／Ｗ情報記録領域１２が存在しない場合（Ｓ１１２Ｎ）は、障害情報管理手段１１は、ＨＤＤ６にダンプファイル１３が存在するか否かをチェックする（Ｓ１１６）。
ダンプファイル１３が存在する場合（Ｓ１１６Ｙ）は、ダンプファイル１３の内容を解析ファイル１４にコピーして（Ｓ１１７）終了する（Ｓ１１８）。
ダンプファイル１３が存在しない場合（Ｓ１１６Ｎ）は、解析ファイル１４には何もコピーせずに終了する（Ｓ１１８）。
以上が、本実施の形態１における障害解析情報収集装置１００再起動時の動作である。

この実施の形態１における障害解析情報収集装置１００によれば、ＣＰＵレジスタ３やＩ／Ｏレジスタ４などの情報をバックアップメモリ２に保存し、主記憶装置５の情報は別の補助記憶装置であるＨＤＤ６にダンプファイル１３として保存し、装置１００の再起動後にそれぞれのファイルの有無によって所定の解析ファイル１４を生成するので、一時的に主記憶装置５やＨＤＤ６にアクセスができないような障害が発生していた場合でも、再起動後に原因解明のための各種障害情報を効果的に収集することができる。

また、ＣＰＵレジスタ３とＩ／Ｏレジスタ４の値と、主記憶装置５のデータとを別の補助記憶装置に保存しているので、障害発生時のデータを全て失う危険が低減され、後の原因究明が容易になる。

なお、Ｈ／Ｗ情報の収集と主記憶情報の収集の順序はどちらが先でも、同時でも良い。
また、再起動後の解析ファイル１４の生成についても、Ｈ／Ｗ情報記録領域１２のデータとダンプファイル１３のいずれを先に記載しても良い。
また、Ｈ／Ｗ情報記録領域１２やＨＤＤ６の代わりに別の補助記憶装置を利用しても良いし、解析ファイル１４を他の補助記憶装置に保存しても良い。

実施の形態２．
以下、この発明に係る障害解析情報収集装置の実施の形態２について、図を用いて、実施の形態１と異なる部分を中心に説明する。
図４は、この発明に係る障害解析情報収集装置２００（以下装置２００という）の構成を示すブロック図である。
装置２００では、バックアップメモリ２内に、主記憶装置５およびＨＤＤ６がそれぞれ故障していたか否かを示す情報を設定する故障フラグ１５を設けている。
これに伴い、主記憶情報管理手段２０９と障害情報管理手段２１１の動作が若干異なるところが装置１００との違いである。

次に、装置２００の障害発生時の動作について図４及び図５を用いて説明する。
図５は、障害発生時における装置２００の動作を示すフローチャートである。
装置２００内にて障害が発生すると、ＯＳ２０１の障害検出手段７が障害を検出する（Ｓ２０１）。
次に、障害検出手段７は、Ｈ／Ｗ情報管理手段８にＨ／Ｗ情報を収集するように指示する。この処理は、実施の形態１と同じである（Ｓ２０２）。
次に、障害検出手段７は、主記憶情報管理手段２０９に主記憶情報を収集するように指示する。ここで、主記憶情報管理手段２０９は、主記憶装置５またはＨＤＤ６へのアクセスが可能であるか否かをチェックする（Ｓ２０３）。
主記憶装置５がアクセス可能であるか否かについては、主記憶装置５に対する読み書きにて発生するトラップをチェックしたり、主記憶領域のチェックサム（またはＣＲＣ）を取ったりして調べる。
また、ＨＤＤ６へのアクセスが可能か否かについては、ＨＤＤ６へのダミーデータの読み書きを実施するなどしてチェックする。

Ｓ２０３にて、主記憶情報管理手段２０９が主記憶装置５及びＨＤＤ６にアクセスチェックを済ませたら（Ｓ２０３）、次に主記憶情報管理手段２０９は、バックアップメモリ２内の２ビットの故障フラグ１５に、Ｓ２０３でチェックした主記憶装置５及びＨＤＤ６の状態（故障又は正常）を示すフラグを設定する（Ｓ２０４）。
その後、主記憶情報管理手段２０９は、主記憶装置５の内容をＨＤＤ６のダンプファイル１３に記録する（Ｓ２０５）。
故障フラグ１５を設定した後で、フラグの内容に拘わらずＳ２０５の処理を行うのは、主記憶装置５やＨＤＤ６が一時的に故障ないし不安定な状態に陥る場合もあり得るからである。
以上が、本実施の形態２における障害解析情報収集装置２００の障害発生時の動作である。

次に、装置２００が障害発生後に再起動する時の動作について図４及び図６を用いて説明する。
図６は、装置２００が障害発生後に再起動する時の動作を示すフローチャートである。
障害の発生後、装置２００が再起動すると、装置２００にＨ／Ｗリセットが入り、ＯＳ２０１のＯＳ起動手段１０が動作を開始する（Ｓ２１１）。
ＯＳ起動手段１０は、ＯＳ２０１内の初期化処理を行うとともに、障害情報管理手段２１１に障害情報の収集を指示する。
障害情報管理手段２１１は、まず、バックアップメモリ２内の故障フラグ１５の内容がどのような設定になっているかチェックする（Ｓ２１２）。

２ビットの故障フラグ１５のいずれのビットもＯＦＦになっている場合、ＨＤＤ６のダンプファイル１３への書き込みは正しく行われている。
反対に、２ビットの故障フラグ１５の内、いずれかのビットがＯＮになっている場合、ダンプファイル１３のＨＤＤ６への書き込みは、正しく行われていない可能性がある。
ここでは、故障フラグの値に関係なく、故障フラグ１５の設定状態を付加したダンプファイル１３の内容とＨ／Ｗ情報記録領域１２の内容とを結合して１つの解析ファイル１４を作成してＨＤＤ６に保存し（Ｓ２１３）、故障フラグ１５を全てＯＦＦにして（Ｓ２１４）処理を終了する。
以上が、本実施の形態における障害解析情報収集方式の装置２００起動時の動作である。

この実施の形態２における障害解析情報収集装置２００では、バックアップメモリ２内に故障フラグ１５を設け、障害発生時点において主記憶装置５およびＨＤＤ６へのアクセスが可能であったか否かを記録するようにしたので、主記憶装置５およびＨＤＤ６の一時的な故障や不安定な動作により、ダンプファイル１３に不明なデータが入った場合でも、ダンプファイル１３の信頼性の有無を事前に判断することができる。

なお、本実施の形態では、ダンプファイル１３の異常をバックアップメモリ２上の故障フラグ１５にて判断するようにしたが、これをダンプファイル１３内にチェックサム領域（またはＣＲＣ領域）を設け、主記憶装置５の内容をダンプファイル１３内に書き込む際にチェックサム値（またはＣＲＣ値）を格納し、障害情報管理手段２１１にてチェックサム値（またはＣＲＣ値）を監視することにより、ダンプファイル１３が異常であるか否かを判断しても良い。
また、故障フラグ１５はＨＤＤ６に設けても他の補助記憶装置に設けても良い。

実施の形態３．
以下、この発明に係る障害解析情報収集装置の実施の形態３について、図を用いて実施の形態１と異なる部分を中心に説明する。
図７は、この発明に係る障害解析情報収集装置３００（以下装置３００という）の構成を示すブロック図である。
装置３００の構成および動作は、実施の形態１の装置１００とほぼ同等であるが、装置１００に比べて次の点で異なる。
装置３００のＯＳ３０１内には、装置３００の再起動後のＣＰＵレジスタ３の値およびＩ／Ｏレジスタ４の値を収集記録する、現在値情報管理手段１６が設けられている。
このため、解析ファイル１４の生成過程が若干異なる。

装置３００の障害発生時の動作は、図７および図２のフローチャートで表される。
この動作は実施の形態１と同じであるので説明は省略する。

次に、装置３００が障害発生後に再起動する時の動作について図７及び図８を用いて説明する。
図８は、装置３００が障害発生後に再起動する時の動作を示すフローチャートである。
図３のように詳細に示さないが、実施の形態１と同様にダンプファイル１３やＨ／Ｗ情報記録領域１２にデータが存在しない場合は、存在するデータのみを利用して解析ファイル１４を生成する。

障害の発生後、装置３００が再起動すると、装置３００にＨ／Ｗリセットが入り、ＯＳ３０１のＯＳ起動手段１０が動作を開始する（Ｓ３１１）。
ＯＳ起動手段１０は、ＯＳ３０１内の初期化処理を行うとともに、障害情報管理手段３１１に障害情報の収集を指示する。

次に、障害情報管理手段３１１は、バックアップメモリ２内にあるＨ／Ｗ情報記録領域１２の内容をＨＤＤ６内の解析ファイル１４にコピーする（Ｓ３１２）。
Ｓ３１２にてＨ／Ｗ情報記録領域１２にデータが存在しない場合は、Ｓ３１３に移行する。
次に、障害情報管理手段３１１は、現在値情報管理手段１６に指示し、現在のＣＰＵレジスタ３の情報およびＩ／Ｏレジスタ４の情報を解析ファイル１４に追加する（Ｓ３１３）。

障害発生時のＨ／Ｗ情報と、再起動後のＨ／Ｗ情報の双方を解析ファイル１４に保存することにより、ハードウェアの故障が一時的なもの（再起動後のレジスタ情報では異常な情報が存在しない）なのか、永久的な故障（再起動後のレジスタ情報でも異常な情報が存在する）なのかを判断できるようにする。

次に、障害情報管理手段３１１は、ＨＤＤ６にダンプファイル１３が存在するか否かをチェックして取得する（Ｓ３１４）。障害発生時に、主記憶装置５の読み出しと、ＨＤＤ６のダンプファイル１３への書き込みが正しく行われている場合、ダンプファイル１３が存在する。
障害情報管理手段３１１はダンプファイル１３の内容を解析ファイル１４に追加し（Ｓ３１５）、処理を終了する。

Ｓ３１４にてダンプファイル１３が存在しない場合は、そのまま処理を終了する。以上が、本実施の形態における障害解析情報収集方式の装置３００起動時の動作である。

この実施の形態３における障害解析情報収集装置３００では、ＣＰＵレジスタ３やＩ／Ｏレジスタ４などのＨ／Ｗ情報について、障害発生時の情報と、装置３００が再起動した後の情報を保存するようにしたので、Ｈ／Ｗの故障が一時的なものか、永久的なものかを判断するために必要な情報を収集できる。

なお、本実施の形態の装置３００は、実施の形態１の装置１００をベースとして説明したが、実施の形態２の装置２００をベースとしても良い。

実施の形態４．
以下、この発明に係る障害解析情報収集装置の実施の形態４について、図を用いて実施の形態１と異なる部分を中心に説明する。
図９は、この発明に係る障害解析情報収集装置４００（以下装置４００という）の構成を示すブロック図である。
図１０は、実施の形態４におけるダンプファイル１３の構成を示す図である。
装置４００の構成および動作は、実施の形態１の装置１００とほぼ同等であるが、装置１００に比べて次の点で異なる。
装置４００のＯＳ４０１内には、ダンプファイル１３の内容を選別して必要部分だけを解析ファイル１４に保存する、ダンプ選別手段１７が設けられている。

装置４００の障害発生時の動作は、図９および図２のフローチャートで表される。
この動作は実施の形態１と同じであるので説明は省略する。

図１０の左側は、障害発生時にＨＤＤ６に保存されたダンプファイル１３の内容を示す模式図である。
ダンプファイル１３には、その先頭に障害発生時に動作していた実行プロセス情報やダンプファイル１３内のファイル位置情報を示すヘッダ情報を格納し、ヘッダ情報に続けて装置４００で動作していた各プロセスの論理空間情報ａ〜ｎを記載するマップ情報を格納し、更に続けて主記憶装置５の内容を格納している。

ヘッダ情報の実行プロセス情報には、障害が発生した時に動作していたプロセス情報が格納されており、その情報の中には対応する論理空間情報へのポインタも格納されている。また、論理空間情報ａ〜ｎには、装置４００で動作していたプロセスの論理空間情報を格納しており、論理空間アドレスと対応する主記憶装置５の領域の情報を備えている。
本実施例では仮に、障害が発生した時に動作していたプロセスの論理空間は論理空間情報ｂに格納されているものとする。

ダンプ選別手段１７では、図１０左側で示されたダンプファイル１３について、ヘッダ情報にある実行プロセス情報を元に、障害発生時のプロセスの論理空間に対応した主記憶情報のみを解析ファイル１４に保存する。具体的には、図１０左側で示されたダンプファイル１３の内、ヘッダ情報と、ヘッダ情報にある実行プロセス情報を元に、障害が発生していたときに動作していた論理空間情報ｂ、および論理空間情報ｂにて示される障害発生時に動作していた論理空間に対応する主記憶情報を、解析ファイル１４に保存する（図１０右側）。
これにより、解析ファイル１４には、障害発生時に動作していた論理空間上の主記憶情報のみが保存されることになり、データ量を低減できる。

次に、装置４００が障害発生後に再起動する時の動作について図９，図１０及び図１１を用いて説明する。
図１１は、装置４００が障害発生後に再起動する時の動作を示すフローチャートである。
図３のように詳細に示さないが、実施の形態１と同様にダンプファイル１３やＨ／Ｗ情報記録領域１２にデータが存在しない場合は、存在するデータのみを利用して解析ファイル１４を生成する。

障害の発生後、装置４００が再起動すると、装置４００にＨ／Ｗリセットが入り、ＯＳ４０１のＯＳ起動手段１０が動作を開始する（Ｓ４１１）。
ＯＳ起動手段１０は、ＯＳ４０１内の初期化処理を行うとともに、障害情報管理手段４１１に障害情報の収集を指示する。

障害情報管理手段４１１は、バックアップメモリ２内にあるＨ／Ｗ情報記録領域１２の内容をＨＤＤ６内の解析ファイル１４にコピーする（Ｓ４１２）。
Ｓ４１２にてＨ／Ｗ情報記録領域１２にデータが存在しない場合は、Ｓ４１３に移行する。
次に、障害情報管理手段４１１は、ＨＤＤ６のダンプファイル１３が存在するか否かをチェックして取得する（Ｓ４１３）。障害発生時に、主記憶装置５の読み出しと、ＨＤＤ６のダンプファイル１３への書き込みが正しく行われている場合、ダンプファイル１３が存在する。

次に、障害情報管理手段４１１はダンプ選別手段１７に指示し、ダンプファイル１３の内容を図１０で示したように選別し、必要な部分だけを解析ファイル１４に追加し（Ｓ４１４）、処理を終了する。

Ｓ４１３にてダンプファイル１３が存在しない場合は、そのまま処理を終了する。以上が、本実施の形態における障害解析情報収集装置４００の障害発生後再起動時の動作である。

この実施の形態４における障害解析情報収集装置４００では、ダンプファイル１３の内、障害発生時に動作していたプロセスの論理空間情報に対応する部分のみ解析ファイル１４に保存するようにしたので、解析ファイル１４のデータ量が少なくて済む。
また、障害解析のために使用するデータ量が少ないので、解析作業の効率化を図ることができる。

なお、本実施の形態の装置４００は、実施の形態１の装置１００をベースとして説明したが、実施の形態２の装置２００、実施の形態３の装置３００をベースとしても良い。

実施の形態５．
以下、この発明に係る障害解析情報収集装置の実施の形態５について、図を用いて実施の形態１と異なる部分を中心に説明する。
図１２は、この発明に係る障害解析情報収集装置５００（以下装置５００という）の構成を示すブロック図である。

装置５００は、ＣＰＵが複数あるマルチコア構成をとり、１つのプロセッサコアによりＯＳ−Ａが、もう１つのプロセッサコアによりＯＳ−Ｂがそれぞれ動作する。
ＯＳ−Ａは、障害の発生を検出する障害検出手段５０７と、障害検出手段５０７の指示によりＣＰＵレジスタ３およびＩ／Ｏレジスタ４の値をバックアップメモリ２内のＨ／Ｗ情報記録領域１２に保存するＨ／Ｗ情報管理手段５０８と、主記憶装置５の内容をＨＤＤ６内のダンプファイル１３に保存する主記憶情報管理手段５０９と、装置５００の起動によりＨ／Ｗリセットが入ることで動作するＯＳ起動手段５１０を備える。

また、ＯＳ−Ｂは、ＯＳ−ＡのＯＳ起動手段５１０からの指示によりＯＳ−Ｂを起動するＯＳ起動手段５１２と、ＯＳ起動手段５１２の指示により、Ｈ／Ｗ情報記録領域１２の内容とダンプファイル１３の内容を結合し、解析ファイル１４を生成する障害情報管理手段５１１を備える。

他の構成は、実施の形態１と同じである。また、本実施の形態における装置５００の障害発生時の動作は、ＯＳ−Ａのみで動作し、その動作は実施の形態１における障害発生時の動作と同じであり、図１２および図２のフローチャートで表される。
この動作は実施の形態１と同じであるので説明は省略する。

次に、装置５００が障害発生後に再起動する時の動作について図１２及び図１３を用いて説明する。
図１３は、装置５００が障害発生後に再起動する時の動作を示すフローチャートである。
図３のように詳細に示さないが、実施の形態１と同様にダンプファイル１３やＨ／Ｗ情報記録領域１２にデータが存在しない場合は、存在するデータのみを利用して解析ファイル１４を生成する。

障害の発生後、装置５００が再起動すると、装置５００にＨ／Ｗリセットが入り、ＯＳ−ＡのＯＳ起動手段５１０が動作を開始する（Ｓ５１１）。
ＯＳ起動手段５１０は、ＯＳ−Ａ内の初期化処理を行うとともに、ＯＳ−Ｂに起動を指示する（Ｓ５１２）。
ＯＳ−ＡからＯＳ−Ｂへの起動指示は、プロセッサ間割り込み等を用いて行われる。ＯＳ−ＡはＯＳ−Ｂへの起動指示を完了した後、起動処理を終了し、通常動作に移行する。

ＯＳ−ＢのＯＳ起動手段５１２は、ＯＳ−ＡのＯＳ起動手段５１０からの指示（Ｓ５１２）により、ＯＳ−Ｂの起動を開始する（Ｓ５１３）。ＯＳ起動手段５１２は、ＯＳ−Ｂ内の初期化処理を行うとともに、障害情報管理手段５１１に障害情報の収集を指示する。障害情報管理手段５１１は、まず、バックアップメモリ２内にあるＨ／Ｗ情報記録領域１２の内容をＨＤＤ６内の解析ファイル１４にコピーする（Ｓ５１４）。
Ｓ５１４にてＨ／Ｗ情報記録領域１２にデータが存在しない場合は、Ｓ５１５に移行する。

次に、障害情報管理手段５１１は、ＨＤＤ６のダンプファイル１３が存在するかチェックする（Ｓ５１５）。障害発生時に、主記憶装置５の読み出しと、ＨＤＤ６のダンプファイル１３への書き込みが正しく行われている場合、ダンプファイル１３が存在する。ダンプファイル１３が存在する場合、障害情報管理手段５１１はダンプファイル１３の内容を解析ファイル１４に追加し（Ｓ５１６）、処理を終了する。

Ｓ５１５にてダンプファイル１３が存在しない場合は、そのまま処理を終了する。以上が、本実施の形態における障害解析情報収集方式の装置５００起動時の動作である。

この実施の形態５における障害解析情報収集装置５００では、マルチコア構成において、装置５００の起動時の障害情報収集を別のプロセッサコア上にて処理するようにしたので、再起動後、一方のプロセッサで業務を行いながら解析ファイルの作成ができる。

なお、本実施の形態の装置５００は、実施の形態１の装置１００をベースとして説明したが、実施の形態２〜実施の形態４の装置２００〜装置４００をベースとしても良い。

実施の形態６．
以下、この発明に係る障害解析情報収集装置の実施の形態６について、図を用いて実施の形態１と異なる部分を中心に説明する。
図１４は、この発明に係る障害解析情報収集装置６００（以下装置６００という）の構成を示すブロック図である。

装置６００のＯＳ６０１は、解析ファイル１４をメールファイルにて送信可能なサイズに分割する（メール形式）メール変換手段３１と、分割メールを送信するメール配送手段３２を備える。

ＨＤＤ６内には、メールを送付するための宛先情報を記載したメール送付先情報３３が保存されている。
メール変換手段３１は、解析ファイル１４のサイズが大きい場合は、これをメールファイル４１〜４ｎとして複数ファイルに分割する手段である。
メール配送手段３２は、メール送付先情報３３に基づいて、メールファイル４１〜４ｎを所定の宛先に送信する手段である。

装置６００の障害発生時の動作は、図１４および図２のフローチャートで表される。
この動作は実施の形態１と同じであるので説明は省略する。

次に、装置６００が障害発生後に再起動する時の動作について図１４及び図１５を用いて説明する。
図１５は、装置６００が障害発生後に再起動する時の動作を示すフローチャートである。
図３のように詳細に示さないが、実施の形態１と同様にダンプファイル１３やＨ／Ｗ情報記録領域１２にデータが存在しない場合は、存在するデータのみを利用して解析ファイル１４を生成する。

障害の発生後、装置６００が再起動すると、装置６００にＨ／Ｗリセットが入り、ＯＳ６０１のＯＳ起動手段１０が動作を開始する（Ｓ６１１）。
ＯＳ起動手段１０は、ＯＳ６０１内の初期化処理を行うとともに、障害情報管理手段６１１に障害情報の収集を指示する。

次に、障害情報管理手段６１１は、バックアップメモリ２内にあるＨ／Ｗ情報記録領域１２の内容をＨＤＤ６内の解析ファイル１４にコピーする（Ｓ６１２）。
Ｓ６１２にてＨ／Ｗ情報記録領域１２にデータが存在しない場合は、Ｓ６１３に移行する。

次に、障害情報管理手段６１１は、ＨＤＤ６のダンプファイル１３が存在するか否かをチェックして取得する（Ｓ６１３）。障害発生時に、主記憶装置５の読み出しと、ＨＤＤ６のダンプファイル１３への書き込みが正しく行われている場合、ダンプファイル１３が存在する。
ダンプファイル１３が存在する場合、障害情報管理手段６１１はダンプファイル１３の内容を解析ファイル１４に追加する（Ｓ６１４）。
Ｓ６１３にてダンプファイル１３が存在しない場合、障害発生時に主記憶装置５の読み出しおよびＨＤＤ６の書き込みができなかったと判断し、Ｓ６１４に移行する。

解析ファイル１４が生成されると、ＯＳ起動手段１０は、解析ファイル１４をメールとして送信するために、メール変換手段３１に対してデータ変換を指示する。
メール変換手段３１は、解析ファイル１４をメール送信可能なサイズに分割し、それらをメールファイル４１〜４ｎとして、主記憶装置５又はＨＤＤ６上に保存する（Ｓ６１５）。
その後、メール変換手段３１は、メール送信を実施するメール配送手段３２に送信指示を出す。
メール配送手段３２は、ＨＤＤ６にあるメール送付先情報３３に記載した送付先メールアドレスを元にメールヘッダを作成し、メールファイル４１の送信を行う。そして、同様にメールファイル４２〜４ｎを送信する（Ｓ６１６）。メールファイル４ｎまでの送信が終わると処理を終了する。

送付先では、全てのメールファイル４１〜４ｎを受信後、再度結合することで解析ファイル１４を生成することができ、遠隔地での障害解析が可能となる。
以上が、本実施の形態における障害解析情報収集装置６００再起動時の動作である。

この実施の形態６における障害解析情報収集装置６００では、ＨＤＤ６内にメール送付先情報３３を設け、解析ファイル１４をメール送信可能サイズに分割し、分割したファイルをメールにて送信し、受信地で再度解析ファイル１４を生成できるようにしたので、遠隔地においても速やかに障害解析をすることができる。

１００，２００，３００，４００，５００，６００障害解析情報収集装置、
２バックアップメモリ（補助記憶装置）、
３ＣＰＵレジスタ（この値がハードウェア情報）、
４Ｉ／Ｏレジスタ（この値がハードウェア情報）、５主記憶装置、
６ＨＤＤ（補助記憶装置）、７障害検出手段、
８，５０８ハードウェア情報管理手段、９，２０９，５０９主記憶情報管理手段、
１０ＯＳ起動手段、
１１，２１１，３１１，４１１，５１１，６１１障害情報管理手段、
１２ハードウェア情報記録領域、１３ダンプファイル（主記憶情報記録領域）、
１４解析ファイル、１５故障フラグ、１６現在値情報管理手段、
１７ダンプ選別手段、３１メール変換手段、３２メール配送手段、
３３メール送付先情報、４１〜４ｎメールファイル。

Claims

主記憶装置と複数の補助記憶装置とを有し、障害解析に必要な情報を収集する障害解析情報収集装置において、
障害発生時に、前記主記憶装置に記録されている主記憶情報を、前記複数の補助記憶装置のいずれかの補助記憶装置に設けた、主記憶情報記録領域に保存する主記憶情報管理手段と、
前記障害発生時に、前記主記憶情報以外のハードウェア情報を、前記主記憶情報を保存した補助記憶装置以外の前記複数の補助記憶装置のいずれかの補助記憶装置に設けたハードウェア情報記録領域に保存するハードウェア情報管理手段と、
障害発生後かつ前記障害解析情報収集装置の再起動後に、前記主記憶情報及び前記ハードウェア情報が共に保存されている場合は、前記主記憶情報及び前記ハードウェア情報を結合して解析ファイルとして前記複数の補助記憶装置のいずれかの補助記憶装置に保存し、前記主記憶情報又は前記ハードウェア情報のいずれか一方しか保存されていない場合は、当該保存されている情報を解析ファイルとして前記複数の補助記憶装置のいずれかの補助記憶装置に保存する障害情報管理手段とを備える障害解析情報収集装置。
前記障害発生時において、前記主記憶装置と、前記主記憶情報を保存しようとするいずれかの前記補助記憶装置とが、前記主記憶情報を該補助記憶装置に保存する直前に正常に動作していたか否かを示す故障フラグを前記複数の補助記憶装置のいずれかの補助記憶装置に備える請求項１に記載の障害解析情報収集装置。
前記再起動後の前記主記憶情報以外のハードウェア情報を、前記解析ファイルに付加する現在値情報管理手段を備える請求項１又は請求項２に記載の障害解析情報収集装置。
前記障害発生時に動作していたプロセスの論理空間アドレス及び、保存した前記主記憶情報のうち、前記論理空間アドレスに対応する部分のみを選別して前記解析ファイルとして保存するダンプ選別手段を備えた請求項１乃至請求項３のいずれか１項に記載の障害解析情報収集装置。
複数のプロセッサコアを有し、前記障害情報管理手段をいずれか１つのプロセッサコアに備え、他のプロセッサコアは前記再起動後に定常動作する請求項１乃至請求項４のいずれか１項に記載の障害解析情報収集装置。
メール送付先を記載した送付先情報を備え、前記解析ファイルをメール形式にて前記メール送付先に送信するメール配送手段を備えた請求項１乃至請求項５のいずれか１項に記載の障害解析情報収集装置。
前記解析ファイルを複数のメールに分割するメール変換手段を備えた請求項６に記載の障害解析情報収集装置。