JP2012194930A - 障害解析情報収集装置 - Google Patents

障害解析情報収集装置 Download PDF

Info

Publication number
JP2012194930A
JP2012194930A JP2011059967A JP2011059967A JP2012194930A JP 2012194930 A JP2012194930 A JP 2012194930A JP 2011059967 A JP2011059967 A JP 2011059967A JP 2011059967 A JP2011059967 A JP 2011059967A JP 2012194930 A JP2012194930 A JP 2012194930A
Authority
JP
Japan
Prior art keywords
information
failure
main storage
analysis
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011059967A
Other languages
English (en)
Other versions
JP5427814B2 (ja
Inventor
Junichi Ito
純一 井登
Atsushi Settsu
敦 攝津
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2011059967A priority Critical patent/JP5427814B2/ja
Publication of JP2012194930A publication Critical patent/JP2012194930A/ja
Application granted granted Critical
Publication of JP5427814B2 publication Critical patent/JP5427814B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

【課題】主記憶装置やHDD装置に一時的に不具合、誤動作が発生した場合においても、再起動後に障害情報を可能な限り収集することができる障害解析情報収集装置を得ることを目的とする。
【解決手段】障害解析情報収集装置100は、主記憶装置5と、バックアップメモリ2と、HDD6とを有し、
障害発生時に、主記憶装置5に記録されている主記憶情報を、ダンプファイル13としてHDD6に設けた主記憶情報記録領域に保存する主記憶情報記録手段9と、CPUレジスタ3やI/Oレジスタ4の値をバックアップメモリ2に設けたH/W情報記録領域12に保存するハードウェア情報管理手段8と、障害発生後に装置100を再起動した後で、保存されている主記憶情報及びハードウェア情報を結合して解析ファイル14としてHDD6に保存する障害情報管理手段11とを備える。
【選択図】図1

Description

本発明は、計算機システムで発生する障害を解析するために、計算機システムに障害時のハードウェア情報を収集する手段を組み込んだ障害解析情報収集装置に関するものである。
従来の障害解析情報収集装置として、障害発生時に、障害情報をすべて主記憶に保存してから、ダンプファイルとしてハードディスク装置にイメージとして保存し、再起動後にそのまま読み出して表示する方法が提案されている。
特開平9−325903号公報(第2−3頁、第21図)
従来の収集方式では、障害情報をすべて主記憶装置上に一旦配置し、その後HDDに保存するため、主記憶やHDD装置に一時的に不具合が発生している場合に、再起動後に障害情報を収集できないという問題があった。
この発明は上記のような課題を解決するためになされたものであり、主記憶装置やHDD装置に一時的に不具合、誤動作が発生した場合においても、障害情報を可能な限り収集することができる障害解析情報収集装置を得ることを目的とする。
この発明に係る障害解析情報収集装置は、
主記憶装置と複数の補助記憶装置とを有し、障害解析に必要な情報を収集する障害解析情報収集装置において、
障害発生時に、主記憶装置に記録されている主記憶情報を、複数の補助記憶装置のいずれかの補助記憶装置に設けた、主記憶情報記録領域に保存する主記憶情報管理手段と、
障害発生時に、主記憶情報以外のハードウェア情報を、主記憶情報を保存した補助記憶装置以外の複数の補助記憶装置のいずれかの補助記憶装置に設けたハードウェア情報記録領域に保存するハードウェア情報管理手段と、
障害発生後かつ障害解析情報収集装置の再起動後に、前記主記憶情報及びハードウェア情報が共に保存されている場合は、主記憶情報及びハードウェア情報を結合して解析ファイルとして複数の補助記憶装置のいずれかの補助記憶装置に保存し、主記憶情報又はハードウェア情報のいずれか一方しか保存されていない場合は、当該保存されている情報を解析ファイルとして複数の補助記憶装置のいずれかの補助記憶装置に保存する障害情報管理手段とを備えるものである。
この発明に係る障害解析情報収集装置は、
障害発生時に、主記憶装置に記録されている主記憶情報を、複数の補助記憶装置のいずれかの補助記憶装置に設けた、主記憶情報記録領域に保存する主記憶情報管理手段と、
障害発生時に、主記憶情報以外のハードウェア情報を、主記憶情報を保存した補助記憶装置以外の複数の補助記憶装置のいずれかの補助記憶装置に設けたハードウェア情報記録領域に保存するハードウェア情報管理手段と、
障害発生後かつ障害解析情報収集装置の再起動後に、主記憶情報及びハードウェア情報が共に保存されている場合は、主記憶情報及びハードウェア情報を結合して解析ファイルとして複数の補助記憶装置のいずれかの補助記憶装置に保存し、主記憶情報又はハードウェア情報のいずれか一方しか保存されていない場合は、当該保存されている情報を解析ファイルとして複数の補助記憶装置のいずれかの補助記憶装置に保存する障害情報管理手段とを備えるものなので、
CPUレジスタやI/Oレジスタなどの情報をバックアップメモリに保存し、主記憶装置の情報は別の補助記憶装置であるHDDにダンプファイルとして保存し、障害解析情報収集装置の再起動後にそれぞれのファイルの有無によって所定の解析ファイルを生成するので、一時的に主記憶やHDDにアクセスができないような障害が発生した場合でも、再起動後に原因解明のための各種障害情報を効果的に収集することができる。
この発明に係る障害解析情報収集装置の実施の形態1の構成を示すブロック図である。 障害発生時における装置100の動作を示すフローチャートである。 装置100が障害発生後に再起動する時の動作を示すフローチャートである。 この発明に係る障害解析情報収集装置の実施の形態2の構成を示すブロック図である。 障害発生時における装置200の動作を示すフローチャートである。 装置200が障害発生後に再起動する時の動作を示すフローチャートである。 この発明に係る障害解析情報収集装置の実施の形態3の構成を示すブロック図である。 装置300が障害発生後に再起動する時の動作を示すフローチャートである。 この発明に係る障害解析情報収集装置の実施の形態4の構成を示すブロック図である。 実施の形態4におけるダンプファイル13の構成を示す図である。 装置400が障害発生後に再起動する時の動作を示すフローチャートである。 この発明に係る障害解析情報収集装置の実施の形態5の構成を示すブロック図である。 装置500が障害発生後に再起動する時の動作を示すフローチャートである。 この発明に係る障害解析情報収集装置の実施の形態6の構成を示すブロック図である。 装置600が障害発生後に再起動する時の動作を示すフローチャートである。
実施の形態1.
以下、この発明に係る障害解析情報収集装置の実施の形態1について、図を用いて説明する。
図1は、この発明に係る障害解析情報収集装置100(以下装置100という)の構成を示すブロック図である。
OS101は、装置100の基本動作を担当するオペレーティングシステム(OS)である。
バックアップメモリ2は、装置100の電源がOFFしても記録したデータが保持されるバックアップメモリであり、本出願の特許請求の範囲では補助記憶装置の一つに分類される。
CPUレジスタ3は、CPUプロセッサを操作するためのレジスタである。
I/Oレジスタ4は、シリアルやネットワーク等のデバイスを操作するためのI/Oレジスタである。
CPUレジスタ3及びI/Oレジスタ4は、本出願の特許請求の範囲ではそれぞれ「主記憶情報以外のハードウェア情報」に分類される。
主記憶装置5は、装置100がOS101や各種データを保持するために使用する揮発性のメモリであって、電源OFFにてデータが消去される。
HDD6は、大容量の補助記憶装置である。
装置100は以上のハードウェアで構成される。
次に、OS101のソフトウェア構成を説明する。
障害検出手段7はOS101に発生した障害を検出等する手段である。
ハードウェア情報管理手段8(以下H/W情報管理手段8という。ハードウェアについて以下同様にH/Wと省略する。)は、障害の発生を検出した障害検出手段7から指示を受けて、CPUレジスタ3の値およびI/Oレジスタ4の値をバックアップメモリ2内のハードウェア情報記録領域12に保存する手段である。
主記憶情報管理手段9は、装置100に発生した障害を検出した障害検出手段7からの指示を受けて、主記憶装置5の内容(主記憶情報)をHDD6内にダンプファイル13として保存する手段である。特許請求の範囲に記載する「主記憶情報記録領域」がダンプファイル13に相当する。
OS起動手段10は、装置100の起動によりH/Wリセットが入ることで動作し、障害発生後の再起動の場合は、次に説明する障害情報管理手段11を呼び出す手段である。
障害情報管理手段11は、OS起動手段10の指示により、H/W情報記録領域12の内容とダンプファイル13の内容を結合し、解析ファイル14を生成しHDD6に保存する手段である。
次に、装置100の障害発生時の動作について図1、図2を用いて説明する。
図2は、障害発生時における装置100の動作を示すフローチャートである。
まず、装置100内にて障害が発生すると、OS101の障害検出手段7が障害を検出する(S101)。
次に、障害検出手段7は、H/W情報管理手段8にH/W情報を収集するよう指示する。ここで、H/W情報管理手段8は、CPUレジスタ3の情報およびI/Oレジスタ4の情報をH/W情報記録領域12に保存する(S102)。
H/W情報管理手段8により、CPUレジスタ3およびI/Oレジスタ4の情報がH/W情報記録領域12に保存されると、障害検出手段7は、主記憶情報管理手段9に主記憶情報を収集するように指示する。
ここで、主記憶情報管理手段9は、主記憶装置5の内容をダンプファイル13としてHDD6に記録する(S103)。
この処理において、主記憶装置5およびHDD6が故障しており、主記憶装置5の読み出しや、ダンプファイル13への書き込みができない場合、ダンプファイル13はHDD6内に存在しないことになる。以上が、本実施の形態1における装置100の障害発生時の動作である。
次に、装置100が障害発生後に再起動する時の動作について図1及び図3を用いて説明する。
図3は、装置100が障害発生後に再起動する時の動作を示すフローチャートである。
障害の発生後、装置100が再起動すると、装置100にH/Wリセットが入り、OS101のOS起動手段10が動作を開始する(S111)。
OS起動手段10は、OS101内の初期化処理を行うとともに、障害情報管理手段11に障害情報の収集を指示する。
障害情報管理手段11は、H/W情報記録領域12に障害発生時のH/W情報データが存在するか否かをチェックする(S112)。
障害発生検出時に、CPUレジスタ3とI/Oレジスタ4の読み出しと、H/W情報記録領域12への書き込みが正しく行われている場合、H/W情報記録領域12にデータが存在する。
当該データが存在する場合は、S113へ、存在しない場合はS116へ進む。
S112でH/W情報記録領域12にデータが存在する場合(S112 Y)、障害情報管理手段11は、HDD6にダンプファイル13が存在するか否かをチェックする(S113)。
障害発生検出後に、主記憶装置5の読み出しと、HDD6へのダンプファイル13の書き込みが正しく行われている場合、ダンプファイル13が存在する。
ダンプファイル13が存在する場合はS114へ、存在しない場合はS115へ進む。
ダンプファイル13が存在する場合(S113 Y)は、先のH/W情報記録領域12の内容とダンプファイル13の内容とを解析ファイル14に合わせてコピーして(S114)終了する(S118)。
S113でHDD6にダンプファイル13が存在しない場合(S113 N)は、H/W情報記録領域12のデータ内容をのみを解析ファイル14にコピーして(S115)終了する(S118)。
S112でH/W情報記録領域12が存在しない場合(S112 N)は、障害情報管理手段11は、HDD6にダンプファイル13が存在するか否かをチェックする(S116)。
ダンプファイル13が存在する場合(S116 Y)は、ダンプファイル13の内容を解析ファイル14にコピーして(S117)終了する(S118)。
ダンプファイル13が存在しない場合(S116 N)は、解析ファイル14には何もコピーせずに終了する(S118)。
以上が、本実施の形態1における障害解析情報収集装置100再起動時の動作である。
この実施の形態1における障害解析情報収集装置100によれば、CPUレジスタ3やI/Oレジスタ4などの情報をバックアップメモリ2に保存し、主記憶装置5の情報は別の補助記憶装置であるHDD6にダンプファイル13として保存し、装置100の再起動後にそれぞれのファイルの有無によって所定の解析ファイル14を生成するので、一時的に主記憶装置5やHDD6にアクセスができないような障害が発生していた場合でも、再起動後に原因解明のための各種障害情報を効果的に収集することができる。
また、CPUレジスタ3とI/Oレジスタ4の値と、主記憶装置5のデータとを別の補助記憶装置に保存しているので、障害発生時のデータを全て失う危険が低減され、後の原因究明が容易になる。
なお、H/W情報の収集と主記憶情報の収集の順序はどちらが先でも、同時でも良い。
また、再起動後の解析ファイル14の生成についても、H/W情報記録領域12のデータとダンプファイル13のいずれを先に記載しても良い。
また、H/W情報記録領域12やHDD6の代わりに別の補助記憶装置を利用しても良いし、解析ファイル14を他の補助記憶装置に保存しても良い。
実施の形態2.
以下、この発明に係る障害解析情報収集装置の実施の形態2について、図を用いて、実施の形態1と異なる部分を中心に説明する。
図4は、この発明に係る障害解析情報収集装置200(以下装置200という)の構成を示すブロック図である。
装置200では、バックアップメモリ2内に、主記憶装置5およびHDD6がそれぞれ故障していたか否かを示す情報を設定する故障フラグ15を設けている。
これに伴い、主記憶情報管理手段209と障害情報管理手段211の動作が若干異なるところが装置100との違いである。
次に、装置200の障害発生時の動作について図4及び図5を用いて説明する。
図5は、障害発生時における装置200の動作を示すフローチャートである。
装置200内にて障害が発生すると、OS201の障害検出手段7が障害を検出する(S201)。
次に、障害検出手段7は、H/W情報管理手段8にH/W情報を収集するように指示する。この処理は、実施の形態1と同じである(S202)。
次に、障害検出手段7は、主記憶情報管理手段209に主記憶情報を収集するように指示する。ここで、主記憶情報管理手段209は、主記憶装置5またはHDD6へのアクセスが可能であるか否かをチェックする(S203)。
主記憶装置5がアクセス可能であるか否かについては、主記憶装置5に対する読み書きにて発生するトラップをチェックしたり、主記憶領域のチェックサム(またはCRC)を取ったりして調べる。
また、HDD6へのアクセスが可能か否かについては、HDD6へのダミーデータの読み書きを実施するなどしてチェックする。
S203にて、主記憶情報管理手段209が主記憶装置5及びHDD6にアクセスチェックを済ませたら(S203)、次に主記憶情報管理手段209は、バックアップメモリ2内の2ビットの故障フラグ15に、S203でチェックした主記憶装置5及びHDD6の状態(故障又は正常)を示すフラグを設定する(S204)。
その後、主記憶情報管理手段209は、主記憶装置5の内容をHDD6のダンプファイル13に記録する(S205)。
故障フラグ15を設定した後で、フラグの内容に拘わらずS205の処理を行うのは、主記憶装置5やHDD6が一時的に故障ないし不安定な状態に陥る場合もあり得るからである。
以上が、本実施の形態2における障害解析情報収集装置200の障害発生時の動作である。
次に、装置200が障害発生後に再起動する時の動作について図4及び図6を用いて説明する。
図6は、装置200が障害発生後に再起動する時の動作を示すフローチャートである。
障害の発生後、装置200が再起動すると、装置200にH/Wリセットが入り、OS201のOS起動手段10が動作を開始する(S211)。
OS起動手段10は、OS201内の初期化処理を行うとともに、障害情報管理手段211に障害情報の収集を指示する。
障害情報管理手段211は、まず、バックアップメモリ2内の故障フラグ15の内容がどのような設定になっているかチェックする(S212)。
2ビットの故障フラグ15のいずれのビットもOFFになっている場合、HDD6のダンプファイル13への書き込みは正しく行われている。
反対に、2ビットの故障フラグ15の内、いずれかのビットがONになっている場合、ダンプファイル13のHDD6への書き込みは、正しく行われていない可能性がある。
ここでは、故障フラグの値に関係なく、故障フラグ15の設定状態を付加したダンプファイル13の内容とH/W情報記録領域12の内容とを結合して1つの解析ファイル14を作成してHDD6に保存し(S213)、故障フラグ15を全てOFFにして(S214)処理を終了する。
以上が、本実施の形態における障害解析情報収集方式の装置200起動時の動作である。
この実施の形態2における障害解析情報収集装置200では、バックアップメモリ2内に故障フラグ15を設け、障害発生時点において主記憶装置5およびHDD6へのアクセスが可能であったか否かを記録するようにしたので、主記憶装置5およびHDD6の一時的な故障や不安定な動作により、ダンプファイル13に不明なデータが入った場合でも、ダンプファイル13の信頼性の有無を事前に判断することができる。
なお、本実施の形態では、ダンプファイル13の異常をバックアップメモリ2上の故障フラグ15にて判断するようにしたが、これをダンプファイル13内にチェックサム領域(またはCRC領域)を設け、主記憶装置5の内容をダンプファイル13内に書き込む際にチェックサム値(またはCRC値)を格納し、障害情報管理手段211にてチェックサム値(またはCRC値)を監視することにより、ダンプファイル13が異常であるか否かを判断しても良い。
また、故障フラグ15はHDD6に設けても他の補助記憶装置に設けても良い。
実施の形態3.
以下、この発明に係る障害解析情報収集装置の実施の形態3について、図を用いて実施の形態1と異なる部分を中心に説明する。
図7は、この発明に係る障害解析情報収集装置300(以下装置300という)の構成を示すブロック図である。
装置300の構成および動作は、実施の形態1の装置100とほぼ同等であるが、装置100に比べて次の点で異なる。
装置300のOS301内には、装置300の再起動後のCPUレジスタ3の値およびI/Oレジスタ4の値を収集記録する、現在値情報管理手段16が設けられている。
このため、解析ファイル14の生成過程が若干異なる。
装置300の障害発生時の動作は、図7および図2のフローチャートで表される。
この動作は実施の形態1と同じであるので説明は省略する。
次に、装置300が障害発生後に再起動する時の動作について図7及び図8を用いて説明する。
図8は、装置300が障害発生後に再起動する時の動作を示すフローチャートである。
図3のように詳細に示さないが、実施の形態1と同様にダンプファイル13やH/W情報記録領域12にデータが存在しない場合は、存在するデータのみを利用して解析ファイル14を生成する。
障害の発生後、装置300が再起動すると、装置300にH/Wリセットが入り、OS301のOS起動手段10が動作を開始する(S311)。
OS起動手段10は、OS301内の初期化処理を行うとともに、障害情報管理手段311に障害情報の収集を指示する。
次に、障害情報管理手段311は、バックアップメモリ2内にあるH/W情報記録領域12の内容をHDD6内の解析ファイル14にコピーする(S312)。
S312にてH/W情報記録領域12にデータが存在しない場合は、S313に移行する。
次に、障害情報管理手段311は、現在値情報管理手段16に指示し、現在のCPUレジスタ3の情報およびI/Oレジスタ4の情報を解析ファイル14に追加する(S313)。
障害発生時のH/W情報と、再起動後のH/W情報の双方を解析ファイル14に保存することにより、ハードウェアの故障が一時的なもの(再起動後のレジスタ情報では異常な情報が存在しない)なのか、永久的な故障(再起動後のレジスタ情報でも異常な情報が存在する)なのかを判断できるようにする。
次に、障害情報管理手段311は、HDD6にダンプファイル13が存在するか否かをチェックして取得する(S314)。障害発生時に、主記憶装置5の読み出しと、HDD6のダンプファイル13への書き込みが正しく行われている場合、ダンプファイル13が存在する。
障害情報管理手段311はダンプファイル13の内容を解析ファイル14に追加し(S315)、処理を終了する。
S314にてダンプファイル13が存在しない場合は、そのまま処理を終了する。以上が、本実施の形態における障害解析情報収集方式の装置300起動時の動作である。
この実施の形態3における障害解析情報収集装置300では、CPUレジスタ3やI/Oレジスタ4などのH/W情報について、障害発生時の情報と、装置300が再起動した後の情報を保存するようにしたので、H/Wの故障が一時的なものか、永久的なものかを判断するために必要な情報を収集できる。
なお、本実施の形態の装置300は、実施の形態1の装置100をベースとして説明したが、実施の形態2の装置200をベースとしても良い。
実施の形態4.
以下、この発明に係る障害解析情報収集装置の実施の形態4について、図を用いて実施の形態1と異なる部分を中心に説明する。
図9は、この発明に係る障害解析情報収集装置400(以下装置400という)の構成を示すブロック図である。
図10は、実施の形態4におけるダンプファイル13の構成を示す図である。
装置400の構成および動作は、実施の形態1の装置100とほぼ同等であるが、装置100に比べて次の点で異なる。
装置400のOS401内には、ダンプファイル13の内容を選別して必要部分だけを解析ファイル14に保存する、ダンプ選別手段17が設けられている。
装置400の障害発生時の動作は、図9および図2のフローチャートで表される。
この動作は実施の形態1と同じであるので説明は省略する。
図10の左側は、障害発生時にHDD6に保存されたダンプファイル13の内容を示す模式図である。
ダンプファイル13には、その先頭に障害発生時に動作していた実行プロセス情報やダンプファイル13内のファイル位置情報を示すヘッダ情報を格納し、ヘッダ情報に続けて装置400で動作していた各プロセスの論理空間情報a〜nを記載するマップ情報を格納し、更に続けて主記憶装置5の内容を格納している。
ヘッダ情報の実行プロセス情報には、障害が発生した時に動作していたプロセス情報が格納されており、その情報の中には対応する論理空間情報へのポインタも格納されている。 また、論理空間情報a〜nには、装置400で動作していたプロセスの論理空間情報を格納しており、論理空間アドレスと対応する主記憶装置5の領域の情報を備えている。
本実施例では仮に、障害が発生した時に動作していたプロセスの論理空間は論理空間情報bに格納されているものとする。
ダンプ選別手段17では、図10左側で示されたダンプファイル13について、ヘッダ情報にある実行プロセス情報を元に、障害発生時のプロセスの論理空間に対応した主記憶情報のみを解析ファイル14に保存する。具体的には、図10左側で示されたダンプファイル13の内、ヘッダ情報と、ヘッダ情報にある実行プロセス情報を元に、障害が発生していたときに動作していた論理空間情報b、および論理空間情報bにて示される障害発生時に動作していた論理空間に対応する主記憶情報を、解析ファイル14に保存する(図10右側)。
これにより、解析ファイル14には、障害発生時に動作していた論理空間上の主記憶情報のみが保存されることになり、データ量を低減できる。
次に、装置400が障害発生後に再起動する時の動作について図9,図10及び図11を用いて説明する。
図11は、装置400が障害発生後に再起動する時の動作を示すフローチャートである。
図3のように詳細に示さないが、実施の形態1と同様にダンプファイル13やH/W情報記録領域12にデータが存在しない場合は、存在するデータのみを利用して解析ファイル14を生成する。
障害の発生後、装置400が再起動すると、装置400にH/Wリセットが入り、OS401のOS起動手段10が動作を開始する(S411)。
OS起動手段10は、OS401内の初期化処理を行うとともに、障害情報管理手段411に障害情報の収集を指示する。
障害情報管理手段411は、バックアップメモリ2内にあるH/W情報記録領域12の内容をHDD6内の解析ファイル14にコピーする(S412)。
S412にてH/W情報記録領域12にデータが存在しない場合は、S413に移行する。
次に、障害情報管理手段411は、HDD6のダンプファイル13が存在するか否かをチェックして取得する(S413)。障害発生時に、主記憶装置5の読み出しと、HDD6のダンプファイル13への書き込みが正しく行われている場合、ダンプファイル13が存在する。
次に、障害情報管理手段411はダンプ選別手段17に指示し、ダンプファイル13の内容を図10で示したように選別し、必要な部分だけを解析ファイル14に追加し(S414)、処理を終了する。
S413にてダンプファイル13が存在しない場合は、そのまま処理を終了する。以上が、本実施の形態における障害解析情報収集装置400の障害発生後再起動時の動作である。
この実施の形態4における障害解析情報収集装置400では、ダンプファイル13の内、障害発生時に動作していたプロセスの論理空間情報に対応する部分のみ解析ファイル14に保存するようにしたので、解析ファイル14のデータ量が少なくて済む。
また、障害解析のために使用するデータ量が少ないので、解析作業の効率化を図ることができる。
なお、本実施の形態の装置400は、実施の形態1の装置100をベースとして説明したが、実施の形態2の装置200、実施の形態3の装置300をベースとしても良い。
実施の形態5.
以下、この発明に係る障害解析情報収集装置の実施の形態5について、図を用いて実施の形態1と異なる部分を中心に説明する。
図12は、この発明に係る障害解析情報収集装置500(以下装置500という)の構成を示すブロック図である。
装置500は、CPUが複数あるマルチコア構成をとり、1つのプロセッサコアによりOS−Aが、もう1つのプロセッサコアによりOS−Bがそれぞれ動作する。
OS−Aは、障害の発生を検出する障害検出手段507と、障害検出手段507の指示によりCPUレジスタ3およびI/Oレジスタ4の値をバックアップメモリ2内のH/W情報記録領域12に保存するH/W情報管理手段508と、主記憶装置5の内容をHDD6内のダンプファイル13に保存する主記憶情報管理手段509と、装置500の起動によりH/Wリセットが入ることで動作するOS起動手段510を備える。
また、OS−Bは、OS−AのOS起動手段510からの指示によりOS−Bを起動するOS起動手段512と、OS起動手段512の指示により、H/W情報記録領域12の内容とダンプファイル13の内容を結合し、解析ファイル14を生成する障害情報管理手段511を備える。
他の構成は、実施の形態1と同じである。また、本実施の形態における装置500の障害発生時の動作は、OS−Aのみで動作し、その動作は実施の形態1における障害発生時の動作と同じであり、図12および図2のフローチャートで表される。
この動作は実施の形態1と同じであるので説明は省略する。
次に、装置500が障害発生後に再起動する時の動作について図12及び図13を用いて説明する。
図13は、装置500が障害発生後に再起動する時の動作を示すフローチャートである。
図3のように詳細に示さないが、実施の形態1と同様にダンプファイル13やH/W情報記録領域12にデータが存在しない場合は、存在するデータのみを利用して解析ファイル14を生成する。
障害の発生後、装置500が再起動すると、装置500にH/Wリセットが入り、OS−AのOS起動手段510が動作を開始する(S511)。
OS起動手段510は、OS−A内の初期化処理を行うとともに、OS−Bに起動を指示する(S512)。
OS−AからOS−Bへの起動指示は、プロセッサ間割り込み等を用いて行われる。OS−AはOS−Bへの起動指示を完了した後、起動処理を終了し、通常動作に移行する。
OS−BのOS起動手段512は、OS−AのOS起動手段510からの指示(S512)により、OS−Bの起動を開始する(S513)。OS起動手段512は、OS−B内の初期化処理を行うとともに、障害情報管理手段511に障害情報の収集を指示する。 障害情報管理手段511は、まず、バックアップメモリ2内にあるH/W情報記録領域12の内容をHDD6内の解析ファイル14にコピーする(S514)。
S514にてH/W情報記録領域12にデータが存在しない場合は、S515に移行する。
次に、障害情報管理手段511は、HDD6のダンプファイル13が存在するかチェックする(S515)。障害発生時に、主記憶装置5の読み出しと、HDD6のダンプファイル13への書き込みが正しく行われている場合、ダンプファイル13が存在する。ダンプファイル13が存在する場合、障害情報管理手段511はダンプファイル13の内容を解析ファイル14に追加し(S516)、処理を終了する。
S515にてダンプファイル13が存在しない場合は、そのまま処理を終了する。以上が、本実施の形態における障害解析情報収集方式の装置500起動時の動作である。
この実施の形態5における障害解析情報収集装置500では、マルチコア構成において、装置500の起動時の障害情報収集を別のプロセッサコア上にて処理するようにしたので、再起動後、一方のプロセッサで業務を行いながら解析ファイルの作成ができる。
なお、本実施の形態の装置500は、実施の形態1の装置100をベースとして説明したが、実施の形態2〜実施の形態4の装置200〜装置400をベースとしても良い。
実施の形態6.
以下、この発明に係る障害解析情報収集装置の実施の形態6について、図を用いて実施の形態1と異なる部分を中心に説明する。
図14は、この発明に係る障害解析情報収集装置600(以下装置600という)の構成を示すブロック図である。
装置600のOS601は、解析ファイル14をメールファイルにて送信可能なサイズに分割する(メール形式)メール変換手段31と、分割メールを送信するメール配送手段32を備える。
HDD6内には、メールを送付するための宛先情報を記載したメール送付先情報33が保存されている。
メール変換手段31は、解析ファイル14のサイズが大きい場合は、これをメールファイル41〜4nとして複数ファイルに分割する手段である。
メール配送手段32は、メール送付先情報33に基づいて、メールファイル41〜4nを所定の宛先に送信する手段である。
装置600の障害発生時の動作は、図14および図2のフローチャートで表される。
この動作は実施の形態1と同じであるので説明は省略する。
次に、装置600が障害発生後に再起動する時の動作について図14及び図15を用いて説明する。
図15は、装置600が障害発生後に再起動する時の動作を示すフローチャートである。
図3のように詳細に示さないが、実施の形態1と同様にダンプファイル13やH/W情報記録領域12にデータが存在しない場合は、存在するデータのみを利用して解析ファイル14を生成する。
障害の発生後、装置600が再起動すると、装置600にH/Wリセットが入り、OS601のOS起動手段10が動作を開始する(S611)。
OS起動手段10は、OS601内の初期化処理を行うとともに、障害情報管理手段611に障害情報の収集を指示する。
次に、障害情報管理手段611は、バックアップメモリ2内にあるH/W情報記録領域12の内容をHDD6内の解析ファイル14にコピーする(S612)。
S612にてH/W情報記録領域12にデータが存在しない場合は、S613に移行する。
次に、障害情報管理手段611は、HDD6のダンプファイル13が存在するか否かをチェックして取得する(S613)。障害発生時に、主記憶装置5の読み出しと、HDD6のダンプファイル13への書き込みが正しく行われている場合、ダンプファイル13が存在する。
ダンプファイル13が存在する場合、障害情報管理手段611はダンプファイル13の内容を解析ファイル14に追加する(S614)。
S613にてダンプファイル13が存在しない場合、障害発生時に主記憶装置5の読み出しおよびHDD6の書き込みができなかったと判断し、S614に移行する。
解析ファイル14が生成されると、OS起動手段10は、解析ファイル14をメールとして送信するために、メール変換手段31に対してデータ変換を指示する。
メール変換手段31は、解析ファイル14をメール送信可能なサイズに分割し、それらをメールファイル41〜4nとして、主記憶装置5又はHDD6上に保存する(S615)。
その後、メール変換手段31は、メール送信を実施するメール配送手段32に送信指示を出す。
メール配送手段32は、HDD6にあるメール送付先情報33に記載した送付先メールアドレスを元にメールヘッダを作成し、メールファイル41の送信を行う。そして、同様にメールファイル42〜4nを送信する(S616)。メールファイル4nまでの送信が終わると処理を終了する。
送付先では、全てのメールファイル41〜4nを受信後、再度結合することで解析ファイル14を生成することができ、遠隔地での障害解析が可能となる。
以上が、本実施の形態における障害解析情報収集装置600再起動時の動作である。
この実施の形態6における障害解析情報収集装置600では、HDD6内にメール送付先情報33を設け、解析ファイル14をメール送信可能サイズに分割し、分割したファイルをメールにて送信し、受信地で再度解析ファイル14を生成できるようにしたので、遠隔地においても速やかに障害解析をすることができる。
100,200,300,400,500,600 障害解析情報収集装置、
2 バックアップメモリ(補助記憶装置)、
3 CPUレジスタ(この値がハードウェア情報)、
4 I/Oレジスタ(この値がハードウェア情報)、5 主記憶装置、
6 HDD(補助記憶装置)、7 障害検出手段、
8,508 ハードウェア情報管理手段、9,209,509 主記憶情報管理手段、
10 OS起動手段、
11,211,311,411,511,611 障害情報管理手段、
12 ハードウェア情報記録領域、13 ダンプファイル(主記憶情報記録領域)、
14 解析ファイル、15 故障フラグ、16 現在値情報管理手段、
17 ダンプ選別手段、31 メール変換手段、32 メール配送手段、
33 メール送付先情報、41〜4n メールファイル。

Claims (7)

  1. 主記憶装置と複数の補助記憶装置とを有し、障害解析に必要な情報を収集する障害解析情報収集装置において、
    障害発生時に、前記主記憶装置に記録されている主記憶情報を、前記複数の補助記憶装置のいずれかの補助記憶装置に設けた、主記憶情報記録領域に保存する主記憶情報管理手段と、
    前記障害発生時に、前記主記憶情報以外のハードウェア情報を、前記主記憶情報を保存した補助記憶装置以外の前記複数の補助記憶装置のいずれかの補助記憶装置に設けたハードウェア情報記録領域に保存するハードウェア情報管理手段と、
    障害発生後かつ前記障害解析情報収集装置の再起動後に、前記主記憶情報及び前記ハードウェア情報が共に保存されている場合は、前記主記憶情報及び前記ハードウェア情報を結合して解析ファイルとして前記複数の補助記憶装置のいずれかの補助記憶装置に保存し、前記主記憶情報又は前記ハードウェア情報のいずれか一方しか保存されていない場合は、当該保存されている情報を解析ファイルとして前記複数の補助記憶装置のいずれかの補助記憶装置に保存する障害情報管理手段とを備える障害解析情報収集装置。
  2. 前記障害発生時において、前記主記憶装置と、前記主記憶情報を保存しようとするいずれかの前記補助記憶装置とが、前記主記憶情報を該補助記憶装置に保存する直前に正常に動作していたか否かを示す故障フラグを前記複数の補助記憶装置のいずれかの補助記憶装置に備える請求項1に記載の障害解析情報収集装置。
  3. 前記再起動後の前記主記憶情報以外のハードウェア情報を、前記解析ファイルに付加する現在値情報管理手段を備える請求項1又は請求項2に記載の障害解析情報収集装置。
  4. 前記障害発生時に動作していたプロセスの論理空間アドレス及び、保存した前記主記憶情報のうち、前記論理空間アドレスに対応する部分のみを選別して前記解析ファイルとして保存するダンプ選別手段を備えた請求項1乃至請求項3のいずれか1項に記載の障害解析情報収集装置。
  5. 複数のプロセッサコアを有し、前記障害情報管理手段をいずれか1つのプロセッサコアに備え、他のプロセッサコアは前記再起動後に定常動作する請求項1乃至請求項4のいずれか1項に記載の障害解析情報収集装置。
  6. メール送付先を記載した送付先情報を備え、前記解析ファイルをメール形式にて前記メール送付先に送信するメール配送手段を備えた請求項1乃至請求項5のいずれか1項に記載の障害解析情報収集装置。
  7. 前記解析ファイルを複数のメールに分割するメール変換手段を備えた請求項6に記載の障害解析情報収集装置。
JP2011059967A 2011-03-18 2011-03-18 障害解析情報収集装置 Expired - Fee Related JP5427814B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011059967A JP5427814B2 (ja) 2011-03-18 2011-03-18 障害解析情報収集装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011059967A JP5427814B2 (ja) 2011-03-18 2011-03-18 障害解析情報収集装置

Publications (2)

Publication Number Publication Date
JP2012194930A true JP2012194930A (ja) 2012-10-11
JP5427814B2 JP5427814B2 (ja) 2014-02-26

Family

ID=47086724

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011059967A Expired - Fee Related JP5427814B2 (ja) 2011-03-18 2011-03-18 障害解析情報収集装置

Country Status (1)

Country Link
JP (1) JP5427814B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014112039A1 (ja) * 2013-01-15 2014-07-24 富士通株式会社 情報処理装置、情報処理装置制御方法及び情報処理装置制御プログラム
JP2019191820A (ja) * 2018-04-23 2019-10-31 株式会社リコー ダンプ処理装置及び画像形成装置
CN111209164A (zh) * 2020-01-03 2020-05-29 杭州迪普科技股份有限公司 异常信息存储方法及装置、电子设备、存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS4984759A (ja) * 1972-12-21 1974-08-14
JPS4998545A (ja) * 1973-01-22 1974-09-18
JPH0488439A (ja) * 1990-07-25 1992-03-23 Nec Corp エラーログ方法及びその装置
JPH0553882A (ja) * 1991-08-26 1993-03-05 Nec Corp メモリダンプ収集方式
JPH09223046A (ja) * 1996-02-20 1997-08-26 Nec Software Ltd ダンプ収集機能を持つコンピュータシステム
JP2001034510A (ja) * 1999-07-22 2001-02-09 Mitsubishi Electric Corp クラッシュダンプ管理装置及びクラッシュダンプ管理方法
JP2001109648A (ja) * 1999-10-04 2001-04-20 Fujitsu Ltd 情報取得方法、情報取得装置、及び記録媒体
JP2005122334A (ja) * 2003-10-15 2005-05-12 Hitachi Ltd メモリダンプ方法、メモリダンプ用プログラム及び仮想計算機システム
JP2006011588A (ja) * 2004-06-23 2006-01-12 Kyocera Mita Corp デバッグ機能を備えた画像処理装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS4984759A (ja) * 1972-12-21 1974-08-14
JPS4998545A (ja) * 1973-01-22 1974-09-18
JPH0488439A (ja) * 1990-07-25 1992-03-23 Nec Corp エラーログ方法及びその装置
JPH0553882A (ja) * 1991-08-26 1993-03-05 Nec Corp メモリダンプ収集方式
JPH09223046A (ja) * 1996-02-20 1997-08-26 Nec Software Ltd ダンプ収集機能を持つコンピュータシステム
JP2001034510A (ja) * 1999-07-22 2001-02-09 Mitsubishi Electric Corp クラッシュダンプ管理装置及びクラッシュダンプ管理方法
JP2001109648A (ja) * 1999-10-04 2001-04-20 Fujitsu Ltd 情報取得方法、情報取得装置、及び記録媒体
JP2005122334A (ja) * 2003-10-15 2005-05-12 Hitachi Ltd メモリダンプ方法、メモリダンプ用プログラム及び仮想計算機システム
JP2006011588A (ja) * 2004-06-23 2006-01-12 Kyocera Mita Corp デバッグ機能を備えた画像処理装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014112039A1 (ja) * 2013-01-15 2014-07-24 富士通株式会社 情報処理装置、情報処理装置制御方法及び情報処理装置制御プログラム
JPWO2014112039A1 (ja) * 2013-01-15 2017-01-19 富士通株式会社 情報処理装置、情報処理装置制御方法及び情報処理装置制御プログラム
JP2019191820A (ja) * 2018-04-23 2019-10-31 株式会社リコー ダンプ処理装置及び画像形成装置
JP7135403B2 (ja) 2018-04-23 2022-09-13 株式会社リコー ダンプ処理装置及び画像形成装置
CN111209164A (zh) * 2020-01-03 2020-05-29 杭州迪普科技股份有限公司 异常信息存储方法及装置、电子设备、存储介质
CN111209164B (zh) * 2020-01-03 2023-09-26 杭州迪普科技股份有限公司 异常信息存储方法及装置、电子设备、存储介质

Also Published As

Publication number Publication date
JP5427814B2 (ja) 2014-02-26

Similar Documents

Publication Publication Date Title
US10146627B2 (en) Mobile flash storage boot partition and/or logical unit shadowing
TW530215B (en) Creation of mini dump files from full dump files
US9229820B2 (en) Information processing device with memory dump function, memory dump method, and recording medium
JP2010165251A (ja) 情報処理装置及びプロセッサ並びに情報処理方法
JPWO2013103023A1 (ja) 情報処理装置、情報処理方法、およびコンピュータプログラム
JP2012252576A (ja) 情報処理装置、起動方法およびプログラム
JP2005128590A (ja) スナップショットシミュレーション機能を有するディスクアレイ装置
US20140281694A1 (en) Memory degeneracy method and information processing device
JP2010086364A (ja) 情報処理装置、動作状態監視装置および方法
US8245085B2 (en) Dump output control apparatus and dump output control method
JP2007133544A (ja) 障害情報解析方法及びその実施装置
JP5427814B2 (ja) 障害解析情報収集装置
CN115495278A (zh) 异常修复方法、设备及存储介质
JP4322240B2 (ja) 再起動方法、システム及びプログラム
JP2015114750A (ja) 調査用プログラム,情報処理装置及び情報処理方法
JP2011145824A (ja) 情報処理装置、障害解析方法及び障害解析プログラム
JP7063445B2 (ja) 障害情報処理プログラム、コンピュータ、障害通知方法、コンピュータシステム
JP2004102395A (ja) メモリダンプデータの取得方法および情報処理装置、ならびにそのプログラム
CN114756355B (zh) 一种计算机操作系统的进程自动快速恢复的方法和装置
CN115421960A (zh) 一种ue内存故障恢复方法、装置、电子设备及介质
JP2015118493A (ja) トレース装置及びトレースプログラム
CN114385418A (zh) 通信设备的保护方法、装置、设备和存储介质
JP5877533B2 (ja) 計算機装置及び計算機装置の制御方法
JP6160688B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
US10592329B2 (en) Method and electronic device for continuing executing procedure being aborted from physical address where error occurs

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121219

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131120

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131126

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131202

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees