JP5192903B2 - 診断システム、診断プロセッサ、診断方法、及びプログラム - Google Patents

診断システム、診断プロセッサ、診断方法、及びプログラム Download PDF

Info

Publication number
JP5192903B2
JP5192903B2 JP2008132812A JP2008132812A JP5192903B2 JP 5192903 B2 JP5192903 B2 JP 5192903B2 JP 2008132812 A JP2008132812 A JP 2008132812A JP 2008132812 A JP2008132812 A JP 2008132812A JP 5192903 B2 JP5192903 B2 JP 5192903B2
Authority
JP
Japan
Prior art keywords
replacement unit
hardware replacement
failure
identification information
board
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008132812A
Other languages
English (en)
Other versions
JP2009282663A (ja
Inventor
博文 渡邊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Computertechno Ltd
Original Assignee
NEC Computertechno Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Computertechno Ltd filed Critical NEC Computertechno Ltd
Priority to JP2008132812A priority Critical patent/JP5192903B2/ja
Publication of JP2009282663A publication Critical patent/JP2009282663A/ja
Application granted granted Critical
Publication of JP5192903B2 publication Critical patent/JP5192903B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Description

本発明は診断システム、診断プロセッサ、診断方法、及びプログラムに関し、特に、ハードウェア交換単位間インタフェース信号で障害が発生したとき(インタフェース信号に誤りが検出されたとき)の被疑ハードウェア交換単位を指摘する診断システム、診断プロセッサ、診断方法、及びプログラムに関する。
特許文献1記載の技術は、各ハードウェア交換単位で故障率を算出し、この算出結果に基づいて、障害発生の被疑ハードウェア交換単位を指摘する構成である。
また、特許文献1記載の技術は、過去に障害が発生したときの相手ハードウェア交換単位の識別情報と今回障害が発生したときの相手ハードウェア交換単位の識別情報に基づいて、被疑ハードウェア交換単位を指摘する技術の記載がない。
特許文献2記載の技術は、他系データ処理装置が原因で障害が発生したときに、他系データ処理装置の装置識別番号を保持し、被疑装置のログを得るものであるが、精度の高い被疑ハードウェア交換単位を指摘する技術の記載がない。
特許文献3記載の技術は、障害の履歴情報を不揮発性の記憶回路に保持させ、障害が発生したときに、過去の障害の履歴情報と比較して、新規障害か再発障害かを判断する構成である。
また、特許文献3記載の技術は、過去に障害が発生したときの相手ハードウェア交換単位の識別情報と今回障害が発生したときの相手ハードウェア交換単位の識別情報に基づいて、被疑ハードウェア交換単位を指摘する技術の記載がない。
特開昭62−34247号公報 特開平4−264636号公報 特開昭64−73428号公報
特許文献1乃至特許文献3記載の技術は、過去に障害が発生したときの相手ハードウェア交換単位の識別情報と今回障害が発生したときの相手ハードウェア交換単位の識別情報に基づいて、被疑ハードウェア交換単位を指摘する技術の記載がなく、ハードウェア交換単位間インタフェース信号で障害が発生したときの被疑ハードウェア交換単位を高い精度で指摘することができないという問題がある。
本発明の目的は、上記問題点を解決する診断システム、診断プロセッサ、診断方法、及びプログラムを提供することである。
本発明の診断プロセッサは、ハードウェア交換単位と相手ハードウェア交換単位間のインタフェース信号で障害が発生したときに、前記相手ハードウェア交換単位の識別情報を前記ハードウェア交換単位内の不揮発性記憶部に書き込むハードウェア交換単位識別情報処理部と、過去に障害が発生したときの前記相手ハードウェア交換単位の識別情報と今回障害が発生したときの前記相手ハードウェア交換単位の識別情報との比較結果に基づいて、被疑ハードウェア交換単位を指摘する被疑ハードウェア交換単位指摘処理部と、を備えることを特徴とする。
本発明の診断方法は、ハードウェア交換単位と相手ハードウェア交換単位間のインタフェース信号で障害が発生したときに、被疑ハードウェア交換単位を指摘する診断方法であって、前記障害が発生したときに、前記相手ハードウェア交換単位の識別情報を前記ハードウェア交換単位内の不揮発性記憶部に書き込むハードウェア交換単位識別情報処理ステップと、過去に障害が発生したときの前記相手ハードウェア交換単位の識別情報と今回障害が発生したときの前記相手ハードウェア交換単位の識別情報との比較結果に基づいて、被疑ハードウェア交換単位を指摘する被疑ハードウェア交換単位指摘処理ステップと、を含むことを特徴とする。
本発明のプログラムは、ハードウェア交換単位と相手ハードウェア交換単位間のインタフェース信号で障害が発生したときに、被疑ハードウェア交換単位を指摘するプログラムであって、前記障害が発生したときに、前記相手ハードウェア交換単位の識別情報を前記ハードウェア交換単位内の不揮発性記憶部に書き込むハードウェア交換単位識別情報処理と、過去に障害が発生したときの前記相手ハードウェア交換単位の識別情報と今回障害が発生したときの前記相手ハードウェア交換単位の前記識別情報との比較結果に基づいて、被疑ハードウェア交換単位を指摘する被疑ハードウェア交換単位指摘処理と、をコンピュータに実行させることを特徴とする。
本発明の効果は、ハードウェア交換単位間インタフェース信号で障害が発生したときに、被疑ハードウェア交換単位を高い精度で指摘できることである。
次に、本発明の第1の実施の形態について図面を参照して詳細に説明する。
図1は、本発明の第1の実施の形態である診断プロセッサ100の構成図である。
診断プロセッサ100は、ハードウェア交換単位識別情報処理部130と被疑ハードウェア交換単位指摘処理部140とから構成されている。
ハードウェア交換単位識別情報処理部130は、送信側の相手ハードウェア交換単位(ハードウェアの交換単位であり、ボード、パッケージ、カード、モジュール等をいう)から受信側のハードウェア交換単位へ送信されるインタフェース信号で障害が発生したときに、相手ハードウェア交換単位の識別情報をハードウェア交換単位内の不揮発性記憶部に保存する。
被疑ハードウェア交換単位指摘処理部140は、過去に障害が発生したときの相手ハードウェア交換単位の識別情報と今回障害が発生したときの相手ハードウェア交換単位の識別情報の比較結果に基づいて、被疑ハードウェア交換単位を指摘する。
このため、本発明の第1の実施の形態である診断プロセッサ100は、ハードウェア交換単位間インタフェース信号で障害が発生したときに、被疑ハードウェア交換単位を高い精度で指摘できる。
その理由は、ハードウェア交換単位間インタフェース信号で障害が発生したときに、相手ハードウェア交換単位の識別情報をハードウェア交換単位内の不揮発性記憶部に保存し、過去に障害が発生したときの相手ハードウェア交換単位の識別情報と今回障害が発生したときの相手ハードウェア交換単位の識別情報との比較結果に基づいて、被疑ハードウェア交換単位を指摘するような構成を採用したためである。
尚、ハードウェア交換単位識別情報処理部130と被疑ハードウェア交換単位指摘処理部140は、ハードウェアで実現してもよいし、ソフトウェアで実現してもよい。
次に、本発明の第2の実施の形態について図面を参照して説明する。
図2は、本発明の第2の実施の形態である診断システム600の構成図である。
診断システム600は、診断プロセッサ100、ボード(1)200(ハードウェア交換単位の1例)、及びボード(2)300から構成されている。
診断プロセッサ100は、ボード識別情報処理部110(ハードウェア交換単位識別情報処理部130の1例)と被疑ボード指摘処理部120(被疑ハードウェア交換単位指摘処理部140の1例)とから構成されている。
尚、ボード識別情報処理部110と被疑ボード指摘処理部120は、ハードウェアで実現してもよいし、ソフトウェアで実現してもよい。
ボード(1)200は、障害検出処理部(1)210、障害診断処理部(1)220、及び不揮発性記憶部(1)230から構成されている。
尚、障害検出処理部(1)210、障害診断処理部(1)220は、ハードウェアで実現してもよいし、ソフトウェアで実現してもよい。
障害検出処理部(1)210は、ボード(2)300からボード(1)200へのインタフェース信号350の障害を検出し、障害情報を障害情報信号(1)260で送信する。
尚、インタフェース信号350の障害は、例えば、データ信号のパリティチェックエラーや制御信号のタイムアウトエラーである。
不揮発性記憶部(1)230は、障害情報記憶部(1)2301、相手ボード識別情報記憶部(1)2302、及び自ボード識別情報記憶部(1)2303から構成されている。
障害情報記憶部(1)2301は、障害情報信号(1)260で送信された障害情報を格納する。
自ボード識別情報記憶部(1)2303は、ボード(1)200自身のボード識別情報(ボードの機能名称ではなく、各ボードを一意に識別する情報で、例えば、予め製造時に決められた製造番号とする)を格納する。
相手ボード識別情報記憶部(1)2302は、インタフェース信号350で前回障害が発生したとき書き込まれた相手ボードであるボード(2)300のボード識別情報を格納する。
ボード(2)300は、ボード(1)200と同様に、障害検出処理部(2)310、障害診断処理部(2)320、及び不揮発性記憶部(2)330から構成されている。
障害検出処理部(2)310は、ボード(1)200からボード(2)300へのインタフェース信号250の障害を検出し、障害情報を障害情報信号(2)360で送信する。
不揮発性記憶部(2)330は、障害情報記憶部(2)3301、相手ボード識別情報記憶部(2)3302、及び自ボード識別情報記憶部(2)3303から構成されている。
障害情報記憶部(2)3301は、障害情報信号(2)360で送信された障害情報を格納する。
自ボード識別情報記憶部(2)3303は、ボード(2)300自身のボード識別情報(例えば、予め製造時に決められた製造番号)を格納する。
相手ボード識別情報記憶部(2)3302は、インタフェース信号250で前回障害が発生したときの相手ボードであるボード(1)200のボード識別情報を格納する。
障害通知信号(1)261、読出指示信号(1)270、書込指示信号(1)271、書込データ信号(1)280、及び読出データ信号(1)290は、診断プロセッサ100とボード(1)200間を接続する信号線である。
また、障害通知信号(2)361、読出指示信号(2)370、書込指示信号(2)371、書込データ信号(2)380、及び読出データ信号(2)390は、診断プロセッサ100とボード(2)300間を接続する信号線である。
障害検出処理部(1)210は、インタフェース信号350での障害を検出したときに、障害通知信号(1)261で診断プロセッサ100へ障害を検出した旨の通知を行う。
診断プロセッサ100は、インタフェース信号350で今回障害が発生したときに、相手ボード識別情報をボード(2)300の自ボード識別情報記憶部(2)3303から読み出すために、読出指示信号(2)370をボード(2)300へ出力する。
ボード(2)300の障害診断処理部(2)320は、今回障害が発生したときの相手ボード識別情報となる自ボード識別情報記憶部(2)3303内のボード(2)300の自ボード識別情報を読み出して、診断プロセッサ100へ読出データ信号(2)390で
出力する。
次に、診断プロセッサ100は、ボード(1)200の相手ボード識別情報記憶部(1)2302から前回障害発生時相手ボード識別情報を読み出す。
診断プロセッサ100は、今回障害が発生したときの相手ボード識別情報と前回障害発生時相手ボード識別情報との比較結果に基づいて、被疑ボードの指摘を行う。
尚、診断プロセッサ100は、次回障害が発生したときの対応のために、今回障害が発生したときの相手ボード識別情報をボード(1)200の相手ボード識別情報記憶部(1)2302に書き込むために、書込指示信号(1)271と書込データ信号(1)280
をボード(1)200へ出力する。
ボード(1)200の障害診断処理部(1)220は、今回障害が発生したときの相手ボード識別情報をボード(1)200の相手ボード識別情報記憶部(1)2302に書き込む。
尚、ボード(1)200とボード(2)300間のインタフェース信号の障害処理は、1対1の関係であり、ボード(1)200と、別のボード、例えば、ボード(3)とのインタフェース信号の障害処理については、ここでは記載していないが、1対1のそれぞれの関係で処理される。
図3は、診断プロセッサ100のボード識別情報処理部110、及び被疑ボード指摘処理部120の構成図である。
ボード識別情報処理部110は、ボード(1)200を制御するボード処理部(1)1111、ボード(2)300を制御するボード処理部(2)1112、及び診断処理部1150を備えている。
尚、各処理部は、ハードウェアで実現してもよいし、ソフトウェアで実現してもよい。
ボード処理部(1)1111は、ボード(1)200の自ボード識別情報記憶部(1)2303にボード(1)200の自ボード識別情報を書き込むための書込指示信号(1)271をボード(1)200へ出力する。ボード処理部(2)1112は、同様にボード(2)300に対する処理部である。
ボード処理部(1)1111は、ボード(1)200の相手ボード識別情報記憶部(1)2302に、今回障害発生時の相手ボード情報であるボード(2)300の自ボード識別情報を書き込むための書込指示信号(1)271をボード(1)200へ出力する。ボード処理部(2)1112は、同様にボード(2)300に対する処理部である。
また、被疑ボード指摘処理部120は、診断プログラム1210、ボード故障率入力処理部1220(ハードウェア交換単位入力処理部の1例)、ボード(1)故障率記憶部1250、及びボード(2)故障率記憶部1260から構成されている。
ボード故障率入力処理部1220は、予め算出されたインタフェース信号350の送信側回路のボード(2)故障率(例えば、FIT数)と受信側回路のボード(1)故障率を外部から入力し、それぞれボード(1)故障率記憶部1250、ボード(2)故障率記憶部1260に格納する。
尚、ボード(1)故障率、ボード(2)故障率は、被疑ボード指摘処理部120の内部で算出してもよい。
診断処理部1150は、診断処理を実行するためのCPU(中央処理装置)、診断モードの設定、診断クロックの制御等診断プロセッサ100全体の制御を行う。
尚、ボード故障率算出処理部1220は、ハードウェアで実現してもよいし、ソフトウェアで実現してもよい。
図4は、本発明のボード(1)200の障害診断処理部(1)220の構成図である。
障害診断処理部(1)220は、ボード処理部(1)2211、及び診断処理部(1)2241から構成されている。
尚、各処理部は、ハードウェアで実現してもよいし、ソフトウェアで実現してもよい。
ボード処理部(1)2211は、ボード処理部(1)1111からの書込指示信号(1)271を受けて、自ボード識別情報記憶部(1)2303に自ボード識別情報を書き込む。
ボード処理部(1)2211は、ボード処理部(1)1111からの読出指示信号(1)270を受信する。この後、ボード処理部(1)2211は、障害情報記憶部(1)2301、相手ボード識別情報記憶部(1)2302、及び自ボード識別情報記憶部(1)2303から障害情報、ボード識別情報(以下、自ボード識別情報と相手ボード識別情報をボード識別情報とする)を読み出し、診断プロセッサ100へ出力する。
ボード処理部(1)2211は、ボード処理部(1)1111からの書込指示信号(1)271、書込データ信号(1)280を受けて、相手ボード識別情報記憶部(1)2302、及び自ボード識別情報記憶部(1)2303にボード識別情報を書き込む。
診断処理部(1)2241は、診断処理を実行するためのCPU(中央処理装置)を含み、診断モードの設定、診断クロックの制御等、障害診断処理部(1)220全体の制御を行う。
図5は、本発明のボード(2)300の障害診断処理部(2)320の構成図である。
障害診断処理部(2)320は、ボード処理部(2)3212、及び診断処理部(2)3242から構成されている。
各処理部の機能は、障害診断処理部(1)220と同様である。
図7は、本発明のボード(1)200の相手ボード識別情報記憶部(1)2302内の前回障害発生時相手ボード識別情報の1例を示す図である。
相手ボード識別情報記憶部(1)2302は、1例として、前回障害発生時相手ボード識別情報であるボード(2)300の製造番号X0Y0Z0を格納している。
次に、以上のような構成の診断システム600の動作について説明する。
図8、図9、図10は、それぞれ、本発明の第2の実施の形態である診断システム600の動作を示すフローチャート(1/3)、フローチャート(2/3)、フローチャート(3/3)である。
図8、図9、図10を参照すると、まず、診断プロセッサ100のボード処理部(1)1111は、ボード(1)200の自ボード識別情報(製造番号)を書き込むための書込指示信号(1)271、書込データ信号(1)280をボード(1)200へ出力する(ステップS110)。
ボード(1)200のボード処理部(1)2211は、診断プロセッサ100の書込指示信号(1)271、書込データ信号(1)280を受けて、自ボード識別情報を自ボード識別情報記憶部(1)2303に書き込む(ステップS210)。
次に、診断プロセッサ100のボード処理部(2)1112は、ボード(2)300の自ボード識別情報の書込指示信号(2)371、及び書込データ信号(2)380をボード(2)300へ出力する(ステップS111)。
ボード(2)300のボード処理部(2)3212は、診断プロセッサ100の書込指示信号(2)371、書込データ信号(2)380を受けて、自ボード識別情報を自ボード識別情報記憶部(2)3303に書き込む(ステップS310)。
次に、ボード故障率入力処理部1220は、予め算出されたインタフェース信号350の送信側回路のボード(2)故障率と受信側回路のボード(1)故障率を外部から入力し、それぞれボード(2)故障率記憶部1260、ボード(1)故障率記憶部1250に格納する(事前に格納してもよい)(ステップS112)。
次に、ボード(1)200の障害検出処理部(1)210は、インタフェース信号350の障害を検出したか否かを判断する(ステップS211)。
障害検出処理部(1)210は、インタフェース信号350の障害を検出したとき(ステップS211/YES)、障害通知信号(1)261で、障害が発生した旨の通知を診断プロセッサ100へ送信する(ステップS212)。
また、障害検出処理部(1)210は、インタフェース信号350の障害を検出していないときは(ステップS211/NO)、ステップS211を繰り返す。
次に、ボード(1)200の障害検出処理部(1)210は、障害情報信号(1)260に示されている障害情報を障害情報記憶部(1)2301に書き込む(ステップS213)。
また、診断プロセッサ100のボード処理部(1)1111は、障害通知信号(1)261を受信する(ステップS113)。
次に、ボード処理部(1)1111は、障害情報、ボード識別情報についての読出指示信号(1)270をボード(1)200へ出力する(ステップS114)。
ボード(1)200のボード処理部(1)2211は、診断プロセッサ100の読出指示信号(1)270を受けて、前回障害発生時相手ボード識別情報を相手ボード識別情報格納部(1)2302から読み出し、読出データ信号(1)290で、診断プロセッサ100へ出力する(ステップS214)。
ボード処理部(2)1112は、障害情報、ボード識別情報についての読出指示信号(2)370をボード(2)300へ出力する(ステップS115)。
ボード(2)300のボード処理部(2)3212は、診断プロセッサ100の読出指示信号(2)370を受けて、今回障害発生時相手ボード識別情報である自ボード識別情報を自ボード識別情報記憶部(2)3303から読み出し、読出データ信号(2)390で、診断プロセッサ100へ出力する(ステップS311)。
次に、診断プロセッサ100のボード処理部(1)1111は、次回障害が発生したときの対応のために、相手ボード識別情報の書き込みについての書込指示信号(1)271、書込データ信号(1)280をボード(1)200へ出力する(ステップS120)。
ボード(1)200のボード処理部(1)2211は、ボード(2)300の識別情報を相手ボード識別情報記憶部(1)2302に書き込む(ステップS215)。
内容は、図7を参照のこと。
次に、診断プロセッサ100の診断処理部1150は、診断プログラム1210を起動する(ステップS121)。
また、診断処理部1150は、ステップS214、ステップS311で収集したボード(1)200の障害情報、今回障害発生時相手ボード識別情報、前回障害発生時相手ボード識別情報、及びボード故障率情報を診断プログラム1210へ渡す(ステップS122)。
診断プログラム1210は、障害情報を参照して、ボード(2)300からボード(1)200へのインタフェース信号350についてボード(1)200で障害を検出したことを認識する(ステップS1220)。
次に、相手ボード識別情報記憶部(1)2302に、前回障害発生時相手ボード識別情報が格納されていたか否かを判断する(ステップS1221)。
前回障害発生時相手ボード識別情報が格納されていなかったとき(S1221/NO)、診断プログラム1210は、各ボードの故障比率で被疑ボードの割合を特定する(ステップS1223)。
例えば、ボード(1)200、ボード(2)300の故障率の比率が10%:90%のときに、被疑ボードの割合を10%:90%とする。
また、前回障害発生時相手ボード識別情報が格納されていたとき(S1221/YES)、前回障害発生時相手ボード識別情報と今回障害発生時相手ボード識別情報とが一致しているか否かを判断する(ステップS1222)。
前回障害発生時相手ボード識別情報と今回障害発生時相手ボード識別情報とが一致しているとき(ステップS1222/YES)、診断プログラム1210は、各ボードの故障比率で被疑ボードの割合を特定する(ステップS1224)。
例えば、ボード(1)200、ボード(2)300の故障率の比率が10%:90%のときに、被疑ボードの割合を10%:90%とする。
一方、前回障害発生時相手ボード識別情報と今回障害発生時相手ボード識別情報とが一致していなかったとき(ステップS1222/NO)、診断プログラム1210は、前回障害発生時相手ボード識別情報(製造番号)と今回障害発生時相手ボード識別情報(製造番号)とが一致していないので、ボード名が同一でも別のボードが実装されていると判断する。
また、診断プログラム1210は、被疑ボードとしてボード(1)200である割合を高くする必要があると判断する。
この点を考慮して、診断プログラム1210は、以下のように、被疑ボードの割合を特定する(ステップS1225)。
ボード(1)200の被疑ボードの割合=ボード(1)200の故障比率+ボード(1)200の故障比率×0.9。
ボード(2)300の被疑ボードの割合=ボード(2)300の故障比率−ボード(1)200の故障比率×0.9。
例えば、ボード(1)200、ボード(2)300の故障率の比率が10%:90%のとき、
ボード(1)200の被疑ボードの割合=19%(10%+10%×0.9)。
ボード(2)300の被疑ボードの割合=81%(90%−10%×0.9)とする。
尚、本実施例では、診断プログラム1210は、被疑ボードの割合を各ボードの故障比率にボード(1)200の故障比率×0.9を加減算しているが、ボード(2)300の故障比率×0.9を加減算してしてもよい。また、0.9ではなく適切な値を用いてもよい。
また、診断プログラム1210は、被疑ボードの割合を各ボードの故障比率を用いずに、
ボード(1)200の被疑ボードの割合=所定の比率A%(例えば、90%)。
ボード(2)300の被疑ボードの割合=100%−A%(例えば、10%) としてもよい。
以上のように、本発明の第2の実施の形態である診断システム600の効果は、ボード間インタフェース信号で障害が発生したときに、被疑ボードを高い精度で指摘できることである。
その理由は、ボード間インタフェース信号で障害が発生したときに、相手ボードの識別情報をボード内の不揮発性記憶部に保存し、過去に障害が発生したときの相手ボードの識別情報と今回障害が発生したときの相手ボードの識別情報の比較結果、各ボードの障害比率に基づいて、被疑ボードを指摘するような構成を採用したためである。
また、本発明の第2の実施の形態である診断システム600の別の効果は、障害の再現調査などで複数ボードの組み合わせを試したり、ボードを搭載する装置を換える場合でも、人手で情報を管理することなく容易に高精度な被疑ボードを指摘できる。
その理由は、ボード間信号で前回障害が発生したときに
相手ボード識別情報を自ボード内の不揮発性記憶部に格納しているので、ボードを交換する場合でもボード自体に情報を持ちまわせるような構成を採用したためである。
次に、本発明の第3の実施の形態について図面を参照して説明する。
図6は、本発明の第3の実施の形態である診断システム700の構成図である。
本発明の第2の実施の形態である診断システム600との構成上の違いは、相手ボード識別情報記憶部(11)2306、相手ボード識別情報記憶部(1n)2305、相手ボード識別情報記憶部(21)3306、及び相手ボード識別情報記憶部(2n)3305である。
これらの記憶部は、複数のボード間インタフェース信号や障害の複数の種別毎に、過去(例えば、前回、前々回)の障害発生時の相手先ボード識別情報を保持する。
診断プログラム1210は、複数のボード間インタフェース信号や障害の複数の種別毎に、今回障害発生時と過去(前回、前々等)の障害発生時の履歴情報を参照して、被疑ボードの指摘を行う。
また、今回障害発生時と前回、前々回障害発生時の履歴情報を参照して、被疑ボードの割合を算出する処理は、今回障害発生時相手ボード識別情報が、前回障害発生時相手ボード識別情報と異なり、且つ、前々回障害発生時相手ボード識別情報とも異なる場合に、診断プロセッサ100は、被疑ボードとしてボード(1)200である割合をさらに高くする必要があると判断する。
例えば、
ボード(1)200の被疑ボードの割合=ボード(1)200の故障比率+ボード(1)200の故障比率×0.95。
ボード(2)300の被疑ボードの割合=ボード(2)300の故障比率−ボード(1)200の故障比率×0.95としてもよい。
以上のように、本発明の第3の実施の形態である診断システム700の効果は、複数のボード間インタフェース信号や障害の複数の種別毎に、より高精度な障害被疑ボード指摘ができることである。
その理由は、ボード間インタフェース信号で障害が発生したときに、複数のボード間インタフェース信号や障害の複数の種別毎に、相手ボードの識別情報をボード内の不揮発性記憶部に保存し、今回障害発生時と過去(前回、前々回等)障害発生時の履歴情報を参照して、被疑ボードを指摘するような構成を採用したためである。
本発明の第1の実施の形態である診断プロセッサ100の構成図である。 本発明の第2の実施の形態である診断システム600の構成図である。 本発明の診断プロセッサ100のボード識別情報処理部110、及び被疑ボード指摘処理部120の構成図である。 本発明のボード(1)200の障害診断処理部(1)220の構成図である。 本発明のボード(2)300の障害診断処理部(2)320の構成図である。 本発明の第3の実施の形態である診断システム700の構成図である。 本発明の相手ボード識別情報記憶部(1)2302内の前回障害発生時相手ボード識別情報の1例を示す図である。 本発明の第2の実施の形態である診断システム600の動作を示すフローチャート(1/3)である。 本発明の第2の実施の形態である診断システム600の動作を示すフローチャート(2/3)である。 本発明の第2の実施の形態である診断システム600の動作を示すフローチャート(3/3)である。
符号の説明
100 診断プロセッサ
110 ボード識別情報処理部
120 被疑ボード指摘処理部
130 ハードウェア交換単位識別情報処理部
140 被疑ハードウェア交換単位指摘処理部
200 ボード(1)
210 障害検出処理部(1)
220 障害診断処理部(1)
230 不揮発性記憶部(1)
250 インタフェース信号
260 障害情報信号(1)
261 障害通知信号(1)
270 読出指示信号(1)
271 書込指示信号(1)
280 書込データ信号(1)
290 読出データ信号(1)
300 ボード(2)
310 障害検出処理部(2)
320 障害診断処理部(2)
330 不揮発性記憶部(2)
350 インタフェース信号
360 障害情報信号(2)
361 障害通知信号(2)
370 読出指示信号(2)
371 書込指示信号(2)
380 書込データ信号(2)
390 読出データ信号(2)
600 診断システム
700 診断システム
1111 ボード処理部(1)
1112 ボード処理部(2)
1150 診断処理部
1210 診断プログラム
1220 ボード故障率入力処理部
1250 ボード(1)故障率記憶部
1260 ボード(2)故障率記憶部
2211 ボード処理部(1)
2241 診断処理部(1)
2301 障害情報記憶部(1)
2302 相手ボード識別情報記憶部(1)
2303 自ボード識別情報記憶部(1)
2305 相手ボード識別情報記憶部(1n)
2306 相手ボード識別情報記憶部(11)
3212 ボード処理部(2)
3242 診断処理部(2)
3301 障害情報記憶部(2)
3302 相手ボード識別情報記憶部(2)
3303 自ボード識別情報記憶部(2)
3305 相手ボード識別情報記憶部(2n)
3306 相手ボード識別情報記憶部(21)

Claims (15)

  1. ハードウェア交換単位と相手ハードウェア交換単位間のインタフェース信号で障害が発生したときに、前記相手ハードウェア交換単位の識別情報を前記ハードウェア交換単位内の不揮発性記憶部に書き込むハードウェア交換単位識別情報処理部と、過去に障害が発生したときの前記相手ハードウェア交換単位の識別情報と今回障害が発生したときの前記相手ハードウェア交換単位の識別情報との比較結果に基づいて、被疑ハードウェア交換単位を指摘する被疑ハードウェア交換単位指摘処理部と、を備えることを特徴とする診断プロセッサ。
  2. 前記相手ハードウェア交換単位の識別情報が前記相手ハードウェア交換単位の製造番号であることを特徴とする請求項1記載の診断プロセッサ。
  3. 前記被疑ハードウェア交換単位指摘処理部は、予め算出された前記ハードウェア交換単位内の前記インタフェース信号の受信側回路の故障率、及び前記相手ハードウェア交換単位内の前記インタフェース信号の送信側回路の故障率を外部から入力するハードウェア交換単位故障率入力処理部と、過去に障害が発生したときの前記相手ハードウェア交換単位の前記識別情報、今回障害が発生したときの前記相手ハードウェア交換単位の前記識別情報、前記ハードウェア交換単位の故障率、及び前記相手ハードウェア交換単位の故障率に基づいて、被疑ハードウェア交換単位を指摘する診断プログラムと、を備えることを特徴とする請求項1または請求項2記載の診断プロセッサ。
  4. 前記診断プログラムは、前記過去に障害が発生したときの前記相手ハードウェア交換単位の前記識別情報と前記今回障害が発生したときの前記相手ハードウェア交換単位の前記識別情報を比較し、一致しているときは前記ハードウェア交換単位の故障率、及び前記相手ハードウェア交換単位の故障率に基づいて、被疑ハードウェア交換単位を指摘し、一致していないときは、前記ハードウェア交換単位の故障率に所定値を乗算した値を前記ハードウェア交換単位の故障率に加算した値、及び前記相手ハードウェア交換単位の故障率に前記ハードウェア交換単位の故障率に前記所定値を乗算した値を減算した値に基づいて、被疑ハードウェア交換単位を指摘することを特徴とする請求項3記載の診断プロセッサ。
  5. 前記ハードウェア交換単位は、前記相手ハードウェア交換単位間の前記インタフェース信号での前記障害を検出する障害検出処理部と、前記障害が検出されたときに、前記診断プロセッサにより読み出された前記相手ハードウェア交換単位の識別情報を前記不揮発記憶部に書き込むハードウェア交換単位処理部を備え、前記ハードウェア交換単位、前記相手ハードウェア交換単位、及び請求項1乃至請求項4のいずれかに記載の診断プロセッサを含むことを特徴とする診断システム。
  6. 前記ハードウェア交換単位処理部は、自身の識別番号を予め前記不揮発記憶部に書き込むことを特徴とする請求項5記載の診断システム。
  7. 前記障害が発生したときに、複数の前記インタフェース信号や前記障害の種別毎に前記相手ハードウェア交換単位の識別情報を前記ハードウェア交換単位内の前記不揮発性記憶部に書き込むことを特徴とする請求項5または請求項6記載の診断システム。
  8. ハードウェア交換単位と相手ハードウェア交換単位間のインタフェース信号で障害が発生したときに、被疑ハードウェア交換単位を指摘する診断方法であって、前記障害が発生したときに、前記相手ハードウェア交換単位の識別情報を前記ハードウェア交換単位内の不揮発性記憶部に書き込むハードウェア交換単位識別情報処理ステップと、過去に障害が発生したときの前記相手ハードウェア交換単位の識別情報と今回障害が発生したときの前記相手ハードウェア交換単位の識別情報の比較結果に基づいて、被疑ハードウェア交換単位を指摘する被疑ハードウェア交換単位指摘処理ステップと、を含むことを特徴とする診断方法。
  9. 前記相手ハードウェア交換単位の前記識別情報が前記相手ハードウェア交換単位の製造番号であることを特徴とする請求項8記載の診断方法。
  10. 前記被疑ハードウェア交換単位指摘処理ステップは、予め算出された前記ハードウェア交換単位内の前記インタフェース信号の受信側回路の故障率、及び前記相手ハードウェア交換単位内の前記インタフェース信号の送信側回路の故障率を外部から入力するハードウェア交換単位故障率入力処理ステップと、過去に障害が発生したときの前記相手ハードウェア交換単位の前記識別情報、今回障害が発生したときの前記相手ハードウェア交換単位の前記識別情報、前記ハードウェア交換単位の故障率、及び前記相手ハードウェア交換単位の故障率に基づいて、前記被疑ハードウェア交換単位を指摘するステップと、を含むことを特徴とする請求項8または請求項9記載の診断方法。
  11. 前記被疑ハードウェア交換単位を指摘するステップは、前記過去に障害が発生したときの前記相手ハードウェア交換単位の前記識別情報と前記今回障害が発生したときの前記相手ハードウェア交換単位の前記識別情報を比較し、一致しているときは前記ハードウェア交換単位の故障率、及び前記相手ハードウェア交換単位の故障率に基づいて、被疑ハードウェア交換単位を指摘し、一致していないときは、前記ハードウェア交換単位の故障率に所定値を乗算した値を前記ハードウェア交換単位の故障率に加算した値、及び前記相手ハードウェア交換単位の故障率に前記ハードウェア交換単位の故障率に前記所定値を乗算した値を減算した値に基づいて、被疑ハードウェア交換単位を指摘することを特徴とする請求項10記載の診断方法。
  12. ハードウェア交換単位と相手ハードウェア交換単位間のインタフェース信号で障害が発生したときに、被疑ハードウェア交換単位を指摘するプログラムであって、前記障害が発生したときに、前記相手ハードウェア交換単位の識別情報を前記ハードウェア交換単位内の不揮発性記憶部に書き込むハードウェア交換単位識別情報処理と、過去に障害が発生したときの前記相手ハードウェア交換単位の識別情報と今回障害が発生したときの前記相手ハードウェア交換単位の前記識別情報の比較結果に基づいて、被疑ハードウェア交換単位を指摘する被疑ハードウェア交換単位指摘処理と、をコンピュータに実行させることを特徴とするプログラム。
  13. 前記相手ハードウェア交換単位の前記識別情報が前記相手ハードウェア交換単位の製造番号であることを特徴とする請求項12記載のプログラム。
  14. 前記被疑ハードウェア交換単位指摘処理は、予め算出された前記ハードウェア交換単位内の前記インタフェース信号の受信側回路の故障率、及び前記相手ハードウェア交換単位内の前記インタフェース信号の送信側回路の故障率を外部から入力するハードウェア交換単位故障率入力処理と、過去に障害が発生したときの前記相手ハードウェア交換単位の前記識別情報、今回障害が発生したときの前記相手ハードウェア交換単位の前記識別情報、前記ハードウェア交換単位の故障率、及び前記相手ハードウェア交換単位の故障率に基づいて、前記被疑ハードウェア交換単位を指摘する処理と、を含むことを特徴とする請求項12または請求項13記載のプログラム。
  15. 前記被疑ハードウェア交換単位を指摘する処理は、前記過去に障害が発生したときの前記相手ハードウェア交換単位の前記識別情報と前記今回障害が発生したときの前記相手ハードウェア交換単位の前記識別情報を比較し、一致しているときは前記ハードウェア交換単位の故障率、及び前記相手ハードウェア交換単位の故障率に基づいて、被疑ハードウェア交換単位を指摘し、一致していないときは、前記ハードウェア交換単位の故障率に所定値を乗算した値を前記ハードウェア交換単位の故障率に加算した値、及び前記相手ハードウェア交換単位の故障率に前記ハードウェア交換単位の故障率に前記所定値を乗算した値を減算した値に基づいて、被疑ハードウェア交換単位を指摘することを特徴とする請求項14記載のプログラム


JP2008132812A 2008-05-21 2008-05-21 診断システム、診断プロセッサ、診断方法、及びプログラム Active JP5192903B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008132812A JP5192903B2 (ja) 2008-05-21 2008-05-21 診断システム、診断プロセッサ、診断方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008132812A JP5192903B2 (ja) 2008-05-21 2008-05-21 診断システム、診断プロセッサ、診断方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2009282663A JP2009282663A (ja) 2009-12-03
JP5192903B2 true JP5192903B2 (ja) 2013-05-08

Family

ID=41453078

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008132812A Active JP5192903B2 (ja) 2008-05-21 2008-05-21 診断システム、診断プロセッサ、診断方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5192903B2 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2828017B2 (ja) * 1996-04-12 1998-11-25 日本電気株式会社 故障評定システム
JP2002108655A (ja) * 2000-09-27 2002-04-12 Nec Corp 故障情報管理方法および故障情報管理機能付き情報処理装置
JP4109447B2 (ja) * 2001-12-10 2008-07-02 富士通株式会社 被疑確率生成方法,被疑確率生成プログラム及びサービスプロセッサ
JP4356634B2 (ja) * 2005-03-23 2009-11-04 日本電気株式会社 故障診断回路とこの故障診断回路を備えた情報処理装置、故障診断システム及び故障診断プログラム
JP2006268515A (ja) * 2005-03-24 2006-10-05 Nec Corp Pciカ−ド障害管理方式

Also Published As

Publication number Publication date
JP2009282663A (ja) 2009-12-03

Similar Documents

Publication Publication Date Title
US6829729B2 (en) Method and system for fault isolation methodology for I/O unrecoverable, uncorrectable error
CN111414268B (zh) 故障处理方法、装置及服务器
US6845469B2 (en) Method for managing an uncorrectable, unrecoverable data error (UE) as the UE passes through a plurality of devices in a central electronics complex
CN102928690A (zh) 用于电子器件的异常检测方法
EP4270198A1 (en) Fault diagnosis circuit, method and apparatus, and computer-readable storage medium
US8527815B2 (en) Method for detecting a failure in a SAS/SATA topology
US10664339B2 (en) Information processing apparatus, information processing system, and information processing apparatus control method
JP5192903B2 (ja) 診断システム、診断プロセッサ、診断方法、及びプログラム
JP2008084080A (ja) 障害情報格納システム、サービスプロセッサ、障害情報格納方法、及びプログラム
JP2010102565A (ja) 二重化制御装置
US8151176B2 (en) CPU instruction RAM parity error procedure
JP5638045B2 (ja) 着脱可能なフィルタ回路を有する数値制御システム
US20060190759A1 (en) Processing apparatus
JP2005127862A (ja) 信号処理装置
JP6837769B2 (ja) 障害内容特定装置、障害内容特定方法、及び、障害内容特定プログラム
US20240280436A1 (en) Visualization device, visualization method, visualization program
JP7371260B2 (ja) 電子機器、及び接続検査方法
JP5561790B2 (ja) ハードウェア障害被疑特定装置、ハードウェア障害被疑特定方法、及びプログラム
US20210165706A1 (en) Information processing apparatus and method for collecting communication cable log
US20240289455A1 (en) Method and apparatus for detecting anomaly status based on system screen
JP6272600B2 (ja) プロセス監視装置、プロセス監視方法及びプロセス監視プログラム
JP2006280029A (ja) ケーブル障害特定回路
CN117711475A (zh) 存储单元的故障检测电路及方法、功能芯片
JP2013205857A (ja) 障害処理方法、情報処理装置および障害処理プログラム
JP3962956B2 (ja) 情報処理装置および情報処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110411

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20110712

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121010

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121016

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130201

R150 Certificate of patent or registration of utility model

Ref document number: 5192903

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160208

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350