JP2013168066A - 情報処理装置および故障診断方法 - Google Patents

情報処理装置および故障診断方法 Download PDF

Info

Publication number
JP2013168066A
JP2013168066A JP2012031691A JP2012031691A JP2013168066A JP 2013168066 A JP2013168066 A JP 2013168066A JP 2012031691 A JP2012031691 A JP 2012031691A JP 2012031691 A JP2012031691 A JP 2012031691A JP 2013168066 A JP2013168066 A JP 2013168066A
Authority
JP
Japan
Prior art keywords
controller
time
failure
occurred
log data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012031691A
Other languages
English (en)
Other versions
JP5867962B2 (ja
Inventor
Yuji Saito
裕治 斎藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Computertechno Ltd
Original Assignee
NEC Computertechno Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Computertechno Ltd filed Critical NEC Computertechno Ltd
Priority to JP2012031691A priority Critical patent/JP5867962B2/ja
Publication of JP2013168066A publication Critical patent/JP2013168066A/ja
Application granted granted Critical
Publication of JP5867962B2 publication Critical patent/JP5867962B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】複数のコントローラの間でエラーが伝播しうる場合に、エラーの発生源であるコントローラを簡便な構成に基づいて特定できるようにすること。
【解決手段】情報処理装置は、時刻を計時するクロック部と、第1の機能を制御するとともに、クロック部により計時された時刻に基づいて自身における障害の発生時刻を第1の時刻として保持する第1のコントローラと、第2の機能を制御するとともに、クロック部により計時された時刻に基づいて自身における障害の発生時刻を第2の時刻として記憶する第2のコントローラと、第1のコントローラと第2のコントローラとの間で障害が伝播し得る場合に、第1のコントローラが保持する第1の時刻と第2のコントローラが保持する第2の時刻を比較して、第1のコントローラおよび第2のコントローラのうちのいずれにおいて障害が生じたのかを判定する診断部と、を備える。
【選択図】図1

Description

本発明は、故障診断機能を有する情報処理装置、および、情報処理装置の故障診断方法に関する。
情報処理装置は、各種の情報処理機能(例えば、表示機能、記憶機能、入出力機能等)をそれぞれ制御する複数のコントローラ(例えば、ディスプレイコントローラ、メモリコントローラ、ハードディスクコントローラ、入出力コントローラ等)を備えている。これらのコントローラは、自身において障害が発生した場合に、エラーが生じたことを示すログを出力する。情報処理装置は、一般に、障害発生時に故障箇所を解析して交換部品を指摘する故障解析機能を備えている。情報処理装置は、障害発生毎に各コントローラのログを採取して、採取したログに基づいて、いずれのコントローラにおいて障害が発生しているのかを解析し、障害が発生しているすべてのコントローラを交換すべき部品として指摘する。
具体的には、各コントローラは、障害発生時に診断プロセッサに障害発生を通知し、診断プロセッサは各コントローラのログを採取してログエリアに格納する。故障箇所を解析する故障解析プログラムは、採取した各コントローラのログを解析して、障害を検知しているすべてのコントローラを保守交換対象として指摘する。
例えば、特許文献1には、コンピュータ・システムの構成要素の間でエラーが伝播する場合に、エラーの1次発生源となった構成要素を識別する方法が記載されている。
特開2004−326775号公報
以下の分析は、本発明者によってなされたものである。
上述の情報処理装置によると、障害が発生したコントローラから障害が発生していない別のコントローラに障害が伝播するような場合、実際には障害の発生していないコントローラも副次的に障害検知状態となり、交換すべき部品とされてしまうという問題がある。すなわち、コントローラ間で障害が伝播した場合には、障害が発生してないコントローラでも副次的に障害検知状態となり、保守交換の被疑対象として指摘されることで、交換する必要のないコントローラまで交換することになり、交換すべき部品点数が増大するという問題がある。
また、特許文献1に記載された方法によると、コンピュータ・システムの構成要素ごとにカウンタを設ける必要があるため、機器の構成が冗長となり、複数のカウンタ間で同期をとる必要も生じる。
そこで、情報処理装置に含まれる複数のコントローラの間でエラーが伝播しうる場合に、エラーの発生源であるコントローラを簡便な構成に基づいて特定できるようにすることが課題となる。
本発明の第1の視点に係る情報処理装置は、
時刻を計時するクロック部と、
第1の機能を制御するとともに、前記クロック部により計時された時刻に基づいて自身における障害の発生時刻を第1の時刻として保持する第1のコントローラと、
第2の機能を制御するとともに、前記クロック部により計時された時刻に基づいて自身における障害の発生時刻を第2の時刻として保持する第2のコントローラと、
前記第1のコントローラと前記第2のコントローラとの間で一方のコントローラにおいて生じた障害が他方のコントローラにも伝播し得る場合に、前記第1のコントローラが保持する前記第1の時刻と前記第2のコントローラが保持する前記第2の時刻を比較して、前記第1のコントローラおよび前記第2のコントローラのうちのいずれにおいて障害が生じたのかを判定する診断部と、を備える。
本発明の第2の視点に係る故障診断方法は、
第1の機能を制御する第1のコントローラが、クロック部により計時された時刻に基づいて自身における障害の発生時刻を第1の時刻として保持する工程と、
第2の機能を制御する第2のコントローラが、前記クロック部により計時された時刻に基づいて自身における障害の発生時刻を第2の時刻として保持する工程と、
前記第1のコントローラと前記第2のコントローラとの間で一方のコントローラにおいて生じた障害が他方のコントローラにも伝播し得る場合に、診断部が、前記第1のコントローラが保持する前記第1の時刻と前記第2のコントローラが保持する前記第2の時刻を比較して、前記第1のコントローラおよび前記第2のコントローラのうちのいずれにおいて障害が生じたのかを判定する工程と、を含む。
本発明に係る情報処理装置および故障診断方法によると、情報処理装置に含まれる複数のコントローラの間でエラーが伝播しうる場合に、エラーの発生源であるコントローラを簡便な構成に基づいて特定することが可能となる。
第1の実施形態に係る情報処理装置の構成を一例として示すブロック図である。 第2の実施形態に係る情報処理装置の構成を一例として示すブロック図である。 第2の実施形態に係る情報処理装置における障害伝播情報データベースの構成を一例として示すテーブルである。
はじめに、本発明の概要について説明する。なお、この概要に付記する図面参照符号は、専ら理解を助けるための例示であり、本発明を図示の態様に限定することを意図するものではない。
以下の説明におけるコントローラは、例えば、表示装置を制御するディスプレイコントローラ、メモリを制御するメモリコントローラ、ハードディスクを制御するハードディスクコントローラ等であってもよい。ただし、コントローラはこれらに限定されるものではない。
図1を参照すると、情報処理装置は、時刻を計時するクロック部(例えば、RTC(Real Time Clock)4)と、第1の機能を制御するとともに、クロック部(4)により計時された時刻に基づいて自身における障害の発生時刻を第1の時刻として保持する第1のコントローラ(1)と、第2の機能を制御するとともに、クロック部(4)により計時された時刻に基づいて自身における障害の発生時刻を第2の時刻として保持する第2のコントローラ(2)と、第1のコントローラ(1)と第2のコントローラ(2)との間で一方のコントローラにおいて生じた障害が他方のコントローラにも伝播し得る場合に、第1のコントローラ(1)が保持する第1の時刻と第2のコントローラ(2)が保持する第2の時刻を比較して、第1のコントローラ(1)および第2のコントローラ(2)のうちのいずれにおいて障害が生じたのかを判定する診断部(3)と、を備える。
ここで、診断部(3)は、第1の時刻が第2の時刻よりも早い場合には、第1のコントローラ(1)において障害が生じたものと判定し、第2の時刻が第1の時刻よりも早い場合には、第2のコントローラ(2)において障害が生じたものと判定することが好ましい。
かかる情報処理装置によると、情報処理装置に含まれる複数のコントローラ(1、2)の間でエラーが伝播しうる場合に、エラーの発生源であるコントローラを簡便な構成に基づいて特定することが可能となる。
また、第1のコントローラ(1)は、自身において生じた障害の内容を示すログ情報と第1の時刻を含む第1のログデータ(202)を生成し、第2のコントローラ(2)は、自身において生じた障害の内容を示すログ情報と第2の時刻を含む第2のログデータ(302)を生成し、診断部(3)は、第1のログデータ(202)に含まれる第1の時刻と第2のログデータ(302)に含まれる第2の時刻を比較して、第1の時刻が第2の時刻よりも早い場合には、第1のログデータ(202)に含まれるログ情報を解析し、第2の時刻が第1の時刻よりも早い場合には、第2のログデータ(302)に含まれるログ情報を解析するようにしてもよい。
また、第1のコントローラ(1)および第2のコントローラ(2)は、それぞれ、第1のログデータ(202)および第2のログデータ(302)を診断部(3)に出力し、診断部(3)は、第1のログデータ(202)および第2のログデータ(302)を保持するようにしてもよい。
このとき、診断部(3)は、障害の発生源に相当するコントローラの生成したログ情報のみを解析して障害を特定することができる。したがって、すべてのログ情報を解析する場合と比較して、素早く故障診断を行うことが可能となる。
図2を参照すると、情報処理装置は、第1のコントローラ(1)と第2のコントローラ(2)との間で、一方のコントローラにおいて生じた障害が他方のコントローラに伝播するか否かを示す情報を保持するデータベース(例えば、障害伝播情報DB6)をさらに備えていてもよい。このとき、診断部(3)は、データベース(6)を参照して、第1のコントローラ(1)および第2のコントローラ(2)の一方において障害が生じたのか、双方において障害が生じたのかを判定するようにしてもよい。具体的には、第1のコントローラ(1)と第2のコントローラ(2)との間で双方向に障害が伝播する場合には、診断部(3)は、第1の時刻および第2の時刻の先後に応じて、第1のコントローラ(1)および第2のコントローラ(2)のいずれか一方において障害が生じたものと判定するようにしてもよい。一方、第1のコントローラ(1)において生じた障害が第2のコントローラ(2)に伝播するものの、第2のコントローラ(2)において生じた障害が第1のコントローラ(1)に伝播しない場合において、第1の時刻が第2の時刻よりも早いときには、診断部(3)は、第1のコントローラ(1)において障害が生じたものと判定し、第2の時刻が第1の時刻よりも早いときには、第1のコントローラ(1)および第2のコントローラ(2)において障害が生じたものと判定するようにしてもよい。
かかる情報処理装置(図2)によると、障害の伝播状況に応じて、図1に示した情報処理装置と比較して、より詳細な故障の診断が可能となる。
図1を参照して情報処理装置の構成および動作の概要について、さらに説明する。図1を参照すると、コントローラ(1、2)は、それぞれ、RTC(Real Time Clock)(4)からの時刻通知(400、401)を入力として、時刻をRTC写し格納部(11、21)に格納する。また、コントローラ(1、2)は、それぞれ、自コントローラの障害を検出した時点で、保持信号(500、600)をRTC写し格納部(11、21)に出力して、RTC写し格納部(11、12)の時刻を保持する。これにより、コントローラ(1、2)は、各コントローラの障害検知時刻を保持する。さらに、コントローラ(1、2)は、それぞれ、診断プロセッサ(30)からのログ採取指示(201、301)の入力を契機として、コントローラのログ情報に加えて、保持しているRTC写し格納部(11、21)の障害検知時刻をログデータ(202、302)として診断プロセッサ(30)に出力する。これにより、各コントローラの障害検知時刻をログから判断することが可能となる。
故障解析プログラム(31)は、故障解析指示信号(102)の入力を契機に、ログ格納部(32)にログ読み出し指示信号(103)を出力してログテータ(104)を入力し、各コントローラのログ解析を行なう。ログ解析を行う際に、障害伝播によって複数のコントローラで障害検知していた場合、全障害を検知しているコントローラの障害検知時刻を比較して、障害検知時間の一番早いコントローラ以外のコントローラの障害検知を無効にする。以上により、故障解析において、最初に障害を検知したコントローラのみを交換部品として特定することが可能となる。
本発明において、さらに、下記の形態が可能である。
[形態1]
上記第1の視点に係る情報処理装置のとおりである。
[形態2]
前記診断部は、前記第1の時刻が前記第2の時刻よりも早い場合には、前記第1のコントローラにおいて障害が生じたものと判定し、前記第2の時刻が前記第1の時刻よりも早い場合には、前記第2のコントローラにおいて障害が生じたものと判定するようにしてもよい。
[形態3]
前記第1のコントローラは、自身において生じた障害の内容を示すログ情報と前記第1の時刻を含む第1のログデータを生成し、
前記第2のコントローラは、自身において生じた障害の内容を示すログ情報と前記第2の時刻を含む第2のログデータを生成し、
前記診断部は、前記第1のログデータに含まれる前記第1の時刻と前記第2のログデータに含まれる前記第2の時刻を比較して、前記第1の時刻が前記第2の時刻よりも早い場合には、前記第1のログデータに含まれるログ情報を解析し、前記第2の時刻が前記第1の時刻よりも早い場合には、前記第2のログデータに含まれるログ情報を解析するようにしてもよい。
[形態4]
前記第1のコントローラおよび前記第2のコントローラは、それぞれ、前記第1のログデータおよび前記第2のログデータを前記診断部に出力し、
前記診断部は、前記第1のログデータおよび前記第2のログデータを保持するようにしてもよい。
[形態5]
上記情報処理装置は、前記第1のコントローラと前記第2のコントローラとの間で、一方のコントローラにおいて生じた障害が他方のコントローラに伝播するか否かを示す情報を保持するデータベースをさらに備えていてもよい。
[形態6]
前記診断部は、前記データベースを参照して、前記第1のコントローラおよび前記第2のコントローラの一方において障害が生じたのか、双方において障害が生じたのかを判定するようにしてもよい。
[形態7]
前記診断部は、前記第1のコントローラと前記第2のコントローラとの間で双方向に障害が伝播する場合には、前記第1の時刻および前記第2の時刻の先後に関わらず、前記第1のコントローラおよび前記第2のコントローラのいずれか一方において障害が生じたものと判定するようにしてもよい。
[形態8]
前記診断部は、前記第1のコントローラにおいて生じた障害が前記第2のコントローラに伝播し、前記第2のコントローラにおいて生じた障害が前記第1のコントローラに伝播しない場合において、前記第1の時刻が前記第2の時刻よりも早いときには、前記第1のコントローラにおいて障害が生じたものと判定し、前記第2の時刻が前記第1の時刻よりも早いときには、前記第1のコントローラおよび前記第2のコントローラにおいて障害が生じたものと判定するようにしてもよい。
[形態9]
上記第2の視点に係る故障診断方法のとおりである。
[形態10]
上記故障診断方法において、前記診断部は、前記第1の時刻が前記第2の時刻よりも早い場合には、前記第1のコントローラにおいて障害が生じたものと判定し、前記第2の時刻が前記第1の時刻よりも早い場合には、前記第2のコントローラにおいて障害が生じたものと判定するようにしてもよい。
[形態11]
上記故障診断方法は、前記第1のコントローラが、自身において生じた障害の内容を示すログ情報と前記第1の時刻を含む第1のログデータを生成する工程と、
前記第2のコントローラが、自身において生じた障害の内容を示すログ情報と前記第2の時刻を含む第2のログデータを生成する工程と、
前記診断部が、前記第1のログデータに含まれる前記第1の時刻と前記第2のログデータに含まれる前記第2の時刻を比較して、前記第1の時刻が前記第2の時刻よりも早い場合には、前記第1のログデータに含まれるログ情報を解析し、前記第2の時刻が前記第1の時刻よりも早い場合には、前記第2のログデータに含まれるログ情報を解析する工程と、を含んでいてもよい。
[形態12]
上記故障診断方法において、前記第1のコントローラおよび前記第2のコントローラは、それぞれ、前記第1のログデータおよび前記第2のログデータを前記診断部に出力し、
前記診断部は、前記第1のログデータおよび前記第2のログデータを保持するようにしてもよい。
[形態13]
上記故障診断方法において、前記診断部は、前記第1のコントローラと前記第2のコントローラとの間で、一方のコントローラにおいて生じた障害が他方のコントローラに伝播するか否かを示す情報を保持するデータベースを参照して、前記第1のコントローラおよび前記第2のコントローラの一方において障害が生じたのか、双方において障害が生じたのかを判定するようにしてもよい。
[形態14]
上記故障診断方法において、前記診断部は、前記第1のコントローラと前記第2のコントローラとの間で双方向に障害が伝播する場合には、前記第1の時刻および前記第2の時刻の先後に関わらず、前記第1のコントローラおよび前記第2のコントローラのいずれか一方において障害が生じたものと判定するようにしてもよい。
[形態15]
上記故障診断方法において、前記診断部は、前記第1のコントローラにおいて生じた障害が前記第2のコントローラに伝播し、前記第2のコントローラにおいて生じた障害が前記第1のコントローラに伝播しない場合において、前記第1の時刻が前記第2の時刻よりも早いときには、前記第1のコントローラにおいて障害が生じたものと判定し、前記第2の時刻が前記第1の時刻よりも早いときには、前記第1のコントローラおよび前記第2のコントローラにおいて障害が生じたものと判定するようにしてもよい。
(実施形態1)
第1の実施形態に係る情報処理装置について、図面を参照して説明する。図1は、本実施形態に係る情報処理装置の構成を一例として示すブロック図である。図1を参照すると、情報処理装置は、コントローラ1、コントローラ2、診断部3およびRTC(Real Time Clock)4を備える。
図1において、一例として、コントローラの個数を2つとしたが、コントローラの個数は2つに限定されない。
コントローラ1は、障害検知部10およびRTC写し格納部11を備える。同様に、コントローラ2は、障害検知部20およびRTC写し格納部21を備える。また、コントローラ1、2は、コントローラ間I/F5で接続されている。
RTC写し格納部11は、RTC(Real Time Clock)4から時刻通知400を入力して時刻を格納する。また、RTC写し格納部11は、障害検知部10からの保持信号500を入力して、自コントローラの障害検知時刻を保持するとともに、時刻通知501を障害検知部10に出力する。
同様に、RTC写し格納部21は、RTC4から時刻通知401を入力して時刻を格納する。また、RTC写し格納部21は、障害検知部20からの保持信号600を入力して、自コントローラの障害検知時刻を保持するとともに、時刻通知601を障害検知部20に出力する。
障害検知部10は、自コントローラで障害検知時に、保持信号500をRTCの写し格納部11に出力し、障害検知時刻である時刻通知501を入力し、障害通知200を診断プロセッサ30に出力する。さらに、障害検知部10は、診断プロセッサ30からのログ採取指示201を入力して、コントローラのログと障害検知時刻を、ログテータ202として診断プロセッサ30に出力する。
同様に、障害検知部20は、自コントローラで障害検知時に、保持信号600をRTCの写し格納部21に出力し、障害検知時刻である時刻通知601を入力し、障害通知300を診断プロセッサ30に出力する。さらに、障害検知部20は、診断プロセッサ30からのログ採取指示301を入力して、コントローラのログと障害検知時刻を、ログテータ302として診断プロセッサ30に出力する。
診断部3は、診断プロセッサ30、ログ格納部32、および、故障解析プログラム31を備える。
診断プロセッサ30は、コントローラ1、2の障害検知部10、20からの障害通知200、300のいずれかを入力した場合、障害検知部10、20にログ採取指示201、301を出力してログデータ202、302を入力し、ログ格納指示信号100とログデータ202、302をログデータ101としてログ格納部32に出力する。さらに、診断プロセッサ30は、故障解析プログラム31に故障解析指示信号102を出力し、故障解析プログラム31の解析結果である故障解析結果通知信号105を入力して、コンソールに故障解析結果700を出力する。
ログ格納部32は、診断プロセッサ30からのログ格納指示信号100と、ログデータ101を入力してログを保持する。また、ログ格納部32は、故障解析プログラム31からのログ読み出し指示信号103を入力し、保持するログデータをログデータ104として故障解析プログラム31に出力する。
故障解析プログラム31は、診断プロセッサ30からの故障解析指示信号102を入力して、ログ読み出し指示信号103をログ格納部32に出力してログデータ104を入力し、ログデータから障害コントローラの解析を行う。さらに、故障解析プログラム31は、複数のコントローラで障害が検知されている場合には、各コントローラのログデータの障害検知時刻を比較して、一番早い時刻を示すコントローラ以外のコントローラにおける障害検知を障害伝播による副次的障害検知と判断し、解析しない。
本実施形態の情報処理装置では、各コントローラにRTC4の時刻の写しを格納して、自コントローラの障害検知時の時刻を保持することで、コントローラの障害検知時刻を正確に把握することができる。また、障害発生時において、診断部3が採取する各コントローラのログに対して、この障害検知時刻を記載する。これにより、障害解析プログラム31は、各コントローラのログ解析時に、障害伝播によって複数コントローラで障害を検知していた場合でも、各コントローラの障害検知時刻を比較することで、障害検知時刻の一番早いコントローラを被疑対象として特定することができる。したがって、本実施形態の情報処理装置によると、交換部品を1つに特定することが可能となる。
次に、コントローラ1が障害を検知して、コントローラ2がコントローラ1の障害伝播によって障害を検知した場合を例として、本実施形態に係る情報処理装置の動作を説明する。
RTC写し格納部11、21は、それぞれ、RTC(Real Time Clock)4から時刻を示す時刻通知400、401を常に入力して時刻を格納するようにしてもよい。また、RTC写し格納部11、21は、それぞれ、障害検知部10、20に時刻を示す時刻通知501、601を常に出力するようにしてもよい。
障害検知部10、20は、それぞれ、自コントローラで障害を検知した場合、保持信号500、600をRTC写し格納部11、21に出力する。RTC写し格納部11、21は、それぞれ、保持信号500、600を入力すると、時刻を障害検知時間として保持(ホールド)する。さらに、障害検知部10、20は、それぞれ、診断プロセッサ30に障害通知200、300を出力する。ここで、最初に障害を検知したコントローラ1のRTC写し格納部11には、コントローラ2のRTC写し格納部21より早い時間が障害検知時間として保持されている。
診断プロセッサ30は、障害通知200、300を入力すると、全コントローラ1、2にログ採取指示201、301を出力する。障害検知部10、20は、それぞれ、ログ採取指示201、301を入力して、自コントローラ1、2のログ及びRTC写し格納部11、21からの時刻通知501、601を入力して障害検知時刻とし、ログデータ202、302として診断プロセッサ30に出力する。
診断プロセッサ30は、ログデータ202、302を入力して、ログ格納部32にログ格納指示信号100を出力し、ログデータ202、302をログデータ101として出力する。ログ格納部32は、ログ格納指示信号100を入力してログデータ101を格納する。次に、診断プロセッサ30は、故障解析プログラム31に故障解析指示信号102を出力する。
故障解析プログラム31は、故障解析指示信号102を入力して、ログ読み出し指示信号103をログ格納部32に出力する。ログ格納部32は、ログ読み出し指示信号103を入力して、ログデータ104を障害解析プログラム21に出力する。
障害解析プログラム21は、ログデータ104を入力して、障害検知しているコントローラ1、2のログを解析する。まず、障害解析プログラム21は、コントローラ1、2のログの障害検知時刻を比較し、コントローラ1の障害検知時刻が早いことを検出して、コントローラ2の障害検知は障害伝播によるものと判断し、コントローラ1のログのみを解析する。次に、障害解析プログラム31は、コントローラ1の障害解析結果を故障解析結果通知信号105として診断プロセッサ30に出力する。
診断プロセッサ30は、故障解析結果通知信号105を故障解析結果700としてコンソールに交換部品を出力する。
以上の動作により、コントローラ1において障害が生じ、コントローラ1のみを保守ないし交換対象として特定することが可能となる。
(実施形態2)
第2の実施形態に係る情報処理装置について、図面を参照して説明する。図2は、本実施形態に係る情報処理装置の構成を一例として示すブロック図である。図2を参照すると、本実施形態の情報処理装置は、第1の実施形態の情報処理装置(図1)と同様に、コントローラ1、コントローラ2、診断部3およびRTC(Real Time Clock)4を備えるとともに、さらに、障害伝播情報データベース(障害伝播情報DB)6を備える。コントローラ1、コントローラ2およびRTC(Real Time Clock)4の構成および動作については、第1の実施形態の情報処理装置と同様であることから、説明を省略する。
障害伝播情報DB6は、あるコントローラにおいて生じた障害が他のコントローラに伝播するか否かを示す情報を保持するデータベースである。本実施形態では、診断部3は、障害伝播情報DB6を参照して、第1のコントローラ1および第2のコントローラ2の一方において障害が生じたのか、双方において障害が生じたのかを判定する。
図3は、障害伝播情報DB6の構成を一例として示すテーブルである。ここでは、一例として、情報処理装置は、4台のコントローラ1〜4を有するものとする。
図3(a)を参照すると、障害伝播情報DB6は、コントローラ1で生じた障害がコントローラ2に伝播し、コントローラ2で生じた障害がコントローラ1、3に伝播し、コントローラ3で生じた障害がコントローラ4に伝播することを示している。すなわち、図3(a)に示す情報が障害伝播情報DB6に格納されている場合には、第1のコントローラ1と第2のコントローラ2との間で双方向に障害が伝播する。
このとき、診断部3は、第1の実施形態の情報処理装置と同様に、第1のコントローラ1が保持する障害発生時刻および第2のコントローラ2が保持する障害発生時刻の先後に応じて、第1のコントローラ1および第2のコントローラ2のいずれか一方において障害が生じたものと判定する。
図3(b)を参照すると、障害伝播情報DB6は、コントローラ1で生じた障害がコントローラ2、4に伝播し、コントローラ2で生じた障害がコントローラ3に伝播し、コントローラ3で生じた障害がコントローラ4に伝播することを示している。すなわち、図3(b)に示す情報が障害伝播情報DB6に格納されている場合には、第1のコントローラ1で生じた障害は第2のコントローラ2に伝播するものの、第2のコントローラ2で生じた障害は第1のコントローラ1には伝播しない。すなわち、第1のコントローラ1と第2のコントローラ2との間では、一方向にのみ障害が伝播する。
このとき、診断部3は、第1のコントローラが保持する障害発生時刻(第1の時刻)および第2のコントローラが保持する障害発生時刻(第2の時刻)の先後に応じて、第1のコントローラ1および第2のコントローラ2の一方において障害が生じたのか、または、双方において障害が生じたのかを判定する。具体的には、第1の時刻が第2の時刻よりも早いときには、診断部3は、第1のコントローラ1において障害が生じたものと判定し、一方、第2の時刻が第1の時刻よりも早いときには、第1のコントローラ1および第2のコントローラ2において障害が生じたものと判定する。
本実施形態の情報処理装置によると、第1の実施形態の情報処理装置(図1)と比較して、コントローラ間の障害の伝播状況に基づいた、より詳細な故障の診断が可能となる。
なお、上記の特許文献の開示を、本書に引用をもって繰り込むものとする。本発明の全開示(請求の範囲を含む)の枠内において、さらにその基本的技術思想に基づいて、実施形態の変更・調整が可能である。また、本発明の請求の範囲の枠内において種々の開示要素(各請求項の各要素、各実施形態の各要素、各図面の各要素等を含む)の多様な組み合わせ、ないし、選択が可能である。すなわち、本発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。
1、2 コントローラ
3 診断部
4 RTC(Real Time Clock)
5 コントローラ間I/F
6 障害伝播情報データベース(障害伝播情報DB)
10、20 障害検知部
11、21 RTC写し格納部
30 診断プロセッサ
31 故障解析プログラム
32 ログ格納部
100 ログ格納指示信号
101 ログデータ
102 故障解析指示信号
103 ログ読み出し指示信号
104 ログデータ
105 故障解析結果通知信号
200、300 障害通知
201、301 ログ採取指示
202、302 ログデータ
400、401 時刻通知
500、600 保持信号
501、601 時刻通知
700 故障解析結果

Claims (10)

  1. 時刻を計時するクロック部と、
    第1の機能を制御するとともに、前記クロック部により計時された時刻に基づいて自身における障害の発生時刻を第1の時刻として保持する第1のコントローラと、
    第2の機能を制御するとともに、前記クロック部により計時された時刻に基づいて自身における障害の発生時刻を第2の時刻として保持する第2のコントローラと、
    前記第1のコントローラと前記第2のコントローラとの間で、一方のコントローラにおいて生じた障害が他方のコントローラにも伝播し得る場合に、前記第1のコントローラが保持する前記第1の時刻と前記第2のコントローラが保持する前記第2の時刻を比較して、前記第1のコントローラおよび前記第2のコントローラのうちのいずれにおいて障害が生じたのかを判定する診断部と、を備えることを特徴とする情報処理装置。
  2. 前記診断部は、前記第1の時刻が前記第2の時刻よりも早い場合には、前記第1のコントローラにおいて障害が生じたものと判定し、前記第2の時刻が前記第1の時刻よりも早い場合には、前記第2のコントローラにおいて障害が生じたものと判定することを特徴とする、請求項1に記載の情報処理装置。
  3. 前記第1のコントローラは、自身において生じた障害の内容を示すログ情報と前記第1の時刻を含む第1のログデータを生成し、
    前記第2のコントローラは、自身において生じた障害の内容を示すログ情報と前記第2の時刻を含む第2のログデータを生成し、
    前記診断部は、前記第1のログデータに含まれる前記第1の時刻と前記第2のログデータに含まれる前記第2の時刻を比較して、前記第1の時刻が前記第2の時刻よりも早い場合には、前記第1のログデータに含まれるログ情報を解析し、前記第2の時刻が前記第1の時刻よりも早い場合には、前記第2のログデータに含まれるログ情報を解析することを特徴とする、請求項2に記載の情報処理装置。
  4. 前記第1のコントローラおよび前記第2のコントローラは、それぞれ、前記第1のログデータおよび前記第2のログデータを前記診断部に出力し、
    前記診断部は、前記第1のログデータおよび前記第2のログデータを保持することを特徴とする、請求項3に記載の情報処理装置。
  5. 前記第1のコントローラと前記第2のコントローラとの間で、一方のコントローラにおいて生じた障害が他方のコントローラに伝播するか否かを示す情報を保持するデータベースをさらに備えることを特徴とする、請求項1ないし4のいずれか1項に記載の情報処理装置。
  6. 前記診断部は、前記データベースを参照して、前記第1のコントローラおよび前記第2のコントローラの一方において障害が生じたのか、双方において障害が生じたのかを判定することを特徴とする、請求項5に記載の情報処理装置。
  7. 前記診断部は、前記第1のコントローラと前記第2のコントローラとの間で双方向に障害が伝播する場合には、前記第1の時刻および前記第2の時刻の先後に応じて、前記第1のコントローラおよび前記第2のコントローラのいずれか一方において障害が生じたものと判定することを特徴とする、請求項6に記載の情報処理装置。
  8. 前記診断部は、前記第1のコントローラにおいて生じた障害が前記第2のコントローラに伝播し、前記第2のコントローラにおいて生じた障害が前記第1のコントローラに伝播しない場合において、前記第1の時刻が前記第2の時刻よりも早いときには、前記第1のコントローラにおいて障害が生じたものと判定し、前記第2の時刻が前記第1の時刻よりも早いときには、前記第1のコントローラおよび前記第2のコントローラにおいて障害が生じたものと判定することを特徴とする、請求項6に記載の情報処理装置。
  9. 第1の機能を制御する第1のコントローラが、クロック部により計時された時刻に基づいて自身における障害の発生時刻を第1の時刻として保持する工程と、
    第2の機能を制御する第2のコントローラが、前記クロック部により計時された時刻に基づいて自身における障害の発生時刻を第2の時刻として保持する工程と、
    診断部が、前記第1のコントローラと前記第2のコントローラとの間で、一方のコントローラにおいて生じた障害が他方のコントローラにも伝播し得る場合に、前記第1のコントローラが保持する前記第1の時刻と前記第2のコントローラが保持する前記第2の時刻を比較して、前記第1のコントローラおよび前記第2のコントローラのうちのいずれにおいて障害が生じたのかを判定する工程と、を含むことを特徴とする故障診断方法。
  10. 前記診断部は、前記第1の時刻が前記第2の時刻よりも早い場合には、前記第1のコントローラにおいて障害が生じたものと判定し、前記第2の時刻が前記第1の時刻よりも早い場合には、前記第2のコントローラにおいて障害が生じたものと判定することを特徴とする、請求項9に記載の故障診断方法。
JP2012031691A 2012-02-16 2012-02-16 情報処理装置および故障診断方法 Active JP5867962B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012031691A JP5867962B2 (ja) 2012-02-16 2012-02-16 情報処理装置および故障診断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012031691A JP5867962B2 (ja) 2012-02-16 2012-02-16 情報処理装置および故障診断方法

Publications (2)

Publication Number Publication Date
JP2013168066A true JP2013168066A (ja) 2013-08-29
JP5867962B2 JP5867962B2 (ja) 2016-02-24

Family

ID=49178408

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012031691A Active JP5867962B2 (ja) 2012-02-16 2012-02-16 情報処理装置および故障診断方法

Country Status (1)

Country Link
JP (1) JP5867962B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015099487A (ja) * 2013-11-19 2015-05-28 富士通株式会社 情報処理装置,制御装置及び制御プログラム

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57132252A (en) * 1981-02-09 1982-08-16 Hitachi Ltd Fault discrimination system
JPH0825766A (ja) * 1994-07-18 1996-01-30 Fuji Xerox Co Ltd 障害処理装置
JPH08320955A (ja) * 1995-05-25 1996-12-03 Komatsu Ltd 車両故障診断装置の時間管理システム及び方法
US20060184840A1 (en) * 2005-02-11 2006-08-17 International Business Machines Corporation Using timebase register for system checkstop in clock running environment in a distributed nodal environment
JP2009151420A (ja) * 2007-12-19 2009-07-09 Toyota Central R&D Labs Inc ソフトウェア動作監視装置、プログラム
US20090210747A1 (en) * 2006-06-30 2009-08-20 Boone Lewis A Fault isolation system and method
JP2009230533A (ja) * 2008-03-24 2009-10-08 Nec Computertechno Ltd 故障解析機能を備えた情報処理装置、故障解析方法及び故障解析プログラム
JP2011227639A (ja) * 2010-04-19 2011-11-10 Nec Computertechno Ltd 情報処理装置、タイムアウト処理方法、及びタイムアウト処理プログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57132252A (en) * 1981-02-09 1982-08-16 Hitachi Ltd Fault discrimination system
JPH0825766A (ja) * 1994-07-18 1996-01-30 Fuji Xerox Co Ltd 障害処理装置
JPH08320955A (ja) * 1995-05-25 1996-12-03 Komatsu Ltd 車両故障診断装置の時間管理システム及び方法
US20060184840A1 (en) * 2005-02-11 2006-08-17 International Business Machines Corporation Using timebase register for system checkstop in clock running environment in a distributed nodal environment
US20090210747A1 (en) * 2006-06-30 2009-08-20 Boone Lewis A Fault isolation system and method
JP2009151420A (ja) * 2007-12-19 2009-07-09 Toyota Central R&D Labs Inc ソフトウェア動作監視装置、プログラム
JP2009230533A (ja) * 2008-03-24 2009-10-08 Nec Computertechno Ltd 故障解析機能を備えた情報処理装置、故障解析方法及び故障解析プログラム
JP2011227639A (ja) * 2010-04-19 2011-11-10 Nec Computertechno Ltd 情報処理装置、タイムアウト処理方法、及びタイムアウト処理プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015099487A (ja) * 2013-11-19 2015-05-28 富士通株式会社 情報処理装置,制御装置及び制御プログラム

Also Published As

Publication number Publication date
JP5867962B2 (ja) 2016-02-24

Similar Documents

Publication Publication Date Title
CN105468484B (zh) 用于在存储系统中确定故障位置的方法和装置
US10868744B2 (en) Influence range identification method and influence range identification apparatus
JP5901140B2 (ja) システムの高い可用性のためにセンサデータを補間する方法、コンピュータプログラム、システム。
US20160378583A1 (en) Management computer and method for evaluating performance threshold value
JP5686904B2 (ja) 稼働情報予測計算機、稼働情報予測方法及びプログラム
JP2017126363A (ja) 運用管理装置、運用管理方法、及びプログラム
US10977108B2 (en) Influence range specifying method, influence range specifying apparatus, and storage medium
JP2014021577A (ja) 故障予測装置、故障予測システム、故障予測方法、及び、故障予測プログラム
US8799608B1 (en) Techniques involving flaky path detection
JP5867962B2 (ja) 情報処理装置および故障診断方法
JP4973703B2 (ja) 故障検出方法及び監視装置
JP2011145824A (ja) 情報処理装置、障害解析方法及び障害解析プログラム
WO2016063816A1 (ja) 計算機システムの異常予兆検出装置および方法
JP2014153736A (ja) 障害予兆検出方法、プログラムおよび装置
JP2019159475A (ja) 故障検出装置および故障解析方法
JP5696492B2 (ja) 故障検出装置、故障検出方法、及び、故障検出プログラム
JP2014225133A (ja) 情報処理装置、制御装置及び制御プログラム
JP5958987B2 (ja) 情報処理装置、故障診断制御装置、故障判定方法、故障判定プログラム
JP5335150B2 (ja) 計算機装置及びプログラム
US20160048437A1 (en) Multiple test type analysis for a test case using test case metadata
JP2013096774A (ja) 信号処理装置及び信号処理方法及びプログラム
CN117407207B (zh) 一种内存故障处理方法、装置、电子设备及存储介质
JP2014059685A (ja) プログラマブルロジックデバイス、情報処理装置、被疑箇所指摘方法およびプログラム
US10481828B2 (en) Slow drive detection
JP2018060439A (ja) 管理装置、管理方法および管理プログラム

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20140725

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150826

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151006

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151208

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160104

R150 Certificate of patent or registration of utility model

Ref document number: 5867962

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150