JP2014016671A - 故障検出装置、故障検出方法および故障検出プログラム - Google Patents

故障検出装置、故障検出方法および故障検出プログラム Download PDF

Info

Publication number
JP2014016671A
JP2014016671A JP2012151794A JP2012151794A JP2014016671A JP 2014016671 A JP2014016671 A JP 2014016671A JP 2012151794 A JP2012151794 A JP 2012151794A JP 2012151794 A JP2012151794 A JP 2012151794A JP 2014016671 A JP2014016671 A JP 2014016671A
Authority
JP
Japan
Prior art keywords
failure
component
unit
detected
standby time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012151794A
Other languages
English (en)
Other versions
JP5970987B2 (ja
Inventor
Kazuhiro Yuki
和博 結城
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2012151794A priority Critical patent/JP5970987B2/ja
Priority to US13/890,300 priority patent/US20140013167A1/en
Priority to EP13168016.7A priority patent/EP2698716A2/en
Publication of JP2014016671A publication Critical patent/JP2014016671A/ja
Application granted granted Critical
Publication of JP5970987B2 publication Critical patent/JP5970987B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0781Error filtering or prioritizing based on a policy defined by the user or on a policy defined by a hardware/software module, e.g. according to a severity level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/325Display of status information by lamps or LED's
    • G06F11/326Display of status information by lamps or LED's for error or online/offline status

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

【課題】故障の根本となる部品を効率よく特定する。
【解決手段】故障箇所検出装置10は、監視対象装置1が有する部品が故障した際に故障が波及する他の部品を示す故障解析データベース21を記憶する。また、故障箇所検出装置10は、部品が故障した際に他の部品へ故障が波及するまで待機する待機時間を示す待機時間テーブル22を記憶する。また、故障箇所検出装置10は、部品の故障を最初に検出した場合は、故障解析データベース21から故障した部品の波及情報を取得し、待機時間テーブル22から故障した部品の待機時間を読み出す。また、故障箇所検出装置10は、最初に故障を検出した部品と、読み出した待機時間が経過するまでの間、新たに故障した部品とを通報候補とする。そして、故障箇所検出装置10は、待機時間が経過した後に、通報候補のうち取得した波及情報に含まれていない部品を故障した部品として通報する。
【選択図】 図1

Description

本発明は、故障検出装置、故障検出方法および故障検出プログラムに関する。
従来、情報処理装置が有する部品から故障を検出した際に、平均修復時間(MTTR:Mean Time To Repair)を短縮することで、情報処理装置の稼動率を向上させる技術が知られている。
例えば、情報処理装置が有する部品が故障した場合は、他の部品に故障が波及する。しかし、故障が検出された全ての部品を交換したり、故障が検出された各部品を1つずつ交換することで故障の根本となる部品を特定した場合は、保守部財のコストや保守時間が増大する。このようなコストや保守時間の増大を防ぐため、情報処理装置が有する部品から故障を検出した際に、検出された故障の内容から故障の根本となる部品を特定し、特定した部品のみを通報する故障検出装置が知られている。
例えば、故障検出装置は、ある部品が故障した際に故障が波及する他の部品を階層化したパターンを予め記憶する。そして、障害検出装置は、何れかの部品から障害を検出した場合は、障害が他の部品に波及するまでの間、一定時間待機する。その後、障害検出装置は、待機後に故障が検出された部品のパターンと、予め記憶した部品のパターンとを比較することで、故障の根本となる部品を特定し、特定した部品の通報を行う。
特開2002−125006号公報
しかしながら、故障が検出された部品のパターンと予め記憶した部品のパターンとを比較して故障の根本となる部品を特定する技術では、故障した部品によらず一定時間待機するので、故障の根本となる部品を効率良く検出できないという問題がある。
例えば、故障検出装置は、故障が他の部品に波及するまでの時間よりも、待機する時間が短い場合は、波及する故障を全て検出することができないので、故障の根本となる部品を適切に検出できない。また、故障検出装置は、故障が他の部品に波及するまでの時間よりも、待機する時間が長い場合は、故障の根本となる部品の通知を遅延させてしまう。
なお、故障検出装置は、故障の根本となる部品が複数存在する多重障害が発生したか否かを判断するため、故障した部品のパターンと、予め記憶した部品のパターンとを、パターンの上位から下位に向かって階層ごとにそれぞれ比較する。このため、故障の根本となる部品を特定するまでの解析処理に時間がかかってしまう。
1つの実施形態では、本発明は、故障の根本となる部品を効率よく特定することを目的とする。
1つの実施形態では、情報処理装置が有する部品の故障を検出する故障検出装置である。故障検出装置は、情報処理装置が有する部品が故障した際に故障が波及する他の部品を示す波及情報を、部品ごとに記憶する第1の記憶部を有する。また、故障検出装置は、部品が故障した際に他の部品へ故障が波及するまで待機する待機時間を、部品ごとに記憶する第2の記憶部を有する。また、故障検出装置は、部品の故障を最初に検出した場合は、第1の記憶装置から故障した部品の波及情報を取得し、第2の記憶装置から故障した部品の待機時間を読み出す。また、故障検出装置は、最初に故障を検出した部品と、読み出した待機時間が経過するまでの間、新たに故障した部品とを通報候補とする。そして、故障検出装置は、待機時間が経過した後に、通報候補のうち取得した波及情報に含まれていない部品を故障した部品として利用者に通報する。
1実施形態では、故障の根本となる部品を効率よく特定することができる。
図1は、実施例1に係る故障箇所検出装置の機能構成を説明するための図である。 図2は、部品コード変換テーブルの一例を説明するための図である。 図3は、故障解析データベースの一例を説明するための図である。 図4は、根本故障と波及故障との関係を説明するための図である。 図5は、部品ごとに設定された重み付けの一例を説明するための図である。 図6は、優先度の一例を説明するための図である。 図7は、待機時間テーブルの一例を説明するための図である。 図8は、待機時間を説明するための図である。 図9は、待機時間の一例を説明するための図である。 図10は、故障箇所検出装置が実行する処理の流れを説明するためのフローチャートである。 図11は、障害検出部が障害を検出する処理の流れを説明するためのフローチャートである。 図12は、障害解析部が実行する処理の流れを説明するためのフローチャートである。 図13は、カウント中に実行する処理の流れを説明するためのフローチャートである。 図14は、優先度に応じて最小限の交換対象を決定する処理の流れを説明するためのフローチャートである。 図15は、故障検出プログラムを実行するコンピュータの一例を説明するための図である。
以下に添付図面を参照して本願に係る故障検出装置、故障検出方法および故障検出プログラムについて説明する。
以下の実施例1では、図1を用いて、故障箇所検出装置の一例を説明する。図1は、実施例1に係る故障箇所検出装置の機能構成を説明するための図である。なお、図1に示す故障箇所検出装置10は、少なくとも、情報処理装置等の監視対象装置1と接続し、監視対象装置1が有する部品から故障を検出する機能を有する。
図1に示すように、監視対象装置1は、Power Supply Unit(PSU:動力供給装置)2、Point Of Load(POL:降圧コンバータ)3、Intermediate Bus Converter(IBC)4を有する。また、監視対象装置1は、Application Specific Integrated Circuit(ASIC)5を有する。また、ASIC5は、メモリ6、Central Processing Unit(CPU)7を有する。
ここで、PSU2は、監視対象装置1全体に電力を供給する電源装置であり、監視対象装置1が有する電源系統の接続関係を階層化した際に最上位の階層に位置する部品である。また、POL3は、PSU2が供給する直流電圧を電力の供給対象に応じた電圧に降圧するコンバータである。また、IBC4は、PSU2やPOL3が供給する電力を、監視対象装置1が有するバスの規格に応じた電圧に変換するコンバータである。また、ASIC5は、監視対象装置1が有する各部品を管理する電子回路である。また、メモリ6は、ASIC5が処理を実行するためのデータ等を記憶する記憶装置である。また、CPU7は、ASIC5が処理を実行するための演算処理を実行する演算処理装置である。
なお、図1では省略したが、監視対象装置1は、PSU2、POL3、IBC4、ASIC5と同様の機能を有する装置をさらに有する。また、監視対象装置1は、図示を省略した装置、例えば監視対象装置1の冷却を行う冷却ファンや水冷装置等、故障箇所検出装置10の監視対象となる様々な部品を有するものとする。
一方、故障箇所検出装置10は、障害検出部11、障害解析部16、記憶部20、通報部23、Light Emitting Diode(LED)制御部24、操作部25、エラーログ記憶部26を有する。また、障害検出部11は、部品コード変換テーブル12、割り込み受付部13、センサ制御部14、部品コード変換部15を有する。また、障害解析部16は、故障箇所検索部17、タイマ処理部18、出力部19を有する。また、記憶部20は、故障解析データベース21、待機時間テーブル22を記憶する。
以下、故障箇所検出装置10が発揮する機能について説明する。記憶部20は、ある部品が故障した際に、故障が波及する他の部品を示す故障解析データベース21と、ある部品が故障した際に故障が他の部品に波及するまで待機する待機時間を示す待機時間テーブル22とを記憶する。また、障害検出部11は、監視対象装置1が有する各部品2〜7を監視し、各部品2〜7が故障した場合は、故障した部品を障害解析部16に通知する。
一方、障害解析部16は、障害検出部11から故障した部品の通知を受信すると、故障解析データベース21を参照して故障が波及する部品を識別するとともに、待機時間テーブル22を参照して故障した部品に応じた待機時間を識別する。また、障害解析部16は、識別した待機時間が経過するまでの間、障害検出部11が故障を検出した部品を識別する。そして、障害解析部16は、待機時間が経過した後に、障害検出部11から通知された部品のうち、故障解析データベース21から識別した部品を除く部品、すなわち、故障の根本となる部品を特定する。その後、障害解析部16は、特定した部品を通報する。
次に、障害検出部11が有する部品コード変換テーブル12、割り込み受付部13、センサ制御部14、部品コード変換部15が実行する処理について説明する。まず、図2を用いて、部品コード変換テーブル12の一例について説明する。
図2は、部品コード変換テーブルの一例を説明するための図である。図2に示す例では、部品コード変換テーブル12は、部品、要因、部品コード、故障要因コードを対応付けて記憶する。例えば、図2に示す例では、部品コード変換テーブル12は、部品「PSU」と故障の要因「電圧異常」と部品コード「0x01」と故障要因コード「0x0001」とを対応付けて記憶する。
また、図2に示す例では、部品コード変換テーブル12は、部品「IBC」と故障の要因「電圧異常」と部品コード「0x02」と故障要因コード「0x0001」とを対応付けて記憶する。また、図2に示す例では、部品コード変換テーブル12は、部品「POL#3」と故障の要因「電圧異常」と部品コード「0x03」と故障要因コード「0x0001」とを対応付けて記憶する。
図1に戻って、割り込み受付部13は、ASIC5が発行する割り込み通知を受信する。具体的には、取り込み受付部13は、ASIC5が監視対象装置1が有する各部品2〜7のいずれかが故障した旨を示す割り込み通知をASIC5から受信する。すると、割り込み受付部13は、割り込み通知を解析し、故障した部品を識別する。そして、割り込み受付部13は、故障した部品をセンサ制御部14と部品コード変換部15に通知する。
センサ制御部14は、監視対象装置1が有する各部品2〜7に設置されたセンサを制御する。例えば、センサ制御部14は、割り込み受付部13から部品の通知を受付けると、通知された部品のセンサを制御し、部品の状態を監視する。そして、センサ制御部14は、監視結果から故障要因を特定し、特定した故障要因を部品コード変換部15に通知する。例えば、センサ制御部14は、割り込み受付部13からPOL3の通知を受けた場合は、POL3の出力電圧等を監視し、POL3が出力する電圧に異常が検出される場合は、故障要因として電圧異常が生じている旨を部品コード変換部15に通知する。
部品コード変換部15は、割り込み受付部13から故障した部品の通知を受付ける。また、部品コード変換部15は、センサ制御部14から故障要因の通知を受付ける。そして、部品コード変換部15は、通知された部品と故障要因と対応付けられた部品コードと故障要因コードとを部品コード変換テーブル12から取得し、取得した部品コードと故障要因コードとを障害解析部16に出力する。
例えば、部品コード変換部15は、割り込み受付部13からPOL3が故障した旨の通知を受付け、センサ制御部14から電圧異常が生じた旨の通知を受付ける。すると、部品コード変換部15は、部品コード変換テーブル12を参照し、部品「POL3」と故障要因「電圧異常」と対応付けられた部品コード「0x03」と故障要因コード「0x0001」とを取得する。そして、部品コード変換部15は、取得した部品コード「0x03」と故障要因コード「0x0001」とを障害解析部16に出力する。
次に、図3〜図9を用いて、記憶部20が記憶する故障解析データベース21、待機時間テーブル22の内容について説明する。まず、図3、図4を用いて、故障解析データベース21の内容について説明する。
図3は、故障解析データベース21の一例を説明するための図である。図3に示すように、故障解析データベース21は、部品コードが示す部品で故障要因コードが示す故障要因が生した際に、故障が波及する他の部品を示すエントリを、部品コードおよび故障要因コードごとに記憶する。
例えば、図3に示す例では、故障解析データベース21は、部品コード、故障要因コード、波及対象箇所、相関関係部品、既故障情報、故障レベル、メッセージ番号、優先度、故障マークを対応付けて記憶する。ここで、波及対象箇所とは、同一エントリの部品コードが示す部品で同一エントリの故障要因コードが示す故障要因が生じた際に、故障が波及する他の部品を部品コードで示す情報である。
なお、図3に示す例では、故障解析データベース21は、波及対象箇所を格納する領域として、各部品コードと対応付けた複数の領域を有し、故障が波及する部品を示す部品コードと対応付けた領域に丸印を格納することで、故障が波及する部品を示す。例えば、図3に示す例では、故障解析データベース21は、部品コード「0x01」が示す部品から、故障要因コード「0x0001」が示す故障が生じた場合は、部品コード「0x02」、「0x03」、「0x04」、「0x05」、「0x10」が示す部品に故障が波及する旨を示す。
また、相関関係部品とは、故障した部品、あるいは故障が波及した部品と相関関係を有する部品や装置であり、例えば、故障した部品が電力を供給するCPU等の装置である。なお、図3に示す例では、故障解析データベース21は、各相関関係部品を示す部品コードと対応付けた複数の領域を有し、丸印が付された領域と対応する部品コードが示す相関関係部品に障害が波及する旨を示す。
なお、図3に示す例では、故障解析データベース21は、故障が波及する部品や相関関係部品と対応する領域に丸印を格納することで、故障が波及するか否かを示すが、実施例はこれに限定されるものではない。例えば、故障解析データベース21は、故障が波及する部品や相関関係部品と対応する領域に「1」を格納し、故障が波及しない部品や相関関係部品と対応する領域に「0」を格納することで、故障が波及するか否かを示してもよい。
ここで、図4を用いて、故障した部品と波及故障との関係について説明する。図4は、根本故障と波及故障との関係を説明するための図である。なお、図4には、監視対象装置1が有する電源系と、電源系が電力を供給するCPU等の相関関係部品との接続関係を階層化して記載した。例えば、監視対処装置1は、最上位に250ボルトの交流電源を有し、250ボルトの交流電力を9個のPSU#0〜#8に供給する。
また、各PSU#0〜#8は、24個のService Board(SB)#0〜#23、Input Output Service Board(IOSB)#0〜#23に電力を供給する。また、各PSU#0〜#8は、Service Processor(SP)#0、SP#1、FANコントローラ、センサボード、POL#Fに電力を供給する。
また、IOSB#0は、IBC#0〜#2に電力を供給し、IBC#0〜#2は、POL#A〜#Eと、Peripheral Component Interconnect(PCI)カードに電力を供給する。また、POL#Aは、CPUとDual Inline Memory Module(DIMM)に電力を供給し、POL#Bは、CPUとASICに電力を供給する。また、POL#Cは、ASICに電力を供給し、POL#Eは、PCIカードに電力を供給し、POL#Fは、Memory Bass Controller(MBC)に電力を供給する。
ここで、監視対象装置1が図4のような接続関係を有する電源系と、相関関係部品とを有する際に、図4中星印で示すIBC#0およびIBC#1で故障が生じた場合には、IBC#0およびIBC#1よりも下位の部品に電力が供給されなくなる。詳細には、IBC#0とIBC#1とで故障が生じた場合には、図4中の三角印で示すPOL#A〜#Eに電力が供給されなくなる。すると、POL#A〜#Eは、故障していないにも係らず、正常な動作を行う事ができないため、故障が生じたと判断される。
また、故障した部品、および故障した部品よりも下位の部品が電力を供給する相関関係部品にも正常な電力が供給されなくなり、故障が生じたと判断される場合がある。詳細には、図4中の三角印で示すCPU、DIMM、ASIC、PCIカードに正常な電力が供給されなくなるため、CPU、DIMM、ASIC、PCIカードが故障したと判断される場合がある。このため、監視対象装置1の電源系において、故障が生じた場合には、故障した部品よりも下位の部品や相関関係部品に故障が波及してしまう。
また、監視対象装置1が有する電源系、および相関関係部品の接続は、冗長化されているため、故障した部品ごとに、故障が波及する部品や相関関係部品は異なる。また、故障要因によっては、故障が波及しない部品も存在する。さらに、各部品から故障を検出する場合には、それぞれ異なる閾値が設定されるため、各部品から故障を検出する時間にはバラつきが存在する。そこで、故障箇所検出装置10は、故障した部品および故障要因ごとに、故障が波及する部品と故障が波及する相関関係部品とを定義した故障解析データベース21を予め記憶する。
図3に戻って、既故障情報とは、対応する部品コードと故障要因コードが示す故障を利用者に通知し、かつ、対応する部品コードが示す部品が交換されたか否かを示す情報である。例えば、既故障情報が「1」である場合は、対応する部品コードと故障要因コードが示す故障を利用者に通知したが、まだ部品の交換や修理等がされていない旨を示す。また、故障レベルとは、故障の重度を示す情報であり、例えば、故障によって未使用の部品には「ALARM」、使用可能であるが交換を促す場合には「WARNING」が格納される。また、メッセージ番号とは、故障した部品と故障要因とに応じて定まる番号であり、エラーログに格納するメッセージを示すメッセージ番号である。
また、優先度とは、故障の内容を利用者に通知する優先度を示す情報である。例えば、優先度は、同一エントリの部品コードおよび故障要因コードが示す故障の内容が深刻なものほど大きい値が格納される。このような優先度は、各部品が故障した際の深刻度合いに基づいて算出することができる。例えば、あらかじめ各部品が故障した際の深刻度合いを示す数値を重み付けとして各部品に付与し、故障が波及する部品に付与された数値の和の値を優先度とすることができる。
以下、図5、図6を用いて、優先度を算出する処理の一例を説明する。まず、図5を用いて、各部品に付与する重み付けの一例について説明する。図5は、部品ごとに設定された重み付けの一例を説明するための図である。図5に示す例では、ラック、PSU、SB、IOSB、CPU、メモリ、FAN、環境センサ、IBC、POL#A、POL#C、SPBに対して重みを付与した例を示す。
例えば、ラック、SB、IOSB、環境センサ、SPB等、故障した際にシステムが停止する可能性が高い部品に対しては、重み付けの最大値として「32」が付与される。また、PSU、CPU、メモリ、FAN等、故障した際にシステムが停止する可能性が低いものの、大幅に性能が劣化したり、データの復旧が困難になる等運用上の問題が発生する部品に対しては、重み付けとして「16」が付与される。また、IBC、POL#A、POL#C等、故障した際の緊急性が無いものや、冗長化された部品であるが、故障を放置しないほうがよい部品については、それぞれ「15」よりも低い値が重み付けとして付与される。
次に、図6を用いて、部品ごとに付与された重み付けを用いて優先度を算出する処理の一例を説明する。図6は、優先度の一例を説明するための図である。例えば、図6に示すテーブルには、メッセージ番号と、メッセージ番号が示す内容の故障が発生した際に故障した部品が実装されている実装位置とが対応付けて記憶されている。また、このテーブルには、部品と対応付けられた複数の領域が各メッセージ番号と対応付けられており、メッセージ番号が示す故障が生じた際に、故障が波及する部品と対応付けられた領域に重み付けの数値が格納されている。
そして、各メッセージ番号と対応付けられた領域に格納されている数値の和を優先度とすることで、故障が波及する部品にシステムが停止する可能性が高い部品を多く含む故障、すなわち深刻な故障に対しては、高い優先度を付与することができる。例えば、メッセージ番号「0x10000001」が示す故障には、IBCに付与された重み付け「2」、POL#AおよびPOL#Cに付与された重み付け「1」の和である「4」が優先度として付与される。一方、メッセージ番号「0x10000500」が示す故障が発生すると、SBに故障が波及してしまうため、メッセージ番号「0x10000500」が示す故障には、優先度は「32」が付与される。
このように、各部品に対して故障した際の深刻度合いに応じた重み付けを行い、故障が波及する部品に対して付与された重み付けの和を算出することで、故障が発生した際に通知を行う優先度を算出することができる。
図3に戻って、故障マークとは、障害検出部11が障害を検出した部品と故障要因とを示す情報であり、故障が検出された場合には丸印が格納される。例えば、障害解析部16は、待機時間が経過するまでの間に、障害検出部11が障害を検出した部品と故障要因とに応じたエントリの故障マークの欄に丸印を格納する。
次に、図7〜図9を用いて、待機時間テーブル22の一例について説明する。図7は、待機時間テーブルの一例を説明するための図である。図7に示すように、待機時間テーブル22は、部品コード、故障要因コード、待機時間を対応付けて記憶する。ここで、待機時間とは、同一エントリの部品コードが示す部品において故障要因コードが示す故障が生じた際に、障害解析部16が、検出された故障が根本となる故障であるか波及した故障であるかを判別する処理を待機する時間である。
例えば、図7に示す例では、待機時間テーブル22は、部品コード「0x01」が示す部品において故障要因コード「0x0001」が示す故障が生じた場合には、待機時間が「1200」ミリ秒である旨を示す。また、図7に示す例では、待機時間テーブル22は、部品コード「0x02」が示す部品において故障要因コード「0x0001」が示す故障が生じた場合には、待機時間が「1000」ミリ秒である旨を示す。
このように、待機時間テーブル22は、故障が検出された部品と、故障要因とに応じた待機時間を記憶する。そして、障害解析部16は、故障が検出された部品と故障要因とに応じた待機時間だけ、検出された故障が根本となる故障であるか波及した故障であるかを判別する処理を待機する。このため、故障箇所検出装置10は、根本となる故障が生じた部品を効率的に特定することができる。
ここで、図8を用いて、待機時間テーブル22が記憶する待機時間の算出例について説明する。図8は、待機時間を説明するための図である。なお、図8に示す例では、監視対象装置1は、図4に示した接続関係を有する電源系と相関関係部品とを有する例について記載する。
例えば、図8中(A)に示すPSU#8が故障した場合には、図8中(B)に示すIOSB#0に故障が波及し、次に図8中(C)に示すIBC#0に故障が波及し、その後、図8中(D)に示すPOL#Aに故障が波及する。このため、POL#AやIBC#0よりも上位に位置するPSU#8が故障した場合は、POL#A、IBC#0、IOSB#0に設定された待機時間よりも長い待機時間を設定しなければ、故障が波及するであろう装置から故障を検出することができない。
そこで、待機時間テーブル22は、ある部品が故障した際に故障が波及する最上位の部品から、最下位の部品までの経路上に含まれる部品について、各部品が故障した際に他の部品に故障が波及するまでの時間の和を、故障した部品の待機時間として記憶する。以下、図9を用いて、各部品の待機時間を算出する処理の一例を説明する。
図9は、待機時間の一例を説明するための図である。例えば、図9に示す例では、PSU#8は、故障した際に300ミリ秒で他の部品に故障を波及させ、IBC#0は、400ミリ秒で他の部品に故障を波及させ、POL#Aは、500ミリ秒で他の部品に故障を波及させる。このような場合には、PSU#8には、PSU#8、IBC#0、POL#Aが他の部品に故障を波及させる時間の合計である1200ミリ秒が待機時間として設定される。
なお、図9に示す例では、故障が波及する部品のみを考慮して待機時間を計算する例を示したが、実施例はこれに限定されるものではなく、故障要因を考慮した待機時間を計算してよい。例えば、電源喪失等、他の部品に対して即時に故障が波及するような故障要因については、待機時間を所定の割合だけ減少させた値や、所定の割合だけ増加させた値としてもよい。
次に、図1に戻って、障害解析部16が有する故障箇所検索部17、タイマ処理部18、出力部19が実行する処理について説明する。故障箇所検索部17は、障害検出部11が故障を検出すると、故障した部品に応じた待機時間が経過するまでの間、障害検出部11が故障を検出した部品を識別する。そして、故障箇所検索部17は、待機時間が経過した後に、識別した部品のうち、故障した部品の波及情報に含まれていない部品を判別する。
具体的には、故障箇所検索部17は、障害検出部11から部品コードと故障要因コードとを受信、部品コードと故障要因コードとをタイマ処理部18に通知することで、タイマのセットを行う。また、故障箇所検索部17は、故障解析データベース21にアクセスし、受信した部品コードと故障要因コードとに応じたエントリの故障マークの欄に丸印を格納することで、故障が波及する部品を識別する。
そして、故障箇所検索部17は、タイマ処理部18から待機時間が経過した旨を示すタイムアウト通知を受信するまでの間、以下の処理を実行する。まず、故障箇所検索部17は、障害検出部11から新たな部品コードと故障要因コードとを受信すると、新たな部品コードと故障要因コードとに応じたエントリの故障マークの欄に丸印を格納する。
また、故障箇所検索部17は、故障マークの欄に丸印が格納されたエントリを識別し、識別したエントリの波及対象箇所、及び相関関係部品の欄に丸印が格納された部品の部品コードを特定する。すなわち、故障箇所検索部17は、障害検出部11が故障を検出した各部品が故障した際に、故障が波及する部品を特定する。
その後、故障箇所検索部17は、新たに受信した部品コードが特定した部品コードに含まれているか否かを判別することで、新たに検出した故障が波及による故障であるか否かを判別する。そして、故障箇所検索部17は、新たに受信した部品コードが特定した部品コードに含まれている場合は、新たに受信した部品コードと故障要因コードとが格納されたエントリの故障マークの欄を「該当」に変更する。
一方、故障箇所検索部17は、新たに受信した部品コードが特定した部品コードに含まれていない場合、すなわち、新たに検出した故障が波及による故障ではない場合は、以下の処理を実行する。まず、故障箇所検索部17は、新たに受信した部品コードと故障要因コードとをタイマ処理部18に送信することで、新たなタイマをセットする。そして、故障箇所検索部17は、故障解析データベース21にアクセスし、新たな部品コードと故障要因コードとに応じたエントリの故障マークの欄に丸印を格納し、故障が波及する部品を識別する。
一方、故障箇所検索部17は、タイマ処理部18から待機時間が経過した旨を示すタイムアウト通知を受信すると、以下の処理を実行する。まず、故障箇所検索部17は、故障解析データベース21のうち、「該当」が格納された故障マークの欄をクリアする。次に、故障箇所検索部17は、タイムアウト通知されたタイマをセットした際に通知した部品コードと故障要因コードとが格納されたエントリを特定し、特定したエントリの既故障情報が「0」であるか否かを判別する。
そして、故障箇所検索部17は、特定したエントリの既故障情報が「0」である場合は、故障マークの欄に丸印が格納されたエントリのうち、特定したエントリの優先度が最も高いか否かを判別する。その後、故障箇所検索部17は、特定したエントリの優先度が最も高い場合は、特定したエントリのメッセージコードを出力部19に出力する。また、故障箇所検索部17は、選択したエントリの既故障情報に「1」を格納し、故障マークを削除する。一方、故障箇所検索部17は、特定したエントリの優先度よりも高い優先度のエントリが存在すると判別した場合は、メッセージコードの出力を行わない。
なお、故障箇所検索部17は、障害検出部11から受信した部品コードと故障要因コードとが格納されたエントリが故障解析データベース21に格納されていない場合は、未登録事象が発生した旨を出力部19に通知する。
タイマ処理部18は、障害検出部11が故障を検出した部品に応じた待機時間を待機時間テーブル22から取得し、取得した待機時間のカウントを行う。具体的には、タイマ処理部18は、障害検出部11が故障を検出した部品の部品コードと、故障要因コードとを故障箇所検索部17から受信する。すると、タイマ処理部18は、受信した部品コード、および故障要因コードと対応付けられた待機時間を待機時間テーブル22から取得し、取得した待機時間のカウントを開始する。
また、タイマ処理部18は、待機時間のカウント中に、新たな部品コードと故障要因コードとを故障箇所検索部17から受信すると、新たに受信した部品コードと故障要因コードとに対応付けられた待機時間を待機時間テーブル22から取得する。そして、タイマ処理部18は、新たに取得した待機時間を、既にカウント中の待機時間とは個別にカウントする。その後、タイマ処理部18は、カウントが終了した場合には、タイムアウトを故障箇所検索部17に通知する。
なお、タイマ処理部18は、カウントが終了した待機時間が、どの部品コードと故障要因コードとに係る待機時間であるかが識別できるように、タイムアウトを通知する。例えば、タイマ処理部18は、カウントが終了した待機時間と対応付けて待機時間テーブル22に記憶された部品コードと故障要因コードとをタイムアウトとともに通知してもよい。
出力部19は、故障箇所検索部17からメッセージ番号を受信すると、受信したメッセージ番号を用いて、故障の通報を行う。例えば、出力部19は、受信したメッセージ番号を通報部23、LED制御部24、操作部25、エラーログ記憶部26に出力する。
すると、通報部23は、出力部19から受信したメッセージ番号が示す故障内容の表示や警告音等を出力して、利用者に故障が発生した旨を通報する。また、LED制御部24は、メッセージ番号が示す故障内容に応じたLEDの点灯や点滅等による警告を行う。また、操作部25は、受信したメッセージ番号が示す故障の内容に応じて、監視対象装置1のシャットダウンやパワーオフ、リセット等の制御を行う。
また、エラーログ記憶部26は、メッセージ番号を記憶することで、監視対象装置1において発生した故障のログを記憶する。なお、出力部19は、故障箇所検索部17から未登録事象が発生した旨の通知を受信すると、通報部23、LED制御部24等を用いて、未登録事象が発生した旨を利用者に通報する。
次に、図10を用いて、故障箇所検出装置10が実行する処理の流れを説明する。図10は、故障箇所検出装置10が実行する処理の流れを説明するためのフローチャートである。まず、故障箇所検出装置10は、故障が発生したか否かを判別し(ステップS101)、故障が発生していない場合は(ステップS101否定)、再度故障が発生したか否かを判別する。そして、故障箇所検出装置10は、故障が発生したと判別した場合は(ステップS101肯定)、波及対象箇所を取得し(ステップS102)、故障した部品に応じた待機時間を取得する(ステップS103)。
そして、故障箇所検出装置10は、部品に応じた待機時間の間、故障の検出を継続する(ステップS104)。次に、故障箇所検出装置10は、待機時間を経過したか否かを判別し(ステップS105)、経過していない場合は(ステップS105否定)、ステップS104の処理を実行する。一方、故障箇所検出装置10は、待機時間を経過した場合は(ステップS105肯定)、故障が波及した部品を特定し(ステップS106)、故障が波及した部品を故障の対象から除外する(ステップS107)。そして、故障箇所検出装置10は、優先度を用いて、交換対象となる最小限の対象を通報し(ステップS108)、処理を終了する。
次に、図11を用いて、障害検出部11が実行する処理の流れについて説明する。図11は、障害検出部が障害を検出する処理の流れを説明するためのフローチャートである。まず、障害検出部11は、割り込み通知を受信すると、割り込み箇所から故障した部品を特定する(ステップS201)。次に、障害検出部11は、特定した部品に係るセンサの観測値を取得する(ステップS202)。そして、障害検出部11は、特定した部品の部品コードと、センサの観測値から求めた故障要因コードとを障害解析部16へ送信し(ステップS203)、処理を終了する。
次に、図12を用いて、障害解析部16は、障害検出部11から部品コードと故障要因コードとを受信した際に実行する処理の流れについて説明する。まず、障害解析部16は、部品コードと故障要因コードとを受信する(ステップS301)。次に、障害解析部16は、故障解析データベース21のエントリを1つ参照し(ステップS302)、エントリの部品コード、および故障要因コードと、受信した部品コードと故障要因コードとを比較する(ステップS303)。
そして、障害解析部16は、エントリの部品コードと故障要因コードが受信したコードと一致した場合は(ステップS304肯定)、故障マークの欄に丸印をつけて(ステップS305)、処理を終了する。一方、障害解析部16は、エントリの部品コードと障害要因コードとが受信したコードと一致しない場合は(ステップS304否定)、参照したエントリが故障解析データベース21の最後のエントリであるか否かを判別する(ステップS306)。
そして、障害解析部16は、参照したエントリが故障解析データベース21の最後のエントリである場合は(ステップS306肯定)、未登録事象を示すエラーを利用者に発行し(ステップS307)、処理を終了する。また、障害解析部16は、参照したエントリが故障解析データベースの最後のエントリではない場合は(ステップS306否定)、次のエントリを参照し(ステップS308)、ステップS303の処理を実行する。
次に、図13を用いて、待機時間のカウント中に障害解析部16が実行する処理の流れを説明する。図13は、カウント中に実行する処理の流れを説明するためのフローチャートである。まず、障害解析部16は、故障解析データベース21から待機時間を読み込み(ステップS401)、カウントを開始する。ここで、障害解析部16は、新たに受信した部品コードと故障要因コードとを受信すると、以下の処理を実行する。まず、障害解析部16は、故障解析データベース21を参照し、新たに受信した部品コードと故障要因コードとが格納されたエントリに既故障情報「1」が格納されているか否かを判別する(ステップS402)。
そして、障害解析部16は、既故障情報が「1」ではない場合は(ステップS402否定)、受信した部品コードが示す部品が、故障が波及する部品であるか否かを判別する(ステップS403)。その後、障害解析部16は、受信した部品コードが示す部品が、故障が波及する部品であると判別した場合は(ステップS403肯定)、受信した部品コードと故障要因コードとが格納されたエントリの故障マークを「該当」に変更する(ステップS404)。
その後、障害解析部16は、待機時間が経過したか否かを判別し(ステップS405)、経過したと判別した場合は(ステップS405肯定)、「該当」となっている故障マークをクリアし(ステップS406)、処理を終了する。一方、障害解析部16は、新たに受信した部品コードと故障要因コードとが格納されたエントリに既故障情報「1」が格納されている場合は(ステップS402肯定)、ステップS405の処理を実行する。また、障害解析部16は、待機時間が経過していない場合は(ステップS405否定)、新たに検出された故障について、ステップS402の処理を実行する。
また、障害解析部16は、受信した部品コードが示す部品が、故障が波及する部品ではないと判別した場合は(ステップS403否定)、ステップS401の処理を実行する。すなわち、障害解析部16は、新たに受信した部品コードと故障要因コードに応じた待機時間を待機時間テーブルから読み込み、個別にカウントを開始する(ステップS401)。
次に、図14を用いて、障害解析部16が優先度に応じて最小限の交換対象を決定する処理の流れを説明する。図14は、優先度に応じて最小限の交換対象を決定する処理の流れを説明するためのフローチャートである。なお、障害解析部16は、タイムアウトしたタイマがカウントしていた待機時間に係る部品コードと故障要因コードとが格納されたエントリを処理の対象エントリとして、図14に示す処理を実行する。
まず、障害解析部16は、対象エントリの既故障情報が「1」であるか否かを判別し(ステップS501)、既故障情報が「1」ではない場合は(ステップS501否定)、故障マークに丸印が格納されたエントリが複数存在するか否かを判別する(ステップS502)。そして、障害解析部16は、故障マークに丸印が格納されたエントリが対象エントリだけである場合は(ステップS502否定)、対象エントリの故障マークをクリアする(ステップS503)。次に、障害解析部16は、対象エントリのメッセージ番号が示す故障内容をエラーログに登録し(ステップS504)、処理を終了する。
一方、障害解析部16は、故障マークに丸印が格納されたエントリが複数存在する場合は(ステップS502肯定)、故障マークに丸印が格納されたエントリの中で、対象エントリの優先度が一番高いか否かを判別する(ステップS505)。また、障害解析部16は、対象エントリよりも優先度が高いエントリが存在する場合は(ステップS505否定)、対象エントリの故障マークをクリアし(ステップS506)、処理を終了する。また、障害解析部16は、対象エントリの優先度が一番高い場合は(ステップS505肯定)、ステップS504の処理を実行する。また、障害解析部16は、既故障情報が「1」である場合は(ステップS501肯定)、エラーログへの登録を行わずに処理を終了する(ステップS507)。
[実施例1の効果]
上述したように、故障箇所検出装置10は、監視対象装置1が有する部品2〜7が故障した際に故障が波及する他の部品を示す故障解析データベース21を記憶する。また、故障箇所検出装置10は、部品2〜7が故障した際に、他の部品へ故障が波及するまで待機する待機時間を待機時間テーブル22として記憶する。そして、故障箇所検出装置10は、監視対象装置1の各部品2〜7から故障を検出すると、故障を検出した部品から故障が波及する他の部品の情報を故障解析データベース21から取得し、故障を検出した部品の待機時間を待機時間テーブル22から取得する。
その後、故障箇所検出装置10は、待機時間が経過するまでの間、新たに故障を検出した部品を識別し、待機時間が経過した後に、識別した部品のうち故障解析データベース21から情報を取得した部品以外の部品を特定する。このように、故障箇所検出装置10は、故障した部品に応じた待機時間の間だけ待機するので、故障の根本となる部品を効率良く特定することができる。
また、故障箇所検出装置10は、待機時間が経過するまでの間に新たな故障を検出した場合は、新たに故障を検出した部品が、既に故障を検出した部品から故障が波及する部品であるか否かを判別する。そして、故障箇所検出装置10は、新たに故障を検出した部品が、既に故障を検出した部品から故障が波及する部品である場合は、新たに故障を検出した部品を通報の対象から除外する。その後、故障箇所検出装置10は、待機時間の間に故障を検出した部品のうち、通報の対象から除外しなかった部品を通報する。このため、故障箇所検出装置10は、根本となる故障が複数の部品で発生した場合にも、各部品が故障した旨を利用者に通報することができる。
また、故障箇所検出装置10は、新たに故障を検出した部品が既に故障を検出した部品から故障が波及する部品ではない場合は、新たに故障を検出した部品から故障が波及する部品の情報と、待機時間とを取得する。そして、故障箇所検出装置10は、新たに取得した部品の情報と待機時間とを用いて、その後検出した故障が波及による故障であるか否かを判別する。このため、故障箇所検出装置10は、根本となる故障が複数の部品で発生した場合にも、根本となる故障が発生した部品をそれぞれ効率よく特定することができる。
また、故障箇所検出装置10は、ある部品が故障した際に故障が波及する部品のうち、最下位の階層に位置する部品から最上位の階層に位置する部品までの経路に含まれる部品が故障を波及させる時間の和を、待機時間として記憶する。このため、故障箇所検出装置10は、上位の階層に位置する部品については、他の部品よりも長い時間待機し、下位の階層に位置する部品については、他の部品よりも短い時間待機するので、適切な待機時間で根本となる故障が発生した部品を特定することができる。
また、故障箇所検出装置10は、故障した部品の優先度を記憶し、特定した部品のうち、最も優先度が高い部品を通報する。このため、故障箇所検出装置10は、優先的に通報すべき部品から先に利用者に通報することができる。
また、故障箇所検出装置10は、各部品に対して、故障した際の深刻度に応じた重み付けを行い、故障が波及する部品に対して付与された重み付けの値の和を優先度とする。このため、故障箇所検出装置10は、故障した際により深刻な障害が発生する部品を優先的に通報することができる。
また、故障箇所検出装置10は、部品と部品の故障要因との組ごとに、故障が波及する部品と待機時間とを記憶する。そして、故障箇所検出装置10は、故障が検出された部品と、検出された故障要因とに応じて、故障が波及する部品と待機時間とを取得する。この結果、故障箇所検出装置10は、故障要因を考慮した待機時間を採用しつつ、検出された故障が波及した故障であるか否かを故障要因を考慮して判別するので、より効率的に根本となる故障が発生した部品を特定することができる。
また、故障箇所検出装置10は、特定した部品のうち、また通報が行われていない部品のみを通報する。このため、故障箇所検出装置10は、同一の部品を何度も通報することによる負荷を削減できる。
また、故障箇所検出装置10は、割り込みによる故障通知を監視対象装置1から受信すると、故障通知から故障した部品を特定し、特定した部品が正常に動作しているか否かを判別する。このため、故障箇所検出装置10は、監視対象装置1において発生した故障を適切に検出することができる。
これまで本発明の実施例について説明したが実施例は、上述した実施例以外にも様々な異なる形態にて実施されてよいものである。そこで、以下では実施例2として本発明に含まれる他の実施例を説明する。
(1)故障の検出について
上述した故障箇所検出装置10は、監視対象装置1からの割り込み通知をトリガとして、故障を検出した。しかし、実施例はこれに限定されるものではなく、例えば、故障箇所検出装置10は、ポーリングで故障を検出してもよい。また、故障箇所検出装置10は、監視対象装置1のセンサを常時監視し、異常を検出した場合は、故障を検出したと判別してもよい。
(2)故障解析データベース、および待機時間テーブルについて
上述した故障箇所検出装置10は、故障解析データベース21と待機時間テーブル22とを異なるデータとして記憶していた。しかし、実施例はこれに限定されるものではなく、故障箇所検出装置10は、故障解析データベース21と待機時間テーブル22とを同一のデータにまとめて記憶しても良い。また、故障箇所検出装置10は、故障箇所検索部17とタイマ処理部18の機能とを統合してもよい。
なお、実施例1で例示した故障解析データベース21と待機時間テーブル22に格納された各情報は、あくまで一例であり、監視対象装置1の実装によって任意の値を設定することができる。すなわち、故障箇所検出装置10は、監視対象装置1の実装に応じた値を故障解析データベース21と待機時間テーブル22とに設定することで、任意の装置における故障が発生した際に、根本となる故障が発生した部品を効率的に特定することができる。
(3)故障箇所検出装置について
上述した故障箇所検出装置10は、監視対象装置1とは異なる装置として動作した。しかし、実施例はこれに限定されるものではなく、故障箇所検出装置10は、監視対象装置1の内部に設置されてもよく、また、監視対象装置1の一部として動作してもよい。
(4)プログラム
ところで、実施例1に係る故障箇所検出装置10は、ハードウェアを利用して各種の処理を実現する場合を説明した。しかし、実施例はこれに限定されるものではなく、あらかじめ用意されたプログラムをコンピュータが実行することによって実現するようにしてもよい。そこで、以下では、図15を用いて、実施例1に示した故障箇所検出装置10と同様の機能を有するプログラムを実行するコンピュータの一例を説明する。図15は、故障検出プログラムを実行するコンピュータの一例を説明するための図である。
図15に例示されたコンピュータ100は、Read Only Memory(ROM)110、Hard Disk Drive(HDD)120、Random Access Memory(RAM)130、Central Processing Unit(CPU)140がバス160で接続される。また、図11に例示されたコンピュータ100は、利用者に故障した部品を通報するためのInput Output(I/O)150を有する。
HDD120は、図1に示す故障解析データベース21と同様の情報である故障解析データベース121と、図1に示す待機時間テーブル22と同様の情報である待機時間テーブル122を記憶する。また、RAM130には、故障検出プログラム131があらかじめ保持される。CPU140が故障検出プログラム131をRAM130から読み出して実行することによって、図15に示す例では、故障検出プログラム131は、故障検出プロセス141として機能するようになる。なお、故障検出プロセス141は、図1に示した障害検出部11および障害解析部16と同様の処理を実行する。
なお、本実施例で説明した故障検出プログラムは、あらかじめ用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。このプログラムは、インターネットなどのネットワークを介して配布することができる。また、このプログラムは、ハードディスク、フレキシブルディスク(FD)、Compact Disc Read Only Memory(CD−ROM)、Magneto Optical Disc(MO)、Digital Versatile Disc(DVD)などのコンピュータで読取可能な記録媒体に記録される。また、このプログラムは、コンピュータによって記録媒体から読み出されることによって実行することもできる。
また、故障検出プログラムは、アプリケーションプログラムとしてのみならず、Operating System(OS)が有する機能の一部として、あるいはファームウェアの一部として機能することも可能である。また、故障検出プログラムは、監視対象となる部品を有する装置とは異なる装置として動作するコンピュータが実行しても良く、また、監視対象となる部品を有するコンピュータが実行することとしても良い。
以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)情報処理装置が有する部品が故障した際に故障が波及する他の部品を示す波及情報を、前記部品ごとに記憶する第1の記憶部と、
前記部品が故障した際に他の部品へ故障が波及するまで待機する待機時間を、前記部品ごとに記憶する第2の記憶部と、
前記部品の故障を検出する検出部と、
前記検出部が最初の故障を検出すると、当該故障が検出された部品の波及情報を前記第1の記憶部から取得し、当該故障が検出された部品の待機時間を前記第2の記憶部から取得する取得部と、
前記検出部が最初に故障を検出した部品と、前記取得部が取得した待機時間が経過するまでの間に前記検出部が新たに故障を検出した部品とを通報候補とし、前記待機時間が経過した後に、当該通報候補のうち前記取得部が取得した波及情報に含まれていない部品を故障した部品として利用者に通報する通報部と
を有することを特徴とする故障検出装置。
(付記2)前記通報部は、前記検出部が新たに故障を検出した場合は、当該新たに故障を検出した部品が前記取得部が取得した波及情報に含まれているか否かを判別し、当該新たに故障を検出した部品が前記取得部が取得した波及情報に含まれていると判別した場合には、当該検出部が新たに故障を検出した部品を通報候補から除外することを特徴とする付記1に記載の故障検出装置。
(付記3)前記取得部は、前記検出部が新たに故障を検出した部品が前記波及情報に含まれていない場合は、当該検出部が新たに故障を検出した部品の波及情報と待機時間とを新たに取得し、
前記通報部は、前記検出部が新たに故障を検出した部品と、前記取得部が新たに取得した待機時間の間に前記検出部が故障を検出した部品とを通報候補とし、当該待機時間が経過した後に、当該通報候補のうち前記取得部が新たに取得した波及情報に含まれていない部品を故障した部品として利用者に通報することを特徴とする付記2に記載の故障検出装置。
(付記4)前記第1の記憶部は、前記部品が故障した際に故障が波及する他の部品を接続関係に基づく階層に応じた波及情報を記憶し、
前記第2の記憶部は、前記部品が故障した際に故障が波及する他の部品のうち、最下位の階層に位置する部品から最上位の階層に位置する部品までの経路に含まれる部品から他の装置に故障が波及するまでの時間の和を該部品の待機時間として記憶することを特徴とする付記1−3のいずれか1つに記載の故障検出装置。
(付記5)故障した部品を交換する優先度を、前記情報処理装置が有する部品ごとに記憶する第3の記憶部を有し、
前記通報部は、前記通報候補のうち前記取得部が取得した波及情報に含まれていない部品であって、前記第3の記憶部が記憶する優先度が最も高い部品を故障した部品として利用者に通報することを特徴とする付記1−4のいずれか1つに記載の故障検出装置。
(付記6)前記第3の記憶部は、前記部品が故障した際に故障が波及する他の部品について、各部品に付与された重み付けの値の和を算出することで得られる値を前記部品の優先度として記憶することを特徴とする付記5に記載の故障検出装置。
(付記7)前記第1の記憶部は、前記部品および当該部品が故障する要因ごとに前記波及情報を記憶し、
前記第2の記憶部は、前記部品および当該部品が故障する要因ごとに前記他の部品へ故障が波及するまで待機する待機時間を記憶し、
前記検出部は、前記部品の故障とともに、当該部品が故障した要因を検出し、
前記取得部は、前記検出部が故障を検出した部品と、前記検出部が検出した要因とに対応する前記波及情報を前記第1の記憶部から取得し、前記検出部が故障を検出した部品と、前記検出部が検出した要因とに対応する待機時間を前記第2の記憶部から取得することを特徴とする付記1−6のいずれか1つに記載の故障検出装置。
(付記8)前記通報部は、前記通報候補のうち前記取得部が取得した波及情報に含まれていない部品であって、前記利用者に通報していない部品のみを通報することを特徴とする付記1−7のいずれか1つに記載の故障検出装置。
(付記9)前記検出部は、割り込みによる故障通知を受信すると、当該故障通知から故障した部品を特定し、特定した部品が正常に動作しているか否かを判別し、特定した部品が正常に動作していない場合には、当該部品が故障していると判定することを特徴とする付記1−8のいずれか1つに記載の故障検出装置。
(付記10)情報処理装置が有する部品の故障を検出する故障検出装置が、
前記部品の故障を最初に検出した場合は、前記情報処理装置が有する部品が故障した際に故障が波及する他の部品を示す波及情報を前記部品ごとに記憶する第1の記憶装置から、該故障を検出した部品の波及情報を取得し、
前記情報処理装置が有する部品が故障した際に他の部品へ故障が波及するまで待機する待機時間を前記部品ごとに記憶する第2の記憶装置から、前記故障を検出した部品の待機時間を読み出し、
前記最初に故障を検出した部品と、前記読み出した待機時間が経過するまでの間、新たに故障した部品とを通報候補とし、当該待機時間が経過した後に、前記通報候補のうち前記取得した波及情報に含まれていない部品を故障した部品として利用者に通報する
処理を実行することを特徴とする故障検出方法。
(付記11)前記新たに故障を検出した場合は、当該新たに故障を検出した部品が前記取得した波及情報に含まれているか否かを判別し、当該新たに故障を検出した部品が前記取得した波及情報に含まれていると判別した場合には、当該新たに故障を検出した部品を通報候補から除外することを特徴とする付記10に記載の故障検出方法。
(付記12)前記新たに故障を検出した部品が前記波及情報に含まれていない場合は、当該新たに故障を検出した部品の波及情報と待機時間とを新たに取得し、
前記新たに故障を検出した部品と、前記新たに取得した待機時間の間に故障を検出した部品とを通報候補とし、当該待機時間が経過した後に、当該通報候補のうち前記新たに取得した波及情報に含まれていない部品を故障した部品として利用者に通報することを特徴とする付記11に記載の故障検出方法。
(付記13)前記第1の記憶装置は、前記部品が故障した際に故障が波及する他の部品を接続関係に基づく階層に応じた波及情報を記憶し、
前記第2の記憶装置は、前記部品が故障した際に故障が波及する他の部品のうち、最下位の階層に位置する部品から最上位の階層に位置する部品までの経路に含まれる部品から他の装置に故障が波及するまでの時間の和を該部品の待機時間として記憶することを特徴とする付記10−12のいずれか1つに記載の故障検出方法。
(付記14)前記通報候補のうち前記取得した波及情報に含まれていない部品であって、故障した部品を交換する優先度を前記情報処理装置が有する部品ごとに記憶する第3の記憶装置が記憶する優先度が最も高い部品を故障した部品として利用者に通報することを特徴とする付記10−13のいずれか1つに記載の故障検出方法。
(付記15)前記第3の記憶装置は、前記部品が故障した際に故障が波及する他の部品について、各部品に付与された重み付けの値の和を算出することで得られる値を前記部品の優先度として記憶することを特徴とする付記14に記載の故障検出方法。
(付記16)前記第1の記憶装置は、前記部品および当該部品が故障する要因ごとに前記波及情報を記憶し、
前記第2の記憶装置は、前記部品および当該部品が故障する要因ごとに前記他の部品へ故障が波及するまで待機する待機時間を記憶し、
前記部品の故障とともに、当該部品が故障した要因を検出し、
前記故障を検出した部品と、前記検出した要因とに対応する前記波及情報を前記第1の記憶装置から取得し、前記故障を検出した部品と、前記検出した要因とに対応する待機時間を前記第2の記憶装置から取得することを特徴とする付記10−15のいずれか1つに記載の故障検出方法。
(付記17)前記通報候補のうち前記取得した波及情報に含まれていない部品であって、前記利用者に通報していない部品のみを通報することを特徴とする付記10−16のいずれか1つに記載の故障検出方法。
(付記18)割り込みによる故障通知を受信すると、当該故障通知から故障した部品を特定し、特定した部品が正常に動作しているか否かを判別し、特定した部品が正常に動作していない場合には、当該部品が故障していると判定することを特徴とする付記10−17のいずれか1つに記載の故障検出方法。
(付記19)コンピュータに、
情報処理装置が有する部品の最初の故障を検出した場合は、前記情報処理装置が有する部品が故障した際に故障が波及する他の部品を示す波及情報を前記部品ごとに記憶する第1の記憶装置から、該故障を検出した部品の波及情報を取得し、
前記情報処理装置が有する部品が故障した際に他の部品へ故障が波及するまで待機する待機時間を前記部品ごとに記憶する第2の記憶装置から、前記故障を検出した部品の待機時間を読み出し、
前記最初に故障を検出した部品と、前記読み出した待機時間が経過するまでの間、新たに故障した部品とを通報候補とし、当該待機時間が経過した後に、前記通報候補のうち前記取得した波及情報に含まれていない部品を故障した部品として利用者に通報する
処理を実行させることを特徴とする故障検出プログラム。
(付記20)前記新たに故障を検出した場合は、当該新たに故障を検出した部品が前記取得した波及情報に含まれているか否かを判別し、当該新たに故障を検出した部品が前記取得した波及情報に含まれていると判別した場合には、当該新たに故障を検出した部品を通報候補から除外することを特徴とする付記19に記載の故障検出プログラム。
(付記21)前記新たに故障を検出した部品が前記波及情報に含まれていない場合は、当該新たに故障を検出した部品の波及情報と待機時間とを新たに取得し、
前記新たに故障を検出した部品と、前記新たに取得した待機時間の間に故障を検出した部品とを通報候補とし、当該待機時間が経過した後に、当該通報候補のうち前記新たに取得した波及情報に含まれていない部品を故障した部品として利用者に通報することを特徴とする付記20に記載の故障検出プログラム。
(付記22)前記第1の記憶装置は、前記部品が故障した際に故障が波及する他の部品を接続関係に基づく階層に応じた波及情報を記憶し、
前記第2の記憶装置は、前記部品が故障した際に故障が波及する他の部品のうち、最下位の階層に位置する部品から最上位の階層に位置する部品までの経路に含まれる部品から他の装置に故障が波及するまでの時間の和を該部品の待機時間として記憶することを特徴とする付記19−21のいずれか1つに記載の故障検出プログラム。
(付記23)前記通報候補のうち前記取得した波及情報に含まれていない部品であって、故障した部品を交換する優先度を前記情報処理方法が有する部品ごとに記憶する第3の記憶装置が記憶する優先度が最も高い部品を故障した部品として利用者に通報することを特徴とする付記19−22のいずれか1つに記載の故障検出プログラム。
(付記24)前記第3の記憶装置は、前記部品が故障した際に故障が波及する他の部品について、各部品に付与された重み付けの値の和を算出することで得られる値を前記部品の優先度として記憶することを特徴とする付記23に記載の故障検出プログラム。
(付記25)前記第1の記憶装置は、前記部品および当該部品が故障する要因ごとに前記波及情報を記憶し、
前記第2の記憶装置は、前記部品および当該部品が故障する要因ごとに前記他の部品へ故障が波及するまで待機する待機時間を記憶し、
前記部品の故障とともに、当該部品が故障した要因を検出し、
前記故障を検出した部品と、前記検出した要因とに対応する前記波及情報を前記第1の記憶装置から取得し、前記故障を検出した部品と、前記検出した要因とに対応する待機時間を前記第2の記憶装置から取得することを特徴とする付記19−24のいずれか1つに記載の故障検出プログラム。
(付記26)前記通報候補のうち前記取得した波及情報に含まれていない部品であって、前記利用者に通報していない部品のみを通報することを特徴とする付記19−25のいずれか1つに記載の故障検出プログラム。
(付記27)割り込みによる故障通知を受信すると、当該故障通知から故障した部品を特定し、特定した部品が正常に動作しているか否かを判別し、特定した部品が正常に動作していない場合には、当該部品が故障していると判定することを特徴とする付記19−26のいずれか1つに記載の故障検出プログラム。
1 監視対象装置
2 PSU
3 POL
4 IBC
5 ASIC
6 メモリ
7 CPU
10 故障箇所検出装置
11 障害検出部
12 部品コード変換テーブル
13 割り込み受付部
14 センサ制御部
15 部品コード変換部
16 障害解析部
17 故障箇所検索部
18 タイマ処理部
19 出力部
20 記憶部
21 故障解析データベース
22 待機時間テーブル
23 通報部
24 LED制御部
25 操作部
26 エラーログ記憶部

Claims (11)

  1. 情報処理装置が有する部品が故障した際に故障が波及する他の部品を示す波及情報を、前記部品ごとに記憶する第1の記憶部と、
    前記部品が故障した際に他の部品へ故障が波及するまで待機する待機時間を、前記部品ごとに記憶する第2の記憶部と、
    前記部品の故障を検出する検出部と、
    前記検出部が最初の故障を検出すると、当該故障が検出された部品の波及情報を前記第1の記憶部から取得し、当該故障が検出された部品の待機時間を前記第2の記憶部から取得する取得部と、
    前記検出部が最初に故障を検出した部品と、前記取得部が取得した待機時間が経過するまでの間に前記検出部が新たに故障を検出した部品とを通報候補とし、前記待機時間が経過した後に、当該通報候補のうち前記取得部が取得した波及情報に含まれていない部品を故障した部品として利用者に通報する通報部と
    を有することを特徴とする故障検出装置。
  2. 前記通報部は、前記検出部が新たに故障を検出した場合は、当該新たに故障を検出した部品が前記取得部が取得した波及情報に含まれているか否かを判別し、当該新たに故障を検出した部品が前記取得部が取得した波及情報に含まれていると判別した場合には、当該検出部が新たに故障を検出した部品を通報候補から除外することを特徴とする請求項1に記載の故障検出装置。
  3. 前記取得部は、前記検出部が新たに故障を検出した部品が前記波及情報に含まれていない場合は、当該検出部が新たに故障を検出した部品の波及情報と待機時間とを新たに取得し、
    前記通報部は、前記検出部が新たに故障を検出した部品と、前記取得部が新たに取得した待機時間の間に前記検出部が故障を検出した部品とを通報候補とし、当該待機時間が経過した後に、当該通報候補のうち前記取得部が新たに取得した波及情報に含まれていない部品を故障した部品として利用者に通報することを特徴とする請求項2に記載の故障検出装置。
  4. 前記第1の記憶部は、前記部品が故障した際に故障が波及する他の部品を接続関係に基づく階層に応じた波及情報を記憶し、
    前記第2の記憶部は、前記部品が故障した際に故障が波及する他の部品のうち、最下位の階層に位置する部品から最上位の階層に位置する部品までの経路に含まれる部品から他の装置に故障が波及するまでの時間の和を該部品の待機時間として記憶することを特徴とする請求項1−3のいずれか1つに記載の故障検出装置。
  5. 故障した部品を交換する優先度を、前記情報処理装置が有する部品ごとに記憶する第3の記憶部を有し、
    前記通報部は、前記通報候補のうち前記取得部が取得した波及情報に含まれていない部品であって、前記第3の記憶部が記憶する優先度が最も高い部品を故障した部品として利用者に通報することを特徴とする請求項1−4のいずれか1つに記載の故障検出装置。
  6. 前記第3の記憶部は、前記部品が故障した際に故障が波及する他の部品について、各部品に付与された重み付けの値の和を算出することで得られる値を前記部品の優先度として記憶することを特徴とする請求項5に記載の故障検出装置。
  7. 前記第1の記憶部は、前記部品および当該部品が故障する要因ごとに前記波及情報を記憶し、
    前記第2の記憶部は、前記部品および当該部品が故障する要因ごとに前記他の部品へ故障が波及するまで待機する待機時間を記憶し、
    前記検出部は、前記部品の故障とともに、当該部品が故障した要因を検出し、
    前記取得部は、前記検出部が故障を検出した部品と、前記検出部が検出した要因とに対応する前記波及情報を前記第1の記憶部から取得し、前記検出部が故障を検出した部品と、前記検出部が検出した要因とに対応する待機時間を前記第2の記憶部から取得することを特徴とする請求項1−6のいずれか1つに記載の故障検出装置。
  8. 前記通報部は、前記通報候補のうち前記取得部が取得した波及情報に含まれていない部品であって、前記利用者に通報していない部品のみを通報することを特徴とする請求項1−7のいずれか1つに記載の故障検出装置。
  9. 前記検出部は、割り込みによる故障通知を受信すると、当該故障通知から故障した部品を特定し、特定した部品が正常に動作しているか否かを判別し、特定した部品が正常に動作していない場合には、当該部品が故障していると判定することを特徴とする請求項1−8のいずれか1つに記載の故障検出装置。
  10. 情報処理装置が有する部品の故障を検出する故障検出装置が、
    前記部品の故障を最初に検出した場合は、前記情報処理装置が有する部品が故障した際に故障が波及する他の部品を示す波及情報を前記部品ごとに記憶する第1の記憶装置から、該故障を検出した部品の波及情報を取得し、
    前記情報処理装置が有する部品が故障した際に他の部品へ故障が波及するまで待機する待機時間を前記部品ごとに記憶する第2の記憶装置から、前記故障を検出した部品の待機時間を読み出し、
    前記最初に故障を検出した部品と、前記読み出した待機時間が経過するまでの間、新たに故障した部品とを通報候補とし、当該待機時間が経過した後に、前記通報候補のうち前記取得した波及情報に含まれていない部品を故障した部品として利用者に通報する
    処理を実行することを特徴とする故障検出方法。
  11. コンピュータに、
    情報処理装置が有する部品の最初の故障を検出した場合は、前記情報処理装置が有する部品が故障した際に故障が波及する他の部品を示す波及情報を前記部品ごとに記憶する第1の記憶装置から、該故障を検出した部品の波及情報を取得し、
    前記情報処理装置が有する部品が故障した際に他の部品へ故障が波及するまで待機する待機時間を前記部品ごとに記憶する第2の記憶装置から、前記故障を検出した部品の待機時間を読み出し、
    前記最初に故障を検出した部品と、前記読み出した待機時間が経過するまでの間、新たに故障した部品とを通報候補とし、当該待機時間が経過した後に、前記通報候補のうち前記取得した波及情報に含まれていない部品を故障した部品として利用者に通報する
    処理を実行させることを特徴とする故障検出プログラム。
JP2012151794A 2012-07-05 2012-07-05 故障検出装置、故障検出方法および故障検出プログラム Active JP5970987B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2012151794A JP5970987B2 (ja) 2012-07-05 2012-07-05 故障検出装置、故障検出方法および故障検出プログラム
US13/890,300 US20140013167A1 (en) 2012-07-05 2013-05-09 Failure detecting device, failure detecting method, and computer readable storage medium
EP13168016.7A EP2698716A2 (en) 2012-07-05 2013-05-16 Failure detecting device, failure detecting method, and failure detecting program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012151794A JP5970987B2 (ja) 2012-07-05 2012-07-05 故障検出装置、故障検出方法および故障検出プログラム

Publications (2)

Publication Number Publication Date
JP2014016671A true JP2014016671A (ja) 2014-01-30
JP5970987B2 JP5970987B2 (ja) 2016-08-17

Family

ID=48576725

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012151794A Active JP5970987B2 (ja) 2012-07-05 2012-07-05 故障検出装置、故障検出方法および故障検出プログラム

Country Status (3)

Country Link
US (1) US20140013167A1 (ja)
EP (1) EP2698716A2 (ja)
JP (1) JP5970987B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10216249B2 (en) * 2016-09-27 2019-02-26 Cisco Technology, Inc. Electrical power control and fault protection
US10599505B1 (en) * 2017-11-20 2020-03-24 Amazon Technologies, Inc. Event handling system with escalation suppression
CN112817827A (zh) * 2021-01-22 2021-05-18 中国银联股份有限公司 运维方法、装置、服务器、设备、系统及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11120036A (ja) * 1997-10-20 1999-04-30 Fujitsu Ltd 障害メッセージ出力制御システム
JP2002125006A (ja) * 2000-10-17 2002-04-26 Matsushita Electric Ind Co Ltd 根本障害を特定する通信装置及び方法
JP2009135731A (ja) * 2007-11-30 2009-06-18 Fujitsu Ltd 無線ネットワーク制御装置およびその障害処理方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5408218A (en) * 1993-03-19 1995-04-18 Telefonaktiebolaget L M Ericsson Model based alarm coordination
US6018300A (en) * 1994-12-23 2000-01-25 British Telecommunications Public Limited Company Fault monitoring
US6239699B1 (en) * 1999-03-03 2001-05-29 Lucent Technologies Inc. Intelligent alarm filtering in a telecommunications network
US20040216003A1 (en) * 2003-04-28 2004-10-28 International Business Machines Corporation Mechanism for FRU fault isolation in distributed nodal environment
US8230262B2 (en) * 2010-07-02 2012-07-24 Oracle International Corporation Method and apparatus for dealing with accumulative behavior of some system observations in a time series for Bayesian inference with a static Bayesian network model

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11120036A (ja) * 1997-10-20 1999-04-30 Fujitsu Ltd 障害メッセージ出力制御システム
JP2002125006A (ja) * 2000-10-17 2002-04-26 Matsushita Electric Ind Co Ltd 根本障害を特定する通信装置及び方法
JP2009135731A (ja) * 2007-11-30 2009-06-18 Fujitsu Ltd 無線ネットワーク制御装置およびその障害処理方法

Also Published As

Publication number Publication date
EP2698716A2 (en) 2014-02-19
JP5970987B2 (ja) 2016-08-17
US20140013167A1 (en) 2014-01-09

Similar Documents

Publication Publication Date Title
CN101159169B (zh) 用于闪存的寿命终止预测的方法和电子设备
CN104137078B (zh) 操作管理设备、操作管理方法和程序
JP5428372B2 (ja) 運用管理装置および運用管理方法ならびにそのプログラム
JP5874936B2 (ja) 運用管理装置、運用管理方法、及びプログラム
JP5686904B2 (ja) 稼働情報予測計算機、稼働情報予測方法及びプログラム
JP6152788B2 (ja) 障害予兆検知方法、情報処理装置およびプログラム
JP6091436B2 (ja) ネットワーク・イベント管理のための装置、方法、およびコンピュータ・プログラム
JP2008527554A5 (ja)
JP5970987B2 (ja) 故障検出装置、故障検出方法および故障検出プログラム
US20180120914A1 (en) Unified power device management and analyzer
CN101334744B (zh) 一种检测多处理器系统故障的方法、系统和装置
KR20080061258A (ko) 정보 처리 장치, 장해 처리 방법, 및 장해 처리 프로그램을기록한 컴퓨터 판독 가능한 기록 매체
JP2014021577A (ja) 故障予測装置、故障予測システム、故障予測方法、及び、故障予測プログラム
JP2014048782A (ja) 情報処理装置、及び情報処理装置の障害処理方法
JP4973703B2 (ja) 故障検出方法及び監視装置
Sarkar et al. Automated Incident Management for a {Platform-as-a-Service} Cloud
CN111475292A (zh) 一种服务器系统及其内处理器的频率控制装置
CN116126574A (zh) 一种系统故障诊断方法、装置、设备及存储介质
CN111625185B (zh) 一种磁盘故障监控的方法、系统及相关组件
JP2019159475A (ja) 故障検出装置および故障解析方法
JP4937194B2 (ja) アプリケーションの応答不能時を推定するシステム、方法、およびプログラム
JP5958987B2 (ja) 情報処理装置、故障診断制御装置、故障判定方法、故障判定プログラム
JP5696492B2 (ja) 故障検出装置、故障検出方法、及び、故障検出プログラム
JP5467936B2 (ja) 分散・並列処理システムの障害監視装置と方法およびプログラム
JP2015162030A (ja) 故障指摘装置、故障指摘方法および故障指摘プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150406

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160322

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160329

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160527

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160614

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160627

R150 Certificate of patent or registration of utility model

Ref document number: 5970987

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150