JP5610730B2 - コンピュータシステム故障時における不良部位特定システム - Google Patents

コンピュータシステム故障時における不良部位特定システム Download PDF

Info

Publication number
JP5610730B2
JP5610730B2 JP2009205127A JP2009205127A JP5610730B2 JP 5610730 B2 JP5610730 B2 JP 5610730B2 JP 2009205127 A JP2009205127 A JP 2009205127A JP 2009205127 A JP2009205127 A JP 2009205127A JP 5610730 B2 JP5610730 B2 JP 5610730B2
Authority
JP
Japan
Prior art keywords
event
failure
events
computer system
occurrence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009205127A
Other languages
English (en)
Other versions
JP2011054136A (ja
Inventor
英太郎 野口
英太郎 野口
清史 久保田
清史 久保田
充博 加藤
充博 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Systems Ltd
Original Assignee
Hitachi Systems Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Systems Ltd filed Critical Hitachi Systems Ltd
Priority to JP2009205127A priority Critical patent/JP5610730B2/ja
Publication of JP2011054136A publication Critical patent/JP2011054136A/ja
Application granted granted Critical
Publication of JP5610730B2 publication Critical patent/JP5610730B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、コンピュータシステムの故障時において、複数事象解析により不良部位を特定するシステムに関する。
複数事象を処理するシステムとしては、例えば、特許文献1には複数事象を扱う事象処理システムが記載されている。図8は従来例1の事象処理システムの概念モデルを示している。
図8に示す従来例1のモデルは、事象データ項目の2つの入力ストリームが供給される過渡現象検出ブロック10を含んでいる。これらの入力ストリームの1番目は、低電圧事象を表す事象データ項目のストリームであり、一方、2番目は、高電圧事象を表す事象データ項目のストリームである。過渡現象検出ブロック10は、事象データ項目の出力13を生成するように構成される。(ストリーム11の事象データ項目によって示されているように)低電圧事象の後に、0.25秒のような短い時間間隔内で(ストリーム12の事象データ項目によって示されているように)高電圧が続くことを示している。
また、例えば、特許文献2には、故障診断解析システムおよび故障診断解析方法が記載されている。図9は、従来例2の故障診断解析システムの概略構成を示すブロック図を示している。
図9において、故障診断解析システムは、複数の故障に関する対応内容が各故障を特定可能な事象コード別に登録されたデータベース51と、上記複数の故障の診断が可能な自己診断回路を備える電子機器1と、電子機器1に接続され、上記自己診断回路によって診断された故障を特定する事象コードを少なくとも含む暗号化された故障解析要求メールを所定のアドレスへ送信する携帯通信端末3と、自装置のメールアドレスとして上記所定のアドレスが設定されており、携帯通信端末3から受信した上記故障解析要求メールに含まれている事象コードに基づいてデータベース51を検索して該当する対応内容を取得するとともに、該取得した対応内容を含むメールを携帯通信端末3に返信する故障解析回答装置50とを有している。
特開平7−334438号公報 特開2006−133868号公報
上記特許文献1に記載された事象処理システムは、複数事象を扱うものだが、データベースとの照合を行うものではない。また、上記特許文献2に記載された故障診断解析システムおよび故障診断解析方法は、複数故障に関するもので、複数事象解析を行うものではない。
高信頼性コンピュータシステムでは、マザーボード上にシステム管理用コントローラ(BMC:Baseboard Management Controller)が存在し、BMCが構成部品に取り付けられたセンサを監視しており、部品故障による異常状態を自動的に検出し、ログ情報として記録している。また、OS(Operating System)の状態に伴う、エラーメッセージがOS標準のロギングシステムに記録される。
部品故障時の対応としては、BMCやOSのログ情報に記録された事象毎に対処方法が決まっているが、実際には、1つの部品に故障が発生した場合、それに関連する部品でも異常が検出されるため様々な事象が記録されることとなり、不良部品を特定できずに関連部品の全交換となるケースが多々あり、効率が悪いという問題があった。
本発明は、事象のみから故障部品を特定することにより、迅速な故障復旧が可能な故障時における不良部位特定方式を提供することを目的とする。
本発明のコンピュータシステム故障時における不良部位特定システムは、コンピュータシステムのマザーボード上のシステム管理用コントローラまたはオペレーティングシステムのログ情報を記録するログ記録部と、事象のコード化部と、事象の照合部と、予め複数の事象条件と部品情報が登録されている事象データベースとを有する複数事象照合部と、を備えたコンピュータシステム故障時における不良部位特定システムにおいて、前記複数事象照合部に前記ログ記録部に記録された前記ログ情報の異常時の複数の事象入力されると、前記事象のコード化部は、入力された前記ログ情報の異常時の複数の事象のコード化を行い前記事象の照合部は、コード化した前記複数の事象を、前記複数の事象の組み合わせ、前記複数の事象の発生順序、及び前記複数の事象間の発生間隔を含む照合条件を考慮して前記事象データベースに予め登録されている複数の事象条件及び部品情報と照合し、前記コンピュータシステム内の故障部品を特定することを特徴とする。
本発明のコンピュータシステム故障時における不良部位特定システムによれば、迅速な故障復旧を行うことができる。
図1は、本発明の実施例のコンピュータシステム故障時における不良部位特定方式のシステム構成図である。 図2は、本発明の実施例のコンピュータシステム故障時における不良部位特定方式の動作のフローチャートである。 図3は、本発明の実施例のログ情報のコード化した事象のフォーマットを示す図である。 図4は、本発明の実施例のコンピュータシステム故障時における不良部位特定方式の1定義照合動作のフローチャートである。 図5は、本発明の実施例の不良部位特定方式による具体的な故障例が発生した場合の不良部位特定方式のシステム構成図である。 図6は、本発明の実施例の不良部位特定方式による故障例の発生事象の内容とコード化した事象を説明する図である。 図7は、本発明の実施例の不良部位特定方式の発生事象と事象データベースとの照合を説明する図である。 図8は、従来例1の事象処理システムである。 図9は、従来例2の故障診断解析システムおよび故障診断解析方法である。
以下、図面を用いて、本発明の実施の形態について説明する。
図1は、本発明の実施例のコンピュータシステム故障時における不良部位特定方式のシステム構成図である。図1において、100はコンピュータシステム、101はシステム管理用コントローラ(BMC)、102はベースボード、103はファン、104は電源、105はオペレーティングシステム(OS)、106はドライバ、107及び108はログ記録部を示している。
また、200は複数事象照合部、201は(2)事象のコード化、202は(3)事象の照合、210は事象データベース、300は異常情報、301は5V電源の異常、302は12V電源の異常、400はエラー情報、401はI/Oエラー、500は(4)部品の特定、600は部品交換を示している。また、矢印の記号は、事象の記録等を示し、点線の枠は事象の内容を示している。
図1において、コンピュータシステム100のシステム管理用コントローラ(BMC)101、ベースボード102、ファン103、電源104はネットワーク接続され、また、電源104により、オペレーティングシステム(OS)105のドライバ106が駆動される。
コンピュータシステム100の各種ログ情報が、システム管理用コントローラ(BMC)101のログ記録部108に記録・蓄積され、オペレーティングシステム(OS)105の各種ログ情報が、ログ記録部107に記録・蓄積される。
例えば、コンピュータシステム100内の電源104に異常(故障)が発生した場合を考えると、この故障情報は、システム管理用コントローラ(BMC)101のログ記録部108に記録される。一方、電源104の異常によりオペレーティングシステム(OS)105のドライバ106の動作にも入出力の異常(I/Oエラー)が発生し、オペレーティングシステム(OS)105のログ記録部107に入出力の異常(I/Oエラー)が記録される。
ログ記録部108に記録された異常情報300、例えば、5V電源の異常301,12V電源の異常302、及び、ログ記録部107に記録されたエラー情報400、例えば、I/Oエラー401が読み出され、複数事象照合部200に入力される。
複数事象照合部200では、入力された異常情報300,エラー情報400を基に、(2)事象のコード化201、(3)事象の照合202が行われる。事象の組み合わせ、事象の発生順序、事象の発生間隔(時間)を考慮して、事象データベース210に予め登録されている複数の事象条件と部品情報と照合して、故障部品を特定して出力する。上記の場合、ログ記録部107に記録され、複数事象照合部200に入力されたドライバ106によるI/Oエラー401が、コンピュータシステム100の電源104の異常に起因することを推論して、「電源故障」という故障部品の特定500が行われ、例えば、電源の部品交換600が行われる。
図2は、本発明の実施例のコンピュータシステム故障時における不良部位特定方式の動作のフローチャートを示している。本発明のコンピュータシステム故障時における不良部位特定方式が開始(START)される。ステップS201において、故障が発生すると、ステップS202において、発生した複数の事象を記録する。
次に、複数の事象を事象データベース210と照合する。この場合に、ステップS2031において、事象のコード化を行い、ステップS2032において、事象データベース210の1定義との照合を行う。(図4の1定義照合フローを参照。)
ステップS2032においては、上述のように、事象の組み合わせ、事象の発生順序、事象の発生間隔(時間)を基に事象データベース210に予め登録された複数の事象条件と部品情報と照合する。
ステップS2033において、事象が合致(Yes)すれば、ステップS204に移行し、事象が合致しない(No)場合には、ステップS2034に移行する。
ステップS2034では、次定義があるか否かの判定がなされ、次定義がある場合には、ステップS2035に移行して次定義に移り、ステップS2032の1定義照合フローを繰り返し、次定義がない(No)場合には、ステップS2036に移行して終了(あるいは難解障害処理)を行う。
ステップS2032において事象が合致(Yes)して、ステップS204に移行すると、ステップS204において、照合の結果、故障部品が特定され、指摘されると、ステップS205において、故障部品を交換して、コンピュータシステム故障時における不良部位特定方式を終了(END)する。
図3は、本発明の実施例のログ情報のコード化した事象のフォーマットを示す図である。ログ情報のコード化した事象110には、事象データベース210の記録された事象条件群から事象条件に定義された事象IDを照合する際に指定する順序条件、発生間隔(時間)の情報を含めることができる。
順序条件が有効な場合には、1つ前の事象条件の事象コード以降に現事象条件の事象コードが発生している場合に一致と判定し、順序条件が無効な場合には、発生順序に関係なく現定義の事象コードが発生している場合に一致と判定する。
また。発生間隔(時間)は、発生の順序条件が有効な場合に指定可能であり、前事象からの発生間隔(時間)が指定値以内の場合に一致と判定する。なお、発生間隔条件を指定しないことも可能である。
図4は、本発明の実施例のコンピュータシステム故障時における不良部位特定方式の1定義照合動作のフローチャートである。
図4のステップS2032において、1定義照合が開始されると、ステップS20321において、発生順序の条件があるか否かが判定される。
ステップS20321において、発生順序の条件がない(No)場合には、ステップS20322に移行し、発生順序の条件がある(Yes)場合には、ステップS20323に移行し、発生間隔の指定があるか否かが判定される。
ステップS20323において、発生間隔の指定がない(No)場合には、ステップS20324に移行し、発生間隔の指定がある(Yes)場合には、ステップS20325に移行する。
ステップS20322では、実事象群の中に現事象条件に定義された事象が存在するか検索し、ステップS20324では、前事象条件に一致した事象の発生後、現事象条件に定義された事象IDが存在するか検索し、ステップS20325では、前事象条件に一致した事象の発生後、指定された発生間隔以内に、現事象条件に定義された事象IDが存在するか検索して、ステップS20326に移行する。
ステップS20326において、検索結果事象があるか否かが判定され、検索結果事象がない(No)場合には、ステップS20327に移行し、不一致ということで終了し、検索結果事象がある(Yes)場合には、ステップS20328に移行する。
ステップS20328において、全事象条件を照合したか否かが判定され、全事象条件を照合した(Yes)場合には、ステップS20329に移行し、合致ということで終了し、全事象条件を照合していない(No)場合には、ステップS20330において、次の事象IDに移行して、ステップS20321からの動作フローを繰り返す。
図5〜7は、本発明の実施例の不良部位特定方式による具体的な故障例1,2が発生した場合の不良部位特定方式のシステム構成図、事象のコード化、事象の照合の説明図である。
図5は、具体的な故障例1(ベースボード故障),故障例2(電源故障)が発生しした場合の不良部位特定方式のシステム構成図を示している。図5において、100はコンピュータシステム、101はシステム管理用コントローラ(BMC)、102はベースボード、103はファン、104は電源、105はオペレーティングシステム(OS)、106はドライバ、107及び108はログ記録部、109はHDDを示している。
図6は、本発明の実施例の不良部位特定方式の(2)事象のコード化201の故障例の発生事象の内容とコード化した事象を説明する図である。故障例1(ベースボード故障)の場合に発生した発生事象の内容(事象A,B,C)と発生時刻がコード化されて、事象ID−A,ID−B,ID−Cと時刻情報となり、同様に、故障例2(電源故障)の場合に発生した発生事象の内容(事象A,B,C)と発生時刻がコード化されて、事象ID−A,ID−B,ID−Cと時刻情報となる。
図7は、具体的な故障例1(ベースボード故障),故障例2(電源故障)が発生しした場合の不良部位特定方式の(3)事象の照合と(4)部品の特定を示している。
図7において、故障例1(ベースボード故障)と故障例2(電源故障)の事象ID−A,ID−B,ID−Cと時刻情報を事象データベース210の事象条件群と照合する。
事象の照合は、定義1から定義4のように定義順に照合し一致した時点で照合を終了する。また、一つの定義について、事象条件を、事象ID,順序条件,発生間隔(時間)の順に照合し、一致しなかった時点で現定義の照合を中断し、照合は次の定義に移る。
故障例1(ベースボード故障)と故障例2(電源故障)について、事象ID−A,ID−B,ID−Cと時刻情報を基に照合を行うと、定義1の場合には、事象ID−Dが発生していないので発生事象が定義と一致しない。
また、定義2の場合には、事象ID−Aが事象ID−B後に発生しているので、発生順序が定義と一致しない。
故障例1の場合には、事象Cは発生時刻が00:00:30で、事象Bの発生時刻00:00:05の後、発生間隔が25秒相当であり、事象ID−C(順序有,間隔1分)以内という条件に合致するため、定義3に合致し、部品情報から、故障部品がベースボードであることが特定できる。
一方、故障例2の場合には、事象Cは発生時刻が00:02:00で、事象Bの発生時刻00:00:05の後、発生間隔が1分55秒相当であり、事象ID−C(順序有,間隔1分)という条件に合致せず、定義3に合致しない。しかし、定義4の事象ID−C(順序有)という条件に合致するために、定義3に合致し、部品情報から、故障部品が電源であることが特定できる。
以上の故障例1,2は一例であるが、故障例の事象IDの組み合わせ、事象の発生順序、事象の発生間隔(時間)により、種々の故障部品を特定し交換することが可能である。
本発明のコンピュータシステム故障時における不良部位特定方式は、障害解析ツール(保守ツール)として広範囲な利用が可能である。
100 コンピュータシステム
101 システム管理用コントローラ(BMC)
102 ベースボード
103 ファン
104 電源
105 オペレーティングシステム(OS)
106 ドライバ
107 ログ記録部
108 ログ記録部
109 HHD
110 ログ情報のコード化した事象
200 複数事象照合部
201 (2)事象のコード化
202 (3)事象の照合
210 事象データベース
300 異常情報
301 5V電源の異常
302 12V電源の異常
400 エラー情報
401 1/0エラー
500 (4)部品の特定
600 部品交換

Claims (1)

  1. コンピュータシステムのマザーボード上のシステム管理用コントローラまたはオペレーティングシステムのログ情報を記録するログ記録部と、
    事象のコード化部と、事象の照合部と、予め複数の事象条件と部品情報が登録されている事象データベースとを有する複数事象照合部と、を備えたコンピュータシステム故障時における不良部位特定システムにおいて、
    前記複数事象照合部に前記ログ記録部に記録された前記ログ情報の異常時の複数の事象入力されると
    前記事象のコード化部は、入力された前記ログ情報の異常時の複数の事象のコード化を行い
    前記事象の照合部は、コード化した前記複数の事象を、前記複数の事象の組み合わせ、前記複数の事象の発生順序、及び前記複数の事象間の発生間隔を含む照合条件を考慮して前記事象データベースに予め登録されている複数の事象条件及び部品情報と照合し、前記コンピュータシステム内の故障部品を特定することを特徴とするコンピュータシステム故障時における不良部位特定システム
JP2009205127A 2009-09-04 2009-09-04 コンピュータシステム故障時における不良部位特定システム Expired - Fee Related JP5610730B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009205127A JP5610730B2 (ja) 2009-09-04 2009-09-04 コンピュータシステム故障時における不良部位特定システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009205127A JP5610730B2 (ja) 2009-09-04 2009-09-04 コンピュータシステム故障時における不良部位特定システム

Publications (2)

Publication Number Publication Date
JP2011054136A JP2011054136A (ja) 2011-03-17
JP5610730B2 true JP5610730B2 (ja) 2014-10-22

Family

ID=43943027

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009205127A Expired - Fee Related JP5610730B2 (ja) 2009-09-04 2009-09-04 コンピュータシステム故障時における不良部位特定システム

Country Status (1)

Country Link
JP (1) JP5610730B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5672225B2 (ja) * 2011-12-19 2015-02-18 日本電気株式会社 ハードウェア管理装置、情報処理装置、ハードウェア管理方法、および、コンピュータ・プログラム
JP6572722B2 (ja) * 2015-10-16 2019-09-11 富士通株式会社 事象発生通知プログラム、事象発生通知方法、及び、事象発生通知装置
JP2019145024A (ja) * 2018-02-23 2019-08-29 富士通株式会社 判定プログラム、判定方法、および情報処理装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69432746T2 (de) * 1994-06-10 2004-03-25 Hewlett-Packard Co. (N.D.Ges.D.Staates Delaware), Palo Alto Ereignisverarbeitungssystem und Verfahren zur Herstellen eines solchen Systems
JPH1196039A (ja) * 1997-09-25 1999-04-09 Mitsubishi Heavy Ind Ltd 異常診断装置
JP2006133868A (ja) * 2004-11-02 2006-05-25 Nec Fielding Ltd 故障診断解析システムおよび故障診断解析方法
JP2007172131A (ja) * 2005-12-20 2007-07-05 Nec Fielding Ltd 障害予測システム、障害予測方法、障害予測プログラム

Also Published As

Publication number Publication date
JP2011054136A (ja) 2011-03-17

Similar Documents

Publication Publication Date Title
JPWO2004061681A1 (ja) 運用管理方法および運用管理サーバ
CN107577545B (zh) 一种故障磁盘检测与修复方法和装置
US9183106B2 (en) System and method for the automated generation of events within a server environment
US7509539B1 (en) Method for determining correlation of synchronized event logs corresponding to abnormal program termination
CN111324192A (zh) 一种系统板卡电源检测方法、装置、设备及存储介质
US7461303B2 (en) Monitoring VRM-induced memory errors
CN104718533A (zh) 企业设备的强健硬件故障管理系统、方法及架构
JP4598065B2 (ja) 監視シミュレーション装置,方法およびそのプログラム
US9104574B2 (en) System and method for software application remediation
CN103207820A (zh) 基于raid卡日志的硬盘的故障定位方法及装置
CN112152823B (zh) 网站运行错误监控方法、装置及计算机存储介质
CN109491819A (zh) 一种诊断服务器故障的方法和系统
JP5610730B2 (ja) コンピュータシステム故障時における不良部位特定システム
CN110088744A (zh) 一种数据库维护方法及其系统
CN113672456A (zh) 应用平台的模块化自监听方法、系统、终端及存储介质
Gurumdimma et al. Towards detecting patterns in failure logs of large-scale distributed systems
US10938623B2 (en) Computing element failure identification mechanism
CN109284331B (zh) 基于业务数据资源的制证信息获取方法、终端设备及介质
JP5803246B2 (ja) ネットワーク運用管理システム、ネットワーク監視サーバ、ネットワーク監視方法およびプログラム
WO2011051999A1 (ja) 情報処理装置及び情報処理装置の制御方法
CN113778759B (zh) 一种数据分发过程中的失败检测及恢复方法
CN116126574A (zh) 一种系统故障诊断方法、装置、设备及存储介质
US20080189315A1 (en) Method and server system for creating sensor data record
JP2008198123A (ja) 障害検知システム及び障害検知プログラム
JP2004086278A (ja) 装置障害監視方法および装置障害監視システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120807

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140128

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140327

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140805

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140902

R150 Certificate of patent or registration of utility model

Ref document number: 5610730

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees