JP4523659B2 - 故障解析装置 - Google Patents
故障解析装置 Download PDFInfo
- Publication number
- JP4523659B2 JP4523659B2 JP2008502565A JP2008502565A JP4523659B2 JP 4523659 B2 JP4523659 B2 JP 4523659B2 JP 2008502565 A JP2008502565 A JP 2008502565A JP 2008502565 A JP2008502565 A JP 2008502565A JP 4523659 B2 JP4523659 B2 JP 4523659B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- analysis
- failure
- log
- log information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004458 analytical method Methods 0.000 title claims description 393
- 230000010365 information processing Effects 0.000 claims description 35
- 230000015654 memory Effects 0.000 claims description 33
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims 3
- 238000000034 method Methods 0.000 description 82
- 230000008569 process Effects 0.000 description 79
- 238000012545 processing Methods 0.000 description 36
- 230000001629 suppression Effects 0.000 description 14
- 230000006870 function Effects 0.000 description 13
- 230000005540 biological transmission Effects 0.000 description 10
- 238000011161 development Methods 0.000 description 8
- 238000012544 monitoring process Methods 0.000 description 6
- 230000009467 reduction Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/22—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
- G06F11/2268—Logging of test results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/079—Root cause analysis, i.e. error or fault diagnosis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computer Hardware Design (AREA)
- Test And Diagnosis Of Digital Computers (AREA)
- Debugging And Monitoring (AREA)
Description
システムボード100を単位とする従来の故障解析方法に従っていると、故障解析を行うときに、システムボード100にかかる全てのハード故障フラグを故障解析に用いる作業用メモリ域(図18に示す解析ワーク)に書き込まなくてはならないことになる。
システムボード100を単位とする従来の故障解析方法では、ボード解析情報テーブル110とシステム解析情報テーブル120という2つのテーブルを使って故障解析を行うことになるが、図16で説明したように、ボード解析情報テーブル110については、ASICの設計者やシステムボード100の設計者が作成し、システム解析情報テーブル120については、システムの設計者やシステムボード100の設計者が作成することになる。
従来の故障解析方法では、図17で説明したように、ハード故障フラグが大量に立った場合には、故障フラグバッファに格納できなくなることに合わせて、一定の検出個数をもって故障解析を中断するようにしていた。
システムボード100を単位とする従来の故障解析方法では、図19で説明したように、何らかの二次的な問題で、システムボード100に搭載されるある一つのASICからでもハード故障フラグを収集できないような事態が起こると、そのシステムボード100についての故障解析全体が不可能になってしまうという問題がある。
本発明では、論理回路を単位とする故障解析方法を用いるので、故障解析を行うべく故障発生を表示するログ情報を作業用メモリに書き込むときに、システムボードを単位とする従来の故障解析方法に比べて、大幅に少ない量のログ情報を書き込めば足りることになる。
本発明では、論理回路を単位とする故障解析方法を用いており、さらに、故障解析に用いる解析情報として、規定の内容について記述するものを用いるようにする。
本発明では、解析情報に定義された優先度の順番に従って、故障発生を表示するログ情報をチェックすることで故障解析を行うようにする。
本発明では、論理回路を単位とする故障解析方法を用いるので、ログ情報の欠落による故障解析の不可能範囲が論理回路単位となる。
11 RAS−DBファイル
12 解析処理部
20 故障解析用ファームウェア
30 割込ハンドラ
31 本体ログプロセス
32 解析用ログファイル
33 詳細ログファイル
34 本体ログ解析プロセス
40 バッファ
41 作業用メモリ
50 RAS−DB定義ファイル
51 RAS−DBジェネレータ
60 宣言部
61 定義部
62 データ定義ブロック
63 共通定義ブロック
Claims (11)
- 複数の論理回路を搭載する複数のボードを具備する情報処理装置に実装されて、それらの論理回路にどのような故障が発生したのかを解析する故障解析装置であって、
論理回路毎に論理回路の搭載されるボード番号及びボード上搭載位置に対応付けて、その論理回路から収集するログ情報について、そのログ情報が発生するときに処理すべき情報と、そのログ情報が有効なものとなる条件の情報と、そのログ情報が無効なものとなる条件の情報とについて記述する解析情報と、その解析情報の中で共通に使用する共通情報とを記憶する記憶手段と、
論理回路の故障発生時に、論理回路から故障発生を表示するログ情報を収集する収集手段と、
上記収集手段の収集したログ情報と、上記記憶手段に記憶される解析情報とに基づいて、論理回路にどのような故障が発生したのかを解析する解析手段とを備えることを、
特徴とする故障解析装置。 - 請求項1に記載の故障解析装置であって、
上記収集手段により収集された論理回路毎のログ情報について、当該ログ情報に対応する解析情報が有効な場合に当該ログ情報を上記記憶手段に格納することを、
特徴とする故障解析装置。 - 請求項2に記載の故障解析装置であって、
上記収集手段により収集された論理回路毎のログ情報について、当該ログ情報に対応する解析情報が有効であるか無効であるかの条件を判断するに際して、当該ログ情報が無効となる第1の条件について判断し、上記第1の条件が成立しない場合に、当該ログ情報が有効となる第2の条件について判断し、当該ログ情報が有効であると判断された場合に、当該ログ情報を上記記憶手段に格納することを、
特徴とする故障解析装置。 - 請求項1乃至3のいずれか1項に記載の故障解析装置であって、
論理回路毎に定義され、その論理回路に発生した故障の解析に必要となる解析情報の定義情報であるRASDB定義と、論理回路毎の上記解析情報に相当する情報を特定の記述形式に従った形式で表された解析情報に変換するための変換ルール定義とを用いて、上記記憶手段に格納する解析情報を作成することを、
特徴とする故障解析装置。 - 請求項1乃至4のいずれか1項に記載の故障解析装置において、
上記故障解析装置の起動時に、解析対象となる情報処理装置に搭載される可能性のある論理回路に適用される上記解析情報の索引に用いられる索引情報を、上記記憶手段に記憶させる第1の展開手段と、
論理回路の故障発生時に、解析対象となる情報処理装置に搭載される論理回路の情報と上記索引情報とに従って、上記解析手段の解析に必要となる上記解析情報を特定して、その特定した解析情報を上記記憶手段に記憶させる第2の展開手段とを備えることを、
特徴とする故障解析装置。 - 請求項1乃至5のいずれか1項に記載の故障解析装置であって、
上記解析情報は、さらに上記ログ情報の優先度の情報についても記述することを、
特徴とする故障解析装置。 - 請求項6に記載の故障解析装置において、
上記記憶手段は、上記ログ情報が有効なものとなる条件の情報として、どのログ情報が故障発生を示す場合という条件の情報について記述することを、
特徴とする故障解析装置。 - 請求項6に記載の故障解析装置において、
上記記憶手段は、上記ログ情報が無効なものとなる条件の情報として、どのログ情報が故障発生を示す場合という条件の情報について記述することを、
特徴とする故障解析装置。 - 請求項6乃至8のいずれか1項に記載の故障解析装置において、
上記解析手段は、上記収集手段の収集したログ情報の内、上記解析情報に記述される条件情報に基づいて有効となるものを抽出することで、論理回路にどのような故障が発生したのかを解析することを、
特徴とする故障解析装置。 - 請求項9に記載の故障解析装置において、
上記解析手段は、上記抽出したログ情報の内、上記解析情報に記述される優先度情報に基づいて優先度の高いものを抽出することを、
特徴とする故障解析装置。 - 請求項10に記載の故障解析装置において、
上記解析手段は、上記収集手段の収集したログ情報の内、上記解析情報に記述される条件情報に基づいて有効となるログ情報を抽出すると、その抽出したログ情報の優先度が規定のメモリ容量を持つバッファに格納されるログ情報の優先度よりも高い場合には、そのバッファに格納される最も優先度の低いログ情報と入れ替える形でその抽出したログ情報を格納し、その抽出したログ情報の優先度がそのバッファに格納されるログ情報の優先度よりも低い場合には、その抽出したログ情報をバッファに格納しないようにすることで、優先度の高いログ情報を抽出することを、
特徴とする故障解析装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2006/303553 WO2007099578A1 (ja) | 2006-02-27 | 2006-02-27 | 故障解析装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2007099578A1 JPWO2007099578A1 (ja) | 2009-07-16 |
JP4523659B2 true JP4523659B2 (ja) | 2010-08-11 |
Family
ID=38458701
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008502565A Expired - Fee Related JP4523659B2 (ja) | 2006-02-27 | 2006-02-27 | 故障解析装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8166337B2 (ja) |
EP (1) | EP1990722B1 (ja) |
JP (1) | JP4523659B2 (ja) |
WO (1) | WO2007099578A1 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8327193B2 (en) * | 2009-04-13 | 2012-12-04 | Seagate Technology Llc | Data storage device including a failure diagnostic log |
US20110320863A1 (en) * | 2010-06-24 | 2011-12-29 | International Business Machines Corporation | Dynamic re-allocation of cache buffer slots |
US9104583B2 (en) | 2010-06-24 | 2015-08-11 | International Business Machines Corporation | On demand allocation of cache buffer slots |
US9311176B1 (en) * | 2012-11-20 | 2016-04-12 | Emc Corporation | Evaluating a set of storage devices and providing recommended activities |
JP6123472B2 (ja) * | 2013-05-13 | 2017-05-10 | 株式会社リコー | 機器管理装置、機器管理システム、機器管理方法及びプログラム |
JP6328595B2 (ja) * | 2015-09-29 | 2018-05-23 | 東芝テック株式会社 | 情報処理装置及びプログラム |
JP2017220022A (ja) * | 2016-06-07 | 2017-12-14 | 富士通株式会社 | 情報処理装置、情報処理装置の制御方法および情報処理装置の制御プログラム |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0520109A (ja) * | 1991-07-17 | 1993-01-29 | Fujitsu Ltd | スタンドアロン型装置の診断方法 |
JPH10260861A (ja) * | 1997-03-17 | 1998-09-29 | Fujitsu Ltd | 障害調査情報装置 |
JP2001331350A (ja) * | 2000-05-19 | 2001-11-30 | Mitsubishi Electric Corp | 保守管理装置 |
JP2003162430A (ja) * | 2001-11-27 | 2003-06-06 | Mitsubishi Electric Corp | 障害情報管理装置および障害情報管理方法 |
JP2005004326A (ja) * | 2003-06-10 | 2005-01-06 | Canon Inc | 情報通知装置 |
WO2005091098A1 (ja) * | 2004-03-22 | 2005-09-29 | Digital Electronics Corporation | 表示器、コンピュータを表示器として機能させるためのプログラムプロダクト、およびそのプログラムプロダクトを格納した記録媒体 |
JP2005284357A (ja) * | 2004-03-26 | 2005-10-13 | Fujitsu Ltd | ログ解析プログラム及びログ解析装置 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5826068A (en) * | 1994-11-09 | 1998-10-20 | Adaptec, Inc. | Integrated circuit with a serial port having only one pin |
US6269098B1 (en) * | 1997-02-14 | 2001-07-31 | Advanced Micro Devices, Inc. | Method and apparatus for scaling number of virtual lans in a switch using an indexing scheme |
US6202103B1 (en) * | 1998-11-23 | 2001-03-13 | 3A International, Inc. | Bus data analyzer including a modular bus interface |
FR2789502B1 (fr) * | 1999-02-08 | 2001-08-10 | Bull Sa | Procede et outil d'analyse et de localisation de pannes materielles dans une machine informatique |
US6363452B1 (en) * | 1999-03-29 | 2002-03-26 | Sun Microsystems, Inc. | Method and apparatus for adding and removing components without powering down computer system |
US6532558B1 (en) * | 2000-03-02 | 2003-03-11 | International Business Machines Corporation | Manufacturing testing of hot-plug circuits on a computer backplane |
US6598179B1 (en) * | 2000-03-31 | 2003-07-22 | International Business Machines Corporation | Table-based error log analysis |
JP2001311766A (ja) * | 2000-04-28 | 2001-11-09 | Advantest Corp | 半導体デバイス試験装置及び試験方法 |
US6959257B1 (en) * | 2000-09-11 | 2005-10-25 | Cypress Semiconductor Corp. | Apparatus and method to test high speed devices with a low speed tester |
US7509532B2 (en) * | 2000-09-13 | 2009-03-24 | Kingston Technology Corp. | Robotic memory-module tester using adapter cards for vertically mounting PC motherboards |
US20020121913A1 (en) * | 2000-12-28 | 2002-09-05 | Advanced Micro Devices, Inc. | Tester with independent control of devices under test |
US6754817B2 (en) * | 2001-01-25 | 2004-06-22 | Dell Products L.P. | Apparatus and method for detecting a change in system hardware configuration to reduce the amount of time to execute a post routine |
US6832342B2 (en) * | 2001-03-01 | 2004-12-14 | International Business Machines Corporation | Method and apparatus for reducing hardware scan dump data |
US8166361B2 (en) * | 2001-09-28 | 2012-04-24 | Rambus Inc. | Integrated circuit testing module configured for set-up and hold time testing |
US7020815B2 (en) * | 2002-08-29 | 2006-03-28 | Micron Technology, Inc. | Memory technology test apparatus |
US7039836B2 (en) * | 2003-04-01 | 2006-05-02 | Hewlett-Packard Development Company, L.P. | High performance computer system having a firmware error queue and automatic error handling |
US7284153B2 (en) * | 2003-11-17 | 2007-10-16 | International Business Machines Corporation | Apparatus, method, and system for logging diagnostic information |
US7359831B2 (en) * | 2004-05-21 | 2008-04-15 | Bea Systems, Inc. | Diagnostic context |
US7802144B2 (en) * | 2005-04-15 | 2010-09-21 | Microsoft Corporation | Model-based system monitoring |
-
2006
- 2006-02-27 WO PCT/JP2006/303553 patent/WO2007099578A1/ja active Application Filing
- 2006-02-27 JP JP2008502565A patent/JP4523659B2/ja not_active Expired - Fee Related
- 2006-02-27 EP EP06714690.2A patent/EP1990722B1/en not_active Ceased
-
2008
- 2008-08-26 US US12/230,241 patent/US8166337B2/en not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0520109A (ja) * | 1991-07-17 | 1993-01-29 | Fujitsu Ltd | スタンドアロン型装置の診断方法 |
JPH10260861A (ja) * | 1997-03-17 | 1998-09-29 | Fujitsu Ltd | 障害調査情報装置 |
JP2001331350A (ja) * | 2000-05-19 | 2001-11-30 | Mitsubishi Electric Corp | 保守管理装置 |
JP2003162430A (ja) * | 2001-11-27 | 2003-06-06 | Mitsubishi Electric Corp | 障害情報管理装置および障害情報管理方法 |
JP2005004326A (ja) * | 2003-06-10 | 2005-01-06 | Canon Inc | 情報通知装置 |
WO2005091098A1 (ja) * | 2004-03-22 | 2005-09-29 | Digital Electronics Corporation | 表示器、コンピュータを表示器として機能させるためのプログラムプロダクト、およびそのプログラムプロダクトを格納した記録媒体 |
JP2005284357A (ja) * | 2004-03-26 | 2005-10-13 | Fujitsu Ltd | ログ解析プログラム及びログ解析装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2007099578A1 (ja) | 2007-09-07 |
JPWO2007099578A1 (ja) | 2009-07-16 |
EP1990722A1 (en) | 2008-11-12 |
US8166337B2 (en) | 2012-04-24 |
EP1990722B1 (en) | 2018-02-28 |
EP1990722A4 (en) | 2012-06-27 |
US20090006896A1 (en) | 2009-01-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4523659B2 (ja) | 故障解析装置 | |
US6829729B2 (en) | Method and system for fault isolation methodology for I/O unrecoverable, uncorrectable error | |
US6976197B2 (en) | Apparatus and method for error logging on a memory module | |
CN106933689B (zh) | 一种用于计算设备的方法和装置 | |
CN103034575B (zh) | 崩溃分析方法和装置 | |
US6845469B2 (en) | Method for managing an uncorrectable, unrecoverable data error (UE) as the UE passes through a plurality of devices in a central electronics complex | |
CN112100048B (zh) | 一种服务器自适应巡检方法及装置 | |
CN103049373B (zh) | 一种崩溃的定位方法和装置 | |
JP5495310B2 (ja) | 情報処理装置、障害解析方法及び障害解析プログラム | |
US7502956B2 (en) | Information processing apparatus and error detecting method | |
US8924773B1 (en) | Reducing file system data unavailability window by adapting hierarchical recovery framework | |
JP2008084080A (ja) | 障害情報格納システム、サービスプロセッサ、障害情報格納方法、及びプログラム | |
JP5023086B2 (ja) | 計算機システム | |
JP2019020864A (ja) | 演算装置 | |
US7308616B2 (en) | Method, apparatus, and computer program product for enhanced diagnostic test error reporting utilizing fault isolation registers | |
JP6833152B2 (ja) | 故障支援装置、故障支援プログラム及び故障支援方法 | |
JP5440673B1 (ja) | プログラマブルロジックデバイス、情報処理装置、被疑箇所指摘方法およびプログラム | |
US7337247B2 (en) | Buffer and method of diagnosing buffer failure | |
JPH07311697A (ja) | 計算機システムの故障表示方式 | |
JP2007148536A (ja) | Ram診断装置および方法 | |
JP2002288049A (ja) | Pciバス不良個所切り離し方法およびそのプログラム | |
CN117407207B (zh) | 一种内存故障处理方法、装置、电子设备及存储介质 | |
US20070179635A1 (en) | Method and article of manufacure to persistently deconfigure connected elements | |
JP2010055305A (ja) | 診断項目登録システム、方法及びプログラム | |
JP3326546B2 (ja) | コンピュータシステムの故障検知方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091006 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091207 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100525 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100527 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4523659 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130604 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130604 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |