JP5423677B2 - 障害解析装置、コンピュータプログラムおよび障害解析方法 - Google Patents
障害解析装置、コンピュータプログラムおよび障害解析方法 Download PDFInfo
- Publication number
- JP5423677B2 JP5423677B2 JP2010523756A JP2010523756A JP5423677B2 JP 5423677 B2 JP5423677 B2 JP 5423677B2 JP 2010523756 A JP2010523756 A JP 2010523756A JP 2010523756 A JP2010523756 A JP 2010523756A JP 5423677 B2 JP5423677 B2 JP 5423677B2
- Authority
- JP
- Japan
- Prior art keywords
- failure
- topology information
- abnormal
- functional
- function element
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004458 analytical method Methods 0.000 title claims description 99
- 238000004590 computer program Methods 0.000 title claims 3
- 230000007488 abnormal function Effects 0.000 claims description 90
- 230000002159 abnormal effect Effects 0.000 claims description 31
- 230000005856 abnormality Effects 0.000 claims description 22
- 238000001514 detection method Methods 0.000 claims description 22
- 238000012545 processing Methods 0.000 description 34
- 238000007726 management method Methods 0.000 description 32
- 238000012544 monitoring process Methods 0.000 description 31
- 230000006870 function Effects 0.000 description 24
- 238000000034 method Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 9
- 239000004744 fabric Substances 0.000 description 4
- 238000011835 investigation Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 101001109137 Homo sapiens Receptor-interacting serine/threonine-protein kinase 2 Proteins 0.000 description 2
- 101000733257 Homo sapiens Rho guanine nucleotide exchange factor 28 Proteins 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 2
- 102100022502 Receptor-interacting serine/threonine-protein kinase 2 Human genes 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013070 change management Methods 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/079—Root cause analysis, i.e. error or fault diagnosis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Debugging And Monitoring (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Description
本願は、2008年8月4日に、日本に出願された特願2008−201272号に基づき優先権を主張し、その内容をここに援用する。
第1の手段は障害解析装置であって、システムのトポロジを表す情報であって、システムを構成する各装置に属するハードウェアおよびソフトウェアに関する機能要素と、各機能要素間のリンクとからなるシステムトポロジ情報を記憶するシステムトポロジ情報記憶部と、異常動作を発現した機能要素である異常機能要素に係る異常検知情報を取得する異常検知情報取得部と、異常検知情報取得部によって取得された異常検知情報と、システムトポロジ情報記憶部に記憶されているシステムトポロジ情報とに基づいて、システム障害の原因と予想される機能要素である障害原因機能要素を特定する障害原因特定部とを備え、システムトポロジ情報内のリンクは、障害時における機能要素間の異常動作の伝播方向を示す情報を有し、障害原因特定部は、異常検知情報取得部が複数の異常機能要素に係る異常検知情報を取得した場合に、複数の異常機能要素のなかから一の異常機能要素を順次選択し、選択している一の異常機能要素から選択していない他の異常機能要素への方向がシステムトポロジ情報内の伝播方向と整合するか否かを判断し、整合すると判断したときは、選択している一の異常機能要素を障害原因機能要素として特定する。
10 サーバ
20 クライアント
30 スイッチ
40 従来の障害解析装置
50 障害解析装置
51 障害解析装置
60 システム構成管理装置
100 コンピュータハードウェア
101 ネットワークカード
102 HDD
103 CPU
104 メインメモリ
109 障害監視部
110 オペレーティングシステム
111 ネットワークドライバ
112 HDDドライバ
113 ネットワークプロトコル
114 メモリ管理部
119 障害監視部
120 サーバアプリケーション
121 アプリケーション実行部
129 障害監視部
200 コンピュータハードウェア
201 ネットワークカード
202 HDD
203 CPU
204 メインメモリ
209 障害監視部
210 オペレーティングシステム
211 ネットワークドライバ
212 HDDドライバ
213 ネットワークプロトコル
214 メモリ管理部
219 障害監視部
220 クライアントアプリケーション
221 アプリケーション実行部
229 障害監視部
300 スイッチハードウェア
301 ネットワークインターフェイス(NWI/F)
302 ネットワークインターフェイス(NWI/F)
303 ネットワークインターフェイス(NWI/F)
304 スイッチファブリック
305 CPU
306 メモリ
309 障害監視部
310 オペレーティングシステム
311 スイッチドライバ
312 メモリ管理部
319 障害監視部
320 スイッチアプリケーション
321 ルーティングプロトコル
329 障害監視部
401 障害収集部
402 検索部
403 障害解析テーブル
404 障害通知部
501 障害収集部
504 障害通知部
505 基本トポロジ情報記憶部
506 システムトポロジ情報記憶部
507 障害トポロジ情報記憶部
508 システムトポロジ管理部
509 システムトポロジ情報生成部
510 障害トポロジ情報生成部
511 障害アルゴリズム処理部
Claims (7)
- ハードウェア及びソフトウェアを含む機能要素から構成されるコンピュータシステムの障害解析装置であって、
前記機能要素に関する情報と、前記機能要素間のリンクであって、障害時における前記機能要素間の異常動作の伝播方向を示す情報とを含むシステムトポロジ情報を記憶するシステムトポロジ情報記憶部と、
異常動作を発現した前記機能要素である異常機能要素に係る異常検知情報を取得する異常検知情報取得部と、
前記異常検知情報が示す異常機能要素および前記システムトポロジ情報が示す機能要素間の異常動作の伝播方向に対する整合性に基づいて、障害の原因と予想される前記機能要素である障害原因機能要素を特定する障害原因特定部と、
を具備する障害解析装置。 - 前記障害原因特定部は、
前記異常機能要素が複数である場合、前記複数の異常機能要素のなかから一の異常機能要素を順次選択し、前記選択した異常機能要素から他の異常機能要素への異常動作の伝播方向が前記システムトポロジ情報内の前記伝播方向と整合するとき、前記選択した異常機能要素を前記障害原因機能要素として特定する請求項1に記載の障害解析装置。 - 前記障害解析装置は、前記システムトポロジ情報を参照し、前記複数の異常機能要素と、前記各異常機能要素間のリンクとからなる障害トポロジ情報を生成する障害トポロジ情報生成部を更に備え、
前記障害原因特定部は、
前記選択した異常機能要素から他の異常機能要素への異常動作の伝播方向が前記障害トポロジ情報内の前記伝播方向と整合するときは、前記選択した異常機能要素を前記障害原因機能要素として特定する請求項2に記載の障害解析装置。 - 前記障害解析装置は、
前記コンピュータシステムを構成する各装置に含まれるレイヤ毎に、前記レイヤに属する前記機能要素と、当該レイヤ内における前記各機能要素間のリンクとからなる基本トポロジ情報を記憶する基本トポロジ情報記憶部と、
前記コンピュータシステムの構成を示す情報と、前記基本トポロジ情報とを参照し、前記システムトポロジ情報を生成するシステムトポロジ情報生成部と
を更に備える請求項1から3のいずれか一項に記載の障害解析装置。 - 前記システムトポロジ情報生成部は、
複数の異常機能要素を参照し、前記システムトポロジ情報のリンクの一部を一旦封鎖して木構造になるように更新する請求項4に記載の障害解析装置。 - コンピュータ読み出し可能な記録媒体に格納され、ハードウェア及びソフトウェアを含む機能要素から構成されるコンピュータシステムにおいて障害解析を行うコンピュータプログラムであって、
前記機能要素に関する情報と、前記機能要素間のリンクであって、障害時における前記機能要素間の異常動作の伝播方向を示す情報とを含むシステムトポロジ情報を生成し、
異常動作を発現した前記機能要素である異常機能要素に係る異常検知情報を取得し、
前記異常検知情報が示す異常機能要素および前記システムトポロジ情報が示す機能要素間の異常動作の伝播方向に対する整合性に基づいて、障害の原因と予想される前記機能要素である障害原因機能要素を特定する、
を実行する命令語を具備するコンピュータプログラム。 - ハードウェア及びソフトウェアを含む機能要素から構成されるコンピュータシステムにおける障害解析方法であって、
前記機能要素に関する情報と、前記機能要素間のリンクであって、障害時における前記機能要素間の異常動作の伝播方向を示す情報とを含むシステムトポロジ情報を生成するステップと、
異常動作を発現した前記機能要素である異常機能要素に係る異常検知情報を取得するステップと、
前記異常検知情報が示す異常機能要素および前記システムトポロジ情報が示す機能要素間の異常動作の伝播方向に対する整合性に基づいて、障害の原因と予想される前記機能要素である障害原因機能要素を特定するステップと、
を具備する障害解析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010523756A JP5423677B2 (ja) | 2008-08-04 | 2009-08-04 | 障害解析装置、コンピュータプログラムおよび障害解析方法 |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008201272 | 2008-08-04 | ||
JP2008201272 | 2008-08-04 | ||
PCT/JP2009/003715 WO2010016239A1 (ja) | 2008-08-04 | 2009-08-04 | 障害解析装置 |
JP2010523756A JP5423677B2 (ja) | 2008-08-04 | 2009-08-04 | 障害解析装置、コンピュータプログラムおよび障害解析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2010016239A1 JPWO2010016239A1 (ja) | 2012-01-19 |
JP5423677B2 true JP5423677B2 (ja) | 2014-02-19 |
Family
ID=41663468
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010523756A Expired - Fee Related JP5423677B2 (ja) | 2008-08-04 | 2009-08-04 | 障害解析装置、コンピュータプログラムおよび障害解析方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8635496B2 (ja) |
JP (1) | JP5423677B2 (ja) |
WO (1) | WO2010016239A1 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8583789B2 (en) | 2011-03-28 | 2013-11-12 | Hitachi, Ltd. | Computer system management method and management apparatus |
US8713356B1 (en) | 2011-09-02 | 2014-04-29 | Emc Corporation | Error detection and recovery tool for logical volume management in a data storage system |
WO2013140608A1 (ja) * | 2012-03-23 | 2013-09-26 | 株式会社日立製作所 | イベントの根本原因の解析を支援する方法及びシステム |
JP6305258B2 (ja) * | 2014-07-25 | 2018-04-04 | 三菱電機株式会社 | 情報処理装置及び情報処理方法及びプログラム |
CN106155899B (zh) * | 2015-04-17 | 2019-02-26 | 比亚迪股份有限公司 | 多媒体程序缺陷的定位方法和系统 |
US11386154B2 (en) | 2016-04-11 | 2022-07-12 | Kpit Technologies Limited | Method for generating a graph model for monitoring machinery health |
JP6820473B2 (ja) | 2017-01-18 | 2021-01-27 | 富士通株式会社 | 影響範囲特定プログラム、影響範囲特定方法、および影響範囲特定装置 |
US10805144B1 (en) * | 2019-06-18 | 2020-10-13 | Cisco Technology, Inc. | Monitoring interactions between entities in a network by an agent for particular types of interactions and indexing and establishing relationships of the components of each interaction |
CN115542067A (zh) * | 2021-06-30 | 2022-12-30 | 华为技术有限公司 | 一种故障检测方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11338804A (ja) * | 1998-05-27 | 1999-12-10 | Nec Corp | ネットワーク構成管理対象アクセスシステム及び方法 |
JP2001256032A (ja) * | 2000-03-14 | 2001-09-21 | Mitsubishi Electric Corp | 障害メッセージ表示装置 |
JP2006133983A (ja) * | 2004-11-04 | 2006-05-25 | Hitachi Ltd | 情報処理装置、情報処理装置の制御方法、及びプログラム |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11259331A (ja) | 1998-03-13 | 1999-09-24 | Nippon Telegr & Teleph Corp <Ntt> | ネットワークにおける障害箇所検出方法及び装置及びネットワークにおける障害箇所検出プログラムを格納した記憶媒体 |
JP3530036B2 (ja) | 1998-08-21 | 2004-05-24 | 日本電信電話株式会社 | マルチレイヤネットワーク故障影響範囲推定方法及びその装置 |
US7096459B2 (en) | 2002-09-11 | 2006-08-22 | International Business Machines Corporation | Methods and apparatus for root cause identification and problem determination in distributed systems |
US7340649B2 (en) * | 2003-03-20 | 2008-03-04 | Dell Products L.P. | System and method for determining fault isolation in an enterprise computing system |
GB0325560D0 (en) * | 2003-10-31 | 2003-12-03 | Seebyte Ltd | Intelligent integrated diagnostics |
JP2005258501A (ja) | 2004-03-09 | 2005-09-22 | Mitsubishi Electric Corp | 障害影響範囲解析システム及び障害影響範囲解析方法及びプログラム |
US7516362B2 (en) * | 2004-03-19 | 2009-04-07 | Hewlett-Packard Development Company, L.P. | Method and apparatus for automating the root cause analysis of system failures |
US7631222B2 (en) * | 2004-08-23 | 2009-12-08 | Cisco Technology, Inc. | Method and apparatus for correlating events in a network |
JP4172807B2 (ja) * | 2006-09-08 | 2008-10-29 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 障害発生の原因箇所の発見を支援する技術 |
JP2008066668A (ja) | 2006-09-11 | 2008-03-21 | Toshiba Corp | 半導体装置及びその製造方法 |
US7529974B2 (en) * | 2006-11-30 | 2009-05-05 | Microsoft Corporation | Grouping failures to infer common causes |
WO2010062435A1 (en) * | 2008-09-04 | 2010-06-03 | Telcordia Technologies, Inc. | Computing diagnostic explanations of network faults from monitoring data |
US8639986B2 (en) * | 2010-09-28 | 2014-01-28 | Lsi Corporation | Firmware tracing in a storage data communication system |
-
2009
- 2009-08-04 JP JP2010523756A patent/JP5423677B2/ja not_active Expired - Fee Related
- 2009-08-04 WO PCT/JP2009/003715 patent/WO2010016239A1/ja active Application Filing
- 2009-08-04 US US13/057,365 patent/US8635496B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11338804A (ja) * | 1998-05-27 | 1999-12-10 | Nec Corp | ネットワーク構成管理対象アクセスシステム及び方法 |
JP2001256032A (ja) * | 2000-03-14 | 2001-09-21 | Mitsubishi Electric Corp | 障害メッセージ表示装置 |
JP2006133983A (ja) * | 2004-11-04 | 2006-05-25 | Hitachi Ltd | 情報処理装置、情報処理装置の制御方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
US8635496B2 (en) | 2014-01-21 |
JPWO2010016239A1 (ja) | 2012-01-19 |
WO2010016239A1 (ja) | 2010-02-11 |
US20110145647A1 (en) | 2011-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5423677B2 (ja) | 障害解析装置、コンピュータプログラムおよび障害解析方法 | |
US20160294650A1 (en) | System and method for diagnosing database network integrity using application business groups & application epicenters | |
JP4948679B1 (ja) | サーボ制御装置の異常診断装置および異常診断システム | |
JP6280862B2 (ja) | イベント分析システムおよび方法 | |
US20120143947A1 (en) | Method, apparatus, and program for usability analysis of web applications | |
CN106790131B (zh) | 一种参数修改方法、装置及分布式平台 | |
JP2005516276A (ja) | 検出および/または制御環境用のオブジェクト指向フレームワーク・アーキテクチャ | |
WO2016028669A1 (en) | Systems and methods for correlating derived metrics for system activity | |
US10552513B1 (en) | Computer system entity rendering system | |
US10599476B2 (en) | Device and method for acquiring values of counters associated with a computational task | |
JP6837017B2 (ja) | 作業手順提示装置及び作業手順提示方法、並びに、自動制御装置及び自動制御方法 | |
KR101656012B1 (ko) | It 인프라 품질 감시 시스템 및 방법 | |
JP5505966B2 (ja) | 障害管理システム及び方法 | |
JP2018010430A (ja) | 制御システムの遠隔監視を行う装置およびシステム | |
KR20140145259A (ko) | 컴포넌트 기반 시스템의 이상 상태 분석 장치 및 그 방법 | |
US8972789B2 (en) | Diagnostic systems for distributed network | |
JP2006092053A (ja) | システム使用率管理装置及びそれに用いるシステム使用率管理方法並びにそのプログラム | |
CN107133189B (zh) | 用于机器仪器的隔离通信结构 | |
JP6992959B2 (ja) | 通信処理システム、通信処理装置、通信処理方法および通信処理プログラム | |
JP2015064872A (ja) | 監視システム、システム及び監視方法 | |
JP2018045637A (ja) | 監視システム、情報処理装置、制御方法及び制御プログラム | |
JP2009237807A (ja) | 脆弱性診断実施装置および診断スケジュール作成プログラム | |
US20220035359A1 (en) | System and method for determining manufacturing plant topology and fault propagation information | |
JP4965239B2 (ja) | 遠隔監視システム | |
JP2008293103A (ja) | 分散配置装置及び仮想装置の配置方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120712 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130409 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130610 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131029 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131111 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5423677 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |