JP5419819B2 - 計算機システムの管理方法、及び管理システム - Google Patents

計算機システムの管理方法、及び管理システム Download PDF

Info

Publication number
JP5419819B2
JP5419819B2 JP2010161724A JP2010161724A JP5419819B2 JP 5419819 B2 JP5419819 B2 JP 5419819B2 JP 2010161724 A JP2010161724 A JP 2010161724A JP 2010161724 A JP2010161724 A JP 2010161724A JP 5419819 B2 JP5419819 B2 JP 5419819B2
Authority
JP
Japan
Prior art keywords
failure
analysis result
event
node device
failure analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010161724A
Other languages
English (en)
Other versions
JP2012022614A (ja
JP2012022614A5 (ja
Inventor
崇之 永井
雅 國井
峰義 増田
沢希 黒田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2010161724A priority Critical patent/JP5419819B2/ja
Priority to CN201080067454.0A priority patent/CN102959521B/zh
Priority to PCT/JP2010/062696 priority patent/WO2012008058A1/ja
Priority to EP10854740.7A priority patent/EP2562651A4/en
Priority to US12/995,133 priority patent/US8429455B2/en
Publication of JP2012022614A publication Critical patent/JP2012022614A/ja
Publication of JP2012022614A5 publication Critical patent/JP2012022614A5/ja
Application granted granted Critical
Publication of JP5419819B2 publication Critical patent/JP5419819B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0604Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Environmental & Geological Engineering (AREA)
  • Debugging And Monitoring (AREA)

Description

本発明は、計算機システムの管理方法及び管理システムに関し、例えば、計算機システムを構成するホストコンピュータ、ネットワークスイッチおよびストレージシステムの障害を管理する技術に関する。
計算機システムを管理する場合、例えば特許文献1に示されるように、システム内で検知した複数の障害もしくはその兆候の中から、原因となる事象(イベント)を検出することが行われている。より具体的に、特許文献1では、管理ソフトウェアを用いて、管理下機器における性能値の閾値超過をイベント化し、イベントDBに情報を蓄積する。また、この管理ソフトウェアトは、管理下機器において発生した複数の障害イベントの因果関係を解析するための解析エンジンを持っている。この解析エンジンは、管理下機器のインベントリ情報を持つ構成DBにアクセスして、I/O系路上のパス上にある機器内構成要素を認識し、ホスト上の論理ボリュームの性能に影響を与えうる構成要素を「トポロジ」と呼ばれる一グループとして認識する。そして、解析エンジンは、イベントが発生すると各トポロジに対し、事前に定められた条件文と解析結果からなる解析ルールを適用して展開ルールを構築する。この展開ルールには、他装置における性能低下の原因である原因イベントと、それによって引き起こされている関連イベント群が含まれる。具体的には、ルールのTHEN部に障害の根本原因として記載されているイベントが原因イベント、IF部に記載されているイベントのうち原因イベント以外のものが関連イベントである。
米国特許7107185号公報
特許文献1による障害解析機能では、管理対象機器から受信するイベントの組み合わせと、障害の原因候補をIF−THEN形式のルールとして記述しておく。障害解析機能は、ルールのIF部に記載されたイベントの発生割合を計算することで、THEN部に記載された障害原因候補の確信度を算出する。算出した確信度と障害原因候補は、ユーザの求めに応じてGUI表示される。
しかしながら、このような従来の障害解析機能においては、障害が短い期間に頻発すると、保存される障害解析結果の数が多くなってしまい、管理者としてはどれが本当に対処すべき障害なのか判断できないことがある。つまり、従来の障害解析結果には対策実行優先度に関する情報がないため、管理者が本来対策を行うべき解析結果を参照するまでの時間が長くなり、結果的に障害の解消までに要する時間が長くなってしまう。
本発明はこのような状況に鑑みてなされたものであり、監視対象の機器における障害を解消させるために要する時間を短くすることができる障害解析機能を提供するものである。
上記課題を解決するために、本発明では、障害原因解析処理の後に、異常状態にあった機器のステータス正常化を検知したとき、障害解析結果のうち、その導出根拠となった機器異常状態が解消したものについて他の解析結果と区別してGUIに表示する。障害解析結果が複数の障害イベントにより導出された場合は、全ての障害イベントの正常化を確認した時点で、他の障害解析結果とは区別してGUIに表示する。
また、本発明では、管理対象機器において業務に支障をきたす事態となっていないにもかかわらず発生し、発生後すぐに正常化する障害イベントを受信した場合、異常状態にあった機器のステータス正常化を検知し、その導出根拠となった機器異常状態が全て解消した時点で障害原因候補を確信度と共に障害解析結果として保存する。また、障害解析結果について他の解析結果と区別してGUIに表示する。
即ち、本発明では、管理サーバにおいて、ノード装置の処理性能を示す処理性能値を取得し、当該取得した処理性能値からノード装置の状態を検知し、検知した状態を、ノード装置で発生し得る1つ以上の条件イベントの組み合わせと条件イベントの組み合わせの根本原因とされる結論イベントとの関係を示す解析ルールに適用する。そして、ノード装置における障害の発生の可能性を示す情報である確信度を算出し、確信度からノード装置に障害が発生したか否か判断する。また、管理サーバにおいて、障害が発生したと判断されたノード装置について、確信度の情報は変更せずに、状態が異常のままのノード装置の障害解析結果である未解決障害解析結果と状態が異常から正常に変化したノード装置の障害解析結果である解決済障害解析結果とを表示画面に表示する。解析結果を表示する場合には、未解決障害解析結果と解決済障害解析結果とを区別して表示画面に表示したり、未解決障害解析結果及び解決済障害結果に対して、処理優先度を併せて表示画面に表示するようにしても良い。
さらなる本発明の特徴は、以下本発明を実施するための形態および添付図面によって明らかになるものである。
本発明によれば、障害解析結果を管理者(ユーザ)に提示する際、受信した障害の正常化を反映して表示することにより、管理者が解析結果の対応優先度を容易に判断でき、解析結果確認に要する負荷を軽減することができる。
計算機システムの物理構成例を示す図である。 ホストコンピュータの詳細な構成例を示す図である。 ストレージ装置の詳細な構成例を示す図である。 管理サーバの詳細な構成例を示す図である。 管理サーバが有する装置性能管理表の構成例を示す図である。 管理サーバが有するボリュームトポロジ管理表の構成例を示す図である。 管理サーバが有するイベント管理表の構成例を示す図である。 管理サーバが有する汎用ルールの構成例(1)を示す図である。 管理サーバが有する汎用ルールの構成例(2)を示す図である。 管理サーバが有する展開ルールの構成例(1)を示す図である。 管理サーバが有する展開ルールの構成例(2)を示す図である。 管理サーバが有する展開ルールの構成例(3)を示す図である。 管理サーバが有する展開ルールの構成例(4)を示す図である。 管理サーバが有する解析結果管理表の構成例を示す図である。 管理サーバが実施する性能情報取得処理の概要を説明するためのフローチャートである。 管理サーバが実施する障害解析処理を説明示するためのフローチャートである。 管理サーバが有するイベント種別管理表の構成例を示す図である。 管理サーバが有する性能メトリック管理表の構成例を示す図である。 第1の実施形態において、管理サーバが実行する解決済みイベント反映処理を説明するためのフローチャートである。 第1の実施形態において、管理サーバが表示する障害解析結果画面の構成例を示す図である。 第2の実施形態において、管理サーバが実行する瞬間障害イベント反映処理を説明するためのフローチャートである。 第2の実実施形態において、管理サーバが表示する障害解析結果画面の構成例を示す図である。 実施例3において管理サーバが具備する解析結果管理表の構成例を示す図である。 第3の実施形態において、管理サーバが実行する障害解析結果の対処優先度設定処理を説明するためのフローチャートである。 第3の実施形態において、管理サーバが表示する障害解析結果画面の構成例を示す図である。
本発明の実施形態は、障害の解消を加味した障害根本原因解析に関するものである。
以下、添付図面を参照して本発明の実施形態について説明する。ただし、本実施形態は本発明を実現するための一例に過ぎず、本発明の技術的範囲を限定するものではないことに注意すべきである。また、各図において共通の構成については同一の参照番号が付されている。
なお、本明細書では「aaa表」という表現によって本発明で用いられる情報について説明しているが、「aaaテーブル」、「aaaリスト」、「aaaDB」、「aaaキュー」等の表現や、テーブル、リスト、DB、キュー、等のデータ構造以外で表現されていてもよい。このため、本発明で用いられる情報が、データ構造に依存しないことを示すために、「aaaテーブル」、「aaaリスト」、「aaaDB」、「aaaキュー」等について「aaa情報」と呼ぶことがある。
また、各情報の内容を説明する際に、「識別情報」、「識別子」、「名」、「名前」、「ID」という表現を用いるが、これらについてはお互いに置換が可能である。
さらに、以後の本発明の処理動作の説明では、「プログラム」や「モジュール」を動作主体(主語)として説明を行う場合があるが、プログラムやモジュールは、プロセッサによって実行されることで、定められた処理をメモリ及び通信ポート(通信制御装置)を用いながら行うため、プロセッサを動作主体(主語)とした処理に読み替えても良い。また、プログラムやモジュールを主語として開示された処理は、管理サーバ等の計算機、情報処理装置が行う処理としてもよい。プログラムの一部または全ては専用ハードウェアによって実現されてもよい。また、各種プログラムはプログラム配布サーバや記憶メディアによって各計算機にインストールされてもよい。
(1)第1の実施形態
第1の実施形態は、管理ソフトウェア(例えば、管理サーバに含まれる)による解決済みイベント反映処理に関するものである。
<システム構成>
図1は、本発明による計算機システムの物理的構成を示す図である。当該計算機システムは、ストレージ装置20000と、ホストコンピュータ10000と、管理サーバ30000と、WEBブラウザ起動サーバ35000と、IPスイッチ40000と、を有し、それらが、ネットワーク45000によって接続される構成となっている。
ホストコンピュータ10000乃至10010は、例えば、それらに接続された、図示しないクライアントコンピュータからファイルのI/O要求を受信し、それに基づいてストレージ装置20000乃至20010へのアクセスを実現する。また、管理サーバ(管理計算機)30000は、当該計算機システム全体の運用を管理するものである。
WEBブラウザ起動サーバ35000は、ネットワーク45000を介して、管理サーバ30000のGUI表示処理モジュール32400と通信し、WEBブラウザ上に各種情報を表示する。ユーザはWEBブラウザ起動サーバ上のWEBブラウザに表示された情報を参照することで、計算機システム内の装置を管理する。ただし、管理サーバ30000と、WEBブラウザ起動サーバ35000は1台のサーバから構成されていてもよい。
<ホストコンピュータの内部構成>
図2は、本発明によるホストコンピュータ10000の詳細な内部構成例を示す図である。ホストコンピュータ10000は、ネットワーク45000に接続するためのポート11000と、プロセッサ12000と、メモリ13000と、を有し(ディスク装置を構成として含んでも良い)、これらは内部バス等の回路を介して相互に接続される構成となっている。
メモリ13000には、業務アプリケーション13100と、オペレーティングシステム13200が格納されている。
業務アプリケーション13100は、オペレーティングシステム13200から提供された記憶領域を使用し、当該記憶領域に対しデータ入出力(以下、I/Oと表記)を行う。
オペレーティングシステム13200は、ネットワーク45000を介してホストコンピュータ10000に接続されたストレージ装置20000乃至20010上の論理ボリュームを記憶領域として業務アプリケーション13100に認識させるための処理を実行する。
ポート11000は、ストレージ装置20000とiSCSIにより通信を行うためのI/Oポートと、管理サーバ30000がホストコンピュータ10000乃至10010内の管理情報を取得するための管理ポートを含む単一のポートとして図2で表現されているが、iSCSIにより通信を行うためのI/Oポートと管理ポートに分かれていてもよい。
<ストレージ装置の内部構成>
図3は、本発明によるストレージ装置20000の詳細な内部構成例を示す図である。ストレージ装置20010も同様の構成を有している。
ストレージ装置20000は、ネットワーク45000を介してホストコンピュータ10000に接続するためのI/Oポート21000及び21010と、ネットワーク45000を介して管理サーバ30000に接続するための管理ポート21100と、各種管理情報を格納するための管理メモリ23000と、データを格納するためのRAIDグループ24000乃至24010と、データや管理メモリ内の管理情報を制御するためのコントローラ25000及び25010と、を有し、これらが内部バス等の回路を介して相互に接続される構成となっている。なお、RAIDグループ24000乃至24010の接続とは、より正確にはRAIDグループ24000乃至24010を構成する記憶デバイスが他の構成物と接続されていることを指す。
管理メモリ23000には、ストレージ装置の管理プログラム23100が格納される。管理プログラム23100は管理ポート21100を経由して管理サーバ30000と通信し、管理サーバ30000に対しストレージ装置20000の構成情報を提供する。
RAIDグループ24000乃至24010は、それぞれ、1つまたは複数の磁気ディスク24200、24210、24220、及び24230によって構成されている。複数の磁気ディスクによって構成されている場合、それらの磁気ディスクはRAID構成を組んでいてもよい。また、RAIDグループ24000乃至24010は、論理的に複数のボリューム24100乃至24110に分割されている。
なお、論理ボリューム24100及び24110は、1つ以上の磁気ディスクの記憶領域を用いて構成されるのであれば、RAID構成を組まなくてもよい。さらに、論理ボリュームに対応する記憶領域を提供するのであれば、磁気ディスクの代わりとしてフラッシュメモリなど他の記憶媒体を用いた記憶デバイスでも良いものとする。
コントローラ25000及び25010は、その内部に、ストレージ装置20000内の制御を行うプロセッサや、ホストコンピュータ10000との間でやりとりするデータを一時的に記憶するキャッシュメモリを持っている。そして、それぞれのコントローラは、I/OポートとRAIDグループの間に介在し、両者の間でデータの受け渡しを行う。
なお、ストレージ装置20000は、何れかのホストコンピュータに対して論理ボリュームを提供し、アクセス要求(I/O要求を指す)を受信し、受信したアクセス要求に応じて記憶デバイスへの読み書きを行うストレージコントローラと、記憶領域を提供する前述の記憶デバイスを含めば、図3及び上記説明以外の構成でもよく、例えば、ストレージコントローラと記憶領域を提供する記憶デバイスが別な筐体に格納されていてもよい。即ち、図3の例では管理メモリ23000とコントローラ25000及び25110とが別個の存在として設けられているが、それらが一体となったストレージコントローラとして構成しても良い。また、本明細書ではストレージコントローラと記憶デバイスが同じ筐体に存在する場合または別な筐体を含む表現として、ストレージ装置をストレージシステムと呼び変えても良い。
<管理サーバの内部構成>
図4は、本発明による管理サーバ30000の詳細な内部構成例を示す図である。管理サーバ30000は、ネットワーク45000に接続するための管理ポート31000と、プロセッサ31100と、キャッシュメモリ等のメモリ32000と、HDD等の二次記憶装置(二次記憶領域)33000と、後述する処理結果を出力するためのディスプレイ装置等の出力デバイス31200と、ストレージ管理者が指示を入力するためのキーボード等の入力デバイス31300とを有し、これらが内部バス等の回路を介して相互に接続される構成となっている。
メモリ32000には、プログラム制御モジュール32100と、構成管理情報取得モジュール32200と、装置性能取得モジュール32300と、GUI表示処理モジュール32400と、イベント解析処理モジュール32500と、ルール展開モジュール32600と、が格納されている。なお、図4においては、各モジュールは、メモリ32000のソフトウェアモジュールとして提供されているが、ハードウェアモジュールとして提供されるものであっても良い。また、各モジュールが行う処理が一つ以上のプログラムコードとして提供されても良く、モジュール間の明確な境界が存在しなくても良い。モジュールは、プログラムと読み替えても良い。
二次記憶領域33000には、装置性能管理表33100と、ボリュームトポロジ管理表33200と、イベント管理表33300と、汎用ルールリポジトリ33400と、展開ルールリポジトリ33500と、解析結果管理表33600と、イベント種別管理表33700と、性能メトリック管理表33800と、が格納されている。なお、二次記憶領域33000は、半導体メモリまたは磁気ディスクのいずれか、もしくは半導体メモリおよび磁気ディスク両方から構成される。
GUI表示処理モジュール33400は、入力デバイス31300を介した管理者からの要求に応じ、取得した構成管理情報を、出力デバイス31200を介して表示する。なお、入力デバイスと出力デバイスは別々なデバイスでもよく、一つ以上のまとまったデバイスでもよい。
なお、管理サーバ(管理計算機)30000は、例えば、入力デバイス31300としてキーボードとポインタデバイス等、出力デバイス31200としてディスプレイやプリンタ等とを有しているが、これ以外の装置であってもよい。また、入出力デバイスの代替としてシリアルインターフェースやイーサーネットインターフェースを用い、当該インターフェースにディスプレイ又はキーボード又はポインタデバイスを有する表示用計算機を接続し、表示用情報を表示用計算機に送信したり、入力用情報を表示用計算機から受信することで、表示用計算機で表示を行ったり、入力を受け付けることで入出力デバイスでの入力及び表示を代替してもよい。
本明細書では、計算機システム(情報処理システム)1を管理し、表示用情報を表示する一つ以上の計算機の集合を管理システムと呼ぶことがある。管理サーバ30000が表示用情報を表示する場合は、管理サーバ30000が管理システムであり、また、管理サーバ30000と表示用計算機(例えば図1のWEBブラウザ起動サーバ35000)の組み合わせも管理システムである。また、管理処理の高速化や高信頼化のために複数の計算機で管理サーバと同等の処理を実現してもよく、この場合は当該複数の計算機(表示を表示用計算機が行う場合は表示用計算機も含め)が管理システムである。
<装置性能管理表の構成>
図5は、管理サーバ30000が有する装置性能管理表33100の構成例を示す図である。
装置性能管理表33100は、管理対象となる機器の識別子となる装置IDを登録するフィールド33110と、管理対象機器内部のデバイスの識別子であるデバイスIDを登録するフィールド33120と、管理対象デバイスの性能情報のメトリック名称を格納するフィールド33130と、閾値異常(「閾値に基づいて異常であると判断されたもの」の意味である)を検知した機器のOS種別を登録するフィールド33140と、管理対象デバイスの性能値を該当装置から取得して格納するフィールド33150と、管理対象デバイスの性能値の正常範囲の上限もしくは下限である閾値(アラート実行閾値)を、ユーザからの入力を受けて格納するフィールド33160と、閾値が正常値の上限であるのか下限であるのかを登録するためのフィールド33170と、性能値が正常値であるか異常値であるかを登録するためのフィールド33180と、を構成項目として含んでいる。
例えば、図5の第1行目(1つ目のエントリ)からは、ストレージ装置SYS1内のコントローラCTL1におけるプロセッサの稼働率が現時点で40%(33150参照)であり、CTL1の稼働率が20%を超えた場合(33160参照)に管理サーバ30000はコントローラCTL1が過負荷であると判断するが、当該具体例では本性能値が異常値であると判断されている(33180参照)ことが分かる。
なお、ここでは管理サーバ30000が管理するデバイスの性能値として単位時間当たりのI/O量や動作率を例として挙げたが、管理サーバ30000が管理する性能値はこれ以外でも良い。
<ボリュームトポロジ管理表の構成>
図6は、管理サーバ30000の有するボリュームトポロジ管理表32200の構成例を示す図である。
ボリュームトポロジ管理表33200は、ストレージ装置の識別子となる装置IDを登録するフィールド33210と、ストレージ装置が有するボリュームの識別子となるボリュームIDを登録するフィールド33220と、ボリュームがホストコンピュータ10000と通信する際使用するポートの識別子となるポートIDを登録するフィールド33230と、ポートとボリュームとの通信の際に使用するコントローラのIDを登録するフィールド32340と、ボリュームが接続するホストコンピュータ10000の識別子を登録するフィールド33250と、ボリュームが実体となるホストコンピュータ10000の論理ボリュームのドライブ名を登録するフィールド33260と、を構成項目として含んでいる。
例えば、図6の第1行目(1つ目のエントリ)からは、ストレージ装置SYS1のボリュームVOL1が、PORT1で示されるストレージ側のポートおよびCTL1で示されるコントローラを介してホストコンピュータHOST1と接続し、ホスト上で論理ボリューム(E:)として認識されていることが分かる。
<イベント管理表の構成>
図7は、管理サーバ30000が有するイベント管理表33300の構成例を示す図である。このイベント管理表33300は、後述する障害原因解析処理、解決済みイベント反映処理、において適宜参照されるものである。
イベント管理表33300は、イベント自身の識別子となるイベントIDを登録するフィールド33310と、取得した性能値に閾値異常といったイベントの発生した機器の識別子となる装置IDを登録するフィールド33320と、イベントの発生した機器内の部位の識別子を登録するフィールド33330と、閾値異常を検知したメトリックの名称を登録するフィールド33340と、閾値異常が検知された機器のOS種別を登録するフィールド33350と、機器内の部位のイベント発生時の状態を登録するフィールド33360と、イベントが後述するイベント解析処理モジュール32500によって解析済みかどうかを登録するフィールド33370と、イベントが発生した日時を登録するフィールド33380と、を構成項目として含んでいる。
例えば、図7の第1行目(1つ目のエントリ)からは、管理サーバ30000が、ストレージ装置SYS1の、CTL1で示されるコントローラにおけるプロセッサ稼働率の閾値異常を検知し、そのイベントIDはEV1であることが分かる。なお、異常状態が正常に変化した場合もイベントとして登録されるようにしても良い。
<汎用ルールの構成>
図8A及びBは、管理サーバ30000が有する汎用ルールリポジトリ33400内の汎用ルールの構成例を示す図である。汎用ルール(後述の展開ルールも同様)は、計算機システムを構成するノード装置で発生し得る1つ以上の条件イベントの組み合わせと条件イベントの組み合わせの根本原因とされる結論イベントとの関係を示すものである。
一般的に、障害解析において根本原因を特定するためのイベント伝播モデルは、ある障害の結果発生することが予想されるイベントの組み合わせと、その根本原因を”IF-THEN”形式で記載するものとなっている。なお、汎用ルールは図8A及びBに挙げられたものに限られず、さらに多くのルールがあっても構わない。
汎用ルールは、汎用ルールの識別子となる汎用ルールIDを登録するフィールド33430と、”IF-THEN”形式で記載した汎用ルールのIF部に相当する観測事象を登録するフィールド33410と、”IF-THEN”形式で記載した汎用ルールのTHEN部に相当する原因事象を登録するためのフィールド33420と、汎用ルールを実システムに展開し、展開ルールを生成する際に取得するトポロジを登録するためのフィールド33440と、を構成項目として含んでいる。条件部33410のイベントが検知されたら結論部33420のイベントが根本原因であり、結論部33420のステータスが正常になれば、条件部33410の問題も解決しているという関係にあるものである。図8A及びBの例では、条件部33410には2つのイベントが記述されているが、イベント数に制限はない。
例えば、図8Aからは、汎用ルールIDがRule1で示される汎用ルールが、観測事象としてホストコンピュータ上の論理ボリュームのレスポンスタイムの閾値異常(関連イベント)と、ストレージ装置におけるコントローラのプロセッサ使用率の閾値異常(原因イベント)を検知したとき、ストレージ装置のコントローラのプロセッサ使用率の閾値異常が原因と結論付けるということが分かる。また、展開ルールを生成する際にはボリュームトポロジ管理表からトポロジ情報を取得する。
なお、観測事象に含まれるイベントとして、ある条件が正常であることを定義してもよい。図8Bに示す汎用ルールの例では、ストレージ装置のコントローラのプロセッサ使用率が正常であることを観測事象として定義している。
<展開ルールの構成>
図9A乃至Dは、管理サーバ30000が有する展開ルールリポジトリ33500内の展開ルールの構成例を示す図である。これらの展開ルールは、汎用ルール(図8A及びB)にボリュームトポロジ管理表(図7)の各エントリの項目を挿入することによって生成される。
展開ルールは、展開ルールの識別子となる展開ルールIDを登録するフィールド33530と、展開ルールの基となった汎用ルールの識別子となる汎用ルールIDを登録するためのフィールド33540と、”IF-THEN”形式で記載した展開ルールのIF部に相当する観測事象を登録するフィールド33510と、”IF-THEN”形式で記載した展開ルールのTHEN部に相当する原因事象を登録するためのフィールド33520と、を構成項目として含んでいる。
例えば、図9Aの展開ルールは、汎用ルールIDがRule1における装置種別及び装置部位種別に、図7の第1エントリのコントローラ名32240とホストID32250と、接続先ドライブ名32260を挿入することによって生成される。そして、図9Aからは、展開ルールIDがExRule1-1で示される展開ルールが、汎用ルールIDがRule1で示される汎用ルールを基に展開され、観測事象としてホストコンピュータ上の論理ボリュームのレスポンスタイムの閾値異常と、ストレージ装置におけるコントローラのプロセッサ稼働率の閾値異常を検知したとき、ストレージ装置のコントローラのプロセッサ使用率の閾値異常が原因と結論付けられることが分かる。
<解析結果管理表の構成>
図10は、管理サーバ30000の有する解析結果管理表33600の構成例を示す図である。
解析結果管理表33600は、障害原因解析処理において根本原因と判断されたイベントの発生した機器の識別子となる装置IDを登録するフィールド33610と、イベントの発生した機器内の部位の識別子を登録するフィールド33620と、閾値異常を検知したメトリックの名称を登録するフィールド33630と、イベントを根本原因と判断した根拠となる展開ルールのIDを登録するフィールド33640と、展開ルールにおいて条件部に記載されたイベントの発生割合を登録するフィールド33650と、展開ルールにおいて条件部に記載されたイベントのうち、実際に受信したイベントのIDを登録するフィールド33660と、該解析結果が解決済みであるかどうかを登録するフィールド33670と、受信したイベント発生からイベント正常化までの時間を登録するフィールド33680と、該解析結果が瞬間障害によるものであるかどうかを登録するフィールド33690と、イベント発生に伴う障害解析処理を開始した日時を登録するフィールド33695と、を構成項目として含んでいる。
例えば、図10の第1段目(1つ目のエントリ)からは、展開ルールExRule1-1に基づき、管理サーバ30000がストレージ装置SYS1の、CTL1で示されるコントローラにおけるプロセッサ稼働率の閾値異常を根本原因として判断し、その根拠としてイベントIDがEV1およびEV3で示されるイベントを受信し、すなわち条件イベントの発生割合が2/2であることが分かる。
<その他の管理表の構成等について>
イベント種別管理表33700と、性能メトリック管理表33800に関する説明は、後述する。
<構成管理情報の取得処理及び、ボリュームトポロジ管理表の更新処理>
プログラム制御モジュール32100は、例えばポーリング処理によって、情報取得モジュール32200に対し、計算機システム1内のストレージ装置20000、ホストコンピュータ10000およびIPスイッチ40000から、構成管理情報を定期的に取得するよう指示する。
構成管理情報取得モジュール32200は、ストレージ装置20000およびホストコンピュータ10000およびIPスイッチ40000から構成管理情報を取得するとともに、ボリュームトポロジ管理表33200を更新する。
<一般的な装置性能情報取得処理及びイベント解析処理>
図11は、管理サーバ30000の装置性能取得モジュール32300が実行する通常の装置性能情報取得処理を説明するためのフローチャートである。プログラム制御モジュール32100は、プログラムの起動時、もしくは前回の装置性能情報取得処理から一定時間経過するたびに、装置性能取得モジュール32300に対し、装置性能情報取得処理を実行するよう指示する。なお、当該実行指示を繰り返し出す場合は厳密に一定期間毎である必要は無く、繰り返しさえしていればよい。
装置性能情報取得モジュール32300は、監視対象の各装置に対し、以下の一連の処理を繰り返す。
装置性能情報取得モジュール32300は、まず、監視対象の各装置に対し、構成管理情報を送信するよう指示する(ステップ61010)。
装置性能情報取得モジュール32300は、監視対象装置からの応答があったか否か判断し(ステップ61020)、装置から装置性能情報の応答があれば(ステップ61020でYesの場合)、取得した装置性能情報を装置性能管理表33100に格納する(ステップ61030)。装置から構成管理情報の応答がなかった場合(ステップ61020でNoの場合)、構成管理情報取得処理は終了する。
次に、装置性能取得モジュール32300は、装置性能管理表33100に格納された装置性能情報を参照し、各性能値に対してステップ61050からステップ61070の処理を繰り返す(ステップ61040)。装置性能取得モジュール32300は、性能値が閾値を超過しているかを確認し、装置性能管理表33100に登録された状態を更新する(ステップ61050)。そして、装置性能取得モジュール32300は、状態が正常から閾値異常に、或いは閾値異常から正常に変化したか否か判断し(ステップ61060)、状態が変化した場合(ステップ61060でYesの場合)、イベント管理表33300にイベントを登録する(ステップ61070)。状態が変化していない場合(ステップ61060でNoの場合)、全ての性能値に対する状態確認処理が終わっていなければ、処理はステップ61050に戻る。
全ての性能値に対する上記の処理が終了した後、装置性能取得モジュール32300は、一連の処理で新規に追加したイベントがあるか否か判断し(ステップ61080)、追加イベントがあれば(例えば、処理中に新たな異常が発生したような場合)、イベント解析処理モジュール32500に対し、図12に示す障害原因解析処理を行なうよう指示する(ステップ61090)。
以上が、装置性能取得モジュール32300が実施する装置性能情報取得処理である。
<障害解析処理(ステップ61090)の詳細>
図12は、管理サーバ30000のイベント解析処理モジュール32500が実行する通常の障害原因解析処理(図11のステップ61090)の詳細を説明するためのフローチャートである。
イベント解析処理モジュール32500は、イベント管理表33300より、解析済フラグがYesになっていないイベントを取得する(ステップ62010)。
次に、イベント解析処理モジュール32500は、展開ルールリポジトリ33500内の各展開ルールに対し、ステップ62030からステップ62050の処理を繰り返す(ステップ62020)。イベント解析処理モジュール32500は、まず、展開ルールに記載された条件部に対応する各イベントについて、過去一定期間の発生件数を算出する(ステップ62030)。そして、イベント解析処理モジュール32500は、ステップ62030の処理において集計したイベント発生数が、条件部に記載された全イベントにおいて一定の比率を超過したか否か判断する(ステップ62040)。超過していると判断した場合には(ステップ62040でYesの場合)、イベント解析処理モジュール32500は、GUI表示処理モジュール32400に対し、根本原因なるイベントを、条件文中のイベント発生割合と共に表示するよう指示し(ステップ62050)、処理を終了させる。
続いて、イベント解析処理モジュール32500は、解決済反映処理(図15)を実行し(ステップ62060)、その後、イベント管理表33300を参照して、ステップ62010で取得したイベントについて解析済フラグ33370をYesに設定する(ステップ62070)。
最後に、イベント解析処理モジュール32500は、展開ルールリポジトリ内の各展開ルールのうち、確信度が0でないものを解析結果管理表33600に書き出す(ステップ62080)。
例えば、図9Aに示す展開ルールExRule1-1には、条件部に”ホストコンピュータHOST1における論理ボリューム(E:)のレスポンスタイムの閾値異常”と、”ストレージ装置SYS1におけるコントローラCTL1の稼働率の閾値異常”が定義されている。
そして、図7に示すイベント管理表33300に、”ストレージ装置SYS1におけるコントローラCTL1の稼働率の閾値異常”(発生日時:2010-01-01 15:00:00)が登録されると、イベント解析処理モジュール32500は、一定時間待機した後にイベント管理表33300を参照し、過去一定期間に発生したイベントを取得する。
次に、イベント解析処理モジュール32500は、展開ルールリポジトリ33400の展開ルールExRule1-1に記載された条件部に対応する各イベントについて、過去一定期間の発生件数を算出する。その結果、”ホストコンピュータHOST1における論理ボリューム(E:)のレスポンスタイムの閾値異常”(関連イベント)も過去一定期間に発生していることから、展開ルールExRule1-1に記載された条件部に対応する各イベント(原因イベントと関連イベント)の過去一定期間の発生数が、条件部に記載された全イベントにおいて占める割合は2/2となる。
以上のようにして算出された割合が一定値を超過した場合、イベント解析処理モジュール32500は、GUI表示処理モジュール32400に対し、根本原因となるイベントを、条件文中のイベント発生割合と共に表示するよう指示する。ここでいう一定値を例えば80%とした場合、当該具体例では、展開ルールExRule1-1の条件部の各イベントの過去一定期間の発生割合が2/2、すなわち100%であるので、解析結果がGUIに表示されることになる。
上記の処理を、展開ルールリポジトリ33500に定義された全ての展開ルールに対し実行することになる。
以上が、イベント解析処理モジュール32500が実施する障害原因解析処理である。
ところで、上述の障害原因解析処理においては、障害が短い期間に頻発すると、保存される障害解析結果の数が多くなる。しかしながら、障害解析結果には対策実行優先度に関する情報がないため、管理者が本来対策を行うべき解析結果を参照するまでの時間が長くなり、結果的に障害の解消までに要する時間が長くなるという課題が存在する。
そこで、本発明による実施形態では、解析結果を処理優先度と共に表示できるようにするために、解決済みイベント反映処理を新たに提供する。
<解決済みイベント反映処理の内容>
そこで、従来技術における課題を解決するため、本発明の第1の実施形態では管理サーバ30000における解決済みイベント反映処理が追加されている。以下、当該解決済みイベント処理に必要な情報及び動作の詳細について説明する。
<イベント種別管理表の構成>
図13は、管理サーバ30000の具備するイベント種別管理表33700の構成例を示す図である。イベント種別管理表33700は、管理サーバの管理する機器の種別を登録するフィールド33710と、前記機器のうち、性能情報の取得の対象となる機器内の部位を登録するフィールド33720と、前記機器より取得するメトリックの名称を登録するフィールド33730と、前記メトリックについて検知しうるステータス(イベントの種別)を登録するフィールド33740と、前記ステータスが、異常状態の正常化を意味するものであるかを登録するフィールド33750と、を構成項目として含んでいる。
例えば、図13では、サーバ(ホストコンピュータ)のドライブのレスポンスタイムに関するステータスのうち、「閾値超過」「不明」という種別のステータスは異常状態の正常化を意味しないが、「正常」という種別のステータスは異常状態の正常化を意味することを示している。
<性能メトリック管理表の構成>
図14は、管理サーバ30000の具備する性能メトリック管理表33800の構成例を示す図である。性能メトリック管理表33800は、管理サーバの管理する機器の種別を登録するフィールド33810と、前記機器のうち、性能情報の取得の対象となる機器内の部位を登録するフィールド33820と、前記機器より取得するメトリックの名称を登録するフィールド33830と、前記機器の取りうるOS種別を登録するフィールド33840と、前記メトリックの値の算出方法を登録するフィールド33850と、を構成項目として含んでいる。
図14には、管理サーバ30000が有する性能メトリックの具体的な値の一例が示されている。つまり、管理サーバ30000はサーバ(ホストコンピュータ10000)のドライブのレスポンスタイムを監視しており、その際、OSがWindows(登録商標)であるホストコンピュータ10000については積算値と、Linuxである管理サーバ30000については瞬間値を取得していることを示している。ここでいう「瞬間値」とは、性能値を管理対象機器において算出する際、ごく短い計測期間(例えば、アクセスした時点の性能値)における瞬間的な値を性能値として算出しているケースが挙げられる。一方、「積算値」とは、ある程度長い計測期間における平均的な値を性能値として算出する(例えば、5分間の計測時間で、性能値を積算し、それを平均する)しているケースが挙げられる。
図14において、取得値種別33850が「積算値」となっているデバイス種別及びメトリックについては、積算値を演算して障害解析処理を行うことを意味している。
<本発明における解決済みイベント反映処理(ステップ62060)の詳細>
図15は、第1の実施形態における、管理サーバ30000のイベント解析処理モジュール32500が実施する解決済みイベント反映処理(ステップ62060)を説明するためのフローチャートである。なお、本処理は、図12に示されるように、障害原因解析処理のステップ62070の直前に行われる。
イベント解析処理モジュール32500は、イベント管理表33300より、解析済フラグがYesになっていないイベントを取得する(ステップ63010)。イベント解析処理モジュール32500は取得した全イベントに対し、以下の処理を繰り返す(ステップ63020)。
イベント解析処理モジュール32500は、イベント種別管理表33700を確認し、イベントが問題解決を意味するもの(正常化されたイベント)かどうかを確認する(ステップ63030)。つまり、メトリック(稼働率、レスポンスタイム、I/O量等)を絞り込み、絞り込まれたメトリックに対応するステータス(図7の33360参照)が「正常」となっているか確認する。イベントが解決済みを表さない場合(ステップ63030でNoの場合)、処理は次のイベントの処理に移る。解決済みを表すイベントの場合(ステップ63030でYesの場合)、以下の処理が実行される。
イベント解析処理モジュール32500は、イベント管理表33300を確認し、前記解決済みイベントと対になる異常イベントのIDを取得する(ステップ63040)。
次にイベント解析処理モジュール32500は、解析結果管理表33600を参照し、解析結果管理表に定義された各解析結果について、以下の一連の処理を繰り返す(ステップ63050)。
イベント解析処理モジュール32500は、前記解決済みイベントと対となる異常イベントについて、解決済みフラグをYesに変更する(ステップ63060)。そして、イベント解析処理モジュール32500は、イベント管理表33300を確認し、障害発生から障害解決までに要した時間を算出して、障害期間として解析結果管理表33600(図10)に記録する(ステップ63070)。
以上が、イベント解析処理モジュール32500が実施する解決済みイベント反映処理である。
以下に、解決済みイベント反映処理の具体例について説明する。なお、処理開始当初の解析結果管理表は図10、イベント種別管理表は図13、展開ルールExRule1-1は図9Aに示す通りのものであるとする。
図7に示すイベント管理表に、”ストレージ装置SYS1におけるコントローラCTL1の稼働率の正常ステータス”(発生日時:2010-01-01 15:05:00)が登録されると、イベント解析処理モジュール32500はイベント管理表を参照し、過去一定期間に発生したイベントを取得する。
次に、イベント解析処理モジュール32500は、上記イベントについて、イベント種別管理表33700を確認し、イベントが問題解決を意味するものかどうかを確認する。イベント種別管理表33700を確認すると、「ストレージ装置のコントローラの稼働率の正常ステータス」は、イベントが解決済みであることを表すステータスであることが分かる。
また、イベント解析処理モジュール32500は、イベント管理表33300を確認し、前記解決済みイベントと対になる異常イベントのIDを取得する。イベント管理表33300を参照すると、”ストレージ装置SYS1におけるコントローラCTL1の稼働率の正常ステータス”(発生日時:2010-01-01 15:05:00)の直前に、”ストレージ装置SYS1におけるコントローラCTL1の稼働率の閾値異常”(発生日時:2010-01-01 15:00:00)が発生しており、これが対になる異常イベントと分かる。また、そのイベントIDは”EV1”であると分かる。
次に、イベント解析処理モジュール32500は解析結果管理表33600を参照し、解析結果管理表33600に定義された解析結果に含まれるイベントのうち、イベントIDが”EV1”で示されるイベントについて、解決済みフラグをYesに変更する。また、障害発生から障害解決までに要した時間を障害期間として記録する。受信イベントEV1は発生から5分で解決しており、これを障害期間として登録する。
続いて、イベント管理表33300に、”ホストコンピュータHOST1におけるドライブ(E:)のレスポンスタイムの正常ステータス”(発生日時:2010-01-01 15:10:00)が登録されると、イベント解析処理モジュール32500はこれと対になるイベントEV3についても解決済みフラグをYesに変更する。また、障害発生から障害解決までに要した時間を障害期間として解析結果管理表33600に記録する。当該具体例では、受信イベントEV3は発生から10分で解決しており、これが障害期間として解析結果管理表33600に記録される。
<障害解析結果表示画面の構成>
図16は、管理サーバ30000がユーザ(管理者)に対して表示する、障害解析結果表示画面の表示例71000を示す図である。
障害解析結果表示画面71000では、解析結果管理表に定義された解析結果のうち、受信したイベントが全て解決した解析結果を区別して表示し、障害期間を合わせて表示する(テーブル71020)。1つの解析結果に複数の受信イベントを含む場合は、各イベントの解決時間のうち最も長いものを表示する。
受信したイベントが全て解決していない解析結果は、別のテーブルに表示される(テーブル71010)。
<解決済みイベント反映処理の効果>
以上、第1の実施形態によれば、管理サーバ30000の管理ソフトウェアは、図12に示す障害原因解析処理の後、異常状態にあった機器のステータス正常化を検知したとき、障害解析結果のうち、その導出根拠となった機器異常状態が解消したものについて他の解析結果と区別してGUIに表示する。障害解析結果が複数の障害イベントにより導出された場合は、全ての障害イベントの正常化を確認した時点で、他の障害解析結果とは区別してGUIに表示する。その結果、ユーザが解析結果の対応優先度を容易に判断でき、解析結果確認に要する負荷を軽減できる。
(2)第2の実施形態
第2の実施形態は、管理ソフトウェア(例えば、管理サーバ30000に含まれる)による瞬間障害イベント反映処理に関するものである。システム構成や各装置の構成は第1の実施形態と同じであるので、説明は省略する。
<瞬間障害イベント反映処理の詳細>
本実施形態では、管理サーバ30000が、瞬間障害イベント反映処理を実行する。なお、管理サーバ30000が有する構成管理情報は、第1の実施形態と同じである。
図17は、第2の実施形態における、管理サーバ30000のイベント解析処理モジュール32500が実行する瞬間障害イベント反映処理の詳細を説明するためのフローチャートである。当該瞬間障害イベント反映処理は、図12の解決済みイベント反映処理(ステップ62060)に代わって実行されるものであり、図12に示されるように、障害原因解析処理のステップ62070の直前に行われる。
図17において、まず、イベント解析処理モジュール32500は、イベント管理表33300より、解析済フラグがYesになっていないイベントを取得する(ステップ64010)。イベント解析処理モジュール32500は取得した全イベントに対し、以下の処理を繰り返す(ステップ64020)。
イベント解析処理モジュール32500はイベント種別管理表33700を確認し、イベントが問題解決を意味するものかどうかを確認する(ステップ64030)。イベントが解決済みを表さない場合は次のイベントの処理に移る。解決済みを表すイベントの場合は、以下の処理を行なう。
つまり、イベント解析処理モジュール32500は、イベント管理表33300を確認し、前記解決済みイベントと対になる異常イベントのIDを取得する(ステップ64040)。
次に、イベント解析処理モジュール32500は、解析結果管理表33600を参照し、解析結果管理表に定義された各解析結果について、以下の一連の処理を繰り返す(ステップ64050)。
また、イベント解析処理モジュール32500は、前記解決済みイベントと対となる異常イベントについて、解決済みフラグをYesに変更する(ステップ64060)。
そして、イベント解析処理モジュール32500は、イベント管理表33300を確認し、障害発生から障害解決までに要した時間を算出して、障害期間として解析結果管理表33600に記録する(ステップ64070)。
続いて、イベント解析処理モジュール32500は、解析結果に含まれる受信イベントが1つで、メトリックが瞬間値で、かつ前記算出した障害期間が、図11に示す装置性能情報取得処理において装置の性能を取得する間隔と同一もしくは短いかどうかを確認する(ステップ64080)。なお、ステップ64080において解析結果に含まれる受信イベントが1つであるかどうかを確認する理由は、1つの展開ルール(図9参照)中に記載された障害イベント(条件部のイベント)が単独で発生した場合は、その障害イベントは接続された他のITシステムに影響を及ぼさないイベントである可能性が高いためである。つまり、条件部のイベントが1つだけしか発生していない場合には、単に瞬間的に障害が発生しただけである可能性が高いということである。一方、1つの展開ルール中に記載された障害イベントが同時に複数発生した場合、それらの障害イベント間に因果関係があり、対策が必要な障害が発生している可能性が高いからである。なお、ここではイベントが1つしか発生していないか否かで判断しているが、イベント発生割合(確信度)が障害解析結果に用いられる所定閾値未満であるか否かによって判断しても良い。また、ステップ64080において、障害期間が装置の性能を取得する間隔と同一もしくは短いかどうかを確認する理由は、管理サーバが監視対象装置における閾値異常を認識した後、次の性能取得のタイミングで既に閾値異常が解消していた場合、最初に認識した閾値異常は突発的なものであった可能性が高いからである。
ステップ64080で解析結果が前記全ての条件を満たさないと判断された場合は、次の解析結果の処理に移る。一方、ステップ64080で解析結果が全ての条件を満たすと判断された場合は、イベント解析処理モジュール32500は、解析結果の瞬間障害フラグをYesに変更する(ステップ64090)。このようにフラグをYesに変更するのは、図18のように、解析結果を瞬間障害か否かによって区別して表示するためである。
以上が、イベント解析処理モジュール32500が実施する瞬間障害イベント反映処理である。
以下に、瞬間障害イベント反映処理の具体例を示す。なお、処理開始当初の解析結果管理表は図10、イベント種別管理表は図13、性能メトリック管理表は図14、展開ルールExRule1-1は図9Aに示すとおりであるものとする。
図7に示すイベント管理表に、”ストレージ装置SYS1におけるコントローラCTL1の稼働率の正常ステータス”(発生日時:2010-01-01 16:05:00)が登録されると、イベント解析処理モジュール32500はイベント管理表33300(図7)を参照し、過去一定期間に発生したイベントを取得する。
次に、イベント解析処理モジュール32500は、上記イベントについて、イベント種別管理表33700を確認し、イベントが問題解決を意味するものかどうかを確認する。イベント種別管理表33700を確認すると、「ストレージ装置のコントローラの稼働率の正常ステータス」は、イベントが解決済みであることを表すステータスであることが分かる。
そして、イベント解析処理モジュール32500は、イベント管理表33300を確認し、上記解決済みイベントと対になる異常イベントのIDを取得する。イベント管理表33300を参照すると、”ホストコンピュータHOST1(OS種別:Linux)におけるドライブ(E:)のレスポンスタイムの正常ステータス”(発生日時:2010-01-01 16:05:00)の直前に、” ホストコンピュータHOST1(OS種別:Linux)におけるドライブ(E:)のレスポンスタイムの正常ステータス”(発生日時:2010-01-01 16:00:00)が発生しており、これが対になる異常イベントと分かる。また、そのイベントIDは”EV5”であると分かる。
さらに、イベント解析処理モジュール32500は、解析結果管理表33600を参照し、解析結果管理表33600に定義された解析結果に含まれるイベントのうち、イベントIDが”EV5”で示されるイベントについて、解決済みフラグをYesに変更する。また、障害発生から障害解決までに要した時間を障害期間として記録する。受信イベントEV5は発生から5分で解決しており、これを障害期間として解析結果管理表33600に登録する。
続いて、イベント解析処理モジュール32500は、上記解析結果に含まれる受信イベントが1つで、メトリックが瞬間値で、かつ障害期間が一定値以下かどうかを確認する。ここでは障害期間が10分未満であれば条件を満たすものとすると、この例での障害期間は5分であるので条件を満たす。また、図14に示す性能メトリック管理表を参照すると、OS種別がLinuxであるホストコンピュータにおけるドライブのレスポンスタイムは「瞬間値」であることが分かる。そのため上記解析結果は条件を全て満たすため、解析結果管理表33600の瞬間障害フラグ33690をYesに変更する。
<障害解析結果表示画面の構成>
図18は、管理サーバ30000が管理者(ユーザ)に対し表示する、障害解析結果表示画面の表示例71000を示す図である。
障害解析結果表示画面71000では、解析結果管理表33600に定義された解析結果のうち、解析結果の瞬間障害フラグがYesであるものが区別して表示され、また、障害期間が併せて表示される(テーブル71030)。1つの解析結果に複数の受信イベントを含む場合は、各イベントの解決時間のうち最も長いものが表示される。
<瞬間障害イベント反映処理の効果>
以上のように、システム管理ソフトウェアは、管理対象機器において業務に支障をきたす事態となっていないにもかかわらず発生し、発生後すぐに正常化する障害イベントを障害解析部が受信した時、異常状態にあった機器のステータス正常化を検知したとき、その導出根拠となった機器異常状態が全て解消した時点で、障害原因候補を確信度と共に障害解析結果として保存する。また、障害解析結果について他の解析結果と区別してGUIに表示する。その結果、ユーザが解析結果の対応優先度を容易に判断でき、解析結果確認に要する負荷を軽減できる。
(3)第3の実施形態
第3の実施形態は、管理ソフトウェア(例えば、管理サーバ30000に含まれる)による障害解析結果の対処優先度設定処理に関するものである。システム構成や各装置の構成は、図19に示す解析結果管理表33600を除いて第1の実施形態と同じであるので、説明は省略する。
<解析結果管理表の構成>
図19は、第3の実施形態による、管理サーバ30000が有する解析結果管理表33600の構成例を示す図である。
解析結果管理表33600は、解析結果に対するユーザの処理優先度を登録するフィールド33691を構成項目として含んでいる。その他の構成項目は、図10に示す解析結果管理表33600の構成項目と同じである。
本実施形態では、解析結果に付与された処理優先度が大きいほどユーザによる対処が早急に求められるものとし、最大値は10、最小値は0とする。また、解析結果が解析結果管理表33600に登録された時点では処理優先度は10に設定されているものとする。
<解決済みイベント反映処理>
図20は、第3の実施形態において、管理サーバ30000のイベント解析処理モジュール32500が実行する障害解析結果の対処優先度設定処理を説明するためのフローチャートである。なお、本処理は、図12に示される障害原因解析処理のステップ62070の直前に行われ、図12の解決済みイベント反映処理(ステップ62060)に代わって実行されるものである。
イベント解析処理モジュール32500は、イベント管理表33300より、解析済フラグがYesになっていないイベントを取得する(ステップ65010)。イベント解析処理モジュール32500は取得した全イベントに対し、以下の処理を繰り返す(ステップ65020)。
まず、イベント解析処理モジュール32500は、イベント種別管理表33700を参照し、処理対象のイベントのステータス33360が問題解決を意味するものかどうかどうかを確認する(ステップ65030)。例えば、イベント管理表33300において、コントローラの稼働率が閾値異常のステータスを示している場合には、当該イベントは解決済みでないということになる。そして、イベント解析処理モジュール32500は、イベントが解決済みを表さない場合(ステップ65030でNoの場合)は次のイベントの処理を移行させ、解決済みを表すイベントの場合(ステップ65030でYesの場合)は処理をステップ65040に移行する。
イベント解析処理モジュール32500は、イベント管理表33300を確認し、上記解決済みイベントと対になる異常イベントのIDを取得する(ステップ65040)。
次に、イベント解析処理モジュール32500は、解析結果管理表33600を参照し、解析結果管理表33600に定義された各解析結果について、以下の一連の処理を繰り返す(ステップ65050)。
イベント解析処理モジュール32500は、上記解決済みイベントと対となる異常イベントについて、解決済みフラグをYesに変更する(ステップ65060)。
また、イベント解析処理モジュール32500は、イベント管理表33300を確認し、障害発生から障害解決までに要した時間を算出して、障害期間として解析結果管理表33600に記録する(ステップ65070)。
次に、イベント解析処理モジュール32500は、解析結果の含まれる障害イベントの解決した数に基づいて対処優先度を算出し、解析結果管理表33600に記録する(ステップ65080)。例えば、解析結果の含まれる障害イベント2個のうち1個が解決済みの場合、「10×(1/2)=5」と計算して対処優先度は5となる。また、解析結果の含まれる障害イベントの全てが解決済みである場合の処理優先度は0、障害イベントの全てが未解決である場合の処理優先度は10とする。このように、処理優先度は、条件部の障害イベントの数及び解決済みの障害イベントの数によって、0から10の値となる。
以上が、イベント解析処理モジュール32500が実施する障害解析結果の対処優先度設定処理である。
<障害解析結果表示画面の構成>
図21は、管理サーバ30000がユーザに対し表示する、障害解析結果表示画面の表示例71000を示す図である。
障害解析結果表示画面71000では、解析結果管理表に定義された解析結果を、対処優先度とともに表示する(テーブル71010)。
<障害解析結果の対処優先度設定処理の効果>
以上、第3の実施形態では、管理者(ユーザ)が解析結果の対処優先度を容易に判断できるための方法の1つとして、障害解析結果表示画面71000において、障害解析結果の対処優先度を表示する方法について述べた。その他、ユーザによる解析結果への対処優先度を算出するための基準として、以下の方法が考えられる。
(A)解析結果に基づき根本原因と判断された障害が、ユーザによる対処が困難な障害である場合、他の解析結果より処理優先度が低いものとする。
(B)解析結果に基づき根本原因と判断された障害が、多重化構成を組んでいる機器において発生した障害である場合、他の解析結果より処理優先度が低いものとする。
以上のように解析結果の対処優先度の表示を行うことにより、ユーザが解析結果の対処優先度を容易に判断でき、解析結果確認作業に要する負荷を軽減できる。なお、この優先度表示は、第1の実施形態の区別表示と組み合わせて実現することが可能である。つまり、第1の実施形態において解決済解析結果と区別表示された未解決解析結果について、優先度を演算し、その優先度情報を併せて表示するようにしても良い。
(4)まとめ
本実施形態では、各ノード装置の性能値から異常状態を検知し、その解析結果(異常状態の確信度を演算)を管理者に提示するが、その異常状態が特別な対処を行わなくても時間経過により正常状態に変化した場合、その確信度の値を変えることなく、正常化したことを意味するフラグを付与して解析結果を管理者に提示するようにしている。これは、確信度が解析結果に対する評価であるため時間経過とともにその評価を変えてはいけないからである。このようにすることにより、解決済解析結果と未解決解析結果とを区別して表示することができ、また、障害対処すべき結果を優先度情報と共に表示することができるようになる。よって、管理者としては、より明確に対処すべき障害を効率よく絞り込みことができるようになる。
また、一時的に障害となっているに過ぎないと考えられる瞬間障害解析結果を他の障害解析結果とは区別して管理者に提示している(例えば、図18参照)。このようにすることにより、瞬間障害解析結果に示された障害についての対処を後回しにすることができ、管理者にとっては非常に効率的に計算機システムを管理することが可能となる。
なお、本発明は、実施形態の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をシステム或は装置に提供し、そのシステム或は装置のコンピュータ(又はCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD−ROM、DVD−ROM、ハードディスク、光ディスク、光磁気ディスク、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
また、プログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)などが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。さらに、記憶媒体から読み出されたプログラムコードが、コンピュータ上のメモリに書きこまれた後、そのプログラムコードの指示に基づき、コンピュータのCPUなどが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。
また、実施の形態の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することにより、それをシステム又は装置のハードディスクやメモリ等の記憶手段又はCD−RW、CD−R等の記憶媒体に格納し、使用時にそのシステム又は装置のコンピュータ(又はCPUやMPU)が当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしても良い。
10000:サーバ
20000:ストレージ装置
30000:管理サーバ
35000:WEBブラウザ起動サーバ
40000:IPスイッチ
45000:ネットワーク

Claims (14)

  1. 監視の対象となるノード装置と、ネットワークを介して前記ノード装置に接続され、前記ノード装置を監視及び管理する管理システムと、を有する計算機システムの管理方法であって、
    前記管理システムが、前記ノード装置の処理性能を示す処理性能値を取得し、当該取得した処理性能値から前記ノード装置の状態をイベントとして検知し、
    前記管理システムが、前記検知した状態を、前記ノード装置で発生し得る1つ以上の条件イベントの組み合わせと前記条件イベントの組み合わせの根本原因とされる結論イベントとの関係を示す解析ルールに適用して前記条件イベントの発生割合を算出することにより、前記ノード装置における障害の発生が前記結論イベントに起因する可能性の程度を示す情報である確信度を算出し、
    前記管理システムが、前記確信度から前記ノード装置に障害が発生したか否か判断し、
    前記管理システムが、前記障害が発生したと判断されたノード装置について、前記確信度の情報は変更せずに、前記状態が異常のままのノード装置の障害解析結果である未解決障害解析結果と前記状態が異常から正常に変化したノード装置の障害解析結果である解決済障害解析結果とを表示画面に表示する、
    ことを特徴とする計算機システムの管理方法。
  2. 請求項1において、
    前記管理システムは、前記未解決障害解析結果と前記解決済障害解析結果とを区別して前記表示画面に表示することを特徴とする計算機システムの管理方法。
  3. 請求項1又は2において、さらに、
    前記管理システムが、前記未解決障害解析結果及び前記解決済障害解析結果に対して、処理優先度を併せて前記表示画面に表示することを特徴とする計算機システムの管理方法。
  4. 請求項3において、
    前記管理システムは、前記未解決障害解析結果において、前記条件イベントのいくつが解決済であるかに基づいて、前記処理優先度を算出することを特徴とする計算機システムの管理方法。
  5. 請求項1乃至4の何れか1項において、さらに、
    前記管理システムが、前記解決済障害解析結果について、前記状態が異常から正常に変化するまでの時間を示す障害期間を算出し、当該障害期間を併せて前記表示画面に表示することを特徴とする計算機システムの管理方法。
  6. 請求項5において、
    前記管理システムは、前記障害期間を算出する際に、前記確信度が所定値未満であるか判断し、さらに、前記ノード装置の前記処理性能値の種類を確認し、当該処理性能値の種類が瞬間的に得られた瞬間値であるか、或いは所定期間の性能値を積算して得られた積算値であるかを判断し、かつ、前記障害期間が所定値以下であるかを判断し、前記確信度が所定値未満で、前記処理性能値の種類が前記瞬間値で、かつ前記障害期間が所定値以下の前記解決済障害解析結果を、他の解決済障害解析結果及び前記未解決障害解析結果と区別して前記表示画面に表示することを特徴とする計算機システムの管理方法。
  7. 請求項1乃至6の何れか1項において、
    前記ノード装置は、複数のホスト計算機と複数のストレージ装置を含み、
    前記管理システムは、前記ノード装置の構成デバイス毎に前記ノード装置の前記処理性能値を管理し、
    前記管理システムは、前記ノード装置の構成デバイスの処理性能を示す構成デバイス性能値を取得し、当該取得した構成デバイス性能値から前記ノード装置の前記構成デバイスの状態を検知し、
    前記管理システムは、前記検知した構成デバイスの状態を前記解析ルールに適用し、前記確信度を算出して、当該確信度が所定値以上の場合に前記ノード装置に障害が発生したと判断し、
    前記管理システムは、前記未解決障害解析結果と前記解決済障害解析結果とを区別して前記表示画面に表示すると共に、前記未解決障害解析結果及び前記解決済障害解析結果に対して、前記条件イベントのいくつが解決済であるかに基づいて算出した処理優先度を併せて前記表示画面に表示し、
    前記管理システムは、さらに、前記解決済障害解析結果について、前記状態が異常から正常に変化するまでの時間を示す障害期間を算出し、当該障害期間を併せて前記表示画面に表示すると共に、前記障害期間を算出する際に、前記確信度が所定値未満であるか判断し、さらに、前記ノード装置の前記処理性能値の種類を確認し、当該処理性能値の種類が瞬間的に得られた瞬間値であるか、或いは所定期間の性能値を積算して得られた積算値であるかを判断し、かつ、前記障害期間が所定値以下であるかを判断し、前記確信度が所定値未満で、前記処理性能値の種類が前記瞬間値で、かつ前記障害期間が所定値以下の前記解決済障害解析結果を、他の解決済障害解析結果及び前記未解決障害解析結果と区別して前記表示画面に表示する、
    ことを特徴とする計算機システムの管理方法。
  8. 監視対象のノード装置とネットワークを介して接続され、前記ノード装置を管理する管理システムであって、
    前記ノード装置の処理性能を示す処理性能値を取得し、当該取得した処理性能値から前記ノード装置の状態をイベントとして検知するプロセッサと、
    前記ノード装置で発生し得る1つ以上の条件イベントの組み合わせと前記条件イベントの組み合わせの根本原因とされる結論イベントとの関係を示す解析ルールを格納するメモリと、を有し、
    前記プロセッサは、
    前記検知した状態を前記解析ルールに適用して前記条件イベントの発生割合を算出することにより、前記ノード装置における障害の発生が前記結論イベントに起因する可能性の程度を示す情報である確信度を算出し、
    前記確信度から前記ノード装置に障害が発生したか否か判断し、
    前記障害が発生したと判断されたノード装置について、前記確信度の情報は変更せずに、前記状態が異常のままのノード装置の障害解析結果である未解決障害解析結果と前記状態が異常から正常に変化したノード装置の障害解析結果である解決済障害解析結果とを表示画面に表示する、
    ことを特徴とする管理システム。
  9. 請求項8において、
    前記プロセッサは、前記未解決障害解析結果と前記解決済障害解析結果とを区別して前記表示画面に表示することを特徴とする管理システム。
  10. 請求項8又は9において、
    前記プロセッサは、前記未解決障害解析結果及び前記解決済障害解析結果に対して、処理優先度を併せて前記表示画面に表示することを特徴とする管理システム。
  11. 請求項10において、
    前記プロセッサは、前記未解決障害解析結果において、前記条件イベントのいくつが解決済であるかに基づいて、前記処理優先度を算出することを特徴とする管理システム。
  12. 請求項8乃至11の何れか1項において、
    前記プロセッサは、前記解決済障害解析結果について、前記状態が異常から正常に変化するまでの時間を示す障害期間を算出し、当該障害期間を併せて前記表示画面に表示することを特徴とする管理システム。
  13. 請求項12において、
    前記プロセッサは、前記障害期間を算出する際に、前記確信度が所定値未満であるか判断し、さらに、前記ノード装置の前記処理性能値の種類を確認し、当該処理性能値の種類が瞬間的に得られた瞬間値であるか、或いは所定期間の性能値を積算して得られた積算値であるかを判断し、かつ、前記障害期間が所定値以下であるかを判断し、前記確信度が所定値未満で、前記処理性能値の種類が前記瞬間値で、かつ前記障害期間が所定値以下の前記解決済障害解析結果を、他の解決済障害解析結果及び前記未解決障害解析結果と区別して前記表示画面に表示することを特徴とする管理システム。
  14. 請求項8乃至13の何れか1項において、
    前記ノード装置は、複数のホスト計算機と複数のストレージ装置を含み、
    前記プロセッサは、
    前記ノード装置の構成デバイス毎に前記ノード装置の前記処理性能値を管理し、
    前記ノード装置の構成デバイスの処理性能を示す構成デバイス性能値を取得し、当該取得した構成デバイス性能値から前記ノード装置の前記構成デバイスの状態を検知し、
    前記検知した構成デバイスの状態を前記解析ルールに適用し、前記確信度を算出して、当該確信度が所定値以上の場合に前記ノード装置に障害が発生したと判断し、
    前記未解決障害解析結果と前記解決済障害解析結果とを区別して前記表示画面に表示すると共に、前記未解決障害解析結果及び前記解決済障害解析結果に対して、前記条件イベントのいくつが解決済であるかに基づいて算出した処理優先度を併せて前記表示画面に表示し、
    さらに、前記解決済障害解析結果について、前記状態が異常から正常に変化するまでの時間を示す障害期間を算出し、当該障害期間を併せて前記表示画面に表示すると共に、前記障害期間を算出する際に、前記確信度が所定値未満であるか判断し、さらに、前記ノード装置の前記処理性能値の種類を確認し、当該処理性能値の種類が瞬間的に得られた瞬間値であるか、或いは所定期間の性能値を積算して得られた積算値であるかを判断し、かつ、前記障害期間が所定値以下であるかを判断し、前記確信度が所定値未満で、前記処理性能値の種類が前記瞬間値で、かつ前記障害期間が所定値以下の前記解決済障害解析結果
    を、他の解決済障害解析結果及び前記未解決障害解析結果と区別して前記表示画面に表示する、ことを特徴とする管理システム。
JP2010161724A 2010-07-16 2010-07-16 計算機システムの管理方法、及び管理システム Expired - Fee Related JP5419819B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2010161724A JP5419819B2 (ja) 2010-07-16 2010-07-16 計算機システムの管理方法、及び管理システム
CN201080067454.0A CN102959521B (zh) 2010-07-16 2010-07-28 计算机系统的管理方法以及管理系统
PCT/JP2010/062696 WO2012008058A1 (ja) 2010-07-16 2010-07-28 計算機システムの管理方法、及び管理システム
EP10854740.7A EP2562651A4 (en) 2010-07-16 2010-07-28 Management system and management method for computer system
US12/995,133 US8429455B2 (en) 2010-07-16 2010-07-28 Computer system management method and management system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010161724A JP5419819B2 (ja) 2010-07-16 2010-07-16 計算機システムの管理方法、及び管理システム

Publications (3)

Publication Number Publication Date
JP2012022614A JP2012022614A (ja) 2012-02-02
JP2012022614A5 JP2012022614A5 (ja) 2013-03-07
JP5419819B2 true JP5419819B2 (ja) 2014-02-19

Family

ID=45469079

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010161724A Expired - Fee Related JP5419819B2 (ja) 2010-07-16 2010-07-16 計算機システムの管理方法、及び管理システム

Country Status (4)

Country Link
EP (1) EP2562651A4 (ja)
JP (1) JP5419819B2 (ja)
CN (1) CN102959521B (ja)
WO (1) WO2012008058A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5658417B2 (ja) * 2012-02-27 2015-01-28 株式会社日立製作所 監視システム及び監視プログラム
WO2014033945A1 (ja) * 2012-09-03 2014-03-06 株式会社日立製作所 複数の監視対象デバイスを有する計算機システムの管理を行う管理システム
WO2014068705A1 (ja) * 2012-10-31 2014-05-08 株式会社日立製作所 監視システム及び監視プログラム
JP6114818B2 (ja) * 2013-04-05 2017-04-12 株式会社日立製作所 管理システム及び管理プログラム
WO2015040688A1 (ja) * 2013-09-18 2015-03-26 株式会社日立製作所 計算機システムを管理する管理システム及びその管理方法
CN105223884A (zh) * 2015-09-30 2016-01-06 国网北京市电力公司 故障图像的推送方法及装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0730540A (ja) * 1993-07-08 1995-01-31 Hitachi Ltd ネットワーク障害監視装置
US5528516A (en) * 1994-05-25 1996-06-18 System Management Arts, Inc. Apparatus and method for event correlation and problem reporting
US7107185B1 (en) 1994-05-25 2006-09-12 Emc Corporation Apparatus and method for event correlation and problem reporting
JP3996040B2 (ja) * 2002-11-06 2007-10-24 株式会社日立製作所 データベース乱れ解消処理方法及びその実施装置並びにその処理プログラム
JP4872262B2 (ja) * 2005-07-27 2012-02-08 日本電気株式会社 管理支援システム、管理支援方法、および管理支援プログラム
JP5087309B2 (ja) * 2007-04-24 2012-12-05 株式会社日立製作所 管理装置及び管理方法
US8086905B2 (en) * 2008-05-27 2011-12-27 Hitachi, Ltd. Method of collecting information in system network
US8112378B2 (en) * 2008-06-17 2012-02-07 Hitachi, Ltd. Methods and systems for performing root cause analysis
JP5293115B2 (ja) * 2008-11-26 2013-09-18 富士通株式会社 故障原因推測方法、故障原因推測装置、及びプログラム

Also Published As

Publication number Publication date
EP2562651A4 (en) 2017-08-23
JP2012022614A (ja) 2012-02-02
EP2562651A1 (en) 2013-02-27
WO2012008058A1 (ja) 2012-01-19
CN102959521B (zh) 2015-11-25
CN102959521A (zh) 2013-03-06

Similar Documents

Publication Publication Date Title
JP5684946B2 (ja) イベントの根本原因の解析を支援する方法及びシステム
US8819220B2 (en) Management method of computer system and management system
JP5432867B2 (ja) 計算機システムの管理方法、及び管理システム
US8429455B2 (en) Computer system management method and management system
US11061756B2 (en) Enabling symptom verification
US9619314B2 (en) Management system and management program
EP2523115B1 (en) Operation management device, operation management method, and program storage medium
JP5222876B2 (ja) 計算機システムにおけるシステム管理方法、及び管理システム
JP5419819B2 (ja) 計算機システムの管理方法、及び管理システム
EP2674865A1 (en) MANAGEMENT COMPUTER AND METHOD FOR ROOT CAUSE ANALYSiS
US20160378583A1 (en) Management computer and method for evaluating performance threshold value
US20140122931A1 (en) Performing diagnostic tests in a data center
US20120102362A1 (en) Management system and management method
US9852007B2 (en) System management method, management computer, and non-transitory computer-readable storage medium
JP6009089B2 (ja) 計算機システムを管理する管理システム及びその管理方法
US10275330B2 (en) Computer readable non-transitory recording medium storing pseudo failure generation program, generation method, and generation apparatus
US9021078B2 (en) Management method and management system
CN108920103B (zh) 服务器的管理方法、装置、计算机设备及存储介质
JP6845657B2 (ja) 管理サーバ、管理方法及びそのプログラム
WO2015019488A1 (ja) 管理システム及びその管理システムによるイベント解析方法
JP2019009726A (ja) 障害切り分け方法および管理サーバ
EP3537300A1 (en) Application reconfiguration

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130121

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130409

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131029

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131119

LAPS Cancellation because of no payment of annual fees