JP2023067014A - 判定プログラム、判定方法、及び、情報処理装置 - Google Patents

判定プログラム、判定方法、及び、情報処理装置 Download PDF

Info

Publication number
JP2023067014A
JP2023067014A JP2021177930A JP2021177930A JP2023067014A JP 2023067014 A JP2023067014 A JP 2023067014A JP 2021177930 A JP2021177930 A JP 2021177930A JP 2021177930 A JP2021177930 A JP 2021177930A JP 2023067014 A JP2023067014 A JP 2023067014A
Authority
JP
Japan
Prior art keywords
component
failure
redundancy
alarm
parts
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021177930A
Other languages
English (en)
Inventor
拓郎 隈部
Takuro Kumabe
雅裕 吉田
Masahiro Yoshida
健太郎 湯浅
Kentaro Yuasa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2021177930A priority Critical patent/JP2023067014A/ja
Publication of JP2023067014A publication Critical patent/JP2023067014A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)

Abstract

【課題】監視対象装置における冗長性消失の可能性を低減させる。【解決手段】判定プログラムは、監視対象装置が備える複数の部品の各々に関するログを複数の前記監視対象装置から受信して得られたデータベースから、部品の故障率が所定の閾値よりも高い第1部品を前記監視対象装置ごとに特定し、前記データベースから、前記ログに含まれるエラー情報に基づき、故障要因に応じた部品の故障率が同種部品よりも高い第2部品を特定し、前記監視対象装置において2以上の部品により冗長化された部品群であって、前記第1部品又は前記第2部品を含む前記部品群について、前記第1部品又は前記第2部品の故障により冗長性が消失するか否かを判定し、前記第1部品又は前記第2部品の故障により前記部品群の冗長性が消失すると判定した場合に、前記第1部品又は前記第2部品に関するアラームを出力する、処理をコンピュータに実行させる。【選択図】図18

Description

本発明は、判定プログラム、判定方法、及び、情報処理装置に関する。
ストレージ装置等の監視対象装置を監視する監視装置(情報処理装置)が知られている。
監視装置は、例えば、ストレージ装置での障害発生を契機にストレージ装置から送信された障害に関するログを収集及び分析し、障害の発生したハードウェア等の部品を特定する。そして、監視装置は、特定した部品の情報をサポート担当者に通知することで、発生した障害への迅速な対処を可能とする。
特開2019-36158号公報 特開2011-138251号公報
監視装置は、ストレージ装置で発生した障害に関するログに基づきストレージ装置を部品単位で監視するものであり、ストレージ装置において将来発生し得る部品単位の障害の予測(障害予測)を行なうことは想定していない。また、監視装置では、ストレージ装置における部品間の関係性は考慮されていない。
このため、監視対象であるストレージ装置で障害が発生した場合、ストレージ装置において冗長性が消失する可能性がある。
1つの側面では、本発明は、監視対象装置における冗長性消失の可能性を低減させることを目的の1つとする。
1つの態様では、判定プログラムは、コンピュータに以下の処理を実行させてよい。前記処理は、監視対象装置が備える複数の部品の各々に関するログを複数の前記監視対象装置から受信して得られたデータベースから、部品の故障率が所定の閾値よりも高い第1部品を前記監視対象装置ごとに特定してよい。また、前記処理は、前記データベースから、前記ログに含まれるエラー情報に基づき、故障要因に応じた部品の故障率が同種部品よりも高い第2部品を特定してよい。さらに、前記処理は、前記監視対象装置において2以上の部品により冗長化された部品群であって、前記第1部品又は前記第2部品を含む前記部品群について、前記第1部品又は前記第2部品の故障により冗長性が消失するか否かを判定してよい。また、前記処理は、前記第1部品又は前記第2部品の故障により前記部品群の冗長性が消失すると判定した場合に、前記第1部品又は前記第2部品に関するアラームを出力してよい。
1つの側面では、監視対象装置における冗長性消失の可能性を低減させることができる。
一実施形態の一例としての監視システムの構成例を示すブロック図である。 一実施形態に係るサーバの機能を実現するコンピュータのハードウェア(HW)構成例を示すブロック図である。 一実施形態に係る監視システムの機能構成例を示すブロック図である。 ログの一例を示す図である。 監視対象装置データベース(DB)の一例を示す図である。 部品故障率テーブルの一例を示す図である。 監視対象装置DBの一例を示す図である。 故障要因テーブルの一例を示す図である。 監視対象装置DBの一例を示す図である。 冗長数テーブルの一例を示す図である。 図9の状態に基づき冗長性判定処理を行なう場合の監視対象装置DBの一例を示す図である。 監視対象装置DBの他の例を示す図である。 図12に示す監視対象装置DBから装置Aの保守対象部品を抽出して生成される出力情報の一例を示す図である。 図12に示す監視対象装置DBから装置Bの保守対象部品を抽出して生成される出力情報の一例を示す図である。 サーバによる監視処理の動作例を説明するためのフローチャートである。 図15に示す故障率判定処理の動作例を説明するためのフローチャートである。 図15に示す故障要因判定処理の動作例を説明するためのフローチャートである。 図15に示す冗長性維持判定処理の動作例を説明するためのフローチャートである。 サーバによる保守対象部品出力処理の動作例を説明するためのフローチャートである。
以下、図面を参照して本発明の実施の形態を説明する。ただし、以下に説明する実施形態は、あくまでも例示であり、以下に明示しない種々の変形や技術の適用を排除する意図はない。例えば、本実施形態を、その趣旨を逸脱しない範囲で種々変形して実施することができる。なお、以下の実施形態で用いる図面において、同一符号を付した部分は、特に断らない限り、同一若しくは同様の部分を表す。
〔1〕一実施形態
〔1-1〕システムの構成例
図1は、一実施形態の一例としての監視システム1の構成例を示すブロック図である。監視システム1は、サーバ2、複数のストレージ装置3、及び、端末4を備えてよい。
複数のストレージ装置3のそれぞれは、監視対象装置の一例であり、所定のタイミングでサーバ2にログを送信する。
サーバ2は、監視装置又は予測装置の一例であり、複数のストレージ装置3のそれぞれを監視対象とした監視処理を行なう。例えば、サーバ2は、ストレージ装置3からログを取得すると、ログに基づき、交換部品の特定、並びに、障害発生の予測及び冗長性消失の可能性の分析を実行してよい。そして、サーバ2は、特定した交換部品の情報、並びに、予測結果及び分析結果に基づく情報を、端末4に通知してよい。
端末4は、監視対象であるストレージ装置3に対するサポート、例えば保守サービスを提供するサポート担当者が利用する端末である。サポート担当者は、端末4を通じて、通知内容に応じたストレージ装置3の保守を実行してよい。なお、保守サービスは、端末4及びサーバ2により実行されてもよい。
サーバ2、複数のストレージ装置3、及び、端末4のそれぞれは、ネットワーク1aを介して相互に通信可能に接続されてよい。ネットワーク1aは、例えば、LAN(Local Area Network)及びインターネットの一方又は双方を含んでよい。なお、サーバ2と複数のストレージ装置3との間、サーバ2と端末4との間、並びに、複数のストレージ装置3と端末4との間、の少なくとも1つは、ネットワーク1aとは異なるネットワークを介して相互に通信可能に接続されてもよい。
以下の説明では、監視対象装置として、ストレージ装置3を例に挙げて説明するが、これに限定されるものではない。監視対象装置は、サーバ、PC及び通信装置等の種々のコンピュータ(情報処理装置)であってもよい。
〔1-2〕ハードウェア構成例
一実施形態に係るサーバ2は、物理サーバであってもよいし、仮想サーバ(VM;Virtual Machine)であってもよい。また、サーバ2の機能は、1台のコンピュータにより実現されてもよいし、2台以上のコンピュータにより実現されてもよい。さらに、サーバ2の機能のうちの少なくとも一部は、クラウド環境により提供されるHW(Hardware)リソース及びNW(Network)リソースを用いて実現されてもよい。
図2は、一実施形態に係るサーバ2の機能を実現するコンピュータ10のハードウェア(HW)構成例を示すブロック図である。サーバ2の機能を実現するHWリソースとして、複数のコンピュータが用いられる場合は、各コンピュータが図2に例示するHW構成を備えてよい。
図2に示すように、コンピュータ10は、HW構成として、例示的に、プロセッサ10a、メモリ10b、記憶部10c、IF(Interface)部10d、IO(Input / Output)部10e、及び読取部10fを備えてよい。
プロセッサ10aは、種々の制御や演算を行なう演算処理装置の一例である。プロセッサ10aは、コンピュータ10内の各ブロックとバス10iで相互に通信可能に接続されてよい。なお、プロセッサ10aは、複数のプロセッサを含むマルチプロセッサであってもよいし、複数のプロセッサコアを有するマルチコアプロセッサであってもよく、或いは、マルチコアプロセッサを複数有する構成であってもよい。
プロセッサ10aとしては、例えば、CPU、MPU、GPU、APU、DSP、ASIC、FPGA等の集積回路(IC;Integrated Circuit)が挙げられる。なお、プロセッサ10aとして、これらの集積回路の2以上の組み合わせが用いられてもよい。CPUはCentral Processing Unitの略称であり、MPUはMicro Processing Unitの略称である。GPUはGraphics Processing Unitの略称であり、APUはAccelerated Processing Unitの略称である。DSPはDigital Signal Processorの略称であり、ASICはApplication Specific ICの略称であり、FPGAはField-Programmable Gate Arrayの略称である。
メモリ10bは、種々のデータやプログラム等の情報を格納するHWの一例である。メモリ10bとしては、例えばDRAM(Dynamic Random Access Memory)等の揮発性メモリ、及び、PM(Persistent Memory)等の不揮発性メモリ、の一方又は双方が挙げられる。
記憶部10cは、種々のデータやプログラム等の情報を格納するHWの一例である。記憶部10cとしては、HDD(Hard Disk Drive)等の磁気ディスク装置、SSD(Solid State Drive)等の半導体ドライブ装置、不揮発性メモリ等の各種記憶装置が挙げられる。不揮発性メモリとしては、例えば、フラッシュメモリ、SCM(Storage Class Memory)、ROM(Read Only Memory)等が挙げられる。
記憶部10cは、コンピュータ10の各種機能の全部若しくは一部を実現するプログラム10g(判定プログラム)を格納してよい。
例えば、サーバ2のプロセッサ10aは、記憶部10cに格納されたプログラム10gをメモリ10bに展開して実行することにより、後述するサーバ2(図3に例示する制御部20)としての機能を実現できる。
IF部10dは、サーバ2と、複数のストレージ装置3及び端末4のそれぞれとの間のネットワークを含む種々のネットワークとの間の接続及び通信の制御等を行なう通信IFの一例である。例えば、IF部10dは、イーサネット(登録商標)等のLAN、或いは、FC(Fibre Channel)等の光通信等に準拠したアダプタを含んでよい。当該アダプタは、無線及び有線の一方又は双方の通信方式に対応してよい。
例えば、サーバ2は、IF部10d及びネットワークを介して、複数のストレージ装置3及び端末4のそれぞれと相互に通信可能に接続されてよい。なお、プログラム10gは、当該通信IFを介して、ネットワークからコンピュータ10にダウンロードされ、記憶部10cに格納されてもよい。
IO部10eは、入力装置、及び、出力装置、の一方又は双方を含んでよい。入力装置としては、例えば、キーボード、マウス、タッチパネル等が挙げられる。出力装置としては、例えば、モニタ、プロジェクタ、プリンタ等が挙げられる。また、IO部10eは、入力装置及び表示装置が一体となったタッチパネル等を含んでもよい。
読取部10fは、記録媒体10hに記録されたデータやプログラムの情報を読み出すリーダの一例である。読取部10fは、記録媒体10hを接続可能又は挿入可能な接続端子又は装置を含んでよい。読取部10fとしては、例えば、USB(Universal Serial Bus)等に準拠したアダプタ、記録ディスクへのアクセスを行なうドライブ装置、SDカード等のフラッシュメモリへのアクセスを行なうカードリーダ等が挙げられる。なお、記録媒体10hにはプログラム10gが格納されてもよく、読取部10fが記録媒体10hからプログラム10gを読み出して記憶部10cに格納してもよい。
記録媒体10hとしては、例示的に、磁気/光ディスクやフラッシュメモリ等の非一時的なコンピュータ読取可能な記録媒体が挙げられる。磁気/光ディスクとしては、例示的に、フレキシブルディスク、CD(Compact Disc)、DVD(Digital Versatile Disc)、ブルーレイディスク、HVD(Holographic Versatile Disc)等が挙げられる。フラッシュメモリとしては、例示的に、USBメモリやSDカード等の半導体メモリが挙げられる。
上述したコンピュータ10のHW構成は例示である。従って、コンピュータ10内でのHWの増減(例えば任意のブロックの追加や削除)、分割、任意の組み合わせでの統合、又は、バスの追加若しくは削除等は適宜行なわれてもよい。なお、ストレージ装置3(例えばストレージ装置3のコントローラ)を実現するコンピュータは、上述したコンピュータ10と同様のハードウェア構成を備えてもよい。
〔1-3〕機能構成例
次に、一実施形態に係る監視システム1の機能構成(ソフトウェア構成)の一例を説明する。図3は、一実施形態に係る監視システム1の機能構成例を示すブロック図である。
図3に示すように、ストレージ装置3は、例示的に、ログ31を送信するログ送信部32を備えてよい。例えば、ストレージ装置3のコントローラは、ストレージ装置3に備えられる部品に関する情報を収集し、ログ31に蓄積してよい。部品に関する情報の収集及びログ31への蓄積は、例えば、ストレージ装置3の起動時、構成の変更時、定期的なタイミング、及び、障害発生の検出時、等の種々のタイミングで実施されてよい。
図4は、ログ31の一例を示す図である。ログ31は、図4に示すように、例示的に、ストレージ装置3の「装置ID」、部品の「構成情報」、「状態情報」、「稼働情報」、及び、エントリを作成した「時刻」等の項目を含んでよい。
「装置ID」は、ストレージ装置3の識別情報の一例である。「構成情報」は、部品の部品名(部品番号、型式番号等)、部品No.(部品の識別情報)、当該部品のストレージ装置3での搭載位置(部品、スロット、コネクタ等)等の情報を含んでよい。また、「構成情報」は、当該部品がストレージ装置3において他の部品とともに冗長化構成される場合は、当該他の部品の識別情報等の情報を含んでよい。
なお、「冗長化構成」には、障害の発生に備えて、複数の部品を並列に又は独立して動作させる構成、並びに、少なくとも1つの部品を動作させ、残りの部品をスタンバイ状態とする構成、の一方又は双方が含まれてよい。また、「冗長化」には、ハードウェアレベルの冗長化、並びに、ソフトウェアレベルの冗長化、の一方又は双方が含まれてよい。一例として、「冗長化」には、複数の記憶装置等のハードウェアをソフトウェアにより冗長化するRAID(Redundant Arrays of Inexpensive Disks)等が含まれてよい。
「状態情報」は、当該部品が正常であるか異常であるかを示す情報、ベンダ名、モデル名、ロット、FW(Firmware)版数等の情報を含んでよい。「稼働情報」は、ストレージ装置3における部品の稼働時間、及び、エラー情報等の、部品の稼働に関する情報である。エラー情報は、当該部品に発生した障害に関する種々の情報、例えば故障発生数、コレクタブルエラーの発生頻度、ドライブのタイムアウト発生頻度等の情報である。故障発生数は、同一部品に発生した故障の発生数である。
このように、ログ31には、ストレージ装置3に備えられる複数の部品のそれぞれについて、障害の発生していない状態で収集された情報のエントリを含む、少なくとも1つのエントリが含まれてよい。
ログ送信部32は、所定のタイミング、例えば、1週間に1回等の定期的なタイミング、及び、障害の発生が検出されたタイミング、の一方又は双方を含むタイミングで、ストレージ装置3が蓄積するログ31をサーバ2に送信する。
図3に示すように、サーバ2は、例示的に、メモリ部21、通信部22、データ整形部23、予測部24、及び、保守対象部品出力部29を備えてよい。通信部22、データ整形部23、予測部24、及び、保守対象部品出力部29は、制御部20の一例であり、図2に例示するサーバ2のプロセッサ10aが、メモリ10bに展開されたプログラム10gを実行することにより実現されてよい。
メモリ部21は、記憶領域の一例であり、サーバ2が利用する種々のデータを記憶する。メモリ部21は、例えば、図2に示すメモリ10b及び記憶部10cのうちの一方又は双方が有する記憶領域により実現されてもよい。
図3に示すように、メモリ部21は、例示的に、監視対象装置DB(Database)21a、部品故障率テーブル21b、故障要因テーブル21c、冗長数テーブル21d、及び、出力情報21eを記憶可能であってよい。以下、便宜上、メモリ部21が格納する情報21a~21eのそれぞれをテーブル形式で表記するが、これに限定されるものではなく、これらの情報21a~21eのうちの少なくとも1つは、DB(Database)又は配列等の種々の形式であってもよい。
通信部22は、ストレージ装置3から送信されたログ31の受信、及び、予測部24による解析(判定)結果に基づく通知の送信、を実行する。
データ整形部23は、通信部22が受信したログ31から、予測部24による解析に利用される情報を抽出し、整形を行なう。例えば、データ整形部23は、ログ31に基づき、監視対象装置DB21aを生成又は更新してよい。
図5は、監視対象装置DB21aの一例を示す図である。図5に示すように、監視対象装置DB21aは、例示的に、「No.」、「装置ID」、「部品名」、「冗長化構成部品No.」、「搭載位置」、「アラーム情報」、「アラーム継続回数」、「稼働情報」、「部品情報」等の項目を含んでよい。
「No.」は、部品のエントリの識別情報である。「装置ID」は、ストレージ装置3の識別情報の一例である。「部品名」、「冗長化構成部品No.」、「搭載位置」は、ログ31の構成情報に含まれる情報である。「稼働情報」は、ログ31に含まれる、エラー情報を含む稼働情報の少なくとも一部である。「部品情報」は、ログ31に含まれる構成情報及び状態情報の少なくとも一部である。
「アラーム情報」は、当該部品による冗長化構成の状態に応じたアラームのレベル(正常、注意、警告、緊急等)であって、サーバ2が端末4に通知するアラームのレベルを示す。アラームのレベルは、正常が最低レベルであり、注意、警告の順に高いレベルとなり、緊急が最高レベルである。「アラーム継続回数」は、当該部品について、正常以外のアラーム情報が端末4に通知された回数を示す。
例えば、アラーム情報が「正常」である場合のアラームのレベルは、当該部品が故障しても冗長性の消失の可能性は無い、又は、無視できる程度に小さいことを示し、例えばアラームの通知が不要であることを示す。アラーム情報が「注意」である場合のアラームのレベルは、当該部品が故障しても冗長性の消失の可能性は低いが、次回の定期メンテナンス等のタイミングで可能であれば交換することを示す。アラーム情報が「警告」である場合のアラームのレベルは、当該部品が故障した場合に冗長性の消失の可能性が高いため、次回の定期メンテナンス等のタイミングで交換することを示す。アラーム情報が「緊急」である場合のアラームのレベルは、当該部品が故障した場合に冗長性が消失するため、アラームが通知された時点で対応を検討することを示す。
なお、アラーム情報及びアラーム継続回数の初期値は、それぞれ「正常」及び「0」であってよい。
図5に示す「部品名」は、ロット単位で部品を区別する。ロットは、製造管理又は販売管理の最小単位である。部品は、例えば、製造時にロット単位で「不良」となる要因を含む場合がある。このため、監視対象装置DB21aでは、後述する手法により、部品の故障要因に応じたロット単位の故障率の偏りを検出するために、ロット単位で部品を区別するのである。
以下、ロット単位で区別した部品名を、「部品A」~「部品F」のように符号としてアルファベットの大文字を付加して表記する。一方、後述するように、ロット単位で区別しない部品名を、「部品a」のように符号としてアルファベットの小文字を付加して表記する。
データ整形部23は、通信部22が受信したログ31から、ストレージ装置3及び部品を特定し、ストレージ装置3及び部品ごとに、監視対象装置DB21aにエントリを生成又は更新してよい。例えば、データ整形部23は、アラーム情報及びアラーム継続回数以外の監視対象装置DB21aの項目にログ31に基づく情報を設定してよい。
なお、データ整形部23は、例えば、定期的なタイミングで通信部22が受信するログ31、又は、監視対象とする1以上のストレージ装置3の構成情報(図示省略)に基づき、監視対象装置DB21aにアラーム情報及びアラーム継続回数以外の情報を含むエントリを生成してもよい。
また、ストレージ装置3では、後述する端末4へのアラームの通知、メンテナンス(保守)、又は、部品の障害発生等に応じて、部品の交換が行なわれることがある。この場合、データ整形部23は、交換後の部品に関するログ31を通信部22が受信すると、監視対象装置DB21aに格納された交換前の部品の情報に代えて、交換後の部品の情報を登録してよい。
例えば、データ整形部23は、交換後の部品のログ31に含まれる装置ID及び搭載位置に基づき、監視対象装置DB21aにおける交換前の部品のエントリを特定する。そして、データ整形部23は、交換後の部品の情報により、特定したエントリの部品名、稼働情報、及び、部品情報を更新、例えば置き換えてよい。また、データ整形部23は、当該エントリのアラーム情報及びアラーム継続回数を初期値に設定してよい。
予測部24は、通信部22が受信したログ31に基づき、交換部品の特定処理を行なってよい。例えば、予測部24は、監視処理において、障害の発生したハードウェア等の部品を特定し、特定した部品の情報を端末4に通知してよい。
また、一実施形態に係る予測部24は、監視処理において、部品の障害発生の予測処理を行なってよい。例えば、予測部24は、予測処理において、部品故障率テーブル21b、故障要因テーブル21c及び冗長数テーブル21dに基づき監視対象装置DB21aを更新する。そして、予測部24は、更新した監視対象装置DB21aに基づき、部品ごとに、当該部品が故障した場合の冗長性消失の可能性を予測し、冗長性消失の可能性がある場合、端末4にアラームを通知する。
一実施形態において、「通知」は、種々の手法により行なわれてよい。例えば、「通知」には、端末4のメールアドレス等の種々のアドレスへのメッセージの送信、端末4のモニタ等の出力装置へのメッセージの表示出力、端末4がアクセス可能な記憶領域(例えばメモリ部21又は外部ストレージ)へのメッセージの格納、等のうちの少なくとも1つが含まれてもよい。
図3に例示するように、予測部24は、予測処理を行なうための機能に着目すると、部品故障率算出部25、部品故障判定部26、故障要因分析部27、及び、冗長性判定部28を備えてよい。
部品故障率算出部25は、監視対象装置DB21aの稼働情報に含まれる部品ごとの故障発生数に基づき、部品の故障率(故障発生率)を算出する。
例えば、部品故障率算出部25は、ストレージ装置3ごと、且つ、部品ごとに、当該部品の故障発生数を、当該部品の稼働時間の合計時間で除算することで、部品の故障率を算出してよい。部品故障率算出部25が故障率を算出する部品の単位は、例えば、部品名、ベンダ名、モデル名、FW版数の少なくとも1つが同一である部品であってもよい。以下の説明では、部品故障率算出部25は、同一の部品名(部品番号、型式番号)を有する部品ごとに故障率を算出するものとする。
なお、故障率は、故障発生数/(稼働時間の合計時間)に限られず、故障発生数、稼働時間、エラー又は故障発生頻度、タイムアウト発生頻度等の、ログ31の稼働情報に含まれる種々の情報に基づき算出されてもよい。
部品故障率算出部25は、例えば、算出した故障率を、部品名ごとに、部品故障率テーブル21bに格納してよい。
図6は、部品故障率テーブル21bの一例を示す図である。図6に示すように、部品故障率テーブル21bは、例示的に、「部品名」、「故障率」、「故障率(基準値)」の項目を含んでよい。「故障率(基準値)」は、所定の基準値の一例であり、例えば、部品の故障率の理論値又は設計値等である。基準値は、例えば、設計時の検証結果又は仕様書(スペックシート)等から得られてよい。
図6の例において、「部品名」は、部品番号、型式番号等の部品名であり、ロット単位では区別されない。例えば、「部品a」は、図5に示すロット違いの「部品A」及び「部品B」に共通する部品名であってよい。
部品故障判定部26は、部品故障率算出部25が算出したストレージ装置3ごと且つ部品ごとの故障率が、部品故障率テーブル21bの基準値を超えているか否かを判定する。
部品故障判定部26は、故障率が基準値を超えている場合、当該ストレージ装置3の当該部品を「注意対象部品」と判定し、監視対象装置DB21aに対するアラームの設定、端末4へのアラームの通知、及び、故障要因分析部27への故障要因の分析指示を行なう。注意対象部品は、部品の故障率が所定の閾値よりも高い第1部品の一例である。
例えば、部品故障判定部26は、監視対象装置DB21aの注意対象部品のエントリのアラーム情報に「注意」を設定し、アラーム情報に「正常」以外が設定されている場合には、アラーム継続回数に“1”を加算する。
図7は、装置Aの部品aの故障率Xが基準値xを超える場合における、監視対象装置DB21aの一例を示す図である。この場合、部品故障判定部26は、図7に示すように、監視対象装置DB21aの装置Aの部品A及びBのエントリ(No.「1」、「2」のエントリ)のアラーム情報に「注意」を設定し、アラーム継続回数を「0」に維持する。
また、部品故障判定部26は、注意対象部品に関する「注意」レベルのアラームを、端末4に通知する。例えば、アラームは、装置Aの次回の定期メンテナンス等のタイミングで可能であれば部品a(部品A及びB)を交換することを促すアラームであってよい。このとき、部品故障判定部26は、注意対象部品のアラーム情報(又は他の追加の項目)に対して、アラームの通知日時のタイムスタンプを設定してもよい。
故障要因分析部27は、部品のロットごとの故障要因を分析し、故障要因に応じたロットごとの故障率の偏りの有無を判定する。
例えば、故障要因分析部27は、監視対象装置DB21aの稼働情報に基づき、部品の故障要因ごと、且つ、ロットごとの故障率を算出し、算出した故障率を故障要因テーブル21cに格納してよい。
図8は、故障要因テーブル21cの一例を示す図である。図8に示すように、故障要因テーブル21cは、例示的に、「部品名」、「故障要因」、「故障率」、「同種部品」の項目を含んでよい。「部品名」は、ロットごとの部品名である。「故障要因」は、故障(エラー)の発生要因であり、例えば、ソフトエラー、ハードウェアエラー、メディアエラー、無応答(タイムアウト)等の、ログ31の稼働情報(エラー情報)から取得可能な種々の要因が挙げられる。「同種部品」は、当該エントリの部品と部品名が同一でありロットが異なる部品の識別情報である。
図8に示すように、故障要因テーブル21cには、ストレージ装置3を区別せずに、同一ロットの部品に着目して、故障要因ごとの故障率が設定される。
なお、故障要因分析部27は、監視対象装置DB21a又はログ31に基づき、部品ごとに同種部品を判定し、故障要因テーブル21cに設定してよい。
故障要因分析部27は、故障率に偏りが有る場合、例えば、故障要因ごとに、或るロットの部品の故障率が、同一部品名の他のロットの故障率よりも高い(一例として、n%以上高い;nは0以上の実数、例えば“10”)場合、故障要因分析部27は、当該当該部品を「警告対象部品」と判定する。例えば、故障要因分析部27は、警告対象部品について、監視対象装置DB21aに対するアラームの設定、及び、端末4へのアラームの通知を行なう。警告対象部品は、故障要因に応じた部品の故障率が同種部品よりも高い第2部品の一例である。
例えば、故障要因分析部27は、監視対象装置DB21aの警告対象部品のエントリのアラーム情報に「警告」を設定し、既にアラーム情報に「正常」以外が設定されている場合には、アラーム継続回数に“1”を加算する。
図9は、部品Bの故障要因yの故障率10%が、同種部品である部品Aの故障要因yの故障率よりも10%以上高い場合における、監視対象装置DB21aの一例を示す図である。なお、部品Aの故障要因yの故障率は、エントリが存在しないため、0%である。この場合、故障要因分析部27は、監視対象装置DB21aの装置Aの部品Bのエントリ(No.「2」のエントリ)のアラーム情報に「警告」を設定する。なお、故障要因分析部27は、No.「2」のエントリのアラーム継続回数に「1」を設定する。
また、故障要因分析部27は、警告対象部品に関する「警告」レベルのアラームを、端末4に通知する。例えば、アラームは、部品Bを備える装置Aの次回の定期メンテナンス等のタイミングで部品Bを交換することを促すアラームであってよい。このとき、故障要因分析部27は、当該警告対象部品のアラーム情報(又は他の追加の項目)に対して、アラームの通知日時のタイムスタンプを設定してもよい。
また、故障要因の分析により特定される警告対象部品は、特定のストレージ装置3に依らず、当該部品を備える複数のストレージ装置3において、保守対象部品となることが好ましい。
そこで、故障要因分析部27は、特定した警告対象部品を備える装置Aの他に、警告対象部品を備える装置Cの部品Bに対してもアラームを設定してよい。例えば、故障要因分析部27は、監視対象装置DB21aの装置Cの部品Bのエントリ(No.「8」のエントリ)のアラーム情報に「警告」を設定し、アラーム継続回数を「0」に維持してよい。
また、故障要因分析部27は、装置Cの次回の定期メンテナンス等のタイミングで部品Bを交換することを促すアラームを端末4に送信してもよく、この場合、監視対象装置DB21aにタイムスタンプを設定してもよい。
このように、サーバ2によれば、部品の稼働情報(エラー情報)に基づき、複数のストレージ装置3を横断してロット不良の可能性がある警告対象部品を特定することができる。従って、複数の監視対象装置に対する部品単位の故障予測を効率よく、又は、正確に実施することができる。
なお、故障要因分析部27は、ロット単位で部品の故障要因の分析を行なうものとしたが、これに限定されるものではない。例えば、故障要因分析部27は、複数のロットをまとめたロット群、モデル名、FW版数等の種々の単位で部品の故障要因の分析を行なってもよい。これらの場合、監視対象装置DB21a及び故障要因テーブル21cにおける部品名は、同一のロット群、モデル名、FW版数等の単位で区別されてもよい。
なお、ロット、ロット群、モデル名又はFW版数が互いに異なる同一部品名の部品は、互いに「同種部品」又は「同等部品」であるといえる。
冗長性判定部28は、部品故障判定部26により注意対象部品と判定された部品、又は、故障要因分析部27により警告対象部品と判定された部品において、当該部品が故障することにより冗長性が失われるか否かを判定する。
例えば、冗長性判定部28は、冗長数テーブル21dから注意対象部品又は警告対象部品の冗長数を取得し、取得した冗長数に基づき、注意対象部品又は警告対象部品の故障により冗長性が失われるか否かを判定してよい。
図10は、冗長数テーブル21dの一例を示す図である。図10に示すように、冗長数テーブル21dは、例示的に、「装置ID」、「部品名」、「冗長数」の項目を含んでよい。「装置ID」及び「部品名」は、図5に示す装置ID及び部品名である。「冗長数」は、当該ストレージ装置3における当該部品の冗長化の数であり、当該部品の役割(機能)を担う部品の総数である。例えば、図5において装置Aで二重化されている部品A及びBは、図10ではいずれも冗長数が「2」である。
冗長数テーブル21dは、例えば、監視対象装置となるストレージ装置3の設計又は構築等の、監視システム1の運用前に生成され、メモリ部21に格納されてよい。
例えば、冗長性判定部28は、冗長数テーブル21dにおいて冗長数が「N」個(Nは2以上の整数)である部品のうち、監視対象装置DB21aにおいてアラーム情報に「注意」又は「警告」が設定された部品がN-1個以上存在する場合に、当該部品を「緊急対象部品」と判定する。例えば、冗長性判定部28は、緊急対象部品について、監視対象装置DB21aに対するアラームの設定、及び、端末4へのアラームの通知を行なう。
例えば、冗長性判定部28は、監視対象装置DB21aの緊急対象部品のエントリのアラーム情報に「緊急」を設定し、既にアラーム情報に「正常」以外が設定されている場合には、アラーム継続回数に“1”を加算する。
図11は、図9の状態に基づき冗長性判定処理を行なう場合の監視対象装置DB21aの一例を示す図である。冗長性判定部28は、監視対象装置DB21a(図9参照)と冗長数テーブル21d(図10参照)とを比較する。
例えば、冗長性判定部28は、装置Aの部品A及びBの冗長数がN=「2」であり、アラーム情報の「注意」又は「警告」の設定数が「2」≧(N-1)であるため、装置Aの部品A及びBを緊急対象部品と判定する。この場合、冗長性判定部28は、監視対象装置DB21aの装置Aの部品A及びBのエントリ(No.「1」、「2」のエントリ)のアラーム情報に「緊急」を設定し、アラーム継続回数にそれぞれ「1」、「2」を設定する。
また、例えば、冗長性判定部28は、装置Cの部品A及びBの冗長数がN=「2」であり、アラーム情報の「注意」又は「警告」の設定数が「1」≧(N-1)であるため、アラーム情報に「注意」又は「警告」が設定された部品Bを緊急対象部品と判定する。この場合、冗長性判定部28は、監視対象装置DB21aの装置Cの部品Bのエントリ(No.「8」のエントリ)のアラーム情報に「緊急」を設定し、アラーム継続回数に「1」を設定する。なお、冗長性判定部28は、アラーム情報が「正常」である装置Cの部品Aについても緊急対象部品と判定してもよい。この場合、冗長性判定部28は、装置Cの部品Aのエントリ(No.「7」のエントリ)のアラーム情報に「緊急」を設定し、アラーム継続回数を「0」に維持する。
なお、冗長数テーブル21dには、RAID等のソフトウェア的な冗長化構成の情報が設定されない場合がある。RAIDレベルが決まっていてもRAIDを構成するハードウェア(メンバディスク)が固定ではないためである。
しかし、RAIDレベル及びメンバディスク数は、監視対象装置DB21a又はログ31に含まれる構成情報から取得可能である。このため、冗長性判定部28は、RAID等のソフトウェア的な冗長化構成については、監視対象装置DB21a又はログ31に基づき冗長数を算出し、冗長数と監視対象装置DB21aとを比較してもよい。
例えば、或るストレージ装置3のRAIDが、メンバディスク数が「10」本であり、RAIDレベルが「RAID6」である場合、メンバディスクのうちの「2」本までの故障は許容される、換言すれば、三重化(N=3)されていると捉えることができる。この場合、冗長性判定部28は、RAIDを構成する記憶装置のうちの「2」(≧N-1)本のアラーム情報が「注意」又は「警告」である場合に、当該アラーム情報を設定された記憶装置を緊急対象部品と判定してよい。
また、冗長性判定部28は、緊急対象部品に関する「緊急」レベルのアラームを、端末4に通知する。例えば、アラームは、部品A及びBを備える装置A、並びに、部品B(及びA)を備える装置Cについて、緊急対象部品が故障した場合に冗長性が消失するため、アラームが通知された時点で対応を検討することを示すアラームであってよい。このとき、冗長性判定部28は、当該緊急対象部品のアラーム情報(又は他の追加の項目)に対して、アラームの通知日時のタイムスタンプを設定してもよい。
このように、冗長性判定部28は、ストレージ装置3において2以上の部品により冗長化された部品群であって、注意対象部品又は警告対象部品を含む部品群について、注意対象部品又は警告対象部品の故障により冗長性が消失するか否かを判定する。そして、冗長性判定部28は、注意対象部品又は警告対象部品の故障により部品群の冗長性が消失すると判定した場合に、注意対象部品又は警告対象部品に関するアラーム「緊急」を出力する。
これにより、冗長性が消失すると判定した注意対象部品又は警告対象部品、換言すれば、緊急対象部品の交換を促すアラームを端末4に早期に通知でき、冗長化構成が消失する可能性を低減させることができる。
保守対象部品出力部29は、通信部22経由で端末4から保守対象部品の出力要求を受信すると、保守対象部品を示す出力情報21eを生成し、出力情報21eを通信部22経由で端末4に送信する。
例えば、端末4は、ストレージ装置3のメンテナンス(保守)計画において、サーバ2に保守対象部品の出力要求を送信する。出力要求には、監視対象装置の装置ID、及び、メンテナンス実施時期(例えば日時)が含まれてよい。
保守対象部品出力部29は、監視対象装置DB21aを参照し、出力要求に含まれる装置IDの部品のうち、保守対象とする部品を抽出し、出力情報21eとしてメモリ部21に格納する。保守対象とする部品としては、例えば、出力要求に含まれる装置IDの部品のうち、メンテナンス実施時期に近い所定期間(例えば半年以内)に故障発生の可能性がある故障可能性部品が挙げられる。故障可能性部品には、緊急対象部品が含まれてよい。
例えば、保守対象部品出力部29は、監視対象装置DB21a(図11参照)の指定された装置IDの部品のうち、アラーム情報及びアラーム継続回数の組み合わせが所定の条件を満たす保守対象部品のエントリを抽出し、出力情報21eに設定してよい。
所定の条件としては、例えば、アラーム情報及びアラーム継続回数の組み合わせが、注意3回、警告2回、緊急1回又は0回、のうちのいずれか1つに該当する場合が挙げられる。所定の条件は、所定期間の設定に応じて、適宜変更されてよい。
図12は、監視対象装置DB21aの他の例を示す図である。図13は、図12に示す監視対象装置DB21aから装置Aの保守対象部品を抽出して生成される出力情報21eの一例を示す図である。図14は、図12に示す監視対象装置DB21aから装置Bの保守対象部品を抽出して生成される出力情報21eの一例を示す図である。
例えば、出力要求で装置Aの装置IDが指定された場合、図12に示すように、装置Aのコントローラ2に搭載される部品Bは「注意」が3回発信されている。そこで、保守対象部品出力部29は、図13に例示するように、装置Aの部品Bのエントリを監視対象装置DB21aから抽出し、出力情報21eに設定する。
また、例えば、出力要求で装置Bの装置IDが指定された場合、図12に示すように、装置Bのコントローラ1-slot1に搭載される部品Dは「警告」が2回発信されている。そこで、保守対象部品出力部29は、図14に例示するように、装置Bの部品Dのエントリを監視対象装置DB21aから抽出し、出力情報21eに設定する。
以上のように、一実施形態に係るサーバ2は、監視対象装置が備える各部品の故障に関する情報に基づき、各部品に故障が発生する可能性のある期間(メンテナンスの実施時期からの期日)、換言すれば、各部品の寿命を推定する。これにより、監視システム1では、適切な予防保守を実施でき、監視対象装置における冗長性消失の可能性を低減することができる。
〔1-4〕動作例
次に、図15~図19を参照して、一実施形態に係る監視システム1におけるサーバ2の動作例を説明する。
〔1-4-1〕監視処理
図15は、サーバ2による監視処理の動作例を説明するためのフローチャートである。図16~図18は、図15に示す故障率判定処理、故障要因判定処理及び冗長性維持判定処理のそれぞれの動作例を説明するためのフローチャートである。
図15に例示するように、サーバ2の通信部22は、ストレージ装置3からログ31を収集する(ステップS1)。例えば、データ整形部23は、通信部22により受信したログ31を整形し、監視対象装置DB21aに格納する。
部品故障率算出部25及び部品故障判定部26は、ステップS1で受信したログ31が対象とする部品のそれぞれについて、監視対象装置DB21a及び部品故障率テーブル21bに基づき、ストレージ装置3ごとに故障率判定処理を実行する(ステップS2)。
故障要因分析部27は、同等部品ごとに、監視対象装置DB21a及び故障要因テーブル21cに基づき故障要因判定処理を実行する(ステップS3)。
冗長性判定部28は、注意対象部品、及び、故障要因判定処理で判定された警告対象部品のそれぞれについて、監視対象装置DB21a及び冗長数テーブル21dに基づき冗長性維持判定処理を実行し(ステップS4)、処理が終了する。
(ステップS2:故障率判定処理)
次に、図15のステップS2における故障率判定処理の動作例を説明する。図16に例示するように、部品故障率算出部25及び部品故障判定部26は、監視対象装置DB21aに基づき、故障率を算出し(ステップS21)、算出した故障率を部品故障率テーブル21bに設定する。
部品故障判定部26は、部品故障率テーブル21bを参照し、故障率が基準値を超えているか否かを判定する(ステップS22)。故障率が基準値を超えていない場合(ステップS22でNO)、故障率判定処理が終了する。
故障率が基準値を超えている場合(ステップS22でYES)、部品故障判定部26は、当該部品(注意対象部品)に対応する監視対象装置DB21aのエントリのアラームの設定を更新する(ステップS23)。例えば、部品故障判定部26は、アラーム情報に「注意」を設定し、設定前に既にアラーム情報が「正常」以外である場合、アラーム継続回数に“1”を加算する。
部品故障判定部26は、アラーム情報に「注意」が設定されているエントリの装置IDに対して、アラーム「注意」を通知し(ステップS24)、故障率判定処理が終了する。
(ステップS3:故障要因判定処理)
次に、図15のステップS3における故障要因判定処理の動作例を説明する。図17に例示するように、故障要因分析部27は、監視対象装置DB21aに基づき、同等部品、例えばロットごとに故障要因を分析し(ステップS31)、故障要因及びロットごとの故障率を算出して、故障要因及び故障率を故障要因テーブル21cに設定する。
故障要因分析部27は、故障要因テーブル21cを参照し、故障要因に応じた故障率が他の同等部品、例えば他のロットの部品よりも高いか否かを判定する(ステップS32)。故障要因に応じた故障率が他のロットの部品以下である場合(ステップS32でNO)、故障要因判定処理が終了する。
故障要因に応じた故障率が他のロットの部品よりも高い場合(ステップS32でYES)、故障要因分析部27は、当該部品(警告対象部品)に対応する監視対象装置DB21aのエントリのアラームの設定を更新する(ステップS33)。例えば、故障要因分析部27は、アラーム情報に「警告」を設定し、設定前に既にアラーム情報が「正常」以外である場合、アラーム継続回数に“1”を加算する。
故障要因分析部27は、アラーム情報に「警告」が設定されているエントリの装置IDに対して、アラーム「警告」を通知する(ステップS34)。
また、故障要因分析部27は、他のストレージ装置3における警告対象部品と同一の部品名の部品(同一部品)に対応する監視対象装置DB21aのエントリのアラームの設定を更新し(ステップS35)、故障要因判定処理が終了する。
(ステップS4:冗長性維持判定処理)
次に、図15のステップS4における冗長性維持処理の動作例を説明する。図18に例示するように、冗長性判定部28は、監視対象装置DB21a及び冗長数テーブル21dに基づき、注意対象部品又は警告対象部品の冗長性維持性を分析する(ステップS41)。
冗長性判定部28は、注意対象部品又は警告対象部品が冗長化構成であるか否かを判定する(ステップS42)。冗長化構成ではない場合(ステップS42でNO)、冗長性維持判定処理が終了する。
冗長化構成である場合(ステップS42でYES)、冗長性判定部28は、注意対象部品又は警告対象部品が故障した場合に冗長性が維持可能か否かを判定する(ステップS43)。冗長性が維持可能である場合(ステップS43でYES)、冗長性維持判定処理が終了する。
冗長性が維持不可能である場合(ステップS43でNO)、冗長性判定部28は、当該部品に対応する監視対象装置DB21aのエントリのアラームの設定を更新する(ステップS44)。例えば、冗長性判定部28は、アラーム情報に「緊急」を設定し、設定前に既にアラーム情報が「正常」以外である場合、アラーム継続回数に“1”を加算する。
冗長性判定部28は、アラーム情報に「緊急」が設定されているエントリの装置IDに対して、アラーム「緊急」を通知し(ステップS45)、冗長性維持判定処理が終了する。
〔1-4-2〕保守対象部品出力処理
図19は、サーバ2による保守対象部品出力処理の動作例を説明するためのフローチャートである。
図19に例示するように、サーバ2の通信部22は、端末4から保守対象部品のリスト(出力情報21e)の出力要求を受信する(ステップS51)。
保守対象部品出力部29は、監視対象装置DB21aを参照し(ステップS52)、出力要求で指定された装置IDの部品の未選択エントリを選択する(ステップS53)。
保守対象部品出力部29は、選択したエントリのアラーム状態が「正常」か否かを判定する(ステップS54)。「正常」である場合(ステップS54でYES)、処理がステップS60に移行する。
選択したエントリのアラーム状態が「正常」ではない場合(ステップS54でNO)、保守対象部品出力部29は、選択したエントリのアラーム状態が「注意」か否かを判定する(ステップS55)。「注意」である場合(ステップS55でYES)、保守対象部品出力部29は、選択したエントリのアラーム継続回数が“3”以上か否かを判定する(ステップS56)。アラーム継続回数が“3”以上ではない場合(ステップS56でNO)、処理がステップS60に移行する。
選択したエントリのアラーム継続回数が“3”以上である場合(ステップS56でYES)、保守対象部品出力部29は、選択したエントリの情報を出力情報21eに追加し(ステップS59)、処理がステップS60に移行する。
ステップS55において、選択したエントリのアラーム状態が「注意」ではない場合(ステップS55でNO)、保守対象部品出力部29は、選択したエントリのアラーム状態が「警告」か否かを判定する(ステップS57)。「警告」である場合(ステップS57でYES)、保守対象部品出力部29は、選択したエントリのアラーム継続回数が“2”以上か否かを判定する(ステップS58)。アラーム継続回数が“2”以上ではない場合(ステップS58でNO)、処理がステップS60に移行する。
選択したエントリのアラーム継続回数が“2”以上である場合(ステップS58でYES)、保守対象部品出力部29は、選択したエントリの情報を出力情報21eに追加し(ステップS59)、処理がステップS60に移行する。
ステップS57において、選択したエントリのアラーム状態が「警告」ではない場合(ステップS57でNO)、選択したエントリのアラーム状態は「緊急」である。この場合、保守対象部品出力部29は、選択したエントリの情報を出力情報21eに追加し(ステップS59)、処理がステップS60に移行する。
ステップS60では、保守対象部品出力部29は、監視対象装置DB21aにおいて、出力要求で指定された装置IDの部品の未選択エントリが存在するか否かを判定する。未選択エントリが存在する場合(ステップS60でYES)、処理がステップS53に移行する。
監視対象装置DB21aに未選択エントリが存在しない場合(ステップS60でNO)、保守対象部品出力部29は、通信部22を介して、出力情報21eを端末4に送信し(ステップS61)、保守対象部品出力処理が終了する。
〔2〕その他
上述した一実施形態に係る技術は、以下のように変形、変更して実施することができる。
例えば、図3に示すサーバ2の通信部22、データ整形部23、予測部24、部品故障率算出部25、部品故障判定部26、故障要因分析部27、冗長性判定部28及び保守対象部品出力部29は、それぞれ任意の組み合わせで併合してもよく、分割してもよい。
また、図3に示すメモリ部21が格納する情報21a~21eは、それぞれ任意の組み合わせで併合してもよく、分割してもよい。
さらに、ストレージ装置3からアラームを通知された端末4は、例えば、サポート担当者等(サポート担当者、ストレージ装置3の管理者又は利用者等)に対して、種々のメッセージを通知してもよい。一例として、端末4は、サポート担当者等に対して、外部ストレージへのデータバックアップを促す警告メッセージを通知してもよい。また、例えば、端末4は、RAIDの冗長性消失に関する「緊急」のアラーム通知を受けた場合、サポート担当者等に対して、使用可能なホットスペアドライブが存在すれば、アラーム対象の被疑ドライブからホットスペアドライブへデータを移行し冗長性を保つことを指示するメッセージを通知してもよい。
〔3〕付記
以上の実施形態に関し、更に以下の付記を開示する。
(付記1)
監視対象装置が備える複数の部品の各々に関するログを複数の前記監視対象装置から受信して得られたデータベースから、部品の故障率が所定の閾値よりも高い第1部品を前記監視対象装置ごとに特定し、
前記データベースから、前記ログに含まれるエラー情報に基づき、故障要因に応じた部品の故障率が同種部品よりも高い第2部品を特定し、
前記監視対象装置において2以上の部品により冗長化された部品群であって、前記第1部品又は前記第2部品を含む前記部品群について、前記第1部品又は前記第2部品の故障により冗長性が消失するか否かを判定し、
前記第1部品又は前記第2部品の故障により前記部品群の冗長性が消失すると判定した場合に、前記第1部品又は前記第2部品に関するアラームを出力する、
処理をコンピュータに実行させる、判定プログラム。
(付記2)
前記判定する処理は、前記監視対象装置が備える複数の部品のそれぞれの冗長数を管理する情報に基づき、冗長数N(Nは2以上の整数)である前記部品群に含まれる前記第1部品又は前記第2部品の数が(N-1)以上である場合に、前記第1部品又は前記第2部品の故障により冗長性が消失すると判定する処理を含む、
付記1に記載の判定プログラム。
(付記3)
前記第1部品を特定する処理は、特定した前記第1部品に関する第1アラームを出力する処理を含み、
前記第2部品を特定する処理は、特定した前記第2部品に関する第2アラームを出力する処理を含み、
前記第1アラーム及び前記第2アラームの出力回数と、前記部品群の冗長性が消失すると判定した前記第1部品又は前記第2部品とに基づき、保守対象とする部品を決定する、
処理を前記コンピュータに実行させる、付記1又は付記2に記載の判定プログラム。
(付記4)
前記同種部品は、部品名が同一であり、ロット、ロット群、モデル名、及び、ファームウェア版数の少なくとも1つが異なる部品である、
付記1~付記3のいずれか1項に記載の判定プログラム。
(付記5)
監視対象装置が備える複数の部品の各々に関するログを複数の前記監視対象装置から受信して得られたデータベースから、部品の故障率が所定の閾値よりも高い第1部品を前記監視対象装置ごとに特定し、
前記データベースから、前記ログに含まれるエラー情報に基づき、故障要因に応じた部品の故障率が同種部品よりも高い第2部品を特定し、
前記監視対象装置において2以上の部品により冗長化された部品群であって、前記第1部品又は前記第2部品を含む前記部品群について、前記第1部品又は前記第2部品の故障により冗長性が消失するか否かを判定し、
前記第1部品又は前記第2部品の故障により前記部品群の冗長性が消失すると判定した場合に、前記第1部品又は前記第2部品に関するアラームを出力する、
処理をコンピュータが実行する、判定方法。
(付記6)
前記判定する処理は、前記監視対象装置が備える複数の部品のそれぞれの冗長数を管理する情報に基づき、冗長数N(Nは2以上の整数)である前記部品群に含まれる前記第1部品又は前記第2部品の数が(N-1)以上である場合に、前記第1部品又は前記第2部品の故障により冗長性が消失すると判定する処理を含む、
付記5に記載の判定方法。
(付記7)
前記第1部品を特定する処理は、特定した前記第1部品に関する第1アラームを出力する処理を含み、
前記第2部品を特定する処理は、特定した前記第2部品に関する第2アラームを出力する処理を含み、
前記第1アラーム及び前記第2アラームの出力回数と、前記部品群の冗長性が消失すると判定した前記第1部品又は前記第2部品とに基づき、保守対象とする部品を決定する、
処理を前記コンピュータが実行する、付記5又は付記6に記載の判定方法。
(付記8)
前記同種部品は、部品名が同一であり、ロット、ロット群、モデル名、及び、ファームウェア版数の少なくとも1つが異なる部品である、
付記5~付記7のいずれか1項に記載の判定方法。
(付記9)
監視対象装置が備える複数の部品の各々に関するログを複数の前記監視対象装置から受信して得られたデータベースから、部品の故障率が所定の閾値よりも高い第1部品を前記監視対象装置ごとに特定し、
前記データベースから、前記ログに含まれるエラー情報に基づき、故障要因に応じた部品の故障率が同種部品よりも高い第2部品を特定し、
前記監視対象装置において2以上の部品により冗長化された部品群であって、前記第1部品又は前記第2部品を含む前記部品群について、前記第1部品又は前記第2部品の故障により冗長性が消失するか否かを判定し、
前記第1部品又は前記第2部品の故障により前記部品群の冗長性が消失すると判定した場合に、前記第1部品又は前記第2部品に関するアラームを出力する、
制御部を備える、情報処理装置。
(付記10)
前記制御部は、前記判定する処理において、前記監視対象装置が備える複数の部品のそれぞれの冗長数を管理する情報に基づき、冗長数N(Nは2以上の整数)である前記部品群に含まれる前記第1部品又は前記第2部品の数が(N-1)以上である場合に、前記第1部品又は前記第2部品の故障により冗長性が消失すると判定する、
付記9に記載の情報処理装置。
(付記11)
前記制御部は、
前記第1部品を特定する処理において、特定した前記第1部品に関する第1アラームを出力し、
前記第2部品を特定する処理において、特定した前記第2部品に関する第2アラームを出力し、
前記第1アラーム及び前記第2アラームの出力回数と、前記部品群の冗長性が消失すると判定した前記第1部品又は前記第2部品とに基づき、保守対象とする部品を決定する、
付記9又は付記10に記載の情報処理装置。
(付記12)
前記同種部品は、部品名が同一であり、ロット、ロット群、モデル名、及び、ファームウェア版数の少なくとも1つが異なる部品である、
付記9~付記11のいずれか1項に記載の情報処理装置。
1 監視システム
1a ネットワーク
2 サーバ
20 制御部
21 メモリ部
21a 監視対象装置DB
21b 部品故障率テーブル
21c 故障要因テーブル
21d 冗長数テーブル
21e 出力情報
22 通信部
23 データ整形部
24 予測部
25 部品故障率算出部
26 部品故障判定部
27 故障要因分析部
28 冗長性判定部
29 保守対象部品出力部
3 ストレージ装置
31 ログ
32 ログ送信部
4 端末

Claims (6)

  1. 監視対象装置が備える複数の部品の各々に関するログを複数の前記監視対象装置から受信して得られたデータベースから、部品の故障率が所定の閾値よりも高い第1部品を前記監視対象装置ごとに特定し、
    前記データベースから、前記ログに含まれるエラー情報に基づき、故障要因に応じた部品の故障率が同種部品よりも高い第2部品を特定し、
    前記監視対象装置において2以上の部品により冗長化された部品群であって、前記第1部品又は前記第2部品を含む前記部品群について、前記第1部品又は前記第2部品の故障により冗長性が消失するか否かを判定し、
    前記第1部品又は前記第2部品の故障により前記部品群の冗長性が消失すると判定した場合に、前記第1部品又は前記第2部品に関するアラームを出力する、
    処理をコンピュータに実行させる、判定プログラム。
  2. 前記判定する処理は、前記監視対象装置が備える複数の部品のそれぞれの冗長数を管理する情報に基づき、冗長数N(Nは2以上の整数)である前記部品群に含まれる前記第1部品又は前記第2部品の数が(N-1)以上である場合に、前記第1部品又は前記第2部品の故障により冗長性が消失すると判定する処理を含む、
    請求項1に記載の判定プログラム。
  3. 前記第1部品を特定する処理は、特定した前記第1部品に関する第1アラームを出力する処理を含み、
    前記第2部品を特定する処理は、特定した前記第2部品に関する第2アラームを出力する処理を含み、
    前記第1アラーム及び前記第2アラームの出力回数と、前記部品群の冗長性が消失すると判定した前記第1部品又は前記第2部品とに基づき、保守対象とする部品を決定する、
    処理を前記コンピュータに実行させる、請求項1又は請求項2に記載の判定プログラム。
  4. 前記同種部品は、部品名が同一であり、ロット、ロット群、モデル名、及び、ファームウェア版数の少なくとも1つが異なる部品である、
    請求項1~請求項3のいずれか1項に記載の判定プログラム。
  5. 監視対象装置が備える複数の部品の各々に関するログを複数の前記監視対象装置から受信して得られたデータベースから、部品の故障率が所定の閾値よりも高い第1部品を前記監視対象装置ごとに特定し、
    前記データベースから、前記ログに含まれるエラー情報に基づき、故障要因に応じた部品の故障率が同種部品よりも高い第2部品を特定し、
    前記監視対象装置において2以上の部品により冗長化された部品群であって、前記第1部品又は前記第2部品を含む前記部品群について、前記第1部品又は前記第2部品の故障により冗長性が消失するか否かを判定し、
    前記第1部品又は前記第2部品の故障により前記部品群の冗長性が消失すると判定した場合に、前記第1部品又は前記第2部品に関するアラームを出力する、
    処理をコンピュータが実行する、判定方法。
  6. 監視対象装置が備える複数の部品の各々に関するログを複数の前記監視対象装置から受信して得られたデータベースから、部品の故障率が所定の閾値よりも高い第1部品を前記監視対象装置ごとに特定し、
    前記データベースから、前記ログに含まれるエラー情報に基づき、故障要因に応じた部品の故障率が同種部品よりも高い第2部品を特定し、
    前記監視対象装置において2以上の部品により冗長化された部品群であって、前記第1部品又は前記第2部品を含む前記部品群について、前記第1部品又は前記第2部品の故障により冗長性が消失するか否かを判定し、
    前記第1部品又は前記第2部品の故障により前記部品群の冗長性が消失すると判定した場合に、前記第1部品又は前記第2部品に関するアラームを出力する、
    制御部を備える、情報処理装置。
JP2021177930A 2021-10-29 2021-10-29 判定プログラム、判定方法、及び、情報処理装置 Pending JP2023067014A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021177930A JP2023067014A (ja) 2021-10-29 2021-10-29 判定プログラム、判定方法、及び、情報処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021177930A JP2023067014A (ja) 2021-10-29 2021-10-29 判定プログラム、判定方法、及び、情報処理装置

Publications (1)

Publication Number Publication Date
JP2023067014A true JP2023067014A (ja) 2023-05-16

Family

ID=86326459

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021177930A Pending JP2023067014A (ja) 2021-10-29 2021-10-29 判定プログラム、判定方法、及び、情報処理装置

Country Status (1)

Country Link
JP (1) JP2023067014A (ja)

Similar Documents

Publication Publication Date Title
US8645769B2 (en) Operation management apparatus, operation management method, and program storage medium
US7426554B2 (en) System and method for determining availability of an arbitrary network configuration
US20150074450A1 (en) Hard disk drive (hdd) early failure detection in storage systems based on statistical analysis
CN110825578A (zh) 用以自动管理发生于数据中心系统的硬件错误事件的方法
CN107431643A (zh) 监测存储集群元件
JP2020021277A (ja) 情報処理システム、情報処理システムの管理方法及びプログラム
US20170132102A1 (en) Computer readable non-transitory recording medium storing pseudo failure generation program, generation method, and generation apparatus
WO2023226380A1 (zh) 一种磁盘处理方法、系统及电子设备
US11720470B2 (en) Dynamic post-change computing-system evaluation
CN114064374A (zh) 一种基于分布式块存储的故障检测方法和系统
JP5975094B2 (ja) 交換候補提示方法、情報処理装置、及びプログラム
US9021078B2 (en) Management method and management system
US11055160B2 (en) Method of determining potential anomaly of memory device
JP5419819B2 (ja) 計算機システムの管理方法、及び管理システム
JP5352027B2 (ja) 計算機システムの管理方法及び管理装置
CN110968456B (zh) 分布式存储系统中故障磁盘的处理方法及装置
JP2023067014A (ja) 判定プログラム、判定方法、及び、情報処理装置
JP7082285B2 (ja) 監視システム、監視方法および監視プログラム
JP6996602B1 (ja) Bmc、サーバシステム、装置安定度判定方法及びプログラム
WO2019054434A1 (ja) 故障予兆検出装置、故障予兆検出方法、及び、故障予兆検出プログラムが格納された記録媒体
JP5696492B2 (ja) 故障検出装置、故障検出方法、及び、故障検出プログラム
CN112084097A (zh) 一种磁盘告警方法及装置
CN109901953B (zh) 数据重构方法及装置
JP7235346B2 (ja) システム、および制御方法
WO2013035264A1 (ja) 監視装置、監視方法およびプログラム