JP6867589B2 - 影響範囲特定プログラム、影響範囲特定方法、および影響範囲特定装置 - Google Patents

影響範囲特定プログラム、影響範囲特定方法、および影響範囲特定装置 Download PDF

Info

Publication number
JP6867589B2
JP6867589B2 JP2017106651A JP2017106651A JP6867589B2 JP 6867589 B2 JP6867589 B2 JP 6867589B2 JP 2017106651 A JP2017106651 A JP 2017106651A JP 2017106651 A JP2017106651 A JP 2017106651A JP 6867589 B2 JP6867589 B2 JP 6867589B2
Authority
JP
Japan
Prior art keywords
devices
failure
influence
affected
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017106651A
Other languages
English (en)
Other versions
JP2018205811A (ja
Inventor
近藤 玲子
玲子 近藤
大塚 浩
浩 大塚
幸洋 渡辺
幸洋 渡辺
正洋 麻岡
正洋 麻岡
横山 乾
乾 横山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2017106651A priority Critical patent/JP6867589B2/ja
Priority to US15/987,960 priority patent/US10868744B2/en
Publication of JP2018205811A publication Critical patent/JP2018205811A/ja
Application granted granted Critical
Publication of JP6867589B2 publication Critical patent/JP6867589B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/065Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving logical or physical relationship, e.g. grouping and hierarchies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/12Discovery or management of network topologies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/06Generation of reports
    • H04L43/067Generation of reports using time frame reporting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0686Additional information in the notification, e.g. enhancement of specific meta-data

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Debugging And Monitoring (AREA)

Description

本発明は、影響範囲特定プログラム、影響範囲特定方法、および影響範囲特定装置に関する。
コンピュータネットワークシステムでは、システム内の一部の機器で障害が発生した場合、その機器に依存している機器も障害の影響を受ける。障害の影響を受ける機器は、例えば通常よりも動作が遅くなったり、アプリケーションプログラムなどを実行できなくなったりする。このような障害の影響は、ネットワークを介して連鎖的に発生する。特に大規模システムにおいては、多くの機器が依存関係にある。そのため、障害の影響は、障害の発生下の機器やその機器に直接接続された機器に留まらず、周囲の様々な機器におよぶ。
ある機器で障害が発生し、他の機器がその障害の影響を受けた場合、利用者が影響を受けたことに気づく場合もあるが、機器によっては障害の影響を受けているにも関わらず、利用者がそのことに気づかない場合もある。障害の影響を受けていることに利用者が気づかない場合、障害の影響を受けた機器があることが、利用者からシステムの運用者に通知されず、運用者による対処も行われない。また、障害発生時には負荷がかかっていない(アプリケーションプログラムなどが実行されていない)ため現在は影響を受けていないが、負荷がかかると影響を受ける可能性が大きい機器もある。
利用者が気づいていない、または負荷がかかっていないため影響を受けていない機器は、今後トラブルの原因になる可能性がある。そのため、これらの影響を受ける可能性のある機器群(影響範囲)を、システムの運用者が認識しておくことは、システムの安定運用のために重要である。
そこで、障害発生時のシステムの管理を支援するための、様々な技術が開発されている。例えば障害の発生した計算機上で動作していた業務の内容や、その優先度などの情報を得ることができるシステム管理方式が考えられている。また、障害の影響が及ぶ範囲を正しく特定する障害影響分析装置も考えられている。また、ある情報機器に障害が発生した場合、この障害の影響がどのような機器のどのような情報処理に波及するかを適確に把握できる障害波及管理システムも考えられている。さらに、個々の障害に対する影響範囲や個々のサービスの障害に対する原因部分を切り分けて表示可能にした運用管理装置も考えられている。
特開2005−234861号公報 特開2011−113122号公報 特開2013−206047号公報 特開2015−022396号公報
システム運用者は、利用者からの障害発生通知を受けることで障害の発生を認識する。そして、障害の発生を認識した運用者は、例えば障害影響分析により影響範囲を推定して、調査、修復を行う。
しかし、従来の障害影響分析では、障害の影響範囲内の機器について、障害の影響を受ける可能性の高さの違いが判断されていない。そのため、障害の影響を受ける可能性の高さに関係なく、影響を受けるものと推定される多数の機器が同レベルで提示される。その結果、運用者は、影響を受ける可能性の低い機器から調査、修復を行ってしまうことがある。障害の影響を受ける可能性の低い機器から調査すると、実際に障害の影響を受けている機器に対する対処が遅れ、その分、障害復旧にも時間がかかってしまう。
1つの側面では、本件は、障害の影響を受ける可能性の高さの違いを判別できるようにすることを目的とする。
1つの案では、コンピュータに以下の処理を実行させる影響範囲特定プログラムが提供される。
影響範囲特定プログラムに基づいて、コンピュータは、まず、ネットワークに含まれる複数の機器のうちの障害が発生した第1機器を示す障害発生情報を取得する。次にコンピュータは、複数の機器間の接続関係を示すシステム構成モデルを参照し、複数の機器間の接続関係に基づいて、第1機器を起点として、障害の影響がおよぶ可能性のある第1影響範囲内に存在する複数の第2機器を探索する。次にコンピュータは、複数の第2機器それぞれについて、障害の影響で異常が起きているか否かを判定する。次にコンピュータは、複数の第2機器間の接続関係に基づいて、複数の第2機器のうちの異常が起きている第3機器を起点として、第3機器以外の複数の第2機器それぞれについて、第3機器の異常の影響がおよぶ可能性のある第2影響範囲内に存在するか否かを判定する。次にコンピュータは、第2影響範囲内に存在するか否かの判定結果に基づいて、第3機器以外の複数の第2機器それぞれについて、障害の影響を受ける可能性の高さのランクを決定する。そしてコンピュータは、第3機器以外の複数の第2機器それぞれについて決定したランクを示すランク情報を出力する。
1態様によれば、障害の影響を受ける可能性の高さの違いが判別可能となる。
第1の実施の形態の影響範囲特定装置の一例を示す図である。 第2の実施の形態のシステム構成例を示す図である。 第2の実施の形態に用いる管理サーバのハードウェアの一例を示す図である。 管理サーバを示すブロック図である。 システム構成モデル記憶部が記憶しているシステム構成モデルの一例を示す図である。 影響範囲探索モデル記憶部が記憶している影響範囲探索モデルの一例を示す図である。 システム構成モデル作成処理の一例を示す図である。 システム構成モデル作成処理の手順の一例を示すフローチャートである。 システム構成モデルをグラフで表した例を示す図である。 障害影響機器可視化処理の手順の一例を示すフローチャートである。 障害発生受信処理の一例を示す図である。 障害発生受信処理の手順の一例を示すフローチャートである。 影響範囲探索処理の一例を示す図である。 影響範囲探索経路情報の一例を示す図である。 影響範囲探索の一例を示す図である。 影響範囲探索処理の手順の一例を示すフローチャートである。 障害発生機器を起点とした影響範囲の探索例を示す第1の図である。 障害発生機器を起点とした影響範囲の探索例を示す第2の図である。 障害発生機器を起点とした影響範囲の探索例を示す第3の図である。 異常検知処理の一例を示す図である。 リソース情報を用いた異常検知の第1の例を示す図である。 リソース情報を用いた異常検知の第2の例を示す図である。 リソース情報を用いた異常検知の第3の例を示す図である。 異常検知処理の手順の一例を示すフローチャートである。 異常発生機器の検出結果の一例を示す図である。 影響範囲探索の一例を示す図である。 異常影響範囲探索処理の手順の一例を示すフローチャートである。 異常影響範囲探索の結果の一例を示す第1の図である。 異常影響範囲探索の結果の一例を示す第2の図である。 影響機器ランク付け処理の一例を示す図である。 影響機器ランク付け処理の手順の一例を示すフローチャートである。 影響機器ランク付け結果の一例を示す図である。 影響範囲表示処理の一例を示す図である。 影響範囲表示処理の手順の一例を示すフローチャートである。 影響範囲の表示例を示す図である。 複数の障害発生機器による影響範囲を重ね合わせたスコア計算例を示す図である。 複数の障害発生機器による影響範囲に異常発生機器の影響範囲を重ね合わせたスコア計算例を示す図である。
以下、本実施の形態について図面を参照して説明する。なお各実施の形態は、矛盾のない範囲で複数の実施の形態を組み合わせて実施することができる。
〔第1の実施の形態〕
まず第1の実施の形態について説明する。第1の実施の形態は、影響範囲特定装置に、影響範囲特定方法を実行させることで、障害の影響範囲内にある各機器について、障害の影響を受ける可能性の高さに応じたランク付けをするものである。なお、影響範囲特定装置は、例えば影響範囲特定プログラムに記述された処理を実行することで、影響範囲特定方法を実現できる。
図1は、第1の実施の形態の影響範囲特定装置の一例を示す図である。影響範囲特定装置10は、ネットワーク2を介して複数の機器1a,1b,・・・に接続されている。複数の機器1a,1b,・・・は、例えばサーバコンピュータやストレージ装置である。なお複数の機器1a,1b,・・・には、仮想マシンも含まれる。
影響範囲特定装置10は、ネットワーク2に接続されたいずれかの機器で障害が発生した場合に、その障害の影響範囲を特定する。その際、影響範囲特定装置10は、影響範囲内に存在する機器について、影響を受ける可能性に基づいてランク付けをする。このような処理を行うために、影響範囲特定装置10は、記憶部11と処理部12とを有する。
記憶部11は、複数の機器1a,1b,・・・間の接続関係を示すシステム構成モデル11aを記憶する。記憶部11は、例えば影響範囲特定装置10が有するメモリ、またはストレージ装置である。
処理部12は、障害が発生したときに、障害の影響範囲の特定、および障害がおよぶ可能性のある機器のランク付けを行う。処理部12は、例えば影響範囲特定装置10が有するプロセッサ、または演算回路である。
処理部12は、複数の機器1a,1b,・・・のうちの障害が発生した第1機器を示す障害発生情報3を取得する(ステップS1)。例えば処理部12は、障害が発生した機器から、障害発生情報3としてエラーメッセージを取得する。また処理部12は、システムの運用者が入力した障害発生情報3を取得する場合もある。図1の例では、機器名「M1」の機器に障害が発生しており、この機器が第1機器となる。
処理部12は、障害発生情報3を取得すると、システム構成モデル11aを参照して、複数の機器1a,1b,・・・間の接続関係を把握する。そして処理部12は、複数の機器1a,1b,・・・間の接続関係に基づいて、第1機器を起点として、障害の影響がおよぶ可能性のある第1影響範囲4内に存在する複数の第2機器を探索する(ステップS2)。例えば処理部12には、第1機器の機能と障害の種別との組み合わせに、起点とする機器からの接続関係の探索順を対応付けた第1探索情報が、予め設定されている。処理部12は、第1探索情報に従って、第1機器を起点として複数の機器間の接続関係を辿り、到達できた機器を複数の第2機器とする。図1の例では、機器名「M2」〜「M18」の機器が、それぞれ第2機器として検出されている。
次に処理部12は、複数の第2機器それぞれについて、障害の影響で異常が起きているか否かを判定する(ステップS3)。そして、処理部12は、障害の影響で異常が起きている機器を、第3機器とする。
例えば処理部12は、複数の第2機器それぞれを判定対象とし、判定対象の第2機器から、障害発生時刻を含む期間における判定対象の第2機器の動作状態を示す動作状態情報5を取得する。そして処理部12は、動作状態情報5に示される動作状態と、判定対象の第2機器の過去の所定の期間における動作状態とを比較することで、判定対象の第2機器に異常が起きているか否かを判定する。過去の所定の期間における動作状態とは、例えば、障害が発生した日と同じ曜日の過去の複数の日における、障害発生時刻と同じ時刻を含む期間内での判定対象の第2機器の平均的な動作状態である。判定対象の第2機器の動作状態は、例えばプロセッサの使用率、メモリの使用率、ストレージ装置への単位時間当たりのアクセス回数などで表すことができる。
動作状態を比較するため、例えば処理部12は、障害発生時刻を含む期間における動作状態と、過去の所定の期間における動作状態との差異を数値化する。数値化された差異は、例えば、動作状態を示す数値の代表値(平均値など)の差である。例えば処理部12は、障害発生時刻を含む期間内の動作状態を示す数値(プロセッサの利用率など)の代表値と、過去の所定の期間内の動作状態を示す数値の代表値との差を取る。処理部12は、差異を示す値が閾値以上であれば、判定対象の第2機器に異常が起きていると判定する。図1の例では、機器名「M7」、「M10」、「M14」の各機器で異常が起きていると判定され、これらの機器が第3機器として特定されている。
処理部12は、複数の第2機器間の接続関係に基づいて、異常と判定された各第3機器を起点として、第3機器の異常の影響を受ける可能性がある範囲(第2影響範囲)内に存在する第2機器を探索する(ステップS4)。図1の例では、機器名「M7」の第3機器の第2影響範囲6a、機器名「M10」の第3機器の第2影響範囲6b、および機器名「M14」の第3機器の第2影響範囲6cが探索されている。
探索により、第3機器以外の複数の第2機器それぞれについて、第3機器の異常の影響がおよぶ可能性のある第2影響範囲6a,6b,6c内に存在するか否かが判定できる。例えば処理部12は、第3機器の機能と障害の種別との組み合わせに予め対応付けられている、起点とする機器からの接続関係の探索順を示す第2探索情報に従って、第3機器を起点として複数の第2機器間の接続関係を辿る。そして処理部12は、複数の第2機器間の接続関係を辿ることで到達できた機器について、第2影響範囲6a,6b,6c内に存在すると判定する。図1の例では、機器名「M7」の機器の第2影響範囲6aには、機器名「M2」〜「M11」の各機器が含まれている。機器名「M10」の機器の第2影響範囲6bには、機器名「M2」〜「M14」の各機器が含まれている。機器名「M14」の機器の第2影響範囲6cには、機器名「M9」〜「M18」の各機器が含まれている。
処理部12は、第2影響範囲6a,6b,6c内に存在するか否かの判定結果に基づいて、第3機器以外の複数の第2機器それぞれについて、障害の影響を受ける可能性の高さのランクを決定する(ステップS5)。例えば障害が発生した第1機器と、異常と判断された第3機器のそれぞれの影響範囲の重なり回数が多い範囲ほど、多くの異常または障害が検知された機器の影響範囲になっている。このことから、影響範囲の重なりが多い範囲に存在する機器ほど、障害または異常の影響を受ける可能性が高いと判断できる。そこで処理部12は、例えば、複数ある第3機器のいずれかを起点とした第2影響範囲6a,6b,6c内に存在すると判定された回数が多い第2機器ほど、高いランクに決定する。
図1に示すシステム構成モデル11aでは、第2機器それぞれについて、ステップS4での探索により求められた第2影響範囲6a,6b,6c内に含まれた回数が、第2機器に対応するノードの近傍に示されている。機器名「M9」、「M11」の機器は、第2影響範囲6a,6b,6cのすべてに存在するため3回と判定されている。機器名「M2」〜「M8」の機器は、第2影響範囲6a,6bに存在し、「M12」、「M13」の機器は、第2影響範囲6b,6cに存在するため、それぞれ2回と判定されている。機器名「M15」〜「M18」の機器は、第2影響範囲6cに存在するため1回と判定されている。
ここで3段階にランク分けする場合を考える。例えば、影響を受ける可能性が高い第2機器のランクを「ランク1」、影響を受ける可能性が中程度の第2機器のランクを「ランク2」、影響を受ける可能性が低い第2機器のランクを「ランク3」とする。この場合、機器名「M9」、「M11」の機器のランクは、「ランク1」となる。機器名「M2」〜「M8」、「M12」、「M13」の機器のランクは、「ランク2」となる。機器名「M15」〜「M18」の機器のランクは、「ランク3」となる。
最後に処理部12は、第3機器以外の複数の第2機器それぞれについて決定したランクを示すランク情報7を出力する(ステップS6)。
このような影響範囲特定装置10によれば、例えばシステムの運用者は、障害の影響を受ける可能性がある機器が複数存在するときに、ランク情報7に基づいて、影響を受ける可能性の高さの違いを認識することができる。その結果、運用者は、障害の影響を受ける可能性が高い機器から、障害の復旧作業を行うことができ、障害の復旧作業を効率的に実施できる。
なお、図1の例では、障害が検知された第1機器が1台のみであるが、第1の機器が複数ある場合もある。この場合、処理部12は、複数の第1機器それぞれについて、ステップS1〜S2の処理を実行する。次に処理部12は、複数の第1機器それぞれの障害の影響範囲が重なる部分にある第2機器ほど高いランクとなるように、各第2機器に第1段階のランク付けを行う。次に処理部12は、ステップS3,S4の処理を行う。そして処理部12は、ステップS5におけるランク決定では、複数の第1機器と複数の第3機器それぞれの影響範囲の重なりが多い範囲に存在する第2機器ほどランクが高くなるように、第2段階のランク付けを行う。このように第1機器が複数ある場合に、複数の第1機機および第3機器それぞれの影響範囲の重なり度合いに基づいてランクを決定することで、第1機器や第3機器が多いほど多段階にランクを分けることができ、ランク分けの精度を向上させることができる。
さらに処理部12は、第1機器の機能と障害の種別に応じた第1探索情報を用いて、影響範囲内の機器を探索すると共に、第3機器の機能と異常の種別に応じた第2探索情報を用いて影響範囲内の機器を探索している。これにより、障害および異常の影響範囲を正確に求めることができ、影響範囲が重なる範囲も正確に求めることができる。その結果、ランク分けの精度が向上する。
〔第2の実施の形態〕
次に第2の実施の形態について説明する。
図2は、第2の実施の形態のシステム構成例を示す図である。ネットワーク20には、監視対象の機器として、例えばサーバ31a,31b,・・・、端末装置32a,32b,・・・、ストレージ装置33a,33b,・・・、ネットワーク機器34a,34b,・・・などがある。ネットワーク20には、さらに管理サーバ100と管理用端末装置30が接続されている。管理サーバ100は、監視対象の機器から情報を取得し、いずれかの機器が故障した場合に、その故障の影響範囲を検出する。管理用端末装置30は、システムの運用者が使用するコンピュータである。
図3は、第2の実施の形態に用いる管理サーバのハードウェアの一例を示す図である。管理サーバ100は、プロセッサ101によって装置全体が制御されている。プロセッサ101には、バス109を介してメモリ102と複数の周辺機器が接続されている。プロセッサ101は、マルチプロセッサであってもよい。プロセッサ101は、例えばCPU(Central Processing Unit)、MPU(Micro Processing Unit)、またはDSP(Digital Signal Processor)である。プロセッサ101がプログラムを実行することで実現する機能の少なくとも一部を、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)などの電子回路で実現してもよい。
メモリ102は、管理サーバ100の主記憶装置として使用される。メモリ102には、プロセッサ101に実行させるOS(Operating System)のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、メモリ102には、プロセッサ101による処理に必要な各種データが格納される。メモリ102としては、例えばRAM(Random Access Memory)などの揮発性の半導体記憶装置が使用される。
バス109に接続されている周辺機器としては、ストレージ装置103、グラフィック処理装置104、入力インタフェース105、光学ドライブ装置106、機器接続インタフェース107およびネットワークインタフェース108がある。
ストレージ装置103は、内蔵した記録媒体に対して、電気的または磁気的にデータの書き込みおよび読み出しを行う。ストレージ装置103は、コンピュータの補助記憶装置として使用される。ストレージ装置103には、OSのプログラム、アプリケーションプログラム、および各種データが格納される。なお、ストレージ装置103としては、例えばHDD(Hard Disk Drive)やSSD(Solid State Drive)を使用することができる。
グラフィック処理装置104には、モニタ21が接続されている。グラフィック処理装置104は、プロセッサ101からの命令に従って、画像をモニタ21の画面に表示させる。モニタ21としては、CRT(Cathode Ray Tube)を用いた表示装置や液晶表示装置などがある。
入力インタフェース105には、キーボード22とマウス23とが接続されている。入力インタフェース105は、キーボード22やマウス23から送られてくる信号をプロセッサ101に送信する。なお、マウス23は、ポインティングデバイスの一例であり、他のポインティングデバイスを使用することもできる。他のポインティングデバイスとしては、タッチパネル、タブレット、タッチパッド、トラックボールなどがある。
光学ドライブ装置106は、レーザ光などを利用して、光ディスク24に記録されたデータの読み取りを行う。光ディスク24は、光の反射によって読み取り可能なようにデータが記録された可搬型の記録媒体である。光ディスク24には、DVD(Digital Versatile Disc)、DVD−RAM、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)などがある。
機器接続インタフェース107は、管理サーバ100に周辺機器を接続するための通信インタフェースである。例えば機器接続インタフェース107には、メモリ装置25やメモリリーダライタ26を接続することができる。メモリ装置25は、機器接続インタフェース107との通信機能を搭載した記録媒体である。メモリリーダライタ26は、メモリカード27へのデータの書き込み、またはメモリカード27からのデータの読み出しを行う装置である。メモリカード27は、カード型の記録媒体である。
ネットワークインタフェース108は、ネットワーク20に接続されている。ネットワークインタフェース108は、ネットワーク20を介して、他のコンピュータまたは通信機器との間でデータの送受信を行う。
以上のようなハードウェア構成によって、第2の実施の形態における管理サーバ100の処理機能を実現することができる。なお、第1の実施の形態に示した影響範囲特定装置10も、図3に示した管理サーバ100と同様のハードウェアにより実現することができる。
管理サーバ100は、例えばコンピュータ読み取り可能な記録媒体に記録されたプログラムを実行することにより、第2の実施の形態の処理機能を実現する。管理サーバ100に実行させる処理内容を記述したプログラムは、様々な記録媒体に記録しておくことができる。例えば、管理サーバ100に実行させるプログラムをストレージ装置103に格納しておくことができる。プロセッサ101は、ストレージ装置103内のプログラムの少なくとも一部をメモリ102にロードし、プログラムを実行する。また管理サーバ100に実行させるプログラムを、光ディスク24、メモリ装置25、メモリカード27などの可搬型記録媒体に記録しておくこともできる。可搬型記録媒体に格納されたプログラムは、例えばプロセッサ101からの制御により、ストレージ装置103にインストールされた後、実行可能となる。またプロセッサ101が、可搬型記録媒体から直接プログラムを読み出して実行することもできる。
次に、管理サーバ100における、障害の影響を受ける機器を可視化するための機能について説明する。
図4は、管理サーバを示すブロック図である。管理サーバ100は、システム構成モデル記憶部110、影響範囲探索モデル記憶部120、情報収集部131、障害発生受信部132、影響探索部133、異常検知部134、影響機器ランク付け部135、および影響範囲表示部136を有する。
システム構成モデル記憶部110は、システムに含まれる管理対象の機器の構成を示すシステム構成モデルを記憶する。管理対象の機器には、サーバなどのハードウェア機器に加え、VM(Virtual Machine)などの仮想機器も含まれる。システム構成モデル記憶部110としては、例えばメモリ102またはストレージ装置103の記憶領域の一部が用いられる。
影響範囲探索モデル記憶部120は、影響範囲の探索対象の機器の構成を示す影響範囲探索モデルを記憶する。影響範囲探索モデル記憶部120としては、例えばメモリ102またはストレージ装置103の記憶領域の一部が用いられる。
情報収集部131は、機器・接続情報を収集し、システム構成モデルを作成する。また情報収集部131は、各機器から、機器の動作状態を表す動作状態情報を取得する。動作状態情報としては、例えば、リソースの使用状況を示すリソース情報がある。また動作状態情報として、出力されたメッセージの履歴を示すログ情報を収集することもできる。
障害発生受信部132は、管理対象の機器における障害の発生を検知する。例えば障害発生受信部132は、VMなどの機器を監視して、障害の発生を自動検知することができる。また障害発生受信部132は、運用者からの入力により、障害の発生を検知する場合もある。以下、障害発生受信部132が障害発生を認知した機器を、障害発生機器と呼ぶ。
影響探索部133は、障害発生機器の影響範囲を推定する。例えば影響探索部133は、障害発生機器を起点に、システム構成情報と、あらかじめ定義した影響範囲探索経路を元に、影響範囲を探索する。そして、影響探索部133は、影響範囲の探索結果に基づいて、システム構成モデルから、障害の影響を受ける可能性のある機器を抽出する。以下、障害の影響を受ける可能性のある機器を、障害影響機器と呼ぶ。また影響探索部133は、障害の影響を受けていることが確認できた機器を起点とした、影響範囲の探索も行う。
異常検知部134は、障害の影響を受けている機器を検出する。例えば異常検知部134は、影響探索部133が抽出した障害影響機器それぞれについて、リソース情報やログ情報に基づいて、実際に影響を受けているかどうかを確認する。以下、実際に影響を受けていることが確認された機器を、異常発生機器と呼ぶ。
影響機器ランク付け部135は、影響を受ける可能性(影響度)のランク付けを行う。例えば影響機器ランク付け部135は、影響探索部133による影響範囲の探索により、影響範囲内にあると判断された回数が多い障害影響機器ほど影響度を高くする。そして影響機器ランク付け部135は、各障害影響機器について、影響度に応じたランク分けを行う。
影響範囲表示部136は、障害の影響範囲の表示制御を行うユーザインターフェースである。例えば影響範囲表示部136は、影響機器ランク付け部135で順位付けされた障害影響機器をモニタ21または管理用端末装置30に表示する。また影響範囲表示部136は、キーボード22または管理用端末装置30を用いて、障害発生を運用者が入力する際のインタフェースとしても機能する。
なお、図4に示した各要素間を接続する線は通信経路の一部を示すものであり、図示した通信経路以外の通信経路も設定可能である。また、図4に示した各要素の機能は、例えば、その要素に対応するプログラムモジュールをコンピュータに実行させることで実現することができる。
次に、管理サーバ100が記憶している情報について、具体的に説明する。
図5は、システム構成モデル記憶部が記憶しているシステム構成モデルの一例を示す図である。システム構成モデル111には、機器情報と接続情報とが含まれる。機器情報には、システムの構成要素である機器(VMなどの仮想機器も含まれる)の名称(機器名)に対応付けて、機器の機能、障害または異常の発生の有無を示すフラグ(障害発生フラグ)、および影響度が設定されている。接続情報には、ネットワーク上で直接接続されている機器のリストが設定されている。なお各機器の機器名は、機能を示す名称の後に識別番号を付与した名前となっている。
図6は、影響範囲探索モデル記憶部が記憶している影響範囲探索モデルの一例を示す図である。影響範囲探索モデル121には、システム構成モデル111に示された情報のうちの、障害発生機器と障害影響機器とに関する情報が含まれる。
次に、管理サーバ100における障害影響機器のランク付け処理について、具体的に説明する。管理サーバ100は、障害影響機器のランク付けを行うための事前処理として、システム構成モデル111の作成処理を行う。
図7は、システム構成モデル作成処理の一例を示す図である。情報収集部131は、例えば定期的に、管理対象のサーバ31a,31b,・・・などの機器からシステム構成情報41を収集する。システム構成情報41には、収集元の機器の機器名や、収集元の機器に接続された他の機器の機器名が含まれる。情報収集部131は、収集したシステム構成情報41に基づいてシステム構成モデル111を作成する。情報収集部131は、作成したシステム構成モデル111をシステム構成モデル記憶部110に格納する。
図8は、システム構成モデル作成処理の手順の一例を示すフローチャートである。以下、図8に示す処理をステップ番号に沿って説明する。
[ステップS101]情報収集部131は、システム構成情報41の収集タイミングになったか否かを判断する。例えば情報収集部131は、1日に1回といった所定間隔でシステム構成情報41を収集する場合、予め設定された収集時刻に達すると、収集タイミングになったと判断する。また情報収集部131は、障害発生時にシステム構成情報41を収集することもできる。この場合、情報収集部131は、例えば障害発生受信部132において障害の発生が検知されたとき、システム構成情報41の収集タイミングになったと判断する。情報収集部131は、収集タイミングになった場合、処理をステップS102に進める。また情報収集部131は、収集タイミングになっていなければ、ステップS101の処理を繰り返す。
[ステップS102]情報収集部131は、システム内のサーバ31a,31b,・・・などの機器それぞれからシステム構成情報41を収集する。
[ステップS103]情報収集部131は、収集したシステム構成情報41に基づいて、システム構成モデル111を作成する。そして情報収集部131は、作成したシステム構成モデル111を、システム構成モデル記憶部110に格納する。
[ステップS104]情報収集部131は、システム構成モデル作成処理の終了の指示があるか否かを判断する。情報収集部131は、終了の指示が入力された場合、システム構成モデル作成処理を終了する。情報収集部131は、終了の指示が入力されていなければ、処理をステップS101に進め、次の収集タイミングになるのを待つ。
このようにして、システム構成モデル111が定期的に作成され、最新状態に保たれる。システム構成モデル111には機器間の接続関係が示されている。そのため、システム構成モデル111に基づいて、機器間の接続関係をグラフで表すことができる。
図9は、システム構成モデルをグラフで表した例を示す図である。図9の上段には、ネットワーク20における機器の接続関係を示している。このような接続関係がシステム構成モデル111内に設定される。そしてシステム構成モデル111は、各機器をノードとして、接続されている機器間をエッジで接続したグラフで表すことができる。
いずれかの機器で障害が発生すると、図9に示すようなシステム構成モデル111を用いて、障害の影響範囲を調べ、影響範囲内にある他の障害影響機器を、影響度に応じてランク分けすることができる。
次に、障害発生時の障害影響機器可視化処理について詳細に説明する。
図10は、障害影響機器可視化処理の手順の一例を示すフローチャートである。以下、図10に示す処理をステップ番号に沿って説明する。
[ステップS111]障害発生受信部132は、障害発生の自動検知、または人手による障害情報の入力に基づく、障害発生受信処理を行う。障害発生受信処理の詳細は、後述する(図12参照)。
[ステップS112]影響探索部133は、障害の影響範囲を探索する影響範囲探索処理を行う。影響範囲探索処理によって、障害影響機器が抽出される。影響範囲探索処理の詳細は後述する(図16参照)。
[ステップS113]異常検知部134は、障害影響機器のうち、実際に動作の異常が発生している機器を検知する異常検知処理を行う。異常検知処理によって、異常発生機器が抽出される。異常検知処理の詳細は後述する(図24参照)。
[ステップS114]影響探索部133は、異常発生機器を起点として、影響範囲を探索する異常影響範囲探索処理を行う。異常影響範囲探索処理の詳細は後述する(図27参照)。
[ステップS115]影響機器ランク付け部135は、障害影響機器についての影響度に応じたランク付け処理(影響機器ランク付け処理)を行う。影響機器ランク付け処理により、障害影響機器について、影響度のランクが設定される。影響機器ランク付け処理の詳細は後述する(図31参照)。
[ステップS116]影響範囲表示部136は、障害の影響範囲をモニタ21または管理用端末装置30に表示する影響範囲表示処理を行う。影響範囲表示処理の詳細は後述する(図34参照)。
[ステップS117]異常検知部134は、ステップS113の異常検知処理において少なくとも1台の異常発生機器が検知できたか否かを判断する。異常検知部134は、異常発生機器が検知できていない場合、処理をステップS118に進める。また異常検知部134は、異常発生機器が検知できた場合、障害影響機器ランク分け処理を終了する。
[ステップS118]異常検知部134は、障害が発生してから、予め設定されている異常発生機器の探索時間が経過したか否かを判断する。異常発生機器の探索時間は、異常発生機器の検出を断念するまでの時間である。例えば異常検知部134には、探索時間が1時間に設定される。探索時間が経過した場合、異常検知部134は、異常発生機器の検出を断念し、障害影響機器ランク分け処理を終了する。異常検知部134は、探索時間が経過していなければ、処理をステップS119に進める。
[ステップS119]異常検知部134は、前回の異常検知処理を実行してから、予め設定された探索待ち時間が経過したか否かを判断する。異常検知部134は、探索待ち時間が経過した場合、処理をステップS113に進める。また異常検知部134は、探索待ち時間が経過していなければ、ステップS119の処理を繰り返し、探索待ち時間が経過するのを待つ。
このような手順で、障害影響機器のランク分けが行われる。以下、ステップS111〜S116の各処理の詳細を順番に説明する。
<障害発生受信処理>
以下、図11〜図12を参照して、障害発生受信処理について説明する。
図11は、障害発生受信処理の一例を示す図である。障害発生の検知方法としては、二通りの方法がある。
第1の障害発生検知方法は、障害発生受信部132が管理対象のサーバ31a,31b,・・・などの機器を監視し、障害の発生を自動で検知するものである。例えば障害発生受信部132は、定期的に管理対象の機器と通信し、エラー情報を収集する。そして障害発生受信部132は、エラー情報を出力した機器を、障害発生機器として特定する。また障害発生受信部132は、定期的に管理対象の機器に生起確認コマンド(ping等)を送信し、所定期間内に応答を返してこない機器を、障害発生機器として特定する。障害発生受信部132は、特定した障害発生機器を示す障害発生機器情報42を、影響探索部133に送信する。また障害発生受信部132は、管理用端末装置30へ、電子メールなどにより、障害が発生したことを示す障害検知通知を送信する。
第2の障害発生検知方法は、管理用端末装置30からの障害発生の入力により、障害の発生を検知するものである。例えばシステムの運用者がいずれかの機器の障害の発生に気づく場合がある。またサービスの利用がいずれかの機器の障害の発生に気づき、障害が発生していることをシステムの運用者に連絡する場合がある。これらの場合、運用者は、例えば管理用端末装置30により、影響範囲表示部136と通信する。そして管理者が管理用端末装置30に障害発生機器の機器名を入力すると、その機器名が、管理用端末装置30から影響範囲表示部136に送信される。影響範囲表示部136は、障害発生機器の機器名を受信すると、受信した障害発生機器の機器名を、障害発生受信部132に送信する。障害発生受信部132は、障害発生機器の機器名を受信すると、その機器で障害が発生したことを認識し、障害発生機器情報42を影響探索部133に送信する。
図12は、障害発生受信処理の手順の一例を示すフローチャートである。以下、図12に示す処理をステップ番号に沿って説明する。
[ステップS131]障害発生受信部132は、いずれかの機器の障害の発生を検知する。障害の発生を検知する場合には、自動検知した場合と、障害の発生したことを示す情報が手動入力された場合とがある。障害発生受信部132は、障害の発生を自動検知した場合、障害が発生した機器の機器名を取得すると共に、現在の時刻を障害発生時刻として記憶する。また障害発生受信部132は、障害の発生が手動入力される場合、障害が発生した機器の機器名と障害発生時刻との入力を受け付ける。
[ステップS132]障害発生受信部132は、障害発生機器情報42を、影響探索部133に対して出力する。
[ステップS133]障害発生受信部132は、障害発生を自動検知したのか否かを判断する。障害発生受信部132は、自動検知であれば、処理をステップS134に進める。自動検知でなければ、障害発生受信処理を終了する。
[ステップS134]障害発生受信部132は、障害検知通知を、管理用端末装置30に送信する。例えば障害発生受信部132は、運用者のメールアドレス宛に障害検知通知を示す電子メールを送信する。送信された障害検知通知は、一旦、図示していないメールサーバに保存される。管理用端末装置30は、所定のタイミングでメールサーバから障害検知通知を受信する。
このようにして障害発生受信部132により障害の発生が検知され、障害発生機器を示す障害発生機器情報42が、影響探索部133に送信される。すると、影響探索部133により、影響範囲探索処理が実行される。
<影響範囲探索処理>
以下、図13〜図19を参照して、影響範囲探索処理について説明する。
図13は、影響範囲探索処理の一例を示す図である。影響探索部133は、影響範囲探索経路情報43を有している。影響範囲探索経路情報43には、機器の機能ごとに、障害原因に応じた影響範囲の探索経路が設定されている。影響探索部133は、障害発生機器情報42を受信すると、システム構成モデル111を参照し、あらかじめ定義した影響範囲探索経路情報43に基づいて、障害影響機器を抽出する。影響探索部133は、抽出した障害影響機器に基づいて、影響範囲探索モデル121を作成する。そして影響探索部133は、作成した影響範囲探索モデル121を、影響範囲探索モデル記憶部120に格納する。
図14は、影響範囲探索経路情報の一例を示す図である。影響範囲探索経路情報43には、例えば障害・探索経路対応表43aと探索経路情報43bとが含まれる。障害・探索経路対応表43aには、機器の機能と障害種別との組に対応付けて、探索経路を一意に示す探索経路番号が設定されている。障害種別は、例えばDisk関連障害やCPU関連障害というように、障害の原因となる資源の種別である。
探索経路情報43bには、探索経路番号ごとに、その探索経路番号に対応する探索経路が示されている。探索経路は、影響範囲の探索を行う機器の機能の配列によって示されている。例えば「探索経路#1」に示されている探索経路は、「VM→Datastore→RAID→Datastore→VM」である。この探索経路では、まず機能が「VM」の機器から探索を開始することが示されている。次に「VM」の機器に接続された、機能が「Datastore」の機器を探索することが示されている。該当する機器が検出できた場合、探索経路に示される順番で、対応する機能を有する機器が、最後に検出した機器に接続された機器の中から探索される。
図15は、影響範囲探索の一例を示す図である。例えば障害原因がDisk関連で、機器名「VM1」の機器が障害発生機器であるものとする。この場合、障害発生機器の機能は「VM」である。すると、図14に示した障害・探索経路対応表43aによれば、探索経路として「探索経路#1」が決定される。そこで、機器「VM1」を起点として、探索経路情報43bに示されている探索経路「探索経路#1」に従って、影響範囲探索が行われる。
まずシステム構成モデル111に示されるシステム構成において、機器「VM1」に接続されている機器の中から、機能が「Datastore」の機器が探索される。すると、例えば機器「Datastore2」が検出される。次に、機器「Datastore2」に接続されている機器の中から、機能が「RAID」の機器が探索される。すると、例えば機器「RAID1」が検出される。次に機器「RAID1」に接続されている機器の中から、機能が「Datastore」の機器が探索される。すると、例えば機器「Datastore2」と機器「Datastore3」とが検出される。次に、機器「Datastore2」に接続されている機器の中から、機能が「VM」の機器が探索されると共に、機器「Datastore3」に接続されている機器の中から、機能が「VM」の機器が探索される。すると、機器「Datastore2」に接続されている機器「VM8」と、機器「Datastore3」に接続されている機器「VM9」とが検出される。
この結果、経路a「VM1→Datastore2→RAID1→Datastore3→VM9」と経路b「VM1→Datastore2→RAID1→Datastore2→VM8」とが検出されている。経路bに示すように、起点の障害発生機器から経路を辿ったときに、一度辿った経路を逆に戻ることも許容されている。
図15には、機器「VM1」に接続されている機能が「Datastore」の機器のうち、機器「Datastore2」を経由した探索例のみを示しているが、機器「Datastore1」を経由した探索も行われる。
なお、探索経路「探索経路#1」に従った場合、機能「HV」の機器を経由した探索は行われない。また、機能「RAID」の機器を共有しない機能「Datastore」の機器は探索されない。
このような影響範囲探索経路情報43に基づいて、障害の影響範囲の探索が行われる。
図16は、影響範囲探索処理の手順の一例を示すフローチャートである。以下、図16に示す処理を、ステップ番号に沿って説明する。
[ステップS141]影響探索部133は、障害発生機器情報42を受信する。障害発生機器情報42には、例えば障害が発生した1または複数の機器それぞれの、機器名および障害発生時刻が含まれる。
[ステップS142]影響探索部133は、障害の種類を取得する。例えば影響探索部133は、運用者により管理用端末装置30へ入力された障害の種類を、管理用端末装置30から取得する。また、障害発生受信部132が障害の発生を検知したときに、障害の種類も判明した場合、障害発生受信部132は、障害発生機器情報42に障害の種類を含めることができる。例えば障害発生受信部132は、障害の自動検知の際に取得したエラー情報に、障害の種類を示す情報が含まれていた場合、その障害の種類を障害発生機器情報42に含める。
[ステップS143]影響探索部133は、システム構成モデル記憶部110から、システム構成モデル111を読み込む。このとき影響探索部133は、読み込んだシステム構成モデル111における、障害発生機器の障害発生フラグに「1」を設定する。
[ステップS144]影響探索部133は、障害発生機器情報42に示されている障害発生機器の中から、未選択の障害発生機器の1つを、起点となる障害発生機器として選択する。
[ステップS145]影響探索部133は、影響範囲探索経路情報43に基づいて、影響範囲を探索するための探索経路を決定する。
[ステップS146]影響探索部133は、起点となる障害発生機器から、決定した探索経路に従って影響範囲を探索する。このとき影響探索部133は、システム構成モデル111における、探索によって検出した経路上の障害発生機器以外の機器の影響度に「1」を加算する。
[ステップS147]影響探索部133は、すべての障害発生機器を起点とした探索が完了したか否かを判断する。影響探索部133は、すべての障害発生機器の探索が完了した場合、処理をステップS148に進める。また影響探索部133は、未探索の障害発生機器がある場合、処理をステップS144に進める。
[ステップS148]影響探索部133は、影響範囲探索によって検出された機器を、障害影響機器として出力する。
[ステップS149]影響探索部133は、障害影響機器に基づいて、影響範囲探索モデル121を作成する。
このようにして、障害発生機器を起点とした影響範囲の探索が行われ、障害影響機器が検出される。
図17は、障害発生機器を起点とした影響範囲の探索例を示す第1の図である。機器「VM1」が障害発生機器として検出された場合、システム構成モデル111における機器「VM1」の障害発生フラグに「1」が設定される。ここで、障害種別が「Disk関連障害」であり、探索経路が「探索経路#1」と判断されたものとする。
図18は、障害発生機器を起点とした影響範囲の探索例を示す第2の図である。機器「VM1」を起点として、探索経路「探索経路#1」による探索を行った結果、障害影響機器が検出される。そして、システム構成モデル111における障害影響機器の影響度に「1」が設定される。図18では、障害影響機器を表すノードの近傍に、その障害影響機器の影響度を示す数値を示している。
図19は、障害発生機器を起点とした影響範囲の探索例を示す第3の図である。システム構成モデル111に示されるシステム構成から、障害発生機器と障害影響機器とのいずれでもない機器を除外することで、影響範囲探索モデル121が作成される。そして影響範囲探索モデル121が、影響範囲探索モデル記憶部120に格納される。
障害発生機器を起点とした影響範囲探索が完了したことで、障害の影響を受ける可能性がある機器が、障害影響機器として特定される。ただし、この段階では、障害の影響の度合いの優劣が判断されていない。そこで異常検知処理により、障害影響機器の中から、実際に何らかの影響を受けている機器が判断される。
なお、図17〜図19の例では、障害発生機器は1台のみであるが、障害発生機器が複数存在する場合もある。その場合、図19に示したシステム構成モデル121では、複数の機器の障害発生フラグに「1」が設定される。また障害発生機器が複数ある場合には、各障害発生機器から影響範囲内の障害影響機器が探索され、探索ごとに、影響範囲機器それぞれの影響度に「1」が加算される。そのため、複数の障害発生機器の影響範囲内に存在する障害影響機器の影響度は、「2」以上の値となる。例えば、障害発生機器が2台の場合、一方のみの障害発生機器の影響範囲に存在する障害影響機器の影響度は「1」となり、両方の障害発生機器の影響範囲に存在する障害影響機器の影響度は「2」となる。
<異常検知処理>
以下、図20〜図25を参照して、異常検知処理について説明する。
図20は、異常検知処理の一例を示す図である。異常検知部134は、影響範囲探索モデル記憶部120内の影響範囲探索モデル121を参照し、障害影響機器を示す障害影響機器情報61を取得する。そして異常検知部134は、情報収集部131に、障害影響機器の動作状態情報50の収集を依頼する。すると情報収集部131は、障害影響機器それぞれから動作状態情報50を取得し、取得した動作状態情報50を異常検知部134に転送する。
動作状態情報50には、例えばリソース情報51とログ情報52との少なくともいずれか一方が含まれる。リソース情報51は、障害影響機器のリソースの使用状況を示す情報である。例えばCPU使用率の時間変化、メモリ使用率の時間変化、ディスクの単位時間当たりのライト回数の時間変化などが、リソース情報51に含まれる。なおリソース情報51として、障害種別に対応するリソースの情報のみを取得してもよい。例えば障害種別がDisk関連障害であれば、情報収集部131は、ディスクの単位時間当たりのライト回数の時間変化を、リソース情報51として取得する。ログ情報52は、障害影響機器において発生したイベントのログを示す情報である。ログ情報52には、例えば障害影響機器で発生したエラーを示すエラーログが含まれる。
異常検知部134は、障害影響機器それぞれの動作状態情報50に基づいて、実際に障害の影響を受けている異常発生機器を抽出する。異常検知部134は、異常発生機器を示す異常発生機器情報62を、影響探索部133に送信する。
ここで、図21〜図23を参照して、リソース情報を用いた異常検知方法について説明する。
図21は、リソース情報を用いた異常検知の第1の例を示す図である。例えば異常検知部134は、機器のリソースの状態に周期性がある場合、障害影響機器それぞれの障害種別に関連するリソース情報を取得し、障害発生時間帯と過去の対応周期とのリソースの状態の時間変化を比較する。障害影響機器のリソースの状態の時間変化の仕方が、障害発生時間帯と過去の対応周期で異なる場合、異常検知部134は、その障害影響機器を異常発生機器として出力する。
過去のリソース状態の時間変化は、例えば過去の所定周期分のリソース状態の時間変化を平均化したものである。例えばリソースの状態の同じような時間変化が、1日周期で繰り返される場合がある。この場合、異常検知部134は、毎日、情報収集部131を介して、各機器の1日分のリソース情報を取得する。そして異常検知部134は、各日のリソースの状態から、平均的な1日のリソースの状態の時間変化を算出し、算出結果をストレージ装置103に格納する。障害が検知されて異常検知処理が開始されると、異常検知部134は、過去のリソース状態の時間変化として、ストレージ装置から平均的な1日のリソースの状態の時間変化を取得し、現在のリソースの状態の時間変化と比較する。
例えば異常検知部134は、障害発生時刻を含む所定の期間について、過去と現在とのリソース状態の時間変化を比較する。例えば障害発生時刻が「12:00」であれば、前後30分「11:30〜12:30」の1時間の時間帯について比較する。例えば異常検知部134は、リソース状態の時間変化を統計的検定手法を用いて比較し、所定値以上の有意な差が認められた場合、判定対象の障害影響機器は障害の影響を受けていると判定する。
また異常検知部134は、比較対象の時間帯のリソース状態の平均値を比較し、過去の平均と現在の平均値との間に所定値以上の有意な差がある場合、判定対象の障害影響機器は、障害の影響を受けていると判定してもよい。その場合、例えば現在の平均値を過去の平均値で除算した値が、「0.6〜1.4」の範囲外のときであれば、判定対象の障害影響機器は、障害の影響を受けていると判定する。
図21の例では、障害発生時刻前後において、通常は1秒当たりのライト回数が高い状態が継続しているところ、現在の状態では、障害発生時刻を境に1秒当たりのライト回数が低下している。従って、判定対象の障害影響機器は、障害の影響による異常があると判断される。
図22は、リソース情報を用いた異常検知の第2の例を示す図である。図22の例では、障害発生時刻前後において、通常は1秒当たりのライト回数が低い状態が継続しているところ、現在の状態では、障害発生時刻を境に1秒当たりのライト回数が上昇している。従って、判定対象の障害影響機器は、障害の影響による異常があると判断される。
図23は、リソース情報を用いた異常検知の第3の例を示す図である。図23の例では、障害発生時刻前後において、過去と障害発生時刻前後との双方で、1秒当たりのライト回数がほぼ0に近く、負荷がかかっていない(アプリケーションプログラムなどが実行されていない)。このように、過去においても、障害発生時刻前後においても、負荷がかかっていない場合、異常検知部134は、判定対象の障害影響機器に障害の影響が及んでいるか否かは不明であると判断する。
このようにしてリソース情報を用いて、障害影響機器に帯する異常検知が行われる。
ログ情報52に基づいて異常を検知する場合、例えば異常検知部134は、障害が発生した時刻前後の所定期間内にエラーメッセージを出力した機器を、異常発生機器とすることができる。また異常検知部134は、所定期間内のログの総出力数に基づいて、異常発生機器を判定することもできる。例えば異常検知部134は、ログ出力数の時間変化に周期性がある場合、障害発生時を含む所定期間内のログ出力数と、過去の対応する期間内のログ出力数(対応する複数の期間の平均値)とを比較する。そして、ログ出力数の差(または増減率)が所定値以上の場合、異常検知部134は、判定対象の障害影響機器は、障害の影響を受けていると判定する。例えば異常検知部134は、一定値以上の割合でログ出力数が増加した場合、増加したログに記載された機器を、異常発生機器としてもよい。
図24は、異常検知処理の手順の一例を示すフローチャートである。以下、図24に示す処理をステップ番号に沿って説明する。
[ステップS161]異常検知部134は、影響範囲探索モデル記憶部120内の影響範囲探索モデル121から、障害影響機器を示す障害影響機器情報61を取得する。
[ステップS162]異常検知部134は、動作状態情報50を、情報収集部131に問い合わせる。問い合わせには、障害影響機器の機器名が含まれる。すると情報収集部131は、障害影響機器から、障害発生時刻前後の所定期間の動作状態情報50を取得し、その動作状態情報を異常検知部134に転送する。
[ステップS163]異常検知部134は、動作状態情報を受信する。
[ステップS164]異常検知部134は、まだ判定対象としていない障害影響機器の1つを、判定対象として選択する。
[ステップS165]異常検知部134は、選択した障害影響機器から取得した動作状態情報に基づいて、その障害影響機器における、障害の影響による状態異常の有無を判定する。
[ステップS166]異常検知部134は、異常があると判定した場合、処理をステップS167に進める。また異常検知部134は、異常がないと判定した場合、処理をステップS168に進める。
[ステップS167]異常検知部134は、選択した障害影響機器を、異常発生機器として登録する。例えば異常検知部134は、影響範囲探索モデル121内の選択した障害影響機器の障害発生フラグに「1」を設定する。この場合、影響範囲探索モデル121において、障害発生フラグが「1」であり、影響度が「1」以上の値の機器が、異常発生機器である。
[ステップS168]異常検知部134は、すべての障害影響機器について、状態異常の有無の判定が完了したか否かを判断する。異常検知部134は、すべての障害影響機器について判定が完了した場合、異常検知処理を終了する。また異常検知部134は、未判定の障害影響機器がある場合、処理をステップS164に進める。
このようにして、障害影響機器の中から、異常発生機器が検出される。
図25は、異常発生機器の検出結果の一例を示す図である。図25の例では、機器「VM2」、「VM3」、「VM4」が異常発生機器と判定されている。影響範囲探索モデル121では、異常発生機器と判定された機器の障害発生フラグに「1」が設定されている。
このようにして、異常発生機器が検出されると、異常発生機器を起点として、再度影響範囲の探索が行われる。
<異常影響範囲探索処理>
以下、図26〜図29を参照して、異常影響範囲探索処理について説明する。
図26は、影響範囲探索の一例を示す図である。異常検知部134から異常発生機器情報62を受信した影響探索部133は、影響範囲探索モデル記憶部120内の影響範囲探索モデル121から障害影響機器情報61を抽出する。そして影響探索部133は、影響範囲探索経路情報43に示されている探索経路に基づいて、異常発生機器を起点として、異常影響範囲探索処理を行う。
図27は、異常影響範囲探索処理の手順の一例を示すフローチャートである。以下、図27に示す処理をステップ番号に沿って説明する。
[ステップS171]影響探索部133は、異常発生機器情報62を受信する。
[ステップS172]影響探索部133は、影響範囲探索モデル記憶部120内の影響範囲探索モデル121から障害影響機器情報61を取得する。
[ステップS173]影響探索部133は、異常発生機器情報62に示されている異常発生機器の中から、未選択の異常発生機器の1つを、起点となる異常発生機器として選択する。
[ステップS174]影響探索部133は、影響範囲探索経路情報43に基づいて、選択した異常発生機器で発生した異常の影響範囲を探索するための探索経路を決定する。例えば影響探索部133は、選択した異常発生機器の機能と、影響範囲探索処理の際にステップS142(図16参照)で取得した障害の種類との組に対応する探索経路番号を、障害・探索経路対応表43aから取得する。そして影響探索部133は、特定した探索経路番号に対応する探索経路情報43b内の探索経路を、選択した異常発生機器で発生した異常の影響範囲を探索するための探索経路に決定する。
[ステップS175]影響探索部133は、起点となる異常発生機器から、決定した探索経路に従って影響範囲を探索する。
[ステップS176]影響探索部133は、影響範囲探索モデル121における、影響範囲内の機器(探索によって検出した経路上の異常発生機器以外の機器)の影響度に「1」を加算する。
[ステップS177]影響探索部133は、すべての異常発生機器を起点とした探索が完了したか否かを判断する。影響探索部133は、すべての異常発生機器を起点とした探索が完了した場合、異常影響範囲探索処理を終了する。また影響探索部133は、未探索の異常発生機器がある場合、処理をステップS173に進める。
このようにして、異常発生機器を起点とした影響範囲の探索が行われ、障害影響機器の影響度が更新される。
図28は、異常影響範囲探索の結果の一例を示す第1の図である。図28の例では、機器「VM2」を起点として、影響範囲を探索した結果を示している。影響範囲探索モデル121における、機器「VM2」からの探索で探索範囲内に含まれる障害影響機器の影響度に「1」が加算されている。
同様に、他の異常発生機器である機器「VM3」と機器「VM4」とのそれぞれを起点とした影響範囲の探索も行われる。
図29は、異常影響範囲探索の結果の一例を示す第2の図である。図29には、すべての異常発生機器それぞれを起点とした影響範囲の探索の終了後の状態を示している。影響範囲探索モデル121における障害影響機器の影響度は、異常影響範囲探索による影響範囲に含まれた回数分だけ、カウントアップされている。
このようにして求められた影響度が高い障害影響機器ほど、障害の影響を受ける可能性が高いものと推定できる。そこで、障害影響機器の影響度に基づいて、影響範囲の影響機器ランク付けが行われる。
<影響機器ランク付け処理>
以下、図30〜図32を参照して、影響機器ランク付け処理について説明する。
図30は、影響機器ランク付け処理の一例を示す図である。影響機器ランク付け部135は、影響範囲探索モデル記憶部120から、障害影響機器の影響度が設定された影響範囲探索モデル121を取得する。そして影響機器ランク付け部135は、障害影響機器に対して、影響度に応じランク(順位)付けを行う。例えば影響機器ランク付け部135は、影響度が高い機器は、多くの異常発生機器の影響範囲になっていることから、発生した障害の影響を受ける可能性が高いことを表すため、高いランクとする。
影響機器ランク付け部135は、障害の影響範囲内の機器間の接続関係と、障害影響機器のランクとを示す影響範囲モデル71を生成する。そして影響機器ランク付け部135は、作成した影響範囲モデル71を、影響範囲表示部136に送信する。
図31は、影響機器ランク付け処理の手順の一例を示すフローチャートである。以下、図31に示す処理をステップ番号に沿って説明する。
[ステップS181]影響機器ランク付け部135は、影響範囲探索モデル記憶部120から、影響範囲探索モデル121を読み込む。
[ステップS182]影響機器ランク付け部135は、影響度の値を正規化する。例えば影響機器ランク付け部135は、障害発生機器の数(図29の例では「1」)と異常発生機器(図29の例では「3」)を合わせた数で、障害度の値を除算する。除算により得られた商が、影響度の正規化後の値となる。
[ステップS183]影響機器ランク付け部135は、正規化後の影響度に応じたランクを決定する。例えば影響機器ランク付け部135に対して、予め、複数のランクに対応付けて、各ランクに対応する影響度の範囲を設定しておく。そして影響機器ランク付け部135は、各障害影響機器の影響度が、どのランクに対応する範囲に属しているかによって、その障害影響機器のランクを決定する。
[ステップS184]影響機器ランク付け部135は、障害影響機器のランクを示す影響範囲モデル71を、影響範囲表示部136に送信する。
図32は、影響機器ランク付け結果の一例を示す図である。図32の例では、正規化後の影響度が「0.8」より大きく、「1」以下の障害影響機器を「ランク1」としている。また正規化後の影響度が「0.6」より大きく、「0.8」以下の障害影響機器を「ランク2」としている。さらに正規化後の影響度が「0」以上、「0.6」以下の障害影響機器を「ランク3」としている。ランクを示す数値は、値が小さいほど、障害の影響を受ける可能性が高いことを示している。図32に示す障害影響機器のうち、「ランク1」の障害影響機器を示すノードは太い実線で表されており、「ランク2」の障害影響機器を示すノードは細い実線で表されており、「ランク3」の障害影響機器を示すノードは破線で表されている。
そして障害影響機器のランクを示す影響範囲モデル71が作成される。影響範囲モデル71には、例えば機器情報と接続情報とが含まれる。機器情報には、障害の影響範囲内の機器の機器名に対応付けて、機器の機能、機器種別、スコア、およびランクが設定されている。機器種別には、障害発生機器、異常発生機器、障害影響機器のいずれの機器なのかが示されている。スコアには、影響度を正規化することで得られた値が設定されている。ランクには、正規化後の影響度に応じて決定したランクを示す値が設定されている。接続情報には、ネットワーク上で直接接続されている機器のリストが設定されている。
このようにして異常発生機器のランク付けが行われる。そして影響範囲表示部136により、各異常発生機器のランクが分かるような表示形態で、影響範囲内の異常発生機器が表示される。
<影響範囲表示処理>
以下、図33〜図35を参照して、影響範囲表示処理について説明する。
図33は、影響範囲表示処理の一例を示す図である。影響範囲表示部136は、影響機器ランク付け部135から送信された影響範囲モデル71を受信する。すると影響範囲表示部136は、管理用端末装置30に、影響範囲モデル71に示される機器間の接続関係をグラフで表示する。その際、影響範囲表示部136は、障害影響機器に対応するノードを、影響を受ける度合いに応じたランクが視覚的に分かるように表示する。
図34は、影響範囲表示処理の手順の一例を示すフローチャートである。以下、図34に示す処理をステップ番号に沿って説明する。
[ステップS191]影響範囲表示部136は、影響範囲モデル71を受信する。
[ステップS192]影響範囲表示部136は、影響範囲モデル71に示されている影響範囲を、管理用端末装置30の画面に表示する。
図35は、影響範囲の表示例を示す図である。影響範囲表示画面80には、障害発生機器の名称(障害発生機器名81)や障害の種類82が表示されている。また影響範囲表示画面80には、障害影響モデル83が、グラフ形式で表示されている。
障害影響モデル83では、影響範囲内の各機器がノードで表され、各機器間の接続関係がエッジ(ノード間を接続する線)で表されている。機器が、障害発生機器なのか、異常発生機器なのか、障害影響機器なのかは、対応するノードの表示態様の違い(図35の例では網掛けの違い)で表されている。また障害影響機器のランクは、対応するノードの表示態様の違い(図35の例では枠の線種の違い)で表されている。障害影響機器に対応するノードの近傍には、その障害影響機器の正規化後の影響度を示す値が表示されている。
このような影響範囲の表示処理を行うことで、運用者は、障害の影響を受ける可能性が高い機器がどれなのかを、容易に認識することができる。その結果、障害の影響を受ける可能性の高い機器を優先的に障害の復旧作業の対象とすることで、復旧作業を効率的に行うことができる。
しかも、障害発生機器が複数検出された場合、複数の障害発生機器の影響範囲を重ね合わせることで、より高精度に障害影響機器のスコアを計算することができる。以下、図36、図37を参照して、障害発生機器が複数検出された場合におけるスコアの計算例について説明する。
図36は、複数の障害発生機器による影響範囲を重ね合わせたスコア計算例を示す図である。図36の例では、機器201〜217のうち2つの機器201、208で障害が発生している。そこで機器201,208それぞれで発生した障害の影響範囲が探索される。機器201の障害の影響範囲には、機器202〜208,211〜217が含まれる。機器208の障害の影響範囲には、機器202〜210が含まれる。そして障害の影響範囲を重ね合わせてスコアが計算される。その結果、両方の影響範囲に含まれる機器202〜207のスコアは「2」となり、その他の機器209〜217のスコアは「1」となる。
図37は、複数の障害発生機器による影響範囲に異常発生機器の影響範囲を重ね合わせたスコア計算例を示す図である。図37の例では、機器211において異常が検出されている。そこで機器211で発生した異常の影響範囲が、図36に示した障害の影響範囲内で探索されている。図37の例では、機器211で発生した異常の影響範囲には、機器202,203,206,207,212,214,215が含まれる。そして図36に示した障害の影響範囲に、機器211の異常の影響範囲を重ね合わせてスコアが計算される。その結果、機器202,203,206,207のスコアは「3」となり、機器204,205,209,210,212,214,215のスコアは「2」となり、機器213,216,217のスコアは「1」となる。
このようにして、検出された障害発生機器の数が多くなれば、障害および異常の影響範囲の重ね合わせ回数も多くなり、スコアの最大値も大きくなる。このようなスコアを用いて障害影響機器をランク付けすることで、多段階でランク付けすることができ、障害の復旧作業をより効率的に行うことができる。
〔その他の実施の形態〕
以上、実施の形態を例示したが、実施の形態で示した各部の構成は同様の機能を有する他のものに置換することができる。また、他の任意の構成物や工程が付加されてもよい。さらに、前述した実施の形態のうちの任意の2以上の構成(特徴)を組み合わせたものであってもよい。
1a,1b,・・・ 機器
2 ネットワーク
3 障害発生情報
4 第1影響範囲
5 動作状態情報
6a,6b,6c 第2影響範囲
7 ランク情報
10 影響範囲特定装置
11 記憶部
12 処理部

Claims (7)

  1. コンピュータに、
    ネットワークに含まれる複数の機器のうちの障害が発生した第1機器を示す障害発生情報を取得し、
    前記複数の機器間の接続関係を示すシステム構成モデルを参照し、前記複数の機器間の接続関係に基づいて、前記第1機器を起点として、前記障害の影響がおよぶ可能性のある第1影響範囲内に存在する複数の第2機器を探索し、
    前記複数の第2機器それぞれについて、前記障害の影響で異常が起きているか否かを判定し、
    前記複数の第2機器間の接続関係に基づいて、前記複数の第2機器のうちの異常が起きている第3機器を起点として、前記第3機器以外の前記複数の第2機器それぞれについて、前記第3機器の異常の影響がおよぶ可能性のある第2影響範囲内に存在するか否かを判定し、
    前記第2影響範囲内に存在するか否かの判定結果に基づいて、前記第3機器以外の前記複数の第2機器それぞれについて、前記障害の影響を受ける可能性の高さのランクを決定し、
    前記第3機器以外の前記複数の第2機器それぞれについて決定した前記ランクを示すランク情報を出力する、
    処理を実行させる影響範囲特定プログラム。
  2. 前記第2影響範囲内に存在するか否かの判定では、前記第3機器が複数ある場合、複数ある前記第3機器それぞれを起点として、前記第3機器以外の前記複数の第2機器それぞれについて、前記第2影響範囲内に存在するか否かを判定し、
    前記ランクの決定では、複数ある前記第3機器のいずれかを起点とした前記第2影響範囲内に存在すると判定された回数が多い第2機器ほど、高い前記ランクに決定する、
    請求項1記載の影響範囲特定プログラム。
  3. 前記複数の第2機器の探索では、前記第1機器の機能と前記障害の種別との組み合わせに対応する、起点とする機器からの接続関係の探索順を示す第1探索情報に従って、前記第1機器を起点として前記複数の機器間の接続関係を辿り、到達できた2以上の機器を前記複数の第2機器とする、
    請求項1または2記載の影響範囲特定プログラム。
  4. 前記第2影響範囲内に存在するか否かの判定では、前記第3機器の機能と前記障害の種別との組み合わせに対応する、起点とする機器からの接続関係の探索順を示す第2探索情報に従って、前記第3機器を起点として前記複数の機器間の接続関係を辿り、到達できた機器について、前記第2影響範囲内に存在すると判定する、
    請求項1ないし3のいずれかに記載の影響範囲特定プログラム。
  5. 異常が起きているか否かの判定では、前記複数の第2機器それぞれを判定対象とし、前記障害の発生時刻を含む時間帯における判定対象の第2機器の動作状態と、前記判定対象の第2機器の過去の所定の時間帯における動作状態とを比較することで、前記判定対象の第2機器に異常が起きているか否かを判定する、
    請求項1ないし4のいずれかに記載の影響範囲特定プログラム。
  6. コンピュータが、
    ネットワークに含まれる複数の機器のうちの障害が発生した第1機器を示す障害発生情報を取得し、
    前記複数の機器間の接続関係を示すシステム構成モデルを参照し、前記複数の機器間の接続関係に基づいて、前記第1機器を起点として、前記障害の影響がおよぶ可能性のある第1影響範囲内に存在する複数の第2機器を探索し、
    前記複数の第2機器それぞれについて、前記障害の影響で異常が起きているか否かを判定し、
    前記複数の第2機器間の接続関係に基づいて、前記複数の第2機器のうちの異常が起きている第3機器を起点として、前記第3機器以外の前記複数の第2機器それぞれについて、前記第3機器の異常の影響がおよぶ可能性のある第2影響範囲内に存在するか否かを判定し、
    前記第2影響範囲内に存在するか否かの判定結果に基づいて、前記第3機器以外の前記複数の第2機器それぞれについて、前記障害の影響を受ける可能性の高さのランクを決定し、
    前記第3機器以外の前記複数の第2機器それぞれについて決定した前記ランクを示すランク情報を出力する、
    影響範囲特定方法。
  7. ネットワークに含まれる複数の機器間の接続関係を示すシステム構成モデルを記憶する記憶部と、
    前記複数の機器のうちの障害が発生した第1機器を示す障害発生情報を取得し、前記システム構成モデルを参照し、前記複数の機器間の接続関係に基づいて、前記第1機器を起点として、前記障害の影響がおよぶ可能性のある第1影響範囲内に存在する複数の第2機器を探索し、前記複数の第2機器それぞれについて、前記障害の影響で異常が起きているか否かを判定し、前記複数の第2機器間の接続関係に基づいて、前記複数の第2機器のうちの異常が起きている第3機器を起点として、前記第3機器以外の前記複数の第2機器それぞれについて、前記第3機器の異常の影響がおよぶ可能性のある第2影響範囲内に存在するか否かを判定し、前記第2影響範囲内に存在するか否かの判定結果に基づいて、前記第3機器以外の前記複数の第2機器それぞれについて、前記障害の影響を受ける可能性の高さのランクを決定し、前記第3機器以外の前記複数の第2機器それぞれについて決定した前記ランクを示すランク情報を出力する処理部と、
    を有する影響範囲特定装置。
JP2017106651A 2017-05-30 2017-05-30 影響範囲特定プログラム、影響範囲特定方法、および影響範囲特定装置 Active JP6867589B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017106651A JP6867589B2 (ja) 2017-05-30 2017-05-30 影響範囲特定プログラム、影響範囲特定方法、および影響範囲特定装置
US15/987,960 US10868744B2 (en) 2017-05-30 2018-05-24 Influence range identification method and influence range identification apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017106651A JP6867589B2 (ja) 2017-05-30 2017-05-30 影響範囲特定プログラム、影響範囲特定方法、および影響範囲特定装置

Publications (2)

Publication Number Publication Date
JP2018205811A JP2018205811A (ja) 2018-12-27
JP6867589B2 true JP6867589B2 (ja) 2021-04-28

Family

ID=64460747

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017106651A Active JP6867589B2 (ja) 2017-05-30 2017-05-30 影響範囲特定プログラム、影響範囲特定方法、および影響範囲特定装置

Country Status (2)

Country Link
US (1) US10868744B2 (ja)
JP (1) JP6867589B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3715738A1 (en) * 2019-03-29 2020-09-30 Mitsubishi Electric R&D Centre Europe B.V. Air conditioning system, server system, network, method for controlling an air conditioning system and method for controlling a network
JP7298343B2 (ja) * 2019-07-01 2023-06-27 日本電信電話株式会社 故障影響推定装置、故障影響推定方法、及びプログラム
JP7239828B2 (ja) 2019-08-02 2023-03-15 富士通株式会社 システム管理方法、システム管理プログラム、およびシステム管理装置
JP7408366B2 (ja) * 2019-12-06 2024-01-05 キヤノンメディカルシステムズ株式会社 機器管理装置、機器管理システム及び機器管理方法
JP7404921B2 (ja) * 2020-02-19 2023-12-26 日本電気株式会社 ネットワーク監視装置およびネットワーク監視方法
WO2021166228A1 (ja) 2020-02-21 2021-08-26 日本電信電話株式会社 ネットワーク管理装置、方法およびプログラム
JP7415714B2 (ja) 2020-03-23 2024-01-17 富士通株式会社 障害原因特定システム、障害原因特定方法および障害原因特定プログラム
KR20220040695A (ko) 2020-09-24 2022-03-31 삼성전자주식회사 전자장치 및 그 제어방법
WO2024013797A1 (ja) * 2022-07-11 2024-01-18 日本電信電話株式会社 処理装置、処理方法およびプログラム

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005234861A (ja) * 2004-02-19 2005-09-02 Mitsubishi Electric Corp 管理装置、及び、管理システム
JP4967430B2 (ja) * 2006-04-11 2012-07-04 オムロン株式会社 不具合管理装置、不具合管理プログラム、およびこれを記録した記録媒体
JP2011113122A (ja) 2009-11-24 2011-06-09 Mitsubishi Electric Corp 障害影響分析装置及び業務システム及び障害影響分析方法
JP5446894B2 (ja) * 2010-01-12 2014-03-19 富士通株式会社 ネットワーク管理支援システム、ネットワーク管理支援装置、ネットワーク管理支援方法およびプログラム
JP5469011B2 (ja) * 2010-08-05 2014-04-09 株式会社野村総合研究所 インシデント管理システム、障害影響範囲可視化方法
JP5422777B2 (ja) * 2011-03-07 2014-02-19 株式会社日立製作所 ネットワーク管理装置、ネットワーク管理方法及びネットワーク管理システム
JP2013003681A (ja) * 2011-06-13 2013-01-07 Mitsubishi Electric Corp サービス運用管理装置
JP5743809B2 (ja) * 2011-08-26 2015-07-01 株式会社日立製作所 網管理システムおよび網管理方法
WO2013094006A1 (ja) * 2011-12-19 2013-06-27 富士通株式会社 プログラム、情報処理装置および方法
JP2013206047A (ja) 2012-03-28 2013-10-07 Toshiba It Service Kk 障害波及管理システム
US9742665B2 (en) * 2013-01-08 2017-08-22 Nec Corporation Communication network control system, control method thereof, and non-transitory computer readable medium of control program
JP2014178865A (ja) * 2013-03-14 2014-09-25 Nippon Telegr & Teleph Corp <Ntt> ボトルネック分析装置、ボトルネック分析方法、および、プログラム
JP6109662B2 (ja) 2013-07-17 2017-04-05 日本電信電話株式会社 運用管理装置、運用管理方法およびプログラム
EP3121723A4 (en) * 2014-03-20 2017-11-22 Nec Corporation Information processing device, influence-process extraction method, and recording medium
EP3167571B1 (en) * 2014-07-08 2018-03-14 Telefonaktiebolaget LM Ericsson (publ) Network topology estimation based on event correlation
US10558513B2 (en) * 2015-01-30 2020-02-11 Hitachi Power Solutions Co., Ltd. System management apparatus and system management method
US10454752B2 (en) * 2015-11-02 2019-10-22 Servicenow, Inc. System and method for processing alerts indicative of conditions of a computing infrastructure
CN108369409B (zh) * 2015-12-03 2020-12-04 Abb瑞士股份有限公司 满足过程控制系统中通信要求的故障根源分析
US9537720B1 (en) * 2015-12-10 2017-01-03 International Business Machines Corporation Topology discovery for fault finding in virtual computing environments
WO2017131783A1 (en) * 2016-01-29 2017-08-03 Hewlett Packard Enterprise Development Lp Managing groups of servers
US10505793B2 (en) * 2016-03-29 2019-12-10 Fortinet, Inc. Network appliance health monitor
US10574530B2 (en) * 2017-04-13 2020-02-25 Servicenow, Inc. System and method for processing of current and historical impact status information

Also Published As

Publication number Publication date
JP2018205811A (ja) 2018-12-27
US10868744B2 (en) 2020-12-15
US20180351840A1 (en) 2018-12-06

Similar Documents

Publication Publication Date Title
JP6867589B2 (ja) 影響範囲特定プログラム、影響範囲特定方法、および影響範囲特定装置
US7856575B2 (en) Collaborative troubleshooting computer systems using fault tree analysis
US9652318B2 (en) System and method for automatically managing fault events of data center
US9424157B2 (en) Early detection of failing computers
US9298538B2 (en) Methods and systems for abnormality analysis of streamed log data
US20160378583A1 (en) Management computer and method for evaluating performance threshold value
US10977108B2 (en) Influence range specifying method, influence range specifying apparatus, and storage medium
JP2017111601A (ja) 調査対象特定プログラム、および調査対象特定方法
US9836382B2 (en) Cognitive platform for troubleshooting system events
CN108880838B (zh) 业务故障的监控方法及装置、计算机设备及可读介质
US7823029B2 (en) Failure recognition, notification, and prevention for learning and self-healing capabilities in a monitored system
CN114327988B (zh) 一种可视化网络故障关系确定方法和装置
CN115580528A (zh) 故障根因定位方法、装置、设备及可读存储介质
EP2606428B1 (en) Method, system, and computer program for system diagnosis detection
JP7239828B2 (ja) システム管理方法、システム管理プログラム、およびシステム管理装置
US20160004584A1 (en) Method and computer system to allocate actual memory area from storage pool to virtual volume
CN114095394A (zh) 网络节点故障检测方法、装置、电子设备及存储介质
JP6340990B2 (ja) メッセージ表示方法、メッセージ表示装置、およびメッセージ表示プログラム
JP2010122133A (ja) 故障箇所特定システム、故障箇所特定方法
JP2020155008A (ja) 制御方法,情報処理装置および制御プログラム
JP7296426B2 (ja) 情報システムを管理する管理システム及び管理方法
WO2023047806A1 (ja) 情報処理装置、および自動分析システム
US20230315083A1 (en) Information processing system, information processing method and information processing apparatus
JP2023136444A (ja) 解析プログラム、解析方法、および情報処理システム
CN117033046A (zh) 容器诊断和修复的方法、装置及电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200310

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20200316

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20200316

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210309

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210322

R150 Certificate of patent or registration of utility model

Ref document number: 6867589

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150