JP7327493B2 - 異常対処支援装置、方法およびプログラム - Google Patents

異常対処支援装置、方法およびプログラム Download PDF

Info

Publication number
JP7327493B2
JP7327493B2 JP2021548044A JP2021548044A JP7327493B2 JP 7327493 B2 JP7327493 B2 JP 7327493B2 JP 2021548044 A JP2021548044 A JP 2021548044A JP 2021548044 A JP2021548044 A JP 2021548044A JP 7327493 B2 JP7327493 B2 JP 7327493B2
Authority
JP
Japan
Prior art keywords
abnormality
cause
failure
coping
devices
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021548044A
Other languages
English (en)
Other versions
JPWO2021059396A1 (ja
Inventor
俊介 金井
晴久 野末
聡 鈴木
文香 浅井
尚美 村田
和陽 明石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2021059396A1 publication Critical patent/JPWO2021059396A1/ja
Application granted granted Critical
Publication of JP7327493B2 publication Critical patent/JP7327493B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Debugging And Monitoring (AREA)

Description

この発明の一態様は、例えば通信ネットワークに接続される装置に故障や障害等の異常が発生した場合に、その対処を支援する異常対処支援装置、方法及びプログラムに関する。
ネットワークに接続されるルータやサーバなどの装置に故障や障害などの異常が発生した場合に、異常発生箇所を推定する技術が種々提案されている。例えば、特許文献1には、障害事例データベースに登録されている他の障害ケースと重複しないように、障害ケースごとにユニークな障害イベントの組合せを抽出し、特徴的な障害イベントとして、障害要因箇所を判定可能なルールを自動で作成及び修正する技術が開示されている。また、障害要因箇所として特定された対象装置の復旧を支援するために、例えば対象装置における過去の対処方法の実施頻度に基づく優先度順に対処方法を選択し、提示する技術も提案されている。
日本国特開2018-28778号公報
ところが、対処方法の実施頻度は装置ごとに偏りがあったり、対象装置の過去における対処方法の実施数が少ない場合には、対処方法に設定された優先度の順位が実際の対処方法の実施頻度に対応せず、実施頻度の低い対処方法が優先的に実施され、その結果対処完了までの時間が長くなる場合があった。
この発明の一態様は、上記事情に着目してなされたもので、異常発生に対し最適な対処方法を提示することが可能な技術を提供しようとするものである。
上記課題を解決するためにこの発明に係る異常対処支援装置、方法およびプログラムの一態様は、ネットワークに接続された複数の装置の各々に関する異常対処の実績情報を記憶しておく。そして、前記複数の装置のうち異常が発生した装置に関する異常原因の特定結果を表す情報を取得し、記憶された前記異常対処の実績情報に基づいて、事前確率を用いた統計手法をもとに、前記異常原因が特定された装置を含む所定の範囲の複数の装置を対象として、当該複数の装置の異常原因に対応する複数の対処方法の各々について前記異常原因の復旧確率を計算し、計算された前記復旧確率に基づいて前記複数の対処方法に対し優先度を設定し、設定された前記優先度に基づいて、前記異常原因が特定された前記装置に対する対処方法を決定し、決定された前記対処方法を表す情報を出力するようにしたものである。
この発明の一態様によれば、異常発生に対し最適な対処方法を提示することが可能な技術を提供することができる。
図1は、この発明の一実施形態に係る異常対処支援装置のソフトウェア構成を示すブロック図である。 図2は、この発明の一実施形態に係る異常対処支援装置のハードウェア構成を示すブロック図である。 図3は、図1に示した異常対処支援装置による異常対処支援処理の全体の処理手順と処理内容を示すフローチャートである。 図4は、図3に示した異常対処支援処理のうち故障原因特定処理の処理手順と処理内容の一例を示すフローチャートである。 図5は、図3に示した異常対処支援処理のうち対処方法決定処理の第1のパターンの処理手順と処理内容を示すフローチャートである。 図6は、図3に示した異常対処支援処理のうち対処方法決定処理の第2のパターンの処理手順と処理内容の一例を示すフローチャートである。 図7は、図5に示した対処方法決定処理の第1のパターンによる処理結果の一例を示す図である。 図8は、既存の対処方法決定処理による処理結果の一例を示す図である。 図9は、図6に示した対処方法決定処理の第2のパターンによる処理結果の一例を示す図である。 図10は、図5および図6に示した対処方法決定処理の第1のパターンおよび第2のパターンによる処理結果の具体例を、既存の技術による処理結果と対比して示した図である。 図11は、図5および図6に示した対処方法決定処理の第1のパターンおよび第2のパターンによる復旧までの時間および実施数のシミュレーション結果を、既存の技術と対比して示した図である。
以下、図面を参照してこの発明の実施形態を説明する。
[一実施形態]
(構成例)
図1および図2は、それぞれこの発明の一実施形態に係る異常対処支援装置のソフトウェア構成およびハードウェア構成の一例を示すブロック図である。
異常対処支援装置1は、例えば通信ネットワークに接続されるルータやサーバなどの装置(以後ノードとも云う)との間で通信が可能な管理装置、または保守端末に設けられるもので、サーバコンピュータまたはパーソナルコンピュータにより構成される。異常対処支援装置1は、図2に示すように、中央処理ユニット(Central Processing Unit:CPU)を有する制御部2に対し、プログラム記憶部3と、データ記憶部4と、通信インタフェース部(通信I/F)5と、入出力インタフェース部(入出力I/F)6を、バス9を介して接続したものとなっている。
通信I/F5は、ネットワークに接続される複数のノード、およびこれらのノード間の接続構成を表す情報を記憶する構成情報データベース(図示省略)との間で通信を行い、各ノードが発生するアラーム情報AR、および構成情報データベースに記憶されたネットワーク構成情報を取得する。
入出力I/F6には、入力部7および表示部8が接続されている。入力部7および表示部8は、例えば液晶または有機EL(Electro Luminescence)を使用した表示デバイスの表示画面上に、静電方式又は圧力方式を採用した入力検知シートを配置した、いわゆるタブレット型の入力・表示デバイスを用いたものが用いられる。なお、入力部7および表示部8は独立するデバイスにより構成されてもよい。入出力I/F6は、上記入力部7において入力された操作情報を制御部2に入力すると共に、制御部2で生成された表示情報を表示部8に表示させる。
プログラム記憶部3およびデータ記憶部4は、記憶媒体として、例えば、HDD(Hard Disk Drive)またはSSD(Solid State Drive)等の随時書込みおよび読出しが可能な不揮発性メモリと、ROM(Read Only Memory)等の不揮発性メモリと、RAM(Random Access Memory)等の揮発性メモリとを組み合わせたものを使用する。プログラム記憶部3には、この発明の一実施形態に係る各種制御処理を実行するために必要なプログラムが格納される。データ記憶部4には、トポロジ・イベントデータ記憶部13や、後述するルールセット21~2nの記憶部、各種処理の過程で生じるデータを一時記憶する作業用メモリが設けられている。
異常対処支援装置1は、ルール生成・制御部10と、ルールエンジン20と、データ変換部30と、入出力I/FとしてのGUI40とを備える。このうちデータ変換部30は、監視対象となる各ノードから発生されたアラーム情報ARをイベント情報にデータ変換すると共に、図示しない構成情報データベースから取得されたネットワークの構成情報STをトポロジ情報にデータ変換する。
ルール生成・制御部10は、故障原因を特定する処理を行う推定部11と、上記故障原因に対する対処方法を決定する処理を行う対処方法決定部12と、障害事例データベースとして使用されるトポロジ・イベントデータ記憶部13とを備える。
トポロジ・イベントデータ記憶部13の障害事例データベースには、ノードの種類別に故障原因の各々について複数の対処方法をそれぞれ適用したときの過去の復旧件数と、後述する対処方法決定部12により計算される上記対処方法ごとの復旧確率と優先順位を表す情報が含まれる。この障害事例データベースの一例は後述する。
ルールエンジン20は、1以上のルールセット21~2nを管理する。ルールセットは、条件部と結論部とを含む。この例では、条件部は故障等を含む障害イベントであり、例えば装置IDとアラーム種別を含む。結論部は故障原因特定情報であり、装置IDと故障原因の種別を含む。
推定部11は、データ変換部30から与えられるイベント情報およびトポロジ情報に対し、ルールエンジン20で管理されるルールセット21~2nを選択的に適用して、故障原因の推定処理を行う。また推定部11は、既存のルールセット21~2nによる推定が失敗した場合に、上記イベント情報からユニークな障害イベントの組み合わせを抽出し、抽出されたユニークな組み合わせを条件部とし、保守者により登録した故障原因特定情報を結論部として学習処理を行い、ルールを新規生成する。そして、新規生成されたルールをルールエンジン20のルールセット21~2nに追加すると共に、上記新規作成されたルールのルールIDを故障IDと関連付けてトポロジ・イベントデータ記憶部13に記憶させる。
対処方法決定部12は、ベイズ統計の事前確率を使用し、トポロジ・イベントデータ記憶部13に記憶されている故障対処履歴データをもとに、故障原因別、または故障原因とノードの種類別に、対処方法ごとの復旧確率を計算する。また対処方法決定部12は、計算された上記復旧確率をもとに各対処方法に対し優先順位を付与し、この優先順位をもとに提示する対処方法を決定する処理を行う。
GUI40は、上記対処方法決定部12により決定された、故障原因に対する対処方法を表す提示情報ESを、表示部8に表示させる。またGUI40は、表示された上記対処方法を表す提示情報ESに基づいて例えば保守員が入力部7から入力した障害対応に関する障害要因情報FCを受け取ってルール生成・制御部10に入力する。
(動作例)
次に、以上のように構成された異常対処支援装置1の動作を説明する。
図3は、異常対処支援装置1による異常対処支援動作の全体の処理手順と処理内容を示すフローチャートである。
(1)故障原因特定処理
異常対処支援装置1は、推定部11の制御の下、先ずステップS1において故障原因を特定する処理を以下のように実行する。図4はその処理手順と処理内容の一例を示すフローチャートである。
すなわち、推定部11は、監視対象のノードから発生されたアラーム情報に対応するイベント情報、および構成情報データベースから取得されたネットワークの構成情報STに対応するトポロジ情報をデータ変換部30から取得する。そして、ステップS11において、取得された上記イベント情報およびトポロジ情報に対し、ルールエンジン20で管理されるルールセット21~2nを適用して、ノードの故障原因の推定処理を行う。そして、上記推定処理の推定結果をもとに故障原因を推定できたか否かをステップS12で判定し、推定できた場合には処理を終了する。
これに対し、既存のルールセットによる推定が失敗した場合には、推定部11はステップS13において、上記イベント情報からユニークな障害イベントの組み合わせを抽出し、抽出されたユニークな組み合わせを条件部とし、保守者により登録した故障原因情報を結論部として学習処理を行う。そして、上記学習処理の結果、新たなルールが生成できたか否かをステップS14で判定する。
この判定の結果、新たなルールを生成できた場合には、新規生成されたルールをルールエンジン20のルールセット21~2nに追加すると共に、上記新規作成されたルールのルールIDを障害IDと関連付けてトポロジ・イベントデータ記憶部13に記憶させる。そして推定部11は、ステップS15において、上記新規生成されたルールに基づいて障害発生箇所の推定処理を再度実行し、処理を終了する。なお、上記学習処理(ステップS13)において新たなルールを生成できなかった場合、つまり学習処理に失敗した場合には、処理を終了する。
異常対処支援装置1は、以上述べた故障原因特定処理が終了すると、故障原因が特定されたか否かをステップS2により判定する。そして、故障原因が特定されなかった場合、つまり故障が発生していなかったか発生していても特定が困難だった場合には、そのまま処理を終了する。
(2)対処方法の決定処理
異常対処支援装置1は、上記ステップS2において故障原因が特定されたことが確認されると、続いて上記故障原因に対する対処方法を決定する処理を実行する。故障原因に対する対処方法を決定する処理は、ベイズ統計の手法を適用し、事前確率を考慮して対処方法ごとの復旧確率を計算し、計算された復旧確率をもとに対処方法に対し優先順位を設定して、この優先順位に従い対処方法を決定するもので、復旧確率の計算方法には第1のパターン(パターン1)と第2のパターン(パターン2)がある。
(2-1)パターン1
パターン1は、故障原因が特定された対象ノードだけでなく、当該故障原因と同一の故障原因への対処実績を有する他のすべてのノードを含む複数のノードを対象とし、同一の故障原因について対処方法ごとの復旧確率を計算し、優先順位を設定するものである。
図5は、パターン1を適用した対処方法決定処理の処理手順と処理内容の一例を示すフローチャートである。
対処方法決定部12は、先ずステップS31により上記推定部11から故障原因特定情報を取得する。この故障原因特定情報には、例えば、故障発生箇所に対応するノードの番号と、故障原因の識別情報(例えば番号)が含まれている。
対処方法決定部12は、次にステップS32において、上記故障原因に対し使用される複数の対処方法の中から一つを選択する。そして、ステップS33において、ベイズ統計の事前確率を使用し、トポロジ・イベントデータ記憶部13に記憶されている障害事例データベースをもとに、上記故障原因に対する各対処方法の復旧確率を次式により計算する。
すなわち、故障原因をXi 、対処方法をAn とし、対処方法の種類数を4とすると、復旧確率[%]は、
Σ P(An |Xi )×100 …(1)
により計算することができる。なお、Σは対処方法An のn =1~4のそれぞれについて計算される。
例えば、いま障害事例データベースに、図7に示すような故障対処履歴データが記憶されていたとする。そして、この状態で推定部11により特定された故障原因がX1 だったとすると、当該故障原因X1に対する対処方法A1 の復旧確率は、
(5+0)/(5+4+3+1+0+1+2+3)×100
=26%
となる。
対処方法決定部12は、上記復旧確率の計算がすべての対処方法An について行われたか否かをステップS34で判定し、まだ計算していない対処方法An がある場合にはステップS32に戻って次の対処方法を選択し、ステップS33により復旧確率を計算する処理を繰り返す。かくして、すべてのノードの故障原因X1 に対するその他の各対処方法A2 ~A4 の復旧確率についても、同様に計算される。
そうして、推定部11により特定された故障原因X1 に対するすべての対処方法An の復旧確率の計算が終了すると、対処方法決定部12は、ステップS35において、計算された上記各対処方法An の復旧確率に基づいて、ノードごとに、各対処方法An に対し復旧確率が高い順に優先順位を設定する。そして対処方法決定部12は、ステップS36において、設定された上記優先順位に従い優先順位が最も高い対処方法を選択し、選択された対処方法を提示対象として決定する。図7の場合を例にとると、故障原因X1 に対しては優先順位が最も高い対処方法A1 が提示対象として決定される。
なお、計算された復旧確率が同一値の場合には、例えば前回の優先順位を考慮して順位が高かったものが上位となるように設定する。また、各対処方法のうち、計算された復旧確率が最大でかつ同一値の対処方法が複数存在する場合には、例えば当該複数の対処方法について、後述するパターン2を用いて復旧確率の再計算を行い、その結果に基づいて優先順位を設定するようにしてもよい。
すなわち、パターン1による対処方法決定処理によれば、故障原因が特定された対象ノードにおける対処方法別の過去の復旧件数だけでなく、すべてのノードにおける同一の故障原因に対する各対処方法の過去の復旧件数が考慮されて、各対処方法に対する復旧確率が計算される。このため、故障原因が特定された対象ノードにおける対処方法の実施数が少なかったり、他のノードとの間で実施数のバラツキがあっても、特定された故障原因に対し最適な対処方法を選択して維持することが可能となる。
例えば、図7の故障対処履歴データの例では、故障原因が特定された対象ノードがサーバだった場合、当該サーバの故障原因X1 に対する対処方法A1 の過去の復旧件数は0となっている。しかし、ルータの故障原因X1 に対する対処方法A1 の過去の復旧件数が5と実績数が多いため、この実績数が反映されてサーバについても対処方法A1 が選択される。
ちなみに、既存技術である頻度統計を適用した場合は、故障原因が特定された対象ノードの過去の復旧実施実績のみを考慮して対処方法に対する復旧確率が計算され、優先順位が設定されるため、復旧確率および優先順位は図8に示すようになる。この例では、故障原因が特定された対象ノードがサーバの場合、故障原因X1 に対する対処方法を提示しようとすると、過去の復旧件数が3件と少ないにもかかわらず対処方法A4 が選択される。
(2-2)パターン2
パターン2は、故障原因が特定された対象ノードだけでなく、当該対象ノードと同種のすべてのノードを対象にし、同一の故障原因について対処方法ごとの復旧確率を計算し、優先順位を設定するものである。
図6は、パターン2を適用した対処方法決定処理の手順と処理内容の一例を示すフローチャートである。
対処方法決定部12は、先ずステップS41により推定部11から故障原因特定情報を取得する。この故障原因特定情報には、例えば、故障発生箇所に対応するノードの種類を表す情報と、故障原因の識別情報(例えば番号)が含まれている。
対処方法決定部12は、次にステップS42において、上記故障原因が特定された対象ノードと同種のすべてのノードを選択し、かつこれらのノードについて過去に使用されている複数の対処方法の中から一つを選択する。そして、ステップS44において、ベイズ統計の事前確率を使用し、トポロジ・イベントデータ記憶部13の障害事例データベースに記憶されている故障対処履歴データをもとに、上記故障原因に対する各対処方法の復旧確率を次式により計算する。
すなわち、故障原因をXi 、対処方法をAn 、ノードの種類をSj とし、対処方法の数を4とすると、復旧確率[%]は、
Σ P(An |Xi ,Sj )×100 …(2)
により計算することができる。なお、Σは対処方法An のn =1~4のそれぞれについて計算される。
例えば、いま障害事例データベースに、図9に示すような故障対処履歴データが記憶されているものとする。そして、この状態で推定部11により特定された故障原因がX1 で、かつ対象ノードがルータだったとすると、当該対象ノードと同種のすべてのルータの故障原因X1 に対する対処方法A1 の復旧確率は、
(7+0)/(7+5+3+1+0+1+1+4)×100
=32%
と計算される。
対処方法決定部12は、上記復旧確率の計算がすべての対処方法An について行われたか否かをステップS45で判定し、まだ計算していない対処方法An がある場合にはステップS43に戻って次の対処方法を選択し、ステップS44により復旧確率を計算する処理を繰り返す。かくして、対象ノードと同種のすべてのルータの故障原因X1 に対するその他の各対処方法A2 ~A4 の復旧確率についても、同様に計算される。
そうして、推定部11により故障原因が特定された対象ノードと同種のすべてのルータの故障原因X1 に対する対処方法An の復旧確率の計算が終了すると、対処方法決定部12は、ステップS46において、計算された上記各対処方法An の復旧確率に基づいて、ルータごとに、故障原因X1 に対する各対処方法An に対し復旧確率が高い順に優先順位を設定する。
そして対処方法決定部12は、ステップS47において、設定された上記優先順位に従い、対処方法An の中から優先順位が最も高い対処方法を選択し、選択された対処方法を提示対象として決定する。図9の場合を例にとると、ルータの故障原因X1 に対しては優先順位が最も高い対処方法A1 が提示対象として決定される。
なお、計算された復旧確率が複数の対処方法で同一値となった場合には、例えば前回の優先順位を考慮して順位が高かったものが上位となるように設定する。また、各対処方法のうち、計算された復旧確率が最大でかつ同一値の対処方法が複数存在する場合には、例えば当該複数の対処方法について、前述したパターン1を用いて復旧確率の再計算を行い、その結果に基づいて優先順位を設定するようにしてもよい。
すなわち、パターン2による対処方法決定処理によれば、故障原因が特定された対象ノードにおける対処方法別の過去の復旧件数だけでなく、当該対象ノードと同種のすべてのノードにおける同一の故障原因に対する各対処方法の過去の復旧件数が考慮されて、各対処方法の復旧確率が計算される。このため、故障原因が特定された対象ノードにおける対処方法の実施数が少なかったり、他の同種のノードとの間で実施数のバラツキがあっても、特定された故障原因に対し最適な対処方法を選択して提示することが可能となる。
また、復旧確率を計算する際の母数を同一種類のノードの復旧件数に限定したことで、ノードの種類ごとの故障原因に対する対処方法の適性を考慮して各対処方法に対する復旧確率を計算し優先順位を設定することが可能となる。
(3)対処方法の提示
上記対処方法決定処理が終了すると、異常対処支援装置1はステップS4において対処方法の選択の可否、つまり上記対処方法決定処理において対処方法が決定されたか否かを判定する。この判定の結果、対処方法が決定された場合には、ステップS5において対処方法提示情報ESが生成され、生成された対処方法の提示情報ESがGUI40から表示部8へ出力されて表示される。
これに対し、上記対処方法決定処理において対処方法が決定されなかった場合には、ステップS6において、対処方法が見つからなかった旨のメッセージが提示情報ESとして生成され、生成されたメッセージがGUI40から表示部8へ出力されて表示される。
(作用・効果)
以上述べたようにこの発明の一実施形態では、異常対処支援装置1において、ベイズ統計の手法により事前確率を使用し、パターン1で述べたように故障対処履歴データに記憶されている、同一の故障原因への対処実績を有するすべてのノードを対象として、上記故障原因に対する各対処方法の復旧確率をそれぞれ計算し、計算された復旧確率をもとに各対処方法に対し優先順位を設定して、この優先順位に従い提示する対処方法を決定するようにしている。
またこの発明の一実施形態では、異常対処支援装置1において、ベイズ統計の手法により事前確率を使用し、パターン2で述べたように故障対処履歴データに記憶されているノードのうち故障原因が特定された対象ノードと同種のすべてのノードを対象として、同一の故障原因に対する各対処方法の復旧確率をそれぞれ計算し、計算された復旧確率をもとに各対処方法に対し優先順位を設定して、この優先順位に従い提示する対処方法を決定するようにしている。
従って、一実施形態によれば、故障原因が特定された対象ノードにおける対処方法別の過去の復旧件数だけでなく、すべてのノード、または対象ノードと同種のすべてのノードにおける同一の故障原因に対する各対処方法の過去の復旧件数が考慮されて、各対処方法に対する復旧確率が計算される。このため、故障原因が特定された対象ノードにおける対処方法の実施数が少なかったり、他のノードとの間で実施数のバラツキがあっても、特定された故障原因に対し最適な対処方法を選択して維持することが可能となる。
また、パターン2によれば、復旧確率を計算する際の母数を同一種類のノードの復旧件数に限定したことで、ノードの種類ごとの故障原因に対する対処方法の適性を考慮して各対処方法に対する復旧確率を計算し優先順位を設定することが可能となる。
(効果の具体例)
図10は、この発明の一実施形態における、ベイズ統計のパターン1およびパターン2を適用した対処方法決定処理と、既存の頻度統計を適用した処理との間の効果の対比例を示す図である。同図では、比較条件として、装置種別を1種類、ノード数を3台、故障原因を3種類、対処方法を5種類としている。
この対比例では、装置種別を1種類としているので、パターン1とパターン2との間での復旧確率および優先順位は同一となっているが、このベイズ統計を適用した復旧確率および優先順位は、すべての装置(ネットワーク機器1)を対象とし、故障原因の種類ごとにその各対処方法(内容)の対処結果を母数として復旧確率を計算しているため、既存の頻度統計を適用した場合に比べ、ノードごとの復旧実績のバラツキの影響を排除して、高い対処効果が期待される対処方法を選択し提示することが可能となる。
図11は、上記図10に示した装置(ネットワーク機器1)のうちノード1,2について、故障原因に対する対処結果(正解)が得られるまでに要した復旧のための時間と実施数のシミュレーション結果の一例を示したもので、この発明の一実施形態におけるベイズ統計のパターン1、パターン2を適用した場合の結果を、既存技術の頻度統計を適用した場合の結果と対比して示したものである。
図11に示すように、この発明の一実施形態によれば、一部で既存技術より復旧までに要した時間および対処の実施数が多くなるケースも見られるものの、多数のケースで復旧までに要した時間および対処の実施数を既存技術より少なくすることができる。
[他の実施形態]
(1)前記一実施形態では、異常対処支援装置の処理機能を例えば保守端末に備える場合を例にとって説明したが、システムの上位に位置する管理サーバなどに備えるようにしてもよい。また、異常対処支援装置の処理機能を監視対象となる各ノードのいずれか一つまたは複数に備えるようにしてもよい。何れの場合も、異常対処支援装置の処理機能は、各ノードの属性情報、ノード間の接続状況を示す情報、および各ノードから発生されるアラーム情報を収集して管理する機能を有する。
(2)前記一実施形態では、対処方法決定部12をルール生成・制御部10に設けた場合を例にとって説明したが、対処方法決定部12をルール生成・制御部10から独立させて他の端末またはサーバに設けるようにしてもよい。この構成は、ルール生成・制御部10が設けられた装置との間で通信を可能とし、当該装置から推定部11により特定された故障原因を表す情報と、トポロジ・イベントデータ記憶部13に記憶された履歴情報を取得することにより実現可能である。
(3)前記一実施形態では、故障原因に対する複数の対処方法に対し同一の条件で復旧確率を計算する場合を例にとって説明した。しかし、この発明はそれに限るものではなく、例えば複数の対処方法の各々が有するコストや時間等の復旧条件を考慮して各対処方法に対し重み係数を設定し、当該重み係数により復旧確率の計算結果を重み付けし、重み付けされた復旧確率に基づいて各対処方法に優先度を設定するようにしてもよい。このようにすると、例えば復旧確率が同一値になった複数の対処方法に対し、上記コストや時間等の復旧条件を考慮して優先順位を設定することが可能となる。
(4)その他、ノードの種類、異常の種類やその原因の種類、対処方法の種類や、事前確率を用いた統計の種類、復旧確率の計算方法、優先順位の設定方法、対処方法の決定方法等についても、この発明の要旨を逸脱しない範囲で種々変形して実施可能である。
また、各実施形態は可能な限り適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。更に、上記実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適当な組み合わせにより種々の発明が抽出され得る。
1…異常対処支援装置
2…制御部
3…プログラム記憶部
4…データ記憶部
5…通信インタフェース部(通信I/F)
6…入出力インタフェース部(入出力I/F)
7…入力部
8…表示部
9…バス
10…ルール生成・制御部
11…推定部
12…対処方法決定部
13…トポロジ・イベントデータ記憶部
20…ルールエンジン
30…データ変換部
40…入出力インタフェース部(GUI)

Claims (7)

  1. ネットワークに接続された複数の装置の各々に関する異常対処の実績情報を記憶する記憶部と、
    前記複数の装置のうち異常が発生した装置に関する異常原因の特定結果を表す情報を取得する取得部と、
    記憶された前記異常対処の実績情報に基づいて、事前確率を用いた統計手法をもとに、前記異常原因が特定された装置を含む所定の範囲の複数の装置を対象として、当該複数の装置の異常原因に対応する複数の対処方法の各々について前記異常原因の復旧確率を計算する計算部と、
    計算された前記復旧確率に基づいて前記複数の対処方法に対し優先度を設定する優先度設定部と、
    設定された前記優先度に基づいて、前記異常原因が特定された前記装置に対する対処方法を決定する決定部と、
    決定された前記対処方法を表す情報を出力する出力部と
    を具備する異常対処支援装置。
  2. 前記計算部は、記憶された前記異常対処の実績情報に基づいて、前記異常原因が特定された装置と、前記異常原因と同一の異常原因への対処実績を有する他の装置を含む複数の装置を対象として、対象とされた前記複数の装置の故障原因に対応する複数の対処方法の各々について前記故障原因の復旧確率を計算する第1の処理部を備える、請求項1に記載の異常対処支援装置。
  3. 前記計算部は、記憶された前記異常対処の実績情報に基づいて、前記異常原因が特定された装置と当該装置と同一種類の他の装置を含む複数の装置を対象として、対象となった前記複数の装置の故障原因に対応する複数の対処方法の各々について前記故障原因の復旧確率を計算する第2の処理部を備える、請求項1に記載の異常対処支援装置。
  4. 前記計算部は、前記第1の処理部による計算の結果、前記複数の対処方法の中に前記復旧確率が同一値となる対処方法が存在する場合に、少なくとも当該対処方法に対し、前記異常対処の実績情報に基づいて、前記異常原因が特定された装置と当該装置と同一種類の他の装置とを含む複数の装置を対象として、対象となった前記複数の装置の故障原因に対応する複数の対処方法の各々について前記故障原因の前記復旧確率を再計算する、請求項2に記載の異常対処支援装置。
  5. 前記計算部は、前記第2の処理部による計算の結果、前記複数の対処方法の中に前記復旧確率が同一値となる対処方法が存在する場合に、少なくとも当該対処方法に対し、前記異常対処の実績情報に基づいて、前記異常原因が特定された装置と前記異常原因と同一の異常原因への対処実績を有する他の装置とを含む複数の装置を対象として、対象とされた前記複数の装置の故障原因に対応する複数の対処方法の各々について前記故障原因の前記復旧確率を再計算する、請求項3に記載の異常対処支援装置。
  6. ハードウェアプロセッサおよびメモリを有する情報処理装置が実行する異常対処支援方法であって、
    ネットワークに接続された複数の装置の各々に関する異常対処の実績情報を前記メモリに記憶する過程と、
    前記複数の装置のうち異常が発生した装置に関する異常原因の特定結果を表す情報を取得する過程と、
    記憶された前記異常対処の実績情報に基づいて、事前確率を用いた統計手法をもとに、前記異常原因が特定された装置を含む所定の範囲の複数の装置を対象として、当該複数の装置の異常原因に対応する複数の対処方法の各々について前記異常原因の復旧確率を計算する過程と、
    計算された前記復旧確率に基づいて前記複数の対処方法に対し優先度を設定する過程と、
    設定された前記優先度に基づいて、前記異常原因が特定された前記装置に対する対処方法を決定する過程と、
    決定された前記対処方法を表す情報を出力する過程と
    を具備する異常対処支援方法。
  7. 請求項1乃至の何れかに記載の異常対処支援装置が具備する前記各部の処理を、前記異常対処支援装置が備えるプロセッサに実行させるプログラム。
JP2021548044A 2019-09-25 2019-09-25 異常対処支援装置、方法およびプログラム Active JP7327493B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/037577 WO2021059396A1 (ja) 2019-09-25 2019-09-25 異常対処支援装置、方法およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2021059396A1 JPWO2021059396A1 (ja) 2021-04-01
JP7327493B2 true JP7327493B2 (ja) 2023-08-16

Family

ID=75164843

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021548044A Active JP7327493B2 (ja) 2019-09-25 2019-09-25 異常対処支援装置、方法およびプログラム

Country Status (3)

Country Link
US (1) US11681576B2 (ja)
JP (1) JP7327493B2 (ja)
WO (1) WO2021059396A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11994941B2 (en) * 2021-09-23 2024-05-28 Dell Products L.P. Analysis and remediation of alerts

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005038223A (ja) 2003-07-16 2005-02-10 Nec Corp 障害復旧装置および障害復旧方法ならびにプログラム
JP2006085538A (ja) 2004-09-17 2006-03-30 Nec Fielding Ltd 復旧支援方法及び復旧支援システム並びに復旧支援用プログラム
JP2008210148A (ja) 2007-02-26 2008-09-11 Hitachi Information Systems Ltd 障害対応システム及び障害対応方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8473107B2 (en) * 2010-08-05 2013-06-25 Sharp Laboratories Of America, Inc. Offered actions for energy management based on anomalous conditions
US8768795B2 (en) * 2012-09-12 2014-07-01 General Electric Company Methods and systems for estimating recoverable utility revenue
JP6637854B2 (ja) 2016-08-17 2020-01-29 日本電信電話株式会社 パターン抽出及びルール生成装置、及びその方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005038223A (ja) 2003-07-16 2005-02-10 Nec Corp 障害復旧装置および障害復旧方法ならびにプログラム
JP2006085538A (ja) 2004-09-17 2006-03-30 Nec Fielding Ltd 復旧支援方法及び復旧支援システム並びに復旧支援用プログラム
JP2008210148A (ja) 2007-02-26 2008-09-11 Hitachi Information Systems Ltd 障害対応システム及び障害対応方法

Also Published As

Publication number Publication date
US20220334914A1 (en) 2022-10-20
JPWO2021059396A1 (ja) 2021-04-01
WO2021059396A1 (ja) 2021-04-01
US11681576B2 (en) 2023-06-20

Similar Documents

Publication Publication Date Title
US11269718B1 (en) Root cause detection and corrective action diagnosis system
US11599408B2 (en) Technology system auto-recovery and optimality engine and techniques
US10462027B2 (en) Cloud network stability
JP5223413B2 (ja) Itシステムのトラブル対処装置、トラブル対処方法およびそのためのプログラム
JP6280862B2 (ja) イベント分析システムおよび方法
JP7435799B2 (ja) ルール学習装置、ルールエンジン、ルール学習方法、及びルール学習プログラム
WO2015171860A1 (en) Automatic alert generation
JP7327493B2 (ja) 異常対処支援装置、方法およびプログラム
JP5217820B2 (ja) 支援プログラム、支援装置および支援方法
JP2018124829A (ja) 状態判定装置、状態判定方法及びプログラム
Naksinehaboon et al. Benefits of software rejuvenation on HPC systems
JP6722345B2 (ja) 予兆検知装置及び予兆検知方法
US20220342788A1 (en) Anomaly location estimating apparatus, method, and program
JP2020024538A (ja) 操作列生成装置、操作列生成方法及びプログラム
JP7268748B2 (ja) 情報分析装置、方法およびプログラム
US12001271B2 (en) Network monitoring apparatus, method, and program
WO2014024283A1 (ja) 障害検出装置、障害検出プログラムおよび障害検出方法
JP7331935B2 (ja) 異常対処支援装置、方法及びプログラム
JP2022184521A (ja) 設備異常原因推定装置、設備異常原因推定システム、および、設備異常原因推定方法
JP6787873B2 (ja) 異常種別判定装置、異常種別判定方法及びプログラム
JP5836316B2 (ja) 障害監視システム、障害監視方法、及び障害監視プログラム
WO2023281595A1 (ja) 障害推定装置、方法およびプログラム
JP2020086474A (ja) 復旧支援装置、復旧支援方法及びプログラム
WO2023276150A1 (ja) 情報適正化装置、方法およびプログラム
JP7296426B2 (ja) 情報システムを管理する管理システム及び管理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220105

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20230104

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230124

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20230208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230315

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230704

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230717

R150 Certificate of patent or registration of utility model

Ref document number: 7327493

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150