JP7322958B2 - 異常箇所推定装置、方法およびプログラム - Google Patents

異常箇所推定装置、方法およびプログラム Download PDF

Info

Publication number
JP7322958B2
JP7322958B2 JP2021548048A JP2021548048A JP7322958B2 JP 7322958 B2 JP7322958 B2 JP 7322958B2 JP 2021548048 A JP2021548048 A JP 2021548048A JP 2021548048 A JP2021548048 A JP 2021548048A JP 7322958 B2 JP7322958 B2 JP 7322958B2
Authority
JP
Japan
Prior art keywords
event
information
occurrence
location
estimating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021548048A
Other languages
English (en)
Other versions
JPWO2021059400A1 (ja
Inventor
俊介 金井
聡 鈴木
晴久 野末
太祐 矢川
尚美 村田
文香 浅井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2021059400A1 publication Critical patent/JPWO2021059400A1/ja
Application granted granted Critical
Publication of JP7322958B2 publication Critical patent/JP7322958B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0781Error filtering or prioritizing based on a policy defined by the user or on a policy defined by a hardware/software module, e.g. according to a severity level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/542Event management; Broadcasting; Multicasting; Notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/86Event-based monitoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0604Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/12Discovery or management of network topologies

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Description

この発明の一態様は、例えば通信ネットワークにおいて障害などの異常箇所を推定するために用いられる異常箇所推定装置、方法およびプログラムに関する。
多数の通信装置が接続された通信ネットワークにおいて、異常の発生箇所を遠隔的に特定するために、予め用意された多種類の推定ルールをもとに異常の発生箇所を推定する技術が提案されている。また、上記推定ルールを最適化するために、障害事例データベースに登録されている障害ケースと重複しないように障害ケースごとにユニークな障害イベントの組合せを抽出し、抽出された特徴的な障害イベントに対応する障害箇所判定ルールを自動的に作成あるいは修正する技術も提案されている(例えば特許文献1を参照)。
日本国特開2018-28778号公報
ところで、障害などの異常の発生箇所を推定する場合、ネットワーク構成等を表すトポロジやイベントをアラームとして検知する条件が正しく設定されている必要がある。しかし、トポロジやアラーム検知条件に不備があると、誤検知によるアラームが発生したり、障害要因箇所の特定が困難となる事象が発生することがある。このような場合、発生した事象が故障などの異常によるものなのか、あるいは例えば工事やメンテナンス等の管理業務の実施などに伴うトポロジやアラーム検知条件の設定不備のような障害によるものなのかを保守員が判断する必要があり、さらに故障などの異常だった場合は急ぎ復旧を要するものなのかを否かを、保守員が判断して切り分けをする必要がある。このため、作業に多くの時間と労力を要してしまう場合がある。
この発明は、アラームの発生要因が装置の故障などの異常によるものか、あるいは管理業務の実施に伴うトポロジやアラーム検知条件の設定不備に起因する障害によるものかを保守員の判断に頼ることなく切り分け可能とし、これにより異常箇所推定に要する時間と労力を軽減するようにした技術を提供しようとするものである。
上記課題を解決するために、この発明に係る異常箇所推定装置、方法およびプログラムの一態様は、通信ネットワークを構成する複数の装置の間の接続構成を表すトポロジ情報と、前記複数の装置によるイベントの発生状況を表すイベント情報を取得し、取得された前記トポロジ情報および前記イベント情報に基づいて、前記複数の装置の中から障害要因箇所に相当する第1の装置を推定し、推定された前記第1の装置との間の接続関係が前記トポロジ情報により定義されている第2の装置による前記イベントの発生状況に基づいて、前記第2の装置による前記イベントの発生が前記障害要因箇所によるものかその他の異常に起因するかを推定し、前記第1の装置による前記イベントの発生状況と、前記第1の装置との間の接続関係が前記トポロジ情報により定義されていない第3の装置による前記イベントの発生状況との関係に基づいて、前記第3の装置による前記イベントの発生が障害要因箇所に起因するものかその他の異常に起因するかを推定するようにしたものである。
この発明の一態様によれば、アラームの発生要因が故障などの異常によるものか、あるいは管理業務の実施に伴うトポロジやアラーム検知条件の設定不備によるものかを、保守員の判断に頼ることなく切り分け可能とし、これにより異常要因箇所の推定に要する時間と労力を軽減するようにした技術を提供することができる。
図1は、この発明の一実施形態に係る異常箇所推定装置のソフトウェア構成を示すブロック図である。 図2は、この発明の一実施形態に係る異常箇所推定装置のハードウェア構成を示すブロック図である。 図3は、図1に示した異常箇所推定装置による異常箇所推定処理の全体の処理手順と処理内容を示すフローチャートである。 図4は、図3に示した異常箇所推定処理のうち、トポロジ・イベント判別処理における工事実施箇所推定処理の手順と処理内容を示すフローチャートである。 図5は、図4に示した工事実施箇所推定処理の処理手順と処理内容の一例を示すフローチャートである。 図6は、図3に示した異常箇所推定処理のうち、トポロジ・イベント判別処理における接続設定されている装置間での推定処理の手順と処理内容を示すフローチャートである。 図7は、図3に示した異常箇所推定処理のうち、トポロジ・イベント判別処理における接続設定されていない装置間での推定処理の手順と処理内容を示すフローチャートである。 図8は、各装置に対する非監視化設定結果の一例を説明するための図である。 図9は、図8に示した各装置における工事実施箇所とアラーム発生箇所の一例を示す図である。 図10は、図4および図5に示した工事実施箇所推定処理の実行手順を示す図である。 図11は、図6に示した接続設定されている装置間での推定処理の一例を説明するための図である。 図12は、図7に示した接続設定されていない装置間での推定処理の一例を説明するための図である。 図13は、図4および図5に示した工事実施箇所推定処理の具体例を説明するための図である。 図14は、図6に示した接続設定されている装置間での推定処理の具体例を説明するための図である。 図15は、図7に示した接続設定されていない装置間での推定処理の具体例を説明するための図である。
以下、図面を参照してこの発明の実施形態を説明する。
[一実施形態]
この発明の一実施形態では、管理業務の一つとして工事を例にとり、この工事の実施個所を障害要因箇所として推定する場合を例にとって説明するが、管理業務としては工事の実施に限らずメンテナンス等のトポロジやアラーム検知条件に影響を与える可能性がある作業の実施も含まれる。この場合は、メンテナンス等の実施箇所を上記障害要因箇所として推定する。
(構成例)
図1および図2は、それぞれこの発明の一実施形態に係る異常箇所推定装置のソフトウェア構成およびハードウェア構成の一例を示すブロック図である。
異常箇所推定装置1は、例えば通信ネットワークを構成するルータやサーバ等の各装置(ノードとも云う)との間で通信が可能な管理装置、または保守端末に設けられるもので、サーバコンピュータまたはパーソナルコンピュータにより構成される。異常箇所推定装置1は、図2に示すように、中央処理ユニット(Central Processing Unit:CPU)を有する制御部2に対し、プログラム記憶部3と、データ記憶部4と、通信インタフェース部(通信I/F)5と、入出力インタフェース部(入出力I/F)6を、バス9を介して接続したものとなっている。
通信I/F5は、ネットワークを構成する複数の装置、およびこれらの装置間の接続情報を記憶する構成情報データベース(図示省略)との間で通信を行い、各装置が発生するアラーム情報AR、および構成情報データベースに記憶されたネットワーク構成情報を取得する。
入出力I/F6には、入力部7および表示部8が接続されている。入力部7および表示部8は、例えば液晶または有機EL(Electro Luminescence)を使用した表示デバイスの表示画面上に、静電方式又は圧力方式を採用した入力検知シートを配置した、いわゆるタブレット型の入力・表示デバイスを用いたものが用いられる。なお、入力部7および表示部8は独立するデバイスにより構成されてもよい。入出力I/F6は、上記入力部7において入力された操作情報を制御部2に入力すると共に、制御部2で生成された表示情報を表示部8に表示させる。
プログラム記憶部3およびデータ記憶部4は、記憶媒体として、例えば、HDD(Hard Disk Drive)またはSSD(Solid State Drive)等の随時書込みおよび読出しが可能な不揮発性メモリと、ROM(Read Only Memory)等の不揮発性メモリと、RAM(Random Access Memory)等の揮発性メモリとを組み合わせたものを使用する。プログラム記憶部3には、この発明の一実施形態に係る各種制御処理を実行するために必要なプログラムが格納される。データ記憶部4には、トポロジ・イベントデータ記憶部13や、後述するルールセット21~2nの記憶部、各種処理の過程で生じるデータを一時記憶する作業用メモリが設けられている。
異常箇所推定装置1は、ルール生成・制御部10と、ルールエンジン20と、データ変換部30と、入出力I/FとしてのGUI40とを備える。このうちデータ変換部30は、監視対象となる各装置から発生されたアラーム情報ARをイベント情報にデータ変換すると共に、図示しない構成情報データベースから取得されたネットワークの構成情報STをトポロジ情報にデータ変換する。
ルール生成・制御部10は、イベントに対するフィルタリング処理を行うアダプタ11と、障害箇所を推定する処理を行う推定部12と、障害事例データベースとして使用されるトポロジ・イベントデータ記憶部13とを備える。
ルールエンジン20は、1以上のルールセット21~2nを管理する。ルールセット21~2nは、条件部と結論部とを含む。この例では、条件部は障害イベントであり、例えば装置IDとアラーム種別を含む。結論部は障害要因情報であり、装置IDと障害要因種別を含む。
アダプタ11は、上記データ変換部30から与えられるイベント情報およびトポロジ情報に基づいて、障害要因箇所として工事実施箇所(工事が実施された装置)を推定する。またアダプタ11は、推定された上記工事実施装置とトポロジ上で対向する位置に存在する他の装置(接続設定されている他の装置)、およびトポロジ上で対向していない装置(接続設定されていない他の装置)のそれぞれにおけるイベント発生状況に基づく確信度を計算する。そして、計算された上記確信度をもとに、上記接続設定されている他の装置および上記接続設定されていない他の装置による上記アラームの発生が、工事の実施に起因するものか障害の発生に起因するかを推定する処理を行う。
推定部12は、上記アダプタ11のフィルタリング処理の結果、障害箇所の推定が必要と判定された場合に動作する。推定部12は、上記データ変換部30から与えられるイベント情報およびトポロジ情報に対し、ルールエンジン20で管理されるルールセット21~2nを選択的に適用して、障害箇所の推定処理を行う。また推定部12は、既存のルールセット21~2nによる推定が失敗した場合に、上記イベント情報からユニークな障害イベントの組み合わせを抽出し、抽出されたユニークな組み合わせを条件部とし、保守者により登録した障害要因情報を結論部として学習処理を行い、ルールを新規生成する。そして、新規生成されたルールをルールエンジン20のルールセット21~2nに追加すると共に、上記新規作成されたルールのルールIDを障害IDと関連付けてトポロジ・イベントデータ記憶部13に記憶させる。
GUI40は、上記ルール生成・制御部10のアダプタ11によるフィルタリング結果と、上記推定部12により得られた障害箇所の推定結果とを含む推定結果情報ESを、表示部8に表示させる。またGUI40は、表示された上記推定結果情報ESに基づいて例えば保守員が入力部7から入力した障害対応に関する障害要因情報FCを受け取ってルール生成・制御部10に入力する。
(動作例)
次に、以上のように構成された異常箇所推定装置1の動作を説明する。
(1)全体の処理
先ず異常箇所推定装置1による全体の動作を説明する。図3は、異常箇所推定装置1による全体の処理手順と処理内容を示すフローチャートである。
異常箇所推定装置1は、先ずルール生成・制御部10のアダプタ11の制御の下、ステップS1においてトポロジ・イベント判別処理を実行する。このトポロジ・イベント判別処理は後に詳しく述べる。異常箇所推定装置1は、上記トポロジ・イベント判別処理の結果に基づいて、障害箇所の推定処理が必要か否かをステップS2により判定する。そして、推定処理が必要と判定された場合には、推定部12の制御の下、障害箇所の推定処理を以下のように実行する。
すなわち、推定部12は、先ずステップS3において、データ変換部30により変換されたイベント情報およびトポロジ情報に対し、ルールエンジン20で管理されるルールセット21~2nを適用して障害箇所の推定処理を行う。そして、上記推定処理の推定結果をもとに推定できたか否かをステップS4で判定し、推定できた場合には処理を終了する。
これに対し、既存のルールセットによる推定が失敗した場合には、推定部12はステップS5において、上記イベント情報からユニークな障害イベントの組み合わせを抽出し、抽出されたユニークな組み合わせを条件部とし、保守者により登録した障害要因情報を結論部として学習処理を行う。そして、上記学習処理の結果、新たなルールが生成できたか否かをステップS6で判定する。
この判定の結果、新たなルールを生成できた場合に推定部12は、新規生成されたルールをルールエンジン20のルールセット21~2nに追加すると共に、上記新規作成されたルールのルールIDを障害IDと関連付けてトポロジ・イベントデータ記憶部13に記憶させる。そして推定部12は、ステップS7において、上記新規生成されたルールに基づいて障害発生箇所の推定処理を再度実行し、処理を終了する。なお、上記学習処理S5において新たなルールを生成できなかった場合、つまり学習処理に失敗した場合には、処理を終了する。
(2)トポロジ・イベント判別処理
次に、アダプタ11によるトポロジ・イベント判別処理の一例を説明する。
トポロジ・イベント判別処理は、図4に示すように、工事実施箇所の推定処理(ステップS11)と、接続有間での推定処理と(ステップS12)と、接続無間での推定処理と(ステップS13)とを備える。
(2-1)工事実施箇所の推定
工事実施箇所の推定処理は以下のように実行される。すなわち、先ず保守員が入力した推定対象エリアと時間帯を表す情報に基づいて、先ずステップS111により、上記エリアに紐付くトポロジ情報をデータ変換部30から取得し、ステップS112により、当該トポロジ情報に対応するイベント情報をデータ変換部30から取得する。さらに、ステップS113により、上記エリアに紐付かないトポロジ情報をデータ変換部30から取得し、ステップS112により、当該トポロジ情報に対応するイベント情報をデータ変換部30から取得する。
次にステップS115において、取得された上記各イベント情報に基づいて、工事が実施された箇所、つまり工事実施装置を以下のように推定する。図5はその処理手順と処理内容を示すフローチャートである。
すなわち、先ずステップS1151により、イベントが発生した装置(アラーム発生元の装置)を表す情報を取得し、当該装置の接続関係をトポロジ情報に基づいて確認する。そして、上記イベントが発生した装置と対向する装置を工事実施箇所の候補として選択し、選択された装置のイベント発生状況をステップS1153で取得し、当該対向装置でイベントが発生しているか否かをステップS1154により判定する。
この判定の結果、上記イベントが発生した装置と対向する装置でイベントが発生していなければ、続いてステップS1155において、上記対向装置とその周辺の他の各装置との間の接続関係をトポロジ情報により確認する。そして、上記周辺の他の各装置のイベント発生状況をステップS1156により取得し、他の各装置でイベントが発生しているか否かをステップS1157で判定する。
この判定の結果、上記工事実施箇所の候補として選択された装置、およびその周辺の各装置の何れにおいてもイベントが発生していなければ、上記工事実施箇所の候補として選択された装置を工事実施装置と推定する。この場合は、接続有間での推定処理と(ステップS12)に移行する。
なお、上記イベントが発生した装置と対向する装置、または上記他の各装置のいずれかでイベントが発生していた場合には、これらの装置で工事の実施に起因しない障害が発生していると判断し、後述する接続有間での推定処理および接続無間での推定処理は行われず、障害箇所の推定処理(ステップS3)に移行する。
(2-2)接続有間での推定
接続有間での推定処理は、工事実施箇所と推定された装置、および当該工事実施装置との間の接続関係がトポロジ情報に定義されている周辺の各対向装置のアラーム発生状況と、フィルタリングルールとに基づいて確信度を計算することで、上記対向装置によるアラームの発生が工事の実施に起因するものか使用害の発生に起因するかを推定するもので、以下のように行われる。
図6はその処理手順と処理内容を示すフローチャートである。すなわち、アダプタ11は、データ変換部30から取得したトポロジ情報およびイベント情報をもとに、先ずステップS121においてルールエンジン20からフィルタリングルールを取得する。次にステップS122において、上記トポロジ情報に上記工事実施装置との間の接続関係が定義されている各装置のイベント発生状況をもとに、工事実施装置の推定結果に対する確信度を算出する。
確信度は、
確信度[%]=(工事実施装置のルール数)/(工事実施装置の数)
×(対向装置のルール数)/(対向装置の数)
×100
として求めることができる。
すなわち、工事実施装置の数とそのルール数とが一致し、かつ工事実施装置との間の接続関係がトポロジ情報に定義されている対向装置の数とそのルール数とが一致すれば、上記工事実施装置の推定結果に対する確信度は100%となり、また上記対向装置におけるアラーム発生に対する確信度は0%となる。
(2-3)接続無間での推定
接続無間での推定処理は、工事実施箇所と推定された装置との間の接続関係がトポロジ情報に定義されている周辺の各対向装置と、工事実施箇所と推定された装置との間の接続関係がトポロジ情報に定義されていないその他の対向装置との間で、それぞれのアラーム発生時刻の同時性をもとに確信度を計算するもので、以下のように実行される。
図7はその処理手順と処理内容を示すフローチャートである。すなわち、アダプタ11は、データ変換部30から取得したトポロジ情報およびイベント情報をもとに、先ずステップS130においてアラーム発生時刻の比較対象となる装置の有無を判定する。
この判定の結果、対象となる装置が存在する場合には、ステップS131においてルールエンジン20からフィルタリングルールを取得する。次にステップS132において、上記取得されたアラーム情報から対象となる各対向装置のアラーム発生時刻を抽出し、比較する。そして、ステップS133において上記アラーム発生時刻の比較結果をもとにアラームに対する確信度を算出する。
確信度は、
確信度[%]=(接続が定義されている対向装置のアラーム発生時刻)
/(接続が定義されていない対向装置のアラーム発生時刻)
×100
として求めることができる。
すなわち、工事実施装置との間の接続関係がトポロジ上で定義されている対向装置によるアラームの発生時刻と、工事実施装置との間の接続関係がトポロジ上で定義されていない対向装置によるアラームの発生時刻とが所定の時間差の範囲内で一致すれば、上記工事実施装置の推定結果に対する確信度は100%となり、また工事実施装置との間の接続関係が定義されていない他の対向装置の障害によるアラームの発生に対する確信度は0%となる。
アダプタ11は、上記接続有間での推定処理または接続無間での推定処理において、工事実施装置に対する確信度が100%でない場合や、対向装置の障害によるアラームの発生に対する確信度が0%でない場合には、システム内の何れか箇所で障害が発生している疑いがあると見なし、障害箇所の推定処理S3に移行する。
(3)トポロジ・イベント判別処理の具体例
以上述べたトポロジ・イベント判別処理の具体例を、図8~図15を用いて説明する。
例えば、いま図8に示す装置A~Fが含まれるエリアにおいて工事を実施する際に、装置A~Cについては監視対象から除外する非監視化設定が行われているが、装置D,Fについては非監視化設定が行われず、かつネットワーク接続情報(トポロジ情報)において装置Fと装置Eとの間の接続設定が行われていなかったとする。
この場合、例えば図9に示すように装置Eで工事を実施すると、非監視化設定がなされていない装置D、および接続設定されていない装置Fからそれぞれアラーム(Link Down)が発生する。
(3-1)工事実施箇所の推定
アダプタ11は、図13に示すように、先ずステップS111でエリアに紐付いたトポロジ情報を取得する。この例では装置A~Eが取得される。アダプタ11は、続いてステップS112において上記トポロジ情報に対応するアラーム情報を取得する。この例では、一定の時間間隔で“XX.YY.00 装置D Link Down”,“XX.YY.10 装置D Link Down”,・・・が取得される。
アダプタ11は、次にステップS113において、エリアに紐付かないトポロジ情報を取得する。その結果、例えば装置F,Y,Zが取得される。アダプタ11は、続いてステップS114において、取得された上記トポロジ情報に対応するアラーム情報を取得する。その結果、例えば“XX.YY.00 装置F Link Down”,“XX.YY.10 装置Y Link Down”,・・・が取得される。
アダプタ11は、次にステップS115において、上記ステップS111~S114により取得されたトポロジ情報およびアラーム情報に基づいて、図5に示したステップS1151~S1157の処理を実行し、これにより工事実施装置を推定する。この例では、装置Eが工事実施装置として推定される。図10は、以上述べた工事実施装置の推定処理の手順を示したものである。
(3-2)接続有間での推定
上記工事実施箇所の推定処理において工事実施装置が推定されると、アダプタ11はステップS12において、上記推定された工事実施装置Eと、当該装置Eとの間の接続関係がトポロジ上で定義されている周辺の装置A~Dとの間で、確信度を以下のように計算する。図11はこの接続有間での推定処理の概要を示す図、図14はその処理手順と処理内容を示す図である。
すなわち、アダプタ11は、先ずエリアに紐付いたトポロジ情報(装置A~E)と、アラーム情報“XX.YY.00 装置D Link Down”,“XX.YY.10 装置D Link Down”,・・・を受け取る。そして、ステップS121でフィルタリングルールを取得する。この例では、“アラームなし(工事実施装置)”、“Link Down(対向装置)”,“アラームなし(対向装置)”が取得される。
アダプタ11は、次にステップS122において、先に述べた計算式に従い確信度を計算する。この例では、工事実施装置Eの数とそのルール数とが何れも“1”となり一致し、かつ工事実施装置Eとのトポロジ上の接続関係が定義されている対向装置A~Dの数とそのルール数とが何れも“4”となってこれも一致するため、上記工事実施装置Eの推定結果に対する確信度は100%となる。また対向装置A~Dの障害によるアラーム発生に対する確信度は0%となる。
アダプタ11は、上記装置A~Eに対する確信度の計算結果を、ステップS123によりGUI40から表示部8へ出力し、表示させる。従って、保守員は表示部8に表示された上記確信度の計算結果から工事実施装置Eを認識することができ、さらに対向装置Dから発生されたアラームは工事の実施に起因するものと判断することができ、アラーム発生要因の切り分け作業が不要になる。
(3-3)接続無間での推定
上記接続有間での推定処理が終了すると、アダプタ11は続いてステップS13により、接続無間での推定処理を以下の手順で実行する。図12はこの接続無間での推定処理の概要を示す図、図15はその処理手順と処理内容を示す図である。
すなわち、アダプタ11は、上記エリアに紐付かないトポロジ情報(装置F,Y,Z)およびそのアラーム情報“XX.YY.00 装置F Link Down”,“XX.YY.10 装置Y Link Down”,・・・を受け取り、先ずステップS130においてアラームの発生時間の比較対象となる装置の有無を判定する。この例では、装置F,Yからアラームが発生しているので、”対象有“と判定される。そしてアダプタ11は、ステップS131においてフィルタリングルールを取得する。この例では、“アラームなし(工事実施装置)”、“Link Down(対向装置)”,“アラームなし(対向装置)”,“Link Down(データなし)”が取得される。
アダプタ11は、次にステップS132において、工事実施装置Eとの間の接続関係がトポロジ情報で定義されている対向装置Dによるアラーム発生時刻“XX.YY.00 装置D Link Down”と、上記工事実施装置Eとの間の接続関係がトポロジ情報で定義されていない対向装置Fによるアラーム発生時刻“XX.YY.00 装置F Link Down”とを比較する。そして、ステップS133において、先に示した確信度の計算式に従い確信度を計算する。その結果、この例では、対向装置Dによるアラーム発生時刻“XX.YY.00 装置D Link Down”と、上記対向装置Fによるアラーム発生時刻“XX.YY.00 装置F Link Down”とは同一であるため、先に工事実施箇所として推定された装置Eに対する確信度は100%となる。また、対向装置D,Fの障害によるアラームの発生に対する確信度は何れも0%となる。
またアダプタ11は、同様に、対向装置Dによるアラーム発生時刻“XX.YY.10 装置D Link Down”と、対向装置Yによるアラーム発生時刻“XX.YY.10 装置Y Link Down”とを比較する。そして、ステップS133において、先に示した確信度の計算式に従い確信度を計算する。その結果、この例では、対向装置Dによるアラーム発生時刻“XX.YY.10 装置D Link Down”と、上記対向装置Yによるアラーム発生時刻“XX.YY.10 装置Y Link Down”とは同一であるため、工事実施箇所として推定された装置Eに対する確信度は100%となる。また、対向装置D,Yの障害によるアラームの発生に対する確信度は何れも0%となる。
アダプタ11は、上記装置A~E,F,Yに対する確信度の計算結果を、ステップS134によりGUI40から表示部8へ出力し、表示させる。従って、保守員は表示部8に表示された上記確信度の計算結果から工事実施装置Eを認識し、さらに接続設定されていない装置F,Yから発生されたアラームは、対向装置Dから発生されたアラームと同一時間に発生されていることから、装置F,Yから発生されたアラームについても工事の実施に起因するものと判断することができる。
(作用・効果)
以上述べたようにこの発明の一実施形態では、異常箇所推定装置1のルール生成・制御部10において、障害箇所の推定部12の前段にトポロジ・イベント判別処理機能を有するアダプタ11を配置している。トポロジ・イベント判別処理では、先ず工事実施箇所の推定処理S11が実行されて工事実施装置が推定される。そして、工事実施装置が推定された場合には、接続有間での推定処理S12において、工事実施装置の数と当該装置のアラーム発生状況に対応するフィルタリングルールの数、および上記工事実施装置との間の接続関係が定義されている対向装置の数と当該対向装置のアラーム発生状況に対応するフィルタリングルールの数をもとに確信度が計算される。さらに、接続無間での推定処理S13において、工事実施装置との間の接続関係が定義されている対向装置と、工事実施装置との間の接続関係が定義されていない対向装置との間の、アラーム発生タイミングの同時性をもとに確信度が計算される。
従って、一実施形態によれば、上記工事実施装置の推定結果と、上記各確信度の計算結果とに基づいて、上記アラームの発生が、障害に起因するものか工事に伴う設定情報の不備によるものかを自動的に切り分けることが可能となる。すなわち、アラームの発生要因が障害などの異常によるものかあるいはトポロジやアラーム検知条件の不備によるものかを保守員の判断に頼ることなく切り分けることができるようになる。このため、異常箇所推定に要する保守員の時間と労力を大幅に軽減することが可能となる。
また、上記したように、接続有間での推定処理における確信度を、工事実施装置の数と当該装置のアラーム発生状況に対応するフィルタリングルールの数、および工事実施装置との間の接続関係が定義されている対向装置の数と当該対向装置のアラーム発生状況に対応するフィルタリングルールの数をもとに計算している。また接続無間での推定処理における確信度を、工事実施装置との間の接続関係が定義されている対向装置と、工事実施装置との間の接続関係が定義されていない対向装置との間の、アラーム発生タイミングの同時性をもとに計算するようにしている。
従って、確信度を過去のアラーム発生履歴を参照することなく簡易に求めることが可能となり、これにより装置の処理負荷を軽減することが可能となる。
[他の実施形態]
前記一実施形態では、異常箇所推定装置の処理機能を例えば保守端末に備える場合を例にとって説明したが、システムの上位に位置する管理サーバなどに備えるようにしてもよい。また、監視対象となる各装置のいずれか一つまたは複数に上記処理機能を備えるようにしてもよい。何れの場合も、異常箇所推定装置の処理機能は、各装置の属性情報、装置間の接続状況を示す情報、および各装置から発生されるアラーム情報を収集して管理する機能を有する。
また、前記一実施形態では、異常箇所推定装置が、アダプタ11によるデータフィルタリング機能と、推定部12による障害箇所推定機能の両方を備えた場合を例にとって説明した。しかし、アダプタ11によるデータフィルタリング機能と、推定部12による障害箇所推定機能とを別々の装置に備え、一つの装置のデータフィルタリング機能の切り分け結果を別装置の障害箇所推定機能に転送するようにしてもよい。
その他、装置の種類や接続構成、データフィルタリングの処理手順と処理内容、推定対象となる異常の種類などについても、この発明の要旨を逸脱しない範囲で種々変形して実施できる。
要するに、この発明は上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は可能な限り適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。更に、上記実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適当な組み合わせにより種々の発明が抽出され得る。
1…異常箇所推定装置
2…制御部
3…プログラム記憶部
4…データ記憶部
5…通信インタフェース部(通信I/F)
6…入出力インタフェース部(入出力I/F)
7…入力部
8…表示部
9…バス
10…ルール生成・制御部
11…アダプタ(データフィルタリング)
12…推定部
13…トポロジ・イベントデータ記憶部
20…ルールエンジン
30…データ変換部
40…入出力インタフェース部(GUI)

Claims (6)

  1. 通信ネットワークを構成する複数の装置の間の接続構成を表すトポロジ情報と、前記複数の装置によるイベントの発生状況を表すイベント情報を取得する取得部と、
    取得された前記トポロジ情報および前記イベント情報に基づいて、前記複数の装置の中から障害要因箇所に相当する第1の装置を推定する第1の推定部と、
    前記第1の推定部により前記第1の装置が推定された場合に、前記第1の装置との間の接続関係が前記トポロジ情報により定義されている第2の装置による前記イベントの発生状況に基づいて、前記第2の装置による前記イベントの発生が前記障害要因箇所に起因するものかその他の異常に起因するものかを推定する情報を生成する第2の推定部と、
    前記第1の推定部により前記第1の装置が推定された場合に、前記第1の装置との間の接続関係が前記トポロジ情報により定義されている前記第2の装置による前記イベントの発生状況と、前記第1の装置との間の接続関係が前記トポロジ情報により定義されていない第3の装置による前記イベントの発生状況との関係に基づいて、前記第3の装置による前記イベントの発生が前記障害要因箇所に起因するものかその他の異常に起因するものかを推定する情報を生成する第3の推定部
    を具備する異常箇所推定装置。
  2. 前記第1の推定部は、
    前記トポロジ情報および前記イベント情報に基づいて、前記イベントが発生した装置を抽出する処理と、
    抽出された装置との間の接続関係が前記トポロジ情報に定義されている装置を前記第1の装置の候補として選択し、選択された当該第1の装置の候補により前記イベントが発生しているか否かを判定する処理と、
    選択された前記装置との間の接続関係が前記トポロジ情報に定義されている装置を前記第2の装置として選択し、選択された当該第2の装置により前記イベントが発生しているか否かを判定する処理と、
    前記第1の装置の候補および前記第2の装置の何れも前記イベントが発生していないと判定された場合に、前記第1の装置の候補を前記障害要因箇所に相当する前記第1の装置と推定する処理と、
    推定された前記第1の装置が前記障害要因箇所であることを表す情報を出力する処理と
    を備える、請求項1に記載の異常箇所推定装置。
  3. 前記第2の推定部は、
    前記トポロジ情報および前記イベント情報に基づいて、前記イベントが発生した装置、前記第1の装置および前記第2の装置による前記イベントの発生状況に対応するフィルタリングルールを取得する処理と、
    前記第1の装置の数と当該第1の装置による前記イベントの発生状況に対応する前記フィルタリングルールの数との比と、前記イベントが発生した装置および前記第2の装置の数とこれらの各装置による前記イベントの発生状況に対応するフィルタリングルールの数との比とに基づいて、第1の確信度を算出する処理と、
    算出された前記第1の確信度を、前記第2の装置による前記イベントの発生が前記障害要因箇所に起因するものかその他の異常に起因するかを推定するための情報として出力する処理と
    を備える、請求項1に記載の異常箇所推定装置。
  4. 前記第3の推定部は、
    前記トポロジ情報および前記イベント情報に基づいて、前記第1、第2および第3の各装置による前記イベントの発生状況に対応するフィルタリングルールを取得する処理と、
    取得された前記フィルタリングルールと、前記第2の装置による前記イベントの発生時刻と前記第3の装置による前記イベントの発生時刻との比較結果とに基づいて、第2の確信度を算出する処理と、
    算出された前記第2の確信度を、前記第3の装置による前記イベントの発生が前記障害要因箇所に起因するものかその他の異常に起因するかを推定する情報として出力する処理と
    を備える、請求項1に記載の異常箇所推定装置。
  5. ハードウェアプロセッサおよびメモリを有する情報処理装置が実行する異常箇所推定方法であって、
    通信ネットワークを構成する複数の装置の間の接続構成を表すトポロジ情報と、前記複数の装置によるイベントの発生状況を表すイベント情報を取得する過程と、
    取得された前記トポロジ情報および前記イベント情報に基づいて、前記複数の装置の中から障害要因箇所に相当する第1の装置を推定する過程と、
    推定された前記第1の装置との間の接続関係が前記トポロジ情報により定義されている第2の装置による前記イベントの発生状況に基づいて、前記第2の装置による前記イベントの発生が前記障害要因箇所に起因するものかその他の異常に起因するかを推定する情報を生成する過程と、
    前記第1の装置との間の接続関係が前記トポロジ情報により定義されている前記第2の装置による前記イベントの発生状況と、前記第1の装置との間の接続関係が前記トポロジ情報により定義されていない第3の装置による前記イベントの発生状況との関係に基づいて、前記第3の装置による前記イベントの発生が前記障害要因箇所に起因するものかその他の異常に起因するかを推定する情報を生成する過程と
    を具備する異常箇所推定方法。
  6. 請求項1乃至4の何れかに記載の異常箇所推定装置が備える前記各部が実行する処理を、前記異常箇所推定装置が備えるハードウェアプロセッサに実行させるプログラム。
JP2021548048A 2019-09-25 2019-09-25 異常箇所推定装置、方法およびプログラム Active JP7322958B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/037619 WO2021059400A1 (ja) 2019-09-25 2019-09-25 異常箇所推定装置、方法およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2021059400A1 JPWO2021059400A1 (ja) 2021-04-01
JP7322958B2 true JP7322958B2 (ja) 2023-08-08

Family

ID=75164877

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021548048A Active JP7322958B2 (ja) 2019-09-25 2019-09-25 異常箇所推定装置、方法およびプログラム

Country Status (3)

Country Link
US (1) US12056033B2 (ja)
JP (1) JP7322958B2 (ja)
WO (1) WO2021059400A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024013989A1 (ja) * 2022-07-15 2024-01-18 日本電信電話株式会社 障害箇所推定装置、方法及びコンピュータプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009252006A (ja) 2008-04-08 2009-10-29 Nec Computertechno Ltd コンピュータシステムにおけるログ管理システム、ログ管理方法
WO2013125037A1 (ja) 2012-02-24 2013-08-29 株式会社日立製作所 コンピュータプログラムおよび管理計算機
WO2014013603A1 (ja) 2012-07-20 2014-01-23 株式会社日立製作所 監視システム及び監視プログラム
WO2014068659A1 (ja) 2012-10-30 2014-05-08 株式会社日立製作所 管理計算機およびルール生成方法
JP2018028778A (ja) 2016-08-17 2018-02-22 日本電信電話株式会社 パターン抽出及びルール生成装置、及びその方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02190046A (ja) * 1989-01-19 1990-07-26 Hitachi Ltd ネットワーク管理装置
US8464279B2 (en) * 2009-12-18 2013-06-11 Hewlett-Packard Development Company, L.P. Domain event correlation
US9979608B2 (en) * 2016-03-28 2018-05-22 Ca, Inc. Context graph generation
US20190361759A1 (en) * 2018-05-22 2019-11-28 At&T Intellectual Property I, L.P. System and method to identify failed points of network impacts in real time
US10977154B2 (en) * 2018-08-03 2021-04-13 Dynatrace Llc Method and system for automatic real-time causality analysis of end user impacting system anomalies using causality rules and topological understanding of the system to effectively filter relevant monitoring data

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009252006A (ja) 2008-04-08 2009-10-29 Nec Computertechno Ltd コンピュータシステムにおけるログ管理システム、ログ管理方法
WO2013125037A1 (ja) 2012-02-24 2013-08-29 株式会社日立製作所 コンピュータプログラムおよび管理計算機
WO2014013603A1 (ja) 2012-07-20 2014-01-23 株式会社日立製作所 監視システム及び監視プログラム
WO2014068659A1 (ja) 2012-10-30 2014-05-08 株式会社日立製作所 管理計算機およびルール生成方法
JP2018028778A (ja) 2016-08-17 2018-02-22 日本電信電話株式会社 パターン抽出及びルール生成装置、及びその方法

Also Published As

Publication number Publication date
US20220342788A1 (en) 2022-10-27
JPWO2021059400A1 (ja) 2021-04-01
US12056033B2 (en) 2024-08-06
WO2021059400A1 (ja) 2021-04-01

Similar Documents

Publication Publication Date Title
JP3826940B2 (ja) 障害復旧装置および障害復旧方法、マネージャ装置並びにプログラム
KR100898339B1 (ko) 홈 네트워크 환경을 위한 자율적인 오류 처리 시스템 및 그방법
US10462027B2 (en) Cloud network stability
US8645769B2 (en) Operation management apparatus, operation management method, and program storage medium
JP6647824B2 (ja) 異常診断システム及び異常診断方法
CN106789306B (zh) 通信设备软件故障检测收集恢复方法和系统
JP5267736B2 (ja) 障害検出装置、障害検出方法およびプログラム記録媒体
WO2018198733A1 (ja) セキュリティ監視システム及びセキュリティ監視方法
TWI691852B (zh) 用於偵測階層式系統故障之偵錯裝置及偵錯方法、電腦可讀取之記錄媒體及電腦程式產品
CN109308252A (zh) 一种故障定位处理方法及装置
US20180190403A1 (en) Plant operation system and plant operation method
JP6280862B2 (ja) イベント分析システムおよび方法
WO2006117833A1 (ja) 監視シミュレーション装置,方法およびそのプログラム
JP7322958B2 (ja) 異常箇所推定装置、方法およびプログラム
JP2018132910A (ja) 保守装置、提示システム及びプログラム
CN109271270A (zh) 存储系统中底层硬件的故障排除方法、系统及相关装置
JP2013126128A (ja) 接続監視装置および接続監視方法
WO2020044898A1 (ja) 機器状態監視装置及びプログラム
CN115102838B (zh) 服务器宕机风险的应急处理方法和装置、电子设备
CN113778763B (zh) 一种三方接口服务故障智能切换方法及系统
JP2007257581A (ja) 故障解析装置
JP4575020B2 (ja) 障害解析装置
JP4485344B2 (ja) サーバ装置、障害経路診断方法、および障害経路診断プログラム
JP2014078067A (ja) データベースシステム、データベース装置、データベースの障害回復方法およびプログラム
US20220334914A1 (en) Anomaly coping support apparatus, method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220105

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20230104

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230131

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20230208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230323

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230627

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230710

R150 Certificate of patent or registration of utility model

Ref document number: 7322958

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150