JP7151548B2

JP7151548B2 - 異常検知プログラム、異常検知方法及び異常検知装置

Info

Publication number: JP7151548B2
Application number: JP2019032838A
Authority: JP
Inventors: 直樹小口
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-02-26
Filing date: 2019-02-26
Publication date: 2022-10-12
Anticipated expiration: 2039-02-26
Also published as: US11188444B2; JP2020137098A; US20200272551A1

Description

本発明は、異常検知プログラム、異常検知方法及び異常検知装置に関する。

複数の機器をネットワークで接続するシステムでは、通信障害によりシステム障害が発生することがある。システム障害が発生するとシステムに依存するビジネスが停止し、ビジネス損失が発生する。

このため、通信障害が発生したときに速やかに通信を復旧させる技術が開発されている。例えば、ルーティングテーブルに起因する通信障害が発生したとき、旧経路情報が格納されたルーティングテーブルに切り替えて運用を継続し、切り替え前後の経路情報の比較によって通信障害原因の究明を行うルータ装置がある。

また、大量のログから、発生した要因を容易に特定できるようにする機能を提供する情報処理装置がある。この情報処理装置は、収集したイベントログから、同一の要因に起因して発生したイベントに対応する１又は複数のイベントログを抽出するとともに、抽出した１又は複数のイベントログのうち、同一の要因に起因したイベントを代表するイベントログを特定する。そして、この情報処理装置は、同一の要因に起因して発生したイベントを代表するイベントログと、同一の要因に起因して発生したそれ以外のイベントに対応するイベントログとを区別して出力する。

特開２０００－２０９２７１号公報特開２０１８－１２４６９６号公報

ネットワークの障害によるシステム障害は、システムが提供するサービスが停止してはじめて検出されることが多く、障害原因の発生から障害検出までに時間が経過してしまうため、ログが膨大になり、障害原因のログの特定に時間がかかるという問題がある。

本発明は、１つの側面では、ネットワークの障害において障害原因のログを特定することを目的とする。

１つの態様では、異常検知プログラムは、取得する処理と判定する処理と関連付ける処理と出力する処理をコンピュータに実行させる。前記取得する処理は、中継装置毎のフォワーディングテーブルの変更に関する情報とイベントログを所定の間隔で取得する。前記判定する処理は、全ての中継装置においてフォワーディングテーブルの変更完了を確認したときにフォワーディングテーブルの整合性の判定を行う。前記関連付ける処理は、整合性の判定で問題ありと判定された中継装置のイベントログの中で、フォワーディングテーブルの変更に関する情報が取得された時刻に対応するイベントログを前記問題と関連付ける。前記出力する処理は、整合性に問題ありと判定された中継装置と、前記問題と関連付けられたイベントログとを含めた情報を出力する。

１つの側面では、本発明は、ネットワークの障害において障害原因のログを特定することができる。

図１は、実施例に係るネットワークシステムの構成を示す図である。図２は、ＦＩＢの更新時刻に対応するタイミングのイベントログの特定を説明するための図である。図３は、ＦＩＢ情報の整合性の判定を行うことができないタイミングを説明するための図である。図４は、保留期間に基づくイベントログの特定を説明するための図である。図５は、ネットワーク管理装置の機能構成を示す図である。図６は、ＦＩＢ情報ＤＢの一例を示す図である。図７は、イベントログＤＢの一例を示す図である。図８は、遅延ＤＢの一例を示す図である。図９は、ネットワーク管理装置が表示するログ画面の一例を示す図である。図１０は、遅延計測部による処理のフローを示すフローチャートである。図１１は、イベントログ特定部による処理のフローを示すフローチャートである。図１２は、実施例に係るネットワーク管理プログラムを実行するコンピュータのハードウェア構成を示す図である。

以下に、本願の開示する異常検知プログラム、異常検知方法及び異常検知装置の実施例を図面に基づいて詳細に説明する。なお、この実施例は開示の技術を限定するものではない。

まず、実施例に係るネットワークシステムの構成について説明する。図１は、実施例に係るネットワークシステムの構成を示す図である。図１に示すように、実施例に係るネットワークシステム１は、ネットワーク管理装置２と、Ｌ３スイッチＡ～Ｌ３スイッチＤで表される４台のＬ３スイッチ３と、ルータＥ及びルータＦで表される２台のルータ４と、２台のファイアウォール５とを有する。また、実施例に係るネットワークシステム１は、１２台の情報処理装置６を有する。

ネットワーク管理装置２は、ネットワークシステム１を管理する装置である。Ｌ３スイッチ３は、情報処理装置６と直接接続し、情報処理装置６の通信を中継する中継装置である。ルータ４は、インターネット７と内部ネットワーク８を中継する中継装置である。ファイアウォール５は、外部からの不正なアクセスを遮断する装置である。情報処理装置６は、情報処理を行う装置である。

Ｌ３スイッチＡとＬ３スイッチＢは内部ネットワーク８を介して接続される。Ｌ３スイッチＣとＬ３スイッチＤは内部ネットワーク８を介して接続される。Ｌ３スイッチ３は内部ネットワーク８を介してファイアウォール５に接続される。ファイアウォール５は内部ネットワーク８を介してルータ４に接続される。ネットワーク管理装置２は、管理ネットワーク９でＬ３スイッチ３、ルータ４、ファイアウォール５と接続される。

なお、ネットワークシステム１は、２台以外の台数のルータ４及びファイアウォール５を有してもよい。また、ネットワークシステム１は、４台以外の台数のＬ３スイッチ３を有してもよい。また、ネットワークシステム１は、１２台以外の台数の情報処理装置６を有してもよい。

ネットワーク管理装置２は、中継装置すなわちＬ３スイッチ３及びルータ４から、管理者による操作に関するイベントログ及び故障に関するイベントログを取得する。また、ネットワーク管理装置２は、中継装置から、ＦＩＢ（Forwarding Information Base）の更新情報を取得する。ここで、ＦＩＢは、ハードウェアにより参照されるルーティングテーブルである。

ネットワーク管理装置２は、ＦＩＢの情報の整合性を判定し、整合性がないと判定すると、ＦＩＢの更新時刻に対応するタイミングのイベントログを障害原因のイベントログとして特定する。ネットワークに発生する障害には、設定ミスによる障害が多い。そこで、ネットワーク管理装置２は、ＦＩＢの設定ミスによる障害を特定するため、一定の周期でＦＩＢの情報の整合性を判定する。そして、ＦＩＢの情報に整合性がないと判定すると、ＦＩＢの更新時刻に対応するタイミングのイベントログを特定することで、障害原因のイベントログを特定する。

なお、ＦＩＢの情報の整合性を判定する技術については、米国特許第１００５７１６６号明細書に記載されている。この技術は、ＦＩＢの情報を論理検証することで整合性を判定し、整合性がない場合には、整合性のない中継装置を特定する。

図２は、ＦＩＢの更新時刻に対応するタイミングのイベントログの特定を説明するための図である。図２（ａ）は、ＦＩＢ更新情報の取得タイミングを示し、図２（ｂ）は、イベントログの取得タイミングを示す。図２（ａ）及び図２（ｂ）において、縦軸は中継装置を示し、横軸は時間を示す。なお、ネットワーク管理装置２は、ＦＩＢ更新情報として更新前後の差分情報を取得する。

図２（ａ）において、「ＦＩＢＡ１」、「ＦＩＢＡ２」、「ＦＩＢＡ３」は、Ｌ３スイッチＡからのＦＩＢ更新情報の取得タイミングを示し、「ＦＩＢＢ１」、「ＦＩＢＢ２」、「ＦＩＢＢ３」は、Ｌ３スイッチＢからのＦＩＢ更新情報の取得タイミングを示す。同様に、「ＦＩＢＣ１」、「ＦＩＢＣ２」は、Ｌ３スイッチＣからのＦＩＢ更新情報の取得タイミングを示し、「ＦＩＢＤ１」、「ＦＩＢＤ２」、「ＦＩＢＤ３」は、Ｌ３スイッチＤからのＦＩＢ更新情報の取得タイミングを示す。また、「ＦＩＢＥ１」、「ＦＩＢＥ２」、「ＦＩＢＥ３」は、ルータＥからのＦＩＢ更新情報の取得タイミングを示し、「ＦＩＢＦ１」、「ＦＩＢＦ２」、「ＦＩＢＦ３」は、ルータＦからのＦＩＢ更新情報の取得タイミングを示す。

また、「ＮＷ検証＃１」、「ＮＷ検証＃２」、「ＮＷ検証＃３」は、ＦＩＢ情報の整合性の有無を判定するタイミングを示す。

図２（ｂ）において、「ＬｏｇＡ１」、「ＬｏｇＡ２」、「ＬｏｇＡ３」、「ＬｏｇＡ４」は、Ｌ３スイッチＡからのイベントログの取得タイミングを示す。同様に、「ＬｏｇＢ１」、「ＬｏｇＢ２」、「ＬｏｇＢ３」は、Ｌ３スイッチＢからのイベントログの取得タイミングを示す。また、「ＬｏｇＣ１」、「ＬｏｇＣ２」は、Ｌ３スイッチＣからのイベントログの取得タイミングを示し、「ＬｏｇＤ１」、「ＬｏｇＤ２」、「ＬｏｇＤ３」は、Ｌ３スイッチＤからのイベントログの取得タイミングを示す。また、「ＬｏｇＥ１」、「ＬｏｇＥ２」、「ＬｏｇＥ３」は、ルータＥからのイベントログの取得タイミングを示し、「ＬｏｇＦ１」、「ＬｏｇＦ２」、「ＬｏｇＦ３」は、ルータＦからのイベントログの取得タイミングを示す。

図２（ａ）に示すように、「ＮＷ検証＃１」のタイミングでは、ネットワーク管理装置２は、ＦＩＢ情報に整合性があると判定する（検証結果は「正常」）。一方、「ＮＷ検証＃２」のタイミングでは、ネットワーク管理装置２は、ＦＩＢ情報に整合性がなく、Ｌ３スイッチＤが異常であると判定する（検証結果は「異常」）。

すると、ネットワーク管理装置２は、図２（ａ）に示す取得タイミングに基づいて、整合性がないＦＩＢ情報を取得した時間範囲を特定する。そして、ネットワーク管理装置２は、て図２（ｂ）に示す取得タイミングに基づいて、特定した時間範囲で異常中継装置が出力したイベントログを障害原因のイベントログとし特定する。図２（ｂ）では、整合性がないＦＩＢ情報を取得した時間範囲と異常個所のＬ３スイッチＤから「ＬｏｇＤ２」が障害原因のイベントログとして特定される。

ただし、ネットワーク管理装置２は、一部の中継装置のＦＩＢ情報だけが更新された過渡状態でＦＩＢ情報の整合性の判定を行うことはできない。図３は、ＦＩＢ情報の整合性の判定を行うことができないタイミングを説明するための図である。図３において、ノード＃ａ～ノード＃ｃは中継装置である。「ＦＩＢ－ａ１」及び「ＦＩＢ－ａ２」はノード＃ａのＦＩＢ情報であり、「ＦＩＢ－ｂ１」及び「ＦＩＢ－ｂ２」はノード＃ｂのＦＩＢ情報であり、「ＦＩＢ－ｃ１」及び「ＦＩＢ－ｃ２」はノード＃ｃのＦＩＢ情報である。図３（ａ）は、整合性判定を行えるタイミングを示し、図３（ｂ）は、整合性判定を行えないタイミングを示す。

図３（ａ）に示すように、コンフィグ変更が行われＦＩＢが更新されると、ノード＃ａでは「ＦＩＢ－ａ１」が「ＦＩＢ－ａ２」に変更される。また、ノード＃ｂでは「ＦＩＢ－ｂ１」が「ＦＩＢ－ｂ２」に変更され、ノード＃ｃでは「ＦＩＢ－ｃ１」が「ＦＩＢ－ｃ２」に変更される。また、ネットワーク管理装置２は、定期的に全中継装置からＦＩＢ更新情報を取得してＦＩＢ情報の整合性の判定を行う。判定タイミングでノード＃ａ～ノード＃ｃのＦＩＢ情報は全て更新されているため、整合性の判定が正しく行われ、例えば、判定結果がＯＫとなる。

一方、図３（ｂ）に示すように、ＦＩＢ情報の更新時間に中継装置間で差があり、ネットワーク管理装置２が整合性の判定を行うタイミングでは、ノード＃ａとノード＃ｂのＦＩＢは更新済であるがノード＃ｃのＦＩＢは更新されていない。このため、ネットワーク管理装置２は、整合性の判定を正しく行うことはできない。その結果、ＦＩＢ情報に問題がない場合にも、判定結果がＮＧとなる。そこで、ネットワーク管理装置２は、ノード＃ｃのＦＩＢの更新後の次の判定タイミングまで整合性の判定を保留する。

このように、ネットワーク管理装置２は、一部の中継装置のＦＩＢだけが更新された過渡状態では整合性の判定を保留することで、整合性の判定を正しく行うことができる。保留後に、整合性の判定結果がＮＧの場合には、ネットワーク管理装置２は、ＦＩＢ情報に問題ありと判定する。

ＦＩＢ情報に問題ありと判定すると、ネットワーク管理装置２は、保留期間に基づいて、障害原因のイベントログを特定する。図４は、保留期間に基づくイベントログの特定を説明するための図である。図４において、縦軸は中継装置を示し、横軸は時間を示す。また、時間の１区切りは整合性の判定周期を示し、「Ｃ」はＦＩＢの更新があることを示す。

図４に示すように、ネットワーク管理装置２は、一部の中継装置のＦＩＢだけが更新された過渡状態では整合性の判定を保留し、網掛けされた保留期間が終了すると、整合性の判定を行う。このため、ネットワーク管理装置２は、整合性の判定を行って問題が検出された時のイベントログを特定するのではなく、保留期間分遡ってイベントログを特定する。具体的には、ネットワーク管理装置２は、ＦＩＢの更新開始時刻と更新終了時刻との間にあるイベントログを障害原因のイベントログとして特定する。

次に、ネットワーク管理装置２の機能構成について説明する。図５は、ネットワーク管理装置２の機能構成を示す図である。図５に示すように、ネットワーク管理装置２は、ＦＩＢ更新情報取得部２１と、ＦＩＢ情報ＤＢ（DataBase）２２と、イベントログ収集部２３と、イベントログＤＢ２４と、ネットワーク検証部２５と、遅延計測部２６と、遅延ＤＢ２７とを有する。また、ネットワーク管理装置２は、イベントログ特定部２８と、表示部２９とを有する。

ＦＩＢ更新情報取得部２１は、ＦＩＢ更新情報の取得周期すなわち整合性の判定周期で各中継装置からＦＩＢ更新情報を取得し、取得したＦＩＢ更新情報に基づいてＦＩＢ情報ＤＢ２２を更新する。また、ＦＩＢ更新情報取得部２１は、ＦＩＢ更新情報を取得したことを遅延計測部２６に通知する。

ＦＩＢ情報ＤＢ２２は、ＦＩＢ情報を記憶する。図６は、ＦＩＢ情報ＤＢ２２の一例を示す図である。図６に示すように、ＦＩＢ情報ＤＢ２２は、ノード名とノードＩＰ（Internet Protocol）と宛先と次ホップと出力ＩＦ（InterFace）とを対応付けて宛先毎に記憶する。

ノード名は、中継装置を識別する名前である。ノードＩＰは、中継装置のＩＰアドレスである。宛先は、中継するデータの送信先の情報処理装置６のＩＰアドレスである。次ホップは、対応する宛先を有するデータの転送先の中継装置のＩＰアドレスである。転送先が宛先の情報処理装置６である場合には、次ホップは「Ｄｉｒｅｃｔｏｒｙｃｏｎｎｅｃｔｅｄ」である。出力ＩＦは、データの出力先のポートを識別する識別子であり、「ｅｔｈ」はＥｔｈｅｒポートであることを示し、「／」の前の数字はスロット番号を示し、「／」の後の数字はポート番号を示す。

図６は、ＩＰアドレスが「１９２．１６８．２００．１」である「Ｌ３スイッチＡ」が記憶するＦＩＢ情報を示す。例えば、ＩＰアドレスが「１９２．１６８．１０．０／２４」である情報処理装置６を送信先とするデータは、スロット番号が「０」でありポート番号が「１５」であるＥｔｈｅｒポートから直接送信先に送信される。また、ＩＰアドレスが「１９２．１６８．４０．０／２４」である情報処理装置６を送信先とするデータは、スロット番号が「１」でありポート番号が「３」であるＥｔｈｅｒポートからＩＰアドレスが「１９２．１６８．２００．２」である中継装置に送信される。

イベントログ収集部２３は、各中継装置から一定の時間間隔でイベントログを収集し、イベントログＤＢ２４に格納する。

イベントログＤＢ２４は、各中継装置から収集されたイベントログを記憶する。図７は、イベントログＤＢ２４の一例を示す図である。図７に示すように、イベントログＤＢ２４は、タイムスタンプとノード名と内容とを対応付けてイベントログ毎に記憶する。

タイムスタンプは、イベントが発生した時刻である。ノード名は、イベントが発生した中継装置の名前である。内容は、イベントの内容である。例えば、２０１８年１１月２５日の８時３０分１秒に「ルータＦ」において「インタフェースダウン検出（ｅｔｈ０／１５）」が発生した。

ネットワーク検証部２５は、米国特許第１００５７１６６号明細書に記載されている技術を用いて、ＦＩＢ情報ＤＢ２２が記憶するＦＩＢ情報の整合性を判定し、判定結果を遅延計測部２６に渡す。ネットワーク検証部２５は、整合性がないと判定した場合には、不整合が検出された中継装置を特定し、特定した中継装置の名前を遅延計測部２６に渡す。

遅延計測部２６は、整合性の判定周期でネットワーク検証部２５に対してＦＩＢ情報の整合性の判定を指示する。ただし、遅延計測部２６は、ＦＩＢ情報が更新されていない場合には、ネットワーク検証部２５に対してＦＩＢ情報の整合性の判定を指示しない。また、遅延計測部２６は、保留期間中はネットワーク検証部２５に対してＦＩＢ情報の整合性の判定を指示しない。

遅延計測部２６は、ＦＩＢ情報に整合性がない場合には、不整合が検出された時刻と不整合が検出された中継装置の名前をイベントログ特定部２８に渡して障害原因のイベントログの特定を指示する。

また、遅延計測部２６は、整合性の判定を行った時刻と、判定結果と、ＦＩＢ更新情報取得が開始した時刻と、ＦＩＢ更新情報取得が終了した時刻と、整合性の判定を保留した時間と、保留した時間の平均値とを遅延ＤＢ２７に格納する。また、遅延計測部２６は、一部の中継装置でＦＩＢの更新が確認できない場合には、保留した時間の平均値の時間が経過すると整合性判定をネットワーク検証部２５に指示する。

遅延ＤＢ２７は、ＦＩＢ情報の整合性の判定に関する情報を判定毎に記憶する。図８は、遅延ＤＢ２７の一例を示す図である。図８に示すように、遅延ＤＢ２７は、Ｎｏ．と、判定時刻と、判定結果と、ＦＩＢ取得開始時刻と、ＦＩＢ取得終了時刻と、保留時間（Ｔ_n）と、平均待ち時間（Ｔ_ave）とを整合性の判定毎に記憶する。

Ｎｏ．は、各判定を識別する番号である。判定時刻は、整合性の判定が行われた時刻である。判定結果は、整合性の判定結果であり、整合性ありを示す「ＯＫ」又は整合性なしを示す「ＮＧ」である。ＦＩＢ取得開始時刻は、ＦＩＢ更新情報取得を開始した時刻である。ＦＩＢ取得終了時刻は、ＦＩＢ更新情報取得を終了した時刻である。

保留時間は、整合性の判定を保留した時間である。平均待ち時間は、例えば１回前の保留時間と今回の保留期間の平均値であり、ＦＩＢ更新情報を取得できない中継装置がある場合に、整合性の判定までに待つ時間である。

例えば、番号が「１」で識別される整合性判定の判定時刻は２０１８年１１月２５日の８時３０分１秒であり、判定結果は整合性ありである。ＦＩＢ更新情報取得を開始した時刻は２０１８年１１月２５日の８時２８分１秒であり、ＦＩＢ更新情報取得を終了した時刻は２０１８年１１月２５日の８時２９分１秒である。保留時間は６０秒であり、平均待ち時間は７５秒である。

イベントログ特定部２８は、不整合が検出された時刻と不整合が検出された中継装置の名前を遅延計測部２６から受け取って、イベントログＤＢ２４が記憶するイベントログの中から障害原因のイベントログを特定する。具体的には、イベントログ特定部２８は、不整合が検出された時刻に対応するＦＩＢ取得開始時刻とＦＩＢ取得終了時刻を遅延ＤＢ２７から取得する。そして、イベントログ特定部２８は、ＦＩＢ取得開始時刻とＦＩＢ取得終了時刻の間にあるイベントログで不整合が検出された中継装置のイベントログを障害原因のイベントログとして特定し、リレーションフラグを付与する。

表示部２９は、不整合が検出された場合に、ネットワークが異常であることを示すログを表示する。また、表示部２９は、イベントログを表示する際に、リレーションフラグが付与されたことを示す情報を表示する。

図９は、ネットワーク管理装置２が表示するログ画面の一例を示す図である。図９（ａ）は、ネットワーク異常ログの例を示し、図９（ｂ）は、イベントログの例を示す。ネットワーク異常ログには、異常発生時刻と異常の内容が表示される。イベントログには、障害原因として特定されたイベントログにリレーションフラグが付与されて表示される。図９（ｂ）では、２０１８年１１月２５日８時５８分２５秒にＬ３スイッチＡに発生したイベントのログと、２０１８年１１月２５日９時００分１０秒にルータＥに発生したイベントのログが障害原因のイベントログとして表示される。

なお、表示部２９は、不整合が検出された中継装置の情報とリレーションフラグが付与されたイベントログの情報を表示してもよい。

次に、遅延計測部２６による処理のフローについて説明する。図１０は、遅延計測部２６による処理のフローを示すフローチャートである。図１０に示すように、遅延計測部２６は、ＦＩＢ取得タイマのタイムアウトを待つ（ステップＳ１）。ここで、ＦＩＢ取得タイマは、ＦＩＢ更新情報を取得する周期、すなわち、ＦＩＢ情報の整合性を判定する周期でタイムアウトするタイマである。

そして、遅延計測部２６は、ＦＩＢが更新された中継装置があるか否かを判定し（ステップＳ２）、ある場合には、更新フラグをセットし（ステップＳ３）、遅延ＤＢ２７のＦＩＢ取得開始時刻に現在時刻を記録する（ステップＳ４）。ただし、更新フラグが既にセットされている場合には、遅延計測部２６は、ステップＳ３とステップＳ４の処理を行わない。そして、遅延計測部２６は、Ｔ_nにβを加え（ステップＳ５）、ステップＳ１に戻る。ここで、βはＦＩＢ情報の整合性を判定する周期である。

一方、ＦＩＢが更新された中継装置がない場合には、遅延計測部２６は、更新フラグはセットされているか否かを判定し（ステップＳ６）、更新フラグがセットされていない場合には、ステップＳ１に戻る。

一方、更新フラグがセットされている場合には、遅延計測部２６は、全中継装置で更新が完了か否かを判定し（ステップＳ７）、完了の場合には、遅延ＤＢ２７のＦＩＢ取得終了時刻に現在時刻を記録する（ステップＳ８）。そして、遅延計測部２６は、ネットワーク検証部２５に指示して整合性判定を行い（ステップＳ９）、判定時刻、判定結果を遅延ＤＢ２７に記録する（ステップＳ１０）。

そして、遅延計測部２６は、整合性判定結果を判定し（ステップＳ１１）、整合性判定結果がＮＧである場合には、イベントログ特定部２８に指示して障害原因のイベントログを特定する（ステップＳ１２）。

そして、遅延計測部２６は、前回の保留時間Ｔ_n-1と今回の保留時間Ｔ_nを平均して平均待ち時間Ｔ_ave＝（１－α）Ｔ_n-1＋αＴ_nを計算する（ステップＳ１３）。ここで、αは０以上１以下の定数である。α＝０．５の場合、Ｔ_aveは、Ｔ_n-1とＴ_nの単純平均となる。そして、遅延計測部２６は、更新フラグをリセットし（ステップＳ１４）、Ｔ_ave、Ｔ_nを遅延ＤＢ２７に記録し（ステップＳ１５）、ステップＳ１に戻る。

また、ステップＳ７において、更新が完了していない中継装置がある場合には、遅延計測部２６は、平均待ち時間内であるか否かを判定し（ステップＳ１６）、平均待ち時間内である場合には、ステップＳ１に戻り、平均待ち時間内でない場合には、ステップＳ８に移動する。

このように、遅延計測部２６が、ネットワーク検証部２５に指示して整合性判定を行い、イベントログ特定部２８に指示して不整合に関連するイベントログを特定する。したがって、ネットワーク管理装置２は、ネットワークに異常が発生した場合に障害原因のイベントログを特定することができる。

次に、イベントログ特定部２８による処理のフローについて説明する。図１１は、イベントログ特定部２８による処理のフローを示すフローチャートである。図１１に示すように、イベントログ特定部２８は、遅延計測部２６からの指示を待つ（ステップＳ２１）。そして、イベントログ特定部２８は、遅延計測部２６からイベントログ特定の指示があると、遅延ＤＢ２７を参照し、不整合検出時刻からＦＩＢ取得開始時刻、ＦＩＢ取得終了時刻を取得する（ステップＳ２２）。

そして、イベントログ特定部２８は、イベントログＤＢ２４を参照し、不整合検出中継装置のイベントログでタイムスタンプｔがＦＩＢ取得開始時刻より大きくＦＩＢ取得終了時刻より小さいイベントログを抽出する（ステップＳ２３）。そして、イベントログ特定部２８は、抽出したイベントログにリレーションフラグを付与する（ステップＳ２４）。

このように、イベントログ特定部２８が遅延ＤＢ２７とイベントログＤＢ２４を参照してＦＩＢ情報の不整合に関連するイベントログを抽出するので、ネットワーク管理装置２はネットワークに異常が発生した場合に障害原因のイベントログを特定することができる。

上述してきたように、実施例では、遅延計測部２６は、全ての中継装置においてＦＩＢの更新完了を確認すると、ＦＩＢ情報の整合性判定をネットワーク検証部２５に指示する。そして、遅延計測部２６は、ＦＩＢ情報に不整合があると、イベントログ特定部２８に障害原因のイベントログの特定を指示する。イベントログ特定部２８は、不整合の中継装置のイベントログの中で、ＦＩＢの更新情報を取得した時刻に対応するイベントログにリレーションフラグを付与する。したがって、ネットワーク管理装置２は、リレーションフラグが付与されたイベントログを障害原因のイベントログとして特定することができる。

また、実施例では、遅延計測部２６は、一部の中継装置でＦＩＢの更新が確認できない場合には、平均待ち時間が経過すると整合性判定をネットワーク検証部２５に指示するので、整合性判定の無制限の保留を防ぐことができる。

また、実施例では、遅延計測部２６は、ＦＩＢ取得開始時刻から整合性判定までの時間に基づいて平均待ち時間を計算するので、平均待ち時間を適切な値とすることができる。

また、実施例では、イベントログ特定部２８は、ＦＩＢ取得開始時刻からＦＩＢ取得終了時刻の間に発生したイベントログにリレーションフラグを付与するので、整合性判定までの保留期間を反映してリレーションフラグを付与することができる。

なお、実施例では、ネットワーク管理装置２について説明したが、ネットワーク管理装置２が有する構成をソフトウェアによって実現することで、同様の機能を有するネットワーク管理プログラムを得ることができる。そこで、ネットワーク管理プログラムを実行するコンピュータについて説明する。

図１２は、実施例に係るネットワーク管理プログラムを実行するコンピュータのハードウェア構成を示す図である。図１２に示すように、コンピュータ５０は、メインメモリ５１と、ＣＰＵ（Central Processing Unit）５２と、ＬＡＮ（Local Area Network）インタフェース５３と、ＨＤＤ（Hard Disk Drive）５４とを有する。また、コンピュータ５０は、スーパーＩＯ（Input Output）５５と、ＤＶＩ（Digital Visual Interface）５６と、ＯＤＤ（Optical Disk Drive）５７とを有する。

メインメモリ５１は、プログラムやプログラムの実行途中結果等を記憶するメモリである。ＣＰＵ５２は、メインメモリ５１からプログラムを読み出して実行する中央処理装置である。ＣＰＵ５２は、メモリコントローラを有するチップセットを含む。

ＬＡＮインタフェース５３は、コンピュータ５０をＬＡＮ経由で他のコンピュータに接続するためのインタフェースである。ＨＤＤ５４は、プログラムやデータを格納するディスク装置であり、スーパーＩＯ５５は、マウスやキーボード等の入力装置を接続するためのインタフェースである。ＤＶＩ５６は、液晶表示装置を接続するインタフェースであり、ＯＤＤ５７は、ＤＶＤの読み書きを行う装置である。

ＬＡＮインタフェース５３は、ＰＣＩエクスプレス（ＰＣＩｅ）によりＣＰＵ５２に接続され、ＨＤＤ５４及びＯＤＤ５７は、ＳＡＴＡ（Serial Advanced Technology Attachment）によりＣＰＵ５２に接続される。スーパーＩＯ５５は、ＬＰＣ（Low Pin Count）によりＣＰＵ５２に接続される。

そして、コンピュータ５０において実行されるネットワーク管理プログラムは、コンピュータ５０により読み出し可能な記録媒体の一例であるＤＶＤに記憶され、ＯＤＤ５７によってＤＶＤから読み出されてコンピュータ５０にインストールされる。あるいは、ネットワーク管理プログラムは、ＬＡＮインタフェース５３を介して接続された他のコンピュータシステムのデータベース等に記憶され、これらのデータベースから読み出されてコンピュータ５０にインストールされる。そして、インストールされたネットワーク管理プログラムは、ＨＤＤ５４に記憶され、メインメモリ５１に読み出されてＣＰＵ５２によって実行される。

また、実施例では、Ｌ３スイッチ３とルータ４を含む場合について説明したが、ネットワークシステム１は、他の中継装置を含んでもよい。また、実施例では、ＦＩＢを更新する場合について説明したが、中継装置は、他のフォワーディングテーブルを更新してもよい。

１ネットワークシステム
２ネットワーク管理装置
３Ｌ３スイッチ
４ルータ
５ファイアウォール
６情報処理装置
７インターネット
８内部ネットワーク
９管理ネットワーク
２１ＦＩＢ更新情報取得部
２２ＦＩＢ情報ＤＢ
２３イベントログ収集部
２４イベントログＤＢ
２５ネットワーク検証部
２６遅延計測部
２７遅延ＤＢ
２８イベントログ特定部
２９表示部
５０コンピュータ
５１メインメモリ
５２ＣＰＵ
５３ＬＡＮインタフェース
５４ＨＤＤ
５５スーパーＩＯ
５６ＤＶＩ
５７ＯＤＤ

Claims

コンピュータに、
中継装置毎のフォワーディングテーブルの変更に関する情報とイベントログを所定の間隔で取得し、
全ての中継装置においてフォワーディングテーブルの変更完了を確認したときにフォワーディングテーブルの整合性の判定を行い、
整合性の判定で問題ありと判定された中継装置のイベントログの中で、フォワーディングテーブルの変更に関する情報が取得された時刻に対応するイベントログを前記問題と関連付け、
整合性に問題ありと判定された中継装置と、前記問題と関連付けられたイベントログとを含めた情報を出力する
処理を実行させることを特徴とする異常検知プログラム。
フォワーディングテーブルの変更完了を確認した中継装置がある一方で前記変更完了を確認していない中継装置がある場合には、所定の待ち時間が経過すると前記整合性の判定を行うことを特徴とする請求項１に記載の異常検知プログラム。
前記待ち時間は、フォワーディングテーブルの変更開始を確認してから前記整合性の判定を行うまでの時間に基づくことを特徴とする請求項２に記載の異常検知プログラム。
前記関連付ける処理は、フォワーディングテーブルの変更に関する情報の取得を開始した時刻とフォワーディングテーブルの変更に関する情報の取得を終了した時刻の間にあるイベントログを前記問題と関連付けることを特徴とする請求項１、２又は３に記載の異常検知プログラム。
コンピュータが、
中継装置毎のフォワーディングテーブルの変更に関する情報とイベントログを所定の間隔で取得し、
全ての中継装置においてフォワーディングテーブルの変更完了を確認したときにフォワーディングテーブルの整合性の判定を行い、
整合性の判定で問題ありと判定された中継装置のイベントログの中で、フォワーディングテーブルの変更に関する情報が取得された時刻に対応するイベントログを前記問題と関連付け、
整合性に問題ありと判定された中継装置と、前記問題と関連付けられたイベントログとを含めた情報を出力する
処理を実行することを特徴とする異常検知方法。
中継装置毎のフォワーディングテーブルの変更に関する情報とイベントログを所定の間隔で取得する取得部と、
全ての中継装置においてフォワーディングテーブルの変更完了を確認したときにフォワーディングテーブルの整合性の判定を行う判定部と、
前記判定部による整合性の判定で問題ありと判定された中継装置のイベントログの中で、フォワーディングテーブルの変更に関する情報が前記取得部により取得された時刻に対応するイベントログを前記問題と関連付ける関連付部と、
前記判定部により整合性に問題ありと判定された中継装置と、前記関連付部により前記問題と関連付けられたイベントログとを含めた情報を出力する出力部と
を有することを特徴とする異常検知装置。