JP7151548B2 - 異常検知プログラム、異常検知方法及び異常検知装置 - Google Patents

異常検知プログラム、異常検知方法及び異常検知装置 Download PDF

Info

Publication number
JP7151548B2
JP7151548B2 JP2019032838A JP2019032838A JP7151548B2 JP 7151548 B2 JP7151548 B2 JP 7151548B2 JP 2019032838 A JP2019032838 A JP 2019032838A JP 2019032838 A JP2019032838 A JP 2019032838A JP 7151548 B2 JP7151548 B2 JP 7151548B2
Authority
JP
Japan
Prior art keywords
fib
event log
information
consistency
forwarding table
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019032838A
Other languages
English (en)
Other versions
JP2020137098A (ja
Inventor
直樹 小口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2019032838A priority Critical patent/JP7151548B2/ja
Priority to US16/793,016 priority patent/US11188444B2/en
Publication of JP2020137098A publication Critical patent/JP2020137098A/ja
Application granted granted Critical
Publication of JP7151548B2 publication Critical patent/JP7151548B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • G06F11/3075Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting the data filtering being achieved in order to maintain consistency among the monitored data, e.g. ensuring that the monitored data belong to the same timeframe, to the same system or component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1734Details of monitoring file system events, e.g. by the use of hooks, filter drivers, logs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis

Description

本発明は、異常検知プログラム、異常検知方法及び異常検知装置に関する。
複数の機器をネットワークで接続するシステムでは、通信障害によりシステム障害が発生することがある。システム障害が発生するとシステムに依存するビジネスが停止し、ビジネス損失が発生する。
このため、通信障害が発生したときに速やかに通信を復旧させる技術が開発されている。例えば、ルーティングテーブルに起因する通信障害が発生したとき、旧経路情報が格納されたルーティングテーブルに切り替えて運用を継続し、切り替え前後の経路情報の比較によって通信障害原因の究明を行うルータ装置がある。
また、大量のログから、発生した要因を容易に特定できるようにする機能を提供する情報処理装置がある。この情報処理装置は、収集したイベントログから、同一の要因に起因して発生したイベントに対応する1又は複数のイベントログを抽出するとともに、抽出した1又は複数のイベントログのうち、同一の要因に起因したイベントを代表するイベントログを特定する。そして、この情報処理装置は、同一の要因に起因して発生したイベントを代表するイベントログと、同一の要因に起因して発生したそれ以外のイベントに対応するイベントログとを区別して出力する。
特開2000-209271号公報 特開2018-124696号公報
ネットワークの障害によるシステム障害は、システムが提供するサービスが停止してはじめて検出されることが多く、障害原因の発生から障害検出までに時間が経過してしまうため、ログが膨大になり、障害原因のログの特定に時間がかかるという問題がある。
本発明は、1つの側面では、ネットワークの障害において障害原因のログを特定することを目的とする。
1つの態様では、異常検知プログラムは、取得する処理と判定する処理と関連付ける処理と出力する処理をコンピュータに実行させる。前記取得する処理は、中継装置毎のフォワーディングテーブルの変更に関する情報とイベントログを所定の間隔で取得する。前記判定する処理は、全ての中継装置においてフォワーディングテーブルの変更完了を確認したときにフォワーディングテーブルの整合性の判定を行う。前記関連付ける処理は、整合性の判定で問題ありと判定された中継装置のイベントログの中で、フォワーディングテーブルの変更に関する情報が取得された時刻に対応するイベントログを前記問題と関連付ける。前記出力する処理は、整合性に問題ありと判定された中継装置と、前記問題と関連付けられたイベントログとを含めた情報を出力する。
1つの側面では、本発明は、ネットワークの障害において障害原因のログを特定することができる。
図1は、実施例に係るネットワークシステムの構成を示す図である。 図2は、FIBの更新時刻に対応するタイミングのイベントログの特定を説明するための図である。 図3は、FIB情報の整合性の判定を行うことができないタイミングを説明するための図である。 図4は、保留期間に基づくイベントログの特定を説明するための図である。 図5は、ネットワーク管理装置の機能構成を示す図である。 図6は、FIB情報DBの一例を示す図である。 図7は、イベントログDBの一例を示す図である。 図8は、遅延DBの一例を示す図である。 図9は、ネットワーク管理装置が表示するログ画面の一例を示す図である。 図10は、遅延計測部による処理のフローを示すフローチャートである。 図11は、イベントログ特定部による処理のフローを示すフローチャートである。 図12は、実施例に係るネットワーク管理プログラムを実行するコンピュータのハードウェア構成を示す図である。
以下に、本願の開示する異常検知プログラム、異常検知方法及び異常検知装置の実施例を図面に基づいて詳細に説明する。なお、この実施例は開示の技術を限定するものではない。
まず、実施例に係るネットワークシステムの構成について説明する。図1は、実施例に係るネットワークシステムの構成を示す図である。図1に示すように、実施例に係るネットワークシステム1は、ネットワーク管理装置2と、L3スイッチA~L3スイッチDで表される4台のL3スイッチ3と、ルータE及びルータFで表される2台のルータ4と、2台のファイアウォール5とを有する。また、実施例に係るネットワークシステム1は、12台の情報処理装置6を有する。
ネットワーク管理装置2は、ネットワークシステム1を管理する装置である。L3スイッチ3は、情報処理装置6と直接接続し、情報処理装置6の通信を中継する中継装置である。ルータ4は、インターネット7と内部ネットワーク8を中継する中継装置である。ファイアウォール5は、外部からの不正なアクセスを遮断する装置である。情報処理装置6は、情報処理を行う装置である。
L3スイッチAとL3スイッチBは内部ネットワーク8を介して接続される。L3スイッチCとL3スイッチDは内部ネットワーク8を介して接続される。L3スイッチ3は内部ネットワーク8を介してファイアウォール5に接続される。ファイアウォール5は内部ネットワーク8を介してルータ4に接続される。ネットワーク管理装置2は、管理ネットワーク9でL3スイッチ3、ルータ4、ファイアウォール5と接続される。
なお、ネットワークシステム1は、2台以外の台数のルータ4及びファイアウォール5を有してもよい。また、ネットワークシステム1は、4台以外の台数のL3スイッチ3を有してもよい。また、ネットワークシステム1は、12台以外の台数の情報処理装置6を有してもよい。
ネットワーク管理装置2は、中継装置すなわちL3スイッチ3及びルータ4から、管理者による操作に関するイベントログ及び故障に関するイベントログを取得する。また、ネットワーク管理装置2は、中継装置から、FIB(Forwarding Information Base)の更新情報を取得する。ここで、FIBは、ハードウェアにより参照されるルーティングテーブルである。
ネットワーク管理装置2は、FIBの情報の整合性を判定し、整合性がないと判定すると、FIBの更新時刻に対応するタイミングのイベントログを障害原因のイベントログとして特定する。ネットワークに発生する障害には、設定ミスによる障害が多い。そこで、ネットワーク管理装置2は、FIBの設定ミスによる障害を特定するため、一定の周期でFIBの情報の整合性を判定する。そして、FIBの情報に整合性がないと判定すると、FIBの更新時刻に対応するタイミングのイベントログを特定することで、障害原因のイベントログを特定する。
なお、FIBの情報の整合性を判定する技術については、米国特許第10057166号明細書に記載されている。この技術は、FIBの情報を論理検証することで整合性を判定し、整合性がない場合には、整合性のない中継装置を特定する。
図2は、FIBの更新時刻に対応するタイミングのイベントログの特定を説明するための図である。図2(a)は、FIB更新情報の取得タイミングを示し、図2(b)は、イベントログの取得タイミングを示す。図2(a)及び図2(b)において、縦軸は中継装置を示し、横軸は時間を示す。なお、ネットワーク管理装置2は、FIB更新情報として更新前後の差分情報を取得する。
図2(a)において、「FIBA1」、「FIBA2」、「FIBA3」は、L3スイッチAからのFIB更新情報の取得タイミングを示し、「FIBB1」、「FIBB2」、「FIBB3」は、L3スイッチBからのFIB更新情報の取得タイミングを示す。同様に、「FIBC1」、「FIBC2」は、L3スイッチCからのFIB更新情報の取得タイミングを示し、「FIBD1」、「FIBD2」、「FIBD3」は、L3スイッチDからのFIB更新情報の取得タイミングを示す。また、「FIBE1」、「FIBE2」、「FIBE3」は、ルータEからのFIB更新情報の取得タイミングを示し、「FIBF1」、「FIBF2」、「FIBF3」は、ルータFからのFIB更新情報の取得タイミングを示す。
また、「NW検証#1」、「NW検証#2」、「NW検証#3」は、FIB情報の整合性の有無を判定するタイミングを示す。
図2(b)において、「LogA1」、「LogA2」、「LogA3」、「LogA4」は、L3スイッチAからのイベントログの取得タイミングを示す。同様に、「LogB1」、「LogB2」、「LogB3」は、L3スイッチBからのイベントログの取得タイミングを示す。また、「LogC1」、「LogC2」は、L3スイッチCからのイベントログの取得タイミングを示し、「LogD1」、「LogD2」、「LogD3」は、L3スイッチDからのイベントログの取得タイミングを示す。また、「LogE1」、「LogE2」、「LogE3」は、ルータEからのイベントログの取得タイミングを示し、「LogF1」、「LogF2」、「LogF3」は、ルータFからのイベントログの取得タイミングを示す。
図2(a)に示すように、「NW検証#1」のタイミングでは、ネットワーク管理装置2は、FIB情報に整合性があると判定する(検証結果は「正常」)。一方、「NW検証#2」のタイミングでは、ネットワーク管理装置2は、FIB情報に整合性がなく、L3スイッチDが異常であると判定する(検証結果は「異常」)。
すると、ネットワーク管理装置2は、図2(a)に示す取得タイミングに基づいて、整合性がないFIB情報を取得した時間範囲を特定する。そして、ネットワーク管理装置2は、て図2(b)に示す取得タイミングに基づいて、特定した時間範囲で異常中継装置が出力したイベントログを障害原因のイベントログとし特定する。図2(b)では、整合性がないFIB情報を取得した時間範囲と異常個所のL3スイッチDから「LogD2」が障害原因のイベントログとして特定される。
ただし、ネットワーク管理装置2は、一部の中継装置のFIB情報だけが更新された過渡状態でFIB情報の整合性の判定を行うことはできない。図3は、FIB情報の整合性の判定を行うことができないタイミングを説明するための図である。図3において、ノード#a~ノード#cは中継装置である。「FIB-a1」及び「FIB-a2」はノード#aのFIB情報であり、「FIB-b1」及び「FIB-b2」はノード#bのFIB情報であり、「FIB-c1」及び「FIB-c2」はノード#cのFIB情報である。図3(a)は、整合性判定を行えるタイミングを示し、図3(b)は、整合性判定を行えないタイミングを示す。
図3(a)に示すように、コンフィグ変更が行われFIBが更新されると、ノード#aでは「FIB-a1」が「FIB-a2」に変更される。また、ノード#bでは「FIB-b1」が「FIB-b2」に変更され、ノード#cでは「FIB-c1」が「FIB-c2」に変更される。また、ネットワーク管理装置2は、定期的に全中継装置からFIB更新情報を取得してFIB情報の整合性の判定を行う。判定タイミングでノード#a~ノード#cのFIB情報は全て更新されているため、整合性の判定が正しく行われ、例えば、判定結果がOKとなる。
一方、図3(b)に示すように、FIB情報の更新時間に中継装置間で差があり、ネットワーク管理装置2が整合性の判定を行うタイミングでは、ノード#aとノード#bのFIBは更新済であるがノード#cのFIBは更新されていない。このため、ネットワーク管理装置2は、整合性の判定を正しく行うことはできない。その結果、FIB情報に問題がない場合にも、判定結果がNGとなる。そこで、ネットワーク管理装置2は、ノード#cのFIBの更新後の次の判定タイミングまで整合性の判定を保留する。
このように、ネットワーク管理装置2は、一部の中継装置のFIBだけが更新された過渡状態では整合性の判定を保留することで、整合性の判定を正しく行うことができる。保留後に、整合性の判定結果がNGの場合には、ネットワーク管理装置2は、FIB情報に問題ありと判定する。
FIB情報に問題ありと判定すると、ネットワーク管理装置2は、保留期間に基づいて、障害原因のイベントログを特定する。図4は、保留期間に基づくイベントログの特定を説明するための図である。図4において、縦軸は中継装置を示し、横軸は時間を示す。また、時間の1区切りは整合性の判定周期を示し、「C」はFIBの更新があることを示す。
図4に示すように、ネットワーク管理装置2は、一部の中継装置のFIBだけが更新された過渡状態では整合性の判定を保留し、網掛けされた保留期間が終了すると、整合性の判定を行う。このため、ネットワーク管理装置2は、整合性の判定を行って問題が検出された時のイベントログを特定するのではなく、保留期間分遡ってイベントログを特定する。具体的には、ネットワーク管理装置2は、FIBの更新開始時刻と更新終了時刻との間にあるイベントログを障害原因のイベントログとして特定する。
次に、ネットワーク管理装置2の機能構成について説明する。図5は、ネットワーク管理装置2の機能構成を示す図である。図5に示すように、ネットワーク管理装置2は、FIB更新情報取得部21と、FIB情報DB(DataBase)22と、イベントログ収集部23と、イベントログDB24と、ネットワーク検証部25と、遅延計測部26と、遅延DB27とを有する。また、ネットワーク管理装置2は、イベントログ特定部28と、表示部29とを有する。
FIB更新情報取得部21は、FIB更新情報の取得周期すなわち整合性の判定周期で各中継装置からFIB更新情報を取得し、取得したFIB更新情報に基づいてFIB情報DB22を更新する。また、FIB更新情報取得部21は、FIB更新情報を取得したことを遅延計測部26に通知する。
FIB情報DB22は、FIB情報を記憶する。図6は、FIB情報DB22の一例を示す図である。図6に示すように、FIB情報DB22は、ノード名とノードIP(Internet Protocol)と宛先と次ホップと出力IF(InterFace)とを対応付けて宛先毎に記憶する。
ノード名は、中継装置を識別する名前である。ノードIPは、中継装置のIPアドレスである。宛先は、中継するデータの送信先の情報処理装置6のIPアドレスである。次ホップは、対応する宛先を有するデータの転送先の中継装置のIPアドレスである。転送先が宛先の情報処理装置6である場合には、次ホップは「Directory connected」である。出力IFは、データの出力先のポートを識別する識別子であり、「eth」はEtherポートであることを示し、「/」の前の数字はスロット番号を示し、「/」の後の数字はポート番号を示す。
図6は、IPアドレスが「192.168.200.1」である「L3スイッチA」が記憶するFIB情報を示す。例えば、IPアドレスが「192.168.10.0/24」である情報処理装置6を送信先とするデータは、スロット番号が「0」でありポート番号が「15」であるEtherポートから直接送信先に送信される。また、IPアドレスが「192.168.40.0/24」である情報処理装置6を送信先とするデータは、スロット番号が「1」でありポート番号が「3」であるEtherポートからIPアドレスが「192.168.200.2」である中継装置に送信される。
イベントログ収集部23は、各中継装置から一定の時間間隔でイベントログを収集し、イベントログDB24に格納する。
イベントログDB24は、各中継装置から収集されたイベントログを記憶する。図7は、イベントログDB24の一例を示す図である。図7に示すように、イベントログDB24は、タイムスタンプとノード名と内容とを対応付けてイベントログ毎に記憶する。
タイムスタンプは、イベントが発生した時刻である。ノード名は、イベントが発生した中継装置の名前である。内容は、イベントの内容である。例えば、2018年11月25日の8時30分1秒に「ルータF」において「インタフェースダウン検出(eth0/15)」が発生した。
ネットワーク検証部25は、米国特許第10057166号明細書に記載されている技術を用いて、FIB情報DB22が記憶するFIB情報の整合性を判定し、判定結果を遅延計測部26に渡す。ネットワーク検証部25は、整合性がないと判定した場合には、不整合が検出された中継装置を特定し、特定した中継装置の名前を遅延計測部26に渡す。
遅延計測部26は、整合性の判定周期でネットワーク検証部25に対してFIB情報の整合性の判定を指示する。ただし、遅延計測部26は、FIB情報が更新されていない場合には、ネットワーク検証部25に対してFIB情報の整合性の判定を指示しない。また、遅延計測部26は、保留期間中はネットワーク検証部25に対してFIB情報の整合性の判定を指示しない。
遅延計測部26は、FIB情報に整合性がない場合には、不整合が検出された時刻と不整合が検出された中継装置の名前をイベントログ特定部28に渡して障害原因のイベントログの特定を指示する。
また、遅延計測部26は、整合性の判定を行った時刻と、判定結果と、FIB更新情報取得が開始した時刻と、FIB更新情報取得が終了した時刻と、整合性の判定を保留した時間と、保留した時間の平均値とを遅延DB27に格納する。また、遅延計測部26は、一部の中継装置でFIBの更新が確認できない場合には、保留した時間の平均値の時間が経過すると整合性判定をネットワーク検証部25に指示する。
遅延DB27は、FIB情報の整合性の判定に関する情報を判定毎に記憶する。図8は、遅延DB27の一例を示す図である。図8に示すように、遅延DB27は、No.と、判定時刻と、判定結果と、FIB取得開始時刻と、FIB取得終了時刻と、保留時間(Tn)と、平均待ち時間(Tave)とを整合性の判定毎に記憶する。
No.は、各判定を識別する番号である。判定時刻は、整合性の判定が行われた時刻である。判定結果は、整合性の判定結果であり、整合性ありを示す「OK」又は整合性なしを示す「NG」である。FIB取得開始時刻は、FIB更新情報取得を開始した時刻である。FIB取得終了時刻は、FIB更新情報取得を終了した時刻である。
保留時間は、整合性の判定を保留した時間である。平均待ち時間は、例えば1回前の保留時間と今回の保留期間の平均値であり、FIB更新情報を取得できない中継装置がある場合に、整合性の判定までに待つ時間である。
例えば、番号が「1」で識別される整合性判定の判定時刻は2018年11月25日の8時30分1秒であり、判定結果は整合性ありである。FIB更新情報取得を開始した時刻は2018年11月25日の8時28分1秒であり、FIB更新情報取得を終了した時刻は2018年11月25日の8時29分1秒である。保留時間は60秒であり、平均待ち時間は75秒である。
イベントログ特定部28は、不整合が検出された時刻と不整合が検出された中継装置の名前を遅延計測部26から受け取って、イベントログDB24が記憶するイベントログの中から障害原因のイベントログを特定する。具体的には、イベントログ特定部28は、不整合が検出された時刻に対応するFIB取得開始時刻とFIB取得終了時刻を遅延DB27から取得する。そして、イベントログ特定部28は、FIB取得開始時刻とFIB取得終了時刻の間にあるイベントログで不整合が検出された中継装置のイベントログを障害原因のイベントログとして特定し、リレーションフラグを付与する。
表示部29は、不整合が検出された場合に、ネットワークが異常であることを示すログを表示する。また、表示部29は、イベントログを表示する際に、リレーションフラグが付与されたことを示す情報を表示する。
図9は、ネットワーク管理装置2が表示するログ画面の一例を示す図である。図9(a)は、ネットワーク異常ログの例を示し、図9(b)は、イベントログの例を示す。ネットワーク異常ログには、異常発生時刻と異常の内容が表示される。イベントログには、障害原因として特定されたイベントログにリレーションフラグが付与されて表示される。図9(b)では、2018年11月25日8時58分25秒にL3スイッチAに発生したイベントのログと、2018年11月25日9時00分10秒にルータEに発生したイベントのログが障害原因のイベントログとして表示される。
なお、表示部29は、不整合が検出された中継装置の情報とリレーションフラグが付与されたイベントログの情報を表示してもよい。
次に、遅延計測部26による処理のフローについて説明する。図10は、遅延計測部26による処理のフローを示すフローチャートである。図10に示すように、遅延計測部26は、FIB取得タイマのタイムアウトを待つ(ステップS1)。ここで、FIB取得タイマは、FIB更新情報を取得する周期、すなわち、FIB情報の整合性を判定する周期でタイムアウトするタイマである。
そして、遅延計測部26は、FIBが更新された中継装置があるか否かを判定し(ステップS2)、ある場合には、更新フラグをセットし(ステップS3)、遅延DB27のFIB取得開始時刻に現在時刻を記録する(ステップS4)。ただし、更新フラグが既にセットされている場合には、遅延計測部26は、ステップS3とステップS4の処理を行わない。そして、遅延計測部26は、Tnにβを加え(ステップS5)、ステップS1に戻る。ここで、βはFIB情報の整合性を判定する周期である。
一方、FIBが更新された中継装置がない場合には、遅延計測部26は、更新フラグはセットされているか否かを判定し(ステップS6)、更新フラグがセットされていない場合には、ステップS1に戻る。
一方、更新フラグがセットされている場合には、遅延計測部26は、全中継装置で更新が完了か否かを判定し(ステップS7)、完了の場合には、遅延DB27のFIB取得終了時刻に現在時刻を記録する(ステップS8)。そして、遅延計測部26は、ネットワーク検証部25に指示して整合性判定を行い(ステップS9)、判定時刻、判定結果を遅延DB27に記録する(ステップS10)。
そして、遅延計測部26は、整合性判定結果を判定し(ステップS11)、整合性判定結果がNGである場合には、イベントログ特定部28に指示して障害原因のイベントログを特定する(ステップS12)。
そして、遅延計測部26は、前回の保留時間Tn-1と今回の保留時間Tnを平均して平均待ち時間Tave=(1-α)Tn-1+αTnを計算する(ステップS13)。ここで、αは0以上1以下の定数である。α=0.5の場合、Taveは、Tn-1とTnの単純平均となる。そして、遅延計測部26は、更新フラグをリセットし(ステップS14)、Tave、Tnを遅延DB27に記録し(ステップS15)、ステップS1に戻る。
また、ステップS7において、更新が完了していない中継装置がある場合には、遅延計測部26は、平均待ち時間内であるか否かを判定し(ステップS16)、平均待ち時間内である場合には、ステップS1に戻り、平均待ち時間内でない場合には、ステップS8に移動する。
このように、遅延計測部26が、ネットワーク検証部25に指示して整合性判定を行い、イベントログ特定部28に指示して不整合に関連するイベントログを特定する。したがって、ネットワーク管理装置2は、ネットワークに異常が発生した場合に障害原因のイベントログを特定することができる。
次に、イベントログ特定部28による処理のフローについて説明する。図11は、イベントログ特定部28による処理のフローを示すフローチャートである。図11に示すように、イベントログ特定部28は、遅延計測部26からの指示を待つ(ステップS21)。そして、イベントログ特定部28は、遅延計測部26からイベントログ特定の指示があると、遅延DB27を参照し、不整合検出時刻からFIB取得開始時刻、FIB取得終了時刻を取得する(ステップS22)。
そして、イベントログ特定部28は、イベントログDB24を参照し、不整合検出中継装置のイベントログでタイムスタンプtがFIB取得開始時刻より大きくFIB取得終了時刻より小さいイベントログを抽出する(ステップS23)。そして、イベントログ特定部28は、抽出したイベントログにリレーションフラグを付与する(ステップS24)。
このように、イベントログ特定部28が遅延DB27とイベントログDB24を参照してFIB情報の不整合に関連するイベントログを抽出するので、ネットワーク管理装置2はネットワークに異常が発生した場合に障害原因のイベントログを特定することができる。
上述してきたように、実施例では、遅延計測部26は、全ての中継装置においてFIBの更新完了を確認すると、FIB情報の整合性判定をネットワーク検証部25に指示する。そして、遅延計測部26は、FIB情報に不整合があると、イベントログ特定部28に障害原因のイベントログの特定を指示する。イベントログ特定部28は、不整合の中継装置のイベントログの中で、FIBの更新情報を取得した時刻に対応するイベントログにリレーションフラグを付与する。したがって、ネットワーク管理装置2は、リレーションフラグが付与されたイベントログを障害原因のイベントログとして特定することができる。
また、実施例では、遅延計測部26は、一部の中継装置でFIBの更新が確認できない場合には、平均待ち時間が経過すると整合性判定をネットワーク検証部25に指示するので、整合性判定の無制限の保留を防ぐことができる。
また、実施例では、遅延計測部26は、FIB取得開始時刻から整合性判定までの時間に基づいて平均待ち時間を計算するので、平均待ち時間を適切な値とすることができる。
また、実施例では、イベントログ特定部28は、FIB取得開始時刻からFIB取得終了時刻の間に発生したイベントログにリレーションフラグを付与するので、整合性判定までの保留期間を反映してリレーションフラグを付与することができる。
なお、実施例では、ネットワーク管理装置2について説明したが、ネットワーク管理装置2が有する構成をソフトウェアによって実現することで、同様の機能を有するネットワーク管理プログラムを得ることができる。そこで、ネットワーク管理プログラムを実行するコンピュータについて説明する。
図12は、実施例に係るネットワーク管理プログラムを実行するコンピュータのハードウェア構成を示す図である。図12に示すように、コンピュータ50は、メインメモリ51と、CPU(Central Processing Unit)52と、LAN(Local Area Network)インタフェース53と、HDD(Hard Disk Drive)54とを有する。また、コンピュータ50は、スーパーIO(Input Output)55と、DVI(Digital Visual Interface)56と、ODD(Optical Disk Drive)57とを有する。
メインメモリ51は、プログラムやプログラムの実行途中結果等を記憶するメモリである。CPU52は、メインメモリ51からプログラムを読み出して実行する中央処理装置である。CPU52は、メモリコントローラを有するチップセットを含む。
LANインタフェース53は、コンピュータ50をLAN経由で他のコンピュータに接続するためのインタフェースである。HDD54は、プログラムやデータを格納するディスク装置であり、スーパーIO55は、マウスやキーボード等の入力装置を接続するためのインタフェースである。DVI56は、液晶表示装置を接続するインタフェースであり、ODD57は、DVDの読み書きを行う装置である。
LANインタフェース53は、PCIエクスプレス(PCIe)によりCPU52に接続され、HDD54及びODD57は、SATA(Serial Advanced Technology Attachment)によりCPU52に接続される。スーパーIO55は、LPC(Low Pin Count)によりCPU52に接続される。
そして、コンピュータ50において実行されるネットワーク管理プログラムは、コンピュータ50により読み出し可能な記録媒体の一例であるDVDに記憶され、ODD57によってDVDから読み出されてコンピュータ50にインストールされる。あるいは、ネットワーク管理プログラムは、LANインタフェース53を介して接続された他のコンピュータシステムのデータベース等に記憶され、これらのデータベースから読み出されてコンピュータ50にインストールされる。そして、インストールされたネットワーク管理プログラムは、HDD54に記憶され、メインメモリ51に読み出されてCPU52によって実行される。
また、実施例では、L3スイッチ3とルータ4を含む場合について説明したが、ネットワークシステム1は、他の中継装置を含んでもよい。また、実施例では、FIBを更新する場合について説明したが、中継装置は、他のフォワーディングテーブルを更新してもよい。
1 ネットワークシステム
2 ネットワーク管理装置
3 L3スイッチ
4 ルータ
5 ファイアウォール
6 情報処理装置
7 インターネット
8 内部ネットワーク
9 管理ネットワーク
21 FIB更新情報取得部
22 FIB情報DB
23 イベントログ収集部
24 イベントログDB
25 ネットワーク検証部
26 遅延計測部
27 遅延DB
28 イベントログ特定部
29 表示部
50 コンピュータ
51 メインメモリ
52 CPU
53 LANインタフェース
54 HDD
55 スーパーIO
56 DVI
57 ODD

Claims (6)

  1. コンピュータに、
    中継装置毎のフォワーディングテーブルの変更に関する情報とイベントログを所定の間隔で取得し、
    全ての中継装置においてフォワーディングテーブルの変更完了を確認したときにフォワーディングテーブルの整合性の判定を行い、
    整合性の判定で問題ありと判定された中継装置のイベントログの中で、フォワーディングテーブルの変更に関する情報が取得された時刻に対応するイベントログを前記問題と関連付け、
    整合性に問題ありと判定された中継装置と、前記問題と関連付けられたイベントログとを含めた情報を出力する
    処理を実行させることを特徴とする異常検知プログラム。
  2. フォワーディングテーブルの変更完了を確認した中継装置がある一方で前記変更完了を確認していない中継装置がある場合には、所定の待ち時間が経過すると前記整合性の判定を行うことを特徴とする請求項1に記載の異常検知プログラム。
  3. 前記待ち時間は、フォワーディングテーブルの変更開始を確認してから前記整合性の判定を行うまでの時間に基づくことを特徴とする請求項2に記載の異常検知プログラム。
  4. 前記関連付ける処理は、フォワーディングテーブルの変更に関する情報の取得を開始した時刻とフォワーディングテーブルの変更に関する情報の取得を終了した時刻の間にあるイベントログを前記問題と関連付けることを特徴とする請求項1、2又は3に記載の異常検知プログラム。
  5. コンピュータが、
    中継装置毎のフォワーディングテーブルの変更に関する情報とイベントログを所定の間隔で取得し、
    全ての中継装置においてフォワーディングテーブルの変更完了を確認したときにフォワーディングテーブルの整合性の判定を行い、
    整合性の判定で問題ありと判定された中継装置のイベントログの中で、フォワーディングテーブルの変更に関する情報が取得された時刻に対応するイベントログを前記問題と関連付け、
    整合性に問題ありと判定された中継装置と、前記問題と関連付けられたイベントログとを含めた情報を出力する
    処理を実行することを特徴とする異常検知方法。
  6. 中継装置毎のフォワーディングテーブルの変更に関する情報とイベントログを所定の間隔で取得する取得部と、
    全ての中継装置においてフォワーディングテーブルの変更完了を確認したときにフォワーディングテーブルの整合性の判定を行う判定部と、
    前記判定部による整合性の判定で問題ありと判定された中継装置のイベントログの中で、フォワーディングテーブルの変更に関する情報が前記取得部により取得された時刻に対応するイベントログを前記問題と関連付ける関連付部と、
    前記判定部により整合性に問題ありと判定された中継装置と、前記関連付部により前記問題と関連付けられたイベントログとを含めた情報を出力する出力部と
    を有することを特徴とする異常検知装置。
JP2019032838A 2019-02-26 2019-02-26 異常検知プログラム、異常検知方法及び異常検知装置 Active JP7151548B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019032838A JP7151548B2 (ja) 2019-02-26 2019-02-26 異常検知プログラム、異常検知方法及び異常検知装置
US16/793,016 US11188444B2 (en) 2019-02-26 2020-02-18 Abnormality detection method and abnormality detection device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019032838A JP7151548B2 (ja) 2019-02-26 2019-02-26 異常検知プログラム、異常検知方法及び異常検知装置

Publications (2)

Publication Number Publication Date
JP2020137098A JP2020137098A (ja) 2020-08-31
JP7151548B2 true JP7151548B2 (ja) 2022-10-12

Family

ID=72142435

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019032838A Active JP7151548B2 (ja) 2019-02-26 2019-02-26 異常検知プログラム、異常検知方法及び異常検知装置

Country Status (2)

Country Link
US (1) US11188444B2 (ja)
JP (1) JP7151548B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11244058B2 (en) * 2019-09-18 2022-02-08 Bank Of America Corporation Security tool
US11321161B2 (en) * 2020-02-07 2022-05-03 Bank Of America Corporation System for resolving heterogenous database-level application failures
CN113672167B (zh) * 2021-07-09 2023-12-22 济南浪潮数据技术有限公司 一种分布式存储系统的数据一致性校验方法、装置及设备
CN115185787B (zh) * 2022-09-06 2022-12-30 北京奥星贝斯科技有限公司 处理事务日志的方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010178343A (ja) 2009-01-30 2010-08-12 Palo Alto Research Center Inc コンピュータ実施方法
JP2016152492A (ja) 2015-02-17 2016-08-22 アラクサラネットワークス株式会社 転送装置および復旧制御装置
JP2016184358A (ja) 2015-03-26 2016-10-20 株式会社日立システムズ データ分析システム
CN107707429A (zh) 2017-10-17 2018-02-16 广东睿江云计算股份有限公司 一种发现ip路由中断的方法及系统
US10009261B2 (en) 2014-08-21 2018-06-26 Telefonaktiebolaget Lm Ericsson (Publ) Method and system of checkpoint and rollback recovery for forwarding states of a software-defined networking (SDN) system
WO2018236776A1 (en) 2017-06-19 2018-12-27 Cisco Technology, Inc. VALIDATION OF ROUTING INFORMATION IN A NETWORK MATRIX

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000209271A (ja) 1999-01-18 2000-07-28 Nec Corp ル―タ装置
JP4347487B2 (ja) * 2000-01-25 2009-10-21 ジャパン・イー・エム株式会社 微小球体整列方法およびその装置
CN102696205B (zh) * 2010-01-06 2015-03-04 日本电气株式会社 通信控制系统和通信控制方法
US8879549B2 (en) * 2011-06-28 2014-11-04 Brocade Communications Systems, Inc. Clearing forwarding entries dynamically and ensuring consistency of tables across ethernet fabric switch
US10057166B2 (en) 2016-09-13 2018-08-21 Fujitsu Limited Network verification
JP6852421B2 (ja) 2017-01-31 2021-03-31 オムロン株式会社 情報処理装置、情報処理プログラムおよび情報処理方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010178343A (ja) 2009-01-30 2010-08-12 Palo Alto Research Center Inc コンピュータ実施方法
US10009261B2 (en) 2014-08-21 2018-06-26 Telefonaktiebolaget Lm Ericsson (Publ) Method and system of checkpoint and rollback recovery for forwarding states of a software-defined networking (SDN) system
JP2016152492A (ja) 2015-02-17 2016-08-22 アラクサラネットワークス株式会社 転送装置および復旧制御装置
JP2016184358A (ja) 2015-03-26 2016-10-20 株式会社日立システムズ データ分析システム
WO2018236776A1 (en) 2017-06-19 2018-12-27 Cisco Technology, Inc. VALIDATION OF ROUTING INFORMATION IN A NETWORK MATRIX
CN107707429A (zh) 2017-10-17 2018-02-16 广东睿江云计算股份有限公司 一种发现ip路由中断的方法及系统

Also Published As

Publication number Publication date
US11188444B2 (en) 2021-11-30
JP2020137098A (ja) 2020-08-31
US20200272551A1 (en) 2020-08-27

Similar Documents

Publication Publication Date Title
JP7151548B2 (ja) 異常検知プログラム、異常検知方法及び異常検知装置
US8910172B2 (en) Application resource switchover systems and methods
GB2478625A (en) Deleting snapshot backups for unstable virtual machine configurations
WO2016206386A1 (zh) 一种故障关联方法和装置
JP4598065B2 (ja) 監視シミュレーション装置,方法およびそのプログラム
EP3993321A1 (en) Method, device and system for determination of message transmission path, and computer storage medium
WO2014090002A1 (zh) 一种数据同步的方法、装置及系统
US20160191369A1 (en) Monitoring support system, monitoring support method, and recording medium
CN112583648B (zh) 一种基于dns的智能服务故障处理方法
JP2007058484A (ja) ストレージ管理方法およびストレージシステム
WO2017140084A1 (zh) 测试方法及装置
CN107888409B (zh) 一种具有自愈能力的通信网络配置数据自动同步方法
CN111522499A (zh) 运维数据读取装置及其读取方法
CN105354102B (zh) 一种文件系统维护和修复的方法和装置
US9015830B2 (en) Verification apparatus and verification method
JP2010009411A (ja) 仮想化環境運用支援システム及び仮想環境運用支援プログラム
US10938666B2 (en) Network testing simulation
JP2008158934A (ja) 分析装置制御システム
US10833918B2 (en) Automatic rule based grouping of compute nodes for a globally optimal cluster
JP2016134721A (ja) 情報処理システム、情報処理システムの制御方法及び管理装置の制御プログラム
JP2004038535A (ja) 障害対応システムおよびこれに用いるサーバ装置、障害対応プログラム
JP6488600B2 (ja) 情報処理システム、プログラム及び情報処理装置
CN113849328A (zh) 一种容灾系统的管理方法和装置
JP2004252800A (ja) 計算機管理方法
Hanakawa et al. Software and Infrastructure Log-Based Framework for Identifying the Causes of System Faults

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211109

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220822

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220830

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220912

R150 Certificate of patent or registration of utility model

Ref document number: 7151548

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150