JP7387469B2 - 通信装置、監視サーバ及びログ収集方法 - Google Patents

通信装置、監視サーバ及びログ収集方法 Download PDF

Info

Publication number
JP7387469B2
JP7387469B2 JP2020016744A JP2020016744A JP7387469B2 JP 7387469 B2 JP7387469 B2 JP 7387469B2 JP 2020016744 A JP2020016744 A JP 2020016744A JP 2020016744 A JP2020016744 A JP 2020016744A JP 7387469 B2 JP7387469 B2 JP 7387469B2
Authority
JP
Japan
Prior art keywords
collection
log
failure cause
communication device
alert
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020016744A
Other languages
English (en)
Other versions
JP2021125757A5 (ja
JP2021125757A (ja
Inventor
大樹 山田
亮 中野
亮介 藤原
一登 白根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Industrial Equipment Systems Co Ltd
Original Assignee
Hitachi Industrial Equipment Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Industrial Equipment Systems Co Ltd filed Critical Hitachi Industrial Equipment Systems Co Ltd
Priority to JP2020016744A priority Critical patent/JP7387469B2/ja
Priority to US17/797,164 priority patent/US20230047615A1/en
Priority to EP21750870.4A priority patent/EP4102782A4/en
Priority to PCT/JP2021/000808 priority patent/WO2021157299A1/ja
Publication of JP2021125757A publication Critical patent/JP2021125757A/ja
Publication of JP2021125757A5 publication Critical patent/JP2021125757A5/ja
Application granted granted Critical
Publication of JP7387469B2 publication Critical patent/JP7387469B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0659Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities
    • H04L41/0661Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities by reconfiguring faulty entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0681Configuration of triggering conditions

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Description

本発明は、発生した障害の原因を特定する通信装置及び監視サーバに関する。
複数の通信装置によって構成されるネットワークでは、通信装置のハードウェア異常、ソフトウェア異常、通信回線の輻輳、ネットワーク設定ミスなどによって、通信を阻害する障害が発生する。そこで、通信装置や、通信装置に接続される端末から定期的にログを収集して、稼働状況を把握して障害の発生を早期に検知し、同時に障害原因を特定する方法が提案されている。
近年は、IoT機器の普及などによって通信装置やネットワークが多様化し、従来有線接続ネットワークが主流であった分野においても有線及び無線が混在するネットワークが採用されている。この場合、従来の有線区間で発生する障害だけでなく、無線区間で発生する障害も検知する必要がある。このようにネットワークと障害原因が多様化する中で、障害の検知や障害原因の特定を実現する技術が提案されている。
例えば、特許文献1(特開2012-198796号公報)には、端末機器とサーバ装置とを備え、端末機器は、ログ情報を収集し蓄積するログ収集蓄積手段と、蓄積したログ情報を解析し、異常状態を検出する異常検出手段と、異常状態を検出すると、サーバ装置に異常状態を通知する異常通知手段とを含み、サーバ装置は、端末機器に蓄積されたログ情報を収集するログ収集手段と、通知された異常状態を解析する異常解析手段と、異常状態の内容に応じて、異常検出手段に対して異常状態の検出方法の設定を指示する異常検出指示手段と、ログ収集蓄積手段に対して収集し蓄積するログ情報の粒度及び内容と収集し蓄積する頻度との設定を指示する端末ログ収集蓄積指示手段と、ログ収集手段に対して端末機器から収集するログ情報の内容と収集頻度との設定を指示するログ収集指示手段とを含むログ収集システムが開示されている(要約参照)。
また、特許文献2(特開2019-28878号公報)には、所定の装置の構成部品に関する複数のログレコードを含む動作情報のうち、抽出対象とするログレコードの時間範囲と前記ログレコードのタイプ毎の優先レベルとを、メッセージ毎に記憶する記憶部と、メッセージを検出すると、前記記憶部を参照して、前記メッセージに応じた現時刻からの前記時間範囲および前記優先レベルに基づき、前記動作情報の中から前記ログレコードを抽出する処理部と、を有する情報処理装置が開示されている(請求項1参照)。
特開2012-198796号公報 特開2019-28878号公報
発生した障害が大きな損害を生む場合には、障害原因を効率よく、早急に追及する必要がある。前述した先行技術では、ログの収集を効率化しているが、ログの収集内容を決定する際に障害原因の特定順序が考慮されていない。例えば、パケットが転送されない障害が発生した場合に、ソフトウェアのバグの有無を検証した後に、ネットワークの設定ミスが発見された場合、設定ミスを修正した上で、ソフトウェアのバグの有無を再度検証する必要がある。この場合、設定ミスの有無を確認した上でソフトウェアのバグの有無を検証する順序の方が高効率である。本発明では、障害原因の特定順序を定めることによって、ダウンタイムを最小化する高効率な障害原因特定を実現するログ収集を可能とする。
本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、信号を転送する通信装置であって、所定の処理を実行する演算装置と、前記演算装置がアクセス可能な記憶装置とを備え、前記通信装置及び前記通信装置に接続される機器の少なくとも一方から第1の種類のログを収集するログ収集部と、前記収集されたログが所定の条件を満たす場合にアラートを生成するアラート生成部と、前記生成されたアラートに対応して障害原因候補を決定し、前記決定された障害原因候補に対応して定められる追加ログ収集順序に従って、第2の種類のログを収集するための追加ログ収集要求を前記ログ収集部に出力する障害原因候補決定部とを備えることを特徴とする。
本発明によれば、障害発生時にダウンタイムを最小化する高効率な障害原因特定を実現するログ収集を可能とする。前述した以外の課題、構成及び効果は、以下の実施例の説明によって明らかにされる。
実施例1の通信装置の構成の一例を示す図である。 実施例1の通信装置の構成要素間の入出力の一例を示す図である。 実施例1のログ収集条件管理テーブルの一例を示す図である。 実施例1のアラート条件管理テーブルの一例を示す図である。 実施例1の障害原因管理テーブルの一例を示す図である。 実施例1の優先度管理テーブルの一例を示す図である。 実施例1の障害原因候補決定部が実行する障害原因候補決定処理のフローチャートである。 実施例1の通信装置の設定情報管理画面の一例である。 実施例2の通信装置の構成の一例を示す図である。 実施例2の通信装置の構成要素間の入出力の一例を示す図である。 実施例2の追加収集管理テーブルの一例を示す図である。 実施例2の収集モード管理テーブルの一例を示す図である。 実施例2の収集モード決定部が実行する収集モード更新処理のフローチャートである。 実施例2の障害原因候補決定部及び追加収集管理部が実行する障害原因候補決定処理のフローチャートである。 実施例2の通信装置の追加収集管理画面及び条件変更画面の一例を示す図である。 実施例3の障害原因特定システムの構成の一例を示す図である。 実施例3の障害原因特定システムの構成要素の入出力の一例を示す図である。 実施例3のログ・アラート解析部が実行する障害原因候補決定処理のフローチャートである。 実施例4の障害原因特定システムの構成の一例を示す図である。 実施例4の障害原因特定システムの構成要素の入出力の一例を示す図である。 実施例5の障害原因特定システムの構成の一例を示す図である。 実施例5の障害原因特定システムの構成要素の入出力の一例を示す図である。
以下、本実施の形態について図面を参照して説明する。ただし、本発明は以下に示す実施例の記載内容に限定して解釈されるものではない。本発明の思想ないし趣旨から逸脱しない範囲で、その具体的構成を変更し得ることは当業者であれば容易に理解される。
以下に説明する発明の構成において、同一又は類似する構成又は機能には同一の符号を
付し、重複する説明は省略する。
<実施例1>
図1は、実施例1の通信装置の構成の一例を示す図である。
本実施例の通信装置100は、CPU110、メモリ120、通信インターフェース130及び入出力部140を有し、各構成要素は通信装置内ネットワーク150を介して接続される。通信装置内ネットワーク150は、その種別及び接続方式に限定されず、構成要素間を接続するネットワークの種別や接続方式は異なってもよい。
CPU110は、プログラムを実行する演算装置であり、プログラムを実行することによって、特定の機能を実現する機能部(ログ収集部111、アラート生成部112、障害原因候補決定部113)として動作する。CPU110がプログラムを実行して行う処理の一部を、他の演算装置(例えば、FPGA(Field Programmable Gate Array)、ASIC(Application Specific Integrated Circuit)などのハードウェア)で実行してもよい。以下の説明では、機能部を主語にした処理の説明は、CPU110が当該機能部を実現するプログラムを実行していることを意味する。
メモリ120は、通信装置100が機能を遂行するために必要なデータを格納する記憶装置である。メモリ120には、ログデータ121や、ログ収集部111、アラート生成部112、障害原因候補決定部113が参照する管理テーブル群122が格納される。
通信インターフェース130は、通信装置100が他の装置と通信するためのインターフェースである。通信インターフェース130は、例えばNIC(Network Interface Card)や、SIMカードが格納された無線通信モジュール等で構成される。
入出力部140は、通信インターフェース130を介して通信装置100の外部から入力された情報の処理、入力情報をメモリ120へ格納する処理、及び入力情報を他の構成要素に中継する処理を行う。また、入出力部140は、通信装置100の構成要素から情報を取得し、通信インターフェース130を介して外部に出力する処理を行う。
図2は、実施例1の通信装置100の構成要素間の入出力の一例を示す図である。
管理テーブル群122は、ログ収集条件管理テーブル201、アラート条件管理テーブル202、障害原因管理テーブル203及び優先度管理テーブル204を含む。
ログ収集部111は、ログ収集条件管理テーブル201を参照して、通信装置100及び通信インターフェース130を介して通信装置100に接続される機器からログを収集して、ログデータ121として保存する。
アラート生成部112は、アラート条件管理テーブル202及びログデータ121を参照して、ログデータ121がアラート条件管理テーブル202のアラート生成条件を満たす場合に、アラートを生成し、障害原因候補決定部113に通知する。
障害原因候補決定部113は、アラート生成部112よりアラートが通知されると、障害原因管理テーブル203及び優先度管理テーブル204を参照し、障害原因候補を決定し、障害種別に基づく優先度を決定する。さらに、障害原因候補決定部113は、決定した障害原因候補に応じてログ収集条件管理テーブル201、アラート条件管理テーブル202及び障害原因管理テーブル203を更新する。
以下に、各機能部が参照する管理テーブル群122の詳細を説明する。なお、管理テーブル群122に含まれる要素は一例であって、以下に説明する要素の一部を含ませなくてもよく、他の要素を含んでもよい。
図3は、ログ収集条件管理テーブル201の一例を示す図である。
ログ収集条件管理テーブル201には、ログ番号301、ログ名302、収集周期303及び収集フラグ304が記載される。ログ番号301には、ログを識別する番号が記載される。ログ名302には、ログを識別する名称が記載される。収集周期303には、ログを収集する周期が記載される。収集フラグ304には、その行のログを収集するかを制御するためのフラグが記載される。例えば、収集フラグ304の列に1が記載されている場合、ログ収集部111は、収集周期303に従ってその行のログを収集する。一方、収集フラグ304の列に0が記載されている場合、ログ収集部111はその行のログを収集しない。
図4は、アラート条件管理テーブル202の一例を示す図である。
アラート条件管理テーブル202には、アラート番号401、アラート名402、参照ログ403、条件404、チェック周期405及びアラートフラグ406が記載される。アラート番号401には、アラートを識別する番号が記載される。アラート名402には、アラートを識別する名称が記載される。チェック周期405には、アラート条件を検証する周期が記載される。アラートフラグ406には、その行のアラート条件を検証するかを制御するためのフラグが記載される。例えば、アラートフラグ406の列に1が記載されている場合、アラート生成部112は、チェック周期405に従ってその行のアラート条件を検証し、当該アラート条件を満たす場合にアラートを生成する。一方、アラートフラグ406の列に0が記載されている場合、アラート生成部112はその行のアラート条件を検証しない。
図5は、障害原因管理テーブル203の一例を示す図である。
障害原因管理テーブル203には、アラート名501、障害原因502、障害種別503、発生回数504、収集ログ505及び合致条件506が記載される。アラート名501にはアラート条件管理テーブル202のアラート名402の名称が引用され、障害原因502には障害原因を区別する名称が記載される。障害種別503には障害原因を分類した種別、例えばハードウェア、ソフトウェア、無線、設定ミス等が記載される。発生回数504には、その障害原因が候補として決定された累計回数が記載される。収集ログ505には、その行の障害原因502を特定するために必要なログ名302が記載される。合致条件506には、その行の収集ログ505がどのような条件の時に障害原因502が発生したと推定して障害原因候補として決定するかを、例えば、大なり、小なり、等号、不等号等と閾値等を用いて記載される。
図6は、優先度管理テーブル204の一例を示す図である。
優先度管理テーブル204には、優先度601及び障害種別602が記載される。優先度601には、その行に記載される障害種別602の優先度が記載される。障害種別602には、障害原因を分類した種別が記載される。障害種別602は障害原因管理テーブル203の障害種別503が引用される。
以下、図7(A)、図7(B)を参照して、実施例1において障害原因候補決定部113が実行する処理について説明する。
図7(A)は、実施例1の障害原因候補決定部113が実行する障害原因候補決定処理のフローチャートである。障害原因候補決定部113は動作を開始すると以下の手順を実行する。
S11:終了指示が入出力部140に入力されているかを判定し、終了指示が入力されている場合、動作を終了する。終了指示が入力されていない場合、ステップS12に処理を進める。
S12:アラート生成部112がアラートを生成しているかを判定し、アラートが生成されている場合、ステップS13に処理を進める。アラートが生成されていない場合、ステップS11に処理を戻す。
S13:アラート生成部112より生成されたアラートと障害原因管理テーブル203と優先度管理テーブル204とを参照して、障害原因候補を決定し、障害種別に基づく優先度を決定する。障害原因候補を決定する詳細な処理についてはステップS21からステップS28にて後述する。
S14:ステップS13にて決定された障害原因候補に関連する障害原因管理テーブル203の行における発生回数504の値に1を加える。
S15:ログ収集条件管理テーブル201を参照し、ステップS13にて決定された障害原因候補に関連するログの情報を更新する。例えば、候補として決定した障害原因502に関連する障害原因管理テーブル203の行の収集ログ505とログ収集条件管理テーブル201のログ名302とが一致するログ収集条件管理テーブル201の行において、収集周期303を最短の時間に変更し、収集フラグ304が0の場合、0から1に変更するテーブル更新処理を実行してもよい。
S16:アラート条件管理テーブル202を参照し、ステップS13にて決定された障害原因候補に関連するアラートの情報を更新する。例えば、候補として決定された障害原因502に関連する障害原因管理テーブル203の行のアラート名501とアラート条件管理テーブル202のアラート名402とが一致する行において、チェック周期405を最短の時間に変更してもよい。
次に、図7(B)を参照して、障害原因候補決定(S13)の詳細な処理について説明する。障害原因候補決定部113は障害原因候補決定(S13)において下記の手順を行う。
S21:障害原因管理テーブル203を参照し、アラート名501とステップS12において生成を検知したアラート名402とが一致する行を抽出する。優先度管理テーブル204と、抽出した行の障害種別503とを参照し、優先度が高い障害種別503の行の収集ログ505を追加収集リストに追加する。例えば、優先度管理テーブル204において障害種別602に記載されたハードウェアの優先度601が1であり、障害種別602に記載されたソフトウェアの優先度601が2である場合、抽出された行を上から順に参照し、はじめに、障害種別503がハードウェアと記載されている場合、収集ログ505を追加収集リストに追加してもよい。このように、優先度601に従って追加で収集するログの順序が定められる。本動作を抽出された行の終わりまで繰り返し、先頭に戻る。次に、障害種別503がソフトウェアと記載されている場合、障害原因502及び収集ログ505を追加収集リストの末尾に追加する。追加収集リストは行の要素に障害原因502及び収集ログ505が記載されたリストである。項目追加の際に追加収集リストがない場合、追加収集リストを作成する。
S22:ステップS21で作成された追加収集リストの情報を一行読み込み、記載された収集ログ505を収集する。例えば、発生回数504が多い行から優先して読み込むとよい。このようにすると、過去に頻繁に発生した障害を優先するように、追加で収集するログの順序が定められる。また、優先度601が下位の行を無視してもよい。
S23:ステップS22で収集された収集ログ505が、合致条件506を満たすかを判定する。合致条件506を満たす場合、ステップS24に処理を進める。合致条件506を満たさない場合、ステップS25に処理を進める。
S24:ステップS22で読み込んだ追加収集リストの行の障害原因502を障害原因リストの末尾に追加する。障害原因リストは障害原因502が列挙されたリストであり、項目追加の際に障害原因リストがない場合、障害原因リストを作成する。
S25:ステップS22で読み込んだ追加収集リストの行を参照し、読み込んだ行が追加収集リストの末尾である場合、ステップS26に処理を進める。読み込んだ行が追加収集リストの末尾でなかった場合、ステップS22に処理を戻す。
S26:ステップS22からステップS26の間に作成された障害原因リストを入出力部140へ送信する。入出力部140は通信インターフェース130を介して障害原因リストを出力する。例えば、入出力部140が障害原因リストを記載した電子メールを作成し、管理者のメールアドレスへ送信してもよい。また、通信装置100にネットワークを介して接続された端末のブラウザからアクセスした際に表示される画面を入出力部140が作成し、障害原因リストを表示してもよい。なお、本発明は上記の障害原因リストの出力方法に限定して解釈されるものではない。
S27:ステップS22からステップS26の間に作成された障害原因リストの項目数が0である場合、障害原因候補が決定できないので、ステップS28に処理を進める。障害原因リストの項目数が1以上である場合、障害原因候補決定処理(S13)を終了する。
S28:管理者への通知を入出力部140に指示し、入出力部140を介して管理者へ原因不明な障害が発生した旨を伝達する。例えば、入出力部140が原因不明な障害が発生した旨を伝える定型文を記載した電子メールを作成し、管理者のメールアドレスへ、通信インターフェース130を介して送信してもよい。また、ネットワークを介して接続された端末のブラウザからアクセスした際に表示される画面を入出力部140が作成し、原因不明な障害が発生した旨を伝えるエラーメッセージを表示してもよい。なお、本発明は上記の伝達手法に限定して解釈されるものではない。
以下に、通信装置100にネットワークを介して接続された端末が、ブラウザを介して通信装置100にアクセスした際に、入出力部140が表示する設定情報管理画面800について説明する。なお、本発明は以下に説明する設定情報管理画面800上の表示内容や操作内容に限定して解釈されるものではない。
図8は、通信装置100の設定情報管理画面800の一例を示す図である。
入出力部140は、管理テーブル群122を参照し、設定情報管理画面800を作成する。設定情報管理画面800には、ログ収集条件管理テーブル201、アラート条件管理テーブル202、障害原因管理テーブル203及び優先度管理テーブル204に記録された内容が表示される。
ログ収集条件管理テーブル201の内容は、ログ番号301、ログ名302、収集周期303及び収集フラグ304の各項目が対応付けられ、1行に一つのログ収集条件として表示される。
アラート条件管理テーブル202の内容は、アラート番号401、アラート名402、参照ログ403、チェック周期405及びアラートフラグ406の各項目が対応付けられ、1行に一つのアラート条件として表示される。また、条件404は、条件と閾値に分けて表示される。
障害原因管理テーブル203の内容は、アラート名501、障害原因502、障害種別503及び収集ログ505の各項目が対応付けられ、1行に一つの障害原因候補決定条件として表示される。また、合致条件506は、条件と閾値に分けて表示される。
優先度管理テーブル204の内容は、優先度601及び障害種別602の各項目が対応付けられ、1行に一つの優先度として表示される。
以下、設定情報管理画面800上での操作について説明する。
収集フラグのチェックボックス810は、ログ収集条件の各行に記載されたログの収集フラグ304の状態を表示し変更するために操作されるチェックボックスである。設定情報管理画面800の生成時にログ収集条件管理テーブル201の収集フラグ304が1の場合にチェック有のチェックボックスを表示し、収集フラグ304が0の場合にチェック無のチェックボックスを表示する。画面上でチェックボックス810をチェックすると収集フラグ304を1に更新でき、チェックを外すと収集フラグ304を0に更新できる。
設定情報管理画面800上にて、登録されたログ名302をログ名入力ボックス811で選択し、収集周期を収集周期入力ボックス812に入力した後、決定ボタン813を操作すると、ログ収集条件を新規に定義できる。
条件追加ボタン814の操作によって、ログ名入力ボックス811と、収集周期入力ボックス812と、決定ボタン813を新たに一項目ずつ表示できる。
条件削除ボックス815は、ログ収集条件を削除するために操作されるボタンであり、選択された行のログ収集条件を削除できる。
設定ファイル選択ボタン820の操作によってファイルを選択する画面を表示できる。このファイルを選択する画面において、ログ名302、収集周期303及び収集フラグ304をリスト化したファイルが選択でき、複数のログ収集条件が定義できる。
ログ定義追加ボタン821は、新しくログを定義するために操作されるボタンであり、ログを新たに定義し、ログ名入力ボックス811で選択可能なログを増加できる。例えば、ログ定義追加ボタン821の操作によって、ログ名302と、ログを取得するためのプログラムと、スクリプトのファイルパスとを入力可能な画面を表示して、入力に応じてログを新たに定義する。
チェックボックス830は各行に記載されたアラートのアラートフラグ406の状態を表示し変更するために操作されるチェックボックスである。設定情報管理画面800の生成時にアラート条件管理テーブル202のアラートフラグ406が1の場合にチェック有のチェックボックスを表示し、アラートフラグ406が0の場合にチェック無のチェックボックスを表示する。画面上でチェックボックス830をチェックするとアラートフラグ406を1に更新でき、チェックを外すとアラートフラグ406を0に更新できる。
設定情報管理画面800上にて、アラート名入力ボックス831にアラート名を入力し、参照ログ入力ボックス832にてログ名302を選択し、条件入力ボックス833にて大なり、小なり、等号、不等号等を選択し、閾値入力ボックス834に閾値を入力し、チェック周期入力ボックス835に周期を入力した後、決定ボタン836を操作すると、アラート条件を新規に定義できる。
ログ追加ボタン837は、一つのアラート名入力ボックス831に対して複数の参照ログ入力ボックス832と、条件入力ボックス833と、閾値入力ボックス834とを対応付けるために用いられる。すなわち、ログ追加ボタン837の操作によって、参照ログ入力ボックス832と、条件入力ボックス833と、閾値入力ボックス834を新たに一項目ずつ表示する。
条件追加ボタン838の操作によって、アラート名入力ボックス831と、参照ログ入力ボックス832と、条件入力ボックス833と、閾値入力ボックス834と、チェック周期入力ボックス835と、決定ボタン836を新たに一項目ずつ表示する。
条件削除ボックス839は、アラート条件を削除するために操作されるボタンであり、選択された行のアラート条件を削除できる。
設定ファイル選択ボタン840の操作によってファイルを選択する画面を表示できる。このファイルを選択する画面において、アラート番号401、アラート名402、参照ログ403、条件404、チェック周期405及びアラートフラグ406をリスト化したファイルが選択でき、複数のアラート条件が定義できる。
設定情報管理画面800上にて、障害原因入力ボックス851に障害原因を入力し、障害種別入力ボックス852にて障害種別503を選択し、アラート名入力ボックス853にてアラート名402を選択し、参照ログ入力ボックス854にてログ名302を選択し、条件入力ボックス855にて大なり、小なり、等号、不等号を選択し、閾値入力ボックス856に閾値を入力した後、決定ボタン857を操作すると、障害原因候補決定条件を新規に定義できる。
アラート追加ボタン858は、一つの障害種別入力ボックス852に対して複数のアラート名入力ボックス853を対応付ける場合に用いられる。すなわち、アラート追加ボタン858の操作によって、アラート名入力ボックス853を新たに一項目表示する。
ログ追加ボタン859は、一つの障害種別入力ボックス852に対して複数の参照ログ入力ボックス854と、条件入力ボックス855と、閾値入力ボックス856とを対応付けるために用いられる。すなわち、ログ追加ボタン859の操作によって、参照ログ入力ボックス854と、条件入力ボックス855と、閾値入力ボックス856を新たに一項目ずつ表示する。
条件追加ボタン860の操作によって、障害原因入力ボックス851と、障害種別入力ボックス852と、アラート名入力ボックス853と、参照ログ入力ボックス854と、条件入力ボックス855と、閾値入力ボックス856を新たに一項目ずつ表示する。
条件削除ボックス861は、障害原因候補決定条件を削除するために操作されるボタンであり、選択された行の障害原因候補決定条件を削除できる。
設定ファイル選択ボタン870の操作によってファイルを選択する画面を表示できる。このファイルを選択する画面において、アラート名501、障害原因502、障害種別503、収集ログ505及び合致条件506をリスト化したファイルが選択でき、複数の障害原因候補決定条件が定義できる。
設定情報管理画面800上にて、障害種別入力ボックス881に障害種別503を入力した後、決定ボタン882を操作すると、障害種別を新規に定義できる。
分類追加ボタン883の操作によって、障害種別入力ボックス881と決定ボタン882を新たに一項目ずつ表示できる。
種別削除ボックス884は、障害種別503を削除するために操作されるボタンであり、選択された行の障害種別503を削除できる。
優先度上昇ボタン885を操作すると、その行に表示された障害種別503の優先度601を一つ上げることができる。
設定更新ボタン890が操作されると、入出力部140は設定情報管理画面800上に表示された設定情報に従って管理テーブル群122を更新する。
以上に説明したように、実施例1によれば、アラートから障害原因候補を決定し、決定された障害原因候補の検証順序を決定することによって、ダウンタイムを最小化する高効率な障害原因特定を実現するログ収集を可能とする。また、障害発生時に継続的にログを収集する必要がある場合や、アラートを継続的に監視する必要がある場合のために、決定された障害原因候補に応じて、ログの収集条件やアラート生成条件を更新できる。
障害原因候補の検証順序は、事前に決定してもよいし、障害種別や障害の発生頻度等の障害履歴等を基に動的に決定してもよい。これらの設定は設定情報管理画面800等によってユーザが設定し、設定内容を確認できる。
本実施例では説明のため、ログの収集条件、アラート生成条件、障害原因候補の決定条件、及び優先度をテーブルで管理したが、ソフトウェア内部に保持する等、その管理手段によらず本実施例の効果が得られる。
<実施例2>
実施例2では、障害原因特定時の処理手順が異なる。実施例2では障害原因特定のためにログを収集する際に、通信装置の動作を阻害しないよう収集禁止条件を設ける機能と、ユーザが求める要件に応じて収集可否を決定する機能を追加する。以下、実施例2について実施例1との差異を中心に説明する。なお、実施例2において実施例1と同じ構成及び機能には同じ符号を付し、それらの説明は省略する。
図9は、実施例2の通信装置100の構成の一例を示す図である。
本実施例の通信装置100は、CPU110、メモリ120、通信インターフェース130及び入出力部140を有し、各構成要素は通信装置内ネットワーク150を介して接続される。
CPU110は、プログラムを実行する演算装置であり、プログラムを実行することによって、特定の機能を実現する機能部(ログ収集部111、アラート生成部112、障害原因候補決定部113、収集モード決定部901、追加収集管理部902)として動作する。CPU110がプログラムを実行して行う処理の一部を、他の演算装置(例えば、FPGA(Field Programmable Gate Array)、ASIC(Application Specific Integrated Circuit)などのハードウェア)で実行してもよい。以下の説明では、機能部を主語にした処理の説明は、CPU110が当該機能部を実現するプログラムを実行していることを意味する。
図10は、実施例2の通信装置100の構成要素間の入出力の一例を示す図である。
管理テーブル群122は、ログ収集条件管理テーブル201、アラート条件管理テーブル202、障害原因管理テーブル203、優先度管理テーブル204、追加収集管理テーブル1001及び収集モード管理テーブル1002を含む。
収集モード決定部901は、障害原因を特定する際に収集の傾向を決定付ける収集モードを決定する。収集モードとは、例えば、通信装置の稼働を優先するために収集に時間のかかるログの収集を停止するモードや、通信帯域を節約するためにデータ量の大きいログの収集を抑制するモードなどである。入出力部140を介して通信インターフェース130から受信する入力や、収集モード管理テーブル1002に記載の収集モードごとの合致条件1202によって、収集モードを決定できる。
追加収集管理部902は、障害原因候補決定部113が障害原因を特定する際に行う問い合わせに対して、追加収集管理テーブル1001のログ情報1102、追加収集可否1103及び収集禁止条件1104を参照し、修正した追加収集リストを返信する。問い合わせに対応する際には、収集モード決定部901に収集モードを問い合わせる。
図11は、追加収集管理テーブル1001の一例を示す図である。
追加収集管理テーブル1001には、ログ名1101、ログ情報1102、追加収集可否1103及び収集禁止条件1104が記載される。ログ名1101は、ログ名302と同一であり、ログ収集条件管理テーブル201に記載のログ名302が引用される。ログ情報1102には、ログ毎の情報、例えば、収集に必要な収集時間や収集されるログのデータ量などが記載される。追加収集可否1103には、ログ毎に、収集モード決定部901にて決定される収集モードにおける収集可否が記載される。収集禁止条件1104には、ログ毎に決定される収集を禁止する条件が記載される。例えば、WAN(Wide Area Network)に接続されていない状態ではWANに関する情報の収集を禁止する、重要なプロセスが稼働している際には収集時間が長いログの収集を禁止するなどである。
図12は、収集モード管理テーブル1002の一例を示す図である。
収集モード管理テーブル1002には、収集モード1201及び合致条件1202が記載される。収集モード管理テーブル1002に記載された収集モード以外に、通常時に適用されるデフォルトモードがあるとよい。収集モード1201には、収集モードの名称が記載される。合致条件1202には、収集モード毎に、条件を満たす場合に収集モードを切り替える条件が記載される。収集モードの切り替えは、例えば、CPUの使用率が80%を超えた場合に、通信装置の稼働を優先するモードに移行する等である。稼働優先モードでは、通信装置本来の動作を阻害しないように、収集時間が長いログの収集を抑制する。収集モードは、収集モード決定部901が切り替える。
以下に、収集モード決定部901が実行する処理について説明する。
図13は、収集モード決定部901が実行する収集モード更新処理のフローチャートである。収集モード決定部901は、収集モードの更新が許可されていない場合には現在の収集モードを変更せず、収集モードの更新が許可されている場合に一定の周期で収集モード更新処理を実行する。
S31:収集モード管理テーブル1002を管理テーブル群122から取得する。
S32:収集モード管理テーブル1002から一行を参照し、合致条件1202を満たすかを判定する。なお、収集モード管理テーブル1002の取得直後には先頭行から参照するとよい。合致条件1202を満たす場合、ステップS34に処理を進め、合致条件1202を満たさない場合、ステップS33に処理を進める。
S33:収集モード管理テーブル1002の次の行を参照し、ステップS32に処理を戻す。
S34:ステップS32で合致条件1202を満たす収集モード1201に、収集モードを変更する。
以下に、図14(A)、図14(B)を参照して、実施例2において障害原因候補決定部113及び追加収集管理部902が実行する処理について説明する。
図14(A)は、実施例2の障害原因候補決定部113と追加収集管理部902が実行する障害原因候補決定処理のフローチャートである。障害原因候補決定部113は、アラートを検知すると以下の手順を実行する。ただし、ステップS21からステップS28までは実施例1と同一の処理であるため、説明を省略する。
S41:ステップS21の後、追加収集リストを追加収集管理部902に送信し、ログ収集可否及び収集順序を考慮した追加収集リストを得る。その後、ステップS22以後の処理を実行する。
次に、図14(B)を参照して、追加収集リストの更新(S41)の詳細な処理について説明する。追加収集管理部902は、ステップS41で障害原因候補決定部113が発する問い合わせに対し、以下の問い合わせ対応手順を実行する。
S51:追加収集管理テーブル1001を参照し、受信した追加収集リストに記載されたログについて収集禁止条件1104を判定する。収集禁止条件1104を満たすログを追加収集リストから消去する。
S52:収集モード決定部901に収集モード1201を問い合わせ、現在の収集モード1201を得る。
S53:追加収集管理テーブル1001の追加収集可否1103を参照し、受信した追加収集リストに記載されたログについて、収集モード1201毎の収集可否に従って追加収集リストのログを削除する。その後、収集モード1201に応じてログ情報1102を参照し、収集順序を決定し、決定した収集順序に従って追加収集リストの順序を入れ替える。例えば、稼働優先モードでは、収集時間を参照し、時間が早い順に収集順序を決定するなどの動作である。最後に、作成した追加収集リストを障害原因候補決定部113に送信する。
以下に、通信装置100にネットワークを介して接続された端末が、ブラウザを介して通信装置100にアクセスした際に、入出力部140が表示する追加収集管理画面1500と、その画面上のインターフェースを介して表示する条件変更画面1510について説明する。なお、本発明は以下に説明する追加収集管理画面1500や条件変更画面1510上の表示内容や操作内容に限定して解釈されるものではない。
図15(A)は、通信装置の追加収集管理画面1500の一例を示す図であり、図15(B)は、条件変更画面1510の一例を示す図である。
入出力部140は、管理テーブル群122を参照し、追加収集管理画面1500を作成する。追加収集管理画面1500には、追加収集管理テーブル1001及び収集モード管理テーブル1002に記録された内容が表示される。
追加収集管理テーブル1001の内容は、ログ名1101、ログ情報1102、追加収集可否1103及び収集禁止条件1104の各項目が対応付けられ、ログ追加収集可否として表示される。
収集モード管理テーブル1002の内容は、収集モード1201及び合致条件1202が対応付けられ、モード自動変更条件として表示される。
以下、追加収集管理画面1500上での操作について説明する。
収集モード入力ボックス1501によって、収集モード1201を選択できる。収集モード入力ボックス1501にて選択可能な項目は、収集モードの他に、自動変更モードの項目が存在する。自動変更モードでは、収集モード決定部901の収集モードの更新を許可し、条件に合わせて動的に収集モード1201を切り替える。
参照情報入力ボックス1502によって、収集モード1201ごとに、追加収集管理部902がステップS53でログの収集順序の決定根拠とするログ情報1102を決定できる。収集順序は参照情報の昇順で決定される。なお、降順チェックボックス1503のチェックによって、収集順序は参照情報の降順で決定される。
条件変更ボタン1504の操作によって、条件変更画面1510(図15(B))が表示される。
追加収集管理画面1500上にて、収集モード入力ボックス1505に収集モード名を入力した後、決定ボタン1506を操作すると、新しい収集モード1201を定義できる。
収集モード追加ボタン1507の操作によって、収集モード入力ボックス1505と決定ボタン1506を新たに一項目ずつ表示できる。
収集可否決定チェックボックス1508は、各行に記載されたログの収集可否を表示し変更するためのチェックボックスであり、追加収集管理画面1500の生成時に追加収集管理テーブル1001の追加収集可否1103が可の場合にチェック有、否の場合にチェックなしのチェックボックスを表示する。画面上でチェックボックスをチェックすると追加収集可否1103を可に更新でき、チェックを外すと追加収集可否1103を否に更新できる。
条件変更画面1510では、参照ログ入力ボックス1511にてログ名1101を選択し、条件入力ボックス1512にて大なり、小なり、等号、不等号等の条件を選択し、値入力ボックス1513にて閾値を入力した後、条件変更完了ボタン1514を操作すると、合致条件1202や収集禁止条件1104を変更できる。
設定更新ボタン1509が操作されると、入出力部140は追加収集管理画面1500上に表示された設定情報に従って管理テーブル群122を更新する。
以上に説明したように、実施例2によれば、収集禁止条件1104によって、発生するはずのない障害原因の特定手順を除外できる。また、収集禁止条件1104と、モード毎の追加収集可否1103によって、通信装置へのユーザ要件に応じた障害原因特定手段を提供できる。例えば、産業機器の制御情報を送受信する通信装置100では、制御情報の通信を阻害することなく、障害原因を特定する必要がある。このような場合に、通信装置100のリソースを大きく消費するログの収集を停止する、軽い処理で済むログ収集を中心に原因特定を進める等の機能を切り替えて提供できる。さらに、収集モード1201を動的に切り替えることによって、時間ごとに変化するユーザ要件に適合する障害原因特定手段を提供できる。例えば、通信装置や通信装置に接続される機器が主体的に稼働し、リソースの使用率が高い就業時間内にて稼働優先モードとしてリソースの消費を抑制し、リソースの使用率が低い就業時間外にて障害原因を詳細に特定するなどの機能を提供できる。
今回は説明のため、追加収集条件及びモード変更条件をテーブルで管理したが、ソフトウェア内部に保持する等、その管理手段によらず本実施例の効果が得られる。
<実施例3>
実施例3では、複数の通信装置100に加え、監視サーバ1600を備える障害原因特定システムを提供する。監視サーバ1600は、複数の通信装置100から収集したログやアラートを参照し、障害原因候補を決定する。そして、決定された障害原因候補に応じて、複数の通信装置のログ収集条件やアラート条件を更新する。以下、実施例3について実施例1との差異を中心に説明する。なお、実施例3において実施例1と同じ構成及び機能には同じ符号を付し、それらの説明は省略する。
図16は、実施例3の障害原因特定システムの構成の一例を示す図である。
障害原因特定システムは、監視サーバ1600及び複数の通信装置100~10Nで構成される。
監視サーバ1600は、CPU1610、メモリ1620、通信インターフェース1630及び入出力部1640を有し、各構成要素は監視サーバ内ネットワーク1650を介して接続される。監視サーバ内ネットワーク1650は、その種別及び接続方式に限定されず、構成要素間を接続するネットワーク種別や接続方式は異なってもよい。
CPU1610は、プログラムを実行する演算装置であり、プログラムを実行することによって、特定の機能を実現する機能部(ログ・アラート受信部1611、ログ・アラート解析部1612)として動作する。CPU1610がプログラムを実行して行う処理の一部を、他の演算装置(例えば、FPGA(Field Programmable Gate Array)、ASIC(Application Specific Integrated Circuit)などのハードウェア)で実行してもよい。以下の説明では、機能部を主語にした処理の説明は、CPU1610が当該機能部を実現するプログラムを実行していることを意味する。
メモリ1620は、各通信装置100~10Nから収集したログデータ1621や、各通信装置100~10Nが持つ管理テーブル群122を通信装置ごとに格納した管理テーブルデータベース1622を格納する。
CPU1610が実行するプログラムは、リムーバブルメディア(CD-ROM、フラッシュメモリなど)又はネットワークを介して監視サーバ1600に導入され、非一時的記憶媒体である不揮発性の補助記憶装置(図示省略)に格納される。このため、監視サーバ1600は、リムーバブルメディアからデータを読み込むインターフェースを有するとよい。
監視サーバ1600は、一つの計算機上で、又は、論理的又は物理的に構成された複数の計算機上で構成される計算機システムであり、同一の計算機上で別個のスレッドで動作してもよく、複数の物理的計算機資源上に構築された仮想計算機上で動作してもよい。
実施例3の通信装置100~10Nは、CPU110、メモリ120、通信インターフェース130及び入出力部140を有する。
CPU110は、プログラムを実行する演算装置であり、プログラムを実行することによって、特定の機能を実現する機能部(ログ・アラート送信部1671、命令実行部1672)として動作する。CPU110がプログラムを実行して行う処理の一部を、他の演算装置(例えば、FPGA(Field Programmable Gate Array)、ASIC(Application Specific Integrated Circuit)などのハードウェア)で実行してもよい。以下の説明では、機能部を主語にした処理の説明は、CPU110が当該機能部を実現するプログラムを実行していることを意味する。
監視サーバ1600と複数の通信装置100~10Nとは、ネットワーク1660を介して接続される。ネットワーク1660は、その種別及び接続方式に限定されず、装置間を接続するネットワークの種別や接続方式は異なってもよい。
図17は、実施例3の障害原因特定システムの構成要素の入出力の一例を示す図である。
以下、監視サーバ1600の入出力や構成について説明する。
管理テーブルデータベース1622は、ログ収集条件データベース1701、アラート条件データベース1702、障害原因データベース1703及び優先度データベース1704を含む。
ログ収集条件データベース1701は、ログ収集条件管理テーブル201と同じ内容を通信装置100~10Nと関連付けて格納する。アラート条件データベース1702は、アラート条件管理テーブル202と同じ内容を通信装置100~10Nと関連付けて格納する。障害原因データベース1703は、障害原因管理テーブル203と同じ内容を通信装置100~10Nと関連付けて格納する。優先度データベース1704は、優先度管理テーブル204と同じ内容を通信装置100~10Nと関連付けて格納する。
ログ・アラート受信部1611は、通信インターフェース1630を介して、通信装置100~10Nからログ及びアラートを受信し、受信したログをログデータ1621に格納し、受信したアラートをログ・アラート解析部1612に通知する。
ログ・アラート解析部1612は、通信装置100~10Nから受信したログ及びアラートを解析し、解析の結果、テーブル更新指示を抽出して、抽出されたテーブル更新指示を管理テーブルデータベース1622に送信し、抽出されたテーブル更新指示を通信インターフェース1630を介して通信装置100~10Nに送信する。ここでログ及びアラートの解析は、例えば、複数の通信装置100~10Nのアラート及びログを参照した障害原因解析などである。
入出力部1640は、テーブル更新通知及び外部からの入力を通信インターフェース1630を介して受信し、管理テーブルデータベース1622を更新する。また、通信装置100~10Nの管理テーブル群122の更新指示を検知すると、通信装置100~10Nにテーブル更新通知を通信インターフェース1630を介して送信する。
障害原因データベース1703と優先度データベース1704には、監視サーバ1600のみが持つ、複数通信装置参照用の障害原因管理テーブル203及び優先度管理テーブル204が格納されている。ログ・アラート解析部1612は、複数の通信装置100~10Nからアラートが通知された場合に、障害原因候補を決定するために、これらの管理テーブル203、204を参照する。
以下、通信装置100~10Nの入出力や構成における実施例1との差異について説明する。
ログ・アラート送信部1671は、ログ収集部111が収集したログや、アラート生成部112が生成したアラートを、通信インターフェース130を介して、監視サーバ1600に送信する。
命令実行部1672は、監視サーバ1600より通信インターフェース130を介して受信した命令を実行する。
入出力部140は、管理テーブル群122の更新を検知すると、通信インターフェース130を介して監視サーバ1600にテーブル更新通知を送信する。また、入出力部140は、通信インターフェース130を介してテーブル更新通知を受信し、管理テーブル群122を更新する。
以下に、実施例3においてログ・アラート解析部1612が実行する処理について説明する。
図18は、実施例3のログ・アラート解析部1612が実行する障害原因候補決定処理のフローチャートである。ログ・アラート解析部1612は、動作を開始すると下記の手順を実行する。
S61:入出力部1640より終了指示が入力されているかを判定し、終了指示が入力されている場合、動作を終了する。終了指示が入力されていない場合、ステップS62に処理を進める。
S62:ログ・アラート受信部1611がアラートを受信しているかを判定し、複数の通信装置100~10Nから同一のアラートを受信している場合、ステップS63に処理を進める。複数の通信装置100~10Nから同一のアラートを受信していない場合、ステップS61に処理を戻す。
S63:監視サーバ1600のみが持つ、複数通信装置参照用の障害原因管理テーブル203と優先度管理テーブル204を参照し、アラートを送信した全通信装置を、通信装置ごとにログを参照し、障害原因候補決定処理を実行する。障害原因候補の決定には、実施例1の通信装置100と同様に、ステップS21からステップS28までの処理を実行する。
S64:複数通信装置参照用の障害原因管理テーブル203のうち、ステップS63にて決定された障害原因候補の行における発生回数504の値に1を加算する。
S65:ログ収集条件データベース1701を参照し、ステップS63にて障害原因候補を決定した通信装置のログ収集条件管理テーブル201における決定された障害原因候補に関連するログの情報を更新する。例えば、障害原因管理テーブル203において、候補として決定された障害原因502の行における収集ログ505と一致するログ収集条件管理テーブル201のログ名302を持つ行において、収集周期303を最短の時間に変更し、収集フラグ304が0の場合、0から1に変更するテーブル更新処理を実行する。
S66:アラート条件データベース1702を参照し、ステップS63にて障害原因候補を決定された通信装置のアラート条件管理テーブル202において、決定された障害原因候補に関連するアラートの情報を更新する。例えば、候補として決定された障害原因502の行におけるアラート名501と一致するアラート名402を持つアラート条件管理テーブル202の行において、チェック周期405を最短の時間に変更する。
以下に、監視サーバ1600にネットワークを介して接続された端末が、ブラウザを介して監視サーバ1600にアクセスした際に、入出力部1640が表示する画面での操作について説明する。
入出力部1640は、実施例1と同様の設定情報管理画面800を表示する。この時、ブラウザが参照するURL(Uniform Resource Locator)を変更することによって、設定表示・更新の対象とする通信装置100~10Nを変更できるとよい。
画面上の操作に関しては、実施例1と同一であるため、説明を省略する。
画面操作によって設定が更新された後、入出力部1640は、管理テーブルデータベース1622を更新すると共に、通信インターフェース1630を介して、参照された通信装置100~10Nにテーブル更新通知を送信する。
以上に説明したように、実施例3によれば、監視サーバ1600に集約されたログ・アラートを参照することによって、通信装置単体では検知が不可能な障害原因を検知できる。例えば、複数の通信装置100~10Nで無線通信区間のエラー率が上昇した際には、付近で干渉波が発生している可能性がある。通信装置単体ではエラー率上昇の原因が、アンテナの故障などの通信装置固有の問題か、複数の通信装置に影響する干渉波かの判断が困難である。しかし、本実施例の障害原因特定システムによると、複数の通信装置のエラー率上昇アラートを参照し、干渉波が原因であることを特定できる。
また、本実施例によれば、複数通信装置を参照する障害原因候補特定の優先度を決定できる。通信装置単体ではハードウェアやソフトウェアを疑う問題でも、通信装置100~10Nで複数の同一アラートが生成される場合には、無線通信やネットワークに関する不具合が原因であることが多い。このため複数通信装置を参照して障害原因候補を決定すると、ネットワークに関する障害原因候補を優先的に決定でき、高効率で障害原因候補を決定できる。
本実施例では説明のため、ステップS62にて複数の同一アラートを検知することを障害原因候補決定の起点としたが、起点となる条件を問わず、本実施例は同様の効果が得られる。例えば、監視サーバ1600上で通信装置100~10Nのログ情報1102を参照する条件検証動作を定義し、条件を満たす通信装置100~10Nを対象に障害原因候補を決定してもよい。
<実施例4>
実施例4では、実施例1において通信装置100で実行した処理を、監視サーバ1600にて実行する。以下、実施例1から実施例3との差異を中心に実施例4について説明する。なお、実施例4において、前述した実施例と同じ構成及び機能には同じ符号を付し、それらの説明は省略する。
図19は、実施例4の障害原因特定システムの構成の一例を示す図である。
障害原因特定システムは、監視サーバ1600と複数の通信装置100~10Nで構成される。
監視サーバ1600及び通信装置100~10Nの構成要素は実施例3と同一である。
CPU1610は、プログラムを実行する演算装置である。CPU1610は、プログラムを実行することによって、特定の機能を実現する機能部(ログ・アラート受信部1611、障害原因候補決定部1901)として動作する。ログ・アラート受信部1611の用途及び動作は実施例3と同一であるため、説明を省略する。
CPU110は、プログラムを実行する演算装置である。CPU110は、プログラムを実行することによって、特定の機能を実現する機能部(ログ収集部111、アラート生成部112、ログ・アラート送信部1671、命令実行部1672)として動作する。以下の説明では、機能部を主語にした処理の説明は、CPU110が当該機能部を実現するプログラムを実行していることを意味する。
ログ収集部111及びアラート生成部112の用途及び動作は実施例1と同一であり、ログ・アラート送信部1671及び命令実行部1672の用途及び動作は実施例3と同一であるため、説明を省略する。
図20は、実施例4の障害原因特定システムの構成要素の入出力の一例を示す図である。以下、実施例1及び実施例3との差異を中心に説明する。
障害原因候補決定部1901は、ログ・アラート受信部1611からアラート通知を受信すると、障害原因データベース1703と優先度データベース1704を参照し、障害原因候補を決定する。障害原因候補決定部1901は、障害原因候補を決定するために、ログの追加収集を通信インターフェース1630を介して通信装置100~10Nに指示する。さらに、候補として決定された障害原因に応じて、ログ収集条件データベース1701、アラート条件データベース1702及び障害原因データベース1703を更新する。
入出力部1640は、ログ収集条件データベース1701及びアラート条件データベース1702を参照し、ログ収集条件やアラート条件を通信インターフェース1630を介して通信装置100~10Nに送信する。
ログ収集部111及びアラート生成部112は、通信インターフェース130を介して受信したログ収集条件及びアラート条件に従って、ログを収集し、アラートを生成する。
以下に、実施例4において障害原因候補決定部1901が実行する処理について説明する。
障害原因候補決定部1901は、実施例1における障害原因候補決定部113と同一の処理を実行する。この処理において、管理テーブルデータベース1622から、アラートを生成した通信装置100~10Nの管理テーブル群122を参照する。
以上に説明したように、実施例4によれば、監視サーバ1600に通信装置100~10Nの機能を集約することによって、障害原因候補の決定に必要な通信装置100~10Nの使用リソース量を抑制した障害原因特定手段を提供できる。例えば、産業機器の制御情報を送受信する通信装置100~10Nでは、制御情報の通信を阻害することなく、障害原因を特定する必要がある。この際、障害原因候補決定処理が並列して実行されると、通信装置100~10Nのリソース使用率が高まり、制御情報の通信を阻害する可能性がある。実施例4のように監視サーバ1600上で障害原因候補を決定する処理を実行し、通信装置100~10Nが追加のログ収集を実行するので、リソース使用量を抑制し、制御情報の通信に失敗する可能性を低減できる。
<実施例5>
実施例5では、実施例4の処理に加えて、実施例2において通信装置100で実行した処理を、監視サーバ1600にて実行する。以下、実施例1から実施例3との差異を中心に実施例5について説明する。なお、実施例5において、前述した実施例と同じ構成及び機能には同じ符号を付し、それらの説明は省略する。
図21は、実施例5の障害原因特定システムの構成の一例を示す図である。
障害原因特定システムは、監視サーバ1600と複数の通信装置100~10Nで構成される。
監視サーバ1600及び通信装置100~10Nの構成要素は実施例4と同一である。
CPU1610は、プログラムを実行する演算装置である。CPU1610は、プログラムを実行することによって、特定の機能を実現する機能部(収集モード決定部2101、追加収集管理部2102)として動作する。ログ・アラート受信部1611の用途及び動作は実施例3と同一であるため、説明を省略する。
収集モード決定部2101及び追加収集管理部2102以外の機能部の動作や入出力は実施例4と同一であるため、説明を省略する。
図22は、実施例5の障害原因特定システムの構成要素の入出力の一例を示す図である。
管理テーブルデータベース1622は、追加収集管理データベース2201及び収集モードデータベース2202を含む。
追加収集管理データベース2201は、追加収集管理テーブル1001を格納する。収集モードデータベース2202は、収集モード管理テーブル1002と同じ内容を通信装置100~10Nと関連付けて格納する。
収集モード決定部2101は、障害原因候補を決定する際に収集の傾向を決定付ける収集モード1201を決定する。入出力部1640を介して通信インターフェース1630から受信する入力や、収集モードデータベース2202に格納された収集モード管理テーブル1002に記載された収集モード毎の合致条件1202を用いて、収集モード1201が決定される。
追加収集管理部2102は、障害原因候補決定部1901が障害原因候補を決定する際に行う問い合わせに対して、追加収集管理データベース2201に格納された追加収集管理テーブル1001のログ収集可否・収集順序や、収集禁止条件1104を参照し、修正された追加収集リストを返信する。問い合わせに対応する際には、収集モード決定部2101に収集モード1201を問い合わせる。
収集モード決定部2101は、実施例2における収集モード決定部901と同一の処理を実行する。
以下に、実施例5において障害原因候補決定部1901と追加収集管理部2102が実行する処理について説明する。処理の際に、管理テーブルデータベース1622から、収集モード1201を決定する通信装置100~10Nの収集モード管理テーブル1002を参照する。
障害原因候補決定部1901は、実施例2における障害原因候補決定部113と同一の処理を実行する。処理の際に、アラートを生成した通信装置の管理テーブル群122を、管理テーブルデータベース1622から参照する。
追加収集管理部2102は、実施例2における追加収集管理部902と同一の処理を実行する。処理の際に、アラートを生成した通信装置100~10Nの追加収集管理テーブル1001を、管理テーブルデータベース1622から参照する。
実施例5によれば、実施例4の効果に加え、発生するはずのない障害原因の特定手順を、収集禁止条件1104によって除去できる。また、収集禁止条件1104と、モード毎の追加収集可否1103によって、通信装置100~10Nのユーザ要件に応じた障害原因特定手段を提供できる。さらに、収集モード1201を動的に切り替えることによって、時間ごとに変化するユーザ要件に適合して障害原因を特定できる。
以上に説明したように、本発明の実施例の通信装置100は、通信装置100及び通信装置100に接続される機器の少なくとも一方から第1の種類のログを収集するログ収集部111と、収集されたログが所定の条件を満たす場合にアラートを生成するアラート生成部112と、生成されたアラートに対応して障害原因候補を決定し、候補として決定された障害原因に対応して定められる追加ログ収集順序に従って、第2の種類のログを収集するための追加ログ収集要求をログ収集部111に出力する障害原因候補決定部113とを備えるので、障害発生時にダウンタイムを最小化する高効率な障害原因特定を実現するログ収集が可能となる。
また、障害原因候補決定部113は、追加ログ収集要求に従って収集された第2の種類のログが所定の条件を満たすかによって、障害原因候補を特定するので、障害の原因が正確かつ迅速に特定できる。
また、障害原因候補決定部113は、候補として決定された障害原因に基づいて追加ログ収集順序を決定するので、システム要件に適する順序でログを収集できる。
また、障害原因候補決定部113は、過去の障害の情報に基づいて追加ログ収集順序を決定するので、発生頻度が高い障害を早期に検出できる。
また、通信装置100は、入力情報を受け付ける入出力部140を備え、入力情報に従って動作を変更し、構成要素の設定情報を更新するので、ログ収集条件及びアラート条件が外部からの入力によって設定可能となる。
また、障害原因候補決定部113は、候補として決定された障害原因と関連するログの収集条件の更新をログ収集部111へ指示し、ログ収集部111は、障害原因候補決定部113からの指示に従ってログの収集条件を更新するので、障害の発生状況に応じてログを収集できる。例えば、ログ収集間隔を短くすることによって障害状況を的確に把握できる。
また、障害原因候補決定部113は、候補として決定された障害原因と関連するアラートの生成条件の更新をアラート生成部112へ指示し、アラート生成部112は、障害原因候補決定部113からの指示に従ってアラートの生成条件を更新するので、障害の発生状況に応じて的確にアラートを生成できる。例えば、アラート周期を短くすることによって障害検出タイミングが早くなり、迅速に障害を検出できる。
また、入力情報に従って収集モードを決定する収集モード決定部901と、決定された収集モード毎に追加ログ収集に関する情報を管理する追加収集管理部902とを備え、障害原因候補決定部113は、追加収集管理部902からの情報に従って追加ログ収集順序及び追加ログ収集可否を決定するので、システム要件に適する障害の検出ができる。
また、収集モード決定部901は、収集モード切替条件を満たす場合に収集モードを変更するので、システムの実運用を阻害することなくログを収集できる。
また、障害原因候補決定部113は、追加ログ収集要求を出力する際に、追加収集管理部902に従って所定の条件を満たすログを収集しないように要求するので、本来の動作を邪魔することなくログを収集できる。
また、収集されたログ及び生成されたアラートを監視サーバ1600に送信するログ・アラート送信部1671と、監視サーバ1600から受信した命令を実行する命令実行部1672とを備え、監視サーバ1600は、通信装置100からログ及びアラートを受信し、1又は複数の通信装置100のログ及びアラートを参照することによって障害原因を絞り込み、設定情報の変更を通信装置100に指示するので、障害が発生している通信装置の数の情報を用いて障害原因候補を容易かつ正確に決定できる。また、複数の通信装置で発生している障害は重要度が高いことから迅速に障害に対応する契機となる。
また、本発明の実施例の監視サーバ1600は、通信装置100が取得した第1の種類のログに基づいて発生したアラートを受信するログ・アラート受信部1611と、生成されたアラートに対応して障害原因候補を決定し、候補として決定された障害原因に対応して定められる追加ログ収集順序に従って、第2の種類のログを収集するための追加ログ収集要求を通信装置100に出力する障害原因候補決定部1901とを備えるので、障害発生時にダウンタイムを最小化する高効率な障害原因特定を実現するログ収集が可能となる。また、通信装置100のリソースを圧迫せずに障害原因を特定できる。
なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。例えば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加・削除・置換をしてもよい。
また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。
各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、SSD(Solid State Drive)等の記憶装置、又は、ICカード、SDカード、DVD、BD等の記録媒体に格納することができる。
また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。
100~10N 通信装置
110、1610 CPU
120、1620 メモリ
130、1630 通信インターフェース
140、1640 入出力部
150 通信装置内ネットワーク
111 ログ収集部
112 アラート生成部
113、1901 障害原因候補決定部
121、1621 ログデータ
122 管理テーブル群
201 ログ収集条件管理テーブル
202 アラート条件管理テーブル
203 障害原因管理テーブル
204 優先度管理テーブル
800 設定情報管理画面
901、2101 収集モード決定部
902、2102 追加収集管理部
1001 追加収集管理テーブル
1002 収集モード管理テーブル
1500 追加収集管理画面
1600 監視サーバ
1650 監視サーバ内ネットワーク
1660 ネットワーク
1611 ログ・アラート受信部
1612 条件更新部
1622 管理テーブルデータベース
1671 ログ・アラート送信部
1672 命令実行部
1701 ログ収集条件データベース
1702 アラート条件データベース
1703 障害原因データベース
1704 優先度データベース
1902 命令生成部
2201 追加収集管理データベース
2202 収集モードデータベース

Claims (13)

  1. 信号を転送する通信装置であって、
    所定の処理を実行する演算装置と、前記演算装置がアクセス可能な記憶装置とを備え、
    前記通信装置及び前記通信装置に接続される機器の少なくとも一方から第1の種類のログを収集するログ収集部と、
    前記収集されたログが所定の条件を満たす場合にアラートを生成するアラート生成部と、
    前記生成されたアラートに対応して障害原因候補を決定し、前記決定された障害原因候補に対応して定められる追加ログ収集順序に従って、第2の種類のログを収集するための追加ログ収集要求を前記ログ収集部に出力する障害原因候補決定部とを備えることを特徴とする通信装置。
  2. 請求項1に記載の通信装置であって、
    前記障害原因候補決定部は、前記追加ログ収集要求に従って収集された第2の種類のログが所定の条件を満たすかによって、障害原因を特定することを特徴とする通信装置。
  3. 請求項1に記載の通信装置であって、
    前記障害原因候補決定部は、前記決定された障害原因候補の種別または分類に基づいて前記追加ログ収集順序を決定することを特徴とする通信装置。
  4. 請求項1に記載の通信装置であって、
    前記障害原因候補決定部は、過去の障害の情報に基づいて前記追加ログ収集順序を決定することを特徴とする通信装置。
  5. 請求項1に記載の通信装置であって、
    入力情報を受け付ける入出力部を備え、
    前記入力情報に従って動作を変更し、構成要素の設定情報を更新することを特徴とする通信装置。
  6. 請求項1に記載の通信装置であって、
    前記障害原因候補決定部は、前記決定された障害原因候補と関連するログの収集条件の更新を前記ログ収集部へ指示し、
    前記ログ収集部は、前記障害原因候補決定部からの指示に従って前記ログの収集条件を更新することを特徴とする通信装置。
  7. 請求項1に記載の通信装置であって、
    前記障害原因候補決定部は、前記決定された障害原因候補と関連するアラートの生成条件の更新を前記アラート生成部へ指示し、
    前記アラート生成部は、前記障害原因候補決定部からの指示に従ってアラートの生成条件を更新することを特徴とする通信装置。
  8. 請求項5に記載の通信装置であって、
    前記入力情報に従って収集モードを決定する収集モード決定部と、
    前記決定された収集モード毎に追加ログ収集に関する情報を管理する追加収集管理部とを備え、
    前記障害原因候補決定部は、前記追加収集管理部からの情報に従って前記追加ログ収集の順序及び前記追加ログ収集の可否を決定することを特徴とする通信装置。
  9. 請求項8に記載の通信装置であって、
    前記収集モード決定部は、収集モード切替条件を満たす場合に前記収集モードを変更することを特徴とする通信装置。
  10. 請求項1に記載の通信装置であって、
    ログの収集禁止条件を管理する追加収集管理部を備え、
    前記障害原因候補決定部は、前記追加ログ収集要求を出力する際に、前記追加収集管理部に従って所定の条件を満たすログを収集しないように要求することを特徴とする通信装置。
  11. 請求項1に記載の通信装置であって、
    設定情報の変更を前記通信装置に命令する監視サーバと接続されており、
    前記収集されたログ及び前記生成されたアラートを前記監視サーバに送信するログ・アラート送信部と、
    前記監視サーバから受信した命令を実行する命令実行部とを備えることを特徴とする通信装置。
  12. 通信装置の障害を監視する監視サーバであって、
    前記通信装置が取得した第1の種類のログに基づいて発生したアラートを受信するログ・アラート受信部と、
    前記発生したアラートに対応して障害原因候補を決定し、前記決定された障害原因候補に対応して定められる追加ログ収集順序に従って、第2の種類のログを収集するための追加ログ収集要求を前記通信装置に出力する障害原因候補決定部とを備えることを特徴とする監視サーバ。
  13. 信号を転送する通信装置を含む通信システムにおけるログ収集方法であって、
    所定の処理を実行する演算装置と、前記演算装置がアクセス可能な記憶装置とを備え、
    前記演算装置が、前記通信装置及び前記通信装置に接続される機器の少なくとも一方から第1の種類のログを収集するログ収集ステップと、
    前記演算装置が、前記収集されたログが所定の条件を満たす場合にアラートを生成するアラート生成ステップと、
    前記演算装置が、前記生成されたアラートに対応して障害原因候補を決定し、前記決定された障害原因候補に対応して定められる追加ログ収集順序に従って、第2の種類のログを収集するための追加ログ収集要求を出力する障害原因候補決定ステップとを含むことを特徴とするログ収集方法。
JP2020016744A 2020-02-04 2020-02-04 通信装置、監視サーバ及びログ収集方法 Active JP7387469B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2020016744A JP7387469B2 (ja) 2020-02-04 2020-02-04 通信装置、監視サーバ及びログ収集方法
US17/797,164 US20230047615A1 (en) 2020-02-04 2021-01-13 Communication Device, Surveillance Server, and Log Collection Method
EP21750870.4A EP4102782A4 (en) 2020-02-04 2021-01-13 COMMUNICATION DEVICE, MONITORING SERVER AND LOG COLLECTION METHOD
PCT/JP2021/000808 WO2021157299A1 (ja) 2020-02-04 2021-01-13 通信装置、監視サーバ及びログ収集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020016744A JP7387469B2 (ja) 2020-02-04 2020-02-04 通信装置、監視サーバ及びログ収集方法

Publications (3)

Publication Number Publication Date
JP2021125757A JP2021125757A (ja) 2021-08-30
JP2021125757A5 JP2021125757A5 (ja) 2022-07-01
JP7387469B2 true JP7387469B2 (ja) 2023-11-28

Family

ID=77199229

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020016744A Active JP7387469B2 (ja) 2020-02-04 2020-02-04 通信装置、監視サーバ及びログ収集方法

Country Status (4)

Country Link
US (1) US20230047615A1 (ja)
EP (1) EP4102782A4 (ja)
JP (1) JP7387469B2 (ja)
WO (1) WO2021157299A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11888679B2 (en) * 2020-09-25 2024-01-30 Juniper Networks, Inc. Hypothesis driven diagnosis of network systems
CN114500249B (zh) * 2022-04-18 2022-07-08 中国工商银行股份有限公司 一种根因定位方法和装置
CN115022162A (zh) * 2022-05-23 2022-09-06 安徽英福泰克信息科技有限公司 一种云服务器故障查漏系统及方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015121968A (ja) 2013-12-24 2015-07-02 三菱電機株式会社 ログ分析装置及びログ分析方法及びログ分析プログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8745703B2 (en) * 2008-06-24 2014-06-03 Microsoft Corporation Identifying exploitation of vulnerabilities using error report
JP5736881B2 (ja) * 2011-03-22 2015-06-17 日本電気株式会社 ログ収集システム、装置、方法及びプログラム
JP2017098870A (ja) * 2015-11-27 2017-06-01 株式会社日立製作所 ログ収集システム
JP6974703B2 (ja) 2017-08-02 2021-12-01 富士通株式会社 情報処理装置およびプログラム
US10560309B1 (en) * 2017-10-11 2020-02-11 Juniper Networks, Inc. Identifying a root cause of alerts within virtualized computing environment monitoring system
JP7117927B2 (ja) 2018-07-25 2022-08-15 岡野電線株式会社 2連連結光コネクタ保持具
JP7212245B2 (ja) * 2018-09-10 2023-01-25 日本電信電話株式会社 診断装置
US11488041B2 (en) * 2018-12-11 2022-11-01 Morgan Stanley Services Group Inc. System and method for predicting incidents using log text analytics
US11348023B2 (en) * 2019-02-21 2022-05-31 Cisco Technology, Inc. Identifying locations and causes of network faults

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015121968A (ja) 2013-12-24 2015-07-02 三菱電機株式会社 ログ分析装置及びログ分析方法及びログ分析プログラム

Also Published As

Publication number Publication date
EP4102782A4 (en) 2024-02-28
US20230047615A1 (en) 2023-02-16
WO2021157299A1 (ja) 2021-08-12
EP4102782A1 (en) 2022-12-14
JP2021125757A (ja) 2021-08-30

Similar Documents

Publication Publication Date Title
JP7387469B2 (ja) 通信装置、監視サーバ及びログ収集方法
US11513935B2 (en) System and method for detecting anomalies by discovering sequences in log entries
US9760468B2 (en) Methods and arrangements to collect data
US7661032B2 (en) Adjusting sliding window parameters in intelligent event archiving and failure analysis
US7827447B2 (en) Sliding window mechanism for data capture and failure analysis
US8819220B2 (en) Management method of computer system and management system
US11157373B2 (en) Prioritized transfer of failure event log data
JP5432867B2 (ja) 計算機システムの管理方法、及び管理システム
JP4573179B2 (ja) 性能負荷異常検出システム、性能負荷異常検出方法、及びプログラム
JP2005327261A (ja) 性能監視装置、性能監視方法及びプログラム
JP2009151680A (ja) 情報処理装置、ログ監視プログラム及びログ監視方法
US20150095488A1 (en) System and method for acquiring log information of related nodes in a computer network
JP2021125757A5 (ja)
JP2012022614A (ja) 計算機システムの管理方法、及び管理システム
US8473788B2 (en) Monitoring program, monitoring apparatus, and monitoring method
JP2009245154A (ja) シンプトンを評価するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
JP2008225599A (ja) トレース情報出力装置、および、トレース情報出力方法
JP2009025971A (ja) 情報処理装置、ログデータ収集システム
JP6065843B2 (ja) サービスレベル管理装置、プログラム、及び、方法
JP2017199250A (ja) 計算機システム、データの分析方法、及び計算機
KR101783201B1 (ko) 서버 통합 관리 시스템 및 방법
CN115495301A (zh) 一种故障处理方法、装置、设备及系统
JP6926646B2 (ja) 事業者間一括サービス管理装置および事業者間一括サービス管理方法
US11818028B2 (en) Network diagnostic sampling in a distributed computing environment
US20230097020A1 (en) Network safety rules in a distributed computing environment

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220623

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220623

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230627

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230725

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231031

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231115

R150 Certificate of patent or registration of utility model

Ref document number: 7387469

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150