JP2008310628A - 障害監視装置 - Google Patents

障害監視装置 Download PDF

Info

Publication number
JP2008310628A
JP2008310628A JP2007158471A JP2007158471A JP2008310628A JP 2008310628 A JP2008310628 A JP 2008310628A JP 2007158471 A JP2007158471 A JP 2007158471A JP 2007158471 A JP2007158471 A JP 2007158471A JP 2008310628 A JP2008310628 A JP 2008310628A
Authority
JP
Japan
Prior art keywords
failure
log
determination
monitored
severity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007158471A
Other languages
English (en)
Inventor
Nobuo Omori
信夫 大森
Hiroyuki Kojima
博行 小島
Yohei Mitate
要平 御舘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toppan Inc
Original Assignee
Toppan Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toppan Printing Co Ltd filed Critical Toppan Printing Co Ltd
Priority to JP2007158471A priority Critical patent/JP2008310628A/ja
Publication of JP2008310628A publication Critical patent/JP2008310628A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Small-Scale Networks (AREA)

Abstract

【課題】実際に通信を行っている状態でも使用可能で、的確な判断を行うことが可能な障害監視装置の提供する。
【解決手段】被監視装置の動作を示す動作情報を有するログ情報を記録したログファイルを取得するログ取得部と、前記ログファイルに記録されたログ情報内に含まれる動作情報を参照し障害が発生していることを示すログ情報を抽出する抽出部と、前記抽出されたログ情報に示される障害の種類に応じて重度を決定する重度決定部と、前記重度決定部による決定の結果求められた重度を一定期間積算して積算量を求めて障害の判断を行う判断部と、を備えることを特徴とする障害監視装置を提供する。
【選択図】図1

Description

本発明は、LANなどの被監視装置のネットワークや被監視装置間のネットワークの障害を監視する障害監視装置に関する。
従来、LANの障害監視においては、ダミー通信を行い、そのダミー通信の可否により障害の有無を監視していた。
この場合、ダミー通信は、その通信量が多いと実際の動作に用いているアプリケーション通信などの通信を圧迫してしまう場合があった。このため、ネットワークの通信帯域を圧迫しない様に、アプリケーションに比べて少ない通信量にて行っていた。
このため、ダミー通信による障害監視方法では、LAN障害が発生しているにもかかわらず異常が検出できない場合があった。その様な問題点はダミー通信の通信比率を上げることである程度解消するものであるが、そうするとLAN帯域を圧迫し、アプリケーション通信の障害原因となってしまう。つまり、ダミー通信だけでは障害検出に限界があることと、検出可能性を高めるためには相応のネットワークに負荷をかける必要があり、ネットワーク帯域を専有してしまうなどの状態が発生し、ダミー通信自体が障害原因となってしまうという問題点が発生していた。
また、特許文献1の様な、医療機関などの施設に設置された業務システムの多くでは、当該システム内で発生した障害やシステムの稼働状態などを通知するためのログ情報が、時刻の経過順にログファイル内に記録されることを利用し、監視対象となる客先側システム内のアプリケーションの操作手順をログファイルに記録していることを利用し、業務施設に設置された装置に発生する障害を監視する障害監視装置が公知である。すなわち、業務施設に設けられた複数の被監視装置のそれぞれの動作を示す動作情報を有するログ情報を記録したログファイルを前記被監視装置ごとに取得するログ取得部と、前記複数のログファイルに記録されたログ情報内に含まれる動作情報を参照し障害が発生していることを示すログ情報を抽出する抽出部と、前記抽出されたログ情報に示される動作に付随する付随情報データどうしを比較する比較部と、前記比較部による比較の結果、前記付随情報データどうしの一致性を判断する判断部と、前記一致性があると判断された付随情報データを有するログ情報どうしを関連付ける関連付け部とを備えることを特徴とする障害監視装置などである。
これによれば、保守担当者による障害原因の解析作業を省くことができ、その結果、保守担当者の保守作業に係る負担を軽減できるものであった。
特開2006−190002号公報
ところで、上記特許文献1においては、障害原因の解析は自動的に行えるが、この障害原因には各種のものがあり、すべての障害の総量を障害の有無の判断対象とすれば通信障害以外の原因による障害や、通信障害とすべきではない些細な事故をも障害と判断してしまい、必要以上の障害警報などを出す結果となってしまう。他方、重大な障害のみを通信障害とすれば、その様な障害発生の確率は低く、統計として用いる障害監視システムとしては有用であるが、オンラインで利用する稼動中の通信環境を判断するのに用いることができる様なものではなかった。
本発明はこうした課題に鑑みてなされたものであり、その目的は、実際に通信を行っている状態でも使用可能で、的確な判断を行うことが可能な障害監視装置の提供にある。
請求項1に係る本発明は、被監視装置の動作を示す動作情報を有するログ情報を記録したログファイルを取得するログ取得部と、
前記ログファイルに記録されたログ情報内に含まれる動作情報を参照し障害が発生していることを示すログ情報を抽出する抽出部と、
前記抽出されたログ情報に示される障害の種類に応じて重度を決定する重度決定部と、
前記重度決定部による決定の結果求められた重度を一定期間積算して積算量を求めて障害の判断を行う判断部と、
を備えることを特徴とする障害監視装置を提供するものである。
被監視装置としては、内視鏡装置などの医療機器、PC(Personal Computer)、PDA(Personal Digital Assistant)などの端末、当該端末と通信するサーバなどが挙げられる。
また、ログファイルとは各被監視装置の動作を示す動作情報を有するものであり、例えば各アプリケーションが動作記録を出力したテキストファイル等の可読ファイルであり、一般的には各アプリケーションに依存したものである。
動作情報は、アプリケーションが通信リトライを行ったことを示すメッセージ、アプリケーションが通信に失敗したことを示すメッセージ、通信異常を起因としたアプリケーションのイレギュラー動作を示すメッセージなどで代表される、その障害が発生して、その内容が判別できるものであり、通信遅延の様な軽度なものを含むのが一般的であり、また、この様な場合、その遅延時間等の情報を含むのが好ましい。さらに、その障害において通信相手である被監視装置を特定する情報を含むのが好ましいが、障害によってTCP/IPエラーの様な通信相手を特定することができない情報を含むものであってもかまわず、これらの情報を含む方が好ましい。また、抽出、つまり障害に当たるかの判断は、その環境、例えばネットワーク環境により変えることも可能である。例えば、遅延時間が何秒以上で障害と判別するかなどは適宜設定できる様にしても構わない。
障害の重度は、一般的にはその種類により予め定めるのが一般的であるが、書き換え可能にしておく、もしくは発生頻度により可変にすることを排除するものではない。なお、この障害の重度は数値化されるが、1から5の様な適宜の自然数で定めてもよく、統計的に実障害との相関を求めてもよく、障害間に相関があるなら、適宜変更可能な数値でもよく、障害の種類だけで定めず、遅延時間のような場合には遅延時間と係数を掛け合わせて重度を求めてもよい。
また、積算する一定期間は、1分単位などその通信速度、許容帯域幅、障害発生頻度など多くの条件によって適宜定めることができる。このときの期間に含めるか否かは、そのログファイル収集時間で定めても、そのログファイルのタイムスタンプにより判定するなど適宜設定してもよい。
なお、監視結果は、その監視装置に表示するものや、警告音を発するものでもよいが、保守担当者に自動発信したり、利用者に発信するようなものでも構わない。
これによれば、障害が発生したことをネットワークなどに負荷を掛けることなく、しかも検出率を向上でき、的確に障害を把握可能になった。その結果、保守担当者は通信状況
の現状を的確に、しかも即時に把握可能になり、障害原因の特定や早期の対応を効率よく行うことができ、保守作業に係る負担を軽減できる。また、利用者にこの状況を発信する場合は、通信状況を把握して効率のよい作業を行うことができる。
請求項2に係る本発明は、前記障害の判断が、積算量の閾値を超えたか否かにより障害の有無を判定することを特徴とする請求項1に記載の障害監視装置を提供するものである。
これにより、警報などの具体的利用方法に即した障害監視装置を提供することができる。
請求項3に係る本発明は、前記被監視装置を複数有し、障害の判断を被監視装置ごとに行うことを特徴とする請求項1または2に記載の障害監視装置を提供するものである。
これにより、総合的監視や、部分的な監視など、多くの本発明の利用態様が可能になる。
請求項4に係る本発明は、障害の判断を被監視装置間のネットワークごとに行うことを特徴とする請求項1から4何れかに記載の障害監視装置を提供するものである。
これにより、具体的障害箇所の特定が容易になるとともに、障害状況が精度良く監視可能になる。
請求項5に係る本発明は、前記ネットワークがLAN(ローカルエリアネットワーク)であることを特徴とする請求項4記載の障害監視装置を提供するものである。
LANの障害は、周辺ノイズ等の影響により確率的に発生する場合が多いので、特に利用価値が高い。
請求項6に係る本発明は、障害の判断を被監視装置のアプリケーションごとに行うことを特徴とする請求項1から5何れかに記載の障害監視装置を提供するものである。
これにより、障害がアプリケーションに依存している場合もあり、効果が高い。
請求項7に係る本発明は、前記ログ取得に際して、前記被監視装置を特定不可能な障害についても重度を決定し、積算対象とする請求項1から6何れかに記載の障害監視装置を提供するものである。
これにより、判定の基礎になる動作情報を増やすことができ、判断精度を高めることができる。
本発明によれば、障害が発生したことをネットワークなどに負荷を掛けることなく、しかも検出率を向上でき、的確に障害を把握可能になった。その結果、保守担当者は通信状況の現状を的確に、しかも即時に把握可能になり、障害原因の特定や早期の対応を効率よく行うことができ、保守作業に係る負担を軽減できる。また、利用者にこの状況を発信する場合は、通信状況を把握して効率のよい作業を行うことができる。
図1は、実施の形態に係る障害監視装置の具体例を示す。この障害監視装置10は、被
監視装置としてパソコンを用い、LAN環境の障害監視を行う場合で説明する。当然、WAN等でも応用可能である。LAN1は、この障害監視装置10と被監視装置であるパソコン20、そのパソコン20と交信するサーバ21等との間でネットワークを形成しているものとする。
なお、パソコン20ではLAN異常関連情報を出力するアプリケーションが起動しているものとする。これに対し障害監視装置10では、パソコン20内で予め設定されたファイルのタイムスタンプをネットワーク経由で順次定期的に監視し、更新がある場合のみログファイル23の収集を行う。
監視するタイミングは、例えばLANに負荷がかからない範囲などで設定する。本形態の場合のログファイルとして各アプリケーションが動作記録を出力したテキストファイル等の可読ファイルである場合、特に各アプリケーションに依存した場合で以下説明する。
以上の結果収集されたログファイルの集合24の中から、LANの異常関連情報抽出11をする。LAN異常関連情報の抽出方法は、テキストベースのパターンマッチングによる。抽出したいテキストのパターンは、事前に設定しておくものとする(各アプリケーションごとにテキストパターンは異なるため、必要な種類のパターンを事前に設定しておく)。
次に、LAN異常関連情報のパターンごとに、異常の重度に応じた重み付けを行なう。異常の重度は、上記のテキストパターンと同時に、あらかじめ設定しておく。異常の重度としては、以下のようなものを想定(アプリケーションごと個別の重度を設定することも可能)している。
(ア)LAN通信異常の疑いがあることを示すテキストパターン(通信時間の遅延など)…重度1
(イ)通信リトライが発生したことを示すテキストパターン…重度3
(ウ)通信に失敗したことを示すテキストパターン…重度5
その上で、通信相手ごとに分類して、集計する。通信相手が特定できないメッセージについては、通信相手不明として集計する。通信相手の判定は、上記aのテキストパターンと同時に、あらかじめ設定しておくものとする。
その上で、集計し、集計結果の数値があらかじめ閥値を超えた場合、LAN異常と判断し、警告を発する。集計結果は一定期間ごとにクリアするものとする。これは、一過性のノイズ等の影響が蓄積されるのをさけるためである。
抽出パターンおよび重度の設定例としては、表1の様なものが使用できる。
これを用いた抽出後のメッセージ例としては、表2の様な場合を示す。
集計結果例としては、表3の様なものになる。
この集計例の場合で、閥値が6であった場合、AとBの間のネットワークに異常がある場合は異常信号12の警告が発せられる。
以下に表を示す。
Figure 2008310628
Figure 2008310628
Figure 2008310628
本実施の形態に係る障害通知システムの全体構成を示す図である。
符号の説明
1 LAN
10 障害監視装置
11 異常関連情報抽出
12 異常信号
20 パソコン
21 サーバ
22 通信
23 ログファイル
24 ログファイルの集合

Claims (7)

  1. 被監視装置の動作を示す動作情報を有するログ情報を記録したログファイルを取得するログ取得部と、
    前記ログファイルに記録されたログ情報内に含まれる動作情報を参照し障害が発生していることを示すログ情報を抽出する抽出部と、
    前記抽出されたログ情報に示される障害の種類に応じて重度を決定する重度決定部と、
    前記重度決定部による決定の結果求められた重度を一定期間積算して積算量を求めて障害の判断を行う判断部と、
    を備えることを特徴とする障害監視装置。
  2. 前記障害の判断が、積算量の閾値を超えたか否かにより障害の有無を判定することを特徴とする請求項1に記載の障害監視装置。
  3. 前記被監視装置を複数有し、障害の判断を被監視装置ごとに行うことを特徴とする請求項1または2に記載の障害監視装置。
  4. 障害の判断を被監視装置間のネットワークごとに行うことを特徴とする請求項1から4何れかに記載の障害監視装置。
  5. 前記ネットワークがLAN(ローカルエリアネットワーク)であることを特徴とする請求項4記載の障害監視装置。
  6. 障害の判断を被監視装置のアプリケーションごとに行うことを特徴とする請求項1から5何れかに記載の障害監視装置。
  7. 前記ログ取得に際して、前記被監視装置を特定不可能な障害についても重度を決定し、積算対象とする請求項1から6何れかに記載の障害監視装置。
JP2007158471A 2007-06-15 2007-06-15 障害監視装置 Pending JP2008310628A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007158471A JP2008310628A (ja) 2007-06-15 2007-06-15 障害監視装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007158471A JP2008310628A (ja) 2007-06-15 2007-06-15 障害監視装置

Publications (1)

Publication Number Publication Date
JP2008310628A true JP2008310628A (ja) 2008-12-25

Family

ID=40238164

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007158471A Pending JP2008310628A (ja) 2007-06-15 2007-06-15 障害監視装置

Country Status (1)

Country Link
JP (1) JP2008310628A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010218073A (ja) * 2009-03-16 2010-09-30 Nec Corp 上位処理装置、データ処理システム、コンピュータプログラム、データ処理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000089981A (ja) * 1998-09-16 2000-03-31 Hitachi Commun Syst Inc 障害発生自動判定方法
JP2005167347A (ja) * 2003-11-28 2005-06-23 Fujitsu Ltd ネットワーク監視プログラム、ネットワーク監視方法、およびネットワーク監視装置
JP2006190002A (ja) * 2005-01-04 2006-07-20 Olympus Corp 障害監視装置および方法
JP2006338069A (ja) * 2005-05-31 2006-12-14 Hitachi Ltd コンポーネントソフトウェアの運用方法および運用基盤

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000089981A (ja) * 1998-09-16 2000-03-31 Hitachi Commun Syst Inc 障害発生自動判定方法
JP2005167347A (ja) * 2003-11-28 2005-06-23 Fujitsu Ltd ネットワーク監視プログラム、ネットワーク監視方法、およびネットワーク監視装置
JP2006190002A (ja) * 2005-01-04 2006-07-20 Olympus Corp 障害監視装置および方法
JP2006338069A (ja) * 2005-05-31 2006-12-14 Hitachi Ltd コンポーネントソフトウェアの運用方法および運用基盤

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010218073A (ja) * 2009-03-16 2010-09-30 Nec Corp 上位処理装置、データ処理システム、コンピュータプログラム、データ処理方法

Similar Documents

Publication Publication Date Title
CN109783262B (zh) 故障数据处理方法、装置、服务器及计算机可读存储介质
EP2759938A1 (en) Operations management device, operations management method, and program
CN112712113B (zh) 一种基于指标的告警方法、装置及计算机系统
US9547545B2 (en) Apparatus and program for detecting abnormality of a system
JP2007172131A (ja) 障害予測システム、障害予測方法、障害予測プログラム
US10833921B2 (en) Information processing apparatus and abnormality diagnosis method
JP5768983B2 (ja) 契約違反予測システム、契約違反予測方法および契約違反予測プログラム
CN110727533A (zh) 一种告警的方法、装置、设备和介质
JP2008059102A (ja) コンピュータ資源監視プログラム
CN114202238A (zh) 供电设备健康度评估方法、运维方法、装置及服务器
WO2019218875A1 (zh) 单台在网设备风险评估方法及系统
JP2016004298A (ja) ポンプ異常検知システム、ポンプ異常検知方法、及びポンプ異常検知プログラム
CN113391611B (zh) 动力环境监控系统的预警方法、装置及系统
JP5503177B2 (ja) 障害情報収集装置
JP2008310628A (ja) 障害監視装置
JP6832890B2 (ja) 監視装置、監視方法、及びコンピュータプログラム
JP2004348640A (ja) ネットワーク管理システム及びネットワーク管理方法
CN112835780B (zh) 一种业务检测方法及装置
JP2018191217A (ja) データ監視装置、データ監視方法及びデータ監視プログラム
JP2014010538A (ja) 運用管理装置、運用管理システム及び運用管理方法
CN104756448A (zh) 信息处理装置、信息处理方法和程序
CN106685694B (zh) 一种信息系统告警相关性分析方法及系统
JP4396509B2 (ja) メモリエラー管理システム
JP2003345629A (ja) システム監視装置及びそれに用いるシステム監視方法並びにそのプログラム
US20230069206A1 (en) Recovery judgment apparatus, recovery judgment method and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100524

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110524

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110930

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111018

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111202

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120327