JP3875509B2 - 異常検出方式、及び、異常検出システム - Google Patents

異常検出方式、及び、異常検出システム Download PDF

Info

Publication number
JP3875509B2
JP3875509B2 JP2001133996A JP2001133996A JP3875509B2 JP 3875509 B2 JP3875509 B2 JP 3875509B2 JP 2001133996 A JP2001133996 A JP 2001133996A JP 2001133996 A JP2001133996 A JP 2001133996A JP 3875509 B2 JP3875509 B2 JP 3875509B2
Authority
JP
Japan
Prior art keywords
health check
period
health
monitored device
long
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001133996A
Other languages
English (en)
Other versions
JP2002330191A (ja
Inventor
洋之 澤田
博文 中山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2001133996A priority Critical patent/JP3875509B2/ja
Publication of JP2002330191A publication Critical patent/JP2002330191A/ja
Application granted granted Critical
Publication of JP3875509B2 publication Critical patent/JP3875509B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は異常検出方式、及び、異常検出システムに関し、特に通信回線を介して接続された複数の装置間でデータの送受信を行うシステムにおいて、一方の装置から他方の装置における機能動作状況とその間の通信可否とをチェックする異常検出方式、及び、異常検出システムに関する。
【0002】
【従来の技術】
従来このような異常検出方法に関する技術として、一定の周期で被監視装置が提供する特定の機能が正常かどうかを監視装置から確認する、ヘルスチェックを行う方法が知られている。この監視装置から被監視装置に向けて行う動作確認のためのヘルスチェックは、例えば特開平8−223191号公報、特開平10−336177号公報、特開2000−115169号公報に記載されている。
【0003】
特開平8−223191号公報においては、送信したヘルスチェックデータに対する応答が所定待ち時間以内になければ、待ち時間を延長又は短縮して更新することによって、処理負荷の大小を考慮して装置の正常性を判断できるようにしている。
特開平10−336177号公報においては、ヘルスチェックのトラフィックを抑制して1回のヘルスチェックに要する時間を短縮している。
【0004】
特開2000−115169号公報においては、ヘルスチェックのトラフィックを抑制するために、ノードに対するポーリングを一部省略している。
以上の各公報に記載されているようなヘルスチェックでは、いずれの場合においても、監視装置が所定の間隔で、1つ又は複数の被監視装置に信号を送信し、被監視装置がその信号に応答して監視装置に応答信号を返信してくることを確認している。こうすることによって、被監視装置が正常に稼働していることを判断する。
【0005】
また、ヘルスチェックは前述した単純な方法のみでなく、必要に応じて、機能動作確認レベル等の様々なレベルで行われ、被監視装置が提供する特定の機能の正常かどうかを確認することもできる。機能動作確認レベルでのヘルスチェックを行うことにより、被監視装置が提供する特定の機能障害検出が可能となる。しかし、機能動作確認レベルでのヘルスチェックを行うと、逆にヘルスチェック処理における負荷が増加してしまう。
【0006】
このような場合には、ヘルスチェック処理がそれ以外の処理に対して影響を与えないような長周期でヘルスチェックを行う必要がある。しかし、ヘルスチェックを長周期で行うと、障害が発生した時点で直ちにその障害を検出することが困難となり、障害発生から障害の検出までの時間が長くなってしまう。
【0007】
【発明が解決しようとする課題】
従来の異常検出方式において、機能動作確認レベルでのヘルスチェックを行う場合には、ヘルスチェック処理がヘルスチェック以外の処理に対して影響を与えないような長周期でヘルスチェックを行う必要がある。一方、障害発生時の保守者への通知は、障害発生時点からより短時間で行われることが望ましい。
【0008】
このように、従来の異常検出方式において、機能動作確認レベルのヘルスチェックを行う場合、単純にヘルスチェック周期を短縮しただけではシステムのCPU負荷への影響が大きくなり、ヘルスチェック以外の処理に対して影響を与えることになるため、障害発生から障害検出までの時間が長くなってしまうという欠点があった。このような欠点は、上述した各特許公報に記載されている技術によっても解決することはできない。
【0009】
本発明は上述した従来技術の欠点を解決するためになされたものであり、その目的は被監視装置の異常をより旱期に検出することのできる異常検出方式、及び、異常検出システムを提供することである。
【0010】
【課題を解決するための手段】
本発明の請求項1による異常検出方式は、被監視装置の提供する特定の機能が正常かどうかについて通信回線を介して監視装置が確認する、確認内容が異なる第1及び第2のヘルスチェックを所定周期で行うことによってシステムの異常を検出する異常検出方式であって、前記第1及び第2のヘルスチェックのうち、ヘルスチェックが完了するまでに必要な時間が所定時間よりも長く、被監視装置が提供する特定の機能における機能動作障害の有無を検出する機能動作確認レベルヘルスチェックである長周期ヘルスチェックを第1の周期で行い、かつ、前記所定時間よりも短く、前記監視装置と前記被監視装置との間の通信における障害の有無を検出する通信可否確認レベルヘルスチェックである短周期ヘルスチェックを前記第1の周期より短い第2の周期で行い、前記第1及び第2のヘルスチェックが完了するまでに必要な時間に応じて該第1及び第2のヘルスチェックを行う周期を定めたことを特徴とする。
【0013】
本発明の請求項2による異常検出システムは、確認内容が異なる第1及び第2のヘルスチェックを、互いに異なる周期で行う第1及び第2のヘルスチェック実行手段を含み、前記第1及び第2のヘルスチェック実行手段のうちの一方は前記第1及び第2のヘルスチェックのうち、ヘルスチェックが完了するまでに必要な時間が所定時間よりも長く、被監視装置が提供する特定の機能における機能動作障害の有無を検出する機能動作確認レベルヘルスチェックである長周期ヘルスチェックを第1の周期で行い、かつ、前記第1及び第2のヘルスチェック実行手段のうちの他方は前記所定時間よりも短く、前記監視装置と前記被監視装置との間の通信における障害の有無を検出する通信可否確認レベルヘルスチェックである短周期ヘルスチェックを前記第1の周期より短い第2の周期で行うことを特徴とする。
【0014】
要するに本発明では、通信回線を介して接続され、相互に通信を行うシステムにおいて、ヘルスチェックが完了するまでに必要な時間に応じて、ヘルスチェックを分類して実行する。すなわち、長周期で被監視装置が提供する特定の機能障害を検出する、機能動作確認レベルヘルスチェック(以降、長期ヘルスチェックと呼ぶ)と、短周期で被監視装置がシステムダウンを起こしていないか等をチェックする、通信可否確認レベルヘルスチェック(以降、短期へルスチェックと呼ぶ)とに分類して実行する。このように、ヘルスチェックが完了するまでに必要な時間に応じてそのヘルスチェックを行う周期を定めることにより、従来のヘルスチェックにおける前述の課題を解決し、被監視装置の異常を旱期に検出できる。
【0015】
【発明の実施の形態】
次に、図面を参照して本発明の実施の形態について説明する。なお、以下の説明において参照する各図では、他の図と同等部分は同一符号によって示されている。
図1は本発明による異常検出方式を実現するために監視装置に設けるべき構成を示すブロック図である。同図に示されているように、本実施形態による異常検出方式においては、短周期で被監視装置がシステムダウンを起こしていないか等をチェックする、通信可否確認レベルヘルスチェックを行うためのヘルスチェックデータを出力する短期ヘルスチェック実行部11と、長周期で被監視装置が提供する特定の機能障害を検出する、機能動作確認レベルヘルスチェックを行うためのヘルスチェックデータを出力する長期ヘルスチェック実行部12と、これら両実行部に入力される時刻データを出力するタイマ10と、ヘルスチェックデータを被監視装置に送信すると共に被監視装置からの応答を受信する送受信部13とを含んで構成されている。
【0016】
このような構成において、短期ヘルスチェック実行部11及び長期ヘルスチェック実行部12は、タイマ10が出力する時刻データに応じてそれぞれ独立した周期でヘルスチェックデータを出力する。つまり、短期ヘルスチェック実行部11及び長期ヘルスチェック実行部12は、互いに異なる周期でヘルスチェックを行う。本例では、ヘルスチェックが完了するまでに必要な時間が所定時間よりも長い長周期ヘルスチェックを長期ヘルスチェック実行部12が第1の周期で行い、かつ、所定時間よりも短い短周期ヘルスチェックを短期ヘルスチェック実行部11が第1の周期より短い第2の周期で行う。長期ヘルスチェック実行部12から出力されるヘルスチェックデータ及び短期ヘルスチェック実行部11から出力されるヘルスチェックデータは、送受信部13によって伝送路網に送出され、被監視装置に送られることになる。
【0017】
図2には、本発明による異常検出方式を通信ネットワークシステムに採用した場合における、監視装置と被監視装置との間のヘルスチェック動作イメージが示されている。同図に示されているように、監視装置から被監視装置へのヘルスチェックには、比較的長い周期で行われる長期ヘルスチェックL1,L2と、長期ヘルスチェック同士の間に行われる短期ヘルスチェックS1,…,Snとがある。
【0018】
ここで、長期ヘルスチェックのチェック範囲は、長周期で被監視装置が提供する特定の機能障害を検出する、被監視装置における機能動作状況である。一方、短期ヘルスチェックのチェック範囲は、短周期で被監視装置がシステムダウンを起こしていないか等をチェックする、被監視装置のヘルスチェックプロセスによる応答である。この短期ヘルスチェックは、例えば、周知のPING(packet internet groper)コマンドによる確認に相当する。
【0019】
長期ヘルスチェックに対する応答が返ってくるまでにはある程度時間が必要になるので、その時間内に短期ヘルスチェックを行うことによって、システムダウン等の異常を早期に検出することができる。すなわち、長期ヘルスチェックの場合よりもはるかに短時間で応答が返ってくる短期ヘルスチェックを、長期ヘルスチェックよりも短い周期で頻繁に行うので、システムダウン等の重大な異常を早期に検出することができる。このように、本方式では、長期ヘルスチェックと短期ヘルスチェックとに分類し、それぞれ異なる周期で行うことにより、より早期に異常を検出することができるのである。
【0020】
ここで、長期ヘルスチェックにおいては、長期ヘルスチェック要求に対する応答がタイムアウトした時に異常を検出したとする。図3には、本発明における監視装置と被監視装置との間の長期ヘルスチェックによる異常検出動作が示されている。同図において、監視装置によって長期ヘルスチェックL1,L2,L3…が行われ、予め定められた時間内に被監視装置からの応答がなかった場合(タイムアウトした場合)に、その被監視装置に異常があると判断する。
【0021】
一方、短期ヘルスチェックにおいては、短期ヘルスチェック要求の応答がタイムアウトした時に異常を検出したとする。図4には、本発明における監視装置と被監視装置との間の短期ヘルスチェックによる異常検出動作が示されている。図において、監視装置によって短期ヘルスチェックS1,S2,S3…が行われ、予め定められた時間内に被監視装置からの応答がなかった場合に、その被監視装置に異常があると判断する。システムダウン等を起こしている場合等、予め定められた時間内に被監視装置からの応答がなかった場合(タイムアウトした場合)に、被監視装置に異常があると監視装置は認識することができる。なお、システムの復旧を検出した場合、その復旧が完了した旨を保守者に通知する。この復旧通知は、すべての異常が復旧したことを検出した時に行う。
【0022】
図5は本発明による異常検出方式を適用したネットワーク構成の例を示すブロック図である。同図に示されているネットワークは、伝送路網10を介して接続された4つの装置1〜4を含んで構成されている。このネットワークを構成する各装置1〜4は、相互にヘルスチェックを行うように構成されている。ヘルスチェックを行うため、各装置1〜4は、上述した図1に示されている構成をそれぞれ有しているものとする。
【0023】
なお、同図中の矢印は監視装置から被監視装置への監視方向を示している。すなわち、同図中の矢印の先端部分が被監視装置、矢印の根元部分が監視装置である。
同図において、装置1は装置2、装置4から上述したヘルスチェック信号を受信する(監視方向▲1▼、▲6▼)。監視装置である装置2、4は被監視装置1に対し、図2に示されている動作のヘルスチェックを行う。ここで行われるヘルスチェックは、上述した、図3及び図4に示されている異常検出動作である。
【0024】
また、被監視装置である装置1がシステムダウン等を起こしていると監視装置である装置2、4が認識している場合は、監視装置である装置2、4は被監視装置である装置1に対し、図4に示されている異常検出動作の短期へルスチェックを行う。システムの復旧を検出した場合、その復旧が完了した旨を保守端末5に通知する。この復旧通知は、すべての異常が復旧したことを検出した時に行う。ここで、保守端末5は装置1のシステム状態を監視する装置である。
【0025】
装置2、装置3、装置4についても、以上と同様にヘルスチェックが行われる(監視方向▲4▼及び▲5▼、監視方向▲3▼及び▲8▼、監視方向▲2▼及び▲7▼)。要するに、本例では、装置1〜4が監視装置又は被監視装置となり、相互にヘルスチェックを行うのである。また、保守端末6,保守端末7,保守端末8は、装置2,装置3,装置4のシステム状態をそれぞれ監視する装置である。
【0026】
なお、図5に示されているネットワーク構成以外のネットワーク構成についても、本発明が適用でき、異常を検出できることはもちろんである。
【0027】
【発明の効果】
以上説明したように本発明は、通信回線を介して接続されデータの送受信を行う複数の装置が存在する場合において、監視装置から被監視装置に向けて行う、被監視装置が提供する特定の機能が正常かどうかを確認する被監視装置についてのヘルスチェックを、長周期で被監視装置が提供する特定の機能障害を検出する機能動作確認レベルヘルスチェックと、短周期で監視装置がシステムダウンを起こしていないか等をチェックする通信可否確認レベルヘルスチェックとに分類し、監視装置が被監視装置に対して各々のヘルスチェックを実行することにより、被監視装置の異常を旱期に検出できるという効果がある。
【図面の簡単な説明】
【図1】本発明による異常検出方式を実現するために設けるべき構成を示すブロック図である。
【図2】監視装置と被監視装置との間における、ヘルスチェック動作を示す図である。
【図3】監視装置と被監視装置との間における、短期ヘルスチェックによる異常検出動作を示す図である。
【図4】監視装置と被監視装置との間における、長期ヘルスチェックによる異常検出動作を示す図である。
【図5】本発明による異常検出方式を適用したネットワーク構成の一例を示すブロック図である。
【符号の説明】
1,2,3,4 装置
5,6,7,8 保守端末
10 タイマ
11 短期ヘルスチェック実行部
12 長期ヘルスチェック実行部
13 送受信部

Claims (2)

  1. 被監視装置の提供する特定の機能が正常かどうかについて通信回線を介して監視装置が確認する、確認内容が異なる第1及び第2のヘルスチェックを所定周期で行うことによってシステムの異常を検出する異常検出方式であって、前記第1及び第2のヘルスチェックのうち、ヘルスチェックが完了するまでに必要な時間が所定時間よりも長く、被監視装置が提供する特定の機能における機能動作障害の有無を検出する機能動作確認レベルヘルスチェックである長周期ヘルスチェックを第1の周期で行い、かつ、前記所定時間よりも短く、前記監視装置と前記被監視装置との間の通信における障害の有無を検出する通信可否確認レベルヘルスチェックである短周期ヘルスチェックを前記第1の周期より短い第2の周期で行い、前記第1及び第2のヘルスチェックが完了するまでに必要な時間に応じて該第1及び第2のヘルスチェックを行う周期を定めたことを特徴とする異常検出方式。
  2. 確認内容が異なる第1及び第2のヘルスチェックを、互いに異なる周期で行う第1及び第2のヘルスチェック実行手段を含み、前記第1及び第2のヘルスチェック実行手段のうちの一方は前記第1及び第2のヘルスチェックのうち、ヘルスチェックが完了するまでに必要な時間が所定時間よりも長く、被監視装置が提供する特定の機能における機能動作障害の有無を検出する機能動作確認レベルヘルスチェックである長周期ヘルスチェックを第1の周期で行い、かつ、前記第1及び第2のヘルスチェック実行手段のうちの他方は前記所定時間よりも短く、前記監視装置と前記被監視装置との間の通信における障害の有無を検出する通信可否確認レベルヘルスチェックである短周期ヘルスチェックを前記第1の周期より短い第2の周期で行うことを特徴とする異常検出システム。
JP2001133996A 2001-05-01 2001-05-01 異常検出方式、及び、異常検出システム Expired - Fee Related JP3875509B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001133996A JP3875509B2 (ja) 2001-05-01 2001-05-01 異常検出方式、及び、異常検出システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001133996A JP3875509B2 (ja) 2001-05-01 2001-05-01 異常検出方式、及び、異常検出システム

Publications (2)

Publication Number Publication Date
JP2002330191A JP2002330191A (ja) 2002-11-15
JP3875509B2 true JP3875509B2 (ja) 2007-01-31

Family

ID=18981762

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001133996A Expired - Fee Related JP3875509B2 (ja) 2001-05-01 2001-05-01 異常検出方式、及び、異常検出システム

Country Status (1)

Country Link
JP (1) JP3875509B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102005033211A1 (de) 2005-07-13 2007-01-18 Deutsche Thomson-Brandt Gmbh Verfahren zur Feststellung der Aktivität eines Gerätes in einem Netzwerk verteilter Stationen sowie Netzwerkstation für die Durchführung des Verfahrens
JP2008134830A (ja) 2006-11-28 2008-06-12 Hitachi Ltd 節電機能と診断機能の両方を備えたストレージシステム
JP2012070033A (ja) * 2010-09-21 2012-04-05 Nakayo Telecommun Inc 端末監視機能を有する時刻サーバ

Also Published As

Publication number Publication date
JP2002330191A (ja) 2002-11-15

Similar Documents

Publication Publication Date Title
US20110035180A1 (en) Diagnostic apparatus and system adapted to diagnose occurrence of communication error
JP3454297B2 (ja) ネットワーク・スイッチ間のリンクをテストするための方法および装置
JP2006191338A (ja) バス内のデバイスの故障診断を行うゲートウエイ装置
US20090059810A1 (en) Network system
JP3875509B2 (ja) 異常検出方式、及び、異常検出システム
JP5665723B2 (ja) パケット中継装置およびシステム、障害検出方法
WO2020110446A1 (ja) 車両故障予測システム、監視装置、車両故障予測方法および車両故障予測プログラム
JPS6072351A (ja) パケツト通信システムの動作状態監視方法
JP4692419B2 (ja) ネットワーク装置及びそれに用いる冗長切替え方法並びにそのプログラム
JP2006325118A (ja) 監視データ収集システム
JP4099708B2 (ja) 通信経路の障害検出装置および方法
JP2004213412A (ja) 二重化制御装置
JP2006171995A (ja) 制御用計算機
JP2010028185A (ja) ネットワークノード、ネットワークシステムおよび輻輳検出方法
JP3910903B2 (ja) 制御パケットの受信方法及び受信装置
KR100250888B1 (ko) 분산 제어 시스템의 네트워크 점검 장치
JP2513121B2 (ja) シリアルバス用伝送装置
US7500154B2 (en) Method and system for generating a console log
JP2001297016A (ja) 命令実行システム
JP2006285845A (ja) 耐障害性を有する情報通信システムおよび耐障害性を有する情報通信装置
JPH02281368A (ja) 制御装置の故障検出機構
JP2001075935A (ja) プロセッサ間通信方法
JP2807043B2 (ja) 多重伝送装置
JP2004234183A (ja) 計算機制御装置のバスチェック方法およびシステム
KR930007469B1 (ko) 프로세서 정합 운용시 장애진단 및 복구방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040928

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051220

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060808

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060921

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061024

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061026

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091102

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101102

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111102

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121102

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees