JP2001005795A - 分散システムにおける異常検出方法 - Google Patents

分散システムにおける異常検出方法

Info

Publication number
JP2001005795A
JP2001005795A JP11170970A JP17097099A JP2001005795A JP 2001005795 A JP2001005795 A JP 2001005795A JP 11170970 A JP11170970 A JP 11170970A JP 17097099 A JP17097099 A JP 17097099A JP 2001005795 A JP2001005795 A JP 2001005795A
Authority
JP
Japan
Prior art keywords
communication data
abnormality
network
satisfied
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11170970A
Other languages
English (en)
Inventor
Masaru Nozaki
野▲崎▼  賢
Jun Shimabukuro
潤 島袋
Ryota Sanbe
良太 三部
Chiaki Hirai
千秋 平井
Masumi Kawakami
真澄 川上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP11170970A priority Critical patent/JP2001005795A/ja
Publication of JP2001005795A publication Critical patent/JP2001005795A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】個々の装置に異常の検出と報告を行う機能を備
えずに、分散システム内の異常の有無を検出する。 【解決手段】ネットワーク10上を流れる通信データ間
で満たすべき関係を記述した判定規則テーブルを備えた
異常検出装置100をネットワーク10上に設ける。異
常検出装置100は、ネットワーク10上を流れる通信
データを傍受することにより判定規則テーブルに記述さ
れた関係が満たされているかどうかを監視し、関係が満
たされなかった場合、これを異常として検出する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ネットワークで接
続された複数の装置が、それぞれ連携しながら全体の処
理の一部を担う分散処理を行う分散システムにおいて発
生する異常を検出する技術に関するものである。
【0002】
【従来の技術】分散システムにおいて発生する異常を検
出する技術としては、例えば、ISO/IEC 10040 "
Information Technology - Open Systems Interco
nnection - Systems Management Overview"記載の
技術が知られている。
【0003】この技術では、図27に示すように、監視
対象計算機2301と図示は省略しているが複数の監視
側計算機2302をネットワーク10に接続して分散シ
ステムを構成する。ここで、各監視対象計算機2301
は、分散システムを構成する計算機である。
【0004】監視対象計算機2301は、監視対象23
03と、監視部2304と、通信処理部2305とを備
えている。監視対象2303は、例えば、監視対象計算
機2301内で稼動するオペレーティングシステム、ア
プリケーションなどソフトウエア、およびCPUやメモリ
などのハードウエアである。
【0005】監視部2304は、監視対象2303の状
態を監視し、状態の変化や障害の発生などの情報を収集
する。通信処理部2305は、ネットワークを介して監
視側計算機2302へ監視対象2303の異常や障害な
どの報告を行う。
【0006】一方、監視側計算機2302は、通信処理
部2306と、監視結果表示部2307とを備えてい
る。
【0007】監視結果表示部2307は、通信処理部2
306を介して、監視部2304から監視対象2303
の状態情報を収集し、モニタ画面などに表示を行う。
【0008】このような構成において、監視対象計算機
2301の監視部2304は、監視対象2303の状態
の変化を、障害発生などによるプログラムの異常停止な
どが発生していないかなどについて監視し、異常を検出
した時、もしくは、周期的に、通信処理部2305を通
して、監視側計算機2302に監視対象の状態を報告す
る。
【0009】監視側計算機2302では、異常発生時、
もしくは、周期的に送られてくる監視対象の状態情報
を、ネットワークを介して通信処理部2306から取得
し、取得した状態情報をモニタ画面などに表示すること
により、各監視対象計算機2301上の各監視対象23
03の異常の有無などの状態を監視者に報告する。
【0010】
【発明が解決しようとする課題】上記従来の技術によれ
ば、分散システムを構成する計算機のうち、異常検出が
可能であるのは、監視部2304を設けた計算機のみで
ある。
【0011】一方、センサやアクチュエータなどの装置
が数百万個など大量にネットワークに接続されるような
大規模な分散システムにおいては、各装置のCPUやメモ
リ使用可能量の制限などから、それぞれの装置に、従来
の技術に係る監視部2304のような異常の検出と報告
を行う機能を設けることは実際上困難であり得策ではな
い。
【0012】そこで、本発明は、分散システムを構成す
る各装置に異常の検出と報告を行う機能を備える事無
く、分散システム内の異常の有無を検出することを課題
とする。
【0013】
【課題を解決するための手段】前記課題達成のために、
本発明は、前記電子計算機が接続されるネットワーク
と、ネットワークに接続され、各々所定の通信データを
前記ネットワークを介して送受しながら分散して処理を
行う複数の装置とを有する分散システムであって、前記
ネットワークに接続した異常検出装置を有し、当該異常
検出装置は、複数の通信データ間で満たすべき関係を規
定する判定規則テーブルを記憶する手段と、前記ネット
ワーク上の通信データの送受の実績より、前記判定規則
テーブルが規定する複数の通信データ間で満たすべき関
係が満たされているかどうかを判定し、満たされていな
い場合に、異常を検出する異常検出手段とを有すること
を特徴とする分散システムを提供する。なお、前記ネッ
トワーク上の通信データの送受の実績は、ネットワーク
を流れる通信データを傍受することにより求めても、ネ
ットワークを流れた通信データの履歴より求めてもよ
い。
【0014】本分散システムでは、各装置や分散システ
ムの異常が通信データ間の関係の異常として表れること
に着目し、通信データ間の関係の異常より分散システム
の異常を検出する。すなわち、ネットワーク上の通信デ
ータのみから、異常検出装置が判定規則テーブルを用い
て異常を検出するので、分散システムを構成する各装置
に異常の検出と報告を行う機能を備える事無く、分散シ
ステム内の異常の有無を検出することができる。
【0015】なお、複数の通信データ間で満たすべき関
係としては、一般的には複数の通信データ間で満たすべ
き時間的関係、たとえば、ある通信データが送信されて
から他のある通信データが送信されるまでの時間などを
用いることができるが、必ずしも、時間的関係に限ら
ず、任意の関係を用いてよい。
【0016】
【発明の実施の形態】以下、本発明の実施形態について
説明する。
【0017】まず、第1の実施形態について説明する。
【0018】図1に本第1実施形態に係る分散システム
の全体構成を示す。
【0019】図示するように、本第1実施形態に係る分
散システムは、ネットワーク10を介して複数の計算機
200a、200b、…と、異常検出装置100とが、
接続した構成を有している。計算機200a、200
b、…は、ネットワーク10を介して通信データ1を送
受することにより連携して分散処理を行う。異常検出装
置100は、ネットワーク10を介して送受される通信
データ1より、分散システム内の異常を検出する。
【0020】次に、各計算機200内部の機能構成を図
2に示す。
【0021】図示するように各計算機200は、モジュ
ール352、353及び業務354、355、356を
備えている。モジュール352、353は、計算機20
0で実行されるプログラムであり、業務は、各モジュー
ル内で実行される処理単位を示すものである。モジュー
ル内では複数の業務が実行されても、1つの業務のみが
実行されてもよい。
【0022】本実施形では、各業務間で、図1に示した
通信データ1を送受する。
【0023】次に、図3に、ネットワーク10を介して
各計算機200間で送受される通信データ1のフォーマ
ットを示す。
【0024】通信データ1には、送信元情報301、送
信先情報302、データ種別309及びデータ310が
記述される。送信元情報301は、通信データを送信し
た計算機の識別番号である機器番号303、機器番号3
03の計算機内で実行されるモジュールの識別番号であ
るモジュール番号304、及びモジュール番号304の
モジュール内の業務の識別番号である業務番号305か
ら構成される。送信先情報302は、通信データの送信
先に関する情報であり、機器番号306、モジュール番
号307及び業務番号308で構成される。
【0025】次に、図4に、異常検出装置100の構成
を示す。
【0026】図示するように、異常検出装置100は、
通信データ取得部101、データ判定部102、状態変
化検出部103、検出結果出力部104、データ記憶部
105、判定規則テーブル106、状態チェックテーブ
ル107、状態管理テーブル108及び異常検出部10
9を備えている。
【0027】ただし、異常検出装置100は、たとえ
ば、図5に示すように、CPU301や、主記憶30
2、ハードディスク装置である外部記憶装置303a、
他の外部記憶装置である303b、通信制御装置30
4、キーボードやポインティングデバイスなどの入力装
置305、表示装置などの出力装置306などを備え
た、一般的な構成を有する電子計算機上に構築すること
ができる。
【0028】この場合、異常検出装置100の各部は、
CPU301が主記憶302にロードされたプログラム
を実行することにより電子計算機上に具現化されるプロ
セスとして実現される。
【0029】前述した、主記憶302にロードされCP
U301によって実行されることにより、電子計算機上
に異常検出装置100の各部を実現するためのプログラ
ムは、予め、外部記憶装置303aに記憶され、必要に
応じて主記憶302にロードされ、CPU301によっ
て実行される。または、可搬型の記憶媒体307、たと
えば、CD-ROMを扱う外部記憶装置303bを介して、直
接、必要に応じて、可搬型の記憶媒体307から主記憶
302にロードされ、CPU301によって実行され
る。もしくは、一旦、可搬型の記憶媒体を扱う外部記憶
装置303bを介して、可搬型の記憶媒体307から、
ハードディスク装置などの外部記憶装置303a上にイ
ンストールされた後、必要に応じて主記憶302にロー
ドされ、CPU301によって実行される。
【0030】次に、異常検出装置100が備える判定規
則テーブル106について説明する。
【0031】判定規則テーブル106は、後述する異常
検出動作の実行に先だって用意されるテーブルである。
【0032】この判定規則テーブル106では、通信デ
ータ1を3区分に分類して、各区分毎に、個々の通信デ
ータ間において満たされるべき関係を管理する。
【0033】第1の区分は、業務が第1の通信データを
受信した場合に、第1の通信データの送信元に、第1の
通信データの受信確認をデータ種別ACKにより伝える第
2の通信データを送信すべきである場合における、第1
の通信データであるACK要求データと第2の通信データ
であるACKデータの組である。第2の区分は、業務から
当該通信データが周期的に送信されるべき周期送信デー
タであり、第3の区分は、ある業務が第1の通信データ
を受信し、これを業務が処理して第2の通信データを送
信すべき場合における、第1の通信データである入力デ
ータと第2の通信データである出力データの組である。
【0034】さて、判定規則テーブル106は、図6に
示す第1の区分の通信データ間において満たされるべき
関係を管理するACK要求データ管理テーブル400、図
7に示す第2の区分の通信データ間において満たされる
べき関係を管理する周期送信データ管理テーブル50
0、図8に示す第3の区分の通信データ間において満た
されるべき関係を管理する入出力データ管理テーブルよ
りなる。
【0035】図6のACK要求データ管理テーブル400
には、分散システム内で送信される送信元情報、送信先
情報及びデータ種別が共通のACK要求データを同じ種類
のACK要求データとして、各ACK要求データの種類毎のレ
コードを設ける。そして、各レコードには、対応するAC
K要求データの種類のACK要求データが持つ送信元情報4
01、送信先情報402及びデータ種別409が記述さ
れる。ここで、送信元情報401は送信元の機器番号4
03、モジュール番号404及び業務番号405で構成
され、送信先情報402は、送信先の機器番号406、
モジュール番号407及び業務番号408で構成され
る。
【0036】次に、図7の周期送信データ管理テーブル
500には、分散システム内で送信される送信元情報、
送信先情報及びデータ種別が共通の周期送信データを同
じ種類の周期送信データとして、各周期送信データの種
類毎のレコードを設ける。そして、各レコードには、対
応する周期送信データの種類の周期送信データが持つ、
送信元情報501、送信先情報502、データ種別50
9、及び、対応する周期データ送信データの種類の周期
送信データが送信される周期を示す送信周期510を記
述する。ここで、送信元情報501は送信元の機器番号
503、モジュール番号504及び業務番号505で構
成され、送信先情報502は、送信先の機器番号50
6、モジュール番号507及び業務番号508で構成さ
れる。
【0037】次に、図8の入出力データ管理テーブル6
00には、分散システム内で送信される送信元情報、送
信先情報及びデータ種別が共通の入力データを同じ種類
の入力データとして、各入力データの種類毎のレコード
を設ける。そして、各レコードには、入力データ情報6
01と、出力データ情報602と、予定処理時間621
を記述する。
【0038】入力データ情報601は、対応する入力デ
ータの種類の入力データが持つ、送信元情報603、送
信先情報604及びデータ種別613が記述される。こ
こで、入力データ情報601の送信元情報603は送信
元の機器番号607、モジュール番号608及び業務番
号609で構成され、送信先情報604は、送信先の機
器番号610、モジュール番号611及び業務番号61
2で構成される。
【0039】次に、出力データ情報602は、同レコー
ドの入力データ情報601が示す入力データの種類の入
力データを受信したときに、これを処理して送信する出
力データを一つの出力データの種類として、この出力デ
ータの種類の出力データが共通に持つ送信元情報60
5、送信先情報606及びデータ種別620が記述され
る。出力データ情報602の送信元情報605と送信先
情報606も同様に、送信元情報605の機器番号61
4、モジュール番号615及び業務番号616、送信先
情報606の機器番号617、モジュール番号618及
び業務番号619で構成される。
【0040】予定処理時間621は、同レコードの入力
データ情報601が示す入力データの種類の入力データ
を受信してから、業務がこれを処理して、出力データ情
報602が示す出力データの種類の出力データを送信す
るまでに要する予定時間が記述される。
【0041】なお、ある業務にとっての出力データは、
他の業務にとって入力データである場合があり、ある出
力データの種類は、同時にある入力データの種類である
場合がある。
【0042】以上、判定規則テーブル106について説
明した。
【0043】次に、異常検出装置100が備える状態チ
ェックテーブル107について説明する。
【0044】図9に示すように、状態チェックテーブル
107には、複数のレコードを登録することができる。
【0045】また、各レコードには、送信元情報70
1、送信先情報702、データ種別709、監視種別7
10、予定処理時間711、タイムアウト待ち時間71
2、そして、受信時刻713を記述することができる。
【0046】次に、異常検出装置100が備える状態管
理テーブル108について説明する。
【0047】図10に示すように、状態管理テーブル1
08には、複数のレコードを登録することができる。
【0048】また、各レコードには、機器番号801
と、モジュール番号802、業務番号803、実処理時
間804と、予定処理時間805を記述することができ
る。
【0049】以下、本分散システムにおいて、異常検出
装置100が行う異常検出動作について説明する。
【0050】異常検出装置100が行う異常検出動作
は、非予定動作検出処理と、タイムアウト異常検出処理
とより実現される。
【0051】まず、非予定動作検出処理について説明す
る。
【0052】図11に、非予定動作検出処理の手順を示
す。
【0053】図示するようにこの処理では、通信データ
取得部101は、計算機200間でネットワーク10を
介してやり取りされる通信データ1を傍受する。なお、
通信データ取得部101は、ネットワーク10を介して
やり取りされる通信データ1の全てを一つづつ傍受する
(ステップ901)。
【0054】次に、データ判定部102は、通信データ
取得部101が取得した通信データが、ACK要求データ
管理テーブル400に登録された種類のACK要求デー
タ、ACK要求データ管理テーブル400に登録された種
類のACK要求データに対応するACKデータ、周期送信デー
タ管理テーブル500に登録された周期送信データ、入
出力データ管理テーブル600に登録された種類の入力
データ、入出力データ管理テーブル600に登録された
種類の出力データのいずれかであるかを、判定規則テー
ブル106の各レコードを参照して判定する(ステップ
902)。なお、あるACK要求データの種類のACK要求デ
ータ管理テーブル400に登録された送信元情報を送信
先情報として持ち、そのACK要求データの種類のACK要求
データ管理テーブル400に登録された送信先情報を送
信元情報として持ち、データ種別としてACKを持つ通信
データである場合に、当該通信データは、そのACK要求
データに対応するACKデータであると判定する。
【0055】そして、いずれでもない場合には、ステッ
プ901に戻り、次の通信データの取得を待つ。
【0056】一方、他の場合には、ステップ903から
の処理に進む。
【0057】ステップ903からの処理では、通信デー
タがACK要求データであった場合(ステップ903)に
は、状態チェックテーブル107へレコードの追加を行
う(ステップ904)。
【0058】状態チェックテーブル107へは、ACK要
求データへの応答として送信されるべきACKデータの情
報を追加する。すなわち、該通信データの送信先情報を
状態チェックテーブル107の送信元情報701とし、
該通信データの送信元情報を状態チェックテーブル10
7の送信先情報702として記憶する。状態チェックテ
ーブル107のデータ種別709に「ACK」、監視種別
710に「ACK」、タイムアウト待ち時間712には、
あらかじめシステムで設定されたタイムアウト待ち時間
を登録する。また、受信時刻713として、現在時刻を
登録する。
【0059】一方、通信データが、周期送信データであ
った場合(ステップ905)は、状態チェックテーブル
107に既に同じ情報が登録されていないかを確認する
(ステップ906)。同じ情報が登録されていない場合
は、状態チェックテーブル107へレコードの追加を行
う(ステップ907)。状態チェックテーブル107へ
は、該通信データの送信元情報、送信先情報及びデータ
種別をそのまま登録し、監視種別710は「周期」と
し、周期送信データ管理テーブル500の送信周期51
0の値を状態チェックテーブル107の予定処理時間7
11に登録する。タイムアウト待ち時間は、予定処理時
間より若干長めの時間を登録する。例えば、予定処理時
間に2秒を足した値とする。受信時刻713として、現
在時刻を登録する。
【0060】一方、通信データが、入力データであった
場合(ステップ908)は、状態チェックテーブル10
7にレコードの追加を行う(ステップ909)。状態チ
ェックテーブル107へは、入力データを処理して送信
される出力の通信データの情報を追加するために、入出
力データ管理テーブル600の出力データ情報602に
おける送信元情報、送信先情報及びデータ種別を、状態
チェックテーブル107の送信元情報701、送信先情
報702及びデータ種別として登録し、監視種別710
は「出力」とし、入出力データ管理テーブル600にお
ける予定処理時間621の値を状態チェックテーブル1
07の予定処理時間711に登録する。タイムアウト待
ち時間712は、予定処理時間より若干長めの時間を登
録する。例えば、予定処理時間に2秒を足した値とす
る。受信時刻713として、現在時刻を登録する。
【0061】以上の、ステップ903から909の処理
の結果、取得した通信データの応答として、もしくは、
通信データ送信の周期性に従って、取得した通信データ
の受信時から一定期間内に送信されるべき通信データが
存在する場合には、その送信されるべき通信データの種
類の情報(送信元情報、送信先情報、データ種別)と、
その通信データがその時刻まで送信されるべき予定時刻
をその和により定める受信時刻と予定処理時間711
と、その時刻までに送信されない場合に異常と見なすタ
イムアウト時刻を、受信時刻713との和により定める
タイムアウト待ち時間712が状態チェックテーブル1
07に登録されることになる。
【0062】そこで、以下のステップ910からの処理
では、この状態チェックテーブル107に登録された種
類のデータの送信が、予定時刻までに行われるかどうか
を監視する。
【0063】すなわち、ステップ910では、取得した
通信データの種類の情報が状態チェックテーブル107
に登録されているかどうかを検索する(ステップ91
0)。そして、登録されていない場合には、ステップ9
01に戻り、次の通信データの取得を待つ。
【0064】一方、登録されている場合には、該当する
レコード(取得した通信データの情報と適合する状態チ
ェックテーブル107の情報)を読み込む(ステップ9
11)。
【0065】そして、該レコードの中の監視種別711
に応じて以下の処理を行う。
【0066】まず、読み込んだレコードの監視種別71
0がACKデータであるかを判断する(ステップ91
2)。ACKデータであった場合は、該レコードの削除を
行う(ステップ913)。
【0067】次に、読み込んだレコードの監視種別71
0が周期送信データであるかを判断する(ステップ91
4)。周期送信データであった場合は、レコード中の受
信時刻713と現在時刻とから前回の周期送信データの
受信時からの経過時間を算出し、レコード中の予定処理
時間711との比較を行う(ステップ915)。そして
経過時間の方が上回っていた場合は、検出結果出力部1
04を起動し(ステップ916)、レコード中の受信時
刻713を現在時刻に更新する(ステップ917)。起
動された検出結果出力部104では、モニタ画面などに
予定時刻まで送信されなかったことを表す警告を表示す
るなどしてオペレータへの検出結果の報告を行う。
【0068】一方、経過時間の方が上回っていない場合
は、レコード中の受信時刻713を現在時刻に更新する
処理のみを行う(ステップ917)ただし、取得した周
期送信データが、ステップ906でNoと判定された周期
送信データ、すなわち、初めて受信した種類の周期送信
データである場合は、ステップ914から917の処理
は行わないようにする。
【0069】次に、読み込んだレコードの監視種別71
0が出力データであるかを判断する(ステップ91
8)。出力データであった場合は、レコード中の受信時
刻713と現在時刻から経過時間を算出し、状態管理テ
ーブル108へレコードを追加し、算出した経過時間を
追加したレコードに処理所要時間804として登録する
(ステップ919)。このとき、状態管理テーブル10
8に追加したレコードに登録する機器番号801、モジ
ュール番号802及び業務番号803、予定処理時間8
05は、状態チェックテーブル107における送信元情
報701の機器番号703、モジュール番号704、業
務番号705、予定処理時間711となる。次に、算出
した経過時間と予定処理時間711との比較を行う(ス
テップ920)。経過時間が予定処理時間711を上回
っていた場合は、検出結果出力部104を起動する(ス
テップ921)。起動された検出結果出力部104で
は、モニタ画面などに予定時刻までに送信されなかった
ことを表す警告を表示するなどしてオペレータへの検出
結果の報告を行う。次に、該当レコードの削除を行う
(ステップ922)。
【0070】なお、取得した通信データの種類が入力デ
ータの種類であると同時に出力データの種類でもある場
合には、ステップ909の処理とステップ919から9
22の処理の双方が、取得した一つの通信データについ
て行われることになる。
【0071】以上のステップ911から922の処理に
よって、状態チェックテーブル107に情報が登録され
た種類の通信データが、状態チェックテーブル107に
登録された予定時刻までに送信されなかった場合に、検
出結果出力部104より警告することができる。
【0072】さて、以上の処理が終了したならば、ステ
ップ901に戻り、次の通信データの取得を待つことに
なる。
【0073】以上、非予定動作検出処理について説明し
た。
【0074】次に、タイムアウト異常検出処理について
説明する。
【0075】タイムアウト異常検出処理は、異常検出部
109によって、通信データの取得とは無関係に、周期
的に、例えば1秒毎に、繰り返し行われる。
【0076】図12に、このタイムアウト異常検出処理
の手順を示す。
【0077】図示するように、この処理では、まず、状
態チェックテーブル107から1レコードを読み込む
(ステップ1001)。そして、状態チェックテーブル
107の監視種別710が「ACK」であるかを調べる
(ステップ1002)。「ACK」であった場合には、現
在時刻と該レコードにおける受信時刻713から経過時
刻を算出し、経過時間とタイムアウト待ち時間712と
を比較する(ステップ1003)。経過時間がタイムア
ウト待ち時間を超えている場合には、検出結果出力部1
04を起動し(ステップ1004)、該レコードを削除
する(ステップ1005)。
【0078】起動された検出結果出力部104は、タイ
ムアウト時刻までに送信されなかったことを表す警告を
表示するなどしてオペレータへの異常の報告を行う。
【0079】次に、監視種別710が「周期」であるか
を調べる(ステップ1006)。「周期」であった場合
には、現在時刻と受信時刻713から経過時刻を算出
し、経過時間とタイムアウト待ち時間712とを比較す
る(ステップ1007)。経過時間がタイムアウト待ち
時刻712を過ぎている場合には、検出結果出力部10
4を起動し(ステップ1008)、該レコードを削除す
る(ステップ1009)。
【0080】起動された検出結果出力部104は、タイ
ムアウト時刻までに送信されなかったことを表す警告を
表示するなどしてオペレータへの異常の報告を行う。
【0081】次に、監視種別710が「出力」であるか
を調べる(ステップ1010)。「出力」であった場合
には、現在時刻と受信時刻713から経過時刻を算出
し、経過時間とタイムアウト待ち時間712とを比較す
る(ステップ1011)。経過時間がタイムアウト待ち
時間712を過ぎている場合には、検出結果出力部10
4を起動し(ステップ1012)、該レコードを削除す
る(ステップ1013)。
【0082】起動された検出結果出力部104は、タイ
ムアウト時刻までに送信されなかったことを表す警告を
表示するなどしてオペレータへの異常の報告を行う。
【0083】そして、次のレコードへ進み(ステップ1
014)、次のレコードがあるかどうかを判断する(ス
テップ1015)。ある場合は、ステップ1001から
の処理を繰り返す。
【0084】以上の処理によって、状態チェックテーブ
ル107に情報が登録された種類の通信データが、状態
チェックテーブル107に登録されたタイムアウト時刻
までに送信されなかった場合に、検出結果出力部104
より警告することができる。
【0085】以上説明したように、本実施の形態では、
監視対象となる計算機のそれぞれに異常検出機能を設け
ることなく、計算機間でやり取りされるネットワークを
流れる通信データを取得し、それらを過去に取得した通
信データと関連付けて調べることにより、システムの挙
動が設計通りに行われているかを確認することができ
る。また、状態管理テーブル108の解析により、シス
テムに異常な負荷がかかっていなかったかを調査するこ
とができる。
【0086】なお、本実施の形態では、特に、ACK要求
データへの応答がなされているか、周期送信データが設
定されている周期で送信されているか、業務への入出力
に関する通信データを調べることにより業務が設計時に
予定していた処理時間で処理されているか、についての
システムの挙動に関する異常検出を行う場合について説
明したが、これら以外の、通信データの応答として、も
しくは、通信データ送信の周期性に従って、ある通信デ
ータの送信時から一定期間内に送信されるべき任意の通
信データについて、本実施形態は同様に適用することが
できる。
【0087】また、本実施形態にけるタイムアウト異常
検出処理は、周期的に実行する代わりに、オペレータな
どにより起動し実行するようにしてもよい。
【0088】また、ACKデータやその他の通信データに
ついても状態管理テーブル108に実処理時間を登録
し、これらからシステムにかかる異常な負荷を調査でき
るようにしてもよい。
【0089】以上、本発明の第1実施形態について説明
した。
【0090】以下、本発明の第2の実施形態について説
明する。
【0091】本第2実施形態は、ネットワーク10を流
れた通信データ1の履歴(ログ)より異常を検出するも
のである。
【0092】本第2実施形態に係る分散システムの全体
構成を図13に示す。
【0093】図示するように、本分散システムの全体構
成は、前記第1実施形態に係る分散システムの全体構成
(図1参照)にログ管理装置1700を付加したものと
なっている。また、第1実施形態に係る異常検出装置1
00に代えて異常検出装置1900を備えた構成となっ
ている。
【0094】ログ管理装置1700は、通信データ収集
部1701、通信データ格納部1702及びログデータ
ベース1703を有する。通信データ収集部1701
は、ネットワーク10を流れる全ての通信データ1を傍
受することにより収集する。通信データ格納部1702
は、通信データ収集部1701により収集された通信デ
ータをログデータとしてログ管理テーブルの形式でログ
データベース1703に格納する。
【0095】このログデータベースで保持されるログ管
理テーブル1800の内容を図14に示す。図示するよ
うに、ログ管理テーブル1800には、収集した各通信
データについてのログデータを通信データの収集順に記
憶する。また、各通信データのログとしては、ログ管理
装置1700が通信データを受信した時刻を示す受信時
刻1801と、該通信データの送信元情報1802(送
信元の機器番号1804、モジュール番号1805及び
業務番号1806で構成される)と、送信先情報180
3(送信先の機器番号1807、モジュール番号180
8及び業務番号1809で構成される)と、該通信デー
タのデータ種別1810と、該通信データの内容を示す
内容1811とを記憶する。
【0096】次に、図15に、本実施形態に係る異常検
出装置1900の構成を示す。
【0097】図示するように、異常検出装置1900
は、ログデータ取得部1901、ログデータ逐次読込部
1902、ログデータ管理テーブル1903、データ判
定部102、状態変化検出部103、検出結果出力部1
04、データ記憶部105、判定規則テーブル106、
状態チェックテーブル107、状態管理テーブル108
及び異常検出部109を有する。
【0098】ここで、判定規則テーブル106、状態チ
ェックテーブル107、状態管理テーブル108は、前
記第1実施形態における同テーブルと同じものである。
【0099】以下、本実施形態に係る分散システムにお
いて、異常検出装置1900が行う異常検出処理につい
て説明する。
【0100】図16、17に、この異常検出処理の手順
を示す。
【0101】まず、ログデータ取得部1901は、ネッ
トワーク10を介してログ管理装置1700と接続し、
ログデータベース1703に保持されているログデータ
を、FTP(File Transfer Protocol)などを用いて取
得し、ログデータ管理テーブル1903に格納する(ス
テップ2001)。
【0102】次に、ログデータ逐次読み込み部1902
は、ログデータ管理テーブル1903から、ログデータ
を一つずつ読み込み、データ判定部102にデータを渡
す(ステップ2002)。
【0103】以降のステップ2003〜2023までの
処理は、図10のステップ902〜922と同じとな
る。すなわち、ステップ2003〜2023では、デー
タ判定部102と状態変化検出部103は、前記第1実
施形態で処理に用いて取得した通信データの送信元情報
301、送信先情報302、データ種別309に代え
て、ログデータの送信元情報1802、送信先情報18
03、データ種別1810を用いてステップ902〜9
22の処理を行う。但し、経過時間を求めるための現在
時刻としては、ログデータ中の受信時刻1801を用い
る。また、状態チェックテーブル107に登録する受信
時刻713としてはログデータ中の受信時刻1801を
用いる。
【0104】一つのログデータについてのステップ20
03〜2023の処理が済んだならば、次のログデータ
があれば次のログデータへ進み(ステップ2024、2
025)、同様に次のログデータをステップ2002で
取得し、取得したログデータについてのステップ200
3〜2023までの処理を行う。
【0105】一方、次のログデータがなければ次ステッ
プ2026へ進む。
【0106】ステップ2026では、状態チェックテー
ブル107から1レコードを読み込む。そして、該レコ
ードの監視種別710がACKデータであるかを判断する
(ステップ2027)。そして、ACKデータであれば、A
CK要求データに対する応答であるACKデータが送信され
なかったことを意味するので、検出結果出力部104を
起動する(ステップ2028)。起動された検出結果出
力部104は、送信されなかった通信データがあること
を表す警告をする。
【0107】次に、該レコードの監視種別が出力データ
であるかを判断する(ステップ2029)。出力データ
であれば、送信された入出データに対応する出力データ
が送信されなかったことを意味し、なんらかの異常が該
当するモジュールに発生したことが考えられるので、検
出結果出力部104を起動する(ステップ2030)。
起動された検出結果出力部104は、送信されなかった
通信データがあることを表す警告を報告する。
【0108】次に、状態チェックテーブル107にレコ
ードが残っていれば次のレコードへ進み(ステップ20
31、2032)、同様にステップ2026で状態チェ
ックテーブル107から次のレコードを読み込み、ステ
ップ2027から2030の処理を行う。
【0109】一方、状態チェックテーブル107にレコ
ードが残っていなければステップ2033に進む。
【0110】ステップ2033では、状態管理テーブル
108から1レコードを読み込む(ステップ203
3)。そして、読み込んだレコードの実処理時間804
と予定処理時間805とを比較し(ステップ203
4)、実処理時間804が予定処理時間805を上回っ
ている場合には、何らかの負荷がかかり業務での処理が
予定された時間内に終了していないことを意味するの
で、検出結果出力部104を起動する(ステップ203
5)。起動された検出結果出力部104は、予定処理時
間内に終了しなかった業務があることを表す警告をす
る。
【0111】次に、状態管理テーブル108にレコード
が残っていれば次のレコードへ進み(ステップ203
6、2037)、同様にステップ2033で状態管理テ
ーブル108から次のレコードを読み込み、ステップ2
034から2035の処理を行う。
【0112】以上のように、本実施形態によれば、ログ
データから前記第1実施形態の非予定動作検出処理と同
様の異常の検出行うことができるまた、また、状態管理
テーブル108の解析により、システムにかかった異常
な負荷を検出することができる。ログデータを解析して
システムの連携動作を順に追っていくことにより、シス
テム内で一つの障害により連鎖的に発生するような障害
の最初の障害箇所を特定することができる。
【0113】なお、以上の説明では、ログ管理装置17
00と異常検出装置1900とを別々の装置として説明
したが、ログ管理装置1700にの通信データ収集部1
701、通信データ格納部1702及びログデータベー
ス1703を異常検出装置1900に設けることによ
り、両者を同一の装置としてもよい。また、ログの収集
を一つの計算機で行う例を示したが、各計算機毎に自計
算機の送信する通信データをログデータとして自計算機
に備えられたデータベースに蓄積し、それらを異常検出
装置1900のログデータ取得部により収集するように
してもよい。また、ACKデータやその他の通信データに
ついても状態管理テーブル108に実処理時間を登録
し、これらからシステムにかかった異常な負荷を検出す
るようにしてもよい。また、状態管理テーブル108に
タイムアウト待ち時間を登録し、これと実処理時間とを
比較することにより、タイムアウト待ち時間以内に、通
信データが送信されなかった異常を検出するようにして
もよい。
【0114】以上、本発明の第2の実施形態について説
明した。
【0115】以下、本発明の第3の実施形態について説
明する。
【0116】本第3実施形態は、前記第1、第2実施形
態で用いた判定規則テーブル106をシステムの構成情
報から自動的に作成するものである。
【0117】図18に、第1実施形態で用いた判定規則
テーブル106をシステムの構成情報から自動的に作成
する場合の本実施形態に係る異常検出装置1100の構
成を示す。
【0118】図示するように、本実施形態に係る異常検
出装置1100は、第1実施形態に係る異常検出装置1
00の構成(図4参照)に構成情報収集部1102及び
構成情報変換部1103を付加した構成を有している。
なお、第2実施形態で用いた判定規則テーブル106を
システムの構成情報から自動的に作成する場合は、第2
実施形態に係る異常検出装置1900の構成(図15参
照)に構成情報収集部1102及び構成情報変換部11
03を付加した構成となる。
【0119】また、本実施形態に係る異常検出装置11
00は、構成情報管理データベース1101に接続され
る。構成情報管理データベース1101は、分散システ
ム上で連携動作する複数の計算機、モジュール、業務、
通信データ種類の構成情報を保持するデータベースであ
る。そして、構成情報管理データベース1101には、
システムがどのように構築されているかを示す構成情報
が、機器情報定義テーブル、モジュール情報定義テーブ
ル、業務情報定義テーブル及び通信データ情報定義テー
ブルとして保持されている。
【0120】これら構成情報管理データベース1101
に保持される各定義テーブルの内容を図19〜22に示
す。
【0121】機器情報定義テーブル1200は、図19
に示すように、分散システム上の計算機毎のレコードを
有し、各レコードには計算機の識別番号である機器番号
1201と、計算機の名称を示す機器名称1202と、
計算機のIPアドレスを示すIPアドレス1203と、
計算機の区分を示す機器種別1204とが記述されてい
る。
【0122】モジュール情報定義テーブル1300は、
図20に示すように、分散システム上のモジュール毎の
レコードを有し、各レコードには、モジュールの識別番
号であるモジュール番号1301と、モジュールの名称
を示すモジュール名称1302と、モジュールが稼動す
る計算機の識別番号を示す設置機器番号1303と、モ
ジュール内で処理を行う業務の数を示す業務数1304
とが記述される。
【0123】業務情報定義テーブル140は、図21に
示すように、分散システム上の業務毎のレコードを有
し、各レコードには、業務の識別番号を示す1401
と、業務の名称を示す業務名称1402と、業務を行う
計算機の識別番号である機器番号1403と、業務の処
理を行うモジュールの識別番号であるモジュール番号1
404と、業務の処理開始から終了までの時間を示す処
理所要時間1405とが記述される。
【0124】通信データ情報定義テーブル1500は、
図22に示すように、ネットワークに流れる通信データ
の種類毎のレコードを有し、各レコードには、その種類
の通信データの送信元の情報である送信元情報1501
(送信元の機器番号1503、モジュール番号1504
及び業務番号1505で構成される)と、送信先の情報
である送信先情報1502(送信先の機器番号150
6、モジュール番号1507及び業務番号1508で構
成される)と、データ種別1509と、周期送信する通
信データの送信周期を示す送信周期1510と、ACKの
応答を必要とするかどうかを示すACK有無1511とが
記述される。
【0125】以下、異常検出装置1100における判定
規則テーブル106をシステムの構成情報から自動的に
作成する判定規則テーブル作成処理について説明する。
【0126】図23に、本判定規則テーブル作成処理の
手順を示す。
【0127】図示するように、この処理では、まず、構
成情報収集部1102は、構成情報管理データベースに
保持された1101の通信データ情報定義テーブル15
00から1レコードを読み込む(ステップ1601)。
読み込んだレコードが、ACK要求データに関するもので
あるかを判断する(ステップ1602)。ACK要求デー
タであるかどうかの判断は、通信データ情報定義テーブ
ル1500のACK有無1511により行う。ACK有無15
11に「有」と登録されている場合は、ACK要求データ
管理テーブル400にレコードを追加し、追加したレコ
ードに、読み込んだ通信データ情報定義テーブル150
0のレコードの送信元情報1501、送信先情報150
2及びデータ種別1509を登録する(ステップ160
3)。
【0128】次に、ステップ1601で読み込んだレコ
ードが、周期送信データに関するものであるかを判断す
る(ステップ1604)。周期送信データであるかどう
かの判断は、通信データ情報定義テーブル1500の送
信周期1510に送信周期が登録されているかどうかに
より行う。送信周期1510が登録されている場合に
は、周期送信データ管理テーブル500にレコードを追
加し、追加したレコードに、読み込んだ通信データ情報
定義テーブル1500のレコードの送信元情報150
1、送信先情報1502、データ種別1509及び送信
周期1510を登録する(ステップ1605)。
【0129】次に、通信データ情報定義テーブル150
0から読み込んだレコードの送信元情報で示される業務
が他のレコードの送信先情報として登録されている通信
データ情報定義テーブル1500のレコードを検索し
(ステップ1606)、該当するレコードを見つけられ
たかどうかを判断する(ステップ1607)。見つけら
れない場合はステップ1610へ進む。
【0130】見つけられた場合は、業務情報定義テーブ
ル1400から、ステップ1601で読み込んだレコー
ドの送信元情報で示される業務に対応するレコードの処
理所要時間1405を読み取る(ステップ1608)。
次に、入出力データ管理テーブル600にレコードを追
加し、ステップ1606で検索した通信データ情報定義
テーブル1500のレコードの送信元情報1501、送
信先情報1502及びデータ種別1509を、追加した
レコードに入力データ情報601として登録し、ステッ
プ1601で読み込んだ通信データ情報定義テーブル1
500のレコードの送信元情報1501、送信先情報1
502、データ種別1509及び送信周期1510を、
追加したレコードに出力データ情報602として登録
し、ステップ1608で読み込んだ処理所要時間140
5を、追加したレコードに予定処理時間621として登
録する(ステップ1609)。
【0131】そして、次のレコードがあれば(ステップ
1610、1611)、ステップ1601へ戻って、同
様に次のレコードを通信データ情報定義テーブル150
0から読み出して、ステップ1602から1609まで
の処理を行い、次のレコードがなければ処理を終了する
(ステップ1611)。
【0132】以上説明したように、本実施形態によれ
ば、システムの構成情報から判定規則テーブルを自動的
に作成することができ、システム全体の挙動に対する規
則をもれなく定義することができる。また、自動作成に
より、判定規則を人手により作成する手間を削減できた
り、人手による定義による間違えをなくすことができ
る。
【0133】なお、本実施の形態では、構成情報管理デ
ータベース1101において一括してシステム全体の構
成情報を保持し、構成情報収集部1102により構成情
報を収集する場合を示しているが、ネットワーク10を
介して接続される複数の計算機上に分散的に保持されて
いる構成情報を構成情報収集部1102により収集し、
異常検出装置1100における内部記憶装置もしくは外
部記憶装置に記憶してもよい。
【0134】また、本実施の形態では、ステップ160
6において、通信データ情報定義テーブル1500から
現在着目しているレコードの送信元情報で示される業務
が他のレコードの送信先情報として登録されているレコ
ードを検索したが、現在着目しているレコードの送信先
情報で示される業務が他のレコードの送信元情報として
登録されているレコードを検索することにより、入出力
データ管理テーブル600の作成を行ってもよい。
【0135】また、構成情報管理データベース1101
に保持される構成情報は、図19から22に示した、機
器情報定義テーブル、モジュール情報定義テーブル、業
務情報定義テーブル及び通信データ情報定義テーブルの
形式以外の形式で保持されるものであってもよい。
【0136】以上、本発明の第3の実施形態について説
明した。
【0137】以下、本発明の第4の実施形態について説
明する。
【0138】本第4実施形態は、前記第1、第2実施形
態で作成した状態管理テーブル108を用いて、サンプ
ルデータとして与えられた、ある仕事を達成するために
業務間で送受する一連の通信データのリストより、その
仕事の完了までに要する時間を予測する総処理時間予測
処理を行うものである。
【0139】図24に、本実施形態において、前記第
1、第2実施形態に係る異常検出装置100、1900
に付加した部分を示す。図示するように、本実施形態に
係る異常検出装置2400は、前記第1、第2実施形態
に係る異常検出装置100、1900にデータ入力部2
401と予測値算出部2402を付加した構成を有して
いる。
【0140】ここで、データ入力部2401に与えられ
るサンプルデータの内容を図25に示す。
【0141】図示するように、サンプルデータ2100
は、ある仕事を達成するために業務間で送受する通信デ
ータ毎のレコードを有し、各レコードには、送信元情報
2101(送信元の機器番号2103、モジュール番号
2104及び業務番号2105)及び送信先情報210
2(送信先の機器番号2106、モジュール番号210
7及び業務番号2108)が登録されている。
【0142】以下、本異常検出装置2400において行
う、総処理時間予測処理を説明する。
【0143】図26に、総処理時間予測処理の手順を示
す。
【0144】図示するように、この処理では、まず、予
測時間Tの初期化を行う(ステップ2201)。次にサ
ンプルデータのレコードを一つ読み込み(ステップ22
02)、レコードに登録された、送信元情報2101
(送信元の機器番号2103、モジュール番号2104
及び業務番号2105)と一致する、機器番号801、
モジュール番号802、業務番号803が登録された状
態管理テーブル108のレコードを検索する(ステップ
2203)。
【0145】そして、予測時間Tに、検索したレコード
の実処理時間を加算する(ステップ2204)。
【0146】そして、次のサンプルデータのレコードが
あれば(ステップ2205、2206)、ステップ22
02へ戻り、次のサンプルデータのレコードを一つ読み
込み、ステップ2203から2204の処理を行う。
【0147】一方、次のサンプルデータのレコードがな
ければ、その時点の予測時間Tを結果として表示し(ス
テップ2207)、処理を終了する。
【0148】以上説明したように、本実施形態によれ
ば、第1、第2実施形態で作成した状態管理テーブル1
08を用いて、サンプルデータとして与えられた、ある
仕事を達成するために業務間で送受する一連の通信デー
タのリストより、その仕事の完了までに要する時間を予
測することができる。このことにより、現在のシステム
の負荷状況に応じた処理時間を事前に予測することがで
きる。
【0149】以上、本発明の実施形態について説明し
た。
【0150】なお、以上の実施形態では、ネットワーク
で接続された計算機が通信データを送受する分散システ
ムへの適用を例にとり説明したが、本実施形態は、ネッ
トワークで接続された複数の装置が通信データを送受す
る分散システム全般、例えば、ネットワークで接続され
たコントローラ、センサやアクチュエータなどが通信デ
ータを送受するような分散システムにも同様に適用する
ことができる。
【0151】
【発明の効果】以上のように、本発明によれば、分散シ
ステムを構成する各装置に異常の検出と報告を行う機能
を備える事無く、分散システム内の異常の有無を検出す
ることができる。
【図面の簡単な説明】
【図1】本発明の第1実施形態に係る分散システムの構
成を示すブロック図である。
【図2】本発明の第1実施形態に係る分散システムを構
成する各計算機の機能構成を示した図である。
【図3】本発明の第1実施形態に係る分散システムにお
いて送受する通信データのフォーマットを示した図であ
る。
【図4】本発明の第1実施形態に係る異常検出装置の構
成を示すブロック図である。
【図5】本発明の第1実施形態に係る異常検出装置とし
て用いることのできる電子計算機のハードウエア構成を
示したブロック図である。
【図6】本発明の第1実施形態に係るACK要求データ管
理テーブルの内容を示した図である。
【図7】本発明の第1実施形態に係る周期送信データ管
理テーブルの内容を示した図である。
【図8】本発明の第1実施形態に係る入出力データ管理
テーブルの内容を示した図である。
【図9】本発明の第1実施形態に係る状態チェックテー
ブルの内容を示した図である。
【図10】本発明の第1実施形態に係る状態管理テーブ
ルの内容を示した図である。
【図11】本発明の第1実施形態に係る異常検出装置が
行う非予定動作検出処理の手順を示すフローチャートで
ある。
【図12】本発明の第1実施形態に係る異常検出装置が
行うタイムアウト異常検出処理の手順を示すフローチャ
ートである。
【図13】本発明の第2実施形態に係る分散システムの
構成を示すブロック図である。
【図14】本発明の第2実施形態に係る状態管理テーブ
ルの内容を示した図である。
【図15】本発明の第2実施形態に係る異常検出装置の
構成を示すブロック図である。
【図16】本発明の第2実施形態に係る異常検出装置が
行う異常検出処理の手順を示すフローチャートである。
【図17】本発明の第2実施形態に係る異常検出装置が
行う異常検出処理の手順を示すフローチャートである。
【図18】本発明の第3実施形態に係る異常検出装置の
構成を示すブロック図である。
【図19】本発明の第3実施形態に係る機器情報定義テ
ーブルの内容を示した図である。
【図20】本発明の第3実施形態に係るモジュール情報
定義テーブルの内容を示した図である。
【図21】本発明の第3実施形態に係る業務情報定義テ
ーブルの内容を示した図である。
【図22】本発明の第3実施形態に係る通信データ情報
定義テーブルの内容を示した図である。
【図23】本発明の第3実施形態に係る異常検出装置が
行う判定規則テーブル作成処理の手順を示すフローチャ
ートである。
【図24】本発明の第4実施形態に係る異常検出装置の
付加部分の構成を示すブロック図である。
【図25】本発明の第4実施形態に係るサンプルデータ
の内容を示した図である。
【図26】本発明の第4実施形態に係る異常検出装置が
行う本発明の第3実施形態に係る異常検出装置が行う判
定規則テーブル作成処理の手順を示すフローチャートで
ある。
【図27】従来の分散システムの構成を示すブロック図
である。
【符号の説明】
1 通信データ 10 ネットワーク 100、1100、1900 異常検出装置 101 通信データ取得部 102 データ判定部 103 状態変化検出部 104 検出結果出力部 105 データ記憶部 106 判定規則テーブル 107 状態チェックテーブル 108 状態管理テーブル 109 異常検出部 400 ACK要求データ管理テーブル 500 周期送信データ管理テーブル 600 入出力データ管理テーブル 1101 構成情報管理データベース 1102 構成情報収集部 1103 構成情報変換部 1200 機器情報定義テーブル 1300 モジュール情報定義テーブル 1400 業務情報定義テーブル 1500 通信データ情報定義テーブル 1700 ログ管理装置 1701 通信データ収集部 1702 通信データ格納部 1703 ログデータベース 1901 ログデータ取得部 1902 ログデータ逐次読込部 1903 ログデータ管理テーブル 2301 監視対象計算機 2302 監視側計算機 2303 監視対象 2304 監視部 2305、 2306 通信処理部 2307 監視結果表示部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 三部 良太 神奈川県川崎市麻生区王禅寺1099番地 株 式会社日立製作所システム開発研究所内 (72)発明者 平井 千秋 神奈川県川崎市麻生区王禅寺1099番地 株 式会社日立製作所システム開発研究所内 (72)発明者 川上 真澄 神奈川県川崎市麻生区王禅寺1099番地 株 式会社日立製作所システム開発研究所内 Fターム(参考) 5B042 GA12 GB09 JJ23 KK13 LA08 LA20 MA08 MC09 MC33 MC35 5B045 GG01 JJ02 JJ14

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】ネットワークと、ネットワークに接続さ
    れ、各々所定の通信データを前記ネットワークを介して
    送受しながら分散して処理を行う複数の装置とを有する
    分散システムであって、 前記ネットワークに接続した異常検出装置を有し、 当該異常検出装置は、 複数の通信データ間で満たすべき関係を規定する判定規
    則テーブルを記憶する手段と、 前記ネットワーク上を送受される前記通信データを傍受
    する通信データ取得手段と、 傍受した各通信データより、前記判定規則テーブルが規
    定する複数の通信データ間で満たすべき関係が満たされ
    ているかどうかを判定し、満たされていない場合に、異
    常を検出する異常検出手段とを有することを特徴とする
    分散システム。
  2. 【請求項2】ネットワークと、ネットワークに接続さ
    れ、各々所定の通信データを前記ネットワークを介して
    送受しながら分散して処理を行う複数の装置とを有する
    分散システムであって、 前記ネットワーク上を送受された前記通信データの履歴
    を生成する履歴生成手段と、 前記ネットワークに接続した異常検出装置とを有し、 当該異常検出装置は、 複数の通信データ間で満たすべき関係を規定する判定規
    則テーブルを記憶する手段と、 前記履歴生成手段が生成した前記通信データの履歴よ
    り、前記判定規則テーブルが規定する複数の通信データ
    間で満たすべき関係が満たされているかどうかを判定
    し、満たされていない場合に、異常を検出する異常検出
    手段とを有することを特徴とする分散システム。
  3. 【請求項3】請求項1または2記載の分散システムであ
    って、 前記判定規則テーブルは、所定の時間的関係をもって送
    信されるべき複数の通信データ間の、前記時間関係を規
    定しており、 前記異常検出手段は、前記判定規則テーブルが規定する
    時間的関係をもって、当該時間的関係を有する複数の通
    信データが送信されたかどうかを判定し、送信されなか
    った場合に異常を検出することを特徴とする分散システ
    ム。
  4. 【請求項4】請求項3記載の分散システムであって、 前記判定規則テーブルは、第1の通信データを受信する
    ことに起因して第2の通信データを送信する装置が第1
    の通信データ受信から第2の通信データ送信までに要し
    た時間が、それ以内であれば異常として検出しない時間
    である参照時間を規定しており、 前記異常検出手段は、第1の通信データの送信から前記
    判定規則テーブルが規定する参照時間が経過するまで
    に、第2の通信データが送信されたかどうかを判定し、
    送信されなかった場合に異常を検出し、 前記異常検出装置は、さらに、 前記第1の通信データが実際に送信されてから第2の通
    信データが実際に送信されるまでに要した時間を、第1
    の通信データ及び第2の通信データに関連する処理の実
    処理時間として収集する実処理時間収集手段を有するこ
    とを特徴とする分散システム。
  5. 【請求項5】請求項4記載の分散システムであって、 前記判定規則テーブルは、第1の通信データと第2の通
    信データの相互に異なる複数の組について、前記参照時
    間を規定しており、 前記異常検出手段は、前記各組について異常を検出し、 前記実処理時間収集手段は、前記各組について処理時間
    を収集し、 前記異常検出装置は、さらに、 前記実処理時間収集手段が収集した前記各第2の通信デ
    ータに関連する処理の実処理時間より、仮想的に与えら
    れた複数の通信データを送受する複数の処理の処理時間
    を推定する手段を有することを特徴とする分散システ
    ム。
  6. 【請求項6】ネットワークと、ネットワークに接続さ
    れ、各々所定の通信データを前記ネットワークを介して
    送受しながら分散して処理を行う複数の装置とを有する
    分散システムにおいて異常を検出する異常検出方法であ
    って、 複数の通信データ間で満たすべき関係を規定する判定規
    則テーブルを用意し、 前記ネットワーク上を送受される前記通信データを傍受
    し、 傍受した各通信データより、前記判定規則テーブルが規
    定する複数の通信データ間で満たすべき関係が満たされ
    ているかどうかを判定し、満たされていない場合に、異
    常を検出することを特徴とする分散システムにおける異
    常検出方法。
  7. 【請求項7】ネットワークと、ネットワークに接続さ
    れ、各々所定の通信データを前記ネットワークを介して
    送受しながら分散して処理を行う複数の装置とを有する
    分散システムにおいて異常を検出する異常検出方法であ
    って、 複数の通信データ間で満たすべき関係を規定する判定規
    則テーブルを用意し、前記ネットワーク上を送受された
    前記通信データの履歴を生成し、 生成した前記通信データの履歴より、前記判定規則テー
    ブルが規定する複数の通信データ間で満たすべき関係が
    満たされているかどうかを判定し、満たされていない場
    合に、異常を検出するすることを特徴とする分散システ
    ムにおける異常検出方法。
  8. 【請求項8】ネットワークと、ネットワークに接続さ
    れ、各々所定の通信データを前記ネットワークを介して
    送受しながら分散して処理を行う複数の装置とを有する
    分散システムの異常を検出する異常検出装置であって、 複数の通信データ間で満たすべき関係を規定する判定規
    則テーブルを記憶する手段と、 前記ネットワーク上を送受される前記通信データを傍受
    する通信データ取得手段と、 傍受した各通信データより、前記判定規則テーブルが規
    定する複数の通信データ間で満たすべき関係が満たされ
    ているかどうかを判定し、満たされていない場合に、異
    常を検出する異常検出手段とを有することを特徴とする
    異常検出装置。
  9. 【請求項9】ネットワークと、ネットワークに接続さ
    れ、各々所定の通信データを前記ネットワークを介して
    送受しながら分散して処理を行う複数の装置とを有する
    分散システムの異常を検出する異常検出装置であって、 複数の通信データ間で満たすべき関係を規定する判定規
    則テーブルを記憶する手段と、 前記ネットワーク上を送受された前記通信データの履歴
    より、前記判定規則テーブルが規定する複数の通信デー
    タ間で満たすべき関係が満たされているかどうかを判定
    し、満たされていない場合に、異常を検出する異常検出
    手段とを有することを特徴とする異常検出装置。
  10. 【請求項10】電子計算機によって読み取られ実行され
    るプログラムを記憶した記憶媒体であって、 前記プログラムは、前記電子計算機が接続されるネット
    ワークと、ネットワークに接続され、各々所定の通信デ
    ータを前記ネットワークを介して送受しながら分散して
    処理を行う複数の装置とを有する分散システムの異常を
    検出するためのプログラムであり、 当該プログラムは、前記電子計算機上に、 複数の通信データ間で満たすべき関係を規定する判定規
    則テーブルを記憶する手段と、 前記ネットワーク上の通信データの送受の実績より、前
    記判定規則テーブルが規定する複数の通信データ間で満
    たすべき関係が満たされているかどうかを判定し、満た
    されていない場合に、異常を検出する異常検出手段とを
    実現することを特徴とする記憶媒体。
JP11170970A 1999-06-17 1999-06-17 分散システムにおける異常検出方法 Pending JP2001005795A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11170970A JP2001005795A (ja) 1999-06-17 1999-06-17 分散システムにおける異常検出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11170970A JP2001005795A (ja) 1999-06-17 1999-06-17 分散システムにおける異常検出方法

Publications (1)

Publication Number Publication Date
JP2001005795A true JP2001005795A (ja) 2001-01-12

Family

ID=15914751

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11170970A Pending JP2001005795A (ja) 1999-06-17 1999-06-17 分散システムにおける異常検出方法

Country Status (1)

Country Link
JP (1) JP2001005795A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007524157A (ja) * 2004-01-08 2007-08-23 コンエクスパート ホルディング ゲーエムベーハー アプリケーションシステム間におけるデータ交換監視方法および装置
CN103786930A (zh) * 2012-11-01 2014-05-14 江门市大光明电力设备厂有限公司 一种计量封印字符编码识别设备
JP2019213329A (ja) * 2018-06-04 2019-12-12 オムロン株式会社 監視システム及び送信装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007524157A (ja) * 2004-01-08 2007-08-23 コンエクスパート ホルディング ゲーエムベーハー アプリケーションシステム間におけるデータ交換監視方法および装置
CN103786930A (zh) * 2012-11-01 2014-05-14 江门市大光明电力设备厂有限公司 一种计量封印字符编码识别设备
JP2019213329A (ja) * 2018-06-04 2019-12-12 オムロン株式会社 監視システム及び送信装置

Similar Documents

Publication Publication Date Title
US10348809B2 (en) Naming of distributed business transactions
US9369356B2 (en) Conducting a diagnostic session for monitored business transactions
CN105357038B (zh) 监控虚拟机集群的方法和系统
US8504679B2 (en) Methods, systems and computer program products for managing execution of information technology (IT) processes
CN101206569B (zh) 用于动态识别促使服务劣化的组件的方法和系统
US20110314138A1 (en) Method and apparatus for cause analysis configuration change
US20090144409A1 (en) Method for using dynamically scheduled synthetic transactions to monitor performance and availability of e-business systems
WO2004079553A2 (en) System, method and model for autonomic management of enterprise applications
CN110581773A (zh) 一种自动化服务监控与报警管理系统
US20170126532A1 (en) Dynamic baseline determination for distributed business transaction
JP2001005795A (ja) 分散システムにおける異常検出方法
JPH10229396A (ja) サービス管理方法及びシステム
JP2007052756A (ja) ワイヤレスデバイスの不具合診断に適用する学習型診断データベース
US20230393925A1 (en) Failure handling support apparatus and method
JP4271612B2 (ja) 障害検出システム及び方法
JPH09114703A (ja) 分散処理システムの監視方法
CN117834402A (zh) 一种全链路监控方法、装置、电子设备及存储介质
CN117909166A (zh) 微服务应用的异常监控方法、装置、设备及存储介质
JP2004213519A (ja) 業務運用管理方法及びその実施システム並びにその処理プログラム
JP2004139160A (ja) 営業活動支援方法、サーバ及びプログラム
JP2003122598A (ja) 監視情報通報システム
JP2004297524A (ja) 統合運用支援システム、方法及びプログラム
JP2003140925A (ja) タスク監視システム及び方法
JPH11120105A (ja) 分散処理システムの診断情報収集方法