JPH02310755A - ヘルスチェック方式 - Google Patents

ヘルスチェック方式

Info

Publication number
JPH02310755A
JPH02310755A JP1133068A JP13306889A JPH02310755A JP H02310755 A JPH02310755 A JP H02310755A JP 1133068 A JP1133068 A JP 1133068A JP 13306889 A JP13306889 A JP 13306889A JP H02310755 A JPH02310755 A JP H02310755A
Authority
JP
Japan
Prior art keywords
data
health check
reception
timeout
control program
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP1133068A
Other languages
English (en)
Other versions
JPH087726B2 (ja
Inventor
Tadashi Mori
正 森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP1133068A priority Critical patent/JPH087726B2/ja
Publication of JPH02310755A publication Critical patent/JPH02310755A/ja
Publication of JPH087726B2 publication Critical patent/JPH087726B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明はホストコンピュータ上の通信管理プログラムが
特定の監視用データを通信処理装置上の通信制御プログ
ラムに送信し通信制御プログラムから監視用データに対
する応答データを受信することによって通信制御プログ
ラムの動作状態を監視するヘルスチェック方式に関する
〔従来の技術〕
従来、この種のヘルスチェック方式では、ホストコンピ
ュータ上の通信管理プログラムと通信処理装置上の通信
制御プログラムとが特定の監視用データおよびこの監視
用データに対する応答データを一定時間間隔で送受信し
合い、通信管理プログラムが監視用データの送信から一
定時間内に応答データを受信しない場合には即座にヘル
スチェックタイムアウト発生とみなして通信制御プログ
ラムの障害発生としていた。
また、より発展したある種のヘルスチェック方式では、
通信管理プログラムが監視用データの送信から一定時間
内に応答データを受信しない場合でも即座にヘルスチェ
ックタイムアウト発生とはせずに、データの送受信状態
をチェックして監視用データの送信から応答データ受信
タイムアウト発生までの間になんらかのデータが1回で
も受信されていれば通信制御プログラムが正常に動作し
ているものと判断し、データの受信が1回もない場合に
限ってヘルスチェックタイムアウト発生とみなして通信
制御プログラムの障害発生としていた。
〔発明が解決しようとする課題〕
上述した従来のヘルスチェック方式では、前者の方式の
場合、監視用データの送信から一定時間内に応答データ
を受信しなければ即座にヘルスチェックタイムアウト発
生とみなしていたので、通信処理装置上の通信制御プロ
グラム自身は正常動作中でアプリケーションプログラム
間のデータ(以下、アプリケーションデータという)の
送受信は可能だがオンラインシステムの負荷が高まり応
答データを一定時間内に返送できないような状態が発生
したときでも、通信制御プログラムの障害発生とみなさ
れてしまうという欠点がある。
また、後者の方式の場合、監視用データの送信から応答
データ受信タイムアウト発生までの間になんらかのデー
タが1回でも受信されていれば通信制御プログラムが正
常に動作しているものと判断していたので、通信制御プ
ログラムがアプリケーションデータを一切送受信できな
くなってオンラインシステムが提供している実際の通信
環境が疎外されているような障害が発生している状態で
も、応答データ以外の制御データあるいは保守情報収集
用データが送受信されていれば永久に通信制御プログラ
ムの障害発生を検出できずに正常運用への早期復旧がで
きないという欠点がある。
本発明の目的は、上述の点に鑑み、オンラインシステム
の高負荷時にも通信処理装置上の通信制御プログラムを
不正に障害発生とみなすことがないとともに、アプリケ
ーションデータを一切送受信できなくなるような異常発
生時には通信制御ブコグラムの障害発生の検出を速やか
に行えるようにしたヘルスチェック方式を提供すること
にある。
〔課題を解決するための手段〕
本発明のヘルスチェック方式は、ホストコンピュータ上
の通信管理プログラムが特定の監視用データを通信処理
装置上の通信制御プログラムに送信し通信制御プログラ
ムから監視用データに対する応答データを受信すること
によって通信制御プログラムの動作状態を監視するヘル
スチェック方式において、通信管理プログラムが、通信
制御プログラムから受信するすべてのデータを制御デー
タとアプリケーションデータとに識別して受信回数を管
理する送受信データ管理手段と、監視用データの送信か
ら応答データ受信タイムアウト発生までの間のアプリケ
ーションデータの受信回数を前記送受信データ管理手段
に問い合わせ1回でも受信していればヘルスチェックタ
イムアウト発生と通知し1回も受信していなければヘル
スチェックタイムアウト発生と通知するヘルスチェック
タイムアウト検出手段と、応答データ受信タイムアウト
発往時に面記ヘルスチェックタイムアウト検出手段から
ヘルスチェックタイムアウト発生かどうかの通知を受け
てヘルスチェックタイムアウト発生でなければ次の監視
用データの送信待ちを開始しヘルスチェックタイムアウ
ト発生であれば障害処理を起動するヘルスチェックコマ
ンド管理手段とを有する。
〔作用〕
本発明のヘルスチェック方式では、送受信データ管理手
段が通信制御プログラムから受信するすべてのデータを
制御データとアプリケーションデ−タとに識別して受信
回数を管理し、ヘルスチェックタイムアウト検出手段が
監視用データの送信から応答データ受信タイムアウト発
生までの間のアプリケーションデータの受信回数を送受
信データ管理手段に問い合わせ1回でも受信していれば
ヘルスチェックタイムアウト未発生と通知し1回も受信
していなければヘルスチェ”7フタイムアウト発生と通
知し、ヘルスチェックコマンド管理手段が応答データ受
信タイムアウト発生時にヘルスチェックタイムアウト検
出手段からヘルスチェックタイムアウト発生かどうかの
通知を受けてヘルスチェックタイムアウト発生でなけれ
ば次の監視用データの送信待ちを開始しヘルスチェック
タイムアウト発生であれば障害処理を起動する。
〔実施例〕
次に、本発明について図面を参照して詳細に説明する。
第1図は、本発明の一実施例に係るヘルスチェック方式
の構成を示すブロック図である。本実施例のヘルスチェ
ック方式は、ホストコンピュータ8上で動作する通信管
理プログラム7と、通信処理装置10上で動作する通信
制御プログラム9とから、その主要部が構成されている
通信管理プログラム7は、通信制御プログラム9から受
信する全てのデータを管理しデータ種別ごとにその受信
回数を受信データ管理テーブル4上に記憶する送受信デ
ータ管理手段1と、監視用データ5を送信し監視用デー
タ5に対する応答データ6を監視するヘルスチェックコ
マンド管理手段2と、監視用データ5に対する応答デー
タ6が一定時間内に受信されない場合にヘルスチェック
コマンド管理手段2によって起動され監視用データ5の
送信から応答データ受信監視タイムアウト発生までの間
のアブリケーンヨンデータ受信状態を調べて1回でも受
信していれば正常動作中とし1回も受信していない場合
にはヘルスチェックタイムアウト発生とするヘルスチェ
ックタイムアラ日食山手段3とを含んで構成されている
第2図を参照すると、送受信データ管理手段1における
処理は、処理判定ステップ101と、データ受信回数カ
ウントステップ102と、アプリケーションデータ受信
回数取得ステップ103とからなる。
第3図を参照すると、ヘルスチェックコマンド管理手段
2における処理は、処理ステージ選択ステップ201と
、アプリケーションデータ受信回数取得および記憶ステ
ップ202と、監視用データ送信ステップ203と、応
答データ受信待ちタイマ起動ステップ204と、次監視
用データ送信待ちタイマ起動ステップ205と、ヘルス
チェックタイムアウト発生間合せステップ206と、ヘ
ルスチェックタイムアウト発生判定ステップ207と、
障害処理起動ステップ208とからなる。
第4図を参照すると、ヘルスチェックタイムアウト検出
手段3における処理は、アプリケーションデータ受信回
数取得ステップ301と、アプリケーションデータ受信
回数比較ステップ302と、ヘルスチェックタイムアウ
ト発生通知ステップ303と、ヘルスチェックタイムア
ウト発生通知ステップ304とからなる。
第5図を参照すると、受信データ管理テーブル4は、デ
ータリンクレベル制御データ受信回数401と、アプリ
ケーションデータ受信回数402と、その他のデータ受
信回数403とから構成されている。
第6図を参照すると、監視用データ5は、非アプリケー
ションデータ指示501と、監視コマンド指示502と
、情報503とから構成されている。
第7図を参照すると、応答データ6は、非アプリケーシ
ョンデータ指示601と、監視コマンドに対するレスポ
ンス指示602とから構成されている。
なお、監視用データ5内の非アプリケーションデータ指
示501と応答データ6内の非アプリケーションデータ
指示601とは同一形式であり、データ種別を判定する
ために用いられる。
次に、このように構成された本実施例のへルスチェ7り
方式の動作について説明する。
通信処理装置10上で通信制御プログラム9が活性化さ
れた場合(立ち上げられた場合)、および後述する次監
視用データ送信待ちタイマがタイムアウトした場合には
、ホストコンピュータ8上の通信管理プログラム7では
、ヘルスチェックコマンド管理手段2が処理ステージの
選択を行い(ステップ201)、開始または再開処理ス
テージであるので、送受信データ管理手段1に対してア
プリケーションデータ受信回数402を要求する(ステ
ップ202)。
送受信データ管理手段1は、処理の判定を行い(ステッ
プ101)、アプリケーションデータ受信回数要求の処
理であるので、受信データ管理テーブル4上のアプリケ
ーションデータ受信回数402を取得してヘルスチェッ
クコマンド管理手段2に通知する(ステップ103)。
ヘルスチェックコマンド管理手段2は、送受信データ管
理手段lから通知されたアプリケーションデータ受信回
数402を記憶しくステップ202)、監視用データ5
を通信制御プログラム9に送信して(ステップ203)
、応答データ受信待ちタイマ(図示せず)を起動する(
ステップ204)。
また、通信制御プログラム9からデータを受信した場合
には、送受信データ管理手段lは、データ受信処理であ
るので(ステップ101)、受信データ種別を識別して
受信データ管理テーブル4上の対応するカウンタ領域を
“1”増加する(ステップ102)、詳しくは、送受信
データ管理手段1は、受信データがデータリンクレベル
制御データの場合にはデータリンクレベル制御データ受
信回数401を、アプリケーションデータの場合にはア
プリケーションデータ受信回数402を、その他のデー
タの場合にはその他のデータ受信回数403をそれぞれ
“l”加算する。
応答データ受信待ちタイマのタイムアウト前に通信制御
プログラム9から監視用データ5に対する応答データ6
が返送されてくると、ヘルスチェックコマンド管理手段
2は、応答データ受信処理ステージであるので(ステッ
プ201)、次監視用データ送信待ちタイマ(図示せず
)を起動する(ステップ205)。
通信制御プログラム9から監視用データ5に対する応答
データ6が返送されてくる前に応答データ受信待ちタイ
マがタイムアウトすると、ヘルスチェックコマンド管理
手段2は、応答データ受信タイムアウト処理ステージで
あるので(ステップ201)、ヘルスチェックタイムア
ウト検出手段3にヘルスチェックタイムアウトの発生を
問い合わせる(ステップ206)。
ヘルスチェックタイムアウト検出手段3は、ステップ2
02で述べたのと同様にして送受信データ管理手段1か
ら現在のアプリケーションデータ受信回数402を取得
しくステップ301)、監視用データ5の送信時にステ
ップ202でヘルスチェックコマンド管理手段2により
記憶されたアプリケーションデータ受信回数402と比
較する(ステップ302)。両方のアプリケーションデ
ータ受信回数402が同じ値ならば、監視用データ5の
送信から応答データ受信タイムアウト発生までの間に1
つもアプリケーションデータが受信されていないことを
意味するので、ヘルスチェックタイムアウト検出手段3
は、“ヘルスチェックタイムアウト発生”を指示する情
報をヘルスチェックコマンド管理手段2に通知する(ス
テップ304)。一方、現在のアプリケーションデータ
受信回数402が記憶していたアプリケーションデータ
受信回数402より増加していれば、監視用データ5の
送信から応答データ受信タイムアウト発生までの間に1
つでもアプリケーションデータが受信されていることを
意味するので、ヘルスチェックタイムアウト検出手段3
は、“ヘルスチェックタイムアウト発生せず”を指示す
る情報をヘルスチェックコマンド管理手段2に通知する
(ステップ303)。
ヘルスチェックコマンド管理手段2は、ヘルスチェック
タイムアウト検出手段3からの通知に基づいてヘルスチ
ェックタイムアウト発生か否かを判定しくステップ20
7)、ヘルスチェックタイムアウト発生と判断されれば
通信制御プログラム9の障害発生として障害処理を起動
する(ステンブ208)。また、ヘルスチェックタイム
アウト発生せずと判断されれば、ヘルスチェックコマン
ド管理手段2は、次監視用データ送信待ちタイマを起動
する(ステップ205)。
〔発明の効果〕 以上述べたように本発明は、ホストコンピュータ上の通
信管理プログラムに送受信データ管理手段、ヘルスチェ
ックコマンド管理手段およびヘルスチェックタイムアウ
ト検出手段を設けたことにより、通信制御プログラム自
身は正常動作中でアプリケーションデータの送受信は可
能だがオンラインシステムの負荷が高まり応答データを
一定時間内に返送できないような状態が発生した場合で
も通信制御プログラムは正常動作しているとみなして不
正に障害発生とすることがないという効果がある。
また、アプリケーションデータの送受信が一切不可能に
なったが通信処理装置上の通信制御プログラムの制御デ
ータあるいは保守情報収集用データだけは送受信可能で
あるような障害が発生した場合でも通信制御プログラム
に異常が発生したとみなすことができ、異常発生時に通
信制御プログラムの障害発生を速やかに検出することが
できるという効果がある。
【図面の簡単な説明】
第1図は本発明の一実施例に係るヘルスチェック方式の
構成を示すブロック図、 第2図は第1図中の送受信データ管理手段の詳細な処理
を示す流れ図、 第3図は第1図中のヘルスチェックコマンド管理手段の
詳細な処理を示す流れ図、 第4図は第1図中のヘルスチェックタイムアウト検出手
段の詳細な処理を示す流れ図、第5図は第1回中の受信
データ管理テーブルの詳細な形式を示す図、 第6図は第1図中の監視用データの詳細な形式第7図は
第1図中の応答データの詳細な形式を示す図である。 図において、 ■・・・送受信データ管理手段、 2・・・ヘルスチェックコマンドw理手段、3・・・ヘ
ルスチェックタイムアウト検出手段、4・・・受信デー
タ管理テーブル、 5・・・監視用データ、 6・・・応答データ、 7・・・通信管理プログラム、 8・・・ホストコンピュータ、 9・・・通信制御プログラム、 10・・通信処理装置、 40トデ一タリンクレベル制御データ受信回数、 402・アプリケーションデータ受信回数、403・そ
の他のデータ受信回数、 501・非アプリケーションデータ指示、502・監視
コマンド指示、 503・情報、 601・非アプリケーションデータ指示、602・監視
コマンドに対するレスポンス指示である。 第2図 送受信データ管理手段1 第4図 ヘルスチェックタイムアウト検出手段3第5図 第6図 第7図

Claims (1)

  1. 【特許請求の範囲】 ホストコンピュータ上の通信管理プログラムが特定の監
    視用データを通信処理装置上の通信制御プログラムに送
    信し通信制御プログラムから監視用データに対する応答
    データを受信することによって通信制御プログラムの動
    作状態を監視するヘルスチェック方式において、 通信管理プログラムが、 通信制御プログラムから受信するすべてのデータを制御
    データとアプリケーションデータとに識別して受信回数
    を管理する送受信データ管理手段と、 監視用データの送信から応答データ受信タイムアウト発
    生までの間のアプリケーションデータの受信回数を前記
    送受信データ管理手段に問い合わせ1回でも受信してい
    ればヘルスチェックタイムアウト未発生と通知し1回も
    受信していなければヘルスチェックタイムアウト発生と
    通知するヘルスチェックタイムアウト検出手段と、 応答データ受信タイムアウト発生時に前記ヘルスチェッ
    クタイムアウト検出手段からヘルスチェックタイムアウ
    ト発生かどうかの通知を受けてヘルスチェックタイムア
    ウト発生でなければ次の監視用データの送信待ちを開始
    しヘルスチェックタイムアウト発生であれば障害処理を
    起動するヘルスチェックコマンド管理手段と を有することを特徴とするヘルスチェック方式。
JP1133068A 1989-05-26 1989-05-26 ヘルスチェック方式 Expired - Lifetime JPH087726B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1133068A JPH087726B2 (ja) 1989-05-26 1989-05-26 ヘルスチェック方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1133068A JPH087726B2 (ja) 1989-05-26 1989-05-26 ヘルスチェック方式

Publications (2)

Publication Number Publication Date
JPH02310755A true JPH02310755A (ja) 1990-12-26
JPH087726B2 JPH087726B2 (ja) 1996-01-29

Family

ID=15096090

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1133068A Expired - Lifetime JPH087726B2 (ja) 1989-05-26 1989-05-26 ヘルスチェック方式

Country Status (1)

Country Link
JP (1) JPH087726B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6148339A (en) * 1997-04-09 2000-11-14 Nec Corporation Health check system in network control system utilizing CORBA's event service
JP2008244645A (ja) * 2007-03-26 2008-10-09 Atsumi Electric Co Ltd ネットワーク機器の生存監視システム及びネットワーク機器の生存監視方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6148339A (en) * 1997-04-09 2000-11-14 Nec Corporation Health check system in network control system utilizing CORBA's event service
JP2008244645A (ja) * 2007-03-26 2008-10-09 Atsumi Electric Co Ltd ネットワーク機器の生存監視システム及びネットワーク機器の生存監視方法

Also Published As

Publication number Publication date
JPH087726B2 (ja) 1996-01-29

Similar Documents

Publication Publication Date Title
US6728746B1 (en) Computer system comprising a plurality of machines connected to a shared memory, and control method for a computer system comprising a plurality of machines connected to a shared memory
EP1550036B1 (en) Method of solving a split-brain condition in a cluster computer system
CN110581852A (zh) 一种高效型拟态防御系统及方法
US20080288812A1 (en) Cluster system and an error recovery method thereof
JP2001101033A (ja) オペレーティングシステム及びアプリケーションプログラムの障害監視方法
JPH02310755A (ja) ヘルスチェック方式
JP2001331330A (ja) プロセス異常検知及び復旧システム
JP2000148525A (ja) サービスプロセッサ二重化システムの現用系負荷軽減方法
JP2002116920A (ja) クラスタシステム、クラスタシステムにおける監視方法およびコンピュータプログラム
JPH0736721A (ja) 多重化コンピュータシステムの制御方式
JP2003256399A (ja) ホットスタンバイシステム切り替え制御方式
JPH10171769A (ja) 複合計算機システム
JPH1196033A (ja) 情報処理装置
JPH06290126A (ja) 計算機システム障害監視方式
KR100784595B1 (ko) 이동통신 시스템에서 프로세스 상태 관리 방법
JP2889888B2 (ja) 通信処理装置
JPH11232143A (ja) マルチスレッドの監視方法
JP2531831B2 (ja) ネットワ―ク網通信の状態監視装置
JPS58225738A (ja) 分散形伝送システム
JPH08147255A (ja) 障害監視方式
JPS6129966A (ja) 計算機間メツセ−ジ交換における監視方法
JPH11184814A (ja) 端末切替装置
JPH09160875A (ja) マルチエージェント相互バックアップ方式
JPH05189342A (ja) 通信処理装置動作監視方式
JPS62105243A (ja) システム障害の復旧装置