JP2003044294A - タスク障害検出方式および方法 - Google Patents

タスク障害検出方式および方法

Info

Publication number
JP2003044294A
JP2003044294A JP2001233397A JP2001233397A JP2003044294A JP 2003044294 A JP2003044294 A JP 2003044294A JP 2001233397 A JP2001233397 A JP 2001233397A JP 2001233397 A JP2001233397 A JP 2001233397A JP 2003044294 A JP2003044294 A JP 2003044294A
Authority
JP
Japan
Prior art keywords
response
task
storage area
shared storage
failure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001233397A
Other languages
English (en)
Inventor
Yoshihiko Miyazaki
義彦 宮崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MX Mobiling Ltd
Original Assignee
MX Mobiling Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by MX Mobiling Ltd filed Critical MX Mobiling Ltd
Priority to JP2001233397A priority Critical patent/JP2003044294A/ja
Publication of JP2003044294A publication Critical patent/JP2003044294A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)

Abstract

(57)【要約】 【課題】電子計算機システム上の部分的なソフトウェア
障害の検出に関して、検出方法の安定化を図ることによ
り、システム全体の安定性を向上させることにある。 【解決手段】定期的に発行される実行要求メッセージに
より動作確認手段2,3が共有記憶領域管理手段4に共
有記憶領域5の使用権の要求を行い、共有記憶領域管理
手段4から使用権の許可を得た動作確認手段3が実行要
求メッセージによって動作確認手段2とタスク8とに応
答要求メッセージを発行し、動作確認手段2およびタス
ク8が応答要求メッセージに対して応答メッセージを返
信し、動作確認手段3が応答メッセージの有無に従って
動作状態を「応答有り」と「応答無し」と「障害」との
内のいずれかにして共有記憶領域5に記憶して管理し、
「障害」に分類されたタスクの復旧を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、電子計算機システ
ムにおける障害検出方式および方法に関し、特に、オペ
レーションシステムを用いてタスク単位で機能を実現す
る電子計算機システムにおける障害検出方式および方法
に関する。
【0002】
【従来の技術】従来の技術の一例は、例えば、タスクス
トール検出方法として、特開平10−069390号公
報に開示されている。すなわち、特開平10−0693
90号公報に記載されたタスクストール検出装置は、タ
スク点呼を実行するタスク点呼手段と、タスク点呼手段
を起動する外部タイマ手段と、タスク点呼手段によって
得られたタスクステータス保持手段と、障害が検出され
た場合の復旧手段とで構成されている。
【0003】このような構成を有する従来の技術は次の
ように動作する。すなわち、タスク点呼手段は外部タイ
マ手段によって周期的に起動される。起動されたタスク
点呼手段は、メッセージ発生によって起動されるタスク
それぞれに順次点呼するため起動要求を行う。各タスク
が正常に動作中であればタスク内の点呼応答手段は応答
し、タスクステータス保持手段は点呼の応答によって得
られる情報を保持する。更に、保持手段は点呼応答ステ
ータスをチェックし、「点呼応答無し」のタスクまたは
「処理中」と応答したタスクに対してするカウンタをイ
ンクリメントする。カウンタ値が限界値に達したら、障
害復旧手段を起動して障害の復旧処理を行う。
【0004】
【発明が解決しようとする課題】しかしながら、従来の
技術のタスクストール検出方法は、「タスク点呼手段」
そのものは監視されていないため、「タスク点呼手段」
に障害が発生した場合、以後の障害を検出することが出
来なくなるという問題点がある。
【0005】本発明の目的は、上記問題点を鑑み、タス
クの障害検出機能を強化し、システムの部分的な障害を
検出し、その障害が全体に広がる前に復旧処理を行うこ
とを可能にし、より安定度の高いシステムを提供するこ
とにある。
【0006】
【課題を解決するための手段】上記の目的を達成するた
めに、本発明のタスク障害検出方式は、動的に制御され
る複数のタスクの動作によって単数または複数の機能を
実現する電子計算機システムが定期的に動作中の前記タ
スクに対して応答要求メッセージを発行してその応答要
求メッセージに対する前記タスクからの応答に従って障
害を検出するタスク障害検出方式であって、前記タスク
毎に動作状態を記憶する共有記憶領域と、前記タスクの
動作の確認を行う複数の動作確認手段とを備え、定期的
に前記動作確認手段に対して動作確認処理実行を促す実
行要求メッセージを発行する実行要求手段と、使用権の
許可先を変えながら複数のうち1つの前記動作確認手段
に対して前記共有記憶領域の使用権の許可を与える許可
手段と、前記許可を得た動作確認手段が前記実行要求メ
ッセージによって動作中の前記タスクに応答要求メッセ
ージを発行する第1の応答要求手段と、前記複数のタス
クが前記応答要求メッセージに対する応答メッセージを
返信する第1の応答手段と、前記許可を得た動作確認手
段が前記応答メッセージの有無に従って動作状態を「応
答有り」と「応答無し」と「障害」との内のいずれかに
して前記共有記憶領域に記憶して管理する状態管理手段
と、前記「障害」に分類された前記タスクの復旧を行う
復旧手段とを有することを特徴としている。
【0007】更に、前記許可を得た動作確認手段は、他
の前記動作確認手段に対して前記応答メッセージ発行す
る第2の応答要求手段と、前記他の動作確認手段が前記
応答要求メッセージに対する応答メッセージを返信する
第2の応答手段とを有することを特徴としている。
【0008】更に、前記共有記憶領域に記憶される動作
状態は、前記応答メッセージがある場合は前記「応答有
り」になり、前記応答メッセージがない場合は前記「応
答無し」になり、前記「応答無し」の連続回数が規定値
になった場合には「障害」になることを特徴としてい
る。
【0009】更に、前記他の動作確認手段が前記応答要
求メッセージの監視を行っても来ない場合に前記使用権
の許可を得た動作確認手段の障害として検出する検出手
段を有することを特徴としている。
【0010】また、本発明の第1のタスク障害検出方法
は、動的に制御される複数のタスクの動作によって単数
または複数の機能を実現する電子計算機システムが定期
的に動作中の前記タスクに対して応答要求メッセージを
発行してその応答要求メッセージに対する前記タスクか
らの応答に従って障害を検出するタスク障害検出方法で
あって、前記タスク毎に動作状態を記憶する共有記憶領
域と、前記タスクの動作の確認を行う複数の動作確認手
段とを備え、定期的に前記動作確認手段に対して動作確
認処理実行を促す実行要求メッセージを発行し、使用権
の許可先を変えながら複数のうち1つの前記動作確認手
段に対して前記共有記憶領域の使用権の許可を与え、前
記許可を得た動作確認手段が前記実行要求メッセージに
よって動作中の前記タスクに応答要求メッセージを発行
し、前記複数のタスクが前記応答要求メッセージに対し
て応答メッセージを返信し、前記許可を得た動作確認手
段が前記応答メッセージの有無に従って動作状態を「応
答有り」と「応答無し」と「障害」との内のいずれかに
して前記共有記憶領域に記憶して管理し、前記「障害」
に分類された前記タスクの復旧を行うことを特徴として
いる。
【0011】また、本発明の第2のタスク障害検出方法
は、動的に制御される複数のタスクの動作によって単数
または複数の機能を実現する電子計算機システムが定期
的に動作中の前記タスクに対して応答要求メッセージを
発行してその応答要求メッセージに対する前記タスクか
らの応答に従って障害を検出するタスク障害検出方法で
あって、前記タスクの動作を確認する複数の動作確認手
段と、前記タスクおよび前記動作確認手段毎に動作状態
を記憶する共有記憶領域と、前記共有記憶領域の使用権
の許可先を変えながら複数のうち1つの前記動作確認手
段にのみに使用権を許可する共有記憶領域管理手段とを
準備し、定期的に前記動作確認手段に対して動作確認処
理実行を促す実行要求メッセージを発行し、前記動作確
認手段は、前記実行要求メッセージにより前記共有記憶
領域管理手段に対して前記共有記憶領域の使用権の許可
の要求を行い、前記共有記憶領域管理手段から前記使用
権の許可が来た場合には、動作中の前記タスクおよび他
の前記共有記憶領域手段に対して応答要求メッセージを
発行し、前記応答要求メッセージに対する前記複数のタ
スクおよび他の前記共有記憶領域手段からの応答メッセ
ージを受け取る毎に応答のあった前記タスクおよび前記
共有記憶領域手段に該当する動作状態を「応答有り」に
して前記共有記憶領域に記憶し、規定の時間内に前記応
答メッセージを受け取らなかった場合には無応答のあっ
た前記タスクまたは前記動作確認手段に該当する動作状
態を「応答無し」にして前記共有記憶領域に記憶し、前
記共有記憶領域に記憶した「応答無し」の連続回数が規
定回数に達した前記タスクまたは前記動作確認手段があ
る場合にはその規定回数に達した前記タスクまたは前記
動作確認手段に該当する動作状態を「障害」にして前記
共有記憶領域に記憶し、前記共有記憶領域に記憶した動
作状態を検索することで前記タスクの障害または前記動
作確認手段の障害を検出することを特徴としている。
【0012】更に、上記の第2のタスク障害検出方法に
おいて、前記動作確認手段は、前記共有記憶領域管理手
段から前記使用権の許可が来ない場合には、前記使用権
の許可を得た動作確認手段からの前記応答要求メッセー
ジを監視し、前記応答要求メッセージが来なければ、前
記使用権の許可を得た動作確認手段の障害として検出す
ることを特徴としている。
【0013】更に、上記の第2のタスク障害検出方法に
おいて、前記動作確認手段は、前記タスクの障害を検出
した場合にその障害になった前記タスクに該当するプロ
グラムの再立ち上げを行い、前記動作確認手段の障害を
検出した場合にその障害になった前記動作確認手段に該
当するプログラムの再立ち上げを行うことを特徴として
いる。
【0014】更に、上記の第2のタスク障害検出方法に
おいて、前記動作確認手段は、前記使用権の許可を得た
動作確認手段の障害を検出した場合にその障害になった
前記使用権の許可を得た動作確認手段に該当するプログ
ラムの再立ち上げを行うことを特徴としている。
【0015】
【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して詳細に説明する。図1を参照すると、
本発明の実施形態の一例として装置の内部の構成を示
す。すなわち、装置は、動作確認起動手段1と、動作確
認手段2と、動作確認手段3と、共有記憶領域管理手段
4と、共有記憶領域5と、復旧手段6と、使用権テーブ
ル7と、複数のタスク8とから構成されている。動作確
認起動手段1と動作確認手段2と動作確認手段3と共有
記憶領域管理手段4と復旧手段6とは、図示していない
プロセッサによりプログラムで動作し、複数のタスク8
は、図示していないプロセッサにより動作した場合の機
能ブロックを示す。この場合、タスク処理を行うプロセ
ッサと、動作確認起動手段1と動作確認手段2と動作確
認手段3と共有記憶領域管理手段4と復旧手段6との処
理を行うプロセッサは、別々にしたが、同じプロセッサ
であっても良い。
【0016】共有記憶領域5は、図示していない読出し
書き込みのできる記憶部(例えば、RAM)内に割当て
られており、図2に示すように監視対象となる監視ID
を示すタスクエリアと、監視IDに対する動作状態(応
答の有無または障害)を示す状態エリアと、監視IDに
対する無応答の回数を示すカウンタエリアとを含む。す
なわち、共有記憶領域5には、監視ID毎に動作状態の
内容と無応答の回数とが記録される。この場合、の監視
IDとは、立ち上がっている(動作中)の動作確認手段
2,3と複数のタスク8とを識別する識別子(ID)を
示す。
【0017】使用権テーブル7は、図示していない読出
し書き込みのできる記憶部(例えば、RAM)内に割当
てられており、図3に示すように共有記憶領域5の使用
の優先を示す動作確認起動手段のID(動作確認手段
2,3の区別を示すID)を示す使用権IDエリアと、
動作確認手段2が認識している使用権獲得の動作確認起
動手段のIDを示す動作確認手段2の受信IDエリア
と、動作確認手段3が認識している使用権獲得の動作確
認起動手段のIDを示す動作確認手段3の受信IDエリ
アとを含んでいる。
【0018】動作確認起動手段1は、装置内の図示して
いないインターバルタイマにより一定周期ごとにプロセ
ッサにより起動される。起動された動作確認起動手段1
は、存在する動作確認手段2および動作確認手段3に対
して動作確認処理実行を促す実行要求メッセージを発行
する手段を有する。
【0019】動作確認手段2は、内部に応答手段21
と、応答要求手段22と、状態管理手段23とを有す
る。動作確認手段3は、内部に応答手段31と、応答要
求手段32と、状態管理手段33とを有する。
【0020】動作確認手段2,3の応答要求手段22,
32は、動作確認起動手段1によって発行された実行要
求メッセージを受け取り、状態管理手段23,33を介
して共有記憶領域管理手段4に対して、共有記憶領域5
の使用権を要求するように指示する手段を有する。な
お、この場合のメッセージのやり取りの一例としては、
要求側が図示していない記憶部(例えば、RAM)内の
予め決められたエリア(FIFO形式になっているため
複数の保存が可能)にメッセージ(コマンドの種別、送
信先ID、送信元ID、データ)を書き込み、その後、
ディスパッチャのプログラムを実行するプロセッサが書
き込んだメッセージを読み出して、メッセージの相手先
(送信先ID)であり、既に立ち上がっているプログラ
ム(例えば、本発明では、動作確認手段、タスク)に割
り込みをかけ、メッセージを渡す。受信側は、受け取る
と記憶部からメッセージを消去する。以降、説明のメッ
セージのやり取りは、このことを意味しているので、以
降の説明では、メッセージの送受信だけを説明するだけ
で記憶部を介した説明は省略する。更に、応答要求手段
22,32は、状態管理手段23,33の指示により、
全タスクおよび他方の動作確認への応答要求メッセージ
の発行を行う手段を有する。
【0021】動作確認手段2,3の状態管理手段23,
33は、共有記憶領域管理手段4に対して、共有記憶領
域5の使用権を要求する手段を有する。状態管理手段2
2,32は、使用権の要求の応答として受け取ったID
が自分自身であれば使用権の許可を得たと判断して応答
要求手段22または32に対して、全タスクおよび他方
の動作確認手段への応答要求メッセージの発行を指示す
る手段を有する。状態管理手段23,33は、使用権の
要求の応答として受け取ったIDが他者であれば使用権
の許可を得られなかったと判断して現在動作中の動作確
認手段のIDを使用権テーブル7の使用権エリアに記憶
し、使用権を得た動作確認手段からの応答要求メッセー
ジの監視を行う指示を応答手段21,31に対して出す
手段を有する。
【0022】状態管理手段23,33は、応答要求手段
22,32が出した応答要求メッセージの宛先のタスク
および他方の動作確認手段に対して図示していない監視
タイマAにより一定時間応答(応答メッセージの受け取
り)を監視し、応答があった物に関しては「応答有り」
として共有記憶領域5内の該当するタスクまたは動作確
認手段(監視ID)の状態エリアの内容を更新し、検出
した監視IDに該当するカウンタエリアの内容をリセッ
トする手段を有する。状態管理手段23,33は、応答
が無かった物に関しては「応答無し」として共有記憶領
域5内部の検出した監視IDに該当する状態エリアの内
容を更新し、監視IDに該当するカウンタエリアの内容
をインクリメントし、このカウンタエリアの内容を参照
し、規定値を越えている場合には状態エリアの内容を
「障害」に更新して、復旧手段6に対して障害報告を行
う手段を有する。
【0023】動作確認手段2,3の応答手段21は、状
態管理手段22,33の指示により、他方の使用権を得
た動作確認手段からの応答メッセージの監視を図示して
いない監視タイマBにより行い、応答要求メッセージを
受け取ったら応答メッセージを返す手段を有する。
【0024】共有記憶領域管理手段4は、動作確認手段
2,3から受け取った使用権の要求に対して、使用権を
持っている動作確認手段のIDを応答として返す手段を
有する。この場合、共有記憶領域管理手段4は、使用権
の要求は最初の一つ目を受けてから一定時間他からの要
求を待ち、一定時間たったところで要求を発行した中で
一番優先度の高い動作確認手段に使用権を与える。この
優先度は最も最近使用権を得た物を低くしている。この
優先度は、共有記憶領域管理手段4が使用権の開放要求
を受ける毎に交互に変わる。従って、共有記憶領域管理
手段4が使用権として動作確認手段の返すIDは、動作
確認手段2,3のいずれか一方のIDである。すなわ
ち、共有記憶領域管理手段4は、使用権の開放要求を受
けると、ラウンドロビン方式で順に使用権となる動作確
認手段のIDを変更していくことになるが、図1の例で
は、使用権のIDをもう一方の動作確認手段のIDを使
用権テーブル7の使用権IDに更新する手段を有する。
【0025】タスク8は、内部に応答手段81を有す
る。
【0026】タスク8の内部処理の1部である応答手段
81は、応答要求メッセージを受けとると、応答を返す
手段を有する。
【0027】復旧手段6は障害報告に従って処理を行
う。タスク8が障害という報告を受けた場合には、障害
のあったタスク8が行うべき処理を他のタスク8に割り
当て、障害のあったタスク8の初期化(再立ち上げ)を
行う手段を有し、障害が動作確認手段であった場合に
は、障害のあった動作確認手段を再立ち上げする手段を
有する。
【0028】なお、共有記憶領域管理手段4および復旧
手段6は、動作確認手段2または動作確認手段3により
起動され、そのときの情報(コマンドの種別、送信側の
ID、受信側のID、データ)やり取りの一例として
は、図示していない記憶部内の予め決められたエリアに
書き込まれ、受信側は、その情報を読み取ることでコマ
ンドの種別、送受信側のID等を識別する。
【0029】また、監視タイマAおよび監視タイマBの
時間の設定値は、インターバルタイマの時間の設定値よ
りも十分に小さい値が予め設定されている。
【0030】図4を参照すると、一定間隔で発生するイ
ンターバルタイマ割込みによる動作確認起動手段2,3
の動作を示すフローチャートである。
【0031】図5を参照すると、各種メッセージ受け取
り時における動作確認手段2,3の動作を示すフローチ
ャートである。
【0032】図6を参照すると、応答要求メッセージに
対する応答メッセージの監視を行う監視タイマA割込み
による動作確認手段2,3の動作を示すフローチャート
である。
【0033】図7を参照すると、共有記憶領域5の使用
権の要求受け取りにおける共有記憶領域管理手段4の動
作を示すフローチャートである。
【0034】図8を参照すると、共有記憶領域5の使用
権の開放要求受け取りにおける共有記憶領域管理手段4
の動作を示すフローチャートである。
【0035】図9を参照すると、応答要求メッセージ受
け取り時におけるタスク8の応答手段81の動作を示す
フローチャートである。
【0036】図10を参照すると、障害報告受け取り時
における復旧手段6の動作を示すフローチャートであ
る。
【0037】図11を参照すると、応答要求メッセージ
受け取りの監視を行う監視タイマB割り込みによる動作
確認手段2,3の動作を示すフローチャートである。
【0038】次に、図1〜図11を参照して、本発明の
実施の形態の動作について説明する。今、共有記憶領域
5の監視IDエリアには、既に立ち上がっている動作確
認手段2,3と、複数のタスク8(タスク8−1〜タス
ク8−N)が登録されている。このような状態の基で、
動作確認起動手段1は、図示していないインターバルタ
イマにより一定周期ごとにプロセッサにより起動され
る。起動された動作確認起動手段1は、存在する動作確
認手段2および動作確認手段3に対して実行要求メッセ
ージを発行し、処理を終了する(図4のステップS10
1)。
【0039】動作確認起動手段1によって発行された実
行要求メッセージは、動作確認手段2,3内部の応答要
求手段22,32によって受け取られる。応答要求手段
22,32は、受け取ったメッセージの内容が実行要求
であるため、状態管理手段23,33を介して共有記憶
量域管理手段4に対して、共有記憶領域5の使用権を要
求する(図5のステップS201,S202)。
【0040】共有記憶領域管理手段4は、受け取った使
用権の要求に対して、一定時間待ってから使用権テーブ
ル7の使用権IDエリアから使用権を持つ動作確認手段
のIDを読み出して、要求元(この場合は両方)の動作
確認手段2,3に応答として返す(図7のステップS4
01,S402)。この場合、動作確認手段2,3は、
自身のIDが返されれば使用可能、自身のID以外が返
されれば使用不可能と判断できる。ここでは動作確認手
段3のIDが返された物として話を進める。
【0041】自身のIDを受け取った動作確認手段3の
状態管理手段33は、応答要求手段32に対して、全タ
スク8への応答要求メッセージおよびもう一方の動作確
認手段2への応答要求メッセージの発行を指示する。す
ると、応答要求手段32は、各タスク8−1〜8−Nお
よび動作確認手段2に対して応答要求メッセージを発行
する(図5のステップS203,S204,S20
5)。更に、応答要求手段32は、状態管理手段33に
制御を渡すと、状態管理手段33は、装置内の図示して
いない監視タイマAを起動して終了する(ステップS2
06)。
【0042】応答要求メッセージを受け取った各タスク
8(タスク8−1〜8−N)は、応答手段81に制御を
渡し、制御を受けた応答手段81は、応答要求メッセー
ジの要求元である動作確認手段3に対して応答メッセー
ジを返す(図9のステップS601)。
【0043】また、動作確認手段3から応答要求メッセ
ージを受け取った動作確認手段2の応答手段21は、応
答要求メッセージの監視を行っていた監視タイマBをリ
セットする(図5のステップS201,S210)。更
に、応答手段21は、使用権テーブル7の受信IDエリ
アの内容を読出し、読み出した受信IDエリアの内容と
応答要求メッセージの送信元のIDとが一致するかを比
較する(図5のステップS211)。この場合、IDは
一致するので、応答手段21は、要求元の動作確認手段
3に応答メッセージを返す(ステップS212,S21
3)。更に、応答手段21は、使用権テーブル7の動作
確認手段2の受信IDエリアをリセットし、終了する
(ステップS214)。
【0044】一方、動作確認手段3の状態管理手段33
は、図5のステップS206において、監視タイマAを
起動することにより一定時間応答メッセージの受け取り
を監視することになるが、各タスク8または応答確認手
段2から応答メッセージを受け取ると、共有記憶領域5
内で応答のあった監視IDに該当する状態エリアの内容
を「応答有り」に更新し、該当するカウンタエリアをリ
セット(クリア)し終了する(図5のステップS20
1,S215)。しかし、応答が無かった物に関して
は、共有記憶領域5内の状態エリア内がクリアされたま
ま(「応答有り」になっていない)である。やがて、監
視タイマAにより割り込みが発生すると、動作確認手段
3の状態管理手段33は、共有記憶領域内の状態エリア
の内容が「応答有り」になっているかを順に検索し、
「応答有り」になっていないものがあれば、共有記憶領
域5内部で検出した監視IDに該当する状態エリアの内
容を「応答無し」に更新し、該当するカウンタエリアの
内容を+1インクリメントする(図6のステップS30
1〜S304)。更に、状態管理手段33は、共有記憶
領域5内部のカウンタエリアの内容を順に検索し、規定
値を越えているものがあれば、共有記憶領域5内で検出
した監視IDに該当する状態エリアの内容を「障害」に
更新する(ステップS305,S306,S307,S
308)、更に、状態管理手段33は、共有記憶領域5
内の状態エリアに「障害」があれば、復旧手段6に対し
て障害の報告を行う(ステップS309,S310)。
【0045】復旧手段6は、動作確認手段3からの障害
報告に従って処理を行う。例えば、タスク8−2が障害
という報告を受けた場合には、復旧手段6は、どのID
で起こった障害なのかを受け取った障害内容から解析
し、タスク障害であるので、ステップS703に進む
(図10のステップS701,S702)。更に、復旧
手段6は、タスク8−2が行うべき処理を他のタスク8
に割り当て、タスク8−2の初期化(再立ち上げ)を行
い、終了を障害報告元の動作確認手段3に通知して終了
する(ステップS703,S704,S705)。
【0046】障害が動作確認手段2であった場合には、
復旧手段6は、どのIDで起こった障害なのかを受け取
った障害内容から解析し、動作確認手段の障害であるの
で、ステップS706に進む(図10のステップS70
1,S702)。更に、復旧手段6は、障害のあった動
作確認手段2に対応するプログラムを再立ち上げし、終
了を障害報告元の動作確認手段3に通知して終了する
(ステップS706,S705)。
【0047】一方、図5のステップS310において、
復旧手段6に対して障害報告を行った動作確認手段3の
状態管理手段33は、復旧手段6からの終了報告を待っ
ているが、やがて終了報告がくると、共有記憶領域5の
状態エリアの内容で「応答無し」を除き、全てクリアす
る(図6のステップS311,S312)。そして、状
態管理手段33は、最後に共有記憶領域管理手段4に対
して共有記憶領域の開放要求を発行し、終了する(ステ
ップS313)。
【0048】動作確認手段3から開放要求を受け取った
共有記憶領域管理手段4は、共有記憶領域5の所有権の
IDをもう一方の動作確認手段2のIDにして使用権テ
ーブル7の使用権IDエリアに格納し、終了する(図8
のステップS501)。
【0049】次に動作確認手段2の状態管理手段23が
図5のステップS204において、共有記憶領域管理手
段4より他者のIDを受け取った場合の動作を説明す
る。
【0050】動作確認手段2の状態管理手段23は、受
け取った動作確認手段3のIDを現在動作中の動作確認
手段のIDとして使用権テーブル7の動作確認手段2の
受信IDエリアに記憶する(図5のステップS204,
S208)。更に、状態管理手段23は、使用権の許可
を得た動作確認手段3からの応答メッセージを監視する
ために、応答手段21を介して装置内の図示していない
監視タイマBを起動し、動作確認手段3からの応答要求
メッセージを待つ(図5のステップS209)。
【0051】やがて、動作確認手段2の応答手段21
は、動作確認手段3からの応答要求メッセージを受け取
ると、監視タイマBをリセットする(図5のステップS
201,S210)。更に、応答手段21は、使用権テ
ーブル7の受信IDエリアの内容を読出し、読み出した
受信IDエリアの内容と応答要求メッセージの送信元の
IDとが一致するかを比較する(図5のステップS21
1)。この場合、IDは一致するので、応答手段21
は、要求元の動作確認手段3に応答メッセージを返す
(ステップS212,S213)。更に、応答手段21
は、使用権テーブル7の受信IDエリアをリセットし、
終了する(ステップS212)。
【0052】図5のステップS209において、動作確
認手段2の応答手段21は、監視タイマBを起動するこ
とで予め決められた時間の間、動作確認手段3からの応
答要求メッセージを待つことになるが、応答要求メッセ
ージが来ないと、やがて、監視タイマBによる割込み発
生する。すると、動作確認手段2の応答手段21は、動
作確認手段3の障害を検出し、動作確認手段3に障害が
あったこと(使用権テーブル7の使用権IDから読み出
した動作確認手段3のIDを付加)を復旧手段6に対し
て障害報告を行う(ステップS801)。
【0053】動作確認手段2から障害報告を受け取った
復旧手段6は、どのIDで起こった障害なのかを受け取
った障害内容から解析し、動作確認手段の障害であるの
で、ステップS706に進む(図10のステップS70
1,S702)。更に、復旧手段6は、障害のあった動
作確認手段3に対応するプログラムを再立ち上げし、終
了を障害報告元の動作確認手段2に通知して終了する
(ステップS706,S704,S705)。
【0054】一方、図5のステップS801において、
復旧手段6に対して障害報告を行った動作確認手段2の
応答手段21は、やがて、復旧手段6からの終了報告に
より、共有記憶領域管理手段4に対して共有記憶領域の
開放要求を発行し、終了する(ステップS802,S8
03)。
【0055】動作確認手段2から開放要求を受け取った
共有記憶領域管理手段4は、共有記憶領域5の所有権I
Dを動作確認手段2のIDにして使用権テーブル7の使
用権エリアに格納し、終了する(図8のステップS50
1)。すなわち、使用権テーブル7の使用権エリアの内
容がもう一方の動作確認手段のIDに変更されることに
なる。
【0056】なお、上記の図5のステップS204にお
いて、共有記憶領域管理手段4から使用権の要求に対す
る応答がない場合には、動作確認手段2の状態管理手段
23および動作確認手段3の状態管理手段33は、共有
記憶領域管理手段4の障害と判断し、復旧手段6に対し
て共有記憶領域管理手段4の障害を報告して終了する。
【0057】上記の説明において、電子計算機システム
を1つの装置として説明したが、タスク8を行う複数の
装置とネットワーク(例えば、イーサネット(登録商
標))を介して、動作確認起動手段1と複数の動作確認
手段2と共有記憶領域管理手段4と共有記憶領域5と復
旧手段6と使用権テーブル7を有する装置を構成するよ
うにしても良い。この場合のネットワークを介して装置
間で行われるメッセージのやり取りは、通信プロトコル
に従って行われる。
【0058】また、上記の説明において、動作確認手段
を2つとして説明したが、動作確認手段が3つ以上の複
数になったとしても、共有記憶領域5の使用権をラウン
ドロビン方式により動作確認手段に与えるようすれば、
上記の説明と同じように、共有記憶領域5の使用権を得
た動作確認手段がタスク8およびそれ以外の動作確認手
段の実行要求メッセージにより監視を行い、それ以外の
動作確認手段が使用権を得た動作確認手段からの応答要
求メッセージの監視を行うことができることは言うまで
もない。
【0059】以上説明したように、本発明は、タスクの
動作状態を監視する動作確認手段を複数設けたので、複
数のうちの1つ動作確認手段に障害が起こったとして
も、使用権の与え先を変動させながら複数のうちの1つ
に使用権を与えるようにしているため、複数のタスク8
の障害監視を継続することができる。
【0060】また、本発明は、使用権の許可を得た動作
確認手段が監視対象として他の動作確認手段に対しても
動作状態を監視するようにしているため、動作確認手段
の障害を検出することができる。
【0061】また、本発明は、動作確認手段2,3と複
数のタスク8との動作状態を監視し、障害を検出すれ
ば、復旧処理を行うようにしているため、より安定度の
高いシステムを提供することができる。
【0062】
【発明の効果】以上説明したように、本発明は、タスク
の動作状態を監視する動作確認手段を複数設けたので、
複数のうちの1つ動作確認手段に障害が起こったとして
も、使用権の与え先を変動させながら複数のうちの1つ
に使用権を与えるようにしているため、タスクの障害監
視を継続することができるという効果がある。
【0063】また、本発明は、使用権の許可を得た動作
確認手段が監視対象として他の動作確認手段に対しても
動作状態を監視するようにしているため、動作確認手段
の障害を検出することができるという効果がある。
【0064】また、本発明は、動作確認手段と複数のタ
スクとの動作状態を監視し、障害を検出すれば、復旧処
理を行うようにしているため、より安定度の高いシステ
ムを構築することができるという効果がある。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態の構成を示すブロッ
ク図である。
【図2】図1の共有記憶領域内のエリアの構成の概略を
示した概略図である。
【図3】図1の使用権テーブルの構成の概略を示す概略
図である。
【図4】インターバルタイマ割込みによる図1の動作確
認起動手段の動作を示すフローチャートである。
【図5】メッセージ受け取り時における図1の動作確認
手段の動作を示すフローチャートである。
【図6】監視タイマA割込みによる図1の動作確認手段
の動作を示すフローチャートである。
【図7】使用権の要求受け取り時における図1の共有記
憶領域管理手段の動作を示すフローチャートである。
【図8】開放要求受け取り時における図1の共有記憶領
域管理手段の動作を示すフローチャートである。
【図9】図1のタスク内の応答要求メッセージ受け取り
時の動作を示すフローチャートである。
【図10】障害報告受け取り時における図1の復旧手段
の動作を示すフローチャートである。
【図11】監視タイマB割込みによる図1の動作確認手
段の動作を示すフローチャートである。
【符号の説明】
1 動作確認起動手段 2,3 動作確認手段 4 共有記憶領域管理手段 5 共有記憶領域 6 復旧手段 7 使用権テーブル 8 タスク 21,31 応答手段 22,32 応答要求手段 23,33 状態管理手段

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 動的に制御される複数のタスクの動作に
    よって単数または複数の機能を実現する電子計算機シス
    テムが定期的に動作中の前記タスクに対して応答要求メ
    ッセージを発行してその応答要求メッセージに対する前
    記タスクからの応答に従って障害を検出するタスク障害
    検出方式であって、前記タスク毎に動作状態を記憶する
    共有記憶領域と、前記タスクの動作の確認を行う複数の
    動作確認手段とを備え、定期的に前記動作確認手段に対
    して動作確認処理実行を促す実行要求メッセージを発行
    する実行要求手段と、使用権の許可先を変えながら複数
    のうち1つの前記動作確認手段に対して前記共有記憶領
    域の使用権の許可を与える許可手段と、前記許可を得た
    動作確認手段が前記実行要求メッセージによって動作中
    の前記タスクに応答要求メッセージを発行する第1の応
    答要求手段と、前記複数のタスクが前記応答要求メッセ
    ージに対する応答メッセージを返信する第1の応答手段
    と、前記許可を得た動作確認手段が前記応答メッセージ
    の有無に従って動作状態を「応答有り」と「応答無し」
    と「障害」との内のいずれかにして前記共有記憶領域に
    記憶して管理する状態管理手段と、前記「障害」に分類
    された前記タスクの復旧を行う復旧手段とを有すること
    を特徴とするタスク障害検出方式。
  2. 【請求項2】 前記許可を得た動作確認手段は、他の前
    記動作確認手段に対して前記応答メッセージ発行する第
    2の応答要求手段と、前記他の動作確認手段が前記応答
    要求メッセージに対する応答メッセージを返信する第2
    の応答手段とを有することを特徴とする請求項1記載の
    タスク障害検出方式。
  3. 【請求項3】 前記共有記憶領域に記憶される動作状態
    は、前記応答メッセージがある場合は前記「応答有り」
    になり、前記応答メッセージがない場合は前記「応答無
    し」になり、前記「応答無し」の連続回数が規定値にな
    った場合には「障害」になることを特徴とする請求項1
    または2記載のタスク障害検出方式。
  4. 【請求項4】 前記他の動作確認手段が前記応答要求メ
    ッセージの監視を行っても来ない場合に前記使用権の許
    可を得た動作確認手段の障害として検出する検出手段を
    有することを特徴とする請求項2記載のタスク障害検出
    方式。
  5. 【請求項5】 動的に制御される複数のタスクの動作に
    よって単数または複数の機能を実現する電子計算機シス
    テムが定期的に動作中の前記タスクに対して応答要求メ
    ッセージを発行してその応答要求メッセージに対する前
    記タスクからの応答に従って障害を検出するタスク障害
    検出方法であって、前記タスク毎に動作状態を記憶する
    共有記憶領域と、前記タスクの動作の確認を行う複数の
    動作確認手段とを備え、定期的に前記動作確認手段に対
    して動作確認処理実行を促す実行要求メッセージを発行
    し、使用権の許可先を変えながら複数のうち1つの前記
    動作確認手段に対して前記共有記憶領域の使用権の許可
    を与え、前記許可を得た動作確認手段が前記実行要求メ
    ッセージによって動作中の前記タスクに応答要求メッセ
    ージを発行し、前記複数のタスクが前記応答要求メッセ
    ージに対して応答メッセージを返信し、前記許可を得た
    動作確認手段が前記応答メッセージの有無に従って動作
    状態を「応答有り」と「応答無し」と「障害」との内の
    いずれかにして前記共有記憶領域に記憶して管理し、前
    記「障害」に分類された前記タスクの復旧を行うことを
    特徴とするタスク障害検出方法。
  6. 【請求項6】 動的に制御される複数のタスクの動作に
    よって単数または複数の機能を実現する電子計算機シス
    テムが定期的に動作中の前記タスクに対して応答要求メ
    ッセージを発行してその応答要求メッセージに対する前
    記タスクからの応答に従って障害を検出するタスク障害
    検出方法であって、前記タスクの動作を確認する複数の
    動作確認手段と、前記タスクおよび前記動作確認手段毎
    に動作状態を記憶する共有記憶領域と、前記共有記憶領
    域の使用権の許可先を変えながら複数のうち1つの前記
    動作確認手段にのみに使用権を許可する共有記憶領域管
    理手段とを準備し、定期的に前記動作確認手段に対して
    動作確認処理実行を促す実行要求メッセージを発行し、
    前記動作確認手段は、前記実行要求メッセージにより前
    記共有記憶領域管理手段に対して前記共有記憶領域の使
    用権の許可の要求を行い、前記共有記憶領域管理手段か
    ら前記使用権の許可が来た場合には、動作中の前記タス
    クおよび他の前記共有記憶領域手段に対して応答要求メ
    ッセージを発行し、前記応答要求メッセージに対する前
    記複数のタスクおよび他の前記共有記憶領域手段からの
    応答メッセージを受け取る毎に応答のあった前記タスク
    および前記共有記憶領域手段に該当する動作状態を「応
    答有り」にして前記共有記憶領域に記憶し、規定の時間
    内に前記応答メッセージを受け取らなかった場合には無
    応答のあった前記タスクまたは前記動作確認手段に該当
    する動作状態を「応答無し」にして前記共有記憶領域に
    記憶し、前記共有記憶領域に記憶した「応答無し」の連
    続回数が規定回数に達した前記タスクまたは前記動作確
    認手段がある場合にはその規定回数に達した前記タスク
    または前記動作確認手段に該当する動作状態を「障害」
    にして前記共有記憶領域に記憶し、前記共有記憶領域に
    記憶した動作状態を検索することで前記タスクの障害ま
    たは前記動作確認手段の障害を検出することを特徴とす
    るタスク障害検出方法。
  7. 【請求項7】 前記動作確認手段は、前記共有記憶領域
    管理手段から前記使用権の許可が来ない場合には、前記
    使用権の許可を得た動作確認手段からの前記応答要求メ
    ッセージを監視し、前記応答要求メッセージが来なけれ
    ば、前記使用権の許可を得た動作確認手段の障害として
    検出することを特徴とする請求項6記載のタスク障害検
    出方法。
  8. 【請求項8】 前記動作確認手段は、前記タスクの障害
    を検出した場合にその障害になった前記タスクに該当す
    るプログラムの再立ち上げを行い、前記動作確認手段の
    障害を検出した場合にその障害になった前記動作確認手
    段に該当するプログラムの再立ち上げを行うことを特徴
    とする請求項6または7記載のタスク障害検出方法。
  9. 【請求項9】 前記動作確認手段は、前記使用権の許可
    を得た動作確認手段の障害を検出した場合にその障害に
    なった前記使用権の許可を得た動作確認手段に該当する
    プログラムの再立ち上げを行うことを特徴とする請求項
    7記載のタスク障害検出方法。
JP2001233397A 2001-08-01 2001-08-01 タスク障害検出方式および方法 Pending JP2003044294A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001233397A JP2003044294A (ja) 2001-08-01 2001-08-01 タスク障害検出方式および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001233397A JP2003044294A (ja) 2001-08-01 2001-08-01 タスク障害検出方式および方法

Publications (1)

Publication Number Publication Date
JP2003044294A true JP2003044294A (ja) 2003-02-14

Family

ID=19065177

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001233397A Pending JP2003044294A (ja) 2001-08-01 2001-08-01 タスク障害検出方式および方法

Country Status (1)

Country Link
JP (1) JP2003044294A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018092571A (ja) * 2016-04-20 2018-06-14 株式会社リコー 電子装置、再起動方法およびプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018092571A (ja) * 2016-04-20 2018-06-14 株式会社リコー 電子装置、再起動方法およびプログラム

Similar Documents

Publication Publication Date Title
TW201944236A (zh) 任務處理方法、裝置及系統
US9208029B2 (en) Computer system to switch logical group of virtual computers
WO2016106682A1 (zh) 一种集群脑裂后仲裁处理方法、仲裁存储装置以及系统
CN111538763B (zh) 一种确定集群中主节点的方法、电子设备和存储介质
JP2005520429A5 (ja)
JP2003022258A (ja) サーバーのバックアップシステム
KR20200078328A (ko) 소프트웨어 애플리케이션 프로세스를 모니터링하는 시스템 및 방법
CN105373563B (zh) 数据库切换方法及装置
JP2006285867A (ja) ファイル管理システム、監視サーバ、ファイルサーバ、ファイル管理方法、及び、プログラム
KR20150049559A (ko) 클러스터 노드 상태 변경 장치 및 방법과 그 프로그램을 기록한 기록 매체
JP2003044294A (ja) タスク障害検出方式および方法
JP2016042338A (ja) 情報処理システム、情報処理装置、情報処理装置の制御方法、及びプログラム
CN112367386A (zh) 基于Ignite的自动化运维方法、装置及计算机设备
JP2009009408A (ja) ストレージシステムとストレージシステムにおける管理方法
JP3821711B2 (ja) 通信管理装置,通信管理プログラム
CN116991591B (zh) 一种数据调度方法、装置及存储介质
CN114465879B (zh) 管理节点选举方法及装置、存储介质及电子设备
KR100622620B1 (ko) 운영-대기(Active-Standby) 모드로이중화된 IP 통신 시스템에서 발생하는 장애 상황을감지하기 위한 시스템 및 그 방법
JP3487440B2 (ja) 共有メモリアクセス方式
CN108959170B (zh) 虚拟设备管理方法、装置、堆叠系统及可读存储介质
JP6901677B2 (ja) 管理プログラム、管理装置および管理方法
JP3841229B2 (ja) メッセージ同期型データ処理システム
JPH01183744A (ja) プロセッサストール監視装置
JP3091791B2 (ja) メッセージ型データ処理システム
CN117221375A (zh) 节点状态检测方法、电子设备及可读存储介质

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20050322

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050621

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20051018