JPH04340649A - サブシステムのダウン検出方式 - Google Patents

サブシステムのダウン検出方式

Info

Publication number
JPH04340649A
JPH04340649A JP3112901A JP11290191A JPH04340649A JP H04340649 A JPH04340649 A JP H04340649A JP 3112901 A JP3112901 A JP 3112901A JP 11290191 A JP11290191 A JP 11290191A JP H04340649 A JPH04340649 A JP H04340649A
Authority
JP
Japan
Prior art keywords
subsystem
kernel
message
monitoring
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP3112901A
Other languages
English (en)
Inventor
Takashi Nakamura
敬 中村
Satohiko Yaguchi
矢口 聰彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP3112901A priority Critical patent/JPH04340649A/ja
Publication of JPH04340649A publication Critical patent/JPH04340649A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は,マルチプロセッサシス
テムにおいて,サブシステムがダウンした場合に,これ
をシステムの監視により検出するのではなく,サブシス
テム側から自己申告させることにより検出するサブシス
テムのダウン検出方式に関する。
【0002】近年,ネットワークを用いた分散型システ
ム,マルチプロセッサシステム,メッセージベースシス
テムなど,サブシステムが協力して一つのシステムを構
築するような計算機システムが増えてきている。このた
め,サブシステムのダウンを検出し,この影響がシステ
ム全体に及ぶことを防止する必要があり,そのサブシス
テムのダウンの検出を,できるだけ低い定常コストで実
現する技術が必要とされる。
【0003】また,フォールトトレラント(FT)シス
テムなど,サブシステムを冗長化したシステムでは,ダ
ウンしたサブシステムを切り離し,代わりのサブシステ
ムを立ち上げるため,サブシステムのダウンを効率的に
検出する必要がある。
【0004】
【従来の技術】図3はシングルプロセッサシステムによ
る従来のダウン検出方式の例,図4はマルチプロセッサ
システムなどにおける従来技術による監視サーバ方式の
例を示している。図中,10はCPUおよびメモリなど
からなるプロセッサ,13はオペレーティング・システ
ムの核であるカーネル,30はサブシステム,40はサ
ーバプロセス,41は監視サーバを表す。
【0005】シングルプロセッサシステムでは,図3に
示すように,サブシステム30は,自サブシステムがダ
ウンするとき,カーネル13に割り出しをあげることに
より,ダウンを通知し,カーネル13が全サブシステム
を監視する方式が用いられている。しかし,マルチプロ
セッサシステムでは,カーネル13が各プロセッサに分
散することになるため,この方式では,全サブシステム
を統一的に監視することはできない。
【0006】そこで,マルチプロセッサシステムでは,
例えば図4に示すような監視サーバ方式によるダウンの
検出を行っている。マルチプロセッサシステムでは,サ
ブシステムがダウンしていなことを確認するために,監
視サーバ41を設け,この監視サーバ41は,タイマ等
による監視を行い,一定時間ごとに監視対象がダウンし
ていないかどうかを確認する。
【0007】例えば,メッセージベースのシステムでは
,複数のサーバプロセス40をサブシステムと見ること
ができる。この場合,図4に示すように,サーバプロセ
ス40のダウンを検出する監視サーバ41を設け,この
監視サーバ41が例えば1秒というような所定の周期で
各サーバプロセス40にメッセージを送り付け,各サー
バプロセス40からの応答メッセージにより,各サーバ
プロセス40がダウンしていないことを確認する。
【0008】
【発明が解決しようとする課題】マルチプロセッサシス
テムにおいて,監視サーバ方式を用いた場合,次のよう
な問題がある。 (a) 一定時間ごとに監視タイマで監視する方式であ
るため,ダウン発生からダウン検出までに要する時間は
,最大の場合タイマの時間幅となり,このタイマの時間
幅によって実際にダウンしてからそれを検出するまでの
時間が長くかかることがある。
【0009】(b) 定常のサービス時に,監視対象と
なっている全サブシステムに対して,メッセージを定期
的に送信しなければならないため,サブシステムがダウ
ンしていない場合もコストがかかり,システムの定常性
能を悪くする。本発明は上記問題点の解決を図り,サブ
システムがダウンしたときに,即座にかつ低い定常コス
トで,そのダウンを検出できる方式を提供することを目
的としている。
【0010】
【課題を解決するための手段】図1は本発明の原理構成
図である。図1において,10−1,10−2は各々C
PUおよびメモリを有し,マルチプロセッサシステムを
構成するプロセッサ,11はあるまとまった処理機能を
提供するサブシステム,12はダウンの自己申告を行う
ダウン申告手段,13はオペレーティング・システムの
核であるカーネル,14はダウンの通知を受け取ること
によりダウンを検出するダウン検出手段,15はダウン
検出時に所定の宛先へダウン通知メッセージを送信する
ダウン通知手段,16はシステムに唯一存在しサブシス
テム全体を監視するダウン監視手段を表す。
【0011】ダウン申告手段12は,サブシステム11
のダウン時に,自サブシステムがダウンすることを,そ
のサブシステム11が動作しているプロセッサ10−1
のカーネル13に自己申告する手段である。ダウン検出
手段14は,各カーネル13においてサブシステム11
からのダウンの自己申告を受け付けることにより,ダウ
ンを検出する手段である。
【0012】ダウン通知手段15は,ダウン検出手段1
4によるダウン検出時に,ダウン検出手段14によって
呼び出され,あらかじめ通知された宛先へダウン通知メ
ッセージを送信する手段である。ダウン監視手段16は
,あるプロセッサ10−2上で動作し,システムの初期
化時などに,各プロセッサにおけるダウン通知手段15
に対して,自分への宛先情報をあらかじめ通知しておき
,ダウン通知手段15からのダウン通知メッセージを待
つことにより,全サブシステム11のダウンを監視する
手段である。
【0013】
【作用】システムの初期化時に,ダウン監視手段16は
,全プロセッサ10−1,10−2のカーネル13に,
自分への宛先情報を通知しておく。サブシステム11が
ダウンする場合,このサブシステム11によってダウン
申告手段12が起動され,ダウン申告手段12は自プロ
セスを制御するカーネル13にダウンを通知する。 カーネル13内のダウン検出手段14が,そのダウンの
通知を受け取ると,ダウン通知手段15を起動し,ダウ
ンしたプロセスの識別子などの必要な情報を受け渡す。
【0014】ダウン通知手段15は,ダウン検出手段1
4から受け取った情報を,事前に通知されているダウン
監視手段16の宛先へ送る。この送られた情報をもとに
,ダウン監視手段16は,リカバリ処理やその他のサブ
システムダウン時の処理を行うことができる。
【0015】定常時に,ダウン監視手段16からサブシ
ステム11に対して,一定時間ごとに監視のためのメッ
セージを送信する必要がないので,低コストで監視を行
うことができる。
【0016】
【実施例】図2は本発明のメッセージベースシステムに
おける実施例を示す。図2において,図1と同符号のも
のは図1に示すものに対応する。20はプロセッサ間の
メッセージ通信等に利用されるシステム・バス,21は
サブシステムを構成するサーバプロセス,22はダウン
申告関数,24はダウン検出ハンドラ,25はダウン通
知メッセージ送信モジュール,26はダウン監視サーバ
を表す。
【0017】図2に示す例では,図1に示すダウン申告
手段12を,ダウン申告関数22として実現している。 サーバプロセス21は,ダウン時にダウン申告関数22
を発行することによりダウンを自己申告する。このダウ
ン申告関数22では,割り出しを発生させ,カーネル1
3にダウンを通知する。
【0018】ダウン検出ハンドラ24は,図1に示すダ
ウン検出手段14に相当し,ダウン申告関数22の結果
発生した割り出しを受け付けることにより,サーバプロ
セス21のダウンを認識する。ダウン通知メッセージ送
信モジュール25は,図1に示すダウン通知手段15に
相当し,ダウン検出ハンドラ24から呼ばれるプログラ
ムとして実現される。ダウン通知メッセージ送信モジュ
ール25は,後述するようにダウン監視サーバ26への
宛先情報を持っており,ダウン検出ハンドラ24によっ
てダウンが検出されると,ダウン監視サーバ26に対し
てメッセージを送信することにより,サーバプロセス2
1のサブシステムがダウンしたことを通知する。
【0019】ダウン監視サーバ26は,図1に示すダウ
ン監視手段16に相当するものである。このダウン監視
サーバ26は,システム初期化時に全プロセッサ10−
1,10−2,…のカーネル13に,自分への宛先情報
を設定する。これにより,各プロセッサのカーネル13
は,ダウン監視サーバ26とのメッセージ通信が可能と
なる。この宛先情報は,ダウン通知メッセージ送信モジ
ュール25がメッセージによってダウン監視サーバ26
へダウンを通知する際の宛先として使われ,ダウン監視
サーバ26はこのメッセージを受信することで,サブシ
ステムのダウンを認知する。
【0020】図2に示すシステムの動作は,以下のとお
りである。■  ダウン監視サーバ26は,システムの
初期化時に,各プロセッサ10−1,…のカーネル13
に自分への宛先情報を設定する。■  サーバプロセス
21は,自サブシステムがダウンするとき,ダウン申告
関数22を発行する。ダウン申告関数22の発行により
,割り出しが発生し,カーネル13のダウン検出ハンド
ラ24に制御が渡る。
【0021】■  ダウン検出ハンドラ24は,ダウン
通知メッセージ送信モジュール25を呼び出し,ダウン
するサーバプロセス21の情報を引き渡す。■  ダウ
ン通知メッセージ送信モジュール25は,ダウン監視サ
ーバ26を宛先として,サーバプロセス21のダウンを
通知するメッセージを送信する。
【0022】■  ダウン監視サーバ26は,ダウン通
知メッセージ送信モジュール25からのメッセージによ
り,サーバプロセス21のダウンを知り,例えばリカバ
リ処理の起動,オペレータへの通知,ダウン情報のロギ
ング処理などの必要な処理を行う。
【0023】以上により,ハードウェアの異常またはカ
ーネル13の異常によるプロセッサダウン以外のダウン
を,マルチプロセッサシステムにおいても低コストで検
出することができる。
【0024】
【発明の効果】以上説明したように,本発明によれば,
一定時間ごとにダウン検出のための処理を行う必要がな
いので,定常時におけるシステムの性能向上に寄与する
ところが大きい。また,監視タイマ等を用いないので,
ダウンが発生すると,そのダウンに対する処理を直ちに
起動できるようになる。
【図面の簡単な説明】
【図1】本発明の原理構成図である。
【図2】本発明のメッセージベースシステムにおける実
施例を示す図である。
【図3】従来技術の例を示す図である。
【図4】従来技術による監視サーバ方式の例を示す図で
ある。
【符号の説明】
10−1,10−2    プロセッサ11    サ
ブシステム 12    ダウン申告手段 13    カーネル 14    ダウン検出手段 15    ダウン通知手段 16    ダウン監視手段

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】  各々サブシステムを制御するカーネル
    (13)を搭載する複数のプロセッサ(10−1,10
    −2) からなるマルチプロセッサシステムにおいて,
    サブシステム(11)のダウン時に,自サブシステムが
    ダウンすることを,そのサブシステムが動作しているプ
    ロセッサのカーネルに自己申告するダウン申告手段(1
    2)と,各カーネルにおいてサブシステムからのダウン
    の自己申告を受け付けることにより,ダウンを検出する
    ダウン検出手段(14)と,ダウン検出手段によるダウ
    ン検出時に,あらかじめ通知された宛先へダウン通知メ
    ッセージを送信するダウン通知手段(15)と,あるプ
    ロセッサ上で動作し,各プロセッサにおける前記ダウン
    通知手段に自分への宛先情報をあらかじめ通知し,ダウ
    ン通知手段からのダウン通知メッセージを待つことによ
    り,サブシステムのダウンを監視するダウン監視手段(
    16)とを備えたことを特徴とするサブシステムのダウ
    ン検出方式。
JP3112901A 1991-05-17 1991-05-17 サブシステムのダウン検出方式 Withdrawn JPH04340649A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3112901A JPH04340649A (ja) 1991-05-17 1991-05-17 サブシステムのダウン検出方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3112901A JPH04340649A (ja) 1991-05-17 1991-05-17 サブシステムのダウン検出方式

Publications (1)

Publication Number Publication Date
JPH04340649A true JPH04340649A (ja) 1992-11-27

Family

ID=14598332

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3112901A Withdrawn JPH04340649A (ja) 1991-05-17 1991-05-17 サブシステムのダウン検出方式

Country Status (1)

Country Link
JP (1) JPH04340649A (ja)

Similar Documents

Publication Publication Date Title
KR20000011834A (ko) 고장-허용오차를계산하는컴퓨터시스템및이를동작시키는방법,고장-관리컴퓨터장치,및고장-허용오차계산장치
JP2735514B2 (ja) プロセス状態管理方式
JPH04340649A (ja) サブシステムのダウン検出方式
JP2578985B2 (ja) 二重化制御装置
JP2000148525A (ja) サービスプロセッサ二重化システムの現用系負荷軽減方法
KR101883251B1 (ko) 가상 시스템에서 장애 조치를 판단하는 장치 및 그 방법
JP2004013723A (ja) 共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置と方法
JPH10171769A (ja) 複合計算機システム
JP2633351B2 (ja) 制御装置の故障検出機構
JPH06197112A (ja) 管理システム
JPH10116211A (ja) システムコンソール故障通知方式
JPH06290126A (ja) 計算機システム障害監視方式
JPH04153810A (ja) 異常処理方式
JP3107104B2 (ja) 待機冗長方式
JPH08329023A (ja) 並列電子計算機システム
JP2744113B2 (ja) 計算機システム
JP2000295259A (ja) Lan異常検出装置
JPH02310755A (ja) ヘルスチェック方式
JPH0750464B2 (ja) 疎結合マルチプロセッサシステム
JPH03233731A (ja) 温度異常処理方式
JPH11242660A (ja) 伝送装置及びその制御方法並びにその制御プログラムを記録した記録媒体
JPH0253156A (ja) 入出力装置における異常監視装置
JPH11331194A (ja) 監視装置および監視システム
JPH05158905A (ja) 分散処理機能を持つマイクロプロセッサ応用装置
JPH0721106A (ja) ネットワーク管理方法

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 19980806