JPH06348673A - 分散システムのシステムダウン防止装置 - Google Patents

分散システムのシステムダウン防止装置

Info

Publication number
JPH06348673A
JPH06348673A JP13555093A JP13555093A JPH06348673A JP H06348673 A JPH06348673 A JP H06348673A JP 13555093 A JP13555093 A JP 13555093A JP 13555093 A JP13555093 A JP 13555093A JP H06348673 A JPH06348673 A JP H06348673A
Authority
JP
Japan
Prior art keywords
processing server
memory
processing
file
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP13555093A
Other languages
English (en)
Inventor
Tetsuji Adachi
鉄治 足立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP13555093A priority Critical patent/JPH06348673A/ja
Publication of JPH06348673A publication Critical patent/JPH06348673A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Multi Processors (AREA)

Abstract

(57)【要約】 【目的】 分散システムのシステムダウン防止装置を、
ファイルサーバ用メモリおよび処理サーバ用メモリの残
量不足による分散システムのシステムダウンを未然に防
止できるようにする。 【構成】 ファイルサーバ10には、ファイルサーバ用
メモリ12の残量を定期的に監視するファイルサーバ負
荷チェックモジュール11が設けられている。また、処
理サーバ201 には、処理サーバ用メモリ241 の残量
を定期的に監視する各処理サーバ負荷チェックモジュー
ル211 と、各種のメッセージが格納されているメッセ
ージファイル221 とが設けられている。なお、残りの
処理サーバ202〜20Nの構成は、処理サーバ201
構成と同様である。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、分散システムのシステ
ムダウン防止装置に関し、特に、メモリ監視による分散
システムのシステムダウン防止装置に関する。
【0002】
【従来の技術】ファイルサーバ用メモリを有するファイ
ルサーバと処理サーバ用メモリを有する複数台の処理サ
ーバとを含む分散システムにおいては、ファイルサーバ
用メモリおよび処理サーバ用メモリの残量(使用可能な
容量)が少なくなると、過負荷による処理サーバなどの
ホストダウンに起因してシステムダウンが生じる。その
ため、従来は、ファイルサーバ用メモリおよび処理サー
バ用メモリの残量を人手で監視することにより、このよ
うなシステムダウンを未然に防止している。
【0003】なお、コンピュータシステムにおけるハー
ドウエア障害によるダウンを未然に防止するシステムダ
ウンの未然防止方式としては、ホストにおけるエラー情
報を収集して格納するエラーロギングファイルと、この
エラーロギングファイルの内容を分析してシステムダウ
ンの可能性が高い装置を検出する監視分析部とを備え、
この監視分析部によって検出したシステムダウンの可能
性が高い装置に関する情報を回線を介して保守用の端末
に通報し、画面上にその通報内容を表示して警告するも
のが提案されている(特開平3−95641号公報)。
【0004】
【発明が解決しようとする課題】上述のように、従来の
分散システムでは、ファイルサーバ用メモリおよび処理
サーバ用メモリの残量は人手で把握されているため、こ
れらのメモリの残量をこまめに把握することは困難であ
り、過負荷状態の検出が遅れてシステムダウンが生じる
という問題があるとともに、このようなシステムダウン
が生じると、復旧作業などのために分散システムの稼動
率が低下するという問題もある。
【0005】本発明は、ファイルサーバ用メモリおよび
処理サーバ用メモリの残量不足による分散システムのシ
ステムダウンを未然に防止できる分散システムのシステ
ムダウン防止装置を提供することにある。
【0006】
【課題を解決するための手段】本発明の分散システムの
システムダウン防止装置は、ファイルサーバ用メモリを
有するファイルサーバと、処理サーバ用メモリを有する
処理サーバとを含む分散システムに用いられる、分散シ
ステムのシステムダウン防止装置であって、前記ファイ
ルサーバに設けられた、前記ファイルサーバ用メモリの
残量を定期的に監視するファイルサーバ負荷チェック手
段と、前記処理サーバに設けられた、前記処理サーバ用
メモリの残量を定期的に監視する処理サーバ負荷チェッ
ク手段とを備え、該処理サーバ負荷チェック手段が、前
記処理サーバ用メモリの残量が第1の所定量以下になっ
たとき、前記処理サーバで実行中の処理を中止させると
ともに前記分散システムの利用を一時自粛させ、前記フ
ァイルサーバ負荷チェック手段が、前記ファイルサーバ
用メモリの残量が第2の所定量以下になったとき、前記
処理サーバで実行中の処理を中止させるとともに前記分
散システムの利用を一時自粛させる動作を行うよう前記
処理サーバ負荷チェック手段に指示を与えることを特徴
とする。
【0007】
【作用】本発明の分散システムのシステムダウン防止装
置では、処理サーバ負荷チェック手段が、処理サーバ用
メモリの残量を定期的に監視し、処理サーバ用メモリの
残量が第1の所定量以下になったとき、処理サーバで実
行中の処理を中止させるとともに分散システムの利用を
一時自粛させ、また、ファイルサーバ負荷チェック手段
が、ファイルサーバ用メモリの残量を定期的に監視し、
ファイルサーバ用メモリの残量が第2の所定量以下にな
ったとき、処理サーバで実行中の処理を中止させるとと
もに分散システムの利用を一時自粛させる動作を行うよ
う処理サーバ負荷チェック手段に指示を与えることによ
り、ファイルサーバ用メモリおよび処理サーバ用メモリ
の残量をこまめに把握して、これらのメモリの残量が少
なくなったときには、これらのメモリを迅速に回復する
ことができる。
【0008】
【実施例】以下、本発明の実施例について、図面を参照
して説明する。
【0009】図1は、本発明の分散システムのシステム
ダウン防止装置の一実施例の構成を示すブロック図であ
る。
【0010】本実施例の分散システムのシステムダウン
防止装置は、ファイルサーバ用メモリ12を有する一台
のファイルサーバ10と、処理サーバ用メモリ241
24N(処理サーバ用メモリ241 のみ図示)をそれぞ
れ有する複数台の処理サーバ201〜20N(処理サーバ
201〜203および処理サーバ20N のみ図示)と、複
数台のユーザ端末301〜30M(ユーザ端末301〜3
2およびユーザ端末30 M のみ図示)を含む分散シス
テムに用いられるものである。ここで、各処理サーバ2
1〜20Nはそれぞれ、ファイルサーバ10と接続され
ており、また、各ユーザ端末301〜30Mはそれぞれ、
すべての処理サーバ201〜20Nと接続されている。
【0011】本実施例の分散システムのシステムダウン
防止装置は、ファイルサーバ10に設けられた、ファイ
ルサーバ用メモリ12の残量を定期的に監視するファイ
ルサーバ負荷チェックモジュール11と、各処理サーバ
201〜20Nにそれぞれ設けられた、各処理サーバ用メ
モリ241〜24Nの残量をそれぞれ定期的に監視する各
処理サーバ負荷チェックモジュール211〜21N(処理
サーバ負荷チェックモジュール211 のみ図示)と、各
処理サーバ201〜20Nにそれぞれ設けられた、各種の
メッセージ(たとえば、異常発生メッセージ,処理中止
指示メッセージおよび通常運用メッセージなど)が格納
されている各メッセージファイル221〜22N(メッセ
ージファイル221 のみ図示)とからなる。なお、各処
理サーバ201〜20Nには、ログイン時に各ユーザ端末
301〜30Mに表示するメッセージが設定される各ログ
インメッセージファイル231〜23N(ログインメッセ
ージファイル231 のみ図示)がそれぞれ設けられてい
る。
【0012】ユーザがこの分散システムを利用する場合
には、所定のユーザ端末(たとえば、ユーザ端末30
1 )から所定の処理サーバ(たとえば、処理サーバ20
1 )にログインする。
【0013】次に、本実施例のシステムダウン防止装置
の動作について、3人のユーザが3台のユーザ端末30
1,303,30M から処理サーバ201 にそれぞれログ
インしている場合を例として、説明する。
【0014】(1)処理サーバ201 の動作 処理サーバ負荷チェックモジュール211 では、処理サ
ーバ用メモリ241 の残量(使用可能な容量)が第2の
所定量以上あるか否かのチェックが定期的に行われる。
処理サーバ用メモリ241 の残量が第2の所定量以下に
なった場合には、メッセージファイル221 に格納され
ている処理中止指示メッセージが、処理サーバ負荷チェ
ックモジュール211 によって読み出され、処理サーバ
201 を利用中のすべてのユーザ端末301,303,3
M へ処理サーバ負荷チェックモジュール211 からそ
れぞれ送られる。これらのユーザ端末301,303,3
M を使用しているユーザは、ユーザ端末301,3
3,30M 上に処理中止指示メッセージが表示される
と、実行中の処理をすべて中止する。また、この場合に
は、ログインメッセージファイル231 へも処理中止指
示メッセージが処理サーバ負荷チェックモジュール21
1 によって設定される。これにより、他のユーザ端末3
2,304〜30M-1 からの分散システムの利用が一時
自粛させられる。
【0015】したがって、本実施例の分散システムのシ
ステムダウン防止装置によれば、処理サーバ201 の負
荷を軽減して、処理サーバ用メモリ241 を回復させる
ことができるため、処理サーバ用メモリ241 の残量不
足に起因する処理サーバ20 1 のホストダウンを防止す
ることができる。
【0016】以上の処置により処理サーバ用メモリ24
1 が回復されると、メッセージファイル221 に格納さ
れている通常運用メッセージ(通常運用時のメッセー
ジ)が、処理サーバ負荷チェックモジュール211 によ
って読み出され、ログインメッセージファイル231
設定される。これにより、処理サーバ201 は、通常の
運用状態へ戻される。
【0017】(2)ファイルサーバ10の動作 ファイルサーバ負荷チェックモジュール11では、ファ
イルサーバ用メモリ12の残量(使用可能な容量)が第
1の所定量以上あるか否かのチェックが定期的に行われ
る。ファイルサーバ用メモリ12の残量が第1の所定量
以下になった場合には、すべての処理サーバ201〜2
Nにそれぞれ設けられた処理サーバ負荷チェックモジ
ュール211〜21Nに対して所定の指示信号を出力す
る。
【0018】各処理サーバ負荷チェックモジュール21
1〜21Nでは、ファイルサーバ負荷チェックモジュール
11から上述の所定の指示信号が送られてくると、メッ
セージファイル221〜22Nにそれぞれ格納されている
異常発生メッセージが読み出される。読み出された異常
発生メッセージは、各処理サーバ201〜20Nを利用し
ているユーザ端末301〜30Mにそれぞれ送られる。た
とえば、処理サーバ201 からは、ユーザ端末301
303,30M へ異常発生メッセージがそれぞれ送られ
る。各ユーザ端末301〜30Mを使用しているユーザ
は、ユーザ端末30 1〜30M上に異常発生メッセージが
表示されると、実行中の処理をすべて中止する。また、
この場合には、各ログインメッセージファイル231
23Nへも異常発生メッセージが各処理サーバ負荷チェ
ックモジュール211〜21Nによってそれぞれ設定され
る。これにより、現在実行していないユーザによる分散
システムの利用が一時自粛させられる。
【0019】したがって、本実施例の分散システムのシ
ステムダウン防止装置によれば、ファイルサーバ10の
負荷を軽減して、ファイルサーバ用メモリ12を回復さ
せることができるため、ファイルサーバ用メモリ12の
残量不足に起因するファイルサーバ10のホストダウン
および分散システム全体のシステムダウンを防止するこ
とができる。
【0020】以上の処置によりファイルサーバ用メモリ
12が回復されると、各メッセージファイル221〜2
Nに格納されている通常運用メッセージ(通常運用時
のメッセージ)が、各処理サーバ負荷チェックモジュー
ル211〜21Nによってそれぞれ読み出され、各ログイ
ンメッセージファイル231〜23Nにそれぞれ設定され
る。これにより、各処理サーバ201〜20Nはそれぞ
れ、通常の運用状態へ戻される。
【0021】
【発明の効果】本発明は、上述のとおり構成されている
ので、次の効果を奏する。
【0022】処理サーバ用メモリおよびファイルサーバ
用メモリの監視を機械化し、これらのメモリの残量を定
期的に把握できるため、これらのメモリが過負荷である
か否かをタイムリーに検出できる。また、過負荷を検出
した場合には自動的に回避処置をとるため、各処理サー
バのホストダウンおよび分散システムのシステムダウン
を防止することができ、分散システムのシステム全体の
稼動率を向上させることができる。
【図面の簡単な説明】
【図1】本発明の分散システムのシステムダウン防止装
置の一実施例の構成を示すブロック図である。
【符号の説明】
10 ファイルサーバ 11 ファイルサーバ負荷チェックモジュール 12 ファイルサーバ用メモリ 201〜20N 処理サーバ 211〜21N 処理サーバ負荷チェックモジュール 221〜22N メッセージファイル 231〜23N ログインメッセージファイル 241〜24N 処理サーバ用メモリ 301〜30M ユーザ端末
─────────────────────────────────────────────────────
【手続補正書】
【提出日】平成5年11月16日
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】0014
【補正方法】変更
【補正内容】
【0014】(1)処理サーバ201 の動作 処理サーバ負荷チェックモジュール211 では、処理サ
ーバ用メモリ241 の残量(使用可能な容量)が第
所定量以上あるか否かのチェックが定期的に行われる。
処理サーバ用メモリ241 の残量が第の所定量以下に
なった場合には、メッセージファイル221 に格納され
ている処理中止指示メッセージが、処理サーバ負荷チェ
ックモジュール211 によって読み出され、処理サーバ
201 を利用中のすべてのユーザ端末301,303,3
M へ処理サーバ負荷チェックモジュール211 からそ
れぞれ送られる。これらのユーザ端末301,303,3
M を使用しているユーザは、ユーザ端末301,3
3,30M 上に処理中止指示メッセージが表示される
と、実行中の処理をすべて中止する。また、この場合に
は、ログインメッセージファイル231 へも処理中止指
示メッセージが処理サーバ負荷チェックモジュール21
1 によって設定される。これにより、他のユーザ端末3
2,304〜30M-1 からの分散システムの利用が一時
自粛させられる。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0017
【補正方法】変更
【補正内容】
【0017】(2)ファイルサーバ10の動作 ファイルサーバ負荷チェックモジュール11では、ファ
イルサーバ用メモリ12の残量(使用可能な容量)が第
の所定量以上あるか否かのチェックが定期的に行われ
る。ファイルサーバ用メモリ12の残量が第の所定量
以下になった場合には、すべての処理サーバ201〜2
Nにそれぞれ設けられた処理サーバ負荷チェックモジ
ュール211〜21Nに対して所定の指示信号を出力す
る。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 ファイルサーバ用メモリを有するファイ
    ルサーバと、処理サーバ用メモリを有する処理サーバと
    を含む分散システムに用いられる、分散システムのシス
    テムダウン防止装置であって、 前記ファイルサーバに設けられた、前記ファイルサーバ
    用メモリの残量を定期的に監視するファイルサーバ負荷
    チェック手段と、 前記処理サーバに設けられた、前記処理サーバ用メモリ
    の残量を定期的に監視する処理サーバ負荷チェック手段
    とを備え、 該処理サーバ負荷チェック手段が、 前記処理サーバ用メモリの残量が第1の所定量以下にな
    ったとき、前記処理サーバで実行中の処理を中止させる
    とともに前記分散システムの利用を一時自粛させ、 前記ファイルサーバ負荷チェック手段が、 前記ファイルサーバ用メモリの残量が第2の所定量以下
    になったとき、前記処理サーバで実行中の処理を中止さ
    せるとともに前記分散システムの利用を一時自粛させる
    動作を行うよう前記処理サーバ負荷チェック手段に指示
    を与えることを特徴とする、分散システムのシステムダ
    ウン防止装置。
JP13555093A 1993-06-07 1993-06-07 分散システムのシステムダウン防止装置 Pending JPH06348673A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP13555093A JPH06348673A (ja) 1993-06-07 1993-06-07 分散システムのシステムダウン防止装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP13555093A JPH06348673A (ja) 1993-06-07 1993-06-07 分散システムのシステムダウン防止装置

Publications (1)

Publication Number Publication Date
JPH06348673A true JPH06348673A (ja) 1994-12-22

Family

ID=15154414

Family Applications (1)

Application Number Title Priority Date Filing Date
JP13555093A Pending JPH06348673A (ja) 1993-06-07 1993-06-07 分散システムのシステムダウン防止装置

Country Status (1)

Country Link
JP (1) JPH06348673A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09269925A (ja) * 1996-04-02 1997-10-14 Nri & Ncc Co Ltd 負荷制御を行う大規模クライアントサーバーシステム
JP2007529080A (ja) * 2004-05-21 2007-10-18 ビーイーエイ システムズ, インコーポレイテッド 過負荷防止を備えるアプリケーションサーバのためのシステムおよび方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02212962A (ja) * 1989-02-14 1990-08-24 Nec Corp トランザクションメッセージ出力制御方式

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02212962A (ja) * 1989-02-14 1990-08-24 Nec Corp トランザクションメッセージ出力制御方式

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09269925A (ja) * 1996-04-02 1997-10-14 Nri & Ncc Co Ltd 負荷制御を行う大規模クライアントサーバーシステム
JP2007529080A (ja) * 2004-05-21 2007-10-18 ビーイーエイ システムズ, インコーポレイテッド 過負荷防止を備えるアプリケーションサーバのためのシステムおよび方法

Similar Documents

Publication Publication Date Title
EP0591345B1 (en) Method and system for monitoring a computer system
US6434616B2 (en) Method for monitoring abnormal behavior in a computer system
US6502206B1 (en) Multi-processor switch and main processor switching method
JPH02105947A (ja) コンピユータ周辺サブシステム及びその例外事象自動検出分析方法
CN105549508B (zh) 一种基于信息合并的报警方法及装置
US7664797B1 (en) Method and apparatus for using statistical process control within a storage management system
JPH06348673A (ja) 分散システムのシステムダウン防止装置
JPH10336276A (ja) ネットワーク管理システム
EP1214655A1 (en) A method and system for handling errors in a distributed computer system
JP2809269B2 (ja) ファイルシステムチェック装置
CN111061609A (zh) 一种日志监控方法及系统
JPH06324916A (ja) 障害情報ロギング方式
CN116185787B (zh) 自学习型的监控告警方法、装置、设备及存储介质
JP3479288B2 (ja) リモート診断保守方式,方法,およびプログラム
JP2003345629A (ja) システム監視装置及びそれに用いるシステム監視方法並びにそのプログラム
CN114553578A (zh) 一种消息队列异常检测方法、装置、电子设备及存储介质
JPH10304469A (ja) 実績収集装置および方法
JP2005275908A (ja) 有効期間付き通報システムと方法、コンピュータ、及びプログラム
JPH01217651A (ja) 障害自動通報方式
JPS6349916A (ja) 電圧異常による計算機故障検出方式
CN114221787A (zh) 基于时间策略的网络安全处理方法、系统和存储介质
CN115686890A (zh) 一种处理器故障提前预警方法、系统、电子设备及介质
JP2002209468A (ja) 通信回線を利用した鶏卵選別装置の遠隔監視装置
JPH02310755A (ja) ヘルスチェック方式
EP1903526A1 (en) Alarm management system