JPH09171475A - 複合コンピュータシステム - Google Patents

複合コンピュータシステム

Info

Publication number
JPH09171475A
JPH09171475A JP7331357A JP33135795A JPH09171475A JP H09171475 A JPH09171475 A JP H09171475A JP 7331357 A JP7331357 A JP 7331357A JP 33135795 A JP33135795 A JP 33135795A JP H09171475 A JPH09171475 A JP H09171475A
Authority
JP
Japan
Prior art keywords
operation monitoring
processing devices
processing
monitoring device
devices
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7331357A
Other languages
English (en)
Other versions
JP3555047B2 (ja
Inventor
Susumu Okuhara
進 奥原
Hiroshi Morishima
浩 守島
Shingo Maeda
新吾 前田
Kikuko Tamaki
貴久子 田巻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP33135795A priority Critical patent/JP3555047B2/ja
Priority to US08/768,969 priority patent/US5974565A/en
Publication of JPH09171475A publication Critical patent/JPH09171475A/ja
Application granted granted Critical
Publication of JP3555047B2 publication Critical patent/JP3555047B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2002Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
    • G06F11/2007Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication media

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)
  • Hardware Redundancy (AREA)

Abstract

(57)【要約】 【課題】 障害が発生したときに早期に障害部位を特定
し障害部位に対応する処理を行って長時間の無人運転の
実現とユーザ負担の軽減を行うことが可能な技術を提供
する。 【解決手段】 複数の処理装置が起動または停止したと
きに前記複数の処理装置の稼働状態を記録する稼働監視
装置と、前記複数の処理装置と稼働監視装置とを接続す
る稼働監視用ネットワークと、前記複数の処理装置のプ
ログラムが起動または停止したときに前記プログラムの
稼働状態を記録するプログラム状態管理手段とを備え、
前記複数の処理装置で障害が発生したときに前記稼働監
視用ネットワークを介して稼働監視装置に記録された前
記複数の処理装置の稼働状態と前記プログラム状態管理
手段に記録されたプログラムの稼働状態を取得して障害
部位の特定を行うものである。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、独立して稼働する
複数の処理装置によって共有資源を排他制御してアクセ
スする複合コンピュータシステムに関し、特に、複数の
処理装置によって共有資源を排他制御してアクセスする
際に発生した障害を早期に発見し代替処理を行う複合コ
ンピュータシステムに適用して有効な技術に関するもの
である。
【0002】
【従来の技術】従来、相互に接続された複数の処理装置
が磁気ディスク装置や磁気テープ装置などの資源を共有
する負荷分散・協調型の複合コンピュータシステムにお
いては、複数の処理装置間での通信を行うチャネル間結
合装置等の入出力機器を接続し、入出力命令によって相
互に通信することにより複数の処理装置間の連携を行っ
てきた。
【0003】ところが、この様な従来の複合コンピュー
タシステムにおいては、チャネル障害、通信経路の障害
及びシステムダウン等の障害により相手系の処理装置と
の連絡が不能になると、共有している資源の排他処理が
続行できなくなる。
【0004】従って、相手系の処理装置の無応答を検知
した場合には、オペレータに無応答の処理装置を検知し
たことを示すメッセージを出力して人間の判断によって
障害部位を特定し、発生した障害に対応する処理を行っ
て業務を続行していた。
【0005】なお、従来の複合コンピュータシステムに
おける障害検知時の応答手順については(株)日立製作
所発行のマニュアル「プログラムプロダクトVOS3/
ASシステム操作−JSS3編−」(平成6年12月発
行)に「MSCF障害時のオペレータ処置」として記述
されている。
【0006】更に、従来の複合コンピュータシステムに
おいて、複数の処理装置間の通信オーバヘッドを削減す
る為に、共有資源を管理する排他制御用のメモリを設
け、複数の処理装置間で効率よく連携する方式がとられ
てきた。
【0007】例えば、二重化される磁気ディスク装置の
各ボリューム単位に設けた不揮発の制御メモリに排他制
御用のロック情報を配置し、ディスク二重書き制御プロ
グラムで前記制御メモリの排他制御用のロック情報を使
用するものがある。
【0008】前記のディスク二重書き制御プログラムで
は、1つの処理装置がロック情報を更新すると、他の処
理装置に非同期の入出力割り込みとして報告する機能を
利用して、複数の処理装置間で連携することを実現して
いる。
【0009】しかし、前記従来の複合コンピュータシス
テムにおいて、1つの処理装置がロック情報を持ったま
まシステムダウンした場合には、正常に稼働中の他の処
理装置の二重書き磁気ディスク装置へのアクセスがロッ
ク情報を確保できず、入出力タイムオーバとなり処理が
続行できなくなる。
【0010】前述したチャネル間結合装置等の入出力機
器を使用して複数の処理装置間で通信を行って共有資源
の排他制御を行う従来の技術や、前記ディスク二重書き
制御プログラムの様に1つの処理装置がロック情報を持
つことによって排他制御を行う従来の技術では、他の処
理装置の稼働状態を判断することができない為、ロック
情報を持つ処理装置に障害が発生したときのロック情報
の解除にはオペレータの介入が必要である。
【0011】この為、前記従来の複合コンピュータシス
テムでは、事前に障害時の組み合わせを想定した回復手
順書を作成する必要があり、複合コンピュータシステム
を運用する際の負担となっていた。
【0012】
【発明が解決しようとする課題】本発明者は、前記従来
技術を検討した結果、以下の問題点を見い出した。
【0013】すなわち、前記従来の複合コンピュータシ
ステムでは、相手系の処理装置の無応答を検知した場合
に、オペレータに無応答の処理装置を検知したことを示
すメッセージを出力して人間の判断によって障害部位を
特定し業務を続行していた為、メッセージ出力時の運用
手順の作成等の運用負担の増加や、長時間の無人運転に
対応することができないという問題があった。
【0014】また、前記従来の複合コンピュータシステ
ムのディスク二重書き制御プログラムでは、1つの処理
装置がロック情報を持ったままシステムダウンした場合
には、ロック情報の解除にはオペレータの介入を必要と
する為、事前に障害時の組み合わせを想定した回復手順
書を作成する必要があり運用上の負担となっていた。
【0015】本発明の目的は、障害が発生したときに早
期に障害部位を特定し障害部位に対応する処理を行って
長時間の無人運転の実現とユーザ負担の軽減を行うこと
が可能な技術を提供することにある。
【0016】本発明の他の目的は、特定の稼働監視装置
が障害により使用できなくなった場合に複数の処理装置
の稼働状態の監視を続行することが可能な技術を提供す
ることにある。
【0017】本発明の他の目的は、稼働監視装置が全面
的に動作しなくなった場合に複数の処理装置の稼働状態
の監視を続行することが可能な技術を提供することにあ
る。
【0018】本発明の前記並びにその他の目的と新規な
特徴は、本明細書の記述及び添付図面によって明かにな
るであろう。
【0019】
【課題を解決するための手段】本願によって開示される
発明のうち、代表的なものの概要を簡単に説明すれば、
下記のとおりである。
【0020】(1)複数の処理装置を通信手段で接続し
特定の共有資源を排他制御してアクセスする複合コンピ
ュータシステムにおいて、複数の処理装置が起動または
停止したときに前記複数の処理装置の稼働状態を記録す
る稼働監視装置と、前記複数の処理装置と稼働監視装置
とを接続する稼働監視用ネットワークと、前記複数の処
理装置のプログラムが起動または停止したときに前記プ
ログラムの稼働状態を記録するプログラム状態管理手段
とを備え、前記複数の処理装置で障害が発生したときに
前記稼働監視用ネットワークを介して稼働監視装置に記
録された前記複数の処理装置の稼働状態と前記プログラ
ム状態管理手段に記録されたプログラムの稼働状態を取
得して障害部位の特定を行うものである。
【0021】前記複合コンピュータシステムでは、複数
の処理装置をチャネル間結合装置等の特定の通信手段で
接続し、前記チャネル間結合装置等の特定の通信手段に
よって複数の処理装置間で通信を行うことにより、磁気
ディスク装置や磁気テープ装置等の特定の共有資源を排
他制御してアクセスしている。
【0022】前記複合コンピュータシステムを構成する
複数の処理装置は、前記チャネル間結合装置等の排他制
御用の特定の通信手段とは異なる稼働監視用ネットワー
クを介して稼働監視装置に接続されており、前記複数の
処理装置が起動または停止したときに前記複数の処理装
置の稼働状態を前記稼働監視装置に記録する。
【0023】また、前記複合コンピュータシステムの複
数の処理装置で稼働するオペレーティングシステムは、
前記複数の処理装置上でプログラムが起動または停止し
たときに前記プログラムの稼働状態をプログラム状態管
理手段に記録する。
【0024】前記複合コンピュータシステムにおいて、
前記チャネル間結合装置等の排他制御用の特定の通信手
段によって、磁気ディスク装置や磁気テープ装置等の特
定の共有資源を排他制御してアクセスしようとしたとき
に、特定の処理装置からの応答が予め規定された特定の
時間を経過しても得られない無応答の状態を検知する場
合がある。
【0025】前記の様に無応答の状態を検知したときに
複合コンピュータシステムで障害が発生したとみなし
て、前記稼働監視用ネットワークを介して稼働監視装置
に記録された前記複数の処理装置の稼働状態と前記プロ
グラム状態管理手段に記録されたプログラムの稼働状態
を取得し、前記特定の処理装置の稼働状態と前記特定の
処理装置上のプログラムの稼働状態とを比較して障害部
位の特定を行う。
【0026】すなわち、前記特定の処理装置が非稼働中
である場合には、障害部位を前記特定の処理装置である
とみなして他の処理装置で排他処理を代替する縮退運転
を行い、前記特定の処理装置が稼働中である場合には、
前記特定の処理装置上のプログラムの稼働状態を調べ
る。
【0027】前記特定の処理装置上のプログラムの稼働
状態を調べ、前記特定の処理装置上のプログラムが非稼
働中である場合には、障害部位を前記特定の処理装置上
のプログラムであるとみなして前記特定の処理装置上の
プログラムの再起動を行い、前記特定の処理装置上のプ
ログラムが稼働中である場合には、前記排他制御用の特
定の通信手段が障害部位であるとみなして予備の通信経
路を選択して排他制御を続行する。
【0028】以上の様に、前記複合コンピュータシステ
ムによれば、複数の処理装置の稼働状態と前記複数の処
理装置上のプログラムの稼働状態とを稼働監視用ネット
ワークを介して監視するので、障害が発生したときに早
期に障害部位を特定し障害部位に対応する処理を行って
長時間の無人運転の実現とユーザ負担の軽減を行うこと
が可能である。
【0029】(2)前記(1)に記載された複合コンピ
ュータシステムにおいて、前記複数の処理装置が起動ま
たは停止したときに前記複数の処理装置の稼働状態を記
録する複数の稼働監視装置と、特定の稼働監視装置以外
の稼働監視装置から前記複数の処理装置への通信を抑止
する通信抑止手段と、前記複数の処理装置から前記複数
の稼働監視装置への通信を行うと共に前記複数の稼働監
視装置の通信抑止手段を制御する稼働監視装置多重化手
段とを備え、前記稼働監視装置多重化手段により前記複
数の処理装置の稼働状態を前記複数の稼働監視装置に送
信すると共に、前記通信抑止手段により特定の稼働監視
装置以外の稼働監視装置から前記複数の処理装置への通
信を抑止して前記複数の稼働監視装置の特定の稼働監視
装置のみにより前記複数の処理装置の稼働状態を監視
し、前記特定の稼働監視装置に障害が発生した場合に、
前記稼働監視装置多重化手段により前記障害の発生した
稼働監視装置以外の複数の稼働監視装置の特定の稼働監
視装置の通信抑止手段の通信抑止状態を解除し、前記通
信抑止状態が解除された稼働監視装置により前記複数の
処理装置の稼働状態の監視を続行するものである。
【0030】前記複合コンピュータシステムでは、複数
の処理装置と複数の稼働監視装置とを稼働監視用ネット
ワークで接続し、前記複数の稼働監視装置は、前記複数
の処理装置との通信を抑止する通信抑止手段を備えてい
る。
【0031】前記複合コンピュータシステムでは、稼働
監視装置多重化手段により、前記複数の処理装置からの
通知を前記複数の稼働監視装置のそれぞれに通知する。
【0032】一方、前記複数の稼働監視装置では、特定
の稼働監視装置以外の稼働監視装置の通信抑止手段を通
信抑止状態にしておき、前記特定の稼働監視装置を正装
置、前記特定の稼働監視装置以外の稼働監視装置を副装
置とし、正装置である稼働監視装置以外からの前記複数
の処理装置への通信を抑止している。
【0033】前記の様に、副装置である稼働監視装置に
おいて通信抑止手段によって稼働監視装置から複数の処
理装置への通信が抑止されることにより、特定の処理装
置のシステム停止を検知した場合に送られる通知が、稼
働中の他の処理装置に重複して届けられることはない。
【0034】前記複合コンピュータシステムにおいて、
正装置である稼働監視装置に障害が発生し、予め規定さ
れた特定の時間が経過しても正装置である稼働監視装置
からの応答が得られない状態となって、前記複数の処理
装置と正装置である稼働監視装置との間の通信ができな
くなった場合には、前記稼働監視装置多重化手段は、副
装置である稼働監視装置の特定の稼働監視装置の通信抑
止手段の通信抑止状態を解除する。
【0035】この様にして、多重化された稼働監視装置
の特定の稼働監視装置が障害により使用できなくなって
も、複数の処理装置側では何も意識する必要はなく、障
害の発生していない他の稼働監視装置によって複数の処
理装置の稼働状態の監視を続行することが可能である。
【0036】以上の様に、前記複合コンピュータシステ
ムによれば、複数の稼働監視装置により複数の処理装置
の稼働状態を監視するので、特定の稼働監視装置が障害
により使用できなくなった場合に複数の処理装置の稼働
状態の監視を続行することが可能である。
【0037】(3)前記(1)または(2)に記載され
た複合コンピュータシステムにおいて、複数の処理装置
を接続する前記通信手段を介して前記複数の処理装置間
で特定のデータを送受信することにより前記複数の処理
装置が相互に稼働状態の監視を行うものである。
【0038】前記複合コンピュータシステムにおいて、
複数の処理装置上で稼働中のプログラムは、各処理装置
を結ぶチャネル間結合装置等の特定の通信手段を介して
一定間隔で入出力命令を発行する。
【0039】例えば、特定の処理装置で稼働中のプログ
ラムは、他の処理装置上で稼働中のプログラムにある特
定のデータを送信し、前記他の処理装置上で稼働中のプ
ログラムは、前記特定のデータを受信したら、その応答
として受信確認のデータを送信元の前記特定の処理装置
上で稼働中のプログラムに送り返す。
【0040】この様なシーケンスで、複数の処理装置で
稼働中の各プログラムが、相互に特定のデータを送受信
することによって、何らかの障害が発生した場合には予
め規定された特定の時間を経過しても応答が受信されな
い為、無応答をもって相手の処理装置の異常とみなせ
る。
【0041】前記の様に、複数の処理装置で稼働中のプ
ログラムが相互に特定のデータを送受信する場合には、
相互に特定のデータを送受信するプログラムの数が増加
すると、その通信負荷が急速に増加することが考えられ
るが、前記複合コンピュータシステムでは、通常の障害
検知は稼働監視装置により実現することが可能である
為、前記の相互に特定のデータを送受信する頻度を少な
くしても良い。
【0042】従って、前記複合コンピュータシステムで
は、複数の処理装置相互で特定のデータを送受信するオ
ーバヘッドを削減して通常の通信に与える影響を少なく
すると共に、稼働監視装置が障害の発生等により全面的
に動作しなくなった場合であっても複数の処理装置の稼
働状態の監視を続行することが可能である。
【0043】以上の様に、前記複合コンピュータシステ
ムによれば、複数の処理装置相互で特定のデータを送受
信して他の処理装置の稼働状態を監視するので、稼働監
視装置が全面的に動作しなくなった場合に複数の処理装
置の稼働状態の監視を続行することが可能である。
【0044】
【発明の実施の形態】以下、本発明について、実施形態
とともに図を参照して詳細に説明する。なお、実施形態
を説明するための全図において、同一機能を有するもの
は同一符号を付け、その繰り返しの説明は省略する。
【0045】(実施形態1)以下に、本発明の複合コン
ピュータシステムにおいて、磁気ディスク装置上の共有
データを排他制御管理プログラムを介してアクセスする
複数の処理装置を監視する実施形態1の複合コンピュー
タシステムについて説明する。
【0046】図1は、本実施形態の複合コンピュータシ
ステムの概略構成を示す図である。図1において、10
0、110及び120は処理装置、101、102、1
11、112、121及び122は命令プロセッサ、1
03、104、113、114、123及び124は入
出力プロセッサ、105、115及び125は主記憶装
置、106、116及び126はシステム制御装置、1
07、117及び127はサービスプロセッサ、10
8、118及び128はコンソール、130は稼働監視
装置、140及び141は磁気ディスク装置、150及
び151は磁気テープ装置、160〜162はチャネル
間結合装置である。
【0047】図1に示す様に、本実施形態の複合コンピ
ュータシステムは、処理装置100、110及び120
と、命令プロセッサ101、102、111、112、
121及び122と、入出力プロセッサ103、10
4、113、114、123及び124と、主記憶装置
105、115及び125と、システム制御装置10
6、116及び126と、サービスプロセッサ107、
117及び127と、コンソール108、118及び1
28と、稼働監視装置130と、磁気ディスク装置14
0及び141と、磁気テープ装置150及び151と、
チャネル間結合装置160〜162とを有している。
【0048】また、図1に示す様に、本実施形態の複合
コンピュータシステムでは、処理装置100は、命令プ
ロセッサ101と、命令プロセッサ102と、入出力プ
ロセッサ103と、入出力プロセッサ104と、主記憶
装置105とをシステム制御装置106に接続し、処理
装置100に対してシステムの起動指示及びハードウェ
ア構成定義をするサービスプロセッサ107及びコンソ
ール108が接続されている。
【0049】また、処理装置110は、命令プロセッサ
111と、命令プロセッサ112と、入出力プロセッサ
113と、入出力プロセッサ114と、主記憶装置11
5とをシステム制御装置116に接続し、処理装置11
0に対してシステムの起動指示及びハードウェア構成定
義をするサービスプロセッサ117及びコンソール11
8が接続されており、処理装置120は、命令プロセッ
サ121と、命令プロセッサ122と、入出力プロセッ
サ123と、入出力プロセッサ124と、主記憶装置1
25とをシステム制御装置126に接続し、処理装置1
20に対してシステムの起動指示及びハードウェア構成
定義をするサービスプロセッサ127及びコンソール1
28が接続されている。
【0050】入出力プロセッサ103、104、11
3、114、123及び124は、磁気ディスク装置1
40及び141並びに磁気テープ装置150及び151
に接続されており、複数の処理装置100、110及び
120は、磁気ディスク装置140及び141並びに磁
気テープ装置150及び151を共有資源として共有し
ている。
【0051】また、入出力プロセッサ103はチャネル
間結合装置160を介して入出力プロセッサ114に、
入出力プロセッサ113はチャネル間結合装置161を
介して入出力プロセッサ124に、入出力プロセッサ1
23はチャネル間結合装置162を介して入出力プロセ
ッサ104に接続されており、複数の処理装置100、
110及び120はマルチパス構成で相互に接続されて
いる。
【0052】処理装置100、110または120が他
の処理装置と通信を行う場合には、チャネル間結合装置
160、161または162を介して、入出力プロセッ
サ103及び114、入出力プロセッサ113及び12
4または入出力プロセッサ123及び104を使用して
通信を行う。
【0053】本実施形態の複合コンピュータシステムで
は、処理装置100、110及び120の状態を管理す
るサービスプロセッサ107、117及び127と稼働
監視装置130とを稼働監視用ネットワークであるLA
N(Local AreaNetwork)で接続する
ことにより、稼働監視装置130が処理装置100、1
10及び120の稼働情報・構成情報を一括して管理し
ている。
【0054】以下に、本実施形態の複合コンピュータシ
ステムにおいて、処理装置100、110及び120の
システムが起動する場合や、処理装置100、110及
び120で動作するプログラムが起動する場合の稼働管
理について説明する。
【0055】図2は、本実施形態の複合コンピュータシ
ステムの起動時の稼働管理の概略を示す図である。図2
において、200、210及び220はオペレーティン
グシステム、2001及び2101は構成管理手段、2
002及び2102はプログラム状態管理手段、200
3及び2103は稼働監視装置通信手段、2004及び
2104は他システム通信手段、211及び221はジ
ョブ管理プログラム、212及び222は排他制御管理
プログラム、223はデータベース管理プログラム、2
30は処理装置通信手段、231は接続状態監視手段、
232は接続構成管理手段、233は稼働状態管理手
段、234は構成情報・稼働状態管理テーブルである。
【0056】図2に示す様に、本実施形態の複合コンピ
ュータシステムの起動時の稼働管理では、オペレーティ
ングシステム200、210及び220と、構成管理手
段2001及び2101と、プログラム状態管理手段2
002及び2102と、稼働監視装置通信手段2003
及び2103と、他システム通信手段2004及び21
04と、ジョブ管理プログラム211及び221と、排
他制御管理プログラム212及び222と、データベー
ス管理プログラム223と、処理装置通信手段230
と、接続状態監視手段231と、接続構成管理手段23
2と、稼働状態管理手段233と、構成情報・稼働状態
管理テーブル234とを使用している。
【0057】また、図2に示す様に、本実施形態の複合
コンピュータシステムの起動時の稼働管理では、処理装
置100、110及び120のシステムが起動する場合
や、処理装置100、110及び120で動作するプロ
グラムが起動する場合には、稼働監視装置130に起動
通知を行い、構成情報・稼働状態管理テーブル234の
内容を更新する。
【0058】本実施形態の複合コンピュータシステムの
稼働監視装置130に格納されている構成情報・稼働状
態管理テーブル234には、接続構成管理手段232に
よって管理されている稼働監視装置130に接続された
処理装置100、110及び120の物理アドレス、シ
ステム識別子、システム名称及び稼働状態が記録されて
おり、構成情報・稼働状態管理テーブル234の稼働状
態が「0」である場合には、その処理装置が非稼働中で
あることを示し、稼働状態が「1」である場合には、そ
の処理装置が稼働中であることを示している。
【0059】以下に、本実施形態の複合コンピュータシ
ステムにおいて、処理装置110のシステムを起動した
ときの稼働管理について説明する。
【0060】本実施形態の複合コンピュータシステムに
おいて、処理装置100のシステムが起動すると処理装
置100のオペレーティングシステム200は、処理装
置100のシステムが起動されたことを稼働監視装置1
30に通知する起動通知命令を発行し、構成管理手段2
001を経由して稼働監視装置通信手段2003により
稼働監視装置130に対して起動通知を行う。
【0061】稼働監視装置通信手段2003によって送
信された処理装置100の起動通知は、稼働監視装置1
30の処理装置通信手段230によって受け付けられ、
稼働監視装置130の稼働状態管理手段233は、前記
受け付けた起動通知のパラメタを解析し、構成情報・稼
働状態管理テーブル234の物理アドレス「000
1」、システム識別子「A」及びシステム名称「SYS
1」に対応する処理装置100の稼働状態を、非稼働中
であることを示す「0」から稼働中であることを示す
「1」に遷移させる。
【0062】稼働監視装置130は、処理装置100の
起動通知が正常に完了すると、稼働監視装置130の処
理装置通信手段230により、起動通知を発行した処理
装置100に前記起動通知に対する応答を返す。
【0063】尚、本実施形態の複合コンピュータシステ
ムにおいて、稼働監視装置130を比較的処理能力の低
いコンピュータで構成し、比較的低速の非同期通信回線
によって前記起動通知に対する応答を処理装置100に
返しても良い。
【0064】処理装置100のオペレーティングシステ
ム200は、稼働監視装置通信手段2003により受信
した稼働監視装置130からの応答を構成管理手段20
01により解析し、構成情報・稼働状態管理テーブル2
34の処理装置100の稼働状態を正常に更新できたか
どうかを検知する。
【0065】同様にして、本実施形態の複合コンピュー
タシステムの処理装置110及び処理装置120のシス
テムを起動すると、図2に示す様に、稼働監視装置13
0に格納されている構成情報・稼働状態管理テーブル2
34には、物理アドレス「0002」、システム識別子
「B」、及びシステム名称「SYS2」に対応する処理
装置110の稼働状態と、物理アドレス「0003」、
システム識別子「C」、及びシステム名称「SYS3」
に対応する処理装置120の稼働状態が稼働中であるこ
とを示す「1」として記録される。
【0066】また、稼働監視装置130に格納されてい
る構成情報・稼働状態管理テーブル234の、物理アド
レス「0004」、システム識別子「D」、及びシステ
ム名称「SYS4」に対応する処理装置は本実施形態の
複合コンピュータシステムに未接続状態である為、その
稼働状態は「0」で非稼働中であることを示している。
【0067】本実施形態の複合コンピュータシステムに
おいて、各処理装置のオペレーティングシステムでプロ
グラムを起動すると、前記起動されたプログラムからの
通知によりオペレーティングシステムは、前記プログラ
ムが稼働中であることを記録する。
【0068】各処理装置のオペレーティングシステムで
稼働中のプログラムが、他の処理装置上のプログラムが
起動されているかどうかを知りたい場合には、前記稼働
中のプログラムのオペレーティングシステムの構成管理
手段に指示し、他システム通信手段を経由して他の処理
装置のオペレーティングシステムと通信することによ
り、他の処理装置上のプログラムが起動されているかど
うかを検知することが可能である。
【0069】例えば、本実施形態の複合コンピュータシ
ステムにおいて、処理装置110のオペレーティングシ
ステム210上で稼働中の排他制御管理プログラム21
2が、他の処理装置である処理装置100または処理装
置120で排他制御管理プログラムが起動されているか
どうかをチェックする処理は以下の様になる。
【0070】本実施形態の複合コンピュータシステムの
処理装置110において、排他制御管理プログラム21
2を起動すると、起動された排他制御管理プログラム2
12は、オペレーティングシステム210の構成管理手
段2101に対し、排他制御管理プログラム212が起
動したことを通知する。
【0071】処理装置110のオペレーティングシステ
ム210の構成管理手段2101は、プログラム状態管
理手段2102により、排他制御管理プログラム212
が稼働中であることを記録する。
【0072】また、他の処理装置である処理装置100
または処理装置120で排他制御管理プログラムを起動
した場合にも同様な手順により、その処理装置のオペレ
ーティングシステム上で排他制御管理プログラムが稼働
中であることを記録する。
【0073】図2に示す様に、本実施形態の複合コンピ
ュータシステムでは、処理装置110及び処理装置12
0において排他制御管理プログラム212及び排他制御
管理プログラム222が起動されている。
【0074】ここで、処理装置110で実行中の排他制
御管理プログラム212が、処理装置120上で排他制
御管理プログラム222が稼働中であるかどうかを調べ
る為に、オペレーティングシステム210の構成管理手
段2101に、処理装置120のプログラムの稼働状態
のチェックを依頼する。
【0075】処理装置110のオペレーティングシステ
ム210の構成管理手段2101は、他システム通信手
段2104を介して処理装置120のオペレーティング
システム220の構成管理手段に問い合わせることによ
り、処理装置120で排他制御管理プログラム222が
稼働中であることを検知する。
【0076】次に、本実施形態の複合コンピュータシス
テムにおいて、処理装置100、110及び120のシ
ステムを停止する場合や、処理装置100、110及び
120で動作中のプログラムを停止する場合の稼働管理
について説明する。
【0077】図3は、本実施形態の複合コンピュータシ
ステムの停止時の稼働管理の概略を示す図である。
【0078】図3に示す様に、本実施形態の複合コンピ
ュータシステムの停止時の稼働管理では、稼働監視装置
130の接続状態監視手段231と、サービスプロセッ
サ107、117及び127とが定期的に通信を行って
おり、処理装置100、110または120のシステム
を停止した場合には、停止したシステムに接続されてい
るサービスプロセッサも停止し、稼働監視装置130が
接続状態監視手段231により停止した処理装置のサー
ビスプロセッサからの応答が無いことから、対応する処
理装置のシステムの停止を検知する。
【0079】本実施形態の複合コンピュータシステムに
おいて、処理装置110がシステム停止を行うと、稼働
監視装置130が接続状態監視手段231により処理装
置110のシステム停止を検知し、稼働状態管理手段2
33により構成情報・稼働状態管理テーブル234の処
理装置110に対応する稼働状態を、稼働中であること
を示す「1」から非稼働中であることを示す「0」に遷
移させる。
【0080】これと同時に、稼働監視装置130は、こ
の時稼働状態が「1」である処理装置100及び処理装
置120に対して、システム停止が発生したことを処理
装置通信手段230により通知する。
【0081】処理装置100のオペレーティングシステ
ム200の構成管理手段2001は、稼働監視装置13
0からのシステム停止の発生を示す通知を検知したら、
稼働監視装置130の構成情報・稼働状態管理テーブル
234の内容を稼働監視装置通信手段2003によって
採取し、どの処理装置が停止したかを直ちに把握するこ
とが可能である。
【0082】また、本実施形態の複合コンピュータシス
テムにおいて、各処理装置のオペレーティングシステム
で稼働中のプログラムを停止する場合には、前記停止す
るプログラムからの通知によりオペレーティングシステ
ムは、前記プログラムの稼働状態を示す情報を稼働中か
ら非稼働中に変更する。
【0083】各処理装置のオペレーティングシステムで
稼働中のプログラムが、他の処理装置上のプログラムが
停止しているかどうかを知りたい場合には、前記稼働中
のプログラムのオペレーティングシステムの構成管理手
段に指示し、他システム通信手段を経由して、プログラ
ムの稼働状態を知りたい他の処理装置のオペレーティン
グシステムと通信することにより、他の処理装置上のプ
ログラムが停止しているかどうかを検知することが可能
である。
【0084】例えば、本実施形態の複合コンピュータシ
ステムの処理装置110において、排他制御管理プログ
ラム212を停止するときに、排他制御管理プログラム
212は、オペレーティングシステム210の構成管理
手段2101に対し、排他制御管理プログラム212を
停止することを通知する。
【0085】処理装置110のオペレーティングシステ
ム210の構成管理手段2101は、プログラム状態管
理手段2102により、排他制御管理プログラム212
の稼働状態を示す情報を稼働中から非稼働中に変更す
る。
【0086】また、他の処理装置である処理装置100
または処理装置120で排他制御管理プログラムを停止
する場合にも同様な手順により、その処理装置のオペレ
ーティングシステム上の排他制御管理プログラムの稼働
状態を示す情報を稼働中から非稼働中に変更する。
【0087】図3に示す様に、本実施形態の複合コンピ
ュータシステムでは、処理装置100の排他制御管理プ
ログラムは起動されていない。
【0088】ここで、処理装置110で実行中の排他制
御管理プログラム212が、処理装置100上で排他制
御管理プログラムが稼働中であるかどうかを調べる為
に、オペレーティングシステム210の構成管理手段2
101に、処理装置100のプログラムの稼働状態のチ
ェックを依頼する。
【0089】処理装置110のオペレーティングシステ
ム210の構成管理手段2101は、他システム通信手
段2104を介して処理装置100のオペレーティング
システム200の構成管理手段2001に問い合わせる
ことにより、処理装置100では排他制御管理プログラ
ムが停止していることを検知する。
【0090】以下に、本実施形態の複合コンピュータシ
ステムにおいて、複数の処理装置が排他制御管理プログ
ラムを介して共有データをアクセスする際に発生した障
害部位の特定を行う処理手順について説明する。
【0091】図4は、本実施形態の複合コンピュータシ
ステムの障害部位を特定する処理の処理手順を示すフロ
ーチャートである。
【0092】本実施形態の複合コンピュータシステムに
おいて、処理装置100、110及び120は、各処理
装置上の排他制御管理プログラムを介して磁気ディスク
装置140上の共有データをアクセスする。
【0093】各処理装置上の排他制御管理プログラム
は、マスター・スレーブ方式で排他制御を行うものと
し、マスター側の排他制御管理プログラムは処理装置1
10に存在するものとする。
【0094】マスター・スレーブ方式の排他制御では、
スレーブ側の処理装置上の排他制御管理プログラムは、
磁気ディスク装置140上の共有データにアクセスする
前に必ずマスター側の処理装置の排他制御管理プログラ
ムに、磁気ディスク装置140上の共有データを使用す
る使用許可を得る。
【0095】例えば、処理装置100が磁気ディスク装
置140上の共有データにアクセスする場合には、磁気
ディスク装置140上の共有データを使用しても良いか
どうかを、チャネル間結合装置160を介して処理装置
110の排他制御管理プログラム212に問い合わせ
る。
【0096】処理装置110の排他制御管理プログラム
212は、処理装置110及び処理装置120で磁気デ
ィスク装置140上の共有データを使用していないこと
を確認すると、処理装置100に対しチャネル間結合装
置160を介して磁気ディスク装置140上の共有デー
タの使用許可を発行する。
【0097】処理装置100では、処理装置110の排
他制御管理プログラム212からの使用許可を受信した
後に、磁気ディスク装置140上の共有データにアクセ
スする。
【0098】本実施形態の複合コンピュータシステムに
おいて、処理装置120の排他制御管理プログラム22
2が、磁気ディスク装置140上の共有データを使用し
ても良いかどうかを処理装置110の排他制御管理プロ
グラム212に問い合わせた後、処理装置110の排他
制御管理プログラム212からの応答が、予め規定され
た特定の時間を経過しても受信されない場合には、その
原因としてチャネル間結合装置、処理装置間を接続する
通信経路及びチャネル装置の障害といった経路障害、並
びに、処理装置110の排他制御管理プログラム212
の異常終了及び処理装置110のシステム停止の何れか
が想定される。
【0099】図4に示す様に、本実施形態の複合コンピ
ュータシステムにおいて、処理装置120から磁気ディ
スク装置140上の共有データをアクセスしようとした
ときに発生した障害部位を特定する処理では、まず、ス
テップ401の処理で、マスター側の排他制御管理プロ
グラム212が存在する処理装置110への通信が、予
め規定された特定の時間内に完了したかどうかを調べ
る。
【0100】処理装置120からマスター側の排他制御
管理プログラム212が存在する処理装置110への通
信が予め規定された特定の時間内に完了していない場合
には、ステップ402の処理に進み、処理装置120の
オペレーティングシステム220の構成管理手段は、稼
働監視装置130に処理装置110のシステムが停止状
態かどうかを問い合わせる。
【0101】ステップ402の処理で、処理装置120
のオペレーティングシステム220の構成管理手段は、
稼働監視装置130の構成情報・稼働状態管理テーブル
234の内容を稼働監視装置通信手段2003によって
採取し、処理装置110のシステムが停止しているかど
うかを調べる。
【0102】処理装置110のシステムが停止している
場合には、ステップ403の処理に進み、マスター側の
処理装置を処理装置110から処理装置120に交代
し、排他制御管理プログラム222をマスター側の排他
制御管理プログラムに変更する。
【0103】処理装置110のシステムが停止していな
い場合には、ステップ404の処理に進み、処理装置1
20のオペレーティングシステム220の構成管理手段
は、マスター側である処理装置110の排他制御管理プ
ログラム212の稼働状態を処理装置110の構成管理
手段2101に問い合わせる。
【0104】ステップ404の処理で、処理装置120
のオペレーティングシステム220の構成管理手段は、
他システム通信手段を介して処理装置110のオペレー
ティングシステム210の構成管理手段2101に問い
合わせることにより、処理装置110で排他制御管理プ
ログラム212が稼働中であるかどうかを調べる。
【0105】処理装置110の排他制御管理プログラム
212が停止している場合には、ステップ405の処理
に進み、処理装置110上の排他制御管理プログラム2
12を再起動する。
【0106】処理装置110の排他制御管理プログラム
212が停止していない場合には、通信経路の障害が想
定される為、ステップ406の処理に進み、予備の通信
経路を交代パスとして再接続処理を行う。
【0107】この様な処理手順により、従来オペレータ
の判断が必要であった複合コンピュータシステムの障害
部位の特定を自動的に行うことが可能となる。
【0108】以上説明した様に、本実施形態の複合コン
ピュータシステムによれば、複数の処理装置の稼働状態
と前記複数の処理装置上のプログラムの稼働状態とを稼
働監視用ネットワークを介して監視するので、障害が発
生したときに早期に障害部位を特定し障害部位に対応す
る処理を行って長時間の無人運転の実現とユーザ負担の
軽減を行うことが可能である。
【0109】(実施形態2)以下に、本発明の複合コン
ピュータシステムにおいて、複数の稼働監視装置によっ
て複合コンピュータシステムの稼働監視を行う実施形態
2の複合コンピュータシステムについて説明する。
【0110】図5は、本実施形態の複合コンピュータシ
ステムの稼働監視装置を二重化した場合の概略構成を示
す図である。図5において、109は稼働監視装置二重
化手段、130は正装置である稼働監視装置、131は
副装置である稼働監視装置、235及び245は通信抑
止手段、236及び246はコンソール間通信手段であ
る。
【0111】図5に示す様に、本実施形態の複合コンピ
ュータシステムの稼働監視装置を二重化した場合では、
稼働監視装置二重化手段109と、正装置である稼働監
視装置130と、副装置である稼働監視装置131と、
通信抑止手段235及び245と、コンソール間通信手
段236及び246とを有している。
【0112】また、図5に示す様に、本実施形態の複合
コンピュータシステムでは、本実施形態の複合コンピュ
ータシステムでは、処理装置100、110及び120
の状態を管理するサービスプロセッサ107、117及
び127と正装置である稼働監視装置130とを稼働監
視用ネットワークである第1のLANで接続すると共
に、サービスプロセッサ107、117及び127と副
装置である稼働監視装置131とを稼働監視用ネットワ
ークの第2のLANで接続している。
【0113】また、本実施形態の複合コンピュータシス
テムの稼働監視装置130及び稼働監視装置131は、
処理装置100、110及び120との通信を行う処理
装置通信手段230及び240の動作を抑止する通信抑
止手段235及び245を備えており、また、稼働監視
装置130と稼働監視装置131とはコンソール間通信
手段236及びコンソール間通信手段246を介して接
続されている。
【0114】以下に、本実施形態の複合コンピュータシ
ステムにおいて、稼働監視装置が二重化された場合に複
数の処理装置の稼働状態を管理する処理について説明す
る。
【0115】本実施形態の複合コンピュータシステムの
サービスプロセッサ107は、稼働監視装置二重化手段
109を備え、サービスプロセッサ107の稼働監視装
置二重化手段109により、処理装置100からの通知
を二重化された稼働監視装置130及び131のそれぞ
れに通知する。
【0116】二重化された稼働監視装置から処理装置1
00、110及び120への通知は、正装置である稼働
監視装置130から実行され、副装置である稼働監視装
置131では、処理装置通信手段240の通信抑止手段
241によって稼働監視装置131から処理装置10
0、110及び120への通信が抑止されている。
【0117】前記の様に、副装置である稼働監視装置1
31において処理装置通信手段240の通信抑止手段2
41によって稼働監視装置131から処理装置100、
110及び120への通信が抑止されることにより、処
理装置100、110または120のシステム停止を検
知した場合に送られる通知が、稼働中の他の処理装置に
二重に届けられることはない。
【0118】本実施形態の複合コンピュータシステムに
おいて、正装置である稼働監視装置130に障害が発生
し、予め規定された特定の時間が経過しても正装置であ
る稼働監視装置130からの応答が得られない状態とな
って、サービスプロセッサ107、117及び127と
稼働監視装置130との間の通信ができなくなった場合
には、サービスプロセッサ107の稼働監視装置二重化
手段109は、副装置である稼働監視装置131の処理
装置通信手段240に備えられた通信抑止手段245の
通信抑止状態を解除する。
【0119】サービスプロセッサ107の稼働監視装置
二重化手段109が、通信抑止手段245の通信抑止状
態を解除することにより、副装置である稼働監視装置1
31は、コンソール間通信手段246により、正装置で
ある稼働監視装置130に閉塞命令を発行する。
【0120】正装置である稼働監視装置130のコンソ
ール間通信手段236は、副装置である稼働監視装置1
31からの閉塞命令を受けると、処理装置通信手段23
0に備えられた通信抑止手段235により稼働監視装置
130から処理装置100、110及び120への通信
を抑止する。
【0121】この様にして、二重化された稼働監視装置
130または131の一方の稼働監視装置が障害により
使用できなくなっても、処理装置100、110及び1
20側では何も意識する必要はなく、障害の発生してい
ない他方の稼働監視装置によって処理装置100、11
0及び120の稼働状態の監視を続行することが可能で
ある。
【0122】また、本実施形態の複合コンピュータシス
テムにおいて、上記以外の稼働監視装置を多重化する手
段として、処理装置に稼働監視装置二重化手段に相当す
る手段を備え、処理装置側で多重化された稼働監視装置
を管理したり、稼働監視装置内の各手段を多重化して複
数の処理装置の稼働状態を監視しても良い。
【0123】以上説明した様に、本実施形態の複合コン
ピュータシステムによれば、複数の稼働監視装置により
複数の処理装置の稼働状態を監視するので、特定の稼働
監視装置が障害により使用できなくなった場合に複数の
処理装置の稼働状態の監視を続行することが可能であ
る。
【0124】(実施形態3)以下に、本発明の複合コン
ピュータシステムにおいて、処理装置相互による監視に
よって複合コンピュータシステムの稼働監視を行う実施
形態3の複合コンピュータシステムについて説明する。
【0125】本実施形態の複合コンピュータシステムに
おいて、処理装置100、110及び120上で稼働中
のプログラムは、各処理装置を結ぶチャネル間結合装置
160、161及び162を介して一定間隔で入出力命
令を発行する。
【0126】例えば、処理装置100上で稼働中のプロ
グラムは、処理装置110及び120上で稼働中のプロ
グラムにある特定のデータを送信し、処理装置110及
び120上で稼働中のプログラムは、前記特定のデータ
を受信したら、その応答として受信確認のデータを送信
元の処理装置100上で稼働中のプログラムに送り返
す。
【0127】この様なシーケンスで、処理装置100、
110及び120上で稼働中の各プログラムが、相互に
特定のデータを送受信することによって、何らかの障害
が発生した場合には予め規定された特定の時間を経過し
ても応答が受信されない為、無応答をもって相手の処理
装置の異常とみなせる。
【0128】前記の様に、複数の処理装置で稼働中のプ
ログラムが相互に特定のデータを送受信する場合には、
相互に特定のデータを送受信するプログラムの数が増加
すると、その通信負荷が急速に増加することが考えられ
るが、本実施形態の複合コンピュータシステムでは、通
常の障害検知は稼働監視装置により実現することが可能
である為、前記の相互に特定のデータを送受信する頻度
を少なくしても良い。
【0129】従って、本実施形態の複合コンピュータシ
ステムでは、複数の処理装置相互で特定のデータを送受
信するオーバヘッドを削減して通常の通信に与える影響
を少なくすると共に、稼働監視装置が障害の発生等によ
り全面的に動作しなくなった場合であっても複数の処理
装置の稼働状態の監視を続行することが可能である。
【0130】以上説明した様に、本実施形態の複合コン
ピュータシステムによれば、複数の処理装置相互で特定
のデータを送受信して他の処理装置の稼働状態を監視す
るので、稼働監視装置が全面的に動作しなくなった場合
に複数の処理装置の稼働状態の監視を続行することが可
能である。
【0131】以上、本発明を前記実施形態に基づき具体
的に説明したが、本発明は、前記実施形態に限定される
ものではなく、その要旨を逸脱しない範囲において種々
変更可能であることは勿論である。
【0132】例えば、排他制御専用のコンピュータに複
数の処理装置を接続した複合コンピュータシステムで
は、前記排他制御専用のコンピュータを稼働監視装置に
よる稼働状態の監視の対象としても良い。
【0133】また、仮想計算機上に複数の処理装置と稼
働監視装置を仮想的に設定して複合コンピュータシステ
ムを構成し、前記の仮想的な複数の処理装置の稼働状態
を監視しても良い。
【0134】
【発明の効果】本願において開示される発明のうち代表
的なものによって得られる効果を簡単に説明すれば、下
記のとおりである。
【0135】(1)複数の処理装置の稼働状態と前記複
数の処理装置上のプログラムの稼働状態とを稼働監視用
ネットワークを介して監視するので、障害が発生したと
きに早期に障害部位を特定し障害部位に対応する処理を
行って長時間の無人運転の実現とユーザ負担の軽減を行
うことが可能である。
【0136】(2)複数の稼働監視装置により複数の処
理装置の稼働状態を監視するので、特定の稼働監視装置
が障害により使用できなくなった場合に複数の処理装置
の稼働状態の監視を続行することが可能である。
【0137】(3)複数の処理装置相互で特定のデータ
を送受信して他の処理装置の稼働状態を監視するので、
稼働監視装置が全面的に動作しなくなった場合に複数の
処理装置の稼働状態の監視を続行することが可能であ
る。
【図面の簡単な説明】
【図1】実施形態1の複合コンピュータシステムの概略
構成を示す図である。
【図2】実施形態1の複合コンピュータシステムの起動
時の稼働管理の概略を示す図である。
【図3】実施形態1の複合コンピュータシステムの停止
時の稼働管理の概略を示す図である。
【図4】実施形態1の複合コンピュータシステムの障害
部位を特定する処理の処理手順を示すフローチャートで
ある。
【図5】実施形態2の複合コンピュータシステムの稼働
監視装置を二重化した場合の概略構成を示す図である。
【符号の説明】
100、110及び120…処理装置、101、10
2、111、112、121及び122…命令プロセッ
サ、103、104、113、114、123及び12
4…入出力プロセッサ、105、115及び125…主
記憶装置、106、116及び126…システム制御装
置、107、117及び127…サービスプロセッサ、
108、118及び128…コンソール、109…稼働
監視装置二重化手段、130及び131…稼働監視装
置、140及び141…磁気ディスク装置、150及び
151…磁気テープ装置、160〜162…チャネル間
結合装置、200、210及び220…オペレーティン
グシステム、2001及び2101…構成管理手段、2
002及び2102…プログラム状態管理手段、200
3及び2103…稼働監視装置通信手段、2004及び
2104…他システム通信手段、211及び221…ジ
ョブ管理プログラム、212及び222…排他制御管理
プログラム、223…データベース管理プログラム、2
30…処理装置通信手段、231…接続状態監視手段、
232…接続構成管理手段、233…稼働状態管理手
段、234…構成情報・稼働状態管理テーブル、235
及び245…通信抑止手段、236及び246…コンソ
ール間通信手段。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 田巻 貴久子 神奈川県横浜市戸塚区戸塚町5030番地 株 式会社日立製作所ソフトウェア開発本部内

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 複数の処理装置を通信手段で接続し特定
    の共有資源を排他制御してアクセスする複合コンピュー
    タシステムにおいて、 複数の処理装置が起動または停止したときに前記複数の
    処理装置の稼働状態を記録する稼働監視装置と、前記複
    数の処理装置と稼働監視装置とを接続する稼働監視用ネ
    ットワークと、前記複数の処理装置のプログラムが起動
    または停止したときに前記プログラムの稼働状態を記録
    するプログラム状態管理手段とを備え、前記複数の処理
    装置で障害が発生したときに前記稼働監視用ネットワー
    クを介して稼働監視装置に記録された前記複数の処理装
    置の稼働状態と前記プログラム状態管理手段に記録され
    たプログラムの稼働状態を取得して障害部位の特定を行
    うことを特徴とする複合コンピュータシステム。
  2. 【請求項2】 前記複数の処理装置が起動または停止し
    たときに前記複数の処理装置の稼働状態を記録する複数
    の稼働監視装置と、特定の稼働監視装置以外の稼働監視
    装置から前記複数の処理装置への通信を抑止する通信抑
    止手段と、前記複数の処理装置から前記複数の稼働監視
    装置への通信を行うと共に前記複数の稼働監視装置の通
    信抑止手段を制御する稼働監視装置多重化手段とを備
    え、 前記稼働監視装置多重化手段により前記複数の処理装置
    の稼働状態を前記複数の稼働監視装置に送信すると共
    に、前記通信抑止手段により特定の稼働監視装置以外の
    稼働監視装置から前記複数の処理装置への通信を抑止し
    て前記複数の稼働監視装置の特定の稼働監視装置のみに
    より前記複数の処理装置の稼働状態を監視し、前記特定
    の稼働監視装置に障害が発生した場合に、前記稼働監視
    装置多重化手段により前記障害の発生した稼働監視装置
    以外の複数の稼働監視装置の特定の稼働監視装置の通信
    抑止手段の通信抑止状態を解除し、前記通信抑止状態が
    解除された稼働監視装置により前記複数の処理装置の稼
    働状態の監視を続行することを特徴とする請求項1に記
    載された複合コンピュータシステム。
  3. 【請求項3】 複数の処理装置を接続する前記通信手段
    を介して前記複数の処理装置間で特定のデータを送受信
    することにより前記複数の処理装置が相互に稼働状態の
    監視を行うことを特徴とする請求項1または請求項2の
    いずれかに記載された複合コンピュータシステム。
JP33135795A 1995-12-20 1995-12-20 複合コンピュータシステム Expired - Fee Related JP3555047B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP33135795A JP3555047B2 (ja) 1995-12-20 1995-12-20 複合コンピュータシステム
US08/768,969 US5974565A (en) 1995-12-20 1996-12-18 Composite computer system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP33135795A JP3555047B2 (ja) 1995-12-20 1995-12-20 複合コンピュータシステム

Publications (2)

Publication Number Publication Date
JPH09171475A true JPH09171475A (ja) 1997-06-30
JP3555047B2 JP3555047B2 (ja) 2004-08-18

Family

ID=18242784

Family Applications (1)

Application Number Title Priority Date Filing Date
JP33135795A Expired - Fee Related JP3555047B2 (ja) 1995-12-20 1995-12-20 複合コンピュータシステム

Country Status (2)

Country Link
US (1) US5974565A (ja)
JP (1) JP3555047B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6957364B2 (en) 2001-02-02 2005-10-18 Hitachi, Ltd. Computing system in which a plurality of programs can run on the hardware of one computer
JP2006285384A (ja) * 2005-03-31 2006-10-19 Nec Corp プロセッサ障害処理方式、管理プロセッサ及びプロセッサ障害処理方法

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6161196A (en) * 1998-06-19 2000-12-12 Lucent Technologies Inc. Fault tolerance via N-modular software redundancy using indirect instrumentation
US6466998B1 (en) * 1999-08-25 2002-10-15 Intel Corporation Interrupt routing mechanism for routing interrupts from peripheral bus to interrupt controller
DE19940584A1 (de) * 1999-08-26 2001-03-22 Siemens Ag Verfahren und System zum Bestücken von in einer Bestückungseinheit angeordneten Schaltungsträgern
US6389370B1 (en) * 1999-09-14 2002-05-14 Hewlett-Packard Company System and method for determining which objects in a set of objects should be processed
US6845467B1 (en) 2001-02-13 2005-01-18 Cisco Systems Canada Co. System and method of operation of dual redundant controllers
US6832342B2 (en) * 2001-03-01 2004-12-14 International Business Machines Corporation Method and apparatus for reducing hardware scan dump data
WO2004104825A1 (en) * 2003-05-15 2004-12-02 Applianz Technologies, Inc. Systems and methods of creating and accessing software simulated computers

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2723925B2 (ja) * 1988-09-19 1998-03-09 株式会社日立製作所 計算機間プログラムオンライン再配置方式
JP2804125B2 (ja) * 1989-11-08 1998-09-24 株式会社日立製作所 情報処理システムの障害監視装置と制御方法
US5475625A (en) * 1991-01-16 1995-12-12 Siemens Nixdorf Informationssysteme Aktiengesellschaft Method and arrangement for monitoring computer manipulations
JP3118855B2 (ja) * 1991-04-10 2000-12-18 株式会社日立製作所 マルチプロセッサシステム
US5650940A (en) * 1991-10-25 1997-07-22 Kabushiki Kaisha Toshiba Process monitoring system with remote supervision
US5535335A (en) * 1992-12-22 1996-07-09 International Business Machines Corporation Method and system for reporting the status of an aggregate resource residing in a network of interconnected real resources
US5640513A (en) * 1993-01-22 1997-06-17 International Business Machines Corporation Notification of disconnected service machines that have stopped running
JPH06243064A (ja) * 1993-02-12 1994-09-02 Honda Motor Co Ltd コンピュータネットワークの障害検出システム
US5592620A (en) * 1993-08-12 1997-01-07 International Business Machines Corporation System and method for controlling, monitoring and retrieving accounting data
US5568605A (en) * 1994-01-13 1996-10-22 International Business Machines Corporation Resolving conflicting topology information
GB2286508A (en) * 1994-02-08 1995-08-16 Ibm Performance and status monitoring in a computer network
JPH07319832A (ja) * 1994-05-26 1995-12-08 Hitachi Ltd サービス利用情報収集方法および装置、並びに計算機システム停止制御方法および装置
US5590277A (en) * 1994-06-22 1996-12-31 Lucent Technologies Inc. Progressive retry method and apparatus for software failure recovery in multi-process message-passing applications
US5590120A (en) * 1995-10-31 1996-12-31 Cabletron Systems, Inc. Port-link configuration tracking method and apparatus

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6957364B2 (en) 2001-02-02 2005-10-18 Hitachi, Ltd. Computing system in which a plurality of programs can run on the hardware of one computer
JP2006285384A (ja) * 2005-03-31 2006-10-19 Nec Corp プロセッサ障害処理方式、管理プロセッサ及びプロセッサ障害処理方法

Also Published As

Publication number Publication date
US5974565A (en) 1999-10-26
JP3555047B2 (ja) 2004-08-18

Similar Documents

Publication Publication Date Title
KR100557399B1 (ko) 네트웍 매체 링크상태 기능을 이용한 컴퓨터 클러스터링시스템의 가용도 개선방법
JP3620527B2 (ja) ループ状インタフェースの障害解析方法及び障害解析機能を有するシステム
US8423816B2 (en) Method and computer system for failover
US20090089609A1 (en) Cluster system wherein failover reset signals are sent from nodes according to their priority
US8464092B1 (en) System and method for monitoring an application or service group within a cluster as a resource of another cluster
EP1437658B1 (en) Coordinating persistent status information with multiple file servers
US7853767B2 (en) Dual writing device and its control method
JPH0831047B2 (ja) 論理区画式データ処理装置における区画間制御のための装置及び方法
US8032786B2 (en) Information-processing equipment and system therefor with switching control for switchover operation
JPH0619749B2 (ja) データ処理装置および方法
JP2006163963A (ja) ディスク引き継ぎによるフェイルオーバ方法
GB2408817A (en) Disk array system
US20100017646A1 (en) Cluster system and node switching method
JP2007011672A (ja) Raid装置、通信接続監視方法及びプログラム
JP4155399B2 (ja) コンピュータ処理方法及びその実施システム並びにその処理プログラム
US8145952B2 (en) Storage system and a control method for a storage system
JPH09171475A (ja) 複合コンピュータシステム
JP3957065B2 (ja) ネットワーク計算機システムおよび管理装置
JP2006189963A (ja) ストレージアクセス制御方法、クラスタシステム、パス接続スイッチおよびストレージアクセス制御プログラム
JP3771162B2 (ja) 保守管理方法、保守管理システム、情報処理システムおよびコンピュータプログラム
JP3248485B2 (ja) クラスタシステム、クラスタシステムにおける監視方式およびその方法
KR100604552B1 (ko) 클러스터 시스템에서 상태 정보 및 제어 명령의 공유를통한 시스템 장애 대응방법
JPH103445A (ja) 無停止型磁気ディスク装置システム
JPH08328989A (ja) 入出力制御装置の管理方式
JPH11327937A (ja) 資源排他制御システム

Legal Events

Date Code Title Description
A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040428

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080521

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080521

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090521

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100521

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110521

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees