JP3555047B2 - 複合コンピュータシステム - Google Patents

複合コンピュータシステム Download PDF

Info

Publication number
JP3555047B2
JP3555047B2 JP33135795A JP33135795A JP3555047B2 JP 3555047 B2 JP3555047 B2 JP 3555047B2 JP 33135795 A JP33135795 A JP 33135795A JP 33135795 A JP33135795 A JP 33135795A JP 3555047 B2 JP3555047 B2 JP 3555047B2
Authority
JP
Japan
Prior art keywords
operation monitoring
monitoring device
processing devices
communication
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP33135795A
Other languages
English (en)
Other versions
JPH09171475A (ja
Inventor
進 奥原
浩 守島
新吾 前田
貴久子 田巻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP33135795A priority Critical patent/JP3555047B2/ja
Priority to US08/768,969 priority patent/US5974565A/en
Publication of JPH09171475A publication Critical patent/JPH09171475A/ja
Application granted granted Critical
Publication of JP3555047B2 publication Critical patent/JP3555047B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2002Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
    • G06F11/2007Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication media

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)
  • Hardware Redundancy (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、独立して稼働する複数の処理装置によって共有資源を排他制御してアクセスする複合コンピュータシステムに関し、特に、複数の処理装置によって共有資源を排他制御してアクセスする際に発生した障害を早期に発見し代替処理を行う複合コンピュータシステムに適用して有効な技術に関するものである。
【0002】
【従来の技術】
従来、相互に接続された複数の処理装置が磁気ディスク装置や磁気テープ装置などの資源を共有する負荷分散・協調型の複合コンピュータシステムにおいては、複数の処理装置間での通信を行うチャネル間結合装置等の入出力機器を接続し、入出力命令によって相互に通信することにより複数の処理装置間の連携を行ってきた。
【0003】
ところが、この様な従来の複合コンピュータシステムにおいては、チャネル障害、通信経路の障害及びシステムダウン等の障害により相手系の処理装置との連絡が不能になると、共有している資源の排他処理が続行できなくなる。
【0004】
従って、相手系の処理装置の無応答を検知した場合には、オペレータに無応答の処理装置を検知したことを示すメッセージを出力して人間の判断によって障害部位を特定し、発生した障害に対応する処理を行って業務を続行していた。
【0005】
なお、従来の複合コンピュータシステムにおける障害検知時の応答手順については(株)日立製作所発行のマニュアル「プログラムプロダクトVOS3/ASシステム操作−JSS3編−」(平成6年12月発行)に「MSCF障害時のオペレータ処置」として記述されている。
【0006】
更に、従来の複合コンピュータシステムにおいて、複数の処理装置間の通信オーバヘッドを削減する為に、共有資源を管理する排他制御用のメモリを設け、複数の処理装置間で効率よく連携する方式がとられてきた。
【0007】
例えば、二重化される磁気ディスク装置の各ボリューム単位に設けた不揮発の制御メモリに排他制御用のロック情報を配置し、ディスク二重書き制御プログラムで前記制御メモリの排他制御用のロック情報を使用するものがある。
【0008】
前記のディスク二重書き制御プログラムでは、1つの処理装置がロック情報を更新すると、他の処理装置に非同期の入出力割り込みとして報告する機能を利用して、複数の処理装置間で連携することを実現している。
【0009】
しかし、前記従来の複合コンピュータシステムにおいて、1つの処理装置がロック情報を持ったままシステムダウンした場合には、正常に稼働中の他の処理装置の二重書き磁気ディスク装置へのアクセスがロック情報を確保できず、入出力タイムオーバとなり処理が続行できなくなる。
【0010】
前述したチャネル間結合装置等の入出力機器を使用して複数の処理装置間で通信を行って共有資源の排他制御を行う従来の技術や、前記ディスク二重書き制御プログラムの様に1つの処理装置がロック情報を持つことによって排他制御を行う従来の技術では、他の処理装置の稼働状態を判断することができない為、ロック情報を持つ処理装置に障害が発生したときのロック情報の解除にはオペレータの介入が必要である。
【0011】
この為、前記従来の複合コンピュータシステムでは、事前に障害時の組み合わせを想定した回復手順書を作成する必要があり、複合コンピュータシステムを運用する際の負担となっていた。
【0012】
【発明が解決しようとする課題】
本発明者は、前記従来技術を検討した結果、以下の問題点を見い出した。
【0013】
すなわち、前記従来の複合コンピュータシステムでは、相手系の処理装置の無応答を検知した場合に、オペレータに無応答の処理装置を検知したことを示すメッセージを出力して人間の判断によって障害部位を特定し業務を続行していた為、メッセージ出力時の運用手順の作成等の運用負担の増加や、長時間の無人運転に対応することができないという問題があった。
【0014】
また、前記従来の複合コンピュータシステムのディスク二重書き制御プログラムでは、1つの処理装置がロック情報を持ったままシステムダウンした場合には、ロック情報の解除にはオペレータの介入を必要とする為、事前に障害時の組み合わせを想定した回復手順書を作成する必要があり運用上の負担となっていた。
【0015】
本発明の目的は、障害が発生したときに早期に障害部位を特定し障害部位に対応する処理を行って長時間の無人運転の実現とユーザ負担の軽減を行うことが可能な技術を提供することにある。
【0016】
本発明の他の目的は、特定の稼働監視装置が障害により使用できなくなった場合に複数の処理装置の稼働状態の監視を続行することが可能な技術を提供することにある。
【0017】
本発明の他の目的は、稼働監視装置が全面的に動作しなくなった場合に複数の処理装置の稼働状態の監視を続行することが可能な技術を提供することにある。
【0018】
本発明の前記並びにその他の目的と新規な特徴は、本明細書の記述及び添付図面によって明かになるであろう。
【0019】
【課題を解決するための手段】
本願によって開示される発明のうち、代表的なものの概要を簡単に説明すれば、下記のとおりである。
【0020】
(1)複数の処理装置を通信手段で接続し特定の共有資源を排他制御してアクセスする複合コンピュータシステムにおいて、
複数の処理装置が起動または停止したときに前記複数の処理装置の稼働状態を記録する稼働監視装置と、前記複数の処理装置と稼働監視装置とを接続する稼働監視用ネットワークと、前記複数の処理装置のプログラムが起動または停止したときに前記プログラムの稼働状態を記録するプログラム状態管理手段とを備え、前記複数の処理装置で障害が発生したときに前記稼働監視用ネットワークを介して稼働監視装置に記録された前記複数の処理装置の稼働状態と前記プログラム状態管理手段に記録されたプログラムの稼働状態を取得して障害部位の特定を行うものである。
【0021】
前記複合コンピュータシステムでは、複数の処理装置をチャネル間結合装置等の特定の通信手段で接続し、前記チャネル間結合装置等の特定の通信手段によって複数の処理装置間で通信を行うことにより、磁気ディスク装置や磁気テープ装置等の特定の共有資源を排他制御してアクセスしている。
【0022】
前記複合コンピュータシステムを構成する複数の処理装置は、前記チャネル間結合装置等の排他制御用の特定の通信手段とは異なる稼働監視用ネットワークを介して稼働監視装置に接続されており、前記複数の処理装置が起動または停止したときに前記複数の処理装置の稼働状態を前記稼働監視装置に記録する。
【0023】
また、前記複合コンピュータシステムの複数の処理装置で稼働するオペレーティングシステムは、前記複数の処理装置上でプログラムが起動または停止したときに前記プログラムの稼働状態をプログラム状態管理手段に記録する。
【0024】
前記複合コンピュータシステムにおいて、前記チャネル間結合装置等の排他制御用の特定の通信手段によって、磁気ディスク装置や磁気テープ装置等の特定の共有資源を排他制御してアクセスしようとしたときに、特定の処理装置からの応答が予め規定された特定の時間を経過しても得られない無応答の状態を検知する場合がある。
【0025】
前記の様に無応答の状態を検知したときに複合コンピュータシステムで障害が発生したとみなして、前記稼働監視用ネットワークを介して稼働監視装置に記録された前記複数の処理装置の稼働状態と前記プログラム状態管理手段に記録されたプログラムの稼働状態を取得し、前記特定の処理装置の稼働状態と前記特定の処理装置上のプログラムの稼働状態とを比較して障害部位の特定を行う。
【0026】
すなわち、前記特定の処理装置が非稼働中である場合には、障害部位を前記特定の処理装置であるとみなして他の処理装置で排他処理を代替する縮退運転を行い、前記特定の処理装置が稼働中である場合には、前記特定の処理装置上のプログラムの稼働状態を調べる。
【0027】
前記特定の処理装置上のプログラムの稼働状態を調べ、前記特定の処理装置上のプログラムが非稼働中である場合には、障害部位を前記特定の処理装置上のプログラムであるとみなして前記特定の処理装置上のプログラムの再起動を行い、前記特定の処理装置上のプログラムが稼働中である場合には、前記排他制御用の特定の通信手段が障害部位であるとみなして予備の通信経路を選択して排他制御を続行する。
【0028】
以上の様に、前記複合コンピュータシステムによれば、複数の処理装置の稼働状態と前記複数の処理装置上のプログラムの稼働状態とを稼働監視用ネットワークを介して監視するので、障害が発生したときに早期に障害部位を特定し障害部位に対応する処理を行って長時間の無人運転の実現とユーザ負担の軽減を行うことが可能である。
【0029】
(2)前記(1)に記載された複合コンピュータシステムにおいて、前記稼働監視装置を複数備え正装置である稼働監視装置以外の稼働監視装置から前記複数の処理装置への通信を抑止する通信抑止手段と、前記通信抑止手段を制御することにより、複数の処理装置から前記複数の稼働監視装置への通信を制御する単一の稼働監視装置多重化手段とを備え、前記稼働監視装置多重化手段により前記複数の処理装置の稼働状態を前記複数の稼働監視装置に送信すると共に、前記通信抑止手段により正装置である稼働監視装置以外の稼働監視装置から前記複数の処理装置への通信を抑止して正装置である稼働監視装置のみにより前記複数の処理装置の稼働状態を監視し、前記正装置である稼働監視装置に障害が発生した場合に、前記稼働監視装置多重化手段により前記障害の発生した稼働監視装置以外の複数の稼働監視装置の任意の稼働監視装置の通信抑止手段の通信抑止状態を解除し、前記通信抑止状態が解除された稼働監視装置により前記複数の処理装置の稼働状態の監視を続行するものである。
【0030】
前記複合コンピュータシステムでは、複数の処理装置と複数の稼働監視装置とを稼働監視用ネットワークで接続し、前記複数の稼働監視装置は、前記複数の処理装置との通信を抑止する通信抑止手段を備えている。
【0031】
前記複合コンピュータシステムでは、稼働監視装置多重化手段により、前記複数の処理装置からの通知を前記複数の稼働監視装置のそれぞれに通知する。
【0032】
一方、前記複数の稼働監視装置では、特定の稼働監視装置以外の稼働監視装置の通信抑止手段を通信抑止状態にしておき、前記特定の稼働監視装置を正装置、前記特定の稼働監視装置以外の稼働監視装置を副装置とし、正装置である稼働監視装置以外からの前記複数の処理装置への通信を抑止している。
【0033】
前記の様に、副装置である稼働監視装置において通信抑止手段によって稼働監視装置から複数の処理装置への通信が抑止されることにより、特定の処理装置のシステム停止を検知した場合に送られる通知が、稼働中の他の処理装置に重複して届けられることはない。
【0034】
前記複合コンピュータシステムにおいて、正装置である稼働監視装置に障害が発生し、予め規定された特定の時間が経過しても正装置である稼働監視装置からの応答が得られない状態となって、前記複数の処理装置と正装置である稼働監視装置との間の通信ができなくなった場合には、前記稼働監視装置多重化手段は、副装置である稼働監視装置の特定の稼働監視装置の通信抑止手段の通信抑止状態を解除する。
【0035】
この様にして、多重化された稼働監視装置の特定の稼働監視装置が障害により使用できなくなっても、複数の処理装置側では何も意識する必要はなく、障害の発生していない他の稼働監視装置によって複数の処理装置の稼働状態の監視を続行することが可能である。
【0036】
以上の様に、前記複合コンピュータシステムによれば、複数の稼働監視装置により複数の処理装置の稼働状態を監視するので、特定の稼働監視装置が障害により使用できなくなった場合に複数の処理装置の稼働状態の監視を続行することが可能である。
【0037】
(3)前記(1)または(2)に記載された複合コンピュータシステムにおいて、複数の処理装置を接続する前記通信手段を介して前記複数の処理装置間で特定のデータを送受信することにより前記複数の処理装置が相互に稼働状態の監視を行うものである。
【0038】
前記複合コンピュータシステムにおいて、複数の処理装置上で稼働中のプログラムは、各処理装置を結ぶチャネル間結合装置等の特定の通信手段を介して一定間隔で入出力命令を発行する。
【0039】
例えば、特定の処理装置で稼働中のプログラムは、他の処理装置上で稼働中のプログラムにある特定のデータを送信し、前記他の処理装置上で稼働中のプログラムは、前記特定のデータを受信したら、その応答として受信確認のデータを送信元の前記特定の処理装置上で稼働中のプログラムに送り返す。
【0040】
この様なシーケンスで、複数の処理装置で稼働中の各プログラムが、相互に特定のデータを送受信することによって、何らかの障害が発生した場合には予め規定された特定の時間を経過しても応答が受信されない為、無応答をもって相手の処理装置の異常とみなせる。
【0041】
前記の様に、複数の処理装置で稼働中のプログラムが相互に特定のデータを送受信する場合には、相互に特定のデータを送受信するプログラムの数が増加すると、その通信負荷が急速に増加することが考えられるが、前記複合コンピュータシステムでは、通常の障害検知は稼働監視装置により実現することが可能である為、前記の相互に特定のデータを送受信する頻度を少なくしても良い。
【0042】
従って、前記複合コンピュータシステムでは、複数の処理装置相互で特定のデータを送受信するオーバヘッドを削減して通常の通信に与える影響を少なくすると共に、稼働監視装置が障害の発生等により全面的に動作しなくなった場合であっても複数の処理装置の稼働状態の監視を続行することが可能である。
【0043】
以上の様に、前記複合コンピュータシステムによれば、複数の処理装置相互で特定のデータを送受信して他の処理装置の稼働状態を監視するので、稼働監視装置が全面的に動作しなくなった場合に複数の処理装置の稼働状態の監視を続行することが可能である。
【0044】
【発明の実施の形態】
以下、本発明について、実施形態とともに図を参照して詳細に説明する。なお、実施形態を説明するための全図において、同一機能を有するものは同一符号を付け、その繰り返しの説明は省略する。
【0045】
(実施形態1)
以下に、本発明の複合コンピュータシステムにおいて、磁気ディスク装置上の共有データを排他制御管理プログラムを介してアクセスする複数の処理装置を監視する実施形態1の複合コンピュータシステムについて説明する。
【0046】
図1は、本実施形態の複合コンピュータシステムの概略構成を示す図である。図1において、100、110及び120は処理装置、101、102、111、112、121及び122は命令プロセッサ、103、104、113、114、123及び124は入出力プロセッサ、105、115及び125は主記憶装置、106、116及び126はシステム制御装置、107、117及び127はサービスプロセッサ、108、118及び128はコンソール、130は稼働監視装置、140及び141は磁気ディスク装置、150及び151は磁気テープ装置、160〜162はチャネル間結合装置である。
【0047】
図1に示す様に、本実施形態の複合コンピュータシステムは、処理装置100、110及び120と、命令プロセッサ101、102、111、112、121及び122と、入出力プロセッサ103、104、113、114、123及び124と、主記憶装置105、115及び125と、システム制御装置106、116及び126と、サービスプロセッサ107、117及び127と、コンソール108、118及び128と、稼働監視装置130と、磁気ディスク装置140及び141と、磁気テープ装置150及び151と、チャネル間結合装置160〜162とを有している。
【0048】
また、図1に示す様に、本実施形態の複合コンピュータシステムでは、処理装置100は、命令プロセッサ101と、命令プロセッサ102と、入出力プロセッサ103と、入出力プロセッサ104と、主記憶装置105とをシステム制御装置106に接続し、処理装置100に対してシステムの起動指示及びハードウェア構成定義をするサービスプロセッサ107及びコンソール108が接続されている。
【0049】
また、処理装置110は、命令プロセッサ111と、命令プロセッサ112と、入出力プロセッサ113と、入出力プロセッサ114と、主記憶装置115とをシステム制御装置116に接続し、処理装置110に対してシステムの起動指示及びハードウェア構成定義をするサービスプロセッサ117及びコンソール118が接続されており、処理装置120は、命令プロセッサ121と、命令プロセッサ122と、入出力プロセッサ123と、入出力プロセッサ124と、主記憶装置125とをシステム制御装置126に接続し、処理装置120に対してシステムの起動指示及びハードウェア構成定義をするサービスプロセッサ127及びコンソール128が接続されている。
【0050】
入出力プロセッサ103、104、113、114、123及び124は、磁気ディスク装置140及び141並びに磁気テープ装置150及び151に接続されており、複数の処理装置100、110及び120は、磁気ディスク装置140及び141並びに磁気テープ装置150及び151を共有資源として共有している。
【0051】
また、入出力プロセッサ103はチャネル間結合装置160を介して入出力プロセッサ114に、入出力プロセッサ113はチャネル間結合装置161を介して入出力プロセッサ124に、入出力プロセッサ123はチャネル間結合装置162を介して入出力プロセッサ104に接続されており、複数の処理装置100、110及び120はマルチパス構成で相互に接続されている。
【0052】
処理装置100、110または120が他の処理装置と通信を行う場合には、チャネル間結合装置160、161または162を介して、入出力プロセッサ103及び114、入出力プロセッサ113及び124または入出力プロセッサ123及び104を使用して通信を行う。
【0053】
本実施形態の複合コンピュータシステムでは、処理装置100、110及び120の状態を管理するサービスプロセッサ107、117及び127と稼働監視装置130とを稼働監視用ネットワークであるLAN(Local Area Network)で接続することにより、稼働監視装置130が処理装置100、110及び120の稼働情報・構成情報を一括して管理している。
【0054】
以下に、本実施形態の複合コンピュータシステムにおいて、処理装置100、110及び120のシステムが起動する場合や、処理装置100、110及び120で動作するプログラムが起動する場合の稼働管理について説明する。
【0055】
図2は、本実施形態の複合コンピュータシステムの起動時の稼働管理の概略を示す図である。図2において、200、210及び220はオペレーティングシステム、2001及び2101は構成管理手段、2002及び2102はプログラム状態管理手段、2003及び2103は稼働監視装置通信手段、2004及び2104は他システム通信手段、211及び221はジョブ管理プログラム、212及び222は排他制御管理プログラム、223はデータベース管理プログラム、230は処理装置通信手段、231は接続状態監視手段、232は接続構成管理手段、233は稼働状態管理手段、234は構成情報・稼働状態管理テーブルである。
【0056】
図2に示す様に、本実施形態の複合コンピュータシステムの起動時の稼働管理では、オペレーティングシステム200、210及び220と、構成管理手段2001及び2101と、プログラム状態管理手段2002及び2102と、稼働監視装置通信手段2003及び2103と、他システム通信手段2004及び2104と、ジョブ管理プログラム211及び221と、排他制御管理プログラム212及び222と、データベース管理プログラム223と、処理装置通信手段230と、接続状態監視手段231と、接続構成管理手段232と、稼働状態管理手段233と、構成情報・稼働状態管理テーブル234とを使用している。
【0057】
また、図2に示す様に、本実施形態の複合コンピュータシステムの起動時の稼働管理では、処理装置100、110及び120のシステムが起動する場合や、処理装置100、110及び120で動作するプログラムが起動する場合には、稼働監視装置130に起動通知を行い、構成情報・稼働状態管理テーブル234の内容を更新する。
【0058】
本実施形態の複合コンピュータシステムの稼働監視装置130に格納されている構成情報・稼働状態管理テーブル234には、接続構成管理手段232によって管理されている稼働監視装置130に接続された処理装置100、110及び120の物理アドレス、システム識別子、システム名称及び稼働状態が記録されており、構成情報・稼働状態管理テーブル234の稼働状態が「0」である場合には、その処理装置が非稼働中であることを示し、稼働状態が「1」である場合には、その処理装置が稼働中であることを示している。
【0059】
以下に、本実施形態の複合コンピュータシステムにおいて、処理装置110のシステムを起動したときの稼働管理について説明する。
【0060】
本実施形態の複合コンピュータシステムにおいて、処理装置100のシステムが起動すると処理装置100のオペレーティングシステム200は、処理装置100のシステムが起動されたことを稼働監視装置130に通知する起動通知命令を発行し、構成管理手段2001を経由して稼働監視装置通信手段2003により稼働監視装置130に対して起動通知を行う。
【0061】
稼働監視装置通信手段2003によって送信された処理装置100の起動通知は、稼働監視装置130の処理装置通信手段230によって受け付けられ、稼働監視装置130の稼働状態管理手段233は、前記受け付けた起動通知のパラメタを解析し、構成情報・稼働状態管理テーブル234の物理アドレス「0001」、システム識別子「A」及びシステム名称「SYS1」に対応する処理装置100の稼働状態を、非稼働中であることを示す「0」から稼働中であることを示す「1」に遷移させる。
【0062】
稼働監視装置130は、処理装置100の起動通知が正常に完了すると、稼働監視装置130の処理装置通信手段230により、起動通知を発行した処理装置100に前記起動通知に対する応答を返す。
【0063】
尚、本実施形態の複合コンピュータシステムにおいて、稼働監視装置130を比較的処理能力の低いコンピュータで構成し、比較的低速の非同期通信回線によって前記起動通知に対する応答を処理装置100に返しても良い。
【0064】
処理装置100のオペレーティングシステム200は、稼働監視装置通信手段2003により受信した稼働監視装置130からの応答を構成管理手段2001により解析し、構成情報・稼働状態管理テーブル234の処理装置100の稼働状態を正常に更新できたかどうかを検知する。
【0065】
同様にして、本実施形態の複合コンピュータシステムの処理装置110及び処理装置120のシステムを起動すると、図2に示す様に、稼働監視装置130に格納されている構成情報・稼働状態管理テーブル234には、物理アドレス「0002」、システム識別子「B」、及びシステム名称「SYS2」に対応する処理装置110の稼働状態と、物理アドレス「0003」、システム識別子「C」、及びシステム名称「SYS3」に対応する処理装置120の稼働状態が稼働中であることを示す「1」として記録される。
【0066】
また、稼働監視装置130に格納されている構成情報・稼働状態管理テーブル234の、物理アドレス「0004」、システム識別子「D」、及びシステム名称「SYS4」に対応する処理装置は本実施形態の複合コンピュータシステムに未接続状態である為、その稼働状態は「0」で非稼働中であることを示している。
【0067】
本実施形態の複合コンピュータシステムにおいて、各処理装置のオペレーティングシステムでプログラムを起動すると、前記起動されたプログラムからの通知によりオペレーティングシステムは、前記プログラムが稼働中であることを記録する。
【0068】
各処理装置のオペレーティングシステムで稼働中のプログラムが、他の処理装置上のプログラムが起動されているかどうかを知りたい場合には、前記稼働中のプログラムのオペレーティングシステムの構成管理手段に指示し、他システム通信手段を経由して他の処理装置のオペレーティングシステムと通信することにより、他の処理装置上のプログラムが起動されているかどうかを検知することが可能である。
【0069】
例えば、本実施形態の複合コンピュータシステムにおいて、処理装置110のオペレーティングシステム210上で稼働中の排他制御管理プログラム212が、他の処理装置である処理装置100または処理装置120で排他制御管理プログラムが起動されているかどうかをチェックする処理は以下の様になる。
【0070】
本実施形態の複合コンピュータシステムの処理装置110において、排他制御管理プログラム212を起動すると、起動された排他制御管理プログラム212は、オペレーティングシステム210の構成管理手段2101に対し、排他制御管理プログラム212が起動したことを通知する。
【0071】
処理装置110のオペレーティングシステム210の構成管理手段2101は、プログラム状態管理手段2102により、排他制御管理プログラム212が稼働中であることを記録する。
【0072】
また、他の処理装置である処理装置100または処理装置120で排他制御管理プログラムを起動した場合にも同様な手順により、その処理装置のオペレーティングシステム上で排他制御管理プログラムが稼働中であることを記録する。
【0073】
図2に示す様に、本実施形態の複合コンピュータシステムでは、処理装置110及び処理装置120において排他制御管理プログラム212及び排他制御管理プログラム222が起動されている。
【0074】
ここで、処理装置110で実行中の排他制御管理プログラム212が、処理装置120上で排他制御管理プログラム222が稼働中であるかどうかを調べる為に、オペレーティングシステム210の構成管理手段2101に、処理装置120のプログラムの稼働状態のチェックを依頼する。
【0075】
処理装置110のオペレーティングシステム210の構成管理手段2101は、他システム通信手段2104を介して処理装置120のオペレーティングシステム220の構成管理手段に問い合わせることにより、処理装置120で排他制御管理プログラム222が稼働中であることを検知する。
【0076】
次に、本実施形態の複合コンピュータシステムにおいて、処理装置100、110及び120のシステムを停止する場合や、処理装置100、110及び120で動作中のプログラムを停止する場合の稼働管理について説明する。
【0077】
図3は、本実施形態の複合コンピュータシステムの停止時の稼働管理の概略を示す図である。
【0078】
図3に示す様に、本実施形態の複合コンピュータシステムの停止時の稼働管理では、稼働監視装置130の接続状態監視手段231と、サービスプロセッサ107、117及び127とが定期的に通信を行っており、処理装置100、110または120のシステムを停止した場合には、停止したシステムに接続されているサービスプロセッサも停止し、稼働監視装置130が接続状態監視手段231により停止した処理装置のサービスプロセッサからの応答が無いことから、対応する処理装置のシステムの停止を検知する。
【0079】
本実施形態の複合コンピュータシステムにおいて、処理装置110がシステム停止を行うと、稼働監視装置130が接続状態監視手段231により処理装置110のシステム停止を検知し、稼働状態管理手段233により構成情報・稼働状態管理テーブル234の処理装置110に対応する稼働状態を、稼働中であることを示す「1」から非稼働中であることを示す「0」に遷移させる。
【0080】
これと同時に、稼働監視装置130は、この時稼働状態が「1」である処理装置100及び処理装置120に対して、システム停止が発生したことを処理装置通信手段230により通知する。
【0081】
処理装置100のオペレーティングシステム200の構成管理手段2001は、稼働監視装置130からのシステム停止の発生を示す通知を検知したら、稼働監視装置130の構成情報・稼働状態管理テーブル234の内容を稼働監視装置通信手段2003によって採取し、どの処理装置が停止したかを直ちに把握することが可能である。
【0082】
また、本実施形態の複合コンピュータシステムにおいて、各処理装置のオペレーティングシステムで稼働中のプログラムを停止する場合には、前記停止するプログラムからの通知によりオペレーティングシステムは、前記プログラムの稼働状態を示す情報を稼働中から非稼働中に変更する。
【0083】
各処理装置のオペレーティングシステムで稼働中のプログラムが、他の処理装置上のプログラムが停止しているかどうかを知りたい場合には、前記稼働中のプログラムのオペレーティングシステムの構成管理手段に指示し、他システム通信手段を経由して、プログラムの稼働状態を知りたい他の処理装置のオペレーティングシステムと通信することにより、他の処理装置上のプログラムが停止しているかどうかを検知することが可能である。
【0084】
例えば、本実施形態の複合コンピュータシステムの処理装置110において、排他制御管理プログラム212を停止するときに、排他制御管理プログラム212は、オペレーティングシステム210の構成管理手段2101に対し、排他制御管理プログラム212を停止することを通知する。
【0085】
処理装置110のオペレーティングシステム210の構成管理手段2101は、プログラム状態管理手段2102により、排他制御管理プログラム212の稼働状態を示す情報を稼働中から非稼働中に変更する。
【0086】
また、他の処理装置である処理装置100または処理装置120で排他制御管理プログラムを停止する場合にも同様な手順により、その処理装置のオペレーティングシステム上の排他制御管理プログラムの稼働状態を示す情報を稼働中から非稼働中に変更する。
【0087】
図3に示す様に、本実施形態の複合コンピュータシステムでは、処理装置100の排他制御管理プログラムは起動されていない。
【0088】
ここで、処理装置110で実行中の排他制御管理プログラム212が、処理装置100上で排他制御管理プログラムが稼働中であるかどうかを調べる為に、オペレーティングシステム210の構成管理手段2101に、処理装置100のプログラムの稼働状態のチェックを依頼する。
【0089】
処理装置110のオペレーティングシステム210の構成管理手段2101は、他システム通信手段2104を介して処理装置100のオペレーティングシステム200の構成管理手段2001に問い合わせることにより、処理装置100では排他制御管理プログラムが停止していることを検知する。
【0090】
以下に、本実施形態の複合コンピュータシステムにおいて、複数の処理装置が排他制御管理プログラムを介して共有データをアクセスする際に発生した障害部位の特定を行う処理手順について説明する。
【0091】
図4は、本実施形態の複合コンピュータシステムの障害部位を特定する処理の処理手順を示すフローチャートである。
【0092】
本実施形態の複合コンピュータシステムにおいて、処理装置100、110及び120は、各処理装置上の排他制御管理プログラムを介して磁気ディスク装置140上の共有データをアクセスする。
【0093】
各処理装置上の排他制御管理プログラムは、マスター・スレーブ方式で排他制御を行うものとし、マスター側の排他制御管理プログラムは処理装置110に存在するものとする。
【0094】
マスター・スレーブ方式の排他制御では、スレーブ側の処理装置上の排他制御管理プログラムは、磁気ディスク装置140上の共有データにアクセスする前に必ずマスター側の処理装置の排他制御管理プログラムに、磁気ディスク装置140上の共有データを使用する使用許可を得る。
【0095】
例えば、処理装置100が磁気ディスク装置140上の共有データにアクセスする場合には、磁気ディスク装置140上の共有データを使用しても良いかどうかを、チャネル間結合装置160を介して処理装置110の排他制御管理プログラム212に問い合わせる。
【0096】
処理装置110の排他制御管理プログラム212は、処理装置110及び処理装置120で磁気ディスク装置140上の共有データを使用していないことを確認すると、処理装置100に対しチャネル間結合装置160を介して磁気ディスク装置140上の共有データの使用許可を発行する。
【0097】
処理装置100では、処理装置110の排他制御管理プログラム212からの使用許可を受信した後に、磁気ディスク装置140上の共有データにアクセスする。
【0098】
本実施形態の複合コンピュータシステムにおいて、処理装置120の排他制御管理プログラム222が、磁気ディスク装置140上の共有データを使用しても良いかどうかを処理装置110の排他制御管理プログラム212に問い合わせた後、処理装置110の排他制御管理プログラム212からの応答が、予め規定された特定の時間を経過しても受信されない場合には、その原因としてチャネル間結合装置、処理装置間を接続する通信経路及びチャネル装置の障害といった経路障害、並びに、処理装置110の排他制御管理プログラム212の異常終了及び処理装置110のシステム停止の何れかが想定される。
【0099】
図4に示す様に、本実施形態の複合コンピュータシステムにおいて、処理装置120から磁気ディスク装置140上の共有データをアクセスしようとしたときに発生した障害部位を特定する処理では、まず、ステップ401の処理で、マスター側の排他制御管理プログラム212が存在する処理装置110への通信が、予め規定された特定の時間内に完了したかどうかを調べる。
【0100】
処理装置120からマスター側の排他制御管理プログラム212が存在する処理装置110への通信が予め規定された特定の時間内に完了していない場合には、ステップ402の処理に進み、処理装置120のオペレーティングシステム220の構成管理手段は、稼働監視装置130に処理装置110のシステムが停止状態かどうかを問い合わせる。
【0101】
ステップ402の処理で、処理装置120のオペレーティングシステム220の構成管理手段は、稼働監視装置130の構成情報・稼働状態管理テーブル234の内容を稼働監視装置通信手段2003によって採取し、処理装置110のシステムが停止しているかどうかを調べる。
【0102】
処理装置110のシステムが停止している場合には、ステップ403の処理に進み、マスター側の処理装置を処理装置110から処理装置120に交代し、排他制御管理プログラム222をマスター側の排他制御管理プログラムに変更する。
【0103】
処理装置110のシステムが停止していない場合には、ステップ404の処理に進み、処理装置120のオペレーティングシステム220の構成管理手段は、マスター側である処理装置110の排他制御管理プログラム212の稼働状態を処理装置110の構成管理手段2101に問い合わせる。
【0104】
ステップ404の処理で、処理装置120のオペレーティングシステム220の構成管理手段は、他システム通信手段を介して処理装置110のオペレーティングシステム210の構成管理手段2101に問い合わせることにより、処理装置110で排他制御管理プログラム212が稼働中であるかどうかを調べる。
【0105】
処理装置110の排他制御管理プログラム212が停止している場合には、ステップ405の処理に進み、処理装置110上の排他制御管理プログラム212を再起動する。
【0106】
処理装置110の排他制御管理プログラム212が停止していない場合には、通信経路の障害が想定される為、ステップ406の処理に進み、予備の通信経路を交代パスとして再接続処理を行う。
【0107】
この様な処理手順により、従来オペレータの判断が必要であった複合コンピュータシステムの障害部位の特定を自動的に行うことが可能となる。
【0108】
以上説明した様に、本実施形態の複合コンピュータシステムによれば、複数の処理装置の稼働状態と前記複数の処理装置上のプログラムの稼働状態とを稼働監視用ネットワークを介して監視するので、障害が発生したときに早期に障害部位を特定し障害部位に対応する処理を行って長時間の無人運転の実現とユーザ負担の軽減を行うことが可能である。
【0109】
(実施形態2)
以下に、本発明の複合コンピュータシステムにおいて、複数の稼働監視装置によって複合コンピュータシステムの稼働監視を行う実施形態2の複合コンピュータシステムについて説明する。
【0110】
図5は、本実施形態の複合コンピュータシステムの稼働監視装置を二重化した場合の概略構成を示す図である。図5において、109は稼働監視装置二重化手段、130は正装置である稼働監視装置、131は副装置である稼働監視装置、235及び245は通信抑止手段、236及び246はコンソール間通信手段である。
【0111】
図5に示す様に、本実施形態の複合コンピュータシステムの稼働監視装置を二重化した場合では、稼働監視装置二重化手段109と、正装置である稼働監視装置130と、副装置である稼働監視装置131と、通信抑止手段235及び245と、コンソール間通信手段236及び246とを有している。
【0112】
また、図5に示す様に、本実施形態の複合コンピュータシステムでは、本実施形態の複合コンピュータシステムでは、処理装置100、110及び120の状態を管理するサービスプロセッサ107、117及び127と正装置である稼働監視装置130とを稼働監視用ネットワークである第1のLANで接続すると共に、サービスプロセッサ107、117及び127と副装置である稼働監視装置131とを稼働監視用ネットワークの第2のLANで接続している。
【0113】
また、本実施形態の複合コンピュータシステムの稼働監視装置130及び稼働監視装置131は、処理装置100、110及び120との通信を行う処理装置通信手段230及び240の動作を抑止する通信抑止手段235及び245を備えており、また、稼働監視装置130と稼働監視装置131とはコンソール間通信手段236及びコンソール間通信手段246を介して接続されている。
【0114】
以下に、本実施形態の複合コンピュータシステムにおいて、稼働監視装置が二重化された場合に複数の処理装置の稼働状態を管理する処理について説明する。
【0115】
本実施形態の複合コンピュータシステムのサービスプロセッサ107は、稼働監視装置二重化手段109を備え、サービスプロセッサ107の稼働監視装置二重化手段109により、処理装置100からの通知を二重化された稼働監視装置130及び131のそれぞれに通知する。
【0116】
二重化された稼働監視装置から処理装置100、110及び120への通知は、正装置である稼働監視装置130から実行され、副装置である稼働監視装置131では、処理装置通信手段240の通信抑止手段241によって稼働監視装置131から処理装置100、110及び120への通信が抑止されている。
【0117】
前記の様に、副装置である稼働監視装置131において処理装置通信手段240の通信抑止手段241によって稼働監視装置131から処理装置100、110及び120への通信が抑止されることにより、処理装置100、110または120のシステム停止を検知した場合に送られる通知が、稼働中の他の処理装置に二重に届けられることはない。
【0118】
本実施形態の複合コンピュータシステムにおいて、正装置である稼働監視装置130に障害が発生し、予め規定された特定の時間が経過しても正装置である稼働監視装置130からの応答が得られない状態となって、サービスプロセッサ107と稼働監視装置130との間の通信ができなくなった場合には、サービスプロセッサ107の稼働監視装置二重化手段109は、副装置である稼働監視装置131の処理装置通信手段240に備えられた通信抑止手段245の通信抑止状態を解除する。
【0119】
サービスプロセッサ107の稼働監視装置二重化手段109が、通信抑止手段245の通信抑止状態を解除することにより、副装置である稼働監視装置131は、コンソール間通信手段246により、正装置である稼働監視装置130に閉塞命令を発行する。
【0120】
正装置である稼働監視装置130のコンソール間通信手段236は、副装置である稼働監視装置131からの閉塞命令を受けると、処理装置通信手段230に備えられた通信抑止手段235により稼働監視装置130から処理装置100、110及び120への通信を抑止する。
【0121】
この様にして、二重化された稼働監視装置130または131の一方の稼働監視装置が障害により使用できなくなっても、処理装置100、110及び120側では何も意識する必要はなく、障害の発生していない他方の稼働監視装置によって処理装置100、110及び120の稼働状態の監視を続行することが可能である。
【0122】
また、本実施形態の複合コンピュータシステムにおいて、上記以外の稼働監視装置を多重化する手段として、処理装置に稼働監視装置二重化手段に相当する手段を備え、処理装置側で多重化された稼働監視装置を管理したり、稼働監視装置内の各手段を多重化して複数の処理装置の稼働状態を監視しても良い。
【0123】
以上説明した様に、本実施形態の複合コンピュータシステムによれば、複数の稼働監視装置により複数の処理装置の稼働状態を監視するので、特定の稼働監視装置が障害により使用できなくなった場合に複数の処理装置の稼働状態の監視を続行することが可能である。
【0124】
(実施形態3)
以下に、本発明の複合コンピュータシステムにおいて、処理装置相互による監視によって複合コンピュータシステムの稼働監視を行う実施形態3の複合コンピュータシステムについて説明する。
【0125】
本実施形態の複合コンピュータシステムにおいて、処理装置100、110及び120上で稼働中のプログラムは、各処理装置を結ぶチャネル間結合装置160、161及び162を介して一定間隔で入出力命令を発行する。
【0126】
例えば、処理装置100上で稼働中のプログラムは、処理装置110及び120上で稼働中のプログラムにある特定のデータを送信し、処理装置110及び120上で稼働中のプログラムは、前記特定のデータを受信したら、その応答として受信確認のデータを送信元の処理装置100上で稼働中のプログラムに送り返す。
【0127】
この様なシーケンスで、処理装置100、110及び120上で稼働中の各プログラムが、相互に特定のデータを送受信することによって、何らかの障害が発生した場合には予め規定された特定の時間を経過しても応答が受信されない為、無応答をもって相手の処理装置の異常とみなせる。
【0128】
前記の様に、複数の処理装置で稼働中のプログラムが相互に特定のデータを送受信する場合には、相互に特定のデータを送受信するプログラムの数が増加すると、その通信負荷が急速に増加することが考えられるが、本実施形態の複合コンピュータシステムでは、通常の障害検知は稼働監視装置により実現することが可能である為、前記の相互に特定のデータを送受信する頻度を少なくしても良い。
【0129】
従って、本実施形態の複合コンピュータシステムでは、複数の処理装置相互で特定のデータを送受信するオーバヘッドを削減して通常の通信に与える影響を少なくすると共に、稼働監視装置が障害の発生等により全面的に動作しなくなった場合であっても複数の処理装置の稼働状態の監視を続行することが可能である。
【0130】
以上説明した様に、本実施形態の複合コンピュータシステムによれば、複数の処理装置相互で特定のデータを送受信して他の処理装置の稼働状態を監視するので、稼働監視装置が全面的に動作しなくなった場合に複数の処理装置の稼働状態の監視を続行することが可能である。
【0131】
以上、本発明を前記実施形態に基づき具体的に説明したが、本発明は、前記実施形態に限定されるものではなく、その要旨を逸脱しない範囲において種々変更可能であることは勿論である。
【0132】
例えば、排他制御専用のコンピュータに複数の処理装置を接続した複合コンピュータシステムでは、前記排他制御専用のコンピュータを稼働監視装置による稼働状態の監視の対象としても良い。
【0133】
また、仮想計算機上に複数の処理装置と稼働監視装置を仮想的に設定して複合コンピュータシステムを構成し、前記の仮想的な複数の処理装置の稼働状態を監視しても良い。
【0134】
【発明の効果】
本願において開示される発明のうち代表的なものによって得られる効果を簡単に説明すれば、下記のとおりである。
【0135】
(1)複数の処理装置の稼働状態と前記複数の処理装置上のプログラムの稼働状態とを稼働監視用ネットワークを介して監視するので、障害が発生したときに早期に障害部位を特定し障害部位に対応する処理を行って長時間の無人運転の実現とユーザ負担の軽減を行うことが可能である。
【0136】
(2)複数の稼働監視装置により複数の処理装置の稼働状態を監視するので、特定の稼働監視装置が障害により使用できなくなった場合に複数の処理装置の稼働状態の監視を続行することが可能である。
【0137】
(3)複数の処理装置相互で特定のデータを送受信して他の処理装置の稼働状態を監視するので、稼働監視装置が全面的に動作しなくなった場合に複数の処理装置の稼働状態の監視を続行することが可能である。
【図面の簡単な説明】
【図1】実施形態1の複合コンピュータシステムの概略構成を示す図である。
【図2】実施形態1の複合コンピュータシステムの起動時の稼働管理の概略を示す図である。
【図3】実施形態1の複合コンピュータシステムの停止時の稼働管理の概略を示す図である。
【図4】実施形態1の複合コンピュータシステムの障害部位を特定する処理の処理手順を示すフローチャートである。
【図5】実施形態2の複合コンピュータシステムの稼働監視装置を二重化した場合の概略構成を示す図である。
【符号の説明】
100、110及び120…処理装置、101、102、111、112、121及び122…命令プロセッサ、103、104、113、114、123及び124…入出力プロセッサ、105、115及び125…主記憶装置、106、116及び126…システム制御装置、107、117及び127…サービスプロセッサ、108、118及び128…コンソール、109…稼働監視装置二重化手段、130及び131…稼働監視装置、140及び141…磁気ディスク装置、150及び151…磁気テープ装置、160〜162…チャネル間結合装置、200、210及び220…オペレーティングシステム、2001及び2101…構成管理手段、2002及び2102…プログラム状態管理手段、2003及び2103…稼働監視装置通信手段、2004及び2104…他システム通信手段、211及び221…ジョブ管理プログラム、212及び222…排他制御管理プログラム、223…データベース管理プログラム、230…処理装置通信手段、231…接続状態監視手段、232…接続構成管理手段、233…稼働状態管理手段、234…構成情報・稼働状態管理テーブル、235及び245…通信抑止手段、236及び246…コンソール間通信手段。

Claims (3)

  1. 複数の処理装置を通信手段で接続し特定の共有資源を排他制御してアクセスする複合コンピュータシステムにおいて、複数の処理装置が起動または停止したときに前記複数の処理装置の稼働状態を記録する複数の稼働監視装置と、前記複数の処理装置と稼働監視装置とを接続する稼働監視用ネットワークと、前記複数の処理装置のそれぞれが自処理装置のプログラムが起動または停止したときに前記プログラムの稼働状態を記録するプログラム状態管理手段とを備え、いずれか一つの前記処理装置から所定時間内に応答が無い場合に前記稼働監視用ネットワークを介して稼働監視装置に記録された前記複数の処理装置の稼働状態と前記プログラム状態管理手段に記録されたプログラムの稼働状態を取得して障害部位の特定を行い、システムダウンの場合にマスター側の処理装置の交代、プログラムの停止の場合に当該プログラムの再起動、通信経路の障害の場合に予備の通信経路での再接続処理を行うことを特徴とする複合コンピュータシステム。
  2. 前記稼働監視装置を複数備え、正装置である稼働監視装置以外の稼働監視装置から前記複数の処理装置への通信を抑止する通信抑止手段と、前記通信抑止手段を制御することにより、複数の処理装置から前記複数の稼働監視装置への通信を制御する単一の稼働監視装置多重化手段とを備え、前記稼働監視装置多重化手段により前記複数の処理装置の稼働状態を前記複数の稼働監視装置に送信すると共に、前記通信抑止手段により正装置である稼働監視装置以外の稼働監視装置から前記複数の処理装置への通信を抑止して正装置である稼働監視装置のみにより前記複数の処理装置の稼働状態を監視し、前記正装置である稼働監視装置に障害が発生した場合に、前記稼働監視装置多重化手段により前記障害の発生した稼働監視装置以外の複数の稼働監視装置の任意の稼働監視装置の通信抑止手段の通信抑止状態を解除し、前記通信抑止状態が解除された稼働監視装置により前記複数の処理装置の稼働状態の監視を続行することを特徴とする請求項1に記載された複合コンピュータシステム。
  3. 複数の処理装置を接続する前記通信手段を介して前記複数の処理装置間で特定のデータを送受信することにより前記複数の処理装置が相互に稼動状態の監視を行うことを特徴とする請求項1または請求項2のいずれかに記載された複合コンピュータシステム。
JP33135795A 1995-12-20 1995-12-20 複合コンピュータシステム Expired - Fee Related JP3555047B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP33135795A JP3555047B2 (ja) 1995-12-20 1995-12-20 複合コンピュータシステム
US08/768,969 US5974565A (en) 1995-12-20 1996-12-18 Composite computer system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP33135795A JP3555047B2 (ja) 1995-12-20 1995-12-20 複合コンピュータシステム

Publications (2)

Publication Number Publication Date
JPH09171475A JPH09171475A (ja) 1997-06-30
JP3555047B2 true JP3555047B2 (ja) 2004-08-18

Family

ID=18242784

Family Applications (1)

Application Number Title Priority Date Filing Date
JP33135795A Expired - Fee Related JP3555047B2 (ja) 1995-12-20 1995-12-20 複合コンピュータシステム

Country Status (2)

Country Link
US (1) US5974565A (ja)
JP (1) JP3555047B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6161196A (en) * 1998-06-19 2000-12-12 Lucent Technologies Inc. Fault tolerance via N-modular software redundancy using indirect instrumentation
US6466998B1 (en) * 1999-08-25 2002-10-15 Intel Corporation Interrupt routing mechanism for routing interrupts from peripheral bus to interrupt controller
DE19940584A1 (de) * 1999-08-26 2001-03-22 Siemens Ag Verfahren und System zum Bestücken von in einer Bestückungseinheit angeordneten Schaltungsträgern
US6389370B1 (en) * 1999-09-14 2002-05-14 Hewlett-Packard Company System and method for determining which objects in a set of objects should be processed
JP2002229806A (ja) 2001-02-02 2002-08-16 Hitachi Ltd 計算機システム
US6845467B1 (en) 2001-02-13 2005-01-18 Cisco Systems Canada Co. System and method of operation of dual redundant controllers
US6832342B2 (en) * 2001-03-01 2004-12-14 International Business Machines Corporation Method and apparatus for reducing hardware scan dump data
WO2004104825A1 (en) 2003-05-15 2004-12-02 Applianz Technologies, Inc. Systems and methods of creating and accessing software simulated computers
JP2006285384A (ja) * 2005-03-31 2006-10-19 Nec Corp プロセッサ障害処理方式、管理プロセッサ及びプロセッサ障害処理方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2723925B2 (ja) * 1988-09-19 1998-03-09 株式会社日立製作所 計算機間プログラムオンライン再配置方式
JP2804125B2 (ja) * 1989-11-08 1998-09-24 株式会社日立製作所 情報処理システムの障害監視装置と制御方法
US5475625A (en) * 1991-01-16 1995-12-12 Siemens Nixdorf Informationssysteme Aktiengesellschaft Method and arrangement for monitoring computer manipulations
JP3118855B2 (ja) * 1991-04-10 2000-12-18 株式会社日立製作所 マルチプロセッサシステム
US5650940A (en) * 1991-10-25 1997-07-22 Kabushiki Kaisha Toshiba Process monitoring system with remote supervision
US5535335A (en) * 1992-12-22 1996-07-09 International Business Machines Corporation Method and system for reporting the status of an aggregate resource residing in a network of interconnected real resources
US5640513A (en) * 1993-01-22 1997-06-17 International Business Machines Corporation Notification of disconnected service machines that have stopped running
JPH06243064A (ja) * 1993-02-12 1994-09-02 Honda Motor Co Ltd コンピュータネットワークの障害検出システム
US5592620A (en) * 1993-08-12 1997-01-07 International Business Machines Corporation System and method for controlling, monitoring and retrieving accounting data
US5568605A (en) * 1994-01-13 1996-10-22 International Business Machines Corporation Resolving conflicting topology information
GB2286508A (en) * 1994-02-08 1995-08-16 Ibm Performance and status monitoring in a computer network
JPH07319832A (ja) * 1994-05-26 1995-12-08 Hitachi Ltd サービス利用情報収集方法および装置、並びに計算機システム停止制御方法および装置
US5590277A (en) * 1994-06-22 1996-12-31 Lucent Technologies Inc. Progressive retry method and apparatus for software failure recovery in multi-process message-passing applications
US5590120A (en) * 1995-10-31 1996-12-31 Cabletron Systems, Inc. Port-link configuration tracking method and apparatus

Also Published As

Publication number Publication date
JPH09171475A (ja) 1997-06-30
US5974565A (en) 1999-10-26

Similar Documents

Publication Publication Date Title
KR100557399B1 (ko) 네트웍 매체 링크상태 기능을 이용한 컴퓨터 클러스터링시스템의 가용도 개선방법
USRE42703E1 (en) System and method for fibrechannel fail-over through port spoofing
US6839752B1 (en) Group data sharing during membership change in clustered computer system
US8332506B2 (en) Network monitor program executed in a computer of cluster system, information processing method and computer
US7853767B2 (en) Dual writing device and its control method
JP3620527B2 (ja) ループ状インタフェースの障害解析方法及び障害解析機能を有するシステム
JP2007011672A (ja) Raid装置、通信接続監視方法及びプログラム
US20060146809A1 (en) Method and apparatus for accessing for storage system
TW454128B (en) Shared disk type multiple system
JPWO2004104845A1 (ja) ストレージシステム
JPH03164837A (ja) 通信制御処理装置の切替方法
JP3555047B2 (ja) 複合コンピュータシステム
JP2005196490A (ja) データ多重化のためのシステム及び方法
JP3957065B2 (ja) ネットワーク計算機システムおよび管理装置
JP2008225567A (ja) 情報処理システム
JP2004280337A (ja) プラントデータ収集装置
JP3771162B2 (ja) 保守管理方法、保守管理システム、情報処理システムおよびコンピュータプログラム
JP2009026182A (ja) プログラム実行システム及び実行装置
JP2014532236A (ja) 接続方法
JP3190880B2 (ja) スタンバイシステム、スタンバイ方法、および記録媒体
JP3208885B2 (ja) 障害監視システム
JPH06195318A (ja) 分散処理システム
JPH10171769A (ja) 複合計算機システム
JP3782423B2 (ja) 伝送線制御装置多重化システムおよび伝送装置
JP3082704B2 (ja) 通信装置管理方式

Legal Events

Date Code Title Description
A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040428

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080521

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080521

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090521

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100521

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110521

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees