JPH10171769A - 複合計算機システム - Google Patents

複合計算機システム

Info

Publication number
JPH10171769A
JPH10171769A JP8330935A JP33093596A JPH10171769A JP H10171769 A JPH10171769 A JP H10171769A JP 8330935 A JP8330935 A JP 8330935A JP 33093596 A JP33093596 A JP 33093596A JP H10171769 A JPH10171769 A JP H10171769A
Authority
JP
Japan
Prior art keywords
computer system
monitoring device
failure
operation monitoring
notification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8330935A
Other languages
English (en)
Inventor
Shoji Goto
昌治 後藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP8330935A priority Critical patent/JPH10171769A/ja
Publication of JPH10171769A publication Critical patent/JPH10171769A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】本発明の目的は、計算機システム自体の障害発
生による停止状態と、伝送路等の異常発生による停止状
態との区別ができる複合計算機システムを提供すること
にある。 【解決手段】複数の計算機システム100A,100
B,…は、ネットワーク200を介して共用入出力装置
であるディスク装置300や磁気テープ装置310に接
続されている。計算機システム100A,100B,…
は、それぞれ、自らの計算機システム100A,100
B,…の稼動状態を監視するサービスプロセッサ120
A,120B,…を備えている。さらに、複数の計算機
システム100A,100B,…は、ネットワーク21
0を介して運転監視装置400に接続されている。運転
監視装置400は、状態変化のあったサービスプロセッ
サ120から通知される計算機システムの稼動状態の変
化を受信して、他の計算機システムに対して、通知され
た計算機システムの稼動状態の変化を通知するようにし
ている。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、複合計算機システ
ムに係り、特に、複数の計算機システムと各計算機シス
テム間の共用入出力装置で構成される複合計算機システ
ムの中の計算機システムの稼動状態を監視するに好適な
運転監視装置を備える複合計算機システムに関する。
【0002】
【従来の技術】複合計算機システムにおいては、共用入
出力装置等を使用して、計算機システム間で相互に協調
し合って処理を行っている。すなわち、個々のシステム
は、全く独立でなく、システム間で共用資源を使用する
ための排他制御や、システム間で処理の同期を取るため
のメッセージ交換などを行い、相互に連携をとって動作
している。
【0003】この様な環境において、例えば、ある計算
機システムが、共用資源に対して排他権を保持したまま
停止した場合には、その排他権が解放されないため、他
のシステムは、その共用資源に対するアクセスが待機さ
れることになる。その結果、待機される間、その共用資
源を要求している計算機システムの処理は停止すること
になる。
【0004】排他権を保持している計算機システムが異
常停止した場合には、その計算機システム自身が、排他
権の解放を行うことはできないものである。したがっ
て、他の計算機システムが、排他権を保持している計算
機システムの稼動状態を調べ、その計算機システムが停
止していることがわかったならば、その排他権を強制的
に解放する必要がある。
【0005】他の計算機システムの稼動状態を調べる方
法としては、例えば、システム間通信機構を使用して、
計算機システム間相互にヘルスチェックメッセージを交
換することにより行う方法が一般的に実施されている。
この方法では、ある計算機システムは、他の計算機シス
テムに対して、所定の周期でヘルスチェックメッセージ
を送信し、他の計算機システムは、このメッセージを受
信するようにしており、ヘルスチェックメッセージが一
定時間内に受信できている場合は正常動作であり、受信
できない場合は障害発生による停止と判断するようにし
ている。
【0006】
【発明が解決しようとする課題】しかしながら、複数の
計算機システム間を接続するシステム間通信機構の伝送
路等に異常が発生して、メッセージが正しく伝わらない
場合にも、他の計算機システムは、メッセージを正常に
受信できないため、計算機システムの障害発生による停
止と判断することになる。即ち、従来のシステム間通信
機構を使用して、計算機システム間相互にヘルスチェッ
クメッセージを交換する方式では、計算機システム自体
の障害発生による停止状態と、伝送路等の異常発生によ
る停止状態の区別ができないという問題があった。
【0007】計算機システム自体の障害発生による停止
状態と、伝送路の異常発生による停止状態の区別ができ
れば、計算機システム自体の障害発生による停止状態時
には、自動的に、異常停止した計算機システムが、共用
資源に対して確保している排他権を強制解除することも
可能である。しかしながら、上述したように、計算機シ
ステム自体の障害発生による停止状態と、伝送路の異常
発生による停止状態の区別ができないため、停止状態に
ある判断した計算機システムは、ディスプレイ等を使用
して、停止状態にある旨を複合計算機システムのオペレ
ータに対して通知するようにしている。オペレータは、
この通知を元に、停止状態が、計算機システム自体の障
害発生による停止状態であるか、伝送路の異常発生によ
る停止状態であるかを判断して、計算機システム自体の
障害発生による停止状態である場合には、マニュアル動
作で、異常停止した計算機システムが確保している排他
権を強制解除するようにしていた。
【0008】本発明の目的は、計算機システム自体の障
害発生による停止状態と、伝送路等の異常発生による停
止状態との区別ができる複合計算機システムを提供する
ことにある。
【0009】
【課題を解決するための手段】上記目的を達成するた
め、本発明は、複数の計算機システムと、これらの計算
機システムとネットワークを介して接続され、これらの
計算機システムが共通に使用する共用入出力装置とを有
する複合計算機システムにおいて、上記複数の計算機シ
ステムは、それぞれ、自らの計算機システムの稼動状態
を監視する稼動状態監視手段を備え、さらに、上記複数
の計算機システムとネットワークを介して接続され、上
記複数の計算機システムが備える上記稼動状態監視手段
から通知される計算機システムの稼動状態の変化を受信
して、他の計算機システムに対して、通知された計算機
システムの稼動状態の変化を通知する運転監視装置を備
えるようにしたものであり、かかる構成により、計算機
システム自体の障害発生による停止状態と、伝送路等の
異常発生による停止状態との区別し得るものとなる。
【0010】上記複合計算機システムにおいて、好まし
くは、上記稼動状態監視手段は、自らの計算機システム
の動作開始後、自らの計算機システムに対して、周期的
に生存確認割込を発行し、この生存確認割込に対する所
定時間内の応答の有無に基づいて、自らの計算機システ
ムの障害の発生の有無を確認し、障害発生時には、障害
の発生を上記運転監視装置に通知するとともに、上記運
転監視装置は、上記稼動状態監視手段から通知される計
算機システムの障害の発生を、他の計算機システムに対
して通知するようにしたものであり、かかる構成によ
り、計算機システム自体の障害発生による停止を知り得
るものとなる。
【0011】上記複合計算機システムにおいて、好まし
くは、上記運転監視装置は、上記複数の計算機システム
に対して周期的に自らの生存を通知するとともに、上記
稼動状態監視手段は、上記運転監視装置からの生存の通
知の有無に基づいて、上記運転監視装置の障害発生を含
む上記運転監視装置と上記計算機システムを接続するネ
ットワークの障害発生を検出するようにしたものであ
り、かかる構成により、伝送路等の異常発生による停止
を知り得るものとなる。
【0012】
【発明の実施の形態】以下、図1〜図7を用いて、本発
明の一実施形態による複合計算機システムについて説明
する。最初に、図1を用いて、本発明の一実施形態によ
る複合計算機システムの全体構成について説明する。図
1は、本発明の一実施形態による複合計算機システムの
全体構成を示すブロック図である。
【0013】複数の計算機システム100A,100
B,…,100Nは、ネットワーク200を介して、デ
ィスク装置300や磁気テープ装置310に接続されて
いる。計算機システム100Aは、処理装置110Aを
有している。処理装置110Aは、処理装置110Aで
動作するオペレーティングシステム(以下、「OS」と
称する)112Aを備えている。計算機システム100
B,110Cは、計算機システム100Aと同様の構成
となっており、それぞれ、処理装置110B,110N
を有している。処理装置110B,110Nは、処理装
置110B,110Nで動作するOS112B,112
Nを備えている。
【0014】計算機システム100Aの処理装置110
Aは、共用入出力装置である磁気ディスク装置300や
磁気テープ装置310の一部や全部に対して、排他権を
確保した上で使用する。計算機システム100B,10
0Nも、同様に、共用入出力装置である磁気ディスク装
置300や磁気テープ装置310の一部や全部に対し
て、排他権を確保した上で使用する。即ち、磁気ディス
ク装置300や磁気テープ装置310は、計算機システ
ム100A,100B,…,100Nによって共用され
る構成となっている。
【0015】また、複数の計算機システム100A,1
00B,…,100Nは、ネットワーク210を介し
て、運転監視装置400に接続されている。運転監視装
置400は、運転監視対象である複数の計算機システム
100A,100B,…,100Nの運転状態を監視す
る。運転監視装置400の詳細構成については、図3を
用いて後述する。さらに、運転監視装置400は、コン
ソール装置490に接続されている。コンソール装置4
90は、システム稼動状況表示,オペレータコマンド投
入など複合計算機システム運転としてのユーザインタフ
ェース機能を提供するものである。
【0016】計算機システム100Aは、さらに、サー
ビスプロセッサ120Aを備えている。サービスプロセ
ッサ120Aは、処理装置110Aの運転管理・診断・
保守機能を実行するものであり、処理装置110Aとは
独立して動作するものである。サービスプロセッサ12
0Aの詳細構成については、図2を用いて後述する。計
算機システム100B,100Nも、同様に、サービス
プロセッサ120B,120Nを備えている。
【0017】次に、運転監視装置400による複合計算
機システムの運転状態の監視動作の概略について説明す
る。なお、詳細な監視動作については、図5〜図7を用
いて後述する。
【0018】例えば、サービスプロセッサ120Aは、
計算機システム100Aの始動時には、OS112Aか
らの動作開始命令を受けて、計算機システム100Aが
動作開始したことを、運転監視装置400にネットワー
ク210を介して通知する。この通知を受けた運転監視
装置400は、通知を発行した計算機システム100A
以外の計算機システム100B,…,100Nの中で、
動作中の計算機システムに対してネットワーク210を
介して、計算機システム100Aが動作開始したことを
通知する。計算機システム100Aが動作を停止した場
合にも、同様にして、サービスプロセッサ120Aが運
転監視装置400に通知し、運転監視装置400は、そ
の時点で動作中の他の計算機システム100B,…,1
00Nに対して、計算機システム100Aの動作停止を
通知する。
【0019】また、サービスプロセッサ120Aは、周
期的にOS112Aに対して生存確認の割り込みを行う
ことにより、計算機システム100Aの障害発生の有無
をチェックしている。障害が発生すると、サービスプロ
セッサ120Aは、計算機システム100Aに障害が発
生したことを、運転監視装置400にネットワーク21
0を介して通知する。運転監視装置400は、その時点
で動作中の他の計算機システム100B,…,100N
に対して、計算機システム100Aの障害発生を通知す
る。計算機システム100Aの障害が回復した場合に
も、同様にして、サービスプロセッサ120Aが運転監
視装置400に通知し、運転監視装置400は、その時
点で動作中の他の計算機システム100B,…,100
Nに対して、計算機システム100Aの回復を通知す
る。
【0020】さらに、運転監視装置400は、周期的
に、各計算機システム100A,…,100Nの中のサ
ービスプロセッサ120A,…,120Nに対して、運
転監視装置400自身の生存確認の通知を行うようにし
ている。従って、サービスプロセッサ120A,…,1
20Nは、運転監視装置400から送られてくる生存確
認通知の有無によって、運転監視装置400が正常に動
作しているか否かを判断できるものである。また、サー
ビスプロセッサ120A,…,120Nは、生存確認通
知を受け取るとそれに対する応答を運転監視装置400
に送信するので、運転監視装置400は、サービスプロ
セッサ120A,…,120Nが正常に動作しているか
否かを判断できるものである。
【0021】ここで、伝送路であるネットワーク210
に異常が発生した場合には、運転監視装置400は、計
算機システム100A,…,100Nからの正常な通知
を受け取れなくなるか、または、計算機システム100
A,…,100Nに対する正常な通知を行えなくなる。
なお、運転監視装置400自身に異常が発生したときに
は、正常確認の通知を行えなくなる。即ち、本実施形態
においては、計算機システム100A,…,100N
は、運転監視装置400からの正常な通知がないことか
ら、伝送路210若しくは運転監視装置400に異常が
発生したことを知ることができる。
【0022】一方、例えば、計算機システム100A自
身に障害が発生して停止した場合には、上述したよう
に、サービスプロセッサ120Aがその旨を運転監視装
置400に通知するため、他の計算機システム100
B,…,100Nは、計算機システム100Aの障害に
よる停止を知ることができる。
【0023】さらに、本実施形態においては、サービス
プロセッサ120A,…,120Nは、計算機システム
100A,…,100Nの動作状態に変化があった場合
にのみ、その状態変化を運転監視装置400に通知する
ようにしている。即ち、計算機システム100A,…,
100Nが動作開始した時、動作停止した時、障害が発
生した時、障害が回復した時に、その状態変化を運転監
視装置400に通知するようにしている。従って、サー
ビスプロセッサ120A,…,120Nの通知処理のオ
ーバーヘッドを小さくすることができる。
【0024】以上説明したように、本実施形態において
は、計算機システム自体の障害発生による停止状態と、
伝送路等の異常発生による停止状態との区別ができるよ
うになるものである。
【0025】計算機システム自体の障害発生による停止
状態である旨を受け取った他の計算機システムは、排他
権の強制解除を自動的に実行することができる。伝送路
等の異常発生による停止状態である場合には、ディスプ
レイ等を使用して、伝送路等の異常発生による停止状態
にある旨を複合計算機システムのオペレータに対して通
知することにより、オペレータは、この通知を元に、伝
送路等の異常箇所のチェックを行うことができる。
【0026】次に、図2を用いて、計算機システム10
0の中のサービスプロセッサ120の構成について説明
する。図2は、本発明の一実施形態による本発明の一実
施形態による複合計算機システムを構成する計算機シス
テムの中のサービスプロセッサの構成を示すブロック図
である。なお、サービスプロセッサ120は、図1に示
したサービスプロセッサ120A,120B,…,12
0Nの内部構成を示している。
【0027】サービスプロセッサ120は、通信処理部
121と、コマンド発行部122と、通知処理部123
と、OS接続部124と、生存確認割込発生部125と
から構成されている。通信処理部121は、運転監視装
置400と通信するためのネットワーク210が接続さ
れる。
【0028】通信処理部121は、運転監視装置400
と通信処理を実行する。コマンド発行部122は、運転
監視装置400への動作指示コードを生成し、通信処理
部121を介して、運転監視装置400に送信する。通
知処理部123は、通信処理部121を介して受信した
運転監視装置400からの通知情報を解析する。
【0029】OS接続部124は、OS112とのイン
タフェースを制御するものであり、通知処理部123で
解析された通知情報に基づいて、OS112に対する割
り込みを発生し、OS112からの命令に基づいて、コ
マンド発行部122に対してコマンドの発行を指示す
る。生存確認割込発生部125は、OS112の動作を
確認するための割込みを発生する。サービスプロセッサ
120の各部の動作については、図5〜図7を用いて後
述する。
【0030】次に、図3を用いて、運転監視装置400
の構成について説明する。図3は、本発明の一実施形態
による本発明の一実施形態による複合計算機システムを
構成する運転監視装置の構成を示すブロック図である。
【0031】運転監視装置400は、通信処理部410
と、コマンド処理部420と、通知発行部430と、状
態管理部440と、記憶部450と、自装置生存通知発
生部460と、表示制御部470とから構成されてい
る。通信処理部410は、サービスプロセッサ120と
通信するためのネットワーク210が接続されている。
また、表示制御部470は、コンソール装置490に接
続されている。
【0032】通信処理部410は、サービスプロセッサ
120との通信処理を実行する。コマンド処理部420
は、通信処理部410を介して受信したサービスプロセ
ッサ120から発行されるコマンドを解釈して実行す
る。通知発行部430は、通信処理部410を介して、
ある計算機システム100の運転状態等の通知を、他の
計算機システム100のサービスプロセッサ120へ行
うものである。
【0033】状態管理部440は、計算機システム10
0から発行されるコマンドに基いて、計算機システム1
00の運転状態を管理する。記憶部450は、計算機シ
ステム100の運転状態の情報を格納するものである。
記憶部450に格納される管理テーブルの内容について
は、図4を用いて後述する。自装置生存通知発生部46
0は、運転監視装置400の正常動作を、サービスプロ
セッサ120に通知するものである。表示制御部470
は、コンソール装置490の制御を行うものである。運
転監視装置400の各部の動作については、図5〜図7
を用いて後述する。
【0034】次に、図4を用いて、運転監視装置400
の記憶部450に格納される計算機システム100の運
転監視情報を示す管理テーブルについて説明する。図4
は、本発明の一実施形態による本発明の一実施形態によ
る複合計算機システムを構成する運転監視装置の記憶部
に格納される管理テーブルの説明図である。図4(A)
は、ある時点における管理テーブルの内容を示し、図4
(B)は、図4(A)とは異なる時点における管理テー
ブルの内容を示している。
【0035】計算機システム100の運転監視情報を示
す管理テーブル452には、監視対象の計算機システム
毎にその情報を示すレコードが記録される。各レコード
は、システム識別名452Xと、監視状態フラグ452
Yと、通知要因情報452Zの3つの項目で構成されて
いる。
【0036】システム識別名452Xは、計算機システ
ム100を区別するための名称であり、監視対象の計算
機システム内でユニークな名称が付与される。例えば、
図4(A)に示した「SYS001」は、図1に示した
計算機システム100Aに対応し、「SYS002」
は、計算機システム100Bに対応し、「SYS00
N」は、計算機システム100Nに対応している。
【0037】監視状態フラグ452Yは、システム識別
名452Xによって区別される計算機システム100が
現在、監視を行う対象であるかどうかを示すフラグであ
る。例えば、「ON」は、計算機システム100が監視
対象であり、「OFF」は、監視対象でないことを示し
ている。即ち、図4(A)に示す状態では、「SYS0
02」と「SYS00N」のシステム識別名で区別され
る計算機システム100B,100Nは、監視対象であ
り、「SYS001」と「SYS003」のシステム識
別名で区別される計算機システム100A等は、監視対
象でないことを示している。
【0038】通知要因情報452Zは、サービスプロセ
ッサ120に対する運転状態の通知を行ったときの要因
を示す情報である。例えば、「動作開始」は、計算機シ
ステムが動作を開始して、動作停止状態から動作状態に
変化したことを示している。「監視停止」は、動作中の
計算機システムが終了処理または何らかの理由によって
動作を停止し、監視動作を中止したことを示している。
また、これら以外としては、「障害」や「回復」があ
る。「障害」は、動作中の計算機システムに何らかの異
常があり、計算機システムが動作不能となったこと示し
ている。「回復」は、動作不能となっていた計算機シス
テムは、回復して動作を再開したことを示している。
【0039】なお、図4(A),(B)については、図
5〜図7に示すフローチャートと合わせて後述する。
【0040】次に、図5〜図7を用いて、本発明の一実
施形態による複合計算機システムにおける運転監視動作
について説明する。図5は、本発明の一実施形態による
複合計算機システムにおける運転開始若しくは運転停止
時の処理を説明するフローチャートであり、図6は、本
発明の一実施形態による複合計算機システムにおける障
害発生若しくは回復時の処理を説明するフローチャート
であり、図7は、本発明の一実施形態による複合計算機
システムにおける運転監視装置の動作チェック時の処理
を説明するフローチャートである。
【0041】最初に、図5を用いて、運転開始若しくは
運転停止時の処理について説明する。図5の左側に示す
ステップ510,511は、運転開始若しくは運転停止
を行った計算機システム100のサービスプロセッサ1
20の処理であり、中央に示すステップ520〜524
は、運転監視装置400の処理であり、右側に示すステ
ップ530,531は、運転開始若しくは運転停止を行
った計算機システム100以外で動作中の計算機システ
ム100のサービスプロセッサ120の処理である。
【0042】例えば、図4(A)に示したように、運転
停止中であった「SYS001」が、新たに運転開始す
る場合には、図5の左側に示すステップ510,511
は、計算機システム100Aのサービスプロセッサ12
0Aの処理である。そして、この時、動作中の計算機シ
ステムは、図4(A)に示したように、「SYS00
2」と「SYS00N」であったとすると、図5の右側
に示すステップ530,531は、計算機システム10
0B,100Nのサービスプロセッサ120B,120
Nの処理となる。
【0043】計算機システム100の始動時又は終了時
には、図2に示したOS112は、サービスプロセッサ
120のOS接続部124に対して、監視開始又は停止
命令を発行する。
【0044】ステップ510において、OS接続部12
4は、OS112が発行した監視開始または停止命令を
受信し、コマンド発行部122に対して、「監視開始」
又は「監視停止」コマンドの発行を指示する。
【0045】ステップ511において、コマンド発行部
122は、OS接続部124からのコマンド発行指示に
基づいて、運転監視装置400用のコマンドを生成し
て、通信処理部121を経由して、運転監視装置400
にコマンドを送信する。
【0046】ステップ520において、図3に示した運
転監視装置400のコマンド処理部420は、運転監視
装置400の通信処理部410を経由して伝達されたコ
マンドを受信する。
【0047】ステップ521において、コマンド処理部
420は、コマンドの種別を解読し、状態管理部440
に対し、コマンドを発行したシステム識別名とコマンド
種別を知らせる。ここで、受け取ったコマンド種別が、
「開始」の場合には、ステップ522に進み、「停止」
の場合には、ステップ523に進む。
【0048】ステップ522において、状態管理部44
0は、受け取ったコマンド種別が、「開始」の場合に
は、記憶部450に格納されている管理テーブル452
の該当システム識別名452Xの監視状態フラグ452
Yを「ON」に設定し、また、通知要因情報452Zを
「動作開始」に設定する。例えば、図4(A)に示した
ように、運転停止中であった「SYS001」が運転開
始した場合には、図4(B)に示すように、システム識
別名452Xが「SYS001」である計算機システム
の監視状態フラグ452Yを「ON」に設定し、また、
通知要因情報452Zを「動作開始」に設定する。
【0049】ステップ523において、状態管理部44
0は、受け取ったコマンド種別が、「停止」の場合に
は、記憶部450に格納されている管理テーブル452
の該当システム識別名452Xの監視状態フラグ452
Yを「OFF」に、また通知要因情報452Zを「監視
停止」に設定する。
【0050】ステップ524において、状態管理部44
0及び通知発行部430は、状態変化情報通知を他の動
作中の計算機システムに対して実行する。即ち、状態管
理部440は、通知発行部430に対して、通知先計算
機システムのシステム識別名、即ちコマンドを発行した
計算機システム以外で「動作中」の計算機システムと、
通知すべき状態情報を伝え、状態変化情報通知の発行を
指示する。その指示により、通知発行部430は、状態
変化情報を生成して、通信処理部410を経由して、該
当の計算機システム100のサービスプロセッサ120
に通知を行う。
【0051】例えば、図4(A)に示したように、運転
停止中であった「SYS001」が運転開始した場合に
は、その時、動作中である「SYS002」及び「SY
S00N」に対して、状態変化情報の通知を行う。状態
変化情報の内容は、「SYS001」が「動作開始」し
たというものである。
【0052】ステップ530において、通知を受信した
サービスプロセッサ120は、図2に示した通信処理部
121を経由して通知処理部123に、情報が伝達され
る。通知処理部123は、通知情報を解読し、システム
識別名と状態変化情報をOS接続部124に伝え、OS
接続部124は、OS112が認識できるよう割込み要
因コードに変換を行って、割り込み要因をセットする。
【0053】次に、ステップ531において、OS接続
部124は、OS112に対して割込みを発生させ、他
システムの状態変化を伝達する。
【0054】ここで、ステップ530,531の処理
は、ステップ524において、状態変化情報通知がなさ
れた全ての計算機システムで実行されるものである。即
ち、「SYS001」が運転開始したという状態変化情
報が、「SYS002」及び「SYS00N」に対して
通知されると、計算機システム100B,100Nのサ
ービスプロセッサ120B,120Nは、それぞれ、ス
テップ530,531に示した処理を実行する。従っ
て、計算機システム100B,100NのOS112
B,112Nは、それぞれ、計算機システム100Aが
動作開始したことを認識することができる。
【0055】計算機システム100は、内部に他の計算
機システムの動作状態を管理する管理テーブルを有して
おり、この管理テーブルの内容を運転監視装置400か
ら送られてくる状態変化情報通知に基づいて、設定し直
すことにより、他の計算機システムの稼動状態を認識す
ることが可能となる。システム間でジョブやトランザク
ションの負荷分散を行う処理の場合にも、他の計算機シ
ステムの稼動状態を事前に把握することができるため、
容易に実行できるものである。
【0056】次に、図6を用いて、ある計算機システム
に障害が発生した場合若しくは障害から回復した場合の
処理について説明する。図6の左側に示すステップ61
0〜613は、障害の発生した若しくは障害から回復し
た計算機システム100のサービスプロセッサ120の
処理であり、中央に示すステップ620〜624は、運
転監視装置400の処理であり、右側に示すステップ6
30,631は、障害の発生した若しくは障害から回復
した計算機システム100以外で動作中の計算機システ
ム100のサービスプロセッサ120の処理である。
【0057】例えば、図4(A)に示したように、動作
中であった「SYS002」に障害が発生した場合に
は、図6の左側に示すステップ610〜613は、計算
機システム100Bのサービスプロセッサ120Bの処
理である。そして、この時、動作中の計算機システム
は、図4(A)に示したように、「SYS00N」であ
ったとすると、図6の右側に示すステップ630,63
1は、計算機システム100Nのサービスプロセッサ1
20Nの処理となる。
【0058】ステップ610において、サービスプロセ
ッサ120は、OS112から監視開始命令を受信した
後、一定間隔でOS112の生存を確認する割り込みを
発生する。図2に示した生存確認割込発生部125は、
OS接続部124を経由して、OS112の生存を確認
するための割込みを発行する。
【0059】ステップ611において、OS接続部12
4は、生存確認割込み発行後、割込みに対するOS11
2の応答を、時間制限付きで監視する。そして、OS接
続部124は、制限時間内に応答を受信した場合は、O
S112が「動作中」状態であり、受信できなかった場
合は、OS112に障害が発生して、「障害」状態にな
ったものと判断する。
【0060】ステップ612において、OS接続部12
4は、その状態が前回チェックした状態と比較して変化
があるかどうかをチェックする。変化が無ければ、ステ
ップ610に戻り、ステップ610,611を繰り返
し、変化が有ると、OS接続部124は、コマンド発行
部122に対して、障害が発生したことを示す「障害」
又は障害が回復して動作を開始したことを示す「動作開
始」コマンドの発行を指示し、ステップ613に進む。
【0061】ステップ613において、コマンド発行部
122は、OS接続部124からのコマンド発行指示に
基づいて、運転監視装置400用のコマンドを生成し
て、通信処理部121を経由して、運転監視装置400
にコマンドを送信する。
【0062】ステップ620において、図3に示した運
転監視装置400のコマンド処理部420は、運転監視
装置400の通信処理部410を経由して伝達されたコ
マンドを受信する。
【0063】ステップ621において、コマンド処理部
420は、コマンドの種別を解読し、状態管理部440
に対し、コマンドを発行したシステム識別名とコマンド
種別を知らせる。ここで、受け取ったコマンド種別が、
「動作開始」の場合には、ステップ622に進み、「障
害」の場合には、ステップ623に進む。
【0064】最初に、ステップ623から説明すると、
ステップ623において、状態管理部440は、受け取
ったコマンド種別が、「障害」の場合には、記憶部45
0に格納されている管理テーブル452の該当システム
識別名452Xの通知要因情報452Zを「障害」に設
定する。例えば、図4(A)に示したように、動作中で
あった「SYS002」に障害が発生した場合には、図
4(B)に示すように、システム識別名452Xが「S
YS002」である計算機システムの通知要因情報45
2Zを「障害」に設定する。
【0065】ステップ622において、状態管理部44
0は、受け取ったコマンド種別が、「動作開始」の場合
には、記憶部450に格納されている管理テーブル45
2の該当システム識別名452Xの通知要因情報452
Zを「動作開始」に設定する。
【0066】ステップ624において、状態管理部44
0及び通知発行部430は、状態変化情報通知を他の動
作中の計算機システムに対して実行する。即ち、状態管
理部440は、通知発行部430に対して、通知先計算
機システムのシステム識別名、即ちコマンドを発行した
計算機システム以外で動作中の計算機システムと、通知
すべき状態情報を伝え、状態変化情報通知の発行を指示
する。その指示により、通知発行部430は、状態変化
情報を生成して、通信処理部410を経由して、該当の
計算機システム100のサービスプロセッサ120に通
知を行う。
【0067】例えば、図4(A)に示したように、運転
中であった「SYS002」に障害が発生した場合に
は、その時、動作中である「SYS00N」に対して、
状態変化情報の通知を行う。状態変化情報の内容は、
「SYS002」に「障害発生」したというものであ
る。
【0068】ステップ630において、通知を受信した
サービスプロセッサ120は、図2に示した通信処理部
121を経由して通知処理部123に、情報が伝達され
る。通知処理部123は、通知情報を解読し、システム
識別名と状態変化情報をOS接続部124に伝え、OS
接続部124は、OS112が認識できるよう割込み要
因コードに変換を行って、割り込み要因をセットする。
【0069】次に、ステップ631において、OS接続
部124は、OS112に対して割込みを発生させ、他
システムの状態変化を伝達する。
【0070】ここで、ステップ630,631の処理
は、ステップ624において、状態変化情報通知がなさ
れた全ての計算機システムで実行されるものである。即
ち、「SYS002」に障害が発生したという状態変化
情報が、「SYS00N」に対して通知されると、計算
機システム100Nのサービスプロセッサ120Nは、
ステップ630,631に示した処理を実行する。従っ
て、計算機システム100NのOS112Nは、計算機
システム100Aが障害発生により停止したことを認識
することができる。
【0071】障害発生により停止した計算機システム1
00が、共用入出力装置であるディスク装置300や磁
気テープ装置310に対して排他権を確保したままであ
るときには、状態変化情報の通知を受けた計算機システ
ム100は、共用入出力装置に排他権を確保したい場合
にも、他の計算機システムの稼動状態を事前に把握する
ことができるため、強制的に排他権の自動解除を容易に
実行できるものである。
【0072】次に、図7を用いて、運転監視装置400
の生存確認動作の処理について説明する。図7の左側に
示すステップ700,701は、運転監視装置400の
処理であり、右側に示すステップ710〜714は、そ
の時動作中の計算機システム100のサービスプロセッ
サ120の処理である。
【0073】ステップ700において、運転監視装置4
00は、自装置の生存を知らせるため、サービスプロセ
ッサ(SVP)120に対して、一定間隔で生存確認通
知を発行する。具体的には、図3に示した運転監視装置
400の自装置生存通知発生部460は、状態管理部4
40に対して通知発行を依頼する。状態管理部440
は、計算機システム100の監視開始,停止,及び状態
変化時の処理と同様に、通知先計算機システムのシステ
ム識別名と自装置の生存確認用通知であることを通知発
行部430に伝え、サービスプロセッサ120への通知
発行を指示する。指示を受けた通知発行部430は、そ
の時動作中のサービスプロセッサ120に対して通信処
理部410を経由して生存確認通知を発行する(70
0)。図4(A)に示したように、その時点で、「SY
S002」と「SYS00N」が動作中であれば、計算
機システム100B,100Nのサービスプロセッサ1
20B,120Nに対して、生存確認通知を発行する。
【0074】ステップ710において、OS接続部12
4は、サービスプロセッサ120の通信処理部121及
び通知処理部123を経由して伝達された生存確認通知
を、前回の通知からの時間制限付きで監視する。そし
て、制限時間内に通知を受信した場合は「動作中」状態
と判断し、受信できなかった場合は「障害」状態と判断
する。
【0075】ステップ711において、OS接続部12
4は、その状態が前回チェックした状態と比較して変化
があるかどうかをチェックする。変化がなければ、ステ
ップ712に進み、変化が有れば、ステップ713に進
む。
【0076】変化がない場合には、ステップ712にお
いて、OS接続部124は、運転監視装置400に対し
て生存確認通知に応答する確認コマンドを発行する。
【0077】ステップ701において、運転監視装置4
00は、サービスプロセッサ120が発行した確認コマ
ンドを受信し、ステップ700に戻り、再び生存確認通
知を発行して同様なチェックを繰り返す。
【0078】一方、変化があった場合は、ステップ71
3において、OS接続部124は、OS112が認識で
きるよう割込み要因コードに変換を行って、割り込み要
因をセットする。
【0079】次に、ステップ714において、OS接続
部124は、OS112に対して割込みを発生させ、他
システムの状態変化を伝達する。
【0080】運転監視装置400の障害発生が通知され
ると、OS112は、他の計算機システムの稼動状態を
管理する管理テーブルに設定されている他の計算機シス
テムの稼動状態の情報の使用を停止する。
【0081】また、運転監視装置400が、障害のある
状態から回復した場合において、サービスプロセッサ1
20のOS接続部124は、自らの計算機システム10
0の運転状態のコマンドを発行して、コマンド発行部1
22は、運転監視装置400に運転状態を通知する。こ
れによって、運転監視装置400の記憶部450に格納
されている管理テーブル452を回復することができ
る。
【0082】計算機システム100のサービスプロセッ
サ120は、運転監視装置400から送られてくる生存
確認通知を周期的に監視するようにしているため、運転
監視装置400と計算機システム100を接続する伝送
路であるネットワーク210の異常も監視することがで
きる。即ち、計算機システム100は、伝送路の異常を
含めて運転監視装置400の障害発生を監視することが
可能となる。
【0083】伝送路の異常を含む運転監視装置の障害発
生時には、ディスプレイ等を使用して、伝送路等の異常
発生による停止状態にある旨を複合計算機システムのオ
ペレータに対して通知することにより、オペレータは、
この通知を元に、伝送路や運転監視装置等の異常箇所の
チェックを行うことができる。
【0084】以上説明したように、本実施形態によれ
ば、計算機システム自体の障害発生による停止状態と、
伝送路等の異常発生による停止状態との区別ができるよ
うになるものである。
【0085】計算機システム自体の障害発生による停止
状態である旨を受け取った他の計算機システムは、排他
権の強制解除を自動的に実行することができる。伝送路
等の異常発生による停止状態である場合には、ディスプ
レイ等を使用して、伝送路等の異常発生による停止状態
にある旨を複合計算機システムのオペレータに対して通
知することにより、オペレータは、この通知を元に、伝
送路等の異常箇所のチェックを行うことができる。
【0086】
【発明の効果】本発明によれば、複合計算機システムに
おける計算機システム自体の障害発生による停止状態
と、伝送路等の異常発生による停止状態との区別するこ
とができるようになるものである。
【図面の簡単な説明】
【図1】本発明の一実施形態による複合計算機システム
の全体構成を示すブロック図である。
【図2】本発明の一実施形態による本発明の一実施形態
による複合計算機システムを構成する計算機システムの
中のサービスプロセッサの構成を示すブロック図であ
る。
【図3】本発明の一実施形態による本発明の一実施形態
による複合計算機システムを構成する運転監視装置の構
成を示すブロック図である。
【図4】本発明の一実施形態による本発明の一実施形態
による複合計算機システムを構成する運転監視装置の記
憶部に格納される管理テーブルの説明図である。
【図5】本発明の一実施形態による複合計算機システム
における運転開始若しくは運転停止時の処理を説明する
フローチャートである。
【図6】本発明の一実施形態による複合計算機システム
における障害発生若しくは回復時の処理を説明するフロ
ーチャートである。
【図7】本発明の一実施形態による複合計算機システム
における運転監視装置の動作チェック時の処理を説明す
るフローチャートである。
【符号の説明】
100…運転監視対象の計算機システム 110…処理装置(CPU) 112…オペレーティングシステム(OS) 120…サービスプロセッサ 121…通信処理部 122…コマンド発行部 123…通知処理部 124…OS接続部 125…生存確認割込発生部 200,210…ネットワーク 300…ディスク装置 310…磁気テープ装置 400…運転監視装置 410…通信処理部 420…コマンド処理部 430…通知発行部 440…状態管理部 450…記憶部 460…自装置生存通知発生部 470…表示制御部 490…コンソール装置

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】複数の計算機システムと、 これらの計算機システムとネットワークを介して接続さ
    れ、これらの計算機システムが共通に使用する共用入出
    力装置とを有する複合計算機システムにおいて、 上記複数の計算機システムは、それぞれ、自らの計算機
    システムの稼動状態を監視する稼動状態監視手段を備
    え、 さらに、上記複数の計算機システムとネットワークを介
    して接続され、上記複数の計算機システムが備える上記
    稼動状態監視手段から通知される計算機システムの稼動
    状態の変化を受信して、他の計算機システムに対して、
    通知された計算機システムの稼動状態の変化を通知する
    運転監視装置を備えたことを特徴とする複合計算機シス
    テム。
  2. 【請求項2】請求項1記載の複合計算機システムにおい
    て、 上記稼動状態監視手段は、自らの計算機システムの動作
    開始後、自らの計算機システムに対して、周期的に生存
    確認割込を発行し、この生存確認割込に対する所定時間
    内の応答の有無に基づいて、自らの計算機システムの障
    害の発生の有無を確認し、障害発生時には、障害の発生
    を上記運転監視装置に通知するとともに、 上記運転監視装置は、上記稼動状態監視手段から通知さ
    れる計算機システムの障害の発生を、他の計算機システ
    ムに対して通知することを特徴とする複合計算機システ
    ム。
  3. 【請求項3】請求項1記載の複合計算機システムにおい
    て、 上記運転監視装置は、上記複数の計算機システムに対し
    て周期的に自らの生存を通知するとともに、 上記稼動状態監視手段は、上記運転監視装置からの生存
    の通知の有無に基づいて、上記運転監視装置の障害発生
    を含む上記運転監視装置と上記計算機システムを接続す
    るネットワークの障害発生を検出することを特徴とする
    複合計算機システム。
JP8330935A 1996-12-11 1996-12-11 複合計算機システム Pending JPH10171769A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8330935A JPH10171769A (ja) 1996-12-11 1996-12-11 複合計算機システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8330935A JPH10171769A (ja) 1996-12-11 1996-12-11 複合計算機システム

Publications (1)

Publication Number Publication Date
JPH10171769A true JPH10171769A (ja) 1998-06-26

Family

ID=18238083

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8330935A Pending JPH10171769A (ja) 1996-12-11 1996-12-11 複合計算機システム

Country Status (1)

Country Link
JP (1) JPH10171769A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007034479A (ja) * 2005-07-25 2007-02-08 Nec Corp 稼働系装置、待機系装置、稼働・待機システム、稼働系制御方法、待機系制御方法、および、稼働系・待機系制御方法
US7716277B2 (en) 2003-07-02 2010-05-11 Satoshi Yamatake Image database system
WO2013018183A1 (ja) * 2011-07-29 2013-02-07 富士通株式会社 システム制御装置、電力制御方法及び電子システム
WO2015015544A1 (ja) * 2013-07-29 2015-02-05 富士通株式会社 情報処理システム、装置、方法及びプログラム
WO2017090164A1 (ja) * 2015-11-26 2017-06-01 三菱電機株式会社 制御装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7716277B2 (en) 2003-07-02 2010-05-11 Satoshi Yamatake Image database system
JP2007034479A (ja) * 2005-07-25 2007-02-08 Nec Corp 稼働系装置、待機系装置、稼働・待機システム、稼働系制御方法、待機系制御方法、および、稼働系・待機系制御方法
WO2013018183A1 (ja) * 2011-07-29 2013-02-07 富士通株式会社 システム制御装置、電力制御方法及び電子システム
WO2015015544A1 (ja) * 2013-07-29 2015-02-05 富士通株式会社 情報処理システム、装置、方法及びプログラム
WO2017090164A1 (ja) * 2015-11-26 2017-06-01 三菱電機株式会社 制御装置

Similar Documents

Publication Publication Date Title
US6728746B1 (en) Computer system comprising a plurality of machines connected to a shared memory, and control method for a computer system comprising a plurality of machines connected to a shared memory
US6067628A (en) Method to monitor universal serial bus hub overcurrent
CN101072125B (zh) 集群结构及其控制单元
US8051321B2 (en) Cluster system and node switching method
JP2510696B2 (ja) 計算機システム自動運転制御方式
US5398329A (en) System for switching between first and second control unit and broadcasting switchover to connecting hosts indicating availability of first and second communication links
JP2004021556A (ja) 記憶制御装置およびその制御方法
US20070157052A1 (en) Protection of devices in a redundant configuration
JPH10171769A (ja) 複合計算機システム
JP3555047B2 (ja) 複合コンピュータシステム
KR20030048503A (ko) 이중화 서버 구조의 데이터 동기화를 위한 통신 시스템 및방법
JP3420919B2 (ja) 情報処理装置
JP3190880B2 (ja) スタンバイシステム、スタンバイ方法、および記録媒体
JP2002116920A (ja) クラスタシステム、クラスタシステムにおける監視方法およびコンピュータプログラム
JPH10247962A (ja) コンピュータ通信監視システム
JPH08329023A (ja) 並列電子計算機システム
JP2000148525A (ja) サービスプロセッサ二重化システムの現用系負荷軽減方法
JP2002237827A (ja) Lan制御装置、ドライバ、スイッチングハブ、及びそれらを有するlan制御装置自動切り替えシステム
JPH11232143A (ja) マルチスレッドの監視方法
JPS637055A (ja) デ−タ伝送ステ−シヨン
JPH0275041A (ja) 端末装置のホスト集中管理方式
JP3082704B2 (ja) 通信装置管理方式
JPH02310755A (ja) ヘルスチェック方式
JP2000349900A (ja) 交換装置の障害処理方式
KR100606339B1 (ko) 에이치엘알 시스템의 프로세스 상태 관리 시스템 및 그 방법