JP3806600B2 - System switching method for multi-system - Google Patents

System switching method for multi-system Download PDF

Info

Publication number
JP3806600B2
JP3806600B2 JP2000521438A JP2000521438A JP3806600B2 JP 3806600 B2 JP3806600 B2 JP 3806600B2 JP 2000521438 A JP2000521438 A JP 2000521438A JP 2000521438 A JP2000521438 A JP 2000521438A JP 3806600 B2 JP3806600 B2 JP 3806600B2
Authority
JP
Japan
Prior art keywords
computer
failure
message
function
interrupt
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2000521438A
Other languages
Japanese (ja)
Inventor
大野  洋
茂則 金子
義弘 宮崎
壮一 ▲高▼谷
広昭 福丸
隆弘 猿田
加藤  直
邦弘 鈴木
憲一 黒沢
雅彦 齊藤
秀仁 武和
裕人 塚原
栄喜 庄子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Hitachi Information and Control Solutions Ltd
Original Assignee
Hitachi Ltd
Hitachi Information and Control Solutions Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd, Hitachi Information and Control Solutions Ltd filed Critical Hitachi Ltd
Application granted granted Critical
Publication of JP3806600B2 publication Critical patent/JP3806600B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2038Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with a single idle spare processing component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2028Failover techniques eliminating a faulty processor or activating a spare

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)

Description

技術分野
本発明は多重系システムの管理方法に係わり、特に、稼働系と待機系の計算機により構成される多重系システムにおいて、いずれかの計算機に障害が発生した際に系切り替えを実施する方法に関するものである。
背景技術
高い信頼性が要求される用途、例えば、鉄道運行管理,プラント制御,電力系統制御などに計算機を用いる場合には、処理を行う稼働系計算機の他に、稼働系の計算機に障害が生じた場合に稼働系の計算機が行っていた処理を引き継ぐ待機系の計算機を備えた多重系システムとして計算機を利用することが望ましい。
計算機の稼働を阻害する障害としては、ハードウェアの故障、およびオペレーティングシステム(以下OSと記す)やデバイスドライバなどの基幹ソフトウェアの欠陥による論理矛盾が挙げられる。これらの障害発生時に、計算機のハードウェア・ソフトウェアに関する各種状態を保存することにより、事後の障害解析が可能となり、復旧措置,再発防止策の実施などに活用でき、システムの信頼性向上に役立つ。これは多重系システムにおいても同様である。
従来の多重系システムにおいては、障害が発生した場合に、障害が発生した計算機のディスク装置に障害情報を保存し、その後、当該障害発生計算機が実行していた処理を待機系に引き継ぐ系切り替え方法が実施されてきた。
また、特開平8−202573号公報には、多重系を構成する計算機全てに、お互いに常に内容を一致化させている共通メモリを搭載し、この共通メモリ上に障害情報を常に書き込み、障害発生計算機が実行していた処理を引き継いだ計算機がこの障害情報をディスクに保存する方法が記載されている。
処理の停止時間を短くするために、系切り替えに要する時間はできるだけ短いことが望ましい。従来の切り替え方法の場合、障害情報の保存に要する間だけ系切り替えが待たされるため、実用的な切り替え時間を実現するためには保存できる障害情報の量が制限されてしまう。
一方、特開平8−202573号公報に記載された方法の場合、系切り替え時間の短縮は可能であるが、保存する障害情報の量が多くなると、必要な共通メモリの容量が大きくなり装置コストが大きくなると同時に、共通メモリ内容一致化のための計算機負荷およびネットワーク負荷も大きくなってしまう。
本発明は、多重系システムにおいて、障害発生時に、メモリダンプを含む大容量の障害情報の保存を実施しつつ、高速な系切り替えを実現することを目的とする。
また、障害発生系におけるハードウェアやソフトウェアの暴走、および障害発生系における障害情報の保存動作が、系切り替え動作および切り替え後の処理を引き継いだ新稼働系の動作に影響を与えないようにすることを目的とする。
発明の開示
本発明は、障害の発生した稼働系計算機で行っていた処理を停止して障害情報の保存処理を開始し、引き続いて待機系計算機は該計算機の障害を検出して停止していた処理を引き継ぐものである。該障害発生計算機における処理の停止および障害情報の保存開始は、該障害発生計算機上のソフトウェアにより自発的に行うか、または先に待機系計算機が該計算機の障害を検出し該計算機に対して動作を指示することにより行うかにより実現される。
このような系切り替え方法によれば、処理の切り替えは、待機系計算機における障害検出から、障害発生計算機において安定して障害情報の保存が開始されるまでの見込み時間のみで実施でき、切り替え時間の短縮が実現できる。
また、前記目的達成のために、本発明は、稼働系計算機の障害を検出した待機系計算機が該障害発生計算機に対して障害情報の保存開始指示に引き続き該障害発生計算機の動作停止を指示して、該障害発生計算機では正常な障害情報保存動作をしている場合には動作停止指示を無視し、正常な障害情報保存動作をしていない場合には動作停止指示を受け入れて完全に停止するものである。
このような障害発生計算機の動作方法により、障害情報保存動作が不可能なほどの重度の障害状態において、該障害発生計算機が予期せぬ動作をし、ネットワークや共有ディスク装置といった系間の結合部を通じて、処理を引き継いだ新稼働系計算機の動作に影響を与えることが防げる。
また、前記目的達成のために、本発明は、該障害発生計算機において障害情報の保存を実施する前に、ネットワークや共有ディスク装置といった系間の結合部の入出力装置の動作を停止させるものである。
このような障害発生計算機の動作方法により、障害情報保存に無関係なハードウェアの動作により、ネットワークや共有ディスク装置といった系間の結合部を通じて、処理を引き継いだ新稼働系計算機の動作に影響を与えることが防げる。
発明を実施するための最良の形態
以下、本発明に係る多重系システムの切り替え方法の実施形態について詳細に説明する。
第1図に本実施形態に係る多重系システムの構成を示す。
図示するとおり、本実施形態に係る多重系システムは2台の計算機で構成された2重系システムである。ただし、計算機は3台以上で構成してもよい。
第1図において、計算機100,101はそれぞれ稼働系計算機,待機系計算機を示している。系切り替えにより、稼働系計算機100は待機系計算機として、稼働系計算機101は稼働系計算機として動作する。
各計算機100,101は、中央演算処理装置(以下MPUと記す)110と主メモリ111,入出力制御装置112を備え、これらはプロセッサバス120によって接続されている。入出力制御装置112には、ディスク装置113や拡張バス121が接続される。
拡張バス121には、計算機の機能を拡張するための回路が接続される。一般的には回路が実装された拡張ボードを、スロットコネクタに挿入する形態で拡張バス121に接続される。ただし一部の機能は計算機本体内に実装され、拡張バスに直接内部で接続されている場合もある。本実施形態に係る計算機100,101は、拡張ボードとしてSCSI(Small Computer System Interface)ボード114,リンケージバスポート(Linkage Bus Port)(以下LXPと記す)ボード115,Ethernetボード116を備える。
SCSIボード114には共有ディスク装置102が接続されている。この共有ディスク装置102は、系切り替え時の処理の引き継ぎデータなどを記憶するのに使用される。なお、SCSIバスの代わりにUSB(Universal Serial Bus)といったバスを使用する場合もある。
Ethernetボード116はEthernetネットワーク103に接続され、このネットワーク103に接続された他の計算機などと通信を行う。本実施形態ではネットワーク103には、プラント900を管理・制御するための複数のコントローラ910が接続されている。なお、Ethernetの代わりに、トークンリングやATMといったネットワークを使用する場合もある。
LXPボード115は、系切り替え制御のための機能拡張ボードであり、専用の伝送路であるリンケージバス104を介して接続される。LXPボードは計算機100,101相互間での相手計算機の生存監視と、系切り替えに必要な強制割込,動作停止,計算機再起動の各指示メッセージの送信、さらに各指示メッセージ受信時の自計算機における指示内容の実行を行う。
このような2重系システムにおいて、稼働系計算機100,待機系計算機101ともに正常な状態では、稼働系計算機100の主メモリ111にはOS130,管理プログラム131,管理通信プログラム132、およびアプリケーション(AP)135がロードされ、管理プログラム131,管理通信プログラム132、およびアプリケーション135がOS130上で実行されている。同様に、待機系計算機101の主メモリ111にも同じプログラムがロードされ、OS130,管理プログラム131、および管理通信プログラム132は実行されているが、アプリケーション135は実行されていない。さらに各計算機100,101の主メモリ111には割込処理ルーチン133がロードされている。
アプリケーション135は、該2重系システムの用途たる処理を行うプログラムであり、本実施形態の場合、ネットワーク103を介して各コントローラ910から送られるデータの処理・記録を行うものである。
管理プログラム131は、稼働系計算機と待機系計算機の切り替え処理を行うプログラムである。本プログラムはLXPボード115に対してメッセージ送受信要求や動作指示を行い、また、管理通信プログラム132に対して生存通知メッセージの送受信要求を行う。
管理通信プログラム132はEthernetボード116を使いネットワーク103を介して、他計算機と生存通知メッセージの送受信を行う。メッセージ送受信はTCP/IPプロトコルを使って実行する。本プログラムは予め決められたTCPポートで他計算機からの接続を待ち、接続された場合にはメッセージを受信して本プログラム内で内容を保持し、管理プログラム131からの読み出し要求に対して保持している内容を返す。また管理プログラム131からの生存確認メッセージ送信要求を受け、2重系を構成している他計算機上の管理通信プログラム132が待機しているTCPポートに対してメッセージを送信する。
割込処理ルーチン133は、MPUに対してマスク不可能割込信号が入力されたときに起動されるように登録される。そして、マスク不可能割込信号発生時に障害情報の保存等、障害発生時の処理を実行する。ただし、本実施形態ではマスク不可能割込信号により起動するように登録しているが、MPUが提供する他の割込機構を使って実現してもよい。なお、本実施形態の場合、割込処理ルーチン133が独立したプログラムとなっているが、OS130の種類によってはOSの一部として割込処理ルーチンが提供される場合もあり、この場合はOS130の割込処理ルーチンから呼び出されるサブルーチンとして必要な処理を組み込むことにより同一の機能が実現できる。
次に、本実施形態に係る多重系システムの系切り替え方法について説明する。
第2図に系切り替え処理のタイムチャートを示す。
稼働系計算機100,待機系計算機101がともに正常な状態では、次のような処理が行われる。
管理プログラム131は、一定時間毎に管理通信プログラム132およびLXPボード115に対して、生存通知メッセージ送信を要求する(301)。管理通信プログラム132はEhternetボード116を駆動し、ネットワーク103経由で他計算機に対して生存通知メッセージ401を送信する(302)。一方、LXPボード115はリンケージバス104経由で他計算機に対して生存通知メッセージ402を送信する(303)。
前記の生存通知メッセージ401,402を受信した待機系計算機101の管理通信プログラム132およびLXPボード115は、各々受信結果を記憶する(304,305)。そして、待機系計算機101の管理プログラム131は、一定時間毎に自計算機の管理通信プログラム132およびLXPボード115に対して、稼働系計算機からの生存通知メッセージを受信したかどうか確認する(306)。一定時間以上、稼働系計算機からの生存通知メッセージ401,402が双方とも受信されない場合には、稼働系計算機に障害が発生したものと判断する。
ここで生存通知メッセージを2つの経路で伝送するのは、各伝送経路や伝送路への接続回路に発生した障害を、計算機自体の障害と区別できるようにするためである。一方の生存通知メッセージのみが受信されない場合には、伝送路で障害であると判断し、画面表示やログ記録などの形で警告を発するに止め、系切り替えは実施しない。
第2図では稼働系計算機100から待機系計算機101への向きの生存確認メッセージの送信動作のみが示されているが、実際には逆向きの生存確認メッセージの送信も行っており、稼働系計算機100での受信確認処理306および待機系計算機101での送信処理301が一定時間毎に実行されている。
次に、稼働系計算機100に障害が発生した場合の動作について説明する。
障害モードは複数考えられるが、第1に、OS内部で無限ループが発生するなどの要因でハングアップ状態になった場合を説明する。
OS内部での障害発生により管理プログラム131の動作はストップし、生存通知メッセージの送信処理301が一定時間毎に実行されなくなる。待機系計算機101の管理プログラム131は、一定時間451の間隔で行う受信メッセージ確認306の際に、2つの生存通知メッセージ401,402とも受信されていないことを検出すると、稼働系計算機100に障害が発生したものと判断する。障害発生を検出した待機系計算機101上の管理プログラム131はLXPボード115に対して強制割込指示の送信を依頼し(307)、LXPボード115は稼働系計算機のLXPボードに対して強制割込指示メッセージ403を送信する(308)。
稼働系計算機100上のLXPボード115は強制割込指示メッセージ403を受信すると、ハードウェア的にマスク不可能割込信号404を発生させる(309)。MPUはこの割込信号を受け、割込処理ルーチン133を起動する。
割込処理ルーチン133は起動時に、まず、マスク不可能割込信号を無効化、すなわち再度マスク不可能割込信号が発生した場合にこれを無視するように設定する(310)。
割込処理ルーチン133は、起動後、相手系計算機101に影響を及ぼす可能性のある自計算機内の構成要素の動作停止を指示する(311)。本実施形態の構成の場合、SCSIボード114およびEthernetボード116がこの様な構成要素に相当し、各ボードにあるレジスタ中の動作停止を指示するビットをセットすることにより動作を停止させる。これにより相手系計算機101が共有ディスク102やネットワーク103にアクセスする場合に、障害発生計算機100の影響を受けなくなる。なお、構成要素の種類によってはレジスタ中の動作可能ビットをクリアすることにより、動作停止を指示する場合もある。
次に割込処理ルーチン133は、LXPボード115に対して以後の他計算機からの指示メッセージを無視するように設定し(312)、障害情報の保存を実行する(313)。障害情報の保存完了後、割込処理ルーチン133は停止し(314)、障害が発生した計算機100は停止状態となる。
障害情報の保存処理313では、主メモリ111の内容や、計算機本体および各機能拡張ボードの動作状態を表す各々のレジスタの内容などを保存する。また、障害情報以外に、通常のシャットダウン処理のうち、該障害発生後の条件下でも実行可能な処理を実行してもよい。例えば、ディスク装置113に対するキャッシュ内容の書き出しを実行すれば、該障害発生計算機のディスク内容の整合性が保たれ、内容を救出できる可能性が高くなる。
待機系計算機101の管理プログラム131は、強制割込指示の送信(307)後、一定時間452をおいて、LXPボード115に対して動作停止指示の送信を依頼し(315)、またこの時点で、待機系計算機101でロードされていたアプリケーション135を起動して稼働系計算機100の処理を引き継ぎ(318)、自計算機を新たな稼働系に設定する。これで系切り替えは完了する。
LXPボード115は、管理プログラム131からの動作停止指示送信依頼により、動作停止指示メッセージ405を送信する(316)。しかし、障害発生計算機100では割込処理ルーチン133によりLXPボードに対して指示メッセージを無視する設定が行われている(312)ため、この動作停止指示メッセージ405は無視され、障害情報の収集(313)が継続されることになる。
障害発生計算機内の構成要素の動作停止処理311において、各構成要素に、動作状態表示レジスタなどの動作状況確認手段が備わっている場合、動作停止処理311による動作停止を確認する手順を追加してもよい。この動作停止の確認において動作停止指示が失敗していると判断された場合、割込処理ルーチン133はその処理を停止する。これにより、他計算機からの指示メッセージを無視する処理が行われず、待機系計算機のLXPボードからの動作停止指示メッセージ405を受けたLXPボードにより計算機100は強制的に停止状態となり、待機系計算機101は障害発生計算機100の影響を受けずに処理を引き継ぐことになる。
また、障害情報保存処理313の先頭で、ディスク装置の異常など、障害情報保存のための準備が出来ていないと判断された場合、割込処理ルーチン133はLXPボードのメッセージ無視の設定を解除し(319)、障害情報保存処理を停止するようにしてもよい。この場合も、待機系計算機からの動作停止指示メッセージ405を受けて障害発生計算機100は強制的に停止状態となる。
第2の障害モードとして、一般的にカーネルパニックと呼ばれる、OSが重大な論理矛盾を検出して継続運転不能と判断した障害について説明する。この場合の処理のタイムチャートを第3図に示す。
OSは論理矛盾を検出すると、割込処理ルーチン133を起動する(331)。割込処理ルーチンは、第2図で説明した場合と同様に、自計算機内の構成要素の動作停止を指示し(311)、次にLXPボード115に対して以後の他計算機からの指示メッセージを無視するように設定し(312)、その後、障害情報の保存処理を行い(313)、停止する(314)。
OSに障害が発生し、割込処理ルーチンへ実行が移ることにより、稼働系計算機100上の管理プログラム131が動作しなくなるため、待機系計算機に対して生存通知メッセージ401,402が送信されなくなる。待機系計算機101上の管理プログラム131は、前述のとおり、生存通知メッセージ401,402ともに受信されないことを検出し(306)、強制割込指示メッセージ403および計算機動作停止指示メッセージ405の送信を行う(308,316)。
強制割込指示メッセージ403を受けた時点で、すでに割込処理ルーチン133が起動しLXPボードに対してメッセージ無視の設定が行われている(312)ため、強制割込指示メッセージ403は無視され(332)、障害情報の収集313が継続される。引き続いて受け取る動作停止指示メッセージ405も同様に無視される(333)。
なお、ここではOSが割込処理ルーチン133を呼び出すものとしたが、マスク不可能割込信号を発生させて割込処理ルーチン133を起動してもよい。またOSの種類によってはOS自身が障害情報の保存(メモリダンプ)を行うものもあるが、その実行前に登録した処理を呼び出す機能が提供されている場合には、割込処理ルーチン133から障害情報の保存(313)を除いた処理を登録しておくことにより、同等の処理を実現することができる。
第3の障害モードとして、ハードウェアの部分的な障害について説明する。ここで説明するのは、障害の影響が前述した2つの障害モードとしては現れないが、多重系システムの本来の用途たる処理を継続することができないものであり、何らかの検出方法により検出されたものである。この場合の処理のタイムチャートを第4図に示す。
このような障害の発生の検出には、管理プログラム131による検出、専用の障害検出サブプログラム134による検出、アプリケーション135での異常検出などがある。これらのうち、管理プログラム以外で障害を検出した場合は、障害発生の検出を管理プログラム131に通知する(341,342)。管理プログラム131は、自分自身での障害検出、または障害検出サブプログラム134やアプリケーション135からの障害通知を受けて、割込処理ルーチン133を起動する(343)。割込処理ルーチン133は第3図で説明したOSの論理矛盾検出時と同一の処理手順を実行し、系切り替えが実施される。
なお、障害発生をハードウェア機構により監視している場合は、このハードウェアが割込を使用して異常検出結果を管理プログラム131や障害検出サブプログラム134に通知するか、もしくは管理プログラムや障害検出サブプログラムの側が定期的に該ハードウェアをポーリングして異常検出の有無を確認して、同様の処理を行う。
また、メモリ内容の破壊やハードウェア的な動作不全の程度により、割込処理ルーチン133の起動ができない場合がある。この場合、障害発生計算機100は重度の制御不能状態であり、予測できない動作をして、待機系計算機101の動作に影響を与える恐れがある。
この場合は、障害発生計算機のLXPボード115に対して他計算機からの指示メッセージを無視する設定(312)が行われない。従って、待機系計算機からの動作停止指示メッセージ405を受けたLXPボード115が計算機100を強制的に停止状態とする。従って障害発生計算機100を待機系計算機101の動作に確実に影響を与えない状態としてから処理の引き継ぎを実施することになるので、確実に系の切り替えができる。
生存通知メッセージが受信されず障害が発生したと判断するまでの時間451は、第3図で示すように、障害が発生してソフトウェア的に割込処理ルーチン133が呼び出され、LXPボードに対する設定(312)を完了するまでの時間に対して、やや長く設定しておく。また強制割込指示メッセージ送信と計算機動作停止指示メッセージ送信の間隔452は、第2図に示すように、強制割込指示(307)による稼働系計算機100の割込処理ルーチン133が起動され、LXPボードに対する設定(312)を完了するまでの時間に対して、やや長く設定しておく。
系の切り替え時間、すなわち処理引き継ぎ完了までの時間は、おおよそ時間451と時間452の合計となる。この系の切り替え時間は、メモリダンプなどの障害情報の保存313に要する時間に対して十分短く、障害情報の保存と系切り替え時間の短縮が両立される。
なお、以上の説明では稼働系計算機100に障害が発生した場合の処理について説明してきたが、待機系計算機101に障害が発生した場合も、処理の引き継ぎによる稼働系,待機系切り替えがないことを除いて、同一の処理が行われる。
本実施形態では、各計算機がLXPボード115とEthernetボード116を備えていたが、各計算機にEthernetボード116を2つ備え、Ethernetネットワーク103を二重化して生存監視メッセージの通信を行う構成の多重系システムにおいても、同様の方法による系切り替えが可能である。このようなシステムにおいては、OSの論理矛盾検出やハードウェアの部分的な障害検出という障害モードに対して、障害発生計算機100における障害情報の保存313と待機系計算機101への処理引き継ぎ318による系切り替え動作が可能である。ただし強制割込指示403を送ることが出来ないので、ハングアップ状態の障害モードでは障害情報の保存が出来ない。また、動作停止指示メッセージ405を送ることが出来ないので、障害の程度によっては障害発生計算機100の異常動作が待機系計算機101に影響を与える可能性が残る。
以下、各部の詳細について説明する。
まずLXPボード115について説明する。第5図にLXPボード115の内部構成を示す。
図示するようにLXPボード115は、拡張バス121との入出力を担当する拡張バスインタフェース170,リンケージバス104を介したメッセージ処理を行うリンケージ制御用プロセッサ171、このリンケージ制御用プロセッサ171が実行するプログラムを格納するメモリ175,メッセージとリンケージバス上の電気信号との変換を行う伝送路インタフェース172,メッセージの一時格納用バッファであるメッセージ記憶用メモリ173,電源電圧の立ち上がりを検出する電源電圧検出回路174,拡張バス側からリンケージ制御用プロセッサ171の動作状態を確認したり動作方法を指示するための動作制御レジスタ176を備えている。
動作制御レジスタ176は拡張バス121から読み書きできるので、このLXPボード115が搭載されている計算機上で動作するソフトウェアから動作状態を確認したり動作方法を指示することが可能である。この動作制御レジスタ176は、後述する強制割込指示禁止ビット1761,動作停止指示禁止ビット1762,再起動指示禁止ビット1763を含む。
LXPボードの初期化動作を説明する。LXPボードは、接続されている計算機とは独立に動作し、計算機のリセット信号自体を扱う必要がある。このため、LXPボードの初期化処理は、計算機のリセット処理とは独立に、LXPボードへの電源投入時にのみ行う。このため、拡張バス121経由で供給される電源電圧を監視する電源電圧検出回路174が電源電圧の立ち上がりを検出して、LXPボード内の各構成要素に対して初期化を指示する初期化信号184を出力する。拡張バスインタフェース170,リンケージ制御用プロセッサ171、および伝送路インタフェース172は、この初期化信号184を受け、メモリのクリア,各種状態情報のクリア,レジスタのクリア,リンケージバスのリセットなどの初期化処理を実行する。
次にメッセージ送信機能について説明する。管理プログラム131は拡張バス121を介して、拡張バスインタフェース170にメッセージの送信要求を行う。拡張バスインタフェース170は、拡張バス121とリンケージバス104のデータ転送速度が異なるため、送信するメッセージを一旦速度緩衝用バッファとしてメッセージ記憶用メモリ173に格納し、リンケージ制御用プロセッサ171に対してメッセージの到着を通知する。リンケージ制御用プロセッサ171はこの通知を受けてメッセージ記憶用メモリ173からメッセージを取り出し、伝送路インタフェース172に転送し、リンケージバス104を介して、メッセージを他計算機のLXPボードに送信する。
最後にメッセージ受信処理機能について説明する。他計算機のLXPボードからリンケージバス104を経由して指示メッセージが届いた場合、その種類に応じて以下のいずれかの処理を行う。
(1)メッセージが強制割込指示の場合、接続されている自計算機に対して、マスク不可能割込信号線182を通じて、マスク不可能割込信号を出力し、MPU110での処理を割込ルーチン133に切り替える。ただし、レジスタ176の強制割込指示禁止ビット1761がセットされている場合には、本処理を行わず、指示メッセージを無視する。
(2)メッセージが動作停止指示の場合、接続されている自計算機に対してリセット信号線183を通じてリセット信号を継続して出力し続け、これにより計算機を強制的に停止する。ただし、レジスタ176の動作停止指示禁止ビット1762がセットされている場合には、本処理を行わず、メッセージを無視する。
(3)メッセージが再起動指示の場合、接続されている自計算機に対してリセット信号線183を通じてリセット信号を1度出力し、これにより計算機を再起動する。ただし、レジスタ176の再起動指示禁止ビット1763がセットされている場合には、本処理を行わず、メッセージを無視する。
(4)上記以外のメッセージの場合、メッセージ内容をメッセージ記憶用メモリ173に格納する。格納されたメッセージは、その後、管理プログラム131からの要求により、拡張バスインタフェース170,拡張バス121を介して随時読み出される。
第6図に拡張バスインタフェース170の処理手順を示す。
拡張バスインタフェース170は、計算機(拡張バス)からの入出力要求信号、および初期化信号線184からの初期化信号を受けると、要求待ち状態501から抜けて処理を開始し、受けた信号から処理要求の種類を判定する(502)。
処理要求が初期化信号であった場合、内部レジスタや回路の初期化処理(503)を行う。
処理要求が拡張バス121からの読出信号の場合、読み出し要求の対象がレジスタであればそのレジスタ176の内容を読み出し(505)、読み出し要求の対象がメッセージであればメッセージ記憶メモリ173の内容を読み出し(507)、読み出した結果を拡張バス121に送出する(506,508)。
処理要求が拡張バス121からの書込信号の場合、書き込み要求の対象がレジスタであれば書き込み内容をレジスタ176に書き込む(510)。一方、書き込み要求の対象が送信メッセージである場合には、その送信メッセージを一旦メッセージ記憶用メモリ173に格納し(511)、これをリンケージ制御用プロセッサ171に伝送させる(512)。
第7図にリンケージ制御用プロセッサ171の処理手順を示す。
制御用プロセッサ171は、拡張バスインタフェース170からの起動要求、伝送路インタフェース172からのメッセージ受信、および初期化信号線184からの初期化信号のいずれかのイベントにより、イベント待ち状態521から抜けて処理を開始し、そのイベントの種類を判定する(522)。
発生したイベントが初期化信号の場合、通信処理を初期化し、メッセージ記憶用メモリ173に保存されている全メッセージを破棄し、さらにレジスタ176を初期状態に設定する(523)。
一方、発生したイベントが、拡張バスインタフェース170からの起動要求、すなわち、メッセージの送信要求であれば、送信すべきメッセージをメッセージ記憶用メモリ173から読み出し(524)、伝送路インタフェース172に該メッセージを伝送させる(525)。
また、発生したイベントが伝送路インタフェース172からのメッセージ受信イベントの場合、他のLXPボードからの指示メッセージの到着を示している。この場合、受信した指示メッセージの種類を判定し(526)、各々に対応した処理を行う。
メッセージが強制割込指示,動作停止指示,再起動指示のいずれかの場合、既に述べたとおり、レジスタ176中の対応する各禁止ビット(1761,1762,1763)がクリアされていることを確認し(527,529,531)、前述のとおりの信号を出力する(528,530,532)。
前記以外のメッセージの場合、単に受信した指示メッセージをメッセージ記憶用メモリ173に格納する(533)。
次に管理プログラム131について説明する。
管理プログラム131は次の3つの処理を行う。
(1)自計算機が正常に動作していることを他の計算機に通知するため、定期的に生存通知メッセージを送信する。
(2)他計算機から送られてくる生存通知メッセージを監視し、一定時間以上受信されない場合は送信元計算機に障害が発生したものと判断し、他計算機に対して強制割込指示メッセージならびに動作停止指示メッセージを送信する。また、障害発生計算機が稼働系計算機ならば、該計算機で実行していた処理を引き継ぎ、自計算機を新たな稼働系計算機に設定する。
(3)他のプログラムからの呼び出しにより、自計算機に障害が発生したことを認識し、障害情報収集等の割込処理ルーチン133を起動する。
なお、管理プログラム131が自計算機の障害発生を検出する機能を合わせ持っていてもよい。この場合、障害検出時には前記(3)と同様に割込処理ルーチンを起動する。
第8図に前記(1)の生存通知メッセージ送信処理の処理フローを示す。
図示するとおり、この処理では定期的に生存通知を他計算機に対して通知する。すなわち、管理通信プログラム132およびLXPボード115に対して生存通知メッセージ送信を要求し(301)、予め定められた時間だけ待ち状態に移行する(541)処理を繰り返す。
第9図に前記(2)の生存通知メッセージの監視と他系障害発生時処理の処理フローを示す。
図示するように、周期的に他計算機からの生存メッセージの受信状態を確認し、一定時間以上受信できない場合には他系障害発生時処理を実行する。
他系障害と判断するための待ち時間451を決定するために、「通知1待ち回数」,「通知2待ち回数」という変数を設定する。これらの変数の初期値はN回であり、処理563での待ち時間tとの積「N×t」が他系障害と判断するための待ち時間451となる。まずこれらの変数の初期化処理として、各々N回を設定する(551,552)。
次に、管理通信プログラム132では受信したメッセージの内容を記憶しているので、生存通知メッセージ401を受信したかどうかを管理通信プログラム132に問い合わせる(553)。受信されていれば「通知1待ち回数」をN回に設定して再度初期化し(554)、管理通信プログラム132に対しては記憶している生存通知メッセージのクリアを指示する(555)。一方、生存通知メッセージが受信されていなければ、「通知1待ち回数」の値を1減少させる。ただし「通知1待ち回数」の値が負になった場合は0を設定するものとする(556)。
同様にして、LXPボード115は受信したメッセージの内容を記憶しているので、生存通知メッセージ402を受信したかどうかを問い合わせる(557)。受信されていれば「通知2待ち回数」をN回に再設定して(558)、LXPボード115に記憶している生存通知メッセージのクリアを指示する(559)。生存通知メッセージが受信されていなければ、「通知2待ち回数」の値を1減少させる。ただし「通知2待ち回数」の値が負になった場合は0を設定するものとする(560)。
ここで「通知1待ち回数」および「通知2待ち回数」の値を調べる(561)。
両変数とも0となっている場合には、「N×t」で表される待ち時間451以上の間、生存通知メッセージ401および402がともに受信されていないことになるため、他系の計算機に障害が発生したものと判断する。そしてまずLXPボード115に対して強制割込指示メッセージ403の送信を依頼し(307)、次いで一定時間452だけ待ち状態とし(564)、その後、LXPボード115に対して計算機動作停止指示メッセージ405の送信を依頼する(315)。さらに自計算機の設定が待機系計算機である場合には、稼働系計算機の処理内容の引き継ぎを行い(318)、系切り替えを実行する。これらの処理を実行した後は、他系の障害発生計算機は必ず停止状態なので、生存通知メッセージの監視処理は停止する(566)。なお、障害発生計算機を交換しまたは障害要因を取り除き、待機系計算機として二重化システム内に復帰させる場合には、再度本処理を開始する(550)。開始はオペレータによる手動操作でもよいし、本監視処理停止(556)後、別処理を起動して生存監視メッセージの監視を続け、生存監視メッセージを検出した時点で本監視処理を再開する(550)方法でもよい。
処理561にて「通知1待ち回数」および「通知2待ち回数」のいずれか一方のみが0であった場合は、メッセージ伝送路や伝送路への接続回路に障害が発生したと判断し、これを画面表示やログ記録などの形で警告を発する(562)。
処理561にて「通知1待ち回数」および「通知2待ち回数」の両変数が0であった場合を除き、予め定められた時間tだけ待ち(563)、処理553へ戻る。
第10図に前記(3)の自計算機で障害が発生した時の管理プログラム133の処理フローを示す。
この処理は、障害検出サブプログラム134やアプリケーション135からの呼び出しにより起動し(570)、単に割込処理ルーチン133を起動する(343)。割込処理ルーチン133は呼び出し元に処理を戻さない。
次に、割込処理ルーチン133について説明する。
割込処理ルーチン133は、障害発生時に、自計算機上のソフトウェアから起動されるか、または他計算機からの強制割込指示メッセージを受けてLXPボード115から起動され、障害情報の保存およびこれに関連する処理を行う。
第11図に割込処理ルーチン133の処理フローを示す。
割込処理ルーチン133は起動時に、まずマスク不可能割込信号を無効化する(310)。これは、何も処理を行わずに復帰するダミーの割込処理ルーチンを用意し、これをマスク不可能割込に対する処理ルーチンとしてMPUに登録することにより実現する。これにより割込処理ルーチン133の処理中に再度マスク不可能割込信号が発生した場合でも、前記ダミーのルーチンへ処理が移りすぐに割込復帰するので、マスク不可能割込を無視することとなり、割込処理ルーチン133を継続できる。
次に、自計算機の一部、特に他系の計算機に影響を及ぼす可能性のある構成要素の動作停止を指示する(311)。そして動作停止を指示した各構成要素に対して状態を問い合わせ、全ての構成要素が本当に動作停止したかどうかを確認する(581)。動作停止に失敗したものがある場合、割込処理を打ち切る(590)。動作停止を指示した各構成要素が全て停止していれば、LXPボード115に対して以後の他計算機からの指示メッセージを無視するように設定する(312)。
続いて障害情報の保存が可能な状態かどうかを調べ(582)、保存が不可と判断された場合は、LXPボード115に対して他計算機からの指示メッセージ無視を解除し(319)、割込処理を打ち切る(590)。保存が可能と判断された場合は、実際の障害情報の保存を実行する(313)。障害情報の保存完了後、割込処理ルーチン133は停止し(314)、自計算機は停止状態となる。なお、障害情報の保存完了後、自計算機上のLXPボード115に対してリセット信号の継続発生を指示し、計算機の動作を完全に停止させるようにしてもよい。
割込処理の打ち切りにより停止した場合(590)、自計算機は停止状態となるが、引き続き他計算機から送られてくる動作停止指示メッセージを受けてLXPボード115がリセット信号を継続発生するので、この場合でも動作は完全に停止する。
以上のように、本発明によれば、多重系システムにおいて、障害発生時に、メモリダンプを含む大容量の障害情報の保存を実施しつつ、高速な系切り替えを実現することが可能である。
また、本発明によれば、障害発生系におけるハードウェアやソフトウェアの暴走、および障害発生系における障害情報の保存動作が、系切り替え動作および切り替え後の処理を引き継いだ新稼働系の動作に影響を与えないようにすることが可能である。
産業上の利用可能性
以上のように、本発明は高い信頼性が要求される用途の多重系システムに有効であり、稼働系の計算機に障害が生じた場合に稼働系の計算機が行っていた処理を引き継ぐ待機系の計算機を備えた多重系システムにおいて、いずれか一方の計算機で障害が発生した際に、事後の障害解析が可能となり、復旧措置,再発防止策の実施などに活用でき、システムの信頼性向上に役立つ。
【図面の簡単な説明】
第1図は、2重系システムの構成を示すブロック図であり、第2図は、この2重系システムにおける系切り替え処理の順序と各処理の関係を示したタイムチャートである。
第3図は、OSの論理矛盾検出による系切り替え処理のタイムチャートであり、第4図は、ハードウェア障害検出による系切り替え処理のタイムチャートである。
第5図は、計算機に搭載するLXPボードの構成を示すブロック図であり、第6図は、LXPボードに搭載する拡張バスインタフェースの処理手順を示すフローチャートであり、第7図は、LXPボードに搭載するリンケージ制御用プロセッサの処理手順を示すフローチャートである。
第8図は、管理プログラムの生存通知メッセージ送信処理の処理手順を示すフローチャートであり、第9図は、管理プログラムの生存通知メッセージの監視と他系障害発生時処理の処理手順を示すフローチャートであり、第10図は、管理プログラムの自計算機に障害発生時処理の処理手順を示すフローチャートである。
第11図は、割込処理ルーチンの処理手順を示すフローチャートである。
Technical field
The present invention relates to a method for managing a multisystem, and more particularly to a method for performing system switching when a failure occurs in any computer in a multisystem composed of active and standby computers. is there.
Background art
When a computer is used for applications that require high reliability, for example, railway operation management, plant control, power system control, etc., in addition to the active computer that performs processing, if the active computer fails It is desirable to use the computer as a multiple system including a standby computer that takes over the processing performed by the active computer.
Examples of failures that hinder the operation of a computer include hardware failures and logical contradictions due to defects in core software such as an operating system (hereinafter referred to as OS) and device drivers. When these faults occur, by saving various states related to the hardware and software of the computer, it becomes possible to analyze the faults afterwards, which can be used for implementing recovery measures and measures to prevent recurrence, and helps to improve system reliability. The same applies to a multi-system system.
In a conventional multiplex system, when a failure occurs, the failure information is stored in the disk device of the computer in which the failure has occurred, and then the system switching method for taking over the processing executed by the failed computer to the standby system Has been implemented.
Japanese Patent Laid-Open No. 8-202573 discloses that all computers constituting a multiplex system are equipped with a common memory whose contents are always matched with each other, and failure information is always written in the common memory, and a failure occurs. A method is described in which a computer that has taken over the processing executed by the computer stores this failure information on a disk.
In order to shorten the processing stop time, it is desirable that the time required for system switching is as short as possible. In the case of the conventional switching method, since the system switching is waited only for the time required for storing the failure information, the amount of failure information that can be stored is limited in order to realize a practical switching time.
On the other hand, in the case of the method described in JP-A-8-202573, the system switching time can be shortened. However, if the amount of failure information to be stored increases, the necessary common memory capacity increases and the apparatus cost increases. At the same time, the computer load and network load for matching common memory contents also increase.
An object of the present invention is to realize high-speed system switching while saving a large amount of failure information including a memory dump when a failure occurs in a multiplex system.
Also, make sure that hardware and software runaway in the faulty system and the storage of fault information in the faulty system do not affect the system switching operation and the operation of the new operating system that has taken over the processing after switching. With the goal.
Disclosure of the invention
The present invention stops the processing that has been performed on the active computer in which the failure has occurred and starts the storage processing of the failure information. Subsequently, the standby computer detects the failure of the computer and takes over the stopped processing. Is. The stop of processing and the start of storage of fault information in the faulty computer are performed spontaneously by software on the faulty computer, or the standby computer first detects a fault in the computer and operates on the computer This is realized depending on whether or not it is performed.
According to such a system switching method, the process can be switched only in the expected time from the failure detection in the standby computer until the failure information is stably stored in the failure occurrence computer. Shortening can be realized.
In order to achieve the above object, according to the present invention, the standby computer that has detected the failure of the active computer instructs the failure occurrence computer to stop the operation of the failure occurrence computer following the failure information storage start instruction. Thus, the failure occurrence computer ignores the operation stop instruction when the normal failure information storage operation is performed, and accepts the operation stop instruction when the normal failure information storage operation is not performed and stops completely. Is.
In such a faulty computer operation method, the faulty computer operates unexpectedly in a faulty state so severe that fault information storage operation is impossible, and a coupling unit between systems such as a network and a shared disk device Through this, it is possible to prevent the operation of the new active computer that took over the processing from being affected.
In order to achieve the above object, the present invention stops the operation of the input / output device of the coupling unit between the systems such as the network and the shared disk device before the failure information is stored in the failure occurrence computer. is there.
Due to the operation method of the faulty computer, the operation of the hardware that is not related to the storage of fault information affects the operation of the new active computer that has taken over the process through the connection between systems such as the network and shared disk device. I can prevent it.
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of a method for switching a multisystem according to the present invention will be described in detail.
FIG. 1 shows the configuration of a multiplex system according to this embodiment.
As shown in the figure, the multiplex system according to the present embodiment is a dual system composed of two computers. However, you may comprise three or more computers.
In FIG. 1, computers 100 and 101 indicate an active computer and a standby computer, respectively. By system switching, the active computer 100 operates as a standby computer and the active computer 101 operates as an active computer.
Each of the computers 100 and 101 includes a central processing unit (hereinafter referred to as MPU) 110, a main memory 111, and an input / output control device 112, which are connected by a processor bus 120. A disk device 113 and an expansion bus 121 are connected to the input / output control device 112.
A circuit for extending the function of the computer is connected to the expansion bus 121. In general, an expansion board on which a circuit is mounted is connected to the expansion bus 121 in a form of being inserted into a slot connector. However, some functions are implemented in the computer main body and may be directly connected to the expansion bus internally. The computers 100 and 101 according to this embodiment include a small computer system interface (SCSI) board 114, a linkage bus port (hereinafter referred to as LXP) board 115, and an Ethernet board 116 as expansion boards.
The shared disk device 102 is connected to the SCSI board 114. This shared disk device 102 is used to store data taken over in processing at the time of system switching. A bus such as USB (Universal Serial Bus) may be used instead of the SCSI bus.
The Ethernet board 116 is connected to the Ethernet network 103 and communicates with other computers connected to the network 103. In the present embodiment, a plurality of controllers 910 for managing and controlling the plant 900 are connected to the network 103. A network such as token ring or ATM may be used instead of Ethernet.
The LXP board 115 is a function expansion board for system switching control, and is connected via a linkage bus 104 which is a dedicated transmission path. The LXP board monitors the other computer's survival between the computers 100 and 101, sends each instruction message for forced interrupt, operation stop, and computer restart necessary for system switching, and also in the own computer when each instruction message is received. The instruction contents are executed.
In such a dual system, when both the active computer 100 and the standby computer 101 are normal, the OS 130, the management program 131, the management communication program 132, and the application (AP) are stored in the main memory 111 of the active computer 100. 135 is loaded, and the management program 131, the management communication program 132, and the application 135 are executed on the OS. Similarly, the same program is loaded into the main memory 111 of the standby computer 101, and the OS 130, the management program 131, and the management communication program 132 are executed, but the application 135 is not executed. Further, an interrupt processing routine 133 is loaded in the main memory 111 of each computer 100, 101.
The application 135 is a program that performs processing that is a use of the duplex system. In the present embodiment, the application 135 performs processing and recording of data transmitted from each controller 910 via the network 103.
The management program 131 is a program that performs a switching process between the active computer and the standby computer. This program issues a message transmission / reception request and operation instruction to the LXP board 115, and issues a survival notification message transmission / reception request to the management communication program 132.
The management communication program 132 uses the Ethernet board 116 to transmit / receive a survival notification message to / from other computers via the network 103. Message transmission / reception is performed using the TCP / IP protocol. This program waits for a connection from another computer at a predetermined TCP port, and when it is connected, it receives a message, holds the contents in this program, and holds it in response to a read request from the management program 131. Returns the contents. In response to a survival confirmation message transmission request from the management program 131, the management communication program 132 on the other computer constituting the duplex system transmits a message to the TCP port on which it is waiting.
The interrupt processing routine 133 is registered so as to be activated when a non-maskable interrupt signal is input to the MPU. Then, when a non-maskable interrupt signal is generated, processing at the time of occurrence of the failure, such as saving of failure information, is executed. However, in the present embodiment, registration is performed so as to be activated by an unmaskable interrupt signal, but it may be realized by using another interrupt mechanism provided by the MPU. In the present embodiment, the interrupt processing routine 133 is an independent program. However, depending on the type of the OS 130, the interrupt processing routine may be provided as a part of the OS. The same function can be realized by incorporating necessary processing as a subroutine called from the interrupt processing routine.
Next, a system switching method of the multiplex system according to the present embodiment will be described.
FIG. 2 shows a time chart of the system switching process.
When both the active computer 100 and the standby computer 101 are normal, the following processing is performed.
The management program 131 requests the management communication program 132 and the LXP board 115 to send a survival notification message at regular intervals (301). The management communication program 132 drives the Ethernet board 116 and transmits a survival notification message 401 to other computers via the network 103 (302). On the other hand, the LXP board 115 transmits a survival notification message 402 to other computers via the linkage bus 104 (303).
The management communication program 132 and the LXP board 115 of the standby computer 101 that have received the survival notification messages 401 and 402 store the reception results (304 and 305). Then, the management program 131 of the standby computer 101 confirms whether or not the survival notification message from the active computer has been received to the management communication program 132 and the LXP board 115 of the own computer at regular intervals (306). If both the survival notification messages 401 and 402 from the active computer have not been received for a certain time or more, it is determined that a failure has occurred in the active computer.
Here, the reason why the survival notification message is transmitted through the two paths is to make it possible to distinguish a failure occurring in each transmission path and a connection circuit to the transmission path from a failure of the computer itself. If only one survival notification message is not received, it is determined that there is a failure in the transmission path, a warning is issued in the form of screen display or log recording, and system switching is not performed.
Although FIG. 2 shows only the operation of transmitting the survival confirmation message in the direction from the active computer 100 to the standby computer 101, the actual operation confirmation message is actually transmitted in the reverse direction. The reception confirmation processing 306 at 100 and the transmission processing 301 at the standby computer 101 are executed at regular intervals.
Next, an operation when a failure occurs in the active computer 100 will be described.
A plurality of failure modes can be considered. First, a case will be described in which a hang-up state is caused by factors such as the occurrence of an infinite loop inside the OS.
The operation of the management program 131 stops due to the occurrence of a failure in the OS, and the survival notification message transmission processing 301 is not executed at regular intervals. When the management program 131 of the standby computer 101 detects that neither of the two survival notification messages 401 and 402 is received during the reception message confirmation 306 performed at regular time 451 intervals, there is a failure in the active computer 100. Judge that it occurred. The management program 131 on the standby computer 101 that has detected the failure requests the LXP board 115 to send a forced interrupt instruction (307), and the LXP board 115 forcibly interrupts the LXP board of the active computer. An instruction message 403 is transmitted (308).
When the LXP board 115 on the active computer 100 receives the forced interrupt instruction message 403, it generates a non-maskable interrupt signal 404 in hardware (309). The MPU receives this interrupt signal and activates the interrupt processing routine 133.
When the interrupt processing routine 133 is started, first, the non-maskable interrupt signal is invalidated, that is, when an unmaskable interrupt signal is generated again, it is set to be ignored (310).
The interrupt processing routine 133 instructs the operation stop of the components in the own computer that may affect the partner computer 101 after starting (311). In the case of the configuration of this embodiment, the SCSI board 114 and the Ethernet board 116 correspond to such components, and the operation is stopped by setting a bit instructing the operation stop in the register in each board. As a result, when the partner computer 101 accesses the shared disk 102 or the network 103, it is not affected by the failure computer 100. Depending on the type of component, the operation stop may be instructed by clearing the operable bit in the register.
Next, the interrupt processing routine 133 sets the LXP board 115 so as to ignore subsequent instruction messages from other computers (312), and executes failure information storage (313). After the failure information is saved, the interrupt processing routine 133 is stopped (314), and the computer 100 in which the failure has occurred is stopped.
In the failure information saving process 313, the contents of the main memory 111, the contents of each register representing the operation state of the computer main body and each function expansion board, and the like are saved. In addition to the failure information, processing that can be executed under conditions after the occurrence of the failure may be executed in normal shutdown processing. For example, if the cache contents are written to the disk device 113, the consistency of the disk contents of the failed computer is maintained, and the possibility that the contents can be rescued increases.
The management program 131 of the standby computer 101 requests the LXP board 115 to send an operation stop instruction after a certain time 452 after sending the forced interrupt instruction (307), and at this point of time. Then, the application 135 loaded in the standby system computer 101 is activated to take over the processing of the active system computer 100 (318), and the own computer is set as a new active system. This completes the system switchover.
In response to the operation stop instruction transmission request from the management program 131, the LXP board 115 transmits an operation stop instruction message 405 (316). However, since the failure processing computer 100 is set to ignore the instruction message for the LXP board by the interrupt processing routine 133 (312), the operation stop instruction message 405 is ignored and the failure information is collected (313). ) Will be continued.
In the operation stop processing 311 of the component in the fault occurrence computer, if each component is provided with an operation status confirmation means such as an operation status display register, a procedure for confirming the operation stop by the operation stop processing 311 is added. Also good. If it is determined in this confirmation of operation stop that the operation stop instruction has failed, the interrupt processing routine 133 stops the processing. As a result, processing for ignoring the instruction message from the other computer is not performed, and the computer 100 is forcibly stopped by the LXP board that has received the operation stop instruction message 405 from the LXP board of the standby computer, and the standby computer 101. Will take over the processing without being affected by the failure occurrence computer 100.
Also, if it is determined at the beginning of the failure information saving process 313 that there is no preparation for saving the failure information, such as a disk device error, the interrupt processing routine 133 cancels the message ignore setting of the LXP board. (319) The failure information saving process may be stopped. Also in this case, upon receiving the operation stop instruction message 405 from the standby computer, the faulty computer 100 is forced to stop.
As a second failure mode, a failure that is generally called kernel panic and that the OS has detected a serious logical contradiction and determined that continuous operation is impossible will be described. FIG. 3 shows a time chart of processing in this case.
When the OS detects a logical contradiction, the OS activates an interrupt processing routine 133 (331). As in the case described with reference to FIG. 2, the interrupt processing routine instructs to stop the operation of the components in its own computer (311), and then sends an instruction message from another computer to the LXP board 115. It is set to be ignored (312), and then the failure information is stored (313) and stopped (314).
When a failure occurs in the OS and execution proceeds to the interrupt processing routine, the management program 131 on the active computer 100 does not operate, so that the survival notification messages 401 and 402 are not transmitted to the standby computer. As described above, the management program 131 on the standby computer 101 detects that both the survival notification messages 401 and 402 are not received (306), and transmits a forced interrupt instruction message 403 and a computer operation stop instruction message 405 ( 308, 316).
When the forced interrupt instruction message 403 is received, the interrupt processing routine 133 has already started and the message ignore setting has been set for the LXP board (312), so the forced interrupt instruction message 403 is ignored ( 332), the failure information collection 313 is continued. The operation stop instruction message 405 received subsequently is similarly ignored (333).
Although the OS calls the interrupt processing routine 133 here, the interrupt processing routine 133 may be activated by generating a non-maskable interrupt signal. Depending on the type of OS, the OS itself stores fault information (memory dump), but if a function is provided to call a process registered before the execution, the fault processing routine 133 starts the fault. By registering the process excluding information storage (313), an equivalent process can be realized.
As a third failure mode, a hardware failure will be described. What is described here is that the influence of the failure does not appear as the two failure modes described above, but the processing that is the original use of the multiplex system cannot be continued, and is detected by some detection method It is. FIG. 4 shows a time chart of processing in this case.
Detection of the occurrence of such a failure includes detection by the management program 131, detection by a dedicated failure detection subprogram 134, detection of an abnormality in the application 135, and the like. Of these, if a failure is detected by a program other than the management program, the management program 131 is notified of the occurrence of the failure (341, 342). The management program 131 activates the interrupt processing routine 133 in response to failure detection by itself or a failure notification from the failure detection subprogram 134 or the application 135 (343). The interrupt processing routine 133 executes the same processing procedure as that when detecting the OS logical contradiction described with reference to FIG.
Note that when the occurrence of a failure is monitored by a hardware mechanism, the hardware notifies the abnormality detection result to the management program 131 and the failure detection subprogram 134 using an interrupt, or the management program and the failure detection The subprogram side periodically polls the hardware to check whether there is an abnormality detected and performs the same processing.
In some cases, the interrupt processing routine 133 cannot be activated due to the destruction of the memory contents or hardware malfunction. In this case, the failure-occurring computer 100 is in a severely uncontrollable state, and may operate unpredictably and affect the operation of the standby computer 101.
In this case, the setting (312) for ignoring the instruction message from the other computer is not performed on the LXP board 115 of the faulty computer. Therefore, the LXP board 115 that has received the operation stop instruction message 405 from the standby computer forcibly puts the computer 100 into the stop state. Accordingly, since the failure taking computer 100 is brought into a state that does not affect the operation of the standby computer 101 without fail, the process is taken over, so that the system can be switched reliably.
As shown in FIG. 3, the time 451 until it is determined that a failure has not occurred since the existence notification message has not been received, the interruption processing routine 133 is called by software and the setting for the LXP board ( 312) is set to be slightly longer than the time until completion. In addition, as shown in FIG. 2, the interval 452 between the forced interrupt instruction message transmission and the computer operation stop instruction message transmission is set such that the interrupt processing routine 133 of the active computer 100 by the forced interrupt instruction (307) is started and the LXP It is set a little longer than the time until the setting (312) for the board is completed.
The system switching time, that is, the time until the completion of the process takeover is approximately the sum of time 451 and time 452. This system switching time is sufficiently shorter than the time required for storing the fault information 313 such as a memory dump, and both storage of the fault information and shortening of the system switching time are achieved.
In the above description, the processing when a failure occurs in the active computer 100 has been described. However, even when a failure occurs in the standby computer 101, there is no switching between the active system and the standby system by taking over the processing. Except for this, the same processing is performed.
In this embodiment, each computer is provided with the LXP board 115 and the Ethernet board 116. However, each computer is provided with two Ethernet boards 116, and is a multiple system configured to duplicate the Ethernet network 103 and communicate the survival monitoring message. Also in the system, the system can be switched by the same method. In such a system, a failure information storage 313 in the failure occurrence computer 100 and a process takeover 318 to the standby computer 101 with respect to failure modes such as OS logical contradiction detection or partial hardware failure detection. Switching operation is possible. However, since the forced interrupt instruction 403 cannot be sent, the failure information cannot be stored in the failure mode in the hang-up state. Further, since the operation stop instruction message 405 cannot be sent, there is a possibility that the abnormal operation of the failure computer 100 may affect the standby computer 101 depending on the degree of failure.
Details of each part will be described below.
First, the LXP board 115 will be described. FIG. 5 shows the internal configuration of the LXP board 115.
As shown in the figure, the LXP board 115 includes an expansion bus interface 170 in charge of input / output to / from the expansion bus 121, a linkage control processor 171 that performs message processing via the linkage bus 104, and a program executed by the linkage control processor 171. A memory 175 for storing messages, a transmission path interface 172 for converting messages and electrical signals on the linkage bus, a message storage memory 173 which is a buffer for temporarily storing messages, and a power supply voltage detection circuit 174 for detecting rising of the power supply voltage , An operation control register 176 is provided for confirming the operation state of the linkage control processor 171 and instructing the operation method from the expansion bus side.
Since the operation control register 176 can read and write from the expansion bus 121, it is possible to confirm the operation state and to instruct an operation method from software operating on the computer on which the LXP board 115 is mounted. The operation control register 176 includes a forced interrupt instruction prohibition bit 1761, an operation stop instruction prohibition bit 1762, and a restart instruction prohibition bit 1863 which will be described later.
The initialization operation of the LXP board will be described. The LXP board operates independently of the connected computer and needs to handle the reset signal itself of the computer. For this reason, the initialization process of the LXP board is performed only when the power to the LXP board is turned on, independently of the reset process of the computer. For this reason, the power supply voltage detection circuit 174 that monitors the power supply voltage supplied via the expansion bus 121 detects the rise of the power supply voltage and initializes each component in the LXP board to initialize. Is output. The expansion bus interface 170, the linkage control processor 171, and the transmission path interface 172 receive the initialization signal 184 and perform initialization processing such as memory clear, various state information clear, register clear, and linkage bus reset. Execute.
Next, the message transmission function will be described. The management program 131 sends a message transmission request to the expansion bus interface 170 via the expansion bus 121. Since the data transfer speeds of the expansion bus 121 and the linkage bus 104 are different, the expansion bus interface 170 temporarily stores the message to be transmitted in the message storage memory 173 as a speed buffer, and sends the message to the linkage control processor 171. Notify of arrival. Upon receiving this notification, the linkage control processor 171 retrieves the message from the message storage memory 173, transfers it to the transmission path interface 172, and transmits the message to the LXP board of another computer via the linkage bus 104.
Finally, the message reception processing function will be described. When an instruction message arrives from the LXP board of another computer via the linkage bus 104, one of the following processes is performed according to the type of the message.
(1) When the message is a forced interrupt instruction, a non-maskable interrupt signal is output to the connected own computer through the non-maskable interrupt signal line 182, and the processing by the MPU 110 is interrupted. Switch to 133. However, when the forced interrupt instruction prohibition bit 1761 of the register 176 is set, this process is not performed and the instruction message is ignored.
(2) When the message is an operation stop instruction, the reset signal is continuously output to the connected own computer through the reset signal line 183, thereby forcibly stopping the computer. However, when the operation stop instruction prohibition bit 1762 of the register 176 is set, this processing is not performed and the message is ignored.
(3) When the message is a restart instruction, a reset signal is output once to the connected own computer through the reset signal line 183, thereby restarting the computer. However, when the restart instruction prohibition bit 1863 of the register 176 is set, this processing is not performed and the message is ignored.
(4) In the case of a message other than those described above, the message content is stored in the message storage memory 173. The stored message is thereafter read out as needed via the expansion bus interface 170 and the expansion bus 121 in response to a request from the management program 131.
FIG. 6 shows the processing procedure of the expansion bus interface 170.
When the expansion bus interface 170 receives an input / output request signal from the computer (expansion bus) and an initialization signal from the initialization signal line 184, the expansion bus interface 170 exits from the request wait state 501 and starts processing, and processing starts from the received signal. The type of request is determined (502).
If the processing request is an initialization signal, an internal register or circuit initialization process (503) is performed.
When the processing request is a read signal from the expansion bus 121, the content of the register 176 is read if the target of the read request is a register (505), and the content of the message storage memory 173 is read if the target of the read request is a message. (507) The read result is sent to the expansion bus 121 (506, 508).
When the processing request is a write signal from the expansion bus 121, if the target of the write request is a register, the write content is written to the register 176 (510). On the other hand, if the target of the write request is a transmission message, the transmission message is temporarily stored in the message storage memory 173 (511) and transmitted to the linkage control processor 171 (512).
FIG. 7 shows the processing procedure of the linkage control processor 171.
The control processor 171 exits from the event wait state 521 and processes according to any one of an activation request from the expansion bus interface 170, a message reception from the transmission path interface 172, and an initialization signal from the initialization signal line 184. And the type of the event is determined (522).
If the generated event is an initialization signal, the communication process is initialized, all messages stored in the message storage memory 173 are discarded, and the register 176 is set to the initial state (523).
On the other hand, if the generated event is an activation request from the expansion bus interface 170, that is, a message transmission request, the message to be transmitted is read from the message storage memory 173 (524), and the message is sent to the transmission path interface 172. Transmit (525).
When the event that has occurred is a message reception event from the transmission path interface 172, it indicates the arrival of an instruction message from another LXP board. In this case, the type of the received instruction message is determined (526), and processing corresponding to each is performed.
If the message is one of a forced interrupt instruction, an operation stop instruction, and a restart instruction, confirm that the corresponding prohibit bits (1761, 1762, 1863) in the register 176 are cleared as described above. (527, 529, 531), the signals as described above are output (528, 530, 532).
In the case of a message other than the above, the received instruction message is stored in the message storage memory 173 (533).
Next, the management program 131 will be described.
The management program 131 performs the following three processes.
(1) In order to notify other computers that the own computer is operating normally, a survival notification message is periodically transmitted.
(2) Monitor the survival notification message sent from another computer, and if it is not received for a certain period of time, it is determined that a failure has occurred in the source computer, and a forced interrupt instruction message and operation stop for the other computer Send an instruction message. Further, if the fault occurrence computer is an active computer, the processing executed by the computer is taken over and the own computer is set as a new active computer.
(3) Recognize that a failure has occurred in the local computer by a call from another program, and activate an interrupt processing routine 133 such as failure information collection.
Note that the management program 131 may have a function of detecting the occurrence of a failure in the own computer. In this case, when a failure is detected, an interrupt processing routine is started in the same manner as (3).
FIG. 8 shows a process flow of the survival notification message transmission process (1).
As shown in the figure, in this process, a survival notification is periodically sent to other computers. That is, the management communication program 132 and the LXP board 115 are requested to send a survival notification message (301), and the process of shifting to a waiting state for a predetermined time (541) is repeated.
FIG. 9 shows a processing flow of the monitoring of the survival notification message (2) and the processing at the time of occurrence of another system failure.
As shown in the figure, the reception status of the survival message from the other computer is periodically checked, and if it cannot be received for a predetermined time or longer, the processing at the time of occurrence of another system failure is executed.
In order to determine the waiting time 451 for determining the failure of the other system, variables “notification 1 wait count” and “notification 2 wait count” are set. The initial values of these variables are N times, and the waiting time t in the process 563 is w Product with N × t w "Becomes the waiting time 451 for determining that the fault is in the other system. First, N times are set for initialization of these variables (551, 552).
Next, since the contents of the received message are stored in the management communication program 132, the management communication program 132 is inquired as to whether or not the existence notification message 401 has been received (553). If it has been received, the “notification 1 wait count” is set to N times and initialized again (554), and the management communication program 132 is instructed to clear the stored survival notification message (555). On the other hand, if the survival notification message has not been received, the value of “number of times waiting for notification 1” is decreased by one. However, if the value of “the number of times of waiting for notification 1” becomes negative, 0 is set (556).
Similarly, since the LXP board 115 stores the contents of the received message, it inquires whether or not the existence notification message 402 has been received (557). If it has been received, “Notification 2 wait count” is reset to N times (558), and an instruction to clear the survival notification message stored in the LXP board 115 is given (559). If the existence notification message has not been received, the value of “number of times waiting for notification 2” is decreased by one. However, when the value of “number of times to wait for notification 2” becomes negative, 0 is set (560).
Here, the values of “number of times waiting for notification 1” and “number of times waiting for notification 2” are examined (561).
When both variables are 0, “N × t w Since the survival notification messages 401 and 402 are not received during the waiting time 451 represented by "", it is determined that a failure has occurred in the other computer. First, the LXP board 115 is requested to send a forced interrupt instruction message 403 (307), then waits for a predetermined time 452 (564), and then the computer operation stop instruction message 405 is sent to the LXP board 115. Request transmission (315). Further, when the setting of the own computer is a standby computer, the processing contents of the active computer are taken over (318), and system switching is executed. After these processes are executed, the failure notification computer of the other system is always in the stopped state, so the monitoring process for the survival notification message is stopped (566). If the faulty computer is replaced or the cause of the fault is removed and the computer is returned to the redundant system as a standby computer, this processing is started again (550). The start may be a manual operation by the operator, or after the monitoring process is stopped (556), another process is started to continue monitoring the survival monitoring message, and the monitoring process is resumed when the survival monitoring message is detected (550). The method may be used.
If only one of “Notification 1 wait count” and “Notification 2 wait count” is 0 in process 561, it is determined that a failure has occurred in the message transmission path and the connection circuit to the transmission path. Is issued in the form of screen display or log recording (562).
Except when both the “notification 1 wait count” and “notification 2 wait count” variables are 0 in the process 561, a predetermined time t w Only wait (563) and return to processing 553.
FIG. 10 shows a processing flow of the management program 133 when a failure occurs in the computer (3).
This process is activated by a call from the failure detection subprogram 134 or the application 135 (570), and simply activates the interrupt processing routine 133 (343). The interrupt processing routine 133 does not return processing to the caller.
Next, the interrupt processing routine 133 will be described.
The interrupt processing routine 133 is started from software on the own computer when a failure occurs, or is started from the LXP board 115 upon receiving a forced interrupt instruction message from another computer, and storage of the failure information and related to this Perform the process.
FIG. 11 shows a processing flow of the interrupt processing routine 133.
The interrupt processing routine 133 first disables the non-maskable interrupt signal at the time of activation (310). This is realized by preparing a dummy interrupt processing routine that returns without performing any processing, and registers this in the MPU as a processing routine for a non-maskable interrupt. As a result, even if a non-maskable interrupt signal is generated again during the processing of the interrupt processing routine 133, the processing moves to the dummy routine and immediately returns to interrupt, so the non-maskable interrupt is ignored. The interrupt processing routine 133 can be continued.
Next, an instruction to stop the operation of a component that may affect a part of the own computer, in particular, a computer of another system is given (311). Then, the status is inquired with respect to each component instructed to stop the operation, and it is confirmed whether or not all the components have really stopped operating (581). If there is an unsuccessful operation stop, the interrupt process is terminated (590). If all the components that have been instructed to stop operation are stopped, the LXP board 115 is set to ignore subsequent instruction messages from other computers (312).
Subsequently, it is checked whether or not the failure information can be saved (582). If it is judged that the failure information cannot be saved, the instruction message from the other computer is ignored for the LXP board 115 (319), and the interrupt is interrupted. The process is terminated (590). If it is determined that the storage is possible, the actual failure information is stored (313). After completion of saving the failure information, the interrupt processing routine 133 is stopped (314), and the own computer is stopped. Note that after the failure information has been saved, the LXP board 115 on the own computer may be instructed to continue the reset signal to stop the operation of the computer completely.
When stopped due to interruption of interrupt processing (590), the own computer enters a stopped state, but the LXP board 115 continuously generates a reset signal in response to an operation stop instruction message sent from another computer. Even if the operation stops.
As described above, according to the present invention, in a multiplex system, it is possible to realize high-speed system switching while saving large-capacity fault information including a memory dump when a fault occurs.
Further, according to the present invention, the hardware and software runaway in the faulty system and the fault information saving operation in the faulty system have an effect on the system switching operation and the operation of the new operating system that has taken over the processing after switching. It is possible not to give.
Industrial applicability
As described above, the present invention is effective for a multiplex system for applications requiring high reliability, and is a standby system that takes over the processing performed by the active computer when a failure occurs in the active computer. In a multi-system with a computer, if a failure occurs in one of the computers, it is possible to analyze the failure after the fact, which can be used to implement recovery measures and recurrence prevention measures, etc., and helps improve system reliability. .
[Brief description of the drawings]
FIG. 1 is a block diagram showing the configuration of a dual system, and FIG. 2 is a time chart showing the order of system switching processing and the relationship between the processes in this dual system.
FIG. 3 is a time chart of the system switching process based on OS logical contradiction detection, and FIG. 4 is a time chart of the system switching process based on hardware failure detection.
FIG. 5 is a block diagram showing the configuration of the LXP board mounted on the computer, FIG. 6 is a flowchart showing the processing procedure of the expansion bus interface mounted on the LXP board, and FIG. 7 shows the LXP board. It is a flowchart which shows the process sequence of the processor for linkage control mounted.
FIG. 8 is a flowchart showing the processing procedure of the survival notification message transmission process of the management program, and FIG. 9 is a flowchart showing the processing procedure of the monitoring of the survival notification message of the management program and the processing when another system failure occurs. FIG. 10 is a flowchart showing a processing procedure for processing when a failure occurs in the own computer of the management program.
FIG. 11 is a flowchart showing the processing procedure of the interrupt processing routine.

Claims (2)

複数の計算機で構成され、稼働系に設定された計算機の障害発生時に、当該計算機が行っている処理を、待機系に設定された計算機が引き継ぐ多重系システムにおいて、
前記障害発生時に、
前記障害の発生した計算機で動作しているソフトウェアが前記障害を検出して障害情報の保存を実施し、または待機系の計算機が前記障害を検出して前記障害の発生した計算機に対して障害情報の保存を指示し、
かつ前記待機系の計算機は前記障害を認識した後に、前記障害の発生した計算機における障害情報の保存終了を待つことなく、自発的に処理の引き継ぎを実施するものであって、
前記各計算機が、当該計算機上のソフトウェアとは独立に動作する、相互に伝送路を介して接続された機能拡張ボードを各々搭載し、
前記各機能拡張ボードは、他の計算機に搭載された機能拡張ボードから伝送路を介して受け取るメッセージの内容に従い、当該機能拡張ボードの搭載された計算機に対して割込を発生する機能と当該機能拡張ボードの搭載された計算機の動作を停止する機能を持ち、かつ当該機能拡張ボードの搭載された計算機上で動作するソフトウェアから前記メッセージに対する前記各機能の抑止を指示する機能を持ち、
他計算機での障害発生を認識した時に、前記障害を認識した計算機に搭載された機能拡張ボードから、前記障害の発生した計算機に搭載された機能拡張ボードに対して、割込発生を指示するメッセージを送信し、さらにその一定時間後に計算機の停止を指示するメッセージを送信し、
前記障害の発生した計算機に搭載された機能拡張ボードが前記割込指示メッセージに対して発生する割込に対する割込処理において、障害情報の保存を実行し、かつ前記機能拡張ボードに対して、前記割込発生機能と前記計算機動作停止機能の抑止を指示し、後から送信される計算機の停止を指示するメッセージを無視して障害情報の保存を継続することを特徴とした多重系システムの系切り替え方法。
In a multi-system where multiple computers are configured and the computer set as the active system takes over the processing performed by the computer set as the standby system when a failure occurs in the computer set as the active system.
When the failure occurs,
The software operating on the failed computer detects the failure and saves the failure information, or the standby computer detects the failure and detects the failure information for the failed computer. To save
And the standby computer, after recognizing the failure, spontaneously takes over the processing without waiting for the end of the storage of the failure information in the failed computer ,
Each of the computers is equipped with a function expansion board that operates independently from the software on the computer and is connected to each other via a transmission path.
Each function expansion board has a function for generating an interrupt to the computer on which the function expansion board is mounted and the function according to the content of the message received from the function expansion board mounted on another computer via the transmission path. It has a function to stop the operation of the computer on which the expansion board is mounted, and has a function to instruct the suppression of each function for the message from the software operating on the computer on which the function expansion board is mounted,
A message for instructing the occurrence of an interrupt from the function expansion board installed in the computer that has recognized the fault to the function expansion board installed in the faulty computer when the occurrence of the fault in another computer is recognized And then send a message to stop the computer after a certain period of time,
In the interrupt processing for the interrupt generated by the function expansion board mounted on the failed computer in response to the interrupt instruction message, the fault information is stored, and the function expansion board instructing suppression of the computer operation stop function and interrupt generation function, the system of multiplex systems which is characterized in that to continue saving the ignored by fault information a message instructing the stop of the machine to be sent later Switching method.
障害発生時に、該障害発生計算機のソフトウェアにより自発的に障害情報保存を実行し、かつ前記機能拡張ボードに対して、前記割込発生機能と前記計算機動作停止機能の抑止を指示し、後から送信される割込発生指示と計算機停止指示のメッセージを無視して障害情報の保存を継続することを特徴とした請求の範囲第項記載の多重系システムの系切り替え方法。In the event of a failure, the failure information software voluntarily saves the failure information, and instructs the function expansion board to inhibit the interrupt generation function and the computer operation stop function, and send them later. 2. The system switching method for a multi-system according to claim 1, wherein the storage of the fault information is continued by ignoring the interrupt generation instruction and computer stop instruction messages.
JP2000521438A 1997-11-14 1997-11-14 System switching method for multi-system Expired - Lifetime JP3806600B2 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP1997/004160 WO1999026138A1 (en) 1997-11-14 1997-11-14 Method of changing over a multiplex system

Publications (1)

Publication Number Publication Date
JP3806600B2 true JP3806600B2 (en) 2006-08-09

Family

ID=14181475

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000521438A Expired - Lifetime JP3806600B2 (en) 1997-11-14 1997-11-14 System switching method for multi-system

Country Status (2)

Country Link
JP (1) JP3806600B2 (en)
WO (1) WO1999026138A1 (en)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001101033A (en) * 1999-09-27 2001-04-13 Hitachi Ltd Fault monitoring method for operating system and application program
JP2004246621A (en) * 2003-02-13 2004-09-02 Fujitsu Ltd Information collecting program, information collecting device, and information collecting method
JP4294568B2 (en) 2004-10-04 2009-07-15 富士通株式会社 Disk array device and control method thereof
JP4885735B2 (en) 2004-11-29 2012-02-29 富士通株式会社 Management program, management method and management apparatus
JP4494263B2 (en) * 2005-03-25 2010-06-30 富士通株式会社 Service system redundancy method
JP4487260B2 (en) * 2005-08-26 2010-06-23 株式会社日立製作所 Multiplex system
JP4630234B2 (en) * 2006-06-15 2011-02-09 株式会社日立製作所 Dual system
JP2008234196A (en) * 2007-03-19 2008-10-02 Toshiba Corp Multiplexing system and redundant system
JP5061739B2 (en) * 2007-06-12 2012-10-31 日本電気株式会社 Data processing device, redundant device, failure time system switching method and failure time system switching program
JP2010055509A (en) * 2008-08-29 2010-03-11 Oki Electric Ind Co Ltd System, method, and program for fault recovery, and cluster system
JP5342699B2 (en) * 2010-11-08 2013-11-13 三菱電機株式会社 Virtual computer control device, virtual computer control system, virtual computer control method for virtual computer control device, and virtual computer control program
JP2013239110A (en) * 2012-05-17 2013-11-28 Nec Corp Controller, control system, control method, and program

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62190543A (en) * 1986-02-18 1987-08-20 Fujitsu Ltd Control system for quick restoration from trouble of communication system
JPS6476230A (en) * 1987-09-18 1989-03-22 Nec Corp Fault information dumping system in duplexed constitution multi-processor
JPH03184128A (en) * 1989-12-13 1991-08-12 Yokogawa Electric Corp Duplex computer system
JPH0335339A (en) * 1989-06-30 1991-02-15 Toshiba Corp Settlement processing system for occurrence of os fault
JP3047275B2 (en) * 1993-06-11 2000-05-29 株式会社日立製作所 Backup switching control method
JP3025732B2 (en) * 1993-07-16 2000-03-27 株式会社ピーエフユー Control method of multiplex computer system

Also Published As

Publication number Publication date
WO1999026138A1 (en) 1999-05-27

Similar Documents

Publication Publication Date Title
US6148415A (en) Backup switching control system and method
US4823256A (en) Reconfigurable dual processor system
JP3806600B2 (en) System switching method for multi-system
US5058056A (en) Workstation takeover control
JPH03164837A (en) Spare switching system for communication control processor
US6038681A (en) Multi-array disk apparatus
JP3420919B2 (en) Information processing device
JP2956849B2 (en) Data processing system
JP2000020336A (en) Duplex communication system
JPH06325008A (en) Computer system provided with reset function
JPH06197112A (en) Management system
JP2998804B2 (en) Multi-microprocessor system
JP2000349900A (en) Fault processing system for exchange
JP2002182994A (en) Information processing system and transfer control method using it
JPH04360242A (en) Device and method for switching systems in duplexed system
JP3411309B2 (en) Multicast communication system
JPH04305758A (en) Information processor
JPS634210B2 (en)
JPS59123946A (en) System control system
JPH09311841A (en) Multiprocessor system
JPH11184814A (en) Terminal switch device
JPH1196034A (en) Active/reserve switching device and method therefor
JPS6375843A (en) Abnormality monitor system
JPH0535517A (en) Switching device for duplexing system
JP2000222295A (en) Data transfer control system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040311

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060320

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060509

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060515

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100519

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110519

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110519

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120519

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120519

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130519

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130519

Year of fee payment: 7

EXPY Cancellation because of completion of term