JP2005157462A - System switching method and information processing system - Google Patents
System switching method and information processing system Download PDFInfo
- Publication number
- JP2005157462A JP2005157462A JP2003390970A JP2003390970A JP2005157462A JP 2005157462 A JP2005157462 A JP 2005157462A JP 2003390970 A JP2003390970 A JP 2003390970A JP 2003390970 A JP2003390970 A JP 2003390970A JP 2005157462 A JP2005157462 A JP 2005157462A
- Authority
- JP
- Japan
- Prior art keywords
- program
- failure
- recovery
- system switching
- switching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Hardware Redundancy (AREA)
- Multi Processors (AREA)
Abstract
Description
本発明は、現用系装置と待機系装置で構成される情報処理システムにおける系切り替え方法及び情報処理システムに係り、特に、現用系装置にソフトウェア障害が発生した場合に用いて好適な系切り替え方法及び情報処理システムに関する。 The present invention relates to a system switching method and an information processing system in an information processing system composed of an active system device and a standby system device, and more particularly to a system switching method suitable for use when a software failure occurs in an active system device and The present invention relates to an information processing system.
一般に、系切り替えを行う情報処理システムは、同一の機能またはサービスを提供する装置を2系統用意し、メインで稼働する系を現用系装置、もう一方の系を待機系装置として、現用系装置と待機系装置との間で通信し合うことによりお互いの装置を認識するように構成される。そして、このような情報処理システムは、現用系装置に障害が発生すると、現用系装置が障害情報を待機系装置に送信し、それを受信した待機系装置が、現用系装置となってシステムとしての稼働を開始する一方で、障害が発生した現用系装置が、待機系装置となるように制御されることにより、サービス停止を防止している。 In general, an information processing system that performs system switching has two systems that provide the same function or service, the active system is the active system, and the other system is the standby system. It is configured to recognize each other device by communicating with the standby system device. In such an information processing system, when a failure occurs in the active device, the active device transmits failure information to the standby device, and the standby device that receives the failure information becomes the active device as a system. On the other hand, the active system device in which the failure has occurred is controlled to become the standby system device, thereby preventing the service from being stopped.
なお、系切り替えを行う情報処理システムに関する従来技術として、例えば、特許文献1、特許文献2等に記載された技術が知られている。
系切り替えを行う情報処理システムにおいて、現用系装置と待機系装置とが切り替わる原因として、ハードウェアによる障害とソフトウェアを構成するプログラムによる障害とがある。前述した従来技術は、現用系装置と待機系装置とが同一の機能またはサービスを提供するために、同一のバージョンのプログラムを装置に導入しておかなくてはならない。そして、同一のバージョンのプログラムが両装置に導入された情報処理システムは、現用系装置でのプログラム障害の原因が、ユーザのデータ等のサービス要求側にある場合、プログラムを再起動する等の対処を行うことにより解決できるが、プログラムそのものに問題が存在していた場合、待機系装置が現用系装置として切り替わった後も、現用系装置で発生した障害と同一の原因によるソフトウェア障害が切り替え先でも発生することになり、切り替えに失敗となり、要因が特定されるまでサービスの提供を停止せざるを得ないという問題点を有している。 In an information processing system that performs system switching, the cause of switching between the active system device and the standby system device is a hardware failure and a software program failure. In the conventional technology described above, the same version of the program must be installed in the apparatus so that the active apparatus and the standby apparatus provide the same function or service. An information processing system in which the same version of the program is installed on both devices has a countermeasure such as restarting the program when the cause of the program failure in the active device is on the service request side such as user data. However, if a problem exists in the program itself, the software failure caused by the same cause as the failure that occurred in the active device can be changed even after the standby device is switched as the active device. As a result, there is a problem in that switching fails and service provision must be stopped until the cause is specified.
本発明の目的は、前述した従来技術の問題点を解決し、情報処理システムにおいて、障害の原因がプログラム障害で切り替えに失敗した際にも、サービスの停止期間をできるだけ短くすることができるようにした系切り替え方法及び情報処理システムを提供することにある。 An object of the present invention is to solve the above-described problems of the prior art, and in an information processing system, even when the cause of a failure is a program failure and switching fails, the service stop period can be shortened as much as possible. Another object is to provide a system switching method and an information processing system.
本発明によれば前記目的は、現用系装置としての第1装置と待機系装置としての第2装置とにより構成され、前記第1装置の障害時に、第2装置へその運用を切り替える情報処理システムにおける系切り替え方法において、前記第1装置が、プログラム障害による障害の発生時、第2装置にその運用を切り替える系切り替えを行い、プログラムを回復する装置に障害となったプログラムの回復を行わせ、前記系切り替えの後、前記第2装置が第1装置と同様な障害を発生して系切り替えに失敗したとき、第2装置が、プログラムを回復する装置にその運用を切り替える系切り替えを行うことにより達成される。 According to the present invention, the object is configured by a first device as an active device and a second device as a standby device, and an information processing system that switches operation to the second device when the first device fails. In the system switching method in the above, when the failure due to a program failure occurs, the first device performs system switching to switch its operation to the second device, and causes the device that recovers the program to recover the failed program, After the system switchover, when the second device generates a failure similar to that of the first device and fails in the system switchover, the second device performs the system switchover that switches the operation to the device that recovers the program. Achieved.
また、前記目的は、現用系装置としての第1装置と待機系装置としての第2装置とにより構成され、前記第1装置の障害時に、第2装置へその運用を切り替える情報処理システムにおいて、前記第1及び第2装置が、障害が発生したプログラムを回復する回復先の状態を保持し、障害発生時に系切り替えを実施する手段を持つ系切り替え機能部と、障害情報及び回復すべきプログラムを対応付けた障害別回復テーブルを備え、プログラムとその回復処理及び稼働実績とを対応付けた回復処理管理データベースにアクセスし、プログラムを回復する装置に回復命令を出し、回復命令を受けてプログラムや定義を稼働環境に設定する機能を備えたプログラム回復機能を備えることにより達成される。 In addition, in the information processing system, the object is configured by a first device as an active device and a second device as a standby device, and the operation is switched to a second device when the first device fails. The first and second devices correspond to the system switching function unit having means for performing system switching when a failure occurs, holding the recovery destination state for recovering the failed program, and the failure information and the program to be recovered. Access to the recovery management database that associates the program with its recovery processing and operation results, issues a recovery command to the device that recovers the program, and receives the recovery command to define the program and definition This is achieved by providing a program recovery function having a function for setting the operating environment.
本発明によれば、プログラム障害が原因で系切り替えに失敗した際にも、確実に稼働するプログラムまたは環境を指定した回復先の装置へ展開して、回復先の装置をホットスタンバイ状態とすることができるため、回復先の装置へ系を切り替えることによりサービスの停止期間を短くすることができる。 According to the present invention, even when system switching fails due to a program failure, a program or environment that operates reliably is deployed to a specified recovery destination device, and the recovery destination device is placed in a hot standby state. Therefore, the service suspension period can be shortened by switching the system to the recovery destination apparatus.
以下、本発明による系切り替え方法及び情報処理システムの実施形態を図面により詳細に説明する。 Embodiments of a system switching method and an information processing system according to the present invention will be described below in detail with reference to the drawings.
図1は本発明の一実施形態による情報処理システムの構成を示すブロック図である。図1において、1は通信経路、11、21、31は切り替え機能部、12、22、32はプログラム回復機能部、13、23、33は稼働環境部、14、24、34は回復先状態保持部、15、25、35は障害別回復テーブル、110は第1装置、120は第2装置、130は第3装置、200はリモートマシン、210は回復資源管理データベース、220は回復処理管理データベースである。 FIG. 1 is a block diagram showing a configuration of an information processing system according to an embodiment of the present invention. In FIG. 1, 1 is a communication path, 11, 21, and 31 are switching function units, 12, 22, and 32 are program recovery function units, 13, 23, and 33 are operating environment units, and 14, 24, and 34 are recovery destination state holdings. 15, 25, 35 are failure recovery tables, 110 is a first device, 120 is a second device, 130 is a third device, 200 is a remote machine, 210 is a recovery resource management database, and 220 is a recovery process management database. is there.
本発明の一実施形態による情報処理システムは、いずれも計算機により構成される第1装置110、第2装置120、第3装置130、及び、リモートマシン200が通信経路1で接続されて構成される。図示実施形態のシステムは、第1装置110を現用系装置とし、第2装置120をホットスタンバイ状態の待機系装置とし、第3装置130をプログラムを回復する系の装置としている。また、第3装置130は、プログラム回復専用としているため、コールドスタンバイ状態(他の処理を実行している状態)となっている。リモートマシン200は、プログラムを保守する専用の装置であり、回復処理管理データベース220及び回復資源管理データベース210が作成されて保持している。
An information processing system according to an embodiment of the present invention is configured by connecting a
そして、第1装置110及び第2装置120は、プログラムを回復する装置の情報と障害情報とを送受信する機能と、稼働環境部13、23上のプログラム障害を検知する機能と、プログラムを回復させる装置が切り替え可能か否かの状態を保持する回復先状態保持部14、24とを有する切り替え機能部11、21を備えている。この切り替え機能部11、22の機能により、例えば、第1装置110の稼働環境部13でプログラム障害が発生すると、第1装置110で行っていた処理を第2装置120の稼働環境部23へ切り替えることができる。また、第1装置110及び第2装置120は、障害情報と回復すべきプログラムとが対応付けられて格納した障害回復テーブル15、25を有し、このテーブル内の情報を用いて障害が発生したプログラムを回復するプログラム回復機能部12、22を備えている。このプログラム回復機能部12、22は、プログラムを回復する装置である第3装置130へデータ転送ライン42を介して回復命令を通知する。プログラム回復機能部12、22には、プログラムを回復する装置の情報が設定されている。
The
プログラムを回復する装置である第3装置130は、後述する処理動作で説明するように、プログラム障害を生じた第1装置110あるいは第2装置120の処理の代行をも行うため、第1装置、第2装置と同様に、回復先状態保持部34を有する切り替え機能部31、障害別回復テーブル35を有するプログラム回復機能部32及び稼働環境部33を備えて構成される。
As will be described later in the processing operation, the
前述のプログラムを回復する装置である第3装置130は、本発明の実施形態において、必ずしも存在させる必要はなく、本発明は、第3装置130を設けずに構成することができる。この場合、後述する処理動作で説明するように、現用系装置としての第1装置110にプログラム障害が発生して、第1装置110が行っていた処理を待機系装置としての第2装置120に移行させた後、第1装置110がプログラムを回復する装置として動作させるようにする。
In the embodiment of the present invention, the
なお、図には示していないが計算機により構成される第1装置110、第2装置120、第3装置130、及び、リモートマシン200は、それぞれの装置全体の制御を行うCPUと、CPUが利用可能にプログラム、データ等を格納するメモリと、ハードディスク等の外部記憶装置と、キーボード、マウス等の入力装置と、ディスプレイとを備えて構成されていればよい。そして、図1に示す各装置内の機能部は、メモリ内に格納されたプログラムをCPUが実行することにより実現される。
Although not shown in the drawing, the
図2はリモートマシン200内の回復処理管理データベース220に格納されるデータの構造を示す図であり、次に、これについて説明する。
FIG. 2 is a diagram showing the structure of data stored in the recovery
回復処理管理データベース220内のデータは、プログラムの機能別で分類されたカテゴリ201と、バージョン毎に分類されたプログラム名202と、そのバージョン情報203と、プログラムを動作するために必要な定義情報204と、稼働環境を構築するために必要なコマンド205とが対応付けられたものである。さらに、前述のデータベース内のデータは、稼働実績206が管理され、プログラム毎に設定されている。図示例の場合、稼働実績206のAは、回復可能状態であることを示し、Bは、稼働中であることを示し、Cは、障害実績があることを示し、図示していないが、Dは、回復すべきではないプログラムであることを示す。稼働実績は、現用系における系切り替え機能がプログラム障害を検知する毎に更新される。対応付けられたコマンドは、後述する図3に示すプログラムの定義を展開し、プログラムを回復する処理を有し、このコマンドによって稼働環境が構築される。
Data in the recovery
図3はリモートマシン200内の回復資源管理データベース210に格納されるデータの構造を示す図であり、次に、これについて説明する。
FIG. 3 is a diagram showing a structure of data stored in the recovery
回復資源管理データベース210に格納されるデータは、プログラムのバージョン毎に世代管理されたプログラム221〜224及びプログラムが動作するために必要な構成定義225〜228とにより構成される。プログラム221〜224には、それぞれのモジュール構成、ユーザアプリケーション名、プログラムが動作するために必要な構築(セットアップ)コマンドが含まれている。このコマンドは、回復するプログラムによって異なるが、ソフトウェア毎に管理している場合、ソフトウェアが提供するセットアップのコマンド、あるいは、コマンドを組み合わせたシェルプログラム等であってもよい。また、プログラム221〜224及び構成定義225〜228は、それぞれ対応付けられたプログラム及び定義の展開をするだけでプログラムが動作するようにまとめられている。定義の形態は、回復するプログラムによって異なるが、本発明の実施形態の例では、ある場所に展開するような定義(展開先、コンフィグレーション)としている。
Data stored in the recovery
次に、本発明の実施形態におけるプログラム障害発生時の切り替え処理について、現用系である第1装置110においてプログラム障害を検知し、待機系である第2装置120へ障害処理を通知し、回復させる系である第3装置130にプログラムの回復命令を通知する処理と、障害情報に応じた回復すべきプログラムを特定する処理と、待機系である第2装置120で障害情報を受信し、現用系としてサービス提供を開始した後プログラム障害が発生した際の処理と、プログラムを回復させる第3装置130においてプログラムを回復する処理との4つの処理について説明する。
Next, regarding the switching process when a program failure occurs in the embodiment of the present invention, the
図4は第1装置110において系切り替え機能がプログラム障害を検知した際の切り替え処理を説明するフローチャートであり、まず、これについて説明する。
FIG. 4 is a flowchart for explaining a switching process when the system switching function detects a program failure in the
(1)第1装置110は、プログラムの障害を検知すると、プログラムを回復させる第3装置130の情報と障害情報とを第2装置120へ通知して、第2装置に切り替え処理を実行させる(ステップ401、402、408)。
(1) When the
(2)次に、第1装置110は、ステップ401で検知した障害情報に基いて、回復させるプログラムの選択処理を行い、回復すべきプログラムが特定できたか否かの判定を行う。回復すべきプログラムの特定は、図2により説明したデータにおける稼働実績に基いて、回復可能なもの、回復可能なものがなかった場合にはやむをえず障害実績のあるものが選択されて行われる(ステップ403、404)。
(2) Next, the
(3)ステップ404の判定で、回復可能なプログラムがなかった場合、ここでの現用系の障害処理は終了となる。 (3) If it is determined in step 404 that there is no recoverable program, the failure processing of the active system here ends.
(4)ステップ404の判定で、回復可能なプログラムがあった場合、プログラムを回復させる装置が自マシンであり、かつ、ステップ403で特定したプログラムが動作中であるか否かを判定する。この判定で、プログラムを回復させる装置が自マシンであるのは、図1に示すシステムで第3装置130が存在しない場合、あるいは、第3装置130がなんらかの理由で使用不可能な場合である(ステップ405)。
(4) If it is determined in step 404 that there is a recoverable program, it is determined whether the apparatus that recovers the program is the own machine and whether the program specified in
(5)ステップ405の判定で、プログラムを回復させる装置が自マシンであり、かつ、ステップ403で特定したプログラムが動作中であった場合、自装置、ここでは、第1の装置110は、自装置の稼働環境を停止させて対象のプログラムを停止させる(ステップ406)。
(5) If it is determined in step 405 that the apparatus for recovering the program is the own machine and the program specified in
(6)ステップ405の判定で、プログラムを回復させる装置が自マシンでなく、かつ、ステップ403で特定したプログラムが動作中でなかった場合、または、ステップ406の処理後、プログラムを回復させる装置に対して、ステップ403で得た回復させるプログラムの情報を含む回復命令を通知する。通知の情報としては、切り替え先である第2装置120の情報と、特定されたプログラムと、その定義と、構築コマンドの情報とである。ここでの処理で回復命令を通知する相手装置は、ステップ406の処理が行われた場合には、自装置である第1装置110であり、ステップ405の判定で、プログラムを回復させる装置が自マシンでなく、かつ、ステップ403で特定したプログラムが動作中でなかった場合には、コールドスタンバイ状態とされている第3装置130である(ステップ407)。
(6) If it is determined in step 405 that the apparatus for recovering the program is not its own machine and the program specified in
図5はプログラム回復機能に含まれる障害別回復テーブル15、25の構造の例を示す図であり、次に、これについて説明する。 FIG. 5 is a diagram showing an example of the structure of the failure-specific recovery tables 15 and 25 included in the program recovery function. Next, this will be described.
図5に示す障害別回復テーブルは、障害情報と回復すべきプログラムとを対応付けて格納している。図5に示すレコード501〜503における障害A〜障害Cは、従来技術の場合と同様にログ情報から取得することができる情報であったり、系切り替え機能が提供するインタフェースをプログラムが呼び出すことによって通知された情報であったりしてよい。そして、本発明の実施形態では、レコード503のように障害に応じて複数のプログラムを回復するように対応付けることもできる。 The failure-specific recovery table shown in FIG. 5 stores failure information and a program to be recovered in association with each other. Faults A to C in the records 501 to 503 shown in FIG. 5 are information that can be acquired from log information as in the case of the prior art, or are notified by a program calling an interface provided by the system switching function. It may be the information that was made. In the embodiment of the present invention, a plurality of programs can be associated with each other according to a failure as in the record 503.
図6は第1装置のプログラム回復機能部12における障害情報に対応した回復すべきプログラムを特定する処理動作を説明するフローチャートであり、次に、これについて説明する。この処理は、図4により説明したステップ403の処理の詳細である。
FIG. 6 is a flowchart for explaining the processing operation for specifying the program to be recovered corresponding to the failure information in the program
(1)プログラム回復機能部12は、系切り替え機能11から送られてきた障害情報に基いて障害別回復テーブル15を参照し、現用系で発生した障害に対応した障害発生プログラムを特定する(ステップ601)。
(1) The program
(2)次に、障害が発生したプログラムが回復すべきプログラムの対象とならないようにするために、ステップ603で図2に示した回復処理管理データベース220の稼働実績が稼働中となっているレコードを検索して該当するプログラムを見つける(ステップ602)
(3)該当するプログラムに対応付けられた稼働実績を、図1に示すデータ転送ライン41を介して設定し直す。本発明の実施形態の場合、図2に示すように、バージョン1.1のプログラムProg_Aの稼働実績がBとなって稼動中を示しているため、ステップ602で特定したプログラムかつ稼働実績がBとなっているこのレコードが検索され、このバージョンのプログラムの稼働実績をBから障害の実績があることを示すCに設定し直す(ステップ603)。
(2) Next, in order to prevent the failed program from being the target of the program to be recovered, a record in which the operation result of the recovery
(3) The operation results associated with the corresponding program are reset through the data transfer line 41 shown in FIG. In the case of the embodiment of the present invention, as shown in FIG. 2, since the operation record of the version 1.1 program Prog_A is B, indicating that it is operating, the program identified in step 602 and the operation record is B. This record is searched, and the operation result of this version of the program is reset from B to C indicating that there is a failure record (step 603).
図7は図6の処理で得た回復すべきプログラムの情報に基いて、回復するプログラムのバージョンを得る処理動作を説明するフローチャートであり、次に、これについて説明する。 FIG. 7 is a flowchart for explaining the processing operation for obtaining the version of the program to be recovered based on the information of the program to be recovered obtained by the processing of FIG. 6, and this will be described next.
ここでの処理は、プログラム回復機能部12が、回復処理管理データベース220から回復するプログラムの稼働実績を取得し、回復可能なプログラムがあるか、または、回復すべきプログラムが存在しないことが確認できるまで繰り返す処理(ステップ1001〜1003)である。
In this process, the program
例えば、図6により説明した処理によりバージョン1.1のプログラムProg_Aの稼働実績がBからCへ状態が遷移したため、ステップ1003ではNOの判定となる。そして、ステップ1002の処理で1つ前のバージョンを特定し、ステップ1001、1002の処理で稼働実績を判定する。また、本発明の実施形態において、回復処理管理データベース220は、バージョンの他に機能毎にカテゴリとして分別しているため、1つ前のバージョンのプログラムが存在しなかった場合等には、同等の機能(同一のカテゴリ)をもつ別のプログラムを特定することもできる。回復が可能なプログラムと判定した場合、回復可能プログラムを特定する処理を終了し、図4のフローにおけるステップ407の処理を実行する。
For example, since the operation history of the version 1.1 program Prog_A has changed from B to C by the process described with reference to FIG. 6, NO is determined in
図8は第1装置110から送信された障害情報を受信した際の第2装置120の処理動作を説明するフローチャート、図9は回復状態保持部14、24のデータ構造を示す図であり、次に、これらについて説明する。図8に示す処理は、図4により説明したステップ408の処理の詳細である。
FIG. 8 is a flowchart for explaining the processing operation of the
(1)第2装置120は、図4により説明した現用系の障害処理におけるステップ402の処理により送信されてきた回復先の装置である第3装置130の情報と障害情報とを、第2装置120の系切り替え機能21により受信し、受け取った情報を、回復先状態保持部24に設定する。回復先状態保持部24に設定されて保持されるデータは、図9に示すように、回復先の装置の情報と、回復先へ切り替えてもよいか否かを示すフラグと、現用系で発生した障害情報とである。ここでの処理で設定するデータは、回復先801と障害情報803とである(ステップ701、702)。
(1) The
(2)ステップ702の処理で設定された情報に基いて系切り替えの処理を行い、待機系であった第2装置120は、第1装置110に代わって、現用系としてサービスの提供を開始する(ステップ703)。
(2) The system switching process is performed based on the information set in the process of step 702, and the
(3)現用系としてサービスの提供を開始した第2装置120は、その運用中に障害の発生を検出すると、回復先情報保持部24の切り替え可否フラグ802及び障害情報803をチェックし、回復先である第3装置130にプログラムが回復済みか否か、すなわち、第3装置130への切り替えが不可能か否かを判定する(ステップ704、705)。
(3) When the
(4)ステップ705の判定で、第3装置130への切り替えが可能であった場合、第3装置130への切り替え処理を行い、一方、切り替えが不可能であった場合、システムとしてのサービスを停止し、障害調査を特定する(ステップ707、706)。
(4) If it is determined in
なお、前述の処理では、ステップ706での処理をシステムの停止としたが、第2装置120のプログラム回復機能22によってプログラムを回復する処理を行うようにすることも可能である。
In the above-described processing, the processing in step 706 is stopped. However, the
図10はプログラムを回復する第3装置130が第1装置110からプログラムをロードする命令を受信した際の処理動作を説明するフローチャートであり、次に、これについて説明する。
FIG. 10 is a flowchart for explaining the processing operation when the
(1)第3装置130は、図4により説明したフローにおけるステップ407の処理で第1装置からプログラムの回復命令を受信すると、第3装置130内で自装置の処理のためのプログラムが動作中であるか否かを判定し、プログラムが動作中であった場合、稼働環境部を停止させ、プログラムの動作を停止する(ステップ901〜903)。
(1) When the
(2)ステップ902の判定で、プログラムが動作中でなかった場合、または、ステップ903の処理で動作環境部を停止させた後、ステップ901で受信した回復情報に基いて、回復資源管理テーブル210からプログラムのセットとプログラムを動作させるための定義情報とを、図1のデータ転送ライン43を介して取得する(ステップ904)。
(2) If it is determined in
(3)次に、ステップ904の処理で得たプログラムと定義とを展開することにより、それらを稼働環境部へ配布する処理を行い、さらに、ステップ901で得ている構築コマンドを実行し、回復したプログラムがホットスタンバイ状態となる。この段階で第3装置への処理の切り替えが可能となるため、切り替えが可能になったことを、ステップ901で得ている切り替え先の情報を用いて通知する。ここでは、第2装置120へ切り替えが可能となったことを通知している。これを受信した第2装置120は、回復先情報保持部24の切り替え可否フラグを可に設定する(ステップ905〜907)。
(3) Next, the program and definition obtained in the process of
前述した本発明の実施形態における各処理は、処理プログラムとして構成することができ、この処理プログラムは、HD、DAT、FD、MO、DVD−ROM、CD−ROM等の記録媒体に格納して提供することができ、また、通信回線を介して提供することができる。 Each processing in the above-described embodiment of the present invention can be configured as a processing program, and this processing program is stored in a recording medium such as HD, DAT, FD, MO, DVD-ROM, and CD-ROM and provided. It can also be provided via a communication line.
前述した本発明の実施形態は、現用系装置と待機系装置とを備えたデュプレックス構成の情報処理システムに本発明を適用したものとして説明したが、本発明は、少なくとも系切り替えに必要なプログラムが備えられている情報処理システムに対して適用することができる。 The above-described embodiment of the present invention has been described as applying the present invention to an information processing system having a duplex configuration including an active system device and a standby system device. However, the present invention provides at least a program required for system switching. The present invention can be applied to an information processing system provided.
前述した本発明の実施形態によれば、プログラム障害が原因で系切り替えに失敗した際にも、プログラム回復機能12により確実に稼働するプログラムまたは環境を指定した回復先の装置へ展開して、回復先の装置がホットスタンバイ状態となるため、回復先の装置へ系を切り替えることによりサービスの停止期間を短くすることができる。
According to the embodiment of the present invention described above, even when system switching fails due to a program failure, the
また、本発明の実施形態によれば、現用系でのプログラム回復機能が困難な障害である場合も、待機系のプログラム回復機能を使用することにより回復先へ確実に動作するプログラムを展開してホットスタンバイ状態とすることができるため、オペレーティングシステムなど比較的ハードに近い部分で動作するプログラムも回復することが可能になる。 Further, according to the embodiment of the present invention, even when the program recovery function in the active system is a difficult failure, the program that operates reliably to the recovery destination can be expanded by using the standby program recovery function. Since it can be in the hot standby state, it is possible to recover a program that operates in a portion close to hardware such as an operating system.
1 通信経路
11、21、31 切り替え機能部
12、22、32 プログラム回復機能部
13、23、33 稼働環境部
14、24、34 回復先状態保持部
15、25、35 障害別回復テーブル
110 第1装置
120 第2装置
130 第3装置
200 リモートマシン
210 回復資源管理データベース
220 回復処理管理データベース
1
Claims (9)
前記第1装置は、プログラム障害による障害の発生時、第2装置にその運用を切り替える系切り替えを行い、プログラムを回復する装置に障害となったプログラムの回復を行わせ、前記系切り替えの後、前記第2装置が第1装置と同様な障害を発生して系切り替えに失敗したとき、第2装置は、プログラムを回復する装置にその運用を切り替える系切り替えを行うことを特徴とする系切り替え方法。 In a system switching method in an information processing system configured by a first device as an active device and a second device as a standby device, and switching the operation to the second device when the first device fails,
When a failure due to a program failure occurs, the first device performs system switching for switching the operation of the second device, causes the device for recovering the program to recover the failed program, and after the system switching, A system switching method characterized in that when the second device generates a failure similar to that of the first device and fails in system switching, the second device performs system switching to switch the operation to the device that recovers the program. .
前記第1及び第2装置は、障害が発生したプログラムを回復する回復先の状態を保持し、障害発生時に系切り替えを実施する手段を持つ系切り替え機能部と、障害情報及び回復すべきプログラムを対応付けた障害別回復テーブルを備え、プログラムとその回復処理及び稼働実績とを対応付けた回復処理管理データベースにアクセスし、プログラムを回復する装置に回復命令を出し、回復命令を受けてプログラムや定義を稼働環境に設定する機能を備えたプログラム回復機能を備えることを特徴とする情報処理システム。 In an information processing system configured by a first device as an active device and a second device as a standby device, and switching the operation to the second device when the first device fails,
The first and second devices hold a recovery destination state for recovering a program in which a failure has occurred, a system switching function unit having means for performing system switching when a failure occurs, fault information and a program to be recovered It has a recovery table for each associated failure, accesses a recovery processing management database that associates the program with its recovery processing and operation results, issues a recovery command to the device that recovers the program, receives the recovery command, and defines the program and definition An information processing system comprising a program recovery function having a function of setting a computer as an operating environment.
プログラム障害による障害の発生時、他方の装置にその運用を切り替える系切り替えを行うステップと、プログラム障害発生時、障害情報から回復すべきプログラムを特定するステップと、稼働実績から世代管理されたプログラムから適切なバージョンのプログラムを特定するステップと、プログラムを回復する装置に回復命令を通知するステップと、前記系切り替えの後の装置に障害を発生して系切り替えに失敗したとき、プログラムを回復する装置にその運用を切り替える系切り替えを行うステップとを有し、前記各処理ステップを実行することにより系の切り替えを行うこと特徴とする系切り替え処理プログラム。
A system switching processing program comprised of a first device and a second device, and possessed by the first device and the second device that switches its operation to the other device when the one device fails,
From the step of system switching to switch the operation to the other device when a failure occurs due to a program failure, the step of identifying the program to be recovered from the failure information when the program failure occurs, and the generation-managed program from the operation results A step of identifying an appropriate version of the program, a step of notifying a recovery instruction to a device for recovering the program, and a device for recovering the program when a failure occurs in the device after the system switching and the system switching fails And a system switching process program for switching the system by executing each of the processing steps.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003390970A JP2005157462A (en) | 2003-11-20 | 2003-11-20 | System switching method and information processing system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003390970A JP2005157462A (en) | 2003-11-20 | 2003-11-20 | System switching method and information processing system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005157462A true JP2005157462A (en) | 2005-06-16 |
Family
ID=34718186
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003390970A Pending JP2005157462A (en) | 2003-11-20 | 2003-11-20 | System switching method and information processing system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005157462A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009116560A (en) * | 2007-11-06 | 2009-05-28 | Nippon Information & Communication | Computer system and operation method thereof |
JP2015138987A (en) * | 2014-01-20 | 2015-07-30 | 日本電気株式会社 | Communication system and service restoration method in communication system |
WO2017208409A1 (en) * | 2016-06-01 | 2017-12-07 | 株式会社日立製作所 | Information processing system and operation redundancy method |
JP2019036194A (en) * | 2017-08-18 | 2019-03-07 | 富士通株式会社 | Monitoring control program, monitoring control method, and information processing apparatus |
-
2003
- 2003-11-20 JP JP2003390970A patent/JP2005157462A/en active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009116560A (en) * | 2007-11-06 | 2009-05-28 | Nippon Information & Communication | Computer system and operation method thereof |
JP2015138987A (en) * | 2014-01-20 | 2015-07-30 | 日本電気株式会社 | Communication system and service restoration method in communication system |
WO2017208409A1 (en) * | 2016-06-01 | 2017-12-07 | 株式会社日立製作所 | Information processing system and operation redundancy method |
JPWO2017208409A1 (en) * | 2016-06-01 | 2018-12-06 | 株式会社日立製作所 | Information processing system and business redundancy method |
US10365864B2 (en) | 2016-06-01 | 2019-07-30 | Hitachi, Ltd. | Information processing system and operation redundantizing method |
JP2019036194A (en) * | 2017-08-18 | 2019-03-07 | 富士通株式会社 | Monitoring control program, monitoring control method, and information processing apparatus |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5543333B2 (en) | Dynamic CLI mapping for clustered software entities | |
KR20110044858A (en) | Maintain data indetermination in data servers across data centers | |
CN102394914A (en) | Cluster brain-split processing method and device | |
JP2007150409A (en) | Remote copy storage apparatus system and remote copying method | |
JP2004295462A (en) | Recovery processing method, execution system of the same, and processing program of the same | |
US7373542B2 (en) | Automatic startup of a cluster system after occurrence of a recoverable error | |
JP2009129409A (en) | Failure recovery method, computer, cluster system, management computer, and failure recovery program | |
JP2009026091A (en) | Connection management program, connection management method, and information processing device | |
JP2008158666A (en) | Multipath system for storage device, its failure identification method, and program | |
JP2011154428A (en) | Storage system | |
JP2005157462A (en) | System switching method and information processing system | |
CN107111459B (en) | Storage system and control method thereof | |
JP2005250840A (en) | Information processing apparatus for fault-tolerant system | |
JP2007200103A (en) | Client-server system and resource control method | |
JP4911959B2 (en) | Distributed monitoring and control system | |
CN101242201B (en) | A master-slave system maintenance method, system and device | |
CN112612652A (en) | Distributed storage system abnormal node restarting method and system | |
JP2001014290A (en) | Multiprocessor system | |
CN107329698B (en) | Data protection method and storage device | |
JP2011159222A (en) | Server system and control method thereof | |
JP4020869B2 (en) | Dual system | |
JP2010055509A (en) | System, method, and program for fault recovery, and cluster system | |
JP6213496B2 (en) | Control device, control method, and control program | |
JP2007133863A (en) | Method, apparatus and program for restarting server | |
JP6701846B2 (en) | Management device, backup system, backup management method, program |