JP2001134456A - Automatic operation continuing system - Google Patents

Automatic operation continuing system

Info

Publication number
JP2001134456A
JP2001134456A JP31634799A JP31634799A JP2001134456A JP 2001134456 A JP2001134456 A JP 2001134456A JP 31634799 A JP31634799 A JP 31634799A JP 31634799 A JP31634799 A JP 31634799A JP 2001134456 A JP2001134456 A JP 2001134456A
Authority
JP
Japan
Prior art keywords
storage device
external storage
host computer
active
volume
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP31634799A
Other languages
Japanese (ja)
Inventor
Ikuo Uratani
郁夫 裏谷
Kiichiro Urabe
喜一郎 占部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP31634799A priority Critical patent/JP2001134456A/en
Publication of JP2001134456A publication Critical patent/JP2001134456A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To ensure high availability related with the failure of a system constituted of two host computers and two outside storage devices. SOLUTION: The failures of a host computer 100 and an outside storage device 150 are communicated to a host computer 110 or discovered by the host computer 110 itself through an LAN interface 600 and an SCSI interface or fiber channel interface 510. When the failure is discovered, an outside storage device 160 is changed to an available state so that the processing can be continued. Also, when the host computer 100 and the outside storage device 150 are restored, the restoration is detected by the host computer 110, and the duplication of a volume 210 of the outside storage device 160 to a volume 200 is instructed to an outside storage device 150, and when the duplication is ended, the processing is transferred to the host computer 100 and the outside storage device 150.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、コンピュータ装置
及びコンピュータ装置に接続される外部記憶装置で構成
するシステムに関する。
[0001] 1. Field of the Invention [0002] The present invention relates to a system comprising a computer device and an external storage device connected to the computer device.

【0002】[0002]

【従来の技術】データベース等の無停止稼動および無停
止保守の実現という信頼性に対する要求から災害などに
よる現用系のコンピュータ及び外部記憶装置の故障のと
きは待機系に処理を移す必要がある。
2. Description of the Related Art Due to a demand for reliability of non-stop operation and non-stop maintenance of a database or the like, it is necessary to shift processing to a standby system in the event of a failure of an active computer or an external storage device due to a disaster or the like.

【0003】現用系に故障が発生したときにはクラスタ
スイッチで待機系に自動で切り換えてホストコンピュー
タ側から待機系の外部記憶装置のデータの複製を利用し
て処理を続行するのが、復旧の際に現用系に切り換える
処理は一般的に外部記憶装置とホストコンピュータの状
態を判断して人力で行う。この場合は処理系の切り替え
が自動で実行できないため、切り替え、データ回復に多
くの時間を費やす必要がある。
[0003] When a failure occurs in the active system, the cluster switch automatically switches to the standby system and the host computer uses the data copy of the external storage device of the standby system to continue processing. The process of switching to the active system is generally performed manually by judging the state of the external storage device and the host computer. In this case, the switching of the processing system cannot be automatically executed, so that much time must be spent for the switching and data recovery.

【0004】特開平5−189167号はディスク障害
自動復旧方法について述べられている。
Japanese Patent Laid-Open No. Hei 5-189167 describes a method for automatically recovering from a disk failure.

【0005】この方法ではプログラムを利用した復旧は
可能であるが、複数のホストコンピュータや外部記憶装
置の状態についての調停を行って処理系の移行や復旧の
ための切り換えを行う事が出来ない。
[0005] In this method, recovery using a program is possible, but it is not possible to perform arbitration of the states of a plurality of host computers and external storage devices and to switch between processing systems for recovery or recovery.

【0006】[0006]

【発明が解決しようとする課題】最近の市場動向とし
て、高い信頼性を持つ外部記憶装置を接続した多目的サ
ーバに対する要求が高まってきている。クライアントに
対して複数のディスクイメージを見せることができるこ
とから、高い信頼性を伴った重要データに対するトラン
ザクション処理への対応を要求される。そのためには、
外部記憶装置およびホストコンピュータの障害に対する
速やかな対処が要求される。自動的な運用の移行ならび
にコンピュータと外部記憶装置と外部記憶装置内のデー
タの復旧とデータ復旧後の現用系への再移行である。
As a recent market trend, a demand for a multipurpose server to which a highly reliable external storage device is connected has been increasing. Since a plurality of disk images can be shown to a client, it is required to deal with transaction processing for important data with high reliability. for that purpose,
Immediate measures are required for failures of the external storage device and the host computer. The automatic operation transition, the restoration of the computer, the external storage device, and the data in the external storage device, and the re-transition to the active system after the data restoration.

【0007】しかし、従来の技術では再移行時にデータ
復旧に人手が介入する、回復時にボリュームへのアクセ
スが不能などの理由のため待ち時間が存在するため、速
やかな復旧が難しかった。
However, in the prior art, it is difficult to perform quick recovery because there is a waiting time due to a reason such as manual intervention in data recovery at the time of re-migration and inability to access a volume at the time of recovery.

【0008】[0008]

【課題を解決するための手段】現用系から待機系への切
り換え時の適切な判断による操作と現用系の復旧時の復
帰という従来人力で行っていた処理を、ホストコンピュ
ータの処理と外部記憶装置の機能の連係により状態の監
視を行いつつ状態の変更時には稼動しているホストコン
ピュータならびに外部記憶装置が自動的に判断して適宜
適切な処理を実行することで、自動的に運用を継続した
まま運用移行や運用復旧を行う。
Means for Solving the Problems Conventionally performed manually by a proper judgment when switching from the active system to the standby system and returning when the active system is restored, the processing of the host computer and the external storage device While the status is monitored by the coordination of the functions, when the status is changed, the operating host computer and external storage device automatically determine and execute appropriate processing as appropriate, so that the operation is automatically continued. Perform operation migration and operation recovery.

【0009】[0009]

【発明の実施の形態】以下、本発明に関わる外部記憶装
置の実施例について説明する。
DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, embodiments of the external storage device according to the present invention will be described.

【0010】図1は本実地例に関わるシステム全体の1
構成を示した図である。
FIG. 1 shows the entire system according to the present embodiment.
FIG. 3 is a diagram showing a configuration.

【0011】本システムはホストコンピュータ(100−11
0)とそれぞれに接続する外部記憶装置(150−160)で構成
される。ホストコンピュータ(100−110)は外部記憶装置
(150−160)とSCSIまたはファイバチャネルインタフェー
ス(510−520)にて接続され、ホストコンピュータ(100−
110)間はLANインタフェース(600)によって接続され、外
部記憶装置(150−160)間はESCONインタフェース(500)に
よって接続され、それぞれの間で通信が可能である。ホ
ストコンピュータ(100)には対になるホストコンピュー
タ(110)と外部記憶装置(150)を通信を使って監視するプ
ログラム(300)が実行されており異常を発見すると適切
な処理をホストコンピュータ(100)上で実行されている
データベース等のサーバプログラムや外部記憶装置管理
プログラム(400)に指示することができる。ホストコン
ピュータ(110)の障害の発見は定期的なホストコンピュ
ータ(110)との通信の成功及び失敗によって判断し、動
作しているホストコンピュータ(100-110)がデータの一
貫性を保証できるように外部記憶装置(150−160)に指示
を与えて外部記憶装置(150−160)間のボリューム(200−
210)の複製の状態を変更する。また外部記憶装置(150−
160)も外部記憶装置(150−160)間の状態の監視を行い、
外部記憶装置(150−160)間のボリューム(200−210)の複
製の作成の管理や複製の中断や外部記憶装置(150−160)
の障害が発生したときに元ボリュームと複製ボリューム
の間のデータの一貫性を保つためのデータ差分管理を行
う。
This system is composed of a host computer (100-11).
0) and external storage devices (150-160) connected to them. Host computer (100-110) is an external storage device
(150-160) and SCSI or Fiber Channel interface (510-520)
110) are connected by a LAN interface (600), and the external storage devices (150-160) are connected by an ESCON interface (500), and can communicate with each other. The host computer (100) executes a program (300) for monitoring the host computer (110) and the external storage device (150) that are to be paired with each other using communication. ) Can be instructed to a server program such as a database or an external storage device management program (400) executed on the server. The discovery of a failure of the host computer (110) is judged by the success or failure of communication with the host computer (110) on a regular basis, so that the operating host computer (100-110) can ensure data consistency. An instruction is given to the external storage device (150-160) and the volume (200-160) between the external storage devices (150-160) is given.
Change the state of duplication of 210). External storage device (150-
160) also monitors the state between the external storage devices (150-160),
Management of creation of a copy of the volume (200-210) between the external storage devices (150-160), interruption of the copy, and external storage device (150-160)
When a failure occurs, data difference management is performed to maintain data consistency between the original volume and the duplicate volume.

【0012】現用系のホストコンピュータ(100)に障害
が発生した場合、待機系のホストコンピュータ(110)上
の監視プログラム(310)が現用系ホストコンピュータ(10
0)上の監視プログラム(300)からの応答の消滅を感知
し、外部記憶装置管理プログラム(410)に待機系の外部
記憶装置(160)のボリューム(210)を現用系ボリューム(2
00)からの複製動作から切り放しを指示する。外部記憶
装置管理プログラム(410)は外部記憶装置(160)との通信
機能を使用して外部記憶装置(160)に切り放し指示を伝
える。切り放しを外部記憶装置管理プログラム(410)が
確認すると監視プログラム(310)に処理を移し、使用可
能となったボリューム(210)を用いて待機系のサーバプ
ログラムの起動を行いサーバプログラムはログ待機系に
複製されているログを参照して処理を継続させる。
When a failure occurs in the active host computer (100), the monitoring program (310) on the standby host computer (110) is used by the active host computer (10).
0), the response from the monitoring program (300) disappears, and the external storage device management program (410) stores the volume (210) of the standby external storage device (160) in the active volume (2).
From the duplication operation from 00), release is instructed. The external storage device management program (410) transmits a disconnection instruction to the external storage device (160) by using a communication function with the external storage device (160). When the release is confirmed by the external storage device management program (410), the processing is transferred to the monitoring program (310), the standby server program is started using the volume (210) that has become available, and the server program is switched to the log standby system. The process is continued by referring to the log that has been replicated.

【0013】現用系のホストコンピュータ(100)が復旧
し現用系の監視プログラム(300)が動作した事を待機系
の監視プログラム(310)が確認すると、待機系の監視プ
ログラム(310)は待機系の外部記憶装置管理プログラム
(410)に使用中の待機系ボリューム(210)から復旧させる
現用系のボリューム(200)への逆方向の複製の指示す
る。待機系の外部記憶装置管理プログラム(410)は現用
系のボリューム(200)が使用可能であること現用系の外
部記憶装置管理プログラム(300)を通じてを確認し、外
部記憶装置(160)に待機形のボリューム(210)から現用系
のボリューム(200)への複製を指示する。複製が終了し
たことを待機系の外部記憶装置管理プログラム(410)が
確認すると待機系の監視プログラム(310)へボリューム
(200)の復旧を伝える。待機形の監視プログラム(310)は
これを受けて現用系の監視プログラム(300)に現用系に
復旧可能であることを伝える。現用系の監視プログラム
(300)はこれを受けて待機系のサーバプログラムの停止
と現用系の外部記憶装置(150)のボリューム使用状態へ
の変更と現用系サーバプログラムの起動を指示する。現
用系は待機系への以降と同様な過程で現用系への運用の
切り換えを行う。
When the standby system monitoring program (310) confirms that the active system host computer (100) has recovered and the active system monitoring program (300) has been operated, the standby system monitoring program (310) changes to the standby system monitoring program (310). External storage device management program
Instruct (410) to perform reverse replication to the active volume (200) to be restored from the standby volume (210) in use. The standby external storage device management program (410) verifies that the active volume (200) is available through the active external storage device management program (300), and stores the standby type in the external storage device (160). Is instructed from the volume (210) to the active volume (200). When the standby external storage device management program (410) confirms that the replication has been completed, the volume is transferred to the standby system monitoring program (310).
Tell the recovery of (200). The standby type monitoring program (310) receives this and notifies the active type monitoring program (300) that it can be restored to the active type. Active system monitoring program
In response to the request, (300) instructs the stop of the standby server program, the change to the volume use state of the active external storage device (150), and the activation of the active server program. The active system switches the operation to the active system in the same process as after the standby system.

【0014】待機系に障害が発生した場合は現用系の外
部記憶装置(150)が複製を中断し、運用は現用系で継続
する。待機系の外部記憶装置(160)が復旧したときには
待機系のホストコンピュータ(110)の外部記憶装置管理
プログラム(410)が検出して現用系の外部記憶装置管理
プログラム(400)に伝える。現用系の外部記憶装置管理
プログラム(400)からの報告によって現用系の監視プロ
グラム(300)は現用系のサーバプログラムの処理を一旦
中断して現用系のボリューム(200)から待機系のボリュ
ーム(210)への複製指示を現用系の外部記憶装置管理プ
ログラム(400)に行う。
When a failure occurs in the standby system, the external storage device (150) of the active system suspends duplication, and the operation continues in the active system. When the standby external storage device (160) is restored, the external storage device management program (410) of the standby host computer (110) detects and informs the active external storage device management program (400). Based on the report from the active external storage device management program (400), the active system monitoring program (300) suspends the processing of the active system server program and temporarily changes the volume of the active system (200) to the volume of the standby system (210). ) Is issued to the active external storage management program (400).

【0015】現用系の外部記憶装置管理プログラム(40
0)は現用系および待機系のボリューム(200−210)の状態
を複製状態に変更する。複製状態への変更を確認の後、
現用系の監視プログラム(300)は現用系のサーバプログ
ラムの処理を再開する。サーバプログラムは現用系に復
旧したログを参照して処理を続行する。
An active external storage device management program (40
0) changes the status of the active system and standby system volumes (200-210) to the replication status. After confirming the change to the replication state,
The active monitoring program (300) resumes processing of the active server program. The server program continues processing by referring to the log restored to the active system.

【0016】このシステムを導入することによりサーバ
プログラムの自動的な障害時の運用移行と復旧時の運用
再移行が可能になる。
By introducing this system, it becomes possible to automatically shift the operation of the server program at the time of failure and to shift the operation again at the time of recovery.

【0017】[0017]

【発明の効果】本発明により、2つのホストコンピュー
タと2つの外部記憶装置を接続したシステムにおいて、
サーバプログラムの使用者はシステムの状態を意識する
事なくサーバを利用した処理を行う事が可能となり、シ
ステム全体の可用性が向上する。
According to the present invention, in a system in which two host computers and two external storage devices are connected,
The user of the server program can perform processing using the server without being aware of the state of the system, thereby improving the availability of the entire system.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本方式における構成図。FIG. 1 is a configuration diagram in this system.

【符号の説明】[Explanation of symbols]

100−110…ホストコンピュータ、150−160…外部記憶装
置、200−210…ボリューム、300−310…監視プログラ
ム、400−410…外部記憶装置管理プログラム、500…ESC
ON I/F、510−520…SCSI I/Fまたはファイバチャネル
I/F、600…LAN I/F。
100-110: Host computer, 150-160: External storage device, 200-210: Volume, 300-310: Monitoring program, 400-410: External storage device management program, 500: ESC
ON I / F, 510-520 ... SCSI I / F or Fiber Channel
I / F, 600… LAN I / F.

Claims (1)

【特許請求の範囲】[Claims] 【請求項1】 コンピュータと外部記憶装置を使用した
現用待機系のシステムで現用系に障害が発生したときに
自動的に待機系のシステムに移行し処理の続行が可能か
つ現用系のシステムが復旧したときに外部記憶装置の内
容の自動的な復旧と現用系システムへの処理の自動的な
移行が可能なシステム。
1. An active standby system using a computer and an external storage device, when a failure occurs in the active system, automatically shifts to the standby system so that processing can be continued and the active system is restored. A system capable of automatically restoring the contents of the external storage device and automatically shifting processing to the active system.
JP31634799A 1999-11-08 1999-11-08 Automatic operation continuing system Pending JP2001134456A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP31634799A JP2001134456A (en) 1999-11-08 1999-11-08 Automatic operation continuing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP31634799A JP2001134456A (en) 1999-11-08 1999-11-08 Automatic operation continuing system

Publications (1)

Publication Number Publication Date
JP2001134456A true JP2001134456A (en) 2001-05-18

Family

ID=18076108

Family Applications (1)

Application Number Title Priority Date Filing Date
JP31634799A Pending JP2001134456A (en) 1999-11-08 1999-11-08 Automatic operation continuing system

Country Status (1)

Country Link
JP (1) JP2001134456A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7117393B2 (en) 2003-08-26 2006-10-03 Hitachi, Ltd. Failover method in a redundant computer system with storage devices
CN100388222C (en) * 2004-11-15 2008-05-14 国际商业机器公司 System and method for reassigning storage volumes from a failed processing system to a surviving processing system
JP2014134925A (en) * 2013-01-09 2014-07-24 Kansai Electric Power Co Inc:The Information processing system, control method, and control program

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7117393B2 (en) 2003-08-26 2006-10-03 Hitachi, Ltd. Failover method in a redundant computer system with storage devices
CN100388222C (en) * 2004-11-15 2008-05-14 国际商业机器公司 System and method for reassigning storage volumes from a failed processing system to a surviving processing system
JP2014134925A (en) * 2013-01-09 2014-07-24 Kansai Electric Power Co Inc:The Information processing system, control method, and control program

Similar Documents

Publication Publication Date Title
JP5352115B2 (en) Storage system and method for changing monitoring condition thereof
US9769259B2 (en) Network storage systems having clustered RAIDs for improved redundancy and load balancing
KR100604242B1 (en) File server storage arrangement
KR100557399B1 (en) A method of improving the availability of a computer clustering system through the use of a network medium link state function
US6477663B1 (en) Method and apparatus for providing process pair protection for complex applications
US6754792B2 (en) Method and apparatus for resynchronizing paired volumes via communication line
JPH0363744A (en) Retention method, control method and retention apparatus of application session in computer network
EP1632843A2 (en) Data processing system and copy processing method thereof
US20080010424A1 (en) Remote copy system and control method thereof
JP4155399B2 (en) Computer processing method, its execution system, and its processing program
TW454128B (en) Shared disk type multiple system
US20110197040A1 (en) Storage system and storage control method
JP2006139477A (en) Computer system, management method, and storage network system
JP6569476B2 (en) Storage device, storage system, and storage control program
JP2001134456A (en) Automatic operation continuing system
CN109358982B (en) Hard disk self-healing device and method and hard disk
JP2004272318A (en) System changeover system, processing method therefor, and processing program therefor
JPH07141308A (en) Back-up method in information processing system
JP5951520B2 (en) Multiple processing system
JPH09288590A (en) Virtual computer system
JPH11265361A (en) Multicomputer system, communication processor, transaction processing system, method for transferring operation of transaction processing system, and recording medium recording transaction processing system operation transferring program
KR100654714B1 (en) Ums system using ha which guarantee session and load balancing
CN117785568A (en) Dual-master dual-machine hot standby method and device
CN113535472A (en) Cluster server
JP2513122B2 (en) Hot standby switching system