JP2006350460A - 計算機システムおよび計算機制御方法 - Google Patents

計算機システムおよび計算機制御方法 Download PDF

Info

Publication number
JP2006350460A
JP2006350460A JP2005172691A JP2005172691A JP2006350460A JP 2006350460 A JP2006350460 A JP 2006350460A JP 2005172691 A JP2005172691 A JP 2005172691A JP 2005172691 A JP2005172691 A JP 2005172691A JP 2006350460 A JP2006350460 A JP 2006350460A
Authority
JP
Japan
Prior art keywords
group
copy
abnormal
copy pair
storage device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005172691A
Other languages
English (en)
Other versions
JP4464872B2 (ja
Inventor
Takeyuki Imazu
剛行 今津
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2005172691A priority Critical patent/JP4464872B2/ja
Publication of JP2006350460A publication Critical patent/JP2006350460A/ja
Application granted granted Critical
Publication of JP4464872B2 publication Critical patent/JP4464872B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 コピーペアの効率的な異常回復を行うこと。
【解決手段】 データを記憶する複数の論理ボリュームを有する第1記憶装置と、第1記憶装置に接続され複数の論理ボリュームを有する第2記憶装置と、第1記憶装置の論理ボリュームと第2記憶装置の論理ボリュームとで構成されたコピーペアを複数まとめたグループごとにコピーペアを管理し、グループ内でのコピー状態の時間的一貫性を維持しながらコピーペア間で第1記憶装置の論理ボリュームのデータを第2記憶装置の論理ボリュームにリモートコピーする処理部と、を備えた計算機システムであって、処理部は、コピーペアが異常状態となったときに当該コピーペアを所属グループから抜き出して、異常状態のコピーペアを集めるための異常グループに移動し、異常グループ単位でコピーペアの異常回復を行う。
【選択図】 図1

Description

本発明は、ディスク記憶装置間で非同期データ転送によるリモートコピーを行う計算機システムおよび計算機制御方法に関する。
近年、ハードウェアの処理性能の飛躍的向上やネットワークの高速化等によって、従来は困難であった大量のデータを扱う業務のコンピュータシステム化が、実現されてきている。そして、扱うデータ量が増大するにつれて、データの保全が重要な課題となっている。
データの保全のためには、業務を止めることなく大切なデータを安全に保護すること、また、万一災害が発生した場合でも短時間でシステムを回復することが必要となる。このような要件を満たすための技術のひとつに、複数のサーバと大型ディスクアレイ装置(DKC:Disk Controller)を用いて構成するHA(High Availability:高可用性)クラスタがある。
HAクラスタ構成では、地震等の災害に備えて遠隔地にあるデータセンタでデータを2重化する。すなわち、あるサイトに設置した大型ディスクアレイ装置のボリューム(正側ボリューム)に格納されるデータを、遠隔地に設置した大型ディスクアレイ装置のボリューム(副側ボリューム)にも格納する。
このため通常は、大型ディスクアレイ装置間を接続してホスト装置からの書込みデータを大型ディスクアレイ装置間で転送する方法を用いる。遠隔地にデータを転送してボリュームの複製を作成することをリモートコピーという。
大型ディスクアレイ装置間でデータを転送する方式には、大別すると同期転送方式と非同期転送方式の2種類がある。同期転送方式はデータを転送する度にそのデータの受領を示す情報を転送元が受け取る方式であり、比較的近距離でのデータの転送に適する。一方、非同期転送方式は受領応答を受けないままデータを一方的に転送するもので、遠距離でのデータの転送に適する。
たとえば、特許文献1では、一般的な非同期型のリモートコピーに関する技術が開示され、また、特許文献2では、グループ単位でコピーペアの時間的一貫性を保つ際の障害回復方法に関する技術が開示されている。
一般に、リモートコピーをバックアップの目的で使用する際には、状態の一貫性が保たれている正側ボリュームと副側ボリュームが作るコピーペアを複数まとめたグループによる運用を行うことによって、業務ごとにグループ単位で制御を行う。また、グループ単位で制御を行う際には、ハードウェアの機能として複数コピーペアに対する一括操作機能を利用する。グループ単位でのリモートコピーは、コピーペアの形成、コピーペア状態のサスペンド(一時停止)、コピーペア状態のサスペンド状態の回復、コピーペア状態の削除等のグループ操作機能からなる。
従来、グループ内のコピーペアの一部に異常が発生した場合に回復運用操作を行うときには、グループ内にて、異常状態であるボリュームをそのグループに残したまま、回復作業を行うため、各異常状態のコピーペアに対して、コピーペア単位での修復を行っている。
特開平11−85408号公報(段落0013〜段落0015、図1) 特開2002−189570号公報(段落0012〜段落0013、図1)
しかしながら、一般にグループ単位の非同期リモートコピーにおいては、正常状態のコピーペアと異常状態のコピーペアがDKC上で同一のグループに所属しているため、修復作業を行う際には、正常状態のコピーペアに影響を与えないよう、コピーペア単位での修復を行う必要がある。
その結果、DKCに対するコピー状態制御コマンド発行回数も増加し、システム全体としての性能にも悪影響を与える。その上、一つのグループ内に正常状態のコピーペアと異常状態のコピーペアが混在するため、管理が複雑になる。また、複数のグループにて同一の原因による異常が発生した場合にも、一つずつ修復を行う必要があるため、効率が悪い。
そこで、本発明は、前記問題点に鑑みてなされたものであり、グループ中に異常状態のコピーペアが発生した場合に、DKCが管理しているそのコピーペアのグループの所属を元のグループから異常グループに変更し、その異常グループ単位で異常回復を行うことで、コピーペアの効率的な異常回復を行うことを目的とする。
前記課題を解決するために、本発明に係る計算機システムは、データを記憶する複数の論理ボリュームを有する第1記憶装置と、前記第1記憶装置に接続され複数の論理ボリュームを有する第2記憶装置と、前記第1記憶装置の論理ボリュームと前記第2記憶装置の論理ボリュームとで構成されたコピーペアを複数まとめたグループごとにコピーペアを管理し、前記グループ内でのコピー状態の時間的一貫性を維持しながら前記コピーペア間で前記第1記憶装置の論理ボリュームのデータを前記第2記憶装置の論理ボリュームにリモートコピーする処理部と、を備えた計算機システムであって、前記処理部は、コピーペアが異常状態となったときに当該コピーペアを所属する前記グループから抜き出して、異常状態のコピーペアを集めるための異常グループに移動し、前記異常グループ単位でコピーペアの異常回復を行う。
本発明によれば、異常状態のコピーペアを効率的に回復させることができる。
以下、本発明の実施形態を、図面を参照しながら詳細に説明する。
図1は、本発明の計算機システムの全体構成例を示す図である。計算機システムは、グループ自動制御機能プログラム101、正側DKC(第1記憶装置)112、副側DKC(第2記憶装置)113および端末121を備えて構成される。
グループ自動制御機能プログラム101は、正側DKC(ディスク制御装置)112と接続しているホスト装置上でCPU(Central Processing Unit:不図示)などの処理部によって動作するプログラムである。本実施形態では、コピー操作を行うグループ自動制御機能プログラム101は、図示しているように1つであり、この1つのプログラムから副側DKC113上に存在するボリュームに対しても操作可能であるものとするが、2つ以上に分けられたものであってもよい。
正側DKC112および副側DKC113(以下、両方を指す場合は「各DKC」という)は、ディスクアレイ(不図示)を制御する装置であり、ホスト装置からのI/Oや各種命令を、制御下にあるボリューム1121、1131などの論理ボリューム(ディスクアレイを論理的に分割したもの)に作用させる。
Consistencyグループ(以下、「C/Tグループ」または「グループ」という)114、115、116は、ハードウェア上で複数のコピーペア間における、データの一貫性を保つためのグループである。コピーペアは、一つのC/Tグループにのみ所属することができ、所属しているC/TグループはC/T IDによって区別される。
C/Tグループ114は、C/T ID “01”の正常C/Tグループであり、コピーペア117とコピーペア118から構成されている。C/Tグループ116は、C/T ID “02”の正常C/Tグループであり、コピーペア119とコピーペア120から構成されている。
C/Tグループ115はC/T ID “F1”の異常C/Tグループであり、コピーペア118とコピーペア119が同一の異常状態となった場合には、この二つのコピーペアから構成される。この場合、正常なC/Tグループ114はコピーペア117のみから、正常なC/Tグループ116はコピーペア119のみから構成されることになり、コピーペア118およびコピーペア119は、異常回復後に再び元のC/Tグループに所属することになる。
グループ自動制御機能プログラム101は、ペア状態制御コマンド発行部102、状態異常監視部103、回復機能105および制御部110として、ホスト装置上のCPUによって機能するように構成される。
ペア状態制御コマンド発行部102は、指定されたコマンドを各DKCに発行する操作コマンド機能を備えている。
状態異常監視部103は、各DKCから取得したコピーペア情報から、コピーペアの正常または異常の判定を行う。また、状態異常監視部103は、コピーペアの状態によってC/Tグループの変更を行うグループ制御機能104を含む。状態異常監視部103の処理については、図9を用いて後記する。
回復機能105は、異常状態のコピーペアに対して回復処理を実行する機能である。回復機能105の処理については、図10を用いて後記する。
制御部110は、グループ自動制御機能プログラム101中にある各機能の制御を行う。また、グループ状態表示画面201(図2参照)、グループ詳細表示画面301(図3参照)、異常グループ詳細表示画面401(図4参照)等、端末121によってユーザに示す画面を作成する画面表示機能111を含む。
ペア状態制御コマンド発行部102、状態異常監視部103、回復機能105および制御部110は、それぞれ、グループを管理するグループ管理テーブル106、コピーペアを管理するペア管理テーブル107、異常回復手順(異常回復方法)を管理する回復手順テーブル108、および、C/T IDを管理するC/T ID管理テーブルの相互間で、データのやりとりを行う。
端末121は、画面表示機能111によって作成された画面を表示したり、ユーザがデータを入力したりするものであり、たとえば、パーソナルコンピュータなどの情報機器(表示部を含む)によって実現することができる。
図2は、図1のグループ管理テーブル106、ペア管理テーブル107、回復手順テーブル108中に設定された情報を元に画面表示機能111が作成した、グループ自動制御機能プログラム101が管理する全グループの状態表示画面イメージ201であり、端末121(図1参照)に表示される。
正常グループ表示部202では、全正常グループのグループ名203、C/T ID204、現在正常グループに所属している正常状態のコピーペア数205、元々その正常グループに所属していたが現在異常状態であるため異常グループに所属しており回復待機中のコピーペア数206、元々その正常グループに所属していたが現在異常からの回復中状態であるため異常グループに所属しているコピーペア数207を表示している。ユーザが端末121(図1参照)を操作することによってボタン208を押すと、対象正常グループの詳細を表す、グループ詳細表示画面301(図3参照)へと遷移する。
異常グループ表示部216では、全異常グループのグループ名209、C/T ID210、異常状態の種類を示す異常状態コード211、現在その異常グループに所属しているコピーペア数212、グループ内の状態を示す状態グループ213、および、対象となる異常グループの回復方法214を表示している。ユーザが端末121(図1参照)を操作することによってボタン215を押すと、対象異常グループの詳細を表す異常グループ詳細表示画面401(図4参照)へと遷移する。
図3は、図1のグループ管理テーブル106、ペア管理テーブル107、回復手順テーブル108中に設定された情報を元に画面表示機能111が作成した、特定グループの詳細表示画面イメージ301であり、端末121(図1参照)に表示される。
グループ状態表示部302では、正常グループ表示部202のグループ名203と同様のグループ名、C/T ID、正常コピーペア数、回復待機中のコピーペア数、回復中コピーペア数を表示している。
ペア一覧表示部303において、正常ペア表示部304では、正常状態であるコピーペアの詳細を表示しており、コピー元(正側)のDKC装置番号(正SN)、正側対象ボリュームのボリューム番号(正VN)、コピー先のDKC装置番号(副SN)、副側対象ボリュームのボリューム番号(副VN)、コピーペア状態(「一時停止」など)から構成されている。
異常ペア表示部305では、異常状態であるコピーペアの詳細を表示しており、コピー元(正側)のDKC装置番号(正SN)、正側対象ボリュームのボリューム番号(正VN)、コピー先のDKC装置番号(副SN)、副側対象ボリュームのボリューム番号(副VN)、コピーペア状態(「回復中(6A)」など)、現在異常グループとして登録されている登録先のC/T ID(現ID)から構成されている。
図4は、図1のグループ管理テーブル106、ペア管理テーブル107、回復手順テーブル108中に設定された情報を元に画面表示機能111が作成した、特定異常グループの詳細表示画面イメージ401であり、端末121(図1参照)に表示される。
グループ状態表示部402では、異常グループ表示部216(図2参照)のグループ名209と同様のグループ名、C/T ID、エラーコード(エラー状態コード:異常状態の種類)、グループに所属するコピーペア数を表示している。
原因表示部403では、対象となる異常グループのエラーコードに対応した異常原因を表示している。
回復方法表示部404では、対象となる異常に対する回復方法を表示しており、ここでは回復ボタン4041と縮小運転ボタン4042を表示している。回復ボタン4041は、回復機能105を動作させ、異常状態の回復処理を行うものである。縮小運転ボタン4042は、回復機能105を動作させ、異常状態の回復処理を行い、また、あるグループで使用しているパスを他のグループに割り当てることなどにより、計算機システム全体として縮小運転をさせるものである。
ペア詳細表示部405では、正側のDKC装置番号(正装置)、正側対象ボリュームのボリューム番号、副側のDKC装置番号(副装置)、副側対象ボリュームのボリューム番号、コピーペア状態(状態)、異常グループに所属する前に所属していた正常グループのC/T ID(元C/T ID)を表示している。
次に、図5を参照しながら、グループごとの状態を管理しているグループ管理テーブル106(図1参照)の説明を行う。図5は、グループ管理テーブル106のデータ構成を示す図である。
グループ管理テーブル106は、項番501、各グループのC/T ID502、各グループのグループ名503、各グループの状態(正常/回復中/待機中)を示すグループ状態504、異常グループのエラー状態コード505、各グループのC/T IDに所属しているコピーペア数506、異常グループに対して以前適用したことのある回復手順のコードを示す回復手順コード507から構成されている。
続いて、図6を参照しながら、コピーペアごとの状態を管理しているペア管理テーブル107(図1参照)の説明を行う。図6は、ペア管理テーブル107のデータ構成を示す図である。
ペア管理テーブル107は、コピーペアの番号を示す項番601、正側DKC装置番号(正装置番号)602、正側ボリューム番号603、副側DKC装置番号(副装置番号)604、副側ボリューム番号605、コピーペアの状態コード606、コピーペアが所属しているC/Tグループの現C/T ID607、および、異常グループに変更する前に所属していた正常グループの元C/T ID608から構成されている。このうち、現C/T ID607と元C/T ID608が同じ値である場合、対象となるコピーペアは正常グループに所属しており、異なる場合は異常グループに所属していることを示す。つまり、現C/T ID607は適宜変更されうるものであるが、元C/T ID608は元の正常グループのC/T IDを示すものであり不変である。
次に、図7を参照しながら、回復手順を管理している回復手順テーブル108(図1参照)の説明を行う。図7は、回復手順テーブル108のデータ構成を示す図である。
回復手順テーブル108は、回復手順コード701、回復手順コードごとの回復方法702、回復手順に従って発行する発行コマンド703、回復手順の対象となる対象状態コード704、回復手順ごとの実行優先度を示す優先度705から構成されている。
続いて、図8を参照しながら、C/T IDを管理しているC/T ID管理テーブル109(図1参照)の説明を行う。図8は、C/T ID管理テーブル109のデータ構成を示す図である。
C/T ID管理テーブル109は、項番801、対象となるC/T ID802、C/T IDの使用状況を示す状態803、C/T IDを使用しているグループのグループ名を示す使用グループ804から構成されている。
次に、図9を参照しながら、状態異常監視部103による状態異常の監視処理を説明する(適宜図1〜図8参照)。図9は、状態異常監視部103による状態異常の監視処理を示したフローチャートである。
まず、状態異常監視部103は、状態異常の監視処理を開始すると(ステップ901)、ペア管理テーブル107中の全コピーペア(全ペア)に対して、ペア状態制御コマンド発行部102を利用して状態取得コマンドを発行し、全コピーペアの状態コード606を最新のものに更新する(ステップ902)。状態取得コマンドを発行した結果、エラーとなった場合には、そのエラーコードをペア管理テーブル107の状態コード606に設定する。
続いて、状態異常監視部103は、ペア管理テーブル107の全コピーペアを監視対象に設定し(ステップ903)、その全コピーペアに対して、ステップ904以降の処理によりコピーペアの正常異常判定を行う。具体的には、まず、コピーペアの状態コード606が正常なコードであるか、または異常なコードであるかの判定を行い(ステップ904)、異常であった場合には(ステップ904で「いいえ」)、対象コピーペアの現C/T ID607と元C/T ID608が同じであるかの条件、および、現C/T ID607と同じC/T ID502のグループのエラー状態コード505がコピーペアの状態コード606と違うかの条件の2つ条件による判定を行う(ステップ908)。
両条件ともに満たさない場合には(ステップ908で「いいえ」)、状態としての変化は無いためコピーペアの現C/T ID607を変更する必要は無く、次のコピーペアに対する判定へと移る(ステップ906)。どちらかの条件を満たす場合には(ステップ908で「はい」)、ステップ909以降の処理によりコピーペアの変更処理を行う。
つまり、現C/T ID607と元C/T ID608が同じであれば(ステップで908で「はい」)、対象コピーペアは異常である(ステップ904で「いいえ」なので)にもかかわらず、現C/T ID607が正常グループとして登録されていることになり、ステップ909以降の処理により現C/T ID607を異常グループのC/T IDに変更する必要がある。
また、現C/T ID607と同じC/T ID502のグループのエラー状態コード505が対象コピーペアの状態コード606と違う場合(ステップ908で「はい」)、対象コピーペアの状態コード606が別の異常状態コードに変更されていることになり、ステップ909以降の処理により現C/T ID607を現在の異常状態コードに対応する異常グループのC/T IDに変更する必要がある。
ステップ909において、状態異常監視部103は、コピーペアの変更処理として、はじめに、新たに異常グループを作成する必要があるかどうかを判定するために、グループ管理テーブル106中にコピーペアの状態コード606と同じ値のエラー状態コード505を持つグループの検索を行う、具体的には、ペアと同じコードを持つグループがあるかどうかを判定する。
一致するグループが見つからなかった場合には(ステップ909で「いいえ」)、C/T ID管理テーブル109より、状態803が異常グループ用予備であるC/T ID802を検索する(ステップ910)。その後に、ステップ911において、グループ管理テーブル106に対して、見つかったC/T ID802をC/T ID502とする異常グループを追加し、C/T ID管理テーブル109の使用グループ804に追加した異常グループ名を設定する。
他方、状態異常監視部103は、変更先として当該C/T ID502を有するグループを見つけた後(ステップ909で「はい」)、または、当該C/T ID502を有するグループを作成した(ステップ911)後には、対象コピーペア(対象ペア)のC/T IDを変更するペア制御コマンドを発行し、対象コピーペアのC/T IDを変更する(ステップ912)。
次に、グループ管理テーブル106中にあるコピーペアの元C/T IDを持つグループのコピーペア数506を一つ減らし、変更後のC/T IDを持つ、グループのコピーペア数506を一つ増加する(ステップ913)。そして、ペア管理テーブル107の現C/T ID607を変更後のC/T IDへと変更する(ステップ914)。変更後は、ステップ906に進み、次のコピーペアに対する処理に移る。
状態異常監視部103は、コピーペアの状態コードが正常であった場合には(ステップ904で「はい」)、コピーペアの現C/T ID607と元C/T ID608が同じであるかどうかで、対象コピーペアが正常グループに属しているのか、異常グループに属しているのかの判定を行う(ステップ905)。もし、正常グループに属しているのであれば(ステップ905で「はい」)、C/T IDを変更する必要は無く、ステップ906に進み、次のコピーペアに対する処理に移る。
状態異常監視部103は、対象コピーペアが異常グループに属している場合(ステップ905で「いいえ」)は、その対象コピーペアが正常状態に回復しているため、その対象コピーペアのC/T IDを変更するペア制御コマンドを発行し、その対象コピーペアのC/T IDを変更する、つまり元のC/T IDに戻す(ステップ915)。
次に、グループ管理テーブル106中にあるコピーペアの現C/T IDを持つグループのコピーペア数506を一つ減らし、変更後のC/T IDを持つグループのコピーペア数506を一つ増加する(ステップ916)。そして、ペア管理テーブル107の現C/T ID607を変更後のC/T IDへと変更する(ステップ917)。変更後は、ステップ906に進み、次のコピーペアに対する処理に移る。
全てのコピーペアに対して状態コード判定を終了した時点(ステップ906で「はい」)で、状態異常監視部103は処理を終了する。なお、図9では同じ状態コード606を持つ異常状態のコピーペアを同じC/Tグループに登録しているが、状態コードではなく、回復手順が同じ異常状態のコピーペアを同じC/Tグループに登録する方法もある。詳細処理については、図12を用いて後記する。
次に、図10を参照しながら、回復機能105の処理を説明する(適宜図1〜図8参照)。図10は、回復機能105の処理を示すフローチャートである。
回復機能105は、グループ単位で異常状態グループの回復を行う機能であり、回復方法を指定しての呼び出し方と指定しないでの呼び出し方の二通りが存在する。回復方法を指定する場合は、ユーザが端末121を操作することにより行う。
回復機能105は、処理を開始すると(ステップ1001)、まず、回復方法の指定があるか否かを判定し(ステップ1002)、回復方法が指定されている場合には(ステップ1002で「はい」)回復作業(ステップ1006)へと進み、指定されていない場合には(ステップ1002で「いいえ」)回復方法検索処理(ステップ1003)へと進む。
ステップ1003において、回復機能105は、回復方法検索処理として、まず、対象となるグループのグループ管理テーブル106の適用回復手順コード507に値が設定されているかどうかを判定する。適用回復手順コード507が設定されていない場合には(ステップ1003で「いいえ」)、回復手順テーブル108より、対象状態コード704にグループのエラー状態コード505が含まれているかつ、最も優先度705が高い回復手順コード701を検索する(ステップ1004)。
回復機能105は、適用回復手順コード507が設定されている場合(ステップ1003で「はい」)には、回復手順テーブル108より、対象状態コード704にグループのエラー状態コード505が含まれている、かつ、適用回復手順コード507の優先度705の次に高い優先度705を持つ回復手順コード701を検索する。検索した(ステップ1005)後には、回復方法を指定した場合と同様に回復作業(ステップ1006)へと進む。
つまり、ある回復対象グループに対して、ステップ1004で検索した回復手順コード701に対応する回復方法702によって回復ができなかった場合は、一旦この図10のフローチャートの処理が終わった後、再びこの図10のフローチャートの処理が始まり、ステップ1003からステップ1005に進んだときに、そのステップ1005で検索したその次に優先度の高い回復手順コード701に対応する回復方法702によって回復が試みられる。それでも回復ができなかったときは、同様にして、再度ステップ1005に進んだときに、ステップ1005で検索したその次に優先度の高い回復手順コード701に対応する回復方法702によって回復が試みられ、ということが、回復するまで行われることになる。
図10のフローチャートに戻って、回復機能105は、回復作業として、回復手順テーブル108から回復手順コード701の発行コマンド703に従い、ペア状態制御コマンド発行部102を使用して、ペア制御コマンドを発行し(ステップ1006)、グループ管理テーブル106の適用回復手順コード507に対して、実行した回復手順701を設定する(ステップ1007)。
続いて、回復機能105は、先ほど実施したペア制御コマンドが正常に終了したかどうかの判定を行い(ステップ1008)、正常に終了していれば(ステップ1008で「はい」)、グループ管理テーブル106のグループ状態504に対して、回復中を設定する(ステップ1009)。
ステップ1008において、ペア制御コマンドが正常に終了しなかった場合(ステップ1008で「いいえ」)、ステップ1009の処理をスキップし、ステップ1010に進む。
その後、回復機能105は、状態異常監視部103を呼び出し(ステップ1010)、状態の更新、およびC/T IDの変更を行うことによって、処理を終了する。
なお、この図10のフローチャートによる処理では、1つの異常グループに対する1つの回復手順を試みるごとに、ステップ1010において状態異常監視部103により各状態の更新(図9のフローチャートによる処理)を行うようにしているが、ステップ1010の処理の頻度は適宜変更(低減)してもかまわない。
次に、状態コードではなく、回復手順が同じ異常状態のコピーペアを同じC/Tグループに登録する場合のグループ管理テーブル106と状態異常監視部103の処理に関する説明を行う。
まず、図11を参照しながら、回復手順が同じコピーペアを集める場合のグループ管理テーブル106の説明を行う。図11は、その場合のグループ管理テーブル106Aのデータ構成を示した図である。
グループ管理テーブル106Aは、項番1101、各グループのC/T ID1102、各グループのグループ名1103、各グループの状態(正常/回復中/待機中)を示すグループ状態1104、回復手順コード1105、各グループのC/T IDに所属しているコピーペア数1106、異常グループに対して適用した回復手順の回復手順コード1107から構成している。図5のグループ管理テーブル106からの変更は、エラー状態コード505を削除し、回復手順コード1105を追加していることである。
次に、図12を参照しながら、状態異常監視部103が回復手順の同じコピーペアを集める場合における状態異常の監視処理について説明する。図12は、その場合の状態異常の監視処理を示すフローチャートである。
まず、状態異常監視部103は、回復手順検索を開始し(ステップ1201)、ペア管理テーブル107中の全コピーペアに対して、ペア状態制御コマンド発行部102を利用して状態取得コマンドを発行し、全コピーペアの状態コード606を最新のものに更新する(ステップ1202)。状態取得コマンドを発行した結果、エラーとなった場合にはそのエラーコードをペア管理テーブル107の状態コード606に設定する。
続いて、状態異常監視部103は、ペア管理テーブル107の全コピーペアを監視対象に設定し(ステップ1203)、その全コピーペアに対して、ステップ1204以降の処理によりコピーペアの正常異常判定を行う。具体的には、まず、コピーペアの状態コード606が正常なコードであるか、異常なコードであるかの判定を行い(ステップ1204)、異常であった場合には(ステップ1204で「いいえ」)、対象となるコピーペアが現在所属するグループの適用回復手順コード1107があるかどうかの判定を行う(ステップ1205)。
状態異常監視部103は、適用回復手順コード1107が設定されていない場合(ステップ1205で「いいえ」)には、回復手順テーブル108より、対象状態コード704にコピーペアの状態コード606が含まれているかつ、最も優先度705が高い回復手順コード701を検索する(ステップ1207)。適用回復手順コード1107が設定されている場合(ステップ1205で「はい」)には、回復手順テーブル108より、対象状態コード704にコピーペアの状態コード606が含まれているかつ、適用回復手順コード1107の優先度705の次に高い優先度705を持つ回復手順コード701を検索する(ステップ1206)。
次に、状態異常監視部103は、対象コピーペアの現C/T ID607と元C/T ID608が同じであるかの条件、および現C/T ID607と同じC/T ID1102のグループの回復手順1106が回復手順コードの検索結果と違うかの条件の2つの条件による判定を行う(ステップ1208)。両条件ともに満たさない場合には(ステップ1208で「いいえ」)、状態としての変化は無いためコピーペアの現C/T ID607を変更する必要は無く、ステップ1219に進み、次のコピーペアに対する処理に移る。どちらかの条件を満たす場合には(ステップ1208で「はい」)、コピーペアの変更処理を行う(ステップ1209)。
ステップ1209において、状態異常監視部103は、コピーペアの変更処理として、はじめに、新たに異常グループを作成する必要があるかどうかを判定するために、グループ管理テーブル106A中に検索結果の回復手順と同じ値の回復手順コード1105を持つグループの検索を行う。一致するグループが見つからなかった場合には(ステップ1209で「いいえ」)、C/T ID管理テーブル109より、状態803が異常グループ用予備であるC/T ID802を検索する(ステップ1210)。その後に、グループ管理テーブル106Aに対して、見つかったC/T ID802をC/T ID1102とする異常グループを追加し、C/T ID管理テーブル109の使用グループ804に追加した異常グループ名を設定する(ステップ1211)。
他方、状態異常監視部103は、変更先として当該C/T ID502を有するグループを見つけた後(ステップ1209で「はい」)、または、当該C/T ID502を有するグループを作成した(ステップ1211)後には、対象コピーペアのC/T IDを変更するペア制御コマンドを発行し、対象コピーペアのC/T IDを変更する(ステップ1212)。
次に、グループ管理テーブル106A中にあるコピーペアの元C/T IDを持つグループのコピーペア数1106を一つ減らし、変更後のC/T IDを持つグループのコピーペア数1106を一つ増加する(ステップ1213)。そして、ペア管理テーブル107の現C/T ID607を、変更後のC/T IDへと変更する(ステップ1214)。変更後は、ステップ1219に進み、次のコピーペアに対する処理に移る。
状態異常監視部103は、ステップ1204にて正常であった場合には(「はい」)、コピーペアの現C/T ID607と元C/T ID608が同じであるかどうかで、対象コピーペアが正常グループに属しているのか、異常グループに属しているのかの判定を行う(ステップ1215)。もし、正常グループに属しているのであれば(ステップ1215で「はい」)、C/T IDを変更する必要は無く、ステップ1219に進み、次のコピーペアに対する処理に移る。
状態異常監視部103は、対象コピーペアが異常グループに属している場合(ステップ1215で「いいえ」)、対象コピーペアは正常状態に回復しているためそのC/T IDを変更するペア制御コマンドを発行し、変更する(ステップ1216)。次に、グループ管理テーブル106A中にあるコピーペアの現C/T IDを持つグループのコピーペア数1106を一つ減らし、変更後のC/T IDを持つグループのコピーペア数1106を一つ増加する(ステップ1217)。そして、ペア管理テーブル107の現C/T ID607を変更後のC/T IDへと変更する(ステップ1218)。変更後は、ステップ1219に進み、次のコピーペアに対する処理に移る。
全てのコピーペアに対して状態コード判定を終了した時点(ステップ1219で「はい」)で、状態異常監視部103は処理を終了する。
この図12の処理を行うことによって、異常の原因が異なるコピーペアも同じC/Tグループに所属させ、同時に回復処理を行うことができる。
次に、図13を参照しながら、非同期リモートコピーにおいて、C/Tグループを変更する機能を持つDKCの内部構成の説明を行う。図13は、グループ変更機能を持つDKCの構成を示す論理ブロック図である。
正側DKC112(図1参照)中の制御装置1302は、ホスト1301からコピーペアの正側ボリューム1305(図1の1121に相当)への書込み要求1303を受け取った場合、DKC内グループ管理テーブル1304に従って、書込み先を決定する。DKC内グループ管理テーブル1304の詳細については、図14にて説明を行う。
図14を参照しながら、DKC内での各ボリュームに対するコピーペアとグループの管理を行う、DKC内グループ管理テーブル1304の説明を行う(適宜図13参照)。図14は、DKC内グループ管理テーブル1304の構成を示す図である。
DKC内グループ管理テーブル1304は、項番1401、各ボリュームの番号であるボリューム番号1402、各ボリュームとペアを組んでいる組先のDKC装置番号1403、各ボリュームとペアを組んでいる組先のボリューム番号1404、各グループのC/T ID1405、および、対象となるボリュームにおいてグループ変更を行った場合の元C/T ID1406から構成されている。
制御装置1302は、通常時に、ホスト1301からコピーペアの正側ボリューム1305へのデータ書込み要求1303を受け取った場合、コピーペアの正側ボリューム1305と同時にキャッシュメモリ1307にも書込みを行う。キャッシュメモリ1307はC/T番号ごとに領域が設定されており、書込みデータ1308ごとに書込み時刻と書込み先と書込む値を保持している。
また、C/Tグループ内で書込みの順番に一貫性を持たすために、キャッシュメモリ1307内では書込みデータ1308が時系列順に並んでいる。制御装置1302は、キャッシュメモリ1307からコピーペアの副側ボリュームに書込みデータ1308を書込む際には、時系列順に書込みデータ1308をDKC間転送用ケーブル1306経由で、副側ボリュームに書込むことによって、グループ内の書込み順序の一貫性を保つ。
制御装置1302は、グループ変更を行った場合、DKC内グループ管理テーブル1304のC/T ID1405に変更先のC/T IDを設定し、また、元C/T ID1406に変更前のC/T IDを設定する。また、キャッシュメモリ1307にも変更後のC/T IDに対応する領域を確保し、変更後にデータ書込み要求1303を受け取った場合には、キャッシュメモリ中の変更後の領域へと書込みを行う。
なお、制御装置1302は、キャッシュメモリ1307からコピーペアの副側ボリュームに書込みを行う場合、元C/T IDに対応したキャッシュメモリ1307中に対象となるボリュームが同一である書込みデータ1308が無くなったことを確認することによって、元C/Tグループの書込み順序の一貫性が崩れることを防ぐ。
このように、本実施形態の計算機システムによれば、グループ中に異常状態のコピーペアが発生した場合、DKCが管理しているそのコピーペアのグループの所属を元のグループから異常グループに変更し、その際、同一種類の異常状態のコピーペア、または、同一異常回復方法のコピーペアを同じ異常グループへ集め、その異常グループ単位で異常回復を行うことで、コピーペアの効率的な異常回復を行うことができる。
以上で実施形態の説明を終えるが、本発明の態様はこれらに限定されるものではない。たとえば、ハードウェア、各プログラム、各テーブルなどの具体的な構成について、分割や統合など、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
本実施形態の計算機システムの全体構成例を示す図である。 グループ全体の状態を表示する画面イメージ図である。 特定のグループの詳細状態を表示する画面イメージ図である。 特定の異常グループの詳細状態を表す画面イメージ図である。 グループ管理テーブルの構成を示す図である。 ペア管理テーブルの構造を示す図である。 回復手順テーブルの構成を示す図である。 C/T ID管理テーブルの構成を示す図である。 エラーコードをキーに行うグループ変更処理を示すフローチャートである。 異常状態回復処理を示すフローチャートである。 グループ管理テーブルの構成を示す図である。 回復手順をキーに行うグループ変更処理を示すフローチャートである。 グループ変更機能を持つDKCの構成を示す論理ブロック図である。 DKC内グループ管理テーブルの構成を示す図である。
符号の説明
101 グループ自動制御機能プログラム
102 ペア状態制御コマンド発行部
103 状態異常監視部
104 グループ制御機能
105 回復機能
106 グループ管理テーブル
107 ペア管理テーブル
108 回復手順テーブル
109 C/T ID管理テーブル
110 制御部
111 画面表示機能部
112 正側DKC(ディスク制御装置)
113 副側DKC(ディスク制御装置)
117 正常コピーペア
118 異常コピーペア
119 異常コピーペア
120 正常コピーペア
121 端末

Claims (19)

  1. データを記憶する複数の論理ボリュームを有する第1記憶装置と、前記第1記憶装置に接続され複数の論理ボリュームを有する第2記憶装置と、前記第1記憶装置の論理ボリュームと前記第2記憶装置の論理ボリュームとで構成されたコピーペアを複数まとめたグループごとにコピーペアを管理し、前記グループ内でのコピー状態の時間的一貫性を維持しながら前記コピーペア間で前記第1記憶装置の論理ボリュームのデータを前記第2記憶装置の論理ボリュームにリモートコピーする処理部と、を備えた計算機システムであって、
    前記処理部は、全コピーペアの正常または異常の状態を更新し、異常状態のコピーペアの1つに対して、まだ異常グループへの移動がなされていないかの条件、および、すでに異常グループに移動している場合にはその異常グループに移動してから異常状態の種類が変更されているかの条件の2つの条件について判断し、
    いずれかの前記条件を満たす場合は、そのときの異常状態の種類に対応する異常グループが存在するかを判断し、その異常グループが存在しない場合は新たにその異常グループを設定し、前記異常状態のコピーペアの1つをそのとき所属する前記グループからその異常グループに移動し、
    また、前記グループと前記異常グループのコピーペア数を管理するグループ管理テーブルのコピーペア数を更新し、各コピーペアの所属する前記グループと前記異常グループを管理するペア管理テーブルの情報を更新し、さらに、前記異常グループ単位でコピーペアの異常回復を行う
    ことを特徴とする計算機システム。
  2. データを記憶する複数の論理ボリュームを有する第1記憶装置と、前記第1記憶装置に接続され複数の論理ボリュームを有する第2記憶装置と、前記第1記憶装置の論理ボリュームと前記第2記憶装置の論理ボリュームとで構成されたコピーペアを複数まとめたグループごとにコピーペアを管理し、前記グループ内でのコピー状態の時間的一貫性を維持しながら前記コピーペア間で前記第1記憶装置の論理ボリュームのデータを前記第2記憶装置の論理ボリュームにリモートコピーする処理部と、を備えた計算機システムであって、
    前記処理部は、コピーペアが異常状態となったときに当該コピーペアを所属する前記グループから抜き出して、異常状態のコピーペアを集めるための異常グループに移動し、前記異常グループ単位でコピーペアの異常回復を行う
    ことを特徴とする計算機システム。
  3. 前記処理部は、前記異常グループ単位でコピーペアの異常回復を行った後に、異常回復したコピーペアを元に所属した前記グループに戻すことを特徴とする請求項2に記載の計算機システム。
  4. 前記処理部は、異常状態のコピーペアを所属する前記グループから抜き出して異常グループに移動するときに、異常状態の種類が同一のコピーペアを同一の前記異常グループに移動することを特徴とする請求項2に記載の計算機システム。
  5. 前記処理部は、前記異常グループに移動したコピーペアの異常状態の種類が変わった場合に、当該コピーペアをその変わった後の異常状態の種類のコピーペアを集めるための異常グループにさらに移動することを特徴とする請求項4に記載の計算機システム。
  6. 前記処理部は、異常状態のコピーペアを所属する前記グループから抜き出して異常グループに移動するときに、前記異常回復のための異常回復方法が同一のコピーペアを同一の前記異常グループに移動することを特徴とする請求項2に記載の計算機システム。
  7. 前記グループが複数ある場合、前記処理部は、その複数の前記グループに関して、異常状態のコピーペアを所属する前記グループから抜き出して前記異常グループに移動することを特徴とする請求項2に記載の計算機システム。
  8. 前記異常グループ単位でコピーペアの異常回復を行う場合、前記異常回復のための異常回復方法に優先度が付与されており、前記処理部は、使用可能な前記異常回復方法が複数あるときには優先度の高い前記異常回復方法を使用し、異常回復を行うことを特徴とする請求項2に記載の計算機システム。
  9. 前記処理部は、さらに、前記グループの情報と前記異常グループの情報を表示部に表示することを特徴とする請求項2に記載の計算機システム。
  10. 前記処理部は、さらに、前記異常回復のための1以上の異常回復方法を表示部に表示することを特徴とする請求項2の計算機システム。
  11. データを記憶する複数の論理ボリュームを有する第1記憶装置と、前記第1記憶装置に接続され複数の論理ボリュームを有する第2記憶装置と、前記第1記憶装置の論理ボリュームと前記第2記憶装置の論理ボリュームとで構成されたコピーペアを複数まとめたグループごとにコピーペアを管理し、前記グループ内でのコピー状態の時間的一貫性を維持しながら前記コピーペア間で前記第1記憶装置の論理ボリュームのデータを前記第2記憶装置の論理ボリュームにリモートコピーする処理部と、を備えた計算機システムによる計算機制御方法であって、
    前記処理部は、コピーペアが異常状態となったときに当該コピーペアを所属する前記グループから抜き出して、異常状態のコピーペアを集めるための異常グループに移動し、前記異常グループ単位でコピーペアの異常回復を行う
    ことを特徴とする計算機制御方法。
  12. 前記処理部は、前記異常グループ単位でコピーペアの異常回復を行った後に、異常回復したコピーペアを元に所属した前記グループに戻すことを特徴とする請求項11に記載の計算機制御方法。
  13. 前記処理部は、異常状態のコピーペアを所属する前記グループから抜き出して異常グループに移動するときに、異常状態の種類が同一のコピーペアを同一の前記異常グループに移動することを特徴とする請求項11に記載の計算機制御方法。
  14. 前記処理部は、前記異常グループに移動したコピーペアの異常状態の種類が変わった場合に、当該コピーペアをその変わった後の異常状態の種類のコピーペアを集めるための異常グループにさらに移動することを特徴とする請求項13に記載の計算機制御方法。
  15. 前記処理部は、異常状態のコピーペアを所属する前記グループから抜き出して異常グループに移動するときに、前記異常回復のための異常回復方法が同一のコピーペアを同一の前記異常グループに移動することを特徴とする請求項11に記載の計算機制御方法。
  16. 前記グループが複数ある場合、前記処理部は、その複数の前記グループに関して、異常状態のコピーペアを所属する前記グループから抜き出して前記異常グループに移動することを特徴とする請求項11に記載の計算機制御方法。
  17. 前記異常グループ単位でコピーペアの異常回復を行う場合、前記異常回復のための異常回復方法に優先度が付与されており、前記処理部は、使用可能な前記異常回復方法が複数あるときには優先度の高い前記異常回復方法を使用し、異常回復を行うことを特徴とする請求項11に記載の計算機制御方法。
  18. 前記処理部は、さらに、前記グループの情報と前記異常グループの情報を表示部に表示することを特徴とする請求項11に記載の計算機制御方法。
  19. 前記処理部は、さらに、前記異常回復のための1以上の異常回復方法を表示部に表示することを特徴とする請求項11の計算機制御方法。
JP2005172691A 2005-06-13 2005-06-13 計算機システムおよび計算機制御方法 Expired - Fee Related JP4464872B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005172691A JP4464872B2 (ja) 2005-06-13 2005-06-13 計算機システムおよび計算機制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005172691A JP4464872B2 (ja) 2005-06-13 2005-06-13 計算機システムおよび計算機制御方法

Publications (2)

Publication Number Publication Date
JP2006350460A true JP2006350460A (ja) 2006-12-28
JP4464872B2 JP4464872B2 (ja) 2010-05-19

Family

ID=37646269

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005172691A Expired - Fee Related JP4464872B2 (ja) 2005-06-13 2005-06-13 計算機システムおよび計算機制御方法

Country Status (1)

Country Link
JP (1) JP4464872B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008165455A (ja) * 2006-12-28 2008-07-17 Hitachi Ltd バックアップ機能を備えたストレージシステム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008165455A (ja) * 2006-12-28 2008-07-17 Hitachi Ltd バックアップ機能を備えたストレージシステム

Also Published As

Publication number Publication date
JP4464872B2 (ja) 2010-05-19

Similar Documents

Publication Publication Date Title
JP4839091B2 (ja) データベース回復方法及び計算機システム
EP1569120B1 (en) Computer system for recovering data based on priority of the data
US10725878B2 (en) Storage apparatus, storage system, and control method of storage system for dynamically securing free space when a storage apparatus is disused
US8266401B2 (en) Storage controller and data management method
US8078581B2 (en) Storage system and remote copy control method
CN101706802B (zh) 一种数据写入、修改及恢复的方法、装置及服务器
US20070255916A1 (en) Data duplication control method
EP1507206A2 (en) Storage operation management program and method and storage management computer
JP2004287648A (ja) 外部記憶装置及び外部記憶装置のデータ回復方法並びにプログラム
JP2005018510A (ja) データセンタシステム及びその制御方法
JP2007206759A (ja) ストレージシステム
CN105302667B (zh) 基于集群架构的高可靠性数据备份与恢复方法
JP2010128644A (ja) 障害復旧方法、プログラムおよび管理サーバ
JP2006023889A (ja) リモートコピーシステム及び記憶装置システム
US20110078396A1 (en) Remote copy control method and system in storage cluster environment
JP2018073231A (ja) ストレージシステムおよびストレージ装置
JP5124237B2 (ja) ストレージシステムおよびストレージサブシステム
US8131958B2 (en) Storage system, storage device, and data updating method using a journal volume
JP4464872B2 (ja) 計算機システムおよび計算機制御方法
US20210240351A1 (en) Remote copy system and remote copy management method
JP2015095015A (ja) データ配置方法、データ配置プログラムおよび情報処理システム
JP2011081830A (ja) サーバ切替方法、プログラムおよび管理サーバ
JPH04299435A (ja) データベース等価方式
JPWO2014155654A1 (ja) 情報処理装置及び情報処理装置の交換支援システム並びに交換支援方法
US11182261B1 (en) Synchronizing a stale component of a distributed object using multiple delta components during maintenance

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070627

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100204

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100216

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100219

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130226

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130226

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140226

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees