JP3409627B2 - 記憶装置システム - Google Patents
記憶装置システムInfo
- Publication number
- JP3409627B2 JP3409627B2 JP06050497A JP6050497A JP3409627B2 JP 3409627 B2 JP3409627 B2 JP 3409627B2 JP 06050497 A JP06050497 A JP 06050497A JP 6050497 A JP6050497 A JP 6050497A JP 3409627 B2 JP3409627 B2 JP 3409627B2
- Authority
- JP
- Japan
- Prior art keywords
- physical
- logical
- read
- data
- media
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Signal Processing For Digital Recording And Reproducing (AREA)
Description
象とした可用性の高い記憶装置システムに関する。特
に、可用性向上のために、各構成要素に冗長性をもつ記
憶装置システムに関する。
に最も近い公知例として、以下に示すPatterso
nの論文が知られている。
ン ファ レ ン スプ ロ シーディン グ,1988 年,6
月, ペー ジ 1 0 9 − 1 1 6 (D.Patterson,et
al:ACase for Redundant Arrays of Inexpensive Disks
(RAID), ACM SIGMOD conference proceeding, Chicago,
IL,June1-3,1988,pp.109-116) Pattersonの論文は、ディスクアレイ上のデー
タ配置に関する技術を開示したものである。ディスクア
レイは、ディスクシステムの高性能化、高信頼化を実現
するための機構である。ディスクアレイでは、高性能化
のために、物理的には複数のディスク装置を、処理装置
に対しては1台のディスク装置に見せかける。一方、高
信頼化のためには、データを格納したディスク装置に障
害が発生した場合、データの回復を行うための冗長デー
タを別のディスク装置に格納しておく。通常、ディスク
装置のリード/ライト単位となるデータをレコードと呼
ぶが、Pattersonの論文では、いくつかのレコ
ード配置方法が提案されている。ただし、ディスクアレ
イを用いた場合、処理装置から見たリードライト単位で
あるレコードと、ディスク装置に実際に記録されるレコ
ードとではデータ長が異なる場合がある。以下、前者を
論理レコード、後者を物理レコードと呼ぶ。
れているいくつかのレコード配置方法の説明を行う。第
1の配置方法は、論理レコード、すなわち、処理装置側
から見たレコードを、ディスク装置上では、m個(m≧
1)の物理レコードに分割して格納する配置方法であ
る。以下、この配置方法を、分割配置方法と呼ぶ。分割
配置を用いた場合、1つの論理レコードをm台のディス
ク装置との間で転送できることから、見かけ上データ転
送速度をm倍に向上させたのと同様の効果を得ることが
できる。
方法を説明する。分割配置では、論理レコードを分割し
たm個の物理レコードに対し、n個(n≧1)の冗長デ
ータが作成され、それぞれを、1つの物理レコード(全
体でn個ある)としてディスク装置に格納する。以下、
処理装置が直接リード/ライトするデータを格納した物
理レコードをデータレコード、冗長データを格納した物
理レコードをパリティレコードと呼ぶ。また、m個のデ
ータレコードとn個のパリティレコードから構成される
グループを、パリティグループと呼ぶ。通常、パリティ
グループ内のパリティレコードの数がn個であれば、n
台までのディスク装置に障害が発生してもそのパリティ
グループのデータは回復可能である。第2の配置方法
は、処理装置から見たリード/ライト単位である論理レ
コードを、1つの物理レコード、すなわち、1つのデー
タレコードとして、ディスク装置上に格納する配置方法
である。以下、これを非分割配置と呼ぶ。したがって、
論理レコードは、データレコードと等価なる。(それぞ
れの物理レコードには、データレコードあるいはパリテ
ィレコードが割り当てられるため、物理レコードと論理
レコードは必ずしも等価にならない。すなわち、1つの
論理レコードは、1つの物理レコードではあるが、1つ
の物理レコードは、1つの論理レコードであるというわ
けではないし、パリティレコードである場合もある。) 非分割配置の特長は、ディスクアレイを構成するそれぞ
れのディスク装置ごとにリード/ライト処理が実行可能
な点である。(分割配置方法をとると、リード/ライト
のために複数のディスク装置を専有する必要がある。)
したがって、非分割配置をとると、ディスクアレイ内で
実行できるリード/ライト処理の多重度を向上させるこ
とが可能となり、性能向上を実現できる。非分割配置で
も、m個のデータレコードから、n個のパリティレコー
ドを作成し、ディスク装置に格納される。ただし、分割
配置の場合、パリティグループ内のデータレコードの集
合が、処理装置から見た1つの論理レコードを形成する
のに対し、非分割配置の場合、データレコードのそれぞ
れが、処理装置から見るとまったく独立した論理レコー
ドとなる。計算機システムにおいて、ディスク装置以外
にしばしば用いられる記憶装置として、磁気テ−プ、光
記憶装置等がある。特に最近では、DVD(Digit
alVideoDisk)が注目されている。これらの
記憶装置の特徴は、いずれも記憶媒体とR/W(Rea
d/Write)装置が分離されており、記憶媒体を任
意のR/W装置に装填し、記憶媒体上のデ−タを読み書
きするという点である。一般にこれらの媒体は、可搬媒
体と呼ばれる。大規模計算機システムにおいては、非常
に多くの枚数の可搬媒体の管理を容易に実現するため
に、ライブラリが導入される。ライブラリには、記憶媒
体、R/W装置に加えて、多くの枚数の記憶メディアを
収納する収納庫と、収納庫とR/W装置との間で、記憶
媒体を転送するロボットなどが含まれる。計算機システ
ムで扱うデ−タは、ますます大規模化しているため、そ
の可用性の向上に対するニ−ズも非常に高い。したがっ
て、上記のような可搬媒体で構成される記憶装置システ
ムにおいても、Pattersonの論文で提案されて
いるようなコンセプトを適用することにより、高可用性
を実現することは有効である。
た技術として、コムデックス96:DVDアプリケ−シ
ョン(Alan E. Bell (IBM Research Division):DVD App
lications ,COMDEX 96 ,Nov.20,1996) がある。本文献
ではDVD、R/W装置、ロボット等から構成される通
常のライブラリを複数組み合わせて冗長性をもつRAI
L(Redundant Arrays of Inexpensive Libralies) が
提案されている。
メディアおよびリードライト装置が冗長構成をとったた
ライブラリ装置を考える。m個のデータレコードとn個
のパリティレコードでパリティグループを構成するとす
ると、これらのレコードはm+n枚のDVDメディアに
分散されることになるため、効率よくアクセスするため
にライブラリ装置内部にはm+n台のR/W装置のグル
ープが少なくとも1セットあるとよい。
が故障した場合、そこへはm+n枚のメディアをセット
することはできない。そこで任意のm+n−1枚のメデ
ィアをセットしたとすると、セットしていないメディア
に含まれるデータレコードへのリード要求が来たとき、
読みたいデータレコードを含むパリティグループを構成
するデータレコードとパリティレコードをあわせてm個
読み出して、読みたいデータレコードに格納されている
データを復元したり、一枚のメディアをR/W装置から
はずし、リード要求のあったデータレコードを含むメデ
ィアをR/W装置にセットしなおして要求のあったデー
タレコードを読み出す等のことをしなくてはならず、普
通にデータレコードを読むことにくらべて非常に時間が
かかるという問題がある。
が故障した場合、そこへはm+n枚のメディアをセット
することはできない。そこで任意のm+n−1枚のメデ
ィアをセットしたとすると、そのm+n枚のメディアの
m枚メディアのデータレコードにライト要求が来た(た
とえばm個の連続したデータレコードへのシーケンシャ
ルライト要求がきた)とき、m+n枚のパリティーグル
ープの整合性をとるにはm+n−1枚のメディアにライ
トした後、セットしていなかったメディアをR/W装置
にセットしてこれにもライトしなくてはならず、メディ
アの入れ替えに非常に時間がかかるという問題がある。
のパリティーグループの整合性をとることをあきらめて
m+n−1枚だけの整合性をとるようにすることもでき
るが、この場合は冗長度が下がるので信頼性が低下する
という問題がある。
した場合にも、リードライト処理にかかる時間を低下さ
せない技術を提供することである。
した場合にも、ライト処理時に信頼性を下げない技術を
提供することである。
成するために、メディアにはデータレコードとパリティ
レコードを混在させず、データレコードを格納したメデ
ィアを優先的にR/W装置にセットする。こうすること
で、リード要求対象となりうるデータレコードは全てR
/W装置にマウントされたメディア上にあることにな
り、パリティレコードと他のデータレコードから目的の
データレコードを再構成する必要は無くなるため、性能
の低下を防ぐことができる。また、故障したR/W装置
を含むR/W装置のグループにライト要求が来た場合に
は、パリティレコードの更新は行わないようにできるた
め、性能は低下しない。
障したR/W装置を含むR/W装置のグループにはライ
ト要求があまり来ないメディアのグループをセットす
る。ただしこの場合には、R/W装置のグループが2セ
ット以上あることが前提となる。ライト要求があまり来
ないことを認識するためにはたとえば以下の2種類の方
法がある。
要求をリード専用とライト可能の2種類に分ける。リー
ド専用のマウントが来たときには、以降マウントしたメ
ディアへはライト処理は来ない。
発行されたリード処理とライト処理のカウンタを設け
る。ライト処理回数がリード処理回数と比較してある程
度の割合以下の場合はライトが来る可能性が低いと判定
することができる。
ディアに対してライト要求を発行するかどうかを宣言す
る場合についてである。
1010の構成例を示す。記憶装置システム1010
は、コントローラー1020、多数のメディア1110
を格納しているラック1120、複数の物理R/W装置
1810、ラック1120と物理R/W装置1810の
間でメディア1110を運搬するメディア運搬ロボット
1090、ロボット用レール1100、より構成され
る。本実施例ではメディア1110はDVDRAMのメ
ディアを想定し、物理R/W装置1810は読み書き可
能なDVDR/W装置を想定しているが本発明はもちろ
んDVDに限定されるわけではない。コントローラー1
020はホストコンピューター1000とのやりとりを
行うホストインターフェース1030、物理R/W装置
1810とのやりとりを行うドライブインターフェース
1070、制御プログラムを実行するCPU1040、
制御プログラムを格納し、データバッファとしても機能
するメモリ1050、メディア運搬ロボット1090を
制御するロボットインターフェース1060より構成さ
れる。
べた非分割配置のディスクアレイ構造をしており、デー
タレコード3つとパリティレコード1つでパリティグル
ープを構成する。また、データレコードのみを持つ3枚
の物理データメディア1820、パリティレコードのみ
を持つ1枚の物理パリティメディア1850をまとめて
物理メディアグループ1860と呼ぶ。パリティーグル
ープを構成する3つのデータレコードと1つのパリティ
レコードは、物理メディアグループ1860を構成する
3枚の物理データメディア1820と1枚の物理パリテ
ィメディア1850にそれぞれ配置される。
リティレコード1つという構成としたが、別構成にして
も本発明を適用可能であることは言うまでの無い。
見た論理メディア1830と実際の物理的なメディアの
対応関係を示す。図より、論理メディア1830は、3
枚の物理データメディア1820、1枚の物理パリティ
メディア1850より構成される物理メディアグループ
1860に対応している。論理メディア1830のアド
レス空間は、3枚の物理データメディア1820のアド
レス空間をあわせたものであり、アクセスする際には論
理メディア1830の番号とその内部の論理アドレス2
000を指定することで、どの物理データメディア18
20上のどの物理アドレス2010にアクセスするべき
かが一意に定まる。ここに、論理メディア1830と複
数の物理メディア2020との対応付けは後述する論理
物理メディア変換テーブル1200を参照して行う。論
理アドレス2000がどの物理データメディア1820
上のどの物理アドレス2010に相当するかは単純な計
算式を用いてコントローラー1020上のCPU104
0が計算する。
の物理R/W装置1810をまとめて物理R/W装置グ
ループ1800として管理し、ホストコンピューター1
000から見える論理メディア1830を(論理的に)
格納する論理R/W装置1840とは、後述する論理物
理R/W装置グループ変換テーブル1600を用いて対
応づけられる。
ィア1830と論理R/W装置1840を指定してマウ
ント要求を発行する。論理メディア1830を論理R/
W装置1840にマウントするとは、論理メディア18
30を構成する4枚の物理メディア2020を、論理R
/W装置1840を構成する4台の物理R/W装置18
10にそれぞれマウントすることを意味する。同様にし
て、ホストコンピューター1000は論理R/W装置1
840を指定してアンマウント(マウント解除)要求を
発行するが、これは、論理R/W装置1840を構成す
る4台の物理R/W装置1810にマウントされている
4枚の物理メディア2020をそれぞれアンマウントす
ることを意味する。
ア2020との対応づけをする論理物理メディア変換テ
ーブル1200を示す。論理物理メディア変換テーブル
1200は本記憶装置システム1010に格納可能な論
理メディア1830の分の論理物理メディア変換テーブ
ルエントリ1210より構成される。論理物理メディア
変換テーブルエントリ1210は、ある論理メディア1
830に対応する物理メディアグループ1860に相当
するする4枚の物理メディア2020の番号をそれぞれ
格納する、物理データメディア番号a 1220、物理デ
ータメディア番号b 1230、物理データメディア番号
c 1240、物理パリティメディア番号1250と、物
理パリティメディア1850が正しいデータを格納して
いないことを示すパリティ無効フラグ1260、当該物
理メディアグループ1860をマウントしている物理R
/W装置グループ番号1270から構成される。本実施
例において、論理メディア1830と物理メディア20
20の対応は永久に変わらないものとする。このため、
物理データメディア番号a 1220、物理データメディ
ア番号b 1230、物理データメディア番号c 124
0、物理パリティメディア番号1250は書き換えるこ
とはない。
W装置グループ1800との対応づけをする論理物理R
/W装置グループ変換テーブル1600を示す。図に示
すように、論理R/W装置番号1620から物理R/W
装置グループ番号1270を得ることができる。また、
物理R/W装置グループ1800に対応づけられていな
い論理R/W装置1840のエントリには値-1 が格納
される。
0を管理する物理R/W装置グループ管理テーブル14
00であり、本記憶装置システム1010に存在する物
理R/W装置グループ1800の数ぶんの物理R/W装
置グループ管理テーブルエントリ1410より構成され
る。
トリ1410は、当該物理R/W装置グループ1800
に対応する論理R/W装置1840にマウントされてい
る論理メディア番号1420、当該物理R/W装置グル
ープ1800を構成する4台の物理R/W装置1810
にそれぞれ対応する物理R/W装置エントリa 143
0、物理R/W装置エントリb 1440、物理R/W装
置エントリc 1450、物理R/W装置エントリd 14
60、その4台の物理R/W装置1810の内、故障し
た物理R/W装置1810の数を示す故障R/W装置数
1470からなる。当該物理R/W装置グループ180
0に論理メディア1830がマウントされていないとき
には、論理メディア番号1420には値-1 を格納す
る。物理R/W装置エントリa 1430、物理R/W装
置エントリb 1440、物理R/W装置エントリc 14
50、物理R/W装置エントリd 1460、はそれぞれ
の物理R/W装置1810にに実際にマウントされてい
る物理メディア2020の番号を格納するが、何もマウ
ントしていないときには値-1 を、故障中は値-2 を格納
する。
る。ホストコンピューター1000はマウント要求を出
す際に、論理メディア1830の番号と論理R/W装置
1840の番号を指定する。まずステップ5010で後
述するマウント対象物理R/W装置グループ決定処理5
200を行う。そしてステップ5020でマウント対象
の物理R/W装置グループ1800の中でマウントされ
ていないかつ故障していない物理R/W装置1810が
あるかどうかを調べ、なければステップ5010にジャ
ンプする。あれば、見つかった物理R/W装置1810
をマウント対象の物理R/W装置1810とする。そし
てステップ5040でマウントしたい論理メディア18
30を構成する物理データメディア1820の中でまだ
マウントされていないものがあるかどうかをチェック
し、なければステップ5050で論理物理メディア変換
テーブルエントリ1210のパリティ無効フラグ126
0を見て、パリティが有効であるかどうかを調べ、無効
であればマウント処理5000は終了する。パリティが
有効であれば、ステップ5060でマウント対象の物理
R/W装置グループ1800の中でマウントされていな
いかつ故障していない物理R/W装置1810があるか
どうかを調べ、なければマウント処理5000は終了す
る。あれば、ステップ5070で、見つけた物理R/W
装置1810に物理パリティメディア1850をマウン
トする。そして、ステップ5080でマウントが成公し
たかどうかを調べ、成公ならばステップ5090で、当
該物理R/W装置1810に対応する物理R/W装置エ
ントリ2030に物理パリティメディア1850の番号
を格納し、マウント処理5000は終了する。
/W装置グループ1800の中でマウントされていない
かつ故障していない物理R/W装置1810がないと判
定された場合には、ステップ5150で今回のマウント
処理5000でマウントしたメディア1110をすべて
アンマウントし、セットしたテーブルを元に戻して、ス
テップ5010にジャンプする。
判定された場合には、ステップ5130で、見つけた物
理R/W装置1810を故障とし、当該物理R/W装置
グループ1800の故障R/W装置数1470に値1を
加え、当該物理R/W装置1810に対応する物理R/
W装置エントリ2030に値-2 を格納する。そして、
ステップ5140で当該物理R/W装置グループ180
0の故障R/W装置数1470が2以上になったかどう
かをチェックし、そうであればステップ5150にジャ
ンプする。故障R/W装置数1470が一以下であれ
ば、ステップ5020にジャンプする。
ディア1830を構成する物理データメディア1820
の中でまだマウントされていないものがあると判定され
た場合には、ステップ5100で見つかった物理データ
メディア1820をマウント対象の物理R/W装置18
10にマウントする。そして、ステップ5110でマウ
ントが成公したかどうかを調べ、失敗したならばステッ
プ5130にジャンプし、成公ならばステップ5120
で当該物理R/W装置1810に対応する物理R/W装
置エントリ2030にマウントしたメディア1110の
番号を格納し、ステップ5020にジャンプする。
850よりも物理データメディア1820を優先してマ
ウントすることになるため、故障した物理R/W装置1
810が(一つだけ)ある場合には物理データメディア
1820だけがマウントされることになる。
プ決定処理5200の流れを示す。まずステップ521
0でリード専用マウントかどうかを判定し、そうでなけ
ればステップ5240にジャンプする。リード専用マウ
ントだった場合には、ステップ5220で、物理R/W
装置グループ管理テーブル1400を調べ、故障R/W
装置数1470が値1 でかつ、論理メディア番号142
0に値-1 が格納されている、つまりマウントされてい
ない物理R/W装置グループ1800を探す。そして、
ステップ5230であったかどうかを判定し、あった場
合にはステップ5260にジャンプする。なければ、ス
テップ5240で物理R/W装置グループ管理テーブル
1400を調べ、故障R/W装置数1470が値0 でか
つ、論理メディア番号1420に値-1 が格納されてい
る物理R/W装置グループ1800を探す。
かを判定し、なかった場合にはエラー終了する。あった
場合には、ステップ5260で、見つかった物理R/W
装置グループ1800をマウント対象とし、ステップ5
270で、論理物理R/W装置グループ変換テーブル1
600のマウント要求のあった論理R/W装置番号16
20に対応するエントリにマウント対象の物理R/W装
置グループ1800の番号をセットする。そして、ステ
ップ5280で、物理R/W装置グループ管理テーブル
1400の、マウント対象の物理R/W装置グループ1
800に対応するエントリの論理メディア番号1420
に、マウント要求のあった論理メディア1830の番号
をセットする。
あった場合には、故障した物理R/W装置1810を含
む物理R/W装置グループ1800が優先的にマウント
対象となり、ライトも可能なマウントのときには故障し
た物理R/W装置1810を含む物理R/W装置グルー
プ1800はマウントの対象にはならない。
示す。ホストコンピューター1000はアンマウント要
求を出す際に、論理R/W装置1840の番号を指定す
る。まず、ステップ5310で論理物理R/W装置グル
ープ変換テーブル1600を見て、要求のあった論理R
/W装置1840に対応する物理R/W装置グループ1
800の番号を得る。次に、ステップ5320で、ステ
ップ5310で求めた物理R/W装置グループ1800
の番号より、アンマウントの対象となる物理R/W装置
グループ管理テーブルエントリ1410を決定する。そ
して、ステップ5330でその論理メディア番号142
0に値-1 を格納する。次に、ステップ5340で、そ
の物理R/W装置エントリ2030に値-1 か値-2 以外
が格納されているものを探す。あればステップ5350
で当該物理R/W装置1810からメディア1110を
アンマウントし、ステップ5360で当該物理R/W装
置エントリ2030に値-1 を格納し、ステップ534
0にジャンプする。
ステップ5370で論理物理R/W装置グループ変換テ
ーブル1600の要求のあった論理R/W装置1840
の番号に対応するエントリに値-1 を格納し、アンマウ
ント処理5300は終了する。
ホストコンピューター1000は論理R/W装置184
0の番号、論理アドレス、転送長を指定してリード要求
を出す。まずステップ5410で指定のあった論理R/
W装置1840の番号を、論理物理R/W装置グループ
変換テーブル1600を見て、物理R/W装置グループ
1800の番号に変換する。次にステップ5420で、
論理物理メディア変換テーブル1200の指定された論
理メディア1830の番号のエントリと、指定された論
理アドレスより、リード対象となる物理メディア202
0の番号とリードすべき物理アドレスを得る。そしてス
テップ5430で、ステップ5410で得た物理R/W
装置グループ1800の番号に対応する物理R/W装置
グループ管理テーブルエントリ1410の4つの物理R
/W装置エントリ2030のどれにリードすべき物理メ
ディア2020の番号が格納されているかを調べ、リー
ド対象の物理R/W装置1810とする。そしてステッ
プ5440でリード対象の物理R/W装置1810にス
テップ5420で求めたリードすべき物理アドレスと、
要求のあった転送長を指定してリード要求を発行する。
さらにステップ5450でリードデータを得、ステップ
5470でホストコンピューター1000に転送する。
す。ホストコンピューター1000は論理R/W装置1
840の番号、論理アドレス、転送長を指定してライト
要求を出す。まずステップ5510で指定のあった論理
R/W装置1840の番号を、論理物理R/W装置グル
ープ変換テーブル1600を見て、物理R/W装置グル
ープ1800の番号に変換する。次にステップ5520
で、論理物理メディア変換テーブル1200の指定され
た論理メディア1830の番号のエントリと、指定され
た論理アドレスより、ライト対象となる物理メディア2
020の番号とライトすべき物理アドレスを得る。
10で得た物理R/W装置グループ1800の番号に対
応する物理R/W装置グループ管理テーブルエントリ1
410の4つの物理R/W装置エントリ2030のどれ
にライトすべき物理メディア2020の番号が格納され
ているかを調べ、ライト対象の物理R/W装置1810
とする。ステップ5540において、物理R/W装置グ
ループ管理テーブル1400のステップ5510で得た
物理R/W装置グループ1800の番号のエントリを見
て対応する論理メディア番号1420を得、論理物理メ
ディア変換テーブル1200の対応するエントリのパリ
ティ無効フラグ1260がオンであるかどうかを判定す
る。そして、パリティ無効フラグ1260がオフである
と判定された場合にはステップ5550において、物理
R/W装置グループ管理テーブル1400のステップ5
510で得た物理R/W装置グループ1800の番号の
エントリの故障R/W装置数1470が0であるかどう
かを判定する。これが0であれば、物理パリティメディ
ア1850がマウントされていることを意味する。そし
て故障R/W装置数1470が0であればステップ55
60において、ライト対象の物理R/W装置1810
の、ステップ5520で求めたライトすべき物理アドレ
スにあらかじめライトされているデータをメモリ105
0上に読み出し、これを旧データ2040とする。
W装置グループ管理テーブル1400のステップ551
0で得た物理R/W装置グループ1800の番号のエン
トリの物理R/W装置エントリd 1460に対応する物
理R/W装置1810の、ステップ5520で求めたラ
イトすべき物理アドレスにあらかじめライトされている
データをメモリ1050上に読み出し、これを旧パリテ
ィ2050とする。そして、ステップ5580で、ホス
トコンピューター1000から受け取ったライトすべき
データと、旧データ2040、旧パリティ2050の間
で排他的論理輪をとり、これを新パリティ2060とす
る。さらに、ステップ5590において、旧パリティ2
050の格納されていた物理R/W装置1810のアド
レスに新パリティ2060をライトする。そして、ステ
ップ5600において、ライト対象の物理R/W装置1
810の、ライトすべき物理アドレスにホストコンピュ
ーター1000から受け取ったライトすべきデータを書
き込み、ライト処理は終了する。
1260がオンであると判定された場合にはステップ5
610において、論理物理メディア変換テーブル120
0のライト要求のあった論理メディア1830の番号の
エントリのパリティ無効フラグ1260をオンにし、ス
テップ5600にジャンプする。
70が0でないと判定された場合には、ステップ561
0にジャンプする。
いるか、物理パリティメディア1850がマウントされ
ていない場合には物理メディア2020へのアクセスが
四分の一の回数ですむため、ライト処理を高速に処理す
ることができる。しかし、物理パリティメディア185
0がマウントされていない場合にも強制的にパリティが
無効となってしまうという問題がある。そこでできるだ
け、故障した物理R/W装置1810を含む物理R/W
装置グループ1800ではライト処理を行うことを避け
たい。本実施例においては、マウント対象物理R/W装
置グループ決定処理5200において、故障した物理R
/W装置1810を含む物理R/W装置グループ180
0はリード専用マウントの時にのみ、マウント対象とす
ることでこの問題を解決している。
るメディアへのライトの有無を知らされるのではなく、
統計情報をとって独自に判断する場合についてである。
ここでは、第1の実施例と異なる部分についてのみ説明
する。
1000が記憶装置システム1010に発行するマウン
ト要求に、リード専用は存在せず、すべてライト可能と
して扱う。
ィア2020との対応づけをする論理物理メディア変換
テーブル1200を示す。論理物理メディア変換テーブ
ル1200は本記憶装置システム1010に格納可能な
論理メディア1830の分の論理物理メディア変換テー
ブルエントリB1210より構成される。論理物理メデ
ィア変換テーブルエントリ1210は、ある論理メディ
ア1830に対応する物理メディアグループ1860に
相当するする4枚の物理メディア2020の番号をそれ
ぞれ格納する、物理データメディア番号a 1220、物
理データメディア番号b 1230、物理データメディア
番号c 1240、物理パリティメディア番号1250
と、物理パリティメディア1850が正しいデータを格
納していないことを示すパリティ無効フラグ1260、
当該物理メディアグループ1860をマウントしている
物理R/W装置グループ番号1270、当該論理メディ
ア1830への今までのリード回数1280とライト回
数1290から構成される。本実施例において、論理メ
ディア1830と物理メディア2020の対応は永久に
変わらないものとする。このため、物理データメディア
番号a 1220、物理データメディア番号b 1230、
物理データメディア番号c 1240、物理パリティメデ
ィア番号1250は書き換えることはない。また、リー
ド回数1280、ライト回数1290は当該論理メディ
ア1830へのリード/ライト比率を算出するのり利用
する。
ループ決定処理Bの流れを示す。まずステップ5820
でマウント要求のあった論理メディア1830に対応す
る論理物理メディア変換テーブルエントリBのリード回
数1280とライト回数1290を調べてライト比率を
算出し、ライト比率が高いかどうかを判定する。ここで
はライト回数がリード回数の10分の1以上あるかどう
かでライト比率が高いか低いかが分かれる基準とする
が、もちろんこの数字自体はどのように変えても本特許
が適用できることは言うまでもない。そしてライト比率
が高いと判定された場合にはステップ5880にジャン
プし、高くないと判定された場合にはステップ5840
で、物理R/W装置グループ管理テーブル1400を調
べ、故障R/W装置数1470が値1 でかつ、論理メデ
ィア番号1420に値-1 が格納されている、つまりマ
ウントされていない物理R/W装置グループ1800を
探す。
かを判定し、あった場合にはステップ5920にジャン
プする。なければ、ステップ5880で物理R/W装置
グループ管理テーブル1400を調べ、故障R/W装置
数1470が値0 でかつ、論理メディア番号1420に
値-1 が格納されている物理R/W装置グループ180
0を探す。そして、ステップ5900であったかどうか
を判定し、なかった場合にはエラー終了する。あった場
合には、ステップ5920で、見つかった物理R/W装
置グループ1800をマウント対象とし、ステップ59
40で、論理物理R/W装置グループ変換テーブル16
00のマウント要求のあった論理R/W装置番号162
0に対応するエントリにマウント対象の物理R/W装置
グループ1800の番号をセットする。そして、ステッ
プ5960で、物理R/W装置グループ管理テーブル1
400の、マウント対象の物理R/W装置グループ18
00に対応するエントリの論理メディア番号1420
に、マウント要求のあった論理メディア1830の番号
をセットする。
理メディア1830へマウント要求が来たときには、故
障した物理R/W装置1810を含む物理R/W装置グ
ループ1800が優先的にマウント対象となるが、ライ
ト比率が高い論理メディア1830へマウント要求が来
たときには故障した物理R/W装置1810を含む物理
R/W装置グループ1800はマウントの対象にはなら
ない。
処理B6260の流れを示す。
6220でリード処理5400を行い、ステップ622
0でリード要求の会った論理R/W装置1840にマウ
ントされている論理メディア1830に対応する論理物
理メディア変換テーブルエントリBのリード回数128
0に値1を加え、リード処理B6200は終了する。こ
こで、マウントされている論理メディア1830を求め
るには、論理物理R/W装置グループ管理テーブル16
00のリード要求のあった論理R/W装置1840に対
応するエントリを見て物理R/W装置グループ番号16
10を得て、物理R/W装置グループ管理テーブル14
00の求めた物理R/W装置グループ番号1610に対
応するエントリの論理メディア番号1420を見ればよ
い。
6280でライト処理5509を行い、ステップ628
0でリード要求の会った論理R/W装置1840にマウ
ントされている論理メディア1830に対応する論理物
理メディア変換テーブルエントリBのライト回数129
0に値1を加え、ライト処理B6260は終了する。マ
ウントされている論理メディア1830を求める方法は
リード処理B6200と同様である。
ード/ライト処理の性能低下を防ぐことができる、DV
Dを利用し冗長構成をとった記憶装置を実現することが
できる。
頼性低下を防ぐことができる、DVDを利用し、冗長構
成をとった記憶装置を実現することができる。
示す。
置、物理R/W装置の対応関係を示す。
ーブルを示す。
す。
装置グループ決定処理を示す。
テーブルを示す。
W装置グループ決定処理Bを示す。
処理Bの流れを示す。
システム、1020:コントローラー、1030:ホス
トインターフェース、1040:CPU、1050:メ
モリ、1060:ロボットインターフェース、107
0:ドライブインターフェース、1090:メディア運
搬ロボット、1100:ロボット用レール、1110:
メディア、1120:ラック、1800:物理R/W装
置グループ、1810:物理R/W装置、1820:物
理データメディア、1830:論理メディア、184
0:論理R/W装置、1850:物理パリティメディア
Claims (3)
- 【請求項1】ホストコンピュータからの要求に従って着
脱可能な記録媒体に対してデータをリード又はライトす
る二つ以上のリードライト装置を含むリードライト装置
グループを複数有する記憶装置システムであって、各々、前記ホストコンピュータがリード又はライトを要
求するデータが格納される一以上のデータ格納記録媒体
と、該一以上のデータ格納記録媒体に格納されるデータ
に基づき生成される冗長データが格納される一以上の冗
長データ格納記録媒体とを有する、複数の記録媒体グル
ープのうち、前記ホストコンピュータがライトを要求す
る可能性が低い一以上のデータ格納記録媒体を有する記
録媒体グループを、前記複数のリードライト装置グルー
プのうち 故障したリードライト装置を有するリードライ
ト装置グループに、優先的に割り当て、 故障したリードライト装置を有するリードライト装置グ
ループに割り当てられた記録媒体グループが有するデー
タ格納記録媒体を、故障していないリードライト装置に
優先的にマウントし、該記録媒体グループが有する一以
上の冗長データ格納記録媒体を、リードライト装置にマ
ウントしないことを特徴とする記憶装置システム。 - 【請求項2】請求項1記載の記憶装置システムであっ
て、 ホストコンピュータからリード用の記録媒体のマウント
要求を受けた場合に、該マウント要求に応じてマウント
するデータ格納記録媒体を、ホストコンピュータがライ
トを要求する可能性が低いデータ格納記録媒体と判別す
ることを特徴とする記憶装置システム。 - 【請求項3】請求項1記載の記憶装置システムであっ
て、 前記一以上のデータ格納記録媒体各々へのデータの書き
込み回数と、該一以上のデータ格納記録媒体各々からの
データの読み出し回数とを保持し、 前記データの読み出し回数に対する前記データの書き込
み回数の比率が、予め定められた所定の値以下であるデ
ータ格納記録媒体を、ホストコンピュータがライトを要
求する可能性が低いデータ格納記録媒体と判別すること
を特徴とする記憶装置システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP06050497A JP3409627B2 (ja) | 1997-03-14 | 1997-03-14 | 記憶装置システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP06050497A JP3409627B2 (ja) | 1997-03-14 | 1997-03-14 | 記憶装置システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH10254638A JPH10254638A (ja) | 1998-09-25 |
JP3409627B2 true JP3409627B2 (ja) | 2003-05-26 |
Family
ID=13144216
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP06050497A Expired - Fee Related JP3409627B2 (ja) | 1997-03-14 | 1997-03-14 | 記憶装置システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3409627B2 (ja) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06282380A (ja) * | 1993-03-25 | 1994-10-07 | Toshiba Corp | ディスク記憶装置 |
JPH06332624A (ja) * | 1993-05-25 | 1994-12-02 | Hitachi Ltd | ディスクアレイ制御方法 |
JP3107682B2 (ja) * | 1993-07-14 | 2000-11-13 | 株式会社東芝 | 情報処理装置 |
US5497457A (en) * | 1994-10-17 | 1996-03-05 | International Business Machines Corporation | Redundant arrays of independent libraries of dismountable media with parity logging |
JPH08263226A (ja) * | 1995-03-23 | 1996-10-11 | Toshiba Corp | 情報記憶装置 |
-
1997
- 1997-03-14 JP JP06050497A patent/JP3409627B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH10254638A (ja) | 1998-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6507883B1 (en) | Recalling logical volumes to cache from physical media volumes for redundant storage in automated data storage libraries | |
US5584008A (en) | External storage unit comprising active and inactive storage wherein data is stored in an active storage if in use and archived to an inactive storage when not accessed in predetermined time by the host processor | |
US5778426A (en) | Methods and structure to maintain a two level cache in a RAID controller and thereby selecting a preferred posting method | |
US6604172B2 (en) | Disk array device with selectable method for generating redundant data | |
JP2654346B2 (ja) | ディスク・アレイ・システムおよび記憶方法並びに制御装置 | |
US7281089B2 (en) | System and method for reorganizing data in a raid storage system | |
US6360232B1 (en) | Disaster recovery method for a removable media library | |
US7069465B2 (en) | Method and apparatus for reliable failover involving incomplete raid disk writes in a clustering system | |
JP3184748B2 (ja) | データ記憶ライブラリ・システム及び関連する装置・方法 | |
US5634109A (en) | Method and system for enhanced data management efficiency in memory subsystems utilizing redundant arrays of disk memory devices and a nonvolatile cache | |
JPH04230512A (ja) | Dasdアレイのための更新記録方法及び装置 | |
JP2001142778A (ja) | キャッシュ・メモリを管理する方法、多重細分性キャッシュ・メモリ・システム、及び該システムを制御するメモリ媒体 | |
US5420983A (en) | Method for merging memory blocks, fetching associated disk chunk, merging memory blocks with the disk chunk, and writing the merged data | |
JPH10105344A (ja) | データ記録装置システム及びそのデータ書込方法 | |
JP2001188710A (ja) | データ・セットをアクセスする方法、システム、及び製造物 | |
US7073029B2 (en) | Storage system using fast storage and log-structured storage | |
JPH10254642A (ja) | 記憶装置システム | |
JP3409627B2 (ja) | 記憶装置システム | |
KR19980047273A (ko) | 레이드 레벨 5 시스템에서 캐쉬 관리 방법 | |
US6233697B1 (en) | Storage apparatus system having redundancy in a rail configuration | |
JPH10254645A (ja) | 記憶装置および記憶装置サブシステム | |
JPS6045855A (ja) | 磁気ディスク装置の順次アクセス検出方法 | |
JPH10254634A (ja) | 記憶装置および記憶装置の復旧手段 | |
JP3236166B2 (ja) | キャッシュ制御方法および情報処理装置 | |
JP2570614B2 (ja) | デイスクアレイ装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090320 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090320 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100320 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110320 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110320 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120320 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130320 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130320 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140320 Year of fee payment: 11 |
|
LAPS | Cancellation because of no payment of annual fees |