JP3742405B2 - 記憶システム - Google Patents
記憶システム Download PDFInfo
- Publication number
- JP3742405B2 JP3742405B2 JP2003176520A JP2003176520A JP3742405B2 JP 3742405 B2 JP3742405 B2 JP 3742405B2 JP 2003176520 A JP2003176520 A JP 2003176520A JP 2003176520 A JP2003176520 A JP 2003176520A JP 3742405 B2 JP3742405 B2 JP 3742405B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- disk
- cache memory
- storage
- host
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Description
【発明の属する技術分野】
本発明は、大形計算機システムやネットワークシステム等に接続される磁気ディスク装置,磁気テープ装置,半導体記憶装置,または光ディスク装置等の記憶装置を制御する記憶制御装置を含む記憶システムに係り、特に、システムの拡張性が高く縮退運転や活線挿抜対応の可能な記憶システムに関する。
【0002】
【従来の技術】
従来、大形計算機に接続される記憶システムとして、例えば特開昭61−43742号公報に記載されているように、上位装置(CPU)に対するインタフェース(ホストアダプタ),キャッシュメモリ,及び磁気ディスク装置等の記憶装置に対するインタフェース(ディスクアダプタ)の相互間をホットライン(専用線)で接続しているものが知られている。
【0003】
図20は、従来の記憶システムの構成の概要を示す図である。同図において、201−1〜201nはそれぞれ複数の上位ホスト(CPU)に接続されるホストアダプタ(対上位論理モジュール)、202−1〜202−nは、共有の大形ディスク装置205に接続されるディスクアダプタ(記憶媒体接続用論理モジュール)、203は、複数のホストアダプタに共有のキャッシュメモリ、206は同様に共有の管理メモリである。従来装置では、各ホストアダプタ201−1〜201−nとキャッシュメモリ203の間、キャッシュメモリ203と各ディスクアダプタ202−1〜202−nの間、各ホストアダプタ201−1〜201−nと管理メモリ206の間、並びに管理メモリ206と各ディスクアダプタ201−2〜201−nの間は、それぞれ別々のホットライン207−1〜207−n及び208−1〜208−nによって接続されている。また、これらのホストアダプタ及びディスクアダプタの監視及び保守を行なう保守用プロセッサ(SVP,図示せず)も各々のホストアダプタ及びディスクアダプタにそれぞれ専用線を介して接続されている。
【0004】
【発明が解決しようとする課題】
上記従来技術では、上位装置に対するホストアダプタ(対上位接続論理モジュール)と、記憶装置に対するディスクアダプタ(対記憶媒体接続論理モジュール)と、キャッシュメモリ(キャッシュメモリモジュール)との各間がホットラインで接続されているため、装置構成が複雑になると共に、ホストアダプタ、キャッシュメモリ、ディスクアダプタ、ディスク装置等、装置としての拡張性に乏しくいわゆるスケーラブル(拡張及び縮小自在)なシステム構成が得られなかった。また、システムを多重化することにより障害発生時等に縮退運転(2台のうち1台を停止し他の1台だけで運転するなど)や活線挿抜対応(システムを動作したままで基板や回路の部品等を挿しかえるなど)を可能とすることがなにも配慮されておらず、このため、障害発生時の部品交換やシステムの制御プログラムをグレードアップするときには、システムを一時停止し対応しなければならない等の問題があった。
【0005】
従って、本発明の目的は、上記従来技術の問題点を解決し、コモンバス方式を採用することにより、システム構成(規模)に応じてホストアダプタ,記憶装置アダプタ等の各論理モジュールやキャッシュメモリ及び記憶媒体を接続することでスケーラブルなシステムを実現することができるようにすると共に、各論理モジュール,記憶媒体及びコモンバスの多重化により、縮退運転と各論理モジュール及び記憶媒体の活線挿抜対応とを可能とし、無停止で保守するとともに、ホストアダプタの変換部で上位装置からのフォーマットを記録装置用フォーマットに変換してデータ保証をすることができる記憶システムを提供することにある。
【0006】
【課題を解決するための手段】
前記課題を解決するために、本発明は主として次のような構成を採用する。
【0007】
上位装置に接続され、前記上位装置に対するインタフェースを構成する上位側接続論理装置と、
前記上位装置から転送される情報を記憶する記憶装置と、
前記記憶装置に接続され、前記記憶装置に対するインタフェースを構成する記憶装置側接続論理装置と、
前記上位側接続論理装置と前記記憶装置側接続論理装置との間で転送されるデータを一時的に記憶するキャッシュメモリ部と、
前記上位側接続論理装置及び前記記憶装置側接続論理装置及び前記キャッシュメモリ部のために制御情報を記憶する共有メモリ部と、を有する記憶システムであって、
この記憶システムは、
前記上位側接続論理装置と前記記憶装置側接続論理装置と前記共有メモリとに接続され、制御情報の転送を行う制御情報用バスと、前記上位側接続論理装置と前記記憶装置側接続論理装置と前記キャッシュメモリ部と前記共有メモリ部とに接続され、前記上位側接続論理装置と前記記憶装置側接続論理装置と前記キャッシュメモリ部との間のデータ転送を行うデータ転送用バスと、からなる二重化されたコモンバスと、前記上位装置のデータフォーマットを前記記憶装置用のデータフォーマットに変換するフォーマット変換部と、を含み、
前記フォーマット変換部は、前記上位装置からのデータのフォーマット変更をおこなった後に前記データ転送用バスを介して前記キャッシュメモリ部に変更後のデータを書き込む構成とする。
【0008】
また、上位装置に接続され、前記上位装置に対するインタフェースを構成する上位側接続論理装置と、
前記上位装置から転送される情報を記憶する記憶装置と、
前記記憶装置に接続され、前記記憶装置に対するインタフェースを構成する記憶装置側接続論理装置と、
前記上位側接続論理装置と前記記憶装置側接続論理装置との間で転送されるデータを一時的に記憶するキャッシュメモリ部と
前記上位側接続論理装置及び前記記憶装置側接続論理装置及び前記キャッシュメモリ部を制御する制御情報を記憶する共有メモリ部と、
前記上位側接続論理装置と前記記憶装置側接続論理装置と前記キャッシュメモリ部と前記共有メモリ部と、に接続される二重化されたコモンバスと、を有する記憶システムであって、
この記憶システムは、
前記上位装置接続論理装置は、前記上位装置からのデータフォーマットを前記記憶装置用のデータフォーマットに変換するフォーマット変換部と、を含み、
前記フォーマット変換部は、前記上位装置からのデータのフォーマット変更をおこなった後に前記コモンバスを介して前記キャッシュメモリ部に変更後のデータを書込む構成とする。
【0009】
【発明の実施の形態】
以下に、本発明の実施例を図面の図1から図18により説明する。
【0010】
図1は本発明の概念図を示す。図1により、本実施例の概要を説明する。
【0011】
1は、対上位CPU(ホスト)接続用論理モジュールであるホストアダプタ部、2は、対記憶媒体接続用論理モジュールであるディスクアダプタ部、3は、両モジュール間で転送されるデータを一時記憶するキャッシュメモリパッケージ(キャッシュメモリモジュール)、4はホストアダプタ1、ディスクアダプタ2、キャッシュメモリパッケージ3の間のデータ転送制御を司るコモンバス、5は、縦横にアレイ状に配置した記憶媒体である磁気ディスク群(以下「アレイディスク」という)である。ホストアダプタ1は、上位インタフェース側のデータ形式及びアドレス形式を記憶媒体インタフェース用のデータ形式及びアドレス形式に変換する手段と、これらを制御管理する二重化したマイクロプロセッサとを有している。ディスクアダプタ2は、記憶媒体へデータを格納するためのアドレス演算機能と、記憶データ保証用冗長データの生成機能と、記憶媒体構成情報を認識する機能と、これらを制御管理するマイクロプロセッサとを有している。
【0012】
図1において、上位装置(CPU)から送られてきた書き込みデータは、ホストアダプタ1からコモンバス4を介して一度キャッシュメモリパッケージ3に書き込むことにより上位に終了報告を行い、その後の空き時間でキャッシュメモリパッケージ3からディスクアダプタ2を経由してアレイディスク5に書き込む。
【0013】
また、上位装置からのデータ読み出し命令に対しては、キャッシュメモリパッケージ3上にデータが存在する場合はアレイディスク5からは読み出さず、キャッシュメモリパッケージ3上のデータを上位装置に転送する。一方キャッシュメモリパッケージ3上にデータが存在しない場合は、アレイディスク5からディスクアダプタ2によりコモンバス4を経由して一度キャッシュメモリパッケージ3に書き込まれた後同様にホストアダプタ1を経由して上位装置へ転送する。
【0014】
コモンバス4上のホストアダプタ1、ディスクアダプタ2、キャッシュメモリパッケージ3各々はその接続数を任意に変えることができる。ホストアダプタ1の実装数を変えれば対上位接続パス数が変化し、上位ホストに対するデータ転送力を高めることができる。ディスクアダプタ2の実装数を変えれば記憶媒体に対する接続パス数が変化し、記憶媒体に対するデータの書き込み/読み出しの転送能力を高めることができる。また、同時に記憶媒体の数も増加することができる。キャッシュメモリパッケージ3の実装数を変えればデータの一時格納場所であるキャッシュメモリの容量が変化し、記憶媒体の総容量に対するキャッシュメモリの容量の比率を高めることができるので、対上位装置からアクセスするデータがキャッシュメモリ上に存在する確率(以下「キャッシュヒット率」という)を高める等スケーラブルな装置構成を実現できる。
【0015】
図2は、図1の概念図の詳細な構成図を示したものである。図2は、図1の複数台のホストアダプタ及び複数台のディスクアダプタのうち、それぞれ1台だけを示し、他は図示を省略している。
【0016】
ホストアダプタ1において、6はホストインターフェイスの光信号を電気信号に変換する信号変換部、7は上位データフォーマットをアレイディスク5用フォーマットに変換するフォーマット変換部である。8はコモンバス4とのデータの授受を司るデータ転送制御部で、内部にパケット転送単位のデータを格納する記憶バッファを内蔵している。9は活線挿抜対応可能な小振幅電流駆動形バスドライバ(以下「BTL」という)である。
【0017】
ホストからのデータ転送要求は10のマイクロプロセッサ(以下「MP」という)に引継がれ、ホストアダプタ1内のデータ転送制御は当MP10の管理下で行われる。
【0018】
MP10はMP内の障害発生を検出するなど高信頼性を確保するために2重化されており、11のチェッカ部で同じ動作をする2重化されたMP10とMP10’を比較チェックしている。
【0019】
12はMP10の制御プログラムを格納するブートデバイスで、このブートデバイス12には書き替え可能な大容量フラッシュメモリを採用しており、またMP10は必要に応じて13のローカルメモリに制御プログラムをコピーして使用することにより、MP10のメモリアクセス時間の高速化を実現しており、図中破線で囲まれた部分29がチャネルアダプタモジュールであり、ホストアダプタ1には当モジュール29が2回路搭載してある。
【0020】
ディスクアダプタ2において、14はアレイディスクに書き込むデータをセクタ単位に格納するバッファメモリ、15はバッファメモリ14の制御及びデータ転送制御を行なうデータ制御バッファ部、16はアレイディスク5に書き込むデータを保証するための冗長データを生成する冗長データ生成部、17はアレイディスク5(ターゲット)に対するイニシエータ(SCSIのマスタ側インタフェース)である。
【0021】
またディスクアダプタ2内のデータ転送制御は、ホストアダプタ1と同じ構成をとるMP周辺部(MP10,MP10’,チェッカ11、ブートデバイス12、ローカルメモリ13からなりディスクアダプタ用の制御プログラムを搭載する)の管理下で行なわれる。
【0022】
アレイディスク5は、図2では4つのディスク(ターゲット)しか示してないが、実際には1台のディスクアダプタ2に対し例えば4(横)×4(縦)〜4(横)×7(縦)つのディスクで構成される。横列はECCグループ(ErrorCorrection Group)を構成し、各ECCグループは例えば3つのデータディスクと1つのパリティディスクで構成される。更に、後述のように、このようなアレイディスク5の1組に対し、二重化されたホストアダプタト二重化されたホストアダプタと二重化されたディスクアダプタを通じて、あるCPUからアクセスできるようになっている。そして、ホストアダプタの一方に障害が発生したときには、ホストアダプタの他方もしくはディスクアダプタの他方を通じて、同じCPUから同じアレイディスクにアクセスすることができる。
【0023】
キャッシュメモリパッケージ3において、18は各アダプタのMP10が共通にアクセス可能で種々の管理情報を記憶する共有メモリ部、19は共有メモリ制御部、20はキャッシュメモリ部、21はキャッシュメモリ制御部であり、両メモリ制御部19、21は共にメモリ書き込みデータ保証の為のECC生成回路、読み出しデータの検査及び訂正回路を内蔵し、キャッシュメモリパッケージ3全体で最大1GBのキャッシュ容量を実現しており、装置構成上は2面化して実装している。
【0024】
キャッシュメモリ容量を更に増設する場合は、キャッシュメモリパッケージ3の代わりに(または、キャッシュメモリパッケージ3に加えて)22で示すキャッシュポートパッケージを実装し、23で示すプラッタ(基板差し込み板)間接続ケーブルを介して24で示すキャッシュユニットに接続し、(すなわち、増設ユニット24内のキャッシュメモリには、キャッシュポートパッケージ22及びケーブル23を介してアクセスできるように構成され)、これによって、最大8GB2面までキャッシュ容量を増設することができる。図2では、キャッシュメモリパッケージ2を2面設けたのに加えて、キャッシュポートパッケージ22を実装し、これにケーブル24を介していくつかのキャッシュユニット24を接続した場合を示している。
【0025】
以上述べたホストアダプタ1、ディスクアダプタ2、キャッシュメモリパッケージ3はコモンバス4を介してつながっているが、このコモンバス中、25は各アダプタのMP10が共有メモリをアクセスするためのマルチプロセッサバス(以下「Mバス」という)、26は高速データ転送を行う高速I/Oバス(以下「Fバス」という)である。
【0026】
高速I/Oバス26は通常は64ビット幅で2系統同時に動作しているが、障害発生時はどちらか1系統のみでの縮退動作が可能であり、またMバス25に障害が発生した場合はFバス26のどちらか1系統を使用して動作可能である。
【0027】
更に活線挿抜対応(挿抜の際、挿抜部品の負荷を小さくして挿抜を行なうことで、システムを稼動状態のまま挿抜を可能とする)のBTL9をコモンバス4のインターフェイスにすることで、ホストアダプタ1に障害が発生した場合、システムは自動的に本障害パスを閉塞し他のホストアダプタのパスを用いてアレイディスク5に対し対上位(同じCPU)からのアクセスを継続する。保守員は、システム稼働状態において障害の発生したホストアダプタ1を取り除き、正常なホストアダプタ1をシステムに挿入し、27の保守用プロセッサ(以下「SVP」という)から28のLANを介して復旧の指示を与え、システムは交換されたホストアダプタ1の動作をチェックし正常であれば閉塞パスを復旧させることにより、無停止運転を実現している。なお、図中LANCは、LAN Controller(SVPインタフェースコントローラ)である。SVP27は、他のホストアダプタ及びディスクアダプタにも同様に接続され、監視及び保守が行なわれるようになっている。
【0028】
また、各アダプタの制御プログラムに変更がある場合は、SVP27からLAN28を介してブートデバイス12内にある制御プログラムの内容を書き替えることにより無停止のアップグレードが可能である。
【0029】
即ち、システムの制御プログラムをアップグレードを実施する場合は、まずホストアダプタ/ディスクアダプタの各モジュールを1モジュールずつ閉塞し、制御プログラムのアップグレードを行い再接続する。以上のように1モジュールずつの制御プログラムの入れ換え操作を繰り返すことにより、系全体の制御プログラム入れ換えが実施される。
【0030】
図3は、図2に示した構成図に沿ってデータの流れとデータの保証を示した図である。
【0031】
上位からアレイディスクにデータを書き込む場合、例えばESCON(光チャネルの商標名、IBM社)から、先ず書き込み先の記憶空間上の物理アドレス情報(以下「PA」という)が送られて来た後、データ(CKD(Count Key Data)フォーマット)+CRCコードが送られてくる。これらの光信号は信号変換部6で電気信号に変換すると共にパリティを生成し、フォーマット変換部7ではデータフォーマットをFBA(Fired Blocked Architecture)フォーマットに変換すると共にLRC(Longitudinal Redundancy Check,長手方向冗長度チェック)コードを付加し、更にPAをデータの一部として取り込んでアレイディスク上の論理アドレス(以下「LA」という)を生成した後これら総ての情報に対してパリティを付加してFバス26に送られる。
【0032】
キャッシュパッケージ3では、Fバス26からのデータに対して誤り訂正可能なECCを付加してキャッシュメモリ20に書き込む。
【0033】
ディスクアダプタ2では、Fバスからのデータに対して更にCRCコードが付加され、該データSCSIインターフェースを介してアレイディスク5に送られ、磁気ディスク装置個々にECCを付加して書き込みデータを保証している。
【0034】
アレイディスク5からのデータ読み出しにおいても同様に、各チェックコードを元に読み出しデータの検査/訂正を行い信頼性を高めている。
【0035】
以上のように、チェックコードはデータの長さ方向に対してはある長さ毎の水平チェック、データの垂直(幅)方向に対しては(例えばバイト単位の)垂直チェックで2重化されており、また転送が行われる領域間(図中一点鎖線)では当該2重化チェックコードのうち1つを必ずデータとして受け渡すことによりデータ保証に万全を期している。
【0036】
図4は図1で述べたスケーラビリティを実現するための装置外観図であり、41はアレイディスクを制御する制御ユニット部、42はアレイディスクを実装するアレイユニット部で、本装置はこの2つのユニットで構成される。
【0037】
図5は制御ユニット41の実装図で(a)は正面図、(b)は側面図を表わす。51はホストアダプタ1、ディスクアダプタ2、キャッシュメモリパッケージ3を実装する論理架部、52は停電時に揮発メモリであるキャッシュメモリ部に電源を供給するバッテリ部、53はキャッシュメモリ増設時にキャッシュユニット24及び増設メモリ用の追加バッテリを実装するキャッシュメモリ増設部、54はSVP実装部、55は論理架に電源を供給する論理架用スイッチング電源、56はアレイディスクの構成(容量)が小規模の場合のアレイディスク実装部、57はアレイディスク部に電源を供給するアレイディスク用スイッチング電源、58は両スイッチング電源55、57に電源を供給する商用電源制御部である。
【0038】
図6は大容量アレイディスクを構成するときのアレイユニット部の実装図で(a)は正面図、(b)は側面図を表わす。
【0039】
アレイディスク実装部56は、磁気ディスク装置を最大112台(8行x7列x2)実装可能であり、各磁気ディスク装置に障害が発生した場合の装置の入れ替えを容易にするために、装置の正面と背面の両面から挿抜可能となるような実装方式をとっている。
【0040】
61はユニット全体の発熱を逃がすための冷却ファンで、冷却効果を高めると共に、騒音抑止の観点から小さな冷却ファンを使って小区分化し、床面より天井へ送風する構造をとっている。
【0041】
図7は図5で説明した論理架部の接続方式図である。
【0042】
71はコモンバス4をプリント配線したプラッタ(基板の挿し込み用の板)であり、72は各アダプタ、パッケージとプラッタ71を接続するためのコネクタである。
【0043】
ホストアダプタ1、ディスクアダプタ2、キャッシュメモリパッケージ3の間のデータ転送はコモンバス4を介して行うため、各アダプタ、パッケージはコネクタ72上の任意のどの位置でも接続可能となり、ホストアダプタ1の実装数、ディスクアダプタ2の実装数を自由に変えることができる。
【0044】
一方、キャッシュ容量を増設する場合はキャッシュメモリパッケージ3をキャッシュポートパッケージ22に変えて実装するか、または図7に示すように、キャッシュメモリパッケージ3に加えてキャッシュポートパッケージ21を実装し、これに、接続ケーブル23を介してキャッシュユニット43(図2の24に相当)に接続することにより、もとの2GBの容量に加えて更に最大8GB2面分のキャッシュメモリ容量を拡張できる。
【0045】
図8は図5で示した論理架部の実装イメージ図である。
【0046】
図8で、コモンバス4は、プラッタ71上を左右方向にプリント配線されており、このプラッタ71に対して、キャッシュポートパッケージ22の基板(CP)の取付部、キャッシュメモリパッケージ3の基板(C)の取付部、ホストアダプタモジュールの基板(H)の取付部、及びディスクアダプタモジュールの基板(D)の取付部が設けられ、図の矢印84で示すように、各基板は、挿抜操作面側から着脱されるようになっていて、プラッタ71に差し込まれるとコモンバス4と電気接続されるものである。
【0047】
81は、ホストアダプタ1の基板上の下方部に実装されて、対上位インターフェイスを司る光コネクタ部、82はディスクアダプタ2の基板上の下方部に実装されて、アレイディスク5と接続するSCSIコネクタ部、83はキャッシュポートパッケージ22を実装したときの接続ケーブル23用の接続コネクタ部である。85は、キャシュメモリパッケージ3の基板(C)の下方部に取付けたキャッシュメモリ本体(図2のキャッシュメモリ20)である。
【0048】
各コネクタ部は、障害発生等で各アダプタ、パッケージを挿抜する際の操作性を向上させるため、接続コネクタ83を除き、操作面84側へは実装せず、プラッタ71の接続側に集中実装している。
【0049】
図9は本発明のソフトウエア構成を示した図である。
【0050】
91はホストアダプタ1のブートデバイス12に書き込まれるチャネルアダプタ制御プログラム(以下「CHP」という),である。また、ディスクアダプタ2のブートデバイス12に書き込まれるディスクアダプタ制御プログラムのうち、92はアレイディスク固有の処理およびキャッシュメモリとアレイディスク間のデータ転送制御を受け持つディスクアダプタマスタ制御プログラム(以下「DMP」という),93はDMP92の制御管理下でキャッシュメモリ20とアレイディスク5の間のデータ転送制御を受け持つディスクアダプタスレーブ制御プログラム(以下「DSP」という)である。
【0051】
ディスクアダプタ2のブートデバイス12には、DMP92とDSP93の2種類が書き込まれているが、装置構成上nセットのディスクアダプタでアレイディスクにアクセスする場合、そのうちの2セットがDMP92として動作(2重化)し、残るn−2のディスクアダプタがDSP93として動作する。
【0052】
94はSVP27に搭載するSVP制御プログラムで、CHP91,DMP92,DSP93を監視及び保守するとともに、各制御プログラムの更新時はSVP27から更新したいMPの制御プログラムを直接、または他のMPから当該MPの制御プログラムを更新することができる。
【0053】
図10はデータの流れに基づいた図9で示したソフトウエア構成の機能分担を示した図である。
【0054】
CHP91は、上位からのアドレス形式及びデータ形式を下位アドレス形式及びデータ形式に変換し、キャッシュメモリに書き込む。101はセグメント、102はブロック、103はアレイディスク5上の磁気ディスク1台当りに書き込むデータ量を表すストライプである。DMP92は、キャッシュメモリ上からストライプ単位にデータを読み出し、下位アドレスをアレイディスクの行NO,列NO,FBA,ブロック数に変換し、DSP93でアレイディスクにデータを書き込む。
【0055】
また、DMP92はアレイディスク5の構成情報も管理している。
【0056】
以上のように、各制御プログラムを機能分担することにより、上位インタフェースをSCSIやファイバーチャネル等に変更する場合はCHP91のみ、またアレイディスク構成を変更(ディスクの行数/列数、RAID(Redundant Array Inexpensive Disk)方式等)する場合はDMP92のみの変更で対応可能であり、ホストアダプタ1、ディスクアダプタ2の接続変更に合わせて各制御プログラムを書き替えることで、スケーラビリティを実現するとともに、ソフトウエア開発の負荷も軽減している。
【0057】
図11はコモンバス4の2重化の考え方と縮退動作を説明した図である。
【0058】
111はコモンバス4の使用権を獲得することのできるバスマスタ(MP10を搭載しているホストアダプタ1又はディスクアダプタ2)、112はバスマスタ111からのアクセス要求を受けるバススレーブ(キャッシュメモリパッケージ)である。
【0059】
Fバス26は通常動作状態では64ビットバス(200MB/S)2系統を同時に動作させ400MB/Sを実現しており、各バス系統はパリティチェック又はタイムアウトで障害を検出可能である。障害発生時はバスマスタ111は各自縮退状態に入り、残る1系統を使ってバススレーブをアクセスすると共に、この時の縮退情報は共有メモリ18上の管理エリアに登録される。
【0060】
またコモンバス内のシステム制御信号(バスリセット等)は信号線を3重化しており、通常動作時は3線一致、縮退動作時は2線一致(多数決)方式を採用することにより信頼性を高めている。
【0061】
図12は装置各部位における多重化と縮退運転を示した図である。
【0062】
121は2ポート化されたチャネルパスであり、ホストアダプタ1にはチャネルアダプタ29が2モジュール、対上位用のチャネルパスが4パス実装しており、障害発生時は交替チャネルアダプタ(CHP)、交替チャネルパスを使用して縮退運転に入る。
【0063】
122はディスクアダプタ2とアレイディスク5の間のインタフェースを司るSCSIパスで、1行の磁気ディスク群に対して別のディスクアダプタ2からもアクセス可能なように2重化しており、当パスに障害が発生した場合は交替SCSIパスを使用して縮退運転に入る。また、アレイディスクマスタ制御を行うDMP92も2重化しており、障害発生時は交替DMP92を使用して縮退運転に入る。
【0064】
共有メモリ18、キャッシュメモリ20も2重化しており、共有メモリに障害が発生した場合は残るもう一方の使用して縮退運転に入り、キャッシュメモリに障害が発生した場合はライトペンディングデータ(キャッシュメモリ上に残っているデータ)をディスクにデステージし障害発生メモリ部位を除いたメモリで縮退運転を行う。
【0065】
アレイディスク5上の磁気ディスクに障害が発生した場合は、当該磁気ディスクを切り離し予備の磁気ディスクに修復しながら読み出し書き込み動作を行う。
【0066】
図13は装置の電源系の多重化と縮退運転を示した図である。商用電源制御部58は各々独立したAC入力で2重化して、論理架用スイッチング電源55及びアレイディスク用スイッチング電源57にそれぞれ供給しているため、障害発生時はもう片方の商用電源制御部58で縮退運転に入る。
【0067】
131は上位ホストからの電源ON/OFFの遠隔制御や商用電源制御部58、両スイッチング電源等の電源回路を制御する電源制御回路(以下「PCI」という)である。
【0068】
論理架用スイッチング電源55は冗長運転用として必要数より2回路多く実装し電源コモンバスを介して論理架51及びバッテリ52に供給することにより、当スイッチング電源55が2回路故障しても動作可能である。
【0069】
同様に列単位の磁気ディスク群に供給するにアレイディスク用スイッチング電源57も、冗長運転用として2回路多く実装し電源コモンバスを介して供給することにより、当スイッチング電源57が2回路故障しても動作可能であり、さらに両スイッチング電源55、57を2重化するよりも安価な構成に仕上げることができる。
【0070】
また停電時においては、2重化されたバッテリ52から電源コモンバスを介して論理架内の揮発メモリであるキャッシュメモリ及びPCI131に供給され、片方のバッテリが故障しても動作可能である。
【0071】
図14及び図15はアレイディスクに使用する磁気ディスク装置単体の記憶容量別にアレイディスクを構成したときのシステム性能を比較した図である。
【0072】
図14はそれぞれ異なる磁気ディスク装置を使用して同一容量のアレイディスクを実現した場合の構成を示しており、項番141が3GBの磁気ディスク装置(3.5インチ径のディスクを使用)、項番142が4.0GBの磁気ディスク装置(5インチ径のディスクを使用)、項番143が8.4GBの磁気ディスク装置(6.4インチ径のディスクを使用)を使用している。アレイ構成は、ディスク装置141が14枚のデータディスクの2枚のパリティディスク、ディスク装置142が14枚のデータディスクと4枚のパリティディスク、ディスク装置143が14枚のデータディスクと2枚のパリティディスクで構成した場合である。
【0073】
図15は各磁気ディスク装置141、142、143についての毎秒当りのI/O命令発行件数と平均応答時間の関係を示しており、アレイディスクシステムとしてのトランザクション性能を向上させるためには、小容量(小径)の磁気ディスク装置を使用してアレイ構成を大きくすることが最も性能を引き出せることから、本発明に於ては3.5インチ磁気ディスク装置141を採用してアレイディスクシステムを実現している。従って、同じ記憶容量の磁気ディスク装置を、従来のように大形磁気ディスク装置1台で構成するのと、複数台の小形磁気ディスク装置のアレイで構成するのとでは、後者の小形磁気ディスク装置を多数用いたアレイ構成のものの方が、平均アクセスタイムを短縮できる点で有利である。
【0074】
以上説明してきたスケーラブルなアーキテクチャを使用して実現できる装置モデル構成例を図16〜図19にしめす。
【0075】
図16は、コモンバス4上のディスクアダプタ2の実装数を減らし、更にキャッシュポートパッケージ22を実装し、接続ケーブル23を介してキャッシュユニット24に接続することにより、キャッシュヒット率の高める高性能大容量キャッシュメモリ付小形ディスクアレイを実現した時の構成図である。
【0076】
またディスクアダプタ2を実装しないで、ホストアダプタ1とキャッシュメモリのみで構成した場合(図中の破線内の構成)は、記憶媒体が磁気ディスクから半導体メモリに代わり、更に高速データ転送可能な高性能の半導体ディスク装置を実現する。
【0077】
図17はディスクアダプタ2を最大構成とし、キャッシュパッケージ3を実装し又はキャッシュポート22を実装し接続ケーブル23を介してキャッシュユニットを接続することにより、高性能大容量キャッシュメモリ付大形ディスクアレイを実現した時の構成図である。
【0078】
図18はホストアダプタ1の対上位インターフェースをSCSI/ファイバーチャネル等のインターフェースに変えて、ディスクアダプタ2の実装数を減らし、更にFバス26のビット幅を半分に縮小した2系統で構成することにより、オープン市場をターゲットにした無停止運転の高性能フォールトトレラント(高信頼性)サーバシステムを実現した時の構成図である。
【0079】
図19は図18の構成を元に2重化、活線挿抜を考慮せずに、最もシンプルな構成をとることによって安価なオープン市場向けのサーバシステムを実現した時の構成図である。なお、図中、4D+1Pは、データディスク4枚とパリティディスク1枚の趣旨である。
【0080】
以上の実施例において、コモンバス4上に、更に光ディスクアダプタ(光ディスク用接続論理モジュール)を介して光ディスク装置を接続し、磁気テープ制御装置(磁気ディスク接続論理モジュール)を介して磁気テープ装置を接続し、あるいは半導体記憶装置接続論理モジュールを介して半導体記憶装置を接続することができる。また、コモンバス4上に別の形式のホストアダプタを介してワークステーションを接続することもできる。このように、コモンバス上に、種々の形式の記憶装置に対する記憶媒体アダプタを接続することができる。
【0081】
【発明の効果】
以上詳しく説明したように、本発明によれば、上位装置に対するインタフェースを構成する複数の上位側接続論理装置と、記憶装置と、前記記憶装置に対するインタフェースを構成する複数の記憶装置側接続論理装置と、これらの装置間で転送されるデータを一時記憶するキャッシュメモリ装置(複数の上位側接続論理装置及び複数の記憶装置側接続論理装置に共有されるキャッシュメモリ装置)とを有する記憶システムにおいて、前記複数の上位装置側接続論理装置,複数の記憶装置側接続論理装置,及びキャッシュメモリ装置は、これらの装置に共有されるコモンバスにより相互に接続されるように構成したので、上位側接続論理装置と記憶装置側接続論理装置とキャッシュメモリの増設または変更は、単にコモンバス上にこれらの装置等を追加しまたは変更して行くだけでよく、増設によるアップグレードが容易に達成できスケーラブルなシステム構成を得ることができる。また、これらの上位側接続論理装置,記憶装置側接続論理装置及びキャッシュメモリ装置は、モジュール化されて、コモンバスの配設されたプラッタに挿抜(着脱)自在に取り付けるようにしたので、これらの装置の必要な数量の増設作業も簡単であるという効果がある。
【0082】
また、上位側接続論理装置,記憶装置側接続論理装置、キャッシュメモリ装置,及びこれらの間を接続するコモンバスは、二重化され、2系統に分けて配線されているので、これらの装置の一方に障害が発生したときでも、他方の装置を用いて縮退運転が可能である。この場合、上位側接続論理装置,記憶装置側接続論理装置,及びキャッシュメモリ装置は、いずれも活線挿抜対応のコネクタ部を具備しているので、システムを停止することなく保守点検を行なって故障部品の交換を行なったり、増設用の部品を追加したりすることが可能であるという効果がある。
【0083】
更に、記憶装置は、複数の小形記憶装置を組み合わせたアレイ形とされ、これにより従来の大形ディスク装置1台を用いたものに比べてアクセスタイムを短縮できるという効果がある。
【0084】
また、キャッシュメモリ装置は、コモンバスに直接取り付けられるキャッシュメモリモジュール(キャッシュメモリパッケージ)と、増設用のキャッシュユニットとで構成され、増設用のキャッシュユニットは、コモンバスに直接挿抜自在に取り付けられる増設用のキャッシュポートパッケージを介して必要数接続されるようになっているので、簡単に増減することができるという効果も得られる。
【0085】
また、上位側接続論理装置に設けられたデータフォーマット変換部によって、上位装置のデータフォーマットを記憶装置用のデータフォーマットに変換を行うとともに、データ保証を確保している。
【0086】
以上により、高信頼性の記憶システムを得ることができる。
【図面の簡単な説明】
【図1】本発明の実施例の概要を示す概念図である。
【図2】本発明の一実施例の記憶システムの詳細な構成図である。
【図3】図2の構成図に沿ったデータの流れとデータ形式を示した図である。
【図4】本発明の一実施例の装置外観図である。
【図5】本発明の一実施例の装置における制御ユニット部の実装方式図である。
【図6】本発明の一実施例の装置におけるアレイディスクユニット部の実装方式図である。
【図7】本発明の一実施例の装置における論理架部の接続方式図である。
【図8】本発明の一実施例の装置における論理架部の実装方式図である。
【図9】本発明の実施例に適用されるソフトウエア構成図である。
【図10】本発明の実施例によるデータの流れとソフトウエアの機能分担を示した図である。
【図11】本発明の実施例によるコモンバスの2重化と縮退動作を示した図である。
【図12】本発明の実施例による装置各部位の2重化と縮退運転を示した図である。
【図13】本発明の実施例による装置の電源系の多重化と縮退運転を示した図である。
【図14】アレイディスクに使用する磁気ディスク装置単体のディスク構成を示す図である。
【図15】磁気ディスク装置の記憶容量とアレイディスクのシステム性能を示した図である。
【図16】高性能大容量キャッシュメモリ付小形ディスクアレイの構成図である。
【図17】高性能大容量キャッシュメモリ付大形ディスクアレイの構成図である。
【図18】高性能フォールトトレラントサーバシステムの構成図である。
【図19】低価格サーバシステムの構成図である。
【図20】従来の記憶システムの概略構成図である。
【符号の説明】
1 ホストアダプタ
2 ディスクアダプタ
3 キャッシュメモリパッケージ
4 コモンバス
5 アレイディスク
18 共有メモリ
20 キャッシュメモリ
22 キャッシュポートパッケージ
24 増設キャッシュユニット
25 マルチプロセッサバス
26 高速I/Oバス
Claims (4)
- 上位装置に接続され、前記上位装置に対するインタフェースを構成する上位側接続論理装置と、
前記上位装置から転送される情報を記憶する記憶装置と、
前記記憶装置に接続され、前記記憶装置に対するインタフェースを構成する記憶装置側接続論理装置と、
前記上位側接続論理装置と前記記憶装置側接続論理装置との間で転送されるデータを一時的に記憶するキャッシュメモリ部と、
を有する記憶システムであって、
前記上位側接続論理装置は、
前記上位装置から転送されるCKDデータフォーマットのデータを前記記憶装置用のFBAデータフォーマットに変換するフォーマット変換部を有し、
前記上位装置から転送されるCKDフォーマットのデータは、前記上位側接続論理装置が有する前記フォーマット変換部によって、FBAデータフォーマットに変換された後に、前記キャッシュメモリ部に格納される
ことを特徴とする記憶システム。 - 前記上位側接続論理装置は、
前記上位装置から送信される、前記記憶装置の記憶空間上の物理アドレス情報とCKDデータフォーマットのデータとCRCコードとを受領し、
前記データフォーマット変換部は、前記CKDデータフォーマットのデータをFBAデータフォーマットに変換し、前記物理アドレスをデータの一部として取り込んで前記記憶装置上の論理アドレスを生成した後に、前記キャッシュメモリ部に変更後のデータが格納されることを特徴とする請求項1に記載の記憶システム。 - 前記上位装置から転送されるCKDデータフォーマットのデータは、前記キャッシュメモリ部に変換後のデータが格納される前に、誤り訂正可能なECCを付加されることを特徴とする請求項2記載の記憶システム。
- 前記記憶装置側接続論理装置は、前記キャッシュメモリ部に格納されたFBAフォーマットのデータに、さらにCRCコードを付加して前記記憶装置に格納することを特徴とする請求項1乃至3記載の記憶システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003176520A JP3742405B2 (ja) | 2003-06-20 | 2003-06-20 | 記憶システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003176520A JP3742405B2 (ja) | 2003-06-20 | 2003-06-20 | 記憶システム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001220441A Division JP3547411B2 (ja) | 2001-07-19 | 2001-07-19 | 記憶システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003345530A JP2003345530A (ja) | 2003-12-05 |
JP3742405B2 true JP3742405B2 (ja) | 2006-02-01 |
Family
ID=29774858
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003176520A Expired - Lifetime JP3742405B2 (ja) | 2003-06-20 | 2003-06-20 | 記憶システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3742405B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050228943A1 (en) * | 2004-04-02 | 2005-10-13 | Decenzo David P | Multipath redundant storage system architecture and method |
JP4664191B2 (ja) | 2005-11-16 | 2011-04-06 | 富士通株式会社 | ディスクコントローラ |
JP4511455B2 (ja) * | 2005-12-20 | 2010-07-28 | 富士通株式会社 | ファイバーチャネルスイッチおよびそれを用いたコンピュータシステム |
JP5068300B2 (ja) | 2009-11-24 | 2012-11-07 | インターナショナル・ビジネス・マシーンズ・コーポレーション | データフロー及びプロセッサのメモリ共有化ための装置、方法及びプログラム |
US8572336B2 (en) | 2010-10-14 | 2013-10-29 | Hitachi, Ltd. | Storage control apparatus and storage control apparatus memory control method |
-
2003
- 2003-06-20 JP JP2003176520A patent/JP3742405B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2003345530A (ja) | 2003-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3264465B2 (ja) | 記憶システム | |
US8117376B2 (en) | Storage system and control method thereof | |
US7600152B2 (en) | Configuring cache memory from a storage controller | |
US7562264B2 (en) | Fault tolerant soft error detection for storage subsystems | |
US8301810B2 (en) | SAS storage virtualization controller, subsystem and system using the same, and method therefor | |
US6061750A (en) | Failover system for a DASD storage controller reconfiguring a first processor, a bridge, a second host adaptor, and a second device adaptor upon a second processor failure | |
US8677181B2 (en) | Storage apparatus and method of detecting power failure in storage apparatus | |
US20050154942A1 (en) | Disk array system and method for controlling disk array system | |
US7475279B2 (en) | Data storage system, data storage control device, and write error diagnosis method for disks thereof | |
AU1417097A (en) | A method and apparatus for management of faulty data in a redundant array of inexpensive disks (RAID) system | |
JP2007011687A (ja) | ストレージシステム、ストレージ制御装置及びストレージ制御方法 | |
JPH07230362A (ja) | ディスクアレイ装置 | |
US8381027B1 (en) | Determining alternate paths in faulted systems | |
JP3742405B2 (ja) | 記憶システム | |
JP3547411B2 (ja) | 記憶システム | |
JP3653197B2 (ja) | ディスク制御装置 | |
JP2005004791A (ja) | ディスク制御装置 | |
JP2004303256A (ja) | 記憶システム | |
JP3793544B2 (ja) | ディスクアレイ装置及びその制御方法 | |
US20130212302A1 (en) | Disk array apparatus | |
JP3234211B2 (ja) | ディスクアレイシステム | |
JPH11353776A (ja) | ディスクアレイ制御装置 | |
JP2007200357A (ja) | ディスク制御装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050726 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050922 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20051101 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20051110 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091118 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101118 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101118 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111118 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111118 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121118 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121118 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131118 Year of fee payment: 8 |
|
EXPY | Cancellation because of completion of term |