JP4404754B2 - データストレージ装置及び情報処理システム - Google Patents

データストレージ装置及び情報処理システム Download PDF

Info

Publication number
JP4404754B2
JP4404754B2 JP2004347411A JP2004347411A JP4404754B2 JP 4404754 B2 JP4404754 B2 JP 4404754B2 JP 2004347411 A JP2004347411 A JP 2004347411A JP 2004347411 A JP2004347411 A JP 2004347411A JP 4404754 B2 JP4404754 B2 JP 4404754B2
Authority
JP
Japan
Prior art keywords
unit
interface
units
cache manager
cache
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004347411A
Other languages
English (en)
Other versions
JP2006155392A (ja
Inventor
成介 小原
和則 増山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2004347411A priority Critical patent/JP4404754B2/ja
Priority to EP05253250.4A priority patent/EP1662369B1/en
Priority to EP10190560.2A priority patent/EP2296085B1/en
Priority to US11/138,299 priority patent/US20060117159A1/en
Priority to KR1020050053785A priority patent/KR100736645B1/ko
Priority to CNB2005100796426A priority patent/CN100347655C/zh
Publication of JP2006155392A publication Critical patent/JP2006155392A/ja
Application granted granted Critical
Publication of JP4404754B2 publication Critical patent/JP4404754B2/ja
Priority to US14/248,777 priority patent/US20140223097A1/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、コンピュータの外部記憶装置として用いられるデータストレージ装置(ディスクアレイ装置)の構成に関し、より具体的には、データストレージ装置を高性能且つ柔軟に構成できるようなユニットの組み合わせと接続に関する。
近年、様々なデータが電子化されコンピュータ上で扱われるようになるに従い、データに対して処理を実行するホストコンピュータとは独立して大量のデータを効率よく、高い信頼性で格納することのできるデータストレージ装置(外部記憶装置)の重要性が増してきている。
データストレージ装置として、大量のディスク(例えば、磁気テープや光ディスク)と、これら大量のディスクに対する制御を行なうディスクコントローラとから構成されるディスクアレイ装置が利用されており、このディスクアレイ装置は、同時に複数のホストコンピュータからのディスクアクセス要求を受け付けて、大量のディスクに対する制御を行なうことができるようになっている。
近年では、ディスク数1000台以上、容量では数百テラバイト以上のディスクを制御できるディスクアレイ装置も登場している。
このようなディスクアレイ装置はRAID(Redundant Arrays of Inexpensive Disks)技術を取り入れることにより、単純なディスク装置に比べて高い信頼性と性能を実現しているところに特徴がある。具体的には、ディスクに対するキャッシュの役割を果たすメモリを内蔵することにより、ホストコンピュータからリード要求及びライト要求を受信した際のデータへのアクセス時間を短縮し、さらに高性能化を実現できるようにしている。
一般に、ディスクアレイ装置は、複数の主要ユニット、具体的には、ホストコンピュータとの接続部分であるチャネルアダプタ,ディスクドライブとの接続部分であるディスクアダプタ,キャッシュメモリ,キャッシュメモリの制御を担当するキャッシュ制御部,及び大量のディスクドライブから構成される(下記、特許文献1参照)。
そして、近年のディスクアレイ装置の大型化、高性能化の要求に伴い、ディスクアレイ装置を構成する上記個々の主要ユニット自体の性能が向上しているのはもちろんであるが、これら主要ユニットの数も増加する傾向にある。
しかしながら、主要ユニットの数が増加するに従い、主要ユニット間の接続関係が複雑になり、さらに、ディスクアレイ装置全体の動作に一貫性を持たせるために行なわれる主要ユニット間の通信処理(例えば、ミラーリング処理)が増大してしまい、これにより主要ユニットの数の増加に伴ってディスクアレイ装置の性能が向上しなくなるという課題がある。
したがって、これらの主要ユニット間の接続関係と構成は、ディスクアレイ装置のアーキテクチャを決定する重要な要素となり、主要ユニット間の接続関係と構成を決定するにあたり、以下の事項を重視すべきである。
まず、ディスクアレイ装置の性能の観点から、以下(a)〜(c)の点を重視すべきである。
(a)各主要ユニット間のデータ転送が高いスループットで行なえること(高いスループット)。
(b)各主要ユニット間の通信にかかる時間(レイテンシ)が短いこと(低いレイテンシ)。
(c)各主要ユニット間の通信処理が少なくなること。
また、ディスクアレイ装置の柔軟性の観点から、以下(d)の点を重視すべきである。 (d)大規模から小規模までのディスクアレイ装置を自由に構成(変更)できること。
さらに、ディスクアレイ装置の可用性の観点から、以下(e),(f)の点を重視すべきである。
(e)一部の主要ユニットが故障等により動作不可能になった場合にもディスクアレイ装置(システム)全体としては動作可能であること。
(f)必要に応じて主要ユニットの増減が運用中にも行なえること。
ここで、図4を参照しながら、第1の従来例としてのディスクアレイ装置100の構成を説明すると、この図4に示す従来のディスクアレイ装置100は、上述した主要ユニットであるキャッシュメモリ10aとキャッシュ制御部10bとをそなえるキャッシュマネージャ(図中CMと表記)10、ホストコンピュータ(図示略)とのインターフェースであるチャネルアダプタ(図中CAと表記)11、複数のディスク12aとこれらディスク12aに対する処理を実行するディスクドライブ12bとをそなえるディスク装置12、及び、このディスク装置12とのインターフェースであるディスクアダプタ(図中DAと表記)13をそなえるとともに、キャッシュマネージャ10,チャネルアダプタ11,及びディスクアダプタ13間を互いに接続し、これら主要ユニット間のデータ転送と通信手段とを提供すべく、ルータ(Router;図中RTと表記)14がそなえられている。
このディスクアレイ装置100では、キャッシュマネージャ10が4つそなえられ、これらのキャッシュマネージャ10に対応して4つのルータ14がそなえられている。これらキャッシュマネージャ10とルータ14とは1対1で相互に接続されており、これによって複数のキャッシュマネージャ10間の接続が冗長化されて可用性が高められている。
つまり、1つのルータ14の故障した場合にも、別のルータ14を経由することで複数のキャッシュマネージャ10間の接続は確保されており、かかる場合にもディスクアレイ装置100は通常の動作を継続することができる。
また、このディスクアレイ装置100では、各ルータ14に2つのチャネルアダプタ11と2つのディスクアダプタ13とが接続され、ディスクアレイ装置100は合計8つのチャネルアダプタ11と合計8つのディスクアダプタ13とをそなえている。
これらのチャネルアダプタ11及びディスクアダプタ13は、キャッシュマネージャ10とルータ14との相互接続により、全てのキャッシュマネージャ10との間で通信が可能になっている。
ここで、チャネルアダプタ11は、例えばファイバチャネルやEthernet(登録商標)によって、複数のディスク12aに保持されたデータを処理対象とするホストコンピュータ(図示略)に接続されており、ディスクアダプタ13は、例えばファイバチャネルによってディスク装置12(具体的にはディスクドライブ12b)に接続されている。
そして、チャネルアダプタ11とキャッシュマネージャ10との間、及びディスクアダプタ13とキャッシュマネージャ10との間では、ホストコンピュータからのユーザデータだけではなく、ディスクアレイ装置100の内部の動作の一貫性を保つための様々な情報のやり取り(例えば、複数のキャッシュ10a間のデータのミラーリング処理)がなされる。
そのため、キャッシュマネージャ10,チャネルアダプタ11及びディスクアダプタ13と、ルータ14との間は、ディスクアレイ装置100とホストコンピュータとの間やディスク12aとディスクドライブ12bとの間よりも低いレイテンシ(速い応答速度)を実現できるインターフェースを介して接続されている。例えば、PCI(Peripheral Component Interconnect)バスのように、LSI(Large Scale Integration)やプリント基板の間を接続するために設計されたバスによって、キャッシュマネージャ10,チャネルアダプタ11,及びディスクアダプタ13と、ルータ14との間が接続されている。
さらに、ディスクドライブ12bは2つのファイバチャネルのポートを有し、各ポートには異なるルータ14配下に属するディスクアダプタ13が接続されることにより、ディスクアダプタ13の故障時もしくはルータ14の故障時にも、キャッシュマネージャ10からの接続が切断されないようになっている。
ここで、従来のディスクアレイ装置100の動作について、(A)ライト動作,(B)リード動作に分けて以下に説明する。
(A)ライト動作について
ホストコンピュータからライト要求が発行された場合、まず、ホストコンピュータからのライトコマンドとライトデータとをチャネルアダプタ11が受信する。
次いで、ライトコマンドとライトデータとを受信したチャネルアダプタ11は、担当のキャッシュマネージャ10に対してライトデータを書き込むべきキャッシュメモリ10aのアドレスを尋ねる。
そして、このチャネルアダプタ11がキャッシュマネージャ10からの応答を受け取ると、異なる2つのキャッシュマネージャ10内のキャッシュメモリ10aにライトデータを書き込む。
ここで、異なる2つのキャッシュマネージャ10内のキャッシュメモリ10aにライトデータを書き込むのは、データを2重化(ミラーリング)することで予期しないキャッシュマネージャ10のハード故障の場合にもデータの喪失を防ぐためである。
最後に、ライトデータの書き込みが正常に終了すると、チャネルアダプタ11がホストコンピュータに対して完了通知を行ない、処理を終了する。
(B)リード動作について
ホストコンピュータからリード要求が発行された場合、まず、ホストコンピュータからのリード要求をチャネルアダプタ11が受信する。
次いで、リード要求を受信したチャネルアダプタ11は、担当のキャッシュマネージャ10に対して当該リード要求の対象データの要求を行なう。
そして、担当のキャッシュマネージャ10は、自身のキャッシュメモリ10a内に当該対象データがあれば、当該対象データが保持されたキャッシュメモリ10a上のアドレスを介してチャネルアダプタ11に通知するとともに読出し指示をする。
一方、担当のキャッシュマネージャ10のキャッシュメモリ10a内に当該対象データがない場合、ディスクアダプタ13に対してディスク12aから当該対象データを読み出してかかるキャッシュメモリ10aへ転送するように要求する。
ここで、ディスクアダプタ13は当該対象データをディスク12aから読み出すと、かかるキャッシュメモリ10aに当該対象データを書き込み、キャッシュマネージャ10に対して当該対象データの書き込みが終了したことを通知する。
そして、キャッシュマネージャ10がディスクアダプタ13から当該対象データのキャッシュメモリ10aへの書き込みが終了したことを示す通知を受け取ると、キャッシュマネージャ10は、チャネルアダプタ11に対して当該対象データの準備ができたことを通知するとともに、当該対象データの読み出しを指示する。
次いで、チャネルアダプタ11がキャッシュマネージャ10からの読み出し指示を受けると、かかるキャッシュメモリ10aから当該対象データを読み出してホストコンピュータへ転送し、処理を終了する。
このように、図4に示す第1の従来例のディスクアレイ装置100では、上述した(A)ライト動作及び(B)リード動作における、キャッシュマネージャ10,チャネルアダプタ11及びディスクアダプタ13の3者間で行なわれるすべての通信は、ルータ14を介して行なわれる。
図5に第2の従来例としてのディスクアレイ装置101を示す。なお、図5において既述の符号と同一の符号は同一の部分もしくはほぼ同一の部分を示している。
図5に示すディスクアレイ装置101は、図4に示す第1の従来例としてのディスクアレイ装置100よりも小規模に構成されており、具体的には、キャッシュマネージャ10を2つそなえ、これに対応してルータ14が2つそなえられ、各ルータ14には2つのチャネルアダプタ11と2つのディスクアダプタ13とが接続されている。また、ディスク装置12も2つそなえて構成されている。
つまり、第2の従来例としてのディスクアレイ装置101は、第1の従来例としてのディスクアレイ装置100に対して、各主要ユニットが半数となる小規模構成のディスクアレイ装置であり、このような小規模なディスクアレイ装置101における動作はディスクアレイ装置100における動作と同様である。
さらに、その他の従来例として、図6に第3の従来例としてのディスクアレイ装置102を示す。なお、図6において既述の符号と同一の符号は同一の部分もしくは略同一の部分を示している。
図6に示すディスクアレイ装置102は、キャッシュマネージャ10が2つそなえられ、各キャッシュマネージャ10には、チャネルアダプタ11及びディスクアダプタ13がキャッシュマネージャ10の一部として実装されている。つまり、キャッシュマネージャ10を構成するモジュール内にチャネルアダプタ11及びディスクアダプタ13がそなえられており、チャネルアダプタ11及びディスクアダプタ13はそれぞれキャッシュマネージャ10に直結されている。
また、2つのキャッシュマネージャ10,10はバス10cによって、互いに通信可能に直接接続されている。
なお、この2つのキャッシュマネージャ10,10間、並びに、キャッシュマネージャ10とチャネルアダプタ11との間、及び、キャッシュマネージャ10とディスクアダプタ13との間は、低いレイテンシが要求されるためPCIバスによって接続されている。
さらに、チャネルアダプタ11は、例えばファイバチャネルもしくはEthernetによってホストコンピュータ(図示略)に接続され、ディスクアダプタ13は、例えばファイバチャネルによってディスク装置12のディスクドライブ12bに接続されている。
また、ディスク装置12は2つのポート(例えば、ファイバチャネルポート)を有し、これら2つのポートが異なるディスクアダプタ13に接続されることにより、図4を参照しながら上述した第1の従来例のディスクアレイ装置100と同様に、耐故障性を高めている。
特開2001−256003号公報
しかしながら、図4に示す第1の従来例としてのディスクアレイ装置100及び図5に示す第2の従来例としてのディスクアレイ装置101では、ホストコンピュータからのデータ、ディスク装置12からのデータ、及びキャッシュマネージャ10,10間の通信データのすべてがルータ14を経由するため、ルータ14にデータが集中してしまいルータ14がスループットのネックとなり、高いスループットの実現が困難になってしまう。
さらに、ディスクアレイ装置100,101では、キャッシュマネージャ10,チャネルアダプタ11及びディスクアダプタ13の3者間で行なわれるすべての通信がルータ14を介して行なわれるため、ルータ14を介する分だけ通信にかかる時間が増大し、性能向上のためのネックとなる。
また、ディスクアレイ装置100,101では、主要ユニットをさらに増設して、第1の従来例としてのディスクアレイ装置100よりも大規模なディスクアレイ装置を構成しようとすると、キャッシュマネージャ10とルータ14との間の接続が急増するため、接続関係が複雑になってしまい、物理的にも実装が困難になる。
さらに、ディスクアレイ装置100,101では、ルータ14の一つが故障した場合には、当該ルータ14の故障と同時に、当該ルータ14配下に接続されたチャネルアダプタ11及びディスクアダプタ13も使えなくなってしまう。
一方、図6に示す第3の従来例としてのディスクアレイ装置102では、チャネルアダプタ11及びディスクアダプタ13がキャッシュマネージャ10の一部として実装されているため、上述のディスクアレイ装置100,101におけるルータ14に関する課題は発生しないが、キャッシュマネージャ10が3つ以上の構成をとることができず、キャッシュマネージャ10を3つ以上そなえた、より大規模なディスクアレイ装置に適用することができない。
さらに、ディスクアレイ装置102では、2つのキャッシュマネージャ10,10間のパスが1つしかないため、そのパスで障害が発生して当該バスが不通になると、キャッシュマネージャ10,10間の通信ができなくなってしまう。
本発明は、このような課題に鑑み創案されたもので、データストレージ装置を構成する各ユニット間のデータ転送を高いスループットで行なうことができ、さらに、小規模構成から大規模構成までの変更を容易に成し得る柔軟性と、あるユニットが故障した場合にも動作可能な耐故障性とを実現できるようにすることを目的とする。
上記目的を達成するために、本発明のデータストレージ装置は、データを保持する複数の記憶部と、前記複数の記憶部と前記複数の記憶部に保持されたデータを処理対象とするデータ処理装置との間に介装された複数の制御モジュールとをそなえ、前記複数の制御モジュールのそれぞれが、バスによって接続される複数の基板から構成され、前記複数の記憶部に保持されたデータの一部を保持しうるキャッシュメモリと該キャッシュメモリの制御を行なうキャッシュ制御部とからなるキャッシュマネージャを前記複数の基板のうちの一つに実装して構成され、前記データ処理装置に対するインターフェースである第1インターフェース部を前記複数の基板のうち前記キャッシュマネージャとは別の基板に実装して構成され、前記複数の記憶部に対するインターフェースである第2インターフェース部を前記キャッシュマネージャと同じ基板に実装して構成され前記キャッシュマネージャと他の制御モジュールにおけるキャッシュマネージャの間で相互に通信を行なう通信部を前記キャッシュマネージャと同じ基板に実装して構成され、該キャッシュマネージャと該第1インターフェース部とをバスによって直接接続該キャッシュマネージャ第2インターフェースとをバスによって直接接続し該キャッシュマネージャと該通信部とをバスによって直接接続して構成されるとともに、前記複数の制御モジュールにおける前記第2インターフェース部と前記複数の記憶部との間に、各制御モジュールの前記第2インターフェース部と各記憶部とを選択的に切り替えて通信可能に接続し、各制御モジュールにおける前記第2インターフェース部のうちの任意の第2インターフェース部に異常が生じたときに、前記任意の第2インターフェース部以外の第2インターフェース部を介して、各制御モジュールを、前記任意の第2インターフェース部と通信可能だった記憶部と通信可能とする第1スイッチユニットがそなえられていることを特徴としている(請求項1)。
なお、前記制御モジュールが3以上そなえられ、前記3以上の制御モジュールの前記通信部に接続され、前記3以上の制御モジュールの相互間を選択的に切り替えて通信可能に接続する第2スイッチユニットをそなえて構成されることが好ましい(請求項2)。
このとき、各制御モジュールの前記通信部が複数のポートを有し、前記通信部の複数のポートに対応して前記第2スイッチユニットが複数そなえられていることが好ましい(請求項3)。
また、各制御モジュールの前記通信部と前記第2スイッチユニットとが高速シリアル伝送を利用したバス(例えば、PCI-ExpressやRapid-IO)によって接続されていることが好ましい(請求項4)。
さらに、各制御モジュールが前記第1インターフェース部を複数有し、前記複数の第1インターフェース部にそれぞれ異なるデータ処理装置が接続されていることが好ましい(請求項5)。
なお、各制御モジュールが前記第2インターフェース部を複数有していることが好ましく(請求項6)、このとき、前記第1スイッチユニットが複数そなえられ、各記憶部に複数の前記第1スイッチユニットが接続されるとともに、同一の記憶部に接続された複数の前記第1スイッチユニットに、それぞれ、同一の制御モジュールにおける異なる第2インターフェース部が接続されていることが好ましい(請求項7)。
また、前記第2インターフェース部が複数のポートを有し、前記第2インターフェース部が、前記複数のポートを通じて、異なる記憶部に接続された複数の前記第1スイッチユニットに接続されていることが好ましい(請求項8)。
さらに、前記第2インターフェース部と前記第1スイッチユニット及び前記記憶部と前記第1スイッチユニットとがファイバチャネルによって接続されていることが好ましい(請求項9)。
また、上記目的を達成するため、本発明の情報処理システムは、データを保持する複数の記憶部と、前記複数の記憶部に保持されたデータを処理対象とするデータ処理装置と、前記複数の記憶部と前記データ処理装置との間に介装された複数の制御モジュールとをそなえ、前記複数の制御モジュールのそれぞれが、バスによって接続される複数の基板から構成され、前記複数の記憶部に保持されたデータの一部を保持しうるキャッシュメモリと該キャッシュメモリの制御を行なうキャッシュ制御部とからなるキャッシュマネージャを前記複数の基板のうちの一つに実装して構成され、前記データ処理装置に対するインターフェースである第1インターフェース部を前記複数の基板のうち前記キャッシュマネージャとは別の基板に実装して構成され、前記複数の記憶部に対するインターフェースである第2インターフェース部を前記キャッシュマネージャと同じ基板に実装して構成され前記キャッシュマネージャと他の制御モジュールにおけるキャッシュマネージャの間で相互に通信を行なう通信部を前記キャッシュマネージャと同じ基板に実装して構成され、該キャッシュマネージャと該第1インターフェース部とをバスによって直接接続該キャッシュマネージャ第2インターフェースとをバスによって直接接続し該キャッシュマネージャと該通信部とをバスによって直接接続して構成されるとともに、前記複数の制御モジュールにおける前記第2インターフェース部と前記複数の記憶部との間に、各制御モジュールの前記第2インターフェース部と各記憶部とを選択的に切り替えて通信可能に接続し、各制御モジュールにおける前記第2インターフェース部のうちの任意の第2インターフェース部に異常が生じたときに、前記任意の第2インターフェース部以外の第2インターフェース部を介して、各制御モジュールを、前記任意の第2インターフェース部と通信可能だった記憶部と通信可能とする第1スイッチユニットがそなえられていることを特徴としている(請求項10)。
このように、本発明によれば、キャッシュメモリ及びキャッシュ制御部を有する制御モジュール上に、当該制御モジュールとして第1インターフェース部と第2インターフェース部とがそなえられているため、キャッシュ制御部と第1インターフェース部,及びキャッシュ制御部と第2インターフェース部とがそれぞれ直接接続されて密に結合されることにより、これらキャッシュ制御部と第1インターフェース部,及びキャッシュ制御部と第2インターフェース部との間の通信において低いレイテンシを実現することができる(請求項1,10)。
さらに、通信部によって制御モジュール間の通信が行なわれるため、キャッシュ制御部と第1インターフェース部,キャッシュ制御部と第2インターフェース部,及び2つの制御モジュール間の通信経路をそれぞれ独立させることができ、これにより、キャッシュ制御部と第1インターフェース部との間,キャッシュ制御部と第2インターフェース部との間,及び2つの制御モジュール間において、高いスループットを実現することができる(請求項1,10)。
なお、制御モジュールと記憶部との間に記憶部と接続された第1スイッチユニットがそなえられるため、第1インターフェースを増やすことなく、大量の記憶部をそなえることができ、大規模構成から小規模構成までの変更を容易に行なうことができる(請求項1,10)。
また、3以上の制御モジュールをそなえる場合には、第2スイッチユニットがそなえられるため、各構成要素を変更することなく、3以上の制御モジュールをそなえるような大規模構成にも容易に対応可能な柔軟性をそなえることができる(請求項2)。
さらに、通信部のポート数に対応して第2スイッチユニットが複数そなえられるため、制御モジュール間の通信経路を2重化することができ、複数の通信経路のうちの一方の通信経路が故障した場合(例えば、一方の第2スイッチユニットが故障した場合)であっても、他方の通信経路により制御モジュール間の通信を通常通り実行することができ、複数の制御モジュール間の通信に耐故障性を実現することができる(請求項3)。
また、各制御モジュールの通信部と第2スイッチユニットとの間のバスに高速シリアル伝送を利用したバスを用いることにより、各制御モジュールの通信部と第2スイッチユニットとの間の通信に要求される低いレイテンシと高いスループットとを実現することができる(請求項4)。
なお、複数の第1インターフェース部にそれぞれ異なるデータ処理装置が接続されることにより、複数のデータ処理装置からのアクセス要求を受け付けて実行することが可能になる(請求項5)。
また、各制御モジュールが第2インターフェース部を複数有し、第1スイッチユニットが複数そなえられ、各記憶部に複数の第1スイッチユニットが接続されるとともに、同一の記憶部に接続された複数の第1スイッチユニットに、それぞれ、同一の制御モジュールにおける異なる第2インターフェース部が接続されることにより、制御モジュールと記憶部との間の通信経路にも耐故障性を実現することができる(請求項6,7)。
つまり、同一の制御モジュールにおける複数の第2インターフェース部のうちの一方が故障により通信不能になった場合や、同一の記憶部に接続された複数の第1スイッチユニットのうちの一方が故障により通信不能になった場合であっても、それぞれ他方の第2インターフェース部や他方の第1スイッチユニットにより、制御モジュールと記憶部との間の通信を通常通り確保することができる(請求項6,7)。
なお、第2インターフェース部が、複数のポートを通じて、異なる記憶部に接続された複数の第1スイッチユニットに接続されることにより、制御モジュールがより大量の記憶部に対しても通信可能になり、記憶部の数が増加してデータストレージ装置がより大規模構成になる場合であっても柔軟に対応することができる(請求項8)。
また、第2インターフェース部と第1スイッチユニット及び記憶部と第1スイッチユニットとがインターフェースを構成する信号数が少ないファイバチャネルによって接続されるため、データストレージ装置を、大量の制御モジュールによって大規模構成にする場合や、大量の記憶部によって大規模構成にする場合であっても、第2インターフェース部と第1スイッチユニットとの間、及び記憶部と第1スイッチユニットとの間の接続関係が複雑にならずに、物理的な実装も容易に行なうことができる(請求項9)。
以下、図面を参照しながら本発明の実施の形態について説明する。
〔1〕本発明の一実施形態について
〔1−1〕3以上の制御モジュールをそなえる場合
まず、図1に示すブロック図を参照しながら、本発明の一実施形態としての情報処理システム1(3以上の制御モジュール4−0〜4−7をそなえた例)の構成について説明する。
図1に示すように、本情報処理システム1は、データを保持する複数(ここでは32)のディスク装置(記憶部)2−0〜2−31と、これらディスク装置2−0〜2−31に保持されたデータを処理対象とする複数(ここでは32)のホストコンピュータ(データ処理装置)3−0〜3−31と、複数のディスク装置2−0〜2−31と複数のホストコンピュータ3−0〜3−31との間に介装された複数(ここでは8つ)の制御モジュール4−0〜4−7と、これら複数の制御モジュール4−0〜4−7と複数のディスク装置2−0〜2−31との間に介装された複数(ここでは8つ)のBack-end Router(第1スイッチユニット;図中BRTと表記、以下、BRTという)5−0〜5−7と、複数(ここでは2つ)のFront-end Router(第2スイッチユニット;図中FRTと表記、以下、FRTという)6−0,6−1とをそなえて構成されている。
なお、本発明のデータストレージ装置(ディスクアレイ装置)は、ディスク装置2−0〜2−31、制御モジュール4−0〜4−7、FRT6−0,6−1、及びBRT5−0〜5−7から構成されている。
複数のディスク装置2−0〜2−31はそれぞれ、データを保持する複数のディスク(例えば、磁気テープや光ディスク)2aと、これら複数のディスク2aに対する処理を実行するディスクドライブ2bとをそなえている。なお、図1では図の簡略化のため、これら複数のディスクの符号“2a”とディスクドライブの符号“2b”とをディスク装置2−7に対してのみ付しており、他のディスク装置2−0〜2−6,2−8〜2−31の複数のディスク2a及びディスクドライブ2bはその符号は省略している。
ここで、図1及び図2に示すブロック図を参照しながら制御モジュール4−0〜4−7について詳述すると、制御モジュール4−0〜4−7のそれぞれは、キャッシュマネージャ40と、チャネルアダプタ(第1インターフェース部;図中CAと表記)41a〜41dと、ディスクアダプタ(第2インターフェース部;図中DAと表記)42a,42bと、DMA(Direct Memory Access)エンジン(通信部;図中DMAと表記)43とを有して構成されている。
なお、図1では図の簡略化のため、これらキャッシュマネージャの符号“40”、チャネルアダプタの符号“41a”,“41b”,“41c”,“41d”、ディスクアダプタの符号“42a”,“42b”、DMAの符号“43”、及び後述するキャッシュメモリの符号“40a”、キャッシュ制御部の符号“40b”を、制御モジュール4−0に対してのみ付しており、他の制御モジュール4−1〜4−7におけるこれら構成要素の符号は省略している。
キャッシュマネージャ40は、ホストコンピュータ3−0〜3−31からの処理要求(リード要求もしくはライト要求)に基づいて、複数のディスク装置2−0〜2−31に対する制御を行なうものであり、キャッシュメモリ40aとキャッシュ制御部40bとをそなえて構成されている。
キャッシュメモリ40aは、ディスク装置2−0〜2−31の複数のディスク2aに保持されたデータの一部を保持しうるものであり、複数のディスク2aに対するキャッシュの役割を果たすストレージである。
キャッシュ制御部40bは、キャッシュメモリ40aに対する制御を行なうものである。
つまり、キャッシュマネージャ40では、例えば、ホストコンピュータ3−0〜3−31のいずれかから対応するチャネルアダプタ41a〜41dを介してリード要求を受け取った場合、当該リード要求の対象データをキャッシュメモリ40aが保持していれば、キャッシュメモリ40aに保持された当該対象データをチャネルアダプタ41a〜41dを介してホストコンピュータ3−0〜3−31に送る一方、当該対象データがキャッシュメモリ40aに保持されていなければ、キャッシュ制御部40bが、当該対象データを保持しているディスク装置2−0〜2−31のディスク2aから当該対象データをキャッシュメモリ40a上に読み出してから、当該対象データを、当該リード要求を発行したホストコンピュータ3−0〜3−31に送信する。
このように、ホストコンピュータ3−0〜3−31からのアクセス要求の対象データがキャッシュメモリ40aに保持されている場合には、キャッシュマネージャ40はすぐにホストコンピュータ3−0〜3−31に対して応答可能であるが、当該対象データがキャッシュメモリ40aに保持されていない場合には、当該対象データをディスク装置2−0〜2−31のいずれかから読み出す必要があり、当該対象データをキャッシュメモリ40aが保持している場合と比べて非常に多くの時間を要する。
したがって、キャッシュメモリ40aに保持されるデータは、キャッシュ制御部40bによって、例えば、ホストコンピュータ3−0〜3−31からのアクセス頻度に基づいて決定されることが好ましく、これにより、ホストコンピュータ3−0〜3−31からリード要求及びライト要求を受信した際の対象データへのアクセス時間を短縮し、さらに高性能化を実現できるようになる。
また、ホストコンピュータ3−0〜3−31のいずれかから対応するチャネルアダプタ41a〜41dを介してライト要求を受け取った場合、当該ライト要求のコマンドとライトデータとを受信したチャネルアダプタ41a〜41dは、担当のキャッシュマネージャ40に対してライトデータを書き込むべきキャッシュメモリ40aのアドレスを尋ねる。
そして、このチャネルアダプタ41a〜41dがキャッシュマネージャ40からの応答を受け取ると、当該キャッシュマネージャ40のキャッシュメモリ40aにライトデータを書き込むとともに、当該キャッシュマネージャ40とは異なる少なくと1つのキャッシュマネージャ40(つまり、異なる制御モジュール4−0〜4−7のキャッシュマネージャ40)内のキャッシュメモリ10aにもライトデータを書き込む。
ここで、少なくとも異なる2つの制御モジュール4−0〜4−7のキャッシュメモリ10aにライトデータを書き込むのは、データを2重化(ミラーリング)することで予期しない制御モジュール4−0〜4−7もしくはキャッシュマネージャ40のハード故障の場合にもデータの喪失を防ぐためである。
最後に、これら複数のキャッシュメモリ10aへのライトデータの書き込みが正常に終了すると、チャネルアダプタ41a〜41dがホストコンピュータ3−0〜3−31に対して完了通知を行ない、処理を終了する。
チャネルアダプタ41a〜41dは、ホストコンピュータ3−0〜3−31に対するインターフェースであり、チャネルアダプタ41a〜41dはそれぞれ異なるホストコンピュータ3−0〜3−31と接続されている。
ここでは、図1に示すごとく、制御モジュール4−0のチャネルアダプタ41a,41b,41c,41dが順にホストコンピュータ3−0,3−1,3−2,3−3にそれぞれ接続されており、制御モジュール4−1のチャネルアダプタ41a,41b,41c,41dが順にホストコンピュータ3−4,3−5,3−6,3−7にそれぞれ接続されており、制御モジュール4−2のチャネルアダプタ41a,41b,41c,41dが順にホストコンピュータ3−8,3−9,3−10,3−11にそれぞれ接続されており、制御モジュール4−3のチャネルアダプタ41a,41b,41c,41dが順にホストコンピュータ3−12,3−13,3−14,3−15にそれぞれ接続されており、制御モジュール4−4のチャネルアダプタ41a,41b,41c,41dが順にホストコンピュータ3−16,3−17,3−18,3−19にそれぞれ接続されており、制御モジュール4−5のチャネルアダプタ41a,41b,41c,41dが順にホストコンピュータ3−20,3−21,3−22,3−23にそれぞれ接続されており、制御モジュール4−6のチャネルアダプタ41a,41b,41c,41dが順にホストコンピュータ3−24,3−25,3−26,3−27にそれぞれ接続されており、制御モジュール4−7のチャネルアダプタ41a,41b,41c,41dが順にホストコンピュータ3−28,3−29,3−30,3−31にそれぞれ接続されている。
また、図2に示すごとく、これら制御モジュール4−0〜4−7のチャネルアダプタ41a〜41dは、それぞれ対応するホストコンピュータ3−0〜3−31のインターフェース部(図2中Host I/Fと表記)にバスAを介して接続されており、各チャネルアダプタ41a〜41dと、対応するホストコンピュータ3−0〜3−31とは、例えば、ファイバチャネル(Fiber Channel)やEthernet(登録商標)によって接続されることが好ましく、この場合、バスAとしては、光ファイバや同軸ケーブルが用いられる。
さらに、これらチャネルアダプタ41a〜41dそれぞれは、各制御モジュール4−0〜4−7の一部として構成されているが、対応するホストコンピュータ3−0〜3−31と制御モジュール4−0〜4−7とのインターフェース部として、複数のプロトコルをサポートする必要があり、対応するホストコンピュータ3−0〜3−31によって実装すべきプロトコルが同一ではないため、各チャネルアダプタ41a〜41dが必要に応じて容易に交換できるように、制御モジュール4−0〜4−7の主要ユニットであるキャッシュマネージャ40とは別のプリント基板に実装されている。
なお、チャネルアダプタ41a〜41dがサポートすべきホストコンピュータ3−0〜3−31との間のプロトコルとしては、上述のように、ファイバチャネルや、Ethernetに対応するiSCSI(Internet Small Computer System Interface)等があり、チャネルアダプタ41a〜41dはサポートすべきプロトコルに適応したものが搭載される。
また、各チャネルアダプタ41a〜41dは、例えば、PCI(Peripheral Component Interconnect)バスのようにLSI(Large Scale Integration)やプリント基板の間を接続するために設計されたバスによって、キャッシュマネージャ40と直接結合されており、これにより、各チャネルアダプタ41a〜41dとキャッシュマネージャ40と間に要求される高いスループットを実現することができる。
このように、各制御モジュール4−0〜4−7のチャネルアダプタ41a〜41dそれぞれが、異なるホストコンピュータ3−0〜3−31と接続されることにより、本情報処理システム1では、同時に複数のホストコンピュータ(ここでは、ホストコンピュータ3−0〜3−31の32機)からのアクセス要求を受け付けて、大量のディスク2aに対する制御を行なうことができるようになっている。
ディスクアダプタ42a,42bは、ディスク装置2−0〜2−31に対するインターフェースであり、ディスク装置2−0〜2−31に接続されたBRT5−0〜5−7に接続されている。
BRT5−0〜5−7は、複数の制御モジュール4−0〜4−7と複数のディスク装置2−0〜2−31との間に介装され、各制御モジュール4−0〜4−7のディスクアダプタ42a,42bと各ディスク装置2−0〜2−31とを選択的に切り替えて通信可能に接続する多ポートスイッチである。
本情報処理システム1では、各制御モジュール4−0〜4−7のディスクアダプタ42a,42bそれぞれを、すべてのディスク装置2−0〜2−31に接続すべく、図1に示すごとく、各制御モジュール4−0〜4−7のディスクアダプタ42aは、ディスク装置2−0〜2−7に接続されたBRT5−0と、ディスク装置2−8〜2−15に接続されたBRT5−2と、ディスク装置2−16〜2−23に接続されたBRT5−4と、ディスク装置2−24〜2−31に接続されたBRT5−6とにそれぞれ接続されており、さらに、各制御モジュール4−0〜4−7のディスクアダプタ42bは、ディスク装置2−0〜2−7に接続されたBRT5−1と、ディスク装置2−8〜2−15に接続されたBRT5−3と、ディスク装置2−16〜2−23に接続されたBRT5−5と、ディスク装置2−24〜2−31に接続されたBRT5−7とに、それぞれ接続されている。
このように、各ディスク装置2−0〜2−31には複数(ここでは2つ)のBRTが接続されるとともに、同一のディスク装置2−0〜2−31に接続された2つのBRTに、それぞれ、同一の制御モジュール4−0〜4−7における異なるディスクアダプタ42a,42bが接続されている。なお、各ディスク装置2−0〜2−31のディスクドライブ2bが2つのポートを有し、各ポートに異なるBRTが接続されることによって、各ディスク装置2−0〜2−31に2つのBRTが接続されている。
さらに、各制御モジュール4−0〜4−7のディスクアダプタ42a,42bそれぞれは、複数(ここでは4つ)のポートを有し、ディスクアダプタ42a,42bが、4つのポートを通じて、異なるディスク装置2−0〜2−31に接続された4つのBRT(ここでは、ディスクアダプタ42aがBRT5−0,5−2,5−4,5−6、ディスクアダプタ42bがBRT5−1,5−3,5−5,5−7)に接続されている。
このような構成により、各制御モジュール4−0〜4−7がいずれのディスクアダプタ42a,42bを通じても、すべてのディスク装置2−0〜2−31にアクセスできるようになっている
また、これらディスクアダプタ42a,42bそれぞれは制御モジュール4−0〜4−7の一部として構成されており、制御モジュール4−0〜4−7の主要ユニットであるキャッシュマネージャ40の基板上に実装され、各ディスクアダプタ42a,42bは、例えばPCI(Peripheral Component Interconnect)バスによってキャッシュマネージャ40と直接結合されており、これにより、各ディスクアダプタ42a,42bとキャッシュマネージャ40と間に要求される高いスループットを実現することができる。
さらに、図2に示すごとく、各ディスクアダプタ42a,42bは対応するBRT5−0〜5−7にバスBを介して接続されており、各ディスクアダプタ42a,42bと対応するBRT5−0〜5−7とは、例えば、ファイバチャネル(Fiber Channel)やEthernet(登録商標)によって接続されることが好ましく、この場合、バスBとしては、光ファイバや同軸ケーブルが用いられる。
各制御モジュール4−0〜4−7のディスクアダプタ42a,42bとBRT5−0〜5−7との間は、1対1のメッシュ接続になるため、本情報処理システム1がそなえる制御モジュール4−0〜4−7の数(つまり、ディスクアダプタ42a,42bの数)が増大するほど、接続数が増加して接続関係が複雑になり、物理的な実装が困難になるという課題があるが、ディスクアダプタ42a,42bとBRT5−0〜5−7との間の接続に、インターフェースを構成する信号数が少ないファイバチャネルを採用することにより、上記の実装の課題を解決することができる。
なお、各ディスクアダプタ42a,42bと対応するBRT5−0〜5−7とがファイバチャネルによって接続される場合、BRT5−0〜5−7はファイバチャネルのスイッチとなる。
また、各BRT5−0〜5−7と対応するディスク装置2−0〜2−31との間も、例えば、ファイバチャネルによって接続されることが好ましい。
DMAエンジン43は、他の制御モジュール4−0〜4−7と相互に通信を行なうものであり、他の制御モジュール4−0〜4−7間との通信とデータ転送処理を担当する。
各制御モジュール4−0〜4−7のDMAエンジン43それぞれは、制御モジュール4−0〜4−7の一部として構成されており、制御モジュール4−0〜4−7の主要ユニットであるキャッシュマネージャ40の基板上に実装され、バスによってキャッシュマネージャ40と直接結合されるとともに、FRT6−0,6−1を介して他の制御モジュール4−0〜4−7のDMAエンジン43と互いに通信可能に接続されている。
FRT6−0,6−1は、複数(特に3以上、ここでは8つ)の制御モジュール4−0〜4−7のDMAエンジン43に接続され、これら制御モジュール4−0〜4−7の相互間を選択的に切り替えて通信可能に接続するものである。
このような構成により、各制御モジュール4−0〜4−7のDMAエンジン43それぞれは、FRT6−0,6−1を介して互いに通信可能に接続され、自身に接続されたキャッシュマネージャ40と他の制御モジュール4−0〜4−7のキャッシュマネージャ40との間で、ホストコンピュータ3−0〜3−31からのアクセス要求等に応じて生じる通信やデータ転送処理(例えば、ミラーリング処理)を実行することができる。
また、ここでは各制御モジュール4−0〜4−7のDMAエンジン43が複数(ここでは2つ)のポートを有し、これら2つのポートに対応して2つのFRT6−0,6−1がそなえられている。
さらに、DMAエンジン43は、例えば、PCIバスによってキャッシュマネージャ40に接続されており、キャッシュマネージャ40に対しても2つのポートを有し、それぞれのポートを通じてキャッシュマネージャ40に接続されている。
また、各制御モジュール4−0〜4−7間(つまり、各制御モジュール4−0〜4−7のキャッシュマネージャ40間)の通信やデータ転送処理では、データ転送量が多く、通信にかかる時間を短くすることが望ましく、高いスループットと同時に低いレイテンシ(速い応答速度)が要求されるため、図2に示すごとく、各制御モジュール4−0〜4−7のDMAエンジン43とFRT6−0,6−1とは、高いスループットと低いレイテンシとの両方の要求を満たすべく設計された、高速シリアル伝送を利用したバスCによって接続されている。
具体的には、DMAエンジン43とFRT6−0,6−1とは、例えば、PCI-ExpressやRapid-IOによって接続されるのが好ましい。これらPCI-ExpressやRapid-IOは、3.125Gbpsの高速シリアル伝送を利用したものであり、これらのバスインターフェースには、LVDS(Low Voltage Differential Signaling)という小振幅差動インターフェースが採用されている。なお、一般にPCI-Expressの標準データ転送レートは1.25Gbit/secである。
〔1−2〕2つの制御モジュールをそなえる場合
次に、図3に示すブロック図を参照しながら、本発明の一実施形態としての情報処理システム1′(2つの制御モジュール4−0,4−1をそなえた例)の構成について説明する。なお、図3において既述の符号と同一の符号は、同一の部分もしくはほぼ同一の部分を示している。
図3に示すように、本発明の一実施形態としての情報処理システム1′(2つの制御モジュール4−0,4−1をそなえる場合)は、データを保持する複数(ここでは8つ)のディスク装置(記憶部)2−0〜2−7と、これらディスク装置2−0〜2−7に保持されたデータを処理対象とする複数(ここでは8つ)のホストコンピュータ(データ処理装置)3−0〜3−7と、複数のディスク装置2−0〜2−7と複数のホストコンピュータ3−0〜3−7との間に介装された複数(ここでは2つ)の制御モジュール4−0,4−1と、これら複数の制御モジュール4−0,4−1と複数のディスク装置2−0〜2−7との間に介装された複数(ここでは2つ)のBack-end Router(第1スイッチユニット;図中BRTと表記、以下、BRTという)5−0,5−1とをそなえて構成されている。
つまり、本情報処理システム1′は、図1を参照しながら上述した情報処理システム1よりも少ないユニットで構成されている。なお、本情報処理システム1′の各ユニット(ディスク装置2−0〜2−7、ホストコンピュータ3−0〜3−7、制御モジュール4−0,4−1、及びBRT5−0,5−1)は、上記情報処理システム1にそなえられたユニットと同一のものであるため、これらユニットの詳細な説明は省略する。
なお、本情報処理システム1′では、制御モジュール4−0,4−1のディスクアダプタ42a,42bは、1つのポートのみを使用しており、制御モジュール4−0,4−1の各ディスクアダプタ42aはBRT5−0に接続され、制御モジュール4−0,4−1の各ディスクアダプタ42bはBRT5−1に接続されている。
また、本情報処理システム1′では、2つの制御モジュール4−0,4−1から構成されるため、本情報処理システム1′はFRT6−0,6−1をそなえておらず、各制御モジュール4−0,4−1のDMAエンジン43は、FRT6−0,6−1を介さずにバスCによって直接接続されている。
なお、本情報処理システム1′においてもDMAエンジン43は2つのポートを有し、それぞれのポートを通じて他方のDMAエンジン43と接続されている。
このように、2つの制御モジュール4−0,4−1をそなえて構成された場合であっても、ホストコンピュータ3−0〜3−7からのアクセス要求に対して、図1を参照しながら上述した情報処理システム1と同様に動作することができる。
〔1−3〕本発明の一実施形態としての情報処理システムの効果
このように、本発明の一実施形態としての情報処理システム1,1′によれば、制御モジュール4−0〜4−7において、キャッシュマネージャ40とチャネルアダプタ41a〜41dとがそれぞれ直接接続されて密に結合されることにより、キャッシュマネージャ40とチャネルアダプタ41a〜41dとの間で低いレイテンシを実現することができる。
また、制御モジュール4−0〜4−7においてキャッシュマネージャ40とディスクアダプタ42a,42bとがそれぞれ直接接続されて密に結合されることにより、キャッシュマネージャ40とディスクアダプタ42a,42bとの間で低いレイテンシを実現することができる。
さらに、これらキャッシュマネージャ40とチャネルアダプタ41a〜41dとの間と、キャッシュマネージャ40とディスクアダプタ42a,42bとの間との通信経路が分離されて独立しているとともに、2つの制御モジュール4−0〜4−7のキャッシュマネージャ40のそれぞれのDMAエンジン43によるキャッシュマネージャ40,40間の通信経路が、キャッシュマネージャ40とチャネルアダプタ41a〜41dとの間及びキャッシュマネージャ40とディスクアダプタ42a,42bとの間に対して分離されて独立しているため、キャッシュマネージャ40とチャネルアダプタ41a〜41dとの間、キャッシュマネージャ40とディスクアダプタ42a,42bとの間、及び2つのキャッシュマネージャ40,40間、それぞれにおいて高いスループットの確保が可能になる。
また、ホストコンピュータ3−0〜3−31とチャネルアダプタ41a〜41dとの間の通信経路、及び、ディスク装置2−0〜2−31とディスクアダプタ42a,42bとの間の通信経路が独立しているため、これらの間の通信において高いスループットの確保が可能になる。
このように、各構成要素(ユニット)間の通信経路が分離して独立しているため、各ユニット間に要求される性能に応じて、それぞれに最適なインターコネクトを採用することができ、これによって性能と実装コストとのバランスを図ることもできる。例えば、キャッシュマネージャ40,40間の低いレイテンシと高いスループットが要求されるパスには、PCI-ExpressやRapid-IOを採用することにより、低いレイテンシと高いスループットを実現することができる。一方、ディスクアダプタ42a,42bとディスク装置2−0〜2−31(BRT5−0〜5−7)との間の高いスループットのみが要求されるパスには、例えば、PCIやファイバチャネルを採用することにより、高いスループットを実現することができる。
また、制御モジュール4−0〜4−7のDMAエンジン43それぞれが複数(ここでは2つ)のポートを有し、これら2つのポートそれぞれを通じて2本のパスで他の制御モジュール4−0〜4−7のDMAエンジン43と接続されており、制御モジュール4−0〜4−7(特に、キャッシュマネージャ40)間の接続経路を冗長化することにより、一方の経路でも障害発生時にも通信経路を確保することができ、高い耐故障性(可用性)を実現することができる。
また、制御モジュール4−0〜4−7が3つ以上そなえられた情報処理システム1では、DMAエンジン43のポート数に応じて複数のFRT6−0,6−1がそなえられるため、複数のFRT6−0,6−1のうちの一方のFRT6−0,6−1が故障により通信不能となった場合でも、他方のFRT6−0,6−1により、キャッシュマネージャ40,40間の通信を確保することができ、これによっても高い耐故障性を実現することができる。
さらに、制御モジュール4−0〜4−7のディスクアダプタ42aとBRT5−0〜5−7との間においても、各ディスク装置2−0〜2−31に複数(ここでは2つ)のBRT5−0〜5−7が接続され、同一のディスク装置2−0〜2−31に接続されたBRT5−0〜5−7毎に同一の制御モジュール4−0〜4−7の異なるディスクアダプタ42a,42bが接続されているため、2つのBRT5−0〜5−7のうちの一方が故障した場合であっても、他方のBRT5−0〜5−7を介してディスク装置2−0〜2−31と通信することができるとともに、同一の制御モジュール4−0〜4−7におけるディスクアダプタ42a,42bのうちの一方のディスクアダプタ42a、42b、もしくは、これに接続されたバスが故障により通信不能となった場合であっても、他方のディスクアダプタ42a,42bによって、当該制御モジュール4−0〜4−7はディスク装置2−0〜2−31と通信することができ、各制御モジュール4−0〜4−7と各ディスク装置2−0〜2−31との間にも高い耐故障性を実現することができる。
さらに、図1,図3に示すごとく、情報処理システム1,1′における構成(特に、制御モジュール4−0〜4−7)によれば、小規模から大規模までの装置(システム)を自由に構成し得る柔軟性をそなえることができる。
つまり、図3に示すごとく、2つの制御モジュール4−0〜4−7をそなえる小規模構成の場合には、FRT6−0,6−1をそなえずに必要最小限のユニット(ディスク装置2−0〜2−7、ホストコンピュータ3−0〜3−7、制御モジュール4−0,4−1、及びBRT5−0,5−1)のみで構成することができ、低コストを実現できる一方、図1に示すごとく、3以上の制御モジュール4−0〜4−7をそなえる大規模構成の場合には、各制御モジュール4−0〜4−7のDMAエンジン43のポート数に応じてFRT6−0,6−1を設けるだけで構成することができる。
また、図1に示す情報処理システム1よりも大規模構成の場合(つまり、9以上の制御モジュールをそなえる場合)であっても、必要に応じて各ユニットを増やすだけで構成することができる。
このように、必要に応じて各ユニットを増減するだけで小規模から大規模までの装置(システム)を自由に構成できる。
なお、ディスクアダプタ42a,42bとBRT5−0〜5−7との間の接続に、インターフェースを構成する信号数が少ないファイバチャネルを採用することにより、ディスク装置2−0〜2−31の増大に伴ってBRT5−0〜5−7が増加した場合であっても、接続関係が複雑にならずに容易に実装することができる。
〔2〕その他
なお、本発明は上述した実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で種々変形して実施することができる。
例えば、上述した実施形態では、データを保持する記憶部としてディスク(例えば、磁気テープや光ディスク)を保持するディスク装置を例にあげて説明したが、本発明はこれに限定されるものではなく、記憶部における記憶媒体は限定されるものではない。
また、上述した実施形態では、複数の制御モジュール4−0〜4−7のチャネルアダプタ41a〜41dにすべて異なるホストコンピュータ3−0〜3−31が接続されている例をあげて説明したが、本発明はこれに限定されるものではなく、異なる制御モジュール4−0〜4−7に同一のホストコンピュータが接続されていてもよいし、また、同一の制御モジュール4−0〜4−7の複数のチャネルアダプタ41a〜41dに同一のホストコンピュータが接続されてもよく、これにより、制御モジュール4−0〜4−7とホストコンピュータ3−0〜3−31との間に冗長性を持たせて耐故障性を実現することができる。
さらに、各構成ユニット(ディスク装置2−0〜2−31、ホストコンピュータ3−0〜3−31、制御モジュール4−0〜4−7、BRT5−0〜5−7、及びFRT6−0,6−1)の数、あるいは、制御モジュール4−0〜4−7を構成する各ユニット[キャッシュマネージャ40(特にキャッシュメモリ40a)、チャネルアダプタ41a〜41d、ディスクアダプタ42a,42b、DMAエンジン43]の数、もしくは、これら各ユニットが有するポートの数は、本発明において限定されるものではなく、必要に応じて適宜変更、組み合わせをして構成してもよい。
例えば、制御モジュール4−0〜4−7に対するディスク装置2−0〜2−31の数が少なく、BRT5−0〜5−7を介さなくても制御モジュール4−0〜4−7とディスク装置2−0〜2−31との接続を2重化(冗長化)することができるのであれば、BRT5−0〜5−7を省いて構成してもよい。
〔3〕付記
(付記1)
データを保持する複数の記憶部と、
前記複数の記憶部と前記複数の記憶部に保持されたデータを処理対象とするデータ処理装置との間に介装された複数の制御モジュールとをそなえ、
前記複数の制御モジュールのそれぞれが、前記複数の記憶部に保持されたデータの一部を保持しうるキャッシュメモリと、該キャッシュメモリの制御を行なうキャッシュ制御部と、前記データ処理装置に対するインターフェースである第1インターフェース部と、前記複数の記憶部に対するインターフェースである第2インターフェース部と、他の制御モジュールと相互に通信を行なう通信部とを有して構成されるとともに、
前記複数の制御モジュールと前記複数の記憶部との間に、各制御モジュールの前記第2インターフェース部と各記憶部とを選択的に切り替えて通信可能に接続する第1スイッチユニットがそなえられていることを特徴とする、データストレージ装置。
(付記2)
前記制御モジュールが3以上そなえられ、
前記3以上の制御モジュールの前記通信部に接続され、前記3以上の制御モジュールの相互間を選択的に切り替えて通信可能に接続する第2スイッチユニットをそなえて構成されることを特徴とする、付記1記載のデータストレージ装置。
(付記3)
各制御モジュールの前記通信部が複数のポートを有し、
前記通信部の複数のポートに対応して前記第2スイッチユニットが複数そなえられていることを特徴とする、付記2記載のデータストレージ装置。
(付記4)
各制御モジュールの前記通信部と前記第2スイッチユニットとが高速シリアル伝送を利用したバスによって接続されていることを特徴とする、付記2または付記3に記載のデータストレージ装置。
(付記5)
各制御モジュールが前記第1インターフェース部を複数有し、
前記複数の第1インターフェース部にそれぞれ異なるデータ処理装置が接続されていることを特徴とする、付記1〜付記4のいずれか1項に記載のデータストレージ装置。
(付記6)
各制御モジュールが前記第2インターフェース部を複数有していることを特徴とする、付記1〜付記5のいずれか1項に記載のデータストレージ装置。
(付記7)
前記第1スイッチユニットが複数そなえられ、
各記憶部に複数の前記第1スイッチユニットが接続されるとともに、
同一の記憶部に接続された複数の前記第1スイッチユニットに、それぞれ、同一の制御モジュールにおける異なる第2インターフェース部が接続されていることを特徴とする、付記6記載のデータストレージ装置。
(付記8)
前記第2インターフェース部が複数のポートを有し、
前記第2インターフェース部が、前記複数のポートを通じて、異なる記憶部に接続された複数の前記第1スイッチユニットに接続されていることを特徴とする、付記7記載のデータストレージ装置。
(付記9)
前記第2インターフェース部と前記第1スイッチユニット及び前記記憶部と前記第1スイッチユニットとがファイバチャネルによって接続されていることを特徴とする、付記1〜付記8のいずれか1項に記載のデータストレージ装置。
(付記10)
データを保持する複数の記憶部と、
前記複数の記憶部に保持されたデータを処理対象とするデータ処理装置と、
前記複数の記憶部と前記データ処理装置との間に介装された複数の制御モジュールとをそなえ、
前記複数の制御モジュールのそれぞれが、前記複数の記憶部に保持されたデータの一部を保持しうるキャッシュメモリと、該キャッシュメモリの制御を行なうキャッシュ制御部と、前記データ処理装置に対するインターフェースである第1インターフェース部と、前記複数の記憶部に対するインターフェースである第2インターフェース部と、他の制御モジュールと相互に通信を行なう通信部とを有して構成されるとともに、
前記複数の制御モジュールと前記複数の記憶部との間に、各制御モジュールの前記第2インターフェース部と各記憶部とを選択的に切り替えて通信可能に接続する第1スイッチユニットがそなえられていることを特徴とする、情報処理システム。
(付記11)
前記制御モジュールが3以上そなえられ、
前記3以上の制御モジュールの前記通信部に接続され、前記3以上の制御モジュールの相互間を選択的に切り替えて通信可能に接続する第2スイッチユニットをそなえて構成されることを特徴とする、付記10記載の情報処理システム。
(付記12)
各制御モジュールの前記通信部が複数のポートを有し、
前記通信部の複数のポートに対応して前記第2スイッチユニットが複数そなえられていることを特徴とする、付記11記載の情報処理システム。
(付記13)
各制御モジュールの前記通信部と前記第2スイッチユニットとが高速シリアル伝送を利用したバスによって接続されていることを特徴とする、付記11または付記12記載の情報処理システム。
(付記14)
各制御モジュールが前記第1インターフェース部を複数有し、
前記複数の第1インターフェース部にそれぞれ異なるデータ処理装置が接続されていることを特徴とする、付記10〜付記13のいずれか1項に記載の情報処理システム。
(付記15)
各制御モジュールが前記第2インターフェース部を複数有していることを特徴とする、付記10〜付記14のいずれか1項に記載の情報処理システム。
(付記16)
前記第1スイッチユニットが複数そなえられ、
各記憶部に複数の前記第1スイッチユニットが接続されるとともに、
同一の記憶部に接続された複数の前記第1スイッチユニットに、それぞれ、同一の制御モジュールにおける異なる第2インターフェース部が接続されていることを特徴とする、付記15記載の情報処理システム。
(付記17)
各制御モジュールの前記第2インターフェース部が複数のポートを有し、
前記第2インターフェース部が、前記複数のポートを通じて、異なる記憶部に接続された複数の前記第1スイッチユニットに接続されていることを特徴とする、付記16記載の情報処理システム。
(付記18)
各制御モジュールの前記第2インターフェース部と前記第1スイッチユニット及び前記記憶部と前記第1スイッチユニットとがファイバチャネルによって接続されていることを特徴とする、付記10〜付記17のいずれか1項に記載の情報処理システム。
本発明の一実施形態としての情報処理システム(3以上の制御モジュールをそなえる場合)の構成を示すブロック図である。 本発明の一実施形態としての情報処理システムの制御モジュールの構成を示すブロック図である。 本発明の一実施形態としての情報処理システム(2つの制御モジュールをそなえる場合)の構成を示すブロック図である。 第1の従来例としての情報処理システムの構成を示すブロック図である。 第2の従来例としての情報処理システムの構成を示すブロック図である。 第3の従来例としての情報処理システムの構成を示すブロック図である。
符号の説明
1,1′,100〜102 情報処理システム
2−0〜2−31,12 ディスク装置(記憶部)
2a,12a ディスク
2b,12b ディスクドライブ
3−0〜3−31 ホストコンピュータ(データ処理装置)
4−0〜4−7 制御モジュール
5−0〜5−7 Back-end Router(第1スイッチユニット)
6−0,6−1 Front-end Router(第2スイッチユニット)
10,40 キャッシュマネージャ
10a,40a キャッシュメモリ
10b,40b キャッシュ制御部
11,41a〜41d チャネルアダプタ(第1インターフェース部)
13,42a,42b ディスクアダプタ(第2インターフェース部)
14 ルータ
43 DMAエンジン(通信部)

Claims (10)

  1. データを保持する複数の記憶部と、
    前記複数の記憶部と前記複数の記憶部に保持されたデータを処理対象とするデータ処理装置との間に介装された複数の制御モジュールとをそなえ、
    前記複数の制御モジュールのそれぞれが、バスによって接続される複数の基板から構成され、前記複数の記憶部に保持されたデータの一部を保持しうるキャッシュメモリと該キャッシュメモリの制御を行なうキャッシュ制御部とからなるキャッシュマネージャを前記複数の基板のうちの一つに実装して構成され、前記データ処理装置に対するインターフェースである第1インターフェース部を前記複数の基板のうち前記キャッシュマネージャとは別の基板に実装して構成され、前記複数の記憶部に対するインターフェースである第2インターフェース部を前記キャッシュマネージャと同じ基板に実装して構成され前記キャッシュマネージャと他の制御モジュールにおけるキャッシュマネージャの間で相互に通信を行なう通信部を前記キャッシュマネージャと同じ基板に実装して構成され、該キャッシュマネージャと該第1インターフェース部とをバスによって直接接続該キャッシュマネージャ第2インターフェースとをバスによって直接接続し該キャッシュマネージャと該通信部とをバスによって直接接続して構成されるとともに、
    前記複数の制御モジュールにおける前記第2インターフェース部と前記複数の記憶部との間に、各制御モジュールの前記第2インターフェース部と各記憶部とを選択的に切り替えて通信可能に接続し、各制御モジュールにおける前記第2インターフェース部のうちの任意の第2インターフェース部に異常が生じたときに、前記任意の第2インターフェース部以外の第2インターフェース部を介して、各制御モジュールを、前記任意の第2インターフェース部と通信可能だった記憶部と通信可能とする第1スイッチユニットがそなえられていることを特徴とする、データストレージ装置。
  2. 前記制御モジュールが3以上そなえられ、
    前記3以上の制御モジュールの前記通信部に接続され、前記3以上の制御モジュールの相互間を選択的に切り替えて通信可能に接続する第2スイッチユニットをそなえて構成されることを特徴とする、請求項1記載のデータストレージ装置。
  3. 各制御モジュールの前記通信部が複数のポートを有し、
    前記通信部の複数のポートに対応して前記第2スイッチユニットが複数そなえられていることを特徴とする、請求項2記載のデータストレージ装置。
  4. 各制御モジュールの前記通信部と前記第2スイッチユニットとが高速シリアル伝送を利用したバスによって接続されていることを特徴とする、請求項2または請求項3に記載のデータストレージ装置。
  5. 各制御モジュールが前記第1インターフェース部を複数有し、
    前記複数の第1インターフェース部にそれぞれ異なるデータ処理装置が接続されていることを特徴とする、請求項1〜請求項4のいずれか1項に記載のデータストレージ装置。
  6. 各制御モジュールが前記第2インターフェース部を複数有していることを特徴とする、請求項1〜請求項5のいずれか1項に記載のデータストレージ装置。
  7. 前記第1スイッチユニットが複数そなえられ、
    各記憶部に複数の前記第1スイッチユニットが接続されるとともに、
    同一の記憶部に接続された複数の前記第1スイッチユニットに、それぞれ、同一の制御モジュールにおける異なる第2インターフェース部が接続されていることを特徴とする、請求項6記載のデータストレージ装置。
  8. 前記第2インターフェース部が複数のポートを有し、
    前記第2インターフェース部が、前記複数のポートを通じて、異なる記憶部に接続された複数の前記第1スイッチユニットに接続されていることを特徴とする、請求項7記載のデータストレージ装置。
  9. 前記第2インターフェース部と前記第1スイッチユニット及び前記記憶部と前記第1スイッチユニットとがファイバチャネルによって接続されていることを特徴とする、請求項1〜請求項8のいずれか1項に記載のデータストレージ装置。
  10. データを保持する複数の記憶部と、
    前記複数の記憶部に保持されたデータを処理対象とするデータ処理装置と、
    前記複数の記憶部と前記データ処理装置との間に介装された複数の制御モジュールとをそなえ、
    前記複数の制御モジュールのそれぞれが、バスによって接続される複数の基板から構成され、前記複数の記憶部に保持されたデータの一部を保持しうるキャッシュメモリと該キャッシュメモリの制御を行なうキャッシュ制御部とからなるキャッシュマネージャを前記複数の基板のうちの一つに実装して構成され、前記データ処理装置に対するインターフェースである第1インターフェース部を前記複数の基板のうち前記キャッシュマネージャとは別の基板に実装して構成され、前記複数の記憶部に対するインターフェースである第2インターフェース部を前記キャッシュマネージャと同じ基板に実装して構成され前記キャッシュマネージャと他の制御モジュールにおけるキャッシュマネージャの間で相互に通信を行なう通信部を前記キャッシュマネージャと同じ基板に実装して構成され、該キャッシュマネージャと該第1インターフェース部とをバスによって直接接続該キャッシュマネージャ第2インターフェースとをバスによって直接接続し該キャッシュマネージャと該通信部とをバスによって直接接続して構成されるとともに、
    前記複数の制御モジュールにおける前記第2インターフェース部と前記複数の記憶部との間に、各制御モジュールの前記第2インターフェース部と各記憶部とを選択的に切り替えて通信可能に接続し、各制御モジュールにおける前記第2インターフェース部のうちの任意の第2インターフェース部に異常が生じたときに、前記任意の第2インターフェース部以外の第2インターフェース部を介して、各制御モジュールを、前記任意の第2インターフェース部と通信可能だった記憶部と通信可能とする第1スイッチユニットがそなえられていることを特徴とする、情報処理システム。
JP2004347411A 2004-11-30 2004-11-30 データストレージ装置及び情報処理システム Expired - Fee Related JP4404754B2 (ja)

Priority Applications (7)

Application Number Priority Date Filing Date Title
JP2004347411A JP4404754B2 (ja) 2004-11-30 2004-11-30 データストレージ装置及び情報処理システム
EP05253250.4A EP1662369B1 (en) 2004-11-30 2005-05-26 Data storage system and data storage control device
EP10190560.2A EP2296085B1 (en) 2004-11-30 2005-05-26 Data storage system and capacity changing method
US11/138,299 US20060117159A1 (en) 2004-11-30 2005-05-27 Data storage system and data storage control device
KR1020050053785A KR100736645B1 (ko) 2004-11-30 2005-06-22 데이터 기억 시스템 및 데이터 기억 제어 장치
CNB2005100796426A CN100347655C (zh) 2004-11-30 2005-06-23 数据存储系统和数据存储控制装置
US14/248,777 US20140223097A1 (en) 2004-11-30 2014-04-09 Data storage system and data storage control device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004347411A JP4404754B2 (ja) 2004-11-30 2004-11-30 データストレージ装置及び情報処理システム

Publications (2)

Publication Number Publication Date
JP2006155392A JP2006155392A (ja) 2006-06-15
JP4404754B2 true JP4404754B2 (ja) 2010-01-27

Family

ID=36633589

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004347411A Expired - Fee Related JP4404754B2 (ja) 2004-11-30 2004-11-30 データストレージ装置及び情報処理システム

Country Status (2)

Country Link
JP (1) JP4404754B2 (ja)
CN (1) CN100347655C (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100550880C (zh) 2006-11-30 2009-10-14 杭州华三通信技术有限公司 通信设备的中间背板
WO2008086077A1 (en) * 2007-01-03 2008-07-17 Raytheon Company Computer storage system
JP4362135B2 (ja) 2007-02-13 2009-11-11 富士通株式会社 データ転送装置およびデータ転送方法
CN102163130B (zh) * 2010-02-23 2013-01-02 慧荣科技股份有限公司 管理存储器读出数据的方法以及记忆装置
JP5545108B2 (ja) 2010-08-04 2014-07-09 富士通株式会社 ストレージシステム、制御装置および制御方法
JP5736875B2 (ja) 2011-03-18 2015-06-17 富士通株式会社 ストレージ装置およびストレージ装置の制御方法
JP6604029B2 (ja) 2015-04-30 2019-11-13 富士通株式会社 制御装置、ストレージ装置、制御プログラム
JP6540204B2 (ja) 2015-04-30 2019-07-10 富士通株式会社 中継装置
JP6582523B2 (ja) 2015-04-30 2019-10-02 富士通株式会社 ストレージ装置、制御装置、制御プログラム
CN111522513B (zh) * 2020-04-24 2022-08-12 上海航天计算机技术研究所 一种可扩展的高性能多接口星载存储系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4392877B2 (ja) * 1998-09-18 2010-01-06 株式会社日立製作所 ディスクアレイ制御装置
EP1026575A3 (en) * 1999-02-08 2006-09-06 Hitachi, Ltd. Disk array system and method of changing its configuration
US6351838B1 (en) * 1999-03-12 2002-02-26 Aurora Communications, Inc Multidimensional parity protection system
JP2001256003A (ja) * 2000-03-10 2001-09-21 Hitachi Ltd ディスクアレイ制御装置、そのディスクアレイ制御ユニットおよびその増設方法
CN100336050C (zh) * 2003-04-04 2007-09-05 清华大学 海量网络存储器设备及其实现方法

Also Published As

Publication number Publication date
CN100347655C (zh) 2007-11-07
CN1782978A (zh) 2006-06-07
JP2006155392A (ja) 2006-06-15

Similar Documents

Publication Publication Date Title
JP4413184B2 (ja) データストレージシステム及びデータストレージ制御装置
JP5176039B2 (ja) 冗長ストレージサブシステム間におけるsasraidコントローラデバイスチャネルの接続のためのシステム、及び方法
US7146448B2 (en) Apparatus and method for adopting an orphan I/O port in a redundant storage controller
JP4294142B2 (ja) ディスクサブシステム
KR100793224B1 (ko) Raid 시스템, raid 컨트롤러 및 그 재구성/재복사처리 방법
KR100740080B1 (ko) 데이터 기억 시스템 및 데이터 기억 제어 장치
US7467238B2 (en) Disk controller and storage system
US20070226415A1 (en) Using OOB to Provide Communication in a Computer Storage System
WO2003036493A1 (en) Modular architecture for a network storage controller
WO2003030006A9 (en) Controller data sharing using a modular dma architecture
US20140223097A1 (en) Data storage system and data storage control device
JP4441286B2 (ja) ストレージシステム
JP4404754B2 (ja) データストレージ装置及び情報処理システム
US7861123B1 (en) Managing loop interface failure
JP4252551B2 (ja) データストレージシステム及びストレージ制御装置の異常時のログデータ出力方法
US7426658B2 (en) Data storage system and log data equalization control method for storage control apparatus
JP4440127B2 (ja) データストレージシステム及びデータストレージ制御装置
JP4985750B2 (ja) データストレージシステム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090415

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090602

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090827

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20090911

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091013

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091102

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121113

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4404754

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121113

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131113

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees