JP2008225643A - サーバ間ミラーディスクコントローラ、拡張カード - Google Patents

サーバ間ミラーディスクコントローラ、拡張カード Download PDF

Info

Publication number
JP2008225643A
JP2008225643A JP2007060140A JP2007060140A JP2008225643A JP 2008225643 A JP2008225643 A JP 2008225643A JP 2007060140 A JP2007060140 A JP 2007060140A JP 2007060140 A JP2007060140 A JP 2007060140A JP 2008225643 A JP2008225643 A JP 2008225643A
Authority
JP
Japan
Prior art keywords
mirror
storage device
disk
inter
physical storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2007060140A
Other languages
English (en)
Inventor
Yoshihiro Nakamura
佳礼 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2007060140A priority Critical patent/JP2008225643A/ja
Publication of JP2008225643A publication Critical patent/JP2008225643A/ja
Withdrawn legal-status Critical Current

Links

Images

Abstract

【課題】クラスタシステムにおける各サーバ装置が有するローカルの物理記憶装置を、クラスタシステムの共有記憶装置として動作可能とすることである。
【解決手段】一の装置間連携部35は、ローカルの物理記憶装置181〜184に対してデータの読み書きを指示する。一のミラーディスクコントローラ34は、論理記憶装置に対して、物理記憶装置をミラー化して割り当てる。一のミラー情報管理部33は、前記論理記憶装置及びミラー化された前記物理記憶装置に関するミラーディスク構成情報を保持する。前記一のミラーディスクコントローラ34は、リモートの物理記憶装置191〜194に対するデータの読み書きが可能であるときには、前記論理記憶装置に対して、トータルの物理記憶装置181〜184,191〜194をミラー化して割り当てる。前記一のミラー情報管理部33は、前記論理記憶装置及びミラー化された前記トータルの物理記憶装置181〜184,191〜194に関するミラーディスク構成情報を保持する。
【選択図】図4

Description

本発明は、サーバ間ミラーディスクコントローラ、拡張カードに関する。
クラスタシステムは、複数のサーバ・マシンを連携して動作させて、1台のサーバ・マシンのように振る舞うようにしたシステムである。HA(High Availability)クラスタシステムでは、システムの可用性を高めるために、ひとつのサーバ・マシンで障害が発生すると、残りのサーバ・マシンがバックアップする。特に、2台のサーバ・マシンを使用する場合には、運用系のサーバ・マシンに障害が発生すると、待機系のサーバ・マシンにサービス業務をフェイルオーバ(Fail over)する。これにより、クライアントに対して、サービス業務を停止することなく、可用性の高いサービスを継続提供する。
HAクラスタシステムには、共有ディスク装置を使用するものがある。共有ディスクタイプのHAクラスタシステムは、大規模なシステムに非常に適しているが、共有ディスク装置がSPOF(Single Point of Failure)になる。このSPOFの問題を解決するためには、共有ディスク装置を二重化するなどすればよいが、その場合には、HAクラスタシステムが、とても高価なシステムになってしまう。
図1に、共有ディスクタイプのHAクラスタシステムを示す。図1において、HAクラスタシステムは、二つのサーバ装置100,110と、一つの共有ディスク装置120とを有している。二つのサーバ装置100,110は、ソフトウェア101,111として、オペレーティングシステム104,114と、共有型クラスタソフトウェア103,113と、アプリケーション102,112とを有している。これらのソフトウェア101,111は、不図示のメインメモリにロードされて、不図示のCPUにて実行される。サーバ装置100,110から、共有ディスク装置120へのアクセスは、各サーバ101,111のHBA(Host Bus Adapter:例えば、SCSIコントローラ)105,115を介して行われる。共有ディスク装置120は、複数のディスク124,125,126と、これらを制御するディスク制御部123と、各サーバ101,111のHBA105,115と接続されたディスクアレイコントローラ121,122とを有している。複数のディスク124,125,126は、冗長化のために、一般的に、Raid(Redundant Arrays of Inexpensive Disks)構成を取る。
図1において、共有ディスク装置120のディスク124〜126には、論理ディスク名が与えられる。ソフトウェア101,111は、この論理ディスク名によって、共有ディスク装置120へアクセスする。アプリケーション102,112には、サーバ装置100,110間で共有されるトランザクション・データの書き込み先が設定される。この設定では、共有ディスク装置120のディスク124〜126に与えられる論理ディスク名が使用される。アプリケーション102,112でトランザクションが発生すると、共有型クラスタソフトウェア103,113は、トランザクション・データを共有ディスク装置120へ書き込むように、オペレーティングシステム104,114に指示する。オペレーティングシステム104,114は、HBA105,115を介して、トランザクション・データをディスクアレイコントローラ121,122へ送出する。ディスクアレイコントローラ121,122は、オペレーティングシステム104,114からトランザクション・データの書き込み命令を受けると、当該論理ディスク名が与えられているディスク124,125,126に対して、トランザクションデータを書き込むように、ディスク制御部123へ指示する。ディスク制御部123は、指定されたアドレスへトランザクション・データを書き込む。
HAクラスタシステムには、データミラータイプもある。データミラータイプでは、異なるサーバ・マシンが有するそれぞれのローカルディスク間で、データをミラー化する。これにより、共有ディスクタイプと同じ機能を、より低価格で提供し、高可用性を実現する。データミラータイプは、それぞれのローカルディスクのデータをレプリケーション技術によって冗長化させ、異なるサーバ・マシン間で同期書き込みを行う。しかしながら、サーバ・マシン間でデータをミラー化する必要があるため、大量のデータを必要とする大規模システムには不向きである。
図2に、データミラータイプのHAクラスタシステムを示す。図2において、HAクラスタシステムは、二つのサーバ装置130,140を有している。二つのサーバ装置130,140は、ソフトウェア131,141として、オペレーティングシステム134,144と、ミラー型クラスタソフトウェア133,143と、アプリケーション132,142とを有している。これらのソフトウェア131,141は、不図示のメインメモリにロードされて、不図示のCPUにて実行される。
図2において、ミラー型クラスタソフトウェア133,143は、ディスク137〜139,147〜149をミラー化し、当該ミラーディスクの論理ディスク名を保持する。この論理ディスク名は、アプリケーション132,142に設定される。サーバ装置130のアプリケーション132でトランザクションが発生したとする。このとき、アプリケーション132は、ミラー型クラスタソフトウェア133に対して、ミラー化されている論理ディスク名を指定して、トランザクション・データの書き込みを要求する。サーバ装置130のミラー型クラスタソフトウェア133は、アプリケーション132からトランザクション・データの書き込み要求を受けると、その論理ディスク名が与えられているミラーディスクを確認する。そして、ミラー化されている二つのディスク137〜139,147〜149に対して、トランザクション・データを書き込む。ここでは、サーバ装置130と、他のサーバ装置140とに対して、当該トランザクション・データを書き込みに行く。
まず、ミラー型クラスタソフトウェア133は、ローカルのディスク137〜139に対して一つ目の書き込みを行う。ミラー型クラスタソフトウェア133は、オペレーティングシステム134に対して、トランザクション・データの書き込みを指示し、オペレーティングシステム134は、ディスクアレイコントローラ135に対して、そのトランザクション・データを書き込むように指示する。ディスクアレイコントローラ135は、オペレーティングシステム134から書き込み命令を受けると、該当するいずれかのディスク137〜139に対して、トランザクション・データを書き込むように、ディスク制御部136へ指示する。ディスク制御部136は、いずれかのディスク137〜139における指定されたアドレスへ、当該トランザクション・データを書き込む。
同時に、ミラー型クラスタソフトウェア133は、リモートのディスク147〜149に対して二つ目の書き込みを行う。ミラー型クラスタソフトウェア133は、LANコントローラ150,151、及びLAN回線152を通して、他のサーバ装置140のミラー型クラスタソフトウェア143にアクセスして、トランザクション・データを送信し、ミラー型クラスタソフトウェア143に対して、二つ目の書き込みを指示する。サーバ装置140において、ミラー型クラスタソフトウェア143は、オペレーティングシステム144に対して、トランザクションデータの書き込みを指示する。オペレーティングシステム144は、ディスクアレイコントローラ145に対して、そのトランザクションデータを書き込むように指示する。ディスクアレイコントローラ145は、オペレーティングシステム144から書き込み命令を受けると、該当するいずれかのディスク147〜149に対して、トランザクション・データを書き込むように、ディスク制御部146へ指示する。ディスク制御部146は、いずれかのディスク147〜149における指定されたアドレスへ、当該トランザクション・データを書き込む。
このように、データミラータイプのHAクラスタシステムでは、一のサーバ装置130と他のサーバ装置140との間で、データをミラー化し、同期させる。一のサーバ装置130におけるディスク137〜139に障害が発生した場合、ミラー型クラスタソフトウェア133は、他のサーバ装置140のミラー型クラスタソフトウェア143に、その旨を通知する。以降、障害ディスクへの読み書きは行わず、ミラー型クラスタソフトウェア133は、LANコントローラ150〜151、及びLAN回線152経由で、他のサーバ装置140において、障害ディスクのミラーディスクとなっているディスク147〜149のみに対して読み書きを実行する。このように、ミラー型クラスタソフトウェアでは、ディスクへのアクセスをネットワークへのアクセスに切り替える。そのため、オーバーヘッドが大きく、性能の低下が発生してしまう。かつ、オペレーティングシステムのファイルシステムにも依存している。
データミラータイプのHAクラスタシステムに関連する先行技術としては、特開2001−109642号公報(特許文献1参照)に記載された「クラスタシステム、及びそのデータ複写方法」の発明と、特開2003−131818号公報(特許文献2参照)に記載された「クラスタ構成ストレージにおけるクラスタ間RAID構成」の発明と、特開2005−293315号公報(特許文献3参照)に記載された「データミラー型クラスタシステム及びデータミラー型クラスタシステムの同期制御方法」の発明とが知られる。
特許文献1においては、クラスタシステムは、それぞれがローカルディスクを有する少なくとも主系サーバと従系サーバとからなる。主系サーバは、第1の書換手段と、更新要求送信手段とを具備する。第1の書換手段は、アプリケーションプログラムから出力されたその保有するローカルディスクに記録したデータの更新要求に応じてローカルディスクの保持するデータを書き換える。更新要求送信手段は、この第1の書換手段によるデータの書き換えが正常に行われた際に従系サーバに対してその保有するローカルディスクの更新要求を送信する。従系サーバは、バッファと、バッファ制御手段と、第2の書換手段とを具備する。バッファは、前記更新要求送信手段から送信を受けた更新要求が非同期の更新要求の場合、その更新要求を一時的に格納する。バッファ制御手段は、前記更新要求送信手段から前記バッファに既に書き込まれている更新要求と同一の領域に対する新たな更新要求を受信した場合、この新たな更新要求のみを前記バッファに格納し、前記既に書き込まれている更新要求を破棄する。第2の書換手段は、前記バッファから更新要求を読み出して、ローカルディスクのデータを書き換える。
特許文献2においては、計算機システムは、1台以上のホストコンピュータと複数のクラスタからなるストレージシステムを接続してなる。この計算機システムにおいては、ストレージクラスタが1台以上の記憶装置と1つ以上のコントローラとキャッシュメモリと制御情報を格納する共用メモリを有し、クラスタ間を接続するネットワークにより各コントローラが他のクラスタ内のキャッシュメモリや共用メモリの内容を利用可能である。ストレージシステムは、複数のクラスタの1台以上の記憶装置からなる記憶装置アレイを構成する。当該記憶装置アレイに対するデータ更新時には、第1のクラスタのキャッシュメモリに保持した更新データを用いて第2のクラスタの記憶装置に格納された冗長データの更新を行う。
特許文献3においては、データミラー型クラスタシステムは、一台が運用系、少なくとももう一台が待機系として動作するサーバ装置から構成され、運用系データベース上のデータ変更を待機系のデータベースに反映する。各サーバ装置は、それぞれのデータベースと、両サーバ装置からアクセス可能な共有メモリとを備える。また、各サーバ装置は、トランザクションを相手サーバ装置に転送できるインターコネクトにより相互に接続されている。各サーバ装置においては、運用系メモリドライバ手段は、運用系として動作しているときに、データベース上のデータの変更を共有メモリに書き込む。待機系メモリドライバ手段は、待機系として動作しているときに、前記インターコネクトを介して共有メモリ上に転送されてきたデータをデータベースに書き込む。
特開2001−109642号公報 特開2003−131818号公報 特開2005−293315号公報
本発明の課題は、クラスタシステムにおける各サーバ装置が有するローカルの物理記憶装置を、クラスタシステムの共有記憶装置として動作可能とすることである。本発明の他の課題は、一のサーバ装置が、他のサーバ装置におけるオペレーティングシステムに依存せずに、当該他のサーバ装置が有するローカルの物理記憶装置に対してアクセスすることを可能にすることである。
以下に、[発明を実施するための最良の形態]で使用される番号・符号を用いて、[課題を解決するための手段]を説明する。これらの番号・符号は、[特許請求の範囲]の記載と[発明を実施するための最良の形態]との対応関係を明らかにするために括弧付きで付加されたものである。ただし、それらの番号・符号を、[特許請求の範囲]に記載されている発明の技術的範囲の解釈に用いてはならない。
本発明に係るサーバ間ミラーディスクコントローラ(31)においては、一の装置間連携部(35)は、ローカルの物理記憶装置(181〜184)に対してデータの読み書きを指示する。一のミラーディスクコントローラ(34)は、論理記憶装置に対して、物理記憶装置をミラー化して割り当てる。一のミラー情報管理部(33)は、前記論理記憶装置及びミラー化された前記物理記憶装置に関するミラーディスク構成情報を保持する。前記一のミラーディスクコントローラ(34)は、リモートの物理記憶装置(191〜194)に対してデータの読み書きを指示する他の装置間連携部(45)がある場合において、当該他の装置間連携部(45)を通じて、前記リモートの物理記憶装置(191〜194)に対するデータの読み書きが可能であるときには、前記論理記憶装置に対して、前記ローカルの物理記憶装置(181〜184)に前記リモートの物理記憶装置(191〜194)を加えたトータルの物理記憶装置(181〜184,191〜194)をミラー化して割り当てる。前記一のミラー情報管理部(33)は、前記論理記憶装置及びミラー化された前記トータルの物理記憶装置(181〜184,191〜194)に関するミラーディスク構成情報を保持する。
本発明に係るサーバ間ミラーディスクコントローラ(31)においては、前記一のミラー情報管理部(33)は、データの読み書きが可能な論理記憶装置及びデータの読み書きが不可能な論理記憶装置に関するアクセス制限情報を保持する。そして、当該アクセス制限情報に基づいて、ソフトウェアに対して、データの読み書きが可能な論理記憶装置に対するアクセスのみを許可し、データの読み書きが不可能な論理記憶装置に対するアクセスを受け付けない。
本発明に係るサーバ間ミラーディスクコントローラ(31)においては、前記一のミラー情報管理部(33)は、ソフトウェアが、論理記憶装置に対してデータの書き込みをしてきた場合には、前記一のミラーディスクコントローラ(34)に対して、その内容を出力する。前記一のミラーディスクコントローラ(34)は、前記論理記憶装置に対して、前記トータルの物理記憶装置(181〜184,191〜194)をミラー化して割り当てることにより、一のミラーディスクが前記ローカルの物理記憶装置(181〜184)であり、他のミラーディスクが前記リモートの物理記憶装置(191〜194)となっている場合には、当該データの書き込みを、前記ローカルの物理記憶装置(181〜184)と、前記リモートの物理記憶装置(191〜194)とに行うように、前記一の装置間連携部(35)へ伝える。前記一の装置間連携部(35)は、前記ローカルの物理記憶装置(181〜184)に対する書き込みを指示すると共に、前記他の装置間連携部(45)に対して、前記リモートの物理記憶装置(191〜194)に対する第二の書き込みを行うように指示する。
本発明に係るサーバ間ミラーディスクコントローラ(31)においては、前記一のミラー情報管理部(33)は、ソフトウェアが、論理記憶装置に対してデータの書き込みをしてきた場合において、前記ミラーディスク構成情報が、前記論理記憶装置に対して、前記ローカルの物理記憶装置(181〜184)と、前記リモートの物理記憶装置(191〜194)とがミラー化されて割り当てられていることを示していたときには、前記他の装置間連携部(45)と連携する他のミラー情報管理部(43)に対して、その内容を出力する。前記一の装置間連携部(35)は、前記リモートの物理記憶装置(191〜194)に対して第一の書き込みを行う前記他の装置間連携部(45)から、第二の書き込みを指示された場合には、前記ローカルの物理記憶装置(181〜184)に当該第二の書き込みを指示する。
本発明に係る拡張カードにおいては、上述した本発明に係るサーバ間ミラーディスクコントローラ(31)を搭載する。
本発明によれば、クラスタシステムにおける各サーバ装置が有するローカルの物理記憶装置を、クラスタシステムの共有記憶装置として動作可能とすることができる。また、一のサーバ装置が、他のサーバ装置におけるオペレーティングシステムに依存せずに、当該他のサーバ装置が有するローカルの物理記憶装置に対してアクセスすることができる。
本実施の形態は、複数のサーバ装置を具備するクラスタシステムにおいて、それぞれのサーバ装置が有するローカルの物理記憶装置をミラー化し、共有記憶装置として扱うことを可能としたことを特徴としている。図3に、本実施の形態のシステム構成図を示す。図3において、HAクラスタシステムは、二つのサーバ装置10,20を有している。二つのサーバ装置10,20は、ソフトウェア161,171として、オペレーティングシステム164,174と、共有型クラスタソフトウェア163,173と、アプリケーション162,172とを有している。これらのソフトウェア161,171は、ローカルディスク137〜139,147〜149から、不図示のメインメモリにロードされて、不図示のCPUにて実行される。サーバ装置10のサーバ間ミラーディスクコントローラ11は、ローカルディスク137〜139を管理し、他のサーバ間ミラーディスクコントローラ21に対して、ローカルディスク137〜139に関する情報を提供する。同時に、サーバ間ミラーディスクコントローラ11は、他のサーバ装置20のローカルディスク147〜149を管理するサーバ間ミラーディスクコントローラ21から、他のサーバ装置20のローカルディスク147〜149に関する情報の提供を受ける。そして、サーバ間ミラーディスクコントローラ11は、オペレーティングシステムに対して、ミラー化されている論理ディスク名を通知すると共に、その論理ディスク名に対応する物理ディスクとして、自ら管理するローカルディスク137〜139のみならず、他のサーバ装置20のローカルディスク147〜149も含めることができる。この論理ディスク名を用いることにより、アプリケーション162と共有型クラスタソフトウェア163は、ミラーディスクに対して、共有型クラスタシステムにおける共有ディスク装置へのアクセスと等価なアクセスが可能になる。
本実施の形態によるHAクラスタシステムの動作概要を説明する。サーバ装置10において、アプリケーション162には、ミラー化されているディスクが論理ディスク名で設定される。このアプリケーション162でトランザクションが発生したとする。共有型クラスタソフトウェア163は、アプリケーション162からトランザクション・データを受け取り、オペレーティングシステム164に対して、共有ディスク化したディスクへの書き込みを依頼する。オペレーティングシステム164は、サーバ間ミラーディスクコントローラ11に対して、当該トランザクション・データの書き込みを指示する。サーバ間ミラーディスクコントローラ11は、論理ディスク名からミラー化されているディスクを確認する。そして、ローカルディスク137〜139を制御するディスク制御部136へ、当該トランザクション・データの一つ目の書き込みを指示し、かつ、ファイバーチャネル153を介して、当該トランザクション・データをサーバ装置20のサーバ間ミラーディスクコントローラ21へ送出する。サーバ装置20のサーバ間ミラーディスクコントローラ21は、サーバ装置10における一つ目の書き込みに同期させて、サーバ装置20のローカルディスク147〜149を制御するディスク制御部146に対して、二つ目の書き込みを指示する。
オペレーティングシステム164から、トランザクション・データの書き込みを指示されたサーバ間ミラーディスクコントローラ11は、当該データの書き込みを、サーバ装置20のサーバ間ミラーディスクコントローラ21に依頼することもできる。このとき、サーバ間ミラーディスクコントローラ21は、論理ディスク名からミラー化されているディスクを確認する。そして、ローカルディスク147〜149を制御するディスク制御部146へ、当該トランザクション・データの一つ目の書き込みを指示し、かつ、ファイバーチャネル153を介して、当該トランザクション・データをサーバ装置10のサーバ間ミラーディスクコントローラ11へ送出する。サーバ装置10のサーバ間ミラーディスクコントローラ11は、サーバ装置20における一つ目の書き込みに同期させて、サーバ装置10のローカルディスク137〜139を制御するディスク制御部136に対して、二つ目の書き込みを指示する。
図4に、サーバ間ミラーディスクコントローラの詳細説明図を示す。図4において、サーバ装置30のサーバ間ミラーディスクコントローラ31は、キャッシュ32と、ミラー情報管理部33と、ミラーディスクコントローラ34と、装置間連携部35とを有する。ミラー情報管理部33は、他のサーバ間ミラーディスクコントローラ41と、ファイバーチャネル154を介して、ミラーディスク情報を交換したり、論理ディスクへのアクセスを連携したりする。装置間連携部35は、他のサーバ間ミラーディスクコントローラ41と、ファイバーチャネル155を介して、ディスクアクセスを連携する。同様に、サーバ装置40のサーバ間ミラーディスクコントローラ41は、キャッシュ42と、ミラー情報管理部43と、ミラーディスクコントローラ44と、装置間連携部45とを有する。ミラー情報管理部43は、他のサーバ間ミラーディスクコントローラ31と、ファイバーチャネル154を介して、ミラーディスク情報を交換したり、論理ディスクへのアクセスを連携したりする。装置間連携部45は、他のサーバ間ミラーディスクコントローラ31と、ファイバーチャネル155を介して、ディスクアクセスを連携する。
サーバ間ミラーディスクコントローラ31は、拡張カードに搭載されている。この拡張カードをサーバ装置30に実装すると、ミラー情報管理部33が、不図示のバスを介して不図示のCPUに接続されると共に、装置間連携部35が、不図示のケーブルを介してディスク制御部180に接続される。同様に、サーバ間ミラーディスクコントローラ41も、拡張カードに搭載されている。この拡張カードをサーバ装置40に実装すると、ミラー情報管理部43が、不図示のバスを介して不図示のCPUに接続されると共に、装置間連携部45が、不図示のケーブルを介してディスク制御部190に接続される。また、サーバ間ミラーディスクコントローラ31を搭載した拡張カードは、少なくとも一本の光ケーブルを接続するコネクタを具備し、サーバ間ミラーディスクコントローラ41を搭載した拡張カードも、少なくとも一本の光ケーブルを接続するコネクタを具備する。サーバ間ミラーディスクコントローラ31,41を搭載した二つの拡張カードを光ケーブルで接続することにより、論理回線2回線分のファイバーチャネル154,155を形成することができる。
図4において、サーバ装置30のミラー情報管理部33は、自サーバ装置30のミラーディスク構成情報やエラー情報の管理を行い、かつ、他サーバ装置40のディスク191〜194を使用して、共有ディスク化したミラーディスクの構成情報やエラー情報の管理を行い、また、ミラーディスクコントローラ34へのデータ出力、装置間連携部35へのディスクアクセス制御情報の出力を行う。装置間連携部35は、ミラー情報管理部33よりディスクアクセス制御情報の入力、他サーバ装置40の装置間連携部45との間でのデータや情報の入出力、ミラーディスクコントローラ34へのデータの入出力、ディスク制御部180へのデータの入出力やディスク181〜184のエラー情報の入出力を行う。同様に、サーバ装置40のミラー情報管理部43は、自サーバ装置40のミラーディスク構成情報やエラー情報の管理を行い、かつ、他サーバ装置30のディスク181〜184を使用して、共有ディスク化したミラーディスクの構成情報やエラー情報の管理を行い、また、ミラーディスクコントローラ44へのデータ出力、装置間連携部45へのディスクアクセス制御情報の出力を行う。装置間連携部45は、ミラー情報管理部43よりディスクアクセス制御情報の入力、他サーバ装置30の装置間連携部35との間でのデータや情報の入出力、ミラーディスクコントローラ44へのデータの入出力、ディスク制御部190へのデータの入出力やディスク191〜194のエラー情報の入出力を行う。このように、サーバ間ミラーディスクコントローラ31は、ミラーディスクコントローラ34の他に、ミラー情報管理部33と、装置間連携部35とを有する。同様に、サーバ間ミラーディスクコントローラ41は、ミラーディスクコントローラ44の他に、ミラー情報管理部43と、装置間連携部45とを有する。これにより、サーバ装置30,40間でミラーディスクを構成でき、また、ローカルのディスクとリモートのディスクとを合わせたトータルのディスク181〜184,191〜194を、共有型クラスタシステムにおける共有ディスク装置として利用することができる。
ミラー情報管理部33は、自サーバ装置30、及び他サーバ装置40のミラーディスク構成情報や、ミラーディスクのアクセス制御情報、各ディスク181〜184,191〜194のエラー情報を格納する。ミラー情報管理部33は、自サーバ装置30のミラーディスクコントローラ34へ自サーバ装置30でアクセス可能なミラーディスクの構成情報を出力し、装置間連携部35には、自サーバ装置30でアクセス可能なディスクの情報を出力する。ミラー情報管理部33は、他サーバ装置40のミラー情報管理部43へ、他サーバ装置40におけるアクセス可能なミラーディスクへアクセスするために、データの入出力と、当該ミラーディスクの排他制御とを行う。
装置間連携部35は、自サーバ装置30のディスク181〜184の情報と、他サーバ装置40の装置間連携部45から受け取った他サーバ装置40のディスク191〜194に関する情報をまとめる。そして、自サーバ装置30からアクセス可能なディスクと、自サーバ装置30からはアクセス不可となるディスクとの管理を行う。自サーバ装置30から利用可能なディスクの構成情報を自サーバ装置30のミラーディスクコントローラ34に出力する。
次に、図4に示すサーバ装置30からのデータの書き込みを例に、サーバ間ミラーディスクコントローラの動作について説明する。なお、ミラー構成は、ディスク181とディスク182とで一つの論理ディスクAを構成し、ディスク191とディスク192とで論理ディスクBを構成し、ディスク183とディスク193とで論理ディスクCを構成し、ディスク184とディスク194とで論理ディスクDを構成しているものとする。また、論理ディスクへのアクセス権限については、サーバ装置30は、論理ディスクAと論理ディスクCへの権限を持っているものとし、サーバ装置40は、論理ディスクBと論理ディスクDへの権限を所有しているものとする。このアクセス制限情報はミラー情報管理部33,43にて保持している。
[A]図4において、サーバ装置30から論理ディスクAへのアクセスがあった場合には、ミラー情報管理部33にて、自サーバ装置30のみの構成であることを検出する。ミラー情報管理部33は、自サーバ装置30のミラーディスクコントローラ34へデータを出力する。ミラーディスクコントローラ34は、当該データをミラー化して保存するように、二つのディスクへの書き込みを装置間連携部35へ指示する。装置間連携部35は、ディスク制御部180を経由して、ディスク181とディスク182とへ、同一データの重複書き込みを行う。
[B]サーバ装置30から論理ディスクBへのアクセスはできない。論理ディスクBは、他サーバ装置40のみの構成であり、サーバ装置30のオペレーティングシステムは、論理ディスクBを認識することができない。
[C]サーバ装置30から論理ディスクCへのアクセスがあった場合には、ミラー情報管理部33にて、自サーバ装置30のみの構成では無いことを検出する。ミラー情報管理部33は、データを受け取ると、サーバ装置40のディスク193への書き込みも存在するため、まず、ファイバーチャネル154を介して、ミラー情報管理部43へデータを出力する。ミラー情報管理部43は、受信したデータをキャッシュ42に出力する。キャッシュ42へのデータの書き込みが完了すると、ミラー情報管理部43は、完了通知を、ファイバーチャネル154を介して、ミラー情報管理部33へ出力する。
ミラー情報管理部33は、ミラー情報管理部43へデータを出力すると同時に、ミラーディスクコントローラ34へも同一のデータを出力する。このデータを入力するミラーディスクコントローラ34は、ディスク183と、ディスク193とに書き込まれるデータを、装置間連携部35へ出力する。装置間連携部35は、自サーバ装置30のディスク制御部180へデータを出力すると同時に、ファイバーチャネル155を介して、他サーバ装置40の装置間連携部45へも同一のデータを出力する。
自サーバ装置30では、ディスク制御部180がディスク183への書き込みを行う。ディスク183への書き込みが完了すると、書き込み完了通知が、装置間連携部35を経由して、ミラーディスクコントローラ34へ届く。
他サーバ装置40では、当該データを、装置間連携部45が受信する。装置間連携部45は、書き込みデータをディスク制御部190へ出力し、ディスク制御部190は、ディスク193への書き込みを行う。ディスク193への書き込みが完了すると、書き込み完了通知が、装置間連携部45、ファイバーチャネル155、装置間連携部35を介して、ミラーディスクコントローラ34へ届く。
ミラーディスクコントローラ34は、2つの書き込みが正常に終了したことを確認すると、書き込み完了通知を、ミラー情報管理部33へ送出する。この完了通知を受け取ったミラー情報管理部33は、ファイバーチャネル154を介して、ミラー情報管理部43へ書き込み完了を通知する。ミラー情報管理部43は、キャッシュ42に保存していたデータを削除すると同時に、その旨の通知を、ファイバーチャネル154を介して、ミラー情報管理部33へ送信する。この通知を入手したミラー情報管理部33は、サーバ装置30のオペレーティングシステムへ、データの書き込みが完了したことを通知する。
[D]サーバ装置30から、論理ディスクDへのアクセスを行おうとすると、ミラー情報管理部33において、論理ディスクDは、他サーバ装置40のみにアクセス権限があることが検出される。ミラー情報管理部33は、アクセスが許可されていないことを検出し、サーバ装置30のオペレーティングシステムへエラー・メッセージを返す。
装置間連携部35では、ディスク181〜184,191〜194のアクセス制限情報を保持している。ディスク181、ディスク182に関しては、サーバ装置30のみで論理ディスクAを構成しているため、装置間連携部35から装置間連携部45へディスク181,182の存在を出力しない。そのため、サーバ装置40のオペレーティングシステムは、これらのディスク181,182の存在を認識できない。また同様に、サーバ装置40のみで論理ディスクBを構成しているディスク191、ディスク192は、サーバ装置30のオペレーティングシステムから、その存在を認識できない。このため、サーバ装置30から論理ディスクBへのアクセスは存在しない。
論理ディスクC、論理ディスクDに関しては、両方のサーバ装置30,40にアクセスを許可することも可能である。論理ディスクDへのアクセス権限が無かったサーバ装置30に対して、ディスク184,194へのアクセスを許可する場合には、ミラー情報管理部33が、論理ディスクDを構成しているディスク184,194へのアクセスを行うように、ミラーディスクコントローラ34を制御する。論理ディスクCへのアクセス権限が無かったサーバ装置40に対して、ディスク183,193へのアクセスを許可した場合には、ミラー情報管理部43が、論理ディスクCを構成しているディスク183,193へのアクセスを行うように、ミラーディスクコントローラ44を制御する。
[C’]両方のサーバ装置30,40に、論理ディスクCに対するアクセス権限が付与された場合について説明する。サーバ装置30のオペレーティングシステムから、論理ディスクCに対する書き込みがあったとき、当該論理ディスクCへの書き込みを、サーバ装置30側のミラーディスクコントローラ34を用いて実行することができ、或いは、当該論理ディスクCへの書き込みを、サーバ装置40側のミラーディスクコントローラ44を用いて実行することもできる。論理ディスクCへの書き込みを、サーバ装置30側のミラーディスクコントローラ34を用いて行う場合については、上述した。ここでは、論理ディスクCへのアクセスを、サーバ装置40側のミラーディスクコントローラ44を用いて行う場合について説明する。
サーバ装置30のオペレーティングシステムより、ミラー情報管理部33へデータが出力される。ミラー情報管理部33は、キャッシュ32へそのデータを出力すると同時に、他サーバ装置40のミラー情報管理部43へも当該データを出力する。他サーバ装置40において、ミラー情報管理部43は入力したデータをミラーディスクコントローラ44へ出力する。ミラーディスクコントローラ44は、装置間連携部45に対して、論理ディスクCへの書き込みを指示する。装置間連携部45は、ディスク制御部190を介して、ディスク193への書き込みを行うと共に、ファイバーチャネル155を介して、装置間連携部35に対して、論理ディスクCへの書き込みを指示する。装置間連携部35は、ディスク制御部180を介して、ディスク183への書き込みを行う。書き込みが完了すると、装置間連携部35は、ファイバーチャネル155を介して、書き込み完了通知を装置間連携部45へ出力する。装置間連携部45は、ディスク183への書き込み完了通知、及び、ディスク193への書き込み完了通知を、ミラーディスクコントローラ44へ返す。ミラーディスクコントローラ44は、ミラー情報管理部43へ、これらの完了通知を出力する。ミラー情報管理部43は、ミラー情報管理部33へ、当該完了通知を出力する。この完了通知を入力したミラー情報管理部33は、キャッシュ32のデータを削除すると同時に、サーバ装置30のオペレーティングシステムに対して、論理ディスクCへの書き込み完了通知を行う。
以上説明したように、本実施の形態においては、以下のような効果を奏する。第1の効果は、サーバ装置間のミラーディスクへのアクセスを、オペレーティングシステムの下位層に当たるハードウェアレベルで制御しているので、オペレーティングシステムのファイルシステムに依存することなく、ミラーディスクへのアクセスができることである。第2の効果は、サーバ装置間のミラーディスクへのアクセスを、LAN回線へのアクセスに変更していないので、オーバーヘッドを少なくできることである。第3の効果は、異なるサーバ装置で、同一の論理ディスクを認識できるため、当該同一の論理ディスクとして認識できるディスクを、共有型クラスタシステムの共有ディスク装置として使用することができることである。
図1は、共有ディスクタイプのHAクラスタシステムを示す図である。 図2は、データミラータイプのHAクラスタシステムを示す図である。 図3は、本実施の形態のシステム構成図である。 図4は、サーバ間ミラーディスクコントローラの詳細説明図である。
符号の説明
10,20,30,40,100,110,130,140 サーバ装置
11,21,31,41 サーバ間ミラーディスクコントローラ
32,42 キャッシュ
33,43 ミラー情報管理部
34,44 ミラーディスクコントローラ
35,45 装置間連携部
101,111,131,141,161,171 ソフトウェア
102,112,132,142,162,172 アプリケーション
103,113,163,173 共有型クラスタソフトウェア
133,143 ミラー型クラスタソフトウェア
104,114,134,144,164,174 オペレーティングシステム
105,115 ホスト・バス・アダプタ
120 共有ディスク装置
121,122,135,145 ディスクアレイコントローラ
123,136,146,180,190 ディスク制御部
124〜126,137〜139,147〜149,181〜184,191〜194 ディスク
150,151 LANコントローラ
152 LAN回線
153〜155 ファイバーチャネル

Claims (5)

  1. ローカルの物理記憶装置に対してデータの読み書きを指示する一の装置間連携部と、
    論理記憶装置に対して、物理記憶装置をミラー化して割り当てる一のミラーディスクコントローラと、
    前記論理記憶装置及びミラー化された前記物理記憶装置に関するミラーディスク構成情報を保持する一のミラー情報管理部とを具備し、
    前記一のミラーディスクコントローラは、
    リモートの物理記憶装置に対してデータの読み書きを指示する他の装置間連携部がある場合において、当該他の装置間連携部を通じて、前記リモートの物理記憶装置に対するデータの読み書きが可能であるときには、前記論理記憶装置に対して、前記ローカルの物理記憶装置に前記リモートの物理記憶装置を加えたトータルの物理記憶装置をミラー化して割り当て、
    前記一のミラー情報管理部は、
    前記論理記憶装置及びミラー化された前記トータルの物理記憶装置に関するミラーディスク構成情報を保持する
    サーバ間ミラーディスクコントローラ。
  2. 前記一のミラー情報管理部は、
    データの読み書きが可能な論理記憶装置及びデータの読み書きが不可能な論理記憶装置に関するアクセス制限情報を保持し、
    当該アクセス制限情報に基づいて、ソフトウェアに対して、データの読み書きが可能な論理記憶装置に対するアクセスのみを許可し、データの読み書きが不可能な論理記憶装置に対するアクセスを受け付けない
    請求項1記載のサーバ間ミラーディスクコントローラ。
  3. 前記一のミラー情報管理部は、
    ソフトウェアが、論理記憶装置に対してデータの書き込みをしてきた場合には、前記一のミラーディスクコントローラに対して、その内容を出力し、
    前記一のミラーディスクコントローラは、
    前記論理記憶装置に対して、前記トータルの物理記憶装置をミラー化して割り当てることにより、一のミラーディスクが前記ローカルの物理記憶装置であり、他のミラーディスクが前記リモートの物理記憶装置となっている場合には、当該データの書き込みを、前記ローカルの物理記憶装置と、前記リモートの物理記憶装置とに行うように、前記一の装置間連携部へ伝え、
    前記一の装置間連携部は、
    前記ローカルの物理記憶装置に対する書き込みを指示すると共に、前記他の装置間連携部に対して、前記リモートの物理記憶装置に対する第二の書き込みを行うように指示する
    請求項1又は2記載のサーバ間ミラーディスクコントローラ。
  4. 前記一のミラー情報管理部は、
    ソフトウェアが、論理記憶装置に対してデータの書き込みをしてきた場合において、前記ミラーディスク構成情報が、前記論理記憶装置に対して、前記ローカルの物理記憶装置と、前記リモートの物理記憶装置とがミラー化されて割り当てられていることを示していたときには、前記他の装置間連携部と連携する他のミラー情報管理部に対して、その内容を出力し、
    前記一の装置間連携部は、
    前記リモートの物理記憶装置に対して第一の書き込みを行う前記他の装置間連携部から、第二の書き込みを指示された場合には、前記ローカルの物理記憶装置に当該第二の書き込みを指示する
    請求項1又は2記載のサーバ間ミラーディスクコントローラ。
  5. 請求項1〜4いずれか1項に記載のサーバ間ミラーディスクコントローラを搭載した
    拡張カード。
JP2007060140A 2007-03-09 2007-03-09 サーバ間ミラーディスクコントローラ、拡張カード Withdrawn JP2008225643A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007060140A JP2008225643A (ja) 2007-03-09 2007-03-09 サーバ間ミラーディスクコントローラ、拡張カード

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007060140A JP2008225643A (ja) 2007-03-09 2007-03-09 サーバ間ミラーディスクコントローラ、拡張カード

Publications (1)

Publication Number Publication Date
JP2008225643A true JP2008225643A (ja) 2008-09-25

Family

ID=39844223

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007060140A Withdrawn JP2008225643A (ja) 2007-03-09 2007-03-09 サーバ間ミラーディスクコントローラ、拡張カード

Country Status (1)

Country Link
JP (1) JP2008225643A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013097788A (ja) * 2011-11-04 2013-05-20 Lsi Corp 仮想sasエキスパンダを介して共有されるサーバ直接接続のストレージシステム
JP2022127506A (ja) * 2021-02-19 2022-08-31 株式会社日立製作所 スケールアウト型ストレージシステム及び記憶制御方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013097788A (ja) * 2011-11-04 2013-05-20 Lsi Corp 仮想sasエキスパンダを介して共有されるサーバ直接接続のストレージシステム
JP2022127506A (ja) * 2021-02-19 2022-08-31 株式会社日立製作所 スケールアウト型ストレージシステム及び記憶制御方法
JP7331027B2 (ja) 2021-02-19 2023-08-22 株式会社日立製作所 スケールアウト型ストレージシステム及び記憶制御方法

Similar Documents

Publication Publication Date Title
US6282610B1 (en) Storage controller providing store-and-forward mechanism in distributed data storage system
US8028139B2 (en) Remote copy method and remote copy system
US6732231B1 (en) System and method for management of mirrored storage devices storing device serial numbers
US6950915B2 (en) Data storage subsystem
KR100711396B1 (ko) 서버의 이중화 방법 및 이중화 서버시스템
JP5192226B2 (ja) 待機系計算機の追加方法、計算機及び計算機システム
US6571354B1 (en) Method and apparatus for storage unit replacement according to array priority
JP5111754B2 (ja) 記憶制御システム
JP2021012476A (ja) 分散ストレージシステム、分散ストレージシステムの制御方法及び記憶媒体
US8495014B2 (en) Asynchronous remote copy system and storage control method
JP4842720B2 (ja) ストレージシステム及びデータ複製方法
US7434107B2 (en) Cluster network having multiple server nodes
US7809907B2 (en) System and method for backup by splitting a copy pair and storing a snapshot
US8745006B2 (en) Computing system and backup method using the same
JP2006227964A (ja) ストレージシステム、処理方法及びプログラム
JP2006099440A (ja) リモートコピーシステム
US20050198411A1 (en) Commingled write cache in dual input/output adapter
US7484038B1 (en) Method and apparatus to manage storage devices
JP2008225643A (ja) サーバ間ミラーディスクコントローラ、拡張カード
JP2011253400A (ja) 分散ミラードディスクシステム、コンピュータ装置、ミラーリング方法およびそのプログラム
US8072989B2 (en) Virtual volume transfer apparatus, virtual volume transfer method, and computer product
US11366618B2 (en) All flash array server and control method thereof
KR20040054267A (ko) 다중 레이드 제어기를 갖는 분산공유 레이드 시스템 및 그관리방법
JP2009157880A (ja) サーバ装置及びファイルシステム
JPH0895838A (ja) データの二重書込み制御方法

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20100511