JP2005301560A - クラスタファイルサーバ - Google Patents
クラスタファイルサーバ Download PDFInfo
- Publication number
- JP2005301560A JP2005301560A JP2004115115A JP2004115115A JP2005301560A JP 2005301560 A JP2005301560 A JP 2005301560A JP 2004115115 A JP2004115115 A JP 2004115115A JP 2004115115 A JP2004115115 A JP 2004115115A JP 2005301560 A JP2005301560 A JP 2005301560A
- Authority
- JP
- Japan
- Prior art keywords
- data
- node
- cache
- cluster
- file server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
【課題】
メモリモジュールなどのハードウェア障害時に、ハードディスク装置などの外部ストレージデバイスへの書き込みが完了していないデータが失われないクラスタファイルサーバを提供する。
【解決手段】
クラスタ構成をとるファイルサーバにおいて、データのキャッシュとして使用されるメモリ内のデータをRDMA(Remote Direct Memory Access)によりクラスタノード間で相互に保持することにより、ハードウェア障害に対するデータの可用性を向上させるとともに、ノードのフェイルオーバ処理におけるデータ引継ぎ処理を不要とすることにより、サービス停止期間を短縮可能とする
【選択図】 図1
メモリモジュールなどのハードウェア障害時に、ハードディスク装置などの外部ストレージデバイスへの書き込みが完了していないデータが失われないクラスタファイルサーバを提供する。
【解決手段】
クラスタ構成をとるファイルサーバにおいて、データのキャッシュとして使用されるメモリ内のデータをRDMA(Remote Direct Memory Access)によりクラスタノード間で相互に保持することにより、ハードウェア障害に対するデータの可用性を向上させるとともに、ノードのフェイルオーバ処理におけるデータ引継ぎ処理を不要とすることにより、サービス停止期間を短縮可能とする
【選択図】 図1
Description
本発明は、ネットワーク接続ストレージシステムに関し、特に複数クラスタで構成されるネットワーク接続ストレージ装置、ファイルサーバ装置、ディスクアレイ装置に関する。
RDMA(Remote Direct Memory Access)が行われている(例えば、特許文献1参照。)。
従来は、メモリ上のキャッシュデータは各ノードごとに個別に所有していたため、メモリモジュールなどのハードウェア障害時には、ハードディスク装置などの外部ストレージデバイスへの書き込みが完了していないデータは失われてしまうという問題があった。また、ノードのフェイルオーバを行う際、当該ノードが所有する未書き込みデータをノード間で共有する外部ストレージデバイスに一旦書き戻す必要があるため、未書き込みデータの書き込み処理の完了を待ち合わせる処理が必要となり、フェイルオーバ処理時間の増大によるサービス停止時間が長くなるという問題点があった。
本発明の目的はメモリモジュールなどのハードウェア障害時に、ハードディスク装置などの外部ストレージデバイスへの書き込みが完了していないデータが失われないクラスタファイルサーバを提供することにある。
本発明のクラスタファイルサーバは、クラスタ構成をとるファイルサーバにおいて、データのキャッシュとして使用されるメモリ内のデータをRDMA(Remote Direct Memory Access)によりクラスタノード間で相互に保持することにより、ハードウェア障害に対するデータの可用性を向上させるとともに、ノードのフェイルオーバ処理におけるデータ引継ぎ処理を不要とすることにより、サービス停止期間を短縮可能とすることを特徴とする。
複数ノードでクラスタ構成をとるファイルサーバに対して、クライアント(図1の10)からデータの書き込み要求を受けた場合に、一旦データを格納するために主記憶上に設けられたキャッシュメモリ(214,224,234)と、該キャッシュに新たに書き込まれたデータを他ノードのキャッシュへ直接書き込みを行うためのRDMA部(215,225,235)と、それらに対するデータ転送を制御するデータ制御部(212,222,232)と、を有する。
本発明においては、以下に記載するような効果を奏する。
第1の効果は、共有ストレージデバイスに未だ書き込まれていないキャッシュデータは必ず他のノード上のキャッシュメモリにも書き込むように制御しているので、単一のメモリモジュールのハードウェア障害によりあるノードが保持するキャッシュデータが読み出し不可能となった場合でも、他のノード上のキャッシュメモリからRDMAを経由してデータを読み出すことが可能となり、ハードウェア障害に対するデータの可用性を向上できることである。
第2の効果はクラスタを構成するいずれかのノードを障害あるいは故意に縮退させる場合、キャッシュデータを共有ストレージデバイスへ書き戻す処理が不要となり、結果フェイルオーバ処理に要する時間を短縮することが可能となり、フェイルオーバ処理中の業務停止時間が短くなることによる可用性の向上が見込まれることである。その理由は、縮退させるノードの処理を引き継ぐノード上のキャッシュメモリに、既に縮退ノードが使用していたキャッシュデータが格納されているため、従来のような共有ストレージデバイスを介したデータ引継ぎが不要となるためである。
発明を実施するための最良の形態を説明する。
図1を参照すると、本発明のファイルサーバは、クラスタ構成をとるn台のノード21,22,23から構成される。各ノードはLAN11を介してクライアント10と接続されており、またストレージ専用ネットワーク31を介して共用ストレージデバイス30と接続される。各ノードは、各々ネットワーク制御部211,221,231、データ制御部212,222,232、ストレージ制御部213,223,233、キャッシュメモリ214,224,234、およびRDMA部215,225,235から構成される。データ制御部212,222,232は、ネットワーク制御部211,221,231によりLAN11経由でクライアント10からのデータ書き込み要求を受け取ると、予め主記憶内に設けられたキャッシュメモリ214,224,234にデータを格納するとともに、RDMA部215,225,235を介して自ノード以外の各ノード上のキャッシュメモリにも同一データを格納し、データ書き込み完了をクライアントへ通知する。次に、データ制御部212,222,232の詳細な構成について説明する。図2は、データ制御部212,222,232の構成例を示すブロック図である。各ノードの持つデータ制御部212,222,232は全て同一構成のため、以下は、データ制御部212を例にとって説明する。
図2において、データ制御部212は、コマンド処理部41、キャッシュテーブル管理部42、メモリ制御部43およびRDMA制御部44から構成される。コマンド処理部41は、ネットワーク制御部211から受領したコマンドを元に、データ転送の処理手順を決定する。キャッシュテーブル管理部42は、どのファイルのデータがキャッシュに格納されているか、既に外部のディスクストレージへの書き込みが完了しているか否か、等キャッシュ内のデータを管理するためのテーブルの作成、更新処理を行う。メモリ制御部43は、キャッシュメモリ214に対するデータの書き込み、読み出しの制御を行う。RDMA制御部44は、RDMA部215を介して、自ノード以外のノード上のRDMA部と通信を行い、直接自ノード以外のノード上のキャッシュメモリに対するデータの書き込み、読み出しの制御を行う。
次に図2のデータ制御部212の動作を図3に示すフローチャートを参照して説明する。
クライアント10からLAN11経由でファイルサーバを構成するノード21に対して発行されたデータの読み出しあるいは書き込み命令をネットワーク制御部211が受領すると、コマンド処理部41により読み出し命令か(図3のステップS1)書き込み命令か(ステップS2)を判断し、それが読み出し命令であった場合は、さらにキャッシュテーブル管理部42へ問い合わせを行い、読み出し対象データがキャッシュ上に存在するか調査する(ステップS3)。既にキャッシュ上にデータが存在する場合は、メモリ制御部43を介してキャッシュメモリから該データを読み出し(ステップS4)、ネットワーク制御部211を介してクライアントへデータを送信する。
読み出し対象データがキャッシュ上に存在しない場合、ストレージ制御部213を介して外部の共有ストレージデバイスから該データを読み出し(ステップS5)、ネットワーク制御部211を介してクライアントへデータを送信する。この際、再度同一データの読み出しがあった場合に備えて次回以降キャッシュメモリから高速にデータ読み出しが可能となるように、キャッシュメモリ上に該データを転送するように構成しても良い(ステップS6)。ステップS2にてクライアント10からの命令が書き込み命令であった場合、該書き込み命令のオプションとして強制デバイスアクセスフラグの有無を調査を行う(ステップS7)。
本強制デバイスアクセスフラグの一例としてSCSIコマンドのFUA(Force Unit Access)フラグ等がある。強制デバイスアクセスが指定されている場合は、ストレージ制御部213を介して外部の共有ストレージデバイスに直接クライアント10から送信されたデータの書き込み指示を行い(ステップS8)、外部共有ストレージデバイスからの書き込み完了を待ち合わせ、結果をクライアントへ送信する。この際、同一データに対する読み出し命令が来る場合に備えて、キャッシュメモリから高速にデータ読み出しが可能となるように、キャッシュメモリ上に該データを転送するように構成しても良い(ステップS9)。ステップS7で、強制デバイスアクセスの指定がない場合、クライアントから送信されたデータはメモリ制御部43を介してキャッシュメモリ上に書き込みを行うとともに(ステップS10)、RDMA制御部44を介して、クラスタを構成する自分以外のノード上のキャッシュメモリに対してデータの書き込みを指示する(ステップS11)。
次に、本発明の第2の実施例について説明する。本発明の第2の実施例として、その基本的構成は上記の通りであるが、データ制御部についてさらに工夫している。その構成を図4に示す。本図において、ファイルサーバを構成する各クラスタノードごとにデータを共有するノードの組を管理するためのノード間キャッシュテーブル管理部45が設けられている。ノード間キャッシュテーブル管理部45は、各ノードのキャッシュデータを共有するノードの組を対応付けたテーブルの管理を行う。このノードごとの組み合わせテーブルは予めシステム管理者等により設定される。もしくはノード1のキャッシュデータはノード2にコピーする、ノード2のキャッシュデータはノード3にコピーする、等の様に予め設定されたテーブルを準備しておいてもよい。本実施例におけるデータ制御部212の動作を図5に示すフローチャートを参照して説明する。
本実施例では図3で説明したフローチャートのうち、RDMA制御部44を介して他ノードのキャッシュメモリにデータを書き込む処理を行うステップ(図3のステップS11)を、ノード間キャッシュテーブル管理部45に対して、データを共有するノード番号を受け取り、対応するノードのキャッシュメモリのみにデータを送信するように変更している(図5のステップS12)。全てのノードが互いにキャッシュメモリ内のデータを共有する場合、ファイルサーバを構成するクラスタノードの数が多くなると、ノードごとに必要なキャッシュメモリ容量が増大し、自ノードで使用するキャッシュ容量が減少してしまうためキャッシュによるデータアクセス性能の向上効果が低下してしまうという問題がある。これを回避するためにノードごとに搭載するキャッシュメモリ容量を増やすのは物理的に限界があり、またコスト的にも不利である。
本実施例では、それぞれのノードが持つキャッシュメモリ上のデータを特定のノードのみに書き込むように制御することで、クラスタノード数に関わらず各ノードに必要なキャッシュメモリ容量を一定にすることが出来るという新たな効果を有する。
10 クライアント
11 LAN
21 ノード#1
22 ノード#2
23 ノード#n
30 共有ストレージデバイス
31 ストレージ専用ネットワーク
11 LAN
21 ノード#1
22 ノード#2
23 ノード#n
30 共有ストレージデバイス
31 ストレージ専用ネットワーク
Claims (1)
- クラスタ構成をとるファイルサーバにおいて、データのキャッシュ
として使用されるメモリ内のデータをRDMA(Remote Direct Memory Access)によりクラスタノード間で相互に保持することにより、ハードウェア障害に対するデータの可用性を向上させるとともに、ノードのフェイルオーバ処理におけるデータ引継ぎ処理を不要とすることにより、サービス停止期間を短縮可能とすることを特徴とするクラスタファイルサーバ。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004115115A JP2005301560A (ja) | 2004-04-09 | 2004-04-09 | クラスタファイルサーバ |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004115115A JP2005301560A (ja) | 2004-04-09 | 2004-04-09 | クラスタファイルサーバ |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005301560A true JP2005301560A (ja) | 2005-10-27 |
Family
ID=35333034
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004115115A Withdrawn JP2005301560A (ja) | 2004-04-09 | 2004-04-09 | クラスタファイルサーバ |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005301560A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7487390B2 (en) | 2006-04-04 | 2009-02-03 | Hitachi, Ltd. | Backup system and backup method |
JP2010097614A (ja) * | 2008-10-17 | 2010-04-30 | Lsi Corp | ストレージアレイ・コントローラのための組み込みスケールアウト・アグリゲータ |
CN102110032A (zh) * | 2011-02-23 | 2011-06-29 | 杭州海康威视数字技术股份有限公司 | 一种提高配置文件可靠性的方法及装置 |
-
2004
- 2004-04-09 JP JP2004115115A patent/JP2005301560A/ja not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7487390B2 (en) | 2006-04-04 | 2009-02-03 | Hitachi, Ltd. | Backup system and backup method |
JP2010097614A (ja) * | 2008-10-17 | 2010-04-30 | Lsi Corp | ストレージアレイ・コントローラのための組み込みスケールアウト・アグリゲータ |
CN102110032A (zh) * | 2011-02-23 | 2011-06-29 | 杭州海康威视数字技术股份有限公司 | 一种提高配置文件可靠性的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100378679C (zh) | 用于存储器访问请求的重定向的方法和系统 | |
US8751716B2 (en) | Adaptive data throttling for storage controllers | |
CN106104502B (zh) | 用于存储系统事务的系统、方法和介质 | |
US8689044B2 (en) | SAS host controller cache tracking | |
TWI782487B (zh) | 利用索引物件來進行簡易儲存服務無縫遷移的方法、主裝置以及儲存伺服器 | |
WO2018054079A1 (zh) | 一种存储文件的方法、第一虚拟机及名称节点 | |
JP2005322237A (ja) | データ・ストレージ・システム間でのポイント・イン・タイム・コピー | |
TWI531901B (zh) | 群組表資料沖除技術 | |
JP2009237826A (ja) | ストレージシステム及びそのボリューム管理方法 | |
US11693738B2 (en) | Storage system spanning multiple failure domains | |
US10572188B2 (en) | Server-embedded distributed storage system | |
US7725654B2 (en) | Affecting a caching algorithm used by a cache of storage system | |
US9703714B2 (en) | System and method for management of cache configuration | |
JP2005284980A (ja) | 2重化システム及びリモートディスクミラーリングの初期化処理方法 | |
CN112748865A (zh) | 用于存储管理的方法、电子设备和计算机程序产品 | |
JP2013073388A (ja) | ストレージ装置、ストレージ装置の制御方法及びストレージシステム | |
JP2005301560A (ja) | クラスタファイルサーバ | |
US10191690B2 (en) | Storage system, control device, memory device, data access method, and program recording medium | |
WO2016088372A1 (ja) | アクセス装置、マイグレーション装置、分散ストレージシステム、アクセス方法及びコンピュータ読み取り可能記録媒体 | |
WO2019043815A1 (ja) | ストレージシステム | |
JP2012174037A (ja) | ディスクアレイ装置及びその制御方法 | |
US20190332533A1 (en) | Maintaining multiple cache areas | |
US20210004475A1 (en) | Computer apparatus, data sharing system, and data access method | |
US11016896B2 (en) | Reducing overhead of managing cache areas | |
US20170171308A1 (en) | Method and apparatus for logical mirroring to a multi-tier target node |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Withdrawal of application because of no request for examination |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20070703 |