JP2019212330A - スケーラブル分散ストレージアーキテクチャ - Google Patents

スケーラブル分散ストレージアーキテクチャ Download PDF

Info

Publication number
JP2019212330A
JP2019212330A JP2019161221A JP2019161221A JP2019212330A JP 2019212330 A JP2019212330 A JP 2019212330A JP 2019161221 A JP2019161221 A JP 2019161221A JP 2019161221 A JP2019161221 A JP 2019161221A JP 2019212330 A JP2019212330 A JP 2019212330A
Authority
JP
Japan
Prior art keywords
virtual disk
objects
node
storage
file system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019161221A
Other languages
English (en)
Inventor
カラマノリス、クリストス
Karamanolis Christos
バサニ、ソーム
Vasani Soam
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
VMware LLC
Original Assignee
VMware LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by VMware LLC filed Critical VMware LLC
Publication of JP2019212330A publication Critical patent/JP2019212330A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/188Virtual file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】オブジェクトストア内にストアされたオブジェクトへの多数のクライアントによる同時アクセスをサポートするよう意図された、オブジェクトストアのためのファイルシステムインタフェースを提供する。【解決手段】1つの方法によれば、オブジェクトストアについての階層名前空間へのルートディレクトリのアブストラクションが、クライアントに露出される。オブジェクトストアは、複数のホストコンピュータに収容されたまたは直接に取り付けられた複数の物理ストレージデバイスにより支持され、ストアされたオブジェクトへと一意識別子をマッピングするフラットな名前空間を使用して、そのストアされたオブジェクトを内部的に追跡する。ルートディレクトリのサブディレクトリとして現れるトップレベルオブジェクトの作成が可能であり、各トップレベルオブジェクトは、任意の指定ファイルシステムに従って編成され得る別個の名前空間を有するストレージデバイスの別個のアブストラクションを表す。【選択図】 図2

Description

分散システムにより、ネットワーク内の多数のクライアントが共有リソースのプールへアクセスすることが可能である。例えば、分散ストレージシステムにより、ホストコンピュータのクラスタが、各ホストコンピュータ内に位置するか、または、それに取り付けられたローカルディスク(例えば、SSD(Solid State Drive)、PCI(Peripheral Component Interconnect)ベースのフラッシュストレージ、SATA(Serial AT Attachment)、またはSAS(Serial Attached SCSI)磁気ディスク)を集約してストレージの単一または共有のプールを作成することが可能となる。このストレージのプール(本開示では時に「データストア」または「ストア」とも称される)は、クラスタ内の全てのホストコンピュータによりアクセス可能であり、ストレージエンティティの単一名前空間として存在し得る(ファイルの場合の階層ファイルシステム名前空間、オブジェクトの場合の一意識別子のフラットな名前空間、等のように)。ホストコンピュータ上で生成された仮想マシン等のストレージクライアントは、データストアを使用し得、例えば、仮想マシンによりその動作中にアクセスされる仮想ディスクを格納する。データストアを形成する共有ローカルディスクは異なる性能特性(例えば、容量、毎秒入力/出力またはIOPS(Input/Output Per Second)能力、等)を有し得るため、仮想ディスクまたはその一部を格納するためのこのような共有ローカルディスクの使用量は、各所与の仮想マシンのニーズに基づいて仮想マシン間で分散され得る。
このアプローチは、企業に費用効率の高い性能を提供する。例えば、プールされたローカルディスクを使用する分散ストレージは、安価であり、かつ高度にスケーラブルで、比較的に管理が簡単である。このような分散ストレージはクラスタ内の市販品ディスクを使用可能であるので、企業は追加のストレージインフラストラクチャに投資する必要がない。しかしながら、生じる1つの課題は、クラスタ内の市販品ディスクに亘ってオブジェクトがどこにストアされるかを効率的に追跡する機構の開発、および、必要なときに如何に効率的にそれらにアクセスするか、という点にある。例えば、フラットな名前空間の利用は、オブジェクトをストアおよび取得する単純すぎる効率的手段を提供し得るものの、クライアントの既存のインタフェースに対して互換性のある方法でオブジェクトを編成するのに有用であり得る、または、異なるクライアントの異なるストレージ要件を別様に満たす、オブジェクト間の階層関係を作成するための十分な柔軟性を、それは提供しない。例えば、このようなスケーラブルなオブジェクトストア(例えば、アプリケーション、ストレージ管理ツール、仮想化ハイパーバイザ、等)を利用することができたであろう多くの既存の環境は、オブジェクトストアがストレージインタフェースに基づいてある階層ファイルシステムを提供することを要求し得る。1つの例は、仮想マシンメタデータを階層ファイルシステム内のファイルの形態でストアする、ヴイエムウェア社(VMware, Inc.)のvSphere Hypervisorである。さらに、データストアは、データストアにストアされた同じデータに同時にアクセスし得るホストコンピュータのクラスタ間で共有されるので、データストアにより提供される単一の名前空間の管理に使用される任意のファイルシステムは、同時実行制御のための機構を有する必要がある。現在の分散またはクラスタ化ファイルシステムは、同時実行制御のある形態を通常提供する。しかしながら、それらの固有の設計における制限のために、このような現在のファイルシステムは、それらがサポート可能な同時「クライアント」(例えば、ファイルシステムにアクセスするホストコンピュータまたは仮想マシン)の数における制限を通常有する。データストアを管理するために使用される現在のファイルシステムが、同時にそれにアクセス可能なクライアントの数の限界を有すると、たとえその容量を増大させるために追加の市販品ストレージが容易にデータストアに追加可能であっても、このような追加のストレージへのアクセスのためにさらなるクライアントが追加されはしないので、高度にスケーラブルなデータストアのユーティリティは、頭打ちになる。
本開示の一実施形態は、オブジェクトストア内にストアされたオブジェクトへの多数のクライアントによる同時アクセスをサポートするよう意図された、オブジェクトストアのためのファイルシステムインタフェースを提供する方法に関する。本方法によれば、オブジェクトストアについての階層名前空間へのルートディレクトリのアブストラクションが、クライアントに露出される。オブジェクトストアは、複数のホストコンピュータに収容されたまたは直接に取り付けられた複数の物理ストレージデバイスにより支持され、ストアされたオブジェクトへと一意識別子をマッピングするフラットな名前空間を使用して、そのストアされたオブジェクトを内部的に追跡する。ルートディレクトリのサブディレクトリとして現れるトップレベルオブジェクトの作成が可能とされ、各トップレベルオブジェクトは、任意の指定ファイルシステムに従って編成され得る別個の名前空間を有するストレージデバイスの別個のアブストラクションを表す。
フラットな名前空間を使用してオブジェクトを内部的にストアし、アクセスする一方で、クライアントにより使用され得る階層名前空間を層化することにより、本開示の技術は、市販品ストレージリソースの分散を使用するラージスケーラブルクラスタ化ファイルシステムをサポートするフレームワークをオファーすることが可能である。例えば、究極的にクライアントによりアクセスされ得るファイルオブジェクトを含むファイルシステムを表すトップレベルオブジェクトを作成する能力を提供して、前述のオブジェクトストアは、既存の分散またはクラスタ化ファイルシステムよりも高度なスケーラビリティをオファーする。なぜならばそれは、例えば、オブジェクトストア内の任意の特定のファイルシステムオブジェクトのために構成された任意の特定の分散クラスタ化ファイルシステム(例えば、VMWare VMFS(Virtual Machine File System)、NFS(Network File System)、等)の設計に固有の同時クライアント数の如何なる制限にも限定されないからである。すなわち、クラスタ化ファイルシステムの異なる部分は、あるオブジェクトに一方で存在する名前空間のあるサブ空間内のデータにアクセスするこのようなクライアントのサブセットによってのみ、特定のクライアントからのスケーラビリティ要件が達成される必要があるように、異なるオブジェクトに配置され得るので、オブジェクトストアのトップにおけるクラスタ化ファイルシステムの実装は、スケーラビリティアドバンテージを有する。
他の実施形態は、限定するわけではないが、処理ユニットに本開示の方法の1つ以上の態様を実装させ得る命令を含むコンピュータ可読媒体、ならびに、本開示の方法の1つ以上の態様を実装するよう構成された、プロセッサ、メモリおよびモジュールを有するコンピュータシステムを含む。
一実施形態に係る、例示的なコンピューティング環境を示す。 一実施形態に係る、仮想ディスクを表すオブジェクトストア内に編成されたオブジェクトの例示的な階層構造を示す。 一実施形態に係る、VSAN(Virtual Storage Area Network)モジュールのコンポーネントを示す。 一実施形態に係る、定義されたストレージポリシーに基づく仮想ディスクオブジェクト作成の方法フロー図を示す。 一実施形態に係る、VM(Virtual Machine)で生じたI/Oオペレーションの取り扱いを示す。
図1は、一実施形態に係る、コンピューティング環境100を示す。図示されるように、コンピューティング環境100は、ノードで実行中の仮想マシン(VM)112に集約オブジェクトストア116を提供するために、クラスタ110のホストサーバまたはノード111に収容されるか、または直接取り付けられた市販品ローカルストレージを利用するソフトウェアベースの「仮想ストレージエリアネットワーク」(VSAN)環境である。以下、用語「収容された」または「に収容された」の使用は、収容され、または別様に直接に取り付けられたことの両方を包含するよう使用され得る。ノード111に収容されるか、または別様に直接に取り付けられたローカル市販品ストレージは、ソリッドステートドライブ(SSD)117および磁気もしくはスピニングディスク118のうちの少なくとも一つの組み合わせを含み得る。ある実施形態において、SSD117は、I/O性能向上のための磁気ディスク118手前の読み出しキャッシュおよび書き込みバッファのうち少なくともいずれか一方として機能する。下記に詳述されるように、各ノード111は、(例えば、オブジェクトストアにオブジェクトを作成する、等の)ストレージ管理ワークフローを自動化し、オブジェクトストア内のオブジェクトに対し指定された所定のストレージポリシーに基づいて、(例えば、オブジェクトストア内のオブジェクトに対するI/Oオペレーションを取り扱う、等の)オブジェクトストア内のオブジェクトへのアクセスを提供するために、ストレージ管理モジュール(本開示においては、「VSANモジュール」と称される)を含み得る。例えば、VMは、その使用目的に応じてその「仮想ディスク」のための特定のストレージ要件(例えば、容量、可用性、IOPS等)を有するようアドミニストレータにより最初に構成され得るため、アドミニストレータは、このような可用性、容量およびIOPS等を定義する各VM毎のストレージプロファイルまたはポリシーを定義し得る。さらに後述するように、VSANモジュールは、定義されたポリシーに基づいてオブジェクトストアの物理ストレージリソースにより支持することにより、指定された仮想ディスクのために「オブジェクト」を作成し得る。
仮想化管理プラットフォーム105は、ノード111のクラスタ110と関連付けられる。仮想化管理プラットフォーム105により、アドミニストレータがノード111でのVMの構成及び生成を管理することが可能となる。図1の実施形態に示されているように、各ノード111は、仮想化層またはハイパーバイザ113、VSANモジュール114、および(SSD117およびノード111の磁気ディスク118を含む)ハードウェア119を含む。ハイパーバイザ113を通じて、ノード111は、多数のVM112を立ち上げて実行することができる。ハイパーバイザ113は、部分的に、各VM112についてコンピューティングリソース(例えば、処理能力、ランダムアクセスメモリ等)を適切に割り当てるためにハードウェア119を管理する。さらに、後述するように、各ハイパーバイザ113は、その対応するVSANモジュール114を通じて、仮想ディスク(またはその一部)用のストレージとしての使用のためにハードウェア119に位置するストレージリソース(例えば、SSD117および磁気ディスク118)へのアクセスと、クラスタ110内の任意のノード111に存在する任意のVM112によりアクセスされ得る他の関連ファイルへのアクセスとを提供する。特定の実施形態において、ヴィエムウェア社(VMware, Inc.)のヴィ・スフィア・ハイパーバイザ(vSphere Hypervisor)が、ハイパーバイザ113としてノード111にインストールされ得、ヴィエムウェアのヴィ・センタサーバ(vCenter Server)が仮想化管理プラットフォーム105として使用され得る。
一実施形態において、VSANモジュール114はハイパーバイザ113内に「VSAN」デバイスドライバとして実装される。このような実施形態において、VSANモジュール114は、概念的「VSAN」115へのアクセスを提供し、VSAN115を介してアドミニストレータがオブジェクトストア116により支持される多数のトップレベル「デバイス」または名前空間オブジェクトを生成し得る。よくある状況の1つとして、デバイスオブジェクトの作成中、アドミニストレータは、デバイスオブジェクトのための特定のファイルシステムを規定し得る(このようなデバイスオブジェクトは以下、「ファイルシステムオブジェクト」とも称される)。例えば、一実施形態において、各ノード111内の各ハイパーバイザ113は、ブートプロセスの間、VSANモジュール114により露出される概念的グローバル名前空間のための/vsan/ルートノードを発見し得る。例えば、VSANモジュール114により露出されるAPIにアクセスすることにより、ハイパーバイザ113は、VSAN115にその時点で存在する全てのトップレベルファイルシステムオブジェクト(または他のタイプのトップレベルデバイスオブジェクト)を決定し得る。VM(または他のクライアント)がファイルシステムオブジェクトのうちの1つにアクセスしようと試みると、ハイパーバイザ113は、そのときのファイルシステムオブジェクトを動的に「自動マウント」し得る。ある実施形態において、ファイルシステムオブジェクト内のオブジェクトへのアクセスが中止またはある期間アイドルとなるとき、ファイルシステムオブジェクトはさらに、周期的に「自動アンマウント」され得る。VSAN115を通じてアクセス可能なファイルシステムオブジェクト(例えば、/vsan/fs_name1、等)は、例えば、VMへの同時アクセス中に同時実行制御を提供するよう設計された、ヴィエムウェアの分散またはクラスタ化ファイルシステム、VMFS(Virtual Machine File System)のような、特定のファイルシステムのセマンティクスをエミュレートするよう実装され得る。VSAN115が多数のファイルシステムオブジェクトをサポートするため、任意の特定のクラスタ化ファイルシステムの限定に縛られることなくオブジェクトストア116を通じたストレージリソースの提供が可能である。例えば、多くのクラスタ化ファイルシステム(例えば、VMFS等)は、ある量のノード111をサポートするためにだけスケール可能である。多数のトップレベルファイルシステムオブジェクトサポートを提供することにより、VSAN115は、このようなクラスタ化ファイルシステムのスケーラビリティ制限を克服する。
下記の図2の文脈における更なる詳述に示されるように、ファイルシステムオブジェクトは、それ自身、クラスタ110で実行中のVM112によりアクセス可能な多数の仮想ディスク記述子ファイル(例えば、ヴィ・スフィア(vSphere)環境における.vmdkファイル、等)へのアクセスを提供し得る。これらの仮想ディスク記述子ファイルは、仮想ディスクのための実際のデータを含むとともに、オブジェクトストア116により別個に支持される仮想ディスク「オブジェクト」への参照を含む。仮想ディスクオブジェクトは、それ自身、階層的または「複合」オブジェクトであり得、階層的または「複合」オブジェクトは、下記に説明されるように、仮想ディスクの最初の作成時にアドミニストレータにより生成される対応するストレージプロファイルまたはポリシーのストレージ要件(例えば、容量、可用性、IOPS等)を反映する「コンポーネント」オブジェクト(これもオブジェクトストア116により別個に支持される)によりさらに構成される。下記にさらに議論されるように、各VSANモジュール114は、(下記にさらに説明される実施形態において、クラスタレベルオブジェクト管理すなわち「CLOM(Cluster Level Object Manager)」サブモジュールを通じて)、他のノード111の他のVSANモジュール114と通信して、オブジェクトストア116内にストアされた種々のオブジェクト間の位置、構成、ポリシーおよび関係を記述するメタデータを含むメモリ内メタデータデータベース(例えば、各ノード111のメモリ内に、別個に、しかし、同期方式により維持された)を作成および維持する。このメモリ内メタデータデータベースは、例えば、アドミニストレータが最初にVMのために仮想ディスクを作成するとき、および、VMが実施中であり仮想ディスク上のI/Oオペレーション(例えば、読み出しまたは書き込み)を行う場合に、ノード111上のVSANモジュール114により利用される。図3の文脈で下記にさらに議論されるように、VSANモジュール114は、(下記にさらに説明される一実施形態において、ドキュメントオブジェクトマネージャすなわち「DOM(Document Object Manager)」サブモジュールを通じて)I/Oオペレーションの対象となる仮想ディスクの一部を支持する実際の物理ローカルストレージを収容するノード(または、ノード群)へのI/Oオペレーションリクエストを適切に送るために、メモリ内データベース内のメタデータを使用してオブジェクトの階層を横断する。
図2は、一実施形態に係る、仮想ディスクを表すオブジェクトストア116内に編成されたオブジェクトの例示的な階層構造を示す。上記において先に詳述されたように、1つのノード111にて実行中のVM112は、オブジェクトストア116内に階層的または複合オブジェクト200としてストアされた仮想ディスク上のI/Oオペレーションを実行し得る。ハイパーバイザ113は、VSANモジュール114を通じてVSAN115のアブストラクションとインターフェースすることにより(例えば、一実施形態において先に議論されたように、仮想ディスクオブジェクトに対応するトップレベルファイルシステムオブジェクトを自動マウントすることにより)、VM112に仮想ディスクへのアクセスを提供する。例えば、VSANモジュール114は、メモリ内メタデータデータベースのそのローカルコピーをクエリすることにより、仮想ディスクのための記述子ファイル210(例えば.vmdkファイル)を格納するVSAN115内にストアされた特定のファイルシステムオブジェクト205(例えば、一実施形態におけるVMFSファイルシステムオブジェクト、等)を識別することができる。ファイルシステムオブジェクト205が、仮想化環境をサポートする際に仮想マシン構成ファイル(例えば、vSphere環境における.vmxファイル、等)等の、その目的に沿った各種の他のファイルをストアし得ることが理解されるであろう。ある実施形態において、各ファイルシステムオブジェクトは、特定のVMに対応するそれらの仮想ディスク(例えば、「毎VM」ファイルシステムオブジェクト)のみをサポートするよう構成され得る。
記述子ファイル210は、オブジェクトストア116に別個にストアされ、仮想ディスクを概念的に表す(および本開示において時に仮想ディスクオブジェクトとも称され得る)複合オブジェクト200への参照を含む。複合オブジェクト200は、仮想ディスク作成時にアドミニストレータにより生成された対応ストレージプロファイルまたはポリシー内のストレージ要件(例えば、容量、可用性、IOPS、等)またはサービスレベルアグリーメント(SLA(Service Level Agreement))に適する仮想ディスクのストレージ編成または構成(本開示において仮想ディスク「ブループリント」と時に称される)を記述するメタデータを格納する。例えば、図2の実施形態において、複合オブジェクト200は、仮想ディスクの2つのミラーコピー(例えば、ミラー)がRAID(Redundant Arrays of Inexpensive Disks) 0構成内でさらにそれぞれストライプ化されるRAID 1構成を記述する仮想ディスクブループリント215を含む。したがって、複合オブジェクト225は、各仮想ディスクミラー内の各ストライプ(例えば、仮想ディスクのデータパーティション)に対応する、多数の「リーフ」または「コンポーネント」オブジェクト220に対する参照を含み得る。各コンポーネントオブジェクト220のための(例えば、各ストライプのための)メモリ内メタデータデータベースにおいてVSANモジュール114によりアクセス可能なメタデータは、ストライプ(およびこのような物理リソース内のストライプの位置)を実際に格納する物理ストレージリソース(例えば、磁気ディスク118、等)を収容するクラスタ110内の特定のノード111に対するマッピングを提供するか、または、別様に同特定のノード111を識別する。
図3は、一実施形態に係る、VSANモジュール114の構成要素を示す。前述のように、ある実施形態において、VSANモジュール114は、ハイパーバイザ113へのVSAN115のアブストラクションの露出するデバイスドライバとして実行し得る。VSANモジュール114の各種のサブモジュールは、異なる責務を取り扱い、このような責務に応じてユーザ空間315またはカーネル空間320のいずれかにおいて動作し得る。図3の実施形態に示されるように、VSANモジュール114は、ユーザ空間315で動作するクラスタレベルオブジェクト管理(CLOM:(CLOM:cluster level object management))サブモジュール325を含む。CLOMサブモジュール325は、アドミニストレータによる仮想ディスクの作成中に、仮想ディスクブループリントを生成し、このような仮想ディスクブループリントのために作成されたオブジェクトが、アドミニストレータにより設定されたストレージプロファイルまたはポリシー要件を満たすよう構成されることを確実にする。(例えば、仮想ディスクのための)オブジェクト作成中にアクセスされることに加えて、CLOMサブモジュール325は、(例えば、仮想ディスクブループリントまたはオブジェクトストア116内の実際の物理ストレージへの仮想ディスクブループリントのマッピングを動的に修正または別様に更新するために)オブジェクトに関するストレージプロファイルまたはポリシーへのアドミニストレータによりなされた変更の際、または、クラスタまたは作業負荷に対する変更が、現在のストレージプロファイルまたはポリシーに準拠しないオブジェクトを生じるときに、アクセスされ得る。
一実施形態において、アドミニストレータが、仮想ディスクオブジェクト200等の複合オブジェクトのストレージプロファイルまたはポリシーを作成すると、CLOMサブモジュール325は、各種の発見的アルゴリズムおよび分散アルゴリズムのうち少なくとも一方を適用して、ストレージポリシーを満たすか、または別様にストレージポリシーに適合するクラスタ110内の構成(例えば、ミラーリングを介した所望の冗長性およびストライピングを介したアクセス性能を達成するためのRAID構成:負荷バランシングを達成するために、どのノードのローカルストレージが、仮想ディスクのある部分/パーティション/ストライプを格納すべきか、等)を記述する仮想ディスクブループリント215を生成する。例えば、CLOMサブモジュール325は、一実施形態において、仮想ディスクが最初にアドミニストレータにより作成されたときに、図2における仮想ディスクオブジェクト200のRAID 1/RAID 0構成を記述するブループリント215の生成を担当する。上記において説明されたように、ストレージポリシーは、容量、IOPS、可用性および信頼性についての要件を規定し得る。ストレージポリシーはまた、作業負荷特徴(例えば、ランダムまたはシーケンシャルアクセス、I/Oリクエストサイズ、キャッシュサイズ、期待キャッシュヒット率、等)を規定し得る。さらに、アドミニストレータはまた、あるノード111(またはノード111に収容されたローカルディスク)を優先的に使用するためにVSANモジュール114への親和度を規定し得る。例えば、VMの新たな仮想ディスクの提供時に、アドミニストレータは、仮想ディスクが400GBの予備容量、150読み出しIOPSの予約、300書き込みIOPSの予約および99.99%の所望の可用性を有することを規定する仮想ディスクのストレージポリシーまたはプロファイルを生成し得る。生成されたストレージポリシーの受信時に、CLOMサブモジュール325は、生成されたストレージポリシーに適する複合オブジェクト(例えば、仮想ディスクオブジェクト)の仮想ディスクブループリントを生成する目的で、そのVSANモジュール114により維持されるメモリ内メタデータデータベースを調べてクラスタ110の現在の状態を判定する。下記においてさらに説明されるように、CLOMサブモジュール325は、その対応する分散オブジェクトマネージャ(DOM)サブモジュール340にブループリントを伝達し、分散オブジェクトマネージャ(DOM)サブモジュール340は、オブジェクト空間116と相互作用して、例えば、クラスタ110の各種ノード111内の物理ストレージ位置に複合オブジェクトのコンポーネントオブジェクト(例えば、ストライプ)を割り当てるか、または別様にマッピングすることにより、ブループリントを実施する。
CLOMサブモジュール325およびDOMサブモジュール340に加えて、図3にさらに示されるように、VSANモジュール114はまた、クラスタ110の状態についての情報をVSANモジュール114の他のサブモジュールに提供するために、上述のメモリ内メタデータデータベースを維持するとともに、クラスタ110内の各ノード111のステータス、アクセス可能性および可視性をモニタリングすることによりクラスタ110の全般的な「ヘルス」の追跡も行なう、クラスタモニタリング、メンバシップおよびディレクトリサービス(CMMDS(Cluster Monitoring, Membership, and Directory Services))サブモジュール335を含み得る。メモリ内メタデータデータベースは、各種ノード111、ノード111内に収容されたストレージリソース(SSD、磁気ディスク、等)およびその特性/能力、ノード111の現在の状態、および、それらの対応するストレージリソース、ノード111間のネットワーク経路、等のVSAN環境の物理インベントリを維持するディレクトリサービスとして機能する。先に説明されたように、物理インベントリを維持することに加えて、メモリ内メタデータデータベースはさらに、オブジェクトストア116にストアされるオブジェクトについてのメタデータのカタログ(例えば、どのような複合オブジェクト・コンポーネントオブジェクトが存在するか、どのようなコンポーネントオブジェクトがどのような複合オブジェクトに属するか、どのノードがいずれのオブジェクトへのアクセスを制御する「コーディネータ」または「オーナー」として機能するか、各オブジェクトについてのサービス品質要件、オブジェクト構成、オブジェクトの物理ストレージ位置へのマッピング、等)を提供する。先に説明されたように、VSANモジュール114内の他のサブモジュールは、更新目的でCMMDSサブモジュール335(図3において接続線で表される)にアクセスして、クラスタトポロジおよびオブジェクト構成における変更を学習し得る。例えば、先に説明されたように、仮想ディスク作成中、CLOMサブモジュール325は、仮想ディスクブループリントを生成するためにメモリ内メタデータデータベースにアクセスし、実行中のVM112からのI/Oオペレーションに対処する目的で、DOMサブモジュール340は、メモリ内メタデータデータベースにアクセスして、対応する複合オブジェクト(仮想ディスクオブジェクト)のコンポーネントオブジェクト(例えば、ストライプ)を格納するノード111、および、I/Oオペレーションを満たすためにそれらのノードが到達可能な経路を決定する。
上記において説明されたように、DOMサブモジュール340は、I/Oオペレーションの取り扱いの間、および、オブジェクト作成の間、DOMサブモジュール340が実行される特定のノード111のローカルストレージにストアされたオブジェクトストア116内のそれらのコンポーネントオブジェクト、および、そのノード111が現在「コーディネータ」または「オーナー」として指定され続けているある他の複合オブジェクトへのアクセスの制御およびそのオペレーションの取り扱いを実施する。例えば、VMからのI/Oオペレーションの取り扱い時に、ある実施形態における複合オブジェクトの階層的性質のため、目的の複合オブジェクト(例えば、I/Oオペレーションの対象となる仮想ディスクオブジェクト)のためのコーディネータとして機能するDOMサブモジュール340は、第2のノード111(またはノード群)内の異なるDOMサブモジュール340とのネットワークを介してさらなる通信を必要とし得る。第2のノード111(またはノード群)は、第2のノード111のローカルストレージにストアされ、かつI/Oオペレーションの対象である仮想ディスクの一部分である仮想ディスクオブジェクトの特定のコンポーネントオブジェクト(例えば、ストライプ等)についてのコーディネータとして機能する。I/Oオペレーションを発行するVMが、仮想ディスクオブジェクトのコーディネータとも異なるノード111上に存在すると、VMを実行中のノードのDOMサブモジュール340は、コーディネータのDOMサブモジュール340ともネットワークを介して通信する必要があるであろう。ある実施形態において、I/Oオペレーションを発行するVMが、I/Oオペレーションの対象となる仮想ディスクオブジェクトのコーディネータと異なるノード上に存在すると、2つのノードの2つのDOMサブモジュール340は、VMを実行中のノードに対して仮想ディスクオブジェクトのコーディネータの役割を変更するために互いに通信し得る(例えば、それにより、VMを実行中のノードと仮想ディスクオブジェクトについてのコーディネータとして機能するノードとの間のI/Oオペレーションを調整するのに必要なネットワーク通信の量が低減される)。
DOMサブモジュール340もまた同様に、オブジェクト作成中に互いに通信する。例えば、仮想ディスク作成中にCLOMモジュール325により生成された仮想ディスクブループリントは、どのノード111が仮想ディスクオブジェクトおよびその対応するコンポーネントオブジェクト(ストライプ等)についてのコーディネータとして機能すべきかを指定する情報を含み得る。このような指定されたノードについてのDOMサブモジュール340の各々には、オブジェクトに関するメタデータでメモリ内メタデータデータベースを更新する目的で、それらの各オブジェクトを作成し、このようなオブジェクトにローカルストレージを(必要に応じ)割り当て、それらのオブジェクトをそれらの対応するCMMDSサブモジュール335に通知するためのリクエストが発行される(例えば、実施形態に応じて、仮想ディスクオブジェクトについてのコーディネータとして指定されたDOMサブモジュール340により、または、仮想ディスクブループリントを生成するノードのDOMサブモジュール340により、等)。このようなリクエストを実施するために、DOMサブモジュール340は、そのノード111のローカルSSDおよび磁気ディスクとの通信を実際に行なうVSANモジュール114内のコンポーネントとして機能するログ構造化オブジェクトマネージャ(LSOM(Log Structured Object Manager))サブモジュール350と相互作用する。コンポーネントオブジェクトについてのローカルストレージの割り当て(およびそのノードがコーディネータとして機能する複合オブジェクトについてのポリシーおよび構成等の他のメタデータのストア、等)に加えて、LSOMサブモジュール350はさらに、例えば、ストレージリソースが輻輳したかどうかを報告するために、そのノード111のローカルストレージへのI/Oオペレーションの流れをモニタリングする。
図3はまた、論理エンドポイント(例えば、ノード、オブジェクト、等)間の任意サイズのデータグラムを提供する高信頼データグラムトランスポート(RDT(Reliable Datagram Transport))サブモジュール345を示し、エンドポイントは潜在的に、多数の経路に渡り得る。一実施形態において、基礎となるトランスポートはTCP(Transmission Control Protocol)である。代替的に、RDMA(Remote Direct Memory Access)等の他のトランスポートが使用され得る。RDTサブモジュール345は、例えば、上記において先に説明されたようにオブジェクト作成またはI/Oオペレーション取り扱いのために、DOMサブモジュール340が互いに通信する時に、使用される。ある実施形態において、RDTモジュール345は、CMMDSモジュール335と相互作用することにより、メモリ内メタデータデータベース内の最新の位置情報を維持し、リンクヘルスステータスに基づいて接続を作成、除去または再確立するために、論理エンドポイントのアドレスを動的に解決する。例えば、CMMDSモジュール335がリンクがヘルシーでないと報告すると、RDTサブモジュール345は、よりよい状況でのリンクを好み、接続を切り得る。
図4は、一実施形態に係る、定義されたストレージポリシーに基づく仮想ディスクオブジェクト作成の方法フロー図を示す。例えば、ステップ400において、アドミニストレータは、容量、可用性およびIOPS要件(例えば、定義されたストレージポリシー)を有する仮想ディスクを作成するために、仮想管理プラットフォーム105のユーザインタフェースと相互作用し得る。一実施形態において、仮想管理プラットフォーム105は、ステップ405において「マスター」ノード111に仮想ディスクについてのオブジェクトを作成するようリクエストし得る。ステップ410において、このようなマスターノード111は、VSANモジュール内のそのCLOMサブモジュール325を通じて仮想ディスクブループリントを生成し得る。先に説明されたように、CLOMサブモジュール35は、CMMS(Computerized Maintenance Management System)サブモジュール335のメモリ内メタデータデータベースへのコンサルティングにより判定されたように、クラスタ110のステータスに基づいて仮想ディスクオブジェクト(例えば、複合オブジェクト)の作成のために仮想ディスクブループリントを生成する。仮想ディスクブループリントは、仮想ディスクオブジェクトのコーディネータまたはオーナーとして機能すべき特定のノードを識別し得る。ステップ415において、マスターノード111のDOMサブモジュール340は、識別されたノードのDOMサブモジュール340に仮想ディスクオブジェクトを作成するようリクエストし得る。ステップ420において、識別されたノードのDOMサブモジュール340は、例えば、その対応するLSOMサブモジュール350と通信することにより、リクエストを受信し、仮想ディスクオブジェクトを作成し、仮想ディスクオブジェクトを記述するメタデータをそのローカルストレージに持続的に格納する。ステップ425において、DOMサブモジュール340は、仮想ディスクオブジェクトブループリントに基づいて、仮想ディスクブループリント内の任意のコンポーネントオブジェクトについてのコーディネータまたはオーナーとして機能するよう指定されているクラスタ110内のそれらの他のノードを識別する。DOMサブモジュール340は、コンポーネントオブジェクトについてのコーディネータとして機能する他のノードのDOMサブモジュール340と(例えば、そのRTP(Real−time Transport Protocol)サブモジュール345を使用して)通信し、それらのローカルストレージ内にこのようなコンポーネントオブジェクトを支持するデータを格納する。このようなDOMサブモジュール340が、仮想ディスクオブジェクトのコーディネータのDOMサブモジュール340から各コンポーネントオブジェクトを作成するリクエストを受信すると、DOMサブモジュール340は、今度はステップ430において、コンポーネントオブジェクト(およびその関連するメタデータ)についてのローカルストレージを割り当てるために各モジュール350と通信する。ひとたびこのようなコンポーネントオブジェクトが作成されると、ステップ435において、それらのDOMサブモジュール340は、そのCMMSサブモジュール335のメモリ内メタデータデータベースにコンポーネントの作成を通知する。ステップ440において、仮想ディスクオブジェクトのコーディネータのDOMサブモジュール340はまた、メモリ内メタデータデータベースを更新するために、その作成をそのCMMDSサブモジュール335に通知し、最終的にはアドミニストレータに確認を送信する(例えば、マスターノードを介して仮想管理プラットフォーム105に通信し戻す)。
図5は、一実施形態に係る、VMから生じたI/Oオペレーションの取り扱いを示す。特定のノードで実行中のVMがその仮想ディスクへのI/Oオペレーションを実施すると、VMのゲストオペレーティングシステムは、ステップ500において、その仮想ディスクについて意図されたI/Oオペレーションリクエストを(ゲストオペレーティングシステムのデバイスドライバを通じて)送信し、ステップ505において、そのリクエストはハイパーバイザ113により受信され、ハイパーバイザ113内のI/Oスタックの各種の層を介してVSANモジュール114のDOMサブモジュール340に最終的には送信されて変換される。ステップ510において、DOMサブモジュール340により受信されたI/Oリクエストは、CMMSサブモジュール335のメモリ内メタデータデータベースへのアクセスにより仮想ディスクオブジェクトのコーディネータノードを識別するためにDOMサブモジュール340が使用する仮想ディスクを表すオブジェクトについての一意識別子を含む(ある実施形態において、コーディネータノードの識別子の一意識別子へのマッピングをルックアップするためにメモリ内メタデータデータベースへアクセスすることは、仮想ディスクオブジェクトが最初にアクセスされた時にのみ生じ、このようなマッピングは、後続のルックアップが必要とされないように将来のI/Oオペレーションについて持続する)。仮想ディスクオブジェクトについてのコーディネータノードを識別すると、VMを実行中のノードのDOMサブモジュール340は、ステップ515においてI/Oオペレーションを実行するようリクエストするために(例えば、そのRTPサブモジュール345を使用して)コーディネータノードのDOMサブモジュール340と通信する。先に説明されたように、ある実施形態において、VMを実行中のノードと仮想ディスクオブジェクトのコーディネータとして機能するノードとが異なると、2つのDOMサブモジュールは、仮想ディスクオブジェクトのコーディネータの役割を、実行中のVMのノードとなるよう更新するように通信する。コーディネータによるI/Oリクエストを受信すると、ステップ520において、そのDOMサブモジュールは、I/Oオペレーションの対象となる仮想ディスクオブジェクトの特定のコンポーネントオブジェクト(例えば、ストライプ)のそれらのコーディネータノードを(例えば、ある実施形態において、再びメモリ内メタデータデータベースを参照することにより)識別する。例えば、I/OオペレーションがRAID 0構成の多数のストライプ(例えば、多数のコンポーネントオブジェクト)にまたがれば、DOMサブモジュール340は、I/Oオペレーションを分割し、対応するI/Oリクエストを2つのストライプに対応する関連コンポーネントオブジェクトについての各コーディネートノードに適切に送信し得る。ステップ525において、仮想ディスクオブジェクトのコーディネータノードのDOMサブモジュールは、識別されたコンポーネントオブジェクトのコーディネータノードのDOMサブモジュールがI/Oオペレーションリクエストを実行するようリクエストし、ステップ530において、識別されたコンポーネントオブジェクトについてのこのようなコーディネータノードのDOMサブモジュールは、コンポーネントオブジェクトがストアされるローカルストレージリソース内でI/Oオペレーションを実行するために、それらの対応するLSOMサブモジュールと相互作用する。
1つ以上の実施形態が理解を明確にするために詳細に記述されてきたが、特許請求の範囲内においてある変更および修正がなされ得ることは明らかである。従って、記述された実施形態は例示的であり制限するものではないと考えられるべきであって、特許請求の範囲は、本開示にて与えられた詳細に制限されるべきではなく、しかし特許請求の範囲およびその均等物内において修正され得る。例えば、前述の多数の実施形態は、仮想マシンをVSANモジュールにより提供される仮想ディスクにアクセスするクライアントとして記述したが、非仮想化ホストサーバおよびそこで実行中の非仮想化アプリケーションのうちの少なくとも一方のクラスタ等の任意のクライアントが、代替実施形態においてVSANモジュールを同様に利用し得ることが理解されるべきである。同様に、VSANモジュールの代替実施形態が、限定するものではないが、REST(REpresentational State Transfer)オブジェクト、ファイル、ファイルシステム、ブロブ(バイナリーラージオブジェクト)および他のオブジェクト等の、仮想ディスク以外の高レベルストレージオブジェクトを作成可能であり得る。同様に、VSANモジュール114がハイパーバイザ113内に埋め込まれるとして概して記述されてきたが、代替実施形態は、例えば特別な仮想マシンまたは仮想アプライアンス、別個のアプリケーションまたは分散オブジェクトストアを提供および管理するためにコンピューティングプラットフォームに挿入可能な任意の他の「プラガブル(pluggable)」モジュールまたはドライバとして、ハイパーバイザ113とは別個のVSANモジュールを実装し得る。同様に、前述の実施形態はブループリントを編成する1つの技術としてRAID構成を参照してきたが、他の実施形態において、限定するものではないが、抹消符号および他の類似技術の使用を含む他の構成を利用し得ることが理解されるべきである。本開示の記述はオブジェクト内の参照オブジェクトへの「一意識別子」を用いて説明されてきたが、一意識別子(ハッシュ、等)を生成する技術において、真に一意な識別子の生成が必ずしも保証されるわけではなく、それゆえ、ある実施形態が、オブジェクトの識別子が真に一意ではない例がある場合に名前衝突を取り扱う技術をさらに実装し得ることが理解されるであろう。1つのこのような実施形態において、意図されている一意識別子に加えて、さらなるアドミニストレータまたはユーザ特定識別子も、その作成の間にオブジェクトに割り当てられる(または別様にオブジェクトの一意識別子にマッピングされる)。新たに作成されたオブジェクトと同じ一意識別子を有する既存のオブジェクトのために名前衝突がある場合、アドミニストレータまたはユーザ特定名称は、新たに作成されたオブジェクトのユーザ識別子に変換され得る。
本開示に記述された各種の実施形態は、コンピュータシステム内にストアされたデータを伴う各種のコンピュータ実装オペレーションを採用し得る。例えば、これらのオペレーションは、通常は物理量の物理マニピュレーションを要求し得るが、必ずしもではないものの、これらの量は電気的または磁気的信号の形態を取り得、そこでは、それら、あるいは、それらの代表値は、ストアされ、伝送され、結合され、比較され、または別様にマニピュレートされることが可能である。さらに、このようなマニピュレーションは、しばしば製造、識別、判定または比較の観点で参照される。1つ以上の実施形態の一部を形成する本開示で記述された任意のオペレーションは、有用なマシンオペレーションであり得る。さらに、1つ以上の実施形態はまた、それらのオペレーションを実行するためのデバイスまたは装置に関する。装置は、特定の要求目的のために特別に構築され得、または、コンピュータにストアされたコンピュータプログラムにより選択的に活性化され、または構成される汎用コンピュータであり得る。特に、各種の汎用マシンが、本開示の教示に従って書かれたコンピュータプログラムと共に使用され得、または、要求されるオペレーションの実行のためにより特別化された装置を構築することが、より都合がよい場合もあり得る。
本開示に記述された各種の実施形態は、ハンドヘルドデバイス、マイクロプロセッサシステム、マイクロプロセッサベースまたはプログラマブルコンシューマエレクトロニクス、ミニコンピュータ、メインフレームコンピュータ、等を含む他のコンピュータシステム構成で実践され得る。
1つ以上の実施形態は、1つ以上のコンピュータ可読媒体内に具現化された1つ以上のコンピュータプログラムとして、または、1つ以上のコンピュータプログラムモジュールとして実装され得る。用語「コンピュータ可読媒体」は、後にコンピュータシステムに入力され得るデータを格納することが可能な任意のデータストレージデバイスを指し、コンピュータ可読媒体は、コンピュータによりコンピュータプログラムを読み取り可能なようにコンピュータプログラムを具現化するための任意の既存のまたは将来開発される技術に基づき得る。コンピュータ可読媒体の例には、ハードドライブ、ネットワーク接続ストレージ(NAS:Network Attached Storage)、リードオンリーメモリ、ランダムアクセスメモリ(例えば、フラッシュメモリデバイス)、CD(コンパクトディスク)、CD−ROM、CD−RまたはCD−RW、DVD(デジタルバーサタイルディスク)、磁気テープ、および、他の光学および非光学データストレージデバイスが含まれる。コンピュータ可読媒体はまた、コンピュータ可読コードが分散方式でストアされ、実行されるように、ネットワーク結合コンピュータシステム上に分散され得る。
さらに、記述された仮想化方法は概して、仮想マシンが特定のハードウェアシステムに沿ったインターフェースを提示するものとしてきたが、記述された方法は、任意の特定のハードウェアシステムに直接には対応しない仮想化と共に使用され得る。ホスト化実施形態、非ホスト化実施形態、または、その両者間の区別があいまいとなりがちな実施形態として実装される、各種の実施形態に係る仮想化システムが、全て想定される。さらに、各種の仮想化オペレーションが、全体としてまたは部分的にハードウェア内に実装され得る。例えば、ハードウェア実装は、非ディスクデータをセキュアにするためにストレージアクセスリクエストの修正のためのルックアップテーブルを採用し得る。
仮想化の程度にかかわらず、多くの変形、修正、付加および改良が可能である。仮想化ソフトウェアはそれゆえ、ホスト、コンソールまたは仮想化機能を実行するゲストオペレーティングシステムのコンポーネントを含み得る。複数のインスタンスが、単一のインスタンスとして本開示に説明されるコンポーネント、オペレーションまたは構造のために提供され得る。最後に、各種コンポーネント、オペレーションおよびデータストアの境界は、いくらか恣意的であり、特定のオペレーションは特定の例示的構成の文脈で例示される。機能性の他の割り当てが想定され、1つ以上の実施形態の範囲に収まり得る。一般に、例示の構成において別個のコンポーネントとして表される構造および機能性は、結合された構造またはコンポーネントとして実装され得る。同様に、単一のコンポーネントとして表される構造および機能性は、別個のコンポーネントとして実装され得る。これらのおよび他の変形、修正、付加および改良は、添付の請求項の範囲内に収まり得る。請求項において、要素およびステップの内少なくともいずれか一方は、請求項において明示的に述べられていない限り、オペレーションの如何なる特定の順序も暗示しない。

Claims (1)

  1. オブジェクトストア内にストアされたオブジェクトへの多数のクライアントによる同時アクセスをサポートするよう意図された、オブジェクトストアのためのファイルシステムインタフェースを提供する方法であって、
    前記オブジェクトストアについての階層名前空間へのルートディレクトリのアブストラクションをクライアントに露出することであって、前記オブジェクトストアは、(i)複数のホストコンピュータに収容されたまたは直接に取り付けられた複数の物理ストレージデバイスにより支持され、(ii)前記ストアされたオブジェクトへと一意識別子をマッピングするフラットな名前空間を使用して、そのストアされたオブジェクトを内部的に追跡する、露出することと、
    前記ルートディレクトリのサブディレクトリとして現れるトップレベルオブジェクトの作成を可能とすることであって、各トップレベルオブジェクトは、任意の指定ファイルシステムに従って編成され得る別個の名前空間を有するストレージデバイスの別個のアブストラクションを表す、可能とすることと
    を備える方法。
JP2019161221A 2013-08-26 2019-09-04 スケーラブル分散ストレージアーキテクチャ Pending JP2019212330A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/010,293 2013-08-26
US14/010,293 US9811531B2 (en) 2013-08-26 2013-08-26 Scalable distributed storage architecture

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2017208059A Division JP6607901B2 (ja) 2013-08-26 2017-10-27 スケーラブル分散ストレージアーキテクチャ

Publications (1)

Publication Number Publication Date
JP2019212330A true JP2019212330A (ja) 2019-12-12

Family

ID=51134399

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2016529768A Active JP6488296B2 (ja) 2013-08-26 2014-06-10 スケーラブル分散ストレージアーキテクチャ
JP2017208059A Active JP6607901B2 (ja) 2013-08-26 2017-10-27 スケーラブル分散ストレージアーキテクチャ
JP2019161221A Pending JP2019212330A (ja) 2013-08-26 2019-09-04 スケーラブル分散ストレージアーキテクチャ

Family Applications Before (2)

Application Number Title Priority Date Filing Date
JP2016529768A Active JP6488296B2 (ja) 2013-08-26 2014-06-10 スケーラブル分散ストレージアーキテクチャ
JP2017208059A Active JP6607901B2 (ja) 2013-08-26 2017-10-27 スケーラブル分散ストレージアーキテクチャ

Country Status (5)

Country Link
US (3) US9811531B2 (ja)
EP (2) EP3039575B1 (ja)
JP (3) JP6488296B2 (ja)
AU (2) AU2014311782B2 (ja)
WO (1) WO2015030901A1 (ja)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10747475B2 (en) 2013-08-26 2020-08-18 Vmware, Inc. Virtual disk blueprints for a virtualized storage area network, wherein virtual disk objects are created from local physical storage of host computers that are running multiple virtual machines
US9811531B2 (en) 2013-08-26 2017-11-07 Vmware, Inc. Scalable distributed storage architecture
US9887924B2 (en) 2013-08-26 2018-02-06 Vmware, Inc. Distributed policy-based provisioning and enforcement for quality of service
US11016820B2 (en) 2013-08-26 2021-05-25 Vmware, Inc. Load balancing of resources
US9513946B2 (en) 2014-06-27 2016-12-06 Vmware, Inc. Maintaining high availability during network partitions for virtual machines stored on distributed object-based storage
US9798497B1 (en) * 2015-06-08 2017-10-24 Skytap Storage area network emulation
US9660962B2 (en) * 2015-09-24 2017-05-23 Netapp, Inc. Network-attached storage gateway validation
US10303646B2 (en) 2016-03-25 2019-05-28 Microsoft Technology Licensing, Llc Memory sharing for working data using RDMA
US10235378B1 (en) * 2016-09-30 2019-03-19 EMC IP Holding Company LLC Namespace performance acceleration by selective SSD caching
US10678579B2 (en) 2017-03-17 2020-06-09 Vmware, Inc. Policy based cross-cloud migration
US10289315B2 (en) 2017-03-27 2019-05-14 Western Digital Technologies, Inc. Managing I/O operations of large data objects in a cache memory device by dividing into chunks
CN108255414B (zh) * 2017-04-14 2020-04-03 新华三信息技术有限公司 固态硬盘访问方法及装置
US10359966B2 (en) * 2017-05-11 2019-07-23 Vmware, Inc. Capacity based load balancing in distributed storage systems with deduplication and compression functionalities
US10509708B2 (en) 2017-06-13 2019-12-17 Vmware, Inc. Code block resynchronization for distributed multi-mirror erasure coding system
US10268408B2 (en) * 2017-08-28 2019-04-23 Vmware, Inc. Flexible efficient runtime placement of data across multiple disks
JP7006265B2 (ja) * 2017-12-28 2022-01-24 富士通株式会社 情報処理装置,制御プログラムおよび情報処理方法
US10802862B2 (en) 2018-05-01 2020-10-13 Vmware, Inc. Live migration of virtual machines across heterogeneous virtual machine management domains
US10735369B2 (en) * 2018-06-22 2020-08-04 Microsoft Technology Licensing, Llc Hierarchical namespace service with distributed name resolution caching and synchronization
US10789217B2 (en) * 2018-06-22 2020-09-29 Microsoft Technology Licensing, Llc Hierarchical namespace with strong consistency and horizontal scalability
US11080235B2 (en) * 2019-01-31 2021-08-03 Dashbase Llc Incorporation of dynamic search results from a remote source into a local file system for log file analysis
US11151093B2 (en) * 2019-03-29 2021-10-19 International Business Machines Corporation Distributed system control for on-demand data access in complex, heterogenous data storage
US11561976B1 (en) * 2021-09-22 2023-01-24 Sap Se System and method for facilitating metadata identification and import
US11803511B2 (en) * 2021-11-05 2023-10-31 Microsoft Technology Licensing, Llc Methods and systems for ordering operations on a file system having a hierarchical namespace

Family Cites Families (124)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06110766A (ja) * 1992-09-25 1994-04-22 Hitachi Ltd 分割格納ファイルシステムのディレクトリ構成方法および計算機システム
US5778384A (en) * 1995-12-22 1998-07-07 Sun Microsystems, Inc. System and method for automounting and accessing remote file systems in Microsoft Windows in a networking environment
US6032224A (en) * 1996-12-03 2000-02-29 Emc Corporation Hierarchical performance system for managing a plurality of storage units with different access speeds
US6314526B1 (en) 1998-07-10 2001-11-06 International Business Machines Corporation Resource group quorum scheme for highly scalable and highly available cluster system management
US6553389B1 (en) 1999-09-13 2003-04-22 Hewlett-Packard Company Resource availability determination mechanism for distributed data storage system
US6658473B1 (en) 2000-02-25 2003-12-02 Sun Microsystems, Inc. Method and apparatus for distributing load in a computer environment
WO2001067309A2 (en) 2000-03-03 2001-09-13 Radiant Logic, Inc. System and method for providing access to databases via directories and other hierarchical structures and interfaces
JP2002108567A (ja) 2000-09-28 2002-04-12 Hitachi Ltd 記憶制御装置
US6839752B1 (en) 2000-10-27 2005-01-04 International Business Machines Corporation Group data sharing during membership change in clustered computer system
US6915391B2 (en) 2000-12-15 2005-07-05 International Business Machines Corporation Support for single-node quorum in a two-node nodeset for a shared disk parallel file system
US20040136379A1 (en) 2001-03-13 2004-07-15 Liao Raymond R Method and apparatus for allocation of resources
US6708175B2 (en) 2001-06-06 2004-03-16 International Business Machines Corporation Program support for disk fencing in a shared disk parallel file system across storage area network
US20020188592A1 (en) 2001-06-11 2002-12-12 Storage Technology Corporation Outboard data storage management system and method
US6687701B2 (en) 2001-09-25 2004-02-03 Hewlett-Packard Development Company, L.P. Namespace management in a distributed file system
WO2003046721A1 (en) * 2001-11-23 2003-06-05 Commvault Systems, Inc. Selective data replication system and method
US8914429B2 (en) 2002-02-08 2014-12-16 Willaim Pitts Method for creating global distributed namespace
US6985914B2 (en) 2002-02-20 2006-01-10 Emc Corporation Cluster meta file system of file system cells managed by respective data movers of a network file server
US7035858B2 (en) 2002-04-29 2006-04-25 Sun Microsystems, Inc. System and method dynamic cluster membership in a distributed data system
JP4124331B2 (ja) 2002-09-17 2008-07-23 株式会社日立製作所 Dbms向け仮想ボリューム作成・管理方法
CN1692356B (zh) 2002-11-14 2014-06-04 易斯龙系统公司 用于对现存文件重新条带化的方法
US7159093B2 (en) 2002-12-20 2007-01-02 Veritas Operating Corporation Development of a detailed logical volume configuration from high-level user requirements
US8234517B2 (en) 2003-08-01 2012-07-31 Oracle International Corporation Parallel recovery by non-failed nodes
US7277897B2 (en) 2003-08-01 2007-10-02 Oracle International Corporation Dynamic reassignment of data ownership
US9489150B2 (en) 2003-08-14 2016-11-08 Dell International L.L.C. System and method for transferring data between different raid data storage types for current data and replay data
US7613945B2 (en) 2003-08-14 2009-11-03 Compellent Technologies Virtual disk drive system and method
US8527541B2 (en) 2003-11-05 2013-09-03 Emc Corporation Method for mapping a flat namespace onto a hierarchical namespace using locality of reference cues
US20050166011A1 (en) 2004-01-23 2005-07-28 Burnett Robert J. System for consolidating disk storage space of grid computers into a single virtual disk drive
US20050240714A1 (en) 2004-04-13 2005-10-27 Bea Systems, Inc. System and method for virtual content repository deployment
US7768959B1 (en) 2004-04-21 2010-08-03 Marvell International Ltd. All-in-one wireless network device
US7360030B1 (en) 2004-06-01 2008-04-15 Sanbolic, Inc. Methods and apparatus facilitating volume management
US7613703B2 (en) 2004-09-30 2009-11-03 Microsoft Corporation Organizing resources into collections to facilitate more efficient and reliable resource access
US20060161753A1 (en) 2005-01-18 2006-07-20 Aschoff John G Method, apparatus and program storage device for providing automatic performance optimization of virtualized storage allocation within a virtualized storage subsystem
US20060218360A1 (en) 2005-03-22 2006-09-28 Burkey Todd R Method, apparatus and program storage device for providing an optimized read methodology for synchronously mirrored virtual disk pairs
US7617370B2 (en) * 2005-04-29 2009-11-10 Netapp, Inc. Data allocation within a storage system architecture
US8127059B1 (en) 2005-09-02 2012-02-28 Pmc-Sierra Us, Inc. Apparatus for interconnecting hosts with storage devices
US20070055703A1 (en) * 2005-09-07 2007-03-08 Eyal Zimran Namespace server using referral protocols
US20070214384A1 (en) * 2006-03-07 2007-09-13 Manabu Kitamura Method for backing up data in a clustered file system
US7716425B1 (en) 2006-09-27 2010-05-11 Hewlett-Packard Development Company, L.P. Prefetching data in distributed storage systems
US7739470B1 (en) 2006-10-20 2010-06-15 Emc Corporation Limit algorithm using queue depth to control application performance
US7669029B1 (en) 2006-11-15 2010-02-23 Network Appliance, Inc. Load balancing a data storage system
JP4505763B2 (ja) 2007-01-31 2010-07-21 ヒューレット−パッカード デベロップメント カンパニー エル.ピー. ノードクラスタの管理
JP2008210057A (ja) * 2007-02-23 2008-09-11 Hitachi Ltd 記憶システム及びその管理方法
US8090792B2 (en) 2007-03-08 2012-01-03 Nec Laboratories America, Inc. Method and system for a self managing and scalable grid storage
JP5379956B2 (ja) * 2007-03-19 2013-12-25 株式会社日立製作所 ストレージ装置及び記憶領域配置方法
WO2008147973A2 (en) * 2007-05-25 2008-12-04 Attune Systems, Inc. Remote file virtualization in a switched file system
US8386610B2 (en) 2007-12-31 2013-02-26 Netapp, Inc. System and method for automatic storage load balancing in virtual server environments
JP2009217475A (ja) 2008-03-10 2009-09-24 Fujitsu Ltd ストレージシステム,ストレージ装置,ストレージシステムの制御方法および制御プログラム
JP5098721B2 (ja) 2008-03-14 2012-12-12 オムロンヘルスケア株式会社 血圧測定装置、血圧導出プログラムおよび血圧導出方法
TWI476610B (zh) 2008-04-29 2015-03-11 Maxiscale Inc 同級間冗餘檔案伺服器系統及方法
US8612678B2 (en) 2008-04-30 2013-12-17 Netapp, Inc. Creating logical disk drives for raid subsystems
JP5250869B2 (ja) 2008-08-28 2013-07-31 株式会社日立製作所 ストレージシステム、論理記憶領域割り当て方法及び計算機システム
JP5026375B2 (ja) 2008-09-09 2012-09-12 株式会社日立製作所 ストレージ装置及びストレージ装置の制御方法
US8914567B2 (en) * 2008-09-15 2014-12-16 Vmware, Inc. Storage management system for virtual machines
US20100114826A1 (en) 2008-10-24 2010-05-06 Microsoft Corporation Configuration management in distributed data systems
US9396021B2 (en) 2008-12-16 2016-07-19 International Business Machines Corporation Techniques for dynamically assigning jobs to processors in a cluster using local job tables
US8893050B2 (en) * 2009-01-12 2014-11-18 International Business Machines Corporation Assembly and output of user-defined groupings
JP5180865B2 (ja) 2009-02-10 2013-04-10 株式会社日立製作所 ファイルサーバ、ファイル管理システムおよびファイル管理方法
KR101042908B1 (ko) 2009-02-12 2011-06-21 엔에이치엔(주) 네트워크 분리 장애 상황에서 메이저 그룹을 결정하기 위한방법, 시스템, 및 컴퓨터 판독 가능한 기록 매체
US8291159B2 (en) * 2009-03-12 2012-10-16 Vmware, Inc. Monitoring and updating mapping of physical storage allocation of virtual machine without changing identifier of the storage volume assigned to virtual machine
US8176289B2 (en) 2009-05-21 2012-05-08 Red Hat Israel, Ltd. Method to support sparse volumes or thin provisioned volumes in real time
US8694578B2 (en) 2009-05-29 2014-04-08 Microsoft Corporation Swarm-based synchronization over a network of object stores
US8103769B1 (en) 2009-09-03 2012-01-24 Amazon Technologies, Inc. Dynamic isolation of shared resources
US8387060B2 (en) 2009-10-01 2013-02-26 Dell Products L.P. Virtual machine resource allocation group policy based on workload profile, application utilization and resource utilization
US8566520B1 (en) 2009-10-05 2013-10-22 Marvell International Ltd. Storage space allocation for logical disk creation
US8326799B2 (en) 2009-10-09 2012-12-04 Seagate Technology Llc Data distribution in systems with multiple storage entities
US8635422B1 (en) 2009-10-29 2014-01-21 Symantec Corporation Systems and methods for reclaiming storage space from deleted volumes on thin-provisioned disks
US8074003B1 (en) 2009-12-28 2011-12-06 Emc Corporation Host-based storage controller providing block devices in geographically distributed storage
JP5314772B2 (ja) 2010-01-28 2013-10-16 株式会社日立製作所 性能の異なる実領域群で構成されたプールを有するストレージシステムの管理システム及び方法
US8453036B1 (en) 2010-02-01 2013-05-28 Network Appliance, Inc. System and method for dynamically resizing a parity declustered group
US8645750B2 (en) 2010-03-04 2014-02-04 Hitachi, Ltd. Computer system and control method for allocation of logical resources to virtual storage areas
US11256529B2 (en) 2010-03-17 2022-02-22 Zerto Ltd. Methods and apparatus for providing hypervisor level data services for server virtualization
US20110238857A1 (en) 2010-03-29 2011-09-29 Amazon Technologies, Inc. Committed processing rates for shared resources
JP2012008854A (ja) * 2010-06-25 2012-01-12 Hitachi Ltd ストレージ仮想化装置
US10162722B2 (en) * 2010-07-15 2018-12-25 Veritas Technologies Llc Virtual machine aware replication method and system
WO2012024801A1 (en) * 2010-08-25 2012-03-01 Rayan Zachariassen Method and system for cache tiering
US20120054264A1 (en) 2010-08-31 2012-03-01 International Business Machines Corporation Techniques for Migrating Active I/O Connections with Migrating Servers and Clients
WO2012042509A1 (en) 2010-10-01 2012-04-05 Peter Chacko A distributed virtual storage cloud architecture and a method thereof
CN102232282B (zh) 2010-10-29 2014-03-26 华为技术有限公司 一种实现数据中心资源负载均衡的方法及装置
US8782335B2 (en) 2010-11-08 2014-07-15 Lsi Corporation Latency reduction associated with a response to a request in a storage system
US9032146B2 (en) 2010-11-30 2015-05-12 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Dynamic use of raid levels responsive to workload requirements
US8549247B2 (en) 2010-12-28 2013-10-01 Hitachi, Ltd. Storage system, management method of the storage system, and program
JP5632082B2 (ja) 2011-02-02 2014-11-26 株式会社日立製作所 ストレージ装置及びデータ管理方法
US8996807B2 (en) 2011-02-15 2015-03-31 Intelligent Intellectual Property Holdings 2 Llc Systems and methods for a multi-level cache
US9201677B2 (en) 2011-05-23 2015-12-01 Intelligent Intellectual Property Holdings 2 Llc Managing data input/output operations
JP2012173996A (ja) 2011-02-22 2012-09-10 Nec Corp クラスタシステム、クラスタ管理方法、およびクラスタ管理プログラム
US8904136B2 (en) 2011-03-15 2014-12-02 Symantec Corporation Optimized shrinking of virtual disks
WO2012147116A1 (en) 2011-04-25 2012-11-01 Hitachi, Ltd. Computer system and virtual machine control method
US20120303322A1 (en) 2011-05-23 2012-11-29 Rego Charles W Incorporating memory and io cycle information into compute usage determinations
US8645654B1 (en) 2011-06-29 2014-02-04 Emc Corporation Selecting physical storage in data storage systems
US9489396B2 (en) * 2011-07-01 2016-11-08 V3 Systems Holdings, Inc. Intermediation of hypervisor file system and storage device models
US9244967B2 (en) * 2011-08-01 2016-01-26 Actifio, Inc. Incremental copy performance between data stores
US8954979B1 (en) 2011-08-15 2015-02-10 Netapp, Inc. Method and system for managing resources in a network
US9514014B2 (en) 2011-08-17 2016-12-06 EMC IP Holding Company, LLC Methods and systems of managing a distributed replica based storage
US9116633B2 (en) * 2011-09-30 2015-08-25 Commvault Systems, Inc. Information management of virtual machines having mapped storage devices
US8276140B1 (en) 2011-11-14 2012-09-25 Google Inc. Adjustable virtual network performance
US9336061B2 (en) 2012-01-14 2016-05-10 International Business Machines Corporation Integrated metering of service usage for hybrid clouds
US20140130055A1 (en) 2012-02-14 2014-05-08 Aloke Guha Systems and methods for provisioning of storage for virtualized applications
US9020912B1 (en) 2012-02-20 2015-04-28 F5 Networks, Inc. Methods for accessing data in a compressed file system and devices thereof
US9298715B2 (en) * 2012-03-07 2016-03-29 Commvault Systems, Inc. Data storage system utilizing proxy device for storage operations
US9348724B2 (en) 2012-05-21 2016-05-24 Hitachi, Ltd. Method and apparatus for maintaining a workload service level on a converged platform
US9612966B2 (en) 2012-07-03 2017-04-04 Sandisk Technologies Llc Systems, methods and apparatus for a virtual machine cache
US9244846B2 (en) 2012-07-06 2016-01-26 International Business Machines Corporation Ensuring causality of transactional storage accesses interacting with non-transactional storage accesses
US20140115579A1 (en) 2012-10-19 2014-04-24 Jonathan Kong Datacenter storage system
US9453740B2 (en) 2012-10-30 2016-09-27 Alpine Electronics, Inc. Method of displaying objects on navigation map
US9448883B1 (en) 2012-12-04 2016-09-20 Cadence Design Systems, Inc. System and method for allocating data in memory array having regions of varying storage reliability
US9092161B2 (en) 2012-12-05 2015-07-28 Red Hat Israel, Ltd. Selection of allocation policy and format for virtual machine disk images
US8924664B2 (en) 2012-12-13 2014-12-30 Infinidat Ltd. Logical object deletion
US9122528B2 (en) 2012-12-13 2015-09-01 Telefonaktiebolaget L M Ericsson (Publ) Energy conservation and hardware usage management for data centers
US20140201151A1 (en) * 2013-01-11 2014-07-17 Commvault Systems, Inc. Systems and methods to select files for restoration from block-level backup for virtual machines
US9239730B2 (en) 2013-01-11 2016-01-19 Red Hat Israel, Ltd. Managing connections in a distributed virtualization environment
US9015123B1 (en) * 2013-01-16 2015-04-21 Netapp, Inc. Methods and systems for identifying changed data in an expandable storage volume
US8984243B1 (en) 2013-02-22 2015-03-17 Amazon Technologies, Inc. Managing operational parameters for electronic resources
GB2526031B (en) 2013-05-08 2020-07-29 Hitachi Ltd Storage system and data management method
US9015650B2 (en) 2013-06-03 2015-04-21 Microsoft Technology Licensing, Llc Unified datacenter storage model
US8850455B1 (en) * 2013-06-28 2014-09-30 Emc Corporation Method and system for parent backup application monitoring of children backup applications
US9088501B2 (en) 2013-07-31 2015-07-21 Citrix Systems, Inc. Systems and methods for least connection load balancing by multi-core device
US10747475B2 (en) 2013-08-26 2020-08-18 Vmware, Inc. Virtual disk blueprints for a virtualized storage area network, wherein virtual disk objects are created from local physical storage of host computers that are running multiple virtual machines
US9672115B2 (en) 2013-08-26 2017-06-06 Vmware, Inc. Partition tolerance in cluster membership management
US9811531B2 (en) 2013-08-26 2017-11-07 Vmware, Inc. Scalable distributed storage architecture
US11016820B2 (en) 2013-08-26 2021-05-25 Vmware, Inc. Load balancing of resources
US9582198B2 (en) 2013-08-26 2017-02-28 Vmware, Inc. Compressed block map of densely-populated data structures
US11018988B2 (en) 2013-08-26 2021-05-25 Vmware, Inc. Translating high level requirements policies to distributed configurations
US9887924B2 (en) 2013-08-26 2018-02-06 Vmware, Inc. Distributed policy-based provisioning and enforcement for quality of service
US9609058B2 (en) * 2014-10-13 2017-03-28 Commvault Systems, Inc. Storage management operations based on executable files served on demand to storage management components

Also Published As

Publication number Publication date
US11249956B2 (en) 2022-02-15
US9811531B2 (en) 2017-11-07
EP3039575A1 (en) 2016-07-06
EP3039575B1 (en) 2019-12-25
AU2014311782B2 (en) 2017-06-15
US20180095991A1 (en) 2018-04-05
US10614046B2 (en) 2020-04-07
US20200174974A1 (en) 2020-06-04
EP3647966A1 (en) 2020-05-06
AU2014311782A1 (en) 2016-02-25
US20150058384A1 (en) 2015-02-26
EP3647966B1 (en) 2023-06-07
JP6488296B2 (ja) 2019-03-20
AU2017225042B2 (en) 2019-06-06
JP2016530619A (ja) 2016-09-29
JP2018022529A (ja) 2018-02-08
AU2017225042A1 (en) 2017-09-28
WO2015030901A1 (en) 2015-03-05
JP6607901B2 (ja) 2019-11-20

Similar Documents

Publication Publication Date Title
JP6607901B2 (ja) スケーラブル分散ストレージアーキテクチャ
JP6798960B2 (ja) 仮想化ストレージエリアネットワークのための仮想ディスクブループリント
US11704166B2 (en) Load balancing of resources
JP2019036361A (ja) クラスタメンバーシップ管理における分断耐性
US10871911B2 (en) Reducing data amplification when replicating objects across different sites