JP2023110632A - ファイルストレージシステム - Google Patents

ファイルストレージシステム Download PDF

Info

Publication number
JP2023110632A
JP2023110632A JP2022012209A JP2022012209A JP2023110632A JP 2023110632 A JP2023110632 A JP 2023110632A JP 2022012209 A JP2022012209 A JP 2022012209A JP 2022012209 A JP2022012209 A JP 2022012209A JP 2023110632 A JP2023110632 A JP 2023110632A
Authority
JP
Japan
Prior art keywords
file
program
storage system
storage
directory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022012209A
Other languages
English (en)
Inventor
健志 北村
Kenji Kitamura
燎 古橋
Ryo FURUHASHI
光雄 早坂
Mitsuo Hayasaka
鎮平 野村
Shimpei Nomura
昌忠 ▲高▼田
Masatada Takada
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2022012209A priority Critical patent/JP2023110632A/ja
Priority to US17/901,340 priority patent/US20230281161A1/en
Publication of JP2023110632A publication Critical patent/JP2023110632A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/128Details of file system snapshots on the file-level, e.g. snapshot creation, administration, deletion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/188Virtual file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/119Details of migration of file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • G06F16/1824Distributed file systems implemented using Network-attached Storage [NAS] architecture
    • G06F16/1827Management specifically adapted to NAS
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • G06F16/1824Distributed file systems implemented using Network-attached Storage [NAS] architecture
    • G06F16/183Provision of network file services by network file servers, e.g. by using NFS, CIFS
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0608Saving storage space on storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0646Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
    • G06F3/0647Migration mechanisms
    • G06F3/0649Lifecycle management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0683Plurality of storage devices
    • G06F3/0685Hybrid storage combining heterogeneous device types, e.g. hierarchical storage, hybrid arrays
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2094Redundant storage or storage space

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ファイルシステムにアクセスするアプリケーションに影響されず簡易にファイル仮想化機能を提供する。【解決手段】CPFノード110は、アプリケーションプログラム411およびIO Hookプログラム412をコンテナ化してクライアント600に提供し、クライアント600からのファイルの操作要求に基づきアプリケーションプログラム411はIO Hookプログラム412が提供する仮想ファイルシステムに対し呼び出し処理を行い、IO Hookプログラム412は、操作要求にかかる仮想ファイルシステムへの入力情報または操作内容に基づいて、ファイルの状態管理情報の更新処理を行い、ファイル仮想化プログラム415は、状態管理情報に基づいてCPF100とCASとの間でファイルの管理処理を行うと共に、当該呼び出し処理を分散ファイルシステムプログラム413に出力する。【選択図】図4

Description

本発明は、ファイルストレージシステムに関する。
デジタルデータ、特にファイルデータのデータ量は急速に増大している。データファイル含めてデジタルデータは、例えば、各種の法令要求に対応する為に、多様な目的の為に長期間に亘って保存する必要がある。
このような要請に対し、データセンターにCAS(Content Addressed Storage)デバイスを配置し、各拠点(例えば、会社の各事業部)にNAS(Network Attached Storage)デバイスを配置し、CASデバイスとNASデバイスをWAN(Wide Area Network)等の通信ネットワークで接続し、CASデバイス上でデータの集中管理を行うシステムが従来より知られている。一般的に、現用データはそれが使われている限りNASデバイスに保存され、続いて、アーカイブ目的でCASデバイスに移行される。
ファイルデータストレージを管理するストレージシステムは、ファイルを操作するクライアントに対してファイルシステムを提供し、また、NASデバイスに格納されたファイルを適宜CASデバイスにバックアップする。ストレージシステムが提供するバックアップ機能には、NASデバイスに生成/更新されたファイルを検知して非同期にCASデバイスにマイグレーションする機能、クライアントからアクセスされていないファイルをNASデバイスから削除するスタブ化機能、及び、クライアントから再参照されたときにCASデバイスからファイルを取得するリストア機能がある。以下、本明細書において、ストレージシステムが提供するマイグレーション機能、スタブ化機能及びリストア機能をファイル仮想化機能と総称する。
本技術分野の背景技術として、特開2021-157381号(特許文献1)がある。この公報には、NASにおいてアプリケーションからのファイルの操作要求に基づいてローカルファイルシステムの呼び出し処理を行ってローカルファイルシステムにファイルの操作要求を処理させ、IO Hookプログラムが操作要求にかかるローカルファイルシステムへの入力情報または操作内容に基づいて、ファイルの状態管理情報の更新処理を行い、ファイル仮想化プログラムが、状態管理情報に基づいてNASとCASとの間でファイルの管理処理を行う技術が開示されている。
特開2021-157381号公報
特許文献1に記載の技術では、ローカルファイルシステムにアクセスするためのプログラム(特許文献1におけるネットワークストレージプログラム)に対しIO Hookプログラムをライブラリとしてリンクするための作り込みを必要とする。
また近年、ソフトウェア(例えば、OS)の層を追加することによって、ハードウェア(例えば、CPUおよび周辺機器)を仮想化して、ユーザからのハードウェアとのインターフェース方法の詳細を「隠す」技術である仮想化技術が広く用いられており、これによりユーザは、特定のOSや特定のベンダーやハードウェアの特定の構成など、基盤となるインフラストラクチャに強く依存することなく、いくつかの機能を実行するためのコードを書くことができ、また当該機能に基づくサービスを受けることができる。
仮想化技術の一手段であるコンテナ環境では、ローカルファイルシステムにアクセスするプログラムは任意のアプリケーションとなり、ファイル仮想化機能もこれに対応することが要求される。コンテナ環境において特許文献1に記載の技術を適用しようとすると、任意のアプリケーションに対してその都度IO Hookプログラムをリンクする作り込みを行うか、あるいはアプリケーションの修正を行う必要が生じ、開発の工数および労力は多大となる。
本発明は上記の課題に鑑みてなされたもので、ファイルシステムにアクセスするアプリケーションに影響されず簡易にファイル仮想化機能を提供できるファイルストレージシステムを提供することにある。
上記課題を解決すべく、本発明の一つの観点に従うファイルストレージシステムは、各々が第1のファイルシステムを提供する複数のストレージノードと、第1のファイルシステムによりファイルが格納される第1のストレージシステムと、を有し、第2のストレージシステムを利用可能なファイルストレージシステムであって、各ストレージノードは、クライアントの要求に基づいてファイルの操作要求を発行するアプリケーションと、ファイルの状態が格納された状態管理情報を管理し、さらにアプリケーションに対し第1のファイルシステムに基づく仮想ファイルシステムを提供する状態情報管理部と、第1のストレージシステム及び第2のストレージシステムに格納されるファイルを管理するファイル仮想化部と、を備え、アプリケーションはファイルの操作要求に基づく仮想ファイルシステムの呼び出し処理を行い、状態情報管理部は、第1のファイルシステムに前記ファイルの操作要求を出力し、操作要求にかかる仮想ファイルシステムへの入力情報または操作内容に基づいて、ファイルの状態管理情報の更新処理を行い、分散ファイルシステムは、ファイルの操作要求を処理し、ファイル仮想化部は、状態管理情報に基づいて、第1のストレージシステムと前記第2のストレージシステムとの間で前記ファイルの管理処理を行う。
本発明によれば、ファイルシステムにアクセスするアプリケーションに影響されず簡易にファイル仮想化機能を提供できるファイルストレージシステムを実現することができる。
実施例に係るファイルストレージシステムのハードウェア構成を示す図である。 実施例に係るファイルストレージシステムのCPFの概略構成の一例を示す図である。 実施例に係るファイルストレージシステムのCPFにおけるコンテナ化の説明図である。 実施例に係るファイルストレージシステムのCPFの概略構成の他の例を示す図である。 実施例に係るファイルストレージシステムのCPFにおけるプログラムの動作のイメージを示す図である。 実施例に係るファイルストレージシステムのコンテナ管理データの一例を示す図である。 実施例に係るファイルストレージシステムのOBJSの概略構成の一例を示す図である。 実施例に係るファイルストレージシステムのIO Hookプログラムの機能を説明するための図である。 実施例に係るファイルストレージシステムが提供するファイルシステムを説明するための図である。 実施例に係るファイルストレージシステムの管理情報ファイルの一例を示す図である。 実施例に係るファイルストレージシステムの管理情報ファイルの他の例を示す図である。 実施例に係るファイルストレージシステムのログファイルの一例を示す図である。 実施例に係るファイルストレージシステムのデータベースの一例を示す図である。 実施例に係るファイルストレージシステムのファイル/ディレクトリ作成処理の一例を説明するためのフローチャートである。 実施例に係るファイルストレージシステムのファイル/ディレクトリ削除処理の一例を説明するためのフローチャートである。 実施例に係るファイルストレージシステムのリネーム処理の一例を説明するためのフローチャートである。 実施例に係るファイルストレージシステムのファイルライト処理の一例を説明するためのフローチャートである。 実施例に係るファイルストレージシステムのファイルリード処理の一例を説明するためのフローチャートである。 実施例に係るファイルストレージシステムのディレクトリリード処理の一例を説明するためのフローチャートである。 実施例に係るファイルストレージシステムのログ反映処理の一例を説明するためのフローチャートである。 実施例に係るファイルストレージシステムのファイルマイグレーション処理の一例を説明するためのフローチャートである。 実施例に係るファイルストレージシステムのディレクトリマイグレーション処理の一例を説明するためのフローチャートである。 実施例に係るファイルストレージシステムのファイルスタブ化処理の一例を説明するためのフローチャートである。 実施例に係るファイルストレージシステムのOBJS側ファイル/ディレクトリ削除処理の一例を説明するためのフローチャートである。 実施例に係るファイルストレージシステムのクローリング処理の一例を説明するためのフローチャートである。
以下、図面を参照して本発明の実施形態を説明する。以下の記載および図面は、本発明を説明するための例示であって、説明の明確化のため、適宜、省略および簡略化がなされている。本発明は、他の種々の形態でも実施する事が可能である。特に限定しない限り、各構成要素は単数でも複数でも構わない。
なお、実施例を説明する図において、同一の機能を有する箇所には同一の符号を付し、その繰り返しの説明は省略する。
図面において示す各構成要素の位置、大きさ、形状、範囲などは、発明の理解を容易にするため、実際の位置、大きさ、形状、範囲などを表していない場合がある。このため、本発明は、必ずしも、図面に開示された位置、大きさ、形状、範囲などに限定されない。
以下の説明では、「テーブル」、「リスト」、「キュー」等の表現にて各種情報を説明することがあるが、各種情報は、これら以外のデータ構造で表現されていてもよい。データ構造に依存しないことを示すために「XXテーブル」、「XXリスト」等を「XX情報」と呼ぶことがある。識別情報について説明する際に、「識別情報」、「識別子」、「名」、「ID」、「番号」等の表現を用いるが、これらについてはお互いに置換が可能である。
また、以下の説明において、各テーブルの構成は一例であり、1つのテーブルは、2以上のテーブルに分割されてもよいし、2以上のテーブルの全部又は一部が1つのテーブルであってもよい。
同一あるいは同様な機能を有する構成要素が複数ある場合には、同一の符号に異なる添字を付して説明する場合がある。ただし、これらの複数の構成要素を区別する必要がない場合には、添字を省略して説明する場合がある。
また、以下の説明では、プログラムを実行して行う処理を説明する場合があるが、プログラムは、プロセッサ(例えばCPU、GPU)によって実行されることで、定められた処理を、適宜に記憶資源(例えばメモリ)および/またはインターフェースデバイス(例えば通信ポート)等を用いながら行うため、処理の主体がプロセッサとされてもよい。同様に、プログラムを実行して行う処理の主体が、プロセッサを有するコントローラ、装置、システム、計算機、ノードであってもよい。プログラムを実行して行う処理の主体は、演算部であれば良く、特定の処理を行う専用回路(例えばFPGAやASIC)を含んでいてもよい。
また、以下の説明において、「プロセッサ(部)」は、1以上のプロセッサである。少なくとも1つのプロセッサは、典型的には、CPU(Central Processing Unit)のようなマイクロプロセッサであるが、GPU(Graphics Processing Unit)のような他種のプロセッサでもよい。少なくとも1つのプロセッサは、シングルコアでもよいしマルチコアでもよい。
また、少なくとも1つのプロセッサは、処理の一部又は全部を行うハードウェア回路(例えばFPGA(Field-Programmable Gate Array)又はASIC(Application Specific Integrated Circuit))といった広義のプロセッサでもよい。
以下の説明において、「インターフェース(部)」は、1以上のインターフェースでよい。この1以上のインターフェースは、1以上の同種の通信インターフェースデバイス(例えば1以上のNIC(Network Interface Card))であってもよいし、2以上の異種の通信インターフェースデバイス(例えばNICとHBA(Host Bus Adapter))であってもよい。
また、以下の説明において、「メモリ部」は、1以上のメモリであり、典型的には主記憶デバイスでよい。メモリ部における少なくとも1つのメモリは、揮発性メモリであってもよいし不揮発性メモリであってもよい。
プログラムは、プログラムソースから計算機のような装置にインストールされてもよい。プログラムソースは、例えば、プログラム配布サーバまたは計算機が読み取り可能な記憶メディアであってもよい。プログラムソースがプログラム配布サーバの場合、プログラム配布サーバはプロセッサと配布対象のプログラムを記憶する記憶資源を含み、プログラム配布サーバのプロセッサが配布対象のプログラムを他の計算機に配布してもよい。また、以下の説明において、2以上のプログラムが1つのプログラムとして実現されてもよいし、1つのプログラムが2以上のプログラムとして実現されてもよい。
本開示において、記憶デバイスは、1台のHDD(Hard Disk Drive)やSSD(Solid State Drive)等の1台のストレージドライブ、複数台のストレージドライブを含むRAID装置、及び複数のRAID装置を含む。また、ドライブがHDDである場合には、例えば、SAS(Serial Attached SCSI) HDDを含んでもよく、NL-SAS(ニアラインSAS) HDDを含んでもよい。
以下、図面を参照して、実施例を説明する。
図1は、実施例に係るファイルストレージシステムのハードウェア構成を示す図である。
実施例に係るファイルストレージシステム1は、サイト10-1、10-2及びクラウド20を有し、サイト10-1、10-2及びクラウド20間はWAN(Wide Area Network)であるネットワーク30により接続されている。なお、図1では2つのサイト10-1、10-2が図示されているが、本実施例においてサイトの数に特段の制限はない。
サイト10-1は、CPF(Container Platform)100、クライアント600及び管理端末700を有し、これらCPF100、クライアント600及び管理端末700はLAN(Local Area Network)により相互に接続されている。
CPF100の具体的構成については後述する。クライアント600は各種情報処理が可能なコンピュータ等の情報処理装置であり、CPF100にファイルを格納する、ファイルのリード/ライト処理を行うなど、各種のファイル操作を行う。管理端末700はCPF100の管理を行い、CPF100に異常があった際などにCPF100に対して各種操作指示等を行う。
サイト10-2も、CPF100及びクライアント600を有する。なお、図1に図示するサイト10-1、10-2のハードウェア構成は単なる例示であり、少なくともそれぞれ1台のCPF100及びクライアント600を有する構成であれば、その台数や他のハードウェア構成を有することに制限はない。
クラウド20はOBJS(Object Storage)200を有する。OBJS200は、サイト10-1、10-2のCPF100に格納されたファイルのバックアップ先として機能する。
図2Aは、実施例に係るファイルストレージシステム1のCPF100の概略構成の一例を示す図である。
CPF100はコントローラとしての1又は複数のCPFノード(ストレージノード)110と1つのストレージシステム120とを有する。
各CPFノード110は、CPFノード110及びCPF100全体の動作制御を行うプロセッサ111、プロセッサ111の動作制御に用いられるプログラム及びデータを記憶するメモリ112、クライアント600からライトされるデータやストレージシステム120からリードされたデータを一時的に格納するキャッシュ113、サイト10-1、10-2内の他のクライアント600等との間での通信を行うインターフェース(I/F)114及びストレージシステム120との間での通信を行うインターフェース(I/F)115を有する。
ストレージシステム120も、ストレージシステム120の動作制御を行うプロセッサ121、プロセッサ121の動作制御に用いられるプログラム及びデータを記憶するメモリ122、CPFノード110からライトされるデータや記憶デバイス124からリードされたデータを一時的に格納するキャッシュ123、各種のファイルが格納される記憶デバイス124及びCPFノード110との間での通信を行うインターフェース(I/F)125を有する。
メモリ112には、アプリケーションプログラム411、IO Hookプログラム412、分散ファイルシステムプログラム413、データベースプログラム414及びファイル仮想化プログラム415、コンテナ管理データ416が格納されている。
また図示は省略しているが、各CPFノード110ではコンテナ基盤が作動し、各プログラムをコンテナ化してクライアント600へ提供する。
アプリケーションプログラム411は、例えば、Excel(登録商標)やWord(登録商標)といったファイルを入出力するあらゆるソフトウェアを含む。アプリケーションプログラム411は、クライアント600からのリクエストに応じて分散ファイルシステム510に対してファイル操作を行う。
IO Hookプログラム412は、後述する本実施例の特徴であるIO Hook処理を行うプログラムであり、アプリケーションプログラム411が発行するシステムコールが呼び出されたら、ファイルへのIO処理に関する情報を抽出し、ファイル仮想化管理情報の更新処理を行う。さらに、IO Hookプログラム412はログファイル3100を記録する。またIO Hookプログラム412は、アプリケーションプログラム411に対して仮想のファイルシステムを提供する。IO Hookプログラム412の動作の詳細については後述する。
分散ファイルシステムプログラム413は、クライアント600等に対して分散ファイルシステムを提供する。また分散ファイルシステムプログラム413は、アプリケーションプログラム411からのシステムコールに基づき分散ファイルシステム510に対するファイル操作を実行する。
データベースプログラム414はデータベース3200を管理する。
ファイル仮想化プログラム415は、ログファイル3100を監視して記憶デバイス124内のファイルのマイグレーションまたはスタブ化またはリストアを行う。
コンテナ管理データ416は、各CPFノード110に格納されるプログラムのリストと、当該プログラムが実行されるCPFノード110との対応関係が登録されており、各CPFノード間110で共有される。各CPFノード110はコンテナ管理データに基づき自己で実行されるプログラムのコンテナ化および実行と、CPFノード110間でのプログラムの連携を管理する。
図2Eは、実施例に係るファイルストレージシステムのコンテナ管理データ416の一例を示す図である。コンテナ管理データ416は、プログラム4161と動作ノード4162とを有し、プログラム4161は各CPFノード110に格納されるプログラムの名称が格納され、動作ノード4162は当該プログラムが実行されるCPFノード110の名称が格納される。プログラム4161と動作ノード4162には、識別子等の各プログラムや各CPFノードを識別可能な他の情報を格納するようにしてもよい。
管理者は、管理端末700によっていずれかのCPFノード110にアクセスし、
メモリ112に格納された各種プログラムから稼働させるプログラムと実行させるCPFノード110を選択してコンテナ管理データ416へ設定登録することができる。またプログラム4161と動作ノード4162が設定登録されたコンテナ管理データ416は他のCPFノード110と共有される。コンテナ管理データ416はデータベースプログラム414によって共有するようにしてもよい。
記憶デバイス124には、データベース3200、ユーザファイル1200、ディレクトリ2200、管理情報ファイル1100、2100及びログファイル3100が格納されており、これらファイルは分散ファイルシステムプログラム413が構築する分散ファイルシステム510により管理されている。
図2Bは、実施例に係るファイルストレージシステムのCPF100におけるプログラムのコンテナ化の説明図である。以下、図2Aで示した構成例に基づき実施例のCPFにおけるプログラムのコンテナ化について説明する。
上述したコンテナ基盤は、稼働させるプログラム411~415についてコンテナ化に要するメモリ112の領域をリソースとして割り当てた上でそれぞれコンテナ化し、クライアント600にコンテナ201~205を提供する。
コンテナはコンピュータやオペレーティングシステム(OS)の領域での仮想化技術の一手段であり、OSのカーネル上で、直接ユーザ空間で実行できるプログラムやアプリケーションを仮想化する。コンテナ化されたプログラムやアプリケーションは、OSの通常のシステムコールを使用して機能することができ、コンテナは仮想化されたゲストOSを必要としない。すなわちクライアント600は自身のOSによらずまた特殊なエミュレーションソフトウェア等を用いることなくCPFのプログラムやアプリケーションを使用することができる。
図2Cは、実施例に係るファイルストレージシステムのCPFの概略構成の他の例を示す図である。
この例では、CPF100には物理サーバであるCPFサーバ101が設けられ、CPFサーバ101には仮想マシン(Virtual Machine)としての複数のCPF仮想ノード110´が作動する。複数のCPF仮想ノード110´は、CPFサーバ101におけるプロセッサ111、キャッシュ113およびインターフェース(I/F)114、115等のハード資源を共有しつつ、仮想ノード毎にメモリ112の使用領域を分割して割り当てた上でメモリ112の各種プログラムを格納し実行することで実現される。
CPF仮想ノードの構成・動作については、図2Aの実施例に係るCPFノード110と同一のため説明は省略する。尚、CPFサーバ101は、ファイル操作の処理数や負荷に応じて複数設けるようにしてもよい。
図2Dは、実施例に係るファイルストレージシステムのCPF100におけるプログラムの動作のイメージを示す図である。図2Dは3つのCPFノード110-1、110-2、110-3およびストレージシステム120で実行されるプログラムを示している。既に述べたように、各CPFノード110で実行されるプログラムは、管理端末700によって各ノードのメモリ112に格納された各種プログラムから選択され、コンテナ管理データ416に設定登録される。
図2Dにおいて、CPFノード110-1ではアプリケーションプログラム411、IO Hookプログラム412および分散ファイルシステムプログラム413が実行され、CPFノード110-2ではファイル仮想化プログラム415および分散ファイルシステムプログラム413が実行され、CPFノード110-3では分散ファイルシステムプログラム413が実行される。またストレージシステム120では分散ファイルシステム510が実行される。
本実施例において、(1)アプリケーションプログラム411とIO Hookプログラム412は組となって同一のCPFノード110で実行される。
既に述べたように、IO Hookプログラム412はアプリケーションプログラム411に対して仮想のファイルシステムを提供しつつ、アプリケーションプログラム411が発行するシステムコールからファイルへのIO処理に関する情報を抽出するため、アプリケーションプログラム411が実行されるCPFノード110で共に実行されることが好適である。
条件(1)に関連し、管理端末700は実行プログラムをコンテナ管理データ416に設定登録する際に、アプリケーションプログラム411が登録されたCPFノード110に対し自動的にIO Hookプログラム412を設定登録するようにしてもよい。
また本実施例において(2)IO Hookプログラム412とファイル仮想化プログラム415は異なるCPFノード110で実行される。
動作の詳細については後述するが、ファイル仮想化プログラム415は記憶デバイス124内のファイルのマイグレーションまたはスタブ化またはリストアにあたり、CPF100に格納されたファイルのバックアップ先のOBJS200とネットワーク30を介したデータ通信を伴う分プロセッサの負荷が大きい。一方でIO Hookプログラム412は、アプリケーションプログラム411に仮想のファイルシステムを提供しつつ、アプリケーションプログラム411が発行するファイル操作要求に伴うシステムコールを監視しており、プログラムの実行頻度が多くなりがちな分こちらもプロセッサの負荷が大きい。
IO Hookプログラム412とファイル仮想化プログラム415が同一のノードで実行されると、IO Hookプログラム412の実行頻度が多大となるにつれ、ファイル仮想化プログラム415の実行に対するプロセッサの負荷も多大となり、上記マイグレーションまたはスタブ化またはリストアの各処理の遅延やこれに伴う更新データとの間の齟齬等が発生し、ファイルデータの信頼性に影響を及ぼすおそれがある。
条件(2)に関連し、管理端末700は実行プログラムをコンテナ管理データ416に設定登録する際に、IO Hookプログラム412が登録されたCPFノード110に対しファイル仮想化プログラム415が選択できないようにしてもよい。
また各CPFノード110では分散ファイルシステムプログラム413が実行されるが、このうち1つをマスタとし、他がスレイブとして動作するようにしてもよい。例えばCPFノード110-3の分散ファイルシステムプログラム413をマスタとすると、他のCPFノード110-1、110-2の分散ファイルシステムプログラム413から、それぞれが受領した分散ファイルシステム510に対するファイル操作のシステムコールが転送され、マスタの分散ファイルシステムプログラム413がファイル操作を実行する。このようにマスタの分散ファイルシステムプログラムにファイル操作を一局集中して行わせることで、各CPFノード110の負荷を分散させ他のプログラムの実行にリソースを集中させることができる。
尚、図2DはCPFノード110が3つの場合について示しているが、CPFノード110の数はこれに限らない。また上記 (1)(2)の条件を満たす限り、各CPFノード110と作動するプログラムの組み合わせは図2Dの例に限られるものではない。
図3は、実施例に係るファイルストレージシステム1のOBJS200の概略構成の一例を示す図である。
OBJS200はコントローラとしてのヘッド210とストレージシステム220とを有する。
ヘッド210は、ヘッド210及びOBJS200全体の動作制御を行うプロセッサ211、プロセッサ211の動作制御に用いられるプログラム及びデータを記憶するメモリ212、CPF100からライトされるデータやストレージシステム220からリードされたデータを一時的に格納するキャッシュ213、サイト10-1、10-2との間での通信を行うインターフェース(I/F)214及びストレージシステム220との間での通信を行うインターフェース(I/F)215を有する。
ストレージシステム220も、ストレージシステム220の動作制御を行うプロセッサ221、プロセッサ221の動作制御に用いられるプログラム及びデータを記憶するメモリ222、ヘッド210からライトされるデータや記憶デバイス224からリードされたデータを一時的に格納するキャッシュ223、各種のファイルが格納される記憶デバイス224及びヘッド210との間での通信を行うインターフェース(I/F)225を有する。
メモリ212には、ネットワークストレージプログラム421、ローカルファイルシステムプログラム422及びファイル仮想化プログラム423が格納されている。
ネットワークストレージプログラム421は、CPF100からの各種要求を受領し、この要求に含まれるプロトコルを処理する。
ローカルファイルシステムプログラム422は、CPF100に対してファイルシステムを提供する。尚、使用するファイルシステムプログラムはローカルファイルシステムプログラム422に限らず、分散ファイルシステムを使用しても構わない。
ファイル仮想化プログラム423は、CPFノード110のファイル仮想化プログラム415と協同して、CPF100の記憶デバイス124内のファイルのマイグレーションまたはスタブ化またはリストアを行う。
記憶デバイス224には、ユーザファイル1200及びディレクトリ2200が格納されており、これらファイルはローカルファイルシステムプログラム422が構築するローカルファイルシステム520により管理されている。
図4は、実施例に係るファイルストレージシステム1のIO Hookプログラム412の機能を説明するための図である。尚、図4では説明簡略化のためアプリケーションプログラム411、IO Hookプログラム412および分散ファイルシステムプログラム413は一つのCPFノード110で動作するものとして説明する。
クライアント600は、クライアントプログラム601を有する。クライアントプログラム601は、クライアント600のリクエストに応じて、CPF100のアプリケーションプログラム411と通信するためのソフトウェアであり、CPF100のプロトコルでCPFノード110に対してアプリケーションの操作を介してファイル操作のリクエストをする。クライアントプログラム601は、例えばリモートアクセスアプリケーションやWWW(World Wide Web)ブラウザソフト(CPF100のプロトコルがインターネットの場合)である。
CPFノード110においてアプリケーションプログラム411は、このリクエストに応じてIO Hookプログラム412が提供する仮想ファイルシステムに対してファイル操作を行う。後述するように仮想ファイルシステムは分散ファイルシステムプログラム413が提供する分散ファイルシステム510を疑似したものであり、このような制御によりIO Hookプログラム412はアプリケーションプログラム411から分散ファイルシステム510を想定したファイル操作のシステムコールの発行を受けることで当該システムコールを認識できる。
また既に述べたように本実施例ではアプリケーションプログラム411およびIO Hookプログラム412はそれぞれコンテナ基盤にてコンテナ化されてクライアント600に提供され、これらは互いの動作環境や仕様に影響せず独立して作動する。
IO Hookプログラム412が提供する仮想ファイルシステムに対しアプリケーションプログラム411がシステムコールを発行すると、IO Hookプログラム412は仮想ファイルシステムへのファイル操作のAPIからファイルへのIO処理に関する情報を抽出し、ファイル仮想化管理情報の更新処理を行い、また、ログを出力する。尚、IO処理に関する情報の抽出対象はシステムコールに限らず、例えば分散ファイルシステム510が提供する固有のAPIとしても構わない。
IO処理に関する情報を抽出した上で、IO Hookプログラム412は、アプリケーションプログラム411が発行した仮想ファイルシステムへのファイル操作のAPIを分散ファイルシステム510へ出力し、これにより分散ファイルシステム510に対し所望のファイル操作が行われる。
図5は、実施例に係るファイルストレージシステム1が提供するファイルシステムを説明するための図である。
既に説明したように、CPF100(のストレージシステム120)には分散ファイルシステム510が構築されており、この分散ファイルシステム510は、一例として、ルートディレクトリ2200-0、ディレクトリ2200-1を有する。各々のディレクトリ2200-0、2200-1は管理情報ファイル2100-1、2100-2を有する。ディレクトリ2200-1には、一例としてファイル1200-1、1200-2が格納されている。また、ディレクトリ2200-1には、これらファイル1200-1、1200-2の管理情報ファイル1100-1、1100-2が格納されている。
IO Hookプログラム412がアプリケーションプログラム411に提供する仮想ファイルシステムも、上述した分散ファイルシステム510と同様の構成である。仮想ファイルシステムには、分散ファイルシステム510に加えて、スタブ化されたファイル、すなわちOBJS200にバックアップされ分散ファイルシステム510から削除されたファイルを併せて提供するようにしてもよい。
コンテナ基盤がアプリケーションプログラム411の起動時にアプリケーションプログラム411に仮想ファイルシステムをマウントすることで、クライアント600はアプリケーションプログラム411を介して各種ファイル操作を行うことができる。但し管理情報ファイルについては、IO Hookプログラム412が情報をフィルタするため、仮想ファイルシステム上には登場せず、操作もできない。
OBJS200にもローカルファイルシステム520が構築されている。ローカルファイルシステム520は階層構造を持たず、ルートディレクトリの下に全てのディレクトリ2300-0、2300-1及びファイル1200-1、1200-2が配置されている。OBJS200においては、それぞれのディレクトリ2300-0、2300-1、ファイル1200-1、1200-2はUUID(Universally Unique Identifier)により一意に特定される。
図6は、実施例1に係るファイルストレージシステム1の管理情報ファイル2100の一例を示す図である。
管理情報ファイル2100は、ユーザディレクトリ管理情報2110を有する。ユーザディレクトリ管理情報2110は、UUID毎にエントリを有する。各エントリは、ユーザディレクトリ2200に付与されたUUID2111、ユーザディレクトリ2200のディレクトリ状態2112、ユーザディレクトリ2200の本体ハンドラ2113、マイグレーション有無2114である。
ディレクトリ状態2112は、前回のバックアップからこのユーザディレクトリ2200が更新されたか否かを示す値であり、Dirtyとはファイルが更新されたことを示す値である。本体ハンドラ2113はユーザディレクトリ2200を一意に特定する値であり、システムコールで操作対象としてユーザディレクトリ2200を指定するために使用できる値である。本体ハンドラ2113には、ユーザディレクトリ2200の生成から削除までの間に変更がない値を用いる。マイグレーション有無2114は、このユーザディレクトリ2200が一度でもバックアップされたことがあるか否かを示す値である。
ユーザディレクトリ2200はファイル/ディレクトリ名2201及びInode番号(#)2202を有する。図6に示す例は図5におけるディレクトリ(dir1)2200-1であり、このディレクトリ2200-1には2つのファイル(File1、File2)が格納されている。Inode番号2202は、それぞれのファイル(File1、File2)に一意に付与されたInode番号である。
OBJS用ディレクトリ2300はファイル/ディレクトリ名2301及びInode番号(#)2302を有する。ファイル/ディレクトリ名2301はユーザディレクトリ2200のファイル/ディレクトリ名2201と同一であるが、Inode番号2302については、CPF100からOBJS200へのマイグレーションの際にUUIDに書き換えられる。これは、Inode番号はCPF100内においてのみ一意に定められるものであり、マイグレーションの際にはOBJS200内において一意に定められるUUIDを振る必要があるからである。
図7は、実施例に係るファイルストレージシステム1の管理情報ファイル1100の他の例を示す図である。
管理情報ファイル1100は、ユーザファイル管理情報1110及び部分管理情報1120を有する。
ユーザファイル管理情報1110は、UUID毎にエントリを有する。各エントリは、ユーザファイル1200に付与されたUUID1111、ユーザファイル1200のファイル状態1112、ユーザファイル1200の本体ハンドラ1113、マイグレーション有無2114である。
部分管理情報1120はユーザファイル1200毎に作成される。部分管理情報1120は、オフセット1121、長さ1122及び部分状態1123を有する。オフセット1121は、ユーザファイル1200が部分的に更新処理されたときのその更新処理の開始位置を示し、長さ1122はオフセット1121の位置からどれだけのデータ長だけ更新処理がされたかを示し、部分状態1123はどのような更新処理がされたかを示す。ここに、Dirty1201は前回のバックアップ処理後に更新されたことを示し、Stub2203はバックアップ処理後にローカル(つまりCPF100)から消去されたことを示し、Cached2202はローカルにもデータがあり、バックアップもあることを示す。
図8は、実施例に係るファイルストレージシステム1のログファイル3100の一例を示す図である。
ログファイル3100は、API名3101、引数3102、返り値3103、タイプ3104、Inode番号3105、管理情報ファイルハンドラ3106、親Inode番号3107、実行状態3108及びタイムスタンプ3109を有する。ログファイル3100の各行は、アプリケーションプログラム411からIO Hookプログラム412の提供する仮想ファイルシステムへのシステムコールがある毎に作成される。
API名3101はシステムコールの種類を示し、おおよそwrite、read、open、closeの値が格納される。引数3102はシステムコールの引数であり、おおよそファイルディスクリプタ、ファイル操作開始位置及びデータサイズを有する。返り値3103はシステムコールの結果として分散ファイルシステム510から返ってくる値であり、N.A.はシステムコール実行中のためまだ返り値がないことを示し、0は正常に実行されたことを示す。これ以外にも分散ファイルシステム510により定められた値が格納される。タイプ3104はシステムコールの対象となるものがファイルであるのかディレクトリであるのかを示す値である。Inode番号はシステムコールの対象となるファイル等のInode番号である。管理情報ファイルハンドラ3106はシステムコールの対象となるファイル等を一意に特定する値であり、システムコールでのファイルやディレクトリ操作での操作対象指定に使用できる値である。管理情報ファイルハンドラ3106は、ファイルやディレクトリの生成から削除まで変更がない。親Inode番号3107は、システムコールの対象となるファイル等の上位(親)のディレクトリのInode番号である。これは、システムコールによりファイルやディレクトリが移動または削除された場合、バックアップ処理の対象として親ディレクトリを特定する必要があるからである。実行状態3108はシステムコールの実行状態を示す値が格納される。タイムスタンプ3109はシステムコールが呼び出された時刻である。
図9は、実施例に係るファイルストレージシステム1のデータベース3200の一例を示す図である。
データベース3200はInode番号3201、タイプ3202、管理情報ファイルハンドラ3203、Dirty部有無3204、非Stub部有無3205及び削除フラグ3206を有する。データベース3200の各行は、分散ファイルシステム510内のディレクトリ及びファイル毎に作成される。
Inode番号3201はディレクトリまたはファイルのInode番号である。タイプ3202はInode番号3201で特定されるものがファイルであるのかディレクトリであるのかを示す値である。管理情報ファイルハンドラ3203は対象となるファイル等を一意に特定する値である。Dirty部有無3204は、ディレクトリに格納されたファイルまたはファイルそのものの一部にでもDirty部があるか否かを示す値が格納される。非Stub部有無3205は、前回のバックアップ処理後にデータが一部でも書き換えられている部分があるか否かを示す値が格納される。削除フラグ3206はディレクトリに格納されたファイルまたはファイルそのものが削除されているか否かを示す値が格納される。
次に、図10~図21のフローチャートを参照して、本実施例のファイルストレージシステム1の動作について説明する。
図10は、実施例に係るファイルストレージシステム1のファイル/ディレクトリ作成処理の一例を説明するためのフローチャートである。
ファイル/ディレクトリ作成処理が開始すると(ステップS100)、まず、IO Hookプログラム412はログファイル3100に作成処理の開始を追記する(ステップS101)。
次いで、IO Hookプログラム412は、アプリケーションプログラム411からのシステムコールに基づいてユーザファイル1200/ディレクトリ2200の作成処理を実施する(ステップS102)。次いで、IO Hookプログラム412は管理情報ファイル1100、2100を作成する(ステップS103)。次いで、IO Hookプログラム412は、作成対象のファイル/ディレクトリの親ディレクトリの管理情報ファイル2100のディレクトリ状態2112をDirtyに更新する(ステップS104)。
そして、IO Hookプログラム412はログファイル3100に作成処理の完了を追記し(ステップS105)、作成処理の完了をアプリケーションプログラム411に応答する(ステップS106)。
図11は、実施例に係るファイルストレージシステム1のファイル/ディレクトリ削除処理の一例を説明するためのフローチャートである。
ファイル/ディレクトリ削除処理が開始すると(ステップS200)、まず、IO Hookプログラム412はログファイル3100に削除処理の開始を追記する(ステップS201)。
次いで、IO Hookプログラム412は、削除対象のファイル/ディレクトリにマイグレーションが有るか否かを判定する(ステップS202)。マイグレーションの有無は、管理情報ファイル1100、2100のマイグレーションの有無1114、2114で確認することができる。そして、判定が肯定されたら(ステップS202においてYES)、プログラムはステップS203に移行し、判定が否定されたら(ステップS202においてNO)、プログラムはステップS206に移行する。
ステップS203において、IO Hookプログラム412は管理情報ファイル1100、2100とユーザファイル1200をゴミ箱ディレクトリに移動し、次いで、IO Hookプログラム412はユーザファイル1200の中身を空にする(ステップS204)。そして、IO Hookプログラム412は、対応する管理情報ファイル1100、2100のファイル状態1112/ディレクトリ状態2112をDeletedに更新し、部分管理情報1120を消去する(ステップS205)。
一方、ステップS206において、IO Hookプログラム412は管理情報ファイル1100、2100を消去し、次いで、ユーザファイル1200/ユーザディレクトリ2200の削除処理を実行する(ステップS207)。
次いで、IO Hookプログラム412は、作成対象のファイル/ディレクトリの親ディレクトリの管理情報ファイル2100のディレクトリ状態2112をDirtyに更新する(ステップS208)。そして、IO Hookプログラム412はログファイル3100に削除処理の完了を追記し(ステップS209)、削除処理の完了をアプリケーションプログラム411に応答する(ステップS210)。
図12は、実施例に係るファイルストレージシステム1のリネーム処理の一例を説明するためのフローチャートである。
リネーム処理が開始すると(ステップS300)、まず、IO Hookプログラム412はログファイル3100にリネーム処理の開始を追記する(ステップS301)。
次に、IO Hookプログラム412は通常のリネーム処理を実施する(ステップS302)。次いで、IO Hookプログラム412は、リネーム対象の移動先ディレクトリに対応する管理情報ファイル2100のディレクトリ状態2112をDirtyに更新し(ステップS303)、さらに、IO Hookプログラム412は、リネーム対象の移動元ディレクトリに対応する管理情報ファイル2100のディレクトリ状態2112をDirtyに更新する(ステップS304)。
そして、IO Hookプログラム412はログファイル3100にリネーム処理の完了を追記し(ステップS305)、リネーム処理の完了をアプリケーションプログラム411に応答する(ステップS306)。
図13は、実施例に係るファイルストレージシステム1のファイルライト処理の一例を説明するためのフローチャートである。
ファイルライト処理が開始すると(ステップS400)、まず、IO Hookプログラム412はログファイル3100にライト処理の開始を追記する(ステップS401)。
次に、IO Hookプログラム412はユーザファイル1200に通常のライト処理を実施する(ステップS402)。次いで、IO Hookプログラム412は、対応する管理情報ファイル1100のファイル状態1112をDirtyに更新する(ステップS403)。
そして、IO Hookプログラム412はログファイル3100にライト処理の完了を追記し(ステップS404)、ライト処理の完了をアプリケーションプログラム411に応答する(ステップS405)。
図14は、実施例に係るファイルストレージシステム1のファイルリード処理の一例を説明するためのフローチャートである。
ファイルリード処理が開始すると(ステップS500)、まず、IO Hookプログラム412は対応する管理情報ファイル1100を取得する(ステップS501)。
次いで、IO Hookプログラム412は、リード対象箇所がスタブ化された部分を含むかどうかを判定する(ステップS502)。そして、判定が肯定されたら(ステップS502においてYES)、プログラムはステップS503に移行し、判定が否定されたら(ステップS502においてNO)、プログラムはステップS506に移行する。
ステップS503では、IO Hookプログラム412が、リード対象箇所内のスタブ化された部分のデータをOBJS200に要求する。OBJS200のファイル仮想化プログラム423は、IO Hookプログラム412からの要求に基づいて当該データをCPF100に転送する(ステップS504)。
次いで、IO Hookプログラム412は、管理情報ファイル1100内のリコール部、すなわちOBJS200から転送されたデータの部分状態1123をCachedに更新する(ステップS505)。
そして、IO Hookプログラム412はユーザファイル1200に通常のリード処理を実施し(ステップS506)、リード処理の完了をアプリケーションプログラム411に応答する(ステップS507)。
図15は、実施例に係るファイルストレージシステム1のディレクトリリード処理の一例を説明するためのフローチャートである。
ディレクトリリード処理が開始すると(ステップS600)、まず、IO Hookプログラム412は対応する管理情報ファイル2100を取得する(ステップS601)。
次いで、IO Hookプログラム412は、リード対象にディレクトリがスタブ化された状態かどうかを判定する(ステップS602)。そして、判定が肯定されたら(ステップS602においてYES)、プログラムはステップS603に移行し、判定が否定されたら(ステップS602においてNO)、プログラムはステップS607に移行する。
ステップS603では、IO Hookプログラム412が、リード対象のOBJS用ディレクトリ2300の取得要求をOBJS200に転送する。OBJS200のファイル仮想化プログラム423は、IO Hookプログラム412からの要求に基づいて当該データをCPF100に転送する(ステップS604)。
次に、IO Hookプログラム412は、OBJS200より取得したデータでユーザディレクトリ2200を更新し(ステップS605)、管理情報ファイル2100のディレクトリ状態2112をCachedに更新する(ステップS606)。
そして、IO Hookプログラム412はユーザディレクトリ2200に通常のリード処理を実施し(ステップS607)、クライアント600から管理情報ファイル2100が見えないようにリード結果から管理情報ファイル2100の情報を消去し(ステップS608)、リード処理の完了をアプリケーションプログラム411に応答する(ステップS609)。
図16は、実施例に係るファイルストレージシステム1のログ反映処理の一例を説明するためのフローチャートである。
ログ反映処理が開始すると(ステップS1301)、ファイル仮想化プログラム415はログファイル3100の実行状態3108を参照して、ログファイル3100から完了した操作のリストを取得する(ステップS1302)。
次いで、ファイル仮想化プログラム415は、ステップS1302で取得したリストが空であるかどうかを判定する(ステップS1303)。その結果、判定が肯定されたら(ステップS1303においてYES)プログラムはステップS1314に移行し、判定が否定されたら(ステップS1303においてNO)プログラムはステップS1304に移行する。
ステップS1304では、ファイル仮想化プログラム415が、ステップS1302で取得したリストからエントリを1つ取得する。次いで、ファイル仮想化プログラム415は、ステップS1304で取得したエントリがライト処理であるか否かを判定する(ステップS1305)。そして、判定が肯定されたら(ステップS1305においてYES)プログラムはステップS1306に移行し、判定が否定されたら(ステップS1305においてNO)プログラムはステップS1307に移行する。
ステップS1306では、ファイル仮想化プログラム415が、データベース3200の操作対象のエントリのDirty部有無3204及び非Stub部有無3205をそれぞれありにする。
ステップS1307では、ファイル仮想化プログラム415が、ステップS1304で取得したエントリが作成処理であるか否かを判定する。そして、判定が肯定されたら(ステップS1307においてYES)プログラムはステップS1308に移行し、判定が否定されたら(ステップS1307においてNO)プログラムはステップS1310に移行する。
ステップS1308では、ファイル仮想化プログラム415が、データベース3200の操作対象のエントリを作成し、作成したエントリのDirty部有無3204及び非Stub部有無3205をそれぞれありにし、削除フラグ3206の値をFalseにする。さらに、ファイル仮想化プログラム415は、データベース3200の操作対象の親ディレクトリのエントリのDirty部有無3204及び非Stub部有無3205をそれぞれありにする(ステップS1309)。
ステップS1310では、ファイル仮想化プログラム415が、ステップS1304で取得したエントリが削除処理であるか否かを判定する。そして、判定が肯定されたら(ステップS1310においてYES)プログラムはステップS1311に移行し、判定が否定されたら(ステップS1310においてNO)プログラムはステップS1312に移行する。
ステップS1311では、ファイル仮想化プログラム415が、データベース3200の操作対象のエントリのDirty部有無3204及び非Stub部有無3205をそれぞれなしにして、さらに、削除フラグ3206をTrueにする。
ステップS1312では、ファイル仮想化プログラム415が、ステップS1304で取得したエントリがリネーム処理であるか否かを判定する。そして、判定が肯定されたら(ステップS1312においてYES)プログラムはステップS1309に移行し、判定が否定されたら(ステップS1312においてNO)プログラムはステップS1313に移行する。
ステップS1313では、ファイル仮想化プログラム415が、ステップS1302で取得したリストからエントリを削除する。
一方、ステップS1314では、ファイル仮想化プログラム415が処理を完了したログを削除する。
図17では、実施例に係るファイルストレージシステムのファイルマイグレーション処理の一例を説明するためのフローチャートである。
ファイルマイグレーション処理が開始すると(ステップS700)、ファイル仮想化プログラム415は、データベース3200から、Dirty部有無3204がありでタイプ3202がファイルのエントリをリストとして取得する(ステップS701)。
次いで、ファイル仮想化プログラム415は、ステップS701で取得したファイルリストが空であるかどうかを判定する(ステップS702)。その結果、判定が肯定されたら(ステップS702においてYES)プログラムはステップS712に移行し、判定が否定されたら(ステップS702においてNO)プログラムはステップS703に移行する。
ステップS703では、ファイル仮想化プログラム415が、ステップS701で取得したリストからエントリを1つ取得する。次いで、ファイル仮想化プログラム415は、ステップS703で取得したエントリが示す管理情報ファイル1100を取得する(ステップS704)。次いで、ファイル仮想化プログラム415は、ステップS704で取得した管理情報ファイル1100の部分管理情報1120から、Dirtyのエントリを転送部分リストとして取得し(ステップS705)、取得した転送部分リストの該当箇所をユーザファイル1200から取得する(ステップS706)。
次に、ファイル仮想化プログラム415は、管理情報ファイル1100中のUUID1111への更新要求とともに、ステップS705で取得した転送部分リストとステップS706で取得したユーザファイル1200からデータとをOBJS200に転送する(ステップS707)。
OBJS200のファイル仮想化プログラム423は、UUIDで特定されるOBJS200内のユーザファイル1200から、ステップS707で受領した転送部分リストの示す箇所を更新し(ステップS708)、CPF100に更新の完了を返す(ステップS709)。
そして、ファイル仮想化プログラム415は、管理情報ファイル1100のファイル状態1112と転送部分リストの該当箇所の部分状態1123をCachedにし(ステップS710)、ステップS701で取得したファイルリストからエントリを削除する(ステップS711)。
一方、ステップS712において、ファイル仮想化プログラム415は、データベース3200から操作を完了したエントリのDirty部有無3204をなしにする。
図18は、実施例に係るファイルストレージシステム1のディレクトリマイグレーション処理の一例を説明するためのフローチャートである。
ディレクトリマイグレーション処理が開始すると(ステップS800)、ファイル仮想化プログラム415は、データベース3200から、Dirty部有無3204がありでタイプ3202がディレクトリのエントリをリストとして取得する(ステップS801)。
次いで、ファイル仮想化プログラム415は、ステップS801で取得したファイルリストが空であるかどうかを判定する(ステップS802)。その結果、判定が肯定されたら(ステップS802においてYES)プログラムはステップS812に移行し、判定が否定されたら(ステップS802においてNO)プログラムはステップS803に移行する。
ステップS803では、ファイル仮想化プログラム415が、ステップS801で取得したリストからエントリを1つ取得する。次いで、ファイル仮想化プログラム415は、ステップS803で取得したエントリが示す管理情報ファイル2100を取得する(ステップS804)。次いで、ファイル仮想化プログラム415は、ステップS804で取得した管理情報ファイル2100の示すユーザディレクトリ2200を取得し(ステップS805)、取得したユーザディレクトリ2200に基づいてOBJS用ディレクトリ2300の情報を生成する(ステップS806)。
次に、ファイル仮想化プログラム415は、管理情報ファイル2100中のUUID2111への更新要求とともに、ステップS806で生成したOBJS用ディレクトリ2300の情報をOBJS200に転送する(ステップS807)。
OBJS200のファイル仮想化プログラム423は、UUIDで特定されるOBJS200内のOBJS用ディレクトリ2300を更新し(ステップS808)、CPF100に更新の完了を返す(ステップS809)。
そして、ファイル仮想化プログラム415は、管理情報ファイル2100のディレクトリ状態2112をCachedにし(ステップS810)、ステップS801で取得したファイルリストからエントリを削除する(ステップS811)。
一方、ステップS812において、ファイル仮想化プログラム415は、データベース3200から操作を完了したエントリのDirty部有無3204をなしにする。
図19は、実施例に係るファイルストレージシステム1のファイルスタブ化処理の一例を説明するためのフローチャートである。
ファイルスタブ化処理が開始すると(ステップS900)、ファイル仮想化プログラム415は、データベース3200から、Dirty部有無3204がなしでタイプ3202がファイルのエントリをリストとして取得する(ステップS901)。
次いで、ファイル仮想化プログラム415は、ステップS901で取得したファイルリストが空であるかどうかを判定する(ステップS902)。その結果、判定が肯定されたら(ステップS902においてYES)プログラムはステップS908に移行し、判定が否定されたら(ステップS902においてNO)プログラムはステップS903に移行する。
ステップS703では、ファイル仮想化プログラム415が、ステップS901で取得したリストからエントリを1つ取得する。次いで、ファイル仮想化プログラム415は、ステップS703で取得したエントリが示す管理情報ファイル1100を取得する(ステップS904)。次いで、ファイル仮想化プログラム415は、ステップS904で取得した管理情報ファイル1100が示すユーザファイル1200を取得する(ステップS905)。
そして、ファイル仮想化プログラム415は、管理情報ファイル1100のファイル状態1112と転送部分リストの該当箇所の部分状態1123をStubにし(ステップS906)、ステップS901で取得したファイルリストからエントリを削除する(ステップS907)。
一方、ステップS908において、ファイル仮想化プログラム415は、データベース3200から操作を完了したエントリの非Stub部有無3205をなしにする。
図20は、実施例に係るファイルストレージシステム1のOBJS側ファイル/ディレクトリ削除処理の一例を説明するためのフローチャートである。
OBJS側ファイル/ディレクトリ削除処理が開始すると(ステップS1000)、ファイル仮想化プログラム415は、データベース3200から、削除フラグ3206がTrueのエントリをリストとして取得する(ステップS1001)。
次いで、ファイル仮想化プログラム415は、ステップS1001で取得したファイルリストが空であるかどうかを判定する(ステップS1002)。その結果、判定が肯定されたら(ステップS1002においてYES)プログラムはステップS1010に移行し、判定が否定されたら(ステップS1002においてNO)プログラムはステップS1003に移行する。
ステップS1003では、ファイル仮想化プログラム415が、ステップS1001で取得したリストからエントリを1つ取得する。次いで、ファイル仮想化プログラム415は、ステップS1003で取得したエントリが示す管理情報ファイル1100、2100を取得する(ステップS1004)。
次に、ファイル仮想化プログラム415は、管理情報ファイル1100、2100が示すUUID1111、2111の削除要求をOBJS200に転送する(ステップS1005)。
OBJS200のファイル仮想化プログラム423は、UUIDで特定されるOBJS200内のユーザファイル1200/ユーザディレクトリ2200を削除し(ステップS1006)、CPF100に削除の完了を返す(ステップS1007)。
そして、ファイル仮想化プログラム415は、ステップS1001で取得したリストからエントリを削除する(ステップS1009)。
一方、ステップS1010において、ファイル仮想化プログラム415は、データベース3200から操作を完了したエントリのDirty部有無3204をなしにする。
図21は、実施例に係るファイルストレージシステム1のクローリング処理の一例を説明するためのフローチャートである。
クローリング処理が開始すると(ステップS1100)、ファイル仮想化プログラム415は、ファイル仮想化の対象となるユーザファイル1200/ユーザディレクトリ2200のルートディレクトリ2200に対して以下に示すステップS1200の処理を実行する。
ステップS1200では、まず、ファイル仮想化プログラム415が、該当するユーザファイル1200/ユーザディレクトリ2200の管理情報ファイル1100、2100を取得する(ステップS1202)。
次いで、ファイル仮想化プログラム415は、ステップS1202で取得した管理情報ファイル1100、2100のファイル状態1112/ディレクトリ状態2112がDirtyであるか否かを判定する(ステップS1203)。そして、判定が肯定されたら(ステップS1203においてYES)、プログラムはステップS1204に移行し、判定が否定されたら(ステップS1203においてNO)、プログラムはステップS1205に移行する。
ステップS1204では、Dirty部有無3204があり、非Stub部有無3205があり、削除フラグ3206がFalseとしてデータベース3200に対象のエントリを登録する。
ステップS1205では、ファイル仮想化プログラム415は、ステップS1202で取得した管理情報ファイル1100、2100のファイル状態1112/ディレクトリ状態2112がCachedであるか否かを判定する。そして、判定が肯定されたら(ステップS1205においてYES)、プログラムはステップS1206に移行し、判定が否定されたら(ステップS1205においてNO)、プログラムはステップS1207に移行する。
ステップS1206では、Dirty部有無3204がなし、非Stub部有無3205があり、削除フラグ3206がFalseとしてデータベース3200に対象のエントリを登録する。
ステップS1207では、ファイル仮想化プログラム415は、ステップS1202で取得した管理情報ファイル1100、2100のファイル状態1112/ディレクトリ状態2112がDeletedであるか否かを判定する。そして、判定が肯定されたら(ステップS1207においてYES)、プログラムはステップS1208に移行し、判定が否定されたら(ステップS1207においてNO)、プログラムはステップS1209に移行する。
ステップS1208では、Dirty部有無3204がなし、非Stub部有無3205がなし、削除フラグ3206がTrueとしてデータベース3200に対象のエントリを登録する。
ステップS1209では、ファイル仮想化プログラム415が、クローリング処理の対象がディレクトリであるか否かを判定する。そして、判定が肯定されたら(ステップS1209においてYES)、プログラムはステップS1210に移行し、判定が否定されたら(ステップS1209においてNO)、プログラムを終了する。
ステップS1210では、ディレクトリ内の各ファイル/ディレクトリに対してステップS1200の処理を実行する。
このように構成される本実施例によれば、ファイルストレージシステム1のCPF100は、クライアント600からのファイルの操作要求からファイルシステムの呼び出し処理までの間に割り込み、ファイルシステムへの入力情報または操作内容に基づいて、ファイルの状態管理情報である管理情報ファイル1100、2100の更新処理を追加している。
従って、本実施例によれば、ファイルシステムにアクセスするアプリケーションに影響されず簡易にファイル仮想化機能を提供することが可能となる。
CPFノード110は、アプリケーションプログラム411およびIO Hookプログラム412をコンテナ化してクライアント600に提供しており、これらは互いの動作環境や仕様に影響せず独立して作動する。IO Hookプログラム412は分散ファイルシステム510を疑似した仮想ファイルシステムをアプリケーションプログラム411に提供しており、クライアント600からのリクエストに基づきアプリケーションプログラム411は仮想ファイルシステムに対するファイル操作のシステムコールを発行する。
IO Hookプログラム412は発行された仮想ファイルシステムに対するファイル操作のシステムコールからファイルへのIO処理に関する情報を抽出し、ファイル仮想化管理情報の更新処理を行い、また、ログを出力する。さらにIO Hookプログラム412は、アプリケーションプログラム411が発行した仮想ファイルシステムへのファイル操作のAPIを分散ファイルシステム510へ出力して所望のファイル操作が行われる。
このような構成により、アプリケーションの種別を考慮することなく、任意のアプリケーションに対してその都度IO Hookプログラムをリンクする作り込みやアプリケーションの修正が不要となるため、ファイル仮想化システムの開発の工数および労力を軽減でき簡易にファイル仮想化機能を提供できる。
また、本実施例によれば、アプリケーションプログラム411およびIO Hookプログラム412を始めとした各プログラムをコンテナ化して実行するCPFノード110を選択して設定登録することで、各プログラムの動作特性や負荷状況に応じ実行に適したCPFノード110を適宜選択し登録できるため、特定のCPFノード110へのファイル操作等の負荷集中を回避して複数のCPFノード110へ負荷を分散することができる。
なお、上記した実施例は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施例の構成の一部について、他の構成に追加、削除、置換することが可能である。
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をコンピュータに提供し、そのコンピュータが備えるプロセッサが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD-ROM、DVD-ROM、ハードディスク、SSD(Solid State Drive)、光ディスク、光磁気ディスク、CD-R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
また、本実施例に記載の機能を実現するプログラムコードは、例えば、アセンブラ、C/C++、perl、Shell、PHP、Java(登録商標)等の広範囲のプログラム又はスクリプト言語で実装できる。
上述の実施例において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。
1…ファイルストレージシステム、10-1…サイト、10-2…サイト、20…データセンター、30…ネットワーク、100…CPF、200…OBJS、411…アプリケーションプログラム、412…Hookプログラム、413…分散ファイルシステムプログラム、414…データベースプログラム、415、423…ファイル仮想化プログラム、416…コンテナ管理データ、421…ネットワークストレージプログラム、422…ローカルファイルシステムプログラム、510…ローカルファイルシステム、520…ローカルファイルシステム、530…ネットワークファイルシステム、600…クライアント、1100、2100…管理情報ファイル、1200…ユーザファイル、2200…ユーザディレクトリ、2300…OBJS用ディレクトリ、


Claims (9)

  1. 各々が第1のファイルシステムを提供する複数のストレージノードと、
    前記第1のファイルシステムによりファイルが格納される第1のストレージシステムと、
    を有し、
    第2のストレージシステムを利用可能なファイルストレージシステムであって、
    前記各ストレージノードは、
    クライアントの要求に基づいて前記ファイルの操作要求を発行するアプリケーションと、
    前記ファイルの状態が格納された状態管理情報を管理し、さらに前記アプリケーションに対し前記第1のファイルシステムに基づく仮想ファイルシステムを提供する状態情報管理部と、
    前記第1のストレージシステム及び第2のストレージシステムに格納されるファイルを管理するファイル仮想化部と、
    を備え、
    前記アプリケーションは前記ファイルの操作要求に基づく前記仮想ファイルシステムの呼び出し処理を行い、
    前記状態情報管理部は、前記第1のファイルシステムに前記ファイルの操作要求を出力し、前記操作要求にかかる前記仮想の第1のファイルシステムへの入力情報または操作内容に基づいて、前記ファイルの状態管理情報の更新処理を行い、
    前記第1のファイルシステムは、前記ファイルの操作要求を処理し、
    前記ファイル仮想化部は、前記状態管理情報に基づいて、前記第1のストレージシステムと前記第2のストレージシステムとの間で前記ファイルの管理処理を行う
    ことを特徴とする分散ファイルストレージシステム。
  2. 前記アプリケーション、前記状態情報管理部および前記ファイル仮想化部はコンテナ化され、
    それぞれが少なくとも1つずつ任意の前記ストレージノードにおいて実行されることを特徴とする請求項1記載のファイルストレージシステム。
  3. 前記アプリケーションおよび前記状態情報管理部は、同一の前記ストレージノードにおいて実行されることを特徴とする請求項2記載のファイルストレージシステム。
  4. 前記状態情報管理部と前記ファイル仮想化部はそれぞれ異なる前記ストレージノードにおいて実行されることを特徴とする請求項2記載のファイルストレージシステム。
  5. 各前記ストレージノードの前記分散ファイルシステムのうちの一つがマスタであり、他の前記ストレージノードの前記分散ファイルシステムにおける前記ファイルの操作要求を処理することを特徴とする請求項1記載のファイルストレージシステム。
  6. 前記ファイルの管理処理は、前記第1のストレージシステムと第2のストレージシステムとの間でのファイルのスタブ化またはマイグレーションであることを特徴とする請求項1に記載のファイルストレージシステム。
  7. 前記第2のストレージシステムには、第2のファイルシステムによりファイルが格納され、
    前記分散ファイルシステムは階層構造を有し、前記第2のファイルシステムは階層構造を有さず、
    前記ファイル仮想化部は、前記分散ファイルシステムと、第2のファイルシステムと、の間で前記ファイルの管理処理を行う
    ことを特徴とする請求項6に記載のファイルストレージシステム。
  8. 前記状態情報管理部は、前記状態管理情報の更新に加えて前記操作要求のログを作成し、
    前記ファイル仮想化部は、前記操作要求のログに基づいて、前記ファイルの管理処理を行う
    ことを特徴とする請求項1に記載のファイルストレージシステム。
  9. 前記状態情報管理部は、前記ログに、前記ファイルの生成から削除までの期間で変更がなく前記ファイルのアクセスに用いる情報を登録することを特徴とする請求項8に記載のファイルストレージシステム。

JP2022012209A 2022-01-28 2022-01-28 ファイルストレージシステム Pending JP2023110632A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022012209A JP2023110632A (ja) 2022-01-28 2022-01-28 ファイルストレージシステム
US17/901,340 US20230281161A1 (en) 2022-01-28 2022-09-01 File storage system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022012209A JP2023110632A (ja) 2022-01-28 2022-01-28 ファイルストレージシステム

Publications (1)

Publication Number Publication Date
JP2023110632A true JP2023110632A (ja) 2023-08-09

Family

ID=87546185

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022012209A Pending JP2023110632A (ja) 2022-01-28 2022-01-28 ファイルストレージシステム

Country Status (2)

Country Link
US (1) US20230281161A1 (ja)
JP (1) JP2023110632A (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9225675B2 (en) * 2012-08-08 2015-12-29 Amazon Technologies, Inc. Data storage application programming interface
WO2015000502A1 (en) * 2013-07-02 2015-01-08 Hitachi Data Systems Engineering UK Limited Method and apparatus for virtualization of a file system, data storage system for virtualization of a file system, and file server for use in a data storage system

Also Published As

Publication number Publication date
US20230281161A1 (en) 2023-09-07

Similar Documents

Publication Publication Date Title
US11853780B2 (en) Architecture for managing I/O and storage for a virtualization environment
US10114706B1 (en) Backup and recovery of raw disks [RDM] in virtual environment using snapshot technology
US9652265B1 (en) Architecture for managing I/O and storage for a virtualization environment with multiple hypervisor types
US10025806B2 (en) Fast file clone using copy-on-write B-tree
US9772784B2 (en) Method and system for maintaining consistency for I/O operations on metadata distributed amongst nodes in a ring structure
US7383405B2 (en) Systems and methods for voluntary migration of a virtual machine between hosts with common storage connectivity
US9305014B2 (en) Method and system for parallelizing data copy in a distributed file system
US9886215B1 (en) Mechanism for providing block storage and object storage functionality from an external storage environment to a networked virtualization environment for storage management
US20080235300A1 (en) Data migration processing device
US20100274981A1 (en) Method and system for migration between physical and virtual systems
US10740039B2 (en) Supporting file system clones in any ordered key-value store
US11263252B2 (en) Supporting file system clones in any ordered key-value store using inode back pointers
JP7344352B2 (ja) ファイルストレージシステム及びファイルストレージシステムの管理方法
JP2024027156A (ja) 情報処理システム及び方法
WO2016013075A1 (ja) ストレージ、計算機およびその制御方法
JP2019124983A (ja) ストレージシステム及び記憶制御方法
JP2023110632A (ja) ファイルストレージシステム
US9336232B1 (en) Native file access
JP2015207277A (ja) ストレージシステムのデータ移行方法
JP7413458B2 (ja) 情報処理システム及び方法
OLIVEIRA Assessing the use of the BeeFS distributed file system on the OpenStack.
CN116521065A (zh) 一种分布式块存储卷迁移方法、装置及介质