JP2008515111A

JP2008515111A - ファイルインデックス処理

Info

Publication number: JP2008515111A
Application number: JP2007534800A
Authority: JP
Inventors: ラメッシュパラポテュ
Original assignee: EMC Corp
Current assignee: EMC Corp
Priority date: 2004-09-30
Filing date: 2005-09-29
Publication date: 2008-05-08
Also published as: CN100565495C; US7801922B2; EP1805649A2; EP1805649A4; US20060085481A1; WO2006039492A3; CN101031908A; WO2006039492A2

Abstract

幾つかの実施例に基づき、インデックスを処理するための技術が、インデックスを受信することを含む。この場合、前記インデックスはパスを含み、そのパスはエレメントを含む。また、前記インデックスを処理するための技術は、前記パスのエレメントが識別子に関連するかどうかを判断し、且つ前記パスのエレメントが識別子に関連していなければ、識別子を前記パスエレメントと関連付けることを含む。
【選択図】図１

Description

本発明は、コンピュータ環境に係り、より詳細には、データのバックアップに係る。

コンピュータ環境においてデータをバックアップすることは日常茶飯事である。テープドライブ装置やハードドライブ装置などのバックアップメディアにデータをバックアップするとき、追加的な情報（ここではインデックスと言う）もまた、そのデータをバックアップするコンピュータシステムから渡される。このインデックスはバックアップ中のデータに関する情報、（例えばどのようにバックアップデータが構成されているか）を提供する。インデックスをランダムな順序で受け取ることもあり、通常は、受け取ったインデックスを再編成する必要がある。多数のインデックスに対して、バックアップの最後にインデックスを編成することは、長い時間が必要であり、且つ高いシステムリソースが消費されることとなる。通常、インデックスの再編には非常に長時間が必要であり、この時間を回避する方法で、インデックスを編成できることが望まれている。

本発明は様々な方法で実現し得る。様々な方法とは、プロセス、装置、システム、合成物、あるいは、コンピュータで読み取り可能なメディア（例えば、コンピュータ読み取り可能記録メディア又は、プログラム命令が光若しくは電気的な通信リンクに送られるネットワーク等）を含むものである。本明細書では、このような実現方法や本発明がとり得る他の形式を技術として言及する。一般に、開示された処理ステップの順序は発明の範囲内で変わり得る。

本発明の一又は複数の実施例の詳細な説明が、本発明の原理を示した添付図に従って開示される。そのような実施例に関連して本発明を記載するが、本発明は開示した実施例に限るものではない。発明の範囲は請求項のみにより限定され、発明は多数の代替案、修正、あるいは均等物を含む。本発明の完全な理解を得るため、以下に幾つかの具体的な詳細を説明する。これらの詳細は例を示すためのものであり、本発明は、説明した詳細に関わらず請求項に従い実現され得る。明確さを目的として、本発明を不必要に不明瞭にしないようにするため、本発明に関連する技術分野で知られている技術構成については詳細には説明しない。

図１は、本発明を実現するのに適切なシステムのブロック図である。この例では、データサーバ１００はバックアップメディア１０２にデータを送る。また、データサーバ１００はバックアップサーバ１０４にもインデックスを送る。

図２は、インデックス処理のための実施例による方法を示すフロー図である。この例では、インデックスをばらばらに受信する。例えば、特別なデータ断片のインデックスはＤＩＲコンポーネントとＮＯＤＥコンポーネントを有している。ここで、ＤＩＲはinodeナンバーと、親のinodeナンバーと、インデックス名とを含んでいる。この実施例では、inodeナンバーはインデックスを識別する固有の番号である。インデックスのＮＯＤＥコンポーネントもまた、stat infoなどのインデックス属性と同様なＤＩＲinodeナンバーに一致するinodeナンバーを含む。stat infoの例として、サイズ、タイプ、許可、作成日、更新日のようなインデックスに関する情報がある。

この例ではインデックスコンポーネントが受信される（２００）。ここで使用されるインデックスコンポーネントは、ＤＩＲコンポーネントやＮＯＤＥコンポーネントなど、インデックスの一部である。次に、インデックスコンポーネントのinodeナンバーが既に格納されているかどうかを調べる（２０２）。一つの実施例では、inodeナンバーはＢ＋ツリーのようなディスク上のバランスツリー構造で格納される。Ｂ＋ツリー構造は、Ｌｅｇａｔｏ株式会社ＥＭＣ部門のＷＩＳＳなどのサーチライブラリと関連して使用される。また、他の実施例としては、inodeナンバーはインデックスを識別する固有の番号であり、インデックスのすべてのコンポーネントはそのナンバーに関連している。

もし、この特別なインデックスのinodeナンバーが格納されていなければ、受信したインデックスコンポーネントを新しいエントリとして格納する（２０８）。例えば、ＮＯＤＥコンポーネントを受信して、そのインデックスのinodeナンバーがディスク上のバランスツリーに格納されていなければ、この受信したコンポーネントを新しいエントリとしてバランスツリーに格納する。

もしこの特別なインデックスのinodeナンバーが格納されていると判れば、受信したインデックスコンポーネントがＤＩＲであるか否かを調べる（２０４）。もしＤＩＲでなければ、ＮＯＤＥコンポーネントであるかと仮定し、全てのマッチングinodeナンバーのために、格納されたマッチングinodeナンバーと同じエントリに記録する（２１０）。もし受信したインデックスコンポーネントがＤＩＲであれば（２０４）、格納されたマッチング・インデックスのエントリがＮＯＤＥを含むかどうかを調べる（２０６）。含まなければ、受信したＤＩＲを新しいエントリとして格納する（２１２）。

格納されたマッチング・インデックスのエントリがＮＯＤＥを含む場合（２０６）、格納済みのマッチング・インデックスのひとつがＤＩＲであるか調べる（２２０）。もし、マッチングinodeナンバーを持つどんなＤＩＲコンポーネントも格納されてはいないが、ＮＯＤＥエントリがあれば、マッチングＮＯＤＥエントリを受信したＤＩＲコンポーネントにアップデートする（２２４）。しかしながら、格納されたマッチング・インデックスのエントリのひとつがＤＩＲであれば（２２０）、ＮＯＤＥの属性をマッチング・エントリのひとつからコピーし、受信したＤＩＲコンポーネントとともに新しいエントリに格納する（２２２）。

図３は幾つかの実施例に基づくインデックス処理方法のフロー図である。この例では、インデックスの断片を再構成し、インデックスのエントリとしてバランスツリーに格納し、インデックスツリーを再構築する。図４と関連して論ずると、図３がよく理解できる。

図４は図３と関連して論ずるインデックスツリーの一例であり、幾つかの実施例に基づき、inodeナンバーによりインデックスを同定する。この例では、トップのインデックスがinodeナンバー２を持つインデックス構造を含むツリーを示す。inodeナンバー３及び４を持つインデックスはinodeナンバー２の子として示され、inodeナンバー５，６，７、および８はinodeナンバー３と４の子である。ここではinodeナンバー２はinodeナンバー３及びinodeナンバー４の親として参照され、inodeナンバー３はinodeナンバー５とinodeナンバー６の親として参照される。この例では、inodeナンバー２は、inodeナンバー３のディレクトリとinodeナンバー４の別のディレクトリを含むディレクトリである。inodeナンバー３は、inodeナンバー５を持つファイルとinodeナンバー６を持つ別のファイルとを含むディレクトリである。

図３に示した例では、最上位のinodeナンバーは格納されたinodeナンバーから見出せる（３００）。例えば、ツリーの最上位のinodeナンバーをinodeナンバー２とあらかじめ決めておく。従って、Ｂ＋ツリーのようなバランスツリーでサーチを実行し、inodeナンバー２を見つける。

次に、親が最上位のinodeナンバーであるインデックスエントリを見つける（３０２）。例えば、図４に示した例では、親が最上位のinodeナンバーであるインデックスはinodeナンバー３とinodeナンバー４である。従って、親の情報に基づくバランスツリーでサーチを行い、inodeナンバー２と等しい親を持つインデックスエントリを見つける。幾つかの実施形態では、親のinodeナンバーをインデックスのＤＩＲコンポーネントに格納する。

これらのインデックスエントリはインデックスツリーの次のレベルとして識別される（３０４）。次に、これらのinodeナンバーが親であるエントリがあるか否かを調べる（３０６）。これらのinodeナンバーが親であるインデックスエントリが存在しなければ、再構成は完了する。しかしながら、これらのinodeナンバーが親であるエントリが存在すれば、新しく発見されたインデックスエントリがインデックスツリーの次のレベルとして識別される（３０４）。

図５は、幾つかの実施例に基づいたインデックス処理方法のフロー図である。この例では、インデックスは、データサーバからバックアップサーバに、多重断片というより単一断片として配信される。ここで、inodeナンバーは受信されず、インデックスのパスが受信される。例えば、インデックスｄがａ／ｂ／ｃ／ｄのパスとして受信される。ここで、ｃはｄの親であり、ｂはｃの親であり、ａはｂの親である。さらに付け加えると、別のインデックスｄがそのパスに沿って受信される場合、そのインデックスｄは先のインデックスｄとは同じではない。同じ名前のファイルが、例えばａ／ｃ／ｂ／ｄという異なるディレクトリの下で起こり得る。これらのファイルは同じパスを持っていない。従って、この例においては、ｄといった名前でサーチすることは有用ではない。ある実施例として、擬似のinodeナンバーをパスのエントリとして生成する。他の実施例として、このinodeナンバーは固有である。ディレクトリのツリーをメモリ内に生成する。そこには、インデックス名と割り当てられたinodeナンバーと、親のinodeナンバーが含まれ、inodeナンバーか親のinodeナンバーかのどちらか一方をサーチすることでクイックサーチが行われる。

図５に示した例では、インデックスがａ／ｂ／ｃ／ｄなどのインデックスのパスで受信される（５００）。パスエントリがパスから検索されたか否か調べる（５０２）。もしパスエントリがパスから検索されていないのでなければ、処理は終了である。もし、「ｂ」のようにパスエントリがパスより検索されたのであれば、親のinodeナンバーをディレクトリツリーから検索する（５０４）。ディレクトリツリーはディレクトリのリストを含んでいる。幾つかの実施例の場合、ディレクトリツリーはメモリに記憶される、一方でインデックスツリーはディスクに記憶される。次に、パスエントリがディレクトリツリーの中にあるか否かを調べる（５０６）。もしパスエントリがすでにディレクトリツリーにあれば、次のエントリを受信したパスから検索する（５０２）。幾つかの実施例では、パスエントリは左から右へ−親から子へ−と検索される。例えば、パスａ／ｂ／ｃ／ｄにおいては、ａ、次にｂ、次にｃ、次にｄの順である。

もしパスエントリがディレクトリツリーにない場合（５０６）、この例では、固有のinodeナンバーをパスエントリに割り当てる（５０８）。パスエントリがディレクトリであるか否かを調べる（５１０）。幾つかの実施例では、ファイルはディレクトリツリーに保存されないが、ディレクトリは保存される。ディレクトリには少なくとも一人の子がいるが、ファイルにはいない。もしパスエントリがディレクトリであれば、ディレクトリツリーに加える（５１２）。幾つかの実施例では、ディレクトリ名と、その割り当てられたinodeナンバーと、親のinodeナンバーとがディレクトリツリーに格納される。例えば、パスａ／ｂ／ｃ／ｄがインデックス「ｄ」として受信され、「ｃ」がinodeナンバー４に割り当てられ、「ｄ」がinodeナンバー５に割り当てられるならば、「ｄ」の親のinodeナンバーは４である。パスエントリがディレクトリツリーに加えられるか（５１２）、又はパスエントリがディレクトリであれば（５１０）、インデックスはディスク上のバランスツリーに格納される（５１４）。そして、次のパスエントリがもしあれば検索される（５０２）。

その後、図３に例示した方法と類似の方法によりインデックスツリーを再構築することができる。本実施例では、バランスツリーよりもむしろメモリに保存されたディレクトリツリーがサーチされ、inodeナンバー及び親のinodeナンバーが見出される。

上述の実施例は明瞭な理解を目的として詳しく記述したが、本発明はその詳細な記述に限るものではない。本発明を実現する多くの代替手段がある。説明した実施形態は実施例であり、限定するものではない。

本発明の実施形態に基づくシステムの一例を示すブロック図である。インデックス処理を実現する方法の一例を示すフロー図である。インデックス処理を実現する方法の一例を示すフロー図である。インデックス処理を実現する他の実施例を示すフロー図である。図３に関する、inodeナンバーにより識別されるインデックスエントリによるインデックスツリーの一例である。インデックス処理を実現する他の実施例を示すフロー図である。

Claims

エレメントを有するパスを含むインデックスを受信する処理と、
前記パスのエレメントが識別子(identifier)に関連しているかを判断する処理と、
前記パスのエレメントが識別子に関連していないと判断される場合、識別子を前記パスのエレメントに関連付ける処理と、を含むインデックス処理方法。
前記識別子をメモリに格納する処理を、更に含む請求項１に記載の方法。
前記パスのエレメントの親と関連付けられた親の識別子をメモリに格納する処理を、更に含む請求項１に記載の方法。
前記関連した識別子をもつリストをアップデートする処理を、更に含む請求項１に記載の方法。
前記リストがメモリに格納されている、請求項４に記載の方法。
前記パスが最後のエレメントを含み、且つその最後のエレメントがディレクトリであるかを判断する処理を、更に含む請求項１に記載の方法。
前記最後のエレメントがディレクトリであれば、識別子を前記最後のエレメントに関連付ける処理を、更に含む請求項６に記載の方法。
前記関連した識別子は、前記パスのエレメントに識別子を割り当てることを含む、請求項１に記載の方法。
前記インデックスをディスクに格納する処理を、更に含む請求項１に記載の方法。
前記識別子が固有(unique)であることを特徴とする、請求項１に記載の方法。
前記識別子がｉノード(inode)ナンバーであることを特徴とする、請求項１に記載の方法。
最初の識別子を探す処理と、前記最初の識別子に一致する親の識別子を持つリストエントリを探す処理とを、更に含む請求項１に記載の方法。
前記一致する親の識別子をもつリストエントリが、インデックスツリーの次のレベルとして識別される、請求項１２に記載の方法。
前記パスのエレメントが識別子に関連していないと判断され、且つ前記パスのエレメントがディレクトリである場合に、前記関連付けの処理が生じる、請求項１に記載の方法。
エレメントを有するパスを含むインデックスを受信し、
前記パスのエレメントが識別子(identifier)に関連しているかを判断し、
前記パスのエレメントが識別子に関連していないと判断される場合、識別子を前記パスのエレメントに関連付ける、ように構成されたプロセッサと、
前記プロセッサと接合し、当該プロセッサに命令を提供するメモリと、
を備えたインデックス処理システム。
前記識別子をメモリに格納することを、更に備えた請求項１５に記載のシステム。
前記パスのエレメントの親と関連付けられた親の識別子をメモリに格納することを、更に備えた請求項１５に記載のシステム。
最初の識別子を探し、且つ前記最初の識別子に一致する親の識別子を持つリストエントリを探すことを、更に備えた請求項１５に記載のシステム。
前記一致する親の識別子をもつリストエントリがインデックスツリーの次のレベルとして識別される、請求項１８に記載のシステム。
前記パスのエレメントが識別子に関連していないと判断され、且つ前記パスのエレメントがディレクトリである場合に、前記関連付けが生じる、請求項１５に記載のシステム。
インデックスを処理するコンピュータプログラム製品であって、コンピュータ読み取り可能な記憶媒体に実装され、
エレメントを有するパスを含むインデックスを受信すること、
前記パスのエレメントが識別子(identifier)に関連しているかを判断すること、
前記パスのエレメントが識別子に関連していないと判断される場合、識別子を前記パスのエレメントに関連付けること、についてのコンピュータ命令を含んだコンピュータプログラム製品。
前記識別子をメモリに格納する命令を更に含む、請求項２１に記載のコンピュータプログラム製品。
前記パスのエレメントの親と関連付けられた親の識別子をメモリに格納する命令を更に含む、請求項２１に記載のコンピュータプログラム製品。
最初の識別子を探す命令と、前記最初の識別子に一致する親の識別子を持つリストエントリを探す命令とを更に含む、請求項２１に記載のコンピュータプログラム製品。
前記一致する親の識別子をもつリストエントリがインデックスツリーの次のレベルとして識別される、請求項２４に記載のコンピュータプログラム製品。
前記パスのエレメントが識別子に関連していないと判断され、且つ前記パスエレメントがディレクトリである場合に、前記関連付けの命令が生じる、請求項２１に記載のコンピュータプログラム製品。