JP2023501084A

JP2023501084A - クラウドストレージにおけるアクセスパターン駆動型データ配置

Info

Publication number: JP2023501084A
Application number: JP2022522700A
Authority: JP
Inventors: ヂャン，ワンユエン; ヂャン，ビビアン; ゴード，ピラモド; ユン，サンホ; シ，シュドン; ヤオ，カイフォン
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2019-11-04
Filing date: 2020-11-03
Publication date: 2023-01-18
Anticipated expiration: 2040-11-03
Also published as: US20230164219A1; US11588891B2; KR102659627B1; JP7454661B2; EP4026303A1; WO2021091851A1; CN114651433A; KR20240055889A; KR20220064391A; US20210136150A1

Abstract

複数の地理的領域（１１０、１２０、１３０、１４０）にわたって分散された複数のデータセンタ（１１０ａ、１１０ｂ、１２０ａ、１２０ｂ、１３０ａ、１３０ｂ、１４０ａ、１４０ｂ）を有する分散ネットワーク（１００）にデータを記憶するためのシステムおよび方法。本方法は、分散ネットワークの第１のデータセンタにアップロードされた、メタデータを含む、データを受信すること（３１０）と、分散ネットワークの複数のデータセンタに以前に記憶された、以前のデータに関するアクセス情報を受信すること（３２０）と、メタデータおよびアクセス情報に基づいて、アップロードされたデータがアクセスされる複数の地理的領域のうちの１つ以上を予測すること（３３０）と、アップロードされたデータを、第１のデータセンタから、１つ以上の予測された地理的領域の各々に位置する１つ以上の第２のデータセンタに転送するように命令する（３４０）こととを含んでもよい。

Description

関連出願の相互参照
本出願は２０２０年１１月４日に提出された米国特許出願第１６／６７３，１２８号の継続であり、その開示は参照により本明細書に組み込まれる。

背景
グローバルクラウドストレージサービスは、大量のデータがクラウドに記憶されると、世界中の任意の場所からのその大量のデータに対するアクセス可能性を提供する。例えば、欧州においてアップロードされた画像は、米国においてダウンロードのために直ちにアクセス可能であり得る。

グローバルクラウドストレージサービスは、しばしば、大量のアップロードされたデータを管理するために、様々な地理的領域に分割される。したがって、データにアクセスするためのユーザ要求は、典型的には、ユーザ、特にユーザの地理的領域に最も近いサーバにルーティングされる。サーバは、次いで、要求されたデータのロケーションを検索し、次いで、異なる地理的領域内にあり得る、そのデータが記憶されているサーバに、そのデータに対する要求を転送する。

要求されたデータが要求側ユーザから遠く離れて記憶される場合、要求されたデータをフェッチすることは、高いレイテンシを被り得、これは、要求側ユーザの、要求されたデータの体験を損ない得る。長距離フェッチはまた、特に、ユーザの地理的領域とデータの地理的領域との間にネットワーク帯域幅の不足がある場合、例えば、２つの領域間に充分な光ファイバケーブルが配備されない場合、サービスベンダにとって貴重な帯域幅を費やす。

グローバルクラウドストレージサービスは、通常、アップロードされたデータを、当該データがアップロードされた領域に記憶する。これは、アップロードされたデータが主に同じ地理的領域においてダウンロードされる場合に効果的であり得る。しかしながら、多くの場合、アップロードされたデータは、主に他の地理的領域からアクセスされ、これは、高いネットワーク帯域幅コストをもたらし得る。

概要
本開示の一態様は、複数の地理的領域にわたって分散された複数のデータセンタを有する分散ネットワークにデータを記憶するための方法を対象とする。本方法は、１つ以上のプロセッサが、分散ネットワークの第１のデータセンタにアップロードされたデータを受信することを含んでもよく、アップロードされたデータはメタデータを含み、本方法はさらに、１つ以上のプロセッサが、アップロードされたデータがアクセスされる前に、以前にアップロードされたデータについてアクセス情報を受信することと、アップロードされたデータがアクセスされる前に、１つ以上のプロセッサが、メタデータおよびアクセス情報に基づいて、アップロードされたデータがアクセスされる複数の地理的領域のうちの１つ以上を予測することと、１つ以上のプロセッサが、アップロードされたデータを、第１のデータセンタから、予測された地理的領域のうちの１つ以上に位置する１つ以上の第２のデータセンタに転送するように命令することとを含んでもよい。

いくつかの例では、アクセス情報は、以前にアップロードされたデータのメタデータでトレーニングされた予測モデルから導出されてもよい。

いくつかの例では、予測モデルは決定木モデルであってもよい。
いくつかの例では、メタデータは、アップロードされたデータをアップロードしたユーザの識別情報と、アップロードされたデータがアップロードされたロケーションとを含んでもよい。

いくつかの例では、以前にアップロードされたデータのメタデータは、以前にアップロードされたデータのロケーションと、以前にアップロードされたデータをアップロードしたユーザの識別情報と、以前にアップロードされたデータがアップロードされたロケーションとを含んでもよい。

いくつかの例では、以前にアップロードされたデータのメタデータは、以前にアップロードされたデータが記憶されるディレクトリまたはファイルパスの識別情報を含んでもよい。

いくつかの例では、アクセス情報は、以前にアップロードされたデータの初期アップロードと以前にアップロードされたデータの第１のダウンロードとの間の時間量を示してもよい。本方法は、１つ以上のプロセッサが、アップロードされたデータが初めてダウンロードされるまでの時間を予測することと、１つ以上のプロセッサが、予測された時間量に基づいて、アップロードされたデータを、１つ以上の予測された地理的領域に位置する１つ以上のキャッシングサーバに送信するように命令することとを含んでもよい。

いくつかの例では、アップロードされたデータを、１つ以上の予測された地理的領域に位置する１つ以上のキャッシングサーバに送信するように命令することは、１つ以上のプロセッサが、メタデータおよびアクセス情報に基づいて、アップロードされたデータはブロードキャストデータであると判断することと、アップロードされたデータが転送されるように命令される各所与の予測された地理的領域について、１つ以上のプロセッサが、アップロードされたデータを、所与の予測された地理的領域の各データセンタの少なくとも１つのキャッシングサーバに転送するように命令することとを含んでもよい。

いくつかの例では、本方法は、１つ以上のプロセッサが、アップロードされたデータを、共通の予測された地理的領域を有する、以前にアップロードされたデータを含むファイルに含むように命令することと、１つ以上のプロセッサが、ファイルを、共通の予測された地理的領域に位置する１つ以上の第２のデータセンタに転送するように命令することとを含んでもよい。

いくつかの例では、ファイルは、最初に、第１のデータセンタに位置する１つ以上のソースサーバに記憶されてもよい。ファイルを転送するように命令することは、１つ以上のプロセッサが、共通の予測された地理的領域に位置する１つ以上の第２のデータセンタのデータサーバに、ファイルを、１つ以上のソースサーバからプルするように命令することを含んでもよい。

本開示の別の態様は、複数の地理的領域にわたって分散された複数のデータセンタを有する分散ネットワークにデータを記憶するためのシステムを対象とする。本システムは、分散ネットワークの第１のデータセンタにおける１つ以上のストレージデバイスを備えてもよく、１つ以上のストレージデバイスは、アップロードされたデータを第１のデータセンタに記憶するよう構成され、アップロードされたデータはメタデータを含み、本システムはさらに、１つ以上のストレージデバイスと通信する１つ以上のプロセッサを備えてもよい。１つ以上のプロセッサは、分散ネットワークの複数のデータセンタに以前に記憶された、以前にアップロードされたデータに関するアクセス情報を受信し、アップロードされたデータがアクセスされる前に、メタデータおよびアクセス情報に基づいて、アップロードされたデータがアクセスされる複数の地理的領域のうちの１つ以上を予測し、アップロードされたデータを、第１のデータセンタから、予測された地理的領域のうちの１つ以上に位置する１つ以上の第２のデータセンタに転送するように命令するよう構成されてもよい。

いくつかの例では、アクセス情報は、以前にアップロードされたデータの初期アップロードと以前にアップロードされたデータの第１のダウンロードとの間の時間量を示してもよい。１つ以上のプロセッサは、アップロードされたデータが初めてダウンロードされるまでの時間を予測し、予測された時間量に基づいて、アップロードされたデータを、１つ以上の予測された地理的領域に位置する１つ以上のキャッシングサーバに送信するように命令するよう構成されてもよい。

いくつかの例では、１つ以上のプロセッサは、メタデータに基づいて、アップロードされたデータはブロードキャストデータであるという判断に基づいて、アップロードされたデータを、１つ以上の予測された地理的領域に位置する１つ以上のキャッシングサーバに送信するように命令するよう構成されてもよく、アップロードされたデータが転送されるように命令される各所与の予測された地理的領域について、１つ以上のプロセッサは、アップロードされたデータを、所与の予測された地理的領域の各データセンタの少なくとも１つのキャッシングサーバに転送するように命令するよう構成されてもよい。

いくつかの例では、１つ以上のプロセッサは、アップロードされたデータを、共通の予測された地理的領域を有する、以前にアップロードされたデータを含むファイルに含むように命令し、ファイルを、共通の予測された地理的領域に位置する１つ以上の第２のデータセンタに転送するように命令するよう構成されてもよい。

いくつかの例では、ファイルは、最初に、第１のデータセンタに位置する１つ以上のソースサーバに記憶される。１つ以上のプロセッサは、共通の予測された地理的領域に位置する１つ以上の第２のデータセンタのデータサーバに、ファイルを、１つ以上のソースサーバからプルするように命令するよう構成されてもよい。

本開示の態様による例示的なシステムを示すブロック図である。本開示の態様による例示的なコンピューティングシステムを示すブロック図である。本開示の態様によるシステムの例示的なデータ配信方式を示すブロック図である。本開示の態様によるシステムの例示的なデータ配信方式を示すブロック図である。本開示の態様による例示的な方法を示すフロー図である。図５のフロー図の態様を示すフロー図である。

詳細な説明
概観
本技術は、概して、アップロードされたデータを分散ネットワークにわたって効率的に記憶するためのシステムに関する。システムは、アップロードされたデータファイルが将来アクセスされ得るロケーションを予測するロケーション予測器または予測プログラムを含んでもよい。予測は、以前にアップロードされたデータの「アクセスパターン」とも呼ばれるアップロードパターンおよびダウンロードパターンに基づいてもよい。新たにアップロードされたデータのアクセスパターンを予測することは、アップロードされたデータの記憶効率を改善し得、なぜならば、データは、それが将来アクセスされるロケーションの近くに戦略的に記憶されることができるからである。

いくつかの実現例では、予測プログラムは、１つ以上のデータセンタにわたって複数の仮想マシンを有する分散ネットワークに記憶され得る。アップロードされたデータは、ネットワークの任意のデータセンタに記憶されることによって開始してもよい。その後、アップロードされたデータは、予測プログラムによって分析され、アップロードされたデータがダウンロードされることが予測される１つ以上の他のデータセンタにマイグレートされる。

予測は、アップロードされたデータおよび以前にアップロードされたデータの各々に含まれるメタデータに基づいてもよい。例えば、以前にアップロードされたデータのメタデータは、予測モデルをトレーニングするために用いられてもよく、それにより、メタデータは、モデルの種々の予測器に関連してもよい。アップロードされたデータのメタデータは、以前にアップロードされたデータのメタデータと同じであるかまたは類似し得、それにより、アップロードされたデータと特定の以前にアップロードされたデータとの間のこれらの類似性は、アップロードされたデータの将来のアクセスパターンを示し得る。例えば、同じまたは類似の顧客識別情報、オブジェクト名、オブジェクトタイプ、またはそれらの何らかの組合せを有し、同じもしくは類似の領域またはデータセンタに由来する、アップロードされたデータおよび以前にアップロードされたデータは、類似のアクセスパターンに従うと期待され得る。したがって、以前にアップロードされたデータのアクセスパターンは、以前にアップロードされたデータとアップロードされたデータとの共通または同様のメタデータに鑑み、アップロードされたデータの将来のアクセスパターンを示し得る。

いくつかの実現例では、アップロードされたデータは、オフラインデータマイグレーション技術を用いてデータセンタに転送されてもよい。例えば、データの宛先データセンタに基づいて、アップロードされたデータを記憶するよう、別々の大きなファイルが設定されてもよく、それにより、各大きなファイルは異なる宛先データセンタを有する。次いで、新たにアップロードされたデータは、アップロードされたデータがダウンロードされると予測されるデータセンタに基づいて、１つ以上の大きなファイルに添付されてもよい。アップロードされたデータのデータマイグレーションは、次いで、例えば、所与のファイルがあるサイズ限界に達したとき、または１２時間等の事前定義された時間量が経過した後に、ファイルごとに実行されてもよい。

いくつかの実現例では、メタデータはまた、アップロードされたデータをその宛先にマイグレートする緊急性を予測するために用いられてもよい。例えば、あるユーザからブロードキャストされ、世界中で他のユーザに直ちにアクセス可能にされる、ストリーミングされたファイルなどのブロードキャストデータの場合、複数の領域にわたって、即時および後の時点での両方で、大きな需要があり得、オフラインデータマイグレーションは、アップロードされたデータをその宛先データセンタに配信するには時間がかかりすぎる場合がある。そのような場合、データをマイグレートする緊急性を識別することが、アップロードされたデータのキャッシュ注入を開始するために用いられてもよく、それにより、データは、データがユーザにローカルにサービス提供され得る宛先データセンタにおけるキャッシングサーバに転送される。キャッシュ注入は、オフラインデータマイグレーションに加えて、およびオフラインデータマイグレーションの前に、実行されてもよい。

上記の実現例は、特に複数の地理的領域にわたって広がる複数のデータセンタを有する分散ネットワークについて、分散ネットワーク内の非構造化データの記憶サービスを改善することができる。改善された記憶サービスは、世界の一部においてアップロードされるデータを、そのデータが共通にアクセスされる世界の他の部分において、より容易にアクセス可能にし得る。これは、次いで、ユーザおよびサービスプロバイダのコストならびに時間の節約をもたらし得、なぜならば、遠隔位置からデータにアクセスすることは、概して、近くのロケーションからデータにアクセスすることよりも費用がかかり、時間がかかるからである。

例示的なシステム
図１は、分散コンピューティング環境を含む例示的なシステムを示すブロック図である。システム１００は、システム１００の複数の地理的領域１１０、１２０、１３０、１４０にわたって分散されたサーバにデータ１０１をアップロードする能力をユーザに提供するクラウドストレージサービスであってもよい。各地理的領域は、１つ以上のデータセンタを含んでもよい。図１は、領域１（１１０）のデータセンタ１１０ａおよび１１０ｂ、領域２（１２０）のデータセンタ１２０ａおよび１２０ｂ、領域３（１３０）のデータセンタ１３０ａおよび１３０ｂ、ならびに領域４（１４０）のデータセンタ１４０ａおよび１４０ｂを示すが、ネットワークは追加の領域を含んでもよく、各領域は追加のデータセンタを含んでもよい。各データセンタは、アップロードされたデータを記憶するよう構成された１つ以上のデータサーバ１４５を含んでもよい。

データセンタ１１０ａ、１１０ｂ、１２０ａ、１２０ｂ、１３０ａ、１３０ｂ、１４０ａ、１４０ｂは、例えば、ネットワーク（図示せず）を介して通信可能に結合されてもよい。データセンタはさらに、ネットワークを介して１つ以上のクライアントデバイス（図示せず）と通信してもよい。したがって、例えば、クライアントは、「クラウド」内で動作を実行してもよい。そのような動作は、アップロードされたデータ１０１などのデータにアップロードすることおよびアクセスすることを含んでもよい。データにアクセスすることは、データをダウンロードすること、データをストリーミングすること、データをあるフォルダもしくはディレクトリから別のフォルダもしくはディレクトリにコピーすること、またはシステム１００のサーバにおいて受信されたユーザ要求に応答してデータがアクセス可能にされる任意の他の手段を含んでもよい。いくつかの例では、データセンタは、さらに、コントローラ（図示せず）と通信してもよく、したがって、データにアクセスすることは、コントローラからの命令に応答してデータをアクセス可能にすることを含んでもよい。

データセンタ１１０ａ、１１０ｂ、１２０ａ、１２０ｂ、１３０ａ、１３０ｂ、１４０ａ、１４０ｂは、互いからかなりの距離を置いて配置されてもよい。例えば、データセンタは、世界中の様々な国に配置されてもよい。領域１１０、１２０、１３０、１４０は、互いに比較的近接したデータセンタをグループ化してもよい。さらに、いくつかの例では、データセンタは仮想化された環境であってもよい。さらに、ほんの少数のデータセンタが示されているが、多数のデータセンタがネットワークおよび／または追加のネットワークを介して結合されてもよい。

図２に示すように、各データセンタは、プロセッサ２２０、サーバ、シャード、セルなどの１つ以上のコンピューティングデバイス２１０を含んでもよい。各データセンタは、任意の数のコンピューティングデバイスを含んでもよく、１つのデータセンタ内のコンピューティングデバイスの数は、別のデータセンタ内のコンピューティングデバイスの数と異なってもよく、所与のデータセンタ内のコンピューティングデバイスの数は、例えば、ハードウェアが除去、交換、アップグレード、または拡張されるにつれて、経時的に変化してもよいことを理解されたい。

各データセンタはまた、ハードドライブ、ランダムアクセスメモリ、ディスク、ディスクアレイ、テープドライブ、もしくは任意の他のタイプのストレージデバイス等の、いくつかのストレージデバイスまたはメモリ２３０を含んでもよい。データセンタは、限定はしないが、直接接続ストレージ（ＤＡＳ）、ネットワーク接続ストレージ（ＮＡＳ）、ストレージエリアネットワーク（ＳＡＮ）、ファイバチャネル（ＦＣ）、ファイバチャネルオーバーイーサネット（登録商標）（ＦＣｏＥ）、混合アーキテクチャネットワークなどを含む、いくつかのアーキテクチャおよび技術のいずれかを実現してもよい。データセンタは、ストレージデバイスに加えて、同じデータセンタまたは異なるデータセンタのコンピューティングデバイス間、データセンタのコンピューティングデバイスとネットワークシステムのコントローラ（図示せず）との間、およびデータセンタのコンピューティングデバイスとケーブル、ルータ等、ネットワークシステムに接続されたクライアントコンピューティングデバイス（図示せず）との間の入力および出力を可能にする通信デバイス２６０などのいくつかの他のデバイスを含んでもよい。

コンピューティングデバイスの各々のメモリ２３０は、１つ以上のコンピューティングデバイス２１０において受信されるかまたはそれによって生成されるデータ２４０、および１つ以上のプロセッサ２２０によって実行されることができる命令２５０を含む、１つ以上のプロセッサ２２０によってアクセス可能な情報を記憶することができる。

データ２４０は、アップロードされたデータオブジェクトなどの記憶されたデータ２４２、アップロードされたデータオブジェクト２４２のメタデータを追跡するメタデータログ２４４、ならびにアップロードされたデータオブジェクト２４２が１つのデータセンタから別のデータセンタに転送される前に記憶されてもよい１つ以上のマイグレーションファイル２４６およびキャッシュされたデータファイル２４８を含んでもよい。記憶されたデータの上記の例の詳細は、以下でより詳細に論じられる。

命令２５０は、所与のデータオブジェクトファイルがアクセスされる可能性が高い１つ以上のロケーションを予測するよう構成されたロケーションアクセス予測プログラム２５２を含んでもよい。そのようなロケーションは、分散ネットワークの１つ以上の領域であってもよい。命令２５０は、１つ以上のマイグレーションファイル２４６およびキャッシュされたデータファイル２４８にそれぞれ記憶されたデータオブジェクトファイルの転送を実行するよう構成されたデータマイグレーションプログラム２５４およびデータキャッシュプログラム２５６をさらに含んでもよい。記憶されたプログラムの上記の例の詳細も、以下でより詳細に論じる。

いくつかの例では、コントローラは、データセンタ内のコンピューティングデバイスと通信してもよく、プログラムの実行を容易してもよい。例えば、コントローラは、各コンピューティングデバイスの容量、ステータス、処理負荷、または他の情報を追跡し、そのような情報を用いてタスクを割り当ててもよい。コントローラは、プロセッサと、データおよび命令を含むメモリとを含んでもよい。他の例では、そのような動作は、データセンタのうちの１つにおけるコンピューティングデバイスのうちの１つ以上によって実行されてもよく、独立したコントローラがシステムから省略されてもよい。

データセンタにアップロードされた、アップロードされたデータ１０１は、アップロードされたデータの様々なプロパティを示すメタデータを含んでもよい。メタデータは、データがアップロードされるデータセンタ（図１の例では、データセンタ１４０ｂ）にログ記録されてもよく、記憶されてもよく、またはその両方であってもよい。図１の例では、アップロードされたデータのメタデータ１５５を記憶するためにメタデータログ１５０がデータセンタ１４０ｂに提供される。

メタデータ１５５は、データがアップロードされる領域、データセンタ、またはその両方の識別情報を含んでもよい。以下でより詳細に説明するように、アップロードされたデータは地理的領域間で戦略的にマイグレートされるので、場合によっては、データがアップロードされるロケーションは、データが記憶されるロケーションとは異なり得る。加えて、場合によっては、データは、データがアップロードされるロケーションを含む、またはそれを除外する、複数のロケーションに記憶されてもよい。そのような場合、メタデータはさらに、データが記憶される領域、データセンタ、またはそれら両方の識別情報を含んでもよい。

他のメタデータは、アップロード当事者の顧客識別情報、オブジェクト名、オブジェクトタイプ、オブジェクトサイズ、データがアップロードされるディレクトリまたはフォルダの名前（オブジェクトを記憶するために用いられるバケット名等）、オブジェクト名プレフィックス（オブジェクトを記憶するために複数のレベルのディレクトリ階層が用いられる場合、アップロードされたオブジェクトのファイルパスなど）、アップロード時間、第１のダウンロード時間、後続のダウンロードおよびそれらの時間、アクセス要求の数などを含んでもよいが、それらに限定はされない。本質的に、メタデータは、オブジェクトのプロパティと、オブジェクトについての実行中のアクセスログとの両方を含んでもよい。

さらに、データが複数のロケーションに記憶される場合、各ロケーションが、その同じデータオブジェクトについて、異なるメタデータに関連付けられてもよいことを認識されたい。例えば、領域１に記憶されたオブジェクトは、領域２に記憶された同じオブジェクトよりも早くダウンロードされ得る。さらなる例として、オブジェクトに対するアクセス要求の数は、ロケーションごとに異なり得る。したがって、アップロードされたオブジェクトからのメタデータは、オブジェクトが最終的に記憶される各ロケーションで別々にログ記録されてもよい。図１の例では、データセンタ１１０ａ、１１０ｂ、１２０ａ、１２０ｂ、１３０ａ、１３０ｂ、１４０ａ、１４０ｂの各々は、それ自体のアクセスログ（データセンタ１４０ｂを除いて図示せず）を含んでもよく、それは、そのデータセンタにアップロードされたデータオブジェクトのメタデータを含む、それらのオブジェクトまたはファイルのログを記憶してもよい。

各アップロードされたオブジェクトのメタデータは、メタデータアグリゲータ１６０を用いて複数の領域にわたって追跡されてもよい。アグリゲータ１６０は、集約スケジュールに従ってなど、定期的に各データセンタのメタデータログからメタデータを収集することが可能であってもよい。集約されたメタデータは、メタデータの変化が経時的に追跡されることを可能にするために、タイムスタンプが付されてもよい。たとえば、メタデータログアグリゲータによって収集された、集約されたログは、前週からのメタデータ、前月からのメタデータ、３ヶ月前からのメタデータ、３ヶ月前より長い期間からのメタデータなど、各集約されたログによって表される持続時間に従って分類されてもよい。分類されたログにわたるメタデータの差は、アップロードされたデータにアクセスすることに対する関心の増加または減少など、アップロードされたデータにおける経時的な変化を示してもよい。加えて、所与のアップロードされたデータオブジェクトについてのメタデータは、全体として、または記憶位置ごとに、追跡されてもよい。したがって、集約されたログは、所与のアップロードされたデータオブジェクトについてのメタデータの全体的な変化、およびアップロードされたデータオブジェクトについての領域固有またはデータセンタ固有の変化を示してもよい。

次いで、集約されたデータは、モデル１７０をトレーニングするために、予測モデル１７０に供給されてもよい。予測モデルをトレーニングすることによって、将来アップロードされるデータがアクセスされる可能性が最も高い場所を、より良好に予測することができ、それにより、将来アップロードされるデータの配置を改善して、将来アップロードされるデータへのアクセスをより効率的にすることができる。予測モデル１７０は、システムのデータセンタの１つにおけるなど、システム１００に記憶された機械学習アルゴリズムであってもよい。予測モデルは、決定木モデルであってもよく、それにより、集約されたデータは、以前にアップロードされたデータがどれくらいの頻度でどこからアクセスされたかについての情報を含んでもよく、したがって、あるコストを、システム内の以前にアップロードされたデータの配置と関連付けてもよい。この情報に基づいて、予測モデル１７０は、過去にアップロードされたデータのアクセスパターンに基づいて、将来アップロードされるデータの戦略的配置を決定してもよい。

他の例では、予測モデルを構築するために、他のタイプの機械学習アルゴリズムが適用されてもよい。よりヒューリスティックなタイプの方法も可能であってもよく、それにより、特定の情報が将来アップロードされるデータの配置を指示してもよい。例えば、所与のユーザによってアップロードされた、いくつかの以前にアップロードされたデータオブジェクトが、ある領域において閾値数のダウンロードを有する場合、これは、そのユーザによってアップロードされる将来のデータオブジェクトが、その閾値数のダウンロードを有する領域に送信され、記憶されることを保証してもよい。

予測モデル１７０は動的であってもよい。例えば、アグリゲータ１６０によるメタデータおよびアクセスログの集約は、一貫した、可能なスケジュールされたベースで、例えば毎週１回、２週間毎に１回、毎月１回、またはそれより少ない頻度もしくはより多い頻度で行ってもよい。モデルが更新される頻度は、さらに、このシステム１００が適用されている特定のネットワーク上で記憶および共有されるデータの性質に依存してもよい。すなわち、比較的ゆっくりとした変化を有するいくつかの製品については、１ヶ月に１回で充分であってもよい。しかしながら、ユーザの傾向が絶えず変化しており、アクセスパターンが絶えずシフトしている他のプラットフォームまたは製品では、月に１回の更新は不充分であるかもしれず、なぜならば、週に１回など、モデルの、より定期的な更新が好ましい場合があるからである。

予測モデル１７０が、以前にアップロードされ記憶されたデータでトレーニングされると、それを用いて、現在または将来アップロードされるデータがアクセスされる可能性が最も高い場所を予測してもよい。図１の例では、アップロードされたデータ１０１の所与の単位がデータセンタ１４０ｂで受信されると、データは、まず、アクセスロケーション予測器１８０によって処理されるので、データサーバ１４５に記憶される。アクセスロケーション予測器１８０は、データがアップロードされたのと同じ領域においてデータがアクセスされる可能性が高いかどうか、データがシステムの別の領域においてアクセスされる可能性が高いかどうかを判断してもよい。アクセスロケーション予測器１８０は、さらに、アップロードされたデータ１０１のアップロードとダウンロードとの間の時間量を予測してもよい。これらの判断に基づいて、アップロードされたデータ１０１は、データサーバ１４５に記憶されたままであってもよく、１つ以上のマイグレーションファイル１９０に記憶されてもよく、キャッシングサーバ１９５に記憶されてもよく、またはそれらの任意の組合せであってもよい。ストレージ判断動作は、図５に関連して以下でより詳細に論じられる。

データサーバ１４５における記憶は、概して永続的であり、これは、データがそこに記憶され、移動されないことを意図され、したがって、無期限に、または手動で削除されるまで、記憶されたままであってもよいことを意味する。対照的に、マイグレーションファイル１９０およびキャッシングサーバ１９５における記憶は、概して一時的であり、データは、別のロケーションに転送されることが意図され、意図された転送後のある時点で自動的に削除されてもよいことを意味する。データ転送動作については、図６に関連して以下でより詳細に説明する。

マイグレーションファイル１９０は、図１ではデータサーバとは別個に示されているが、マイグレーションファイルは、実際には、データセンタ１４０ｂの１つ以上のサーバに記憶されてもよく、したがって、データサーバに記憶されてもよいことを認識されたい。加えて、マイグレーションファイルのコンテンツは、マイグレーション後など、定期的に削除されてもよいが、ファイル自体は永続的であってもよい。さらに、ファイルは、ファイルのコンテンツが送信される宛先を示すヘッダ情報などの永続的な情報を含んでもよい。マイグレーションファイルは、ネットワークの分散型ファイルシステムのファイルであってもよい。データサーバに記憶されたデータは、分散型ファイルシステムの大きなファイルに記憶されてもよいことも認識されるべきである。事実上、データサーバの大きなファイルは、ファイルのコンテンツがそれらの意図された宛先にあることを示す情報を有するファイルであってもよい。例えば、データセンタ１４０ｂのデータサーバ１４５に書き込まれるファイルは、領域４の宛先を示すヘッダを有してもよく、それにより、ファイルのコンテンツを異なる領域に送信する必要がないと判断されてもよい。

キャッシングサーバ１９５は、本明細書で説明される予測注入キャッシングと、（本明細書で説明するように、注入をトリガする推測された要求と比較しての）実際のデータ要求に対するオンデマンドキャッシングとの両方のために、データセンタによって用いられてもよい。

説明のため、図１のメタデータアグリゲータ１６０および予測モデル１７０は、地理的領域１１０、１２０、１３０、１４０およびデータセンタの各々とは別個に示され、アクセスロケーション予測器１８０は、データセンタ１４０ｂに含まれるものとして示される。しかしながら、アグリゲータ１６０、予測モデル１７０、およびアクセスロケーション予測器１８０に記憶されるデータ、ならびにそれらによって実行される命令は、地理的領域の複数のデータセンタにわたって分散されること、もしくはシステムの複数の地理的領域にわたって分散されることを含む、示される領域およびデータセンタ内、または示されない他の領域もしくはデータセンタ内、またはそれらの任意の組合せ内など、システム内のどこにあってもよいことを認識されたい。

例示的方法
図３は、分散ネットワークにデータを記憶するための例示的なルーチン３００を示すフロー図である。ネットワークは、図１の領域１１０，１２０，１３０および１４０などの様々な地理的領域にわたって分散される、図１のデータセンタ１１０ａ、１１０ｂ、１２０ａ、１２０ｂ、１３０ａ、１３０ｂ、１４０ａおよび１４０ｂなどの複数のデータセンタを含んでもよい。本方法における動作のいくつかは、データが転送され、およびデータを転送するデータセンタのプロセッサによって実行されてもよく、いくつかの動作は、他のデータセンタのプロセッサ、またはデータセンタもしくは地理的領域から独立したプロセッサおよびサーバによって実行されてもよい。

ブロック３１０で、ネットワークの第１の領域に属するデータセンタにデータをアップロードしてもよい。アップロードされたデータは、データオブジェクト、およびアップロードの時間、データオブジェクトのタイプ、オブジェクトがアップロードされたロケーションなど、アップロードされたデータオブジェクトのメタデータを含んでもよい。

ブロック３２０において、ネットワーク内に以前に記憶された、以前にアップロードされたデータに関するアクセス情報が受信され、分析されてもよい。以前にアップロードされたデータはまた、そのアップロード時にメタデータを含んでもよく、さらに、以前にアップロードされたデータがアクセスされた時間、以前にアップロードされたデータがアクセスされたロケーションなどを示すメタデータなど、アップロード後に収集された追加のメタデータを有してもよい。

ブロック３３０において、アップロードされたデータがアクセスされる可能性が高い、ネットワークの地理的領域に関する予測を行ってもよい。この予測または判断は、現在アップロードされるデータのメタデータ、および以前にアップロードされたデータに関するアクセス情報に基づいてもよい。加えて、この予測は、アクセスされている、現在アップロードされるデータに先行してもよく、それにより、アップロード時における現在アップロードされるデータのメタデータは、予測に対して充分であってもよい。以前にアップロードされたデータの情報において認識されたパターンは、現在アップロードされるデータのアクセスについての見込みのある結果を示し得、したがって、現在アップロードされるデータを記憶するための理想的なロケーションを予測するために用いられてもよい。多くの場合、アップロードされたデータを、それが最初にアップロードされたデータセンタに記憶することが好ましい場合がある。しかしながら、他の場合には、追加的または代替的に、アップロードされたデータを異なるデータセンタに、または異なる地理的領域であっても、記憶することが好ましい場合がある。

ブロック３４０において、アップロードされたデータは、元のデータセンタから、データがアクセスされる可能性が高い他のデータセンタに転送されるように指示される。他のデータセンタは、最初の地理的領域以外の地理的領域に位置してもよく、したがって、これらの他の地域におけるアップロードされたデータへのアクセスをより効率的なものにする。効率は、より高速にデータにアクセスすること、全体的により少ない帯域幅を費やすこと、より多くの利用可能な帯域幅を有する接続を介して実行されること、またはこれらおよび他の要素の任意の組合せの尺度であってもよい。

図４は、図３のルーチン３００の例示的なサブルーチン４００を示すフロー図である。サブルーチン４００は、アップロードされたデータオブジェクトについての１つ以上の宛先領域の決定、および決定された宛先領域の１つ以上のデータセンタへのデータオブジェクトの配信を実行するために実行されてもよい例示的な動作を示す。

ブロック４１０において、現在アップロードされるデータがアクセスされる１つ以上の地理的領域が予測される。この予測は、図１に示されるアクセスロケーション予測器１８０などのアクセス予測プログラムによって行われてもよく、図１に示される予測モデル１７０など、以前にアップロードされたデータのアクセスログでトレーニングされた予測モデルからの出力に基づいてもよい。予測モデルは、以前にアップロードされたデータのアクセスパターンを認識してもよく、現在アップロードされるデータがアクセスされる可能性が高いパターンに基づいて予測してもよい。

ブロック４２０において、現在アップロードされるデータは、図１のマイグレーションファイル１９０など、第１の領域以外の宛先領域へのアップロードされたデータのマイグレーションのために指定された１つ以上のファイルに、コピーまたは移動などして、送信されてもよい。現在アップロードされるデータが送信されるファイルは、ブロック４１０の予測に基づいてもよく、それにより、データは、アクセスされることが期待される領域に転送されることになる。

ブロック４３０において、現在アップロードされるデータが予測された地理的領域においてアクセスされるまでの時間量が予測される。この予測も、予測モデルからの出力に基づいてもよい。この場合、予測モデルにトレーニングデータとして与えられる、以前にアップロードされたデータのアクセスログは、アップロード時刻や、データにアクセスした最初の時刻または毎回のログなど、以前にアップロードされたデータのアップロードと最初のアクセスとの間の方向を判断または導出できる情報を含むべきである。予測モデルは、以前にアップロードされたデータのアクセスパターンを認識してもよく、これらのパターンに基づいて、現在アップロードされるデータがアクセスされる可能性が高いときを予測してもよい。

ブロック４４０において、現在アップロードされるデータがアクセスされる可能性が高いときの予測は、現在時刻からの時間量などの閾値と比較されてもよい。現在アップロードされるデータがアクセスされるまでの予測された時間量が閾値量を超えるかまたは等しく、現在アップロードされるデータが比較的即座にアクセスされることが期待されないことを意味する場合、動作は終結してもよく、データは、１つ以上のマイグレーションファイルを用いて比較的遅いペースでマイグレートされてもよい。逆に、現在アップロードされるデータがアクセスされるまでの予測された時間量が閾値量未満であり、現在アップロードされるデータが比較的即座にアクセスされると期待される場合、動作はブロック４５０に続いてもよく、それにより、現在アップロードされるデータは、図１のキャッシングサーバ１９５などのキャッシングサーバに送信（コピーまたは移動）されて、同じ地理的領域または１つ以上の異なる地理的領域のいずれかにおいて、リモートデータセンタのキャッシングサーバに注入される。マイグレーションファイルと同様に、データがどのデータセンタ、領域、またはそれらの両方に注入されるかの判断は、ブロック４１０におけるアクセスロケーション予測器の判断に基づいてもよい。

図４の例では、アップロードされたデータをマイグレーションファイルに送信するという判断は、データを転送することの緊急性または優先度を判断する前に行われたものとして示されている。このように、データをマイグレートする判断は、データを必要とする時間が早いか遅いかにかかわらず、すなわち、データが宛先に注入されるか否かにもかかわらずに、行われる。しかしながら、他の例では、比較的短い貯蔵寿命を有するライブストリーミングビデオなど、即座にのみアクセスされ、後の時間ではアクセスされない可能性が高いデータがある場合がある。そのような場合、システムは、アップロードされたデータを遠隔データセンタのキャッシングサーバに注入するが、データが不必要に遠隔データセンタに永続的に記憶されることを回避するために、アップロードされたデータをマイグレーションファイルに追加しないよう判断してもよい。

図５は、図３のルーチン３００のブロック３３０および３４０に示されるように、アップロードされたデータがアクセスされる可能性が高いネットワークの地理的領域を予測し、アップロードされたデータを予測された地理的領域に転送するように指示するアクセスロケーション予測器５２０の例示的な動作を示す動作ブロック図５００である。アクセスロケーション予測器５２０は、領域４のデータセンタにアップロードされたデータオブジェクト５０１_１～５０１_Ｎを、マイグレーションファイル５３２、５３４、５３６、キャッシングサーバ５５０、またはその両方に選択的に移動またはコピーする。また、上述のように、アクセスロケーション予測器５２０は、オブジェクトからのメタデータと、アップロードされたデータがアクセスされる可能性が高いロケーションを予測するために用いられる予測モデルの出力とに基づいて、各アップロードされたデータオブジェクト５０１_１～５０１_Ｎの配置を決定してもよい。

図５の例では、アップロードされたデータオブジェクト５０１_１～５０１_Ｎの各々は、異なるメタデータを有する。したがって、アクセスロケーション予測器５２０は、アップロードされたデータオブジェクト５０１_１～５０１_Ｎの各々に対して異なる配置戦略を決定する。

アップロードされたオブジェクト１（５０１_１）の例では、アクセスロケーション予測器５２０は、このオブジェクトが領域２においてアクセスされる可能性が高いと判断する。したがって、オブジェクト１は、データサーバからマイグレーションファイル５３４に移動され、これは、オブジェクト１がアップロードされるデータセンタから領域２にマイグレートされるオブジェクト専用のファイルであってもよい。

図５に示すように、各マイグレーションファイルは、ファイルの宛先を示してもよい、ファイルへのヘッダなど、共通メタデータ５４２を含んでもよい。共通メタデータを提示することは、このメタデータが、各付加されたオブジェクト５４４についてマイグレーションファイルに別々に書き込まれる必要性を回避し、これは、マイグレーションファイル内の空間を節約し得、オブジェクトをデータサーバからマイグレーションファイルに移動するための処理要件をさらに低減し得る。宛先領域の場合、このメタデータをマイグレーション後にオブジェクトに再書き込みする必要もなく、なぜならば、宛先領域は、当該オブジェクトと当該領域に記憶された他のすべてのオブジェクトとの共通のメタデータのままであるからである。宛先領域など、共通メタデータとは別に、各オブジェクトの残りのメタデータは、マイグレーション中にオブジェクトメタデータを維持するよう、オブジェクトとともに移動またはコピーされてもよい。

いくつかの例では、マイグレーションファイルは、所定の容量を有してもよく、それにより、オブジェクトがマイグレーションファイルに移動またはコピーされて、マイグレーションファイルが所定の容量を満たすかまたはそれを超えると、マイグレーションファイルは、宛先領域の１つ以上のデータセンタに転送されてもよい。加えて、または代替として、マイグレーションファイルは、マイグレーションファイルの作成から所定の時間が経過した後、宛先領域の１つ以上のデータセンタに転送されてもよい。オブジェクトを転送するための動作は、図４に関連して以下でより詳細に説明される。

オブジェクトが１つの領域のみからアクセスされる可能性が高いと判断された場合、オブジェクトは、オブジェクト１の例のように、単一の宛先に移動されてもよい（５０１_１）。しかしながら、他の場合には、オブジェクトがアップロードされる領域を含むかまたは除外する複数の領域からオブジェクトがアクセスされる可能性が高い、と判断される場合がある。そのような場合、アクセスロケーション予測器５２０は、オブジェクトを複数のマイグレーションファイルに移動またはコピーするよう判断してもよい。

アップロードされたオブジェクト２（５０１_２）の例では、アクセスロケーション予測器５２０は、このオブジェクトが領域１、３、および４の各々においてアクセスされる可能性が高いと判断する。したがって、オブジェクト２は、データサーバから、オブジェクト２がアップロードされるデータセンタから領域１および領域３にマイグレーションされるオブジェクト専用のファイルであってもよいマイグレーションファイル５３２および５３６の各々にコピーされる。オブジェクトはまた、領域４においてアクセスされ得るように、データサーバにおいて永続的に記憶されたままであってもよい。

上述のように、ある領域から別の領域へのオブジェクトのマイグレーションは、ファイルがいくつかのデータオブジェクトで満たされた後に開始してもよい。マイグレーションファイルは大きい場合があるため、マイグレーションファイルが満たされるまでに時間がかかる場合がある。しかしながら、場合によっては、データオブジェクトは、ネットワークの遠隔領域において高需要であり得るが、それは、データマイグレーションが生じる前の一時に対してのみである場合がある。この場合、マイグレーションファイルを用いるデータオブジェクトの遅いペースの戦略的再配置は、他の領域のユーザが、そのデータオブジェクトが高需要にある間にそれに効率的にアクセスする能力を損なうであろう。例えば、あるユーザがヨーロッパにおいてライブビデオをストリーミングしており、米国における何人かのユーザがそのストリーミングされたビデオに直ちにアクセスすることを望む場合、ビデオファイルがヨーロッパにおけるデータセンタから米国におけるデータセンタにマイグレートするのを待つことは有用ではなく、ストリーミングされたビデオが米国におけるデータセンタに記憶された後、それに対する要求はもはや存在しないことさえあり得る。

この課題に対処するために、オブジェクトファイルは、データがアップロードされた後どれほど早くそれがアクセスされるかを判断してもよいメタデータを含んでもよい。例えば、図１のシステムでは、メタデータアグリゲータ１６０は、各記憶されたオブジェクトについてのアップロードの時間と最も早いダウンロードの時間との両方を示すメタデータを収集することができる。次いで、このデータを用いて、将来アップロードされるデータオブジェクトが、それがシステムにアップロードされた後すぐにアクセスされるかそれとも長時間後にアクセスされるかを予測するために、予測モデル１７０をトレーニングしてもよい。次に、この情報は、任意の所与のアップロードされたデータオブジェクトについて、そのオブジェクトがダウンロードされる可能性が高くなるまでの時間量を判断するために、アクセスロケーション予測器１８０によって用いられてもよい。システムはさらに、閾値時間値を記憶してもよく、それにより、オブジェクトがダウンロードされる可能性が高くなるまでの予測された時間量が閾値量以下である場合には、オブジェクトは、マイグレーションファイルを介する通常のデータマイグレーションスキームを迂回し、アップロードされたデータオブジェクトをシステムの他の領域に比較的高速で転送するために、キャッシングサーバ３５０に移動またはコピーされてもよい。

アップロードされたオブジェクト３（５０１_３）の例では、アクセスロケーション予測器５２０は、このオブジェクトが閾値時間内において高需要である可能性が高いと判断する。したがって、オブジェクト３は、データサーバからキャッシングサーバ５５０にコピーされ、したがって、ファイルは、アクセスロケーション予測器５２０の判断に基づいて、領域４、ならびに領域１、領域２および領域３を含むがこれらに限定されない他の領域内において、遠隔データセンタのキャッシングサーバに注入されてもよい。オブジェクト３は、データセンタのデータサーバに記憶されたままであってもよい。

多くの場合、アップロードされたオブジェクトは、それがアップロードされた領域のみからアクセスされる可能性が高いと判断され得る。これは、ユーザ間で共有されない個人的に記憶されたファイルの場合、または互いに地理的に近接したユーザのグループ間で共有されるファイルの場合であり得る。そのような場合、アクセスロケーション予測器５２０は、アップロードされたオブジェクトがマイグレーションファイル５３２、５３４、５３６またはキャッシングサーバ５５０のいずれかにコピーされるべきではない、と判断してもよい。代わりに、オブジェクトは、オブジェクトがアップロードされたデータセンタのデータサーバに記憶されたままである。アップロードされたオブジェクト４（５０１_４）の例では、アクセスロケーション予測器５２０は、このオブジェクトが元の領域４のみでアクセスされる可能性が高いと判断する。したがって、オブジェクト４はデータサーバからコピーされない。

ファイルをデータサーバに保持すること、ファイルをマイグレーションファイルにコピーすること、またはファイルをキャッシングサーバにコピーすることは、独立した動作として扱われてもよいことに留意されたい。したがって、１つの動作を実行するという判断は、他の動作が実行されることを排除しない。たとえば、ストリーミングされたビデオファイルなどのブロードキャストデータは、複数の領域にわたって即時および後の時間の両方において高需要である場合がある。そのような場合、ファイルは、長期および短期の両方の要求に対処するために、元のデータサーバ内にとどまるべきであり、かつマイグレーションファイルおよびキャッシングサーバの両方にコピーされるべきである、と判断されてもよい。この判断は、アップロードされたデータがブロードキャストデータであること、および予測モデルによって検出された他のアクセスパターンに少なくとも部分的に基づいてもよい。

アップロードされたオブジェクトＮ（５０１_Ｎ）の例では、アクセスロケーション予測器５２０は、このオブジェクトが、領域３および４の両方において、閾値時間内および後の時間において高需要である可能性が高い、と判断する。したがって、オブジェクトＮは、データサーバからマイグレーションファイル５３６およびキャッシングサーバ５５０の両方にコピーされ、したがって、オブジェクトは、即時需要に対処するために領域３のキャッシングサーバに注入され得、および長期需要に対処するために領域３の永久ストレージにマイグレートされてもよい。

図６は、図１のアクセスロケーション予測器１８０または図５のアクセスロケーション予測器５２０などのアクセスロケーション予測器によって行われる判断に従って、アップロードされたデータオブジェクトを配信するための例示的な動作を示すブロック図である。図６の例は、分散ネットワークシステム６００の領域４（６４０）から領域１（６１０）および領域２（６２０）の両方にマイグレート（長期）および注入（短期）されるアップロードされたオブジェクトを示す。各領域は、１つ以上のデータセンタ６１０ａ、６２０ａ、６４０ａを含んでもよく、それにより、各データセンタは、１つ以上のそれぞれのプロセッサ６１２、６２２、６４２、データサーバ６１４、６２４（領域４については図示せず）、およびキャッシングサーバ６１６、６２６、６４６を含んでもよい。例示の目的で、マイグレーションファイル６４４は、領域４のデータセンタ６４０に記憶されるものとして示されているが、マイグレーションファイルは、他の領域のデータセンタにも記憶されて、それら他の領域においてアップロードされるオブジェクトがネットワーク全体にわたって転送されることも容易にしてもよい。

動作中、領域４のデータセンタ６４０ａのマイグレーションファイル６４４のコンテンツの移動は、システム６００のデータマイグレーションコントローラ６５０がプログラムを実行することによって開始することができ、それにより、データセンタ６１０ａは、そのサーバに記憶されたデータのファイルについて問い合わせられる。プロセッサ６４２は、クエリを受信してもよく、それに応答して、各ファイルの宛先を示す情報を提供してもよい。領域４に記憶されるべきファイルの場合、それにより、宛先は領域４であり、データマイグレーションコントローラ６５０は、さらなるアクションを取らなくてもよい。逆に、領域１および領域２ファイルなど、他の領域に記憶されるべきファイルの場合、それにより、ファイルによって示される宛先は領域４ではなく、データマイグレーションコントローラ６５０は、ファイルから識別された宛先へのデータのマイグレーションを開始することを判断してもよい。データマイグレーションコントローラ６５０は、プロセッサ６１２、６２２など、各識別された宛先の１つ以上のプロセッサに命令を送信してもよい。これらの命令に基づいて、プロセッサは、それらのそれぞれのロケーションにあるデータサーバ６１４、６２４に、データマイグレーションを実行するように命令してもよく、それにより、各データサーバ６１４、６２４は、領域４にあるそれぞれのマイグレーションファイル６４４にアクセスし、それを読み出してもよい。マイグレーションファイル６４４を読み出した後、マイグレーションファイル６４４のコンテンツを削除してもよい。このプロセスは、領域４において、データセンタ６１０ａにアップロードされる将来のデータオブジェクトに対して繰り返されてもよい（６４０）。

領域４のデータセンタ６４０ａのキャッシングサーバ６４６のコンテンツを移動させることは、サーバ６４６が転送されるべきデータをプリフェッチし、それをアクセスロケーション予測器の命令に従ってリモートデータセンタのキャッシングサーバ６１６、６２６に注入することで開始してもよい。注入は、比較的即時のスケールで実行されてもよく、これは、データ注入を開始する前に実行されるさらなるステップがないことを意味する。これは、データを他のデータセンタで可能な限り速く利用可能にし得る。データが固定かつ制限された数のデータセンタおよび固定かつ制限された数の宛先領域のロケーションに記憶され得るデータマイグレーションとは異なり、キャッシュ注入は、アップロードおよび転送されるオブジェクトのコピーを、宛先領域のすべてのデータセンタのキャッシュを含むがこれに限定されない、当該アップロードおよび転送されるオブジェクトが送信される任意の所与の領域の複数のデータセンタに配置してもよい。これは、オンデマンドデータが多くのユーザによって短時間でアクセスされることを可能にし得る。同期キャッシュ注入は、同期複製と比較して、比較的高速かつ効率的である。

上記の例は、データセンタおよび領域によるデータ配信スキームに言及する。しかしながら、当業者は、同じ原理が、データが異なるように編成される他のシステムに適用されてもよいことを容易に認識するであろう。基底の原理は、グローバルネットワークなどの大規模ネットワークのいくつかの部分がそのネットワークの他の部分よりも任意の所与のユーザに近くあり得、データがアクセスされるロケーションを予測し得る程度まで、データがアップロードされた後に、そのデータを、それがアクセスされるロケーションにより近く移動させることは有利であり得ることである。この点に関して、特定のユーザまたはユーザのグループが将来そのデータにアクセスする可能性が高いと予測できる場合、そのデータは、予測される、アクセスするユーザにより近いデータセンタ、サーバ、または他のユニットストレージに移動され得る。

さらに、上記の例は、概して、ロケーションが地理的により近いとき、そのロケーションはユーザにより近いものとして説明する。しかしながら、当業者は、データの「近さ」が必ずしも地理的距離の尺度ではなく、むしろデータにアクセスするためのコストの尺度であることを認識するであろう。したがって、データが、ユーザまたはユーザのグループに「より近い」か、またはデータがアクセスされると予測されるロケーションに「より近い」とき、そのロケーションは、契約当事者によって用いられる帯域幅、時間、帯域幅の料金、これらまたは他の要因の任意の組合せなど、データにアクセスするための全体的なコストを低減するように選択されてもよい。

本明細書の技術は、特定の実施形態を参照して説明されているが、これらの実施形態は、本技術の原理および適用の単なる例示であることを理解されたい。したがって、特許請求の範囲によって基底される本技術の精神および範囲から逸脱することなく、例示的な実施形態に多数の修正を加えることができること、および他の構成を考案することができることを理解されたい。

関連出願の相互参照
本出願は２０１９年１１月４日に提出された米国特許出願第１６／６７３，１２８号の継続であり、その開示は参照により本明細書に組み込まれる。

Claims

複数の地理的領域にわたって分散された複数のデータセンタを有する分散ネットワークにデータを記憶するための方法であって、
１つ以上のプロセッサが、前記分散ネットワークの第１のデータセンタにアップロードされたデータを受信することを含み、前記アップロードされたデータはメタデータを含み、前記方法はさらに、
前記１つ以上のプロセッサが、以前にアップロードされたデータについてアクセス情報を受信することと、
前記アップロードされたデータがアクセスされる前に、前記１つ以上のプロセッサが、前記メタデータおよび前記アクセス情報に基づいて、前記アップロードされたデータがアクセスされる前記複数の地理的領域のうちの１つ以上を予測することと、
前記１つ以上のプロセッサが、前記アップロードされたデータを、前記第１のデータセンタから、前記予測された地理的領域のうちの１つ以上に位置する１つ以上の第２のデータセンタに転送するように命令することとを含む、方法。
前記アクセス情報は、前記以前にアップロードされたデータのメタデータでトレーニングされた予測モデルから導出される、請求項１に記載の方法。
前記予測モデルは決定木モデルである、請求項２に記載の方法。
前記メタデータは、前記アップロードされたデータをアップロードしたユーザの識別情報と、前記アップロードされたデータがアップロードされたロケーションとを含む、請求項１に記載の方法。
前記以前にアップロードされたデータの前記メタデータは、前記以前にアップロードされたデータのロケーションと、前記以前にアップロードされたデータをアップロードしたユーザの識別情報と、前記以前にアップロードされたデータがアップロードされたロケーションとを含む、請求項２に記載の方法。
前記以前にアップロードされたデータの前記メタデータは、前記以前にアップロードされたデータが記憶されるディレクトリまたはファイルパスの識別情報をさらに含む、請求項５に記載の方法。
前記アクセス情報は、前記以前にアップロードされたデータの初期アップロードと前記以前にアップロードされたデータの第１のダウンロードとの間の時間量を示し、前記方法は、
前記１つ以上のプロセッサが、前記アップロードされたデータが初めてダウンロードされるまでの時間量を予測することと、
前記１つ以上のプロセッサが、前記予測された時間量に基づいて、前記アップロードされたデータを、前記１つ以上の予測された地理的領域に位置する１つ以上のキャッシングサーバに送信するように命令することとを含む、請求項１に記載の方法。
前記アップロードされたデータを、前記１つ以上の予測された地理的領域に位置する１つ以上のキャッシングサーバに送信するように命令することは、さらに、
前記１つ以上のプロセッサが、前記メタデータおよび前記アクセス情報に基づいて、前記アップロードされたデータはブロードキャストデータであると判断することと、
前記アップロードされたデータが転送されるように命令される各所与の予測された地理的領域について、前記１つ以上のプロセッサが、前記アップロードされたデータを、前記所与の予測された地理的領域の各データセンタの少なくとも１つのキャッシングサーバに転送するように命令することとを含む、請求項７に記載の方法。
前記１つ以上のプロセッサが、前記アップロードされたデータを、共通の予測された地理的領域を有する、以前にアップロードされたデータを含むファイルに含むように命令することと、
前記１つ以上のプロセッサが、前記ファイルを、前記共通の予測された地理的領域に位置する１つ以上の第２のデータセンタに転送するように命令することとをさらに含む、請求項１に記載の方法。
前記ファイルは、最初に、第１のデータセンタに位置する１つ以上のソースサーバに記憶され、前記ファイルを転送するように命令することは、前記１つ以上のプロセッサが、前記共通の予測された地理的領域に位置する前記１つ以上の第２のデータセンタのデータサーバに、前記ファイルを、前記１つ以上のソースサーバからプルするように命令することを含む、請求項９に記載の方法。
複数の地理的領域にわたって分散された複数のデータセンタを有する分散ネットワークにデータを記憶するためのシステムであって、
前記分散ネットワークの第１のデータセンタにおける１つ以上のストレージデバイスを備え、前記１つ以上のストレージデバイスは、アップロードされたデータを前記第１のデータセンタに記憶するよう構成され、前記アップロードされたデータはメタデータを含み、前記システムはさらに、
前記１つ以上のストレージデバイスと通信する１つ以上のプロセッサを備え、前記１つ以上のプロセッサは、
前記分散ネットワークの前記複数のデータセンタに以前に記憶された、以前にアップロードされたデータに関するアクセス情報を受信し、
前記アップロードされたデータがアクセスされる前に、前記メタデータおよび前記アクセス情報に基づいて、前記アップロードされたデータがアクセスされる前記複数の地理的領域のうちの１つ以上を予測し、
前記アップロードされたデータを、前記第１のデータセンタから、前記予測された地理的領域のうちの１つ以上に位置する１つ以上の第２のデータセンタに転送するように命令するよう構成される、システム。
前記アクセス情報は、前記以前にアップロードされたデータのメタデータでトレーニングされた予測モデルから導出される、請求項１１に記載のシステム。
前記予測モデルは決定木モデルである、請求項１２に記載のシステム。
前記メタデータは、前記アップロードされたデータをアップロードしたユーザの識別情報と、前記アップロードされたデータがアップロードされたロケーションとを含む、請求項１１に記載のシステム。
前記以前にアップロードされたデータの前記メタデータは、前記以前にアップロードされたデータのロケーションと、前記以前にアップロードされたデータをアップロードしたユーザの識別情報と、前記以前にアップロードされたデータがアップロードされたロケーションとを含む、請求項１２に記載のシステム。
前記以前にアップロードされたデータの前記メタデータは、前記以前にアップロードされたデータが記憶されるディレクトリまたはファイルパスの識別情報をさらに含む、請求項１５に記載のシステム。
前記アクセス情報は、前記以前にアップロードされたデータの初期アップロードと前記以前にアップロードされたデータの第１のダウンロードとの間の時間量を示し、前記１つ以上のプロセッサは、
前記アップロードされたデータが初めてダウンロードされるまでの時間量を予測し、
前記予測された時間量に基づいて、前記アップロードされたデータを、前記１つ以上の予測された地理的領域に位置する１つ以上のキャッシングサーバに送信するように命令するよう構成される、請求項１１に記載のシステム。
前記１つ以上のプロセッサは、前記メタデータに基づいて、前記アップロードされたデータはブロードキャストデータであるという判断に基づいて、前記アップロードされたデータを、前記１つ以上の予測された地理的領域に位置する１つ以上のキャッシングサーバに送信するように命令するよう構成され、
前記アップロードされたデータが転送されるように命令される各所与の予測された地理的領域について、前記１つ以上のプロセッサは、前記アップロードされたデータを、前記所与の予測された地理的領域の各データセンタの少なくとも１つのキャッシングサーバに転送するように命令するよう構成される、請求項１７に記載のシステム。
前記１つ以上のプロセッサは、
前記アップロードされたデータを、共通の予測された地理的領域を有する、以前にアップロードされたデータを含むファイルに含むように命令し、
前記ファイルを、前記共通の予測された地理的領域に位置する１つ以上の第２のデータセンタに転送するように命令するよう構成される、請求項１１に記載のシステム。
前記ファイルは、最初に、第１のデータセンタに位置する１つ以上のソースサーバに記憶され、前記１つ以上のプロセッサは、前記共通の予測された地理的領域に位置する前記１つ以上の第２のデータセンタのデータサーバに、前記ファイルを、前記１つ以上のソースサーバからプルするように命令するよう構成される、請求項１９に記載のシステム。