JP2023101462A

JP2023101462A - コンピュータ実装方法、システム及びコンピュータプログラム（Ｋｕｂｅｒｎｅｔｅｓにおけるビッグデータに関するデータ局所性）

Info

Publication number: JP2023101462A
Application number: JP2022204803A
Authority: JP
Inventors: ワンルイ; Rui Wang; ボジアンジン; jing bo Jiang; ミンワンイ; yi ming Wang; リウヤン; Yan Liu
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2022-01-10
Filing date: 2022-12-21
Publication date: 2023-07-21
Also published as: CN116414518A; US20230222004A1

Abstract

【課題】Ｋｕｂｅｒｎｅｔｅｓ（登録商標）には、データ局所性に関する問題があることが判明している。【解決手段】アプリケーションを実行するためのコントローラ及びエグゼキュータポッドを含むＫｕｂｅｒｎｅｔｅｓコンピューティング環境の確立、及びその環境で実行すべきタスクに関する要求の受信段階により、Ｋｕｂｅｒｎｅｔｅｓコンピューティング環境のデータ局所性を制御する。コントローラは、サイドカーをディスパッチして、有向非巡回グラフ（ＤＡＧ）特徴アナライザへの入力のために、エグゼキュータポッドからリソースデータを収集する。有向非巡回グラフ（ＤＡＧ）特徴アナライザは、エグゼキュータポッドから、実行のために利用可能である最適な動的リソースを識別する。利用可能である最適な動的リソースを満たすエグゼキュータポッドが、Ｋｕｂｅｒｎｅｔｅｓコンピューティングで実行すべきタスクを実行する。【選択図】図５

Description

本発明は、概して分散コンピューティングの管理に関し、及びより詳細にはＫｕｂｅｒｎｅｔｅｓに関する。

ビッグデータシステムは、指数関数的に成長するオンラインデータ及びバッチデータを扱う大規模アプリケーションである。Ｋｕｂｅｒｎｅｔｅｓは、大規模インフラストラクチャにおいてアプリケーションを展開するために利用可能な選択肢である。Ｋｕｂｅｒｎｅｔｅｓは分散システムの一例である。Ｋｕｂｅｒｎｅｔｅｓは、クラスタ内の全てのマシンを単一のリソースプールとして扱う。Ｋｕｂｅｒｎｅｔｅｓは、効果的にスケジュールを管理し、リソースを割り当て、インフラストラクチャの健全性をモニタリングし、及び更にインフラストラクチャ及びワークロードの所望の状態を維持することにより、分散オペレーティングシステムの役割を果たす。Ｋｕｂｅｒｎｅｔｅｓは、クラウドサービス及びプライベートデータセンタ環境において複数のクラスタ及びインフラストラクチャを横断して現代のアプリケーションを実行することが可能なオペレーティングシステムである。Ｋｕｂｅｒｎｅｔｅｓには、ヘッドノード及びワーカノードを含む２つの層が含まれる。ヘッドノードは通常、ワークロードのライフサイクルのスケジューリング及び管理を担当する制御プレーンを実行する。ワーカノードは、アプリケーションを実行するワークホースとして動作する。ヘッドノード及びワーカノードの集合体がクラスタになる。Ｋｕｂｅｒｎｅｔｅｓのコンポーネントは、コントローラ及びスケジューラを含み得る。しかしながら、Ｋｕｂｅｒｎｅｔｅｓは、ビッグデータスタックの展開に関していくつかの問題点を有する。

本開示の方法、システム、及びコンピュータプログラム製品より前のＫｕｂｅｒｎｅｔｅｓには、データ局所性に関する問題があることが判明している。

本発明の一実施形態によれば、Ｋｕｂｅｒｎｅｔｅｓコンピューティング環境におけるデータ局所性を制御するためのコンピュータ実装方法が提供される。コンピュータ実装方法は、アプリケーションを実行するためのコントローラ及び少なくとも１つのエグゼキュータポッドを含むＫｕｂｅｒｎｅｔｅｓコンピューティング環境を確立する段階を含み得る。コンピュータ実装方法は、Ｋｕｂｅｒｎｅｔｅｓコンピューティング環境で実行すべきタスクに関する要求を受信する。コントローラは、サイドカーをディスパッチして、有向非巡回グラフ（ｄｉｒｅｃｔｅｄａｃｙｃｌｉｃｇｒａｐｈ：ＤＡＧ）特徴アナライザへの入力のために、少なくとも１つのエグゼキュータポッドからリソースデータを収集する。有向非巡回グラフ（ＤＡＧ）特徴アナライザは、少なくとも１つのエグゼキュータポッドから、実行のために利用可能である最適な動的リソースを識別する。利用可能である最適な動的リソースを満たす少なくとも１つのエグゼキュータポッドが、Ｋｕｂｅｒｎｅｔｅｓコンピューティング環境で実行すべきタスクを実行する。

別の実施形態において、ハードウェアプロセッサ；及びコンピュータプログラム製品を格納するメモリを含む、Ｋｕｂｅｒｎｅｔｅｓコンピューティング環境におけるデータ局所性を制御するためのシステムが提供される。コンピュータプログラム製品は、ハードウェアプロセッサによって実行されると、ハードウェアプロセッサに、アプリケーションを実行するためのコントローラ及び少なくとも１つのエグゼキュータポッドを含むＫｕｂｅｒｎｅｔｅｓコンピューティング環境を確立させる。このシステムはさらに、Ｋｕｂｅｒｎｅｔｅｓコンピューティング環境で実行すべきタスクに関する要求を受信すること、及びサイドカーをディスパッチして、有向非巡回グラフ（ＤＡＧ）特徴アナライザへの入力のために、少なくとも１つのエグゼキュータポッドからリソースデータを収集することができる。このシステムはさらに、有向非巡回グラフ（ＤＡＧ）特徴アナライザが、少なくとも１つのエグゼキュータポッドから、実行のために利用可能である最適な動的リソースを識別することを規定し得る。利用可能である最適な動的リソースを満たす少なくとも１つのエグゼキュータポッドが、Ｋｕｂｅｒｎｅｔｅｓコンピューティング環境で実行すべきタスクを実行する。

さらに別の実施形態では、Ｋｕｂｅｒｎｅｔｅｓにおけるデータ局所性を制御するためのコンピュータプログラム製品が提供される。コンピュータプログラム製品は、コンピュータ可読記憶媒体を含み得る。コンピュータ可読記憶媒体は、システムのプロセッサに、アプリケーションを実行するためのコントローラ及び少なくとも１つのエグゼキュータポッドを含むＫｕｂｅｒｎｅｔｅｓコンピューティング環境を確立させ；及びＫｕｂｅｒｎｅｔｅｓコンピューティング環境で実行すべきタスクに関する要求を受信させるように、プロセッサによって実行可能であるプログラム命令が具現化されたコンピュータ可読プログラムコードを有し得る。いくつかの実施形態において、コンピュータプログラム製品はさらに、ハードウェアプロセスを用い、サイドカーをディスパッチして、有向非巡回グラフ（ＤＡＧ）特徴アナライザへの入力のために、少なくとも１つのエグゼキュータポッドからリソースデータを収集する。コンピュータプログラム製品はさらに、有向非巡回グラフ（ＤＡＧ）特徴アナライザが、少なくとも１つのエグゼキュータポッドから、実行のために利用可能である最適な動的リソースを識別することを規定し得る。利用可能である最適な動的リソースを満たす少なくとも１つのエグゼキュータポッドが、Ｋｕｂｅｒｎｅｔｅｓコンピューティング環境で実行すべきタスクを実行する。

これら及び他の特徴及び利点は、これらの例示的な実施形態に関する以下の詳細な説明により明らかになり、以下の詳細な説明は、添付図面との関連で読まれるべきである。

以下の説明は、以下の図面を参照して好ましい実施形態の詳細を提供する。

本開示の１つの実施形態による、Ｋｕｂｅｒｎｅｔｅｓを用いるための例示的な環境の図である。

本開示の１つの実施形態による、Ｋｕｂｅｒｎｅｔｅｓにおけるビッグデータに関するデータ局所性を実現するためのシステムを示すフローチャート／ブロック図である。

有向非巡回グラフ図の１つの実施形態を示す。

本開示の１つの実施形態による、有向非巡回グラフ図によって生成されたリソース割り当ての推奨の１つの例を示す表である。

本開示の１つの実施形態による、Ｋｕｂｅｒｎｅｔｅｓにおけるビッグデータに関するデータ局所性を実現するための方法を示すフローチャート／ブロック図である。

本開示の１つの実施形態による、図２に示されるＫｕｂｅｒｎｅｔｅｓを用いるためのシステムを組み込むことができるシステムを示すブロック図である。

本開示の一実施形態に係るクラウドコンピューティング環境を示す。

本開示の一実施形態に係る抽象化モデル層を示す。

本明細書で説明される方法、システム、及びコンピュータプログラム製品は、Ｋｕｂｅｒｎｅｔｅｓにおけるビッグデータに関するデータ局所性を実現することを対象とする。Ｋｕｂｅｒｎｅｔｅｓは、大規模インフラストラクチャにおいてアプリケーションを展開するための選択肢である。しかしながら、Ｋｕｂｅｒｎｅｔｅｓは、ビッグデータスタックの展開に関していくつかの問題点を有し得ることが判明している。特に困難な点の１つは、図１に示すような、以下のデータ局所性である。図１では、２つのノード、すなわち、ノードＡ５及びノードＢ６を有する、Ｋｕｂｅｒｎｅｔｅｓの例が提供されている。Ｋｕｂｅｒｎｅｔｅｓには、ヘッドノード及びワーカノードを含む２つの層が含まれる。ヘッドノードは通常、ワークロードのライフサイクルのスケジューリング及び管理を担当する制御プレーンを実行する。ワーカノードは、アプリケーションを実行するワークホースとして動作する。ヘッドノード及びワーカノードの集合体がクラスタになる。

図１に示される例において、ノードＡ５は、クラスタ内のノードＢ６上に位置するデータノード上のＨＤＦＳに格納されたデータを読み取る必要があるジョブを実行している。ＨＤＦＳは、コモディティハードウェア上で実行される大量のデータセットを扱う分散ファイルシステムである。

ノードＡ５上にはドライバポッド７があり、参照番号「８」を有するエグゼキュータポッド１上のファイルＢの読み取りを試行している。ジョブ「Ｄｏｃｋｅｒ」が、第１のノード、すなわちノードＡ５において、ドライバポッド７及びエグゼキュータポッド８上で実行されている。ジョブ「Ｄｏｃｋｅｒ」は、第２のノード、すなわちノードＢ６でも、参照番号「９」を有するエグゼキュータポッド２上で実行されている。ノードＡ上のエグゼキュータポッド１は、ノードＢ上の参照番号１０を有するデータノードポッド２からのデータ点を必要とする。ノードＢ上のエグゼキュータポッド２は、ノードＡ上の参照番号１１を有するデータノードポッド１からのデータ点を必要とする。

図１に示される例において、クラスタ内のノードＢ上に位置するデータノード上のＨＤＦＳに格納されたデータを読み取る必要があるジョブをノードＡ上で実行すると、孤立したシステムのネットワークを介してデータがコンピューティング目的のために送信されるので、ネットワークレイテンシが大幅に増加する。本開示の方法、システム、及びコンピュータプログラム製品より前のＫｕｂｅｒｎｅｔｅｓには、データ局所性に関する問題があることが判明している。

Ｋｕｂｅｒｎｅｔｅｓにおけるデータ局所性の問題の主な理由は、共通の一般的なステートレスリソース管理アーキテクチャである。Ｋｕｂｅｒｎｅｔｅｓのステートレスリソース管理アーキテクチャは、各コンテナに割り当てられたリソースのアドレスをビッグデータアプリケーションに伝えない。クラウド環境などの分散型コンピューティング環境について説明する際、「コンテナ」は、パッケージングが、関連する依存関係の全てを含み、及び異なるコンピューティング環境で確実に実行するよう設計されている、ソフトウェアのユニットを指す用語である。例えば、ｄｏｃｋｅｒは、よく知られているオープンソースのコンテナプラットフォームであり、及びｄｏｃｋｅｒイメージは、アプリケーション、ランタイム、システムライブラリ、及びアプリケーションを実行するのに必要な設定を含む、独立型の実行可能パッケージである。１又は複数のコンテナは、アプリケーション処理要件に基づいて、「ポッド」と称される論理的ホストとして密結合したグループに入れられる。ポッドは、オーケストレータによって展開できる基本的なオブジェクトであり、及び設計により繰返し可能である。ポッドは、リソース要件に基づいて、任意の時点で、クラウド内のオーケストレーション環境を介して、独立して呼び出し又は停止可能である。Ｋｕｂｅｒｎｅｔｅｓは、ｄｏｃｋｅｒコンテナのためのオーケストレーションシステムの一例である。

本開示の方法、システム、及びコンピュータプログラム製品は、実行のために利用可能である最適な動的リソースが何かを識別する、パラメータベースのＤＡＧ－ステージ特徴分析による自己発見方法を用いて、Ｋｕｂｅｒｎｅｔｅｓにおけるデータ局所性の問題を伴うビッグデータアプリケーションの問題に対処する。（有向非巡回グラフ）ＤＡＧは頂点及びエッジのセットであり、図３に示されるように、頂点は耐障害性分散データセット（ＲｅｓｉｌｉｅｎｔＤｉｓｔｒｉｂｕｔｅｄＤａｔａｓｅｔ：ＲＤＤ）３を表し、及びエッジは、ＲＤＤに適用されるオペレーション４を表す。ＤＡＧでは、全てのエッジがシーケンス内の前の方から後の方へと指向する。アクションが呼び出されると、作成されたＤＡＧはＤＡＧスケジューラにサブミットし、これがグラフをタスクのステージへとさらに分割する。耐障害性分散データセット（ＲＤＤ）は、オブジェクトの不変分散集合体を含むデータ構造である。

本明細書で説明する方法は、ビッグデータアプリケーションのパーティション分散実行計画に基づいて、有向非巡回グラフ（ＤＡＧ）図を生成する。次の段階では、パーティションの変換及び相互依存に基づいてステージが作成される。１つのステージ、例えば図３のステージ１中に、データの永続化又はシャッフルが起こり、及び完了すると、次のステージ、例えば図３のステージ２が実行される。ステージの最後のエグゼキュータは、そのノード情報及びパーティション出力バイトサイズをビッグデータアプリケーションスケジューラに送信する。スケジューラは、パラメータベースのＤＡＧステージ特徴分析方法に基づき、現在のステージにおけるエグゼキュータポッドの物理ノード及びシャッフルデータの重みを分析し、及び最適なエグゼキュータポッドノードセレクタであるものを（図３のブロック２において）推奨する。

本明細書で説明する方法、システム、及びコンピュータプログラム製品は、Ｋｕｂｅｒｎｅｔｅｓにおいて動的リソース割り当てを実装するための自己発見方法を提供する。いくつかの利点は、動的リソース割り当てを自動的に推奨すること及び人の介在なしに生成された決定をマージすることを含む。エグゼキュータポッドリソースの推奨に関するデータ及びノード統計情報などのパラメータを追跡するためのシステムが提供される。本件の方法、システム、及びコンピュータプログラム製品は、ポッドのスカラー因子をよりよくチェックしてリソース制限及びポッド展開失敗の問題をなくすために、Ｋｕｂｅｒｎｅｔｅｓ／オープンシフトの可観測性を考慮する。本件のシステムは、コード侵害性ではなく、むしろサイドカー又はプロキシに基づく。

ここで、図２～８を参照して、本件の方法、システム、及びコンピュータプログラム製品をより詳細に説明する。

図２は、Ｋｕｂｅｒｎｅｔｅｓにおけるビッグデータに関するデータ局所性を実現するためのシステム及び方法のための例示的な環境の１つの実施形態を示す。図３は、有向非巡回グラフ図の１つの実施形態を示す。

本発明の態様は、本明細書において、発明の実施形態に係る方法、装置（システム）、及びコンピュータプログラム製品のフローチャート図若しくはブロック図又はその組み合わせを参照して説明されている。フローチャート図若しくはブロック図又はその組み合わせの各ブロック、及びフローチャート図若しくはブロック図又はその組み合わせにおけるブロックの組み合わせが、コンピュータ可読プログラム命令によって実装され得ることは理解されよう。

これらのコンピュータ可読プログラム命令を、コンピュータ又は他のプログラマブルデータ処理装置のプロセッサに提供することにより、コンピュータ又は他のプログラマブルデータ処理装置のプロセッサを介して実行される命令が、フローチャート若しくはブロック図又はその組み合わせの単数のブロック又は複数のブロックで指定された機能／動作を実装する手段を作成するようなマシンを生成してもよい。これらのコンピュータ可読プログラム命令を、コンピュータ、プログラマブルデータ処理装置、若しくは他のデバイス又はその組み合わせに特定の様式で機能するよう指示することができるコンピュータ可読記憶媒体に格納することにより、命令が格納されているコンピュータ可読記憶媒体が、フローチャート若しくはブロック図又はその組み合わせの単数のブロック又は複数のブロックで指定された機能／動作の態様を実装する命令を含む製品を構成するようにしてもよい。

また、コンピュータ可読プログラム命令を、コンピュータ、他のプログラマブルデータ処理装置、又は他のデバイスにロードして、コンピュータ、他のプログラマブル装置、又は他のデバイス上で一連の動作段階を実行させることで、コンピュータ、他のプログラマブル装置、又は他のデバイス上で実行される命令が、フローチャート若しくはブロック図又はその組み合わせの単数のブロック又は複数のブロックで指定された機能／動作を実装するようなコンピュータ実装プロセスを生成することもできる。

図面におけるフローチャート及びブロック図は、本発明の様々な実施形態に係るシステム、方法、及びコンピュータプログラム製品の考えられる実装形態のアーキテクチャ、機能、及びオペレーションを示している。これに関して、フローチャート又はブロック図における各ブロックは、指定される論理機能を実装する１又は複数の実行可能命令を含む命令のモジュール、セグメント、又は一部を表し得る。いくつかの代替的な実装形態では、ブロックに記載された機能が、図面に記載された順序とは異なる順序で行われてよい。例えば、連続して示される２つのブロックは、実際には、１つの段階として遂行され、部分的又は全体的に時間的に重複する様式で、同時か、実質的に同時に実行されてもよく、又は、場合により、関与する機能に応じてブロックが逆の順序で実行されてもよい。また、ブロック図若しくはフローチャート図又はその組み合わせの各ブロック、及びブロック図若しくはフローチャート図又はその組み合わせにおけるブロックの組み合わせは、指定された機能又は動作を実行する、又は専用ハードウェア及びコンピュータ命令の組み合わせを実行する、専用ハードウェアベースのシステムによって実装され得ることに留意されたい。

図２は、マスタサーバ１６と通信しているアプリケーションオペレータ１２を含む例示的な環境の１つの実施形態を示す。アプリケーションオペレータ１２は、コントローラ１３、サブミッションランナ１４、及びポッドモニタ１５を含む。マスタサーバ１６は、アプリケーションプログラミングインタフェース（ａｐｐｌｉｃａｔｉｏｎｐｒｏｇｒａｍｍｉｎｇｉｎｔｅｒｆａｃｅ：ＡＰＩ）サーバ１７及びスケジューラ１８を含む。ビッグデータアプリケーション１９は、これらの要素、すなわち、アプリケーションオペレータ１２及びマスタサーバ１６の間で実行される。ポッドモニタ１５は、Ｋｕｂｅｒｎｅｔｅｓでのポッドイベントをモニタリングし、及びＡＰＩサーバ１７と通信している。サブミッションランナ１４も、ＡＰＩサーバ１７と通信している。

Ｋｕｂｅｃｔｌ２０も、マスタサーバ１６のＡＰＩサーバ１７と通信している。Ｋｕｂｅｃｔｌは、Ｋｕｂｅｒｎｅｔｅｓクラスタに対してコマンドを実行することを可能にする。Ｋｕｂｅｃｔｌ２０を使用すると、アプリケーションの展開、クラスタリソースの検査及び管理、及びログの閲覧を行うことができる。ビッグデータアプリケーションオブジェクティブ２１が、Ｋｕｂｅｃｔｌ２０及びマスタサーバ１６のＡＰＩサーバ１７の間で伝送され得る。

引き続き図２を参照すると、ワーカノードが参照番号２５ａ及び２５ｂによって識別されている。ワーカノード２５ａ、２５ｂの各々は、データ２８及びタスク２７を含むエグゼキュータポッド２６ａ、２６ｂを含む。ワーカノード２５ａ、２５ｂは、マスタサーバ１６のスケジューラ１７と通信している。

引き続き図２を参照すると、ドライバポッド２９も、マスタサーバ１６のスケジューラ１７と通信している。ドライバポッド２９は、ワーカノード２５ａ、２５ｂとも通信している。

ドライバポッド２９及びワーカノード２５ａ、２５ｂは、エグゼキュータにとって利用可能である最適な動的リソースは何かを識別できる有向非巡回グラフ（ＤＡＧ）特徴アナライザ３０と通信している。ドライバポッド２９及びワーカノード２５ａ、２５ｂは、ＤＡＧ特徴アナライザ３０と、サイドカー３１を介して通信している。

サイドカーパターンは、オリジナルの機能を拡大する補助タスクからメインビジネスロジックを分離することにより、この原理を達成するのに役立つ。Ｋｕｂｅｒｎｅｔｅｓにおいて、ポッドは、共有ストレージ及びネットワークを有する１又は複数のコンテナのグループである。サイドカーは、メインアプリケーションコンテナに疎結合しているポッド内のユーティリティコンテナである。サイドカー３１は、データローダとして機能し得る。

図５は、本開示の１つの実施形態による、Ｋｕｂｅｒｎｅｔｅｓにおけるビッグデータに関するデータ局所性を実現するための方法を示す。図５のブロック４５は、アプリケーション、例えばビッグデータアプリケーションを実行するための、コントローラ２０及び少なくとも１つのエグゼキュータポッド２６ａ、２６ｂを含むＫｕｂｅｒｎｅｔｅｓコンピューティング環境を確立する段階を含む。ブロック４５は、図２に示されるコンピューティング環境を提供し得る。

図２を再び参照すると、１つの例において、ＡＰＩサーバ１７は、タスクの要求をアプリケーションオペレータ１２にサブミットし得る。アプリケーションオペレータ１２は、タスク要求を受信することからイベントリスナを含むコントローラ１３を含む。いくつかの実施形態において、アプリケーションオペレータ１２がタスク作成要求を受信すると、アプリケーションオペレータ１２は、サブミッションランナ１２を使用してタスクをサブミットすることができる。ポッドモニタ１５は、ポッドステータス及びイベントをモニタリングし、及び次に、Ｋｕｂｅｒｎｅｔｅｓのコントローラ、すなわちＫｕｂｅコントローラ２０により、ドライバポッド２９及びエグゼキュータポッド２６ａ、２６ｂをディスパッチするよう通知する。

図５のブロック４６を参照すると、いくつかの実施形態において、ビッグデータアプリケーションを扱うＫｕｂｅｒｎｅｔｅｓコンピューティング環境における局所性を提供するためのコンピュータ実装方法は、Ｋｕｂｅｒｎｅｔｅｓコンピューティング環境で実行すべきタスクに関する要求を受信する段階を含み得る。この段階は、サーバ１７がタスクに関する要求をアプリケーションオペレータ１２にサブミットすることで開始する上述のプロセスフローによって行うことができ、ここで、アプリケーションオペレータ１２は、サブミッションランナ１４を使用してタスクをマスタサーバ１６にサブミットすることができる。

図５のブロック４７は、コントローラ、例えばＫｕｂｅコントローラ２０により、マスタサーバ１６のスケジューラ１８にディスパッチして、有向非巡回グラフ（ＤＡＧ）特徴アナライザ３０への入力１のために、少なくとも１つのエグゼキュータポッド２６ａ、２６ｂからリソースデータを収集する段階をさらに含む。リソース及びデータボリュームの情報もドライバポッド２９から収集され得る。

図２を参照すると、サイドカーがドライバポッド２９及びエグゼキュータポッド２６ａ、２６ｂで展開されて、リソース及びデータボリュームの情報を収集している。この情報は、ドライバポッド２９及びアプリケーションオペレータ１２によって収集される。収集された情報に基づき、情報がＤＡＧ特徴アナライザ３０によって提供されて、レイテンシを低減させる及び最適化されたデータ局所性を提供するために次のエグゼキュータポッドがどこに割り当てられるかについての正確な命令が送信される。

図５に示したブロック／フロー図によって示される方法のブロック４８は、有向非巡回グラフ（ＤＡＧ）特徴アナライザにより、少なくとも１つのエグゼキュータポッド２６ａ、２６ｂから、要求を実行するために、すなわちＫｕｂｅｒｎｅｔｅｓコンピューティング環境において実行するために利用可能である最適な動的リソースを識別する段階を含む。

図３は、ＤＡＧ－ステージ特徴アナライザ３５の１つの実施形態を示す。いくつかの実施形態において、ＤＡＧ－ステージ特徴アナライザ３５の提供は、ビッグアプリケーションコード実装及び分散実行計画に基づいてデータ及びステージネットワークを構築することで開始し得る。１つの実施形態において、ビッグデータは、パーティション又はＲＤＤに分割される。ＲＤＤは耐障害性分散データセットを指す。これらは、単一のノードに収めることができないほどサイズが大きい様々なデータアイテムの集合体である。これは、データサイズを考慮して、耐障害性分散データセット（ＲＤＤ）と称される、様々なノードにまたがるパーティションに分けられる。

次の段階では、各オペレーション又はコード機能がパーティション又はＲＤＤ上で実行する。

図３に示されるように、これらのオペレーションは共に構成され、及びビッグデータアプリケーション実行エンジンは、これらを有向非巡回グラフ（ＤＡＧ）とみなす。ＲＤＤオペレーションのタイプは２つある。例えば、ナローオペレーションのＲＤＤオペレーション、及びワイドオペレーションのＲＤＤオペレーションがある。ナローオペレーションは、パーティションをまたぐデータのシャッフルを含まない。ナローオペレーションは、単一のステージにグループ分けされる。一方、ワイドオペレーションは、例えば、図３に示されるような、第１ステージ及び第２ステージのステージ境界をもたらす。

次の段階において、この方法は、ＤＡＧ及びステージ特徴分析及び収集されたパラメータに基づいて、動的割り当ての推奨を識別及び生成することができる。この段階には、エグゼキュータポッド及びデータボリューム統計値に基づいて、次の段階のエグゼキュータリソース割り当てを推奨する段階が含まれ得る。これは、図３に示されるＤＡＧのステージ１によって行われ得る。考慮されるデータボリューム統計値は、ノード情報、データ出力範囲、最大値、及びデータのサイズを含み得る。

その後、この方法は、Ｋｕｂｅｒｎｅｔｅリソースの可観測性を獲得して、さらなる次の段階のエグゼキュータリソースに対するリソース自動スケーリング関連性データのバランスを取ることを継続し得る。これは、図３に示されるＤＡＧのステージ２によって行われ得る。

リソース割り当ての推奨のためのＤＡＧステージ特徴分析方法からの出力の１つの例は、図４に示される表に示されている。

Ｋｕｂｅｒｎｅｔｅｓエグゼキュータは、リソース割り当てを使用して、Ｋｕｂｅｒｎｅｔｅｓクラスタ上のそれ自体のポッドにおいて各タスクインスタンスを実行する。ＤＡＧがタスクをサブミットすると、Ｋｕｂｅｒｎｅｔｅｓエグゼキュータは、ワーカポッドをＫｕｂｅｒｎｅｔｅｓのＡＰＩから要求する。ワーカポッドは次に、タスクを実行し、結果を報告し、及び終了する。図５に示される方法のブロック４９は、Ｋｕｂｅｒｎｅｔｅｓコンピューティング環境において利用可能である最適な動的リソースを満たす少なくとも１つのエグゼキュータポッド２６ａ、２６ｂによりタスクを実行する段階を含む。

図６は、Ｋｕｂｅｒｎｅｔｅｓにおけるビッグデータに関するデータ局所性を実現するために使用されるＤＡＧステージ特徴アナライザ３０を示すブロック図である。ハードウェアプロセッサ４３；及びコンピュータプログラム製品を格納するメモリを含む、ビッグデータに関するデータ局所性を実現するためのシステムが提供されている。コンピュータプログラム製品は、ハードウェアプロセッサ４３によって実行されると、ハードウェアプロセッサに、アプリケーションを実行するためのコントローラ及び少なくとも１つのエグゼキュータポッドを含むＫｕｂｅｒｎｅｔｅｓコンピューティング環境を確立させる。このシステムはさらに、Ｋｕｂｅｒｎｅｔｅｓコンピューティング環境で実行すべきタスクに関する要求を受信すること、及びサイドカーをディスパッチして、有向非巡回グラフ（ＤＡＧ）特徴アナライザへの入力のために、少なくとも１つのエグゼキュータポッドからリソースデータを収集することができる。サイドカー入力は、参照番号４１によって識別される。このシステムはさらに、有向非巡回グラフ（ＤＡＧ）特徴アナライザ３０が、少なくとも１つのエグゼキュータポッドから、実行のために利用可能である最適な動的リソースを識別することを規定し得る。利用可能である最適な動的リソースを満たす少なくとも１つのエグゼキュータポッドが、Ｋｕｂｅｒｎｅｔｅｓコンピューティング環境で実行すべきタスクを実行する。ＤＡＧ特徴アナライザ３０は、ポッドエグゼキュータ４２を含む。

図６は、ＤＡＧステージ特徴アナライザ３０を含み得る処理システム４００をさらに示す。本発明が適用され得る例示的な処理システム４００が、１つの実施形態に従って示されている。処理システム４００は、システムバス１０２を介して他のコンポーネントに動作可能に結合された少なくとも１つのプロセッサ（ＣＰＵ）１０４を含む。システムバス１０２は、ポッド健全性チェックシステム２００と通信していてもよい。キャッシュ１０６、リードオンリメモリ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ：ＲＯＭ）１０８、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ：ＲＡＭ）１１０、入力／出力（ｉｎｐｕｔ／ｏｕｔｐｕｔ：Ｉ／Ｏ）アダプタ１２０、音声アダプタ１３０、ネットワークアダプタ１４０、ユーザインタフェースアダプタ１５０、及びディスプレイアダプタ１６０が、システムバス１０２に動作可能に結合されている。図示のように、クラウド環境におけるポリシー偏差の出所に基づく識別情報を提供するシステム１００は、システムバス１０２との接続により、処理システム４００に統合され得る。

第１のストレージデバイス１２２及び第２のストレージデバイス１２４は、Ｉ／Ｏアダプタ１２０により、システムバス１０２に動作可能に結合されている。ストレージデバイス１２２及び１２４は、ディスクストレージデバイス（例えば、磁気ディスクストレージデバイス又は光ディスクストレージデバイス）、ソリッドステート磁気デバイスなどのいずれでもよい。ストレージデバイス１２２及び１２４は、同じタイプのストレージデバイス又は異なるタイプのストレージデバイスでもよい。

スピーカ１３２は、音声アダプタ１３０により、システムバス１０２に動作可能に結合されている。トランシーバ１４２は、ネットワークアダプタ１４０により、システムバス１０２に動作可能に結合されている。ディスプレイデバイス１６２は、ディスプレイアダプタ１６０により、システムバス１０２に動作可能に結合されている。

第１のユーザ入力デバイス１５２、第２のユーザ入力デバイス１５４、及び第３のユーザ入力デバイス１５６は、ユーザインタフェースアダプタ１５０により、システムバス１０２に動作可能に結合されている。ユーザ入力デバイス１５２、１５４及び１５６は、キーボード、マウス、キーパッド、画像キャプチャデバイス、運動感知デバイス、マイクロフォン、先述のデバイスのうちの少なくとも２つの機能を組み込んだデバイスなどのいずれでもよい。当然ながら、本発明の趣旨を維持しながら、他のタイプの入力デバイスを使用してもよい。ユーザ入力デバイス１５２、１５４及び１５６は、同じタイプのユーザ入力デバイス又は異なるタイプのユーザ入力デバイスでもよい。ユーザ入力デバイス１５２、１５４、及び１５６は、システム４００への情報の入力及びそれからの情報の出力のために使用される。

当然ながら、処理システム４００は、当業者によって容易に想定されるような他の要素（図示せず）を含んでもよく、また、特定要素を省略してもよい。例えば、当業者には容易に理解されるように、様々な他の入力デバイス若しくは出力デバイス又はその組み合わせが、その特定の実装形態に応じて、処理システム４００に含まれてもよい。例えば、様々なタイプの無線若しくは有線又はその組み合わせの入力デバイス若しくは出力デバイス又はその組み合わせが使用され得る。また、当業者には容易に理解されるように、様々な構成における、追加のプロセッサ、コントローラ、メモリなどを利用することもできる。処理システム４００のこれら及び他の変更形態は、本明細書で提供する本発明の教示を所与とすれば、当業者によって容易に想定される。

本明細書で用いられる場合、「ハードウェアプロセッササブシステム」又は「ハードウェアプロセッサ」という用語は、１又は複数の特定のタスクを実行するために連携するプロセッサ、メモリ、ソフトウェア、又はそれらの組み合わせを指し得る。有用な実施形態では、ハードウェアプロセッササブシステムは、１又は複数のデータ処理要素（例えば、論理回路、処理回路、命令実行デバイスなど）を含み得る。１又は複数のデータ処理要素は、中央処理装置、グラフィックス処理ユニット、若しくは、別個のプロセッサ又はコンピューティング要素に基づくコントローラ（例えば論理ゲートなど）、又はその組み合わせに含まれ得る。ハードウェアプロセッササブシステムは、１又は複数のオンボードメモリ（例えば、キャッシュ、専用メモリアレイ、リードオンリメモリなど）を含み得る。いくつかの実施形態において、ハードウェアプロセッササブシステムには、オンボード又はオフボードであり得る、又は、ハードウェアプロセッササブシステム（例えば、ＲＯＭ、ＲＡＭ、基本入力／出力システム（ｂａｓｉｃｉｎｐｕｔ／ｏｕｔｐｕｔｓｙｓｔｅｍ：ＢＩＯＳ）など）による使用専用であり得る、１又は複数のメモリが含まれ得る。

いくつかの実施形態において、ハードウェアプロセッササブシステムは、１又は複数のソフトウェア要素を含むこと及び実行することができる。１又は複数のソフトウェア要素は、特定の結果を達成するための、オペレーティングシステム若しくは１又は複数のアプリケーション若しくは特定のコード又はその組み合わせを含み得る。

他の実施形態において、ハードウェアプロセッササブシステムは、特定の結果を達成するための１又は複数の電子処理機能を実行する、専用の特殊回路を含み得る。そのような回路は、１又は複数の特定用途向け集積回路（ａｐｐｌｉｃａｔｉｏｎ－ｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ：ＡＳＩＣ）、ＦＰＧＡ、若しくはＰＬＡ、又はその組み合わせを含み得る。

本発明の実施形態によるハードウェアプロセッササブシステムのこれら及び他の変更形態も想定される。

本発明は、任意の可能な技術詳細レベルで統合化されたシステム、方法、若しくはコンピュータプログラム製品、又はその組み合わせであり得る。例えば、いくつかの実施形態において、Ｋｕｂｅｒｎｅｔｅｓにおけるデータ局所性を制御するためのコンピュータプログラム製品が提供される。コンピュータプログラム製品は、コンピュータ可読記憶媒体を含み得る。コンピュータ可読記憶媒体は、システムのプロセッサに、アプリケーションを実行するためのコントローラ及び少なくとも１つのエグゼキュータポッドを含むＫｕｂｅｒｎｅｔｅｓコンピューティング環境を確立させ；及びＫｕｂｅｒｎｅｔｅｓコンピューティング環境で実行すべきタスクに関する要求を受信させるように、プロセッサによって実行可能であるプログラム命令が具現化されたコンピュータ可読プログラムコードを有し得る。いくつかの実施形態において、コンピュータプログラム製品はさらに、ハードウェアプロセスを用い、サイドカーをディスパッチして、有向非巡回グラフ（ＤＡＧ）特徴アナライザへの入力のために、少なくとも１つのエグゼキュータポッドからリソースデータを収集する。コンピュータプログラム製品はさらに、有向非巡回グラフ（ＤＡＧ）特徴アナライザが、少なくとも１つのエグゼキュータポッドから、実行のために利用可能である最適な動的リソースを識別することを規定し得る。利用可能である最適な動的リソースを満たす少なくとも１つのエグゼキュータポッドが、Ｋｕｂｅｒｎｅｔｅｓコンピューティング環境で実行すべきタスクを実行する。

コンピュータプログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体（単数又は複数）を含み得る。コンピュータプログラム製品は非一時的でもよい。

コンピュータ可読記憶媒体は、命令実行デバイスにより使用される命令を保持及び格納し得る有形デバイスであり得る。コンピュータ可読記憶媒体は、例えば、電子ストレージデバイス、磁気ストレージデバイス、光学ストレージデバイス、電磁ストレージデバイス、半導体ストレージデバイス、又は前述したものの任意の好適な組み合わせであり得るが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的リストは、以下を含む：ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、ポータブルコンパクトディスクリードオンリメモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリスティック、フロッピディスク、機械的にエンコードされたデバイス、例えば、パンチカード、又は命令が記録されている溝内の隆起構造、及び前述したものの任意の好適な組み合わせ。本明細書において使用されるコンピュータ可読記憶媒体は、電波又は他の自由に伝搬する電磁波、導波路又は他の伝送媒体（例えば、光ファイバケーブルを通過する光パルス）を伝搬する電磁波、又はワイヤを通って伝送される電気信号などの一時的な信号そのものであると解釈してはならない。

本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング／処理デバイスにダウンロードされてもよく、又は、ネットワーク、例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク、若しくは無線ネットワーク、又はその組み合わせを介して、外部コンピュータ又は外部ストレージデバイスにダウンロードされてもよい。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ、若しくはエッジサーバ、又はその組み合わせを含み得る。各コンピューティング／処理デバイス内のネットワークアダプタカード又はネットワークインタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、及びそれぞれのコンピューティング／処理デバイス内のコンピュータ可読記憶媒体に格納するためにコンピュータ可読プログラム命令を転送する。

本発明のオペレーションを実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路に対する構成データ、又は、例えばＳｍａｌｌｔａｌｋ（登録商標）、Ｃ＋＋などのオブジェクト指向プログラミング言語、及び「Ｃ」プログラミング言語又は同様のプログラミング言語などの手続き型プログラミング言語を含む、１又は複数のプログラミング言語の任意の組み合わせで書かれたソースコード又はオブジェクトコードのいずれかであってもよい。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で実行してもよく、スタンドアロンソフトウェアパッケージとして部分的にユーザのコンピュータ上で実行してもよく、部分的にユーザのコンピュータ上で及び部分的にリモートコンピュータ上で実行してもよく、又は、完全にリモートコンピュータ又はサーバ上で実行してもよい。後者のシナリオでは、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）又はワイドエリアネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを介してユーザのコンピュータに接続していてもよく、又は、その接続が外部コンピュータに対して（例えば、インターネットサービスプロバイダを使用してインターネットを介して）行われてもよい。いくつかの実施形態において、例えばプログラマブルロジック回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、又はプログラマブルロジックアレイ（ＰＬＡ）を含む電子回路が、本発明の態様を実行するために、コンピュータ可読プログラム命令の状態情報を利用して電子回路をパーソナライズすることにより、コンピュータ可読プログラム命令を実行してよい。

本開示はクラウドコンピューティングについての詳細な説明を含むが、本明細書に記載される教示内容の実装形態は、クラウドコンピューティング環境に限定されないことを理解されたい。むしろ、本発明の実施形態は、現在知られているか又は今後開発される任意の他のタイプのコンピューティング環境（例えば、モノのインターネット（Ｉｎｔｅｒｎｅｔｏｆｔｈｉｎｇ：ＩＯＴ））と併せて実装することが可能である。クラウドコンピューティングは、管理労力又はサービスのプロバイダとのインタラクションを最小限に抑えながら迅速にプロビジョニング及びリリースできる構成可能なコンピューティングリソース（例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン、及びサービス）の共有プールへの簡便なオンデマンドネットワークアクセスを可能にするためのサービス供給モデルである。このクラウドモデルは、少なくとも５つの特性、少なくとも３つのサービスモデル、及び少なくとも４つの展開モデルを含み得る。特性は以下のとおりである。

オンデマンドセルフサービス：クラウド利用者が、サービスプロバイダとのヒューマンインタラクションを必要とすることなく、必要に応じて自動的に、サーバタイム及びネットワークストレージなどのコンピューティング機能を一方的にプロビジョニングすることができる。

幅広いネットワークアクセス：複数の機能がネットワークを介して利用可能であり、及び異なる種類のシン又はシッククライアントプラットフォーム（例えば、携帯電話、ラップトップ、及びＰＤＡ）による使用を促進する標準的なメカニズムを通してアクセスされる。

リソースプーリング：プロバイダのコンピューティングリソースが、マルチテナントモデルを使用して複数の利用者にサービス提供するようプールされ、異なる物理リソース及び仮想リソースが、需要に従って動的に割り当て及び再割り当てされる。利用者は概して、提供されたリソースの正確な位置に対する制御権又は知識を有しないが、より高い抽象化レベル（例えば、国、州、又はデータセンタ）において位置を指定することが可能であり得るという点で、位置独立性がある。

迅速な順応性：複数の機能を迅速及び柔軟に、場合によっては自動的にプロビジョニングし、即座にスケールアウトし、及び迅速にリリースして即座にスケールインすることができる。利用者にとって、多くの場合、プロビジョニングに利用可能な機能が無制限に見え、及びいつでも任意の量で購入可能である。

測定されたサービス：クラウドシステムが、サービスのタイプ（例えば、ストレージ、処理、帯域幅、及びアクティブユーザアカウント）に適切なある抽象化レベルにおいて計測機能を活用することによって、自動的にリソース使用を制御及び最適化する。リソース使用量をモニタリングし、制御し、及び報告することで、利用されるサービスのプロバイダ及び利用者の両方に透明性を提供することができる。

サービスモデルは、以下のとおりである。

サービスとしてのソフトウェア（ＳｏｆｔｗａｒｅａｓａＳｅｒｖｉｃｅ：ＳａａＳ）：利用者に提供される機能は、クラウドインフラストラクチャ上で実行されるプロバイダのアプリケーションを使用することである。アプリケーションは、ｗｅｂブラウザ（例えば、ｗｅｂベースの電子メール）などのシンクライアントインタフェースを通して様々なクライアントデバイスからアクセス可能である。利用者は、限定的なユーザ固有のアプリケーション構成設定という考えられる例外を除き、ネットワーク、サーバ、オペレーティングシステム、ストレージ、又は更には個々のアプリケーション機能を含む、基礎となるクラウドインフラストラクチャを管理又は制御しない。サービスとしてのプラットフォーム（ＰｌａｔｆｏｒｍａｓａＳｅｒｖｉｃｅ：ＰａａＳ）：利用者に提供される機能は、クラウドインフラストラクチャ上に、プロバイダによってサポートされるプログラミング言語及びツールを使用して作成される、利用者により作成又は取得されたアプリケーションを展開することである。利用者は、ネットワーク、サーバ、オペレーティングシステム、又はストレージを含む、基礎となるクラウドインフラストラクチャを管理又は制御しないが、展開されたアプリケーション、及び場合によってはアプリケーションホスティング環境構成に対する制御権を有する。

サービスとしてのインフラストラクチャ（ＩｎｆｒａｓｔｒｕｃｔｕｒｅａｓａＳｅｒｖｉｃｅ：ＩａａＳ）：利用者に提供される機能は、処理、ストレージ、ネットワーク、及び他の基礎的なコンピューティングリソースをプロビジョニングすることであり、ここで利用者は、オペレーティングシステム及びアプリケーションを含み得る任意のソフトウェアを展開及び実行することが可能である。利用者は、基礎となるクラウドインフラストラクチャを管理又は制御しないが、オペレーティングシステム、ストレージ、展開されたアプリケーションに対する制御権を有し、及び場合によっては、選択されたネットワーキングコンポーネント（例えば、ホストファイアウォール）の限定的な制御権を有する。

展開モデルは以下のとおりである。

プライベートクラウド：このクラウドインフラストラクチャは、ある組織のためだけに動作する。これは、その組織又はサードパーティによって管理されてよく、及びオンプレミス又はオフプレミスで存在してよい。コミュニティクラウド：このクラウドインフラストラクチャは、幾つかの組織によって共有され、及び共通の関心事項（例えば、ミッション、セキュリティ要件、ポリシー、及びコンプライアンス考慮事項）を有する特定のコミュニティをサポートする。これは、これらの組織又はサードパーティにより管理されてよく、及びオンプレミス又はオフプレミスで存在してよい。

パブリッククラウド：このクラウドインフラストラクチャは、一般大衆又は大規模な業界団体に利用可能とされ、及びクラウドサービスを販売する組織によって所有される。

ハイブリッドクラウド：このクラウドインフラストラクチャは、２つ以上のクラウド（プライベート、コミュニティ、又はパブリック）からなる構成物であり、各クラウドは独自のエンティティのままであるが、データ及びアプリケーションの移植性（例えば、クラウド間で負荷分散するためのクラウドバースト）を可能にする標準化された技術又は独自技術によって共に結合されている。

クラウドコンピューティング環境は、ステートレス性、低結合性、モジュール性、及び意味相互運用性を重視するサービス指向である。クラウドコンピューティングの中心にあるのは、相互接続されたノードのネットワークを含むインフラストラクチャである。

ここで図７を参照すると、例示的なクラウドコンピューティング環境が示されている。図示のように、クラウドコンピューティング環境は、１又は複数のクラウドコンピューティングノードを含み、これと、クラウド利用者が使用するローカルコンピューティングデバイス、例えばパーソナルデジタルアシスタント（ＰＤＡ）又は携帯電話５４Ａ、デスクトップコンピュータ５４Ｂ、ラップトップコンピュータ５４Ｃ、若しくは自動車コンピュータシステム５４Ｎ、又はその組み合わせなどが通信し得る。ノード１０は、互いに通信してよい。これらは、上記で説明したようなプライベートクラウド、コミュニティクラウド、パブリッククラウド、又はハイブリッドクラウド、又はこれらの組み合わせなどの、１又は複数のネットワーク内で物理的又は仮想的にグループ化されてよい（図示せず）。これにより、クラウドコンピューティング環境が、サービスとしてのインフラストラクチャ、プラットフォーム、若しくはソフトウェア、又はその組み合わせを提供することが可能になり、こうしたもののために、クラウド利用者がローカルコンピューティングデバイス上にリソースを維持する必要はない。図７に示されるコンピューティングデバイス５４Ａ、５４Ｂ、５４Ｃ及び５４Ｎのタイプが例示のみを意図していること、及び、コンピューティングノード１０及びクラウドコンピューティング環境５０が、任意のタイプのネットワーク若しくはネットワークアドレス可能な接続（例えば、ｗｅｂブラウザを使用する）又はその組み合わせを介して、任意のタイプのコンピュータ化デバイスと通信し得ることは理解されよう。

ここで図８を参照すると、クラウドコンピューティング環境（図７参照）によって提供される機能抽象化層のセットが示されている。図８に示されているコンポーネント、層、及び機能が例示のみを意図していること、及び本発明の実施形態がこれらに限定されるものではないことが予め理解されるべきである。図示のように、以下の層及び対応する機能が提供される。

ハードウェア及びソフトウェア層６０には、ハードウェアコンポーネント及びソフトウェアコンポーネントが含まれている。ハードウェアコンポーネントの例は：メインフレーム６１；縮小命令セットコンピュータ（ＲｅｄｕｃｅｄＩｎｓｔｒｕｃｔｉｏｎＳｅｔＣｏｍｐｕｔｅｒ：ＲＩＳＣ）アーキテクチャベースのサーバ６２；サーバ６３；ブレードサーバ６４；ストレージデバイス６５；及びネットワーク及びネットワーキングコンポーネント６６を含む。いくつかの実施形態において、ソフトウェアコンポーネントには、ネットワークアプリケーションサーバソフトウェア６７及びデータベースソフトウェア６８が含まれる。

仮想化層７０は、抽象化層を提供し、ここから、以下の仮想エンティティの例が提供され得る：仮想サーバ７１；仮想ストレージ７２；仮想プライベートネットワークを含む仮想ネットワーク７３；仮想アプリケーション及びオペレーティングシステム７４；及び仮想クライアント７５。

１つの例において、管理層８０は、以下で説明される機能を提供し得る。リソースプロビジョニング８１では、クラウドコンピューティング環境内でタスクを実行するのに利用されるコンピューティングリソース及び他のリソースの動的調達を行う。計測及び価格設定８２では、クラウドコンピューティング環境内でリソースが利用される際のコストの追跡、及びこれらのリソースの消費に対する課金又は請求を行う。１つの例において、これらのリソースは、アプリケーションソフトウェアライセンスを含み得る。セキュリティは、クラウド利用者及びタスクに関する同一性確認、並びにデータ及び他のリソースに対する保護を行う。ユーザポータル８３は、利用者及びシステム管理者にクラウドコンピューティング環境へのアクセスを提供する。

サービスレベル管理８４では、必要なサービスレベルが満たされるように、クラウドコンピューティングリソースの割り当て及び管理を行う。サービスレベルアグリーメント（ＳｅｒｖｉｃｅＬｅｖｅｌＡｇｒｅｅｍｅｎｔ：ＳＬＡ）の計画及び履行８５では、将来の要件がＳＬＡに従って予期されるクラウドコンピューティングリソースに関する事前の取り決め及びその調達を行う。

ワークロード層８９は、クラウドコンピューティング環境が利用され得る機能の例を提供する。この層から提供され得るワークロード及び機能の例は：マッピング及びナビゲーション９１；ソフトウェア開発及びライフサイクル管理９２；仮想教室教育の供給９３；データ分析処理９４；トランザクション処理９５；及び図１～７に従う、Ｋｕｂｅｒｎｅｔｅｓにおけるビッグデータに関するデータ局所性を実現するためのＤＡＧステージ特徴アナライザ３０を含む。

本明細書における本発明の「１つの実施形態」又は「一実施形態」及びそれらの他の変更形態への言及は、実施形態との関連で説明される特定の特徴、構造、特性などが、本発明の少なくとも１つの実施形態に含まれることを意味する。そのため、本明細書全体を通して様々な箇所に出現する、「１つの実施形態において」又は「一実施形態において」という語句、及び何らかの他の変更形態の出現は、必ずしも全てが同じ実施形態に言及しているとは限らない。

例えば、「Ａ／Ｂ」、「Ａ若しくはＢ又はその組み合わせ」、及び「Ａ及びＢのうちの少なくとも１つ」という場合、「／」、「～若しくは…又はその組み合わせ」、及び「～のうちの少なくとも１つ」のいずれかの使用は、第１の列挙される選択肢（Ａ）のみの選択、又は、第２の列挙される選択肢（Ｂ）のみの選択、又は、両方の選択肢（Ａ及びＢ）の選択を包含するよう意図されることを理解されたい。さらなる一例として、「Ａ、Ｂ、若しくはＣ、又はその組み合わせ」、及び「Ａ、Ｂ、及びＣのうちの少なくとも１つ」という場合、そのような言い回しは、第１の列挙される選択肢（Ａ）のみの選択、又は、第２の列挙される選択肢（Ｂ）のみの選択、又は、第３の列挙される選択肢（Ｃ）のみの選択、又は、第１及び第２の列挙される選択肢（Ａ及びＢ）のみの選択、又は、第１及び第３の列挙される選択肢（Ａ及びＣ）のみの選択、又は、第２及び第３の列挙される選択肢（Ｂ及びＣ）のみの選択、又は、３つの選択肢全て（Ａ及びＢ及びＣ）の選択を包含することが意図される。これは、当技術分野及び関連技術分野の当業者には容易に明らかであるように、列挙される項目と同じ数だけ拡大解釈され得る。

Ｋｕｂｅｒｎｅｔｅｓにおけるビッグデータに関するデータ局所性を実現するためのシステム及び方法の好ましい実施形態（例示及び非限定を意図するものである）について説明したが、上述の教示に鑑み、当業者によって修正及び変更が行われ得ることを注記する。したがって、開示された特定の実施形態において、添付の特許請求の範囲により概説される発明の範囲内にある変更が行われてよいことを理解されたい。このように、特許法により必要とされる詳細及び特定性と共に本発明の態様を説明したが、何が請求されるか、及び特許証による保護が所望されるかは、添付の特許請求の範囲に記載される。

Claims

Ｋｕｂｅｒｎｅｔｅｓコンピューティング環境におけるデータ局所性を制御するために提供されるコンピュータ実装方法であって：
アプリケーションを実行するためのコントローラ及び少なくとも１つのエグゼキュータポッドを含むＫｕｂｅｒｎｅｔｅｓコンピューティング環境を確立する段階；
前記Ｋｕｂｅｒｎｅｔｅｓコンピューティング環境で実行すべきタスクに関する要求を受信する段階；
前記コントローラによりサイドカーをディスパッチして、有向非巡回グラフ（ＤＡＧ）特徴アナライザへの入力のために、前記少なくとも１つのエグゼキュータポッドからリソースデータを収集する段階；
前記有向非巡回グラフ（ＤＡＧ）特徴アナライザにより、前記少なくとも１つのエグゼキュータポッドから、実行のために利用可能である最適な動的リソースを識別する段階；及び
前記Ｋｕｂｅｒｎｅｔｅｓコンピューティング環境において利用可能である前記最適な動的リソースを満たす前記少なくとも１つのエグゼキュータポッドにより、前記タスクを実行する段階
を備えるコンピュータ実装方法。
実行すべきタスクに関する要求を受信する前記段階は、アプリケーションオペレータが、前記Ｋｕｂｅｒｎｅｔｅｓコンピューティング環境のドライバポッド及びワーカノードと通信するようスケジューラに依頼するマスタサーバにタスクを送信するサブミッションランナを用いて前記タスクを生成する段階を有する、請求項１に記載のコンピュータ実装方法。
前記サイドカーをディスパッチする段階は、前記ドライバポッド及び前記ワーカノードを使用して前記リソースデータを収集する段階を有する、請求項２に記載のコンピュータ実装方法。
前記リソースデータは、エグゼキュータポッドボリューム、データボリューム、ノード情報、データ出力範囲、最大値サイズ、ＣＰＵ使用量、ストレージ使用量、及びそれらの組み合わせから成る群から選択される、請求項１から３のいずれか一項に記載のコンピュータ実装方法。
前記タスクを実行する段階は、前記タスクを実行し、結果を報告し、及び終了する段階を有する、請求項１から３のいずれか一項に記載のコンピュータ実装方法。
前記有向非巡回グラフ（ＤＡＧ）特徴アナライザは、耐障害性分散データセットを表す頂点、及び前記耐障害性分散データセットに適用されるオペレーションを表すエッジを有するグラフを含む、請求項１から３のいずれか一項に記載のコンピュータ実装方法。
前記有向非巡回グラフ（ＤＡＧ）特徴アナライザは、２つのステージを含み、ここで第１ステージは、前記少なくとも１つのエグゼキュータポッドからの前記リソースデータに基づいてエグゼキュータリソース割り当てを推奨し、及び第２ステージは、Ｋｕｂｅｒｎｅｔｅリソースの可観測性を獲得して、前記リソースデータに基づく前記推奨されたエグゼキュータリソース割り当てに応答してリソース自動スケーリングのバランスを取る、請求項６に記載のコンピュータ実装方法。
Ｋｕｂｅｒｎｅｔｅｓコンピューティング環境におけるデータ局所性を制御するためのシステムであって：
ハードウェアプロセッサ；及び
コンピュータプログラム製品を格納するメモリを備え、前記コンピュータプログラム製品は、前記ハードウェアプロセッサによって実行されると、前記ハードウェアプロセッサに：
アプリケーションを実行するためのコントローラ及び少なくとも１つのエグゼキュータポッドを含むＫｕｂｅｒｎｅｔｅｓコンピューティング環境を確立する手順；
前記Ｋｕｂｅｒｎｅｔｅｓコンピューティング環境で実行すべきタスクに関する要求を受信する手順；
サイドカーをディスパッチさせて、有向非巡回グラフ（ＤＡＧ）特徴アナライザへの入力のために、前記少なくとも１つのエグゼキュータポッドからリソースデータを収集する手順；
前記有向非巡回グラフ（ＤＡＧ）特徴アナライザが、前記少なくとも１つのエグゼキュータポッドから、実行のために利用可能である最適な動的リソースを識別することを規定する手順；及び
前記Ｋｕｂｅｒｎｅｔｅｓコンピューティング環境において利用可能である前記最適な動的リソースを満たす少なくとも１つのエグゼキュータポッド上で前記タスクを実行する手順
を実行させる、システム。
実行すべきタスクに関する要求を受信する前記手順は、アプリケーションオペレータが、前記Ｋｕｂｅｒｎｅｔｅｓコンピューティング環境のドライバポッド及びワーカノードと通信するようスケジューラに依頼するマスタサーバにタスクを送信するサブミッションランナを用いて前記タスクを生成する手順を有する、請求項８に記載のシステム。
前記サイドカーをディスパッチする手順は、前記ドライバポッド及び前記ワーカノードを使用して前記リソースデータを収集する手順を有する、請求項９に記載のシステム。
前記リソースデータは、エグゼキュータポッドボリューム、データボリューム、ノード情報、データ出力範囲、最大値サイズ、ＣＰＵ使用量、ストレージ使用量、及びそれらの組み合わせから成る群から選択される、請求項８から１０のいずれか一項に記載のシステム。
前記タスクを実行する手順は、前記タスクを実行し、結果を報告し、及び終了する手順を有する、請求項８から１０のいずれか一項に記載のシステム。
前記有向非巡回グラフ（ＤＡＧ）特徴アナライザは、耐障害性分散データセットを表す頂点、及び前記耐障害性分散データセットに適用されるオペレーションを表すエッジを有するグラフを含む、請求項８から１０のいずれか一項に記載のシステム。
前記有向非巡回グラフ（ＤＡＧ）特徴アナライザは、２つのステージを含み、ここで第１ステージは、前記少なくとも１つのエグゼキュータポッドからの前記リソースデータに基づいてエグゼキュータリソース割り当てを推奨し、及び第２ステージは、Ｋｕｂｅｒｎｅｔｅリソースの可観測性を獲得して、前記リソースデータに基づく前記推奨されたエグゼキュータリソース割り当てに応答してリソース自動スケーリングのバランスを取る、請求項１３に記載のシステム。
Ｋｕｂｅｒｎｅｔｅｓにおけるデータ局所性を制御するためのコンピュータプログラムであって、プロセッサに：
アプリケーションを実行するためのコントローラ及び少なくとも１つのエグゼキュータポッドを含むＫｕｂｅｒｎｅｔｅｓコンピューティング環境を確立する手順；
前記Ｋｕｂｅｒｎｅｔｅｓコンピューティング環境で実行すべきタスクに関する要求を受信する手順；
サイドカーをディスパッチして、有向非巡回グラフ（ＤＡＧ）特徴アナライザへの入力のために、前記少なくとも１つのエグゼキュータポッドからリソースデータを収集する手順；
非巡回グラフ（ＤＡＧ）特徴アナライザにより、前記少なくとも１つのエグゼキュータポッドから、前記タスクの実行のために利用可能である最適な動的リソースを識別する手順；及び
前記Ｋｕｂｅｒｎｅｔｅｓコンピューティング環境において利用可能である前記最適な動的リソースを満たす少なくとも１つのエグゼキュータポッド上で前記タスクを実行する手順
を実行させるためのコンピュータプログラム。
実行すべきタスクに関する要求を受信する前記手順は、アプリケーションオペレータが、前記Ｋｕｂｅｒｎｅｔｅｓコンピューティング環境のドライバポッド及びワーカノードと通信するようスケジューラに依頼するマスタサーバにタスクを送信するサブミッションランナを用いて前記タスクを生成する手順を有する、請求項１５に記載のコンピュータプログラム。
前記サイドカーをディスパッチする手順は、前記ドライバポッド及び前記ワーカノードを使用して前記リソースデータを収集させる手順を有する、請求項１６に記載のコンピュータプログラム。
前記リソースデータは、エグゼキュータポッドボリューム、データボリューム、ノード情報、データ出力範囲、最大値サイズ、ＣＰＵ使用量、ストレージ使用量、及びそれらの組み合わせから成る群から選択される、請求項１５から１７のいずれか一項に記載のコンピュータプログラム。
前記タスクを実行する手順は、前記タスクを実行し、結果を報告し、及び終了する手順を有する、請求項１５から１７のいずれか一項に記載のコンピュータプログラム。
前記有向非巡回グラフ（ＤＡＧ）特徴アナライザは、耐障害性分散データセットを表す頂点、及び前記耐障害性分散データセットに適用されるオペレーションを表すエッジを有するグラフを含む、請求項１５から１７のいずれか一項に記載のコンピュータプログラム。