JP2023517172A

JP2023517172A - ３次元メッシュ・トポロジにおけるコンピューティング・ノードの構成

Info

Publication number: JP2023517172A
Application number: JP2022546577A
Authority: JP
Inventors: アッセマン、アレクシス; オズカン、アーメット; コックス、チャールズ; ナラヤナン、プリティッシュ; アントワーヌ、ニコラス
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-03-06
Filing date: 2021-01-25
Publication date: 2023-04-24
Also published as: CN115244900B; WO2021176279A1; US11184245B2; GB202214679D0; GB2608556A; CN115244900A; US20210281488A1; DE112021001470T5; US11646944B2; US20220006702A1

Abstract

Ｎ×Ｍ×Ｚトポロジのメッシュ内に配置されたコンピューティング・ノードの集合体を有する再構成可能な計算デバイスで使用するためのコンピュータ実施方法が提供され、コンピューティング・ノードは、計算ハードウェアを含み、Ｚ＜ＮかつＺ＜Ｍであり、ＮおよびＭは、少なくとも４に等しい。方法は、計算デバイスを使用して、（ｉ）初期のシステムＩ／Ｏ帯域幅および（ｉｉ）初期のシステム・ノード間レイテンシを特徴とする計算を実行することと、デバイスをＮ’×Ｍ’×Ｚ’トポロジのメッシュに再構成することであって、Ｎ、Ｍ、およびＺの値のうちの少なくとも２つが、それらの対応するＮ’、Ｍ’、およびＺ’の値とは異なり、Ｎ×Ｍ×ＺがＮ’×Ｍ’×Ｚ’に等しい、再構成することと、デバイスを使用して、（ｉ）修正されたシステムＩ／Ｏ帯域幅および（ｉｉ）修正されたシステム・ノード間レイテンシを特徴とする計算を実行することとを含む。

Description

本発明は、並列処理システムに関し、より詳細には、本発明は、並列処理システム内の入力／出力（Ｉ／Ｏ）帯域幅およびノード間レイテンシ（node-to-node latency）を最適化することに関する。

並列処理システムは、多くの異なるタイプおよび量のデータに対する計算の実行に有用である。例えば、並列処理システムを使用して、１つまたは複数のニューラル・ネットワークを実装してもよい。しかしながら、並列処理システムは現在、ワークロードの要求の変化に応じてその性能特性を調整することができない。

一実施形態によるコンピュータ実施方法は、Ｎ×Ｍ×Ｚトポロジの３次元（３Ｄ）メッシュ内に配置された複数のコンピューティング・ノードを最初に有する処理デバイスによって実行されるべき所定の動作を識別することであって、Ｚ＜ＮかつＺ＜Ｍであり、ＮおよびＭが少なくとも４に等しい、識別することと、所定の動作の実行中に使用される複数のコンピューティング・ノードにとって最適な入力／出力（Ｉ／Ｏ）帯域幅または最適なノード間レイテンシあるいはその両方を決定することと、複数のコンピューティング・ノードにとって最適なＩ／Ｏ帯域幅および最適なノード間レイテンシを可能にする調整された３Ｄメッシュ・トポロジを取得するために３Ｄメッシュ・トポロジの寸法を調整することであって、前記調整することが、複数のコンピューティング・ノードをＮ’×Ｍ’×Ｚ’トポロジの３Ｄメッシュに再構成することを含み、Ｎ、Ｍ、およびＺの値のうちの少なくとも２つが、それらの対応するＮ’、Ｍ’、およびＺ’の値とは異なり、Ｎ×Ｍ×Ｚが、Ｎ’×Ｍ’×Ｚ’に等しい、調整することと、複数のコンピューティング・ノードがＮ’×Ｍ’×Ｚ’トポロジの調整された３Ｄメッシュ内に配置された状態で、所定の動作を実行することとを含む。

別の実施形態によれば、３次元（３Ｄ）メッシュ・トポロジにおいてコンピューティング・ノードを構成するためのコンピュータ・プログラム製品は、プログラム命令が具現化されたコンピュータ可読記憶媒体を含み、コンピュータ可読記憶媒体は、一過性の信号自体ではなく、プログラム命令は、プロセッサに、処理デバイスによって、Ｎ×Ｍ×Ｚトポロジの３次元（３Ｄ）メッシュ内に配置された複数のコンピューティング・ノードを最初に有する処理デバイスによって実行されるべき所定の動作を識別することであって、Ｚ＜ＮかつＺ＜Ｍであり、ＮおよびＭが少なくとも４に等しい、識別することと、処理デバイスによって、所定の動作の実行中に使用される複数のコンピューティング・ノードにとって最適な入力／出力（Ｉ／Ｏ）帯域幅または最適なノード間レイテンシあるいはその両方を決定することと、複数のコンピューティング・ノードにとって最適なＩ／Ｏ帯域幅および最適なノード間レイテンシを可能にする調整された３Ｄメッシュ・トポロジを取得するために、処理デバイスによって３Ｄメッシュ・トポロジの寸法を調整することであって、前記調整することが、処理デバイスによって複数のコンピューティング・ノードをＮ’×Ｍ’×Ｚ’トポロジのメッシュに再構成することを含み、Ｎ、Ｍ、およびＺの値のうちの少なくとも２つが、それらの対応するＮ’、Ｍ’、およびＺ’の値とは異なり、Ｎ×Ｍ×Ｚが、Ｎ’×Ｍ’×Ｚ’に等しい、調整することと、複数のコンピューティング・ノードがＮ’×Ｍ’×Ｚ’トポロジの調整された３Ｄメッシュ内に配置された状態で、処理デバイスによって所定の動作を実行することとを含む方法を実行させるように、プロセッサによって実行可能である。

別の実施形態によれば、システムは、Ｎ×Ｍ×Ｚトポロジのメッシュ内に配置されたコンピューティング・ノードの集合体であって、ノードが、計算ハードウェアを含み、Ｚ＜ＮかつＺ＜Ｍであり、ＮおよびＭが少なくとも４に等しい、コンピューティング・ノードの集合体と、メッシュの側面のうちの１つとインターフェースされたＩ／Ｏ接続の集合体であって、前記側面が、Ｎ×Ｍのノードを有し、Ｉ／Ｏ接続の各々が、前記側面内のノードのうちの一意の１つに結び付けられる、Ｉ／Ｏ接続の集合体と、Ｉ／Ｏ接続に結び付けられたＩ／Ｏカードとを含む。

別の実施形態によれば、Ｎ×Ｍ×Ｚトポロジのメッシュ内に配置されたコンピューティング・ノードの集合体を有する再構成可能な計算デバイスで使用するためのコンピュータ実施方法が提供され、コンピューティング・ノードは、計算ハードウェアを含み、Ｚ＜ＮかつＺ＜Ｍであり、ＮおよびＭは、少なくとも４に等しい。方法は、計算デバイスを使用して、（ｉ）初期のシステムＩ／Ｏ帯域幅および（ｉｉ）初期のシステム・ノード間レイテンシを特徴とする計算を実行することと、デバイスをＮ’×Ｍ’×Ｚ’トポロジのメッシュに再構成することであって、Ｎ、Ｍ、およびＺの値のうちの少なくとも２つが、それらの対応するＮ’、Ｍ’、およびＺ’の値とは異なり、Ｎ×Ｍ×ＺがＮ’×Ｍ’×Ｚ’に等しい、再構成することと、デバイスを使用して、（ｉ）修正されたシステムＩ／Ｏ帯域幅および（ｉｉ）修正されたシステム・ノード間レイテンシを特徴とする計算を実行することとを含む。

本発明の原理を例として説明した以下の詳細な説明を図面と併用することにより、本発明の他の態様および実施形態が明らかになるであろう。

本発明の一実施形態による、ネットワーク・アーキテクチャを示す図である。本発明の一実施形態による、図１のサーバまたはクライアントあるいはその両方に関連し得る代表的なハードウェア環境を示す図である。本発明の一実施形態による、階層型データ・ストレージ・システムを示す図である。本発明の一実施形態による、個々のハードウェア・カードの例示的な３×３×３メッシュ・トポロジを示す図である。本発明の一実施形態による、例示的な１２×１２×３メッシュ・トポロジを示す図である。本発明の一実施形態による、ユニバーサル高帯域幅接続カード（universal high-bandwidth connectivity card）の例示的な実装を示す図である。本発明の一実施形態による、面のうちの１つを介して入力を受け取る例示的な３Ｄメッシュ・トポロジを示す図である。本発明の一実施形態による、３次元（３Ｄ）メッシュ・トポロジにおいてコンピューティング・ノードを構成するための方法を示す図である。本発明の一実施形態による、Ｎ×Ｍ×Ｚトポロジのメッシュ内に配置されたコンピューティング・ノードの集合体を有する計算デバイスを再構成するための方法を示す図である。

以下の説明は、本発明の一般的な原理を説明することを目的としてなされており、本明細書で特許請求される本発明の概念を限定することを意味するものではない。さらに、本明細書に記載の特定の特徴は、様々な可能な組合せおよび置換えの各々において、他の記載されている特徴と組み合わせて使用することができる。

本明細書において別途明確な定義がない限り、用語はすべて、本明細書から暗示される意味、ならびに当業者によって理解される意味または辞書、論文などで定義される意味あるいはその両方を含む、可能な限り広い解釈を与えられるべきである。

本明細書および添付の特許請求の範囲で使用する単数形「ａ」、「ａｎ」および「ｔｈｅ」は、別途指示がない限り複数のものを含むことにも留意されたい。本明細書で使用する「含む（includes）」という用語または「備えている（comprising）」という用語あるいはその両方は、記載された特徴、整数、ステップ、動作、要素、または構成要素あるいはその組合せの存在を指定するが、１つまたは複数の他の特徴、整数、ステップ、動作、要素、構成要素、またはそれらのグループあるいはその組合せの存在または追加を排除するものではないことがさらに理解されよう。

以下の説明では、３次元（３Ｄ）メッシュ・トポロジにおいてコンピューティング・ノードを構成するためのシステム、方法、およびコンピュータ・プログラム製品のいくつかの好ましい実施形態を開示する。

一般的な一実施形態では、コンピュータ実施方法は、Ｎ×Ｍ×Ｚトポロジの３次元（３Ｄ）メッシュ内に配置された複数のコンピューティング・ノードを最初に有する処理デバイスによって実行されるべき所定の動作を識別することであって、Ｚ＜ＮかつＺ＜Ｍであり、ＮおよびＭが少なくとも４に等しい、識別することと、所定の動作の実行中に使用される複数のコンピューティング・ノードにとって最適な入力／出力（Ｉ／Ｏ）帯域幅または最適なノード間レイテンシあるいはその両方を決定することと、複数のコンピューティング・ノードにとって最適なＩ／Ｏ帯域幅および最適なノード間レイテンシを可能にする調整された３Ｄメッシュ・トポロジを取得するために３Ｄメッシュ・トポロジの寸法を調整することであって、前記調整することが、複数のコンピューティング・ノードをＮ’×Ｍ’×Ｚ’トポロジの３Ｄメッシュに再構成することを含み、Ｎ、Ｍ、およびＺの値のうちの少なくとも２つが、それらの対応するＮ’、Ｍ’、およびＺ’の値とは異なり、Ｎ×Ｍ×Ｚが、Ｎ’×Ｍ’×Ｚ’に等しい、調整することと、複数のコンピューティング・ノードがＮ’×Ｍ’×Ｚ’トポロジの調整された３Ｄメッシュ内に配置された状態で、所定の動作を実行することとを含む。

別の一般的な実施形態では、３次元（３Ｄ）メッシュ・トポロジにおいてコンピューティング・ノードを構成するためのコンピュータ・プログラム製品は、プログラム命令が具現化されたコンピュータ可読記憶媒体を含み、コンピュータ可読記憶媒体は、一過性の信号自体ではなく、プログラム命令は、プロセッサに、処理デバイスによって、Ｎ×Ｍ×Ｚトポロジの３次元（３Ｄ）メッシュ内に配置された複数のコンピューティング・ノードを最初に有する処理デバイスによって実行されるべき所定の動作を識別することであって、Ｚ＜ＮかつＺ＜Ｍであり、ＮおよびＭが少なくとも４に等しい、識別することと、処理デバイスによって、所定の動作の実行中に使用される複数のコンピューティング・ノードにとって最適な入力／出力（Ｉ／Ｏ）帯域幅または最適なノード間レイテンシあるいはその両方を決定することと、複数のコンピューティング・ノードにとって最適なＩ／Ｏ帯域幅および最適なノード間レイテンシを可能にする調整された３Ｄメッシュ・トポロジを取得するために、処理デバイスによって３Ｄメッシュ・トポロジの寸法を調整することであって、前記調整することが、処理デバイスによって複数のコンピューティング・ノードをＮ’×Ｍ’×Ｚ’トポロジのメッシュに再構成することを含み、Ｎ、Ｍ、およびＺの値のうちの少なくとも２つが、それらの対応するＮ’、Ｍ’、およびＺ’の値とは異なり、Ｎ×Ｍ×Ｚが、Ｎ’×Ｍ’×Ｚ’に等しい、調整することと、複数のコンピューティング・ノードがＮ’×Ｍ’×Ｚ’トポロジの調整された３Ｄメッシュ内に配置された状態で、処理デバイスによって所定の動作を実行することとを含む方法を実行させるように、プロセッサによって実行可能である。

別の一般的な実施形態では、システムは、Ｎ×Ｍ×Ｚトポロジのメッシュ内に配置されたコンピューティング・ノードの集合体であって、ノードが、計算ハードウェアを含み、Ｚ＜ＮかつＺ＜Ｍであり、ＮおよびＭが少なくとも４に等しい、コンピューティング・ノードの集合体と、メッシュの側面のうちの１つとインターフェースされたＩ／Ｏ接続の集合体であって、前記側面が、Ｎ×Ｍのノードを有し、Ｉ／Ｏ接続の各々が、前記側面内のノードのうちの一意の１つに結び付けられる、Ｉ／Ｏ接続の集合体と、Ｉ／Ｏ接続に結び付けられたＩ／Ｏカードとを含む。

別の一般的な実施形態では、Ｎ×Ｍ×Ｚトポロジのメッシュ内に配置されたコンピューティング・ノードの集合体を有する再構成可能な計算デバイスで使用するためのコンピュータ実施方法が提供され、コンピューティング・ノードは、計算ハードウェアを含み、Ｚ＜ＮかつＺ＜Ｍであり、ＮおよびＭは、少なくとも４に等しい。方法は、計算デバイスを使用して、（ｉ）初期のシステムＩ／Ｏ帯域幅および（ｉｉ）初期のシステム・ノード間レイテンシを特徴とする計算を実行することと、デバイスをＮ’×Ｍ’×Ｚ’トポロジのメッシュに再構成することであって、Ｎ、Ｍ、およびＺの値のうちの少なくとも２つが、それらの対応するＮ’、Ｍ’、およびＺ’の値とは異なり、Ｎ×Ｍ×ＺがＮ’×Ｍ’×Ｚ’に等しい、再構成することと、デバイスを使用して、（ｉ）修正されたシステムＩ／Ｏ帯域幅および（ｉｉ）修正されたシステム・ノード間レイテンシを特徴とする計算を実行することとを含む。

図１は、一実施形態による、アーキテクチャ１００を示す。図１に示すように、第１のリモート・ネットワーク１０４と第２のリモート・ネットワーク１０６とを含む複数のリモート・ネットワーク１０２が提供される。リモート・ネットワーク１０２と近接ネットワーク１０８との間にゲートウェイ１０１が結合されてもよい。本アーキテクチャ１００の文脈において、ネットワーク１０４、１０６はそれぞれ、ＬＡＮ、インターネットなどのＷＡＮ、公衆交換電話網（ＰＳＴＮ：public switched telephone network）、内部電話網などを含むがこれらに限定されない任意の形式であってもよい。

使用中、ゲートウェイ１０１は、リモート・ネットワーク１０２から近接ネットワーク１０８への入口点として機能する。したがって、ゲートウェイ１０１は、ゲートウェイ１０１に到着するデータの所与のパケットを方向付ける（direct）ことが可能なルータとして、また所与のパケットに対してゲートウェイ１０１に出入りする実際の経路を提供するスイッチとして機能してもよい。

近接ネットワーク１０８に結合され、ゲートウェイ１０１を介してリモート・ネットワーク１０２からアクセスできる少なくとも１つのデータ・サーバ１１４がさらに含まれる。データ・サーバ１１４が任意のタイプのコンピューティング・デバイス／グループウェアを含み得ることに留意されたい。複数のユーザ・デバイス１１６が各データ・サーバ１１４に結合される。ユーザ・デバイス１１６は、また、ネットワーク１０４、１０６、１０８のうちの１つを介して直接接続されてもよい。このようなユーザ・デバイス１１６には、デスクトップ・コンピュータ、ラップトップ・コンピュータ、ハンドヘルド・コンピュータ、プリンタ、または任意の他のタイプの論理が含まれてもよい。一実施形態では、ユーザ・デバイス１１１は、また、ネットワークのいずれかに直接結合され得ることに留意されたい。

周辺機器１２０または一連の周辺機器１２０、例えば、ファクシミリ機、プリンタ、ネットワーク化されたまたはローカルのあるいはその両方のストレージ・ユニットまたはシステムなどは、ネットワーク１０４、１０６、１０８のうちの１つまたは複数に結合されてもよい。データベースまたは追加の構成要素あるいはその両方が、ネットワーク１０４、１０６、１０８に結合された任意のタイプのネットワーク要素とともに利用され得るか、またはそれに統合され得ることに留意されたい。本説明の文脈において、ネットワーク要素は、ネットワークの任意の構成要素を指すことがある。

いくつかの手法によれば、本明細書に記載の方法およびシステムは、ＩＢＭｚ／ＯＳ環境をエミュレートするＵＮＩＸ（Ｒ）システム、ＭＩＣＲＯＳＯＦＴＷＩＮＤＯＷＳ（Ｒ）環境を仮想的にホストするＵＮＩＸ（Ｒ）システム、ＩＢＭｚ／ＯＳ環境をエミュレートするＭＩＣＲＯＳＯＦＴＷＩＮＤＯＷＳ（Ｒ）システムなどの、仮想システム、または１つもしくは複数の他のシステムをエミュレートするシステム、あるいはその両方とともに実装されるか、またはそれらのシステム上に実装されるか、あるいはその両方であってもよい。いくつかの実施形態では、この仮想化またはエミュレーションあるいはその両方は、ＶＭＷＡＲＥソフトウェアの使用を通して強化されてもよい。ｚ／ＯＳはＩＢＭＣｏｒｐｏｒａｔｉｏｎの商標である。

さらなる手法では、１つまたは複数のネットワーク１０４、１０６、１０８は、一般に「クラウド」と呼ばれるシステムのクラスタを表してもよい。クラウド・コンピューティングでは、クラウド内の任意のシステムに、処理能力、周辺機器、ソフトウェア、データ、サーバなどの共有リソースがオン・デマンドの関係で提供され、これにより、多くのコンピューティング・システム間でサービスのアクセスおよび分散が可能になる。クラウド・コンピューティングは、典型的には、クラウド内で動作するシステム間のインターネット接続を含むが、システムを接続する他の技術も使用されてもよい。

図２は、一実施形態による、図１のユーザ・デバイス１１６またはサーバ１１４あるいはその両方に関連する代表的なハードウェア環境を示す。この図は、マイクロプロセッサなどの中央処理ユニット２１０と、システム・バス２１２を介して相互接続された、いくつかの他のユニットとを有するワークステーションの典型的なハードウェア構成を示す。

図２に示すワークステーションは、ランダム・アクセス・メモリ（ＲＡＭ）２１４と、読取り専用メモリ（ＲＯＭ）２１６と、ディスク・ストレージ・ユニット２２０などの周辺デバイスをバス２１２に接続するためのＩ／Ｏアダプタ２１８と、キーボード２２４、マウス２２６、スピーカ２２８、マイクロフォン２３２、またはタッチ・スクリーンおよびデジタル・カメラ（図示せず）などの他のユーザ・インターフェース・デバイスあるいはその組合せをバス２１２に接続するためのユーザ・インターフェース・アダプタ２２２と、ワークステーションを通信ネットワーク２３５（例えば、データ処理ネットワーク）に接続するための通信アダプタ２３４と、バス２１２をディスプレイ・デバイス２３８に接続するためのディスプレイ・アダプタ２３６とを含む。

ワークステーションには、ＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ（Ｒ）オペレーティング・システム（ＯＳ）、ＭＡＣＯＳ、ＵＮＩＸ（Ｒ）ＯＳなどのオペレーティング・システムが常駐していてもよい。好ましい実施形態が、言及したもの以外のプラットフォームおよびオペレーティング・システム上にも実装され得ることが理解されるであろう。好ましい実施形態は、オブジェクト指向プログラミング方法とともに、ＸＭＬ言語、Ｃ言語、もしくはＣ＋＋言語またはその組合せ、あるいは他のプログラミング言語を使用して記述されてもよい。複雑なアプリケーションを開発するためにますます使用されるようになったオブジェクト指向プログラミング（ＯＯＰ）が使用されてもよい。

次に、図３を参照すると、一実施形態によるストレージ・システム３００が示されている。様々な実施形態によれば、図３に示す要素のいくつかは、ハードウェアまたはソフトウェアあるいはその両方として実装され得ることに留意されたい。ストレージ・システム３００は、少なくとも１つの上位ストレージ階層３０２および少なくとも１つの下位ストレージ階層３０６上の複数の媒体と通信するためのストレージ・システム・マネージャ３１２を含んでもよい。上位ストレージ階層３０２は、好ましくは、例えば、ハード・ディスク・ドライブ（ＨＤＤ）内のハード・ディスク、不揮発性メモリ（ＮＶＭ）、ソリッド・ステート・ドライブ（ＳＳＤ）内のソリッド・ステート・メモリ、フラッシュ・メモリ、ＳＳＤアレイ、フラッシュ・メモリ・アレイなど、または本明細書に記載されているか、もしくは当技術分野で知られている他のもの、あるいはその組合せなど、１つもしくは複数のランダム・アクセス媒体またはダイレクト・アクセス媒体あるいはその両方３０４を含んでもよい。下位ストレージ階層３０６は、好ましくは、テープ・ドライブまたは光媒体あるいはその両方内の磁気テープ、低速アクセスＨＤＤ、低速アクセスＳＳＤなどの順次アクセス媒体、または本明細書に記載されているか、もしくは当技術分野で知られている他のもの、あるいはその組合せを含む、１つまたは複数のより低性能なストレージ媒体３０８を含んでもよい。１つまたは複数の追加のストレージ階層３１６は、システム３００の設計者が所望するように、ストレージ・メモリ媒体の任意の組合せを含んでもよい。また、上位ストレージ階層３０２または下位ストレージ階層３０６あるいはその両方のいずれかは、ストレージ・デバイスまたはストレージ媒体あるいはその両方の何らかの組合せを含んでもよい。

ストレージ・システム・マネージャ３１２は、図３に示すようなストレージ・エリア・ネットワーク（ＳＡＮ）または何らかの他の好適なネットワーク・タイプなどのネットワーク３１０を介して、上位ストレージ階層３０２および下位ストレージ階層３０６上のストレージ媒体３０４、３０８と通信してもよい。ストレージ・システム・マネージャ３１２はまた、ホスト・インターフェース３１４を介して１つまたは複数のホスト・システム（図示せず）と通信してもよく、ホスト・インターフェース３１４は、ストレージ・システム・マネージャ３１２の一部であっても、一部でなくてもよい。ストレージ・システム・マネージャ３１２またはストレージ・システム３００の任意の他の構成要素あるいはその両方は、ハードウェアまたはソフトウェアあるいはその両方に実装されてもよく、当技術分野で知られているタイプのコマンドを実行するために、中央処理ユニット（ＣＰＵ）、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）などのプロセッサ（図示せず）を利用してもよい。当然ながら、本明細書を読むことにより当業者には明らかであるように、ストレージ・システムの任意の配置が使用されてもよい。

さらなる実施形態では、ストレージ・システム３００は、任意の数のデータ・ストレージ階層を含んでもよく、各ストレージ階層内に同じまたは異なるストレージ・メモリ媒体を含んでもよい。例えば、各データ・ストレージ階層は、ＨＤＤ、ＳＳＤ、順次アクセス媒体（テープ・ドライブ内のテープ、光ディスク・ドライブ内の光ディスクなど）、ダイレクト・アクセス媒体（ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭなど）などの同じタイプのストレージ・メモリ媒体、または複数のタイプの媒体ストレージの任意の組合せを含んでもよい。そのような構成の１つにおいて、上位ストレージ階層３０２は、より高性能なストレージ環境にデータを記憶するためのＳＳＤストレージ媒体の大部分を含んでもよく、下位ストレージ階層３０６および追加のストレージ階層３１６を含む残りのストレージ階層は、より低性能なストレージ環境にデータを記憶するためのＳＳＤ、ＨＤＤ、テープ・ドライブなどの任意の組合せを含んでもよい。このようにして、より頻繁にアクセスされるデータ、より高い優先度を有するデータ、より迅速にアクセスされる必要があるデータなどは、上位ストレージ階層３０２に記憶されてもよく、一方、これらの属性のうちの１つを有さないデータは、下位ストレージ階層３０６を含む追加のストレージ階層３１６に記憶されてもよい。当然ながら、当業者は、本明細書を読むことにより、本明細書に提示される実施形態に従って、異なる記憶方式に実装するための複数のタイプのストレージ媒体の他の多くの組合せを考案してもよい。

いくつかの実施形態によれば、ストレージ・システム（３００など）は、データ・セットを開くよう求める要求を受け取るように構成された論理、要求されたデータ・セットが複数の関連する部分において階層型データ・ストレージ・システム３００の下位ストレージ階層３０６に記憶されているかどうかを判定するように構成された論理、要求されたデータ・セットの各関連する部分を階層型データ・ストレージ・システム３００の上位ストレージ階層３０２に移動するように構成された論理、および階層型データ・ストレージ・システム３００の上位ストレージ階層３０２上の要求されたデータ・セットを関連する部分から集めるように構成された論理を含んでもよい。

当然ながら、この論理は、様々な実施形態に従って、任意のデバイス上またはシステム上あるいはその両方での方法として、またはコンピュータ・プログラム製品として実装されてもよい。

例示的なマルチノード・システム

例示的なハードウェア・マルチノード・システムの１つは、３Ｄメッシュ・ネットワーク・トポロジにおいて相互接続された計算ノードを備えた大規模で高度にスケーラブルな並列処理システムを含む。各計算ノードは、１ＧＢの専用メモリとともに、同じダイ（システム・オン・チップ）上にＡＲＭＡ９ＣＰＵおよびＦＰＧＡ論理を含んでもよい。すべてのノードでＦＰＧＡリソースを利用できるので、特定用途向けプロセッサのオフロードが可能になる。

３Ｄメッシュ・トポロジを実現する通信ネットワークは、ＦＰＧＡハードウェアに接続されたシングル・スパンおよびマルチ・スパンのＳＥＲＤＥＳ（Ｓｅｒｉａｌｉｚｅｒ－Ｄｅｓｅｒｉａｌｉｚｅｒ）リンクを使用して実装される。ＦＰＧＡ論理はこれらの物理リンクへのアクセスを有するので、アプリケーションに最適な通信モードに基づいて、適合したネットワーク・コントローラを構築することが可能である。アプリケーション・コード、ミドルウェア、システム・ソフトウェア、およびハードウェア全体でシステム性能を最適化する能力は、システムの例示的な特徴の１つである。

一実施形態では、ノードに信号／メッセージを相互に交換させる能力を備えた分散メモリおよびコンピューティング・リソースのこの３Ｄトポロジにより、マシン・インテリジェンスなどのコンピューティングの分野を進歩させるために無数の方法で使用できるハードウェア・プラットフォームが使用可能になる場合がある。

例示的なシステムの１つは、新興の機械知能アルゴリズムのための開発プラットフォームを含んでもよい。これは、高帯域幅３Ｄメッシュ・ネットワークに編成された多数の計算ノードを有する並列処理システムを含んでもよい。この例示的なプラットフォームは、柔軟性が高くなるように設計される。各ノード内には、デュアルコアＣｏｒｔｅｘＡ９ＡＲＭプロセッサとＦＰＧＡが同じダイ上にあり、これにより、システムをノード別に再構成することが可能になる。各ノードは、プログラムおよびデータの空間として使用でき、プロセッサとＦＰＧＡとの両方からアクセス可能な、１ＧＢの専用ＤＲＡＭも含む。高性能の学習タスクを受け取ったことに応答して、性能重視のステップの多くは、ＦＰＧＡでオフロードおよび最適化されてもよく、ＡＲＭは補助サポート（例えば、初期化、診断、出力転送など）のみを提供する。

一実施形態では、システムの物理通信リンクへのアクセスは、１つまたは複数のＦＰＧＡを介してもよい。さらに、複数の異なる「論理的」通信チャネルを確立することができ、すべての通信チャネルが、同じ基盤となるＳＥＲＤＥＳリンクを利用する。このようにして、ネットワーク・インターフェースを、ＩＮＣで実行されるアプリケーションに最適となるように設計すること（さらには、段階的に最適化すること）ができる。

ハードウェア・カード

システムの例示的な構成要素の１つは、ハードウェア・カードである。一実施形態では、各カードは、３×３×３の立方体に配置された２７個のノードを含む。別の実施形態では、システムは、１枚からＮ枚のカードを用いて構築されてもよい（例えば、５１２枚のカードは、１３，８２４個のノードを含むことになる）。

図４は、１つの例示的な実施形態による、個々のハードウェア・カードの例示的な３×３×３メッシュ・トポロジ４００を示す。メッシュ・トポロジ４００内のノードは、論理的に隣接するノード間の接続長を最小化する方法でカード上に置かれる。単一のカード上のノードはすべて、３つの例外を除いて同一であってもよい。第１のノード４０２は、Ｅｔｈｅｒｎｅｔ（Ｒ）ポートを含み、ＦＰＧＡ上に実装された内部Ｅｔｈｅｒｎｅｔ（Ｒ）ネットワークを従来の外部ネットワークに接続するゲートウェイとして機能する。第２のノード４０４は、ホストＰＣに接続できる４レーンのＰＣＩｅ２．０接続を含むコントローラ・ノードである。第２のノード４０４は、起動中にコンソールとして機能できるか、またはカード上の他のノードに転送され得る、直列接続も有する。第３のノード４０６は、ＰＣＩｅインターフェースをサポートすることが可能である。

図５は、例示的な一実施形態による、例示的な１２×１２×３メッシュ・トポロジ５００を示す。図示のように、それぞれが３×３×３立方体メッシュ（例えば、図４を参照）を実装する１６枚のハードウェア・カードは、バックプレーンを介して接続されて、１２×１２×３メッシュ・トポロジ５００を形成する。

バックプレーン、ケージ、およびラック

例示的なシステムの１つにおいて、個々のカードは、バックプレーンにプラグ接続される。各バックプレーンは、所定の数（例えば、１６枚）のカードをサポートすることができ、バックプレーンの配線は、カードのノードを所定のメッシュに配置する（例えば、１６枚のカードは１２×１２×３メッシュをもたらす）。バックプレーンおよびカードは、カード・ケージに収容されてもよい。バックプレーンの背面にあるコネクタにより、ケージを垂直に接続することが可能になる。

図６は、一実施形態による、ユニバーサル高帯域幅接続カード６０２の例示的な実装６００を示す。図示のように、ユニバーサル高帯域幅接続カード６０２は、３次元（３Ｄ）メッシュ・トポロジ内に配置された複数のコンピューティング・ノードをサポートするバックプレーン６０４に直接接続する。ユニバーサル高帯域幅接続カード６０２は、インフィニバンド６１２、高速Ｅｔｈｅｒｎｅｔ（Ｒ）６１４、および高帯域幅接続６１６などの接続を介して、外部データ・ソース６０６、外部ストレージ６０８、および外部サーバ６１０にも接続される。このようにして、ユニバーサル高帯域幅接続カード６０２は、３次元（３Ｄ）メッシュ・トポロジ内に配置された複数のコンピューティング・ノードと、外部データ・ソース６０６、外部ストレージ６０８、および外部サーバ６１０との間の通信を容易にしてもよい。

図７は、例示的な一実施形態による、面７０２のうちの１つを介して入力を受け取る例示的な３Ｄメッシュ・トポロジ７００を示す。図示のように、３Ｄメッシュ・トポロジ７００の上面７０２は、３Ｄメッシュ・トポロジ７００内の複数のコンピューティング・ノードのためのＩ／Ｏ動作を実行し、それによって、３Ｄメッシュ・トポロジ７００の制約を示す。

物理リンク

ノードごとに所定の数（例えば、６つ）の双方向シングル・スパン・リンクを用いて、カード上の各ノードは、シングル・スパン・リンクによってその直交する最近傍ノードに接続されてもよい。立方体の面上のノード（すなわち、中央ノード以外のすべてのノードなど）は、カードを離れるシングル・スパン・リンクを有し、そのようなノードは、システム内の他のカード上に最近傍ノードを有してもよい。シングル・スパン・リンクに加えて、６つの双方向マルチ・スパン・リンクにより、より大規模なシステムにおいてより効率的な通信が可能になる。マルチ・スパン・リンクは、任意の１つの直交方向に３つ離れたノードを接続し、異なるカードで開始および終了してもよい。一実施形態では、カードを出入りする合計４３２のリンク、およびリンクごとに毎秒１ギガバイト（ＧＢ）の場合、カードごとに毎秒４３２ＧＢの潜在的な最大帯域幅を得ることができる。

通信リンクは、高速、シリアル、単方向のＳＥＲＤＥＳリンクを含んでもよい。リンクは、２本のワイヤ（例えば、差動データ・ライン）を有してもよい。オーバーラン・エラーが発生せず、データが失われないことを保証するために、リンクは、クレジット方式によって制御されてもよい。受信リンクは、受信リンクが何バイトのデータを受信する用意があるかのカウントを（そのペアの送信リンクを介して）送信する。送信リンクがデータを送信するとき、送信リンクは、そのカウントを減少させることになり、受信機からのクレジットを保持するよりも多くのデータを送信することはない。受信側がバッファ空間を解放するため、受信側はクレジット・バランスに追加されることになる。このクレジット・システムは、完全にハードウェア・ファブリックに実装されてもよく、ＡＲＭプロセッサまたはソフトウェアを含まなくてもよい。

パケット・ルーティング

一実施形態では、通信ネットワークは、有向パケット・ルーティング方式およびブロードキャスト・パケット・ルーティング方式、ならびにマルチキャストまたはネットワーク欠陥回避方式をサポートしてもよい。

有向ルーティング・モードでは、プロセッサ複合体または計算ノードのＦＰＧＡ部分から発信されたパケットは、単一の宛先へルーティングされてもよい。シングル・スパン・リンクとマルチ・スパン・リンクとの両方がルーティングに使用されてもよく、パケットは、最小ホップ数で配信されることになる。パケット・ルーティング・メカニズムは完全にＦＰＧＡファブリックに実装されてもよく、ＡＲＭプロセッサは、ソース・ノードおよび宛先ノードにのみ関与してもよい。

一実施形態では、ブロードキャスト・パケットは、ソース・ノードからすべての方向に放射してもよく、システム内のすべてのノードに配信されてもよい。ブロードキャスト・パケットは、ルーティングを簡素化するために、システム内のシングル・スパン・リンクのみを使用する。どのリンクがブロードキャスト・パケットを受信したかに応じて、受信ノードは、ａ）他のすべてのリンクに転送するか、ｂ）リンクのサブセットに転送するか、ｃ）転送を停止するかを選択してもよい。これらの３つのシナリオの規則を慎重に選択することによって、システム内のすべてのノードがブロードキャスト・パケットのコピーを厳密に１つだけ受信するよう保証することが可能になる。

接続性および通信

複数の仮想チャネルは、プロセッサおよびＦＰＧＡ論理に通信ネットワークへの異なる仮想インターフェースまたは論理インターフェースを与えるために、上記の基礎となるルータ論理の上に位置するように設計され得る。

例示的な構成

次に、図８を参照すると、一実施形態による、３次元（３Ｄ）メッシュ・トポロジにおいてコンピューティング・ノードを構成するための方法８００の流れ図が示されている。方法８００は、とりわけ図１～図７に示す環境のいずれかにおいて、本発明に従って実行されてもよい。当然ながら、本明細書を読むことにより当業者によって理解されるように、方法８００には、図８で具体的に説明したものよりも多い動作または少ない動作が含まれてもよい。

方法８００のステップの各々は、動作環境の任意の好適な構成要素によって実行されてもよい。例えば、様々な実施形態では、方法８００は、１つもしくは複数のサーバ、コンピュータ、または中に１つもしくは複数のプロセッサを有する何らかの他のデバイスによって、部分的または全体的に実行されてもよい。方法８００の１つまたは複数のステップを実行するために、ハードウェアまたはソフトウェアあるいはその両方に実装され、好ましくは少なくとも１つのハードウェア構成要素を有するプロセッサ、例えば、処理回路、チップ、またはモジュールあるいはその組合せが、任意のデバイスにおいて利用されてもよい。例示のプロセッサは、中央処理ユニット（ＣＰＵ）、特定用途向け集積回路（ＡＳＩＣ）、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）など、それらの組合せ、または当技術分野で知られている任意の他の好適なコンピューティング・デバイスを含むが、これらに限定されない。

図８に示すように、方法８００は、動作８０２で開始することができ、ここで、３次元（３Ｄ）Ｎ×Ｍ×Ｚメッシュ・トポロジ内に配置された複数のコンピューティング・ノードを最初に有する処理デバイスによって実行されるべき所定の動作が識別され、Ｚ＜ＮかつＺ＜Ｍであり、ＮおよびＭは少なくとも４に等しい。一実施形態では、複数のコンピューティング・ノードの各々は、プログラマブル集積回路（例えば、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、中央処理ユニット（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）など）を含んでもよい。別の実施形態では、コンピューティング・ノードは、プリント回路基板（ＰＣＢ）配線を使用して１つまたは複数のハードウェア・カード上に物理的に配置されてもよい。

さらに、一実施形態では、コンピューティング・ノードを含む複数のハードウェア・カードは、１つまたは複数のバックプレーンを使用して相互接続されてもよい。例えば、各バックプレーンは、ハードウェア・カードの別々のグループ間の通信を可能にしてもよい。別の実施形態では、コンピューティング・ノードは、バックプレーンおよび接続カードを介して外部データ・ソースと通信してもよい。例えば、ユニバーサル高帯域幅接続カードは、（バックプレーンを介する）複数のコンピューティング・ノードと、（インフィニバンド、高速Ｅｔｈｅｒｎｅｔ（Ｒ）などの１つまたは複数の接続を介する）外部のストレージ、サーバなどの外部データ・ソースとの間の通信を可能にしてもよい。

さらに、一実施形態では、３Ｄメッシュ・トポロジは、複数のコンピューティング・ノードの３次元グループ化を含んでもよい。例えば、３Ｄメッシュ・トポロジは、高さ寸法（Ｎ）、幅寸法（Ｍ）、および深さ寸法（Ｚ）を有してもよい。別の実施形態では、所定の動作は、複数のコンピューティング・ノードによって実行することが可能な任意の処理動作を含んでもよい。

例えば、所定の動作は、データ作成、データ修正、データ削除、データ転送、データ複製などのうちの１つまたは複数を含んでもよい。別の例では、所定の動作は、１つまたは複数の所定のアプリケーションによって複数のコンピューティング・ノードに送信されてもよい。さらに別の例では、所定の動作は、ニューラル・ネットワーク実装内に含まれてもよい。

さらに、一実施形態では、所定の動作は、１つまたは複数の外部データ・ソース（例えば、１つまたは複数の外部サーバなど）から送信されてもよい。

また、方法８００は、動作８０４に進むことができ、ここで、所定の動作の実行中に使用される複数のコンピューティング・ノードにとって最適な入力／出力（Ｉ／Ｏ）帯域幅または最適なノード間レイテンシあるいはその両方が決定される。一実施形態では、３Ｄメッシュ・トポロジは、６つの面を有してもよい（例えば、６つの面の各々は、３Ｄメッシュ・トポロジの側面であってもよい）。別の実施形態では、３Ｄメッシュ・トポロジは、３Ｄメッシュ・トポロジの物理的構造に基づいて、所定の制約を有してもよい。

例えば、複数のコンピューティング・ノードと通信するバックプレーンは、３Ｄメッシュの単一の面とのみ通信（例えば、Ｉ／Ｏ動作を実行）してもよい。別の例では、バックプレーンは、外部データ・ソースとの通信を可能にしてもよい。例えば、通信は、外部データ・ソースからの所定の動作の受信、それらの所定の動作から生じるデータの外部データ・ソースへの出力などを含んでもよい。別の例では、複数のコンピューティング・ノードの各々は、３Ｄメッシュ・トポロジ内のノードの直接の近傍ノードとのみ対話してもよい。

さらに、一実施形態では、Ｉ／Ｏ帯域幅は、利用可能なバックプレーンを介して複数のコンピューティング・ノードとの間の最大帯域幅を示してもよい。別の実施形態では、ノード間レイテンシは、３Ｄメッシュ・トポロジ内で最も離れた距離を有するコンピューティング・ノード間の最悪の場合のレイテンシを示してもよい。さらに別の実施形態では、最適な入力／出力（Ｉ／Ｏ）帯域幅および最適なノード間レイテンシは、複数のコンピューティング・ノードによる所定の動作の実行の性能を最適化する、所定の動作に対して決定された所定の帯域幅およびレイテンシの数を含んでもよい。

さらに、方法８００は、動作８０６に進むことができ、ここで、複数のコンピューティング・ノードにとって最適なＩ／Ｏ帯域幅および最適なノード間レイテンシを可能にする調整された３Ｄメッシュ・トポロジを得るために３Ｄメッシュ・トポロジの寸法が調整され、前記調整することは、複数のコンピューティング・ノードをＮ’×Ｍ’×Ｚ’トポロジのメッシュに再構成することを含み、Ｎ、Ｍ、およびＺの値のうちの少なくとも２つは、それらの対応するＮ’、Ｍ’、およびＺ’の値とは異なり、Ｎ×Ｍ×Ｚは、Ｎ’×Ｍ’×Ｚ’に等しい。一実施形態では、３Ｄメッシュ・トポロジの所定の制約を考慮して、３Ｄメッシュ・トポロジの寸法に対して、複数のコンピューティング・ノードのＩ／Ｏ帯域幅およびノード間レイテンシを変更する調整が行われてもよい。

さらに、一実施形態では、元の３Ｄメッシュ・トポロジにおける複数のコンピューティング・ノードの現在のＩ／Ｏ帯域幅は、最適なＩ／Ｏ帯域幅と比較されてもよい。別の実施形態では、最適なＩ／Ｏ帯域幅が現在のＩ／Ｏ帯域幅よりも大きいとの判定に応答して、複数のコンピューティング・ノードのＩ／Ｏ帯域幅を増加させるために、Ｉ／Ｏを実行する３Ｄメッシュ・トポロジの面のサイズを拡大させてもよい。

例えば、３Ｄメッシュ・トポロジの面のサイズは、バックプレーンを介して外部データ・ソースから３Ｄメッシュ・トポロジ内の増加した数のコンピューティング・ノードに所定の動作を方向付けることによって増大されてもよい。別の例では、３Ｄメッシュ・トポロジ内の各コンピューティング・ノードは、１つまたは複数のＩ／Ｏ接続を有してもよい。さらに別の例では、バックプレーンを介して外部データ・ソースから増加した数のコンピューティング・ノードに所定の動作を送信することによって、外部データ・ソースとのＩ／Ｏに参加するノードの数を増加してもよく、これにより、バックプレーンを介して通信する３Ｄメッシュの単一の面のサイズを拡大してもよい。さらに別の例では、Ｉ／Ｏを実行する３Ｄメッシュ・トポロジの面のサイズを拡大すると、３Ｄメッシュ・トポロジ内の最も遠いコンピューティング・ノード間の距離も長くなる可能性があり、これにより、ノード間レイテンシが長くなる可能性がある。

また、一実施形態では、最適なＩ／Ｏ帯域幅が現在のＩ／Ｏ帯域幅よりも小さいとの判定に応答して、現在の３Ｄメッシュ・トポロジは変更されない場合がある。

さらに、一実施形態では、元の３Ｄメッシュ・トポロジにおける複数のコンピューティング・ノードの現在のノード間レイテンシは、最適なノード間レイテンシと比較されてもよい。別の実施形態では、最適なノード間レイテンシが現在のノード間レイテンシよりも短いとの判定に応答して、複数のコンピューティング・ノード内のノード間レイテンシを短縮するために３Ｄメッシュ・トポロジ内の最も遠いコンピューティング・ノード間の距離が短縮されてもよい。

例えば、３Ｄメッシュ・トポロジ内の最も遠いコンピューティング・ノード間の距離は、３Ｄメッシュ・トポロジ内の各面のサイズを調整することによって調整されてもよい。別の例では、３Ｄメッシュ・トポロジ内の最も遠いコンピューティング・ノード間の距離は、３Ｄメッシュ・トポロジの各面のサイズが等しい場合に最小化される。さらに別の例では、Ｉ／Ｏを実行する３Ｄメッシュ・トポロジの面のサイズは、（例えば、上記の技術を使用して）面のサイズを３Ｄメッシュ・トポロジの他の面のサイズに近づけるようにサイズを拡大または縮小され、これにより、３Ｄメッシュ・トポロジ内の最も遠いコンピューティング・ノード間の距離を最小化してもよい。さらに別の例では、Ｉ／Ｏを実行する３Ｄメッシュ・トポロジの面のサイズを縮小すると、複数のコンピューティング・ノードのＩ／Ｏ帯域幅が減少する可能性がある。

さらに、一実施形態では、最適なノード間レイテンシが現在のノード間レイテンシよりも長いとの判定に応答して、現在の３Ｄメッシュ・トポロジは変更されない場合がある。

さらに、方法８００は、動作８０８に進むことができ、ここで、複数のコンピューティング・ノードがＮ’×Ｍ’×Ｚ’トポロジの調整された３Ｄメッシュ内に配置された状態で、所定の動作が実行される。一実施形態では、所定の動作は、調整された３Ｄメッシュ・トポロジ内に配置された複数のコンピューティング・ノードへの入力として送信されてもよい。別の実施形態では、所定の動作は、接続カード、１つまたは複数のバックプレーンなどを利用して、コンピューティング・ノードに送信されてもよい。

例えば、所定の動作は、外部データ・ソースから接続カードに送信されてもよく、次に、接続カードは、バックプレーンを介して動作をコンピューティング・ノードに動作を送信する。別の例では、複数のコンピューティング・ノードによって作成された任意の出力が、バックプレーンおよび接続カードを介して外部データ・ソース（または、別の外部データ・ソース）に送り返されてもよい。

このようにして、複数のコンピューティング・ノードは、所定の動作を実行するときに最適化された方法で動的に配置されてもよい。この最適化された配置は、複数のコンピューティング・ノードによる所定の動作の実施を改善することができ、これにより、複数のコンピューティング・ノードによって必要とされる処理または電力あるいはその両方の量を低減することができる。結果として、複数のコンピューティング・ノードの性能が向上する可能性がある。

次に、図９を参照すると、一実施形態による、Ｎ×Ｍ×Ｚトポロジのメッシュに配置されたコンピューティング・ノードの集合体を有する計算デバイスを再構成するための方法９００の流れ図が示されている。一実施形態では、ノードは計算ハードウェアを含み、Ｚ＜ＮかつＺ＜Ｍであり、ＮおよびＭは少なくとも４に等しい。方法９００は、とりわけ図１～図７に示す環境のいずれかにおいて、本発明に従って実行されてもよい。当然ながら、本明細書を読むことにより当業者によって理解されるように、方法９００には、図９で具体的に説明したものよりも多い動作または少ない動作が含まれてもよい。

方法９００のステップの各々は、動作環境の任意の好適な構成要素によって実行されてもよい。例えば、様々な実施形態では、方法９００は、１つもしくは複数のサーバ、コンピュータ、または中に１つもしくは複数のプロセッサを有する何らかの他のデバイスによって、部分的または全体的に実行されてもよい。方法９００の１つまたは複数のステップを実行するために、ハードウェアまたはソフトウェアあるいはその両方に実装され、好ましくは少なくとも１つのハードウェア構成要素を有するプロセッサ、例えば、処理回路、チップ、またはモジュールあるいはその組合せが、任意のデバイスにおいて利用されてもよい。例示のプロセッサは、中央処理ユニット（ＣＰＵ）、特定用途向け集積回路（ＡＳＩＣ）、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）など、それらの組合せ、または当技術分野で知られている任意の他の好適なコンピューティング・デバイスを含むが、これらに限定されない。

図９に示すように、方法９００は、動作９０２で開始することができ、ここで、デバイスを使用して、（ｉ）初期のシステムＩ／Ｏ帯域幅および（ｉｉ）初期のシステム・ノード間レイテンシを特徴とする計算を実行する。さらに、方法９００は、動作９０４に進むことができ、ここで、デバイスはＮ’×Ｍ’×Ｚ’トポロジのメッシュに再構成され、Ｎ、Ｍ、およびＺの値のうちの少なくとも２つは、それらの対応するＮ’、Ｍ’、およびＺ’の値とは異なり、Ｎ×Ｍ×Ｚは、Ｎ’×Ｍ’×Ｚ’に等しい。

さらに、方法９００は、動作９０６に進むことができ、ここで、デバイスを使用して、（ｉ）修正されたシステムＩ／Ｏ帯域幅および（ｉｉ）修正されたシステム・ノード間レイテンシを特徴とする計算を実行する。一実施形態では、修正されたＩ／Ｏ帯域幅は、初期のＩ／Ｏ帯域幅よりも大きい。別の実施形態では、修正されたシステム・ノード間レイテンシは、初期のシステム・ノード間レイテンシよりも短い。

一実施形態では、システムは、Ｎ×Ｍ×Ｚトポロジのメッシュ内に配置されたコンピューティング・ノードの集合体を含み、ノードは、計算ハードウェアを含み、Ｚ＜ＮかつＺ＜Ｍであり、ＮおよびＭは、少なくとも４に等しい。システムは、メッシュの側面のうちの１つとインターフェースされたＩ／Ｏ接続の集合体も含み、前記側面はＮ×Ｍのノードを有し、接続の各々は、前記側面内のノードのうちの一意の１つに結び付けられる。さらに、システムは、Ｉ／Ｏ接続に結び付けられたＩ／Ｏカードを含む。一実施形態では、計算ハードウェアは、ＣＰＵ、ＧＰＵ、ＦＰＧＡ、およびメモリ要素からなる群から選択される。

さらに、一実施形態では、システムは、Ｎ×Ｍ×Ｚトポロジのメッシュ内に配置されたコンピューティング・ノードの集合体を含み、ノードは、計算ハードウェアを含み、（ｉ）Ｚ≦Ｎ／２かつＺ≦Ｍ／２であり、（ｉｉ）ＮおよびＭは、少なくとも４に等しい。このトポロジの例は、１２×１２×６メッシュ・トポロジ、および１６×１６×３メッシュ・トポロジを含む。この構成は、Ｉ／Ｏを実行する３Ｄメッシュ・トポロジの面を最大化することによって、システムのＩ／Ｏ性能を向上させる可能性がある。

本発明は、任意の可能な技術的詳細の統合レベルでのシステム、方法、またはコンピュータ・プログラム製品あるいはその組合せとすることができる。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実施させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体（または複数のコンピュータ可読記憶媒体）を含んでもよい。

コンピュータ可読記憶媒体は、命令実行デバイスが使用するための命令を保持および記憶することができる有形デバイスとすることができる。コンピュータ可読記憶媒体は、例えば、電子記憶デバイス、磁気記憶デバイス、光学記憶デバイス、電磁気記憶デバイス、半導体記憶デバイス、または上記の任意の好適な組合せとすることができるが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストには以下のもの、すなわち、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ（ＲＡＭ）、読取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読取り専用メモリ（ＥＰＲＯＭまたはフラッシュ・メモリ）、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）、ポータブル・コンパクト・ディスク読取り専用メモリ（ＣＤ－ＲＯＭ）、デジタル・バーサタイル・ディスク（ＤＶＤ）、メモリ・スティック、フロッピ（Ｒ）・ディスク、パンチカードまたは命令が記録された溝内の隆起構造体などの機械的に符号化されたデバイス、および上記の任意の好適な組合せが含まれる。本明細書で使用されるコンピュータ可読記憶媒体は、電波もしくは他の自由に伝播する電磁波、導波路もしくは他の伝送媒体を介して伝播する電磁波（例えば、光ファイバ・ケーブルを通る光パルス）、または電線を介して送信される電気信号などの、一過性の信号自体であると解釈されるべきではない。

本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング／処理デバイスに、または、ネットワーク、例えばインターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、またはワイヤレス・ネットワークあるいはその組合せを介して外部コンピュータまたは外部記憶デバイスにダウンロードされ得る。ネットワークは、銅伝送ケーブル、光伝送ファイバ、ワイヤレス伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバあるいはその組合せを含んでもよい。各コンピューティング／処理デバイスにおけるネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、そのコンピュータ可読プログラム命令を、それぞれのコンピューティング／処理デバイス内のコンピュータ可読記憶媒体における記憶のために転送する。

本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、インストラクション・セット・アーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路用の構成データ、または、Ｓｍａｌｌｔａｌｋ（Ｒ）、Ｃ＋＋などのオブジェクト指向プログラミング言語および「Ｃ」プログラミング言語もしくは同様のプログラム言語などの手続き型プログラミング言語を含む１つまたは複数のプログラミング言語の任意の組合せで書かれたソース・コードもしくはオブジェクト・コードとすることができる。コンピュータ可読プログラム命令は、全体がユーザのコンピュータ上で、一部がユーザのコンピュータ上で、スタンドアロン・ソフトウェア・パッケージとして、一部がユーザのコンピュータ上かつ一部がリモート・コンピュータ上で、または全体がリモート・コンピュータ上もしくはサーバ上で実行されてもよい。後者のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ）もしくはワイド・エリア・ネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを介してユーザのコンピュータに接続されてもよく、または（例えば、インターネット・サービス・プロバイダを使用してインターネットを介して）外部コンピュータに対して接続されてもよい。いくつかの実施形態では、本発明の態様を実行するために、例えば、プログラマブル論理回路、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、またはプログラマブル・ロジック・アレイ（ＰＬＡ）を含む電子回路が、コンピュータ可読プログラム命令の状態情報を利用して電子回路をパーソナライズすることによって、コンピュータ可読プログラム命令を実行してもよい。

本発明の態様は、本発明の実施形態による方法、装置（システム）、およびコンピュータ・プログラム製品の流れ図またはブロック図あるいはその両方を参照しながら本明細書で説明されている。流れ図またはブロック図あるいはその両方の各ブロック、および流れ図またはブロック図あるいはその両方におけるブロックの組合せは、コンピュータ可読プログラム命令によって実施され得ることが理解されよう。

これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラマブル・データ処理装置のプロセッサを介して実行される命令が、流れ図またはブロック図あるいはその両方の１つまたは複数のブロックで指定された機能／作用を実施するための手段を作り出すように、コンピュータ、または他のプログラマブル・データ処理装置のプロセッサに提供されて、マシンを作り出すものであってもよい。また、これらのコンピュータ可読プログラム命令は、命令が記憶されたコンピュータ可読記憶媒体が、流れ図またはブロック図あるいはその両方の１つまたは複数のブロックで指定された機能／作用の態様を実施する命令を含む製造品を含むように、コンピュータ可読媒体に記憶され、コンピュータ、プログラマブル・データ処理装置、または他のデバイスあるいはその組合せに対して特定の様式で機能するように指示できるものであってもよい。

また、コンピュータ可読プログラム命令は、コンピュータ、他のプログラマブル装置、または他のデバイスで実行される命令が、流れ図またはブロック図あるいはその両方の１つまたは複数のブロックで指定された機能／作用を実施するように、コンピュータ実施プロセスを作り出すべくコンピュータ、他のプログラマブル・データ処理装置、または他のデバイスにロードされて、コンピュータ、他のプログラマブル装置、または他のデバイス上で一連の動作ステップを実行させるものであってもよい。

図中の流れ図およびブロック図は、本発明の様々な実施形態によるシステム、方法およびコンピュータ・プログラム製品の可能な実装形態のアーキテクチャ、機能、および動作を示す。これに関して、流れ図またはブロック図の各ブロックは、指定された論理機能を実装するための１つまたは複数の実行可能命令を含む、モジュール、セグメント、または命令の一部を表すことがある。いくつかの代替の実装形態では、ブロックに記載された機能は、図に記載された順序とは異なる順序で行われてもよい。例えば、連続して示されている２つのブロックは、実際には、関与する機能に応じて、１つのステップとして達成されるか、同時に、実質的に同時に、部分的もしくは全体的に時間的に重複する様式で実行されてもよく、またはそれらのブロックは、場合によっては逆の順序で実行されてもよい。ブロック図または流れ図あるいはその両方の各ブロック、およびブロック図または流れ図あるいはその両方におけるブロックの組合せは、指定された機能または作用を実行するか、あるいは専用ハードウェアとコンピュータ命令との組合せを遂行する専用ハードウェア・ベースのシステムによって実装され得ることにも留意されたい。

さらに、様々な実施形態によるシステムは、プロセッサ、およびプロセッサと統合された論理またはプロセッサによって実行可能な論理あるいはその両方を含んでもよく、論理は、本明細書に記載のプロセス・ステップのうちの１つまたは複数を実行するように構成される。プロセッサは、ディスクリート・プロセッサ、または処理ハードウェア、メモリ、Ｉ／Ｏインターフェースなどの多くの構成要素を含む処理回路など、本明細書に記載のような任意の構成であってもよい。統合されたとは、プロセッサに、論理が特定用途向け集積回路（ＡＳＩＣ）、ＦＰＧＡなどのハードウェア論理として組み込まれていることを意味する。プロセッサによって実行可能とは、論理が、ハードウェア論理、ファームウェア、オペレーティング・システムの一部、アプリケーション・プログラムの一部などのソフトウェア論理など、またはプロセッサによってアクセス可能であり、プロセッサによる実行時にプロセッサにいくつかの機能を実行させるように構成された、ハードウェア論理とソフトウェア論理との組合せであることを意味する。ソフトウェア論理は、当技術分野で知られているように、任意のメモリ・タイプのローカル・メモリまたはリモート・メモリあるいはその両方に記憶されてもよい。ソフトウェア・プロセッサ・モジュールまたはＡＳＩＣ、ＦＰＧＡ、中央処理ユニット（ＣＰＵ）、集積回路（ＩＣ）、グラフィックス処理ユニット（ＧＰＵ）などのハードウェア・プロセッサ、あるいはその両方などの当技術分野で知られている任意のプロセッサが使用されてもよい。

前述のシステムまたは方法あるいはその両方の様々な特徴を任意の方法で組み合わせて、上記で提示された説明から複数の組合せを作成できることは明らかであろう。

本発明の実施形態は、サービスをオン・デマンドで提供するために顧客に代わって展開されるサービスの形式で提供され得ることがさらに理解されよう。

本発明の様々な実施形態の説明を例示の目的で提示してきたが、網羅的であることも、開示された実施形態に限定されることも意図されていない。当業者には、説明した実施形態の範囲および思想から逸脱することなく多くの変更形態および変形形態が明らかであろう。本明細書で使用される用語は、実施形態の原理、実際の適用例、もしくは市場で見られる技術を超える技術的な改良を最もよく説明するように、または本明細書で開示される実施形態を当業者が理解することが可能になるように選択されたものである。

Claims

コンピュータ実施方法であって、
Ｎ×Ｍ×Ｚトポロジの３次元（３Ｄ）メッシュ内に配置された複数のコンピューティング・ノードを最初に有する処理デバイスによって実行されるべき所定の動作を識別することであって、Ｚ＜ＮかつＺ＜Ｍであり、ＮおよびＭが少なくとも４に等しい、前記識別することと、
前記所定の動作の前記実行中に使用される前記複数のコンピューティング・ノードにとって最適な入力／出力（Ｉ／Ｏ）帯域幅または最適なノード間レイテンシあるいはその両方を決定することと、
前記複数のコンピューティング・ノードにとって前記最適なＩ／Ｏ帯域幅および最適なノード間レイテンシを可能にする調整された３Ｄメッシュ・トポロジを取得するために前記３Ｄメッシュ・トポロジの寸法を調整することであって、前記調整することが、前記複数のコンピューティング・ノードをＮ’×Ｍ’×Ｚ’トポロジの３Ｄメッシュに再構成することを含み、前記Ｎ、Ｍ、およびＺの値のうちの少なくとも２つが、それらの対応するＮ’、Ｍ’、およびＺ’の値とは異なり、Ｎ×Ｍ×Ｚが、Ｎ’×Ｍ’×Ｚ’に等しい、前記調整することと、
前記複数のコンピューティング・ノードがＮ’×Ｍ’×Ｚ’トポロジの前記調整された３Ｄメッシュ内に配置された状態で、前記所定の動作を実行することと
を含む、コンピュータ実施方法。
前記複数のコンピューティング・ノードの各々が、
フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、
中央処理ユニット（ＣＰＵ）、および
グラフィックス処理ユニット（ＧＰＵ）
からなる群から選択される、請求項１に記載のコンピュータ実施方法。
前記複数のコンピューティング・ノードが、プリント回路基板（ＰＣＢ）配線を使用して複数のハードウェア・カード上に物理的に配置され、前記複数のハードウェア・カードが、１つまたは複数のバックプレーンを使用して相互接続される、請求項１に記載のコンピュータ実施方法。
（ｉ）前記最適なＩ／Ｏ帯域幅が現在のＩ／Ｏ帯域幅よりも大きいとの判定に応答して、（ｉｉ）Ｉ／Ｏを実行する前記３Ｄメッシュ・トポロジの面のサイズを拡大させ、それによって前記複数のコンピューティング・ノードの前記Ｉ／Ｏ帯域幅を増加させることを含む、請求項１に記載のコンピュータ実施方法。
（ｉ）前記最適なノード間レイテンシが現在のノード間レイテンシよりも短いとの判定に応答して、（ｉｉ）前記複数のコンピューティング・ノード内のノード間レイテンシを短縮するために前記３Ｄメッシュ・トポロジ内の最も遠いコンピューティング・ノード間の距離を短縮することを含み、
前記３Ｄメッシュ・トポロジ内の最も遠いコンピューティング・ノード間の前記距離が、前記３Ｄメッシュ・トポロジ内の各面のサイズを調整することによって調整され、それにより、バックプレーンを介して外部データ・ソースから前記３Ｄメッシュ・トポロジ内の増加または減少した数のコンピューティング・ノードに前記所定の動作を方向付ける、請求項１に記載のコンピュータ実施方法。
前記所定の動作が、前記調整された３Ｄメッシュ・トポロジ内に配置された前記複数のコンピューティング・ノードへの入力として送信される、請求項１に記載のコンピュータ実施方法。
前記所定の動作が、接続カードおよび１つまたは複数のバックプレーンを利用して前記複数のコンピューティング・ノードに送信される、請求項１に記載のコンピュータ実施方法。
前記複数のコンピューティング・ノードによって生成された出力を、バックプレーンおよび接続カードを介して外部データ・ソースに送信することを含む、請求項１に記載のコンピュータ実施方法。
３次元（３Ｄ）メッシュ・トポロジにおいてコンピューティング・ノードを構成するためのコンピュータ・プログラム製品であって、プログラム命令が具現化されたコンピュータ可読記憶媒体を含み、前記コンピュータ可読記憶媒体が、一過性の信号自体ではなく、前記プログラム命令は処理デバイスにより実行可能であり、前記処理デバイスに、
前記処理デバイスによって、Ｎ×Ｍ×Ｚトポロジの前記３次元（３Ｄ）メッシュ内に配置された複数のコンピューティング・ノードを最初に有する前記処理デバイスによって実行されるべき所定の動作を識別することであって、Ｚ＜ＮかつＺ＜Ｍであり、ＮおよびＭが少なくとも４に等しい、前記識別することと、
前記処理デバイスによって、前記所定の動作の前記実行中に使用される前記複数のコンピューティング・ノードにとって最適な入力／出力（Ｉ／Ｏ）帯域幅または最適なノード間レイテンシあるいはその両方を決定することと、
前記複数のコンピューティング・ノードにとって前記最適なＩ／Ｏ帯域幅および最適なノード間レイテンシを可能にする調整された３Ｄメッシュ・トポロジを取得するために、前記処理デバイスによって前記３Ｄメッシュ・トポロジの寸法を調整することであって、前記調整することが、前記処理デバイスによって前記複数のコンピューティング・ノードをＮ’×Ｍ’×Ｚ’トポロジのメッシュに再構成することを含み、Ｎ、Ｍ、およびＺの値のうちの少なくとも２つが、それらの対応するＮ’、Ｍ’、およびＺ’の値とは異なり、Ｎ×Ｍ×Ｚが、Ｎ’×Ｍ’×Ｚ’に等しい、前記調整することと、
前記複数のコンピューティング・ノードがＮ’×Ｍ’×Ｚ’トポロジの前記調整された３Ｄメッシュ内に配置された状態で、前記処理デバイスによって前記所定の動作を実行することと
を含む方法を実行させる、
コンピュータ・プログラム製品。
前記複数のコンピューティング・ノードの各々が、
フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、
中央処理ユニット（ＣＰＵ）、および
グラフィックス処理ユニット（ＧＰＵ）
からなる群から選択される、請求項９に記載のコンピュータ・プログラム製品。
前記複数のコンピューティング・ノードが、プリント回路基板（ＰＣＢ）配線を使用して複数のハードウェア・カード上に物理的に配置され、前記複数のハードウェア・カードが、１つまたは複数のバックプレーンを使用して相互接続される、請求項９に記載のコンピュータ・プログラム製品。
（ｉ）前記最適なＩ／Ｏ帯域幅が現在のＩ／Ｏ帯域幅よりも大きいとの判定に応答して、（ｉｉ）Ｉ／Ｏを実行する前記３Ｄメッシュ・トポロジの面のサイズを拡大させ、それによって前記複数のコンピューティング・ノードの前記Ｉ／Ｏ帯域幅を増加させることを含む、請求項９に記載のコンピュータ・プログラム製品。
（ｉ）前記最適なノード間レイテンシが現在のノード間レイテンシよりも短いとの判定に応答して、（ｉｉ）前記複数のコンピューティング・ノード内のノード間レイテンシを短縮するために前記３Ｄメッシュ・トポロジ内の最も遠いコンピューティング・ノード間の距離を短縮することを含み、
前記３Ｄメッシュ・トポロジ内の最も遠いコンピューティング・ノード間の前記距離が、前記３Ｄメッシュ・トポロジ内の各面のサイズを調整することによって調整され、それにより、バックプレーンを介して外部データ・ソースから前記３Ｄメッシュ・トポロジ内の増加または減少した数のコンピューティング・ノードに前記所定の動作を方向付ける、請求項９に記載のコンピュータ・プログラム製品。
前記所定の動作が、前記調整された３Ｄメッシュ・トポロジ内に配置された前記複数のコンピューティング・ノードへの入力として送信される、請求項９に記載のコンピュータ・プログラム製品。
前記所定の動作が、接続カードおよび１つまたは複数のバックプレーンを利用して前記複数のコンピューティング・ノードに送信される、請求項９に記載のコンピュータ・プログラム製品。
前記複数のコンピューティング・ノードによって作成された出力を、バックプレーンおよび接続カードを介して外部データ・ソースに送信することを含む、請求項９に記載のコンピュータ・プログラム製品。
システムであって、
Ｎ×Ｍ×Ｚトポロジのメッシュ内に配置されたコンピューティング・ノードの集合体であって、前記ノードが、計算ハードウェアを含み、Ｚ＜ＮかつＺ＜Ｍであり、ＮおよびＭが少なくとも４に等しい、前記コンピューティング・ノードの集合体と、
前記メッシュの側面のうちの１つとインターフェースされたＩ／Ｏ接続の集合体であって、前記側面が、Ｎ×Ｍのノードを有し、前記Ｉ／Ｏ接続の各々が、前記側面内の前記ノードのうちの一意の１つに結び付けられる、前記Ｉ／Ｏ接続の集合体と、
前記Ｉ／Ｏ接続に結び付けられたＩ／Ｏカードと
を含む、システム。
前記計算ハードウェアが、中央処理ユニット（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、およびメモリ要素からなる群から選択される、請求項１７に記載のシステム。
Ｚ≦Ｎ／２かつＺ≦Ｍ／２である、請求項１７に記載のシステム。
Ｎ×Ｍ×Ｚトポロジのメッシュ内に配置されたコンピューティング・ノードの集合体を有する再構成可能な計算デバイスで使用するためのコンピュータ実施方法であって、前記コンピューティング・ノードが、計算ハードウェアを含み、Ｚ＜ＮかつＺ＜Ｍであり、ＮおよびＭが、少なくとも４に等しく、前記方法が、
前記計算デバイスを使用して、（ｉ）初期のシステムＩ／Ｏ帯域幅および（ｉｉ）初期のシステム・ノード間レイテンシを特徴とする計算を実行することと、
前記デバイスをＮ’×Ｍ’×Ｚ’トポロジのメッシュに再構成することであって、Ｎ、Ｍ、およびＺの値のうちの少なくとも２つが、それらの対応するＮ’、Ｍ’、およびＺ’の値とは異なり、Ｎ×Ｍ×ＺがＮ’×Ｍ’×Ｚ’に等しい、前記再構成することと、
前記デバイスを使用して、（ｉ）修正されたシステムＩ／Ｏ帯域幅および（ｉｉ）修正されたシステム・ノード間レイテンシを特徴とする計算を実行することと
を含む、コンピュータ実施方法。
前記修正されたシステムＩ／Ｏ帯域幅が、前記初期のシステムＩ／Ｏ帯域幅よりも大きい、請求項２０に記載のコンピュータ実施方法。
前記修正されたシステム・ノード間レイテンシが、前記初期のシステム・ノード間レイテンシよりも短い、請求項２０に記載のコンピュータ実施方法。
前記計算ハードウェアが、ＣＰＵ、ＧＰＵ、ＦＰＧＡ、およびメモリ要素からなる群から選択される、請求項２０に記載のコンピュータ実施方法。
Ｚ≦Ｎ／２かつＺ≦Ｍ／２である、請求項２０に記載のコンピュータ実施方法。