JP2021190123A

JP2021190123A - キャッシュコヒーレントインターコネクトを使用するシステム及び方法

Info

Publication number: JP2021190123A
Application number: JP2021089285A
Authority: JP
Inventors: テジャマラディ，クリシュナ; Teja Malladi Krishna; チャン，アンドリュー; Chang Andrew; エムナジャファバディ，エフサン; M Najafabadi Ehsan
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2020-05-28
Filing date: 2021-05-27
Publication date: 2021-12-13
Also published as: EP3916563A1; KR20210147871A; TW202147123A; CN113810312B; EP3916564A1; KR20210147911A; CN113810312A; EP3916565A1; KR20210147865A; TW202145025A; KR20210147867A; CN113742257A; EP3916566B1; CN113742259A; JP2021190125A; JP2021190121A; EP3916566A1; TW202213104A; US20210373951A1; TW202213105A

Abstract

【課題】１つ以上のサーバーを含むシステムにおいてメモリリソースを管理する改善されたシステム及び方法を提供する。【解決手段】メモリ資源（リソース）を管理するシステムは、格納されたプログラム処理回路、ネットワークインターフェース回路１２５及びメモリモジュール１３５を含むサーバー１０５を有する。メモリモジュールは、第１メモリダイ及びコントローラ１３７を含む。コントローラは、メモリインターフェースを介して第１メモリダイに連結され、キャッシュコヒーレントインターフェースを介して格納されたプログラム処理回路に連結され、ネットワークインターフェース回路に連結される。【選択図】図１Ａ

Description

本開示による実施形態の１つ以上の態様は、コンピューティングシステムに関し、さらに詳しくは１つ以上のサーバーを含むシステムでメモリ資源（リソース）を管理するシステム及び方法に関する。

本背景の説明は、コンテキストだけを提供するためのものであり、前記背景の説明のいかなる実施形態又は概念の開示も前記実施形態又は前記概念が従来技術であることを認めるものではない。

一部のサーバーシステムは、ネットワークプロトコルによって連結されたサーバーの集合（collections）を含み得る。そのようなシステムのサーバーの各々は、処理リソース（例えば、プロセッサ）及びメモリリソース（例えば、システムメモリ）を含み得る。ある環境では、１つのサーバーの処理リソースが他のサーバーのメモリリソースにアクセスすることが有利であり、このアクセスは、これらのサーバーのどちらか一方の処理リソースを最小限に抑えながら発生することが有利であり得る。

したがって、１つ以上のサーバーを含むシステムにおいて、メモリリソースを管理するための改善されたシステム及び方法が必要である。

米国特許第９６１９３８９号明細書米国特許出願公開第２０１５/０２５８４３７号明細書米国特許出願公開第２０１６/０２９９７６７号明細書米国特許出願公開第２０１９/０１７９８０５号明細書米国特許出願公開第２０１９/０２３５７７７号明細書米国特許出願公開第２０１９/０３８４７３３号明細書米国特許出願公開第２０１９/０３９１９３６号明細書米国特許出願公開第２０２０/００２１５４０号明細書米国特許出願公開第２０２０/００５０４０３号明細書米国特許出願公開第２０２０/００５０５７０号明細書米国特許出願公開第２０２０/０１０４２７５号明細書米国特許出願公開第２０２０/０１２５５０３号明細書

AWS Summit, Seoul, Korea, ２０１７, ３６ pages, https://www.slideshare.net/awskorea/awscloud-game-architecture?from_action=save), Amazon Web Services, Inc. 米国非公開特許出願第１７/０２６０８２号(Unpublished U.S. application no. １７/０２６０８２, filed September １８, ２０２０). 米国非公開特許出願第１７/０２６０８２号(Unpublished U.S. application no. １７/０２６０７４， filed September １８, ２０２０). 米国非公開特許出願第１７/０２６０８２号(Unpublished U.S. application no. １７/０２６０８７, filed September １８, ２０２０).

本発明は、上記従来技術に鑑みてなされたものであって、本開示の目的は、１つ以上のサーバーを含むシステムにおいてメモリリソースを管理する改善されたシステム及び方法を提供することにある。

いくつかの実施形態において、サーバーは１つ以上の処理回路、システムメモリ、及びキャッシュコヒーレントインターフェースを介して前記処理回路に連結された１つ以上のメモリモジュールを含む。前記メモリモジュールがまた１つ以上のネットワークインターフェース回路に連結される。各メモリモジュールは、改善された機能を、前記メモリモジュールに提供するコントローラ（例えば、ＦＰＧＡ又はＡＳＩＣ）を含み得る。これらの機能は、中央処理装置（ＣＰＵ）のようなプロセッサにアクセスしなくても、サーバーは（例えば、リモートダイレクトメモリアクセス（ＲＤＭＡ）を遂行することにより、）他のサーバーのメモリと相互作用することができるようにする機能を含み得る。

本発明の一実施形態によると、システムが提供されるが、前記システムは第１サーバーを含み、前記第１サーバーは、格納されたプログラムの処理回路、第１ネットワークインターフェース回路及び第１メモリモジュールを含み、前記第１メモリモジュールは第１メモリダイ及びコントローラを含み、前記コントローラはメモリインターフェースを介して前記第１メモリダイに連結され、キャッシュコヒーレントインターフェースを介して前記格納されたプログラムの処理回路に連結され、前記第１ネットワークインターフェース回路に連結される。

いくつかの実施形態では、第１メモリモジュールは第２メモリダイをさらに含み、第１メモリダイは揮発性メモリを含み、第２メモリダイは永続性メモリを含む。

いくつかの実施形態では、前記永続性メモリはＮＡＮＤフラッシュを含む。いくつかの実施形態では、前記コントローラは、前記永続性メモリのためのフラッシュ変換レイヤー（flash translation layer）を提供するように構成される。

いくつかの実施形態では、キャッシュコヒーレントインターフェースは、ＣＸＬ（Compute Express Link）インターフェースを含む。

いくつかの実施形態では、前記第１サーバーは、前記第１サーバーの拡張ソケットに連結された拡張ソケットアダプタを含み、前記拡張ソケットアダプタは、前記第１メモリモジュールと前記第１ネットワークインターフェース回路を含む。

いくつかの実施形態では、前記第１メモリモジュールのコントローラは、前記拡張ソケットを介して格納されたプログラムの処理回路に連結される。

いくつかの実施形態では、前記拡張ソケットはＭ.２ソケットを含む。

いくつかの実施形態では、前記第１メモリモジュールのコントローラは、ピア・ツー・ピアＰＣＩｅ（Peripheral Component Interconnect Express）連結により、前記第１ネットワークインターフェース回路に連結される。

いくつかの実施形態では、前記システムは、第２サーバー、及び前記第１サーバーと前記第２サーバーに連結されたネットワークスイッチをさらに含む。

いくつかの実施形態では、前記ネットワークスイッチは、ＴｏＲ（top of rack）イーサネットスイッチを含む。

いくつかの実施形態では、前記第１メモリモジュールのコントローラは、ＲＤＭＡ（remote direct memory access）リクエストを受信し、ＲＤＭＡ応答を送信するように構成される。

いくつかの実施形態では、第１メモリモジュールのコントローラは、前記ネットワークスイッチを介して、そして第１ネットワークインターフェース回路を介してＲＤＭＡリクエストを受信し、前記ネットワークスイッチを介して、そして前記第１ネットワークインターフェース回路を介してＲＤＭＡ応答を送信するように構成される。

いくつかの実施形態では、前記第１メモリモジュールのコントローラは、前記第２サーバーからデータを受信し、データを前記第１メモリモジュールに格納し、キャッシュラインを無効化するためのコマンドを格納されたプログラム処理回路に送信するように構成される。

いくつかの実施形態では、前記第１メモリモジュールのコントローラは、ＦＰＧＡ（field programmable gate array）又はＡＳＩＣ（application-specific integrated circuit）を含む。

本発明の一実施形態によると、コンピューティングシステムでは、リモートダイレクトメモリアクセス（ＲＤＭＡ）を遂行する方法であって、前記コンピューティングシステムは第１サーバー及び第２サーバーを含み、前記第１サーバーは格納されたプログラム処理回路、ネットワークインターフェース回路及びコントローラを含む第１メモリモジュールを含む、前記方法は、前記第１メモリモジュールのコントローラによってリモートダイレクトメモリアクセス（ＲＤＭＡ）リクエストを受信する段階と、前記第１メモリモジュールのコントローラによってＲＤＭＡ応答を送信する段階と、を備える。

実施形態では、前記コンピューティングシステムは、前記第１サーバー及び前記第２サーバーに連結されたイーサネットスイッチと、をさらに備え、ＲＤＭＡリクエストを受信する段階は、前記イーサネットスイッチを介して前記ＲＤＭＡリクエストを受信する段階を含む。

いくつかの実施形態では、前記方法は、前記第１メモリモジュールのコントローラによって、前記格納されたプログラム処理回路から第１メモリアドレスに対するリード(read)コマンドを受信する段階と、前記第１メモリモジュールのコントローラによって、前記第１メモリアドレスを第２メモリアドレスに変換する段階と、前記第１メモリモジュールのコントローラによって、前記第２メモリアドレスにおいて第１メモリモジュールからデータを検索する段階と、を備える。

いくつかの実施形態では、前記方法は、前記第１メモリモジュールのコントローラによってデータを受信する段階と、前記第１メモリモジュールのコントローラによって前記第１メモリモジュールにデータを格納する段階と、前記第１メモリモジュールのコントローラによってキャッシュラインを無効化するためのコマンドを前記格納されたプログラム処理回路に伝送する段階と、を備える。

本発明の一実施形態によると、システムが提供されるが、前記システムは第１サーバーを含み、前記第１サーバーは格納されたプログラムの処理回路、第１ネットワークインターフェース回路及び第１メモリモジュールを含み、前記第１メモリモジュールは第１メモリダイ及びコントローラ手段を含み、前記コントローラ手段はメモリインターフェースを介して前記第１メモリダイに連結され、キャッシュコヒーレントインターフェースを介して前記格納されたプログラムの処理回路に連結され、前記第１ネットワークインターフェース回路に連結される。

本開示の実施形態によると、１つ以上のサーバーを含むシステムにおいて、メモリリソースを管理するための改善されたシステム及び方法が提供される。

本明細書で提供される図面は、実施形態を説明するためのものであり、明示的に開示していない他の実施形態は、本開示の範囲から排除されない。

本開示のこれら、他の特徴及び利点は、明細書、請求の範囲及び添付された図面を参照して認知・理解されるだろう。

本開示の一実施形態による、キャッシュコヒーレントの連結を使用して、メモリリソースをコンピューティングリソースに添付するシステムのブロック図である。本開示の一実施形態による、キャッシュコヒーレントの連結を使用してメモリリソースをコンピューティングリソースに添付する、拡張ソケットアダプタを採用したシステムのブロック図である。本開示の一実施形態による、イーサネットＴｏＲスイッチを採用したメモリを集めるシステムのブロック図である。本開示の一実施形態による、イーサネットＴｏＲスイッチと拡張ソケットアダプタを採用したメモリを集めるシステムのブロック図である。本開示の一実施形態による、メモリを集めるシステムのブロック図である。本開示の一実施形態による、拡張ソケットアダプタを採用したメモリを集めるシステムのブロック図である。本開示の一実施形態による、サーバーを集めない（disaggregating）システムのブロック図である。本開示の一実施形態による、図１Ａ〜図１Ｇに図示された実施形態に対し処理回路をバイパスすることにより、ＲＤＭＡ（remote direct memory access）への移転を遂行する例としての方法に対するフローチャートである。本開示の一実施形態による、図１Ａ〜図１Ｄに図示された実施形態に対する、処理回路の参加によりＲＤＭＡへの移転を遂行する例としての方法に対するフローチャートである。本開示の一実施形態による、図１Ｅ〜図１Ｆに図示された実施形態に対しＣＸＬ（Compute Express Link）スイッチを介してＲＤＭＡへの移転を遂行する例としての方法に対するフローチャートである。本開示の一実施形態による、図１Ｇに図示された実施形態に対するＣＸＬスイッチを介してＲＤＭＡ移転を遂行する例としての方法に対するフローチャートである。

添付された図面に関連して以下での詳細な説明は、本開示に基づいて提供されるメモリリソース管理システム及び方法に対する例としての実施形態を説明するためのものとして、本開示が構成・活用される唯一の形態を表すものではない。以下の説明は、図示された実施形態と関連して本開示の特徴を提示する。しかし、同一又は同等の機能と構造がまた、本開示の範囲内に含まれるように意図された異なる実施形態によって達成されることは、理解されるべきである。本明細書で類似の図面符号は、類似のエレメント又は特徴を示す。

ＰＣＩｅ（Peripheral Component Interconnect Express）は、メモリへの連結を生成するにあたって、その有用性を限定することができる比較的高く可変のレイテンシ（latency）を有し得るコンピュータインターフェースのことをいう。ＣＸＬはＰＣＩｅ５.０に基づいて通信のためのオープンな産業標準であり、固定的かつ比較的短いパケットサイズを提供することができ、その結果として、比較的高い帯域幅と、比較的低い固定レイテンシを提供することができる。このように、ＣＸＬは、キャッシュコヒーレントをサポートし、メモリへの連結を生成するのに非常に適合している。ＣＸＬはまた、サーバー上でホストとアクセラレータ、メモリ装置及びネットワークインターフェース回路（又は「ネットワークインターフェースコントローラ」若しくはネットワークインターフェースカード（ＮＩＣ））との間の連結を提供するために使用される。

ＣＸＬのようなキャッシュコヒーレントプロトコルは、例えば、スカラー、ベクトル、及びバッファリングされたメモリシステムにおいて異機種処理（heterogeneous processing）のために採用されることもある。ＣＸＬはチャンネル、リタイマ（retimer）、システムのＰＨＹレイヤーは、インターフェースの論理的側面とプロトコルをＰＣＩｅ５.０から活用して、キャッシュコヒーレントインターフェースを提供するために使用される。ＣＸＬトランザクションレイヤーは、単一のリンク上で同時に作動する３つの多重化された下位プロトコルを含むことができ、ＣＸＬ.ｉｏ、ＣＸＬ.ｃａｃｈｅ及びＣＸＬ.ｍｅｍｏｒｙと称される。ＣＸＬ.ｉｏはＰＣＩｅと類似であり得るＩ/Ｏのセマンティックを含み得る。ＣＸＬ.ｃａｃｈｅはキャッシングセマンティック（caching semantic）を含むことができ、ＣＸＬ.ｍｅｍｏｒｙはメモリセマンティック（memory samantic）を含むことができ、キャッシュセマンティックとメモリセマンティックはすべてオプションであり得る。ＰＣＩｅと同様に、ＣＸＬは、（ｉ）分割可能なｘ１６、ｘ８、及びｘ４の基本的な幅、（ｉｉ）８ＧＴ/ｓ及び１６ＧＴ/ｓ、１２８ｂ/１３０ｂに分解可能な３２ＧＴ/ｓのデータレート、（ｉｉｉ）３００Ｗ（ｘ１６コネクタで７５Ｗ）、及び（ｉｖ）プラグアンドプレイ（plug and play）をサポートすることができる。プラグアンドプレイをサポートするためにＰＣＩｅ又はＣＸＬ装置のリンクはＧｅｎ１のＰＣＩｅでトレーニングを開始し、ＣＸＬを交渉（処理）し、Ｇｅｎ1−５トレーニングを完了した後、ＣＸＬトランザクションを開始することができる。

いくつかの実施形態では、メモリ（例えば、共に連結された１つ以上のメモリセルを含むメモリ量）の集合又は「プール」に対するＣＸＬ連結の使用は、以下で詳細に説明されているように、ネットワークによって共に連結された１つ以上のサーバーを含むシステムで、多様な利点を提供することができる。たとえば、ＣＸＬパケットに対するパケットスイッチング機能を提供することに加えて追加の機能を有するＣＸＬスイッチ（本明細書で「向上された機能のＣＸＬスイッチ」と称される）は、メモリの集合を１つ以上の中央処理装置（ＣＰＵ）（又は「中央処理回路」）と１つ以上のネットワークインターフェース回路（改善された機能を有し得る）に連結するために使用される。このような構成は、（ｉ）メモリの集合が異なる特性を有する多様なタイプのメモリを含み得るようにし、（ｉｉ）改善された機能のＣＸＬスイッチがメモリの集合を仮想化して、異なる特性（例えば、アクセス周波数）のデータを適切なタイプのメモリに格納することができようにし、（ｉｉｉ）改善された機能のＣＸＬスイッチがＲＤＭＡ（remote direct memory access）をサポートしてＲＤＭＡがサーバーの処理回路からほとんど、あるいはまったく関与せず遂行されるようにする。本明細書で使用されているように、メモリを「仮想化」するということは、処理回路とメモリとの間でメモリアドレス変換を遂行することを意味する。

ＣＸＬスイッチは、（ｉ）単一のレベルのスイッチングを介して、メモリとアクセラレータ分離をサポートし、（ｉｉ）リソース（資源）がドメイン間でオフライン及びオンラインされるようにし、これにより、リクエストに応じて、ドメインにわたって時間多重化が可能になり、（ｉｉｉ）ダウンストリームポートの仮想化をサポートすることができる。ＣＸＬは、集合された装置がいくつかの実施形態では、ＬＤ−ＩＤ（論理装置識別子）を各々有する１つ以上の論理装置に分割された状態で、一対多（one-to-many）と多対一（many-to-one）のスイッチングを可能にする一連のメモリを実施するために使用される（例えば、（ｉ）ＣＸＬは多数のルートポートを一つのエンドポイントに連結し、（ｉｉ）１つのルートポートを多数のエンドポイントに連結し、又は（ｉｉｉ）多数のルートポートを多数のエンドポイントに連結することができる）。このような実施形態では、物理的装置は、各々の開始者（initiator）に可視的な複数の論理装置に分割される。装置は、１つの物理的な機能（ＰＦ）と、複数（例えば、１６）の分離された論理装置を有し得る。いくつかの実施形態では、論理装置の数（例えば、パーティションの数）は限定されることがあり（たとえば、１６個まで）、１つの制御パーティション（前記装置を制御するために使用される物理的機能の可能性あり）がまた存在することができる。

いくつかの実施形態では、ファブリックの管理装置（fabric manager）は、（ｉ）装置の検出と仮想ＣＸＬソフトウェアの生成を遂行し、（ｉｉ）仮想ポートを物理ポートにバインドするために採用される。これらのファブリック管理装置は、ＳＭＢｕｓサイドバンド（sideband）による連結を介して動作することができる。ファブリックの管理装置は、ハードウェア、ソフトウェア、ファームウェア、又はこれらの組み合わせで実施され、例えば、ホストに、メモリモジュール１３５のいずれか１つに、拡張機能のＣＸＬスイッチ１３０に、又はネットワーク上のその他の場所に常駐することができる。ファブリックの管理装置は、サイドバンドのバス又はＰＣＩｅツリーを介して発行されたコマンドを含むコマンドを発行することができる。

図１Ａを参照すると、いくつかの実施形態では、サーバーシステムは、ＴｏＲ（Top of Rack）イーサネットスイッチ１１０によって共に連結された複数のサーバー１０５を含む。このスイッチは、イーサネットプロトコルを使用するものとして説明されるが、他の適切なネットワークプロトコルが使用される。各サーバーは、（ｉ）システムメモリ１２０（例えば、ＤＤＲ４（Double Data Rate）（version ４）メモリ又は任意の他の適切なメモリ）、（ｉｉ）１つ以上のネットワークインターフェース回路１２５、及び（ｉｉｉ）１つ以上ＣＸＬメモリモジュール１３５に個別に連結された１つ以上の処理回路１１５を含む。各々の処理回路１１５は、格納されたプログラムの処理回路、例えば、中央処理装置（ＣＰＵ（例えば、ｘ８６ＣＰＵ））、グラフィックス処理装置（ＧＰＵ）、又はＡＲＭプロセッサであり得る。いくつかの実施形態では、ネットワークインターフェース回路１２５は、メモリモジュール１３５のうち、いずれか１つに（例えば、同一の半導体チップ上に、又は同一のモジュール内に）エンベデッドされるか、又はネットワークインターフェース回路１２５がメモリモジュール１３５とは別個にパッケージングされる。

本明細書で使用されているように、「メモリモジュール」は、１つ以上のメモリダイを含むパッケージ（例えば、プリント回路基板、及びこれに連結されたコンポーネントを含むパッケージ又はプリント回路基板を含むエンクロージャ(enclosure)）であり、ここでは、各メモリダイは、複数のメモリセルを含む。各メモリダイ又は一連のメモリダイグループの各々は、メモリモジュールのプリント回路基板にはんだ付けされた（コネクタを介して、メモリモジュールのプリント回路基板に連結される）パッケージ（例えば、エポキシモールディングコンパウンド（EMC：epoxy mold compound）パッケージ）内に位置することができる。メモリモジュール１３５の各々は、ＣＸＬインターフェースを有することができ、例えば、ＣＸＬパケットとメモリダイのメモリインターフェース、例えば、メモリモジュール１３５でメモリのメモリテクノロジーに適した信号との間を変換するためのコントローラ１３７（例えば、ＦＰＧＡ、ＡＳＩＣ、プロセッサなど）を含み得る。本明細書で使用されるように、メモリダイの「メモリインターフェース」は、メモリダイのテクノロジーに固有なインターフェースであり、例えば、ＤＲＡＭの場合には、メモリインターフェースは、ワードライン及びビットラインであり得る。メモリモジュールは、以下で、より詳細に説明されるように、改善された機能を提供することができるコントローラ１３７を含み得る。各メモリモジュール１３５のコントローラ１３７は、例えば、ＣＸＬインターフェースを介して、キャッシュコヒーレントインターフェースを介して処理回路１１５に連結される。コントローラ１３７はまた、処理回路１１５をバイパスして、異なるサーバー１０５間のデータ転送（例えば、ＲＤＭＡリクエスト）を容易にすることができる。ＴｏＲイーサネットスイッチ１１０及びネットワークインターフェース回路１２５は、異なるサーバー上のＣＸＬメモリ装置間のＲＤＭＡリクエストを可能にするためにＲＤＭＡインターフェースを含み得る（例えば、ＴｏＲイーサネットスイッチ１１０及びネットワークインターフェース回路１２５は、ＲｏＣＥ（Converged Ethernet）上でのＲＤＭＡ、インフィニバンド（Infiniband）及びｉＷＡＲＰパケットのハードウェアオフロード又はハードウェアアクセラレーションを提供することができる）。

前記システムでのＣＸＬ相互連結は、ＣＸＬ１.１標準のようなキャッシュコヒーレントプロトコルにしたがい、又はいくつかの実施形態では、ＣＸＬ２.０標準、将来のバージョンのＣＸＬ又は任意の他の適切なプロトコル（例えば、キャッシュコヒーレントプロトコル）に従うことができる。メモリモジュール１３５は、図示されているように、処理回路１１５にダイレクト付着されることもあり、ラックイーサネットスイッチ１１０の上部は、システムをより大きなサイズに（例えば、より多くの数のサーバー１０５に）拡張するために使用される。

いくつかの実施形態では、各々のサーバーは、図１Ａに示すように、多数のダイレクト付着のＣＸＬ付着メモリモジュール１３５で満たされる。各メモリモジュール１３５は、メモリ範囲としてホストのＢＩＯＳ（BASIC Input/Output System）にベースアドレスレジスタの（ＢＡＲ）のセットを露出することができる。メモリモジュール１３５のうち、いずれか１つ以上は、ホストＯＳマップを支えるのメモリ空間を透明に管理するファームウェアを含み得る。各々のメモリモジュール１３５は、例えば、ＤＲＡＭ（Dynamic Random Access Memory）、ＮＡＮＤ（Not-AND）フラッシュ、ＨＢＭ（High Bandwidth Memory）、及びＬＰＤＤＲＳＤＲＡＭ（Low-Power Double Data Rate Synchronous Dynamic Random Access Memory）テクノロジーを含む（しかし、これらに限定されない）メモリテクノロジーのうち、いずれか１つ又はこれらの組み合わせを含むことができ、キャッシュコントローラを含むか、又は異なるテクノロジーのメモリ装置（異なるテクノロジーの多様なメモリ装置を結合するメモリモジュール１３５の場合）のための分離された各々のスプリット（split）コントローラを含むこともできる。各メモリモジュール１３５は、異なるインターフェース幅（ｘ４-ｘ１６）を含むことができ、例えば、Ｕ.２、Ｍ.２、ハーフハイト、ハーフレングス（ＨＨＨＬ）、フルハイト、ハーフレングス（ＦＨＨＬ）、Ｅ１.Ｓ、Ｅ１.Ｌ、Ｅ３.Ｓ及びＥ３.Ｈを含む多様な関連のフォームファクタのうち、任意のものに基づいて構成されることがある。

いくつかの実施形態では、前述したように、改善された機能のＣＸＬスイッチ１３０は、ＦＰＧＡ（又はＡＳＩＣ）コントローラ１３７を含み、ＣＸＬパケットのスイッチング以上の付加的な特徴を提供する。改善された機能のＣＸＬスイッチ１３０のコントローラ１３７はまた、メモリモジュール１３５に対する管理装置として動作し、ホスト制御プレーンの処理に役立ち、豊富な制御セマンティックと統計を可能にすることができる。コントローラ１３７は、追加的な「バックドア」（例えば、１００ギガビットイーサネット（ＧｂＥ））のネットワークインターフェース回路１２５を含み得る。いくつかの実施形態では、コントローラ１３７は、ＣＸＬタイプ２装置として処理回路１１５に存在し、これはリモートライト(write)リクエストを受信するとき、処理回路１１５に対するキャッシュの無効化コマンドの発行を可能にする。いくつかの実施形態では、ＤＤＩＯテクノロジーがイネーブルされ、リモートデータは、先に処理回路の最後のレベルのキャッシュ（ＬＬＣ）にプル(pull)され、後でメモリモジュール１３５（キャッシュから）に記録される。ここで使用される「タイプ２」のＣＸＬ装置は、トランザクションを開始することができ、オプションの一コヒーレントキャッシュとホスト管理装置のメモリを具現化し、これに対して適用可能なトランザクションタイプは、すべてのＣＸＬ.ｃａｃｈｅ及びすべてのＣＸＬ.ｍｅｍトランザクションを含む。

前述したように、メモリモジュール１３５のうち、１つ以上は永続性メモリー又は「永続性ストレージ」（つまり、外部電源が遮断されるとき、データが失われないストレージ）を含み得る。メモリモジュール１３５が永続性装置として提供されている場合には、メモリモジュール１３５のコントローラ１３７は、永続性ドメインを管理することができ、例えば、永続性ストレージを必要とするとき（例えば、対応するオペレーティングシステムの機能を呼び出すアプリケーションの結果として）処理回路１１５によって識別されるデータを永続性ストレージに格納することができる。このような実施形態では、ソフトウェアＡＰＩは、キャッシュ及びデータを永続性ストレージにフラッシュ（flush）することができる。

いくつかの実施形態では、ネットワークインターフェース回路１２５からメモリモジュール１３５へのダイレクトメモリ移転がイネーブルされる。このような移転は、分散システムにおいて、高速通信のためのリモートメモリへの単方向移転であり得る。このような実施形態では、メモリモジュール１３５は、より高速なＲＤＭＡ転送を可能にするために、システムでのネットワークインターフェース回路１２５にハードウェアの詳細を露出することができる。このようなシステムでは、処理回路１１５のデータダイレクトＩ/Ｏ（ＤＤＩＯ）がイネーブル又はディセーブルされるか否かに応じて、２つのシナリオが発生することができる。ＤＤＩＯは、イーサネットコントローラ又はイーサネットアダプタと、処理回路１１５のキャッシュとの間のダイレクト通信を可能にすることができる。処理回路１１５のＤＤＩＯがイネーブルされると、移転（transfer）のターゲットは、処理回路の最後のレベルのキャッシュであり、そこからのデータは、向後のメモリモジュール１３５に自動的にフラッシュされることがある。処理回路１１５のＤＤＩＯがディセーブルされると、メモリモジュール１３５は、装置バイアスモードで動作してデスティネーションメモリモジュール１３５によって（ＤＤＩＯなしに）ダイレクト受信されるように、アクセスを強制的に行うことができる。ホストチャネルアダプタ（ＨＣＡ）、バッファ及びその他の処理を有するＲＤＭＡ可能なネットワークインターフェース回路１２５は、このようなＲＤＭＡ移転を可能にするために採用されることがあり、これは、他のモードのＲＤＭＡ移転に存在することもできるターゲットメモリバッファ移転をバイパスすることができる。例えば、このような実施形態では、バウンスバッファ（例えば、メモリでの最終的なデスティネーションがＲＤＭＡプロトコルによってサポートされていないアドレスの範囲にある場合、リモートサーバーのバッファ）の使用が回避される。いくつかの実施形態では、ＲＤＭＡは、イーサネット以外の他の物理的媒体のオプションを使用する（例えば、他のネットワークプロトコルを扱うように構成されるスイッチと共に使用するため）。ＲＤＭＡをイネーブルすることができるサーバー間の連結の例としては、インフィニバンド（Infiniband）、ＲｏＣＥ（RDMA over Converged Ethernet）（イーサネットＵＤＰ（User Datagram Protocol）を使用すること）及びｉＷＡＲＰ（ＴＣＰ/ＩＰ（transmission control protocol/Internet protocol）を使用すること）がある。

図１Ｂは、処理回路１１５がメモリモジュール１３５を介してネットワークインターフェース回路１２５に連結される図１Ａと類似したシステムを示す。メモリモジュール１３５及びネットワークインターフェース回路１２５は、拡張ソケットアダプタ１４０上に位置する。各拡張ソケットアダプタ１４０は、サーバー１０５のマザーボード上の拡張ソケット１４５、例えば、Ｍ.２コネクタに連結される。このように、サーバーは、拡張ソケット１４５において、拡張ソケットアダプタ１４０の設置により変更される、任意の適切な（例えば、業界標準）サーバーであり得る。このような実施形態では、（ｉ）各ネットワークインターフェース回路１２５は、メモリモジュール１３５の各々に統合されることがあるか、又は（ｉｉ）各ネットワークインターフェース回路１２５は、ＰＣＩｅインターフェースを有することができ（ネットワークインターフェース回路１２５は、ＰＣＩｅエンドポイント（つまり、ＰＣＩｅスレーブ装置）の可能性あり）、（ＰＣＩｅマスター装置又は「ルートポート」として動作することができる）ネットワークインターフェース回路１２５に連結される処理回路１１５が、エンドポイントＰＣＩｅ連結に対するルートポートを介してネットワークインターフェース回路１２５と通信することができ、メモリモジュール１３５のコントローラ１３７は、Ｐ２Ｐ（peer-to-peer）ＰＣＩｅ連結を介してネットワークインターフェース回路１２５と通信することができる。

本発明の一実施形態によると、システムが提供されるが、前記システムは、第１サーバーを含み、前記第１サーバーは、格納されたプログラムの処理回路、第１ネットワークインターフェース回路及び第１メモリモジュールを含み、前記第１メモリモジュールは第１メモリダイ及びコントローラを含み、前記コントローラは、メモリインターフェースを介して前記第１メモリダイに連結され、キャッシュコヒーレントインターフェースを介して前記格納されたプログラムの処理回路に連結され、前記第１ネットワークインターフェース回路に連結される。いくつかの実施形態では、前記第１メモリモジュールは第２メモリダイをさらに含み、前記第１メモリダイは揮発性メモリを含み、前記第２メモリダイは、永続性メモリを含む。いくつかの実施形態では、前記永続性メモリはＮＡＮＤフラッシュを含む。いくつかの実施形態では、前記コントローラは、前記永続性メモリのためのフラッシュ変換レイヤー（flash translation layer）を提供するように構成される。いくつかの実施形態では、前記キャッシュコヒーレントインターフェースは、ＣＸＬ（Compute Express Link）インターフェースを含む。いくつかの実施形態では、前記第１サーバーは、前記第１サーバーの拡張ソケットに連結される拡張ソケットアダプタを含み、前記拡張ソケットアダプタは、前記第１メモリモジュール及び前記第１ネットワークインターフェース回路を含む。いくつかの実施形態では、前記第１メモリモジュールのコントローラは、前記拡張ソケットを介して格納されたプログラムの処理回路に連結される。いくつかの実施形態では、前記拡張ソケットはＭ.２ソケットを含む。いくつかの実施形態では、前記第１メモリモジュールのコントローラは、ピア・ツー・ピアＰＣＩｅ（Peripheral Component Interconnect Express）連結により、前記第１ネットワークインターフェース回路に連結される。いくつかの実施形態では、前記システムは、第２サーバー、及び前記第１サーバーと前記第２サーバーに連結されるネットワークスイッチをさらに含む。いくつかの実施形態では、前記ネットワークスイッチは、ＴｏＲ（top of rack）イーサネットスイッチを含む。いくつかの実施形態では、前記第１メモリモジュールのコントローラは、ストレート（straight）ＲＤＭＡ（remote direct memory access）リクエストを受信し、ストレートＲＤＭＡ応答を送信するように構成される。いくつかの実施形態では、前記第１メモリモジュールのコントローラは、前記ネットワークスイッチを介して、そして第１ネットワークインターフェース回路を介してストレートＲＤＭＡリクエストを受信し、前記ネットワークスイッチを介して、そして前記第１ネットワークインターフェース回路を介して連続するＲＤＭＡ応答を送信するように構成される。いくつかの実施形態では、前記第１メモリモジュールのコントローラは、前記第２サーバーからデータを受信し、データを前記第１メモリモジュールに格納し、キャッシュラインを無効化するためのコマンドを、格納されたプログラム処理回路に送信するように構成される。いくつかの実施形態では、前記第１メモリモジュールのコントローラは、ＦＰＧＡ（field programmable gate array）又はＡＳＩＣ（application-specific integrated circuit）を含む。本発明の一実施形態によると、コンピューティングシステムで、リモートダイレクトメモリアクセスを遂行する方法であって、前記コンピューティングシステムは、第１サーバー及び第２サーバーを含み、前記第１サーバーは、格納されたプログラムの処理回路、ネットワークインターフェース回路、及びコントローラを含む第１メモリモジュールを有する前記方法は、前記第１メモリモジュールのコントローラによってストレートリモートダイレクトメモリアクセス（ＲＤＭＡ）リクエストを受信する段階と、前記第１メモリモジュールのコントローラによってストレートＲＤＭＡ応答を送信する段階と、を備える。いくつかの実施形態では、前記コンピューティングシステムは、前記第１サーバー及び前記第２サーバーに連結されるイーサネットスイッチをさらに含み、ストレートＲＤＭＡリクエストを受信する段階は、前記イーサネットスイッチを介して前記ストレートＲＤＭＡリクエストを受信する段階を含む。いくつかの実施形態では、前記方法は、前記第１メモリモジュールのコントローラによって、前記格納されたプログラム処理回路から第１メモリアドレスのリード(read)コマンドを受信する段階と、前記第１メモリモジュールのコントローラによって前記第１メモリアドレスを第２メモリアドレスに変換する段階と、前記第１メモリモジュールのコントローラによって前記第２メモリアドレスにおいて第１メモリモジュールからデータを検索する段階と、を備える。いくつかの実施形態では、前記方法は、前記第１メモリモジュールのコントローラによってデータを受信する段階と、前記第１メモリモジュールのコントローラによって前記第１メモリモジュールにデータを格納する段階と、前記第１メモリモジュールのコントローラによってキャッシュラインを無効化するためのコマンドを、前記格納されたプログラム処理回路に送信する段階と、を備える。本発明の一実施形態によると、システムが提供されるが、前記システムは、第１サーバーを含み、前記第１サーバーは、格納されたプログラムの処理回路、第１ネットワークインターフェース回路及び第１メモリモジュールを含み、前記第１メモリモジュールは、第１メモリダイとコントローラ手段を含み、前記コントローラ手段は、メモリインターフェースを介して前記第１メモリダイに連結され、キャッシュコヒーレントインターフェースを介して前記格納されたプログラム処理回路に連結され、前記第１ネットワークインターフェース回路に連結される。

図１Ｃを参照すると、いくつかの実施形態では、サーバーシステムは、ラックイーサネットスイッチ１１０ＴｏＲ（Top of Rack）のイーサネットスイッチ１１０によって共に連結された１つ以上のサーバー１０５を含む。各サーバーは、（ｉ）システムメモリ１２０（例えば、ＤＤＲ４メモリ）、（ｉｉ）１つ以上のネットワークインターフェース回路１２５、及び（ｉｉｉ）改善された機能のＣＸＬスイッチ１３０に個別に連結される１つ以上の処理回路１１５を含む。改善された機能のＣＸＬスイッチ１３０は、複数のメモリモジュール１３５に連結される。すなわち、図１Ｃのシステムは、格納されたプログラム処理回路１１５、ネットワークインターフェース回路１２５、キャッシュコヒーレントスイッチ１３０及び第１メモリモジュール１３５を含む第１サーバー１０５を含む。図１Ｃのシステムでは、第１メモリモジュール１３５は、キャッシュコヒーレントスイッチ１３０に連結され、キャッシュコヒーレントスイッチ１３０は、ネットワークインターフェース回路１２５に連結され、格納されたプログラム処理回路１１５は、キャッシュコヒーレントスイッチ１３０に連結される。

メモリモジュール１３５は、タイプ、フォームファクタ（form facｔoｒ）又はテクノロジータイプ（例えば、ＤＤＲ４、ＤＲＡＭ、ＬＤＰＰＲ、高帯域幅のメモリ（ＨＢＭ）、ＮＡＮＤ、フラッシュ、又はその他の永続性ストレージ（例えば、ＮＡＮＤフラッシュを統合するＳＳＤ（solid state drives））によりグループ化される。各メモリモジュールは、ＣＸＬインターフェースを有することができ、ＣＫＬパケットとメモリモジュール１３５のメモリに適した信号との間を変換するためのインターフェース回路を含み得る。いくつかの実施形態では、これらインターフェース回路は、改善された機能のＣＸＬスイッチ１３０の代わりに存在し、メモリモジュール１３５の各々は、インターフェース、すなわち、メモリモジュール１３５のメモリの固有インターフェースを有する。いくつかの実施形態では、改善された機能のＣＸＬスイッチ１３０は、メモリモジュール１３５（例えば、メモリモジュール１３５の他の構成要素を有するＭ.２フォームファクタパッケージ、又は前記メモリモジュール１３５の他の構成要素を有する単一の集積回路）に統合される。

ＴｏＲイーサネットスイッチ１１０は、異なるサーバー上に集合するメモリ装置間のＲＤＭＡリクエストを容易にするためのインターフェースのハードウェアを含み得る。改善された機能のＣＸＬスイッチ１３０は、処理回路１１５をバイパスすることにより、（ｉ）ワークロードに基づいて、データを異なるメモリタイプにルーティングし、（ｉｉ）ホストアドレスを装置アドレスに仮想化し、そして/又は（ｉｉｉ）異なるサーバー間のＲＤＭＡリクエストを容易にする１つ以上の回路（例えば、ＦＰＧＡ又はＡＳＩＣを含むこともある）を含み得る。

メモリモジュール１３５は、拡張ボックス（たとえば、エンクロージャのマザーボードを収容するエンクロージャと同じラックにある）に存在でき、前記拡張ボックスは、適切なコネクタに各々連結される予め所定の数（例えば、２０個以上又は１００個以上）のメモリモジュール１３５を含み得る。前記モジュールは、Ｍ.２フォームファクタ内に存在でき、前記コネクタは、Ｍ.２コネクタであり得る。いくつかの実施形態では、サーバー間の連結は、イーサネットではなく、異なるネットワーク上で行われ、例えば、ＷｉＦｉ又は５Ｇ連結のようなワイヤレス連結であり得る。各処理回路は、ｘ８６プロセッサ又は他のプロセッサ、例えば、ＡＲＭプロセッサ又はＧＰＵであり得る。ＣＸＬリンクがインスタンス化されるＰＣＩｅリンクは、ＰＣＩｅ５.０又は他のバージョン（例えば、以前のバージョン又は向後（例えば、将来の）バージョン（例えば、ＰＣＩｅ６.０））であり得る。いくつかの実施形態では、異なるキャッシュコヒーレントプロトコルが、システムでＣＸＬに代わって、又はＣＸＬに追加して使用され、異なるキャッシュコヒーレントスイッチが向上された機能のＣＸＬスイッチ１３０の代わりに、又はこれに追加して使用される。このようなキャッシュコヒーレントプロトコルは、他の標準プロトコル又は標準プロトコルのキャッシュコヒーレントの変形であり得る（ＣＸＬがＰＣＩｅ５.０の変形的な方法と類似した方法で）。標準プロトコルの例は、不揮発性デュアルインラインメモリモジュール（バージョンＰ）（ＮＶＤＩＭＭ−Ｐ）、アクセラレータ用のキャッシュコヒーレントインターコネクト（相互連結）（ＣＣＩＸ）及びＯｐｅｎＣＡＰＩ（Open Coherent Accelerator Processor Interface）を含み、これに限定されない。

システムメモリ１２０は、例えば、ＤＤＲ４メモリ、ＤＲＡＭ、ＨＢＭ又はＬＤＰＰＲメモリを含み得る。メモリモジュール１３５は、分割されるか、又は多数のメモリタイプを扱うために、キャッシュコントローラを含み得る。メモリモジュール１３５は、異なるフォームファクタにすることができ、その例としてはＨＨＨＬ、ＦＨＨＬ、Ｍ.２、Ｕ.２、メザニーン（mezzanine）カード、ドーター（daughter）カード、Ｅ１.Ｓ、Ｅ１.Ｌ、Ｅ３.Ｌ、及びＥ３.Ｓを含み、これに限定されない。

いくつかの実施形態では、前記システムは、１つ以上のサーバーを含む集合アーキテクチャを具現化し、各サーバーは、多数のＣＸＬ付着のメモリモジュール１３５の集合体からなる。各々のメモリモジュール１３５は、メモリ装置として多数の処理回路１１５に個別に露出される多数のパーティションを含み得る。改善された機能のＣＸＬスイッチ１３０の各入力ポートは、改善された機能のＣＸＬスイッチ１３０と、これに連結されたメモリモジュール１３５の多数の出力ポートに独立的にアクセスすることができる。本明細書で使用されるように、改善された機能のＣＸＬスイッチ１３０の「入力ポート」又は「アップストリームポート」は、ＰＣＩｅルートポートに連結される（又は連結するのに適した）ポートであり、改善された機能のＣＸＬスイッチ１３０の「出力ポート」又は「ダウンストリームポート」は、ＰＣＩｅエンドポイントに連結される（又は連結するのに適した）ポートである。図１Ａの実施形態の場合のように、各メモリモジュール１３５は、メモリ範囲としてホストのＢＩＯＳにベースアドレスレジスタ（ＢＡＲｓ）のセットを露出することができる。メモリモジュール１３５のうち、いずれか１つ以上は、ホストＯＳマップを支えるメモリ空間を透明に管理するファームウェアを含み得る。

いくつかの実施形態では、前述したように、改善された機能のＣＸＬスイッチ１３０は、ＦＰＧＡ（又はＡＳＩＣ）コントローラ１３７を含み、ＣＸＬパケットのスイッチング以上の付加的な特徴を提供する。たとえば、拡張機能のＣＸＬスイッチ１３０は、（前述したように、）メモリモジュール１３５を仮想化し、すなわち、処理回路側のアドレス（又は「プロセッサ側のアドレス、すなわち、処理回路１１５によって発行されるリード(read)及びライト(write)コマンドに含まれるアドレス）と、メモリ側のアドレス（つまり、向上された機能のＣＸＬスイッチ１３０によって採用された、メモリモジュール１３５でのストレージ位置をアドレス化するアドレス）との間で変換する変換レイヤーとして動作し、それに応じてメモリモジュール１３５の物理アドレスをマスキングしてメモリの仮想集合（virtual aggregation）を提供する。改善された機能のＣＸＬスイッチ１３０のコントローラ１３７はまた、メモリモジュール１３５に対する管理装置として動作し、ホスト制御のプレーン処理を容易にする。コントローラ１３７は、処理回路１１５の参加なしにデータを透明に移動させることができ、したがって後続のアクセスが、期待どおりに機能するようにメモリマップ（又は「アドレス変換テーブル」）をアップデートすることができる。コントローラ１３７は、（ｉ）ランタイムのうち、アップストリーム及びダウンストリーム連結を適切にバインド（binding）及びアンバインド（unbinding、バインド解除）することができ、（ｉｉ）メモリモジュール１３５内外へのデータの移転に関連する豊富な制御セマンティック（semantics）と統計を可能にすることができるスイッチの管理装置を含み得る。コントローラ１３７は、他のサーバー１０５又は他のネットワーク装置に連結するための追加の「バックドア」１００ＧｂＥ又は他のネットワークインターフェース回路１２５（ホストに連結するために使用されるネットワークインターフェースに追加して）を含み得る。いくつかの実施形態では、コントローラ１３７は、タイプ２装置として処理回路１１５に提供し、これはリモートライト(write)リクエストを受信したとき、処理回路１１５に対するキャッシュの無効化コマンドの発行を可能にする。いくつかの実施形態では、ＤＤＩＯテクノロジーこのイネーブルされ、リモートデータは、先に処理回路の最後レベルのキャッシュ（ＬＬＣ）にプル(pull)され、後でメモリモジュール１３５（キャッシュから）に記録される。

前述したように、メモリモジュール１３５のうち、いずれか１つ以上は、永続性ストレージ装置を含み得る。メモリモジュール１３５が永続性装置に提供される場合には、改善された機能のＣＸＬスイッチ１３０のコントローラ１３７は、永続性ドメインを管理することができ、例えば、永続性ストレージ装置を必要とするとき（例えば、対応するオペレーティングシステム機能の使用により）、処理回路１１５によって識別されるデータを永続性ストレージ装置に格納することができる。このような実施形態では、ソフトウェアＡＰＩは、キャッシュとデータを永続性ストレージ装置にフラッシュ（flush）することができる。

いくつかの実施形態では、メモリモジュール１３５へのダイレクトメモリ移転（direct memory transfer）は、メモリモジュール１３５のコントローラによって遂行される動作は、改善された機能のＣＸＬスイッチ１３０のコントローラ１３７によって行われながら、図１Ａ及び図１Ｂの実施形態について前述したような、類似の方法で行われる。

前述したように、いくつかの実施形態では、メモリモジュール１３５は、グループに組織化され、例えば、メモリを集約的一つのグループ、ＨＢＭ重みのもう一つのグループは、限られ密度及び性能を有するもう一つのグループと、密度が高いもう一つのグループに組織化される。このようなグループは、異なるフォームファクタを有するか、又は異なるテクノロジーに基づくことができる。改善された機能のＣＸＬスイッチ１３０のコントローラ１３７は、例えば、ワークロード、タギング又はサービスの品質（ＱｏＳ）に基づいて、知能的にデータ及びコマンドをルーティングすることができる。リード(read)リクエストに対して、このような因子に基づいたルーティングがない可能性がある。

改善された機能のＣＸＬスイッチ１３０のコントローラ１３７はまた、（前述したように）処理回路側のアドレス及びメモリ側のアドレスを仮想化することができ、これは改善された機能のＣＸＬスイッチ１３０のコントローラ１３７が、データがどこに格納されるかを決定することを可能にする。改善された機能のＣＸＬスイッチ１３０のコントローラ１３７は、処理回路１１５から受信することができる情報又はコマンドに基づいて、そのような決定を行うことができる。たとえば、オペレーティングシステムは、メモリの割り当て機能を提供して、アプリケーションが低遅延ストレージ装置、高帯域幅のストレージ装置、又は永続性ストレージ装置が割り当てられことを指定することができるようにし、前記アプリケーションによって開始されるこのようなリクエストは、その次に、どこに（例えば、メモリモジュール１３５のうち、任意のメモリ内のどこに）前記メモリを割り当てるかを決定する際に、改善された機能のＣＸＬスイッチ１３０のコントローラ１３７によって考慮される。例えば、前記アプリケーションによって高帯域幅が要求されるストレージは、ＨＢＭを含むメモリモジュール１３５に割り当てられ、前記アプリケーションによってデータの持続性が要求されるストレージは、ＮＡＮＤフラッシュを含むメモリモジュール１３５に割り当てられ、他のストレージ（前記アプリケーションがいかなるリクエストもしていない）は、比較的安価なＤＲＡＭを含むメモリモジュール１３５上に格納されることがある。いくつかの実施形態では、向上された機能のＣＸＬスイッチ１３０のコントローラ１３７は、ネットワークの使用パターンに基づいて、どのようなデータをどこに格納するかに対する決定を行うことができる。例えば、改善された機能のＣＸＬスイッチ１３０のコントローラ１３７は、使用パターンをモニタリングしてどのような範囲の物理アドレスのデータが、他のデータよりも頻繁にアクセスされていることを判定することができ、改善された機能のＣＸＬスイッチ１３０のコントローラ１３７は、その次に、これらのデータをＨＢＭを含むメモリモジュール１３５にコピーし、新しい位置にあるデータが同じ範囲の仮想アドレスに格納されるように、そのアドレス変換テーブルを修正することができる。いくつかの実施形態では、メモリモジュール１３５のうち、いずれか１つ以上はフラッシュメモリ（例えば、ＮＡＮＤフラッシュ）を含み、改善された機能のＣＸＬスイッチ１３０のコントローラ１３７は、このフラッシュメモリに対するフラッシュ変換レイヤーを具現化する。フラッシュ変換レイヤーは、プロセッサ側のメモリ位置のオーバーライト（overwriting）（前記データを異なる位置に移動し、前記データの以前の位置を無効なものとマークすることにより、）をサポートすることができ、フラッシュ変換レイヤーは、ガベージコレクション（無効なものとマークされるブロックのデータの割合がしきい値を超えると、前記ブロック内のすべての有効なデータを他のブロックに移転した後ブロックを消去する）を行うことができる。

いくつかの実施形態において、向上された機能のＣＸＬスイッチ１３０のコントローラ１３７は、物理的な機能移転（PF transfer）に対するＰＦを容易にすることができる。例えば、処理回路１１５のうち、１つが一つの物理アドレスから他の物理アドレスにデータを移動する必要がある場合（同一の仮想アドレスを有することができ、この事実は処理回路１１５の動作に影響を与える必要がない）又は処理回路１１５が（処理回路１１５が必要とする）、２つの仮想アドレス間でデータを移動させる必要があれば、改善された機能のＣＸＬスイッチ１３０のコントローラ１３７は、処理回路１１５の介入なしに、移転（transfer）を管理することができる。例えば、処理回路１１５は、ＣＸＬリクエストを送信することができ、データは処理回路１１５に行かずに一つのメモリモジュール１３５から改善された機能のＣＸＬスイッチ１３０背後の他のメモリモジュール１３５に送信されることがある（例えば、データは、１つのメモリモジュール１３５から他のメモリモジュール１３５にコピーされる）。このような状況で、処理回路１１５がＣＸＬリクエストを開始したため、処理回路１１５は、一貫性を保障するために処理回路１１５のキャッシュをフラッシュする必要があり得る。代わりに、Ｔｙｐｅ２のメモリ装置（例えば、メモリモジュール１３５のうちのいずれか１つ、又はＣＸＬスイッチに連結されることもあるアクセラレータ）がＣＸＬリクエストを開始し、スイッチが仮想化されていない場合には、Ｔｙｐｅ２のメモリ装置は、メッセージを処理回路に送ってキャッシュを無効化する

いくつかの実施形態では、向上された機能のＣＸＬスイッチ１３０のコントローラ１３７は、サーバー間のＲＤＭＡリクエストを容易にすることができる。リモートサーバー１０５は、このようなＲＤＭＡリクエストを開始することができ、前記リクエストはＴｏＲイーサネットスイッチ１１０を介して送信されることがあり、ＲＤＭＡリクエストに応答するサーバー（「ローカルサーバー」）１０５の向上された機能のＣＸＬスイッチ１３０に到着することができる。改善された機能のＣＸＬスイッチ１３０は、このようなＲＤＭＡリクエストを受信するように構成されることがあり、受信サーバー１０５（すなわち、ＲＤＭＡリクエストを受信するサーバー）のメモリモジュール１３５のグループをそれ自身のメモリ空間として扱うすることができる。ローカルサーバーで、向上された機能のＣＸＬスイッチ１３０は、ダイレクトＲＤＭＡリクエスト（つまり、ローカルサーバーで処理回路１１５を介してルーティングされないＲＤＭＡリクエスト）としてＲＤＭＡリクエストを受信することができ、ダイレクトレスポンスを前記ＲＤＭＡリクエストに転送することができる（つまり、ローカルサーバーの処理回路１１５を介してルーティングされず、前記応答を送信することができる）。リモートサーバーで前記応答（例えば、ローカルサーバーによって送信されるデータ）は、リモートサーバーの向上された機能のＣＸＬスイッチ１３０によって受信されることがあり、リモートサーバーの処理回路１１５を介してルーティングされずに、リモートサーバーのメモリモジュール１３５に格納される。

図１Ｄは、処理回路１１５が向上された機能のＣＸＬスイッチ１３０を介してネットワークインターフェース回路１２５に連結される図１Ｃのシステムと類似したシステムを示す。改善された機能のＣＸＬスイッチ１３０、メモリモジュール１３５及びネットワークインターフェース回路１２５は、拡張ソケットアダプタ１４０上に位置する。拡張ソケットアダプタ１４０は、サーバー１０５のマザーボード上の拡張ソケット、例えば、ＰＣＩｅコネクタ１４５にプラグ連結された回路基板又はモジュールであり得る。したがって、サーバーは、ＰＣＩｅコネクタ１４５において、拡張ソケットアダプタ１４０の設置によってのみ変更される、任意の適切なサーバーであり得る。メモリモジュール１３５は、拡張ソケットアダプタ１４０上のコネクタ（例えば、Ｍ.２コネクタ）に設置されることがある。このような実施形態では、（ｉ）ネットワークインターフェース回路１２５は、改善された機能のＣＸＬスイッチ１３０に統合されることがあるか、又は（ｉｉ）各ネットワークインターフェース回路１２５は、ＰＣＩｅインターフェースを有することができ、（前記ネットワークインターフェース回路１２５は、ＰＣＩｅエンドポイントの可能性あり）、したがって、ネットワークインターフェース回路１２５が連結される処理回路１１５は、ルートポート・ツー・エンドポイント(root port to end point)ＰＣＩｅ連結を介してネットワークインターフェース回路１２５と通信することができている。改善された機能のＣＸＬスイッチ１３０のコントローラ１３７（処理回路１１５及びネットワークインターフェース回路１２５に連結されるＰＣＩｅ入力ポートを有し得る）は、ピア・ツー・ピアＰＣＩｅ連結を介してネットワークインターフェース回路１２５と通信することができる。

本発明の一実施形態によると、第１サーバーを含むシステムが提供され、格納されたプログラムの処理回路、ネットワークインターフェース回路、キャッシュコヒーレントスイッチ、及び第１メモリモジュールを含み、前記第１メモリモジュールは、前記キャッシュコヒーレントスイッチに連結され、前記キャッシュコヒーレントスイッチは、前記ネットワークインターフェース回路に連結され、前記格納されたプログラム処理回路は、前記キャッシュコヒーレントスイッチに連結される。いくつかの実施形態では、前記システムは、前記キャッシュコヒーレントスイッチに連結される第２メモリモジュールをさらに含み、前記第１メモリモジュールは揮発性メモリを含み、前記第２メモリモジュールは永続性メモリを含む。いくつかの実施形態では、前記キャッシュコヒーレントスイッチは、前記第１メモリモジュール及び前記第２メモリモジュールを仮想化するように構成される。いくつかの実施形態では、前記第１メモリモジュールはフラッシュメモリを含み、前記キャッシュコヒーレントスイッチは、フラッシュメモリに対するフラッシュ変換レイヤーを提供するように構成される。いくつかの実施形態では、前記キャッシュコヒーレントスイッチは、前記第１メモリモジュールで第１メモリ位置のアクセス周波数をモニタリングし、前記アクセス頻度が第１しきい値を超えると決定し、前記第１メモリ位置の内容を第２メモリの位置にコピーし、前記第２メモリ位置は第２メモリモジュールに存在する。いくつかの実施形態で、前記第２メモリモジュールは、高帯域幅のメモリ（ＨＢＭ）を含む。いくつかの実施形態では、前記キャッシュコヒーレントスイッチは、プロセッサ側のアドレスをメモリ側アドレスにマッピングするためのテーブルを維持するように構成される。いくつかの実施形態で、前記システムは、第２サーバーと、前記第１サーバー及び前記第２サーバーに連結されるネットワークスイッチと、をさらに含む。いくつかの実施形態で、前記ネットワークスイッチは、ＴｏＲ（top of rack）イーサネットスイッチを含む。いくつかの実施形態で、前記キャッシュコヒーレントスイッチは、ストレート（straight）ＲＤＭＡ（remote direct memory access）リクエストを受信し、ストレートＲＤＭＡ応答を送信するように構成される。いくつかの実施形態で、前記キャッシュコヒーレントスイッチは、前記ＴｏＲイーサネットスイッチを介して、ネットワークインターフェース回路を介して前記ＲＤＭＡリクエストを受信し、前記ＴｏＲイーサネットスイッチを介して、そして前記ネットワークインターフェース回路を介してストレートＲＤＭＡ応答を送信するように構成される。いくつかの実施形態では、キャッシュコヒーレントインターフェースは、ＣＸＬ（Compute Express Link）プロトコルをサポートするように含む。いくつかの実施形態で、前記第１サーバーは、前記第１サーバーの拡張ソケットに連結される拡張ソケットアダプタを含み、前記拡張ソケットアダプタは、キャッシュコヒーレントスイッチ及びメモリモジュールソケットを含み、前記第１メモリモジュールは、前記メモリモジュールソケットを介して前記キャッシュコヒーレントスイッチに連結される。いくつかの実施形態で、前記メモリモジュールソケットは、Ｍ.２ソケットを含む。いくつかの実施形態で、前記ネットワークインターフェース回路は、拡張ソケットアダプタ上に位置する。本発明の一実施形態によると、コンピューティングシステムで、リモートダイレクトメモリアクセスを遂行する方法であって、前記コンピューティングシステムは第１サーバー及び第２サーバーを含み、前記第１サーバーは、格納されたプログラムの処理回路、ネットワークインターフェース回路、及びコントローラを含む第１メモリモジュールを含む、前記方法は、前記キャッシュコヒーレントスイッチによってストレートＲＤＭＡリクエストを受信する段階と、前記キャッシュコヒーレントスイッチによってストレートＲＤＭＡ応答を送信する段階と、を備える。いくつかの実施形態で、前記コンピューティングシステムはイーサネットスイッチをさらに含み、前記ストレートＲＤＭＡリクエストを受信する段階は、前記イーサネットスイッチを介して前記ストレートＲＤＭＡリクエストを受信する段階を含む。いくつかの実施形態では、前記方法は、前記キャッシュコヒーレントスイッチによって格納されたプログラム処理回路から第１メモリアドレスに対するリード(read)コマンドを受信する段階と、前記キャッシュコヒーレントスイッチによって前記第１メモリアドレスを第２メモリアドレスに変換する段階と、前記キャッシュコヒーレントスイッチによって前記第２メモリアドレスで第１メモリモジュールからデータを検索する段階と、を備える。いくつかの実施形態で、前記方法は、キャッシュコヒーレントスイッチによってデータを受信する段階と、前記キャッシュコヒーレントスイッチによって前記第１メモリモジュールにデータを格納する段階と、前記キャッシュコヒーレントスイッチによってキャッシュラインを無効化するためのコマンドを前記格納されたプログラム処理回路に送信する段階と、備える。本発明の一実施形態によると、第１サーバーを含むシステムが提供され、格納されたプログラムの処理回路と、ネットワークインターフェース回路と、キャッシュコヒーレントスイッチング手段と、第１メモリモジュールと、を備え、前記第１メモリモジュールは前記キャッシュコヒーレントスイッチング手段に連結され、前記キャッシュコヒーレントスイッチは前記ネットワークインターフェース回路に連結され、前記格納されたプログラム処理回路は前記キャッシュコヒーレントスイッチング手段に連結される。

図１Ｅは、複数のサーバー１０５の各々が示されているように、ＰＣＩｅ機能を有するＰＣＩｅ５.０のＣＸＬスイッチの可能性がるＴｏＲサーバーリンクスイッチ（server-linking switch）１１２に連結される実施形態を図示する。サーバーリンクスイッチ１１２は、ＦＰＧＡやＡＳＩＣを含むことができ、イーサネットスイッチより優れた性能（スループット（throughput）とレイテンシ（latency）の側面から）を提供することができる。サーバー１０５の各々は、改善された機能のＣＸＬスイッチ１３０と、１つ以上のＰＣＩｅコネクタを介してサーバーリンクスイッチ１１２に連結される複数のメモリモジュール１３５を含み得る。サーバー１０５の各々は、また図示されたように、１つ以上の処理回路１１５及びシステムメモリ１２０を含み得る。サーバーリンクスイッチ１１２は、マスターとして動作することができ、改善された機能のＣＸＬのスイッチ１３０の各々は、以下でより詳細に記述されているように、スレーブとして動作することができる。

図１Ｅの実施形態では、サーバーリンクスイッチ１１２は、異なるサーバー１０５から受信される多数のキャッシュリクエストをグループ化するか、又はバッチ(batch)することができ、パケットをグループ化して制御オーバーヘッドを減少させることができる。改善された機能のＣＸＬスイッチ１３０は、（ｉ）のワークロードに基づいた異なるメモリタイプのデータをルーティングし、（ｉｉ）プロセッサ側アドレスをメモリ側アドレスに仮想化し、（ｉｉｉ）処理回路１１５をバイパスすることにより、異なるサーバー１０５間のコヒーレントリクエスト（coherent requests）を容易にするために、スレーブコントローラ（例えば、スレーブＦＰＧＡ又はスレーブＡＳＩＣ）を含み得る。図１Ｅに図示されたシステムは、ＣＸＬ２.０ベースであり得、ラック（rack）内に分散される共有メモリを含むことができ、リモートノードと基本的に（natively）連結するためにＴｏＲサーバーリンクスイッチ１１２を使用することができる。

ＴｏＲサーバーリンクスイッチ１１２は、他のサーバー又はクライアントに連結するための追加のネットワーク連結（例えば、図示されたイーサネット連結又は他の種類の連結、例えば、ＷｉＦｉ連結又は５Ｇ連結などの無線（ワイヤレス）連結）を有し得る。サーバーリンクスイッチ１１２及び向上された機能のＣＸＬスイッチ１３０は、各々、ＡＲＭプロセッサのような処理回路であるか、又はこれを含むコントローラを備え得る。ＰＣＩｅインターフェースは、ＰＣＩｅ５.０の標準又は前記ＰＣＩｅ標準の以前のバージョン若しくは将来のバージョンに従うか、他の標準（例えば、ＮＶＤＩＭＭ-Ｐ、ＣＣＩＸ又はＯｐｅｎＣＡＰＩ）に従うインターフェースが、ＰＣＩｅインターフェースの代わりに採用されることがある。メモリモジュール１３５は、ＤＤＲ４ＤＲＡＭ、ＨＢＭ、ＬＤＰＰＲ、ＮＡＮＤフラッシュ又はＳＳＤ（Solid State Drives）を含む多様なメモリタイプを含み得る。メモリモジュール１３５は分割されるか、又は多数のメモリタイプを扱うためにキャッシュコントローラを含むことができ、ＨＨＨＬ、ＦＨＨＬ、Ｍ.２、Ｕ.２、メザニーン（mezzanine）カード、ドーターカード、Ｅ１.Ｓ、Ｅ１.Ｌ、Ｅ３.Ｌ又はＥ３.Ｓのような異なるフォームファクタ内に有り得る。

図１Ｅの実施形態では、改善された機能のＣＸＬスイッチ１３０は、一対多及び多対一のスイッチングを可能にすることができ、フリート（flit）（６４byte）レベルでファイングレインロードストア（fine grain load-store）インターフェースを可能にすることができる。各サーバーは、集合したメモリ装置を有することができ、各装置は、各ＬＤ-ＩＤを有する多数の論理装置に分割される。ＴｏＲスイッチ１１２（「サーバーリンクスイッチ」と呼ばれることがある）は、一対多の機能を可能にし、サーバー１０５の向上された機能のＣＸＬスイッチ１３０は、多対一の機能を可能にする。サーバーリンクスイッチ１１２は、ＰＣＩｅスイッチ、ＣＸＬスイッチ又は両方である可能性もある。このようなシステムで、リクエスタ(requester)は、多数のサーバー１０５の処理回路１１５であり、レスポンダー(responder)は多くの集合したメモリモジュール１３５であり得る。２つのスイッチのレイヤー（前述したように、マスタースイッチはサーバーリンクスイッチ１１２であり、スレーブスイッチは拡張機能のＣＸＬスイッチ１３０である）は、任意のもの間（any-any）の通信を可能にする。メモリモジュール１３５の各々は、一つの物理的な機能（ＰＦ）と最大１６個の独立した論理装置を有し得る。いくつかの実施形態では、論理装置の数（例えば、パーティションの数）は、限定されることがあり（例えば、１６個）、１つの制御パーティション（装置を制御するために使用される物理的な機能の可能性あり）がまた、存在することができる。各々のメモリモジュール１３５は、処理回路１１５が保有することができるキャッシュラインコピーを処理するためにＣＸＬ.ｃａｃｈｅ、ＣＸＬ.ｍｅｍ、ＣＸＬ.ｉｏ及びアドレス変換サービス（ＡＴＳ）実施を有するタイプ２装置であり得る。改善された機能のＣＸＬスイッチ１３０とファブリックマネージャーは、メモリモジュール１３５の発見を制御し、（ｉ）装置の検出、仮想ＣＸＬソフトウェアの生成を遂行し、（ｉｉ）仮想化を物理ポートにバインドすることができる。図１Ａ〜図１Ｄの実施形態のように、ファブリックマネージャーは、ＳＭＢｕｓサイドバンド上で連結を介して動作することができる。ＩＰＭＩ（Intelligent Platform Management Interface）又はレッドフィッシュ（Redfish）標準に準拠する（そして標準から要請していない追加機能を提供することもできる）インターフェースであり得るメモリモジュール１３５に対するインターフェースは、構成可能性をイネーブルすることができる。

前述したように、いくつかの実施形態は、サーバーリンクスイッチ１１２の一部であるマスターコントローラ（ＦＰＧＡ又はＡＳＩＣで実施されることがある）及び向上された機能のＣＸＬスイッチ１３０の一部スレーブコントローラを有する階層構造を実装してロードストアインターフェース（つまり、ソフトウェアドライバの介入なしにコヒーレントドメイン内で動作するキャッシュライン（例えば、６４バイト）粒度（granularity）を有するインターフェース）を提供する。このようなロードストアインターフェースは、個々のサーバー、ＣＰＵ、又はホストを越えてコヒーレントドメインを拡張することができ、電気的又は光学的である物理的媒体を含み得る（例えば、両端部で電気・光トランシーバとの光学連結）。動作時に、マスタコントローラ（サーバー・リンクスイッチ１１２）は、ラック上のすべてのサーバー１０５を起動（又は「再起動」）して構成する。前記マスタコントローラは、すべてのホストに対する可視性を有することができ、（ｉ）各サーバーを発見し、どのくらいの多くのサーバー１０５とメモリモジュール１３５が、サーバークラスタに存在するかを発見し、（ｉｉ）サーバー１０５の各々を独立して構成し、（ｉｉｉ）例えば、ラックの構成に基づいて、異なるサーバー上のメモリの一部のブロックをイネーブル又はディセーブルし（例えば、メモリモジュール１３５のうち、いずれか一つのイネーブル又はディセーブルし）、（ｉｖ）アクセスを制御し（例えば、あるサーバーがもう他のサーバーを制御することができる）、（ｖ）フロー制御を実現し（例えば、すべてのホスト及び装置のリクエストが前記マスターを通過するため、一つのサーバーから他のサーバーにデータを送信し、前記データに対するフロー制御を遂行する）、（ｖｉ）リクエスト又はパケットをグループ化又はバッチし（例えば、多数のキャッシュリクエストは、異なるサーバー１０５からマスターによって受信される）、及び（ｖｉｉ）リモートソフトウェアのアップデート、放送通信などを受信することができる。バッチモードで、サーバーリンクスイッチ１１２は、同じサーバーに向かう（例えば、第１サーバーに向かう）複数のパケットを受信して、パケットを共に（つまり、パケット間の中止なしに）第１サーバーに送信することができる。たとえば、サーバーリンクスイッチ１１２は、第２サーバーから第１パケットを受信し、第３サーバーから第２パケットを受信し、前記第１パケット及び第２パケットを共に第１サーバーに転送することができる。サーバー１０５の各々は、マスタコントローラに、（ｉ）ＩＰＭＩネットワークインターフェース、（ｉｉ）システムイベントログ（ＳＥＬ）及び（ｉｉｉ）ボード管理コントローラ（ＢＭＣ）を露出してマスターコントローラが性能を測定し、信頼性を状況に応じて（on the fly）測定し、サーバー１０５を再構成することができるようにする。

いくつかの実施形態では、高い利用可能性のロードストアインターフェースを容易にするソフトウェアアーキテクチャが使用される。このようなソフトウェアアーキテクチャは、信頼性、複製、一貫性、システムコヒーレンス、ハッシュ、キャッシュ、及び持続性を提供することができる。前記ソフトウェアアーキテクチャは、ＩＰＭＩを介してＣＸＬ装置の構成要素に対する周期的なハードウェアチェックを遂行することにより、（多くのサーバーの数を有するシステムにおいて）信頼性を提供することができる。たとえば、サーバーリンクスイッチ１１２は、ＩＰＭＩインターフェースを介してメモリサーバー１５０の状態をクエリ(query)するために、例えば、電源の状態（メモリサーバー１５０の電源供給装置が適切に機能しているか否か）、ネットワーク状態（サーバーリンクスイッチ１１２へのインターフェースが適切に動作しているか否かの可否）、及びエラーチェック状態（エラーコンディションがメモリサーバー１５０のサブシステムのいずれかに存在するか否かの可否）をクエリ(query)する。前記ソフトウェアアーキテクチャは、複製を提供することができるかに応じて、マスターコントローラがメモリモジュール１３５に格納されたデータを複製し、レプリカ間のデータ一貫性を維持することができる。

ソフトウェアアーキテクチャは、一貫性を提供することから、マスターコントローラが異なる一貫性のレベルで構成されることがあり、サーバーリンクスイッチ１１２は、維持される一貫性のレベルに応じてパケットフォーマットを調整することができる。たとえば、最終の一貫性が維持される場合には、サーバーリンクスイッチ１１２は、リクエストを再配置することができる一方で、厳格な一貫性を維持するためには、サーバーリンクスイッチ１１２は、スイッチにおいて、正確なタイムスタンプを有してすべてのリクエストのスコアボードを維持することができる。ソフトウェアアーキテクチャは、システムコヒーレンスを提供することから、多数の処理回路１１５は、同じメモリアドレスからリード(read)又はライト(write)することができ、マスターコントローラは、コヒーレンスを維持するために（ディレクトリルックアップを使用して）アドレスのホームノードに到達するか、又は共通のバス上でリクエストをブロードキャストする責任を有する。

ソフトウェアアーキテクチャは、ハッシュ（hashing）を提供することができ、サーバーリンクスイッチ１１２と及び向上された機能のＣＸＬスイッチが、起動時にすべてのノードにわたってすべてのＣＸＬ装置にデータを均等にマッピングするために（又は１つのサーバーがダウンされたり、動作したりするときに調整するために）多数のハッシュ機能と一貫性のあるハッシュを使用できるアドレスの仮想マッピング（mapping）を維持することができる。ソフトウェアアーキテクチャは、キャッシュを提供することができ、マスターコントローラ（例えば、ＨＢＭ又は類似の能力を有するテクノロジーを含むメモリモジュール１３５から）は、任意のメモリパーティションを指定してキャッシュ（ライトスルー（write-through）キャッシュ又はライトバック（write-back）キャッシュを使用すること）として作動することができる。ソフトウェアアーキテクチャは、持続性を提供することから、それに応じてマスターコントローラとスレーブコントローラが、永続性ドメインとフラッシュを管理することができる。

いくつかの実施形態では、ＣＸＬスイッチの能力は、メモリモジュール１３５のコントローラに統合される。このような実施形態では、サーバーリンクスイッチ１１２は、それにもかかわらず、マスターとして動作することができ、ここでの他の所でも、前述したように、改善された特徴を有し得る。サーバーリンクスイッチ１１２は、またシステムの他のストレージ装置を管理することができ、例えば、サーバーリンクスイッチ１１２によって形成されたＰＣＩｅネットワークの一部ではないクライアントマシンに連結するためのイーサネット連結（例えば、１００ＧｂＥ連結）を有し得る。

いくつかの実施形態では、サーバーリンクスイッチ１１２は、改善された機能を有してまた統合されたＣＸＬコントローラを含む。他の実施形態では、サーバーリンクスイッチ１１２は、物理的ルーティング装置であるだけであり、各サーバー１０５は、マスターＣＸＬコントローラを含む。このような実施形態では、異なるサーバーにまたがるマスタは、マスタ・スレーブのアーキテクチャについて交渉することができる。（ｉ）改善された機能のＣＸＬスイッチ１３０、及び（ｉｉ）サーバーリンクスイッチ１１２のインテリジェント（知能型）機能は、１つ以上のＦＰＧＡ、１つ以上のＡＳＩＣ、１つ以上のＡＲＭプロセッサ、又はコンピューティング機能を有する１つ以上のＳＳＤ装置で具現化されことがある。サーバーリンクスイッチ１１２は、例えば、独立したリクエストを並べ替えることにより、フロー制御を行うことができる。いくつかの実施形態では、インターフェースがロードストアであるため、ＲＤＭＡはオプションであるが、ＰＣＩｅ物理的媒体（メディア）（１００ＧｂＥの代わりに）を使用する介在のＲＤＭＡリクエストがあり得る。このような実施形態では、リモートホストはＲＤＭＡリクエストを開始することができ、前記ＲＤＭＡリクエストは、サーバーリンクスイッチ１１２を介して向上された機能のＣＸＬスイッチ１３０に転送されることがある。前記サーバーリンクスイッチ１１２及び向上された機能のＣＸＬスイッチ１３０は、ＲＤＭＡ４ＫＢリクエスト又はＣＸＬのフリート（６４バイト）のリクエストに優先順位をつけることができる。

図１Ｃ及び図１Ｄの実施形態のように、改善された機能のＣＸＬスイッチ１３０は、このようなＲＤＭＡリクエストを受信するように構成することがあり、受信サーバー１０５（すなわち、ＲＤＭＡリクエストを受信するサーバー）のメモリモジュール１３５のグループをそれ自身のメモリ空間として扱うことができる。なお、向上された機能のＣＸＬスイッチ１３０は、処理回路１１５にわたって仮想化し、リモートの向上された機能ＣＸＬのスイッチ１３０に対するＲＤＭＡリクエストを開始し、処理回路１１５が関与する必要なしに、サーバー１０５間でデータを前後に移動することができる。

図１Ｆは、処理回路１１５が、向上された機能のＣＸＬスイッチ１３０を介してネットワークインターフェース回路１２５に連結される図１Ｅのシステムと類似したシステムを示す。図１Ｄの実施形態のように、図１Ｆにおいて、改善された機能のＣＸＬスイッチ１３０、メモリモジュール１３５及びネットワークインターフェース回路１２５は、拡張ソケットアダプタ１４０上に位置する。拡張ソケットアダプタ１４０は、サーバー１０５のマザーボード上の拡張ソケット、例えば、ＰＣＩｅコネクタ１４５にプラグ連結される回路基板又はモジュールであり得る。したがって、サーバーは、ＰＣＩｅコネクタ１４５で、拡張ソケットアダプタ１４０の設置によってのみ変更される、任意の適切なサーバーであり得る。メモリモジュール１３５は、拡張ソケットアダプタ１４０上のコネクタ（例えば、Ｍ.２コネクタに）に設置されることがある。このような実施形態では、（ｉ）ネットワークインターフェース回路１２５は、改善された機能のＣＸＬスイッチ１３０に統合されることがあるか、又は（ｉｉ）各ネットワークインターフェース回路１２５は、ＰＣＩｅインターフェースを有することができ（ネットワークインターフェース回路１２５は、ＰＣＩｅエンドポイントの可能性あり）、ネットワークインターフェース回路１２５に連結される処理回路１１５は、ルートポート・ツー・エンドポイントＰＣＩｅ連結を介してネットワークインターフェース回路１２５と通信することができ、前記向上された機能のＣＸＬスイッチ１３０のコントローラ１３７（処理回路１１５及びネットワークインターフェース回路１２５に連結されたＰＣＩｅ入力ポートを有し得る）は、ピア・ツー・ピアＰＣＩｅ連結を介してネットワークインターフェース回路１２５と通信することができる。

本発明の一実施形態によると、第１サーバー、第２サーバー、及び前記第１サーバーと前記第２サーバーに連結されたサーバーリンクスイッチを含むシステムが提供され、前記第１サーバーは格納されたプログラムの処理回路、キャッシュコヒーレントスイッチ及び第１メモリモジュールを含み、前記第１メモリモジュールは前記キャッシュコヒーレントスイッチに連結され、前記キャッシュコヒーレントスイッチは前記サーバーリンクスイッチに連結され、前記格納されたプログラム処理回路は前記キャッシュコヒーレントスイッチに連結される。いくつかの実施形態では、サーバーリンクスイッチは、ＰＣＩｅ（Peripheral Component Interconnect Express）スイッチを含む。いくつかの実施形態では、サーバーリンクスイッチはＣＸＬ（Compute Express Link）スイッチを含む。いくつかの実施形態で、サーバーリンクスイッチはＴｏＲ（Top of rack）ＣＸＬスイッチを含む。いくつかの実施形態では、サーバーリンクスイッチは、第１サーバーを見つけるするように構成される。いくつかの実施形態では、サーバーリンクスイッチは、第１サーバーが再起動するように設定される。いくつかの実施形態では、サーバーリンクスイッチは、キャッシュコヒーレントスイッチが前記第１メモリモジュールをディセーブルするように構成される。いくつかの実施形態で、サーバーリンクスイッチは、第２サーバーから第１サーバーにデータを送信し、データに対するフロー制御を遂行するように構成される。いくつかの実施形態で、システムはサーバーリンクスイッチに連結された第３サーバーを含み、サーバーリンクスイッチは第２サーバーから第１パケットを受信し、第３サーバーから第２パケットを受信し、第１パケット及び第２パケットを第１サーバーに伝送する。いくつかの実施形態では、前記システムは、前記キャッシュコヒーレントスイッチに連結された第２メモリモジュールをさらに含み、前記第１メモリモジュールは揮発性メモリを含み、前記第２メモリモジュールは永続性メモリを含む。いくつかの実施形態で、前記キャッシュコヒーレントスイッチは、前記第１メモリモジュール及び前記第２メモリモジュールを仮想化するように構成される。いくつかの実施形態で、前記第１メモリモジュールはフラッシュメモリを含み、前記キャッシュコヒーレントスイッチは、フラッシュメモリに対するフラッシュ変換レイヤーを提供するように構成される。いくつかの実施形態で、前記第１サーバーは、前記第１サーバーの拡張ソケットに連結された拡張ソケットアダプタを含み、前記拡張ソケットアダプタは、キャッシュコヒーレントスイッチ及びメモリモジュールソケットを含み、前記第１メモリモジュールは前記メモリモジュールソケットを介して前記キャッシュコヒーレントスイッチに連結される。いくつかの実施形態で、前記メモリモジュールソケットは、Ｍ.２ソケットを含む。いくつかの実施形態で、キャッシュコヒーレントスイッチはコネクタを介してサーバーリンクスイッチに連結され、コネクタは拡張ソケットアダプタ上にある。本発明の一実施形態によると、コンピューティングシステムで、リモートダイレクトメモリアクセスを遂行する方法であって、前記コンピューティングシステムは、第１サーバー、第２サーバー、第３サーバー、並びに前記第１サーバー、第２サーバー及び第３サーバーに連結されたサーバーリンクスイッチを含み、前記第１サーバーは格納されたプログラムの処理回路、キャッシュコヒーレントスイッチ、及び第１メモリモジュールを含む、前記方法は、前記サーバーリンクスイッチにより前記第２サーバーから第１パケットを受信する段階と、前記サーバーリンクスイッチにより前記第３サーバーから第２パケットを受信する段階と、前記第１パケット及び前記第２パケットを前記第１サーバーに送信する段階と、を備える。いくつかの実施形態で、前記方法は、前記キャッシュコヒーレントスイッチによってストレートＲＤＭＡリクエストを受信する段階と、前記キャッシュコヒーレントスイッチによってストレートＲＤＭＡ応答を送信する段階と、をさらに備える。いくつかの実施形態で、前記ストレートＲＤＭＡリクエストを受信する段階は、前記サーバーリンクスイッチを介して前記ストレートＲＤＭＡリクエストを受信する段階を含む。いくつかの実施形態では、前記方法は、前記キャッシュコヒーレントスイッチによって格納されたプログラム処理回路から第１メモリアドレスに対するリード(read)コマンドを受信する段階と、前記キャッシュコヒーレントスイッチにより前記第１メモリアドレスを第２メモリアドレスに変換する段階と、前記キャッシュコヒーレントスイッチにより前記第２メモリアドレスで第１メモリモジュールからデータを検索する段階と、を備える。本発明の一実施形態によると、第１サーバー、第２サーバー、並びに前記第１サーバー及び前記第２サーバーに連結されたサーバーリンクスイッチを含み、前記第１サーバーは、格納されたプログラムの処理回路、キャッシュコヒーレントスイッチング手段及び第１メモリモジュールを含み、前記第１メモリモジュールは前記キャッシュコヒーレントスイッチング手段に連結され、前記キャッシュコヒーレントスイッチング手段は前記サーバーリンクスイッチングに連結され、前記格納されたプログラムの処理回路は、前記キャッシュコヒーレントスイッチング手段に連結される。

図１Ｇは、複数のメモリサーバー１５０の各々が示されているように、ＰＣＩｅ５.０ＣＸＬスイッチであり得るＴｏＲサーバーリンクスイッチ１１２に連結される実施形態を示している。図１Ｅ及び図１Ｆの実施形態では、サーバーリンクスイッチ１１２は、ＦＰＧＡやＡＳＩＣを含むことができ、イーサネットスイッチより優れている性能（スループット（throughput）とレイテンシ（latency）の側面から）を提供することができている。図１Ｅ及び図１Ｆの実施形態のように、メモリサーバー１５０は、複数のＰＣＩｅコネクタを介してサーバーリンクスイッチ１１２に連結された複数のメモリモジュール１３５を含み得る。図１Ｇの実施形態で、処理回路１１５及びシステムメモリ１２０は、不在であり得る、メモリサーバー１５０の主な目的は、コンピューティングリソースを有する他のサーバー１０５による使用のためにメモリを提供することであり得る。

図１Ｇの実施形態では、サーバーリンクスイッチ１１２は、異なるメモリサーバー１５０から受信される多数のキャッシュリクエストをグループ化又はバッチすることができ、パケットをグループ化して制御オーバーヘッドを減少させることができる。改善された機能のＣＸＬスイッチ１３０は、（ｉ）ワークロードに基づいて、データを異なるメモリタイプにルーティングし、（ｉｉ）プロセッサ側のアドレスを仮想化するために（このようなアドレスをメモリ側のアドレスに変換するために）構成可能なハードウェアビルディングブロックを含み得る。図１Ｇに図示されたシステムは、ＣＸＬ２.０ベースである可能性があり、ラック（rack）内に構成可能でありながら、集合していない共有メモリを含むことができ、リモート装置にプールされた（pooled）（すなわち、集合した）メモリを提供するために、ＴｏＲサーバーリンクスイッチ１１２を使用することができる。

ＴｏＲサーバーリンクスイッチ１１２は、他のサーバー又はクライアントに連結するための追加のネットワーク連結（例えば、図示されたイーサネット連結又は他の種類の連結、例えば、ＷｉＦｉ連結又は５Ｇ連結などのようなワイヤレス（無線）連結）を有し得る。サーバーリンクスイッチ１１２及び向上された機能のＣＸＬスイッチ１３０は、各々、ＡＲＭプロセッサのような処理回路、又はこれを含むコントローラを含み得る。ＰＣＩｅインターフェースは、ＰＣＩｅ５.０の標準、前記ＰＣＩｅ標準の以前のバージョン、将来のバージョンに従うか、又は他の標準（例えば、ＮＶＤＩＭＭ-Ｐ、ＣＣＩＸ又はＯｐｅｎＣＡＰＩ）がＰＣＩｅの代わりに採用されることがある。メモリモジュール１３５は、ＤＤＲ４ＤＲＡＭ、ＨＢＭ、ＬＤＰＰＲ、ＮＡＮＤフラッシュとＳＳＤ（Solid State Drives）を含む多様なメモリタイプを含み得る。メモリモジュール１３５は、分割されたり、多数のメモリタイプを扱うために、キャッシュコントローラを含んだりすることができ、ＨＨＨＬ、ＦＨＨＬ、Ｍ.２、Ｕ.２、メザニーン（mezzanine）カード、ドーターカード、Ｅ１.Ｓ、Ｅ１.Ｌ、Ｅ３.Ｌ又はＥ３.Ｓのような、異なるフォームファクタ内に有り得る。

図１Ｇの実施形態で、改善された機能のＣＸＬスイッチ１３０は、一対多と多対一のスイッチングを可能にすることができ、フリート（flit）（６４-byte）レベルで微細粒子ロードストア（load- sＴｏＲe）インターフェースを可能にすることができる。各メモリサーバー１５０は、一連のされたメモリ装置を有することができ、各装置は、各ＬＤ-ＩＤを有する１つ以上の論理装置に分割される。改善された機能のＣＸＬスイッチ１３０は、コントローラ１３７（例えば、ＡＳＩＣ又はＦＰＧＡ）、装置発見のための回路、エニュメレーション（enumeration）、分割（partitioning）及び物理アドレスの範囲の提供のための回路（このようなＡＳＩＣ又はＦＰＧＡから又はその一部から分離されることがある）を含み得る。メモリモジュール１３５の各々は、一つの物理的な機能（ＰＦ）と最大１６個の分離された（isolated）論理装置を有し得る。いくつかの実施形態で、論理装置の数（例えば、パーティションの数）は、限られることがあり（例えば、１６個まで）、１つの制御パーティション（前記装置を制御するために使用される物理的な機能の可能性あり）がまた存在することができる。メモリモジュール１３５の各々は、処理回路１１５が保有することができるキャッシュラインコピーを処理するためにＣＸＬ.ｃａｃｈｅ、ＣＸＬ.ｍｅｍ、ＣＸＬ.ｉｏ及びアドレス変換サービス（ＡＴＳ）の実現を有するタイプ２装置であり得る。

改善された機能のＣＸＬスイッチ１３０とファブリックマネージャーは、メモリモジュール１３５の発見を制御して、（ｉ）装置の発見と仮想ＣＸＬソフトウェアの生成を行い、（ｉｉ）仮想的なことを物理ポートにバインドすることができる。図１Ａ〜図１Ｄの実施形態のように、ファブリックマネージャーは、ＳＭＢｕｓサイドバンド（sideband）上での連結を介して動作することができる。ＩＰＭＩ（Intelligent Platform Management Interface）又はレッドフィッシュ（Redfish）標準に準拠し（そして標準から要請していない追加機能を提供することもできる）インターフェースであり得るメモリモジュール１３５へのインターフェースは、構成可能性をイネーブルすることができる。

図１Ｇの実施形態のビルディングブロックは、（前述したように）、ＦＰＧＡやＡＳＩＣ上に実装されたＣＸＬコントローラ１３７を含むことができ、メモリ装置（例えば、メモリモジュール１３５）、ＳＳＤ、アクセラレータ（ＧＰＵs、ＮＩＣｓ）、ＣＸＬ及びＰＣＩｅ５コネクタ、並びにファームウェアの集合を可能にして、装置の詳細をＨＭＡＴ（heterogeneous memory attribute table）又はＳＲＡＴ（static resource affinity table）のような、運用システムのＡＣＰＩ（advanced configuration and power interface）テーブルに露出させる。

いくつかの実施形態では、前記システムは、構成可能性（composability）を提供する。前記システムは、ソフトウェアの構成に基づいてオンライン及びオフラインと、ＣＸＬ装置及びその他アクセラレータに能力（ability）を提供することができ、アクセラレータ、メモリ、ストレージ装置のリソースをグループ化し、それらをラックの各メモリサーバー１５０に割り当てることができる。前記システムは、物理アドレス空間を隠してＨＢＭ及びＳＲＡＭのような、より高速な装置を使用して透明なキャッシュを提供することができる。

図１Ｇの実施形態で、改善された機能のＣＸＬスイッチ１３０のコントローラ１３７は、（ｉ）メモリモジュール１３５を管理し、（ｉｉ）ＮＩＣｓ、ＳＳＤｓ、ＧＰＵs、ＤＲＡＭのような異種の装置を統合及び制御し、（ｉｉｉ）パワーゲーティングによりメモリ装置に対するストレージの動的再構成をもたらすことができる。たとえば、ＴｏＲサーバーリンクスイッチ１１２（機能拡張ＣＸＬスイッチ１３０にメモリモジュール１３５に対する電力をディセーブルするように指示することにより）は、メモリモジュール１３５のうち、いずれか１つに対する電力をディセーブル（つまり、電力遮断又は電力減少）する。それから、向上された機能のＣＸＬスイッチ１３０は指示を受けたとき、メモリモジュールに対する電力をディセーブルするために、サーバーリンクスイッチ１１２によってメモリモジュール１３５に対する電力をディセーブルすることができる。このようなディセーブルは、電力を保存することができ、メモリサーバー１５０において他のメモリモジュール１３５の性能（例えば、スループット及びレイテンシ）を向上させることができる。各リモートサーバー１０５は、交渉に基づくメモリモジュール１３５とこれらの連結の異なる論理的な観点を見ることができる。改善された機能のＣＸＬスイッチ１３０のコントローラ１３７は、各リモートサーバーが、割り当てられたリソースと連結を維持するように状態を維持することができ、メモリ容量を（設定可能なチャンク（chunk）サイズを使用して）節約するために、メモリの圧縮又は重複排除（deduplication）を遂行することができる。図１Ｇの集合していないラックは、独自のＢＭＣを有し得る。また、図１Ｇのセットされていないラックは、ＩＰＭＩネットワークインターフェースと、システムイベントログ（ＳＥＬ）をリモート装置に露出して、マスター（例えば、メモリサーバー１５０によって提供されるストレージを使用するリモートサーバー）が性能及び信頼性を状況に応じて測定し、集合していないラップを再構成することができるようにする。図１Ｇの集合していないラックは、例えば、コヒーレンスは、同じメモリアドレスに対してリード(read)又はライト(write)する１つ以上のリモートサーバーで提供され、各リモートサーバーが異なる一貫性のレベルで構成され、図１Ｅの実施形態について本明細書で説明されたものと類似した方法で信頼性、複製、一貫性、システムコヒーレンス、ハッシング、キャッシング、及び持続性を提供することができる。いくつかの実施形態で、サーバーリンクスイッチは、第１メモリサーバーに格納されたデータと第２メモリサーバーに格納されたデータとの間の最終的な一貫性を維持する。サーバーリンクスイッチ１１２は、異なるペアのサーバーに対して異なる一貫性のレベルを維持することができ、例えば、サーバーリンクスイッチはまた、第１メモリサーバーに格納されたデータと第３のメモリサーバーに格納されたデータとの間で厳しい一貫性、順次的一貫性、因果的一貫性又はプロセッサの一貫性である一貫性のレベルを維持することができる。前記システムは、「ローカルバンド」（サーバーリンクスイッチ１１２）と「グローバルバンド」（集合していないサーバー）のドメインにおいて通信を採用することができる。ライト(write)は、他のサーバーから新しいリード(read)に対して可視的になるように、「グローバルバンド」にフラッシュ（flush）することができる。改善された機能のＣＸＬスイッチ１３０のコントローラ１３７は、永続性ドメインを管理し、各リモートサーバーに対して個別にフラッシュすることができる。たとえば、キャッシュコヒーレントスイッチは、メモリ（揮発性メモリ、キャッシュとして動作）の第１領域のフルネス（fullness）をモニタリングすることができ、フルネスレベルがしきい値を超えると、キャッシュコヒーレントスイッチが、メモリの第１領域からメモリの第２領域に移動することができ、メモリの第２領域は永続性メモリに位置する。フロー制御は、リモートサーバーのうち、向上された機能のＣＸＬスイッチ１３０のコントローラ１３７によって優先順位が設定されて、異なる認知されたレイテンシと帯域幅を提供することができるという点で取り扱われる。

本発明の一実施形態によると、キャッシュコヒーレントスイッチ及び第１メモリモジュールを含む第１メモリサーバー、第２メモリサーバー、並びに前記第１メモリサーバー及び第２メモリサーバーに連結されたサーバーリンクスイッチを含み、前記第１メモリモジュールは前記キャッシュコヒーレントスイッチに連結され、前記キャッシュコヒーレントスイッチは前記サーバーリンクスイッチに連結される。いくつかの実施形態では、前記サーバーリンクスイッチは、第１メモリモジュールに対する電力をディセーブルするように構成される。いくつかの実施形態で、サーバーリンクスイッチは、キャッシュ一貫性スイッチに第１メモリモジュールについての電力をディセーブルするように指示することにより、第１メモリモジュールに対する電源をディセーブルするように構成され、キャッシュコヒーレントスイッチは、第１メモリモジュールに対する電力をディセーブルするように、前記サーバーリンクスイッチによって指示されるときに、第１メモリモジュールに電力をディセーブルするように構成される。いくつかの実施形態では、キャッシュコヒーレントスイッチは、第１メモリモジュール内で重複排除を遂行するように構成される。いくつかの実施形態では、キャッシュコヒーレントスイッチはデータを圧縮し、圧縮されたデータを第１メモリモジュールに格納するように構成される。いくつかの実施形態では、サーバーリンクスイッチは第１メモリサーバーの状態をクエリ(query)するように構成される。いくつかの実施形態では、サーバーリンクスイッチは、インテリジェントなプラットフォーム管理インターフェース（ＩＰＭＩ）を介して第１メモリサーバーの状態をクエリ(query)するように構成される。いくつかの実施形態では、状態のクエリは、電力状態、ネットワークの状態及びエラーチェックの状態で構成されたグループから選択された状態をクエリすることを含む。いくつかの実施形態では、サーバーリンクスイッチは、第１メモリサーバーに向かうキャッシュリクエストをバッチするように構成される。いくつかの実施形態では、システムはサーバーリンクスイッチに連結された第３のメモリサーバーをさらに含み、前記サーバーリンクスイッチは、第１メモリサーバーに格納されたデータと第３のメモリサーバーに格納されたデータとの間で、厳格な一貫性、順次的一貫性、因果的一貫性とプロセッサの一貫性で構成されたグループから選択された一貫性のレベルを維持するように構成される。いくつかの実施形態では、前記キャッシュコヒーレントスイッチは、メモリの第１領域のフルネスをモニタリングし、データをメモリの第１領域からメモリの第２領域に移動するように構成され、前記メモリの第１領域は揮発性メモリに位置し、前記メモリの第２領域は、永続性メモリに位置する。いくつかの実施形態で、サーバーリンクスイッチはＰＣＩｅ（Peripheral Component Interconnect Express）スイッチを含む。いくつかの実施形態で、サーバーリンクスイッチはＣＸＬ（Compute Express Link）スイッチを含む。いくつかの実施形態で、サーバーリンクスイッチはＴｏＲ（Top of rack）ＣＸＬスイッチを含む。いくつかの実施形態で、サーバーリンクスイッチは、第２メモリサーバーから第１メモリサーバーにデータを送信し、データに対するフロー制御を遂行するように構成される。いくつかの実施形態で、システムは、サーバーリンクスイッチに連結された第３メモリサーバーをさらに含み、サーバーリンクスイッチは、第２メモリサーバーから第１パケットを受信し、第３のメモリサーバーから第２パケットを受信し、第１パケット及び第２パケットを第１メモリサーバーに送信する。本発明の一実施形態によると、コンピューティングシステムでは、リモートダイレクトメモリアクセスを遂行する方法であって、前記コンピューティングシステムは、第１メモリサーバー、第１サーバー、第２サーバー、並びに前記第１メモリサーバー、前記第１サーバー、及び前記第２サーバーに連結されたサーバーリンクスイッチを含み、前記第１メモリサーバーはキャッシュコヒーレントスイッチ及び第１メモリモジュールを含む前記第１サーバーは、格納されたプログラムの処理回路を含み、前記第２サーバーは、格納されたプログラムの処理回路を含む前記方法は、前記サーバーリンクスイッチにより前記第１サーバーから第１パケットを受信する段階と、前記サーバーリンクスイッチにより前記第２サーバーから第２パケットを受信する段階と、前記第１パケット及び前記第２パケットを前記第１メモリサーバーに送信する段階と、を備える。いくつかの実施形態で、前記方法は、前記キャッシュコヒーレントスイッチによってデータを圧縮する段階と、前記データを前記第１メモリモジュールに格納する段階と、をさらに備える。いくつかの実施形態で、前記方法は、前記サーバーリンクスイッチにより前記第１メモリサーバーの状態をクエリ(query)する段階と、をさらに備える。本発明の一実施形態によると、キャッシュコヒーレントスイッチ及び第１メモリモジュールを含む第１メモリサーバー、第２メモリサーバー、並びに前記第１メモリサーバー及び第２メモリサーバーに連結されたサーバーリンクスイッチング手段を含み、前記第１メモリモジュールは前記キャッシュコヒーレントスイッチに連結され、前記キャッシュコヒーレントスイッチは前記サーバーリンクスイッチング手段に連結される。

図２Ａ〜図２Ｄは、多様な実施形態に対するフローチャートである。これらのフローチャートの実施形態で、処理回路１１５はＣＰＵであり、他の実施形態で、処理回路１１５は他の処理回路（例えば、ＧＰＵ）であり得る。図２Ａを参照すると、図１Ａ及び図１Ｂの実施形態のメモリモジュール１３５のコントローラ１３７、又は図１Ｃ〜図１Ｇの実施形態のうち、いずれか１つの向上された機能のＣＸＬスイッチ１３０は処理回路１１５にわたって仮想化し、他のサーバー１０５の向上された機能のＣＸＬスイッチ１３０に対するＲＤＭＡリクエストを開始し、どのサーバー（仮想化は、改善された機能のＣＸＬのスイッチ１３０のコントローラ１３７によって扱われる）においても処理回路１１５を関与させずにサーバー１０５間でデータを前後に移動させる。例えば、２０５で、メモリモジュール１３５のコントローラ１３７又は向上された機能のＣＸＬスイッチ１３０は、追加のリモートメモリ（例えば、ＣＸＬメモリ又は集合したメモリ）に対するＲＤＭＡリクエストを生成する。２１０で、ネットワークインターフェース回路１２５は、処理回路をバイパスすることにより（ＲＤＭＡインターフェースを有し得る）ＴｏＲイーサネットスイッチ１１０にリクエストを送信する。２１５で、ＴｏＲイーサネットスイッチ１１０は、リモート処理回路１１５をバイパスすることにより、リモートの集合したメモリへのＲＤＭＡアクセスを介して、メモリモジュール１３５のコントローラ１３７又はリモートの向上された機能のＣＸＬスイッチ１３０による処理のためにＲＤＭＡリクエストをリモートサーバー１０５にルーティングする。２２０で、ＴｏＲイーサネットスイッチ１１０は処理されたデータを受信し、前記データをＲＤＭＡを介してローカル処理回路１１５をバイパスして、ローカルメモリモジュール１３５又はローカル向上された機能のＣＸＬスイッチ１３０にルーティングする。２２２で、図１Ａ及び図１Ｂの実施形態のメモリモジュール１３５のコントローラ１３７又は向上された機能のＣＸＬスイッチ１３０は、ＲＤＭＡ応答を直接に受信する（例えば、処理回路１１５によって転送されずに）。

このような実施形態では、リモートメモリモジュール１３５のコントローラ１３７又はリモートサーバー１０５の向上された機能のＣＸＬスイッチ１３０は、ストレートリモートダイレクトメモリアクセス（ＲＤＭＡ）リクエストを受信し、ストレートＲＤＭＡ応答を送信するように構成される。本明細書で使用されているように、「ストレートＲＤＭＡリクエスト」を受信するリモートメモリモジュール１３５のコントローラ１３７又は「ストレートＲＤＭＡリクエスト」を受信する（又は、このようなリクエストを「ストレートに「受信する）のは、リモートメモリモジュールのコントローラ１３７によって、又は改善された機能のＣＸＬスイッチ１３０によってリモートサーバーの処理回路１１５によって伝達されるか、又はそうでなければ処理されず、このようなリクエストを受信するのを意味し、リモートメモリモジュールのコントローラ１３７によって、又は改善された機能のＣＸＬスイッチ１３０によって「ストレートＲＤＭＡ応答」を送信するのは（又は、そのようなリクエストを「ストレートに」転送するのは）リモートサーバーの処理回路１１５によって伝達されるか、又はそうではない場合には処理されず、このような応答を送信するのを意味する。

図２Ｂを参照すると、他の実施形態で、ＲＤＭＡは、リモートサーバーの処理回路がデータの取り扱いに関与しながら遂行される。例えば、２２５で、処理回路１１５はイーサネット上でのデータやワークロードのリクエストを送信する。２３０で、ＴｏＲイーサネットスイッチ１１０はリクエストを受信し、前記リクエストを複数のサーバー１０５のうち、対応するサーバー１０５にルーティングすることができる。２３５において、前記リクエストは、ネットワークインターフェース回路１２５（例えば、１００ＧｂＥイネーブルされたＮＩＣ）のポート上でサーバー内で受信されることがある。２４０で、処理回路１１５（例えば、ｘ８６処理回路）は、ネットワークインターフェース回路１２５からリクエストを受信することができる。２４５で、処理回路１１５は、メモリ（図１Ａ及び図１Ｂの実施形態では集合したメモリの可能性あり）を共有するためにＣＸＬ２.０プロトコルを通じてＤＤＲ及び追加のメモリリソースを使用してリクエストを（例えば、共に）処理することができる。

図２Ｃを参照すると、図１Ｅの実施形態で、ＲＤＭＡは、リモートサーバーの処理回路がデータの取り扱いに関与しながら行われる。例えば、２２５で、処理回路１１５は、イーサネット又はＰＣＩｅ上でデータやワークロードリクエストを送信する。２３０で、ＴｏＲイーサネットスイッチ１１０はリクエストを受信し、前記リクエストを複数のサーバー１０５のうち、対応するサーバー１０５にルーティングすることができる。２３５において、前記リクエストはＰＣＩｅコネクタのポートを介してサーバー内で受信されることがある。２４０で、処理回路１１５（例えば、ｘ８６処理回路）は、ネットワークインターフェース回路１２５からのリクエストを受信することができる。２４５で、処理回路１１５はメモリ（図１Ａ及び図１Ｂの実施形態では集合したメモリの可能性あり）を共有するために、ＣＸＬ２.０プロトコルを通じてＤＤＲ及び追加のメモリのリソースを使用してリクエストを（例えば、共に）処理することができる。２５０で、処理回路１１５は、他のサーバーからのメモリの内容（例えば、ＤＤＲ又はされたメモリの内容）にアクセスするための要件を識別することができる。２５２で、処理回路１１５は、ＣＸＬプロトコル（例えば、ＣＸＬ１.１又はＣＸＬ２.０）を通じて他のサーバーから前記メモリの内容（例えば、ＤＤＲ又は集合したメモリの内容）に対するリクエストを送信することができる。２５４で、前記リクエストは、ローカルＰＣＩｅコネクタを介してサーバーリンクスイッチ１１２に転送され、それから、前記サーバーリンクスイッチ１１２は、リクエストをラック上で第２サーバーの第２ＰＣＩｅコネクタに送信する。２５６で、第２処理回路１１５（例えば、ｘ８６処理回路）は、第２ＰＣＩｅコネクタからリクエストを受信する。２５８で、第２処理回路１１５は、集合したメモリを共有するために、ＣＸＬ２.０プロトコルを通じて第２ＤＤＲ及び第２追加のメモリリソースを使用して、前記リクエスト（例えば、メモリの内容の検索）を共に処理することができる。２６０で、第２処理回路（例えば、ｘ８６処理回路）は、リクエストの結果を各々のＰＣＩｅコネクタ及びサーバーリンクスイッチ１１２を介して、元の処理回路に再び送信する。

図２Ｄを参照すると、図１Ｇの実施形態で、ＲＤＭＡは、例えば、データの取り扱いに関与するリモートサーバーの処理回路で遂行されることがある。２２５で、処理回路１１５は、イーサネット上でデータやワークロードのリクエストを送信する。２３０で、ＴｏＲイーサネットスイッチ１１０は、前記リクエストを受信して前記リクエストを複数のサーバー１０５のうち、対応するサーバー１０５にルーティングすることができる。２３５において、前記リクエストは、ネットワークインターフェース回路１２５（例えば、１００ＧｂＥイネーブルされたＮＩＣ）のポートを介してサーバー内で受信されることがある。２６２で、メモリモジュール１３５は、ＰＣＩｅコネクタから前記リクエストを受信する。２６４で、メモリモジュール１３５のコントローラは、ローカルメモリを使用してリクエストを処理する。２５０で、メモリモジュール１３５のコントローラは、他のサーバーからメモリの内容（例えば、集合したメモリの内容）にアクセスするための要件を識別する。２５２で、メモリモジュール１３５のコントローラは、ＣＸＬプロトコルを通じて他のサーバーから前記メモリの内容（例えば、集合したメモリの内容）に対するリクエストを送信する。２５４で、前記リクエストは、ローカルＰＣＩｅコネクタを介してサーバーリンクスイッチ１１２に転送され、その次のサーバーリンクスイッチ１１２が前記リクエストをラック上の第２サーバーの第２ＰＣＩｅコネクタに転送する。２６６で、第２ＰＣＩｅコネクタは、メモリモジュール１３５のコントローラがメモリの内容を検索することができるように集合したメモリを共有するために、ＣＸＬプロトコルを通じてアクセスを提供する。

本明細書で使用されているように、「サーバー」は、少なくとも一つの格納されたプログラム処理回路（例えば、処理回路１１５）、少なくとも一つのメモリリソース（資源）（例えば、システムメモリ１２０）、及びネットワーク連結（例えば、ネットワークインターフェース回路１２５）を提供するための少なくとも一つの回路を含むコンピューティングシステムである。本明細書で使用されているように、「〜の一部」は、事物の「少なくとも一部」を意味し、したがって事物の全部又は全部より少ないことを意味することができる。このように、事物の「一部」は、事物全体を特別な場合として含んでおり、すなわち、事物全体が事物の一部に対する一例である。

明細書の背景のセクションで提供されている背景テクノロジーは、コンテキストを設定するためにだけ含まれており、この背景のセクションの内容は、従来のテクノロジーであることを認めていない。説明された任意の構成要素又は構成要素の任意の組み合わせ（例えば、ここに含まれている任意のシステムダイヤグラムで）は、ここに含まれている任意のフローチャートの動作のうち、いずれか１つ以上を遂行するために使用される。なお、（ｉ）前記動作は、例としての動作であり、明示的にカバーされていない多様な追加の段階を含むことができ、そして（ｉｉ）前記動作の時間的順序は変更されることがある。

本明細書では、用語の「処理回路」又は「コントローラ手段」は、データ又はデジタル信号を処理するために採用されるハードウェア、ファームウェア、及びソフトウェアの任意の組み合わせを意味するのに使用される。処理回路のハードウェアには、例えば、特定用途向け集積回路（ＡＳＩＣ）、汎用又は特殊目的の中央処理装置（ＣＰＵ）、デジタル信号プロセッサ（ＤＳＰ）、グラフィックス処理ユニット（ＧＰＵ）及びフィールドプログラマブルゲートアレイ（ＦＰＧＡ）のようなプログラマブルロジック装置を含み得る。処理回路では、本明細書で使用されるように、各機能は、その機能を遂行するように構成された、すなわち、ハードワイヤされた（hard-wired）ハードウェアによって、又は非一時的記憶媒体に格納されたコマンドを遂行するように構成されたＣＰＵのような、より汎用のハードウェアによって遂行される。処理回路は、単一のプリント回路基板（ＰＣＢ）上で製作されるか、又は多数の相互連結されたＰＣＢの上で分散されることがある。処理回路は、他の処理回路を含み、例えば、処理回路は、ＰＣＢ上の相互連結された二つの処理回路、すなわち、ＦＰＧＡ及びＣＰＵを含み得る。

本明細書で使用されているように、「コントローラ」は回路を含み、コントローラはまた「制御回路」又は「コントローラ回路」と称されることがある。同様に、「メモリモジュール」は、「メモリモジュールの回路」又は「メモリ回路」と称されることがある。本明細書で使用されているように、用語の「アレイ」は、格納方法（例えば、連続したメモリ位置に格納されているか、又はリンクされたリストに格納されているかの可否）に関係なく、順序が指定された一連の数字を意味する。ここでは、第２数字が第１数字の「Ｙ％以内」である場合、前記第２数字は、前記第１数の最小（１−Ｙ/１００）倍で、前記第２数字は、前記第１数字の最大（１＋Ｙ/１００）倍である。ここで使用される用語の「又は」は「及び/又は」として解釈されるべきであり、例えば、「Ａ又はＢ」は、「Ａ」、「Ｂ」又は「Ａ及びＢ」のいずれか１つを意味する。

本明細書で使用されているように、方法（例えば、調整）又は第１数量（例えば、第１変数）が第２数量（例えば、第２変数）に「基づく」と言及されるとき、これは、第２数量が入力又は第１数量に影響を与えるようになり、例えば、第２数量は、第１数量を計算する関数への入力（例えば、唯一の入力又は１つ以上の入力のいずれか１つ）であるか、第１数量は第２数量と同じ値を有するか、又は第２数量と同じであり得る（例えば、メモリ内の同じ位置又は位置に格納される）。

たとえ用語の「第１」、「第２」、「第３」などが、本明細書で、多様な素子、構成要素、領域、レイヤー及び/又はセクションを説明するために使用されることがあり、これらの素子、構成要素、領域、レイヤー及び/又はセクションはこれらの用語に限定されないことが理解されるだろう。これらの用語は一つの素子、構成要素、領域、レイヤー又はセクションを他の素子、構成要素、領域、レイヤー又はセクションと区別するためにのみ使用される。したがって、本明細書に記載された第１素子、構成要素、領域、レイヤー又はセクションは、本発明の概念の技術的思想と範囲を逸脱することなく、第２素子、構成要素、領域、レイヤー又はセクションと称される。

「すぐ下（beneath）」、「下（below）」、「下部（lower）」、「下に（under）」、「上に（above）」、「上部（upper）」などのような空間的に相対的な用語は、説明の便宜のために、図面に示されたような一つの素子又は特徴が他の素子又は特徴に対して有する関係を説明するために使用される。そのような空間的に相対的な用語は、図面に示された方向に加えて、使用又は動作中の装置の異なる方向を含むように意図されたものであることを理解するだろう。たとえば、図面の装置がひっくり返された場合は、他の素子又は特徴の「すぐ下」、「下」又は「真下に」として説明された素子は、前記他の素子又は特徴の「上部」に向かうことになる。したがって、例としての用語の「下」と「下部」は、上部と下部の方向の両方を含み得る。装置は、他の方向に配置されることがあり、（例えば、９０度回転するか、又は他の方向に）ここで使用された空間的に相対的な記述用語は、それに応じて解釈されなければならない。なお、あるレイヤーが２つのレイヤーの間に存在すると述べたときに、これは、２つのレイヤーの間の唯一のレイヤーであり得るか、又は１つ以上の介在するレイヤー（intervening layers）が存在することもできると、また理解するだろう。

本明細書で使用される用語は、特定の実施形態を説明するためのものであり、本発明を限定しようとする意図ではない。本明細書で使用される用語の「実質的に」、「約」及びこれと類似した用語は、程度（degree）の用語ではなく、近似の用語として使用され、当業者によって認知される測定又は計算される値の固有の偏差を考慮するように意図されたものである。本明細書で使用されているように、単数形「ａ」及び「ａｎ」は、文脈上明らか別の意味を示していると判定されない限り、複数形も含むように意図される。本明細書で使用されるとき、「含む(comprises)」及び/又は「含んでいる(comprising)」という用語は、言及された特徴、整数、段階、動作（演算）、素子、及び/又は構成要素の存在を特定するが、１つ以上の他の特徴、整数、段階、動作（演算）、素子、構成要素、及び/又はそのグループの存在若しくは追加を排除しないということも、また理解されるだろう。本明細書で使用される用語の「及び/又は」は、１つ以上の関連付けて列挙された項目の１つ以上の任意かつすべての組み合わせを含む。「少なくとも一つの」のような表現は、素子のリストの前に記載されるときに、リスト全体の素子を変更し、リストの個々の素子を変更しない。なお、本発明の実施形態を説明するとき、「〜することができる（may）」という用語は、「本開示の１つ以上の実施形態」を表す。また、「例としての」という用語は、例又は例示を示すものとして意図される。本明細書で使用される「使用する(use)」、「使用している(using)」、「使用された(used)」という用語は、各々「活用する(utilize)」、「活用している(utilizing)」、「活用された(utilized)」という用語と同義語であると考えてよい。

素子又はレイヤーが、他の素子又はレイヤー」に「位置する」、「連結される」、「結合される」又は「隣接する」と述べられるとき、前記素子又はレイヤーが他の素子又はレイヤーに直接に位置するか、連結されるか、結合されるか、隣接するか、又は１つ以上の介在する素子又はレイヤーが存在することができる。逆に、素子又はレイヤーが他の素子又はレイヤーに「すぐ上に」、「直接連結される」、「直接結合される」又は「すぐ隣接する」と述べられるとき、介在する素子又はレイヤーが存在しない。

本明細書で引用された任意の数値範囲は、引用された範囲内に含まれている同じ数値精度のすべての下位範囲を含むように意図される。たとえば、「１.０〜１０.０」の範囲又は「１.０と１０.０との間」の範囲は、記載された最小値１.０と記載された最大値１０.０との間の（これらを含む）、すなわち１.０以上の最小値及び１０.０以下の最大値を有するすべての下位範囲、例えば、２.４〜７.６の範囲を含む。本明細書に記載された任意の最大の数値限定は、その中に含まれているすべてのより低い数値限定を含むように意図され、本明細書に記載された任意の最小の数値限定は、その中に含まれているすべてのより高い数値限定を含むように意図される。

メモリ資源（リソース）を管理するシステム及び方法に対する例としての実施形態が本明細書で具体的に説明及び例示されたが、多くの修正及び変形が当業者に明らかになるだろう。したがって、本開示の原理に基づいて構成されたメモリリソースを管理するシステム及び方法は、本明細書で具体的に説明されたものとは異なるように具現化されることがあることを理解しなければならない。本発明は、また、特許請求の範囲及びその同等物で定義される。

１０５：サーバー
１１０：ＴｏＲイーサネットスイッチ
１１５：処理回路
１２０：システムメモリ
１２５：ネットワークインターフェース回路
１３５：メモリモジュール

Claims

システムであって、
格納されたプログラム処理回路、第１ネットワークインターフェース回路、及び第１メモリモジュールを含む第１サーバーを有し、
前記第１メモリモジュールは、
第１メモリダイと、
コントローラと、を備え、
前記コントローラは、
前記第１メモリダイにメモリインターフェースを介して連結され、
前記格納されたプログラム処理回路にキャッシュコヒーレントインターフェースを介して連結され、
前記第１ネットワークインターフェース回路に連結される、
システム。
前記第１メモリモジュールは、第２メモリダイと、をさらに備え、
前記第１メモリダイは、揮発性メモリを含み、
前記第２メモリダイは永続性メモリを含む、
請求項１に記載のシステム。
前記永続性メモリは、ＮＡＮＤフラッシュを含む、
請求項２に記載のシステム。
前記コントローラは、前記永続性メモリのためのフラッシュ変換レイヤーを提供するように構成される、
請求項３に記載のシステム。
前記キャッシュコヒーレントインターフェースは、ＣＸＬ（Compute Express Link）インターフェースを含む、
請求項１−４のうちの何れか１項に記載のシステム。
前記第１サーバーは、前記第１サーバーの拡張ソケットに連結される拡張ソケットアダプタを含み、
前記拡張ソケットアダプタは、前記第１メモリモジュール、及び前記第１ネットワークインターフェース回路を含む、
請求項１−５のうちの何れか１項に記載のシステム。
前記第１メモリモジュールのコントローラは、前記拡張ソケットを介して前記格納されたプログラム処理回路に連結される、
請求項６に記載のシステム。
前記拡張ソケットは、Ｍ.２ソケットを含む、
請求項６に記載のシステム。
前記第１メモリモジュールの前記コントローラは、ピア・ツー・ピアＰＣＩｅ連結により、前記第１ネットワークインターフェース回路に連結される、
請求項６に記載のシステム。
第２サーバーと、
前記第１サーバー及び前記第２サーバーに連結されるネットワークスイッチと、をさらに備える、
請求項１−９のうちの何れか１項に記載のシステム。
前記ネットワークスイッチは、ＴｏＲ（top of rack）イーサネットスイッチを含む、
請求項１０に記載のシステム。
前記第１メモリモジュールの前記コントローラは、ＲＤＭＡリクエストを受信し、ＲＤＭＡ応答を転送するように構成される、
請求項１０に記載のシステム。
前記第１メモリモジュールの前記コントローラは、前記ネットワークスイッチを介して、そして前記第１ネットワークインターフェース回路を介してＲＤＭＡリクエストを受信し、前記ネットワークスイッチを介して、そして前記第１ネットワークインターフェース回路を介してＲＤＭＡ応答を転送するように構成される、
請求項１０に記載のシステム。
前記第１メモリモジュールの前記コントローラは、
前記第２サーバーからデータを受信し、
前記データを前記第１メモリモジュールに格納し、
キャッシュラインを無効化するコマンドを、前記格納されたプログラム処理回路に転送する、
請求項１３に記載のシステム。
前記第１メモリモジュールの前記コントローラは、ＦＰＧＡ又はＡＳＩＣを含む、
請求項１−１４のうちの何れか１項に記載のシステム。
コンピューティングシステムで、リモートダイレクトメモリアクセスを遂行する方法であって、前記コンピューティングシステムは、
第１サーバーと、第２サーバーと、を備え、
前記第１サーバーは
格納されたプログラムの処理回路、ネットワークインターフェース回路、及び
コントローラを含む第１メモリモジュールを含み、
前記方法は、
前記第１メモリモジュールの前記コントローラによってＲＤＭＡリクエストを受信する段階と、
前記第１メモリモジュールの前記コントローラによってＲＤＭＡ応答を転送する段階と、を備える、
方法。
前記コンピューティングシステムは、前記第１サーバーと前記第２サーバーに連結されるイーサネットスイッチと、をさらに備え、
前記ＲＤＭＡリクエストを受信する段階は、前記イーサネットスイッチを介して前記ＲＤＭＡリクエストを受信する段階を含む、
請求項１６に記載の方法。
前記第１メモリモジュールの前記コントローラによって、第１メモリアドレスに対するリード(read)コマンドを前記格納されたプログラム処理回路から受信する段階と、
前記第１メモリモジュールの前記コントローラによって前記第１メモリアドレスを第２メモリアドレスに変換する段階と、
前記第１メモリモジュールの前記コントローラによって前記第２メモリアドレスにおいて前記第１メモリモジュールからデータを検索する段階と、を備える、
請求項１６に記載の方法。
前記第１メモリモジュールの前記コントローラによってデータを受信する段階と、
前記第１メモリモジュールの前記コントローラにより前記データを前記第１メモリモジュールに格納する段階と、
前記第１メモリモジュールの前記コントローラによってキャッシュラインを無効化するためのコマンドを前記格納されたプログラム処理回路に転送する段階と、を備える、
請求項１６に記載の方法。
システムであって、
格納されたプログラムの処理回路、第１ネットワークインターフェース回路、及び第１メモリモジュールを含む第１サーバーを有し、
前記第１メモリモジュールは、
第１メモリダイと、
コントローラ手段と、を備え、
前記コントローラ手段は
メモリインターフェースを介して前記第１メモリダイに連結され、
前記格納されたプログラム処理回路にキャッシュコヒーレントインターフェースを介して連結され、
前記第１ネットワークインターフェース回路に連結されるシステム。