JP2023507293A

JP2023507293A - システムダイレクトメモリアクセスエンジンのオフロード

Info

Publication number: JP2023507293A
Application number: JP2022535068A
Authority: JP
Inventors: カリヤナスンダラムヴィドヒャナサン; カマットナレンドラ
Original assignee: Advanced Micro Devices Inc
Current assignee: Advanced Micro Devices Inc
Priority date: 2019-12-20
Filing date: 2020-11-19
Publication date: 2023-02-22
Also published as: US11210248B2; US20220197840A1; WO2021126460A1; EP4078388A4; KR20220113500A; US20210191890A1; EP4078388A1; CN114846455A

Abstract

ダイレクトメモリアクセス用のシステム、デバイス及び方法が提供される。プロセッサダイ上に配置されたシステムダイレクトメモリアクセス（ＳＤＭＡ）デバイスは、ソースバッファ及び宛先バッファの物理アドレス並びにデータ転送のサイズを含むメッセージをデータファブリックデバイスに送信する。データファブリックデバイスは、ソース及び宛先バッファの物理アドレス並びにデータ転送のサイズを含む命令を第１のエージェントデバイスに送信する。第１のエージェントデバイスの各々は、ソースバッファの物理アドレスにあるメモリデバイスからソースバッファの一部を読み取る。第１のエージェントデバイスの各々は、ソースバッファの一部を何れかの第２のエージェントデバイスに送信する。第２のエージェントデバイスの各々は、ソースバッファの一部を宛先バッファに書き込む。【選択図】図５

Description

（関連出願の相互参照）
本願は、２０１９年１２月２０日出願の米国特許出願第１６／７２３，７０９号の利益を主張し、その内容は、参照することによって本明細書に組み込まれる。

システムダイレクトメモリアクセス（ＳＤＭＡ）エンジンは、デバイスとメモリ間、又は、コンピュータシステム内のメモリ内の異なる位置間でのデータのダイレクトメモリアクセス（ＤＭＡ）転送を調整するデバイスである。ＳＤＭＡエンジンは、通常、グラフィックプロセッサ（ＧＰＵ）等のプロセッサ上に位置し、プロセッサ上で実行されているアプリケーションからコマンドを受信する。コマンドに基づいて、ＳＤＭＡエンジンは、ＳＤＭＡソース（例えば、メインメモリ内に定義された第１のメモリバッファ）からデータを読み取り、ＳＤＭＡ宛先（例えば、メインメモリ内に定義された第２のバッファ）にデータを書き込む。

ＳＤＭＡソースとＳＤＭＡ宛先（destination）とは、場合によっては、物理的に異なるデバイスに位置する。マルチプロセッサシステムでは、ＳＤＭＡソースとＳＤＭＡ宛先とは、場合によっては、異なるプロセッサに関連付けられた異なるデバイスに位置する。このような場合、ＳＤＭＡエンジンは、仮想アドレスを解決して物理アドレスを取得し、リモート読み取り及び／又は書き込みコマンドを発行してＤＭＡ転送を実行する。

添付の図面と併せて例として与えられる以下の説明から、より詳細な理解を得ることができる。

本開示の１つ以上の特徴を実装することができる例示的なデバイスのブロック図である。例示的なコンピューティングシステムの一部を示すブロック図である。例示的なマルチプロセッサコンピューティングシステムの一部を示すブロック図である。例示的なダイレクトメモリアクセスメッセージングを示すメッセージシーケンスチャートである。ダイレクトメモリアクセスの例示的な方法を示すフローチャートである。

いくつかの実施形態では、ダイレクトメモリアクセス用に構成されたコンピューティングシステムが提供される。システムは、プロセッサダイ上のＳＤＭＡデバイスを含む。ＳＤＭＡデバイスは、データファブリックデバイスにメッセージを送信する。メッセージには、ソースバッファの物理アドレス、宛先バッファの物理アドレス、及び、ソースバッファから宛先バッファへのデータ転送のサイズが含まれる。データファブリックデバイスは、１つ以上の命令を第１のエージェントデバイスに送信する。命令には、ソースバッファの物理アドレス、宛先バッファの物理アドレス、及び、データ転送のサイズが含まれる。第１のエージェントデバイスの各々は、ソースバッファの物理アドレスにあるメモリデバイスからソースバッファの一部を読み取る。また、第１のエージェントデバイスの各々は、ソースバッファの一部を１つの第２のエージェントデバイスに送信する。第２のエージェントデバイスの各々は、メモリコントローラを動作して、ソースバッファの一部を宛先バッファに書き込む。

いくつかの実施形態では、ＳＤＭＡデバイスは、プロセッサダイ上のプロセッサから１つ以上の命令を受信する。１つ以上の命令は、ソースバッファの仮想アドレス及び宛先バッファの仮想アドレスを示す。ＳＤＭＡデバイスは、ソースバッファの仮想アドレスをソースバッファの物理アドレスに変換する。ＳＤＭＡデバイスは、宛先バッファの仮想アドレスを宛先バッファの物理アドレスに変換する。いくつかの実施形態では、データファブリックデバイスは、データファブリックのＭＩＳＣ（miscellaneous）機能ブロックを含む。いくつかの実施形態では、エージェントデバイスは、データファブリックのコヒーレントスレーブデバイスを含む。いくつかの実施形態では、第１のエージェントデバイスがプロセッサダイ上にあり、第２のエージェントデバイスがリモートプロセッサダイ上にある。いくつかの実施形態では、第２のエージェントデバイスがプロセッサダイ上にあり、第１のエージェントデバイスがリモートプロセッサダイ上にある。いくつかの実施形態では、第１のエージェントデバイスの各々は、ソースバッファの一部を１つの第２のエージェントデバイスに送信する前に、ソースバッファの一部をローカルバッファに格納する。いくつかの実施形態では、プロセッサダイとリモートプロセッサダイとの間にコヒーレントリンクを含み、第１のエージェントデバイスは、コヒーレントリンク上で第２のエージェントデバイスと通信する。いくつかの実施形態では、第１のエージェントデバイスの各々は、メモリコントローラを動作して、ソースバッファの物理アドレスにあるメモリデバイスからソースバッファの一部を読み取る。いくつかの実施形態では、データファブリックデバイスは、１つ以上の命令を第１のエージェントデバイスにブロードキャスト（一斉送信）する。

いくつかの実施形態は、ダイレクトメモリアクセスのための方法を提供する。方法は、プロセッサダイ上に配置されたシステムダイレクトメモリアクセス（ＳＤＭＡ）デバイスからデータファブリックデバイスにメッセージを送信することを含む。メッセージには、ソースバッファの物理アドレス、宛先バッファの物理アドレス、及び、ソースバッファから宛先バッファへのデータ転送のサイズが含まれる。また、方法は、１つ以上の命令をデータファブリックデバイスにより第１のエージェントデバイスに送信することを含む。１つ以上の命令には、ソースバッファの物理アドレス、宛先バッファの物理アドレス、及び、データ転送のサイズが含まれる。また、方法は、ソースバッファの物理アドレスにあるメモリデバイスからソースバッファの一部を読み取る第１のエージェントデバイスの各々を含む。また、方法は、ソースバッファの一部を１つの第２のエージェントデバイスに送信する第１のエージェントデバイスの各々を含む。また、方法は、ソースバッファの一部を宛先バッファに書き込む第２のエージェントデバイスの各々を含む。

いくつかの実施形態は、プロセッサダイのプロセッサから１つ以上の命令を受信するＳＤＭＡデバイスを含む。命令は、ソースバッファの仮想アドレス及び宛先バッファの仮想アドレスを示す。いくつかの実施形態では、ソースバッファの仮想アドレスをソースバッファの物理アドレスに変換するＳＤＭＡデバイスを含む。いくつかの実施形態では、宛先バッファの仮想アドレスを宛先バッファの物理アドレスに変換するＳＤＭＡデバイスを含む。いくつかの実施形態では、データファブリックデバイスは、データファブリックのＭＩＳＣ（miscellaneous）機能ブロックを含む。いくつかの実施形態では、エージェントデバイスは、データファブリックのコヒーレントスレーブデバイスを含む。いくつかの実施形態では、第１のエージェントデバイスがプロセッサダイ上にあり、第２のエージェントデバイスがリモートプロセッサダイ上にある。いくつかの実施形態では、第２のエージェントデバイスがプロセッサダイ上にあり、第１のエージェントデバイスがリモートプロセッサダイ上にある。いくつかの実施形態では、ソースバッファの一部を１つの第２のエージェントデバイスに送信する前に、ソースバッファの一部をローカルバッファに格納する第１のエージェントデバイスの各々を含む。いくつかの実施形態は、プロセッサダイとリモートプロセッサダイとの間のコヒーレントリンク上で第２のエージェントデバイスと通信する第１のエージェントデバイスを含む。いくつかの実施形態では、メモリコントローラを動作して、ソースバッファの物理アドレスにあるメモリデバイスからソースバッファの一部を読み取る第１のエージェントデバイスの各々を含む。いくつかの実施形態では、１つ以上の命令を第１のエージェントデバイスにブロードキャストするデータファブリックデバイスを含む。

図１は、開示の１つ以上の特徴を実装することができる例示的なデバイス１００のブロック図である。デバイス１００は、例えば、コンピュータ、ゲーミングデバイス、ハンドヘルドデバイス、セットトップボックス、テレビ、携帯電話、又は、タブレットコンピュータを含み得る。デバイス１００は、プロセッサ１０２と、メモリ１０４と、ストレージ１０６と、１つ以上の入力デバイス１０８と、１つ以上の出力デバイス１１０と、を含む。また、デバイス１００は、オプションで、入力ドライバ１１２及び出力ドライバ１１４を含み得る。デバイス１００は、図１に示されていない追加の構成要素を含むことができることを理解されたい。

様々な代替例では、プロセッサ１０２は、中央処理装置（ＣＰＵ）、グラフィックスプロセシングユニット（ＧＰＵ）、同一のダイ上に位置するＣＰＵ及びＧＰＵ、又は、１つ以上のプロセッサコアを含み、各プロセッサコアはＣＰＵ又はＧＰＵであってもよい。様々な代替例では、メモリ１０４は、プロセッサ１０２と同一のダイ上に位置してもよいし、プロセッサ１０２とは別に位置してもよい。メモリ１０４は、揮発性又は不揮発性のメモリ（例えば、ランダムアクセスメモリ（ＲＡＭ）、ダイナミックＲＡＭ、キャッシュ）を含む。

ストレージ１０６は、固定式ストレージ又はリムーバブルストレージ（例えば、ハードディスクドライブ、ソリッドステートドライブ、光ディスク、フラッシュドライブ）を含む。入力デバイス１０８は、キーボード、キーパッド、タッチスクリーン、タッチパッド、検出器、マイクロフォン、加速度計、ジャイロスコープ、バイオメトリックススキャナ、又は、ネットワーク接続（例えば、無線ＩＥＥＥ８０２信号の送信及び／若しくは受信のための無線ローカルエリアネットワークカード）を含むが、これらに限定されない。出力デバイス１１０は、ディスプレイ、スピーカ、プリンタ、触覚フィードバックデバイス、１つ以上のライト、アンテナ、又は、ネットワーク接続（例えば、無線ＩＥＥＥ８０２信号の送信及び／若しくは受信のための無線ローカルエリアネットワークカード）を含むが、これらに限定されない。

入力ドライバ１１２は、プロセッサ１０２及び入力デバイス１０８と通信し、プロセッサ１０２が入力デバイス１０８から入力を受信することを可能にする。出力ドライバ１１４は、プロセッサ１０２及び出力デバイス１１０と通信し、プロセッサ１０２が出力デバイス１１０に出力を送信することを可能にする。入力ドライバ１１２及び出力ドライバ１１４がオプションのコンポーネントであることと、入力ドライバ１１２及び出力ドライバ１１４が存在しない場合にはデバイス１００が同様に動作することと、に留意されたい。出力ドライバ１１４は、表示デバイス１１８に結合されたアクセラレーテッド処理デバイス（ＡＰＤ）１１６を含む。ＡＰＤは、プロセッサ１０２から計算コマンド及びグラフィックスレンダリングコマンドを受け入れ、それらの計算コマンド及びグラフィックスレンダリングコマンドを処理し、表示のために表示デバイス１１８にピクセル出力を提供する。以下にさらに詳細に説明するように、ＡＰＤ１１６は、単一命令複数データ（ＳＩＭＤ）パラダイムに従って計算を実行する１つ以上の並列処理ユニットを含む。次のように、本明細書では、様々な機能がＡＰＤ１１６によって又はＡＰＤ１１６と協働して実行されるものとして説明しているが、様々な代替形態では、このＡＰＤ１１６によって実行されるものとして説明する機能が、ホストプロセッサ（例えば、プロセッサ１０２）によって駆動されない、表示デバイス１１８にグラフィック出力を提供する同様の性能を有する他のコンピューティングデバイスによって追加的又は代替的に実行される。例えば、ＳＩＭＤパラダイムに従って処理タスクを実行する任意の処理システムが、本明細書で説明する機能を実行し得ることが企図されている。代替として、ＳＩＭＤパラダイムに従って処理タスクを行わないコンピューティングシステムが本明細書で説明する機能を行うことが想到される。

図２は、例示的なコンピューティングシステム２００の一部を示すブロック図である。いくつかの例では、コンピューティングシステム２００は、図１に関して示され、説明されるように、デバイス１００の一部又は全部を使用して実装される。コンピューティングシステム２００は、第１の半導体ダイ２０５を含む。半導体ダイ２０５は、１つ以上のプロセッサ２１０Ａ～２１０Ｎと、入力／出力（Ｉ／Ｏ）インターフェース２２０と、相互接続２３０と、メモリコントローラ（複数可）２４０と、ネットワークインターフェース２５０と、を含む。他の例では、コンピューティングシステム２００は、さらなる構成要素、異なる構成要素を含み、及び／又は、異なる方法で構成される。

いくつかの実施形態では、プロセッサ２１０Ａ～２１０Ｎの各々は、１つ以上の処理デバイスを含む。この例では、プロセッサ２１０Ａ～２１０Ｎのうち少なくとも１つは、ＣＰＵ等の１つ以上の汎用処理デバイスを含む。いくつかの実施形態では、そのような処理デバイスは、図１に関して示され、説明されるようにプロセッサ１０２を使用して実装される。この例では、プロセッサ２１０Ａ～２１０Ｎのうち少なくとも１つは、１つ以上のデータ並列プロセッサを含む。データ並列プロセッサの例として、ＧＰＵ、デジタルシグナルプロセッサ（ＤＳＰ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）等が挙げられる。いくつかの実施形態では、そのような処理デバイスは、図１に関して示され、説明されるように、ＡＰＤ１１６を使用して実装される。

いくつかの実施形態では、各プロセッサは、１つ以上のレベルのキャッシュを備えたキャッシュサブシステムを含む。いくつかの実施形態では、各コアコンプレックス２１０Ａ～２１０Ｎは、複数のプロセッサコア間で共有されるキャッシュ（例えば、レベル３（Ｌ３）キャッシュ）を含む。

メモリコントローラ２４０は、例えば、相互接続２３０を介して、コア複合体２１０Ａ～２１０Ｎによってアクセス可能な少なくとも１つのメモリコントローラを含む。メモリコントローラ２４０は、任意の適切なタイプのメモリコントローラのうち１つ以上を含む。メモリコントローラの各々は、任意の数及びタイプのメモリデバイス（図示省略）に結合され（又は他の方法で通信して）、アクセスを制御する。いくつかの実施形態では、こうしたメモリデバイスには、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、ＮＡＮＤフラッシュメモリ、ＮＯＲフラッシュメモリ、強誘電体ランダムアクセスメモリ（ＦｅＲＡＭ）、及び／又は、他の適切なメモリデバイスが挙げられる。相互接続２３０は、バス、データファブリック等のように、図２に示すデバイス間の通信に適した任意のコンピュータ通信媒体を含む。

Ｉ／Ｏインターフェース２２０は、１つ以上のＩ／Ｏインターフェース（例えば、ペリフェラルコンポーネントインターコネクト（ＰＣＩ）バス、ＰＣＩエクステンデッド（ＰＣＩ－Ｘ）、ＰＣＩＥ（ＰＣＩＥｘｐｒｅｓｓ）バス、ギガビットイーサネット（登録商標）（ＧＢＥ）バス、ユニバーサルシリアルバス（ＵＳＢ）等）を含む。いくつかの実施形態では、Ｉ／Ｏインターフェース２２０は、図１に関して示され、説明されるように、入力ドライバ１１２及び／又は出力ドライバ１１４を使用して実装される。様々なタイプの周辺機器は、Ｉ／Ｏインターフェース２２０に結合され得る。そのような周辺デバイスには、ディスプレイ、キーボード、マウス、プリンタ、スキャナ、ジョイスティック又は他のタイプのゲームコントローラ、メディア記録デバイス、外部ストレージデバイス、ネットワークインターフェースカード等が含まれる（ただし、これらに限定されない）。いくつかの実施形態では、こうした周辺デバイスは、図１に関して示され、説明されるように、入力デバイス１０８及び／又は出力デバイス１１０を使用して実装される。

図３は、例示的なマルチプロセッサコンピューティングシステム３００の一部を示すブロック図である。システム３００又はその一部は、半導体ダイ２０５（図２に関して示され、説明されるように）及び／又はデバイス１００（図１及び２に関して示され、説明されるように）の一部又は全部を使用して実装可能である。

システム３００は、相互接続３３０を介して（例えば、他の構成要素を介して）プロセッサ３１０Ａ～３１０Ｎと通信する１つ以上のプロセッサ３１０Ａ～３１０Ｎ及び１つ以上のメモリコントローラ３４０Ａ～３４０Ｎを含む。いくつかの例では、プロセッサ３１０Ａ～３１０Ｎは、コヒーレントマスター３１５Ａ～３１５Ｎを介して相互接続３３０に結合され、メモリコントローラ３４０Ａ～３４０Ｎは、コヒーレントスレーブ３４５Ａ～３４５Ｎを介して相互接続３３０に結合される。相互接続３３０、コヒーレントマスター３１５Ａ～３１５Ｎ及びコヒーレントスレーブ３４５Ａ～３４５Ｎは、システム３００の構成要素間の通信を容易にするデータファブリックの一部を形成する。

システム３００は、この例では半導体ダイ０及び半導体ダイ１を含み、コヒーレントリンク３５０は、相互接続３３０及びＩ／Ｏインターフェース３６０Ａ～３６０Ｂ（これもデータファブリックの一部を形成する）を介して両方のダイにわたってデータファブリックを拡張する。相互接続３３０は、バス、データファブリック等のように、図３に示すデバイス間の通信に適した任意のコンピュータ通信媒体を含む。プロセッサ３１０Ａ～３１０Ｎの各々は、１つ以上のプロセッサコア（例えば、図２に関して説明したように、ＣＰＵ及び／又はＧＰＵ）を含む。プロセッサ３１０Ａ～３１０Ｎの各々は、対応するＳＤＭＡエンジン３７０Ａ～３７０Ｎも含む。

各プロセッサ３１０Ａ～３１０Ｎは、対応するコヒーレントマスター３１５Ａ～３１５Ｎと通信する。いくつかの実施形態では、コヒーレントマスターは、相互接続（例えば、相互接続３３０）上を流れるトラフィックを処理し、接続されたＣＰＵ又はコアコンプレックスのコヒーレンシを管理するエージェントである。いくつかの実施形態では、コヒーレンシを管理するために、コヒーレントマスターは、コヒーレンシ関連のメッセージ及びプローブを受信及び処理し、コヒーレンシ関連の要求及びプローブを生成及び送信する。

各プロセッサ３１０Ａ～３１０Ｎは、対応するコヒーレントマスター３１５Ａ～３１５Ｎを介して、及び、相互接続３３０を介して、１つ以上のコヒーレントスレーブ３４５Ａ～３４５Ｎと通信する。コヒーレントスレーブは、メモリコントローラ（例えば、コヒーレントスレーブに接続されたメモリコントローラ）のコヒーレンシを管理するエージェントデバイスである。いくつかの実施形態では、コヒーレンシを管理するために、コヒーレントスレーブは、対応するメモリコントローラを対象とする要求及びプローブを受信及び処理する。

プロセッサ３１０Ａは、図３の例では、コヒーレントマスター３１５Ａ及び相互接続３３０を介してコヒーレントスレーブ３４５Ａと通信する。コヒーレントスレーブ（ＣＳ）３４５Ａは、メモリデバイス（例えば、メインメモリＤＲＡＭデバイス）を制御するメモリコントローラ（ＭＣ）３４０Ａと通信する。いくつかの実施形態では、各プロセッサ３１０Ａ～３１０Ｎは、対応するコヒーレントマスター３１５Ａ～３１５Ｎ及び対応するコヒーレントスレーブ３４０Ａ～３４０Ｎを介して、任意の適切な数のメモリコントローラ３４０Ａ～３４０Ｎと通信する。

プローブには、コヒーレンシポイント（例えば、コヒーレントスレーブ）からコンピュータシステム内の１つ以上のキャッシュに渡されるメッセージが含まれ、キャッシュにデータブロックのコピーがあるかどうかを示す応答を要求し、いくつかの実施形態では、キャッシュがデータのブロックを配置するキャッシュ状態を示す。いくつかの実施形態では、コヒーレントスレーブがその対応するメモリコントローラを対象とするメモリ要求を受信する場合（例えば、コヒーレントスレーブがコヒーレンシを管理するメモリコントローラによって制御されるメモリ内のアドレス又はアドレスの領域に格納されたデータに対するメモリ要求）、コヒーレントスレーブは、その対応するキャッシュディレクトリへのルックアップ（例えば、タグベースのルックアップ）を実行して、要求が何れかのキャッシュサブシステムの少なくとも１つのキャッシュラインにキャッシュされたメモリアドレス又は領域をターゲットにするかどうかを判断する。

ＳＤＭＡエンジン３７０Ａ～３７０Ｎは、システム３００内のデバイスとメモリ間、又は、メモリ内の異なる位置間のデータのＤＭＡ転送を調整する。ＳＤＭＡエンジン３７０Ａ～３７０Ｎは、それらの対応するプロセッサ３１０Ａ～３１０Ｎから命令を受信することができる。受信した命令に基づいて、場合によっては、ＳＤＭＡエンジン３７０Ａ～３７０Ｎは、データファブリックを介して任意のメモリからデータを読み取り及びバッファリングし、データファブリックを介して任意のメモリにバッファリングされたデータを書き込む。いくつかの実施形態では、受信した命令に基づいて、ＳＤＭＡエンジン３７０Ａ～３７０Ｎは、ＤＭＡを実行するための命令とともに、データファブリックのＭＩＳＣ（miscellaneous）ブロック等のデータファブリックデバイスにメッセージを送信する。

ＭＩＳＣブロック３８０Ａ～３８０Ｂは、他の機能を処理するデータファブリックデバイスである。場合によっては、ＭＩＳＣブロック３８０Ａ～３８０Ｂは、電力管理をホストし、機能を中断する。場合によっては、ＭＩＳＣブロック３８０Ａ～３８０Ｂは、本明細書で説明するようにＳＤＭＡ機能をホストする。例えば、ＭＩＳＣブロック３８０Ａは、物理アドレスのソースバッファから物理アドレスの宛先バッファに指定されたサイズのＤＭＡ転送を実行するための命令を伴うメッセージをＳＤＭＡエンジン３７０Ａから（例えば、コヒーレントマスター３１５Ａ等のエージェントデバイスを介して）受信する。この例では、ＭＩＳＣブロック３８０Ａは、例えば本明細書でさらに説明するように、ＤＭＡ転送を実行するために、同じダイ上のエージェントデバイス（例えば、コヒーレントスレーブ３４５Ａ～３４５Ｄ）に対応するコマンドをブロードキャストする。

いくつかの実施形態では、相互接続３３０は、説明を容易にするために図３に示されていない他の構成要素に接続されており、及び／又は、他の構成要素と通信する。例えば、いくつかの実施形態では、相互接続３３０は、図２に関して示され、説明されるように、１つ以上のネットワークインターフェース２５０への接続を含む。

図４は、例えば、図３に関して示され、説明されるように、システム３００のデバイス間で実装可能な例示的なダイレクトメモリアクセスメッセージング４００を示すメッセージシーケンスチャートである。

ＳＤＭＡ３７０Ａは、プロセッサ３１０Ａのローカルメモリに物理的に配置された（すなわち、オンダイメモリコントローラ３４０Ａ～４４０Ｂを介してアクセス可能な）ソースメモリバッファから、プロセッサ３１０Ｎのローカルメモリに物理的に配置された（すなわち、オンダイメモリコントローラ３４０Ｅ～３４０Ｎを介してアクセス可能な）宛先バッファにＤＭＡを調整する。これは、本明細書では「ローカル読み取り、リモート書き込み」ＤＭＡと呼ばれる。対応する「リモート読み取り、ローカル書き込み」動作は、それに応じてメッセージングを再配置することによって実行される。同様に、対応する「ローカル読み取り、ローカル書き込み」又は「リモート読み取り、リモート書き込み」動作は、それに応じてメッセージングを再配置することによって実行される。

プロセッサ３１０Ａは、ソースバッファの仮想アドレス、宛先バッファの仮想アドレス、及び、データ転送のサイズを含むＳＤＭＡコマンドを、命令４０５でＳＤＭＡ３７０Ａに送信する。命令４０５は、いくつかの実施形態では、複数の命令及び／又はメッセージを含むことに留意されたい。

ＳＤＭＡ３７０Ａは、ステップ４１０で、ソースバッファ及び宛先バッファの仮想アドレスから物理アドレスへの変換を実施して、ソースバッファの物理アドレスと宛先バッファの物理アドレスの各々を取得する。

ＳＤＭＡ３７０Ａは、ソースバッファの物理アドレス、宛先バッファの物理アドレス、及び、ＳＤＭＡメッセージ４１５内のデータ転送のサイズをＭＩＳＣブロック３８０Ａに送信する。

ＭＩＳＣブロック３８０Ａは、ソースバッファの物理アドレス、宛先バッファの物理アドレス、及び、データ転送のサイズを含むＳＤＭＡコマンドブロードキャスト４２０を、ダイ０上の全てのコヒーレントスレーブデバイスに送信する。この例では、ＣＳ３４５Ａ～Ｄはダイ０にある。

ＣＳ３４５Ａ～３４５Ｄの各々は、関連するローカルＭＣ３４０Ａ～３４０Ｄに読み取りコマンド４２５を送信する。各ＭＣ３４０Ａ～３４０Ｄは、ステップ４３０でソースバッファの対応する部分を読み取り、ステップ４３５でソースバッファデータをＣＳ３４０Ａ～３４０Ｄに返す。各ＣＳ３４０Ａ～３４０Ｄは、送信のために（及び／又は必要に応じて）ローカルバッファ４４０にソースバッファデータをバッファリングする。

ＣＳ３４５Ａ～３４５Ｄの各々は、リモート書き込みコマンド４４５をリモートＣＳ３４５Ｅ～３４５Ｎに送信し、リモートＣＳ３４５Ｅ～３４５Ｎの各々は、書き込みコマンド４５０を関連するＭＣ３４０Ｅ～３４０Ｎに送信する。各ＭＣ３４０Ｅ～３４０Ｎは、ステップ４５５で宛先バッファの対応する部分を書き込み、確認応答４６０をＣＳ３４５Ｅ～３４５Ｎの各々に返す。いくつかの実施形態では、確認応答は、最後の転送（すなわち、最後の書き込みコマンド４５０）に対してのみ要求され、したがって、全ての書き込みコマンド４５０に対して１つの確認応答４６０のみが返される。

宛先バッファが完全に書き込まれた後、すなわち、最終的なＭＣ３４０Ｅ～３４０ＮがＣＳ３４５Ｅ～３４５Ｎの各々に確認応答を返した後、最終的な確認応答（又は最後の書き込みコマンド４５０に対してのみ確認応答が要求される場合の唯一の確認応答）を受信するＣＳ４４５Ｅ～４４５Ｎは、ＣＳ４４５Ａ～４４５Ｄへの累積確認応答４６５を返す。累積確認応答４６５を受信した後、各ＣＳ３４５Ａ～３４５Ｄは、ＭＩＳＣブロック３８０Ａにコマンド４７０を発行して、転送の完了を示す。いくつかの実施形態では、コマンド４７０は、転送の識別（例えば、転送ＩＤ）を含む。コマンド４７０に基づいて、ＭＩＳＣブロック３８０Ａは、転送の完了を示す指標４７５をＳＤＭＡ３７０Ａに送信する。

図５は、ダイレクトメモリアクセスの例示的な方法を示すフローチャートである。方法５００は、例えば、システム３００（図３に関して示され、説明されている）に実装可能であり、及び／又は、いくつかの例では、シグナリング４００（図４に関して示され、説明されている）を使用して実装可能である。

ブロック５０５で、ＳＤＭＡ３７０Ａは、プロセッサ３１０Ａから命令を受信する。命令は、例えば、命令４０５のように（図４に関して示され、説明されるように）ソースバッファの仮想アドレス、宛先バッファの仮想アドレス、及び、データ転送のサイズを含むＳＤＭＡコマンドであってもよい。

ブロック５１０で、ＳＤＭＡ３７０Ａは、ソースバッファの仮想アドレス及び宛先バッファの仮想アドレスから物理アドレスへの変換を実施して、ソースバッファの物理アドレス及び宛先バッファの物理アドレスの各々を取得する（例えば、図４に関して示され、説明される４１０に関して示され、説明されるように）。

ブロック５１５で、ＳＤＭＡ３７０Ａは、ソースバッファの物理アドレス、宛先バッファの物理アドレス、及び、データ転送のサイズをブロック５１５内のＭＩＳＣブロック３８０Ａに送信する（例えば、図４に関して示され、説明されるメッセージ４１５）。

ブロック５２０で、ＭＩＳＣブロック３８０Ａは、メッセージを受信し、ブロック５２５で、ソースバッファの物理アドレス、宛先バッファの物理アドレス、及び、データ転送のサイズを含むＳＤＭＡコマンドブロードキャスト（例えば、図４に関して示され、説明されるブロードキャスト４２０）をダイ０上の全てのコヒーレントスレーブデバイスに送信する。この例では、ＣＳ３４５Ａ～３４５Ｄはダイ０にある。いくつかの実施形態では、ブロードキャスト４２０には、転送ジョブを識別するため転送の識別（例えば、転送ＩＤ）が含まれる。

ソースバッファがローカルで宛先バッファがリモートであるという条件５３０で、ブロック５３５では、ローカルＣＳ３４５Ａ３４５～Ｄの各々は、各ＭＣ３４０Ａ～３４０Ｄが、ソースバッファの対応する部分（存在する場合）を読み取り、ソースバッファデータをＣＳ３４０Ａ～３４０Ｄに返すように、関連するＭＣ３４０Ａ～３４０Ｄに読み取りコマンド（例えば、図４に関して示され、説明されるコマンド４２５）を送信する。各ＣＳ３４０Ａ～３４０Ｄは、送信のために（及び／又は必要に応じて）ローカルバッファにソースバッファデータをバッファリングする。

ブロック５４０で、ローカルＣＳ３４５Ａ～３４５Ｄの各々は、リモート書き込みコマンドをリモートＣＳ３４５Ｅ～３４５Ｎに送信して、バッファをリモートメモリに書き込む。ブロック５４５で、リモートＣＳ３４５Ｅ～３４５Ｎの各々は、各ＭＣ３４０Ｅ～３４０Ｎが、ソースバッファデータの対応する部分を、関連するメモリ内の宛先バッファに書き込むように関連するＭＣ３４０Ｅ～３４０Ｎに書き込みコマンドを送信する。宛先バッファの対応する部分を書き込んだ後、各ＭＣ３４０Ｅ～３４０Ｎは、確認応答をＣＳ３４５Ｅ～３４５Ｎの各々に返す。

ブロック５５０で、宛先バッファが完全に書き込まれた後、すなわち、最終的なＭＣ３４０Ｅ～３４０ＮがＣＳ３４５Ｅ～３４５Ｎの各々に確認応答を返した後、最終的な確認応答を受信するＣＳ３４５Ｅ～３４５Ｎは、ローカルＣＳ３４５Ａ～３４５Ｄに累積確認応答４６５を返す。累積確認応答４６５を受信した後、各ＣＳ３４５Ａ～３４５Ｄは、ＭＩＳＣブロック３８０Ａにコマンドを発行して、転送の完了を示す。いくつかの実施形態では、コマンドは、転送の識別（例えば、転送ＩＤ）を含む。コマンドに基づいて、ＭＩＳＣブロック３８０Ａは、転送の完了を示す指標をＳＤＭＡ３７０Ａに送信する。

ソースバッファがリモートであり、宛先バッファがローカルであるという条件５３０で、ローカルＣＳ３４５Ａ～３４５Ｄの各々は、ブロック５５５でリモートＣＳ３４５Ｅ～３４５Ｎにリモート読み取りコマンドを送信する。リモート読み取りコマンドに基づいて、リモートＣＳ３４５Ｅ～３４５Ｎの各々は、ＭＣ３４０Ｅ～３４０ＮがソースバッファデータをＣＳ３４５Ｅ～３４５Ｎに返すように、ブロック５６０で関連するＭＣ３４０Ｅ～３４０Ｎに読み取りコマンドを送信する。ＣＳ３４５Ｅ～３４５Ｎは、送信のために（及び／又は必要に応じて）ローカルバッファにソースバッファデータをバッファリングする。

リモートＣＳ３４５Ｅ～３４５Ｎは、バッファリングされたデータを、ブロック５６５でコヒーレントリンクを介してローカルＣＳ３４５Ａ～Ｄに送信する。ローカルＣＳ３４５Ａ～３４５Ｄは、ブロック５７０において関連するＭＣ３４０Ａ～３４０Ｄを介して、物理メモリアドレスの宛先バッファにデータを書き込む。宛先バッファが完全に書き込まれた後、すなわち、最終ＭＣ３４０Ａ～３４０ＤがＣＳ３４５Ａ～３４５Ｄの各々に確認応答を返した後、最終確認応答を受信するＣＳ３４５Ａ～３４５Ｄは、転送の完了を示すために、ブロック５７５においてＭＩＳＣブロック３８０Ａにコマンドを発行する。いくつかの実施形態では、コマンドは、転送の識別（例えば、転送ＩＤ）を含む。コマンドに基づいて、ＭＩＳＣブロック３８０Ａは、転送の完了を示す指標をＳＤＭＡ３７０Ａに送信する。

本明細書の開示に基づいて、多くの変形形態が可能であることを理解されたい。特徴及び要素が特定の組み合わせで上述されたが、各特徴又は要素は、他の特徴及び要素無しに単独で、又は、他の特徴及び要素を有する若しく有しない様々な組み合わせで使用することができる。

図に示す及び／又は本明細書で説明する様々な機能ユニット（限定するものではないが、プロセッサ１０２、入力ドライバ１１２、入力デバイス１０８、出力ドライバ１１４、出力デバイス１１０、アクセラレーテッド処理デバイス１１６を含む）は、汎用コンピュータ、プロセッサ若しくはプロセッサコアとして、又は、プログラム、ソフトウェア若しくはファームウェアとして実装され、非一時的なコンピュータ可読記憶媒体又は別の媒体に記憶され、汎用コンピュータ、プロセッサ又はプロセッサコアによって実行可能であり得る。提供される方法は、汎用コンピュータ、プロセッサ又はプロセッサコアにおいて実施することができる。適切なプロセッサは、例として、汎用プロセッサ、専用プロセッサ、従来のプロセッサ、デジタルシグナルプロセッサ（ＤＳＰ）、複数のマイクロプロセッサ、ＤＳＰコアに関連する１つ以上のマイクロプロセッサ、コントローラ、マイクロコントローラ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）回路、他のタイプの集積回路（ＩＣ）、及び／又は、状態機械を含む。このようなプロセッサは、ハードウェア記述言語（ＨＤＬ）命令の結果や、（コンピュータ可読媒体に格納することができる命令のような）ネットリストを含む他の中間のデータを処理した結果を用いて製造プロセスを構成することによって製造することができる。このような処理の結果は、本開示の特徴を実装するプロセッサを製造する半導体製造プロセスにおいて使用されるマスクワークであってもよい。

本明細書に提供される方法又はフローチャートは、汎用コンピュータ又はプロセッサによる実行のために非一時的なコンピュータ可読記憶媒体に組み込まれたコンピュータプログラム、ソフトウェア又はファームウェアで実施することができる。非一時的なコンピュータ可読記憶媒体の例は、リードオンリーメモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、レジスタ、キャッシュメモリ、半導体メモリデバイス、内蔵ハードディスク及びリムーバルディスク等の磁気媒体、光磁気媒体、並びに、ＣＤ－ＲＯＭディスク及びデジタル多用途ディスク（ＤＶＤ）等の光学媒体を含む。

Claims

ダイレクトメモリアクセス用に構成されたコンピューティングシステムであって、
プロセッサダイ上に配置され、ソースバッファの物理アドレス、宛先バッファの物理アドレス、及び、前記ソースバッファから前記宛先バッファへのデータ転送のサイズを含むメッセージをデータファブリックデバイスに送信するように構成されたシステムダイレクトメモリアクセス（ＳＤＭＡ）デバイスと、
前記ソースバッファの物理アドレス、前記宛先バッファの物理アドレス、及び、前記データ転送のサイズを含む少なくとも１つの命令を、第１の複数のエージェントデバイスに送信するように構成されたデータファブリックデバイスと、
第１の複数のエージェントデバイスであって、各々が、前記ソースバッファの物理アドレスにあるメモリデバイスから前記ソースバッファの一部を読み取ることと、前記ソースバッファの一部を第２の複数のエージェントデバイスのうち何れかに送信することと、を実行するように構成された第１の複数のエージェントデバイスと、
第２の複数のエージェントデバイスであって、各々が、メモリコントローラを動作して、前記ソースバッファの一部を前記宛先バッファに書き込むように構成された第２の複数のエージェントデバイスと、を備える、
システム。
前記ＳＤＭＡデバイスは、
前記ソースバッファの仮想アドレス及び前記宛先バッファの仮想アドレスを示す少なくとも１つの命令を前記プロセッサダイのプロセッサから受信することと、
前記ソースバッファの仮想アドレスを前記ソースバッファの物理アドレスに変換することと、
前記宛先バッファの仮想アドレスを前記宛先バッファの物理アドレスに変換することと、
を実行するようにさらに構成されている、
請求項１のシステム。
前記データファブリックデバイスは、データファブリックのＭＩＳＣ（miscellaneous）機能ブロックを含む、
請求項１のシステム。
前記エージェントデバイスは、データファブリックのコヒーレントスレーブデバイスを含む、
請求項１のシステム。
前記第１の複数のエージェントデバイスは、前記プロセッサダイ上に配置されており、
前記第２の複数のエージェントデバイスは、リモートプロセッサダイ上に配置されている、
請求項１のシステム。
前記第２の複数のエージェントデバイスは、前記プロセッサダイ上に配置されており、
前記第１の複数のエージェントデバイスは、リモートプロセッサダイ上に配置されている、
請求項１のシステム。
前記第１の複数のエージェントデバイスの各々は、前記ソースバッファの一部を前記第２の複数のエージェントデバイスのうち何れかに送信する前に、前記ソースバッファの一部をローカルバッファに格納するようにさらに構成されている、
請求項１のシステム。
前記プロセッサダイとリモートプロセッサダイとの間にコヒーレントリンクをさらに備え、
前記第１の複数のエージェントデバイスは、前記コヒーレントリンクを介して前記第２の複数のエージェントデバイスと通信するようにさらに構成されている、
請求項１のシステム。
前記第１の複数のエージェントデバイスの各々は、メモリコントローラを動作して、前記ソースバッファの物理アドレスにある前記メモリデバイスから前記ソースバッファの一部を読み取るようにさらに構成されている、
請求項１のシステム。
前記データファブリックデバイスは、前記少なくとも１つの命令を前記第１の複数のエージェントデバイスにブロードキャストするようにさらに構成されている、
請求項１のシステム。
ダイレクトメモリアクセスのための方法であって、
ソースバッファの物理アドレス、宛先バッファの物理アドレス、及び、前記ソースバッファから前記宛先バッファへのデータ転送のサイズを含むメッセージを、プロセッサダイ上に配置されたシステムダイレクトメモリアクセス（ＳＤＭＡ）デバイスからデータファブリックデバイスに送信することと、
前記データファブリックデバイスが、前記ソースバッファの物理アドレス、前記宛先バッファの物理アドレス、及び、前記データ転送のサイズを含む少なくとも１つの命令を、第１の複数のエージェントデバイスに送信することと、
前記第１の複数のエージェントデバイスの各々が、前記ソースバッファの物理アドレスのメモリデバイスから前記ソースバッファの一部を読み取ることと、
前記第１の複数のエージェントデバイスの各々が、前記ソースバッファの一部を第２の複数のエージェントデバイスのうち何れかに送信することと、
前記第２の複数のエージェントデバイスの各々が、前記ソースバッファの一部を前記宛先バッファに書き込むことと、を含む、
方法。
前記ＳＤＭＡデバイスが、前記ソースバッファの仮想アドレス及び前記宛先バッファの仮想アドレスを示す少なくとも１つの命令を前記プロセッサダイのプロセッサから受信することと、
前記ＳＤＭＡデバイスが、前記ソースバッファの仮想アドレスを前記ソースバッファの物理アドレスに変換することと、
前記ＳＤＭＡデバイスが、前記宛先バッファの仮想アドレスを前記宛先バッファの物理アドレスに変換することと、をさらに含む、
請求項１１の方法。
前記データファブリックデバイスは、データファブリックのＭＩＳＣ（miscellaneous）機能ブロックを含む、
請求項１１の方法。
前記エージェントデバイスは、データファブリックのコヒーレントスレーブデバイスを含む、
請求項１１の方法。
前記第１の複数のエージェントデバイスは、前記プロセッサダイ上に配置されており、
前記第２の複数のエージェントデバイスは、リモートプロセッサダイ上に配置されている、
請求項１１の方法。
前記第２の複数のエージェントデバイスは、前記プロセッサダイ上に配置されており、
前記第１の複数のエージェントデバイスは、リモートプロセッサダイ上に配置されている、
請求項１１の方法。
前記第１の複数のエージェントデバイスの各々が、前記ソースバッファの一部を前記第２の複数のエージェントデバイスのうち何れかに送信する前に、前記ソースバッファの一部をローカルバッファに格納することをさらに含む、
請求項１１の方法。
前記第１の複数のエージェントデバイスが、前記プロセッサダイとリモートプロセッサダイとの間のコヒーレントリンクを介して前記第２の複数のエージェントデバイスと通信することをさらに含む、
請求項１１の方法。
前記第１の複数のエージェントデバイスの各々が、メモリコントローラを動作して、前記ソースバッファの物理アドレスにあるメモリデバイスから前記ソースバッファの一部を読み取ることをさらに含む、
請求項１１の方法。
前記データファブリックデバイスが、前記少なくとも１つの命令を前記第１の複数のエージェントデバイスにブロードキャストすることをさらに含む、
請求項１１の方法。