JP2024502279A

JP2024502279A - オフロードされた命令とオフロードされていない命令との間のメモリ順序付けの保持

Info

Publication number: JP2024502279A
Application number: JP2023538823A
Authority: JP
Inventors: ビー．コトゥラジャガディッシュ; カラマティアノスジョン
Original assignee: Advanced Micro Devices Inc
Current assignee: Advanced Micro Devices Inc
Priority date: 2020-12-29
Filing date: 2021-12-21
Publication date: 2024-01-18
Also published as: US20220206817A1; WO2022146793A1; KR20230122161A; CN116745747A; EP4272075A1; US20230244492A1; US11625249B2

Abstract

オフロードされた命令とオフロードされていない命令との間のメモリ順序付けを保持する。オフロードされる動作のためのオフロード命令が処理され、オフロード命令に関連するメモリアドレスにロックが配置される。メモリアドレスをターゲットとするキャッシュ動作の完了に応じて、メモリアドレスに対するロックが除去される。マルチスレッドアプリケーションの場合、複数のプロセッサコアがオフロード命令のシーケンスの実行をそれぞれ開始したと判定すると、何れのオフロード命令よりも若い非オフロード命令の実行が制限される。各プロセッサコアがそのオフロード命令のシーケンスの実行を完了したと判定したことに応じて、制限が除去される。リモートデバイスは、例えば、プロセッシングインメモリデバイス、又は、メモリに結合されたアクセラレータであり得る。【選択図】図１

Description

コンピューティングシステムは、多くの場合、命令を取り出して実行し、実行した命令の結果を適切な場所に記憶することができる、いくつかの処理リソース（例えば、１つ以上のプロセッサ）を含む。処理リソース（例えば、中央処理装置（central processing unit、ＣＰＵ））は、データ（例えば、１つ以上のオペランド）に対して論理演算を実行することによって命令を実行するために使用することができる、例えば、算術論理ユニット（arithmetic logic unit、ＡＬＵ）回路、浮動小数点ユニット（floating point unit、ＦＰＵ）回路、及び／又は、組み合わせ論理ブロック等のいくつかの機能ユニットを備え得る。例えば、機能ユニット回路は、いくつかの論理演算を介してオペランドに対して加算、減算、乗算及び／又は除算等算術演算を実行するために使用され得る。典型的には、処理リソース（例えば、プロセッサ及び／又は関連機能ユニット回路）は、メモリアレイの外部にあり、データは、命令セットを実行するために、処理リソースとメモリアレイとの間のバスを介してアクセスされる。メモリアレイ内のデータをフェッチするため又は記憶するためのアクセスの量を低減するために、コンピューティングシステムは、処理リソース又は処理リソース群による使用のために最近アクセスされた又は変更されたデータを一時的に記憶するキャッシュ階層を用い得る。しかしながら、処理性能は、特定の動作をプロセッサインメモリ（processor-in-memory、ＰＩＭ）デバイスにオフロードすることによって更に改善され、ＰＩＭデバイスでは、データを処理リソースのより近くに移動させるのではなく、データを記憶する記憶場所のより近くでデータ処理が実行されるように、処理リソースがメモリの内部及び／又は近くに実装され得る。ＰＩＭデバイスは、プロセッサとメモリデバイスとの間の通信を削減及び／又は排除することによって時間を短縮し、また、電力を節約し得る。

特定のアプリケーションは、一時的なデータの再利用が少ない又は行われないフェーズを有し、このフェーズ中、キャッシュ階層では頻繁にミスが生じ、メモリからデータをフェッチする。加えて、これらのフェーズは、低計算強度（フロップ／バイトの比）を示し得る。これらのフェーズ中、データ移動が多く、フェーズがメモリバウンドであるため、エネルギー効率及び性能が低下する。したがって、これらのフェーズは、ＰＩＭデバイス又はアクセラレータへのオフロードに特に適している。例えば、プログラマは、特定のコードシーケンスがオフロードされるべきであるという指標をアプリケーションソースコード内に提供することができる、又は、コンパイラが、かかる決定を行い得る。オフロードされた命令の解釈及びオーケストレーションは、依然として、アプリケーションをホストする処理リソースによって実行される必要がある。

本開示のいくつかの実施形態による、オフロードされた命令とオフロードされていない命令との間のメモリ順序付けを保持するための例示的なシステムのブロック図である。本開示のいくつかの実施形態による、オフロードされた命令とオフロードされていない命令との間のメモリ順序付けを保持するための別の例示的なシステムのブロック図である。本開示のいくつかの実施形態による、オフロードされた命令とオフロードされていない命令との間のメモリ順序付けを保持する例示的な方法を示すフロー図である。本開示のいくつかの実施形態による、オフロードされた命令とオフロードされていない命令との間のメモリ順序付けを保持する別の例示的な方法を示すフロー図である。本開示のいくつかの実施形態による、オフロードされた命令とオフロードされていない命令との間のメモリ順序付けを保持する別の例示的な方法を示すフロー図である。本開示のいくつかの実施形態による、オフロードされた命令とオフロードされていない命令との間のメモリ順序付けを保持する別の例示的な方法を示すフロー図である。本開示のいくつかの実施形態による、オフロードされた命令とオフロードされていない命令との間のメモリ順序付けを保持する別の例示的な方法を示すフロー図である。本開示のいくつかの実施形態による、オフロードされた命令とオフロードされていない命令との間のメモリ順序付けを保持する別の例示的な方法を示すフロー図である。

中央処理装置（ＣＰＵ）コアへの負荷を低減するために、特定の動作がオフロードされて、プロセッシングインメモリ（ＰＩＭ）デバイス又はアクセラレータ等のオフロードターゲットデバイスによってリモート実行され得る。例えば、ＰＩＭアーキテクチャは、メモリ内又はメモリの付近で実行するためのオフロード命令をサポートしており、その結果、プロセッサとメモリとの間のデータリンクで帯域幅が節約され、プロセッサの電力消費が低減され得る。例えば、ＰＩＭデバイスによるオフロードされた命令の実行は、データをローカルＣＰＵレジスタにロードし、データをローカルＣＰＵストレージからメモリに書き戻すことを必要としない。

メモリ順序付けを保証するために、バリア又はフェンスを用いて、オフロード命令を非オフロード命令（すなわち、ＣＰＵでローカルに実行される動作）から分離することができる。しかしながら、従来のメモリフェンス／バリアの実施形態は、一部のアーキテクチャにおいて、オフロード命令とより若い非オフロード命令との間のメモリ順序付けを保持するのに十分ではない場合がある。従来のメモリフェンス又はバリアは、より古いコードがリタイアするまで、より若いコードの発行をブロックする。オフロード命令がグローバル同期点を通過し、オフロードターゲットデバイス上で完了する前に、オフロード命令がＣＰＵコアにおいてリタイアするアーキテクチャでは、従来のバリア又はフェンスは、より若い非オフロード命令コードにメモリ順序付けを強制することができない。例えば、従来のフェンス／バリア命令は、（全てのスレッドにわたって）オフロード命令とより若い非オフロード命令との間のメモリアクセスの正しい順序付けを保証することができない。これは、一部のアーキテクチャでは、より新しい非オフロードロード命令及び記憶命令が、より古いオフロード命令がリタイアした後であって、グローバルコヒーレンス同期点を通過する以前にバリア／フェンスを超えて実行し、メモリにアクセスすることが許可されるからである。これは、潜在的に、オフロード命令と同じアドレスにアクセスする、より若い非オフロード命令が古いデータをフェッチし、誤った実行をもたらし得るというシナリオに帰結し得る。

本開示によるいくつかの実施形態は、オフロード実行デバイスにオフロードされた命令とより若いオフロードされていない命令との間のメモリ順序付けをサポートする、ＣＰＵコア、キャッシュ、並びに、機能論理ブロックにおけるハードウェア及び命令セットアーキテクチャサポートを提供し、それによって、オフロード命令コード及び後続の非オフロード命令コードによって共有されるメモリアドレスへの相互排他的アクセスを保証する。これらの実施形態は、ＣＰＵマルチコアを備えるオフロードされた実行デバイスの性能を向上させる同期プリミティブをサポートし、オフロードデバイスでのオフロードされた動作の完了を待機することなく、オフロード命令コード及び後続の非オフロード命令コードによって共有されるメモリアドレスへのアクセスに対する制限の除去をサポートする。

本開示による一実施形態は、オフロードされる動作のための少なくとも１つのオフロード命令を処理することを含む、オフロードされた命令とオフロードされていない命令との間のメモリ順序付けを保持する方法を対象とする。また、本方法は、少なくとも１つのオフロード命令に関連するメモリアドレスにロックを配置することを含む。また、本方法は、メモリアドレスをターゲットとする動作の完了に応じて、メモリアドレスに対するロックを除去することを含む。いくつかの実施形態では、オフロードされる動作は、プロセッシングインメモリデバイス等のオフロードターゲットデバイスにオフロードされる。

いくつかの実施形態では、少なくとも１つのオフロード命令に関連するメモリアドレスにロックを配置することは、アドレスロックバッファのエントリにメモリアドレスを記憶することを含み、メモリアドレスに対するロックを除去することは、アドレスロックバッファ内のエントリをクリアすることを含む。

いくつかの実施形態では、メモリアドレスをターゲットとする動作を完了することは、メモリアドレスのエントリを含む１つ以上のコアの１つ以上のキャッシュにプローブ要求を送信することを含み、プローブ要求は、エントリ内のデータが無効化されるか又はフラッシュされるかの何れかであることを示す。いくつかの実施形態では、ロックは、少なくとも１つのオフロード命令の処理が完了した後に配置される。いくつかの実施形態では、ロックは、リモートデバイスでの動作の実行前に除去される。

いくつかの実施形態では、本方法は、複数のプロセッサコアがオフロード命令のシーケンスの実行をそれぞれ開始したと判定することを含み、複数のプロセッサコア間で実行するオフロード命令のシーケンスは、同一のプロセス識別子を共有する。これらの実施形態では、本方法は、何れのオフロード命令よりも若い非オフロード命令の実行を制限することを含む。これらの実施形態では、本方法は、各プロセッサコアがそのオフロード命令のシーケンスの実行を完了したと判定したことに応じて、制限を除去することを含む。

いくつかの実施形態では、複数のプロセッサコアがオフロード命令のシーケンスの実行をそれぞれ開始したと判定することは、各コアがそれぞれのオフロード命令のシーケンスにおいてバリアの開始命令を実行したと判定することを含み、複数のプロセッサコア間で実行するオフロード命令のシーケンスは、同一のプロセス識別子を共有する。いくつかの実施形態では、各プロセッサコアがそのオフロード命令のシーケンスの実行を完了したと判定することは、バリアの終了命令が各コアで実行されたと判定することを含む。いくつかの実施形態では、各プロセッサコアがそのオフロード命令のシーケンスの実行を完了したと判定することは、オフロード命令のシーケンスによってトリガされた全てのメモリアドレスロックが除去されたと判定することを含む。いくつかの実施形態では、各プロセッサコアがそのオフロード命令のシーケンスの実行を完了したと判定することは、各コアに通信可能に結合された状態バッファ内の各コアの進捗を追跡することを含む。

本開示による一実施形態は、オフロードされた命令とオフロードされていない命令との間のメモリ順序付けを保持するためのマルチコアプロセッサを対象とする。プロセッサは、オフロードされる動作のためのオフロード命令を処理するように構成されている。また、プロセッサは、オフロード命令に関連する１つ以上のメモリアドレスにロックを配置するように構成されている。また、プロセッサは、メモリアドレスをターゲットとする動作の完了に応じて、メモリアドレスに対するロックを除去するように構成されている。いくつかの実施形態では、オフロードされる動作は、プロセッシングインメモリデバイス等のオフロードターゲットデバイスにオフロードされる。

いくつかの実施形態では、プロセッサは、複数のプロセッサコアがオフロード命令のシーケンスの実行をそれぞれ開始したと判定するように構成されており、複数のプロセッサコア間で実行するオフロード命令のシーケンスは、同一のプロセス識別子を共有する。これらの実施形態では、プロセッサは、何れのオフロード命令よりも若い非オフロード命令の実行を制限するように構成されている。これらの実施形態では、プロセッサは、各プロセッサコアがそのオフロード命令のシーケンスの実行を完了したと判定したことに応じて、制限を除去するように構成されている。

本開示による一実施形態は、オフロードされた命令とオフロードされていない命令との間のメモリ順序付けを保持するためのシステムを対象とする。システムは、プロセッシングインメモリ（ＰＩＭ）デバイスと、ＰＩＭデバイスにオフロードされる動作のためのオフロード命令を処理するように構成されているマルチコアプロセッサと、を含む。また、プロセッサは、オフロード命令に関連するメモリアドレスにロックを配置するように構成されている。また、プロセッサは、メモリアドレスをターゲットとする動作の完了に応じて、メモリアドレスに対するロックを除去するように構成されている。

図１は、本開示の様々な実施形態による、オフロードされた命令とオフロードされていない命令との間のメモリ順序付けを保持するための例示的なシステム１００を示すブロック図である。図１の例では、システム１００は、複数のコア複合体１０２、１０４を含むマルチコアプロセッサ１０１を含む。例えば、プロセッサ１０１は、システムオンチップ（ＳｏＣ）アーキテクチャ内に実装され得る。図１に示される例では、各コア複合体１０２、１０４は、レベル２（Ｌ２）キャッシュ１１４、１１６、１１８、１２０にそれぞれ結合された複数のプロセッサコア１０６、１０８、１１０、１１２（例えば、中央処理装置（ＣＰＵ）コア、グラフィカル処理装置（graphical processing unit、ＧＰＵ）コア等）を含む。更に、プロセッサコア１０６、１０８、１１０、１１２の各々は、それぞれのオンボード１次（Ｌ１）キャッシュ１２２、１２４、１２６、１２８を含む。プロセッサコア１０６、１０８、１１０、１１２の各々は、命令フェッチ、デコード、ディスパッチパイプライン、プリフェッチ入力キュー、スケジューラ、ロード／記憶キュー、ルックアサイドバッファ、リオーダバッファ、及び、リタイアキュー等のプロセッサパイプライン（図示せず）の様々な構成要素、並びに、様々な算術論理ユニット（ＡＬＵ）及びレジスタファイルを含む。

図１に示される例示的なシステム１００の構成は、説明のために提示される。４つのプロセッサコア１０６、１０８、１１０、１１２が図１に示されているが、読者は、プロセッサ１０１が、示されているよりも多い又は少ないプロセッサコア、より多い又は少ないコア複合体、及び、より多い又は少ないキャッシュを含み得ることを理解するであろう。

図１に示される例では、各コア複合体１０２、１０４は、特定のコア複合体のＬ２キャッシュの全てを接続する相互接続キャッシュ又はラストレベルキャッシュ（ＬＬＣ）として機能するレベル３（Ｌ３）キャッシュ１３０、１３２を含む。いくつかの例では、プロセッサ１０１は、複数のプロセッサコア１０６、１０８、１１０、１１２を使用してマルチスレッドアプリケーションを実行するように構成されている。これらの例では、１つのコア複合体１０２内のキャッシュ内でのデータの変更は、別のコア複合体１０４内にキャッシュされたデータの有効性に影響を及ぼし得る。キャッシュコヒーレンシを実施するために、プロセッサ１０１は、コア複合体１０２、１０４の各Ｌ３キャッシュ１３０、１３２に結合されたコヒーレンシシンクロナイザ１３６を含み得る。これらの例では、コヒーレンシシンクロナイザ１３６は、例えば、キャッシュプローブを送信して、プロセッサ１０１内に存在する任意のＬ１キャッシュ、Ｌ２キャッシュ又はＬ３キャッシュのキャッシュエントリに含まれるデータを無効化又はフラッシュすることによって、キャッシュ動作を開始する。

各Ｌ１、Ｌ２及びＬ３キャッシュは、プロセッサ要求に応じて、要求された動作に関連するデータがキャッシュのキャッシュエントリに存在するかどうかを判定するキャッシュ論理を含む。データが存在する場合（キャッシュヒット）、プロセッサ要求は、キャッシュエントリ内に存在するデータを使用して満たされる。データが存在しない場合（キャッシュミス）、要求は、キャッシュミスがＬＬＣ内で検出されるまで、次レベルのキャッシュに転送される。ＬＬＣにおけるキャッシュミスに応じて、要求は、プロセッサ１０１のメモリコントローラ１３４に転送されて、メインメモリ（例えば、メモリデバイス１３８）に記憶されたデータを使用して要求を満たす。一例では、プロセッサ要求は、メモリデバイス１３８内の記憶場所を対象とする読み取り／書き込み要求等のＩ／Ｏ動作である。

プロセッサコア１０６、１０８、１１０、１１２の各々は、プロセッサ１０１上で実行されるアプリケーションからコンパイラシステム（例えば、ＧＮＵコンパイラコレクション（GNU Compiler Collection、ＧＣＣ））によって生成された機械語コードを実行する。例えば、アプリケーションは、シングルスレッドアプリケーション又はマルチスレッドアプリケーションであり得る。プロセッサコアは、機械語コードを生成するためにコンパイラシステムによって用いられる命令セットアーキテクチャ（instruction set architecture、ＩＳＡ）を実装する。一例では、プロセッサ１０１用のＩＳＡは、ＡＶＸ－２５６等のアドバンスベクトルエクステンションをサポートするｘ８６－６４命令セットである。

本開示の様々な実施形態によると、プロセッサ１０１は、オフロードターゲットデバイスによる実行のためにオフロード命令を処理するための拡張ＩＳＡを実装する。例えば、オフロードターゲットデバイスは、以下でより詳細に説明するように、プロセッシングインメモリ（ＰＩＭ）デバイス又はアクセラレータ等の固定機能を実施するリモート構成要素であり得る。オフロードターゲットデバイスは、オフロード命令を実行するための実行論理が何れのプロセッサコアの一部でもないという点でリモート構成要素である。例えば、オフロードターゲットデバイスは、プロセッサコア１０６、１０８、１１０、１１２と同一のチップ上又は同一のパッケージ内に実装され得るが、プロセッサ１０１からは「リモート」のままである。例示的な拡張ＩＳＡでは、ｒｅｍｏｔｅ＿ｌｏａｄ命令オペコードは、メインメモリからオフロードターゲットデバイスのローカルレジスタにメモリオペランドのデータをロードし、ｒｅｍｏｔｅ＿ｓｔｏｒｅ命令オペコードは、オフロードターゲットデバイスのローカルレジスタからメインメモリ内のメモリオペランドにデータを書き込む。拡張ＩＳＡ内のｒｅｍｏｔｅ＿ｏｐ命令オペコードは、ターゲットデバイスの固定機能アーキテクチャによってサポートされる任意の算術演算又は論理演算を表すことができる。何れの動作も制御フローを変更せず、したがって、オフロードされた命令は順次実行される。ｏｆｆｌｏａｄｒｅｍｏｔｅ＿ｏｐ命令ソースオペランドは、（ａ）メモリアドレス（ベースラインＩＳＡと同じ方法で指定）、（ｂ）（ＣＰＵコア標準ＩＳＡからの）アーキテクチャレジスタ、又は、（ｃ）オフロードターゲットデバイス内に実装されたオフロードターゲットレジスタであり得る。いくつかの実施形態では、オフロード命令デスティネーションオペランドは、オフロードターゲットレジスタのみであり得る。オフロードターゲットレジスタは、オフロードターゲット固定機能論理に対してローカルであるレジスタを表し、コンパイラによって割り当てられる、拡張ＩＳＡ内のアーキテクチャ化レジスタである。オフロードターゲットレジスタは、プロセッサコア内に物理ストレージを有さないという点で仮想的であり、オフロード命令間のデータ依存性をサポートし、固定機能モジュール１４６へのオフロード要求の送信時にメモリコントローラ１３４におけるオフロードターゲットレジスタの使用率を追跡するために使用される。

いくつかの実施形態では、ｒｅｍｏｔｅ＿ｌｏａｄ命令は、オフロードターゲットレジスタであるデスティネーションオペランドと、メモリアドレスであるソースオペランドと、メモリアドレスを生成するために使用されるアーキテクチャレジスタである別のソースオペランドと、を含む。ｒｅｍｏｔｅ＿ｌｏａｄ命令は、オフロードターゲットデバイスが、メモリアドレスによって識別された記憶場所からオフロードターゲットレジスタにデータをロードすべきであることを示す。オフロードターゲットがＰＩＭデバイスである場合、ｒｅｍｏｔｅ＿ｌｏａｄ命令は、以下で詳細に説明するように、ＰＩＭデバイスが、メモリアドレスによって識別されるＰＩＭデバイス内の記憶場所からＰＩＭレジスタにデータをロードすべきであることを示す。

いくつかの実施形態では、ｒｅｍｏｔｅ＿ｓｔｏｒｅ命令は、メモリアドレスであるデスティネーションオペランドと、オフロードターゲットレジスタであるソースオペランドと、メモリアドレスの生成に使用されるアーキテクチャレジスタである別のソースオペランドと、を含む。ｒｅｍｏｔｅ＿ｓｔｏｒｅ命令は、オフロードターゲットデバイスが、オフロードターゲットレジスタ内のデータをメモリアドレスによって識別される記憶場所に記憶すべきであることを示す。オフロードターゲットデバイスがＰＩＭデバイスである場合、ｒｅｍｏｔｅ＿ｓｔｏｒｅ命令は、以下で詳細に説明するように、ＰＩＭデバイスが、ターゲットレジスタからのデータを物理メモリアドレスによって識別されるＰＩＭデバイス内の記憶場所に記憶すべきであることを示す。

いくつかの実施形態では、ｒｅｍｏｔｅ＿ｏｐ命令は、オフロードターゲットレジスタであるデスティネーションオペランドと、計算のためのソースオペランドと、を含み、ソースオペランドは、アーキテクチャレジスタ（以前のオフロードされていない計算からの値を持ち運ぶ）、オフロードターゲットレジスタ又はメモリアドレス（こちらもｒｅｍｏｔｅ＿ｏｐ命令で指定されたアーキテクチャレジスタから生成される）であり得る。ｒｅｍｏｔｅ＿ｏｐ命令は、オフロードターゲットデバイス内の固定機能論理が計算を実行し、その結果をデスティネーションオペランドによって示されるオフロードターゲットレジスタに配置すべきであることを示す。オフロードターゲットデバイスがＰＩＭデバイスである場合、ｒｅｍｏｔｅ＿ｏｐ命令は、以下で詳細に説明するように、ＰＩＭデバイスがＰＩＭデバイスのメモリ論理内の機能を実行すべきであることを示す。

いくつかの実施形態では、オフロード命令は、拡張ＩＳＡを使用してアプリケーションコンパイル時にコンパイラによって生成される。一例では、コンパイラは、例えば、オフロードのためにアプリケーションプログラミングインターフェース（ＡＰＩ）を使用して、プログラマによって提供されるアプリケーションソースコード内の指示に基づいて、ソースコード内のオフロード命令を識別する。別の例では、コンパイラは、命令がオフロードに適しているという判定に基づいて、オフロード用の命令を識別する。オフロード命令は、ソースコード内の関心領域（region of interest、ＲＯＩ）として識別され得る。ソースコード内のＲＯＩの各動的インスタンスは、１つ以上のオフロード命令を含むオフロードトランザクションとして識別され得る。例えば、オフロードトランザクションは、ｒｅｍｏｔｅ＿ｌｏａｄ命令、１つ以上のｒｅｍｏｔｅ＿ｏｐ命令、及び、ｒｅｍｏｔｅ＿ｓｔｏｒｅ命令を含み得る。オフロードトランザクションは、ループ反復、又は、サブルーチン、すなわち、サブルーチンの本体のサブセットであり得る。オフロードトランザクションは、一連のコードであり、制御フロー変更命令を含まない。いくつかの例では、特殊命令が、各オフロードトランザクションの開始及び終了をマークし得る。

いくつかの実施形態では、オフロード命令は、任意の典型的な非オフロード命令に対して実行されるように、フェッチされ、デコードされ、ディスパッチされる（例えば、コアのフロントエンドパイプラインによって）。オフロード命令がディスパッチされ、オフロード命令がスケジューラによって選択されると、コアリソースが使用されて、オフロード命令において（例えば、メモリオペランドを有するｒｅｍｏｔｅ＿ｌｏａｄ命令、ｒｅｍｏｔｅ＿ｓｔｏｒｅ命令、及び、ｒｅｍｏｔｅ＿ｏｐ命令において）識別された任意の記憶場所の仮想アドレス及び／又は物理アドレス、並びに、コアレジスタからのオフロード命令によって消費された（例えば、非オフロード命令から計算された）任意の値が生成される。仮想アドレス及び／又は物理アドレスが生成され、コアレジスタからの値が利用可能になった後に、オフロード命令はリタイアする準備が整う。オフロード命令がスケジューラによって選択されても、これらの命令は、コアのＡＬＵ（ベクトル又はスカラ、整数又は浮動小数点）において演算を実行せず、コア（コアの標準ＩＳＡに定義されているようなアーキテクチャ化レジスタ及びフラグ等）による発行時にマシン状態を変更することもない。オフロード命令は、メモリ順序付けに違反することなく、上記の動作（アドレス生成及び／又は非オフロード命令によって計算された値の読み取り）を完了するとすぐに、リタイアする準備が整う。（例えば、分岐予測ミス、ロードストアフォワーディングデータ依存性違反、割り込み、トラップ等に起因する）パイプラインフラッシングの場合、オフロード命令は、非オフロード命令のように命令ウィンドウエントリを占有するので、従来の命令のようにフラッシュされ得る。更に、ｒｅｍｏｔｅ＿ｏｐ命令はコアのＡＬＵ上で実行されないので、それらからの算術エラートラップは検出されない。しかしながら、オフロード命令によって生成された他のトラップ（例えば、仮想又は物理アドレス生成、命令ブレークポイント等のトラップ）は、非オフロード命令に使用される同一の機構を用いてコアパイプライン内で検出され、執行される。

各オフロード命令がリタイアすると、生成されたメモリアドレス及び任意のコアレジスタオペランドの値が、オフロード命令用に生成されたオフロード要求に含まれる。オフロード要求は、オフロードターゲットレジスタ、及び、オフロード命令を完了し、結果をオフロードターゲットレジスタに記憶するために必要である、任意の生成されたメモリアドレス又はレジスタ値を含む。いくつかの実施形態では、オフロード要求用のオフロード要求先入れ先出し（first-in-first-out、ＦＩＦＯ）キューを用いて、命令がリタイアする場合に命令用のプログラムシーケンスを維持する。一例では、オフロード要求ＦＩＦＯにおいてオフロードトランザクションの終了に達したときにのみ、オフロード命令をリタイアさせることができる。コアがマルチスレッディングをサポートする場合、スレッドごとに１つのオフロード要求ＦＩＦＯが存在し得る。各オフロード要求は、リタイア時にコアによってあるプログラム順序でオフロードターゲットデバイスに発行されて、オフロードターゲットデバイスにおいてリモートで同一のプログラム順序で実行される。

いくつかの例では、オフロード要求がプロセッサコア１０６、１０８、１１０、１１２によって発行された後、オフロード要求はコヒーレンシシンクロナイザ１３６によって受信される。コヒーレンシシンクロナイザ１３６は、コア複合体１０２、１０４の様々なキャッシュでキャッシュ動作を実行して、オフロード要求で識別された仮想アドレス及び／又は物理アドレスに対する全てのキャッシュエントリが確実にコヒーレントなままであるようにする。例えば、オフロード要求がオペランドとして仮想アドレス及び／又は物理アドレスを含む場合、コヒーレンシシンクロナイザ１３６はキャッシュプローブを実行して、オフロード要求で識別された仮想アドレス及び／又は物理アドレスのキャッシュエントリを含むコア複合体のＬ１キャッシュ、Ｌ２キャッシュ及びＬ３キャッシュ内でキャッシュエントリを識別する。識別されたキャッシュエントリがクリーンデータを含む場合、キャッシュエントリは無効化される。識別されたキャッシュエントリがダーティデータを含む場合、キャッシュエントリ内のデータは、メインメモリ（すなわち、メモリデバイス）にフラッシュされる。いくつかの例では、コア複合体内の特定のコアによって発行されたオフロード要求で識別された仮想アドレス及び／又は物理アドレスに対応するキャッシュエントリは、コヒーレンシシンクロナイザ１３６に到達する前に無効化／フラッシュされ、したがって、コヒーレンシシンクロナイザ１３６は、システム１００内の他のコア複合体に対してのみキャッシュプローブを実行する。他の例では、コヒーレンシシンクロナイザ１３６は、オフロード要求を直接受信し、システム１００内の全てのコア複合体に対してキャッシュプローブを実行する。メモリフェンスは、オフロード要求で識別された仮想アドレス及び／又は物理アドレスのキャッシュエントリが無効化又はフラッシュされるまで、より若い非オフロード命令が、これらのキャッシュエントリに確実にアクセスしないようにするために用いられ得る。このようにして、より若い非オフロード命令が、古いキャッシュデータにアクセスしないようにし、代わりに、（以前のオフロード要求によって変更され得る）メインメモリからデータを取り込む必要がある。適切なキャッシュ動作の完了後、オフロード要求は、オフロードターゲットデバイスにオフロードするためにメモリコントローラ１３４に送信される。コヒーレンシシンクロナイザの動作については、以下でより詳細に説明する。

いくつかの実施形態では、メモリコントローラ１３４は、書き込み要求がオフロード要求であることを示すフラグを備える書き込み要求として構成され得るオフロード要求を受信する。これらの実施形態では、メモリコントローラ１３４は、要求を復号して、要求がオフロード要求であると判定し、オフロード命令並びにオフロード要求を完了するためのオペランドを識別する。メモリコントローラ１３４は、オフロード要求から、オフロードターゲットデバイス内に位置するコマンドバッファへのポインタを介して、要求された動作を識別する。メモリコントローラ１３４は、オフロード要求を、オフロードターゲットデバイスに送信される１つ以上のコマンドに分解する。ターゲットデバイスがＰＩＭデバイスである例では、要求は、メモリコントローラ１３４によって１つ以上のＰＩＭコマンドに分割されるＰＩＭ要求であり得る。

図１に示される例では、プロセッサ１０１は、データを記憶するための１つ以上のメモリアレイ１４２を含むメモリデバイス１３８に結合されている。いくつかの例では、メモリデバイス１３８は、プロセッサ１０１とインターフェースするメモリインターフェース論理ダイ上に積層された複数のメモリダイを含む、積層ダイナミックランダムアクセスメモリ（dynamic random-access memory、ＤＲＡＭ）デバイスである。例えば、メモリデバイス１３８は、ＨｉｇｈＢａｎｄｗｉｄｔｈＭｅｍｏｒｙ（ＨＢＭ）モジュール又はＨｙｂｒｉｄＭｅｍｏｒｙＣｕｂｅ（ＨＭＣ）モジュールであり得る。これらの例では、ＨＢＭモジュールは、プロセッサ１０１とともにＳｏＣに統合され得るか、又は、インターポーザを介してプロセッサ１０１に結合され得る。他の例では、メモリデバイス１３８は、メモリインターフェース論理を含むＤｕａｌＩｎ－ｌｉｎｅＭｅｍｏｒｙＭｏｄｕｌｅ（ＤＩＭＭ）等のインラインメモリモジュールであり得る。メモリコントローラ１３４は、読み出し要求、書き込み要求及び他のメモリ動作等のコマンドをメモリデバイス１３８のメモリ論理１４０に対して発行する。いくつかの実施形態では、メモリコントローラ１３４によってメモリデバイス１３８に送信されるコマンドは、オフロードコマンドとしてフラグが立てられ得る。

いくつかの実施形態では、メモリデバイス１３８は、メモリ論理１４０がメモリデバイス１３８内でメモリ動作及び非メモリ動作又は機能（例えば、算術演算及び論理演算）のセットを実行するように設計されるという点で、プロセッシングインメモリ（ＰＩＭ）デバイスを含む。いくつかの実施形態では、メモリデバイス１３８は、機能によって動作するオペランドを提供するために使用され得る、個別のレジスタファイル１４４を含む。

オフロードターゲットがメモリデバイス１３８であり、メモリデバイスがＰＩＭデバイスである実施形態では、メモリデバイス１３８は、プロセッサ１０１のメモリコントローラ１３４からのオフロード要求から生成されたオフロードコマンドを受信する。図１に示される例では、メモリ論理１４０は、ＰＩＭ要求で識別された固定機能を実装するための固定機能モジュール１４６に結合されている。固定機能モジュール１４６は、オフロード命令を含むスレッドの起動後に固定機能モジュール１４６によって実行される実際のコマンドが投入されるコマンドバッファを含み得る。いくつかの実施形態では、各オフロード命令のオペコードは、こちらもオフロードターゲットデバイスで実行される動作（ロード、記憶、加算、減算、乗算、インクリメント等）のコマンドへの埋め込みポインタを含む。オフロード要求がオフロード命令から生成される場合には、このポインタもオフロード要求に含まれる。これらの実施形態では、オフロードコマンドの生成時に、メモリコントローラは、オフロード要求内のポインタを使用して、動作用の実際のコマンドを含むオフロードターゲットデバイスのコマンドバッファ内の位置を識別する。

いくつかの例では、コヒーレンシシンクロナイザ１３６及びメモリコントローラ１３４は、コア複合体１０２、１０４を実装するダイ１５４、１５６とは異なるＩ／Ｏダイ１５０に実装され得る。Ｉ／Ｏダイ１５０は、１つ以上のチャネルを介して、メモリ論理１４０及び固定機能モジュール１４６を含むメモリインタフェースダイ（図示せず）に結合され得る。各々がメモリアレイ１４２を含む１つ以上のメモリ構成要素は、メモリインターフェースダイ上に積層され、シリコン貫通ビアを使用してメモリインターフェースダイに結合され得る。Ｉ／Ｏダイ１５０は、オンチップファブリックを通してコア複合ダイ１５４、１５６に結合され得る。様々な例において、メモリデバイス１３８は、ＰＩＭオフロード命令を実行するための実行論理が何れのプロセッサコアの一部でもないという点で、リモート実行デバイスである。例えば、メモリデバイス１３８は、プロセッサコア１０６、１０８、１１０、１１２と同一のチップ上又は同一のパッケージ内に実装され得るが、実行局所性に関してプロセッサ１０１から「リモート」のままである。いくつかの例では、システム１００のプロセッサ１０１及びメモリデバイス１３８は、同一チップ（例えば、ＳｏＣ）上で統合される。他の例では、システム１００は、プロセッサ１０１及びその構成要素（例えば、ＳｏＣとして）が、同一半導体パッケージ内のメモリデバイス１３８とともにインターポーザウェハ上に配置されるシステムインパッケージ（ＳｉＰ）アーキテクチャを実装する。例示的なシステム１００は、プロセッサダイ１５４、１５６、Ｉ／Ｏダイ１５０及びメモリデバイス１３８の１つ以上のダイを含むものとして説明されているが、読者は、システムがより多くの又はより少ないダイによって実装され、その構成要素が任意の数のダイにわたって統合又は分散され得ることを理解するであろう。

図１に示されるいくつかの実施形態では、各コア１０６、１０８、１１０、１１２は、それぞれのアドレスロックバッファ（address lock buffer、ＡＬＢ）１６０、１６２、１６４、１６６を含む。オフロード命令（例えば、ｒｅｍｏｔｅ＿ｌｏａｄ又はｒｅｍｏｔｅ＿ｓｔｏｒｅ）がメモリオペランドを含む場合、メモリオペランドから生成されたメモリアドレスはＡＬＢ内のエントリに記憶され、エントリは有効とマークされる。ＡＬＢの有効なエントリ内のメモリアドレスの存在は、コア上で実行されているより若い非オフロード命令がロックされたメモリアドレスにアクセスすることを防止することによって、メモリアドレスを効果的にロックする。メモリアドレスは、キャッシュ動作の実行中にロックされたままであり、コアで実行されるより若い非オフロード命令が、古い又は無効なデータに確実にアクセスしないようにする。メモリアドレスは、かかるキャッシュ動作の開始時又は完了時にロック解除され得る。例えば、メモリアドレスは、メモリアドレスを含むエントリを無効としてマークすることによってロック解除され、したがって、新しいメモリアドレスがそのエントリを占有することを可能にする。ＡＬＢが有効なエントリで一杯である場合、メモリオペランドを含むオフロード命令は、ＡＬＢ内のエントリが利用可能になるまで停止し得る。

いくつかの実施形態では、メモリアドレスは、コヒーレンシシンクロナイザ１３６からのロック解除要求の受信時にロック解除される。コヒーレンシシンクロナイザ１３６がコアによって生成されたオフロード要求を受信すると、コヒーレンシシンクロナイザ１３６は、上述したように、キャッシュプローブを送信して、プロセッサ１０１の各コア複合体内の様々なキャッシュ（Ｌ１、Ｌ２、Ｌ３）に存在し得るメモリアドレスに対応するデータを無効化又はフラッシュする。いくつかの例では、コヒーレンシシンクロナイザ１３６は、コヒーレンシシンクロナイザ１３６内のプローブフィルタが、プローブ無効化／フラッシュ要求を他のコア又はコア複合体のキャッシュに送信する場合、オフロード要求を送信したコアのＡＬＢにロック解除要求を送信する。これらの例では、ターゲットメモリアドレスに対するキャッシュエントリを含むキャッシュが存在しないとプローブフィルタが判定した場合、プローブ要求を送信することなく、ロック解除要求がＡＬＢに返される。

より若い非オフロード命令によるアクセスは、ターゲットキャッシュエントリ内のデータの無効化後又はフラッシュ後にキャッシュに到着することが保証されるので、コヒーレンシシンクロナイザ１３６が、シングルスレッドシナリオにおいてプローブ要求と並行してロック解除要求を開始することが安全である。これは、より若い非オフロードメモリアクセスが開始される前に、ＡＬＢエントリがロック解除要求によってクリアされる必要があるためである。ロック解除要求がコアに到着する時までに、プローブの無効化／フラッシュは既にキャッシュコントローラにあるか、又は、全てのコア複合体にわたって完了している。マルチスレッドシナリオでは、オフロードトランザクション（以下で詳細に説明する）の開始時及び終了時の特殊命令は、非オフロード命令が、プローブ要求による無効化又はキャッシュからのフラッシュの前にキャッシュエントリ内のデータにアクセスしないことを保証する。その時までに、より若い非オフロードメモリ要求は、それらの依存オフロード要求の後にシリアル化され、オフロード要求の完了後にそれらがデータを観察することを保証する。

このようにして、ＡＬＢは、プローブフィルタに向けて現在転送中である、又は、プローブフィルタのプロービング後にデータを無効化／フラッシュするプロセス中である、リタイアしたｒｅｍｏｔｅ＿ｌｏａｄ命令要求及びｒｅｍｏｔｅ＿ｓｔｏｒｅ命令要求によってターゲットにされたメモリアドレスを記憶するために使用され得る。ＡＬＢ内のメモリアドレスはロックされ、ＡＬＢ内でヒットした、より若い非オフロードアクセスでは、メモリへのアクセスがブロックされる。いくつかの例では、オフロード命令粒度は、キャッシュラインサイズよりも大きい可能性があり、したがって、いくつかの実施形態では、ＡＬＢエントリは、キャッシュラインよりも大きいアドレスを追跡することができる。代替的に、ＡＬＢエントリ粒度は、キャッシュラインの粒度と同一のままであり得るので、複数のＡＬＢエントリは、粒度がキャッシュラインよりも大きいオフロード命令について、キャッシュラインごとに１つ作成され得る。

コア（例えば、コア１０６）がシングルスレッドアプリケーションにおいて以下のオフロード命令のシーケンスを処理する例を考える。この例では、レジスタｒ１は、上述したように拡張ＩＳＡ内のアーキテクチャ化レジスタである。例えば、レジスタｒ１は、コンパイル時にアプリケーションコンパイラによってオフロードデバイス内で割り当てられ得る。プロセッサシステム上でホストされるアプリケーションのスレッドにおいて、コアは、以下のコードシーケンス（すなわち、オフロードトランザクション）を実行することができる。
ｒｅｍｏｔｅ＿ｌｏａｄｒ１，ＷＯＲＤＰＴＲ［ｒｓｉ＋ｒａｘ］
ｒｅｍｏｔｅ＿ｏｐ．．．．
ｒｅｍｏｔｅ＿ｏｐ．．．
ｒｅｍｏｔｅ＿ｏｐ．．．
ｒｅｍｏｔｅ＿ｓｔｏｒｅ［ｒｄｉ＋ｒａｘ］，ｒ１
上記のオフロード命令のシーケンスにおいて、コアは、ｒｓｉ＋ｒａｘへのポインタであるメモリオペランドのメモリアドレス（この例では、０ｘｆｆｆｆｃ７０であると計算される）を生成することによって、ｒｅｍｏｔｅ＿ｌｏａｄ命令を実行する。アドレスに対するメモリ順序付けチェックは、古い命令に関しても実行される。ｒｅｍｏｔｅ＿ｌｏａｄ命令がリタイアすると、コアは、オフロードターゲットデバイスが０ｘｆｆｆｆｃ７０のデータをターゲットデバイスのローカルレジスタｒ１にロードするためのオフロード要求を生成し、アドレス０ｘｆｆｆｆｃ７０がＡＬＢ１６０内のオープンエントリに追加され、エントリが有効とマークされる。この場合、０ｘｆｆｆｆｃ７０をターゲットとするコアのパイプライン内のより若い非オフロード命令が停止される。この例では、次いで、コアは、オフロードターゲットデバイスが様々な動作を実行するための要求（様々なｒｅｍｏｔｅ＿ｏｐ命令）を生成することができる１つ以上のｒｅｍｏｔｅ＿ｏｐ命令を実行し、その結果がレジスタｒ１に書き込まれる。次に、コアは、ｒｄｉ＋ｒａｘへのポインタであるメモリオペランドのメモリアドレス（この例では、０ｘｄｆｆｆｃ７０であると計算される）を生成することによって、ｒｅｍｏｔｅ＿ｓｔｏｒｅ命令を実行する。アドレスに対するメモリ順序付けチェックは、古い命令に関しても実行される。ｒｅｍｏｔｅ＿ｓｔｏｒｅ命令がリタイアすると、コアは、オフロードターゲットデバイスがメモリ内の０ｘｄｆｆｆｃ７０においてレジスタｒ１にデータを記憶するためのオフロード要求を生成し、アドレス０ｘｄｆｆｆｃ７０がＡＬＢ１６０内のオープンエントリに追加され、エントリが有効とマークされる。この場合、０ｘｄｆｆｆｃ７０をターゲットとするコアのパイプライン内のより若い非オフロード命令が停止される。

この例を続けると、ｒｅｍｏｔｅ＿ｌｏａｄ命令のオフロード要求がコヒーレンシシンクロナイザ１３６において受信されると、コヒーレンシシンクロナイザは、メモリアドレス０ｘｆｆｆｆｃ７０のキャッシュエントリを含むコア複合体１０２、１０４内の様々なキャッシュにプローブ要求を送信し（例えば、プローブフィルタを用いて）、プローブは、キャッシュコントローラに、当該エントリに記憶されたクリーンデータを無効化するか、又は、ダーティデータをフラッシュするように要求する。また、コヒーレンシシンクロナイザ１３６は、０ｘｆｆｆｆｃ７０をロック解除するためのロック解除要求をＡＬＢ１６０に送信する。０ｘｆｆｆｆｃ７０に対するロック解除要求がコアで受信されると、０ｘｆｆｆｆｃ７０のＡＬＢエントリは無効とマークされる。同様に、ｒｅｍｏｔｅ＿ｓｔｏｒｅのオフロード要求がコヒーレンシシンクロナイザ１３６において受信されると、コヒーレンシシンクロナイザは、メモリアドレス０ｘｄｆｆｆｃ７０のキャッシュエントリを含むコア複合体１０２、１０４内の様々なキャッシュにプローブ要求を送信し（例えば、プローブフィルタを用いて）、プローブは、キャッシュコントローラに、当該エントリに記憶されたクリーンデータを無効化するように要求する。また、コヒーレンシシンクロナイザ１３６は、ＡＬＢ１６０にロック解除要求を送信して、０ｘｄｆｆｆｃ７０をロック解除する。０ｘｄｆｆｆｃ７０に対するロック解除要求がコアで受信されると、０ｘｄｆｆｆｃ７０のＡＬＢエントリは無効とマークされる。

このようにして、より若い非オフロード（すなわち、ローカルに実行される）命令によってターゲットにされるメモリアドレスは、キャッシュ動作の完了後にそれらのアクセスがキャッシュコントローラに到着することが保証されるので、ロック解除されて、それらの命令の実行を可能にし得る。更に、オフロード命令はプログラム順にオフロードターゲットデバイスに送信されるので、プロセッサ１０１は、より若い非オフロード命令のリタイアを可能にする前に、オフロードターゲットデバイスからの肯定応答を待機する必要がない。更に、プロセッサシステムキャッシュ１１４～１３２の何れにもフラッシュすべきダーティデータが存在しない場合、プローブ応答を待機せずにオフロード要求を送信することができる。

当業者であれば、オフロード命令のメモリオペランドから生成されるメモリアドレスは、上述したキャッシュ動作が開始又は完了され得るまで、コアで実行される、より若い非オフロード命令によるメモリアドレスへのアクセスが防止される限り、様々な方法でロックされ得ることを認識するであろう。また、当業者は、プローブフィルタの代わりに、各キャッシュがプローブされて、ターゲットメモリアドレスに対するキャッシュエントリが存在するかどうかを判定し得ることを認識するであろう。

いくつかの実施形態では、複数のコアがオフロード命令を処理するマルチスレッドアプリケーションに対応するために、２つの追加の同期プリミティブが拡張ＩＳＡに含まれる。バリア初期化プリミティブ（すなわち、ｂａｒｒｉｅｒ＿ｓｔａｒｔ命令）は、オフロードトランザクションの開始時に生じ、バリア初期化プリミティブ（すなわち、ｂａｒｒｉｅｒ＿ｅｎｄ命令）は、オフロードトランザクションの終了時に生じる。ｂａｒｒｉｅｒ＿ｓｔａｒｔ命令及びｂａｒｒｉｅｒ＿ｅｎｄ命令は、プログラマの指示又はコンパイラによって導入され得る。これらの実施形態では、ｂａｒｒｉｅｒ＿ｓｔａｒｔ命令及びｂａｒｒｉｅｒ＿ｅｎｄ命令は、プロセッサ１０１内のコア１０６、１０８、１１０、１１２の全てによって共有されるＡＬＢディレクトリ１７０とともに使用されて、オフロードトランザクションを処理中の各コアの進捗を追跡する。図１に示される例では、ＡＬＢディレクトリ１７０は、コヒーレンシシンクロナイザ１３６に隣接して（例えば、同じダイに）実装される。ＡＬＢディレクトリ１７０は、各マルチスレッドオフロードトランザクションの状態を記録する構造を使用して、コアと通信し、コアで実行されるオフロード命令の進捗を追跡するためのコントローラを含む。ＡＬＢディレクトリ１７０は、マルチスレッドプロセスでオフロードトランザクションのカーネルを実行しているコアごとに、何れのコアがｂａｒｒｉｅｒ＿ｓｔａｒｔ命令及びｂａｒｒｉｅｒ＿ｅｎｄ命令に遭遇したかを追跡する。例えば、ＡＬＢディレクトリ１７０は、マルチスレッドプロセスの特定のプロセス識別子に関連するバリア状態ベクトルを含み、バリア状態ベクトルの各ビットは、コア識別子を表す。かかる例では、特定のコアを表すビットは、当該コアがオフロードトランザクションの実行を開始する場合（例えば、ｂａｒｒｉｅｒ＿ｓｔａｒｔ命令の実行時）にアサートされ、コアがオフロードトランザクションを完了する場合（例えば、ｂａｒｒｉｅｒ＿ｅｎｄ命令の実行後）にクリアされ得る。

いくつかの実施形態では、図１に示されるように、各コア１０６、１０８、１１０、１１２は、ＡＬＢディレクトリ１７０に通信可能に結合されたそれぞれのＡＬＢ１６０、１６２、１６４、１６６を含む。ｒｅｍｏｔｅ＿ｌｏａｄ命令又はｒｅｍｏｔｅ＿ｓｔｏｒｅ命令等オフロード命令がリタイアする毎に、オフロード命令のメモリオペランドから生成されたメモリアドレスは、コアのＡＬＢ内のエントリを占有する。各オフロード要求は、オフロード要求内のメモリアドレスに対する変換ルックアップの一部としてテーブルルックアサイドバッファからアクセスされ得るスレッドのプロセス識別子を持ち運ぶ。ｂａｒｒｉｅｒ＿ｓｔａｒｔ命令は、特定のコアで実行されるプロセスの特定のスレッドが、オフロードトランザクション用のオフロード命令を実行しようとしていることを示す。スレッドのプロセス識別子並びにコア識別子及び／又はスレッド識別子は、ＡＬＢディレクトリ１７０によって記録される。言い換えれば、ｂａｒｒｉｅｒ＿ｓｔａｒｔ命令の実行時に、ＡＬＢディレクトリ１７０は、特定のコアが特定のプロセスのスレッドのためにオフロードトランザクションを実行していることを記録する。ＡＬＢディレクトリ１７０は、同一のプロセス識別子を有するスレッドに対してオフロードトランザクションを実行しているコアの進捗を追跡する。各コアがｂａｒｒｉｅｒ＿ｅｎｄ命令を実行し、オフロードトランザクション内の全てのオフロード命令がリタイアした後にそのＡＬＢをクリアすると、ＡＬＢディレクトリ１７０は、特定のコアがプロセス識別子に対応するオフロードトランザクションの処理を完了したことを記録する。ＡＬＢディレクトリ１７０が、プロセス識別子に対応するオフロードトランザクションを処理している全てのコアから通知を受信すると（すなわち、全てのコアがｂａｒｒｉｅｒ＿ｅｎｄ命令に遭遇し、それぞれのＡＬＢをクリアすると）、ＡＬＢディレクトリ１７０は、より若い非オフロード命令の実行をブロックするセマフォをクリアしてよいという通知を、それらのコアに送信する。この通知を受信すると、コアはｂａｒｒｉｅｒ＿ｅｎｄ命令をリタイアさせ、より若い非オフロード命令の実行開始を可能にする。

したがって、ＡＬＢディレクトリ１７０のコントローラは、全スレッドがそれぞれのＡＬＢをクリアするまで、全スレッドが非オフロード命令を実行しないようにする（このことは、より若い非オフロード命令が、キャッシュ内のオフロード命令によってターゲットとされるデータを見ないことを保証する）。このイベントは、ｂａｒｒｉｅｒ＿ｅｎｄ命令のリタイアをマークする。したがって、ｂａｒｒｉｅｒ＿ｅｎｄ命令が全てのコアでリタイアするまで、マルチスレッド化されたオフロードトランザクションを実行する全てのコアでのより若い非オフロード命令の実行を停止することによって、これらのオフロードトランザクションとより若い非オフロード命令との間のメモリ順序付けが保持される。

いくつかの実施形態では、ｂａｒｒｉｅｒ＿ｓｔａｒｔ命令は、マルチスレッド化されたオフロードトランザクションを同時実行しているスレッドの数をシグナリングする。一例では、ｂａｒｒｉｅｒ＿ｓｔａｒｔ命令はフォーマット「ｂａｒｒｉｅｒ＿ｓｔａｒｔＲｘ」を有し、アーキテクチャレジスタＲｘは、オフロードトランザクション（例えば、ＰＩＭカーネル）を同時に実行するスレッドの数を含む。かかる例では、レジスタＲｘは、例えば、ソフトウェアバリアと同じ機構を使用して、スレッドがフォークされる前にアプリケーションによってロードされる。レジスタＲｘによって保持されるスレッドカウントは、各オフロードトランザクションの開始時にｂａｒｒｉｅｒ＿ｓｔａｒｔ命令を実行すると、ＡＬＢディレクトリ１７０に通信される。場合によっては、ｂａｒｒｉｅｒ＿ｓｔａｒｔ命令は、スレッド及びより若いオフロードを同期させる必要はなく、オフロードトランザクションからの非オフロード命令（すなわち、オフロードコード領域）は、ｂａｒｒｉｅｒ＿ｓｔａｒｔ命令の完了又はリタイアを待機せずに発行することができる。複数のスレッドがｂａｒｒｉｅｒ＿ｓｔａｒｔをＡＬＢディレクトリ１７０に送信しても、スレッドカウントはＡＬＢディレクトリ１７０によって一度だけ記録される。ｂａｒｒｉｅｒ＿ｓｔａｒｔ命令から識別されるスレッドカウントは、ＡＬＢディレクトリ１７０のスレッドのプロセス識別子のエントリに記録される。

別の例では、ｂａｒｒｉｅｒ＿ｓｔａｒｔ命令はフォーマット「ｂａｒｒｉｅｒ＿ｓｔａｒｔ［Ｒｘ］」を有し、スレッド数は、アーキテクチャレジスタＲｘ内で識別された記憶場所からロードされる。この場合、メモリからのスレッドカウントの読み取りに対するレイテンシは非決定性であり、したがって、ｂａｒｒｉｅｒ＿ｓｔａｒｔ命令は、ＡＬＢディレクトリ１７０が同一プロセスのスレッドを実行している全てのコアに対してスレッドカウントの受信を肯定応答するまで、スレッド内のより若い命令の実行をブロックする。肯定応答は、最後のｂａｒｒｉｅｒ＿ｓｔａｒｔメッセージがプロセスのＡＬＢディレクトリ１７０に到着するとすぐに全コアに送信される。したがって、オフロードトランザクションにおけるより若い命令の実行は、全スレッドがそれらのｂａｒｒｉｅｒ＿ｓｔａｒｔ通知をＡＬＢディレクトリ１７０に送信することによって同期するまでブロックされる。複数のスレッドがｂａｒｒｉｅｒ＿ｓｔａｒｔ通知をＡＬＢディレクトリ１７０に送信しても、スレッドカウントはＡＬＢディレクトリ１７０によって一度だけ記録される。ｂａｒｒｉｅｒ＿ｓｔａｒｔ命令から識別されるスレッドカウントは、ＡＬＢディレクトリ１７０のスレッドのプロセス識別子のエントリに記録される。

別の例では、ｂａｒｒｉｅｒ＿ｓｔａｒｔ命令は、フォーマット「ｂａｒｒｉｅｒ＿ｓｔａｒｔ［Ｒｘ］」を有し、スレッドカウントは、アーキテクチャレジスタＲｘ内で識別された記憶場所からロードされる。この例では、全てのスレッドがブロックされる必要はなく、ｂａｒｒｉｅｒ＿ｓｔａｒｔ命令を実行している第１のスレッドのみが、メモリからＡＬＢディレクトリ１７０へのスレッドカウントデータのロードを担当する。例えば、プロセス用のＡＬＢディレクトリエントリ内に特別なフラグビットが設定され得る。一例では、スレッドカウントフェッチ（ｔｈｒｅａｄｃｏｕｎｔｆｅｔｃｈ、ＴＣＦ）ビットは、ｂａｒｒｉｅｒ＿ｓｔａｒｔ通知が最初にＡＬＢディレクトリ１７０に到達するスレッドによって設定される。設定されたＴＣＦビットは、スレッドカウントが同一プロセスの他の全スレッドに対してメモリからフェッチされていることを示す。その後、ＡＬＢディレクトリ１７０は、同一プロセスの他のスレッドからｂａｒｒｉｅｒ＿ｓｔａｒｔ通知を受信し、スレッドカウントフェッチ動作が進行中であることをＴＣＦビットから識別し、肯定応答をそれぞれのコアに送り返して、より若い命令（オフロードされた又はオフロードされていない）の発行を可能にする。したがって、スレッドカウントがメモリからフェッチして戻されるのをスレッドが待機する必要はない。ＴＣＦビットを最初に設定したスレッドがメモリからスレッドカウントをフェッチすると、ＴＣＦビットをリセットし、プロセスのＡＬＢディレクトリエントリにスレッドカウントを記憶する。

これらの例では、カウントは、オフロードトランザクションを実行するスレッドの数をＡＬＢディレクトリ１７０に示し、ｂａｒｒｉｅｒ＿ｅｎｄ命令によって使用されるであろう。ＡＬＢディレクトリ１７０は、プロセスごとに全スレッドのバリア状態を追跡する、プロセッサ内のスレッドの最大数に等しい（又はそれ未満の）長さを有するバリア状態ビットベクトルを維持する。各ビットベクトルエントリは、プロセッサ内の単一スレッドに対応する。ｂａｒｒｉｅｒ＿ｅｎｄ命令が各スレッドで実行される場合、それは、ＡＬＢディレクトリ１７０から肯定応答が戻るまで、より若い非オフロード命令の実行をブロックする。また、ｂａｒｒｉｅｒ＿ｅｎｄ要求をＡＬＢディレクトリ１７０に送信する。ｂａｒｒｉｅｒ＿ｅｎｄ要求は、スレッドの対応するビットベクトルエントリをリセットする。ビットベクトル全体がリセットされると、ＡＬＢディレクトリ１７０は、プロセスの全スレッドに肯定応答を送信し、プロセスのために記憶されたスレッドカウントをリセットする。ＡＬＢディレクトリ１７０からの肯定応答は、同一プロセスの全スレッドのバリアを解除し、ＰＩＭコードに続いて非ＰＩＭコードの実行を再開することができる。

プロセッサ１０１でホストされるマルチスレッドアプリケーションが、図１に示されるコア１０６、１０８、１１０、１１２の各々で実行される並列オフロードトランザクションの実行をもたらす例を考える。ここでは、高性能コンピューティングカーネル並びに機械学習推論及びトレーニングでよくあるように、全スレッドが同一コードパスを実行するようにマルチスレッドアプリケーションが並列化されていると仮定する。最終的に、各コアはｂａｒｒｉｅｒ＿ｓｔａｒｔ命令に遭遇する。各コアがｂａｒｒｉｅｒ＿ｓｔａｒｔ命令を実行する場合、コアは、ｂａｒｒｉｅｒ＿ｓｔａｒｔ命令に遭遇したことを、スレッドのプロセス識別子並びにコア識別子及び／又はスレッド識別子とともにＡＬＢディレクトリ１７０に示す。ＡＬＢディレクトリ１７０は、プロセス識別子ごとにバリア状態ベクトルを維持する。コアからこの指標を受信したことに応じて、ＡＬＢディレクトリ１７０は、対応するプロセス識別子エントリのバリア状態ベクトルにおいて、当該コアのコア識別子に対応するバリア状態ベクトルビットを「１」に設定する。コア１０６、１０８、１１０、１１２の全てがｂａｒｒｉｅｒ＿ｓｔａｒｔ命令を実行し、ＡＬＢディレクトリ１７０に通知すると、プロセス識別子に対応するバリア状態ベクトルは「１１１１」になるであろう。いくつかの例では、スレッドカウント（すなわち、オフロードトランザクションを同時実行するスレッドの数）は、レジスタから又はメモリからロードされる。オフロードトランザクションのスレッドカウントは、全コアがそれらのそれぞれのオフロードトランザクションのｂａｒｒｉｅｒ＿ｓｔａｒｔ命令を実行したことを判定するために使用され得る。いくつかの例では、ＡＬＢディレクトリ１７０は、バリア状態ベクトルが初期化されると、コアがオフロード命令の実行を開始し得ることを各コアに示すことによって、オフロードトランザクションの実行を同期させ得る。他の例では、スレッドのオフロードトランザクションでの命令の実行は、ＡＬＢディレクトリ１７０がｂａｒｒｉｅｒ＿ｓｔａｒｔ要求の受信を肯定応答するとすぐに開始し得る。

この例を続けると、コアは、オフロード命令の実行及びリタイアを開始する。各コアがｂａｒｒｉｅｒ＿ｅｎｄ命令を実行し、コアがそのＡＬＢをクリアすると、コアは、ｂａｒｒｉｅｒ＿ｅｎｄ命令に遭遇したことをＡＬＢディレクトリ１７０に通知する。例えば、任意の例示的な順序で、コア１０６が、ｂａｒｒｉｅｒ＿ｅｎｄ命令に到達し、そのＡＬＢ１６０がクリアであることをＡＬＢディレクトリ１７０に通知すると、ＡＬＢディレクトリ１７０は、プロセス識別子のバリア状態ベクトルを「０１１１」に更新する。コア１１０が、ｂａｒｒｉｅｒ＿ｅｎｄ命令に到達し、そのＡＬＢ１６４がクリアであることをＡＬＢディレクトリ１７０に通知すると、ＡＬＢディレクトリ１７０は、プロセス識別子のバリア状態ベクトルを「０１０１」に更新する。コア１０８が、ｂａｒｒｉｅｒ＿ｅｎｄ命令に到達し、そのＡＬＢ１６２がクリアであることをＡＬＢディレクトリ１７０に通知すると、ＡＬＢディレクトリ１７０は、プロセス識別子のバリア状態ベクトルを「０００１」に更新する。コア１１２が、ｂａｒｒｉｅｒ＿ｅｎｄ命令に到達し、そのＡＬＢ１６６がクリアであることをＡＬＢディレクトリ１７０に通知すると、ＡＬＢディレクトリ１７０は、プロセス識別子のバリア状態ベクトルを「００００」に更新し、したがって、プロセス識別子のバリア状態ベクトルは空である。プロセス識別子のバリア状態ベクトルが空になると、ＡＬＢディレクトリ１７０は、コア１０６、１０８、１１０、１１２に、バリアを解除し、より若い非オフロード命令の実行を開始するように通知する。

図２は、本開示の様々な実施形態による、オフロードされた命令とオフロードされていない命令との間のメモリ順序付けを保持するための別の例示的なシステム２００を示すブロック図である。図２の例は、システム２００が図１に示されたマルチコアプロセッサ２０１に類似のマルチコアプロセッサ２０１も含むという点で、図１の例示的なシステムに類似している。例示的なシステム２００は、マルチコアプロセッサ２０１がコアごとのＡＬＢ１６０、１６２、１６４、１６６の代わりにグローバルＡＬＢ２６０を使用するという点で、図１の例示的なシステム１００とは異なる。いくつかの実施形態では、グローバルＡＬＢ２６０は、ＡＬＢディレクトリ１７０を含む。いくつかの例では、グローバルＡＬＢ２６０は、Ｉ／Ｏダイ１５０に実装され、コヒーレンシシンクロナイザ１３６に通信可能に結合され得るか、又は、それに統合され得る。いくつかの実施形態では、グローバルＡＬＢ２６０は、コアごとのＡＬＢ１６０、１６２、１６４、１６６のように、コントローラと、オフロード要求によってターゲットにされるメモリアドレスのインデックスと、を含む。これらの実施形態では、同一のプロセス識別子を有するスレッドでオフロード命令を実行する全てのコアについて、１つのメモリアドレス対して１つのエントリが記録される。グローバルＡＬＢ２６０は、セットアソシアティブキャッシュとして編成され得る。

いくつかの実施形態では、（前述のように）各オフロード要求がコヒーレンシシンクロナイザにおいて受信されると、グローバルＡＬＢ２６０は、オフロード要求によってアクセスされたメモリアドレスのエントリで更新される。グローバルＡＬＢ２６０は、全てのコアから生じるオフロード要求によってアクセスされるメモリアドレスごとに１つのエントリを割り当て、オフロード要求は同一のプロセス識別子を含む。エントリは、メモリアドレスと、メモリアドレスにアクセスするオフロード要求を送信したスレッド数のカウントと、を含む。いくつかの例では、エントリは、メモリアドレスへのアクセスを含むオフロード要求のスレッド識別子及び／又はコア識別子を含む。オフロード要求の受信に応じて、コヒーレンシシンクロナイザ１３６は、上述したように適切なキャッシュプローブ動作を開始し（例えば、メモリアドレスのキャッシュエントリ内のクリーンデータを無効化し、ダーティデータをフラッシュするためにプローブフィルタによってプローブ要求を送信する）、送信されたプローブ要求ごとにメモリアドレスに対応するエントリ内のカウンタをインクリメントする。各スレッド／コアからのプローブ応答がコヒーレンシシンクロナイザ１３６に到着すると、グローバルＡＬＢ２６０の対応するエントリ内のカウントがデクリメントされる。メモリアドレスにアクセスする全てのスレッドからのプローブ応答がグローバルＡＬＢ２６０に到着すると、そのカウントが０に設定されるので、当該メモリアドレスのグローバルＡＬＢエントリがクリアされ得る。グローバルＡＬＢ２６０は、同一プロセスのスレッド間でメモリアドレスエントリの共有を可能にする（これにより、グローバルＡＬＢ２６０の容量に対する要求を効果的に低減することができる）。各グローバルＡＬＢエントリは、プロセス間のトラフィックを区別するためのタグとして、メモリアドレスとともにプロセス識別子を使用し得る。

これらの実施形態では、ＡＬＢディレクトリ１７０は、コアごとのＡＬＢ実施形態に関して上述したように更新される。コアがｂａｒｒｉｅｒ＿ｓｔａｒｔ命令を実行する場合、ＡＬＢディレクトリ１７０は、コアがオフロード命令の実行を開始していることを示すように更新される。コアがｂａｒｒｉｅｒ＿ｅｎｄ命令を実行する場合、ＡＬＢディレクトリ１７０は、コアがオフロードトランザクション内の全てのオフロード命令の処理を完了したことを反映するように更新される。特定のプロセスのスレッドでオフロードトランザクションを実行する全てのコアがｂａｒｒｉｅｒ＿ｅｎｄ命令に到達した場合、グローバルＡＬＢ２６０が、まだクリアすべきプロセスの残りのメモリアドレスエントリの何れかを含むかどうかが判定される。グローバルＡＬＢ２６０内のプロセスのメモリアドレスエントリの全てがクリアされると（すなわち、スレッドカウントが「０」である）、ＡＬＢディレクトリ１７０のコントローラは、より若い非オフロード命令の実行をブロックするセマフォを解除するために信号をコアに送信する。この信号を受信すると、コアは、ｂａｒｒｉｅｒ＿ｅｎｄ命令がリタイアし、非オフロード命令の実行の続行を可能にする。

２つのコア１０６、１１０が、プロセスＰの並列化されたオフロードトランザクションを含むスレッドを実行している例を考える。コア１０６、１１０がｂａｒｒｉｅｒ＿ｓｔａｒｔ命令を実行すると、ＡＬＢディレクトリ１７０内のバリア状態ベクトルは、コア１０６、１１０がＰＩＤによって識別されるプロセスＰのためにオフロード命令を実行していることを反映するように更新される。この例では、コア１０６は、メモリオペランドとしてメモリアドレス０ｘＦＦＦＦを含むオフロード要求（例えば、０ｘＦＦＦＦでのデータのロード又は記憶の何れか）を発行する。グローバルＡＬＢテーブルエントリは、「１」のカウントを有するインデックスタグ（例えば、メモリアドレス：ＰＩＤ）で初期化される。０ｘＦＦＦＦのキャッシュエントリ内のデータを無効化及び／又はフラッシュするためのプローブ要求が、コヒーレンシシンクロナイザ１３６によって送信される。コア１１０が、メモリオペランドとしてメモリアドレス０ｘＢＦＡＦを含むオフロード要求（例えば、０ｘＢＦＡＦ内のデータのロード又は記憶の何れか）を発行すると、当該要求のタグ（例えば、メモリアドレス：ＰＩＤ）はグローバルＡＬＢ２６０内のエントリにヒットし、エントリのカウントは「２」にインクリメントされる。０ｘＢＦＡＦのキャッシュエントリ内のデータを無効化及び／又はフラッシュするためのプローブ要求が、コヒーレンシシンクロナイザ１３６によって送信される。プローブ要求ごとにプローブ応答が受信されると、エントリのカウントがデクリメントされる。エントリのカウントが「０」であるとき、エントリはクリアされ得る。両方のコア１０６、１１０がｂａｒｒｉｅｒ＿ｅｎｄ命令をシグナリングした場合（すなわち、コア１０６、１１０だけがオフロードトランザクションスレッドを実行する２つのコアであることが既知である場合）、ＡＬＢディレクトリ１７０は、より若い非オフロード命令が実行を開始できるように、セマフォが解除され得、ｂａｒｒｉｅｒ＿ｅｎｄ命令がリタイアされ得ることをコア１０６、１１０にシグナリングする。

代替の実施形態では、グローバルＡＬＢ２６０は、コントローラと、各プロセスのスレッドごとのカウンタを備えるテーブルと、を含む。かかる実施形態は、メモリアドレスを記憶するよりも小さいエリアフットプリントを有し得る。テーブル内のカウンタは、コヒーレンシシンクロナイザ１３６及び／又はプローブフィルタによってプローブ要求がキャッシュに送信されるごとにインクリメントされる。プローブ応答を受信すると、プロセススレッドのカウンタがデクリメントされる。コヒーレンシシンクロナイザ１３６及び／又はプローブフィルタは、プローブ応答内のメモリアドレスを使用して、対応する保留中のオフロード要求キューエントリを識別し、メモリコントローラ１３４へのディスパッチの準備が整っているものとしてオフロード要求をマークする。スレッドがｂａｒｒｉｅｒ＿ｅｎｄ要求を送信するのに応じて、グローバルＡＬＢ２６０は、同一プロセスからのスレッドのカウンタが「０」に達するのを待機する。同一プロセスの全スレッドのカウンタが「０」に達し、ｂａｒｒｉｅｒ＿ｅｎｄ要求が全スレッドから受信されると（ＡＬＢディレクトリ１７０から判定されるように）、グローバルＡＬＢ２６０は、全てのスレッド／コアに対して、バリアを解除し、より若い非オフロード命令の実行を再開するように通知する。

上述したコアごとのＡＬＢ実施形態では、ＡＬＢコンテンツがクリアされると、より若い非オフロード命令が発行され得るので、シングルスレッドアプリケーションには、ｂａｒｒｉｅｒ＿ｓｔａｒｔ命令及びｂａｒｒｉｅｒ＿ｅｎｄ命令は不要であり得る。プロセスごとに１つのスレッドのみが存在するので、ｂａｒｒｉｅｒ＿ｓｔａｒｔは不要であり得る。しかし、グローバルＡＬＢ実施形態では、フェンス命令を使用してＡＬＢディレクトリにシグナリングし、したがって、ＡＬＢディレクトリは、グローバルＡＬＢのクリア時にセマフォを解除するようにコアにシグナリングし得る。すなわち、ｂａｒｒｉｅｒ＿ｅｎｄ命令は、プロセス唯一のスレッドのトラフィックに適用され、プロセッサシステムがグローバルＡＬＢを実装することを除いてｂａｒｒｉｅｒ＿ｅｎｄ命令と同じセマンティクスを有するｆｅｎｃｅ＿ｅｎｄ命令で代用される。

更なる説明のために、図３は、本開示のいくつかの実施形態による、オフロードされた命令とオフロードされていない命令との間のメモリ順序付けを保持する例示的な方法を示すフロー図である。図３の例示的な方法は、オフロードされる動作のための少なくとも１つのオフロード命令を処理する（３０２）ことを含む。いくつかの例では、オフロードされる動作のための少なくとも１つのオフロード命令を処理する（３０２）ことは、アクセラレータ又はプロセッシングインメモリ（ＰＩＭ）デバイス等のオフロードターゲットデバイスで実行される動作のための少なくとも１つのオフロード命令を受信するコア３０８によって実行される。例えば、オフロード命令（例えば、ｒｅｍｏｔｅ＿ｌｏａｄ命令又はｒｅｍｏｔｅ＿ｓｔｏｒｅ命令）は、オフロードターゲットデバイス内のメモリアドレスを表すメモリオペランドと、オフロードターゲットデバイスのレジスタオペランドと、を含み、オフロードターゲットデバイスは、メモリアドレスにおいてデータをレジスタに読み込むか、又は、レジスタ内のデータをメモリアドレスに書き込む動作を実行する。これらの例では、オフロードされる動作のための少なくとも１つのオフロード命令を処理する（３０２）ことは、コア３０８が、メモリオペランドからメモリアドレスを計算し、オフロードターゲットデバイスにコマンドを送信するためにメモリコントローラによって処理され得るオフロード要求を生成することによって実行され、オフロード要求は、動作、レジスタオペランド、計算されたメモリアドレス、並びに、プロセス識別子、スレッド識別子、及び／又はコア識別子等のメタデータ／ヘッダ情報を含む。いくつかの例では、オフロード要求は、要求がオフロード要求であることを示すフラグを備える、書き込み要求の特殊形態であり得る。コア３０８は、図１のプロセッサ１０１及び図２のプロセッサ２０１等のプロセッサ３０１のコア１０６、１０８、１１０、１１２の何れかであり得る。

また、図３の方法は、少なくとも１つのオフロード命令に関連するメモリアドレスにロックを配置する（３０４）ことを含む。少なくとも１つのオフロード命令のオペランドに表されるメモリアドレスに対するロックは、コア３０８で実行されるより若い非オフロード命令が、投機的実行の一部としてメモリアドレスに対応するコアキャッシュのデータにアクセスすることを防止する。いくつかの例では、少なくとも１つのオフロード命令のオペランドに表されるメモリアドレスにロックを配置する（３０４）ことは、オフロード命令のメモリオペランドから計算されたメモリアドレスをＡＬＢに記憶することによって実行される。例えば、ＡＬＢは、図１に関して上述したようなコアごとのＡＬＢ１６０、１６２、１６４、１６６であり、又は、図２に関して上述したようなグローバルＡＬＢ２６０であり得る。他の例では、少なくとも１つのオフロード命令に関連するメモリアドレスにロックを配置する（３０４）ことは、メモリアドレスへのアクセスがブロックされるように、メモリアドレスがインフライトであるオフロード命令によってターゲットにされることを別様に示すことによって実行される。ロックの粒度は、オフロードされた計算の粒度と同じであるか、又は、一定のキャッシュブロック粒度のロックであり得る。例えば、メモリアドレスは、ロックが配置されるメモリアドレスの範囲に含まれ得る。いくつかの例では、ロックは、少なくとも１つのオフロード命令の処理の完了後に、少なくとも１つのオフロード命令に関連するメモリアドレスに配置される。

また、図３の方法は、メモリアドレスをターゲットとする動作の完了に応じて、メモリアドレスに対するロックを除去する（３０６）ことを含む。いくつかの実施形態では、コア３０８は、生成されたオフロード要求をコヒーレンシシンクロナイザ（例えば、図１及び図２のコヒーレンシシンクロナイザ１３６）に転送する。上述したように、コヒーレンシシンクロナイザは、オフロード要求内のメモリアドレスを識別し、プロセッサシステム内の全てのコアのプライベートキャッシュにキャッシュプローブを送信し、キャッシュプローブは、メモリアドレスのキャッシュエントリをターゲットにする。コヒーレンシシンクロナイザは、メモリアドレスのキャッシュエントリを含む各コア及びコア複合体のそれぞれのキャッシュを識別するためのプローブフィルタを含み得る。いくつかの例では、キャッシュ動作は、無効化プローブ要求の送信時にコヒーレンシシンクロナイザによって完了され得る。他の例では、キャッシュ動作は、フラッシュプローブ要求に対するプローブ応答の受信時にコヒーレンシシンクロナイザによって完了され得る。実際に、キャッシュ動作は、より新しい命令が、オフロード命令によってアクセスされたメモリアドレスのキャッシュ内のデータにアクセスしないことが保証され得る場合に完了する。コヒーレンシシンクロナイザがキャッシュ動作を完了する（すなわち、コアの全てのプライベートキャッシュのプローブ要求を開始する）と、コヒーレンシシンクロナイザは、メモリアドレスのロックを解除するようにＡＬＢのコントローラにシグナリングする。

いくつかの例では、メモリアドレスに対するロックを除去する（３０６）ことは、コヒーレンシシンクロナイザからロック解除信号を受信し、それに応じて、メモリアドレスのロックを解除して、より若い非オフロード命令がメモリアドレスにアクセスできるようにすることによって実行される（すなわち、キャッシュエントリが無効化されているので、これらのより若い命令は、オフロード動作が既に完了しているメモリに向かう必要がある）。すなわち、メモリアドレスに対するロックは、要求されたオフロード動作がオフロードターゲットによって実行される前に除去され、更には、オフロードコマンドをオフロードターゲットに送信する前に除去され得る。メモリアドレスのロックを解除することは、ＡＬＢ内のメモリアドレスのエントリを無効化すること又はクリアすることによって実行され得る。いくつかの例では、ＡＬＢエントリをクリアすることは、オフロード要求が生じたコア内で実行される。他の例では、ＡＬＢエントリをクリアすることは、グローバルＡＬＢ内で実行される。

ＡＬＢを使用して、インフライトオフロード処理要求のメモリアドレスのキャッシュエントリがプロセッサ内の全てのコアにわたって無効化されるまで、それらのアドレスをロックすることは、オフロード命令コードシーケンスとより若い非オフロード命令との間のメモリ順序付けを強制することによって、より若い非オフロード命令がキャッシュ内の古いデータにアクセスしないことを確実にすることを読者は理解するであろう。

更なる説明のために、図４は、本開示のいくつかの実施形態による、オフロードされた命令とオフロードされていない命令との間のメモリ順序付けを保持する別の例示的な方法を示すフロー図である。図３の例示的な方法と同様に、図４の方法は、オフロードされる動作のための少なくとも１つのオフロード命令を処理する（３０２）ことと、少なくとも１つのオフロード命令のオペランドに表されるメモリアドレスにロックを配置する（３０４）ことと、メモリアドレスをターゲットとするキャッシュ動作の完了に応じて、メモリアドレスに対するロックを除去する（３０６）ことと、を含む。

また、図４の例示的な方法は、複数のプロセッサコアがオフロード命令のシーケンスの実行をそれぞれ開始したと判定する（４０２）ことを含み、複数のプロセッサコア間で実行するオフロード命令のシーケンスは、同一のプロセス識別子を共有する。いくつかの例では、複数のプロセッサコアがオフロード命令のシーケンスの実行をそれぞれ開始したと判定する（４０２）ことは、２つ以上のコア３０８、４１０が、マルチコアプロセッサ３０１のコア３０８、４１０でホストされるアプリケーションのそれぞれのスレッドにおいてオフロードトランザクションの処理を開始しようとしていると判定するマルチコアプロセッサ３０１によって実行され、複数のプロセッサコア間で実行されるオフロード命令のシーケンスは同一のプロセス識別子を共有する。オフロードトランザクションを実行する各スレッドは、アプリケーションの同一のプロセス識別子を含む。いくつかの例では、オフロードトランザクションは、オフロード命令のシーケンスの開始をマークする特殊命令を含む。これらの例では、各コア３０８、４１０は、この命令又はマーカに達した場合にシグナリングし得る。いくつかの実施形態では、複数のプロセッサコアがオフロード命令のシーケンスの実行をそれぞれ開始したと判定する（４０２）ことは、コア３０８、４１０からオフロード命令の処理の開始を示す信号を受信するＡＬＢディレクトリ（例えば、ＡＬＢディレクトリ１７０）のコントローラによって実行される。

また、図４の方法は、何れのオフロード命令よりも若い非オフロード命令の実行を制限する（４０４）ことを含む。いくつかの例では、何れのオフロード命令よりも若い非オフロード命令の実行を制限する（４０４）ことは、オフロード命令の実行前に各コア３０８、４１０によって実行され、当該コアのオフロードトランザクション内の何れのオフロード命令よりも若い、当該スレッド内での命令の実行をブロックするセマフォを設定する。

また、図４の方法は、各プロセッサコアがそのオフロード命令のシーケンスの実行を完了したと判定したことに応じて、制限を除去する（４０６）ことを含む。いくつかの例では、各コア３０８、４１０が、そのオフロードトランザクションの最後のオフロード命令をリタイアさせると、コアは、当該コアでのオフロードトランザクションの完了をシグナリングし得る。これらの例では、制限を除去する（４０６）ことは、各コア３０８、４１０のセマフォを解放して、これらのスレッド内のより若い非オフロード命令の実行開始を可能にすることによって実行される。いくつかの実施形態では、制限を除去する（４０６）ことは、オフロードトランザクションを処理する全てのコア３０８、４１０からトランザクションが完了したという信号を受信し、全てのコア３０８、４１０が完了をシグナリングした後にのみセマフォを解放するようにこれらのコアにシグナリングするＡＬＢディレクトリのコントローラによって実行される。このようにして、オフロード命令コードシーケンスとより若い非オフロード命令コードとの間のメモリ順序付けは、全てのコアスレッドがそれぞれのオフロードトランザクションの処理を終了するまで、各コアで全てのより若い非オフロード命令を待機させることによって保持される。

更なる説明のために、図５は、本開示のいくつかの実施形態による、オフロードされた命令とオフロードされていない命令との間のメモリ順序付けを保持する別の例示的な方法を示すフロー図である。図４の例示的な方法と同様に、図５の方法は、複数のプロセッサコアがオフロード命令のシーケンスの実行をそれぞれ開始したと判定する（４０２）ことであって、複数のプロセッサコア間で実行するオフロード命令のシーケンスは、同一のプロセス識別子を共有する、ことと、何れのオフロード命令よりも若い非オフロード命令の実行を制限する（４０４）ことと、リモートデバイスでリモート実行される動作のための少なくとも１つのオフロード命令を処理する（３０２）ことと、メモリアドレスをターゲットとするキャッシュ動作の完了に応じて、少なくとも１つのオフロード命令のオペランドに表されるメモリアドレスにロックを配置する（３０４）ことと、メモリアドレスに対するロックを除去する（３０６）ことと、各プロセッサコアがそのオフロード命令のシーケンスの実行を完了したと判定したことに応じて、制限を除去する（４０６）ことと、を含む。

図５の方法では、複数のプロセッサコアがオフロード命令のシーケンスの実行をそれぞれ開始したと判定する（４０２）ことは、各コアがそれぞれのオフロード命令のシーケンスにおいてバリアの開始命令を実行したと判定する（５０２）ことを含み、複数のプロセッサコア間で実行するオフロード命令のシーケンスは、同一のプロセス識別子を共有する。いくつかの例では、各オフロードトランザクションは、バリアの開始命令（例えば、ｂａｒｒｉｅｒ＿ｓｔａｒｔ）で始まる。これらの例では、各コア３０８、４１０がバリアの開始命令を実行すると、コアは、バリアの開始命令が実行されたことをシグナリングし、より若い非オフロード命令のコアでの実行をブロックするようにセマフォを設定する。監視コントローラ（例えば、ＡＬＢディレクトリ１７０のコントローラ）は、コア３０８、４１０から、これらのコアがオフロード命令の処理を開始する準備が整っていることを示す信号を受信する。これらのコアが同一プロセス識別子のスレッドを実行しており、オフロード命令の処理を開始する予定であることを示す信号を受信したことに応じて、監視コントローラは、この情報を状態レコード（例えば、上述したバリア状態ベクトル）に記録し得る。オフロードトランザクションを含むスレッドを実行しているコアをバリアの開始命令の実行から把握した後、各コアがそれぞれのスレッドについてより若い非オフロード命令の実行をブロックしている間は、それらのスレッドの進行が監視され得る。

更なる説明のために、図６は、本開示のいくつかの実施形態による、オフロードされた命令とオフロードされていない命令との間のメモリ順序付けを保持する別の例示的な方法を示すフロー図である。図４の例示的な方法と同様に、図６の方法は、複数のプロセッサコアがオフロード命令のシーケンスの実行をそれぞれ開始したと判定する（４０２）ことであって、複数のプロセッサコア間で実行するオフロード命令のシーケンスは、同一のプロセス識別子を共有する、ことと、何れのオフロード命令よりも若い非オフロード命令の実行を制限する（４０４）ことと、リモートデバイスでリモート実行される動作のための少なくとも１つのオフロード命令を処理する（３０２）ことと、メモリアドレスをターゲットとするキャッシュ動作の完了に応じて、少なくとも１つのオフロード命令のオペランドに表されるメモリアドレスにロックを配置する（３０４）ことと、メモリアドレスに対するロックを除去する（３０６）ことと、各プロセッサコアがそのオフロード命令のシーケンスの実行を完了したと判定したことに応じて、制限を除去する（４０６）ことと、を含む。

図６の方法では、各プロセッサコアがそのオフロード命令のシーケンスの実行を完了したと判定することに応じて制限を除去すること（４０６）は、バリアの終了命令が各コアで実行されたと判定すること（６０２）を含む。いくつかの例では、バリアの終了命令が各コアで実行されたと判定する（６０２）ことは、バリアの終了命令に遭遇したことを監視コントローラ（例えば、図１及び図２のＡＬＢディレクトリ１７０）にシグナリングすることを含む、オフロード命令のそれぞれのシーケンスのバリアの終了命令（例えば、上述したｂａｒｒｉｅｒ＿ｅｎｄ）を実行するコア３０８、４１０によって実行される。例えば、コア３０８、４１０は、バリアの終了命令を示し、コアで実行しているスレッドのプロセス識別子を含むメッセージをＡＬＢディレクトリに送信し得る。これらの例では、バリアの終了命令は、監視コントローラが、より若い非オフロード命令の実行をブロックするセマフォの解放をシグナリングするまで、リタイアすることができない。全てのコア３０８、４１０がバリアの終了命令を実行すると、監視コントローラは、全てのコア３０８、４１０にセマフォの解放をシグナリングする。

更なる説明のために、図７は、本開示のいくつかの実施形態による、オフロードされた命令とオフロードされていない命令との間のメモリ順序付けを保持する別の例示的な方法を示すフロー図である。図６の例示的な方法と同様に、図７の方法は、複数のプロセッサコアがオフロード命令のシーケンスの実行をそれぞれ開始したと判定する（４０２）ことであって、バリアの終了命令が各コアで実行されたと判定する（６０２）ことを含み、複数のプロセッサコア間で実行するオフロード命令のシーケンスは、同一のプロセス識別子を共有する、ことと、何れのオフロード命令よりも若い非オフロード命令の実行を制限する（４０４）ことと、リモートデバイスでリモート実行される動作のための少なくとも１つのオフロード命令を処理する（３０２）ことと、メモリアドレスをターゲットとするキャッシュ動作の完了に応じて、少なくとも１つのオフロード命令のオペランドに表されるメモリアドレスにロックを配置する（３０４）ことと、メモリアドレスに対するロックを除去する（３０６）ことと、各プロセッサコアがそのオフロード命令のシーケンスの実行を完了したと判定したことに応じて、制限を除去する（４０６）ことと、を含む。

図７の方法では、制限を除去する（４０６）ことは、オフロード命令のシーケンスによってトリガされた全てのメモリアドレスロックが除去されたと判定する（７０２）ことを含む。いくつかの例では、オフロード命令のシーケンスによってトリガされた全てのメモリアドレスロックが除去されたと判定する（７０２）ことは、図１のコアごとのＡＬＢ１６０、１６２、１６４、１６６に関して上述したように、各コア３０８、４１０のＡＬＢが空であると判定することによって実行される。これらの例では、コア３０８、４１０は、監視コントローラ（例えば、ＡＬＢディレクトリ１７０のコントローラ）に、それらのＡＬＢが空であることをシグナリングする。この情報は、バリアの終了命令の実行の一部として、又は、個別の信号として送信され得る。他の例では、オフロード命令のシーケンスによってトリガされた全てのメモリアドレスロックが除去されたと判定する（７０２）ことは、図２のグローバルＡＬＢ２６０に関して上述したように、各コア３０８、４１０のＡＬＢが空であると判定することによって実行される。

更なる説明のために、図８は、本開示のいくつかの実施形態による、オフロードされた命令とオフロードされていない命令との間のメモリ順序付けを保持する別の例示的な方法を示すフロー図である。図６の例示的な方法と同様に、図８の方法は、複数のプロセッサコアがオフロード命令のシーケンスの実行をそれぞれ開始したと判定する（４０２）ことであって、バリアの終了命令が各コアで実行されたと判定する（６０２）ことを含み、複数のプロセッサコア間で実行するオフロード命令のシーケンスは、同一のプロセス識別子を共有する、ことと、何れのオフロード命令よりも若い非オフロード命令の実行を制限する（４０４）ことと、リモートデバイスでリモート実行される動作のための少なくとも１つのオフロード命令を処理する（３０２）ことと、メモリアドレスをターゲットとするキャッシュ動作の完了に応じて、少なくとも１つのオフロード命令のオペランドに表されるメモリアドレスにロックを配置する（３０４）ことと、メモリアドレスに対するロックを除去する（３０６）ことと、各プロセッサコアがそのオフロード命令のシーケンスの実行を完了したと判定したことに応じて、制限を除去する（４０６）ことと、を含む。

図８の例示的な方法では、制限を除去する（４０６）ことは、各コアに通信可能に結合された状態バッファ内の各コアの進捗を追跡する（８０２）ことを含む。いくつかの例では、各コアに通信可能に結合された状態バッファ内の各コアの進捗を追跡する（８０２）ことは、プロセス識別子、並びに、バリアの開始命令及びバリアの終了命令を実行したコアを示すものを記録することを含む。例えば、状態バッファは、上述したバリア状態ベクトルであり、バリア状態ベクトル内のビットは、プロセッサシステム内の各コアを表し、ビットは、バリアの開始命令が実行されたときに設定され、バリアの終了命令に遭遇した後にクリアされる。これらの例では、各コア３０８、４１０は、監視コントローラ（例えば、ＡＬＢディレクトリ１７０のコントローラ）に、コアがバリアの開始命令及びバリアの終了命令をいつ実行したかを通知する。

上記の説明を考慮して、読者は、本開示による実施形態が多数の利点を提供することを理解するであろう。読者は、これらの実施形態が、オフロード命令とより若い非オフロード命令との間の正しいメモリ順序付けを保証することを理解するであろう。また、読者は、バリアの開始命令及びバリアの終了命令の実施は、より若い非オフロード命令が、従来のバリア命令又はフェンス命令と比較してより早くメモリにアクセスすることを可能にし、それによってより高い性能をもたらすことを理解するであろう。すなわち、従来のバリア又はフェンスソリューションとは異なり、本明細書の実施形態は、バリアを解除する前に、オフロードターゲットデバイス（例えば、ＰＩＭデバイス）がオフロードされた動作の実行を終了することを待機しない。また、読者は、ＡＬＢ及びＡＬＢディレクトリを含む、本明細書で紹介される構造が、メモリ順序付け及びバリア実施を実装するためのハードウェアサポートを提供することを理解するであろう。

いくつかの実施形態は、システム、装置、方法及び／又は論理回路であり得る。本開示のコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ（instruction-set-architecture、ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、又は、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋等のオブジェクト配向プログラミング言語、並びに、「Ｃ」プログラミング言語又は同様のプログラミング言語等の従来の手続き型プログラミング言語等１つ以上のプログラミング言語の任意の組み合わせで書き込まれたソースコード若しくはオブジェクトコードの何れかであり得る。いくつかの実施形態では、例えば、プログラマブル論理回路、フィールドプログラマブルゲートアレイ（field-programmable gate array、ＦＰＧＡ）又はプログラマブル論理アレイ（programmable logic array、ＰＬＡ）を含む電子回路は、コンピュータ可読プログラム命令の状態情報を利用して電子回路を個別化することによって、コンピュータ可読プログラム命令を実行し得る。

本開示の態様は、本開示のいくつかの実施形態による方法、装置（システム）及び論理回路のフロー図及び／又はブロック図を参照して本明細書に記載されている。フロー図及び／又はブロック図の各ブロック、並びに、フロー図及び／又はブロック図におけるブロックの組み合わせは、論理回路によって実装され得ることが理解されよう。

また、論理回路は、プロセッサ、他のプログラマブルデータ処理装置又は他のデバイスに実装されて、コンピュータ実装プロセスを生成するために、プロセッサ、他のプログラマブル装置又は他のデバイス上で実行される一連の動作ステップを行わせることができ、そのため、コンピュータ、他のプログラマブル装置又は他のデバイス上で実行される命令は、フロー図及び／又はブロック図のブロックに指定される機能／行為を実施する。

図中のフロー図及びブロック図は、本開示の様々な実施形態によるシステム、方法及び論理回路の可能な実施形態のアーキテクチャ、機能及び動作を示す。これに関して、フロー図又はブロック図の各ブロックは、指定された論理機能を実装するための１つ以上の実行可能命令を含む、命令のモジュール、セグメント又は部分を表すことができる。いくつかの代替的な実施形態では、ブロックに記載されている機能は、図に記載された順序から外れて発生する場合がある。例えば、連続して示される２つのブロックは、実際には実質的に同時に実行され得るか、又は、ブロックは、関与する機能に応じて、逆の順序で実行され得る。ブロック図及び／又はフロー図の各ブロック、並びに、ブロック図及び／又はフロー図におけるブロックの組み合わせは、指定された機能若しくは行為を実行するか、又は、専用ハードウェアとコンピュータ命令との組み合わせを行う、専用ハードウェアベースのシステムによって実装することができることにも留意されたい。

本開示は、その実施形態を参照して具体的に示され、説明されてきたが、以下の特許請求の範囲の趣旨及び範囲から逸脱することなく、形態及び詳細で様々な変更が行われ得ることを理解されたい。したがって、本明細書に記載された実施形態は、説明のためのものに過ぎず、本発明を限定するものではない。本開示は、詳細な説明ではなく添付の特許請求の範囲によって定義され、その範囲内の全ての差異は、本発明に含まれると解釈されるべきである。

Claims

オフロードされた命令とオフロードされていない命令との間のメモリ順序付けを保持する方法であって、
少なくとも１つのオフロード命令を処理することと、
前記少なくとも１つのオフロード命令に関連するメモリアドレスにロックを配置することと、
前記メモリアドレスをターゲットとする動作の完了に応じて、前記メモリアドレスに対する前記ロックを除去することと、を含む、
方法。
前記少なくとも１つのオフロード命令に関連するメモリアドレスにロックを配置することは、アドレスロックバッファのエントリに前記メモリアドレスを記憶することを含み、前記メモリアドレスに対する前記ロックを除去することは、前記アドレスロックバッファ内の前記エントリをクリアすることを含む、
請求項１の方法。
前記メモリアドレスをターゲットとする動作を完了することは、前記メモリアドレスのエントリを含む１つ以上のコアの１つ以上のキャッシュにプローブ要求を送信することを含み、前記プローブ要求は、前記エントリ内のデータが無効化されるか又はフラッシュされるかの何れかであることを示す、
請求項１の方法。
前記ロックは、少なくとも１つのオフロード命令を処理することの後に配置され、前記ロックは、オフロードターゲットデバイスでの前記動作の実行前に除去される、
請求項１の方法。
複数のプロセッサコアがそれぞれのオフロード命令のシーケンスの実行をそれぞれ開始したと判定することであって、前記複数のプロセッサコアで実行するそれぞれのオフロード命令のシーケンスは、プロセス識別子を共有する、ことと、
何れの前記オフロード命令よりも若い非オフロード命令の実行を制限することと、
複数のプロセッサコアの各々が前記それぞれのオフロード命令のシーケンスを完了したと判定したことに応じて、前記制限を除去することと、を含む、
請求項１の方法。
複数のプロセッサコアがそれぞれのオフロード命令のシーケンスの実行をそれぞれ開始したと判定することは、前記複数のプロセッサコアが、前記それぞれのオフロード命令のシーケンスにおいてバリアの開始命令を実行したと判定することを含み、前記複数のプロセッサコアで実行する前記それぞれのオフロード命令のシーケンスは、プロセス識別子を共有する、
請求項５の方法。
前記バリアの開始命令は、前記それぞれのオフロード命令のシーケンスを同時実行しているいくつかのプロセッサコアを識別するために使用される、
請求項６の方法。
複数のプロセッサコアの各々が前記それぞれのオフロード命令のシーケンスを完了したと判定することは、バリアの終了命令が各プロセッサコアで実行されたと判定することを含む、
請求項５の方法。
複数のプロセッサコアの各々が前記それぞれのオフロード命令のシーケンスを完了したと判定することは、前記オフロード命令のシーケンスによってトリガされた全てのメモリアドレスロックが除去されたと判定することを含む、
請求項８の方法。
複数のプロセッサコアの各々が前記それぞれのオフロード命令のシーケンスを完了したと判定することは、各コアの進捗を追跡することを含む、
請求項５の方法。
前記オフロード命令は、プロセッシングインメモリ（ＰＩＭ）デバイスにオフロードされる動作のための命令である、
請求項１の方法。
マルチコアプロセッサであって、
少なくとも１つのオフロード命令を処理することと、
前記少なくとも１つのオフロード命令に関連するメモリアドレスにロックを配置することと、
前記メモリアドレスをターゲットとする動作の完了に応じて、前記メモリアドレスに対する前記ロックを除去することと、
を行うように構成されている、
マルチコアプロセッサ。
前記少なくとも１つのオフロード命令に関連するメモリアドレスにロックを配置することは、アドレスロックバッファのエントリに前記メモリアドレスを記憶することを含み、前記メモリアドレスに対する前記ロックを除去することは、前記アドレスロックバッファ内の前記エントリをクリアすることを含む、
請求項１２のマルチコアプロセッサ。
前記メモリアドレスをターゲットとする動作を完了することは、前記メモリアドレスのエントリを含む１つ以上のコアの１つ以上のキャッシュにプローブ要求を送信することを含み、前記プローブ要求は、前記エントリ内のデータが無効化されるか又はフラッシュされるかの何れかであることを示す、
請求項１２のマルチコアプロセッサ。
前記マルチコアプロセッサは、
複数のプロセッサコアがそれぞれのオフロード命令のシーケンスの実行をそれぞれ開始したと判定することであって、前記複数のプロセッサコアで実行するそれぞれのオフロード命令のシーケンスは、プロセス識別子を共有する、ことと、
何れの前記オフロード命令よりも若い非オフロード命令の実行を制限することと、
複数のプロセッサコアの各々が前記それぞれのオフロード命令のシーケンスを完了したと判定したことに応じて、前記制限を除去することと、
を行うように構成されている、
請求項１２のマルチコアプロセッサ。
複数のプロセッサコアがそれぞれのオフロード命令のシーケンスの実行をそれぞれ開始したと判定することは、各プロセッサコアが、前記それぞれのオフロード命令のシーケンスにおいてバリアの開始命令を実行したと判定することを含み、前記複数のプロセッサコアで実行する前記それぞれのオフロード命令のシーケンスは、プロセス識別子を共有し、
複数のプロセッサコアの各々が前記それぞれのオフロード命令のシーケンスを完了したと判定することは、
バリアの終了命令が各プロセッサコアで実行されたと判定することと、
前記オフロード命令のシーケンスによってトリガされた全てのメモリアドレスロックが除去されたと判定することと、を含む、
請求項１５のマルチコアプロセッサ。
システムであって、
プロセッシングインメモリ（ＰＩＭ）デバイスと、
前記ＰＩＭデバイスに結合されたマルチコアプロセッサと、を備え、
前記マルチコアプロセッサは、
少なくとも１つのオフロード命令を処理することと、
前記少なくとも１つのオフロード命令に関連するメモリアドレスにロックを配置することと、
前記メモリアドレスをターゲットとする動作の完了に応じて、前記メモリアドレスに対する前記ロックを除去することと、
を行うように構成されている、
システム。
前記メモリアドレスをターゲットとする動作を完了することは、前記メモリアドレスのエントリを含む１つ以上のコアの１つ以上のキャッシュにプローブ要求を送信することを含み、前記プローブ要求は、前記エントリ内のデータが無効化されるか又はフラッシュされるかの何れかであることを示す、
請求項１７のシステム。
前記マルチコアプロセッサは、
複数のプロセッサコアがそれぞれのオフロード命令のシーケンスの実行をそれぞれ開始したと判定することであって、前記複数のプロセッサコアで実行するそれぞれのオフロード命令のシーケンスは、プロセス識別子を共有する、ことと、
何れの前記オフロード命令よりも若い非オフロード命令の実行を制限することと、
複数のプロセッサコアの各々が前記それぞれのオフロード命令のシーケンスを完了したと判定したことに応じて、前記制限を除去することと、
を行うように構成されている、
請求項１７のシステム。
複数のプロセッサコアがそれぞれのオフロード命令のシーケンスの実行をそれぞれ開始したと判定することは、各プロセッサコアが、前記それぞれのオフロード命令のシーケンスにおいてバリアの開始命令を実行したと判定することを含み、前記複数のプロセッサコアで実行する前記それぞれのオフロード命令のシーケンスは、プロセス識別子を共有し、
複数のプロセッサコアの各々が前記それぞれのオフロード命令のシーケンスを完了したと判定することは、
バリアの終了命令が各プロセッサコアで実行されたと判定することと、
前記オフロード命令のシーケンスによってトリガされた全てのメモリアドレスロックが除去されたと判定することと、を含む、
請求項１９のシステム。