JP7446893B2

JP7446893B2 - 計算システム、半導体装置、プログラムおよび方法

Info

Publication number: JP7446893B2
Application number: JP2020065285A
Authority: JP
Inventors: チョフレミングカーミン
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2019-06-28
Filing date: 2020-03-31
Publication date: 2024-03-11
Anticipated expiration: 2040-03-31
Also published as: US20190317744A1; US20210165642A1; EP3757775A1; JP2021009684A; US10860301B2; CN112148633A; KR20210001918A; US11385873B2

Description

実施形態は概して、データフローアーキテクチャの実装に関する。より具体的には、実施形態は、データフローグラフの投機的実行制御に関する。

コンピュータコードにより実行される個別の動作間の依存性に関して、当該コードをモデル化するのに、データフローグラフが使用され得る。データフローグラフにおける依存性情報により、並行して実行可能な動作が特定しやすくなり得る。しかし、特定のコードは、そのコードが効率的に並行して実行されるのを妨げるような、データまたは制御依存性を有し得る。例えば、計算ループでは通常、制御フロー条件分岐（例えば、ループを終了する、またはループに留まる）の前に、ループ本体の終了を伴う。そのような場合に計算アーキテクチャにおいてデータフローグラフを実装すると、アーキテクチャにレイテンシが生じ得る（例えば、ループ本体が、メモリから値の取得を伴う場合）。制御依存性に対処する従来のソリューションは、複雑かつコストのかかるハードウェア動作の導入を伴い得る。

以下の明細書および添付の特許請求の範囲を読むことによって、かつ以下の図面を参照することによって、実施形態の様々な利点が当業者に明らかになる。

コンピュータコードと、コンピュータコードのループ部の、対応するデータフローグラフの例を図示する。

一実施形態に係る、コンピュータコードの制御部の例を示すデータフローグラフである。

一実施形態に係る、コンピュータコードのループ部の例を示すデータフローグラフである。

実施形態に係る、性能強化された計算システムを動作する方法の例を示すフローチャートである。実施形態に係る、性能強化された計算システムを動作する方法の例を示すフローチャートである。

一実施形態に係るコンピュータコードの、一連の処理の例の１つを示すデータフローグラフである。一実施形態に係るコンピュータコードの、一連の処理の例の１つを示すデータフローグラフである。一実施形態に係るコンピュータコードの、一連の処理の例の１つを示すデータフローグラフである。一実施形態に係るコンピュータコードの、一連の処理の例の１つを示すデータフローグラフである。一実施形態に係るコンピュータコードの、一連の処理の例の１つを示すデータフローグラフである。一実施形態に係るコンピュータコードの、一連の処理の例の１つを示すデータフローグラフである。一実施形態に係るコンピュータコードの、一連の処理の例の１つを示すデータフローグラフである。一実施形態に係るコンピュータコードの、一連の処理の例の１つを示すデータフローグラフである。一実施形態に係るコンピュータコードの、一連の処理の例の１つを示すデータフローグラフである。一実施形態に係るコンピュータコードの、一連の処理の例の１つを示すデータフローグラフである。一実施形態に係るコンピュータコードの、一連の処理の例の１つを示すデータフローグラフである。一実施形態に係るコンピュータコードの、一連の処理の例の１つを示すデータフローグラフである。一実施形態に係るコンピュータコードの、一連の処理の例の１つを示すデータフローグラフである。一実施形態に係るコンピュータコードの、一連の処理の例の１つを示すデータフローグラフである。一実施形態に係るコンピュータコードの、一連の処理の例の１つを示すデータフローグラフである。一実施形態に係るコンピュータコードの、一連の処理の例の１つを示すデータフローグラフである。一実施形態に係るコンピュータコードの、一連の処理の例の１つを示すデータフローグラフである。一実施形態に係るコンピュータコードの、一連の処理の例の１つを示すデータフローグラフである。一実施形態に係るコンピュータコードの、一連の処理の例の１つを示すデータフローグラフである。一実施形態に係るコンピュータコードの、一連の処理の例の１つを示すデータフローグラフである。一実施形態に係るコンピュータコードの、一連の処理の例の１つを示すデータフローグラフである。一実施形態に係るコンピュータコードの、一連の処理の例の１つを示すデータフローグラフである。一実施形態に係るコンピュータコードの、一連の処理の例の１つを示すデータフローグラフである。一実施形態に係るコンピュータコードの、一連の処理の例の１つを示すデータフローグラフである。

一実施形態に係る、投機的読み込み処理の例を図示する。

一実施形態に係る、投機的実行制御の各種レベルに対する、サイクルと総ループトリップとの関係の例を示すグラフである。

一実施形態に係る、データフローアーキテクチャの例を示すブロック図である。

一実施形態に係る性能強化された計算システムの例を示すブロック図である。

一実施形態に係る、半導体装置の例を図示する。

一実施形態に係る、プロセッサの例を示すブロック図である。

一実施形態に係る、マルチプロセッサ型計算システムの例を示すブロック図である。

図１Ａを参照すると、不特定回数の繰り返しで制御ループが実行されるコンピュータコード２０が示される。より具体的には、ループ本体（例えば、「ｄ＝ａ［ｉ］」）は、「ｄ」の値が、ｘの値に一致する、またはそれを超えるまで、ｄの値を配列「ａ［ｉ］」の要素に繰り返し設定する。特に注目すべきは、ループ本体の実行が、ｄをｘと比較することにより「制御」される点である。さらに、ａ［ｉ］の要素はメモリから取得されるため、コンピュータコード２０は、レイテンシの比較的長いクリティカルパスに帰結し得る。

例えば、ループ部のデータフローグラフ２２は、初期値「ｉ」（例えば、０）と、加算ノード２６およびフィルタノード２８により生成されたインクリメント値ｉとから選択を行う選択ノード２４（例えば、マルチプレクサ）を備える。図示の例では、シフトノード３０（例えば３ビットシフトまたは８の値を加える）が、反復ノード３２および加算ノード３３により提供された、ａ［ｉ］のベースアドレスからのオフセットとして、配列ａ［ｉ］における次の要素のアドレスを選択する。読み込みノード３４は、選択されたアドレスから、値を読み込んでよく、比較ノード３６は、読み込んだ値を、反復ノード３８により提供されたｘの値と比較する。ｘの値が不明であるため、コンピュータコード２０は不特定回数の繰り返しで実行される。ｄの値がｘの値に一致するまたはそれを超えると、グラフ２２はｄの値を、フィルタノード４０を介して出力してよい。そのような場合、比較ノード３６は、フィルタノード４０、フィルタノード２８、選択ノード２４、反復ノード３２、および反復ノード３８に入力される「ｅｘｉｔ（終了）」信号を生成する。図示の例では、選択ノード２４、フィルタノード２８、シフトノード３０、加算ノード３３、読み込みノード３４、および比較ノード３６は、コンピュータコード２０の実行がシリアル化および／またはパイプライン化される場合に、性能を制限し得る比較的長いクリティカルパスを表す。

より詳細に説明するように、コンピュータコード２０に、不特定回数の繰り返しに加えて、固定回数の繰り返しで投機的に実行させられてよく、コンピュータコード２０の実行が並行して実施される。このような手法は、クリティカルパスの長さの、性能に対する影響を大幅に低減できる。さらに、投機的実行に関連したデータフロートークンを選択的に除去することで、追加的なハードウェアを使用することなく、性能的利点を実現させることが可能となる。

例えば、ループは典型的に、０でもあり得る静的に未知数の「トリップ」に対して実行される。本明細書に記載の技術は、プログラムの実際の制御フローにより決まる繰り返し回数に加え、固定回数の繰り返し（それぞれの完全なループ実行対して動的に選択され得る「ｓｐｅｃ」と称する）をループに強制的に必ず実行させる制御構造を生成する。一実施形態において、これら繰り返しは、実際に生じないという点で、投機的と捉えることができる。しかし、各ループが「ｓｐｅｃ」の繰り返しを実行することが知られているため、この回数の繰り返しは常に、真のデータ依存性の限界まで、データフローグラフで並行して実行され得る。この結果、シリアル化された実行よりも、大幅に性能向上が図られる。

図１Ｂおよび図１Ｃは、制御部５０と、制御部５０の投機的実行が実現されるデータフローグラフのループ部５２とを示す。当該投機を実行可能とするため、いくつか追加でデータフロー処理および制御シーケンスが定義される。第１の実装差異は、「ｓｐｅｃ」ループの繰り返しを強制的にループ部５２に入れさせる制御ストリームを生成することである。この制御ストリームは、「ｓｐｅｃ」１の値を実際のループ制御（例えば、「ｅｘｉｔ」信号）の前に追加する、修正ループエントリ制御（例えば、「Ｅｎｔｅｒ'」信号）の生成を伴う。投機的ソリューションであることは、投機的ループが、自然終了した後に、必ず「ｓｐｅｃ」の繰り返しを実施することを示し得る。したがって、存在しない実行に起因するデータフロートークンを除去するために、なんらかのクリーンアップロジックが導入される。一実施形態において、クリーンアップロジックが一連のフィルタ処理をループ部５２の最下部で行うことにより、生成された終了信号（例えば、「Ｅｘｉｔ'」信号）により決定される、ループ実行の最後の「ｓｐｅｃ」トークンが除去される。より詳細に説明するように、投機的メモリ処理が、若干異なった方法で扱われ得る。

したがって、提案された投機的ループ変形により、当該変形がなければ連続ループのスループットの向上が図られる。この向上は、特定の投機的ループのトリップ数が比較的多い場合（例えば、２より多い）、顕著になる。しかしこのような変形は、クリーンアップ段階の実行により、新たなループの実行が部分的に阻害され得るという点で、ある程度のオーバーヘッドを伴い得る。一実施形態において、失われるサイクルの回数は、ループに投入される投機的コンテキストの数に制限される。適度な投機（例えば、「ｓｐｅｃ」＝＝８）と読み込み（例えば、６０サイクルのレイテンシ）のループであれば、ループの実行が一度のみでも、実際に生じるオーバーヘッドは比較的小さい。コンピュータコード２０（図１Ａ）の場合、このオーバーヘッドは１３％程度であろう。その他の場合（例えば、トリップ無しまたはトリップ＞２）、性能が標準的な実装以上となり得る。一実施形態において、図１Ｂおよび１Ｃに示す、投機的読み込み（ＬＤＳ）処理を実行するデータフロー処理は、マイクロアーキテクチャの変更を伴わない。

図示の例では、「ｌａｓｔ（最終）」値（例えば、ｅｄｇｅ）、繰り返し値（例えば、「ｉｔｅｒ」）、および逆最終値（例えば、「～ｌａｓｔ」、すなわち最終ではない）を出力するシーケンサノード５４に対して固定回数の繰り返し（例えば、「ｓｐｅｃ＋１」）が入力される。第１ストリーム選択ノード５６は、制御生成を開始するため、「Ｅｎｔｅｒ'」信号を生成する。図示のＥｎｔｅｒ'信号は、ループ部５２におけるストリーム選択ノード２４、反復ノード３２、反復ノード３８、およびフィルタノード２８に入力される。シーケンサノード５４は、最終値、繰り返し値、逆最終値を介して、データフロートークンを生成してよい。コードが固定回数の繰り返しを実行すると、第２ストリーム選択ノード５８は、ループ部５２の一組のクリーンアップフィルタノード６０（６０ａから６０ｃ）に入力される「Ｅｘｉｔ'」信号を介して、データフロートークンを除去してよい。

さらに、投機的読み込み（ＬＤＳ）ノード６４は、エラーノード６２に対して、異常を通知してよい。異常の例として、トランスレーション・ルックアサイド・バッファ（ＴＬＢ）ミス、入力／出力（ＩＯ）メモリアドレスへのアクセス、（例えば、保護違反を引き起こす）仮想メモリアドレスへのアクセス、および／または他のキャッシュ不能なメモリモードの異常などが挙げられる。そのような場合、既存の構造機構を使用して、ソフトウェアにメッセージが送信されてよい。一実施形態において、コンパイラがユーザプログラムにランタイムエラーをシグナリングすることにより、このメッセージを処理するように、コードを投入する。このように、複雑なハードウェアを新しく導入せずとも、投機により、妥当なプログラミングモデルが実現可能となり得る。各ループは、「ｓｐｅｃ」の繰り返しで実行されるため、この回数の繰り返しは必ず、真のデータ依存性の限界まで、データフローグラフで並行して実行され得る。この結果、シリアル化された実行よりも大幅に性能向上が図られる。

図２Ａは、性能強化された計算システムを動作させる方法７０を示す。方法７０は、一組のロジック命令として１または複数のモジュールに実装されてよい。当該ロジック命令は、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、プログラマブルＲＯＭ（ＰＲＯＭ）、ファームウェア、フラッシュメモリ等といったマシン可読またはコンピュータ可読記憶媒体に、例えばプログラマブルロジックアレイ（ＰＬＡ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ）などの構成可能ロジックに、例えば特定用途向け集積回路（ＡＳＩＣ）、相補型金属酸化膜半導体（ＣＭＯＳ）技術もしくはトランジスタ－トランジスタロジック（ＴＴＬ）技術、などの回路技術を用いる機能固定型ロジックハードウェアに、またはそれらの任意の組み合わせに記憶される。

例えば、方法７０に示す処理を実行するコンピュータプログラムコードは、１または複数のプログラミング言語の任意の組み合わせで記述されてよい。当該１または複数のプログラミング言語は、Ｊａｖａ（登録商標）、Ｓｍａｌｌｔａｌｋ、またはＣ＋＋といったオブジェクト指向プログラミング言語、「Ｃ」プログラミング言語または同様のプログラミング言語などの従来の手続き型プログラミング言語を含む。さらに、ロジック命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、マシン命令、マシン依存命令、マイクロコード、状態設定データ、集積回路用構成データ、電子回路をカスタマイズする状態情報、および／またはハードウェア固有の他の構造コンポーネント（例えば、ホストプロセッサ、中央演算処理装置（ＣＰＵ）、マイクロコントローラ等）を含み得る。

図示の処理ブロック７２は、不特定回数の繰り返しで制御ループが実行されると決定する。ブロック７４は、制御ループに、不特定回数の繰り返しに加え、固定回数の繰り返しを強制的に実行させ、制御ループの固定回数の繰り返し実行は並行して実施される。さらに、ブロック７６は、制御ループの固定回数の繰り返し実行に関連した、１または複数のデータフロートークンを除去してもよい。制御ループに、不特定回数の繰り返しに加えて、固定回数の繰り返しを強制的に投機的に実行させることにより、クリティカルパスの長さの、性能に対する影響を大幅に低減させることが可能になる。さらに、投機的実行に関連したデータフロートークンの選択的除去により、追加的ハードウェアを使用することなく、性能的利点を実現することが可能になる。

図２Ｂは、性能強化された計算システムを動作させる別の方法８０を示す。方法８０は、一組のロジック命令として１または複数のモジュールに実装されてよい。当該ロジック命令は、ＲＡＭ、ＲＯＭ、ＰＲＯＭ、ファームウェア、フラッシュメモリ等といったマシン可読またはコンピュータ可読記憶媒体に、例えばＰＬＡ、ＦＰＧＡ、ＣＰＬＤなどの構成可能ロジックに、例えばＡＳＩＣ、ＣＭＯＳ、もしくはＴＴＬ技術などの回路技術を用いる機能固定型ロジックハードウェアに、またはそれらの任意の組み合わせに記憶されてよい。

図示の処理ブロック８２は、メモリアドレスからの制御ループ読み込みが成功したかを示す信号を生成する。ブロック８４で、読み込みが失敗したと判定されると（例えば、読み込みがＩＯメモリアドレスへのアクセスであること、読み込みが保護違反を引き起こす仮想メモリアドレスへのアクセスであること、および／または別のキャッシュ不能なメモリモードの異常による）、ブロック８６は、１または複数の仮想ページに、変換不能であると注釈を付けてよい。読み込みが成功した場合、図示の方法８０はブロック８６をとばして、終了する。したがって、図示の方法８０は、幅広い使用事例で、制御投機がうまく機能することを可能にする。

図３Ａから図３Ｘは、投機的制御ループの一連の処理に対するデータフローグラフを示す。図３Ａに最もよく示すように、シーケンサノード５４が、固定回数の繰り返し（例えば、２つの投機的ループが投入される）に１を足した、３の値を設定するデータフロートークン８８で初期化される。さらに、反復ノード３２が、配列ａ［ｉ］のベースアドレスを０に設定するデータフロートークン９０で初期化され、データフロートークン９２が変数ｘに対して２の値を反復ノード３８に与える。一実施形態において、１の値を有するデータフロートークン９４でＥｘｉｔ'信号が初期化され、０の値を有するデータフロートークン９６で選択ノード２４が初期化される。

図３Ｂに最もよく示すように、シーケンサノード５４は、データフロートークン８８に応じて状態変化を受け入れ、最終値として、値０のデータフロートークン９８を出力する。図示のシーケンサノード５４はさらに、繰り返し値として値１のデータフロートークン１００と、逆最終値として値１のデータフロートークン１０２とを出力する。さらに、選択ノード２４は、加算ノード２６およびシフトノード３０の両方にデータフロートークン９６を出力する。

図３Ｃに最もよく示すように、その後シーケンサノード５４は、最終値として値０の別のデータフロートークン１０４と、繰り返し値として値１のデータフロートークン１０６と、逆最終値として値１のデータフロートークン１０８とを出力してよい。図示の例では、第１ストリーム選択ノード５６は、ループ部５２におけるストリーム選択ノード２４、反復ノード３２、反復ノード３８、およびフィルタノード２８に提供されるＥｎｔｅｒ'信号として、データフロートークン１０２を出力する。さらに、加算ノード２６は、値１のデータフロートークン１１０を、フィルタノード２８に出力してよい（例えば、ａ［ｉ］の次の値にインクリメントするため）。一実施形態において、シフトノード３０は、アドレスシフトが生じないことを示す値０のデータフロートークン１１２を出力する。

図３Ｄに最もよく示すように、その後シーケンサノード５４は、繰り返し値として値１の別のデータフロートークン１１４と、逆最終値として値０のデータフロートークン１１６とを出力してよい。反復ノード３８はさらに、比較ノード３６にデータフロートークン９２を出力してよく、図示の反復ノード３２はデータフロートークン９０を加算ノード３３に出力する。一例では、反復ノード３８は値２の別のデータフロートークン１２０を生成する。同様に、反復ノード３２は、値０の別のデータフロートークン１２４を生成してよい。一実施形態において、フィルタノード２８は、データフロートークン１１０を選択ノード２４に出力する。

図３Ｅに最もよく示すように、図示のシーケンサノード５４は、最終値として、値１の別のデータフロートークン１１８を出力する。反復ノード３８はさらに、比較ノード３６に値２の別のデータフロートークン１２０を出力してよい。一実施形態において、加算ノード３３は、アドレス値０のデータフロートークン１２２を出力する。さらに、選択ノード２４は、加算ノード２６およびシフトノード３０の両方に、データフロートークン１１０を出力する。

図３Ｆに最もよく示すように、シーケンサノード５４は繰り返し値として、値０の別のデータフロートークン１２６を出力してよい。投機的読み込みノード６４はデータフロートークン１２２を受け取り、データフロートークン１２２が示すアドレスから値を読み込んでよく、シフトノード３０は、データフロートークン１１０（図３Ｅ）に応じて、値８（例えば、３ビットのシフトを引き起こす）のデータフロートークン１２８を出力する。さらに、図示の加算ノード２６は、値２のデータフロートークン１３０をフィルタノード２８に出力する（例えば、ａ［ｉ］の次の値にインクリメントするため）。

図３Ｇに最もよく示すように、図示の投機的読み込みノード６４は、読み込まれた値を値０のデータフロートークン１３４として第１クリーンアップフィルタノード６０ａに出力し、値０のデータフロートークン１３６を比較ノード３６に出力する。投機的読み込みノード６４はさらに、読み込みが成功したことを示すために、値１のデータフロートークン１３８を第３クリーンアップフィルタノード６０ｃに出力してよい。さらに、加算ノード３３は、値８のデータフロートークン１３２を、ａ［ｉ］における次の要素のアドレスとして出力してよい。一実施形態において、フィルタノード２８は、データフロートークン１３０を選択ノード２４に出力する。

図３Ｈに最もよく示すように、第１クリーンアップフィルタノード６０ａは、データフロートークン１３４をフィルタノード４０に出力してよい。さらに、比較ノード３６は、（例えば、ｄの値がｘ未満であると示すために）値１のデータフロートークン１４２を第２クリーンアップフィルタノード６０ｂに出力してよい。一例では、第３クリーンアップフィルタノード６０ｃは、データフロートークン１３８をエラーノード６２に出力する。投機的読み込みノード６４は、データフロートークン１３２を受け取り、データフロートークン１３２が示すアドレスから値を読み込んでよい。

図３Ｉに最もよく示すように、図示の第２クリーンアップフィルタノード６０ｂはデータフロートークン１４２をフィルタノード４０に出力する。データフロートークン１４２はまた、置換ノード１４４、第１ストリーム選択ノード５６、および第２ストリーム選択ノード５８に、終了信号として提供されてよい。一実施形態において、図示の投機的読み込みノード６４は、読み込んだ値を値１のデータフロートークン１４６として、第１クリーンアップフィルタノードに出力し、値１のデータフロートークン１４８を比較ノード３６に出力する。投機的読み込みノード６４はさらに、読み込みが成功したことを示すために、値１のデータフロートークン１５０を第３クリーンアップフィルタノード６０ｃに出力してよい。さらに、図示のシフトノード３０は、データフロートークン１３０（図３Ｈ）に応じて、（例えば、別の３ビットのシフトを引き起こす）値１６のデータフロートークン１５１を出力する。一例では、加算ノード２６は値３のデータフロートークン１５２をフィルタノード２８に出力する。

図３Ｊに最もよく示すように、第１ストリーム選択ノード５６および第２ストリーム選択ノード５８は、それぞれＥｎｔｅｒ'信号およびＥｘｉｔ'信号として、データフロートークン１４２を出力する。さらに、図示の比較ノード３６は、（例えば、ｄの値がｘ未満であると示すために）値１のデータフロートークン１５４を第２クリーンアップフィルタノード６０ｂに出力する。

図３Ｋに最もよく示すように、データフロートークン１５４は、置換ノード１４４、第１ストリーム選択ノード５６、および第２ストリーム選択ノード５８に、終了信号として第２クリーンアップフィルタノード６０ｂにより提供されてよい。さらに、図示の第２クリーンアップフィルタノード６０ｂは、データフロートークン１５４をフィルタノード４０に出力し、第１クリーンアップフィルタノード６０ａは、データフロートークン１４６をフィルタノード４０に出力する。一実施形態において、反復ノード３８はさらに、値２の別のデータフロートークン１５８を比較ノード３６に出力し、反復ノード３２は値０の別のデータフロートークン１６０を加算ノード３３に出力する。一例では、第３クリーンアップフィルタノード６０ｃは、データフロートークン１５０をエラーノード６２に出力し、フィルタノード２８はデータフロートークン１５２を選択ノード２４に出力する。

図３Ｌに最もよく示すように、加算ノード３３は、値１６のデータフロートークン１６２を、ａ［ｉ］における次の要素のアドレスとして出力してよい。一実施形態において、選択ノード２４は、データフロートークン１５２を、加算ノード２６およびシフトノード３０の両方に出力する。

図３Ｍに最もよく示すように、置換ノード１４４は、値１のデータフロートークン１６４を第１ストリーム選択ノード５６に出力し、第２ストリーム選択ノード５８は、値１のデータフロートークン１６６をＥｘｉｔ'信号として出力する。図示の投機的読み込みノード６４は、データフロートークン１６２を受け取り、データフロートークン１６２が示すアドレスから値を読み込み、シフトノード３０は、データフロートークン１５２（図３Ｌ）に応じて、（例えば、別の３ビットのシフトを引き起こすために）値２４のデータフロートークン１７０を出力する。一例では、加算ノード２６は値４のデータフロートークン１７２をフィルタノード２８に出力する。

図３Ｎに最もよく示すように、第１ストリーム選択ノード５６は、反復ノード３８、反復ノード３２、選択ノード２４、およびフィルタノード２８に提供されるＥｎｔｅｒ'信号として、値１のデータフロートークン１７４を出力する。図示のクリーンアップフィルタノード６０は、データフロートークン１６６をＥｘｉｔ'信号として受信する。

図３Ｏに最もよく示すように、図示の投機的読み込みノード６４は、読み込まれた値を値２のデータフロートークン１８２として、第１クリーンアップフィルタノード６０ａに出力し、値２のデータフロートークン１８０を、比較ノード３６に出力する。投機的読み込みノード６４はさらに、読み込みが成功したことを示すために、値１のデータフロートークン１７８を第３クリーンアップフィルタノード６０ｃに出力してよい。一実施形態において、反復ノード３８はさらに、値２の別のデータフロートークン１８４を比較ノード３６に出力し、反復ノード３２は値０の別のデータフロートークン１８６を加算ノード３３に出力する。図示の例では、フィルタノード２８は、データフロートークン１７２をストリーム選択ノード２４に出力する。

図３Ｐに最もよく示すように、第１クリーンアップフィルタノード６０ａは、データフロートークン１８２をフィルタノード４０に出力し、図示の比較ノード３６は、（例えば、ｄの値がｘ未満ではないこと示すために）値０のデータフロートークン１８８を第２クリーンアップフィルタノード６０ｂに出力する。一例では、第３クリーンアップフィルタノード６０ｃは、データフロートークン１７８をエラーノード６２に出力する。さらに、加算ノード３３は、値２４のデータフロートークン１９０を、ａ［ｉ］における次の要素のアドレスとして出力してよい。一実施形態において、選択ノード２４は、データフロートークン１７２を、加算ノード２６およびシフトノード３０の両方に出力する。

図３Ｑに最もよく示すように、データフロートークン１９２は、置換ノード１４４、第１ストリーム選択ノード５６、および第２ストリーム選択ノード５８に、終了信号として第２クリーンアップフィルタノード６０ｂにより提供されてよい。さらに、図示の第２クリーンアップフィルタノード６０ｂは、投機完了前に、実際のループ結果が戻されることを保証するように、データフロートークン１９２をフィルタノード４０に出力する。図示の投機的読み込みノード６４はデータフロートークン１９０を受け取り、データフロートークン１９０が示すアドレスから値を読み込み、シフトノード３０は、データフロートークン１７２（図３Ｐ）に応じて、（例えば、別の３ビットのシフトを引き起こすために）値３２のデータフロートークン１９４を出力する。一例では、加算ノード２６は値５のデータフロートークン１９６をフィルタノード２８に出力する。

図３Ｒに最もよく示すように、図示の置換ノード１４４は、データフロートークン１９２に応じて、値１のデータフロートークン１０１と、値０のデータフロートークン１０３とを出力する（図３Ｑ）。さらに、クリーンアップ値が、ストリーミングを開始してよい。例えば、第２ストリーム選択ノード５８は、クリーンアップフィルタノード６０に提供されるＥｘｉｔ'信号として、（例えば、最終値入力から）データフロートークン９８を出力する。一実施形態において、フィルタノード４０は、実際のループ結果（例えばｄ）として、データフロートークン１８２を出力する。この時点で、非投機的ループは、完了したとみなされたであろう。投機的ループの実施形態は、しばらく継続して実行され、投機的トークンが除去される。一例では、投機的読み込みノード６４は、読み込まれた値を値３のデータフロートークン１０５として、第１クリーンアップフィルタノード６０ａに出力し、値３のデータフロートークン１０７を、比較ノード３６に出力する。投機的読み込みノード６４はさらに、読み込みが成功したことを示すために、値１のデータフロートークン１０９を第３クリーンアップフィルタノード６０ｃに出力してよい。

図３Ｓに最もよく示すように、第１ストリーム選択ノード５６は、反復ノード３８、反復ノード３２、選択ノード２４、およびフィルタノード２８に提供されるＥｎｔｅｒ'信号として、（例えば、終了信号入力から）データフロートークン１９２を出力する。さらに、第２ストリーム選択ノード５８は、クリーンアップフィルタノード６０に提供されるＥｘｉｔ'信号として、（例えば、最後の信号入力から）データフロートークン１０４を出力してよい。一実施形態において、第２クリーンアップフィルタノード６０ｂは、終了信号として、データフロートークン１１１を出力する。さらに、図示の比較ノード３６は、（例えば、ｄの値がｘ未満であると示すために）値０のデータフロートークン１１３を、第２クリーンアップフィルタノード６０ｂに出力してよい。

図３Ｔに最もよく示すように、第２ストリーム選択ノード５８は、Ｅｘｉｔ'信号として、（例えば、最終信号入力）から、データフロートークン１１８を出力してよい。Ｅｘｉｔ'信号は、データフロートークン１１８を介して、次のループ実行用に初期化される（例えば、グラフのセルフクリーニング）。一実施形態において、反復ノード３８はさらに、値２の別のデータフロートークン１１５を比較ノード３６に出力し、反復ノード３２は値０の別のデータフロートークン１１７を加算ノード３３に出力する。さらに、選択ノード２４による値０の初期化データフロートークン１１９の加算ノード２６およびシフトノード３０の両方への出力に応じて、次のループ実行の最初の繰り返しが実行を開始する。

図３Ｕに最もよく示すように、加算ノード３３は、値３２のデータフロートークン１２１を、ａ［ｉ］における次の要素のアドレスとして出力し、シフトノード３０はデータフロートークン１１９（図３Ｔ）に応じて、（例えば、３ビットのシフトを引き起こすために）値８のデータフロートークン１２３を出力する。さらに、図示の加算ノード２６は、値１のデータフロートークン１２５を、フィルタノード２８に出力する。

図３Ｖに最もよく示すように、図示の投機的読み込みノード６４はデータフロートークン１２１を受け取る。投機的読み込みノード６４はさらに、データフロートークン１２１が示すアドレスからの値の読み込みを試みてよい。

図３Ｗに最もよく示すように、投機的読み込みノード６４は、値０のデータフロートークン１２７を、第１クリーンアップフィルタノード６０ａに出力し、値０のデータフロートークン１２９を比較ノード３６に出力する。投機的読み込みノード６４は、さらに読み込みが失敗したことを示すために（例えば、変換失敗）、値０のデータフロートークン１３１を第３クリーンアップフィルタノード６０ｃに出力してよい。一実施形態において、投機的であるため、失敗は無視される。

図３Ｘに最もよく示すように、図示の比較ノード３６は、（例えば、ｄの値がｘ未満であると示すために）値１のデータフロートークン１３３を第２クリーンアップフィルタノード６０ｂに出力する。図示の「先読みループ」技術は、制御ループに、不特定回数の繰り返しに加え、固定回数の繰り返しを強制的に投機的に実行させるので、クリティカルパスの長さの性能に対する影響を大幅に低減させることが可能となり得る。さらに、投機的実行に関連したデータフロートークンの選択的除去により、追加的ハードウェアを使用することなく、性能的利点を実現することが可能になる。

［メモリの処理］

上述のように、例えば、構成可能空間アクセラレータ（ＣＳＡ）構造等の構造内での投機は、データフロートークンの投入および除去により処理され得る。しかし、メモリアクセスは、全体的副作用があり得るため、処理が若干異なり得る。

読み込み処理（「ｌｏａｄｓ」）が、計算におけるレイテンシの大部分を示すことが多い。したがって、読み込みの並行実施は特に有利となり得る。幸運なことに、投機的読み込みは大抵の場合、適切に行われ得る。しかし、基本的な読み込み処理を利用した当該投機が許可されない場合も若干ある。そのような場合の多くは、投機的読み込みアドレスが仮想メモリ変換における保護違反を生じる場合である。通常、このような違反はプログラム終了を生じさせる。その他より稀な状況として、投機的アクセスが違法または有害となるような副作用を伴い得る、Ｉ／Ｏ（入力／出力）空間等のメモリの特定領域への読み込み処理が挙げられる。これら状況に対応するため、新規の投機的読み込み処理が導入される。この動作は、動作が成功すると対象メモリアドレスの値を返すが、失敗すると０を返すものである。さらに、動作が成功したか失敗したかを示すために、ブーリアントークンが提供されてよい。

図４は、投機的読み込み処理１３５の例を示す。投機的読み込み処理１３５は、ハードウェアによる保護違反の実行を回避するものではあるが、それでもプログラマに非投機的ループ実行が保護違反に抵触したことを通知することは有効であり得る。上述のように、例えばエラーノード６２（図１Ｃ）等のエラーハンドラが、非投機的読み込みインスタンスが、保護違反に抵触したかを判定してよい。違反に抵触すると、既存の構造機構を使用して、ソフトウェアにメッセージが送信されてよい。

ほぼ全ての使用事例で基本的処理がうまく機能し得るが、投機的ループ制御を、読み込み処理に対する引数として含めて、より稀なメモリ種類への対応を向上してよい。「適切に働く」メモリ種類（例えばキャッシュ可能）については、アドレスおよび依存性トークン（例えばインスタンスが投機的であるか）が利用可能になると、即メモリ動作が発行されることで、この制御がハードウェアにより無視されてよい。ただし、アドレス変換により、例えばＩ／Ｏ空間等のより複雑な種類が検出されると、投機的入力を介して、ループ制御が解消する（例えば、効果的に投機的アクセスが終了する）まで待つように、動作が待機し得る。第１の従来の種類のメモリ変換が検出されると即、動作を従来のとおりに処理するため、マイクロアーキテクチャを選択してよく、例えばカウンタに基づいて、定期的により積極的なモードに復帰してよい。

読み込みと異なり、投機的記憶動作（記憶）はアンワインド用に、ハードウェアによるサポートを伴い得る。ただし、計算のクリティカルパス上の記憶は稀である。したがって、実際のループ制御の計算がメモリに送信される（またはコミット）まで、記憶を待機許可することも可能であり得る。ただし、記憶される値およびアドレスを投機的に計算し、その後投機的ループ終了制御（例えばＥｘｉｔ'信号）を使用して制御されたフィルタで除去してよい。したがって、記憶の待機は、全体的なループ性能に無影響であり得る。同様に、メモリ一貫性を実現するために使用される命令トークンは、投機対象としなくてよい。一実施形態において、当該トークンを使用した処理が、適宜フィルタリング処理で覆い隠される（ｗｒａｐｐｅｄ）。

［変換性能向上］

読み込み投機に関連した、マイクロアーキテクチャの潜在的問題の１つとして、投機的アクセスが無効なページに入った場合に偽アドレス変換が時折生じ得ることが挙げられる。本明細書に記載の投機的読み込み処理を利用すると、無効なページに入っても不正確な実行につながることはないが、適用性能を低下させる、偽のページウォークを生じ得る。この問題改善のため、仮想ページが変換不能であることを示す注釈を、ＴＬＢ階層（例えば、レベル２／Ｌ２ＴＬＢ）で付けてよい。したがって、各投機的アクセスに対して、ページウォークを引き起こすのではなく、適用が最悪の場合にＬ１（レベル１）ＴＬＢミスとなるのみで、Ｌ１で非変換がキャッシュされると罰則無しとしてよい。

図５は、投機的実行制御の各種レベルに対する、サイクルと、ループトリップ全体との関係のグラフ１３７を示す。グラフ１３７は、比較的低レベルの投機に対して、サイクル数が有利な低いレベルとなることを示す（例えば性能強化）。

次に図６を参照すると、軽量処理要素（ＰＥ）配列が、回線交換コンポーネント１４１と、静的構成の通信経路１４３とを備える、データフローアーキテクチャ１３９（例えば、ＣＳＡ）が示されている。一実施形態においてＰＥ配列は、整数ＰＥと、融合積和演算（ＦＭＡ）ＰＥとを備える。一例では、例えば制御部５０（図１Ｂ）等のデータフローグラフ制御部と、例えば、ループ部５２（図１Ｃ）等のデータフローグラフループ部とが、ＰＥとネットワークを構成することで、アーキテクチャ１３９にマッピングされる。通常、ＰＥはプロセッサ内の機能ユニットと同様の、データフロー演算子として構成される。即ち、全ての入力オペランドがＰＥに到達すると、なんらかの動作が生じ、パイプライン方式で結果が下流のＰＥに送られる。データフロー演算子は、到来するデータを、演算子単位で消費するように選択してよい。数式の無条件評価を処理するなどの単純な演算子は、多くの場合、全ての到来データを消費する。しかし、演算子が例えば蓄積状態を維持することが好ましい場合もある。

一実施形態において、ＰＥは、回線交換通信ネットワークを静的に構成することで形成された、専門の仮想回路を使用して通信する。これら仮想回路は完全にバックプレッシャー付きでフロー制御される。したがって、ソースにデータがない、または宛先がいっぱいになっている場合、ＰＥは待機する。実行時、マッピングされたアルゴリズムを実装するＰＥを通じて、データが流れる。例えば、メモリからデータが流入し、構造を通って、メモリに戻るように流出してよい。本明細書に記載のグラフ合成技術は、そのような空間アーキテクチャを対象としてよい。

次に図７を参照すると、性能強化計算システム１５１が示されている。システム１５１は概して、計算機能（例えば、携帯情報端末（ＰＤＡ）、ノートブックコンピュータ、タブレットコンピュータ、コンバーチブル型タブレット、サーバ）、通信機能（例えば、スマートフォン）、撮像機能（例えば、カメラ、カムコーダ）、メディア再生機能（例えば、スマートテレビ（ＴＶ））、ウェアラブル機能（例えば、腕時計、眼鏡、帽子、靴、宝石）、車両機能（例えば、車、トラック、バイク）、ロボット機能（例えば、自律ロボット）等、またはその任意の組み合わせを有する、電子デバイス／プラットフォームの一部であってよい。図示の例では、システム１５１は、システムメモリ１５７に結合された統合メモリコントローラ（ＩＭＣ）１５５を有するホストプロセッサ１５３（例えば、複数のＰＥおよび／またはコアを有する中央演算処理装置（ＣＰＵ））を備える。

図示のシステム１５１はさらに、システムオンチップ（ＳｏＣ）として半導体ダイ１６３上に、ホストプロセッサ１５３とともに実装される入力出力（ＩＯ）モジュール１５９と、グラフィックスプロセッサ１６１とを備える。例えば、図示のＩＯモジュール１５９は、ディスプレイ１６５（例えば、タッチスクリーン、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ）と、ネットワークコントローラ１６７（例えば、有線および／または無線ＮＩＣ）と、大容量ストレージ１６９（例えば、ハードディスクドライブ（ＨＤＤ）、光ディスク、ソリッドステートドライブ（ＳＳＤ）、フラッシュメモリ）と通信する。

一実施形態において、ホストプロセッサ１５３、グラフィックスプロセッサ１６１、および／またはＩＯモジュール１５９は、上述の方法７０（図２Ａ）および／または方法８０（図２Ｂ）の１または複数の態様を実行するため、システムメモリ１５７および／または大容量ストレージ１６９から取得したプログラム命令１７１を実行する。したがって、図示の命令１７１の実行により、計算システム１５１に、不特定回数の繰り返しで制御ループが実行されると決定することと、制御ループに、不特定回数の繰り返しに加え、固定回数の繰り返しを強制的に実行させることであって、固定回数の繰り返しでの制御ループの実行は、並行して実施される、実行させることとを行わせてもよい。命令１７１の実行はさらに、計算システム１５１に、固定回数の繰り返しでの制御ループの実行に関連した、１または複数のデータフロートークンを除去させてもよい。

したがって、命令１７１の実行により、制御ループに、不特定回数の繰り返しに加え、固定回数の繰り返しを投機的に強制的に実行させることで、クリティカルパスの長さの性能への影響を大幅に低減させることが可能であるという点で、計算システム１５１は性能強化されているとみなされ得る。さらに、投機的実行に関連した、データデータフロートークンの選択的除去により、追加のハードウェアを使用することなく、性能的利点を実現することが可能となる。

図８は、半導体パッケージ装置１７３を示す。図示の装置１７３は、１または複数の基板１７５（例えば、シリコン、サファイヤ、ヒ化ガリウム）と、１または複数の基板１７５に結合されたロジック１７７（例えば、トランジスタ配列およびその他集積回路（ＩＣ）コンポーネント）とを備える。ロジック１７７は、少なくとも部分的に、構成可能ロジック、または機能固定型ロジックハードウェア内に実装されてよい。一例では、ロジック１７７は、上述の方法７０（図２Ａ）および／または方法８０（図２Ｂ）の１または複数の態様を実現する。したがって、ロジック１７７は不特定回数の繰り返しで制御ループが実行されると決定することと、制御ループに、不特定回数の繰り返しに加え、固定回数の繰り返しを強制的に実行させることであって、固定回数の繰り返しでの制御ループの実行は並行して実施される、実行させることとを自動的に行ってもよい。ロジック１７７はさらに、自動的に計算システム１５１に、固定回数の繰り返しでの制御ループの実行に関連した、１または複数のデータフロートークンを除去させてよい。

したがって、ロジック１７７が、制御ループに、不特定回数の繰り返しに加え、固定回数の繰り返しを投機的に強制的に実行させることで、クリティカルパスの長さの性能への影響を大幅に低減させることが可能であるという点で、装置１７３は性能強化されているとみなされ得る。さらに、投機的実行に関連した、データデータフロートークンの選択的除去により、追加のハードウェアを使用することなく、性能的利点を実現することが可能となる。

一例では、ロジック１７７は、１または複数の基板１７５内に配置された（例えば埋め込まれた）トランジスタチャネル領域を備える。したがって、ロジック１７７と、１または複数の基板１７５との間のインタフェースは、段階接合とならなくなり得る。ロジック１７７はさらに、１または複数の基板１７５の初期ウェハ上に成長するエピタキシャル層を備えるとみなされ得る。

図９は、１つの実施形態に係るプロセッサコア２００を示す。プロセッサコア２００は、マイクロプロセッサ、内蔵プロセッサ、デジタル信号プロセッサ（ＤＳＰ）、ネットワークプロセッサ、またはコードを実行する他のデバイスなどの任意のタイプのプロセッサのコアであってよい。図９は、プロセッサコア２００を１つのみ図示する。しかしこれに代えて処理要素は、図９に示すプロセッサコア２００を２つ以上備えてよい。プロセッサコア２００は、シングルスレッドコアであってよいが、少なくとも１つの実施形態については、プロセッサコア２００は、コアごとに２つ以上のハードウェアスレッドコンテキスト（または、「論理プロセッサ」を含み得るという点で、マルチスレッドであってよい。

図９はまた、プロセッサコア２００に結合されたメモリ２７０を示す。メモリ２７０は、当業者にとって既知か、さもなければ当業者が入手可能な（メモリ階層の様々な層を含む）多種多様なメモリのいずれかであってよい。メモリ２７０は、プロセッサコア２００によって実行される１または複数のコード２１３命令を含んでよい。コード２１３は、既に説明した方法７０（図２Ａ）、および／または方法８０（図２Ｂ）の１または複数の態様を実現してよい。プロセッサコア２００は、コード２１３によって示される命令のプログラムシーケンスに従う。各命令は、フロントエンドポーション２１０に入り、１または複数のデコーダ２２０によって処理されてよい。デコーダ２２０は、予め定義されたフォーマットの固定幅マイクロオペレーションなどのマイクロオペレーションをその出力として生成してよく、または、他の命令、マイクロ命令、もしくは元のコード命令を反映する制御信号を生成してよい。図示のフロントエンドポーション２１０はまた、レジスタリネーミングロジック２２５およびスケジューリングロジック２３０を備え、それらは概して、リソースを割り当て、変換命令に対応する動作を実行のためにキューに入れる。

プロセッサコア２００は、一組の実行ユニットのセット２５５－１から２５５－Ｎを有する実行ロジック２５０を備えるように示されている。いくつかの実施形態は、特定の機能または機能セット専用の複数の実行ユニットを含んでよい。別の実施形態は、ただ１つの実行ユニットを含み得るか、または、特定の機能を実行できる１つの実行ユニットを含み得る。図示の実行ロジック２５０は、コード命令によって指定される動作を実行する。

コード命令によって指定された動作の実行が完了した後、バックエンドロジック２６０はコード２１３の命令をリタイアさせる。１つの実施形態において、プロセッサコア２００では、命令の実行はアウトオブオーダが可能だが、そのリタイアについてはインオーダである必要がある。リタイアメントロジック２６５は、当業者に既知の様々なかたちをとってよい形式であってよい（例えば、リオーダバッファ等）。このように、コード２１３の実行中に、プロセッサコア２００では、少なくとも、デコーダが生成する出力と、レジスタリネーミングロジック２２５が利用するハードウェアレジスタおよびテーブルと、実行ロジック２５０が変更するあらゆるレジスタ（図示せず）とに関する変化がある。

図９には示されてないが、処理要素は、プロセッサコア２００を含むチップ上に他の要素も含んでよい。例えば、処理要素は、プロセッサコア２００と共にメモリ制御ロジックを含んでよい。処理要素は、Ｉ／Ｏ制御ロジックを含んでよく、および／または、メモリ制御ロジックと統合されたＩ／Ｏ制御ロジックを含んでよい。処理要素は、１または複数のキャッシュも含んでよい。

ここで図１０を参照すると、一実施形態に係る計算システム１０００の実施形態のブロック図が示されている。図１０に示されているのはマルチプロセッサシステム１０００である。マルチプロセッサシステム１０００は、第１の処理要素１０７０および第２の処理要素１０８０を備える。２つの処理要素１０７０および１０８０が示されているが、システム１０００に係る一実施形態は、そのような処理要素を１つだけしか含まなくてよいことを理解されたい。

システム１０００は、ポイントツーポイント相互接続システムとして図示されている。第１の処理要素１０７０と第２の処理要素１０８０とは、ポイントツーポイント相互接続１０５０を介して結合される。図１０に示す相互接続のいずれかまたは全てがポイントツーポイント相互接続ではなくマルチドロップバスとして実装され得ることを理解されたい。

図１０に示すように、処理要素１０７０および１０８０の各々は、第１のプロセッサコアおよび第２のプロセッサコア（すなわち、プロセッサコア１０７４ａおよび１０７４ｂ、ならびに、プロセッサコア１０８４ａおよび１０８４ｂ）を含むマルチコアプロセッサであってよい。そのようなコア１０７４ａ、１０７４ｂ、１０８４ａ、１０８４ｂは、図９に関連して上述したものと同様の態様で命令コードを実行するよう構成されてよい。

処理要素１０７０、１０８０はそれぞれ、少なくとも１つの共有キャッシュ１８９６ａ、１８９６ｂを含んでよい。共有キャッシュ１８９６ａおよび１８９６ｂはそれぞれ、コア１０７４ａ、１０７４ｂおよび１０８４ａ、１０８４ｂなどの、プロセッサの１または複数のコンポーネントによって利用されるデータ（例えば、命令）を格納してよい。例えば、共有キャッシュ１８９６ａ、１８９６ｂは、プロセッサのコンポーネントがより高速にアクセスできるよう、メモリ１０３２、１０３４に記憶されたデータをローカルにキャッシュしてよい。１または複数の実施形態において、共有キャッシュ１８９６ａ、１８９６ｂは、レベル２（Ｌ２）、レベル３（Ｌ３）、レベル４（Ｌ４）もしくは他のレベルのキャッシュなどの１または複数の中間レベルキャッシュ、ラストレベルキャッシュ（ＬＬＣ）、および／または、それらの組み合わせを含んでよい。

図では２つの処理要素１０７０、１０８０のみが示されているが、実施形態の範囲はそれに限定されないことを理解されたい。他の実施形態では、所与のプロセッサにおいて１または複数の追加の処理要素が存在してよい。あるいは、処理要素１０７０、１０８０のうちのいずれかまたは両方は、プロセッサ以外の、アクセラレータまたはフィールドプログラマブルゲートアレイなどの要素であってよい。例えば、１または複数の追加の処理要素は、第１のプロセッサ１０７０と同じ１または複数の追加のプロセッサ、第１のプロセッサ１０７０とは異種または非対称のプロセッサである１または複数の追加のプロセッサ、アクセラレータ（例えば、グラフィックスアクセラレータもしくはデジタル信号処理（ＤＳＰ）ユニットなど）、フィールドプログラマブルゲートアレイ、または、任意の他の処理要素を含んでよい。処理要素１０７０と処理要素１０８０との間には、アーキテクチャ特性、マイクロアーキテクチャ特性、熱的特性、および消費電力特性等を含む多種多様な価値基準に関して様々な差異があり得る。これらの差異は、処理要素１０７０と処理要素１０８０との間の非対称性および異種性として効果的に現れ得る。少なくとも１つの実施形態では、同じダイパッケージ中に様々な処理要素１０７０、１０８０が存在してよい。

第１の処理要素１０７０は、メモリコントローラロジック（ＭＣ）１０７２とポイントツーポイント（Ｐ－Ｐ）インタフェース１０７６および１０７８とをさらに備えてよい。同様に、第２の処理要素１０８０は、ＭＣ１０８２とＰ－Ｐインタフェース１０８６および１０８８とを含んでよい。図１０に示すように、ＭＣ１０７２およびＭＣ１０８２は、プロセッサをそれぞれのメモリ、すなわちメモリ１０３２およびメモリ１０３４に結合する。これらのメモリは、それぞれのプロセッサにローカルに取り付けられたメインメモリの一部であってよい。ＭＣ１０７２および１０８２は処理要素１０７０および１０８０の中に統合されているものとして示されているが、代替の実施形態では、ＭＣロジックは、処理要素１０７０、１０８０に統合されるのではなく、処理要素１０７０、１０８０の外部の別個のロジックであってよい。

第１の処理要素１０７０および第２の処理要素１０８０はそれぞれ、Ｐ－Ｐ相互接続１０７６および１０８６を介してＩ／Ｏサブシステム１０９０に結合されてよい。図１０に示すように、Ｉ／Ｏサブシステム１０９０は、Ｐ－Ｐインタフェース１０９４および１０９８を備えてよい。さらに、Ｉ／Ｏサブシステム１０９０は、Ｉ／Ｏサブシステム１０９０を高性能グラフィックスエンジン１０３８と結合するインタフェース１０９２を備える。１つの実施形態において、グラフィックスエンジン１０３８をＩ／Ｏサブシステム１０９０に結合するのに、バス１０４９が使用されてよい。あるいは、ポイントツーポイント相互結合がこれらのコンポーネントを結合してよい。

さらにＩ／Ｏサブシステム１０９０は、インタフェース１０９６を介して第１のバス１０１６に結合されてよい。１つの実施形態において、第１のバス１０１６は、ペリフェラルコンポーネントインターコネクト（ＰＣＩ）バス、または、ＰＣＩエクスプレスバスもしくは別の第３世代Ｉ／Ｏ相互接続バスなどのバスであってよいが、当該実施形態の範囲はそれに限定されない。

図１０に示すように、様々なＩ／Ｏデバイス１０１４（例えば、生体スキャナ、スピーカ、カメラ、センサ）がバスブリッジ１０１８と共に第１のバス１０１６に結合されてよい。バスブリッジ１０１８は、第１のバス１０１６を第２のバス１０２０に結合してよい。１つの実施形態において、第２のバス１０２０は、ローピンカウント（ＬＰＣ）バスであってよい。１つの実施形態において、例えば、キーボード／マウス１０１２、１または複数の通信デバイス１０２６、およびコード１０３０を含み得るディスクドライブまたはその他の大容量ストレージデバイスなどのデータストレージユニット１０１９を含む、様々なデバイスが第２のバス１０２０に結合されてよい。図示のコード１０３０は、上述の方法７０（図２Ａ）、および／または方法８０（図２Ｂ）のうちの１または複数の態様を実現してよい。さらに、オーディオＩ／Ｏ１０２４が第２のバス１０２０に結合されてよく、バッテリ１０１０が計算システム１０００に給電してよい。

他の実施形態も考えられることに留意されたい。例えば、図１０のポイントツーポイントアーキテクチャの代わりに、システムは、マルチドロップバス、または、別のそのような通信トポロジを実装してよい。あるいは図１０の要素はさらに、図１０に示すよりも多くのまたは少ない集積チップを使用して、区画されてよい。

［追加の留意点および例］

例１は、ネットワークコントローラと、ネットワークコントローラに結合されたプロセッサとを含む性能強化された計算システムを含み、プロセッサは１または複数の基板に結合されたロジックを含み、ロジックは、制御ループが不特定回数の繰り返しで実行されると決定し、制御ループに、不特定回数の繰り返しに加え、固定回数の繰り返しを強制的に実行させ、固定回数の繰り返しでの制御ループの実行は、並行して実施される。

例２は、１または複数の基板に結合されたロジックは、固定回数の繰り返しでの制御ループの実行に関連した、１または複数のデータフロートークンを除去する、例１のシステムを含む。

例３は、制御ループは、メモリアドレスからの読み込みを伴い、１または複数の基板に結合されたロジックは、読み込みが成功したかを示す信号を生成する、例１または２のいずれか１つのシステムを含む。

例４は、読み込みは、入力／出力（ＩＯ）メモリアドレスからである、例３のシステムを含む。

例５は、読み込みは、仮想メモリアドレスからである、例３のシステムを含む。

例６は、１または複数の基板に結合されたロジックは、キャッシュ不能なメモリモードの異常により、読み込みが失敗したことを検出し、異常に応じて、１または複数の仮想ページを変換不能と注釈を付ける、例５のシステムを含む。

例７は、１または複数の基板と、１または複数の基板に結合されたロジックとを含む半導体装置を含み、ロジックは、少なくとも部分的に構成可能ロジックまたは機能固定型ハードウェアロジックのうちの１または複数に実装され、１または複数の基板に結合されたロジックは、不特定回数の繰り返しで制御ループが実行されると決定することと、制御ループに、不特定回数の繰り返しに加え、固定回数の繰り返しを強制的に実行させることであって、固定回数の繰り返しでの制御ループの実行は並行して実施される、実行させることを行う。

例８は、１または複数の基板に結合されたロジックは、固定回数の繰り返しでの制御ループの実行に関連した、１または複数のデータフロートークンを除去する、例７の半導体装置を含む。

例９は、制御ループは、メモリアドレスからの読み込みを伴い、１または複数の基板に結合されたロジックは、読み込みが成功したかを示す信号を生成する、例７または８のいずれか１つの半導体装置を含む。

例１０は、読み込みは、入力／出力（ＩＯ）メモリアドレスからである、例９の半導体装置を含む。

例１１は、読み込みは、仮想メモリアドレスからである、例９の半導体装置を含む。

例１２は、１または複数の基板に結合されたロジックは、
キャッシュ不能なメモリモードの異常により、読み込みが失敗したことを検出し、
異常に応じて、１または複数の仮想ページに変換不能と注釈を付ける、例１１の半導体装置を含む。

例１３は、一組の実行可能なプログラム命令を備える少なくとも１つのコンピュータ可読記憶媒体を含み、プログラム命令は、計算システムによって実行されると、計算システムに、不特定回数の繰り返しで制御ループが実行されると決定することと、制御ループに、不特定回数の繰り返しに加え、固定回数の繰り返しを強制的に実行させることであって、固定回数の繰り返しでの制御ループの実行は、並行して実施される、実行させることとを行わせる。

例１４は、プログラム命令は、実行されると、計算システムに、固定回数の繰り返しでの制御ループの実行に関連した、１または複数のデータフロートークンを除去させる、例１３の少なくとも１つのコンピュータ可読記憶媒体を含む。

例１５は、制御ループは、メモリアドレスからの読み込みを伴い、プログラム命令は、実行されると、計算システムに、読み込みが成功したかを示す信号を生成させる、例１３または１４のいずれか１つの少なくとも１つのコンピュータ可読記憶媒体を含む。

例１６は、読み込みは、入力／出力（ＩＯ）メモリアドレスからである、例１５の少なくとも１つのコンピュータ可読記憶媒体を含む。

例１７は、読み込みは、仮想メモリアドレスからである、例１５の少なくとも１つのコンピュータ可読記憶媒体を含む。

例１８は、プログラム命令は、実行されると、計算システムに、キャッシュ不能なメモリモードの異常により、読み込みが失敗したことを検出させ、異常に応じて、１または複数の仮想ページに変換不能と注釈を付けさせる、例１７の少なくとも１つのコンピュータ可読記憶媒体を含む。

例１９は、不特定回数の繰り返しで制御ループが実行されると決定する段階と、制御ループに、不特定回数の繰り返しに加え、固定回数の繰り返しを強制的に実行させる段階であって、固定回数の繰り返しでの制御ループの実行は、並行して実施される、実行させる段階と、を備える方法を含む。

例２０は、固定回数の繰り返しでの制御ループの実行に関連した、１または複数のデータフロートークンを除去する段階をさらに備える、例１９の方法を含む。

例２１は、制御ループは、メモリアドレスからの読み込みを伴い、方法は、読み込みが成功したかを示す信号を生成する段階をさらに備える、例１９または２０のいずれか１つの方法を含む。

例２２は、読み込みは、入力／出力（ＩＯ）メモリアドレスからである、例２１の方法を含む。

例２３は、読み込みは、仮想メモリアドレスからである、例２１の方法を含む。

例２４はキャッシュ不能なメモリモードの異常により、読み込みが失敗したことを検出する段階と、異常に応じて、１または複数の仮想ページに変換不能と注釈を付ける段階と、をさらに備える、例２３の方法を含む。

例２５は、例１９から２４のいずれか１つの方法を実行する手段を含む。

したがって、本明細書に記載の技術は、多数のデータフローグラフの性能を、標準的な場合に対して整数倍向上し、それによりデータフローアーキテクチ全般の適用性を向上する。本技術は、既存のハードウェアに対し、若干の変更を要するか、変更を要さない。

実施形態は、あらゆるタイプの半導体集積回路（「ＩＣ」）チップとの使用に適用可能である。これらＩＣチップの例としては、限定ではないが、プロセッサ、コントローラ、チップセットコンポーネント、プログラマブルロジックアレイ（ＰＬＡ）、メモリチップ、ネットワークチップ、システムオンチップ（ＳｏＣ）、ＳＳＤ／ＮＡＮＤコントローラＡＳＩＣ等が含まれる。また、いくつかの図面においては、信号導線が線で表されている。この一部は、より多くの成分信号経路を示すために、他と異なっていてよく、複数の成分信号経路を示すために番号ラベルを有してよく、かつ／または、主要情報の流れ方向を示すべく１または複数の端部に矢印を有していてよい。しかしながら、このことは限定的に解釈されるべきではない。むしろ、かかる追加の詳細は、１または複数の例示的な実施形態に関連して使用され、回路の理解をより容易にし得るものである。追加の情報を有するか否かにかかわらず、示されたあらゆる信号線は実際には、移動方向が複数あり得る１または複数の信号を含んでよく、例えば、差動ペアで実装されるデジタル線またはアナログ線、光ファイバ線、および／または、シングルエンド線といったあらゆる好適なタイプの信号方式で実装されてよい。

例示的な大きさ／モデル／値／範囲が与えられている場合があるが、実施形態はそれに限定されるものではない。時間を経て製造技術（例えば、フォトリソグラフィ）が成熟するにつれ、より小型のデバイスが製造され得ることが予期される。また、例示および説明を簡潔にするために、および、実施形態の特定の態様を不明瞭にしないように、ＩＣチップおよび他のコンポーネントへのよく知られた電源／グラウンド接続は、図中に示されていても、示されていなくてよい。さらに、実施形態を不明瞭にすることを回避すべく、構成は、ブロック図で示されてよく、また、かかるブロック図構成の実装に関する詳細は、実施形態が実装されるべき計算システムに大きく依存することに鑑みれば、すなわち、かかる詳細は、当業者の十分知見の範囲内である。例示的な実施形態を説明するために、具体的な詳細（例えば、回路）が記載される場合、これらの具体的な詳細なしで、またはこれらの具体的な詳細の変形例によって、実施形態が実施され得ることが、当業者には、自明である。従って、詳細な説明は、限定的ではなく、例示的なものとしてみなされるべきである。

「結合」という用語は、対象のコンポーネント間の任意のタイプの直接的または間接的関係、を指すために本明細書において使用されてよく、電気的、機械的、流体的、光学的、電磁的、電子機械的、または他の接続に適用されてよい。また、「第１」、「第２」等の用語は、説明を容易にするためだけに本明細書において使用されてよく、別途記載がない限り、何ら特定の時間的または時系列的な意味を含まない。

本願および特許請求の範囲において用いられる「のうちの１または複数」という用語によって結合される項目の列挙は、列挙された用語の任意の組み合わせを意味してよい。例えば、「Ａ、ＢおよびＣのうちの１または複数」という文言および「Ａ、ＢまたはＣのうちの１または複数」という文言はいずれも、Ａ；Ｂ；Ｃ；ＡおよびＢ；ＡおよびＣ；ＢおよびＣ；またはＡ、ＢおよびＣを意味してよい。

当業者ならば、上述の説明から、実施形態の広範な技術が、様々な形態で実装され得ることを理解するであろう。従って、実施形態はこれらの特定の例に関し説明されてきたが、実施形態の真の範囲は、このように限定されるべきではない。図面、明細書、および以下の特許請求の範囲を精査すれば、当業者には他の修正形態が自明なのである。
（項目１）
ネットワークコントローラと、
上記ネットワークコントローラに結合されたプロセッサであって、１または複数の基板に結合されたロジックを含むプロセッサと、を備える計算システムであって、
上記ロジックは、
不特定回数の繰り返しで制御ループが実行されると決定することと、
上記制御ループに、上記不特定回数の繰り返しに加え、固定回数の繰り返しを強制的に実行させることであって、上記固定回数の繰り返しでの上記制御ループの実行は並行して実施される、実行させることと
を行う、システム。
（項目２）
上記１または複数の基板に結合された上記ロジックは、上記固定回数の繰り返しでの上記制御ループの上記実行に関連した、１または複数のデータフロートークンを除去する、項目１に記載のシステム。
（項目３）
上記制御ループは、メモリアドレスからの読み込みを伴い、上記１または複数の基板に結合された上記ロジックは、上記読み込みが成功したかを示す信号を生成する、項目１に記載のシステム。
（項目４）
上記読み込みは、入力／出力（ＩＯ）メモリアドレスからである、項目３に記載のシステム。
（項目５）
上記読み込みは、仮想メモリアドレスからである、項目３に記載のシステム。
（項目６）
上記１または複数の基板に結合された上記ロジックは、
キャッシュ不能なメモリモードの異常により、上記読み込みが失敗したことを検出し、
上記異常に応じて、１または複数の仮想ページに変換不能と注釈を付ける、項目５に記載のシステム。
（項目７）
１または複数の基板と、
上記１または複数の基板に結合されたロジックであって、上記ロジックは、少なくとも部分的に構成可能ロジックまたは機能固定型ハードウェアロジックのうちの１または複数に実装される、ロジックを備え、
上記１または複数の基板に結合されたロジックは、
不特定回数の繰り返しで制御ループが実行されると決定することと、
上記制御ループに、上記不特定回数の繰り返しに加え、固定回数の繰り返しを強制的に実行させることであって、上記固定回数の繰り返しでの上記制御ループの実行は並行して実施される、実行させることと
を行う、半導体装置。
（項目８）
上記１または複数の基板に結合された上記ロジックは、上記固定回数の繰り返しでの上記制御ループの上記実行に関連した、１または複数のデータフロートークンを除去する、項目７に記載の半導体装置。
（項目９）
上記制御ループは、メモリアドレスからの読み込みを伴い、上記１または複数の基板に結合された上記ロジックは、上記読み込みが成功したかを示す信号を生成する、項目７に記載の半導体装置。
（項目１０）
上記読み込みは、入力／出力（ＩＯ）メモリアドレスからである、項目９に記載の半導体装置。
（項目１１）
上記読み込みは、仮想メモリアドレスからである、項目９に記載の半導体装置。
（項目１２）
上記１または複数の基板に結合されたロジックは、
キャッシュ不能なメモリモードの異常により、上記読み込みが失敗したことを検出し、
上記異常に応じて、１または複数の仮想ページに変換不能と注釈を付ける、項目１１に記載の半導体装置。
（項目１３）
一組の実行可能なプログラム命令を備える少なくとも１つのコンピュータ可読記憶媒体であって、上記プログラム命令は、計算システムによって実行されると、実行可能プログラム命令セットを備える少なくとも１つのコンピュータ可読記憶媒体であって、上記プログラム命令は、計算システムによって実行されると、上記計算システムに、
不特定回数の繰り返しで制御ループが実行されると決定することと、
上記制御ループに、上記不特定回数の繰り返しに加え、固定回数の繰り返しを強制的に実行させることであって、上記固定回数の繰り返しでの上記制御ループの実行は並行して実施される、実行させることと
を行わせる、少なくとも１つのコンピュータ可読記憶媒体。
（項目１４）
上記プログラム命令は、実行されると、上記計算システムに、上記固定回数の繰り返しでの上記制御ループの上記実行に関連した、１または複数のデータフロートークンを除去させる、項目１３に記載の少なくとも１つのコンピュータ可読記憶媒体。
（項目１５）
上記制御ループは、メモリアドレスからの読み込みを伴い、上記プログラム命令は、実行されると、上記計算システムに、上記読み込みが成功したかを示す信号を生成させる、項目１３に記載の少なくとも１つのコンピュータ可読記憶媒体。
（項目１６）
上記読み込みは、入力／出力（ＩＯ）メモリアドレスからである、項目１５に記載の少なくとも１つのコンピュータ可読記憶媒体。
（項目１７）
上記読み込みは、仮想メモリアドレスからである、項目１５に記載の少なくとも１つのコンピュータ可読記憶媒体。
（項目１８）
上記プログラム命令は、実行されると上記計算システムに、
キャッシュ不能なメモリモードの異常により、上記読み込みが失敗したことを検出させ、
上記異常に応じて、１または複数の仮想ページに変換不能と注釈を付けさせる、項目１７に記載の少なくとも１つのコンピュータ可読記憶媒体。
（項目１９）
不特定回数の繰り返しで制御ループが実行されると決定する段階と、
上記制御ループに、上記不特定回数の繰り返しに加え、固定回数の繰り返しを強制的に実行させる段階であって、上記固定回数の繰り返しでの上記制御ループの実行は並行して実施される、実行させる段階と、
を備える方法。
（項目２０）
上記固定回数の繰り返しでの上記制御ループの上記実行に関連した、１または複数のデータフロートークンを除去する段階をさらに備える、項目１９に記載の方法。
（項目２１）
上記制御ループは、メモリアドレスからの読み込みを伴い、上記方法は、上記読み込みが成功したかを示す信号を生成する段階をさらに備える、項目１９に記載の方法。
（項目２２）
上記読み込みは、入力／出力（ＩＯ）メモリアドレスからである、項目２１に記載の方法。
（項目２３）
上記読み込みは、仮想メモリアドレスからである、項目２１に記載の方法。
（項目２４）
キャッシュ不能なメモリモードの異常により、上記読み込みが失敗したことを検出する段階と、
上記異常に応じて、１または複数の仮想ページに変換不能と注釈を付ける段階と、
をさらに備える、項目２３に記載の方法。

Claims

ネットワークコントローラと、
前記ネットワークコントローラに結合されたプロセッサであって、１または複数の基板に結合されたロジックを含むプロセッサと、を備え、
前記ロジックは、
不特定回数の繰り返しで制御ループが実行されると決定することと、
前記不特定回数の繰り返しの少なくとも一部の後に、前記制御ループに固定回数の繰り返しを強制的に実行させることであって、前記固定回数の繰り返しを、前記不特定回数の繰り返しの、前記少なくとも一部とは異なる他の少なくとも一部と並行して実施する、実行させることと、
を行う、計算システム。
前記１または複数の基板に結合された前記ロジックは、前記固定回数の繰り返しでの前記制御ループの前記実行に関連した、１または複数のデータフロートークンを除去する、請求項１に記載の計算システム。
前記制御ループは、メモリアドレスからの読み込みを伴い、前記１または複数の基板に結合された前記ロジックは、前記読み込みが成功したかを示す信号を生成する、請求項１または２に記載の計算システム。
前記読み込みは、入力／出力（ＩＯ）メモリアドレスからである、請求項３に記載の計算システム。
前記読み込みは、仮想メモリアドレスからである、請求項３に記載の計算システム。
前記１または複数の基板に結合された前記ロジックは、
キャッシュ不能なメモリモードの異常により、前記読み込みが失敗したことを検出し、
前記異常に応じて、１または複数の仮想ページに変換不能と注釈を付ける、請求項５に記載の計算システム。
１または複数の基板と、
前記１または複数の基板に結合されたロジックであって、前記ロジックは、少なくとも部分的に構成可能ロジックまたは機能固定型ハードウェアロジックのうちの１または複数に実装される、ロジックを備え、
前記１または複数の基板に結合されたロジックは、
不特定回数の繰り返しで制御ループが実行されると決定することと、
前記不特定回数の繰り返しの少なくとも一部の後に、前記制御ループに固定回数の繰り返しを強制的に実行させることであって、前記固定回数の繰り返しを、前記不特定回数の繰り返しの、前記少なくとも一部とは異なる他の少なくとも一部と並行して実施する、実行させることと、
を行う、半導体装置。
前記１または複数の基板に結合された前記ロジックは、前記固定回数の繰り返しでの前記制御ループの前記実行に関連した、１または複数のデータフロートークンを除去する、請求項７に記載の半導体装置。
前記制御ループは、メモリアドレスからの読み込みを伴い、前記１または複数の基板に結合された前記ロジックは、前記読み込みが成功したかを示す信号を生成する、請求項７または８に記載の半導体装置。
前記読み込みは、入力／出力（ＩＯ）メモリアドレスからである、請求項９に記載の半導体装置。
前記読み込みは、仮想メモリアドレスからである、請求項９に記載の半導体装置。
前記１または複数の基板に結合されたロジックは、
キャッシュ不能なメモリモードの異常により、前記読み込みが失敗したことを検出し、
前記異常に応じて、１または複数の仮想ページに変換不能と注釈を付ける、請求項１１に記載の半導体装置。
計算システムに、
不特定回数の繰り返しで制御ループが実行されると決定することと、
前記不特定回数の繰り返しの少なくとも一部の後に、前記制御ループに固定回数の繰り返しを強制的に実行させることであって、前記固定回数の繰り返しを、前記不特定回数の繰り返しの、前記少なくとも一部とは異なる他の少なくとも一部と並行して実施する、実行させることと、
を行わせる、プログラム。
前記計算システムに、前記固定回数の繰り返しでの前記制御ループの前記実行に関連した、１または複数のデータフロートークンを除去させる、請求項１３に記載のプログラム。
前記制御ループは、メモリアドレスからの読み込みを伴い、前記プログラムは、前記読み込みが成功したかを示す信号を前記計算システムに生成させる、請求項１３または１４に記載のプログラム。
前記読み込みは、入力／出力（ＩＯ）メモリアドレスからである、請求項１５に記載のプログラム。
前記読み込みは、仮想メモリアドレスからである、請求項１５に記載のプログラム。
前記計算システムに、
キャッシュ不能なメモリモードの異常により、前記読み込みが失敗したことを検出させ、
前記異常に応じて、１または複数の仮想ページに変換不能と注釈を付けさせる、請求項１７に記載のプログラム。
請求項１３から１８のいずれか一項に記載のプログラムを格納する、少なくとも１つのコンピュータ可読記憶媒体。
不特定回数の繰り返しで制御ループが実行されると決定する段階と、
前記不特定回数の繰り返しの少なくとも一部の後に、前記制御ループに固定回数の繰り返しを強制的に実行させる段階であって、前記固定回数の繰り返しを、前記不特定回数の繰り返しの、前記少なくとも一部とは異なる他の少なくとも一部と並行して実施する、実行させる段階と、
を備える方法。
前記固定回数の繰り返しでの前記制御ループの前記実行に関連した、１または複数のデータフロートークンを除去する段階をさらに備える、請求項２０に記載の方法。
前記制御ループは、メモリアドレスからの読み込みを伴い、前記方法は、前記読み込みが成功したかを示す信号を生成する段階をさらに備える、請求項２０または２１に記載の方法。
前記読み込みは、入力／出力（ＩＯ）メモリアドレスからである、請求項２２に記載の方法。
前記読み込みは、仮想メモリアドレスからである、請求項２２に記載の方法。
キャッシュ不能なメモリモードの異常により、前記読み込みが失敗したことを検出する段階と、
前記異常に応じて、１または複数の仮想ページに変換不能と注釈を付ける段階と、
をさらに備える、請求項２４に記載の方法。
不特定回数の繰り返しで制御ループが実行されると決定する手段と、
前記不特定回数の繰り返しの少なくとも一部の後に、前記制御ループに固定回数の繰り返しを強制的に実行させる手段であって、前記固定回数の繰り返しを、前記不特定回数の繰り返しの、前記少なくとも一部とは異なる他の少なくとも一部と並行して実施する、実行させる手段と、
を備える半導体装置。
前記固定回数の繰り返しでの前記制御ループの前記実行に関連した、１または複数のデータフロートークンを除去する手段をさらに備える、請求項２６に記載の半導体装置。
前記制御ループは、メモリアドレスからの読み込みを伴い、前記半導体装置は、前記読み込みが成功したかを示す信号を生成する手段をさらに備える、請求項２６または２７に記載の半導体装置。
前記読み込みは、入力／出力（ＩＯ）メモリアドレスからである、請求項２８に記載の半導体装置。
前記読み込みは、仮想メモリアドレスからである、請求項２８に記載の半導体装置。
キャッシュ不能なメモリモードの異常により、前記読み込みが失敗したことを検出する手段と、
前記異常に応じて、１または複数の仮想ページに変換不能と注釈を付ける手段と、
をさらに備える、請求項３０に記載の半導体装置。