JP7402240B2

JP7402240B2 - スレッドの実行順序を維持する同期デジタル回路を生成する言語およびコンパイラ

Info

Publication number: JP7402240B2
Application number: JP2021540807A
Authority: JP
Inventors: ペルトン，ブレイク・ディー; コールフィールド，エイドリアン・マイケル
Original assignee: マイクロソフトテクノロジーライセンシング，エルエルシー
Priority date: 2019-01-14
Filing date: 2020-01-04
Publication date: 2023-12-20
Anticipated expiration: 2040-01-04
Also published as: MX2021008474A; CA3123903A1; ZA202103821B; AU2020209446A1; US11093682B2; IL284548A; EP3912025B1; JP2022518209A; SG11202107262RA; KR20210112330A; EP3912025A1; US20200226228A1; CN113316762A; BR112021010345A2; WO2020150013A1

Description

[0001]ハードウェア記述言語（「ＨＤＬ」：ｈａｒｄｗａｒｅｄｅｓｃｒｉｐｔｉｏｎｌａｎｇｕａｇｅ）は、電子回路、最も一般的にはデジタル論理回路の構成および動作を記述するためにハードウェアエンジニアによって使用されるモデリング言語である。ＨＤＬの例は、超高速集積回路（「ＶＨＳＩＣ」）ＨＤＬおよびＶＥＲＩＬＯＧ（登録商標）を含む。

[0002]ＨＤＬは、一般に、デジタル論理回路をモデル化するために多くのコード行を必要とする。ＨＤＬに精通しているハードウェアエンジニアでさえ、そのようなコードの生成には非常に時間がかかることがある。さらに、設計に存在するコード行が多いほど、設計にエラーが含まれたり、性能が低下したりする可能性が高くなる。

[0003]ＨＤＬは通常、命令型プログラミング言語とは異なるプログラミングパラダイム（ｐｒｏｇｒａｍｍｉｎｇｐａｒａｄｉｇｍ）を利用するので、ＨＤＬに精通していないソフトウェアエンジニアは、一般に、これらの言語を利用するのに非常に苦労する。その結果、ソフトウェアエンジニアによって生成されたＨＤＬから生成された電子回路にも、エラーが含まれ、性能が低下する可能性がある。

[0004]これらおよび他の技術的課題に関して、本明細書でなされた開示が提示される。

[0005]スレッドの実行順序（ｔｈｒｅａｄｅｘｅｃｕｔｉｏｎｏｒｄｅｒ）を維持する同期デジタル回路を生成する言語およびコンパイラについての技術が開示される。開示された技術の実施を通じて、ハードウェアエンジニアは、性能を犠牲にすることなく、同時に、一部のタイプの回路設計の実施に必要なコード行数を減らし、一般的な設計エラーのクラス全体を排除することで、生産性を大幅に向上させることができる。ＨＤＬを使用して回路を設計した経験がほとんどまたはまったくないソフトウェアエンジニアの場合、開示された技術は、高性能の回路設計を生成するために使用できる使い慣れたプログラミングセマンティクスを提供する。

[0006]開示された技術の実施はまた、スレッドの実行順序を維持することができるハードウェア回路を生成することができる。スレッドの実行順序を維持することで、オーバヘッドの少ないスレッド同期などの最適化が可能になる。スレッドの実行順序を維持することで、プログラマは順序固有の操作を実行することもできる。たとえば、偶数の実行順序のスレッド（たとえば、スレッド「２」、「４」、「６」．．．）は、プログラム全体で、奇数の実行順序のスレッドとは異なる方式で処理され得る。また、スレッドが、実行される最初のスレッドまたは最後のスレッドである場合、特別な操作が実行され得る。本明細書で具体的に言及されていない他の技術的利点もまた、開示された主題の実施を通じて実現することができる。

[0007]上記で簡単に述べた技術的利点を実現するために、開示された言語およびコンパイラは、同じ数のステージを有するコードパスを有するパイプラインを生成する。たとえば、第１のパイプラインのすべてのコードパスには、６つのステージがあり、第２のパイプラインのすべてのコードパスには、１５のステージがある場合がある。この特性を維持するために、コンパイラは、パイプライン内の関連するコードパスのバランスをとる。たとえば、特定の「ｉｆステートメント」では、「ｔｈｅｎ」ブロックまたは「ｅｌｓｅ」ブロックのいずれかを、他のブロックと同じ数のステージを有するようにパディングする（ｐａｄ）ことができる。ステージは、有用な作業を実行しないダミーステージを追加することで追加できるか、または、パイプラインの深さを増やすことでステージを追加できる。つまり、ブロックの実施に使用するステージの数を増やすことができる。「ｔｈｅｎ」ブロックと「ｅｌｓｅ」ブロックとのステージ数のバランスをとることにより、すべてのスレッドが、同じクロックサイクル数で「ｉｆ」ステートメントを実行するため、スレッドは入力した順序で「ｉｆ」ステートメントを出る。

[0008]いくつかのプログラミング構築は、スレッド実行が、設計によって並べ替えられることを可能にする。たとえば、スレッドが異なればループの実行回数も異なる可能性があるため、ループのスレッドの実行順序は保証されない。そのため、１つのスレッドが１０回の反復でループを完了し、別のスレッドが５００回の反復で同じループを完了する場合がある。しかしながら、開示される言語は、スレッドが、入力した順序で並べ替えブロック（ｒｅｏｒｄｅｒｂｌｏｃｋ）を出ることを保証する並べ替えブロックを含む。プログラマは、スレッドの実行順序を維持するために、ループや、他の順序を保持しない構築を、並べ替えブロックでラップすることができる。それに加えて、またはその代わりに、開示された言語は、並べ替えブロック機能を「組み込む」ループ構築を含み得る。たとえば、「ｒｅｏｒｄｅｒｆｏｒ」ループは、スレッドの実行順序を保持する「ｆｏｒ」ループとして機能する。いくつかの構成では、並べ替えブロックは、ＳＤＣの並べ替えバッファを使用して実施される。

[0009]いくつかの構成では、実行のパイプラインは、別のパイプラインによって使用されるためにローカル変数を格納する先入れ先出しキュー（「キュー」または「ＦＩＦＯ」を有すると呼ばれる）によって接続される。ＦＩＦＯは、関数呼び出し、制御フロー、および開示された言語の他の態様を実施するために使用され得る。スレッド順序は、ＦＩＦＯからローカル変数を、キューに入れられた順序で取得することにより、パイプライン全体で維持される。

[0010]上記で簡単に論じたように、本明細書に開示された技術の実施は、低オーバヘッドのスレッド同期を提供する。さらに、プログラマは、偶数スレッドと奇数スレッドを異なる方式で処理したり、最初または最後のスレッドに対して特別な操作を実行したりするなど、順序固有の操作を実行できる。本明細書で具体的に特定されていない他の技術的利点もまた、開示された技術の実施を通じて実現することができる。

[0011]上記の主題は、コンピュータ制御装置、コンピュータ実施方法、コンピューティングデバイスとして、またはコンピュータ可読媒体などの製造物品（ａｒｔｉｃｌｅｏｆｍａｎｕｆａｃｔｕｒｅ）として実施できることを理解されるべきである。これらおよび他の様々な特徴は、以下の詳細な説明を読み、関連付けられた図面を検討することで明らかになる。

[0012]この概要は、以下の詳細な説明でさらに説明される簡略化された形式で、開示された技術のいくつかの態様の簡単な説明を紹介するために提供される。この概要は、特許請求された主題の主要な特徴または本質的な特徴を特定することを意図しておらず、また、この概要が、特許請求された主題の範囲を限定するために使用されることも意図していない。さらに、特許請求された主題は、本開示のいずれかの部分において言及された不利な点のいずれかまたはすべてを解決する実施に限定されない。

[0013]同期デジタル回路にマッピングするプログラミング構築を含むプログラムソースコードに基づいて同期デジタル回路を生成するための、本明細書に開示されるシステムの態様を示すコンピューティングアーキテクチャ図である。 [0014]各々が複数のパイプラインステージを有するいくつかのハードウェアパイプラインと、開示された技術を使用して定義および実施できる計算ユニットとを含む、実例となる例示的な同期デジタル回路の態様を示すハードウェアアーキテクチャ図である。 [0015]開示された言語で記述された機能をハードウェア回路にマッピングすることを示すハードウェアアーキテクチャ図である。 [0016]ダミーステージを備えたパイプラインのパディングコードパス（ｐａｄｄｉｎｇｃｏｄｅｐａｔｈ）を示すハードウェアアーキテクチャ図である。 [0017]ｆｏｒ－ｌｏｏｐループに適用される並べ替えブロック構築を示すハードウェアアーキテクチャ図である。 [0018]図１～図５を参照して説明されるスレッドの実行順序を維持する言語およびコンパイラの動作の態様を例示するルーチンを示すフロー図である。 [0019]本明細書に提示される技術の態様を実施することができるコンピューティングデバイスのための例示的なコンピュータハードウェアおよびソフトウェアアーキテクチャを示すコンピュータアーキテクチャ図である。 [0020]開示された技術の態様を実施することができる分散型コンピューティング環境を示すネットワーク図である。

[0021]以下の詳細な説明は、スレッドの実行順序を維持する言語およびコンパイラに関する。上記で簡単に論じたように、スレッドの実行順序を維持すると、オーバヘッドの少ないスレッド同期などの最適化を可能にする。スレッドの実行順序を維持することで、プログラマは順序固有の操作を実施することもできる。たとえば、偶数の実行順序のスレッドは、プログラム全体で、奇数の実行順序のスレッドとは異なる方式で処理され得る。また、スレッドが、実行される最初のスレッドまたは最後のスレッドである場合、特別な操作が実行される場合がある。本明細書で具体的に言及されていない他の技術的利点もまた、開示された主題の実施を通じて実現することができる。

[0022]本明細書で説明される主題は、スレッドの実行順序を維持する言語およびコンパイラの一般的な文脈で提示されるが、当業者は、他の実施が他のタイプのコンピューティングシステムおよびモジュールと組み合わせて実行できることを認識するであろう。当業者はまた、本明細書で説明される主題が、ハンドヘルドデバイス、マルチプロセッサシステム、マイクロプロセッサベースまたはプログラム可能な家庭用電化製品、デバイスに組み込まれたコンピューティングまたはプロセシングシステム（たとえば、ウェアラブルコンピューティングデバイス、自動車、ホームオートメーションなど）、ミニコンピュータ、メインフレームコンピュータなどを含む、他のコンピュータシステム構成で実現されることを認識するであろう。

[0023]以下の詳細な説明では、本明細書の一部を形成し、例示として固有の構成または例として示されている添付の図面を参照する。ここで、いくつかの図全体を通して同様の数字が同様の要素を表す図面を参照して、スレッドの実行順序を維持する言語およびコンパイラの態様が説明される。

[0024]図１は、同期デジタル回路（「ＳＤＣ」）１１２にマッピングするプログラミング構築を含むプログラムソースコード１０２に基づいてＳＤＣ１１２を定義および生成するために本明細書に開示される、例示的なシステム１００の態様を示すコンピューティングアーキテクチャ図である。ＳＤＣ１１２は、ゲートアレイ、フィールドプログラマブルゲートアレイ（「ＦＰＧＡ」）、特定用途向け集積回路（「ＡＳＩＣ」）、および他のタイプの回路デバイスによって実施される。開示された主題は、主にＦＰＧＡにおいて実施されたＳＤＣ１１２の文脈で説明されているが、本明細書に開示された技術を利用して、他のタイプのデバイスを使用して実施されるＳＤＣ１１２を定義できることを理解されたい。

[0025]図１に例示されるように、例示的なシステム１００は、プログラムソースコード１０２をコンパイルして、ハードウェア記述言語（「ＨＤＬ」）コード１０６、またはネットリストなどの回路の低レベル表現を生成するコンパイラ１０４を含む。上記で簡単に論じたように、ＨＤＬは、ハードウェアエンジニアが、電子回路、最も一般的にはデジタル論理回路の構造および動作を記述するために使用されるモデリング言語である。ＨＤＬの例は、ＶＨＳＩＣＨＤＬおよびＶＥＲＩＬＯＧを含む。

[0026]以下で詳細に説明するように、プログラムソースコード１０２は、ＳＤＣ１１２を対象とするように設計されたマルチスレッドの命令型プログラミング言語を使用して表現される。開示された言語は、関数呼び出し、ｆｏｒループ、算術演算子、条件文など、「Ｃ」や「ＪＡＶＡ（登録商標）」などの言語の特徴の多くを提供する。しかしながら、開示される言語は、基盤となるＳＤＣ１１２ハードウェア実施に直接マッピングする構築を含む。これにより、ハードウェアエンジニアとソフトウェアエンジニアの両方が、性能について論理的に考え、設計を効果的に最適化することができる。上記のように、これにより、言語をソフトウェアエンジニアに馴染みやすくし、ハードウェアエンジニアが、ＨＤＬでコーディングするときに発生するバグのクラス全体に対処する必要がなくなる。

[0027]開示されたマルチスレッド命令型プログラミング言語は、プログラムステートメントが次々に実行されるという点で必須であり、実行の複数のスレッドが並行して実行され得るという点でマルチスレッドである。上記で論じたように、スレッドはローカル変数の集合である。ローカル変数がハードウェア回路によって処理されるときに、スレッドが実行される。

[0028]本明細書で説明されるスレッドは、ソフトウェアスレッドに類似しているが、異なる。ソフトウェアスレッドは、ローカル変数を含む呼び出しスタックを維持し、メモリ内でコードを実行するが、本明細書で説明されるスレッドは、ハードウェア回路を移動するローカル変数の集合である。ソフトウェアスレッドは、命令ポインタによって決定される実行可能コード内の場所を有するが、開示されたスレッドは、所与の時点においてＳＤＣ上の物理的な場所を有する。ＳＤＣは、数百、数千、さらには数百万のスレッドを実行する場合があり、ＳＤＣの実行は、パイプライン化される場合がある。つまり、異なるスレッドが、回路の異なるステージ内で同時に実行する場合がある。

[0029]以下でより詳細に説明されるように、言語構築は、回路実装にマッピングするプログラムソースコード１０２で定義することができる。言語構築は、１つまたは複数の字句トークンから形成される可能性のあるプログラムの構文的に許容される部分である。本明細書で説明される言語構築は、スレッド順序を保証する回路実装にマッピングする（つまり、スレッドは、入力したのと同じ順序で回路実装を出る）。

[0030]以下により詳細に説明されるように、本明細書に開示される構築によって生成される回路実装は、ＦＰＧＡ、ゲートアレイ、ＡＳＩＣ、または別のタイプの適切なデバイスにおけるＳＤＣとして実施される。ＮＩＣなどの別のハードウェア構成要素は、必要な機能を実施するために、ＦＰＧＡ、ゲートアレイ、またはＡＳＩＣで構成できる。

[0031]図１に示されるように、コンパイラ１０４は、この例ではＨＤＬコード１０６である回路記述に、本明細書に開示される言語構築のうちの１つまたは複数を含むプログラムソースコード１０２をコンパイルすることができる。ＨＤＬコード１０６は、ＨＤＬ合成ツール１０８に提供することができ、これは、次に、たとえばＦＰＧＡにおいて、ＳＤＣ１１２をプログラムするために利用できるビットストリーム１１０を生成することができる。ＡＳＩＣを対象とする場合、ＨＤＬコード１０６は、工場で生産するためにＡＳＩＣ製造業者に提供することができる。

[0032]図２は、開示された技術を使用して定義および実施することができるいくつかのハードウェアパイプライン２００Ａ～２００Ｃ（または「パイプライン」）を含む実例となる例示的なＳＤＣ１１２の態様を示すハードウェアアーキテクチャ図である。各ハードウェアパイプラインは、複数のパイプラインステージ２０６を有し、各ステージは、計算ユニット２０８を有する。図２に示されるように、プログラムソースコード１０２は、ハードウェア計算ユニット２０８のパイプライン２００Ａ～２００Ｃにコンパイルすることができる。

[0033]パイプライン２００Ａ～２００Ｃは、先入れ先出し（「ＦＩＦＯ」）キュー（本明細書では「ＦＩＦＯ」または「キュー」と呼ばれることがある）によって接続することができる。パイプライン２００Ａ～２００Ｃは、プログラムソースコード１０２によって定義される機能を実施する。ＦＩＦＯ２０２は、データ値を格納し、パイプライン２００に入力を提供するとともに、パイプライン２００によって生成された出力を格納する。たとえば、ＳＤＣ１１２は、その出力をＦＩＦＯ２０２Ａに供給するパイプライン２００Ａを含む。次に、パイプライン２００Ｂは、ＦＩＦＯ２０２Ａからその入力を得、その出力をＦＩＦＯ２０２Ｂに提供する。パイプライン２００Ｃは、ＦＩＦＯ２０２Ｂからその入力を得る。

[0034]いくつかの構成では、パイプライン２００は、ＦＩＦＯ２０２から次の値をいつ取得するかを決定するポリシー回路構成２１０を実装する。たとえば、ポリシー回路２１０は、入力ＦＩＦＯ（たとえば、パイプライン２００Ｂの場合、ＦＩＦＯ２０２Ａ）が空ではなく、出力ＦＩＦＯ（たとえば、ＦＩＦＯ２０２Ｂ）がフルではないことを要求してから、処理のために入力ＦＩＦＯ（たとえば、ＦＩＦＯ２０２Ａ）から値を取得してもよい。

[0035]図２に示されるように、パイプライン２００は、１つまたは複数のパイプラインステージ２０６Ａ～２０６Ｂから構成され得る。実行は、パイプライン２００の異なるステージ２０６で、異なるスレッドを同時に実行することによってパイプライン化される。ステージの結果は、レジスタ２０４に格納され、次のクロックサイクルの期間中、次のステージ２０６に提供され得る。

[0036]各パイプラインステージ２０６は、加算器２０８Ａおよびルックアップテーブル（「ＬＵＴ」）２０８Ｂなどの１つまたは複数の計算ユニット２０８を含むことができる。例示される例では、加算器２０８Ａは、基本的な算術、たとえば、加算、減算、または乗算を実行することができる。計算ユニットは、ブール演算子（「ＯＲ」、「ＮＯＲ」、「ＸＯＲ」など）または、ＳＤＣ製造者によって提供される他のカスタムロジックを実施することもできる。

[0037]計算ユニットはまた、ユーザプログラム可能なルックアップテーブル２０８Ｂによって実施することができる。例示されるＬＵＴ２０８Ｂは、２つの入力ビットを単一の出力ビットにマッピングする２入力真理値表を示す。ＬＵＴ２０８Ｂは、異なる数の入力ビットをサポートするように構成することができる。より複雑な出力値を生成するには、たとえば文字または８ビット整数、それぞれが入力変数の異なるビットに接続された複数のＬＵＴ２０８Ｂを使用することができる。

[0038]計算ユニットは、結果をレジスタ２０４（または「フリップフロップ」）に一時的に格納することができる。そのようなレジスタの内容は、同じまたは異なるパイプライン２００内の他の計算ユニットに提供することができる。レジスタ２０４は、接続されたデジタルクロックが０から１に遷移するときに入力における値をキャプチャし、次のクロックサイクルの終了まで（すなわち、クロックが再び０から１に遷移するまで）出力におけるその値を提供することができる。レジスタには、イネーブルライン（ｅｎａｂｌｅｌｉｎｅ）を含めることもできる。イネーブルラインが偽に設定されている場合、レジスタは、上記の操作を実行せず、複数のクロックサイクルにわたって現在の出力値を維持する。

[0039]図２に示されるパイプラインアーキテクチャは、議論のために簡略化されていると理解されたい。本明細書で説明されるプログラミング言語構築は、図２に例示されているよりもより多くの構成要素を含む、はるかに複雑なＳＤＣ１１２を実装するために利用できる。

[0040]図３は、１つの実施形態に従って、開示された言語で記述された機能をハードウェア回路にマッピングすることを示すハードウェアアーキテクチャ図３００である。プログラムソースコード３０２は、開示された言語で記述された関数「ｆ（）」３０４を含む。プログラムステートメントが次々に実行されるという点で、開示された言語は命令型であり、実行の複数のスレッドが並行しておよび／または同時に実行され得るという点でマルチスレッド化されている。関数「ｆ（）」３０４は、「ｘ」３０６と「ｙ」３０８の２つのパラメータをとり、整数を返す。関数「ｆ（）」３０４は、２つの式を有し、式３１０は、加算を実行し、結果をローカル変数「ｚ」に格納し、式３１２は、乗算の結果を返す。

[0041]関数「ｆ（）」は、計算ユニット３１６、３１８およびレジスタ３２０、３２２を含むハードウェア回路３１４にマッピングされる３０４である。ハードウェア回路３１４は、２つのステージ、すなわち、式３１０において説明される加算を実行する第１のステージ３２４と、式３１２において説明される乗算を実行する第２のステージ３２６とを有する各ステージは、単一のクロックサイクルで実行され、各ステージの結果は、１つまたは複数のレジスタに格納される。

[0042]例を続けると、ステージ３２４は、パラメータ「ｘ」３０６に対して「＋１」演算を実行し、結果（「ｚ」）をレジスタ３２２に格納する。ステージ３２４の間に、パラメータ「ｙ」３０８は、レジスタ３２０に直接提供される。ステージ３２６の間に、計算ユニット３１８は、「ｙ」および「ｚ」の値を乗算する。結果はレジスタ３２８に格納される。

[0043]ハードウェア回路３１４は、スレッド３３０によって実行され得、その一部のみが図示される。ＳＤＣは、数百、数千、または数百万のスレッドを実行する場合がある。スレッドは、ローカル変数の集合を参照する。ローカル変数がハードウェア回路によって処理されるときに、スレッドが実行される。たとえば、スレッド３３０Ａは、値３３２（ｘ＝１およびｙ＝２）を有し、値３３２がハードウェア回路３１４によって処理されるときに、スレッド３３０Ａは、関数「ｆ（）」３０４を実行する。関数によって返される値は、ローカル変数のセットに追加され、特定の変数がハードウェア回路によって使用されなくなることがわかっている場合はいつでも、その変数をローカル変数のセットから削除できる。

[0044]開示されたスレッドは、ソフトウェアスレッドに類似しているが、異なる。ソフトウェアスレッドは、ローカル変数を含む呼び出しスタックを維持し、メモリ内でコードを実行するが、開示されたスレッドは、ハードウェア回路を移動するローカル変数の集合である。ソフトウェアスレッドは、命令ポインタによって決定される実行可能コード内の場所を有するが、開示されたスレッドは、所与の時点においてＳＤＣ上の物理的な場所を有する。

[0045]ＳＤＣ実行は、パイプライン化され得る。すなわち、異なるスレッドが、回路の異なるステージ内で同時に実行してもよい。テーブル３３４は、ハードウェア回路３１４のパイプライン実行が発生するときの、異なるステージにおける異なるスレッドからの変数を示す。列３３６は、ステージ間（つまり、ステージの前後）に格納された値を表示し、３３６Ａは、スレッド３３０Ａ、３３０Ｂ、および３３０Ｃによって提供されるｘおよびｙの値を含み、列３３６Ｂは、ステージ３２４が実行された後の値を含み、列３３６Ｃは、ステージ３２６が実行された後の値を含む。行３３８Ａ～Ｃは、連続するクロックサイクル後に格納された値を表示する。

[0046]たとえば、行３３８Ａは、スレッド３３０Ａが、値３３２Ａ（ｘ＝１およびｙ＝２）をハードウェア回路３１４に入力しようとしていることを示す。行３３８Ａと行３３８Ｂとの間でクロックサイクルが発生し、ステージ３２４においてスレッド３３０Ａを実行した結果（３３２Ａからのホールドオーバであるｙ＝２、および「＋１」演算の結果であるｚ＝２）が３３２Ｂに示される。同時に、スレッド３３０Ｂからの値３４０Ａ（ｘ＝３およびｙ＝５）が、ハードウェア回路３１４に入力されようとしている。行３３８Ｂと行３３８Ｃの間で別のクロックサイクルが発生し、ステージ３２６を実行したスレッド３３０Ａの結果が、３３２Ｃに示される（「４」）。同時に、ステージ３２４を実行するスレッド３３０Ｂの結果（ｙ＝５およびｚ＝４）は、３４０Ｂに示され、スレッド３３０Ｃからの値３４２（ｘ＝７およびｙ＝１）が、ハードウェア回路３１４に入力されようとしている。パイプライン実行は、ＳＤＣの使用率を高めることにより、より高いスループットを可能にする。つまり、一度に１つのスレッドだけがハードウェア回路３０５を実行できる場合よりも、所与の時点において多くのＳＤＣが有用な作業を実行する。

[0047]図４は、パイプラインのすべてのパスが同じ数のステージを有するように、ダミーステージを備えたパイプラインのパディングコードパスを示すハードウェアアーキテクチャ図４００である。ステージ数が同じであると、スレッドの実行順序がパイプラインを通じて維持される。いくつかの構成では、コードリスト４０２は、次の２つのパラメータ、すなわちｉｎｔ「ｘ」４０６およびｉｎｔ「ｙ」４０８を受け入れる関数「ｆ（）」４０４を含む。行４１０は、「Ｌ」を「ｘ」に追加し、値を「ｚ」に割り当てる。これは、回路記述４１８において、「Ｇ」を「ｘ」に追加し、結果をレジスタ４２２に格納する計算ユニット４２０として示される。

[0048]行４１１は、「ｚ＞２」の条件を有する「ｉｆ」ステートメントを導入している。いくつかの構成では、「ｉｆ」ステートメントのような分岐ステートメントは、両方の分岐を並行して実行し、条件に基づいて続行する結果を選択することによって実施される。回路記述４１８における対応する構成要素は、マルチプレクサ４２４であり、これにより、「ｚ」が「２」より大きい場合、スレッドは、コードパス４２７によって生成される値で進行し、そうではない場合、スレッドは、コードパス４３５（Ｎ）によって生成される値で進行する。

[0049]コードブロック４１２（「ｔｈｅｎ」ブロック）は、２つのステートメントを含み、「ｙ＝ｙ＋３」は、「ｙ」４０８の値に「３」を追加する計算ユニット４２８に対応する。結果はレジスタ４３０に格納される。レジスタ４３０は、コンパイラが「ｙ」の正しい値を含んでいると理解し、パラメータとして渡された値を置き換える。次のステートメント「ｙ＝ｙ＊２」は、計算ユニット４３２によって実施され、計算ユニット４３２は、レジスタ４３０に格納された「ｙ」の値に「２」を乗じ、その結果をマルチプレクサ４２４に提供する。「ｚ」の値が「２」より大きい場合、計算ユニット４３２によって提供された値がレジスタ４３４に提供される。

[0050]コードブロック４１４（「ｅｌｓｅ」ブロック）は、単一のステートメント「ｙ＝ｙ－１」を含む。このステートメントは、計算ユニット４３６によって実施され、計算ユニット４３６は、「ｙ」４０８から「１」を減算し、その結果をレジスタ４３８に格納する。しかしながら、次のクロックサイクルで、ダミー計算ユニット４４０は、レジスタ４３８に格納された値をマルチプレクサ４２４に転送し、マルチプレクサ４２４は、「ｚ」の値が「２」以下である場合、レジスタ４３８に格納された値をレジスタ４３４に提供する。このダミー計算ユニット４４０は、コードパス４２７におけるステージ数のバランスをとるために追加される。いくつかの構成では、レジスタ４３８は、ダミー計算ユニット４４０の「ｙ」の値を維持するために追加される。

[0051]いくつかの構成では、所与のコードパスに追加されるダミー計算ユニットの数は、最長のコードパスにおけるステージ数から、所与のコードパスのステージ数を引いた数に等しい。この場合、ステージの最大数は、２つの計算ユニット４２８、４３２であり、コードパス４３５には１つのステージ４３６がある。そのため、１つの計算ユニット４３５のみが追加され、１つの新しいパイプラインステージが生成される。

[0052]いくつかの実施形態では、（分岐のバランスをとることを除いて）有用な作業を実行しない計算ユニットを挿入する代わりに、値は、各クロックサイクルの最後にレジスタに単に格納される。いくつかの実施形態では、ダミーステージを追加する代わりに、コンパイラは、より深いパイプラインを生成する。すなわち、通常生成されるよりも多くのステージを有するコードパスが生成される。これは、計算がより多くのステージに分散されるため、ステージの平均実行時間を短縮する効果を有する場合がある。

[0053]行４１６は、戻る前に「ｙ」の値を「ｚ」の値で乗じる単一のステートメント「ｒｅｔｕｒｎｚ＊ｙ」を含む。これは、レジスタ４３４に格納された「ｙ」の値を、「ｚ」の値で乗じる計算ユニット４４４に対応する。

[0054]図５は、「ｄｏ－ｗｈｉｌｅ」ループを囲む並べ替えブロック構築を示すハードウェアアーキテクチャ図５００である。コードリスト５０２は、パラメータ「ｘ」５０６および「ｙ」５０８をとる関数「ｆ（）」５０４を含む。行５１２は、ｉｎｔ「ｚ」を「ｘ＋１」に初期化し、実行パイプライン５２２の一部に対応する。具体的には、実行パイプライン５２２は、「＋１」計算ユニット５３４を含み、これは、「ｘ」５０６の値に「１」を追加し、それを「ｚ」としてレジスタ５３５に格納する。行５１３は、ループカウンタ変数「ｉ」を「１」に初期化する。パイプライン５２２は、値「ｉ」、「ｙ」、および「ｚ」を、ＦＩＦＯ５２４にプッシュすることによって終了する。

[0055]機能５０４の並べ替えブロック５１６は、「ｄｏ－ｗｈｉｌｅ」ループ５１８をラップする。図５は、設計によって、スレッドの実行順序を保持しない一種の言語構築の例として、「ｄｏ－ｗｈｉｌｅ」ループ５１８を使用する。しかしながら、スレッドの実行順序を保持しない他の言語構築も同様に考慮される。並べ替えブロック５１６は、パイプライン５２２およびパイプライン５２６によって部分的に実施される。パイプライン５２２は、スレッドが入る順序でスレッドを登録する並べ替え開始ブロック（ｂｅｇｉｎｒｅｏｒｄｅｒｂｌｏｃｋ）５３６を含む。

[0056]いくつかの構成では、スレッドは、インデクスまたはスレッドＩＤに関連付けられる。並べ替え開始ブロック５３６に入る第１のスレッドのインデクス／ＩＤは、たとえば、配列の要素「０」内のような、並べ替えブロックの第１の位置に格納される。後続のスレッドでは、入力した順序に対応する要素にインデクス／ＩＤが格納される。このようにして、スレッドの実行順序のレコードが生成される。並べ替えブロック５１６の議論は、「ｄｏ－ｗｈｉｌｅ」ループ５１８の議論の後に続く。

[0057]「ｄｏ－ｗｈｉｌｅ」ループ５１８は、「ｙ」に「２」を追加するたびに、「ｚ」回ループする。「ｄｏ－ｗｈｉｌｅ」ループ５１８は、パイプライン５２６によって実施されるが、明確化のためにいくつかの態様は省略されている。「ｄｏ－ｗｈｉｌｅ」ループ５１８は、最初に、パイプライン５２２によってＦＩＦＯ５２４に配置された「ｚ」の値を受け取る。次に、「ｄｏ－ｗｈｉｌｅ」ループ５１８は、ブロック５３８において、「ｉ」の値を、「ｚ」と比較してもよい。「ｉ」が「ｚ」以下の場合、ループは継続し、計算ユニット５４０は、「２」を「ｙ」に追加する。「ｙ」の更新値、「ｚ」の値、および「ｉ」の現在の値は、その後、ＦＩＦＯ５２８に格納される。しかしながら、「ｉ」が「ｚ」より大きい場合、ループは終了し、以下で論じるように、実行は並べ替えブロック５４２に渡される。

[0058]第１の実行後、「ｄｏ－ｗｈｉｌｅ」ループ５１８は、さらに「ｚ－１」回、ループ５１８を繰り返すことを続ける。各繰返しにおいて、「ｙ」および「ｉ」の現在の値は、「ｚ」の値とともにＦＩＦＯ５２８から取得される。「ｘ」は、関数の残りの部分で使用されないため、この時点では維持されないことが理解される。比較５３８が実行され、「ｉ」がそれでも「ｚ」よりも小さい場合、実行は、上記で論じたように、計算ユニット５４０に続く。しかしながら、「ｉ」が「ｚ」より大きい場合、「ｄｏ－ｗｈｉｌｅ」の「ｄｏ－ｗｈｉｌｅ」ループ５１８は終了する。

[0059]スレッドが「ｄｏ－ｗｈｉｌｅ」の「ｄｏ－ｗｈｉｌｅ」ループ５１８を出ると、スレッドは、並べ替え終了ブロック（ｅｎｄｒｅｏｄｅｒｂｌｏｃｋ）５４２を通過する。並べ替え開始ブロック５３６および並べ替え終了ブロック５４２は別々に示されているが、それらはＳＤＣ上の単一の機能ユニットによって実施され得る。並べ替え終了ブロック５４２は、実行順序がより低いすべてのスレッド（すなわち、スレッドインデクス／ＩＤの配列内のより低い番号の要素に登録されたスレッド）が解放されるまで、スレッドをブロックする。実行順序が最も低いスレッドが検出されると、すぐに解放されて実行が続行される。このようにして、スレッドは解放され、並べ替えブロック５１６に入った順序で他の計算を開始する。パイプライン５２６は、「ｚ」および「ｙ」の値をＦＩＦＯ５３０に格納することによって終了する。

[0060]行５２０は、「ｄｏ－ｗｈｉｌｅ」ループ５１８および並べ替えブロック５１６が完了した後に実行され、「ｚ＊ｙ」の値を返す。行５２０は、ＦＩＦＯ５３０から「ｙ」および「ｚ」の値を読み取り、計算ユニット５４３を適用して「ｙ」および「ｚ」を乗算するパイプライン５３２によって部分的に実施される。

[0061]図５は、「ｄｏ－ｗｈｉｌｅ」ループを実行することによってどのようにスレッド順序が変化し、次にスレッド並べ替えブロックによって元の順序に復元されるのかを示している。スレッド５４６Ａ～Ｄは、順序５４８において、「ｄｏ－ｗｈｉｌｅ」の「ｄｏ－ｗｈｉｌｅ」ループ５１８などのループに入る。各スレッドは異なる「ｚ」の値５４４を有しているので、各スレッドは「ｄｏ－ｗｈｉｌｅ」ループ５１８を、異なる反復回数で実行する。具体的には、最初に入るスレッド５４６Ａが６回反復し、２番目に入るスレッド５４６Ｂが８回反復し、３番目に入るスレッド５４６Ｃが２回反復し、４番目に入るスレッド５４６Ｄが４回反復する。スレッド５４６は、並べ替え開始ブロック５３６を通過し、入った順に、それらのスレッドインデクス／ＩＤを登録する。チャート５５０は、各スレッドが実行される時間をクロックサイクルで示す。スレッド５４６は、異なる順序で「ｄｏ－ｗｈｉｌｅ」ループ５１８を出る。すなわち、スレッド５４６Ａは３番目に存在し、スレッド５４６Ｂは４番目に出て、スレッド５４６Ｂは最初に出て、スレッド５４６Ａは２番目に出る。

[0062]スレッド５４６Ｃが最初に「ｄｏ－ｗｈｉｌｅ」ループ５１８を出る一方、並べ替え終了ブロック５４２はさらに、スレッド５４６Ａ、５４６Ｂが「ｄｏ－ｗｈｉｌｅ」ループ５１８を終了して実行を再開するまで実行を遅延させる。次に、スレッド５４６Ｄは、「ｄｏ－ｗｈｉｌｅ」ループ５１８を終了し、また、スレッド５４６Ａ～Ｃが終了するまでブロックされる。次に、スレッド５４６Ａは、「ｄｏ－ｗｈｉｌｅ」ループ５１８を終了するが、５４６Ａは、並べ替え開始ブロック５３６に登録する最初のスレッドであったため、再開を許可される。同時に、並べ替え終了ブロック５４２は、スレッド５４６Ａが再開したので、後続のスレッドが継続することを許可されているか否かをチェックする。この場合、スレッド５４６Ｂはまだ終了していないため、許可されない。しかしながら、スレッド５４６Ｂが「ｄｏ－ｗｈｉｌｅ」ループ５１８を終了すると、並べ替え終了ブロック５４２は、より低い初期実行順序を有するすべてのスレッド（すなわち、スレッド５４６Ａ）が実行を再開したことに注目し、スレッド５４６Ｂは、実行再開を許可される。次に、スレッド５４６Ｂ後に並べ替え開始ブロック５３６に入ったスレッドは、再開を許可されるか否かを判定するためにチェックされる。この例では、スレッド５４６Ｃと５４６Ｄとの両方がブロックされ、それらの前に到着したすべてのスレッドが再開を許可されているため、両方を（この順序で）再開することを許可される。このようにして、スレッド５４６は、順序５５４で、すなわち、並べ替え開始ブロック５３６に入ったのと同じ順序で、並べ替え終了ブロック５４２を出る。図４および図５および対応する議論は、非限定的な例を示す。他のタイプのループ、パイプライン、式、分岐、および順序付けも同様に考慮される。

[0063]図６は、本明細書に開示される１つの実施形態に従って図１～図５に例示され、上記で説明された、スレッドの実行順序を維持する言語およびコンパイラの態様を例示するルーチン６００を示すフロー図である。図６および他の図に関して本明細書で説明される論理演算は、（１）コンピューティングデバイス上で実行される一連のコンピュータ実施動作またはプログラムモジュールとして、および／または（２）コンピューティングデバイス内の相互接続された機械論理回路または回路モジュールとして実施することができると理解されるべきである。

[0064]本明細書に開示される技術の特定の実施は、コンピューティングデバイスの性能および他の要件に依存する選択の問題である。したがって、本明細書で説明される論理演算は、状態、演算、構成デバイス、動作、またはモジュールと様々に呼ばれる。これらの状態、演算、構成デバイス、動作、およびモジュールは、ハードウェア、ソフトウェア、ファームウェア、専用デジタルロジック、およびそれらの任意の組合せで実施できる。図面に示され、本明細書で説明されるよりも多いまたは少ない演算を実行できることが理解されるべきである。これら演算は、本明細書で説明されるものとは異なる順序で実行することもできる。

[0065]ルーチン６００は、動作６０２で開始し、ここで、ソースコード１０２は、コンパイラ１０４によって受信される。ソースコード１０２は、マルチスレッドプログラミング言語で表現され得る。いくつかの構成では、ソースコード１０２は、命令型プログラミング言語で表現される。ソースコードは、「ｉｆ」、「ｓｗｉｔｃｈ」、「ｃａｓｅ」、または「ｗｈｉｌｅ」ステートメントなどの分岐ステートメント４１１を含み得、これにより、スレッドは、複数のコードパス（回路で説明されるコードパスと区別するため「ソースコードパス」とも呼ばれる）のうちの１つで実行される。いくつかの構成では、ソースコードは、「ｄｏ－ｗｈｉｌｅ」ループ５１８など、スレッドの実行順序を維持しないコードをラップする並べ替えブロック５１６を含む。

[0066]動作６０２から、ルーチンは動作６０４に進み、そこで、コンパイラ１０４は、ソースコード１０２を回路記述１０６にコンパイルする。いくつかの構成では、回路記述１０６は、複数のソースコードパスに関連付けられた複数のコードパス４２７、４３５を含み、コンパイラ１０４は、ダミーパイプラインステージ４４０を、複数のコードパスのいくつかまたはすべてに追加し、複数のコードパスのうちのいくつかまたはすべては、同数のパイプラインステージ３２４を有するようになる。

[0067]いくつかの構成では、回路記述は、第１の実行パイプライン２００Ａおよび第２の実行パイプライン２００Ｂを含み、第１の実行パイプライン２００Ａは、ローカル変数のセットをＦＩＦＯ２０２Ａにプッシュすることによって第２の実行パイプライン２００Ｂに実行を渡す。次に、第２の実行パイプライン２００Ｂは、ローカル変数のセットを、それらがプッシュされた順序でＦＩＦＯ２０２Ａから取得することができ、それによって、スレッドの実行順序を維持する。

[0068]いくつかの構成では、回路記述５２１は、スレッドの実行順序を維持しない構築５１８の回路記述をラップする並べ替えバッファ５３６、５４２を含む。これらの構成では、並べ替えバッファ５３６、５４２は、構築が実行される前にスレッド順序５４８を登録し、構築を離れると、スレッドを元の実行順序５４８に戻す。いくつかの構成では、並べ替えバッファ５３６、５４２は、実行順序がより低い（すなわち、実行する最初のスレッドに近い）すべてのスレッドが実行を再開するまで、スレッドの実行をブロックする。

[0069]動作６０４から、ルーチン６００は、動作６０６に進み、ここで、回路記述（たとえば、ＨＤＬコード）は、回路記述１０６によって定義された回路実装を含むＳＤＬ１１２を生成するために利用される。次に、ルーチン６００は、動作６０６から動作６０８に進み、そこで終了する。

[0070]図７は、本明細書で提示される様々な技術を実施できるコンピューティングデバイスのための例示的なコンピュータハードウェアおよびソフトウェアアーキテクチャを示すコンピュータアーキテクチャ図を示す。特に、図７に例示されるアーキテクチャは、サーバコンピュータ、モバイル電話、電子リーダ、スマートフォン、デスクトップコンピュータ、ＡＲ／ＶＲデバイス、タブレットコンピュータ、ラップトップコンピュータ、または別のタイプのコンピューティングデバイスを実施するために利用することができる。

[0071]図７に例示されるコンピュータ７００は、中央処理装置７０２（「ＣＰＵ」）と、ランダムアクセスメモリ７０６（「ＲＡＭ」）および読取専用メモリ（「ＲＯＭ」）７０８を含むシステムメモリ７０４と、メモリ７０４をＣＰＵ７０２に結合するシステムバス７１０とを含む。起動中など、コンピュータ７００内の要素間での情報の転送に役立つ基本的なルーチンを含む基本入力／出力システム（「ＢＩＯＳ」または「ファームウェア」）を、ＲＯＭ７０８に格納することができる。コンピュータ７００はさらに、オペレーティングシステム７２２、アプリケーションプログラム、および他のタイプのプログラムを格納するための大容量記憶デバイス７１２を含む。大容量記憶デバイス７１２はまた、他のタイプのプログラムおよびデータを記憶するように構成することができる。

[0072]大容量記憶デバイス７１２は、バス７１０に接続された大容量記憶コントローラ（図示せず）を介してＣＰＵ７０２に接続される。大容量記憶デバイス７１２およびその関連付けられたコンピュータ可読媒体は、コンピュータ７００に不揮発性ストレージを提供する。本明細書に含まれるコンピュータ可読媒体の説明は、ハードディスク、ＣＤ－ＲＯＭドライブ、ＤＶＤ－ＲＯＭドライブ、またはＵＳＢストレージキーなどの大容量記憶デバイスに言及しているが、コンピュータ可読媒体は、コンピュータ７００によってアクセスされ得る任意の利用可能なコンピュータ記憶媒体または通信媒体であり得ることが当業者によって理解されるべきである。

[0073]通信媒体は、コンピュータ可読命令、データ構成、プログラムモジュール、または搬送波または他の伝送メカニズムなどの変調データ信号における他のデータを含み、任意の配信媒体を含む。「変調データ信号」という用語は、信号内の情報をエンコードするような方式で変更または設定されたその特性の１つまたは複数を有する信号を意味する。例として、限定されないが、通信媒体は、有線ネットワークまたは直接有線接続などの有線媒体、および音響、無線周波数、赤外線および他のワイヤレス媒体などのワイヤレス媒体を含む。上記のいずれかの組合せも、コンピュータ可読媒体の範囲内に含める必要がある。

[0074]限定ではなく例として、コンピュータ記憶媒体は、コンピュータ可読命令、データ構成、プログラムモジュール、または他のデータなどの情報を記憶するための任意の方法または技術で実施された揮発性および不揮発性、リムーバブル、および非リムーバブルな媒体を含むことができる。たとえば、コンピュータ記憶媒体は、これらに限定されないが、ＲＡＭ、ＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリまたは他のソリッドステートメモリ技術、ＣＤ－ＲＯＭ、デジタル多用途ディスク（「ＤＶＤ」）、ＨＤ－ＤＶＤ、ＢＬＵ－ＲＡＹ、または他の光学ストレージ、磁気カセット、磁気テープ、磁気ディスクストレージまたは他の磁気記憶デバイス、または所望の情報を記憶するために使用でき、コンピュータ７００によってアクセスできる他の任意の媒体を含む。特許請求の範囲の目的のために、「コンピュータ記憶媒体」という句、およびその変形は、波または信号自体または通信媒体を含まない。

[0075]様々な構成によれば、コンピュータ７００は、ネットワーク７２０などのネットワークを介したリモートコンピュータへの論理的な接続を使用して、ネットワーク化された環境で動作することができる。コンピュータ７００は、バス７１０に接続されたネットワークインターフェースユニット７１６を介してネットワーク７２０に接続することができる。ネットワークインターフェースユニット７１６はまた、他のタイプのネットワークおよびリモートコンピュータシステムに接続するために利用され得ることが理解されるべきである。コンピュータ７００はまた、キーボード、マウス、タッチ入力、電子スタイラス（図７には示されていない）、またはビデオカメラのような物理的センサを含む、他の多くのデバイスからの入力を受信および処理するための入力／出力コントローラ７１８を含むことができる。同様に、入力／出力コントローラ７１８は、ディスプレイスクリーンまたは他のタイプの出力デバイス（図７にも示されていない）に出力を提供することができる。

[0076]本明細書で説明されるソフトウェア構成要素は、ＣＰＵ７０２にロードされて実行されると、ＣＰＵ７０２およびコンピュータ７００全体を、汎用コンピューティングデバイスから、本明細書で提示された機能を容易にするようにカスタマイズされた専用のコンピューティングデバイスに変換できることが理解されるべきである。ＣＰＵ７０２は、任意の数のトランジスタまたは他の離散的な回路要素から構築することができ、これらは、個別にまたは集合的に、任意の数の状態をとることができる。より具体的には、ＣＰＵ７０２は、本明細書に開示されるソフトウェアモジュール内に含まれる実行可能命令に応答して、有限状態マシンとして動作することができる。これらのコンピュータ実行可能命令は、ＣＰＵ７０２が状態間でどのように遷移するかを指定することによって、ＣＰＵ７０２を変換することができ、それによって、ＣＰＵ７０２を構成するトランジスタまたは他の離散的なハードウェア要素を変換する。

[0077]本明細書に提示されるソフトウェアモジュールをエンコードすることはまた、本明細書に提示されるコンピュータ可読媒体の物理的構成を変換することができる。物理的構成の固有の変換は、この説明の異なる実施において、様々な要因に依存する。そのような要因の例は、コンピュータ可読媒体を実施するために使用される技術、コンピュータ可読媒体が一次または二次ストレージとして特徴付けられるか否かなどを含むが、これらに限定されない。たとえば、コンピュータ可読媒体が半導体ベースのメモリとして実施される場合、本明細書に開示されるソフトウェアは、半導体メモリの物理的状態を変換することによって、コンピュータ可読媒体においてエンコードすることができる。たとえば、ソフトウェアは、半導体メモリを構成するトランジスタ、コンデンサ、または他の離散的な回路要素の状態を変換できる。ソフトウェアは、データをそこに保存するために、そのような構成要素の物理的状態を変換することもできる。

[0078]別の例として、本明細書に開示されるコンピュータ可読媒体は、磁気または光学技術を使用して実施することができる。そのような実施において、本明細書に提示されるソフトウェアは、ソフトウェアがその中にエンコードされるとき、磁気または光学媒体の物理的状態を変換することができる。これらの変換は、所与の磁気媒体内の特定の場所の磁気特性の変更を含む場合がある。これらの変換は、所与の光学媒体内の特定の場所の物理的特徴または特性を変更して、それらの場所の光学的特性を変更することも含む。物理媒体の他の変換は、本説明の範囲および精神から逸脱することなく可能であり、前述の例は、この議論を容易にするためにのみ提供される。

[0079]上記に照らして、本明細書に提示されるソフトウェア構成要素を格納および実行するために、コンピュータ７００において多くのタイプの物理的変換が行われることが理解されるべきである。コンピュータ７００について図７に示されるアーキテクチャまたは同様のアーキテクチャを利用して、ハンドヘルドコンピュータや、ビデオゲームデバイスや、組込コンピュータシステムや、スマートフォンのようなモバイルデバイスや、タブレットや、ＡＲ／ＶＲデバイスを含む他のタイプのコンピューティングデバイス、ならびに、当業者に知られている他の任意のタイプのコンピューティングデバイスを実施できることが理解されるべきである。コンピュータ７００は、図７に示される構成要素のすべてを含まないこともあり、図７に明示的に示されていない他の構成要素を含むことができるか、または、図７に示されるものとは完全に異なるアーキテクチャを利用できることも企図される。

[0080]図８は、本明細書に提示される様々な実施形態に従って、開示された技術の態様を実施することができる分散型ネットワークコンピューティング環境８００を示すネットワーク図である。図８に示されるように、１つまたは複数のサーバコンピュータ８００Ａは、（固定有線またはワイヤレスＬＡＮ、ＷＡＮ、イントラネット、エクストラネット、ピアツーピアネットワーク、仮想プライベートネットワーク、インターネット、Ｂｌｕｅｔｏｏｔｈ通信ネットワーク、独自の低電圧通信ネットワーク、または他の通信ネットワークのいずれかまたはそれらの組合せであり得る）通信ネットワーク７２０を介して、限定されないが、タブレットコンピュータ８００Ｂや、ゲームコンソール８００Ｃや、スマートウォッチ８００Ｄや、スマートフォンなどの電話８００Ｅや、パーソナルコンピュータ８００Ｆや、ＡＲ／ＶＲデバイス８００Ｇのような多数のクライアントコンピューティングデバイスと相互接続することができる。

[0081]通信ネットワーク７２０がたとえば、インターネットであるネットワーク環境では、サーバコンピュータ８００Ａは、ハイパテキスト転送プロトコル（「ＨＴＴＰ」）、ファイル転送プロトコル（「ＦＴＰ」）、またはシンプルオブジェクトアクセスプロトコル（「ＳＯＡＰ」）のようないくつかの既知のプロトコルのいずれかを介して、クライアントコンピューティングデバイス８００Ｂ～８００Ｇとの間でデータを処理および通信するように動作可能な専用のサーバコンピュータであり得る。それに加えて、ネットワーク化されたコンピューティング環境８００は、セキュアソケットレイヤ（「ＳＳＬ」）またはプリティグッドプライバシ（「ＰＧＰ」）などの様々なデータセキュリティプロトコルを利用することができる。クライアントコンピューティングデバイス８００Ｂ～８００Ｇの各々は、１つまたは複数のコンピューティングアプリケーション、またはウェブブラウザ（図８には示されていない）のような端末セッション、または他のグラフィカルユーザインターフェース（図８には示されていない）、またはサーバコンピュータ８００Ａへのアクセスを得るためのモバイルデスクトップ環境（図８には示されていない）をサポートするように動作可能なオペレーティングシステムを装備することができる。

[0082]サーバコンピュータ８００Ａは、他のコンピューティング環境（図８には示されていない）に通信可能に結合され得、参加しているユーザの相互作用／リソースネットワークに関するデータを受信することができる。例示的な動作では、ユーザ（図８には示されていない）は、クライアントコンピューティングデバイス８００Ｂ～８００Ｇで実行されているコンピューティングアプリケーションとインタラクトして、所望のデータを取得し、および／または他のコンピューティングアプリケーションを実行してもよい。

[0083]データおよび／またはコンピューティングアプリケーションは、サーバ８００Ａまたは複数のサーバ８００Ａに格納され得、例示的な通信ネットワーク７２０を介してクライアントコンピューティングデバイス８００Ｂ～８００Ｇを介して、協調するユーザに通信され得る。参加ユーザ（図８には示されていない）は、サーバコンピュータ８００Ａに全体的または部分的に収容される固有のデータおよびアプリケーションへのアクセスを要求することができる。これらのデータは、処理および記憶のために、クライアントコンピューティングデバイス８００Ｂ～８００Ｇと、サーバコンピュータ８００Ａとの間で通信され得る。

[0084]サーバコンピュータ８００Ａは、データおよびアプリケーションの生成、認証、暗号化、および通信のためのコンピューティングアプリケーション、プロセス、およびアプレットをホストすることができ、アプリケーション／データトランザクションを実現するために、他のサーバコンピューティング環境（図８には示されていない）、サードパーティサービスプロバイダ（図８には示されていない）、ネットワーク接続ストレージ（「ＮＡＳ」）、およびストレージエリアネットワーク（「ＳＡＮ」）と協働してもよい。

[0085]図７に示されるコンピューティングアーキテクチャと、図８に示される分散ネットワークコンピューティング環境とは、議論を容易にするために簡略化されていることが理解されるべきである。コンピューティングアーキテクチャおよび分散コンピューティングネットワークは、より多くのコンピューティング構成要素、デバイス、ソフトウェアプログラム、ネットワークデバイス、および本明細書に具体的に説明されていない他の構成要素を含み、利用できることも理解されるべきである。

[0086]本明細書に提示される開示はまた、以下の条項に記載される主題を包含する。
[0087]条項１：コンピュータ実施方法であって、マルチスレッドプログラミング言語で表現されたソースコードを受け取ることであって、ソースコードは、複数のソースコードパスのうちの１つに実行を指示する分岐ステートメントを含む、受け取ることと、ソースコードを、パイプラインを含む回路記述にコンパイルすることであって、パイプラインは、複数のソースコードパスに関連付けられた複数のコードパスを含み、複数のコードパスが同じ数のパイプラインステージを有するように、１つまたは複数のパイプラインステージが、複数のコードパスのうちの１つまたは複数に追加される、コンパイルすることと、回路記述に基づいて、回路実装を備える同期デジタル回路を生成することとを備える、コンピュータ実施方法。

[0088]条項２：複数のスレッドは、第１の順序でパイプラインに入り、複数のスレッドは、第１の順序でパイプラインを出る、条項１のコンピュータ実施方法。
[0089]条項３：複数のコードパスのうちの１つまたは複数にパイプラインステージを追加することは、最長のコードパスにおけるパイプラインステージの数を決定することと、そのコードパスにおけるパイプラインステージの数を、最長のコードパスにおけるパイプラインステージの数から引いたものに等しい数のパイプラインステージを、各コードパスに追加することとを含む、条項１または２のコンピュータ実施方法。

[0090]条項４：パイプラインは、第１のパイプラインを備え、回路記述は、第２のパイプラインを含み、第１のパイプラインを実行するスレッドは、ローカル変数を先入れ先出しキューにプッシュすることによって、実行を第２のパイプラインに渡し、第２のパイプラインは、プッシュされた順序で先入れ先出しキューからローカル変数を読み取ることにより、パイプライン全体でスレッドの実行順序を維持する、条項１から３のいずれかのコンピュータ実施方法。

[0091]条項５：ソースコードは、スレッドの実行順序を維持しないプログラミング構築をラップする並べ替えブロック構築を含み、並べ替えブロック構築は、到来するスレッドの実行順序を記録し、スレッドが、スレッドの実行順序を維持しない構築を実行できるようにし、すべての下位スレッドが再開するまでスレッドの再開をブロックする回路実装にマッピングする条項１から４のいずれかのコンピュータ実施方法。

[0092]条項６：スレッドは、実行のためにパイプラインに提供されるローカル変数の集合を備える、条項１から５のいずれかのコンピュータ実施方法。
[0093]条項７：パイプラインは、順に実行されるステージを備え、ステージを順に通過することによって、複数のスレッドが、実行順序を維持する、条項１から６のいずれかのコンピュータ実施方法。

[0094]条項８：コンピューティングデバイスであって、１つまたは複数のプロセッサと、１つまたは複数のプロセッサによって実行された場合、コンピューティングデバイスに対して、マルチスレッドプログラミング言語で表現されたソースコードを受け取らせ、ソースコードを、第１のパイプライン、第２のパイプライン、および第１のパイプラインから第２のパイプラインに渡されるローカルスレッド変数のセットを格納する先入れ先出し（ＦＩＦＯ）キューを含む回路記述にコンパイルさせ、第１のパイプラインは、ローカルスレッド変数のセットを、スレッドの実行順序でＦＩＦＯキューに格納し、第２のパイプラインは、スレッドの実行順序でＦＩＦＯキューからローカルスレッド変数のセットを取得することによってスレッドの実行順序を維持し、回路記述に基づいて、回路実装を備える同期デジタル回路を生成させる、コンピュータ実行可能命令を格納した少なくとも１つのコンピュータ記憶媒体。

[0095]条項９：ソースコードは、複数のソースコードパスのうちの１つに実行を指示する分岐ステートメントを含み、第１のパイプラインは、複数のソースコードパスに関連付けられた複数のコードパスを含み、複数のコードパスが同じ数のパイプラインステージを有するように、１つまたは複数のパイプラインステージが、複数のコードパスのうちの１つまたは複数に追加される、条項８のコンピューティングデバイス。

[0096]条項１０：複数のコードパスのうちの１つまたは複数にパイプラインステージを追加することは、最長のコードパスにおけるパイプラインステージの数を決定することと、そのコードパスにおけるパイプラインステージの数を、最長のコードパスにおけるパイプラインステージの数から引いたものに等しい数のパイプラインステージを、各コードパスに追加することとを含む、条項８または９のコンピューティングデバイス。

[0097]条項１１：ソースコードは、スレッドの実行順序を維持しないプログラミング構築をラップする並べ替えブロック構築を含み、並べ替えブロック構築が、到来するスレッドの実行順序を記録し、スレッドが、スレッドの実行順序を維持しない構築を実行できるようにし、すべての下位スレッドが再開するまでスレッドの再開をブロックする回路実装にマッピングする、条項８から１０のいずれかのコンピューティングデバイス。

[0098]条項１２：スレッドは、入った順序で並べ替えブロックを出る、条項８から１１のいずれかのコンピューティングデバイス。
[0099]条項１３：スレッドは、実行のために第１のパイプラインに提供されるローカルスレッド変数の集合を備える、条項８から１２のいずれかのコンピューティングデバイス。

[00100]条項１４：第１のパイプラインは、順に実行されるステージを備え、ステージを順に通過することによって、複数のスレッドが、実行順序を維持する、条項８から１３のいずれかのコンピューティングデバイス。

[00101]条項１５：１つまたは複数のプロセッサによって実行された場合、コンピューティングデバイスに対して、マルチスレッドプログラミング言語で表現されたソースコードを受け取らせ、ソースコードは、回路実装にマッピングする構築を備え、構築は、並べ替えブロックと、スレッドの実行順序を維持しない構築とを備え、回路実装は、複数のスレッドを受信した順序でスレッド識別子を登録する並べ替えバッファと、複数のスレッドの各々について、未知の数のクロックサイクルのために実行する回路とを備え、並べ替えバッファは、実行順序の低いすべてのスレッドが再開されるまで、スレッドの再開をブロックし、構築を、回路記述にコンパイルさせ、回路記述に基づいて、回路実施を備える同期デジタル回路を生成させるコンピュータ実行可能命令を格納した少なくとも１つのコンピュータ記憶媒体。

[00102]条項１６：ソースコードは、複数のソースコードパスのうちの１つに実行を指示する分岐ステートメントを含み、回路記述は、複数のコードパスを含むパイプラインを含み、複数のコードパスが同じ数のパイプラインステージを有するように、１つまたは複数のパイプラインステージが複数のコードパスのうちの１つまたは複数に追加される、条項１５の少なくとも１つのコンピュータ記憶媒体。

[00103]条項１７：複数のコードパスのうちの１つまたは複数にパイプラインステージを追加することは、最長のコードパスにおけるパイプラインステージの数を決定することと、そのコードパスにおけるパイプラインステージの数を、最長のコードパスにおけるパイプラインステージの数から引いたものに等しい数のパイプラインステージを、各コードパスに追加することとを含む、条項１５または１６の少なくとも１つのコンピュータ記憶媒体。

[00104]条項１８：スレッドは、実行のために第１のパイプラインに提供されるローカルスレッド変数の集合を備える、条項１５から１７のいずれかの少なくとも１つのコンピュータ記憶媒体。

[00105]条項１９：第１のパイプラインは、順に実行されるステージを備え、ステージを順に通過することによって、複数のスレッドが、実行順序を維持する、条項１５から１７のいずれかの少なくとも１つのコンピュータ記憶媒体。

[00106]条項２０：パイプラインは、第１のパイプラインを備え、回路記述は、第２のパイプラインを含み、第１のパイプラインを実行するスレッドは、ローカル変数を先入れ先出しキューにプッシュすることによって、実行を第２のパイプラインに渡し、第２のパイプラインは、プッシュされた順序で先入れ先出しキューからローカル変数を読み取ることにより、パイプライン全体でスレッドの実行順序を維持する、条項１５から１９のいずれかの少なくとも１つのコンピュータ記憶媒体。

[00107]上記に基づいて、スレッドの実行順序を維持する言語およびコンパイラが本明細書に開示されていることが理解されるべきである。本明細書に提示される主題は、コンピュータの構成的な特徴、方法論的および変換的動作、固有のコンピューティング機構、およびコンピュータ可読媒体に固有の言語で説明されているが、添付の特許請求の範囲に記載される主題は必ずしも、本明細書で説明される固有の特徴、動作、または媒体に限定されないことを理解されたい。むしろ、固有の特徴、動作および媒体は、特許請求された主題を実施する例示的な形態として開示されている。

[00108]上記の主題は、例示としてのみ提供され、限定として解釈されるべきではない。例示および説明された例示的な構成および用途に従わずに、以下の特許請求の範囲に記載された本開示の範囲から逸脱することなく、本明細書で説明される主題に対して様々な修正および変更を行うことができる。

Claims

コンピュータ実施方法であって、
マルチスレッドプログラミング言語で表現されたソースコードを受け取るステップであって、前記ソースコードは、複数のソースコードパスのうちの１つに実行を指示する分岐ステートメントを含む、受け取るステップと、
前記ソースコードを、パイプラインを含む回路記述にコンパイルするステップであって、前記パイプラインは、前記複数のソースコードパスに関連付けられた複数のコードパスを含み、前記コンパイルするステップは、
最大数のパイプラインステージを有する前記複数のコードパスのうち１つのコードパスにおけるパイプラインステージの数を決定するステップと、
前記複数のコードパスの各々がパイプラインステージの前記数を有するまで、パイプラインステージを前記複数のコードパスの少なくとも１つに追加するステップとを含み、
前記回路記述に基づいて、回路実装を備える同期デジタル回路を生成するステップとを備える、コンピュータ実施方法。
複数のスレッドは、第１の順序で前記パイプラインに入り、前記複数のスレッドは、前記第１の順序で前記パイプラインを出る、請求項１に記載のコンピュータ実施方法。
前記複数のコードパスのうちの１つまたは複数にパイプラインステージを追加するステップは、最長のコードパスにおけるパイプラインステージの数を決定するステップと、そのコードパスにおける前記パイプラインステージの数を、前記最長のコードパスにおける前記パイプラインステージの数から引いたものに等しい数のパイプラインステージを、各コードパスに追加するステップとを含む、請求項１に記載のコンピュータ実施方法。
前記パイプラインは、第１のパイプラインを備え、前記回路記述は、第２のパイプラインを含み、前記第１のパイプラインを実行するスレッドは、ローカル変数を先入れ先出しキューにプッシュすることによって、実行を前記第２のパイプラインに渡し、前記第２のパイプラインは、プッシュされた順序で先入れ先出しキューからローカル変数を読み取ることにより、パイプライン全体でスレッドの実行順序を維持する、請求項１に記載のコンピュータ実施方法。
前記ソースコードは、スレッドの実行順序を維持しないプログラミング構築をラップする並べ替えブロック構築を含み、前記並べ替えブロック構築は、
到来するスレッドの実行順序を記録し、
スレッドが、スレッドの実行順序を維持しない構築を実行できるようにし、
すべての下位スレッドが再開するまでスレッドの再開をブロックする回路実装にマッピングする、請求項１に記載のコンピュータ実施方法。
追加された前記パイプラインステージの少なくとも１つは、計算ユニットを備え、前記計算ユニットによって生成される結果をレジスタに格納するよう構成されている、請求項１に記載のコンピュータ実施方法。
前記パイプラインは、順に実行されるステージを備え、前記ステージを前記順に通過することによって、複数のスレッドが、実行順序を維持する、請求項１に記載のコンピュータ実施方法。
コンピューティングデバイスであって、
１つまたは複数のプロセッサと、
前記１つまたは複数のプロセッサによって実行された場合、前記コンピューティングデバイスに対して、
マルチスレッドプログラミング言語で表現されたソースコードを受け取らせ、
前記ソースコードを、第１のパイプライン、第２のパイプライン、および前記第１のパイプラインから前記第２のパイプラインに渡されるローカルスレッド変数のセットを格納する先入れ先出し（ＦＩＦＯ）キューを含む回路記述にコンパイルさせ、前記第１のパイプラインは、ローカルスレッド変数のセットを、スレッドの実行順序で前記ＦＩＦＯキューに格納し、前記第２のパイプラインは、前記スレッドの実行順序で前記ＦＩＦＯキューからローカルスレッド変数のセットを取得することによって前記スレッドの実行順序を維持し、前記ソースコードは、複数のソースコードパスのうちの１つに実行を指示する分岐ステートメントを含み、前記第１のパイプラインは、前記複数のソースコードパスに関連付けられた複数のコードパスを含み、前記複数のコードパスが同じ数のパイプラインステージを有するように、１つまたは複数のパイプラインステージが、前記複数のコードパスのうちの１つまたは複数に追加され、前記追加されたパイプランステージの少なくとも１つは、計算ユニットを含み、前記計算ユニットによって生成される結果をレジスタに格納するように構成され、
前記回路記述に基づいて、回路実装を備える同期デジタル回路を生成させる、コンピュータ実行可能命令を格納した少なくとも１つのコンピュータ記憶媒体と
を備える、コンピューティングデバイス。
前記複数のコードパスのうちの１つまたは複数にパイプラインステージを追加することは、最長のコードパスにおけるパイプラインステージの数を決定することと、そのコードパスにおける前記パイプラインステージの数を、前記最長のコードパスにおけるパイプラインステージの数から引いたものに等しい数のパイプラインステージを、各コードパスに追加することとを含む、請求項８に記載のコンピューティングデバイス。
前記ソースコードは、スレッドの実行順序を維持しないプログラミング構築をラップする並べ替えブロック構築を含み、前記並べ替えブロック構築が、
到来するスレッドの実行順序を記録し、
スレッドが、スレッドの実行順序を維持しない構築を実行できるようにし、
すべての下位スレッドが再開するまでスレッドの再開をブロックする回路実装にマッピングする、請求項８に記載のコンピューティングデバイス。
スレッドは、入った順序で前記並べ替えブロックを出る、請求項１０に記載のコンピューティングデバイス。
スレッドは、実行のために前記第１のパイプラインに提供されるローカルスレッド変数の集合を備える、請求項８に記載のコンピューティングデバイス。
前記第１のパイプラインは、順に実行されるステージを備え、前記ステージを順に通過することによって、複数のスレッドが、実行順序を維持する、請求項８に記載のコンピューティングデバイス。
１つまたは複数のプロセッサによって実行された場合、コンピューティングデバイスに対して、
マルチスレッドプログラミング言語で表現されたソースコードを受け取らせ、前記ソースコードは、回路実装にマッピングする構築を備え、前記構築は、並べ替えブロックと、スレッドの実行順序を維持しない構築とを備え、前記回路実装は、
複数のスレッドを受信した順序でスレッド識別子を登録する並べ替えバッファと、
前記複数のスレッドの各々について、未知の数のクロックサイクルのために実行する回路とを備え、前記並べ替えバッファは、実行順序の低いすべてのスレッドが再開されるまで、スレッドの再開をブロックし、
前記構築を、回路記述へコンパイルさせ、
前記回路記述に基づいて、前記回路実装を備える同期デジタル回路を生成させる、コンピュータ実行可能命令を格納した少なくとも１つのコンピュータ記憶媒体。
前記ソースコードは、複数のソースコードパスのうちの１つに実行を指示する分岐ステートメントを含み、前記回路記述は、複数のコードパスを含むパイプラインを含み、前記複数のコードパスが同じ数のパイプラインステージを有するように、１つまたは複数のパイプラインステージが、前記複数のコードパスのうちの１つまたは複数に追加される、請求項１４に記載の少なくとも１つのコンピュータ記憶媒体。
前記複数のコードパスのうちの１つまたは複数にパイプラインステージを追加することは、最長のコードパスにおけるパイプラインステージの数を決定することと、そのコードパスにおけるパイプラインステージの数を、前記最長のコードパスにおける前記パイプラインステージの数から引いたものに等しい数のパイプラインステージを、各コードパスに追加することとを含む、請求項１５に記載の少なくとも１つのコンピュータ記憶媒体。
スレッドは、実行のために前記パイプラインの第１のパイプラインに提供されるローカルスレッド変数の集合を備える、請求項１５に記載の少なくとも１つのコンピュータ記憶媒体。
前記パイプラインの第１のパイプラインは、順に実行されるステージを備え、前記ステージを前記順に通過することによって、複数のスレッドが、実行順序を維持する、請求項１５に記載の少なくとも１つのコンピュータ記憶媒体。
前記パイプラインは第１のパイプラインを含み、前記回路記述は第２のパイプラインを含み、前記第１のパイプラインを実行するスレッドは、ローカル変数を先入れ先出しキューにプッシュすることによって、実行を前記第２のパイプラインに渡し、前記第２のパイプラインは、プッシュされた順序で先入れ先出しキューからローカル変数を読み取ることにより、パイプライン全体でスレッドの実行順序を維持する、請求項１５に記載の少なくとも１つのコンピュータ記憶媒体。