JP2022546034A

JP2022546034A - マイクロプロセッサ内におけるレジスタ結果の累積のための命令ハンドリング

Info

Publication number: JP2022546034A
Application number: JP2022513041A
Authority: JP
Inventors: トンプト、ブライアン; ベスマ、マーテン; ワーグナー、アンドレアス; モレイラ、ホセ; リ、ホン; ミュラー、シルヴィア; グエン、ズン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-08-29
Filing date: 2020-07-21
Publication date: 2022-11-02
Also published as: GB2603653A; GB202202229D0; GB2603653B; US20210064365A1; WO2021038337A1; DE112020004071T5; CN114787772A; US20230367597A1; US11132198B2; US20220050682A1; US11755325B2

Abstract

情報を処理するためのコンピュータ・システム、プロセッサおよび方法であって、少なくとも１つのコンピュータ・プロセッサと、この少なくとも１つのプロセッサに関連づけられた主レジスタ・ファイルであり、この主レジスタ・ファイルが、データを記憶するための複数のエントリ、主レジスタ・ファイル・エントリにデータを書き込むための１つまたは複数の書込みポート、および主レジスタ・ファイル・エントリからデータを読み出すための１つまたは複数の読出しポートを有する、主レジスタ・ファイルと、デンス・マス実行ユニットを含む１つまたは複数の実行ユニットと、データを記憶するための複数のエントリを有する少なくとも１つのアキュムレータ・レジスタ・ファイルとを含む、コンピュータ・システム、プロセッサおよび方法が開示される。一態様では、デンス・マス実行ユニットの結果が、アキュムレータ・レジスタ・ファイル、好ましくは同じアキュムレータ・レジスタ・ファイル・エントリに多数回、書き込まれ、そのデータが、アキュムレータ・レジスタ・ファイルから主レジスタ・ファイルに書き込まれる。

Description

本発明は、一般に、データ処理システム、プロセッサに関し、より詳細には、プロセッサ内のアキュムレータ・レジスタ・ファイル（accumulator register file）であって、例えば１つまたは複数の行列乗算アキュムレータ（matrix-multiply-accumulator）（ＭＭＡ）ユニットなどの１つまたは複数のデンス・マス実行ユニット（dense math execution unit）に関連づけられたアキュムレータ・レジスタを含む、アキュムレータ・レジスタ・ファイルに関する。

データ処理システム内で現在使用されているプロセッサは一度に２つ以上の命令を処理し、しばしば、それらの命令を順不同で処理する。最新のコンピュータ・アーキテクチャでは、一度に、または少なくとも同じ時間フレーム内で２つ以上の命令を実行するように適合されたコンピュータを設計するいくつかの手法が知られている。例えば、スループットを向上させる１つの設計は、多数の命令スレッドを同時に処理するためにプロセッサ・コア内に多数の実行スライスを含み、これらのスレッドは、プロセッサ・コアのあるリソースを共用する。実行スライスは、多数の命令を単一の処理サイクルで処理するために、パイプラインまたはパイプライン状構造体のように直列に接続された、プロセッサ内の多数のデータ処理ハードウェア・ユニットを指すことがある。パイプライン処理は、いくつかの命令が並行して処理されるように命令を複数のステージで処理することを含む。多数の実行スライスを、プロセッサ・コア内での同時マルチスレッド処理の部分として使用することができる。

パイプライン化されたこれらのさまざまなステージは、メモリから命令をフェッチする「命令フェッチ」ステージを含むことがある。「デコード」ステージでは、その命令が異なる制御ビットにデコードされ、それらの異なる制御ビットは一般に、（ｉ）その命令によって指定された演算を実行するための機能ユニット（例えば実行ユニット）のタイプ、（ｉｉ）その演算のソース・オペランド、および（ｉｉｉ）その演算の結果の行先を示す。「ディスパッチ」ステージでは、デコードされた命令が発行待ち行列（ＩＳＱ）にディスパッチされ、そこで命令は、データおよび使用可能な実行ユニットを待つ。「実行」ステージでは通常、発行待ち行列の中の命令が実行ユニットに発行される。「実行」ステージは、その命令によって指定されたとおりに演算を処理する。命令によって指定された演算を実行することは通常、データ、例えば１つまたは複数のオペランドを受け入れ、１つまたは複数の結果を生み出すことを含む。普通は、実行ユニットもしくは発行待ち行列またはその両方に関連づけられたレジスタ・ファイルであって、実行ユニットのためのデータもしくは情報またはその両方を保持するためのレジスタ・ファイルが存在する。レジスタ・ファイルは通常、レジスタ・ファイル内のエントリもしくは位置から読み出される情報、またはレジスタ・ファイル内のエントリもしくは位置に書き込まれた情報、あるいはその両方を有する。

計算スループットを増大させる１つの設計は、さまざまなデータ・タイプをハンドリングするため、および高度に並列なタスクを実行するために、専門計算ユニット、例えば行列乗算アキュムレータ・ユニット（ＭＭＡユニット）を有する設計である。ワイド単一命令複数データ（single instruction, multiple data）（ＳＩＭＤ）データフローは、高い計算スループットを達成する１つの手法である。

この本開示の概要は、プロセッサ内でレジスタ・ファイルを使用するコンピュータ・システム、コンピュータ・アーキテクチャ構造体、プロセッサ、アキュムレータ・レジスタ・ファイルを含むレジスタ・ファイルおよび方法の理解を助けるために示したものであり、この概要に、本開示または本発明を限定する意図はない。本開示は当業者を対象としている。本開示のさまざまな態様および特徴を、いくつかの事例では別々に、または他の事例では本開示の他の態様および特徴と組み合わせて、有利に使用することができることを理解すべきである。したがって、コンピュータ・システム、アーキテクチャ構造体、プロセッサ、レジスタ・ファイルもしくはそれらの動作方法またはこれらの組合せに変更および修正を加えて、異なる効果を達成することができる。

情報を処理するためのコンピュータ・システムが開示され、このコンピュータ・システムは、少なくとも１つのプロセッサと、この少なくとも１つのプロセッサに関連づけられた主レジスタ・ファイルであり、この主レジスタ・ファイルが、データを記憶するための複数のエントリ、主レジスタ・ファイル・エントリにデータを書き込むための１つまたは複数の書込みポート、および主レジスタ・ファイル・エントリからデータを読み出すための１つまたは複数の読出しポートを有する、主レジスタ・ファイルと、デンス・マス実行ユニットを含む１つまたは複数の実行ユニットと、データを記憶するための複数のエントリを有する少なくとも１つのアキュムレータ・レジスタ・ファイルであり、この少なくとも１つのアキュムレータ・レジスタ・ファイルがデンス・マス実行ユニットに関連づけられている、少なくとも１つのアキュムレータ・レジスタ・ファイルとを含む。１つまたは複数の実施形態では、プロセッサが、デンス・マス実行ユニット内でデータを処理するように構成されており、デンス・マス実行ユニットの結果がアキュムレータ・レジスタ・ファイルに書き込まれる。一態様では、プロセッサが、同じアキュムレータ・レジスタ・ファイル・エントリに結果を多数回、書き戻すように構成されている。一実施形態では、プロセッサがさらに、アキュムレータ・レジスタ・ファイルから主レジスタ・ファイルにデータを書き込むように構成されている。プロセッサは、アキュムレータ・レジスタ・ファイルにマップされた主レジスタ・ファイル・エントリに命令がアクセスしたことに応答して、アキュムレータ・レジスタ・ファイルから複数の主レジスタ・ファイル・エントリにデータを書き込むように構成されていることが好ましい。

一態様では、プロセッサが、データを受け取るようにアキュムレータ・レジスタ・ファイルを用意（prime）するように構成されており、好ましい一態様では、プロセッサが、命令に応答して、アキュムレータ・レジスタ・ファイルにデータを記憶するようにアキュムレータ・レジスタ・ファイルを用意するように構成されている。一実施形態では、プロセッサが、アキュムレータ・レジスタ・ファイル・エントリを用意したことに応答して、用意されたアキュムレータ・レジスタ・ファイルにマップされた１つまたは複数の主レジスタ・ファイル・エントリにビジー（busy）のマークを付ける。アキュムレータ・レジスタ・ファイルは、デンス・マス・ユニットにとってローカルであることが好ましく、一態様では、デンス・マス実行ユニットが行列乗算アキュムレータ（ＭＭＡ）ユニットであり、アキュムレータ・レジスタ・ファイルがＭＭＡ内に位置する。一実施形態では、アキュムレータ・レジスタ・ファイルの中のそれぞれのエントリが複数の主レジスタ・ファイル・エントリにマップされている。

一実施形態では、情報を処理するためのプロセッサが開示され、このプロセッサは、このプロセッサに関連づけられた主レジスタ・ファイルであり、この主レジスタ・ファイルが、データを記憶するための複数のエントリ、主レジスタ・ファイル・エントリにデータを書き込むための１つまたは複数の書込みポート、および主レジスタ・ファイル・エントリからデータを読み出すための１つまたは複数の読出しポートを有する、主レジスタ・ファイルと、デンス・マス実行ユニットを含む１つまたは複数の実行ユニットと、データを記憶するための複数のエントリを有する少なくとも１つのアキュムレータ・レジスタ・ファイルであり、この少なくとも１つのアキュムレータ・レジスタ・ファイルがデンス・マス実行ユニットに関連づけられており、アキュムレータ・レジスタ・ファイルのビット・フィールド幅が主レジスタ・ファイルのビット・フィールド幅よりも広い、少なくとも１つのアキュムレータ・レジスタ・ファイルとを含む。一態様では、このプロセッサが、同じアキュムレータ・レジスタ・ファイル・エントリにデンス・マス実行ユニットの結果が多数回、書き込まれるような方式で、デンス・マス実行ユニット内でデータを処理するように構成されており、また、多数回書き込まれたアキュムレータ・レジスタ・ファイル・エントリから主レジスタ・ファイル・エントリにデータを書き戻すように構成されている。

別の態様では、情報を処理するためのコンピュータ・システムが開示され、このコンピュータ・システムは、少なくとも１つのプロセッサと、この少なくとも１つのプロセッサに関連づけられた主レジスタ・ファイルであり、この主レジスタ・ファイルが、データを記憶するための複数のエントリ、主レジスタ・ファイル・エントリにデータを書き込むための１つまたは複数の書込みポート、およびレジスタ・ファイル・エントリからデータを読み出すための複数の読出しポートを有する、主レジスタ・ファイルと、デンス・マス実行ユニットを含む１つまたは複数の実行ユニットと、データを記憶するための複数のエントリを有する少なくとも１つのアキュムレータ・レジスタ・ファイルであり、この少なくとも１つのアキュムレータ・レジスタ・ファイルがデータを記憶するための複数のエントリを有し、この少なくとも１つのアキュムレータ・レジスタ・ファイルがデンス・マス実行ユニットに関連づけられている、少なくとも１つのアキュムレータ・レジスタ・ファイルと、１つまたは複数のコンピュータ可読ストレージ媒体と、少なくとも１つのプロセッサによって実行するために１つまたは複数のコンピュータ可読ストレージ媒体上に記憶されたプログラム命令とを含む。一実施形態では、これらのプログラム命令が、プロセッサ上で実行されたときに、デンス・マス・ユニットに、同じアキュムレータ・レジスタ・ファイル・エントリに結果を複数回、書き込むことを実行させる。これらのプログラム命令は、プロセッサがデンス・マス実行ユニット命令を処理したことに応答して、プロセッサに、単一のアキュムレータ・レジスタ・ファイル・エントリを複数の主レジスタ・ファイル・エントリにマップすること、同じアキュムレータ・レジスタ・ファイル・エントリに結果を複数回、書き込むこと、複数回書き込まれたアキュムレータ・レジスタ・ファイル・エントリを用意解除（de-prime）すること、結果として得られたデータを、複数回書き込まれたアキュムレータ・レジスタ・ファイル・エントリから主レジスタ・ファイルに書き込むこと、および用意解除されたアキュムレータ・レジスタ・ファイル・エントリの割振りを解除することを実行させる。

プロセッサ内で命令を処理する方法も開示される。１つまたは複数の実施形態では、この方法が、デンス・マス実行ユニットに関連づけられたアキュムレータ・レジスタ・ファイルを提供すること、デンス・マス実行ユニットを用いてデンス・マス演算を実行すること、およびデンス・マス実行ユニットを用いたデンス・マス演算の結果をアキュムレータ・レジスタ・ファイルに書き込むことを含む。一態様では、この方法がさらに、デンス・マス実行ユニットが、主レジスタ・ファイルに書き込むことなしに、アキュムレータ・レジスタ・ファイルの読出しおよび書込みを実行することを含む。一実施形態では、アキュムレータ・レジスタ・ファイルが、デンス・マス実行ユニット演算の間、ソースとターゲットの両方である。この方法は、デンス・マス実行ユニット演算中に、同じアキュムレータ・レジスタ・ファイル・エントリに何回か書き込むことを含むことが好ましく、一態様では、この方法が、アキュムレータ・レジスタ・ファイル・データを主レジスタ・ファイルに書き込むことを含む。

本発明の上記の目的、特徴および利点ならびにその他の目的、特徴および利点は、添付図面に示された本発明の例示的な実施形態の以下のより詳細な説明から明らかとなる。

コンピュータ・システム、コンピュータ・アーキテクチャ構造体、プロセッサ、アキュムレータ・レジスタ・ファイルを含むレジスタ・ファイルもしくはそれらの動作方法またはこれらの組合せのさまざまな態様、特徴および実施形態は、提供された図と関連づけて読んだときによりいっそう理解される。それらの図には、コンピュータ・システム、コンピュータ・アーキテクチャ構造体、プロセッサ、レジスタ・ファイル、アキュムレータ・レジスタ・ファイルおよびそれらの動作方法の態様、特徴もしくはさまざまな実施形態またはこれらの組合せを例示するために、実施形態が提供されているが、特許請求の範囲は、示された正確なシステム、実施形態、方法、プロセスもしくはデバイスまたはこれらの組合せに限定されるべきではなく、示された特徴もしくはプロセスまたはその両方は、単独で、あるいは他の特徴もしくはプロセスまたはその両方と組み合わせて使用することができる。

本開示の態様を実施することができるデータ処理システムの一例を示す図である。本開示のある態様を実施することができるプロセッサのブロック図である。本開示のある態様による、マルチスライス・プロセッサの一部分のブロック図である。本開示の一実施形態による、アキュムレータ・レジスタ・ファイルを有するマルチスライス・プロセッサの一部分のブロック図である。本開示の一実施形態による、ＭＭＡユニット、アキュムレータ・レジスタ・ファイルおよび物理ＶＳレジスタ・ファイルの構成を示す簡略化されたブロック図である。ＭＭＡユニットとアキュムレータ・レジスタ・ファイルとを有するプロセッサの２つのスーパー・スライスの簡略化されたブロック図である。プロセッサ内でデータを処理するための一実施形態による方法の流れ図である。

以下の説明は、本発明の一般的な原理を示すために書かれたものであり、本明細書に記載された発明の発想を限定することを意味するものではない。以下の詳細な説明には、コンピュータ・システム、コンピュータ・アーキテクチャ構造体、プロセッサ、レジスタ・ファイル、アキュムレータ・レジスタ・ファイルおよびそれらの動作方法の理解を提供するために、数多くの詳細が記載されている。しかしながら、コンピュータ・システム、コンピュータ・アーキテクチャ構造体、プロセッサ、レジスタ・ファイル、アキュムレータ・レジスタ・ファイルおよびそれらの動作方法の異なる多数の実施形態は、それらの具体的な詳細なしでも実施することができること、ならびに特許請求の範囲および本発明は、本明細書に詳細に説明され示されたシステム、アセンブリ、サブアセンブリ、実施形態、特徴、プロセス、方法、態様もしくは詳細またはこれらの組合せに限定されるべきではないことを当業者は理解するであろう。また、本明細書に記載された特定の特徴は、可能なさまざまなそれぞれの組合せおよび置き換えにおいて、記載された他の特徴と組み合わせて使用することができる。

本明細書において特に定義されていない限り、全ての用語には、本明細書から暗示される意味および当業者によって理解される意味、もしくは辞書、学術論文などに定義された意味、またはその両方を含む、その可能な最も幅広い解釈が与えられる。特に明記されていない限り、本明細書および添付の特許請求の範囲で使用されているとき、単数形「ａ」、「ａｎ」および「ｔｈｅ」は複数の指示物を含むこと、および用語「備える（comprises）」もしくは「備える（comprising）」またはその両方は、明示された特徴、完全体（integer）、ステップ、動作、要素もしくは構成要素またはこれらの組合せの存在を指定するが、１つもしくは複数の特徴、完全体、ステップ、動作、要素、構成要素もしくはそれらのグループまたはこれらの組合せの存在または追加を排除しないことにも留意しなければならない。

以下の議論は、プロセッサおよびマイクロプロセッサ・システムならびにアーキテクチャを含む、情報処理システムの当業者には明白な従来の特徴を省いているか、または簡単にしか説明していない。当業者は、プロセッサの全般的なアーキテクチャに精通しており、特に、マルチスライス・プロセッサおよびマルチスライス・プロセッサによるレジスタの使用を含め、順不同実行で動作するプロセッサに精通しているとみなす。符号付きの要素は、その要素が紹介された図に従って符号が付けられており、以降の図でも、必ずではないが、しばしば、その符号によって参照されることに留意されたい。

図１は、本開示の態様を実施することができるデータ処理システム１００の一例を示している。このシステムは中央処理ユニット（ＣＰＵ）１１０を有する。ＣＰＵ１１０は、システム・バス１１２によって他のさまざまな構成要素に結合されている。システム・バス１１２にはリードオンリー・メモリ（「ＲＯＭ」）１１６が結合されており、ＲＯＭ１１６は、データ処理システム１００のある基本機能を制御する基本入出力システム（「ＢＩＯＳ」）を含む。システム・バス１１２にはさらに、ランダム・アクセス・メモリ（「ＲＡＭ」）１１４、Ｉ／Ｏアダプタ１１８および通信アダプタ１３４が結合されている。Ｉ／Ｏアダプタ１１８は、ディスク・ストレージ・デバイス１２０と通信するスモール・コンピュータ・システム・インタフェース（「ＳＣＳＩ」）アダプタとすることができる。通信アダプタ１３４は、バス１１２と外部ネットワークとを相互接続し、このデータ処理システムが他の同様のシステムと通信することを可能にする。システム・バス１１２にはさらに、ユーザ・インタフェース・アダプタ１２２およびディスプレイ・アダプタ１３６を介して入力／出力デバイスが接続されている。キーボード１２４、トラックボール１３２、マウス１２６およびスピーカ１２８は全て、ユーザ・インタフェース・アダプタ１２２を介してバス１１２に相互接続されている。ディスプレイ・アダプタ１３６によってシステム・バス１１２にディスプレイ・モニタ１３８が接続されている。このようにすると、ユーザは、キーボード１２４、トラックボール１３２またはマウス１２６によってシステムに入力すること、ならびにスピーカ１２８およびディスプレイ１３８を介してシステムから出力を受け取ることができる。さらに、図１に示されたさまざまな構成要素の機能を調整するために、例えばＡＩＸなどのオペレーティング・システムが使用される（「ＡＩＸ」はIBM Corporationの商標である）。

ＣＰＵ（または「プロセッサ」）１１０は、集積回路によって形成されたさまざまなレジスタ、バッファ、メモリおよび他のユニットを含み、縮小命令セット・コンピューティング（「ＲＩＳＣ」）技術に従って動作することができる。ＣＰＵ１１０は、プロセッサ・サイクルに従って処理を実行し、いくつかの態様では、内部クロック（図示せず）と同期したプロセッサ・サイクルに従って処理を実行する。

図２は、一実施形態による、プロセッサ１１０の簡略化されたブロック図を示している。プロセッサ１１０は、メモリ２０２、命令キャッシュ２０４、命令フェッチ・ユニット２０６、ブランチ予測器（branch predictor）２０８、ブランチ分類ユニット２１８、処理パイプライン２１０および行先リソース（destination resource）２２０を含む。プロセッサ１１０は、コンピュータ・プロセッサ内に含まれていてもよく、または、さもなければコンピュータ・システム内に分散していてもよい。メモリ２０２に命令およびデータを記憶することができ、命令キャッシュ２０４は、メモリ２０２の中の命令にアクセスし、フェッチする命令を記憶することができる。メモリ２０２は、任意のタイプの揮発性または不揮発性メモリを含むことができる。メモリ２０２および命令キャッシュ２０４は多数のキャッシュ・レベルを含むことができる。

図２には、命令フェッチ・ユニット２０６および処理パイプライン２１０の簡略化された例が示されている。さまざまな実施形態において、プロセッサ１１０は、多数の処理パイプライン２１０および命令フェッチ・ユニット２０６を含むことができる。一実施形態では、処理パイプライン２１０が、デコード・ユニット２０、発行ユニット２２、実行ユニット２４、書戻し論理２６、論理レジスタ・マッパ２８、履歴バッファ、例えばセーブ＆リストア・バッファ（Save & Restore Buffer）（ＳＲＢ）３０、および物理レジスタ・ファイル３２を含む。命令フェッチ・ユニット２０６もしくはブランチ予測器２０８またはその両方を処理パイプライン２１０の部分とすることもできる。処理パイプライン２１０はさらに、誤り検査および誤り処理論理、処理パイプライン２１０を通る１本または数本の並行経路、ならびに当技術分野で現在知られているまたは当技術分野で今後知られる他の機能などの他の機能を含むことができる。図２にはプロセッサ１１０を通る順方向経路が示されているが、他のフィードバックおよびシグナリング経路をプロセッサ１１０の要素間に含めることができる。プロセッサ１１０は、他の回路、機能ユニットおよび構成要素を含むことができる。

命令フェッチ・ユニット２０６は、デコード・ユニット２０によってさらに処理するために、命令アドレスに従って命令キャッシュ２０４から命令をフェッチする。デコード・ユニット２０は、命令をデコードし、デコードされた命令、命令の部分、またはデコードされた他のデータを発行ユニット２２に渡す。デコード・ユニット２０はさらに、ブランチ予測器２０８によって予測されなかったブランチ命令を検出することができる。発行ユニット２２は、それらの命令または他のデータを分析し、この分析に基づいて、デコードされた命令、命令の部分、または他のデータをパイプライン２１０内の１つまたは複数の実行ユニット２４に送信する。物理レジスタ・ファイル３２は、実行ユニット２４のためのデータを保持する。実行ユニット２４は、実行ユニット２４に発行された命令によって指定された演算を実施および実行する。実行ユニット２４は、固定小数点実行ユニット、浮動小数点実行ユニット、ロード／記憶実行ユニット（ＬＳＵ）、ベクトル・スカラ実行ユニット（ＶＳＵ）もしくは他の実行ユニットまたはこれらの組合せなどの複数の実行ユニットを含むことができる。論理レジスタ・マッパ２８は、論理レジスタ・エントリ（ＬＲｅｇ）と物理レジスタ・ファイル３２内のエントリとの間のマッピングを提供するエントリを含む。命令が論理レジスタ・エントリ（ＬＲｅｇ）の読出しを指定しているとき、論理レジスタ・マッパ２８は発行ユニット２２に通知し、発行ユニット２２は実行ユニット２４に通知し、実行ユニット２４で、物理レジスタ・ファイル３２の中のデータの位置を突き止めることができる。

誤予測されたブランチ命令または他の例外が検出されると、その誤予測されたブランチ命令または例外に続く命令およびデータは廃棄される。例えば、プロセッサ１１０のさまざまなユニットからフラッシュされる。履歴バッファ、例えばセーブ＆リストア・バッファ（ＳＲＢ）３０は、投機的（speculative）レジスタ状態とアーキテクテット（architected）・レジスタ状態の両方を含み、新たな命令がディスパッチされると論理レジスタ・ファイル・データをバックアップする。この点に関して、履歴バッファは、新たな命令がデータをエビクト（evict）するときに、その新たな命令がフラッシュされ、古いデータを回復する必要がある場合に備えて、論理レジスタ・マッパ２８からの情報を記憶する。履歴バッファ（ＳＲＢ）３０は、その新たな命令が完了するまで、記憶した情報を保持する。論理レジスタ・エントリの内容を履歴バッファ（ＳＲＢ）３０から論理レジスタ・マッパ２８に復元するために、履歴バッファ（ＳＲＢ）３０は論理レジスタ・マッパ２８とインタフェースし、論理レジスタ・マッパ２８内のポインタを更新して、正しいデータをどこで取得すればよいかを命令が知ることができるようにし、例えば、プロセッサは、割込み可能命令、例えばブランチ命令が誤予測される前に存在した状態に戻される。

書戻し論理２６は、実行された命令の結果を行先リソース２２０に書き戻す。行先リソース２２０は、実行された命令またはデータのためのレジスタ、キャッシュ・メモリ、他のメモリ、他のデバイスと通信するためのＩ／Ｏ回路、他の処理回路、または他の任意のタイプの行先を含む、任意のタイプのリソースとすることができる。

命令は、プロセッサ１１０内のパイプライン化された一連の論理ステージで処理することができる。しかしながら、これらのステージの機能を１つに結合することができ、そのため、そのような限定が特許請求の範囲に明確に示されていない限り、この特定のステージ分割を限定と捉えるべきではないことを理解すべきである。実際に、図２では、理解を単純にするために、一部のステージが単一の論理ユニットとして示されており、関連するさらなる詳細が後に提供される。

図３は、本開示の一実施形態による、プロセッサ１１０の一部分、この例ではマルチスライス・プロセッサ１１０の一部分のブロック図を示している。議論の目的上、図３は、マルチスライス・プロセッサ１１０の一部分を概略的に示しているだけであることに留意されたい。このマルチスライス・プロセッサは他の構成を有することもできることが理解される。図３に示されているとおり、このマルチスライス・プロセッサは、２つの処理スライス、すなわちスライス０（スライスＳ０または３６０）およびスライス１（スライスＳ１または３６５）を含む。このプロセッサは命令フェッチ・ユニット３１０を含む。スライスＳ０およびＳ１はそれぞれ、命令ディスパッチ・ユニット（３２０ａおよび３２０ｂ）、論理レジスタ・マッパ（３５０ａおよび３５０ｂ）、履歴バッファ（ＨＢ）（３７０ａおよび３７０ｂ）、発行待ち行列（ＩＳＱ）（３３０ａおよび３３０ｂ）、命令完了テーブル（ＩＣＴ）（３２５ａおよび３２５ｂ）、および実行ユニット（３４０ａおよび３４０ｂ）を含み、実行ユニット（３４０ａおよび３４０ｂ）は、ロード記憶ユニット（ＬＳＵ）（３０４ａおよび３０４ｂ）、ベクトル・スカラ・ユニット（ＶＳＵ）（３０６ａおよび３０６ｂ）、およびレジスタ・ファイル（ＲＦ）（３８０ａおよび３８０ｂ）を含む。実行ユニット３４０は、実行ユニット３４０によって実行するための命令を保持する１つまたは複数の待ち行列を含むことができる。

２つのスライスが示されているのは、単に図解および議論を容易にするためであり、マルチスライス・プロセッサ１１０は、３つ以上の処理または実行スライスを含むことができ、それぞれのスライスは、スライスＳ０およびＳ１（スライス３６０および３６５）のそれぞれについて上で論じた全ての構成要素を有することに留意されたい。さらに、これらの処理スライスを、スーパー・スライス（ＳＳ３９５）にグループ化することができ、それぞれのスーパー・スライスは一対の処理スライスを含む。例えば、マルチスライス・プロセッサは、２つのスーパー・スライスＳＳ０およびＳＳ１を含むことができ、ＳＳ０はスライスＳ０およびＳ１を含み、ＳＳ１（図示せず）はスライスＳ２およびＳ３を含む。

命令フェッチ・ユニット３１０は、プロセッサ１１０またはプロセッサ・スライスによって実行する命令をフェッチする。命令フェッチ・ユニット３１０によってフェッチされた命令は命令ディスパッチ・ユニット３２０に送られる。命令ディスパッチ・ユニット３２０は、命令を発行待ち行列（ＩＳＱ）３３０に、通常はプログラム順で送る。発行待ち行列（ＩＳＱ）３３０は命令を実行ユニット３４０に発行する。ＩＳＱ３３０は通常、命令に関連したデータが取り出され、使用する準備が整うまで、その命令を保持する。物理レジスタ・ファイル３８０は、実行ユニット３４０にディスパッチされた命令の中に指定された演算で使用するデータを記憶する役目を果たすことができ、実行ユニット３４０によって実行された演算の結果は、物理レジスタ・ファイル３８０の中の指定されたターゲット・レジスタ・エントリに書き込むことができる。

ある態様では、ＩＳＱ３３０が一組の命令を保持し、レジスタ・ファイル３８０が命令入力用のデータを累積する。レジスタ・ファイルを使用して、メモリとプロセッサ内の他の機能（実行）ユニットとの間でデータをステージングすることができる。多数のレジスタ・ファイルおよびタイプがあってもよい。その命令の全てのソース・データが累積すると、それらのデータは、その命令を実行するよう指定された１つまたは複数の実行ユニットに渡される。実行ユニット、例えばＬＳＵ３０４およびＶＳＵ３０６はそれぞれ、結果データを、レジスタ・ファイル（ＲＦ）エントリに書き込むための書戻しバス上で使用可能にすることができる。

データの準備ができていないとき、例えば適切なデータ・キャッシュまたはレジスタにデータがないときには、ＩＳＱ３３０が命令を実行ユニット３４０に発行しないため、遅延が生じうる。少なくともこの理由により、発行待ち行列（ＩＳＱ）は通常、命令を実行ユニット３４０に順不同で発行し、そのため、必要なデータが使用可能である命令を実行することができる。１つまたは複数の実施形態では、命令を識別するために、ディスパッチ・ユニット３２０が、発行待ち行列３３０にディスパッチされたそれぞれの命令に、識別子、例えば識別タグ（ｉＴａｇ）のスタンプを押す。ディスパッチ・ユニット３２０は、命令に、他の情報およびメタ・データのスタンプを押すことができる。命令（ｉＴａｇ）は通常、ディスパッチ・ユニット３２０によって、スレッドごとに、プログラム昇順で割り振られ（割り当てられ）、スタンプが押される。

論理レジスタ・マッパ３５０は、論理レジスタのエントリ（例えばＧＰＲ１）と物理レジスタ・ファイル３８０のエントリ（例えば物理レジスタ・アレイ・エントリ）との間のマッピングを提供するメタ・データ（例えばｉＴａｇ、ＲＦｔａｇなど）を含む。ＲＦｔａｇは、論理レジスタ・エントリを物理レジスタ・ファイル・エントリに相互に関連させるポインタである。例えば、１つの命令が、論理レジスタ、例えばＧＰＲ１を読みたいとき、論理レジスタ・マッパ３５０は、物理レジスタ・ファイル３８０のどこでそのデータを見つけることができるのか、例えば物理レジスタ・アレイ・エントリを発行待ち行列３３０に伝え、発行待ち行列３３０は実行ユニット３４０に伝える。実行ユニット３４０は命令を順不同で実行し、実行ユニット３４０が１つの命令を終了すると、実行ユニット３４０は、終了したその命令、例えばｉＴａｇをＩＣＴ３２５に送る。ＩＣＴ３２５は、ディスパッチ・ユニット３２０によってディスパッチされた命令の待ち行列を含み、命令が処理されるときにそれらの命令の進捗を追跡する。

履歴バッファ（ＳＲＢ）３９０は、より若い命令によって論理レジスタ・マッパ３５０からエビクトされた論理レジスタ・エントリを含む。履歴バッファ（ＳＲＢ）３９０に記憶された情報は、論理レジスタから論理レジスタ・エントリをエビクトした命令のｉＴａｇ（すなわちエビクタｉＴａｇ）を含むことがある。一実施形態では、履歴バッファ（ＳＲＢ）３９０が、ｉＴａｇ、論理レジスタ・エントリ番号（論理レジスタ・エントリ（ＬＲｅｇ）を識別するビット・フィールド）、およびレジスタ・ファイル・タグ（ＲＦＴａｇ）情報を記憶する。履歴バッファ（ＳＲＢ）３９０は他の情報を記憶および追跡することもできる。ｉＴａｇ、ならびにエビクトされたそれぞれの論理レジスタ・エントリ（ＬＲｅｇ）に対するレジスタ・ファイル・タグ（ＲＦＴａｇ）（および他のメタ・データ）を回復するために、履歴バッファ（ＳＲＢ）３９０は、論理レジスタ・マッパ３５０とのインタフェースを有する。これらの情報は、その新たな命令（エビクタ命令）が完了するまで、履歴バッファ（ＳＲＢ）３９０の履歴バッファ（ＳＲＢ）エントリに保持され、一実施形態では、エビクタ命令が完了した時点で、このエントリが履歴バッファ（ＳＲＢ）３９０から除去される。

多数の処理スライスを有するＣＰＵ１１０は、多数の命令を同時に実行することができることがある。例えば、それぞれの処理スライスで１つの命令を、１回の処理サイクルで同時に実行することができることがある。多数の処理スライスを有するこのようなＣＰＵは、マルチスライス・プロセッサまたはパラレルスライス・プロセッサと呼ばれることがある。多数の実行スライスでの同時処理は、マルチスライス・プロセッサの処理速度をかなり増大させることがある。シングルスレッド（ＳＴ）モードでは、単一のスレッドが処理され、ＳＭＴモードでは、２つのスレッド（ＳＭＴ２）または４つのスレッド（ＳＭＴ４）が同時に処理される。

一態様では、図３に示されているように、それぞれの実行／処理スライスが、それ自体のレジスタ・ファイルを有することができる。別の態様では、スーパー・スライスごとに１つのレジスタ・ファイルを割り振ることができ、その１つのレジスタ・ファイルを、そのスーパー・スライスの処理スライスによって共用することができる。一態様では、１つのレジスタ・ファイルを２つ以上のスーパー・スライスに割り振ることができ、その１つのレジスタ・ファイルを、それらのスーパー・スライスの処理スライスによって共用することができる。例えば、１つのレジスタ・ファイルを共用するようにスライスＳ０、Ｓ１、Ｓ２およびＳ３を割り振ることができる。レジスタ・ファイルについては後により詳細に論じる。

プロセッサにおいては、命令の順不同実行を改善するために、インフライト（in-flight）命令のレジスタ・リネーミング（register renaming）を有することは珍しいことではない。しかしながら、高い計算およびスループットを有する実行ユニットが使用される状況、例えばデンス・マス演算状況では、インフライト命令のレジスタ・リネーミングが、ハンドリングに電力を消費しうる多くのデータ移動に帰着することがあり、１つまたは複数の実行バブルのため不必要な遅延および待ち時間を導入することもある。１つまたは複数の実施形態では、アキュムレータ・レジスタ・ファイルが使用され、デンス・マス命令を用いたアキュムレータ・レジスタ・ファイル・リネーミングを使用するプロセスが実行される。アキュムレータ・レジスタ・ファイルおよびアキュムレータ・レジスタ・ファイル・リネーミング・プロセスは、電力を低減させるためおよび実行スループットを改善するために、実行中のデータ移動が最小化されるように使用される。一態様では、アキュムレータ・レジスタ・リネーミング・モードに入るためにアキュムレータ・レジスタが用意される。アキュムレータ・レジスタが用意された後、１つまたは複数の実施形態では、デンス・マス実行ユニット、例えば行列乗算アキュムレータ（ＭＭＡ）ユニットもしくは推論エンジン、またはその両方が、主レジスタ・ファイルに書き込む必要なしに、アキュムレータ・レジスタの読出しおよび書込みをローカルに実行することができる。デンス・マス実行ユニットは、新たなアキュムレータ・レジスタ・ファイルをリネームする必要なしに、もしくは主レジスタ・ファイルに書き戻す必要なしに、またはその両方を実行する必要なしに、同じアキュムレータ・レジスタ・ファイル・エントリに多数回アクセスし、同じアキュムレータ・レジスタ・ファイル・エントリから多数回読み出し、もしくは同じアキュムレータ・レジスタ・ファイル・エントリに多数回書き込み、またはこれらの組合せを実行することが好ましい。一実施形態では、デンス・マス演算が完了したときに、もしくは所定の演算および命令に応答して、またはデンス・マス演算が完了したときに所定の演算および命令に応答して、アキュムレータ・レジスタ・ファイルの中の結果を、主レジスタ・ファイルもしくは主メモリまたはその両方に書き込むことができる。

アキュムレータ・レジスタはＭＭＡユニットにとってローカルであることが好ましく、１つまたは複数の実施形態では、アキュムレータ・レジスタがＭＭＡユニット内にあることができる。さらなる実施形態では、アキュムレータ・レジスタが、主レジスタ・ファイル・エントリのビット・フィールド幅よりも広いビット・フィールド幅を有するエントリを有することができる。一態様では、デンス・マス実行ユニット演算が完了したときにアキュムレータ・レジスタ・ファイルが用意解除される。一態様では、デンス・マス実行ユニット演算が完了したときに、アキュムレータ・レジスタ・ファイルに記憶された結果を、アキュムレータ・レジスタ・ファイルから主レジスタ・ファイルに移動して、後続の命令、例えば後続の非デンス・マス命令がそれらの結果を使用することを可能にすることができる。一実施形態では、主レジスタ・ファイルに書き戻されたアキュムレータ・レジスタ・ファイル・エントリの割振りを解除することができる。１つまたは複数の実施形態では、１つもしくは複数のデンス・マス実行ユニット、例えば１つもしくは複数の推論エンジンおよび／もしくはＭＭＡユニットに関連づけられた１つもしくは複数のアキュムレータ・レジスタ、１つもしくは複数のデンス・マス実行ユニット、例えば１つもしくは複数の推論エンジンおよび／もしくはＭＭＡユニットにとってローカルの１つもしくは複数のアキュムレータ・レジスタ、ならびに／または１つもしくは複数のデンス・マス実行ユニット、例えば１つもしくは複数の推論エンジンおよび／もしくはＭＭＡユニット内に位置する１つもしくは複数のアキュムレータ・レジスタを使用して、デンス・マス命令をハンドリングする、プロセス、プロセッサ・アーキテクチャおよびシステムが記述される。一実施形態では、推論エンジンを、８つの行列乗算アキュムレータ（ＭＭＡ）ユニットと３２個の５１２ビットアキュムレータ・レジスタのセットとすることができる。

図４は、実行ユニット、例えば推論エンジン／ＭＭＡユニットに関連づけられたアキュムレータ・レジスタ・ファイルと、ベクトル・スカラ（ＶＳ）実行ユニット（ＶＳＵ）内に位置するベクトル／スカラ（ＶＳ）主レジスタ・ファイルとを利用する、処理パイプラインの簡略化されたブロック図を示している。この処理パイプラインまたは実行スライスは、ディスパッチ・ユニット３２０と、複数のエントリ３５１（ａ）～３５１（ｎ）を有する論理マッパ３５０と、命令完了テーブル（ＩＣＴ）３２５と、発行待ち行列（ＩＳＱ）３３０と、行列乗算アキュムレータ（ＭＭＡ）ユニット４６０と、複数のエントリ４７１（ａ）～４７１（ｎ）を有するアキュムレータ・レジスタ・ファイルと、複数のエントリ３８１（ａ）～３８１（ｎ）を有する主（ＶＳ）レジスタ・ファイル３８０を有するＶＳ実行ユニット（ＶＳＵ）３４０とを含む。図４には、アキュムレータ・レジスタ・ファイル４７０が、推論エンジン／ＭＭＡユニット４６０に関連づけられたものとして、および推論エンジン／ＭＭＡユニット４６０にとってローカルであるものとして示されているが、１つまたは複数の実施形態では、アキュムレータ・レジスタ・ファイル４７０をＭＭＡユニット４６０内に置くことができる。１つまたは複数の実施形態では、推論エンジンもしくはＭＭＡまたはその両方の動作の間、アキュムレータ・レジスタ・ファイル４７０がソースおよびターゲット（アキュムレータ）として利用される。すなわち、一態様では、ＭＭＡが動作するときに、ＭＭＡが、アキュムレータ・レジスタ・ファイルからのオペランドを使用し、結果をアキュムレータ・レジスタ・ファイルに書き戻し、一実施形態では、ＭＭＡが、結果を、同じアキュムレータ・レジスタ・ファイル・エントリ４７１（ｎ）に書き戻す。１つまたは複数の実施形態では、推論エンジン／ＭＭＡユニットの結果を、同じターゲットアキュムレータ・レジスタ・ファイル・エントリ４７１（ｎ）に多数回、書き戻すことができる。このようすると、ＶＳまたは主レジスタ・ファイルを含むプロセッサは、推論エンジンまたはＭＭＡの動作中に、リネーミング動作を経験しない。

１つまたは複数の実施形態では、アキュムレータ・レジスタ・ファイル４７０のビット・フィールド幅が、主（ＶＳ）レジスタ・ファイル３８０のビット・フィールド幅よりも広い。一実施形態では、アキュムレータ・レジスタ・ファイル４７０が、ビット幅の広いアキュムレータ・レジスタ・ファイル・エントリ４７１（ａ）～４７１（ｎ）のプールである。例えば、一実施形態では、アキュムレータ・レジスタ・ファイル４７０が、６４個の５１２ビット物理レジスタ・エントリ４７１のプールであり、主ＶＳレジスタ・ファイルの幅が１２８ビットである。一実施形態では、それぞれのアキュムレータ・レジスタ・ファイル・エントリ４７１が複数の主レジスタ・ファイル・エントリを保持し、一実施形態では、それぞれのアキュムレータ・レジスタ・ファイル・エントリ４７１が、４つの連続した主ＶＳレジスタ・ファイル・エントリ（３８１（ｎ）～３８１（ｎ＋３））のセットを保持する。図５の簡略化されたブロック図には、４つのエントリ３８１（ａ）～３８１（ｄ）を有するＶＳまたは主レジスタ・ファイル３８０が示されており、４つのエントリ３８１（ａ）～３８１（ｄ）は、アキュムレータ・レジスタ・ファイル４７０内の単一のアキュムレータ・レジスタ・エントリ４７１にマップされている。一例では、４つの連続した１２８ビット主ＶＳレジスタ・ファイル・エントリ３８１（ａ）～３８１（ｄ）が、単一の５１２ビットアキュムレータ・レジスタ・ファイル・エントリ４７１にマップされている。１つまたは複数の実施形態では、１スレッドにつき８つの論理アキュムレータ・レジスタ（ＡＣＣ０～ＡＣＣ７）が存在する。これらの８つの論理アキュムレータ・レジスタは、アキュムレータ・アレイ内、例えばアキュムレータ・レジスタ・ファイル内の３２個の物理レジスタにマップされている。

命令は、デンス・マス実行ユニット、例えば推論エンジンまたは１つもしくは複数のＭＭＡユニットあるいはその両方を準備およびランするために使用される。一般行列階数演算（General Matrix Rank Operation）（「ｇｅｒ」）命令が一例であり、１つまたは複数の態様では、一般行列階数演算（「ｇｅｒ」）命令が、２ｎのデータに対してｎ^２の演算を実行する。推論エンジン／ＭＭＡユニット・ワークロードは通常、３つの部分を有する。アキュムレータ・レジスタ・ファイルは、その演算を実行するための最初のデータを用いて用意される。ＭＭＡユニットでは乗算演算が実行され、結果がアキュムレータ・レジスタ・ファイルに累積される。そして、一態様では、デンス・マス実行ユニットが完了したときに、もしくある命令に応答して、またはデンス・マス実行ユニットが完了したときにある命令に応答して、アキュムレータ・レジスタ・ファイルの中の結果がメモリ、例えば主レジスタ・ファイルもしくは主メモリまたはその両方に書き戻される。アキュムレータ命令（「ｇｅｒ」命令）は普通、２つのＶＳＲオペランド・ソース、１つのアキュムレータＶＳＲ行先および１つのアキュムレータＶＳＲソースを有する。

デンス・マス演算、例えばＭＭＡユニット演算を開始するため、１つまたは複数の実施形態では、プロセッサが、デンス・マス命令、例えば推論エンジン／ＭＭＡユニット「ｇｅｒ」命令をデコードもしくは検出し、またはデコードおよび検出する。一実施形態では、それぞれのデンス・マス命令が、ｉＴａｇを有し、１つの完全ディスパッチ・レーンおよび１つの完全発行待ち行列（ＩＳＱ）エントリを利用する。一態様では、主レジスタ・マッパ３５０が、デンス・マス命令、例えばＭＭＡユニット命令ごとに、４つのターゲット（主レジスタ・ファイル・エントリ）を割り当てる。一実施形態ではさらに、主レジスタ・マッパ３５０が、主レジスタ・マッパ３５０からマッパ・エントリをエビクトする。同じアキュムレータ・レジスタ・ファイル・エントリ、例えば図４の４７１（ａ）に書き込む命令に関して、主レジスタ・マッパ３５０は、新たな主レジスタ・ファイル・タグＲＦＴａｇｓ（エントリ）を割り振らないが、新たな命令のための新たなｉＴａｇを必要とする。１つまたは複数の態様では、アキュムレータ・レジスタ・ファイル４７０を利用するデンス・マス命令（ｉＴａｇ）が完了した場合、アキュムレータ・レジスタ・ファイル４７０が結果を主レジスタ・ファイル３８０に書き込まなかった場合には、主レジスタ・ファイル・エントリ（ＲＦＴａｇｓ）の割振りが解除されない。例えばより若い非デンス・マス命令に応答して、対応するアキュムレータ・レジスタ・ファイル・エントリの中のデータが、そのデータを主レジスタ・ファイル３８０に書き戻すためにプッシュされたとき、もしくは、例えばより若い非デンス・マス命令に応答して、対応するアキュムレータ・レジスタ・ファイル・エントリの中のデータが、そのデータを主レジスタ・ファイル３８０に書き戻すためにプッシュされたことに応答して、またはその両方で、主レジスタ・ファイル・エントリ（ＲＦＴａｇ）の割振りは解除される。

一実施形態では、主レジスタ・マッパ３５０が、アキュムレータ・レジスタ・ファイル・エントリにマップされた主レジスタ・ファイル・エントリにマークを付ける。一態様では、主レジスタ・マッパ３５０が、複数の連続した主レジスタ・ファイル・エントリ３８１、例えばＶＳＲ（ｎ）～ＶＳＲ（ｎ＋３）に、同じアキュムレータ・レジスタ・ファイルｉＴａｇを書き込む。すなわち、１つのｉＴａｇが、一群の連続した主レジスタ・ファイル・エントリ、例えば４つの主レジスタ・ファイル・エントリ３８１（ｎ）～３８１（ｎ＋３）にエイリアシングされる。アキュムレータ・レジスタ・ファイル・エントリに割り当てられた主レジスタ・ファイル・エントリ（ロックアウトされた主レジスタ・ファイル・エントリ）の読出しまたは書込みを実施するより若い非デンス・マス命令は、書戻しプロセスを開始することを発行待ち行列（ＩＳＱ）３３０に通知する。１つまたは複数の実施形態では、アキュムレータ・レジスタ・ファイル４７０からアキュムレータ・レジスタの内容を読み出すために、アキュムレータから移動する一連の命令が、ディスパッチ・ユニット３２０によって送られ、発行ユニット３３０によって発行される。１つまたは複数の代替実施形態では、この書戻しプロセスが、ディスパッチ・ユニット３２０を停止すること、および発行待ち行列が命令を発行することを再開することができるようになるのに先立ってアキュムレータ・レジスタ・ファイル４７０の中のデータをドレーンすることを発行待ち行列３３０に通知することを含む。一態様では、順番に発行するために、同じ一群の主レジスタ・ファイル・エントリに書き込む命令にマークが付けられる。

１つまたは複数の実施形態では、アキュムレータ・レジスタ・ファイル４７０を利用するデンス・マス命令が、好ましくはレジスタ番号によって、一態様では命令のタイプによって、発行待ち行列３３０から順番に発行される。一態様では、アキュムレータ・レジスタ・ファイルを利用するデンス・マス命令の発行率が、（２サイクル以上かかることがあるアキュムレータ・レジスタ・ファイルを用意するために発行される最初の命令を除いて）１サイクル当たり１つである。アキュムレータ・レジスタ・ファイルを利用する命令は、順番にかつ連続的に発行されることが好ましい。アキュムレータ・レジスタ・ファイルを利用するより古い命令がある場合、発行待ち行列は、そのより古い命令を発行することができる。これは、より古い命令は、主レジスタ・ファイルの読出しまたは書込みを実行するが、主レジスタ・ファイルに書き戻すためにアキュムレータ・レジスタ・ファイルの中のデータをプッシュすることができるまで、アキュムレータ・レジスタ・ファイルは、アキュムレータ・レジスタ・ファイルだけを更新するためである。

１つまたは複数の実施形態では、アキュムレータ・レジスタ・ファイルを用意すべきである。１つまたは複数の実施形態では、必要に応じて、それぞれのアキュムレータ・レジスタ・ファイルが用意される。アキュムレータ・レジスタ・ファイルがデータ・ソースである場合には、アキュムレータ・レジスタ・ファイルを利用するデンス・マス演算、例えばＭＭＡ演算を開始するために、アキュムレータ・レジスタ・ファイル、特に、データを利用するアキュムレータ・レジスタ・ファイル・エントリを用意すべきである。アキュムレータ・レジスタ・ファイルは、メモリ、例えば主レジスタ・ファイルもしくは主メモリまたはその両方からアキュムレータ・レジスタ・ファイルに書き込まれるときに、あるいはプライミング命令の結果として用意される。例えば、命令、例えばｘｘｍｔａｃｃは、アキュムレータ・レジスタ・ファイルと主（ＶＳ）レジスタ・ファイルとを同期させるために、データを、主（ＶＳ）レジスタ・ファイルからアキュムレータ・レジスタ・ファイルに移動させることができる。別の例において、命令、例えばｌｘａｃｃは、データをロードし、主メモリからアキュムレータ・レジスタ・ファイルに移動させることができる。さらなる例では、アキュムレータ・レジスタ・ファイルの１つまたは複数のエントリの中のデータがゼロにセットされている場合に、アキュムレータ・レジスタ・ファイルが用意される。アキュムレータ・レジスタ・ファイルを用意する他の命令も企図される。

一実施形態では、ベクトル・スカラ（ＶＳ）実行ユニット（ＶＳＵ）が、主（ＶＳ）レジスタ一次データおよびプライミングを実行している命令のｉＴａｇを、適切なアキュムレータ・レジスタ・ファイル・エントリに書き込む。アキュムレータ・レジスタ・ファイルのプライミングはさらに、アキュムレータ・レジスタ・リネームを割り振る。プライミングにおいて、アキュムレータ・レジスタ・ターゲットはリネームされ、物理レジスタ・ファイル・エントリにマップされる。図５を参照すると、プライミングの一例の間に、アキュムレータ・レジスタ・リネームが割り振られ、エントリ３８１（ａ）～３８１（ｄ）の中のＶＳレジスタ・データが、割り振られたアキュムレータ・レジスタ・エントリ４７１に書き込まれる。１つまたは複数の実施形態では、ＶＳ実行ユニットが、主（ＶＳ）レジスタ・ファイル・データおよびプライミングを実行している命令のｉＴａｇを、マップされたアキュムレータ・レジスタ・ファイルに書き込む。１つまたは複数の実施形態では、アキュムレータ・フリー・リスト４７２が、割り振られたフリー・アキュムレータ・タグのカウントを維持する。これらのアキュムレータ・タグは、アキュムレータ・レジスタ・ファイル・エントリを識別する。一態様では、アキュムレータ・レジスタ・ファイル・エントリが現在アクティブであることを示すために、アキュムレータ・レジスタ・ファイル・ビジー・フラグが使用される。全てのアキュムレータ・レジスタ・ファイル・エントリが占有されたとき、ディスパッチは、主レジスタ・リソースの機能停止と同様に機能を停止する。

１つまたは複数の実施形態では、アキュムレータ・レジスタ・ファイルを利用する命令が最初に発行されるときに、アキュムレータ・レジスタ・ファイルを用意するのに連続する２サイクルがかかる。一実施形態では、アキュムレータ・ビジー・フラグがセットされていない場合に、命令を発行するのに２サイクルかかる。これは、アキュムレータ・レジスタ・ファイルを用意／再用意する必要があり、また、主レジスタ・ファイルは、ソースとしてのアキュムレータ・レジスタ・ファイルを読む必要があるためである。アキュムレータ・レジスタ・ファイルを利用する命令が２回目に発行されるときには、発行するのに１サイクルかかることが好ましい。アキュムレータ・レジスタのプライミングおよびデプライミング中には、それぞれのアキュムレータ・レジスタ・ファイル・エントリに対して、多数の主レジスタ・ファイル・タグ、例えば４つの主レジスタ・ファイル・タグが１ショットで発行される。

デンス・マス演算では、サイクルごとに、アキュムレータ・レジスタ・ファイルが主（ＶＳ）レジスタ・ファイルに読み書きされることはない。その代わりに、アキュムレータ・レジスタ・ファイルを使用することによって、大きなデータ結果が、デンス・マス・エンジン、例えばＭＭＡユニットにとってローカルのまま維持される。すなわち、ＭＭＡユニット演算はアキュムレータ・レジスタ・ファイルに書き戻される。一態様では、同じアキュムレータ・レジスタ・ファイルに多数回、例えば複数回、書き込まれる。一実施形態では、アキュムレータ・レジスタ・ファイル・エントリが、全ての命令でリネームされない。１つまたは複数の実施形態では、ＭＭＡ演算の間、アキュムレータ・レジスタ・ファイルが、ソースおよびターゲット（アキュムレータ）として利用される。図５のループ４７５は、アキュムレータ・レジスタ４７０内の同じターゲット・エントリ４７１に再び書込むＭＭＡユニットの動作を示している。

それぞれのＭＭＡユニット命令は、単一のアキュムレータ・レジスタ・ファイル・エントリに書込みを実行し、ターゲットアキュムレータ・レジスタ・エントリの状態をダーティ（dirty）にセットする。ダーティは、アキュムレータ・レジスタ・ファイル・エントリと対応する主（ＶＳ）レジスタ・ファイル・エントリとが同期していないことを示す。ＭＭＡユニット命令、例えば「ｇｅｒ」命令に関して、アキュムレータ・レジスタ・ファイルは結果を記憶し、主（ＶＳ）レジスタ・ファイルは結果を記憶しない。データは、主実行ユニット内、例えばＶＳＵ内の主レジスタ・ファイルに書き戻されず、その一方で、主実行ユニットは、発行待ち行列から新たな命令を受け取ったときに、アキュムレータ・レジスタ・ファイルｉＴａｇを更新する。アキュムレータ・レジスタ・ファイル・エントリを利用する命令に関して、アキュムレータ・レジスタ・ファイルを利用するより若い命令のｉＴａｇは、より古いｉＴａｇに取って代わるが、主レジスタ・ファイル・タグ（ＲＦＴａｇ）は変化しない。

いくつかのシナリオに応答して、アキュムレータ・レジスタ・ファイルは用意解除され、アキュムレータ・レジスタ・ファイルのデータは書き戻される。一実施形態では、命令に応答して、もしくはアキュムレータ・レジスタがダーティとなった後に主（ＶＳ）レジスタ・ファイルがソースとされた場合に、またはその両方で、アキュムレータ・レジスタ・ファイルが書き戻され、もしくは用意解除され、またはその両方が実行される。例えば、アキュムレータ・レジスタから主（ＶＳ）レジスタ・ファイルに移動する命令、例えばｘｘｍｆａｃｃに応答して、アキュムレータ・レジスタ・ファイルは用意解除され、アキュムレータ・レジスタ・ファイルの中の結果は、アキュムレータ・レジスタ・ファイルから移動され、主（ＶＳ）レジスタ・ファイルに書き戻される。別の例では、アキュムレータ・レジスタ・ファイルから移動し、記憶する命令、例えばｓｔｘａｃｃに応答して、アキュムレータ・レジスタ・ファイルは用意解除され、アキュムレータ・レジスタ・ファイルの中の結果は主メモリに書き戻される。１つまたは複数の実施形態では、アキュムレータ・レジスタ・ファイル・エントリがダーティであり、主（ＶＳ）レジスタ・ファイルによってアクセスされたときに、ハードウェアがアキュムレータ・レジスタを用意解除する。一実施形態では、ハードウェアが、全てのアキュムレータ・レジスタを主（ＶＳ）レジスタ・ファイルに書き戻すシーケンスをランする。一態様では、それぞれのアキュムレータ・レジスタ・ファイル・エントリが用意解除され、アキュムレータ・レジスタ・ファイルの中のデータが主ＶＳレジスタ・ファイルに書き込まれ、さらに、リネーム・プールから、アキュムレータ・レジスタ・ファイルの割振りが解除される。１つまたは複数の実施形態では、アキュムレータ・レジスタが用意され、主（ＶＳ）レジスタ・ファイルがターゲットとされた場合には、たとえアキュムレータ・レジスタがダーティでなかった場合でも、アキュムレータ・レジスタが用意解除される。

より若い主実行ユニット命令、例えばＶＳＵ命令が、アクティブなアキュムレータ・レジスタ・ファイルにマップされた主レジスタ・ファイルに接触したことに応答して、一実施形態では、影響を受けたアキュムレータ・レジスタ・ファイル・エントリの書戻しを開始するよう、発行待ち行列に合図が送られる。好ましい一実施形態では、これを、命令ストリームに挿入された一連の内部演算の実行によって実行することができる。一態様では、アキュムレータ・レジスタがドレーンされるまで、発行待ち行列が、ディスパッチ・ユニットを停止する。すなわち、アキュムレータ・レジスタ・ファイルは、データを、対応する主レジスタ・ファイル・エントリに書き戻す。一態様では、データを主レジスタ・ファイルに書き戻すのに多くのサイクルがかかり、例えば、アキュムレータ・レジスタ・ファイル・エントリが４つの主レジスタ・ファイル・エントリにマップされている場合には４サイクルがかかる。主実行ユニット、例えばＶＳＵは、アキュムレータ・レジスタ・ファイル・データの最後の部分が書き戻されると、書戻しを終了する。書戻しが完了すると、「ＡＣＣビジー」フラグがリセットされる（クリアされる）。アキュムレータ・レジスタ・ファイルを利用するデンス・マス命令は単一の命令であり、命令完了テーブル（ＩＣＴ）３２５の１つのエントリをとる。アキュムレータ・レジスタ・ファイルの中のデータの最後の部分が主レジスタ・ファイルに書き戻されたときに、アキュムレータ・レジスタ命令は完了となる。主レジスタ・ファイル・エントリ（ＲＦＴａｇｓ）の割振りを解除するため、完了した命令のｉＴａｇは、履歴バッファ（図４には示されていない）に一斉送信される。プロセッサは次いで、より若い非デンス・マス命令を処理する。この処理は、主レジスタ・ファイルからデータを読み出すことを含む。さらに、アキュムレータ・レジスタ・ファイルがドレーンされ、ＡＣＣビジー・フラグがクリアされた後、発行待ち行列は、命令の発行を再開することができ、ディスパッチ・ユニットは、命令のディスパッチを再開することができる。

一態様では、デンス・マス命令、例えば「ｇｅｒ」命令が、（例えばｘｘｍｔａｃｃまたはｌｄａｃｃによる）最後の用意解除以後、用意されなかったアキュムレータ・レジスタ・ファイルをソースとするときに、ハードウェアが、そのアキュムレータ・レジスタ・ファイル・エントリを用意する。ハードウェアは、アキュムレータ・レジスタ・ファイルを用意し、アキュムレータ・レジスタ・ファイル・エントリを割り振る（リネーム）シーケンスをランする。次いでデンス・マス命令が実行される。

図６は、ローカル・アキュムレータ・レジスタ・ファイルに関連づけられた１つまたは複数のデンス・マス実行ユニット、例えば行列乗算アキュムレータ（ＭＭＡ）ユニットを有するプロセッサの別の実施形態を示しており、このプロセッサは、１つまたは複数のデンス・マス・ユニットの動作が同じアキュムレータ・レジスタ・ファイル・エントリに結果を多数回、書き戻すように構成されている。図６は、データをハンドリングするためのプロセッサの２つのスーパー・スライスを示している。それぞれのスーパー・スライスは、少なくとも１つのＭＭＡユニット４６０、２つのベクトル・スカラ（ＶＳ）実行ユニット３０６、および２つのロード記憶（ＬＳ）ユニット３０４を含む。両方のＭＭＡユニット４６０に接続された単一のアキュムレータ・レジスタ・ファイル４７０が使用される。代替実施形態では、それぞれの実行スライスが、ローカル・アキュムレータ・レジスタ・ファイルを有するそれ自体のＭＭＡユニットを有することができ、さらなる態様では、それぞれのＭＭＡユニットが、それぞれの実行スライスのＭＭＡユニット内に含まれるアキュムレータ・レジスタ・ファイルを有する。図６の実施形態では、スーパー・スライス０の発行待ち行列（ＩＳＱ）１３３０ｂおよびスーパー・スライス１の発行待ち行列（ＩＳＱ）２３３０ｃが、対応するそれぞれのＭＭＡユニット（４６０ａおよび４６０ｂ）に命令、例えば「ｇｅｒ」命令を発行する。あるいは、図６の点線によって示されているように、発行待ち行列（ＩＳＱ）０３３０ａおよび発行待ち行列（ＩＳＱ）３３３０ｄが、対応するそれぞれのスーパー・スライスのそれぞれのＭＭＡユニット（４６０ａおよび４６０ｂ）に命令、例えば「ｇｅｒ」命令を発行することができる。

図７は、プロセッサ内でデータをハンドリングする方法、例えばプロセッサ内で命令を実行する方法を示し説明する、一実施形態による例示的な流れ図であり、一実施形態では、この方法が、本開示の一実施形態に従ってプロセッサ内でデンス・マス命令、例えばＭＭＡ（「ｇｅｒ」）命令を処理およびハンドリングすることを含む。方法７００は、便宜上、および本開示を限定する意図なしに、一連のステップもしくはいくつかのステップまたはその両方を含むものとして説明されているが、このプロセスを一連のステップとして実行する必要はなく、もしくはそれらのステップを、図７に関して示され説明された順序で実行する必要はなく、またはこの両方を実行する必要はないが、このプロセスを統合することができ、または１つもしくは複数のステップを一緒に同時に実行することができ、あるいはこの両方を実行することができ、あるいは、これらのステップを、開示された順序でもしくは交互の順序で実行することができることを理解すべきである。

図７の方法７００は、プロセッサ内でデータを処理することに関し、より詳細には、デンス・マス実行ユニット、例えばＭＭＡ実行ユニットを使用することによってデンス・マス演算をハンドリングすることに関する。７０５で、デンス・マス実行ユニットが提供される。一例では、デンス・マス実行ユニットが行列乗算アキュムレータ（ＭＭＡ）ユニットである。１つまたは複数の例では、デンス・マス実行ユニットを、推論エンジンとして構成された多数のＭＭＡユニットとすることができる。他のデンス・マス実行ユニットも企図される。１つまたは複数の実施形態では、７１０で、デンス・マス実行ユニットに関連づけられたアキュムレータ・レジスタ・ファイルが提供される。一実施形態では、このアキュムレータ・レジスタ・ファイルが、１つまたは複数のデンス・マス実行ユニットにとってローカルであり、一態様では、アキュムレータ・レジスタ・ファイルがＭＭＡユニット内にある。アキュムレータ・レジスタ・ファイルは、プロセッサ内の主レジスタ・ファイルのビット・フィールド幅よりも広いビット・フィールド幅を有することが好ましい。一実施形態では、アキュムレータ・レジスタ・ファイルの幅が５１２ビットであり、プロセッサ内の主レジスタ・ファイルの幅が１２８ビットである。一態様によれば、アキュムレータ・レジスタ・ファイルに２つ以上の主レジスタ・ファイル・エントリがマップされている。例えば、４つの連続した主レジスタ・ファイルが１つのアキュムレータ・レジスタ・ファイルにマップされている。

１つまたは複数の実施形態では、デンス・マス実行ユニット演算のための命令に応答して、７１５で、アキュムレータ・レジスタ・ファイルが用意される。例えば、アキュムレータ・レジスタ・ファイルが、デンス・マス実行ユニット演算のためのソースである場合に、アキュムレータ・レジスタ・ファイルを用意する。一実施形態では、アキュムレータ・レジスタ・ファイルを用意することが、アキュムレータ・レジスタ・ファイルの中のデータを、主レジスタ・ファイル、例えばＶＳレジスタ・ファイルの中にあるデータ、または主メモリの中にあるデータと同期させることを含む。アキュムレータ・レジスタ・ファイルを用意することはさらに、アキュムレータ・レジスタ・ファイルの中のデータを消去すること、例えば、アキュムレータ・レジスタ・ファイル・エントリの中のデータを０にセットすることを含むことができる。１つまたは複数の実施形態では、デンス・マス命令、例えば「ｇｅｒ」命令が、アキュムレータ・レジスタ・ファイル・ソース・データを持たないことができ、そのデンス・マス命令はセルプライミングであるとみなされる。アキュムレータ・レジスタ・ファイルは、そのアキュムレータ・レジスタ・ファイルに、主レジスタ・ファイルから、または主メモリから、またはセルプライミング命令の結果として、最初に書込みがなされたときに、用意される（アキュムレータ・レジスタ・ファイル・エントリの中のデータがゼロにセットされている場合）。１つまたは複数の実施形態では、アキュムレータ・レジスタ・ファイルがアキュムレータ・レジスタ・ファイル・リネームを割り振り、アキュムレータ・ファイルが用意され、アキュムレータ・レジスタ・ファイルの中のデータの値が、主レジスタ・ファイルの中の値にセットされ、または主メモリの中の値にセットされ、またはゼロにセットされる。

１つまたは複数の実施形態では、７２０で、デンス・マス実行ユニット、例えばＭＭＡ、もしくは推論エンジン、またはその両方が、デンス・マス演算を経る。すなわち、１つまたは複数のデンス・マス実行ユニット、例えば推論エンジンもしくはＭＭＡユニットまたはその両方を使用してデンス・マス演算が実行される。一実施形態では、７２５で、デンス・マス実行ユニットの結果、例えば推論エンジン結果もしくはＭＭＡユニット結果またはその両方が、アキュムレータ・レジスタ・ファイルに書き戻される。すなわち、デンス・マス実行ユニット演算の間、アキュムレータ・レジスタ・ファイルはソースとターゲットの両方として使用される。デンス・マス実行ユニットの結果は、リネームすることなく、同じターゲットアキュムレータ・レジスタ・ファイルに多数回、書き戻されることが好ましい。すなわち、一実施形態では、単一のアキュムレータ・レジスタ・ファイル・ターゲット・リネームに多数回、再書込みすることができる。１つまたは複数の態様では、デンス・マス実行ユニット命令、例えば「ｇｅｒ」命令に応答して、主レジスタ・ファイルへの書戻しが実行されず、その代わりに、デンス・マス実行ユニット、例えばＭＭＡユニットにとってローカルなアキュムレータ・レジスタが結果を記憶し、主レジスタ・ファイルは結果を記憶しない。このように、デンス・マス実行ユニット、例えば推論エンジンもしくはＭＭＡユニットまたはその両方は、主レジスタ・ファイル・エントリをリネームすることなく動作する。一実施形態では、デンス・マス実行ユニットが結果をアキュムレータ・レジスタに書き戻したことに応答して、アキュムレータ・レジスタ・ファイル・エントリにフラグが立てられまたはマークが付けられる。例えばダーティのマークが付けられる。

１つまたは複数の実施形態では、７３０で、アキュムレータ・レジスタ・ファイル結果が、主レジスタ・ファイルもしくは主メモリまたはその両方に書き戻される。一実施形態では、デンス・マス実行ユニット演算が完了したときに、アキュムレータ・レジスタ・ファイルの結果が、主レジスタ・ファイルもしくは主メモリまたはその両方に書き戻される。一実施形態では、アキュムレータ・レジスタが用意解除され、アキュムレータ・レジスタ・ファイルの中の値が主レジスタ・ファイル（または主メモリ）に書き込まれ、アキュムレータ・レジスタ・ファイル・エントリの割振りが解除される。一実施形態によれば、命令に応答して、例えば、アキュムレータ・レジスタ・ファイル・エントリから主レジスタ・ファイルに移動する命令（ｘｘｍｆａｃｃ）、およびアキュムレータ・レジスタ・ファイル・エントリから移動し、命令を記憶する命令（ｓｔｘａｃｃ）に応答して、主レジスタ・ファイルに書き戻される。アキュムレータ・レジスタ・ファイル・エントリにマップされた主レジスタ・ファイル・エントリがソースまたはターゲットとされ、アキュムレータ・レジスタ・ファイル・エントリがダーティであるときにも、アキュムレータ・レジスタの結果は主レジスタ・ファイルに書き戻される。一態様では、定義された読出しアキュムレータ命令が、データを、アキュムレータ・レジスタ・ファイルから主レジスタ・ファイルに移動させる。一実施形態では、アキュムレータが読まれた後に、一連の記憶動作、例えば「オクト／カッド語」記憶動作が、主レジスタ・ファイルを読み、主メモリに書き込む。

一実施形態では、アキュムレータ・レジスタ・ファイル・エントリがダーティであり、アキュムレータ・レジスタ・ファイル・エントリが主レジスタによってアクセスされたときに、ハードウェアが、アキュムレータ・レジスタ・ファイルを用意解除する。一態様では、マップされたアキュムレータ・レジスタ・エントリが用意されたときに、主レジスタ・ファイル・エントリがターゲットとされたときには、たとえアキュムレータ・レジスタがダーティでなかった場合でも、ハードウェアがアキュムレータ・レジスタを用意解除する。ハードウェアは、全てのアキュムレータ・レジスタ・ファイル・エントリを主レジスタ・ファイルに書き戻すシーケンスをランし、主レジスタ・ファイル・エントリをターゲットとする動作が実行され、リネーム・プールから、それぞれのアキュムレータ・レジスタ・ファイル・エントリの割振りが解除される。

一態様では、デンス・マス命令、例えば「ｇｅｒ」命令が、（例えばｘｘｍｔａｃｃまたはｌｄａｃｃによる）最後の用意解除以後、用意されなかったアキュムレータ・レジスタ・ファイルをソースとするときに、ハードウェアが、そのアキュムレータ・レジスタ・ファイル・エントリを用意する。一態様では、ハードウェアが、アキュムレータ・レジスタ・ファイルを用意し、アキュムレータ・レジスタ・ファイル・エントリを割り振る（リネーム）シーケンスをランする。次いでデンス・マス命令が実行される。

上で説明した例示的な実施形態は、プロセッサのユニット内および回路内など、ハードウェア内で実施されることが好ましいが、例示的な実施形態のさまざまな態様をソフトウェアで実施することもできる。例えば、図７に示された流れ図のそれぞれのブロックおよび流れ図の中のブロックの組合せを、コンピュータ・プログラム命令によって実施することができることが理解される。これらのコンピュータ・プログラム命令を、プロセッサまたは他のプログラム可能データ処理装置に提供して、プロセッサ上または他のプログラム可能データ処理装置上で実行される命令が、流れ図の１つまたは複数のブロックの中に指定された機能を実施する手段を生成するようなマシンを生み出すことができる。これらのコンピュータ・プログラム命令を、特定の方式で機能するようプロセッサまたは他のプログラム可能データ処理装置に指示することができるコンピュータ可読メモリまたはストレージ媒体に記憶して、コンピュータ可読メモリまたはストレージ媒体に記憶された命令が、流れ図の１つまたは複数のブロックの中に指定された機能を実施する命令手段を含む製品を生成するようにすることもできる。

したがって、この流れ図のブロックは、指定された機能を実行する手段の組合せ、指定された機能を実行するステップの組合せ、および指定された機能を実行するプログラム命令手段をサポートする。指定された機能もしくはステップを実行するハードウェアベースの専用コンピュータ・システムによって、または専用ハードウェアとコンピュータ命令の組合せによって、流れ図のそれぞれのブロックおよび流れ図のブロックの組合せを実施することができることも理解される。

本発明は、インテグレーションの可能な技術的詳細レベルにおいて、システム、方法もしくはコンピュータ・プログラム製品、またはこれらの組合せであることがある。コンピュータ・プログラム製品は、本発明の態様をプロセッサに実行させるためのコンピュータ可読プログラム命令をその上に有するコンピュータ可読ストレージ媒体を含むことがある。

このコンピュータ可読ストレージ媒体は、命令実行デバイスが使用するための命令を保持および記憶することができる有形のデバイスとすることができる。このコンピュータ可読ストレージ媒体は例えば、限定はされないが、電子ストレージ・デバイス、磁気ストレージ・デバイス、光学ストレージ・デバイス、電磁気ストレージ・デバイス、半導体ストレージ・デバイスまたはこれらの適当な組合せとすることができる。コンピュータ可読ストレージ媒体のより具体的な例の非網羅的なリストは、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ（ＲＡＭ）、リードオンリー・メモリ（ＲＯＭ）、消去可能なプログラマブル・リードオンリー・メモリ（ＥＰＲＯＭまたはフラッシュ・メモリ）、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）、ポータブル・コンパクト・ディスク・リードオンリー・メモリ（ＣＤ－ＲＯＭ）、デジタル・バーサタイル・ディスク（ＤＶＤ）、メモリ・スティック、フロッピー（Ｒ）・ディスク、機械的にコード化されたデバイス、例えばパンチカードまたはその上に命令が記録された溝の中の一段高くなった構造体、およびこれらの適当な組合せを含む。本明細書で使用されるとき、コンピュータ可読ストレージ媒体は、それ自体が一過性の信号、例えば電波もしくは他の自由に伝搬する電磁波、ウェーブガイドもしくは他の伝送体内を伝搬する電磁波（例えば光ファイバ・ケーブル内を通る光パルス）、または電線を通して伝送される電気信号であると解釈されるべきではない。

本明細書に記載されたコンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体から対応するそれぞれのコンピューティング／処理デバイスにダウンロードすることができ、またはネットワーク、例えばインターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワークもしくは無線ネットワークまたはこれらの組合せを介して外部コンピュータもしくは外部ストレージ・デバイスにダウンロードすることができる。このネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータもしくはエッジ・サーバ、またはこれらの組合せを含むことができる。それぞれのコンピューティング／処理デバイス内のネットワーク・アダプタ・カードまたはネットワーク・インタフェースは、コンピュータ可読プログラム命令をネットワークから受信し、それらのコンピュータ可読プログラム命令を、対応するそれぞれのコンピューティング／処理デバイス内のコンピュータ可読ストレージ媒体に記憶するために転送する。

本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、もしくは集積回路用のコンフィギュレーション・データであってもよく、またはＳｍａｌｌｔａｌｋ（Ｒ）、Ｃ＋＋などのオブジェクト指向プログラミング言語、および「Ｃ」プログラミング言語または同種のプログラミング言語などの手続き型プログラミング言語を含む、１つまたは複数のプログラミング言語の任意の組合せで書かれた、ソース・コードもしくはオブジェクト・コードであってもよい。このコンピュータ可読プログラム命令は、全体がユーザのコンピュータ上で実行されてもよく、一部がユーザのコンピュータ上で実行されてもよく、独立型ソフトウェア・パッケージとして実行されてもよく、一部がユーザのコンピュータ上で、一部がリモート・コンピュータ上で実行されてもよく、または全体がリモート・コンピュータもしくはリモート・サーバ上で実行されてもよい。上記の最後のシナリオでは、リモート・コンピュータが、ローカル・エリア・ネットワーク（ＬＡＮ）もしくはワイド・エリア・ネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを介してユーザのコンピュータに接続されてもよく、またはこの接続が、外部コンピュータに対して（例えばインターネット・サービス・プロバイダを使用してインターネットを介して）実施されてもよい。いくつかの実施形態では、本発明の態様を実施するために、例えばプログラム可能論理回路、フィールドプログラマブル・ゲート・アレイ（ＦＰＧＡ）またはプログラム可能論理アレイ（ＰＬＡ）を含む電子回路が、このコンピュータ可読プログラム命令の状態情報を利用してその電子回路をパーソナライズすることにより、このコンピュータ可読プログラム命令を実行してもよい。

本明細書では、本発明の態様が、本発明の実施形態による方法、装置（システム）およびコンピュータ・プログラム製品の流れ図もしくはブロック図またはその両方の図を参照して説明される。それらの流れ図もしくはブロック図またはその両方の図のそれぞれのブロック、およびそれらの流れ図もしくはブロック図またはその両方の図のブロックの組合せは、コンピュータ可読プログラム命令によって実施することができることが理解される。

これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータのプロセッサ、または機械を形成する他のプログラム可能データ処理装置のプロセッサに、それらのコンピュータのプロセッサまたは他のプログラム可能データ処理装置のプロセッサによって実行されるこれらの命令が、これらの流れ図もしくはブロック図またはその両方の図のブロックに指定された機能／動作を実施する手段を生成するような態様で、提供することができる。これらのコンピュータ可読プログラム命令はさらに、特定の方式で機能するようにコンピュータ、プログラム可能データ処理装置もしくは他のデバイスまたはこれらの組合せに指図することができるコンピュータ可読ストレージ媒体に、その中に命令が記憶されたコンピュータ可読ストレージ媒体が、これらの流れ図もしくはブロック図またはその両方の図のブロックに指定された機能／動作の態様を実施する命令を含む製品を含むような態様で、記憶することができる。

これらのコンピュータ可読プログラム命令はさらに、コンピュータ、他のプログラム可能装置または他のデバイス上で一連の動作ステップを実行させて、コンピュータによって実施されるプロセスを生み出すために、このコンピュータ、他のプログラム可能データ処理装置または他のデバイス上に、このコンピュータ、他のプログラム可能装置または他のデバイス上で実施されるこれらの命令が、これらの流れ図もしくはブロック図またはその両方の図のブロックに指定された機能／動作を実施するような態様で、ロードすることができる。

添付図中の流れ図およびブロック図は、本発明のさまざまな実施形態によるシステム、方法およびコンピュータ・プログラム製品の可能な実施態様のアーキテクチャ、機能および動作を示す。この点に関して、それらの流れ図またはブロック図のそれぞれのブロックは、指定された論理機能を実施する１つまたは複数の実行可能命令を含む、命令のモジュール、セグメントまたは部分を表すことがある。いくつかの代替実施態様では、ブロックに示された機能を、図に示された順序とは異なる順序で実行することができる。例えば、連続して示された２つのブロックが、実際は、実質的に同時に実行されることがあり、または、含まれる機能によってはそれらのブロックが時に逆の順序で実行されることもある。それらのブロック図もしくは流れ図またはその両方の図のそれぞれのブロック、ならびにそれらのブロック図もしくは流れ図またはその両方の図のブロックの組合せを、指定された機能もしくは動作を実行しまたは専用ハードウェアとコンピュータ命令の組合せを実施するハードウェアベースの専用システムによって実施することができることにも留意すべきである。

さらに、さまざまな実施形態によるシステムは、プロセッサおよび論理を含むことができ、この論理は、プロセッサと統合されており、もしくはプロセッサによって実行可能であり、またはその両方である。この論理は、本明細書に記載されたプロセス・ステップのうちの１つまたは複数のプロセス・ステップを実行するように構成されている。統合されているという表現は、プロセッサが、それとともに埋め込まれた論理を、特定用途向け集積回路（ＡＳＩＣ）、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）などのハードウェア論理として有することを意味する。プロセッサによって実行可能であるという表現は、その論理が、プロセッサによってアクセス可能であり、プロセッサによって実行されたときになんらかの機能をプロセッサに実行させるように構成された、ハードウェア論理；ファームウェア、オペレーティング・システムの部分、アプリケーション・プログラムの部分などのソフトウェア論理；など、またはハードウェア論理とソフトウェア論理のなんらかの組合せであることを意味する。ソフトウェア論理は、当技術分野で知られている任意のメモリ・タイプのローカルおよび／またはリモート・メモリ上に記憶されたものとすることができる。ソフトウェア・プロセッサ・モジュールもしくはハードウェア・プロセッサまたはその両方などの当技術分野で知られている任意のプロセッサ、例えばＡＳＩＣ、ＦＰＧＡ、中央処理ユニット（ＣＰＵ）、集積回路（ＩＣ）、グラフィック処理ユニット（ＧＰＵ）などを使用することができる。

上述のシステムもしくは方法またはその両方のさまざまな機能を任意の形で組み合わせて、複数の組合せを生み出すことができることは、上に示した説明から明らかである。

さらに、本発明の実施形態は、要求に応じてサービスを提供するために、顧客のために展開されるサービスの形態で提供されることがあることが理解される。

本発明のさまざまな実施形態の説明は例示のために示したものであり、それらの説明が網羅的であること、または開示された実施形態に限定されることは意図されていない。当業者には、記載された実施形態の範囲および思想を逸脱しない多くの変更および変形が明らかとなろう。本明細書で使用されている用語は、実施形態の原理、実際的用途、もしくは市場に出ている技術には見られない技術的改良を最もうまく説明するように、または本明細書に開示された実施形態を他の当業者が理解することができるように選択した。

Claims

情報を処理するためのコンピュータ・システムであって、前記コンピュータ・システムが、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに関連づけられた主レジスタ・ファイルであり、前記主レジスタ・ファイルが、データを記憶するための複数のエントリ、主レジスタ・ファイル・エントリにデータを書き込むための１つまたは複数の書込みポート、および前記主レジスタ・ファイル・エントリからデータを読み出すための１つまたは複数の読出しポートを有する、前記主レジスタ・ファイルと、
デンス・マス実行ユニットを含む１つまたは複数の実行ユニットと、
データを記憶するための複数のエントリを有する少なくとも１つのアキュムレータ・レジスタ・ファイルであり、前記少なくとも１つのアキュムレータ・レジスタ・ファイルが前記デンス・マス実行ユニットに関連づけられている、前記少なくとも１つのアキュムレータ・レジスタ・ファイルと
を備え、前記プロセッサが、前記デンス・マス実行ユニット内でデータを処理するように構成されており、前記デンス・マス実行ユニットの結果が前記アキュムレータ・レジスタ・ファイルに書き込まれる、
コンピュータ・システム。
前記プロセッサが、同じアキュムレータ・レジスタ・ファイル・エントリに結果を多数回、書き戻すように構成されている、請求項１に記載のコンピュータ・システム。
前記プロセッサが、前記アキュムレータ・レジスタ・ファイルから前記主レジスタ・ファイルにデータを書き込むように構成されている、請求項１に記載のコンピュータ・システム。
前記プロセッサが、アキュムレータ・レジスタ・ファイルにマップされた主レジスタ・ファイル・エントリに命令がアクセスしたことに応答して、前記アキュムレータ・レジスタ・ファイルから複数の主レジスタ・ファイル・エントリにデータを書き込むように構成されている、請求項３に記載のコンピュータ・システム。
前記プロセッサが、データを受け取るように前記アキュムレータ・レジスタ・ファイルを用意するように構成されている、請求項１に記載のコンピュータ・システム。
前記プロセッサが、命令に応答して、前記アキュムレータ・レジスタ・ファイルにデータを記憶するように前記アキュムレータ・レジスタ・ファイルを用意するように構成されている、請求項５に記載のコンピュータ・システム。
アキュムレータ・レジスタ・ファイル・エントリを用意したことに応答して、前記プロセッサが、用意された前記アキュムレータ・レジスタ・ファイルにマップされた前記１つまたは複数の主レジスタ・ファイル・エントリにビジーのマークを付ける、請求項５に記載のコンピュータ・システム。
前記アキュムレータ・レジスタ・ファイルが、前記デンス・マス実行ユニットにとってローカルである、請求項１に記載のコンピュータ・システム。
前記デンス・マス実行ユニットが行列乗算アキュムレータ（ＭＭＡ）ユニットであり、前記アキュムレータ・レジスタ・ファイルが前記ＭＭＡ内に位置する、請求項８に記載のコンピュータ・システム。
前記アキュムレータ・レジスタ・ファイルのビット・フィールド幅が前記主レジスタ・ファイルのビット・フィールド幅よりも広い、請求項１に記載のコンピュータ・システム。
前記アキュムレータ・レジスタ・ファイルの中のそれぞれのエントリが複数の主レジスタ・ファイル・エントリにマップされている、請求項１０に記載のコンピュータ・システム。
前記プロセッサがベクトル・スカラ実行ユニット（ＶＳＵ）を備え、前記デンス・マス実行ユニットが行列乗算アキュムレータ（ＭＭＡ）ユニットであり、前記主レジスタ・ファイルが、前記ＶＳＵ内に位置するＶＳレジスタ・ファイルであり、前記アキュムレータ・レジスタ・ファイルが、複数の連続したＶＳレジスタ・ファイル・エントリにマップされている、請求項１に記載のコンピュータ・システム。
情報を処理するためのプロセッサであって、前記プロセッサが、
前記プロセッサに関連づけられた主レジスタ・ファイルであり、前記主レジスタ・ファイルが、データを記憶するための複数のエントリ、主レジスタ・ファイル・エントリにデータを書き込むための１つまたは複数の書込みポート、および前記主レジスタ・ファイル・エントリからデータを読み出すための１つまたは複数の読出しポートを有する、前記主レジスタ・ファイルと、
デンス・マス実行ユニットを含む１つまたは複数の実行ユニットと、
データを記憶するための複数のエントリを有する少なくとも１つのアキュムレータ・レジスタ・ファイルであり、前記少なくとも１つのアキュムレータ・レジスタ・ファイルが前記デンス・マス実行ユニットに関連づけられており、前記アキュムレータ・レジスタ・ファイルのビット・フィールド幅が前記主レジスタ・ファイルのビット・フィールド幅よりも広い、前記少なくとも１つのアキュムレータ・レジスタ・ファイルと
を備え、前記プロセッサが、同じアキュムレータ・レジスタ・ファイル・エントリに前記デンス・マス実行ユニットの結果が多数回、書き込まれるような方式で、前記デンス・マス実行ユニット内でデータを処理するように構成されており、
前記プロセッサが、多数回書き込まれた前記アキュムレータ・レジスタ・ファイル・エントリから前記主レジスタ・ファイル・エントリにデータを書き戻すように構成されている、
プロセッサ。
前記プロセッサがさらに、前記アキュムレータ・レジスタ・ファイルを用意し、同じアキュムレータ・レジスタ・ファイル・エントリに結果を複数回、書き込み、前記複数回書き込まれた前記アキュムレータ・レジスタ・ファイル・エントリを用意解除し、結果として得られたデータを、前記複数回書き込まれた前記アキュムレータ・レジスタ・ファイル・エントリから前記主レジスタ・ファイルに書き込み、用意解除された前記アキュムレータ・レジスタ・ファイル・エントリの割振りを解除するように構成されている、請求項１３に記載のプロセッサ。
前記プロセッサが、デンス・マス命令を処理したことに応答して、複数の主レジスタ・ファイル・エントリを単一のアキュムレータ・レジスタ・ファイル・エントリにマップするように構成されている、請求項１３に記載のプロセッサ。
前記プロセッサが、データを受け取るように前記アキュムレータ・レジスタ・ファイルを用意するように構成されている、請求項１３に記載のプロセッサ。
前記プロセッサが、前記複数のアキュムレータ・レジスタ・ファイル・エントリのうちの１つのアキュムレータ・レジスタ・ファイル・エントリに前記デンス・マス実行ユニットがデータを書き込んだことに応答して、前記アキュムレータ・レジスタ・ファイルにダーティのマークを付けるように構成されている、請求項１３に記載のプロセッサ。
前記１つまたは複数の実行ユニットがベクトル・スカラ・ユニット（ＶＳＵ）を備え、前記デンス・マス実行ユニットが行列乗算アキュムレータ（ＭＭＡ）ユニットであり、前記主レジスタ・ファイルが、前記ＶＳＵ内に位置するベクトル・スカラ（ＶＳ）レジスタ・ファイルであり、前記プロセッサが、複数の連続したＶＳレジスタ・ファイル・エントリを単一のアキュムレータ・レジスタ・ファイル・エントリにマップするように構成されている、請求項１３に記載のプロセッサ。
情報を処理するためのコンピュータ・システムであって、前記コンピュータ・システムが、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに関連づけられた主レジスタ・ファイルであり、前記主レジスタ・ファイルが、データを記憶するための複数のエントリ、主レジスタ・ファイル・エントリにデータを書き込むための１つまたは複数の書込みポート、および前記レジスタ・ファイル・エントリからデータを読み出すための複数の読出しポートを有する、前記主レジスタ・ファイルと、
デンス・マス実行ユニットを含む１つまたは複数の実行ユニットと、
データを記憶するための複数のエントリを有する少なくとも１つのアキュムレータ・レジスタ・ファイルであり、前記少なくとも１つのアキュムレータ・レジスタ・ファイルがデータを記憶するための複数のエントリを有し、前記少なくとも１つのアキュムレータ・レジスタ・ファイルが前記デンス・マス実行ユニットに関連づけられている、前記少なくとも１つのアキュムレータ・レジスタ・ファイルと、
１つまたは複数のコンピュータ可読ストレージ媒体と、
前記少なくとも１つのプロセッサによって実行するために前記１つまたは複数のコンピュータ可読ストレージ媒体上に記憶されたプログラム命令と
を備え、前記プログラム命令が、
前記デンス・マス実行ユニットが同じアキュムレータ・レジスタ・ファイル・エントリに結果を複数回、書き込むようなプログラム命令
を含む、コンピュータ・システム。
前記プロセッサがデンス・マス実行ユニット命令を処理したことに応答して、
単一のアキュムレータ・レジスタ・ファイル・エントリを複数の主レジスタ・ファイル・エントリにマップし、
同じアキュムレータ・レジスタ・ファイル・エントリに結果を複数回、書き込み、
前記複数回書き込まれた前記アキュムレータ・レジスタ・ファイル・エントリを用意解除し、
結果として得られたデータを、前記複数回書き込まれた前記アキュムレータ・レジスタ・ファイル・エントリから前記主レジスタ・ファイルに書き込み、
用意解除された前記アキュムレータ・レジスタ・ファイル・エントリの割振りを解除する
プログラム命令をさらに含む、請求項１９に記載のコンピュータ・システム。
プロセッサ内で命令を処理する方法であって、前記方法が、
デンス・マス実行ユニットに関連づけられたアキュムレータ・レジスタ・ファイルを提供すること、
前記デンス・マス実行ユニットを用いてデンス・マス演算を実行すること、および
前記デンス・マス実行ユニットを用いた前記デンス・マス演算の結果を前記アキュムレータ・レジスタ・ファイルに書き込むこと
を含む方法。
前記デンス・マス実行ユニットが、主レジスタ・ファイルに書き込むことなしに、前記アキュムレータ・レジスタ・ファイルの読出しおよび書込みを実行することをさらに含む、請求項２１に記載の方法。
デンス・マス実行ユニット演算の間、前記アキュムレータ・レジスタ・ファイルがソースとターゲットの両方である、請求項２１に記載の方法。
デンス・マス実行ユニット演算中に、同じアキュムレータ・レジスタ・ファイル・エントリに何回か書き込むことをさらに含む、請求項２１に記載の方法。
前記アキュムレータ・レジスタ・ファイルのデータを主レジスタ・ファイルに書き込むことをさらに含む、請求項２１に記載の方法。