JP7495194B2

JP7495194B2 - 積和演算用のプロセッサ・ユニット

Info

Publication number: JP7495194B2
Application number: JP2022533315A
Authority: JP
Inventors: レーンストラ、イエンチェ; ワグナー、アンドレアス; モレイラ、ホセ; トンプト、ブライアン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-12-05
Filing date: 2020-11-30
Publication date: 2024-06-04
Anticipated expiration: 2040-11-30
Also published as: CN114746840A; DE112020005055T5; GB202209610D0; US20210173662A1; JP2023505177A; WO2021111272A1; GB2606908A

Description

本発明はデジタル・コンピュータ・システムの分野に関し、より詳細には、１つまたは複数の積和（「ＭＡＣ：ｍｕｌｔｉｐｌｙａｎｄａｃｃｕｍｕｌａｔｅ」）演算のセットを実行するためのプロセッサ・ユニットに関する。

ＭＡＣ演算の計算は、ディープ・ニューラル・ネットワークのトレーニング、画像処理、他の機械学習技術など、多くのアルゴリズムで一般的に使用されている。たとえば、ディープ・ニューラル・ネットワークの場合、ＭＡＣ演算は活性化および勾配に関与し得る。しかしながら、ＭＡＣ演算の計算用の従来の電子システムは、リソース集約的であり得る。とりわけ、そのような演算を実行するための、エネルギー効率が高く、リソースを節約するアーキテクチャが必要である。

様々な実施形態は、独立請求項の主題によって記載した、１つまたは複数のＭＡＣ演算のセットを実行するためのプロセッサ・ユニット、方法、コンピュータ・プログラム製品、およびＭＡＣユニットを提供する。従属請求項に有利な実施形態を記載している。本発明の実施形態は、それらが相互に排他的でなければ、互いに自由に組み合わせることができる。

一態様では、本発明の実施形態は、積和（「ＭＡＣ」）演算用のプロセッサ・ユニットを開示する。一実施形態では、プロセッサ・ユニットは、ＭＡＣ演算のセットのうちのそれぞれのＭＡＣ演算のサブセットを実行するための複数のＭＡＣユニットを含み得る。一実施形態では、複数のＭＡＣユニットのうちの各ＭＡＣユニットは、それぞれの実行ユニットと、それぞれのワンライト・ワンリード（「１Ｗ／１Ｒ：ｏｎｅ－ｗｒｉｔｅｏｎｅ－ｒｅａｄ」）レジスタ・ファイルとを含み得る。一実施形態では、それぞれの１Ｗ／１Ｒレジスタ・ファイルは少なくとも１つのアキュムレータを有し得る。一実施形態では、プロセッサ・ユニットは、他のレジスタ・ファイルを含み得る。一実施形態では、各ＭＡＣユニットのそれぞれの実行ユニットは、他のレジスタ・ファイルから受け取った値のセットの積を計算し、計算された積をＭＡＣユニットの少なくとも１つのアキュムレータの内容に加算することによって、ＭＡＣ演算のセットのうちのそれぞれのＭＡＣ演算のサブセットを実行するように構成され得る。一実施形態では、各ＭＡＣユニットは、それぞれのＭＡＣ演算のサブセットを単一のクロック・サイクルで実行するように構成され得る。

有利な実施形態では、複数のＭＡＣユニットのうちの各ＭＡＣユニットは関連付けられたインデックスを含み得る。それに応じて、各ＭＡＣユニットは、関連付けられたインデックスを参照するプロセッサ命令を実行することによって、それぞれのＭＡＣ演算のサブセットを実行するように構成され得る。

有利な実施形態では、関連付けられたインデックスは、各ＭＡＣユニットの少なくとも１つのアキュムレータの設計されたアキュムレータ・レジスタ・インデックスを含み得る。

有利な実施形態では、少なくとも１つのアキュムレータはそれぞれのアキュムレータ要素を含み得、計算された積はそれぞれのアキュムレータ要素の内容に加算され得る。有利な実施形態では、各ＭＡＣユニットは、少なくとも１つのアキュムレータのそれぞれのアキュムレータ要素を使用して、ＭＡＣ演算のセットのうちのそれぞれのＭＡＣ演算のサブセットを実行するように構成され得る。

有利な実施形態では、プロセッサ・ユニットは、ディスパッチ／発行ユニットを含み得る。有利な実施形態では、ディスパッチ／発行ユニットは、複数のプロセッサ命令を処理し、関連付けられたインデックスを使用してＭＡＣユニットを選択し、ＭＡＣ演算のセットを実行するために選択されたＭＡＣユニットにそれぞれのプロセッサ命令のセットを送るように構成され得る。有利な実施形態では、ディスパッチ／発行ユニットはその中にＭＡＣユニットを含み得る。

有利な実施形態では、それぞれのプロセッサ命令のセットは、少なくとも１つのオペランドを含み得る。少なくとも１つのオペランドは、少なくとも１つのアキュムレータをそれぞれのプロセッサ命令のセットのソース兼ターゲット・レジスタとして示し得る。少なくとも１つのオペランドはまた、数のセットを含む他のレジスタ・ファイルの少なくとも１つのさらなるレジスタを示し得る。

有利な実施形態では、ディスパッチ／発行ユニットは、選択されたＭＡＣユニットがそれぞれのプロセッサ命令のセットを単一のスレッドから受け取り得るように、シングル・スレッド（「ＳＴ」）モードに従って複数のプロセッサ命令をディスパッチするように構成され得る。

有利な実施形態では、ディスパッチ／発行ユニットは、選択されたＭＡＣユニットがそれぞれのプロセッサ命令のセットを２つのスレッドのうちのいずれか一方から受け取り得るように、２ウェイ同時マルチスレッディング（「ＳＭＴ２」）モードに従って複数のプロセッサ命令をディスパッチするように構成され得る。

有利な実施形態では、ディスパッチ／発行ユニットは、複数のＭＡＣユニットのうちの各ＭＡＣユニットがそれぞれのプロセッサ命令のセットをそれぞれの２つのスレッドから受け取り得るように、４ウェイ同時マルチスレッディング（「ＳＭＴ４」）モードに従って複数のプロセッサ命令をディスパッチするように構成され得る。

有利な実施形態では、各ＭＡＣユニットは、積を計算するための少なくとも１つの乗算器と、計算された積の加算を実行するための少なくとも１つの加算器とを含み得る。

有利な実施形態では、プロセッサ・ユニットは、さらなるＭＡＣ演算のセットを実行するように構成され得、ＭＡＣ演算のセット全てによって、出力行列の全ての要素が提供される。有利な実施形態では、出力行列は入力行列への行列畳み込みの結果を含み得る。

一態様では、本発明の実施形態は、ＭＡＣ演算を実行するための方法およびコンピュータ・プログラム製品を開示する。本発明は、ＭＡＣユニットの乗算器において、レジスタ・ファイルから値のセットを受け取ることを含み得る。本発明は、乗算器を使用して、受け取った値のセットの積を計算することを含み得る。本発明は、ＭＡＣユニットのアキュムレータの現在の内容を読み出すことを含み得る。本発明は、ＭＡＣユニットの加算器を使用して、アキュムレータの読み出された現在の内容と、受け取った値のセットの計算された積との和を計算することを含み得る。本発明は、計算された和をＭＡＣユニットのアキュムレータに書き込むことを含み得る。

一態様では、本発明の実施形態は、ＭＡＣユニットを開示する。一実施形態では、ＭＡＣユニットは、実行ユニットと、ワンライト・ワンリード（「１Ｗ／１Ｒ」）ポートのレジスタ・ファイルと、を含み得る。一実施形態では、１Ｗ／１Ｒポートのレジスタ・ファイルは少なくとも１つのアキュムレータを含み得る。一実施形態では、ＭＡＣユニットの実行ユニットは、積を計算し、ＭＡＣユニットの少なくとも１つのアキュムレータの内容に積を加算することによって、ＭＡＣ演算を実行するように構成され得る。

有利な実施形態では、ＭＡＣユニットの実行ユニットは、複数のＭＡＣ演算のうちの各ＭＡＣ演算の積を累積するために、同じアキュムレータを使用して、複数のＭＡＣ演算を連続的に実行するように構成され得る。

有利な実施形態では、ＭＡＣユニットは複数のアキュムレータを含み得る。有利な実施形態では、ＭＡＣユニットは、複数のアキュムレータのうちのそれぞれのアキュムレータを使用して、複数のＭＡＣ演算を並行して実行するように構成され得る。

有利な実施形態では、ＭＡＣユニットの少なくとも１つのアキュムレータは複数のアキュムレータ要素を含み得る。有利な実施形態では、ＭＡＣユニットは複数の乗算器と加算器とを含み得る。有利な実施形態では、ＭＡＣユニットは、複数のアキュムレータ要素のうちのそれぞれのアキュムレータ要素と、複数の乗算器のうちのそれぞれの乗算器とを使用して、複数のＭＡＣ演算を並列に実行するように構成され得る。

本開示は、ＭＡＣ演算を実行するための、エネルギー効率の高い、特定用途向けのプロセッサを提供し得る。プロセッサ・ユニットは少数のレジスタ・ファイル・ポートを有し、これはより多数のポートを有するアーキテクチャよりもパフォーマンスが優れ得る。具体的には、単一の読み出しポートおよび単一の書き込みポートを有するレジスタ・ファイルを使用することにより、簡素化されたハードウェア制御が実現され、エネルギー消費が削減され得る。１書き込みポート／１読み出しポートのレジスタ・ファイル（「１Ｗ／１Ｒ」）の実装形態は、たとえば、２つのＭＡＣ実行ユニットを接続するための２つの読み出しポートおよび２つの書き込みポートを提供する２Ｗ／２Ｒレジスタ・ファイルと比較して、より少ない配線、より小さい占有面積、およびより少ない電力需要を必要とし得る。接続の削減により、同じアプリケーション速度が維持され、エネルギー消費が削減され、プロセッサ周波数の向上が可能になり得る。さらに、本主題は、ＭＡＣユニット間での１つのレジスタ・ファイルの共有を防止し得る。各ＭＡＣユニットに独自のレジスタ・ファイルを提供することにより、各実行ユニットが独立して最適にそれぞれのレジスタ・ファイルに接続され得るので、ＭＡＣ演算が高速化され得ると考えられる。

本主題は、単一命令複数データ（「ＳＩＭＤ：ｓｉｎｇｌｅｉｎｓｔｒｕｃｔｉｏｎｍｕｌｔｉｐｌｅｄａｔａ」）オペランドを使用して、ＭＡＣ演算を基本的な算術演算として実行することを可能にし得る。これにより、ＳＩＭＤオペランドを別々のレジスタ・ファイルに効率的に記憶して、レジスタ・ファイルからＭＡＣユニットに単一のクロック・サイクルでロードできるようにすることができるという点で、プロセッサの効率が向上し得る。

本発明のこれらおよび他の目的、特徴および利点は、添付の図面に関連して読まれるべき、その例示的な実施形態の以下の詳細な説明から明らかになろう。図は、当業者が詳細な説明と共に本発明を理解するのを容易にする際に、明確にするためのものであるので、図面の様々な特徴は原寸に比例していない。

少なくとも１つの実施形態によるプロセッサ・システムの例示的な構造を示すブロック図である。少なくとも１つの実施形態によるＭＡＣ演算の例示的な行列演算を示すブロック図である。少なくとも１つの実施形態による行列演算の要素を計算するためのアキュムレータを示すブロック図である。少なくとも１つの実施形態による例示的なＭＡＣユニットを示すブロック図である。少なくとも１つの実施形態による図１に示す例示的なＭＡＣユニットを示すブロック図である。少なくとも１つの実施形態による例示的なプロセッサ・ユニットを示すブロック図である。少なくとも１つの実施形態による例示的なプロセッサ・ユニットを示すブロック図である。少なくとも１つの実施形態による例示的なプロセッサ・ユニットを示すブロック図である。少なくとも１つの実施形態による１つまたは複数のＭＡＣ演算のセットを実行するための例示的な処理を示す動作フローチャートである。少なくとも１つの実施形態による図６ＡのＭＡＣ演算に関連する例示的なＭＡＣユニットを示すブロック図である。少なくとも１つの実施形態による図６ＡのＭＡＣ演算に関連する例示的なＭＡＣユニットを示すブロック図である。

本発明の様々な実施形態の説明は、例示の目的で提示しているが、網羅的であることも、開示した実施形態に限定されることも意図したものではない。記載した実施形態の範囲および思想から逸脱することなく、多くの修正および変形が当業者には明らかであろう。本明細書で使用する用語は、実施形態の原理、実際の適用、または市場に見られる技術に対する技術的改善を最もよく説明するために、または当業者が理解できるようにするために選択している。

一実施形態によれば、ＭＡＣユニットのうちの各ＭＡＣユニットはインデックスに関連付けられ、インデックスを参照するプロセッサ命令を実行することによって、そのＭＡＣユニットがＭＡＣ演算を実行するように構成される。これにより、命令のインデックスを読み出すことによって、特定のＭＡＣユニットを識別して命令を最適な方法で処理することが可能になり得る。そのような読み出しは、プロセッサ・システムで命令のオペランドを識別するためにいずれにせよ実行されるので（たとえば、インデックスを読み出すための余分なオペレーションが不要であり得る）、これは最適であり得る。

ＭＡＣユニットのうちの各ＭＡＣユニットは、ＭＡＣ演算のセットのうちのそれぞれの１つまたは複数のＭＡＣ演算のサブセットを実行するように構成され得る。ＭＡＣユニットによって実行されるＭＡＣ演算のサブセットは、たとえば、行列Ｃの１つまたは複数の要素を計算し得る。たとえば、行列Ｃは次の式［１］で定義され得る。

Ｃ_ｉｊ＝Σ_ｋＡ_ｋｉＢ_ｊｋ［１］

上記の式［１］では、ＭＡＣ演算のサブセットは、所与の値ｋについての積の総和Σ_ｋＡ_ｋｉＢ_ｊｋを含み得る。たとえば、Ａ、Ｂ、およびＣが４×４行列の場合、ＭＡＣ演算のサブセットは、要素Ｃ１１を取得するための４つのＭＡＣ演算Ａ１１＊Ｂ１１、Ａ２１＊Ｂ１２、Ａ３１＊Ｂ１３、およびＡ４１＊Ｂ１４を含み得る。プロセッサ命令を実行することによって、ＭＡＣユニットによって１クロック・サイクルで実行できる１つまたは複数のＭＡＣ演算の各グループが実行され得る。プロセッサ命令は、たとえば、ＭＡＣユニットによって並列に実行され得る。たとえば、ＭＡＣ演算のセットは、一方のＭＡＣユニットによって実行されるＮ個のＭＡＣ演算と、他方のＭＡＣユニットによって実行される他のＮ個のＭＡＣ演算とを含む。２つのＭＡＣユニットは、ＭＡＣ演算の各ペアを並列に連続的に実行するように構成され得る（たとえば、Ｎ＝３の場合、ＭＡＣ演算の３つのペアが並列に連続的に実行され得る）。これは、各ＭＡＣユニットが、１つの要素を記憶するために使用される単一のアキュムレータを含む場合に、特に有利であり得る。アキュムレータはレジスタであり得る。他の例では、アキュムレータは複数のフィールドまたはアキュムレータ要素（たとえば、ｍ個の要素）を含み得、各アキュムレータ要素はそれぞれのＭＡＣ演算の結果を累積するために使用され得る。この場合、ＭＡＣユニットは、ｍ個のＭＡＣ演算を並列に１クロック・サイクルで実行するように構成され得る。

各ＭＡＣユニットに２つ以上のアキュムレータが存在する場合、命令のパイプライン化実行が有利に使用され得る。一実施形態によれば、ＭＡＣユニットのうちの各ＭＡＣユニットは、それぞれのＭＡＣ演算を少なくとも１クロック・サイクルで（たとえば、複数のクロック・サイクルで）実行するように構成される。ＭＡＣ演算の実行は、たとえば、プロセッサ命令の結果を生成するために４クロック・サイクルを含み得る。プロセッサ命令は４つのステップを含み得、各ステップは、処理中のプロセッサ命令の全体としての結果を得ることに寄与する。全てのクロック・サイクルにおいて、新しいプロセッサ命令が異なるアキュムレータ・レジスタを使用して開始され得る。４サイクル後、命令の結果が利用可能になるとすぐに、最初の命令で使用されたアキュムレータを後続の命令で再び使用することができる。一実施形態によれば、プロセッサ命令は１クロック・サイクルでデコードされる。

一実施形態によれば、インデックスは、ＭＡＣユニットのアキュムレータの設計されたアキュムレータ・レジスタ・インデックスである。これにより、アキュムレータと、アキュムレータを含むＭＡＣユニットとの両方にインデックス付けするために同じインデックスが使用されるので、処理リソースが節約され得る。これは、ＭＡＣユニットおよびアキュムレータへの別々のインデックス付けを必要とする他の実装形態とは対照的である。

一実施形態によれば、プロセッサ・ユニットは、ディスパッチおよび／または発行ユニットをさらに含む。ディスパッチおよび／または発行ユニットは、複数のプロセッサ命令を処理し、インデックスを使用してＭＡＣユニットを選択し、ＭＡＣ演算のセットを実行するために選択されたＭＡＣユニットにプロセッサ命令を送るように構成される。これにより、既存のディスパッチおよび／または発行ユニットに最小限の変更を加えることによって、本主題を既存のシステムにシームレスに統合することが可能になり得る。

一実施形態によれば、各プロセッサ命令は、アキュムレータをその命令のソース兼ターゲット・レジスタとして示し、乗算および累積されるソース・データを含む他のレジスタ・ファイルのさらなるレジスタを示すオペランドを含む。ソース・データは数を含む。アキュムレータをソース兼ターゲット・レジスタとして使用することにより、リソースを節約したデータ・アクセスが可能になる。これは、余分なレイテンシと、ソース－ターゲット間の依存関係を追跡する追加のロジックとを導入し得る、１つはデータ書き込み用、もう１つはデータ読み出し用である、２つの別々のアキュムレータを使用するＭＡＣユニットとは対照的である。（たとえば、実行ユニットの近くに単一のアキュムレータを適切に配置することにより）単一のアキュムレータを使用するプロセッサ・ユニットにおける接続が削減されるので、別々のアキュムレータにアクセスするよりも数倍速く単一のアキュムレータにアクセスすることができる。

一実施形態によれば、ＭＡＣユニットは、ディスパッチおよび／または発行ユニットの一部である。これにより、ＭＡＣユニットを別々に実装する場合と比較して、チップ上の面積と電力とが節約され得る。たとえば、ＭＡＣユニットがディスパッチおよび／または発行ユニットの別のコンポーネントとして実装される場合、それらはより多くのスペースを占有し得、余分な電源を使用し得る。

一実施形態によれば、ディスパッチおよび／または発行ユニットは、ＭＡＣユニットが単一のスレッドのプロセッサ命令を受け取るように、シングル・スレッド（「ＳＴ：ｓｉｎｇｌｅｔｈｒｅａｄｅｄ」）モードに従って複数のプロセッサ命令をディスパッチするように構成される。

たとえば、プロセッサ・ユニットは、一度に１つのスレッドのＭＡＣ演算のみが実行または処理され得るように、ＳＴモードで動作し得る。

一実施形態によれば、ディスパッチおよび／または発行ユニットは、ＭＡＣユニットが２つのスレッドのうちのいずれか一方のプロセッサ命令を受け取るように、２ウェイ同時マルチスレッディング（「ＳＭＴ２：ｔｗｏ－ｗａｙｓｉｍｕｌｔａｎｅｏｕｓｍｕｌｔｉｔｈｒｅａｄｉｎｇ」）モードに従って複数のプロセッサ命令をディスパッチするように構成される。

一実施形態によれば、ディスパッチおよび／または発行ユニットは、ＭＡＣユニットのうちの各ＭＡＣユニットがそれぞれの２つのスレッドからプロセッサ命令を受け取るように、４ウェイ同時マルチスレッディング（「ＳＭＴ４：ｆｏｕｒ－ｗａｙｓｉｍｕｌｔａｎｅｏｕｓｍｕｌｔｉｔｈｒｅａｄｉｎｇ」）モードに従って複数のプロセッサ命令をディスパッチするように構成される。

これらの実施形態は、本主題と既存のスレッド対応システムとのシームレスな統合を可能にし得る。

一実施形態によれば、プロセッサ・ユニットは、さらなるＭＡＣ演算のセットを実行するように構成され、ＭＡＣ演算のセット全てによって、出力行列の全ての要素が提供される。出力行列は、入力行列への行列畳み込みの結果である。たとえば、入力行列は画像の画素を表し得る。カーネルを使用して、入力行列に記憶された画素データとの畳み込みを実行し得る。カーネルは、たとえば、エッジ検出を行い、カーネルと同じサイズの入力行列のサブ行列に作用する。出力行列は、ある入力行列位置における、カーネル・サイズに一致するサブ行列の畳み込みの結果である。

図１を参照すると、一実施形態によるプロセッサ・システム１０１の構造を示すブロック図が示されている。

プロセッサ・システム１０１は、記憶されたデータに対して演算を実行するためのデータを記憶することを可能にし得る。一実施形態によれば、プロセッサのパフォーマンスを改善するために、プロセッサ・システム１０１のキャッシュ１０３の１つまたは複数のレベルを利用してメモリ・データをバッファリングし得る。キャッシュ１０３は、使用される可能性が高いメモリ・データのキャッシュ・ラインを保持する高速なバッファを含み得る。たとえば、典型的なキャッシュ・ラインは、６４、１２８、または２５６バイトのメモリ・データを含み得る。一実施形態によれば、キャッシュ１０３は、メイン・メモリ・ストレージ１０５などの上位階層のストレージのデータをキャッシュするように構成され得る。

一実施形態によれば、プロセッサ・システム１０１は、レジスタ１２０ａ～ｎを含むレジスタ・ファイル１１９をさらに含み得る。レジスタ１２０ａ～ｎは、たとえば、汎用レジスタを含み得、各汎用レジスタは、プロセッサ・システム１０１で実行される命令によって処理されるデータ・アイテムを記憶するために特定の数のビットを含む。

一実施形態によれば、命令はコンパイラによって提供され得る。たとえば、プログラムのソース・コードは、プロセッサ・システム１０１に関連付けられた命令セット・アーキテクチャ（「ＩＳＡ：ｉｎｓｔｒｕｃｔｉｏｎｓｅｔａｒｃｈｉｔｅｃｔｕｒｅ」）で定義された一連の機械実行可能命令にコンパイルされ得る。ＩＳＡは、本開示の少なくとも１つの実施形態に従って定義された少なくとも１つのプロセッサ命令を含み得る。ＩＳＡの命令は、メモリ１０５、またはプロセッサ・システム１０１のレジスタ・ファイル１１９のレジスタ１２０ａ～ｎ、あるいはその両方に記憶されたデータを処理するために提供され得る。一実施形態によれば、プロセッサ・システム１０１が実行可能命令の実行を開始するときに、これらの機械実行可能命令は、順次実行されるように並べられ得る。

一実施形態によれば、命令フェッチ／デコード・ユニット１０９を利用して、並べられた命令をフェッチし得る。たとえば、命令フェッチ／デコード・ユニット１０９は、次の順番の命令、分岐した命令のターゲット命令、またはコンテキスト・スイッチ後のプログラムの最初の命令をフェッチし得る。フェッチされた命令は、命令フェッチ／デコード・ユニット１０９によってデコードされ得る。

一実施形態によれば、デコードされた命令（複数可）は、ディスパッチ／発行ユニット１１１に渡され得る。ディスパッチ／発行ユニット１１１は、命令を１つまたは複数の発行キュー１１２に格納（ｄｅｐｏｓｉｔ）し得、命令は、そのソース・オペランドと、プロセッサ・システム１０１の適切なＭＡＣユニット１１３とが利用可能になるのを待機し得る。たとえば、ＭＡＣユニット１１３のうちの各ＭＡＣユニット１１３は発行キュー１１２に関連付けられ得、その結果、ＭＡＣユニット１１３によって実行される命令は、そのＭＡＣユニット１１３に関連付けられた発行キュー１１２に入れられ得る。ディスパッチ／発行ユニット１１１は、発行キューのＭＡＣユニット１１３に割り当てられたインデックスに基づいて、命令を発行キュー１１２に格納し得る。このインデックスは命令の一部であり得る。すなわち、命令からインデックスを読み取ることにより、ディスパッチ／発行ユニット１１１は、どのＭＡＣユニット１１３がその命令を実行できるかを認識（たとえば、特定）し得る。ＭＡＣユニット１１３のうちの各ＭＡＣユニット１１３は、他のＭＡＣユニット１１３によって実行されない場合がある１つのそれぞれのタイプの命令を実行するように構成され得る。一実施形態では、命令のタイプは、その命令に関連付けられるレジスタによって規定され得る。

従来の方法では、全ての実行ユニットは、全ての命令を実行するように実装され得る（たとえば、任意の命令が任意の実行ユニットに行くことができる）。しかしながら、本開示の動作とは対照的に、従来の方法は処理リソースの観点でよりコストがかかり得る。

一実施形態によれば、各発行キュー１１２は、キュー内の命令間の依存関係を監視し、命令をそれぞれのＭＡＣユニット１１３に発行することを担当し得るウィンドウ・ロジックを含み得る。ウィンドウ・ロジックは、ウェイクアップ・ロジックおよび選択ロジックを含み得る。ウェイクアップ・ロジックは、ソース・オペランドが利用可能になるのを発行キュー１１２で待機している命令を呼び出すことを担当し得る。命令の全てのソース・オペランドが利用可能になると、命令に実行準備完了のフラグが立てられ得る。選択ロジックは、準備完了命令のプールから実行する命令を選択することを担当し得る。全てのソース・オペランドが利用可能な場合、命令の準備が完了し得る。次いで、ロード／ストア・ユニット１１７を使用して、メモリ１０５またはレジスタあるいはその両方から命令のオペランド値がロードされ得る。

ＭＡＣユニット１１３は、典型的には、ディスパッチ／発行ユニット１１１から命令に関する情報を受け取り得、命令のオペレーション・コードに従ってオペランドに対してオペレーションを実行し得る。本開示によれば、レジスタからＭＡＣユニット１１３にオペランドが提供される。実行の結果は、記憶されるときに、メモリ１０５またはレジスタ１１９あるいはその両方に記憶され得る。一実施形態によれば、ＭＡＣユニット１１３のうちの各ＭＡＣユニット１１３は、少なくとも１つの乗算器および少なくとも１つの加算器を含み得る。ＭＡＣユニット１１３が２つ以上の乗算器を含む場合、各乗算器はＭＡＣユニット１１３のアキュムレータのそれぞれのアキュムレータ要素に関連付けられ得る。ＭＡＣユニット１１３の各乗算器は２つの数の積を実行するように構成され得、加算器は、乗算器に関連付けられたアキュムレータの内容、または乗算器に関連付けられたアキュムレータ要素の内容に積を加算するように構成され得る。ＭＡＣユニット１１３は、ＭＡＣ演算を少なくとも１クロック・サイクルで実行するように構成され得る。一例では、ＭＡＣユニット１１３は、ＭＡＣユニット１１３がＸ個のＭＡＣ演算を少なくとも１クロック・サイクルで実行することを可能にし得るＸ個の乗算器を含み得る。

一実施形態によれば、プログラム・カウンタ（命令カウンタ）１０７は、実行される現在の命令のアドレスを追跡し得る。たとえば、ｚ／Ａｒｃｈｉｔｅｃｔｕｒｅ（Ｒ）（ｚ／Ａｒｃｈｉｔｅｃｔｕｒｅおよび全てのＩＢＭ（Ｒ）ベースの商標およびロゴはＩｎｔｅｒｎａｔｉｏｎａｌＢｕｓｉｎｅｓｓＭａｃｈｉｎｅｓＣｏｒｐｏｒａｔｉｏｎまたはその関連会社あるいはそれらの組み合わせの商標または登録商標である）プロセッサなどのプロセッサ内のプログラム・カウンタ１０７は、６４ビットを含み得、以前のアドレス制限をサポートするために３１ビットまたは２４ビットに切り捨てられ得る。プログラム・カウンタ１０７は、典型的には、コンテキスト・スイッチ中に持続するように、コンピュータのプログラム・ステータス・ワード（「ＰＳＷ：ｐｒｏｇｒａｍｓｔａｔｕｓｗｏｒｄ」）に具現化され得る。一実施形態では、プログラム・カウンタは、現在の命令のバイト数に等しい量だけインクリメントされ得る。

プロセッサ・システム１０１は、命令のパイプライン化実行を行うように構成され得る。たとえば、４サイクル・レイテンシのパイプライン化実行がプロセッサ・システム１０１の各ＭＡＣユニット１１３によって使用され得、その結果、各命令は、ＭＡＣユニット１１３がＭＡＣ演算の結果を生成するのに４クロック・サイクルかかり得る。そのために、ＭＡＣユニット１１３での命令の実行は４つの工程に分解され得、４つの工程のうちの１つは乗算工程を含み得、４つの工程のうちの他の１つはＭＡＣユニットによる累積工程を含み得る。

一実施形態によれば、プロセッサ・システム１０１は、ＳＴモード、ＳＭＴ２モード、またはＳＭＴ４モードで動作するように構成され得る。ＳＴモードでは、一度に１つのスレッドからのＭＡＣ演算がＭＡＣユニット１１３によって実行または処理され得る。たとえば、ＳＴモードでは、ＭＡＣユニット１１３のそれぞれは、ＭＡＣユニット１１３が１つの特定のスレッド（たとえば、Ｔ０）から命令を受け取るように構成され得る。ＳＭＴ２モードでは、ＭＡＣユニット１１３は２つのスレッドのうちのいずれか一方から命令を受け取り得る。たとえば、ＳＭＴ２モードでは、ＭＡＣユニット１１３のそれぞれは、ＭＡＣユニット１１３がスレッドＴ０またはスレッドＴ１あるいはその両方から命令を受け取るように構成され得る。ＳＭＴ４モードでは、ＭＡＣユニット１１３のうちの各ＭＡＣユニット１１３は、４つのスレッド（たとえば、Ｔ０、Ｔ１、Ｔ２、およびＴ３）全てからプロセッサ命令を受け取り得、またはＭＡＣユニット１１３は、分割モードで動作して２つのスレッドを受け取り得る。たとえば、分割モードでは、プロセッサ・システム１０１が２つのＭＡＣユニット１１３を含む場合、一方のＭＡＣユニット１１３は、スレッドＴ０またはスレッドＴ２あるいはその両方からの命令を処理するように構成され得、他方のＭＡＣ１１３ユニットは、スレッドＴ１またはスレッドＴ３あるいはその両方からの命令を処理するように構成され得る。

このようにして、プロセッサ・システム１０１は、ＭＡＣユニット１１３を使用して１つまたは複数のプログラムからの命令を処理することを可能にし得る。たとえば、プログラムのソース・コードは、１つまたは複数のＭＡＣ演算を実装し得る。ＭＡＣ演算は、２つの数を乗算することと、乗算結果を累積値に加算することとを含み得る。ＩＳＡのそれぞれのプロセッサ命令を実行することにより、少なくとも１つのＭＡＣ演算がＭＡＣユニット１１３によって実行され得る。

ここで図２Ａを参照すると、少なくとも１つの実施形態によるＭＡＣ演算の例示的な行列演算を示すブロック図が示されている。

一実施形態によれば、図２Ａの行列演算を行列積和（「ＭＭＡ：ｍａｔｒｉｘｍｕｌｔｉｐｌｙａｎｄａｃｃｕｍｕｌａｔｅ」）演算と呼び得る。行列演算は入力行列２０１に入力行列２０３を乗算し得、累積された結果は結果行列２０５を含み得る。行列２０１がＭ×Ｋ行列を含み、行列２０３がＫ×Ｎ行列を含む場合、結果行列２０５はＭ×Ｎ行列を含み得る。このため、結果行列２０５の各要素は、Ｋ個のＭＡＣ演算によって取得され得る。図２Ａに示すように、入力行列２０１は４×４行列を含み得、入力行列２０３は４×４行列を含み得る。一実施形態によれば、行列演算は図２Ａに示す次元に限定されなくてもよく、これは例として提供している。

１つまたは複数のアキュムレータを使用して、ＭＡＣ演算を計算し、結果行列２０５の要素を記憶し得る。アキュムレータは、アキュムレータのサイズを示すアキュムレータ・サイズ、たとえば、５１２ビットを有し得る。アキュムレータは、複数のアキュムレータ要素またはフィールドを含み得る。アキュムレータ要素は、アキュムレータ・サイズ未満であり得るアキュムレータ要素サイズを有し得、たとえば、アキュムレータ要素サイズは３２ビットであり得る。アキュムレータの各アキュムレータ要素は、アキュムレータのそれぞれの数のビットを有するかまたは占有し得、たとえば、第１のアキュムレータ要素はアキュムレータのビット０～３１を占有し得、第２のアキュムレータ要素はビット３２～６３を占有し得、第１６のアキュムレータ要素はビット４８０～５１１を占有し得る。一実施形態では、アキュムレータ要素サイズは、結果行列２０５の要素のサイズとして規定され得る。これは、アキュムレータが結果行列２０５内の要素と同数のアキュムレータ要素を含むように構成され得るので、有利であり得る。これにより、結果行列２０５の全ての要素を１つのアキュムレータに記憶することが可能になり得る。

ここで図２Ｂを参照すると、少なくとも１つの実施形態による行列演算の要素を計算するためのアキュムレータを示すブロック図が示されている。さらに図２Ｃを参照すると、少なくとも１つの実施形態による例示的なＭＡＣユニットを示すブロック図が示されている。

一実施形態によれば、図２Ｂ～図２Ｃは、結果行列２０５の要素が、１つのアキュムレータ２２３、１つの加算器２２２、および１６個の乗算器２２１を有する１つのＭＡＣユニットを使用して計算され得ることを示している。図２Ｂに示すように、結果行列２０５の各要素は、単一のアキュムレータＡＣＣ（０）のそれぞれのアキュムレータ要素に記憶され得る。図２ＢではアキュムレータＡＣＣ（０）のアキュムレータ要素をＡＣＣ^ｊ（０）と呼び得、ここで、ｊ＝１，．．．，１６である。結果行列２０５の要素Ｃ１１は、アキュムレータＡＣＣ（０）のビット０～３１を有するアキュムレータ要素ＡＣＣ^１（０）に記憶され得、Ｃ２１は、アキュムレータＡＣＣ（０）のビット３２～６３を有するアキュムレータ要素ＡＣＣ^２（０）に記憶され得、Ｃ３１は、アキュムレータＡＣＣ（０）のビット６４～９５を有するアキュムレータ要素ＡＣＣ^３（０）に記憶され得、Ｃ４１は、アキュムレータＡＣＣ（０）のビット９６～１２７を有するアキュムレータ要素ＡＣＣ^４（０）に記憶され得、以下同様である。したがって、３２ビットの要素を１６回記憶することにより、アキュムレータ２２３の５１２ビットの全ての幅が使用され得る。

結果行列２０５の要素を計算する前に、アキュムレータＡＣＣ（０）の各アキュムレータ要素ＡＣＣ^ｊ（０）は、初期値で初期化され（または初期値を記憶し）得る。初期値は、たとえば、ゼロであり得る。他の例では、要素ＡＣＣ^ｊ（０）は、行列要素の事前計算された部分などの他の値によって初期化され得る（たとえば、Ｃ１１を得るために、アキュムレータ要素ＡＣＣ^１（０）がＡ１１＊Ｂ１１の値で初期化され得る）。他の例では、初期化は、ＭＡＣ演算命令とは異なり得る第１の命令によって実行され得、それによって、アキュムレータＡＣＣ（０）を入力として使用せずにアキュムレータＡＣＣ（０）のアキュムレータ要素に乗算結果が記憶され得る。図２Ｂの例では、外積（ｏｕｔｅｒｐｒｏｄｕｃｔ）の計算に使用されるプログラミング・ループの最も外側のループとして、Ｋ次元の行列２０１を使用している。ＭＭＡ演算は、行列２０１の列および行列２０３の行を他のレジスタ・ファイルからオペランドとして一度ロードしてその外積を計算し、この外積の結果を結果行列２０５の要素として累積し得る。その後、この行列２０１の列および行列２０３の行は、再び使用されない場合がある。

たとえば、結果行列２０５の１６個の要素Ｃ１１～Ｃ４４の各要素を取得するために、それぞれのアキュムレータ要素を使用して４つのＭＡＣ演算が実行され得る。図２Ｂに示すように、要素Ｃ１１を得るために、ＭＡＣ演算２１０．１、２１１．１、２１２．１、および２１３．１が、アキュムレータ要素ＡＣＣ^１（０）の内容を使用して実行され得る。

結果行列の構造とＭＭＡ演算の性質とが分かっているので、ＭＡＣユニットはＭＭＡ演算を最適な方法で実行するように構成され得る。たとえば、ＭＡＣ演算の各セットがＭＡＣユニットによって１クロック・サイクルで実行され得るように、ＭＭＡ演算がＭＡＣ演算のセットに分割され得る。図２Ａの例に従えば、図２Ｂに示すように、行列演算は４セットのＭＡＣ演算２１０．１～１６、２１１．１～１６、２１２．１～１６、および２１３．１～１６を含み得、各セットは図２ＣのＭＡＣユニットによって１クロック・サイクルで処理することができる。各ＭＡＣ演算は、乗算と、それぞれのアキュムレータ要素の内容への乗算結果の加算とを含む。４セットのＭＡＣ演算のうちの各セットの実行は、たとえば、整数ベースのＧＥＲ命令などのそれぞれの命令を発行することによって行われ得る。ＭＡＣ演算のセットの各ＭＡＣ演算で使用されるアキュムレータ要素は、ＧＥＲ命令で示され得る。たとえば、ＭＡＣ演算のセットの各ＭＡＣ演算で使用されるアキュムレータ要素は、ＧＥＲ命令タイプによって決定され得る（たとえば、ＧＥＲ命令は異なるタイプを有し得、各タイプは異なる数のＭＡＣ演算に使用され得る）。ＧＥＲ命令名は、アキュムレータ要素の数と、オペランドならびに５１２ビットのアキュムレータのデータ・タイプとを決定する。

１６個のＭＡＣ演算のセットのうちの第１のＭＡＣ演算では、積Ａ１１＊Ｂ１１が実行され得、積の結果が、ゼロであり得るアキュムレータＡＣＣ（０）のビット０～３１を有する第１のアキュムレータ要素ＡＣＣ^１（０）の内容に加算され得る。これにより、第１のＭＡＣ演算の後、第１のアキュムレータ要素ＡＣＣ^１（０）は、積Ａ１１＊Ｂ１１を含み得る。１６個のＭＡＣ演算のセットのうちの第２のＭＡＣ演算では、積Ａ１１＊Ｂ２１が実行され得、積の結果が、ゼロであり得るアキュムレータＡＣＣ（０）の第２のアキュムレータ要素ＡＣＣ^２（０）の内容に加算され得る。これにより、１６個のＭＡＣ演算のセット２１０．１～２１０．１６を実行した後、アキュムレータＡＣＣ（０）の各要素ＡＣＣ^ｊ（０）は、図２Ｂに示すように、結果行列のそれぞれの要素の中間値を含み得る。１６個のＭＡＣ演算のセット２１０．１～２１０．１６を完了した後、１６個のＭＡＣ演算の他のセット２１１．１～２１１．１６がＭＡＣユニットによって実行され得る。ＭＡＣ演算の全てのセットが実行されるまで、この繰り返しは実行され得る。図２Ｂは、ＭＡＣ演算のセットの非パイプライン化実行の結果として得られるアキュムレータＡＣＣ（０）の各アキュムレータ要素ＡＣＣ^ｊ（０）の内容の変化を示している。

しかしながら、（たとえば、図２Ａの行列演算と同様の）複数の行列演算を実行する場合、ＭＡＣ演算のパイプライン化実行が有利であり得る。たとえば、図２Ａの行列演算で説明したように各行列演算が４セットのＭＡＣ演算を含む４つの行列演算の場合、１６セットのＭＡＣ演算の実行が以下のように実行され得る。

４サイクルのパイプライン化実行の場合、各ＭＡＣ演算は４つのステップで実行され得る。このため、１６セットのＭＡＣ演算の各セットは、４クロック・サイクルで実行され得る。たとえば、ＭＡＣ演算のセットの各ＭＡＣ演算の第１のステップが、ＭＡＣユニットによって１つの同じクロック・サイクルで実行され得る（たとえば、ＭＡＣ演算のセットの全ての第１のステップが、１つの同じクロック・サイクルで実行され得る）。ＭＡＣ演算のセットの各ＭＡＣ演算の第２のステップが、ＭＡＣユニットによって他の同じクロック・サイクルで実行され得る。ＭＡＣ演算のセットの各ＭＡＣ演算の第３のステップが、ＭＡＣユニットによって他の同じクロック・サイクルで実行され得る。ＭＡＣ演算のセットの各ＭＡＣ演算の第４のステップが、ＭＡＣユニットによって他の同じクロック・サイクルで実行され得る。パイプライン化実行により、同じクロック・サイクル中に異なるＭＡＣ演算のセットの異なるステップを実行することが可能になる。

４つの行列演算の４つの結果行列のうちの各結果行列の要素は、それぞれのアキュムレータＡＣＣ（０）、ＡＣＣ（１）、ＡＣＣ（２）、およびＡＣＣ（３）に記憶され得る。

図２Ａ～図２Ｃに提供している例では、入力ソースＳＲＣ１およびＳＲＣ２として４×３２ビットの要素のＭＡＣ計算を示している。しかしながら、たとえば、８×１６ビットまたは１６×８ビットなどの他の要素幅が同様の方法で処理され得ると考えられ、これは、３２ビット幅のアキュムレータ要素で１６ビットの２つのペアを乗算および加算するか、または４サイクルの実行中に８ビットの４つのペアにＭＡＣ演算を実行して３２ビット幅のアキュムレータ・フィールドを計算することによって行われる。同様にして、ＡＣＣレジスタに記憶される要素の数に加え、アキュムレータ要素サイズは３２ビット未満または３２ビット超であり得る。図２Ｃは、入力としての（たとえば、１つの列を表す）４×３２ビットのオペランドＡおよび（たとえば、１つの行を表す）４×３２ビットのオペランドＢと、１６個の３２ビットの結果を記憶する、出力に示す５１２ビットのアキュムレータとを有する４×４の実装形態の詳細を示している。図２Ｂは、外積計算アルゴリズムによる演算を示している。しかしながら、行列演算はこれらの外積計算アルゴリズムに限定されなくてもよい。内積またはドット積アルゴリズムを含む他のアルゴリズムが使用され得る。

ここで図３を参照すると、少なくとも１つの実施形態によるＭＡＣユニットを示すブロック図が示されている。一実施形態によれば、図３のＭＡＣユニットは、ＭＡＣユニット１１３を示し得る。

一実施形態によれば、ＭＡＣユニット１１３は、実行ユニット３０１およびレジスタ・ファイル３０３を含み得る。実行ユニット３０１は、レジスタ・ファイル３０３からアキュムレータ・データ（ＡＣＣ（ｉ）データ）を読み出し得、レジスタ・ファイル３０３にアキュムレータ・データを書き込み得る。レジスタ・ファイル３０３は、１つまたは複数のアキュムレータを含み得る。一実施形態では、レジスタ・ファイル３０３の各アキュムレータは、設計されたアキュムレータ・レジスタ・インデックスｉを含み得、そのため、各アキュムレータをＡＣＣ（ｉ）と呼び得る。インデックスは、偶数または奇数を含み得る整数であり得る。アキュムレータＡＣＣ（ｉ）を記憶するレジスタ・ファイル・エントリがレジスタ・ファイル・エントリ番号と異なるように、設計されたアキュムレータＡＣＣ（ｉ）がリネームされ得る。アキュムレータＡＣＣ（ｉ）の状態を含むレジスタ・ファイル・エントリ番号が、ディスパッチ／発行ユニット１１１のロジックによって追跡され得る。

レジスタ・ファイル３０３は、１Ｗ／１Ｒポートのレジスタ・ファイルを含み得る。レジスタ・ファイル３０３は、たとえば、２Ｗ／２Ｒレジスタ・ファイルと比較して、より少ない配線、より少ない面積、およびより少ない電力需要を必要とし得るので、有利であり得る。

ＭＡＣユニット１１３は、ＭＡＣ演算を実行するためにディスパッチ／発行ユニット１１１のそれぞれの発行キューからプロセッサ命令を受け取るように構成され得る。プロセッサ命令は、たとえば、「ＧＥＲ」と名付けられ得、次のように定義され得る。ＧＥＲＡＣＣ（ｉ）←ＡＣＣ（ｉ），ベクトル・スカラー・レジスタ（「ＶＳＲ：ｖｅｃｔｏｒｓｃａｌａｒｒｅｇｉｓｔｅｒ」）（ｊ），ＶＳＲ（ｋ）プロセッサ命令ＧＥＲは、アキュムレータＡＣＣ（ｉ）をプロセッサ命令のソース兼ターゲット・レジスタとして示し、レジスタ・ファイル１１９のさらなるソース・レジスタＶＳＲ（ｊ）、ＶＳＲ（ｋ）を示すオペランドを含み得る。ソース・レジスタＶＳＲ（ｊ）、ＶＳＲ（ｋ）は、乗算される数を含み得る。図３に示すように、実行ユニット３０１は、レジスタ・ファイル１１９から乗算される値／数３０４および３０５を読み出し、ＭＡＣ演算を実行するためにレジスタ・ファイル３０３からアキュムレータＡＣＣ（ｉ）の内容（ＳＲＣ０と呼ぶ）を読み出し得る。ＭＡＣ演算の結果（ＴＧＴと呼ぶ）は、アキュムレータＡＣＣ（ｉ）に記憶され得る。したがって、レジスタ・ファイル３０３の各アキュムレータＡＣＣ（ｉ）は、ＭＡＣユニット１１３がそれぞれの１つまたは複数のＭＡＣ演算のセットを実行することを可能にし得、その結果、ＭＡＣ演算のセットの結果の値がアキュムレータＡＣＣ（ｉ）に累積され得る。

図２Ａの例に従えば、ＭＡＣユニット１１３は、アキュムレータＡＣＣ（０）を使用して結果行列２０５の要素Ｃ１１．．．Ｃ４４を取得するための１６個のＭＡＣ演算の４つのセットを実行するように構成され得る。そのために、実行ユニット３０１は複数の乗算器を含み得、アキュムレータＡＣＣ（０）は、図２Ｃを参照して説明した複数の要素を含み得る。

結果行列２０５全体を計算するために、Ｃ１１．．．Ｃ４４を取得するための１６個のＭＡＣ演算のセットをそれぞれが実行する４つのプロセッサ命令のストリームが、ＭＡＣユニットで受け取られ得る。ストリームの各プロセッサ命令は、ＭＡＣユニットのアキュムレータＡＣＣ（０）を参照し、また、アキュムレータＡＣＣ（０）のどのアキュムレータ要素がどの乗算結果を受け取るかを参照する。ストリームの各プロセッサ命令について、ＭＡＣユニットは１６個のＭＡＣ演算を実行し、そのプロセッサ命令で参照されるそれぞれのアキュムレータ要素の内容に結果を累積し得る。たとえば、プロセッサ命令は、いくつかの積の中でも特に、積Ａ１１＊Ｂ１１を計算し、積をそれぞれのアキュムレータ要素ＡＣＣ^１（０）に加算し得、続いて他の命令が、少なくともＡ２１＊Ｂ１２を計算し、積をそれぞれのアキュムレータに加算し得る、などである。

各ＭＡＣ演算の実行ステップは、パイプライン化された実装形態により、１クロック・サイクルまたは複数クロック・サイクルでＭＡＣユニット１１３によって実行され得る。

ここで図４を参照すると、少なくとも１つの実施形態によるプロセッサ・ユニット４００を示すブロック図が示されている。

プロセッサ・ユニット４００は、２つのＭＡＣユニット４１３Ａおよび４１３Ｂを含み得る。ＭＡＣユニット４１３Ａは、実行ユニット４０１Ａおよびレジスタ・ファイル４０３Ａを含み得る。実行ユニット４０１Ａは、レジスタ・ファイル４０３Ａからデータを読み出し得、レジスタ・ファイル４０３Ａにデータを書き込み得る。レジスタ・ファイル４０３Ａは、１つまたは複数のアキュムレータを含み得る。レジスタ・ファイル４０３Ａの各アキュムレータは、設計されたアキュムレータ・レジスタ・インデックスｏｄｄを含み得、そのため、各アキュムレータをＡＣＣ（ｏｄｄ）と呼び得る。インデックスｏｄｄは奇数であり得る。ＭＡＣユニット４１３Ｂは、実行ユニット４０１Ｂおよびレジスタ・ファイル４０３Ｂを含み得る。実行ユニット４０１Ｂは、レジスタ・ファイル４０３Ｂからデータを読み出し得、レジスタ・ファイル４０３Ｂにデータを書き込み得る。レジスタ・ファイル４０３Ｂは、１つまたは複数のアキュムレータを含み得る。レジスタ・ファイル４０３Ｂの各アキュムレータは、設計されたアキュムレータ・レジスタ・インデックスｅｖｅｎを含み得、そのため、各アキュムレータをＡＣＣ（ｅｖｅｎ）と呼び得る。インデックスｅｖｅｎは偶数であり得る。レジスタ・ファイル４０３Ａおよび４０３Ｂの各レジスタ・ファイルは、１Ｗ／１Ｒポートのレジスタ・ファイルであり得る。ＭＡＣユニット４１３Ａ～Ｂのそれぞれは、図３のＭＡＣユニット１１３を参照して説明したように動作するよう構成され得る。

一実施形態では、プロセッサ・ユニット４００は、ＭＡＣユニット４１３Ａおよび４１３Ｂのそれぞれによって乗算される数を提供し得るレジスタ・ファイル４１９をさらに含み得る。

一実施形態によれば、ＭＡＣユニットの各々は、それぞれのインデックスに関連付けられ得る。たとえば、ＭＡＣユニット４１３Ａは奇数のインデックスに関連付けられ得、ＭＡＣユニット４１３Ｂは偶数のインデックスに関連付けられ得る。各ＭＡＣユニットは、それぞれの発行キューから自身の命令を受け取り得る（たとえば、プロセッサ・ユニット４００に命令を発行するディスパッチおよび／または発行ユニットは、奇数インデックス付きの命令用の１つの発行キューと、偶数インデックス付きの命令用の他の発行キューとの２つの発行キューを含み得る）。他の実施形態では、ディスパッチおよび／または発行ユニットは、少なくとも２つの発行ポートを有する単一の発行キューを含み得る。この実施形態では、一方の発行ポートは、偶数インデックス付きの命令を偶数のＭＡＣユニット４１３Ｂに発行するように構成され得、他方の発行ポートは、奇数インデックス付きの命令を奇数のＭＡＣユニット４１３Ａに発行するように構成され得る。しかしながら、本開示はそのような実装形態に限定されない。

たとえば、ＭＡＣユニット４１３Ａは４つのアキュムレータＡＣＣ（１）、ＡＣＣ（３）、ＡＣＣ（５）、およびＡＣＣ（７）を含み得、ＭＡＣユニット４１３Ｂは４つのアキュムレータＡＣＣ（０）、ＡＣＣ（２）、ＡＣＣ（４）、およびＡＣＣ（６）を含み得る。ＭＡＣユニット４１３Ａ～Ｂの各々は、図３を参照して説明したように、それぞれのプロセッサ命令を受け取り得る。プロセッサ命令は、命令を受け取るＭＡＣユニットに対応するインデックスを参照し得る。したがって、プロセッサ・ユニット４００は、ＭＡＣユニット４１３Ａ～Ｂによって２つのプロセッサ命令を並行して実行することを可能にし得る。

プロセッサ・ユニット４００は、命令のパイプライン化実行を行うように構成され得る。たとえば、８つのプロセッサ命令がプロセッサ・ユニット４００で受け取られると仮定する（たとえば、命令のストリームＧＥＲ（０）、ＧＥＲ（２）、ＧＥＲ（３）、ＧＥＲ（１）、ＧＥＲ（５）、ＧＥＲ（６）、ＧＥＲ（７）、およびＧＥＲ（４）として受け取られ、図４に関するＧＥＲ（ｉ）は、アキュムレータＡＣＣ（ｉ）をソースＳＲＣ０兼ターゲットＴＧＴとして使用し、ＧＥＲ（ｉ）命令を実行するためのレイテンシは４サイクルである）。各命令ＧＥＲは、偶数または奇数のインデックスを有する。この場合、命令ＧＥＲ（０）、ＧＥＲ（２）、ＧＥＲ（４）、およびＧＥＲ（６）は、ＭＡＣユニット４１３Ｂに関連付けられた発行キューに入れられ得、命令ＧＥＲ（１）、ＧＥＲ（３）、ＧＥＲ（５）およびＧＥＲ（７）は、ＭＡＣユニット４１３Ａに関連付けられた発行キューに入れられ得る。１つの要素のみを含むことができる単一のアキュムレータが存在する場合、ＧＥＲ（ｉ）は１つのＭＡＣ演算の４つのステップのうちの１つのステップを実行することを可能にし得る。ｍ個の要素を含むことができる１つのアキュムレータのｍ個のアキュムレータ要素が存在する場合、ＧＥＲ（ｉ）は、ｍ個のＭＡＣ演算のうちの各ＭＡＣ演算の１つの同じステップを実行することを可能にし得る。レイテンシが４のパイプライン化実行の例に従えば、命令のストリームが以下のようにサイクルごとに実行され得る。

サイクルｃ：ＧＥＲ（０）、ＧＥＲ（３）

ｃ＋１：ＧＥＲ（２）、ＧＥＲ（１）

ｃ＋２：ＧＥＲ（４）、ＧＥＲ（５）

ｃ＋３：ＧＥＲ（６）、ＧＥＲ（７）

ｃ＋４：ＧＥＲ（０）、ＧＥＲ（３）．．．

クロック・サイクルｃの間に、命令ＧＥＲ（０）およびＧＥＲ（３）がＭＡＣユニット４１３Ｂおよび４１３Ａに発行され、次いでそれぞれ実行される。次のサイクルｃ＋１において、命令ＧＥＲ（２）およびＧＥＲ（１）がＭＡＣユニット４１３Ｂおよび４１３Ａに発行され、次いでそれぞれ実行される。次のサイクルｃ＋２において、命令ＧＥＲ（４）およびＧＥＲ（５）がＭＡＣユニット４１３Ｂおよび４１３Ａに発行され、次いでそれぞれ実行される。次のサイクルｃ＋３において、命令ＧＥＲ（６）およびＧＥＲ（７）がＭＡＣユニット４１３Ｂおよび４１３Ａに発行され、次いでそれぞれ実行される。プロセッサ・ユニット４００は、既存のシステムと同等またはそれ以上のスループットを可能にし得る。サイクルｃ＋４において、ＧＥＲ（０）およびＧＥＲ（３）命令の実行が完了しているので、新しいＧＥＲ（０）およびＧＥＲ（３）命令がｃ＋４サイクルで発行されて、アキュムレータＡＣＣ（０）およびＡＣＣ（３）の外積計算が進められ得る。サイクルｃのＧＥＲ（０）はＭＡＣ演算の第１のステップを実行し得、サイクルｃ＋４のＧＥＲ（０）は同じＭＡＣ演算の第２のステップを実行し得る。

他の例では、命令のストリームは、偶数インデックス付きの命令ＧＥＲ（０）、ＧＥＲ（２）、ＧＥＲ（４）およびＧＥＲ（６）のみを含み得る。すなわち、１つの発行キューのみが、実行される命令を含む。この場合、１つのＭＡＣユニットのみを使用して、命令のストリームを以下のように実行し得る。

サイクルｃｃ：ＧＥＲ（０）、なし

ｃｃ＋１：ＧＥＲ（２）、なし

ｃｃ＋２：ＧＥＲ（４）、なし

ｃｃ＋３：ＧＥＲ（６）、なし

クロック・サイクルｃｃの間に、命令ＧＥＲ（０）がＭＡＣユニット４１３Ｂに発行され、次いでそれによって実行され、ＭＡＣユニット４１３Ａは命令を実行していない。次のサイクルｃｃ＋１では、命令ＧＥＲ（２）がＭＡＣユニット４１３Ｂに発行され、次いでそれによって実行され、ＭＡＣユニット４１３Ａは命令を実行していない。次のサイクルｃｃ＋２では、命令ＧＥＲ（６）がＭＡＣユニット４１３Ｂに発行され、次いでそれによって実行され、ＭＡＣユニット４１３Ａは命令を実行していない。次のサイクルｃｃ＋３では、命令ＧＥＲ（６）がＭＡＣユニット４１３Ｂに発行され、次いでそれによって実行され、ＭＡＣユニット４１３Ａは命令を実行していない。使用されている４つのＡＣＣのように実行ユニット４０１Ａを使用しないことによって全体のスループットには無影響であり得、命令がＡＣＣ結果計算を完了するのに要する４サイクルのレイテンシを考えると、全体のスループットは４命令ほど高くない場合がある。

ここで図５Ａを参照すると、少なくとも１つの実施形態によるプロセッサ・ユニット５００のディスパッチ・ロジックを示すブロック図が示されている。図５Ｂも参照すると、少なくとも１つの実施形態によるプロセッサ・ユニット５００の発行ロジックを示すブロック図が示されている。プロセッサ・ユニット５００は、図４を参照して説明したように、ディスパッチ／発行ユニット５１１と、ＭＡＣユニット４１３Ａおよび４１３Ｂとを含み得る。

図５Ａに示すように、ディスパッチ／発行ユニット５１１は、フェッチおよびデコードされた命令を受け取るように構成され得る。受け取った命令は、所与のインデックスｉを有するアキュムレータＡＣＣ（ｉ）を参照し得る。ディスパッチおよび／または発行ユニット５１１は、論理回路５１４を含む。論理回路５１４は、インデックスｉに基づいて、ディスパッチ／発行ユニット５１１の発行キュー（「ＩＳＱ：ｉｓｓｕｅｑｕｅｕｅ」）４１２Ａおよび４１２Ｂのうちのどちらが命令を受け取るかを判定するように構成され得る。あるいは、図５Ｂに示すように、プロセッサ・ユニット５００は、論理回路５１４の共通の発行キュー・ポートを含み得、結合された発行キュー４１２Ａ～Ｂの発行ロジックは、使用されるアキュムレータＡＣＣ（ｉ）のインデックスｉに基づいて、ＭＡＣユニット４１３Ａ～Ｂの偶数または奇数のポートにそれぞれの命令を発行するように構成され得る。

ここで図６Ａを参照すると、少なくとも１つの実施形態による１つまたは複数のＭＡＣ演算のセットを実行するための例示的な処理を示す動作フローチャートが示されている。さらに図６Ｂ～図６Ｃを参照すると、少なくとも１つの実施形態による図６ＡのＭＡＣ演算に関連するＭＡＣユニットを示すブロック図が示されている。

以下の説明を簡単にするために、図６Ａ～図６ＣのＭＡＣ演算のセットは、Ａ１１＊Ｂ１１＋Ａ２１＊Ｂ１２に等しい行列要素を求めるためのＭＡＣ演算を含み得る（ただし、これに限定されない）。

ＭＡＣ演算のセットの実行を可能にするために、２つの命令のストリームが生成され得、各命令はＭＡＣ演算のセットのうちのＭＡＣ演算の実行を可能にし得る。

６０１で、アキュムレータが初期化される。一実施形態によれば、ＭＡＣユニット６１３のアキュムレータは、ゼロに初期化され得る。アキュムレータは、１Ｗ／１Ｒレジスタ・ファイルの一部であり得る。

次いで、６０２で、命令が受け取られる。一実施形態によれば、ストリームの第１の命令が６０２で受け取られ得る。第１の命令は、２つのＶＳＲレジスタをソース・レジスタとして参照し得る。第１の命令はさらに、アキュムレータを第１の命令のソース兼ターゲット・レジスタとして参照し得る。第１の命令は、たとえば、ＧＥＲ命令を使用して次のように定義され得る。ＧＥＲＡＣＣ（ｉ）←ＡＣＣ（ｉ），ＶＳＲ（ｊ），ＶＳＲ（ｋ）。図６Ｂに示すように、ＶＳＲレジスタＶＳＲ（ｊ）およびＶＳＲ（ｋ）は乗算される値Ａ１１およびＢ１１を含み、アキュムレータは初期値を記憶している。値Ａ１１およびＢ１１は、たとえば、第１の命令の実行を可能にするために、ロード／ストア・ユニット１１７によってレジスタ・ファイル１１９のＶＳＲレジスタに記憶され得る。

次いで、６０３で、値が乗算される。一実施形態によれば、値Ａ１１およびＢ１１は、ＭＡＣユニット６１３の乗算器で受け取られ得る。乗算器は、６０３で値Ａ１１およびＢ１１を乗算し、乗算Ａ１１＊Ｂ１１の結果をＭＡＣユニット６１３の加算器に提供し得る。

次いで、６０４で、乗算の結果がアキュムレータに加算される。一実施形態によれば、加算器は、図６Ｂに示すようにゼロであり得るアキュムレータＡＣＣの現在の内容を読み出し得る。６０４で、加算器は、アキュムレータＡＣＣの内容をＡ１１およびＢ１１の乗算の結果に加算し得る。

次いで、６０５で結果が書き込まれる。一実施形態によれば、６０５で加算の結果（たとえば、Ａ１１＊Ｂ１１）がアキュムレータに書き込まれ得る。これにより、第１の命令が実行されて完了し得る。

ストリームの次の命令は、ストリームの第２の命令に対して上述の６０２～６０５を繰り返すことによって処理され得る。図６Ｃは、第２の命令の実行に関するＭＡＣユニット６１３の状態を示している。ＶＳＲレジスタＶＳＲ（ｊ）およびＶＳＲ（ｋ）は、乗算される値Ａ２１およびＢ１２を含み得、アキュムレータは値Ａ１１＊Ｂ１１を記憶し得る。第２の命令は、たとえば、第１の命令と同じ構文を有し得る。ストリームの全ての命令が処理されるまで、６０２～６０５が繰り返され得る。

本発明の態様は、本発明の実施形態による方法、装置（システム）、およびコンピュータ・プログラム製品のフローチャート図またはブロック図あるいはその両方を参照して本明細書で説明している。フローチャート図またはブロック図あるいはその両方の各ブロック、およびフローチャート図またはブロック図あるいはその両方におけるブロックの組み合わせが、コンピュータ可読プログラム命令によって実装できることは理解されよう。

本発明は、任意の可能な技術的詳細レベルの統合におけるシステム、方法、またはコンピュータ・プログラム製品、あるいはそれらの組み合わせであり得る。コンピュータ・プログラム製品は、本発明の態様をプロセッサに実行させるためのコンピュータ可読プログラム命令をその上に有するコンピュータ可読記憶媒体（または複数の媒体）を含み得る。

コンピュータ可読記憶媒体は、命令実行デバイスによる使用のために命令を保持および記憶可能な有形のデバイスとすることができる。コンピュータ可読記憶媒体は、たとえば、限定はしないが、電子ストレージ・デバイス、磁気ストレージ・デバイス、光学ストレージ・デバイス、電磁ストレージ・デバイス、半導体ストレージ・デバイス、またはこれらの任意の適切な組み合わせであり得る。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストには、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ（ＲＡＭ：ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、読み取り専用メモリ（ＲＯＭ：ｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ）、消去可能プログラム可能読み取り専用メモリ（ＥＰＲＯＭ：ｅｒａｓａｂｌｅｐｒｏｇｒａｍｍａｂｌｅｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙまたはフラッシュ・メモリ）、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ：ｓｔａｔｉｃｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、ポータブル・コンパクト・ディスク読み取り専用メモリ（ＣＤ－ＲＯＭ：ｃｏｍｐａｃｔｄｉｓｃｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ）、デジタル・バーサタイル・ディスク（ＤＶＤ：ｄｉｇｉｔａｌｖｅｒｓａｔｉｌｅｄｉｓｋ）、メモリー・スティック（Ｒ）、フレキシブル・ディスク、命令が記録されたパンチ・カードまたは溝の隆起構造などの機械的にコード化されたデバイス、およびこれらの任意の適切な組み合わせが含まれる。コンピュータ可読記憶媒体は、本明細書で使用する場合、たとえば、電波または他の自由に伝搬する電磁波、導波管もしくは他の伝送媒体を伝搬する電磁波（たとえば、光ファイバ・ケーブルを通過する光パルス）、または有線で伝送される電気信号などの一過性の信号自体であると解釈されるべきではない。

本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング／処理デバイスに、あるいは、たとえば、インターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、もしくは無線ネットワーク、またはそれらの組み合わせなどのネットワークを介して外部コンピュータまたは外部ストレージ・デバイスにダウンロードすることができる。ネットワークは、銅線伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバ、あるいはそれらの組み合わせを含み得る。各コンピューティング／処理デバイスのネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、コンピュータ可読プログラム命令を転送して、それぞれのコンピューティング／処理デバイス内のコンピュータ可読記憶媒体に記憶する。

本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路の構成データ、あるいは、Ｓｍａｌｌｔａｌｋ（Ｒ）、Ｃ＋＋などのオブジェクト指向プログラミング言語、および「Ｃ」プログラミング言語、Ｐｙｔｈｏｎプログラミング言語、または類似のプログラミング言語などの手続き型プログラミング言語を含む、１つまたは複数のプログラミング言語の任意の組み合わせで書かれたソース・コードまたはオブジェクト・コードであり得る。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、スタンドアロン・ソフトウェア・パッケージとして、部分的にユーザのコンピュータ上かつ部分的にリモート・コンピュータ上で、あるいは完全にリモート・コンピュータまたはサーバ上で実行され得る。後者のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ：ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）またはワイド・エリア・ネットワーク（ＷＡＮ：ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）を含む任意のタイプのネットワークを介してユーザのコンピュータに接続され得、または（たとえば、インターネット・サービス・プロバイダを使用してインターネットを介して）外部コンピュータへの接続がなされ得る。いくつかの実施形態では、たとえば、プログラマブル論理回路、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ：ｆｉｅｌｄ－ｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、またはプログラマブル・ロジック・アレイ（ＰＬＡ：ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃａｒｒａｙ）を含む電子回路は、本発明の態様を実行するために、コンピュータ可読プログラム命令の状態情報を利用してコンピュータ可読プログラム命令を実行することによって、電子回路を個人向けにし得る。

これらのコンピュータ可読プログラム命令を、汎用コンピュータ、専用コンピュータ、または他のプログラム可能データ処理装置のプロセッサに提供して、それらの命令がコンピュータまたは他のプログラム可能データ処理装置のプロセッサを介して実行された場合に、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックにおいて指定された機能／行為を実装するための手段が生成されるようなマシンを生成し得る。また、これらのコンピュータ可読プログラム命令を、コンピュータ、プログラム可能データ処理装置、または他のデバイス、あるいはそれらの組み合わせに特定の方法で機能するように指示することが可能なコンピュータ可読記憶媒体に記憶して、命令が記憶されたコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックにおいて指定された機能／行為の態様を実装する命令を含む製造品を構成するようにし得る。

また、コンピュータ可読プログラム命令をコンピュータ、他のプログラム可能データ処理装置、または他のデバイスにロードして、コンピュータ、他のプログラム可能装置、または他のデバイス上で一連の動作ステップを実行させることによって、それらの命令がコンピュータ、他のプログラム可能装置、または他のデバイス上で実行された場合に、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックにおいて指定された機能／行為が実装されるようなコンピュータ実装処理を生成し得る。

図中のフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータ・プログラム製品の可能な実装形態のアーキテクチャ、機能、および動作を示している。これに関して、フローチャートまたはブロック図の各ブロックは、指定された論理的機能（複数可）を実装するための１つまたは複数の実行可能命令を含むモジュール、セグメント、または命令の一部を表し得る。いくつかの代替的実装形態では、ブロックに記載した機能は、図示した順序以外で行われ得る。たとえば、関与する機能に応じて、連続して示した２つのブロックは、実際には、１つのステップとして実現され得、同時に、実質的に同時に、部分的にまたは完全に時間的に重なるように実行され得、またはそれらのブロックは、場合により逆の順序で実行され得る。ブロック図またはフローチャート図あるいはその両方の各ブロック、およびブロック図またはフローチャート図あるいはその両方におけるブロックの組み合わせは、指定された機能もしくは行為を実行するか、または専用ハードウェアおよびコンピュータ命令の組み合わせを実行する専用のハードウェア・ベースのシステムによって実装できることにも気付くであろう。

Claims

積和（「ＭＡＣ」）演算用のプロセッサ・ユニットであって、
ＭＡＣ演算のセットのうちのそれぞれのＭＡＣ演算のサブセットを実行するための複数のＭＡＣユニットであって、前記複数のＭＡＣユニットのうちの各ＭＡＣユニットは、それぞれの実行ユニットと、それぞれのワンライト・ワンリード（「１Ｗ／１Ｒ」）レジスタ・ファイルとを含み、前記それぞれの１Ｗ／１Ｒレジスタ・ファイルは少なくとも１つのアキュムレータを有する、前記複数のＭＡＣユニットと、
他のレジスタ・ファイルであって、各ＭＡＣユニットの前記それぞれの実行ユニットは、前記他のレジスタ・ファイルから受け取った値のセットの積を計算し、前記計算された積を前記ＭＡＣユニットの前記少なくとも１つのアキュムレータの内容に加算することによって、前記ＭＡＣ演算のセットのうちの前記それぞれのＭＡＣ演算のサブセットを実行するように構成され、各ＭＡＣユニットは、前記それぞれのＭＡＣ演算のサブセットを単一のクロック・サイクルで実行するように構成される、前記他のレジスタ・ファイルと、
を備え、
前記複数のＭＡＣユニットのうちの各ＭＡＣユニットは関連付けられたインデックスを参照するプロセッサ命令を実行することによって、前記それぞれのＭＡＣ演算のサブセットを実行するように構成される、プロセッサ・ユニット。
前記各ＭＡＣユニットは前記関連付けられたインデックスを含む、請求項１に記載のプロセッサ・ユニット。
前記関連付けられたインデックスは、各ＭＡＣユニットの前記少なくとも１つのアキュムレータの設計されたアキュムレータ・レジスタ・インデックスを含む、請求項２に記載のプロセッサ・ユニット。
前記少なくとも１つのアキュムレータはそれぞれのアキュムレータ要素を含み、前記計算された積は前記それぞれのアキュムレータ要素の内容に加算され、各ＭＡＣユニットは、前記少なくとも１つのアキュムレータの前記それぞれのアキュムレータ要素を使用して、ＭＡＣ演算のセットのうちの前記それぞれのＭＡＣ演算のサブセットを実行するように構成される、請求項１から３のいずれか一項に記載のプロセッサ・ユニット。
ディスパッチ／発行ユニットをさらに備え、前記ディスパッチ／発行ユニットは、複数のプロセッサ命令を処理し、前記関連付けられたインデックスを使用してＭＡＣユニットを選択し、前記ＭＡＣ演算のセットを実行するために前記選択されたＭＡＣユニットにそれぞれのプロセッサ命令のセットを送るように構成される、請求項２から４のいずれか一項に記載のプロセッサ・ユニット。
前記それぞれのプロセッサ命令のセットは、前記少なくとも１つのアキュムレータを前記それぞれのプロセッサ命令のセットのソース兼ターゲット・レジスタとして示し、数のセットを含む前記他のレジスタ・ファイルの少なくとも１つのさらなるレジスタを示す少なくとも１つのオペランドをさらに含む、請求項５に記載のプロセッサ・ユニット。
前記ディスパッチ／発行ユニットは前記ＭＡＣユニットをさらに備える、請求項５または６に記載のプロセッサ・ユニット。
前記ディスパッチ／発行ユニットは、前記選択されたＭＡＣユニットが前記それぞれのプロセッサ命令のセットを単一のスレッドから受け取るように、シングル・スレッド（「ＳＴ」）モードに従って前記複数のプロセッサ命令をディスパッチするように構成される、請求項５から７のいずれか一項に記載のプロセッサ・ユニット。
前記ディスパッチ／発行ユニットは、前記選択されたＭＡＣユニットが前記それぞれのプロセッサ命令のセットを２つのスレッドのうちのいずれか一方から受け取るように、２ウェイ同時マルチスレッディング（「ＳＭＴ２」）モードに従って前記複数のプロセッサ命令をディスパッチするように構成される、請求項５から８のいずれか一項に記載のプロセッサ・ユニット。
前記ディスパッチ／発行ユニットは、前記複数のＭＡＣユニットのうちの各ＭＡＣユニットが前記それぞれのプロセッサ命令のセットをそれぞれの２つのスレッドから受け取るように、４ウェイ同時マルチスレッディング（「ＳＭＴ４」）モードに従って前記複数のプロセッサ命令をディスパッチするように構成される、請求項５から９のいずれか一項に記載のプロセッサ・ユニット。
各ＭＡＣユニットは、前記積を計算するための少なくとも１つの乗算器と、前記計算された積の前記加算を実行するための少なくとも１つの加算器とをさらに備える、請求項１から１０のいずれか一項に記載のプロセッサ・ユニット。
さらなるＭＡＣ演算のセットを実行するように構成され、前記ＭＡＣ演算のセット全てによって、出力行列の全ての要素が提供され、前記出力行列は入力行列への行列畳み込みの結果である、請求項１から１１のいずれか一項に記載のプロセッサ・ユニット。
積和（「ＭＡＣ」）演算を実行するための方法であって、
ＭＡＣユニットの乗算器において、レジスタ・ファイルから値のセットを受け取ることであって、前記ＭＡＣユニットは関連付けられたインデックスを参照するプロセッサ命令を実行することによって、前記ＭＡＣ演算を実行するように構成される、前記受け取ることと、
前記乗算器を使用して、受け取った前記値のセットの積を計算することと、
前記ＭＡＣユニットのアキュムレータの現在の内容を読み出すことと、
前記ＭＡＣユニットの加算器を使用して、読み出された前記アキュムレータの現在の内容と、計算された前記値のセットの積との和を計算することと、
計算された前記和を前記ＭＡＣユニットの前記アキュムレータに書き込むことと、
を含む、方法。
積和（「ＭＡＣ」）演算を実行するためのコンピュータ・プログラムであって、
ＭＡＣユニットの乗算器において、レジスタ・ファイルから値のセットを受け取ることであって、前記ＭＡＣユニットは関連付けられたインデックスを参照するプロセッサ命令を実行することによって、前記ＭＡＣ演算を実行するように構成される、前記受け取ることと、
前記乗算器を使用して、受け取った前記値のセットの積を計算することと、
前記ＭＡＣユニットのアキュムレータの現在の内容を読み出すことと、
前記ＭＡＣユニットの加算器を使用して、読み出された前記アキュムレータの現在の内容と、計算された前記値のセットの積との和を計算することと、
計算された前記和を前記ＭＡＣユニットの前記アキュムレータに書き込むことと、
を実行させるための、コンピュータ・プログラム。
積和（「ＭＡＣ」）ユニットであって、
実行ユニットと、
ワンライト・ワンリード（「１Ｗ／１Ｒ」）ポートのレジスタ・ファイルであって、前記１Ｗ／１Ｒポートのレジスタ・ファイルは少なくとも１つのアキュムレータを含み、前記ＭＡＣユニットの前記実行ユニットは、積を計算し、前記ＭＡＣユニットの前記少なくとも１つのアキュムレータの内容に前記積を加算することによって、ＭＡＣ演算を実行するように構成される、前記１Ｗ／１Ｒポートのレジスタ・ファイルと、
を備え、
前記ＭＡＣユニットは関連付けられたインデックスを参照するプロセッサ命令を実行することによって、前記ＭＡＣ演算のサブセットを実行するように構成される、ＭＡＣユニット。
前記関連付けられたインデックスは、前記ＭＡＣユニットの前記少なくとも１つのアキュムレータの設計されたアキュムレータ・レジスタ・インデックスを含み、前記ＭＡＣユニットは、前記設計されたアキュムレータ・レジスタ・インデックスを参照するプロセッサ命令を実行することによって、前記ＭＡＣ演算を実行するように構成される、請求項１５に記載のＭＡＣユニット。
前記ＭＡＣユニットの前記実行ユニットは、前記複数のＭＡＣ演算のうちの各ＭＡＣ演算の前記積を累積するために、同じアキュムレータを使用して、複数のＭＡＣ演算を連続的に実行するように構成される、請求項１５または１６に記載のＭＡＣユニット。
前記少なくとも１つのアキュムレータはさらに複数のアキュムレータを備え、前記ＭＡＣユニットは、前記複数のアキュムレータのうちのそれぞれのアキュムレータを使用して、複数のＭＡＣ演算を並行して実行するように構成される、請求項１５から１７のいずれか一項に記載のＭＡＣユニット。
前記積の前記計算を実行するための少なくとも１つの乗算器と、
前記積の加算を実行するための少なくとも１つの加算器と、
をさらに備える、請求項１５から１８のいずれか一項に記載のＭＡＣユニット。
前記少なくとも１つのアキュムレータはさらに複数のアキュムレータ要素を備え、前記ＭＡＣユニットは複数の乗算器と加算器とを含み、前記ＭＡＣユニットは、前記複数のアキュムレータ要素のうちのそれぞれのアキュムレータ要素と、前記複数の乗算器のうちのそれぞれの乗算器とを使用して、複数のＭＡＣ演算を並列に実行するように構成される、請求項１５から１９のいずれか一項に記載のＭＡＣユニット。