JP7461945B2

JP7461945B2 - 部分行列の順序付けを伴う行列乗算器

Info

Publication number: JP7461945B2
Application number: JP2021523783A
Authority: JP
Inventors: ヴィー．カザコフマキシム; マオジャン
Original assignee: Advanced Micro Devices Inc
Current assignee: Advanced Micro Devices Inc
Priority date: 2018-10-31
Filing date: 2019-06-18
Publication date: 2024-04-04
Anticipated expiration: 2039-06-18
Also published as: EP3891626A4; JP2023089161A; KR20210071073A; EP3891626A1; KR102586989B1; US20200133991A1; US11093580B2; WO2020091848A1; JP2022506418A; CN113168430A

Description

最近のプロセッサアプリケーションでは、ベクトル、行列、及び、同様の構造の比較的複雑な操作が必要になることがよくある。例えば、ベクトル及び行列の演算は、グラフィックス操作、デジタル信号処理アプリケーション、ニューラルネットワークアプリケーション等で有用である。これらのアプリケーションや操作の処理効率を高めるために、プロセッサは、グラフィックスプロセッシングユニット（ＧＰＵ）を含むことができる。ＧＰＵには、比較的大きなデータブロックに対する並列処理を実行するための専用ハードウェアが含まれている。したがって、ＧＰＵは、グラフィックスアプリケーションだけでなく、ベクトル及び行列の操作を必要とする他の演算もサポートすることができる。処理効率をさらに高めるために、ＧＰＵは、行列の乗算を含む特定のタイプの行列の演算を実行するための専用ハードウェアを含むことができる。ただし、この専用ハードウェアに対する従来のアプローチは、大量の電力を消費する場合があり、それによって、プロセッサのパフォーマンスに悪影響を与えることがある。

本開示は、添付の図面を参照することによってより良好に理解することができ、その多くの特徴及び利点が当業者に明らかになる。異なる図面において同じ符号を用いた場合、同様又は同一の要素であることを示す。

いくつかの実施形態による、行列乗算器への部分行列の適用を順序付けることによって行列の乗算を実行するように構成された、プロセッサのＧＰＵのブロック図である。いくつかの実施形態による、図１のＧＰＵでの乗算のための例示的な行列を示す図である。いくつかの実施形態による、図１の行列乗算器への部分行列の適用を順序付ける例を示す図である。いくつかの実施形態による、部分行列の順序付けをサポートする図１のＧＰＵの追加の態様のブロック図である。いくつかの実施形態による、ＧＰＵの行列乗算器での部分行列の適用を順序付ける方法のフロー図である。

図１～図５は、行列乗算器での部分行列の適用を順序付けて、行列乗算器の入力レジスタにおける入力変更の数を低減することによって、プロセッサのグラフィックスプロセッシングユニット（ＧＰＵ）での消費電力を低減するための技術を示している。行列乗算器は、比較的小さい行列（例えば、４×４の行列）に対して行列の乗算を実行するように構成されている。２つの大きな行列（１６×１６の行列等）を乗算するために、ＧＰＵは、大きな行列を小さな部分行列に分解し、その部分行列を行列乗算器の入力レジスタに順番に記憶して、結果行列の各列を計算する。ＧＰＵは、入力レジスタにおける部分行列の記憶を順序付けて、行列乗算器の複数の計算サイクルに亘って１つの入力レジスタで入力データを維持し、それによって、ＧＰＵにおける消費電力を低減する。

図１は、いくつかの実施形態による、部分行列の適用を順序付けることによって行列の乗算を実行するように構成されたプロセッサのＧＰＵ１００を示している。少なくとも１つの実施形態では、ＧＰＵ１００は、電子デバイスに代わって動作を実行するために命令セットを実行するように一般に構成されたプロセッサの一部である。したがって、異なる実施形態では、ＧＰＵ１００は、電子デバイス（例えば、デスクトップ又はラップトップコンピュータ、サーバ、ハンドヘルドデバイス（例えば、携帯電話又はタブレット）、ゲームコンソール等）の一部である。ＧＰＵ１００は、一般に、プロセッサに代わって、グラフィックス及びベクトルの処理演算を実行するように構成されている。例えば、いくつかの実施形態では、プロセッサの中央処理装置（図１には示されていないＣＰＵ）は、実行される演算のセットをＧＰＵに提供し、それによって、演算のセットは、グラフィックス又はベクトルの処理に関連付けられる。

ＧＰＵ１００は、提供された演算の実行を容易にするために、複数の単一命令複数データ（ＳＩＭＤ）処理ユニット（例えば、ＳＩＭＤユニット１０２，１０４）を含む。また、ＧＰＵ１００は、ＳＩＭＤユニットをサポートするための追加のモジュール（例えば、ＳＩＭＤユニットの命令をフェッチ及びデコードするためのフェッチ及びデコードロジック、ＳＩＭＤユニットのオペランドを記憶するためのレジスタファイル等）を含むことが理解されよう。入力された行列１０５のセットの行列乗算の演算をサポートするために、各ＳＩＭＤユニットは、対応する入力レジスタ及び対応する出力レジスタと共に行列乗算器を含む。例えば、ＳＩＭＤユニット１０２は、行列乗算器１１０と、入力レジスタ１０６，１０７と、出力レジスタ１０８と、を含む。「レジスタ」という用語は、行列（部分行列を含む）を記憶するように構成された任意の記憶モジュールを指すことが理解されよう。

行列乗算器１１０は、レジスタ１０６，１０７に記憶された行列を乗算し、その結果となる積をレジスタ１０８に記憶するように構成されている。入力レジスタ１０６，１０７における行列の単一の積を生成することは、本明細書では、行列乗算器１１０の「乗算サイクル」と呼ばれる。いくつかの実施形態では、ＳＩＭＤユニット１０２は、クロック信号（「ＣＬＫ」で示されている）によってクロックされ、行列乗算器１１０の乗算サイクルは、ＣＬＫクロック信号の単一のクロックサイクルに対応する。すなわち、ＣＬＫクロック信号の単一のクロックサイクルに対して、行列乗算器１１０は、入力レジスタ１０６，１０７に記憶された入力オペランドに基づいて、レジスタ１０８において積を生成するように構成されている。他の実施形態では、行列乗算器１１０の各乗算サイクルは、ＣＬＫクロック信号の複数のサイクルを必要とする。

いくつかの実施形態では、回路面積を節約するために、行列乗算器１１０は、比較的小さい入力行列の積を生成するように構成されている。例えば、いくつかの実施形態では、行列乗算器１１０は、４×４×４の乗算器であり、行列乗算器１１０は、入力レジスタ１０６に記憶された４×４の行列を、入力レジスタ１０７に記憶された４×４の行列と乗算して、出力レジスタ１０８に記憶される４×４の積（結果）を生成するように構成されている。ただし、一部のシナリオでは、ＣＰＵは、大きな行列の乗算（例えば、１６×１６の行列の乗算等）を必要とする演算をＧＰＵ１００に提供する。大きな行列の乗算をサポートするために、ＳＩＭＤは、大きな行列を複数の小さな部分行列に分解し、行列乗算器１１０で部分行列を乗算して中間結果のセットを生成し、中間結果を組み合わせて大きな行列の積を生成するように構成されている。

説明すると、いくつかの実施形態において、行列乗算器１１０は、行列Ａ（ＭＸＫの行列）及び行列Ｂ（ＫＸＮの行列）で示される入力行列を乗算して、結果行列Ｒ（ＭＸＮ）の行列を計算する。行列Ａ，Ｂは、それぞれ入力レジスタ１０６，１０７に記憶され、結果行列Ｒは、出力レジスタ１０８に記憶される。いくつかの実施形態では、行列乗算器１１０は、以下の式によって示されるように、ｉ番目の行とｊ番目の列との内積を計算することによって、結果行列Ｒを計算する。
Ｒ_ｉ，ｊ＝ＳｕｍＡ_ｉ，ｋ×Ｂ_ｋ，ｊ、ｋ＝０…Ｋ－１、ｉは［０．．Ｍ－１］、ｊは［０．．Ｎ－１］

他の実施形態では、行列乗算器１１０は、以下の式によって示されるように、Ａ行列の列ｋとＢ行列の行ｋとのＫ個の外積を合計することによって、結果行列Ｒを計算する。
Ｒ＝ＳｕｍＲ^ｋ，Ｒ^ｋ _ｉ，ｊ＝Ａ_ｉ，ｋ×Ｂ_ｋ，ｊ

大きな行列の場合、ＳＩＭＤ１０２は、入力行列を、行列乗算器１１０によって指定された入力サイズである小さい部分行列に分解し、行列乗算器１１０で部分行列を乗算して中間結果のセットを生成し、中間結果を組み合わせて最終結果行列Ｒを求める。したがって、行列乗算器が内積を計算する実施形態では、ＳＩＭＤ１０２は、入力行列を小さな部分行列に分解し、異なるセットの内積に基づいて部分行列の異なるセットの積を決定し、次に、得られた内積の外積を計算して、最終結果行列を決定する。

本明細書でさらに説明するように、異なる中間結果（異なる部分行列の積）を計算するには、入力レジスタ１０６，１０７に記憶された部分行列を変更する必要があることが理解されよう。しかし、入力レジスタに記憶されたデータの各々を変更することは、ＧＰＵ１０２において電力を消費する。さらに、対応する算術論理ユニット（ＡＬＵ）又は行列乗算器１１０の他のモジュールの入力においてデータの各々を変更することは、入力データを不変の状態に維持することに比べて、追加の電力を消費する。したがって、電力を節約するために、ＳＩＭＤ１０２は、入力レジスタ１０６，１０７での部分行列の記憶を順序付けて、その部分行列が、結果行列Ｒの計算にもはや必要とされなくなるまで、複数の連続する乗算サイクルの間、１つの入力レジスタ（例えば、レジスタ１０７）で維持されるようにする。すなわち、ＳＩＭＤ１０２は、入力レジスタ１０６，１０７での入力された部分行列の適用を順序付けて、１つのレジスタにおける入力スイッチングの量を低減し、結果として、行列乗算器１１０の１つの入力において電力を節約する。

ＧＰＵ１００での入力部分行列の順序付けの例が、図２及び図３に関して説明されている。図２は、行列Ａ及び行列Ｂと示される２つの１６×１６の行列２２０，２２２の例を示している。行列Ａ，Ｂの各々は、１６個の４×４の部分行列（例えば、行列Ａの部分行列２２１）を含む。行列Ａ，Ｂは、ＧＰＵ１０２で乗算され、行列Ｒと示される結果行列２２４を生成し、これも、複数の４×４の部分行列を含む。行列Ｒは、部分行列の列のセットとみなすことができる。例えば、Ｒの最初の列は、部分行列Ｒ_０，０，Ｒ_１，０，Ｒ_２，０，Ｒ_３，０で構成されている。以下にさらに説明するように、いくつかの実施形態では、ＧＰＵ１００は、Ｒの部分行列の各列を計算することによって行列Ｒを計算し、次に、異なる列を連結してＲ行列を形成する。いくつかの実施形態では、Ｒの部分行列の各列は、ＧＰＵ１００の異なる対応するＳＩＭＤで同時に計算され、１つのＳＩＭＤが、部分行列の列を連結してＲを形成する。

Ｒの部分行列の列を計算するために、対応するＳＩＭＤは、その行列乗算器を使用して、行列Ａ，Ｂの対応する部分行列の内積（dot）のセットを求め、内積結果に対して外積を計算する。例えば、部分行列Ｒ_０，０を生成するために、ＳＩＭＤ１０２は、以下の計算を実行する。
Ｒ_０，０＝Ａ_０，０×Ｂ_０，０
Ｒ_０，０＋＝Ａ_０，１×Ｂ_１，０
Ｒ_０，０＋＝Ａ_０，２×Ｂ_２，０
Ｒ_０，０＋＝Ａ_０，３×Ｂ_３，０
ここで、「＋＝」は、対応する積を、Ｒ_０，０の前の値に加算することを示す。同様に、部分行列Ｒ_１，０を生成するために、ＳＩＭＤ１０２は、以下の計算を実行する。
Ｒ_１，０＝Ａ_１，０×Ｂ_０，０
Ｒ_０，０＋＝Ａ_１，１×Ｂ_１，０
Ｒ_０，０＋＝Ａ_１，２×Ｂ_２，０
Ｒ_０，０＋＝Ａ_１，３×Ｂ_３，０
ＳＩＭＤ１０２は、同様の計算を実行して、部分行列Ｒ_２，０，Ｒ_３，０を生成する。

対応する部分行列を計算するための各乗算を実行するために、ＳＩＭＤ１０２は、行列Ａ及び行列Ｂの対応する部分行列をそれぞれ入力レジスタ１０６，１０７にロードし、行列乗算器１１０は、乗算を実行し、結果を出力レジスタ１０８に記憶する。ただし、上記の例から分かるように、行列Ｂの部分行列は、行列Ｒの異なる部分行列を計算するために再利用される。したがって、ＳＩＭＤ１０２は、入力レジスタ１０７に記憶された行列Ｂの部分行列が行列乗算器１１０の複数の連続する乗算サイクルに亘って変化しないように、乗算を順序付けるように構成されている。それにより、ＳＩＭＤ１０２は、入力レジスタ１０７へのロードの数、及び、行列乗算器１１０の入力の変化を低減し、これにより、電力の消費を低減する。

いくつかの実施形態による、入力される順序付けの一部の例が、図３に示されている。図３は、連続する乗算サイクル３１０～３０５のセットと、入力レジスタ１０６，１０７の各々の対応する内容を示している。したがって、図示した例では、乗算サイクル３０１において、ＳＩＭＤ１０２は、部分行列Ａ_０，０，Ｂ_０，０を、それぞれ入力レジスタ１０６，１０７にロードする。以下にさらに説明するように、行列乗算器１１０は、部分行列を乗算して、結果行列Ｒの第１の列の中間結果を計算する。次の乗算サイクル３０２（乗算サイクル３０１の直後の乗算サイクル）において、ＳＩＭＤ１０２は、部分行列Ａ_１，０を入力レジスタ１０６にロードするが、部分行列Ｂ_０，０を入力レジスタ１０７に維持する。行列乗算器１１０は、部分行列を乗算して、結果行列Ｒの第１の列の別の中間結果を計算する。

次の乗算サイクル３０３において、ＳＩＭＤ１０２は、部分行列Ａ_２，０を入力レジスタ１０６にロードするが、部分行列Ｂ_０，０を入力レジスタ１０７に維持する。行列乗算器１１０は、部分行列を乗算して、結果行列Ｒの第１の列のさらに別の中間結果を計算する。次の乗算サイクル３０４において、ＳＩＭＤ１０２は、部分行列Ａ_３，０を入力レジスタ１０６にロードするが、部分行列Ｂ_０，０を入力レジスタ１０７に維持する。行列乗算器１１０は、部分行列を乗算して、結果行列Ｒの第１の列の別の中間結果を計算する。次の乗算サイクル３０５において、部分行列Ｂ_０，０を必要とする全ての計算が完了する。したがって、乗算サイクル３０５において、ＳＩＭＤ１０２は、部分行列Ａ_０，１を入力レジスタ１０６にロードし、部分行列Ｂ_１，０を入力レジスタ１０７にロードする。したがって、図示した例では、４つの継続する（連続する）乗算サイクルにおいて、ＳＩＭＤ１０２は、入力レジスタ１０７において部分行列Ｂ_０，０を維持し、これにより、入力部分行列を変更して行列乗算結果を計算するのに必要な電力を節約する。

ＳＩＭＤ１０２は、行列乗算器１１０で乗算の演算を実行し続け、得られた積を組み合わせて、結果行列Ｒの第１の列を計算する。乗算の順序付け（入力レジスタ１０６，１０７にロード及び維持される対応する入力行列を含む）は、以下の通りである。
Ｒ_０，０＝Ａ_０，０×Ｂ_０，０
Ｒ_１，０＝Ａ_１，０×Ｂ_０，０＜＝Ｂの入力は維持
Ｒ_２，０＝Ａ_２，０×Ｂ_０，０＜＝Ｂの入力は維持
Ｒ_３，０＝Ａ_３，０×Ｂ_０，０＜＝Ｂの入力は維持（４ｘを使用）
Ｒ_０，０＋＝Ａ_０，１×Ｂ_１，０＜＝Ｂの入力を更新
Ｒ_１，０＋＝Ａ_１，１×Ｂ_１，０＜＝Ｂの入力は維持
Ｒ_２，０＋＝Ａ_２，１×Ｂ_１，０＜＝Ｂの入力は維持
Ｒ_３，０＋＝Ａ_３，１×Ｂ_１，０＜＝Ｂの入力は維持（４ｘを使用）
Ｒ_０，０＋＝Ａ_０，２×Ｂ_２，０＜＝Ｂの入力を更新
Ｒ_１，０＋＝Ａ_１，２×Ｂ_２，０＜＝Ｂの入力は維持
Ｒ_２，０＋＝Ａ_２，２×Ｂ_２，０＜＝Ｂの入力は維持
Ｒ_３，０＋＝Ａ_３，２×Ｂ_２，０＜＝Ｂの入力は維持（４ｘを使用）
Ｒ_０，０＋＝Ａ_０，３×Ｂ_３，０＜＝Ｂの入力を更新
Ｒ_１，０＋＝Ａ_１，３×Ｂ_３，０＜＝Ｂの入力は維持
Ｒ_２，０＋＝Ａ_２，３×Ｂ_３，０＜＝Ｂの入力は維持
Ｒ_３，０＋＝Ａ_３，３×Ｂ_３，０＜＝Ｒの第１の列を完了する計算

ＧＰＵ１０２は、結果行列Ｒの他の列を計算するために同様の計算を実行する。いくつかの実施形態では、ＧＰＵ１０２は、結果行列Ｒの対応する列を同時に計算するために異なるＳＩＭＤを使用し、１つのＳＩＭＤ又は他のモジュールを使用して、異なる列を最終結果行列Ｒに連結する。

図４は、いくつかの実施形態による、行列乗算器１１０の入力部分行列の順序付けをサポートする図１のＳＩＭＤ１０２の追加の態様を示している。図示した例では、ＳＩＭＤ１０２は、シーケンサ４３０に接続されたデータストア４３５を含む。データストア４３５は、行列乗算器１１０の部分行列（例えば、部分行列４３３）を記憶するように構成されたバッファ、キャッシュ、レジスタファイル又は他のメモリ構造である。シーケンサ４３０は、入力された行列１０５（行列Ａ及び行列Ｂ）を対応する部分行列に分解し、データストア４３５に部分行列を記憶するように構成されたハードウェアモジュールである。シーケンサ４３０は、対応する乗算サイクルにおいて、データストア４３５から１つ以上の部分行列を取得し、取得した各部分行列を対応する入力レジスタ１０６，１０７にロードするようにさらに構成されている。したがって、シーケンサ４３０は、比較的大きな行列の行列乗算を実行するために、行列乗算器１１０での入力部分行列の順序付けを制御する。

図５は、いくつかの実施形態による、ＧＰＵの行列乗算器での部分行列の適用を順序付ける方法のフロー図である。説明のために、方法５００は、図１のＧＰＵ１００での例示的な実装に関して説明される。ブロック５０２において、シーケンサ４３０は、初期の部分行列（例えば、部分行列Ａ_０，０及びＢ_０，０）をデータストア４３５から入力レジスタ１０６，１０７にそれぞれロードする。ブロック５０４において、行列乗算器１１０は、入力レジスタ１０６，１０７に記憶された部分行列を乗算して積を生成し、上記のように、その結果を、結果行列Ｒの対応する列が存在する場合にはその中間結果に加算する。方法のフローはブロック５０６に移動し、シーケンサ４３０は、入力レジスタ１０６の入力部分行列が行列Ａの最後の行に対応するかどうかを判別する。対応しない場合、方法のフローはブロック５０８に移動し、シーケンサ４３０は、現在の列（例えば、列０）及び次の行に対応するＡの部分行列を入力レジスタ１０６にロードする。入力レジスタ１０７に記憶されたＢの部分行列が維持されることによって、電力を節約する。方法のフローはブロック５０４に戻り、行列乗算器１１０は、次の乗算演算、すなわち、次の乗算サイクルを実行する。

ブロック５０６に戻ると、入力レジスタ１０６における入力部分行列が行列Ａの最後の行に対応する場合、方法のフローはブロック５１０に移り、シーケンサ４３０は、入力レジスタ１０７に記憶された入力部分行列が行列Ｂの最後の行に対応するかどうかを判別する。対応しない場合、方法のフローはブロック５１２に移り、シーケンサ４３０は、計算中のＲの列に対応するＢの部分行列を入力レジスタ１０７にロードする。さらに、シーケンサ４３０は、最初の行（例えば、行０）及び次の列に対応するＡの部分行列を入力レジスタ１０６にロードする。方法のフローはブロック５０４に戻り、行列乗算器１１０は、次の乗算演算を実行する。

ブロック５１０に戻ると、入力レジスタ１０７に記憶された入力部分行列が行列Ｂの最後の行に対応する場合、結果行列Ｒの対応する列の計算が完了する。したがって、方法のフローはブロック５１４に移動し、ＳＩＭＤ１０２は、Ｒの列の最終的な結果を記憶する。ブロック５１６において、ＧＰＵ１００は、計算された列の各々を組み合わせて、結果行列Ｒを生成する。いくつかの実施形態では、ＧＰＵ１０２は、さらなる処理のために結果行列ＲをＣＰＵに提供する。他の実施形態では、ＧＰＵ１００は、結果行列Ｒを使用して、例えば、表示フレーム内に１つ以上のオブジェクトを生成し、表示デバイスで表示するために表示フレームをフレームバッファに提供する。

本明細書に開示されるように、いくつかの実施形態では、方法は、グラフィックスプロセッシングユニット（ＧＰＵ）の行列乗算器の第１の乗算サイクルにおいて、第１の行列及び第２の行列を乗算することと、第１の入力レジスタに記憶された第１の行列の第１の部分行列を、第２の入力レジスタに記憶された第２の行列の第１の部分行列と乗算することと、行列乗算器の第１の乗算サイクルに続く第２の乗算サイクルにおいて、第１の入力レジスタに記憶された第１の行列の第１の部分行列を、第２の入力レジスタに記憶された第２の行列の第２の部分行列と乗算することと、第１の乗算サイクル及び第２の乗算サイクルにおいて、第１の部分行列を第１の入力レジスタに維持することと、を含む。一態様において、方法は、行列乗算器の第２の乗算サイクルに続く第３の乗算サイクルにおいて、第１の入力レジスタに記憶された第１の行列の第１の部分行列を、第２の入力レジスタに記憶された第２の行列の第２の部分行列と乗算することと、第１の乗算サイクル、第２の乗算サイクル及び第３の乗算サイクルにおいて、第１の部分行列を第１の入力レジスタに維持することと、を含む。別の態様において、第１の部分行列は、少なくとも１つの非ゼロ要素を含む。

一態様において、方法は、第１の乗算サイクル及び第２の乗算サイクルの結果に基づいて、第１の行列及び第２の行列の積を決定することであって、積は結果行列を含む、ことを含む。別の態様において、積を決定することは、第１の乗算サイクル及び第２の乗算サイクルの結果に基づいて、結果行列の部分行列を決定することを含む。さらに別の態様において、結果行列の部分行列は、結果行列の列及び行の何れかを含む。また別の態様において、積を決定することは、第１の乗算サイクル及び第２の乗算サイクルの結果に基づいて、外積を決定することを含む。さらに別の態様において、方法は、行列乗算器の第１の乗算サイクルに続く第３の乗算サイクルにおいて、第１の入力レジスタに記憶された第１の行列の第２の部分行列を、第２の入力レジスタに記憶された第２の行列の第２の部分行列と乗算することと、第３の乗算サイクルにおいて、第１の行列の第１の部分行列を、第１の行列の第２の部分行列に変更することと、を含む。

本明細書に開示されるように、いくつかの実施形態では、方法は、グラフィックスプロセッシングユニット（ＧＰＵ）の行列乗算器で第１の行列の部分行列を第２の行列の部分行列と乗算して、行列の積を決定することを含み、乗算することは、第１の複数の乗算サイクルに亘って、行列乗算器の第１の入力レジスタにおいて第１の部分行列を維持することを含む。一態様では、乗算することは、第１の複数の乗算サイクルに亘って、行列乗算器の第２の入力レジスタにおいて部分行列を変更することをさらに含む。別の態様では、乗算することは、第２の複数の乗算サイクルに亘って、行列乗算器の第２の入力レジスタにおいて第２の部分行列を維持することをさらに含む。さらに別の態様では、第１の部分行列の少なくとも１つの要素は非ゼロ要素である。

本明細書に開示されるように、いくつかの実施形態では、グラフィックスプロセッシングユニット（ＧＰＵ）は、第１の入力レジスタと、第２の入力レジスタと、第１の入力レジスタに記憶された部分行列を、第２の入力レジスタに記憶された部分行列と乗算するための行列乗算器と、第１の入力レジスタ及び第２の入力レジスタに記憶された部分行列を制御するためのシーケンサと、を備え、シーケンサは、行列乗算器の第１の乗算サイクルにおいて、第１の行列の第１の部分行列を第１の入力レジスタに記憶し、第２の行列の第１の部分行列を第２の入力レジスタに記憶し、行列乗算器の第１の乗算サイクルに続く第２の乗算サイクルにおいて、第１の行列の第１の部分行列を第１の入力レジスタに維持し、第２の行列の第２の部分行列を第２の入力レジスタに記憶する、ように構成されている。一態様において、シーケンサは、行列乗算器の第１の乗算サイクルに続く第３の乗算サイクルにおいて、第１の入力レジスタに記憶された第１の行列を維持し、第２の行列の第２の部分行列を第２の入力レジスタに記憶するように構成されている。別の態様において、第１の部分行列は、少なくとも１つの非ゼロ要素を含む。

一態様において、ＧＰＵは、第１の乗算サイクル及び第２の乗算サイクルの結果に基づいて、第１の行列と第２の行列の積を決定するように構成されており、積は結果行列を含む。別の態様では、ＧＰＵは、第１の乗算サイクル及び第２の乗算サイクルの結果に基づいて結果行列の部分行列を決定することによって、積を決定するように構成されている。また別の態様では、結果行列の部分行列は、結果行列の列及び行の何れかを含む。さらに別の態様では、ＧＰＵは、第１の乗算サイクル及び第２の乗算サイクルの結果に基づいて外積を決定することによって、積を決定するように構成されている。別の態様では、シーケンサは、行列乗算器の第１の乗算サイクルに続く第３の乗算サイクルにおいて、第１の行列の第２の部分行列を第１の入力レジスタに記憶し、第２の行列の第２の部分行列を第２の入力レジスタに記憶するように構成されている。

コンピュータ可読記憶媒体は、命令及び／又はデータをコンピュータシステムに提供するために、使用中にコンピュータシステムによってアクセス可能な任意の非一時的な記憶媒体又は非一時的な記憶媒体の組み合わせを含む。このような記憶媒体には、限定されないが、光学媒体（例えば、コンパクトディスク（ＣＤ）、デジタル多用途ディスク（ＤＶＤ）、ブルーレイ（登録商標）ディスク）、磁気媒体（例えば、フロッピー（登録商標）ディスク、磁気テープ、磁気ハードドライブ）、揮発性メモリ（例えば、ランダムアクセスメモリ（ＲＡＭ）若しくはキャッシュ）、不揮発性メモリ（例えば、読取専用メモリ（ＲＯＭ）若しくはフラッシュメモリ）、又は、微小電気機械システム（ＭＥＭＳ）ベースの記憶媒体が含まれ得る。コンピュータ可読記憶媒体（例えば、システムＲＡＭ又はＲＯＭ）はコンピューティングシステムに内蔵されてもよいし、コンピュータ可読記憶媒体（例えば、磁気ハードドライブ）はコンピューティングシステムに固定的に取り付けられてもよいし、コンピュータ可読記憶媒体（例えば、光学ディスク又はユニバーサルシリアルバス（ＵＳＢ）ベースのフラッシュメモリ）はコンピューティングシステムに着脱可能に取り付けられてもよいし、コンピュータ可読記憶媒体（例えば、ネットワークアクセス可能ストレージ（ＮＡＳ））は有線又は無線ネットワークを介してコンピュータシステムに結合されてもよい。

いくつかの実施形態では、上記の技術のいくつかの態様は、ソフトウェアを実行するプロセッシングシステムの１つ以上のプロセッサによって実装されてもよい。ソフトウェアは、非一時的なコンピュータ可読記憶媒体に記憶され、又は、非一時的なコンピュータ可読記憶媒体上で有形に具現化された実行可能命令の１つ以上のセットを含む。ソフトウェアは、１つ以上のプロセッサによって実行されると、上記の技術の１つ以上の態様を実行するように１つ以上のプロセッサを操作する命令及び特定のデータを含むことができる。非一時的なコンピュータ可読記憶媒体は、例えば、磁気若しくは光ディスク記憶デバイス、例えばフラッシュメモリ、キャッシュ、ランダムアクセスメモリ（ＲＡＭ）等のソリッドステート記憶デバイス、又は、他の１つ以上の不揮発性メモリデバイス等を含むことができる。非一時的なコンピュータ可読記憶媒体に記憶された実行可能命令は、ソースコード、アセンブリ言語コード、オブジェクトコード、又は、１つ以上のプロセッサによって解釈若しくは実行可能な他の命令フォーマットであってもよい。

上述したものに加えて、概要説明において説明した全てのアクティビティ又は要素が必要とされているわけではなく、特定のアクティビティ又はデバイスの一部が必要とされない場合があり、１つ以上のさらなるアクティビティが実行される場合があり、１つ以上のさらなる要素が含まれる場合があることに留意されたい。さらに、アクティビティが列挙された順序は、必ずしもそれらが実行される順序ではない。また、概念は、特定の実施形態を参照して説明された。しかしながら、当業者であれば、特許請求の範囲に記載されているような本発明の範囲から逸脱することなく、様々な変更及び変形を行うことができるのを理解するであろう。したがって、明細書及び図面は、限定的な意味ではなく例示的な意味で考慮されるべきであり、これらの変更形態の全ては、本発明の範囲内に含まれることが意図される。

利益、他の利点及び問題に対する解決手段を、特定の実施形態に関して上述した。しかし、利益、利点、問題に対する解決手段、及び、何かしらの利益、利点若しくは解決手段が発生又は顕在化する可能性のある特徴は、何れか若しくは全ての請求項に重要な、必須の、又は、不可欠な特徴と解釈されない。さらに、開示された発明は、本明細書の教示の利益を有する当業者には明らかな方法であって、異なっているが同様の方法で修正され実施され得ることから、上述した特定の実施形態は例示にすぎない。添付の特許請求の範囲に記載されている以外に本明細書に示されている構成又は設計の詳細については限定がない。したがって、上述した特定の実施形態は、変更又は修正されてもよく、かかる変更形態の全ては、開示された発明の範囲内にあると考えられることが明らかである。したがって、ここで要求される保護は、添付の特許請求の範囲に記載されている。

Claims

第１の行列及び第２の行列を乗算するグラフィックスプロセッシングユニット（ＧＰＵ）の行列乗算器の第１の乗算サイクルにおいて、第１の入力レジスタに記憶された前記第１の行列の第１の部分行列を、第２の入力レジスタに記憶された前記第２の行列の第１の部分行列と乗算することと、
前記行列乗算器の前記第１の乗算サイクルに続く第２の乗算サイクルにおいて、前記第１の入力レジスタに記憶された前記第１の行列の前記第１の部分行列を、第２の入力レジスタに記憶された前記第２の行列の第２の部分行列と乗算することと、前記第１の乗算サイクル及び前記第２の乗算サイクルにおいて、前記第１の部分行列を前記第１の入力レジスタに維持することと、
前記第２の乗算サイクルに続く第３の乗算サイクルにおいて、前記第１の入力レジスタに記憶された前記第１の行列の第２の部分行列を、前記第２の入力レジスタに記憶された前記第２の行列の前記第２の部分行列と乗算することと、
前記第３の乗算サイクルにおいて、前記第１の行列の前記第１の部分行列を、前記第１の行列の前記第２の部分行列に変更することと、を含む、
方法。
前記第１の部分行列は、少なくとも１つの非ゼロ要素を含む、
請求項１の方法。
前記第１の乗算サイクル及び前記第２の乗算サイクルの結果に基づいて、前記第１の行列及び前記第２の行列の積を決定することであって、前記積は結果行列を含む、ことをさらに含む、
請求項１の方法。
前記積を決定することは、
前記第１の乗算サイクル及び前記第２の乗算サイクルの結果に基づいて、前記結果行列の部分行列を決定することを含む、
請求項３の方法。
前記結果行列の前記部分行列は、前記結果行列の列及び行の何れかを含む、
請求項４の方法。
前記積を決定することは、
前記第１の乗算サイクル及び前記第２の乗算サイクルの結果に基づいて、外積を決定することを含む、
請求項３の方法。
グラフィックスプロセッシングユニット（ＧＰＵ）の行列乗算器で第１の行列の部分行列を第２の行列の部分行列と乗算して、行列の積を決定することを含み、
前記乗算することは、
第１の複数の乗算サイクルに亘って、前記行列乗算器の第１の入力レジスタにおいて第１の部分行列を維持することと、
前記第１の複数の乗算サイクルに亘って、前記行列乗算器の第２の入力レジスタにおいて部分行列を変更することと、
第２の複数の乗算サイクルに亘って、前記行列乗算器の前記第２の入力レジスタにおいて第２の部分行列を維持することと、を含む、
方法。
前記第１の部分行列の少なくとも１つの要素は非ゼロ要素である、
請求項７の方法。
第１の入力レジスタと、
第２の入力レジスタと、
前記第１の入力レジスタに記憶された部分行列を、前記第２の入力レジスタに記憶された部分行列と乗算するための行列乗算器と、
前記第１の入力レジスタ及び前記第２の入力レジスタに記憶された部分行列を制御するためのシーケンサと、を備え、
前記シーケンサは、
前記行列乗算器の第１の乗算サイクルにおいて、第１の行列の第１の部分行列を前記第１の入力レジスタに記憶し、第２の行列の第１の部分行列を前記第２の入力レジスタに記憶し、
前記行列乗算器の前記第１の乗算サイクルに続く第２の乗算サイクルにおいて、前記第１の行列の前記第１の部分行列を前記第１の入力レジスタに維持し、前記第２の行列の第２の部分行列を前記第２の入力レジスタに記憶し、
前記第２の乗算サイクルに続く第３の乗算サイクルにおいて、前記第１の行列の第２の部分行列を前記第１の入力レジスタに記憶し、前記第２の行列の前記第２の部分行列を前記第２の入力レジスタに記憶するように構成されている、
グラフィックスプロセッシングユニット（ＧＰＵ）。
前記第１の部分行列は、少なくとも１つの非ゼロ要素を含む、
請求項９のＧＰＵ。
前記ＧＰＵは、
前記第１の乗算サイクル及び前記第２の乗算サイクルの結果に基づいて、前記第１の行列と前記第２の行列の積を決定するように構成されており、
前記積は結果行列を含む、
請求項９のＧＰＵ。
前記ＧＰＵは、
前記第１の乗算サイクル及び前記第２の乗算サイクルの結果に基づいて前記結果行列の部分行列を求めることによって、前記積を決定するように構成されている、
請求項１１のＧＰＵ。
前記結果行列の前記部分行列は、前記結果行列の列及び行の何れかを含む、
請求項１２のＧＰＵ。
前記ＧＰＵは、
前記第１の乗算サイクル及び前記第２の乗算サイクルの結果に基づいて外積を決定することによって、前記積を決定するように構成されている、
請求項１１のＧＰＵ。