JP2023531917A

JP2023531917A - 小さいフットプリントの算術論理装置を有する処理装置

Info

Publication number: JP2023531917A
Application number: JP2022578594A
Authority: JP
Inventors: マントルマイケル; ホービン; シャーシュブ
Original assignee: Advanced Micro Devices Inc
Current assignee: Advanced Micro Devices Inc
Priority date: 2020-06-26
Filing date: 2021-06-24
Publication date: 2023-07-26
Also published as: KR20230025897A; US20210405968A1; WO2021262970A1; EP4172753A1; CN115885250A; US11720328B2; US20240143283A1

Abstract

並列処理装置［１０４］は、比較的小さいフットプリントを有する算術論理装置（ＡＬＵ）［１１５］を使用し、それによって、処理装置の全体的な電力消費及び回路面積を低減する。より小さいフットプリントをサポートするために、ＡＬＵは、受信した命令に対応する演算を実行する複数のステージを含む。ＡＬＵは、受信した命令によって示される精度で少なくとも１つの演算を実行し、その後、少なくとも１つの演算の結果データをより小さいサイズに低減してから、ＡＬＵの別のステージに結果を提供して、命令の実行を継続する。【選択図】図１

Description

（関連出願の相互参照）
本願は、２０２０年６月２６日に出願された「ＰＲＯＣＥＳＳＩＮＧＵＮＩＴＷＩＴＨＳＭＡＬＬＦＯＯＴＰＲＩＮＴＡＲＩＴＨＭＥＴＩＣＬＯＧＩＣＵＮＩＴ」と題する米国仮特許出願第６３／０４４，５４４号の優先権を主張し、その全体が、参照により本明細書に組み込まれる。

演算処理が複雑化するにつれて、プロセッサは、プロセッサの代わりに所定の演算を実行するように特別に設計され構成された処理装置を使用することが多くなってきた。例えば、人工知能、機械学習及び同様の演算を効率的に実行するために、幾つかのプロセッサは、複数のデータセットで単一のプログラムの複数のインスタンスを同時に実行する複数の処理要素（一般に、プロセッサコア又は計算装置とも呼ばれる）を有する１つ以上の人工知能（ＡＩ）アクセラレータを使用する。プロセッサの中央処理装置（ＣＰＵ）は、ＡＩアクセラレータにコマンドを提供し、ＡＩアクセラレータのコマンドプロセッサ（ＣＰ）は、コマンドを１つ以上の演算に復号する。１つ以上の算術論理装置（ＡＬＵ）等のアクセラレータの実行装置は、人工知能機能及び同様の演算を実行する。

本開示は、添付の図面を参照することによってより良く理解され、その多数の特徴及び利点が当業者に明らかになる。異なる図面における同じ符号の使用は、類似又は同一のアイテムを示す。

幾つかの実施形態による、比較的小さいフットプリントを有する算術論理装置（ＡＬＵ）を有する処理装置を含むプロセッサのブロック図である。幾つかの実施形態による、オペランドをＡＬＵの別のステージに渡す前にＡＬＵオペランドのサイズを低減するソート・アライメントステージを有する、図１のＡＬＵのブロック図である。幾つかの実施形態による、オペランドをＡＬＵの別のステージに渡す前にＡＬＵオペランドのサイズを低減する一例を示す、図２のＡＬＵのブロック図である。幾つかの実施形態による、処理装置のＡＬＵにおけるＡＬＵオペランドのサイズを低減する方法のフロー図である。

図１～図４は、人工知能（ＡＩ）アクセラレータ等の並列処理装置が、比較的小さいフットプリントを有する算術論理装置（ＡＬＵ）を使用し、それによって処理装置の全体的な電力消費及び回路面積を低減するシステム及び技術を示す。より小さいフットプリントをサポートするために、ＡＬＵは、受信した命令に対応する演算を実行する複数のステージを含む。ＡＬＵは、受信した命令によって示される精度で少なくとも１つの演算を実行し、その後、少なくとも１つの演算の結果データ（すなわち、中間結果）をより小さいサイズに低減してから、ＡＬＵの別のステージに結果を提供して、命令の実行を継続する。各連続ステージについても同様に実行する。これらの中間結果のサイズが低減されるので、ＡＬＵの後のステージは、それらの対応する演算をサポートするために比較的小さいレジスタ及びより少ない量の他の回路を使用することができ、それによってＡＬＵの全体サイズ及び電力消費を低減する。

例を用いて示すと、幾つかの実施形態では、ＡＬＵは、ドット積命令（dot product instruction）等の積和命令を実行するステージを含み、乗算器ステージは、Ｎ個のオペランドのセットを乗算してＮ個の積を生成し、加算器ステージは、Ｎ個の積を加算して最終的なドット積結果を生成する。ＡＬＵは、乗算器ステージと加算器ステージとの間に、Ｎ個の積のサイズを低減するアライメントステージ（alignment stage）を含む。例えば、幾つかの実施形態では、アライメントステージは、Ｎ個の積のうち最大の積を識別し、対応する仮数をシフトすることによって、他の積を最大の積とアライメントする。シフト処理中、仮数の下位ビットが破棄され、各仮数が指定されたサイズ（例えば３２ビット）にセットされる。対照的に、従来のＡＬＵは、最終的なドット積結果の完全な精度を保証するために、アライメントステージにおいて比較的大きな仮数（例えば、８０ビット以上の仮数）を使用し、加算器ステージが大きなレジスタ及びより多数の加算器要素を使用することを必要とし、したがって、より大量の電力及び回路面積を消費する。

図１は、幾つかの実施形態による、小さいフットプリントＡＬＵを有するプロセッサ１００のブロック図である。プロセッサ１００は、概して、電子デバイスの代わりに指定されたタスクを実行するために、命令セット（例えば、コンピュータプログラム）を実行するように構成されている。したがって、異なる実施形態では、プロセッサ１００は、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、サーバ、ゲームコンソール、スマートフォン等の一部である。電子デバイスの代わりに命令の実行をサポートするために、プロセッサ１００は、中央処理装置（ＣＰＵ）１０２及び人工知能（ＡＩ）アクセラレータ１０４を含む。幾つかの実施形態では、プロセッサ１００は、メモリモジュール（例えば、１つ以上のキャッシュを含むメモリ階層）、入力／出力（Ｉ／Ｏ）インタフェース、グラフィック処理装置（ＧＰＵ）等の追加処理装置等のように、命令実行をサポートするための図１に示されていない追加モジュール及び回路を含む。

命令セットを効率的に実行するために、プロセッサ１００は、概して、異なるタイプの演算をＣＰＵ１０２及びＡＩアクセラレータ１０４に割り当てる。したがって、幾つかの実施形態では、ＣＰＵ１０２は、メモリから命令セットをフェッチすることと、それらの命令を演算セットに復号することと、演算を実行することと、実行された命令を中断することと、を含む、プロセッサ１００用の汎用操作を実行する。これらの汎用操作の一例は、オペレーティングシステムを実行して、メモリ管理、電子デバイスのためのユーザインタフェースの提供等のような、電子デバイスのための管理操作を実行することである。

ＣＰＵ１０２によって実行される汎用操作とは対照的に、ＡＩアクセラレータ１０４は、機械学習、ニューラルネットワーク、推論エンジン、エキスパートシステム、深層学習等に関連する演算等のような人工知能演算に関連する演算を効率的に実行するモジュール及び回路を含む。したがって、異なる実施形態では、ＡＩアクセラレータ１０４は、ベクトル処理装置、グラフィック処理装置（ＧＰＵ）、汎用ＧＰＵ（ＧＰＧＰＵ）、非スカラ処理装置、高並列処理装置、ＡＩ処理装置、推論エンジン、機械学習処理装置、ニューラルネットワーク処理装置、他のマルチスレッド処理装置等のように、人工知能に関連する演算を実行するために使用される幾つかの処理装置のうち何れかである。

ＡＩ演算の実行をサポートするために、ＡＩアクセラレータ１０４は、コマンドプロセッサ（ＣＰ）１０６と、計算装置（ＣＵ）１１０、１１１、１１２を含む複数の計算装置と、を含む。コマンドプロセッサ１０６は、ＣＰＵ１０２からコマンド（例えば、コマンド１１８）を受信し、各コマンドは、ＡＩアクセラレータ１０４において実行される１つ以上のＡＩ演算を示す。例えば、異なる実施形態では、コマンド１１８は、ニューラルネットワーク演算（例えば、ニューラルネットワークトレーニングのための畳み込み演算、推論演算等）、機械学習演算、ベクトル処理演算等、又は、それらの任意の組み合わせのうち１つ以上を示す。ＣＰ１０６は、コマンドを解釈し、１つ以上の命令（例えば、命令１１７）を生成し、命令は、実行されるＡＩ演算を記述する。

計算装置１１０～１１２の各々は、ＣＰ１０６によって生成された命令を実行する回路を含む。したがって、幾つかの実施形態では、計算装置１１０、１１２の各々は、受信した命令を実行するために、１つ以上のベクトルストリームプロセッサ（ＶＳＰ）、単一命令複数データ（ＳＩＭＤユニット）、他の処理要素、又は、それらの任意の組み合わせを含む。幾つかの実施形態では、処理効率を高めるために、ＣＰ１０６は、命令を、ウェーブフロント（wavefront）又はワープと呼ばれ得る指定されたセットに編成し、指定されたスケジューリング基準に従って、ウェーブフロントを計算装置１１０～１１２のうち異なるものに割り当てる。各計算装置は、他の計算装置と並列に、ウェーブフロントの割り当てられた部分を実行する。

例えば、ウェーブフロントは、ニューラルネットワークの態様を表す大きな行列の要素等のような比較的大きなデータ要素のセットを用いて、指定された算術演算セットを実行すると仮定する。ウェーブフロントを実行するために、ＣＰ１０６は、行列の要素の異なるサブセットを異なる計算装置に割り当て、各計算装置は、対応する割り当てられた要素のサブセットを用いて、算術演算の指定されたセットを並列に実行する。これにより、計算装置は、データ要素の大きなセットに対して算術演算を効率的に実行する。

算術演算を実行するために、各計算装置は、計算装置１１０のＡＬＵ１１５等の１つ以上のＡＬＵを含む。幾つかの実施形態では、計算装置１１０は、命令バッファから命令をフェッチするフェッチステージと、復号ステージと、ＡＬＵ１１５に加えて実行装置と、実行された命令を中断させる中断ステージと、を含む、命令実行をサポートする追加ステージを含む命令パイプライン（図示省略）を含む。復号ステージは、フェッチステージから受信した命令（例えば、命令１１７）を１つ以上の演算に復号し、演算のタイプに従って、演算を何れかの実行装置に渡す回路を含む。幾つかの実施形態では、各演算は、対応するオペコードによって識別され、復号ステージは、オペコードに基づいて実行装置を識別し、オペコードを示す情報を、実行装置に提供する。実行装置は、オペコード又はそれに基づく情報を使用して、実行される演算のタイプを判定し、指示された演算を実行する。

例えば、幾つかの演算及び関連するオペコードは、算術演算を示す。受信した命令が算術演算を示すことを識別したことに応じて、復号ステージは、演算のためのオペコードを判定し、算術演算のために使用されるオペランド等の他の情報とともに、オペコードをＡＬＵ１１５に提供する。ＡＬＵ１１５は、レジスタファイル又は他のメモリロケーションに記憶された示されたオペランドを使用して、オペコードによって示された演算を実行する。幾つかの実施形態では、ＡＬＵ１１５によって提供される演算は、オペランドの精度及び実行される演算を示す。例えば、幾つかの実施形態では、復号ステージは、１６ビットオペランドを使用する１６ビット乗算演算のための１つの演算（及び対応するオペコード）を提供し、３２ビットオペランドを使用する３２ビット乗算演算のための別の演算（及び対応するオペコード）を提供する。

更に、復号ステージは、対応するオペコードを用いて、混合精度算術演算のための演算を生成し、混合精度演算は、異なるサイズのオペランドを使用する。例えば、幾つかの実施形態では、復号ステージは、対応する命令に基づいて、１つのサイズ（例えば、１６ビット）のオペランドを乗算し、結果を異なるサイズ（例えば、３２ビット）のオペランドで累算する積和算（ＭＡＣＣ）演算を生成する。例えば、幾つかの実施形態では、演算は、２つの１６ビット浮動小数点オペランドの４つのセットを乗算し、乗算結果を互いに加算し、３２ビット浮動小数点オペランドに加算する（ＤＯＴ４＿Ｆ３２＿Ｆ１６と指定される）混合精度ドット積演算を含む。

ＡＬＵ１１５は、乗算演算を実行する１つ以上の乗算器を含む乗算ステージ、及び、加算を実行する加算ステージ等のように、異なる算術演算を実行する異なるステージを含む。ＤＯＴ４＿Ｆ３２＿Ｆ１６演算等のようなより複雑な算術演算の場合、ＡＬＵは、対応する演算を実行する異なるステージを使用して、結果を１つのステージから別のステージに渡す。例えば、ＤＯＴ４＿Ｆ３２＿Ｆ１６演算を実行するために、ＡＬＵ１１５は、乗算ステージにおいて乗算演算を実行し、加算ステージにおいて加算演算を実行する。

従来、算術演算の完全な精度を維持するために、ＡＬＵは、各ステージにおいて比較的大きなオペランドを維持する。例えば、ＤＯＴ４＿Ｆ３２＿Ｆ１６演算の完全な精度を維持するために、乗算積に８０ビットの仮数が使用される。すなわち、ＤＯＴ４＿Ｆ３２＿Ｆ１６演算の完全な精度を維持するために、ＡＬＵは、通常、８０ビット以上の仮数を使用して乗算ステージによって生成された積を記憶する。これらの比較的大きなオペランドを使用すると、ＡＬＵ１１５の加算ステージにおいてより大きなレジスタ及びより多数の加算要素を必要とすること等によって、比較的大量の回路面積及び電力が消費される。しかしながら、ＡＩ演算を含む幾つかのタイプの演算の場合、これらの比較的大きい仮数を維持しても、演算の全体的な結果が改善されない。例えば、場合によっては、ＡＩ演算によって使用されるデータオペランドは、比較的低精度のオペランドであり、オペランドを高精度に維持しても、ＡＩ演算の全体的な結果に有意な影響を及ぼさない。

電力消費を低減し、比較的小さいフットプリントをサポートするために、ＡＬＵ１１５は、ＡＬＵ１１５の１つのステージによって生成されたオペランドのサイズをそれらのオペランドが次のステージに渡される前に低減するソート・アライメントステージ１２０を含む。例えば、幾つかの実施形態では、ＤＯＴ４＿Ｆ３２＿Ｆ１６演算の場合、ソート・アライメントステージ１２０は、乗算ステージによって生成された仮数のサイズを、加算のためにそれらの仮数を加算器ステージに提供する前に低減する。

例示すると、幾つかの実施形態では、ソート・アライメントステージ１２０は、乗算ステージから積を受信し、各積は、指定されたサイズの仮数（例えば、３２ビット仮数）及び対応する指数によって表される浮動小数点オペランドである。ソート・アライメントステージ１２０は、指定された仮数サイズに対応するレジスタ（例えば、３２ビット仮数を記憶する３２ビットレジスタ）に各仮数を記憶する。ソート・アライメントステージ１２０は、受信した積の中から最大の積を識別する。他の積の場合、ソート・アライメントステージ１２０は、仮数をシフトし、各積が最大の積と同じ指数を有するまで、対応する指数に対して対応する調整を行う。シフト処理中、各仮数が仮数レジスタに維持され、場合によっては、仮数の下位ビットがレジスタからシフトアウトされ、結合されて各仮数の対応するスティッキービット（sticky bit）を形成する。言い換えれば、仮数のうち少なくとも幾つかは、各仮数を比較的小さいレジスタに維持するために、全体サイズ又はビット幅が低減される。

シフト及び指数調整の後、ソート・アライメントステージ１２０は、オペランドを加算器ステージに提供して、積の加算を実行する。上述したように、シフト及び指数調整のために、積の仮数が比較的小さいレジスタに維持される。したがって、加算ステージは、比較的少数の加算器要素を使用して積の加算を実行することができ、それによって、ＡＬＵ１１５の小さいフットプリントをサポートする。

図２は、幾つかの実施形態による、ＡＬＵ１１５をより詳細に示すブロック図である。図示した例では、ＡＬＵ１１５は、複数の行列乗算器（ＭＭ）２３０、２３１、２３２、２３３と、累算器２３４と、ソート・アライメントステージ１２０と、融合加算器（fused adder）２３８と、正規化・丸めステージ（normalize-and-round stage）２３９と、を含む。行列乗算器２３０～２３３及び累算器２３４は、ＡＬＵ１１５の乗算ステージを形成する。特に、浮動小数点ドット積演算（例えば、ＤＯＴ４＿Ｆ３２＿Ｆ１６演算）の場合、行列乗算器２３０～２３３の各々は、浮動小数点入力オペランドの対応するセットを受信し、受信したオペランドとの浮動小数点乗算を実行して積（例えば、積２４０）を生成する。

累算器２３４は、行列乗算器２３０～２３３によって生成された積に加算される定数Ｃを記憶又は生成する。幾つかの実施形態では、定数Ｃは、ドット積演算によって識別されるオペランドであり、累算器２３４は、識別されたオペランドを記憶するレジスタである。他の実施形態では、定数Ｃは、計算装置１１０において実行される他の演算に基づく累算値であり、累算器２３４は、定数Ｃの累算を実行する回路を含む。

ソート・アライメントステージ１２０は、行列乗算器２３０～２３３から積を受信し、累算器２３４から定数Ｃを受信し、ソート・アライメント処理を介して加算するためにこれらのオペランドを準備する。ソート・アライメント処理をサポートするために、ソート・アライメントステージ１２０は、オペランドサイズモジュール２２２と、オペランドシフトモジュール２２４と、を含む。オペランドサイズモジュール２２２は、受信した積及び定数Ｃのうち何れが最大値を有するかを識別する回路を含む。オペランドシフトモジュール２２４は、受信したオペランドをシフトし、対応する指数に対して対応する調整を行う回路を含み、各オペランドがオペランドサイズモジュール２２２によって識別された最大オペランドとアライメントされる。

例を用いて示すと、場合によっては、オペランドサイズモジュール２２２は、Ｎの指数値を有する最大オペランドとして積２４０を識別する。オペランドサイズモジュール２２２は、Ｎ－２の指数値を有する積２４０より小さいものとして、積Ａと指定される別の積を更に識別する。オペランドシフトモジュール２２４は、積Ａの指数を値Ｎに調整し、それに対応して、積Ａの仮数を２ビット右にシフトして、２つの最下位ビットが仮数からシフトアウトされる。幾つかの実施形態では、オペランドシフトモジュール２２４は、シフトされた仮数のスティッキービットを生成するために、論理ＯＲ演算を介して、シフトアウトされたビットを結合する。

オペランドシフトモジュール２２４によるシフトの結果、全ての積及び定数Ｃが加算のためにアライメントされる。上述したように、シフト処理中、少なくとも幾つかの積の下位ビットが破棄され、積の全てが指定されたサイズのレジスタ（例えば、３２ビットレジスタ）に維持される。場合によっては、シフトは、ドット積演算によって要求されるよりも低い精度を有する積をもたらす。例えば、幾つかの実施形態では、ドット積演算は、指定された命令セットアーキテクチャ（例えば、ｘ８６命令セットアーキテクチャ）に準拠するために、単精度演算又は倍精度演算を指定する等のように、演算に関連する精度を示す。指定された精度を保証するために、従来のＡＬＵは、ソート・アライメントステージにおいて大きなレジスタを使用して、仮数ビットがソート・アライメント処理中に破棄されないようにする。対照的に、ソート・アライメントステージ１２０は、シフト・アライメント処理中に仮数ビットが破棄されることを可能にし、仮数が比較的小さいレジスタに維持される。

融合加算器２３８は、（アライメントされた定数Ｃを含む）アライメント積２４１をソート・アライメントステージ１２０から受信する。融合加算器２３８は、アライメント積２４１の仮数値を加算して、結果となる仮数の暫定値を生成する。仮数値を加算するために、融合加算器２３８は複数の加算器要素を含み、各加算器要素は少なくとも２ビットの対応する仮数を加算する。アライメント積２４１の仮数は、上述したように、比較的小さいレジスタに維持されるので、融合加算器２３８は、比較的少ない加算器要素を使用し、それによって、ＡＬＵ１１５について、低減されたフットプリント及びより低い電力消費をサポートする。

融合加算器２３８は、暫定仮数値を正規化する、正規化・丸めステージ２３９に暫定仮数値を提供する。例えば、幾つかの実施形態では、正規化・丸めステージ２３９は、暫定仮数値をシフトして、仮数における任意の先行ゼロを除去する。幾つかの実施形態では、正規化・丸めステージ２３９は、暫定仮数値を調整して、暫定仮数値の整数部分を指定された値（例えば、１）にする。仮数に対して行われた調整に基づいて、正規化モジュールは、提供された暫定指数値を調整し、浮動小数点結果値の全体値を保存する。

正規化後、正規化・丸めステージ２３９は、結果を最も近い偶数値に丸める等のように、指定された丸め規則に基づいて結果を丸め、それによって最終結果２４５を生成する。

図３は、行列乗算器２３０～２３３によって生成された積の仮数をアライメントするソート・アライメントステージ１２０の一例を示す図である。図示した例では、各仮数は、レジスタ３５０、３５１、３５２、３５３、３５４と指定される対応するレジスタに記憶される。仮数は、上から下へオペランドサイズの降順で示されている。したがって、行列乗算器２３２によって生成されたオペランドは、最大オペランドであり（すなわち、最大値を有し）、対応する（Ｍ結果３と指定される）仮数がレジスタ３５０に記憶される。行列乗算器２３０によって生成されたオペランドは、２番目に大きいオペランドであり、対応する（Ｍ結果１と指定される）仮数がレジスタ３５１に記憶される。行列乗算器２３３によって生成されたオペランドは、２番目に大きいオペランドであり、対応する（Ｍ結果４と指定される）仮数がレジスタ３５２に記憶される。行列乗算器２３２によって生成されたオペランドは、２番目に大きいオペランドであり、対応する（Ｍ結果２と指定される）仮数がレジスタ３５３に記憶される。最後に、累算器２３４によって生成されたオペランドは最小オペランド（最小値を有するオペランド）であり、対応する（ＡＣＣ結果と指定される）仮数がレジスタ３５４に記憶される。

オペランドをアライメントするために、ソート・アライメントステージ１２０は、各オペランドの指数をシフトし、各指数と最大オペランドとを一致させる。その後、ソート・アライメントステージ１２０は、対応する指数の変化を考慮して、各仮数をシフトする。したがって、例えば、オペランドの指数が２増加する場合、シフト・アライメントモジュール１２０は、対応する仮数を２ビット位置だけ右にシフトする。

異なる仮数の対するアライメントされる点の区切りは、線３５９によって表される。すなわち、線３５９は、全ての仮数がアライメントされる点を表す。最大オペランドの仮数より小さい各仮数は、仮数の幾つかの部分が線３５９の右にあるように右にシフトされる。これらの部分はグレーで塗りつぶされて示されており、仮数のスティッキービットを形成するために使用され、その後破棄される仮数のビットを示す。したがって、図示した例では、Ｍ結果１オペランドについて、ソート・アライメントステージ１２０がオペランドを右にシフトし、ビット３５５がスティッキービット生成モジュール３６０に提供されて、Ｍ結果１のスティッキービットを生成する。その後、ビット３５５が破棄され、加算中、融合加算器２３８によって使用されない。同様に、Ｍ結果４については、ビット３５６が対応するスティッキービットを形成するために使用され、その後破棄され、Ｍ結果２については、ビット３５７が対応するスティッキービットを形成するために使用され、その後破棄され、Ａｃｃ結果については、ビット３５８が対応するスティッキービットを形成するために使用され、その後破棄される。

図示したように、ビット３５５～３５８を表す影付き領域は、異なるサイズであり、対応する各仮数について、異なる数のビットがシフトアウトされ破棄されることを示す。例えば、幾つかの実施形態では、ビット３５５は１ビットを表し、ビット３５６は３ビットを表し、ビット３５７は４ビットを表し、ビット３５８は８ビットを表す。更に、場合によっては、２つ以上のオペランドが最も大きい指数を有し、その結果、対応する仮数の２つ以上がソート・アライメント処理中にシフトされない。

図４は、幾つかの実施形態による、演算中に１つ以上のオペランドの一部を破棄することによって算術論理装置においてドット積演算を実行する方法４００を示す図である。方法４００は、図１のＡＬＵ１１５における例示的な実装に関して説明される。ブロック４０２において、ＡＬＵ１１５は、単精度オペランド又は倍精度オペランド等の指定された精度の浮動小数点オペランドを受信する。ブロック４０４において、乗算器２３０～２３３は、対応するオペランドを乗算して、対応する積を生成する。更に、累算器２３４は累算を実行して定数Ｃを生成する。

ブロック４０６において、ソート・アライメントステージ１２０は、積及び定数Ｃのうち何れが最大値を有するかを判定する。ブロック４０８において、ソート・アライメントステージ１２０は、全ての積及び定数Ｃが最大値の指数に一致する指数を有するように、各積及び定数Ｃの指数を調整する。その後、ソート・アライメントステージ１２０は、対応する指数の任意の変化に対応するように各仮数をシフトする。上述したように、シフト中に、１つ以上の仮数の下位ビットが、シフトアウトされ、仮数のスティッキービットを形成するために使用され、その後破棄される。ブロック４１０において、融合加算器２３８は、アライメントされた仮数を加算し、その後、正規化・丸めステージ２３９によって正規化され、丸められて、結果２４５を生成する。

本明細書で説明するように、幾つかの実施形態では、方法が、命令に応じて、算術論理装置（ＡＬＵ）の対応する複数のステージを介して、複数のオペランドを使用して、複数の算術演算を処理装置のＡＬＵにおいて実行することと、複数のステージのうち第１のステージと第２のステージとの間で、複数のオペランドのうち第１のオペランドを低減することと、を含み、第１のオペランドを低減させることは、第１のオペランドの少なくとも一部を破棄することを含む。一態様では、本方法が、複数のステージのうち第１のステージと第２のステージとの間で、複数のオペランドのうち第２のオペランドを低減することを含み、第２のオペランドを低減することは、第２のオペランドの少なくとも一部を破棄することを含む。別の態様では、第１のオペランドの破棄された部分は、第２のオペランドの破棄された部分とは異なるサイズである。更に別の態様では、命令が積和命令である。更に別の態様では、第１のオペランドを低減することは、ＡＬＵのソート・アライメントステージにおいて第１のオペランドを低減することを含む。

一態様では、第１のオペランドを低減することは、第１のオペランドの仮数をシフトすることによって、第１のオペランドを低減し、第２のオペランドの仮数とアライメントすることを含む。別の態様では、第１のオペランドの仮数をシフトすることは、第２のオペランドが複数のオペランドのうち最大オペランドであると判定したことに応じて、第１のオペランドの仮数をシフトして第２のオペランドの仮数とアライメントすることを含む。更に別の態様では、本方法が、第１のオペランドの破棄された部分に基づいて第１のオペランドのスティッキービットを生成することを含む。更に別の態様では、本方法が、第１のオペランドのシフトされた仮数を第２のオペランドに加算することを含む。

幾つかの実施形態では、処理装置が、受信した命令に基づいて、複数のオペランドを使用して、対応する複数の算術演算を実行する複数のステージを含む算術論理装置（ＡＬＵ）を含み、ＡＬＵが、複数のステージのうち第１のステージと第２のステージとの間で、複数のオペランドのうち第１のオペランドを低減することであって、第１のオペランドを低減することが、第１のオペランドの少なくとも一部を破棄することを含む。一態様では、ＡＬＵが、複数のステージのうち第１のステージと第２のステージとの間で、複数のオペランドのうち第２のオペランドを低減することであって、第２のオペランドを低減することが、第２のオペランドの少なくとも一部を破棄することを含む。別の態様では、第１のオペランドの破棄された部分が、第２のオペランドの破棄された部分とは異なるサイズである。

一態様では、命令が積和命令である。別の態様では、ＡＬＵが、第１のオペランドを低減するソート・アライメントステージを含む。更に別の態様では、ソート・アライメントステージが、第１のオペランドの仮数をシフトすることによって、第１のオペランドを低減し、第２のオペランドの仮数とアライメントさせる。更に別の態様では、ソート・アライメントステージが、第２のオペランドが複数のオペランドのうち最大オペランドであると判定したことに応じて、第１のオペランドの仮数をシフトして、第２のオペランドの仮数とアライメントさせる。別の態様では、ソート・アライメントステージが、第１のオペランドの破棄された部分に基づいて第１のオペランドのスティッキービットを生成する。更に別の態様では、ソート・アライメントステージが、第１のオペランドのシフトされた仮数を第２のオペランドに加算する加算器を含む。

幾つかの実施形態では、処理装置が、算術論理装置（ＡＬＵ）を含み、ＡＬＵが、第１の算術演算を実行する第１のステージと、第１のオペランドの一部分を破棄することによって第１のステージによって生成された第１のオペランドを低減する第２のステージと、低減された第１のオペランドを使用して第２の算術演算を実行する第３のステージと、を含む。一態様では、第１の算術演算が乗算演算であり、第２の算術演算が加算演算である。

幾つかの実施形態では、上述した技術の特定の態様は、ソフトウェアを実行する処理システムの１つ以上のプロセッサによって実装される。ソフトウェアは、非一時的なコンピュータ可読記憶媒体に記憶されるか、別の方法で明確に具体化された実行可能命令の１つ以上のセットを含む。ソフトウェアは、命令及び特定のデータを含んでもよく、当該命令及び特定のデータは、１つ以上のプロセッサによって実行されると、上述した技術の１つ以上の態様を実行するように１つ以上のプロセッサを操作する。非一時的なコンピュータ可読記憶媒体は、例えば、磁気又は光ディスク記憶デバイス、フラッシュメモリ等のソリッドステート記憶デバイス、キャッシュ、ランダムアクセスメモリ（ＲＡＭ）、又は、他の不揮発性メモリデバイス（単数又は複数）等を含み得る。非一時的なコンピュータ可読記憶媒体に記憶された実行可能命令は、ソースコード、アセンブリ言語コード、オブジェクトコード、又は、１つ以上のプロセッサによって解釈され若しくは別の方法で実行可能な他の命令形式で実装可能である。

上述したものに加えて、概要説明において説明した全てのアクティビティ又は要素が必要とされているわけではなく、特定のアクティビティ又はデバイスの一部が必要とされない場合があり、１つ以上のさらなるアクティビティが実行される場合があり、１つ以上のさらなる要素が含まれる場合があることに留意されたい。さらに、アクティビティが列挙された順序は、必ずしもそれらが実行される順序ではない。また、概念は、特定の実施形態を参照して説明された。しかしながら、当業者であれば、特許請求の範囲に記載されているような本発明の範囲から逸脱することなく、様々な変更及び変形を行うことができるのを理解するであろう。したがって、明細書及び図面は、限定的な意味ではなく例示的な意味で考慮されるべきであり、これらの変更形態の全ては、本発明の範囲内に含まれることが意図される。

利益、他の利点及び問題に対する解決手段を、特定の実施形態に関して上述した。しかし、利益、利点、問題に対する解決手段、及び、何かしらの利益、利点若しくは解決手段が発生又は顕在化する可能性のある特徴は、何れか若しくは全ての請求項に重要な、必須の、又は、不可欠な特徴と解釈されない。さらに、開示された発明は、本明細書の教示の利益を有する当業者には明らかな方法であって、異なっているが同様の方法で修正され実施され得ることから、上述した特定の実施形態は例示にすぎない。添付の特許請求の範囲に記載されている以外に本明細書に示されている構成又は設計の詳細については限定がない。したがって、上述した特定の実施形態は、変更又は修正されてもよく、かかる変更形態の全ては、開示された発明の範囲内にあると考えられることが明らかである。したがって、ここで要求される保護は、添付の特許請求の範囲に記載されている。

Claims

命令［１１７］に応じて、処理装置［１０４］の算術論理装置（ＡＬＵ）［１１５］において、複数のオペランドを使用して、前記ＡＬＵの対応する複数のステージを介して複数の算術演算を実行することと、
前記複数のステージのうち第１のステージ［２３０］と第２のステージ［２３８］との間で前記複数のオペランドのうち第１のオペランド［２４０］を低減することであって、前記第１のオペランドを低減することは、前記第１のオペランドの少なくとも一部［３５５］を破棄することを含む、ことと、を含む、
方法。
前記複数のステージのうち前記第１のステージと前記第２のステージとの間で前記複数のオペランドのうち第２のオペランドを低減することを更に含み、前記第２のオペランドを低減することは、前記第２のオペランドの少なくとも一部［３５６］を破棄することを含む、
請求項１の方法。
前記第１のオペランドの破棄された部分は、前記第２のオペランドの破棄された部分と異なるサイズである、
請求項２の方法。
前記命令は、積和命令である、
請求項１の方法。
前記第１のオペランドを低減することは、前記ＡＬＵのソート・アライメントステージ［１２０］において前記第１のオペランドを低減することを含む、
請求項４の方法。
前記第１のオペランドを低減することは、前記第１のオペランドの仮数をシフトして第２のオペランドの仮数とアライメントすることによって、前記第１のオペランドを低減することを含む、
請求項５の方法。
前記第１のオペランドの仮数をシフトすることは、前記第２のオペランドが前記複数のオペランドのうち最大オペランドであると判定したことに応じて、前記第１のオペランドの仮数をシフトして前記第２のオペランドの仮数とアライメントすることを含む、
請求項６の方法。
前記第１のオペランドの破棄された部分に基づいて、前記第１のオペランドのスティッキービットを生成することを更に含む、
請求項６の方法。
前記第１のオペランドのシフトされた仮数を前記第２のオペランドに加算することを更に含む、
請求項６の方法。
処理装置［１０４］であって、
受信した命令［１１７］に基づいて、複数のオペランドを使用して、対応する複数の算術演算を実行する複数のステージを含む算術論理装置（ＡＬＵ）［１１５］を備え、
前記ＡＬＵは、前記複数のステージのうち第１のステージ［２３０］と第２のステージ［２３８］との間で前記複数のオペランドのうち第１のオペランド［２４０］を低減することであって、前記第１のオペランドを低減することは、前記第１のオペランドの少なくとも一部［３５５］を破棄することを含む、ことを行うように構成されている、
処理装置［１０４］。
前記ＡＬＵは、前記複数のステージのうち前記第１のステージと前記第２のステージとの間で前記複数のオペランドのうち第２のオペランドを低減することであって、前記第２のオペランドを低減することは、前記第２のオペランドの少なくとも一部［３５６］を破棄することを含む、ことを行うように構成されている、
請求項１０の処理装置。
前記第１のオペランドの破棄された部分は、前記第２のオペランドの破棄された部分と異なるサイズである、
請求項１１の処理装置。
前記命令は、積和命令である、
請求項１０の処理装置。
前記ＡＬＵは、前記第１のオペランドを低減するソート・アライメントステージ［１２０］を含む、
請求項１３の処理装置。
前記ソート・アライメントステージは、前記第１のオペランドの仮数をシフトして第２のオペランドの仮数とアライメントすることによって、前記第１のオペランドを低減する、
請求項１４の処理装置。
前記ソート・アライメントステージは、前記第２のオペランドが前記複数のオペランドのうち最大オペランドであると判定したことに応じて、前記第１のオペランドの仮数をシフトして前記第２のオペランドの仮数とアライメントする、
請求項１５の処理装置。
前記ソート・アライメントステージは、前記第１のオペランドの破棄された部分に基づいて、前記第１のオペランドのスティッキービットを生成する、
請求項１５の処理装置。
前記ソート・アライメントステージは、前記第１のオペランドのシフトされた仮数を前記第２のオペランドに加算する加算器を含む、
請求項１５の処理装置。
処理装置［１０４］であって、
算術論理装置（ＡＬＵ）［１１５］を備え、
前記ＡＬＵ［１１５］は、
第１の算術演算を実行する第１のステージ［２３０］と、
第１のオペランドの一部［３５５］を破棄することによって、前記第１のステージによって生成された第１のオペランド［２４０］を低減する第２のステージ［１２０］と、
低減された第１のオペランドを使用して第２の算術演算を実行する第３のステージ［２３８］と、を備える、
処理装置［１０４］。
前記第１の算術演算は乗算演算であり、前記第２の算術演算は加算演算である、
請求項１９の処理装置。