JPH1097517A

JPH1097517A - 並列乗算累算アレイ回路

Info

Publication number: JPH1097517A
Application number: JP9174661A
Authority: JP
Inventors: Thomas Ogletree; オグレトリートーマス
Original assignee: Cirrus Logic Inc
Current assignee: Cirrus Logic Inc
Priority date: 1996-06-28
Filing date: 1997-06-30
Publication date: 1998-04-14
Also published as: US5784306A; EP0817006A2; TW341685B; EP0817006A3

Abstract

(57)【要約】【課題】積の和の形で表される演算処理を高速に実行
する方法および装置を提供する。【解決手段】第１のｘビットオペランドおよび第２の
ｘビットオペランドを受け取るようそれぞれ結合され、
２ｘビットの積を生成するｎ個の複数の乗算器と、ｎ個
の複数の乗算器からｎ個の２ｘビット積を受け取るよう
に結合されるｎ個の入力を有し、１つの２ｘビット積出
力を与える第１のマルチプレクサーと、１つの２ｘビッ
ト積出力を受け取るように結合されるダウンシフト回路
であって、１つの２ｘビット積出力をｙビット分ダウン
シフトするダウンシフト回路と、ダウンシフト回路から
ダウンシフトされた出力を受け取るように結合される入
力をそれぞれ有するｍ個の複数の累算器であって、それ
ぞれ別々の算出値を累算する累算器と、ｍ個の複数の累
算器の１つから算出値を受け取るようにそれぞれが結合
されるｍ個の入力を有し、算出値の１つを供給する出力
を有する第２のマルチプレクサーと、を備えた、並列乗
算累算アレイ回路。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、演算論理回路に関
する。より具体的には、被制御の乗算、シフト、および
累算処理を行うメカニズムに関する。

【０００２】

【従来の技術】例示的な中央処理装置（CPU）は、演算
処理、特に乗算処理の実行に多大な処理時間を費やして
いる。乗算処理は、加算および減算処理と比較して、実
質的により多くのハードウェア資源および処理時間を要
する。多くのコンピュータ設計においては、CPUと一体
化される専用演算回路が用いられ、CPUはこれを用いて
演算命令を実行する。他のマイクロプロセッサ設計にお
いては、外部乗算器回路を用いて乗算命令の実行に要す
る処理時間を短くしている。一対の32ビット入力オペラ
ンドから積を求める場合、マイクロプロセッサは典型的
には32クロックサイクルを要する。ブース乗算器回路
は、上記期間を16クロックサイクルにまで低減して、２
つの32ビットオペランドから１つの積を求めることがで
きる。

【０００３】グラフィックス処理および他の処理アプリ
ケーションにおいては、下記の関係式(1)の形式の演算
処理を反復的に実行する必要がしばしば生じる。

【０００４】Ａ₁Ｂ₁＋Ａ₂Ｂ₂＋Ａ₃Ｂ₃＋Ａ₄Ｂ₄＋Ａ₅Ｂ₅＋Ａ_mＢ_m＝Ｘ１ (1) 関係式(1)は、積の和であり、オペランドＡ_mおよびＢ_m
はｚビットの数である。関係式(1)の形式の演算処理を
実行するには、反復的な乗算処理を行う必要がある。マ
イクロプロセッサは、２つのｚビット数の乗算を行うの
にｚクロックサイクルを要する。従って、上記の関係式
をマイクロプロセッサが解くには、典型的に（ｍ×ｚ）
クロックサイクルを要する。補助ブース乗算器が２つの
ｚビットの数の乗算を行うのに要するクロックサイクル
は（ｚ／２）である。しかし、この構成でも、上記関係
式を解くのに、少なくともｍ×（ｚ／２）クロックサイ
クルを要する。反復的な乗算処理をこのような速度で行
う場合、過大な時間およびリソースの割当てが必要とな
り得る。関係式(1)の形式の演算処理を実行するには、
各積値Ａ₁Ｂ₁、Ａ₂Ｂ₂、．．．を累算しなければならな
いので、さらなる処理時間およびリソースが必要とな
る。従って、計算を高速化するとともに、その機能に関
わるCPUの負荷を軽減するために、積の和の形式の演算
処理を高速に実行する方法および装置が求められてい
る。本発明は、そのようなメカニズムを提供する。

【０００５】

【発明が解決しようとする課題】積の和を計算するため
には、乗算によって積を求めたあと累算処理によって各
積を累算することが必要である。このためには、多大な
処理時間およびリソースが必要となる問題があった。

【０００６】本発明はこの問題を解決するためになされ
たものであり、その目的とするところは、積の和の形で
表される演算処理を高速に実行する方法および装置を提
供することである。

【０００７】

【課題を解決するための手段】本発明による並列乗算累
算アレイ回路は、第１のｘビットオペランドおよび第２
のｘビットオペランドを受け取るようそれぞれ結合さ
れ、２ｘビットの積を生成するｎ個の複数の乗算器と、
ｎ個の複数の乗算器からｎ個の２ｘビット積を受け取る
ように結合されるｎ個の入力を有し、１つの２ｘビット
積出力を与える第１のマルチプレクサーと、１つの２ｘ
ビット積出力を受け取るように結合されるダウンシフト
回路であって、１つの２ｘビット積出力をｙビット分ダ
ウンシフトするダウンシフト回路と、ダウンシフト回路
からダウンシフトされた出力を受け取るように結合され
る入力をそれぞれ有するｍ個の複数の累算器であって、
それぞれ別々の算出値を累算する累算器と、ｍ個の複数
の累算器の１つから算出値を受け取るようにそれぞれが
結合されるｍ個の入力を有し、算出値の１つを供給する
出力を有する第２のマルチプレクサーと、を備えた、並
列乗算累算アレイ回路であり、そのことにより上記目的
が達成される。

【０００８】ある実施形態では、第１のマルチプレクサ
ーの選択バスと、ダウンシフト回路のダウンシフト調節
バスと、ｍ個の複数の累算器のイネーブルバスと、を制
御する内部制御回路をさらに備える。

【０００９】ある実施形態では、累算器は、加算器とレ
ジスタとをそれぞれ含んでいる。

【００１０】ある実施形態では、ダウンシフト回路とｍ
個の複数の累算器との間に遅延レジスタが結合される。

【００１１】ある実施形態では、ｎ個の複数の乗算器
は、それぞれブース乗算器である。

【００１２】ある実施形態では、ダウンシフト回路が丸
めを行うように、各ブース乗算器のＰレジスタがある値
（11ビット）に初期設定される。

【００１３】ある実施形態では、ｎ＝６、ｍ＝４、ｘ＝
32、およびｙ＝12である。

【００１４】ある実施形態では、ｎ＝３、ｍ＝３、ｘ＝
32であり、ｙは、回路の各クロックサイクル毎にプログ
ラム可能である。

【００１５】ある実施形態では、ｎ個の複数の乗算器の
それぞれは、第１のｘビット値および第２のｘビット値
に関連付けられたダウンシフト値および累算イネーブル
情報のデータを格納するメモリを有する。

【００１６】本発明による別の並列乗算累算アレイ回路
は、第１のｘビットオペランドおよび第２のｘビットオ
ペランドを受け取るようそれぞれ結合され、２ｘビット
の積を生成するｎ個の複数の乗算器と、ｎ個の複数の乗
算器からｎ個の２ｘビットの積を受け取るよう結合され
るｎ個の入力を有し、１つの２ｘビットの出力を与える
第１のマルチプレクサーと、第１のマルチプレクサーの
１つの２ｘビットの出力を受け取るように結合され、１
つの２ｘビットの出力をｙビット分ダウンシフトするダ
ウンシフト回路と、ダウンシフト回路からダウンシフト
された出力を受け取るよう結合される入力をそれぞれ有
するｍ個の複数の累算器であって、それぞれ別々の算出
値を累算する累算器と、ｍ個の複数の累算器の１つから
算出値を受け取るようにそれぞれ接続されるｍ個の入力
を有し、算出値の１つを供給する出力を有する第２のマ
ルチプレクサーと、を備えた、ホストコンピュータシス
テムのグラフィックスカード内の並列乗算累算アレイ回
路であり、そのことにより上記目的が達成される。

【００１７】ある実施形態では、第１のマルチプレクサ
ーの選択バスと、ダウンシフト回路のダウンシフト調節
バスと、ｍ個の複数の累算器のイネーブルバスと、を制
御する内部制御回路をさらに備えている。

【００１８】ある実施形態では、累算器は、加算器とレ
ジスタとをそれぞれ含んでいる。

【００１９】ある実施形態では、ダウンシフト回路とｍ
個の複数の累算器との間に遅延レジスタが結合される。

【００２０】ある実施形態では、ｎ個の複数の乗算器
は、それぞれブース乗算器である。

【００２１】ある実施形態では、ダウンシフト回路が丸
めを行うように、各ブース乗算器のＰレジスタがｙビッ
トの値に初期設定され、ここにｙは回路の各クロックサ
イクル毎にプログラム可能である。

【００２２】ある実施形態では、ｎ＝６、ｍ＝４、ｘ＝
32、およびｙ＝12である。

【００２３】ある実施形態では、ｎ＝３、ｍ＝３、ｘ＝
32であり、ｙは、回路の各クロックサイクル毎にプログ
ラム可能である。

【００２４】ある実施形態では、ｎ個の複数の乗算器の
それぞれは、ダウンシフト値および累算イネーブル情報
のデータを格納するメモリを有する。

【００２５】以下に作用を説明する。被制御の乗算、シ
フト、および累算処理を行う並列乗算累算アレイ（PMA
A）回路が開示される。一対の入力オペランド信号およ
び対応する演算制御信号が、外部コントローラが制御す
るソースによってPMAA回路に同期して供給される。演算
制御信号によって、対応する入力オペランド信号対に対
してPMAA回路が行う演算処理が制御される。PMAA回路に
供給される離散入力オペランド値の各対について、１組
の離散演算制御値がPMAA回路に供給される。異なるクロ
ックサイクルの間に異なる入力オペランド値対および演
算制御値が、複数の乗算器にパイプライン方式で供給さ
れる。PMAA回路は、乗算ステージと、シフトステージ
と、累算ステージとを含む。演算制御値の各組は、乗算
後のシフト処理を制御するためのダウンシフト値（DV）
と、シフト後の累算処理を制御するための累算数（AN）
とを含む。

【００２６】PMAA回路の乗算ステージは、ｎ個の複数の
ブース乗算器（BM）と、ｎ個の複数のBMの１つから出力
積信号を受け取るようにそれぞれ結合されるｎ個の入力
を有する第１のマルチプレクサー（第１のMUX）とを含
む。ｎ個の複数のBMのそれぞれは、各BMに関連付けられ
たブース乗算器メモリ制御（BMMC）装置を有する。ｎ個
の複数のBMの１つであるBM_iに供給される離散入力オペ
ランド値の各対について、対応する演算制御値の組が、
BM_iに関連付けられたBMMC装置に供給される。演算制御
値DVおよびANは、対応する入力オペランド値がBM_iにお
いて乗算されている間、BM_iに関連付けられたBMMC装置
に格納される。積が算出されると、BM_iに対応するBMMC
装置から演算制御信号がリリースされる。BMのそれぞれ
は、Ａレジスタと、Ｂレジスタと、Ｐレジスタとを有す
る。本発明においては、Ｐレジスタのそれぞれが各乗算
処理前に初期設定される。本発明のある実施形態におい
ては、各乗算処理前に、各Ｐレジスタを２¹¹に初期設定
しておく。各BMのＰレジスタを初めに初期設定しておく
ことによって、乗算後のダウンシフト処理において丸め
処理(rounding operetion)を行うことができる。

【００２７】内部制御回路は、各BMMC装置に結合され、
ｎ個の複数のBMのそれぞれの状態（例えば、ビジー、完
了、あるいは空き）をモニタする。もし全てのBMが「ビ
ジー」であるときに新たな乗算要求が届いた場合、内部
制御回路から外部コントローラにストール信号(stall s
ignal)が送られる。BMのうちの１つであるBM_iの状態が
「空き」である場合、一対の離散入力オペランド値（Ａ
_x、Ｂ_x）がBM_iに供給されるとともに、BM_iに関連付けら
れたBMMC装置に、対応する演算制御値が供給される。BM
_iの状態が「完了」であるときは、内部制御回路はBM_iの
出力を選択し、第１のMUX選択バスを制御することによ
って第１のMUXのｉ番目の入力を選択し、第１のMUXを介
してこれを供給する。次に、内部制御回路は、BM_iに関
連付けられたBMMC装置からBM_iの演算制御値を読み出
し、これに従って、BM_iの出力積に対して行われる乗算
後の演算処理を制御する。

【００２８】PMAA回路の乗算後のシフトステージはダウ
ンシフト回路を含む。ダウンシフト回路は、ｎ個の複数
のBMの１つからの出力積値である第１のMUXの出力を受
け取るように結合される。ダウンシフト回路は、内部制
御回路によってダウンシフト回路に与えられた対応する
DVに従って、BM出力積データのシフトおよびロテート
（rotate）を行う。任意に省略可能な遅延ステージを用
いて、１クロックサイクルの間、ダウンシフト回路の出
力を格納することも可能である。

【００２９】PMAA回路の累算ステージはｍ個の累算器を
含む。ｍ個の累算器は、それぞれ、シフト回路あるいは
任意に省略可能な遅延ステージから出力信号を受け取る
ように結合される入力を有する。内部制御回路は、累算
数ANを用いて、複数のｍ個の累算器のどれをイネーブル
するかを、累算選択バスを介して選択する。ｍ個の累算
器は、それぞれ１つの加算器と１つのレジスタとによっ
て実現され得る。ｍ個の累算器はそれぞれ１つの出力を
有し、この出力は、第２のMUXへのｍ個の入力の１つに
累算値を与えるように結合される。外部制御回路は、複
数のｍ個の累算器の１つであるACC_jの出力を選択し、こ
れを、第２のMUXのｊ番目の入力が選択されるように第
２のMUX選択バスを制御することによって第２のMUXを介
して出力する。

【００３０】

【発明の実施の形態】以下に示す本発明の詳細な説明に
おいて、並列乗算累算アレイ回路を説明する。以下の説
明においては、本発明の完全な理解のために特定の詳細
部が多数示される。但し、本発明がこれらの特定の詳細
部なしでも実施され得ることが当業者には理解される。
また、本発明の局面が不必要に不明瞭にならないように
するため、周知の方法、手続き、構成部材および回路に
ついては詳細には記載していない。

【００３１】添付の図面の各図に本発明を例示するが、
本発明は、これらに限定されるものではない。各図にお
いて、同じ構成要素には同じ参照番号が付けられてい
る。

【００３２】図１に、本発明による並列乗算累算アレイ
（PMAA）回路200を用いた、例示的なホストコンピュー
タシステム112を示す。この例示的なホストコンピュー
タシステム112は、情報を通信するバス100と、バス100
に結合され、情報および命令を処理する中央処理装置10
1と、バス100に結合され、中央処理装置101のための情
報および命令を格納するランダムアクセスメモリ102
と、バス100に結合され、プロセッサ101のためのスタテ
ィックな情報および命令を格納するリードオンリーメモ
リ103と、バス100に結合される磁気ディスクあるいは光
ディスクおよびディスクドライブ等の情報および命令を
格納するためのデータ記憶装置104とを備える。プロセ
ッサ101は、演算処理および論理演算を行う演算論理装
置（ALU）と、タイミング信号および制御信号を提供す
る制御装置とを有し得る。ホストシステム112は、バス1
00を介して、グラフィックスハードウェアカード109に
データおよび制御信号を与える。グラフィックスハード
ウェアカード109（「グラフィックスアクセラレータカ
ード」）は、一連の表示コマンドを実行するグラフィッ
クスプロセッサを有する。グラフィックスハードウェア
カード109は、ALUおよび制御装置を含むプロセッサを有
し得る。グラフィックスハードウェアカード109は、
（ホストシステム112の一部であり得る）ディスプレイ
装置105にデータおよび制御信号を供給して、ディスプ
レイ装置105上に画像を表示する。

【００３３】本発明の好適な実施形態においては、PMAA
回路200はグラフィックスハードウェアカード109内に一
体化される。PMAA回路200が乗算累算処理を行うことに
よって、グラフィックスハードウェア装置109内のプロ
セッサあるいはホストプロセッサ101にかかる処理負荷
が軽減される。PMAA回路200は、回路200の外部に設けら
れるコントローラによって制御される。本明細書中にお
いて「外部コントローラ」と呼ばれるこのコントローラ
は、CPU 101、または例示的なホストプロセッサ101内若
しくは例示的なグラフィックスハードウェアカード109
内にある他のコントローラ（例えば、ALU装置）、ある
いはその他の場所にあるコントローラを含み得る。グラ
フィックスハードウェアカード109に結合されるディス
プレイ装置105は、コンピュータユーザに対して情報の
表示を行う。ディスプレイ装置105は、ユーザが認識し
得るグラフィック画像および英数字の生成に適した液晶
デバイス、陰極線管あるいは他のディスプレイ装置であ
り得る。

【００３４】図２は、乗算、シフト、および累算処理を
含む被制御の演算処理を行う、本発明による例示的なPM
AA回路200の入出力ブロック図である。図２を参照し
て、命令デコード信号(instruction decode signal)
が、外部コントローラから、演算制御／命令デコード信
号バス280を介して、PMAA回路200に供給される。命令デ
コード信号は、PMAA回路200の処理と同期している。PMA
A回路200がビジー（一時的に演算処理に使用できない状
態）である場合、ストール信号がストール出力ライン26
0を介して外部コントローラに送られる。システムクロ
ック信号は、システムクロック入力ライン250を介して
ホストシステム112（図１）からPMAA回路200に供給され
る。

【００３５】例示的なPMAA回路200ヘ／からのデータ信
号の入出力も、外部コントローラによって制御される。
例示的なPMAA回路200は、第１および第２の入力オペラ
ンドバス210および211を有する。第１および第２の入力
オペランドバス210および211は、外部コントローラによ
って制御されるメモリあるいは他の記憶ソースから、そ
れぞれ、第１（「Ａ」）および第２（「Ｂ」）の入力オ
ペランド信号を受け取る。例示的なPMAA回路200は、ア
レイ出力信号バス230も有する。本発明の好適な実施形
態においては、入力オペランド信号およびアレイ出力信
号のフォーマットは、固定小数点フォーマット（FPF）
である。固定小数点フォーマットは、２進小数点の左側
に固定数の整数ビットを有し、２進小数点の右側に固定
数の小数ビットを有する。固定小数点２進数の表記方法
は（x.y）である。ここで、ｘはその２進数における整
数ビットの数を表し、ｙはその２進数における小数ビッ
トの数を表す。本発明の好適な実施形態において、オペ
ランド入力バス210および211は、それぞれ、外部コント
ローラによって制御される外部ソースから（20.12）のF
PFフォーマットの32ビット入力オペランド信号を受け取
る。例示的なPMAA回路200は、（20.12）FPFの32ビット
アレイ出力信号を提供する。本発明において、アレイ出
力信号バス230ならびに入力オペランドバス210および21
1の固定小数点フォーマットの大きさは可変であり得
る。

【００３６】演算制御信号も、演算制御／命令デコード
信号バス280を介し、第１および第２の入力オペランド
信号と同期して、外部コントローラによって例示的なPM
AA回路200に提供される。演算制御信号は、乗算後のシ
フト処理を制御する調節制御信号（DV）と、複数の累算
器の中から累算器を選択してシフト後の累算処理を制御
する累算制御信号（AN）とを含む。第１および第２の入
力オペランド信号の各対について、回路200は対応するD
VおよびAN信号を受け取る。

【００３７】本発明の好適な実施形態においては、例示
的なPMAA回路200は、RISCコアグラフィックストライア
ングルセットアップエンジン内で用いられ、特にテクス
チャセットアップ技術において必要とされる演算処理を
実行する。グラフィックステクスチャセットアップ処理
技術においては、下記の関係式(1)〜(3)の形式の演算処
理の実行を要する乗算累算処理（例えば、離散コサイン
逆変換関数）が反復的に実行される。

【００３８】Ａ₁Ｂ₁＋Ａ₂Ｂ₂＋Ａ₃Ｂ₃＋Ａ₄Ｂ₄＋Ａ₅Ｂ₅＋Ａ_mＢ_m＝Ｘ１ (1) Ｃ₁Ｄ₁＋Ｃ₂Ｄ₂＋Ｃ₃Ｄ₃＋Ｃ₄Ｄ₄＋Ｃ₅Ｄ₅＋Ｃ_mＤ_m＝Ｘ２ (2) Ｇ₁Ｈ₁＋Ｇ₂Ｈ₂＋Ｇ₃Ｈ₃＋Ｇ₄Ｈ₄＋Ｇ₅Ｈ₅＋Ｇ_mＨ_m＝Ｘｎ (3) ここで、加算される積（例えば、Ａ₁Ｂ₁、Ａ₂Ｂ₂など）
は回路200の乗算ステージで求められ、累算結果（例え
ば、Ｘ１、Ｘ２など）は回路200の累算器ステージで保
持される。

【００３９】図3Aに、本発明による例示的なPMAA回路20
0の内部回路のブロック図を示す。例示的なPMAA回路200
は、上記関係式(1)〜(3)の形式の乗算処理および累算処
理を実行するために用いられる。ある実施形態におい
て、入力オペランドＡ、Ｂ、Ｃ、．．．は、２の補数形
式の32ビット（20.12）FPF数である。例示的なPMAA回路
200は、並列乗算ステージと、乗算後のシフトステージ
と、被制御累算ステージとを含む。

【００４０】並列乗算ステージ本発明の並列乗算ステージは、複数のｎ個のブース乗算
器BM₁、BM₂、．．．、BM_nを含む。図3Aを参照して、あ
る実施形態における例示的なPMAA回路200は、ｎ＝６個
のブース乗算器（BM）、BM₀300、BM₁301、BM₂302、BM₃3
03、BM₄304およびBM₅305を含む。但し、ｎは任意の数で
あり得る。本発明の代替的な実施形態においては、ｎ＝
３である。６つのBM 300〜305のそれぞれの第１の入力
（「Ａ」）は、第１の入力オペランドバス210に接続さ
れる。各BMの第２の入力（「Ｂ」）は、第２の入力オペ
ランドバス211に接続される。６つのBM 300〜305のそれ
ぞれは、第１のマルチプレクサー320へのｎ個の入力の
１つにBM出力積信号を与えるように結合された出力を有
する。本発明によるｎ個の複数のBMのそれぞれは、各BM
に関連付けられたブース乗算器メモリ制御（BMMC）装置
を有する。例示的なPMAA回路200は、関連付けられたBM
300〜305内にそれぞれ一体化されたBMMC装置310〜315を
含む。あるいは、BMMC装置310〜315は、対応するBMとは
別に設けられてもよい。

【００４１】外部コントローラは、演算制御／命令デコ
ード信号バス280を介して、BMMC装置310〜315のそれぞ
れへの入力に演算制御信号を与える。６つのBM 300〜30
5の１つであるBM_iに与えられる離散入力オペランドの各
対について、対応する演算制御値の組が、BM_iに関連付
けられたBMMC装置に外部コントローラによって与えられ
る。演算制御値のそれぞれの組は、乗算後のシフト処理
を制御するためのダウンシフト値DVと、複数の累算器の
中から累算器を選択して累算処理を制御するための累算
数ANとを含む。

【００４２】BMMC装置310〜315はそれぞれ１つの出力を
有する。この出力は、BMMC制御バス381を介して内部制
御回路380に結合される。内部制御回路380は、BMMC制御
バス381を介して、BMMC装置310〜315から離散演算制御
値を受け取る。内部制御回路380は、BMMC制御バス381を
介して、BMMC装置310〜315のそれぞれからBM状態制御信
号をも受け取る。BM状態制御信号は、複数のｎ個のBMの
それぞれの状態を有している。６つのBM 300〜305のそ
れぞれは、そのBMに関連付けられた状態を有し、この状
態は、そのBMがビジー、完了あるいは空きのいずれの状
態であるのかを示す。ｎ個の複数のBM 300〜305の１つ
であるBM_iが一対のオペランド信号の乗算を行っている
間、BM_iの状態は「ビジー」となる。BM_iが一対の入力オ
ペランドについて積値を求めてからそのBM出力積値が出
力されるまでの間、BM_iの状態は「完了」となる。積値
が出力されてから新たなオペランドがBM_iにロードされ
るまでの間、BM_iの状態は「空き」となる。図3Aに示す
例示的なPMAA回路200は６つのBM300〜305を有し、それ
ぞれのBMが取り得る状態は３つあるので、BM状態制御信
号には（２×６）即ち12ビットが必要となる。本発明の
好適な実施形態においては、DVは５ビット値であり、AN
は２ビット値である。但し、本発明は、これ以外の値を
用いる場合にも適している。このように、本発明の好適
な実施形態において、BMMC制御バス381は19ビットを有
する。

【００４３】第１のMUX選択バス382は、第１のMUX 320
と内部制御回路380との間に結合される。内部制御回路3
80は、第１のMUX選択バス382を用いて、BM_iに対応する
第１のMUX 320のｉ番目の入力を選択する。６つのBM 30
0〜305を用いたある実施形態において、バス382の幅は
３ビットである。

【００４４】本発明の代替的な実施形態によれば、BM 3
00〜305によって行われる乗算処理を高速化する方法お
よび装置が提供される。第１および第２の入力オペラン
ドバス210および211によって提供される第１の入力Ａお
よび第２の入力Ｂから先頭無意味ビット(leading insig
nificant bits)を排除するために、論理回路が設けられ
る。一般に、ブース乗算器は、入力オペランドの下位ビ
ットから上位ビットへと計算を進める。上位ビットが無
意味（正数のときは全て０、負数のときは全て１）であ
る場合、結果が決まっているので、この代替的な実施形
態では上位ビットの計算は行わない。この場合、 BM 30
0〜305は、先頭無意味ビットの排除分を補償するよう適
切にビットを追加することにより、部分的な乗算の結果
をダウンシフトする。この代替的な実施形態の利点は、
BM 300〜305の乗算が高速化されることにある。

【００４５】乗算後のシフトステージ PMAA回路200の乗算後のシフトステージは、ダウンシフ
ト回路330を含む。ダウンシフト回路330は、バス321を
介して、BM出力積値である第１のMUX 320の出力を受け
取るように結合される。本発明の好適な実施形態におい
ては、バス210および211を介する入力オペランド信号
は、共に、32ビット（20.12）FPF数である。従って、BM
300〜305から第１のMUX 320を介してダウンシフト回路
330に供給されるBM出力積値は、64ビット（40.24）FPF
数である。ダウンシフト回路330は、BM_iの出力積データ
を、対応するダウンシフト値（DV）に従ってシフトす
る。ダウンシフト値は、内部制御回路380によって調節
制御バス383を介してダウンシフト回路330に与えられ
る。好適な実施形態において、ダウンシフト回路330
は、５ビットの調節制御信号（DV）によって制御され
る。この調節制御信号によって、ダウンシフト回路330
は、DVビット分だけ左にシフトして、ダウンシフト回路
330に与えられたBM_iの出力積信号の下位12ビットを左へ
移動させる。シフト範囲は０〜31である。シフト後、下
位30ビットは遅延レジスタ340内にラッチされる。上位
ビットは廃棄される。

【００４６】本発明の好適な実施形態において、ダウン
シフト回路330は、バス383を介して供給される５ビット
の調節信号によって制御されるバレルシフタである。ダ
ウンシフト回路330は、バス322上の64ビット（40.24）
固定フォーマットのBM出力積信号を、バス323上の32ビ
ット（20.12）固定フォーマット信号に変換する。本発
明の好適な実施形態におけるダウンシフト回路330の機
能は、ダウンシフト回路330に与えられるBM出力積信号
の下位12ビットを左へ移動させることである。

【００４７】累算ステージ本発明のPMAA回路200の累算ステージ324はｍ個の複数の
累算器ACC0 360、ACC1361、．．．、ACCm 363を含む。
ｍ個の累算器は、それぞれ、ダウンシフトステージから
の出力信号を受け取るように結合される入力を有する。
累算選択バス384を用いて、ｍ個の複数の累算器のどれ
をイネーブルするかを選択し、これにより、ダウンシフ
トステージの出力を受け取る。図示されるように、各累
算器は、加算器（例えば、350）とレジスタ（例えば、3
60）とによって実現され得る。

【００４８】図3Aを参照して、例示的なPMAA回路200
は、４つの加算器350〜353および４つの累算器レジスタ
360〜363を含む、ｍ＝４個の累算器を有する。但し、ｍ
の値は、これより小さくても大きくてもよい。本発明の
代替的な実施形態においては、ｍ＝３である。４つの加
算器350〜353のそれぞれは、遅延レジスタ340から32ビ
ットの出力信号を受け取るように結合される第１の入力
を有する。４つの累算器レジスタ360〜363のそれぞれ
は、４つの加算器350〜353の１つから出力信号を受け取
るように結合される入力を有する。累算器レジスタ360
〜363のそれぞれの出力は、フィードバックラインを介
して、各累算器レジスタの入力が接続されている加算器
350〜353の第２の入力に結合される。具体的には、第１
の累算器レジスタ360の出力が第１の加算器350の第２の
入力に結合され、第２のレジスタ361の出力が第２の加
算器351の第２の入力に結合され、第３のレジスタ362の
出力が第３の加算器352の第２の入力に結合され、第４
のレジスタ363の出力が第４の加算器353の第２の入力に
結合される。

【００４９】本発明の好適な実施形態において、累算選
択バス384は、内部制御回路380と、４つの累算器レジス
タ360〜363のそれぞれとの間に結合され、任意の時点に
おいて、４つの累算器レジスタ360〜363のどれをイネー
ブルするかを選択（例えば、イネーブル）する。本発明
の好適な実施形態においては、２ビットの累算数（AN）
を有する４つの累算器レジスタ360〜363を制御するため
に、２ビットの累算選択バス384が必要である。

【００５０】PMAA回路200はまた第２のMUX 370を含む。
第２のMUX 370は、ｍ＝４個の入力を有し、各入力は、
４つの累算器レジスタ360〜363の１つから出力信号を受
け取るように結合される。外部コントローラは、４つの
累算器レジスタ360〜363の１つであるACC_jの出力を選択
し、これを、出力バス230を介して供給するべき第２のM
UX 370のｊ番目の入力を選択するよう第２のMUX選択バ
ス371を制御することによって、第２のMUX370を介して
出力する。

【００５１】図3Bを参照すれば、本発明のPMAA回路200
の累算ステージ324の代替的な実施形態が示される。代
替的な実施形態による累算ステージ325は、複数のｍ個
の累算器ACC0 360、ACC1 361、．．．、ACCm 363を含
む。本実施形態においては、単一の加算器354を累算器
選択マルチプレクサー358と共に用いて、ｍ個の累算器3
60〜363の１つに格納された累算値にダウンシフトステ
ージの出力を加算する。各クロックサイクルに処理され
る加算コマンドは１つだけなので、本実施形態では加算
器をｍ個ではなく１つだけ用い、これにより、回路の複
雑さおよび大きさを低減している。加算器354は、遅延
レジスタ340から32ビット出力信号を受け取るように結
合される第１の入力を有する。加算器354は、累算器選
択マルチプレクサー358から32ビット出力信号を受け取
るように結合される第２の入力を有する。４つの累算器
レジスタ360〜363のそれぞれは、加算器354から出力信
号を受け取るように結合される入力を有する。ｍ個の累
算器レジスタ360〜363のそれぞれは、累算器選択マルチ
プレクサー358へのｍ個の入力の１つに算出値を与える
ように結合される出力を有する。累算選択バス384を用
いて、２ビットの累算数（AN）を有する４つの累算器レ
ジスタ360〜363を制御することができる。また、累算選
択バス384を用いて、累算器選択マルチプレクサー358の
ｍ個の複数の入力のどれをイネーブルするかを選択する
こともできる。好適な実施形態による累算ステージ324
の場合と同様、第２のMUX 370を代替的な実施形態の累
算ステージ325とともに用いて、４つの累算器レジスタ3
60〜363の１つから出力信号を受け取ることができる。

【００５２】図４は、本発明に用いられるブース乗算器
回路400の内部回路ブロック図である。後述するプリロ
ード機能は別にして、本発明に基づいて使用されるブー
ス乗算器回路の設計は、基数(radix)４、基数８あるい
は基数16を含む、多数の周知の設計のいずれであっても
よい。本発明の好適な実施形態においては、基数16のブ
ース乗算器をBM 300〜305（図3A）として用いる。ブー
ス乗算器を用いれば、ｎビットの乗算をｎ回未満の加算
あるいは減算によって行うことができるので、乗算の高
速化が可能となる。BM回路300〜305（図3A参照）のそれ
ぞれは、例示的なブース乗算器回路400に基づいて実現
され得る。例示的なブース乗算器回路400は、Ａレジス
タ410と、Ｂレジスタ425と、Ｐレジスタ430とを含む。
本発明の好適な実施形態において、BM 300〜305のそれ
ぞれのＰレジスタ430を、32ビット入力データオペラン
ドがBM 300〜305（図3A参照）にロードされる前に、初
めに２¹¹に初期設定しておく。初めにこのように初期設
定しておくことによって、ダウンシフト回路330がその
内容を12ビット分シフトダウンする際に、丸め機能(rou
nding function)を行うことができる。一対の32ビット
離散入力オペランドをBM 400に（Ａをレジスタ410に、
Ｂをレジスタ425に）ロードし、Ｐレジスタ430を初期設
定した後で、乗算が開始される。各クロックの間、レジ
スタ410および430が、一回に２ビットづつ右にシフトさ
れる。レジスタ410の最下位（LSB）ビットおよび１つの
拡張ビットが、MUX 420を制御する選択バス426に対して
用いられる。加算器450は、バス445上の32ビット出力値
と、バス440上の32ビット値とを加算する。この演算結
果の最上位側31ビットをレジスタ430に入れ、最下位の
２ビットをレジスタ410の最上位側のビットに入れる。

【００５３】図５は、PMAA回路200を用いた被制御並列
乗算および累算処理を行う本発明の回路200の処理ステ
ップを示すフローチャートである。本発明の方法のステ
ップ502において、外部コントローラは、入力オペラン
ドＡ_xＢ_x、ダウンシフト値DV、および累算値AVをBM 300
〜305の中の空きブース乗算器BM_iにロードする。ステッ
プ504においては、BM_iが、Ａ_x×Ｂ_xを16クロックサイク
ルで処理する。この間、BM_iの状態はビジーとなる。ス
テップ506において、BM_iが処理を完了したときに、BM_i
が内部制御回路380に信号を送り、また、必要な場合に
は、BMMC制御バス381（図3A参照）を介して内部制御回
路380にDVおよびAVをロードする。ステップ508におい
て、内部制御回路380はBM_iの出力を選択し、これを、第
１のMUX 320のｉ番目の入力が選択されるように第１のM
UX選択バス382を制御することによって第１のMUX320を
介して出力する。ステップ510において、内部制御回路3
80は、BM_iのDVおよびANを読み出し、PMAA回路200のシフ
トステージおよび累算ステージにおいてBM_iの出力を処
理する際に、DVおよびANに従って調節制御バス383およ
び累算選択バス384を制御する。最終ステップ512におい
て、外部コントローラは、特定の累算器の出力を選択
し、これを、要求される第２のMUX 370の入力が選択さ
れるように第２のMUX選択バス371を制御することによっ
て、第２のMUX 370を介して出力する。

【００５４】図６は、本発明による例示的なPMAA回路20
0における、シーケンシャルにロードされる６つの入力
オペランド対の処理のタイミング関係を示す。信号601
は、PMAA回路200のシステムクロック入力ライン250に与
えられるホストシステムクロック信号である（図２参
照）。タイミングチャート610は、PMAA回路200（図3A参
照）内において、第１のBM 300にロードされる第１の離
散入力オペランド対を処理するのに要するクロックサイ
クル数を表す。時刻611は、第１の入力オペランド対が
第１のBM 300にロードされ、対応する第１の演算制御値
の組が、BM 300に関連付けられたBMMC装置310にロード
される時刻を表す（図3A参照）。時刻612は、第１のBM
300が第１の入力オペランド対の乗算を完了する時刻を
表す（図3A参照）。この時点において、BM 300の状態は
「完了」であり、内部制御回路380は、第１の入力オペ
ランド対に対応する演算制御値（AN₁およびDV₁）をBMMC
装置310から読み出し、64ビットのバス322を介して積が
提供される（図3A参照）。次に、内部制御回路380は、
調節制御バス383を介してDV₁をダウンシフト回路330に
供給するとともに、累算選択バス384を介して加算器350
〜353にAN₁を供給する（図3A参照）。時刻613は、ダウ
ンシフト回路330が32ビットのバス323を介してシフトさ
れた積出力値を生成する時刻を表す。時刻614は、外部
コントローラが、アレイ出力バス230を介して、累算器
レジスタ360〜363の１つから累算値を読み出し得る時刻
を表す（図3A参照）。

【００５５】タイミングチャート620は、PMAA回路200に
おいて、BM 301にロードされる第２の離散入力オペラン
ド対を処理するのに要するクロックサイクル数を表す
（図3A参照）。時刻621は、第２の入力オペランド対が
第２のBM 301にロードされ、対応する演算制御値の第２
の組が、第２のBM 301に関連付けられたBMMC装置311に
ロードされる時刻を表す（図3A参照）。時刻622は、第
２のBM 301が第２の入力オペランド対の乗算を完了する
時刻を表す（図3A参照）。この時刻において、BM301の
状態は「完了」であり、内部制御回路380は、第２の入
力オペランド対に対応する演算制御値AN₂およびDV₂をBM
MC装置311から読み出し、64ビットのバス322を介して積
が提供される（図3A参照）。次に、内部制御回路380
は、調節制御バス383を介してDV₂をダウンシフト回路33
0に供給するとともに、累算選択バス384を介して加算器
350〜353にAN₂を供給する（図3A参照）。時刻623は、ダ
ウンシフト回路330が、32ビットのバス323を介してシフ
トされた出力値を生成する時刻を表す。時刻624は、外
部コントローラが、バス230を介して、累算器レジスタ3
60〜363の１つから累算値を読み出し得る時刻を表す。

【００５６】タイミングチャート630、640、650および6
60は、それぞれ、BM 302、303、304および305にロード
される第３、第４、第５および第６の入力オペランド対
をPMAA回路200で処理するのに要するクロックサイクル
数を表す。タイミング関係630、640、650および660は、
入力オペランド対をロードするBMが異なることと、ロー
ドのタイミングがずれていることを除いては、タイミン
グ関係610および620と同じである。図６に示されるよう
に、例示的なPMAA回路200によれば、BM 300〜305をパイ
プライン方式で動作させて、その機能を時間的にオーバ
ーラップさせることが可能になる。この特徴によって、
最大ｎ個までの積を部分的に並列に完成することが可能
となり、速度上の大きな利点が本発明にもたらされる。

【００５７】図６を参照して、期間670は、例示的なPMA
A回路200の６つの並列BM 300〜305（図3A参照）に６つ
の異なる離散入力オペランド対をシーケンシャルにロー
ドするのに要するクロックサイクル数６を表す。期間67
1は、BM 300〜305の１つにおいて、一対の32ビット入力
オペランドの乗算を行うのに要するクロックサイクル数
16を表す。BMにロードするにはさらに１クロックサイク
ルが必要となる。期間672は、本発明の例示的なPMAA回
路200において、６つの入力オペランド対の乗算、シフ
ト、累算および出力を行うのに要するクロックサイクル
数24を表す。この期間は、本発明によって、以下に再び
示す関係式(1)を解くのに要する時間に相当する。

【００５８】Ａ₁Ｂ₁＋Ａ₂Ｂ₂＋Ａ₃Ｂ₃＋Ａ₄Ｂ₄＋Ａ₅Ｂ₅＋Ａ_mＢ_m＝Ｘ１ (1) 以上が、本発明の好適な実施形態である並列乗算累算ア
レイの説明である。特定の実施形態を用いて本発明を説
明したが、本発明がこのような実施形態に限定して解釈
されるのではなく、先に示すクレームに基づいて解釈さ
れることが理解されるべきである。

【００５９】

【発明の効果】本発明によれば、積の和の形で表される
演算処理を高速に実行する方法および装置を提供するこ
とができる。

【図面の簡単な説明】

【図１】本発明による並列乗算累算アレイ（PMAA）回路
を用いた例示的なホストシステムを示すブロック図であ
る。

【図２】本発明による例示的なPMAA回路を示す入出力ブ
ロック図である。

【図３Ａ】本発明による例示的なPMAA回路を示す内部回
路ブロック図である。

【図３Ｂ】本発明によるPMAA回路における累算ステージ
の代替的な実施形態を示す回路ブロック図である。

【図４】本発明において用いられるブース乗算器回路を
示す内部回路ブロック図である。

【図５】被制御の乗算および累算処理を行う本発明の方
法におけるステップを示すフローチャートである。

【図６】本発明よる例示的なPMAA回路におけるタイミン
グチャートである。

【符号の説明】

１０１プロセッサ１０９グラフィックスハードウェアカード２００並列乗算累算アレイ３００、３０１、３０２、３０３、３０４、３０５ブ
ース乗算器３１０、３１１、３１２、３１３、３１４、３１５ブ
ース乗算器メモリ制御装置３２０第１のマルチプレクサー３３０ダウンシフト回路３５０、３５１、３５２、３５３加算器３６０、３６１、３６２、３６３累算器レジスタ３７０第２のマルチプレクサー３８０内部制御回路

フロントページの続き (71)出願人 595158337 3100 ＷｅｓｔＷａｒｒｅｎＡｖｅｎｕｅ，Ｆｒｅｍｏｎｔ，Ｃａｌｉｆｏｒｎｉａ 94538，Ｕ．Ｓ．Ａ.

Claims

【特許請求の範囲】

【請求項１】第１のｘビットオペランドおよび第２の
ｘビットオペランドを受け取るようそれぞれ結合され、
２ｘビットの積を生成するｎ個の複数の乗算器と、該ｎ個の複数の乗算器からｎ個の２ｘビット積を受け取
るように結合されるｎ個の入力を有し、１つの２ｘビッ
ト積出力を与える第１のマルチプレクサーと、該１つの２ｘビット積出力を受け取るように結合される
ダウンシフト回路であって、該１つの２ｘビット積出力
をｙビット分ダウンシフトするダウンシフト回路と、該ダウンシフト回路からダウンシフトされた出力を受け
取るように結合される入力をそれぞれ有するｍ個の複数
の累算器であって、それぞれ別々の算出値を累算する累
算器と、該ｍ個の複数の累算器の１つから算出値を受け取るよう
にそれぞれが結合されるｍ個の入力を有し、該算出値の
１つを供給する出力を有する第２のマルチプレクサー
と、を備えた、並列乗算累算アレイ回路。
【請求項２】前記第１のマルチプレクサーの選択バス
と、前記ダウンシフト回路のダウンシフト調節バスと、前記ｍ個の複数の累算器のイネーブルバスと、を制御す
る内部制御回路をさらに備えた、請求項１に記載の回
路。
【請求項３】前記累算器は、加算器とレジスタとをそ
れぞれ含んでいる、請求項１に記載の回路。
【請求項４】前記ダウンシフト回路と前記ｍ個の複数
の累算器との間に遅延レジスタが結合される、請求項１
に記載の回路。
【請求項５】前記ｎ個の複数の乗算器は、それぞれブ
ース乗算器である、請求項１に記載の回路。
【請求項６】前記ダウンシフト回路が丸めを行う（ro
und）ように、各ブース乗算器のＰレジスタがある値（1
1ビット）に初期設定される、請求項５に記載の回路。
【請求項７】ｎ＝６、ｍ＝４、ｘ＝32、およびｙ＝12
である、請求項１に記載の回路。
【請求項８】ｎ＝３、ｍ＝３、ｘ＝32であり、ｙは、
請求項１に記載の前記回路の各クロックサイクル毎にプ
ログラム可能である、請求項１に記載の回路。
【請求項９】前記ｎ個の複数の乗算器のそれぞれは、
前記第１のｘビット値および前記第２のｘビット値に関
連付けられたダウンシフト値および累算イネーブル情報
のデータを格納するメモリを有する、請求項１に記載の
回路。
【請求項１０】第１のｘビットオペランドおよび第２
のｘビットオペランドを受け取るようそれぞれ結合さ
れ、２ｘビットの積を生成するｎ個の複数の乗算器と、該ｎ個の複数の乗算器からｎ個の２ｘビットの積を受け
取るよう結合されるｎ個の入力を有し、１つの２ｘビッ
トの出力を与える第１のマルチプレクサーと、該第１のマルチプレクサーの該１つの２ｘビットの出力
を受け取るように結合され、該１つの２ｘビットの出力
をｙビット分ダウンシフトするダウンシフト回路と、該ダウンシフト回路からダウンシフトされた出力を受け
取るよう結合される入力をそれぞれ有するｍ個の複数の
累算器であって、それぞれ別々の算出値を累算する累算
器と、該ｍ個の複数の累算器の１つから算出値を受け取るよう
にそれぞれ接続されるｍ個の入力を有し、該算出値の１
つを供給する出力を有する第２のマルチプレクサーと、
を備えた、ホストコンピュータシステムのグラフィック
スカード内の並列乗算累算アレイ回路。
【請求項１１】前記第１のマルチプレクサーの選択バ
スと、前記ダウンシフト回路のダウンシフト調節バスと、前記ｍ個の複数の累算器のイネーブルバスと、を制御す
る内部制御回路をさらに備えた、請求項10に記載の回
路。
【請求項１２】前記累算器は、加算器とレジスタとを
それぞれ含んでいる、請求項10に記載の回路。
【請求項１３】前記ダウンシフト回路と前記ｍ個の複
数の累算器との間に遅延レジスタが結合される、請求項
10に記載の回路。
【請求項１４】前記ｎ個の複数の乗算器は、それぞれ
ブース乗算器である、請求項10に記載の回路。
【請求項１５】前記ダウンシフト回路が丸めを行うよ
うに、各ブース乗算器のＰレジスタがｙビットの値に初
期設定され、ここにｙは請求項10に記載の前記回路の各
クロックサイクル毎にプログラム可能である、請求項10
に記載の回路。
【請求項１６】ｎ＝６、ｍ＝４、ｘ＝32、およびｙ＝
12である、請求項10に記載の回路。
【請求項１７】ｎ＝３、ｍ＝３、ｘ＝32であり、ｙ
は、請求項10に記載の前記回路の各クロックサイクル毎
にプログラム可能である、請求項10に記載の回路。
【請求項１８】前記ｎ個の複数の乗算器のそれぞれ
は、ダウンシフト値および累算イネーブル情報のデータ
を格納するメモリを有する、請求項10に記載の回路。