JP3391448B2

JP3391448B2 - 除算器

Info

Publication number: JP3391448B2
Application number: JP51132992A
Authority: JP
Inventors: 功一黒岩
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1991-06-07
Filing date: 1992-06-05
Publication date: 2003-03-31
Anticipated expiration: 2018-03-31
Also published as: WO1992022027A1; US5377135A; KR930701784A; KR950007879B1; EP0543024A1; EP0543024A4; EP0543024B1

Description

【発明の詳細な説明】 2.技術分野本発明は、除算器、特に高基数非回復型の除算器であ
って、その除算器自体、またはその除算器を含む浮動小
数点コプロセッサやベクトルプロセッサに関する。 3.背景技術一般に、除算は概念的には乗算の逆処理と考えられて
いるが、乗算と多くの点で相違している。第１に、除算
では前後の処理が独立ではなく順序性を持つ点である。
乗算においては、すべての部分積を同時に得ることが可
能であるためこのような順序性はなく、したがって、乗
算と比べて除算では演算サイクルが余分にかかる。第２
に、除算は決定論的な処理ではなく試行錯誤的な処理で
あるという点である。すなわち、繰返し演算の過程にお
いて部分商の予測処理を必要とし、例えば、あるデジッ
ト集合の中から一連の商の各デジットを選ぶというデジ
ット選択規則が使われる。第１図は、従来の除算器のブロック図であり、高基数
非回復型除算器の例である。ここで、除算の方式は、デ
ジット集合の違いから回復型除算（restoring divisio
n）と非回復型除算（nonrestoring division）に分ける
ことができる。回復型は、筆算による除算と本質的に同
一であり実現も容易であるが、商デジット中に０が多い
と実行時間が遅くなることがある。これは、部分剰余が
負の場合に部分剰余を回復するための処理（加算）が別
途必要となることに起因する。これに対して非回復型
は、剰余の絶対値が除数より小さい限り負の剰余を正に
回復する必要がなく、かかる余分な加算処理を要しない
点で有利である。なお、かかる除算方法については、例
えば「Computer Arithmetic PRINCIPLES,ARCHITECTURE,
AND DESIGN」Kai Hwang著,John Wiley ＆ Sons,Inc.発
行の第７章または特開昭61−7939号公報（昭和61年１月
14日公開）「高基数非回復型除算装置」に説明されてい
る。高基数非回復型除算器は、２より大きな基数（高基
数）を使用するもので、基数の増大に伴って除算命令の
実行に必要な繰返し回数を急速に減少でき、実行時間を
短縮化できる。第１図において、１は除数レジスタ、２は被除数レジ
スタ、３は倍数発生部、４は加減算部、５は補数発生
部、６は商予測部、７は商補正部、８は商レジスタであ
る。なお、商予測部６は、回路規模削減のために、部分
剰余の正・負何れかに対応する１つのものが備えられ
る。演算処理の大まかな流れは、まず、除数レジスタ１
の内容（DSR）をｍ倍（ｍは倍数発生部３で発生した倍
数）し、そのmDSRと被除数レジスタ２の内容（PR）と
を加算した後、加算結果（部分剰余）の最上位ビット
（符号ビット）に従ってセレクタ5aを切換え、加算結果
の符号ビットを除く上記ｎビット（以下、便宜的にｎ＝
５）または補数変換回路5bの出力（加算結果の符号ビッ
トを除く上位５ビットの補数変換したもの）の何れか一
方をデコーダ5c（詳細構成は後述の「発明を実施するた
めの最良の形態」の欄で説明する）に与える。例えば、
符号ビットが０（正符号）であれば加算結果の５ビット
をそのまま与え、符号ビットが１（負符号）であれば補
数を与える。そして、デコーダ5cの出力と除数レジス
タ１の内容とに基づいて部分商予測信号を生成し部分商
を決定するといった一連の動作をデジット毎に繰り返
す。しかしながら、かかる従来の除算器にあっては、加算
結果（但し符号ビットを除く上位５ビット）または補数
変換後の同加算結果を、同加算結果の符号ビットに従っ
て択一的に選択する構成となっていたため、符号ビット
が確定するまではデコード処理を開始することができな
いから、例えば、加算結果の符号ビットを除く上位５ビ
ットの確定時点から加算結果の符号ビットの確定時点ま
での遅延時間（便宜的にｔα）が、デコーダ5cの処理時
間（便宜的にｔβ）に加算されてしまうといった問題点
がある。特に除算を極めて多数回繰り返して行なうベク
トルプロセッサでは前記遅延による影響が大きい。第２図は補数発生部５の具体的な回路図である。符号
ビットを除く５ビットの加算結果は、そのままの論理で
セレクタ5aのＡ入力に与えられると共に、インバータ
（補数変換回路5b）によって論理反転（すなわち補数変
換）されてＢ入力に与えられる。Ａ、Ｂ入力の選択は加
算結果の最上位ビット（符号ビット）に依存し、符号ビ
ットが０であればＡ入力が、１であればＢ入力が選択さ
れるようになっている。ここで、加算結果の全ビットの確定は、最上位ビット
（一般に符号ビット）へのキャリー伝播後であり、上記
セレクタ5aの出力すなわちデコーダ5cへの入力確定は、
少なくとも加減算部４におけるキャリー伝播の最大値に
相当する時間後である。しかし、セレクタ5aのＡ、Ｂ入
力には、キャリー伝播の最大値に相当する時間前にデー
タが与えられているため、配線遅延やインバータ5bの遅
延等を無視すれば、符号ビットを除く加算結果の５ビッ
トの確定時点から、同加算結果の符号ビットの確定時点
までの時間に相当する無駄な遅延時間（ｔα）が生じる
のである。本発明は、このような技術的課題に鑑みてなされたも
ので、キャリー伝播に伴って発生する無駄な遅延時間
（ｔα）をデコード処理時間（ｔβ）で吸収してより一
層の演算時間の短縮化を図ることを目的とする。 4.発明の開示本発明の目的は、商予測値に基づく情報により除数の
倍数値を求める倍数発生手段（10）と、該除数の倍数値
と被除数との演算結果及び該演算結果の極性を表す符号
ビットを出力する演算処理手段（11）と、該符号ビット
の生成中に該演算結果のデコード処理を開始し、該演算
結果のデコード信号と該演算結果の補数のデコード信号
を出力するデコード処理手段（12）と、該演算結果のデ
コード信号と該演算結果の補数のデコード信号のいずれ
かを該符号ビットに従って選択する選択手段（13）と、
該選択手段（13）の出力に基づいて商予測値を生成する
商予測値生成手段（14）とを備えることを特徴とする除
算器、あるいは、今回の演算結果の符号ビットと先回の
演算結果の符号ビットに基づいて前記商予測値生成手段
（14）の出力を補正する商補正部を備える前記除算器に
よって達成される。本発明では、演算結果の最上位ビット（符号ビット）
の確定を待つことなくデコード処理が開始され、その
後、符号ビットが確定した時点で当該符号ビットにより
デコード信号が選択されるので、キャリー伝搬に伴って
発生する無駄な遅延時間（ｔα）がデコード処理時間
（ｔβ）によって吸収され演算時間の短縮化を図ること
ができ、さらに、選択したデコード信号に基づいて商予
測値を生成しているので回路規模を従来と同等に抑える
ことができる。 5.図面の簡単な説明第１図は従来例のブロック図、第２図は従来例の要部構成図、第３図は本発明の原理図、第４図は本発明を適用したベクトルプロセッサの全体
構成図、第５図は第４図の除算回路（DIV）のブロック図、第６図は第５図の仮数除算部のブロック図、第７図は第６図の倍数発生部の概念構成図、第８図は第６図の加減算部のブロック図、第９図は第８図のCPAのブロック図、第10図は第９図の１つのブロックの構成図、第11図は第６図のセレクト群の１つのセレクタの構成
図、第12図は第６図の商予測部（QP）の予測テーブル図、第13図は第６図の商予測部（QP）の信号生成テーブル
図、第14図は第６図の商補正部（QG）の補正条件テーブル
図、第15図は従来例と本発明との遅延時間を対比するタイ
ミングチャートである。 6.発明を実施するための最良の形態本発明の除算器は、例えば第４図にその全体構成図を
示すベクトルプロセッサに用いることができる。ベクト
ルプロセッサでは、１回のコマンドに基づき除算を高速
に極めて多数回繰り返す必要がある為、１除算サイクル
を短縮できる本願発明の効果は大きい。第４図において、ベクトルプロセッサは、ベクトル演
算ユニット（VU）100、バスユニット（BU）200、アドレ
スユニット（AU）300、制御ユニット400およびコマンド
バッファユニット（CBU）500からなり、各ユニット間が
データバス600やアドレスバス700を介して互いに接続さ
れている。ベクトル演算ユニット100は、ベクトルデータを格納
するベクトルレジスタ（VR）101、スカラデータを格納
するスカラレジスタ（VSR）102、マスクデータを格納す
るベクトルマスクレジスタ（VMR）103、加算回路（AD
D）104、乗算回路（MUL）105、除算回路（DIV）106、マ
スクデータ生成回路107、データ取り込みラッチ108およ
びデータ出力ラッチ109などを含む。上記除算回路106が
本発明の除算器に相当するものである。なお、バスユニット200は64ビット幅のデータの入出
力を調停するもの、アドレスユニット300は32ビット幅
のアドレスの入・出力を調停するもの、制御ユニット40
0はパイプラインコントローラ401やスコアボード402お
よびデコードユニット403を含み、ベクトルプロセッサ
の動作をコントロールするもの、コマンドバッファユニ
ット500は１キロバイト程度の容量のベクトルコマンド
バッファ（VCB）501内に演算に必要な各コマンドを格納
するものである。なお、アドレスユニット300内のVTRは
ベクトルトランスレーションレジスタ、TLBは変換索引
バッファであり、これらは仮想アドレスから実アドレス
への変換時に使用される。このような構成のベクトルプロセッサにおいて、演算
データは、ロード命令に従ってAU300で発生したアドレ
スにより、外部メモリから読み出され、VU101のデータ
取り込みラッチ108を経てVR101に格納される。 VCB501に命令が格納されると、CU400内のコマンドス
タートレジスタ（図示略）のスタートビットに“1"が書
き込まれ、CU400は、VCB501の命令をデコードユニット4
03に送り、VU100のどのパイプラインの命令かを解読し
てその結果をVU100に通知する。この解読は、１サイク
ルごとに行われ、当然に演算のスタートも１サイクルご
とにかかる。その際、異なる演算器でベクトルレジスタ
101を共有する恐れがあるが、そのチェックはCU400内の
パイプラインコントローラ401およびスコアボード402が
行い、共有を回避するようになっている。スタートがか
けられた演算器（ADD104、MUL105、DIV106またはマスク
データ生成回路107）は定められた演算処理を実行し、
その演算結果はストア命令に従って外部メモリに書き込
まれる。ここで、VU100内の演算処理は、ロード／ストアパイ
プライン処理、マスクパイプライン処理、グラフィック
パイプライン処理、加減算パイプライン処理、乗算パイ
プライン処理および除算パイプライン処理に分けられ
る。マスクパイプライン処理は演算を省略するデータをベ
クトルレジスタ103との間でやり取りする処理であり、
マスクデータ生成回路107で実行され、また、グラフィ
ックパイプライン処理は図形データのパイプライン処理
であり、加算回路104で加減算パイプライン処理と選択
的に実行される。さらに、乗算パイプライン処理は乗算
回路105で、また、除算パイプライン処理は除算回路106
でそれぞれ実行される。従って、例えば、加減算パイプ
ライン処理や乗算パイプライン処理などと並列に、除算
パイプライン処理を実行することができる。次に、本発明の除算器を適用する除算回路（DIV）106
について、第５図を参照しながら、その構成および作用
を説明する。除算回路106は、IEEE規格に基づく浮動小数点除算を
行なうものであり、除算前処理および型判定部20、指数
演算部21、例外および非演算検出部22、丸め出力判定部
23、制御部24、および、仮数除算部40から構成されてい
る。以下、IEEE規格に基づく浮動小数点倍精度演算を例
に、各部を詳細に説明する。まず、除算前処理および型判定部20のうち、型判定部
は、入力レジスタOPDおよびOPNにそれぞれセットされた
除数Ｄおよび被除数Ｎの型、すなわち、非数、ゼロ、無
限大あるいはデノーマル等を判定してその判定結果を型
判定フラグレジスタEXCにセットする。また、前処理部
では、除数Ｄおよび被除数Ｎの浮動小数点データについ
て、符号Ｓ（１ビット）、指数部EXP（11ビット）およ
び仮数部Ｍ（52ビット）をそれぞれ切出し、仮数部Ｍの
隠れビット（IEEE規格では、仮数部Ｍの際上位ビットの
さらに上位１ビットに隠れビット１を持つように正規化
されている）を復元し、さらに、被除数Ｎの仮数部の絶
対値が除数Ｄの仮数部の絶対値よりも小さくなるように
設定する。このような前処理部の処理は、例えば、OPDおよびOPN
にセットされた除数Ｄおよび被除数Ｎのそれぞれの仮数
部を切出し、隠れビットを復元した後、これら２つのデ
ータを比較し、被除数Ｎの仮数部の絶対値が除数Ｄの仮
数部の絶対値よりも小さいときはそのままとする一方、
被除数Ｎの仮数部の絶対値が除数Ｄの仮数部の絶対値よ
りも大きいときは、被除数Ｎの仮数部を右に１ビットシ
フト（１桁下げる）すると共に、被除数Ｎの指数部EXP
を＋１することにより実現できる。なお、この前処理後
の被除数Ｎの指数部は、レジスタEPNに、被除数Ｎの仮
数部は部分剰余レジスタPRに、また、除数Ｄの指数部レ
ジスタEPDに、除数Ｄの仮数部は除数レジスタDSRにそれ
ぞれセットされる。次に、指数演算部21では、指数値の減算とバイアス値
の加算を行う。すなわち、除数Ｄの指数部の補数値、被
除数Ｎの指数部の値、および、IEEE規格に規定されたバ
イアス値の３つを加算し、その結果をレジスタEXPにセ
ットする。また、例外および非演算検出部22では、例外判定と非
演算の検出を行う。例外判定としては、ゼロ除算例外や
インバリットオペレーション例外等があり、これらは除
数Ｄおよび被除数Ｎのデータから判定される。非演算パ
ターンとしては、IEEE規格に基づき下記の組合わせがあ
る。除数Ｄおよび被除数Ｎのデータからパターンを判定
し、下記組み合わせの論理和により停止信号DSTOP＃Ｘ
を出力して規格パターンを発生するように制御する。 SNaN÷SNaN QNaN÷SNaN INF ÷SNaN NORM÷SNaN ZERO÷SNaN SNaN÷QNaN QNaN÷QNaN INF ÷QNaN NORM÷QNaN ZERO÷QNaN SNaN÷ INF QNaN÷ INF INF ÷ INF NORM÷ INF ZERO÷ INF SNaN÷ZERO QNaN÷ZERO INF ZERO NORM÷ZERO ZERO÷ZERO SNaN÷NORM QNaN÷NORM INF ÷NORM NORM÷NORM ZERO÷NORM ここで、SNaN:Signaling NOT Number QNaN:Quiet NOT Number INF:無限大 ZERO:ゼロ NORM:正規化数（IEEE754−1985規格より）なお、停止信号DSTOP＃Ｘは、除数Ｄおよび被除数Ｎ
のデータの判定によってアサートされた後、１つの演算
終了でネゲートされるまでアクティブである。DSTOP＃
Ｘ以外の他の信号の意味は以下のとおりである。 START＃X:除算回路106全体の動作開始を指示する信号
であり、この信号は第４図の制御ユニット（CU）400で
作られる。 END＃X:除算回路106全体の動作停止を指示する信号で
あり、この信号は第４図の制御ユニット（CU）400で作
られる。 DRUN＃X:部分剰余レジスタPR、加減算部42、補数発生
部43、商予測部44および除数倍数発生部41によって行わ
れる繰返し除算の動作開始と終了を指示する信号であ
り、動作開始の指示は、上記START＃Ｘの発生後の次の
クロックに同期して行われ、また、動作終了の指示は、
上記END＃Ｘに応答してクロックの発生を止めることに
より行われる。 DCNT0＃Ｘ〜DCNT15＃X:上記START＃Ｘの発生後の次の
クロックに同期して発生する信号であり、除算回路106
の各レジスタ（EPN、EPD、EXO、DSR、EXP、EXD、REM、Q
R、OPOおよびEXN）の動作タイミングを制御する信号で
ある。最初に発生するDCNT0＃Ｘから最後に発生するDCN
T15＃Ｘまでの16種のクロック信号で構成される。次に、仮数除算部40では、基数を16とした非回復型除
算法による除算を行う。この仮数除算部40は、除数倍数
発生部（以下、倍数発生部）41、加減算部42、補数発生
部43、商予測部44、および商補正部45を含むと共に、除
数レジスタDSR、被除数レジスタPR、および、商レジス
タQRを含んで構成されており、さらに詳細な構成は第６
図に示すとおりである。なお、第６図では、倍数発節部
41を略号MULTで、加減算部42を略号ALUで、商予測部44
を略号QPで、商補正部45を略号QGでそれぞれ表してい
る。本実施例では、基数が16であるので、−15×除数、−
14×除数、……、−１×除数、＋１×除数、……、＋14
×除数、＋15×除数の全部で30通りの除数倍数データが
必要になる。倍数発生部41はこの除数倍数データを作る
ためのもので、第７図にその概念図を示すように、所定
の倍数選択信号SELa（商予測部44で作られる）に従って
＋16倍、−16倍、＋８倍または−８倍の何れかの倍数
（以下、倍数ａ）を発生する第１のブロック41aと、所
定の倍数選択信号SELbに従って＋４倍、−４倍、＋２倍
または−２倍の何れかの倍数（以下、倍数ｂ）を発生す
る第２のブロック41bと、所定の倍数選択信号SELcに従
って＋１倍または−１倍の何れかの倍数（以下、倍数
ｃ）を発生する第３のブロック41cとからなる。例えば、第１のブロック41aを代表として倍数の発生
動作を説明すると、まず、除数レジスタDSR内のデータ
を４ビット左シフトした（４桁上げた）＋16倍データ
と、同４ビット左シフトしたデータの補数をとった−16
倍データと、除数レジスタDSR内のデータを３ビット左
シフトした（３桁上げた）＋８倍データと、同３ビット
左シフトしたデータの補数をとった−８倍データとを作
り、これらの１つをSELaの内容に従って動作するセレク
タで選択する。加減算部42は、第８図に示すように、４入力桁上げ保
存加算器（４入力キャリーセーブアダー）CSAと、CSAか
ら出力されるキャリー（Carry）および和（Sum）を加算
する桁上げ伝播加算器CPAとを有し、部分除数レジスタP
Rの内容から、倍数ａ、倍数ｂおよび倍数ｃの和を減
じ、MSB（最上位ビット）の符号ビットＳと、この符号
ビットＳを除く上記の５ビットからなる加算結果を出力
する。以下、符号ビットＳを除く上位の５ビットを「加
算結果の絶対値」と言う。ここで、CPAは、第９図に示すように、４つのブロッ
クB₀〜B₃からなり、各ブロックは、第10図にその構成を
示すように、キャリー有りを想定してあらかじめ演算を
行う部分と、キャリー無しを想定してあらかじめ演算を
行う部分を備え、これらの両演算部分の出力を下位側か
らのCarry入力に従って選択するようになっている。こ
れによれば、最下位ブロックB₀を除く他のブロックB₁〜
B₃のキャリー伝播遅延を最小限に抑えることができ、CP
Aの演算時間を最下位ブロックB₀のキャリー伝播遅延相
当にすることができる。但し、当然ながら、各ブロック
のセレクタ遅延や配線遅延等がこれに加算される。加減算部42から出力される加算結果は、最上位ブロッ
クB₃の16ビット出力のうちの上記６ビットであり、その
最上位ビットが符号ビットＳ、残りの５ビットが加算結
果の絶対値になる。従って、加算結果の絶対値の確定か
ら、符号ビットＳの確定までの間には、最下位ブロック
B₀のキャリー伝播遅延に、各ブロックごとのセレクト遅
延と配線遅延とを加算した遅延時間（前述のｔαに相
当）が発生する。補正発生部43は、第６図にその構成を示すように、加
算結果の絶対値をデコードする５入力アンドゲート群43
aと、符号ビットＳに従ってそのデコード結果を選択す
る32個の二入力セレクタセレクタSL_0A,SL_0B,〜SL_15A,SL
_15Bよりなるセレクタ群43bとからなる。アンドゲート群
43aは、加算結果のビット数と同数の入力をもつ32個の
５入力アンドゲートG₀〜G₃₁からなり、アンドゲートの
各入力にはビット重みが［2⁴、2³、2²、2¹、2⁰］の５ビ
ットデータ（加算結果）が与えられている。各アンドゲ
ートの５本の入力には左端から右端に順に2⁴のビット、
2³ビット、2²ビット、2¹ビット、2⁰ビットが入力され
る。本実施例ではデコーダは１つであるが、符号ビット
に従ってセレクタ群43bによりデコード信号のD₀〜D₃₁と
補数発生部43の出力端との対応関係を換えることで、前
記加算結果のデコードした結果と前記加算結果の補数を
デコードした結果を出力できるようにしている。例え
ば、加算結果の絶対値を「00000₍₂₎＝0₍₁₀₎」に対する
補数は「11111₍₂₎＝31₍₁₀₎」であるから、加算結果が
「00000₍₂」のときは、アンドゲートG₀のデコード信号D
₀とアンドゲートG₃₁のデコード信号D₃₁の一方を符号ビ
ットに従ってセレクタSL_0Aにより選択すれば良い。同様
にして同絶対値が「00001₍₂₎＝1₍₁₀₎」のときにはデコ
ード信号D₁とデコード信号D₃₀の一方を符号ビットに従
って選択すれば良い。尚、５入力アンドゲートG₁は入力
が「00010₍₂₎＝2₍₁₀₎」のときにデコード信号D₂を出力
し、G₃は「00011₍₂₎＝3₍₁₀₎」、G₄は「00100₍₂₎＝
4₍₁₀₎」、G₅は「00101₍₂₎＝5₍₁₀₎」、G₆は「00110₍₂₎＝
6₍₁₀₎」、G₇は「00111₍₂₎＝7₍₁₀₎」、G₈は「01000₍₂₎＝
8₍₁₀₎」、G₉は「01001₍₂₎＝9₍₁₀₎」、G₁₀は「01010₍₂₎
＝10₍₁₀₎」、G₁₁は「01011₍₂₎＝11₍₁₀₎」、G₁₂は「0110
0₍₂₎＝12₍₁₀₎」、G₁₃は「01101₍₂₎＝13₍₁₀₎」、G₁₄は
「01110₍₂₎＝14₍₁₀₎」、G₁₅は「01111₍₂₎＝15₍₁₀₎」、G
₁₆は「10000₍₂₎＝16₍₁₀₎」、G₁₇は「10001₍₂₎＝1
7₍₁₀₎、G₁₈は「10010₍₂₎＝18₍₁₀₎」、G₁₉は「10011₍₂₎
＝19₍₁₀₎」、G₂₀は「10100₍₂₎＝20₍₁₀₎」、G₂₁は「1010
1₍₂₎＝21₍₁₀₎」、G₂₂は「10110₍₂₎＝22₍₁₀₎」、G₂₃は
「10111₍₂₎＝23₍₁₀₎」、G₂₄は「11000₍₂₎＝24₍₁₀₎」、G
₂₅は「11001₍₂₎＝25₍₁₀₎」、G₂₆は「11010₍₂₎＝2
6₍₁₀₎」、G₂₇は「11011₍₂₎＝27₍₁₀₎」、G₂₈は「11100
₍₂₎＝28₍₁₀₎」、G₂₉は「11101₍₂₎＝29₍₁₀₎」、G₃₀は「1
1110₍₂₎＝30₍₁₀₎」、G₃₁は「11111₍₂₎＝31₍₁₀₎」のとき
に各々デコード信号D₃〜D₃₁を出力する。セレクタ群43b
は、32個のセレクタSL_0A〜SL_15A SL_0B〜SL_15Bを備える
もので、加算結果の絶対値のデコード結果と、加算結果
の補数のデコード結果と等価の結果が得られるようにデ
コード信号の対が入力されている。すなわち、D₀とD₃₁
の対がセレクタSL_0Aに入力され、同様にしてD₁とD₃₀、D
₂とD₂₉、D₃とD₂₈、D₄とD₂₇、D₅とD₂₆、D₆とD₂₅、D₇とD
₂₄、D₈とD₂₃、D₉とD₂₂、D₁₀とD₂₁、D₁₁とD₂₀、D₁₂と
D₁₉、D₁₃とD₁₈、D₁₄とD₁₇、D₁₅とD₁₆、D₁₆とD₁₅、D₁₇と
D₁₄、D₁₈とD₁₃、D₁₉とD₁₂、D₂₀とD₁₁、D₂₁とD₁₀、D₂₂と
D₉、D₂₃とD₈、D₂₄とD₇、D₂₅とD₆、D₂₆とD₅、D₂₇とD₄、D
₂₈とD₃、D₂₉とD₂、D₃₀とD₁、D₃₁とD₀が各々対になり、
対応するセレクタに入力される。このようにすること
で、デコーダは１つであっても入力データをデコードし
た結果と入力データの補数をデコードした結果が得られ
る。勿論、デコーダを２種類設けて、その出力を符号ビ
ットに従って選択しても良い。なお、第11図はセレクタ
（代表してSL_0A、SL_0B、〜SL_15A、SL_15B）の好ましい構
成例である。２組のトランスファゲートTa、Tbにデコー
ド信号D₀とD₃₁（SL₁₅ではD₁₅とD₁₆）を入力すると共
に、符号ビットＳとその反転信号Sxによってそのオン／
オフ動作を択一的にコントロールすることにより、D₀と
D₃₁（SL₁₅ではD₁₅とD₁₆）の何れか一方を選択できる。ここで、本実施例における補数発生部43の特徴は、第
１に、加算結果の絶対値が確定すると直ちに、同絶対値
のデコード処理と同絶対値の補数のデコード処理とを実
行し、その後、符号ビットＳが確定した時点でこれら２
つのデコード結果を選択するようにした点にある。これ
により、加算結果の絶対値の確定時間と符号ビットＳの
確定時間の差に相当する演算遅延時間（ｔα）を、デコ
ード処理時間（ｔβ）で吸収でき、特に、繰返し回数の
多い非回復型除算演算の処理時間を大幅に短縮できると
いう顕著な効果を奏することができる。また、第２の特
徴は、加算結果の絶対値のデコード結果と、同絶対値の
補数のデコード結果の対を選択できるようにした点にあ
る。これにより、デコード処理部の回路規模を従来と同
等に抑えることができ、上記第１の特徴と相まって、特
にワンチップ・ベクトルプロセッサに好適な除算器を提
供できる。次に、商予測部44は、除数Ｄの上位９ビット（以下、
D_i）と、補数発生部43からの部分剰余の上位５ビット
（以下、P_i）とに基づいてデジットごとの部分商を予測
する第１の機能を備える。この第１の機能では、例え
ば、第12図に示すような予測テーブルが用いられる。な
お、予測テーブルはROM等のメモリ上にテーブルマップ
の形で展開してもよく、あるいはハードロジックで構成
してもよいが、処理速度の点で後者が望ましい。第12図
において、縦軸には部分剰余の上記５ビット（P_i）に対
応した「00₍₁₆₎」から「1F₍₁₆₎」までの参照値P_i'が与
えられ、横軸には「F₍₁₆₎」から「0₍₁₆₎」までの部分商
の予測値（以下、予測商m_i）が与えられている。また、
縦軸に直交する線と横軸に直交する線の各交点にはP_iと
m_iの組み合せに対応した参照値D_i'が格納されており、
この参照値D_i'は、除数Ｄの上位９ビット（D_i）で表す
ことのできる値のいくつかを抜き出し、所定の順序で配
列したものである。今、例えばP_i＝「0F₍₁₆₎」で、D_i＝
「100₍₁₆₎」であれば、図中の破線で示すように、m_i＝
「F₍₁₆₎」が予測される。また、D_iが例えば「101₍₁₆₎」
であれば、この「101₍₁₆₎」を含むD_i'の範囲（「10
0₁₆」←→「112₍₁₆₎」）の最小値、すなわち「10
0₍₁₆₎」が指定され、同様に、m_i＝「F₍₁₆₎」が予測され
る。さらに、商予測部44は、上記第１の機能で予測された
予測商（m_i）と、前回の符号ビットS_-1および今回の符
号ビットＳに基づいて、倍数選択信号SELa〜SELcを生成
する第２の機能を備える。この第２の機能では、例え
ば、第13図に示すような信号生成テーブルが用いられ
る。第13図において、縦軸には予測商m_iに対応した「0
₍₁₀₎」から「15₍₁₀₎」（２進表現では「0000₍₂₎から「1
111₍₂₎」）までの参照値m_i'が与えられ、縦軸の各値ご
とに、S_-1＝“0"すなわち前回の部分剰余が正値の場合
と、Ｓ＝“1"すなわち今回の部分剰余が負値の場合のそ
れぞれの、倍数選択信号SELa、SELb、SELcが格納されて
いる。但し、格納された値はそれぞれ倍率を表してお
り、例えば０は０倍、−１は−１倍、……、＋16は＋16
倍を表している。最後に、商補正部45は、今回の繰返しにおける部分剰
余の符号ビット（Ｓ）と、前回の繰返しにおける符号ビ
ット（S_-1）とに基づいて、商予測部44で生成された予
測商m_iを補正して、部分商レジスタQPにセットする。実
際の補正は、第14図にその概念図を示すように、（１）
S_-1＝“0"（正符号）かつＳ＝“0"（正符号）の場合に
は、予測商をそのままQPにセットし（２）S_-1＝“0"
（正符号）かつＳ＝“1"（負符号）の場合には、予測商
から１を減じた値をQPにセットし（３）S_-1＝“1"（負
符号）かつＳ＝“0"（正符号）の場合には、予測商の２
の補数をQPにセットし（４）S_-1＝“1"（負符号）かつ
Ｓ＝“1"（負符号）の場合には、予測商の１の補数をQP
にセットする、ように実行される。以上述べたように、本実施例では、加減算部42で生成
された加算結果の絶対値およびその補数を、同加算結果
の符号ビット（Ｓ）が確定する前に５入力アンドゲート
群43aによってデコード処理し、その後、符号ビット
（Ｓ）が確定した時点でセレクタ群43bによって２つの
デコード結果の一方を選択するようにしたので、加減算
部42におけるキャリー伝播遅延に起因する加算結果の絶
対値と符号ビットの間の時間差（ｔα）を、デコード処
理時間（ｔβ）で吸収することができる。すなわち、第
15図のタイミングチャートに示すように、加算結果の絶
対値が確定した時点t₀から、前記ｔαに相当する時間後
の時点t₁で加算結果の符号ビットが確定するが、従来例
では、この時点t₁からセレクタ5aの選択動作が始まり、
さらに、選択動作の終了時点t₃からデコーダ5bの動作が
始まっていたため、結局、デコード結果が出力される時
点t₅までに、符号ビットの遅延時間（ｔα）＋セレクト
動作時間（t_SEL）＋デコード動作時間（ｔβ）もの長い
時間が費やされるといった欠点がある。これに対し、本実施例では、符号ビットの確定を待た
ずに５入力インバータ群43aによるデコード動作を開始
するので、デコード動作の開始時点（加算結果の絶対値
の確定時点t₀に略一致）からデコード動作の完了時点t₂
までの間に、前記ｔαを吸収することができ、全体の動
作遅れを、５入力アンドゲート群43aの動作遅延（ｔ
β）と、セレクタ群43bの動作遅延（t_SEL）とを足し合
わせた程度に減少させることができる。なお、セレクタ
群43bは符号ビットの確定時点t₁で動作を開始するか
ら、すなわちデコード動作とセレクタの準備動作が同時
に進行するから、セレクタ群43bの動作遅延（t_SEL）の
一部若しくは殆どを５入力アンドゲート群43aの動作遅
延（ｔβ）で吸収することができる。 7.産業上の利用可能性本発明の除算器は、加算結果より部分剰余を生成する
際の処理速度を向上できるから、非回復型除算方式の除
算器のように再帰的な手順を繰返す、例えば浮動小数点
コプロセッサやベクトルプロセッサの除算器に好適であ
る。

Claims

(57)【特許請求の範囲】【請求項１】商予測値に基づく情報により除数の倍数値
を求める倍数発生手段と、被除数から前記除数の倍数値を減じた演算結果の最上位
ビットである符号ビットと、該符号ビットを除く上位所
定ビットとを出力する演算処理手段と、前記演算処理手段において前記符号ビットが確定する前
に、前記上位所定ビットのデコードを開始し、その後、
該上位所定ビットをデコードしたデコード信号及び該上
位所定ビットの補数をデコードしたデコード信号を出力
するデコード処理手段と、確定した前記符号ビットが０（正符号）の場合は前記上
位所定ビットをデコードしたデコード信号を出力する一
方、確定した前記符号ビットが１（負符号）の場合は前
記上位所定ビットの補数をデコードしたデコード信号を
出力する選択手段と、該選択手段の出力に従って商予測値を生成する商予測値
生成手段とを備えることを特徴とする非回復型の除算器。