JPH0934691A

JPH0934691A - 正確な浮動小数点除算／平方根演算を実現する正確、かつ効果的なスティッキー・ビット計算

Info

Publication number: JPH0934691A
Application number: JP8167508A
Authority: JP
Inventors: Arjun Prab J; プラブジェイ．アージュン; B Zeiner Grezegols; ビー．ザイナーグレゼゴルズ
Original assignee: Sun Microsystems Inc
Current assignee: Sun Microsystems Inc
Priority date: 1995-07-05
Filing date: 1996-06-27
Publication date: 1997-02-07
Anticipated expiration: 2016-06-27
Also published as: KR970008882A; JP3689183B2; US5954789A; US5787030A; KR100323338B1

Abstract

(57)【要約】【課題】最終部分剰余が負の場合にスティッキー・ビッ
トを正確、かつ効果的に計算する能力を提供する一方、
商選択規則を実行する際の待ち時間を短縮し、かつ最小
限のサイズを有する商選択回路及び同商選択回路を含む
除算回路を提供すること。【解決手段】商デジット選択回路は第１〜４和ビット及
び第１〜４桁上げビットを入力され、そして第１〜４予
測部分剰余ビットを出力する４ビット桁上げ伝搬加算器
500と、第１〜４予測部分剰余ビットを入力され、そし
てオール・ゼロ信号を形成する４ビット・ゼロ検出器50
1と、第１〜４予測部分剰余ビットを入力され、そして
オール・ワン信号を形成する４ビット１検出器502と、
第５和ビット及び第５桁上げビットを入力され、そして
第５ビット・ゼロ信号を形成する否定論理和ゲート503
と、オール・ワン信号、第５ビット・ゼロ信号及びオー
ル・ゼロ信号を入力され、そしてゼロ出力を形成するゼ
ロ回路504とを有する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明はマイクロプロセッサ
内の浮動小数点除算器（Floating point dividers）の
分野、より詳細には、ＳＲＴ除算／平方根演算のインプ
リメンテーション（SRT division/square root impleme
ntation）における商デジット選択規則（Quotient digi
t selection rules）に関し、同規則は結果が正確な場
合、負の最終部分剰余（Negative final partial remai
nders）の形成を防止する。

【０００２】

【従来の技術及び発明が解決しようとする課題】ＳＲＴ
アルゴリズムは引き放し法除算（Non-restoring divisi
on）を実行する１つの方法を提供する。この詳細につい
ては、１９５８年９月に発行された米国電気電子学会コ
ンピュータ部会会報（IEEE Trans. Comput.）第Ｃ−７
巻２１８〜２２２頁に記載されているジェイ．イー．ロ
バートソンによる“デジタル除算法の新たなクラス”
と、１９５８年に発行されたメカニカル応用数学誌（Qu
art.J. Mech. Appl. Math.）第１１刊第３部３６４〜３
８４頁に記載されているケー．ディー．トーチャーによ
る“自動２進コンピュータのための乗算及び除算技術”
を参照のこと。デジタル除算では、オペランドとして除
数及び被除数が使用され、かつ出力として商が形成され
る。複数の商デジットは反復計算され、同商デジットの
うちの最上位商デジットが最初に形成される。ＳＲＴ除
算は他の除算アルゴリズムとは異なる。ＳＲＴ除算で
は、連続する各商デジットは上位の僅かな部分剰余デジ
ットのみに基づいて公式化され、非常に多くのデジット
を含み得る部分剰余全体に基づいて公式化されることは
ない。全ての反復において、正確な商デジットの選択は
部分剰余全体を考慮せずには保証できない。このため、
ＳＲＴアルゴリズムは不正確な商デジットを時々形成す
る。しかし、ＳＲＴアルゴリズムは正、ゼロ及び負の各
商デジットの可能性を提供する。商デジットを１つの反
復において過大予測した場合、誤りは負の商デジットを
選択することにより、次の反復において補正される。Ｓ
ＲＴ除算では、商デジットを過小予測してはならない。
即ち、商デジットは常に過大予測するか、または正確に
予測する必要がある。全ての商デジットを過小予測しな
かった場合、部分剰余は所定の上下限内に維持され、正
確な最終商の計算が可能になる。ＳＲＴアルゴリズムは
負の商デジットの形成を可能にする。このため、一般的
に最終商出力は通常の除算のように全商デジットを単に
連結するのではなく、寧ろ商デジットの重み付け加算及
び減算を介して行われる。

【０００３】基数が更に大きい場合、１つの反復におい
て形成される商デジットの数が更に多くなる。これは複
雑さを増大させる。基数２のインプリメンテーションは
１つのデジットを１つの反復において形成する。基数４
のインプリメンテーションは２つのデジットを１つの反
復において形成する。図１はＳＲＴに基づく基数２を使
用する簡単な浮動小数点インプリメンテーション（Simp
le SRT radix-2 floating point implementation）を示
す。同インプリメンテーションは、除数及び被除数の両
方が正であって、かつ正規化されていることを要する。
従って、１／２≦Ｄ、被除数＜１となる。シフトされた
最初の部分剰余（Initial shifted partial remainde
r）、即ち２ＰＲ［０］は被除数である。第１商デジッ
トの計算の反復（First quotient digit calculation i
teration）開始前に、被除数は部分剰余レジスタ１００
に対してロードされる。この結果、最初の部分剰余は被
除数となる。その後、反復によって形成される部分剰余
は以下の数式１に基づいて形成される。

【０００４】

【数１】数式１において、ｑ_i+1は商デジットであって、−１，
０または＋１の値を有し得る。商デジットｑ_i+1は直前
の部分剰余の値に基づいて単独で決定され、かつ除数か
ら独立している。商選択ロジック１０２は部分剰余のう
ちの上位４ビットのみを入力され、そして商デジットを
形成する。除算では、全ての反復において除数は一定に
維持される。しかし、平方根演算は各反復後に除数レジ
スタ１０１内に格納された除数に対する調整を一般的に
含む。従って、商デジットが除数から独立していること
は平方根演算における魅力的な特徴である。

【０００５】部分剰余は一般的に冗長桁上げ保留の形態
に維持される。この結果、次の部分剰余の計算では、更
に処理速度が遅く、かつ大きい桁上げ伝搬加算器に代え
て桁上げ保留加算器の使用が可能である。部分剰余は全
ての反復が実施され、かつ所望の精度に達した後で、非
冗長形態（Non-redundant form）へ変換される。ＳＲＴ
アルゴリズムは商デジットの過大予測を可能にする。商
デジットの過大予測により、負の部分剰余が続いて形成
される。このため、最終部分剰余を負にすべく最後の商
デジットを過大予測し得る。この場合、過大予測に対す
る補正が不可能なため、Ｑ及びＱ−１の維持が必要であ
る。この結果、最終部分剰余が負である場合、Ｑ−１が
Ｑに代えて選択される。商デジットは常には冗長形態に
維持され、さらには最後の反復において非冗長形態へ変
換される。これに代えて、商（即ちＱ）と、商−１（即
ちＱ−１）とを１９９２年１２月に発行された米国電気
電子学会コンピュータ部会会報（IEEE Trans. Compu
t.）第４１巻第１２号の１４９７〜１５０３頁に記載さ
れているエム．ディ．エルセゴバック及びティ．ラング
による“オン・ザ・フライ・ラウンディング（On-the-f
ly rounding）”に開示されている規則に基づいてフラ
イ（Fly）上に形成し得る。

【０００６】ＳＲＴアルゴリズムは平方根演算にも適用
される。これにより、従来の除算ハードウェアの使用が
可能である。簡略化された平方根の式は除算の式に類似
している。これについては、１９９０年８月に発行され
た米国電気電子学会コンピュータ部会会報（IEEE Tran
s. Comput.）の第３９巻第８号の１０１６〜１０２４頁
に記載されているエム．ディ．エルセゴバック及びテ
ィ．ラングによる“初期ＰＬＡを伴わない基数４を使用
した平方根演算（Radix-4 square root withoutinitial
PLA）”を参照のこと。平方根演算の反復方程式を以下
の数式２に示す。

【０００７】

【数２】数式２において、括弧内の項は有効除数である。平方根
演算において、除数はＱ _iの関数であり、同Ｑ_iは直前の
全ルート・デジット（Previous root digits）ｑ₁〜ｑ_i
の関数である。用語の一貫性を維持すべく、ルート・デ
ジットを商デジットと称する。従って、除算で使用する
ハードウェアと同一のハードウェアを使用する平方根演
算を実現すべく、オン・ザ・フライ商形成（On-the-fly
quotient generation）は各反復後の除数の更新に必要
である。

【０００８】２進法の除算アルゴリズムはグラマー・ス
クールで教授されている標準的な十進法の除算に類似し
ている。Ｒ／Ｄ＝Ｑにおいて、Ｑに対する各商デジット
が予測される。第１商デジットを決定すべく、商デジッ
トの適切な予測値に対して除数が掛けられる。次いで、
その積は剰余を形成すべく被除数から引かれる。剰余が
除数より更に大きい場合、商デジットの予測値は過小で
ある。更に、剰余が負である場合、商デジットの予測値
は過大である。いづれにしても、商デジットの予測値が
誤っている場合、予測値の変更が必要である。この結
果、正確な商デジットは次のデジットへ進む前に導き出
される。次の関係、即ち０≦ＰＲ＜Ｄが正しい場合、商
デジットは正しい。ここで、ＰＲは除数を掛けた商デジ
ットを引いた後の部分剰余を示す。

【０００９】ＳＲＴ除算アルゴリズムの鍵としては、負
の商デジットを使用し得る点が挙げられる。例えば、基
数１０において、商デジットは標準デジット０〜９に加
えて、−１〜−９の値を有し得る。６００÷４０の除算
演算を以下に例示する。各反復において、正しい商デジ
ットを選択した場合、正しい結果は１５になる。しか
し、正しいデジットである１に代えて、商デジットとし
て２が第１の反復中に選択されたと仮定する。第１の商
デジットとして２を選択した後の部分剰余は６００−
（２＊４０＊１０¹）＝−２００である。ＳＲＴ除算で
は、このエラーを補正すべくバックアップを行い、かつ
第１の反復を繰り返すことはない。寧ろ、エラーは次の
反復において補正可能である。ＳＲＴ除算に基づき、第
２の商デジットとして−５を正しく予測したと仮定す
る。反復後、部分剰余は−２００−（−５＊４０＊１０
⁰）＝０となる。反復後の部分剰余がゼロの場合、残り
の全てのデジットの正しい値はゼロになる。従って、計
算結果は（２＊１０¹）＋（−５＊１０⁰）＝１５とな
り、同計算結果は正しい。従って、ＳＲＴアルゴリズム
は、後から１つ以上の負の商デジットを選択することに
より、任意の商デジットの過大予測の補正を可能にす
る。その後の部分剰余を実質的にゼロまで削減すべく、
予測された商デジットから正しい商デジットを引いた値
が１を上回ってはならない。商デジットの予測における
誤りが＋１を上回ることを許容した場合、−９を下回る
商デジット（例：−１０、−１１等）が底１０において
必要とされる。同様に、商デジットの範囲はＳＲＴアル
ゴリズムに基づいて正の方向へ拡大されることはない。
このため、正しい商デジットの過小予測は致命的であ
る。これは部分剰余が基数を掛けた除数より更に大き
く、かつその後、底１０において９を上回る商デジット
（例：１０、１１等）を必要とすることに起因する。従
って、部分剰余を所定の上下限内に維持するために、商
デジット選択において、正しい商デジットを過小予測し
てはならない。更に、商デジット選択において商デジッ
トが過大予測された場合、予測された商デジットから正
しい商デジットを引いた値は１を上回ってはならない。

【００１０】部分剰余を所定の上下限内に維持するため
の前記の基準を全ての部分剰余デジットを使用すること
なく満足させ得る点が保証される。正しい演算結果の算
出を可能にする商デジットを選択するためには、部分剰
余のうちの上位の僅かなデジットのみを使用すればよ
い。

【００１１】ＳＲＴ除算は冗長商表示を負以外のデジッ
トのみを有する標準的な非冗長形態まで削減するため
に、全ての商デジットの選択後に最終加算を要する。最
近の電子計算回路に用いられる２進法（底２）では、Ｓ
ＲＴ除算は＋１、０または−１の商デジットを提供す
る。商選択デジットを形成するロジック１０２はＳＲＴ
除算インプリメンテーションの中心エレメントである。
初期のリサーチは冗長部分剰余のうちの上位３ビットの
みが基数２を使用する商デジット選択関数（Radix-2 qu
otient digit selection function）に必要な入力であ
ることを示している（１９８３年に発行された米国電気
電子学会第６回コンピュータ計算シンポジウムの予稿集
（Proc. Sixth IEEE Symp. Comput. Arithmetic.）の９
９〜１０２頁に記載されているエス．マジェルスキーに
よる“高速デジタル回路のための平方根アルゴリズム”
と、１９８６年１０月に発行された米国電気電子学会の
固体回路ジャーナル（IEEE J. Solid-State Circuit
s.）第ＳＣ−２１巻第５番の８１４〜８１９頁に記載さ
れているディー．ズラス及びダブリュ．マックアリスタ
ーによるＶＬＳＩにおける平衡遅延ツリー及び組合せ除
算を参照）。しかし、更に最近の研究結果は、商デジッ
ト選択デジットを正しく形成し、かつ部分剰余を所定の
上下限内に維持するために４ビットを要する点を指摘し
ている（１９９４年にクルワー・アカデミック出版社
（Kluwer Academic Publishers）から発行されたエム．
ディー．エルセゴバック及びティー．ラングによる除算
及び平方根演算：デジット漸化アルゴリズム及びインプ
リメンテーション（Divisionand Square Root: Digit-r
ecurrence Algorithms and Implementations）ｃｈ．３
と、１９８５年８月に発行された米国電気電子学会コン
ピュータ部会会報第Ｃ−３４巻第８号の７２４〜７３３
頁に記載のエス．マジェルスキーによる“高速デジタル
回路のための平方根アルゴリズム”と、１９９１年に発
行された米国電気電子学会第１０回コンピュータ計算シ
ンポジウムの予稿集の２０２〜２０９頁に記載のピー．
モンツシ及びエル．シミニエラによる“幾つかの加算工
程の省略をともなう基数２を使用する簡単な除算及び平
方根演算”と、１９８７年に発行された米国電気電子学
会第８回コンピュータ計算シンポジウムの予稿集の９５
〜１０１頁に記載のブイ．ペング、エス．サムドララ及
びエム．ガブリエロフによる“浮動小数点ユニットにお
けるシフター、乗算器及び除算器のインプリメンテーシ
ョン”とを参照）。従来の商デジット選択規則は以下の
数式３によって表すことができる。ここで、ＰＲは実際
の部分剰余のうちの上位４ビットを示し、１０進小数点
は上位の第３デジット及び第４デジットの間に位置す
る。部分剰余は２の補数であり、第１ビットは符合ビッ
トとなる。

【００１２】

【数３】部分剰余はレジスタ１００内に桁上げ保留の形態で格納
されている。このため、実際の上位４ビットは部分剰余
の桁上げ部分及び和部分の桁上げ伝搬全加算（Full car
ry propagate addition of the carry and sum portion
s of the partial remainder）を行わずには得られな
い。部分剰余のうちの上位４ビットを計算すべく各反復
中に桁上げ伝搬全加算の実施を回避することが望まし
い。このため、商デジット選択規則は予測部分剰余を使
用して形成できる。

【００１３】予測部分剰余（ＰＲ_est）は４ビット桁上
げ伝搬加算器のみを用いて計算できる。４ビット桁上げ
伝搬加算器は実際の部分剰余のうちの桁上げ部分及び和
部分の上位４ビットを加算する。実際の部分剰余のうち
の上位４ビットの計算には、５９ビット桁上げ伝搬全加
算を要する。従って、この簡略化は待ち時間の大きな節
約を意味する。予測部分剰余ＰＲ_estは５９ビット桁上
げ伝搬全加算を実施した場合に、予測部分剰余のうちの
最下位ビット位置に一致するビット位置へ桁上げが伝搬
される可能性を示していない。表１は基数２を使用する
従来の商選択の真理値表である。予測部分剰余の上位４
ビットは正しい商デジットを選択すべく使用される。従
って、以下の真理値表は真の部分剰余の上位４ビットが
予測部分剰余の上位４ビットとは異なり得るという事実
を考慮している。

【００１４】

【表１】表１の真理値表において、２ＰＲ_estを示す４ビットは
部分剰余の上位４つの桁上げビット及び和ビット（Carr
y and sum bits）の非冗長表示である。第４ビットは少
数部である。従って、部分剰余の上位４ビットの導出演
繹は１／２である。

【００１５】商選択ロジックは０に代えて１、または−
１に代えて０を予測する等、真の商結果を正しく予測す
るか、または過大予測すべく設計されている。ＳＲＴア
ルゴリズムは誤った商デジットを選択した場合、後から
自身を補正する。

【００１６】部分剰余は−５／２≦２ＰＲ［ｉ］≦３／
２に制限される。このため、ＳＲＴに基づく基数２を使
用する商選択ロジック（SRT radix-2 quotient selecti
on logic）に関する従来の真理値表は幾つかのドントケ
ア・インプット（Don't careinputs）を有する。下位ビ
ットが無視されるため、予測部分剰余は常に真の部分剰
余の最も重要な上位ビットより少ないか、または同上位
ビットに等しい。従って、予測部分剰余が上下限外に位
置する１つのケース（上記の真理値表において、星印で
示す）が存在する。インプリメントされたＳＲＴアルゴ
リズムは上下限外の部分剰余を形成しない。このため、
実際の部分剰余は負の限界内に位置する。従って、−１
は選択すべき適切な商デジットである。予測部分剰余に
基づいて選択された商デジットが実際の部分剰余に基づ
いて選択された商デジットと異なる他の２つのケース
（表１の１１１．０及び１１１．１に対するエントリに
対応するケース）が存在する。しかし、ここに示す商デ
ジットの誤った選択例では、商デジットは過小予測され
ないうえ、部分剰余は所定の上下限内に維持される。従
って、最終結果は依然正確に形成される。

【００１７】以下の表２は表１に示す従来の商選択ロジ
ックを簡単に表した真理値表である。以下の表におい
て、“Ｘ”はドントケア論理変数（"Don't care" logic
variable）を表す。１ｘｘ．ｘが−１の商デジットを
形成する第３のケースは、予測部分剰余が１１１．１で
ある場合には適用されない。この場合、第２のエントリ
が使用され、正しい商デジットは０になる。

【００１８】

【表２】浮動小数点演算は結果が正確であるか否かを表示するた
めに、同結果とともにスティッキー・ビット（Sticky b
it）を形成する。結果が不正確である場合、スティッキ
ー・ビットがアサート（Assert）される。また、結果が
正確である場合、スティッキー・ビットがデアサート
（Deassert）される。実質的に、スティッキー・ビット
は任意の下位ビットがゼロでないか否かを示す。スティ
ッキー・ビットは米国電気電子学会７５４規格（IEEE S
tandard 754）に基づく丸めのためのガード・ビット及
び丸めビットとともに使用される。これについては、１
９８５年にニューヨークに所在する米国電気電子学会か
ら発行された米国規格協会／米国電気電子学会標準規格
（ANSI/IEEE Standard）７５４規格に記載されている２
進浮動小数点演算のための米国電気電子学会規格を参照
のこと。

【００１９】除算及び平方根演算において、スティッキ
ー・ビットは最終部分剰余がゼロであるか否かを確認す
ることによって決定される。所望の数の商ビットを計算
した後、最終部分剰余は部分剰余として定義される。部
分剰余は冗長形態であるため、桁上げ伝搬加算はゼロ検
出前に実施される。図２はスティッキー・ビットを計算
するための回路を示す。図２において、最終部分剰余の
桁上げ部分２０１及び和部分２０２は桁上げ伝搬加算器
２００によって合計される。加算器２００から出力され
る最上位ビット（Most significant bit;略してmsb）は
最終部分剰余の符号ビット２０３である。図１に示すよ
うに、除算ハードウェアは商（即ちＱ）及び商−１（即
ちＱ−１）を累算する。最終部分剰余が負の場合、Ｑ−
１は適切な商である。また、最終部分剰余がゼロまたは
正の場合、Ｑは正しい商である。従って、符合ビット２
０３は正しい商を選択すべく使用される。図２におい
て、ゼロ検出器２０４は非冗長最終部分剰余２０５の全
てのビットがゼロであるか否かを決定し、かつスティッ
キー・ビット２０６を出力する。ゼロ検出器２０４は５
９入力論理和ゲート（59-input OR gate）と論理的に等
しい。

【００２０】一見して、前記の解決策は正または負の最
終部分剰余の全ての可能性について適切に見える。しか
し、結果が正確である希なケースでは、最終部分剰余は
負の除数に等しい。表３は自身によって除される数のた
めの除算反復を示す。ここで、ＰＲ［ｉ］はｉ番目の商
デジットが選択された後における部分剰余を示す。

【００２１】

【表３】被除数は常に正であり、かつ正規化されている。このた
め、第１の反復から得られる商デジットは１になる。こ
れは正の正規化数がゼロの符合ビットと、１の最上位デ
ジットとを有するという事実に基づく。１ビットだけ位
置を右へシフトすることにより、正の正規化数を２で割
った際に、最上位ビットは必ずゼロになる。（最上位ビ
ットは正しい２の補数を形成する符合ビットに対して整
合すべく拡大されている。このため、負の数を２で割っ
た場合、最上位ビットは１になる。）最上位ビットがゼ
ロである場合、表２は１の商デジットを選択すべきこと
を命ずる。

【００２２】表３に示す第２の反復において、部分剰余
ＰＲ［１］はゼロである。このため、第２の商デジット
は１になる。その後の全ての反復において、部分剰余は
負の除数に等しく、−１の商デジットが選択される。最
後の反復後、最終部分剰余ＰＲ［ｎ］における符合検出
は、最終部分剰余が負であることを決定し、かつＱ−１
を選択すべきことを表示する。事実、これは正しい結果
である。しかし、この最終部分剰余はゼロではない。こ
れは不正確な結果を誤って示すとともに、スティッキー
・ビットをアサートすべきことを誤って示す。

【００２３】この問題は正確な結果を要する全ての除算
演算に波及する。表２に示すように、商選択ロジックは
実際にはゼロである部分剰余に対して正の値を予測し、
そして同予測を後から補正すべく定義されている。基本
的に、前記の問題はこの商選択ロジックの定義に起因し
て生じる。従来の除算器はスティッキー・ビットの計算
前に負の最終部分剰余を復元するために１つのプロセッ
サ・サイクルを要する。正確なスティッキー・ビット計
算の実現が望まれる。負の最終部分剰余を復元すること
なく正確なスティッキー・ビットの計算を保証する除算
器の開発は効果的である。

【００２４】本発明は前述した事情に鑑みてなされたも
のであって、その目的は、浮動小数点除算及び平方根演
算中、最終部分剰余が負の場合にスティッキー・ビット
を正確、かつ効果的に計算する能力を提供することにあ
る。本発明の別の目的は商選択規則を実行する際の待ち
時間を短縮するとともに、最小限のサイズを有する最適
な商選択回路及び同商選択回路を含む除算回路を提供す
ることにある。

【００２５】

【課題を解決するための手段】本発明の課題を解決すべ
く、２進除算及び平方根演算における商デジットを冗長
部分剰余入力に基づいて決定する商デジット選択回路で
あって、冗長部分剰余入力は第１和ビット、第２和ビッ
ト、第３和ビット、第４和ビット及び第５和ビット並び
に第１桁上げビット、第２桁上げビット、第３桁上げビ
ット、第４桁上げビット及び第５桁上げビットを含み、
選択された商デジットは−１商デジットに該当するマイ
ナス出力（Minus output）と、ゼロ商デジットに該当す
るゼロ出力（Zero output）と、＋１商デジットに該当
するプラス出力（Plus output）とのうちのいづれか１
つをアサートすることによって出力される商デジット選
択回路において、第１和ビット、第２和ビット、第３和
ビット及び第４和ビット並びに第１桁上げビット、第２
桁上げビット、第３桁上げビット及び第４桁上げビット
を入力され、そして第１予測部分剰余ビット、第２予測
部分剰余ビット、第３予測部分剰余ビット及び第４予測
部分剰余ビットを出力として形成する４ビット桁上げ伝
搬加算器と、第１予測部分剰余ビット、第２予測部分剰
余ビット、第３予測部分剰余ビット及び第４予測部分剰
余ビットを入力され、そしてオール・ゼロ信号を形成
し、オール・ゼロ信号は第１予測部分剰余ビット、第２
予測部分剰余ビット、第３予測部分剰余ビット及び第４
予測部分剰余ビットが全てゼロの場合にのみアサートさ
れる４ビット・ゼロ検出器と、第１予測部分剰余ビッ
ト、第２予測部分剰余ビット、第３予測部分剰余ビット
及び第４予測部分剰余ビットを入力され、そしてオール
・ワン信号を形成し、オール・ワン信号は第１予測部分
剰余ビット、第２予測部分剰余ビット、第３予測部分剰
余ビット及び第４予測部分剰余ビットが全て１の場合に
のみアサートされる４ビット１検出器（Four-bit one d
etector）と、第５和ビット及び第５桁上げビットを入
力され、そして第５ビット・ゼロ信号を形成する否定論
理和ゲートと、オール・ワン信号、第５ビット・ゼロ信
号及びオール・ゼロ信号を入力され、そしてゼロ出力を
形成し、ゼロ出力はオール・ワン信号がアサートされる
か、または第５ビット・ゼロ信号及びオール・ゼロ信号
の両方がアサートされた場合にのみアサートされるゼロ
回路（Zero circuit）とを含む商デジット選択回路が提
供される。

【００２６】更に、前記の商デジット選択回路は第１予
測部分剰余ビット、オール・ゼロ信号及び第５ビット・
ゼロ信号を入力され、そしてプラス出力を形成し、前記
プラス出力は第１予測部分剰余ビットがデアサートさ
れ、かつオール・ゼロ信号または第５ビット・ゼロ信号
がデアサートされた場合にのみアサートされるプラス回
路（Plus circuit）を含み得る。同商デジット選択回路
は第１予測部分剰余ビット及びオール・ワン信号を入力
され、そしてマイナス出力を形成し、前記マイナス出力
は第１予測部分剰余ビットがアサートされ、かつオール
・ワン信号がデアサートされた場合にのみアサートされ
るマイナス回路（Minus circuit）を含み得る。４ビッ
ト・ゼロ検出器として４入力論理和ゲート（Four input
OR gate）を使用可能である。また、４ビット１検出器
は４入力論理積ゲート（Four inputAND gate）であり得
る。

【００２７】更に本発明では、第１桁上げビット、第２
桁上げビット、第３桁上げビット、第４桁上げビット及
び第５桁上げビット並びに第１和ビット、第２和ビッ
ト、第３和ビット、第４和ビット及び第５和ビットを入
力され、そして商デジットを計算する商デジット選択回
路であって、第１桁上げビット、第２桁上げビット、第
３桁上げビット、第４桁上げビット及び第５桁上げビッ
ト並びに第１和ビット、第２和ビット、第３和ビット、
第４和ビット及び第５和ビットを入力され、そしてゼロ
出力を形成する商ゼロ回路（Quotient zero circuit）
と、第１桁上げビット、第２桁上げビット、第３桁上げ
ビット、第４桁上げビット及び第５桁上げビット並びに
第１和ビット、第２和ビット、第３和ビット、第４和ビ
ット及び第５和ビットを入力され、そしてプラス出力を
形成する商ポジティブ回路（Quotient positive circui
t）とを含む商デジット選択回路を提供する。

【００２８】前記の商デジット選択回路は第１桁上げビ
ット、第２桁上げビット、第３桁上げビット及び第４桁
上げビット並びに第１和ビット、第２和ビット、第３和
ビット及び第４和ビットを入力され、そしてマイナス出
力を形成する商ネガティブ回路（Quotient negative ci
rcuit）を含み得る。更に商デジット選択回路は、第１
桁上げビット、第２桁上げビット、第３桁上げビット、
第４桁上げビット及び第５桁上げビット並びに第１和ビ
ット、第２和ビット、第３和ビット、第４和ビット及び
第５和ビットを入力され、そして反転されたゼロ出力を
形成する反転商ゼロ回路（Inverted quotient zero cir
cuit）と、第１桁上げビット、第２桁上げビット、第３
桁上げビット、第４桁上げビット及び第５桁上げビット
並びに第１和ビット、第２和ビット、第３和ビット、第
４和ビット及び第５和ビットを入力され、そして反転さ
れたプラス出力を形成する反転商ポジティブ回路（Inve
rted quotient positive circuit）と、第１桁上げビッ
ト、第２桁上げビット、第３桁上げビット及び第４桁上
げビット並びに第１和ビット、第２和ビット、第３和ビ
ット及び第４和ビットを入力され、そして反転されたマ
イナス出力を形成する反転商ネガティブ回路（Inverted
quotient negative circuit）とを含み得る。

【００２９】更に本発明では、被除数を第１の反復中に
入力され、次いで左シフトされた部分剰余をその後の複
数の反復中に入力され、そして出力として部分剰余を形
成する部分剰余レジスタと、オペランド除数を第１の反
復中に入力され、そして出力として除数を形成する除数
レジスタと、本発明の商デジット選択回路と、部分剰余
と、商デジット及び除数の否定論理積とを入力され、そ
して左シフトされた部分剰余を形成する加算器とを含む
浮動小数点正規形仮数除算回路（Floating point norma
lized mantissa division circuit）を提供する。同除
算回路は商デジットを累算する商レジスタを含み得る。
前記の部分剰余は桁上げ部分及び和部分を有する桁上げ
保留の形態で表示し得る。また、前記の加算器は桁上げ
保留加算器であり得る。

【００３０】更に、２進除算及び平方根演算において商
デジットを冗長部分剰余から選択する方法であって、冗
長部分剰余は第１和ビット、第２和ビット、第３和ビッ
ト、第４和ビット及び第５和ビット並びに第１桁上げビ
ット、第２桁上げビット、第３桁上げビット、第４桁上
げビット及び第５桁上げビットを含む方法において、第
１予測部分剰余ビット、第２予測部分剰余ビット、第３
予測部分剰余ビット及び第４予測部分剰余ビットを形成
すべく第１和ビット、第２和ビット、第３和ビット及び
第４和ビットを第１桁上げビット、第２桁上げビット、
第３桁上げビット及び第４桁上げビットに対して加算す
る工程と、第１予測部分剰余ビット、第２予測部分剰余
ビット、第３予測部分剰余ビット及び第４予測部分剰余
ビットが全て１である場合、または前記第１予測部分剰
余ビット、第２予測部分剰余ビット、第３予測部分剰余
ビット及び第４予測部分剰余ビットが全てゼロであっ
て、かつ第５和ビット及び第５桁上げビットの両方がゼ
ロに等しい場合にのみ商デジットとしてゼロを選択する
工程とを含む方法を提供する。

【００３１】更に、前記の商デジットを選択する方法は
第１予測部分剰余ビット、第２予測部分剰余ビット、第
３予測部分剰余ビット及び第４予測部分剰余ビットが全
てゼロにならない状態と、第５和ビット及び第５桁上げ
ビットが全てゼロにならない状態とのうちのいづれかに
おいて、第１予測部分剰余ビットがゼロである場合にの
み商デジットとして＋１を選択する工程を含み得る。ま
た、同商デジットを選択する方法は第１予測部分剰余ビ
ットがアサートされ、さらには第１予測部分剰余ビッ
ト、第２予測部分剰余ビット、第３予測部分剰余ビット
及び第４予測部分剰余ビットが全てゼロにならない場合
にのみ商デジットとして−１を選択する工程を含み得
る。

【００３２】更に本発明では、２進除算及び平方根演算
における商デジットを冗長部分剰余入力に基づいて決定
する商デジット選択回路を形成する方法であって、冗長
部分剰余入力は第１和ビット、第２和ビット、第３和ビ
ット、第４和ビット及び第５和ビット並びに第１桁上げ
ビット、第２桁上げビット、第３桁上げビット、第４桁
上げビット及び第５桁上げビットを含み、選択された商
デジットは−１商デジットに該当するマイナス出力と、
ゼロ商デジットに該当するゼロ出力と、＋１商デジット
に該当するプラス出力とのうちのいづれか１つをアサー
トすることによって出力される方法において、第１和ビ
ット、第２和ビット、第３和ビット及び第４和ビット並
びに第１桁上げビット、第２桁上げビット、第３桁上げ
ビット及び第４桁上げビットを入力され、そして第１予
測部分剰余ビット、第２予測部分剰余ビット、第３予測
部分剰余ビット及び第４予測部分剰余ビットを出力とし
て形成する４ビット桁上げ伝搬加算器を形成する工程
と、第１予測部分剰余ビット、第２予測部分剰余ビッ
ト、第３予測部分剰余ビット及び第４予測部分剰余ビッ
トを入力され、そしてオール・ゼロ信号を形成し、オー
ル・ゼロ信号は第１予測部分剰余ビット、第２予測部分
剰余ビット、第３予測部分剰余ビット及び第４予測部分
剰余ビットが全てゼロの場合にのみアサートされる４ビ
ット・ゼロ検出器を形成する工程と、第１予測部分剰余
ビット、第２予測部分剰余ビット、第３予測部分剰余ビ
ット及び第４予測部分剰余ビットを入力され、そしてオ
ール・ワン信号を形成し、オール・ワン信号は第１予測
部分剰余ビット、第２予測部分剰余ビット、第３予測部
分剰余ビット及び第４予測部分剰余ビットが全て１の場
合にのみアサートされる４ビット１検出器を形成する工
程と、第５和ビット及び第５桁上げビットを入力され、
そして第５ビット・ゼロ信号を形成する否定論理和ゲー
トを形成する工程と、オール・ワン信号、第５ビット・
ゼロ信号及びオール・ゼロ信号を入力され、そしてゼロ
出力を形成し、前記ゼロ出力はオール・ワン信号がアサ
ートされるか、または第５ビット・ゼロ信号及びオール
・ゼロ信号の両方がアサートされた場合にのみアサート
されるゼロ回路を形成する工程とを含む方法を提供す
る。

【００３３】前記の商デジット選択回路を形成する方法
は第１予測部分剰余ビット、オール・ゼロ信号及び第５
ビット・ゼロ信号を入力され、そしてプラス出力を形成
し、プラス出力は第１予測部分剰余ビットがデアサート
され、かつオール・ゼロ信号または第５ビット・ゼロ信
号がデアサートされた場合にのみアサートされるプラス
回路を形成する工程を含み得る。商デジット選択回路は
第１予測部分剰余ビット及びオール・ワン信号を入力さ
れ、そしてマイナス出力を形成し、マイナス出力は第１
予測部分剰余ビットがアサートされ、かつオール・ワン
信号がデアサートされた場合にのみアサートされるマイ
ナス回路を形成する工程を含み得る。４ビット・ゼロ検
出器として４入力論理和ゲートを使用可能である。ま
た、４ビット１検出器は４入力論理積ゲートであり得
る。

【００３４】更に本発明では、第１桁上げビット、第２
桁上げビット、第３桁上げビット、第４桁上げビット及
び第５桁上げビット並びに第１和ビット、第２和ビッ
ト、第３和ビット、第４和ビット及び第５和ビットを入
力され、そして商デジットを計算する商デジット選択回
路を形成する方法であって、第１桁上げビット、第２桁
上げビット、第３桁上げビット、第４桁上げビット及び
第５桁上げビット並びに第１和ビット、第２和ビット、
第３和ビット、第４和ビット及び第５和ビットを入力さ
れ、そしてゼロ出力を形成する商ゼロ回路を形成する工
程と、第１桁上げビット、第２桁上げビット、第３桁上
げビット、第４桁上げビット及び第５桁上げビット並び
に第１和ビット、第２和ビット、第３和ビット、第４和
ビット及び第５和ビットを入力され、そしてプラス出力
を形成する商ポジティブ回路を形成する工程とを含む方
法を提供する。

【００３５】前記の商ポジティブ回路を形成する工程は
第１桁上げビット、第２桁上げビット、第３桁上げビッ
ト及び第４桁上げビット並びに第１和ビット、第２和ビ
ット、第３和ビット及び第４和ビットを入力され、そし
てマイナス出力を形成する商ネガティブ回路を形成する
工程を含み得る。

【００３６】更に、前記の商ネガティブ回路を形成する
工程は第１桁上げビット、第２桁上げビット、第３桁上
げビット、第４桁上げビット及び第５桁上げビット並び
に第１和ビット、第２和ビット、第３和ビット、第４和
ビット及び第５和ビットを入力され、そして反転された
ゼロ出力を形成する反転商ゼロ回路を形成する工程と、
第１桁上げビット、第２桁上げビット、第３桁上げビッ
ト、第４桁上げビット及び第５桁上げビット並びに第１
和ビット、第２和ビット、第３和ビット、第４和ビット
及び第５和ビットを入力され、そして反転されたプラス
出力を形成する反転商ポジティブ回路を形成する工程
と、第１桁上げビット、第２桁上げビット、第３桁上げ
ビット及び第４桁上げビット並びに第１和ビット、第２
和ビット、第３和ビット及び第４和ビットを入力され、
そして反転されたマイナス出力を形成する反転商ネガテ
ィブ回路を形成する工程とを含み得る。

【００３７】また本発明では、被除数を第１の反復中に
入力され、次いで左シフトされた部分剰余をその後の複
数の反復中に入力され、そして出力として部分剰余を形
成する部分剰余レジスタを形成する工程と、オペランド
除数を第１の反復中に入力され、そして出力として除数
を形成する除数レジスタを形成する工程と、本発明の商
デジット選択回路を形成する工程と、部分剰余と、商デ
ジット及び除数の否定論理積とを入力され、そして左シ
フトされた部分剰余を形成する加算器を形成する工程と
を含む浮動小数点正規形仮数除算回路を形成する方法を
提供する。同方法は商デジットを累算する商レジスタを
形成する工程を含み得る。また、部分剰余は桁上げ部分
及び和部分を有する桁上げ保留の形態で表示し得る。更
に、加算器は桁上げ保留加算器であり得る。

【００３８】本発明は浮動小数点除算及び平方根演算
中、最終部分剰余が負の場合にスティッキー・ビットを
正確、かつ効果的に計算する能力を提供する。本発明は
本発明に基づく商選択規則を最小限の待ち時間で実行す
るとともに、最小限のサイズを有する最適な商選択回路
を提供する。

【００３９】本発明は正確な結果が得られた際に、作業
中の部分剰余が負になることを防止する更に効果的な商
デジット選択関数を提供する。負の部分剰余はスティッ
キー・ビットの計算前に復元する必要がないため、１サ
イクルが削減される。

【００４０】本発明に基づき、商デジット選択ロジック
は負の除数に等しい部分剰余の形成を防止すべく変更さ
れる。正確な除算結果を実現する正確、かつ効果的なス
ティッキー・ビットの計算を行うために、負の除数に等
しい負の部分剰余の形成を防止する必要がある。これを
実現すべく商デジット選択関数を強化して、ハードウェ
アのコストの削減及び待ち時間の短縮を行い得る。この
ため、商デジット選択関数の強化は理想的な解決策であ
る。予備最終部分剰余（Preliminary final partial re
mainder）を復元するための余分なメカニズムを提供す
る必要がないため、余分なハードウェアが排除される。
負の予備部分剰余を復元する別のサイクル時間を必要と
しないため、待ち時間が短縮される。

【００４１】本発明に基づき、実際の部分剰余がゼロの
際に、１の商デジットに変えてゼロの商デジットを選択
すべく商デジット選択ロジックが変更される。上位４ビ
ットがゼロである５ビットからなる予測部分剰余を使用
することにより、第４の上位ビットへの可能な桁上げ伝
搬が検出される。これは冗長部分剰余のうちの第５の最
上位和ビット及び桁上げビットの確認により実現可能で
ある。これら両方がゼロである場合、同ビット位置から
予測部分剰余の最下位ビット位置への桁上げ伝搬は不可
能であり、ゼロの商デジットが選択される。冗長部分剰
余の第５の最上位桁上げビット及び和ビットのうちの少
なくともいづれか一方が１である別のケースでは、１の
商デジットが選択される。

【００４２】

【発明の実施の形態】浮動小数点演算において、負の最
終部分剰余が生じた際にスティッキー・ビットを正確に
計算すべく幾つかのオプションを検討する必要がある。
最も簡単な解決策はゼロ検出を行う前に除数を加算する
ことにより、負の最終部分剰余を復元することが挙げら
れる。別の桁上げ伝搬加算器を設置するために要する空
間を考慮した場合、解決策は従来のハードウェアを利用
する必要がある。これを実現する２つの方法を図３及び
図４に示す。

【００４３】図３に示す解決策は基本的な反復工程をイ
ンプリメントする従来の桁上げ保留加算器３００を利用
している。通常の演算中、最終サイクル信号３０１はロ
ー（Low）である。この結果、マルチプレクサ３０２，
３０３は図１に関連して詳述した標準的反復工程をイン
プリメントすべく形成されている。しかし、最終サイク
ル中、最終サイクル信号３０１はハイ（High）であり、
マルチプレクサ３０３はレジスタ３０５内に格納された
部分剰余の桁上げ部分及び和部分に対して除数Ｄ３０４
を加算すべく同除数Ｄ３０４を加算器３００へ出力す
る。予備部分剰余の符号が負の場合、マルチプレクサ３
０６は加算器３００の結果を最終部分剰余フリップ・フ
ロップ３０７に対して出力する。

【００４４】図４に示す解決策では、図２に示すスティ
ッキー・ビット計算を行う従来の桁上げ伝搬加算器４０
０を再び使用している。図１に示す反復データパス等の
データパスが所望の精度の商デジットを形成した後、冗
長部分剰余の桁上げ部分ＰＲ _C及び和部分ＰＲ_Sは最終サ
イクル信号がローの間にマルチプレクサ４０３，４０２
へそれぞれ入力される。次いで、桁上げ伝搬加算器４０
０は冗長部分剰余を予備非冗長最終部分剰余（Prelimin
ary non-redundant final partial remainder）へと削
減する。桁上げ伝搬加算器４００の最上位出力ビット４
０４は予備最終部分剰余の符号を示す。非冗長予備最終
部分剰余はフリップ・フロップ４０６内へラッチされ
る。次いで、最終サイクル信号４０１がアサートされ
る。予備最終部分剰余が負であることを符号ビット４０
４が示した場合、マルチプレクサ４０５は加算器４００
に対して除数を出力するマルチプレクサ４０２に対して
同除数を出力する。その一方、マルチプレクサ４０３は
加算器４００に対する別の入力として予備非冗長部分剰
余を出力する。次いで、ゼロ検出器４０７は復元された
部分剰余を使用してスティッキー・ビットを形成する。
符号ビットが負以外の部分剰余を示す場合、マルチプレ
クサ４０５は除数Ｄに代えてゼロを部分剰余に対して加
算させる。

【００４５】図３及び図４に示す前記の２つの解決策
は、予備最終部分剰余が負の際にスティッキー・ビット
を計算すべく別のマルチプレクサ・ハードウェアと、別
のサイクルとを要する。マルチプレクサ３０２は部分剰
余形成クリティカル・パス（Partial remainder format
ion critical path）上に配置されている。このため、
図３に示す解決策は基本的反復のためのサイクル時間に
影響を及ぼす。更に、パイプライン・スーパースカラ・
プロセッサ内の待ち時間可変命令（Variable latency i
nstructions）は命令スケジューリング及びバイパス制
御ロジックを更に複雑にするため望ましくない。従っ
て、スティッキー・ビットを正確に計算するために除算
演算の全分布のうちの僅かな部分のみが余分なサイクル
を必要とする場合にも、負の予備最終部分剰余を形成し
ない除算命令のための余分なサイクルを削除すべくプロ
セッサのデザインは更に複雑になる。従って、負の部分
剰余を復元する正味の効果は、全ての除算及び平方根演
算を行う別の待ち時間サイクルを必要とする。

【００４６】本発明に基づき、商デジット選択ロジック
は負の除数に等しい部分剰余の形成を防止するために変
更される。正確な除算結果を実現するスティッキー・ビ
ットを正確、かつ効果的に計算すべく、負の除数に等し
い負の部分剰余の形成を防止する必要がある。これを実
現すべく商デジット選択関数を強化することにより、ハ
ードウェアが削減され、かつ待ち時間が短縮される。こ
のため、同選択関数の強化は理想的な解決策である。予
備最終部分剰余を復元するための余分なメカニズムを提
供する必要がないため、余分なハードウェアを排除し得
る。また、負の予備部分剰余を復元する別のサイクル時
間を必要としないため待ち時間が短縮される。

【００４７】本発明に基づく、商デジット選択ロジック
は、実際の部分剰余がゼロの際に１の商デジットに代え
てゼロの商デジットを選択すべく変更される。これは２
ＰＲ［ｉ］_est＝０００．０に対してｑ［ｉ＋１］＝０
を選択することを示唆している。しかし、商デジット選
択関数は実際の部分剰余より寧ろ予測部分剰余に対して
作用するため、商選択ロジックの注意深いデザインが必
要である。実際には予測部分剰余は１／２未満であり得
るため、更に下位の冗長部分剰余ビットの加算は実際の
部分剰余の上位４ビットのうちの最下位ビット位置へ１
を伝搬させる。従って、実際の部分剰余は１／２以上に
なる。

【００４８】実際の部分剰余が１／２（または１／２以
上）である場合、除数は１／２≦Ｄ＜１に限定されるた
め、ｑ＝１を常に選択する必要がある。実際の部分剰余
が１／２より更に大きく、かつｑ＝０が選択された場
合、次の部分剰余は除数を最初に加算または減算するこ
となく、実際の部分剰余を左側へ１ビットだけシフトす
ることによって得られる。この左シフトは正確な商への
収束に必要な３／２の上限を越える次の実際の部分剰余
を形成する。

【００４９】正確な商デジットがゼロの際に、除数が実
際の部分剰余より更に大きく、さらに商デジットとして
＋１の値が選択された場合、このエラーは後の反復にお
いて補正可能である。しかし、予測部分剰余が０００．
０であって、かつ正確な商デジットが１である際に商デ
ジットとしてゼロが選択された場合、このエラーを補正
する方法はない。ｑ＝１が正しい商デジットである際に
ｑ＝０が選択された場合、過小予測を補正する方法はな
い。結果は回復不能な誤りであり、次の部分剰余は正確
な結果への収束に必要な所定の上下限の外に位置する。

【００５０】全ての部分剰余に対する２進加算の実施は
予測の問題を排除する。しかし、これはＳＲＴ除算のタ
イミング及び空間に関する効果を無効にする。ゼロの商
デジットは全ての部分剰余がゼロである際にのみ選択可
能である。しかし、全ての部分剰余に対するゼロの検出
は同一の理由により逆効果となる。

【００５１】前記の解決策に対する簡単な代替策として
は、実際の部分剰余の上位４ビットのうちの最下位ビッ
トへの可能な桁上げ伝搬を検出することが挙げられる。
これは冗長部分剰余のうちの第５の最上位和ビット及び
桁上げビット、即ちＰＲ_S,ms _b-4及びＰＲ_C,msb-4を確認
することによって実現し得る。ＰＲ_S,msb-4及びＰＲ
_C,msb-4がそれぞれゼロである場合、そのビット位置か
ら予測部分剰余の最下位ビット位置への桁上げ伝搬は不
可能であり、さらにはゼロの商デジットを選択する必要
がある。冗長部分剰余の第５の最上位桁上げビット及び
和ビットのうちの少なくともいづれか一方が１である別
のケースでは、１の商デジットを選択する必要がある。
部分剰余のうちの複数の下位ビットがゼロでない場合に
も、同部分剰余は所定の上下限（−５／２≦２ＰＲ≦３
／２）内に存在し、かつ正しい結果が依然算出されるこ
とになる。

【００５２】予測部分剰余の計算に必要な桁上げ伝搬加
算は実際の冗長部分剰余の上位４つの伝搬ビット及び和
ビットに対してのみ行われる。このため、本発明に基づ
く計算の待ち時間に対する影響は最低限に抑制される。
表４は本発明に基づく正確な商選択ロジックのための真
理値表を示す。

【００５３】

【表４】図５は強化された商デジット選択関数の論理図を示す。
図５において、４ビット桁上げ伝搬加算器５００は実際
の冗長部分剰余の桁上げ部分（２ＰＲＣ［ｍｓｂ：ｍｓ
ｂ−３］）及び和部分（２ＰＲＳ［ｍｓｂ：ｍｓｂ−
３］）の上位４ビットを入力され、そして予測非冗長部
分剰余ｘ［３：０］を形成する。オール・ゼロ検出器
（All-zero detector）５０１は予測部分剰余ｘ［３：
０］の４ビット全てがゼロであるか否かを決定する。ｘ
［３：０］の全ビットがゼロである場合、中間信号ｎ０
がアサートされる。オール・ゼロ検出器５０１は４入力
否定論理和ゲート（Four input NOR gate）と機能的に
同じである。ｘ［３：０］の全ビットが１である場合、
中間信号ｎ１がアサートされる。オール・ワン検出器
（All-one detector）５０２は４入力論理積ゲートと機
能的に同じである。否定論理和ゲート５０３は冗長部分
剰余のうちの最上位の第５桁上げビット（２ＰＲＣ［ｍ
ｓｂ−４］）及び第５和ビット（２ＰＲＳ［ｍｓｂ−
４］）を入力され、そして中間信号ｉ０を形成する。中
間信号ｉ０は２ＰＲＣ［ｍｓｂ−４］及び２ＰＲＳ［ｍ
ｓｂ−４］がゼロである際にのみアサートされる。

【００５４】ランダム・ロジック５０４のブロックはＳ
ＲＴ除算に基づく可能な商デジット値のうちの１つにそ
れぞれ該当する３つの信号（Ｍ、Ｚ及びＰ）を形成す
る。Ｍは−１の商デジットに該当する。Ｚはゼロの商デ
ジットに該当する。Ｐは＋１の商デジットに該当する。
Ｍはｘ［３］がデアサートされ、かつｎ１がデアサート
された場合にのみアサートされる。Ｚはｎ１がアサート
されるか、またはｉ０及びｎ０がアサートされた場合に
のみアサートされる。ＰはＸ［３］がアサートされ、ｎ
０またはｉ０がデアサートされた場合にのみアサートさ
れる。各論理関係を仮定した場合、商デジット信号Ｍ、
Ｚ及びＰのうちの任意の２つを同時にアサートすること
は不可能である。

【００５５】図５に示すインプリメンテーションは論理
的に正しい。しかし実際には、４ビット２進加算器及び
その後のロジックは統合され、さらには最適化されたロ
ジック・インプリメンテーションへの併合が可能であ
る。図６に示すように、５段階ロジック・インプリメン
テーション（Five-stage logic implementation）は空
間を更に効果的に使用するとともに、出力を更に短い遅
延時間を伴って形成する。

【００５６】図６に示すインプリメンテーションでは、
Ｍ、Ｚ及びＰが計算されるとともに、論理反転／Ｍ、／
Ｚ及び／Ｐも計算される。これはデコードされた選択入
力を有するＣＭＯＳマルチプレクサ内等において伝達ゲ
ートをイネーブルするために商信号を使用する際に効果
的である。Ｍ及び／Ｍは冗長部分剰余ビットの上位４ビ
ット（２ＰＲＣ［ｍｓｂ：ｍｓｂ−３］及び２ＰＲＳ
［ｍｓｂ：ｍｓｂ−３］）にのみ依存する。その一方、
Ｚ、Ｐ、／Ｚ及び／Ｐは全て冗長部分剰余の上位５ビッ
ト（２ＰＲＣ［ｍｓｂ：ｍｓｂ−４］及び２ＰＲＳ［ｍ
ｓｂ：ｍｓｂ−４］）に依存する。図６のセルは回路が
占める空間の削減を第２の課題とする一方で、主に遅延
を最小限に抑制すべく最適化されている。図６に示す殆
どの論理は空間を削減すべく幾つかの出力計算の間にお
いて共有されている。

【００５７】本発明に基づく基数２を使用する新たな商
デジット選択論理（Radix-2 quotient digit selection
logic）をインプリメントするために必要な別のゲート
の総数は比較的少ない。好ましい実施の形態のインプリ
メンテーションに関するスパイス・シミュレーション分
析（Spice simulation analysis）において、商選択論
理クリティカル・タイミング・パス（Quotient selecti
on logic critical timing path）が５％未満であるこ
とが示されている。

【００５８】更に遅い商選択ロジックと、最後に行われ
る部分剰余復元サイクルの排除との間には、インプリメ
ンテーションに依存するタイミング・トレードオフが存
在する。僅かにより複雑な商選択論理に起因する遅延の
増加がプロセッサ・サイクル時間（Processor cycle ti
me）を制限しない場合、性能の増加は負の最終部分剰余
の復元に必要とされる待ち時間サイクルの削減により常
には実現される。本発明のハードウェア除算器等を含む
最近のマイクロプロセッサでは、プロセッサ・サイクル
時間は他のクリティカル・パスによって決定されるか、
またはプロセッサを設計する前に任意で適合させ得る。
商選択ロジックのうちの増大した遅延が最長パスでない
ケースにおいて、各除算演算あたり１サイクルの正味節
約は新たな出費を伴うことなく実現し得る。

【００５９】図６に示す実施の形態において、変更され
た商選択ロジック・アルゴリズムは内部浮動小数点除算
器クリティカル・パス（Internal floating point divi
dercritical path）の速度を従来の商選択規則を使用し
て最適化された同等のクリティカル・パスより約１００
ｐｓ遅くする。これは２パーセント未満の速度低下に相
当する。プロセッサの限界タイミング・パス（Limiting
timing path）は更に長い。従って、改善された商選択
ロジックはプロセッサ・サイクル時間に悪影響を及ぼさ
ない。スティッキー検出（Sticky detection）前に部分
剰余を復元するサイクルを排除する効果が実現される。

【００６０】本発明の商選択ロジックを使用しても負の
最終部分剰余は依然形成され得る。しかし、負の最終部
分剰余が形成された際、本発明に基づく商選択ロジック
は負の部分剰余が負の除数より更に大きいことを保証す
る。従って、本発明に基づく負の最終部分剰余が形成さ
れた場合、Ｑ−１が選択され、結果は必ず不正確にな
る。この結果、負の最終部分剰余が負の除数に等しくな
る恐れを伴うことなくスティッキー・ビットを安全にア
サートし得る。

【００６１】符号検出及びスティッキー・ビット計算を
平行して実施する一方で、ハードウェアの節約が可能で
ある。５９ビット全加算器を使用する代わりに、５９ビ
ット符号検出加算器（59-bit sign detect adder）を使
用し得る。これはタイミングを僅かに改善する一方で、
主に空間の節約を実現する。ゼロ検出は冗長部分剰余を
２進数へ変換する明確な加算を伴うことなく行える。

【００６２】

【数４】数式４の式において、Ｓｉ及びＣｉはそれぞれ最終部分
剰余の和の値及び桁上げ値である。次いで、スティッキ
ー・ビットは以下の数式５に基づいて計算される。

【００６３】

【数５】この方法は５９ビット桁上げ伝搬加算器の遅延に代えて
３入力排他的論理和遅延（3-input XOR delay ）を伴う
ゼロ検出器に対する入力を形成し、大きな正味節約を可
能にする。

【００６４】以上、本発明を好ましい実施の形態に基づ
いて詳述したが、同実施の形態は例示を目的とするもの
であって、本発明を限定するものではない。当業者は必
要に応じて本発明の実施の形態を変更することが可能で
あり、同変更は請求項に開示する本発明の範囲及び精神
を逸脱しないものとする。例えば、図６に示す商選択ロ
ジックの最適化された論理インプリメンテーションは各
種の同等の方法を用いて設計し得る。また、図６に示す
回路は標準的なＣＭＯＳ伝達ゲート・マルチプレクサ
（CMOS transmission gate multiplexor）に代えて、ｎ
−チャネル・パス・トランジスタ・マルチプレクサ（n-
channel pass transistor multiplexor）を制御すべく
商デジットの正の極性のみを計算し、論理反転の計算を
削除できる。最適化された異なるインプリメンテーショ
ンは異なる技術（例：ＮＭＯＳ、ＥＣＬ等）におけるイ
ンプリメンテーション、または同一技術に属する異なる
設計規則及び設計ツールを用いたインプリメンテーショ
ンの結果である。請求項は表４に示す真理値表の全ての
回路インプリメンテーションを網羅することを目的とす
る。従って、本発明の技術分野の当業者にとって自明な
各種の変更及び修正は、本発明の精神及び範囲に属す
る。

【００６５】

【発明の効果】以上詳述したように、本発明によれば、
浮動小数点除算及び平方根演算中、最終部分剰余が負の
場合にスティッキー・ビットを正確、かつ効果的に計算
し得る。更に、本発明は商選択規則を実行する際の待ち
時間を短縮するとともに、最小限のサイズを有する最適
な商選択回路及び同商選択回路を含む除算回路を実現す
るという優れた効果を発揮する。

【図面の簡単な説明】

【図１】反復ＳＲＴ除算アルゴリズムをインプリメント
する従来のハードウェア除算モジュールの簡単な論理
図。

【図２】従来のスティッキー・ビット演算回路の簡単な
論理図。

【図３】反復ＳＲＴ除算アルゴリズムをインプリメント
するか、または負の最終部分剰余を復元する１つのハー
ドウェア除算モジュールの簡単な論理図。

【図４】反復ＳＲＴ除算アルゴリズムをインプリメント
するか、または負の最終部分剰余を復元する別のハード
ウェア除算モジュールの簡単な論理図。

【図５】本発明の商選択規則をインプリメントする回路
の簡単な論理図。

【図６】商デジット信号及びその論理反転を形成する商
選択規則をインプリメントする回路の詳細な論理図。

【符号の説明】

３００…桁上げ保留加算器、３０１，４０１…最終サイ
クル信号、３０２，３０３，３０６，４０３，４０２，
４０５…マルチプレクサ、３０４…除数、３０５…レジ
スタ、３０７，４０６…フリップ・フロップ、４００…
桁上げ伝搬加算器、４０４…最上位出力ビット、４０４
…符号ビット、４０７…ゼロ検出器、５００…４ビット
桁上げ伝搬加算器、５０１…オール・ゼロ検出器、５０
２…オール・ワン検出器、５０３…否定論理和ゲート、
５０４…ランダム・ロジック。

───────────────────────────────────────────────────── フロントページの続き (72)発明者ジェイ．アージュンプラブアメリカ合衆国 94303 カリフォルニア州パロアルトコロラドアベニュー 1003 (72)発明者グレゼゴルズビー．ザイナーアメリカ合衆国 95129 カリフォルニア州サンノゼダートムーアウェイ 6608

Claims

【特許請求の範囲】

【請求項１】２進除算及び平方根演算における商デジ
ットを冗長部分剰余入力に基づいて決定する商デジット
選択回路であって、前記冗長部分剰余入力は第１和ビッ
ト、第２和ビット、第３和ビット、第４和ビット及び第
５和ビット並びに第１桁上げビット、第２桁上げビッ
ト、第３桁上げビット、第４桁上げビット及び第５桁上
げビットを含み、前記選択された商デジットは−１商デ
ジットに該当するマイナス出力と、ゼロ商デジットに該
当するゼロ出力と、＋１商デジットに該当するプラス出
力とのうちのいづれか１つをアサートすることによって
出力される商デジット選択回路において、前記第１和ビット、第２和ビット、第３和ビット及び第
４和ビット並びに第１桁上げビット、第２桁上げビッ
ト、第３桁上げビット及び第４桁上げビットを入力さ
れ、そして第１予測部分剰余ビット、第２予測部分剰余
ビット、第３予測部分剰余ビット及び第４予測部分剰余
ビットを出力として形成する４ビット桁上げ伝搬加算器
と、前記第１予測部分剰余ビット、第２予測部分剰余ビッ
ト、第３予測部分剰余ビット及び第４予測部分剰余ビッ
トを入力され、そしてオール・ゼロ信号を形成し、前記
オール・ゼロ信号は第１予測部分剰余ビット、第２予測
部分剰余ビット、第３予測部分剰余ビット及び第４予測
部分剰余ビットが全てゼロの場合にのみアサートされる
４ビット・ゼロ検出器と、前記第１予測部分剰余ビット、第２予測部分剰余ビッ
ト、第３予測部分剰余ビット及び第４予測部分剰余ビッ
トを入力され、そしてオール・ワン信号を形成し、前記
オール・ワン信号は第１予測部分剰余ビット、第２予測
部分剰余ビット、第３予測部分剰余ビット及び第４予測
部分剰余ビットが全て１の場合にのみアサートされる４
ビット１検出器と、前記第５和ビット及び第５桁上げビットを入力され、そ
して第５ビット・ゼロ信号を形成する否定論理和ゲート
と、前記オール・ワン信号、第５ビット・ゼロ信号及びオー
ル・ゼロ信号を入力され、そしてゼロ出力を形成し、前
記ゼロ出力はオール・ワン信号がアサートされるか、ま
たは第５ビット・ゼロ信号及びオール・ゼロ信号の両方
がアサートされた場合にのみアサートされるゼロ回路と
を含む商デジット選択回路。
【請求項２】前記第１予測部分剰余ビット、オール・
ゼロ信号及び第５ビット・ゼロ信号を入力され、そして
プラス出力を形成し、前記プラス出力は第１予測部分剰
余ビットがデアサートされ、かつオール・ゼロ信号また
は第５ビット・ゼロ信号がデアサートされた場合にのみ
アサートされるプラス回路を含む請求項１に記載の商デ
ジット選択回路。
【請求項３】前記第１予測部分剰余ビット及びオール
・ワン信号を入力され、そしてマイナス出力を形成し、
前記マイナス出力は第１予測部分剰余ビットがアサート
され、かつオール・ワン信号がデアサートされた場合に
のみアサートされるマイナス回路を含む請求項２に記載
の商デジット選択回路。
【請求項４】前記４ビット・ゼロ検出器は４入力論理
和ゲートである請求項１に記載の商デジット選択回路。
【請求項５】前記４ビット１検出器は４入力論理積ゲ
ートである請求項１に記載の商デジット選択回路。
【請求項６】第１桁上げビット、第２桁上げビット、
第３桁上げビット、第４桁上げビット及び第５桁上げビ
ット並びに第１和ビット、第２和ビット、第３和ビッ
ト、第４和ビット及び第５和ビットを入力され、そして
商デジットを計算する商デジット選択回路であって、前記第１桁上げビット、第２桁上げビット、第３桁上げ
ビット、第４桁上げビット及び第５桁上げビット並びに
第１和ビット、第２和ビット、第３和ビット、第４和ビ
ット及び第５和ビットを入力され、そしてゼロ出力を形
成する商ゼロ回路と、前記第１桁上げビット、第２桁上げビット、第３桁上げ
ビット、第４桁上げビット及び第５桁上げビット並びに
第１和ビット、第２和ビット、第３和ビット、第４和ビ
ット及び第５和ビットを入力され、そしてプラス出力を
形成する商ポジティブ回路とを含む商デジット選択回
路。
【請求項７】前記第１桁上げビット、第２桁上げビッ
ト、第３桁上げビット及び第４桁上げビット並びに第１
和ビット、第２和ビット、第３和ビット及び第４和ビッ
トを入力され、そしてマイナス出力を形成する商ネガテ
ィブ回路を含む請求項６に記載の商デジット選択回路。
【請求項８】前記第１桁上げビット、第２桁上げビッ
ト、第３桁上げビット、第４桁上げビット及び第５桁上
げビット並びに第１和ビット、第２和ビット、第３和ビ
ット、第４和ビット及び第５和ビットを入力され、そし
て反転されたゼロ出力を形成する反転商ゼロ回路と、前記第１桁上げビット、第２桁上げビット、第３桁上げ
ビット、第４桁上げビット及び第５桁上げビット並びに
第１和ビット、第２和ビット、第３和ビット、第４和ビ
ット及び第５和ビットを入力され、そして反転されたプ
ラス出力を形成する反転商ポジティブ回路と、前記第１桁上げビット、第２桁上げビット、第３桁上げ
ビット及び第４桁上げビット並びに第１和ビット、第２
和ビット、第３和ビット及び第４和ビットを入力され、
そして反転されたマイナス出力を形成する反転商ネガテ
ィブ回路とを含む請求項７に記載の商デジット選択回
路。
【請求項９】被除数を第１の反復中に入力され、次い
で左シフトされた部分剰余をその後の複数の反復中に入
力され、そして出力として部分剰余を形成する部分剰余
レジスタと、オペランド除数を第１の反復中に入力され、そして出力
として除数を形成する除数レジスタと、請求項７に記載の商デジット選択回路と、前記部分剰余と、商デジット及び除数の否定論理積とを
入力され、そして左シフトされた部分剰余を形成する加
算器とを含む浮動小数点正規形仮数除算回路。
【請求項１０】商デジットを累算する商レジスタを含
む請求項９に記載の浮動小数点正規形仮数除算回路。
【請求項１１】前記部分剰余は桁上げ部分及び和部分
を有する桁上げ保留の形態で表示される請求項１０に記
載の浮動小数点正規形仮数除算回路。
【請求項１２】前記加算器は桁上げ保留加算器である
請求項１１に記載の浮動小数点正規形仮数除算回路。
【請求項１３】２進除算及び平方根演算において商デ
ジットを冗長部分剰余から選択する方法であって、前記
冗長部分剰余は第１和ビット、第２和ビット、第３和ビ
ット、第４和ビット及び第５和ビット並びに第１桁上げ
ビット、第２桁上げビット、第３桁上げビット、第４桁
上げビット及び第５桁上げビットを含む方法において、第１予測部分剰余ビット、第２予測部分剰余ビット、第
３予測部分剰余ビット及び第４予測部分剰余ビットを形
成すべく第１和ビット、第２和ビット、第３和ビット及
び第４和ビットを第１桁上げビット、第２桁上げビッ
ト、第３桁上げビット及び第４桁上げビットに対して加
算する工程と、前記第１予測部分剰余ビット、第２予測部分剰余ビッ
ト、第３予測部分剰余ビット及び第４予測部分剰余ビッ
トが全て１である場合、または前記第１予測部分剰余ビ
ット、第２予測部分剰余ビット、第３予測部分剰余ビッ
ト及び第４予測部分剰余ビットが全てゼロであって、か
つ第５和ビット及び第５桁上げビットの両方がゼロに等
しい場合にのみ商デジットとしてゼロを選択する工程と
を含む方法。
【請求項１４】前記第１予測部分剰余ビット、第２予
測部分剰余ビット、第３予測部分剰余ビット及び第４予
測部分剰余ビットが全てゼロにならない状態と、第５和
ビット及び第５桁上げビットが全てゼロにならない状態
とのうちのいづれかにおいて、前記第１予測部分剰余ビ
ットがゼロである場合にのみ商デジットとして＋１を選
択する工程を含む請求項１３に記載の商デジットを選択
する方法。
【請求項１５】前記第１予測部分剰余ビットがアサー
トされ、さらには第１予測部分剰余ビット、第２予測部
分剰余ビット、第３予測部分剰余ビット及び第４予測部
分剰余ビットが全てゼロにならない場合にのみ商デジッ
トとして−１を選択する工程を含む請求項１３に記載の
商デジットを選択する方法。
【請求項１６】２進除算及び平方根演算における商デ
ジットを冗長部分剰余入力に基づいて決定する商デジッ
ト選択回路を形成する方法であって、前記冗長部分剰余
入力は第１和ビット、第２和ビット、第３和ビット、第
４和ビット及び第５和ビット並びに第１桁上げビット、
第２桁上げビット、第３桁上げビット、第４桁上げビッ
ト及び第５桁上げビットを含み、前記選択された商デジ
ットは−１商デジットに該当するマイナス出力と、ゼロ
商デジットに該当するゼロ出力と、＋１商デジットに該
当するプラス出力とのうちのいづれか１つをアサートす
ることによって出力される方法において、前記第１和ビット、第２和ビット、第３和ビット及び第
４和ビット並びに第１桁上げビット、第２桁上げビッ
ト、第３桁上げビット及び第４桁上げビットを入力さ
れ、そして第１予測部分剰余ビット、第２予測部分剰余
ビット、第３予測部分剰余ビット及び第４予測部分剰余
ビットを出力として形成する４ビット桁上げ伝搬加算器
を形成する工程と、前記第１予測部分剰余ビット、第２予測部分剰余ビッ
ト、第３予測部分剰余ビット及び第４予測部分剰余ビッ
トを入力され、そしてオール・ゼロ信号を形成し、前記
オール・ゼロ信号は第１予測部分剰余ビット、第２予測
部分剰余ビット、第３予測部分剰余ビット及び第４予測
部分剰余ビットが全てゼロの場合にのみアサートされる
４ビット・ゼロ検出器を形成する工程と、前記第１予測部分剰余ビット、第２予測部分剰余ビッ
ト、第３予測部分剰余ビット及び第４予測部分剰余ビッ
トを入力され、そしてオール・ワン信号を形成し、前記
オール・ワン信号は第１予測部分剰余ビット、第２予測
部分剰余ビット、第３予測部分剰余ビット及び第４予測
部分剰余ビットが全て１の場合にのみアサートされる４
ビット１検出器を形成する工程と、前記第５和ビット及び第５桁上げビットを入力され、そ
して第５ビット・ゼロ信号を形成する否定論理和ゲート
を形成する工程と、前記オール・ワン信号、第５ビット・ゼロ信号及びオー
ル・ゼロ信号を入力され、そしてゼロ出力を形成し、前
記ゼロ出力はオール・ワン信号がアサートされるか、ま
たは第５ビット・ゼロ信号及びオール・ゼロ信号の両方
がアサートされた場合にのみアサートされるゼロ回路を
形成する工程とを含む方法。
【請求項１７】前記第１予測部分剰余ビット、オール
・ゼロ信号及び第５ビット・ゼロ信号を入力され、そし
てプラス出力を形成し、前記プラス出力は第１予測部分
剰余ビットがデアサートされ、かつオール・ゼロ信号ま
たは第５ビット・ゼロ信号がデアサートされた場合にの
みアサートされるプラス回路を形成する工程を含む請求
項１６に記載の方法。
【請求項１８】前記第１予測部分剰余ビット及びオー
ル・ワン信号を入力され、そしてマイナス出力を形成
し、前記マイナス出力は第１予測部分剰余ビットがアサ
ートされ、かつオール・ワン信号がデアサートされた場
合にのみアサートされるマイナス回路を形成する工程を
含む請求項１７に記載の方法。
【請求項１９】前記４ビット・ゼロ検出器は４入力論
理和ゲートである請求項１６に記載の方法。
【請求項２０】前記４ビット１検出器は４入力論理積
ゲートである請求項１６に記載の方法。
【請求項２１】第１桁上げビット、第２桁上げビッ
ト、第３桁上げビット、第４桁上げビット及び第５桁上
げビット並びに第１和ビット、第２和ビット、第３和ビ
ット、第４和ビット及び第５和ビットを入力され、そし
て商デジットを計算する商デジット選択回路を形成する
方法であって、前記第１桁上げビット、第２桁上げビット、第３桁上げ
ビット、第４桁上げビット及び第５桁上げビット並びに
第１和ビット、第２和ビット、第３和ビット、第４和ビ
ット及び第５和ビットを入力され、そしてゼロ出力を形
成する商ゼロ回路を形成する工程と、前記第１桁上げビット、第２桁上げビット、第３桁上げ
ビット、第４桁上げビット及び第５桁上げビット並びに
第１和ビット、第２和ビット、第３和ビット、第４和ビ
ット及び第５和ビットを入力され、そしてプラス出力を
形成する商ポジティブ回路を形成する工程とを含む方
法。
【請求項２２】前記第１桁上げビット、第２桁上げビ
ット、第３桁上げビット及び第４桁上げビット並びに第
１和ビット、第２和ビット、第３和ビット及び第４和ビ
ットを入力され、そしてマイナス出力を形成する商ネガ
ティブ回路を形成する工程を含む請求項２１に記載の方
法。
【請求項２３】前記第１桁上げビット、第２桁上げビ
ット、第３桁上げビット、第４桁上げビット及び第５桁
上げビット並びに第１和ビット、第２和ビット、第３和
ビット、第４和ビット及び第５和ビットを入力され、そ
して反転されたゼロ出力を形成する反転商ゼロ回路を形
成する工程と、前記第１桁上げビット、第２桁上げビット、第３桁上げ
ビット、第４桁上げビット及び第５桁上げビット並びに
第１和ビット、第２和ビット、第３和ビット、第４和ビ
ット及び第５和ビットを入力され、そして反転されたプ
ラス出力を形成する反転商ポジティブ回路を形成する工
程と、前記第１桁上げビット、第２桁上げビット、第３桁上げ
ビット及び第４桁上げビット並びに第１和ビット、第２
和ビット、第３和ビット及び第４和ビットを入力され、
そして反転されたマイナス出力を形成する反転商ネガテ
ィブ回路を形成する工程とを含む請求項２２に記載の方
法。
【請求項２４】被除数を第１の反復中に入力され、次
いで左シフトされた部分剰余をその後の複数の反復中に
入力され、そして出力として部分剰余を形成する部分剰
余レジスタを形成する工程と、オペランド除数を第１の反復中に入力され、そして出力
として除数を形成する除数レジスタを形成する工程と、請求項２２に記載の商デジット選択回路を形成する工程
と、前記部分剰余と、商デジット及び除数の否定論理積とを
入力され、そして左シフトされた部分剰余を形成する加
算器を形成する工程とを含む浮動小数点正規形仮数除算
回路を形成する方法。
【請求項２５】商デジットを累算する商レジスタを形
成する工程を含む請求項２４に記載の方法。
【請求項２６】前記部分剰余は桁上げ部分及び和部分
を有する桁上げ保留の形態で表示される請求項２５に記
載の方法。
【請求項２７】前記加算器は桁上げ保留加算器である
請求項２６に記載の方法。