JP2557190B2

JP2557190B2 - 引き数簡約の最適化システム

Info

Publication number: JP2557190B2
Application number: JP6026960A
Authority: JP
Inventors: デズロジェベルナール; ルイディディエ; パンションディディエ; ステムレアンドレ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1993-04-29
Filing date: 1994-02-24
Publication date: 1996-11-27
Anticipated expiration: 2011-11-27
Also published as: JPH06314187A; US5452241A; EP0622727A1

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は概して数値データプロセ
ッサに係り、特に、こうしたプロセッサにおいて引き数
簡約（削減）を最適化するためのシステムに関する。

【０００２】

【従来の技術】有効数の浮動小数点演算を要求するアプ
リケーションに対してより優れた計算能力を付与するた
めに、数値データプロセッサは加算、減算、乗算、除算
等の基本的浮動小数点演算を特徴とする。一般に、これ
らの浮動小数点演算は、データプロセッサのシリコンチ
ップ内に組み込まれるか（例えば、「ＩＮＴＥＬ（イン
テル）」社の８０４８６プロセッサを参照する）、ある
いはまた、上記浮動小数点演算を実行するために主デー
タプロセッサと協動する（ＩＮＴＥＬ社の８０３８７双
対プロセッサ、又は「ＣＹＲＩＸ（シリックス）」社の
８３Ｄ８７双対プロセッサ等の）所謂数理又は数値双対
プロセッサである分離した数値データプロセッサにおい
て実行される。

【０００３】これらプロセッサ又は双対プロセッサのほ
とんどすべてにおいて、三角関数は正弦及び余弦関数に
対するチェビチェフ（Tchebitchev)の多項式、又は正接
関数に対するパデ（Pade）の有理多項式などの多項式に
よって近似される。多項式の次数が高くなればなるほど
いっそう近似式の正確度が高まり、また計算時間（上位
数のプロセッササイクル）もいっそう長くなることは当
業者には周知とされている。

【０００４】従って、許容計算時間内で許容正確度を得
るために、大部分のプロセッサは低次数多項式近似を計
算するが、一方、（０乃至ＰＩ／４等の）制限範囲内に
絶対値を有する引き数に関しては、三角法の値が必要と
される実際の引き数の簡約の後で計算することになる。

【０００５】しかしながら、すべての周知のプロセッサ
は、例えば、０と２Ｅ６３との間で構成される広範囲に
対して好適な正確度で引き数簡約を計算することができ
ず、結果的に、同等に好適な正確度でかかる範囲におけ
る引き数に対する三角関数を計算することはできない。

【０００６】以下は、ハードウェア乗算器アレイと独立
６４−ビット仮数算術論理演算装置（ＡＬＵ）の双方を
有する「ＣＹＲＩＸ」８３Ｄ８７双対プロセッサにおけ
る事例である。三角関数は該双対プロセッサにおいて、
０とＰＩ／４との間の引き数の多項式近似によってさら
に評価（計算）される。この範囲外の引き数は、ＰＩ／
４に対して部分剰余演算を介して簡約され、命令実行時
間中に５％増加に至る。しかしながら、正確度は以下に
示されるように非常に悪い。

【０００７】引き数範囲関数正確度誤ビット〔０；４ＰＩ〕Ｓｉｎ９１％９ＣＯＳ９１％１１Ｔａｎ８０％９〔２Ｅ１２；２Ｅ１３〕Ｓｉｎ０．３％２１Ｃｏｓ０．３％２１Ｔａｎ０％２１〔２Ｅ６２；２Ｅ６３〕Ｓｉｎ０％６４Ｃｏｓ０％６４Ｔａｎ０％６４

【０００８】

【発明が解決しようとする課題】本発明の目的は、プロ
セッサにおいて引き数簡約を最適化するためのシステム
を提供することである。

【０００９】本発明のさらなる目的は、プロセッサにお
いて高正確度且つ高速収束で、さらにわずかな専用資源
によって引き数簡約のためのシステムを提供することで
ある。

【００１０】本発明のさらに別の目的は、下位数のプロ
セッササイクルで到達し、２Ｅ−６３よりも低い正確度
で０と、２Ｅ６３までの値を有する引き数のＰＩの倍数
と、の間で構成される値に対する簡約を可能にし、なお
まだ最小の専用シリコンエリアを要求するようなシステ
ムを提供することである。

【００１１】

【課題を解決するための手段】本発明は特に、プロセッ
サにおいて０とＰＩの倍数との間で構成される値に対し
引き数簡約を最適化するためのシステムであって、以下
を含むものである。

【００１２】（ａ）引き数仮数上でパイプラインＡＤＤ
（加算）／ＳＵＢ（減算）／ＣＯＭＰＡＲＥ（比較）演
算を実行するように働く第１のブロック。該第１のブロ
ックは、第１の加算器と、アライナ（位置合わせ装置）
と、最上位ビットが上記第１の加算器によって生成され
るキャリーアウト（桁上げ出力）ビットである第１の出
力レジスタと、先行ゼロ検出器／エンコーダと、第２の
出力レジスタと、を有し、上記第１のブロックの出力は
ノーマライザ（正規化装置）に接続されている。

【００１３】（ｂ）第２の加算器と、出力がアライナを
制御するエンコーダに接続される第３の出力レジスタ
と、を有するとともに、引き数指数にパイプラインＡＤ
Ｄ／ＳＵＢ／ＣＯＭＰＡＲＥ演算を実行するように働く
第２のブロック。

【００１４】（ｃ）出力が第１の加算器の入力にフィー
ドバックされる乗算器を有する、引き数仮数上でパイプ
ラインＭＵＬＴＩＰＬＹ（乗算）演算を実行するように
働く第３のブロック。

【００１５】（ｄ）パイプライン引き数に対するスタッ
カーと、上記第１、第２、第３のブロックのそれぞれに
入力定数値を付与するためのメモリ。

【００１６】（ｅ）第２の加算器の出力に接続される第
４の出力レジスタ。（ｆ）エンコーダによりさらにノーマライザの制御を可
能にするための手段。

【００１７】（ｇ）第２の出力レジスタがその内容をビ
ットの数だけシフトし、その最上位ビットと同数のビッ
トを第１の加算器から入力することを可能にするための
手段。

【００１８】さらに、本発明は、前記記載の引き数簡約
の最適化システムにおいて、前記ＰＩの倍数は１／４で
あることを特徴とする。

【００１９】

【実施例】添付図面中において、参照番号に下線を付し
たものはバス幅を表わす。また、＊は本明細書及び図面
上、×（乗算）を表わす。

【００２０】科学的又は技術的演算において使用される
数値又はデータは、符号Ｓ、指数Ｅ、及び仮数Ｍから構
成される浮動小数点構成において表現され、これによっ
て限定数のビットで広範囲の数値の表現を可能にする。
この構成を実行するために多数の異なる標準フォーマッ
トが存在する。とりわけ、一般に広く容認されている浮
動小数点フォーマットは、米国電気電子学会（ＩＥＥ
Ｅ）によって提案されている標準フォーマットである。
この規格は、４つの浮動小数点フォーマット、即ち、単
精度、単拡張精度、二倍精度、二倍拡張精度、を定義す
る。

【００２１】図示のために、８０ビット二倍拡張精度フ
ォーマットを以下で説明する。図２に示されるように、
該フォーマットは１ビットの符号、１５ビットの指数、
及び６４ビットの仮数部から構成される。このフォーマ
ットにおいて、６３の位置には明示の（explicit）１は
０などのある値を除く、フォーマットの有効部分に記憶
される。有効部分の残りの６３ビット部分は所謂仮数Ｍ
である。さらに、指数はバイアス形式（biased form)で
表現される。即ち、ＢＩＡＳ＝１６３８８と称される定
数は指数（真の指数）の実数値Ｅに加算される。図２の
フォーマットを用いて、精度のある６４仮数ビットが得
られ、この結果、２Ｅ−１６４４５（最小非正規化数）
と２Ｅ１６３８４（最大正数）の範囲内の数を表現する
ことができる。

【００２２】さらに一般的には、ＩＥＥＥ標準フォーマ
ットによって、実数Ｎの値は以下の式によって示され
る：Ｎ＝（（−１）＊＊Ｓ）＊（１．Ｍ）＊（２＊＊（Ｅ−
ＢＩＡＳ））この場合、正数に対してＳ＝０、負数に対してＳ＝１で
ある。

【００２３】このフォーマットに関するさらに詳細な説
明を本出願と同一の譲受人に譲渡されるヨーロッパ特許
出願第９１４８０１８８．１号に見つけることができ
る。この関連出願の教示は以下の詳細な説明に全体とし
て組み込まれる。

【００２４】三角関数の計算のための本発明による内部
汎用アルゴリズムは図１に対して付与される。

【００２５】三角関数を計算するためのオペランドの有
効性について制御が実行される。即ち、オペランドが無
効である場合、計算は存在せず、例外処理ルーチンに対
してブランチが実行される。

【００２６】制御は有効オペランド引き数の値について
実行される。即ち、引き数の絶対値がＰＩ／４よりも小
さい場合、三角関数の多項式評価は直接実行され、引き
数の絶対値が２Ｅ６３よりも高い場合、ブランチは前述
した例外処理ルーチンに対して実行され、引き数の絶対
値がＰＩ／４と２Ｅ６３との間で構成される場合、引き
数は、三角関数の実際の多項式評価の前に、本発明のシ
ステムによって０とＰＩ／４との間で構成される値に簡
約される。

【００２７】（チェビチェフ／パデ多項式又はそのよう
な）多項近似式は、０乃至ＰＩ／４の範囲で多項式チョ
イスに従って計算される。周知の三角変換を用いてこの
領域から完全単位円に移行することは当業者には容易に
想定できる。

【００２８】引き数簡約は、ＰＩ／４に対する部分剰余
演算と論理的に同等である。部分剰余関数は以下に示し
た演算として定義される：（１）PREM = X − ((PI/4) * N) = X − ((PI/4) * I
nteger(X/(PI/4))) この場合、ＰＲＥＭは、｜Ｘ｜＜ＰＩ／４の範囲内の部
分剰余又は簡約された引き数、Ｘは簡約するための引き
数（ PI/4 = ＜｜Ｘ｜＜ 2E63 ）、Ｎは正確な商Ｘ
／（ＰＩ／４）をゼロに対して切断することによって得
られる整数（Integer)。

【００２９】除算とちょうど同じ様に、部分剰余は中間
剰余が除数より小さくなるまで逐次的スケール化減算を
実行することによって得られ、最終的に部分剰余を表現
することになる。両関数が同様に作動（演算）するとし
ても、それら個々の（演算）結果の正確度は異なる。

【００３０】ハードウェアのビット数（バス）の限定が
ない場合、商の正確度は、せいぜい低正確度のオペラン
ドの正確度に等しいにすぎない。しかしながら、部分剰
余の結果は概して算術ハードウェアと同一バス幅で計算
され、このために、その正確度は、以下の関係式によっ
て定義されるように商の整数部分を表現するのに必要な
ビットの数だけ減少される：（２）部分剰余正確度＝算術ハードウェア幅 −
整数｜Log2(N) ｜この場合、Ｎは既に定義されたものを用いる。

【００３１】さらに、正確度をより一層低減させるゼロ
を先行させることによってこの結果を変更させることも
できる。

【００３２】ＸがＰＩ／４乃至２Ｅ６３の範囲内で変化
するにしたがって、商Ｘ／（ＰＩ／４）の整数部分に等
しいＮを表現するために６３ビットまでが必要とされ
る。一方、多項式評価の後、２Ｅ−６３よりも小さな相
対誤差に到達することによって、６７有効ビットの簡約
引き数（部分剰余）を提供することが要求される。上記
方程式（２）を再構成することによって、部分剰余を計
算する必要のあるバス幅は以下の通りである：（３）算術ハードウェア幅＝部分剰余正確度＋
整数｜ LOG2(N)｜算術ハードウェアのバス幅＝６７＋６３＝
１３０

【００３３】ＰＩ値は全体としては決して正確ではな
い。算術ハードウェアバス幅に適合させるようにＰＩの
丸め（rounding）を行なうことによって、丸められた引
き数よりも丸められた周期の効果をより多く生じる。と
にかく、所望の正確度（２Ｅ−６３）をもつ機会を得る
ために、ＰＩ／４は少なくとも１３０有効ビットととも
に内部的に記憶されなければならない。

【００３４】さらにまた理解されるように、本発明のプ
ロセッサでは、ＰＩ／４は、１３４有効ビットに対応す
る２つの６７ビット仮数ワードとしてＲＯＭに記憶され
る。これによって、引き数がＰＩ／４の倍数に近い場
合、４つの先行ゼロ（６３＋６７＋４＝１３４）まで処
理することが可能になる。

【００３５】引き数Ｘは、２ＰＩよりも小さなオリジナ
ル角度Ａに２ＰＩ回転数の一定量Ｍを加えたものとして
表わすことができる。（４）X = (M * (2PI)) + A そこで、Ｘ／（ＰＩ／４）は以下のように表現され
る。（５）X/(PI/4) = ((M * (2PI)) + A)*4/PI X/(PI/4) = 8 * M + A*4/PI

【００３６】ＫをＡ＊４／ＰＩの整数部分と考えると、
Ａは２ＰＩよりも小さいために、Ｋは０と７との間に含
まれる。従って、式（５）は以下のようになる。（６）X/(PI/4) = ( 8 * M + K) + FRACT(A*4/PI) この場合、ＦＲＡＣＴはＡ＊４／ＰＩの小数部分であ。

【００３７】このためＫは、８番目のどれに単位円Ａの
ＰＩ／４セグメントがあるかを表示する。「Ｋ＝０」
は、式（１）で定義されたＡ＝ＰＲＥＭを意味し、関数
は直接に計算される、即ち、ＳＩＮ（Ｘ）＝ＳＩＮ（Ｐ
ＲＥＭ）。「Ｋ＝１」は、A = PI/4 + PREM 、及びSIN
(X) = COS(PI/2 − X) を意味する。従って、SIN(A) =
COS(PI/2 − PI/4 − PREM) = COS(PI/4 − PREM)であ
る。「Ｋ＝２」は、A = PI/2 + PREM 、及びSIN(X) = C
OS(PI/2 − X) を意味する。従って、SIN(A) = COS(PI/
2 − PI/2 − PREM) = COS( − PREM) = COS(PREM)であ
る。「Ｋ＝３」は、A = 3*PI/4 + PREM 、及びSIN(X) =
SIN(PI − X) を意味する。従って、SIN(A) = SIN(PI
− 3*PI/4 − PREM) = SIN(PI/4 − PREM)である。

【００３８】そこで、Ｋの値に応じて、以下の調整を行
なう必要がある（「ＰＮ」は定義されている引き数
「Ｆ」に対して計算するための多項式である）。

【００３９】

【表１】

【００４０】

【表２】

【００４１】

【表３】

【００４２】既述されたように、多項式近似にＰＩ／４
乃至２Ｅ６３の範囲内でＸに対して２Ｅ−６３よりも小
さな相対誤差を設けるために、Ｘ／（ＰＩ／４）の部分
剰余は１３４有効ビットで表現されるＰＩ／４で計算す
る必要がある。

【００４３】算術ハードウェアバスの幅を適切に増大さ
せることによって、適切な正確度が付与されることにな
る。データフローを制御するために論理を正確に同調さ
せることによって、特定の算術演算を１３４ビットハー
ドウェア上で演算することができ、その他すべての演算
は拡張ＩＥＥＥフォーマット（内部的には６７仮数ビッ
ト、外部的には６４仮数ビット）によって要求されるバ
ス幅上で行なわれることになる。しかしながら、この解
法は、後述される実行時間とシリコンエリアを考慮せず
に簡約された引き数の正確度問題を解決するにすぎな
い。実行時間：１３４ビットハードウェアで算術演算を実
行することは、実行する上位数の論理レベルのためにサ
イクルを要求することになる。それは、多数の特別のサ
イクルが適切な部分剰余演算を実行するために要求され
ることを意味し、Ｘ＜ＰＩ／４でＳｉｎｅ（正弦）／Ｃ
ｏｓｉｎｅ（余弦）を近似させるために必要な時間の３
倍の時間まで実行時間を設定する結果となり、これは容
認できないことである。シリコンエリア：ただ部分剰余を目的として６７ビッ
トから１３４ビットに算術ハードウェアバスを拡張させ
ることは、全体のプロセッサセル計数のわずか５％乃至
７％に相当する数百の余分のセルを要求することにな
る。集中使用されない命令に対してこのようなコストを
支払うことは、前述された３つの必要条件の一つに応じ
ること、即ち、引き数簡約に対して専用のシリコンエリ
アを最小限にすること、ではない。

【００４４】本発明の好ましい実施例を以下に説明す
る。図３に示された周知のプロセッサに対して解法が提
供される。

【００４５】この図によると、８０ビットレジスタ２０
の内容は以下ＴＭＲ１として示される。また、８０ビッ
トレジスタ２１はＴＭＲ２、１５ビットレジスタ２９は
ＴＲ４Ｅ、６７ビットレジスタ３０はＴＲ４Ｍ、１５ビ
ットレジスタ３１はＴＲ１Ｅ、１５ビットレジスタ３２
はＴＲ２Ｅ、６７ビットレジスタ３３はＴＲ１Ｍ、６７
ビットレジスタ３４はＴＲ２Ｍ、６８ビットレジスタ３
９はＴＲ３Ｍ、１６ビットレジスタ３８はＴＲ３Ｅ、６
７ビットレジスタ２３はＴＲ５Ｍとして、それぞれ示さ
れている。

【００４６】９２ｘ８３ビットＲＯＭ２４は算術定数値
を含む。

【００４７】プロセッサの主要特性は以下の通りであ
る。指数算術ハードウェアは１５ビットの数を処理す
る。循環けた上げ（End Around Carry）加算器は、１サ
イクルの指数減算が可能である。レジスタ３８にラッチ
されるアライナ４４へのシフト（けた送り）量は、デコ
ードステージ４３を介してシフタ（ＡＬＩ）を制御す
る。

【００４８】仮数算術ハードウェアは６７ビットの数を
処理する。６４の仮数ビットに加えられた３つの「エク
ストラ」ビットは、ガード（Guard)、ラウンド（Round)
及びスティッキー(Sticky)ビットと呼ばれる。これらの
ビットは、結果の精度が有限ハードウェアに対して利用
可能である精度を越える場合に正確度を維持するため
に、ＩＥＥＥ規格による丸め演算（rounding operatio
n) に用いられる。６７ビット仮数減算は循環けた上げ
機構を使用し、１サイクル半を必要とする。乗算は最終
加算（final add)へと続く６７ｘ１４−ビット乗算器２
２を介して５つの部分乗算として実行される。加算器長
は実際、１サイクルにおいてかかる最後の加算を実行可
能にする８０ビットである。乗算アレイはブースエンコ
ーダ（Boothencoder)とウォリスのトリー（Wallace tre
e）を含む。アライナ４４とノーマライザ４０はとも
に、１サイクルにおいて６３ビットシフトまで実行す
る。レジスタ４２は、正規化が生じると指数ハードウェ
アによって次のサイクル内で使用される符号化された先
行ゼロ数をラッチする。

【００４９】７個の一時レジスタ（ＴＲ１乃至ＴＲ５、
ＴＭＲ１及びＴＭＲ２）を一時レジスタとして用いて数
学的演算を実行する。これらのレジスタの指数部分は、
ＴＲｘＥと称され、仮数部分はＴＲｘＭと称される。

【００５０】２つのオペランドに対する指数と仮数は異
なる入力レジスタに別個に記憶される。まず、２つのオ
ペランドの指数は入力レジスタ３１と３２に記憶され
る。同様に、仮数は入力レジスタ３３と３４に記憶され
る。オペランドは連続的、又は好ましくは同時に、８ｘ
８０−ビットスタックレジスタ３５の２つのゾーンか
ら、例えば、アドレス０とｉ（ｉ＝１乃至７）におい
て、それぞれ抽出される。スタックレジスタ３５は、２
ポートＲＥＡＤ及び１ポートＷＲＩＴＥ型である。０と
Ｉのバスは、スタック３５から２つのデータの指数と仮
数を搬送するデュアル８０−ビットデータバスである。

【００５１】オペランド間の加算／減算は、指数と仮数
に対して１６ビット加算器３６と８０ビット加算器３７
においてそれぞれ行なわれる。基本的に、加算器は個々
の入力レジスタに含まれるデータがロードされる。加算
器によって計算されたデータ、即ち、加算（ＡＤＤ）／
減算（ＳＵＢ）の部分結果、は２つの個別の出力レジス
タに記憶される。データは、指数データについて加算器
３６から出力レジスタ３８に、仮数データ（６８ビッ
ト）について加算器３７から出力レジスタ３９に、それ
ぞれロードされる。加算器３６の出力はスタック３５の
指数入力に接続される。レジスタ３９の出力はノーマラ
イザ回路４０と先行ゼロエンコーダ回路（ＬＺＤ）４１
の双方に接続される。必要ならばいつでも、レジスタ３
９に記憶された仮数はノーマライザ４０においてＩＥＥ
Ｅフォーマットで配列される。レジスタ３９に記憶され
る仮数の先行ゼロの数はまず計算され、次にエンコーダ
回路４１において符号化され、最後にレジスタ４２に記
憶される。上記符号化された数はさらに、ノーマライザ
４０を制御する。ノーマライザ４０の出力はスタック３
５の仮数入力に入力される。レジスタ３８の出力はデコ
ーダ回路４３に接続されるので、その内容値はそこで復
号化される。デコーダ回路４３の出力はアライナ４４に
入力される。アライナ４４は入力レジスタ３４を駆動す
る。仮数加算器３７において生成されたキャリーアウト
（桁上げ出力）ビットｃはレジスタ３９の６８番目の位
置に接続される。上記のように、仮数結果の丸め演算は
必要であるために、レジスタ３８の出力は指数加算器３
６の左側入力と、４−ウェイ乗算器回路１６の一入力
と、に入力され、乗算器回路１６の他の入力はスタック
３５とＲＯＭ２４によって供給される。同様に、レジス
タ４２の出力は加算器３６の右側入力に入力される。実
際は、レジスタ４２によって生成される各ビットは、標
準としての加算器３６に含まれるＸＯＲ回路（図示せ
ず）の一入力に入力され、他の入力は、完了すべきＡＤ
Ｄ又はＳＵＢ演算に従って決定する制御論理によって生
成される制御ビットを受信する。制御ビットが０に等し
い場合、該ビットは補数演算が行なわれず、ほかの場合
には、該ビットは補数演算が行なわれる。

【００５２】仮数加算器に関する限り、０とｉのバス
と、ノーマライザ４０の出力は４−ウェイ乗算器４７と
３−ウェイ乗算器４８に入力され、これら乗算器は、
（レジスタ３３に対しては）直接に、又は（レジスタ３
４に対しては）アライナ４４を介することの何れかによ
って、レジスタ３３とレジスタ３４に出力する。

【００５３】正規化と丸めを行なった後、結果の指数と
仮数はスタック３５に記憶される。スタック３５は、す
べてのバイナリオペランドと符号が記憶されるＲＡＭと
して作動する。この符号は制御論理において生成される
と同時にスタック３５に記憶される。符号処理のための
回路の図示は省略する。

【００５４】該プロセッサに関する詳細な説明は、本発
明の出願と同一の譲受人に譲渡されたヨーロッパ特許出
願第９２４８０１６５．７号（１９９２年１１月５日出
願）に見ることができ、その教示は全体として本出願の
説明中に組み込まれる。

【００５５】図３の周知のプロセッサにおいて、乗算
は、除算の時よりも高速で数回実行する。このような機
能を考慮することによって、特定の部分剰余演算を除算
を行なうことなく以下のように再公式化することもでき
る。

【００５６】 PREM = X − ((PI/4) * Integer(X/(PI/4))) X = (PI/4 ) * (FRACT(X*4/PI)) ＋ Integer (X*(4/P
I)) PREM = PI/4 * FRACT(X*(4/PI)) PI/4 − PREM = PI/4− PI/4 * FRACT(X*(4/PI)) PI/4 − PREM = PI/4 * (1 − FRACT(X*(4/PI))) この場合、ＦＲＡＣＴは小数部分である。

【００５７】６７の有効ビットのみをもつＸによって１
３４個のビット上で表現される４／ＰＩを乗算する問題
は、ハードウェアが２個の６７有効ビット仮数の乗算の
結果を１３４ビット上で取り扱うことによって処理さ
れ、演算（４／ＰＩ）＊Ｘは、図５に示されるように逐
次的通常６７ビット計算をただ実行することによって得
られる。

【００５８】この演算は、多項式近似の実行時間（９０
サイクル程度）と比較してもなお合理的である１６サイ
クルにおいて実行される。

【００５９】本発明の解法によって、プロセッサのデー
タフローにおいて追加されたハードウェアは実際に、図
４に対して説明されるように最小化される。

【００６０】バス（２６）は、除算に使用される商レジ
スタ２３の新規入力に対し１４ＬＳＢ加算器３７の出力
を接続する。

【００６１】最終１３４ビット加算の第１の６７ビット
ステップのキャリー（けた送り）は第２の６７ビットス
テップを処理するために再導入される。

【００６２】新レジスタ２５（内容：ＴＲ５Ｅ）は設け
られている。部分結果は、主命令（加算、減算、乗算、
除算）によって集中的に使用される一時レジスタに記憶
される。

【００６３】さらに１７サイクルにおいて、１３４ビッ
トの最終結果の小数部分は、なおまだ抽出されなければ
ならず（図６参照）、これはさらに、小数部分を抽出す
るためにｉだけのシフトが実行される時にＩの３ＬＳＢ
を失わないようにノーマライザ４０が３つのビット分だ
け左側に増加されることを除いて新しいハードウェアな
しに逐次的６７ビット演算を実行することによってなさ
れる。３つのラッチはさらに、上記テーブル内でＫを表
現するこれらビットを記憶するために追加される。追加
された論理は約６５セルである。

【００６４】結果の６７小数部分を抽出するために、上
位部分はｉだけシフトされ、下位部分は６７−ｉだけシ
フトされる必要があり、２つのシフトされた数はＡＤＤ
（加算）演算によって連結される。しかしながら、小数
部分は先行ゼロを有することもある。

【００６５】精度を失わないようにするために、抽出さ
れた小数部分は６７個の有効ビットを有する必要があ
る。それは、先行ゼロＬがｌの左にシフトすることによ
ってドロップされ、下位部分は６７−ｌだけ右側にシフ
トされる必要があり、さらにこれら２つのシフトされた
数はＡＤＤ演算によって連結される。

【００６６】最適化によって、一つのＡＤＤ演算のみが
以下のように６７個の有効ビットを抽出するために必要
とされる。＊ノーマライザ４０に、（４／ＰＩ）＊Ｘの上位ワード
をｉビット分だけ左側にシフトさせる。同時に、（４／
ＰＩ）＊Ｘの整数部分に対応するシフトされて出された
データの３ＬＳＢは、後で実行するための引き数修正を
定義するために記憶される（参照サイクル１０）。ｉは
指数加算器によって６７から減算されて、この結果は記
憶される。＊先行するシフトされた数は正規化され（ｌに先行する
ゼロは落とされる）、ｌは記憶される。＊指数加算器は６７−ｉからｌを減算する。結果６７−
ｉ−ｌは記憶される。＊アライナ４４が、（４／ＰＩ）＊Ｘの下位部分を（６
７−ｉ−ｌ）ビット分だけ右側にシフトするようにす
る。＊ｉ＋ｌだけ左側にシフトされた上位部分と、６７−ｉ
−ｌだけ右側にシフトされた下位部分と、を加算して、
６７有効ビットの数を得る。

【００６７】さらに、引き数修正の実行が必要である場
合（特に、ＰＲＥＭがおおよそＰＩ／４である場合）に
精度を失わないようにするために、１−小数部分はま
た、逐次的６７ビット演算によって１３４ビット上で実
行される。まず、下位部分はゼロから減算され、次に上
位部分はゼロから減算されて、先の結果のキャリー・イ
ン（けた入力）＝キャリー・アウト（けた出力）とな
る。その後、上記と同じステップが実行されて小数部分
を抽出する。

【００６８】引き数簡約／修正ステップにおける最後の
演算のみ−−抽出された小数部分をＰＩ／４で乗算する
こと−−が６７ビット上で実行される。

【００６９】図７は引き数簡約／修正シーケンスを示し
ている。

【００７０】全体の引き数簡約／修正は、実行するため
の修正に応じて３０サイクル乃至３４サイクルの間のサ
イクルを必要とする。これは多項式近似の実行時間の約
１／３を表現する（正弦／余弦については約９０サイク
ル）。

【００７１】サイクルは以下に詳述される。

【００７２】１３４ビット上での乗算（４／ＰＩ）＊Ｘ＊サイクル１：初期化オペランドＸはＩＥＥＥ標準規則セット（データ有効、
ゼロに等しい、無限大、非正規化数、など）に従って検
査される。

【００７３】ＴＲ１Ｍは、ＲＯＭ２４に記憶される４／
ＰＩの下位ビット（６７乃至１３４）で設定される。

【００７４】オペランドＸはＴＲ４にロードされ、仮数
部分はＴＲ４Ｍに、指数部分はＴＲ４Ｅに、それぞれロ
ードされる。

【００７５】ＴＭＲ１とＴＭＲ２はＸ’０．．０’と、
Ｘ’８０．．０’でそれぞれ初期化される。

【００７６】ＴＲ２Ｅは２Ｅ６３の値に設定されて、Ｘ
が範囲外にあるか否かを検査する。

【００７７】＊サイクル２：第１の乗算サイクルＴＭＲ１、ＴＭＲ２、及び乗算器２２のブースエンコー
ダによって生成される７つの第１の部分項は、ウォリス
のトリーを介し、ＴＭＲ１とＴＭＲ２にラッチバックさ
れる２つの数に簡約される。

【００７８】指数加算器はＴＲ２Ｅ乃至ＴＲ４Ｅを実行
する。指数キャリー加算器はラッチされる。その値がゼ
ロの場合、これはＸが範囲外にあること、即ち、２Ｅ６
３よりも大きいこと、を意味する。

【００７９】＊サイクル３：第２の乗算サイクルＴＭＲ１とＴＭＲ２の最上位部分は、（ブースエンコー
ダを介してＴＲ１ＭとＴＲ４Ｍから発生する）次の部分
項をそなえたウォリスのトリーに導入されて、ＴＭＲ１
とＴＭＲ２にラッチバックされる２つの数を得ることに
なる。

【００８０】ＴＭＲ１とＴＭＲ２の１４個の最下位ビッ
トは仮数加算器で加算されて、一時スティッキービット
を生成するために論理和される。結果としてのキャリー
は同一サイクルで部分項に加算されるためのウォリスの
トリーに導入される。

【００８１】ＲＯＭアドレスは次のワードを読み取る準
備のために増分される。

【００８２】＊サイクル４：第３の乗算サイクル上記サイクルと同一の仮数処理。

【００８３】上記一時スティッキービットは、新しい一
時スティッキービットを生成するために１４個の最下位
ビットで論理和される。

【００８４】サイクル２でラッチされた指数加算器キャ
リーが０の場合、即ち、Ｘが２Ｅ６３よりも大きい場
合、処理は終了する。

【００８５】＊サイクル５：第４の乗算サイクル上記サイクルと同一処理。

【００８６】＊サイクル６：第５の乗算サイクル上記サイクルと同一処理。

【００８７】＊サイクル７：最終加算ＴＭＲ１とＴＭＲ２が加算される（８０ビット加算）。
結果はＴＲ３Ｍ（６８ビット幅）を設定する。

【００８８】ＴＲ３Ｍ・ＬＳＢは、最終加算の１３個の
最下位ビットを備えた上記一時スティッキービットの論
理和である。

【００８９】ＴＲ１Ｍは、ＲＯＭ２４に記憶される４／
ＰＩの上位ビット（０乃至６７）に設定される。

【００９０】ＴＭＲ１とＴＭＲ２は、Ｘ’０．．０’と
Ｘ’８０．．０’でそれぞれ初期化される。

【００９１】ＴＲ２Ｅは４／ＰＩの指数に設定される。注意：この段階において、（４＊ＰＩ）の下位ビットに
Ｘをかけた積はＴＲ３Ｍにラッチされる。

【００９２】＊サイクル８：第１の乗算サイクルＴＭＲ１、ＴＭＲ２及びブースエンコーダによって集積
される７個の第１の部分項は、ＴＭＲ１とＴＭＲ２にラ
ッチされる２つの数を得るためにウォリスのトリーを介
して簡約される。

【００９３】＊サイクル９：第２の乗算サイクルＴＭＲ１とＴＭＲ２の最上位部分は、ＴＭＲ１とＴＭＲ
２にラッチバックされた２つの数を得るために、（ブー
スエンコーダを介してＴＲ１ＭとＴＲ４Ｍから生じる）
次の部分項を備えたウォリスのトリーに導入される。

【００９４】ＴＭＲ１とＴＭＲ２の１４ＬＳＢは仮数加
算器で加算されて、ＴＲ５Ｍの１４ＭＳＢに記憶され
る。結果としてのキャリーはウォリスのトリーに導入さ
れ、同一サイクルで部分項に加算される。

【００９５】指数加算器がＴＲ２Ｅ＋ＴＲ４Ｅ＋１を実
行するのは、形式１．ＸＸＸ・・・ＸＸＸ、の２つの仮
数の乗算が１Ｘ．ＸＸＸ・・・ＸＸＸである可能性があ
り、最終乗算結果が正規化されるからである。

【００９６】結果はＴＲ３Ｅにラッチされる。この数は
４／ＰＩで乗算されたＸの指数を表現する。

【００９７】＊サイクル１０：第３の乗算サイクル上記サイクルと同一仮数処理。

【００９８】ＴＲ５Ｍは１４ビットだけ右側にシフトさ
れ、加算器からの新しい１４ビットの結果はＴＲ５Ｍの
１４ＭＳＢに記憶される。

【００９９】指数加算器はＴＲ３Ｅ−Ｂｉａｓを実行す
る。このバイアス修正は、２つのバイアスがサイクル９
で加えられているために必要である。

【０１００】結果はＴＲ３ＥとＴＲ５Ｅにラッチされ
る。この数は４／ＰＩで乗算されたＸのバイアス化指数
を表現する。

【０１０１】＊サイクル１１：第４の乗算サイクル上記サイクルと同一仮数処理。

【０１０２】ＴＲ５Ｍは１４ビットだけ右側にシフトさ
れ、加算器から得られる新しい１４ビットの結果はＴＲ
５Ｍの１４ＭＳＢに記憶される。

【０１０３】＊サイクル１２：第５の乗算サイクル上記サイクルと同一仮数処理。

【０１０４】＊サイクル１３：最終加算ＴＲ３Ｍは前の結果、即ち、（４＊ＰＩ）の下位ビット
のＸとの積を含み、（４／ＰＩ）の上位ビットのＸとの
乗算の下位部分が後で加算されるようにアライナ４４を
介してＴＲ２Ｍに転送される。

【０１０５】ＴＭＲ１とＴＭＲ２は加算される（８０ビ
ット加算）。結果はＴＲ３Ｍにロードされる（６８ビッ
ト幅）。

【０１０６】ＴＲ５Ｍは１４ビットだけ右側にシフトさ
れて、加算器出力の１４ＬＳＢはＴＲ５Ｍの１４ＭＳＢ
にロードされる。注意：この段階において、Ｘによる（４＊ＰＩ）の上位
ビットの積の下位部分は、上位部分がＴＲ３Ｍにある場
合、ＴＲ５Ｍにある。

【０１０７】＊サイクル１４：ＴＲ５Ｍはノーマライザ
４０とＭＵＸ１Ｍを介してＴＲ１Ｍに転送される。

【０１０８】＊サイクル１５：ＴＲ３Ｍはノーマライザ
４０とアライナ４４を介して（ともにゼロシフトで）Ｔ
Ｒ４Ｍに転送される。

【０１０９】ＴＲ２ＭとＴＲ１Ｍは仮数加算器によって
加算される。その結果はＴＲ３Ｍにラッチされる。仮数
キャリーアウト（出力）はラッチされる。この６７ビッ
トの数は拡張乗算の下位部分である。

【０１１０】ＲＯＭ２４に記憶される２Ｅ−１の値は、
ＴＲ４Ｅにロードされる。

【０１１１】＊サイクル１６：ＴＲ３ＭはＴＲ５Ｍに転
送される。

【０１１２】既にラッチされた仮数加算器キャリーアウ
トはＴＲ４Ｍを備えた仮数加算器によって加算される。
結果はＴＲ３Ｍにラッチされる。

【０１１３】指数加算器は、積（４／ＰＩ）＊Ｘの指数
を含むＴＲ２Ｅから、２Ｅ−１を含むＴＲ４Ｅを減算す
る。正規化数の仮数部が常に１．ＸＸＸ．．．．．ＸＸ
ＸＸＸであり（この先行する１はさらに小数部分を得る
ためにシフトアウトされる必要がある）、ＴＲ２Ｅにお
ける数はバイアスされることを考慮するために、実数２
Ｅ−１のバイアス指数が用いられる。

【０１１４】ＴＲ３Ｅにラッチされた結果（ｉ）は剰余
の整数部のビットの数である。注意：この段階では、（４＊ＰＩ）のＸとの積の下位
部分は、その上位部分がＴＲ３Ｍにある場合、ＴＲ５Ｍ
にあることになる。積（４／ＰＩ）＊Ｘの整数部の下位
ビット、即ち、Ｋ値、を計算するための命令に従って、
ＰＲＥＭは計算され、即ち、ＧＯＴＯサイクル２０、
又はＰＩ／４ − ＰＲＥＭ、即ち、次のサイクル。

【０１１５】１３４ビット上での１−ＦＲＡＣＴ（Ｘ＊
（４／ＰＩ））の計算＊サイクル１７：少なくとも一個の左ビットが小数部分
の抽出によって失われるので、１−（Ｘ＊（４／Ｐ
Ｉ））はサイクル１８と１９で記載されたように計算す
ることができ、小数部分はＸ＊（４／ＰＩ）と同一サイ
クルにおいて抽出される。

【０１１６】ＴＲ５Ｍはノーマライザ４０を介してＴＲ
４Ｍに転送される（シフトゼロ）

【０１１７】＊サイクル１８：ＴＲ４Ｍにラッチされ
る、（４＊ＰＩ）のＸとの積の下位部分はゼロから減算
される。キャリーアウトを有する計算結果はＴＲ３Ｍに
ラッチされる。

【０１１８】ＴＲ３Ｍはノーマライザ４０とアライナ４
４を介してＴＲ２Ｍに転送される（シフトゼロ）。

【０１１９】＊サイクル１９：ＴＲ２Ｍにラッチされ
る、（４＊ＰＩ）のＸとの積の上位部分はゼロ（１．０
００．．．０００ − １．ＸＸＸ．．．ＸＸＸは、．
０００．．．０００ −．ＸＸＸ．．．ＸＸＸに等し
い）から減算されて、サイクル１８のキャリーイン＝キ
ャリーアウトとなる。結果はＴＲ３Ｍにラッチされる。

【０１２０】注意：この時点において、上位部分は再
びＴＲ３Ｍにあり、下位部分はＴＲ５Ｍにある。

【０１２１】積（４／ＰＩ）＊Ｘ又は１−（（４／Ｐ
Ｉ）＊Ｘ）の小数部分の抽出＊サイクル２０ＴＲ３Ｍは^・ＮＯＲを介して（サイクル１６においてＴ
Ｒ３Ｅにロードされ、ノーマライザを制御するためにＤ
ＥＣによって復号化された）ｉだけ左側にシフトされ、
次にＡＬＩによってｉだけ右側にシフトされ、ＴＲ２Ｍ
に記憶される。この数のＩの部分はｉ個のゼロに置き換
えられている。

【０１２２】＊サイクル２１ＲＯＭ２４に記憶された値６７はＴＲ１Ｅにロードされ
る。ＴＲ２Ｍは加算器を介してＴＲ３Ｍにロードされ
る。

【０１２３】＊サイクル２２ＴＲ３ＭはＮＯＲを介して正規化され、ＴＲ１Ｍに記憶
されて、小数部分の先行ゼロを抑制する。先行ゼロｉ＋
ｌの数はレジスタ４２に記憶される。ＦＲＡＣＴの上位
部分はＴＲ１Ｍの左側にあり、下位部分はなおまだＴＲ
５Ｍにある。

【０１２４】＊サイクル２３レジスタ４２（ｉ＋ｌ）は指数加算器によってＴＲ１Ｅ
（６７）から減算されて、ＴＲ３Ｅに記憶される。

【０１２５】＊サイクル２４ＮＯＲを介したＴＲ５Ｍ（左ゼロをシフトする）とＭＵ
Ｘ２は、６７−ｉ−ｌビットだけアライナを介して右側
にシフトされ（ＴＲ３Ｅは復号回路ＤＥＣを介してアラ
イナを制御する）、ＴＲ２Ｍにロードされる。

【０１２６】ＦＲＡＣＴの上位部分はＴＲ１Ｍの左側に
あり、下位部分はＴＲ２Ｍの右側にある。

【０１２７】＊サイクル２５レジスタ４２（ｉ＋ｌ）は指数加算器によってＴＲ５Ｅ
（サイクル１０にロードされるＸ＊４／ＰＩの指数）か
ら減算されて、ＴＲ３Ｅに記憶される。ＴＲ３Ｅは小数
部分の指数を保持する。

【０１２８】ＴＲ１Ｍは仮数加算器を介してＴＲ２Ｍに
加算され、ＴＲ３Ｍに記憶される。２つの部分は連結さ
れており、結果は多数の６７有効ビットとなる。

【０１２９】注意：この時点で、Ｘ＊４／ＰＩ又は１
−Ｘ＊４／ＰＩの小数部分はＴＲ３Ｍにある。

【０１３０】６７ビットのＰＩ／４による最終積＊サイクル２６ＲＯＭ２４に記憶されている、ＰＩ／４の仮数部はＴＲ
１Ｍにロードされる。

【０１３１】ＲＯＭ２４に記憶されている、ＰＩ／４の
指数部はＴＲ４Ｅにロードされる。ＴＲ３Ｍに記憶され
ている小数部分はノーマライザを介してＴＲ４Ｍに転送
される。

【０１３２】ＴＭＲ１とＴＭＲ２は、Ｘ’０．．０’と
Ｘ’８０．．０’によってそれぞれ初期化される。

【０１３３】＊サイクル２７：第１の乗算サイクル
（ＴＲ１ＭＸＴＲ４Ｍ）ＴＭＲ１、ＴＭＲ２及び乗算器２２のブースエンコーダ
によって生成される７個の第１の部分項はウォリスのト
リーを介してＴＭＲ１とＴＭＲ２にラッチバックされる
２つの数に簡約される。

【０１３４】＊サイクル２８：第２の乗算サイクルＴＭＲ１とＴＭＲ２の最上位部は、（ブースエンコーダ
を介してＴＲ１ＭとＴＲ４Ｍから生じる）次の部分項と
ともにウォリスのトリーに導入されて、ＴＭＲ１とＴＭ
Ｒ２にラッチバックされる２つの数を得る。

【０１３５】ＴＭＲ１とＴＭＲ２の１４個の最下位ビッ
トは仮数加算器に加算されて、一時スティッキービット
を得るために論理和される。結果としてのキャリーは同
一サイクルで部分項に加算されるためにウォリスのトリ
ーに導入される。

【０１３６】指数加算器はＴＲ３Ｅ（サイクル２５でロ
ードされる）＋ＴＲ４Ｅ＋１を実行する。

【０１３７】＊サイクル２９：第３の乗算サイクル上記サイクルと同一の仮数処理。

【０１３８】上記一時スティッキービットは１４ビット
の計算結果で論理和されて新しい一時スティッキービッ
トを生成する。

【０１３９】指数加算器はＴＲ３Ｅ−Ｂｉａｓを実行す
る。このバイアス修正は、２つのバイアスがサイクル２
８において加算されているために必要とされる。結果は
ＴＲ３Ｅにラッチされる。この数は４／ＰＩで乗算され
たＸのバイアス指数を表わす。

【０１４０】＊サイクル３０：第４の乗算サイクル上記サイクルと同一処理。

【０１４１】＊サイクル３１：第５の乗算サイクル上記サイクルと同一処理。

【０１４２】＊サイクル３２：最終加算ＴＭＲ１とＴＭＲ２が加算される（８０ビット加算）。
計算結果はＴＲ３Ｍにロードされる（６８ビット幅）。

【０１４３】ＴＲ３ＭＬＳＢは、最終加算の１３個の
最下位ビットと上記一時スティッキービットとの論理和
である。

【０１４４】＊サイクル３３：正規化簡約された引き数（REDUCED ARGUMENT）ｘを含むＴＲ３
Ｍはノーマライザを介してＴＲ１Ｍ、ＴＲ４Ｍ及びＴＲ
５Ｍに転送される。これは、計算するための三角関数に
従ってｘＥ２を計算する必要があるからである。そこ
で、簡約された引き数ｘをＴＲ１ＭとＴＲ４Ｍに置くこ
とによって、ｘによるｘの乗算を開始する用意が可能に
なる。

【０１４５】

【発明の効果】本発明のシステムは上記のように構成さ
れているので、プロセッサにおいて高正確度且つ高速収
束で、わずかな専用資源によって引き数簡約を行なうこ
とが可能である。

【図面の簡単な説明】

【図１】三角関数の計算のための本発明による内部汎用
アルゴリズムを示す図である。

【図２】８０ビット二重拡張ＩＥＥＥ精度フォーマット
を示す図である。

【図３】本発明の解法が適用される周知のプロセッサを
説明する図である。

【図４】本発明による周知のプロセッサのデータフロー
における付加ハードウェアを説明する図である。

【図５】逐次的な通常６７ビット演算を実行することを
詳述する図である。

【図６】１３４ビット最終結果の小数部を抽出すること
を示す図である。

【図７】引き数簡約／訂正シーケンスを示す図である。

【符号の説明】

３７第１の加算器４４アライナ３９第１の出力レジスタ（ＴＲ３Ｍ）４０ノーマライザ４１先行ゼロ検出器／エンコーダ２３第２の出力レジスタ（ＴＲ５Ｍ）３８第３の出力レジスタ（ＴＲ３Ｅ）４３エンコーダ２２乗算器３５スタッカー２４メモリ２５第４の出力レジスタ（ＴＲ５Ｅ）３６第２の加算器

───────────────────────────────────────────────────── フロントページの続き (72)発明者ディディエルイフランス国、77300 フォンテヌブロー、ルポールジョゾン 22 (72)発明者ディディエパンションフランス国、91940 レズリ、ルディフォレズ 11 (72)発明者アンドレステムレフランス国、91000 エヴリ、アレデラブットルージュ 10

Claims

(57)【特許請求の範囲】

【請求項１】プロセッサにおいて、０とＰＩの倍数と
の間で構成される値に対し引き数簡約を最適化するため
のシステムであって、（ａ）第１の加算器（３７）；アライナ（４４）；
最上位ビットが第１の加算器（３７）によって生成され
るキャリーアウトビットであり、第１のブロックの出力
はノーマライザ（４０）に接続されている、第１の出力
レジスタ（３９、ＴＲ３Ｍ）；先行ゼロ検出器／エン
コーダ（４１）；第２の出力レジスタ（２３、ＴＲ５
Ｍ）を有するとともに、引き数仮数上でパイプラインＡ
ＤＤ（加算）／ＳＵＢ（減算）／ＣＯＭＰＡＲＥ（比
較）演算を実行するように働く第１のブロックと、（ｂ）第２の加算器（３６）と、出力がアライナ（４
４）を制御するエンコーダ（４３）に接続される第３の
出力レジスタ（３８、ＴＲ３Ｅ）と、を有する、引き数
指数上でパイプラインＡＤＤ／ＳＵＢ／ＣＯＭＰＡＲＥ
演算を実行するように働く第２のブロックと、（ｃ）出力が第１の加算器（３７）の入力にフィードバ
ックされる乗算器（２２）を有する、引き数仮数上でパ
イプラインＭＵＬＴＩＰＬＹ（乗算）演算を実行するよ
うに働く第３のブロックと、（ｄ）パイプライン引き数に対するスタッカー（３５）
と、第１、第２、第３のブロックのそれぞれに入力定数
値を付与するためのメモリ（２４）と、を含むとともに、第２の加算器（３６）の出力に接続されている第４の出
力レジスタ（２５、ＴＲ５Ｅ）と、エンコーダ（４３）がさらにノーマライザ（４０）を制
御することを可能にするための手段（２８）と、第２の出力レジスタ（２３、ＴＲ５Ｍ）がその内容をビ
ットの数だけシフトし、その最上位ビットと同数のビッ
トを第１の加算器（３７）から入力することを可能にす
るための手段（２６、２７）と、をさらに含む引き数簡約の最適化システム。
【請求項２】前記ＰＩの倍数は１／４である、請求項
１記載の引き数簡約の最適化システム。