JP2520569B2

JP2520569B2 - 浮動小数点数の指数計算における引数縮小を行うための装置

Info

Publication number: JP2520569B2
Application number: JP5242229A
Authority: JP
Inventors: バーナード・デスロシエルス; ディディエル・ルイ; ディディエル・ピンチョン; アンドレ・ステイムル
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1992-11-05
Filing date: 1993-09-29
Publication date: 1996-07-31
Anticipated expiration: 2011-07-31
Also published as: EP0596175A1; JPH07168700A; US5463574A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、数値データ・プロセッ
サに関するものであり、更に詳しく言えば、ＩＥＥＥ標
準の浮動小数点数に対する指数及び対数計算において広
範に使用される引数縮小ステップを実行するための装置
に関するものである。

【０００２】

【従来の技術】大きな数の浮動小数点演算を必要とする
アプリケーションに対して更に大きな計算能力を与える
ためには、一般に、数値データ・プロセッサは、加算、
減算、乗算、及び除算のような主要な基本的浮動小数点
命令をハードウエアで実施している。最も一般的には、
これら浮動小数点命令は、データ・プロセッサの半導体
チップに直接に、又は別個の数値データ・プロセッサ・
チップ（いわゆる、上記浮動小数点命令を実行するよう
に主データ・プロセッサと共同する数学又は数値コプロ
セッサ）に直接に組み込まれる。科学計算及びモデル化
処理に必要な指数関数、対数関数、及び三角関数を含む
超越関数は基本的関数のようには頻繁に使用されず、そ
してそれらは実際にハードウエアを浪費するものである
ため、一般には、それらの計算はソフトウエア技術によ
って遂行されている。

【０００３】科学計算又は技術計算で使用される数値又
はデータは、符号Ｓ、指数Ｅ、及び仮数Ｍより成る浮動
小数点数構成で表わされ、これは限られたビット数で広
範囲の数値の表現を可能にする。この構成を使用するた
めに、多くの相異なる標準的形式が存在する。特に、広
範に受け入れられた代表的な浮動小数点形式は、ＩＥＥ
Ｅによって提案された標準形式である。この標準は、４
つの浮動小数点形式、即ち、単精度、拡張単精度、倍精
度、及び拡張倍精度を定義している。

【０００４】説明の便宜上、以下では、８０ビット拡張
倍精度形式だけを説明する。それは、この形式がマイク
ロコンピュータ・チップでは広範囲に使用されているた
めである。図１に示されるように、それは、１ビットの
符号、１５ビットの指数、及び６４ビットの有効数より
成る。この形式では、ビット位置６３には、ゼロのよう
な或値を除く明示的１がその形式の有効数部分に記憶さ
れる。その有効数字の残り６３ビット部分は、いわゆる
仮数Ｍである。更に、指数は、バイアス形式で表わされ
る。即ち、ＢＩＡＳ（バイアス）＝１６３８３のように
呼ばれる定数が指数の実際の値Ｅ（真の指数）に加えら
れる。図１の形式では、６４仮数ビットの精度が得ら
れ、従って、−２¹⁶³⁸²（最大負数）及び＋２¹⁶³⁸³（最
大正数）の範囲の数を表わすことができる。

【０００５】更に一般的には、ＩＥＥＥ標準形式による
と、真数Ｎの値は次のように与えられる。即ち、

【０００６】

【数４】Ｎ＝（（−１）＊＊Ｓ）＊（１．Ｍ）＊（２＊
＊（Ｅ＋ＢＩＡＳ））但し、正数に対してはＳ＝０、負数に対してはＳ＝１で
ある。

【０００７】有効な（即ち、正規化された）数Ｎは、０
＜Ｅ＋ＢＩＡＳ＜３２７６７によって与えられる。バイ
アスされた指数の値がその最大値（即ち、Ｅ＋ＢＩＡＳ
＝３２７６７）にあり且つ仮数Ｍが０ではないケース
は、特別に、非数値として扱われる。バイアスされた指
数の値がその最大値にあり且つ仮数Ｍが０に等しいケー
スは、特別に、無限大として扱われる。最後に、バイア
スされた指数の値（Ｅ＋ＢＩＡＳ）がその最小値にある
（即ち、０に等しい）ケースは、非正規化数（Ｍ≠０）
又はゼロ（Ｍ＝０）として例外的に扱われる。

【０００８】計算は、６７ビット仮数で行われ、しかる
後、図１に示されるように、３つの精度付加ビット（ス
ティッキ・ビット、ガード・ビット、及びラウンド・ビ
ット）と呼ばれる最後の３ビットに従って６４ビットに
丸められる。ＩＥＥＥ標準は、３つの丸めモードを解説
している。例えば、最も頻繁に使用される丸めモードに
よれば、有効数の６４個のビット位置が１でもって満た
され且つ３つの精度ビットが１００である数では、丸め
動作は、その有効数のＬＳＢに１を加えることより成
る。これ以上の詳細に関しては、この件の参考文献であ
るＩＥＥＥタスのドラフト８．０「バイナリ浮動小数点
演算に関する提案された標準」１９８１、７５４頁を参
照されたい。

【０００９】ここで、ＩＥＥＥ標準数を意味する超越関
数、特に、指数関数に説明を戻すと、（−１，＋１）の
範囲における如何なる演算アルゴリズムも、次の２つの
基本的要件に合致しなければならない。即ち、 ‐１命令当たり最小のサイクル数を必要とするための高
速収斂 ‐期待される最小の相対誤差を達成するための高い精度従って、アルゴリズム選択は最重要事であり、利用可能
なハードウエア・アーキテクチャに依存して種々のアル
ゴリズムが科学者により試されている。

【００１０】インテル８０３８７チップのような乗算器
を持たない浮動小数点コプロセッサに関しては、指数関
数を計算するために、コーディック（Ｃｏｒｄｉｃ）ア
ルゴリズムをベースとした方法が実施されている。これ
は、それが加算及びシフト演算を使用するだけの反復近
似計算であるためである。コーディック法は、仮数ビッ
トの数（インテル８０３８７チップに対しては６７ビッ
ト）に等しい数の反復をほぼ必要とし、従って、それは
比較的低速の処理である。

【００１１】ＣＹＲＩＸ８３Ｄ８７チップのような乗
算器を組み込んだ半導体チップに関しては、指数関数を
演算する３つの異なる方法、即ち、 ‐テーラー／マクローリン（Ｔａｙｌｏｒ／Ｍａｃ‐Ｌ
ａｕｒｉｎ）又はチェビシェフ（Ｔｃｈｅｂｙｃｈｅ
ｖ）の多項式に基づく純多項式値の計算 ‐ペイド（Ｐａｄｅ）法による有理多項式近似計算 ‐多項式値の計算及び表補正の両方を伴う引数縮小が検討された。

【００１２】Ｐｈ．ボノー（Ｂｏｎｎｏｔ）による論文
「超越関数の実施」‐ＥＮＳＴパリ１９８８年２月
‐に見るような従来の原理的な方法によれば、上記の最
後の、即ち、３番目の方法がハードウエア・アーキテク
チャの技術状況に十分に適合するが示された。それは最
も速い近似法に通じるものではないが、データ・パスが
有限の精度のハードウエア（仮数の長さは内部レジスタ
の特性である）を持つときには十分に満足のいくもので
ある。

【００１３】通常、指数多項式ｅ^**ｘを演算するために
は、開始の関数は、

【００１４】

【数５】Ｆ(ｘ)＝（２＊＊ｘ）―１＝（ｅ＊＊（ｌｎ２
＊ｘ））―１である。本質的には、その方法は、基本的にまず、最適
の縮小した範囲（ｘ―ｘｉ）の決定より成る。一旦、縮
小した範囲が選択されてしまうと、その縮小した範囲内
の指数関数の多項式演算、即ち、

【００１５】

【数６】Ｆ(ｘ―ｘｉ)＝（２＊＊（ｘ―ｘｉ））―１が行われる。最終的には、結果は最後の所望の値、Ｆ
(ｘ)＝（２＊＊ｘ）―１を決定するように補正されなけ
ればならない。この最終の補正ステップは、Ｆ(ｘ―ｘ
ｉ)及びＦ(ｘｉ)の関数として表わすことができるＦ
(ｘ)に基づくものである。従って、Ｆ(ｘｉ)値が全範囲
（―１，＋１）内のｘｉの値に対応している補正表が必
要である。

【００１６】Ｐｈ．ボノーの功績から明らかなように、
下記の表１は、選択された縮小範囲に依存する上記の２
＊＊―６３よりも小さい相対的誤差に達するために最小
の次数のテーラー／マクローリン多項式及びチェビシェ
フ多項式を示す。同様に、表１には、縮小範囲のそれぞ
れに対して、必要なＦ(ｘｉ)値の数が示される。これら
の定数値Ｆ(ｘｉ)はその補正のために必要である。それ
らは、内部的に、例えば、オン・チップＲＯＭ（以後、
定数ＲＯＭと呼ぶ）に記憶されなければならない。

【００１７】

【表１】範囲テーラーチェビチェフＸｉ／Ｆ（ｘｉ）の関数（−１,＋１）１８１６０（−１／２,＋１／２）１５１３２（−１／４,＋１／４）１３１１４（−１／８,＋１／８）１１１０８（−１／１６,＋１／１６）１０９１６（−１／３２,＋１／３２）９８３２（−１／６４,＋１／６４）８７６４表１は、引数縮小が望ましいことを、原理的観点から明
らかに示している。これは、範囲が狭くなればなるほ
ど、多項式の次数、従って、反復の数、最終的にはマシ
ン・サイクルが小さくなる。しかし、これは、オン・チ
ップＲＯＭに内部的に記憶されるべきＦ(ｘｉ)値の増加
を犠牲にするものであり、従って、消費されるシリコン
空間を最適化するために、表の大きさと反復の回数との
間で取決めがなされなければならない。実のところ、引
数縮小は指数計算法の本質である。

【００１８】縮小範囲の選択に加えて、（―１，＋１）
範囲内のｘｉ値のセットは、２つの相いれない要件を留
意して、正確に選択されなければならない。一方では、
最良のチェビシェフ多項式収斂が非線形分布によって得
られる。他方では、最速のｘｉサーチが線形分布によっ
て達せられる。更に、このサーチは、ｘｉの数が２の累
乗であるとき、明らかに改良される。Ｐｈ．ボノーの方
法によれば、２の累乗であるｘｉの数と結合された線形
分布によってｘｉ値を定義することが望ましい。これ
は、それが半導体チップにおいて実施されるべき最も容
易なものであるためである。テーラー／マクローリン及
びチェビシェフの多項式の次数は、定数ＲＯＭに記憶さ
れた表におけるわずか８つの値によって、それぞれ、１
８から１１に及び１６から１０に減少する。その後、新
しい次数が小さくなるたびに、表の大きさは２倍にな
る。最終的には、（―１，＋１）範囲内で、８つのｘｉ
値が次の関係式により定義される。即ち、

【００１９】

【数７】（ｋ―１）／４＜｜ｘ｜≦ｋ／４に対して、
ｋが１≦ｋ≦４のような整数であるとき、｜ｘｉ｜＝（ｋ―１）／４＋（１／８）となる。図２は、８つの選択されたｘｉ値を示す。

【００２０】図３は、Ｐｈ．ボノーの論文に開示された
基本的アルゴリズム１０を示す。それは、選択された縮
小範囲（―１／８，＋１／８）に適用されるときの ―
１＜ｘ＜＋１の範囲内でＦ(ｘ)＝（２＊＊ｘ）―１
の指数計算に対してテーラー／マクローリンの多項式
計算又はチェビシェフの多項式演算のどちらも使用でき
る。

【００２１】図３に示されるように、体系的には、その
指数関数演算方法は、３つの主要なステージ、即ち、
（１）範囲を｜ｘ―ｘｉ｜に、即ち、本例では（―１／
８，＋１／８）内に縮小させる適当なｘｉ値の決定より
成る開始引数ｘの引数縮小、（２）中間結果Ｆ(ｘ−ｘ
ｉ)を発生するためにその縮小した引数（ｘ―ｘｉ）を
使用する多項式の近似計算、（３）所望の最終値Ｆ(ｘ)
を得るための上記中間結果の補正、より成る。

【００２２】更に、図３を参照して、本アルゴリズム１
０をもっと詳細に見てみよう。先ず、開始引数値ｘがボ
ックス１１でテストされる。そのアルゴリズムは｜ｘ｜
≦１のような値に対してのみ適用されることに注意すべ
きである。ｘがそのような値の場合、ボックス１２にお
いて、｜ｘ｜＜２＊＊−３であるかどうかを決定するた
めの新しいテストが行われる。ｘ＜２＊＊−３である場
合、引数縮小は必要ない。対照的に、そのアルゴリズム
は、ボックス１３及び１４における２ステップの引数縮
小を有する。ボックス１３において、開始引数ｘに最も
近いｘｉ値を決定するステップが行われる。ボックス１
４において、（ｘ−ｘｉ）値が計算される。これは、引
数縮小と呼ばれる第１段階を終了させる。ボックス１５
において、新しいテストが行われる。ｘ−ｘｉ＝０であ
る場合、ボックス１６から明らかなように、Ｆ(ｘ)＝Ｆ
(ｘｉ)となり、その求められた値は、定数ＲＯＭに記憶
されたＦ（ｘｉ）補正表において直接に得ることができ
る。ｘ−ｘｉ≠０である場合、その値は再びボックス１
７においてテストされる。ｘ−ｘｉ＜２＊＊−６６であ
る場合、Ｆ(ｘ−ｘｉ)は（ｘ−ｘｉ）＊ｌｎ２に近似さ
れる（１８Ａ）。さもなければ、完全な多項式計算が必
要となる（１８Ｂ）。これで、多項式演算段階又は近似
計算段階が終了する。

【００２３】今や、補正の最終段階が生じる。いくつか
の数学的関係がＦ(ｘｉ)、Ｆ(ｘ−ｘｉ)、及びＦ(ｘ)の
間に存在する。特に、次の２つ、即ち、

【００２４】

【数８】Ｆ(ｘ)＝（Ｆ(ｘ−ｘｉ)＊Ｆ(ｘｉ)）−１（１）

【００２５】

【数９】Ｆ(ｘ)＝Ｆ(ｘ−ｘｉ)＋Ｆ(ｘｉ)＋Ｆ(ｘ−ｘｉ)＊Ｆ(ｘｉ) （２）換言すれば、

【００２６】

【数１０】（２＊＊ｘ）−１＝（（２＊＊（ｘ−ｘｉ）−１）＊（２＊＊ｘｉ） ―１）−１ (１)'

【００２７】

【数１１】（２＊＊ｘ）−１＝（（２＊＊（ｘ−ｘｉ））−１）＋（（２＊＊ｘｉ） − １）＋（（（２＊＊（ｘ−ｘｉ））−１）＊（（２＊＊ｘｉ）−１）） (２)' に興味がある。

【００２８】オペランドが互いに近いときに誤差が生じ
るのを回避する第２の関係式（２）及び(２)'が望まし
い。それは、第１の関係式（１）又は(１)'によって生
じた誤差が期待された相対的誤差（＜２＊＊−６３）よ
りもずっと大きいためである。

【００２９】関係式（２）の第１項、即ち、

【００３０】

【数１２】Ａ＝Ｆ(ｘ−ｘｉ)＋Ｆ(ｘｉ) が、ボックス１９において、計算される。更に、第２
項、即ち、

【００３１】

【数１３】Ｂ＝Ｆ(ｘ−ｘｉ)＊Ｆ(ｘｉ) がボックス２０において計算される。その２つの項は、
ボックス２１において加算されるので、最終的には、

【００３２】

【数１４】Ｆ(ｘ)＝Ａ＋Ｂになる。

【００３３】｜ｘ｜＜２＊＊−３であり且つ｜ｘ｜≧２
＊＊−６６であるとき、アルゴリズム１０の右端部分か
ら明らかなように、２つの非常に近い数の減算を回避す
るために、引数縮小なしで指数多項式関数がボックス２
３Ａにおいて計算される。

【００３４】引数ｘが２＊＊−６６よりも小さいとき、
指数関数がテーラー／マクローリンの多項式の第１項の
みにより、即ち、

【００３５】

【数１５】Ｆ(ｘ)＝ｘ＊ｌｎ２によって、ボックス２３Ｂにおいて計算される。

【００３６】ここで、テーラー／マクローリンの多項式
計算又はチェビシェフの多項式計算のどちらが最も十分
であるかを決定するという問題が生じる。それは、（−
１，＋１）範囲内で指数関数を近似計算するためのサイ
クル数も重要であるためである。表１から明らかなよう
に、チェビシェフの多項式計算は、多項式の次数縮小に
おいてわずかに効率的であるように見えるので、反復を
少なくし、従って、マシン・サイクルを少なくする。こ
の点は、通常のハードウエア・アーキテクチャによる必
要なサイクル数のシミュレーションを示す下記の表２に
よって証明される。即ち、

【００３７】

【表２】最終的な結果としては、チェビシェフの多項式にかなり
の利点がある。従って、チェビシェフの多項式がテーラ
ー／マクローリンの多項式に対してすべての点で好まし
いであろう。

【００３８】指数多項式は、偶数関数でも奇数関数でも
なく、それは、Ａ０を除いてゼロに等しい係数がないこ
とを意味する。従って、反復数は多項式の次数の二乗と
なる。たとえ引数縮小が行われなくても、引数縮小は、
引数縮小及び表補正の両方により必要とされるマシン・
サイクル数が必要な反復数を決して越えるものでなけれ
ば面白そうである。

【００３９】許容される誤差の大きさ（＜２＊＊−６
３）は、多項式の次数に直接影響し、従って、周知のホ
ーナーの方法でそれを演算するに必要な反復数に影響す
る。上記の選択によって、１０次の多項式が（−１／
８，＋１／８）範囲内の予期した相対的誤差（＜２＊＊
−６３）に合致する。

【００４０】最後に、この序論の終わりにあたり、図４
に、Ｐｈ．ボノーによる論文に開示された特殊アルゴリ
ズム２４を示す。この特殊アルゴリズムは、図３のアル
ゴリズムのボックス１３において使用されるべきもので
あり、後に、縮小した引数（ｘ−ｘｉ）の計算で使用さ
れるべき適当なｘｉ値を決定する。

【００４１】図４を参照すると、ボックス２５におい
て、項Ｃ＝｜ｘ｜−１／２が決定される。ボックス２６
において、Ｃがテストされる。Ｃ≧０である場合、項Ｄ
＝Ｃ−１／４がボックス２７Ｂにおいて計算される。次
に、Ｄがボックス２８Ｂにおいてテストされ、それが正
数であるか負数であるかを決定する。Ｄ≧０である場
合、ボックス２９Ｂ’において、｜ｘｉ｜＝７／８のよ
うな十分なｘｉ値が見つけられる。同様の方法が、ボッ
クス２９Ａ、２９Ａ’、及び２９Ｂにおける他の可能な
｜ｘｉ｜値１／８、３／８、及び５／８の決定に適用す
る。

【００４２】要約すると、Ｐｈ．ボノーの結論によれ
ば、指数関数を計算するための好ましい方法は図３のア
ルゴリズムの３つの主要な段階、即ち、 ‐図４の特殊アルゴリズムを使って（―１，＋１）から
（―１／８，＋１／８）まで引数範囲を縮小し、収斂の
速度を上げさせるために適当なｘｉ値を決定すること、 ‐この縮小した引数範囲内でチェビシェフの多項近似式
を計算すること、 ‐関係式（２）、即ち、

【００４３】

【数１６】Ｆ(ｘ)＝（Ｆ(ｘ―ｘｉ)＊Ｆ(ｘｉ)）＋Ｆ
(ｘ―ｘｉ)＋Ｆ(ｘｉ) 但し、Ｆ（ｘ）＝（２＊＊ｘ）―１に従って特殊補正を行う。補正表のＦ(ｘｉ)値すべてが
定数ＲＯＭに記憶されること、を必要とする。

【００４４】このような状況において、本発明は２つの
問題を解決するための助けとなる。まず第１は、高速の
収斂及び補正表サイズによって、図４のアルゴリズムよ
りもずっと効果的な引数縮小のための特殊アルゴリズム
を考えつくことである。

【００４５】解決されるべき第２の問題は、１９９１年
１２月２０日出願のヨーロッパ特許出願（ＥＰ９１４
８０１８８．１）に開示された加減演算を達成するため
の高性能ハードウエア・アーキテクチャを、最小の回路
変更によって指数計算に適応させることである。

【００４６】このヨーロッパ特許出願のハードウエア・
アーキテクチャを、図５と関連して簡単に説明する。図
５を参照すると、図１のＩＥＥＥの８０ビット拡張倍精
度形式に従って基本的な加算・減算・比較演算をハード
ウエアで実施するための改良された装置のブロック図が
概略的に示される。説明を簡単にするために、クロック
信号を含む制御論理回路及び制御線は省略してある。

【００４７】オペランドＸ及びＹに対する指数及び仮数
は、異なるレジスタに別々に記憶される。先ず、オペラ
ンドＸ及びＹの指数ＥＸ及びＥＹが入力レジスタ３１及
び３２に記憶される。同様に、オペランドＸ及びＹの仮
数ＭＸ及びＭＹが入力レジスタ３３及び３４に記憶され
る。オペランドＸ及びＹは、スタック・レジスタ３５の
２つのゾーン、例えば、アドレス０及びｉ（ｉ＝１乃至
７）から直列的に、好ましくは、同時に取り出される。
スタック・レジスタ３５は、２ポート読取り及び１ポー
ト書込みタイプのものである。Ｅバス（Ｅ‐ＢＵＳ）及
びＭバス（Ｍ‐ＢＵＳ）は二重データ・バスであり、そ
れぞれ、スタック３５から指数データ及び仮数データを
搬出する。例えば、サブバスＥ０及びＭ０は、そのスタ
ックにおけるアドレス０に記憶されたオペランドＸの指
数及び仮数をそれぞれの入力レジスタ３１及び３３に搬
送する。サブバスＥｉ及びＭｉは、それぞれ、そのスタ
ックにおけるアドレスｉに記憶されたオペランドＹの指
数及び仮数を、それぞれの入力レジスタ３２及び３４に
搬送する。

【００４８】オペランドＸ及びＹの間の加減算演算は、
指数及び仮数に対する加算器３６及び３７において行わ
れる。基本的には、加算器は、それぞれの入力レジスタ
に保持されたデータをロードされる。各加算器は、後述
のように１つの真数／補数入力（Ｔ／Ｃ）を有する。加
算器により計算されたデータ、即ち、加減算演算の部分
的結果が２つの別個の出力レジスタに記憶される。デー
タは、指数データに対する加算器３６から出力レジスタ
３８に、及び仮数データに対する加算器３７から出力レ
ジスタ３９にロードされる。レジスタ３８の出力は、バ
ス（Ｅ'‐ＢＵＳ）を介してスタック３５の指数入力に
接続される。レジスタ３９の出力は、正規化回路４０及
び先行ゼロ・エンコーダ回路４１の両方に接続される。
必要に応じて、レジスタ３９に記憶された仮数は、正規
化回路４０においてＩＥＥＥ形式に編成される。レジス
タ３９に記憶された仮数の先行ゼロの数が先ず計算さ
れ、しかる後、エンコーダ回路４１においてエンコード
され、最後に、先行ゼロ・レジスタ４２に記憶される。
そのエンコードされた数も、制御バス（Ａ‐ＢＵＳ）を
介して正規化回路４０を制御する。正規化回路４０の出
力では、バス（Ｍ'‐ＢＵＳ）がスタック３５の仮数入
力に与えられる。

【００４９】レジスタ３８の出力バス（Ｅ'‐ＢＵＳ）
はエンコーダ回路４３に接続され、それの内容値がそこ
でエンコードされる。エンコーダ回路４３の出力は、制
御バス（Ｂ‐ＢＵＳ）を介してアライナ４４に与えられ
る。アライナ４４は、入力レジスタ３４を駆動する。仮
数加算器３７で発生された桁上げビットｃは、レジスタ
３９の第６８位置に接続される。前述のように、仮数値
の丸め動作が必要となることがあるため、レジスタ３８
の出力は、バス（Ｅ'‐ＢＵＳ）及び２ウエイ・マルチ
プレクサ回路４５の一方の入力を介して指数加算器３６
の左入力に与えられる。なお、マルチプレクサ回路４５
の他方の入力はレジスタ３１により供給される。同様
に、レジスタ４２の出力は、バス（Ｄ‐ＢＵＳ）及び２
ウエイ・マルチプレクサ回路４６を介して加算器３６の
右入力に与えられる。なお、マルチプレクサ回路４６の
他方の入力はレジスタ３２により供給される。実際に、
レジスタ３２によって発生される各ビットは、標準のよ
うに加算器３６に含まれるＸＯＲ回路（図示されてな
い）の一方の入力に与えられる。それの他方の入力は、
実行されるべき動作、即ち、加算又は減算に依存して制
御論理回路により発生される制御ビットを受ける。その
制御ビットがゼロに等しい場合、そのビットは補数化さ
れず、これは真数入力（Ｔ）である。それがゼロに等し
くない場合、そのビットは補数化され、これは補数入力
（Ｃ）であるといわれる。

【００５０】説明を簡単にするために、この制御コマン
ドは加算器３６のＴ／Ｃ入力によって説明される。仮数
加算器に関する限り、バス（Ｍ‐ＢＵＳ、但しＭ０‐Ｂ
ＵＳ及びＭｉ‐ＢＵＳを含む）が３ウエイ・マルチプレ
クサ４７及び４８に与えられる。それらマルチプレクサ
は、それぞれ、直接にレジスタ３３へ又はアライナ４４
を介してレジスタ３４へ供給される。その結果の指数及
び仮数は、正規化及び丸め動作の後、バス（Ｅ'‐ＢＵ
Ｓ及びＭ'‐ＢＵＳ）を介してスタック３５に記憶され
る。ラッチ４９は、指数加算器３６によって発生された
桁上げビットを記憶するために使用される。スタック３
５はＲＡＭとして動作し、バイナリ・オペランド及び符
号が記憶される。符号は、制御論理回路によって発生さ
れ、同時に、スタック３５において記憶される。符号処
理のための回路は図示されていない。

【００５１】図４の引数縮小アルゴリズム及び図５の改
良されたハードウエア・アーキテクチャによって行われ
たシミュレーションは、一旦その目的のために適切に修
正されてしまうと、いくつかの不都合を示した。８つの
ｘｉ値の場合、２つの定数値（１／２及び１／４）、即
ち、２つの８０ビット数（図１のＩＥＥＥ標準形式の場
合）を定数ＲＯＭに記憶することが必要である。更に、
指数近似計算の全演算は、図６に概略的に示したように
９つのステップを必要とする。本発明では、これらステ
ップをこれ以上詳細には説明しない。

【００５２】従って、超越数の計算は、大量の処理ステ
ップ、従って、対応する数のマシン・サイクルを必要と
するという問題を通常残すので、これらの関数をベース
にしたアルゴリズムは、性能を下げないようにするため
に、基本的な命令（加算、減算等）の処理を主目的に設
計された基本ハードウエア・アーキテクチャの大きな修
正も意味するものであってはならない。特に、これは、
大域的な演算法には必須である引数縮小アルゴリズムに
対していえることである。

【００５３】

【発明が解決しようとする課題】従って、本発明の主た
る目的は、ＩＥＥＥ標準の浮動小数点形式数の引数縮小
を行うための改良された特殊アルゴリズム及び装置であ
って、図５の高性能ハードウエア・アーキテクチャに、
最小の回路変更でもって組み込むに十分なものを提供す
ることにある。

【００５４】本発明のもう１つの目的は、ＩＥＥＥ標準
の浮動小数点形式数の間の引数縮小を、最小の処理ステ
ップ、従って、最小のマシン・サイクルでもって実行す
るための改良された特殊アルゴリズム及び装置を提供す
ることにある。

【００５５】

【課題を解決するための手段】本発明によれば、上記の
目的は、Ｆ(ｘ)＝２＊＊ｘ―１（但し、｜ｘ｜＜１）の
計算において引数縮小を行うための装置、即ち、ＩＥＥ
Ｅの７５４標準の浮動小数点形式によるｘｉの値を決定
しそして（ｘ―ｘｉ）を計算するための装置によって達
成される。その装置は、以下のものより成る。

【００５６】（ａ）Ｎビットの仮数（例えば、８０ビッ
ト拡張倍精度のＩＥＥＥ７５４標準形式によれば、Ｎ
＝６４仮数ビット＋３丸め精度ビット）に関してパイプ
ライン加算・減算・比較演算を遂行するように動作し、
アライナ手段及びＮ＋１ビット出力レジスタ（そのレジ
スタの最上位ビットは仮数加算器により発生された桁上
げビットである）を含む第１関数ブロック。この第１関
数ブロックの出力は次の２つの手段（ｂ）及び（ｃ）に
接続される。

【００５７】（ｂ）３つの左端入力ビットがゼロに接続
され、３つの左端出力ビットＪ(０：２)が３ビット・バ
ス（Ｊ‐ＢＵＳ）上に出力されるＮ＋４ビットの正規化
手段。

【００５８】（ｃ）先行ゼロ検出・エンコーダ手段。

【００５９】前記装置は、更に次のブロック及び回路
（ｄ）、（ｅ）、（ｆ）より成る。即ち、（ｄ）指数に関してパイプライン演算を遂行するように
動作し、アライナ手段を制御する出力を持ったエンコー
ダ手段に接続された第２関数ブロック。

【００６０】（ｅ）先行ゼロ検出・エンコーダ手段及び
エンコーダ手段の出力によって駆動され、正規化手段を
制御する出力を持ったセレクタ回路。

【００６１】（ｆ）ビットＪ(０：２)から

【００６２】

【数１７】Ｋ(１)＝Ｊ(０) ＯＲＪ(１)

【００６３】

【数１８】Ｋ(２)＝Ｊ(０) ＯＲＪ(２）のようなビットＫ（１)及びＫ(２)を計算し、

【００６４】

【数１９】仮数ｘｉ＝０Ｋ(１)Ｋ(２)１０．．．．．０．のような仮数ｘｉを、前記第１関数ブロックに接続され
たｘｉバス上に発生する仮数決定回路。

【００６５】

【実施例】図７に示された新規な特殊アルゴリズム５０
は、ｘｉ値を定義するに必要な情報はすべて仮数ｘのＪ
(０：２)と呼ばれる第１の左３ビットによって与えられ
ることの発見に基づくものである。ボックス５１におい
て、ｘ―１／８がゼロより大きい又は等しいかどうかが
チェックされる。それは、その結果がノーである場合、
ボックス５２によって示されるように引数縮小が必要な
いためである。逆の場合、ボックス５３において、指数
のみに関する演算

【００６６】

【数２０】Ｓ＝Ｅｘｐ(ｘ)―Ｅｘｐ(２＊＊―３)＝（Ｅ
ｘｐ(ｘ)）―３が行われる。これは、ｘｉを計算するに必要な仮数ｘの
ビット数を表わす。ｘの範囲は（―１，＋１）、即ち、
（―２＊＊０，＋２＊＊０）であるので、Ｓに対する最
大値は３である。換言すれば、Ｓは４つの値の１つ、即
ち、０、１、２、又は３をとることができる。

【００６７】次に、ボックス５４において、ｘ仮数が左
にこのＳ値だけシフトされ、適当なｘｉ値を定義するに
必要な３つのＪ(０：２)ビットを取り出す。

【００６８】次に、、ボックス５５において、Ｋ(１：
２)と呼ばれる２ビットの値が、下記の論理的定義、即
ち、

【００６９】

【数２１】Ｋ(１)＝Ｊ(０) ＯＲＪ(１) （３）

【００７０】

【数２２】Ｋ(２)＝Ｊ(０) ＯＲＪ(２) （４）に従って計算される。

【００７１】｜ｘ｜＝１のとき、Ｊ(０：２)＝１００
であり、このアルゴリズムに従って、ｘｉ＝７／８
である。従って、Ｊ(０)＝１のとき、Ｋ(１)及びＫ
(２)は１に強制されなければならない。それは、Ｊ(０)
が使用される唯一のときである。最後に、ボックス５６
において、ｘｉ仮数は、

【００７２】

【数２３】ｘｉ仮数＝０Ｋ(１)Ｋ(２)１０‐‐‐‐‐‐０（６７ビット）（５）として定義される。

【００７３】図８は、適当なｘｉ値を決定するための図
７の特殊アルゴリズム５０を組み込まれた図５の高性能
ハードウエアを示す。図５の基本的なハードウエア・ア
ーキテクチャに関して、同じ素子は同じ参照番号を持っ
ている。図８の改良されたハードウエアは参照番号５７
である。図５の基本ハードウエアの３つの素子が修正さ
れた。先ず、図５の３ウエイ・マルチプレクサ回路４８
は、今や、４ウエイ・マルチプレクサ回路４８' であ
る。それは、定数ＲＯＭ５８の出力及び６７ビットｘｉ
バス（ｘｉ‐ＢＵＳ）のための特殊入力への新たな接続
を持っている。Ｅｉバス（Ｅｉ‐ＢＵＳ）に接続された
レジスタ３２は、定数ＲＯＭ５８への接続を持ち、今
や、参照番号３２' である。

【００７４】説明を簡単にするために、仮数用のパイプ
ライン・アーキテクチャは、仮数に関してパイプライン
加算・減算・比較演算を遂行するように動作する第１関
数ブロックと呼ぶことにし、参照番号５９である。同様
に、指数用のパイプライン・アーキテクチャは、指数に
関してパイプライン演算を遂行するように動作する第２
関数ブロックと呼ばれ、参照番号６０である。図５で
は、正規化回路４０は６８ビット位置を持っている。本
発明によれば、それの幅は３ビットだけ左に増加されな
ければならず、今や、ゼロに強制された入力を持つ７１
ビット位置をサポートする。このように修正されたの
で、正規化回路４０は、今や、参照番号４０' である。
正規化回路４０' によって出力されたこれら左端の付加
３ビットは、前述のように、更なる処理を必要とする。

【００７５】定数ＲＯＭ５８に加えて、他に２つのハー
ドウエアが追加された。即ち、正規化回路４０' を制御
するための標準的な２入力セレクタ回路６１と、Ｋ
(１：２)ビットを計算し、前記関係式（５）に従って全
ｘｉ仮数値を発生する論理回路６２である。なお、その
論理回路の６７ビットがｘｉバス（ｘｉ‐ＢＵＳ）を構
成する。

【００７６】セレクタ回路６１はマルチプレクサのよう
に動作する。制御論理回路によって発生されるコマンド
に依存して、Ｂバス（Ｂ‐ＢＵＳ）によるエンコーダ４
３の出力又はＡバス（Ａ‐ＢＵＳ）による先行ゼロ検出
／エンコーダ４１の出力のどちらかを選択して、正規化
回路４０' に供給する。正規化回路４０' の左端３ビッ
トＪ（０：２）はＪバス（Ｊ‐ＢＵＳ）を介して論理回
路６２に供給される。

【００７７】従って、図８の追加ハードウエアは、デー
タフロー及び制御論理回路の観点から、容易な組込み及
び指数近似計算用の最小の回路領域を可能にする。

【００７８】図９は、図８の論理回路６２の一例とし
て、基本的にはブロック６４及び６５より成る論理回路
６３の構成の詳細を示す。ブロック６４は、２つの２ウ
エイＯＲ論理ゲート６６及び６７を含んでいる。ＯＲゲ
ート６６はＪ(０)及びＪ(１)によって駆動され、一方、
ＯＲゲート６７はＪ(０)及びＪ(２)によって駆動され
る。ビットＪ(０)、Ｊ(１)、及びＪ(２)、即ち、Ｊ
(０：２)は、正規化回路４０’によって発生され、前述
のＪバス（Ｊ‐ＢＵＳ）を形成するようにその左端３ビ
ットに対応する。ＯＲゲート６６及び６７の出力は標準
的なｘｉ発生回路６５に供給され、ｘｉバス（ｘｉ‐Ｂ
ＵＳ）に送られる。

【００７９】図１０は、本発明に起因するプロセス・シ
ーケンスを示す。その目的は，ＩＥＥＥ標準の形式に適
応するように正規化されたｘｉを計算することである。
前述のように、本発明の基本となる原理は、ｘｉ値を定
義するに必要な情報がすべて仮数ｘの最初の３ビットに
あること注目することである。新しいプロセス・シーケ
ンスは、今や、以下の６つのステップＩ乃至ＶＩより成
る。

【００８０】ステップＩ（オペランド・チェック）ＩＥＥＥ標準のルール・セット（データ値、ゼロ、無限
大、非正規化された数・・・）によるオペランドｘのチ
ェック動作の第１ステップがボックス６９において行わ
れる。定数ＲＯＭ５８に予め記憶された２＊＊―３（値
＝１／８）という指数がレジスタ３２’ にロードされ
る。

【００８１】ステップＩＩ（Ｓ計算）ボックス７０において、動作ｘ―１／８が指数サイド、
即ち、Ｓ＝Ｅｘｐ(ｘ)―Ｅｘｐ(２＊＊―３)に関して行
われる。桁上げビット（Ｃ０）がラッチ４９にラッチさ
れ、その結果がレジスタ３８にラッチされる。

【００８２】Ｃ０＝１の場合、これは、ｘ―１／８が負
であること、即ち、ｘ＜１／８であることを意味し、
従って、図３のアルゴリズム１０から明らかなように
（ボックス１２における「イエス」の結論を参照）、引
数縮小は必要ない。

【００８３】Ｃ０＝０の場合、レジスタ３８の内容が、
ｘｉを演算するに必要な仮数ｘのビット数Ｓを与える。

【００８４】仮数加算器３７が動作０＋ｘを行い、正規
化回路４０' におけるその後の正規化のために、その結
果をレジスタ３９にラッチする。

【００８５】ステップＩＩＩ（Ｓ値だけ仮数を左シフ
ト）ボックス７１に従って、正規化回路４０' は、回路４３
におけるエンコーディング後、レジスタ３８に記憶され
たビット数Ｓだけレジスタ３９の出力を左にシフトさせ
る。そのために、セレクタ６１はエンコーダ４３の出力
を選択する。正規化回路４０' の出力である左端の３ビ
ットＪ(０)、Ｊ(１)、Ｊ(２)は、図７に関連して前に説
明したように、Ｋ(１：２)の値を決定し、しかる後、ｘ
ｉを決定するであろう。

【００８６】正規化されないｘｉ値は、マルチプレクサ
４８' を介してレジスタ３４にラッチされる。同時に、
対応する指数（例えば、"０"）が定数ＲＯＭ５８からレ
ジスタ３２' にロードされる。

【００８７】ステップＩＶ（動作０＋ｘｉの完
了）動作０＋ｘｉは、ボックス７２において、指数サイド及
び仮数サイドの両方に関して行われる。２つの結果は、
その後の正規化を可能にするために、それぞれレジスタ
３８及び３９にラッチされる。

【００８８】ステップＶ（ｘｉ正規化）レジスタ３９に記憶された仮数の結果は、正規化回路４
０' を通過することによって正規化される（ステップ７
３）。そのために、先行ゼロ数が先ず決定され、しかる
後、エンコーダ４１においてエンコードされる。その結
果はレジスタ４２にラッチされ、セレクタ回路６１を介
して正規化回路４０' に供給される。今や、エンコーダ
４１が選択され、レジスタ３９の内容の先行ゼロの数を
決定する。その結果、即ち、正規化されたｘｉ値がレジ
スタ３３にラッチされる。

【００８９】ステップＶＩ（ｘｉ指数の補正）指数補正は、ボックス７４において、レジスタ４２にラ
ッチされた先行ゼロ数をレジスタ３８の内容から減算す
ることによって行われる。最終結果、即ち、ｘｉ指数は
レジスタ３８にラッチされる。

【００９０】これは、図７の特殊アルゴリズムに従って
図３におけるボックス１３に基づくｘｉ値の決定で終了
する。（ｘ―ｘｉ）の決定を含む残りのステップは、標
準のように行われる。これら６つのステップは、６つの
基本マシン・サイクルに対応する。

【００９１】要約すると、１つ定数値（１／８）が記憶
されなければならない。更に、上記からも明らかなよう
に、本発明の方法及び装置は、複数サイクルによって定
数ＲＯＭに記憶されたｘｉの数、即ち、Ｆ(ｘｉ)に依存
しない。それは、ｘｉの数が２倍になる時いつも、引数
縮小のために新しい定数値及び２システム・サイクルが
加えられなければならないという、図４の従来の特殊ア
ルゴリズムに対する大きな相違点である。結局、正規化
回路のサイズを、図１のＩＥＥＥ形式に従って、６８ビ
ット位置から７１ビット位置に増加させる必要があるだ
けである。なお、注意すべきことは、Ｊ‐ＢＵＳ等のバ
スを含むそれの制御論理回路がその新しいサイズに適応
するようにしなければならないことである。

【００９２】

【発明の効果】わずかな回路変更で、ＩＥＥＥ標準の浮
動小数点形式の数の引数縮小を行う特殊アルゴリズムの
装置が得られる。

【図面の簡単な説明】

【図１】説明の目的で、ＩＥＥＥ標準の基本的な８０ビ
ット拡張倍精度浮動小数点形式を示す。

【図２】引数縮小方法に従って指数関数を演算するに必
要な８個のｘｉ値を示す。

【図３】全範囲（―１，＋１）にわたって指数関数を演
算するための従来のアルゴリズムの係数状態を示す。

【図４】図３のアルゴリズムにおけるボックス１３の動
作、即ち、適当なｘｉ値の決定を行うために使用可能な
従来の特殊アルゴリズムを示す。

【図５】図１の特定なＩＥＥＥ標準の形式を使用してＩ
ＥＥＥ浮動小数点数の加減動作を行うための通常の高性
能装置の概略的ブロック図を示す。

【図６】図５の装置及び図４の特殊アルゴリズムを使用
してｘｉ値を決定するために通常必要とする９つの処理
ステップを示す。

【図７】本発明に従っててきとうなｘｉ値を決定するた
めの新規な特殊アルゴリズムを示す。

【図８】図５の装置から取り出され、図７の改良された
特殊アルゴリズムを実施するようにされた本発明の改良
された装置の概略的ブロック図を示す。

【図９】図８の装置における回路の詳細を示す。

【図１０】図８の装置を使用してｘｉ値を決定するに必
要な６つの処理ステップを示す。

【符号の説明】

３６・・・指数加算器３７・・・仮数加算器４０' ・・・正規化回路４１・・・先行ゼロ検出・エンコーダ４８' ・・・４ウエイ・マルチプレクサ回路５８・・・定数ＲＯＭ５９・・・機能ブロック６０・・・機能ブロック６１・・・セレクタ回路６２・・・論理回路

───────────────────────────────────────────────────── フロントページの続き (72)発明者ディディエル・ルイフランス国フォンタイネブラウ77300 ルエ・パウル・ジョゾン22番地 (72)発明者ディディエル・ピンチョンフランス国レス・ユリス91140 ル・ドゥ・フォレズ11番地 (72)発明者アンドレ・ステイムルフランス国エヴリ91000 アイー・ド・ラ・ブッテ・ルージュ10番地 (56)参考文献ＣＯＭＭＵＮＩＣＡＴＩＯＮＳＯＦＴＨＥＡＳＳＯＣＩＡＴＩＯＮＦＯＲＣＯＭＰＵＴＩＮＧＭＡＣＨＩＮＥＲＹＶｏｌ．16，Ｎｏ．１，Ｊａｎｕａｒｙ 1973，ＮＥＷＹＯＲＫＵＳ，Ｐ．38−40，ＲＩＣＨＭＡＮ“Ｖａｒｉａｂｌｅ−ＰｒｅｃｉｓｉｏｎＥｘｐｏｎｅｎｔｉａｔｉｏｎ" ＥＤＮＥＬＥＣＴＲＩＣＡＬＤＥＳＩＧＮＮＥＷＳ．Ｖｏｌ．31，Ｎｏ３，Ｆｅｂｒｕａｒｙ 1986，ＮＥＷＴＯＮ，ＭＡＳＳＡＣＨＵＳＥＴＴＳＵＳ，Ｐ．143−150，ＱＵＯＮＧ“Ｆｌｏａｔｉｎｇ−ｐｏｉｎｔｍｐｉｍｐｌｅｍｅｎｔｓｈｉｇｈ−ｓｐｅｅｄｍａｔｈｆｕｎｃｔｉｏｎｓ"

Claims

(57)【特許請求の範囲】

【請求項１】【数１】Ｆ(ｘ)＝２＊＊ｘ―１（｜ｘ｜＜１）の計算において引数縮小を行うための装置であって、Ｎビットの仮数に関してパイプライン加算・減算・比較
演算を遂行するように動作し、アライナ手段と、仮数加
算器により発生される桁上げビットを最上位ビットとす
るＮ＋１ビットの出力レジスタとを含む第１関数ブロッ
クと、前記第１関数ブロックの出力に接続され、左端の３入力
ビットがゼロにされ且つ左端の３出力ビットＪ(０：２)
が３ビット・バス上に出力される、Ｎ＋１ビット正規化
手段と、前記第１関数ブロックの出力に接続された先行ゼロ検出
・エンコーダ手段と、指数に関してパイプライン演算を遂行するように動作
し、前記アライナ手段を制御する出力を持ったエンコー
ダ手段に接続された第２関数ブロックと、前記先行ゼロ検出・エンコーダ手段及び前記エンコーダ
手段の出力にによって駆動され、前記正規化手段を制御
する出力を有するセレクタ手段と、【数２】Ｋ(１)＝Ｊ(０) ＯＲＪ(１) 及び【数３】Ｋ(２)＝Ｊ(０) ＯＲＪ(２) に基づいてビットＫ(１)及びＫ(２)を計算し、仮数ｘｉ
＝０Ｋ(１)Ｋ(２)１０．．．．．０に基づいて仮数ｘｉ
を前記第１関数ブロックに接続されたｘｉバス上に発生
する仮数決定手段と、より成る装置。
【請求項２】Ｆ(ｘｉ)を記憶し、該Ｆ(ｘｉ)の仮数部分
及び指数部分に関する出力がそれぞれ前記第１関数ブロ
ック及び第２関数ブロックの入力に接続されたＲＯＭ手
段を有することを特徴とする請求項１に記載の装置。
【請求項３】前記仮数決定手段は、前記正規化手段のＪ(０)ビット及びＪ(１)ビットに接続
された第１ＯＲ論理ゲートと、前記正規化手段のＪ(０)ビット及びＪ(２)ビットに接続
された第２ＯＲ論理ゲートと前記第１及び第２ＯＲ論理
ゲートの出力によって駆動され、前記ｘｉバスを形成す
る出力を有するｘｉ発生回路と、より成ることを特徴とする請求項１又は請求項２に記載
の装置。