JP2972326B2

JP2972326B2 - 平方根計算装置

Info

Publication number: JP2972326B2
Application number: JP2327925A
Authority: JP
Inventors: 伸吾小嶋
Original assignee: Nippon Electric Co Ltd
Current assignee: NEC Corp
Priority date: 1990-11-28
Filing date: 1990-11-28
Publication date: 1999-11-08
Anticipated expiration: 2014-11-08
Also published as: JPH04195523A

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、情報処理装置に関し、特に浮動小数点平方
根演算を行なう数値演算プロセッサに関する。

〔従来の技術〕

従来の高速平方根演算方式の代表的なアルゴリズムと
してニュートン法による平方根逆数近似がある。これはを計算する場合に、ニュートンの逐次近似式を使っての近似値を必要な精度まで求め、その値にＢを乗じて平
方根演算結果とするものである。まず、このニュートン
の逐次近似による平方根逆数発生アルゴリズムを説明す
る。

の値を求めるということはなる方程式においてｆ（Ｘ）＝０となる解を求めること
である。これをニュートンの逐次近似式にあてはめる
ととなる。適当な方法でX_nの初期値を求めた後、式を繰
り返し使って演算を進めれば２乗近似によりX_nの精度は
倍々に増えるため、必要な精度のの近似値を求めることができる。（ニュートン法および
２乗近似については一松信著教育出版‘シリーズ新し
い応用の数学８初等関数の数値計算'P.147〜149を参
照のこと）次に、この方法で64ビット長浮動小数点データの平方
根演算を行なう場合を示す。

浮動小数点演算に関する標準規格であるIEEE754で
は、倍精度フォーマット（64ビット長浮動小数点フォー
マット）の仮数部ＭはＭ＝1.b₅₁ b₅₀ b₄₉ … b₂ b₁ b₀ （b_nはそれぞれ１ビットのデータ）という52ビットのビット列からなる１≦Ｍ＜２の範囲の
データと規定されている。この仮数部にさらに11ビット
の指数部と１ビットの符号が組み合わされて64ビットの
浮動小数点データとなるが、浮動小数点平方根演算の場
合は指数部は単に1/2とするのみであるため、仮数部に
対する平方根演算を考えればよい。

仮数部における小数点以下の有効精度が52ビットであ
るため、平方根演算のための平方根逆数近似も52ビット
の精度が得られればよい。この精度を得るため、まず第
１の従来例として、13ビット精度の平方根近似値を初期
値としてROMテーブルから検索し、２回のニュートン近
似により52ビット精度とする場合を説明する。

Ｂ＝1.b₅₁ b₅₀ b₄₉ … b₂ b₁ b₀ なるＢの平方根逆数近似値を求める。

上記13ビット［b₅₁ b₅₀ … b₃₉］をアドレスとして B₀＝1.b₅₁ b₅₀ … b₃₉ 0 0 … 0 の平方根逆数が格納されているROMテーブルを検索し、13ビット長の
データ［x₅₁ x₅₀ … x₃₉］を得る。この13ビットはとした時の［x₅₁ x₅₀ … x₃₉］の13ビットである。な
お、x₅₂は B₀＝1.0のときx₅₂＝１ B₀＞1.0のときx₅₂＝０となるため、ROMによる検索とは別に［b₅₁ b₅₀ …
b₃₉］のNORをとってx₅₂を発生する。

X₀＝x₅₂・x₅₁ x₅₀ … x₃₉ 0 0 … と考えて X₁＝X₀（３−Ｂ・X₀ ²）/2 …… X₂＝X₁（３−Ｂ・X₁ ²）/2 …… とニュートン近似を２回繰り返せばX₂は52ビット精度のの近似値となる。

ここで、各アルゴリズムにおける演算時間を比較する
ため、それらのアルゴリズムをインプリメントするハー
ドウェアを仮定しておく。

第５図にそのハードウェアの構成を示す。

501は演算対象となるデータが格納されている52ビッ
ト長の入力レジスタであり、第１データバス506および
第２データバス507に対して出力する場合は最上位に整
数部の１を付加し、53ビット長で出力する。

502は第３データバス508上の53ビットデータを遅延な
く第１データバス506および第２データバス507に帰還さ
せるためのショートバス機構であり、第１データバス50
6および第２データバス507の２つデータバスに対しそれ
ぞれ専用のショートパスがある。

503は平方根逆数の初期値を与えるためのROMテーブル
であり、入力レジスタ501の上位13ビットをアドレスと
して13ビットのデータを出力するため、13ビット／語×
2¹³語のデータを持つ。また、整数ビットを生成するた
め、出力した13ビットのNORをとってその１ビットを最
上位ビットの上に付加する。さらに、39ビットのゼロを
最下位ビットの下に付加して53ビットデータとした後に
マルチプレクサ504に出力する機能を持つ。

504は乗算器505の一方の入力を第１データバス506か
ら取るかROMテーブル503から取るかを選択するマルチプ
レクサ， 510は乗算器505のもう一方の入力を第２データバス50
7から取るかROMテーブル503から取るかを選択するマル
チプレクサ， 505はマルチプレクサ504の出力とマルチプレクサ510
の出力との積を３クロックで演算する乗算器であり、入
力される53ビットデータの最上位ビットを整数ビット、
最上位ビットとその下のビットの間に小数点があるもの
として入力データと同じ形式の53ビットデータを出力す
るものとする。

511は乗算器の出力‘ａ・b'から‘（３−ａ・ｂ）/2'
を発生させるための付属回路である。この付属回路511
の詳細を第９図に示す。

506は乗算器505に被乗数オペランドを転送するための
53ビット幅の第１データバス， 507は乗算器505に乗数オペランドを転送するための53
ビット幅の第２データバス， 508は乗算器505から乗算結果を転送するための53ビッ
ト幅の第３データバス， 509は演算結果が格納される53ビット長の結果レジス
タである。

このように、入力レジスタ501およびショートパス機
構502と乗算器505は被乗数オペランドと乗数オペランド
を独立に転送できる２本のデータパスで結ばれ、また乗
算器の出力はさらに別の第３データバス508で結果レジ
スタ509およびショートパス機構502に結ばれている。そ
の結果、乗算器505は２つのオペランドを同時に得るこ
とができ、さらにショートパス機構502により直前の乗
算結果を続けて次の乗算のオペランドとすることができ
る。またショートパス機構502は直前のショートパス転
送の値を保持し続ける機能を持つ。つまり、ショートパ
ス機構502を使って第３データバス508から第１データバ
ス506または第２データバス507へ転送が行なわれた後、
ショートパス機構502に第３データバス508からデータが
入力されなければ、以降にショートパス機構502からデ
ータを出力させた場合には最後にショートパス機構502
を使って転送を行なったデータが再び読み出せる。

なお、ROMテーブル503の検索には１クロックかかるも
のとする。

このハードウェアに第１の従来例のアルゴリズムをイ
ンプリメントした場合の平方根逆数算出動作を第６図に
示す。

まず、初期値X₀を得るため、602で入力レジスタ501の
上位13ビットを使ってROMテーブル503を検索する。612
でROMテーブル503の出力を使ってX₀ ²を求める。603で
‘B'を第１データバス506により乗算器505へ転送し、60
4で‘X₀ ²'との乗算を行なう。式では X₁＝X₀（３−Ｂ・X₀ ²） …… となっているため、数値‘3'と乗算結果との減算を行な
わなければならないが、Ｂは浮動小数点データの仮数部
であり、X₀はＢの平方根の逆数の近似値であるため、より、 0.5＜Ｂ・X₀ ²＜２と限定できることから、第９図の回路により（３−Ｂ・X₀ ²）/2 と求めることができる。この結果を第３データバス508
に出力し、さらにショートパス機構502を使って直ちに
第１データバス506経由で乗算器505に戻す（605）。ま
た、マルチプレクサ504により再びX₀をROMテーブル503
から乗算器505に入力し、（３−Ｂ・X₀ ²）/2とX₀との乗
算を行ない、式の計算を完了する（606）。

606の乗算結果X₁を第３データバス508に出力し、ショ
ートパス機構502を使って直ちに第１データバス506およ
び第２データバス507経由で乗算器505に戻してX₁ ²を求
める（607）。

607の乗算結果X₁ ²を第３データバス508に出力し、シ
ョートパス機構502を使って直ちに第２データバス507経
由で乗算器505に戻す（607）。同時に第１データバス50
6を使ってＢを入力レジスタ501から乗算器505に転送し
（608）、609でX₁ ²とＢとの乗算を行なう。この乗算結
果から付加回路511を使って（３−Ｂ・X₁ ²）/2を求め
る。

この値を第３データバス508からショートパス機構50
2,第２データバス507と経由させて乗算器505に与え（61
0）、第１データバス506用のショートパス機構502に保
持されているX₁と611で乗算し、X₂を得る。第３データ
バス508を使って結果レジスタ509へX₂を転送し、処理を
終了する。

以上の動作により52ビット精度での近似値が得られる。

このように、 13ビット／語×2¹³語（＝106,496ビット）のROMテーブルを使った第１の従来例では平方根逆数の
近似値を求めるために19クロックを要する。

つぎに、第１の従来例を高速化するためにROMテーブ
ルを大型化し、ニュートン近似１回のみで52ビット精度
の平方根逆数近似を行なう例を第２の従来例として示
す。

ニュートン近似１回のみで52ビット精度を得るために
は、初期値として26ビットの値が必要であるが、これ以
外は第１の従来例の前半と同様である。従ってハードウ
ェアの構成もROMテーブル503へのアドレスが入力レジス
タ501の上位26ビットとなり、出力が26ビット長となる
以外は変わらない。第７図にその平方根逆数算出動作を
示す。

まず、初期値X₀を得るため、701でROMテーブル503を
検索する。704でROMテーブル503の出力を使ってX₀ ²を求
める。702で第１データバス506により転送されたＢとX₀
²が乗算される。第１の従来例と同様、［３−Ｂ・X₁ ²］
をX₀と乗算し（703）、式の計算を完了する。初期値
が26ビット精度であるため、２乗近似によりこの１回の
ニュートン近似で52ビット精度のの近似値が得られる。

この場合は第７図に示したように、 26ビット／語×2²⁶語（＝1,744,830,464ビット）のROMテーブルの使って10クロックで平方根逆数近似を
行なう。

〔発明が解決しようとする課題〕

従来のニュートン近似を使った平方根演算方式では実
行時間を短縮しようとするとROMテーブルが巨大にな
り、高速化できないという欠点を有していた。

〔発明の従来技術に対する相違点〕

ニュートン近似の初期値を直線近似を使って補完する
ことにより、小容量のROMテーブルで高速な平方根演算
を可能にした。

〔課題を解決するための手段〕

本発明の平方根計算装置は、所定ビット数の指数部と
4nビット長の仮数部とによって構成される入力データを
保持する入力レジスタと、前記入力データレジスタに保
持された仮数部の上位ｎビットをアドレスとして前記入
力レジスタが保持している入力データの平方根の逆数の
近似値を2nビット長で出力する第１のROMテーブルと、
前記入力レジスタに保持された仮数部の上位ｎビットを
アドレスとして前記入力レジスタが保持している値の３
乗の平方根の２倍の逆数の近似値をｎビット長で出力す
る第２のROMテーブルと、前記入力レジスタに保持され
た仮数部の下位3nビットと前記第２のROMテーブルの出
力を乗算する乗算器と、前記第１のROMテーブルから前
記乗算器の出力を減算する減算器とを備え、前記減算器
の出力として平方根近似計算に必要な2nビット精度の初
期値を求めることを特徴とする。

〔実施例〕

以下、図面を参照しながら本発明の詳細を述べる。

まず、本発明の平方根逆数発生アルゴリズムを説明す
る。

〔従来例〕の項で説明したように、52ビット精度の平
方根逆数近似を行なう場合、ニュートン法を２回用いる
と初期値が13ビットで済むためROMテーブルのサイズは
小さくなる（13ビット／語×2¹³語）が実行時間が長く
なり、ニュートン法を１回で済ませようとすると初期値
が26ビットとなりROMテーブルの大きさが極端に大きく
なってしまう（26ビット／語×2²⁶語）という問題があ
った。

そこで本発明では26ビットの初期値を直接ROMテーブ
ルから検索せずに、２つのROMテーブル（26ビット／語
×2¹³語＋13ビット／語×2¹³語）と減算器を使って直線
近似により算出する。

直線近似により26ビットの初期値を得る方法を説明す
る。

第３図に平方根逆数関数のグラフの１部分の拡大図を示す。B₀からΔＢだけ離れ
たB₀＋ΔＢでのｆ（B₀＋ΔＢ）は、B₀でのグラフの接線
の傾きｆ′（B₀）からｆ（B₀＋ΔＢ）≒ｆ（B₀）＋ｆ′（B₀）・ΔＢと近似できる。

の場合はとなる。

いま、ある64ビット浮動小数点データの仮数部ＢＢ＝1.b₅₁ b₅₀ b₄₉ … b₂ b₁ b₀ （b_nはｎ番目のビット）の上位13ビットと下位39ビットを分解し、 B₀＝1.b₅₁ b₅₀ … b₄₀ b₃₉ 0 0 …0 0 ΔＢ＝0.0 0 … 0 0 b₃₈ b₃₇ … b₁ b₀ とすることにより、式を使っての近似値を求めることができる。

近似値を26ビット精度で求めるためには、式の第１
項は26ビット必要だが、第２項は、ΔＢの上位13ビットがすでにゼロであるため、という範囲でもとなる。式として欲しい有効桁はビット51からビット
26までの26ビットであるため、は13ビットあれば充分である。

よって、1/B₀の上位26ビットとの上位13ビットを［b₅₁ b₅₀ … b₄₀ b₃₉］の13ビットを
アドレスとしてROMテーブルから引くことにより、乗算
と減算を使って26ビットのの近似値を求めることができる。

次に、このアルゴリズムをインプリメントした平方根
逆数発生装置の構成と動作を説明する。

第１図に本発明一実施例の平方根逆数発生装置の構成
を示す。

101は演算対象となるデータが格納されている52ビッ
ト長の入力レジスタであり、第１データバス108および
第２データバス109に対して出力する場合は最上位に整
数部の１を付加し、53ビット長で出力する。

102は第３データバス110上の53ビットデータを遅延な
く第１データバス108および第２データバス109に帰還さ
せるためのショートパス機構であり、第１データバス10
8および第２データバス109の２つデータバスに対しそれ
ぞれ専用のシステムバスがある。

103は‘３乗の平方根の２倍の逆数’ の近似値を与えるための第2ROMテーブルであり、入力レ
ジスタ101の上位13ビットをアドレスとして13ビットの
データを出力するため、13ビット／語×2¹³語のデータ
を持つ。また、整数ビットとして１ビットの‘0'を最上
位ビットの上に付加する。さらに、39ビットのゼロを最
下位ビットの下に付加して53ビットデータとした後にマ
ルチプレクサ104に出力する機能を持つ。

104は乗算器105の片方の入力を第１データバス106か
ら取るか第2ROMテーブル103から取るかを選択するマル
チプレクサ， 105は第１データバス106上の53ビットデータのマルチ
プレクサ104の出力との積を３クロックで演算する乗算
器であり、入力される53ビットデータの最上位ビットを
整数ビット、最上位ビットとその下のビットの間に小数
点があるものとして乗算を行ない、入力データと同じ形
式の53ビットデータを出力するものとする。また、第１
データバス上のデータに対しては全ビットを演算対象と
する機能の他に上位14ビット（整数部１ビット＋小数部
上位13ビット）をゼロにマスクして演算する機能を持
つ。

112は乗算器105の出力‘ａ・b'から‘（３−ａ・ｂ）
/2'を生成する付加回路である。付加回路112の詳細を第
９図に示す。なお、この付加回路112はバイパスするこ
ともできるため、乗算結果として‘ａ・b'と‘（３−ａ
・ｂ）/2'のいずれを使うこともできる。

106は平方根の逆数の近似値を与えるための第1ROMテーブルであり、入力レ
ジスタ101の上位13ビットをアドレスとして26ビットの
データを出力するため、26ビット／語×2¹³語のデータ
を持つ。また、整数ビットを生成するため、出力した26
ビットのNORをとってその１ビットを最上位ビットの上
に付加する。さらに、26ビットのゼロを最下位ビットの
下に付加して53ビットデータとした後に減算器105に出
力する機能を持つ。

107は第1ROMテーブル106の出力から乗算器105の出力
を減算する53ビットの減算器， 108は乗算器105に被乗数オペランドを転送するための
53ビット幅の第１データバス、109は乗算器105に乗数オ
ペランドを転送するための53ビット幅の第２データバ
ス、110は乗算器105および減算器107から結果を転送す
るための53ビット幅の第３データバス， 111は演算結果が格納される53ビット長の結果レジス
タである。

このように、入力レジスタ101およびショートパス機
構102の乗算器105は被乗数オペランドと乗数オペランド
を独立に転送できる２本のデータバスで結ばれ、また乗
算器の出力と減算器の出力はさらに別の第３データバス
110で結果レジスタ111およびショートパス機構102に結
ばれている。その結果、乗算器105は２つのオペランド
を同時に得ることができ、さらにショートパス機構102
により直前の乗算結果を続けて次の乗算のオペランドと
することができる。また、ショートパス機構102は直前
のショートパス転送の値を保持し続ける機能を持つ。つ
まり、ショートパス機構102を使って第３データバス110
から第１データバス108または第２データバス109へ転送
が行なわれた語、ショートパス機構102に第３データバ
ス110からデータが入力されなければ、以降にショート
パス機構102からデータを出力させた場合には最後にシ
ョートパス機構102を使って転送を行なったデータが再
び読み出せる。

なお、第1ROMテーブル106および第2ROMテーブル103の
検索には１クロックかかるものとする。

平方根逆数算出動作を第２図に示す。

入力レジスタ101に保持されている52ビットデータＢ
はＢ＝1.b₅₁ b₅₀ b₄₉ … b₁ b₀ （b_nはｎ番目のビット）なる52ビットのビット列であるとする。また、Ｂの上位
13ビットと下位39ビットを分解したデータを B₀＝1.b₅₁ b₅₀ … b₃₉ 0 0 … 0 ΔＢ＝0.0 0 … 0 b₃₈ b₃₇ … b₀ と呼ぶ。

式および式に従って演算を進める。

まず、の近似値Z₂を得るため、入力レジスタ101の上位13ビッ
トを使って第2ROMテーブル103を検索する（201）。入力
レジスタ101のデータＢを第１データバス108により乗算
器105へ転送する（202）。乗算器105は第１データバス
上のデータの上位14ビット（整数部１ビット＋小数部上
位13ビット）をマスクして（ΔＢとして）受理し、ROM
テーブル103からマルチプレクサ104を経由して入力され
たZ₂との乗算を行ない（203）、乗算結果ΔＢ・Z₂を得
る。

の近似値Z₁を得るため、入力レジスタ101の上位13ビッ
トを使って第1ROMテーブル106を検索する（204）。第1R
OMテーブル106の出力と乗算器105の出力を減算器107に
入力し、 Z₁−ΔＢ・Z₂ を行ない（205）、まず26ビット精度での近似値を得、ニュートン近似の初期値とする。

減算器107の出力［Z₁−ΔＢ・Z₂（＝X₁）］を第３デ
ータバス110に出力すると同時に、ショートパス機構102
を使って第１データバス108および第２データバス109に
のせる（212）。乗算器105は第１データバスおよび第２
データバスからX₁を得、X₁の２乗を計算する（213）。

乗算器105は［X₁ ²］を第３データバス110に出力する
と同時に、ショートパス機構102を使って第２データバ
ス109にのせる（206）。一方で、入力レジスタ101の内
容Ｂを第１データバス108を使って乗算器105に入力する
（207）。乗算器105はＢの上位ビットをマスクせず全ビ
ットを演算対象とし、第２データバス上のX₁ ²との乗算
を行なう（208）。

ここで、式は X₂＝X₁（３−Ｂ・X₁ ²）/2 …… となっているため、第９図の付加回路を使ってＢ・X₁ ²
から（３−Ｂ・X₁ ²）/2を得る。

乗算器105はこの値を第３データバス110に出力し、さ
らにショートパス機構102を使って直ちに第２データバ
ス109経由で乗算器105に戻す（209）。同時に第１デー
タバス108用のショートパス機構102に保持されているX₁
を乗算器105に入力し（210）、［（３−Ｂ・X₁ ²）/2・X
₁（＝X₂）］を得る（211）。第３データバス110を使っ
て結果レジスタ111へX₂を転送し、処理を終了する。

以上の動作により52ビット精度のの近似値が得られる。

このように、本発明は 13ビット／語×2¹³語（＝106,496ビット） 26ビット／語×2¹³語（＝212,992ビット）の２つのROMテーブルを使い、総ROM容量319,488ビット
で14クロックで52ビット精度の平方根逆数近似を計算す
ることができる。

前実施例では３本のデータバスやショートパス機構を
使って平方根逆数発生以外の演算も行なえる構成とした
ため、ハードウェアが大規模になっている。ところが、
平方根逆数発生の機能のみ持つ装置であればより簡単な
ハードウェアでさらに高速な演算が可能である。そこ
で、実施例２として平方根逆数発生専用とした場合の構
成と動作を示す。なお、整数ビットを省略してハードウ
ェアを簡略化するため、実施例２ではＢ＝1.00…０の場
合は除外して考えることにする。

第４図に第２実施例の平方根逆数発生装置のハードウ
ェア構成を示す。

401は演算対象データを保持する入力レジスタであ
る。演算対象データのビット幅は実施例１と同じく52ビ
ットとする。入力レジスタ401に保持されている各ビッ
トのビット番号を第８図に示す通り定義する。また、以
降の説明もこのビット信号に準ずる。つまり、最上位ビ
ットをビット51、最下位ビットをビット０とし、小数点
はビット51の上にあるものとする。

402は平方根逆数の近似値を与えるための第1ROMテー
ブルであり、入力レジスタ401の上位13ビットをアドレ
スとして26ビットのデータを出力するため、26ビット／
語×2¹³語のデータを持つ。

403は３乗の平方根の２倍の逆数の近似値を与えるための第2ROMテーブルであり、入力レ
ジスタ401の上位13ビットをアドレスとして13ビットの
データを出力するため、13ビット／語×2¹³語のデータ
を持つ。

404は13ビット×13ビット乗算器であり、第2ROMテー
ブル403の出力の13ビットデータと入力レジスタ401の
［ビット38〜ビット26］の13ビットデータを乗算し、26
ビットデータとなる乗算結果の上位13ビットを出力す
る。

405は26ビット減算器であり、乗算器404の13ビット出
力の上位をゼロ拡張して26ビットデータとし、第1ROMテ
ーブルの26ビットデータから減算し、26ビットデータを
出力する。

410は26ビット×26ビット乗算器であり、26ビット減
算器405の出力を２乗し、52ビットデータを出力する。

406は52ビット×52ビット乗算器であり、乗算器410の
52ビット出力と、もう一方の52ビット入力データとの乗
算結果を出力する。このとき、入力および出力されるデ
ータは第８図に示したようにビット52の上に小数点があ
る固定小数点として扱われる。よって出力されるデータ
は乗算結果の上位52ビットとなる。

407はマルチプレクサであり、入力レジスタ401からの
52ビットデータと付加回路408の52ビット出力のいずれ
かを選択して乗算器406へ入力する。

408は乗算器406の52ビット出力ｘから（３−ｘ）/2を
得るための付加回路である。408の詳細は第９図と同様
である。

409は乗算器406の出力を保持する結果レジスタであ
る。

次に実施例２の平方根逆数発生装置の動作を説明す
る。

まず、第１ステップとして入力レジスタ401の［ビッ
ト51〜ビット39］の13ビットデータをアドレスとして第
1ROMテーブルおよび第2ROMテーブルを検索する。

第２ステップで第2ROMテーブルからの13ビットデータ
と入力レジスタ401の［ビット38〜ビット26］の13ビッ
トデータを乗算する。

この乗算は式の第２項［ΔB/2√B₀ ³］に相当する。

第2ROMテーブルからの13ビット出力は 1/B₀ ²＝0.Z₅₁Z₅₀Z₄₉Z₄₈Z₄₇Z₄₆Z₄₅Z₄₄Z₄₃Z₄₂Z₄₁Z₄₀Z₃₉ Z₃₈Z₃₇… の［Z₅₁〜Z₃₉］の13ビットに相当する。また、入力レジ
スタ401の［ビット38〜ビット26］は ΔＢ＝0.0000000000000B₃₈B₃₇B₃₆B₃₅B₃₄B₃₃B₃₂B₃₁B₃₀B₂₉B₂₈B₂₇B₂₆ … の［B₃₈〜B₂₆］の13ビットに相当する。これらの13ビッ
トデータを整数と見なすとその乗算結果は26ビットデー
タになるはずである。また、Z₃₉の重みは2^-13,B₂₆の重
みは2^-26であるため、整数乗算と見なした場合の乗算結
果26ビットデータの最下位の実際の重みは2^-39である。
よって、その26ビットデータ［V₃₈V₃₇V₃₆V₃₅V₃₄…V₁₃］
はというビット位置に相当する。いま、式ではビット26
までの精度を得られれば良いから、乗算器404は26ビッ
トデータ［V₃₈〜V₁₃］の上位13ビット［V₃₈〜V₂₆］を出
力する。

第３ステップで乗算器404の13ビット出力の上位に13
ビットのゼロを付加し、第1ROMテーブル402の26ビット
出力とともに減算器405に入力して、減算を行なう。

第1ROMテーブルからの26ビット出力は 1/B₀＝0.Y₅₁Y₅₀Y₄₉Y₄₈Y₄₇Y₄₆Y₄₅Y₄₄Y₄₃Y₄₂Y₄₁Y₄₀Y₃₉Y
₃₈Y₃₇Y₃₆Y₃₅Y₃₄Y₃₃Y₃₂Y₃₁Y₃₀Y₂₉Y₂₈Y₂₇Y₂₆ … の［Y₅₁〜Y₂₆］の26ビットに相当する。式の第１項か
ら第２項を引く減算を行なうため、この26ビットデータ
と乗算器404の13ビットデータ［V₃₈〜V₂₆］の各ビット
の重みを合わせるために、［V₃₈〜V₂₆］の上位を13ビッ
トゼロ拡張し、としての減算を行なう。

第４ステップで減算器405の出力を乗算器410により２乗する。

第５ステップで入力レジスタ401からのデータを選択
するようにマルチプレクサ407を制御し、乗算器406に乗
算器410からの52ビットデータと入力レジスタ401からの
52ビットデータを与え、乗算を行なう。

この乗算は式 X₂＝X₁（３−Ｂ・X₁ ²）/2 …… の［Ｂ×X₁ ²］の乗算に相当する。

第６ステップど乗算器406の出力［Ｂ・X₁ ²］を付加回
路408に与え、（３−Ｂ・X₁ ²）/2を得る。

第７ステップで付加回路408からのデータを選択する
ようにマルチプレクサ407を制御し、乗算器406に乗算器
410からの52ビットデータと反転器408からの52ビットデ
ータを与え、乗算を行なう。この乗算は式 X₂＝X₁（３−Ｂ・X₁ ²）/2 …… の［X₁ ×（３−Ｂ・X₁ ²）/2］の乗算に相当する。

この乗算結果を結果レジスタ409に出力し、平方根逆
数演算を終了する。

以上の実施例２のハードウェア量と実行時間を見積
る。まず、ROM容量は実施例１と同様、319,488ビットで
ある。また、データ転送のためのデータバスやショート
パス機構が不要になるため、平方根逆数発生装置全体と
してのハードウェアは実施例１よりも実施例２の方が小
さくなる。

実行時間も実施例１より少なくなる。まず、第１ステ
ップのROMテーブル検索には実施例と同様、１クロック
費やされるとする。第２ステップの乗算はデータ長が実
施例１の52ビット×52ビットに対し、13ビット×13ビッ
トであるため、実施例１の３クロックに対し、１クロッ
クで処理できる。第３ステップの減算は実施例１と同
様、１クロックとする。第４ステップの乗算はデータ長
が実施例１の52ビット×52ビットに対し、26ビット×26
ビットであるため、実施例１の３クロックに対し、２ク
ロックで処理できる。第５および第７ステップの乗算は
実施例１と同様、52ビット×52ビットであるため、実施
例１と同じく３クロックとする。以上の実行時間の合計
から、実施例２の平方根逆数発生装置の実行時間は11ク
ロックとなる。

このように、ハードウェアの構成を平方根逆数発生専
用にすることにより、さらに高速な平方根逆数演算が可
能となる。

〔発明の効果〕

本発明の平方根計算装置は２つのROMテーブルを使っ
てニュートン近似のための初期値を直線近似で補間する
ことにより、従来106.5Kビットの初期値ROMを使って19
クロックかかっていた平方根逆数の近似計算が319.5Kビ
ットの初期値ROMを使って14クロックで可能となり、高
速な平方根計算が実現できるという効果を持つ。

【図面の簡単な説明】

第１図は本発明の平方根計算装置の一実施例図、第２図
は本実施例の動作説明図、第３図は直線近似の説明図、
第４図は本発明の第２実施例図、第５図は従来の平方根
逆数発生装置の構成図、第６図は従来の平方根逆数発生
装置の動作説明図（ニュートン近似２回の場合）、第７
図は従来の平方根逆数発生装置の動作説明図（ニュート
ン近似１回の場合）、第８図は入力レジスタのビット番
号説明図、第９図は（３−ａ・ｂ）/2を生成する付加回
路である。 101……入力レジスタ、102……ショートパス機構、103
……第2ROMテーブル、104……マルチプレクサ、105……
乗算器、106……第1ROMテーブル、107……減算器、108
……第１データバス、109……第２データバス、110……
第３データバス、111……結果レジスタ。

Claims

(57)【特許請求の範囲】

【請求項１】所定ビット数の指数部と4nビット長の仮数
部とによって構成される入力データを保持する入力デー
タレジスタと、前記入力データレジスタに保持された仮
数部の上位ｎビットをアドレスとして前記入力データレ
ジスタが保持している入力データの平方根の逆数の近似
値を2nビット長で出力する第１のROMテーブルと、前記
入力レジスタに保持された仮数部の上位ｎビットをアド
レスとして前記入力データレジスタが保持している値の
３乗の平方根の２倍の逆数の近似値をｎビット長で出力
する第２のROMテーブルと、前記入力データレジスタに
保持された仮数部の下位3nビットと前記第２のROMテー
ブルの出力を乗算する乗算器と、前記第１のROMテーブ
ルから前記乗算器の出力を減算する減算器とを備え、前
記減算器の出力として平方根近似計算に必要な2nビット
精度の初期値を求めることを特徴とする平方根計算装
置。
【請求項２】前記第１のROMテーブルは2n＊2ⁿビットのR
OMによって構成され、前記第２のROMテーブルはｎ＊2ⁿ
ビットのROMによって構成されていることを特徴とする
請求項１記載の平方根計算装置。