JPH0445860B2

JPH0445860B2 -

Info

Publication number: JPH0445860B2
Application number: JP58194249A
Authority: JP
Inventors: Yasuhiro Inagami; Koichiro Omoda; Shigeo Nagashima; Takayuki Nakagawa
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1983-10-19
Filing date: 1983-10-19
Publication date: 1992-07-28
Also published as: JPS6086671A

Description

【発明の詳細な説明】〔発明の利用分野〕本発明は、ベクトル処理装置において、ベクト
ルデータの除算をパイプラインにて高速に処理す
る装置に関するものである。

〔発明の背景〕

演算数の集合に対し一連の演算を行うベクトル
データ処理装置においては、次々と供給されるベ
クトルデータをパイプラインで処理し、１マシン
サイクルピツチで次々と演算結果を算出するパイ
プライン演算器を有している場合が多い。加算、
減算、乗算を行うパイプライン演算器については
既に知られているが、除算をパイプラインで行つ
ている例はない。このため、いくつかの四則演算
の組合せで実行されるプログラムを考えた場合、
除算を含まない演算はパイプラインにて高速に処
理されるが、除算を含む演算においては極端に性
能が低下する場合があり、除算をパイプラインで
高速に処理する必要がある。

除算を高速に処理する演算方式として、逆数近
似方式が広く用いられている。この方式は、被除
数をＮ、除数をＤ、商をＱとしたとき、Ｑ＝Ｎ／Ｄ＝Ｎ×R₀×R₁×……／Ｄ×R₀×R₁×…… とおいて、Ｄ×R₀×R₁×……を１に近づけるよ
うなR₀、R₁、R₂……を求めることにより、ＱＮ×R₀×R₁×…… を求めるものである。

最初のR₀は除数Ｄより近似逆数表を引いてＤ
の逆数を近似的に求める。除数Ｄの近似的な逆数
であるR₀の精度は、近似逆数表の大きさに依存
するが、今仮に次式で示される精度であつたとす
る。

Ｄ×R₀＝１±ε ０＜ε≪１ (1) ここで、 R₁＝２−Ｄ×R₀ (2) とすると、 R₁＝２−（１±ε）＝１〓ε (3) と表わされ、Ｄ×R₀×R₁＝（１±ε）（１〓ε）＝１−ε² ０＜ε²≪１ (4) となる。次に R₂＝２−Ｄ×R₀×R₁ (5) とすると R₂＝２−（１−ε²）＝１＋ε² (6) Ｄ×R₀×R₁×R₂＝（１−ε²）（１＋ε²）＝１−ε⁴ ０＜ε≪１ (7) となる。同様の操作を繰り返すことにより、 R₀×R₁×……×R_o→１ (8) とすることができる。

いま仮にε⁴が対象とするベクトル処理装置のデ
ータ表示有効桁数以下の精度となれば、Ｑ＝Ｎ／Ｄ＝Ｎ×R₀×R₁×R₂／Ｄ×R₀×R₁×R₂ ＝Ｎ×R₀×R₁×R₂／１−ε⁴ (9) となつて、Ｑ＝Ｎ×R₀×R₁×R₂ (10) を商とすることができる。

このように逆数近似方式による除算はデータ表
現有効桁数より精度の悪い除数の近似的な逆数を
あらかじめ用意しておき、乗算処理を繰り返すこ
とにより逆数の精度を上げて商を得ようとするも
のである。

高速の乗算器をもつ処理装置においては、逆数
近似方式は除算を高速に処理する有効な演算方式
であるが、一方、パイプライン方式で除算を行う
場合には、所望の精度を得るまでに必要な乗算の
回数に等しい乗算器を直列に結合する必要があ
り、パイプラインで除算を行うために必要な回路
の規模が膨大なものとなる。

このため、従来のベクトル処理装置においては
所望の精度を得るまでに必要な乗算の回数に等し
い数だけ、１個のパイプライン乗算器を繰り返し
用いることにより除算を実現している例があつ
た。

すなわち、被除数Ｎ、除数Ｄとした場合、次の
４ステツプで商Ｑを得る。

ステツプ１：近似逆数の計算 R₀１／Ｄ (11) ステツプ２：近似逆数の精度向上 R₁＝（２−Ｄ×R₀） (12) ステツプ３：分子の近似 N₁＝Ｎ×R₀ (13) ステツプ４：商の精度向上Ｑ＝＝N₁×R₁ (13) 第１図は、このときに用いる浮動小数点データ
表現形式を示したものである。

浮動小数点データは、符号の表現に１ビツト、
指数の表現に15ビツト、仮数の表現に48ビツト、
合計64ビツトを使用して表現される。この従来技
術では、逆数近似方式による除算によつて仮数部
のデータ有効表現桁数48ビツトの精度を確保すれ
ばよく、そのために上記ステツプ１からステツプ
４の４段階の演算で除算を実現している。

ステツプ１では除数Ｄの近似逆数R₀を精度30
ビツトで求める。次にステツプ２で精度を47ビツ
トまで向上させてR₁を求め、ステツプ３、ステ
ツプ４で、N₁＝Ｎ×R₀およびＱ＝N₁×R₁を計算
して商Ｑを算出している。第２図は、この除算処
理における精度向上の様子を示したものである。

従来技術では上記４ステツプから成るベクトル
データの除算処理を、次に示すような命令および
ハードウエア構成で実現している。

ステツプ１の精度30ビツトの近似逆数R₀を求
める処理は、この処理のためだけに用意された
Floating point reciprocal approximation命令
で行われる。

ステツプ２の処理は、この処理のためだけに用
意されたReciprocal Iterations命令で処理され
る。

ステツプ３およびステツプ４の処理は、通常の
浮動小数点ベクトル乗算命令を用いて処理され
る。

以上の処理のために従来では浮動小数点乗算ユ
ニツトおよび浮動小数点逆数近似ユニツトが用い
られる。浮動小数点乗算ユニツトは、通常のベク
トル乗算命令の処理に用いられる演算器で、１マ
シンサイクルピツチで次々と送られてくるデータ
をパイプラインで処理し、１マシンサイクルに１
演算結果の割合で乗算結果を出力するパイプライ
ン構造の乗算器である。浮動小数点逆数近似ユニ
ツトは、Floating Point Reciprocal
Approximation命令を処理するユニツトで、１
マシンサイクルピツチで次々と送られてくるデー
タの精度30ビツトの近似的な逆数をパイプライン
で算出し、１マシンサイクルに１演算結果の割合
で近似逆数を出力するパイプライン構造の演算器
である。

上記のことからわかるように、従来ベクトルデ
ータの除算においては、浮動小数点逆数近似ユニ
ツトを１回、浮動小数点乗算ユニツトを３回使用
して、いずれもパイプラインで処理される。

Floating Point Reciprocal Approximation
命令を１回、Reciprocal Iterations命令を１回、
浮動小数点乗算命令を２回、計４命令を実行して
ベクトルデータの除算をバイプライン的に処理す
る。このような処理方式では、ベクトルデータの
除算処理に４命令の実行を必要とし処理時間がか
かるとともに、除算処理のために浮動小数点乗算
ユニツトが使用されている間、通常の乗算処理が
行えないといつた問題がある。また、商Ｑを得る
までに、ステツプ２、ステツプ３の演算結果R₁、
N₁を商Ｑを得るまでの中間結果として保持する
必要があり、余分の記憶領域あるいはベクトルレ
ジスタが必要であるといつた問題がある。

〔発明の目的〕

本発明の目的は、乗算を繰り返して商を求める
除算方式を採用しているベクトル処理装置におい
て、ベクトルデータの除算をパイプラインで高速
に処理する回路を提供することにある。

〔発明の概要〕本発明の特徴とするところは、高速性を追求す
るために複数個のパイプライン演算器を装備した
ベクトル処理装置において、乗算処理を繰り返し
て商を求める除算方式を採用してベクトルデータ
の除算を行うとき、商を求めるまでに必要な乗算
を専用に処理する乗算回路を用意することはせ
ず、ベクトルデータの乗算を行う命令の処理に使
用することを目的として設けられたパイプライン
乗算器２個を有機的に結合し、かつ連動して動作
させて除算に必要な乗算処理を行い、除算をパイ
プラインにて高速に処理するところにある。すな
わち、２個のパイプライン乗算器を組とし、一方
の乗算器の出力結果を他方の乗算器に送るデータ
パスを設けることにより２個のパイプライン乗算
器を結合し、また後者のパイプライン乗算器とデ
ータの供給口を共用する除算専用のパイプライン
構造の付加回路を設け、これらを連動して動作さ
せることにより、ベクトルデータの除算をパイプ
ラインで処理する。パイプラインによる除算は、
入力オペランドとして除数を指定し、その近似的
な逆数を出力オペランドとする命令、および入力
オペランドとして被除数、除数、除数の近似的な
逆数を指定し、商を出力オペランドとする命令の
合計２命令を連続して実行することにより行われ
る。

〔発明の実施例〕

以下、実施例を用いて本発明の詳細を説明す
る。

本発明における除算方式は、逆数近似方式を基
本としている。本実施例においては、第３図に示
す浮動小数点データ形式をもつベクトル処理装置
を考える。ベクトル処理装置のデータ表現形式が
どのような形式であるかは本発明の本質ではな
い。

本実施例で扱うデータ表現形式は、第３図に示
す如く、符号部を１ビツト、指数部をｅビツト、
仮数部をｍビツトで表現している。また、仮数部
の小数点は仮数部の先頭に位置する。

逆数近似方式による除算で特に関係あるのは、
仮数部の表現桁数であり、第３図のデータ表現形
式では、仮数部の有効桁数はｍビツトであるので
逆数近似方式による除算において、乗算の繰り返
しにより、精度ｍビツト（精度2^-m）の商を求め
ればよい。

本実施例においては、近似逆数表に記憶させて
おく除数の第一近似逆数は精度ｌビツトとし、か
つ、第一次近似逆数の精度と浮動小数点有効桁数
との間には次の関係がある。

6l≦ｍ＜7l (15) 即ち、近似逆数表を引いて得られる除数の第一
次近似逆数に対し、浮動小数点有効桁数ｍビツト
を満たす商を得るには、逆数近似方式により乗算
を繰り返すことにより、精度を６倍に上げる必要
がある。第３図に、第一次近似逆数の精度ｌと浮
動小数点データ仮数部有効桁数ｍとの関係を示
す。

本実施例において、被除数をＮ、除数をＤと
し、近似逆数表を引いて除数Ｄの第一次近似逆数
であるｒを得てから、精度を６倍に上げて、商Ｑ＝Ｎ／Ｄ (16) を得るまでの原理は次の通りである。

商Ｑを得るまでの処理は、次の６ステツプより
成る。

ステツプ１：除数Ｄの仮数部上位ｌビツトをもとに、近似逆
数表を引いて、除数Ｄの第一次近似逆数ｒを得
る。第一次近似逆数ｒの精度は前述のようにｌビ
ツトであるので、第一次近似逆数ｒを得るのに必
要な除数Ｄのビツト数は、仮数部ｍビツトのうち
の上位ｌビツトでよい。

ステツプ２： r₁＝１＋（１−Ｄ×r₀）＋（１−Ｄ×r₀）² (17) の計算。

ステツプ３： R₀＝r₀×r₁ (18) の計算。

ステツプ４： R₁＝２−Ｄ×R₀ (19) の計算。

ステツプ５： N₁＝Ｎ＋R₀ (20) の計算。

ステツプ６：Ｑ＝N₁×R₁ （21）の計算。

次に上記ステツプ１からステツプ６の処理で、
精度ｍビツトの商Ｑが得られることを示す。

除数Ｄと第一次近似逆数r₀を乗じると１に近い
値となり、その誤差をε（０≦ε＜１）とすると
次式がいえる。

Ｄ×r₀＝１±ε （22）誤差εは第１次近似逆数r₀が浮動小数点仮数部
有効桁数ｍビツトより小さいｌビツトの精度しか
持たないことに起因する。

式(17)、(18)、(19)、(20)、（21）と式（22）より次
の
一連の式が導かれる。

●１−Ｄ×r₀＝１−（１±ε）＝〓ε （23） ●（１−Ｄ×r₀）²＝ε² （24） ●r₁＝１〓ε＋ε² （25） ●Ｄ×R₀＝Ｄ×r₀×r₁ ＝（１±εf）（１〓ε＋ε²）１±ε³ （26） ●R₁＝２−Ｄ×R₀ ＝２−（１±ε³）＝１〓ε³ （27） ●Ｄ×R₀×R₁＝（１±ε³）（１〓ε³）＝１−ε⁶ （28）式（28）より、Ｄ×R₀×R₁を計算することに
よつて、除数Ｄの逆数の精度が、第一次近似逆数
r₀のεからその６倍の精度であるε⁶に上がり、浮
動小数点データ仮数部有効表現桁数以下の精度と
なる。

従つて、商ＱをＱ＝Ｎ×R₀×R₁ （29）とすれば、Ｑ＝Ｎ／Ｄ＝Ｎ×R₀×R₁／Ｄ×R₀×R₁ ＝Ｎ×R₀×R₁／１−ε⁶ Ｎ×R₀×R₁ （30）となつて、浮動小数点データ仮数部有効桁数の精
度を満たす値となる。

上述のステツプ５、ステツプ６は式（29）を計
算するためのものである。

本実施例においては、商を得るまでに必要な上
述のステツプ１からステツプ６までの処理を次の
ようにして実現する。即ち、ステツプ１からステ
ツプ３までの処理をVER命令（Vector
Elementwise Reciprocal命令）で行う。VER命
令の出力結果は式(18)で与えられるR₀であり、R₀
は式（26）から、除数Ｄの誤差ε³の近似的な逆数
となつている、従つて、VER命令は、商Ｑを得
る中間結果を出力する命令であるとともに、近似
逆数を算出する命令ともなつている。ステツプ４
からステツプ６の処理はVED命令（Vector
Elementwise Divide命令）で行う。

このように、前記のステツプ１からステツプ６
までの除算の処理を、VER命令、VED命令の２
個の命令を連続して実行することにより行う。
VER命令およびVED命令の処理は、通常の乗算
命令−VEM命令（Vector Elementwise
Multiply命令）と呼ぶことにする−をパイプラ
インで処理するパイプライン乗算器および除算処
理のために設けたパイプライン構造の除算回路を
連動させて動作させることにより、パイプライン
で処理される。以下、処理の内容を詳細に示す。

最初に、パイプライン乗算器の構造例を示す。
第４図はパイプライン乗算器の構成を示したもの
である。第４図の中で、１，２はそれぞれ被乗
数、乗数が送られてくるデータパス、３は乗算結
果を出力するデータパス、１０〜１７はデータレ
ジスタ、２０〜２３は倍数発生回路、３０〜３３
はCSAトリー（Carry Save Adderトリー）、３
４はパラレルアダー、４０は第１部分積のキヤリ
ー出力レジスタ、４１は第１部分積のサム出力レ
ジスタ、以下４２〜４７は第２部分積、第３部分
積、第４部分積のキヤリー出力レジスタおよびサ
ム出力レジスタ、４８は乗算結果レジスタであ
る。第４図に示すパイプライン乗算器の乗算方式
は既に公知の技術であつて、乗数を２ビツト単位
でデコードして被乗数の倍数を発生させ（乗数の
仮数部は第３図に示した如くｍビツトであるの
で、m/2個の倍数が発生される）、これら倍数を
Carry Save Adderおよびパラレル・アダーで加
算して乗算結果を得るものである。第４図の例で
は、ｍビツトの乗数をm/4ビツトずつ４等分し、
まず最初に、データレジスタ１４に保持され乗数
の下位m/4ビツトと、データレジスタ１０に保持
される被乗数を倍数発生回路２０に入力して倍数
を発生させ、これらの倍数をCSAトリー３０に
入力して加算し、データレジスタ４０にキヤリー
出力、データレジスタ４１にサム出力を得る（第
１部分積の算出）。次に、乗数の第２下位m/4ビ
ツトと被乗数を倍数発生回路２１に入力して倍数
を発生させ、これらの倍数と第１部分積のキヤリ
ー出力、サム出力とをCSAトリー３１で加算し
て、第２部分積のキヤリー出力、サム出力をそれ
ぞれデータレジスタ４２，４３に得る。以下同様
の処理をして、第４部分積のキヤリー出力をデー
タレジスタ４６、サム出力をデータレジスタ４７
に得、これらをパラレルアダー３４で加算して、
データレジスタ４８に最終積を得る。

第４図に示した例では、上記に示した乗算処理
がパイプラインで行える構造となつている。即
ち、入力データである被乗数である乗数がそれぞ
れデータパス１および２から処理装置の基本処理
単位時間である１マシンサイクルに１データの割
合で次々と送られてくる。最初に送られてきた被
乗数および乗数がそれぞれデータレジスタ１０，
１４にセツトされると直ちに第１部分積の計算に
移り、１マシンサイクル後にキヤリー出力、サム
出力がデータレジスタ４０，４１に求まる。これ
と同時に、最初に送られてきた被乗数はデータレ
ジスタ１１、乗数の上位3m/4ビツトはデータレ
ジスタ１５にセツトされ、データレジスタ１０お
よび１４には第２番目に送られてきた被乗数およ
び乗数がセツトされる。以下同様に、最初に送ら
れてきたデータの第２部分積がデータレジスタ４
２，４３に求まるとき、データレジスタ４０，４
１には第２番目に送られてきたデータの第１部分
積が、またデータレジスタ１０，１４には第３番
目に送られてきた被乗数および乗数がそれぞれセ
ツトされる。そして、データレジスタ４８に最初
に送られてきたデータの最終積が求まるとき、第
２番目に送られてきたデータの第４部分積がデー
タレジスタ４６，４７に、第３番目に送られてき
たデータの第３部分積がデータレジスタ４４，４
５に、第３番目に送られてきたデータの第２部分
種がデータレジスタの４２，４３に、第４番目に
送られてきたデータの第１部分積がデータレジス
タ４０，４１に、第５番目に送られてきた被乗数
および乗数がデータレジスタ１０，１４にセツト
されている。

このようにして乗算がパイプラインで処理さ
れ、最初に送られてきたデータの乗算結果がデー
タパス３を介して送出されると、以後１マシンサ
イクルピツチで次々と乗算結果が送出される。

次に、前記のステツプ１からステツプ６までの
除算処理を、第４図に示したパイプライン乗算器
２個および除算専用のパイプライン構造の付加回
路を有機的に結合して処理する実施例を第５図を
用いて詳細に説明する。

第５図において、１および３はパイプライン乗
算器であつて、構造は第４図に示したパイプライ
ン乗算器と全く同じである。パイプライン乗算器
１および３は独立に動作することができ、ベクト
ルデータの乗算を行うVEM命令をそれぞれ独立
に処理できる。即ち、パイプライン乗算器１で
VEM命令を処理する場合は、データバス１０，
１１から被乗数データ、乗数データが次々と供給
され、乗算結果がデータパス１２から次々と送出
される。また、パイプライン乗算器３でVEM命
令を処理する場合は、データパス１３，１４から
被乗数データ、乗数データが次々と供給され、乗
算結果がデータパス１５から次々と送出される。
パイプライン乗算器１と３で別のVEM命令を同
時に処理することが可能である。

次に、第５図に示した実施例における除算処理
の動作を説明する。第５図に示した実施例におい
て除算処理を行うとき、回路の構成上次の点が特
徴的である。

(1) 第５図において、４はパイプライン除算付加
回路であり、前記の除算処理ステツプ１からス
テツプ６のうち、ステツプ２とステツプ５の処
理を行うために特別に設けられた回路であり、
パイプライン構造となつている。パイプライン
除算付加回路の内部構成の詳細は後述する。

(2) 第５図において、パイプライン除算付加回路
４の入力データの供給口は、パイプライン乗算
器３の入力データの供給口と共通となつてお
り、パイプライン除算付加回路４にデータを供
給するときは、パイプライン乗算器３にデータ
を供給するデータパス１３，１４から、データ
パス１９，２０を介して行われる。

(3) 第５図において、パイプライン除算付加回路
４の出力データパス１７，１８を介してパイプ
ライン乗算器３へ送られる。

(4) (2)、(3)より、パイプライン除算付加回路４は
専用の入力データ供給口および出力データ送出
口を持たず、パイプライン乗算器３に併設され
た付加回路の性格をもつ。従つて、第５図にお
いて、第５図の回路を含むベクトル処理装置か
らみたとき、パイプライン除算付加回路４は１
個の独立した演算器でなく、パイプライン乗算
器３と合わせた回路が１個の演算器として扱わ
れる。第５図において、パイプライン乗算器と
パイプライン除算付加回路を合わせた回路２
を、除算付加機構付パイプライン乗算器と呼
ぶ。即ち、本実施例における除算処理専用に設
けたパイプライン除算付加回路４は、ベクトル
処理装置全体から見た場合、大量のベクトルデ
ータのやりとりをするデータパスを新たに設け
る必要がないという点で有利であり、本実施例
の特徴の１つである。

(5) 第５図において、パイプライン除算器１の出
力データを、パイプライン乗算器３に送るデー
タパス１６があり、且つ、その間にビツト反転
回路２１および１加算回路２２が入つている。

(6) 第５図において、３０，３１はデータパスセ
レクト回路であり、データパスセレクト回路３
０はパイプライン乗算器３へ被乗数データを供
給するパス１３、パイプライン除算付加回路４
の出力データを送るパス１７、パイプライン乗
算器１の出力データをビツト反転したデータを
送るパス１６のいずれかを選択することがで
き、またデータセレクト回路３１は、パイプラ
イン乗算器３へ乗数データを供給するパス１
４、パイプライン除算付加回路４の出力データ
を送るパス１８のいずれかを選択することがで
きる。

次に、パイプライン除算付加回路４の内部構成
を説明する。第５図において、４０〜５１および
７８，７９はデータレジスタ、６０〜６２は第４
図で説明した倍数発生回路と同一の回路、６３〜
６５は第４図で説明したCSAトリーと同一の回
路、６６，６７は第４図で説明したパラレルアダ
ーと同一の回路、７０〜７５はそれぞれCSAト
リー６３〜６５のキヤリー出力レジスタ、サム出
力レジスタ、７６，７７はそれぞれパラレルアダ
ー６６，６７の出力レジスタ、３２，３３はデー
タパスセレクト回路である。また、第５図におい
て８０は記憶回路であつて、近似逆数表の登録を
目的とする。以上の構成をもつパイプライン除算
付加回路４は機能的には次の３つのコンポーネン
トから構成されている。

(1) 乗数巾m/4ビツトのパイプライン乗算器第５図のデータレジスタ４０、倍数発生回路
６０、CSAトリー６３、パラレルアダー６６、
データレジスタ７０，７１，７６で構成される
回路は、データレジスタ４０に貯えられている
データを被乗数、記憶回路８０から読出しデー
タを乗数とするパイプライン乗算器となつてい
る。乗数のビツト数は、倍数発生回路６０、
CSAトリー６３が第４図で説明したそれらと
同一であるのでm/4ビツトである。

(2) 乗数巾m/2ビツトのパイプライン乗算器データレジスタ４８〜５１、倍数発生回路６
１，６２、CSAトリー６４，６５、パラレル
アダー６７、データレジスタ７２〜７５および
７７で構成される回路は、データレジスタ４８
に貯えられているデータを被乗数、データレジ
スタ４９に貯わえられているデータを乗数とす
るパイプライン乗算器となつている。乗数のビ
ツト数は、第４図で説明したものと同じ倍数発
生回路、CSAトリーがそれぞれ２組あるので
ｍ／２ビツトである。

(3) 近似逆数表第５図の記憶回路８０は、データレジスタ４
０に貯わえられているデータをアドレスとして
データを読出すもので、除算処理における第一
次近似逆数を保持する近似逆数として使われ
る。

このように、パイプライン除算付加回路は除算
処理のために特別に用意されてはいるが、回路構
成は通常のパイプライン乗算器と類似したものと
なつており、回路実現上有利である。

以上のような特徴的な構成をもつ第５図の実施
例において、前記のステツプ１からステツプ６の
除算処理がパイプラインで実行される様子を次に
説明する。本実施例における除算処理は前述のよ
うに、VER命令 VED命令の計２個の命令で行
われる。

(1) VER命令の処理 VER命令は除数Ｄを入力データとし、前記
のステツプ１〜ステツプ３の処理を行つて、式
(18)で与えられる除数Ｄの近似的な逆数R₀を出
力データとして出力する。処理は第５図の除算
付加機構付パイプライン乗算器２を用いて行わ
れる。以下各ステツプ毎に処理の詳細を示す。

ステツプ１：入力データ除数Ｄが、第５図のデータパス１
３および１９を介して１マシンサイクルピツチ
で次々と供給され、データレジスタ４０にセツ
トされる。データレジスタ４０にセツトされた
除数Ｄの仮数部ｍビツトのうちの上位ｌビツト
をアドレスとして記憶回路８０に登録されてい
る近似逆数を引き、除数Ｄの第一次近似逆数r₀
を得る。r₀のビツト巾はｌビツトである。

ステツプ２：除数Ｄおよび第一次近似逆数ｒより次式を計
算する。

r₁＝１＋（１−Ｄ×r₀）＋（１−Ｄ×r₀）² (17) まず、１−Ｄ×r₀ （31）の計算をパイプライン除算付加回路４の中の乗
数巾m/4ビツトのパイプライン乗算器で行う。
第一次近似逆数r₀はｌビツト巾であり、またｌ
と浮動小数点仮数部ビツト数ｍとの間には式(15)
に示す関係があり、ｌ≦ｍ／６＜m/4 （32）が成立する。

従つて、式（31）の計算で、Ｄ×ｒは、Ｄを
被乗数、r₀を乗数として乗数巾m/4ビツトのパ
イプライン乗算器で計算できる。

実際には式（31）を変形して式（33）の形で
計算する。

１＋Ｄ×（−r₀）（33）式（33）の計算において、 ●乗数をr₀から−r₀とする処理は第５図のビツ
ト反転回路８１で行われ１の補数化を行い処
理する。

●値１の加算は、倍数発生回路６０で発生され
た倍数をCSAトリー７０で加算するときに、
値１発生回路８２の出力を合わせて加算する
ことにより処理する。

以上の処理によりデータレジスタ７６に式
（33）の値が求まる。これらの処理はパイプラ
インで行われる。即ち、データ１３，１９を介
して除数Ｄが１マシンサイクルピツチで次々と
供給され、第一番目のデータの演算結果がデー
タレジスタ７６にセツトされるとき、第２番目
のデータの部分積がデータレジスタ７０，７１
に、第３番目のデータがデータレジスタ４０に
セツトされる。

次に、式（33）の計算結果を用いて式(17)を計
算する。式(17)の計算はパイプライン除算付加回
路４の中の乗数巾m/2ビツトのパイプライン乗
算器を用いて行う。式(17)の計算は、式(17)を式
（34）のように変形して行う。

１＋（１−Ｄ×r₀）・｛１＋（１−Ｄ×r₀）｝（34）即ち、データセレクト回路３２，３３をデー
タレジスタ７６の値を選択するように制御し、
データレジスタ７６に得られた（１−Ｄ×r₀）
の値を乗数としてデータレジスタ４８にセツト
し、データレジスタ７６に得られた値を＋１回
路８３を通して得られる値｛１＋（１−Ｄ×
r₀）｝を被乗数としてデータレジスタ４９にセ
ツトする。

データレジスタ４８，４９に被乗数および乗
数がセツトされると、倍数発生回路６１，６
２、CSAトリー６４，６５、パラレル・アダ
ー６７を用いてパイプラインで乗算処理が開始
される。

また式（34）における値１の加算は、式
（33）の計算において用いたのと同じ手法で、
倍数発生回路６１が発生した倍数をCSAトリ
ー６４で加算するときに値１発生回路８４の出
力を合わせて加算することにより処理する。

以上の処理により式(17)の値r₁がデータレジス
タ７７に求まる。

また記憶回路８０から読み出された第一次近
似逆数ｒは、それと対応する式(17)を求めるまで
の乗算処理が進行するのと同期してデータレジ
スタ４２〜４７を進む。即ち、第ｉ番目（ｉは
自然数）のデータに対応する式(17)の演算結果r₁
(i)がデータレジスタ７７にセツトされるとき、
データレジスタ４７には、第ｉ番目のデータに
対応する第一次近似倍数ｒ(i)がセツトされる。

なお、式（34）の計算において、乗数１−Ｄ
×r₀の精度は式（23）で与えられ、ｌビツトあ
ればよいので、式（32）の関係より乗数巾m/2
は充分である。

ステツプ３：式(18)の乗算処理はパイプライン乗算器３を用
いて行われる。

即ち、データパスセレクト回路３０をデータ
パス１７を選択するように制御し、またデータ
セレクト回路３１をデータパス１８を選択する
ように制御して、データレジスタ４７に得られ
た値r₀およびデータレジスタ７７に得られた値
r₁をそれぞれデータレジスタ１００，１０１に
取り込む。データレジスタ１００，１０１にデ
ータが取り込まれると、パイプライン乗算器３
が第４図の説明で述べたように動作し、式(18)の
乗算処理がパイプラインで処理され、演算結果
R₀がデータレジスタ１０２に得られ、データ
パス１５を介して、VER命令の演算結果とし
て送出される。

以上示したVER命令の処理において、入力
データである除数Ｄがデータレジスタ４０にセ
ツトされてから演算結果R₀がデータレジスタ
１０２に求まるまでの一連の処理はパイプライ
ンで行われ、データパス１３，１９を介して１
マシンサイクルピツチでベクトルデータを次々
と供給するとき、第１番目のデータの演算結果
がデータパス１５を介して送出されると、以後
１マシンサイクルピツチで次々と演算結果が送
出される。

(2) VED命令の処理 VED命令は、被除数Ｎ、除数ＤおよびVER
命令の演算結果であるR₀を入力データとし、
前記のステツプ４〜ステツプ６の処理を行つ
て、商Ｑを出力データとして出力する。処理は
第５図のパイプライン乗算器１および乗算付加
機構付パイプライン乗算器２を連動して動作さ
せることにより行う。以下各ステツプ毎の処理
の詳細を示す。

ステツプ４：式(19)の演算はパイプライン乗算器１により行
われる。

R₁＝２−Ｄ×R₀ (19) 第６図において、データパス１０を介して除
数Ｄ、データパス１１を介して近似逆数R₀が
１マシンサイクルピツチで次々と供給される。
除数Ｄおよび近似逆数R₀がそれぞれデータレ
ジスタ２００，２０１にセツトされると、パイ
プライン乗算器１が第４図の説明で述べたよう
に動作し、Ｄ×R₀の乗算処理がパイプライン
で処理され、演算結果がデータレジスタ２０２
に得られる。

Ｄ×R₀の値を２から減じてR₁を求める処理
は、Ｄ×R₀の値の２の補数値を得ることに相
当し、これは、ビツト反転回路２１、＋１回路
２２により実現される。

以上により得られた値R₁はデータパス１６
を介して除算付加機構付パイプライン乗算器２
へ送られる。

ステツプ５：式(20)の乗算処理はパイプライン除算付加回路
４の中の乗数巾m/2ビツトの乗算器で行われ
る。

N₁＝Ｎ×R₀ (20) 第５図において、データパス１３および１９
を介して被除数Ｎ、データパス１４および２０
を介して近似逆数R₀が１マシンサイクルピツ
チで次々と供給され、それぞれデータレジスタ
４０および４１にセツトされる。本ステツプの
処理においてはデータパスセレクト回路３２は
データレジスタ７８を選択、データパスセレク
ト回路３３はデータレジスタ７８の値を選択す
るよう制御される。この結果、データレジスタ
４０にセツトされた被除数Ｎは、データレジス
タ７８、データパスセレクト回路３２を介して
データレジスタ４８にセツトされる。同様にデ
ータレジスタ４１にセツトされた近似逆数R₀
はデータレジスタ７９およびデータパスセレク
ト回路３３を介してデータレジスタ４９にセツ
トされる。

データレジスタ４８にセツトされたＮを被乗
数、データレジスタ４９にセツトされたR₀を
乗数として、倍数発生回路６１，６２、CSA
トリー６４，６５、パラレルアダー６７を用い
て式(20)の乗算処理がパイプラインで行われ、結
果N₁がデータレジスタ７７に得られる。

式(20)の乗算処理において、乗数となるR₀は
式（26）に示した精度をもつ。即ち、第一次近
似逆数ｒの精度の３倍の精度をもつ。第一次近
似逆数ｒがｌビツトで表現されるから、R₀は
３×ｌビツトで表現すれば精度的に問題ない。
ｌと浮動小数点仮数部有効桁数ｍとの間には式
(15)の関係があるので、 3l≦ｍ／２（35）が成立し、乗数巾m/2ビツトで乗算処理を行つ
て問題はない。

ここで、ステツプ４およびステツプ５の処理
は同期して行われる。即ち、１マシンサイクル
ピツチで次々と入力データが供給されるとき、
第ｉ番目の除数Ｄ、第ｉ番目の被除数Ｎ、第ｉ
番目の近似逆数R₀がデータレジスタ２００，
１００，１０１および２０１にセツトされるの
は同一時刻である。さらに、第ｉ番目の除数
Ｄ、近似逆数R₀がそれぞれデータレジスタの
２００，２０１にセツトされてから、ステツプ
４の演算においてＤ×R₀の値がデータレジス
タ２０２にセツトされるまでの時間と、第ｉ番
目の被除数Ｎ、近似逆数R₀がそれぞれデータ
レジスタ４０，４１にセツトされてから、ステ
ツプ５の演算結果N₁がデータレジスタ７７に
セツトされるまでの時間は共に５マシンサイク
ルとなるよう、パイプライン乗算器１およびパ
イプライン除算付加回路４は構成されている。
従つて、次に説明するステツプ６の処理におい
て、第ｉ番目のR₁、第ｉ番目のN₁がそれぞれ
データレジスタ１００，１０１にセツトされる
のは同一時刻である。

ステツプ６：式（21）の乗算処理がパイプライン乗算器３
で処理される。VED命令実行時、第６図のデ
ータパスセレクト回路３０はデータパス１６を
選択、データパスセレクト回路３１はデータパ
ス１８を選択するよう制御される。

パイプライン乗算器１でパイプラインで計算
されたステツプ４の結果R₁はデータパス１６
を介して１マシンサイクルピツチで次々と送ら
れ、データレジスタ１００にセツトされる。ま
たパイプライン除算付加回路でパイプラインで
計算されたステツプ５の結果N₁はデータパス
１８を介して１マシンサイクルピツチで次々と
送られ、データレジスタ１０１にセツトされ
る。このとき、前にも述べた通り、第ｉ番目の
R₁がデータレジスタ１００、第ｉ番目のN₁が
データレジスタ１０１にセツトされるのは同一
時刻である。

R₁およびN₁がそれぞれデータレジスタ１０
０，１０１にセツトされると、パイプライン乗
算器３が第４図の説明で述べたように動作し、
式（21）の乗算処理がパイプラインで行われ、
演算結果がデータレジスタ１０２に得られる。
データレジスタ１０２に得られたデータは
VED命令の乗算結果、商Ｑとして、データパ
ス１５を介して１マシンサイクルピツチで次々
と送出される。

以上示したVED命令の処理において、入力デ
ータである除数Ｄ、被除数Ｎ、近似逆数R₀がそ
れぞれデータレジスタ２００，１００，２０１，
１０１にセツトされてから出力データである商Ｑ
がデータレジスタ１０２に求まるまでの一連の処
理はパイプラインで行われ、入力データが１マシ
ンサイクルピツチで次々と供給されるとき、第１
番目のデータの演算結果がデータパス１５を介し
て送出されると、以後１マシンサイクルピツチで
次々と演算結果が送出される。

以上第５図を用いて説明した本発明の実施例に
おいては、乗算を繰り返して商を求める逆数近似
方式のベクトルデータの除算を、第５図に示した
回路を用いて、VER命令、VED命令の２命令を
連続して実行することにより行う。さらに、
VER命令、VED命令はいずれもパイプラインで
処理され、それぞれ１マシンサイクルに１演算結
果が得られる。従つて、第５図の実施例では商Ｑ
が等価的に２マシンサイクルに１演算経過の割合
で得られる。

第６図は、第５図に示したベクトル除算処理用
の回路構成を含むベクトル処理装置の一実施例を
示したものである。第６図において、パイプライ
ン乗算器１、除算付加機構付パイプライン乗算器
２、データパス１０〜１６は第５図のそれらと対
応している。主記憶装置１００はベクトルデータ
やベクトル命令列を保持する、２００はベクトル
レジスタ群であつて、主記憶装置とパイプライン
演算器との間に位置し、ベクトルデータを一時的
に記憶するためのものである。第６図の実施例で
はベクトルレジスタはＮ本あり、それぞれ０、
１、２、…、Ｎ−１と番号付けされている。また
各ベクトルレジスタは最大Ｌ個の要素から成るベ
クトルデータを保持することができるようになつ
ている。データパス１０１〜１０５は主記憶装置
とベクトルレジスタとの間のデータ転送を行うも
のである。

２０６はベクトルレジスタ読出／書込制御回路
であつて、ベクトルレジスタとパイプライン演算
器との間のデータパスの結合関係を制御するもの
である。データパス２０１〜２０５はベクトルレ
ジスタとベクトルレジスタ読出／書込制御回路と
の間のデータパスである。

３００はベクトル命令レジスタ（Vector
Instruction Register VIRと略す）であつて、デ
ータパス３０４を介して主記憶装置から読出され
たベクトル命令を一時的に保持するレジスタであ
る。

３０１はベクトル命令レジスタ３００に保持さ
れているベクトル命令を解読する回路であつて、
信号線３０２はベクトル命令の解読結果をベクト
ルレジスタ読出／書込制御回路へ通知するための
もの、また信号線３０３は、第５図で示した除算
付加機構付パイプライン乗算器２内のデータセレ
クト回路３０，３１，３２，３３を制御するため
のものである。

なお、第６図の実施例においては、パイプライ
ン演算器として除算処理に関係のある２個のパイ
プライン演算器のみを示したが、他にパイプライ
ン演算器があつても差しつかえない。

第７図は、第６図に示したベクトル処理装置に
おいて除算を実行するためのベクトル命令列の一
例を示したものである。第７図において、命令
は主記憶装置上にあるベクトルデータ被除数
Ｎ、除数Ｄをそれぞれベクトルレジスタの０番、
１番にロードするVector LoaD命令（略号
VLD）である。命令は前記で示したVER命令
であつて、命令によつてベクトルレジスタの第
１番にロードされた除数Ｄを読出して近似逆数
R₀を計算し結果をベクトルレジスタの第２番に
格納するものである。命令は前記で示した
VED命令であつて、命令、、でそれぞれ
ベクトルレジスタの第０番、第１番、第２番に格
納されている被除数Ｎ、除数Ｄ、近似逆数R₀を
読出して、商Ｑを計算し結果をベクトルレジスタ
の第３番に格納するものである。なお、命令で
は、R₀が格納されているベクトルレジスタ第２
番の指定がないがこれは、VED命令のオペラン
ドの指定方式として、除数Ｄが格納されているベ
クトルレジスタの番号より１多い番号のベクトル
レジスタに除数Ｄの近似逆数R₀が格納されてい
ると仮定して、オペランドの指定数を減らしてい
ることによる。

次に、第７図に示したベクトル命令列が第６図
に示したベクトル処理装置において実行される様
子を説明する。ここで第７図の命令、は本発
明と特に関連をもたないので説明を省略する。

(1) VER命令の処理主記憶装置１００よりデータパス３０４を介
して第７図の命令、VER命令が読出される
と、ベクトル命令レジスタ３００にセツトされ
直ちにベクトル命令解読回路３０１に送られ
る。ベクトル命令解読回路３０１において命令
の内容が解読されると、信号線３０２を介して
ベクトルレジスタ読出／書込制御回路に対し、
データパス２０２とデータパス１３、データパ
ス２０３とデータパス１５を結合し、ベクトル
レジスタ第１番からのデータの読出し、および
ベクトルレジスタ第２番へのデータの書込みを
指示する。また信号線３０３を介して、除算付
加機構付パイプライン乗算器に付し、VER命
令の処理を指示する。しかる後、ベクトルレジ
スタの第１番から除数Ｄを次々と読出し、デー
タパス２０２及び１３を介して除算付加機構付
パイプライン乗算器に供給し、パイプラインで
R₀を計算し、データパス１５および２０３を
介してベクトルレジスタ第２番へ次々と書き込
まれる。

(2) VED命令の処理前述のVER命令の場合と全く同様に主記憶
装置１００から読出された第７図の命令、
VED命令はベクトル命令解読回路３０１で解
読される。ベクトル命令解読回路３０１で命令
の内容が解読されると、信号線３０２を介して
ベクトルレジスタ読出／書込制御回路に対し、
データパス２０１とデータパス１３、データパ
ス２０２とデータパス１０、データパス２０３
とデータパス１１および１４をそれぞれ結合
し、ベクトルレジスタの第０番、第１番、第２
番の読出しおよび第３番への書込みを指示す
る。また信号線３０３を介し、除算付加機構付
パイプライン乗算器に対しVED命令の処理を
指示する。しかる後、ベクトルレジスタの第０
番、第１番、第２番からそれぞれ被除数Ｎ、除
数Ｄ、近似逆数R₀を次々と読出し、それぞれ
データパス２０１と１３，２０２と１０，２０
３と１１および１４を介してパイプライン乗算
器１および除算付加機構付パイプライン乗算器
２へ供給し、商Ｑをパイプラインで計算し、デ
ータパス１５および２０４を介してベクトルレ
ジスタ第３番に次々と書込む。

このように、本実施例によれば、通常の乗算処
理機能を持ち、パイプライン除算のための付加機
構を有するパイプライン乗算器２と、本来通常の
乗算処理を行うために装備されているパイプライ
ン乗算器１を組み合せて用い、VER命令及び
VED命令の２個の命令を、逐次的に連続して実
行することにより、除算をパイプライン処理にて
高速に実行することができる。なお、VER命令、
VED命令は独立した命令であり、必ずしも連続
して実行する必要はなく、間に別の命令が挿入さ
れ実行されて構わない。

VER命令が実行されるときには、パイプライ
ン除算付加機構を持つパイプライン乗算器２のみ
が使用される。VER命令実行の後、VED命令を
実行するときには、パイプライン乗算器１とパイ
プライン乗算器２とが同時に使用される。

VER命令、VED命令が処理されるとき、パイ
プライン乗算器１及びパイプライン乗算器２がど
のように使用されるかを、第８図に示すタイムチ
ヤートにて説明する。第８図においては、演算器
の種類と、各演算器の入出力信号線を縦軸にと
り、横軸には処理する命令の時間的経過を示して
いる。演算器及び入出力信号線の番号は第６図に
あるものと同じである。第８図においては、要素
の数がｎ個のベクトルデータを処理することを仮
定している。各要素は、１、２…、ｎで何番目の
要素であるかを表す。Ｎ(1)、Ｎ(2)、Ｎ(n)はそれぞ
れ被除数の第１目、第２番目、第ｎ番目の要素を
表す。Ｄ(1)、Ｄ(2)、Ｄ(n)は除数、Ｑ(1)、Ｑ(2)、Ｑ
(n)は最終演算結果である商、また、R₀(1)、R₀(2)、
R₀(n)、R₁(1)、R₁(2)、R₁(n)、N₁(1)、N₁(2)、N₁(n)
はそれぞれ補正量である。VER命令の処理時、
パイプライン演算器２のみが使用され、パイプラ
イン演算器１は使用されない。パイプライン乗算
器２の入力信号線１３には、除数Ｄが毎サイクル
毎次々と入力される。出力信号線１５からは、Ｄ
(1)、Ｄ(2)、Ｄ(n)に対応するR₀(1)、R₀(2)、…、R₀
(n)が次々と出力され、VER命令の結果が求めら
れる。VED命令の処理時には、パイプライン乗
算器１の入力信号線１０より除数Ｄ、パイプライ
ン乗算器２の入力信号線１３より被除数Ｎ、パイ
プライン乗算器１の入力信号線１１及びパイプラ
イン乗算器２の入力信号線１４にはVER命令で
求めた補正量R0が、各要素同期して次々と入力
される。パイプライン乗算器１では、Ｄ(i)及び
R₀(i)［ｉ＝１〜ｎ］により求められるR₁(1)、Ｒ
(2)、…、R₁(n)が出力信号線１６から次々と出力
され、パイプライン乗算器２に送られる。パイプ
ライン乗算器２においてもＮ(i)及びR₀(i)［ｉ＝
１〜ｎ］から求められるN₁(1)、N₁(2)、…、N₁(n)
が次々と求められる。N₁(i)とR₁(i)［ｉ＝１〜ｎ］
とから商Ｑ(1)、Ｑ(2)、…、Ｑ(n)が次々と求めら
れ、パイプライン乗算器２の出力信号線１５から
次々と送出される。

以上のように、本実施例によれば、通常の乗算
処理に用いるパイプライン乗算器を流用して、ベ
クトルデータの除算をパイプラインで処理すると
ともに、商Ｑを得るまでの途中経過としてR₀を
保持するベクトルレジスタが１本で済むといつた
特徴がある。

〔発明の効果〕

以上述べたように、ベクトル処理装置において
乗算を繰り返して商を求める逆数近似方式により
ベクトルデータの除算を行うとき、従来は通常の
乗算器を用い商を得るまでに必要な繰り返しの乗
算と通常の乗算命令等を用いて行つていたのに対
し、本発明では、通常のパイプライン乗算処理に
用いる２個のパイプライン乗算器に対し、一方の
乗算器の出力結果を直接他方の乗算器の入力デー
タとするパスを設け、また通常のパイプライン乗
算器と類似した構造をもつ除算処理専用のパイプ
ライン構造の付加回路１個を入口データの供給口
をパイプライン乗算器と共用する形で併設し、ベ
クトル処理装置内に除算処理専用の大規模な回路
を設けることなく、ベクトルデータの除算をパイ
プラインで高速に処理することができる。

【図面の簡単な説明】

第１図は従来の浮動小数点数値データ表現形式
を示す図、第２図は従来の除算処理における精度
向上の概念を示す図、第３図は本発明の一実施例
で扱う浮動小数点データ表現形式を示す図、第４
図は本発明の一実施例で扱うパイプライン乗算器
のブロツク図、第５図および第６図は本発明の一
実施例を示すブロツク図、第７図は本発明の一実
施例で扱うベクトル命令列を示す図である。第８
図は、第４図の装置の動作を説明する図である。１……パイプライン乗算器、２……除算付加機
構付パイプライン乗算器、３……パイプライン乗
算器、４……パイプライン除算付加回路。

Claims

【特許請求の範囲】

１複数の除数(D)の各々に対して、第０近似の逆
数（r₀）を出力するメモリと、該メモリから出力
される第０近似の逆数（r₀）から誤差（１−Ｄ×
r₀）を算出する第１のパイプライン演算器と、こ
の誤差から第１の補正量r₁＝１＋（１−Ｄ×r₀）
（１−Ｄ×r₀）²を算出する第２のパイプライン演
算器と、この第１の補正量r₁から第２の補正量R₀
＝r₀×r₁を算出する第３のパイプライン演算器
と、該第２の補正量R₀とその除数(D)との積Ｄ×
R₀を算出する第４のパイプライン演算器と、そ
の積の２の補数２−Ｄ×R₀からなる第３の補正
量R₁を算出する補数回路とを有し、上記複数の
除数(D)にそれぞれ対応する複数の被除数(N)の各々
と、その被除数(N)に対応する除数(D)に対して該第
３のパイプライン演算器で算出された第２の補正
量R₀との積Ｎ×R₀を該第２のパイプライン演算
器により算出し、さらに該積Ｎ×R₀と、その被
除数(N)に対応する除数Ｄに対して該補数回路から
も出力された第３の補正量R₁との積を近似商(Q)
として該第３のパイプライン演算器により算出す
る除算回路。