JPH0477347B2

JPH0477347B2 -

Info

Publication number: JPH0477347B2
Application number: JP62219152A
Authority: JP
Inventors: Akira Maeda; Masahiko Yoshimura; Satoshi Hashimoto
Original assignee: Agency of Industrial Science and Technology
Current assignee: National Institute of Advanced Industrial Science and Technology AIST
Priority date: 1987-09-03
Filing date: 1987-09-03
Publication date: 1992-12-08
Also published as: DE3854142D1; DE3854142T2; JPS6462764A; EP0305639B1; US4967350A; EP0305639A2; EP0305639A3

Description

【発明の詳細な説明】（産業上の利用分野）本発明は、パイプライン方式によるベクトル処
理を基本とするベクトル計算機に関する。

（従来の技術）メモリ上に規則的に配置されたベクトルデータ
に対し、同一演算を繰返し実行させる演算をベク
トル演算と呼ぶ。Fortranを例にとると、第５図
ａに示すように、ベクトルＡ，Ｂ，ＣにおけるＢ
とＣをオペランドとして演算を行ない、その結果
をデイステイネーシヨンＡに代入し、これをDO
ループによつて添字Ｉを順次変化させながら繰返
し行なうような演算がベクトル演算である。

ベクトル演算の高速化の手法としてパイプライ
ン方式が知られている。このパイプライン方式に
よれば、第５図ａの演算は、同図ｂのように行わ
れる。なお、この図は、パイプラインの段数をｎ
＝３に設定した場合の例を示している。先ず、サ
イクル１でＢ（１），Ｃ（１）でリード要求を出し
てオペランドを参照し、演算を開始する。次のサ
イクル２では、サイクル１で始まつた演算の結果
を待たずにＢ（２），Ｃ（２）を参照し演算を始め
る。サイクル３では、サイクル１で開始された演
算の結果Ａ（１）が求まるので、この結果を書込
むと同時にＢ（３），Ｃ（３）の参照を行ない演算
を始める。以後、同時にサイクルｉ＋２ではサイ
クルｉから開始された演算の結果のＡ（ｉ）が求
まると同時にＢ（ｉ＋２），Ｃ（ｉ＋２）による演
算を始める。

このように、繰返しによる演算を一つの演算の
結果を待たずに連続的に処理することをベクトル
化するという。このベクトル化によれば、上記の
例のように演算に２サイクルを要する場合でも、
最初の演算結果Ａ（１）が求まるまでに２サイク
ルの遅れはあるものの、それ以後は演算結果が毎
サイクル求まるという利点がある。

また、例えば第６図ａに示すように、オペラン
ド（Ａ（Ｉ））とデイステイネーシヨン（Ａ（Ｉ＋
３））のベクトルが同じである回帰的データ参照
の場合も、デイステイネーシヨンのベクトルＡの
添字とオペランドのベクトルＡの添字の差（３）
がパイプラインの段数ｎ（＝３）以上であれば、
第６図（ｂ）に示すように、サイクル１で開始さ
れたＡ（１）＋Ｃ（１）なる演算の閣下Ａ（４）がサ
イクル３で終了するので、サイクル４ではＡ
（４），Ｃ（４）を参照可能である。したがつて、
この演算はベクトル化するとができる。

しかしながら、このような回帰的データ参照に
おいて、例えば第７図ａに示すように、デイステ
イネーシヨンのベクトルＡの添字とオペランドの
ベクトルＡの添字との差（１）がパイプラインの
段数ｎ（＝３）未満であると、サイクル１で開始
されたＡ（１）＋Ｃ（１）の演算結果Ａ（２）がサイ
クル２では未だ求まつていないため、Ａ（２），Ｃ
（２）の参照はこの演算が終了するサイクル４で
はないと行なえない。従つて、この場合には演算
をベクトル化するとはできない。

このように、パイプライン方式を採用していて
も、デイステイネーシヨンとオペランドのベクト
ルの添字の差がパイプラインの段数ｎ未満のとき
には、ベクトル化は不可能である。

そこで、回帰的データ参照が起こる場合には、
コンパイラに予めパイプラインの段数ｎを覚えさ
せておき、コンパイル時に上記添字の差がパイプ
ライン段数ｎより大きいかどうかを判定し、この
判定結果に応じてベクトル化するかどうかを決定
することも考えられる。しかし、この場合にはパ
イプライン段数を増やした場合、コンパイラを新
しいパイプライン段数に合せて作り直さなければ
ならない。また、同一アーキテクチヤの計算機
で、パイプラインの段数だけが違つている場合に
は、各計算機毎にその計算機のパイプライン段数
に合わせたコンパイラを用意しなければならずコ
ンパイラの作成が非常に面倒になるという問題が
あつた。

また、第８図に示すように、デイステイネーシ
ヨンの添字に変数ｋが含まれている場合、この変
数ｋはコンパイル時には定まらず、実行時に定ま
るため、たとえ実行時にｋ≦ｎとなつてもベクト
ル化することは可能となる。

更に、第９図ａのようなサブルーチンでは文番
号10のデイステイネーシヨンとオペランドとが表
面上は同一でないが、サブルーチンの呼び元で第
９図（ｂ）に示すように第１引数と第３引数とを
同一の引数として呼出すと、上記と同様の回帰的
データ参照の問題が生じる。この場合、上記第１
引数と第２引数とに同一の変数を割当てない等の
制限を付して上記の問題を回避することも考えら
れるが、このようにすると、サブルーチンの汎用
性という特長が損われ、プログラムの移植性が低
下する。

以上のことから、従来のベクトル計算機では、
回帰的データ参照が行われる可能性のある演算に
ついてはベクトル化を断念している。このため、
ベクトル化した場合に比べて演算速度が数十倍も
遅くなるという問題があつた。

（発明が解決しようとする問題点）このように、従来のベクトル計算機では、回帰
的データ参照が起こる場合にベクトル化を行なわ
ないようにしているため、演算の実行速度を高め
ることができないという問題があつた。

本発明は、かかる問題点を解決すべくなされた
もので、その目的とするところは、回帰的データ
参照が生じる演算についてもベクトル化できる部
分は、全てベクトル化することができ、もつて演
算速度を大幅に高めることができるベクトル計算
機を提供することにある。

［発明の構成］（問題点を解決するための手段）本発明は、ベクトルデータを格納したメモリか
ら演算処理部が順次ベクトルデータを読み出して
パイプライン方式によるベクトル演算処理を行な
うベクトル計算機において、次の手段を備えたこ
とを特徴としている。

即ち、本発明は、パイプラインの各ステージに
保持されている演算処理中のデータの書込みアド
レスを前記パイプラインの各ステージに対応させ
て格納するレジスタフアイルと、前記パイプライ
ンから順次出力される演算結果を前記レジスタフ
アイルから順次読出した前記書込みアドレスで指
定される前記メモリの記憶場所に格納する手段
と、前記演算処理部が前記メモリから前記ベクト
ルデータを読出す際に、その読出しアドレスが前
記レジスタフアイル内に格納されている場合には
前記メモリからの読出しを待たせる手段とを具備
している。

（作用）本発明では、パイプラインの各ステージに格納
されたデータと対応させて該データの書込みアド
レスをレジスタフアイルに格納するようにしてい
るので、レジスタフアイルに格納されたアドレス
を参照すれば、そのアドレスに書込まれるべきデ
ータが現在演算処理中であることが分る。そこ
で、演算処理部がメモリからベクトルデータを読
出そうとしたとき、その読出しアドレスとレジス
タフアイルの内容とを比較して、上記読出しアド
レスがレジスタフアイルに格納されている場合に
は、メモリの読出しを待たせるようにしている。
従つて、演算処理部は、このような待機指示がな
されない限り、メモリからベクトルデータを順次
読み出し、パイプラインに乗せることができるた
め、ベクトル化できる部分は全てベクトル化され
ることになる。

このように、本発明によれば、回帰的データ参
照が起こる場合でも、メモリに対する読み出し禁
止指令が出ない限り、ベクトル化可能なものとし
て処理を進めるので、ベクトル化できる部分は全
てベクトル化されベクトル演算を大幅にスピード
アツプすることができる。

（実施例）以下、図面に示した実施例に基づいて本発明の
詳細を説明する。

第２図は本発明の一実施例に係るベクトル計算
機の概略構成を示す図である。

ベクトル計算機は、ベクトルデータを格納する
メモリ１１と、このメモリ１１からベクトルデー
タを順次読み出して、パイプライン方式に基づく
ベクトル処理を行ない、その演算結果をメモリ１
１に格納する演算処理部１２と、この演算処理部
１２がメモリ１１からデータを読み出すのを許可
するためのメモリライトコントローラ１３とで構
成されている。

上記メモリライトコントローラ１３は、具体的
には、第１図に示すように構成されている。

即ち、書込みアドレス格納レジスタ（以下、
「WAレジスタ」と呼ぶ）２１〜２５は、演算処
理部１２からアドレスバスADを介して与えられ
る書込みアドレスWAを順次格納し、格納した順
に出力するFIFO（First in First out）メモリを
構成するもので、この段数は演算処理部１３にお
けるパイプラインの段数ｎに対応している。ここ
では、パイプラインの段数ｎ＝５であると想定し
ている。このWAレジスタ２１〜２５には、現在
パイプラインのステージにある演算途中のデータ
の書込みアドレスWAが格納される。これらWA
レジスタ２１〜２５に対応して状態レジスタ３１
〜３５が設けられている。この状態レジスタ３１
〜３５は、１ビツトのレジスタで、WAレジスタ
２１〜２５内のデータが有効である場合には
“１”、無効である場合には、“０”を格納する。
各WAレジスタ２１〜２５の間には、セレクタ４
１〜４４が配置されている。このセレクタ４１〜
４４は、書込みアドレスWAとWAレジスタ２１
〜２５の値とのいずれか一方を選択するセレクタ
で、状態レジスタ３１〜３５の値が“１”の場合
にはWAレジスタ２１〜２５の値、状態レジスタ
３１〜３５の値が“１”の場合には書込みアドレ
スWAを選択するものとなつている。

一方、演算処理部１２からアドレスバスADを
介して与えられる読出しアドレスRAは読出しア
ドレス格納レジスタ（以下、「RAレジスタ」と
呼ぶ）４５に格納される。このRAレジスタ４５
の格納値と各WAレジスタ２１〜２５の格納値と
は比較器５１〜５５でそれぞれ比較される。比較
器５１〜５５は、両入力値が一致したときに
“１”を出力する。これら比較器５１〜５５の出
力と、状態レジスタ３１〜３５の出力とは、それ
ぞれANDゲート６１〜６５に入力されている。
従つて、ANDゲート６１〜６５は、状態レジス
タ３１〜３５が“１”、つまり有効なWAレジス
タ２１〜２５の内容が、RAレジスタの内容と一
致したときに“１”を出力する。ANDゲート６
１〜６５の出力は、オアゲート７１に入力されて
いる。オアゲート７１は、いずれか一つのAND
ゲート６１〜６５の出力が“１”のときにメモリ
のリード禁止信号RIを出力する。

なお、図中７５は、メモリライトコントローラ
１３の全体の制御を司る制御部であり、演算処理
部１２からの演算結果READY信号RR、書込み
アドレスREADY信号WAR及び状態レジスタ３
１〜３５の出力に応じてWAレジスタ２１〜２５
駆動用のクロツク信号CK1〜CK5を出力する。

次に以上のように構成された本実施例に係るベ
クトル計算機の動作について説明する。

まず、初期状態では、状態レジスタ３１〜３５
の値は全て“０”であり、WAレジスタ２１〜２
５の値は全て無効であることを示している。この
結果、セレクタ４１〜４４は、全て書込みアドレ
スWAを選択する。

この状態で書込みアドレスREADY信号WAR
と書込みアドレスWAが入力されると、制御部７
５は、全ての状態レジスタ３１〜３５が“０”で
あるから、クロツクCK5を“１”とする、これに
より、書込みアドレスWAはセレクタ４４を介し
てWAレジスタ２５に格納され、同時に状態レジ
スタ３５が“１”にセツトされる。更に書込みア
ドレスREADYが“１”となり、次の書込みアド
レスWAが入力されると、制御部７５は、状態レ
ジスタ３５が“１”であるからクロツクCK４を
“１”にする。これにより、書込みアドレスWA
がセレクタ４３を介してWAレジスタ２４に格納
される。同時に状態レジスタ３４が“１”にセツ
トされる。このように、書込みREARY信号
WARが“１”になると、書込みアドレスWAは、
順次空いてる最下段のWAレジスタに格納され
る。

次に、パイプライン演算器から演算結果が出力
される場合、即ち、上記WAレジスタ２１〜２５
内のデータで指定される書込みアドレスでメモリ
１１に演算結果を書込む場合について説明する。

演算結果READY信号RRが“１”になると、
制御部７５からのクロツク信号CK５が“１”に
なり、最下段のWAレジスタ２５から書込みアド
レスWA′が読出される。このアドレスWA′はア
ドレスバスAD′を介してメモリ１１のアドレス指
定に供される。これにより、レジスタ２５が空に
なるため、制御部７５の制御に従つてWAレジス
タ２１〜２４の内容は、順次下段に送られて格納
される。このとき、例えば、状態レジスタ３４，
３５が“１”でWAレジスタ２４，２５に有効な
データ側が存在する場合には、WAレジスタ２４
の出力は、状態レジスタ３４が“１”であるた
め、セレクタ４４を通りWAレジスタ２５に移さ
れ、状態レジスタ３４は“０”になる。状態レジ
スタ３５は“１”のままである。

更に書込みアドレスREADY信号WARと演算
結果READY信号RRとが同時に“１”になつた
場合には、WAレジスタ２５のアドレスが取出さ
れると同時に書込みアドレスWAが空いている最
下段のWAレジスタに格納される。例えば、状態
レジスタ３４，３５が“１”でWAレジスタ２
４，２５が有効なデータであつた場合は、WAレ
ジスタ２５の内容がメモリ１１のアドレスとして
読出され、WAレジスタ２５には、WAレジスタ
２４の内容が格納され、更にWAレジスタ２４に
は書込みアドレスWAが格納される。この動作を
更に詳しく説明すると、状態レジスタ３３は
“０”となつているので、セレクタ４３は書込み
アドレスWAを選択し、WAレジスタ２４に出力
している。状態レジスタ３４は“１”になつてい
るので、セレクタ４４はWAレジスタ２４を選択
し、WAレジスタ２５に出力している。このと
き、クロツクCK４，CK５は“１”となり、WA
レジスタ２４，２５はそれぞれセレクタ４３，４
４から送られたアドレスを格納する。状態レジス
タ３４，３５は“１”のままである。

次に、制御部７５の動作について説明する。制
御部７５は、WAレジスタ２１〜２５のクロツク
CKi（ｉ＝〜５）及び状態レジスタ３１〜３５の
値Vi（ｉ＝１〜５）を次に示す論理式に従つて制
御している。

CKi＝（（Vi＝０）・（Vi＋１＝１）・（RR＝〇）・（WAR＝１）＋（Vi＝１）・（Vi−１＝０）・（RR＝１）・（WAR＝１）＋（Vi＝１）・（Vi−１＝１）・（RR＝１）） Vi＝（Vi＝１）・（（RR＝１）・（WAR＝０）・（Vi＋１＝１）＋（RR＝１）・（WAR＝１）＋（RR＝０）・（WAR＝１）＋（RR＝０）・（WAR＝０））＋（Vi＝０）・（Vi＋１＝１）・（RR＝０）・（WAR＝１）但し、ここで、Vo＝０、V6＝１とする。

式中（Vi＝０）なる論理式は、Vi＝０の時に
真、即ち、“１”となることを示している。この
ような論理演算を実現する回路は汎用ロジツク
ICによつて容易に実現できるので、ここではそ
の具体的構成については示さない。又、段数をパ
イプラインの段数に適合させるための構成の変更
は極めて容易である。

このように、５段のWAレジスタ２１〜２５
は、FIFOとしての動作を行なう。

次に、データの読み出し時において、読出しア
ドレスRAはRAレジスタ４５に格納される。こ
のRAレジスタ４５に格納されたアドレスと、各
WAレジスタ２１〜２５の内容とは比較器５１〜
５５においてそれぞれ比較され、もし１つでも一
致しているものがあれば、そのWAレジスタの値
が有効でない場合（状態レジスタの値Vi＝０の
場合）を除き、ANDゲート６１〜６５及び及び
オアゲート７１を介してリード禁止信号RIが出
力される。このリード信号RIが演算処理部１２
に入力されると、演算処理部１２はメモリ１１か
らの次のベクトルデータの読出し待ち状態にな
る。これは、WAレジスタ２１〜２５に格納され
ている書込みアドレスに書込まれるべきデータが
現在演算中であるため、その値が未だメモリ１１
内に格納されていないためである。

次に、このようなベクトル計算機で、例えば第
３図に示すような回帰的データ参照を行なうDO
ループを実行した場合について考える。この
Fortranプログラムは、文番号10のデイステイネ
ーシヨンの添字とオペランドの添字との差“３”
が、このベクトル計算機の段数“５”よりも少な
いので、従来はベクトル化することができなかつ
た。しかしながら、この装置においては、第４図
に示すようなベクトル化が可能である。

即ち、第１サイクルでは演算処理部１２は、Ａ（４）＝Ａ（１）＋Ｂ（１）を実行するためにＡ（１）とＢ（１）のリード要
求を出し、メモリ１１の読出しを行なつて良いか
どうかを調べる。これは、第１図に示すRAレジ
スタ４５にデータＡ（１）をセツトし、WAレジ
スタ２１〜２５との比較を比較器５１〜５５で行
なうことにより行われる。なお、第１図の構成で
は、Ａ（Ｉ）の一系統の読出しアドレスしか調べ
ることができないが、実際にはＢ（Ｉ）の系統を
調べるためのRAレジスタや比較器が並列に設け
られている。第１サイクルでは、書込みアドレス
として有効なデータがなく、リード禁止信号RI
は“０”となる。RIが“０”である場合には読
出すデータは確定しているので、リード信号RD
が“１”となつてメモリ１１からＡ（１），Ｂ（１）
が読み出され、演算が開始される。そして、パイ
プラインの４ステージ先に求まる演算結果をＡ
（４）に格納するため、Ａ（４）のアドレスが
FIFO部に格納される。

第２サイクル、第３サイクルでは、第１サイク
ルと同じように読出しデータＡ（２），Ａ（３），Ｂ
（２），Ｂ（３）が確定しているので、RIが“１”
となり、演算が開始され、Ａ（５），Ａ（６）の書
込みアドレスがFIFO部に格納される。したがつ
て、第３サイクルでは、FIFO部にＡ（４），Ａ
（５），Ａ（６）の書込みアドレスが順に格納され
ることになる。

次に、第４サイクルでは、演算処理部１２はＡ
（４），Ｂ（４）のメモリリード要求を出すが。
FIFO部のWAレジスタ２３にＡ（４）が格納され
ているので、比較器５３が“１”になり、リード
禁止信号RIが“１”になる。これにより、演算
処理部１２は、データＡ（４）が未だ確定してい
ないことが分かり、リード信号RDが“０”にな
つてメモリ１１からＡ（４）を読出すのを待つ。

第５サイクルでは、第１サイクルで起動した演
算Ａ（１）＋Ｂ（１）が終了し、ライト信号WDが
“１”なつて演算結果がＡ（４）に書込まれる。こ
のサイクルでもＡ（４）がまだFIFO部に残つてい
るので、リード禁止信号が“１”になり、読出し
待機状態が維持される。

第６サイクルでは、第２サイクル目で起動した
Ａ（２）＋Ｂ（２）の演算結果を書込むサイクルで
ある。このサイクルでは、Ａ（４）が既にFIFO部
から排出されているので、リード禁止信号RIは
“０”になり、Ａ（４）の読出しが行われる。これ
により、Ａ（７）＝Ａ（４）＋Ｂ（４）の命令が起動
され、Ａ（７）の書込みアドレスWAが新たに
FIFO部に格納される。

第７サイクルでは、第６サイクルと同様の動作
を行なう。

このように、本実施例に係るベクトル計算機に
よれば、Ａ（４）の読出しが２サイクル待たされ
る他は、全てベクトル化でき、効率良い演算を行
なうことができる。そして、このベクトル計算機
によれば、回帰的な参照関係が生ずる演算におい
ても、ベクトル化可能であるかどうかに拘りなく
ベクトル演算を実行できる。

なお、本発明は、上記実施例に限定されるもの
ではない。例えばWAレジスタの段数やレジスタ
及び比較器の系統数等は適宜変更可能である。そ
の他本発明は、その要旨を逸脱しない範囲で種々
変更して実施可能である。

［発明の効果］以上のように、本発明似寄れば、パイプライン
方式に基づくベクトル処理を行なうベクトル計算
機において、回帰的な参照関係にあるベクトル演
算でも、ベクトル化できる部分は全てベクトル的
に処理することができるので、ベクトル計算を極
めて高速に行なうことができる。

【図面の簡単な説明】

第２図は本発明に一実施例に係るベクトル計算
機の要部の構成を示すブロツク図、第２図は同ベ
クトル計算機の全体的な構成を示すブロツク図、
第３図は回帰的データ参照を行なうベクトル演算
プログラムの一例を示す図、第４図は同ベクトル
演算を前記ベクトル計算機でパイプライン処理し
た場合のタイムチヤート、第５図乃至第９図は従
来の問題点を説明するための図である。１１……メモリ、１２……演算処理部、１３…
…メモリライトコントローラ、２１〜２５……書
込みアドレス格納レジスタ（WRレジスタ）、３
１〜３５……状態レジスタ、４１〜４４……セレ
クタ、４５……読出しアドレス格納レジスタ
（RAレジスタ）、５１〜５５……比較器、６１〜
６５……ANDゲート、７１……ORゲート、７５
……制御部。

Claims

【特許請求の範囲】

１ベクトルデータを格納するメモリと、このメ
モリから順次ベクトルデータを読み出してパイプ
ライン方式によるベクトル演算処理行ない、その
演算結果を前記メモリに格納する演算処理部と、
パイプラインの各ステージに保持されている演算
処理中のデータの書込みアドレスを前記パイプラ
インの各ステージに対応させて格納するレジスタ
フアイルと、前記パイプラインから順次出力され
る演算結果を前記レジスタフアイルから順次読出
した前記書込みアドレスで指定される前記メモリ
の記憶場所に格納する手段と、前記演算処理部が
前記メモリから前記ベクトルデータを読出す際
に、その読出しアドレスが前記レジスタフアイル
内に格納されている場合には前記メモリからの読
出しを待たせる手段とを具備したことを特徴とす
るベクトル計算機。