JPH0410108B2

JPH0410108B2 -

Info

Publication number: JPH0410108B2
Application number: JP57221392A
Authority: JP
Priority date: 1982-12-17
Filing date: 1982-12-17
Publication date: 1992-02-24
Also published as: US4621324A; JPS59111569A

Description

【発明の詳細な説明】〔発明の利用分野〕本発明は、行列形式のデータ（ベクトルデー
タ）を高速に処理するのに好適なベクトル処理装
置に関するものである。

〔従来技術〕

従来、科学技術計算に頻繁に現われる大型行列
計算などの高速処理を行うベクトル処理装置が
種々提案されている。その一つに、ベクトル処理
装置に含まれる複数個のパイプライン演算器の高
速性、並列性が有効に発揮できるように、演算デ
ータの転送能力を向上させるべく、ベクトルレジ
スタとそのチエイニング機能を有するベクトル処
理装置がある（例えば米国特許4128880号参照）。
この中でベクトルレジスタは、主記憶装置上に格
納されているデータを一担取り込んで任意の演算
器へ送り、又、演算の中間結果のデータを一時的
に保持し、最終結果のデータのみを主記憶装置へ
ストアする役割をしており、演算のためのデータ
転送能力を高めている点において非常に有効な方
法である。

しかし、ベクトル処理装置はバンク・コンフリ
クトに対して性能低下が大きい。例えば非定常・
非線形解析の場合は、帯幅の小さい帯行列の三角
分解を高速に行う必要があるが、帯幅が小さい場
合はベクトル長が小さく、ベクトル処理装置の効
果が小さい。この対索としてリスト・ベクトルを
使用し、二重ループを一重ループにすることが考
えられる。この場合、主記憶装置上の同一データ
を数回又は十数回続けてベクトルレジスタに読み
込む必要があるため、バンク・コンフリクトが多
発し、性能が大幅に低下する。

〔発明の目的〕

本発明の目的は、ベクトルレジスタを備えたベ
クトル処理装置において、主記憶装置上に記憶さ
れているベクトルデータの各要素を、リスト・ベ
クトル形式により、それぞれ適当な個数に伸長さ
せてベクトルレジスタにロードする場合に多発す
るパンク・コンフリクトを減少せしめ、該ベクト
ルレジスタに高速に転送することにある。

〔発明の概要〕

本発明の要点は、主記憶装置から読み出したデ
ータを退避しておくセーブレジスタと、ベクトル
レジスタと一対一に対応するマスクレジスタを設
け、マスクレジスタの内容（マスク情報）を参照
して、それが“１”の場合には主記憶装置から読
み出したデータをそのままベクトルレジスタの対
応する記憶位置に転送し、マスクレジスタのビツ
トが“０”の場合は、一つ前に転送してセーブレ
ジスタに退避しておいた同じデータをベクトルレ
ジスタの対応する記憶位置に転送する点にある。

〔発明の実施例〕

第１図は本発明が適用されるベクトル処理装置
の全体構成を示したもので、１はベクトルレジス
タ（VR）、２はデータ分配回路、３はデータ選
択回路、４は演算器、５は主記憶装置（MS）、
６はマスクレジスタ、７は記憶制御装置である。
ベクトルレジスタ１はベクトルを形成する一連の
エレメント・データ（以下、単にデータという）
を格納することができ、ここでは、各々のベクト
ルレジスタは８バイト長のデータを128個格納で
きるとしている。

ベクトル命令は主記憶装置５に格納されている
が、これを記憶制御装置７に取り込む。記憶制御
装置７においてベクトル命令が解読され、演算に
必要なデータが主記憶装置５からデータ分配回路
２を通りベクトルレジスタ１へ読み出される。ベ
クトルレジスタ１に取り込まれたデータはデータ
選択回路３を通し、所望の演算器４に送られて演
算が行なわれ、結果が再びベクトルレジスタ１へ
書き込まれる。演算器４は浮動小数点加算器、乗
算器などのそれぞれ独立した演算器からなる。こ
のような演算器４とベクトルレジスタ１間のデー
タ転送を繰り返した後、得られた最終結果データ
がベクトルレジスタ１から選択回路３を通り、記
憶制御装置７経由で主記憶装置５へ書き込まれ
る。

たとえばベクトル〓、〓の加算を行い、その結
果をベクトル〓に入れる場合は次のようになる。

LVR VR0、〓（ベクトル〓をVR0へ格納） LVR VR2、〓（ベクトル〓をVR2へ格納） VEM VR4、VR0、VR2（〓＋〓→VR4） STVR VR4、〓（ａ＋ｂの結果をｃへ格
納）この例の場合、まずの処理で主記憶装置５上
のベクトル〓の内容がベクトルレジスタVR0へ
格納され、次にの処理で主記憶装置５上のベク
トル〓の内容がVR2へ格納される。その後、
の処理でVR0とVR2の内容が加算され、結果が
VR4へ格納される。加算の演算がすべて終了す
ると、次にの処理でVR4の内容が主記憶装置
５上のベクトル〓へ格納される。

第１図において、マスクレジスタ６は本発明に
より追加されたもので、主記憶装置５上のベクト
ル〓や〓のエレメント・データを適用な個数に伸
長してベクトルレジスタ１へ格納する必要がある
場合に用いられる。マスクレジスタ６は複数の列
からなり、各列が各ベクトルレジスタ１に対応
し、列の各ビツトがベクトルレジスタ１の各記憶
位置と一対一に対応する。例えば、マスクレジス
タ６の一番左側の１列が一番左側のベクトルレジ
スタ１に対応し、その０〜127ビツトが当該ベク
トルレジスタ１の０〜127番の記憶位置に対応す
る。

第２図はマスクレジスタ６を用いて主記憶装置
５上のデータをベクトルレジスタ１上に伸長する
処理の概略を示したものである。なお、ここでの
マスクレジスタ６は、実際には第１図のマスクレ
ジスタ６の１列分に相当する。この第２図の例
は、主記憶装置５上の７個のデータをベクトルレ
ジスタ１上では28個のデーテに伸長した場合の例
である。マスクレジスタ６の内容（マスク情報）
は、本処理を行う前にマスクセツト命令などによ
りあらかじめセツトしておく。このマスクレジス
タ６を０ビツトから順に参照していき、その内容
が“１”のときは主記憶装置５よりデータを読み
出し、そのデータをそのままベクトルレジスタ１
の該当記憶位置に転送するが、その内容が“０”
のときは一つ前に転送したのと同じデータを主記
憶装置５から再読み出しを行うことなしに、あら
かじめ退避しておいた同一データをベクトルレジ
スタ１の該当記憶位置に引き続き転送し格納す
る。第２図の例では、主記憶装置５上のデータa₀
は、マスクレジスタ６のビツト０〜６の内容にし
たがい、ベクトルレジスタ１上では０番から６番
の記憶位置まで７個格納される。同様に主記憶装
置５上のデータa₁はマスクレジスタ６のビツト７
〜12の内容にしたがい、ベクトルレジスタ１上で
は７番から12番の記憶位置まで６個格納される。
以下同様に、主記憶装置５上のデータがそれぞれ
ベクトルレジスタ１上に重複・伸長されて格納さ
れる。このような処理を行う命令をここでは
LVREX（Load Vector Register Extended）命
令と名付けることにする。

第３図は本発明の一実施例例のブロツク図で、
特にマスクレジスタ６と記憶制御装置７内の本発
明に関係する構成を示したものである。

第３図において、主記憶装置５より読み出され
たベクトルロード命令が命令解読回路８で解読さ
れることにより、主記憶装置５からベクトルレジ
スタ１へのベクトルデータのロード処理が開始さ
れる。アドレスレジスタ（VAR）１０は主記憶
装置５上のベクトルデータの先頭アドレスを保持
するレジスタ、インクリメントレジスタ（VIR）
１１はベクトルデータの要素（エレメント・デー
タ）間の距離を保持するレジスタ・ベクトル長セ
ツトレジスタ（LNG）９は主記憶装置５から読
み出すベクトル要素数（エレメント・データ数）
を保持するレジスタである。

加算器１５は主記憶装置５のアドレスを生成す
る回路であり、初回はアドレスレジスタ１０の内
容を選択してそのまま出力するが、２回目以降は
前回の加算結果とインクリメントレジスタ１１の
内容を選択し、両者の加算結果を出力する。リク
エストが出される毎に、該加算器１５で主記憶装
置５のアドレスを生成して、リクエスト信号と共
に主記憶装置５に送り、データを読み出す。
LVREX命令以外の一般のベクトルデータのロー
ド命令の場合は、該主記憶装置５から読み出され
たデータはそのままベクトルレジスタ１へ転送す
る。同時に、ベクトル長セツトレジスタ９に入つ
ている内容を選択して減算器１４に送り、一つ減
算する。以上の動作をゼロ検出回路１６でゼロが
検出されるまで繰り返すことにより、ベクトル長
セツトレジスタ９の内容で示されるベクトル要素
数がベクトルレジスタ１へ転送される。アンド回
路１７はリクエスト許可、減算器１４の出力がゼ
ロでないという条件で、リクエスト信号を出力す
る回路である。

一方、LVREX命令の場合は、ベクトル長セツ
トレジスタ９の代りに、マスクレジスタ６で示さ
れた内容の“１”の数をビツト数カウント回路１
３でカウントし、その結果を減算器１４の入力と
して、マスクレジスタの内容で示された“１”の
数の分だけ主記憶装置５へリクエストを出す。主
記憶装置５のアドレス生成は、LVREX命令以外
の上述の一般のロード命令の場合と同様である。
ただし、LVREX命令では主記憶装置５から読み
出されたデータは、一担、セーブレジスタ１２に
格納する。そして、マスクレジスタ６を参照し
て、その内容が“１”の場合はそのままベクトル
レジスタ１へ転送するが、“０”の場合は、該
“０”が継続している数だけセーブレジスタ１２
のデータを引き続いてベクトルレジスタ１へ転送
する。この間、主記憶装置５へのリクエストは発
生させない。ポインタ１８はマスクレジスタ６の
アドレスカウンタで、セーブレジスタ１２のデー
タがベクトルレジスタ１へ転送される毎に、値が
次に更新していく。

次に、LVREX命令の際の第３図の動作を、第
２図を例にして詳述する。マスクレジスタ６には
第２図の内容のマスク情報があらかじめセツトさ
れているとする。

主記憶装置５からLVREX命令がフエツチされ
ると、命令解読回路８は、該LVREX命令で指定
された主記憶アドレス（要素a₀のアドレス）をア
ドレスレジスタ１０に、アドレスインクリメント
値（要素間の距離）をインクリメントレジスタ１
１に設定する。LVREX命令ではベクトル長セツ
トレジスタ９は不使用である。その代りに、ビツ
ト数カウント回路１３が命令解読回路８から起動
を受け、マスクレジスタ６中の“１”の数をカウ
ントし、その結果を減算器１４の初期値とする。
これは、例えば、ポインタ１８の値を一循させて
マスクレジスタ６を走査し、該マスクレジスタ６
の内容をビツト０から次々に読み出してビツト数
カウント回路１３の入力とすることで実現する。
第２図より、減算器１４の初期値は“７”であ
る。なお、ポインタ１８の値は、一循後“０”に
戻り、マスクレジスタ６のビツト０を指示する。

以上でベクトルデータロードのための前処理が
終了し、命令解読回路８はアンド回路１７を介し
て１回目のリクエスト信号を主記憶装置５に送
る。同時に、加算器１５はアドレスレジスタ１０
の内容をそのまま出力し、主記憶装置５に送る。
この結果、主記憶装置５からデータa₀が読み出さ
れ、一担、これをセーブレジスタ１２に格納す
る。減算器１４は初期値“７”を一つ減し“６”
とする。一方、ポインタ１８の値は“０”で、マ
スクレジスタ６のビツト０を指示しているが、該
マスクレジスタ６のビツト０は“１”であるた
め、上記主記憶装置５から読み出されたデータa₀
を、セーブレジスタ１２に格納すると同時にその
まゝベクトルレジスタ１へ転送する。その後、ポ
インタ１８の値を１つ更新して“１”とする。マ
スクレジスタ６のビツト１は“０”であるため、
セーブレジスタ１２に格納しておいたデータa₀を
ベクトルレジスタ１へ転送する。そして、再びポ
インタ１８の値を１つ更新して“２”とする。マ
スクレジスタ６のビツト２も“０”であるため、
今度もセーブレジスタ１２のデータa₀をベクトル
レジスタ１へ転送する。以下、マスクレジスタ６
のビツトが“０”の間、ポインタ１８の更新、セ
ーブレジスタ１２からベクトルレジスタ１へのデ
ータ転送を繰り返し実行する。この間、命令解読
回路８は主記憶装置５へのリクエストを発生させ
ない。このようにして、ポインタ１８の値が
“６”になつた時点では、即ち、マスクレジスタ
６がビツト６まで参照された時点では、ベクトル
レジスタ１上では０〜６番の記憶位置にデータa₀
が格納される。

次に、ポインタ１８の値が“７”になり、マス
クレジスタ６のビツト７を指示する。該マスクレ
ジスタ６のビツト７は“１”である。この場合、
セーブレジスタ１２のデータのベクトルレジスタ
１への転送及びポインタ１８の更新を中継する。
そして、命令解読回路８はアンド回路１７を介し
て２回目のリクエスト信号を主記憶装置５に送
り、同時に加算器１５は前回の加算結果（即ち、
アドレスレジスタ１０の内容）にインクリメント
レジスタ１１の値を加算した値をアドレスとして
主記憶装置５に送る。この結果、主記憶装置５か
らデータa₁が読み出され、これをそのままベクト
ルレジスタ１へ転送すると共にセーブレジスタ１
２に格納する。即ち、セーブレジスタ１２のデー
タはa₀からa₁に置換される。減算器１４は前回の
減算結果を一つ減じて“５”とする。その後、ポ
インタ１８の更新動作を再開する。このようにし
てポインタ１８の値が“12”になり、マスクレジ
スタ６がビツト12まで参照された時点では、ベク
トルレジスタ１上では７〜12番の記憶位置にデー
タa₁が格納される。

以下、同様にして、ポインタ１８の値が“13”、
“18”、“22”、“25”、“27”になつた時点でのみ主
記憶装置５にリクエスト信号が送られて、主記憶
装置５からデータa₂，a₃，a₄，a₅，a₆が読み出さ
れる。そして、マスクレジスタ６を参照しなが
ら、ベクトルレジスタ１上では、13〜17番位置に
データa₂が、18〜21番位置にデータa₃が、22〜24
番位置にデータa₄が、25と26番位置にデータa₅
が、そして、27番位置にデータa₆が順次格納され
ることになる。

なお、主記憶装置５から最後のデータa₆を読み
出すためのリクエストが発せられると、減算器１
４の減算結果は“０”になる。これをゼロ検出回
路１６が検出すると、その後の主記憶装置５への
リクエスト信号の送出は停止する。したがつて、
主記憶装置５から読み出されたa₆がベクトルレジ
スタ１へ転送されて格納された時点で、当該
LVREX命令の処理が終了となる。

このようにして、第２図の例では、７回リクエ
ストを出して主記憶装置５上から７個のデータa₀
〜a₆を読み出すだけで、これをベクトルレジスタ
１上では28個のデータに伸長することができる。
しかも、これは１回のベクトルデータロード命令
（LVREX命令）のフエツチで実現される。

〔発明の効果〕

以上の説明から明らかな如く、本発明によれ
ば、ベクトルレジスタを備えたベクトル処理装置
において、主記憶装置上の同一データを数回又は
十数回続けてベクトルレジスタに読み込み、ベク
トル処理を行う必要がある場合、主記憶装置から
は当該データを一度読み出すだけでよいため、パ
ンク・コンフリクトが大幅に軽減され、ベクトル
処理の立上げに必要な時間を短縮することができ
る。また、本発明ではベクトルレジスタと一対一
に対応するマスクレジスタを設け、該マスクレジ
スタを参照して、主記憶装置上のデータを読み出
すべきか、あるいは主記憶装置から読み出して退
避しておいた同一データを引き続いてベクトルレ
ジスタへ転送すべきかを判定しているため、主記
憶装置上に記憶されているベクトルデータの複数
要素を、リスト・ベクトル形式により各要素毎に
適当な個数に伸長してベクトルレジスタにロード
する場合、複数要素について１回のベクトルロー
ド命令（LVREX命令）の発行ですますことがで
きる利点がある。

【図面の簡単な説明】

第１図は本発明が適用されるベクトル処理装置
の全体構成図、第２図は本発明の原理説明図、第
３図は本発明の一実施例のブロツク図である。１……ベクトルレジスタ、２……データ分配回
路、３……データ選択回路、４……演算器、５…
…主記憶装置、６……マスクレジスタ、７……記
憶制御装置、８……ベクトル命令解読回路、９…
…ベクトル長セツトレジスタ、１０……アドレス
レジスタ、１１……インクリメントレジスタ、１
２……セーブレジスタ、１３……ビツト数カウン
ト回路、１４……減算器、１５……AND回路、
１８……ポインタ。

Claims

【特許請求の範囲】

１主記憶装置に格納されているベクトルデータ
を取り込んで任意の演算器へ送り、又、演算の中
間結果のベクトルデータを保持するベクトルレジ
スタを備えたベクトル処理装置において、主記憶
装置から読み出したデータを退避しておくセーブ
レジスタと、前記ベクトルレジスタの各記憶位置
に対応してマスク情報を格納するマスクレジスタ
とを設け、該マスクレジスタのマスク情報が第１
状態の場合には主記憶装置から読み出したデータ
をそのままベクトルレジスタの対応する記憶位置
に転送し、第２状態の場合は、その前に転送して
前記セーブレジスタに退避しておいた同じデータ
をベクトルレジスタの対応する記憶位置に転送す
ることを特徴とするベクトル処理装置。