JPH0731669B2

JPH0731669B2 - ベクトル・プロセツサ

Info

Publication number: JPH0731669B2
Application number: JP61076528A
Authority: JP
Inventors: 泰弘稲上; 貴之中川; 由子玉置; 重夫長島
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1986-04-04
Filing date: 1986-04-04
Publication date: 1995-04-10
Anticipated expiration: 2010-04-10
Also published as: US4881168A; DE3750143T2; DE3750143D1; EP0240032B1; JPS62233884A; EP0240032A2; EP0240032A3

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、複数のデータから成るベクトルデータを一括
処理する命令を有するベクトルプロセツサに係り、主記
憶とプロセツサ間で圧縮／伸長を伴うベクトルデータの
効率良い転送方式に関する。

〔従来の技術〕

一連のベクトルデータに対して一括して処理を行うベク
トル命令を有するベクトルプロセツサが開発され、主に
科学技術計算の高速処理を目的として広く利用されてい
る。ベクトルプロセツサではベクトル命令はパイプライ
ンで処理されるのが普通である。

近年、条件文処理をベクトル処理（FORTRANプログラム
で、IF文を含むDOループをベクトル処理する）の対象と
するベクトルプロセツサが開発されている。ベクトルプ
ロセツサの条件文処理方式は、情報処理学会第25回全国
大会講演番号6F−６「ベクトルプロセツサの効率的条件
文ベクトル化方式」に示されている条件文を効率良くベ
クトル処理するには、条件が成立せず演算する必要のな
い演算や、条件が成立せず主記憶へ格納する必要のない
データの不必要な処理を避けることが重要である。例え
ば第２図に示すFORTRANのプログラムをベクトル処理す
ることを考えた場合、配合列ＢのＩ番目の要素Ｂ（Ｉ）
が０より大きいときだけ、配列ＢのＩ番目の要素Ｂ
（Ｉ）の三角関数sinの値を計算して配列ＡのＩ番目の
要素Ａ（Ｉ）に格納すればよい。三角関数sinの計算は
あらかじめ用意されているサブルーチンを用いて行われ
るが、サブルーチンへの引数の受渡し（第２図の場合は
配列Ｂ）は主記憶を介して行われるのが一般的である。
従つて、第２図のプログラムを効率良く処理するには、
IF文の条件Ｂ（Ｉ）＞０が成立するＩについてのみＢ
（Ｉ）を主記憶に格納し、sinを計算するサブルーチン
に引数として渡し、計算された値をＡ（Ｉ）に格納すれ
ばよい。この一連の処理をベクトル処理するために、日
立製作所のベクトルプロセツサHITAC S−810では次のよ
うなベクトル命令が用意されている。

（１）伸長ロード命令（Load Expansion命令、VLE命
令）条件判定結果を保持するベクトルマスクレジスタ（VM
R）の内容に従い、VMRの内容が１に対応する要素だけを
主記憶からロードする。

（２）圧縮ストア命令（Store Compress命令、VSTC命
令） VMRの内容が１に対応する要素だけを主記憶に格納す
る。

以上のような伸長／圧縮ロード・ストア命令を用いて第
２図のプログラムを処理する様子を示したのが第３図で
ある。第３図の例では、例えばマスクの値が１であるの
は３要素だけであり、三角関数sinの計算は配列Ｂ全体
の100要素ではなく、マスクの値が１である要素に対応
する３要素だけに対して行われることになり、効率良い
処理が実現できる。

従来のベクトルプロセツサにおける伸長ロード命令ある
いは圧縮ストア命令の処理方式は、特開昭58−214963に
示されている。単純なベクトルロード命令やベクトルス
トア命令と比べて、伸長ロード命令や圧縮ストア命令に
特有の処理は次の点である。

（１）VMR（ベクトルマスクレジスタ）の内容を参照す
る。

（２）主記憶上のデータのアドレス更新が、単純なベク
トルロードやベクトルストアの場合は１要素を処理する
ことに行われるが、伸長ロードや圧縮ストアではVMRの
内容が１に対応する要素を処理したときだけ更新され
る。

〔発明が解決しようとする問題点〕

ベクトルプロセツサにおいては、ベクトル命令はパイプ
ラインにて高速処理されるが、さらに高速化をはかるた
めの手法として要素並列処理を採用されている。要素並
列処理とは、ベクトル命令をパイプラインで処理する演
算パイプやロード／ストアパイプを多重構成し、１マシ
ンサイクルが複数個のベクトル要素を同時にパイプライ
ン処理するものである。要素並列処理を採用したベクト
ルプクロセツサとしては、日本電気株式会社のSXシステ
ムがあり、その概要は、情報処理学会第30回全国大会、
講演番号4B−９「多重並列パイプライン方式によるベク
トル計算機」に示されている。

要素並列処理は、ベクトル命令で行われる演算が基本的
にベクトル要素間のインタラクシヨンがないことを利用
し、同一構造のパイプラインを単純に多重化して高速化
をはかろうとするものである。

しかしながら、従来の要素並列型のロード／ストアパイ
プを用いて先述の伸長ロード命令あるいは圧縮ストア命
令を処理しようとしたとき、不都合が生じる。すなわ
ち、要素並列型のロード／ストアパイプでは、多重構成
となつている各回路（これをサブ・パイプと呼ぶことに
する）のアドレス計算回路は互いに独立でインタラクシ
ヨンを持たない。通常のベクトルロード命令やベクトル
ストア命令を処理するときは、要素並列型パイプの各サ
ブパイプのアドレス更新値は一定であり（例えば４要素
並列処理するならば、各サブパイプについては、１要素
を処理するたびに４要素分アドレス更新してやればよ
い）、各サブパイプが独立であつても不都合は生じな
い。しかしながら、このような要素並列型のロード・ス
トアパイプで先に示したような伸長ロード命令や圧縮ス
トア命令を実行しようとするとき、従来の方式では処理
できない。理由は次の如くである。すなわち、伸長ロー
ドや圧縮ストアを処理するときのアドレス更新処理は、
ベクトルマスクレジスタの値が１に対応する要素を処理
したときだけであり、あるサブパイプについて見た場
合、アドレス計算回路の更新値が一定でない。さらに、
アドレス計算の更新はサブパイプ単独では判定できず、
他のサブパイプでベクトルマスクレジスタの内容が１に
対応する要素が何個であるかということにより、毎回更
新値を変更することができなければならないが、各サブ
パイプは独立構成が基本の従来の要素並列型パイプでは
処理できない。

これを解決する方法として、単純なロードやストアは要
素並列処理するが、伸長ロードや圧縮ストアは１個のサ
ブパイプのみを使い、要素並列処理をしないという考え
方がある。しかしこの方式は、要素並列処理しないとい
うことで性能的に得策でないだけでなく、もともと各サ
ブパイプ単位に独立に設けられているストアデータ用の
データ線やマスクデータ用のデータ線を１個のサブパイ
プに集中せねばならず、回路構成上もLSiやボードの信
号ピンを多量に使うことになり、得策でない。

本発明の目的は、要素並列型のパイプライン構成を採用
しているベクトルプロセツサにおいて、本来要素並列処
理とはなじまない処理が必要な伸長ロードや圧縮ストア
を、要素並列型のロード・ストアパイプに簡単な回路と
少量のデータ線を追加するだけで、簡便にしかも要素並
列で高速処理する手段を提供することにある。

〔問題点を解決するための手段〕

上記目的は、要素並列構成のロード・ストアパイフに次
の手段を設けることにより達成される。

（１）例えば４要素並列処理といつた１回の要素並列処
理で処理する要素分のベクトルマスクデータをすべての
サブパイプに供給する（ベクトルマスクデータは１要素
に１ビツトであり、すべてのサブパイプに供給しても回
路実現上大きな問題にはならない）。

（２）各サブパイプは、要素並列処理において、自パイ
プの担当する要素に対応するベクオルマスクの値が１の
ときのみメモリ参照要素を出す。

（３）１回の要素並列処理において、自パイプの担当要
素に先行する要素に対応するベクトルマスクの１又は０
の個数を計数する回路を各サブパイプに設ける。

（４）１回の要素並列処理で処理される要素に対応する
ベクトルマスクデータの１の個数を計数する回路を各サ
ブパイプに設ける。

（５）（２）の条件が成立してメモリ参照要求を出すと
き、（３）で計数した値をもとに参照メモリアドレスを
計算する。

（６）（４）で計数した値をもとに、次回の要素並列処
理のためのアドレス更新を行う。

〔作用〕

１回の要素並列処理において、各サブパイプは自分が担
当する要素に対応するベクトルマスクの値が１のときは
主記憶に参照要求を出すが、そのときの参照主記憶アド
レスは、１回の要素並列処理において自パイプが担当す
る要素に先行する要素のベクトルマスクにより決定する
必要があり、前記の手段（３）で先行要素１の個数をカ
ウントして手段（５）で参照主記憶アドレスを生成す
る。また、次回の要素並列処理の準備としての各サブパ
イプのアドレス更新は、今回の要素並列処理でベクトル
マスクが１の要素が何要素であつたかで決定され、手段
（４）を用いて１回の要素並列処理でのベクトルマスク
が１の個数をかぞえ、手段（５）を用い、各サブパイプ
毎にアドレス更新を行う。これにより、伸長ロードある
いは圧縮ストアの処理を要素並列処理で実現することが
できる。

なお、手段（３）と（４），手段（５）と（６）は共有
化あるいは融合化しても差しつかえない。

〔実施例〕

以下、本発明を実施例により詳細に説明する。

第１図は、本発明の一実施例を示すベクトルプロセツサ
の構成を示す図である。

第１図において、１は主記憶、２はロード・ストアパイ
プ、30ないし37（31〜36は図示されていない）はベクト
ルレジスタ群、40ないし47（41〜46は図示されていな
い）はベクトルマスクレジスタ（VMR）群、５は演算パ
イプである。ロード・ストアパイプ２は主記憶とベクト
ルレジスタあるいはベクトルマスクレジスタとの間のデ
ータ転送をパイプラインが高速に処理するものである。
演算パイプ５は、加算や乗算といつた演算をパイプライ
ンで高速に処理するもので、ベクトルレジスタから順次
読み出されるベクトルデータに対して順次演算処理を施
し、結果をベクトルレジスタあるいはベクトルマスクレ
ジスタに順次書込むものである。本実施例では、ロード
・ストアパイプおよび演算パイプは各々１個、ベクトル
レジスタおよびベクトルマスクレジスタはそれぞれ８個
となつているが、これらの個数は本質的な事柄でなく、
便宜上設定した個数である。

ロード・ストアパイプ２は要素並列型構成となつてお
り、本実施例では４要素並列構成で、４個のサブ・ロー
ドストアパイプ20ないし23から構成される。４個のサブ
・ロードストアパイプ20ないし23は各々全く同じ構造で
あり、１マシンサイクルに１要素の割合で主記憶とベク
トルレジスタ／ベクトルマスクレジスタとの間のデータ
転送をパイプラインで処理することができる。従つて、
ロードストアパイプ２全体では１マシンサイクルに４要
素の割合でパイプライン処理する能力をもつ。本実施例
では、サブ・ロードストアパイプ20ないし23がそれぞれ
ベクトルデータの4n,4n＋1,4n＋2,4n＋３（ｎ＝0,1…）
を独立に処理するものとする。

同様に、演算パイプ５も要素並列構成となつていて、４
個のサブ演算パイプ50ないし53から構成される。４個の
サブ演算パイプ50ないし53は各々全く同じ構造であり、
ベクトルレジスタから読み出されたデータに対し１マシ
ンサイクルに１演算の割合で処理し、結果をベクトルレ
ジスタ／ベクトルマスクレジスタに書込むことができる
パイプライン構造の回路である。従つて、演算パイプ全
体では１マシンサイクルに４演算の割合で結果を生成す
ることができる。本実施例では、サブ演算パイプ50ない
し53がそれぞれベクトルデータの4n,4n＋1,4n＋2,4n＋
３（ｎ＝0,1,2…）を独立に処理するものとする。

本実施例では、ロードストアパイプおよび演算パイプの
要素並列度を４としているが、これは本質的な事項では
なく、8,16といつたようにいくつであつても差つかえな
い。

第１図において、60はベクトルアドレスレジスタ（Veet
or Address Register,VAR）群であり、主記憶上にある
ベクトルデータの先頭アドレスを指定するのに用いるレ
ジスタが複数個ある。

第１図において、70はベクトル増分レジスタ（Vector I
ncrement Register,VIR）群であり、主記憶上にあるベ
クトルデータの各要素の間隔を保持するのに用いるレジ
スタが複数個ある。

主記憶上のあるベクトルデータを命令で指定するときに
は、その先頭アドレスおよび要素間隔を保持するVARお
よびVIRを指示する。命令で指定されたVARおよびVIRの
内容はロードストアパイプに送られ、主記憶とベクシル
レジスタ／ベクトルマスクレジスタとの間のデータ転送
において、主記憶上のベクトルデータの各要素のアドレ
ス計算に用いられる。

第１図において、100は選択回路であり、VAR群の中から
命令で指定されたVARを選択し、その内容を、データ線2
00を介してサブ・ロードストアパイプ20ないし23に供給
するものである。

第１図において、110は選択回路であり、VIR群の中から
命令で指定されたVIRを選択し、その内容をデータ線210
を介してサブ・ロードストアパイプ20ないし23に供給す
るものである。

第１図において、120ないし123はスイツチマトリクス回
路であつて、ロード・ストアパイプと任意のベクトルレ
ジスタとの結合関係を命令の処理に応じて実現するもの
である。これらスイツチマトリクス回路はロードストア
パイプの要素並列型構成に対応し、スイツチマトリクス
回路120ないし123はそれぞれベクトルデータの4n,4n＋
1,4n＋2,4n＋３（ｎ＝0,1,2…）を独立に処理するもの
である。

第１図において、124ないし127も、同様に、スイツチマ
トリクス回路であつて、演算パイプと任意のベクトルレ
ジスタとの結合関係を命令の処理に応じて実現するもの
である。これらスイツチマトリクス回路は演算パイプの
要素並列型構成に対応し、スイツチマトリクス回路124
ないし127はそれぞれベクトルデータの4n,4n＋1,4n＋2,
4n＋３（ｎ＝0,1,2…）を独立に処理するものである。

第１図において、130ないし133はスイツチマトリクス回
路であつて、ロード・ストアパイプと任意のベクトルマ
スクレジスタとの結合関係を命令の処理に応じて実現す
るものである。これらスイツチマトリクス回路はロード
ストアパイプの要素並列型構成に対応し、スイツチマト
リクス回路130ないし133はそれぞれベクトルマスクデー
タの4n,4n＋1,4n＋2,4n＋３（ｎ＝0,1,2…）を独立に処
理するものである。

第１図において、134ないし137も、同様に、スイツチマ
トリクス回路であつて、演算パイプと任意のベクトルマ
スクレジスタとの結合関係を命令の処理に応じて実現す
るものである。これらのスイツチマトリクス回路は演算
パイプの要素並列型構成に対応し、スイツチマトリクス
回路134ないし137はそれぞれベクトルマスクデータの4
n,4n＋1,4n＋2,4n＋３（ｎ＝0,1,2…）を独立に処理す
るものである。

第１図において、220ないし223はアドレスデータ線であ
つて、サブ・ロードストアパイプ20ないし23から主記憶
参照要求が出るときに、参照アドレスを送出するもので
ある。

第１図において、230ないし233はデータ線であり、それ
ぞれサブ・ロードストアパイプ20ないし23と主記憶との
間を結合し、ロードされるデータあるいはストアするデ
ータを転送するものである。

第１図において、240ないし243はデータ線であつて、そ
れぞれサプ・ロードストアパイプ20ないし23とスイツチ
マトリクス回路120ないし123との間を結合し、ロードス
トアパイプとベクトルレジスタとの間のデータ転送に用
いられる。

第１図において、250ないし253はデータ線群であつて、
それぞれスイツチマトリクス回路124ないし127とサブ演
算パイプ50ないし53との間を結合する。データ線群250
ないし253は、ベクトルレジスタから演算パイプへのデ
ータの転送および演算パイプからベクトルレジスタへの
演算結果の転送に使用される。

第１図において、260ないし263は信号線であつて、ベク
トルマスクレジスタの内容をロードストアパイプに転送
するためのものである。信号線260ないし263は要素並列
型構成に対応してはいるが、260ないし263のいずれもす
べてのサブ・ロードストアパイプ20ないし23に縮合され
ている。

第１図において270ないし273は信号線であつて、ベクト
ルマスクレジスタと演算パイプとの間でベクトルマスク
データを転送するのに使用される。信号線270ないし273
は要素並列型構成に対応しており、それぞれスイツチマ
トリクス回路134ないし137とサブ演算パイプ50ないし53
との間を結合する。

次に、本発明の特徴であるサブ・ロードストアパイプの
構造について述べる。

第１図において、300,301,302はレジスタ、303は選択回
路、304は参照アドレス計算部、305はアドレス更新部、
306はマスクデータ計数部、307は先行マスクデータ計数
部、308は参照要求生成部である。

レジスタ300には、命令の開始時データ線210を介して送
られてくるVIRの内容がセツトされ、その命令の処理が
終了するまで保持される。

選択回路303は、命令の開始時、データ線200を介して送
られてくるVARの値、およびデータ線210を介して送られ
てくるVIRの値から、 VAR＋VIR×ｎ（ｎ＝0,1,2,3）を計算して、レジスタ301にセツトする。ここで、上式
の乗算処理は、倍数ｎが0,1,2,3のいずれかであるの
で、シフトおよび簡単な加算で実現できる。ｎの値は各
サブ・ロードストアパイプ対応に固定であり、サブ・ロ
ードストアパイプ20はｎ＝０、サブ・ロードストアパイ
プ21はｎ＝１、サブ・ロードストアパイプ２はｎ＝２、
サブ・ロードストアパイプ23はｎ＝３である。この処理
を行うことにより、命令の開始時、各サブ・ロードスト
アパイプのレジスタ301には、各サブ・ロードストアパ
イプが最初に処理すべきベクトル要素データの主記憶ア
ドレスが保持される。その後、命令の処理が終了するま
での間は、アドレス更新部305の出力が選択され、ベク
トル要素データの処理がなされるたびに、次に処理され
るべきベクトル要素データの主記憶アドレスである更新
されたアドレス値がレジスタ301にセツトされる。

マスクデータ計数部306の動作は次の如くである。すな
わち、伸長ロード／圧縮ストア以外の処理をするとき
は、常に値４を出力する。伸長ロードあるいは圧縮スト
アを処理するときには、信号線260ないし263を介して送
られてくるベクトルマスクデータ４要素分を調べ、ベク
トルマスクデータの値が１である個数を計数して出力す
る。出力される値は、0,1,2,3のいずれかである（この
値を、以下MCNTと略す）。

先行マスクデータ計数部307の動作は次の如くである。
すなわち、伸長ロード／圧縮ストア以外の処理をすると
きは、常に値０を出力する。伸長ロードあるいは圧縮ス
トアを処理するときには、１回の要素並列処理（本実施
例では４要素並列）において、各サブ・ロードストアパ
イプが処理を担当するベクトル要素に先行するベクトル
要素に対応するベクトルマスクデータを調べ、その値が
０である個数を計数して出力する（この値を、以下PMCN
Tと略す）。サブ・ロードストアパイプ20は、先行する
ベクトル要素がないので、PMCNTとして値０を出力す
る。サブ・ロードストアパイプ21は、先行するベクトル
要素に対応するベクトルマスクデータが送られてくるデ
ータ線260を調べ、値が０ならばPMCNTとして１、そうで
なければ０を出力する。同様に、サブ・ロードストアパ
イプ22は、先行するベクトル要素に対応するベクトルマ
スクデータが送られてくるデータ線260および261を調
べ、その値が０である個数（0,1,2のいずれか）を計数
して、その値をPMCNTとして出力する。サブ・ロードス
トアパイプ23は、先行するベクトル要素に対応するベク
トルマスクデータが送られてくるデータ線260,261およ
び262を調べ、その値が０である個数（0,1,2,3のいずれ
か）を計数して、その値をPMCNTとして出力する。

参照アドレス計算部304は、主記憶に参照要求を出すと
きに、主記憶上のどのアドレスを参照するかを計算し、
アドレスを生成するものであり、動作は次の如くであ
る。すなわち、レジスタ301の出力（これをWDARと記述
する）、レジスタ300の出力（これをWVIRと記述す
る）、および先行マスクデータ計数部307の出力PMCNTか
ら WVAR−WVIR×PMCNT を計算する。

アドレス更新部305は、一回の要素並列処理が終了し、
次回の要素並列処理のためにアドレス更新を行うもの
で、動作は次の如くである。すなわち、レジスタ301の
出力WVAR、レジスタ300の出力WVIR、およびマスクデー
タ計数部306の出力MCNTから、 WVAR＋WVIR×MCNT を計算し、選択回路303を経由して、レジスタ301にセツ
トする。

参照要求生成部308は、ベクトル要素データが１個処理
されるときに、主記憶に参照要求を出すものであるが、
伸長ロードや圧縮ストアなどベクトルマスクデータを参
照する命令を処理する場合は、ベクトルマスクデータに
対応するベクトル要素が処理されるときだけ、主記憶へ
の参照要求を出す。ベクトルマスクデータはレジスタ30
2より与えられる。

以上に示したような本発明の実施例のロードストアパイ
プにおいて、（１）マスクデータ計数部306、（２）先
行マスクデータ計数部307、（３）伸長ロードあるいは
圧縮ストアの処理における参照アドレス計算部304およ
びアドレス更新部305のマスクデータ計算部306および先
行マスクデータ計数部307の出力を用いた処理、を除く
部分は、本発明を使用しないベクトルプロセツサのロー
ドストアパイプにおいても、基本部分として備わつてい
るものである。また、本発明で特徴的な上述の３点は、
実際に回路を構成した場合の規模は小さく従来のベクト
ルプロセツサのロードストアパイプに小規模な回路を付
加したという性格が強い。

以上に説明したような本発明の実施例におけるロードス
トアパイプにより、伸長ロードあるいは圧縮ストアがど
のように処理されるかを次に示す。

その前に、第４図を用いて、通常の単純なロードあるい
はストアがどのように処理されるかをまず示す。第４図
に表において、横欄は第１図のサブ・ロードストアパイ
プ20ないし23の動作を示すもので、各サブロードストア
パイプ単位に次の事項が示されている。すなわち、レジ
スタ301の出力であるWVARの値、アドレス線230ないし23
3を介して送出される主記憶参照時の参照する記憶アド
レス、およびデータ線220ないし223を介して実際に参照
要求が出されたかどうかの３点である。レジスタ301の
出力であるWVARの値および参照する記憶アドレスは、説
明を簡略化するために、実際のアドレスではなく、何番
目のベクトル要素であるかが示してある。また、参照要
求が出たかどうかについては、参照要求が出る場合には
○印、出ない場合には×印でそれを示している。一方、
第４図の表の縦欄は、要素並列処理の順次を示してい
る。第１図に示した本発明の実施例におけるベクトルプ
ロセツサでは、処理は４要素並列であるから、１個の欄
に対応する１回の要素並列処理では、４要素の同時処理
を行なう。第４図に示した例は単純なロードやストアの
場合であるため、（１）第１図のマスクデータ計数部306はMCNTとして常
に値４を出力する。

（２）第１図の先行マスクデータ計数部307は、PMCNTと
して常に値を０を出力する。

（３）ベクトルマスクデータを参照しないということから、１回の要素並列処理で４要素分の参照
要求が出され、かつ各サブロードストアパイプのレジス
タ301は、４要素分（サブロードストアパイプ20ならば
０→４）一律に更新される。２回目以降の要素並列処理
においても同様に処理が進んでいく。

次に、第５図により、伸長ロードあるいは圧縮ストアを
処理するときの各サブロードストアパイプの動きを、第
４図と同様の形式により説明する。

第５図において、ベクトルマスクデータとして示されて
いるビツト列は、第５図の処理例のベクトルマスクレジ
スタの内容であり、左から順に第０番要素，第１番要
素，…に対応する。このようなベクトルマスクデータの
下で、例えば主記憶上のベクトルデータをベクトルレジ
スタ上に伸長する伸長ロードを行つた場合の様子を第６
図に示す。第６図からわかるように、第１回目の要素並
列処理においては、第０要素，第１要素，第２要素，第
３要素に対応する参照要求をそれぞれ第１図のサブ・ロ
ードストアパイプ20,21,22,23から、第２図目の要素並
列処理においては、第４要素，第５要素，第６要素に対
応する参照要求をそれぞれサブ・ロードストアパイプ2
0,22,23から、第３回目の要素並列処理においては、第
７要素に対応する参照要求をサブ・ロードストアパイプ
22から、第４回目の要素並列処理においては、第８要
素，第９要素に対応する参照要求をサブ・ロードストア
パイプ21,23からそれぞれ出す必要があることがわか
る。

第５図において、第１回目の要素並列処理を行うにあた
つて、サブ・ロードストア回路20ないし23のレジスタ30
1には、最初に処理すべき要素0,1,2,3がセツトされてい
る。第１回目の要素並列処理に対応するベクトルマスク
データはすべて値が１であり、サブ・ロードストアパイ
プ20ないし23のいずれも参照要求を出し、また各サブ・
ロードストアパイプの先行マスクデータ計数部307が生
成する。先行マスクデータの値が０である個数は０個で
あり、サブロードストアパイプ20ないし23の参照アドレ
ス計算部304が生成する値はそれぞれ第０要素，第１要
素，第２要素，第３要素に対するものであり、アドレス
線230ないし233を介して主記憶に送られる。マスクデー
タ計数部306はマスクデータの値が１である個数４を出
力しており、サブ・ロードストアパイプ20ないし23のレ
ジスタ301はアドレス更新部305によりそれぞれ０→4,1
→5,2→6,3→７に更新される。第２回目の要素並列処理
では、サブ・ロードストアパイプ20ないし23の先行マス
クデータ計数部307が出力するPMCNTはそれぞれ0,0,1,1
であり、参照アドレス計算部304が生成する主記憶アド
レスはそれぞれ第４要素，第５要素，第５要素，第６要
素である。一方、参照要求が出るのはサブ・ロードスト
アパイプ20,22,23の３個であり、これにより、第４要
素，第５要素，第６要素が正しく参照される。また、各
サブ・ロードストアパイプのマスクデータ計数部306はM
CNTとして値３を出力し、サブ・ロードストアパイプ20
ないし23のレジスタ301はそれぞれ４→7,5→8,6→9,7→
10と更新される。第３回目の要素並列処理においては、
サブ・ロードストアパイプ20ないし23の先行マスクデー
タ計数部307が出力するPMCNTはそれぞれ0,1,2,2であ
り、参照アドレス計算部304が生成する主記憶アドレス
はそれぞれ第７要素，第７要素，第７要素，第８要素で
ある。一方参照要求が出るのはサブ・ロードストアパイ
プ22だけであり第７要素が正しく参照される。また、各
サブ・ロードストアパイプのマスクデータ計数部306はM
CNTとして値１を出力し、サブ・ロードストアパイプ20
ないし23のレジスタ301はそれぞれ７→8,8→9,9→10,10
→11と更新される。第４回目の要素並列処理においても
同様の処理が行われ、第５図に示すように、第８要素，
第９要素が正しく参照される。

以上示したように、第１図に示した実施例のベクトルプ
ロセツサにより、伸長ロードあるいは圧縮ストアの処理
が要素並列処理で高速かつ効率よく処理される。

また、第１図に示した本発明の実施例において、選択回
路303,参照アドレス計算部304,マスク，先行マスクデー
タ計数部307の機能を、前述とは別の次のような内容に
することにより、別の実施例を考えることもできる。

選択回路303は、命令の開始時、データ線200を介して送
られてくるVARの値を選択して、レジスタ301にセツトす
る。その後命令の処理が終了するまでの間は、アドレス
更新部305の出力が選択され、ベクトル要素データの処
理がなされるたびに更新される。

先行マスクデータ計数部307の動作は次の如くである。
即ち、伸長ロード／圧縮ストア以外の処理をするとき
は、固定値を出力する。固定値は各サブ・ロードストア
パイプによりあらかじめ定められており、サブ・ロード
ストアパイプ20は０、サブ・ロードストアパイプ21は
１、サブ・ロードストアパイプ22は２、サブ・ロードス
トアパイプ23は３である。伸長ロードあるいは圧縮スト
アを処理するときには、１回の要素並列処理において、
各サブ・ロードストアパイプが処理を担当するベクトル
要素に先行するベクトル要素に対応するベクトルマスク
データを調べ、その値が１である個数を計数して出力す
る。

参照アドレス計算部304の動作は次の如くである。すな
わち、レジスタ301の出力WVAR、レジスタ300の出力WVIR
および先行マスクデータ計数部307の出力PMCNTから、 WVAR＋WVIR×PMCNT を計算する。

以上のように選択回路303、参照アドレス計算部304、先
行マスクデータ計数部307の機能をもたせた場合の単純
なロードやストアの処理、および伸長ロードあるいは圧
縮ストアを処理するときの要素を第４図および第５図に
対比させて、それぞれ第７図，第８図に示す。

第７図，第８図と第４図，第５図との違いは、第７図，
第８図の場合は、１回の要素並列処理における第4n要素
（ｎ＝0,1,2,…）を基準に、各サブ・ロードストアパイ
プが、自分が担当する要素のアドレスをそれに加えて求
めているのに対し、第４図，第５図では、各サブ・ロー
ドストアパイプが自分が担当する要素の主記憶アドレス
をもつており、伸長ロードあるいは圧縮ストアのとき、
ベクトルマスクデータの値により、そのアドレスを減じ
る必要があるかどうかを検出して処理しているところに
あるが、基本的な方式は同じである。

第８図の場合も、第５図の場合と同様に、第１回目の要
素距離では、第０要素，第１要素，第２要素，第３要素
が、第２回目の要素並列処理では第４要素，第５要素，
第６要素が、第３回目の要素並列処理では第７要素が、
第４回目の要素並列処理では第８要素，第９要素が所定
のサブ・ロードストアパイプから正しく参照され、要素
並列で処理が行われている。

〔発明の効果〕

以上に説明したように、本発明によれば、要素並列型の
パイプライン構成を採用しているベクトルプロセツサに
おいて、要素並列型パイプラインを構成するサブ・パイ
プライン間の独立性を基本的にそこなうことなく、ロー
ドストアを処理するパイプラインに簡単な回路を追加す
るだけで、ベクトル要素間にインタラクシヨンのある伸
長ロードや圧縮ストアを要素並列で高速に処理すること
ができるという効果がある。

【図面の簡単な説明】

第１図は本発明の一実施例を示すベクトルプロセツサの
構成図、第２図の伸長ロード／圧縮ストアが効果的な例
を示すFORTRANプログラム、第３図は伸長ロード／圧縮
ストアの概念を示す図、第４図は第１図の実施例のベク
トルプロセツサの単純なロード又はストアの処理の流れ
を説明する図、第５図は第１図の実施例のベクトルプロ
セツサにおける伸長ロード又は圧縮ストアの処理の流れ
を説明する図、第６図は伸長ロードの具体例を説明する
図、第７図は第１図の実施例の別案により単純なロード
又はストアを処理する様子を示す図、第８図は第１図の
実施例の別案により伸長ロード又は圧縮ストアを処理す
るときの流れを示す図である。１……主記憶、２……ロードストアパイプ、20〜23……
サブ・ロードストアパイプ、30〜37……ベクトルレジス
タ、40〜47……ベクトルマスクレジスタ、304……参照
アドレス計算部、305……アドレス更新部、306……マス
クデータ計数部、307……先行マスクデータ計数部、308
……参照要求生成部。

───────────────────────────────────────────────────── フロントページの続き (72)発明者長島重夫東京都国分寺市東恋ヶ窪１丁目280番地株式会社日立製作所中央研究所内 (56)参考文献特開昭57−60461（ＪＰ，Ａ)

Claims

【特許請求の範囲】

【請求項１】同型構造のパイプラインを多重化して演算
パイプラインやロードストアパイプラインを構成し、ベ
クトル処理を数個のベクトル要素まとめて並列に処理す
る要素並列型パイプラインをもつベクトルプロセツサに
おいて、主記憶からのベクトルデータのロードあるいは
主記憶へのベクトルデータのストアを処理するパイプラ
インについて、該パイプラインを構成する多重化された
サブパイプラインの各々に、要素並列処理一回で扱うベ
クトルマスクデータを全て供給する手段と、該ベクトル
マスクデータの値が０あるいは１である個数を計数する
マスクデータ計数手段と、一回の要素並列処理において
各々のサブパイプラインの担当するベクトル要素に発行
するベクトル要素に対応するベクトルマスクデータの値
が１または０の個数を計数する先行マスクデータ計数手
段と、一回の要素並列処理において各々のサブパイプラ
インの担当するベクトル要素に対応するベクトルマスク
データの値がオンのときのみメモリ参照要求の送出を可
能とする手段と、該先行マスクデータ計数手段で計数し
た値をもとに参照する主記憶のアドレスを計算する手段
と、該マスクデータ計数手段で計数した値をもとに次回
の要素並列処理のためのアドレス更新を行う手段とを設
け、主記憶上のベクトルデータをベクトルマスクデータ
に従つて伸長してロードする処理あるいはベクトルデー
タをベクトルマスクデータに従つて圧縮して主記憶にス
トアする処理を、数個の要素まとめて要素並列処理する
ことを特徴とするベクトルプロセツサ。