JPH07325805A

JPH07325805A - ベクトル処理装置

Info

Publication number: JPH07325805A
Application number: JP6117784A
Authority: JP
Inventors: Makoto Komata; 誠小俣
Original assignee: NEC Computertechno Ltd
Current assignee: NEC Computertechno Ltd
Priority date: 1994-05-31
Filing date: 1994-05-31
Publication date: 1995-12-12
Anticipated expiration: 2013-05-18
Also published as: DE69520707T2; EP0686922A1; CA2150518C; AU691593B2; AU2040195A; CA2150518A1; DE69520707D1; EP0686922B1; JP2752902B2

Abstract

(57)【要約】【目的】ベクトル要素長や命令種別によりデータバッ
ファの使用形態を変えてベクトル長にかかわらずに少な
いハードウェア量で最大の性能効果を出す。【構成】ベクトル処理装置８００は、ベクトル処理部
７００と、ロードデータバッファ群１００と、ロードデ
ータバッファ格納部２００と、ロードデータバッファ読
出し部３００を持つ。ロードデータバッファ群１００
は、各ロードデータバッファ１１０，１２０内に使用可
能なワード位置，ワード数を示す複数の仮想バッファを
設けて、仮想バッファ番号を設定する。ロードデータバ
ッファ格納部２００は、命令種別から有効データ幅を認
識し、データ幅よりも十分小さいときには、データ幅に
合わせて複数のロードデータを要素圧縮して格納する。
ロードデータバッファ読出し部３００は、命令種別から
有効データ幅を認識し、圧縮が行われた命令であれば読
出したデータを元の複数の要素に展開する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、ベクトル処理装置に関
し、特に、ベクトルメモリアクセス時に中間データバッ
ファを使用するベクトル処理装置に関する。

【０００２】

【従来の技術】メモリ共有型のベクトル処理装置は、並
列化が進むに伴い、メモリ容量が多くなり、実装上の問
題からメモリとの物理的な距離が遠くなる傾向にあり、
メモリアクセス時間も長くなって来ている。

【０００３】ベクトル処理装置は、本来、大量のデータ
を一度に連続して演算処理することにより、高速に演算
処理を実施することができる装置であって、一般には、
演算オペランドをメモリからベクトルレジスタにロード
して、ベクトルレジスタから演算器に演算オペランドを
供給して演算を実行し、結果を再びベクトルレジスタに
格納し、このベクトルレジスタの内容をメモリに格納す
るという処理を行っている。

【０００４】図９は従来のベクトル処理装置で直接メモ
リと転送をしてベクトル演算を行う動作の一例を示すタ
イムチャートである。上記の処理では、ベクトルロード
命令ＶＬＤのメモリからベクトルレジスタへのロード，
ベクトルストア命令ＶＳＴのベクトルレジスタからメモ
リへのストアの転送を直接に行うと、従来のベクトル処
理装置は、図９に示すように、演算結果を保証するため
には、順番通り逐次にこれらの処理を行う必要があり、
メモリアクセスの時間が大きくなるにつれて、演算器の
使用のためにメモリアクセスの待ち時間を発生してその
演算器が遊んでしまうので、ベクトル処理装置の能力を
最大限にまで引出すことができないこととなる。

【０００５】また、ベクトル処理装置は、並列化されて
いることにより、メモリアクセスで処理装置間の競合が
発生し、必ずしも最小のメモリアクセス時間でデータが
戻ることも保証されないので、上記の現象は、益々発生
し易くなってきている。

【０００６】従来のベクトル処理装置は、この問題を解
決するために、ベクトルレジスタとメモリとの間に中間
バッファを設けて、メモリアクセス処理とベクトル演算
処理とを切放し、データロードを先行して実行できるよ
うにし、データストアをした後にメモリアクセスの実行
の可否に関わらず後続のベクトル演算処理を継続して実
行できるように改善されて来ている。

【０００７】図１０は従来のベクトル処理装置の一例を
示すブロック図である。この図１０内の従来のベクトル
処理装置１８００は、クロスバ１７１０やベクトルレジ
スタ１７２０，１７２１および演算器１７３０を有する
ベクトル処理部１７００と、ロードデータバッファ格納
部１２００，ロードデータバッファ読出し部１３００を
伴ってベクトル処理部１７００に送るベクトルデータを
格納するロードデータバッファ群１１００と、さらに、
ストアデータバッファ格納部１５００，ストアデータバ
ッファ読出し部１６００を伴ってベクトル処理部１７０
０の演算結果を格納するストアデータバッファ群１４０
０とを有している。

【０００８】そして、ベクトルのロードデータを受取る
ロードデータバッファ群１１００のロードデータバッフ
ァ１１１０，１１２０は、一つの命令による最大の要素
数分のデータを受取れる長さを有して、その個数は、命
令が発行されていてデータが戻らないのでベクトルレジ
スタ１７２０，１７２１に格納できない可能性のある命
令数により決定している。

【０００９】また、ストアデータを蓄えるストアデータ
バッファ群１４００のストアデータバッファ１４１０，
１４２０は、同様に一つの命令が使用する最大の要素数
分のデータを受取れる長さを有して、その個数は、スト
ア命令が実行され格納されたデータがメモリ１９００に
格納されるまでの間に、次に実行される可能性のあるス
トア命令数によって決定している。

【００１０】図１１はベクトル有効長の違いによるデー
タバッファの必要個数の違いを表すためのタイムチャー
トである。図１１の上部には、ベクトル有効長が８のと
きの動作の一例を示している。ベクトル有効長が８のと
きには、ベクトル演算が実行できるまでの間に実行を開
始することができるベクトルロード命令ＶＬＤの数は４
ヶである。また、図１１の下部には、ベクトル有効長が
４のときの動作の一例を示している。ベクトル有効長が
４のときには、ベクトル演算が実行できるまでの間に実
行を開始することができるベクトルロード命令ＶＬＤは
７ヶとなる。

【００１１】従って、ベクトル有効長が８のときには、
中間のロードデータバッファは４ヶがあれば足りるけれ
ども、ベクトル有効長が４のときには、中間のロードデ
ータバッファは７ヶが必要になる。

【００１２】次に、命令列の一例を用いてそれらの命令
の動作および実行結果について説明する。ここでは説明
のため、ロードデータバッファおよびストアデータバッ
ファの数をそれぞれ２ヶ、各々の容量を８バイト×６４
ワード、命令の種別として８バイトロード命令をＶＬ
Ｄ，上位４バイトロード命令をＶＬＤＵ，下位４バイト
ロード命令をＶＬＤＬ，８バイトストア命令をＶＳＴ，
上位４バイトストア命令をＶＳＴＵ，下位４バイトスト
ア命令をＶＳＴＬ，固定小数点加算をＶＡＤＤ，さらに
浮動小数点加算をＶＦＡＤとし、これらの命令が取り得
る最大のベクトル要素数を６４としている。また、ベク
トルレジスタをＶ０，Ｖ１としている。

【００１３】そこで、下記命令列のベクトル有効長ＶＬ
を１６として、次の動作を行わせている。

【００１４】 (1) ＶＬＤＬＶ０ ← ＭＥＭ (2) ＶＬＤＬＶ１ ← ＭＥＭ (3) ＶＡＤＤＶ０ ← Ｖ０＋Ｖ１ (4) ＶＳＴＬＭＥＭ ← Ｖ０ (5) ＶＬＤＵＶ０ ← ＭＥＭ (6) ＶＬＤＵＶ１ ← ＭＥＭ (7) ＶＦＡＤＶ０ ← Ｖ０＋Ｖ１ (8) ＶＳＴＵＭＥＭ ← Ｖ０上記の命令列を番号順に実行するようにプログラムされ
ている場合に、高速化の手段としてベクトルレジスタの
状態に関わらずにメモリアクセスを行い、演算結果が保
証される形でロードデータバッファ並びにストアデータ
バッファなどの中間バッファを使用して命令実行順序の
入替えを行っている。

【００１５】すなわち、メモリアクセスを基準にする
と、 (1) ＶＬＤＬＶ０ ← ＭＥＭ (2) ＶＬＤＬＶ１ ← ＭＥＭ (5) ＶＬＤＵＶ０ ← ＭＥＭ (6) ＶＬＤＵＶ１ ← ＭＥＭ (3) ＶＡＤＤＶ０ ← Ｖ０＋Ｖ１ (4) ＶＳＴＬＭＥＭ ← Ｖ０ (7) ＶＦＡＤＶ０ ← Ｖ０＋Ｖ１ (8) ＶＳＴＵＭＥＭ ← Ｖ０の順番に実行されるのが理想的であるけれども、前提条
件としてはロードデータバッファの個数が２ヶしかない
ので、 (1) ＶＬＤＬＶ０ ← ＭＥＭ (2) ＶＬＤＬＶ１ ← ＭＥＭ (3) ＶＡＤＤＶ０ ← Ｖ０＋Ｖ１ (5) ＶＬＤＵＶ０ ← ＭＥＭ (4) ＶＳＴＬＭＥＭ ← Ｖ０ (6) ＶＬＤＵＶ１ ← ＭＥＭ (7) ＶＦＡＤＶ０ ← Ｖ０＋Ｖ１ (8) ＶＳＴＵＭＥＭ ← Ｖ０という順序になる。

【００１６】図１２は従来のベクトル処理装置により２
個のロードデータバッファを用いてベクトル演算を行う
動作の一例を示すタイムチャートである。そして、図１
３は従来のベクトル処理装置によるロードデータバッフ
ァ，ストアデータバッファの使用状況の一例を示す図で
ある。まず、(1) ，(2) のベクトルロード命令には、そ
れぞれ、図１３に示したロードデータバッファ１１１
０，１１２０が割り付けられる。そして、(5) ，(6) の
ベクトルロード命令には、ロードデータバッファ１１１
０，１１２０が２ヶしかないので、図１２に示したよう
に、ロードデータバッファ１１１０，１１２０が再び使
用されるけれども、使用開始のタイミングは、先行して
いる(1) ，(2) のベクトルロード命令による使用が終了
してからとなる。同様にして(4) ，(8) のベクトルスト
ア命令には、ストアデータバッファ１４１０，１４２０
が割り付けられる。

【００１７】そこで、ロードデータバッファ１１１０，
１１２０の数が２ヶであるために、３番目のベクトルロ
ード命令に対してロードデータバッファ１１１０，１１
２０の数が少ないことによる遅れ時間ａが存在すること
となる。この場合に、ロードデータバッファ１１１０，
１１２０，ストアデータバッファ１４１０，１４２０の
使用形態は、ベクトル有効長ＶＬが小さいときには、図
１３に示したように、該ロードデータバッファ１１１
０，１１２０，ストアデータバッファ１４１０，１４２
０内に無駄な領域が多数存在することとなる。

【００１８】このような従来のベクトル処理装置の一例
としては、特公昭６３−４３７８４ベクトルデータ記憶
制御方式がある。

【００１９】

【発明が解決しようとする課題】上述した従来のベクト
ル処理装置では、最適な中間バッファの個数がベクトル
要素長によって異なり、ベクトル要素長が長いときに
は、中間バッファの個数が比較的少なくてもベクトル演
算器に対する効率的な使用が可能になるけれども、ベク
トル要素長が短いときには、中間バッファの個数が多く
なければ、ベクトル演算器の効率的な使用が出来なくな
ってしまう。

【００２０】ところがベクトル要素長はプログラムによ
って異なるために、従来のベクトル処理装置の性能をベ
クトル要素長の如何によらずに十分引き出すためには、
従来のベクトル処理装置は、ロードデータバッファおよ
びストアデータバッファなどの中間データバッファの数
をベクトル要素長の短いケースにあわせて多目に作る必
要が有り、ハードウェア量が増加してしまうという欠点
を有している。

【００２１】

【課題を解決するための手段】第１の発明のベクトル処
理装置は、（Ａ）複数の要素を有するベクトルデータを
持つ複数のベクトルレジスタと、（Ｂ）前記ベクルレジ
スタに接続して、前記ベクルレジスタから受けたベクト
ルデータのベクトル演算を行い、前記ベクルレジスタに
保持させる複数のベクトル演算器と、（Ｃ）メモリと前
記ベクトルレジスタとの中間に接続され、ベクトルロー
ド命令が扱う最大のデータ幅で最大のデータ長分の容量
（ワード数）を有して、ロードデータを前記ベクトルレ
ジスタに転送できるまで一時的に格納する複数のロード
データバッファと、（Ｄ）前記ベクトルレジスタと前記
メモリとの中間に接続され、ベクトルストア命令が扱う
最大のデータ幅で最大のデータ長分の容量を有して、ス
トアデータを前記メモリに転送できるまでの間一時的に
格納する複数のストアデータバッファと、を有するベク
トル処理装置において、（Ｅ）複数個の前記ロードデー
タバッファを有するとともに、個々の前記ロードデータ
バッファ内に使用可能なワード位置および使用可能なワ
ード数を示す複数の仮想バッファを設け、その仮想バッ
ファに全体の前記ロードデータバッファの中でユニーク
になる仮想バッファ番号を設定したロードデータバッフ
ァ群と、（Ｆ）命令種別で異なるロードデータの有効デ
ータ幅を認識し、該有効データ幅が前記ロードデータバ
ッファのデータ幅よりも十分小さいときには、前記ロー
ドデータバッファのデータ幅に合わせて、複数のロード
データを要素圧縮して格納するロードデータバッファ格
納部と、（Ｇ）前記ロードデータバッファ群の中からの
読出しを指定されたデータの有効データ幅を命令種別よ
り認識し、前記ロードデータバッファ格納部により圧縮
が行われた命令であれば読出したデータを元の複数の要
素に展開するロードデータバッファ読出し部と、を備え
て構成されている。

【００２２】また、第２の発明のベクトル処理装置は、
第１の発明に示すベクトル処理装置において、第１の発
明のロードデータバッファ群で、一つの第１の発明のロ
ードデータバッファの中に割付けられた複数の仮想バッ
ファ番号の各々の下位ビットが、前記ロードデータバッ
ファのワードアドレスの上位ビットに一致するように設
定されるとともに、仮想バッファ番号の残りの上位ビッ
トが前記ロードデータバッファ群のそれぞれの前記ロー
ドデータバッファを示す識別子になるように、仮想バッ
ファ番号の各々が設定されることを含んでいる。

【００２３】一方、第３の発明のベクトル処理装置は、
第１の発明に示すベクトル処理装置において、第１の発
明のロードデータバッファ格納部は、各データをロード
するベクトルロード命令の命令種別によって、ロードさ
れるデータの有効データ幅を認識して、前記有効データ
幅が第１の発明のロードデータバッファのデータ幅に一
致する最大のデータ幅であるときに、指示された仮想バ
ッファ番号が示す前記ロードデータバッファ内のワード
アドレスから一要素づつ順次に格納するように書込みア
ドレスを更新し、前記有効データ幅が最大データ幅より
も十分小さいときには、最大データ幅になるようにロー
ドデータの複数の要素数分をまとめて一ワードを構成し
てデータの圧縮を実行し、指示された仮想バッファ番号
が示す前記ロードデータバッファのワードアドレスから
一ワードにまとめるごとに前記ロードデータバッファ内
に格納して書込みアドレスを更新することを含んでい
る。を備えて構成されている。

【００２４】他方、第４の発明のベクトル処理装置は、
第１の発明に示すベクトル処理装置において、第１の発
明のロードデータバッファ読出し部は、読出しを指示さ
れた仮想バッファ番号のアドレスに格納されているデー
タの有効データ幅を命令種別で認識し、一要素が一ワー
ドに格納されているときに、指示された仮想バッファ番
号が示す第１の発明のロードデータバッファに対するワ
ードアドレスから処理する要素数分の読出しサイクルを
連続して行い、複数の要素が一ワードに格納されている
ときには、前記ロードデータバッファの読出しサイクル
を圧縮された要素分に伸長して、読出したデータを要素
ごとに命令種別で決定される本来の有効データ位置に戻
しながら読出し動作を行うことを含んでいる。

【００２５】そして、第５の発明のベクトル処理装置
は、（Ａ）複数の要素を有するベクトルデータを持つ複
数のベクトルレジスタと、（Ｂ）前記ベクルレジスタに
接続して、前記ベクルレジスタから受けたベクトルデー
タのベクトル演算を行い、前記ベクルレジスタに保持さ
せる複数のベクトル演算器と、（Ｃ）メモリと前記ベク
トルレジスタとの中間に接続され、ベクトルロード命令
が扱う最大のデータ幅で最大のデータ長分の容量（ワー
ド数）を有して、ロードデータを前記ベクトルレジスタ
に転送できるまで一時的に格納する複数のロードデータ
バッファと、（Ｄ）前記ベクトルレジスタと前記メモリ
との中間に接続され、ベクトルストア命令が扱う最大の
データ幅で最大のデータ長分の容量を有して、ストアデ
ータを前記メモリに転送できるまでの間一時的に格納す
る複数のストアデータバッファと、を有するベクトル処
理装置において、（Ｅ）複数個の前記ストアデータバッ
ファを有するとともに、個々の前記ストアデータバッフ
ァ内に使用可能なワード位置および使用可能なワード数
を示す複数の仮想バッファを設け、その仮想バッファに
全体の前記ストアデータバッファの中でユニークになる
仮想バッファ番号を設定したストアデータバッファ群
と、（Ｆ）命令種別で異なるストアデータの有効データ
幅を認識し、該有効データ幅が前記ストアデータバッフ
ァのデータ幅よりも十分小さいときには、前記ストアデ
ータバッファのデータ幅に合わせて、複数のストアデー
タを要素圧縮して格納するストアデータバッファ格納部
と、（Ｇ）前記ストアデータバッファ群の中からの読出
しを指定されたデータの有効データ幅を命令種別より認
識し、前記ストアデータバッファ格納部により圧縮が行
われた命令であれば読出したデータを元の複数の要素に
展開するストアデータバッファ読出し部と、を備えて構
成されている。

【００２６】また、第６の発明のベクトル処理装置は、
第５の発明に示すベクトル処理装置において、第５の発
明のストアデータバッファ群で一つの請求項５記載のス
トアデータバッファに割付けられた複数の仮想バッファ
番号の各々の下位ビットが、前記ストアデータバッファ
のワードアドレスの上位ビットに一致するように設定さ
れるとともに、その仮想バッファ番号の残りの上位ビッ
トが前記ストアデータバッファ群のそれぞれの前記スト
アデータバッファを示す識別子になるように、仮想バッ
ファ番号の各々が設定されることを含んでいる。

【００２７】一方、第７の発明のベクトル処理装置は、
第５の発明に示すベクトル処理装置において、第５の発
明のストアデータバッファ格納部は、各データをストア
するベクトルストア命令の命令種別によって、ストアさ
れるデータの有効データ幅を認識して、前記有効データ
幅が第５の発明のストアデータバッファのデータ幅に一
致する最大のデータ幅であるときに、指示された仮想バ
ッファ番号が示す前記ストアデータバッファ内のワード
アドレスから一要素づつ順次に格納するように書込みア
ドレスを更新し、前記有効データ幅が最大データ幅より
も十分小さいときには、最大データ幅になるようにスト
アデータの複数の要素数分をまとめて一ワードを構成し
てデータの圧縮を実行し、指示された仮想バッファ番号
が示す前記ストアデータバッファのワードアドレスから
一ワードにまとめるごとに前記ストアデータバッファ内
に格納して書込みアドレスを更新することを含んでい
る。

【００２８】他方、第８の発明のベクトル処理装置は、
第５の発明に示すベクトル処理装置において、第５の発
明のストアデータバッファ読出し部は、読出しを指示さ
れた仮想バッファ番号のアドレスに格納されているデー
タの有効データ幅を命令種別で認識し、一要素が一ワー
ドに格納されているときに、指示された仮想バッファ番
号が示す第５の発明のストアデータバッファに対するワ
ードアドレスから処理する要素数分の読出しサイクルを
連続して行い、複数の要素が一ワードに格納されている
ときには、前記ストアデータバッファの読出しサイクル
を圧縮された要素分に伸長して、読出したデータを要素
ごとに命令種別で決定される本来の有効データ位置に戻
しながら読出し動作を行うことを含んでいる。

【００２９】

【実施例】続いて、本発明の実施例について、図面を参
照して説明する。図１は本発明のベクトル処理装置の一
実施例を示すブロック図である。図１に示した本実施例
のベクトル処理装置８００は、メモリ９００に接続し、
クロスバ７１０やベクトルレジスタ７２０，７２１およ
び演算器７３０を有するベクトル処理部７００と、ロー
ドデータバッファ格納部２００およびロードデータバッ
ファ読出し部３００を伴ってベクトル処理部７００に与
えるベクトルデータを格納するロードデータバッファ群
１００と、ストアデータバッファ格納部５００ならびに
ストアデータバッファ読出し部６００を伴ってベクトル
処理部７００の演算の結果を格納するストアデータバッ
ファ群４００とを有している。

【００３０】図２は図１のロードデータバッファ１１０
の一例を示す構成図である。また、図３は図１のストア
データバッファ４１０の一例を示す構成図である。さら
に、図４はロードデータバッファ１１０，１２０の各バ
ッファ番号に対応するロードデータバッファ１１０，１
２０内でのアクセス可能領域の一例を示す図である。こ
こでは説明のために、各データバッファの数をそれぞれ
ロードデータバッファ１１０，１２０，ストアデータバ
ッファ４１０，４２０の２ヶずつで、各データバッファ
の容量を８バイト×６４ワード、一つのデータバッファ
の中に割り付けられる仮想バッファ番号＃０，＃１，＃
２，〜＃７（以下、単にバッファ＃０，＃１，＃２，〜
＃７という）の数を４ヶ、命令の種別として８バイトロ
ード命令をＶＬＤ，上位４バイトロード命令をＶＬＤ
Ｕ，また下位４バイトロード命令をＶＬＤＬ，８バイト
ストア命令をＶＳＴ，上位４バイトストア命令をＶＳＴ
Ｕ，下位４バイトストア命令をＶＳＴＬ，固定小数点加
算をＶＡＤＤ，また浮動小数点加算をＶＦＡＤとし、こ
れらの命令が取り得る最大のベクトル要素数を６４とし
ている。また、ベクトルレジスタをＶ０，Ｖ１としてい
る。

【００３１】そこで、図２および図３に示すように、一
つの物理的なデータバッファであるロードデータバッフ
ァ１１０およびストアデータバッファ４１０に対して４
つのバッファ＃０，＃１，＃２，＃３を割り付けてい
る。また、図４に示すように、２ヶのロードデータバッ
ファ１１０，１２０に対しては、ロードデータバッファ
１１０にバッファ＃０，＃１，＃２，＃３を割り付け
て、ロードデータバッファ１２０にバッファ＃４，＃
５，＃６，＃７を割り付けている。

【００３２】そして、割り付け方法は色々あるが、ここ
ではバッファを指定する３ビットの最上位ビットがロー
ドデータバッファの識別子となって、残りの下位２ビッ
トがロードデータバッファへ格納する各データの要素番
号の上位指定となってロードデータバッファ上のワード
アドレスになるように設定している。

【００３３】つまり、ここでは一つのデータバッファの
容量を６４ワードとしているので、ワードアドレスは６
ビットで表されているが、ワードアドレスの上位２ビッ
トはバッファの下位２ビットに対応させるとともにワー
ドアドレスの下位４ビットをバッファ内の１６個の各デ
ータの要素番号に対応させている。なお、これらは、ス
トアデータバッファ４１０，４２０についても同様であ
り説明を省略する。

【００３４】従って、図２のバッファ＃０では、ロード
データバッファ１１０のアドレス０から６３の６４ワー
ドが、バッファ＃１では、アドレス１６から６３までの
４８ワードが、バッファ＃２では、アドレス３２から６
３の３２ワードが、バッファ＃３では、アドレス４８か
ら６３までの１６ワードが使用可能になり、それぞれ扱
えるベクトルデータ長が異なっている。なお、バッファ
＃４からバッファ＃７については、ロードデータバッフ
ァ１２０を使用するだけであり、ロードデータバッファ
１２０内の割付は、バッファ＃０，〜＃３と同じにな
る。

【００３５】このように構成されるデータバッファで
は、８バイトロード命令ＶＬＤを実行する場合には、ベ
クトル要素長ＶＬが４９≦ＶＬ≦６４のときはバッファ
＃０，＃４の２ヶしか使用できないが、１≦ＶＬ≦１６
のときは＃０，〜＃７の８ヶを使用することができる。

【００３６】例えば、ＶＬ＝１６でＶＬＤを実行して、
バッファ＃０を使用すると、ロードデータバッファ１１
０のアドレス０，〜１５に格納され、アドレス１６，〜
６３は未使用状態となる。従って、後続のＶＬＤが再び
ＶＬ＝１６であれば、次に、バッファ＃１を用いると、
ロードデータバッファ１１０のアドレス１６，〜３１に
格納される。

【００３７】図５は図１のロードデータバッファ格納部
２００の一例を示したブロック図である。ここでは、図
５を参照することによりロードデータバッファ格納部２
００が、ベクトルのロードを行う動作について説明す
る。なお、図１のストアデータバッファ格納部５００
が、ストアデータ書込み制御部５１０およびストアデー
タ圧縮実行部５２０を有し、ベクトルの演算結果を格納
する動作については、同様であるので説明を省略する。

【００３８】まず、ロードデータバッファ格納部２００
は、メモリ９００から受けたロードデータを上位，下位
に分割して、ロードデータ圧縮実行部２２０内のデータ
受取レジスタ２２１，２２２に入れる。そして、これら
のデータをロードした命令が８バイトロード命令ＶＬＤ
であることをロードデータ書込み制御部２１０の中の書
込み命令種別２１３で判断すると、書込みセレクタ制御
回路２１６による上部書込みセレクタ２２５および下部
書込みセレクタ２２６の制御により、受取った８バイト
データをそのまま書込みレジスタ２２３，２２４の中に
移して、書込みバッファ番号２１１およびデータの要素
番号２１２から書込みアドレス作成回路２１５により書
込みアドレスを作成して書込みアドレスレジスタ２１４
に移し、書込みレジスタ２２３，２２４のデータをロー
ドデータバッファ群１００へ格納している。

【００３９】そして、受取ったデータが上位４バイトロ
ード命令ＶＬＤＵのデータならば、受取レジスタ２２１
の中の上位４バイトのみが有効データであるために、書
込みセレクタ２２５，２２６は，受取りレジスタ２２１
側に切替わり、データの要素番号２１２が偶数であれ
ば、書込みレジスタ２２３にこの有効データを書込み、
奇数のときには、書込みレジスタ２２４にこの有効デー
タを書込んでいる。

【００４０】そこで、２要素が揃ってロードデータバッ
ファ１１０，１２０への８バイトのワード幅の書込みデ
ータができたときに、それを代表する偶数要素の要素番
号を要素数の２で割った数とバッファ番号２１１とから
書込むアドレスを作成して、書込みアドレスレジスタ２
１４にセットして、書込みレジスタ２２３，２２４のデ
ータをロードデータバッファ１１０，１２０に書込んで
いる。

【００４１】また、受取ったデータが下位４バイトロー
ド命令ＶＬＤＬのデータであると、受取レジスタ２２２
の中の下位４バイトのみが有効データであるために、書
込みセレクタ２２５，２２６は，受取りレジスタ２２２
側に切替わり、データの要素番号２１２が偶数であれ
ば、書込みレジスタ２２３にこの有効データを書込み、
奇数のときには、書込みレジスタ２２４にこの有効デー
タを書込んでいる。

【００４２】そこで、２要素が揃ってロードデータバッ
ファ１１０，１２０への８バイトのワード幅の書込みデ
ータができたときに、それを代表する偶数要素の要素番
号を要素数の２で割った数とバッファ番号２１１とから
書込むアドレスを作成して、書込みアドレスレジスタ２
１４にセットして、書込みレジスタ２２３，２２４のデ
ータをロードデータバッファ１１０，１２０に書込んで
いる。

【００４３】図６は図１のロードデータバッファ読出し
部３００の一例を示したブロック図である。ここでは図
６を参照することにより、ロードデータ読出し部３００
が、ロードデータバッファ群１００のデータを読出す動
作について説明する。なお、図１のストアデータ読出し
部６００が、ストアデータ読出し制御部６１０およびス
トアデータ伸長実行部６２０を有して、ストアデータバ
ッファ群４００内からデータを読出す動作については、
同様であるので説明を省略する。

【００４４】最初に、ロードデータバッファ読出し部３
００は、ロードデータ読出し制御部３１０の中の読出し
バッファ番号３１１および読出し要素数カウンタ３１２
から読出しアドレス作成回路３１５により読出しアドレ
スを作成して、ロードデータバッファ群１００に送っ
て、ロードデータバッファ群１００からのデータを読出
してロードデータ伸長実行部３２０内の読出しレジスタ
３２１，３２２にセットして、要素数カウンタ３１２の
内容を更新している。

【００４５】この際、読出し命令種別３１３が８バイト
ロード命令ＶＬＤを示していれば、読出し要素数カウン
タ３１２の６ビットに対する上位２ビットの位置にバッ
ファ番号３１１の下位２ビットを加算して読出しアドレ
スを作成し、読出した読出しレジスタ３２１，３２２の
値がそのまま整列レジスタ３２３，３２４に入るよう
に、整列セレクタ３２５，３２６を切替える値をセレク
タ制御回路３１６によりセレクタ制御レジスタ３１４に
セットするので、読出しレジスタ３２１，３２２の値が
そのまま整列レジスタ３２３，３２４に入り８バイトの
データをベクトル処理部７００に送っている。これらの
動作は、マシンサイクルごとに、全要素を読出すまで繰
返されている。

【００４６】また、命令種別３１３が上位４バイトロー
ド命令ＶＬＤＵを示したときには、読出し要素数カウン
タ３１２は、マシンサイクルごとに更新されるバッファ
番号３１１と合わせてアドレスを作成するために、要素
数カウンタ３１２の値を２で割った数が使用されてい
る。

【００４７】従って、読出しレジスタ３２１，３２２に
は、２マシンサイクルに渡って同じデータが存在するこ
ととなって、整列セレクタ３２５は、セレクタ制御レジ
スタ３１４により、読出しレジスタ３２１，３２２を交
互に切替えているので、整列レジスタ３２３は、読出し
要素数カウンタ３１２により示される読出しデータの要
素番号が偶数であるときに、読出しレジスタ３２１のデ
ータを命令種別３１３から示された有効データ位置であ
る整列レジスタ３２３にセットし、奇数であるときに
は、同様に、読出しレジスタ３２２のデータをセットし
て、そのデータをベクトル処理部７００へ送っている。

【００４８】一方、命令種別３１３が下位４バイトロー
ド命令ＶＬＤＬを示したときには、読出し要素数カウン
タ３１２は、マシンサイクルごとに更新されるバッファ
番号３１１と合わせてアドレスを作成するために、要素
数カウンタ３１２の値を２で割った数が使用されてい
る。

【００４９】従って、読出しレジスタ３２１，３２２に
は、２マシンサイクルに渡って同じデータが存在するこ
ととなって、整列セレクタ３２６は、セレクタ制御レジ
スタ３１４により、読出しレジスタ３２１，３２２を交
互に切替えているので、整列レジスタ３２４は、読出し
要素数カウンタ３１２により示される読出しデータの要
素番号が偶数であるときに、読出しレジスタ３２１のデ
ータを命令種別３１３から示された有効データ位置であ
る整列レジスタ３２４にセットし、奇数であるときに
は、同様に、読出しレジスタ３２２のデータをセットし
て、そのデータをベクトル処理部７００へ送っている。

【００５０】次に、従来の技術で説明した命令列の一例
を用いて、それらの命令の動作及び実行結果について説
明する。

【００５１】すなわち、ベクトル有効長ＶＬを１６とし
た命令列は、以下の通りである。

【００５２】 (1) ＶＬＤＬＶ０ ← ＭＥＭ (2) ＶＬＤＬＶ１ ← ＭＥＭ (3) ＶＡＤＤＶ０ ← Ｖ０＋Ｖ１ (4) ＶＳＴＬＭＥＭ ← Ｖ０ (5) ＶＬＤＵＶ０ ← ＭＥＭ (6) ＶＬＤＵＶ１ ← ＭＥＭ (7) ＶＦＡＤＶ０ ← Ｖ０＋Ｖ１ (8) ＶＳＴＵＭＥＭ ← Ｖ０上記の命令列が番号順に実行するようにプログラムされ
ている場合に、高速化の手段としてベクトルレジスタの
状態に関わらずにメモリアクセスを行い、演算結果が保
証される形でロードデータバッファ並びにストアデータ
バッファなどの中間バッファを使用して命令実行順序の
入替えを行っている。

【００５３】すなわち、メモリアクセスを基準にするこ
とにより、 (1) ＶＬＤＬＶ０ ← ＭＥＭ (2) ＶＬＤＬＶ１ ← ＭＥＭ (5) ＶＬＤＵＶ０ ← ＭＥＭ (6) ＶＬＤＵＶ１ ← ＭＥＭ (3) ＶＡＤＤＶ０ ← Ｖ０＋Ｖ１ (4) ＶＳＴＬＭＥＭ ← Ｖ０ (7) ＶＦＡＤＶ０ ← Ｖ０＋Ｖ１ (8) ＶＳＴＵＭＥＭ ← Ｖ０の順番に実行されている。

【００５４】そして、(1) ，(2) ，(5) ，(6) のベクト
ルロード命令には、ベクトル有効長ＶＬが１６であるこ
とより、バッファ＃０，＃１，＃２，＃３のそれぞれが
割り付けられている。同様にして、(4) ，(8) のベクト
ルストア命令には、バッファ＃０，＃１のそれぞれが割
り付けられる。

【００５５】図７は本実施例のベクトル処理装置によっ
てベクトル演算を行う動作の一例を示すタイムチャート
である。そして、図８は本実施例のベクトル処理装置に
よるロードデータバッファおよびストアデータバッファ
の使用状況の一例を示した図である。

【００５６】図７および図８に示すように、まず、(1)
，(2) のベクトルロード命令には、各々ロードデータ
バッファ１１０のバッファ＃０，＃１が割り付けられて
いる。そして、(5) ，(6) のベクトルロード命令には、
ロードデータバッファ１１０のバッファ＃２，＃３が割
り付けられている。一方、(4) ，(8) のベクトルストア
命令には、ストアデータバッファ４１０のバッファ＃
０，＃１が割り付けられている。

【００５７】そこで、従来のベクトル処理装置の図１２
に比較すると、図７に示すように、ロードデータバッフ
ァ１１０内に多くのバッファ＃０，＃１，＃２，＃３が
存在するので、メモリアクセス動作が隙間無く行われて
動作時間が短くなり、性能が高速化されている。

【００５８】また、ロードデータバッファ１１０および
ストアデータバッファ４１０の使用形態は、従来のベク
トル処理装置の図１３に比較すると、図８に示したよう
に、ロードデータバッファ１１０およびストアデータバ
ッファ４１０の中にデータが大幅に圧縮されており、効
率的に使用されている。

【００５９】

【発明の効果】以上説明しているように、本発明のベク
トル処理装置は、ベクトルレジスタとメモリとの中間に
存在するロードデータバッファ，ストアデータバッファ
などの中間データバッファに、複数の仮想バッファ番号
を割付けて、これによって中間データバッファ内のアク
セス領域を特定させることおよび格納するデータが中間
データバッファのワード幅にも満たないときには、デー
タを圧縮して格納して、読出すときには、そのデータを
伸長しながら読出す処理を行うことにより、中間データ
バッファを効率的に使用することができるとともに、デ
ータのベクトル長にかかわらずに少ないハードウェア量
で最大の性能効果を出すことができるようになるという
効果を有している。

【図面の簡単な説明】

【図１】本発明のベクトル処理装置の一実施例を示すブ
ロック図である。

【図２】図１のロードデータバッファ１１０の一例を示
す構成図である。

【図３】図１のストアデータバッファ４１０の一例を示
す構成図である。

【図４】ロードデータバッファ１１０，１２０の各々の
バッファ番号に対応するロードデータバッファ１１０，
１２０内のアクセス可能領域の一例を示す図である。

【図５】図１のロードデータバッファ格納部２００の一
例を示すブロック図である。

【図６】図１のロードデータバッファ読出し部３００の
一例を示すブロック図である。

【図７】本実施例のベクトル処理装置によってベクトル
演算を行う動作の一例を示したタイムチャートである。

【図８】本実施例のベクトル処理装置によるロードデー
タバッファおよびストアデータバッファの使用状況の一
例を示した図である。

【図９】従来のベクトル処理装置で直接メモリと転送を
してベクトル演算を行う動作の一例を示すタイムチャー
トである。

【図１０】従来のベクトル処理装置の一例を示すブロッ
ク図である。

【図１１】ベクトル有効長の違いによるデータバッファ
の必要個数の違いを表したタイムチャートである。

【図１２】従来のベクトル処理装置により２個のロード
データバッファを用いてベクトル演算を行う動作の一例
を示すタイムチャートである。

【図１３】従来のベクトル処理装置によるロードデータ
バッファ，ストアデータバッファの使用状況の一例を示
す図である。

【符号の説明】

１００，１１００ロードデータバッファ群１１０，１２０，１１１０，１１２０ロードデータ
バッファ２００，１２００ロードデータバッファ格納部２１０ロードデータ書込み制御部２１１書込みバッファ番号２１２データの要素番号２１３書込み命令種別２１４書込みアドレスレジスタ２１５書込みアドレス作成回路２１６書込みセレクタ制御回路２２０ロードデータ圧縮実行部２２１，２２２データ受取レジスタ２２３，２２４書込みレジスタ２２５，２２６書込みレジスタ３００，１３００ロードデータバッファ読出し部３１０ロードデータ読出し制御部３１１読出しバッファ番号３１２読出し要素数カウンタ３１３読出し命令種別３１４セレクタ制御レジスタ３１５読出しアドレス作成回路３１６セレクタ制御回路３２０ロードデータ伸長実行部３２１，３２２読出しレジスタ３２３，３２４整列レジスタ３２５，３２６整列セレクタ４００，１４００ストアデータバッファ群４１０，４２０，１４１０，１４２０ストアデータ
バッファ５００，１５００ストアデータバッファ格納部５１０ストアデータ書込み制御部５２０ストアデータ圧縮実行部６００，１６００ストアデータバッファ読出し部６１０ストアデータ読出し制御部６２０ストアデータ伸長実行部７００，１７００ベクトル処理部７１０，１７１０クロスバ７２０，７２１，１７２０，１７２１ベクトルレジ
スタ７３０，１７３０演算器８００，１８００ベクトル処理装置９００，１９００メモリ

Claims

【特許請求の範囲】

【請求項１】（Ａ）複数の要素を有するベクトルデータ
を持つ複数のベクトルレジスタと、（Ｂ）前記ベクルレ
ジスタに接続して、前記ベクルレジスタから受けたベク
トルデータのベクトル演算を行い、前記ベクルレジスタ
に保持させる複数のベクトル演算器と、（Ｃ）メモリと
前記ベクトルレジスタとの中間に接続され、ベクトルロ
ード命令が扱う最大のデータ幅で最大のデータ長分の容
量（ワード数）を有して、ロードデータを前記ベクトル
レジスタに転送できるまで一時的に格納する複数のロー
ドデータバッファと、（Ｄ）前記ベクトルレジスタと前
記メモリとの中間に接続され、ベクトルストア命令が扱
う最大のデータ幅で最大のデータ長分の容量を有して、
ストアデータを前記メモリに転送できるまでの間一時的
に格納する複数のストアデータバッファと、を有するベ
クトル処理装置において、（Ｅ）複数個の前記ロードデ
ータバッファを有するとともに、個々の前記ロードデー
タバッファ内に使用可能なワード位置および使用可能な
ワード数を示す複数の仮想バッファを設け、その仮想バ
ッファに全体の前記ロードデータバッファの中でユニー
クになる仮想バッファ番号を設定したロードデータバッ
ファ群と、（Ｆ）命令種別で異なるロードデータの有効
データ幅を認識し、該有効データ幅が前記ロードデータ
バッファのデータ幅よりも十分小さいときには、前記ロ
ードデータバッファのデータ幅に合わせて、複数のロー
ドデータを要素圧縮して格納するロードデータバッファ
格納部と、（Ｇ）前記ロードデータバッファ群の中から
の読出しを指定されたデータの有効データ幅を命令種別
より認識し、前記ロードデータバッファ格納部により圧
縮が行われた命令であれば読出したデータを元の複数の
要素に展開するロードデータバッファ読出し部と、を備
えることを特徴とするベクトル処理装置。
【請求項２】請求項１記載のロードデータバッファ群
で、一つの請求項１記載のロードデータバッファ内に割
付けられた複数の仮想バッファ番号の各々の下位ビット
が、前記ロードデータバッファのワードアドレスの上位
ビットに一致するように設定されるとともに、仮想バッ
ファ番号の残りの上位ビットが、前記ロードデータバッ
ファ群内のそれぞれの前記ロードデータバッファを示す
識別子になるように、仮想バッファ番号の各々が設定さ
れることを特徴とする請求項１記載のベクトル処理装
置。
【請求項３】請求項１記載のロードデータバッファ格
納部は、各データをロードするベクトルロード命令の命
令種別によって、ロードされるデータの有効データ幅を
認識し、前記有効データ幅が請求項１記載のロードデー
タバッファのデータ幅に一致する最大のデータ幅である
ときに、指示された仮想バッファ番号が示す前記ロード
データバッファ内のワードアドレスから一要素づつ順次
に格納するように書込みアドレスを更新し、前記有効データ幅が最大データ幅よりも十分小さいとき
には、最大データ幅になるようにロードデータの複数の
要素数分をまとめて一ワードを構成してデータの圧縮を
実行し、指示された仮想バッファ番号が示す前記ロード
データバッファのワードアドレスから一ワードにまとめ
るごとに前記ロードデータバッファ内に格納して書込み
アドレスを更新する、ことを特徴とする請求項１記載の
ベクトル処理装置。
【請求項４】請求項１記載のロードデータバッファ読
出し部は、読出しを指示された仮想バッファ番号のアド
レスに格納されているデータの有効データ幅を命令種別
で認識し、一要素が一ワードに格納されているときに
は、指示された仮想バッファ番号が示す請求項１記載の
ロードデータバッファのワードアドレスから処理する要
素数分の読出しサイクルを連続して行い、複数の要素が一ワードに格納されているときには、前記
ロードデータバッファの読出しサイクルを圧縮された要
素分に伸長して、読出したデータを要素ごとに命令種別
で決定される本来の有効データ位置に戻しながら読出し
動作を行う、ことを特徴とする請求項１記載のベクトル
処理装置。
【請求項５】（Ａ）複数の要素を有するベクトルデータ
を持つ複数のベクトルレジスタと、（Ｂ）前記ベクルレ
ジスタに接続して、前記ベクルレジスタから受けたベク
トルデータのベクトル演算を行い、前記ベクルレジスタ
に保持させる複数のベクトル演算器と、（Ｃ）メモリと
前記ベクトルレジスタとの中間に接続され、ベクトルロ
ード命令が扱う最大のデータ幅で最大のデータ長分の容
量（ワード数）を有して、ロードデータを前記ベクトル
レジスタに転送できるまで一時的に格納する複数のロー
ドデータバッファと、（Ｄ）前記ベクトルレジスタと前
記メモリとの中間に接続され、ベクトルストア命令が扱
う最大のデータ幅で最大のデータ長分の容量を有して、
ストアデータを前記メモリに転送できるまでの間一時的
に格納する複数のストアデータバッファと、を有するベ
クトル処理装置において、（Ｅ）複数個の前記ストアデ
ータバッファを有するとともに、個々の前記ストアデー
タバッファ内に使用可能なワード位置および使用可能な
ワード数を示す複数の仮想バッファを設け、その仮想バ
ッファに全体の前記ストアデータバッファの中でユニー
クになる仮想バッファ番号を設定したストアデータバッ
ファ群と、（Ｆ）命令種別で異なるストアデータの有効
データ幅を認識し、該有効データ幅が前記ストアデータ
バッファのデータ幅よりも十分小さいときには、前記ス
トアデータバッファのデータ幅に合わせて、複数のスト
アデータを要素圧縮して格納するストアデータバッファ
格納部と、（Ｇ）前記ストアデータバッファ群の中から
の読出しを指定されたデータの有効データ幅を命令種別
より認識し、前記ストアデータバッファ格納部により圧
縮が行われた命令であれば読出したデータを元の複数の
要素に展開するストアデータバッファ読出し部と、を備
えることを特徴とするベクトル処理装置。
【請求項６】請求項５記載のストアデータバッファ群
で、一つの請求項５記載のストアデータバッファ内に割
付けられた複数の仮想バッファ番号の各々の下位ビット
が、前記ストアデータバッファのワードアドレスの上位
ビットに一致するように設定されるとともに、仮想バッ
ファ番号の残りの上位ビットが、前記ストアデータバッ
ファ群内のそれぞれの前記ストアデータバッファを示す
識別子になるように、仮想バッファ番号の各々が設定さ
れることを特徴とする請求項５記載のベクトル処理装
置。
【請求項７】請求項５記載のストアデータバッファ格
納部は、各データをストアするベクトルストア命令の命
令種別によって、ストアされるデータの有効データ幅を
認識し、前記有効データ幅が請求項５記載のストアデー
タバッファのデータ幅に一致する最大のデータ幅である
ときに、指示された仮想バッファ番号が示す前記ストア
データバッファ内のワードアドレスから一要素づつ順次
に格納するように書込みアドレスを更新し、前記有効データ幅が最大データ幅よりも十分小さいとき
には、最大データ幅になるようにストアデータの複数の
要素数分をまとめて一ワードを構成してデータの圧縮を
実行し、指示された仮想バッファ番号が示す前記ストア
データバッファのワードアドレスから一ワードにまとめ
るごとに前記ストアデータバッファ内に格納して書込み
アドレスを更新する、ことを特徴とする請求項５記載の
ベクトル処理装置。
【請求項８】請求項５記載のストアデータバッファ読
出し部は、読出しを指示された仮想バッファ番号のアド
レスに格納されているデータの有効データ幅を命令種別
で認識し、一要素が一ワードに格納されているときに
は、指示された仮想バッファ番号が示す請求項５記載の
ストアデータバッファのワードアドレスから処理する要
素数分の読出しサイクルを連続して行い、複数の要素が一ワードに格納されているときには、前記
ストアデータバッファの読出しサイクルを圧縮された要
素分に伸長して、読出したデータを要素ごとに命令種別
で決定される本来の有効データ位置に戻しながら読出し
動作を行う、ことを特徴とする請求項５記載のベクトル
処理装置。