JPS6061864A

JPS6061864A - 並列ベクトル・プロセツサ

Info

Publication number: JPS6061864A
Application number: JP59078783A
Authority: JP
Inventors: チヤツク・ホング・ナイ; エドワード・リチヤード・ワツセル; ジエラルド・ジヨセフ・ワトキンス
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1983-09-09
Filing date: 1984-04-20
Publication date: 1985-04-09
Also published as: EP0135721A2; EP0135721A3; EP0135721B1; DE3485771T2; US4967343A; DE3485771D1

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［産業上の利用分野］本発明はコンピュータ・システムに係り、更に詳細に説
明すれば、前記コンピュータにおいて、一対のベクトル
を迅速に処理し、その処理結果を記憶する並列ベクトル
・プロセッサに係る。

［従来技術］第２図に示す代表的なベクトル・プロセッサは、複数の
ベクトル・レジスタを含み、該ベクトル・レジスタの各
々はそれぞれベクトルを記憶する。

ベクトルは複数のベクトル・エレメントを含む。

パイプライン処理ユニットは、これらのバク１〜ル・レ
ジスタに関連するセレクタに接続され、第１のベクトル
・レジスタから第１のバク１−ルの対応するエレメント
を受取り、該エレメントを利用して、第２のベクトル・
レジスタに記憶された第２のベクトルの対応するエレメ
ントとの算術演算を実行する。算術演算の結果は、１つ
のベクトル・レジスタの対応する場所、または第３のベ
クトル・しジスタの対応する場所に記憶される。

しかしながら、この構成では、ベクトルの対応する各エ
レメントの演算を順次に実行することが必要である。も
し・ベクトルが１２８個のエレメントを含むならば、順
次に１２８回の演算を順次に実行しなければならない。

ベクトルの１２８エレメントを全て演算し終るのに必要
な時間は、対応する各エレメントを演算するときのパイ
プライン処理ユニットの演算当りのサイクル・タイムの
関数である。

コンピュータ・システムの複雑さが増大するにつれて、
コンピュータ・システム内のベクトル・レジスタに記憶
された複数のベクトルの対応する各エレメントの算術演
算の実行に必要な時間を短縮することによってコンピュ
ータ・システムのベクトル・プロセッサ部分の性能を高
めることが要請されている。

［発明が解決しようとする問題点コ従って、本発明の目的は、前記コンピュータ・システム
のベクトル・プロセッサ部分を構成する複数のベクトル
・レジスタに記憶されたベクトルの対応する各エレメン
トの算術演算の実行に必要な時間を短縮することによっ
て、ベクトル・プロセッサ部分の性能を高めることにあ
る。

本発明の他の目的は、複数のベクトル・レジスタを複数
のより小さなレジスタへ再分割するとともに、後者のレ
ジスタに記憶された各エレメントを互いに並列に処理す
ることによって、ベクトル・プロセッサ部分の性能を改
善することにある。

［問題点を解決するための手段］本発明によって、前述のようなベクトルの全てのエレメ
ントの演算処理を完了するのに必要な時間が短縮される
。ベクトル・レジスタは複数のより小さいレジスタに再
分割され、その各々は例えば、１２８エレメント・ベク
トルの４エレメントをそれぞれ記憶する。エレメント・
プロセッサは、より小さいレジスタの各々に関連してお
り、パイプライン処理ユニットと同じ機能を実行する。

各エレメント・プロセッサ及び対応するより小さいレジ
スタは、他のエレメント・プロセッサ及びそれらの対応
するより小さいレジスタに並列に接続される。この構成
によれば、第１及び第２のベクトルに関する算術演算を
実行する場合、該ベクトルの全エレメント（例えば、１
２８エレメント）について実行される算術演算が、本例
では、該ベクトルの対応する４エレメントの算術演算を
完了するのに必要な時間内に完了する。この結果、バク
１ヘル・プロセッサの性能は大幅に改善される。

［実施例コ第２図には、通常のパイプライン・ベクトル・プロセッ
サ１ｏが示されている。第２図において、複数のベクト
ル・レジスタ１２（ＶＲＯ〜ＶＲＩ５）の各々は、１２
８個のエレメント（ニレメン１−０〜エレメント１２７
）を記憶している。良好な実施例では、１エレメントは
４バイトの２進ワードから成る。セレクタ１４は、ベク
トル・レジスタ１２の各々に接続され、ベクトル・レジ
スタ１２から対応するエレメントを選択するとともに、
選択されたエレメントをパイプライン処理ユニット１６
に送り込む。パイプライン処理ユニット１６は、セレク
タ１４に接続され、対応するエレメントを受取るととも
に、算術演算のような選ｖｉ！された演算をこれらのエ
レメントにつし１て実行する。

例えば、パイプライン処理ユニット１６番よ、ベクトル
・レジスタＶＲＯからエレメントＯを受取り、ベクトル
・レジスタＶＲ１５から対応するエレメント０を受取り
、そしてそれらのエレメント番二ついて下記のような算
術演算を実行する。

ＶＲＯ＋ＶＲ１５＋ＶＲ３この算術演算において、ＶＲＯのエレメントＯの２進ビ
ツトの各々は、ＶＲ１５のエレメント０の２進ビツトの
各々に加えられ、その結果得られた和は、ベクトル・レ
ジスタＶＲ３のエレメント０の場所に記憶される。結果
レジスタ１旧よ、ノ（イブライン処理ユニット１６に接
続され、）＼イブライン処理ユニット１６から受取った
前記和を記憶する。また結・果レジスタ１８は、選択ゲ
ート２０ｐ＆介してベクトル・レジスタ１２の各４に接
続され、前記和をベクトル・レジスタＶＲ３に転送する
。

第２図に示された構成はある不利な点を有する。

前述の例によって説明すると、第１エメレントがベクト
ル・レジスタＶＲＯから選択され、対応するエレメント
がベクトル・レジスタＶＲ１５から選択されて前記のよ
うに加算される。第２エレメントも、ベクトル・レジス
タＶＲＯ及びＶＲ１５から選択され、前記のように加算
される。ベクトル・レジスタＶＲＯ及びＶＲ１５に記憶
されたバク１−ルの処理を完了するためには、１２８エ
レメントの各々がベクトル・レジスタＶＲＯ及びＶＲ１
５から順次に選択され、加算されなければならない。そ
の結果、ベクトル・レジスタＶＲＯ及びＶ　Ｒ１５に記
憶されたベクトルの処理を完了するのに必要な時間は、
ベクトルごとのエレメント数と、ベクトルごとに対応す
るエレメントのセットを処理するのに必要なサイクル・
タイムとの関数である。ベクトル・プロセッサの性能は
、１セツトのベクトル・レジスタに記憶された一対のベ
クトルを処理するのに必要な時間を短縮させることによ
り改善することができる。

第１図には、本発明による代表的な並列ベクトル・プロ
セッサが示されている。第１図において、第２図のベク
トル・レジスタＶＲＯ〜ＶＲ１５の各々は、複数のより
小さいレジスタ１２ａに再分割され、より小さいレジス
タ１２ａの各々には、例えば、４エレメントが含まれる
。対応する複数のエレメント・プロセッサ２０は複数の
より小さいレジスタ１２ａに接続され、ベクトル・レジ
スタＶＲＯ−ＶＲ１５に記憶されたベクトルの対応する
エレメントの（算術）演算処理を実行する。

一層具体的には、エレメント・プロセッサ２０の各々は
前記ベクトルの対応する４エレメントの演算処理を実行
する。演算処理の結果は、各エレメント・プロセッサに
よって並列に（同時に）生成され、ベクトル・レジスタ
ＶＲＯ−ＶＲ１５のどれか１つの対応する場所に記憶す
ることができる。

プロセッサ・インターフェース・アダプタ（ＰＩＡ）２
２はエレメント・プロセッサ２０の各々に接続され、エ
レメント・プロセッサ２０の各々にアドレス、データ、
及びコマンド情報を送る。エレメント・プロセッサ２０
　（ＥＰＯ−ＥＰ３１）の各々とＰＩＡ２２の実際の接
続は第３図に示されている。命令処理ユニット（ＩＰＵ
）２４はＰＩＡ２２に接続され、ベクトル命令をＰＩＡ
２２に送る。主記憶２６はＰＩＡ２２に接続され、ＰＩ
Ａ２２からの要求に応答してデータ情報及びアドレス制
御情報をＰＩＡ２２に送る。

第３図には、エレメント・プロセッサ（ＥＰＯ〜ＥＰ３
１）の各々とＰＩＡ２２の実際の接続が示されている。

ＰＩＡ２２はＥＰＯ，ＥＰ８、ＥＰ、１６、ＥＰ２４に
接続されている。そして、ＥＰＯはＥＰＩ〜ＥＰ７に直
列に接続されている。

同様に、ＥＰ８はＥＰ９〜ＥＰ１５に、ＥＰ１６はＥＰ
１７〜ＥＰ２３に、ＥＰ２４はＥＰ２５〜ＥＰ３１に、
それぞれ直列に接続されている・第４図には、ＰＩＡ２
２の構成が示されている。

ＰＩＡ２２には、ＩＰＵ２４に接続されたベクトル命令
レジスタ（ＶＩＲ）２２ａが含まれ、これはＩＰＵ２４
からのベクトル命令を受取るとともに、受取ったベクト
ル命令を一時的に記憶する。

ベクトル・データ・レジスタ（ＶＤＲ）２２ｂは、主記
憶２６及びＩＰＵ２４に接続され、主記憶２６からのデ
ータを受取ってこれを一時的に記憶する。ベクトル・ス
テータス・レジスタ（ＶＳＲ）２２ｃは、主記憶２６及
びＩＰＵ２４に接続され、主記憶２６からのアドレス制
御情報を受取ってこれを一時的に記憶する。ピコ（ｐｉ
ｃｏ）制御記憶２２ｄは、Ｖ　Ｉ　Ｒ２２ａに接続され
、Ｖ　Ｉ　Ｒ２２ａに記憶されたベクトル命令を復号す
るとともに、ピコ制御記憶２２ｄに記憶されたピコ制御
ルーチンを選択する。コマンド・レジスタ２２ｅは、ピ
コ制御記憶２２ｄに接続されるとともに、コマンド・バ
スを介してエレメント・プロセッサ２０に接続されて、
エレメント・プロセッサ２０を駆動する。バス制御２２
ｆは、ＶＤＲ２２ｂに接続され、ＶＤＲ２２ｂからのデ
ータを受取るとともに、データ・バスを介してエレメン
ト・プロセッサ２０ヘデータを送る６また、バス制御２
２ｆは、１つのエレメント・プロセッサからのデータを
、もう１つのエレメント・プロセッサの指向することも
できる。Ｖ　Ｓ　Ｒ２２ｃは、アドレス制御２２ｈを介
してバス制御２２ｇにも接続されている。アドレス制御
２２ｈは、Ｖ　Ｓ　Ｒ２２ｃから受取ったデータに対応
するアドレスを生成する。バス制御２２ｇは、生成され
たアドレスを、アドレス・バスを介してエレメント・プ
ロセッサ２０へ送る。

次に、第１図、第３図及び第４図を参照して第１図の並
列ベクトル・プロセッサの動作を説明する。

ＩＰＵ２４は、特定のデータをベクＩ〜ル・レジスタＶ
ＲＯ及びＶＲ１５にロードするように、ＰＩＡ２２に命
令する。ＩＰＵ２４はロード命令をＰＩＡ２２に送る。

送られたロード命令はＶＩＲ２２ａに一時的に記憶され
る。ベクトル・レジスタＶ　Ｒ，Ｏ及びＶＲ１５にロー
ドすべきデータは主記憶２６に記憶されている。ＰＩＡ
２２がロード命令を受取る場合、ＰＩＡ２２は主記憶２
６から特定のデータを検索し、このデータをＶＤＲ２２
ｂにロードする。ロード命令を出す前に、ＩＰＵ２４は
Ｖ　Ｓ　Ｒ２２ｃへ７ドレス制御情報をロードしている
。その結果、アドレス制御２２ｈによって特定のアドレ
ス情報が生成される。このアドレス情報は、データをロ
ードすべき選択されたエレメント・プロセッサ２０のア
ドレス、及びデータを記憶すべき選択されたエレメント
・プロセッサ２０に関連する選択されたエレメントのア
ドレスから成る。ＶＩＲ２２ａに記憶されたロード命令
は、ピコ制御記憶２２ｄによって復号される。これに応
じて、ロード命令に対応するピコ制御記憶２２（ｌ中の
コマンド情報が選択される。アドレス制御２２ｈによっ
て生成されたアドレス情報に従って、ＶＤＲ２２ｂに記
憶されているデータはバス制御２２ｆ及びデータ・バス
を介して、選択されたエレメントプロセッサ２０に送ら
れ、そこに記憶される。更に、アドレス制御２２ｈによ
って生成されたアドレス情報に従って、ピコ制御記憶２
２ｄに記憶され、かつ復号されたロード命令によって選
択されたコマンド情報は、コマンド・レジスタ２２ｅ及
びコマンド・バスを介して、選択されたエレメント・プ
ロセッサ２０に送られる。

選択されたコマンド情報に応じて、選択されたエレメン
トプロセッサ２０に記憶されているデータは、より小さ
いレジスタ１２ａの選択されたエレメントにロードされ
、該選択されたエレメントはアドレス制御２２ｈによっ
て生成されたアドレス情報によって識別される。

ここで、ベクトル・レジスタＶＲＯ及びＶＲＩ５の各々
に、１２８エレメントを有するベクトルが記憶されてい
るものと仮定する。１エレメントは４バイトの２進ワー
ドから成る。更に、ベクトル・レジスタＶＲＯ及びＶＲ
１５に記憶されたベクトルについて、ＶＲＯ＋ＶＲ１５−）ＶＲＩ５のベクトル算術演算が実行されるものと仮定する。

この場合、ＩＰＵ２４がＰＩＡ２２に対し加算演算、す
なわちベクトル・レジスタＶＲＯに記憶されたベクトル
をベクトル・レジスタＶＲ１５に記憶されたベクトルに
加算し、その結果をベクトル・レジスタＶＲ１５に記憶
するように命令する。工ＰＵ２４は、この加算命令をＰ
ＩＡ２２に送る。

送られた加算命令はＶ　Ｉ　Ｒ２２ａに一時的に記憶さ
れる。この加算命令に従って、ピコ制御記憶２２ｄに記
憶されている特定のコマンド情報が選択される。ＰＩＡ
２２が加算命令を受取ると、ＩＰＵ２４は、主記憶２６
から特定のデータを検索する。このデータは、加算演算
が行なわれる、より小さいレジスタにあるエレメントの
アドレスと、加算演算を実行する選択されたエレメント
・プロセッサ２０のアドレスとを表わす。その結果、ア
ドレス制御２２ｈによってアドレス情報が生成される。

このアドレス情報はバス制御２２ｇ及びアドレス・バス
を介して、選択されたエレメント・プロセッサ２０に送
られる。このアドレス情報に従って、ピコ制御記憶２２
ｄから選択されたコマンド情報は、選択されたエレメン
ト・プロセッサ２０に対し、ベクトル・レジスタＶＲＯ
及びＶＲ１５に対応する。より小さいレジスタ１２ａの
選択されたエレメントを検索するように指令する。

エレメントが検索されると、選択されたコマンド情報は
、選択されたエレメント・プロセッサ２０に加算命令を
実行させる。例えば、ベクトル・レジスタＶＲＯ及びＶ
Ｒ１５に記憶されたベクトルに関連するニレメン１−〇
〜３を、エレメント・プロセッサＥＰＯが受取る。ＥＰ
Ｏは、対応するエレメントを加算し、選択されたコマン
ド情報に従って、この加算結果を、ベクトル・レジスタ
ＶＲ１５の対応する場所に記憶する。すなわち、ベクト
ル・レジスタＶＲＯのエレメントＯはベクトル・レジス
タＶＲ１５のエレメントＯに加えられ、その和はベクト
ル・レジスタＶＲ１５のエレメント０の場所に記憶され
る。ベクトル・レジスタＶＲＯ及びＶＲ１５のエレメン
ト１．２及び３も同様に加算され、それらの和はベクト
ル・レジスタ■Ｒ１５のエレメント１．２及び３の場所
に記憶される。ベクトル・レジスタＶＲＯ及びＶＲ１５
に関連するエレメント４．５．６及び７は、前述と同様
に、ＥＰＩによって処理される。これらのエレメントの
処理は、エレメントＯ１１，２及び３の処理と同時に実
行される。ベクトル・レジスタＶＲＯ及びＶＲ１５に記
憶されているベクトルの残りのエレメントは、ＥＰ２〜
ＥＰ３１によって、それぞれが４エレメントのグループ
で、前述のＥＰＯ及びＥＰＩによるエレメントＯ〜３及
びエレメント４〜７の処理と同時に処理される。その結
果ベクトルＶＲＯ及びＶＲ１５に記憶されたベクトルに
ついて実行される前述のベクトル算術演算は、代表的な
従来のベクトル・プロセッサ・システムでベクトルの１
２８エレメントを処理するのに要する時間に比較して、
ベクトルの４エレメントを処理するのに要する時間で完
了する。従って、本発明の並列ベクトル・プロセッサは
、従来のベクトル・プロセッサ・システムに比し明らか
にすぐれている。

第５図には、エレメント・プロセッサ２０の構成が示さ
れている。第５図において１局所記憶１２Ｂは、第１図
のベクトル・レジスタ１２に類似している。システム・
バス１１及びＬｌａは、一方の端がドライバ回路９に、
他方の端がレシーバ回路７に接続されている。第１の入
力データ・アセンブラ（ＡＳＭ）１３は、ドライバ回路
９及びレシーバ回路７に接続されている。ＡＳＭＩ　３
は更に、局所記憶１２Ｂ及びエレメント・プロセッサ２
ｏに接続されている。第５図のエレメント・プロセッサ
２０には、局所記憶１２Ｂ及びＡＳＭＩ３に接続された
第２の入力データ・アセンブラ（ＡＳＭ）２０ａが含ま
れている。シフト選択レジスタ２０ｂ及びフラッシュ選
択レジスタ２０ｃはＡ　Ｓ　Ｍ　２０　ａに接続されて
いる。フラッシュ選択レジスタ２０ｃは真数／補数（Ｔ
／Ｃ）ゲート２０ｄに直結されているが、シフト選択レ
ジスタ２０ｂは、プリシフタ制御２Ｏｆを介して、もう
１つのＴ／Ｃゲート２０ｅに接続されている。Ｔ／Ｃゲ
ート２０ｄ及び２０ｅはそれぞれ、演算論理ユニット（
ＡＬＵ）２０ｇに接続されている。

ＡＬＵ２０ｇはポストシック制御２０ｉを介して結果レ
ジスタ２０ｈに接続され、結果レジスタ２０ｈは局所記
憶１２Ｂに接続されている。エレメント・レジスタ２０
が、対応する一対のベクトル・レジスタ１２に記憶され
た一対のベクトルの４エレメントの算術演算処理を完了
したとき、その結果は局所記憶１２Ｂに記憶される。マ
ルチプライヤ回路（ＭＰＹ）２０ｊはＡＳＭ２０ａとＡ
ＬＵ２０ｇの間に相互接続されている。２つのオペラン
ドはＭ　Ｐ　Ｙ　２０　ｊが受取る。和出力及びキャリ
出力は、Ｍ　Ｐ　Ｙ　２０　ｊによって生成され、ＡＬ
Ｕ２０ｇが受取る。

次に、第５図に関連してエレメント・プロセッサ２０の
動作について説明する。

第５図に示されたエレメント・プロセッサ２０の動作は
次の４つの演算サイクルに再分割することができる。第
１サイクルは局所記憶読取及びシフト選択サイクル、第
２サイクルは事前正規化シフト・サイクル、第３サイク
ルはＡＬＵ演算サイクル、そして第４サイクルは事後正
規化シフト・サイクルである。

ここで、ベクトル・レジスタＶＲＯ及びＶＲＩ５のそれ
ぞれのエレメントが加算され、その加算結果がベクトル
・レジスタＶＲＯに記憶されるものと仮定すると、エレ
メント０〜３はシステム・バスｌｌａのレシーバ回路７
に受取られ、ＡＳＭ１３を介して局所記憶１２Ｂに記憶
される。局所記憶１．２　Ｂは、第１図に示された、ニ
レメンｌ−０〜３を記憶する最初のより小さいレジスタ
１２ａに類似している。更に、エレメント０〜３は浮動
小数点のエレメントのオペランドを表わすものと仮定す
る。

ベクトル・レジスタＶＲＯに記憶されたニレメン１−〇
〜３をベクトル・レジスタＶＲ１５に記憶されたエレメ
ントＯ〜３に加算するようにコマンドが出されると、第
１サイクルで、それぞれのエレメントのオペランドは、
局所記憶１２．８から読取られ、ＡＳ２０ａを介してフ
ラッシュ選択レジスタ２０ｃ及びシフト選択レジスタ２
０ｂに一時的に記憶される。しかしながら、同時に、そ
れぞれのエレメントの指数は指数制御経路（図示せず）
に入り、そこで指数の大きさの相違が計算される。

従って、小さい方の指数を有するエレメントはシフト選
択レジスタ２０ｂに送られるが、大きい方の指数を有す
るエレメントはフラッシュ選択レジスタ２０ｃに送られ
る。レジスタ２０ｃ及び２０ｂは第１サイクルの終りに
ラッチ・クロックによってラッチされる。

第２サイクルの初めに、シフト動作が開始される。フラ
ッシュ選択レジスタ２０ｃに記憶された、大きい方の指
数を有するエレメントは、ＡＬＵ２０ｇの入力の１つに
送り込まわる。シフト制御情報は、指数制御経路（図示
せず）からプリシフタ制御２Ｏｆに渡され、シフト選択
レジスタ２０ｂに記憶された小さい方の指数を有するニ
レメン１−は、プリシフタ制御２０ｆによって右シフト
され、Ａ　Ｌ　Ｕ　２０　ｇの入力の１つに現在送られ
ている大きい方の指数を有するエレメントに整合される
。

それに並行して、ＡＬＵ２０ｇはＴ／Ｃゲー１−２０ｄ
及び２０ｅから適切な入力を選択し、それぞれＴ／Ｃゲ
ート２０ｄ及び２０ｅを介して、フラッシュ及びシフト
選択レジスタ２０ｃ及び２０ｂからエレメントを受取る
。

第５図のエレメント・プロセッサ２０の第３サイクルは
Ａ　Ｌ　Ｕ　２０　ｇの演算に用いられる。ＡＬＵは、
１の補数の演算及び循環キャリならびに再補数化によっ
て設計された８バイトの桁上げ先見式高速加算器である
。ＡＬＵは加算動作を実行する。本例では、ベクトル・
レジスタＶＲＯに関連する、より小さいレジスタ１２Ｂ
の１つに記憶されたエレメントＯ〜３の４ニレメンＩ−
のそれぞれのピッ１−が、ベクトル・レジスタ■Ｒ１５
に関連する４エレメントのそれぞれのビットに加算され
る。加算結果は、最終的には（本例では、第１図に示さ
れたベクトル・レジスタＶＲＯに類似の）局所記憶１２
Ｂに記憶される。しかしながら゛、このステップの前に
、第４サイクルの事後正規化シフ）〜・サイクルが行な
われなければならない。

ＡＬＵ２０ｇによって加算が完了すると、第４サイクル
で事後正規化シフトが行なわ九る。データ処理用語では
、「事後正規化シフト」は、ＡＬＵによって生じた結果
の先頭の１６進デイジツト０を検出し、検出されたＯデ
ィジットの数に従って前記結果を左シフトするステップ
を含む。シフトされた各ディジットごとに１の値だけ指
数を減少することにより、前記結果の指数が調整されな
ければならない。Ａ　Ｌ　Ｕ　２０　ｇの出力のディジ
ットのＯの状態はポストシフタ制御２０ｉによって検査
され、検出されたＯディジット数に従って、ＡＬＵ出力
の結果が左シフトされる。ＡＬＵ出力の左シフトされた
結果は、一時記憶のため結果レジスタ２０ｈに送られる
。指数制御経路（図示せず）は（ＡＬＵから出力された
）結果エレメントの指数値を増加または減少させ、それ
によって正しい最終的な指数値が結果レジスタ２０ｈに
送られる。その結果、結果エレメントが結果レジスタ２
０ｈに記憶され、そのオペランドは、ＡＬＵ出力で検出
された０デイジツ１−数に従って適切な量だけ左シフト
され、その指数は正しい最終的な指数値である。第４サ
イクルに続く次のサイクルの間に、結果エレメントは局
所記憶１２Ｂに送られ、そこに記憶される（局所記憶は
、第１図の本例ではエレメントＯ〜３を記憶する、より
小さいレジスタ１２ａの１つに類似している）。

［発明の効果］以上説明したように、ベクトル・プロセッサの性能は、
本発明の着想を利用することによって改善される。本発
明を実行するには回路数の増加を必要とするが、これは
ＶＬＳＩ技術を利用することにより、経済的にも妥当な
ものにすることができる。

【図面の簡単な説明】

第１図は本発明の代表的な並列ベクトル・プロセッサを
示す概要図、第２図は従来のベクトル・プロセッサを示す概要図、第３図は第１図のエレメント・プロセッサの各々とプロ
セッサ・インタフェース・アダプタ（ＰＩＡ）との接続
様式を示す図、第４図は第１図及び第３図のＰＩＡの構成を示す図、第５図は第１図及び第３図に示されたニレメン、ト・プ
ロセッサの詳細な構成を示す図である。７・・・・レシーバ回路、９・・・・ドライバ回路、１
０・・・・パイプライン・ベクトル・プロセッサ、１１
、ｌｌａ・・・・システム・バス、１２・・・・ベクト
ル・レジスタ、１２ａ・・・・より小さいレジスタ、１
２Ｂ・・・・局所記憶、１３・・・・ＡＳＭ、１４・・
・・セレクタ、１６・・・・パイプライン処理ユニット
、１８・・・・結果レジスタ、３ｏ・・・・エレメント
・プロセッサ、２０ａ・・・・ＡＳ−Ｍ、２０ｂ・・・
・シフト選択レジスタ、２０ｃ・・・・フラッシュ選択
レジスタ、２０ｄ、２０ｅ・・・・Ｔ／ｃゲート、２．
Ｏｆ・・・・プリシフタ制御、２０ｇ・・・・ＡＬＵ、
２０ｈ・・・・結果レジスタ、２０ｉ・・・・ボストシ
フタ制御、２０ｊ・・・・ＭＰＹ、２０ｐ・・・・選択
ゲート、２２−・・−Ｐ　Ｉ　Ａ、２’２ａ・＝・ＶＩ
Ｒ，２２ｂ”・・ＶＤＲ１２２ｃ・・・・ＶＳＲ１２２
ｄ・・・・ピコ制御記憶、２２ｅ°・°・コマンド・レ
ジスタ、２２ｆ、２２ｇ・・・・バス制御、２２ｈ・・
・・アドレス制御、２４・・・・ＩＰＵ、２６・・・・
主記憶。主記憶装置１＼らＦＩＧ、　２エレメント・プロセツサへ

Claims

【特許請求の範囲】下記構成要件（イ）及び（ロ）を有する、第１ベクトル
及び第２ベクトルを算術演算してその演算結果を記憶す
るための並列ベクトル・プロセッサ。（イ）　Ｍ個（但し、Ｍは正の整数）のエレメントから
成るバク１ヘルをそれぞれ記憶するための複数のベクト
ル・レジスタ装置。該ベクトル・レジスタ装置の各々は
比較的小さい複数のレジスタへそれぞれ分割され、該レ
ジスタの各々はＮ個（但し、ＮはＭより小さい正の整数
）のエレメントをそれぞれ記憶するように構成されてい
る。（ロ）前記複数のレジスタに対応して設けられ且つ該対
応するレジスタへそれぞれ接続された複数のプロセッサ
。該プロセッサはこれに対応する前記レジスタに記憶さ
れたエレメントを受取り、該エレメントの算術演算を行
なうとともに、その演算結果を対応するレジスタを含む
前記ベクトル・レジスタ装置に記憶するように構成され
ている。