JPH06162227A

JPH06162227A - ベクトル並列計算機

Info

Publication number: JPH06162227A
Application number: JP4333656A
Authority: JP
Inventors: Tatsuo Nogi; 野木達夫
Original assignee: Individual
Current assignee: Individual
Priority date: 1992-11-18
Filing date: 1992-11-18
Publication date: 1994-06-10
Anticipated expiration: 2010-10-09
Also published as: JPH0792790B2; US5408677A

Abstract

(57)【要約】（修正有）【目的】並列計算機を構成するのに、メモリバンクの
立方配列に対する効率的なデータアクセス回路を確保
し、計算に現れるデータ編集を容易にする。【構成】Ｎ³個のメモリバンクの立方配列が、各枚ご
とに共通バスをＮ行Ｎ列の平面格子状に配列したＮ枚の
主記憶ボードＢで、Ｎ²個ずつのメモリバンクが支持さ
れ、バス格子点に接続された各Ｎ²個のアクセスラッチ
２を介して行及び列の双方向からアクセスでき、Ｎ個の
ベクトルラッチ９と主記憶ボードＢとの間では、各Ｎ個
の要素ラッチが、同一番号のアクセスラッチ行に接続さ
れ、各ベクトルラッチには第１と第２の直列ポートが設
けられ、全Ｎ個からなる第１の直列ポートはアクセスラ
ッチ行、またはアクセスラッチ列に接続され、ベクトル
プロセッサユニットＶＵ１，…ＶＵＮの各々は、対応す
る各ベクトルラッチ９と接続されたことにより、これに
一時記憶されるベクトルデータをベクトルレジスタ１７
に積み上げて演算処理する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、超高速科学技術計算用
の超高性能並列計算機に関するものであり、連続系と粒
子系を含めた広範囲な高度なシミュレーション計算やＣ
ＡＤに利用できる。具体的な応用分野は構造解析、流体
力学、気象や地球環境、核融合プラズマ、分子材料設
計、半導体デバイスなどにまたがる。

【０００２】

【従来の技術】従来から、科学技術計算、特に各種シミ
ュレーション計算では大容量かつ高速の計算が要求さ
れ、それに応えるためにベクトル計算機やマルチプロセ
ッサ並列計算機などが開発されてきた。その結果、ベク
トル計算機単体としてはほとんど頂点を究めるまでのと
ころに達し、現在のスーパーコンピュータの主流を成し
ている。そこで、次世代スーパーコンピュータとして、
複数のベクトルプロセッサを用いたシステムやマルチプ
ロセッサ方式並列計算機がしのぎを削っているところで
ある。前者（本発明も主にこれに関するものであり、一
般にベクトル並列計算機と呼べる）では、共有メモリと
してのメモリバンクを備え、従来のベクトル化技術の延
長上にあって大きなベクトル長を確保し、それを複数の
ベクトルで分割して並列処理するという形を考えるが、
現段階ではせいぜい４台〜１６台のプロセッサを使うも
のが限度である。また、マルチプロセッサ並列計算機で
は、分散メモリを基本にし、データ交換用のネットワー
クの設計によって多様なシステムを開発してきたが、そ
れらは主に格子状、ハイパーキューブ及びハイパークロ
スネットに分かれる。一番古くから採用されてきたのが
格子状のものであるが、転送能力に限りがあり、将来性
は乏しい。現在米国を中心に展開されているハイパーキ
ューブ方式では、大幅に転送能力が増す反面、通常の配
列データとプロセッサ配列の間のマッピングにおいて、
部分配列の相互交換などの手続きがシステム全体として
一様でなく、効率の低下及びプログラミングの困難さを
引き起こすという問題がある。その点、配列データとシ
ステム間のマッピングが最も自然な形で行なえ、そのた
め部分配列の相互交換などの操作がシステム全体の中で
一様に行なえるのがハイパークロスネット方式であり、
発明者が先に昭和５５年特許願第６８０４４号「並列計
算機」（特許第１４０４７５３号）において提案したも
のである。しかし、ハイパーキューブにしろ、ハイパー
クロスネットにしろネットワークを通じたデータ転送に
はそのためのオーバーヘッドはさけられなくて、どうし
ても一定の効率低下を招いてしまう。

【０００３】

【発明が解決しようとする課題】本発明は、ベクトルプ
ロセッサ（あるいはベクトル要素並列処理プロセッサア
レイ）を多数用いて高度なシステムを作ることを意図す
るが、そのためにはメモリバンクとそれへのアクセス経
路の多様化をはかり、並列度が１００％近く保たれるよ
うなシステム設計が必要である。そして、広範な応用問
題にふさわしいデータ配列処理が効率よく行なえるよう
に、アクセス経路そのものが素朴なデータ編集機能をも
つことが望まれる。その際、ハイパークロスネット方式
で考えたデータ編集機能が大変有効である。また、ハイ
パークロスネット方式で採用したバッフアメモリをメモ
リバンク配列で置き換え、限定されたアクセスを許す共
有メモリ方式とし、転送オーバヘッドをなくす方針をと
るものとする。事実その方針で、ハイパークロスネット
方式で用いたプロセッサの２次元配列をベクトルプロセ
ッサの１次元配列で置き換えたものが、先に昭和６３年
特許願第２７８７６５号（特開平２−１２３４８１号
「並列ベクトル計算機」）として提案したものである。
ところが、この場合でもなおアクセス経路が不十分であ
って、ハイパークロスネットの場合と同様にデータを編
集し直すたびに新しいデータとしてメモリ領域を確保し
なければならず、同種のデータを２重３重にもつことも
多くなり、メモリの有効活用という点で問題を残してい
た。

【０００４】本発明は、アクセス経路をさらに充実化し
てメモリ領域確保の無駄を排除することを目的とする。
この場合、アクセス経路を増やすことはデータバスの本
数を増やすものであるため、可能な限りバスの共有化を
はかり、なおかつ処理効率の劣化を引き起こさないシス
テム設計と実装形態となるように考慮する。

【０００５】

【課題を解決するための手段】本発明は、上記の目的を
達するため、Ｎ³個のメモリバンクの立方配列｛ＭＢ
（ｉ，ｊ，ｋ），但し、ｉ，ｊ，ｋ＝１，２…，Ｎ｝か
らなる主記憶部と、制御用プロセッサユニットＣＵ及び
Ｎ台の並列計算用ベクトルプロセッサユニットＶＵ１，
ＶＵ２，…，ＶＵＮからなるプロセッサ部、並びに前記
主記憶部と各ベクトルプロセッサユニットとの間にあっ
てそれぞれベクトルデータを一時的に記憶するためのＮ
個のベクトルラッチからなるベクトルラッチ部を備えた
バックエンド用計算機システムであって、（ａ）前記制御用プロセッサユニットＣＵは、前記Ｎ台
のベクトルプロセッサユニット、前記Ｎ個のベクトルラ
ッチ及び主記憶部に制御信号を発信して並列同期動作を
指示するものであり、（ｂ）前記主記憶部のＮ³個のメモリバンク配列は、各
枚毎に共通バスをＮ行Ｎ列の平面格子状に配列したＮ枚
の主記憶ボードにおいて、それぞれＮ²個ずつ支持さ
れ、各ボードにおけるＮ²個のメモリバンクは同ボード
のＮ²個の行列バス格子点に分配接続されたＮ²個のア
クセスラッチにそれぞれ接続されたことにより、対応す
る行バス及び列バスの双方からアクセスできるようにな
っており、（ｃ）前記Ｎ個のベクトルラッチの各々は、それぞれＮ
個の要素ラッチを有し、これらＮ個の要素ラッチには対
応する前記Ｎ枚の主記憶ボードとの間でデータを入出力
するために１個ずつの並列ポートを設けるとともに全ベ
クトルラッチを通じて同一要素番号のポート毎に共通に
バス接続し、これらＮ組のバスは要素ラッチ番号に対応
する主記憶ボードの列選択回路を介して選択された同一
番号をもつアクセスラッチ列に接続されるとともに、Ｎ
個のベクトルラッチ毎にはＮ個の要素ラッチを共通接続
する内部バスの両端に第１及び第２の直列ポートを設
け、それら全Ｎ個の第１の直列ポートはボード分配回路
とベクトルラッチ番号に対応した主記憶ボードの行選択
回路を介して選択された同一番号をもつアクセスラッチ
行に接続される、または同直列ポートはボード選択回路
を介して、選ばれた主記憶ボード上の、ベクトルラッチ
番号に対応したアクセスラッチ列に接続され、これによ
って前記Ｎ個のベクトルラッチと主記憶部との間に、前記第１の直列ポートに対応する主記憶ボード各枚
の、選択された同一番号の行方向バスを通じ、メモリバ
ンクの立方配列内にＮ組の行ベクトルデータを送受信す
る第１のアクセス経路、前記Ｎ個の並列ポートにそれぞれ対応する主記憶ボー
ド各枚の、選択された同一番号の列方向バスを通じ、メ
モリバンクの立法配列内のＮ組の垂直ベクトルデータを
送受信する第２のアクセス経路、及び選択された１枚の主記憶ボード中で、前記第１の直列
ポートの各々に対応する各列方向バスを通じ、メモリバ
ンクの立法配列内のＮ組の列ベクトルデータを送受信す
る第３のアクセス経路、のいずれか一つを確立するもの
であり、（ｄ）前記Ｎ個のベクトルプロセッサユニットＶＵ１，
ＶＵ２，…，ＶＵＮの各々はベクトル演算装置を有する
ことにより、ベクトルデータに対する演算を行なうもの
であって、前記第２の直列ポートを通じて対応する各ベ
クトルラッチと接続されたことにより、前記各アクセス
経路において同ベクトルラッチ内に一時配置されるベク
トルデータを演算処理するものである、ことを特徴とす
るベクトルプロセッサの１次元配列とメモリバンクの３
次元配列を有するベクトル並列計算機、を構成したもの
である。

【０００６】

【作用】上記の構成によれば、ベクトル計算を行なうベ
クトルユニット（「ベクトルプロセッサユニット」の
略、以下同じ。）の１次元配列と３次元格子状に配置し
たメモリバンクのシステムにおいて、基本的には３種の
処理状態とそれに応じたメモリアクセス経路を許す。す
なわち、要素データからなる３次元配列データを、その
１次元部分配列である「行ベクトル」の組、または「垂
直ベクトル」の組、あるいは「列ベクトル」の組とみる
見方を許し、それぞれに対応した前記第１〜第３のアク
セス経路を通じてベクトルユニット内のベクトルレジス
タにもってきて処理し、そこから結果を運び出す。いま
記述を明確にするため、３次元配列データを生じさせる
もとになるｘ，ｙ．ｚ座標系を考え、「行ベクトル」と
は任意に指定したｚ値とｘ値に対してｙ座標をアーギュ
メント（引き数：独立変数）にしてきまる１次元部分配
列であり（図１）、「垂直ベクトル」とは任意に指定し
たｘ値とｙ値に対してｚ座標をアーギュメントにしてき
まる１次元部分配列であり（図２）、そして「列ベクト
ル」とは任意に指定したｙ値とｚ値に対してｘ座標をア
ーギュメントにしてきまる１次元部分配列である（図
３）ものとする。

【０００７】そこで、第１のアクセス経路を用いた第１
の処理状態とは、３次元配列データについて、任意に指
定したｘ値に対してできる断面となる行ベクトルの組
（図１のハッチング部分）に対してベクトルユニットの
組がｙ座標に沿ってはベクトル処理、ｚ座標に亘っては
並列に処理する状態を指し、通常はｘ値を順次変更しな
がら逐次処理をすることになる。

【０００８】また、第２のアクセス経路を用いた第２の
処理状態とは、同じく任意に指定したｙ値に対してでき
る断面となる垂直ベクトルの組（図２のハッチング部
分）に対して、上と同じベクトルユニットの組がｚ座標
に沿ってはベクトル処理、ｘ座標に亘っては並列に処理
する状態を指し、やはり通常はｙ値を順次変更しながら
逐次処理をする。

【０００９】そして、第３のアクセス経路を用いた第３
の処理状態とは、同じく任意に指定したｚ値に対してで
きる断面となる列ベクトルの組（図３のハッチング部
分）に対して、上と同じベクトルユニットの組がｘ座標
に沿ってはベクトル処理、ｙ座標に亘っては並列に処理
する状態を指し、やはり通常はｚ値を順次変更しながら
逐次処理をする。

【００１０】結局、本発明では３次元配列データに対
し、３つの次元方向にベクトル処理、並列処理、逐次処
理を割り振って計算することを基本にするもので、それ
に３種の方向属性による処理状態を与えるものである。
３種の処理状態を区別するのに、逐次処理する方向によ
って呼称するものとし、第１、第２、第３の処理状態を
それぞれｘ方向、ｙ方向、ｚ方向の処理ということにす
る。

【００１１】２次元配列データの処理では、第４のアク
セス経路を用いることにより、３次元にもう１次元メモ
リバンク自体の構造に関するもの（「深さ」次元とい
う、図４参照）を加えた４次元配列にマッピングして処
理することができる。この第４のアクセス経路は、前記
第１の直列ポートに対応する主記憶ボード各枚の、選択
された同一番号の行内で、補助的列アドレス指定により
選択された同一番号のバンク内のＮ語を対応するアクセ
スラッチに順次出し入れし、かつ対応する行方向バスを
通じて送受信するものであり、それは任意に指定したｘ
値とｙ値に対して「深さ」方向に沿ってはベクトル演
算、ｚ座標に亘っては並列に処理することを単位とし
て、ｘ値とｙ値を順次に変更しながら逐次処理するもの
である。この処理は、「深さ」処理又は補助的なＸ方向
処理と言うことにする。

【００１２】

【実施例】

アーキテクチャの構成例本発明の主眼は、上記３種（及び補助的なもの１種）の
処理状態を基本にするシステムであることと、それらの
処理を可能にするために主記憶装置たるメモリバンク配
列への３種（及び補助的なもの１種）のアクセス経路の
確保にある。その経路確保について具体的な図示構造に
基づいて説明する。図で説明する上で、簡略化のために
ベクトルユニットの個数Ｎを４とした場合をとりあげ、
それを図５に示す。但し、実用のためにはＮ＝１６以上
が望ましいと考えるが、その場合にもここでの説明はそ
のまま通用する。図５では実装上のことも配慮し、３つ
の部分に分けて描かれている。すなわち、プロセッサ部
２１、主記憶部２２、及びそれらを結ぶベクトルラッチ
部２３である。

【００１３】主記憶部２２はＮ＝４に対応して４枚のボ
ードＢ１，…，Ｂ４上に分けてそれぞれ、バンクメモリ
１の２次元部分配列（４×４）を配置する。いまそれら
のボードは３次元配列インデックスのｚ値を指定すれば
一つ選択されるということにしておく。最もボード
（板）といってもＮが大きい場合、その上に乗る素子の
量も増え、実際には何枚かのボードに分けなければなら
なくなるが、ここで使う「ボード」、特定すれば「主記
憶ボート」という用語はそのような場合も含めて概念的
に使っている。

【００１４】各バンクメモリ１毎に一つのアクセスラッ
チ（例えばＮ語などの一定語長容量）２を設け、それら
のラッチを、各ボード上で縦横に（ここではｘ方向を列
３とし、ｙ方向を行４として）張り巡らしたデータバス
の交点（ノード）に位置するところにおく。そして、各
列、あるいは各行毎のバスを共通バスとしてそれにつな
がるラッチ２がアクセスできるものとする。したがっ
て、それらのラッチの内容を要素とする長さＮの列ベク
トルあるいは行ベクトルがインターリーブ方式でアクセ
スされる単位となる。さて、各ボードに共通して、行４
に関するｘ方向処理のときは、ｘ値を指定することでい
ずれかの行をセレクタ７により選択し、それを主記憶ボ
ードに対応した一つの列バスであるｘ値選択列バス８を
通じてベクトルラッチ部２３のそれに対応したベクトル
ラッチにつながるようにする（図６参照）。ラッチにつ
ながるすべての列バス３はｙ方向処理とｚ方向処理の場
合に利用され、ｙ方向処理のときは、ｙ値を指定するこ
とでいずれかの列バスをセレクタ５により選択し、ｙ値
選択バス６を介して、その先をベクトルラッチ部２３の
主記憶ボードに対応した並列ポートにつながるようにす
る。（図７参照）。また、ｚ方向処理のときは、それら
の列バス３をそのまま延長したものを通じてベクトルラ
ッチ部の対応するベクトルラッチにつながするようにす
る（図８参照）。

【００１５】ベクトルラッチ部２３は主記憶部２２とプ
ロセッサ部２１の間にあって（図５参照）、主記憶部に
データを書いたり、そこから読んだりするときにＮ語長
のベクトルのＮ個分を一時記憶するためのものである。
このラッチ部２３はやはり２次元格子状（Ｎ×Ｎ）に要
素ラッチ（１語長）を配置し、それぞれ列方向に並んだ
Ｎ個のラッチを一組にしたものをベクトルラッチ９と
し、それらのラッチにベクトルを出し入れするための
「直列バス」は主記憶部に延びるバス部分１０とプロセ
ッサ部へ延びるバス部分１４を有する。ｘ方向処理のと
きは主記憶部に向かう直列バス部分１０は、ラッチ９毎
に、分岐接続されたｘ値選択列バス１１を介してそれぞ
れ対応する主記憶ボードに接続される。すなわち、ｘ値
選択列バス１１はボード分配回路を構成する。また、ｚ
方向処理のときは同じく主記憶部に向かう直列バス１０
は、セレクタ１２により一つだけ選択された主記憶ボー
ド（ｚ値選択ボード）からのすべての列バス８にそれぞ
れつながる。これは、ボード選択回路に外ならない。こ
れらｘ方向とｚ方向処理の場合には、いずれも主記憶部
でのベクトル（列あるいは行ベクトル）がそのままベク
トルラッチ内のベクトルに対応するようなデータ転送に
なる。そうでないのがｙ方向処理のときである。そのと
きのために、同じベクトルラッチの組に対してベクトル
の成分番号毎にできるセクションにデータを出し入れす
るための「並列バス」１３がＮ組設けられ、それは主記
憶部との間で対応するボードからの列選択回路を構成す
るｙ値選択バス６につながる。ｙ値選択バスの一つ一つ
から読み出され、ベクトルラッチに配置されるものは前
記ベクトルに該当するものではなく、並列バスを通じて
一時記憶し、直列方向に見れば望みのベクトルとして、
主記憶部での垂直ベクトルが得られたことになる。逆に
主記憶部に書き入れるときもベクトルデータの組をセク
ションデータの組にして並列バスとｙ値選択バスを通じ
て書き込むことになる。一方、ベクトルラッチの組から
プロセッサ部の方には前記直列バス１４の組のみが出て
おり、それらがそれぞれ対応するベクトルユニットに直
結する。

【００１６】プロセッサ部２１には、主に１個のコント
ロールユニット１５とＮ個のベクトルユニット１６が置
かれる。すべてのベクトルユニットは同一形状であっ
て、複数のベクトルレジスタと複数のパイプライン１７
をもつ。それらの長さは一般にはＮの何倍かとしベクト
ル計算処理の効率をあげるようにする。また、スカラ計
算のために各ベクトルユニットにスカラ演算装置１８や
スカラ用データメモリ１９をもつのが望ましい。さら
に、ベクトルレジスタの一つを外部との入出力用レジス
タとし、各ベクトルユニットからデータの入出力が可能
となるチャネル２０を設置するのが望ましい。また、コ
ントロールユニットはすべてのベクトルユニットに同一
の演算処理のコマンド列を発すること、主記憶部にアド
レスを発すること、及びベクトルラッチ部と主記憶部に
処理方向信号などの制御信号を発することを司る。当然
コントロールユニットには命令語用のメモリとそれの解
読装置が内蔵されている。

【００１７】主記憶データを用いて演算を進める標準的
な処理であって、ｘ方向処理の場合を想定する。コント
ロールユニットが「読み出し」という命令語に従ってｘ
方向処理信号とｘアドレスとバンク内アドレスを主記憶
部におくる。そのときすべてのボードにつきｘアドレス
できまる行のアクセスラッチに一つずつデータが一時記
憶される。続いて、それぞれのｘ値選択行バスと直列バ
スを通じてベクトルラッチ部に移され、さらにベクトル
レジスタにまで運ばれる。そこで、バンク内アドレスだ
けをかえて同じ経路を経て、先のベクトルレジスタにア
ペンドすれば、倍長の列ベクトルがレジスタに確保され
る。同じことを何回か繰り返せば、レジスタ長にマッチ
したデータができあがる。別の被演算データも同じよう
にして別のベクトルレジスタに確保できると、そこでベ
クトルパイプラインに移して（あるいはベクトル要素並
列処理プロセッサアレイによって）ベクトル演算を行な
わせる。なお、上記繰り返しや、続く別のデータのアク
セスを効率良くやるために、アクセスラッチ‐ベクトル
ラッチ‐ベクトルレジスタ間のデータの流れをパイプラ
イン的にすきまなく連続して行なうことが肝要である。
すなわち、一つの部分データを先に送ればただちに次の
部分データを持つようにする。結果を主記憶に書き入れ
る場合ｘ方向処理信号をそのまにして、適当なｘアドレ
スとバンク内アドレスを与えれば、上記経路を逆向きに
辿ることで蓄えられる。ｙ方向処理やｚ方向処理の場合
も同様である。補助的なｘ方向処理の場合だけ、少し違
っていて、すべてのボードにつき（すなわちｚアドレス
に亘って）同一のｘアドレスとｙアドレスを指定してき
まるバンク内で一定間隔で配置されるべきデータからな
るベクトル（「深さ」方向ベクトル）の要素を複数容量
をもつアクセスラッチ内に一時記憶させることを順次繰
り返し、ｘ方向処理と同じ経路によってベクトルレジス
タにつなぐようにする（図９参照）。

【００１８】ｘ方向処理では、ｘアドレスだけが異なる
行ベクトル同志の演算は直ちにＺ方向に亘りベクトル並
列演算ができるが、ｙアドレスだけが異なる垂直ベクト
ル同志の演算ではｙ方向処理を行い、ｚアドレスだけが
異なる列ベクトル同志の演算ではｚ方向処理を行なう。
もちろん、計算対象になる３次元データは、どの方向処
理でも同一のものであり、どの方向のベクトルとして処
理するかに違いがあるだけである。

【００１９】また、「深さ」次元の加わった４次元デー
タに対する補助的なｘ方向処理では、ｘアドレスかｙア
ドレスが異なる（両者が同じなら、変数名の異なる）深
さベクトル同志の演算は深さ方向に沿ってベクトル計算
し、ｚ方向に亘り並列演算ができる。

【００２０】結局、本発明においては、同一３次元デー
タを３つの方向からみる手段と、４次元データを補助的
ｘ方向とｚ方向の２つの方向からみる手段を与え、基本
的には前記３つの方向処理あるいは２つの方向処理を適
宜組み合わせて順治処理を行なうことができる。

【００２１】本ベクトル並列計算機は、科学技術計算で
扱う３次元シミュレーションや２次元シミュレーション
あるいは行列計算にきわめて都合よくなるように設計さ
れている。特に、３次元配列データを扱う場合にも最も
都合がよい。それを原形として、２次元配列の問題や行
列計算にも拡張利用することになる。このシステムを使
う場合、３次元問題なのか、２次元問題なのかを予め指
定しておくことを前提としている。

【００２２】さて、原形になる３次元問題の扱いをまず
説明する。その際、３次元配列データを主記憶に置く仕
方に際立った特徴がある。たとえば、配列｛u(i,j,k),
i＝１，Ｎ, j＝１, Ｎ， k ＝１，Ｎ｝の場合、その
各配列要素u(i,j,k) はインデックス(i,j,k) をもつメ
モリバンク内におかれることになる。このようにする
と、メモリバンク自体では、バンク内アドレスを指定す
ることで、すべてのメモリバンクから１個ずつで合計Ｎ
³個のデータを一度にアクセスできることになってい
る。しかし、本計算機では、それだけの大量データを一
度に主記憶部から出し入れするためのデータバスを設け
ることはせず、i,j,k のうちいずれか一つを任意に特定
してきまる２次元部分配列のＮ²個のデータが一度に出
し入れできるようになっている。

【００２３】次に、特徴的なことは、同じく３次元配列
データに対するアクセスに３様の状態があって任意に選
択できることである。この３つのアクセス状態を区別す
るためにインデックス表現にスラッシュを用いた次の表
現を導入する。（１）u(i,/j,k/) （２）u(i/,j,/k) （３）u(/i,j/,
k) ここで第１のものは、ｉ値を指定して、残りのｊ，ｋを
アーギュメントとする２次元部分配列をアクセスする状
態を指す。同様に第２のものは、ｊ値を指定して、ｋ，
ｉをアーギュメントとする２次元分配部分配列をアクセ
スする状態、第３のものは、ｋ値を指定してｉ，ｊをア
ーギュメントとする２次元分配配列をアクセスする状態
を表す。なおこられの表記はアクセス状態の違いを表す
だけでデータとしては同一のものを指す。そして、
（１）〜（３）はそれぞれ上述のｘ方向処理、ｙ方向処
理とｚ方向処理に対応するものである。もしベクトル並
列処理を明確に表すなら、３様の処理状態は（１）u(i,/j,/k//) （２）u(/i//,j,/k) （３）u(/
i,/j//,k) と表せよう。すなわち、（１）ではｉについて逐次処
理、ｊ，ｋについては並列に処理することになるが、ｊ
についてはベクトル処理、２重スラッシュに囲まれたｋ
については純粋に並列に処理する。同じく（２）ではｊ
について逐次処理、ｋについてはベクトル処理、ｉにつ
いては純粋な並列処理を行い、（３）ではｋについて逐
次処理、ｉについてベクトル処理、ｊについて純粋に並
列処理を行なう。但し、通常はベクトル処理も、純粋に
並列処理も概念としては並列処理にみとめてしまい、ユ
ーザーにはその区分を強いないプログラミング言語の提
供が望まれる。たとえば、普通なら do １０ｋ＝１，１６ do １０ｊ＝１，１６ do １０ｉ＝２，１５１０ v(i,j,k)＝u(i+1,j,k)＋u(i-1,j,k) と書くものは pdo j＝１，１６, k＝１，１６ do １０ｉ＝２，１５１０ v(i,/j,k/)＝u(i+1,/j,k/)＋u(i-1,/j,k/) pend などと表現する。ここでpdo 文によって指定されるイン
デックスにつき（pend文までを）並列処理することを表
す。２重スラッシュを避けたのはベクトル処理と純粋な
並列処理を区別する必要がないとしたからであり、簡単
化のためにもこの方が望ましい。

【００２４】上記表現で典型的にみられることだが、一
つのpdo-pend構文にあっては、スラッシュ内インデック
スは、pdo 文に現われたインデックスのみを許し、他の
変数や式は不可としておくのが望ましい。実は、上例で
は本来２重スラッシュに入るべきインデックｋは、純粋
に並列処理を行なうベクトルユニット番号に対応するも
ので、ここに式などを許すことは、ベクトルユニット間
のデータ移動をも伴う内容となり、簡明な並列処理の表
現と実現を建前とする立場から逸脱してしまう。一方、
インデックスｊについてはベクトルデータの要素番号に
あたるべきものであり、ｊ＋１やｊ−１などの式を許し
てもベクトルレジスタ内のシフト処理で済むほどに容易
であるが、もっと一般の式も可能のような印象を与えて
はまずいので、１重スラッシュ内のインデックスについ
てもpdo 文のインデックスそのものに限定しておくのが
望ましい。ｊやｋの部分に式を用いたいときには処理方
向を変えればよい。そのために３様の処理方向を許した
のである。

【００２５】次に、２次元問題の実現に移ろう。これが
スムーズに行なえることも大変に重要である。２次元配
列を扱うシミュレーションも頻繁に登場し、また行列計
算のためにも２次元的処理が自然だからである。ここで
重要なのは２次元配列、例えば｛u(i,j),i＝１，Ｎ²,
j ＝１，Ｎ²｝をどのように３次元的格子状のメモリ
バンク配列に写像するかということである。この場合に
も（１）u(i,/j/) （２）u(/i/,j) の２方向の処理状態を与えるのがよい。（１）の方はｉ
について逐次処理、ｊについて並列処理する状態（ｘ方
向処理）、（２）の方はｉについて並列処理、ｊについ
て逐次処理する（ｙ方向処理）状態を表す。しかもどち
らの状態であっても、同一のデータをアクセスするよう
になっていなければならない。いまインデックスｉとｊ
に、それぞれインデックス対（ｒ，ｑ）と（ｔ，ｓ）を
対応させる。それらの間には関係式ｉ＝（ｑ−１）Ｎ＋ｒ，ｊ＝（ｓ−１）Ｎ＋ｔが成り立つものとする。そごて、上式（１）、（２）に
対し、（３）u(r,/q,/t//)(s) （４）u(/r,/q//,t)(s) なる４次元配列を対応させ、ｒ，ｑ，ｔは３次元メモリ
バンク配列のインデックスにあたり、ｓはさらにメモリ
バンク内での区分のためのインデックスとみる。ここ
に、（３）は３次元処理の場合のｘ方向処理のものであ
り、（４）は同じくｚ方向処理のものである。他の対応
付けも可能だが、今は一組だけ選びそれをいつの場合に
も用いると決めておけばよい。なおここで、（４）の方
はもとのインデックス/i/ がそのままスラッシュつきの
/r,/q// に置き代わったもので、ｊすなわち（ｔ，ｓ）
が指定されれば、ｒとｑについて並列アクセスされる。
ところが（３）の方では、ｉが指定されると、ｒとスラ
ッシュ内のｑが与えられたことになり、並列アクセス用
のインデックスｑが指定されてしまい、当然一度にＮ²
ではなくＮ個のデータをアクセスするだけになり、ベク
トルユニットが生きた演算をするためにはデータ不足で
ある。すなわち、ｔについての並列処理だけになる。Ｎ
²のものをアクセスし並列処理するにはインデックスｓ
についてＮ個の連続するデータをもってくればよいが、
これはいずれも同一バンク内のデータをＮ個ずつ取り出
す（書き込む）ことになる。この場合、バンク内を複数
個のサブバンクに分けてｔが共通でｓが異なるものをイ
ンタリーブ方式で取り出せるようにするか、メモリバン
クにおいてアクセスラッチまでのバースト転送が可能と
なる工夫をしておく。そうすると、ｓについてＮ語長の
ベクトルがｘ値選択行バスと直列バスを通じてベクトル
レジスタに出し入れできることになる。これが補助的ｘ
方向処理である。このことを正確に表現するなら、実際
には上の（３）の代わりに、（５） u(r,q,//t//)(/s/) を用いることにあたっている。但し、これは３次元問題
では登場しなかったものである。これについてはシステ
ムソフトウエアが知っておけばよいことで、ユーザーは
あくまでu(i,/j/)とu(/i/,j)の２様の処理形態があるこ
とだけを認識できればよい。

【００２６】２つの行列｛a(/i/,j),i,j＝１，２，...,
２５６｝と｛b(/i/,j),i,j＝１，２，...,２５６｝の和
を求めるなら pdo ｉ＝１，２５６ do １０ｊ＝１，２５６１０ a(/i/,j)＝a(/i/,j)＋b(/i/,j) pend の様に表す。これに対してシステムソフトウエアは次の
様な展開を行なう。 pdo r,q ＝１，１６ do １０ｔ＝１，１６ do １０ｓ＝１，１６１０ a(/r,/q//,t)(s) ＝a(/r,/q//,t)(s) ＋b
(/r,/q//,t)(s) pend 一方、行列｛a(i,/j/),i,j＝１，２，...,２５６｝と
｛b(i,/j/),i,j＝１，２，...,２５６｝の和を求める pdo ｊ＝１，２５６ do ２０ｉ＝１，２５６２０ a(i,/j/)＝a(i,/j/)＋b(i,/j/) pend に対しては、次の様な展開になる。 pdo t,s ＝１，１６ do ２０ｒ＝１，１６ do ２０ｑ＝１，１６２０ a(r,q,//t//)(/s/)＝a(r,q,//t//)(/s/) ＋
b(r,q,//t//)(/s/) pend

【００２７】システム設計例ここでは現時点で提供可能なベクトルチップを用いたコ
ンパクト設計による、コストパフォーマンスの高いスー
パーコンピュータの実施例を挙げる。Ｎ＝１６とする。
主記憶部を１６枚ボードで実装する。プロセッサ部には
ベクトルユニット用の１６枚のボードとコントロールユ
ニット用の１枚のボードを用意する。これらのボードの
各エッジを１枚のマザーボードに差込む形をとる。この
マザーボード上にはベクトルラッチも搭載する。

【００２８】さて、各主記憶ボード上には１６×１６の
メモリバンクを配置する。各バンクには４Ｍビット（１
Ｍ×４）ＤＲＡＭ（５０ｎｓ）を１６個配置し、倍精度
長で１ＭＷ分をもたせる。そうすると、ボードあたり２
５６ＭＷ（２０４８ＭＢ）、主記憶全体で４０９６ＭＷ
（３２ＧＢ）の大きさが確保できる。各ボード上のメモ
リチップの総数は４０９６個であり、各バンクに６４ビ
ット長ラッチを外付けし、アドレス値選択回路を置いた
としても十分におさまる。なお、６４ビットデータバス
の１６組を１セットにして、それが縦横に２セット走る
ことになる。

【００２９】このような実装では、ボードのエッジに出
てくるデータバスの本数は、主要部分だけについては
（パリティ用などを除いて）行バス分に６４×１６＝１
０２４本、列バス分に６４本の合計１０８８本である。
アドレスバスは次に述べるように、３２ビット分があれ
ばよく、その他には４つの処理方向を決める制御線２本
やクロックなどである。

【００３０】４０９６ＭＷ分のアドレス指定には３２ビ
ットアドレスが必要であるが、それを次のように割り振
る。３次元問題のときには各座標方向に８ビットを与
え、そのうち４ビットを物理的バンクアドレス、残りの
４ビットを仮想的バンクアドレス分に使う。これにより
一方向に２５６個の論理的バンクアドレスが確保でき
る。３方向に２４ビット分を用いたとして、残りの８ビ
ットが変数の同定に使われる。なお、仮想的バンクアド
レス分で利用されなかったものも変数同定にまわしてよ
い。要するに、最大処理可能な問題として２５６×２５
６×２５６の格子点上で２５６個の変数をもつものまで
を許す。２次元問題では、２次元配列を４次元配列に写
像して用いるが、そのうち３方向にそれぞれ６ビットず
つを与え、そのうち４ビットを物理的バンクアドレス指
定に、残りの２ビットを仮想バンクアドレス指定分に用
いる。さらに、バンク内指定に残る１４ビットの内６ビ
ットを第４次元のためのものとし、残り８ビットが変数
同定に使われる。このようにすれば４０９６×４０９６
の格子点上で２５６個の変数を持つ問題までが可能にな
る。

【００３１】ベクトルラッチ部には１６語長のベクトル
ラッチが１６個設けられ、それぞれ直列バス、並列バス
につながる。

【００３２】ベクトルラッチ部を通じた主記憶部のアク
セスはインターリーブ方式により、サイクル時間が４８
ｎｓ／１６Ｗとなるようにする。これにはラッチやセレ
クタ回路遅延も含めてある。

【００３３】プロセッサ部では１００ＭＨｚで動作可能
なＣＭＯＳベクトルチップを１６個用いる。各チップ内
にはベクトルレジスタ（倍精度語で２５６語分）が１６
本、ベクトルパイプラインが４本備えられる。その他コ
マンドバッファやチップ内コントロールユニットやバス
ユニットが内蔵され、さらに、スカラーユニット及びス
カラーレジスタが含まれる。このチップにはスカラーデ
ータ用のメモリが外付けされる（各４０９６語）。ま
た、コントロールユニットにも１００ＭＨｚで動作可能
なプロセッサと命令語格納メモリ（１Ｍ語）を持つ。実
効速度は２本のパイプラインが連続運転される場合を想
定し、３．２ＧＦＬＯＰＳと見積れる。ピーク性能は
６．４ＧＦＬＯＰＳである。これはメモリスループット
として約１．７Ｗ／ＦＬＯＰを実現している。

【００３４】

【発明の効果】本発明は、従来のスーパーコンピュータ
を土台にして、次に発展すべき方向を指し示すものであ
り、次世代の高性能マシンとして最も可能性の高い方途
を与えている。それは、既に実証済みのハイパークロス
ネット方式並列計算機（特許第１４０４７５３号に係る
もの）の優れた点を継承し、なおかつ築き上げられたベ
クトル計算機技術と結合するものである。ハイパークロ
スネット方式は優れて科学技術計算応用問題向きであ
り、ユーザーに簡明であり、しかもこれまでのどの並列
計算機よりも柔軟性に富んだアーキテクチャとなってい
る。ネットワークを介したデータ転送方式はハードウエ
ア負荷の軽減にはなっているが、データ転送によるオー
バーヘッドを避けがたく実効性能を低下させてしまう。
ハイパークロスネットではデータ転送を配列の分有方法
を変えるデータ編集ととらえたことが大きな成功の鍵に
なったが、そのデータ編集をネットワークによるのでな
く、主記憶メモリバンクの一定様式の組織化とアクセス
方途の多様化によって実現したのが本発明ベクトル並列
計算機である。これによって転送オーバーヘッドの問題
はなくなり、しかも分有方法が異なる度にデータを確保
しなければならない無駄をなくすことができた。結果と
して、共有メモリ方式と分散メモリ方式の丁度中間的な
位置づけのできるシステムが生まれ、両者の利点をあわ
せもつことが可能になった。すなわち、利用の仕方から
みてほぼ十分な自由度を持つアクセス可能性と組織的バ
ンク化により競合を排するとともに高速アクセスを許す
ものである。その結果、実効性能についていえば、従来
のベクトル計算機ではバンクへのアクセス競合で効果が
でなかったり、ハイパークロスネットでデータ編集に時
間の損失をみていたことが解消され、ほぼピーク性能に
近い高性能を実現することができるようになった。

【００３５】次世代のスーパーコンピュータは多数のベ
クトルユニットとメモリユニットをうまくシステム化し
てできるだけ効率よく並列処理できるようにしたものと
なることが予想できるが、その解答として最も期待がも
てるのが本発明ベクトル並列計算機である。

【図面の簡単な説明】

【図１】本発明で処理する行ベクトルデータの組（束）
を示す模型図である。

【図２】本発明で処理する垂直ベクトルデータの組
（束）を示す模型図である。

【図３】本発明で処理する列ベクトルデータの組（束）
を示す模型図である。

【図４】本発明で処理する深さベクトルデータの組
（束）を示す模型図である。

【図５】本発明のシステム構成例を示すブロック線図で
ある。

【図６】図５のシステムにおいてｘ方向処理回路を抽出
した図である。

【図７】図５のシステムにおいてｙ方向処理回路を抽出
した図である。

【図８】図５のシステムにおいてｚ方向処理回路を抽出
した図である。

【図９】図５のシステムにおいて深さ方向処理回路を抽
出した図である。

【符号の説明】

１メモリバンク２アクセスラッチ９ベクトルラッチ

─────────────────────────────────────────────────────

【手続補正書】

【提出日】平成５年１０月４日

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】特許請求の範囲

【補正方法】変更

【補正内容】

【特許請求の範囲】

【手続補正２】

【補正対象書類名】明細書

【補正対象項目名】０００５

【補正方法】変更

【補正内容】

【０００５】

【課題を解決するための手段】本発明は、上記の目的を
達するため、Ｎ^３個のメモリバンクの立方配列｛ＭＢ
（ｉ，ｊ，ｋ），但し、ｉ，ｊ，ｋ：１，２…，Ｎ｝か
らなる主記憶部と、制御用プロセッサユニットＣＵ及び
Ｎ台の並列計算用ベクトルプロセッサユニットＶＵ１，
ＶＵ２，…，ＶＵＮからなるプロセッサ部、並ひに前記
主記憶部と各ベクトルプロセッサユニットとの間にあっ
てそれぞれベクトルデータを一時的に記憶するためのＮ
個のベクトルラッチからなるベクトルラッチ部を備えた
バックエンド用計算機システムであって、（ａ）前記制
御用プロセッサユニットＣＵは、前記Ｎ台のベクトルプ
ロセッサユニット、前記Ｎ個のベクトルラッチ及び主記
憶部に制御信号を発信して並列同期動作を指示するもの
であり、（ｂ）前記主記憶部のＮ^３個のメモリバンク配
列は、各枚毎に共通バスをＮ行Ｎ列の行列の形に配列し
たＮ枚の主記憶ボードにおいて、それぞれＮ^２個ずつ支
持され、各ボードにおけるＮ^２個のメモリバンクは同ボ
ードのＮ^２個の行列バス格子点に分配接続されたＮ^２個
のアクセスラッチにそれぞれ接続されたことにより、対
応する行バス及び列バスの双方からアクセスできるよう
になっており、（ｃ）前記Ｎ個のベクトルラッチの各々
は、それぞれＮ個の要素ラッチを有し、これらＮ個の要
素ラッチには対応する前記Ｎ枚の主記憶ボードとの間で
データを入出力するために１個ずつの並列ポートを設け
るとともに全ベクトルラッチを通じて同一要素番号のポ
ート毎に共通に外部バス接続し、これらＮ組のバスは要
素ラッチ番号に対応する主記憶ボードの列選択回路を介
して選択された同一番号をもつアクセスラッチ列に接続
されるとともに、Ｎ個のベクトルラッチ毎にはＮ個の要
素ラッチを共通接続する内部バスの両端に第１及び第２
の直列ポートを設け、それら全Ｎ個の第１の直列ポート
はボード分配回路とベクトルラッチ番号に対応した主記
憶ボードの行選択回路を介して選択された同一番号をも
つアクセスラッチ行に接続される、または同直列ポート
はボード選択回路を介して、選ばれた主記憶ボード上
の、ベクトルラッチ番号に対応したアクセスラッチ列に
接続され、これによって前記Ｎ個のベクトルラッチと主
記憶部との間に、前記第１の直列ポートに対応する主記憶ボード各枚
の、選択された同一番号の行方向バスを通じ、メモリバ
ンクの立方配列内にＮ組の行ベクトルデータを送受信す
る第１のアクセス経路、前記Ｎ個の並列ポートにそれぞれ対応する主記憶ボー
ド各枚の、選択された同一番号の列方向バスを通じ、メ
モリバンクの立法配列内のＮ組の垂直ベクトルデータを
送受信する第２のアクセス経路、選択された１枚の主記憶ボード中で、前記第１の直列
ポートの各々に対応する各列方向バスを通じ、メモリバ
ンクの立法配列内のＮ組の列ベクトルデータを送受信す
る第３のアクセス経路、及び前記第１の直列ポートに対応する主記憶ボード各枚
の、選択された同一番号の行内で、補助的列アドレス指
定により選択された同一番号のバンク内のＮ語を対応す
るアクセスラッチに順次出し入れし、かつ対応する行方
向バスを通じて送受信する第４のアクセス経路、のいずれか一つを確立するものであり、（ｄ）前記Ｎ個
のベクトルプロセッサユニットＶＵ１，ＶＵ２，…，Ｖ
ＵＮの各々はベクトル演算装置を有することにより、ベ
クトルデータに対する演算を行なうものであって、前記
第２の直列ポートを通じて対応する各ベクトルラッチと
接続されたことにより、前記各アクセス経路において同
ベクトルラッチ内に一時配置されるベクトルデータを演
算処理するものである、ことを特徴とするベクトルプロ
セッサの１次元配列とメモリバンクの３次元配列を有す
るベクトル並列計算機、を構成したものである。

【手続補正３】

【補正対象書類名】明細書

【補正対象項目名】０００６

【補正方法】変更

【補正内容】

【０００６】

【作用】上記の構成によれば、ベクトル計算を行なうベ
クトルユニット（「ベクトルプロセッサユニット」の
略、以下同じ。）の１次元配列と３次元格子状に配置し
たメモリバンクのシステムにおいて、基本的には３種の
処理状態及び一種の補助的処理状態とそれに応じたメモ
リアクセス経路を許す。すなわち、要素データからなる
３次元配列データを、その１次元部分配列である「行ベ
クトル」の組、または「垂直ベクトル」の組、あるいは
「列ベクトル」の組とみる見方を許し、それぞれに対応
した前記第１〜第３のアクセス経路を通じてベクトルユ
ニット内のベクトルレジスタにもってきて処理し、そこ
から結果を運び出す。いま記述を明確にするため、３次
元配列データを生じさせるもとになるｘ，ｙ．ｚ座標系
を考え、「行ベクトル」とは任意に指定したｚ値とｘ値
に対してｙ座標をアーギュメント（引き数：独立変数）
にしてきまる１次元部分配列であり（図１）、「垂直ベ
クトル」とは任意に指定したｘ値とｙ値に対してｚ座標
をアーギュメントにしてきまる１次元部分配列であり
（図２）、そして「列ベクトル」とは任意に指定したｙ
値とｚ値に対してｘ座標をアーギュメントにしてきまる
１次元部分配列である（図３）ものとする。

【手続補正４】

【補正対象書類名】明細書

【補正対象項目名】００１１

【補正方法】変更

【補正内容】

【００１１】２次元配列データの処理では、第４のアク
セス経路を用いることにより、３次元にもう１次元メモ
リバンク自体の構造に関するもの（「深さ」次元とい
う、図４参照）を加えた４次元配列にマッピングして処
理することができる。この第４のアクセス経路は、任意
に指定したｘ値とｙ値に対して「深さ」方向に沿っては
ベクトル演算、Ｚ座標に亘っては並列に処理することを
単位として、ｘ値とｙ値を順次に変更しながら逐次処理
するものである。この処理は、「深さ」処理又は補助的
なＸ方向処理と言うことにする。

【手続補正５】

【補正対象書類名】明細書

【補正対象項目名】００１４

【補正方法】変更

【補正内容】

【００１４】各バンクメモリ１毎に一つのアクセスラッ
チ（例えばＮ語などの一定語長容量）２を設け、それら
のラッチを、各ボード上で縦横に（ここではｘ方向を列
３とし、ｙ方向を行４として）張り巡らしたデータバス
の交点（ノード）に位置するところにおく。そして、各
列、あるいは各行毎のバスを共通バスとしてそれにつな
がるラッチ２がアクセスできるものとする。したがっ
て、それらのラッチの内容を要素とする長さＮの列ベク
トルあるいは行ベクトルがインターリーブ方式でアクセ
スされる単位となる。さて、各ボードに共通して、行４
に関するｘ方向処理のときは、ｘ値を指定することでい
ずれかの行をセレクタ７により選択し、それを主記憶ボ
ードに対応した共通エッジバス８を通じてベクトルラッ
チ部２３のそれに対応したベクトルラッチにつながるよ
うにする（図６参照）。ラッチにつながるすべての列バ
ス３はｙ方向処理とｚ方向処理の場合に利用され、ｙ方
向処理のときは、ｙ値を指定することでいずれかの列バ
スをセレクタ５により選択し、ｙ値選択バス６を介し
て、その先をベクトルラッチ部２３の主記憶ボードに対
応した並列ポートにつながるようにする。（図７参
照）。また、ｚ方向処理のときは、それらの列バス３を
そのまま延長したものを通じてベクトルラッチ部の対応
するベクトルラッチにつながするようにする（図８参
照）。

【手続補正６】

【補正対象書類名】明細書

【補正対象項目名】００１５

【補正方法】変更

【補正内容】

【００１５】ベクトルラッチ部２３は主記憶部２２とプ
ロセッサ部２１の間にあって（図５参照）、主記憶部に
データを書いたり、そこから読んだりするときにＮ語長
のベクトルのＮ個分を一時記憶するためのものである。
このラッチ部２３はやはり２次元格子状（Ｎ×Ｎ）に要
素ラッチ（１語長）を配置し、それぞれ列方向に並んだ
Ｎ個のラッチを一組にしたものをベクトルラッチ９と
し、それらのラッチにベクトルを出し入れするための
「内部バス」は主記憶部に延びる第１の直列ポート１０
とプロセッサ部へ延びる第２の直列ポート１４を有す
る。ｘ方向処理のときは第１の直列ポート１０は、ラッ
チ９毎に、分岐接続されたｚ値選択バス１１を介してそ
れぞれ対応する主記憶ボードに接続される。また、ｚ方
向処理のときは同じく第１の直列ポート１０は、セレク
タ１２により一つだけ選択された主記憶ボード（ｚ値選
択ボード）からのすべての共通エッジバス８にそれぞれ
つながる。これは、ボード選択回路に外ならない。これ
らｘ方向とｚ方向処理の場合には、いずれも主記憶部で
のベクトル（列あるいは行ベクトル）がそのままベクト
ルラッチ内のベクトルに対応するようなデータ転送にな
る。そうでないのがｙ方向処理のときである。そのとき
のために、同じベクトルラッチの組に対してベクトルの
成分番号毎にできるセクションにデータを出し入れする
ための並列ポートと「外部バス」１３がＮ組設けられ、
それは主記憶部との間で対応するボードからの列選択回
路を構成するｙ値選択バス６につながる。ｙ値選択バス
の一つ一つから読み出され、ベクトルラッチに配置され
るものは前記ベクトルに該当するものではなく、外部バ
スを通じて一時記憶し、直列方向に見れば望みのベクト
ルとして、主記憶部での垂直ベクトルが得られたことに
なる。逆に主記憶部に書き入れるときもベクトルデータ
の組をセクションデータの組にして外部バスとｙ値選択
バスを通じて書き込むことになる。一方、ベクトルラッ
チの組からプロセッサ部の方には前記直列ポート１４の
組のみが出ており、それらがそれぞれ対応するべクトル
ユニットに直結する。

【手続補正７】

【補正対象書類名】明細書

【補正対象項目名】００１７

【補正方法】変更

【補正内容】

【００１７】主記憶データを用いて演算を進める標準的
な処理であって、ｘ方向処理の場合を想定する。コント
ロールユニットが「読み出し」という命令語に従ってｘ
方向処理信号とｘアドレスとバンク内アドレスを主記憶
部におくる。そのときすべてのボードにつきｘアドレス
できまる行のアクセスラッチに一つずつデータが一時記
憶される。続いて、それぞれのｘ値選択行バスと直列ポ
ートを通じてベクトルラッチ部に移され、さらにベクト
ルレジスタにまで運ばれる。そこで、バンク内アドレス
だけをかえて同じ経路を経て、先のベクトルレジスタに
アペンドすれば、倍長の列ベクトルがレジスタに確保さ
れる。同じことを何回か繰り返せば、レジスタ長にマッ
チしたデータができあがる。別の被演算データも同じよ
うにして別のベクトルレジスタに確保できると、そこで
ベクトルパイプラインに移して（あるいはベクトル要素
並列処理プロセッサアレイによって）ベクトル演算を行
なわせる。なお、上記繰り返しや、続く別のデータのア
クセスを効率良くやるために、アクセスラッチ−ベクト
ルラッチ−ベクトルレジスタ間のデータの流れをパイプ
ライン的にすきまなく連続して行なうことが肝要であ
る。すなわち、一つの部分データを先に送ればただちに
次の部分データを持つようにする。結果を主記憶に書き
入れる場合ｘ方向処理信号をそのまにして、適当なｘア
ドレスとバンク内アドレスを与えれば、上記経路を逆向
きに辿ることで蓄えられる。ｙ方向処理やｚ方向処理の
場合も同様である。補助的なｘ方向処理の場合だけ、少
し違っていて、すべてのボードにつき（すなわちｚアド
レスに亘って）同一のｘアドレスとｙアドレスを指定し
てきまるバンク内で一定間隔で配置されるべきデータか
らなるベクトル（「深さ」方向ベクトル）の要素を複数
容量をもつアクセスラッチ内に一時記憶させることを順
次繰り返し、ｘ方向処理と同じ経路によってベクトルレ
ジスタにつなぐようにする（図９参照）。 ─────────────────────────────────────────────────────

【手続補正書】

【提出日】平成５年１０月１２日

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】請求項２

【補正方法】変更

【補正内容】

Claims

【特許請求の範囲】

【請求項１】Ｎ³個のメモリバンクの立方配列｛ＭＢ
（ｉ，ｊ，ｋ），但し、ｉ，ｊ，ｋ＝１，２…，Ｎ｝か
らなる主記憶部と、制御用プロセッサユニットＣＵ及び
Ｎ台の並列計算用ベクトルプロセッサユニットＶＵ１，
ＶＵ２，…，ＶＵＮからなるプロセッサ部、並びに前記
主記憶部と各ベクトルプロセッサユニットとの間にあっ
てそれぞれベクトルデータを一時的に記憶するためのＮ
個のベクトルラッチからなるベクトルラッチ部を備えた
バックエンド用計算機システムであって、（ａ）前記制御用プロセッサユニットＣＵは、前記Ｎ台
のベクトルプロセッサユニット、前記Ｎ個のベクトルラ
ッチ及び主記憶部に制御信号を発信して並列同期動作を
指示するものであり、（ｂ）前記主記憶部のＮ³個のメモリバンク配列は、各
枚毎に共通バスをＮ行Ｎ列の平面格子状に配列したＮ枚
の主記憶ボードにおいて、それぞれＮ²個ずつ支持さ
れ、各ボードにおけるＮ²個のメモリバンクは同ボード
のＮ²個の行列バス格子点に分配接続されたＮ²個のア
クセスラッチにそれぞれ接続されたことにより、対応す
る行バス及び列バスの双方からアクセスできるようにな
っており、（ｃ）前記Ｎ個のベクトルラッチの各々は、それぞれＮ
個の要素ラッチを有し、これらＮ個の要素ラッチには対
応する前記Ｎ枚の主記憶ボードとの間でデータを入出力
するために１個ずつの並列ポートを設けるとともに全ベ
クトルラッチを通じて同一要素番号のポート毎に共通に
バス接続し、これらＮ組のバスは要素ラッチ番号に対応
する主記憶ボードの列選択回路を介して選択された同一
番号をもつアクセスラッチ列に接続されるとともに、Ｎ
個のベクトルラッチ毎にはＮ個の要素ラッチを共通接続
する内部バスの両端に第１及び第２の直列ポートを設
け、それら全Ｎ個の第１の直列ポートはボード分配回路
とベクトルラッチ番号に対応した主記憶ボードの行選択
回路を介して選択された同一番号をもつアクセスラッチ
行に接続される、または同直列ポートはボード選択回路
を介して、選ばれた主記憶ボード上の、ベクトルラッチ
番号に対応したアクセスラッチ列に接続され、これによ
って前記Ｎ個のベクトルラッチと主記憶部との間に、前記第１の直列ポートに対応する主記憶ボード各枚
の、選択された同一番号の行方向バスを通じ、メモリバ
ンクの立方配列内のＮ組の行ベクトルデータを送受信す
る第１のアクセス経路、前記Ｎ個の並列ポートにそれぞれ対応する主記憶ボー
ド各枚の、選択された同一番号の列方向バスを通じ、メ
モリバンクの立法配列内のＮ組の垂直ベクトルデータを
送受信する第２のアクセス経路、及び選択された１枚の主記憶ボード中で、前記第１の直列
ポートの各々に対応する各列方向バスを通じ、メモリバ
ンクの立法配列内Ｎ組の列ベクトルデータを送受信する
第３のアクセス経路、のいずれか一つを確立するもので
あり、（ｄ）前記Ｎ個のベクトルプロセッサユニットＶＵ１，
ＶＵ２，…，ＶＵＮの各々はベクトル演算装置を有する
ことにより、ベクトルデータに対する演算を行なうもの
であって、前記第２の直列ポートを通じて対応する各ベ
クトルラッチと接続されたことにより、前記各アクセス
経路において同ベクトルラッチ内に一時配置されるベク
トルデータを演算処理するものである、ことを特徴とするベクトルプロセッサの１次元配列とメ
モリバンクの３次元配列を有するベクトル並列計算機。
【請求項２】前記Ｎ個のベクトルラッチと主記憶部と
の間に、前記第１、第２及び第３のアクセス経路に加え
て、前記第１の直列ポートに対応する主記憶ボード各
枚の、選択された同一番号の行内で、補助的列アドレス
指定により選択された同一番号のバンク内のＮ語を対応
するアクセスラッチに順次出し入れし、かつ対応する行
方向バスを通じて送受信する第４のアクセス経路をも、
択一的に確立できるようにしたことを特徴とする請求項
１記載の計算機。