JPS6043775A

JPS6043775A - デ−タ処理装置

Info

Publication number: JPS6043775A
Application number: JP15132783A
Authority: JP
Inventors: Hajime Matsumoto; 松本　元
Original assignee: NEC Corp; Nippon Electric Co Ltd
Current assignee: NEC Corp
Priority date: 1983-08-19
Filing date: 1983-08-19
Publication date: 1985-03-08
Also published as: JPH0332829B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】発明の属する技術分野本発明は主メモリ上のデータをベクトルレジスｊに転送
してこのベクトルレジスタに転送したデ−夕を使用して
ベクトル演算を行うデータ処理装置に関する。

従来技術第１図を参照すると、この種の従来のデータ処理装置で
は主メモリ１から２本のアクセスパイプライン６および
７を介してメモリ制御装置２に各要素のデータがそれぞ
れ１マシンサイクルに２要素ずつ順次読出され、ベクト
ルレジスタ部３内のベクトルレジスタにセットされる。

このベクトルレジスタの各要素のデータに対し、演算パ
イプライン部４または５によシ、１マシンサイクルに２
敬素ずつ順次演算が実行される。例えば、主メモリ上の
ベクトルデータＡ、ＢおよびＣがそれぞれ３２の要素Ａ
（０）　、　Ａ（１）　、・・Ａ（３０）およびＡ　（
３１）；　Ｂ（ｏ）　、　Ｂ（１）　、・・Ｂ（３０）
およびＢ（３１）　ｉ　Ｃ（０）。

Ｃ（１）、・・Ｃ（３０）およびＣ（３１）からなると
き、Ｃ＝Ａ十Ｂなるベクトル演算はベクトルレジスタＶＲＯ。

ＶＲｌおよびＶＢ、２を用い４つのベクトル命令で実行
される。すなわち、命令（１）　：　ＶＲｏ　（−Ａ命令（２）：　ＶＲｌ　←　Ｂ命令（３）：ＶＢ２　←　ＶＲＱ＋ＶＲ１命令（４）　
：　Ｃ←　ＶＢ２のよりである。

命令（１）はアクセスパイプライン６を介して主メモリ
１上のベクトルデータＡの３２個の要素をベクトルレジ
スタ部３内のベクトルレジスタＶＲＯにセットし、命令
（２）はアクセスパイプライン７を介して主メモＩＪ　
ｌ上のベクトルデータＢの３２個の要素をベクトルレジ
スタ部３内のベクトルレジスタＶＪにセットする。命令
（３）はベクトルレジスタ部３内の２本のベクトルレジ
スタＶＲＯおよびＶＲｌからデータを読出し演算パイプ
ライン部４で加算を実行し、和をベクトルレジスタ３内
のベクトルレジスタＶＲ２にセントする。命令（４）は
ベクトルレジスタ３内のベクトルレジスタ■Ｒ２の３２
個の要素を読出しアクセスパイプライン６を介して主メ
モリ１にベクトルデータＣとして格納する。

一般に主メモリ１に使用するメモリ素子のサイクル時間
はマシンサイクル時間よシ長く、数倍程度長いこともめ
ずらしくなく、主メモリをいくつかのバンクに分割する
ことがしばしば行われている。

例えば第２図を参照すると、主メモリ１は４つのモジュ
ールｌｌａないしＩｌｄに分かれ・各モジュールは１マ
シンサイクルに１つのベクトル要素を読出し／書込みで
きる。各モジーールは４つのバンク１２ａないし１２ｄ
からなり、各バンクは４マシンサイクルに１つのベクト
ル要素を読出し／書込みできる。各バンクには＃０ない
し＃１５のバンク番号が付与されておシ、＃ｉのバンク
には番地を１６で割ったときの剰余がｉであるデータが
格納されている。ベクトルデータは隣接した要素が主メ
モリ上に格納される番地の差を要素間距離という。要素
間距離は１とは限らない。例えば３５行３５列の行列Ｍ
（’Ｉ　Ｉ　Ｊ　）　を行方向に主メ゛モリに格納（Ｍ
（０，０）　、Ｍ（１、Ｏ）　、　・Ｍ（３４，０）。

Ｍ（０，１）、Ｍ（１，１）、−、Ｍ（３４，１）、Ｍ
（０，２）・・・）すると列ベクトルＭ（０＋ｊ）＋Ｍ
（１＋ｊ）＋　。

Ｍ（３４，ｊ）の要素間距離は１であるが、行ベクトル
Ｍ（ｉ、Ｏ）、Ｍ（ｉ、１）、・・・、Ｍ（ｉ、３４）
の要素間距離は３５である。

第３図を参照すると、ベクトルＡの要素間距離を１．ベ
クトルＢの要素間距離を３５とし、Ａ（０）Ｂ（０）と
もにＭＢ＃０に格納されているとすると、Ａ（１）はＭ
Ｂ＄１．人（２）はＭＢ：１４＝２　、・、Ａ（１５）
はＭＢ（ｘｓ）。

Ａ（１６）はＭ’Ｂ：＃０　、・・・、Ａ（３１）はＭ
Ｂ＃１５に格納され、Ｂ（１）はＭＢ＃３　、　Ｂ　（
２）はＭＢ＃６．・・、　Ｂ　（６）はＭＢ＃２、・・
・、Ｂ（３１）はＭＢ：＃１３に格納される。この時の
主メモリ１に対する各要素のアクセスの状況を第３図に
示す。

まず命令１が発行され、１マシンサイクルに２要素ずつ
、Ａ（０）とＡ（１）がＭＢ＃０とＭＢ、＃ｌから・Ａ
（２）とＡ（３）がＭＢ＠２とＭＢ＃３から、・、と読
出されていく。ＭＢ＄０とＭＢ＃ｔは時刻Ｏから時刻３
まで使用中とｌ）、ＭＢ＄２とＭＢ＃：３は時刻１から
時刻４まで使用中となる。命令（１）に引継き命令２が
発行されＢ（０）とＢ（１）を主メモリ１から読出す。

１１（０１゜Ｂ（１）はそれぞれＭＢ＄０．ＭＢ＠３を
アクセスしなければならない。ＭＢ＃＝　３は命令（１
）によシ時刻１から時刻４まで使用中なのでＢ　（０）
　、　Ｂ　（１）のアクセス時刻５から時刻８の間に行
われる。Ｂ　（２）　、　Ｂ　（３）のアクセスはＭＢ
＃、９が命令（１）で時刻７まで使用中のため時刻８か
ら時刻１１の間に行われる。従って、例えば、時刻５か
ら時刻１４の１０マシンサイクルの間にＡ（１０）〜Ａ
（２７）　、　Ｂ（０）〜Ｂ（５）の２４の要素のアク
セスが開始され、１マシンサイクルに４要素毎アクセス
を開始する場合に比ベロ０％の効率しかない。

このように従来この種のデータ処理装置では要素間距離
の異るアクセスを同時に行うとメモリアクセスの効率が
著しく低下するとい５欠点がある。

発明の目的本発明の目的は上述の欠点を除去しメモリバンク使用中
によるメモリアクセスの待ち時間を減らしメモリアクセ
スの効率が高いデータ処理装置を提供することにある。

発明の構成本発明の装置は主メモリと、複数のベクトルレジスタを
有するベクトルレジスタ部と、主メモリとベクトルレジ
スタ部との間でデータ転送を行うアクセスパイプライン
部と、ベクトルレジスタの要素に対して演算を行う演算
パイプライン部を有するデータ処理装置において、主メモリをアクセスパイプライン部の１組のメそりアク
セスポートに接続し、１つのベクトルレジスタに対応す
るデータ転送を１マシンサイクルに２ｍ個の要素の割合
で直列に実行し、ベクトルレジスタ部をアクセスパイプ
ライン部の２組のベクトルアクセスポートに接続し、１
つのベクトルレジスタに対応するデータ転送ｔ−１マシ
ンサイクルにｍ個の要素の割合で並列に転送し、アクセ
スパイプラインが２組のバッファでできておシ、メモリ
アクセスポートで転送されるデータは要素毎に交互に２
組りバッファのいずれかに対応し、２　べ組のベクトル
アクセスポートは２Ｘ２クロスバ−で２組のバッファと
接続されているように構成されている。

次に本発明について図面を参照して詳細に説明する・第
４図全参照すると、本発明の一実施例は、主メモリ１．
メモリ制御装置２．ベクトルレジスタ部３．加算パイプ
ライン部４２乗算パイプライン部５およびアクセスパイ
プライン部８から構成されている。主メモリ１とメモリ
制御装置２は４部８からのメモリアクセスを制御し、ア
クセスパイプライン部８と？′ｉ４本の読出しラインと
４本の書込みラインで接続される。アクセスパイプライ
ン部８とベクトルレジスタ部３とはそれぞれ２本の読出
しラインと２本の書込みラインをもつ２つのポートで接
続される。加算パイプライン部４と乗算パイプライン部
５とはそれぞれベクトルレジスタ部３から２本×２組の
オペランドの供給を受け２本の出力をベクトルレジスタ
部３に返す。

主メモリ１とメモリ制御部２との間の転送レートは読出
し／書込みとも４語／マンンサイクル、メモリ制御部２
とアクセスパイプライン部８との間の転送レートは読出
し／書込みとも４語／マシンサイクル、アクセスパイプ
ライン部８とベクトルレジスタ部３との間の転送レート
はボート当シ読出し／書込みとも２語／マシンサイクル
、加算パイプライン部と乗算パイプライン部の演算レー
トはともに２語／マシンサイクルである。

前記主メモリ１は第２図に示すよりに４つのモジュール
ｌｌａないしｌｉｄからなシ、各モジュールは４つのバ
ンク１２ａないし１２ｄからなっている。

第５図を参照すると、アクセスパイプライン部８は２つ
のバッファＢＦＯ８１とＢＦＩ　８２および２×２クロ
スバ８３から構成され、バッファＢＦＯ８１とＢＦＩ　
８２はそれぞれアクセスノくイブライン部８の読出しラ
イン、書込みラインの半数のラインと接続され、かつ、
クロスバ８３の一方のポート群Ａ、Ｂ、ＷおよびＸに接
続されているＯクロスバ８３のもう一方のボート群Ｃ，
Ｄ、Ｙおよび２はベクトルレジスタ部と接続されている
。

第６図を参照すると、主メモリの各バンクのサイクルが
４マシンサイクルとし、ベクトルＡの各要素Ａ（０）　
、　Ａ（１）　、・・・、Ａ（３０）およびＡ（３１）
がそれぞれ主メモリのバンクＭＢ＃Ｏ，ＭＢ＃１．・・
・。

ＭＢ＃３０およびＭＢ＃３１に格納されておシ、ベクト
ルＢの各要素Ｂ（ｏ）　、　Ｂ（ｊ）　、・・・、Ｂ（
３０）およびＢ（３１）が３つ置きの主メモリのバンク
ＭＢ＄Ｏ。

ＭＢ＃３．ＭＢ＃６．・・・ＭＢ＃８　、　ＭＢ：＃　
１１　、　ＭＢ＃１４に格納されている場合の主メモリ
１のバンクのサイクルの状態が示されている。時刻のき
ざみはマシンサイクルであシ、時刻ＯでＡ（０）　、　
Ａ（１）　、　Ａ（２）およびＡ（３）が格納されてい
るバンクＭＢ＃Ｏ，ＭＢ：＃１．ＭＢ＃：２およびＭＢ
＄３がアクセスされ、時刻０〜３の４マシンサイクルの
間ビジーとなる。時刻１でＡ（４）　、　Ａ（５）　、
　Ａ（６）およびＡ（７）が格納されているバンクＭＢ
＄４．ＭＢ＄５．ＭＢ＃６およびＭＢ＄７がアクセスさ
れ、時刻１〜４の４マシンサイクルの間ビジーとなる。

同様にしてＭＢ＄ｇ〜ＭＢ：＃１１は時刻２〜５の間、
ＭＢ＃ｘ２〜ＭＢ＃１５は時刻３〜６の間ビジーとなる
。時刻４でＡ（１６）〜Ａ（１９）のアクセスを行うが
、このときＭＢ＃０〜ＭＢ＃：３は先行アクセスによる
ビジー期間を終了しているので、バンクビジーによる待
ち合せを行うことなくＡ（１６）〜Ａ（１９）のアクセ
スが行われる。Ａ（２０）〜Ａ（３１）　についても同
様にバンクビジーによる待合せなしにアクセスが行われ
る。

時刻７でベクトルＡの全要素についてのアクセスが終了
し時刻８でベクトルＢのアクセスを開始する。ベクトル
Ｂの最初の４要素Ｂ（０）　、　Ｂ（１）　、　Ｂ（２
）およびＢ（３）の格納されているメモリのバンクはＭ
Ｂ＃０．ＭＢ＃：３．ＭＢ＄６およびＭＢ＄９　である
が、ＭＢ−１１：９が先行するアクセスのため時刻６〜
９の間ビジーのため、Ｂ（ｏ）〜Ｂ（３）のアクセスは
２マシンサイクル遅れて時刻１０に行われる。以後はバ
ンクビジーによる待合せは発生せず時刻１７にＢ（２８
）〜Ｂ（３１）が格納されているメモリバンクＭＢ＄５
　、　ＭＢ＃８　、　ＭＢ：１４：１１およびＭＢ＄１
４のアクセスが行われ、ベクトルＢの全要素についての
アクセスが終了する。

第７図はアクセスパイプライン部８におけるノ（ソファ
動作を説明するものである。ここではＡ　（０）〜Ａ（
３）がアクセスパイプライン部８に到着する時刻を０と
した時間で表している。

時刻ＯでＡ（０）〜Ａ（３）の４語がアクセスパイプラ
イン部８に到着するが、そのうちＡ（０１、Ａ（１）の
２語をバッファＢＦｏにＡ　（２）　、　Ａ　（３）の
２語をバッファＢＦＩに格納する。時刻１でＡ（４）〜
Ａ（７）の２語が到着するのでＡ（４）　、　Ａ（５１
の２語をバッファＢＦＯに、Ａ　（６）　、　Ａ　（７
）の２語をバッファＢＦＩに格納する。同様にしてＡ（
ｓ）　、　Ａ（９）　、　Ａ（１２）　、Ａ（１３）　
、　−Ａ（２８）　、Ａ（２９）がバッフ７ＢＦＯに、
Ａ（１０）。

Ａ（１１）　、　−、Ａ（３０）、Ａ（３１）がバッフ
ァＢＦ１に格納される◇ベクトルＢのバッファへの格納
も同様にして時刻１０でＢ（ｏ）　、　Ｂ（１）がバッ
ファＢＦＯに、Ｂ　（２）　、　Ｂ　（３）がバッファ
ＢＦＩに格納され時匈１１１でＢ　（４）　、　Ｂ　（
５）がバッファＢＦＱに、Ｂ（４）。

Ｂ（５）がバッファＢＦＩに格納され、時刻１７でＢ（
２８）、Ｂ（２９）がバッファＢＰＯに、Ｅ（３０）。

Ｂ（３１）がバッファ　ＢＦｌに格納される。時刻１で
バッファＢＦＯからＡ　（０）　、　Ａ　（１）を時刻
（２）でバッファＢＦＩからＡ　（２）　、　Ａ　（３
）を読出し以後バッファＢＦＯおよびＢＦｌから交互に
Ａベクトルの要素を２語ずつ読み出し、クロスバ８３を
制御してクロスバ８３のボートＣにＡベクトルの要素が
２語／マシンサイクルの割合でベクトルレジスタ部３に
送られる。

Ａベクトルの要素がベクトルレジスタ部３に送られてい
る間にＢベクトルがアクセスパイプライン部８に送られ
てきており、時刻１１から読部し可能となる。時刻１１
ではバッファＢＦＯの読出しボートはＡベクトルのため
に占有されているのでＢ　（０）　、　Ｂ　（１）のＢ
ＦＯからの読出しは時刻１２に行われる。続いて、時刻
１３にＢ　（２）　、　Ｂ　（３）をバッフγＢＦＩか
ら読出し、以後バッファＢＦＯとＢＦｌから交互にＢベ
クトルの要素を２＠ずつ読出し、クロスバ８３を制御し
てクロスバ８３のボートＤにＢベクトルの要素が２語／
マシンサイクルの割合でペクト、ルレジスタ部３に送ら
れる。

発明の効果本発明にはアクセスパイプライン部を仲介して、主メモ
リとの間は１つのベクトルレジスタに対応するデータ転
送を直列に実行し、ベクトルレジスタ部との間は２つの
ベクトルレジスタに対応するデータ転送を並列に実行す
る構成をとることによシ、主メモリのメモリアクセス効
率の低減を防ぐことができるという効果がある。

【図面の簡単な説明】

第１図は従来技術を示す図、第２図は第１図および第４
図に示す主メモリ部分を示す図、第３図は従来技術のメ
モリバンクのビジーの状態を示すタイムチャート・第４
図は本発明の一実施例を示す図、第５図は第４図に示し
だアクセスパイプライン部を示す図、第６図は第４図の
動作を説明するだめのメモリバンクのビジーのタイムチ
ャートおよび第７図はアクセスパイプライン部のバッフ
了およびクロスバの動作を説明するためのタイムチャー
トである。第１図から第７図において、１−・・・主メモリ、２・
・・・・メモリ制御部、３・　ベクトルレジスタ部、４
・・・・・加算パイプライン部、５・・・・・乗算パイ
プラインｓ、６〜８・・・・・・アクセスパイプライン
部、１１ａ〜ｌｉｄ・・・・メモリモジュール、１２８
〜１２ｄ・・メモリバンク、８１〜８２・・・・バッフ
丁、８３・−・２Ｘ２クロスバ。１１（＋１応３ｍ方４閃アクセスノぐイブラＡ’ｙ音に一シ／△べ゛クトルレン
スタ肩ヤカ・、シ／へ４）５　圀

Claims

【特許請求の範囲】１、主メモリと、複数のベクトルレジスタを有するベク
トルレジスタ部と、前記主メモリと前記ベクトルレジス
タ部との間でデータ転送を行うアクセスパイプライン部
と、前記ベクトルレジスタの要素に対して演算を行なう
演算ノくイブライン部とを有するデータ処理装置におい
て、前記アクセスパイプライン部の１組のメモ１ノアク
セスポートに接続された前記主メモリでは１つのベクト
ルレジスタに対応するデータ転送が順次実行され、前記アクセスパイプライン部の２組のベクトルアクセス
ポートに接続された前記ベクトルレジスタ部では２つの
ベクトルレジスタニ対応スるデータ転送が同時に実行さ
れうろことを特徴とするデータ処理装置２．１つの演算パイプラインが１マシンサイクルでｍ語
の結果を出力するときに前記アクセスパイプライン部は
ベクトルアクセスポートの１つが１マシンサイクルでｍ
語の要素を転送しメモリアクセスポートが１マシンサイ
クルで２ｍ語の要素を転送することを特徴とする特許請
求範囲第１項記載のデータ処理装置。３、　前記アクセスパイプラインが２組のバッフ丁を含
みメモリアクセスポートで転送されるデータは要素毎に
交互に２組のバッフ丁のいずれかに対応し、２組のベク
トルアクセスポートは２Ｘ２クロスバ−で２組のバッフ
丁を接続されていることを特徴とする特許請求範囲第１
項記載のデータ処理装置。