JP2878256B1 - ベクトル処理装置 - Google Patents

ベクトル処理装置

Info

Publication number
JP2878256B1
JP2878256B1 JP10031177A JP3117798A JP2878256B1 JP 2878256 B1 JP2878256 B1 JP 2878256B1 JP 10031177 A JP10031177 A JP 10031177A JP 3117798 A JP3117798 A JP 3117798A JP 2878256 B1 JP2878256 B1 JP 2878256B1
Authority
JP
Japan
Prior art keywords
vector
output
input
port
elements
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP10031177A
Other languages
English (en)
Other versions
JPH11232078A (ja
Inventor
康宏 井川
Original Assignee
甲府日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 甲府日本電気株式会社 filed Critical 甲府日本電気株式会社
Priority to JP10031177A priority Critical patent/JP2878256B1/ja
Application granted granted Critical
Publication of JP2878256B1 publication Critical patent/JP2878256B1/ja
Publication of JPH11232078A publication Critical patent/JPH11232078A/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Complex Calculations (AREA)
  • Multi Processors (AREA)

Abstract

【要約】 【課題】 リストベクトルのメモリアクセス性能を、少
ないハードウェア量で高速化できるベクトル処理装置を
提供する。 【解決手段】 メモリアクセス制御部120が、ベクト
ル演算部110からベクトル要素単位で、かつ要素番号
順にパイプライン方式で入力するベクトル要素を保持す
る4個の入力レジスタ121と、4個の入力バッファ1
22と、4個の読み出しレジスタ123と、読み出しレ
ジスタに保持された4個の要素を偶数と奇数に分割し
て、分割単位内のみで競合調停を行なう2個のポートア
ービタ128と、競合調停された各要素を、アドレスに
よる要素指定の出力ポートへ送る2個のポートクロスバ
124、125と、それぞれの出力ポートに対応して設
けられ、2個のポートクロスバから送り出される最大2
個の要素を同時に格納することが可能な出力バッファ1
26とを備えている。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は電子計算機における
ベクトル処理装置に関する。
【0002】
【従来の技術】一般にベクトル処理装置は、主メモリと
ベクトルレジスタとの間で大量のデータを高速に処理す
る必要から、同一タイミングで複数のデータを同時にメ
モリアクセス処理部に連続的に供給して、高速化を実現
している。これはベクトル化された各要素ごとに、個々
にアドレスを持つリストベクトルについても同様であ
る。
【0003】従来この種のベクトル処理装置は、従来例
のベクトル処理装置のブロック図である図5に示すよう
に、メモリアクセス制御部320が、ベクトル演算部3
10からのベクトルリクエストの各要素単位の複数(例
として4要素)の入力ポート、各入力ポートに対応する
入力レジスタ321a〜321d、ポート競合発生時の
緩衝用に同一の動作をするバッファ322a〜322
d、読み出しレジスタ323a〜323d、ポート競合
の検出およびバッファ制御を行うポート競合検出回路3
28、入力要素のメモリアドレスから出力ポートを生成
し、そのタイミングで出力する要素を決定する出力要素
検出回路325、出力要素検出回路325の制御信号に
より読み出しレジスタ323a〜323dから各出力ポ
ートの入力要素を選択するセレクタ324a〜324
d、および主記憶部330への各出力ポートに対応する
出力レジスタ326a〜326dを備えている。
【0004】次にこのメモリアクセス制御部の動作を説
明する。図6はメモリアクセス制御部の動作を説明する
ためのベクトルストア命令時の各ベクトル要素(以下要
素と略称する)の要素番号と各要素が出力されるポート
の関係を示す1例の関係図である。リストベクトルは、
各要素ごとに、別々にメモリアドレスを決定できるベク
トル命令のため、インターリーブされたメモリ番地に接
続される出力ポート番号も、ランダムとなるため、図6
の各要素のポート番号も、出力ポート4ポートをランダ
ムにアクセスする様にしている。今後従来例と本発明の
実施の形態のベクトル処理装置の動作を比較するために
共通にこの関係図を使用する。
【0005】図7は、図5の従来例のベクトル処理装置
を用いて図6の関係を有する要素を処理したときのタイ
ミング図である。タイミング1において要素0、1、
2、3(以下e1、e2、e3、e4と略称する)の4
要素が入力ポート0〜3から入力レジスタ321a〜3
21dを経由して入力バッファ322a〜322dに入
力され、読み出しレジスタ323a〜323dにそれぞ
れ格納される。ここでポート競合検出回路328により
各要素の出力ポート競合がそれぞれチェックされる。こ
こではe1とe3との出力ポートが何れも0なので出力
ポート競合が発生する。競合した要素の優先順位の高い
要素(要素番号の最も小さい要素、ここではe1)がポ
ート競合検出回路328によって検出され、出力要素検
出回路325によりセレクタ324aは読み出しレジス
タ323bからe1を、セレクタ324cは読み出しレ
ジスタ323aからe0を、セレクタ324dは読み出
しレジスタ323cからe2を選択してそれぞれ出力レ
ジスタ326a、326c、326dを経由して、それ
ぞれの出力ポートから主記憶部330に送り出し、読み
出しレジスタ323dにe3が残る。
【0006】競合が発生したことにより、ポート競合検
出回路328よりホールド要求が出され、読み出しレジ
スタ323a〜323dはホールドされ、バッファ31
2a〜312dはバッファのリードアドレスをホールド
する。
【0007】次のタイミング2では読み出しレジスタ3
23dにe3が残っているだけなので競合はなく、e3
がセレクタ324aに選択され出力レジスタ326aと
出力ポート0を経由して主記憶部330に送り出され
る。競合が無かったのでポート競合検出回路328より
ホールド要求は解除され、バッファ322a〜322d
でホールドされていたe4〜e6の要素が読み出しレジ
スタ323a〜323dに送り出され、タイミング3で
ポート競合が検出される。
【0008】このような動作を図7のタイミング図に示
すように繰り返し、全ての処理は16タイミングで終了
する。即ち最大スループット32の1/2のスループッ
トとなっている。
【0009】次に、このスループットを短縮するために
提案されている第2の従来例について説明する。図8は
改良された従来例のベクトル処理装置のブロック図であ
る。改良された従来例のベクトル処理装置のメモリアク
セス制御部420は、図8に示すように、ベクトル演算
部410からのリストベクトルリクエストの各要素単位
の複数(例として4要素)の入力ポートを持っており、
入力レジスタ421a〜421dに各入力ポートから要
素が入力される。入力バッファ422a〜422hは、
ポート競合による待ち合わせが起きたとき、連続的に発
行される入力リクエストの緩衝用のバッファ群であり、
入力バッファ422a〜422dおよび入力バッファ4
22e〜422hは、それぞれその順序で入力レジスタ
421a〜421dの各要素に対応しており、入力バッ
ファ422a〜422dと422e〜422hとに入力
レジスタ421a〜421dの要素が交互に入力され
る。読み出しレジスタ423a〜423hは、それぞれ
入力バッファ422a〜422hの読み出し用のレジス
タ群でありポート競合検出回路428の対象レジスタで
ある。出力要素検出回路425は、各出力ポートに対応
するセレクタ424a〜424dの選択条件を生成して
いる。ポート競合検出回路428は、読み出しレジスタ
423a〜423hの各要素のポート競合を検出する回
路であり、またバッファ422a〜422h、および読
み出しレジスタ423a〜423hの制御を行ってい
る。出力レジスタ426a〜426dは各出力ポート
(この例では4ポート)に対応するレジスタ群であり、
セレクタ424a〜424dで選択された要素を格納
し、出力ポート0〜3を経由して主記憶部430に出力
する。次にこの改良された従来例のメモリアクセス制御
部420の動作を説明する。ここでも上述の従来例に用
いた図6のベクトルストア命令時の各要素の要素番号と
各要素が出力されるポートの関係を示す1例の関係図を
参照して説明する。
【0010】図9は、図8の改良された従来例のベクト
ル処理装置を用いて図6の関係を有する要素を処理した
ときのタイミング図である。図8において、入力ポート
0、1、2、3から、図6で示す要素が4つずつ連続的
に入力する。要素0、1、2、3(以下e1、e2、e
3、e4と略称する)が入力ポート0〜3、入力レジス
タ421a〜421d、および入力バッファ422a〜
422dを経由して読み出しレジスタ423a〜423
dに入力すると、ポート競合検出回路428により出力
ポート競合の検出が行われる。図6によると、e1とe
3とが同一出力ポートであるポート0へのアクセスであ
るため、競合が発生し、要素番号の若いe1がセレクタ
424aにて選択され、出力レジスタ426aに格納さ
れ、出力ポート0へ出力する。競合の無いe0、e2も
セレクタ424c、424dにて選択され、出力レジス
タ426c、426dに格納され、出力ポート2、3へ
出力する。一方競合で負けたe3は読み出しレジスタ4
23dにホールドされる。また、このタイミングには、
次の4要素であるe4、e5、e6、e7が拡張された
読み出しレジスタ423e〜423hに入力する。この
とき、競合に負けて読み出しレジスタ423dにホール
ドされたe3と、次タイミングに入力したe4、e5、
e6、e7は、同時に競合に参加することになる。そし
てこの5要素で競合調停を行う。この動作を示したもの
が図9のタイミング2である。出力ポート0、1、2、
3の欄には、そのタイミングに出力した要素が示されて
いる。出力ポート競合検出対象要素の欄には、読みだし
レジスタ423a〜423hに格納されている競合に負
けてホールドされた要素および新たに入力した要素が示
されている。出力要素の欄にはそのタイミングに出力し
た要素が示され、出力要素数の欄にはそのタイミングに
出力した要素数が示されている。
【0011】図6の要素番号e0〜e31に示される3
2個の要素は、上述のようなポート競合検出と選択され
た要素の出力の繰り返しによって、図9で示すように1
2タイミングで全ての処理が終了する。
【0012】このように、従来構成では、4要素単位で
入力していた要素を、競合発生時入力バッファ422a
〜422dと422e〜422hとに交互に入力するこ
とにより、競合検出対象要素数を擬似的に増加させるこ
とにより、確率的に出力可能な要素数を増加させ、スル
ープットを向上させることを目的としている。
【0013】上述の図7に示される擬似的な拡張のない
従来例の動作例では、図6の全ての処理が終了するのに
16タイミングを要しており、図9の改良された従来例
では12タイミングとなっているので、スループットが
向上していることがわかる。
【0014】
【発明が解決しようとする課題】従来例の問題点は、処
理終了までのタイミングを多く必要としスループットが
悪いので、処理の性能が悪いことである。
【0015】これに対し改良された従来例では、終了ま
でのタイミングが少なくなり、スループットは改善した
ものの次のような問題点がある。
【0016】第1の問題点は、性能向上のために投資す
る物量が大きいことである。これは、入力ポート側を擬
似的に2倍に見せることにより、性能を向上させている
が、そのめに入力バッファや読み出しレジスタに2倍の
物量が必要となるからである。
【0017】第2の問題点は、出力ポート競合が発生す
る度に、後続のリクエストが待たされ、性能が劣下する
ことである。
【0018】その理由は、同一タイミングに同一出力ポ
ートに向かうリクエストを同時に出力させることができ
ないからである。
【0019】本発明の目的は、リストベクトルのメモリ
アクセス性能を、少ないハードウェア量で高速化できる
ベクトル処理装置を提供することにある。
【0020】
【課題を解決するための手段】本発明のベクトル処理装
置は、ベクトル要素ごとにベクトル演算を行う1つ以上
ののベクトル演算部と、複数のバンクを有して独立にア
クセス可能な複数のポートを有するメモリモジュールで
構成される主記憶部と、ベクトル演算部と主記憶部との
間で複数のベクトル要素の転送が主記憶部における各ポ
ートのバイト幅単位に独立に行えるメモリアクセス制御
部とを備えるベクトル処理装置であって、メモリアクセ
ス制御部が、ベクトル演算部からベクトル要素単位で、
かつ要素番号順にパイプライン方式で入力するベクトル
要素を保持するn個(n≧2)の入力レジスタと、入力
レジスタに対応して保持内容を格納するn個の入力バッ
ファと、入力バッファから読みだしたベクトル要素単位
のリクエストを格納するn個の読み出しレジスタと、読
み出しレジスタに保持されたn個のベクトル要素につい
て、複数の単位に分割して、分割単位内のみで競合調停
を行なうm個(n>m≧2)の競合調停回路と、複数の
競合調停回路により競合調停された各ベクトル要素を、
アドレスによるベクトル要素指定の出力ポートへ送るm
個のベクトル要素選択回路と、それぞれの出力ポートに
対応して設けられ、m個のベクトル要素選択回路から送
り出される最大m個のベクトル要素を同時に格納するこ
とが可能な出力バッファとを備えている。
【0021】競合調停回路が2個であり、読み出しレジ
スタに保持されたn個のベクトル要素を要素番号の奇数
と偶数の単位に分割して、分割単位内のみで競合調停を
行なってもよく、m個の競合調停回路が、読み出しレジ
スタに保持されたn個のベクトル要素を要素番号順にn
/m個づつに分割して、分割単位内でのみの競合調停を
行なってもよい。
【0022】別の形態のベクトル処理装置は、ベクトル
要素ごとにベクトル演算を行う1つ以上ののベクトル演
算部と、複数のバンクを有して独立にアクセス可能な複
数のポートを有するメモリモジュールで構成される主記
憶部と、ベクトル演算部と主記憶部との間で複数のベク
トル要素の転送が主記憶部における各ポートのバイト幅
単位に独立に行えるメモリアクセス制御部とを備えるベ
クトル処理装置であって、メモリアクセス制御部が、ベ
クトル演算部からベクトル要素単位で、かつ要素番号順
にパイプライン方式で入力するベクトル要素を保持する
n個(n≧2)の入力レジスタと、入力レジスタに対応
して保持内容を格納するn個の入力バッファと、入力バ
ッファから読みだしたベクトル要素単位のリクエストを
格納するn個の読み出しレジスタと、読み出しレジスタ
に保持されたn個のベクトル要素について、アドレスに
よるベクトル要素指定の出力ポートに、その出力ポート
を指定したすべての入力ポートの各ベクトル要素を出力
するよう制御する出力ポート制御回路と、それぞれの各
出力ポートに対応して設けられ、出力ポート制御回路に
従って最大n個のベクトル要素データを同時に格納する
ことが可能な出力バッファとを備えている。
【0023】出力ポート制御回路は、読み出しレジスタ
に保持されたn個のベクトル要素において、同一の出力
ポートを指定した複数のベクトル要素が存在する場合
は、指定されたその出力ポートに対応する出力バッファ
に要素番号順に出力してもよく、出力ポートがn/2個
以下のベクトル要素データを同時に収納可能であっても
よい。
【0024】リストベクトルのメモリアクセス性能の低
下要因は、出力ポート競合による、後続リクエストの競
合調停回路への入力抑止である。
【0025】本発明では、出力ポート競合を検出する回
路を入力ポートを分割して複数持つことにより、競合が
発生する確率を減らすことができ、後続リクエストが競
合調停回路への入力抑止が抑えられ、リストベクトルの
メモリアクセス性能が向上する。
【0026】このとき物量は、出力ポート競合を検出す
る回路を入力ポートを分割して複数持つだけなので増加
しない。
【0027】
【発明の実施の形態】次に本発明の実施の形態につい
て、図面を参照して、詳細に説明する。図1は本発明の
第1の実施の形態のベクトル処理装置を示すブロック図
であり、本ベクトル処理装置は、8バイトの要素単位に
独自なメモリアドレスを持つリストベクトルをメモリに
データ転送が可能である。
【0028】図1において、4つの入力レジスタ121
a〜121dは、ベクトル演算部110からリストベク
トルのロード/ストアリクエストを受けるレジスタであ
り、各要素単位の複数(例として4要素)のリクエスト
が、要素番号順に入力ポート0〜3を経由して転送され
る。
【0029】4つの入力バッファ122a〜122d
は、出力ポート競合による待ち合わせができたときに、
連続的にベクトル演算部110から発行されるリクエス
トの緩衝用のバッファであり、全てのバッファはリード
アドレスおよびライトアドレスが共通で、同一動作をす
る。
【0030】4つの読み出しレジスタ123a〜123
dは、バッファ122a〜122dの読み出し用のレジ
スタであり、出力ポート競合検出の対象となる。
【0031】偶数ポートアービタ128aは、入力ポー
トが偶数(ポート0、2)の要素のみを対象とした出力
ポート競合調停回路であり、奇数ポートアービタ128
bは、入力ポートが奇数(ポート1、3)の要素のみを
対象とした出力ポート競合調停回路であり、それぞれの
アービタは独立に動作する。これは例えば入力ポート0
のリストベクトル要素と、入力ポート1のリストベクト
ル要素が、同一出力ポートへ向かったとしても、アービ
タが異なるので、競合は、発生していないように見え、
出力ポート競合は検出せず、両方のリクエストが出力可
能となることを意味する。
【0032】なお、本実施の形態では、アービタを偶数
ポートアービタ、奇数ポートアービタと、2つに分割し
たが、これは、入力ポート0、1で1つのアービタ、
2、3で1つのアービタとしても良く、また更にアービ
タを3つ、4つに分割しても良い。
【0033】また偶数ポートアービタ128a、奇数ポ
ートアービタ128bにおいて、どちらかのアービタで
出力ポート競合が検出された場合は、読み出しレジスタ
123a〜123dおよびバッファ122a〜122d
のリードアドレスを全ての出力ポート競合がなくなるま
でホールドして、後続のリクエストの、アービタ参加を
抑止する。これは同一命令内の各要素間あるいは命令間
の要素間において、同一アドレスへのアクセス順序を保
証するための処理である。
【0034】偶数ポートクロスバ124は、偶数ポート
アービタ128aによって制御され、出力ポート競合調
停結果により偶数入力ポートのベクトル要素のみを出力
ポート(例では4ポート)へ転送している。奇数ポート
クロスバ125は同様に、奇数ポートアービタ128b
によって制御され、奇数入力ポートのベクトル要素のみ
を出力ポートへ転送している。
【0035】出力バッファ126a〜126dは、0〜
3のそれぞれの出力ポートに対応して設けられ、1つの
出力バッファは、偶数ポートクロスバ124と奇数ポー
トクロスバ125のそれぞれから送られる最大2つのベ
クトル要素を同時に格納可能なバッファであり、常に偶
数ポートクロスバ124からのベクトル要素を、出力す
る順番が先になるように優先して格納している。
【0036】次に本発明の第1の実施の形態の動作につ
いて、図1、図2、図6を参照して詳細に説明する。図
6は、上述のようにメモリアクセス制御部の動作を説明
するためのベクトルストア命令時の各ベクトル要素の要
素番号と各要素が出力されるポートの関係を示す1例の
関係図であり、従来例と本発明の実施の形態のベクトル
処理装置の動作を比較するために共通にこの関係図が使
用されている。
【0037】図2は、図6で示されたリストベクトル命
令時における各ベクトル要素のアドレスと、各要素が出
力される出力ポートの関係における、第1の実施の形態
でのリストベクトル要素の出力状況を示すタイミング図
である。この動作を図1を参照して、詳細に説明する。
【0038】要素0〜3の4要素e0、e1、e2、e
3はメモリアクセス制御部120に入力ポート0〜3よ
り入力して、入力レジスタ121a〜121dに要素番
号順にそれぞれ格納される。
【0039】次のタイミングでは入力ポートには、e
4、e5,e6、e7の4要素が送られてきており、以
降各タイミングごとに4要素ずつ連続的にパイプライン
方式で送られ、入力レジスタ121a〜121dに順次
格納される。
【0040】最初の4要素、e0〜e3は、入力バッフ
ァ122a〜122dを介して、読み出しレジスタ12
3a〜123dに要素番号順に格納される。ここで偶数
ポートアービタ128a、奇数ポートアービタ128b
で、各要素の出力ポート競合がそれぞれチェックされ
る。偶数ポートアービタ128aは、読み出しレジスタ
の偶数ポート(ポート、0、2)から入力して入力バッ
ファ122a、122cに格納したe0、e2のそれぞ
れの出力ポート競合をチェックする。図6で示したケー
スではe0、e2は、それぞれ出力ポート2、3へ向か
うので、出力ポート競合は発生しない。
【0041】一方奇数アービタ128bは同様に、e
1、e3の出力ポート競合をチェックする。図6より、
e1、e3の出力ポートは、いずれも出力ポート0なの
で、出力ポート競合が発生する。この場合、偶数ポート
アービタ128aでは競合が検出されなかったが、奇数
ポートアービタ128bでは競合が発生したため、ホー
ルド要求が出力され、ORゲート129により、入力バ
ッファ122a〜122dのリードポインタおよび読み
出しレジスタ123a〜123dにホールド要求が発生
し、各レジスタがホールドされる。
【0042】一方e1、e3は、奇数アービタ128b
により所定の優先順位に従い、(本実施例では、番号が
小さいものを優先する)e1が出力ポート0に出力し、
e3は、出力ポート0に出力できず、読み出しレジスタ
123dでホールドされる。これら一連の状況は、図2
のタイミング1に示されている。e0、e1、e2は、
それぞれ出力ポート2、0、3から出力し、競合に負け
たe3は、本タイミングでは出力ポートには出力されず
読み出しレジスタ123dに残る。次のタイミング2で
は、出力していないe3のみが読み出しレジスタ123
dに残っているので、e3のみが出力ポート競合の対象
要素となる。従ってタイミング2では、e3のみなので
ポート競合は発生せず、e3が出力ポート0に出力され
る。このとき、偶数アービタ128a、奇数アービタ1
28bは、競合が発生しないので、ホールド要求は出力
されず、次のタイミング3で、入力バッファ122a〜
122dに格納されているe4〜e7が、読み出しレジ
スタに123a〜123dにそれぞれ格納される。
【0043】e4、e5、e6、e7はそれぞれ出力ポ
ート3、0、2、3に出力することになっており、e4
とe7が同じ出力ポート3に出力する。しかしe4とe
7は、e4が偶数アービタ128a、e7が奇数アービ
タ128bに入力するため、それぞれのアービタは独立
に動作するので競合が発生せず、ホールド要求はあがら
ない。したがって、入力バッファの122a〜122d
のリードポインタ、読み出しレジスタ123a〜123
dはホールドされないため、次のタイミング4では、後
続の要素e8〜e11が読み出しレジスタ123a〜1
23dに格納される。
【0044】一方、e4は、偶数用のポートクロスバ1
24の出力ポート3用のセレクタ124dにて選択さ
れ、出力バッファ126dに向かう。e7は奇数用のポ
ートクロスバ125の出力ポート3用のセレクタ125
dにて選択されて、こちらも出力バッファ126dに向
かう。ここで出力バッファ126dは、それぞれのクロ
スバからの2つの要素を、所定の優先順位に従い、ここ
では偶数用のポートクロスバ124からの入力を優先し
ているので、これにより偶数用のポートクロスバ124
からの入力データe4が出力ポートに出力され、奇数用
のポートクロスバ125からの入力データe7は、出力
バッファに登録され、次のタイミング4で出力する。
【0045】以降の要素は、同様に制御され、図2で示
す出力状況となりタイミング12で処理を終了する。こ
れは、アービタ、ポートクロスバを、入力ポートに対応
させて分割しないで、1つのアービタ、ポートクロスバ
で実施する従来例の方式による図7に比べ、4タイミン
グ早く処理が終了し、図9で示される改良された従来例
の方式と同等の性能が得られる。
【0046】図3は本発明の第2の実施の形態のベクト
ル処理装置を示すブロック図である。図1と同様に22
1a〜221dは入力レジスタ、222a〜222dは
入力バッファ、223a〜223dは読み出しレジスタ
である。
【0047】また226a〜226dは、各ポートの読
み出しレジスタ223a〜223dのリクエストを、同
時に最大入力ポートの数だけ(本実施例では4つ)、を
同時に書き込める出力バッファである。
【0048】この出力バッファを制御するのが出力バッ
ファ制御部227であり、それぞれの出力ポートへ向か
うリクエストをその出力ポートに対応した出力バッファ
に格納するように制御する。
【0049】第2の実施の形態では、第1の実施の形態
と同様に、入力ポート0〜3に対応して、入力レジスタ
221a〜221d、入力バッファ222a〜222
d、読み出しレジスタ223a〜223dを備えてい
る。
【0050】しかし、第2の実施の形態では、読み出し
レジスタ223a〜223dの出力が4分割され、全て
の入力ポートのそれぞれに対応した出力バッファ226
a〜226dと結ばれており、読み出しレジスタ223
a〜223dの出力が、出力バッファ226a〜226
dのいずれにも同一タイミングで格納可能である。これ
により、第1の実施の形態で必要であった出力ポート競
合を検出するアービタは存在せず、また出力バッファへ
の入力データを選択するポートクロスバも同様に存在し
ない。
【0051】この構成では、同時に4つの要素が、出力
バッファに格納できるため、出力バッファの制御を行う
出力バッファ制御部227が出力バッファ226a〜2
26dに入力する4要素を制御し、出力バッファ226
a〜226dが、それぞれが確保したワード数を超える
ときのみ、入力バッファ222a〜222dのリードポ
インタ、読み出しレジスタにホールド要求をかけること
になる。
【0052】図4は、図6で示されたリストベクトル命
令時における各ベクトル要素のアドレスと、各要素が出
力される出力ポートの関係における、第2の実施の形態
でのリストベクトル要素の出力状況を示すタイミング図
である。この動作を図3、図6を参照して、詳細に説明
する。
【0053】要素0〜3の4要素e0、e1、e2、e
3はメモリアクセス制御部220に入力ポート0〜3よ
り入力して、入力レジスタ221a〜221dに要素番
号順にそれぞれ格納される。
【0054】次のタイミングでは入力ポートには、e
4、e5,e6、e7の4要素が送られてきており、以
降各タイミングごとに4要素ずつ連続的にパイプライン
方式で送られ、入力レジスタ221a〜221dに順次
格納される。
【0055】最初の4要素、e0〜e3は、入力バッフ
ァ222a〜222dを介して、読み出しレジスタ22
3a〜223dに要素番号順に格納される。ここで出力
バッファ制御部227によってそれぞれの出力ポートに
対応して制御され、それぞれの出力ポートに対応した出
力バッファ226a〜226bに出力される。その場合
同じ出力ポートに出力される複数の要素がある場合は、
所定の優先順位に従い(本実施例では、番号が小さいも
のを優先する)出力バッファ226a〜226dに出力
される。図4のタイミング1では出力バッファ226a
にはe1、e3の順で出力され、e1は出力ポート0に
そのまま出力され、e3は出力バッファ226aに残
る。e0とe2はそれぞれ出力バッファ226c、22
6dを経由して出力ポート2、3に出力される。
【0056】読み出しレジスタ223a〜223dに残
る要素はないので次のe4、e5、e6、e7の4要素
が送りこまれ、タイミング2でそれぞれの出力ポートに
対応した出力バッファ226a〜226dに送り込まれ
る。出力バッファ226からは残っていたe3が出力ポ
ート0に送り出され、新たに送られてきたe5が残る。
出力バッファ226cにはe6が送り込まれそのまま出
力ポート2に送り出される。出力バッファ226dには
出力ポート3のe4とe7がこの順で送り込まれ、e4
はそのまま出力ポート3に送り出され、e7が残る。
【0057】出力バッファの格納容量を残留する要素の
数が超えなければ読み出しレジスタへの入力バッファか
ら要素の送り込みをブロックする必要がない。
【0058】以降の要素は、同様に制御されて図4で示
す出力状況となり、タイミング10で処理を終了する。
これは、1つのアービタ、ポートクロスバで実施する従
来例の方式による図7に比べ、6タイミング早く処理が
終了し、図9で示される改良された従来例の方式および
図2に示されるアービタ、ポートクロスバを入力ポート
に対応させて分割した第1の実施の形態に比べても2タ
イミング処理が短縮でき、本構成では、出力ポート競合
によるホールド要求が入力ポートに出ないため、さらに
命令の処理性能が向上していることがわかる。
【0059】本実施の形態では出力バッファの要素の格
納容量を入力ポート数と同じ4要素としたが、上述の例
では最大2要素しか使用されておらないので、出力バッ
ファの要素の格納容量を例えば入力ポート数の1/2の
2要素と少なくしても命令の処理能力はそれに比例して
低下しない。
【0060】
【発明の効果】請求項1に記載のベクトル処理装置の効
果は、物量を増加させずに、リストベクトル命令の性能
を向上させることができることである。
【0061】その理由は、入力ポートを複数に分割し、
分割単位ごとに出力ポート競合検出回路を設けて競合検
出を行うことにより、競合する確率を減らし、入力ポー
ト側へのホールド要求が減るからである。
【0062】請求項4に記載のベクトル処理装置の効果
は、リストベクトル命令の性能を向上させることができ
ることである。
【0063】その理由は、出力バッファに入力ポート分
の要素が全て同時に書き込めるために、出力ポート競合
が発生せず、入力ポート側への出力ポート競合によるホ
ールド要求が出ないからである。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態のベクトル処理装置
を示すブロック図である。
【図2】図6で示されたリストベクトル命令時における
各ベクトル要素のアドレスと、各要素が出力される出力
ポートの関係における、第1の実施の形態でのリストベ
クトル要素の出力状況を示すタイミング図である。
【図3】本発明の第2の実施の形態のベクトル処理装置
を示すブロック図である。
【図4】図6で示されたリストベクトル命令時における
各ベクトル要素のアドレスと、各要素が出力される出力
ポートの関係における、第2の実施の形態でのリストベ
クトル要素の出力状況を示すタイミング図である。
【図5】従来例のベクトル処理装置のブロック図であ
る。
【図6】メモリアクセス制御部の動作を説明するための
ベクトルストア命令時の要素の要素番号と各要素が出力
されるポートの関係を示す1例の関係図である。
【図7】図5の従来例のベクトル処理装置を用いて図6
の関係を有する要素を処理したときのタイミング図であ
る。
【図8】改良された従来例のベクトル処理装置のブロッ
ク図である。
【図9】図8の改良された従来例のベクトル処理装置を
用いて図6の関係を有する要素を処理したときのタイミ
ング図である。
【符号の説明】
110、210、310、410 ベクトル演算部 120、220、320、420 メモリアクセス制
御部 121a〜121d、221a〜221d、321a〜
321d、421a〜421d 入力レジスタ 122a〜122d、222a〜222d、322a〜
322d、422a〜422h 入力バッファ 123a〜123d、223a〜223d、323a〜
323d、423a〜423h 読み出しレジスタ 124 偶数ポートクロスバ 124a〜124d、125a〜125d、324a〜
324d、424a〜424d セレクタ 125 奇数ポートクロスバ 126a〜126d、226a〜226d 出力バッ
ファ 128a 偶数ポートアービタ 128b 奇数ポートアービタ 129 OR回路 130、230、330、430 主記憶部 227 出力バッファ 325、425 出力要素検出回路 326a〜326d、426a〜426d 出力レジ
スタ 328、428 ポート競合検出回路

Claims (6)

    (57)【特許請求の範囲】
  1. 【請求項1】 ベクトル要素ごとにベクトル演算を行う
    1つ以上ののベクトル演算部と、複数のバンクを有して
    独立にアクセス可能な複数のポートを有するメモリモジ
    ュールで構成される主記憶部と、前記ベクトル演算部と
    前記主記憶部との間で複数のベクトル要素の転送が前記
    主記憶部における各ポートのバイト幅単位に独立に行え
    るメモリアクセス制御部とを備えるベクトル処理装置で
    あって、 前記メモリアクセス制御部が、 前記ベクトル演算部からベクトル要素単位で、かつ要素
    番号順にパイプライン方式で入力するベクトル要素を保
    持するn個(n≧2)の入力レジスタと、 前記入力レジスタに対応して保持内容を格納するn個の
    入力バッファと、 前記入力バッファから読みだしたベクトル要素単位のリ
    クエストを格納するn個の読み出しレジスタと、 前記読み出しレジスタに保持されたn個のベクトル要素
    について、複数の単位に分割して、分割単位内のみで競
    合調停を行なうm個(n>m≧2)の競合調停回路と、 複数の前記競合調停回路により競合調停された各ベクト
    ル要素を、アドレスによるベクトル要素指定の出力ポー
    トへ送るm個のベクトル要素選択回路と、 それぞれの前記出力ポートに対応して設けられ、m個の
    前記ベクトル要素選択回路から送り出される最大m個の
    ベクトル要素を同時に格納することが可能な出力バッフ
    ァと、を備えたことを特徴とするベクトル処理装置。
  2. 【請求項2】 前記競合調停回路が2個であり、前記読
    み出しレジスタに保持されたn個のベクトル要素を要素
    番号の奇数と偶数の単位に分割して、分割単位内のみで
    競合調停を行なう、請求項lに記載のベクトル処理装
    置。
  3. 【請求項3】 m個の前記競合調停回路が、前記読み出
    しレジスタに保持されたn個のベクトル要素を前記要素
    番号順にn/m個づつに分割して、分割単位内でのみの
    競合調停を行なう、請求項lに記載のベクトル処理装
    置。
  4. 【請求項4】 ベクトル要素ごとにベクトル演算を行う
    1つ以上ののベクトル演算部と、複数のバンクを有して
    独立にアクセス可能な複数のポートを有するメモリモジ
    ュールで構成される主記憶部と、前記ベクトル演算部と
    前記主記憶部との間で複数のベクトル要素の転送が前記
    主記憶部における各ポートのバイト幅単位に独立に行え
    るメモリアクセス制御部とを備えるベクトル処理装置で
    あって、 前記メモリアクセス制御部が、 前記ベクトル演算部からベクトル要素単位で、かつ要素
    番号順にパイプライン方式で入力するベクトル要素を保
    持するn個(n≧2)の入力レジスタと、 前記入力レジスタに対応して保持内容を格納するn個の
    入力バッファと、 前記入力バッファから読みだしたベクトル要素単位のリ
    クエストを格納するn個の読み出しレジスタと、 前記読み出しレジスタに保持されたn個のベクトル要素
    について、アドレスによるベクトル要素指定の出力ポー
    トに、該出力ポートを指定したすべての入力ポートの各
    ベクトル要素を出力するよう制御する出力ポート制御回
    路と、 それぞれの前記各出力ポートに対応して設けられ、前記
    出力ポート制御回路に従って最大n個のベクトル要素デ
    ータを同時に格納することが可能な出力バッファと、を
    備えることを特徴とするベクトル処理装置。
  5. 【請求項5】 出力ポート制御回路は、前記読み出しレ
    ジスタに保持されたn個のベクトル要素において、同一
    の出力ポートを指定した複数のベクトル要素が存在する
    場合は、指定された該出力ポートに対応する前記出力バ
    ッファに要素番号順に出力する、請求項4に記載のベク
    トル処理装置。
  6. 【請求項6】 前記出力バッファがn/2個以下のベク
    トル要素データを同時に収納可能な、請求項4または請
    求項5に記載のベクトル処理装置。
JP10031177A 1998-02-13 1998-02-13 ベクトル処理装置 Expired - Fee Related JP2878256B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10031177A JP2878256B1 (ja) 1998-02-13 1998-02-13 ベクトル処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10031177A JP2878256B1 (ja) 1998-02-13 1998-02-13 ベクトル処理装置

Publications (2)

Publication Number Publication Date
JP2878256B1 true JP2878256B1 (ja) 1999-04-05
JPH11232078A JPH11232078A (ja) 1999-08-27

Family

ID=12324174

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10031177A Expired - Fee Related JP2878256B1 (ja) 1998-02-13 1998-02-13 ベクトル処理装置

Country Status (1)

Country Link
JP (1) JP2878256B1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011033862A1 (ja) * 2009-09-15 2011-03-24 日本電気株式会社 情報処理装置およびデータ転送方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101388134B1 (ko) 2007-10-01 2014-04-23 삼성전자주식회사 뱅크 충돌 방지 장치 및 방법
JP5623871B2 (ja) * 2010-11-04 2014-11-12 Necプラットフォームズ株式会社 データ転送装置、演算装置、それを備えた装置およびデータ転送方法
JP5691555B2 (ja) * 2011-01-25 2015-04-01 日本電気株式会社 相互結合網制御システム、相互結合網制御方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011033862A1 (ja) * 2009-09-15 2011-03-24 日本電気株式会社 情報処理装置およびデータ転送方法

Also Published As

Publication number Publication date
JPH11232078A (ja) 1999-08-27

Similar Documents

Publication Publication Date Title
US5060145A (en) Memory access system for pipelined data paths to and from storage
US6199187B1 (en) External storage device and memory access control method thereof
JP2878256B1 (ja) ベクトル処理装置
US5201058A (en) Control system for transferring vector data without waiting for transfer end of the previous vector data
US6292853B1 (en) DMA controller adapted for transferring data in two-dimensional mapped address space
US20030200422A1 (en) Parallel processor
US5099416A (en) An operand storage compare (osc) detecting device using column and row signals in a buffer storage
US7480756B2 (en) Electronic data processing circuit that transmits packed words via a bus
JP2001157049A5 (ja)
JP3005456B2 (ja) ベクトル処理装置
JPH0449145B2 (ja)
US11232027B2 (en) Memory control apparatus, memory apparatus, information processing system, and memory control method
JPH10333979A (ja) バンクアクセス制御方式
JP3245488B2 (ja) リストベクトル処理装置
US6161158A (en) Bus arbitration apparatus and method wherein each module has two in-module arbiters
JP2636485B2 (ja) キャッシュ記憶装置
JP2004287963A (ja) 検索要求を並列処理する検索装置、検索方法、及びプログラム
JP2010032402A (ja) 半導体試験装置
JPS6125178B2 (ja)
EP1251431A2 (en) Reduction of bank switching instructions in main memory of data processing apparatus having main memory and plural memory banks
JP3641347B2 (ja) 競合調停処理方式とその情報処理装置
JPH07319829A (ja) データ転送方法
JPH0752410B2 (ja) キャッシュメモリ制御方式
EP1650912A1 (en) Data queue control circuit for variable length packets
JPH04321993A (ja) 記憶制御装置

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080122

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090122

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100122

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees