JP2878256B1

JP2878256B1 - ベクトル処理装置

Info

Publication number: JP2878256B1
Application number: JP10031177A
Authority: JP
Inventors: 康宏井川
Original assignee: 甲府日本電気株式会社
Priority date: 1998-02-13
Filing date: 1998-02-13
Publication date: 1999-04-05
Anticipated expiration: 2018-02-13
Also published as: JPH11232078A

Abstract

【要約】【課題】リストベクトルのメモリアクセス性能を、少
ないハードウェア量で高速化できるベクトル処理装置を
提供する。【解決手段】メモリアクセス制御部１２０が、ベクト
ル演算部１１０からベクトル要素単位で、かつ要素番号
順にパイプライン方式で入力するベクトル要素を保持す
る４個の入力レジスタ１２１と、４個の入力バッファ１
２２と、４個の読み出しレジスタ１２３と、読み出しレ
ジスタに保持された４個の要素を偶数と奇数に分割し
て、分割単位内のみで競合調停を行なう２個のポートア
ービタ１２８と、競合調停された各要素を、アドレスに
よる要素指定の出力ポートへ送る２個のポートクロスバ
１２４、１２５と、それぞれの出力ポートに対応して設
けられ、２個のポートクロスバから送り出される最大２
個の要素を同時に格納することが可能な出力バッファ１
２６とを備えている。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は電子計算機における
ベクトル処理装置に関する。

【０００２】

【従来の技術】一般にベクトル処理装置は、主メモリと
ベクトルレジスタとの間で大量のデータを高速に処理す
る必要から、同一タイミングで複数のデータを同時にメ
モリアクセス処理部に連続的に供給して、高速化を実現
している。これはベクトル化された各要素ごとに、個々
にアドレスを持つリストベクトルについても同様であ
る。

【０００３】従来この種のベクトル処理装置は、従来例
のベクトル処理装置のブロック図である図５に示すよう
に、メモリアクセス制御部３２０が、ベクトル演算部３
１０からのベクトルリクエストの各要素単位の複数（例
として４要素）の入力ポート、各入力ポートに対応する
入力レジスタ３２１ａ〜３２１ｄ、ポート競合発生時の
緩衝用に同一の動作をするバッファ３２２ａ〜３２２
ｄ、読み出しレジスタ３２３ａ〜３２３ｄ、ポート競合
の検出およびバッファ制御を行うポート競合検出回路３
２８、入力要素のメモリアドレスから出力ポートを生成
し、そのタイミングで出力する要素を決定する出力要素
検出回路３２５、出力要素検出回路３２５の制御信号に
より読み出しレジスタ３２３ａ〜３２３ｄから各出力ポ
ートの入力要素を選択するセレクタ３２４ａ〜３２４
ｄ、および主記憶部３３０への各出力ポートに対応する
出力レジスタ３２６ａ〜３２６ｄを備えている。

【０００４】次にこのメモリアクセス制御部の動作を説
明する。図６はメモリアクセス制御部の動作を説明する
ためのベクトルストア命令時の各ベクトル要素（以下要
素と略称する）の要素番号と各要素が出力されるポート
の関係を示す１例の関係図である。リストベクトルは、
各要素ごとに、別々にメモリアドレスを決定できるベク
トル命令のため、インターリーブされたメモリ番地に接
続される出力ポート番号も、ランダムとなるため、図６
の各要素のポート番号も、出力ポート４ポートをランダ
ムにアクセスする様にしている。今後従来例と本発明の
実施の形態のベクトル処理装置の動作を比較するために
共通にこの関係図を使用する。

【０００５】図７は、図５の従来例のベクトル処理装置
を用いて図６の関係を有する要素を処理したときのタイ
ミング図である。タイミング１において要素０、１、
２、３（以下ｅ１、ｅ２、ｅ３、ｅ４と略称する）の４
要素が入力ポート０〜３から入力レジスタ３２１ａ〜３
２１ｄを経由して入力バッファ３２２ａ〜３２２ｄに入
力され、読み出しレジスタ３２３ａ〜３２３ｄにそれぞ
れ格納される。ここでポート競合検出回路３２８により
各要素の出力ポート競合がそれぞれチェックされる。こ
こではｅ１とｅ３との出力ポートが何れも０なので出力
ポート競合が発生する。競合した要素の優先順位の高い
要素（要素番号の最も小さい要素、ここではｅ１）がポ
ート競合検出回路３２８によって検出され、出力要素検
出回路３２５によりセレクタ３２４ａは読み出しレジス
タ３２３ｂからｅ１を、セレクタ３２４ｃは読み出しレ
ジスタ３２３ａからｅ０を、セレクタ３２４ｄは読み出
しレジスタ３２３ｃからｅ２を選択してそれぞれ出力レ
ジスタ３２６ａ、３２６ｃ、３２６ｄを経由して、それ
ぞれの出力ポートから主記憶部３３０に送り出し、読み
出しレジスタ３２３ｄにｅ３が残る。

【０００６】競合が発生したことにより、ポート競合検
出回路３２８よりホールド要求が出され、読み出しレジ
スタ３２３ａ〜３２３ｄはホールドされ、バッファ３１
２ａ〜３１２ｄはバッファのリードアドレスをホールド
する。

【０００７】次のタイミング２では読み出しレジスタ３
２３ｄにｅ３が残っているだけなので競合はなく、ｅ３
がセレクタ３２４ａに選択され出力レジスタ３２６ａと
出力ポート０を経由して主記憶部３３０に送り出され
る。競合が無かったのでポート競合検出回路３２８より
ホールド要求は解除され、バッファ３２２ａ〜３２２ｄ
でホールドされていたｅ４〜ｅ６の要素が読み出しレジ
スタ３２３ａ〜３２３ｄに送り出され、タイミング３で
ポート競合が検出される。

【０００８】このような動作を図７のタイミング図に示
すように繰り返し、全ての処理は１６タイミングで終了
する。即ち最大スループット３２の１／２のスループッ
トとなっている。

【０００９】次に、このスループットを短縮するために
提案されている第２の従来例について説明する。図８は
改良された従来例のベクトル処理装置のブロック図であ
る。改良された従来例のベクトル処理装置のメモリアク
セス制御部４２０は、図８に示すように、ベクトル演算
部４１０からのリストベクトルリクエストの各要素単位
の複数（例として４要素）の入力ポートを持っており、
入力レジスタ４２１ａ〜４２１ｄに各入力ポートから要
素が入力される。入力バッファ４２２ａ〜４２２ｈは、
ポート競合による待ち合わせが起きたとき、連続的に発
行される入力リクエストの緩衝用のバッファ群であり、
入力バッファ４２２ａ〜４２２ｄおよび入力バッファ４
２２ｅ〜４２２ｈは、それぞれその順序で入力レジスタ
４２１ａ〜４２１ｄの各要素に対応しており、入力バッ
ファ４２２ａ〜４２２ｄと４２２ｅ〜４２２ｈとに入力
レジスタ４２１ａ〜４２１ｄの要素が交互に入力され
る。読み出しレジスタ４２３ａ〜４２３ｈは、それぞれ
入力バッファ４２２ａ〜４２２ｈの読み出し用のレジス
タ群でありポート競合検出回路４２８の対象レジスタで
ある。出力要素検出回路４２５は、各出力ポートに対応
するセレクタ４２４ａ〜４２４ｄの選択条件を生成して
いる。ポート競合検出回路４２８は、読み出しレジスタ
４２３ａ〜４２３ｈの各要素のポート競合を検出する回
路であり、またバッファ４２２ａ〜４２２ｈ、および読
み出しレジスタ４２３ａ〜４２３ｈの制御を行ってい
る。出力レジスタ４２６ａ〜４２６ｄは各出力ポート
（この例では４ポート）に対応するレジスタ群であり、
セレクタ４２４ａ〜４２４ｄで選択された要素を格納
し、出力ポート０〜３を経由して主記憶部４３０に出力
する。次にこの改良された従来例のメモリアクセス制御
部４２０の動作を説明する。ここでも上述の従来例に用
いた図６のベクトルストア命令時の各要素の要素番号と
各要素が出力されるポートの関係を示す１例の関係図を
参照して説明する。

【００１０】図９は、図８の改良された従来例のベクト
ル処理装置を用いて図６の関係を有する要素を処理した
ときのタイミング図である。図８において、入力ポート
０、１、２、３から、図６で示す要素が４つずつ連続的
に入力する。要素０、１、２、３（以下ｅ１、ｅ２、ｅ
３、ｅ４と略称する）が入力ポート０〜３、入力レジス
タ４２１ａ〜４２１ｄ、および入力バッファ４２２ａ〜
４２２ｄを経由して読み出しレジスタ４２３ａ〜４２３
ｄに入力すると、ポート競合検出回路４２８により出力
ポート競合の検出が行われる。図６によると、ｅ１とｅ
３とが同一出力ポートであるポート０へのアクセスであ
るため、競合が発生し、要素番号の若いｅ１がセレクタ
４２４ａにて選択され、出力レジスタ４２６ａに格納さ
れ、出力ポート０へ出力する。競合の無いｅ０、ｅ２も
セレクタ４２４ｃ、４２４ｄにて選択され、出力レジス
タ４２６ｃ、４２６ｄに格納され、出力ポート２、３へ
出力する。一方競合で負けたｅ３は読み出しレジスタ４
２３ｄにホールドされる。また、このタイミングには、
次の４要素であるｅ４、ｅ５、ｅ６、ｅ７が拡張された
読み出しレジスタ４２３ｅ〜４２３ｈに入力する。この
とき、競合に負けて読み出しレジスタ４２３ｄにホール
ドされたｅ３と、次タイミングに入力したe４、ｅ５、
ｅ６、ｅ７は、同時に競合に参加することになる。そし
てこの５要素で競合調停を行う。この動作を示したもの
が図９のタイミング２である。出力ポート０、１、２、
３の欄には、そのタイミングに出力した要素が示されて
いる。出力ポート競合検出対象要素の欄には、読みだし
レジスタ４２３ａ〜４２３ｈに格納されている競合に負
けてホールドされた要素および新たに入力した要素が示
されている。出力要素の欄にはそのタイミングに出力し
た要素が示され、出力要素数の欄にはそのタイミングに
出力した要素数が示されている。

【００１１】図６の要素番号ｅ０〜ｅ３１に示される３
２個の要素は、上述のようなポート競合検出と選択され
た要素の出力の繰り返しによって、図９で示すように１
２タイミングで全ての処理が終了する。

【００１２】このように、従来構成では、４要素単位で
入力していた要素を、競合発生時入力バッファ４２２ａ
〜４２２ｄと４２２ｅ〜４２２ｈとに交互に入力するこ
とにより、競合検出対象要素数を擬似的に増加させるこ
とにより、確率的に出力可能な要素数を増加させ、スル
ープットを向上させることを目的としている。

【００１３】上述の図７に示される擬似的な拡張のない
従来例の動作例では、図６の全ての処理が終了するのに
１６タイミングを要しており、図９の改良された従来例
では１２タイミングとなっているので、スループットが
向上していることがわかる。

【００１４】

【発明が解決しようとする課題】従来例の問題点は、処
理終了までのタイミングを多く必要としスループットが
悪いので、処理の性能が悪いことである。

【００１５】これに対し改良された従来例では、終了ま
でのタイミングが少なくなり、スループットは改善した
ものの次のような問題点がある。

【００１６】第１の問題点は、性能向上のために投資す
る物量が大きいことである。これは、入力ポート側を擬
似的に２倍に見せることにより、性能を向上させている
が、そのめに入力バッファや読み出しレジスタに２倍の
物量が必要となるからである。

【００１７】第２の問題点は、出力ポート競合が発生す
る度に、後続のリクエストが待たされ、性能が劣下する
ことである。

【００１８】その理由は、同一タイミングに同一出力ポ
ートに向かうリクエストを同時に出力させることができ
ないからである。

【００１９】本発明の目的は、リストベクトルのメモリ
アクセス性能を、少ないハードウェア量で高速化できる
ベクトル処理装置を提供することにある。

【００２０】

【課題を解決するための手段】本発明のベクトル処理装
置は、ベクトル要素ごとにベクトル演算を行う１つ以上
ののベクトル演算部と、複数のバンクを有して独立にア
クセス可能な複数のポートを有するメモリモジュールで
構成される主記憶部と、ベクトル演算部と主記憶部との
間で複数のベクトル要素の転送が主記憶部における各ポ
ートのバイト幅単位に独立に行えるメモリアクセス制御
部とを備えるベクトル処理装置であって、メモリアクセ
ス制御部が、ベクトル演算部からベクトル要素単位で、
かつ要素番号順にパイプライン方式で入力するベクトル
要素を保持するｎ個（ｎ≧２）の入力レジスタと、入力
レジスタに対応して保持内容を格納するｎ個の入力バッ
ファと、入力バッファから読みだしたベクトル要素単位
のリクエストを格納するｎ個の読み出しレジスタと、読
み出しレジスタに保持されたｎ個のベクトル要素につい
て、複数の単位に分割して、分割単位内のみで競合調停
を行なうｍ個（ｎ＞ｍ≧２）の競合調停回路と、複数の
競合調停回路により競合調停された各ベクトル要素を、
アドレスによるベクトル要素指定の出力ポートへ送るｍ
個のベクトル要素選択回路と、それぞれの出力ポートに
対応して設けられ、ｍ個のベクトル要素選択回路から送
り出される最大ｍ個のベクトル要素を同時に格納するこ
とが可能な出力バッファとを備えている。

【００２１】競合調停回路が２個であり、読み出しレジ
スタに保持されたｎ個のベクトル要素を要素番号の奇数
と偶数の単位に分割して、分割単位内のみで競合調停を
行なってもよく、ｍ個の競合調停回路が、読み出しレジ
スタに保持されたｎ個のベクトル要素を要素番号順にｎ
／ｍ個づつに分割して、分割単位内でのみの競合調停を
行なってもよい。

【００２２】別の形態のベクトル処理装置は、ベクトル
要素ごとにベクトル演算を行う１つ以上ののベクトル演
算部と、複数のバンクを有して独立にアクセス可能な複
数のポートを有するメモリモジュールで構成される主記
憶部と、ベクトル演算部と主記憶部との間で複数のベク
トル要素の転送が主記憶部における各ポートのバイト幅
単位に独立に行えるメモリアクセス制御部とを備えるベ
クトル処理装置であって、メモリアクセス制御部が、ベ
クトル演算部からベクトル要素単位で、かつ要素番号順
にパイプライン方式で入力するベクトル要素を保持する
ｎ個（ｎ≧２）の入力レジスタと、入力レジスタに対応
して保持内容を格納するｎ個の入力バッファと、入力バ
ッファから読みだしたベクトル要素単位のリクエストを
格納するｎ個の読み出しレジスタと、読み出しレジスタ
に保持されたｎ個のベクトル要素について、アドレスに
よるベクトル要素指定の出力ポートに、その出力ポート
を指定したすべての入力ポートの各ベクトル要素を出力
するよう制御する出力ポート制御回路と、それぞれの各
出力ポートに対応して設けられ、出力ポート制御回路に
従って最大ｎ個のベクトル要素データを同時に格納する
ことが可能な出力バッファとを備えている。

【００２３】出力ポート制御回路は、読み出しレジスタ
に保持されたｎ個のベクトル要素において、同一の出力
ポートを指定した複数のベクトル要素が存在する場合
は、指定されたその出力ポートに対応する出力バッファ
に要素番号順に出力してもよく、出力ポートがｎ／２個
以下のベクトル要素データを同時に収納可能であっても
よい。

【００２４】リストベクトルのメモリアクセス性能の低
下要因は、出力ポート競合による、後続リクエストの競
合調停回路への入力抑止である。

【００２５】本発明では、出力ポート競合を検出する回
路を入力ポートを分割して複数持つことにより、競合が
発生する確率を減らすことができ、後続リクエストが競
合調停回路への入力抑止が抑えられ、リストベクトルの
メモリアクセス性能が向上する。

【００２６】このとき物量は、出力ポート競合を検出す
る回路を入力ポートを分割して複数持つだけなので増加
しない。

【００２７】

【発明の実施の形態】次に本発明の実施の形態につい
て、図面を参照して、詳細に説明する。図１は本発明の
第１の実施の形態のベクトル処理装置を示すブロック図
であり、本ベクトル処理装置は、８バイトの要素単位に
独自なメモリアドレスを持つリストベクトルをメモリに
データ転送が可能である。

【００２８】図１において、４つの入力レジスタ１２１
ａ〜１２１ｄは、ベクトル演算部１１０からリストベク
トルのロード／ストアリクエストを受けるレジスタであ
り、各要素単位の複数（例として４要素）のリクエスト
が、要素番号順に入力ポート０〜３を経由して転送され
る。

【００２９】４つの入力バッファ１２２ａ〜１２２ｄ
は、出力ポート競合による待ち合わせができたときに、
連続的にベクトル演算部１１０から発行されるリクエス
トの緩衝用のバッファであり、全てのバッファはリード
アドレスおよびライトアドレスが共通で、同一動作をす
る。

【００３０】４つの読み出しレジスタ１２３ａ〜１２３
ｄは、バッファ１２２ａ〜１２２ｄの読み出し用のレジ
スタであり、出力ポート競合検出の対象となる。

【００３１】偶数ポートアービタ１２８ａは、入力ポー
トが偶数（ポート０、２）の要素のみを対象とした出力
ポート競合調停回路であり、奇数ポートアービタ１２８
ｂは、入力ポートが奇数（ポート１、３）の要素のみを
対象とした出力ポート競合調停回路であり、それぞれの
アービタは独立に動作する。これは例えば入力ポート０
のリストベクトル要素と、入力ポート１のリストベクト
ル要素が、同一出力ポートへ向かったとしても、アービ
タが異なるので、競合は、発生していないように見え、
出力ポート競合は検出せず、両方のリクエストが出力可
能となることを意味する。

【００３２】なお、本実施の形態では、アービタを偶数
ポートアービタ、奇数ポートアービタと、２つに分割し
たが、これは、入力ポート０、１で１つのアービタ、
２、３で１つのアービタとしても良く、また更にアービ
タを３つ、４つに分割しても良い。

【００３３】また偶数ポートアービタ１２８ａ、奇数ポ
ートアービタ１２８ｂにおいて、どちらかのアービタで
出力ポート競合が検出された場合は、読み出しレジスタ
１２３ａ〜１２３ｄおよびバッファ１２２ａ〜１２２ｄ
のリードアドレスを全ての出力ポート競合がなくなるま
でホールドして、後続のリクエストの、アービタ参加を
抑止する。これは同一命令内の各要素間あるいは命令間
の要素間において、同一アドレスへのアクセス順序を保
証するための処理である。

【００３４】偶数ポートクロスバ１２４は、偶数ポート
アービタ１２８ａによって制御され、出力ポート競合調
停結果により偶数入力ポートのベクトル要素のみを出力
ポート（例では４ポート）へ転送している。奇数ポート
クロスバ１２５は同様に、奇数ポートアービタ１２８ｂ
によって制御され、奇数入力ポートのベクトル要素のみ
を出力ポートへ転送している。

【００３５】出力バッファ１２６ａ〜１２６ｄは、０〜
３のそれぞれの出力ポートに対応して設けられ、１つの
出力バッファは、偶数ポートクロスバ１２４と奇数ポー
トクロスバ１２５のそれぞれから送られる最大２つのベ
クトル要素を同時に格納可能なバッファであり、常に偶
数ポートクロスバ１２４からのベクトル要素を、出力す
る順番が先になるように優先して格納している。

【００３６】次に本発明の第１の実施の形態の動作につ
いて、図１、図２、図６を参照して詳細に説明する。図
６は、上述のようにメモリアクセス制御部の動作を説明
するためのベクトルストア命令時の各ベクトル要素の要
素番号と各要素が出力されるポートの関係を示す１例の
関係図であり、従来例と本発明の実施の形態のベクトル
処理装置の動作を比較するために共通にこの関係図が使
用されている。

【００３７】図２は、図６で示されたリストベクトル命
令時における各ベクトル要素のアドレスと、各要素が出
力される出力ポートの関係における、第１の実施の形態
でのリストベクトル要素の出力状況を示すタイミング図
である。この動作を図１を参照して、詳細に説明する。

【００３８】要素０〜３の４要素ｅ０、ｅ１、ｅ２、ｅ
３はメモリアクセス制御部１２０に入力ポート０〜３よ
り入力して、入力レジスタ１２１ａ〜１２１ｄに要素番
号順にそれぞれ格納される。

【００３９】次のタイミングでは入力ポートには、ｅ
４、ｅ５，ｅ６、ｅ７の４要素が送られてきており、以
降各タイミングごとに４要素ずつ連続的にパイプライン
方式で送られ、入力レジスタ１２１ａ〜１２１ｄに順次
格納される。

【００４０】最初の４要素、ｅ０〜ｅ３は、入力バッフ
ァ１２２ａ〜１２２ｄを介して、読み出しレジスタ１２
３ａ〜１２３ｄに要素番号順に格納される。ここで偶数
ポートアービタ１２８ａ、奇数ポートアービタ１２８ｂ
で、各要素の出力ポート競合がそれぞれチェックされ
る。偶数ポートアービタ１２８ａは、読み出しレジスタ
の偶数ポート（ポート、０、２）から入力して入力バッ
ファ１２２ａ、１２２ｃに格納したｅ０、ｅ２のそれぞ
れの出力ポート競合をチェックする。図６で示したケー
スではｅ０、ｅ２は、それぞれ出力ポート２、３へ向か
うので、出力ポート競合は発生しない。

【００４１】一方奇数アービタ１２８ｂは同様に、ｅ
１、ｅ３の出力ポート競合をチェックする。図６より、
ｅ１、ｅ３の出力ポートは、いずれも出力ポート０なの
で、出力ポート競合が発生する。この場合、偶数ポート
アービタ１２８ａでは競合が検出されなかったが、奇数
ポートアービタ１２８ｂでは競合が発生したため、ホー
ルド要求が出力され、ＯＲゲート１２９により、入力バ
ッファ１２２ａ〜１２２ｄのリードポインタおよび読み
出しレジスタ１２３ａ〜１２３ｄにホールド要求が発生
し、各レジスタがホールドされる。

【００４２】一方ｅ１、ｅ３は、奇数アービタ１２８ｂ
により所定の優先順位に従い、（本実施例では、番号が
小さいものを優先する）ｅ１が出力ポート０に出力し、
ｅ３は、出力ポート０に出力できず、読み出しレジスタ
１２３ｄでホールドされる。これら一連の状況は、図２
のタイミング１に示されている。ｅ０、ｅ１、ｅ２は、
それぞれ出力ポート２、０、３から出力し、競合に負け
たｅ３は、本タイミングでは出力ポートには出力されず
読み出しレジスタ１２３ｄに残る。次のタイミング２で
は、出力していないｅ３のみが読み出しレジスタ１２３
ｄに残っているので、ｅ３のみが出力ポート競合の対象
要素となる。従ってタイミング２では、ｅ３のみなので
ポート競合は発生せず、ｅ３が出力ポート０に出力され
る。このとき、偶数アービタ１２８ａ、奇数アービタ１
２８ｂは、競合が発生しないので、ホールド要求は出力
されず、次のタイミング３で、入力バッファ１２２ａ〜
１２２ｄに格納されているｅ４〜ｅ７が、読み出しレジ
スタに１２３ａ〜１２３ｄにそれぞれ格納される。

【００４３】ｅ４、ｅ５、ｅ６、ｅ７はそれぞれ出力ポ
ート３、０、２、３に出力することになっており、ｅ４
とｅ７が同じ出力ポート３に出力する。しかしｅ４とｅ
７は、ｅ４が偶数アービタ１２８ａ、ｅ７が奇数アービ
タ１２８ｂに入力するため、それぞれのアービタは独立
に動作するので競合が発生せず、ホールド要求はあがら
ない。したがって、入力バッファの１２２ａ〜１２２ｄ
のリードポインタ、読み出しレジスタ１２３ａ〜１２３
ｄはホールドされないため、次のタイミング４では、後
続の要素ｅ８〜ｅ１１が読み出しレジスタ１２３ａ〜１
２３ｄに格納される。

【００４４】一方、ｅ４は、偶数用のポートクロスバ１
２４の出力ポート３用のセレクタ１２４ｄにて選択さ
れ、出力バッファ１２６ｄに向かう。ｅ７は奇数用のポ
ートクロスバ１２５の出力ポート３用のセレクタ１２５
ｄにて選択されて、こちらも出力バッファ１２６ｄに向
かう。ここで出力バッファ１２６ｄは、それぞれのクロ
スバからの２つの要素を、所定の優先順位に従い、ここ
では偶数用のポートクロスバ１２４からの入力を優先し
ているので、これにより偶数用のポートクロスバ１２４
からの入力データｅ４が出力ポートに出力され、奇数用
のポートクロスバ１２５からの入力データｅ７は、出力
バッファに登録され、次のタイミング４で出力する。

【００４５】以降の要素は、同様に制御され、図２で示
す出力状況となりタイミング１２で処理を終了する。こ
れは、アービタ、ポートクロスバを、入力ポートに対応
させて分割しないで、１つのアービタ、ポートクロスバ
で実施する従来例の方式による図７に比べ、４タイミン
グ早く処理が終了し、図９で示される改良された従来例
の方式と同等の性能が得られる。

【００４６】図３は本発明の第２の実施の形態のベクト
ル処理装置を示すブロック図である。図１と同様に２２
１ａ〜２２１ｄは入力レジスタ、２２２ａ〜２２２ｄは
入力バッファ、２２３ａ〜２２３ｄは読み出しレジスタ
である。

【００４７】また２２６ａ〜２２６ｄは、各ポートの読
み出しレジスタ２２３ａ〜２２３ｄのリクエストを、同
時に最大入力ポートの数だけ（本実施例では４つ）、を
同時に書き込める出力バッファである。

【００４８】この出力バッファを制御するのが出力バッ
ファ制御部２２７であり、それぞれの出力ポートへ向か
うリクエストをその出力ポートに対応した出力バッファ
に格納するように制御する。

【００４９】第２の実施の形態では、第１の実施の形態
と同様に、入力ポート０〜３に対応して、入力レジスタ
２２１ａ〜２２１ｄ、入力バッファ２２２ａ〜２２２
ｄ、読み出しレジスタ２２３ａ〜２２３ｄを備えてい
る。

【００５０】しかし、第２の実施の形態では、読み出し
レジスタ２２３ａ〜２２３ｄの出力が４分割され、全て
の入力ポートのそれぞれに対応した出力バッファ２２６
ａ〜２２６ｄと結ばれており、読み出しレジスタ２２３
ａ〜２２３ｄの出力が、出力バッファ２２６ａ〜２２６
ｄのいずれにも同一タイミングで格納可能である。これ
により、第１の実施の形態で必要であった出力ポート競
合を検出するアービタは存在せず、また出力バッファへ
の入力データを選択するポートクロスバも同様に存在し
ない。

【００５１】この構成では、同時に４つの要素が、出力
バッファに格納できるため、出力バッファの制御を行う
出力バッファ制御部２２７が出力バッファ２２６ａ〜２
２６ｄに入力する４要素を制御し、出力バッファ２２６
ａ〜２２６ｄが、それぞれが確保したワード数を超える
ときのみ、入力バッファ２２２ａ〜２２２ｄのリードポ
インタ、読み出しレジスタにホールド要求をかけること
になる。

【００５２】図４は、図６で示されたリストベクトル命
令時における各ベクトル要素のアドレスと、各要素が出
力される出力ポートの関係における、第２の実施の形態
でのリストベクトル要素の出力状況を示すタイミング図
である。この動作を図３、図６を参照して、詳細に説明
する。

【００５３】要素０〜３の４要素ｅ０、ｅ１、ｅ２、ｅ
３はメモリアクセス制御部２２０に入力ポート０〜３よ
り入力して、入力レジスタ２２１ａ〜２２１ｄに要素番
号順にそれぞれ格納される。

【００５４】次のタイミングでは入力ポートには、ｅ
４、ｅ５，ｅ６、ｅ７の４要素が送られてきており、以
降各タイミングごとに４要素ずつ連続的にパイプライン
方式で送られ、入力レジスタ２２１ａ〜２２１ｄに順次
格納される。

【００５５】最初の４要素、ｅ０〜ｅ３は、入力バッフ
ァ２２２ａ〜２２２ｄを介して、読み出しレジスタ２２
３ａ〜２２３ｄに要素番号順に格納される。ここで出力
バッファ制御部２２７によってそれぞれの出力ポートに
対応して制御され、それぞれの出力ポートに対応した出
力バッファ２２６ａ〜２２６ｂに出力される。その場合
同じ出力ポートに出力される複数の要素がある場合は、
所定の優先順位に従い（本実施例では、番号が小さいも
のを優先する）出力バッファ２２６ａ〜２２６ｄに出力
される。図４のタイミング１では出力バッファ２２６ａ
にはｅ１、ｅ３の順で出力され、ｅ１は出力ポート０に
そのまま出力され、ｅ３は出力バッファ２２６ａに残
る。ｅ０とｅ２はそれぞれ出力バッファ２２６ｃ、２２
６ｄを経由して出力ポート２、３に出力される。

【００５６】読み出しレジスタ２２３ａ〜２２３ｄに残
る要素はないので次のｅ４、ｅ５、ｅ６、ｅ７の４要素
が送りこまれ、タイミング２でそれぞれの出力ポートに
対応した出力バッファ２２６ａ〜２２６ｄに送り込まれ
る。出力バッファ２２６からは残っていたｅ３が出力ポ
ート０に送り出され、新たに送られてきたｅ５が残る。
出力バッファ２２６ｃにはｅ６が送り込まれそのまま出
力ポート２に送り出される。出力バッファ２２６ｄには
出力ポート３のｅ４とｅ７がこの順で送り込まれ、ｅ４
はそのまま出力ポート３に送り出され、ｅ７が残る。

【００５７】出力バッファの格納容量を残留する要素の
数が超えなければ読み出しレジスタへの入力バッファか
ら要素の送り込みをブロックする必要がない。

【００５８】以降の要素は、同様に制御されて図４で示
す出力状況となり、タイミング１０で処理を終了する。
これは、１つのアービタ、ポートクロスバで実施する従
来例の方式による図７に比べ、６タイミング早く処理が
終了し、図９で示される改良された従来例の方式および
図２に示されるアービタ、ポートクロスバを入力ポート
に対応させて分割した第１の実施の形態に比べても２タ
イミング処理が短縮でき、本構成では、出力ポート競合
によるホールド要求が入力ポートに出ないため、さらに
命令の処理性能が向上していることがわかる。

【００５９】本実施の形態では出力バッファの要素の格
納容量を入力ポート数と同じ４要素としたが、上述の例
では最大２要素しか使用されておらないので、出力バッ
ファの要素の格納容量を例えば入力ポート数の１／２の
２要素と少なくしても命令の処理能力はそれに比例して
低下しない。

【００６０】

【発明の効果】請求項１に記載のベクトル処理装置の効
果は、物量を増加させずに、リストベクトル命令の性能
を向上させることができることである。

【００６１】その理由は、入力ポートを複数に分割し、
分割単位ごとに出力ポート競合検出回路を設けて競合検
出を行うことにより、競合する確率を減らし、入力ポー
ト側へのホールド要求が減るからである。

【００６２】請求項４に記載のベクトル処理装置の効果
は、リストベクトル命令の性能を向上させることができ
ることである。

【００６３】その理由は、出力バッファに入力ポート分
の要素が全て同時に書き込めるために、出力ポート競合
が発生せず、入力ポート側への出力ポート競合によるホ
ールド要求が出ないからである。

【図面の簡単な説明】

【図１】本発明の第１の実施の形態のベクトル処理装置
を示すブロック図である。

【図２】図６で示されたリストベクトル命令時における
各ベクトル要素のアドレスと、各要素が出力される出力
ポートの関係における、第１の実施の形態でのリストベ
クトル要素の出力状況を示すタイミング図である。

【図３】本発明の第２の実施の形態のベクトル処理装置
を示すブロック図である。

【図４】図６で示されたリストベクトル命令時における
各ベクトル要素のアドレスと、各要素が出力される出力
ポートの関係における、第２の実施の形態でのリストベ
クトル要素の出力状況を示すタイミング図である。

【図５】従来例のベクトル処理装置のブロック図であ
る。

【図６】メモリアクセス制御部の動作を説明するための
ベクトルストア命令時の要素の要素番号と各要素が出力
されるポートの関係を示す１例の関係図である。

【図７】図５の従来例のベクトル処理装置を用いて図６
の関係を有する要素を処理したときのタイミング図であ
る。

【図８】改良された従来例のベクトル処理装置のブロッ
ク図である。

【図９】図８の改良された従来例のベクトル処理装置を
用いて図６の関係を有する要素を処理したときのタイミ
ング図である。

【符号の説明】

１１０、２１０、３１０、４１０ベクトル演算部１２０、２２０、３２０、４２０メモリアクセス制
御部１２１ａ〜１２１ｄ、２２１ａ〜２２１ｄ、３２１ａ〜
３２１ｄ、４２１ａ〜４２１ｄ入力レジスタ１２２ａ〜１２２ｄ、２２２ａ〜２２２ｄ、３２２ａ〜
３２２ｄ、４２２ａ〜４２２ｈ入力バッファ１２３ａ〜１２３ｄ、２２３ａ〜２２３ｄ、３２３ａ〜
３２３ｄ、４２３ａ〜４２３ｈ読み出しレジスタ１２４偶数ポートクロスバ１２４ａ〜１２４ｄ、１２５ａ〜１２５ｄ、３２４ａ〜
３２４ｄ、４２４ａ〜４２４ｄセレクタ１２５奇数ポートクロスバ１２６ａ〜１２６ｄ、２２６ａ〜２２６ｄ出力バッ
ファ１２８ａ偶数ポートアービタ１２８ｂ奇数ポートアービタ１２９ＯＲ回路１３０、２３０、３３０、４３０主記憶部２２７出力バッファ３２５、４２５出力要素検出回路３２６ａ〜３２６ｄ、４２６ａ〜４２６ｄ出力レジ
スタ３２８、４２８ポート競合検出回路

Claims

(57)【特許請求の範囲】

【請求項１】ベクトル要素ごとにベクトル演算を行う
１つ以上ののベクトル演算部と、複数のバンクを有して
独立にアクセス可能な複数のポートを有するメモリモジ
ュールで構成される主記憶部と、前記ベクトル演算部と
前記主記憶部との間で複数のベクトル要素の転送が前記
主記憶部における各ポートのバイト幅単位に独立に行え
るメモリアクセス制御部とを備えるベクトル処理装置で
あって、前記メモリアクセス制御部が、前記ベクトル演算部からベクトル要素単位で、かつ要素
番号順にパイプライン方式で入力するベクトル要素を保
持するｎ個（ｎ≧２）の入力レジスタと、前記入力レジスタに対応して保持内容を格納するｎ個の
入力バッファと、前記入力バッファから読みだしたベクトル要素単位のリ
クエストを格納するｎ個の読み出しレジスタと、前記読み出しレジスタに保持されたｎ個のベクトル要素
について、複数の単位に分割して、分割単位内のみで競
合調停を行なうｍ個（ｎ＞ｍ≧２）の競合調停回路と、複数の前記競合調停回路により競合調停された各ベクト
ル要素を、アドレスによるベクトル要素指定の出力ポー
トへ送るｍ個のベクトル要素選択回路と、それぞれの前記出力ポートに対応して設けられ、ｍ個の
前記ベクトル要素選択回路から送り出される最大ｍ個の
ベクトル要素を同時に格納することが可能な出力バッフ
ァと、を備えたことを特徴とするベクトル処理装置。
【請求項２】前記競合調停回路が２個であり、前記読
み出しレジスタに保持されたｎ個のベクトル要素を要素
番号の奇数と偶数の単位に分割して、分割単位内のみで
競合調停を行なう、請求項ｌに記載のベクトル処理装
置。
【請求項３】ｍ個の前記競合調停回路が、前記読み出
しレジスタに保持されたｎ個のベクトル要素を前記要素
番号順にｎ／ｍ個づつに分割して、分割単位内でのみの
競合調停を行なう、請求項ｌに記載のベクトル処理装
置。
【請求項４】ベクトル要素ごとにベクトル演算を行う
１つ以上ののベクトル演算部と、複数のバンクを有して
独立にアクセス可能な複数のポートを有するメモリモジ
ュールで構成される主記憶部と、前記ベクトル演算部と
前記主記憶部との間で複数のベクトル要素の転送が前記
主記憶部における各ポートのバイト幅単位に独立に行え
るメモリアクセス制御部とを備えるベクトル処理装置で
あって、前記メモリアクセス制御部が、前記ベクトル演算部からベクトル要素単位で、かつ要素
番号順にパイプライン方式で入力するベクトル要素を保
持するｎ個（ｎ≧２）の入力レジスタと、前記入力レジスタに対応して保持内容を格納するｎ個の
入力バッファと、前記入力バッファから読みだしたベクトル要素単位のリ
クエストを格納するｎ個の読み出しレジスタと、前記読み出しレジスタに保持されたｎ個のベクトル要素
について、アドレスによるベクトル要素指定の出力ポー
トに、該出力ポートを指定したすべての入力ポートの各
ベクトル要素を出力するよう制御する出力ポート制御回
路と、それぞれの前記各出力ポートに対応して設けられ、前記
出力ポート制御回路に従って最大ｎ個のベクトル要素デ
ータを同時に格納することが可能な出力バッファと、を
備えることを特徴とするベクトル処理装置。
【請求項５】出力ポート制御回路は、前記読み出しレ
ジスタに保持されたｎ個のベクトル要素において、同一
の出力ポートを指定した複数のベクトル要素が存在する
場合は、指定された該出力ポートに対応する前記出力バ
ッファに要素番号順に出力する、請求項４に記載のベク
トル処理装置。
【請求項６】前記出力バッファがｎ／２個以下のベク
トル要素データを同時に収納可能な、請求項４または請
求項５に記載のベクトル処理装置。