JPH06266748A

JPH06266748A - ベクトルロードストア回路

Info

Publication number: JPH06266748A
Application number: JP5255893A
Authority: JP
Inventors: Noboru Tanabe; 昇田邊
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1993-03-12
Filing date: 1993-03-12
Publication date: 1994-09-22

Abstract

(57)【要約】（修正有）【目的】高性能で安価な主記憶を実現可能とするベク
トルロードストア回路を提供する。【構成】メモリへのアクセスの際のブロック長を保持
するアクセスブロック長設定部２５と、ベクトルロード
命令またはベクトルストア命令起動時に先頭アドレスを
現在のメモリアクセス要求アドレスとして記憶するアド
レス記憶部２９と、その命令起動時にベクトル長を記憶
する残りベクトル長記憶部３１と、この記憶部３１と設
定部２５とに記憶されるベクトル長を比較し小さい方を
アクセス要求ブロック長とし、これに対応するバイト数
をアドレス記憶部に記憶される値に加算したものを次の
メモリアクセス要求アドレスとして記憶部２９に記憶
し、記憶部３１の値からアクセス要求ブロック長に対応
する語数を減算したものを記憶部３１に記憶し、主記憶
に対して連続ブロックアクセス要求を発生する制御部３
５とを具備する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、主にＤＲＡＭにより構
成される主記憶を持つ超並列型スーパーコンピュータの
要素プロセッサや低価格な科学技術計算アクセラレータ
等に用いられるベクトルプロセッサのベクトルロードス
トア回路に関する。

【０００２】

【従来の技術】スーパーコンピュータに代表される従来
のベクトルプロセッサは、ベクトル演算器の能力に見合
ったメモリバンド幅を維持するために、ビット単価が高
く、集積度が低い高速ＳＲＡＭをインタリーブ構成にし
て主記憶を構成する等していた。

【０００３】すなわち、小数のプロセッサにより構成さ
れる従来のスーパーコンピュータでは、このような高価
となる構成を主記憶に用いることは可能である。しかし
ながら、プロセッサ数を数千、数万のオーダーで接続す
る超並列型スーパーコンピュータでは、プロセッサの台
数を増加させることによって比較的、容易に演算能力を
高めることができるものの、この演算能力に見合ったメ
モリバンド幅を維持するために従来のような高速ＳＲＡ
Ｍによる主記憶を採用することは価格面から困難であ
る。従って、超並列計算機のように価格性能比の高さが
要求されるシステムでは、主記憶はＤＲＡＭを主体にせ
ざるを得ない。

【０００４】一方、近年のマイクロプロセッサの急速な
性能向上により、マイクロプロセッサの演算能力は、現
時点でも初期のスーパーコンピュータ並みの１００〜２
００ＭＦＬＯＰＳ程度の演算能力を１チップのＣＭＯＳ
のＶＬＳＩで構成することが実現可能になってきてい
る。この性能をアクセスの局所性の薄い科学技術計算に
おいてキャッシュメモリの容量に関わらずに継続的に維
持するために、１〜２ＧＢ／ｓ程度のメモリバンド幅が
必要である。

【０００５】しかし、従来型の汎用ＤＲＡＭは、２００
ｎｓ程度のサイクルタイムを有しており、そのため従来
型の汎用ＤＲＡＭを用いたのでは、６４ｂｉｔ幅で５〜
１０ｎｓサイクルのバスを持つ主記憶にインタリーブ構
成を導入しても、ウェイ数が２０〜４０となってしま
う。また、チップ数が８ｂｉｔ幅のＤＲＡＭを用いても
１６０〜３２０チップが必要となり、超並列計算機の要
素プロセッサの主記憶に採用するためには大きさと価格
での実現が困難であった。

【０００６】

【発明が解決しようとする課題】上述したように、超並
列計算機の要素プロセッサに採用しうる大きさで且つ低
価格で提供され、高性能な演算器に適合するメモリバン
ド幅を持つ主記憶を構成することが困難であった。

【０００７】本発明は、上記課題に鑑みてなされたもの
で、高性能にして安価な主記憶を実現可能とするベクト
ルロードストア回路を提供することを目的とする。

【０００８】

【課題を解決するための手段】第１の発明では、連続ブ
ロックアクセスの際に高速にアクセスが可能なＲＡＭに
より構成される主記憶に接続されるベクトルプロセッサ
のベクトルロードストア回路であって、メモリへのアク
セスの際のブロック長を保持するアクセスブロック長設
定部と、ベクトルロード命令またはベクトルストア命令
起動時に先頭アドレスを現在のメモリアクセス要求アド
レスとして記憶するアドレス記憶部と、ベクトルロード
命令またはベクトルストア命令起動時にベクトル長を記
憶する残りベクトル長記憶部と、この残りベクトル長記
憶部に記憶されるベクルト長とアクセスブロック長設定
部に記憶されるベクトル長とを比較して値の小さいブロ
ック長をアクセス要求ブロック長とすると共に、このア
クセス要求ブロック長に対応するバイト数をアドレス記
憶部に記憶される値に加算したものを次のメモリアクセ
ス要求アドレスとしてアドレス記憶部に記憶し、残りベ
クトル長記憶部の値からアクセス要求ブロック長に対応
する語数を減算したものを残りベクトル長記憶部に記憶
し、前記主記憶に対して連続ブロックアクセス要求を発
生する制御部とを具備することを要旨とする。

【０００９】第２の発明では、ＦＩＦＯに保持されるデ
ータ数またはＦＩＦＯの空きデータ数を保持するアップ
ダウンカウンタをＦＩＦＯ型ベクトルレジスタに具備す
ることを要旨とする。

【００１０】第３の発明では、ＦＩＦＯ型ベクトルレジ
スタを具備するベクトルプロセッサのベクトルロードス
トア回路において、逆順ロードストア動作時に使用され
るラストインファーストアウト（ＬＩＦＯ）バッファを
具備することを要旨とする。

【００１１】第４の発明は、同期型ＤＲＡＭにより構成
される主記憶に接続されるベクトルプロセッサのベクト
ルロードストア回路であって、所定のベクトルロードス
トア命令を実行する際に、現在のメモリアクセス要求ア
ドレスが前回のメモリアクセス要求アドレスと前記主記
憶のページが同一か否かを判定する判定手段と、この判
定手段で同一ページであると判定されたときにはページ
モードによるアクセスを実行するページモード実行手段
とを具備することを特徴とすることを要旨とする。

【００１２】また、望ましくは前記ベクトルロードスト
ア回路は、Ｒａｍｂｕｓ型ＤＲＡＭインターフェースを
具備するものである。

【００１３】また、望ましくは前記ベクトルロードスト
ア回路は、同期型ＤＲＡＭインターフェースを具備する
ものである。

【００１４】また、望ましくは、連続ブロックアクセス
時に高速なアクセスが可能なＲＡＭによる構成される主
記憶に接続されるベクトルプロセッサのベクトルロード
ストア回路は、複数のアクセスブロック長設定部と、複
数のアドレス記憶部と、複数の残りベクトル長記憶部を
具備し、複数のベクトルロードストア命令を同時に起動
状態にさせ、加算や減算や比較を行う資源をこれらの複
数の命令の実行のために時分割的に利用する制御部を具
備するものである。

【００１５】また、望ましくは、ベクトルプロセッサが
ＦＩＦＯ型のベクトルレジスタを具備し、ベクトルスト
ア命令を実行する時には、ストアすべきＦＩＦＯ型ベク
トルレジスタに保持されているデータ数とアクセスブロ
ック長設定部の値の小さいほうをアクセス要求ブロック
長とする制御部を具備するものである。

【００１６】また、望ましくは前記ベクトルロードスト
ア回路は、アクセスブロック長記憶部の値がストアすべ
きＦＩＦＯ型ベクトルレジスタに保持されているデータ
数より大きく、残りベクトル長より小さい場合に、所定
時間経過まで、この状態が続いたならばストアすべきＦ
ＩＦＯ型ベクトルレジスタに保持されているデータ数を
アクセス要求ブロック長とする制御部を具備するもので
ある。

【００１７】さらに、望ましくは、ベクトルプロセッサ
がＦＩＦＯ型のベクトルレジスタを具備し、ベクトルロ
ード命令を実行する時には、ロードすべきＦＩＦＯ型ベ
クトルレジスタの空きデータ数と残りベクトル長とアク
セスブロック長記憶部の値の小さいほうをアクセス要求
ブロック長とする制御部を具備するものである。

【００１８】

【作用】第１の発明では、連続ブロックアクセス時に高
速なアクセスが可能なＤＲＡＭにより主記憶を構成す
る。またＲａｍｂｕｓ型ＤＲＡＭインターフェースを用
いる場合には、このＤＲＡＭはＲａｍｂｕｓ型ＤＲＡＭ
とし、この場合はアクセス遅延時間に比べてかなり高い
転送周波数のピン数の少ないパスを用いて全てのアクセ
スをパケット形式で行うために、アクセスブロック長が
長いほど実質メモリバンド幅が向上し、ワード単位での
ランダムアクセスは実質メモリバンド幅を大きく落と
す。

【００１９】第１の発明に同期型ＤＲＡＭインターフェ
ースを用いる場合には、使用するＤＲＡＭは同期型ＤＲ
ＡＭとし、この場合はＲａｍｂｕｓに比較すると遅いが
比較的高い周波数のクロック信号に同期したピン数の多
いバスを用い、メモリチップ内に２つのバンクを持ち、
連続ブロックをアクセスする場合はバンクコンフリクト
がなければクロック周波数に比例したメモリバンド幅が
得られる。

【００２０】つまり２つのバンクを交互にアクセスして
いれば高いメモリバンド幅が得られるが、間断無くバス
を利用するためには別バンクのプリチャージ期間のほう
が連続アクセスブロック長（ラップ長）×転送サイクル
時間より短くなければならず、転送クロック周波数が高
く、プリチャージ時間が長いほど、連続アクセスブロッ
ク長が長くなければ効率が悪くなる。

【００２１】またバンクコンフリクトが起こるようなア
クセスパターンだった場合ブロックアクセス毎にプリチ
ャージ時間に相当する待ちサイクルが挿入されるため
に、連続アクセスブロック長が長いほど実質メモリバン
ド幅に対するバンクコンフリクトの影響を薄めることが
できる。

【００２２】Ｒａｍｂｕｓ型ＤＲＡＭや同期型ＤＲＡＭ
のいずれの新型ＤＲＡＭを用いる場合であっても、連続
アクセスブロック長を長くすることが実質メモリバンド
幅を向上させるためには有効で、第１の発明はこれらの
デバイスの性質を利用する。

【００２３】ベクトルプロセッサ内部にはベクトルレジ
スタがベクトル演算器に接続されており、本発明のベク
トルロードストア回路は連続ブロックアクセス時に高速
なアクセスが可能なＤＲＡＭにより構成される主記憶と
ベクトルレジスタの間のデータ転送を行う。

【００２４】ベクトルロード命令またはベクトルストア
命令起動時にベクトル長と先頭アドレスがそれぞれ残り
ベクトル長記憶部とアドレス記憶部に設定される。さら
に第１の発明ではアクセスブロック長設定部があって、
デフォルトのアクセスブロック長または命令などにより
設定されるアクセスブロック長を保持する。

【００２５】メモリへのアクセスは昇順に連続アクセス
が行われるようなアクセスステップがベクトルロード命
令やベクトルストア命令によって指示されたならば、基
本的にはメモリへのアクセスはアクセスブロック長設定
部の値で示されたブロック単位で行われる。つまりアド
レス記憶部に記憶されているアドレスから始まるアクセ
スブロック長設定部の値で示されるブロック長のデータ
のアクセスをメモリインタフェース部に要求する。

【００２６】実際には残りベクトル長のほうがアクセス
ブロック長設定部の値より小さくなる場合があるので、
命令により指定された以上のアクセスを抑制するため
に、残りベクトル長とアクセスブロック長設定部の値を
比較器により比較して小さいほうをアクセス要求ブロッ
ク長とする。

【００２７】このメモリインタフェース部がＲａｍｂｕ
ｓインタフェースであるときにはアクセス要求パケット
生成し、Ｒａｍｂｕｓ型ＤＲＡＭ（Ｒ−ＤＲＡＭ）にＲ
ａｍｂｕｓを経由して送信する。通常はアクセス要求ブ
ロック長はアクセスブロック長設定部の値となり、バイ
トやワード単位の細かいアクセスではなくベクトルレジ
スタの容量より小さな比較的大きな値を設定する事がで
きるので、Ｒａｍｂｕｓの高い転送速度を生かしきるこ
とが可能となる。

【００２８】このメモリインタフェース部が同期型ＤＲ
ＡＭインタフェースであるときには、必要があれば同期
型ＤＲＡＭ（Ｓ−ＤＲＡＭ）内部のモードレジスタに対
してラップ長を設定しなおし、所定の連続アクセスシー
ケンスを実行する。

【００２９】通常はアクセス要求ブロック長はアクセス
ブロック長設定部の値となり、この値はバイトやワード
単位の細かいアクセスではなくベクトルレジスタの容量
より小さな比較的大きな値を設定する事ができるので、
同期型ＤＲＡＭに設定できるラップ長は現時点ではこれ
より小さいのが一般的なので、同期型ＤＲＡＭの高い転
送速度の生かしきることが可能となる。

【００３０】ひとかたまりのメモリアクセス要求が実行
されると、次のメモリアクセスのための先頭アドレスが
加算器により、アクセスブロック長設定部の値をアドレ
ス記憶部の値に加算することにより求められアドレス記
憶部に記憶される。さらに、減算器により、残りベクト
ル長記憶部の値からアクセスブロック長設定部の値を減
算して次の残りベクトル長が求められ残りベクトル長記
憶部に記憶される。

【００３１】連続ブロックアクセス時に高速なアクセス
が可能なＤＲＡＭにより構成される主記憶に接続される
ベクトルプロセッサのベクトルロードストア回路におい
て、複数のアクセスブロック長設定部と、複数のアドレ
ス記憶部と、複数の残りベクトル長記憶部を具備し、複
数のベクトルロードストア命令を同時に起動状態にさ
せ、加算や減算や比較を行う資源をこれらの複数の命令
の実行のために時分割的に利用する制御部を具備した場
合には、メモリアクセスをブロック化することにより、
一つのベクトルロードストア命令に対応するアドレス計
算や残りベクトル長計算を毎サイクルアドレスを出力す
るように行う必要が無くなっている。複数のアクセスブ
ロック長設定部と、複数のアドレス記憶部と、複数の残
りベクトル長記憶部には複数の命令の実行状況（コンテ
クスト）が記憶されており、これらを用いることによっ
て単一の命令に演算器を占有させる必要性がなくなるの
で、加算や減算や比較を行う資源を複数の命令の実行の
ために時分割的に利用可能となる。こうしてハードウェ
ア量を削減し、ハードウェアの利用効率を高めることが
可能となる。

【００３２】ベクトルプロセッサがＦＩＦＯ型のベクト
ルレジスタを具備している場合には、ベクトルストア命
令を実行する時には、ストアすべきＦＩＦＯ型ベクトル
レジスタに保持されているデータ数とアクセスブロック
長設定部の値の小さいほうをアクセス要求ブロック長と
する制御部を具備する。つまり、ＦＩＦＯ型のベクトル
レジスタを具備したベクトルプロセッサの場合、ベクト
ルレジスタからベクトルストア命令で主記憶にデータを
書き出す際に、ベクトルレジスタに命令で指定されたベ
クトル長のデータが既に計算されて保持されていなくて
も多少のデータが既に保持されていれば命令の実行が開
始される。

【００３３】このためＦＩＦＯ型ベクトルレジスタに保
持されているデータ数よりアクセスブロック長設定部の
値が多い場合は、アクセスブロック長設定部の値をアク
セス要求ブロック長とするアクセス要求をメモリインタ
フェースに発行しても実際に書き込みが起こるときまで
に要求した個数の書き込みデータが用意できない可能性
が生じる。

【００３４】特にＲａｍｂｕｓインタフェースを用いる
場合はウェイト状態を書き込み要求パケットの送信中に
挿入することは不可能なので、このような状況は回避し
なければならない。また同期型ＤＲＡＭインタフェース
を用いる場合ではメモリインタフェースがウェイト状態
となり、他のメモリアクセス要求の実行までが待たされ
てしまうのでバスの利用効率が低下する。

【００３５】そこでメモリインタフェースへの要求を出
す際に準備可能な書き込みデータ数に基づいてアクセス
要求ブロック長を生成することによりこのような問題点
を回避することが可能となる。

【００３６】また、ベクトルロードストア回路に具備さ
れる制御部は、アクセスブロック長設定部の値がストア
すべきＦＩＦＯ型ベクトルレジスタに保持されているデ
ータ数より大きく、残りベクトル長より小さい場合に、
所定時間経過までこの状態が続いたならばストアすべき
ＦＩＦＯ型ベクトルレジスタに保持されているデータ数
をアクセス要求ブロック長とする。

【００３７】つまり、ストアすべきＦＩＦＯ型ベクトル
レジスタ上のデータ不足を検出した際に、アクセスブロ
ック長の決定を所定の時間だけ遅らせる。データ不足の
検出時も先行する別のメモリアクセス命令のためにメモ
リバスが使用中である場合もあるために、バスが開放さ
れるまでは次のメモリアクセスはできないので待つ必要
があり、この待ち時間の間にＦＩＦＯ上のストアデータ
が増える可能性がある。ゆえにメモリアクセスブロック
長が長くなりやすくなる。

【００３８】しかしアクセスブロック長の決定をＦＩＦ
Ｏに十分にデータが貯まるまでむやみに遅らせるように
してしまうと、なかなかデータが貯まらずにバスが空い
てしまう可能性が高まる。そこで、所定のタイムアウト
を設けることでそのような欠点が緩和される。

【００３９】ＦＩＦＯ型のベクトルレジスタはベクトル
演算器側が十分な速度でＦＩＦＯ型ベクトルレジスタ上
のデータを使った演算を実行している間は無限長のベク
トルレジスタに似た動作モデルを与えるが、現実的には
何らかの要因で演算が一時停止しつつメモリからのロー
ドが行われる場合もありうるので、有限長のＦＩＦＯレ
ジスタの空き容量が減少し、この空き容量より大きなブ
ロック長のデータ読みだし要求をメモリインタフェース
に出してしまうと、メモリからの応答データが受けきれ
なくなる可能性がある。

【００４０】特にメモリインタフェースがＲａｍｂｕｓ
であったならば、読みだし応答パケット受信中にウェイ
トサイクルを挿入することはできないので、ＦＩＦＯ型
ベクトルレジスタに受けきれないほどのデータを要求す
ることは避けなければならない。

【００４１】またメモリインタフェースが同期型ＤＲＡ
Ｍインタフェースであったとしても、ウェイトサイクル
を挿入することで誤操作は回避できるが、ロードすべき
ＦＩＦＯ型ベクトルレジスタのデータを演算器側で消費
してくれない限り、メモリバスのウェイト状態の解消が
なされないのでデッドロック状態に陥る可能性がある。

【００４２】このような問題点の解決のためにベクトル
プロセッサがＦＩＦＯ型のベクトルレジスタを具備し、
ベクトルロード命令を実行する時には、ロードすべきＦ
ＩＦＯ型ベクトルレジスタの空きデータ数と残りベクト
ル長とアクセスブロック長設定部の値の小さいほうをア
クセス要求ブロック長とする制御部を具備する。

【００４３】このようにするとＦＩＦＯ型ベクトルレジ
スタの空き容量がアクセスブロック長設定部の値より少
ない状態であったとしても、受けきれないほどのデータ
読みだし要求を出さずに、その時点で確実に受信できる
要求を出すことが可能となる。

【００４４】また、ＦＩＦＯに保持されるデータ数また
はＦＩＦＯの空きデータ数を保持するアップダウンカウ
ンタをＦＩＦＯ型ベクトルレジスタに具備する。このと
き、初期値として０またはＦＩＦＯ容量語数を設定し、
ＦＩＦＯへの読み書きの際にカウンタをアップまたはダ
ウンさせることによってＦＩＦＯの保持データ数情報を
カウント値が指し示す。これによってソフトウェアの介
在を受けることなく動的に変動するＦＩＦＯの保持デー
タ数情報を高速に得ることが可能になる。

【００４５】ＦＩＦＯ型ベクトルレジスタを具備するベ
クトルプロセッサのベクトルロードストア回路におい
て、逆順ロードストア動作時に使用されるライトインフ
ァーストアウト（ＬＩＦＯ）バッファを具備する。

【００４６】ベクトルデータのロードやストアはプログ
ラムによっては配列のインデックスの降順にアクセスし
なければならないことがあるので、メモリアドレスが一
語分のアドレスステップにより減少するワードアクセス
要求を発生しなければならず、特にメモリインタフェー
スとしてＲａｍｂｕｓを採用する場合はアドレスが上昇
する順でしかデータがアクセスできないので、アクセス
ブロック長が一語となってしまって実質的メモリバンド
幅が昇順連続アクセスの場合と比較して激減する。

【００４７】同期型ＤＲＡＭの場合は高速ページモード
が利用できるので、ワード単位でのランダムアクセスは
行アドレスが一致するページ内である限り実質メモリバ
ンド幅がピークの半分から数分の１に落ちる程度で済む
が、昇順の連続ブロックアクセス時に比べると性能の低
下は避けられない。

【００４８】メモリに対するアクセス要求は連続ブロッ
クアクセス要求を出しておいて、ロード時ならば昇順に
データ語がメモリより読み出されたものをＬＩＦＯバッ
ファで一旦受け、ＬＩＦＯからの読み出しは後で書かれ
たデータ語が先に読み出されるので、これをベクトルレ
ジスタに転送すればベクトルレジスタから見れば逆順に
ロードされたように見える。ゆえにもしベクトルレジス
タがＦＩＦＯ型であったとしても、昇順の連続ブロック
アクセスによって高速に逆順ベクトルロードを実行可能
となる。

【００４９】ベクトルロードストア回路において、アク
セスステップ設定部に設定された値が連続アクセスでは
ない等間隔アクセスをするベクトルロードストア命令
や、リストベクトルロードストア命令や、逆順連続アク
セスを行うベクトルロードストア命令を実行する場合の
高速化を提供する。

【００５０】同期型ＤＲＡＭにおいて連続したアドレス
を昇順にアクセスする場合は設定されたラップ長単位の
バースト転送ができるため高速なメモリバンド幅を実現
できるが、プログラムによっては必ずしも連続したアド
レスに格納されたデータへのロードストアではなく、多
次元配列のあるインデックスによるアクセスや、リスト
ベクトルをインデックスとする配列アクセスのようにあ
る程度のアクセス局所性は存在するが連続ではないアク
セスが必要になることがあり、バースト転送が使えな
い。ここで最も単純な行アドレス、列アドレスとも指定
するワード単位のランダムアクセスをするならばバース
ト転送におけるメモリバンド幅の十分の一程度に低下し
てしまう。

【００５１】そこで、アクセス要求ブロック長は１語分
としても、現在のメモリアクセス要求アドレスが前回の
メモリアクセス要求アドレスと同期型ＤＲＡＭのページ
が異なるか否かを判定するページ切り替わり判定部を用
いてページモードによるランダムアクセスシーケンスを
実行する同期型ＤＲＡＭインタフェースを具備すること
により、現在のメモリアクセス要求アドレスが前回のメ
モリアクセス要求アドレスと同期型ＤＲＡＭのページが
同一ならば、列アドレスのみを入力する高速なページモ
ードによりアクセスする。

【００５２】現在のメモリアクセス要求アドレスが前回
のメモリアクセス要求アドレスと同期型ＤＲＡＭのペー
ジが異なる場合は行アドレスから入力するランダムアク
セスになるが、特にステップ長の小さな等間隔アクセス
などの場合は次回のメモリアクセスが同一ページに当た
る確率が高いので大半がページアクセスモードでアクセ
スされる。ページアクセスモードでアクセスされる場合
のメモリバンド幅はバースト転送時の半分から数分の位
置に落ちる程度で実現され、単純なランダムアクセスを
行うより数倍の高速化が可能となる。

【００５３】

【実施例】以下、本発明に係る一実施例を図面を参照し
て説明する。図１は本発明に係るベクトルロードストア
回路を具備するプロセッサの構成を示したブロック図で
ある。

【００５４】本実施例のプロセッサは、命令バッファ１
１から供給される命令を解読しプロセッサ内の各部に制
御信号を送る命令制御部１３の制御の元に、ベクトルレ
ジスタ２３に接続されるベクトル演算器２１、スカラレ
ジスタ１５に接続されるスカラ演算器１７とアクセスブ
ロック長設定部２５とアドレス記憶部２９と残りベクト
ル長記憶部３１とアクセスステップ記憶部２７とを具備
する。

【００５５】さらにアクセスブロック長設定部２５とア
ドレス記憶部２９と残りベクトル長記憶部３１の値とア
クセスステップ記憶部２７を入力としてアクセス要求開
始アドレスおよびアクセス要求ブロック長をメモリバス
インタフェース３７に出力し、そのアクセスに後続する
メモリアクセスのアドレスと残りベクトル長を出力する
連続ブロックアクセス要求生成部３５が具備される。

【００５６】次にこれらの動作について説明する。ベク
トル命令やスカラ命令を含む命令列がメモリ上にロード
されており、命令制御部１３はメモリから命令列を命令
バッファ１１に読み込み、命令バッファ１１から命令を
フェッチしてこれをデコードしてプロセッサ内部の各部
への制御信号を発生させる。フェッチした命令がスカラ
命令であった場合はスカラレジスタ１５上のデータに対
するスカラ演算器１７による演算や、メモリまたは内部
レジスタ間の転送や、分岐処理などが行われる。

【００５７】フェッチした命令がベクトル命令であった
場合は、ベクトル長レジスタ３３上のデータをその命令
に対するベクトル長とし、少なくとも１つのベクトルレ
ジスタ２３上のデータに対するベクトル演算器２１によ
る演算や、メモリとベクトルレジスタ間のデータのロー
ドストアが行われる。

【００５８】つまりベクトル命令の起動の前には、ベク
トル長レジスタ３３にベクトル長がセットされている必
要があり、起動時にはベクトル長レジスタ３３から残り
ベクトル長記憶部３１にその値が転送される。残りベク
トル長記憶部３１には同時に実行可能なベクトル命令の
個数のベクトル長データを記憶することができる記憶容
量がある。

【００５９】フェッチした命令がベクトルロード命令ま
たはベクトルストア命令であった場合は、命令で指定さ
れるスカラレジスタ１５上のデータがアドレス記憶部２
９やアクセスステップ記憶部２７に転送され、アドレス
記憶部２９の値はロードまたはストアを行う場所のメモ
リの先頭アドレスとして用いられる。また、アクセスス
テップ記憶部２７の値はアクセスする語の間隔が何語で
あるかを意味し、値の正負によって昇順か降順かが指定
される。

【００６０】アドレス記憶部２９およびアクセスステッ
プ記憶部２７には同時に実行可能なベクトルロードスト
ア命令の個数のアドレスデータおよびアクセスステップ
を記憶することができる記憶容量がある。

【００６１】ベクトルレジスタ２３は通常、商用ベクト
ル型スーパーコンピュータではｂｉｔ幅が６４ｂｉｔ、
本数が８〜３２、容量が６４〜５１２語程度のものが用
いられる。ベクトルレジスタ２３をＦＩＦＯとして実際
の容量を減らしつつ、ソフトウェアモデルの上からはあ
たかも無限長のベクトルレジスタとして見えるようなも
のも考えられる。本実施例は通常のベクトルレジスタを
使う場合でも、ＦＩＦＯ型のベクトルレジスタを用いる
場合でも、どちらでも適用可能である。

【００６２】従来のベクトルプロセッサにおけるロード
ストアの場合は、ロードストアパイプラインによって一
語分ずつ実効アドレスを計算して１クロックごとにアド
レスが出力される。つまりワードアクセスを行っている
ためにアドレス計算の負荷が重い。つまりハードウェア
コストが高い。

【００６３】１語は６４ｂｉｔの浮動小数を用いる場合
は８バイトであり、連続アクセスのベクトルロードスト
アを行う場合にはアドレスに８ずつ加算したものを連続
して毎クロック出力することになる。

【００６４】しかし、ベクトルデータの各要素間の依存
関係がないことが保証されている場合にのみベクトル命
令は用いられるので、連続アクセスのベクトルロードス
トアを行う場合には、ベクトルレジスタ２３の容量と残
りベクトル長を越えない語数のブロックデータをベクト
ルレジスタ２３に一続きのバーストメモリアクセスによ
りロードすること、およびベクトルレジスタ２３に格納
されている有効なデータ全てを一続きのバーストメモリ
アクセスによりメモリにストアすることは原理的に可能
である。

【００６５】つまり本実施例では連続アクセスのベクト
ルロードストアを行う場合には、毎クロックに８ずつ加
算されたアドレスを発生してワードアクセスをするので
はなく、ベクトルレジスタ２３が送受信可能な大きさの
ブロックデータを示す先頭アドレスとブロック長の組を
発生させ、メモリに対してブロックアクセスにより高速
アクセスを実現する。

【００６６】アクセスのブロック長は、原則的にはアク
セスブロック長設定部２５に設定された値が用いられ
る。本実施例ではこのアクセスブロック長設定部２５が
スカラデータバスに接続されていてベクトルレジスタ２
３の容量を越えない範囲で可変になっており、接続する
メモリの特性やプログラムの特性によって適切な値に設
定できるようになっている。なお、本実施例ではこの値
が可変であるが、本発明は可変であるものに限定される
わけではなく固定であっても良い。

【００６７】残りベクトル長記憶部３１にはベクトルロ
ードストア命令の完了までにロードまたはストアしなけ
ればならないベクトルデータの語数が保持される。つま
り連続ブロックアクセス要求生成部３５は、残りベクト
ル長記憶部３１の値をメモリバスインタフェースに発行
した要求ブロック長に対応する語数を減じたもので更新
する。

【００６８】アクセスのブロック長は原則的には、アク
セスブロック長設定部２５に設定された値が用いられる
が、残りベクトル長がアクセスブロック長設定部２５に
設定された値より小さくなった場合には、アクセスのブ
ロック長として原則的には残りベクトル長のほうを採用
する。

【００６９】残りベクトル長がアクセスブロック長設定
部２５に設定された値より小さくなった場合でも、アク
セスのブロック長として残りベクトル長が採用されない
場合は、ベクトルレジスタの種類によっては起こりうる
が、このことは後述する。

【００７０】図２は第１の実施例における、連続ブロッ
クアクセス要求生成部３５の構成例を示した図である。
旧残りベクトル長とアクセスブロック長設定値を比較す
る比較器３５１と、その結果を受けて大きくないほうを
アクセス要求ブロック語数として選択するマルチプレク
サ３５３と、旧残りベクトル長からアクセス要求ブロッ
ク語数を減じ新残りベクトル長を出力する減算器３５５
と、アクセス要求ブロック語数とオペランドの一語のバ
イト数からアクセス要求ブロック長（バイト数）を出力
するシフタ３５７と、アクセス要求ブロック長と旧先頭
アドレスから新先頭アドレスを出力する加算器３６１、
新残りベクトル長が零であるかを判定し、最終アクセス
要求信号を出力する零判定回路３５９から構成される。

【００７１】図２では比較器３５１、減算器３５５、加
算器３６１、シフタ３５７、零判定回路３５９は、それ
ぞれ別のハードウェア資源として描かれているが、性能
的にバランスがとれるのであれば、より多機能なＡＬＵ
タイプの演算器を時分割的に用いてもよい。

【００７２】上記のような連続ブロックアクセス要求生
成部３５から出力される新残りベクトル長は残りベクト
ル長記憶部３１に書き戻され、新先頭アドレスはアドレ
ス記憶部２９に書き戻され、アクセス要求アドレスとア
クセス要求ブロック長はメモリバスインタフェース３７
へと導かれる。

【００７３】メモリバスインタフェース３７はメモリバ
スを介して、連続アクセスが高速なメモリ３９に接続さ
れる。この連続アクセスが高速なメモリとは、Ｒａｍｂ
ｕｓ型ＤＲＡＭや、同期型ＤＲＡＭや、高速ページモー
ド付きＤＲＡＭや、ニブルモード付きＤＲＡＭなどのメ
モリチップやインタリーブ構成されたメモリシステムの
ように、連続するアドレスのデータをアクセスすること
により、ＤＲＡＭのプリチャージタイムがワードごとに
かかってしまうことを防ぐ等することによって転送バン
ド幅の向上がするメモリである。

【００７４】特にＲａｍｂｕｓ型ＤＲＡＭを用いた場
合、アクセス遅延時間に比べてかなり高い転送周波数の
ピン数の少ないバスを用いて全てのアクセスをパケット
形式で行うために、アクセスブロック長が長いほど実質
メモリバンド幅が向上し、ワード単位でのランダムアク
セスは実質メモリバンド幅を大きく落とす。

【００７５】具体的には、例えばある典型的なＲａｍｂ
ｕｓ型ＤＲＡＭのメモリアクセス遅延時間はセンスアン
プキャッシュミスヒット時には２２０ｎｓ、センスアン
プキャッシュヒット時には４８ｎｓで、転送サイクルタ
イムは２ｎｓで、最大ブロック長２５６バイト、エラー
訂正コード以外のデータとして使用するバスのｂｉｔ幅
８ｂｉｔである。

【００７６】Ｒａｍｂｕｓにおいてブロック長が小さい
場合の性能の例を示すために、図３にＲａｍｂｕｓで４
バイトデータのランダムアクセスを行った場合のタイム
チャートを示す。センスアンプキャッシュミスヒット時
には、２２０ｎｓ＋４×２ｎｓ＝２２８ｎｓで４バイトの転送が行われるので１７．５ＭＢ／ｓの転
送バンド幅しか得られない。センスアンプキャッシュが
ヒットしても４８ｎｓ＋４×２ｎｓ＝５６ｎｓで４バイトの転送か行われるので７１．４ＭＢ／ｓの転
送バンド幅しか得られない。

【００７７】一方、図４で示されるＲａｍｂｕｓで２５
６バイトのブロックデータをアクセスする場合のタイム
チャートから、２２０ｎｓ＋２５６×２ｎｓ＝７３２ｎｓで２５６バイトの転送が行われるので３５０ＭＢ／ｓの
転送バンド幅がセンスアンプキャッシャミスヒット時で
も得られる。センスアンプキャッシュがヒットしたら、４８ｎｓ＋２５６×２ｎｓ＝５６０ｎｓで２５６バイトの転送が行われるので４５７ＭＢ／ｓも
の転送バンド幅が得られる。このようにＲａｍｂｕｓ型
ＤＲＡＭを用いたシステムブロック長の大きなアクセス
を発生させる効果は顕著なものがある。

【００７８】なお、Ｒａｍｂｕｓ型ＤＲＡＭを効率的に
用いた場合は１チップで上記のような転送バンド幅が得
られるという点で、特に超並列マシンの主記憶を構成す
る上で少ないチップ数・ピン数で高い性能が得られる点
で特筆すべきものがある。

【００７９】また、同期型ＤＲＡＭを使用する場合で
も、Ｒａｍｂｕｓを用いる場合より多くのハードウェア
量を必要とするが、Ｒａｍｂｕｓほどバースト転送のブ
ロック長に転送速度が敏感ではないが、ランダムアクセ
スを行うよりラップ長を設定して所定の連続アクセスシ
ーケンスを実行するほうが転送速度が高速である。

【００８０】具体的には典型的な同期型ＤＲＡＭでは周
波数１００ＭＨｚ、バンク数２、ランダムサイクルタイ
ム１００ｎｓ（１０クロック）、バースト転送サイクル
タイム１０ｎｓ（１クロック）、プリチャージタイム４
０ｎｓ（４クロック）である。３２ｂｉｔデータバスを
用いて４バイトデータを通常のＤＲＡＭ同様のランダム
アクセスを行うと１００ｎｓで４バイトの転送が行われ
るので４０ＭＢ／ｓの転送バンド幅しか得られない。

【００８１】ところがプリチャージが１語目のアクセス
の１クロック後から始まり、プリチャージタイムが４０
ｎｓ（４クロック）であるために、図５に示すようにラ
ップ長が８以上のバースト転送、または図６に示すよう
にラップ長が４の同一行内のバースト転送を２回行う
と、異なる行へのアクセスが２つのバンクに対し交互に
行われる場合は１０ｎｓ（１クロック）ごとに４バイト
の転送が間断無く行われ４００ＭＢ／ｓもの転送バンド
幅が得られる。

【００８２】ラップ長が４のバースト転送を行い同一の
バンクの異なる行にアクセスされる場合は図７に示すよ
うになり、４０ｎｓ−１０ｎｓ×３＋６０ｎｓ＋１０ｎｓ×４＝１
１０ｎｓの間に１６バイトの転送が行われるので１４５ＭＢ／ｓ
の転送バンド幅にとどまる。ラップ長が８のバースト転
送を行い同一のバンクの異なる行にアクセスされる場合
は図８に示すようになり、４０ｎｓ−１０ｎｓ×７＋６０ｎｓ＋１０ｎｓ×８＝１
１０ｎｓの間に３２バイトの転送が行われるので２９０ＭＢ／ａ
の転送バンド幅まで回復する。

【００８３】このように効果の程度の差はあるが、Ｒａ
ｍｂｕｓ型ＤＲＡＭ、同期型ＤＲＡＭともにバーストア
クセスを行うほうがランダムアクセスを行うより高速で
あり、アクセスするブロック長が長いほど転送バンド幅
が高くなる。

【００８４】本実施例では連続ブロックアクセス要求生
成部３５が具備されるため、上記のような性質を持った
メモリに対して語単位のアクセスではなく複数の語から
なるブロック状のアクセス要求を行うことが可能とな
り、転送速度を大幅に向上させることが可能となる。

【００８５】次に、同時に複数のロードストア命令が起
動される場合について実施例を用いて説明する。すなわ
ち、残りベクトル長記憶部３１、アドレス記憶部２９お
よびアクセスステップ記憶部２７には複数の残りベクト
ル長、アドレスデータおよびアクセスステップを記憶す
ることができる記憶容量がある。

【００８６】図９はベクトルロードストア回路を具備す
るベクトルプロセッサにおける命令制御部１３、連続ブ
ロックアクセス要求生成部３５およびメモリバスの動作
状況の例を示す図である。

【００８７】この例では、６４ｂｉｔ幅同期型メモリで
アクセスブロック長が８に設定された状態（すなわち同
期型ＤＲＡＭに設定されたラップ長も８）で、アドレス
＆１０００から始まるステップ１（昇順連続アクセス）
でベクトル長６４の８バイト形式のベクトル要素に対す
るベクトルレジスタＶＲ１へのベクトルロード命令と、
アドレス＆２０００から始まるステップ１（昇順連続ア
クセス）でベクトル長が６４の６４ｂｉｔ形式のベクト
ル要素に対するベクトルレジスタＶＲ２からのベクトル
ストア命令が同時に起動状態にある場合を示している。

【００８８】命令制御部１３では時刻１でベクトルロー
ド命令を命令バッファからフェッチし、時刻２で解読し
てベクトルロード命令でアクセスステップ数が１だから
昇順連続アクセスであることを認識し、時刻３でベクト
ル長レジスタからベクトル長＝６４を残りベクトル長記
憶部３１に転送する。

【００８９】時刻４で命令制御部１３はベクトルロード
命令で指定された番号のスカラレジスタから先頭アドレ
ス＝＆１０００をアドレス記憶部２９に転送する。同時
に時刻４では連続ブロックアクセス要求生成部３５は残
りベクトル長＝６４とアクセスブロック長８を比較し、
アクセス要求ブロック語数として８を選択する。

【００９０】時刻５では命令制御部１３はベクトルロー
ド命令で指定された番号のスカラレジスタ１５からアク
セスステップ＝１をアクセスステップ記憶部２７に転送
する。同時に時刻５では連続ブロックアクセス要求生成
部３５はオペランドバイト数＝８に対応してアクセス要
求ブロック語数＝８を３ｂｉｔ左シフトしてアクセス要
求ブロック数＝６４バイトを得る。

【００９１】時刻６では命令制御部１３は後続するベク
トルストア命令を命令バッファからフェッチする。同時
に時刻６では連続ブロックアクセス要求生成部３５はア
クセス要求ブロック数＝６４バイトとアドレス記憶部１
＝＆１０００と加算して新しい先頭アドレス＝＆１０１
０を得て、アドレス記憶部２９を更新する。同時に時刻
６ではメモリバスインタフェースは古い先頭アドレス＝
＆１０００に相当する行アドレスをメモリバスに出力す
る。

【００９２】時刻７では命令制御部１３は、解読してベ
クトルストア命令でアクセスステップ数が１だから昇順
連続アクセスであることを認識する。同時に時刻７では
連続ブロックアクセス要求生成部３５は残りベクトル長
＝６４からアクセス要求ブロック語数＝８を減算して新
しい残りベクトル長＝５６を得て、残りベクトル長記憶
部３１を更新する。同時に時刻７ではメモリバスインタ
フェース３７は６４バイトのアクセスは６４ｂｉｔバス
の場合はラップ長８のバーストアクセスで可能であるこ
とを認識する。

【００９３】時刻８では命令制御部１３はベクトル長レ
ジスタからベクトル長＝６４を残りベクトル長記憶部３
１に転送する。同時に時刻８では連続ブロックアクセス
要求生成部３５は新しい残りベクトル長＝５６が０では
なくベクトルロード命令に対するアクセス要求生成処理
が完結していないことを認識する。同時に時刻８ではメ
モリバスインタフェース３７は列アドレスを出力するタ
イミングに至っていないので待ち状態となる。

【００９４】以下メモリバスインタフェース３７は時刻
９に列アドレスを出力し、時刻１２〜時刻１９にかけて
８個の６４ｂｉｔデータを受信する。命令制御部１３は
時刻６〜時刻１０にかけてベクトルストア命令の起動処
理を行う。これを受けてメモリバスインタフェース３７
は時刻１４に行アドレスを出力し、時刻１７に列アドレ
スを出力し、時刻２０〜時刻２７にかけて８個の６４ｂ
ｉｔデータを受信する。

【００９５】連続ブロックアクセス要求生成部３５は、
時刻９〜時刻１３にかけてベクトルストア命令の最初の
８要素分に対応する比較、シフト、加算、減算、零判定
を行う。時刻８の判定結果からベクトルロード命令は完
結していないので、時刻１４から時刻１９にかけてベク
トルストア命令の最初から２番目の８要素分に対応する
比較、シフト、加算、減算、零判定を行う。

【００９６】以下同様の処理が零判定結果からベクトル
命令の終了が検出されるまで連続ブロックアクセス要求
生成部３５とメモリバスインタフェース３７で繰り返さ
れる。

【００９７】なお、アドレス＆１０００と＆２０００で
は１３ｂｉｔ目のみが異なるが、たまたま１３ｂｉｔ目
がバンク選択アドレスピンに割り当てられている場合に
限り図５および図９のタイムチャートに示されるような
最大転送速度の得られる動作となり、そうでない場合は
バンク衝突が発生するので図８のタイムチャートに示さ
れるような３クロック分の待ちサイクルが挿入される動
作となる。

【００９８】以上の例からわかるように、メモリアクセ
スをブロック化することにより１つのベクトルロードス
トア命令に対応するアドレス計算や残りベクトル長計算
を毎サイクルアドレスを出力するように行う必要が無く
なっている。複数のアクセスステップ記憶部２７と、複
数のアドレス記憶部２９と、複数の残りベクトル長記憶
部３１には複数の命令の実行状況（コンテクスト）が記
憶されており、これらを用いることによって、単一の命
令に演算器を占有させる必要性がなくなるので、加算や
減算や比較を行う資源を複数の命令の実行のために時分
割的に利用可能となる。こうしてハードウェア量を削減
し、ハードウェアの利用効率を高めることが可能とな
る。

【００９９】次にベクトルレジスタとしてＦＩＦＯ型を
採用する場合について説明する。ＦＩＦＯ型ベクトルレ
ジスタは実際の容量を減らしつつ、ソフトウェアモデル
の上からはあたかも無限長のベクトルレジスタとして見
えるために、特に超並列マシンなどで用いられるような
１チップ型のベクトルプロセッサにおいては有効性が高
く、性能面からみても、ベクトル長がベクトルレジスタ
の容量を越えてしまうようなプログラムにおけるストリ
ップマイニング処理が不要となるので、このオーバーヘ
ッドが削減できる。

【０１００】なお、本発明を適用できるＦＩＦＯ型ベク
トルレジスタは、図１０に示すように個々のベクトルレ
ジスタごとに完結したＦＩＦＯとなっているものをクロ
スバースイッチで接続したものでも良いし、図１１に示
すようにデータ記憶部とポインタ制御部２３７を分割
し、仮想的に複数のＦＩＦＯを共通のＲＡＭ上に作るも
のであっても良い。また、ＦＩＦＯ型ベクトルレジスタ
に保持されているデータ数または空きデータ数を制御部
が知り得る手段をＦＩＦＯに付加してもよい。

【０１０１】具体的には図１２に示されるようにＦＩＦ
Ｏにデータを書き込まれるたびにアップし、読み出され
るたびにダウンするアップダウンカウンタを用いれば容
易に実現できる。初期値として０またはＦＩＦＯ容量語
数を設定し、ＦＩＦＯへの読み書きの際にカウンタをア
ップまたはダウンさせることによってＦＩＦＯの保持デ
ータ数情報をカウント値が指し示す。

【０１０２】図１３はベクトルロードストア回路の連続
ブロックアクセス要求生成部の一実施例を示した図であ
る。本実施例と図２に示した連続ブロックアクセス要求
生成部３５の違いは、図１２に示されたアップダウンカ
ウンタからのＦＩＦＯ型ベクトルレジスタ上の保持デー
タ数情報を残りベクトル長とアクセスブロック長設定値
の大きくないほうと比較する比較器を具備しており、タ
イムアウト制御部を具備している。さらに保持データ量
数情報から残り容量を計算する減算器も具備している。

【０１０３】また、ベクトルプロセッサがＦＩＦＯ型の
ベクトルレジスタを具備し、ベクトルストア命令を実行
する時には、ストアすべきＦＩＦＯ型ベクトルレジスタ
に保持されているデータ数とアクセスブロック長設定部
の値の小さいほうをアクセス要求ブロック長とする制御
部を具備する。

【０１０４】つまり、ＦＩＦＯ型のベクトルレジスタを
具備したベクトルプロセッサの場合、ベクトルレジスタ
からベクトルストア命令で主記憶にデータを書き出す際
に、ベクトルレジスタに命令で指定されたベクトル長個
のデータが既に計算されて保持されていなくても多少の
データが既に保持されていれば命令の実行が開始され
る。

【０１０５】例えば、３２ワードの容量のＦＩＦＯ型ベ
クトルレジスタがあって、ここに格納されているデータ
をベクトル長が１２８でストアする命令が発行された場
合、データが３２ワード分ＦＩＦＯに保持されておら
ず、例えば３ワード分しか保持されていなかった場合で
も、ＦＩＦＯが空になったところでＦＩＦＯのＥｍｐｔ
ｙ信号がアサートされ、命令制御部がこの状態が解除さ
れるまでストアは抑制されるので、３ワード分のストア
を開始することができる。

【０１０６】ところがアクセスのブロック化を行うとＦ
ＩＦＯ型ベクトルレジスタに保持されているデータ数よ
りアクセスブロック長設定部の値が多い場合は、アクセ
スブロック長設定部の値をアクセス要求ブロック長とす
るアクセス要求をメモリインタフェースに発行しても実
際に書き込みが起こるときまでに要求した個数の書き込
みデータが用意できない可能性が生じる。

【０１０７】例えばアクセスブロック長設定部に８が設
定されていてＦＩＦＯには３ワード分しか保持されてい
なかった場合、ここで８ワード分の連続ブロックライト
要求を発行してしまうと、実際にメモリにデータを転送
する数クロック後までに８−３＝５ワード分のデータが
ＦＩＦＯに演算器などから書き込まれない可能性が残
る。

【０１０８】特にＲａｍｂｕｓインタフェースを用いる
場合はウェイト状態を書き込み要求パケットの送信中に
挿入することは不可能であり、このような状況は回避し
なければならない。また同期型ＤＲＡＭインタフェース
を用いる場合ではクロックイネーブル信号をネゲートす
ることでメモリを凍結することが可能であるが、メモリ
インタフェースがウェイト状態となり、他のメモリアク
セス要求の実行までが待たされてしまうのでバスの利用
効率が低下する。

【０１０９】例えばベクトル演算器が複数のベクトル演
算命令により時分割的に利用されていた場合、ストアし
ようとしているＦＩＦＯ型ベクトルレジスタにデータを
書き込むべきベクトル演算命令が休止状態となったばか
りで、しばらくの間データのＦＩＦＯへの書き込みが期
待できない場合は、バスを凍結したままにすると長期間
バスが使用できなくなるので性能が大きく低下する場合
が想定できる。

【０１１０】そこでメモリインタフェースへの要求を出
す際に準備可能な書き込みデータ数に基づいてアクセス
要求ブロック長を生成することによりこのような問題点
を回避することが可能となる。

【０１１１】例えばアクセスブロック長設定部に８が設
定されていてＦＩＦＯには３ワード分しか保持されてい
なかった場合、ここで３ワード分の連続ブロックライト
要求を発行すれば上記の問題点は生じなくなる。ただし
常にこのような単純な制御を行っていたならば、ブロッ
ク長が細切れになって第１の発明が持つ本来の効果が損
なわれかえって効率が低下する場合も想定できる。

【０１１２】そこでベクトルロードストア回路におい
て、アクセスブロック長記憶部２５の値がストアすべき
ＦＩＦＯ型ベクトルレジスタに保持されているデータ数
より大きく、残りベクトル長より小さい場合に、所定時
間経過までこの状態が続いたならばストアすべきＦＩＦ
Ｏ型ベクトルレジスタに保持されているデータ数をアク
セス要求ブロック長とする。つまり、ストアすべきＦＩ
ＦＯ型ベクトルレジスタ上のデータ不足を検出した際
に、アクセスブロック長の決定を所定の時間だけ遅らせ
る。

【０１１３】データ不足の検出時は先行する別のメモリ
アクセス命令のためのメモリバスが使用中である場合も
あるために、バスが開放されるまでは次のメモリアクセ
スはできないので待つ必要があり、この待ち時間の間に
ＦＩＦＯ上のストアデータが増える可能性がある。ゆえ
にメモリアクセスブロック長が長くなりやすくなる。

【０１１４】しかしアクセスブロック長の決定をＦＩＦ
Ｏに十分にデータが貯まるまでむやみに遅らせるように
してしまうと、なかなかデータが貯まらずにバスが空い
てしまう可能性が高まる。そこで、所定のタイムアウト
を設けることでそのような欠点が緩和される。

【０１１５】例えばアクセスブロック長設定部２５に８
が設定されていてＦＩＦＯには３ワード分しか保持され
ていなかった場合、ここで即座には３ワード分の連続ブ
ロックライト要求を発行せず、数クロックの間ＦＩＦＯ
型ベクトルレジスタ上の保持データ数の変化を監視す
る。もしこのＦＩＦＯにデータを書き込むべきベクトル
演算が動作状態にある場合は保持データ数の変化がまも
なく起こる確率が高い。変化が短期間に続いている場合
はもう数クロック待って８ワードのデータが貯まるのを
目指し、変化がないようであればその時点で貯まったデ
ータ数をアクセス要求ブロック語数とする。このように
待っても効果が無い場合は待たないようにすることが可
能となっている。

【０１１６】次に、ＦＩＦＯ型ベクトルレジスタへのベ
クトルロードを連続ブロックアクセスによって行う場合
について説明する。ＦＩＦＯ型のベクトルレジスタはベ
クトル演算器側が十分な速度でＦＩＦＯ型ベクトルレジ
スタ上のデータを使った演算を実行している間は、無限
長のベクトルレジスタに似た動作モデルを与えるが、現
実的には何らかの要因で演算が一時停止しつつ、メモリ
からのロードが行われる場合もありうる。

【０１１７】そのため、有限長のＦＩＦＯレジスタの空
き容量が減少し、この空き容量より大きなブロック長の
データ読みだし要求をメモリインタフェースに出してし
まうと、メモリからの応答データが受けきれなくなる可
能性がある。

【０１１８】例えば、容量が６４ｂｉｔ幅３２語のＦＩ
ＦＯ型ベクトルレジスタに３０語のデータが保持されて
いると、残りベクトル長が３４でアクセスブロック長設
定値が８ならば、アクセス要求ブロック長は８が候補と
なる。ここで、このアクセス要求ブロック長に８を採用
してしまうと、数クロック後には８語をメモリから受信
しなければならなくなる。しかしながら、現在の残り容
量は２語しかないので演算器がこのデータを６語以上消
費してくれないと受信しきれなくなってしまう可能性が
生じる。

【０１１９】特にメモリインタフェースがＲａｍｂｕｓ
であったならば、読みだし応答パケット受信中にウェイ
トサイクルを挿入することはできないので、ＦＩＦＯ型
ベクトルレジスタに受けきれないほどのデータを要求す
ることは避けなければならない。

【０１２０】また、メモリインタフェースが同期型ＤＲ
ＡＭインタフェースであったとしても、ウェイトサイク
ルを挿入することで誤動作は回避できるものの、ロード
すべきＦＩＦＯ型ベクトルレジスタのデータを演算器側
で消費してくれない限り、メモリバスのウェイト状態の
解消がなされないのでデッドロック状態に陥る危険性が
ある。

【０１２１】このような問題点を解決するために、ロー
ドすべきＦＩＦＯ型ベクトルレジスタの空きデータ数と
残りベクトル長とアクセスブロック長記憶部の値の小さ
いほうをアクセス要求ブロック長とする。すなわち、図
１３に示すように、ＦＩＦＯ型ベクトルレジスタの空き
データ数はＦＩＦＯ４１の容量（語数）からアップダウ
ンカウンタからのＦＩＦＯの保持データ数を減じれば求
められる。

【０１２２】図１３に示すＦＩＦＯベクトルレジスタ用
連続ブロックアクセス要求生成部３５Ａに示されるよう
に、残りベクトル長とアクセスブロック長設定値の大き
くないほうと比較するのは、ストア時にはＦＩＦＯの保
持データ数で、ロード時にはＦＩＦＯの残りデータ数で
ある。

【０１２３】例えば、８バイト型オペランドをロードす
るベクトル命令で、容量が３２語のＦＩＦＯ型ベクトル
レジスタに３０語のデータが保持されていると、残りベ
クトル長が３４でアクセスブロック長設定値が８なら
ば、残りベクトル長＝３４＞アクセスブロック長設定値
＝８＞ＦＩＦＯの残りデータ数＝２であるのでアクセス
要求ブロック語数は２、アクセス要求ブロック長は１６
バイトとなる。

【０１２４】このようにしてＦＩＦＯの空きデータ数を
越えるメモリへのブロックリード要求を出してしまうこ
とは回避され、その結果メモリバス上のウェイト状態の
挿入の必要性やデッドロックの危険性から開放される。

【０１２５】次に、降順の連続アクセスを行うベクトル
ロードストア命令のブロックアクセスについて実施例に
より説明する。

【０１２６】ベクトルデータのロードやストアはプログ
ラムによっては配列のインデックスの降順にアクセスし
なければならないことがある。そのような場合、メモリ
アドレスが一語分のアドレスステップより減少するワー
ドアクセス要求を発生しなければならない。特にメモリ
インタフェースとしてＲａｍｂｕｓを採用する場合はア
ドレスが上昇する順でしかデータがアクセスできないの
で、アクセスブロック長が一語となってしまって、実質
的メモリバンド幅が昇順連続アクセスの場合と比較して
激減する。

【０１２７】具体的には図３に示したようなアクセスを
行うとセンスアンプキャッシュミスヒット時には４バイ
トデータなら１７．５ＭＢ／ｓ，８バイトデータなら３
３．９ＭＢ／ｓの転送バンド幅しか得られない。

【０１２８】また連続アクセスであれば降順でもセンス
アンプキャッシュにヒットする確率は極めて高いが、そ
れでも４バイトデータなら７１．４ＭＢ／ｓ、８バイト
データなら１２５ＭＢ／ｓの転送バンド幅しか得られな
い。センスアンプキャッシュがヒットした２５６バイト
の昇順アクセス時の４５７ＭＢ／ｓと比較するとロスが
大きい。

【０１２９】そこで図１４に示されるようにベクトルレ
ジスタとメモリバスインタフェースの間にラストインフ
ァーストアウト（ＬＩＦＯ）バッファを具備する。この
ようにすればＦＩＦＯ型ベクトルレジスタを用いたとし
ても、ＬＩＦＯで順番が逆転するのでメモリからは昇順
でアクセスして、ＦＩＦＯ型ベクトルレジスタには降順
でロードさせることが可能になる。なお、アクセスブロ
ックの先頭アドレスは降順で発生され、ブロック内のメ
モリアクセスのみが昇順で行うことになる。

【０１３０】例えば８バイト型データ配列Ａがアドレス
＆１０００から１０２４要素分割り当てられていて、最
終要素Ａ（１０２４）すなわちアドレス＆１ＦＦ８から
降順に連続で８バイト型データをベクトル長１０２４で
ＦＩＦＯ型ベクトルレジスタにロードする場合で、アク
セスブロック長設定値が８で、ロードする転送レート以
上の速度で演算器によりデータが消費される場合は、ア
クセス要求ブロック長が常に６４バイトで読み出され、
１２８回に分割されてメモリアクセスが行われる。その
際、アクセス要求アドレスは＆１ＦＦ８−６４＋８＝＆
１ＦＣ０からはじまり＆１ＦＣ０→＆１Ｆ８０→＆１Ｆ
４０．．．というように６４バイトずつ減少するように
発生することになる。

【０１３１】図１５はＬＩＦＯバッファの動作を示した
図である。Ｒａｍｂｕｓからは１回目のブロックアクセ
スではデータがＡ（１０１７）→Ａ（１０１８）
→．．．→Ａ（１０２３）→Ａ（１０２４）の順で読み
出されたＬＩＦＯに８語がプッシュされる。ここから８
語ポップしてＦＩＦＯ型ベクトルレジスタにはＡ（１０
２４）→Ａ（１０２３）→．．．→Ａ（１０１８）→Ａ
（１０１７）という順に転送される。

【０１３２】ここでＬＩＦＯが空になるまでこのＬＩＦ
Ｏにはデータをプッシュしないように制御する。また、
間断無くデータの送受を行うためには図１４のようにＬ
ＩＦＯをダブルバッファ構成にすればよい。

【０１３３】Ｒａｍｂｕｓ型ＤＲＡＭは１０２４バイト
のセンスアンプキャッシュを持っているので６４バイト
のブロックアクセスでは、１６回中１回がミスヒットで
１５回がヒットする。従って、上述した例での転送速度
は（４８ｎｓ×１５＋２２０ｎｓ＋２ｎｓ×１０２４）
＝２９８８ｎｓで１０２４バイトか転送されるので３４
３ＭＢ／ｓが実現できる。これはワードアクセスを行う
場合の１２５ＭＢ／ｓと比較すると効果が大きいことが
わかる。

【０１３４】次に同期型ＤＲＡＭを用いた場合の非連続
アクセスおよび逆順アクセスの扱いについて実施例を用
いて説明する。

【０１３５】図１６は１６Ｍｂｉｔ同期型ＤＲＡＭで構
成した６４ｂｉｔ幅メモリーにおけるアクティブページ
ランダムリードを用いて６４語間隔の８バイト型データ
の等間隔アクセスを行った場合のタイムチャートであ
る。

【０１３６】この同期型ＤＲＡＭのアクティブページラ
ンダムリードとは、行アドレスおよびバングが同じメモ
リブロック（ページ）内部でアクセスする場合に、列ア
ドレスのみをＣＡＳ信号を逐一アクティブにしながら行
うアクセスモードで、ページモードサイクルタイムは１
００ＭＨｚの同期型ＤＲＡＭでは２クロック（２０ｎ
ｓ）である。

【０１３７】図１７はベクトルロードストア回路のペー
ジ境界判定部の実施例を示した図である。この図１７に
示す例では、まずアクセス間隔とオペランドバイト数と
先頭アドレスからアクセス要求アドレスを語ごとに計算
し、前回アクセスの行アドレスを保持しておく。次に、
同期型ＤＲＡＭにおいて行アドレスが前回のアクセスと
同一ならば、メモリ制御信号生成部は同期型ＤＲＡＭに
対して行アドレスを設定し直さずに列アドレスのみをペ
ージモードサイクルタイムの制約を満たすタイミングで
出力する。

【０１３８】１６Ｍｂｉｔ同期型ＤＲＡＭでは、ページ
サイズがカラムアドレス９ｂｉｔ分つまり５１２語であ
り、ページ先頭から６４語間隔でアクセスすると８語の
アクセスのうち７語分は同一ページへのアクセスとな
る。６４ｂｉｔ幅のバスで、８バイト型データを等間隔
アクセスすると１サイクルで１語が転送できるが、列ア
ドレスが２クロックおきにしか入力できない。

【０１３９】よって転送速度は６０ｎｓ＋２０ｎｓ×８
＝２２０ｎｓで６４バイトの転送ができるので２９０Ｍ
Ｂ／ｓの転送速度が得られる。完全にランダムにアクセ
スした場合はサイクルタイムが１０クロック（１００ｎ
ｓ）で８バイト転送されることになるので８０ＭＢ／ｓ
の転送速度にすぎないが、これと比較すると本発明の効
果が高いことがわかかる。

【０１４０】なお、この発明の効果はアクセス間隔がよ
り長くなると同一ページ内に連続してアクセスする確率
が低くなるので、行アドレスを設定しなおすことに伴う
性能低下が起こる。極端な場合、ページサイズである５
１２語以上の間隔で等間隔アクセスすれば必ずページが
変わるので効果が全く無くなる。

【０１４１】またリストアクセスを行うベクトルロード
ストア命令でもこの機能は有効性があり、リストがソー
トされていて隣接するリスト値の差が小さければページ
内のアクセスが行われ易いが、リストの値によってはペ
ージが毎回変わる場合も起こり得るので、リストの値に
よって転送性能が変動する。

【０１４２】また逆順連続アクセスをするベクトルロー
ドストア命令では、ほぼ必ずといえる頻度でページ内に
続けてアクセスするので、同期型ＤＲＡＭの最大転送速
度のほぼ半分の性能で実行できる。

【０１４３】具体的には降順連続アクセスでは、同期型
ＤＲＡＭのページサイズは５１２であるので、６４ｂｉ
ｔ幅バスで８バイト型データを降順連続アクセスすれ
ば、５１２回に５１１回はページ内のアクセスとなる。
従って、６０ｎｓ＋２０ｎｓ×５１２＝１０３００ｎｓ
で５１２×８＝４０９６バイトの転送ができるので３９
８ＭＢ／ｓの転送速度が得られる。これは最大転送速度
８００ＭＢ／ｓの約半分である。

【０１４４】以上の実施例ではＲａｍｂｕｓ型ＤＲＡＭ
や同期型ＤＲＡＭを用いた場合を例として、本発明を用
いた時に卓越したベクトルロードストア性能を実施でき
ることを示した。これら２種のメモリを本発明のもとに
用いた場合は特に超並列計算機のプロセシングエレント
に最適な高性能なペクトルプロセッサのメモリを構成す
ることが可能となる。

【０１４５】上記の実施例の中で例示したＲａｍｂｕｓ
型ＤＲＡＭを用いた８ｂｉｔ幅バスや同期型ＤＲＡＭを
用いた６４ｂｉｔ幅バスはそれぞれ最低１チップのＲａ
ｍｂｕｓ型ＤＲＡＭまたは８チップの８ｂｉｔ幅同期型
ＤＲＡＭを用いれば構築することが可能であり、そのよ
うな少ないチップ数で上記のような転送速度を実現して
いる点で、部品点数の削減と高い性能の維持を両立しな
ければならない超並列計算にとって意義が大きい。

【０１４６】特にベクトルプロセッサはメモリバンド幅
さえ確保されれば、ベクトル長が長くできる問題におい
ては、周波数が同じであるスカラ型マイクロプロセッサ
に比べて高い浮動小数点演算性能を発揮できるので、少
ないプロセシングエレメント数または低い周波数によっ
て実現される少ない消費電力で、高い性能を得ることが
できる。このようなアプローチによる実効性能でＩＴＦ
ＬＯＰを実現する超並列テラフロップスマシンの構築
は、本発明によって有望なものとなっている。

【０１４７】例えば１００ＭＦＬＯＰＳの８バイト型浮
動小数演算能力にバランスする８００ＭＢ／ｓのメモリ
バンド幅を持った超並列マシンのプロセシングエレメン
トを例にハードウェア量を比較する。

【０１４８】以上の要求を満たすプロセシングエレメン
トは１６０ｎｓサイクル８ｂｉｔ幅汎用ＤＲＡＭで構成
すると図１８、１０ｎｓサイクル８ｂｉｔ幅同期型ＤＲ
ＡＭ構成すると図１９、８ｂｉｔ幅Ｒａｍｂｕｓ型ＤＲ
ＡＭで構成すると図２０のようになる。

【０１４９】メモリチップ数のみ比較しても汎用型：同
期型：Ｒａｍｂｕｓ型＝１２８：８：２となり、本発明
を用いてＲａｍｂｕｓ型ＤＲＡＭや同期型ＤＲＡＭを有
効に動作させれば高い性能を維持したまま圧倒的なハー
ドウェア量削減がはかられ、これに伴い消費電力削減、
信頼性向上、コスト低下、実装密度向上がはかれる。

【０１５０】なお、超並列計算機に限らなければチップ
数の制限も緩くなるので、高速ページモード付きＤＲＡ
Ｍやニブルモード付きＤＲＡＭやスタティックカラムモ
ード付きＤＲＡＭのようにアクセスの連続性、局所性を
もとに通常モードより高速なアクセスが可能なタイプの
メモリを用いた場合や、複数のメモリチップをインタリ
ーブ構成にした場合もアクセスの連続性をもとに高速な
アクセスが可能であるので、本発明を適用できる。

【０１５１】また、最初のワードのアクセス遅延の性能
は落としてでもＤＲＡＭの容量増加を低コストで実現
し、ブロック転送サイクルの高速性は確保する、という
タイプのＤＲＡＭは、今後、いわゆる倍ルールを逸脱し
たｂｉｔ単価およびチップ単価の低さから普及すると予
測される。

【０１５２】転送サイクルはＧＴＬやＣＴＴなどの電気
的インタフェースの利用により一層の高速化が見込まれ
るので、最初のワードのアクセス遅延の上昇との相乗効
果により高い性能を引き出すには、連続ブロックアクセ
スのブロック長を長く取らなければならなくなる。

【０１５３】スカラプロセッサのキャッシュのラインサ
イズは通常１６〜３２バイトに過ぎないのに対し、ベク
トルレジスタは１本あたり数百から数千バイトの容量を
持つのが普通であるので、連続ブロックアクセスのブロ
ック長を長くとることのできるベクトルプロセッサに基
盤をおく本発明は、このようなコンセプトのＤＲＡＭに
高い適応性を持っている。

【０１５４】以上、上述したように、本発明によれば超
並列計算機の要素プロセッサに採用できる大きさと価格
で、高性能なベクトル演算器にバランスするメモリバン
ド幅を持つ主記憶を構成することが可能となっている。

【０１５５】具体的には、昇順連続アクセスを行うベク
トルロードストア命令の実行においてはＲａｍｂｕｓ型
ＤＲＡＭや同期型ＤＲＡＭにより数百ＭＢ／ｓクラスの
極めて高いメモリバンド幅を実現可能としている。

【０１５６】さらに逆順連続アクセスや、連続でない等
間隔アクセスや、リストアクセスを行う場合でも昇順連
続アクセスに比べて性能低下が低い、高いメモリバンド
幅を実現可能としている。

【０１５７】特に本発明をＲａｍｂｕｓ型ＤＲＡＭや同
期型ＤＲＡＭに用いた構成では、同じ性能を実現するた
めのメモリチップ数を従来のＤＲＡＭをインタリーブす
る構成と比べ、同期型ＤＲＡＭに用いた時で約１／１
６、Ｒａｍｂｕｓ型ＤＲＡＭに用いた時で約１／６４程
度にすることが可能となっている。

【０１５８】

【発明の効果】以上、説明したように、本発明によれば
超並列計算機の要素プロセッサに採用できる大きさと価
格で、高性能なベクトル演算器に適応しうるメモリバン
ド幅を持つ主記憶を構成することが可能となる等の効果
が期待される。

【図面の簡単な説明】

【図１】第１の発明にかかるベクトルロードストア回路
を具備するプロセッサの構成の実施例を示した図であ
る。

【図２】第１の実施例における連続ブロックアクセス要
求生成部の構成例を示した図である。

【図３】Ｒａｍｂｕｓ型ＤＲＡＭで４バイトデータのラ
ンダムアクセスを行った場合のタイムチャートである。

【図４】Ｒａｍｂｕｓ型ＤＲＡＭで２５６バイトのブロ
ックデータをアクセスする場合のタイムチャートであ
る。

【図５】同期型ＤＲＡＭでラップ長が８でバンク衝突が
無い場合のタイムチャートである。

【図６】同期型ＤＲＡＭでラップ長が４で同一行内のバ
ースト転送を２回行いバンク衝突が無い場合のタイムチ
ャートである。

【図７】同期型ＤＲＡＭでラップ長が４でバンク衝突が
ある場合のタイムチャートである。

【図８】同期型ＤＲＡＭでラップ長が８でバンク衝突が
ある場合のタイムチャートである。

【図９】ベクトルロードストア回路を具備するベクトル
プロセッサにおける命令制御部、連続ブロックアクセス
要求生成部およびメモリバスの動作状況の例を示した図
である。

【図１０】個々のベクトルレジスタごとに完結したＦＩ
ＦＯとなっているものをクロスバースイッチで接続した
ＦＩＦＯ型ベクトルレジスタを示す図である。

【図１１】データ記憶部とポインタ制御部を分割し、仮
想的に複数のＦＩＦＯを共通のＲＡＭ上に作るＦＩＦＯ
型ベクトルレジスタを示した図である。

【図１２】保持データ数情報を出力するＦＩＦＯ型ベク
トルレジスタの実施例を示した図である。

【図１３】ＦＩＦＯ型ベクトルレジスタ用ベクトルロー
ドストア回路の連続ブロックアクセス要求生成部の一実
施例を示した図である。

【図１４】ＬＩＦＯバッファを具備したベクトルロード
ストア回路の実施例を示した図である。

【図１５】ＬＩＦＯバッファを具備したベクトルロード
ストア回路の動作例を示した図である。

【図１６】同期型ＤＲＡＭで構成した６４ｂｉｔ幅メモ
リーにおけるアクティブページランダムリードを用いて
６４語間隔の８バイト型データの等間隔アクセスを行っ
た場合のタイムチャートである。

【図１７】ベクトルロードストア回路のページ境界判定
部の実施例を示した図である。

【図１８】８００ＭＢ／ｓのメモリバンド幅を持つ超並
列マシンのプロセシングエレメントを１６０ｎｓサイク
ル８ｂｉｔ幅汎用ＤＲＡＭで構成する例を示した図であ
る。

【図１９】８００ＭＢ／ｓのメモリバンド幅を持つ超並
列マシンのプロセシングエレメントを１０ｎｓサイクル
８ｂｉｔ幅同期型ＤＲＡＭで構成する例を示した図であ
る。

【図２０】８００ＭＢ／ｓ以上のメモリバンド幅を持つ
超並列マシンのプロセシングエレメントを８ｂｉｔ幅Ｒ
ａｍｂｕｓ型ＤＲＡＭで構成する例を示した図である。

【符号の説明】

１１命令バッファ１３命令制御部１５スカラレジスタ１７スカラ演算器１９マルチプレクサ２１ベクトル演算器２３ベクトル演算器２５アクセスブロック長設定部２７アクセスステップ記憶部２９アドレス記憶部３１残りベクトル長記憶部３３ベクトル長レジスタ３５連続ブロックアクセス要求生成部３７メモリバスインタフェース３９連続アクセスが高速なメモリ

Claims

【特許請求の範囲】

【請求項１】連続ブロックアクセスの際に高速にアク
セスが可能なＲＡＭにより構成される主記憶に接続され
るベクトルプロセッサのベクトルロードストア回路であ
って、メモリへのアクセスの際のブロック長を保持するアクセ
スブロック長設定部と、ベクトルロード命令またはベクトルストア命令起動時に
先頭アドレスを現在のメモリアクセス要求アドレスとし
て記憶するアドレス記憶部と、ベクトルロード命令またはベクトルストア命令起動時に
ベクトル長を記憶する残りベクトル長記憶部と、この残りベクトル長記憶部に記憶されるベクルト長とア
クセスブロック長設定部に記憶されるベクトル長とを比
較して値の小さいブロック長をアクセス要求ブロック長
とすると共に、このアクセス要求ブロック長に対応する
バイト数をアドレス記憶部に記憶される値に加算したも
のを次のメモリアクセス要求アドレスとしてアドレス記
憶部に記憶し、残りベクトル長記憶部の値からアクセス
要求ブロック長に対応する語数を減算したものを残りベ
クトル長記憶部に記憶し、前記主記憶に対して連続ブロ
ックアクセス要求を発生する制御部とを具備することを
特徴とするベクトルロードストア回路。
【請求項２】ＦＩＦＯに保持されるデータ数若しくは
ＦＩＦＯの空きデータ数を保持するアップダウンカウン
タを具備したことを特徴とするＦＩＦＯ型ベクトルレジ
スタ。
【請求項３】ＦＩＦＯ型ベクトルレジスタを具備する
ベクトルプロセッサのベクトルロードストア回路であっ
て、逆順ロードストア動作時に使用されるＬＩＦＯバッファ
を具備することを特徴とするベクトルロードストア回
路。
【請求項４】同期型ＤＲＡＭにより構成される主記憶
に接続されるベクトルプロセッサのベクトルロードスト
ア回路であって、所定のベクトルロードストア命令を実行する際に、現在
のメモリアクセス要求アドレスが前回のメモリアクセス
要求アドレスと前記主記憶のページが同一か否かを判定
する判定手段と、この判定手段で同一ページであると判定されたときには
ページモードによるアクセスを実行するページモード実
行手段とを具備することを特徴とするベクトルロードス
トア回路。