JPH10232775A

JPH10232775A - プリフェッチ機構

Info

Publication number: JPH10232775A
Application number: JP5243097A
Authority: JP
Inventors: Masanao Ito; 昌尚伊藤; Naonobu Sukegawa; 直伸助川; Yoshiko Tamaoki; 由子玉置
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1997-02-20
Filing date: 1997-02-20
Publication date: 1998-09-02

Abstract

(57)【要約】【課題】 μＰが持つ演算能力を最大限に発揮させるプ
リフェッチ機構の提供。【解決手段】ループ実行のための制御命令を有し、主
記憶またはキャッシュへのデータアクセス命令を実行可
能なμＰにおいて、プリフェッチリクエスト生成回路11
と、プリフェッチ制御回路12と、プリフェッチ一時停止
回路13を設ける。回路11にはループで繰り返しアクセス
される各配列要素のデータアドレス及びアドレス増分を
格納するプリフェッチアドレスアレイ20が設けられ、回
路12はアレイ20に対するアドレス読み出しを順次指示す
る信号L20を作成し、また各配列要素の読み出しが一巡
したことを示す信号L21を出力する。回路11は信号L20に
応じてアドレスを読み出しプリフェッチを発行する。回
路13は信号L21と信号2のループカウント値を引き算し、
結果が設定値を越えた場合に前記プリフェッチ制御回路
12の動作を中止し、プリフェッチ発行を一時停止する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、半導体集積回路を
用いて構成する情報処理装置に係り、特に、情報処理装
置において主記憶アクセスを効率的に行うための機構で
あるプリフェッチ機構に関する。

【０００２】

【従来の技術】近年、半導体加工技術の進歩などによっ
て、マイクロプロセッサの動作周波数は向上を続けてお
り、最高速のマイクロプロセッサでは４００ＭＨｚ以上
にも達している。これに対して、主記憶を構成する半導
体に関しては、その動作周波数が向上はしているもの
の、マイクロプロセッサの動作周波数の向上よりもゆる
やかであるため、主記憶のマイクロプロセッサに対する
相対的な動作周波数はむしろ低下する傾向にある。これ
を補うために、これまではキャッシュと呼ばれる、小容
量ではあるが高速の記憶素子を付加して主記憶による性
能低下を抑える工夫が行われている。

【０００３】しかし、キャッシュは主記憶よりも容量が
小さいため、キャッシュの容量を越えるようなデータサ
イズのプログラムにおいては、キャッシュを単純に付加
しただけでは主記憶の動作周波数によって、マイクロプ
ロセッサの処理能力が制限されるという問題点が発生す
ることが知られている。これを回避するたの技術とし
て、プリフェッチと呼ばれる方法がある。一般に科学技
術計算においては、演算に用いるデータのアドレスを演
算開始よりもかなり早期に知ることができるため、演算
を行う以前に主記憶からキャッシュにデータを移動する
ことができる。これによって主記憶による制限を回避す
る技術がプリフェッチである。前もって主記憶からキャ
ッシュにデータを移動する動作を、一般にプリフェッチ
と呼ぶ。

【０００４】近年のマイクロプロセッサは、プリフェッ
チのための機能を命令として持つことが多い。例えば、
IBM社とMotorola社が共同開発したマイクロプロセッサ
であるPowerPC601にはプリフェッチを行う命令として、
dcbt命令等、数種の命令が存在する。これらの命令は、
指定されたアドレスの内容を主記憶からキャッシュに格
納する働きを持つ（Motorola社発行の「PowerPC601 RIS
C Microprocessor User's Manual」参照）。このよう
に、プリフェッチ動作を直接に命令で実行する方式を、
ソフトウエアプリフェッチ方式と呼ぶ。

【０００５】プリフェッチは科学技術計算で多数出現す
るDOループ内部の配列のアクセスに特に効果を発揮す
る。DOループ内部の配列のアドレスは規則的に変化する
ことが多いため、配列の先頭アドレス、アドレス増分値
などのアドレス情報を用いて、DOループ内部の配列のア
ドレスをハードウエアが生成することで、自動的に主記
憶からキャッシュにデータを移動するプリフェッチ方式
も数多く提案されている。このように、プリフェッチの
動作を演算などの命令動作とは別個にハードウエアが行
う方式をハードウエアプリフェッチ方式と呼ぶ。ハード
ウエアプリフェッチ方式において、プリフェッチの動作
を行うためのアドレス情報を設定する方法としては、ソ
フトウエアが指示する方式と、ハードウエアが実行中の
命令から自動的に検知する方式の２種類がある。前者の
例として、Gschwind,M.K. and Pietsch,T.J.: "Vector
Prefetching",Computer Architecture News, Special I
ntereset Group on Computer Architecture, Vol. 23,
No.5, December 1995 ACM, pp.1-7 が挙げられる。

【０００６】

【発明が解決しようとする課題】プリフェッチ方式にお
いて、プロセッサが持つ演算能力を最大限に発揮させる
ためには、プロセッサが演算命令を停止することなく動
作させるだけの演算データを供給しなければならない。
このためには、ループ中の全ての配列について、その配
列データが演算に使用されるタイミングよりも一定時間
(主記憶のデータを読み出して、キャッシュに格納する
ために要する時間)だけ前に、プリフェッチ動作を開始
する必要がある。これに対して、従来のハードウエアプ
リフェッチ方式においては、キャッシュのミス率を低減
することを主眼としており、必ずしもプロセッサが持つ
演算能力を最大限に発揮させることができない。ソフト
ウエアプリフェッチ方式の場合には、前記dcbt命令など
のプリフェッチ命令をループ中に余分に実行する必要が
あるために、若干のオーバーヘッドを余儀なくされる。
また、前記dcbt命令などのプリフェッチ命令を適切にル
ープ中に配置することはコンパイラが行うが、これがコ
ンパイラの他の最適化と整合的に行えるかは一般的には
必ずしも両立しないため、やはり、プロセッサが持つ演
算能力を最大限に発揮させることは困難である。本発明
の目的は、科学技術計算で多数出現するDOループ内部の
配列のアクセスに最適なハードウエアプリフェッチ方式
を提供し、プロセッサが持つ演算能力を最大限に発揮さ
せることにある。

【０００７】

【課題を解決するための手段】上記目的を達成するた
め、本発明は、ループ実行のための制御命令を有し、主
記憶またはキャッシュへのデータアクセス命令を実行可
能なマイクロプロセッサにおいて、該データアクセス命
令を効率的に行うためのプリフェッチ発行のために、プ
リフェッチ用のデータアドレス、および、アドレス増分
を、それぞれ複数組設定可能なレジスタアレイを備え、
該レジスタアレイに設定されたアドレス情報に基づい
て、該マイクロプロセッサの命令実行とは非同期にプリ
フェッチのためのアドレスを生成し、前記主メモリにプ
リフェッチ発行を行う手段と、プリフェッチ発行回数と
前記マイクロプロセッサの命令実行に伴うループ制御の
ためのループカウント値を引き算し、該引き算結果を予
め設定した値と比較し、該引き算結果が予め設定した値
を越えた場合に前記プリフェッチ発行を行う手段の動作
を中止し、プリフェッチ発行を一時停止する手段とを備
えるようにしている。

【０００８】また、前記プリフェッチ用のレジスタアレ
イは、プリフェッチ用のデータアドレス１つにつき、ア
ドレス増分を２種類以上設定可能とし、前記プリフェッ
チ発行を行う手段は、プリフェッチ発行回数を計数する
２種類以上のカウントレジスタを設け、該カウントレジ
スタの計数値に依存して、該２種類以上設定されたアド
レス増分を選択してプリフェッチのためのアドレス生成
を行うようにしている。

【０００９】また、前記レジスタアレイに設定されたプ
リフェッチのためのアドレス情報をグループ化して扱う
ためのプリフェッチ配列アレイを備え、該プリフェッチ
配列アレイは該各グループ化されたプリフェッチのため
のアドレス情報に対応して、プリフェッチ回数を設定す
るためのループ長指示フィールドを有し、前記プリフェ
ッチ発行を行う手段は、前記プリフェッチ配列アレイに
おいてグループ化された個々のグループの示す前記レジ
スタアレイのアドレス情報に基づいて、該グループに対
応する前記ループ長指示フィールドの示すプリフェッチ
回数だけプリフェッチ発行を行い、該プリフェッチのプ
リフェッチ発行の実行の後、前記プリフェッチ配列アレ
イに設定された次のグループに関して同様のプリフェッ
チ発行を行うようにしている。

【００１０】また、プリフェッチ発行に際し主記憶から
読み出したデータを、プリフェッチ専用データを格納す
るためのプリフェッチバッファへ格納するようにしてい
る。

【００１１】プリフェッチ発行に際し前記マイクロプロ
セッサは、プリフェッチを行うループに関し、ループ制
御のための命令またはループカウントを行うレジスタの
いずれかを、プリフェッチ専用として設けるようにして
いる。

【００１２】

【発明の実施の形態】

＜実施例１＞以下、本発明の一実施例を詳細に説明す
る。図１は、本発明の一実施例であるプリフェッチ機構
の構成図である。図１において、１はプロセッサ（Ｐ
Ｅ）であり、２は命令制御、３はプログラムカウンタ
（ＰＣ）、４は命令レジスタ（ＩＲ）、５は汎用レジス
タ（ＧＲ）、６は命令デコーダ、７はループカウントレ
ジスタ、８は減算器、９はデータ書込制御回路、１０は
プリフェッチ情報設定回路である。１１はプリフェッチ
リクエスト生成回路、１２はプリフェッチ制御回路、１
３はプリフェッチ一時停止回路である。２０はプリフェ
ッチアドレスアレイ（レジスタアレイで構成してもよ
い）、２１は書込制御回路、２２は加算器、２３は比較
器、２４はセレクタ、２５は論理和回路、２６は書込制
御回路である。３０はプリフェッチポインタレジスタ、
３１はプリフェッチ配列数レジスタ、３２はプリフェッ
チカウントレジスタ、３３はプリフェッチ起動レジス
タ、３４は加算器、３５はセレクタ、３６は比較器、３
７は減算器、３８は比較器、３９は論理積回路である。
５０はプリフェッチ先行サイクル数カウントレジスタ、
５１はループサイクル数レジスタ、５２はプリフェッチ
先行サイクル数指定レジスタ、５３は加算器、５４は減
算器、５５はセレクタ、５６はプリフェッチ先行サイク
ル数更新回路、５７は比較器、Ｌ１からＬ２１は信号線
である。

【００１３】図ではプロセッサ１内部に命令レジスタ
（ＩＲ）４、命令デコーダ６がプロセッサ１につき各々
１台のみ図示してあるが、複数でもかまわない。すなわ
ち、１サイクルに複数命令を実行可能なスーパースカラ
方式のプロセッサでもかまわない。

【００１４】次に、このように構成された本システムの
動作について、図１を用いて説明する。該プロセッサ
（ＰＥ）１において、命令制御２内のプログラムカウン
タ（ＰＣ）３の指定するアドレスの命令を、命令読み出
し回路（図示せず）によって命令レジスタ（ＩＲ）４に
格納する。命令レジスタ（ＩＲ）４の命令コードフィー
ルドの内容は、それぞれデコーダ６によって解読され各
種命令実行制御回路（図示せず）に指令が行われる。ま
た命令レジスタ（ＩＲ）４のレジスタフィールドの内容
が指し示す汎用レジスタ（ＧＲ）５の内容を読み出し
て、必要な各種命令実行制御回路（図示せず）に伝達が
行われる。このような動作は、従来のマイクロプロセッ
サの動作と全く同様である。

【００１５】以下ではプロセッサ１が主記憶（図示せ
ず）に対してプリフェッチ動作を行う場合について、そ
の処理の経過をプリフェッチリクエスト生成回路１１、
プリフェッチ制御回路１２、プリフェッチ一時停止回路
１３について説明する。プリフェッチ動作の初期状態の
設定は、プロセッサ１が命令によりプリフェッチ情報を
格納する資源である、プリフェッチアドレスアレイ２
０、プリフェッチ配列数レジスタ３１（後述の図２、図
３の実例では“３”がセットされる）、プリフェッチカ
ウントレジスタ３２（上記の実例では“１００”がセッ
トされる）、プリフェッチ起動レジスタ３３（プリフェ
ッチ起動時に“１”がセットされる）、ループサイクル
数レジスタ５１（上記の実例では“３”がセットされ
る）、プリフェッチ先行サイクル数指定レジスタ５２に
値を設定（上記の実例では“６”がセットされる）する
ことで行う。すなわち、プリフェッチの初期状態の設定
を行う命令が命令レジスタ（ＩＲ）４に読み込まれる
と、デコーダ６によって解読されプリフェッチ情報設定
回路１０に指示を行い、汎用レジスタ（ＧＲ）５の内容
を読み出して、命令レジスタ（ＩＲ）４中のＰＲ＃フィ
ールドで特定されるプリフェッチ情報を格納する資源に
対して、値の格納が行われる。また、プリフェッチ動作
に関連する資源であるループカウントレジスタ７に対し
ても、プロセッサ１が命令により値（上記の実例では
“１００”）を設定する。すなわち、ループカウントレ
ジスタ７の値の設定を行う命令が命令レジスタ（ＩＲ）
４に読み込まれると、デコーダ６によって解読されデー
タ書込制御回路９に指示を行い、汎用レジスタ（ＧＲ）
５の内容を読み出して、ループカウントレジスタ７に対
して、値の格納が行われる。なお、プロセッサ１の初期
状態においては、プリフェッチポインタレジスタ３０、
プリフェッチ先行サイクル数カウントレジスタ５０には
値０が格納される。それ以外の部分の初期状態における
値は、従来のマイクロプロセッサと同様な値が格納され
る。図１においてはプリフェッチ制御のみを示し、それ
以外のプロセッサ制御は図示していないが、従来のマイ
クロプロセッサと同様に処理が行われる。

【００１６】プリフェッチのために必要なプリフェッチ
の初期状態の設定を行う命令が全て実行されると、プリ
フェッチ動作が開始される。プリフェッチ動作はプリフ
ェッチのためのハードウエア機構であるプリフェッチリ
クエスト生成回路１１、プリフェッチ制御回路１２、プ
リフェッチ一時停止回路１３が行い、ループ制御を除く
プロセッサ命令の実行とは非同期に行われる。

【００１７】プリフェッチのために必要なプリフェッチ
の初期情報を以下に解説する。第１に、プリフェッチの
対象となる配列全てについて、その先頭アドレスとアド
レス増分をプリフェッチアドレスアレイ２０に設定す
る。先頭アドレスとはループの最初の繰り返しでアクセ
スされる各々の配列要素（後述の図２の実例の場合、Ａ
（１）、Ｂ（１）、Ｃ（１））のアドレスであり、アド
レス増分とは各々の配列についてのループ繰り返し１回
分における配列要素のアドレス変化の大きさ（上記実例
では“８”）である。

【００１８】プリフェッチアドレスアレイ２０の内部構
成は図２に示されている。プリフェッチアドレスアレイ
２０は複数のエントリから成り、各々のエントリは、初
回用フィールド、先頭アドレスフィールド、アドレス増
分フィールドの３つのフィールドから成る。配列の先頭
アドレスは先頭アドレスフィールドに格納され、アドレ
ス増分はアドレス増分フィールドに格納される。初回用
フィールドには、先頭アドレスとアドレス増分が格納さ
れる際に、値「１」が格納される。第２に、プリフェッ
チアドレスアレイ２０に設定された配列の種類の数をプ
リフェッチ配列数レジスタ３１に格納する（この場合
“３”）。第３に、プリフェッチの対象となるループの
繰り返しの回数をプリフェッチカウントレジスタ３２に
格納する。この値は、プロセッサ１がループ実行を行う
際に使用するループカウントレジスタ７に設定される値
と同一である（図３の場合“１００”）。第４にプリフ
ェッチの対象となるループ１回分の静的な実行サイクル
数をループサイクル数レジスタ５１に格納する（図３の
場合“３”）。静的な実行サイクル数とは、ループ１回
分に含まれる命令数を、プロセッサ１が１サイクル当た
りに実行可能な命令数で割った値であり、すなわち、主
記憶アクセスや分岐命令の実行など、動的な要因が理想
的であった場合のループ１回分に要する実行サイクル数
である。第５に、プロセッサ１におけるデータ使用に、
最大何サイクル先行してプリフェッチを発行するか、そ
のサイクル数をプリフェッチ先行サイクル数指定レジス
タ５２に格納する（図３の場合“６”）。最後に、プリ
フェッチ起動レジスタ３３に値「１」を格納すると、以
上で設定したプリフェッチ情報に基づいてプリフェッチ
が起動される。

【００１９】これらのプリフェッチ情報の詳細について
は、下記のプリフェッチ動作の解説において説明され
る。プリフェッチ動作は３つの回路、プリフェッチリク
エスト生成回路１１、プリフェッチ制御回路１２、プリ
フェッチ一時停止回路１３によって行われる。プリフェ
ッチリクエスト生成回路１１は、プリフェッチ対象とな
る配列のアドレス情報を持ち、プリフェッチのためのア
ドレスを生成し、プリフェッチリクエストの発行を行
う。プリフェッチ制御回路１２は、プリフェッチの回
数、プリフェッチの発行タイミングなどを制御する。プ
リフェッチ一時停止回路１３は、プロセッサ１における
プログラム実行とプリフェッチ発行を監視し、プリフェ
ッチの発行し過ぎを抑制する。

【００２０】以下、３つの回路、プリフェッチリクエス
ト生成回路１１、プリフェッチ制御回路１２、プリフェ
ッチ一時停止回路１３について詳細な説明を行う。プリ
フェッチリクエスト生成回路１１において、プリフェッ
チの対象となる配列の情報は前述のごとく、プリフェッ
チに先立ってプリフェッチアドレスアレイ２０に格納さ
れる。プリフェッチアドレスアレイ２０に格納されてい
るどのエントリについてプリフェッチを発行するかは、
信号線Ｌ２０を介してプリフェッチ制御回路１２より指
定される。該指定されたエントリにおいて、初回用フィ
ールドの値が「１」であった場合には、以下のようにプ
リフェッチが発行される。プリフェッチアドレスアレイ
２０から読み出された初回用フィールドの値は論理和回
路２５に入力される。論理和回路２５は書込制御回路２
６を制御して、セレクタ２４の出力であるプリフェッチ
アドレスについて信号線Ｌ１０を介して主記憶（図示せ
ず）に対してプリフェッチを発行する。この際、セレク
タ２４においては初回用フィールドの値が「１」である
ため、信号線Ｌ１１の信号、すなわち、プリフェッチア
ドレスアレイ２０の先頭アドレスフィールドに格納され
るアドレスそのままについてプリフェッチが発行され
る。また、読み出された配列要素の初回用フィールド
はＯＲ回路２５の出力が“１”のとき“０”に変更され
る。初回用フィールドの値が「０」であった場合には、
以下のようにプリフェッチが発行される。

【００２１】プリフェッチアドレスアレイ２０から読み
出された先頭アドレスフィールドの値とアドレス増分フ
ィールドの値が加算器２２で加えられ、元のアドレスフ
ィールドの値と比較器２３において比較される。この
際、比較の対象となる２つの値は、アドレスの上位部分
のみが比較される。ここでアドレスの上位部分とは、プ
ロセッサ１のキャッシュ（図示せず）の１ラインを指定
するためのアドレス範囲を指し示す。比較の結果、値が
異なる場合には値「１」が論理和回路２５に入力され
る。論理和回路２５は書込制御回路２６を制御して、セ
レクタ２４の出力であるプリフェッチアドレスについて
信号線Ｌ１０を介して主記憶（図示せず）に対してプリ
フェッチを発行する。この際、セレクタ２４においては
初回用フィールドの値が「０」であるため、信号線Ｌ１
２の信号、すなわち、先頭アドレスフィールドの値とア
ドレス増分フィールドの値が加算器２２で加えられたア
ドレスについてプリフェッチが発行される。初回用フィ
ールドの値が「０」であって、かつ、比較器２３におい
て行われた比較の結果が等しかった場合にはプリフェッ
チの発行は行われない。

【００２２】なお、初回用フィールドの値およびプリフ
ェッチの発行の有無に関わらず、プリフェッチ制御回路
１２より指定されたエントリについては、先頭アドレス
フィールドの値とアドレス増分フィールドの値の加算値
が先頭アドレスフィールドに格納される。これにより、
プリフェッチアドレスアレイ２０の先頭アドレスフィー
ルドは、プリフェッチ対象となる配列について、実際に
プロセッサ１が行う命令と同一のアドレス変化を模擬す
る。プリフェッチの発行はこの模擬の過程で、配列が新
たなキャッシュラインをアクセスするタイミングを検出
することで行っている。以上のようにして、プリフェッ
チリクエスト生成回路１１において、プリフェッチリク
エストが生成される。

【００２３】プリフェッチ制御回路１２において、プリ
フェッチのための情報は前述のごとく、プリフェッチに
先立ってプリフェッチ配列数レジスタ３１、プリフェッ
チカウントレジスタ３２に格納される。プリフェッチ配
列数レジスタ３１には、プリフェッチを行う配列の個数
が、プリフェッチカウントレジスタ３２にはプリフェッ
チの対象となるループの長さが格納される。また、プリ
フェッチ動作の開始前には、プリフェッチポインタレジ
スタ３０は値「０」である。プリフェッチポインタレジ
スタ３０の初期値「０」の格納は、プロセッサ１の初期
化時およびプリフェッチ動作の終了時に行われる。全て
のプリフェッチ情報が設定された後、プリフェッチ起動
レジスタ３３に値「１」を設定することでプリフェッチ
が起動される。

【００２４】プリフェッチが起動されるとプリフェッチ
制御回路１２は以下のように動作を行う。プリフェッチ
起動レジスタ３３の値が「１」であり、かつ信号線Ｌ２
２を介してプリフェッチ一時停止回路１３から伝達され
る信号値が「１」であるとき、すなわち、後述のように
一時停止をしなくてよい状態を示すとき、論理積回路３
９の出力は値「１」となる。加算器３４は論理積回路３
９の出力が「１」の場合、プロセッサ１の信号クロック
（図示せず）に同期して、プリフェッチポインタレジス
タ３０の値に「１」を加え、その結果をプリフェッチ配
列数レジスタ３１の値と比較器３６において比較する。
比較結果が等しくない場合には、セレクタ３５は加算器
３４の加算結果をそのまま出力し、比較結果が等しい場
合には、値「０」を出力する。セレクタ３５の出力は、
プリフェッチポインタレジスタ３０に格納される。ま
た、加算器３４の加算結果は信号線Ｌ２０を介してプリ
フェッチリクエスト生成回路１１に伝達され、前述のご
とく、プリフェッチリクエストの生成を行う。また、論
理積回路３９の出力はプリフェッチリクエスト生成回路
１１に送られ、もし、論理積回路３９の出力が値「０」
であった場合には、プリフェッチリクエスト生成回路１
１に対して、プリフェッチリクエストの生成を行わない
よう制御が行われる（制御のための構成は図示省略）。

【００２５】本実施例ではプロセッサ１内部に命令レジ
スタ（ＩＲ）４、命令デコーダ６がプロセッサ１につき
各々１台の例で解説を行っているが、これらが複数でも
かまわない。複数の場合には、プロセッサ１の信号クロ
ック（図示せず）１サイクルにつき、複数命令を実行可
能なスーパースカラ方式のプロセッサとなるが、このよ
うな場合、すなわち、１サイクルにつき、複数の主記憶
アクセス命令をプロセッサ１が実行する場合には、上記
信号線Ｌ２０を介して行うプリフェッチリクエスト生成
回路１１へのプリフェッチの指示も同様に複数回行い、
プリフェッチリクエスト生成回路１１において、１サイ
クルにつき複数のプリフェッチリクエスト生成を行う。

【００２６】さて、上記比較器３６での比較結果が等し
い場合には、信号線Ｌ２１を介してプリフェッチ一時停
止回路１３に対し、信号「１」が伝達され、等しくない
場合には信号「０」が伝達される。また、比較器３６で
の比較結果が等しい場合には、減算器３７においてプリ
フェッチカウントレジスタ３２の値から「１」を引く演
算が行われ、その結果はプリフェッチカウントレジスタ
３２に格納される。また、減算器３７の演算結果は比較
器３８において値「０」と比較され、等しい場合、つま
りあらかじめ設定したループ長の分だけのプリフェッチ
動作が行われた場合には、値「０」がプリフェッチ起動
レジスタ３３に格納され、プリフェッチ動作が完了す
る。以上のようにして、プリフェッチ制御回路１２にお
いて、プリフェッチ制御が行われる。

【００２７】プリフェッチ一時停止回路１３において、
プリフェッチのための情報は前述のごとく、プリフェッ
チに先立ってループサイクル数レジスタ５１、プリフェ
ッチ先行サイクル数指定レジスタ５２に格納される。ル
ープサイクル数レジスタ５１には、プリフェッチの対象
となるループに要する静的な実行サイクル数が、プリフ
ェッチ先行サイクル数指定レジスタ５２には、プロセッ
サ１におけるデータ使用に最大何サイクル先行してプリ
フェッチを発行するか、そのサイクル数が格納される。
また、プリフェッチ動作の開始前には、プリフェッチ先
行サイクル数カウントレジスタ５０は値「０」である。
プリフェッチ先行サイクル数カウントレジスタ５０の初
期値「０」の格納は、プロセッサ１の初期化時およびプ
リフェッチ動作の終了時に行われる。

【００２８】これらの情報が設定された後、プリフェッ
チ一時停止回路１３は以下のように動作を行う。プリフ
ェッチ一時停止回路１３は、信号線Ｌ２および信号線Ｌ
２１から情報の伝達を受ける。信号線Ｌ２は次のような
情報を伝達する。命令レジスタ（ＩＲ）４にループカウ
ント命令（プログラムにおいてループ単位の終わりに存
在する）が格納されこれがデコーダ６によって解読され
ると信号線Ｌ２を介して減算器８に指令が行われ、ルー
プカウントレジスタ７の値が「１」だけ減じられる。こ
のように、信号線Ｌ２は、ループカウント命令の実行が
１回行われた情報を示す。なお、減算器８の演算結果が
「０」であった場合には、命令制御２に対して命令アド
レスの指示が行われ、ループ制御が実行される（図示せ
ず）。以下では、信号線Ｌ２の値が「１」であった場
合、ループカウント命令の実行が行われたものとする。
また、前述のように、信号線Ｌ２１からはプリフェッチ
制御回路１２より比較器３６における比較結果が等しい
か否かの情報を伝達される。比較結果が等しい場合には
信号「１」が伝達され、等しくない場合には信号「０」
が伝達される。信号線Ｌ２１が値「１」であることは、
プリフェッチポインタレジスタ３０の内容がプリフェッ
チカウントレジスタ３２に設定された回数だけ加算器３
４において加算を行われたことを示す。これは、プリフ
ェッチ対象となる配列について、ループ１回分のアドレ
ス変化を模擬したことに等しい。

【００２９】さて、このような情報を信号線Ｌ２および
信号線Ｌ２１から伝達されて、プリフェッチ一時停止回
路１３は以下のように動作を行う。セレクタ５５に対し
て、次の３つの値が入力される。それらは、プリフェッ
チ先行サイクル数カウントレジスタ５０の値、加算器５
３によってプリフェッチ先行サイクル数カウントレジス
タ５０の値とループサイクル数レジスタ５１の値を加算
した値、減算器５４によってプリフェッチ先行サイクル
数カウントレジスタ５０の値からループサイクル数レジ
スタ５１の値を減算した値である。これらの値に対し
て、セレクタ５５はプリフェッチ先行サイクル数更新回
路５６の制御によって値の選択を行う。プリフェッチ先
行サイクル数更新回路５６には、前述の信号線Ｌ２およ
び信号線Ｌ２１が入力されており、信号線Ｌ２が「０」
で信号線Ｌ２１が「１」の場合には、加算器５３の出力
を選択し、信号線Ｌ２が「１」で信号線Ｌ２１が「０」
の場合には、減算器５４の出力を選択し、信号線Ｌ２、
信号線Ｌ２１がともに「１」の場合、および、信号線Ｌ
２、信号線Ｌ２１がともに「０」の場合には、プリフェ
ッチ先行サイクル数カウントレジスタ５０の値を選択す
る。セレクタ５５の出力はプリフェッチ先行サイクル数
指定レジスタ５２と比較器５７において比較され、セレ
クタ５５の出力のほうが大きい場合には、値「０」が信
号線Ｌ２２を介してプリフェッチ制御回路１２に伝達さ
れ、そうでない場合には値「１」が伝達される。値
「０」は一時停止を意味し、信号線Ｌ２２が値「０」の
間はプリフェッチ制御回路１２において論理積回路３９
の出力が「０」となって、これにより、プリフェッチリ
クエスト生成回路１１におけるプリフェッチリクエスト
生成が一時停止する。

【００３０】この一時停止はプリフェッチリクエストの
過剰な生成を抑止するために行われる。この目的は、何
らかの要因でプロセッサ１においてループ実行が滞った
場合に、プロセッサ１のループ実行に同期してプリフェ
ッチリクエストの生成の一時停止をさせることにある。
このような制御を行わない場合、プリフェッチリクエス
トの過剰な生成のために、プロセッサ１の性能がかえっ
て低下する可能性がある。例えば、プリフェッチリクエ
ストが過剰に生成されたためにプロセッサ１のキャッシ
ュ（図示せず）がプリフェッチされたデータの書込に占
有されてしまい、プロセッサ１自身のデータアクセスが
阻害される可能性や、プリフェッチリクエストが過剰な
ために、プロセッサ１がデータアクセスを行う以前に過
剰なプリフェッチデータが必要なプリフェッチデータを
リプレースしてしまう可能性がある。このような状態に
陥るのを防ぐために、プリフェッチ一時停止回路１３は
信号線Ｌ２および信号線Ｌ２１によって、プロセッサ１
が実行するループの進み具合と、プリフェッチ機構にお
けるループの進み具合を比較して、一時停止制御を行
う。

【００３１】プリフェッチ先行サイクル数カウントレジ
スタ５０はプリフェッチ機構におけるループの進み具合
をプロセッサ１のサイクル数（図３の場合、プロセッサ
クロック数と同等）で管理しており、この値をあらかじ
め設定した基準値であるプリフェッチ先行サイクル数指
定レジスタ５２と比較して一時停止制御を行う。プリフ
ェッチ先行サイクル数指定レジスタ５２には、プロセッ
サ１が主記憶（図示せず）に対してプリフェッチリクエ
ストを発行してプリフェッチにより得られる主記憶の内
容がキャッシュ（図示せず）に格納されるまでのサイク
ル数に、余裕分のサイクル数を加えた値を設定すること
が推奨される。プロセッサ１が主記憶（図示せず）に対
してプリフェッチリクエストを発行してプリフェッチに
より得られる主記憶の内容がキャッシュ（図示せず）に
格納されるまでのサイクル数よりも小さい値を設定した
場合には、プリフェッチを充分に発行できないためにプ
ロセッサ１の性能が低下する。大きすぎる値を設定した
場合には、前述のとおり、プロセッサ１がキャッシュ
（図示せず）へのアクセスを阻害される、あるいは、キ
ャッシュ（図示せず）上の必要なデータのリプレースが
発生するなどの可能性が生ずる。

【００３２】なお、本実施例では主記憶（図示せず）か
ら読み出したデータをキャッシュ（図示せず）に格納す
ると仮定したが、キャッシュ以外のプリフェッチデータ
を格納するための、キャッシュに類似したバッファであ
っても構わない。また、プリフェッチ一時停止回路１３
が一時停止制御に用いるループカウントレジスタ７を、
プロセッサ１がループ制御に用いるレジスタとは別個に
プリフェッチ動作専用に設けても問題ない。さらに、信
号線Ｌ２のための情報を生成する命令は、プロセッサ１
がループ制御に用いる命令とは別個にプリフェッチ動作
専用に設けても問題ない。

【００３３】さて、このようにして構成されたプリフェ
ッチ機構の動作の１例を図３を用いて説明する。ここで
は、ループ内でＡ（Ｎ）、Ｂ（Ｎ）、Ｃ（Ｎ）の３つの
配列をＮ＝１から順にアクセスすると仮定しており、ル
ープ長は１００を仮定している。これは、プリフェッチ
アドレスアレイ２０を図２に示した状態を設定し、プリ
フェッチ配列数レジスタ３１に値「３」を設定し、プリ
フェッチカウントレジスタ３２に「１００」を設定した
状態に等価である。図３において縦方向は時間の進みを
示し、時刻は左端の「プロセッサクロック」の値で表示
される。左から第２列の「プリフェッチ対象配列」は、
信号線Ｌ２０によって指示され、プリフェッチリクエス
ト生成回路１１が生成を行ったプリフェッチリクエスト
を配列要素名（Ａ（１）、Ｂ（１）……）で示してい
る。ここでは、キャッシュのラインサイズは配列の１要
素の大きさに等しいと仮定した。第３列の「プロセッサ
使用配列」は、プロセッサ１が使用した配列要素を示し
ている。主記憶からキャッシュへのレイテンシは６サイ
クルであると仮定している。これに呼応して、プリフェ
ッチ先行サイクル数指定レジスタ５２の値も「６」を設
定している。また、プロセッサ１は１サイクルに１命令
を実行すると仮定して、ループサイクル数レジスタ５１
には、値「３」を設定している。これは、ループ内で使
用する配列が３種類であることに対応している。第４列
の「Ｌ２０」は、信号線Ｌ２０の値を、第５列の「ＤＩ
ＦＦ」は、プリフェッチ先行サイクル数カウントレジス
タ５０の値を、第６列の「ＰＣＴＲ」はプリフェッチカ
ウントレジスタ３２の値を、第７列の「ＣＴＲ」はルー
プカウントレジスタ７の値を、それぞれ示している。

【００３４】「プロセッサクロック」の値が「１」から
「６」の範囲では、１サイクルに１配列要素の順でプリ
フェッチが行われている。これは、プリフェッチポイン
タレジスタ３０の値が、毎サイクル加算器３４でインク
リメントされ、信号線Ｌ２０からプリフェッチリクエス
ト生成回路１１内部のプリフェッチアドレスアレイ２０
に指示が伝達されることで行われる。この際、項目「Ｄ
ＩＦＦ」で示されるとおり、プリフェッチ先行サイクル
数カウントレジスタ５０の値は、プリフェッチ先行サイ
クル数指定レジスタ５２に設定された値「６」を下回っ
ていることが確認できる。また、ＤＩＦＦ＝（ＣＴＲ−
ＰＣＴＲ）×３という関係が成り立っていることもわか
る。ここに、値「３」はループサイクル数レジスタ５１
の設定値に対応する。このように、プリフェッチ一時停
止回路１３においては、信号線Ｌ２および信号線Ｌ２１
から、ループカウントレジスタ７およびプリフェッチカ
ウントレジスタ３２の情報を得て、該関係に基づいてプ
リフェッチ先行サイクル数カウントレジスタ５０の値を
計数し、一時停止制御を行う。

【００３５】「プロセッサクロック」の値が「７」から
「１２」の範囲では、プリフェッチしたデータがプロセ
ッサ１において使用可能となるため、「プロセッサ使用
配列」で１サイクルに１配列要素の割合で、プリフェッ
チした順に使用している（より正しくは、プロセッサ１
が使用する順番にプリフェッチを発行し、プリフェッチ
がその通り行われた結果、プロセッサ１が予定通り順番
に使用を行う）。この範囲では、プロセッサ１における
配列の使用と、プリフェッチの発行が釣り合っているた
め、プリフェッチ先行サイクル数カウントレジスタ５０
の値は一定値「６」となっている。

【００３６】「プロセッサクロック」の値が「１３」か
ら「１５」の範囲では、仮想的にプロセッサ１の実行が
ストールし、配列の使用が３サイクルの間行われない状
況になったものと仮定している。その結果、「プロセッ
サクロック」が「１６」から「１８」の範囲ではプリフ
ェッチ先行サイクル数カウントレジスタ５０の値が
「９」となり、プリフェッチ先行サイクル数指定レジス
タ５２に設定された値「６」を越える、この結果、プリ
フェッチ一時停止回路１３は信号線Ｌ２２にプリフェッ
チを一時停止する信号を出力し、この「プロセッサクロ
ック」の範囲ではプリフェッチが一時停止される。ただ
し、該範囲においてプロセッサ１ストールは解除され、
配列の使用が再開されたとしているために、「プロセッ
サクロック」の値が「１９」以降の範囲では、プリフェ
ッチ先行サイクル数カウントレジスタ５０の値は「６」
となり、プリフェッチ先行サイクル数指定レジスタ５２
に設定された値「６」を越えない。この結果、プリフェ
ッチ一時停止回路１３は信号線Ｌ２２にプリフェッチを
一時停止する信号を出力するのを取りやめ、プリフェッ
チ動作が再開される。以上示したようにプリフェッチ動
作は、プログラム１のループ実行に同期して発行制御を
行うことができ、これによりプリフェッチリクエストの
過剰な発行を抑止し、プログラム１にとって最適なプリ
フェッチを達成する。

【００３７】＜実施例２＞次に、本発明の第２の実施例
を説明する。本実施例は第１の実施例の変形であり、よ
り複雑なループに対しても効率よくプリフェッチを行う
ためにプリフェッチ機構を提供することを目的とする。
具体的には科学技術計算に頻発する２重ループに対して
効率よくプリフェッチを行わせることを目的とする。

【００３８】図４は本発明の第２の実施例であるプリフ
ェッチ機構のシステム構成図である。図４中、図１と同
一の参照番号を持つ構成要素は第１の実施例の場合と同
じ機能を持つ。ここでは図１と異なる構成要素について
のみ説明を行う。図４中、１４はプロセッサ（ＰＥ）、
７０はプリフェッチリクエスト生成回路、７１はプリフ
ェッチアドレス増分選択回路である。図ではプロセッサ
１４内部に命令レジスタ（ＩＲ）４、命令デコーダ６が
プロセッサ１について各々１台のみ図示してあるが、複
数でもかまわない。すなわち、１サイクルに複数命令を
実行可能なスーパースカラ方式のプロセッサでもかまわ
ない。

【００３９】次に、このように構成された本システムの
動作について、図４を用いて説明する。命令の読み出し
等の動作は第１の実施例と同様であるので省略し、ここ
では第１の実施例との相違点である、２重ループに対す
るプリフェッチ動作を行う場合について、その処理の経
過をプリフェッチリクエスト生成回路７０、プリフェッ
チアドレス増分選択回路７１、プリフェッチ制御回路１
２、プリフェッチ一時停止回路１３について説明する。

【００４０】図５はプリフェッチリクエスト生成回路７
０の構成図である。図５中、２７はプリフェッチアドレ
スアレイ、２８はセレクタであり、それ以外の構成要素
は図１と同一の参照番号を持ち、第１の実施例の場合と
同じ機能を持つ。図７はプリフェッチアドレスアレイ２
７の構成を示している。プリフェッチアドレスアレイ２
７は、第１の実施例のプリフェッチアドレスアレイ２０
の各エントリにアドレス増分フィールドが１つ付け加え
られた点が異なっている。以前から存在するアドレス増
分フィールドと区別するため、各々、アドレス増分フィ
ールド１、アドレス増分フィールド２と呼んで区別す
る。これらは、２次元配列の各々の次元に対するアドレ
ス増分を指定するフィールドである。詳細については以
下の解説内で述べる。図６はプリフェッチアドレス増分
選択回路７１の構成図である。図６中、８０は内側ルー
プ長レジスタ、８１は内側ループカウントレジスタ、８
２は減算器、８３は比較器、８４はセレクタである。

【００４１】以下、図５から図７もあわせて説明を行
う。本実施例における２重ループのプリフェッチのため
に必要なプリフェッチの初期情報を以下に解説する。ま
ず、プリフェッチの対象となる配列全てについて、その
先頭アドレスとアドレス増分をプリフェッチアドレスア
レイ２７に設定する。先頭アドレスは２重ループのそれ
ぞれのインデックスの最初の繰り返しでアクセスされる
配列要素のアドレスであり、これを各々の配列について
先頭アドレスフィールドに格納する。アドレス増分は２
重ループの内側および外側について２種類を設定する。
内側ループのループ繰り返し１回分における配列要素の
アドレス変化の大きさを、アドレス増分フィールド１に
格納する。アドレス増分フィールド２には、外側ループ
のインデックスが変化したときのアドレス変化の大き
さ、つまり、ある外側インデックスにおける内側インデ
ックスの最後の配列アクセスのアドレスと、次の外側イ
ンデックスにおける内側インデックスの最初の配列アク
セスのアドレスとの差を格納する。例えば、以下のよう
な２重ループであれば、配列要素Ｂ（１１，１）と配列
要素Ｂ（１，２）のアドレスの差をアドレス増分フィー
ルド２に格納する（もちろん、Ｂ（１１，２）とＢ
（１，３）の差でも構わない）。

【００４２】ＤＯＮ＝１，１１ＤＯＫ＝１，１１Ｓ＝Ｓ＋Ｂ（Ｋ，Ｎ）ＣＯＮＴＩＮＵＥＣＯＮＴＩＮＵＥプリフェッチアドレスアレイ２７のアドレス増分フィー
ルド２に格納する値は、本実施例に挙げた以外にも様々
なアドレスがあり得る。指定の要点は、外側インデック
スの変化に対応したアドレス変化に追随できる情報を与
えることであり、そのような情報を有していればプリフ
ェッチリクエスト生成回路７０において２重ループに対
応したアドレス変化を行わせることが可能であり、した
がってそのような情報を有しているのであれば、どのよ
うなアドレスでも構わない。プリフェッチアドレスアレ
イ２７の初回用フィールドについては、実施例１と同様
である。

【００４３】プリフェッチアドレス増分選択回路７１内
の内側ループ長レジスタ８０には、内側ループ長が格納
される。内側ループ長は通例、プロセッサ１が内側ルー
プ実行を行う際に、ループカウントレジスタ７に設定さ
れる値と同一である。内側ループカウントレジスタ８１
にも内側ループ長が、内側ループ長レジスタ８０設定時
に設定される。

【００４４】プリフェッチ制御回路１２内のプリフェッ
チ配列数レジスタ３１に関しては実施例１と同様であ
り、プリフェッチアドレスアレイ２７に設定された配列
の種類の数を格納する。プリフェッチカウントレジスタ
３２に格納する値は２重ループの総実行回数、すなわ
ち、内側ループ長×外側ループ長の値を格納する。プリ
フェッチ一時停止回路１３内のループサイクル数レジス
タ５１に格納する値も実施例１と同様であり、プリフェ
ッチの対象となるループ１回分の静的な実行サイクル数
を格納する。プリフェッチ先行サイクル数指定レジスタ
５２に関しても実施例１と同様である。そして、プリフ
ェッチ制御回路１２内のプリフェッチ起動レジスタ３３
に値「１」を格納すると、以上で設定したプリフェッチ
情報に基づいてプリフェッチが起動される点も実施例１
と同様である。

【００４５】本実施例においては、プリフェッチリクエ
ストの生成方法のみが第１の実施例と異なり、プリフェ
ッチ制御回路１２、プリフェッチ一時停止回路１３の構
成、動作については第１の実施例と同様であるのでこれ
らの説明は省略し、以下ではプリフェッチリクエスト生
成回路７０とプリフェッチアドレス増分選択回路７１の
動作についてのみ説明を行う。プリフェッチリクエスト
生成回路７０において、プリフェッチの対象となる配列
の情報は前述のごとく、プリフェッチに先立ってプリフ
ェッチアドレスアレイ２７に格納される。プリフェッチ
アドレスアレイ２７に格納されているどのエントリにつ
いてプリフェッチを発行するかは、信号線Ｌ２０を介し
てプリフェッチ制御回路１２より指定される。これは実
施例１と同様である。該指定されたエントリから読み出
されたアドレス増分フィールド１とアドレス増分フィー
ルド２の値はセレクタ２８に入力され、プリフェッチア
ドレス増分選択回路７１からの信号線Ｌ２３の値によっ
て選択されて加算器２２に入力される。加算器２２に入
力されて以降は、実施例１と同様の動作である。

【００４６】信号線Ｌ２３はプリフェッチアドレス増分
選択回路７１から以下のように生成される。プリフェッ
チアドレス増分選択回路７１には、プリフェッチ制御回
路１２から信号線Ｌ２１が入力される。信号線Ｌ２１は
実施例１で解説したように、内側ループ１回分のプリフ
ェッチリクエスト生成を信号線Ｌ２０を介してプリフェ
ッチリクエスト生成回路７０に指示する度に値「１」が
出力される。信号線Ｌ２１が値「１」を取ると、減算器
８２は内側ループカウントレジスタ８１に格納された値
をデクリメントする。該デクリメントされた値は比較器
８３に入力され、値「０」と比較される。比較結果が等
しい場合には、セレクタ８４は内側ループ長レジスタ８
０の値を選択し、等しくない場合には、該デクリメント
された値を選択し、選択された値を内側ループカウント
レジスタ８１に格納する。該比較結果が等しい場合に
は、信号線Ｌ２３を介して、プリフェッチリクエスト生
成回路７０においてアドレス増分フィールド２の値がセ
レクタ２８によって選択され、該比較結果が等しくない
場合には、アドレス増分フィールド１の値がセレクタ２
８によって選択される。このように信号線Ｌ２３は内側
ループ長に相当する回数の内側ループの実行完了を示し
ており、この情報によってプリフェッチリクエスト生成
回路７０は、アドレス増分を切り換える。

【００４７】以上のようにして、本実施例では２重ルー
プに対応したプリフェッチアドレスを自動的に生成する
ことができ、したがって２重ループの実行においてもプ
ロセッサ１はループ実行の初回のメモリレイテンシ以外
のレイテンシを隠蔽することができる。なお、本実施例
では主記憶（図示せず）から読み出したデータをキャッ
シュ（図示せず）に格納すると仮定したが、キャッシュ
以外のプリフェッチデータを格納するための、キャッシ
ュに類似したバッファであっても構わない。また、プリ
フェッチ一時停止回路１３が一時停止制御に用いるルー
プカウントレジスタ７を、プロセッサ１がループ制御に
用いるレジスタとは別個にプリフェッチ動作専用に設け
ても問題ない。さらに、信号線Ｌ２のための情報を生成
する命令は、プロセッサ１がループ制御に用いる命令と
は別個にプリフェッチ動作専用に設けても問題ない。

【００４８】＜実施例３＞次に、本発明の第３の実施例
を説明する。本実施例は第１の実施例の変形であり、第
２の実施例とは別の形の複雑なループに対しても効率よ
くプリフェッチを行うためにプリフェッチ機構を提供す
ることを目的とする。具体的には異なる複数の１重ルー
プが連続して実行される場合に対して効率よくプリフェ
ッチを行わせることを目的とする。

【００４９】図８は本発明の第３の実施例であるプリフ
ェッチ機構のシステム構成図である。図８中、図１と同
一の参照番号を持つ構成要素は第１の実施例の場合と同
じ機能を持つ。ここでは図１と異なる構成要素について
のみ説明を行う。図８中、１５はプロセッサ（ＰＥ）、
７２はプリフェッチ制御回路、７３はプリフェッチ上位
制御回路、Ｌ２５からＬ２９は信号線である。図ではプ
ロセッサ１５内部に命令レジスタ（ＩＲ）４、命令デコ
ーダ６がプロセッサ１各々１台のみ図示してあるが、複
数でもかまわない。すなわち、１サイクルに複数命令を
実行可能なスーパースカラ方式のプロセッサでもかまわ
ない。

【００５０】次に、このように構成された本システムの
動作について、図８を用いて説明する。命令の読み出し
等の動作は第１の実施例と同様であるので省略し、ここ
では第１の実施例との相違点である、連続する１重ルー
プに対するプリフェッチ動作を行う場合について、その
処理の経過をプリフェッチリクエスト生成回路１１、プ
リフェッチ制御回路７２、プリフェッチ上位制御回路７
３、プリフェッチ一時停止回路７４について説明する。

【００５１】図９はプリフェッチ制御回路７２の構成図
である。図９中、９０はプリフェッチアドレスアレイ先
頭エントリ指定レジスタ、９１は加算器であり、それ以
外の構成要素は図１と同一の参照番号を持ち、第１の実
施例の場合と同じ機能を持つ。図１０はプリフェッチ上
位制御回路７３の構成図である。図１０中、１００はプ
リフェッチ配列アレイ、１０１はプリフェッチ起動レジ
スタ、１０２は減算器、１０３は論理和回路、Ｌ４０は
信号線である。図１１はプリフェッチ配列アレイ１００
の構成を示している。プリフェッチ配列アレイ１００は
複数のエントリから成り、各々のエントリは、有効フィ
ールド、先頭エントリ指示フィールド、末尾エントリ指
示フィールド、ループ長指示フィールド、ループサイク
ル数指示フィールドの５つのフィールドから成る。図１
４はプリフェッチ一時停止回路７４の構成図である。図
１４中、Ｌ３０は信号線であり、それ以外の構成要素は
図１と同一の参照番号を持ち、第１の実施例の場合と同
じ機能を持つ。

【００５２】本実施例における、連続する１重ループの
プリフェッチのために必要なプリフェッチの初期情報を
以下に解説する。まず、プリフェッチの対象となるルー
プに関して、それらループ内の配列について、その先頭
アドレスとアドレス増分をプリフェッチアドレスアレイ
２０に設定する。設定は、連続する複数のループについ
てまとめて行ってよい。このとき、同じループ内の配列
については、プリフェッチアドレスアレイ２０の連続し
たエントリに設定を行う。さらに、各々のループについ
て、ループ内の配列のアドレス情報をセットしたプリフ
ェッチアドレスアレイ２０のエントリの先頭と末尾を、
プリフェッチ上位制御回路７３内のプリフェッチ配列ア
レイ１００の先頭エントリ指示フィールドと末尾エント
リ指示フィールドに設定する。また、そのループのルー
プ長をループ長指示フィールドに、ループ１回分の静的
な実行サイクル数をループサイクル数指示フィールドに
設定する。プリフェッチ配列アレイにおいて配列情報が
設定されたエントリの有効フィールドには値「１」が設
定される。なお、プロセッサ１の初期状態においては、
全ての有効フィールドには値「０」が設定される。残る
ループに関しては、プロセッサ１がループ実行を行っ
て、設定されたプリフェッチを終了した後、プリフェッ
チアドレスアレイ２０の開放されたエントリ、および、
プリフェッチ配列アレイ１００に対して上記と同様行
う。詳しくは、後述する。なお、プリフェッチアドレス
アレイ２０の初回用フィールド、プリフェッチポインタ
レジスタ３０、プリフェッチ先行サイクル数指定レジス
タ５２については、実施例１と同様である。

【００５３】上記初期設定が終了した後、プリフェッチ
起動レジスタ１０１に値「１」を格納すると、以上で設
定したプリフェッチ情報に基づいてプリフェッチが起動
される。起動されると、まず、プリフェッチ配列アレイ
１００において最も過去に設定された有効なエントリの
内容が読み出され、先頭エントリ指示フィールドの値は
−１され（図示せず）、この−１された値は信号線Ｌ２
５を介してプリフェッチ制御回路７２内のプリフェッチ
アドレスアレイ先頭エントリ指定レジスタレジスタ９０
に格納される。末尾エントリ指示フィールドの値は減算
器１０２によって先頭エントリ指示フィールドの値から
−１した値が減ぜられた後、信号線Ｌ２６を介してプリ
フェッチ制御回路７２内の、プリフェッチ配列数レジス
タ３１に格納される。ループ長指示フィールドの値は信
号線Ｌ２７を介してプリフェッチ制御回路７２内のプリ
フェッチカウントレジスタ３２に格納される。ループサ
イクル数指示フィールドの値は信号線Ｌ３０を介してプ
リフェッチ一時停止回路７４内のループサイクル数レジ
スタ５１に格納される。

【００５４】プリフェッチリクエスト生成回路１１の動
作は実施例１と同様であり、プリフェッチ一時停止回路
７４の動作も実施例１のプリフェッチ一時停止回路１３
と同様であるので、以下では、プリフェッチ上位制御回
路７３、プリフェッチ制御回路７２について説明を行
う。プリフェッチ制御回路７２の動作も大部分が実施例
１のプリフェッチ制御回路１２と同様であり、以下では
異なる部分についてのみ説明を行う。本実施例では、信
号線Ｌ２０の出力が加算器３４の出力にプリフェッチア
ドレスアレイ先頭エントリ指定レジスタレジスタ９０の
値を加算器９１で加算している。ただし、加算器９１に
おける加算においては、加算の結果がプリフェッチアド
レスアレイ２０のエントリ数の値を超えた場合には、該
結果から該プリフェッチアドレスアレイ２０のエントリ
数を減じるものとする。

【００５５】また、比較器３８の出力結果は信号線Ｌ２
９を介してプリフェッチ上位制御回路７３内のプリフェ
ッチ起動レジスタ１０１に入力される。比較器３８にお
ける比較が値「０」と等しい場合、つまりあらかじめ設
定したループ長の分だけのプリフェッチ動作が行われた
場合には、プリフェッチ配列アレイ１００の１つのエン
トリにおけるプリフェッチ動作が完了したことを示す。
この場合、フェッチ配列アレイ１００において最も古い
エントリ、すなわち、プリフェッチ動作の完了したエン
トリの有効フィールドに値「０」が格納され、次に古い
有効なエントリの内容が読み出され、先頭エントリ指示
フィールドの値から−１された値は信号線Ｌ２５を介し
てプリフェッチ制御回路７２内のプリフェッチアドレス
アレイ先頭エントリ指定レジスタレジスタ９０に格納さ
れ、末尾エントリ指示フィールドの値は減算器１０２に
よって先頭エントリ指示フィールドの値から−１した値
が減ぜられた後、信号線Ｌ２６を介してプリフェッチ制
御回路７２内の、プリフェッチ配列数レジスタ３１に格
納され、ループ長指示フィールドの値は信号線Ｌ２７を
介してプリフェッチ制御回路７２内のプリフェッチカウ
ントレジスタ３２に格納され、ループサイクル数指示フ
ィールドの値は信号線Ｌ３０を介してプリフェッチ一時
停止回路７４内のループサイクル数レジスタ５１に格納
される。そして、プリフェッチ動作がこれらのプリフェ
ッチ情報に基づいて継続される。

【００５６】さて、このようにして、プリフェッチ動作
を行って全てのエントリのプリフェッチが完了した場
合、各有効フィールドの値が信号線Ｌ４０を介して論理
和回路１０３に入力されており、この結果、該論理和回
路１０３の出力が値「０」となり、これがプリフェッチ
起動レジスタ１０１に設定されて、一連のプリフェッチ
動作が終了する。

【００５７】さて、このようにして構成されたプリフェ
ッチ機構の動作の１例を図１２および図１３を用いて説
明する。図１２の左側に動作例のためのプログラムが示
されており、右側にはこのプログラムにプリフェッチ情
報の設定を行う命令を挿入した結果が示されている。プ
リフェッチ情報の設定は、「ｐｒｅｆｅｔｃｈ」という
オペコードにプリフェッチ対象となる配列名をオペラン
ドとして、発行タイミングのみを示している。図１２
中、（１）から（６）まで番号を付加した文について、
その文を実行後のプリフェッチ配列アレイ１００および
プリフェッチアドレスアレイ２０の状態を図１３に示し
ている。ここで、プリフェッチ配列アレイ１００のエン
トリ数は３であり、プリフェッチアドレスアレイ２０の
エントリ数は８であると仮定している。また、プリフェ
ッチ配列アレイ１００において、ループサイクル数指示
フィールドは省略して図示していない。

【００５８】において、最初のループのために配列
Ａ、Ｂ、Ｃのプリフェッチ情報を設定している。すなわ
ち、プリフェッチ配列アレイ１００の先頭エントリに、
プリフェッチアドレスアレイ２０のエントリ１番から３
番を使用し、ループ長が１００であることを登録してい
る。そして、プリフェッチアドレスアレイ２０のエント
リ１番には配列Ａの先頭アドレスと、そのアドレス増分
「８」を、エントリ２番には配列Ｂの先頭アドレスと、
そのアドレス増分「８」を、エントリ３番には配列Ｃの
先頭アドレスと、そのアドレス増分「８」を登録してい
る。

【００５９】引き続いて行われるにおいて、次のル
ープのための配列Ｄ、Ｅ、Ｆのプリフェッチ情報を、最
初のループの実行に先立って設定している。プリフェッ
チ配列アレイ１００の２番目のエントリに、プリフェッ
チアドレスアレイ２０のエントリ４番から６番を使用
し、ループ長が１５０であることを登録している。そし
て、プリフェッチアドレスアレイ２０の対応するエント
リに配列Ｄ、Ｅ、Ｆのプリフェッチ情報を登録してい
る。

【００６０】では最初のループの実行が終了し、
（２）においてはプリフェッチ配列アレイ１００の先頭
エントリに登録されていた配列Ａ、Ｂ、Ｃのプリフェッ
チ情報が完了／抹消され、代わって配列Ｄ、Ｅ、Ｆのプ
リフェッチ情報が先頭エントリに移動している。配列
Ａ、Ｂ、Ｃのプリフェッチ情報が完了に引き続いて、配
列Ｄ、Ｅ、Ｆのプリフェッチ動作が起動される。これに
より、の後に配列Ｄ、Ｅ、Ｆのプリフェッチ情報の
設定／起動を行うよりも早期に配列Ｄ、Ｅ、Ｆのプリフ
ェッチ動作を開始できる。このようにして、ループが連
続している場合の性能向上を達成できる。

【００６１】において、配列Ｕ、Ｖ、Ｗのプリフェ
ッチ情報の設定が行われる。このとき、プリフェッチ配
列アレイ１００のエントリ７番、８番、１番に登録を行
っている。このように、プリフェッチ配列アレイ１００
のエントリの８番から１番は連続したエントリとして用
いられる。また、エントリ１番はにおいて配列Ａの
プリフェッチ情報を格納していたが、の段階では既
に配列Ａのプリフェッチ動作を完了しているため、
では再利用することが可能な状態となっている。同様
に、においてはプリフェッチアドレスアレイ２０の
エントリ４番から６番に登録されていた配列Ｄ、Ｅ、Ｆ
のプリフェッチは完了してしており、で配列Ｘ、
Ｙ、Ｚを登録する際にエントリ４番の再利用を行ってい
る。

【００６２】このように、プリフェッチ配列アレイ１０
０、プリフェッチアドレスアレイ２０のエントリの再利
用を行うことができるため、プリフェッチアドレスアレ
イ２０のエントリ数を越える配列を使用するループに対
しても、本実施例であればプリフェッチ動作を行うこと
が可能となる。すなわち、該エントリ数を越える配列を
使用するループを、小ループに分割してプリフェッチを
行えばよい。このとき、連続する２個のループで使用す
る配列数をプリフェッチアドレスアレイ２０のエントリ
数以内とすれば、図１２、図１３で説明した例のように
プリフェッチを使用することが可能となる。

【００６３】以上示したように、本実施例によって複数
のループ実行に対して複数のプリフェッチ情報の設定
を、プリフェッチ配列アレイ１００およびプリフェッチ
アドレスアレイ２０のエントリ数の範囲内で前もって行
うことが可能になる。これにより、該複数のプリフェッ
チ情報は各々が終了する毎に連続して動作を行うことが
可能になり、複数のループ実行を切れ目無く動作させる
ことが可能になる。また、プリフェッチアドレスアレイ
２０のエントリ数を越える配列を使用するループに対し
ても、小ループに分割してプリフェッチを行うことで、
効率よくプリフェッチ動作を使用することが可能とな
る。

【００６４】なお、本実施例では主記憶（図示せず）か
ら読み出したデータをキャッシュ（図示せず）に格納す
ると仮定したが、キャッシュ以外のプリフェッチデータ
を格納するための、キャッシュに類似したバッファであ
っても構わない。また、プリフェッチ一時停止回路７４
が一時停止制御に用いるループカウントレジスタ７を、
プロセッサ１がループ制御に用いるレジスタとは別個に
プリフェッチ動作専用に設けても問題ない。さらに、信
号線Ｌ２のための情報を生成する命令は、プロセッサ１
がループ制御に用いる命令とは別個にプリフェッチ動作
専用に設けても問題ない。また、本実施例と実施例２を
組み合わせて、連続する２重ループ、または連続する２
重ループと１重ループに対してプリフェッチを行う機構
を構築することが出来ることは云うまでもない。

【００６５】

【発明の効果】本発明によれば、マイクロプロセッサに
組み込んだプリフェッチ機構によって、マイクロプロセ
ッサが必要とするデータを主記憶からタイミングよくキ
ャッシュに格納することが可能となり、マイクロプロセ
ッサが演算命令を停止することなく動作することができ
る。また、マイクロプロセッサの実行に同期して過剰な
プリフェッチを抑制することができるため、プリフェッ
チ動作とマイクロプロセッサの命令実行の競合を抑止
し、マイクロプロセッサが持つ演算能力を最大限に発揮
させることができる。さらに、２重ループや連続する１
重ループなど多様なパターンのループに対して最適なプ
リフェッチが可能となる。

【図面の簡単な説明】

【図１】本発明の第１の実施例に係るプリフェッチ機構
の構成を示す図である。

【図２】本発明の第１の実施例に係るプリフェッチ機構
におけるプリフェッチアドレスアレイの構成を示す図で
ある。

【図３】本発明の第１の実施例に係るプリフェッチ機構
の動作例を示す図である。

【図４】本発明の第２の実施例に係るプリフェッチ機構
の構成を示す図である。

【図５】本発明の第２の実施例に係るプリフェッチ機構
におけるプリフェッチリクエスト生成回路の構成を示す
図である。

【図６】本発明の第２の実施例に係るプリフェッチ機構
におけるプリフェッチアドレス増分選択回路の構成を示
す図である。

【図７】本発明の第２の実施例に係るプリフェッチ機構
におけるプリフェッチアドレスアレイの構成を示す図で
ある。

【図８】本発明の第３の実施例に係るプリフェッチ機構
の構成を示す図である。

【図９】本発明の第３の実施例に係るプリフェッチ機構
におけるプリフェッチ制御回路の構成を示す図である。

【図１０】本発明の第３の実施例に係るプリフェッチ機
構におけるプリフェッチ上位制御回路の構成を示す図で
ある。

【図１１】本発明の第３の実施例に係るプリフェッチ機
構におけるプリフェッチ配列アレイの構成を示す図であ
る。

【図１２】本発明の第３の実施例に係るプリフェッチ機
構の動作例の対象となるサンプルプログラムを示す図で
ある。

【図１３】本発明の第３の実施例に係るプリフェッチ機
構の動作例を示す図である。

【図１４】本発明の第３の実施例に係るプリフェッチ機
構におけるプリフェッチ一時停止回路の構成を示す図で
ある。

【符号の説明】

１プロセッサ（ＰＥ）２命令制御３プログラムカウンタ（ＰＣ）４命令レジスタ（ＩＲ）５汎用レジスタ（ＧＲ）６命令でコーダ７ループカウントレジスタ８減算器９データ書き込み制御回路１０プリフェッチ情報設定回路１１、７０プリフェッチリクエスト生成回路１２、７２プリフェッチ制御回路１３、７４プリフェッチ一時停止回路７１プリフェッチアドレス増分選択回路７３プリフェッチ上位制御回路

Claims

【特許請求の範囲】

【請求項１】ループ実行のための制御命令を有し、主
記憶またはキャッシュへのデータアクセス命令を実行可
能なマイクロプロセッサにおいて、該データアクセス命令を効率的に行うためのプリフェッ
チ発行のために、プリフェッチ用のデータアドレス、お
よび、アドレス増分を、それぞれ複数組設定可能なレジ
スタアレイを備え、該レジスタアレイに設定されたアドレス情報に基づい
て、該マイクロプロセッサの命令実行とは非同期にプリ
フェッチのためのアドレスを生成し、前記主メモリにプ
リフェッチ発行を行う手段と、プリフェッチ発行回数と前記マイクロプロセッサの命令
実行に伴うループ制御のためのループカウント値を引き
算し、該引き算結果を予め設定した値と比較し、該引き
算結果が予め設定した値を越えた場合に前記プリフェッ
チ発行を行う手段の動作を中止し、プリフェッチ発行を
一時停止する手段とを備えることを特徴とするプリフェ
ッチ機構。
【請求項２】請求項１記載のプリフェッチ機構におい
て、前記プリフェッチ用のレジスタアレイは、プリフェッチ
用のデータアドレス１つにつき、アドレス増分を２種類
以上設定可能とし、前記プリフェッチ発行を行う手段は、プリフェッチ発行
回数を計数する２種類以上のカウントレジスタを設け、
該カウントレジスタの計数値に依存して、該２種類以上
設定されたアドレス増分を選択してプリフェッチのため
のアドレス生成を行うことを特徴とするプリフェッチ機
構。
【請求項３】請求項１記載のプリフェッチ機構におい
て、前記レジスタアレイに設定されたプリフェッチのための
アドレス情報をグループ化して扱うためのプリフェッチ
配列アレイを備え、該プリフェッチ配列アレイは該各グ
ループ化されたプリフェッチのためのアドレス情報に対
応して、プリフェッチ回数を設定するためのループ長指
示フィールドを有し、前記プリフェッチ発行を行う手段は、前記プリフェッチ
配列アレイにおいてグループ化された個々のグループの
示す前記レジスタアレイのアドレス情報に基づいて、該
グループに対応する前記ループ長指示フィールドの示す
プリフェッチ回数だけプリフェッチ発行を行い、該プリ
フェッチのプリフェッチ発行の実行の後、前記プリフェ
ッチ配列アレイに設定された次のグループに関して同様
のプリフェッチ発行を行うことを特徴とするプリフェッ
チ機構。
【請求項４】請求項１乃至請求項３のいずれかの請求
項記載のプリフェッチ機構であって、プリフェッチ発行に際し主記憶から読み出したデータ
を、プリフェッチ専用データを格納するためのプリフェ
ッチバッファへ格納することを特徴とするプリフェッチ
機構。
【請求項５】請求項１乃至請求項４のいずれかの請求
項記載のプリフェッチ機構であって、プリフェッチ発行に際し前記マイクロプロセッサは、プ
リフェッチを行うループに関し、ループ制御のための命
令またはループカウントを行うレジスタのいずれかを、
プリフェッチ専用として設けることを特徴とするプリフ
ェッチ機構。