JP2001195302A

JP2001195302A - 命令ループ・バッファ

Info

Publication number: JP2001195302A
Application number: JP2000362477A
Authority: JP
Inventors: Timothy D Anderson; ディ、アンダーソンティモシイ
Original assignee: Texas Instruments Inc
Current assignee: Texas Instruments Inc
Priority date: 1999-11-30
Filing date: 2000-11-29
Publication date: 2001-07-19
Also published as: DE60027395D1; DE60027395T2; EP1107110A3; EP1107110B1; EP1107110A2

Abstract

(57)【要約】【課題】１次のプログラム・キャッシュ・メモリおよ
び命令バッファ・サブシステム４０を有する、ディジタ
ル信号プロセッサのような命令プログラマブル・プロセ
ッサを含む電子システムを提供する。【解決手段】サブシステム４０は、タグＲＡＭ５４お
よびタグ比較器５２と組み合わせたプログラム・データ
ＲＡＭ６０と、ＲＡＭ６０と並列なループ・キャッシュ
・サブシステム６２とを含む。命令フェッチ・ユニット
１０は、フェッチ番地をタグ比較器５２およびサブシス
テム６２に供給する。サブシステム６２は、基準番地か
ら始まるフェッチ番地のシーケンスに対応する命令オプ
コードを記憶するための分岐キャッシュ・レジスタ・フ
ァイル７６を含む。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、集積回路の分野に
関し、更に詳細には、マイクロプロセッサおよびディジ
タル信号プロセッサのアーキテクチャに関する。

【０００２】

【従来の技術】当該分野では良く知られているように、
集積回路製造技術の進歩および回路設計ならびに回路ア
ーキテクチャの進歩は、広範囲の電子システムにおいて
命令プログラマブル論理装置の幅広い展開を可能にして
きた。最近のディジタル・システムの範囲は、寸法の点
では無線電話やパーソナル・ディジタル・アシスタント
（ＰＤＡ）のようなハンドヘルド・システムから大型コ
ンピュータ・システムまで広がり、機能の点では埋込み
型制御デバイスからスーパーコンピュータ応用製品まで
広がっている。そのようなシステムに含まれるプログラ
マブル論理装置は、マイクロプロセッサのような汎用装
置か、ディジタル信号プロセッサ（ＤＳＰ）のようなあ
る種の命令を実行するのに特に適した装置である。以下
の説明では、これらのタイプの装置は、一般的に、中央
処理ユニットすなわちＣＰＵとして参照される。

【０００３】当該分野では基本であるように、ＣＰＵ
は、データ・オペランドおよび結果を記憶するための、
また、所望のデータ処理を命令するプログラム命令を記
憶するためのランダム・アクセス・メモリ（ＲＡＭ）と
関連づけて実現される。比較的大型で複雑なシステムで
は、必要とされるメモリ資源は、オンチップ・メモリ資
源が必然的に限られることを考慮に入れて、（ＣＰＵに
関連して）外部ＲＡＭを利用することを要求する。もち
ろん、外部メモリの使用は、一般的に、外部メモリ・ア
クセスに必要なオーバーヘッド動作のために、また、外
部メモリとＣＰＵとの間のデータの通信における帯域幅
制約のために、性能を低下させる。また、外部メモリの
使用に消費される電力は、一般的に、ＣＰＵのオンチッ
プ・メモリによって必要とされるものよりも遙かに大き
い。これは、主として、チップ間信号駆動で必要とされ
るためである。

【０００４】この結果、多くの最近のマイクロプロセッ
サおよびＤＳＰアーキテクチャは、性能を改善するとと
もにシステム全体の電力消費を減少するためにキャッシ
ュ・メモリ・システムを用いる。基本的には、キャッシ
ュ・メモリは、物理的にも（すなわち、オンチップか、
「バックサイド」キャッシュ・バスのような特別な短距
離バスによって接続される）、論理的にも（すなわち、
汎用インタフェース回路，バス・マスタリングなどの使
用が必要でない）、ＣＰＵに「より近い」小型高速メモ
リによって実現される。キャッシュ・メモリは、ある仮
定に基づいて、ＣＰＵがそれに関してアクセスの比較的
高い頻度を有するようなデータおよび命令コードを記憶
する。例えば、多くのキャッシュ・メモリは、データ・
オペランドおよび命令オプコード（opcode）がしばしば
逐次的にアクセスされるという仮定に基づいている。こ
の場合、関連するＣＰＵは、フェッチされたメモリ番地
に基づいてブロック（すなわち、キャッシュ・ライン）
単位でキャッシュ・メモリをロードする。キャッシュへ
のアクセスは、一般的に、フェッチされるべきデータ・
オペランドまたは命令のメモリ番地をキャッシュの現在
エントリの番地と比較してフェッチの対象がキャッシュ
から取り出されるべきかその代わりに外部メモリからア
クセスされるべきかを決定するＣＰＵによって、実行さ
れる。キャッシュ・メモリの多重レベルへの割り当てと
ともにキャッシュ・メモリの記憶，アクセスおよび更新
に関する多くのやり方が、当業者によく知られている。

【０００５】多くの最近のＣＰＵアーキテクチャ、特
に、データとプログラムのメモリとが互いに分離してい
るハーバード・アーキテクチャ・クラスのものは、、デ
ータ用と命令用とで別のキャッシュ・メモリを含んでい
る。事実、ハーバード・アーキテクチャという用語は、
今では、１個のメイン・メモリを有するが別々のデータ
および命令キャッシュを有するＣＰＵに関してしばしば
用いられる。データおよび命令キャッシュのこの分離
は、異なるデータ・パスと命令パイプラインの多分異な
るポイントとを活用しており、それらを介して命令およ
びデータ・オペランドがフェッチされ、したがって、少
なくともより低レベル（例えば、レベル１キャッシュ）
での効率的なキャッシュ利用を提供する。

【０００６】

【発明が解決しようとする課題】分離命令キャッシュを
提供する場合でも、命令キャッシュにどの命令を記憶す
べきかの決定は、キャッシュ・「ヒット」率（すなわ
ち、そのキャッシュから行われるフェッチのパーセンテ
ージ）を最大化する方向への努力で変わる。もちろん、
高いキャッシュ・ヒット率はＣＰＵの性能およびシステ
ムの電力効率を向上させる。しかし、キャッシュ・ヒッ
ト率以外の他の因子はこれに関して重要である。例え
ば、メモリからキャッシュへの再ロードが頻繁に行われ
れば大きな電力が消費される。

【０００７】背景として、従来のＣＰＵは、その命令セ
ットに「反復ブロック」命令を含み、それに応答して、
ＣＰＵは指定されたブロックで命令ループ・バッファを
ロードする。そのような従来のＣＰＵの一例は、テキサ
ス・インスツルメンツ社から市販されているディジタル
信号プロセッサの３２０Ｃ５４ｘファミリーである。

【０００８】命令キャッシュを利用する別の従来方式が
米国特許第５，５７９，４９３号に述べられており、そ
こでは、ＣＰＵによって実行されるプログラムは繰り返
し実行されるべきプログラムのモジュールを指定する
「反復」命令を含む。この米国特許第５，５７９，４９
３号では、反復される命令ブロックは命令バッファに記
憶され、指定された命令がメモリからではなく命令バッ
ファからフェッチできるようになっており、それにより
電力を節約している。しかし、この方式でも特別な命令
（「反復」命令）の使用が必要であり、このことは、も
ちろん、この機能の使用をプログラマに対して不透明に
している。

【０００９】更なる背景として、別の従来の命令キャッ
シュ方式が米国特許第４，６２６，９８８号に述べられ
ている。この方式は、各フェッチされた命令を命令フェ
ッチ・ルックアサイド（look-aside）・バッファに記憶
する。ループの実行時には、命令フェッチ・ユニットは
ループ・モードに入って、そこでは、命令はバッファか
らフェッチされる。しかし、各フェッチされた命令は、
ループ・モードに入る可能性を考慮して、バッファに記
憶される必要がある。

【００１０】本発明の目的は、命令メモリへのアクセス
回数が最小化された、マイクロプロセッサやディジタル
信号プロセッサのような命令プログラマブル論理装置用
のアーキテクチャを提供することにある。

【００１１】本発明の他の目的は、オンチップ命令バッ
ファが小型プログラム・ループ用の命令の記憶に効率的
に使用されるそのような装置を提供することにある。

【００１２】本発明の別の目的は、そのような命令バッ
ファがプログラマに透明であるやり方で自動的に使用さ
れるそのような装置を提供することにある。

【００１３】本発明のさらに別の目的は、ネストされた
プログラム・ループ用に命令バッファを使用できるその
ような装置を提供することにある。

【００１４】本発明のその他の目的および利点について
は、以下の説明を図面と一緒に参照することによって当
業者には明らかとなろう。

【００１５】

【課題を解決するための手段】本発明は、好ましくは中
央処理ユニット（ＣＰＵ）とオンチップに組み込まれ、
最下位レベル命令キャッシュ・メモリと並列になったル
ープ・キャッシュによって実現される。そのループ・キ
ャッシュでは、基準番地レジスタは、命令が分岐キャッ
シュ・レジスタ・ファイルのエントリに記憶される一連
のフェッチ番地の基準番地を記憶する。有効ビットは、
対応するレジスタ・ファイル・エントリが有効な命令を
含むかどうかを示すために、分岐キャッシュ・レジスタ
・ファイルの各エントリに対して保持される。命令フェ
ッチを実行する際には、マルチプレクサは、フェッチさ
れた命令が分岐キャッシュ・レジスタ・ファイルに有効
に存在するかどうかに依存して、命令キャッシュ・メモ
リの出力および分岐キャッシュ・レジスタ・ファイルの
出力のいずれかを選択し、制御論理も分岐キャッシュ・
レジスタ・ファイルのそれに関する命令キャッシュ・メ
モリからの読出しを禁止（ディスエーブル）する。本発
明の一態様によれば、分岐キャッシュ・レジスタ・ファ
イルは、命令レジスタ・ファイルの現在の内容をミスす
る逆方向分岐の場合にロードされる。本発明の別の態様
によれば、分岐キャッシュ・レジスタ・ファイルは、介
在する逆方向分岐なしに二度引き続いて発生する逆方向
分岐から始まるループに対してロードされる。

【００１６】

【発明の実施の形態】以下の説明を参照することによっ
て当業者には明らかなように、本発明は、幅広い命令プ
ログラマブル論理装置およびそのような論理装置を含む
システムに関連して実現される。そのような論理装置の
一例はディジタル信号プロセッサ（ＤＳＰ）であり、そ
れに関連して本発明の好適な実施の形態について説明す
る。しかし、当業者には容易に理解されるように、本発
明は、汎用マイクロプロセッサやその他の特定用途向け
プロセッサ（例えば、グラフィック・プロセッサおよび
命令プログラマブル・カスタム論理機能など）にも有利
に実現される。もちろん、本発明は、以下に請求される
ように、それらおよびその他の代替実現を含むのに十分
広いスコープを有している。

【００１７】図１は、本発明の好適な実施の形態に従っ
て構築されたディジタル信号プロセッサ（ＤＳＰ）２を
含めた電子システム１の構成を示すブロック図である。
この例では、ＤＳＰ２は、二重データ・パスの中央処理
ユニット３を含めた３２ビット・８ウエイ・ＶＬＩＷパ
イプライン方式プロセッサとして実現されている。

【００１８】中央処理ユニット３は、２つのデータ・パ
ス上に、パイプライン方式で同時命令実行を開始し制御
するための命令フェッチ・ユニット１０，命令ディスパ
ッチ・ユニット１１および命令デコード・ユニット１２
を含む。機能的には、命令フェッチ・ユニット１０，命
令ディスパッチ・ユニット１１および命令デコード・ユ
ニット１２は、プログラム・メモリから命令を呼び出し
（以下に詳述する）、それらの命令をデコードし、制御
信号をデータ・パスの機能ユニットに分配して、それら
の命令を実行させる。８個の３２ビット命令が各命令サ
イクルで実行され、中央処理ユニット３の２つのデータ
・パスの各々で同時に処理が発生する。

【００１９】中央処理ユニット３の第１のデータ・パス
は、この例ではＬ１ユニット２２，Ｓ１ユニット２３，
Ｍ１ユニット２４およびＤ１ユニット２５と名付けられ
た４個の機能実行ユニットを含む。これらの実行ユニッ
ト２２，２３，２４，２５はそれぞれレジスタ・ファイ
ル２１と関連して動作可能である。第２のデータ・パス
も同様に構成されており、それぞれレジスタ・ファイル
３１に結合された、Ｌ２ユニット３２，Ｓ２ユニット３
３，Ｍ２ユニット３４およびＤ２ユニット３５と名付ら
れけた４個の機能実行ユニットを含む。この例でのレジ
スタ・ファイル２１，３１はそれぞれ１６個の３２ビッ
ト汎用レジスタを含み、それらは命令に依存してデータ
用としてデータ番地ポインタとしてまたは条件レジスタ
として使用できる。

【００２０】本発明のこの例示の実施の形態では、Ｌ機
能ユニット２２，３２は、３２ビットおよび４０ビット
の演算および比較動作とビットおよび正規化カウントと
３２ビット論理演算とのような動作を実行するための演
算および論理ユニットである。Ｓ機能ユニット２３，３
３は、３２ビットの演算および論理動作とシフトおよび
ビット・フィールド操作と定数発生と分岐と制御レジス
タ１３との間でのレジスタ転送とを実行するための演算
および論理ユニットである。Ｍ機能ユニット２４，３４
は１６×１６ビット乗算器であり、それらは、乗算およ
び累算を含むディジタル信号処理動作において特に有用
である。Ｄ機能ユニット２５，３５は、３２ビットの加
算および減算と３２ビットの線形および環状番地計算と
を実行するための演算ユニットである。また、図１で示
唆されるように、中央処理ユニットは、Ｌ１ユニット２
２，Ｓ１ユニット２３およびＭ１ユニット２４がレジス
タ・ファイル３１からオペランドを受け取ることを許可
するとともにＬ２ユニット３２，Ｓ２ユニット３３およ
びＭ２ユニット３４がレジスタ・ファイル２１からオペ
ランドを受け取ることを許可する交差レジスタ・パスを
含む。

【００２１】中央処理ユニット３は、それの構成および
動作を制御する制御レジスタ１３および制御論理１４を
さらに含む。中央処理ユニット３は、それらの従来の機
能を制御するための、試験論理１５，エミュレーション
論理１６および割込論理１７のような特殊な機能も含
む。

【００２２】中央処理ユニット３は、本発明の好適な実
施の形態に従って構築されたＬ１Ｉキャッシュおよび命
令バッファ・システム３８によって、プログラム・メモ
リ（「命令メモリ」とも呼ばれる。）に結合されてい
る。特に、この例では、命令フェッチ・ユニット１０
は、Ｌ１Ｉキャッシュおよび命令バッファ・システム３
８に１つ以上の３２ビット番地を供給し、（例えば、２
５６ビットの命令バス上で）それらから対応命令コード
を受け取って、命令フェッチ動作を完成させる。本発明
の好適な実施の形態によるＬ１Ｉキャッシュおよび命令
バッファ・システム３８の特別な構成については、以下
に詳細に説明する。図１のＤＳＰ２では、Ｌ１Ｉキャッ
シュおよび命令バッファ・システム３８は、Ｌ２メモリ
およびユニファイド（unified）・キャッシュ４０に双
方向的に結合されている。命令コードは、Ｌ１Ｉキャッ
シュおよび命令バッファ・システム３８に存在しない場
合には、Ｌ２メモリおよびユニファイド・キャッシュ４
０から（または、を介して）フェッチされる。

【００２３】データ側では、中央処理ユニット３の２つ
のデータ・パスはそれぞれ、データ用の１次キャッシュ
として動作するＬ１Ｄデータ・キャッシュ３６に双方向
的に結合される。本発明の好適な実施の形態によれば、
Ｌ１Ｄデータ・キャッシュ３６は、例えば３２バイトの
ライン・サイズを有する２ウエイ・セット・アソシアテ
ィブ（associative）・キャッシュとして構成される。
次に、Ｌ１Ｄデータ・キャッシュ３６はＬ２メモリおよ
びユニファイド・キャッシュ４０に双方向的に結合され
る。Ｌ１Ｄデータ・キャッシュ３６でミスが発生した場
合には、Ｌ１Ｄデータ・キャッシュ３６はＬ２メモリお
よびユニファイド・キャッシュ４０から１キャッシュ・
ラインのデータを要求する。

【００２４】本発明の好適な実施の形態によるＤＳＰ２
のＬ２メモリおよびユニファイド・キャッシュ４０は、
中央処理ユニット３とオンチップに実現され、この例で
は、ソフトウエア構成されたユニファイド・メモリであ
る。選択可能な構成は、Ｌ２メモリおよびユニファイド
・キャッシュ４０内のメモリ・マップされたランダム・
アクセス・メモリ（ＲＡＭ）・セクターの寸法対２次ユ
ニファイド（すなわち、プログラムおよびデータ）・キ
ャッシュの寸法を画定する。Ｌ２メモリおよびユニファ
イド・キャッシュ４０の構成は、例えば、制御レジスタ
１３で制御ビットをセットすることによって、定義され
る。キャッシュとして構成される限り、Ｌ２メモリおよ
びユニファイド・キャッシュ４０は、付加的メモリ場所
内容とともに、Ｌ１Ｉキャッシュおよび命令バッファ３
８とＬ１Ｄデータ・キャッシュ３６とに記憶されたもの
と同じメモリ場所を同時に記憶する。この例では、Ｌ２
メモリおよびユニファイド・キャッシュ４０は、Ｌ１Ｄ
データ・キャッシュ３６を「スヌープ（snoop）」し
て、それ自身のメモリ場所の内容の修正版をそれが含ん
でいるかどうかを判定することによって、キャッシュ整
合性を確認する。

【００２５】中央処理ユニット３によるキャッシュまた
はＲＡＭアクセスがＬ２メモリおよびユニファイド・キ
ャッシュ４０に関してミスである場合には、Ｌ２メモリ
およびユニファイド・キャッシュ４０は、要求されたメ
モリ番地を拡張ＤＭＡコントローラ５に送る。拡張ＤＭ
Ａコントローラ５は、ＤＳＰ２の外部メモリ・インタフ
ェース４を介して、同期式ＳＲＡＭ，非同期式ＳＲＡＭ
または同期式ＤＲＡＭの形である外部ランダム・アクセ
ス・メモリ（ＲＡＭ）４２の必要な読出しまたは書込み
アクセスを実行する。続いて、アクセスされたメモリ場
所が、Ｌ２メモリおよびユニファイド・キャッシュ４０
に書き込まれ、また、適当なより低次のキャッシュに書
き込まれる。マルチチャンネル・バッファード・シリア
ル・ポート８₀，８₁を介して、拡張ＤＭＡコントローラ
５はまた、入力／出力装置４４₀，４４₁に関して、Ｌ２
メモリおよびユニファイド・キャッシュ４０との間、し
たがって、中央処理ユニット３との間のデータの通信を
制御する。ホスト・ポート・インタフェース７も拡張Ｄ
ＭＡコントローラ５に結合されており、それを介してホ
スト中央処理ユニット５０はＤＳＰ２と通信する。

【００２６】その他の機能も必要に応じてＤＳＰ２内に
存在する。この例では、パワー・ダウン論理６が設けら
れており、中央処理ユニット活動，周辺機器活動および
位相ロック・ループ（ＰＬＬ）・クロック同期活動を停
止して、電力消費を低減する。プログラマブル・タイマ
ー４１₀，４１₁もこの例では設けられており、ＤＳＰ２
がコントローラのような機能を実行することを許可す
る。

【００２７】図２を参照して、本発明の好適な実施の形
態によるＬ１Ｉキャッシュおよび命令バッファ３８の構
成について詳細に説明する。もちろん、Ｌ１Ｉキャッシ
ュおよび命令バッファ３８の構成の代替的な実現がこの
明細書を参照することによって当業者に明らかになるこ
とが考えられ、したがって、これらおよび他の実現方法
も本発明のスコープに包含されることが理解される。

【００２８】本発明の好適な実施の形態による図２の例
では、Ｌ１Ｉキャッシュおよび命令バッファ３８は、ル
ープ・キャッシュ６２と並列に従来の１次プログラム・
キャッシュとして配置されている。１次プログラム・キ
ャッシュ側において、Ｌ１ＩタグＲＡＭ５４は、Ｌ１Ｉ
キャッシュおよび命令バッファ３８のＬ１ＩデータＲＡ
Ｍ６０に内容が含まれるメモリ番地の部分を記憶するた
めのキャッシュ・タグ・メモリである。Ｌ１ＩタグＲＡ
Ｍ５４はタグ比較器５２に結合されている。タグ比較器
５２は、別の入力で中央処理ユニット３の命令フェッチ
・ユニット１０からのフェッチ番地を受信する。タグ比
較器５２は、命令フェッチ・ユニット１０から受信され
たフェッチ番地をＬ１ＩタグＲＡＭ５４の現在の内容と
比べて、フェッチ番地がＬ１ＩタグＲＡＭ５４に記憶さ
れたタグの１つと一致する（すなわち、Ｌ１ＩデータＲ
ＡＭ６０のキャッシュ・「ヒット」に対応する）かどう
かを判断する。タグ比較器５２は、この比較の結果をＬ
１Ｉキャッシュおよび命令バッファ３８のＬ１Ｉ制御論
理に提供する。Ｌ１Ｉ制御論理はそれに従ってＬ１Ｉデ
ータＲＡＭ６０の動作を制御する。

【００２９】Ｌ１ＩデータＲＡＭ６０は、専用プログラ
ム・キャッシュ・メモリであり、この例ではＬ１Ｉタグ
ＲＡＭ５４に記憶されたタグ番地に対応するメモリ場所
の内容を含む。Ｌ１ＩデータＲＡＭ６０の特別な命令お
よび構成は、マルチプル・ウエイ・セット・アソシアテ
ィブ・キャッシュ構成を含む任意の従来のキャッシュ・
メモリ・アーキテクチャに対応してもよい。しかし、本
発明の好適な実施の形態によれば、また、主としてディ
ジタル信号プロセッサの命令キャッシュとしてのそれの
使用のため、Ｌ１ＩデータＲＡＭ６０はダイレクト・マ
ッピングされたキャッシュである。稀に「スラッシュ
（thrash）する」小さなタイト（tight）なプログラム
・ループから構成されるというＤＳＰコードの傾向のた
め、ダイレクト・マッピングされた構成はＤＳＰアーキ
テクチャで特に有用である。例えば、Ｌ１ＩデータＲＡ
Ｍ６０は４ｋバイト容量を持ち、各々が６４バイトの６
４キャッシュ・ラインとして構成されている。この場合
には、Ｌ１ＩタグＲＡＭ５４は、６４個のタグ・エント
リ（Ｌ１ＩデータＲＡＭ６０の各キャッシュ・ラインに
対して１個）を含み、好ましくは、Ｌ１ＩタグＲＡＭ５
４は、キャッシュ・エントリの各々に対して１つの有効
ビットも含む。ただし、有効ビットは、もし必要であれ
ば、（例えば、Ｌ１ＩデータＲＡＭ６０やＬ１Ｉ制御論
理５８のような）別の場所に位置されてもよい。

【００３０】Ｌ１ＩデータＲＡＭ６０は、Ｌ２メモリお
よびユニファイド・キャッシュ４０に結合されたポート
も含む。この接続は、Ｌ１ＩタグＲＡＭ５４でそれらの
タグを「ミス」した命令フェッチ番地に対応するキャッ
シュ・ラインでＬ２メモリおよびユニファイド・キャッ
シュ４０からＬ１ＩデータＲＡＭ６０に再ロードするこ
とを許す。このローディングは、Ｌ１Ｉ制御論理５８の
制御下で、Ｌ２メモリおよびユニファイド・キャッシュ
４０に（および、このレベルで「ミス」が発生すれば、
外部メモリ・インタフェース４を介して外部ＲＡＭ４２
に）メモリ番地を発行することによって、行われる。そ
れに応答して、メモリ場所の内容がＬ１ＩデータＲＡＭ
６０に書き込まれる。

【００３１】本発明の好適な実施の形態によれば、キャ
ッシュ・ミスおよびキャッシュ・ヒットの両方の場合に
フェッチ・ユニット１０からのフェッチ番地に応答して
命令オプコードを提供するＬ１ＩデータＲＡＭ６０の出
力が、マルチプレクサ６４の１つの入力に供給される。

【００３２】上述したように、ループ・キャッシュ６２
は、Ｌ１ＩデータＲＡＭ６０と並列にＬ１Ｉキャッシュ
および命令バッファ３８に提供される。本発明のこの好
適な実施の形態によれば、ループ・キャッシュ６２は、
小さなプログラム・ループのような繰り返しアクセスさ
れている命令フェッチ番地に対応するメモリ場所の内容
を記憶するための命令バッファ・サブシステムである。
重要な利点を提供するために、ループ・キャッシュ６２
は、それに対するアクセスがＬ１ＩデータＲＡＭ６０へ
のアクセス（および、もちろん、Ｌ２メモリおよびユニ
ファイド・キャッシュ４０へのアクセスと、もちろん、
外部メモリ４２へのアクセス）を含む、他のプログラム
・メモリへのアクセスよりも大幅に少ない電力を消費す
るように、構築される。これに関して、ループ・キャッ
シュ６２の容量は、好ましくは、比較的小さく、また、
それの記憶構成は、好ましくは、インデックスされたア
クセスがなされるレジスタ・ファイルの形である。本発
明の好適な実施の形態によるループ・キャッシュ６２の
詳細な構造については、以下に更に詳しく説明する。

【００３３】その一般的構成では、ループ・キャッシュ
６２は、中央処理ユニット３の命令フェッチ・ユニット
１０からのフェッチ番地および対応制御信号を受信する
ように接続された入力を有する。そのような制御信号
は、例えば、フェッチ番地が有効であることを表示する
信号を含む。ループ・キャッシュ６２は、Ｌ１Ｉデータ
ＲＡＭ６０にラインＲＤ上の読出し制御信号を供給す
る。ループ・キャッシュ６２は、マルチプレクサ６４の
１つの入力に、それへの「ヒット」が発生した場合にフ
ェッチ番地に対応する命令オプコードを提供するための
出力も有する。ループ・キャッシュ６２は、ラインＳＥ
Ｌを駆動する制御信号出力、したがって、マルチプレク
サ６４の選択制御入力も有し、フェッチ番地とループ・
キャッシュ６２に記憶された番地との比較に応答して、
フェッチ・ユニット１０に供給するためにＬ１Ｉデータ
ＲＡＭ６０の出力およびループ・キャッシュ６２自身の
出力のいずれを選択するかを制御する。また、ループ・
キャッシュ６２は、Ｌ１ＩデータＲＡＭ６０の出力に結
合されたデータ入力を有し、それによってループ・キャ
ッシュ６２はメモリ場所の内容をロードされる。

【００３４】それの一般動作では、本発明の好適な実施
の形態によれば、ループ・キャッシュ６２は、フェッチ
・ユニット１０からフェッチ番地を受信し、ループ・キ
ャッシュ６２が対応内容を現時点で含んでいるある範囲
の番地とこのフェッチ番地を事実上比較する。フェッチ
番地が一致すれば、ループ・キャッシュ６２は、ループ
・キャッシュ６２自身がフェッチされた命令オプコード
をマルチプレクサ６４に提供することとマルチプレクサ
６４を制御してフェッチ・ユニット１０への供給のため
にこの出力を選択させることとを捨てて、Ｌ１Ｉデータ
ＲＡＭ６０にラインＲＤ上の読出し禁止信号を供給して
それの動作を排除する（したがって、電力を節約す
る）。また、ループ・キャッシュ６２は、制御信号をＬ
１ＩタグＲＡＭ５４に供給してフェッチ番地によるルー
プ・キャッシュ６２のヒット時にタグ読出しを禁止す
る。一方、フェッチ番地がループ・キャッシュ６２内に
記憶された番地の範囲内になければ、ループ・キャッシ
ュ６２は、Ｌ１ＩデータＲＡＭ６０にラインＲＤ上の読
出し許可信号をアサートするとともに（内容が、現在、
Ｌ１ＩデータＲＡＭ６０かＬ２メモリおよびユニファイ
ド・キャッシュ４０か外部ＲＡＭ４２かに記憶されてい
るかどうか）、マルチプレクサ６４を制御してフェッチ
・ユニット１０への供給のためにＬ１ＩデータＲＡＭ６
０の出力を選択させる。

【００３５】上述したように、Ｌ１ＩデータＲＡＭ６０
のデータ出力は、ループ・キャッシュ６２の入力へも供
給される結果、ループ・キャッシュ６２の記憶場所はメ
モリ場所の内容をロードされる。いつループ・キャッシ
ュ６２をロードするかの決定およびどのメモリ場所から
ロードするかの決定について、本発明の好適な実施の形
態に関連しながら説明する。

【００３６】本発明の第１の好適な実施の形態によれ
ば、ループ・キャッシュ６２は、ここでは「ループ・フ
ロント・キャッシュ」と呼ぶ方法に従って動作する。
「ループ・フロント・キャッシュ」では、ループ・キャ
ッシュ６２に対してミスである任意の逆方向分岐が発生
した場合にループ・キャッシュ６２のレジスタ・ファイ
ルがロードされ、そのフェッチに続いて、それらはＬ１
ＩデータＲＡＭ６０よりもループ・キャッシュ６２にア
クセスする。本発明の第１の好適な実施の形態では、ル
ープ・フロント・キャッシュ法は、ネストされたループ
を含むプログラム・シーケンスにおいても、大幅な電力
節約をもたらす。

【００３７】図３に注目し、この図を用いて本発明のこ
の第１の好適な実施の形態によるループ・フロント・キ
ャッシュの動作について、キャッシュ・ラインのシーケ
ンスとして構成された命令のシーケンスの一例のメモリ
・マップ表現に関連して説明する（各キャッシュ・ライ
ンが多数の命令を含む可能性があることを理解された
い）。図３の例では、外側ループ６６が内側ループ６８
を囲んでおり、内側ループ６８より先行する外側ループ
・コードの部分がプロローグ６６ｐで示され、また、内
側ループ６８より後ろの外側ループ・コードの部分がエ
ピローグ６６ｅで示されている。ループ・キャッシュ６
２の容量Ｃ₆₂が図３に示されており、プロローグ６６
ｐ，内側ループ６８およびエピローグ６６ｅの一部を含
む多数の連続したキャッシュ・ラインをカバーしてい
る。

【００３８】本発明のこの第１の実施の形態によれば、
上述したように、ループ・キャッシュ６２は、ミスであ
る各逆方向分岐が発生するとロードされる。図３の例で
は、ループ・キャッシュは、最初に、エピローグ６６ｅ
の終わりから逆方向分岐の最初の発生時に、容量Ｃ₆₂に
よって示される内容をロードされる。これは内側ループ
６８の全体を含む。この結果、図２も参照すると、プロ
ローグ６６ｐ内および内側ループ６８内（エピローグ６
６ｅの上部部分内も）の各命令のフェッチがＬ１Ｉデー
タＲＡＭ６０からではなくループ・キャッシュ６２から
行われることによって、特にループ６６，６８について
ループ・カウントが大きい場合に、各アクセスに関して
大幅な電力が節約される。

【００３９】図４を参照しながら、ループ・フロント・
キャッシュを実現する本発明のこの第１の好適な実施の
形態によるループ・キャッシュ６２の構成について詳細
に説明する。ループ・キャッシュ６２は、フェッチ・ユ
ニット１０からフェッチ番地を受信するデータ入力と、
ループ・キャッシュ制御論理７４によって駆動される制
御入力とを有する基準番地レジスタ７０を含む。基準番
地レジスタ７０は、ループ・キャッシュ６２の動作に関
して以下に説明するように、単一のエントリ・キャッシ
ュ・タグ・メモリとして事実上動作する。基準番地レジ
スタ７０のデータ出力およびフェッチ・ユニット１０か
らのフェッチ番地は、現在のフェッチ番地と基準番地レ
ジスタ７０の現在の内容との差に対応するラインＩＮＤ
Ｘ上のディジタル出力を発生する加算器７２の相補入力
に供給され、キャッシュ・ライン当たりのバイト数によ
って除される。キャッシュ・ライン当たりのバイト数が
２のべき乗（例えば、３２）である好適なケースでは、
この除算は単に加算器７２による減算の出力の最上位ビ
ットを選択することによって実行される。このインデッ
クス（指標）値を運ぶラインＩＮＤＸは、ループ・キャ
ッシュ制御論理７４に供給され、また、分岐キャッシュ
・レジスタ・ファイル７６へのアドレス入力としても供
給される。

【００４０】本発明のこの第１の好適な実施の形態によ
るループ・キャッシュ６２の分岐キャッシュ・レジスタ
・ファイル７６は、Ｎ個のレジスタのインデックスされ
たセットとして構成され、その各々は、命令オプコード
のキャッシュ・ラインを記憶する。ここで、値Ｎはルー
プ・フロント・キャッシュの深さを示している。本発明
によるループ・キャッシュ６２の最適深さＮは、それに
よって実行されるべきコードの性質のほかに、キャッシ
ュ・アーキテクチャの仕様に依存するであろう。電力効
率の目的には、Ｎを比較的小さく（例えば、３２以下）
保つことが望ましく、４エントリのような場合には顕著
な利益が得られる。いずれにしろ、Ｎの値は２のべき乗
に対応する必要はない。分岐キャッシュ・レジスタ・フ
ァイル７６の番地入力は加算器７２からのインデックス
値を受信し、それに応答して、分岐キャッシュ・レジス
タ・ファイル７６のレジスタの１つが、ループ・キャッ
シュ制御論理７４によって生成されるとともに分岐キャ
ッシュ・レジスタ・ファイル７６の制御入力Ｒ／Ｗに供
給された制御信号の状態に依存して、読出しまたは書込
みアクセスのために選択される。データ入力Ｄは、Ｌ１
ＩデータＲＡＭ６０からデータを受信し、書込みアクセ
ス中にその選択されたレジスタに記憶する。また、デー
タ出力Ｑは、マルチプレクサ６４に供給されて、読出し
アクセスにその選択されたレジスタの内容を提供する。

【００４１】ループ・キャッシュ制御論理７４は、加算
器７２によってラインＩＮＤＸ上に提供されたインデッ
クス値に応答して、また、現在のフェッチ番地が逆方向
分岐であるかどうかを示すラインＢＷ上に提供された制
御信号に応答して、ループ・キャッシュ６２の動作を制
御する。ループ・キャッシュ制御論理７４の動作は、分
岐キャッシュ・レジスタ・ファイル７６のエントリに対
応する有効ビットの状態にも依存する。そのような有効
ビットは、ループ・キャッシュ制御論理７４自身内のレ
ジスタ７５に記憶されている。

【００４２】図４に示された本発明のこの第１の好適な
実施の形態の例によれば、ラインＢＷ上の制御信号はル
ープ・キャッシュ６２自身内の逆方向分岐検出論理７８
によって生成される。この例では、逆方向分岐検出論理
７８は、前のフェッチ番地を記憶するラスト・フェッチ
・レジスタ７９を含む。動作時には、ラスト・フェッチ
・レジスタ７９は、前のフェッチ番地に対応するそれの
現在の内容を比較器８０の１つの入力に供給しながら、
フェッチ・ユニット１０からの現在のフェッチ番地を記
憶する。比較器８０の他の入力は、図４に示すようにフ
ェッチ・ユニット１０から現在のフェッチ番地を受信し
て、現在のフェッチ番地がラスト・フェッチ・レジスタ
７９に記憶された前のフェッチ番地よりも小さいか等し
いかに応じてラインＢＷ上に信号をアサートする。

【００４３】あるいは、ラインＢＷは、中央処理ユニッ
ト３の命令フェッチ・ユニット１０自身によって生成さ
れるとともに現在のフェッチ番地が逆方向分岐に対応す
ることを示す制御信号を運ぶこともできる。この場合に
は、もちろん、逆方向分岐検出論理７８は、ループ・キ
ャッシュ６２内には存在しないが、その代わりに中央処
理ユニット３内に設けられるであろう。

【００４４】ループ・キャッシュ制御論理７４は、上述
したように、ラインＢＷ上の制御信号に応答し、ライン
ＩＮＤＸ上の加算器７２によって提供された値に応答
し、レジスタ７５の有効ビットの状態に応答して、ルー
プ・キャッシュ６２の動作を制御する。この制御は、分
岐キャッシュ・レジスタ・ファイル７６の制御入力Ｒ／
Ｗに供給された制御信号とマルチプレクサ６４（図２）
の選択入力に供給されたラインＳＥＬ上の制御信号とに
よって実行される。また、ループ・キャッシュ制御論理
７４は、ラインＲＤ上の制御信号によってＬ１Ｉデータ
ＲＡＭ６０からの読出しを許可（イネーブル）および禁
止（ディスエーブル）する。この明細書を参照した当業
者は、例えば、次に述べるループ・キャッシュ６２の動
作を実行するのに適した組合せまたは逐次論理によって
ループ・キャッシュ制御論理７４が容易に実現されるこ
とを理解するであろう。

【００４５】次に、図５を参照しながら、本発明のこの
第１の好適な実施の形態によるループ・キャッシュ制御
論理７４の制御下でのループ・キャッシュ６２の動作に
ついて詳細に説明する。図５に示すように、ループ・キ
ャッシュ６２の動作は、工程８１において、（基準番地
に対応する）インデックス値“０”に対するレジスタ７
５の有効ビットをクリアすることによって開始される。
工程８２では、ループ・キャッシュ６２は、中央処理ユ
ニット３の命令フェッチ・ユニット１０から新しいフェ
ッチ番地を受信する。

【００４６】工程８２で新しいフェッチ番地を受信する
と、ループ・キャッシュ制御論理７４は、まず、判定８
３を実行して、そのフェッチ番地がループ・キャッシュ
６２に対して「ヒット」であるかどうかを事実上決定す
る。判定８３は、基準番地レジスタ７０の現在の内容
（これは、分岐キャッシュ・レジスタ・ファイル７６に
現在記憶されている最も低いメモリ番地に対応する）と
工程８２で受信されるとともにキャッシュ・ライン当た
りのバイト数で除されたフェッチ番地との差に対応する
ディジタル値をラインＩＮＤＸ上に発生する加算器７２
によって実行される。ループ・キャッシュ制御論理７４
は、ラインＩＮＤＸ上のこの値をゼロおよびループ・キ
ャッシュ６２の深さＮと比べて、そのフェッチ番地がル
ープ・キャッシュ６２に記憶されている番地の範囲内に
あるかどうかを判定する。また、ループ・キャッシュ制
御論理７４は、レジスタ７５でインデックス値“０”に
対する有効ビットを調べて、分岐キャッシュ・レジスタ
・ファイル７６が基準番地レジスタ７０の内容に対応す
るそれの初期エントリに記憶された有効命令コードを有
するかどうかを判定する。そうでなければ、分岐キャッ
シュ・レジスタ・ファイル７６はいかなる有効命令オプ
コードを含まず、したがって、フェッチ番地はループ・
キャッシュ６２のヒットに対応することができない。以
上のことから明らかなように、ループ・キャッシュ６２
は、非逐次的なタグ番地を有するキャッシュ・ラインよ
りもキャッシュ・ラインの逐次的なセットを記憶する。

【００４７】フェッチ番地がループ・キャッシュ６２を
ミス（すなわち、判定８３が否定）すれば、ループ・キ
ャッシュ制御論理７４は、次に、判定８５を実行して、
現在のフェッチ番地が逆方向分岐を指しているかどうか
を判定する。判定８５は、現在のフェッチ番地をラスト
・フェッチ・レジスタ７９の内容と比較するとともにそ
れに従ってラインＢＷ上に信号を発生する逆方向分岐判
定論理７８の動作によって実行されてもよい。あるい
は、判定８５は、中央処理ユニット３自身によって実行
されてもよく、その結果はラインＢＷ上をループ・キャ
ッシュ制御論理７４に送信される。現在のフェッチ番地
が「ミス」でありかつ逆方向分岐でもない場合（判定８
５が否定）には、ループ・キャッシュ制御論理７４は、
ラインＲＤ上に信号をアサートすることによってＬ１Ｉ
データＲＡＭ６０からの所望の命令オプコードの読出し
を許可し、また、マルチプレクサ６４を制御してライン
ＳＥＬ上の適当な信号によってＬ１ＩデータＲＡＭ６０
の出力を選択させる。これらの動作は図５に工程８６と
して示されている。次に、制御は工程８２へ戻って命令
フェッチ・ユニット１０からの次のフェッチ番地の受信
を待つ。

【００４８】他方、上述したように、ループ・キャッシ
ュ６２は、キャッシュ・ミスであるが逆方向分岐に対応
するフェッチの場合には、分岐キャッシュ・レジスタ・
ファイル８２をローディングことを開始するように動作
する。図５に戻って、現在のフェッチ番地がループ・キ
ャッシュ６２をミスしている（すなわち、判定８３が否
定）が逆方向分岐に対応する（判定８５が肯定）場合に
は、ループ・キャッシュ制御論理７４は、工程８８を実
行して分岐キャッシュ・レジスタ・ファイル７６のロー
ディングを開始する。工程８８では、ループ・キャッシ
ュ制御論理７４は、基準番地レジスタ７０に制御信号を
発行して、それに現在のフェッチ番地を基準番地として
記憶させる。また、ループ・キャッシュ制御論理７４
は、インデックス値“０”に対する有効ビットをセット
するとともに、レジスタ７５のその他のすべての有効ビ
ットをクリアする。ループ・キャッシュ制御論理７４
は、次に、ラインＲＤ上に信号をアサートしてＬ１Ｉデ
ータＲＡＭ６０から所望の命令オプコードの読出しを許
可することによって、また、マルチプレクサ６４を制御
してＬ１ＩデータＲＡＭ６０の出力を選択させることに
よって、工程９０を実行する。さらに、ループ・キャッ
シュ制御論理７４は分岐キャッシュ・レジスタ・ファイ
ル７６の制御入力Ｒ／Ｗに書込み制御信号を発行し、そ
の結果、Ｌ１ＩデータＲＡＭ６０の出力に、したがっ
て、分岐キャッシュ・レジスタ・ファイル７６のＤ入力
に提供されたオプコードがそれのエントリ［０］（すな
わち、基準番地に対応し、インデックス値“０”を有す
る）にロードされる。次に、制御は工程８２へ戻って次
のフェッチ番地を待つ。

【００４９】判定８３へ戻って、基準番地レジスタ７０
に記憶された基準番地の範囲Ｎ内にあるフェッチ番地を
受信すると（すなわち、判定８３が肯定）、ループ・キ
ャッシュ制御論理７４は、次に、判定９１を実行して、
ラインＩＮＤＸ上のディジタル値（すなわち、フェッチ
番地と基準番地との差）に対応する有効ビットがセット
されているかどうかを判定する。そうでなければ（判定
９１が否定）、ラインＩＮＤＸ上の現在のインデックス
値に対応するエントリは正しいオプコードではない。次
に、（ラインＲＤを介した）Ｌ１ＩデータＲＡＭ６０か
らの所望の命令オプコードの読出しを許可することによ
って、また、ラインＩＮＤＸ上の現在のインデックス値
に対応するそれのエントリでＬ１ＩデータＲＡＭ６０の
出力を分岐キャッシュ・レジスタ・ファイル７６にロー
ドすることによって、工程９２がループ・キャッシュ制
御論理７４の制御下でループ・キャッシュ６２によって
実行される。次に、ループ・キャッシュ制御論理７４
は、現在のインデックス値に対応するレジスタ７５に有
効ビットをセットする。また、ループ・キャッシュ制御
論理７４は、マルチプレクサ６４を制御してラインＳＥ
Ｌ上の適当な信号を用いてＬ１ＩデータＲＡＭ６０の出
力を選択させ、それにより、所望の命令オプコードを中
央処理ユニット３に送る。

【００５０】他方、ラインＩＮＤＸ上の現在のインデッ
クス値に対してレジスタ７５の有効ビットがセットされ
れば（判定９１が肯定）、ループ・キャッシュ６２は、
実際に、工程８２で受信されたフェッチ番地によって指
定された命令に対する現在の有効オプコードを記憶して
いる。ループ・キャッシュ制御論理７４は、次に、工程
９４を実行して、分岐キャッシュ・レジスタ・ファイル
７６の制御入力Ｒ／Ｗに読出し制御信号を供給すること
によって、ラインＩＮＤＸ上のインデックス値によって
指示される分岐キャッシュ・レジスタ・ファイル７６の
エントリからオプコードをフェッチする。分岐キャッシ
ュ・レジスタ・ファイル７６のこの読出しは、ラインＲ
Ｄ上に禁止信号を供給するループ・キャッシュ制御論理
７４によって、Ｌ１ＩデータＲＡＭ６０を除外して実行
される。Ｌ１ＩデータＲＡＭ６０の読出しアクセスのこ
の禁止は大幅に電力を節約し、本発明の重要な利点の１
つを提供する。上述したように、判定９１が肯定である
結果の場合には、ループ・キャッシュ制御論理７４によ
ってＬ１ＩタグＲＡＭ５４も禁止されて、ループ・キャ
ッシュ６２のヒットに対してタグ番地読出しを阻止する
ことによって付加的な電力節約がなされる。工程９４で
は、ループ・キャッシュ制御論理７４が、ラインＳＥＬ
上の信号を用ることによってマルチプレクサ６４を制御
して、それの出力に供給するためのループ・キャッシュ
６２を選択させ、その結果、分岐キャッシュ・レジスタ
・ファイル７６に記憶されたオプコードが命令フェッチ
・ユニット１０に提供される。

【００５１】図５に示されるようなループ・キャッシュ
６２の動作方法に従えば、ループ・キャッシュ６２は、
ループ・キャッシュ６２に対してミスである逆方向分岐
に応答して命令オプコードをロードされる。このローデ
ィングは、逆方向分岐によるミスをまず検出する判定８
３，８５（判定８３，８５がそれぞれ否定および肯定で
ある）によって発生する。次に、分岐キャッシュ・レジ
スタ・ファイル７６の第１のエントリは工程９０で基準
番地のオプコードをロードされ、基準番地レジスタ７０
が基準番地を記憶し、第１のエントリを除くレジスタ７
５のすべての有効ビットが工程８８でクリアされる。次
に続く逐次命令フェッチは、分岐キャッシュ・レジスタ
・ファイル７６の最後に到達するまで、判定８３（肯
定），判定９１（否定）および工程９２の動作を経てオ
プコードを分岐キャッシュ・レジスタ・ファイル７６に
ロードする。ループ・キャッシュ６２の「ヒット」が発
生する（判定８３が肯定）それ以降の任意の時点で、レ
ジスタ７５の有効ビットが工程９２の繰り返しですべて
セットされているので、命令オプコードはＬ１Ｉデータ
ＲＡＭ６０よりもむしろ分岐キャッシュ・レジスタ・フ
ァイル７６から（工程９４において）読み出され、した
がって、さもなければそのようなアクセスから生じたで
あろう電力消費が節約される。この動作は、プロローグ
６６ｐおよび内側ループ６８のフェッチ番地の各々がル
ープ・キャッシュ６２の「ヒット」に対応すること（判
定８３および判定９１がどちらも肯定）を考慮して、図
３に示されるように、ネストされたループの場合にも続
けられる。内側ループ６８の最後における逆方向分岐命
令は、この逆方向分岐命令もヒットであるため、分岐キ
ャッシュ・レジスタ・ファイル７６の再ローディングを
引き起こさない。

【００５２】この動作状態と分岐キャッシュ・レジスタ
・ファイル７６の内容とは、分岐キャッシュ・レジスタ
・ファイル７６のメモリ場所の１つに対応しない目的場
所を有する次の逆方向分岐命令のフェッチまで、言い換
えれば、与えられたフェッチ命令に対して判定８３が否
定で判定８５が肯定になるまで、そのまま残る。図３の
例では、分岐キャッシュ・レジスタ・ファイル７６に記
憶されていない（すなわち、それに対する判定８３が否
定）外側ループのエピローグ６６ｅの最後近くのそれら
の命令フェッチは、それらの命令が逆方向分岐ではない
（すなわち、各々の場合で判定８５が否定である）た
め、分岐キャッシュ・レジスタ・ファイル７６の再ロー
ディングを引き起こさない。工程８６で、エピローグ６
６ｅのこの末端部分に対するオプコードがＬ１Ｉデータ
ＲＡＭ６０から単に読み出される。エピローグ６６ｅの
最後の命令に続く逆方向分岐のフェッチは実際に逆方向
分岐であるが、このフェッチがループ・キャッシュ６２
の「ヒット」であるため、判定８３は肯定であり、工程
９４を経た分岐キャッシュ・レジスタ・ファイル７６か
らのフェッチは継続される。

【００５３】本発明のこの第１の好適な実施の形態は、
このように、小さくタイトなプログラム・ループ内にあ
る命令に対する１次のプログラム・キャッシュ・メモリ
にアクセスする必要性を排除することによって、電力消
費を削減するという重要な利点を提供する。そのような
ループが主流であるＤＳＰルーチンのような応用では、
全体的な電力節約をかなりのものとする。また、本発明
のこの好適な実施の形態の動作は、特別な命令やプログ
ラムの変更を必要とせず、また、すべての命令オプコー
ドが自動的にフェッチされロードされることもない。

【００５４】本発明のこの第１の好適な実施の形態によ
るこのループ・フロント・キャッシュ方式は、ループの
命令オプコードがループを通る最初のリターン・パスの
間にループ・キャッシュ６２にロードされるというやり
方で、電力消費を削減するというこの利点を提供する
が、ループ・フロント・キャッシュ方式は一定の制限も
提供する。図３を参照しながら、ネストされたループの
例について述べると、プロローグ６６ｐおよび内側ルー
プ６８に対して必要とされるキャッシュ・ラインの合計
がループ・キャッシュ容量Ｃ₆₂を超えると、内側ループ
６８の命令がループ・キャッシュ６２に存在しないこと
になって、ネストされたループ・サイクルの主要部分に
対する全体的な利点が減少する（すなわち、ｍを内側ル
ープ６８のループ・カウントとした場合に、内側ループ
６８の命令と同じ頻度のたった１／ｍをアクセスされる
にも拘わらず、プロローグ６６ｐ命令はループ・キャッ
シュ６２にある）。また、プロローグ６６ｐ自身がルー
プ・キャッシュ容量Ｃ₆₂を超えれば、ループ・キャッシ
ュ６２は内側ループ６８の先頭と外側ループ６６の先頭
との間で「スラッシ」するであろう。さらに、多くのフ
ェッチ・パケットがループ・キャッシュ６２に記憶され
ることになるが、一度しか実行されず、いくつかの状況
では電力節約を悪化させるかもしれない。

【００５５】ここでは「ループ・テール・キャッシュ」
と名付けた本発明の第２の好適な実施の形態は、ループ
・キャッシュにロードされる前に１次プログラム・キャ
ッシュ・メモリから２度実行するように各ループに要求
することを犠牲にして、これらの制限に取り組んでい
る。一般に、ループ・テール・キャッシュ方式は、ルー
プ・キャッシュをミスした逆方向分岐に対して（ループ
・フロント・キャッシュと同じように）ループ・キャッ
シュをロードするが、逆方向分岐ミスが続けて２度発生
した場合のみである。「続けて２度」という用語は、間
に他の逆方向分岐フェッチが起こらない２度の同じ逆方
向分岐のフェッチを意味する。

【００５６】図６を参照すると、図３に関して既に述べ
た命令のシーケンスが再び示されているが、外側ループ
６６は内側ループ６８よりも進んだプロローグ６６ｐと
内側ループ６８より遅れたエピローグ６６ｅとを有す
る。本発明のこの第２の好適な実施の形態のループ・テ
ール・キャッシュによれば、ループ・キャッシュの先頭
は外側ループ６６の先頭よりも内側ループ６８の先頭に
対応する。これは、内側ループ６８の先頭への逆方向分
岐が続けて２度発生することから生じるが、（内側ルー
プ６８の逆方向分岐の１以上の事象が必ず外側ループ６
６の引き続く逆方向分岐の間に発生するので）外側ルー
プ６６の先頭への逆方向分岐は続けて２度発生しない。
したがって、本発明のこの第２の実施の形態によるルー
プ・キャッシュ６２’の内容は、図７の容量Ｃ_62'を占
有するが、常に内側ループ６８で始まりそれを含むが、
エピローグ６６ｅの一部または全部も含むことができる
（さらに、外側ループ６６を超える命令も含むことさえ
できる）。

【００５７】図７を参照しながら、本発明のこの第２の
好適な実施の形態によるループ・キャッシュ６２’の構
成について説明する。以下の説明から明らかになるよう
に、ループ・キャッシュ６２’は、上で述べたように、
ループ・キャッシュ６２内に含まれるものと類似したい
くつかの要素を含む。

【００５８】ループ・キャッシュ６２’は、中央処理ユ
ニット３の命令フェッチ・ユニット１０から受信された
現在のフェッチ番地に依存して分岐キャッシュ・レジス
タ・ファイル１７６の（読出しまたは書込み）エントリ
にアクセスするように動作する。本発明の上述した実施
の形態におけるように、この例での分岐キャッシュ・レ
ジスタ・ファイル１７６は、Ｎ個のレジスタのインデッ
クスされたセットであり、各レジスタ場所またはエント
リが命令オプコードの完全な１キャッシュ・ラインを記
憶する。値Ｎは、ループ・キャッシュ６２’によって実
施されるループ・テール・キャッシュの深さを意味す
る。本発明のこの第２の好適な実施の形態によれば、分
岐キャッシュ・レジスタ・ファイル１７６は、インデッ
クス・レジスタ１８２からインデックス値を受信するよ
うに結合された番地入力を有する。それに応答して、ル
ープ・キャッシュ制御論理１７４によってそれの制御入
力Ｒ／Ｗに供給される信号の制御下で、分岐キャッシュ
・レジスタ・ファイル１７６の１つのエントリが読出し
または書込みアクセスとして選ばれる。前と同じよう
に、分岐キャッシュ・レジスタ・ファイル１７６のデー
タ入力ＤはＬ１ＩデータＲＡＭ６０からのオプコード・
データを受信し、また、分岐キャッシュ・レジスタ・フ
ァイル１７６のデータ出力Ｑはマルチプレクサ６４の入
力へ供給され、それによって、選ばれたエントリの内容
が中央処理ユニット３へ提供される。

【００５９】ループ・キャッシュ６２’の次候補番地レ
ジスタ１６８は、フェッチ・ユニット１０からフェッチ
番地を受信するデータ入力を有するとともに、比較器１
７３の１つの入力および基準番地レジスタ１７０のデー
タ入力に結合された出力を有する。基準番地レジスタ１
７０は、比較器１７２の入力に接続された出力を有す
る。次候補番地レジスタ１６８および基準番地レジスタ
１７０はそれぞれ、ループ・キャッシュ制御論理１７４
によって駆動される制御入力を有する（そのような接続
は図７には示されていない。）。比較器１７２，１７３
はそれぞれ、フェッチ・ユニット１０からフェッチ番地
を直接受信する第２の入力を有する。したがって、比較
器１７２は現在のフェッチ番地を基準番地レジスタ１７
０の現在の内容と比較し、他方、比較器１７３は現在の
フェッチ番地を次候補番地レジスタ１６８の現在の内容
と比較する。比較器１７２，１７３の出力は、ラインＥ
ＱＦ，ＥＱＮ上をループ・キャッシュ制御論理１７４に
送られる。

【００６０】フェッチ・ユニット１０からの現在のフェ
ッチ番地は、現在のフェッチ番地が逆方向分岐であるか
どうかを判断する逆方向分岐検出論理１７８によっても
受信される。この判断の結果はラインＢＷ上をループ・
キャッシュ制御論理１７４に送られる。逆方向分岐検出
論理１７８は、上述したように、図４のループ・キャッ
シュ６２の逆方向分岐検出論理７８と同様に構成され
る。あるいは、ラインＢＷ上の信号は中央処理ユニット
３自身のフェッチ・ユニット１０によっても発生され、
このことはループ・キャッシュ６２’に逆方向分岐検出
論理１７８の必要性を排除するであろう。

【００６１】以下に説明するように、ループ・キャッシ
ュ６２’は、フェッチ・ユニット１０からの現在のフェ
ッチ番地が前のフェッチ番地に対して順番になっている
かどうかに応答しても動作する。したがって、本発明の
この好適な実施の形態によれば、ループ・キャッシュ６
２’は、この決定を行うための逐次フェッチ検出論理１
８０を含み、また、現在のフェッチ番地が前のフェッチ
番地からの順番で次にあたる場合には、ループ・キャッ
シュ制御論理１７４に供給される信号をラインＳＥＱ上
にアサートする。逐次フェッチ検出論理１８０は、前の
フェッチ番地を記憶するためのレジスタを含み、そのレ
ジスタの内容と“１”だけ異なる現在のフェッチ番地
（すなわち、シーケンスになっている）との差に応答し
てラインＳＥＱ上に信号を発生する組合せ論理を含むよ
うに、構築される。事実上は、逐次フェッチ検出論理１
８０は次の関係の真に応答して信号をアサートする。Ａ−Ｂ＝１ここで、Ａは現在のフェッチ番地を意味し、Ｂは前のフ
ェッチ番地を意味する。この式は、この比較を分かり易
くするために、次のように変形できる。Ａ＋（−Ｂ）＝１ここで、−Ｂは、符号ビットを含む表現での前のフェッ
チ番地の２の補数（すなわち、算術的相補）である。も
ちろん、ディジタル値の負号を付けた２の補数表現は、
その値のビット的な補数とは“１”だけ異なる。言い換
えれば、この関係を次のように表すことができる。Ａ＋（〜Ｂ＋１）＝１ここで、〜Ｂは、前のフェッチ番地の１の補数（すなわ
ち、ビット的な補数）である。もちろん、この関係は次
のように変形できる。Ａ＋〜Ｂ＝０言い換えれば、現在のフェッチ番地に前のフェッチ番地
のビット的な補数を加えたものがゼロ（すなわち、すべ
て“１”で表現された場合の負のゼロの２の補数）であ
る場合は、現在のフェッチ番地は前のフェッチ番地の次
に続く逐次番地である。１９９７年２月４日発行の本出
願と共通に譲渡されここに引用によって取り込まれる米
国特許第５，６００，５８３号は、２つのディジタル値
の和がゼロに等しいかどうかを効率的に決定するための
論理回路について述べている。本発明のこの好適な実施
の形態による逐次フェッチ検出論理１８０は、この比較
を実行するように、上記米国特許第５，６００，５８３
号で述べられたように構築されてもよい。

【００６２】あるいは、中央処理ユニット３はそれ自身
でラインＳＥＱ上へ信号を発生し、その信号は、ループ
・キャッシュ制御論理１７４に送られて、現在のフェッ
チ番地が前のフェッチ番地からのシーケンスで次の順番
であることを示す。

【００６３】本発明のこの実施の形態によるループ・キ
ャッシュ６２’は、ラインＬＤ０上のループ・キャッシ
ュ制御論理１７４からのリセット入力を受信するインデ
ックス・レジスタ１８２をさらに含む。インデックス・
レジスタ１８２は、分岐キャッシュ・レジスタ・ファイ
ル１７６の番地入力に供給されるとともにその内容の問
合せのためにループ・キャッシュ制御論理１７４にも供
給される出力を有する。インデックス・レジスタ１８２
のこの出力は、加算器１８３の１つの入力にも提供され
る。加算器１８３は、その他方の入力に供給されたハー
ド配線された“１”（hardwired “1”）を有し、ま
た、インデックス・レジスタ１８２の入力に結合された
出力を有する。その結果、加算器１８３の各動作は、イ
ンデックス・レジスタ１８２の内容をインクリメントし
て、その内容を次のフェッチ番地動作に備えて更新す
る。ループ・キャッシュ制御論理１７４からの制御信号
（不図示）は、インデックス・レジスタ１８２における
値の記憶を制御する。

【００６４】本発明のこの好適な実施の形態によるルー
プ・キャッシュ制御論理１７４は、分岐キャッシュ・レ
ジスタ・ファイル１７６の各エントリに関連する有効ビ
ットを記憶するための有効ビット・レジスタ１７５を含
む。各有効ビットは、セットされた場合に、分岐キャッ
シュ・レジスタ・ファイル１７６の関連するエントリの
内容が関連フェッチ番地に対する有効なオプコードを含
むことを示す。ループ・キャッシュ制御論理１７４はフ
ラグＬＦＬＡＧも含む。フラグＬＦＬＡＧは、セットさ
れた場合、基準番地レジスタ１７０に現在記憶されてい
る番地の最近のフェッチがループ・キャッシュ６２’に
対する「ヒット」であったことを示す。

【００６５】前と同じように、ループ・キャッシュ制御
論理１７４は、分岐キャッシュ・レジスタ・ファイル１
７６の制御入力Ｒ／Ｗに供給される制御信号によって、
マルチプレクサ６４（図２）の選択入力に供給されるラ
インＳＥＬ上の制御信号によって、また、次候補番地レ
ジスタ１６８，基準番地レジスタ１７０およびインデッ
クス・レジスタ１８２への値の記憶を制御することによ
って、ループ・キャッシュ６２’の動作を制御する。上
述したループ・キャッシュ６２の場合と同じように、ル
ープ・キャッシュ制御論理１７４はまた、ラインＲＤ上
に制御信号を発行することによってＬ１ＩデータＲＡＭ
６０の読出しを許可および禁止する。ループ・キャッシ
ュ制御論理１７４は、本明細書を参照した当業者によっ
て、例えば図８に関して説明するようにループ・キャッ
シュ６２’の動作を実行するのに適した組合せ論理また
は逐次論理を用いて容易に実現できることが考えられ
る。

【００６６】この説明の目的のために、ループ・キャッ
シュ６２’の動作について、レジスタ１７５において有
効ビットがすべてクリアされるとともにフラグＬＦＬＡ
Ｇもクリアされた初期状態から説明する。この状態は、
分岐キャッシュ・レジスタ・ファイル１７６に有効なオ
プコードが何も記憶されておらず、また、例えばリセッ
ト後の第１のプログラムの最初の実行において逆方向分
岐命令がまだ実行されていない状態に対応する。以下の
説明から明らかなように、この状態は、事実上、ループ
から脱出して再び入らないであろう状態に対応する。ル
ープ・キャッシュ６２’の動作についての以下の説明
は、分岐キャッシュ・レジスタ・ファイル１７６のロー
ディングとそれに続く分岐キャッシュ・レジスタ・ファ
イル１７６からの命令の実行とを含む１つの例示シーケ
ンスについて行う。

【００６７】工程１８４では、新しいフェッチ番地が、
中央処理ユニット３の命令フェッチ・ユニット１０から
ループ・キャッシュ６２’によって受信される。図７に
示すように、この新しいフェッチ番地は、次候補番地レ
ジスタ１６８によって（しかし、それには未だロードさ
れない）、比較器１７２の１つの入力によって、（中央
処理ユニット３自身が逆方向分岐および逐次フェッチ制
御信号をラインＢＷ，ＳＥＱ上にそれぞれ発生しないこ
の例では）逆方向分岐検出論理１７８および逐次フェッ
チ検出論理１８０によって、受信される。

【００６８】次に、ループ・キャッシュ６２’は、逆方
向分岐検出論理１７８の動作を通して、または、中央処
理ユニット３からラインＢＷ上の信号を受信することに
よって判定１８５を実行して、現在のフェッチ番地が逆
方向分岐を表しているかどうかを判定する。そうでなけ
れば（判定１８５が否定）、ループ・キャッシュ制御論
理１７４によって受信されるラインＢＷ上の不活動（in
active）信号によって示されるように、制御は判定１８
７に移動する。比較器１７２は、現在のフェッチ番地を
基準番地レジスタ１７０の現在の内容と比較し、２つの
番地が等しければラインＥＱＦ上に活動（active）信号
をアサートする。ループ・キャッシュ制御論理１７４
は、レジスタ１７５のエントリ“０”に関連する有効ビ
ットの状態とともに、比較器１７２からのラインＥＱＦ
の状態を調べる。ラインＥＱＦが不活動であるかエント
リ“０”に対する有効ビットがクリアであれば（判定１
８７が否定）、現在のフェッチ番地は、それの内容が有
効である分岐キャッシュ・レジスタ・ファイル１７６の
基準番地に対応していない。この場合には、制御は判定
１８９に移動する。

【００６９】上述したように、逐次フェッチ検出論理１
８０は、現在のフェッチ番地を受信するとともに、その
フェッチ番地が前のフェッチ番地と順番になっているか
どうかを判断し、そうであればラインＳＥＱをアサート
する。判定１８９は、逐次フェッチ検出論理１８０から
（または、中央処理ユニット３によって発生されるので
あれば、そこから）のラインＳＥＱの状態を問合せする
ループ・キャッシュ制御論理１７４によって、また、フ
ラグＬＦＬＡＧの状態およびインデックス・レジスタ１
８２の内容を問合せすることによって、実行される。現
在のフェッチ番地が逐次フェッチでない（ラインＳＥＱ
が不活動）か、フラグＬＦＬＡＧがクリアであるか、イ
ンデックス・レジスタ１８２の内容が分岐キャッシュ・
レジスタ・ファイル１７６の容量Ｎよりも大きいか等し
ければ、判定１８９は否定の結果を戻す。これは、ルー
プ・キャッシュ６２’のキャッシュ・ミスの事象に対応
する。次に、工程１９０が、ラインＲＤ上の活動信号を
介してＬ１ＩデータＲＡＭ６０の読出しを許可するルー
プ・キャッシュ制御論理１７４によって実行される。ル
ープ・キャッシュ制御論理１７４は、ラインＳＥＬ上に
適当な信号を発行することによって、マルチプレクサ６
４にＬ１ＩデータＲＡＭ６０の出力をフェッチされたオ
プコードとして使用させる。ループ・キャッシュ制御論
理１７４は、フラグＬＦＬＡＧ１７７をクリアして、最
後のフェッチ番地がミスに対応したことを表示する。次
に、制御は、次のフェッチ番地を受信する工程１８４に
戻る。

【００７０】逆方向分岐であるフェッチ番地を受信する
と（判定１８５が肯定）、ループ・キャッシュ制御論理
１７４は、判定１９１を実行して、現在のフェッチ番地
が基準番地１７０の内容に等しいかどうかを判断すると
ともに、レジスタ１７５の有効ビットがインデックス値
“０”（すなわち、基準番地）に対してセットされてい
るかどうかを判断する。これらの条件のいずれかが成立
しなければ（すなわち、判定１９１が否定）、制御は判
定１９３に進む。説明のために、上述したように、本発
明のこの第２の好適な実施の形態によるループ・キャッ
シュ６２’によって実現されるループ・テール・キャッ
シュ法は、事実上、ループを通る二度目のパスによって
のみ分岐キャッシュ・レジスタ・ファイル１７６をロー
ドする。図８に示す動作方法では、判定１９１は、判定
１８５によって判定された逆方向分岐の第１および第２
の事象のそれぞれに対して否定の結果を戻し、また、以
下の説明から明らかなように、この逆方向分岐の第３お
よび後続の事象に対して肯定の結果を戻す。

【００７１】図７を参照すると、比較器１７３は、次候
補番地レジスタ１６８の内容を現在のフェッチ番地と比
較して、２つの値が等しいときにはラインＥＱＮ上に活
動信号を発行する。ラインＥＱＮの状態は判定１９３
（図８）においてループ・キャッシュ制御論理１７４に
よって調べられる。現在のフェッチ番地によって示され
る逆方向分岐が初めて発生する場合には、現在のフェッ
チ番地は次候補番地レジスタ１６８の内容とは等しくな
く、したがって、判定１９３は否定の結果を戻す。次
に、制御は工程１９４へ進み、そこでは、ループ・キャ
ッシュ制御論理１７４は次候補番地レジスタ１６８に現
在のフェッチ番地を記憶させる。これは、事実上、（ル
ープが二番目に実行されれば）分岐キャッシュ・レジス
タ・ファイル１７６にそれのシーケンスを記憶できる候
補として現在のフェッチ番地を確立する。現在のフェッ
チ番地に対する命令オプコードはラインＲＤ，ＳＥＬ上
への信号のアサートによってＬ１ＩデータＲＡＭ６０か
ら読み出されてフェッチ・ユニット１０に供給されるこ
とを許され、また、フラッグＬＦＬＡＧもクリアされ
る。これらはいずれも工程１９４において行われる。次
に、制御は、再び工程１８４に進み、次のフェッチ番地
を待つ。

【００７２】候補のフェッチ番地に続く介在番地が順番
にフェッチされる限り、フェッチは（工程１９０を介し
て）Ｌ１ＩデータＲＡＭ６０から行われ続けるであろ
う。逆方向分岐の二番目の引き続く事象が受信されると
（判定１８５が肯定）、それに対するフェッチ番地はま
だ基準番地に等しくないが（判定１９１が否定）、次候
補番地レジスタ１６８の内容に等しく、比較器１７３は
ラインＥＱＮ上に活動信号を発行し、その場合、判定１
９３は肯定の結果を戻す。次に、制御は工程１９６へ進
み、そこでは、ループ・キャッシュ制御論理１７４がこ
の逆方向分岐の二番目の事象のフェッチに応答する。も
ちろん、逆方向分岐の第１の事象と第２の事象との間で
異なる逆方向分岐が検出されたとすると、介在する逆方
向分岐フェッチ番地は次候補番地レジスタ１６８に記憶
されるので、二番目の事象はそれが最初の事象であるか
のように扱われる（判定１９３は否定を戻す）。

【００７３】工程１９６では、ループ・キャッシュ制御
論理１７４が、次候補番地レジスタ１６８の内容に等し
い現在のフェッチ番地を基準番地レジスタ１７０に記憶
させる。ループ・キャッシュ制御論理１７４はまた、ラ
インＬＤ０上に活動信号を発行し、インデックス・レジ
スタ１８２の内容をゼロにリセットする（そして、ゼロ
・インデックス値を分岐キャッシュ・レジスタ・ファイ
ル１７６の番地入力に供給する）。レジスタ１７５で
は、エントリ“０”に対する有効ビットがセットされ
（それの内容は正しいオプコードとともに書き込まれる
であろう）、その他すべてのエントリに対する有効ビッ
トはクリアされる。Ｌ１ＩデータＲＡＭ６０の現在のフ
ェッチ番地に対応するメモリ場所が読み出され（ライン
ＲＤは活動的）、それの内容は制御入力Ｒ／Ｗにおける
読出し制御信号と一緒に分岐キャッシュ・レジスタ・フ
ァイル１７６のデータ入力に供給され、このオプコード
は分岐キャッシュ・レジスタ・ファイル１７６の０番目
のエントリに記憶される。ループ・キャッシュ制御論理
１７４は、ラインＳＥＬ上へ適当な信号を発行すること
によって、マルチプレクサ６４にＬ１ＩデータＲＡＭ６
０の出力をフェッチされたオプコードとして使用させ
る。フラグＬＦＬＡＧがセットされ、このループが今は
ループ・キャッシュ６２’のヒットに対応するであろう
ことを表す。次に、加算器１８３は、工程１８４におけ
る次のフェッチ番地に備えてインデックス・レジスタ１
８２の内容をインクリメントする。

【００７４】二度受信された逆方向分岐への逐次命令に
対する（すなわち、ループ内のそれらの命令に対する）
フェッチ番地を受信すると、判定１８５，１８７は否定
の結果を戻し（それらの番地は、逐次的であるが、基準
番地レジスタ１７０に現在記憶されている番地（逆方向
分岐番地）ではない）。しかし、（工程１９６から）フ
ラグＬＦＬＡＧがセットされたままループのそれらのフ
ェッチ番地は順番になっている（ラインＳＥＱは活動的
である）ので、フェッチ番地が分岐キャッシュ・レジス
タ・ファイル１７６の容量内にある限り（インデックス
・レジスタ１８２の内容はＮよりも小さい）、判定１８
９は肯定結果を戻すであろう。次に、ループ・キャッシ
ュ制御論理１７４は、判定１９９で、現在のインデック
ス値に対応するレジスタ１７５の有効ビットを問い合せ
て、分岐キャッシュ・レジスタ・ファイル１７６の対応
するエントリが現在のフェッチ番地に対する有効なオプ
コードを含んでいるかどうかを判定する。ループを通る
この二度目のパスの場合のようにそうでなければ（判定
１９９が否定）、制御は工程２００に進み、そこでは、
現在のインデックス値に対するレジスタ１７５の有効ビ
ットがセットされる。現在のフェッチ番地に対応するＬ
１ＩデータＲＡＭ６０の内容が読み出されて（ラインＲ
Ｄは活動的）、中央処理ユニット３に供給され（ライン
ＳＥＬがマルチプレクサ６４にＬ１ＩデータＲＡＭ６０
を選択させる）、分岐キャッシュ・レジスタ・ファイル
１７６の対応するエントリにロードされる。次に、イン
デックス・レジスタ１８２は、工程１８４で受信された
次のフェッチ番地に備えて、加算器１８３によってイン
クリメントされる。

【００７５】次に、このシーケンスは、非逐次フェッチ
によってか分岐キャッシュ・レジスタ・ファイル１７６
の容量を超えるループ長によってループを脱出する（す
なわち、判定１８９が否定）まで、または、逆方向分岐
命令が検出される（判定１８５が肯定）まで、ループの
残りに対して繰り返され、分岐キャッシュ・レジスタ・
ファイル１７６にオプコードをロードする。逆方向分岐
が検出され、検出された分岐が分岐キャッシュ・レジス
タ・ファイル１７６にループが記憶された逆方向分岐と
同じ逆方向分岐である場合には、セットされた有効ビッ
ト“０”に対する基準番地レジスタ１７０の内容と等し
い現在のフェッチ番地によって決まるように、判定１９
１は肯定結果を戻す。次に、制御は工程１９８に進み、
そこでは、次候補番地レジスタ１６８が現在のフェッチ
番地値をロードする（または、場合によっては再ロード
する）。この動作は、２つの引き続く異なる逆方向分岐
を除いて分岐キャッシュ・レジスタ・ファイル１７６の
再ロードを排除する。また、現在の逆方向分岐が再び先
頭から始まるので、インデックス・レジスタ１８２はゼ
ロにリセットされて、ループの先頭におけるフェッチの
ために正しい番地を分岐キャッシュ・レジスタ・ファイ
ル１７６に提供する。次に、制御入力Ｒ／Ｗでの読出し
制御信号のアサートによって分岐キャッシュ・レジスタ
・ファイル１７６のこの０番目のエントリが読み出さ
れ、それの出力がマルチプレクサ６４に供給されて、ル
ープ・キャッシュ制御論理１７４からのラインＳＥＬ上
の信号の制御下で選択される。電力消費を節約するため
に、ループ・キャッシュ制御論理１７４は、ラインＲＤ
をデアサート（deassert）することによってＬ１Ｉデー
タＲＡＭ６０の読出し動作を禁止する。また、必要であ
れば、Ｌ１ＩタグＲＡＭ５４にも同様な禁止信号を供給
して、それに対する読出しを阻止することによって付加
的な電力を節約する。工程１７４は、フラグＬＦＬＡＧ
が（それまでにセットされていなければ）セットされる
とともに、工程１８４で受信される次のフェッチ番地に
備えて加算器１８３がインデックス・レジスタ１８２の
内容をインクリメントすることによって、終了する。

【００７６】次に、記憶されたループでの命令の引き続
くフェッチは、Ｌ１ＩデータＲＡＭ６０でなくて分岐キ
ャッシュ・レジスタ・ファイル１７６から行なわれる。
これらのフェッチは逆方向分岐ではなく（判定１８５が
否定）、また、ループの先頭からでもない（判定１８７
が否定）が、フラグＬＦＬＡＧがセットされた逐次フェ
ッチであるので、フェッチが分岐キャッシュ・レジスタ
・ファイル１７６の容量内にある限り、判定１８９は肯
定の結果を戻す。分岐キャッシュ・レジスタ・ファイル
１７６はレジスタ１７５の有効ビットがセットされたそ
れらの命令をロードされるため、判定１９９は肯定の結
果を戻し、制御は工程２０２に進む。この場合、ループ
・キャッシュ制御論理１７４は、インデックス・レジス
タ１８２の現在の内容に対応するエントリから分岐キャ
ッシュ・レジスタ・ファイル１７６からのオプコードの
読出しを実行する一方で、Ｌ１ＩデータＲＡＭ６０が読
み出しを行うことを禁止する。マルチプレクサ６４も、
中央処理ユニット３にオプコードを供給するために分岐
キャッシュ・レジスタ・ファイル１７６の出力を選択す
るように制御される。インデックス・レジスタ１８２の
内容は再びインクリメントされて、工程１８４での次の
フェッチ番地を待つ。

【００７７】本発明のこの第２の好適な実施の形態によ
るループ・キャッシュ６２’の動作はまた、１つのルー
プが少なくとも２度実行された場合に分岐キャッシュ・
レジスタ・ファイル１７６からの命令のフェッチを許可
するが、次には逐次モードに入る（そして、逆方向分岐
からではなく、否定の結果を戻す判定１８５から）。こ
れは、レジスタ１７５のエントリ“０”に対する有効ビ
ットがセットされた基準番地レジスタ１７０の内容に等
しいフェッチ番地の任意の命令に対して制御を工程１９
８に渡して逆方向分岐からループに入ったものでない場
合でも分岐キャッシュ・レジスタ・ファイル１７６から
のオプコードのフェッチを実行する判定１８７の動作に
よって、発生する。動作はこの時点から上述した方法で
順方向に続く。

【００７８】本発明の第１の実施の形態によるループ・
キャッシュ６２の場合のように、本発明のこの第２の好
適な実施の形態によるループ・キャッシュ６２’の動作
は、ディジタル信号プロセッサやマイクロプロセッサの
ようなプログラマブル論理装置の動作に大きな利点を提
供する。特に、オプコード・フェッチが高次のキャッシ
ュ・メモリからではなくてレジスタ・ファイルから行な
われる点で、ループの実行時に顕著な電力削減が得られ
ることが考えられる。また、オプコードを含むレジスタ
・ファイルは適当な時点でロードされるだけでよく、特
別な反復ブロック命令は必要でない。

【００７９】また、本発明のこの第２の好適な実施の形
態によるループ・テール・キャッシュは、本発明の第１
の好適な実施の形態のループ・フロント・キャッシュ方
式に従って発生できる「スラッシング（thrashing）」
（すなわち、ループ・キャッシュの反復および非効率的
再ロード）の可能性を低減する。さらに、分岐キャッシ
ュ・レジスタ・ファイルは一度実行されるだけのループ
に対するオプコードをロードされない。もちろん、ルー
プ・テール・キャッシュは、分岐キャッシュ・レジスタ
・ファイルをロードするためにループを通る付加的パス
を必要とするが、多くのコード・シーケンス（特に、Ｄ
ＳＰによって実行されるそれら）は多数回実行されるル
ープを利用すると考えられており、したがって、この付
加的パスが本発明の利点を大幅に制約することはないと
考えられる。

【００８０】したがって、本発明はプログラマブル装置
に重要な電力節約を提供すると考えられる。例えば、一
組のＤＳＰベンチマークに従うシミュレーションによれ
ば、ループ・フロント・キャッシュに従う３２キャッシ
ュ・ライン・エントリ・レジスタ・ファイルに対するヒ
ット率は平均で８５％程度であり、他方、ループ・テー
ル・キャッシュに対するヒット率は平均で８０％程度で
あり、ループ・テール・キャッシュがより小型のレジス
タ・ファイルに対するより高いヒット率を示すことが分
かった。

【００８１】本発明はそれの好適な実施の形態に従って
説明されたが、これらの実施の形態に対する修正および
代替が可能であることが考えられる。本明細書を添付図
面と一緒に参照すれば、本発明の特徴および利点を得る
ためのそのような修正や代替が当業者には明らかであろ
う。そのような修正および代替は本発明の特許請求の範
囲に請求する本発明のスコープに包含されると理解され
るべきである。

【００８２】以上の説明に関して更に以下の項を開示す
る。（１）命令プログラマブル・プロセッサであって、命令
オプコードを記憶するためのプログラム・メモリと、中
央処理ユニットであって、データ処理命令を実行するた
めの１以上の実行ユニットを含み、前記プログラム・メ
モリにフェッチ番地を供給して該フェッチ番地に対応す
る命令オプコードをそこからフェッチするための命令フ
ェッチ・ユニットを含む、中央処理ユニットと、前記命
令フェッチ・ユニットに結合されたループ・キャッシュ
であって、基準フェッチ番地を記憶するための基準番地
レジスタと、分岐キャッシュ・レジスタ・ファイルであ
って、前記基準フェッチ番地から始まるフェッチ番地の
シーケンスに対応する命令コードを記憶するための複数
の記憶場所を有し、データ出力を有する、分岐キャッシ
ュ・レジスタ・ファイルと、マルチプレクサであって、
前記プログラム・メモリの出力に結合された第１の入力
を有し、前記分岐キャッシュ・レジスタ・ファイルの前
記データ出力に結合された第２の入力を有し、選択入力
を有し、前記中央処理ユニットの前記命令フェッチ・ユ
ニットに結合された出力を有する、マルチプレクサと、
ループ・キャッシュ制御論理であって、前記プログラム
・メモリの制御入力に結合された第１の制御出力を有
し、前記マルチプレクサの前記選択入力に結合された第
２の制御出力を有し、前記分岐キャッシュ・レジスタ・
ファイルに記憶されている前記命令コードの１つに対応
する前記フェッチ番地に応答して、前記分岐キャッシュ
・レジスタ・ファイルの出力を選択するように前記マル
チプレクサを制御し前記プログラム・メモリの読出しを
禁止する、ループ・キャッシュ制御論理と、を含む、ル
ープ・キャッシュと、を具備する、命令プログラマブル
・プロセッサ。

【００８３】（２）前記ループ・キャッシュ制御論理
が、前記分岐キャッシュ・レジスタ・ファイルに結合さ
れた、それへの書込みおよびそれからの読出しを制御す
るための第３の制御出力を有し、前記プログラム・メモ
リの出力が、前記分岐キャッシュ・レジスタ・ファイル
のデータ入力にも結合されており、前記ループ・キャッ
シュ制御論理が、フェッチ番地が逆方向分岐に対応する
ことを示す逆方向分岐信号を受信するための入力も有
し、前記ループ・キャッシュ制御論理が、前記分岐キャ
ッシュ・レジスタ・ファイルに記憶された前記命令コー
ドの１つに対応しない前記フェッチ番地と組み合わせて
逆方向分岐信号を受信することに応答して前記プログラ
ム・メモリからそれのデータ入力で受信された命令コー
ドを記憶するように前記分岐キャッシュ・レジスタ・フ
ァイルを制御する、第１項記載のプロセッサ。

【００８４】（３）逆方向分岐検出論理であって、前の
フェッチ番地を記憶するためのラスト・フェッチ・レジ
スタと、現在のフェッチ番地を前記ラスト・フェッチ・
レジスタの内容と比較するための比較器とを含み、該比
較器が、前記前のフェッチ番地によりも小さいか等しい
前記現在のフェッチ番地に応答して前記逆方向分岐信号
を発生するための出力を有する、逆方向分岐検出論理を
さらに具備する、第２項記載のプロセッサ。

【００８５】（４）インデックス比較器であって、前記
基準番地レジスタに結合された第１の入力を有し、前記
命令フェッチ・ユニットに結合されてそこから前記フェ
ッチ番地を受信するための第２の入力を有し、前記分岐
キャッシュ・レジスタ・ファイルの番地入力および前記
ループ・キャッシュ制御論理に結合された出力を有し、
前記フェッチ番地と前記基準フェッチ番地との差に対応
するインデックス値を提供する、インデックス比較器を
さらに具備する、第２項記載のプロセッサ。

【００８６】（５）有効ビット・レジスタであって、複
数のビット位置を含み、該複数のビット位置の各々が、
前記分岐キャッシュ・レジスタ・ファイルの前記記憶場
所の１つに関連し、前記分岐キャッシュ・レジスタ・フ
ァイルのそれに関連する記憶場所の内容が有効な命令コ
ードを含むかどうかを示す、有効ビット・レジスタをさ
らに具備する、第４項記載のプロセッサ。

【００８７】（６）前記分岐キャッシュ・レジスタ・フ
ァイルに記憶された前記命令コードの１つに対応しない
前記フェッチ番地と組み合わせて逆方向分岐信号を受信
する前記ループ・キャッシュ制御論理に応答してフェッ
チ番地を記憶するための次候補レジスタをさらに具備
し、前記基準番地レジスタが、前記次候補レジスタに結
合され、該次候補レジスタの内容に対応する前記フェッ
チ番地と組み合わせて逆方向分岐信号を受信する前記ル
ープ・キャッシュ制御論理に応答して前記次候補レジス
タの内容を基準フェッチ番地として記憶し、前記ループ
・キャッシュ制御論理が、前記次候補レジスタの内容に
対応する前記フェッチ番地と組み合わせて逆方向分岐信
号を受信することに応答して、前記プログラム・メモリ
からそれのデータ入力で受信された命令コードを記憶す
るように前記分岐キャッシュ・レジスタ・ファイルを制
御する、第２項記載のプロセッサ。

【００８８】（７）インデックス・レジスタであって、
前記分岐キャッシュ・レジスタ・ファイルの番地入力に
結合された出力を有し、前記ループ・キャッシュが各フ
ェッチ番地を受信すると前記インデックス・レジスタの
内容をインクリメントするためのインクリメンターに結
合された、インデックス・レジスタと、有効ビット・レ
ジスタであって、複数のビット位置を含み、該複数のビ
ット位置の各々が、前記分岐キャッシュ・レジスタ・フ
ァイルの前記記憶場所の１つに関連し、前記分岐キャッ
シュ・レジスタ・ファイルのそれに関連する記憶場所の
内容が有効な命令コードを含むかどうかを示す、有効ビ
ット・レジスタと、をさらに具備し、前記ループ・キャ
ッシュ制御論理が、前記命令フェッチ・ユニットからの
前記フェッチ番地が前のフェッチ番地と順番になってい
ることを示す逐次フェッチ信号を受信するための入力も
有し、前記ループ・キャッシュ制御論理が、前記逐次フ
ェッチ信号を受信するのに応答して、また、前記インデ
ックス・レジスタの内容に対応する前記記憶場所が有効
な命令コードを含まないことを示す前記有効ビット・レ
ジスタの前記ビット位置に応答して、前記インデックス
・レジスタの内容によって指示される記憶場所に、前記
プログラム・メモリからそれのデータ入力で受信された
命令コードを記憶するように前記分岐キャッシュ・レジ
スタ・ファイルを制御する、第６項記載のプロセッサ。

【００８９】（８）前記ループ・キャッシュ制御論理
が、前記逐次フェッチ信号を受信することに応答して、
また、前記インデックス・レジスタの内容に対応する前
記記憶場所が有効な命令コードを含むことを示す前記有
効ビット・レジスタの前記ビット位置に応答して、前記
インデックス・レジスタの内容によって指示される記憶
場所の内容をそれの出力で提供するように前記分岐キャ
ッシュ・レジスタ・ファイルを制御する、第７項記載の
プロセッサ。

【００９０】（９）前記プログラム・メモリが、１次の
命令メモリであって、前記ループ・キャッシュ制御論理
に結合された読出し制御入力を有し、前記マルチプレク
サに結合されたデータ出力を有する、１次の命令メモリ
と、該１次の命令メモリが命令コードを記憶するメモリ
場所に対応するタグ番地を記憶するための１次のタグ・
メモリと、１次のタグ比較器であって、前記フェッチ命
令ユニットから前記フェッチ番地を受信するための入力
を有し、前記１次のタグ・メモリに結合された入力を有
し、前記フェッチ番地を前記タグ番地と比較して前記１
次の命令メモリが有効な命令コードを記憶するメモリ場
所に前記フェッチ番地が対応するかどうかを判断する、
１次のタグ比較器と、を含む、第１項記載のプロセッ
サ。

【００９１】（１０）前記プログラム・メモリが、前記
１次の命令メモリに結合された、命令コードを記憶する
ための２次のキャッシュをさらに含む、第９項記載のプ
ロセッサ。（１１）前記プログラム・メモリおよび前記２次のキャ
ッシュが、前記中央処理ユニットと同じ集積回路上に位
置されている、第９項記載のプロセッサ。

【００９２】（１２）１次のプログラム・キャッシュ・
メモリおよび命令バッファ・サブシステムを有する、デ
ィジタル信号プロセッサのような命令プログラマブル・
プロセッサを含む電子システムが、開示されている。１
次のプログラム・キャッシュ・メモリおよび命令バッフ
ァ・サブシステムは、タグＲＡＭ（５４）およびタグ比
較器（５２）と組み合わせたプログラム・データ・ラン
ダム・アクセス・メモリ（ＲＡＭ）（６０）と、プログ
ラム・データＲＡＭ（６０）と並列なループ・キャッシ
ュ・サブシステム（６２）とを含む。命令フェッチ・ユ
ニットは、フェッチ番地をタグ比較器（５２）およびル
ープ・キャッシュ・サブシステム（６２）に供給する。
ループ・キャッシュ・サブシステム（６２）は、基準番
地から始まるフェッチ番地のシーケンスに対応する命令
オプコードを記憶するための分岐キャッシュ・レジスタ
・ファイルを含む。命令フェッチ・ユニットによって発
行されたフェッチ番地がループ・キャッシュ・サブシス
テム（６２）に対してヒットであれば、ループ・キャッ
シュ制御論理は、分岐キャッシュ・レジスタ・ファイル
へのアクセスすることを捨ててプログラム・データＲＡ
Ｍ（６０）からの読出しを禁止する。１つの開示された
実施の形態によれば、分岐キャッシュ・レジスタ・ファ
イルは、分岐キャッシュ・レジスタ・ファイルに対して
ミスである各逆方向分岐から始まるオプコードをロード
される。開示された別の実施の形態によれば、分岐キャ
ッシュ・レジスタ・ファイルは、分岐キャッシュ・レジ
スタ・ファイルに対してミスであるとともに引き続いて
二度実行された逆方向分岐から始まるオプコードをロー
ドされる。

【図面の簡単な説明】

【図１】本発明の好適な実施の形態に従って構築された
ディジタル信号プロセッサ・ベース・システムの電気回
路ブロック図である。

【図２】本発明の好適な実施の形態による図１のディジ
タル信号プロセッサの１次命令キャッシュおよび命令バ
ッファ機能の電気回路ブロック図である。

【図３】本発明の第１の好適な実施の形態による図２の
１次命令キャッシュおよび命令バッファ機能の分岐キャ
ッシュ・レジスタ・ファイル内に含まれるプログラム・
メモリの部分を示す命令シーケンスのメモリ・マップで
ある。

【図４】本発明の第１の好適な実施の形態によるループ
・キャッシュの構成を示す電気回路ブロック図である。

【図５】本発明の第１の好適な実施の形態による図４の
ループ・キャッシュの動作を示すフロー図である。

【図６】本発明の第２の実施の形態による図２の１次命
令キャッシュおよび命令バッファ機能の分岐キャッシュ
・レジスタ・ファイル内に含まれるプログラム・メモリ
の部分を示す命令シーケンスのメモリ・マップである。

【図７】本発明の第２の好適な実施の形態によるループ
・キャッシュの構成を示す電気回路ブロック図である。

【図８】本発明の第２の好適な実施の形態による図７の
ループ・キャッシュの動作を示すフロー図である。

【符号の説明】

２ディジタル信号プロセッサ３中央処理ユニット５拡張ＤＭＡコントローラ６パワーダウン論理８マルチチャンネル・バッファード・シリアル・ポー
ト７ホスト・ポート・インタフェース１０命令フェッチ・ユニット１１命令ディスパッチ・ユニット１２命令デコード・ユニット１３制御レジスタ１４制御論理１５試験論理１６エミュレーション論理１７割込論理２２〜２５機能実行ユニット３２〜３５機能実行ユニット３６Ｌ１Ｉデータ・キャッシュ３８命令バッファ・システム４０Ｌ１Ｉキャッシュおよび命令バッファ・システム４１プログラマブル・タイマー４２外部ＲＡＭ４４入出力デバイス５２タグ比較器５４Ｌ１ＩタグＲＡＭ５８Ｌ１Ｉ制御論理６０Ｌ１ＩデータＲＡＭ６２ループ・キャッシュ６４マルチプレクサ６６外側ループ６８内側ループ７０基準番地レジスタ７２加算器７４ループ・キャッシュ制御論理７５レジスタ７６分岐キャッシュ・レジスタ・ファイル７８逆方向分岐検出論理７９ラスト・フェッチ・レジスタ１６８次候補番地レジスタ１７０基準番地レジスタ１７２比較器１７３比較器１７４ループ・キャッシュ制御論理１７６分岐キャッシュ・レジスタ・ファイル１７８逆方向分岐検出論理１８０逐次フェッチ検出論理１８２インデックス・レジスタ１８３加算器

Claims

【特許請求の範囲】

【請求項１】命令プログラマブル・プロセッサであっ
て、命令オプコードを記憶するためのプログラム・メモリ
と、中央処理ユニットであって、データ処理命令を実行する
ための１以上の実行ユニットを含み、前記プログラム・
メモリにフェッチ番地を供給して該フェッチ番地に対応
する命令オプコードをそこからフェッチするための命令
フェッチ・ユニットを含む、中央処理ユニットと、前記命令フェッチ・ユニットに結合されたループ・キャ
ッシュであって、基準フェッチ番地を記憶するための基準番地レジスタ
と、分岐キャッシュ・レジスタ・ファイルであって、前記基
準フェッチ番地から始まるフェッチ番地のシーケンスに
対応する命令コードを記憶するための複数の記憶場所を
有し、データ出力を有する、分岐キャッシュ・レジスタ
・ファイルと、マルチプレクサであって、前記プログラム・メモリの出
力に結合された第１の入力を有し、前記分岐キャッシュ
・レジスタ・ファイルの前記データ出力に結合された第
２の入力を有し、選択入力を有し、前記中央処理ユニッ
トの前記命令フェッチ・ユニットに結合された出力を有
する、マルチプレクサと、ループ・キャッシュ制御論理であって、前記プログラム
・メモリの制御入力に結合された第１の制御出力を有
し、前記マルチプレクサの前記選択入力に結合された第
２の制御出力を有し、前記分岐キャッシュ・レジスタ・
ファイルに記憶されている前記命令コードの１つに対応
する前記フェッチ番地に応答して、前記分岐キャッシュ
・レジスタ・ファイルの出力を選択するように前記マル
チプレクサを制御し前記プログラム・メモリの読出しを
禁止する、ループ・キャッシュ制御論理と、を含む、ル
ープ・キャッシュと、を具備する、命令プログラマブル・プロセッサ。