JP2000267934A

JP2000267934A - キャッシュ・ミスのベンチマーク・テスト

Info

Publication number: JP2000267934A
Application number: JP2000063092A
Authority: JP
Inventors: Gilbert Laurenti; ラウレンティジルベルト; Mark Buser; ブセルマーク
Original assignee: Texas Instruments Inc
Current assignee: Texas Instruments Inc
Priority date: 1999-03-08
Filing date: 2000-03-08
Publication date: 2000-09-29

Abstract

(57)【要約】【課題】無線電話用や制御専用のプログラマブルＤＳＰ
の電力消費を低くしＤＳＰアルゴリズムの実行の効率を
高める方法および装置を提供する。【解決手段】ディジタル信号プロセッサは、可変命令長
で、コード密度が高く、プログラミングが容易であり、
構造および命令集合は、ＤＳＰアルゴリズムを低い電力
消費および高い効率で実行するように最適化される。単
一集積回路８００上のメガセル内にキャッシュ８１４を
設けて命令アクセス時間を短縮する。メガセル内に性能
監視回路８５２を含み、選択された信号を監視してベン
チマーク事象を収集する。性能監視回路にはＪＴＡＧイ
ンターフェース８５０を介して問い合わせることができ
る。キャッシュから性能監視回路にキャッシュ・ミス信
号８１６を送って内部キャッシュの性能を決定する。メ
ガセル内のウインドウ回路８２４により、選択された実
行のウインドウの間にベンチマーク事象を収集する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本出願は、Ｓ．Ｎ．９９４０
０５５３．６、欧州において１９９９年３月８日出願、
およびＳ．Ｎ．９８４０２４５５．４、欧州において１
９９８年１０月６日出願（ＴＩ−２８４３３ＥＵ）に対
して先順位をクレームする。

【０００２】本発明は、ディジタル・マイクロプロセッ
サに関し、特に、ディジタル・マイクロプロセッサの性
能を監視することに関する。

【０００３】

【従来の技術】マイクロプロセッサは、ソフトウエアを
実行するために大きい命令処理量を必要とするとともに
含まれる特定のソフトウエア・アプリケーションに従っ
て広範囲の処理要求を有することができる汎用プロセッ
サである。マイクロプロセッサ内部のキャッシュは、命
令アクセス時間を短縮させる。既知のマイクロプロセッ
サ・デバッグ環境は、特定のルーチンまたはコードを実
行するのに必要なサイクルまたは命令の量を決定するこ
とができるコード・プロファイリング機能を持つ。しか
し、マイクロプロセッサ内部のキャッシュを直接見るこ
とはできない。したがって、一般に、キャッシュ性能を
決めることはできない。

【０００４】

【発明が解決しようとする課題】プロセッサには多くの
異なる種類があり、マイクロプロセッサはその１つに過
ぎない。例えば、ディジタル信号プロセッサ（ＤＳＰ）
は、広く、特に移動体処理応用のような特定のアプリケ
ーションに用いられている。一般に、ＤＳＰは、関係す
るアプリケーションの性能を最適にするように構成され
ており、これを達成するために、専用の実行ユニットお
よび命令集合を用いる。特に、これに限定されるわけで
はないが、移動体電気通信のようなアプリケーションで
は、電力消費をできるだけ小さく保ちながらＤＳＰ性能
を向上させることが望まれる。

【０００５】

【課題を解決するための手段】本発明の特定の好ましい
態様は、添付の独立および従属クレームに示されてい
る。従属クレームからの機能の組合せを独立クレームの
機能に適宜組み合わせてあり、必ずしもクレームに明示
的に示してはいない。本発明は、これに限定されるわけ
ではないが例えばディジタル信号プロセッサのようなプ
ロセッサの性能を向上させることに向けられている。

【０００６】本発明の第１の態様によれば、高いコード
密度およびプログラミングの容易さを兼ね備えたマイク
ロプロセッサすなわちプログラマブル・ディジタル信号
プロセッサ（ＤＳＰ）を提供する。構成（アーキテクチ
ャ）および命令集合は、電力消費を低くし、かつ、無線
電話や専用の制御タスク用のようなＤＳＰアルゴリズム
の実行の効率を高めるように、最適化されている。マイ
クロプロセッサは、命令のシーケンスの第１の命令を復
号する命令バッファ・ユニットと、命令バッファ・ユニ
ットによって復号されるべき命令のシーケンスの第１の
命令を識別する第１の命令アドレスを与えるプログラム
・カウンタ回路とを有する。第１の命令のコピーを記憶
するキャッシュ回路は、プログラム・カウンタ回路に接
続され、また、命令バスにも接続されている。キャッシ
ュ回路は、プログラム・カウンタ回路からの第１の命令
アドレスに応じて第１の命令を命令バッファに与える
か、第１の命令がキャッシュに記憶されていない場合に
はミス信号を表明する。計数回路は、ミス信号が表明さ
れる度にベンチマーク事象をカウントする。監視点回路
は、計数回路に接続されて、計数回路を使用可能（イネ
ーブル）および使用禁止（ディスエーブル）にする。

【０００７】本発明の別の態様によれば、計数回路は、
ベンチマーク事象としてカウントするために複数の性能
指標信号から選択する制御回路を含み、ここで、ミス信
号は複数の性能指標信号の１つである。本発明の別の態
様によれば、監視点回路は、プログラム・カウンタ回路
に接続されて、プログラム・カウンタ回路によって与え
られる第２の命令アドレスに応じて計数回路を使用可能
にする。

【０００８】本発明の別の態様によれば、ディジタル装
置を操作する方法が提供される。マイクロプロセッサ
は、命令バッファ・ユニットによって復号されるべき命
令のシーケンスの第１の命令を識別する命令アドレスを
与え、第１の命令がキャッシュ回路にある場合にはキャ
ッシュ回路から第１の命令をアクセスし、第１の命令が
キャッシュ回路にない場合にはキャッシュ・ミス事象が
起こったことを示して別のメモリ回路から第１の命令を
アクセスし、命令バッファ・ユニットの命令のシーケン
スの第１の命令を復号することによって、命令のシーケ
ンスを実行する。命令アドレスを与えるステップ，アク
セスするステップおよび復号するステップが繰り返され
てキャッシュ・ミス事象のシーケンスを生成する。ベン
チマーク事象の選択された集合がカウントされてディジ
タル装置の性能の測度を決定するが、ここで、ベンチマ
ーク事象はキャッシュ・ミス事象である。

【０００９】本発明の別の態様によれば、カウントする
ステップは、第１のデータ値に応じてカウントするステ
ップを開始するステップと、第２のデータ値に応じてカ
ウントするステップを停止するステップとを備え、ベン
チマーク事象の選択された集合が第１のデータ値の発生
と第２のデータ値の発生との間に起こるようにする。

【００１０】本発明による特定の実施の形態について、
単なる例として添付の図面を参照して説明する。同じ参
照符号は同じ部品を指し、別に指定のない限り、各図面
は図１のプロセッサに関係する。

【００１１】

【発明の実施の形態】本発明は、例えば特殊用途向け集
積回路（ＡＳＩＣ）内に実現されるディジタル信号プロ
セッサ（ＤＳＰ）に特に用いられるが、他の種類のプロ
セッサにも用いられる。本発明によるプロセッサの一例
の基本的構成について以下に説明する。プロセッサ１０
０は、可変命令長（８ビットから４８ビット）のプログ
ラマブル固定小数点ＤＳＰコアであって、コード密度が
高くプログラミングが容易である。構成および命令集合
は、電力消費を低くし、かつ、無線電話や専用の制御タ
スク用のようなＤＳＰアルゴリズムの実行の効率を高め
るように、最適化されている。プロセッサ１００は、エ
ミュレーションおよびコード・デバッグの機能を含む。

【００１２】図１は、本発明の一実施の形態によるディ
ジタル装置１０の概略図である。ディジタル装置は、プ
ロセッサ１００とプロセッサ・バックプレーン２０とを
含む。本発明の特定の例では、ディジタル装置は、特殊
用途向け集積回路（ＡＳＩＣ）で実現されたディジタル
信号プロセッサ装置１０である。簡単のために、図１
は、本発明の実施の形態を理解するのに必要なマイクロ
プロセッサ１００のそれらの部分だけを示す。ＤＳＰの
一般的な構造の詳細は良く知られているので、別の文献
を参照していただきたい。例えば、Frederick Boutaud
らに発行された米国特許第５，０７２，４１８号はＤＳ
Ｐについて詳細に説明しているので、ここに援用する。
Gary Swoboda らに発行された米国特許第５，３２９，
４７１号はＤＳＰを試験しエミュレートする方法につい
て詳細に説明しているので、ここに援用する。マイクロ
プロセッサ技術の当業者が本発明を製作し使用すること
ができるように、本発明の一実施の形態に関するマイク
ロプロセッサ１００の一部の詳細について以下に説明す
る。

【００１３】本発明の態様の恩恵を被ることのできるい
くつかの例示の装置は、ここに援用した米国特許第５，
０７２，４１８号に、特に米国特許第５，０７２，４１
８号の図２から図１８を参照して述べられている。性能
を向上させコストを削減する本発明の態様を組み込んだ
マイクロプロセッサを用いれば、米国特許第５，０７
２，４１８号に述べられた装置を更に改善することがで
きる。かかる装置は、これらに限定されるわけではない
が、工業的プロセス制御，自動車システム，モータ制
御，ロボット制御装置，衛星通信システム，エコー消去
装置，モデム，ビデオ映像装置，音声認識装置，暗号化
されたボコーダ・モデム装置などを含む。図１のマイク
ロプロセッサの種々の構造の特徴の説明および命令の完
全な集合の説明は、本出願人に譲渡された出願番号第０
９／４１０，９７７号（ＴＩ−２８４３３）に述べられ
ているので、これをここに援用する。

【００１４】図１に示すように、プロセッサ１００は、
プロセッサ・コア１０２と、プロセッサ・コア１０２を
プロセッサ・コア１０２の外部にあるメモリ・ユニット
とインターフェースするメモリ・インターフェース・ユ
ニット１０４とを有する中央処理装置（ＣＰＵ）を形成
する。プロセッサ・バックプレーン２０は、プロセッサ
のメモリ管理ユニット１０４が接続されたバックプレー
ン・バス２２を含む。バックプレーン・バス２２には、
命令メモリ２４，周辺装置２６および外部インターフェ
ース２８も接続されている。理解されるように、他の例
では、異なる構成および／または異なる技術を用いて本
発明を実現することができる。例えば、プロセッサ１０
０は、プロセッサ・バックプレーン２０をそこから分離
して、第１の集積回路を形成してもよい。例えば、プロ
セッサ１００は、バックプレーン・バス２２と周辺およ
び外部インターフェースとを支援するバックプレーン２
０から離してその上に取り付けたＤＳＰであってもよ
い。例えば、プロセッサ１００は、ＤＳＰではなくマイ
クロプロセッサでもよいし、また、ＡＳＩＣ技術以外の
技術で実現してもよい。このプロセッサまたはこのプロ
セッサを含むプロセッサを１つ以上の集積回路に実現し
てもよい。

【００１５】図２は、プロセッサ・コア１０２の一実施
の形態の基本構造を示す。図示するように、プロセッサ
・コア１０２のこの実施の形態は、４つの要素、すなわ
ち、命令バッファ・ユニット（Ｉユニット）１０６と３
つの実行ユニットとを含む。実行ユニットは、プログラ
ム・フロー・ユニット（Ｐユニット）１０８と、アドレ
ス・データ・フロー・ユニット（Ａユニット）１１０
と、命令バッファ・ユニット（Ｉユニット）１０６から
復号された命令を実行するとともにプログラム・フロー
を制御し監視するデータ計算ユニット（Ｄユニット）１
１２とである。

【００１６】図３は、プロセッサ・コア１０２のＰユニ
ット１０８，Ａユニット１１０およびＤユニット１１２
をもっと詳細に示す図であり、また、プロセッサ・コア
１０２の種々の要素を接続するバス構造を示す。Ｐユニ
ット１０８は、例えば、ループ制御回路と、ＧｏＴｏ／
分岐制御回路と、反復カウンタ・レジスタや割込みマス
ク，フラグまたはベクトル・レジスタのようなプログラ
ム・フローを制御し監視する種々のレジスタとを含む。
Ｐユニット１０８は、汎用データ書込みバス（ＥＢ，Ｆ
Ｂ）１３０，１３２と、データ読取りバス（ＣＢ，Ｄ
Ｂ）１３４，１３６と、アドレス定数バス（ＫＡＢ）１
４２とに結合されている。また、Ｐユニット１０８は、
ＣＳＲ，ＡＣＢおよびＲＧＤとラベルされた種々のバス
を介してＡユニット１１０およびＤユニット１１２内の
サブユニットに結合されている。

【００１７】図３に示すように、この実施の形態では、
Ａユニット１１０はレジスタ・ファイル３０とデータ・
アドレス生成サブユニット（ＤＡＧＥＮ）３２と算術・
論理演算ユニット（ＡＬＵ）３４とを含む。Ａユニット
・レジスタ・ファイル３０は種々のレジスタを含む。例
えば、１６ビット・ポインタ・レジスタ（ＡＲ０〜ＡＲ
７）と、データ・フローおよびアドレス生成にも用いら
れるデータ・レジスタ（ＤＲ０〜ＤＲ３）とである。ま
た、レジスタ・ファイルは、１６ビット循環バッファ・
レジスタと７ビットのデータ・ページ・レジスタとを含
む。汎用バス（ＥＢ，ＦＢ，ＣＢ，ＤＢ）１３０，１３
２，１３４，１３６の他に、データ定数バス１４０およ
びアドレス定数バス１４２もＡユニット・レジスタ・フ
ァイル３０に結合されている。Ａユニット・レジスタ・
ファイル３０は、それぞれ逆方向に動作する一方向バス
１４４，１４６を介してＡユニットＤＡＧＥＮユニット
３２に結合されている。ＤＡＧＥＮユニット３２は、例
えば処理エンジン１００内のアドレス生成を制御し監視
する１６ビット・Ｘ／Ｙレジスタと係数／スタック・ポ
インタ・レジスタとを含む。

【００１８】Ａユニット１１０は、加算，減算およびＡ
ＮＤ，ＯＲ，ＸＯＲ論理演算子のようなＡＬＵに一般に
関連する機能とともにシフタ機能を含むＡＬＵ３４も含
む。ＡＬＵ３４は、汎用バス（ＥＢ，ＤＢ）１３０，１
３６および命令定数データ・バス（ＫＤＢ）１４０にも
結合されている。ＡユニットＡＬＵは、ＰＤＡバスを介
してＰユニット１０８に結合されて、Ｐユニット１０８
レジスタ・ファイルからレジスタ定数を受ける。ＡＬＵ
３４は、バスＲＧＡ，ＲＧＢを介してＡユニット・レジ
スタ・ファイル３０にも結合されて、アドレスおよびデ
ータ・レジスタの内容を受けるとともに、バスＲＧＤを
介してレジスタ・ファイル３０のアドレスおよびデータ
・レジスタの内容を転送する。

【００１９】本発明の例示の実施の形態によれば、Ｄユ
ニット１１２は、Ｄユニット・レジスタ・ファイル３６
と、ＤユニットＡＬＵ３８と、Ｄユニット・シフタ４０
と、２つの乗算および累算ユニット（ＭＡＣ１，ＭＡＣ
２）４２，４４とを含む。Ｄユニット・レジスタ・ファ
イル３６とＤユニットＡＬＵ３８とＤユニット・シフタ
４０とはバス（ＥＢ，ＦＢ，ＣＢ，ＤＢ，ＫＤＢ）１３
０，１３２，１３４，１３６，１４０に結合され、ま
た、ＭＡＣユニット４２，４４はバス（ＣＢ，ＤＢ，Ｋ
ＤＢ）１３４，１３６，１４０とデータ読取りバス（Ｂ
Ｂ）１４４とに結合されている。Ｄユニット・レジスタ
・ファイル３６は、４０ビット累算器（ＡＣ０〜ＡＣ
３）と１６ビット遷移レジスタとを含む。Ｄユニット１
１２は、４０ビット累算器の他に、発信元レジスタまた
は宛先レジスタとしてＡユニット１１０の１６ビット・
ポインタおよびデータ・レジスタも用いる。Ｄユニット
・レジスタ・ファイル３６は、累積器書込みバス（ＡＣ
Ｗ０，ＡＣＷ１）１４６，１４８を介してＤユニットＡ
ＬＵ３８とＭＡＣ１４２とＭＡＣ２４４とからデー
タを受け、また、累積器書込みバス（ＡＣＷ１）１４８
を介してＤユニット・シフタ４０からデータを受ける。
データは、Ｄユニット・レジスタ・ファイル累積器から
累積器読取りバス（ＡＣＲ０，ＡＣＲ１）１５０，１５
２を介してＤユニットＡＬＵ３８，Ｄユニット・シフタ
４０，ＭＡＣ１４２およびＭＡＣ２４４に読み取ら
れる。ＤユニットＡＬＵ３８およびＤユニット・シフタ
４０は、ＥＦＣ，ＤＲＢ，ＤＲ２およびＡＣＢとラベル
された種々のバスを介してＡユニット１０８のサブユニ
ットにも結合されている。

【００２０】図４を参照すると、３２語の命令バッファ
待ち行列（ＩＢＱ）５０２を含む本発明による命令バッ
ファ・ユニット１０６が示されている。ＩＢＱ５０２
は、８ビット・バイト５０６に論理的に分割された３２
×１６ビットのレジスタ５０４を含む。命令は、３２ビ
ットのプログラム・バス（ＰＢ）１２２を介してＩＢＱ
５０２に到着する。命令は、ローカル書込みプログラム
・カウンタ（ＬＷＰＣ）５３２によって指し示される位
置に３２ビット・サイクルで取り出される。ＬＷＰＣ５
３２は、Ｐユニット１０８にあるレジスタに含まれてい
る。Ｐユニット１０８も、ローカル読取りプログラム・
カウンタ（ＬＲＰＣ）５３６レジスタと、書込みプログ
ラム・カウンタ（ＷＰＣ）５３０レジスタと、読取りプ
ログラム・カウンタ（ＲＰＣ）５３４レジスタとを含
む。ＬＲＰＣ５３６は、命令デコーダ５１２，５１４に
ロードされるべき次の命令のＩＢＱ５０２内の位置を指
し示す。すなわち、ＬＲＰＣ５３６は、デコーダ５１
２，５１４に現在ディスパッチされている命令のＩＢＱ
５０２内の位置を指し示す。ＷＰＣは、プログラム・メ
モリにおけるパイプライン用の次の４バイトの命令コー
ドの開始アドレスを指し示す。ＩＢＱに取り出す度に、
プログラム・メモリからの次の４バイトが命令境界に関
わらず取り出される。ＲＰＣ５３４は、デコーダ５１２
／５１４に現在ディスパッチされている命令のプログラ
ム・メモリのアドレスを指し示す。

【００２１】この実施の形態では、命令は、４８ビット
語で形成され、マルチプレクサ５２０，５２１を介して
４８ビットのバス５１６により命令デコーダ５１２，５
１４にロードされる。当業者には明らかなように、命令
は４８ビット以外で構成された語に形成されてもよく、
本発明は上述した特定の実施の形態に限定されるもので
はない。

【００２２】現在好ましいとされる４８ビット語サイズ
に対して、バス５１６は、並列に実行される任意の１命
令サイクル中に最大２命令（デコーダ当たり１命令）を
ロードすることができる。命令の組合せは、４８ビット
のバスに適合する任意の書式（８，１６，２４，３２，
４０および４８ビット）の組合せでよい。１サイクル中
に１命令だけをロードする場合は、デコーダ２５１４
よりデコーダ１５１２の方を優先してロードする。次
に、各命令が、それらを実行するとともに、命令または
操作が実行されるべきデータをアクセスするために、各
機能ユニットに送られる。命令デコーダに渡される前
に、命令はバイト境界上で整列される。整列は、その復
号中に前の命令に対して得られた書式に基づいて行われ
る。バイト境界との命令の整列に関連する多重化はマル
チプレクサ５２０，５２１で行われる。

【００２３】２つの命令の一方が並列イネーブル・ビッ
トを持つ場合は、２つの命令を並列に入れることができ
る。かかる種類の並列方式を支援するハードウエアを並
列イネーブル機構と呼ぶ。同様に、２つの命令が両方と
も間接モードで単一データ・メモリ・アクセス（Ｓｍｅ
ｍまたはｄｂｌ（ｌｍｅｍ））を行う場合は、２つの命
令を並列に入れることができる。かかる種類の並列方式
を支援するハードウエアをソフト二重機構と呼ぶ。

【００２４】プロセッサ・コア１０２は７段階のパイプ
ラインにより命令を実行する。その各段階について、表
１と図５を参照して以下に説明する。どこ（Ａユニット
かＤユニット）で実行するかに関わらず、７段階のパイ
プラインによりプロセッサ命令を実行する。本発明の一
態様によれば、プログラム・コード・サイズを小さくす
るために、ＣコンパイラはＡユニットでの実行のために
できるだけ多くの命令をディスパッチするので、Ｄユニ
ットは、電力を節約するために電源を切られてもよい。
このため、Ａユニットは、メモリ・オペランドで実行さ
れる基本的動作を支援する必要がある。

【００２５】

【表１】

【００２６】パイプラインの第１段階は、事前取出し
（Ｐ０）段階２０２であり、この段階中では、メモリ・
インターフェース１０４のアドレス・バス（ＰＡＢ）１
１８上にアドレスを表明することによって、次のプログ
ラム・メモリ位置がアドレスされる。次の段階の取出し
（Ｐ１）段階２０４では、プログラム・メモリが読み取
られ、メモリ・インターフェース・ユニット１０４から
ＰＢバス１２２を介してＩユニット１０６が満たされ
る。事前取出しおよび取出し段階は、他のパイプライン
段階から切り離されており、事前取出しおよび取出し段
階中はパイプラインに割り込んで、連続したプログラム
・フローを中断するとともに、プログラム・メモリ内の
別の命令（例えば、分岐命令）を指し示すことができ
る。

【００２７】次に、第３段階の復号（Ｐ２）段階２０６
では、命令バッファ内の次の命令がデコーダ５１２／５
１４にディスパッチされ、命令が復号されるとともにそ
の命令を実行する実行ユニット（例えば、Ｐユニット１
０８，Ａユニット１１０またはＤユニット１１２）にデ
ィスパッチされる。復号段階２０６は、命令の種類を示
す第１の部分と命令の書式を示す第２の部分と命令用の
アドレス指定モードを示す第３の部分とを含む命令の少
なくとも一部を復号することを含む。次の段階はアドレ
ス（Ｐ３）段階２０８であり、そこでは、命令で用いら
れるべきデータのアドレスが計算されるか、命令がプロ
グラムの分岐またはジャンプを必要とする場合は新しい
プログラム・アドレスが計算される。各計算はＡユニッ
ト１１０またはＰユニット１０８でそれぞれ行う。

【００２８】アクセス（Ｐ４）段階２１０では、読取り
オペランドのアドレスが生成され、また、そのアドレス
がＹｍｅｍ間接アドレス指定モードでＤＡＧＥＮＹオ
ペレータで生成されているメモリ・オペランドが、間接
的にアドレスされたＹメモリ（Ｙｍｅｍ）から読み取ら
れる。パイプラインの次の段階は、そのアドレスがＸｍ
ｅｍ間接アドレス指定モードでＤＡＧＥＮＸ内でまた
は係数アドレス・モードでＤＡＧＥＮＣオペレータで
生成されているメモリ・オペランドが読み取られる読取
り（Ｐ５）段階２１２である。命令の結果が書き込まれ
るべきメモリ位置のアドレスが生成される。

【００２９】最後は、Ａユニット１１０またはＤユニッ
ト１１２のいずれかで命令が実行される実行（Ｐ６）段
階２１４である。次に、その結果がデータ・レジスタす
なわち累算器に記憶されるか、読取り／変更／書込み命
令用のメモリに書き込まれる。更に、シフト操作が、実
行段階中に累算器でデータについて行われる。プロセッ
サ１００のパイプラインは保護されている。これによ
り、ＮＯＰ命令が待ち時間の要求を満たすために挿入さ
れる必要がなくなるので、Ｃコンパイラ性能が大幅に向
上する。また、これにより、前の生成プロセッサから後
の生成プロセッサへのコード変換が非常に容易になる。

【００３０】プロセッサ１００で用いられるパイプライ
ン保護の基本的規則は、次の通りである。実行中の読取
りアクセスが終了する前に書込みアクセスが開始され、
かつ、両方のアクセスが同じ資源を共用する場合は、追
加のサイクルが挿入されて、書込みを完了させ、更新さ
れたオペランドで次の命令を実行することができるよう
にするが、エミュレーションについては、単一ステップ
・コード実行がフリーランニング・コード実行と全く同
様に行われなければならない。

【００３１】パイプライン・プロセッサの動作の基本的
原理について、図５を参照して以下に説明する。図５か
ら分かるように、第１の命令３０２では、連続するパイ
プライン段階が時間Ｔ₁〜Ｔ₇の間に実行される。各時間
は、プロセッサ・マシン・クロックの１クロック・サイ
クルである。第２の命令３０４は、時間Ｔ₂にパイプラ
インに入ることができる。なぜなら、前の命令はすでに
次のパイプライン段階に移っているからである。命令３
（３０６）では、事前取出し段階２０２が時間Ｔ₃に起
こる。図５から分かるように、第７段階のパイプライン
では、７命令全部を同時に処理することができる。７つ
の命令３０２〜３１４全部に対して、図５は、時間Ｔ₇
で処理中であるそれらすべてを示す。このような構造
は、命令の処理に並列形式を付加する。

【００３２】図６に示すように、本発明のこの実施の形
態は、２４ビットのアドレス・バス１１８および３２ビ
ットの双方向データ・バス１２０を介して外部プログラ
ム記憶ユニット１５０に結合されているメモリ・インタ
ーフェース・ユニット１０４を含む。また、メモリ・イ
ンターフェース・ユニット１０４は、２４ビットのアド
レス・バス１１４および双方向の１６ビットのデータ・
バス１１６を介してデータ記憶ユニット１５１に結合さ
れている。メモリ・インターフェース・ユニット１０４
は、３２ビットのプログラム読取りバス（ＰＢ）１２２
を介してマシン・プロセッサ・コア１０２のＩユニット
１０６にも結合されている。Ｐユニット１０８，Ａユニ
ット１１０およびＤユニット１１２は、データ読取りお
よびデータ書込みバスとこれに対応するアドレスバスと
を介してメモリ・インターフェース・ユニット１０４に
結合されている。Ｐユニット１０８はプログラム・アド
レス・バス１２８に更に結合されている。

【００３３】より詳しく述べると、Ｐユニット１０８
は、２４ビットのプログラム・アドレス・バス１２８と
２つの１６ビットのデータ書込みバス（ＥＢ，ＦＢ）１
３０，１３２と２つの１６ビットのデータ読取りバス
（ＣＢ，ＤＢ）１３４，１３６とを介してメモリ・イン
ターフェース・ユニット１０４に結合されている。Ａユ
ニット１１０は、２つの２４ビットのデータ書込みアド
レス・バス（ＥＡＢ，ＦＡＢ）１６０，１６２と２つの
１６ビットのデータ書込みバス（ＥＢ，ＦＢ）１３０，
１３２と３つのデータ読取りアドレス・バス（ＢＡＢ，
ＣＡＢ，ＤＡＢ）１６４，１６６，１６８と２つの１６
ビットのデータ読取りバス（ＣＢ，ＤＢ）１３４，１３
６とを介してメモリ・インターフェース・ユニット１０
４に結合されている。Ｄユニット１１２は、２つのデー
タ書込みバス（ＥＢ，ＦＢ）１３０，１３２と３つのデ
ータ読取りバス（ＢＢ，ＣＢ，ＤＢ）１４４，１３４，
１３６とを介してメモリ・インターフェース・ユニット
１０４に結合されている。

【００３４】図６は、１２４でＩユニット１０６からＰ
ユニット１０８への命令の受け渡し、例えば分岐命令を
送ることを表す。また、図６は、１２６および１２８で
Ｉユニット１０６からＡユニット１１０およびＤユニッ
ト１１２へのデータの受け渡しを表す。

【００３５】図７に示すように、プロセッサ１００は統
一プログラム／データ空間の周りに組織化されている。
プログラム・ポインタは、内部では２４ビットであっ
て、バイトアドレス指定機能を持つが、プログラムの取
出しが常に３２ビット境界で行われるので２２ビットの
アドレスだけがメモリに送られる。しかし、例えばソフ
トウエア開発のためのエミュレーション中は、ハードウ
エア区切り点を実現するために全２４ビットのアドレス
が与えられる。データ・ポインタは７ビットの主データ
・ページで拡張された１６ビットであり、語アドレス指
定機能を有する。

【００３６】ソフトウエアは最大３主データ・ページを
次のように定義する。・ＭＤＰ直接アクセス間接アクセスＣＤＰ・ＭＤＰ０５ − 間接アクセスＡＲ［０〜５］・ＭＤＰ６７ − 間接アクセスＡＲ［６〜７］スタックは、維持されて、主データ・ページ０に常駐す
る。ＣＰＵメモリ・マップ・レジスタは全てのページか
ら見える。プロセッサ１００の種々の態様を表２に要約
する。

【００３７】

【表２】

【００３８】図８は、本発明の種々の態様による、プロ
セッサ１００を有するとともにベンチマーク回路８５２
に関連するディジタル装置を示すブロック図である。こ
の実施の形態では、いくつかの個々のＡＳＩＣ構成要素
セルが組み合わされて単一集積回路上にメガセル８００
を形成する。プロセッサ１００はメモリ・インターフェ
ース８１０に接続されている。命令は、キャッシュ８１
４から、内部メモリ８１２から、または、外部メモリ・
インターフェース８０２を介して外部メモリ８３０から
得られる。プログラム取出しアドレス・バス８２０は、
ＲＰＣ５３４（図４参照）に応じてキャッシュ８１４ま
たはメモリ８１２，８３０にプログラム・カウンタ・ア
ドレスを与える。キャッシュ・ミスが起こると、キャッ
シュはバス８１５を介して外部メモリ８３０にプログラ
ム取出しを要求する。この場合、命令データはバス８０
８を介してプロセッサ・コア１０２に与えられ、また、
キャッシュはバス８０９を介して更新される。

【００３９】本発明の一態様によれば、キャッシュ・ミ
ス信号８１６がベンチマーク回路８５２に与えられるの
で、選択された時間内の各キャッシュ・ミスはベンチマ
ーク事象としてカウントされる。ハードウエア区切り点
／ウインドウ点回路８２４は、アドレス・バス８２０を
監視し、予め選択されたアドレスまたはアドレス範囲が
検出されるとウインドウ信号８２５をベンチマーク回路
８５２に送る。エミュレーション回路８５１は、ＪＴＡ
Ｇ試験ポート８５０を介してメガセル８００内の種々の
構成要素にアクセスすることができる。メモリ読取りお
よび書込み要求は、プロセッサ・コア１０２に要求を送
ることによってエミュレーション・バス８５３を介して
エミュレーション回路により行われる。

【００４０】エミュレーション回路８５１は、デバッグ
および試験直接メモリ・アクセス（ＤＴ−ＤＭＡ）機構
を介して、直接ＣＰＵから介入を受けずに共通デバッグ
・アクセス（メモリおよびレジスタの読取りおよび書込
み）を行う。これらのアクセスはＣＰＵ時間に侵入する
ので、状態／制御レジスタ１（ＳＴ１）内のあるビット
をセットすることによってデバッグ・モード（ＤＢＧ
Ｍ）を動作禁止にしてオプション的に妨げることができ
る。これは、後で説明するように、デバッガ・ソフトウ
エアを用いてオーバーライドされる。通常のデバッガ動
作の下では、ＤＴ−ＤＭＡアクセスが用いるＣＰＵ時間
は極くわずかである。例えば、デバッガ・スクリーンは
アクセスする１，０００メモリ語を含み、スクリーンは
毎秒１０回更新されるとする。デバッガは毎秒１０，０
００ＤＴ−ＤＭＡアクセスを行う。各ＤＴ−ＤＭＡアク
セスはＣＰＵ時間の１サイクルかかるものとし（これは
非常に単純化した推定である）、ＣＰＵは１００ＭＩＰ
（サイクルあたり１０ｎｓ）で実行しているとする。デ
バッグ・オーバーヘッドは０．０１％であろう（ＤＴ−
ＤＭＡアクセスが数サイクルかかる場合は、その数に
０．０１％を掛ければオーバーヘッド速度が得られ
る）。

【００４１】理解されるように、デバッガ・スクリーン
上に示される情報はターゲットから異なる時間に集めら
れるので、ターゲット状態のスナップショットではなく
複合を表す。また、データを処理して表示するにはホス
ト時間かかるので、表示は、現在のターゲット状態では
なく、数ミリ秒前のターゲット状態に対応する。

【００４２】試験ホストからメモリ・マップ周辺レジス
タへのアクセスもＤＴ−ＤＭＡ機構を介して行われる。
ＤＴ−ＤＭＡ機構はＣＰＵと同じメモリ・アクセス機構
を用いるので、ＣＰＵが単一動作で行うことができる任
意の読取りまたは書込みアクセスは、ＤＴ−ＤＭＡメモ
リ・アクセスを介して行うことができる。ＤＴ−ＤＭＡ
機構は、バス８５３を介したＣＰＵへのアドレス（書込
みの場合はデータ）を与え、オープン・バス・サイクル
・スロット中にその動作を行うであろう。ＣＰＵが所望
のデータを得ると、これはＤＴ−ＤＭＡ機構に戻され
る。

【００４３】ＤＴ−ＤＭＡ機構は、優先モードまたは非
優先モードのいずれかで動作する。非優先モードでは、
ＤＴ−ＤＭＡ機構は、所望のメモリ・バスが未使用にな
るのを１サイクル間待ち（ホールと呼ぶ）、その後で、
ＤＴ−ＤＭＡはこれを用いて読取りまたは書込み動作を
行う。もちろん、これらのメモリ・ホールは、ＣＰＵが
実行中に（例えば、新しく取り出されたデータを待って
いるときか、パイプライン保護サイクル中に）起こる。
プログラム・メモリ・ホールは、取出し待ち行列が一杯
のときに分岐のない命令がいくつか連続すると起こる。
優先モードでは、空白がパイプラインの１０進段階（de
cade stage）内に押し込まれて、本質的にホールを作
る。待ちゼロ状態のメモリへの非優先的アクセスはＣＰ
Ｕのサイクルを奪わない。待ち状態のメモリにアクセス
する場合は、各待ち状態の間はパイプラインは機能を停
止する。これは、通常のメモリ・アクセスを行うと機能
停止ＣＰＵレジスタに常に優先的にアクセスしなければ
ならないのと同様である。また、デバッグ・ソフトウエ
アがＤＴ−ＤＭＡ機構を用いていくつかの命令をパイプ
ラインに押し込むこともできる。これは優先的に行われ
なければならない。

【００４４】ＪＴＡＧインターフェース８５０は、ＩＥ
ＥＥ１１４９．１，１９９０，「標準試験アクセス・ポ
ートおよび境界走査構造」の構造を改善したものであ
る。ここに用いられているＩＥＥＥ１１４９．１に関す
る用語および概念は、このＩＥＥＥ標準で詳しく説明さ
れている。

【００４５】ＩＥＥＥ１１４９．１標準は、システム内
に埋め込まれた１つ以上の装置を選択することのできる
通信プロトコルを提供する。このプロトコルは、オンチ
ップ・デバッグおよび試験機能を制御するのに必要なプ
リミティブを実現する。本発明のＪＴＡＧデバッグ・イ
ンターフェース８５０は、標準ＩＥＥＥインターフェー
スの５つの端末バージョン（ｎＴＲＳＴ，ＴＣＫ，ＴＭ
Ｓ，ＴＤＩ，ＴＤＯ）に２つの付加端末（ｎＥＴ１，ｎ
ＥＴ０）を追加する。ｎＴＲＳＴをデバッグ・インター
フェース定義に含めると、システム設計が簡単になる。
その理由は、ローに保持されたとき、この端末はシステ
ム内の各デバイスの試験およびデバッグ論理に対して非
同期リセットを生成するからである。これにより、通常
のシステム動作が保証される。また、これにより、シス
テムは連続的に実行するＴＣＫを持つ必要がなくなる。

【００４６】エミュレーション回路８５１は、標準ＩＥ
ＥＥインターフェースを拡張したハードウエアを含み、
より高度のデバッグおよび製造テスト機能を有する。Ｉ
ＥＥＥ標準はボードまたは装置レベルの相互接続を試験
することを目的としているが、その機能性を拡張する
と、更に多くのことを行うことができる。基本的なＩＥ
ＥＥ機能に、次の４つの大きな拡張を加える。すなわ
ち、デバッグ機能と、多重走査技術と、２つの追加端末
によるトリガ・チャンネルと、拡張された動作モード
（ＥＯＭ）とである。以下の各節に、これら４つの拡張
をそれぞれ簡単に説明する。

【００４７】デバッグ機能開発ツールは、デバッグ・
インターフェースを用いてアプリケーション・プログラ
ムの実行フローを制御し、また、ＣＰＵレジスタ，周辺
レジスタおよびシステム・メモリを見て修正する。組込
みデバッグ機能は、停止モードおよび実時間デバッグ環
境の両方を提供する。ＩＥＥＥインターフェース・プリ
ミティブズで管理される専用ハードウエアは、これらの
デバッグ・モードの両方の実行を制御する。停止モード
・デバッグ機能は、プログラムの任意の点の任意の命令
の後でプログラム実行を停止させることができる。これ
により、すべてのプログラムの実行を正確に制御し、ま
た、開発ツールによるシステム資源の使用を最小にする
ことができる。実時間デバッグ機能は、時間的に厳しい
（割込みによる）部分をデバッグ活動から分離する。ア
プリケーションのこれらの部分は常に実行されるが、ア
プリケーションの残りの（時間的に余り厳しくない）部
分は従来の方法でデバッグされる。実時間および停止モ
ード・デバッグでは、プログラムの実行は次の場合に停
止する。すなわち、単一命令が実行されたのち、区切り
点として識別される命令を実行する前に、特定のデータ
・アクセス（読取りまたは書込み）ののち、または、非
同期外部要求によってである。

【００４８】他の走査技術へのアクセス種々のシステ
ム設計は、ＩＥＥＥや専有の走査構造のような多重走査
技術を含んでもよい。なぜなら、それぞれが異なる技術
的利点を持つからである。標準のＩＥＥＥ命令走査，デ
ータ走査および２つ以上の技術のランテストである。Ｉ
ＥＥＥと他の走査技術との間の橋渡しのために、ハード
ウエアが装置に追加される。

【００４９】可視性とトリガＩＥＥＥ標準は、内部チ
ップ活動の並列観測、または、ある試験およびエミュレ
ーション機能性に必要なチップ活動の並列シミュレーシ
ョンを支援しない。この欠点に対処するため、デバッグ
・インターフェースに２つの追加端末（ｎＥＴ１および
ｎＥＴ０）を加える。これらの端末は、内部デバイス事
象をエクスポートし、外部デバッグおよび試験事象をイ
ンポートする１つの方法である。

【００５０】拡張された動作モード製造テスト，歩留
り分析，デバイス構成要素とターゲットシステム・ハー
ドウエアおよびソフトウエア・デバッグの特徴決定に
は、種々のデバイス動作モードを実現する必要がある。
試験モード選択は、間接（走査シーケンス）および直接
（並列のデバイス端末移行）いう２つの方法の一方を含
む。メモリ試験モードは、一般に、直接選択法を用い
る。これらの試験は、メモリ・アレイまたはメモリに直
接アクセスし、走査を支援しないメモリ・テスタを用い
てもよい。ＣＰＵコア試験は間接法を用いる。テスタ
は、走査してＣＰＵコア試験をロードし、それらを実行
するのに必要な試験モードを指定する。デバイス上の多
重走査可能なメガ・モジュール（すなわち、２つのプロ
セッサ）を試験するには、一度に１つのメガ・モジュー
ルを選択して試験する必要がある。この要求は、すべて
のモジュール試験環境においてモジュール試験パターン
の集合を変更せずに用いる必要から生じた。

【００５１】ＸＤＳ−５２４エミュレーション装置（テ
キサス・インスツルメンツ社製）のような外部の試験ホ
スト装置８７０は、７ピンのＪＴＡＧインターフェース
８５０に接続されて、エミュレーション制御８５１を制
御することができる。また、図８のブリッジ８６０は、
データ・バス８６１に接続され、データ・バスＲｂｕｓ
８６２をバッファする。周辺装置８６３，８６４は、Ｒ
ｂｕｓ８６２に接続される種々の周辺装置を表す。Ｒｂ
ｕｓ８６２は、その中のレジスタにメモリ・マップ・ア
クセスを与えるためにエミュレーション回路８５１およ
びキャッシュ回路８１４にも接続される。表３は、本発
明のこの実施の形態を理解するのに適した、プロセッサ
・コア１０２内のメモリ・マップ・レジスタのリストで
ある。これらのレジスタについては次の節で詳細に説明
する。プロセッサ・コア１０２は、種々の制御，状態お
よび操作タスクに用いられる多数の他のメモリ・マップ
・レジスタも有する。

【００５２】

【表３】

【００５３】表４は、状態／制御レジスタＳＴ３のビッ
ト割付けの概要である。

【００５４】

【表４】

【００５５】図９は、図８のベンチマーク回路８５２を
示すブロック図である。ベンチマーク・カウンタ９１０
は、多数のエミュレーション事象（ベンチマーク事象と
も呼ぶ）をカウントする機能を持つ。セレクタ９２０
は、キャッシュ・ミス信号８１６を含むいつかの事象信
号９２１ａ〜９２１ｎの中からカウントすべき特定の種
類の事象を選択する。入力選択レジスタ９３０は、どの
事象信号が選択されるかを制御する。ベンチマーク・カ
ウンタ入力は、ＣＰＵクロックに同期し、発生毎に１サ
イクル間活動状態にある。ベンチマーク・カウンタは、
エミュレーション・サイクルを含みまたは含まないＣＰ
Ｕクロック・サイクル（または、他の入力）をカウント
するように設計される。ベンチマーク・カウンタは、エ
ミュレーション事象（例えば、ハードウエア区切り点Ｈ
ＷＢＰおよびハードウエア監視点ＨＷＷＰ）をカウント
するように設計される。表５は、ベンチマーク・カウン
タ９１０によってカウントされることのできる種々のベ
ンチマーク事象をリストする。このリストはすべてを網
羅したものではなく、他の実施の形態は本発明の種々の
態様内で他のベンチマーク事象を含んでもよい。

【００５６】

【表５】

【００５７】ベンチマーク・カウンタは設計可能であ
り、その動作は制御レジスタ９４０によって制御され
る。各レジスタは、メモリ・マップ・レジスタとして、
Ｒｂｕｓ８６２を介してアクセスされ得る。プロセッサ
・コア１０２でのソフトウエアの実行を監視することに
より、ベンチマーク回路を設計して、その結果を直接監
視することができる。または、外部の試験装置からＪＴ
ＡＧインターフェース８５０を介してＤＴ−ＤＭＡ読取
りおよび書込み要求をプロセッサ・コア１０２に送り、
ベンチマーク回路を設計して、その結果を遠隔で監視す
ることができる。ベンチマーク・カウンタ９１０は、４
０ビットのベンチマーク・カウンタ、３２ビットのベン
チマーク・カウンタ、または、２つの１６ビットのベン
チマーク・カウンタとして設計されてもよい。各カウン
タ構成は互いに排他的である。すなわち、３２ビット・
カウンタおよび１６ビット・カウンタを同時に用いるこ
とはできない。例えば、４０ビットのサイクル・カウン
トと１６ビットのキャッシュ・ミス・カウントを行うに
は、２度に分けて行うようにカウンタを構成して評価す
るコードを実行する必要がある。キャッシュ・ミス信号
８１６は、キャッシュ・ミス事象毎にキャッシュ８１４
によって表明される。ベンチマーク・カウンタは、キャ
ッシュ・ミス発生をカウントするように設計される。こ
れは、キャッシュ・ミスの期間（サイクル）ではなく、
キャッシュ・ミス事象の数である。

【００５８】図１０は、区切り点／ウインドウ回路８２
４を示すブロック図である。このブロックは、２つの同
時の区切り点、２つの同時の監視点、または、１つの区
切り点および１つの監視点を支援するのに十分な論理を
含む。基準レジスタ１０２０は、第１の命令アドレスに
対応する第１のデータ値でロードされる。マスク・レジ
スタ１０２１は、レジスタ１０２１の一部を任意に無視
するマスク値でロードされる。得られた値はプログラム
・アドレス・バス８２０の値と比較器１０２２によって
比較されて、一致信号１０２３を生成する。同様に、基
準レジスタ１０３０は、第２の命令アドレスに対応する
第２のデータ値でロードされる。マスク・レジスタ１０
３１は、レジスタ１０３１の一部を任意に無視するマス
ク値でロードされる。得られた値はプログラム・アドレ
ス・バス８２０の値と比較器１０３２によって比較され
て、一致信号１０３３を生成する。２つの監視点として
設計したときは、２つのトランザクションが同時に一致
するか、シーケンスで（他のものが続く最初のもの）一
致するか、独立に動作する（それぞれが自分の一致指示
を出す）場合にのみ一致する一致出力信号８２５を出す
ように、制御回路１０１０を設計することができる。

【００５９】図８を再び参照して、キャッシュ８１４に
ついて以下に詳細に説明する。本明細書では次の定義を
用いる。・キャッシュ語 − プロセッサは１語を１６ビット・
エンティティとして定義する。・キャッシュ・ライン − キャッシュ・メモリは３２
ビット幅として編成される。したがって、これらの３２
ビット・エンティティは、２語を含み、キャッシュ・ラ
インと呼ばれる。・キャッシュ・ブロック − キャッシュ・ブロックは
メモリの４＊３２ビット領域（すなわち、４ライン）で
あって、これに関連する１つのタグおよび４つの妥当性
ビット（キャッシュ・ライン当たり１妥当性ビット）を
有する。

【００６０】ＤＳＰプロセッサによって必要とされる高
い性能は、高度に最適化されたデータと、高いデータお
よび命令処理量用のプログラム・フローとを必要とす
る。この基礎となるのはメモリ階層である。ＤＳＰ処理
装置の能力を十分活用するために、メモリ階層は、関連
するＣＰＵ装置をいつも忙しく働かせるのに十分な高速
でデータを読み取ったり書き込み、また、命令を読み取
らなければならない。

【００６１】アプリケーション要求を満足するには、Ｄ
ＳＰプロセッサ・メモリ階層は、低コスト，適応性およ
び高性能という相反する目標を満足させなければならな
い。プロセッサの最も重要な機能の１つは、外部メモリ
８３０（例えば、フラッシュ・メモリ）のような遅いプ
ログラム・メモリとインターフェースすることができる
ことである。しかし、ＤＳＰ実行は、命令の取出しに高
い帯域幅を必要とする。内部メモリ８１２からのＤＳＰ
コードを実行することはできるが、これはその実行前に
全ソフトウエアのダウンロードを必要とする。したがっ
て、キャッシュ・メモリは、プロセッサとその主メモリ
との間の高速補助メモリであって、ＤＳＰプログラム・
バス上にあり、最後に用いられた命令（および／または
データ）のコピーが書き込まれていて高速で（再）アク
セスすることができるが、プログラム・アクセスおよび
補充管理の速度のトレードオフにはキャッシュ・メモリ
が最も優れている。

【００６２】キャッシュは、プログラム局所性または参
照の局所性の原理から、システムの全体性能を向上させ
る。プログラムがメモリを完全にランダムにアクセスす
る場合には、キャッシュは使えない。キャッシュの構造
を評価するには、統計的最適化を行う必要がある。キャ
ッシュ構造は、あるプログラムには非常によいが、別の
プログラムには非常に悪い。したがって、実際の原型に
ついてシミュレーションを行い性能を調べることが非常
に大切である。

【００６３】キャッシュは、一般に、非常に効率的な典
型的なメモリアクセス時間を与えるが、最大メモリ・ア
クセス時間は増える。これは実時間動作では問題にな
る。したがって、メモリ・アクセス・ミスに関するクロ
ック期間のロスの回数を最適にすることが重要であろ
う。一般的なキャッシュ構造の性能は次の要因で決ま
る。・キャッシュ・メモリ速度・主メモリ速度・キャッシュ・サイズ・キャッシュ・ブロック・サイズ・キャッシュ編成・キャッシュ置換アルゴリズム・キャッシュ取出し方式・キャッシュ読取り方式・キャッシュ書込み方式・キャッシュ一貫性方式。

【００６４】この実施の形態のキャッシュ８１４は「読
取り専用」命令キャッシュであるので、最後の２項目は
無視してもよい。しかし、他の実施の形態では、別の種
類のキャッシュを用いてもよい。無線電話応用用のＤＳ
Ｐソフトウエアの一部についていくつかの分析を行った
結果、キャッシュ・サイズが比較的小さくて構造が簡単
なものが効率的であることが分かった。したがって、こ
の実施の形態では、特性を次のように定義する。キャッシュ・サイズ：１６ビットの２Ｋ語ブロック当たり８語（８×１６ビット）ブロック当たり４妥当性ビット（キャッシュ・ライン当
たり１つ）キャッシュの種類：直接マップ型ルックスルー読取り方式。

【００６５】図１１は、キャッシュのブロック図であ
る。キャッシュ８１４は、メモリ・コア１１１０とコン
トローラ１１２０とからなる。プログラム空間はプロセ
ッサにおいて４バイト境界に整列された４バイト（２
語）としてアドレスすることができ、また、サイクル毎
に４バイト（２語）を取り出すので、すべての読取りお
よび書込みアクセスについてプログラム・メモリ・コア
を３２ビット語のバンクとして編成することができる。
キャッシュは、ＣＰＵからの命令の任意の要求がキャッ
シュによって処理され得るかどうか、または、命令の新
しいブロックが外部メモリから補充される必要があるか
どうかを調べる。これを行うため、キャッシュ・コント
ローラは、フラグに関連するアドレス・タグのバッファ
・メモリ１１３０を管理して、キャッシュ内容が有効か
どうかを示す。

【００６６】前に説明したように、プロセッサは、キャ
ッシュ設計に関係する最初の４段階（事前取出し，取出
し，復号およびアドレス段階）を有する６段階のパイプ
ラインを持つ。事前取出しサイクルでは、ＩＢＵはアド
レスと要求信号とを生成する。アドレスはＭＩＦブロッ
クで復号され、関連するモジュール要求が得られて各モ
ジュールに送られる。キャッシュは、ＭＩＦブロックか
ら要求を受けると、ＣＰＵによって生成されたアドレス
（プログラム・カウンタの値）をラッチする。次に、そ
れは、アドレスのｌｓｂｓをそれのデータＲＡＭおよび
それのアドレスＲＡＭへのアドレス（タグ値および妥当
性ビットを含む）として並列に用いる。ＣＰＵから受け
取ったアドレスのｍｓｂｓがアドレスＲＡＭ内の関係位
置から読み取ったｍｓｂｓと一致し、かつ、妥当性ビッ
トがセットされている場合は、データＲＡＭから読み取
った該当するデータとともに取出しサイクルでのレディ
信号を返すことによって、プロセッサにヒットを知らせ
る。

【００６７】ＩＢＵから受け取ったアドレスのｍｓｂｓ
がアドレスＲＡＭ内の関係位置から読み取ったｍｓｂｓ
と一致しないか、妥当性ビットがセットされていない場
合には、取出しサイクルでレディを非活動状態に保って
プロセッサにミスの発生を知らせ、また、外部要求と要
求されたアドレスとが外部プログラム・メモリを読み取
るためにＭＭＩインターフェースに送られる。本発明の
一態様によれば、ミス信号８１６も表明されてベンチマ
ーク回路８５１に送られるので、ミス事象をベンチマー
ク事象としてカウントすることができる。要求されたデ
ータとともにレディをＭＭＩが返すと、データはキャッ
シュ・データ・メモリにラッチされ、要求されたアドレ
スのｍｓｂｓは同じメモリ領域内の関係する妥当性ビッ
トの設定とともにアドレス・メモリにラッチされる。同
じサイクル内で、データをレディとともにＣＰＵに送り
返すこともできる。

【００６８】図１２は、語を順に取り出す方式を用いて
キャッシュの中の命令フローを強調する直接マップ・キ
ャッシュの詳細なブロック図を示すが、試験および制御
インターフェース・ポートは示していない。前の節の初
めに述べたように、キャッシュ構造にはキャッシュの性
能を決定するいくつかの要因がある。これについてこの
節でもう少し深く検討する。対処すべき主な問題はシス
テム性能であって、プロセッサへの命令フローはできる
だけ高レベルに保持して、できるだけ頻繁に（すなわ
ち、機能停止を最小にして）自由に実行できるようにし
なければならない。このため、冗長なデータをキャッシ
ュにできるだけ取り込まないようにし、また、外部取出
し用のペナルティも最小に止めるべきである。

【００６９】フラッシュ・メモリのコストは今のところ
かなり高く、セルラ電話などに用いるＤＳＰプロセッサ
を選択するときはコード・サイズが最も重要な評価基準
の１つになることを正当付ける。したがって、プロセッ
サはコード・サイズに関して最適化され、また、多くの
構造は、一般のアプリケーション用のコード・サイズが
業界の標準プロセッサより小さくなるように決定されて
いた。このため、可変長命令が用いられ、また、コード
はコンパクトであり、その結果、命令の位置合わせは行
われない。コードがどの境界にも合っていない呼出しや
分岐にも、位置合わせは行われない。しかし、ｘ８６プ
ロセッサでは呼出し／分岐コードをキャッシュ・ブロッ
ク境界に合わせている。これは、呼出し／分岐が発生す
ると、プロセッサはキャッシュ・ブロックの中央からコ
ードをアクセスすることを意味する。これらの条件は、
主として、キャッシュの取出し方式に影響を与える。一
般的なセルラ電話応用からＤＳＰコードを分析した結
果、ほとんどのコード・ルーチンが１Ｋ語のプログラム
・メモリ内に収まることが分かったので、キャッシュ・
サイズを２Ｋ語に定めた。

【００７０】制御コードでは、４命令毎に分岐が発生す
る（一般的な業界の数字）ことが多く、また、ＤＳＰア
ルゴリズム・コードでは、８サイクル毎に呼出しまたは
分岐が発生することが多い（注：これは「Ｃ」コンパイ
ラで作成されたコードの場合である。アセンブラ・コー
ドの場合は、分岐／呼出しの発生はこれより少ない）。
このことから、また、最初の分析から、キャッシュ内の
ブロックのサイズは８キャッシュ語（１６バイト）にセ
ットされた。これは、フラッシュのような外部インター
フェースへのアクセスと、かかる装置に外部インターフ
ェースでアクセスする調停と、コード内の呼出しおよび
分岐により使われない命令を無駄に取り出す回数を減ら
したいという希望との妥協の数字である。

【００７１】キャッシュはユーザに透明になるように設
計される。したがって、キャッシュ内の項目の位置を知
るには、主メモリ・アドレスをキャッシュ位置にマップ
するいくつかの関数を持つことが必要である。参照を統
一するために、キャッシュおよび主メモリの両方が、ブ
ロックと呼ばれる同じサイズの単位に分割される。配置
方式は、主メモリ・アドレスからキャッシュ位置へのマ
ップ関数を決定する。

【００７２】図１３は、直接マップ・メモリ用のメモリ
構造を示すキャッシュ・メモリ構造を示す図である。各
キャッシュ・ラインは４バイト（３２ビット）からな
る。各キャッシュ・ブロックは４ライン（１６バイト，
８語）を含む。ブロック内の各ラインはそれ自体の妥当
性ビットを持つので、ブロック当たり４つの妥当性ビッ
トがあり、また、各ブロックはタグ（アドレス・フィー
ルドのｍｓｂｓからなる）を有する。

【００７３】キャッシュ８１４は直接マッピングを用
い、これはすべてのキャッシュ編成の中で最も簡単なも
のである。この方式では、主メモリのブロックｉ（ブロ
ック・アドレス）がキャッシュのブロックｉモジュロ２
５６（キャッシュ内のブロックの番号）にマップする。
メモリ・アドレスは、４フィールド、すなわち、タグ・
フィールドとブロック・フィールドと語フィールドとバ
イト・フィールドとからなる。各ブロックは、それに関
連する特定のタグを有する。キャッシュ・ブロックに１
ブロックのメモリがあるとき、そのブロックに関連する
タグはそのブロックの主メモリ・アドレスの高位１２ビ
ットを含む。メモリ参照のために物理メモリ・アドレス
を生成するときは、８ビットのブロック・アドレス・フ
ィールドを用いて、対応するキャッシュ・ブロックをア
ドレスする。１２ビットのタグ・アドレス・フィールド
がキャッシュ・ブロック内のタグと比較される。一致す
れば、２ビット語のアドレス・フィールドを用いてキャ
ッシュ・ブロック内の命令がアクセスされる。

【００７４】図１４は、１ブロックの主メモリを直接マ
ップ・キャッシュ編成のキャッシュ・メモリにマップす
る方法を示す流れ図である。プロセッサに関連して直接
マップ・キャッシュを用いる方式の欠点は、交互に用い
る２つ以上のブロックがたまたまキャッシュ内の同じブ
ロックにマップすると、キャッシュ・ヒット率が急に下
がることである。このため、「スラッシング」として知
られている現象が起こり、これは、２つ（以上）のブロ
ックがキャッシュ内で継続して互いに置換すると性能が
低下する現象である。単一プロセッサ装置でかかるブロ
ックがプロセッサ・アドレス空間内で比較的離れいる場
合は、この現象が起こる可能性は比較的小さい。アセン
ブラ・コーディングを人手で行う場合は、この問題は、
通常、プロセッサの設計で比較的容易に回避することが
できる。

【００７５】キャッシュ・コントローラの構造は、処理
量を大きくするために、並列アクセス方式である。これ
は、データＲＡＭへの使用許可としてアドレス・タグを
用いるというよりも、アドレス・タグとデータとが同時
にアクセスされたのちにアドレス・タグがメモリに記憶
されているものと一致しかつ妥当性ビットが確認された
ときだけにバス上で使用可能にされることを意味する。
優れている点は、本発明によるキャッシュ・ミス事象の
ベンチマーク・テストを用いていつスラッシングが起こ
ったかを判定するので、性能が向上するようにソフトウ
エア・コードの対応する部分を最適化することができる
ことである。

【００７６】直接マップ・キャッシュは、置換規則に関
連する記録保持のオーバーヘッドをなくすことにより置
換アルゴリズムが簡単になるという利点を有する。キャ
ッシュ・ブロックにマップすることのできるすべてのブ
ロックの中で、ある時点にキャッシュにいることができ
るのは１つだけである。したがって、あるブロックがミ
スの原因である場合は、コントローラは、単に、このブ
ロックがマップするキャッシュ・ブロックを決定して、
そのキャッシュ・ブロック内のブロックを置換すればよ
い。これは、キャッシュが一杯でないときでも起こる。

【００７７】この実施の形態では、外部メモリ８３０は
キャッシュ・メモリにマップされる。しかし、内部ＳＡ
ＲＡＭ８１２は、外部メモリ上にマップされ、キャッシ
ュ化はされない。例えば割込みルーチンなどのコードは
外部メモリから内部ＳＡＲＡＭにＤＭＡされてベクトル
表を再び作成することができるので、一貫性の問題はな
い。この実施の形態のキャッシュは命令キャッシュだけ
であって自己変更コードはないので、キャッシュ内のデ
ータと外部メモリ内のデータとの一貫性に問題はない。

【００７８】この実施の形態では、外部メモリのデータ
も内部メモリのデータもキャッシュ化することはでき
ず、また、自己変更命令もない。したがって、キャッシ
ュに再び書き込む必要がないので、書込み方式は必要な
い。しかし、この実施の形態は、ソフトウエア区切り点
命令（ＳＷＢＰ）をプログラム・メモリ内に挿入した場
合は、エミュレーションを支援しない。この場合、エミ
ュレーション回路８５１がＳＷＰＢ命令を挿入しまたは
除去したときにヒットが起こった場合は、キャッシュ・
ラインは無効になる。

【００７９】ＣＰＵ状態レジスタ（ＳＴ３）は、キャッ
シュを制御する３ビット、すなわち、ｇｌ＿ｃａｃｈｅ
ｅｎａｂｌｅ（キャッシュ・イネーブル），ｇｌ＿ｃａ
ｃｈｅｆｒｅｅｚｅ（キャッシュ・フリーズ）およびｇ
ｌ＿ｃａｃｈｅｃｌｒ（キャッシュ・クリア）を含む。
これについて次に説明する。キャッシュ・イネーブル
（ｇｌ＿ｃａｃｈｅｅｎａｂｅ）ビット：キャッシュ
・イネーブル信号１２１０ａは、キャッシュ・ブロック
には送られず、内部メモリ・インターフェース（ＭＩ
Ｆ）モジュールにのみ送られる。そこでは、それはキャ
ッシュ用のスイッチ・オフ機構として用いられる。それ
が活動状態のときは、ＭＩＦブロックで実行されるプロ
グラム・アドレス復号に依存して、プログラム取出し
は、キャッシュから、内部メモリ装置から、または、Ｍ
ＭＩを介して外部メモリへの直接経路から起こる。それ
が非活動状態のときは、キャッシュ・コントローラはプ
ログラム要求を受け付けないので、アドレス復号に依存
して、すべてのプログラム要求は、内部メモリ装置によ
って、または、ＭＭＩを介した外部メモリによって処理
される。

【００８０】キャッシュ・フラッシングはｇｌ＿ｃａｃ
ｈｅｅｎａｂｌｅビットによって制御される。その挙動
が主プロセッサとアトミックである必要があるので、そ
れはそこでセットされる。その理由は、キャッシュが使
用禁止／使用可能のとき、ＣＰＵ内の事前取出し待ち行
列の内容をフラッシュして、フェッチ・アドバンスがな
いように、すなわち、命令（キャッシュ・イネーブル命
令）を復号した後にパイプラインに命令がないようにし
なければならないからである。さもないと、プロセッサ
が正しく動作することを保証することはできない。キャ
ッシュ・イネーブル機能性はエミュレーション・ハード
ウエアにとって重要である。キャッシュが使用禁止のと
き、重ね書きすべき外部メモリの項目がキャッシュ内に
ある場合は、関係するキャッシュ・ラインはフラッシュ
されない。

【００８１】キャッシュ・クリア（ｇｌ＿ｃａｃｈｅｃ
ｌｒ）ビット，信号１２１０ｂ：外部命令でキャッシュ
をクリアすることができる（すべてのブロックが無効に
なる）。キャッシュ・フリーズ（ｇｌ＿ｃａｃｈｅｆｒ
ｅｅｚｅ）ビット，信号１２１０ｃ：キャッシュ・フ
リーズ信号は、それによってキャッシュがロックされる
機構を提供し、その結果、キャッシュ・ミスでその内容
は更新されないが、その内容はキャッシュ・ヒットに対
しては引き続き利用可能である。これは、「凍結され
た」キャッシュ内のブロックは置換アルゴリズムによっ
て決して置換されないことを意味する。すなわち、その
内容は、ｇｌ＿ｃａｃｈｅｆｒｅｅｚｅ状態が変わるま
では変化しない。

【００８２】これは、キャッシュが「凍結された」とき
にキャッシュの外にあったコード・ループはすべてその
ままキャッシュの外にあるので、コードを呼び出す度
に、キャッシュ・ミスに関連するサイクル・ロスがある
ことを意味する。したがって、この機能を用いるとき
は、プロセッサの性能に影響しないように注意しなけれ
ばならない。優れている点は、本発明によるキャッシュ
・ミス事象のベンチマーク・テストを用いて、凍結に起
因するサイクル・ロスがいつ起こったかを判定して、性
能が良くなるようにソフトウエアの対応する部分を最適
化することができることである。キャッシュ・フリーズ
機能性はエミュレーション・ハードウエアにとって重要
である。キャッシュが凍結されたとき、重ね書きすべき
外部メモリの項目がキャッシュにある場合は、関連する
キャッシュ・ラインはフラッシュされない。

【００８３】表６は、キャッシュ・レジスタ・メモリ・
マップをリストする。構成レジスタはすべて１６ビット
である。これらのレジスタはＲｂｕｓ８６２を介してア
クセスされる。キャッシュ外部バス・レジスタは語単位
でマップされ外部バスからは語アクセスだけでアクセス
されるので、下記のキャッシュ・コントローラ・メモリ
・マップは各キャッシュ・レジスタ毎にキャッシュ・ベ
ース・アドレスからの語オフセットを示す。

【００８４】

【表６】

【００８５】キャッシュ・エミュレーション・レジスタ
により、エミュレーション・ハードウエアは、キャッシ
ュ・ハードウエアに問い合わせて、キャッシュのサイズ
および編成を知ることができる。これにより、エミュレ
ーション機能は一般的になる。キャッシュ・エミュレー
ション・レジスタを表７に示す。

【００８６】

【表７】

【００８７】図１５は、本発明の種々の態様による、Ｄ
ＳＰ１００を持つディジタル装置の別の実施の形態を示
すブロック図である。ディジタル装置１５００は、前に
説明したプロセッサ１００と、ホスト・プロセッサ１５
１０で示す第２のプロセッサとを含む。ＤＳＰコア１０
０はディジタル信号処理に関するタスクを実行し、ホス
ト・プロセッサ１５１０は他のアプリケーション・タス
クを実行する。ＤＳＰ１００は、内部プログラム・メモ
リ回路８１２に、また、バス１５３０を介して二重ポー
ト通信メモリ回路１５０２に接続されている。ブリッジ
１５０３もバス１５３０に接続されており、バス１５３
１を介して周辺装置１５２０，１５２１へのアクセスを
可能にする。また、バス１５３１を介して専用ハードウ
エア１５２２にもアクセスすることができる。ハードウ
エア１５２２は、タイマと電力制御とデバッグおよびエ
ミュレーション回路とのような種々のデバイスや回路を
含む。割込み要求信号１５４０は、デバイス１５２０〜
１５２２からＤＳＰ１００への割込み要求である。内部
キャッシュ８１４により、プロセッサ１００への命令ア
クセス時間が速くなる。ＪＴＡＧインターフェース８５
０およびベンチマーク回路８５２を有するエミュレーシ
ョン回路８５１についてはすでに説明した。キャッシュ
・ミス信号８１６は、ベンチマーク回路８５２によって
記録されるベンチマーク事象を生成する。ウインドウ回
路８２４は、すでに説明したように、ウインドウ・イネ
ーブル信号８２５を生成する。

【００８８】ホスト・プロセッサ１５１０は、バス１５
３３を介してホスト・プロセッサ・インターフェース回
路（ＨＰＩ）１５１１に接続されている。ＨＰＩ１５１
１はバッファリングおよびタイミング制御を行って、ホ
スト・プロセッサ１５１０がバス１５３２を介して通信
メモリ回路１５０２にアクセスすることができるように
する。このようにして、ホスト・プロセッサ１５１０
は、ＤＳＰ１００によっても記憶されアクセスされ得る
通信メモリ１５０２内のデータ値を記憶しアクセスする
ことができる。バス１５３２はバス１５３０から分離さ
れており、また、通信メモリ１５０２は、メモリ回路８
１２の動作に影響を与えないようにホスト・プロセッサ
１５１０が二重ポート・メモリ回路１５０２内のデータ
値をアクセスできるように配置されている。割込み要求
信号１５４１は、ホスト・プロセッサ１５１０からＤＳ
Ｐ１００への割込み要求を与える。ホスト・ポート・イ
ンターフェース１５１１は、２つのレジスタ、すなわ
ち、割込み要求を表明する割込みレジスタ１５１２とＨ
ＰＩ動作モード用の状態レジスタ１５１３とを有する。
両方のレジスタは、バス１５３３を介してホスト１５１
０によってアクセスされ得る。割込みレジスタ１５１２
は、ホスト１５１０からの書込みトランザクションに応
じてプロセッサ１００にホスト割込み要求を表明する。
装置１５００のような多重処理装置では、キャッシュ・
ミス率は監視の重要なベンチマーク測度である。埋込み
回路８５０〜８５２を用いてベンチマーク監視を行いな
がら装置の運転を続ける点が優れている。取出し（フェ
ッチ）帯域幅の制限，メモリ・コンフリクトおよびパイ
プライン保護コンフリクトのような性能低下の他の要因
も、ベンチマーク回路８５２を用いて監視することがで
きる。

【００８９】図９を再び参照すると、ベンチマーク・カ
ウンタ９１０は４０ビットのカウンタである。前に説明
したように、それは単一の３２ビット若しくは４０ビッ
トのカウンタまたは２つの１６ビットのカウンタとして
設計することができる。表８は、本実施の形態の１６ビ
ットのデータ・バスを介してカウンタにアクセスする方
法を説明する。このレジスタの内容は、ＡＣＵカウンタ
論理モード・ビット（ＡＣＮＴ＿ＣＮＴＬ：ＣＭ）の設
定に従って変わる。このレジスタを読み取って現在の値
を判定しまたは書き込んでそれを初期化する。それは、
（ＡＣＮＴ０，ＡＣＮＴ１，ＡＣＮＴ２およびＡＣＮＴ
３でそれぞれ示されている）４つの異なるメモリ・マッ
プ・アドレスからアクセスされる。表８は、エミュレー
ション目的でこの実施の形態で用いられるベンチマーク
・レジスタに関連する種々の他のレジスタも示す。ＣＰ
Ｕ内にないエミュレーション・レジスタはメモリ・マッ
プ・レジスタ（ＭＭＲ）である。表８のすべてのエミュ
レーション・レジスタはＩ／Ｏ空間内にある。

【００９０】

【表８】

【００９１】ベンチマーク・カウンタ制御レジスタ（Ａ
ＣＮＴ＿ＣＮＴＬ）９４０はベンチマーク・カウンタの
構成を制御する。制御の主な点は、カウンタの数と、カ
ウンタ・イネーブルの構成と、カウンタが基準値と一致
したときに実行する動作（もしあれば）とである。ある
機能のレジスタをアクセスするには、まず制御レジスタ
に資源の請求を書き込まなければならない。所有権は、
その機能のＩＤレジスタを読み取ることによって確認さ
れる。所有されていない資源を読み取った場合は、値０
が戻る。所有されていない資源に書き込んでも無視され
る。同様に、まず制御レジスタに書き込まないと、ある
レジスタの読取りまたは書込みは成功しない。機能の使
用が終われば、制御レジスタの所有権を解放しなければ
ならない。表９は、このレジスタのビット割付けの概要
を示す。

【００９２】

【表９】

【００９３】ベンチマーク・カウンタ制御レジスタ・ビ
ットの定義を表１０に示す。

【００９４】

【表１０】

【００９５】ベンチマーク・カウンタ外部入力選択レジ
スタ（ＡＣＮＴ＿ＥＳＥＬ）９３０は、ＥＸＴ＿ＣＮＴ
［０，１］信号９２２ａ，９２２ｂにどの外部入力を選
択するか、また、これらの信号を外部修飾子によりゲー
トすべきかどうかを指定する。表１１は、このレジスタ
のビット割付けの概要を示す。

【００９６】

【表１１】

【００９７】ＡＣＵベンチマーク・カウンタ外部入力選
択レジスタ・ビットの定義を表１２に示す。

【００９８】

【表１２】

【００９９】ベンチマーク・カウンタＩＤレジスタ（Ａ
ＣＮＴ＿ＩＤ）はＡＣＵカウンタ機能の「所有者」識別
を指定する。カウンタ論理の所有者は、デバッガ，アプ
リケーションまたは現在所有者なしのどれかである。表
１３に、このレジスタのビット割付けの概要を示す。

【０１００】

【表１３】

【０１０１】アドレス・ベンチマーク・カウンタＩＤレ
ジスタ・ビットの定義を表１４に示す。

【０１０２】

【表１４】

【０１０３】図１６は、プロセッサ１００を内蔵する集
積回路の概要を示す。図示するように、集積回路は表面
取付け用の複数の接点を含む。しかし、集積回路は他の
形状でもよい。例えば、ゼロ・インサーション・フォー
ス・ソケットに取り付けるため回路の下面に複数のピン
を備えるものや、任意の他の適当な形状でよい。図１７
は、統合キーボード１２およびディスプレイ１４を備え
た移動電話のような移動通信装置でかかる集積回路を実
現する例を示す。図１７に示すように、プロセッサ１０
０を備えるディジタル装置１０は、必要に応じてキーボ
ード・アダプタ（不図示）を介してキーボード１２に、
必要に応じてディスプレイ・アダプタ（不図示）を介し
てディスプレイ１４に、また、無線周波数（ＲＦ）回路
１６に接続されている。無線周波数（ＲＦ）回路１６は
アンテナ１８に接続されている。データ処理デバイス１
００の製造は、種々の量の不純物を半導体基板に注入す
るステップと不純物を基板内の選択された深さに拡散さ
せてトランジスタ・デバイスを形成するステップとの多
重ステップを含む。マスクは、不純物の位置を制御する
ために形成される。導電材料および絶縁材料の多重層が
堆積されエッチングされて種々のデバイスを相互に接続
する。これらのステップはクリーン・ルーム環境で行わ
れる。データ処理デバイスの製造コストのかなりの部分
は試験関係である。ウエハ状態で、個々のデバイスをあ
る動作状態にバイアスして、基本的な動作機能性を試験
する。次に、ウエハを個々のダイに分割して、ダイのま
までまたはパッケージ化して販売する。パッケージ化し
た後、完成品を動作状態までバイアスして、動作機能性
を試験する。

【０１０４】本発明の別の実施の形態は、組合せ機能の
ゲート総数を削減するために、ここに開示された回路を
組み合わせた別の回路を含む。ゲート最小化のための技
術は当業者には既知であるので、かかる実施の形態につ
いてはここで説明しない。別の実施の形態は、２つ以上
のベンチマーク・カウンタまたは異なるサイズのベンチ
マーク・カウンタを備え得る。種々のベンチマーク事象
をカウントすることができる。また別の実施の形態は、
例えばデータ・バスのような命令アドレス・バス以外の
バスを監視するために接続された監視点回路を備え、例
えば、データ値に基づいてベンチマーク・テストを開始
または停止することができる。更に別の実施の形態は、
例えばデータを命令とともにキャッシュ化する構成のよ
うな異なる構成のキャッシュを有し得る。または、別の
キャッシュを追加し、各キャッシュからミス信号を与え
てベンチマーク・テストを行ってもよい。このように、
高コード密度および容易なプログラミングを与えるプロ
グラマブル・ディジタル信号プロセッサ（ＤＳＰ）であ
るプロセッサについて説明してきた。構造および命令集
合は、無線電話用や制御専用として、電力消費を低く
し、ＤＳＰアルゴリズムの実行の効率を高めるよう最適
化されている。プロセッサは、命令バッファ・ユニット
と、命令バッファ・ユニットによって復号された命令を
実行するデータ計算ユニットとを含む。命令は、暗黙の
並列方式かユーザが定義した並列方式に従って、並列で
実行され得る。また、他の性能に関連するパラメータの
他に、マイクロプロセッサは、内部キャッシュのキャッ
シュ・ミス性能をベンチマークする手段を有する。した
がって、定量的分析およびベンチマーク・データの詳細
な分類から、性能ロスの理解を高めることができる。大
域統計およびウインドウ化を用いると、問題領域が正確
に分かる。このことは、システムのボトルネックを確認
することができるようにする。コード・スケジュールを
変更し、並列方式を再検討し、コードのマッピングを変
えることにより、命令取出し帯域幅を改善することがで
きる。コードの実行を停止せずに監視を行うことができ
るので、システム環境，メモリ・アクセスの衝突および
優先度は変わらない。ここで用いた「印加する」，「接
続する」および「接続」という用語は電気的に接続する
ことを意味し、別の要素が電気接続経路内にあってもよ
い。本発明について例示の実施の形態を参照して説明し
たが、この説明を限定的に解釈してはならない。この説
明を参照すれば、本発明の他の種々の実施の形態は当業
者に明らかである。したがって、添付の特許請求の範囲
は、ここに述べた実施の形態の任意の変更を本発明の範
囲および精神内に含まれるものとしてカバーする。

【０１０５】以上の説明に関して更に以下の項を開示す
る。（１）命令バスから得られた命令のシーケンスを実行す
るマイクロプロセッサを含むディジタル装置であって、
前記マイクロプロセッサが、前記命令のシーケンスの第
１の命令を復号する命令バッファ・ユニットと、該命令
バッファ・ユニットによって復号されるべき前記命令の
シーケンス内の前記第１の命令を識別する第１の命令ア
ドレスを与えるプログラム・カウンタ回路と、前記第１
の命令のコピーを記憶するキャッシュ回路であって、前
記プログラム・カウンタ回路に接続され、命令バスにさ
らに接続され、前記プログラム・カウンタ回路からの前
記第１の命令アドレスに応じて前記第１の命令を前記命
令バッファに与えるか、前記第１の命令が前記キャッシ
ュに記憶されていない場合にはミス信号を表明する、キ
ャッシュ回路と、前記ミス信号が表明される度にベンチ
マーク事象をカウントする計数回路と、該計数回路に接
続され、該計数回路を使用可能または使用禁止にする監
視点回路と、を含む、ディジタル装置。（２）前記計数回路が、複数の性能指標信号からベンチ
マーク事象としてカウントするために選択する制御回路
であって、前記ミス信号が該複数の性能指標信号の１つ
である、制御回路を含む、第１項記載のディジタル装
置。（３）前記監視点回路が、前記プログラム・カウンタ回
路に接続され、該プログラム・カウンタ回路から与えら
れる第２の命令アドレスに応じて前記計数回路を使用可
能にする、第２項記載のディジタル装置。（４）前記監視点回路が、前記プログラム・カウンタ回
路によって与えられる第３の命令アドレスに応じて前記
計数回路を使用禁止にする、第３項記載のディジタル装
置。（５）前記ディジタル装置が、セルラ電話であり、ま
た、キーボード・アダプタを介して前記プロセッサに接
続された統合キーボード（１２）と、ディスプレイ・ア
ダプタを介して前記プロセッサに接続されたディスプレ
イ（１４）と、前記プロセッサに接続された無線周波数
（ＲＦ）回路（１６）と、前記ＲＦ回路に接続されたア
ンテナ（１８）とを更に含む、第１項記載のディジタル
装置。

【０１０６】（６）命令のシーケンスを実行するマイク
ロプロセッサを含むディジタル装置を操作する方法であ
って、命令バッファ・ユニットによって復号されるべき
前記命令のシーケンス内の第１の命令を識別する第１の
命令アドレスを与えるステップと、前記第１の命令がキ
ャッシュ回路にある場合には、該キャッシュ回路の第１
の命令をアクセスし、一方、前記第１の命令が前記キャ
ッシュ回路にない場合には、キャッシュ・ミス事象が起
こったことを示して別のメモリ回路の第１の命令をアク
セスするステップと、前記命令バッファ・ユニット内の
前記命令のシーケンスの前記第１の命令を復号するステ
ップと、前記与えるステップ，前記アクセスするステッ
プおよび前記復号するステップを繰り返してキャッシュ
・ミス事象のシーケンスを生成するステップと、キャッ
シュ・ミス事象であるベンチマーク事象の選択された集
合をカウントして、前記ディジタル装置の性能の測度を
決定するステップと、を含む、方法。（７）前記カウントするステップが、第１のデータ値に
応じてカウントするステップを開始し、第２のデータ値
に応じてカウントするステップを停止し、ベンチマーク
事象の選択された集合が前記第１のデータ値の発生と前
記第２のデータ値の発生との間に起こるようにすること
を含む、第６項記載の方法。（８）前記第１のデータ値が第１の選択された命令アド
レスであり、前記第２のデータ値が第２の選択された命
令アドレスである、第７項記載の方法。（９）前記第１のデータ値が命令アドレスでない、第８
項記載の方法。（１０）キャッシュ・ミス事象以外の事象がベンチマー
ク事象として選択される、第９項記載の方法。

【０１０７】（１１）可変命令長でコード密度が高くか
つプログラミングが容易なプログラマブル・ディジタル
信号プロセッサ（ＤＳＰ）を提供する。構造および命令
集合は、無線電話用や制御専用のＤＳＰアルゴリズムを
低い電力消費および高い効率で実行するように最適化さ
れる。単一集積回路（８００）上のメガセル内にキャッ
シュ（８１４）を設けて、命令アクセス時間を短縮す
る。メガセル内に性能監視回路（８５２）を含み、選択
された信号を監視してベンチマーク事象を収集する。性
能監視回路にはＪＴＡＧインターフェース（８５０）を
介して問い合わせることができる。キャッシュから性能
監視回路にキャッシュ・ミス信号（８１６）を送って、
内部キャッシュの性能を決定する。メガセル内のウイン
ドウ回路（８２４）により、選択された実行のウインド
ウの間にベンチマーク事象を収集することができる。

【図面の簡単な説明】

【図１】本発明のある実施の形態による、マイクロプロ
セッサを含むディジタル装置の略ブロック図である。

【図２】図１のプロセッサ・コアの略図である。

【図３】プロセッサ・コアの種々の実行ユニットの詳細
な略ブロック図である。

【図４】プロセッサの命令バッファ待ち行列および命令
デコーダの略図である。

【図５】プロセッサのパイプラインの動作を説明するた
めのプロセッサ・コアの表現である。

【図６】メモリ管理ユニットを相互接続したメモリを示
すプロセッサのブロック図である。

【図７】プロセッサのプログラム・メモリ空間とデータ
・メモリ空間の統一構造である。

【図８】本発明の種々の態様による、図１のプロセッサ
およびその関連するベンチマーク・テスト回路を有する
ディジタル装置を示すブロック図である。

【図９】図８のベンチマーク回路を示すブロック図であ
る。

【図１０】図８の区切り点／ウインドウ回路を示すブロ
ック図である。

【図１１】図８のキャッシュのブロック図である。

【図１２】図８のキャッシュの詳細なブロック図であ
る。

【図１３】図８のキャッシュのメモリ構造である。

【図１４】直接マップされたキャッシュ編成である。

【図１５】本発明の種々の態様による、図１のプログラ
ムを持つディジタル装置の別の実施の形態を示すブロッ
ク図である。

【図１６】プロセッサを組み込んだ集積回路の略図であ
る。

【図１７】図１のプロセッサを組み込んだ電気通信装置
の略図である。

【符号の説明】

８００集積回路８１４キャッシュ８１６キャッシュ・ミス信号８２４ウインドウ回路８５０ＪＴＡＧインターフェース回路８５２性能監視回路

Claims

【特許請求の範囲】

【請求項１】命令バスから得られた命令のシーケンス
を実行するマイクロプロセッサを含むディジタル装置で
あって、前記マイクロプロセッサが、前記命令のシーケンスの第１の命令を復号する命令バッ
ファ・ユニットと、該命令バッファ・ユニットによって復号されるべき前記
命令のシーケンス内の前記第１の命令を識別する第１の
命令アドレスを与えるプログラム・カウンタ回路と、前記第１の命令のコピーを記憶するキャッシュ回路であ
って、前記プログラム・カウンタ回路に接続され、命令
バスにさらに接続され、前記プログラム・カウンタ回路
からの前記第１の命令アドレスに応じて前記第１の命令
を前記命令バッファに与えるか、前記第１の命令が前記
キャッシュに記憶されていない場合にはミス信号を表明
する、キャッシュ回路と、前記ミス信号が表明される度にベンチマーク事象をカウ
ントする計数回路と、該計数回路に接続され、該計数回路を使用可能または使
用禁止にする監視点回路と、を含む、ディジタル装置。
【請求項２】命令のシーケンスを実行するマイクロプ
ロセッサを含むディジタル装置を操作する方法であっ
て、命令バッファ・ユニットによって復号されるべき前記命
令のシーケンス内の第１の命令を識別する第１の命令ア
ドレスを与えるステップと、前記第１の命令がキャッシュ回路にある場合には、該キ
ャッシュ回路の第１の命令をアクセスし、一方、前記第
１の命令が前記キャッシュ回路にない場合には、キャッ
シュ・ミス事象が起こったことを示して別のメモリ回路
の第１の命令をアクセスするステップと、前記命令バッファ・ユニット内の前記命令のシーケンス
の前記第１の命令を復号するステップと、前記与えるステップ，前記アクセスするステップおよび
前記復号するステップを繰り返してキャッシュ・ミス事
象のシーケンスを生成するステップと、キャッシュ・ミス事象であるベンチマーク事象の選択さ
れた集合をカウントして、前記ディジタル装置の性能の
測度を決定するステップと、を含む、方法。