JP2000231550A

JP2000231550A - マイクロプロセッサ

Info

Publication number: JP2000231550A
Application number: JP2000029147A
Authority: JP
Inventors: Kenju Osanai; 建樹小山内; Toru Uchiumi; 海透内; Raamu Michael; マイケル、ラーム; Malick Kamuran; カムラン、マリック
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1999-02-08
Filing date: 2000-02-07
Publication date: 2000-08-22
Anticipated expiration: 2020-02-07
Also published as: JP4160228B2; US6389527B1

Abstract

(57)【要約】【課題】キャッシュメモリと同程度のレイテンシーで
データの読み書きができるＲＡＭを備えたマイクロプロ
セッサの提供。【解決手段】本発明のマイクロプロセッサは、ロード
／ストアに関連する命令を実行するＬＳＵを備える。Ｌ
ＳＵは、外部メモリに対する読み出し／書き込みデータ
を一時的に格納するDCACHEと、キャッシュ以外の特殊な
用途に使用されるSPRAMと、DCACHEやSPRAMをアクセスす
るための仮想アドレスを生成するアドレス生成器とを有
する。SPRAMは、ＬＳＵのパイプラインによるロード／
ストアが可能で、外部メモリとの間でＤＭＡによるデー
タ転送が可能である。ＬＳＵは、DCACHEとほぼ同じレイ
テンシーでSPRAMにアクセスできるため、外部メモリに
格納されたデータを、いったんSPRAMに格納すれば、そ
の後、プロセッサはSPRAMにアクセスしてデータ処理を
行うことができ、外部メモリよりも短時間に大量のデー
タを処理できる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、外部メモリよりも
高速にデータの読み書きが可能なＲＡＭを内蔵するマイ
クロプロセッサの内部構成に関する。

【０００２】

【従来の技術】近年、プロセッサの動作速度が高くなっ
てきたため、プロセッサと主記憶メモリ（外部メモリ）
との速度差が大きくなってきた。プロセッサと主記憶メ
モリとの速度差を埋めるために、両者の中間に小容量か
つ高速のキャッシュメモリを配置することがある。最近
のプロセッサの中には、この種のキャッシュメモリを内
蔵したものが多い。プロセッサが要求するデータがキャ
ッシュメモリ内に存在する場合には、キャッシュメモリ
から読み出したデータをプロセッサに渡すことにより、
主記憶メモリへのアクセス回数が減少し、プロセッサの
高速処理が可能になる。

【０００３】

【発明が解決しようとする課題】しかしながら、キャッ
シュメモリの容量を大きくすると、キャッシュメモリ内
にデータが存在するか否かを検索する時間が長くなると
ともに、メモリに対するデータの読み書きに時間がかか
り、メモリ・アクセスの性能が低下してしまう。このた
め、キャッシュメモリの容量はあまり大きくできない。
したがって、容量の大きなデータの加工をキャッシュメ
モリ上で行おうとすると、頻繁にキャッシュリフィルを
行わなければならず、プロセッサの性能が低下する。

【０００４】また、キャッシュメモリは、同一のメモリ
アドレスに対して何度もアクセスする場合にはキャッシ
ュ・ヒット率が向上して高速処理が可能になるが、同一
のメモリアドレスに対するアクセス頻度が低い場合に
は、キャッシュ・ミス率が高くなり、メモリアクセスの
パフォーマンスが低下する。

【０００５】例えば、三次元の動画像を表示する場合に
は、メモリとプロセッサとの間で高速に画像データを伝
送する必要があり、キャッシュメモリと同程度の速度で
アクセスできるメモリに画像データを格納するのが望ま
しい。しかしながら、画像データは、データ容量が多
く、かつ、同一のメモリアドレスに対するアクセス頻度
が低いため、キャッシュメモリに格納してもアクセス速
度は上がらない。

【０００６】本発明は、上記の問題点を解決するために
なされたものであり、その目的は、キャッシュメモリと
同程度のレイテンシーでデータの読み書きができ、か
つ、キャッシュメモリとは違う目的で利用可能なＲＡＭ
を備えたマイクロプロセッサを提供することにある。

【０００７】

【課題を解決するための手段】上記の目的を達成するた
め、ロード／ストア命令を実行するロード／ストア命令
実行部を有するマイクロプロセッサは、前記ロード／ス
トア命令実行部によるデータの読み書きが可能で、か
つ、外部メモリとの間でデータをＤＭＡ(DirectMemory
Access)転送可能なＲＡＭを備える。

【０００８】請求項１の発明では、ロード／ストア実行
部によるデータの読み書きが可能で、かつ、外部メモリ
との間でＤＭＡによるデータ転送を可能としたため、プ
ロセッサが画像データのような大量のデータをプログラ
ムで処理する際の一時的な作業領域として用いることが
でき、その際にキャッシュメモリのような性能ペナルテ
ィがない。

【０００９】請求項２の発明では、ＲＡＭ内に第１およ
び第２のデータ格納領域を設けるため、一方の格納領域
にプロセッサがアクセスを行っている間に、他方の格納
領域でＤＭＡ転送を行うことができる。

【００１０】請求項３の発明では、ロード／ストア命令
実行部によるアクセスとＤＭＡ転送とが競合した場合に
は、ＤＭＡ転送を優先させるようにしたため、ＤＭＡ転
送速度が落ちるおそれがない。

【００１１】請求項４の発明では、ロード／ストア命令
実行部によるアクセスとＤＭＡ転送とが競合した場合の
優先度を制御できるようにしたため、実装形態に応じ
て、最適な処理を行うことができる。

【００１２】請求項５の発明では、上述した優先度を制
御するための外部ピンを設けるため、外部信号により、
優先度の切り替えが可能になる。

【００１３】請求項６および７の発明では、上述したＲ
ＡＭのアクセスに関連するデータを一次的に格納するス
トアバッファを設けるため、ＲＡＭにアクセス可能な状
態になってから、ストアバッファからデータを読み出し
てＲＡＭにアクセスすることができる。

【００１４】請求項８の発明では、上述したＲＡＭにア
クセスするための専用の命令を設けるため、プログラム
のページ管理が簡素化される。

【００１５】請求項９の発明では、ＲＡＭに対して直接
読み書きする命令と、外部メモリとの間でＤＭＡによる
ブロック転送を行う命令とを設けるため、請求項８の特
徴に加えて、ＲＡＭと外部メモリとの間で、プログラム
から明示的に高速にデータを転送できる。

【００１６】請求項１０の発明では、メモリ管理ユニッ
トの制御に先立って、上述した専用の命令を実行するよ
うにしたため、ＲＡＭアクセス命令の実行にあたってメ
モリ管理ユニットの動作を待つ必要がなく、ＲＡＭアク
セス命令を実装する回路の高速化が可能となる。

【００１７】請求項１１の発明では、キャッシュメモリ
と略等しいレイテンシーで上述したＲＡＭにアクセスで
きるため、プログラマは上述のＲＡＭにキャッシュメモ
リと略等しいレイテンシーでアクセスできることを前提
にプログラミングすることができる。

【００１８】請求項１２の発明では、上述したＲＡＭ用
のストアバッファを、キャッシュメモリ用のストアバッ
ファとは別個に設けるため、ストアバッファの制御が容
易になる。

【００１９】請求項１３の発明では、ＲＡＭに格納され
たデータと関係のあるアドレスとスヌープ対象のアドレ
スとを比較する比較器を設けるため、ＲＡＭに格納され
たデータと関係のあるアドレスへの外部エージェントの
アクセスを容易に検出し、それに対応した動作が可能に
なる。

【００２０】請求項１４の発明では、上述した比較器で
一致が検出されたＲＡＭ内の特定のデータを、スヌープ
を指示したエージェントに転送するようにしたため、デ
ータの検索・転送を高速に行うことができる。

【００２１】請求項１５の発明では、ロード／ストア命
令実行部がＲＡＭにアクセス中はスヌープ指示を受け付
けないようにしたため、パイプラインストールを抑制で
きる。

【００２２】請求項１６の発明では、スヌープ処理を行
うか否かを任意に設定できるようにしたため、プロセッ
サの動作に支障がない範囲内でスヌープ処理を行うこと
ができる。

【００２３】

【発明の実施の形態】以下、本発明に係るマイクロプロ
セッサについて、図面を参照しながら具体的に説明す
る。

【００２４】（第１の実施形態）図１は本発明に係るマ
イクロプロセッサの一実施形態の内部構成を示すブロッ
ク図である。図１のマイクロプロセッサは、外部バスＢ
１に接続されたバス・インタフェース・ユニット(Bus I
nterface Unit)１と、プロセッサが実行する命令（イン
ストラクション）のフェッチ（取り込み）を行うＩＦＵ
(Instruction Fetch Unit)２と、仮想アドレスから物理
アドレスへの変換を行うＭＭＵ(Memory Management Uni
t)３と、ロード／ストアに関連する命令を実行するＬＳ
Ｕ(Load Store Unit)４と、ロード／ストア以外の命令
を実行する複数の実行ユニット５ａ，５ｂ，５ｃと、浮
動小数点演算を行うＦＰＵ(Floating Point Unit)６
ａ，６ｂと、プロセッサ各部の制御を行う制御論理部(C
ontrol Logic)７とを備える。

【００２５】ＩＦＵ２は、分岐命令等の命令の分岐先を
記憶するBTACを参照しつつＰＣ(Program Counter)を生
成するPC-pipe２１と、命令を一時的に格納するICACHE
(Instruction Cache Memory)２２と、命令の種類を判別
してその命令を実行する実行ユニットを選択する命令発
行＆ステージング部(Instruction issue & Staging blo
ck)２３とを有する。

【００２６】ＭＭＵ３は、仮想アドレスから物理アドレ
スへの変換を行う３つのＴＬＢ(Translation Lookaside
Buffer)を有する。ＯＳ(Operating System)が有するペ
ージ・テーブルの一部のうち、物理ページ番号や保護情
報など、プロセッサが必要とするアドレス変換情報がＴ
ＬＢに書き込まれており、これに基づいてＭＭＵ３は物
理アドレスへの変換を行う。

【００２７】ＭＭＵ３内の３つのＴＬＢは、JTLB(Joint
Translation Lookaside Buffer)３１と、ITLB(Instruc
tion Translation Lookaside Buffer)３２と、DTLB３３
(Data Translation Lookaside Buffer)３３である。

【００２８】これら３つのＴＬＢのうち、JTLB３１が本
来のTLBである。JTLB３１は例えば４８個のエントリー
を有し、命令／データの別に関係なく、ページ単位で仮
想アドレスをマッピングする。

【００２９】一方、ITLB３２とDTLB３３は、総称してマ
イクロＴＬＢと呼ばれる。ITLB３２は命令の仮想アドレ
スのデータパス(Datapath)に直接接続される専用のＴＬ
Ｂであり、DTLB３３はデータの仮想アドレスのデータパ
スに直列接続される専用のＴＬＢである。これらＴＬＢ
は、エントリー数は少ないが、高速にアドレス変換を行
う。JTLB３１が生成した変換テーブルの一部が、必要に
応じてITLB３２またはDTLB３３に転送される。

【００３０】これら３つのＴＬＢは、例えばソフトウエ
アによって制御される。プロセッサは、JTLB３１に変換
テーブルが存在しない場合に例外を起こし、例外ハンド
ラのプログラムがＯＳのページテーブルから該当するペ
ージを探し出し、JTLB３１に変換テーブル１００の情報
を書き込む。

【００３１】ＬＳＵ４は、外部メモリに対する読み出し
／書き込みデータを一時的に格納するDCACHE(Data Cach
e Memory)４１と、キャッシュ以外の特殊な用途に使用
されるSPRAM(Scratch Pad RAM)４２と、DCACHE４１やSP
RAM４２をアクセスするための仮想アドレスを生成する
アドレス生成器(Virtual Address Computation)４３と
を有する。

【００３２】制御論理部７は、プロセッサ各部の制御を
行い、その内部には制御レジスタ(Control Register)７
１が設けられる。

【００３３】次に、図１のマイクロプロセッサの動作を
簡単に説明する。まず、PC-pipe２１で生成されたＰＣ
(Program Counter)に基づいて、ＩＦＵ２は命令のフェ
ッチを行う。なお、ＰＣは仮想アドレスである。

【００３４】ITLB３２は、ＰＣを仮想アドレスから物理
アドレスに変換する。物理アドレスは、ICACHE２２内の
ITAGにおける検索に利用され、ＰＣの指し示す命令がIC
ACHE２２内に存在するか否かを調べる。ＰＣの指し示す
命令がICACHE２２内に存在しない場合（キャッシュ・ミ
スのとき）には、物理アドレスによって不図示の外部メ
モリへのアクセスを行う。

【００３５】具体的には、キャッシュミスすると、ICAC
HE２２を制御するＩＦＵ２の制御論理部からＢＩＵ１の
制御論理部に対して、キャッシュミスが起きたことを示
す情報と、アクセスを行うべき物理アドレス情報とが渡
される。ＢＩＵ１は、これらの情報に基づいて外部メモ
リをアクセスし、アクセスが終了すると、データとキャ
ッシュ・ラインの取得が終わった旨の信号とをＩＦＵ２
に供給する。ＩＦＵ２は、アクセスしたデータをICACHE
２２に書き込む。同時に、リフィルされたキャッシュラ
インのうち、ＰＣの指し示す命令と、場合によっては、
ＰＣの指し示す命令の後に続くいくつかの命令を、命令
発行＆ステージング部２３に供給する。

【００３６】一方、ＰＣの指し示す命令がICACHE２２内
に存在する場合には、該当するICACHE２２内の命令と、
場合によってはＰＣの指し示す命令の後に続くいくつか
の命令が命令発行＆ステージング部２３に供給される。

【００３７】命令発行＆ステージング部２３は、命令の
種類を判別し、命令を実際に実行する実行ユニット（例
えば、ＬＳＵ４や他の実行ユニット）を決定する。この
際、命令発行＆ステージング部２３は、各実行ユニット
の空き具合を鑑みて動的に判断する。

【００３８】例えば、判別された命令がロード／ストア
命令の場合には、処理できる実行ユニットはＬＳＵ４だ
けなので、ＬＳＵ４に命令を供給できる状態になると、
命令発行＆ステージング部２３はＬＳＵ４に命令を送
る。

【００３９】次に、SPRAM４２に対してロード／ストア
を行う場合の動作を説明する。図２は、図１のＬＳＵ４
内部の一部構成を図示したものであり、SPRAM４２に関
係する部分を制御系(Control)８とデータパス(Datapat
h)に分けて図示している。

【００４０】図２の制御系８は、命令の流れに応じて、
データパスに与える制御信号を生成する。データパス
は、制御系８からの制御信号に基づいてデータを流して
いく。これが命令の実行に相当する。

【００４１】図２において、制御系８とデータパスとを
つないでいる各線は制御信号を示している。通常、制御
信号は制御系８からデータパスに供給される。また、図
２では省略しているが、データパスから制御系８に供給
される制御信号も存在する。例えば、ICACHE２２がミス
してパイプライン処理を止める場合には、データパスの
一部であるICACHE２２のＴＡＧからミス信号が制御系８
に供給されてパイプライン処理を停止させる。

【００４２】図２において、符号１０ａ〜１０ｊで示し
たブロックは、パイプライン処理を行う際にステージを
区切るためのレジスタ構造を示している。これらブロッ
クは、回路的には、フリップフロップやラッチで構成さ
れ、クロックに同期して、読み出しや書き込みを行う。
以下では、これらブロックを総称してパイプラインレジ
スタと呼ぶ。

【００４３】ＩＦＵ２は、ＩＦＵ制御論理部８１(IFU C
ontrol)の制御を受けて、フェッチされた命令をパイプ
ラインレジスタ１０ａに格納する。命令はパイプライン
レジスタ１０ａから命令デコーダ(Instruction Decode
r)８２に送られる。命令デコーダ８２では、命令の識別
や命令の処理に必要な中間的な制御信号を生成する。中
間的な制御信号を生成する理由は、命令デコーダ８２で
プロセッサのすべての制御信号を生成するのは量的およ
び速度的に不可能なためであり、命令デコーダ８２は、
命令よりも演算器の制御信号に近く、かつ、演算器の制
御信号そのものよりも抽象的な信号を生成する。

【００４４】フェッチされた命令がロード／ストア命令
であることが命令デコーダ８２で分かった場合には、制
御信号群が、関係する制御論理部に送られる。具体的に
は、制御信号群は、図２中のパイプライン制御論理部(P
ipeline Control)８３、ＧＰＲ制御論理部(General Pur
pose Register Control)８４、およびＬＳＵ制御論理部
(LSU Control)８５に送られる。

【００４５】パイプライン制御論理部８３とＬＳＵ制御
論理部８５では、データの流れのステージに同期する形
で命令や制御信号が流れていく。このため、制御系８と
データパスの双方にパイプラインレジスタ１０ａ〜１０
ｊが設けられている。

【００４６】パイプライン制御論理部８３は、パイプラ
インレジスタ１０の中身の状況に応じて、パイプライン
の進行の制御を行う。例えば、演算器上でリソースハザ
ードが生じた場合には、パイプラインを停止するなどの
処理を行う。

【００４７】ＬＳＵ制御論理部８５は、ロード／ストア
命令を実行するのに必要な制御信号を生成する。すなわ
ち、ＧＰＲ制御論理部８４の制御によりレジスタファイ
ル１１からパイプラインレジスタ１０に送られたデータ
は、アドレス生成器４３に送られてアドレスが生成され
る。アドレス生成器４３はアダー(Adder)制御論理部８
６により制御され、アドレス生成器４３により生成され
たアドレスは、次段のパイプラインレジスタ１０に送ら
れる。

【００４８】ＲＡＭ制御部に対応するＳＰＲ制御論理部
(SPRAM Control)８７は、パイプライン制御論理部８３
とＬＳＵ制御論理部８５からの信号を受けて、SPRAM４
２へのアクセスを行う。その際、パイプラインレジスタ
１０中のアドレスを使用する。このアドレスがロード命
令であるときは、リード・イネーブル信号を有効にし、
ライト・イネーブル信号を無効にする。そして、SPRAM
４２からデータを読み出し、パイプラインレジスタ１０
に格納する。格納されたデータは、次のステージでレジ
スタファイル１１に書き戻される。

【００４９】一方、パイプラインレジスタ１０中のアド
レスがストア命令であるときは、リード・イネーブル信
号を無効にし、ライト・イネーブル信号を有効にする。
そして、レジスタファイル１１からステージされてきた
データをSPRAM４２に書き込む。

【００５０】一方、プロセッサ外のＤＭＡ(Direct Memo
ry Access)コントローラ９は、図示のように、外部バス
を介してプロセッサ内部のＢＩＵ制御論理部(BIU Contr
ol)８７に接続されている。ＤＭＡコントローラ９がＢ
ＩＵ制御論理部８８に制御信号を送ってＤＭＡ処理を開
始すると、ＢＩＵ制御論理部８８はＳＰＲ制御論理部８
７に信号を送ってSPRAM４２をリード／ライトさせる。
すなわち、ＳＰＲ制御論理部８７は、ＢＩＵ制御論理部
８８を介して間接的にＤＭＡコントローラ９とも接続さ
れている。

【００５１】SPRAM４２に対するアクセス要求がＬＳＵ
４とＢＩＵ１２（ＢＩＵ１２からのアクセス要求は元は
ＤＭＡコントローラ９からのものである）の双方から同
時に発せられた場合は、ＳＰＲ制御論理部８７が両者を
調停してイネーブル信号群を決定し、アドレス入力とデ
ータ入力のセレクタを切り替える。

【００５２】例えば、ＬＳＵ４とＢＩＵ１２によるSPRA
M４２に対するアクセス要求の優先順位をプログラマブ
ルに制御するには、ＳＰＲ制御論理部８７に図２に点線
で示す制御レジスタ７１を接続し、この制御レジスタ７
１の値を優先順位に応じてプログラマブルに変化させれ
ばよい。あるいは、図２に点線で示したように、プロセ
ッサの外部ピンＰに入力される信号に応じて優先順位を
切り替えてもよい。

【００５３】次に、SPRAM４２の具体的な使用方法につ
いて説明する。図３はSPRAM４２を画像データやインス
トラクションの加工処理に用いる例を模式的に示した図
であり、以下、この図を用いてSPRAM４２の動作を説明
する。

【００５４】(1)まず、図３（ａ）に示すように、SPRAM
４２内の約半分程度の領域に、ＤＭＡ転送により、外部
メモリの画像データを格納する。

【００５５】(2)次に、図３（ｂ）に示すように、SPRAM
４２に格納したデータをロード命令により汎用レジスタ
に読み込み、インテジャー・ユニット５ａ，５ｂ等の実
行ユニットでデータを加工処理した後、ストア命令によ
りSPRAM４２に再び格納する。同時に、SPRAM４２内の他
の半分程度の領域に、ＤＭＡ転送により、外部メモリの
画像データを格納する。

【００５６】(3)次に、図３（ｃ）に示すように、加工
終了データをＤＭＡ転送により外部メモリにストアし、
同時に、SPRAM４２内の他の半分程度の領域に格納した
データをＬＳＵ４で加工処理し、かつ、SPRAM４２内の
半分程度の領域に外部メモリの画像データを格納する。

【００５７】このように、図１のSPRAM４２は、ＬＳＵ
４のパイプラインによるロード／ストアが可能で、か
つ、外部メモリとの間でＤＭＡによるデータ転送が可能
なため、画像データやインストラクションのように大量
のデータを高速に処理する場合に特に適している。すな
わち、SPRAM４２は、画像データやインストラクション
等の大量のデータをプロセッサで加工処理する際に、一
時的なメモ・パッド領域（作業領域）として用いるのに
適している。

【００５８】また、ＬＳＵ４は、DCACHE４１とほぼ同じ
レイテンシー（メモリアクセスに要するシステムクロッ
ク数）でSPRAM４２にアクセスできるため、外部メモリ
に格納されているデータを、いったんSPRAM４２に格納
すれば、その後、プロセッサはSPRAM４２にアクセスし
てデータ処理を行うことができ、外部メモリを直接アク
セスするよりも短時間に大量のデータを処理することが
できる。

【００５９】また、本実施形態のSPRAM４２は、外部メ
モリとのデータのやり取りにＤＭＡを用いるため、プロ
セッサが他の処理を行っている最中でも、外部メモリと
の間でデータ転送を行える。

【００６０】また、本実施形態のSPRAM４２は、マイク
ロプロセッサのコア部分であるＬＳＵ４等の各実行ユニ
ットと同一チップ内に収容されるため、信号遅延やノイ
ズなどの不具合が発生しにくく、また、実装面積や消費
電力も低減できる。

【００６１】図１では、ＬＳＵ４内にSPRAM４２とDCACH
E４１の双方を設ける例を説明したが、DCACHE４１を省
略してもよい。図４はDCACHE４１を持たない場合のSPRA
M４２周辺の回路図である。図示のように、SPRAM４２
は、バス調停を行うＢＩＵ(Bus Interface Unit)１２を
介してアドレス／データバスに接続され、このバスに
は、画像データやインストラクション等を格納する外部
メモリ等が接続される。

【００６２】一方、図５はSPRAM４２とDCHACHEの双方を
持つ場合のSPRAM４２周辺の回路図である。ＢＩＵ１２
には、SPRAM４２と、DCACHE４１と、DCACHE４１用のＴ
ＡＧ４４とが接続されている。DCACHE４１は、外部メモ
リから読み出されたデータの一部を格納するために用い
られ、ＴＡＧ４４は、DCACHE４１に格納されるデータの
付加情報（アドレスなど）を格納するために用いられ
る。

【００６３】図５に示すように、SPRAM４２とDCACHE４
１の双方を設けることにより、通常のメモリアクセスに
はDCACHE４１を用い、画像データなどの大量のデータを
加工処理する必要がある場合にはSPRAM４２を用いると
いうように、処理によってSPRAM４２とDCACHE４１を切
り替えることにより、システム全体の処理性能を向上で
きる。

【００６４】図６はプロセッサ内の各実行ユニット（図
６ではＣＰＵアクセスと表示）によるアクセスとＤＭＡ
転送とが競合した場合の処理を示すタイミング図であ
る。同時に複数のデバイスがアクセスを行えないワンポ
ートのSPRAM４２の場合、プロセッサ内の各実行ユニッ
トによるアクセスとＤＭＡ転送とが競合した場合には、
例えば、図１の制御レジスタ７１によりアクセス優先順
位が決められる。具体的には、プログラマは、特定の命
令を用いて、制御レジスタ７１内のビット値を優先順位
に応じて切り替える。

【００６５】図６はバスクロックの周波数がプロセッサ
のシステムクロックの半分の周波数の例を示しており、
この場合、ＤＭＡ転送はバスクロックに同期して行わ
れ、その合間に各実行ユニットによるアクセスが行われ
る。このようなアクセスを行うことにより、各実行ユニ
ットの処理がストールしなくなる。

【００６６】このように、プロセッサ内の実行ユニット
（例えば、ＬＳＵ４のパイプライン）によるSPRAM４２
のアクセスはＤＭＡ転送の合間に行われるため、ＬＳＵ
４のパイプラインがＤＭＡ転送と同タイミングでSPRAM
４２にアクセスしようとした場合には、そのパイプライ
ンはストール状態になる。

【００６７】この場合、図７に示すように、ＳＳＢ(SPR
AM Store Buffer)４５を設けることにより、ストールを
回避することができる。このＳＳＢ４５には、パイプラ
インが実行するSPRAMへのストア命令が一時的に格納さ
れる。図７はDCACHE４１を持たない場合のＳＳＢ４５の
接続関係を示す図、図８はSPRAM４２とDCACHE４１の双
方が共通のストアバッファ４６を有する例を示す図であ
る。また、図９は、SPRAM４２に専用のＳＳＢ４５と、D
CACHE４１に専用のストアバッファ４７とを設けた例を
示す図である。

【００６８】図７〜図９のように、ＳＳＢ４５またはス
トアバッファ４６，４７を設けることにより、ＬＳＵ４
等の実行ユニットのストールを回避することができる。
すなわち、SPRAM４２に対する実行ユニットによるアク
セスとＤＭＡ転送とが競合した場合には、実行ユニット
のデータは、ＤＭＡ転送が終了するまで、ＳＳＢ４５ま
たはストアバッファ４６，４７に格納され、その間、パ
イプラインは他の処理を行うことができる。

【００６９】なお、図８のように、SPRAM４２とDCACHE
４１でストアバッファ４６を共有する場合には、SPRAM
４２とDCACHE４１のいずれかを選択する選択回路が必要
になるため、図９よりもストアバッファ４６の構成が複
雑になる。

【００７０】図１０は、ＳＳＢ４５を備えたマイクロプ
ロセッサにおいて、プロセッサ内の実行ユニットによる
アクセスとＤＭＡによるアクセスが競合した場合のタイ
ミング図であり、実行ユニットのアクセスよりもＤＭＡ
転送の方が優先度が高い例を示している。

【００７１】例えば、時刻Ｔ１のときにＤＭＡ転送と実
行ユニットPipe Aのアクセスが競合した場合には、ＤＭ
Ａ転送が優先して実行され、実行ユニットPipe Aからの
データＤ１はいったんＳＳＢ４５に格納される。その
後、時刻Ｔ２になると、ＳＳＢ４５に格納されていた実
行ユニットPipe Aの処理が実行されるとともに、アクセ
スしようとした実行ユニットPipe BのデータＤ２はＳＳ
Ｂ４５に格納される。

【００７２】その後、時刻Ｔ３になると、ＤＭＡ転送が
優先して実行される。この時点では、ＳＳＢ４５の内部
にはすでに実行ユニットPipe BのデータＤ２が格納され
ているため、アクセスしようとした実行ユニットPipe C
はストール状態になる。

【００７３】その後、時刻Ｔ４になると、ＳＳＢ４５に
格納されていた実行ユニットPipe Bの処理が実行され、
同時に、ストールしていた実行ユニットPipe Cのデータ
Ｄ３がＳＳＢ４５に格納される。

【００７４】図１１はSPRAM４２のライトタイミングを
示すタイミング図である。図示のように、システムクロ
ックＣＬＫの２クロックごとにＤＭＡライトが行われ
る。ＣＰＵバスにはシステムクロックＣＬＫの２クロッ
ク分の長さのデータが供給される。

【００７５】一方、図１２はSPRAM４２のリードタイミ
ングを示すタイミング図である。図示のように、システ
ムクロックＣＬＫの２クロックごとにＤＭＡリードが行
われる。SPRAM４２からは、システムクロックＣＬＫの
１クロック分の長さのデータが出力され、ＣＰＵバスに
はシステムクロックＣＬＫの２クロック分の長さのデー
タが出力される。

【００７６】ところで、SPRAM４２をアクセスする際に
は、通常のロード／ストア命令を用いるようにしてもよ
いが、SPRAM４２をアクセスするための専用の命令を用
意してもよい。このような専用の命令の例としては、SP
RAMインデックス・ロードデータ命令、SPRAMインデック
ス・ストア命令、SPRAMインデックス・ストア・イミー
ディエートデータ命令、SPRAM４２へのブロック転送命
令、SPRAM４２からのブロック転送命令などが考えられ
る。これらの命令が発行された場合には、ＭＭＵ３の制
御に優先して実行するようにすれば、SPRAM４２への高
速アクセスが可能になる。

【００７７】SPRAM４２用の専用の命令を設けることに
より、プログラマは、SPRAM４２を必要に応じて手軽に
利用できるようになり、プログラム設計が容易になる。

【００７８】（第２の実施形態）第１および第２の実施
形態では、SPRAM４２がスヌープ(snoop)機能を持たない
例を説明したが、SPRAM４２にスヌープ機能を持たせて
もよい。ここで、スヌープとは、SPRAM４２やDCACHE４
１が外部メモリに格納されるべき最新データを保持して
いるか否かを探索することをいう。スヌープが必要にな
る理由は、プロセッサが外部メモリのデータを読み出そ
うとしたときに、実際には外部メモリに該当するデータ
が存在せず、SPRAM４２やDCACHE４１が保持しているこ
とがあるためである。

【００７９】図１３はスヌープ機能を有するSPRAM４２
の周辺回路図である。図示のように、アドレスレジスタ
４８と、アドレスコンパレータ４９とが新たに設けられ
る。アドレスレジスタ４８はSPRAM４２のＴＡＧとして
機能し、SPRAM４２に格納されているデータのアドレス
などが格納される。このアドレスレジスタ４８は、SPRA
M４２がｎ個のエントリーに分割されている場合には、
エントリーの数分だけ設けられる。アドレスレジスタ４
８は、ＣＰＵバスに接続されており、その中身はＣＰＵ
バスを介して読み出し可能である。

【００８０】図１３では省略しているが、アドレスレジ
スタ４８に書き込みを行う手段が必要となる。この手段
は、例えば、ＬＳＵ４に対して専用の命令を与えて書き
込みを行う。具体的には、プログラマが、特定のアドレ
スを指定することで、アドレスレジスタ４８に書き込み
を行う。あるいは、ＤＭＡによりSPRAM４２にデータを
書き込む際に、ＤＭＡのソース・アドレスを自動的にア
ドレスレジスタ４８にセットしてもよい。

【００８１】図１３のアドレスコンパレータ４９は、Ｂ
ＩＵ１２を介してアドレス／データバスと接続されてお
り、アドレスレジスタ４８にセットされているアドレス
と、スヌープを要求したエージェントから送られたアド
レスとを比較し、両者が一致した場合には、スヌープ・
ヒットと判断する。スヌープ・ヒットのときにどのよう
な動作を行うかは、システムの構成により異なる。

【００８２】例えば、スヌープ・ヒットのときに、ＢＩ
Ｕ１はＣＰＵのバス権を取得して、SPRAM４２内のヒッ
トしたエントリーのデータをＣＰＵバスに読み出す。あ
るいは、スヌープがヒットしたときに、何も処理を行わ
ないようにしてもよい。

【００８３】プロセッサを含んだシステム全体でのスヌ
ープ・ヒット時の動作として、例えば以下の(1)，(2)が
考えられる。

【００８４】(1)スヌープを発行したエージェントがSPR
AM４２からデータを受け取る。

【００８５】(2)スヌープを発行したエージェントは、S
PRAM４２がデータを送ることができるようになるまで待
機する。

【００８６】(2)の場合、アドレスレジスタ４８に１ビ
ット分のフラグを追加し、プロセッサ内の実行ユニット
がSPRAM４２を使用している場合にそのフラグをセット
する。フラグは、ＢＩＵ１２に接続されており、実行ユ
ニットからの命令でセット／リセットされる。フラグが
セットされている間は、SPRAM４２にスヌープ・ヒット
すると、スヌープを発行したエージェントは待ち状態に
なる。

【００８７】このように、SPRAM４２にスヌープ機能を
追加すれば、SPRAM４２が現在どのようなデータを保持
しているのかを外部から探索でき、また、必要に応じて
SPRAM４２に格納されているデータを読み出すことがで
きる。したがって、プログラム設計が容易になる。

【００８８】

【発明の効果】以上詳細に説明したように、本発明によ
れば、ロード／ストア実行部によるデータの読み書きが
可能で、かつ、外部メモリとの間でＤＭＡによるデータ
転送が可能なため、画像データのような大量のデータを
処理する際に一時的な作業領域として用いることができ
る。

【００８９】また、ある命令セットを持つプロセッサを
エミュレートする場合、エミュレートされる命令列を読
み込んで、ネイティブの命令列に変換、加工する際の一
時的な作業領域として用いることができる。ここで、Ｒ
ＡＭ内で生成されるネイティブの命令セット内のコード
は、プロセッサの性能向上のためにＲＡＭ内でエディッ
トすることができ、例えば、ジェネラル・パーパス・レ
ジスタでのリード・アフター・ライト時のハザードを解
決するために、命令列の順序を入れ替えることができ
る。

【００９０】また、ストアバッファを設けることによ
り、ロード／ストア命令実行部によるアクセスとＤＭＡ
転送とが競合した場合でも、パイプラインストールが起
きなくなる。

【００９１】また、ＲＡＭにスヌープ機能を持たせるこ
とにより、ＲＡＭに格納されているデータを必要に応じ
て外部に取り出すことができ、プログラム設計が容易に
なる。

【図面の簡単な説明】

【図１】本発明に係るマイクロプロセッサの一実施形態
の内部構成を示すブロック図。

【図２】図１のＬＳＵ内部の一部構成を図示した図。

【図３】SPRAMを画像データの加工処理に用いる例を模
式的に示した図。

【図４】DCACHEを持たない場合のSPRAM周辺の回路図。

【図５】SPRAMとDCACHEの双方を持つ場合のSPRAM周辺の
回路図。

【図６】プロセッサ内の各実行ユニットによるアクセス
とＤＭＡ転送とが競合した場合の処理を示すタイミング
図。

【図７】DCACHEを持たない場合のＳＳＢの接続関係を示
す図。

【図８】SPRAMとDCACHEの双方が共通のストアバッファ
を有する例を示す図。

【図９】SPRAM専用のＳＳＢとDCACHE専用のストアバッ
ファを設けた例を示す図。

【図１０】プロセッサ内の各実行ユニットによるアクセ
スとＤＭＡ転送とが競合した場合の処理を示すタイミン
グ図。

【図１１】SPRAMのライトタイミングを示すタイミング
図。

【図１２】SPRAMのリードタイミングを示すタイミング
図。

【図１３】スヌープ機能を有するSPRAM周辺の回路図。

【符号の説明】

１ＢＩＵ２ＩＦＵ３ＭＭＵ４ＬＳＵ５ａ，５ｂ，５ｃ実行ユニット６ａ，６ｂ，６ｃＦＰＵ７制御論理部２１ PC-pipe ２２ ICACHE ２３命令発行＆ステージング部３１ JTLB ３２ ITLB ３３ DTLB ４１データキャッシュ４２ SPRAM ４４データキャッシュ・タグ４５ＳＳＢ４６，４７ストアバッファ

───────────────────────────────────────────────────── フロントページの続き (72)発明者内海透アメリカ合衆国カリフォルニア州、サンノゼ、リンコン、サークル、1060、トーシバ、アメリカ、エレクトロニック、コンポーネンツ、インコーポレーテッド内 (72)発明者マイケル、ラームアメリカ合衆国カリフォルニア州、サンノゼ、リンコン、サークル、1060、トーシバ、アメリカ、エレクトロニック、コンポーネンツ、インコーポレーテッド内 (72)発明者カムラン、マリックアメリカ合衆国カリフォルニア州、サンノゼ、リンコン、サークル、1060、トーシバ、アメリカ、エレクトロニック、コンポーネンツ、インコーポレーテッド内

Claims

【特許請求の範囲】

【請求項１】ロード／ストア命令を実行するロード／ス
トア命令実行部を有するマイクロプロセッサにおいて、前記ロード／ストア命令実行部によるデータの読み書き
が可能で、かつ、外部メモリとの間でデータをＤＭＡ(D
irect Memory Access)転送可能なＲＡＭ(Random Access
Memory)を備えることを特徴とするプロセッサ。
【請求項２】前記ＲＡＭは、少なくとも第１および第２
のデータ格納領域を有し、前記ロード／ストア命令実行部が前記第１のデータ格納
領域に対してアクセスを行っている合間に、前記第２の
データ格納領域と前記外部メモリとの間でデータのＤＭ
Ａ転送を行い、かつ、前記ロード／ストア命令実行部が
前記第２のデータ格納領域に対してアクセスを行ってい
る合間に、前記第１のデータ格納領域と前記外部メモリ
との間でデータのＤＭＡ転送を行う制御を行うＲＡＭ制
御部を備えることを特徴とする請求項１に記載のマイク
ロプロセッサ。
【請求項３】前記ＲＡＭ制御部は、前記ＲＡＭに対する
前記ロード／ストア命令実行部によるアクセスとＤＭＡ
転送とが競合した場合には、ＤＭＡ転送を優先して行う
ことを特徴とする請求項２に記載のマイクロプロセッ
サ。
【請求項４】前記ＲＡＭに対する前記ロード／ストア命
令実行部によるアクセスとＤＭＡ転送との優先度を制御
可能な制御レジスタを備えることを特徴とする請求項１
〜３のいずれかに記載のマイクロプロセッサ。
【請求項５】前記ＲＡＭに対する前記ロード／ストア命
令実行部によるアクセスとＤＭＡ転送との優先度を制御
可能な外部ピンを備えることを特徴とする請求項１〜３
のいずれかに記載のマイクロプロセッサ。
【請求項６】前記ロード／ストア命令実行部による前記
ＲＡＭのアクセスに関連するデータを、アクセス前に一
時的に格納するストアバッファを備えることを特徴とす
る請求項１〜５のいずれかに記載のマイクロプロセッ
サ。
【請求項７】前記ＲＡＭに対する前記ロード／ストア命
令実行部によるアクセスとＤＭＡ転送とが競合した場合
には、ＤＭＡ転送を優先して行い、競合した前記ロード
／ストア命令実行部による前記ＲＡＭのアクセスに関連
するデータを一時的に前記ストアバッファに格納するＲ
ＡＭ制御部を備えることを特徴とする請求項６に記載の
マイクロプロセッサ。
【請求項８】前記ＲＡＭにアクセスするための専用の命
令が設けられることを特徴とする請求項１に記載のマイ
クロプロセッサ。
【請求項９】前記専用の命令の中には、前記ＲＡＭに対
して直接読み書きを行う命令と、外部メモリとの間でＤ
ＭＡによるブロック転送を行う命令との少なくとも一方
が含まれることを特徴とする請求項８に記載のマイクロ
プロセッサ。
【請求項１０】前記ロード／ストア命令実行部は、前記
専用の命令が発行された場合には、メモリ管理ユニット
の制御に先立って、該当する命令を実行することを特徴
とする請求項８または９に記載のマイクロプロセッサ。
【請求項１１】外部メモリから読み出したデータを一時
的に格納するキャッシュメモリを備え、前記ロードストア実行部は、前記ＲＡＭと前記キャッシ
ュメモリとを略等しいレイテンシーでアクセスすること
を特徴とする請求項１〜１０のいずれかに記載のマイク
ロプロセッサ。
【請求項１２】前記ロード／ストア命令実行部による前
記ＲＡＭのアクセスに関連するデータを、アクセス前に
一時的に格納する第１のストアバッファと、前記ロード／ストア命令実行部による前記キャッシュメ
モリのアクセスに関連するデータを、アクセス前に一時
的に格納する第２のストアバッファと、を備えることを
特徴とする請求項１１に記載のマイクロプロセッサ。
【請求項１３】前記ＲＡＭに格納されたデータに対応す
るアドレスを格納するアドレスレジスタと、前記アドレスレジスタに格納されたアドレスと、スヌー
プ対象となるアドレスとを比較する比較器と、を備え、前記ＲＡＭは、前記比較器による比較結果に応じた動作
を行うことを特徴とする請求項１２に記載のマイクロプ
ロセッサ。
【請求項１４】前記ＲＡＭは、前記比較器による比較結
果が一致した場合には、一致したアドレスに対応する前
記ＲＡＭのデータを、スヌープを指示したエージェント
に転送することを特徴とする請求項１３に記載のマイク
ロプロセッサ。
【請求項１５】前記アドレスレジスタは、前記ロード／
ストア命令実行部が前記ＲＡＭへのアクセス中であるか
否かを示すフラグ情報を含んでおり、前記フラグ情報により前記ロード／ストア命令実行部が
前記ＲＡＭへのアクセス中であることがわかると、スヌ
ープを指示したエージェントに対して前記ＲＡＭへのア
クセスを禁止することを特徴とする請求項１４に記載の
マイクロプロセッサ。
【請求項１６】前記ＲＡＭがスヌープ指示信号を受領す
るか否かを示すフラグ情報を有し、前記ＲＡＭが前記ス
ヌープを受領しないことを前記フラグ情報が示している
場合には、前記スヌープを指示する前記エージェントの
さらなるアクセスを一次的に禁止することを特徴とする
請求項１４または１５に記載のマイクロプロセッサ。