JPH09244951A - 順不同に命令を実行するコンピュータのためのシステム - Google Patents
順不同に命令を実行するコンピュータのためのシステムInfo
- Publication number
- JPH09244951A JPH09244951A JP9012344A JP1234497A JPH09244951A JP H09244951 A JPH09244951 A JP H09244951A JP 9012344 A JP9012344 A JP 9012344A JP 1234497 A JP1234497 A JP 1234497A JP H09244951 A JPH09244951 A JP H09244951A
- Authority
- JP
- Japan
- Prior art keywords
- processor
- instructions
- data
- cache
- address
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/08—Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
- G06F12/0802—Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
- G06F12/0844—Multiple simultaneous or quasi-simultaneous cache accessing
- G06F12/0846—Cache with multiple tag or data arrays being simultaneously accessible
- G06F12/0851—Cache with interleaved addressing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Advance Control (AREA)
- Memory System Of A Hierarchy Structure (AREA)
Abstract
数のアクセスを安価に実現し、データのスループットを
高めることにより、順不同に命令を実行するプロセッサ
の性能を改善する。 【解決手段】プロセッサは、各プロセッサ・サイクルの
間に、各々が安価な単一ポートのランダム・アクセス・
メモリであるような個々の独立したデータ・キャッシュ
・バンクを、同時にアドレスするように構成される。好
ましい実施例で、データキャッシュは、各々のサイクル
の間に奇数データ・アドレスおよび偶数データ・アドレ
スによってアドレスされる、奇数バンクおよび偶数バン
クをもつ。
Description
タ・プロセッサ・アーキテクチャに関し、特に、順不同
に命令を実行するプロセッサからデータ・キャッシュへ
のアドレスのスループットを増加させ、それによって性
能を高めるアドレス集合システムおよび方法に関する。
理ユニット)は、システムの演算を指示する制御ユニッ
ト、および計算演算を実施する算術論理ユニット(ALU)
からなる。プロセッサの設計は、1つまたは複数のレジ
スタ組の選択、これらレジスタ間の通信経路、およびこ
れらがどのように動作するか指示し、制御する手段を伴
う。普通、プロセッサは、主メモリに保有される一連の
命令からなるプログラムによって指示される。各々の命
令は、通常長さが1または複数ワードの1グループのビ
ットであり、プロセッサによって実行される演算を明示
する。一般に、プロセッサの基本サイクルは、(a)命令
を主メモリから命令レジスタへフェッチするステップ
と、(b) その命令を解読する(すなわちそれが示すなさ
れるべきことを判断する。各々の命令は、実施される演
算および演算が適用されるデータを示す)ステップと、
(c)その命令によって明示される演算を実行するステッ
プと、(d)次の命令が位置するところを判断するステッ
プとを含む。普通、次の命令とは、現在の命令のすぐ後
に続くものである。
並行に実施されるスーパースカラ・プロセッサのような
高性能なプロセッサにおいて、プロセッサは、順不同で
ある、またはプロセッサを駆動するソフトウェアによっ
て規定される順序と一貫しない順序である命令を実施す
るように設計されることができる。これらのシステム
で、命令は、それらがプログラムによって規定されるシ
ーケンスに現れるときに対し、それらが実行されること
ができるときに実行される。さらに、順不同の命令の実
行の後、その結果は、命令の順序と一致するように最終
的に並べ替えられる。
モリがしばしばコンピュータのプロセッサに関連して用
いられる。キャッシュ・メモリは、コンピュータのプロ
セッサと主メモリの間に位置する高速なバッファであ
る。プロセッサで現在使用中のデータおよび命令は、キ
ャッシュ・メモリへ移動させられ、それによって2つの
利益をもたらす。第1に、プロセッサのメモリ要求に関
する平均アクセス時間が低減され、プロセッサのスルー
プットを増加させる。第2に、それによって利用可能な
メモリ帯域幅のプロセッサの利用が低減されるので、シ
ステム・バス上のその他のデバイスは、プロセッサのじ
ゃまをすることなくメモリを使用することができる。こ
のようにキャッシュ・メモリは、主メモリからプロセッ
サへの命令およびデータのフローの速度を上げるために
使用される。主メモリのサイクル時間は、典型的にプロ
セッサのクロッキング速度よりも遅いので、このキャッ
シュ・ファンクションが重要である。
ータ・キャッシュにアクセスするとき、プロセッサはそ
のキャッシュにアドレスを送る。キャッシュは、アドレ
スからキャッシュ索引を解析し、所望のデータラインを
含みうる1つまたは複数の記憶位置を選択するためにそ
れを使用する。キャッシュは、いくつかの設計で、1ま
たは複数の位置に対応する実ページ番号(RPN)であるタ
グ、およびそのタグに対応するデータラインが有効であ
るか無効であるかを示すステータス・インジケータ(ind
icator)を出力する。
は、ステータス・インジケータおよびタグを受け取る。
ステータス・インジケータが無効データを示すとき、支
援回路は「ミス(miss)」表示をプロセッサに送り、その
場合、プロセッサはそのデータラインについて主メモリ
をアクセスしなければならない。ステータス・インジケ
ータが有効データを示すとき、支援回路は、キャッシュ
が所望のデータラインを現在格納しているか判断するた
めに、タグをアドレスの残りのものと比較する。キャッ
シュが、タグの比較によって判断されるように要求され
るデータラインを持たないとき、支援回路は、「ミス」
表示をプロセッサに送り、その場合、プロセッサはその
データラインについて主メモリをアクセスしなければな
らない。キャッシュが、タグの比較によって判断される
ように要求されるデータラインを持つとき、支援回路
は、「ヒット(hit)」表示をプロセッサに送り、要求さ
れるデータラインを読み取るようにプロセッサを促進す
る。
では、データ・キャッシュへの複数の同時のアクセスを
行ない、プロセッサからキャッシュ・メモリへのスルー
プットおよびプロセッサの速度全体を高めることが望ま
しい。1つのポートがキャッシュ・メモリへの各々のア
クセスに対応する複数のポートを持つキャッシュ・メモ
リを利用することが可能である。しかしこの解法は、こ
れらのキャッシュの設計が高価であるため望ましくな
く、大きいオフチップ・キャッシュを実現する安価なプ
ロセッサおよびコンピュータの大量生産には適さない。
されるような従来技術の不適当な点および不足した点を
克服することである。
するプロセッサの性能を改善することである。
セッサに関連するデータ・キャッシュ(DCACHE)への複数
のアクセスを安価に実現するシステムおよび方法を提供
することである。
ACHEのアドレッシングおよびDCACHEからプロセッサへの
データ転送の効率を増大させるシステムおよび方法を提
供することである。
プロセッサへのデータのスループットを増加させ、信頼
性を保証するシステムおよび方法を提供することであ
る。
は、プロセッサに関連するDCACHEの読み取りポートの使
用を最大限にすることによって、順不同に命令を実行す
るプロセッサの性能を高めるアドレス集合システムを提
供する。本質的に、プロセッサは、例えばメモリ待ち行
列(MQUEUE)のような命令並べ替え機構の命令によって生
成される複数のアドレスを、ランダム・アクセス・メモ
リ(RAM)のような対応する単一ポートの記憶装置からな
るそれぞれのキャッシュ・バンクに送るように構成され
る。好ましい実施例で、奇数メモリ・アドレスおよび偶
数メモリ・アドレスは、各々のサイクルの間に同時にDC
ACHEに送られる。
ャッシュ(ICACHE)、ICACHEから命令を取り出す命令フェ
ッチ機構(IFETCH)、IFETCHから命令を受け取り、その命
令を算術命令およびメモリ命令にソートするソート機
構、およびソート機構からメモリ命令を受け取り、順不
同に命令を実行することを許すMQUEUEのような並べ替え
機構を含む。MQUEUEは、複数のアドレス並べ替えバッフ
ァ・スロット(ARBSLOT)、奇数バンク・アービトレータ
および偶数バンク・アービトレータを含む。ARBSLOTの
各々は、アドレスを維持し、アドレスが奇数であるか偶
数であるか判断し、アドレスが奇数であるか偶数である
かに依存して、それぞれの奇数または偶数要求のいずれ
かを生成する。奇数および偶数バンク・アービトレータ
は、それぞれ奇数および偶数アドレスに関連する要求を
受け取り、アドレスをキャッシュへ出力するようにスロ
ットを制御する。
ドレスを処理し、プロセッサからデータ・キャッシュへ
のデータ・アドレスのスループットを増加させる新しい
方法を提供する。広く概念化されるような方法は、キャ
ッシュに複数の独立したバンクを維持するステップと、
プロセッサでデータ・アドレスを集めるステップと、デ
ータ・アドレスの各々をバンクの中の特定の一つに割り
当てるステップと、プロセッサの1サイクルの間に、バ
ンクの各々にアドレスを伝達するステップとを含む。
アドレス集合システム80(より詳しくは図3を参照)およ
び関連する方法は、コンピュータ11内で実現され、特
に、プロセッサ14内の命令フェッチ/実行システム12の
メモリ待ち行列(MQUEUE)38b、およびコンピュータ11の
プロセッサ14に接続されるデータ・キャッシュ(DCACHE)
24に関連する。一般に、コンピュータ11は、プロセッサ
14、プロセッサ14を駆動するソフトウェア(S/W)18をも
つ主メモリ16、参照矢印23で示されるように、プロセッ
サ14と相互接続するランダム・アクセス・メモリ(RAM)
のような単一ポートの記憶装置の形式のDCACHE24、およ
びプロセッサ14および主メモリ16と相互接続する1また
は複数のバスのようなシステム・インターフェース22か
らなる。演算において、プロセッサ14の命令フェッチ/
実行システム12がソフトウェア18を実行するとき、プロ
セッサ14で現在使用中のデータは、MQUEUE38bの命令の
制御によってDCACHE24へ転送され、それによってプロセ
ッサのメモリ要求に関する平均アクセス時間を減少さ
せ、システム・インターフェース22のトラフィックを最
小限にする。最後に、新しいアドレス集合システム100
を除いては、前述のコンピュータ構成要素およびそれら
の相互作用はすべて従来技術でよく知られており、理解
されていることを述べなければならない。
は、タグ、ステータス・インジケータおよびデータを含
む。所望のデータラインを含みうる1つまたは複数の記
憶位置を選ぶために、キャッシュ索引が、DCACHE24に送
られ、DCACHE24で使用される。キャッシュ索引の受領に
応答して、DCACHE24は、1つまたは複数の位置に対応
し、好ましい実施例において実ページ番号(RPN)である
タグ、タグに対応するデータラインが有効であるか無効
であるか示すステータス・インジケータ、および有効ま
たは無効でありうるデータを出力する。典型的に、ステ
ータス・インジケータは以下の状態を示す。「無効」
は、存在するデータがないことを意味する。「有効、共
有(valid shared)」は、データは存在するが、どこかほ
かに位置することがありえることを意味する。「有効、
専有、クリーン(valid private clean)」は、ラインが
唯一のコピーをもち、DCACHE24がまだラインに書き込み
をしていないことを意味する。「有効、専有、ダーティ
(valid private dirty)」は、ラインが唯一のコピーを
もち、DCACHE24がすでにラインに書き込みをしている
(従ってラインを主メモリ16へコピーする必要がある)こ
とを意味する。
せず)は、ステータス・インジケータおよびタグを受け
取る。ステータス・インジケータが無効データを示すと
き、タグ比較機構は、「ミス」表示をプロセッサ14へ送
り、その場合プロセッサ14は、そのデータラインについ
て主メモリ16にアクセスする。ステータス・インジケー
タが有効なデータを示すとき、タグ比較機構は、DCACHE
24が所望のデータラインを現在格納しているかどうか判
断するために、タグをアドレスの残りのものと比較す
る。DCACHE24が、タグ比較によって判断されるように、
要求されるデータラインを持たないとき、タグ比較機構
は、「ミス」表示をプロセッサ14へ送り、その場合プロ
セッサ14は、そのデータラインについて主メモリ16をア
クセスする。DCACHE24が、タグ比較によって判断される
ように、要求されるデータラインをもつ場合、タグ比較
機構は、「ヒット」表示をプロセッサ14へ送り、要求さ
れるデータラインを読み取るようにプロセッサ14を促進
する。
施例が、図2のブロック図によって示される。図2で示
すように、命令フェッチ/実行システム12は、命令をソ
フトウェア18(図1)から格納する命令キャッシュ(ICACH
E)26をもつ。命令フェッチ機構(IFETCH)28はICACHE26と
連絡し、最終の実行のためにICACHE26から命令を取り出
す。好ましい実施例では、IFETCH28は、一度に4命令
(各々32ビット)をフェッチし、その命令をソート機構
32へ転送する。
ユニット(ALU)またはメモリのどちらに向けられている
か判断し、それに応じて、対応する参照矢印36a、36bで
示されるように命令を算術論理ユニット待ち行列(AQUEU
E)38aおよびMQUEUE38bへそれぞれ分配する。
ましい実施例で数は28)を含み、それらは、参照矢印43
で示されるように算術論理ユニット42へ指示されるそれ
ぞれの命令を格納するレジスタ41aを持つ。AQUEUE38aの
命令は、任意の可能な順序で(好ましくはデータフロー
形態で)実行され、それらが完了するとき、その結果が
捕らえられ、完了とマークされる。
ンターフェース45で示されるように、リネーム(rename)
・レジスタ44a、44bおよび汎用レジスタ46からオペラン
ドを取り出すことができる。ALU42がオペランド上に演
算したあと、演算の結果は、参照矢印49で示されるよう
に、AQUEUEリネーム・レジスタ44aに格納される。
む。それぞれの命令処理機構39bは、それぞれのメモリ
命令を格納するレジスタ41bを含み、また参照数字48に
よって表示される、それぞれのアドレスを格納するアド
レス並べ替えバッファ・スロット(ARBSLOT、好ましい実
施例で数は28である)を含む。MQUEUE38bの中のメモリ命
令は、メモリへの「ロード」および「格納」として分類
されることができる。「ロード」は、データをメモリ(D
CACHE24または主メモリ16)からレジスタへ転送する要求
であり、「格納」は、データをレジスタからメモリへ転
送する要求である。
ドレスを計算するために、規定される数学的演算をオペ
ランドに実行することを伴い、第2のフェーズは、計算
されたアドレスに基づくデータについてメモリ/キャッ
シュをアクセスすることを伴う。MQUEUE38bは、任意の
可能な順序で(好ましくはデータフロー形態で)各々の命
令および実行の2つのフェーズ(アドレス計算およびメ
モリ/キャッシュ・アクセス)を実行する。命令が完了す
ると、その結果は、MQUEUEリネーム・レジスタ44bによ
って捕らえられ、命令は、MQUEUE38bで完了とマークさ
れる。好ましい実施例において、MQUEUE38bは、1サイ
クルあたり4命令(各々32ビット)までをソート機構32
から受け取り、参照矢印51bによって示されるように、
1サイクルあたり2命令(32ビット)までを退去機構52
へ転送する。
の間に、アドレスはアドレス計算器58によって生成され
る。アドレス計算器58は、リネーム・レジスタ44bから
取り出されるオペランドに基づいてアドレスを計算し、
参照矢印62で示されるように、MQUEUE38bの中の命令に
対応するARBSLOT48へ(実または仮想)アドレスを渡す。
命令による計算の制御は、図2の参照矢印64で示され
る。メモリの命令の実行の第2フェーズが遂行されると
き、計算されたアドレス(キャッシュ索引を含む)が、参
照矢印54で示されるようにDCACHE24へ転送され、DCACHE
24でロードまたは格納を達成する。好ましい実施例で
は、可能であれば2つのアドレスが、各々のサイクルに
MQUEUE38bからDCACHE24へ転送される。DCACHE24がアド
レスを処理すると、データ結果は、参照矢印56で示され
るようにリネーム・レジスタ44bへ転送される。
るように、待ち行列38a、38bの各々から実行された命令
を受け取る(好ましくは1サイクルあたり2つの32ビッ
ト)。退去機構52は、命令の結果をアーキテクチャの状
態に付する。ソフトウェア18(図1)は、退去機構52によ
ってアーキテクチャの状態に変換されない結果には気付
かない。退去機構52は、それぞれ参照矢印73、74で示さ
れるように、命令の結果を命令の属性に依存して汎用レ
ジスタ46および/または制御レジスタ72へ移動させるこ
とにより、ソフトウェア18によって規定されるプログラ
ムの順序で待ち行列38a、38bの命令を退去させ、そして
参照矢印76a、76bで示されるように、命令の結果がリネ
ーム・レジスタ44a、44bから汎用レジスタ46へ渡され
る。
格納をもたらす命令を退去させるとき、退去機構52は、
データラインをDCACHE24へ送り、ラインに対応するステ
ータス・インジケータに「ダーティ」とマークし、ライ
ンが変わり、主メモリ16でのラインを更新するために最
終的に主メモリ16に送られなければならないことを示
す。
あるかどうか判断するための論理をもつ。例外とは、現
在退去させている命令の1つに対応する特別な状況を示
すフラグである。例外が起きた場合、退去機構52は、例
外を示した命令の後に続く待ち行列38a、38b内のすべて
の命令を捨て、IFETCH28に、再実行のために未解決の命
令をもう一度取り出させる、または特別な状況を扱うた
めの特別なソフトウェアを取り出させる。
して記述される。アドレス集合システムに従って、プロ
セッサ14は、複数のアドレスを、DCACHE24を形成する対
応する単一ポートの記憶装置のそれぞれのキャッシュ・
バンクへ送るように構成される。好ましい実施例で、奇
数メモリ・アドレスおよび偶数メモリ・アドレスは、各
サイクルの間に同時にDCACHEの奇数および偶数キャッシ
ュへ送られる。
るように、主にMQUEUE38bに位置する資源を通って実現
される。アドレス計算器28は加算器82a、82bを伴い、そ
れらの各々は、リネーム・レジスタ44bから2つの入力
オペランド84(図1の参照矢印45)を受け取る。加算器82
a、82bは、それらそれぞれの入力オペランド84に演算し
て、アドレス62a、62bをそれぞれ生成する。
は、1つが各々のアドレスを格納する複数のARBSLOT48
を含む。好ましい実施例では、28のARBSLOT48がある
が、任意の数が用いられることができる。奇数バンク・
アービトレータ84aおよび偶数バンク・アービトレータ8
4bは両方とも、それぞれ矢印86a、86bで示されるよう
に、ARBSLOT48の各々と連絡する。典型的に、2つのア
ドレスが各サイクルの間にMQUEUE38bによってDCACHE24
へ送られ、好ましい実施例では、一方が奇数であり、他
方が偶数である。奇数および偶数アドレスは、参照矢印
88a、88bによって示されるようにそれぞれARBSLOT48か
ら出力される、またはバイパス・パス92a、92bから出力
される。本質的に、バイパス・パス92a、92bはそうする
ように制御されるとき、それぞれの入力62a、62b上のア
ドレスを直接DCACHE24へ送る。バイパス・パス92a、92b
は、DCACHE24へ転送される準備をしている有効なアドレ
ス(奇数または偶数キャッシュポートのいずれかに関す
る)がないときに利用されるので、サイクルが消費され
ず、高性能が達成される。
態がいったんクリアになると、そのアドレスを計算す
る。アドレスが計算されると、命令はこのステータスを
示し、アドレスがDCACHE24へ送り出されるようにMQUEUE
38bに要求する。裁定(arbitration)論理、すなわち命令
に対応するアドレスが奇数であるか偶数であるかに依存
する奇数バンク・アービトレータ84aまたは偶数バンク
・アービトレータ84bはいずれも、アドレスをDCACHE24
に送り出すときおよび送り出すかどうかを判断する。対
応するアービトレータ84a、84bは、最も古いアドレス
(奇数または偶数のいずれも)を選び、最も古いものを送
り出す。
能になるとき、順不同に実行する。それゆえ、アドレス
は順不同に計算され、MQUEUE38bによって受け取られる
アドレスは順不同でありえる。しかし、MQUEUE38bからD
CACHE24へ送られるアドレスの順序は、ソフトウェア18
(図1)によって規定される順序で優先順位をつけられ
る。この実施例は、優先順位が最も古い命令に与えられ
るので性能の利点をもたらし、その形状は、アドレスを
ソフトウェア18(図1)へ最適にインターフェースする。
クサ機構93は、MQUEUE38bからの直接のおよびバイパス
のパスを扱う。マルチプレクサ機構93は、アドレス88
a、92aおよび88b、92bをそれぞれMQUEUE38bから受け取
るマルチプレクサ(MUX)94a、94bを含む。本質的に、マ
ルチプレクサ94a、94bは、アドレスがARBSLOT48からDCA
CHE24に伝達されるか、または代替としてアドレスがバ
イパス・パス92a、92bからDCACHE24に伝達されるかを制
御する。マルチプレクサ94a、94bは、参照矢印96で示さ
れるように奇数または偶数アービトレータ84a、84bによ
って制御される。マルチプレクサ94a、94bは、参照矢印
99a、99bで示されるように、選ばれたアドレスをそれぞ
れの奇数および偶数バンク98a、98bへ転送する。典型的
な演算で、奇数アドレスおよび偶数アドレスは、1サイ
クルの間にDCACHE24へ転送される。時には奇数または偶
数アドレスのどちらかのみ利用可能であり、その場合、
1つの奇数または偶数アドレスだけが特定のサイクルの
間にDCACHE24へ転送される。しかし、上述の筋書きはま
れである。最後に、マルチプレクサ94a、94bは、DCACHE
24のポートを要求するARBSLOT48がないときにバイパス
・パス92a、92bを選ぶように制御される。
アービトレータ84a、84bに関する要求を生成するため
の、各々のARBSLOT48に関連する論理が、図4に明らか
にされる。図4を参照して、各々のアドレスは、ARBSLO
Tレジスタ104に格納される。各々のアドレスは、DCACHE
24にアクセスするためのキャッシュ索引101、1つまた
は複数の奇数/偶数(O/E)ビット102、DCACHE24と相対
的なバイト・オフセットを構成する複数のビット103を
含む。典型的に、キャッシュがアクセスされるとき、バ
イト・オフセット103は無視される。上述の要素は、好
ましい実施例において連続している。
ビット102を調べて、ミスに従属する(dependent-on-mis
s、DM)入力114の反転(〜DM)と、キャッシュ・アド
レス有効入力(CA_VALID)116と、アービトレータ84aにつ
いて奇数要求107またはアービトレータ84bについて偶数
要求109を導出する、またはどちらも導出しないための
キャッシュ未決定入力(CP)118とを受け取る。アーキ
テクチャに関して、ARBSLOT48の論理は、DM入力から
〜DMを生成するためのインバータ112、O/Eビット10
2から〜O/Eを生成するためのインバータ113、奇数要
求を生成するためのAND論理106、偶数要求109を生成
するためのAND論理108を含む。奇数および偶数の要
求107、109は、それぞれ奇数および偶数アービトレータ
84a、84bへ送られる(図3)。
2、信号〜DM114'、このARBSLOT48レスが有効アドレス
を含むか含まないかを示す信号CA_VALID116、アドレス
がDCACHE24へ送られる必要があるかないかを示す信号C
P118である。信号CA_VALID116およびCP118は両方と
も、生成される要求107、109について順にアサートされ
なければならない。ARBSLOT48が、DCACHE24にはないが
すでに主メモリ16(図1)から要求されているデータを現
在必要とするとき、DM入力114がアサートされる(〜D
Mはアサートから外される(deasserted))。このミスデ
ータに従属するすべてのARBSLOT48は、アサートされる
DM入力114を与えられ、対応するARBSLOT48は、主メモ
リ16からデータを要求することを控える。例として、D
M入力114を生成するために利用されうる回路は、この
発明者によって、同日に出願されている「Miss Trackin
g System And Method」というタイトルの同時継続出願
特許の明細書に詳細に記述されている。
〜O/E102、〜DM114'、CA_VALID116およびCP118を
受け取る。上述の信号すべてがアサートされるとき、A
ND論理108は、偶数アービトレータ84bについて偶数要
求109を生成する。
ータ84a、84b(図3)の可能な実現に関連する特定の論理
が、図5ないし図8を参照して詳細に述べられる。簡潔
にするために、アービトレータ84a、84bのうちの一方だ
けに関する論理が、図5ないし図7に示され、この後に
記述されるが、論理は他方に関しても大体同じであるこ
とが理解されなければならない。
84は、MQUEUE38b内に位置する最も古い命令を判断し、
送り出すように設計される。ARBSLOT48はそれぞれ、1
つの要求(REQ[27:0]のうちの1つ)を各々のアービトレ
ータ84に提供する。これらの要求REQ[27:0]に基づい
て、アービトレータ84(奇数または偶数)は、各サイクル
の間に1つのARBSLOT48(奇数または偶数)にのみアドレ
スを送り出す能力を許可する。この点で、アービトレー
タ84は、ARBSLOT48にそれぞれGRANT[27:0]を与える。
ように、各々のアービトレータ84は、最も古い8要求の
グループ(すなわちREQ[27:24]、REQ[23:16]、REQ[15:
8]、REQ[7:0]のうちの1つ。好ましい実施例ではARBSLO
T48および命令は28しかないので、4番目のグループ
は4しかもたないことに注意されたい)を判断するため
の最も古い論理121を含む。最も古い論理121は、4つの
退去ポインタRET[25, 17, 9, 1]を受け取り、参照矢印1
22で示されるように、1つがそれぞれの8要求のグルー
プに対応する4つの信号OLD[3:0]を出力する。退去ポイ
ンタRET[27:0]は、退去すべき次の2命令が位置すると
ころを示す。所与の時間に、上述の退去ポインタのうち
2つがアサートされ、それによって最も古い要求REQ[2
7:0]を示す。本質的に、退去ポインタRET[27:0]は、ア
サートされる変数(「1」)を含むチェーンの中の2つの
ラッチをもつ循環シフト・チェーンから生成され、それ
ら退去ポインタの各々は、関連するMQUEUE命令が退去す
るときは必ず、アサートから外される変数(「0」)へ移
行する。
要求のグループの最初の半分が送り出しを完了したかど
うか判断する。例えば、要求REQ[7:0]が最も古いグルー
プであると仮定する。この筋書きで、下位完了論理124
は、要求REQ[3:0]がすでに退去しているかどうか判断す
る。下位完了論理124は、それに入力される入力退去ポ
インタRET[25, 21, 17, 13, 9, 5, 1]に基づいて、参照
矢印126で示されるように、この情報を示す1つの信号
(LOW_DONE)を出力する。
24, 23:20, 19:16, 15:12, 11:8, 7:4, 3:0]は、グルー
プに集められ、OR論理へ送られる。簡潔にするため
に、最初の2つの4要求のグループ([REQ[7:4, 3:0])の
み図5に示される。図示されるように、参照番号131-13
4、136-139で示される各々の4要求のグループ(REQ[7:
4、3:0])は、それぞれOR論理141、142へ伝達され、参
照数字143、144で示されるように対応する信号REQOR
[0]、REQOR[1]を生成する。ゆえにOR演算は、REQOR[2
7:0]に基づいてREQOR[6:0]をもたらす。
号OLD[3:0]122、LOW_DONE126、およびREQOR[6:0]を受け
取る。上述の信号の論理状態に基づいて、許可判断論理
146は、対応する許可信号GRANT[27:0]の1つをアサート
することにより、ARBSLOT48の1つからアドレスを送り
出す。
明らかにされる。図6に示されるように、最も古い論理
121は、退去ポインタRET[25, 17, 9, 1]に基づいて、ど
の8要求のグループが最も古いかを示すために1ビット
を設定する循環変化チェーン161を実現する。チェーン1
61は、退去ポインタRET[1] 164によって作動し、最も古
い信号OLD[0] 168を提供するマスター/スレーブ・ラッ
チ(M/S)166に接続されるトランジスタ162と、退去ポ
インタRET[9] 174によって作動し、M/Sラッチ166と最
も古い信号OLD[1] 178を提供するM/Sラッチ176の間に
接続されるトランジスタ172と、退去ポインタRET[17] 1
84によって作動し、M/Sラッチ176と最も古い信号OLD
[2] 188を提供するM/Sラッチ186の間に接続されるト
ランジスタ182と、退去ポインタRET[25] 194によって作
動し、M/Sラッチ186と最も古い信号OLD[3] 198を生成
するM/Sラッチ196の間に接続されるトランジスタ192
とを含む。対応する参照数字164、174、184、194で示さ
れる退去ポインタRET[25, 17, 9, 1]は、退去すべき次
の2命令が位置するところを示すことを思い出された
い。所与の時間に、OLD[3:0]の1つがアサートされ、最
も古い8要求の組を示す。
7に示される。図7を参照して、下位完了論理124は、
それぞれの参照数字201-208によって示される退去ポイ
ンタRET[29, 25, 21, 17, 13, 9, 5, 1]の状態に基づい
て、信号LOW_DONE126を生成する。下位完了論理124はラ
ッチ211を含み、それは、その設定(SET)およびクリア(C
LR)入力でそれぞれ退去ポインタRET[9,5] 201、202を受
け取り、ワイヤ-OR出力126に接続されるソース216を
持つトランジスタ214を作動させる出力212を生成する。
ラッチ221は、その設定およびクリア入力でそれぞれ退
去ポインタRET[17,13] 203、204を受け取り、ワイヤ-O
R出力126に接続されるソース226をもつトランジスタ22
4を作動させる出力222を生成する。ラッチ231は、その
設定およびクリア入力でそれぞれ退去ポインタRET[25,
21] 205、206を受け取り、ワイヤ-OR出力126に接続さ
れるソース236をもつトランジスタ234を作動させる出力
232を生成する。ラッチ241は、その設定およびクリア入
力で退去ポインタRET[27, 1]207、208を受け取り、ワイ
ヤ-OR出力126に接続されるソース246をもつトランジ
スタ244を作動させる出力242を生成する。前述の配置に
よって、下位完了論理124は、最も古い8のグループの
どちらの半分がすでに退去しているか判断する。
古い4命令の組を識別しさえすればよいことに留意され
たい。最も古い命令と最も若い有効な命令の間には常に
ギャップがあり、この論理は必ずしも最も古い命令を選
択する必要がないので、これで十分である。
い実施例が、図8で詳細に明らかにされる。図8を参照
すると、許可判断論理146は、入力OLD[3:0]、LOW_DONE
およびREQOR[6:0]を受け取る資格(qualify)論理252を含
む。資格論理252は、図8に示されるように、上述の入
力に基づいてブール方程式およびOR論理254、256を実
現し、一連の資格信号QUAL[6:0]を生成する。簡潔にす
るために、最初の8要求REQ[7:0]についてのブール方程
式と、参照数字258、259で示されるようにそれらの対応
する結果の資格信号QUAL[1:0]のみが図8に示される。
しかし、ブール方程式のパターンは、繰り返し行われ
る。資格信号QUAL[6:0]は、どの4要求のグループが、
次の送り出し許可について注目されるかを示す。したが
って、要求REQ[7:0]のケースでは、資格信号QUAL[1,0]
は、どの4要求が(REQ[7:4]またはREQ[3:0]のどちらが)
送り出しを許可するために次に注目されるべきか示す。
論理機構を含み、簡潔にするために参照数字261-268で
示されるように、最初の8つだけが図示されている。最
初の8つのAND論理機構261-268は、GRANT[7:0]を生
成するために、資格信号QUAL[1:0]、REQ[7:0]および〜R
EQ[6:0]を評価する。
号QUAL[0]および要求REQ[0]を受け取り、それに基づい
て、最初のARBSLOTが送り出すか否か判断する許可信号G
RANT[0]を生成する。AND論理262は、要求REQ[1]、〜
REQ[0]およびQUAL[0]を受け取り、参照数字152で示され
るように、対応するARBSLOT48が送り出すときを判断す
るために対応するARBSLOT48に送られる許可信号GRANT
[1]を生成する。AND論理263は、要求REQ[2]、〜REQ
[1]、〜REQ[0]およびQUAL[0]を受け取り、それに基づい
て、参照数字153で示されるように、対応するARBSLOT48
が送り出すときを判断するために対応するARBSLOT48に
送られる許可信号GRANT[2]を生成する。AND論理264
は、REQ[3]、〜REQ[2]、〜REQ[1]、〜REQ[0]およびQUAL
[0]を受け取り、それに基づいて、参照数字154で示され
るように、対応するARBSLOT48が送り出すときを判断す
るために対応するARBSLOT48に送られる許可信号GRANT
[3]をする。AND論理265は、REQ[4]およびQUAL[1]を
受け取り、それに基づいて、参照数字155で示されるよ
うに、対応するARBSLOT48が送り出すときを判断するた
めに、対応するARBSLOT48に送られる許可信号GRANT[4]
を判断する。AND論理266は、REQ[5]、〜REQ[4]およ
びQUAL[1]を受け取り、それに基づいて、参照数字156で
示されるように、対応するARBSLOT48が送り出すときを
判断するために対応するARBSLOT48に送られる許可信号G
RANT[5]を判断する。AND論理267は、REQ[6]、〜REQ
[5]、〜REQ[4]、およびQUAL[1]を受け取り、それに基づ
いて、参照数字157で示されるように、対応するARBSLOT
48が送り出すときを判断するために対応するARBSLOT48
に送られる許可信号GRANT[6]を生成しする。AND論理
268は、REQ[7]、〜REQ[6]、〜REQ[5]、〜REQ[4]およびQ
UAL[1]を受け取り、それに基づいて、参照数字158で示
されるように、対応するARBSLOT48がそのアドレスを送
り出すときを判断するために対応するARBSLOT48に送ら
れる許可信号GRANT[7]を生成する。
変形や修正が行われることができる。例として、プロセ
ッサ14の待ち行列38a、38bは、予約ステーションを含む
適当な命令並べ替え機構によって置き換えられることが
できる。
テム(80)であって、複数のバンク(98a、98b)をもつデー
タ・キャッシュ(24)と、1プロセッサ・サイクルの間
に、複数のアドレスを、対応する複数のキャッシュ・バ
ンク(98a、98b)へ同時に送られるように構成されるプロ
セッサ(14)と、を備える上記システム。 (2)上記アドレスが、奇数バンク(98a)および偶数バ
ンク(98b)に指向される奇数データ・アドレスおよび偶
数データ・アドレスをもつ、上記(1)のシステム(80)。 (3)順不同に命令を実行し、上記順不同の命令に従っ
て上記データ・アドレスを受け取る、上記プロセッサ(1
4)に関連する手段(48)を備える、上記(1)のシステム(8
0)。
シュ(26)と、上記命令キャッシュ(26)から命令を取り出
す命令フェッチ機構(28)と、上記命令フェッチ機構(28)
から命令を受け取るように構成され、上記命令を算術命
令およびメモリ命令にソートするように構成されるソー
ト機構(32)と、各々がアドレスを維持するように、上記
アドレスが奇数であるか偶数であるか判断するように、
そして上記アドレスが奇数であるか偶数であるかに依存
してそれぞれの奇数および偶数要求(86a、86b)を生成す
るように構成される、複数のアドレス並べ替えバッファ
・スロット(48)をもつ、上記ソート機構(32)から上記メ
モリ命令を受け取るように構成される上記メモリ待ち行
列(38b)と、上記奇数および偶数要求(86a、86b)をそれ
ぞれ受け取るように、またデータを上記データキャッシ
ュ(24)へ出力するために上記アドレス並べ替えバッファ
(48)を制御するように構成される奇数および偶数バンク
・アービトレータと、を備える、上記(2)のシステム(8
0)。
のランダム・アクセス・メモリを含む、上記(2)のシス
テム(80)。 (6)上記奇数および偶数バンク・アービトレータは、
上記奇数および偶数の命令のうちのどれがそれぞれ最も
早く受け取られるかを判断するように構成され、また上
記最も早い奇数および偶数の命令が上記データキャッシ
ュ(24)に一緒に送られるように構成される、上記(4)の
システム(80)。
を処理し、プロセッサ(14)からデータ・キャッシュ(24)
へのデータ・アドレス(99a、99b)のスループットを増加
させる方法(80)であって、上記キャッシュに複数の独立
したバンク(98a、98b)を維持するステップと、上記プロ
セッサ(14)でデータ・アドレス(62a、62b)を集めるステ
ップと、各々の上記データ・アドレス(99a、99b)を上記
バンク(98a、98b)の特定の一つに割り当てるステップ
と、上記プロセッサ(14)の1サイクルの間に、アドレス
(99a、99b)を上記バンク(98a、98b)の各々に伝達するス
テップと、を含む上記方法(80)。
a、99b)を上記プロセッサ(14)の奇数および偶数データ
・アドレス(99a、99b)へソートするステップと、上記プ
ロセッサ(14)の上記1サイクルの間に、奇数データ・ア
ドレス(99a)、その後に偶数データ・アドレス(99b)を伝
達するステップと、を含む、上記(7)の方法。 (9)さらに、上記キャッシュ(24)の各々の上記バンク
(98a、98b)について単一ポートのランダム・アクセス・
メモリを利用するステップと、を含む、上記(7)の方法
(80)。 (10)さらに、順不同に命令を実行するステップと、
上記順不同の命令に従って上記データ・アドレス(99a、
99b)を計算するステップと、を含む、上記(7)の方法(8
0)。
・キャッシュへの複数のアクセスを安価に実現し、デー
タのスループットを高めることにより、順不同に命令を
実行するプロセッサの性能を改善することができる。
ピュータを示すブロック図。
ムおよびその図1のプロセッサに関連するデータキャッ
シュ(DCACHE)との関係を示すブロック図。
施例を示すブロック図。
めの、図3の各々のアドレス並べ替えバッファ・スロッ
ト(ARBSLOT)の論理の可能な実施例を示すブロック図。
アーキテクチャ全体の高レベルのブロック図。
SLOT) 84a 奇数アービトレータ 84b 偶数アービトレータ 86a 奇数要求 86b 偶数要求 98a 奇数バンク 98b 偶数バンク
Claims (1)
- 【請求項1】順不同に命令を実行するコンピュータのた
めのシステムであって、 複数のバンクをもつデータ・キャッシュと、 1プロセッサ・サイクルの間に、複数のアドレスを、対
応する複数のキャッシュ・バンクに同時に送るように構
成されるプロセッサと、を備える上記システム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/609,821 US5761713A (en) | 1996-03-01 | 1996-03-01 | Address aggregation system and method for increasing throughput to a multi-banked data cache from a processor by concurrently forwarding an address to each bank |
US609,821 | 1996-03-01 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH09244951A true JPH09244951A (ja) | 1997-09-19 |
JP3876033B2 JP3876033B2 (ja) | 2007-01-31 |
Family
ID=24442487
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP01234497A Expired - Fee Related JP3876033B2 (ja) | 1996-03-01 | 1997-01-27 | 順不同に命令を実行するコンピュータのためのシステム |
Country Status (4)
Country | Link |
---|---|
US (1) | US5761713A (ja) |
JP (1) | JP3876033B2 (ja) |
DE (1) | DE19650520A1 (ja) |
GB (1) | GB2310741B (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5895469A (en) * | 1996-03-08 | 1999-04-20 | Vlsi Technology, Inc. | System for reducing access times for retrieving audio samples and method therefor |
US5752259A (en) * | 1996-03-26 | 1998-05-12 | Advanced Micro Devices, Inc. | Instruction cache configured to provide instructions to a microprocessor having a clock cycle time less than a cache access time of said instruction cache |
US6016532A (en) * | 1997-06-27 | 2000-01-18 | Sun Microsystems, Inc. | Method for handling data cache misses using help instructions |
US5878252A (en) * | 1997-06-27 | 1999-03-02 | Sun Microsystems, Inc. | Microprocessor configured to generate help instructions for performing data cache fills |
US6101577A (en) * | 1997-09-15 | 2000-08-08 | Advanced Micro Devices, Inc. | Pipelined instruction cache and branch prediction mechanism therefor |
US6892294B1 (en) | 2000-02-03 | 2005-05-10 | Hewlett-Packard Development Company, L.P. | Identifying execution ready instructions and allocating ports associated with execution resources in an out-of-order processor |
US7664918B2 (en) * | 2006-07-24 | 2010-02-16 | Sun Microsystems, Inc. | Handling fetch requests that return out-of-order at an instruction fetch unit |
US8386753B2 (en) * | 2009-04-14 | 2013-02-26 | International Business Machines Corporation | Completion arbitration for more than two threads based on resource limitations |
US9158541B2 (en) * | 2010-11-03 | 2015-10-13 | Apple Inc. | Register renamer that handles multiple register sizes aliased to the same storage locations |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3699533A (en) * | 1970-10-29 | 1972-10-17 | Rca Corp | Memory system including buffer memories |
US4381541A (en) * | 1980-08-28 | 1983-04-26 | Sperry Corporation | Buffer memory referencing system for two data words |
EP0055579B1 (en) * | 1980-12-31 | 1991-03-20 | Bull HN Information Systems Inc. | Cache memories with double word access |
US4439827A (en) * | 1981-12-28 | 1984-03-27 | Raytheon Company | Dual fetch microsequencer |
US4724518A (en) * | 1983-07-29 | 1988-02-09 | Hewlett-Packard Company | Odd/even storage in cache memory |
US4818932A (en) * | 1986-09-25 | 1989-04-04 | Tektronix, Inc. | Concurrent memory access system |
US4918587A (en) * | 1987-12-11 | 1990-04-17 | Ncr Corporation | Prefetch circuit for a computer memory subject to consecutive addressing |
CA2000031A1 (en) * | 1988-10-20 | 1990-04-20 | Robert W. Horst | Cache memory supporting fast unaligned access |
US5342990A (en) * | 1990-01-05 | 1994-08-30 | E-Mu Systems, Inc. | Digital sampling instrument employing cache-memory |
JPH0437935A (ja) * | 1990-06-01 | 1992-02-07 | Hitachi Ltd | キャッシュメモリを有する計算機 |
US5434989A (en) * | 1991-02-19 | 1995-07-18 | Matsushita Electric Industrial Co., Ltd. | Cache memory for efficient access with address selectors |
WO1993013481A1 (en) * | 1991-12-23 | 1993-07-08 | Intel Corporation | Interleaved cache for multiple accesses per clock in a microprocessor |
US5420997A (en) * | 1992-01-02 | 1995-05-30 | Browning; Gary A. | Memory having concurrent read and writing from different addresses |
JP2549256B2 (ja) * | 1992-12-01 | 1996-10-30 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 浮動小数点プロセッサへデータを転送する方法及び装置 |
JPH06242951A (ja) * | 1992-12-22 | 1994-09-02 | Toshiba Corp | キャッシュメモリシステム |
US5467473A (en) * | 1993-01-08 | 1995-11-14 | International Business Machines Corporation | Out of order instruction load and store comparison |
JPH0756815A (ja) * | 1993-07-28 | 1995-03-03 | Internatl Business Mach Corp <Ibm> | キャッシュ動作方法及びキャッシュ |
-
1996
- 1996-03-01 US US08/609,821 patent/US5761713A/en not_active Expired - Lifetime
- 1996-12-05 DE DE19650520A patent/DE19650520A1/de not_active Withdrawn
-
1997
- 1997-01-27 JP JP01234497A patent/JP3876033B2/ja not_active Expired - Fee Related
- 1997-02-07 GB GB9702534A patent/GB2310741B/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
GB9702534D0 (en) | 1997-03-26 |
GB2310741B (en) | 2000-09-20 |
US5761713A (en) | 1998-06-02 |
JP3876033B2 (ja) | 2007-01-31 |
GB2310741A (en) | 1997-09-03 |
DE19650520A1 (de) | 1997-09-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5809275A (en) | Store-to-load hazard resolution system and method for a processor that executes instructions out of order | |
US5809530A (en) | Method and apparatus for processing multiple cache misses using reload folding and store merging | |
US6681295B1 (en) | Fast lane prefetching | |
US20190303159A1 (en) | Instruction set architecture to facilitate energy-efficient computing for exascale architectures | |
US20200371888A1 (en) | Streaming engine with deferred exception reporting | |
US11630691B2 (en) | Memory system architecture for multi-threaded processors | |
CN101221493B (zh) | 用于并行处理的方法和设备 | |
JP4045062B2 (ja) | ロード命令を実行する方法、プロセッサ、およびシステム | |
CN100367257C (zh) | 并行处理器体系结构的sdram控制器 | |
US6401192B1 (en) | Apparatus for software initiated prefetch and method therefor | |
US20030196050A1 (en) | Prioritized bus request scheduling mechanism for processing devices | |
JP3876034B2 (ja) | 主メモリへの帯域幅を保持するシステム | |
JP2000259412A (ja) | ストア命令転送方法およびプロセッサ | |
US6963962B2 (en) | Memory system for supporting multiple parallel accesses at very high frequencies | |
JPS62262160A (ja) | 書込みバツフア装置 | |
US12001351B2 (en) | Multiple-requestor memory access pipeline and arbiter | |
US6594711B1 (en) | Method and apparatus for operating one or more caches in conjunction with direct memory access controller | |
KR19990072272A (ko) | 로드/로드검출및재정렬방법 | |
JP3876033B2 (ja) | 順不同に命令を実行するコンピュータのためのシステム | |
JPH02239331A (ja) | データ処理システム及びその命令実行を促進する方法 | |
US6643766B1 (en) | Speculative pre-fetching additional line on cache miss if no request pending in out-of-order processor | |
Kalokerinos et al. | FPGA implementation of a configurable cache/scratchpad memory with virtualized user-level RDMA capability | |
US20030196072A1 (en) | Digital signal processor architecture for high computation speed | |
US7650483B2 (en) | Execution of instructions within a data processing apparatus having a plurality of processing units | |
GB2346233A (en) | Concurrently addressing independent cache banks in the same cycle |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040123 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040123 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060705 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060718 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061011 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20061024 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20061030 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |