JP4745960B2 - マイクロプロセッサにおいてデータ推測オペレーションを識別する推測ポインタ - Google Patents

マイクロプロセッサにおいてデータ推測オペレーションを識別する推測ポインタ Download PDF

Info

Publication number
JP4745960B2
JP4745960B2 JP2006508587A JP2006508587A JP4745960B2 JP 4745960 B2 JP4745960 B2 JP 4745960B2 JP 2006508587 A JP2006508587 A JP 2006508587A JP 2006508587 A JP2006508587 A JP 2006508587A JP 4745960 B2 JP4745960 B2 JP 4745960B2
Authority
JP
Japan
Prior art keywords
data
speculative
speculation
unit
verification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006508587A
Other languages
English (en)
Other versions
JP2006525595A (ja
JP2006525595A5 (ja
Inventor
エイ. フィリッポ マイケル
ケイ. ピケット ジェイムズ
ティー. サンダー ベンジャミン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced Micro Devices Inc
Original Assignee
Advanced Micro Devices Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced Micro Devices Inc filed Critical Advanced Micro Devices Inc
Publication of JP2006525595A publication Critical patent/JP2006525595A/ja
Publication of JP2006525595A5 publication Critical patent/JP2006525595A5/ja
Application granted granted Critical
Publication of JP4745960B2 publication Critical patent/JP4745960B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3836Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
    • G06F9/3842Speculative instruction execution
    • G06F9/3844Speculative instruction execution using dynamic branch prediction, e.g. using branch history tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3836Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
    • G06F9/3842Speculative instruction execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3824Operand accessing
    • G06F9/383Operand prefetching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3836Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3836Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
    • G06F9/3838Dependency mechanisms, e.g. register scoreboarding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3836Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
    • G06F9/3838Dependency mechanisms, e.g. register scoreboarding
    • G06F9/384Register renaming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3854Instruction completion, e.g. retiring, committing or graduating
    • G06F9/3856Reordering of instructions, e.g. using queues or age tags
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3854Instruction completion, e.g. retiring, committing or graduating
    • G06F9/3858Result writeback, i.e. updating the architectural state or memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3861Recovery, e.g. branch miss-prediction, exception handling
    • G06F9/3865Recovery, e.g. branch miss-prediction, exception handling using deferred exception handling, e.g. exception flags

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Advance Control (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Multi Processors (AREA)

Description

本発明は、マイクロプロセッサ技術分野に関し、より具体的には、マイクロプロセッサにおいてデータの推測を行う方法に関する。
スーパースカラーマイクロプロセッサは、複数の命令を並列に実行し、その設計に適合する最短のクロックサイクルを用いることによって高パフォーマンスを発揮する。しかし、命令と命令の間におけるデータ及びコントロールフローの依存性によって、所定の時間内に発行可能な命令数が制限されてしまう。結果として、ある種のマイクロプロセッサではさらなるパフォーマンスゲイン(性能向上)を図るために投機的実行をサポートしている。
このような投機あるいはスペキュレーションの一つのタイプとして、コントロールフロー推測(control flow speculation)が挙げられる。コントロールフロー推測はプログラム制御が進行する方向を予測する。例えば、分岐が発生するかどうかを予測するために分岐予測が用いられる。様々なタイプの分岐予測が利用可能であり、単純に毎回同じ予測を行う方法から、履歴を基にした予測を行うために、プログラム中の過去の分岐の詳細な履歴を維持する方法まである。分岐予測は、ハードウェアの最適化、コンパイラの最適化、またはその両方によって容易になる。分岐予測機構によって提供される予測に基づいて、命令は投機的にフェッチされ、実行される。分岐命令が最終的に評価されるとき、分岐予測を識別することができる。もし予測が誤っていれば、誤った予測に基づいて投機的に実行されたすべての命令は廃棄される。
他の投機のタイプとしては、データ値を予測するデータ推測がある。すでに提案されたデータ推測の形式は、メモリオペレーション用にアドレスを投機的に生成し、コンピュータオペレーションで使用するためにデータ値を投機的に生成する。コントロール推測にともない、投機的にデータ値を生成するために使用された根本的な条件を最終的に評価し、推測を評価済みとするか、あるいは推測を実行しないようにする。
マイクロプロセッサ内の様々な検証ユニットに対してどのオペレーションがデータ投機的であるかを識別する推測ポインタに依存するオペレーションをリタイア、つまり中止させるための方法とシステムの様々な実施形態が開示されている。一実施形態では、マイクロプロセッサはリタイアキューと1つ又はそれ以上のデータ推測検証ユニットを含み得る。データ推測検証ユニットはそれぞれ、オペレーションで実施されるデータ推測を検証するように構成される。各データ推測検証ユニットは、そのデータ推測検証ユニットによってデータ推測が検証されている処理中のオペレーションを識別する各々の推測ポインタを生成する。リタイアキューはデータ推測検証ユニットの各々から受信した推測ポインタに依存するオペレーションを選択的にリタイアさせるように構成される。
一実施形態では、データ推測検証ユニットのうちの1つは読み出し書込みユニットに含まれ得る。そのようなデータ推測検証ユニットは、依存予測、アドレス予測、及び/またはデータ予測などのデータ予測タイプを検証するように構成され得る。例えば、読み出し書き込みユニットに含まれるデータ推測検証ユニットは、より新しい読み出しオペレーションが未計算のアドレスを持つより古い書き込みオペレーションには依存していないことを予測する依存予測を検証するように構成され得る。同様に、読み出し書き込みユニットに含まれるデータ推測検証ユニットは、より新しい読み出しオペレーションの結果はより古い書き込みオペレーションのソースと等しいと予測する依存予測を検証するように構成され得る。
別のデータ推測検証ユニットは、ファンクショナルユニットに含まれ、非メモリオペレーション(non memory operation)を実行するように構成されうる。そのようなデータ推測検証ユニットは非メモリオペレーションの結果を推測するデータ推測を検証するように構成され得る。また別のデータ推測検証ユニットはメモリコントローラに含まれ、メモリ予測を検証するように構成され得る。
一実施形態では、データ推測検証ユニットのうちの1つは、そのデータ推測検証ユニットによって検証されたデータ推測のタイプが実施されている各処理中のオペレーションを識別する情報を受信するように構成され得る。そのデータ推測検証ユニットは、そのタイプのデータ推測が検証されている最も新しい処理中のオペレーションよりも若く、そのタイプのデータ推測が実施されている別の処理中のオペレーションよりも古いオペレーションを識別するように各々の推測ポインタを進めることによって、そのデータ推測検証ユニットによって検証されている処理中のオペレーションを識別するように構成され得る。データ投機的であるとしてそのデータ推測検証ユニットに識別されるオペレーションが現在のところ無い場合、そのデータ推測検証ユニットは、そのデータ推測検証ユニットに対してデータ投機的である処理中のオペレーションは現在のところは無いことを示すように、各々の推測ポインタ値を設定することができる。
リタイアキューがいくつかの推測ポインタを受け取る実施形態では、そのリタイアキューはオペレーションが、全ての推測ポインタによって非データ投機的と識別された最も新しい(若い)オペレーションよりも古いかどうかを判断することによって、そのオペレーションがリタイア可能であるかを判断するように構成され得る。
推測ポインタを生成する1つ又はそれ以上のデータ推測検証ユニットと、その推測ポインタに依存するオペレーションをリタイアさせるリタイアキューを含むマイクロプロセッサはコンピュータシステムに含まれ得る。
いくつかの実施形態では、方法には以下のものを含む。それらは、オペレーションのためにデータ推測を実施するステップ、そのオペレーションのために実施したデータ推測を検証する検証ユニット、この検証ユニットに対して、検証に応答してそのオペレーションがデータ投機的ではないことを示す推測ポインタを生成する検証ユニット、及び、検証ユニットに対してそのオペレーションはデータ投機的でないことを示す推測ポインタに応答して、オペレーションをリタイアさせること、である。
そのような方法はその他のオペレーションで実行されるデータ推測を検証し、その他のオペレーションがこれらの検証ユニットに対してデータ投機的でないことを示すその他の推測ポインタを生成する、1つ又はそれ以上のその他の検証ユニットも含み得る。オペレーションのリタイアは全ての投機ポインタに依存しうる。各検証ユニットは、様々なタイプのデータ推測を検証し得る。
発明の詳細な説明
本発明は、添付の図面に関連した以下の詳細な説明を参照することによって、よりよく理解することができる。
本発明は様々な変更や代替形態が可能であるが、本発明の個別の実施形態は、各図面において例示として示されたものであり、ここでは詳細に説明されている。しかしながら、ここで行われている実施形態の説明は、本発明を開示された特定の形態に限定することを意図するものではなく、逆に、本発明は、添付の特許請求の範囲により定義されるような本発明の精神や範囲の範疇であるすべての変更、等価物、及び代替物を含むものであることは理解すべきである。本明細書中の見出しは文章構成のためのものに過ぎず、本明細書の説明または特許請求の範囲を限定または解釈のために用いるべきものではないことに注意されたい。さらに、本明細書において用いられる「できる“may”」という用語は、許可的な意味合い(つまり、そのような可能性を持つ、または可能である)に用いられ、強制的な意味合いではない(つまり、must;しなければいけない)ことに注意すべきである。「include;含む」という用語およびその派生語は「含むが、それに限定されない」ことを意味する。「接続される」という用語は「直接的または間接的に接続される」ことを意味し、「結合される」という用語は「直接的または間接的に結合される」ことを意味する。
図1は、マイクロプロセッサ100の一実施形態のブロック図である。マイクロプロセッサ100はシステムメモリ200に記録された命令を実行するように構成される。これらの命令の多くはシステムメモリ200に記録されたデータを操作するものである。システムメモリ200はコンピュータシステム全体に物理的に配置可能であり、一つ又はそれ以上のマイクロプロセッサ100からアクセスできる。
マイクロプロセッサ100は命令(インストラクション)キャッシュ106およびデータキャッシュ128を含む。マイクロプロセッサ100は命令キャッシュ106に結合されたプリフェッチユニット108を含む。ディスパッチユニット104は命令キャッシュ106から命令を受信して、スケジューラ118にオペレーションを発送するように構成される。1以上のスケジューラ118はディスパッチユニット104から発送されたオペレーションを受信し、1以上の実行コア124にオペレーションを発行するように結合できる。実行コア124は、データキャッシュ128に対するアクセスを実行するように構成された読み出し/書き込みユニットを含む。実行コア124によって生成された結果は、結果バス130に出力されうる。これらの結果は続いて発行される命令のためのオペランド値として使用可能であり、および/またはレジスタファイル116に記録することができる。リタイアキュー(retire queue)102はスケジューラ118およびディスパッチユニット104に結合される。このリタイアキュー102は、発行されたオペレーションのそれぞれがいつリタイア可能であるかを決定するように構成される。一実施形態では、マイクロプロセッサ100はx86型アーキテクチャと互換性を持つように設計される。マイクロプロセッサ100はその他多くの要素を含んでいてもよいことに注意すべきである。例えば、マイクロプロセッサ100は分岐予測ユニット(図示せず)を含んでいてもよい。
命令キャッシュ106は命令を、ディスパッチユニット104がそれらを受信する前に、一時的に記録することができる。命令コードは、システムメモリ200からプリフェッチユニット108を介してコードをプリフェッチすることにより、命令キャッシュ106に供給される。命令キャッシュ106は様々な構成で実装可能である(例えば、セットアソシアティブ、フルアソシアティブ、またはダイレクトマッピング)。幾つかの実施形態では、命令キャッシュ106及び/又はデータキャッシュ128の多数レベルがあり得る。幾つかのレベルのキャッシュは、図示されるようにマイクロプロセッサ100と統合され得、一方、他のレベルのキャッシュはマイクロプロセッサの外部に拡張され得る。
プリフェッチユニット108は命令キャッシュ106に記録するためにシステムメモリ200から命令コードをプリフェッチすることができる。一実施形態では、プリフェッチユニット108はシステムメモリ200から命令キャッシュ106にコードをバースト転送するように構成することができる。プリフェッチユニット108は様々な特定のコードプリフェッチ技術およびアルゴリズムを採用することができる。
ディスパッチユニット104は、オペランドアドレス情報、即値データ(immediate data)および/または変位データ(displacement data)とともに、実行コア124が実行可能なビットエンコードされたオペレーションを含む信号を出力する。ある実施形態では、ディスパッチユニット104はある種の命令を実行コア124内で実行可能なオペレーションにデコードするためのデコード回路(図示せず)を含んでいてもよい。単純な命令は単一のオペレーションに対応する。ある実施形態では、より複雑な命令は複数のオペレーションに対応する。オペレーションがレジスタの更新を含む場合、レジスタファイル116中のあるレジスタ位置が推測レジスタ状態を記録するために予約される(別の実施形態では、リオーダバッファが各レジスタに対する一以上の推測レジスタ状態を記録するために用いられる)。レジスタマップは、レジスタのリネームを容易にするために、ソースおよび目的オペランドの論理レジスタ名を物理レジスタ名に変換することができる。レジスタマップは、レジスタファイル116内のどのレジスタが現在割り当てられているかを追跡できる。
図1のマイクロプロセッサ100はアウトオブオーダー実行をサポートする。リタイアキュー102はレジスタ読み出しおよび書き込みオペレーションのためにオリジナルのプログラムシーケンスの記録、つまりトラッキングを行い、投機的命令実行および分岐予測ミスからの復帰を許可し、精密な例外処理を容易にする。リタイアキュー102は、有効になったオペレーションがバッファのボトムに移動し、それによって待ち行列のトップに新しいエントリのための空きを作る、先入れ先出し構造として実装される。リタイアキュー102は、オペレーションが実行を完了したことに応答してオペレーションをリタイアし、全てのオペレーションに対して実行された全ての制御スペキュレーション及びデータが、そのオペレーションを含みそのオペレーションまでに実行されたプログラムに関して、照合すなわちベリファイがなされる。リタイアキュー102は、物理レジスタの、マイクロプロセッサ100のアーキテクチャ状態に対する投機的状態について、その物理レジスタでその値を生成したオペレーションがリタイアした場合に、コミットメントを行う。ある実施形態においては、リタイアキュー102はリオーダバッファの一部として実装される。このようなリオーダバッファは、レジスタリネーミングをサポートするために、推測レジスタ状態のデータ値の記録部を提供するように構成することもできる。他の形態では、リタイアキュー102は、何らデータ値の記録部を提供しないようにすることもできる。また、これに代えて、オペレーションがリタイアする際に、リタイアキュー102は、推測レジスタ状態を記録する必要がなくなったレジスタファイル116内のレジスタの割り当てを取り消し、レジスタマップに対してどのレジスタが現在空いているのかを示す信号を供給する。レジスタファイル116内(または、他の実施形態では、リオーダバッファ内)の推測レジスタ状態をそれらの状態を生成したオペレーションが有効になるまで維持することによって、分岐予測が間違っていた場合、予測ミスされたパスに従った投機的に実行されたオペレーションの結果がレジスタファイル116内で無効化される。
特定のオペレーションにおける要求されているオペランドがレジスタの位置であるときは、レジスタアドレス情報がレジスタマップ(またはリオーダバッファ)に送られる。例えば、x86アーキテクチャにおいては、8つの32ビット論理レジスタがある(例えば、EAX,EBX,ECX,EDX,EBP,ESI,EDIおよびESP)。物理レジスタファイル116(またはリオーダバッファ)はこれらの論理レジスタの内容を変更する結果のための記録装置を含み、アウトオブオーダー実行を許可する。レジスタファイル116内の物理レジスタは、デコード時に論理レジスタの一つの内容を修正するために決定される各オペレーションの結果を記録するために割り当てられる。従って、特定のプログラムを実行している間の任意の時点において、レジスタファイル116(または、他の実施形態では、リオーダバッファ)は、与えられた論理レジスタの投機的に実行された内容を含む1以上のレジスタを持つ。
レジスタマップは物理レジスタをあるオペレーションの目的オペランドとして指定された特定の論理レジスタに割り当てる。ディスパッチユニット104は、レジスタファイル116が、所与のオペレーションにおいてソースオペランドとして指定された論理レジスタに割り当てられた、既に割り当てられた1以上の物理レジスタを持つことを決定する。このレジスタマップはその論理レジスタに最近に割り当てられた物理レジスタのためのタグを供給することができる。このタグは、レジスタファイル116内のオペランドのデータ値にアクセスするために用いることができ、または結果バス130において転送される結果を介してデータ値を受信することができる。もしオペランドがメモリ位置に対応するならば、そのオペランド値は読み出し/書き込みユニット222を介して結果バスに供給される(結果転送および/またはレジスタファイル118への記録のため)。スケジューラ118のひとつからオペレーションが発行されると、オペランドデータ値が実行コア124に供給される。他の実施形態においては、オペレーションが発送されると、オペランド値が対応するスケジューラ118に供給される(そのオペレーションが発行されたときに対応する実行コア124に供給する代わりに)。
ディスパッチユニット104の出力で与えられたビット符号化されたオペレーションと即値データ(immediate data)は、一つ又はそれ以上のスケジューラ118にルーティングされ得る。本文に記載されたように、スケジューラはオペレーションの実行の準備ができたことを検出し、一つ又はそれ以上のファンクショナルユニットに準備オペレーションを発行するデバイスである。例えば、予約ステーションはスケジューラである。スケジュール又はスケジューラのグループにおけるオペレーションは命令又はオペレーションウィンドー又はスケジューリングウィンドーにおけるオペレーションとして称され得る。各スケジューラ118は、実行コア124への発行を待つ幾つかのペンディング中のオペレーションに関するオペレーション情報(例、オペランド値、オペランドタグ、及び/即値データと同様のビット符号化された実行ビット)を保持することができる。ある種の実施形態では、各スケジューラ118は、オペランド値を記録することはできない。その代わりに、オペランド値がファンクショナルユニット126によって(レジスタファイル116又は結果バス130から)読み出し可能となる時点を判定するために、レジスタファイル116において利用可能な発行されたオペレーション及び結果を各スケジューラが監視し得る。幾つかの実施形態では、各スケジューラ118は専用のファンクショナルユニット126に関連付けられ得る。他の実施形態では、シングルスケジューラ118が1つ以上のファンクショナルユニット126にオペレーションを発行し得る。
スケジューラ118は、実行コア124によって実行されるオペレーション情報を一時記録するために提供されうる。上述のとおり、各スケジューラ118はペンディング中のオペレーションのためにオペレーション情報を記録することができる。さらに、各スケジューラは、すでに実行済みであるが再発行される可能性のあるオペレーションのためのオペレーション情報を記録することができる。実行のために利用可能となった任意の必要とされるオペランドの値に応答して、オペレーションが、実行コア124で実行されるよう発行される。従って、オペレーションが実行される順番は、元のプログラム命令シーケンスの順番とは同じでない可能性がある。データ推測を含むオペレーションを、非投機的になるまで、スケジューラ118にとどめ、データ推測が誤っていれば再発行することができる。
一実施形態では、実行コア124のそれぞれは幾つかのファンクショナルユニット126(例えば、図1に示されるファンクショナルユニット126A〜126C)を含み得る。例えば、126Aのような幾つかのファンクショナルユニットは、シフト、ローテート、論理演算、及び分岐オペレーションと同様に加算及び減算の整数演算オペレーションも実行するように構成され得る。例えば、128Bのような他のファンクショナルユニットは、浮動小数点も含めることができるように構成され得る。例えば、126Cのようなファンクショナルユニットによって実行される読み出し/書き込みメモリオペレーション用のアドレス生成を行うように、例えば126Aなどの、一つ又はそれ以上のファンクショナルユニットが構成され得る。ファンクショナルユニットはデータキャッシュ128及び/又はシステムメモリに記録されたデータにアクセスする読み出し/書き込みオペレーションを実行する。一実施形態では、そのようなファンクショナルユニット126Cはペンディング中の読み出し及び/又は書き込みに関するデータ及びアドレス情報の幾つかのストレージロケーションを備えた読み出し/書き込みバッファで構成され得る。
一つ又はそれ以上のファンクショナルユニット126が分岐予測ユニットに条件付き分岐命令の実行に関する情報も与えることができ、それによってもし分岐予測ミスが発生したときに、分岐予測ユニットが命令プロセッシングパイプラインに入力された予測を誤った分岐に後続する命令をフラッシュすることができ、プリフェッチユニット106にリダイレクトすることができるようにする。このリダイレクトされたプリフェッチユニット106は、次に命令キャッシュ106又はシステムメモリ200から正しい命令セットのフェッチを開始する。そのような状況では、予測誤りのあった分岐命令の後に発生した元のプログラムシーケンスにおける命令の結果は廃棄され、投機的に実行され、レジスタファイル116に一時的に記録されたものを含む。
実行コア124内のファンクショナルユニット126によって生成された結果は、レジスタの値が更新されていれば、結果バス130においてレジスタファイル116に対して出力される。メモリ位置の内容が変更されていれば、実行コア124内で生成された結果は、読み出し/書き込みユニット126Cに対して供給される。
データキャッシュ128は、実行コア124とシステムメモリ200との間で転送されたデータを一時的に記録するために提供されるキャッシュメモリである。上述の命令キャッシュ106と同様に、データキャッシュ128はセットアソシアティブ構成を含む、様々な特定のメモリ構成において実装可能である。さらに、データキャッシュ106および命令キャッシュ128は、ある実施形態においては統一されたキャッシュとして実装可能である。
幾つかの実施形態では、マイクロプロセッサ100は、マイクロプロセッサがシステムメモリ200に直接インターフェースすることを可能にする統合されたメモリコントローラ160を含む。他の実施形態では、メモリコントローラ160はマイクロプロセッサ100をシステムメモリ200に間接的に結合するバスブリッジに含まれ得る。
[データ推測]
本明細書では、データ値の誤りが見つけられ、結果として再計算される可能性があれば、データ値は投機的であるとする。投機的なデータ値とは正しいか又は誤っているかを確定的に識別できないものである。このデータ値は、幾つかのデータ推測が実行されたことに関するオペレーションの結果であるか、あるいはこのデータ値が他の投機的データ値に依存すれば(例えば、データ値が一つ又はそれ以上の投機的なオペランドを有するオペレーションの結果を生成する場合)、データ値は再計算することができる。
マイクロプロセッサ100における様々な機構はデータ推測を実行することができる。例えば、ディスパッチユニット104、メモリコントローラ160、及び/又は、1つ又はそれ以上のファンクショナルユニット126の各々が特定的なオペレーションに関するデータ推測を実行できる。1つのオペレーションの結果が他のオペレーション用の投機的なオペランドとして使用可能であることをディスパッチユニット104が検出することができる。例えば、読み出しオペレーションが先行の書き込みオペレーションによってデータキャッシュ128に記録されたデータにアクセスすることをディスパッチユニットが予測することができる。書き込みオペレーションのソースとして使用されたレジスタに記録されたデータ値を、ディスパッチユニット104が応答可能なように読み出しオペレーションの推測結果として識別することができる。データ推測のこの形式は依存予測として本文において称される。読み出しオペレーションの結果をオペランドとして特定するオペレーション用の推測オペランドソースとして書き込みオペレーションのソースをリンクすることによって、依存予測がディスパッチユニット104に拡張され得る。まだアドレスが未計算である書き込みに関してロード即ち読み出しをバイパスすることを可能にすることによって、即ち、より若い、つまりより新しい読み出しは比較的早期の書き込みには依存しない、と予測することによって、他のタイプの依存予測が読み出し/書き込みユニット126Cにおいて実行することができる。
マルチプロセッサシステムにおいて、メモリコントローラ160がキャッシュコヒーレンシーを維持するようにコヒーレンシー検査を実行可能である。他のマイクロプロセッサのキャッシュとのコヒーレンシー検査を終了する前に、メモリコントローラ160がシステムメモリ200からのキャッシュラインのコピーを投機的に戻し得る。検索するキャッシュラインの正しいコピーが他のプロセッサキャッシュに目下のところ記録されていることを後続的にコヒーレンシー検査が決定すれば、システムメモリ200から投機的に検索されたキャッシュラインのコピーは非有効化できる。従って、そのキャッシュラインにアクセスすることによって生成されたどの読み出しオペレーションもコヒーレンシー検査が終了するまで投機的である。この推測の形式は、本文でメモリ予測として称される。
ディスパッチユニット104は、オペレーションの結果を予測することによってデータ推測を実行することができる。例えば、ある種のオペレーションは同じ結果を生成し得る傾向があり、それ故、それらのオペレーションの各々が処理される毎に、ファンクショナルユニット126によるオペレーションの実際の実行が行われる前にディスパッチユニット104によって結果が投機的に生成され得る。このデータ推測の形式は、データ予測として本文に称される。データ予測はマイクロプロセッサの他の部分においても(例えば、読み出し/書き込みユニット126Cにおいて)実行可能であることに注目されたい。
読み出し/書き込みユニット126Cはアドレスを投機的に生成し得、この投機的アドレスに基づき、比較的早期に処理された読み出しのパターンに基づきアドレスがまだ未計算の読み出し命令の結果を投機的に生成し得る。例えば、前のNロードオペレーションが、連続したオフセットCによって相互に間隙をあけるアドレスA1〜AN(例、A1;A2=A1+C、...、AN=A(N+1)+C)をターゲットにしたとすれば、読み出し/書き込みユニット126Cは、読み出しオペレーションの結果として最新にアクセスされたアドレスAN+連続するオフセットCでデータを投機的に戻し得る。このデータ投機の形式は、本文においてアドレス予測として称される。アドレス予測の他の形式が多くの実施形態に使用可能であることに注目されたい。
データ推測が実行されたオペレーションの結果に依存するオペレーションも投機的な結果を生成し得る。例えば、アドレス予測が読み出しオペレーションの投機的な結果を生成するように使用されれば、オペランドとして読み出しの推測結果を用いて実行する全ての依存オペレーションは推測結果を生成することができ、これは次に他の依存オペレーションによってオペランドとして使用することが可能である。従って、読み出しオペレーションにおいて根本となる推測が誤っていると決定されれば、依存オペレーションの結果も誤っている可能性があり、それ故、この読み出しに依存するオペレーションの全体的な依存チェーンが正しい結果を生成するために再度実行されることが求められる。それに対し、根本となる推測が正しいと決定されれば、(これらの結果が他の投機的な値の何れにも基づかないと仮定して)依存オペレーションの結果は正しいことが分かる。
データ推測が実行される多くのオペレーションは、ファンクショナルユニットによってこれらのオペレーションが実行されるときにベリファイ、即ち検証することができる。例えば、あるオペレーション結果を投機的に生成するよう使用されたデータ予測はファンクショナルユニット126によって検証することができ、このファンクショナルユニット126は実際のオペレーションの結果と投機的な結果を比較することによってこのオペレーションを実行する。正しい結果が既に利用可能であるのでデータ推測が誤っていれば、そのようなオペレーションは再実行されることが求められる。他のオペレーションは、完全に実行されなくとも検証可能である。例えば、未計算のアドレスで読み出しが比較的早期の書き込みの結果を(例えば、依存予測又はアドレス予測に起因して)転送した場合、読み出しの推測結果は、読み出しアドレスが計算されるとき検証可能である。データ推測が誤っていれば、そのようなオペレーションは、正しい結果を生成するために(少なくとも一部)再実行されることが求められる。
データ推測が実行されたオペレーションと、それに従属するオペレーションを再実行することが求められるので、リタイアキュー102は根本となるデータ推測が解決された(resolved)オペレーションをリタイアするためのみに構成することができる。図1に示すように、データ推測を検証する各手段(本実施形態では、メモリコントローラ160及びファンクショナルユニット126)は、データ推測が検証済みのオペレーションを示す推測ポインタとともにリタイアキュー102を提供するように構成可能である。各推測ポインタは、その検証手段によって検証される最も新しいオペレーションのタグと等しい値を有することによって、特定の検証手段に対してデータ推測が検証済みであるオペレーションを識別する。リタイアキュー102はどのオペレーションがリタイアされ得るか、つまりオペレーションをリタイアさせ得るかを識別するように推測ポインタを使用する。一つ又はそれ以上のタイプのデータ推測を検証するように構成されたマイクロプロセッサ100内のさまざまなコンポーネントは、データ推測検証ユニットとして本文において称される。
各推測ポインタは、特定のマイクロプロセッサの部位に対して、根本となる命令ストリームのどのポイントが非投機的であるかを識別し得る。例えば、メモリコントローラ160により生成される推測ポインタDは、メモリ予測を検証するメモリコントローラ160に対する、最も新しい非投機的オペレーションを識別し得る。一実施形態では、メモリコントローラ160はメモリ予測が実行された、最も最近に検証されたオペレーションをポイントするように推測ポインタDを生成し得る。他の実施形態では、メモリコントローラ160はメモリ予測が実行済みである最も古い未検証のオペレーションの直前のオペレーションをポイントするように推測ポインタDを生成し得る。一般に推測ポインタDは、メモリコントローラ160から見て、もはや投機的ではないオペレーションをリタイアキュー102へ示す。
一実施形態では、ファンクショナルユニット126A及び126Bはそれぞれ整数及び浮動小数点演算を行う。ファンクショナルユニット126A及び126Bはそれぞれデータ予測を検証できる。図1に例示した実施形態において、推測ポインタA及びBは各々、ファンクショナルユニット126A及び126Bによってどのオペレーションが検証済みであるかを識別する。推測ポインタCは読み出し書込みユニット126Cによってどのオペレーションが検証済みであるかを識別する。ファンクショナルユニット126Cはアドレス、データ、及び/又は依存予測を検証するように構成可能である。
上述のように、各推測ポインタの値は、各々のデータ推測検証ユニットによってどのオペレーションが検証済みであるかに依存する。ある実施形態では、マイクロプロセッサ100の検証部位が生成する推測ポインタの値は、データ推測が実行済みのオペレーションを識別する情報にも依存する。例えば、一実施形態では、メモリコントローラ160はメモリ予測が実行済みの各オペレーションをトラッキングする。メモリコントローラ160が各オペレーションを検証する際、メモリコントローラ160は、メモリ予測が実行された2番目に新しいオペレーションまでの全てのオペレーションがメモリコントローラ160に対して非データ投機的であると示すように、推測ポインタDを進める。一実施形態では、メモリコントローラ160によってトラッキングされる2番目に新しい投機的オペレーションをポイントするよう推測ポインタDを進めることによって、メモリコントローラ160はこれらのオペレーションを識別し得る。同様に、その他のタイプのデータ推測を実行する機構(例えば、ディスパッチユニット104及び/または読み出し及び書き込みオペレーションを実施するファンクショナルユニット126C)は、データ推測が実行済みのオペレーションのトラッキングも行う。ある実施形態では、これらのデータ推測機構のうちの少なくともいくつかは、そのタイプのデータ推測を検証するように構成されているデータ推測検証ユニット(例えば、読み出し書込みユニット126C及び/または1つ又はそれ以上のその他の機能ユニット126)へこの情報を送る。データ推測検証ユニットのうちの特定のデータ推測検証ユニットにより検証されるデータ投機的オペレーションが現在のところ無い場合、その検証ユニットによって生成された推測ポインタは、特定の検証ユニットに対して処理中のオペレーション全てが非データ投機的であることを示す値に設定される。
リタイアキュー102は推測ポインタによって識別されたオペレーションストリームの部分を比較することによって、どのオペレーションがリタイアされ得るかを識別する。全ての推測ポインタによって非投機的であるとして識別された最も古いオペレーションは、リタイアキュー102によってリタイア可能な最も古いオペレーションであり得る。例えば、ディスパッチユニット104がオペレーション0−10をディスパッチ(発送)していると仮定する(オペレーション0はプログラムオーダーにおいて最も古いオペレーションであり、オペレーション10はプログラムオーダーにおいて最も新しいオペレーションであり、プログラムオーダーはマイクロプロセッサ100内でリオーダリング又はアウトオブオーダー処理するいずれのオペレーションが実行される前に実行される、プログラムにおける命令の順番のことである)。オペレーション6までのオペレーションは非データ投機的であることを推測ポインタAが示し、推測ポインタBはオペレーション5までのオペレーションは非投機的であると示し、推測ポインタCは、オペレーション3までのオペレーションが非投機的であると示し、また、推測ポインタDは、処理中の全オペレーションが非データ投機的であると示す(例えば、いずれのオペレーション0−10に対してメモリ予測は実施されていないという理由から)場合、リタイアキュー102は、リタイアし得るオペレーションのセットとしてオペレーション3までのオペレーションを識別する。オペレーションのリタイアメント(オペレーションの停止)は、ファンクショナルユニット126によってこれらのオペレーションが既に実行されているかどうか、また、これらのオペレーションに影響を及ぼすコントロール予測がうまく解決されているかどうか、などの、一般的なリタイアメント制限によっても変わることに注目されたい。例えば、データ投機的オペレーションが誤りであり、再実行する必要があると判断されると、そのオペレーションは1つ又はそれ以上の推測ポインタによって非投機的と識別され得るが、そのオペレーションが再実行されるまではリタイアさせることはできない。どのオペレーションが実行され、どのオペレーションが実行されていないか、又は必要に応じて再実行されたかについての情報は、ある実施形態ではスケジューラ118によってリタイアキュー102へ提供される。
図2Aは推測ポインタを生成するために用いられる方法の一実施形態を例示している。そのような方法は少なくとも一部が、メモリコントローラ160及びファンクショナルユニット126などのデータ推測検出ユニットのうちの1つによって実装されうる。201において、オペレーションに対するデータ推測が実施される。この201におけるデータ推測は、ある実施形態でデータ推測を検証するマイクロプロセッサの同じ部位で実行され得る。203においてそのデータ推測が検証済みとなると、推測ポインタは205に示しているように、201においてデータ推測が実行されたオペレーションが非投機的であると示すように進められる。
一実施形態では、205において推測ポインタを進めることには、最も最近に検証されたオペレーションを検出するように推測ポインタを進めるステップと、それまでのオペレーションとそのオペレーションを含む全てのオペレーションがデータ推測を検証するための特定の方法に対して非データ投機的であることを示すステップとを含む。他の実施形態では、205において推測ポインタを進めるステップには、その特定の検証手段によって検証される次のデータ投機的オペレーションの直前のオペレーションを識別するように、プログラムオーダーで、推測ポインタを進めることを含む。例えば、読み出し書き込みユニット126は、読み出し書き込みユニットがデータ推測を実行済みのオペレーションに対してトラッキングし得る。読み出し書込みユニット126がこれらのデータ推測オペレーションのうちの1つを検証する度に、読み出し書込みユニット126は、データ推測を実行した読み出し書き込みユニットに対する次のオペレーションまでの全オペレーションは読み出し書込みユニットに対して非データ投機的であると示すように、その推測ポインタを進める。他の実施形態は別の方法でポインタを進める。例えば、ファンクショナルユニットはディスパッチユニットによって実行されたデータ推測のタイプを検証する。ある実施形態では、ファンクショナルユニットはディスパッチユニットがそのタイプのデータ推測を実行済みの、処理中のオペレーションセットの総数を認識してはいない。その代わりに、ファンクショナルユニットはそのファンクショナルユニット内で現在処理中のオペレーションのうちどれがデータ投機的であることかのみを識別する。従って、特定のオペレーションに対するデータ推測の検証に応答して、ファンクショナルユニット内で処理中の最も古いデータ投機的オペレーション(もしあれば)の直前のオペレーションを識別するように、ファンクショナルユニットは推測ポインタを進めることができる。そのファンクショナルユニット内で現在は処理中のオペレーションのどれもがデータ投機的でない場合、そのファンクショナルユニットに対して現在はデータ投機的な処理中のオペレーションがないことを示すように、ファンクショナルユニットはその推測ポインタの値を更新し得る。
図2Bは処理中のオペレーションをリタイアさせる方法の一実施形態のフローチャートを例示している。211において、1つ又はそれ以上の推測ポインタが受信される。複数の推測ポインタが受信される場合は、各推測ポインタは、非データ投機的である処理中のオペレーションの別の部位を識別する。推測ポインタのいずれかが、特定のオペレーションがまだデータ投機的であると示す場合は、そのオペレーションは213において示すように、リタイアされない。しかし、オペレーションがデータ投機的である可能性をどの推測ポインタも示さない場合は、そのオペレーションのリタイアメントに対する全ての他の必要条件が満たされたと仮定して、213−215に示すように、そのオペレーションはリタイアされる。
[一般的なコンピュータシステム]
図3は、バスブリッジ902を介して様々なシステムコンポーネントに結合されたプロセッサ100を含むコンピュータシステム900の一実施形態のブロック図を示す。プロセッサ100は、上述したように推測ポインタを生成するように構成された1つ又はそれ以上のデータ検証ユニットと、非データ投機的であるとして推測ポインタによって識別されたオペレーションをリタイアするように構成されたリタイアキューを含み得る。コンピュータシステムの他の実施形態が、可能であり、また考えられる。図示されたシステムにおいて、メインメモリ200は、メモリバス906を介してバスブリッジ902に結合され、画像コントローラ908は、AGPバス910を介してバスブリッジ902に結合される。いくつかのPCIデバイス912A〜912Bは、PCIバス914を介してバスブリッジ902に結合される。第2バスブリッジ916も、EISA/ISAバス920を介してEISA又はISAデバイス918のうちの1つ又はそれ以上に電気的インターフェースを適用するように供給されることが可能である。この実施例では、プロセッサ100は、CPUバス924と任意のL2キャッシュ928を介してバスブリッジ902に結合される。ある実施形態では、プロセッサ100は統合されたL1キャッシュ(図示せず)を含むことが可能である。
バスブリッジ902は、プロセッサ100、メインメモリ200、画像コントローラ908と、PCIバス914に接合されたデバイス間のインターフェースを与える。オペレーションがバスブリッジ902に接続されたデバイスの1つから受信されると、バスブリッジ902はこのオペレーションの目標(例えば、特定のデバイスもしくはPCIバス914の場合、目標がPCIバス914上にあるデバイス)を識別する。バスブリッジ902がオペレーションを目標となるデバイスに伝送する。バスブリッジ902は通常、ソースデバイス又はバスによって使用されるプロトコル、あるいはターゲットデバイス又はバスによって使用されるプロトコルからのオペレーションを変換する。
PCIバス914のためにISA/EISAバスにインターフェースを供給することに加えて、第2バスブリッジ916は、更なる機能性を内蔵し得る。第2バスブリッジ916の外部あるいは第2バスブリッジに統合されているうちの何れかである入力/出力コントローラ(図示せず)は、コンピュータシステム900内に含むことができ、キーボード及びマウス922と様々なシリアル及びパラレルポートに関するオペレーショナルサポートを提供する。他の実施形態では、外部のキャッシュユニット(図示せず)は、プロセッサ100とバスブリッジ902間のCPUバス924にも結合され得る。他の形態では、外部のキャッシュはバスブリッジ902に結合することができ、外部のキャッシュのキャッシュコントロールロジックは、バスブリッジ902に統合可能である。L2キャッシュ928はプロセッサ100の裏面の構成に示される。L2キャッシュ928は、プロセッサ100から分離し得、プロセッサ100でカートリッジ(例、スロット1又はスロットA)内に統合可能であり、あるいはプロセッサ100で半導体基板上にも統合可能である。
メインメモリ200はアプリケーションプログラムが記録され、プロセッサ100が主に実行するメモリである。適合可能なメインメモリ200は、DRAM(Dynamic Random Access Memory)を含み得る。例えば、複数のSDRAM(同期DRAM)あるいはRambus DRAM (RDRAM;Rambus 社開発のDRAM)が適合可能であり得る。
PCIデバイス912A〜912Bは、ネットワークインターフェースカード、ビデオアクセラレータ、オーディオカード、ハードあるいはフロッピーディスクドライブあるいはドライブコントローラ、SCSI(Small Computer System Interface)アダプタ及びテレフォニーカードのような多様な周辺デバイスを示す。同様に、ISAデバイス918はモデム、サウンドカード、及びGPIBあるいはフィールドバスインターフェースカードのような周辺デバイスの様々な形式を表す。
グラフィックスコントローラ908は、モニタ926上のテキスト及び画像のレンダリングをコントロールするよう提供される。グラフィックスコントローラ908は、メインメモリ200に、及びメインメモリ200から実効的にシフト可能である3次元データ構造を表現する技術分野で通常、知られる一般的なグラフィックスアクセラレータを実施可能である。それ故、グラフィックスコントローラ908は、バスブリッジ902内のターゲットインターフェースへのアクセスを要求可能であり、又受信可能であり、それによってメインメモリ200へのアクセスを入手するAGPバス910のマスターであり得る。専用のグラフィックスバスは、メインメモリ200からのデータの高速検索に対応する。ある種のオペレーションに関して、グラフィックスコントローラ908は、AGPバス910上にPCIプロトコルトランザクションを生成するよう更に構成可能である。それ故、バスブリッジ902のAGPインターフェースは、PCIプロトコルターゲットとイニシエータトランザクションと同様にAGPプロトコルトランザクションの双方を支援するよう機能性を含み得る。モニタ926は、画像あるいはテキストが表示可能である電気的モニタの全てである。適切なモニタ926は、ブラウン管(“CRT;Cathode Ray Tube”)、液晶モニタ(“LCD;Liquid Crystal Display”)を含む。
AGP、PCI及びISA又はEISAバスは、上述した記載の例として使用されており、所望に応じて全てのバスアーキテクチャが上書きされることに注目される。コンピュータシステム900が追加のプロセッサ(例えば、コンピュータシステム900の任意のコンポーネントとして示されるプロセッサ100a)を含むマルチプロセッシングコンピュータシステムであることが更に注目される。プロセッサ100aは、プロセッサ100と同様であり得る。より具体的には、プロセッサ100aは、プロセッサ100の同一のコピーであり得る。プロセッサ100aは、独立したバスを介して(図3に示されるように)バスブリッジ902に接続されるか、あるいはプロセッサ100とCPUバス924を共有することができる。更に、プロセッサ100aは、L2キャッシュ928と同様の任意のL2キャッシュ928aに結合することができる。
図4を参照すると、上述したように推測ポインタと、この推測ポインタに依存するオペレーションをリタイアするリタイアキューを生成するように構成された、1つ又はそれ以上のデータ推測検出ユニットを備えたプロセッサ100を含むコンピュータシステム900の他の実施形態が示される。他の実施形態が可能であり、考えられる。図4の実施形態においては、コンピュータシステム900はいくつかのプロセッシングノード1012A、1012B、1012C及び1012Dを含む。各プロセッシングノードは、各プロセッシングノード1012〜1012D内に含まれるメモリコントローラ1016A〜1016Dを介して各メモリ200A〜200Dに結合される。加えて、プロセッシングノード1012A〜1012Dは、プロセッシングノード1012A〜1012D間を通信するように使用されるインターフェースロジックを含む。例えば、プロセッシングノード1012Aは、プロセッシングノード1012Bと通信するためのインターフェースロジック1018A、プロセッシングノード1012Cと通信するためのインターフェースロジック1018B、及び更なる他のプロセッシングノード(図示せず)と通信するための第3インターフェースロジック1018Cを含む。同様に、プロセッシングノード1012Bは、インターフェースロジック1018D、1018E及び1018Fを含み、プロセッシングノード1012Cは、インターフェースロジック1018G、1018H、及び1018Iを含み、プロセッシングノード1012Dは、インターフェースロジック1018J、1018K、及び1018Lを含む。プロセッシングノード1012Dは、インターフェースロジック1018Lを介して複数の入力/出力デバイス(例、デイジーチェーン構成におけるデバイス1020A〜1020B)と通信するよう結合される。他のプロセッシングノードは、同様の方法で他のI/Oデバイスと通信し得る。
プロセッシングノード1012A〜1012Dは、インタープロセッシングノード通信用にパケットベースのリンクを実装する。本実施形態において、リンクが単方向ライン(ユニディレクタルライン)のセット(例えば、ライン1024Aがプロセッシングノード1012Aからプロセッシングノード1012Bへパケットを伝送するように使用され、ライン1024Bは、プロセッシングノード1012Bからプロセッシングノード1012Aにパケットを伝送するように使用される)として実装される。その他のライン1024C−1024Hのセットは、図4に例示しているように、その他のプロセッシングノード間にパケットを伝送するように使用される。一般的に、ライン1024の各セットは、1つ又はそれ以上のデータラインを含み、このデータラインに応じた1つ又はそれ以上のクロックラインを含み、伝送されるパケット形式を示す1つ又はそれ以上のコントロールラインを含む。リンクは、プロセッシングノード間の通信用にキャッシュコヒーレントに、あるいはプロセッシングノードとI/Oデバイス(あるいはPCIバス又はISAバスのような従来の構造のI/Oバスへのバスブリッジ)間の通信用には非コヒーレントに動作させてもよい。更に、リンクは、図示されるようにI/Oデバイス間のデイジーチェーン構造を使用して非コヒーレントに動作され得る。1つのプロセッシングノードから別のプロセッシングノードに伝送されるパケットは、1つ又はそれ以上の中間ノードを通じて伝送し得る。例えば、プロセッシングノード1012Aによってプロセッシングノード1012Dまで伝送されたパケットは、図4に示すプロセッシングノード1012Bあるいはプロセッシングノード1012Cの何れかを介して伝送し得る。全ての適合可能なルーティングアルゴリズムが使用され得る。コンピュータシステム900の他の実施形態は、図4に示す実施形態より多いか、あるいは少ないプロセッシングノードを含み得る。
通常、パケットはノード間のライン1024に1つ又はそれ以上のビット時間として伝送され得る。ビット時間は、対応するクロックラインのクロック信号の立ち上がり又は立ち下がりエッジであり得る。パケットはトランザクションを開始するためのコマンドパケット、キャッシュコヒーレンシーを維持するためのプローブパケット、及びプローブとコマンドに応答するための応答パケットを含み得る。
メモリコントローラとインターフェースロジックに加えて、プロセッシングノード1012A〜1012Dは、1つ又はそれ以上のプロセッサを含み得る。大まかに言って、プロセッシングノードは少なくとも1プロセッサを含み、所要に応じて任意的にメモリと他の論理と通信するためのメモリコントローラを含み得る。より具体的には、各プロセッシングノード1012A〜1012Dは、1つ又はそれ以上のプロセッサ100のコピーを含み得る。外部のインターフェースユニットは、メモリコントローラ1016と同様にノード内にインターフェースロジック1018を含み得る。
メモリ200A〜200Dは、適合可能な全てのメモリデバイスを含み得る。例えば、メモリ200A〜200Dは、1つ又はそれ以上のRAMBUS DRAM(RDRAM)、同期DRAM(SDRAM),静的RAM等を含み得る。コンピュータシステム900のアドレススペースは、メモリ200A〜200D間に分割される。各プロセッシングノード1012A〜1012Dは、何れのアドレスが何れの200A〜200Dにマップされるかを決定し、従って、プロセッシングノード1012A〜1012Dの何れに特定的なアドレスのメモリ要求が送信されなければならないかのを決定するよう使用されるメモリマップを含み得る。一実施形態において、コンピュータシステム900におけるアドレスのコヒーレンシーポイントはこのアドレスに対応するバイトを記録するメモリに結合されたメモリコントローラ1016A〜1016Dである。言い換えれば、メモリコントローラ1016A〜1016Dは、対応するメモリ200A〜200Dへの各アクセスがキャッシュコヒーレントにおいて生じることを確実にする役目を担う。メモリコントローラ1016A〜1016Dは、メモリ200A〜200Dへインターフェースするためのコントロール回路を含み得る。加えて、メモリコントローラ1016A〜1016Dは、メモリ要求をキューするための要求キューを含み得る。
インターフェースロジック1018A〜1018Lは、リンクからのパケットを受信し、リンク上に伝送されるパケットをバッファリングする様々なバッファを含み得る。コンピュータシステム900は、パケットを伝送する適合可能なフローコントロール機構の全てを使用し得る。例えば、一実施形態において、各インターフェースロジック1018は、インターフェースロジックが接続されるリンクの他の末端におけるレシーバ内のバッファの各形式の数のカウントを記録する。インターフェースロジックは、受信するインターフェースロジックがパケットを記録するための空いているバッファを有さない場合は、パケットを伝送しない。受信するバッファが伝送されるパケットを送信することによって解除されるので、受信するインターフェースロジックが、メッセージを送信インターフェースロジックに伝送し、バッファが解除されたことを示す。そのような機構は、“クーポンベースの”システムと称される。
I/Oデバイス1020A〜1020Bは、適合可能なI/Oデバイスであり得る。例えば、I/Oデバイス1020A〜1020Bが、これらのデバイスが結合され得る他のコンピュータシステム(例、ネットワークインターフェースカードあるいはモデム)と通信するデバイスを含み得る。更に、I/Oデバイス1020A〜1020Bは、ビデオアクセラレータ、オーディオカード、ハード又はフロッピーディスクドライブ又はドライブコントローラ、SCSI(Small Computer System Interface)アダプタ、及びテレフォニーカード、サウンドカード、及びGPIB又はフィールドバスインターフェースカードのような様々なデータ入手カードを含む。用語“I/Oデバイス”と“周辺デバイス”は、同義語として本文に意図される。
ここで使用されるように、“クロックサイクル”の用語は、命令プロセッシングパイプラインの様々なステージがタスクを完了する時間間隔を意味する。命令及び計算された値は、クロックサイクルを定義するクロック信号に従ってメモリ素子(レジスタあるいはアレイなど)によって取得される。例えば、メモリ素子は、クロック信号の立ち上がり又は立ち下がりエッジに従って値を取得することができる。
上述した明細書は信号を“表された(asserted)”ものとして説明するものである。情報の特定的な一部を示す値を伝送するとき、信号は“表された”ものとして定義され得る。特定的な信号では、バイナリ値が「1」の信号を伝送するとき、あるいはバイナリ値が「0」の値を伝送する場合に、「表された」として定義され得る。
これまでの開示を完全に理解したならば、当業者には様々な変形及び変更が可能であることが明白であろう。添付の特許請求の範囲はそのような変形及び変更の全てを包含するように解釈されることを意図したものである。
本発明は、概してマイクロプロセッサの技術分野に利用可能である。
一実施形態に従ったマイクロプロセッサを示す図。 一実施形態に従った推測ポインタがどのように進められるかを例示したフローチャート。 一実施形態に従った現在の推測ポインタのオペレーションリタイアメントを条件付ける方法を例示したフローチャート。 一実施形態に従った一般的なコンピュータシステムを示した図。 他の実施形態に従った別の一般的なコンピュータシステムを示した図。

Claims (10)

  1. マイクロプロセッサ(100)であって、
    1つ又はそれ以上のデータ推測検証ユニットを有し、該データ推測検証ユニットは、オペレーションに対して実行されたデータ推測の検証と、前記1つ又はそれ以上のデータ推測検証ユニットのうちの前記1つのデータ推測検証ユニットによってデータ推測が検証済みである処理中のオペレーションを識別する各推測ポインタの生成と、を行うように構成されており、かつ、
    前記1つ又はそれ以上のデータ推測検証ユニットの各々から推測ポインタを受信するように結合され、前記1つ又はそれ以上のデータ推測検証ユニットの各々から受信した前記推測ポインタに依存して、オペレーションを選択的にリタイアさせるように構成されたリタイアキュー(102)、を備えたマイクロプロセッサ(100)。
  2. 前記1つ又はそれ以上のデータ推測検証ユニットのうちの1つを含む読み出し書き込みユニット(126)を有し、前記読み出し書き込みユニット(126)に含まれる前記データ推測検証ユニットは、依存予測を検証するように構成される、請求項1記載のマイクロプロセッサ(100)。
  3. 非メモリオペレーションを実行するように構成されるとともに前記1つ又はそれ以上のデータ推測検証ユニットのうちの1つを含むファンクショナルユニット(126)を有し、前記ファンクショナルユニット(126)に含まれる前記データ推測検証ユニットは、非メモリオペレーションの結果を予測するデータ予測を検証するように構成される、請求項1記載のマイクロプロセッサ(100)。
  4. 前記1つ又はそれ以上のデータ推測検証ユニットのうちの1つは、前記1つ又はそれ以上のデータ推測検証ユニットのうちの前記1つのデータ推測検証ユニットによって検証されるデータ推測の一つのタイプが実行済みである複数の処理中のオペレーションの各々を識別する情報を受信するように構成されており、かつ、
    前記1つ又はそれ以上のデータ推測検証ユニットのうちの前記1つのデータ推測検証ユニットは、前記1つ又はそれ以上のデータ推測検証ユニットのうちの前記1つのデータ推測検証ユニットによってどの処理中のオペレーションが検証済みであるかを識別し、この識別は、データ推測が検証済みである最も新しい処理中のオペレーションよりも若く、かつ前記タイプのデータ推測が実行済みである最も古い処理中のオペレーションよりも若くないオペレーションを識別するように各々の推測ポインタを進めることでなされる、請求項1記載のマイクロプロセッサ(100)。
  5. コンピュータシステム(900)であって、
    メモリ(200)と、
    メモリ(200)に結合されたプロセッサ(100)と、を有し、
    前記プロセッサ(100)はオペレーションに対して実行されたデータ推測を検証し、前記1つ又はそれ以上のデータ推測検証ユニットのうちの1つによってデータ推測が検証済みである処理中のオペレーションを識別するように各推測ポインタを生成するように構成されており、かつ、
    前記プロセッサ(100)はさらに、前記1つ又はそれ以上のデータ推測検証ユニットの各々から推測ポインタを受信するように結合され、前記1つ又はそれ以上のデータ推測検証ユニットの各々から受信した前記推測ポインタに依存して、オペレーションを選択的にリタイアさせるように構成されたリタイアキュー(102)を含むことを特徴とする、コンピュータシステム(900)。
  6. 前記1つ又はそれ以上のデータ推測検証ユニットのうちの1つを含む読み出し書き込みユニット(126)を有し、前記読み出し書き込みユニット(126)に含まれる前記データ推測検証ユニットは、依存予測を検証するように構成される、請求項5記載のコンピュータシステム(900)。
  7. 非メモリオペレーションを実行するように構成されるとともに前記1つ又はそれ以上のデータ推測検証ユニットのうちの1つを含むファンクショナルユニット(126)を有し、前記ファンクショナルユニット(126)に含まれる前記データ推測検証ユニットは、非メモリオペレーションの結果を予測するデータ予測を検証するように構成される、請求項5記載のコンピュータシステム(900)。
  8. オペレーションに対してデータ推測を実施するステップ、
    検証ユニットが、前記オペレーションに実行された前記データ推測を検証するステップ、
    前記検証ユニットが、前記検証に応答して、前記検証ユニットに対して前記オペレーションはデータ投機的でないことを示す推測ポインタを生成するステップ、及び、
    前記検証ユニットに対して前記オペレーションがデータ投機的でないことを示す前記推測ポインタの受信に応答して、リタイアキューが選択的に前記オペレーションをリタイアさせるステップ、を含む、方法。
  9. 他の検証ユニットが、他のオペレーションに対して実行したデータ推測を検証し、前記他の検証ユニットに対して前記他のオペレーションはデータ投機的でないことを示す他の推測ポインタを生成するステップを有し、
    前記オペレーションのリタイアは、前記推測ポインタと前記他の推測ポインタとに依存してなされる、請求項8記載の方法。
  10. 前記検証ユニットに対して前記オペレーションは投機的でないことを示す前記推測ポインタの前記生成ステップは、前記検証ユニットによって検証されるタイプのデータ推測が実行済みである最も若いオペレーションであるオペレーションに依存する、請求項8記載の方法。
JP2006508587A 2003-05-02 2004-01-09 マイクロプロセッサにおいてデータ推測オペレーションを識別する推測ポインタ Expired - Fee Related JP4745960B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10/429,159 2003-05-02
US10/429,159 US7266673B2 (en) 2003-05-02 2003-05-02 Speculation pointers to identify data-speculative operations in microprocessor
PCT/US2004/000483 WO2004099978A2 (en) 2003-05-02 2004-01-09 Apparatus and method to identify data-speculative operations in microprocessor

Publications (3)

Publication Number Publication Date
JP2006525595A JP2006525595A (ja) 2006-11-09
JP2006525595A5 JP2006525595A5 (ja) 2011-04-28
JP4745960B2 true JP4745960B2 (ja) 2011-08-10

Family

ID=33310560

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006508587A Expired - Fee Related JP4745960B2 (ja) 2003-05-02 2004-01-09 マイクロプロセッサにおいてデータ推測オペレーションを識別する推測ポインタ

Country Status (8)

Country Link
US (1) US7266673B2 (ja)
JP (1) JP4745960B2 (ja)
KR (1) KR101057163B1 (ja)
CN (1) CN100373330C (ja)
DE (1) DE112004000741B4 (ja)
GB (1) GB2418045B (ja)
TW (1) TWI318371B (ja)
WO (1) WO2004099978A2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7721054B2 (en) * 2005-01-18 2010-05-18 Texas Instruments Incorporated Speculative data loading using circular addressing or simulated circular addressing
US8595557B2 (en) * 2005-02-23 2013-11-26 International Business Machines Corporation Method and apparatus for verifying memory testing software
US7921280B2 (en) * 2008-06-27 2011-04-05 Intel Corporation Selectively powered retirement unit using a partitioned allocation array and a partitioned writeback array
US8880854B2 (en) * 2009-02-11 2014-11-04 Via Technologies, Inc. Out-of-order execution microprocessor that speculatively executes dependent memory access instructions by predicting no value change by older instructions that load a segment register
US8707015B2 (en) 2010-07-01 2014-04-22 Advanced Micro Devices, Inc. Reclaiming physical registers renamed as microcode architectural registers to be available for renaming as instruction set architectural registers based on an active status indicator
US8589892B2 (en) 2010-11-21 2013-11-19 International Business Machines Corporation Verification of speculative execution
US8745599B2 (en) * 2012-01-19 2014-06-03 National Tsing Hua University Probabilistic pointer analysis method using SSA form
US10776123B2 (en) 2018-12-03 2020-09-15 Advanced Micro Devices, Inc. Faster sparse flush recovery by creating groups that are marked based on an instruction type
CN112559048B (zh) * 2019-09-25 2023-12-12 阿里巴巴集团控股有限公司 一种指令处理装置、处理器及其处理方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5903741A (en) * 1995-01-25 1999-05-11 Advanced Micro Devices, Inc. Method of allocating a fixed reorder buffer storage line for execution results regardless of a number of concurrently dispatched instructions
WO2001061480A1 (en) * 2000-02-14 2001-08-23 Intel Corporation Processor having replay architecture with fast and slow replay paths
US6952764B2 (en) * 2001-12-31 2005-10-04 Intel Corporation Stopping replay tornadoes

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5740393A (en) * 1993-10-15 1998-04-14 Intel Corporation Instruction pointer limits in processor that performs speculative out-of-order instruction execution
US6735688B1 (en) * 1996-11-13 2004-05-11 Intel Corporation Processor having replay architecture with fast and slow replay paths
US5966544A (en) * 1996-11-13 1999-10-12 Intel Corporation Data speculatable processor having reply architecture
US6665792B1 (en) * 1996-11-13 2003-12-16 Intel Corporation Interface to a memory system for a processor having a replay system
US6212626B1 (en) * 1996-11-13 2001-04-03 Intel Corporation Computer processor having a checker
US5781752A (en) * 1996-12-26 1998-07-14 Wisconsin Alumni Research Foundation Table based data speculation circuit for parallel processing computer
US6381691B1 (en) * 1999-08-13 2002-04-30 International Business Machines Corporation Method and apparatus for reordering memory operations along multiple execution paths in a processor
US6877086B1 (en) 2000-11-02 2005-04-05 Intel Corporation Method and apparatus for rescheduling multiple micro-operations in a processor using a replay queue and a counter
AU2002367955A1 (en) * 2001-06-26 2004-01-06 Sun Microsystems, Inc. Method and apparatus for facilitating speculative loads in a multiprocessor system
KR100567099B1 (ko) * 2001-06-26 2006-03-31 썬 마이크로시스템즈, 인코포레이티드 L2 디렉토리를 이용한 멀티프로세서 시스템의 가-저장촉진 방법 및 장치
US7363470B2 (en) * 2003-05-02 2008-04-22 Advanced Micro Devices, Inc. System and method to prevent in-flight instances of operations from disrupting operation replay within a data-speculative microprocessor

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5903741A (en) * 1995-01-25 1999-05-11 Advanced Micro Devices, Inc. Method of allocating a fixed reorder buffer storage line for execution results regardless of a number of concurrently dispatched instructions
WO2001061480A1 (en) * 2000-02-14 2001-08-23 Intel Corporation Processor having replay architecture with fast and slow replay paths
US6952764B2 (en) * 2001-12-31 2005-10-04 Intel Corporation Stopping replay tornadoes

Also Published As

Publication number Publication date
KR101057163B1 (ko) 2011-08-17
US20040221140A1 (en) 2004-11-04
TW200502849A (en) 2005-01-16
JP2006525595A (ja) 2006-11-09
CN1784654A (zh) 2006-06-07
GB2418045B (en) 2007-02-28
DE112004000741B4 (de) 2008-02-14
CN100373330C (zh) 2008-03-05
KR20060004974A (ko) 2006-01-16
WO2004099978A2 (en) 2004-11-18
US7266673B2 (en) 2007-09-04
GB0521335D0 (en) 2005-11-30
DE112004000741T5 (de) 2006-05-11
GB2418045A (en) 2006-03-15
TWI318371B (en) 2009-12-11
WO2004099978A3 (en) 2005-12-08

Similar Documents

Publication Publication Date Title
JP4170292B2 (ja) データの投機的実行をサポートするマイクロプロセッサで用いるスケジューラ
JP5294632B2 (ja) 読出しが以前の書込みに依存しているかどうかを予測する依存性メカニズムを備えたプロセッサ
JP4105684B2 (ja) ロード操作の推測結果をレジスタ値にリンクするためのシステムおよび方法
JP4538462B2 (ja) 二重用途レジスタを識別しているアドレス指定パターンに基づいたデータ投機
KR100953207B1 (ko) 로드/저장 오퍼레이션들을 바이패스하기 위하여 추론적 소스 오퍼랜드를 사용하는 시스템 및 방법
JP2007536626A (ja) ロードオペレーションの投機的な結果をレジスタ値にリンクするメモリファイルを検証するためのシステムおよび方法
JP5091481B2 (ja) リプレイ機構を備えた読み出し/書き込みユニット
JP2007507791A (ja) トレースキャッシュベースのプロセッサ中の例外命令を処理するためのシステム及び方法
JP4624988B2 (ja) データ推測マイクロプロセッサにおいて実行中のオペレーションのインスタンスがオペレーションのリプレイの割込みを防ぐためのシステム及び方法
JP4745960B2 (ja) マイクロプロセッサにおいてデータ推測オペレーションを識別する推測ポインタ
US7222226B1 (en) System and method for modifying a load operation to include a register-to-register move operation in order to forward speculative load results to a dependent operation
KR20070019750A (ko) 로드 동작의 투기적인 결과들을 레지스터 값들에 연결하는메모리 파일을 유효화하기 위한 시스템 및 그 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070104

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090901

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100112

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100412

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20100421

RD05 Notification of revocation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7425

Effective date: 20100902

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101208

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20110308

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110413

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110512

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140520

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees