JP6240964B2 - 装置、方法、およびシステム - Google Patents

装置、方法、およびシステム Download PDF

Info

Publication number
JP6240964B2
JP6240964B2 JP2015533047A JP2015533047A JP6240964B2 JP 6240964 B2 JP6240964 B2 JP 6240964B2 JP 2015533047 A JP2015533047 A JP 2015533047A JP 2015533047 A JP2015533047 A JP 2015533047A JP 6240964 B2 JP6240964 B2 JP 6240964B2
Authority
JP
Japan
Prior art keywords
shared
shared core
core extension
instruction
hardware logic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015533047A
Other languages
English (en)
Other versions
JP2015532990A (ja
Inventor
シファー、エラン
ハゴグ、モスタファ
チュリエル、エリヤフ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of JP2015532990A publication Critical patent/JP2015532990A/ja
Application granted granted Critical
Publication of JP6240964B2 publication Critical patent/JP6240964B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • G06F15/80Architectures of general purpose stored program computers comprising an array of processing units with common control, e.g. single instruction multiple data processors
    • G06F15/8007Architectures of general purpose stored program computers comprising an array of processing units with common control, e.g. single instruction multiple data processors single instruction multiple data [SIMD] multiprocessors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30076Arrangements for executing specific machine instructions to perform miscellaneous control operations, e.g. NOP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3877Concurrent instruction execution, e.g. pipeline or look ahead using a slave processor, e.g. coprocessor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3877Concurrent instruction execution, e.g. pipeline or look ahead using a slave processor, e.g. coprocessor
    • G06F9/3879Concurrent instruction execution, e.g. pipeline or look ahead using a slave processor, e.g. coprocessor for non-native instruction execution, e.g. executing a command; for Java instruction set
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3885Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units
    • G06F9/3887Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units controlled by a single instruction for multiple data lanes [SIMD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3885Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units
    • G06F9/3888Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units controlled by a single instruction for multiple threads [SIMT] in parallel

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Executing Machine-Instructions (AREA)
  • Advance Control (AREA)
  • Memory System Of A Hierarchy Structure (AREA)
  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)

Description

複数の実施形態は、複数のプロセッサに関する。特に、複数の実施形態は、複数のコアを有する複数のプロセッサに関する。
図1は、従来技術のプロセッサ100のブロック図である。プロセッサは、複数のコア101を有する。特に、図示されたプロセッサは、コア0 101−0、コア1 101−1からコアM 101−Mを有する。例として、2個、4個、7個、10個、16個または任意の他の適切な数のコアがあってもよい。複数のコアの各々は、対応する単一命令複数データ(SIMD)実行ロジック102を含む。特に、コア0は、SIMD実行ロジック102−0を含み、コア1は、SIMD実行ロジック102−1を含み、コアMは、SIMD実行ロジック102−Mを含む。すなわち、SIMD実行ロジックは、コア毎に複製される。各SIMD実行ロジックは、SIMD、ベクトルまたはパックドデータオペランドを処理するように動作可能である。複数のオペランドの各々は、複数のオペランド内にパックされ、SIMD実行ロジックによって並列に処理される8ビット、16ビット、32ビットまたは64ビットのデータ要素のような、より小さい複数のデータ要素を有してもよい。
いくつかのプロセッサでは、各SIMD実行ロジックは、比較的大量のロジックを表してもよい。例えば、これは、各SIMD実行ロジックが、複数の広いSIMDオペランドを処理する場合であってもよい。いくつかのプロセッサは、例えば、128ビットの複数のオペランド、256ビットの複数のオペランド、512ビットの複数のオペランド、1024ビットの複数のオペランド等のような、比較的幅の広いベクトルまたはパックドデータオペランドを処理することができる。一般に、かかる広い複数のオペランドを処理するために必要とされるSIMD実行ロジックは、比較的大きい傾向があり、比較的大量のダイ領域を消費するため、プロセッサの製造コストを増大させ、使用時に比較的大量の電力を消費する。各コアについて比較的大きいSIMD実行ロジックを複製することは、かかる複数の問題を悪化させる傾向がある。さらに、多くの用途または動作負荷のシナリオでは、コア毎に複製されたSIMD実行ロジックは、少なくともいくらかの時間、十分に利用されていない傾向がある。今後、コアの数が増え続けると、かかる複数の問題がさらに深刻化する可能性がある。
さらに、図1の従来技術によるプロセッサでは、複数のコアの各々も、従来のフロー制御ロジックを有する。特に、コア0は、フロー制御ロジック103−0を有し、コア1は、フロー制御ロジック103−1を有し、コアMは、フロー制御ロジック103−Mを有する。一般に、フロー制御ロジックは、広範な複数の利用モデル、例えば、投機実行の導入をカバーするように、設計または最適化されてもよい。しかしながら、これは、概して、SIMD及び様々な他の複数のハイスループット演算にとっては、利益が比較的小さい傾向があるものの、比較的高い電力消費を伴う傾向がある。
本発明は、本発明の複数の実施形態を示すために用いられる以下の説明及び複数の添付図面を参照することにより、最もよく理解され得る。複数の図面は、以下のとおりである。
従来技術によるプロセッサのブロック図である。
プロセッサの実施形態及びメモリの実施形態を有するシステムの実施形態のブロック図である。
共有コア拡張インターフェースロジックの実施形態を含み、コアインターフェースロジックの実施形態を含む共有コア拡張ロジックの実施形態を有するコア0を有するプロセッサの実施形態のブロック図である。
共有コア拡張呼び出し命令の実施形態を処理する方法の実施形態のブロックフロー図である。
共有コア拡張コマンドレジスタの実施形態の例のブロック図である。
共有コア拡張読み出し命令の実施形態を処理する方法の実施形態のブロックフロー図である。
供給コア拡張停止命令の実施形態を処理する方法の実施形態のブロックフロー図である。
本発明の複数の実施形態に係る例示的なインオーダパイプライン及び例示的なレジスタリネーミング、アウトオブオーダ発行/実行パイプラインの両方を示すブロック図である。
本発明の複数の実施形態に係るプロセッサに含まれるべきインオーダアーキテクチャコアの例示的な実施形態及び例示的なレジスタリネーミング、アウトオブオーダ発行/実行アーキテクチャコアの両方を示すブロック図である。
本発明の複数の実施形態に係る単一のプロセッサコアのブロック図であり、そのオンダイインターコネクトネットワークとの接続、及びその二次(L2)キャッシュ904のローカルサブセットと共に示される。
本発明の複数の実施形態に係る図9Aのプロセッサコアの一部の拡大図である。
1つより多くのコアを有してもよく、集積メモリコントローラを有してもよく、集中画像表示を有してもよい、本発明の複数の実施形態に係るプロセッサのブロック図である。
本発明の一実施形態に係るシステムのブロック図を示す。
本発明の実施形態に係る第1のより具体的な、例示的なシステムのブロック図を示す。
本発明の実施形態に係る第2のより具体的な、例示的なシステムのブロック図を示す。
本発明の実施形態に係るSoCのブロック図を示す。
ソース命令セットの複数のバイナリ命令をターゲット命令セットの複数のバイナリ命令に変換するための本発明の複数の実施形態に係るソフトウェア命令変換器の使用を対比したブロック図である。
複数のコア及び複数のコアによって共有される(例えば、複数のコアの各々に対してデータ処理を実行するように動作可能な)共有コア拡張ロジックを有する複数のプロセッサの複数の実施形態が、本明細書で開示される。複数の共有コア拡張使用命令、複数の共有コア拡張使用命令を実行する複数のプロセッサ、複数の共有コア拡張使用命令を処理または実行する場合に複数のプロセッサによって実行される複数の方法、及び複数の共有コア拡張使用命令を処理又は実行するための1つまたは複数のプロセッサを組み込んだ複数のシステムも、本明細書で開示される。
以下の説明では、特定のマイクロアーキテクチャの複数の詳細、特定のコマンドレジスタの複数のフォーマット、特定の共有コア拡張使用命令の複数の機能性、複数の共有コア拡張使用命令の特定の複数のグループ、特定の複数のタイプ及び複数の相互関係の複数のシステムコンポーネント、及び特定のロジック区画化/統合の複数の詳細のような、数々の具体的な複数の詳細が示される。しかしながら、本発明の複数の実施形態は、これらの具体的な複数の詳細がなくても実施され得ることが理解される。他の複数の例では、周知の複数の回路、複数の構造及び複数の技術は、この説明に対する理解の妨げとならないよう、詳細に示されてはいない。
図2は、プロセッサ210の実施形態及びメモリ218の実施形態を有するシステム209の実施形態のブロック図である。プロセッサ及びメモリは、連結され、もしくは、1つまたは複数のバスまたは他の複数のインターコネクト219を介して互いに通信を行う。様々な複数の実施形態において、システム209は、デスクトップコンピュータシステム、ラップトップコンピュータシステム、サーバコンピュータシステム、ネットワーク要素、携帯電話またはマルチコアプロセッサ及びメモリを有する他のタイプの電子デバイスを表してもよい。
プロセッサ210は、複数のコア211を有する。図示されたプロセッサは、コア0 211−0からコアM 211−Mを有する。例として、2個、4個、7個、10個、16個、32個、64個、128個またはそれより多くのコアまたは特定の実装に望ましい任意の他の合理的で適切な数のコアがあってもよい。いくつかの実施形態では、複数のコアの各々は、他の複数のコアから実質的に独立して動作可能であってもよい。複数のコアの各々は、少なくとも1つのスレッドを処理可能である。図示されるように、コア0は、スレッド0 212−0を有し、選択的にスレッドP 212−Pまで含んでもよい。同様に、コアMは、スレッド0 212−0を有し、選択的にスレッドP 212−Pまで含んでもよい。複数のスレッドPの数は、任意の合理的で適切な数のスレッドであってもよい。本発明の範囲は、任意の公知の数のコア、またはこのような複数のコアが処理可能な任意の公知の数のスレッドに限定されない。
プロセッサは、様々な複合命令セットコンピュータ(CISC)の複数のプロセッサ、様々な縮小命令セットコンピュータ(RISC)の複数のプロセッサ、様々な超長命令語(VLIW)の複数のプロセッサ、様々なこれらの複数のハイブリッド、または完全に他の複数のタイプの複数のプロセッサのいずれであってもよい。いくつかの実施形態では、複数のコアは、デスクトップ、ラップトップ、サーバ及び同様の複数のコンピュータシステムで用いられるタイプの汎用プロセッサの複数の汎用コアであってもよい。いくつかの実施形態では、複数のコアは、複数の特別用途コアであってもよい。適した複数の特別用途コアの複数の例は、限定的ではないが、わずかな例を挙げれば、複数のグラフィクスプロセッサコア、複数のデジタルシグナルプロセッサ(DSP)コア及び複数のネットワークプロセッサコアを含む。いくつかの実施形態では、プロセッサは、複数の汎用または特別用途コアと、グラフィクスユニット、メディアブロック、複数のコアと共にチップ上に集積されたシステムメモリの中の1つまたは複数とを有するシステムオンチップ(SoC)であってもよい。
プロセッサは、共有コア拡張ロジック214の実施形態をさらに含む。共有コア拡張ロジックは、複数のコア211の各々によって共有される(例えば、複数のコアの各々に対してデータ処理を実行するように動作可能である)。共有コア拡張ロジックは、複数のコアの各々に対してデータ処理を実行するように動作可能な共有データ処理ロジック216を含む。共有コア拡張ロジック及び複数のコアは、プロセッサの1つまたは複数のバスまたは他の複数のインターコネクト217によって、互いに連結される。複数のコア及び共有コア拡張ロジックは、対応するインターフェースロジック213、215を含むことにより、複数のコアの各々における1つまたは複数の物理的スレッド及び共有コア拡張ロジックは、互いにインターフェースまたは連携する(例えば、複数のコアの複数のスレッドに対し、データ処理を実行させるために共有コア拡張ロジックを呼び出す、データ処理のステータスをチェックする、データ処理を停止する、複数のコンテキストスイッチに対する複数の仮想メモリ属性を同期させる、データ処理中に発生した複数のページフォルトをルーティングする等)ことができる。共有コア拡張ロジックによって実行される複数のコンピュータタスクは、各物理的スレッドの代わりに、その具体的な物理的スレッドの論理的プロセス下で実行されてもよい。さらに後述されるように、インターフェースに用いられるコンテキストは、物理的スレッド毎に提供されてもよい。
特に、コア0は、コア0のスレッド0に固有の少なくともいくつかのロジック及びコア0のスレッドPに固有の少なくともいくつかのロジックを含む共有コア拡張インターフェースロジック213−0の実施形態を含む。同様に、コアMは、コアMのスレッド0に固有の少なくともいくつかのロジック及びコアMのスレッドPに固有の少なくともいくつかのロジックを含む共有コア拡張インターフェースロジック213−Mの実施形態を含む。他の複数のコアの各々(もしあれば)は、同様に、かかる共有コア拡張インターフェースロジックを含む。共有コア拡張ロジック214は、対応するコアインターフェースロジック215の実施形態を含む。各コア211は、その対応する共有コア拡張インターフェースロジック213を介して、共有コア拡張ロジック214のコアインターフェースロジック215とインターフェースまたは連携してもよい。いくつかの実施形態では、共有コア拡張インターフェースロジック213及びコアインターフェースロジック215は、複数のコアが共有コア拡張ロジックを共有する(例えば、共有データ処理ロジック216によってデータ処理を共有する)ことができるように、アーキテクチャインターフェース(例えば、新たな複数のアーキテクチャマクロ命令及び新たな複数のアーキテクチャレジスタ)、マイクロアーキテクチャインターフェースまたはハードウェアメカニズム(例えば、データ処理スケジューリングロジック、メモリ管理ユニット(MMU)同期ロジック、ページフォルトルーティングロジック等)を提供してもよい。共有コア拡張インターフェースロジック213及びコアインターフェースロジック215の詳細な複数の例示的な実施形態は、さらに後述される。
共有データ処理ロジック216は、様々な異なる複数の実施形態において、複数の異なるタイプのデータ処理ロジックを表してもよい。背景技術の部分で前述されたように、特定の複数のタイプのデータ処理ロジック(例えば、特定の複数のワイドSIMD実行ユニット)は、従来、コア毎に複製されてきた。前述したように、しばしば、この複製されたロジックは、比較的大きくなる傾向がある。さらに、しばしば、この複製されたロジックは、多くの共通する動作負荷のシナリオでは、少なくともいくらかの時間、十分に利用されていない。かかるロジックの複製は、概して、比較的大量のダイ領域を消費する傾向があることにより、製造コストを増大させ、比較的大量の電力を消費する。いくつかの実施形態では、かかる比較的大きい及び/または一般に十分に利用されていない、従来はコア毎に複製されるデータ処理ロジックは、データ処理ロジックの単一の共有コピーとして、複数のコアから共有コア拡張ロジックに抽出されてもよい。さらに、図1の複数のコアの従来のフロー制御ロジックの場合のように、広範な複数の利用モデル、例えば、投機実行の導入をカバーするように設計または最適化されることとは対照的に、共有コア拡張ロジック214は、所望のまたはハイスループットのために最適化されるフロー制御ロジックを採用してもよい。これは概して、スループット志向のアルゴリズムに対して、よりハイレベルな電力性能の効率性を提供する傾向がある。
様々な複数の実施形態において、共有データ処理ロジックは、スループット志向のハードウェア計算機能ロジック、ハイスループット計算エンジン、行列乗算ロジック、行列転置ロジック、有限フィルタロジック、合計絶対差ロジック、ヒストグラム計算ロジック、ギャザースキャッタ命令実装ロジック、超越ベクトル実行ロジック等を表してもよい。いくつかの実施形態では、共有データ処理ロジックは、例えば、複数のSIMD実行ユニット(例えば、潜在的には、比較的広い複数のSIMD実行ユニット)などの複数の実行ユニットを含んでもよい。いくつかの実施形態では、共有コア拡張ロジックは、例えばメモリ218内の複数の共有コア拡張データ構造208(例えば、複数の行列、複数のテーブル等)と連携してもよい。
有利には、ロジックの複製と比較して、共有コア拡張ロジックは、ロジック実行のために必要なダイ領域全体、ロジック製造コスト及び/またはロジックの消費電力の中で1つまたは複数を低減させる助けとなり得る。すなわち、共有コア拡張ロジックによれば、複数のコアは、かかる複数のリソースをコア毎に複製するために概して高い統合コストをかけることなく、一般的なデータ処理機能評価ハードウェアの複数のリソースを共有し得る。明確性のために、特定の共有データ処理ロジックが大きいことは必要とされないが、サイズ、コスト及び電力削減の利益の最大化は、比較的大きいロジックが、コア毎に複製される代わりに、複数のコアによって共有される場合に実現されることが多い。さらに、共有ロジックは、コア毎に複製されたとしたら、さもなければ比較的十分に利用されていなかった場合に、共有はロジックの活用を増大させる傾向があり得ることから、十分に利用されていないまたは不要なロジックが統合されることによりダイ領域及び製造コストを低減させ得るため、利益の最大化が実現されることが多い。さらなる利点として、共有コア拡張ロジックは、潜在的には、複数のコアが1つのタイプの処理に対して(例えば、スカラ動作負荷性能、電力及びエリアに対して)カスタマイズまたは最適化され、共有コア拡張ロジックが他のタイプの処理に対して(例えば、スループット志向の動作負荷性能、電力及びエリアに対して)カスタマイズまたは最適化されるために、さらに用いられてもよい。
図3は、共有コア拡張インターフェースロジック313の実施形態の例を含むコア0 311−0と、コアインターフェースロジック315の実施形態の例を含む共有コア拡張ロジック314の実施形態とを有するプロセッサ310の実施形態のブロック図である。前述したように、プロセッサは、コアM(不図示)までの1つまたは複数の他のコアをさらに含んでもよい。共有コア拡張インターフェースロジック313に加えて、コア0は、複数のコアに従来見られたタイプの従来のロジック334(例えば、1つまたは複数の実行ユニット、複数のアーキテクチャレジスタ、1つまたは複数のキャッシュ、マイクロアーキテクチャロジック等)をさらに有する。本発明の範囲は、あらゆる公知のかかる従来のロジックに限定されない。コアインターフェースロジック315に加えて、共有コア拡張ロジック314は、共有データ処理ロジック316、及び複数のコアからのデータ処理または複数のタスクを共有データ処理ロジックに対してスケジューリングするスケジューラ344をさらに有する。
コア0 311−0上で実行する1つまたは複数の物理的スレッドの各々は、共有コア拡張ロジック314とのインターフェースをとるために、共有コア拡張インターフェースロジック313を用いてもよい。共有コア拡張インターフェースロジック313は、コア0の命令セット322の複数の共有コア拡張使用命令323を含む。命令セットは、コアの命令セットアーキテクチャ(ISA)の一部である。ISAは、プログラミングに関するコアのアーキテクチャの一部を表す。ISAは、一般には、プロセッサの複数のネイティブ命令、複数のアーキテクチャレジスタ、複数のデータ型、複数のアドレッシングモード、メモリアーキテクチャ、割り込み及び例外処理等を含む。ISAは、概して、ISAを実装するために選択された特定の複数の設計技術を表すマイクロアーキテクチャとは区別される。異なる複数のマイクロアーキテクチャによる複数のプロセッサまたは複数のコアは、共通ISAを共有してもよい。共有コア拡張使用命令323を含む命令セットの複数の命令は、複数のマイクロ命令、マイクロop、またはより低レベルの複数の命令(例えば、復号ロジックが複数の機械命令または複数のマクロ命令を復号した結果のもの)とは対照的に、複数の機械命令、複数のマクロ命令またはより高レベルの複数の命令(例えば、実行のためにコアに与えられる複数の命令)を表す。
共有コア拡張インターフェースロジック313は、複数の共有コア拡張コマンドレジスタ(SCERCR)328のコア0、スレッド0セットをさらに含む。各物理的スレッドは、他の複数のスレッドの進捗度と無関係に保存及び復元されるべき当該コンテキストの一部としてこれと関連付けられた複数のSCERCRレジスタのセットを有してもよい。いくつかの実施形態では、コア0の場合、コア0上で実行する1つまたは複数の物理的スレッドの各々に対して、スレッド毎に与えられる複数のSCERCRの複数のセットがあってもよい。例えば、図示された実施形態では、コア0、スレッド0の複数のSCERCRは、スレッド0に属してもよい。同様に、コア0上で実行する各物理的スレッドは、共有コア拡張ロジック314とのインターフェースをとるために、コア0、スレッド固有の複数のSCERCRのセットを有してもよい。代替的に、コア0に対し、コア0の複数のSCERCRの単一のセットがあってもよい。かかる場合には、ハードウェアレベルにおいて、複数の物理的スレッド間で、複数のSCERCRを共有する時間があってもよい。コンテキストは、複数のコンテキストスイッチにおいてコア0の複数のSCERCRからスワップされ、保存及び復元されてもよい。
図では、SCERCR0 328−0からSCERCRN 328−Nが示される。すなわち、N+1本のレジスタが存在する。N+1という数は、2、4、8、16、32、64、またはいくつかの他の数などの任意の所望の数であってもよい。N+1という数が2のべき乗である必要はないが、これは概して、効率的なレジスタアドレッシングを提供する傾向がある。これらの複数のレジスタの中で所与の1つが、本明細書ではSCECRxとして一般的に表され、ここで、xは、レジスタSCERCR0からSCERCRNのいずれか1つを表してもよい。
いくつかの実施形態では、複数の共有コア拡張コマンドレジスタは、アーキテクチャ的に可視なコア及び/またはプロセッサのISAの複数のレジスタであってもよい。複数のアーキテクチャレジスタは、概して、オンダイプロセッサの複数の格納位置を表す。複数のアーキテクチャレジスタは、本明細書では単に複数のレジスタとさらに称されてもよい。他に指定されまたは明らかでない限り、複数のアーキテクチャレジスタ及び複数のレジスタという表現は、本明細書では、ソフトウェアに可視の複数のレジスタ及び/またはプログラマ(例えば、ソフトウェアに可視の)及び/または複数のマクロ命令によって指定される複数のレジスタを指すために用いられる。これらの複数のレジスタは、所与のマイクロアーキテクチャ(例えば、複数の命令に用いられる複数の一時レジスタ、複数のリオーダバッファ、複数のリタイアメントレジスタ等)において、他の非アーキテクチャ的な、またはアーキテクチャ的に可視ではない複数のレジスタと対比される。
共有コア拡張使用命令323は、データ処理が実行されるよう、共有コア拡張ロジック314への複数の呼び出しを送信、モニタリング及び停止するために用いられる。例として、複数の共有コア拡張使用命令は、並列プログラミングのために用いられてもよく、並列プログラミング動作負荷の効率性及び/またはスループットを向上させるために、命令セット(例えば、命令セットの拡張として)に含まれてもよい。複数の共有コア拡張使用命令は、コア0の複数の共有コア拡張コマンドレジスタ328の共有コア拡張コマンドレジスタ(SCECRx)を(例えば、複数のビットまたは1つまたは複数のフィールドを介して)明示的に指定してもよく、または示し(例えば、暗示的に示し)てもよい。複数の共有コア拡張レジスタは、プロセッサのアーキテクチャハードウェアインターフェースを共有コア拡張ロジックに提供してもよい。
図示された実施形態では、共有コア拡張使用命令323は、フォーマットSCE呼び出し(SCECRx、複数のパラメータ)を有する共有コア拡張(SCE)呼び出し命令324を含む。SCECRxは、コア0の複数の共有コア拡張コマンドレジスタ328の1つを示し、複数のパラメータは、さらに後述される呼び出しと関連付けられる1つまたは複数のパラメータを示す。図示された複数の共有コア拡張使用命令は、フォーマットSCE読み出し(SCECRx)を有するSCE読み出し命令325をさらに含む。他の複数の共有コア拡張使用命令は、フォーマットSCE停止(SCECRx)を有するSCE停止命令326である。さらに他の複数の共有コア拡張使用命令は、フォーマットSCE待機(SCECRx)を有するSCE待ち命令327である。これらの複数の命令の各々は、実行されるべき命令及び/またはオペレーションを特定するように動作可能なオペレーションコードまたはオペコード(例えば、複数のビットまたは1つまたは複数のフィールド)を含んでもよい。これらの例示的な複数の共有コア拡張使用命令の各々の機能性は、さらに後述される。
これは、複数の共有コア拡張使用命令の適したセットの1つの例示に過ぎないことが理解されよう。例えば、他の複数の実施形態では、図示された複数の命令のいくつかは、選択的に省略されてもよく、及び/またはさらなる複数の命令が、複数の共有コア拡張使用命令に選択的に追加されてもよい。さらに、他の複数の共有コア拡張使用命令及びこれらの複数のセットは、考慮され、当業者に明らかであり、本開示の利益を有する。
コア0 311−0上で実行する複数の物理的スレッドの1つは、共有コア拡張使用命令323の1つを発行してもよい。当該スレッドによって発行された共有コア拡張使用命令は、適切なコア0の複数の共有コア拡張コマンドレジスタ328を示してもよい。適切なコア0の複数の共有コア拡張コマンドレジスタは、スレッド(例えば、スレッド0)に対応し、スレッド毎にコンテキストを提供してもよい。
再び図3を参照すると、コア0は、復号ロジック348を含む。復号ロジックは、デコーダまたは復号ユニットとさらに称されてもよい。復号ロジックは、より高レベルの複数の機械命令または複数のマクロ命令を受信及び復号し、1つまたは複数のより低レベルのマイクロオペレーション、複数のマイクロコードエントリポイント、複数のマイクロ命令または他のより低レベルの複数の命令、もしくは元のより高レベルの命令を反映し、及び/またはこれから導出される複数の制御信号を出力してもよい。1つまたは複数のより低レベルの複数の制御信号は、1つまたは複数のより低レベルの(例えば、回路レベルまたはハードウェアレベルの)オペレーションを介して、より高レベルの命令のオペレーションを実装してもよい。デコーダは、限定的ではないが、複数のマイクロコード読み出し専用メモリ(ROM)、複数のルックアップテーブル、複数のハードウェア実装、複数のプログラマブルロジックアレイ(PLA)、及び命令の復号を実行するために用いられる、当技術分野で公知の他の複数のメカニズムを含む、様々な複数の異なるメカニズムを用いて実装されてもよい。さらに、いくつかの実施形態では、命令エミュレータ、トランスレータ、モーファ、インタプリタまたは他の命令変換ロジックは、復号ロジックの代わりに、及び/またはこれに加えて、用いられてもよい。
SCE命令実行ロジック330は、復号ロジック348及びコア0の複数の共有コア拡張コマンドレジスタ328と連結される。共有コア拡張命令実行ロジックは、1つまたは複数のマイクロオペレーション、複数のマイクロコードエントリポイント、複数のマイクロ命令、他の複数の命令、もしくは複数の共有コア拡張使用命令を反映し、またはこれから導出される他の複数の制御信号を、デコーダから受信してもよい。共有コア拡張命令実行ロジックは、複数の共有コア拡張使用命令に応答して及び/またはこれに指定されたように(例えば、デコーダからの複数の制御信号に応答して)、複数の動作を実行するように動作可能である。いくつかの実施形態では、共有コア拡張命令実行ロジック及び/またはプロセッサは、複数の共有コア拡張使用命令を実行及び/または処理し、複数の共有コア拡張使用命令に応答して及び/またはこれに指定されたように複数の動作を実行するように動作可能な、具体的なまたは特定のロジック(例えば、回路またはソフトウェア及び/またはファームウェアと潜在的に組み合わせられる他のハードウェア)を含んでもよい。
図示された実施形態では、共有コア拡張命令実行ロジックは、共有コア拡張制御ロジック329内に含まれる。共有コア拡張制御ロジックは、複数の共有コア拡張コマンドレジスタ328、復号ロジック348、及びさらに後述されるメモリ管理ユニット331と連結される。共有コア拡張制御ロジックは、共有コア拡張インターフェースロジック313の様々な制御、管理、調整、タイミング及び関連する複数の実装態様を支援してもよい。
上述したように、コア0の命令セットは、SCE呼び出し命令324を含む。SCE呼び出し命令は、コアの代わりに(例えば、コア上でスレッドを実行する代わりに)データ処理を実行させるべく、共有コア拡張ロジック314に呼び出しを送信するために用いられてもよい。例として、コア0上で実行する物理的または論理的スレッドは、データ処理が実行されるよう、共有コア拡張ロジックに呼び出しまたはコマンドを送信するために、SCE呼び出し命令を発行してもよい。いくつかの実施形態では、呼び出しまたはコマンドは、複数の共有コア拡張コマンドレジスタ328の1つまたは複数を介して、共有コア拡張ロジックに渡されてもよい。例えば、実施形態の共有コア拡張呼び出し命令は、コア0の複数の共有コア拡張コマンドレジスタ328(例えば、SCECRx)の1つを指定または示してもよい。すなわち、複数の共有コア拡張コマンドレジスタは、新たなSCE呼び出しマクロ命令を用いて、複数のコア上のスレッドからアクセス可能であってもよい。いくつかの実施形態では、SCE呼び出し命令は、実行されるべきデータ処理をさらに指定、認定または定義するために、より多くのパラメータの1つをさらに指定または示してもよい。データは、SCE呼び出し命令に基づいて(例えば、SCE呼び出し命令の1つまたは複数のパラメータに基づいて)、示された共有コア拡張コマンドレジスタ(例えば、SCECRx)に書き込まれまたは格納されてもよい。現在のSCE呼び出しが、既に前のSCE呼び出しの専用であるまたはこれに占められている共有コア拡張コマンドレジスタに対してなされる場合、現在のSCE呼び出しは、占められた共有コア拡張コマンドレジスタが解放される(例えば、関連する呼び出しが完了するまたは停止されるとき)まで、ブロックされてもよい。次に、共有コア拡張ロジックは、書き込まれまたは格納されたデータを含む、示された共有コア拡張コマンドレジスタ(例えば、SCECRx)にアクセスしてもよく、(例えば、要求されたデータ処理を実行する)呼び出しまたはコマンドを実装してもよい。
図4は、SCE呼び出し命令の実施形態を処理する方法450の実施形態のブロックフロー図である。複数の実施形態では、方法は、プロセッサ、コアまたは他のタイプの命令処理装置によって実行されてもよい。いくつかの実施形態では、方法450は、図2のプロセッサ210または図3のコア0 311−0、もしくは同様のプロセッサまたはコアによって実行されてもよい。代替的に、方法450は、完全に異なるプロセッサ、コアまたは命令処理装置によって実行されてもよい。さらに、プロセッサ210及びコア311−0は、方法450と同じ、同様の、または異なる、複数のオペレーション及び複数の方法の複数の実施形態を実行してもよい。
ブロック451において、SCE呼び出し命令は、複数のコアを有するプロセッサのコア内で受信される。様々な複数の態様では、SCE呼び出し命令は、オフコアソースから(例えば、メインメモリ、ディスク、もしくはバスまたはインターコネクトから)コアで受信されてもよく、または、コア内の他のロジック(例えば、命令キャッシュ、キュー、スケジューリングロジック等)からコアの一部で(例えば、復号ロジック、スケジューリングロジック等で)受信されてもよい。SCE呼び出し命令は、データ処理を実行させるために、コアにより、共有コア拡張ロジックを呼び出させるものである。共有コア拡張ロジックは、複数のコアにより共有される。SCE呼び出し命令は、共有コア拡張コマンドレジスタを示し、1つまたは複数のパラメータをさらに示す。1つまたは複数のパラメータは、共有コア拡張ロジックによって実行されるべきデータ処理を指定する。
いくつかの実施形態では、1つまたは複数のパラメータは、ポインタの1つまたは複数(例えば、複数の明示的な仮想メモリポインタ)を、呼び出しに関連付けられた複数のコマンド属性を有するメモリにおけるコマンド属性データ構造に、1つまたは複数のポインタ(例えば、1つまたは複数の明示的な仮想メモリポインタ)を、データ処理が実行されるべきメモリにおける1つまたは複数の入力データオペランドに、1つまたは複数のポインタ(例えば、1つまたは複数の明示的な仮想メモリポインタ)を、データ処理の複数の結果が格納されるべきメモリにおける1つまたは複数の出力データオペランドに、提供してもよい。例えば、いくつかの実施形態では、1つまたは複数のパラメータは、さらに後述される図5の複数のフィールドに格納されるべき、及び/またはこれを抽出するために用いられるべき情報を提供してもよい。代替的に、他の複数の実施形態では、1つまたは複数のフィールドは、複数のメモリポインタの代わりに、複数のオペコード及び複数の引数の直接符号化を有してもよい。
ブロック452において、共有コア拡張ロジックは、データ処理が実行されるように、SCE呼び出し命令に応答して呼び出される。いくつかの実施形態では、共有コア拡張ロジックの呼び出しは、命令によって示される1つまたは複数のパラメータに基づいて、命令によって示される共有コア拡張コマンドレジスタにデータを書き込むまたは格納することを含んでもよい。
図5は、共有コア拡張コマンドレジスタ528の実施形態の例のブロック図である。共有コア拡張コマンドレジスタは、多数のフィールドを有する。図示された実施形態では、これらの複数のフィールドは、左から右に向かって、ステータスフィールド553、進捗度フィールド554、コマンドポインタフィールド555、入力データオペランドポインタフィールド556及び出力データオペランドポインタフィールド557を含む。これらの複数のフィールドの各々は、特定の実装に対して所望の情報を伝えるために十分な多数のビットを含んでもよい。
ステータスフィールド553は、共有コア拡張コマンドレジスタに対応する呼び出しのステータスを提供するために用いられてもよい。かかるステータスの複数の例は、限定的ではないが、呼び出しが有効(例えば、進行中)、呼び出し完了、呼び出しエラー等を含む。例として、2つのビットは、前述した3つのステータス条件のいずれかを指定するために用いられてもよい。他の例では、単一のビットは、有効及び無効のような2つのステータス条件のいずれかを符号化するために用いられてもよい。有効は、呼び出しが現在進行中であることを表してもよい。無効は、エラーが発生したことを示してもよい。
進捗度フィールド554は、共有コア拡張コマンドレジスタに対応する呼び出しの進捗度を提供するために用いられてもよい。進捗度は、完了進捗度のレベルまたは呼び出しまたはコマンドが完了に向けて進捗した程度を表してもよい。進捗度フィールドは、呼び出しの実行において、これまでに完了した作業量をカウントする種類のカウンタを有効に実装してもよい。いくつかの実施形態では、進捗度は、複数のアトミックなコミット点によって表されてもよい。例えば、アトミックなサブオペレーションがSCEロジックによって完了した場合はいつでも、カウンタは、インクリメントされてもよい。アトミックなサブオペレーションは、1つのタイプのデータ処理から他のタイプまで(例えば、1つの例では、特定の数のデータのキャッシュラインが処理された場合)、異なってもよい。いくつかの実施形態では、進捗度フィールドは、共有コア拡張ロジックのデータ処理に関する進捗度のアトミック性、及び共有コア拡張ロジック上におけるコマンドの実行をプレエンプション及びリスケジューリングする能力を提供するために用いられてもよい。呼び出しの実行が割り込まれた場合(例えば、1つのスレッドから他へのコンテキストスイッチで、またはフォールトで)、進捗度フィールドは、保存されてもよい。その後、進捗度フィールドは復元されてもよく、呼び出しに関連付けられたデータ処理が再開した(例えば、スレッドが再送信する場合)。進捗度フィールドの復元により、データ処理は、中断したところで再開可能であってもよい。これは、SCEロジックにより実行されるべきデータ処理量が比較的大きい及び/または完了するために比較的大量の時間がかかる場合に、特に有用である。
コマンドポインタフィールド555は、呼び出しまたは共有コア拡張コマンドレジスタに対応する呼び出しのコマンド属性情報558を指すポインタを提供するために用いられてもよい。いくつかの実施形態では、呼び出し属性情報は、呼び出し属性データ構造に含まれてもよい。いくつかの実施形態では、呼び出し属性情報は、メモリ518における1つまたは複数のメモリ位置に格納されてもよい。いくつかの実施形態では、ポインタは、明示的な仮想メモリポインタであってもよい。呼び出し属性情報は、呼び出しの複数の属性をさらに指定、認定、定義または特徴付けしてもよい。例えば、呼び出し属性情報は、共有コア拡張ロジックによって実行されるべき正確なタイプのデータ処理をさらに指定、認定、定義または特徴付けしてもよい。いくつかの実施形態では、複数のコマンド属性は、例えば、行列を転置する複数のオペレーション、ヒストグラムを生成する複数のオペレーション、フィルタリングを実行する複数のオペレーション等のような比較的簡単なまたは短い複数の処理ルーチンまたは複数の機能を表す処理を説明してもよい。複数のコマンド属性は、1つまたは複数の出力データオペランド(例えば、1つまたは複数の出力データ構造)を生成するために、1つまたは複数の入力データオペランド(例えば、1つまたは複数の入力データ構造)に対して実行する複数のオペレーションのシーケンスを説明してもよい。いくつかの実施形態では、これらは、様々なかかる比較的簡単なアルゴリズムもしくは典型的には複数のハードウェアアクセラレータまたは複数のグラフィクス処理ユニット等で実行される複数のルーチンのいずれかであってもよい。
入力データオペランドポインタフィールド556は、1つまたは複数の入力データオペランドを指す1つまたは複数のポインタを提供するために用いられてもよい。複数の入力データオペランドは、データ処理が共有コア拡張ロジックによって実行されるべきものである。いくつかの実施形態では、1つまたは複数の入力データオペランドは、例えば、複数の行列、複数のテーブル等のような1つまたは複数のデータ構造を表してもよい。示されるように、いくつかの実施形態では、ポインタは、メモリ518のメモリ位置における入力データオペランドを指してもよい。いくつかの実施形態では、ポインタは、明示的な仮想メモリポインタであってもよい。他の複数の実施形態では、複数のポインタは、1つまたは複数のレジスタまたは他の複数の格納位置における1つまたは複数の入力データオペランドを指してもよい。
出力データオペランドポインタフィールド557は、1つまたは複数の出力データオペランドを指す1つまたは複数のポインタを提供するために用いられてもよい。複数の出力データオペランドは、呼び出し完了時に、共有コア拡張ロジックによって実行されたデータ処理の複数の結果を伝達するためのものである。いくつかの実施形態では、1つまたは複数の出力データオペランドは、例えば、複数の行列、複数のテーブル等のような1つまたは複数のデータ構造を表してもよい。示されるように、いくつかの実施形態では、ポインタは、メモリのメモリ位置における出力データオペランドを指してもよい。いくつかの実施形態では、ポインタは、明示的な仮想メモリポインタであってもよい。他の複数の実施形態では、複数のポインタは、1つまたは複数のレジスタまたは他の複数の格納位置における1つまたは複数の出力データオペランドを指してもよい。
これは、共有コア拡張コマンドレジスタに適したフォーマットの実施形態の一例に過ぎないことが理解されよう。別の複数の実施形態は、図示された複数のフィールドのいくつかを省略してもよく、またはさらなる複数のフィールドを追加してもよい。例えば、複数のフィールドの1つまたは複数は、共有コア拡張コマンドレジスタにおいて明示的に指定される必要のない暗示的な位置を介して提供されてもよい。他の例として、入力データオペランド格納位置は、これが二度指定される必要がないように、出力データオペランド格納位置として再使用されてもよいが、複数の仕様の1つは暗示的であってもよい。さらに他の例として、1つまたは複数のフィールドは、複数のメモリポインタの代わりに、複数のオペコード及び複数の引数の直接符号化を有してもよい。さらに、複数のフィールドの図示された順序/構成は、必要ではなく、むしろ、複数のフィールドは、再構成されてもよい。さらに、複数のフィールドは、複数のビットの連続的な複数のシーケンスを(図中で示唆されるように)含む必要がなく、むしろ、不連続または分離された複数のビットからなってもよい。
再び図3を参照すると、SCE呼び出し命令の実行後、SCE呼び出し命令(例えば、SCECRx)によって示される共有コア拡張コマンドレジスタは、SCE呼び出し命令に対応するデータを格納してもよい。スレッドまたはコアがタスクまたは呼び出しを送信した後、スレッドまたはコアは、先に送信された複数の呼び出しまたは複数のタスクが完了する前に、さらなる複数の呼び出しまたは複数のタスクの準備及び共有コア拡張ロジックへの送信に進んでもよい。さらに、スレッドまたはコアは、前に送信された複数の呼び出しまたは複数のタスクが完了する間に、他の処理の実行に進んでもよい。複数の共有コア拡張コマンドレジスタは、スケジューラ(さらに後述される)と共に、共有コア拡張ロジックに対する複数のタスクまたは複数の呼び出し完了までの間、及びこれらが完了するまで、複数のスレッド及び/または複数のコアが複数のタスクまたは複数の呼び出しを送信し、次に他の複数のタスクまたは複数の呼び出しの送信または他の処理の実行に進むことを可能とする、きめ細かい制御フローの提供を助けてもよい。
共有コア拡張ロジック314は、複数のコア0共有コア拡張コマンドレジスタ328にアクセスするコアインターフェースロジック315を含む。コアインターフェースロジックは、コアM及び任意の他の複数のコア(もしあれば)の複数の共有コア拡張コマンドレジスタ340にアクセスするためにさらに用いられてもよい。すなわち、いくつかの実施形態では、共有コア拡張ロジック及び/またはコアインターフェースロジックは、複数のコアの各々に対する複数の共有コア拡張コマンドレジスタの個別のセットにアクセスしてもよい。
共有コア拡張ロジックは、複数の共有コア拡張コマンドレジスタ328を用いてもよい。例えば、共有コア拡張ロジックは、コマンドフィールド(例えば、フィールド555)に指されるコマンド属性情報にアクセスしてもよく、複数の入力データオペランドフィールド(例えば、フィールド556)に指される複数の入力データオペランドにアクセスしてもよく、進捗度フィールド(例えば、フィールド554)におけるデータ処理の結果として進捗度を更新してもよく、オペレーションが行われ、またはエラーに直面した場合は、完了またはエラーを反映するためにステータスフィールド(例えば、フィールド553)を更新してもよく、エラーなしで完了した場合は、複数の出力データオペランドフィールド(例えば、フィールド557)のポインタを介して、複数の出力データオペランドにアクセスしてもよい。
説明を容易にするために、共有コア拡張ロジックは、コア0、スレッド0の複数の共有コア拡張コマンドレジスタのコピーを有するものとして示される。しかしながら、共有コア拡張ロジックの複数の共有コア拡張コマンドレジスタは、実際にはコア0、スレッド0の複数の共有コア拡張コマンドレジスタの2つのセットがない場合があることを示すために、複数の破線で示される。むしろ、コア0及び共有コア拡張ロジックの両方は、論理的に、コア0、スレッド0の複数の共有コア拡張コマンドレジスタの同じセットを見てもよい。同様に、共有コア拡張ロジックは、潜在的には、コアM、スレッドPのセット340を介して、他の複数のプロセッサの他の複数のスレッドの対応する複数の共有コア拡張コマンドレジスタを見てもよい。さらに明確性のために、物理的コア0、スレッド0の複数の共有コア拡張コマンドレジスタは、コア0に、共有コア拡張ロジックに、コア0の外側かつ共有コア拡張ロジックの外側の位置に、または複数の異なる位置の組み合わせに位置してもよい。
共有コア拡張ロジック314は、スケジューラ344の実施形態を含む。スケジューラは、ハードウェア、ソフトウェア、ファームウェアまたはいくつかの組み合わせで実装されてもよい。一態様では、スケジューラは、ハードウェアスケジューラであってもよい。スケジューラは、コアMの複数の共有コア拡張コマンドレジスタ340を介してコア0の共有コア拡張コマンドレジスタ328にアクセスし、共有データ処理ロジック316上でこれらの複数のレジスタを介して伝達される複数の呼び出しに関連付けられたデータ処理をスケジューリングするように動作可能であってもよい。いくつかの実施形態では、スケジューラは、プログラマブルスケジューリングアルゴリズムまたは目的に従って複数のコアに対してデータ処理をスケジューリングする、プログラマブルハードウェアスケジューラまたはプログラマブルハードウェアスケジューリングロジックを表してもよい。いくつかの実施形態では、ハードウェアスケジューラは、コマンド複数のレジスタ間及び複数の物理的スレッド間で循環するように動作可能な状態機械として実装されてもよい。複数のアービトレーションポリシは、潜在的には、複数の機械固有レジスタ(MSR)のセットを介して、ソフトウェアにさらされてもよい。他の複数の実施形態では、ハードウェアスケジューラは、例えば、固定の読み出し専用メモリ(ROM)及びパッチ可能なランダムアクセスメモリ(RAM)のドメインの両方を組み込んだファームウェアブロックとして実装されてもよい。これにより、潜在的には、ハードウェアスケジューラは、オペレーティングシステムの複数の指示、複数のアプリケーションプログラミングインターフェース(API)、ランタイムコンパイラの複数の指示、複数のリアルタイムハードウェアシグナルまたはかかる複数の制御の組み合わせに依存し得るより複雑なスケジューリングアルゴリズムを用いることができる。例として、スケジューリングは、公平なスケジューリングアルゴリズム、複数のコアのいくつかに対して他よりも重みづけされたスケジューリングアルゴリズム(例えば、コア負荷、処理されているスレッドまたはデータの臨界時間、スレッド優先度に基づいて、または他の複数の目的に従って)であってもよい。当技術分野で公知の多くの異なるタイプのスケジューリングアルゴリズムは、それらの複数の実装の特定の複数の目的に応じた異なる複数の実装に適している。スケジューラは、共有データ処理ロジックに対してスケジューリングされた複数の呼び出しまたは複数のタスクの完了をさらにモニタリングしてもよい。
共有コア拡張ロジック314は、ステータス及び/または進捗度更新ロジック349をさらに含む。ステータス及び/または進捗度更新ロジックは、共有データ処理ロジック316によって処理されている複数の呼び出しのステータス及び/または進捗度をモニタリングしてもよい。ステータス及び/または進捗度更新ロジックは、モニタリングされたステータス及び/または進捗度に基づいて複数の呼び出しに対応する複数の共有コア拡張コマンドレジスタをさらに更新してもよい。例えば、図5のステータスフィールド553及び進捗度フィールド554は、更新されてもよい。例として、共有コア拡張ロジックに対する呼び出しが完了した場合、ステータスは、完了されたことを反映するために更新されてもよく、または共有コア拡張ロジックに対する呼び出し処理がエラーに直面した場合、ステータスは、エラー状態を反映するために更新されてもよい。他の例として、呼び出しに関連付けられたデータ処理にわたって、ステータス及び/または進捗度更新ロジックは、呼び出し完了の進捗度を更新してもよい(例えば、進捗度フィールド554において、アトミックな複数のコミット点を更新してもよい)。
いくつかの実施形態では、オペレーティングシステムは、複数のコンテキストスイッチにおける共有コア拡張コマンドレジスタの状態を管理するために、状態保存/状態復元機能性(例えば、インテルアーキテクチャではxsave/xrestore)を用いてもよい。共有コア拡張ロジックによってまだ完了していない複数の呼び出しまたは複数のコマンドは、コンテキストスイッチにおいて、物理的スレッドによって保存され、次に復元及び再開されてもよい。いくつかの実施形態では、コンテキストスイッチ及びオペレーティングシステムのプレエンプションをサポートするために、複数の共有コア拡張コマンドレジスタは、上述の進捗度フィールドを有することにより、共有コア拡張ロジックによって処理されているデータ処理タスク(の例えばアトミックな進捗度)を記録してもよい。進捗度フィールドは、コンテキストスイッチにおいて、スレッドコンテキストの一部として保存され、オペレーティングシステムがスレッドをリスケジュールした場合にタスクを再開するために用いられてもよい。
共有コア拡張ロジック315は、共有コア拡張制御ロジック343をさらに含む。
共有コア拡張制御ロジックは、スケジューラ344、共有データ処理ロジック316、ステータス/進捗度更新ロジック349、コア0−Mの複数の共有コア拡張コマンドレジスタ328、340、さらに後述される共有コア拡張メモリ管理ユニット(MMU)341と連結される。共有コア拡張制御ロジックは、様々な制御、管理、調整、タイミング及び共有コア拡張ロジック314が関連する複数の実装態様を支援してもよい。
再び図3のSCE呼び出し命令324及び/または図4の方法のSCE呼び出し命令を参照すると、いくつかの実施形態では、SCE呼び出し命令は、非ブロックSCE呼び出し命令であってもよい。いくつかの実施形態では、非ブロックSCE呼び出し命令は、スレッド(例えば、物理的スレッド)から非投機的に送信されてもよく、非ブロックSCE呼び出し命令が共有コア拡張ロジックにおいて実行のために受け入れられた後で、発行スレッドが実行しているコアにおいてリタイアしてもよい(例えば、SCEコマンドレジスタに格納される)。
他の複数の実施形態では、SCE呼び出し命令は、ブロックSCE呼び出し命令であってもよい。
いくつかの実施形態では、ブロックSCE呼び出し命令は、スレッド(例えば、物理的スレッド)から非投機的に送信されてもよく、呼び出しまたはタスクの実行が共有コア拡張ロジックにおいて完了した後で(例えば、共有コア拡張コマンドレジスタのステータスフィールドが、完了されたことを反映するために更新された場合)、発行スレッドが実行しているコアにおいてリタイアしてもよい。いくつかの実施形態では、複数のSCE呼び出し命令の非ブロック及びブロックの違いの両方は、命令セットに含まれてもよい。
いくつかの実施形態では、ブロックSCE呼び出し命令は、共有コア拡張コマンドレジスタの解放を待つためのタイムアウト値(例えば、サイクル数)を指定または示してもよい。例えば、このサイクル数または他のタイムアウト値は、SCE呼び出し命令の複数のパラメータの1つに指定されてもよい。いくつかの実施形態では、フェール、フォールト、エラー等は、共有コア拡張コマンドレジスタが解放されることなくタイムアウト値に達した場合には、呼び出しに応答して戻されてもよい。
SCE呼び出し命令のリタイアを受けて、共有コア拡張ロジックは、割り当てられたタスクまたは呼び出しに従って、メモリ状態を修正してもよい。マルチスレッディング環境では、共有コア拡張を用い、複数の共有オペランドを有し得る複数の論理スレッド間でキャッシュのコヒーレンシ及びメモリの順序を維持するためにソフトウェアの同期が実行されてもよい。代替的に、ハードウェアの同期も、選択的に実行されてもよい。
図6は、SCE読み出し命令の実施形態を処理する方法662の実施形態のブロックフロー図である。複数の実施形態では、方法は、プロセッサ、コアまたは他のタイプの命令処理装置によって実行されてもよい。いくつかの実施形態では、方法662は、図2のプロセッサ210または図3のコア0 311−0、または同様のプロセッサまたはコアによって実行されてもよい。代替的に、方法662は、完全に異なるプロセッサ、コアまたは命令処理装置によって実行されてもよい。さらに、プロセッサ210及びコア311−0は、方法662と同じ、同様の、または異なる、複数のオペレーション及び複数の方法の複数の実施形態を実行してもよい。
共有コア拡張(SCE)読み出し命令は、ブロック663において、複数のコアを有するプロセッサのコア内で受信される。様々な複数の態様では、SCE読み出し命令は、オフコアソースから(例えば、メインメモリ、ディスク、もしくはバスまたはインターコネクトから)コアで受信されてもよく、または、コア内の他のロジック(例えば、命令キャッシュ、キュー、スケジューリングロジック等)からコアの一部で(例えば、復号ロジック、スケジューリングロジック等で)受信されてもよい。SCE読み出し命令は、コアに、共有コア拡張ロジックに対して前になされた呼び出しのステータスの読み出しを実行させる。共有コア拡張ロジックは、複数のコアにより共有される。SCE読み出し命令は、共有コア拡張コマンドレジスタを示す。
共有コア拡張ロジックに対して前になされた呼び出しのステータスは、ブロック664において、SCE読み出し命令に応答して読み出される。いくつかの実施形態では、ステータスの読み出しは、命令によって示される共有コア拡張コマンドレジスタからのデータの読み出しを含んでもよい。いくつかの実施形態では、ステータスは、完了ステータスを含んでもよい。例えば、ステータスフィールド(例えば、図5のステータスフィールド553)は、読み出されてもよい。いくつかの実施形態では、読み出しステータスは、完了、エラー、有効から選択されてもよいが、本発明の範囲は、このように限定されない。
他の複数の実施形態では、SCE読み出し命令は、示された共有コア拡張コマンドレジスタからの他の情報を読み出してもよい。かかる情報の複数の例は、限定的ではないが、(例えば、図5の進捗度フィールド554からの)進捗度、(例えば、フィールド557によって示されたように)出力データオペランドまたその一部及び(例えば、フィールド555によって示されたように)コマンド属性情報を含む。いくつかの実施形態では、コアがSCE読み出し命令を受信する代わりにデータ処理が実行されるよう、共有コア拡張コマンドレジスタは、共有コア拡張ロジックに対する前の呼び出しに対応する。
図7は、SCE停止命令の実施形態を処理する方法766の実施形態のブロックフロー図である。複数の実施形態では、方法は、プロセッサ、コアまたは他のタイプの命令処理装置によって実行されてもよい。いくつかの実施形態では、方法766は、図2のプロセッサ210または図3のコア0 311−0、または同様のプロセッサまたはコアによって実行されてもよい。代替的に、方法766は、完全に異なるプロセッサ、コアまたは命令処理装置によって実行されてもよい。さらに、プロセッサ210及びコア311−0は、方法766と同じ、同様の、または異なる、複数のオペレーション及び複数の方法の複数の実施形態を実行してもよい。
共有コア拡張(SCE)停止命令は、ブロック767において、複数のコアを有するプロセッサのコア内で受信される。様々な複数の態様では、SCE停止命令は、オフコアソースから(例えば、メインメモリ、ディスク、もしくはバスまたはインターコネクトから)コアで受信されてもよく、または、コア内の他のロジック(例えば、命令キャッシュ、キュー、スケジューリングロジック等)からコアの一部で(例えば、復号ロジック、スケジューリングロジック等で)受信されてもよい。SCE停止命令は、コアに、共有コア拡張ロジックに対して前になされた呼び出しを停止させるためのものである。共有コア拡張ロジックは、複数のコアにより共有される。SCE停止命令は、共有コア拡張コマンドレジスタを示す。
ブロック768において、SCE停止命令に応答して、共有コア拡張ロジックに対して前になされた呼び出しは、停止される。いくつかの実施形態では、呼び出しの停止は、前になされた呼び出しに対応する、及び/または示された共有コア拡張コマンドレジスタに対応する共有コア拡張ロジックによるデータ処理の中止を含んでもよい。いくつかの実施形態では、呼び出しの停止は、SCE停止命令によって示された、占められた共有コア拡張コマンドレジスタの解放をさらに含んでもよい。
いくつかの実施形態では、ブロックSCE呼び出し命令は、SCERCRの解放を待つためのタイムアウト値(例えば、サイクル数)を指定または示してもよく、呼び出しは、タイムアウトが経過した場合、フェールを戻してもよい フェールは、解放なくタイムアウトに達した場合、及び/またはタイムアウト経過前に完了していないコマンド実行の進行中にタイムアウトに達した場合のいずれかに発生し得る。非ブロック呼び出しでは、SCE待ち命令は、共有コア拡張実行に対してブロックするために用いられてもよい。SCE待ち命令は、同様に、共有コア拡張コマンドレジスタの解放を待つためのタイムアウト値(例えば、サイクル数)を含んでもよい。共有コア拡張コマンドレジスタの解放なしでタイムアウトが経過した場合、フェール、エラー等は、戻されてもよい。いくつかの実施形態では、ブロックSCE呼び出し命令及び/またはSCE待ち命令のタイムアウト値は、命令が指定し得る可変パラメータとして符号化されてもよい。他の複数の実施形態では、タイムアウトは、固定された暗示的な値であってもよい。いくつかの実施形態では、SCE待ち命令は、電力消費を削減するために、非ブロックSCE呼び出し命令と共に用いられてもよい。例えば、ブロックSCE呼び出し命令がブロックした場合、及び/またはSCE待ち命令がブロックした場合、物理的スレッドは、(行われることが望ましい他の作業がないと仮定して)選択的に中断され、関連するSCE呼び出しの完了時に共有コア拡張ロジックがこれを起こすまで、スリープ状態にされてもよい。しかしながら、これは選択的であり、必要ではない。さらに、ブロックSCE呼び出し命令及び/またはSCE待ち命令を介してタイムアウト値を示す上述のアプローチの他に、予期されないまたは望ましくない長期間にわたり実行する呼び出しまたはコマンドを停止するための他の複数の方法も、考慮される。
いくつかの実施形態では、SCEロジックは、コア0と同じ仮想メモリ上で動作してもよい。再び図3を参照すると、コア0 311−0は、メモリ管理ユニット(MMU)331を有する。MMUは、共有コア拡張MMUインターフェースロジック332を含む。MMU331は、共有コア拡張MMUインターフェースロジック332を除き、実質的に従来のものであってもよい。共有コア拡張ロジック314は、共有コア拡張MMU341を有する。SCE MMUは、コア0のページマッピングを、維持してもよい(例えば、仮想のまたはリニアなメモリから、コア0によってキャッシュまたは保持されるシステムメモリへの複数の変換をキャッシュまたは保持する)。コア0のTLBのものに対応する複数のTLBエントリの維持に加えて、SCE MMUは、複数のoコアの各々に対する複数のTLBエントリをさらに維持してもよい。共有コア拡張MMUは、コアMMUインターフェースロジック342を有する。共有コア拡張MMUインターフェースロジック332及びコアMMUインターフェースロジック342は、MMU331及び共有コア拡張MMU341の間で同期346を実行するために、互いにインターフェースをとる。いくつかの実施形態では、共有コア拡張MMUインターフェースロジック332及びコアMMUインターフェースロジック342は、ハードウェアメカニズム、またはMMU331及び共有コア拡張MMU341の同期に対するハードウェアサポートを表してもよい。
いくつかの実施形態では、MMU及びSCE MMU間の同期は、このページマッピングにおける整合を維持するために、実行されてもよい。例えば、ページがコア0によって無効化された場合、コア0は、コア0 MMUの対応するTLBエントリを無効化してもよい。いくつかの実施形態では、同期は、SCEロジックのSCE MMUに対する対応するTLBエントリも対応して無効化され得るコア0及びSCEロジックの間でも実行されてもよい。例として、コア0上で実行する物理的スレッドは、SCEロジックにシグナルを送るために共有コア拡張MMUインターフェースロジック332及びコアMMUインターフェースロジック342によって提供されるハードウェアインターフェースを用いることにより、プロセッサ上の複数のバスサイクルを介して対応するSCE MMUのTLBを無効化してもよい。すなわち、いくつかの実施形態では、共有コア拡張MMU341の同期は、コア0上で実行する物理的スレッド内からのハードウェアによって実行されてもよい。他の例として、スレッドがオペレーティングシステムによってスワップされた場合(例えば、コンテキストスイッチ)、SCEロジックは、スレッドと関連付けられたコンテキストが後で復元可能なように保存され得るように、コンテキストスイッチのシグナル及び/または通知を受けてもよい。いくつかの実施形態では、かかる同期シグナリングは、ハードウェアレベルで(例えば、ハードウェアメカニズムを介した複数のバスサイクルまたは複数のバストランザクションを介して)あってもよい。すなわち、同期は、ソフトウェアの関与を介して(例えば、オペレーティングシステムの関与なしで)ではなく、ハードウェアレベルで(例えば、MMU及びSCE MMUのハードウェア、ならびに複数のバストランザクションを介して)実行されてもよい。
いくつかの実施形態では、MMU331及び共有コア拡張MMU341は、共有コア拡張ロジックがコア0に対する複数の呼び出しを処理する場合に発生する複数のページフォルトに対してルーティングまたは通信を行うために、インターフェースロジック332、342を介してさらに連携してもよい。いくつかの実施形態では、共有コア拡張MMUは、コア0からの呼び出しを処理している間に発生したページフォルトをオペレーティングシステムに通知するために、コア0を用いてもよい。同様に、共有コア拡張MMUは、他の複数のコアからの複数の呼び出しを処理している間に発生した複数のページフォルトを、これらの他の複数のコアに通知してもよい。複数のコアは、複数のページフォルトをオペレーティングシステムに通知してもよい。オペレーティングシステムは、ページフォルトが、ページフォルトを与えたコアにおいてではなく、実際にSCEロジックにおいて発生したことを知る根拠を何ら有さない場合がある。いくつかの実施形態では、非ブロックSCE呼び出し命令に対して、コアに対してフォールトを指定する命令ポインタは、任意であってもよい。いくつかの実施形態では、ブロックSCE呼び出し命令に対して、フォールトした共有コア拡張ロジックのための命令ポインタは、呼び出したスレッドに対してフォールトされた呼び出しに対応するSCE呼び出し命令を指してもよい。
共有コア拡張ロジックは、処理をオフロードする当技術分野で公知の他の複数のアプローチよりも多数の利点を提供する。従来、複数のハードウェアアクセラレータ(例えば、複数のグラフィクス処理ユニット)等により、ソフトウェアベースのパラダイムが、複数のハードウェアアクセラレータと連携するために用いられる。複数のハードウェアアクセラレータは、一般に、複数のソフトウェアデバイスドライバにより管理される。システム複数の呼び出しは、複数のハードウェアアクセラレータの処理を用いるために、複数のアプリケーションが用いられる。ソフトウェア(例えば、オペレーティングシステム)の介在は、複数のコア上で実行する複数の異なるスレッドによるハードウェアアクセラレータの公平な利用を提供するために必要とされることが多い。かかる複数のハードウェアアクセラレータと比較して、共有コア拡張ロジックによれば、ドライバベースのハードウェアアクセラレータアクセスというソフトウェアパラダイムにシフトすることなく、共有コア拡張ロジック(例えば、複数の汎用コア)を用いる複数のコアの従来的なプログラミングパラダイムが可能となり得る。さらに、関連付けられた複数の物理的スレッドとしてSCEロジックが同じ仮想メモリ上で動作する複数の実施形態では、データコピー及び/またはデータマーシャリングに伴うオーバヘッドなしで、これが用いられることができる。さらに、ハードウェアアクセラレータと比較して、共有コア拡張ロジックは、概して、進捗度を進めるために、少量のオープンページを伴う。さらに、ハードウェアアクセラレータと比較して、共有コア拡張ロジックは、概して、コマンドをおおよそ非投機的なコアバスサイクルのレイテンシに実質的に送信するレイテンシオーバヘッドを低減する傾向がある。また、SCEロジックは、ソフトウェア(例えば、オペレーティングシステム)の介在によってではなく、複数のコアで実行する複数の異なるスレッド間で公平かつ分散された利用を提供するために、ハードウェアまたは他のオンプロセッサのロジックにおけるスケジューリングユニットを用いてもよい。
上述の説明では、図及び説明の単純さのために、複数の実施形態は、共有コア拡張ロジックの単一の例(例えば、ロジック214、ロジック314等)を示し、説明した。しかしながら、いくつかの実施形態では、1つより多くの共有コア拡張ロジックがあってもよい。各共有コア拡張ロジックか、同じ複数のコアまたは異なる複数のコアのいずれかであり得るとともに、複数のコアの全てまたは複数のコアのいくつかのいずれかであり得る複数のコアに共有されてもよい。
いくつかの実施形態では、複数の異なるタイプの共有コア拡張ロジック(例えば、複数の異なるタイプのデータ処理を実行する)は、複数のコアに含まれ、これらの間で共有されてもよい。他の複数の場合、同じ汎用的なタイプの共有コア拡張ロジックの複数の例は、複数のコアの全て(例えば、これらの複数のスレッド)に含まれ、その間で共有されてもよく、または各共有コア拡張ロジックは、複数のコアの合計数のサブセット(例えば、異なるサブセット)に共有されてもよい。当業者及び本開示の利益を有する者によれば理解されるように、様々な複数の構成が考慮される。
図5について説明された複数のコンポーネント、複数の特徴及び具体的な複数の詳細は、図3、4または6のものとともに用いられ得る。本明細書で説明された装置の複数の特徴及び/または複数の詳細も、装置により、及び/またはこれと共に実行される本明細書で説明された複数の方法に選択的に適用される。図3について説明された、例えば、複数のコンポーネント、複数の特徴及び具体的な複数の詳細は、図4または6のものと共に、選択的に用いられ得る。
[例示的な複数のコアアーキテクチャ、複数のプロセッサ及び複数のコンピュータアーキテクチャ]
複数のプロセッサコアは、異なる複数の態様で、異なる複数の目的で、及び複数の異なるプロセッサで、実装されてもよい。例えば、かかる複数のコアの複数の実装は、1)汎用コンピューティング向け汎用インオーダコア、2)汎用コンピューティング向け高性能汎用アウトオブオーダコア、3)主にグラフィクス及び/または科学的(スループット)コンピューティング向け特別用途コアを含んでもよい。複数の異なるプロセッサの複数の実装は、1)汎用コンピューティング向けの1つまたは複数の汎用インオーダコア及び/または汎用コンピューティング向けの1つまたは複数の汎用アウトオブオーダコアを含むCPU、ならびに2)主にグラフィクス及び/または科学的(スループット)用の1つまたは複数の特別用途コアを含むコプロセッサを含んでもよい。かかる複数の異なるプロセッサにより、1)CPUからの個別のチップ上のコプロセッサ、2)CPUと同じパッケージ内の個別のダイ上のコプロセッサ、3)CPUと同じダイ上のコプロセッサ(この場合、かかるコプロセッサは、場合により、集中画像表示及び/または科学的(スループット)ロジックのような特別用途ロジック、または特別用途コアと称される)、及び4)説明されたCPU(場合によりアプリケーションコアまたはアプリケーションプロセッサと称される)、上述のコプロセッサ及びさらなる機能性を同じダイ上に含み得るチップ上のシステムを含み得る、異なる複数のコンピュータシステムアーキテクチャが構成される。次に、例示的な複数のコアアーキテクチャが説明され、続いて、例示的な複数のプロセッサ及び複数のコンピュータアーキテクチャが説明される。
[例示的な複数のコアアーキテクチャ]
[インオーダ及びアウトオブオーダコアのブロック図] 図8Aは、本発明の複数の実施形態に係る例示的なインオーダパイプライン及び例示的なレジスタリネーミング、アウトオブオーダ発行/実行パイプラインの両方を示すブロック図である。図8Bは、本発明の複数の実施形態に係るプロセッサに含まれるべきインオーダアーキテクチャコアの例示的な実施形態及び例示的なレジスタリネーミング、アウトオブオーダ発行/実行アーキテクチャコアの両方を示すブロック図である。図面8A−Bの複数の実線のボックスは、インオーダパイプライン及びインオーダコアを示し、選択的に追加された複数の破線のボックスは、レジスタリネーミング、アウトオブオーダ発行/実行パイプライン及びコアを示す。インオーダ態様がアウトオブオーダ態様のサブセットであるため、アウトオブオーダ態様について説明する。
図8Aでは、プロセッサパイプライン800は、フェッチステージ802、長さ復号ステージ804、復号ステージ806、アロケーションステージ808、リネームステージ810、スケジューリング(ディスパッチまたは発行としても知られる)ステージ812、レジスタ読み出し/メモリ読み出しステージ814、実行ステージ816、ライトバック/メモリ書き込みステージ818、例外ハンドリングステージ822及びコミットステージ824を含む。
図8Bは、実行エンジンユニット850に連結されるフロントエンドユニット830を含むプロセッサコア890を示し、両方ともメモリユニット870に連結される。コア890は、縮小命令セットコンピュータ(RISC)コア、複合命令セットコンピュータ(CISC)コア、超長命令語(VLIW)コアもしくはハイブリッドまたは代替的なコアタイプであってもよい。さらに他のオプションとして、コア890は、例えば、ネットワークまたは通信コア、圧縮エンジン、コプロセッサコア、汎用演算グラフィクス処理ユニット(GPGPU)コア、グラフィクスコアなどのような特別用途コアであってもよい。
フロントエンドユニット830は、命令キャッシュユニット834に連結された分岐予測ユニット832を含み、命令キャッシュユニット834は、命令トランスレーションルックアサイドバッファ(TLB)836に連結され、TLB836は、命令フェッチユニット838に連結され、命令フェッチユニット838は、復号ユニット840に連結される。復号ユニット840(またはデコーダ)は、複数の命令を復号化し、出力として、1つまたは複数のマイクロオペレーション、マイクロコードエントリポイント、マイクロ命令、他の命令もしくは元の複数の命令から復号化された、またはこれらを他の方法で反映する、またはこれらから導出された他の制御信号を生成してもよい。復号ユニット840は、複数の様々な異なるメカニズムを用いて実装されてもよい。適した複数のメカニズムの例は、限定されるものではないが、ルックアップテーブル、ハードウェア実装、プログラマブルロジックアレイ(PLA)、マイクロコード読み出し専用メモリ(ROM)等を含む。一実施形態では、コア890は、マイクロコードROMまたは(例えば、復号ユニット840で、またはフロントエンドユニット830内で)特定の複数のマクロ命令に対するマイクロコードを格納する他のメディアを含む。復号ユニット840は、実行エンジンユニット850内のリネーム/アロケータユニット852に連結される。
実行エンジンユニット850は、リタイアメントユニット854及び1つまたは複数のスケジューラユニット856のセットに連結されたリネーム/アロケータユニット852を含む。スケジューラユニット856は、複数の予約ステーション、中央命令ウィンドウ等を含む任意の数の異なるスケジューラを表す。スケジューラユニット856は、物理レジスタファイルユニット858に連結される。各物理レジスタファイルユニット858は、1つまたは複数の物理レジスタファイルを表し、異なる物理レジスタファイルが、スカラ整数、スカラ浮動小数点、パック型整数、パック型浮動小数点、ベクトル整数、ベクトル浮動小数点、ステータス(例えば、次に実行されるべき命令のアドレスである命令ポインタ)等の、1つまたは複数の異なるデータ型を格納する。一実施形態では、物理レジスタファイルユニット858は、ベクトルレジスタユニット、書き込みマスクレジスタユニット及びスカラレジスタユニットを備える。これらの複数のレジスタユニットは、複数のアーキテクチャベクトルレジスタ、複数のベクトルマスクレジスタ及び複数の汎用レジスタを提供してもよい。物理レジスタファイルユニット858は、リタイアメントユニット854にオーバラップされることにより、レジスタリネーミング及びアウトオブオーダ実行が実装され得る様々な複数の態様(例えば、リオーダバッファ及びリタイアメントレジスタファイルを用いて、フューチャファイル、ヒストリバッファ及びリタイアメントレジスタファイルを用いて、レジスタマップ及び複数のレジスタのプールを用いて、等)を示す。リタイアメントユニット854及び物理レジスタファイルユニット858は、実行クラスタ860に連結される。実行クラスタ860は、1つまたは複数の実行ユニット862のセット及び1つまたは複数のメモリアクセスユニット864のセットを含む。複数の実行ユニット862は、複数の様々な型のデータ(例えば、スカラ浮動小数点、パック型整数、パック型浮動小数点、ベクトル整数、ベクトル浮動小数点)に対して、様々な複数のオペレーション(例えば、複数のシフト、加算、減算、乗算)を実行してもよい。いくつかの実施形態は、特定の複数の機能または複数の機能の複数のセット専用の多数の実行ユニットを含んでもよく、複数の他の実施形態は、1つだけの実行ユニットを、または、全ての機能を全てが実行する複数の実行ユニットを含んでもよい。スケジューラユニット856、物理レジスタファイルユニット858及び実行クラスタ860は、場合によっては複数として示されるが、その理由は、特定の複数の実施形態は、特定の複数のデータ型/複数のオペレーション(例えば、各々が自己のスケジューラユニット、物理レジスタファイルユニット及び/または実行クラスタを有するスカラ整数パイプライン、スカラ浮動小数点/パック型整数/パック型浮動小数点/ベクトル整数/ベクトル浮動小数点パイプライン及び/またはメモリアクセスパイプライン、及び、個別のメモリアクセスパイプラインの場合、このパイプラインの実行クラスタのみがメモリアクセスユニット864を有する特定の複数の実施形態が実装される)に対して個別の複数のパイプラインを形成するからである。個別の複数のパイプラインが用いられる場合、これらのパイプラインのうちの1つまたは複数がアウトオブオーダ発行/実行であり、残りがインオーダであってもよいことも理解されたい。
メモリアクセスユニット864のセットは、データTLBユニット872を含むメモリユニット870に連結され、データTLBユニット872は、データキャッシュユニット874に連結され、データキャッシュユニット874は、二次(L2)キャッシュユニット876に連結される。例示的な一実施形態では、メモリアクセスユニット864は、ロードユニット、ストアアドレスユニット及びストアデータユニットを含んでもよく、これらのそれぞれは、メモリユニット870内のデータTLBユニット872に連結される。命令キャッシュユニット834は、メモリユニット870内の二次(L2)キャッシュユニット876にさらに連結される。L2キャッシュユニット876は、1つまたは複数の他のレベルのキャッシュ、及び最終的にはメインメモリに連結される。
例として、例示的なレジスタリネーミング、アウトオブオーダ発行/実行コアアーキテクチャは、パイプライン800を以下のとおり実装してもよい。1)命令フェッチ838が、フェッチステージ802及び長さ復号ステージ804を実行し、2)復号ユニット840が、復号ステージ806を実行し、3)リネーム/アロケータユニット852が、アロケーションステージ808及びリネームステージ810を実行し、4)スケジューラユニット856が、スケジューリングステージ812を実行し、5)物理レジスタファイルユニット858及びメモリユニット870が、レジスタ読み出し/メモリ読み出しステージ814を実行し、実行クラスタ860が、実行ステージ816を実行し、6)メモリユニット870及び物理レジスタファイルユニット858が、ライトバック/メモリ書き込みステージ818を実行し、7)様々な複数のユニットが、例外ハンドリングステージ822に関与してもよく、かつ8)リタイアメントユニット854及び物理レジスタファイルユニット858が、コミットステージ824を実行する。
コア890は、本明細書で説明された命令を含む1つまたは複数の命令セット(例えば、x86命令セット(複数のより新しいバージョンに追加されたいくつかの拡張を有する)、カリフォルニア州サニーベールのMIPSテクノロジーズのMIPS命令セット、カリフォルニア州サニーベールのARMホールディングスのARM命令セット(NEONなどの複数の選択的なさらなる拡張を有する))をサポートしてもよい。一実施形態では、コア890は、パックドデータ命令セット拡張(例えば、AVX1、AVX2)をサポートするロジックを含むことによって、多くのマルチメディアアプリケーションによって用いられる複数のオペレーションが、パックドデータを用いて実行される。
理解されるべきことは、コアは、マルチスレッディング(複数のオペレーションまたは複数のスレッドの2つまたはそれより多くの並列セットを実行すること)をサポートしてもよく、時分割マルチスレッディング、同時マルチスレッディング(単一の物理的コアが複数のスレッドのそれぞれに対して論理的コアを提供することにより、物理的コアが同時マルチスレッディングを実行すること)またはこれらの組み合わせ(例えば、時分割フェッチ及び復号化、その後、インテル(登録商標)ハイパースレッディング・テクノロジーなどでの同時マルチスレッディング)を含む様々な態様で、マルチスレッディングを実行してもよい。
レジスタリネーミングは、アウトオブオーダ実行のコンテキストで説明されるが、理解されるべきことは、レジスタリネーミングは、インオーダアーキテクチャで用いられてもよい。プロセッサの例示された実施形態は、個別の命令キャッシュユニット834及びデータキャッシュユニット874と共有のL2キャッシュユニット876とをさらに含むが、代替的な複数の実施形態は、例えば、一次(L1)内部キャッシュまたは複数のレベルの内部キャッシュのような、複数の命令及びデータの両方のための単一の内部キャッシュを有してもよい。いくつかの実施形態では、システムは、内部キャッシュとコア及び/またはプロセッサの外部にある外部キャッシュとの組み合わせを含んでもよい。代替的に、全てのキャッシュは、コア及び/またはプロセッサの外部にあってもよい。
[具体的な、例示的なインオーダコアアーキテクチャ]
図9A−Bは、より具体的な、例示的なインオーダコアアーキテクチャのブロック図を示し、ここで、コアは、チップ内のいくつかのロジックブロック(同じタイプ及び/または複数の異なるタイプの他の複数のコアを含む)の中の1つであってもよい。複数のロジックブロックは、用途に応じて、高帯域幅インターコネクトネットワーク(例えば、リングネットワーク)を介して、いくつかの固定機能ロジック、メモリI/Oインターフェース及び他の必要なI/Oロジックと通信を行う。
図9Aは、本発明の複数の実施形態に係る単一のプロセッサコアのブロック図であり、オンダイインターコネクトネットワーク902との接続及び二次(L2)キャッシュローカルサブセット904と共に示される。一実施形態では、命令デコーダ900は、パックドデータ命令セット拡張を有するx86命令セットをサポートする。L1キャッシュ906によれば、スカラ及びベクトルユニットに対して、キャッシュメモリへの低レイテンシアクセスが可能である。一実施形態では(設計の単純化のために)、スカラユニット908及びベクトルユニット910は、個別のレジスタセット(それぞれ、複数のスカラレジスタ912及び複数のベクトルレジスタ914)を用い、これらの間で転送されるデータは、一次(L1)キャッシュ906のメモリに書き込まれてから再読み出しされるが、本発明の代替的な複数の実施形態は、異なるアプローチ(例えば、単一のレジスタセットを用いる、または書き込み及び再読み出しを行うことなく、2つのレジスタファイル間でデータを転送させる通信パスを含む)を用いてもよい。
L2キャッシュローカルサブセット904は、プロセッサコアあたり1つの個別のローカルサブセットに分割されるグローバルL2キャッシュの一部である。各プロセッサコアは、自己のL2キャッシュローカルサブセット904に対するダイレクトアクセスパスを有する。プロセッサコアに読み出されたデータは、自己のL2キャッシュサブセット904に格納され、迅速かつ、自己の複数のローカルL2キャッシュサブセットにアクセスする他の複数のプロセッサコアと並列に、アクセスされることができる。プロセッサコアに書き込まれたデータは、自己のL2キャッシュサブセット904に格納され、必要な場合には、他の複数のサブセットからフラッシュされる。リングネットワークは、共有のデータに対するコヒーレンシを保証する。リングネットワークが双方向であることにより、複数のプロセッサコア、複数のL2キャッシュ及び他の複数のロジックブロックなどの複数のエージェントは、チップ内で互いに通信を行うことができる。各リングデータパスは、1方向あたり1012ビット幅である。
図9Bは、本発明の複数の実施形態に係る図9Aのプロセッサコアの一部の拡大図である。図9Bは、L1キャッシュ906の一部であるL1データキャッシュ906Aと、併せて、ベクトルユニット910及び複数のベクトルレジスタ914に関するさらなる詳細とを含む。具体的には、ベクトルユニット910は、整数、単精度浮動及び倍精度浮動命令のうちの1つまたは複数を実行する16幅ベクトル処理ユニット(VPU)(16幅ALU928を参照)である。VPUは、再構成ユニット920による複数のレジスタ入力の再構成、数字変換ユニット922A−Bによる数字変換、及び複製ユニット924によるメモリ入力に対する複製をサポートする。複数の書き込みマスクレジスタ926によれば、結果の複数のベクトル書き込みを記述することができる。
[集積メモリコントローラ及びグラフィクスを有するプロセッサ]
図10は、本発明の複数の実施形態に係るプロセッサ1000のブロック図である。1つより多くのコアを有してもよく、集積メモリコントローラを有してもよく、集中画像表示を有してもよい。図10の複数の実線のボックスは、単一のコア1002A、システムエージェント1010、1つまたは複数のバスコントローラユニット1016のセットを有するプロセッサ1000を示し、選択的に追加された複数の破線のボックスは、複数のコア1002A−Nを有する代替的なプロセッサ1000、システムエージェントユニット1010内の1つまたは複数の集積メモリコントローラユニット1014のセット及び特別用途ロジック1008を示す。
したがって、プロセッサ1000の異なる複数の実装は、1)集中画像表示及び/または科学的(スループット)ロジック(1つまたは複数のコアを含んでもよい)である特別用途ロジック1008を有するCPU、及び1つまたは複数の汎用コア(例えば、汎用インオーダコア、汎用アウトオブオーダコア、この2つの組み合わせ)であるコア1002A−N、2)主にグラフィクス及び/または科学的(スループット)用として意図された多数の特別用途コアであるコア1002A−Nを有するコプロセッサ、及び3)多数の汎用インオーダコアであるコア1002A−Nを有するコプロセッサを含んでもよい。したがって、プロセッサ1000は、汎用プロセッサ、コプロセッサまたは、例えば、ネットワークまたは通信プロセッサ、圧縮エンジン、グラフィクスプロセッサ、GPGPU(汎用グラフィクス処理ユニット)、ハイスループット多集積コア(MIC)コプロセッサ(30またはそれより多くのコアを含む)、組み込みプロセッサ等のような特別用途プロセッサであってもよい。プロセッサは、1つまたは複数のチップ上に実装されてもよい。プロセッサ1000は、例えば、BiCMOS、CMOSまたはNMOSなどの多数の処理技術のいずれかを用いて、1つまたは複数の基板の一部であってもよく、及び/またはその上に実装されてもよい。
メモリ階層は、複数のコア、1つまたは複数の共有キャッシュユニット1006またはそのセット、及び複数の集積メモリコントローラユニット1014のセットに連結される外部メモリ(不図示)内に、1つまたは複数のレベルのキャッシュを含む。複数の共有キャッシュユニット1006のセットは、二次(L2)、三次(L3)、四次(L4)または他の複数のレベルのキャッシュなどの1つまたは複数の中レベルキャッシュ、ラストレベルキャッシュ(LLC)及び/またはこれらの組み合わせを含んでもよい。一実施形態では、リングベースのインターコネクトユニット1012が、集中画像表示ロジック1008、複数の共有キャッシュユニット1006のセット及びシステムエージェントユニット1010/集積メモリコントローラユニット1014をインターコネクトするが、代替的な複数の実施形態は、かかる複数のユニットをインターコネクトするための任意の数の周知技術を用いてもよい。一実施形態では、1つまたは複数のキャッシュユニット1006と複数のコア1002A−Nとの間で、コヒーレンシが維持される。
いくつかの実施形態では、複数のコア1002A−Nのうちの1つまたは複数は、マルチスレッディングが可能である。システムエージェント1010は、複数のコア1002A−Nの調整及び操作を行うこれらの複数のコンポーネントを含む。システムエージェントユニット1010は、例えば、電力制御ユニット(PCU)及びディスプレイユニットを含んでもよい。PCUは、複数のコア1002A−N及び集中画像表示ロジック1008の電力状態を調整するために必要なロジック及び複数のコンポーネントであってもよく、またはこれらを含んでもよい。ディスプレイユニットは、1つまたは複数の外部接続ディスプレイを駆動するためのものである。
複数のコア1002A−Nは、アーキテクチャ命令セットに関してホモジニアスまたはヘテロジニアスであってもよく、すなわち、複数のコア1002A−Nのうちの2つまたはそれより多くは、同じ命令セットを実行可能であってもよいが、他は、その命令セットまたは異なる命令セットのサブセットのみを実行可能であってもよい。
[例示的な複数のコンピュータアーキテクチャ]
図11−14は、例示的な複数のコンピュータアーキテクチャのブロック図である。複数のラップトップ、複数のデスクトップ、複数のハンドヘルド型PC、複数の携帯情報端末、複数のエンジニアリングワークステーション、複数のサーバ、複数のネットワークデバイス、複数のネットワークハブ、複数のスイッチ、複数の組み込みプロセッサ、複数のデジタルシグナルプロセッサ(DSP)、複数のグラフィクスデバイス、複数のビデオゲームデバイス、複数のセットトップボックス、複数のマイクロコントローラ、複数の携帯電話、複数のポータブルメディアプレイヤ、複数のハンドヘルドデバイス及び様々な他の複数の電子デバイス用の当技術分野で公知の他の複数のシステム設計及び複数の構成も、適している。概して、本明細書で開示されるように、プロセッサ及び/または他の実行ロジックを組み込み可能な多様な複数のシステムまたは複数の電子デバイスが、概して適している。
ここで、図11を参照すると、本発明の一実施形態に係るシステム1100のブロック図が示される。システム1100は、コントローラハブ1120に連結される1つまたは複数のプロセッサ1110、1115を含んでもよい。一実施形態では、コントローラハブ1120は、(個別のチップ上にあってもよい)グラフィクスメモリコントローラハブ(GMCH)1190及び入出力ハブ(IOH)1150を含み、GMCH1190は、メモリ1140及びコプロセッサ1145が連結されるメモリ及び複数のグラフィクスコントローラを含み、IOH1150は、複数の入出力(I/O)デバイス1160をGMCH1190に連結する。代替的に、メモリ及び複数のグラフィクスコントローラの一方または両方は、プロセッサ内に集積され(本明細書で説明されたように)、メモリ1140及びコプロセッサ1145は、プロセッサ1110に直接連結され、コントローラハブ1120は、単一のチップにIOH1150を有する。
追加のプロセッサ1115の選択的な性質が、図11に複数の破線で示される。各プロセッサ1110、1115は、本明細書で説明された複数のプロセッサコアのうちの1つまたは複数を含んでもよく、いくつかのバージョンのプロセッサ1000であってもよい。
メモリ1140は、例えば、ダイナミックランダムアクセスメモリ(DRAM)、位相変化メモリ(PCM)またはこれら2つの組み合わせであってもよい。少なくとも1つの実施形態について、コントローラハブ1120は、フロントサイドバス(FSB)のようなマルチドロップバス、クイックパスインターコネクト(QPI)のようなポイントツーポイントインターフェースまたは同様の接続1195を介して、プロセッサ1110、1115と通信を行う。
一実施形態では、コプロセッサ1145は、例えば、ハイスループットMICプロセッサ、ネットワークまたは通信プロセッサ、圧縮エンジン、グラフィクスプロセッサ、GPGPU、組み込みプロセッサ等のような特別用途プロセッサである。一実施形態では、コントローラハブ1120は、集中画像表示アクセラレータを含んでもよい。
物理的リソース1110、1115の間には、アーキテクチャ、マイクロアーキテクチャ、温度、電力消費の特性等を含む様々な利益の基準に関して、様々な違いが存在しうる。
一実施形態では、プロセッサ1110は、一般的なタイプの複数のデータ処理オペレーションを制御する複数の命令を実行する。複数の命令内に、複数のコプロセッサ命令が組み込まれていてもよい。プロセッサ1110は、これらの複数のコプロセッサ命令を、取り付けられたコプロセッサ1145によって実行されるべきタイプのものと認識する。従って、プロセッサ1110は、これらの複数のコプロセッサ命令(または複数のコプロセッサ命令を表す複数の制御信号)を、コプロセッサバスまたは他のインターコネクト上で、コプロセッサ1145に対して発行する。コプロセッサ1145は、受信された複数のコプロセッサ命令を受け付けて実行する。
ここで、図12を参照すると、本発明の実施形態に係る第1のより具体的な、例示的なシステム1200のブロック図が示される。図12に示されるように、マルチプロセッサシステム1200は、ポイントツーポイントインターコネクトシステムであり、ポイントツーポイントインターコネクト1250を介して連結される第1のプロセッサ1270及び第2のプロセッサ1280を含む。
プロセッサ1270および1280の各々は、いくつかのバージョンのプロセッサ1000であってもよい。本発明の一実施形態では、プロセッサ1270および1280は、それぞれプロセッサ1110および1115であり、コプロセッサ1238は、コプロセッサ1145である。他の実施形態では、プロセッサ1270および1280は、それぞれプロセッサ1110、コプロセッサ1145である。
プロセッサ1270および1280は、集積メモリコントローラ(IMC)ユニット1272および1282をそれぞれ含むものとして示される。プロセッサ1270は、自己の複数のバスコントローラユニットの一部として、ポイントツーポイント(P−P)インターフェース1276および1278をさらに含み、同様に、第2のプロセッサ1280は、P−Pインターフェース1286および1288を含む。プロセッサ1270、1280は、P−Pインターフェース回路1278、1288を用いたポイントツーポイント(P−P)インターフェース1250を介して、情報を交換してもよい。図12に示されるように、IMC1272および1282は、複数のプロセッサを個別のメモリ、すなわち、個別のプロセッサにローカルに取り付けられたメインメモリの一部となり得るメモリ1232及びメモリ1234に連結する。
複数のプロセッサ1270、1280の各々は、複数のポイントツーポイントインターフェース回路1276、1294、1286、1298を用いる個々のP−Pインターフェース1252、1254を介して、チップセット1290と情報を交換してもよい。チップセット1290は、高性能インターフェース1239を介して、コプロセッサ1238と選択的に情報を交換してもよい。一実施形態では、コプロセッサ1238は、例えば、ハイスループットMICプロセッサ、ネットワークまたは通信プロセッサ、圧縮エンジン、グラフィクスプロセッサ、GPGPU、組み込みプロセッサ等のような特別用途プロセッサである。
共有キャッシュ(不図示)は、いずれかのプロセッサの内部に含まれ、または両方のプロセッサの外部にあってもよいが、プロセッサが低電力モードであっても、いずれかまたは両方のプロセッサのローカルキャッシュ情報が共有キャッシュに格納され得るように、P−Pインターコネクトを介して複数のプロセッサに接続される。
チップセット1290は、インターフェース1296を介して、第1のバス1216に連結されてもよい。一実施形態では、第1のバス1216は、ペリフェラルコンポーネントインターコネクト(PCI)バスもしくはPCI Expressバスまたは他の第3世代I/Oインターコネクトバスなどのバスであってもよいが、本発明の範囲はこれに限定されない。
図12に示されるように、様々なI/Oデバイス1214が、第1のバス1216を第2のバス1220に連結するバスブリッジ1218と共に、第1のバス1216に連結されてもよい。一実施形態では、複数のコプロセッサ、複数のハイスループットMICプロセッサ、GPGPUの複数のアクセラレータ(例えば、複数のグラフィクスアクセラレータまたは複数のデジタル信号処理(DSP)ユニットなど)、複数のフィールドプログラマブルゲートアレイもしくは任意の他のプロセッサなどの1つまたは複数の追加のプロセッサ1215が、第1のバス1216に連結される。一実施形態では、第2のバス1220は、ローピンカウント(LPC)バスであってもよい。例えば、キーボード及び/またはマウス1222、複数の通信デバイス1227、及びディスクドライブ、または複数の命令/コード及びデータ1230を含みうる他の大容量ストレージデバイスなどの記憶ユニット1228を含む様々な複数のデバイスが、一実施形態では、第2のバス1220に連結されてもよい。さらに、オーディオI/O1224が、第2のバス1220に連結されてもよい。なお、他の複数のアーキテクチャが、適用可能である。例えば、図12のポイントツーポイントアーキテクチャの代わりに、システムは、マルチドロップバスまたは他のかかるアーキテクチャを実装してもよい。
ここで、図13を参照すると、本発明の実施形態に係る第2のより具体的な、例示的なシステム1300のブロック図が示される。図12及び13における同様の複数の要素には、同様の参照番号が付され、図12の複数の特定の態様は、図13の他の複数の態様への妨げとならないよう、図13では省略されている。
図13は、プロセッサ1270、1280が、それぞれ集積メモリ及びI/O制御ロジック(「CL」)1272及び1282を含んでもよいことを示す。したがって、CL1272、1282は、複数の集積メモリコントローラユニットを含み、かつ、I/O制御ロジックを含む。図13は、メモリ1232、1234のみがCL1272、1282に連結されるのではなく、複数のI/Oデバイス1314も、複数の制御ロジック1272、1282に連結されることを示す。複数のレガシーI/Oデバイス1315は、チップセット1290に連結される。
ここで、図14を参照すると、本発明の実施形態に係るSoC1400のブロック図が示される。図10における同様の複数の要素には、同様の参照番号が付される。また、複数の破線のボックスは、より進化した複数のSoC上の選択的な機能である。図14では、インターコネクトユニット1402は、1つまたは複数のコア202A−N及び共有キャッシュユニット1006のセットを含むアプリケーションプロセッサ1410、システムエージェントユニット1010、バスコントローラユニット1016、集積メモリコントローラユニット1014、集中画像表示ロジック、画像プロセッサ、オーディオプロセッサ及びビデオプロセッサを含み得る1つまたは複数のコプロセッサ1420またはそのセット、スタティックランダムアクセスメモリ(SRAM)ユニット1430、ダイレクトメモリアクセス(DMA)ユニット1432及び1つまたは複数の外部ディスプレイに連結するためのディスプレイユニット1440に連結される。一実施形態では、コプロセッサ1420は、例えば、ネットワークまたは通信プロセッサ、圧縮エンジン、GPGPU、ハイスループットMICプロセッサ、組み込みプロセッサ等のような特別用途プロセッサを含む。
本明細書に開示される複数のメカニズムの複数の実施形態は、ハードウェア、ソフトウェア、ファームウェアまたはそのかかる複数の実装アプローチの組み合わせで実装されてもよい。本発明の複数の実施形態は、少なくとも1つのプロセッサ、ストレージシステム(揮発性及び不揮発性メモリ及び/または複数のストレージ要素を含む)、少なくとも1つの入力デバイスおよび少なくとも1つの出力デバイスを備える複数のプログラマブルシステム上で実行する複数のコンピュータプログラムまたはプログラムコードとして実装されてもよい。
図12に示すコード1230などのプログラムコードは、本明細書で説明された複数の機能を実行し、出力情報を生成するために、複数の入力命令に適用されてもよい。出力情報は、1つまたは複数の出力デバイスに、公知の態様で適用されてもよい。この適用のために、処理システムは、例えば、デジタルシグナルプロセッサ(DSP)、マイクロコントローラ、特別用途集積回路(ASIC)またはマイクロプロセッサなどのプロセッサを有する任意のシステムを含む。
プログラムコードは、処理システムと通信を行うために、高水準の手順型またはオブジェクト指向プログラミング言語で実装されてもよい。プログラムコードは、望ましい場合は、アセンブリ言語または機械言語でさらに実装されてもよい。実際には、本明細書で説明された複数のメカニズムは、その範囲において、任意の特定のプログラム言語に限定されるものではない。いずれの場合であっても、言語は、コンパイル言語またはインタプリタ型言語であってもよい。
少なくとも1つの実施形態のうち1つまたは複数の態様は、機械可読媒体に格納された、プロセッサ内の様々なロジックを表す複数の表現命令によって実装されてもよく、このような命令は、機械に読み出された場合に、本明細書で説明される複数の技術を実行するべく、機械にロジックを組み立てさせる。「IPコア」として知られるかかる複数の表現は、有形の機械可読媒体上に格納され、様々な複数の顧客または製造工場に供給されて、実際にロジックまたはプロセッサを作り出す複数の製造機械に読み込まれてもよい。
かかる機械可読記憶媒体は、限定的ではないが、複数のハードディスク、複数のフロッピー(登録商標)ディスク、複数の光ディスク、複数のコンパクトディスク読み出し専用メモリ(CD−ROM)、複数の書き換え可能コンパクトディスク(CD−RW)及び複数の磁気光ディスクを含む任意の他のタイプのディスク、複数の読み出し専用メモリ(ROM)などの複数の半導体デバイス、複数のダイナミックランダムアクセスメモリ(DRAM)、複数のスタティックランダムアクセスメモリ(SRAM)、複数の消去可能プログラマブルROM(EPROM)、複数のフラッシュメモリ、複数の消去可能プログラマブルROM(EEPROM)、位相変化メモリ(PCM)、複数の磁気または光カードなどの複数のランダムアクセスメモリ(RAM)、もしくは複数の電子的命令を格納するために適した任意の他のタイプのメディアなどの記憶媒体を含む、機械またはデバイスによって製造または形成される複数の物品の非一時的かつ有形の複数の構成を含んでもよい。
従って、本発明の複数の実施形態は、複数の命令を含む、または本明細書で説明される複数の構造、複数の回路、複数の装置、複数のプロセッサ及び/または複数のシステム機能を定義するハードウェア記述言語(HDL)などの設計データを含む非一時的かつ有形の機械可読媒体をさらに含む。かかる複数の実施形態は、複数のプログラム製品と称されてもよい。
[エミュレーション(バイナリ変換、コードモーフィング等を含む)]
場合によっては、命令変換器は、ソース命令セットからターゲット命令セットへと命令を変換するために用いられてもよい。例えば、命令変換器は、命令をコアによって処理されるべき1つまたは複数の他の命令に、(例えば、静的バイナリ変換、動的コンパイルを含む動的バイナリ変換を用いて)変換、モーフィング、エミュレートまたは他の方法で変換してもよい。命令変換器は、ソフトウェア、ハードウェア、ファームウェアまたはこれらの組み合わせで実装されてもよい。命令変換器は、プロセッサ上にあってもよく、プロセッサ外にあってもよく、または一部がプロセッサ上かつ一部がプロセッサ外にあってもよい。
図15は、ソース命令セットの複数のバイナリ命令をターゲット命令セットの複数のバイナリ命令に変換する、本発明の複数の実施形態に係るソフトウェア命令変換器の利用を対比したブロック図である。図示された実施形態では、命令変換器は、ソフトウェア命令変換器であるが、代替的に、命令変換器は、ソフトウェア、ファームウェア、ハードウェアまたはこれらの様々な複数の組み合わせで実装されてもよい。図15は、少なくとも1つのx86命令セットコア1516を有するプロセッサによって本来的に実行され得るx86バイナリコード1506を生成するために、x86コンパイラ1504を用いてコンパイルされ得る高水準言語1502のプログラムを示す。少なくとも1つのx86命令セットコア1516を有するプロセッサは、少なくとも1つのx86命令セットコアを有するインテル社製プロセッサと実質的に同じ結果を出すために、(1)インテル社製x86命令セットコアの命令セットの大部分、もしくは(2)複数のアプリケーションの複数のオブジェクトコードバージョンまたは少なくとも1つのx86命令セットコアを有するインテル社製プロセッサ上で実行することが想定された他のソフトウェアを互換可能に実行または他の方法で処理することにより、少なくとも1つのx86命令セットコアを有するインテル社製プロセッサと実質的に同じ複数の機能を実行可能な任意のプロセッサを表す。x86コンパイラ1504は、さらなるリンク処理の有無に関わらず、少なくとも1つのx86命令セットコアを有するプロセッサ1516上で実行可能なx86バイナリコード1506(例えば、オブジェクトコード)を生成するように動作可能なコンパイラを表す。同様に、図15は、少なくとも1つのx86命令セットコアを有さないプロセッサ1514(例えば、カリフォルニア州サニーベールのMIPSテクノロジーズ(MIPS Technologies)のMIPS命令セットを実行する、及び/またはカリフォルニア州サニーベールのARMホールディングス(ARM Holdings)のARM命令セットを実行する複数のコアを有するプロセッサ)によって本来的に実行され得る、代替的な命令セットバイナリコード1510を生成するべく、代替的な命令セットコンパイラ1508を用いてコンパイルされ得る高水準言語1502のプログラムを示す。命令変換器1512は、x86バイナリコード1506を、x86命令セットコアを有さないプロセッサ1514によって本来的に実行され得るコードに変換するために用いられる。この変換されたコードは、これが可能な命令変換器の製造が難しいため、代替的な命令セットバイナリコード1510と同じとなる可能性は低いが、しかしながら、変換されたコードは、全般的なオペレーションを達成し、代替的な命令セットからの複数の命令により補完される。したがって、命令変換器1512は、エミュレーション、シミュレーションまたは任意の他の処理を介して、プロセッサもしくはx86命令セットプロセッサまたはコアを有さない他の電子デバイスにx86バイナリコード1506を実行させるソフトウェア、ファームウェア、ハードウェアまたはこれらの組み合わせを表す。
説明及び特許請求の範囲では、「連結」及び/または「接続」という複数の用語が、これらの複数の派生語と共に用いられている。理解されるべきことは、これらの複数の用語は、互いの類義語として意図されるものではない。むしろ、複数の特定の実施形態では、「接続」は、2つまたはそれより多くの要素が、互いに直接物理的にまたは電気的に接触することを示すために用いられてもよい。「連結」は、2つまたはそれより多くの要素が、直接物理的にまたは電気的に接触することを意味してもよい。しかしながら、「連結」は、2つまたはそれより多くの要素が、互いに直接接触しないものの、互いに連動または連携することをさらに意味してもよい。例えば、実行ユニットは、1つまたは複数の介在コンポーネントを介して、レジスタまたはデコーダと連結されてもよい。複数の図において、複数の矢印は、複数の連結及び/または複数の接続を示すために用いられる。
説明及び特許請求の範囲では、「ロジック」という用語が用いられてもよい。本明細書で用いられる場合において、ロジックという用語は、ハードウェア、ファームウェア、ソフトウェアまたはこれらの様々な複数の組み合わせを含んでもよい。ロジックの複数の例は、集積回路、複数の特別用途集積回路、複数のアナログ回路、複数のデジタル回路、複数のプログラムされたロジックデバイス、複数の命令を含む複数のメモリデバイス等を含む。いくつかの実施形態では、ロジックは、複数のトランジスタ及び/または複数のゲートを、潜在的には(例えば、複数の半導体材料に組み込まれた)他の複数の回路コンポーネントと共に含んでもよい。
上述の説明では、複数の実施形態への十分な理解を提供するために、具体的な複数の詳細が示された。しかしながら、他の複数の実施形態は、これらの具体的な複数の詳細のいくつかによらずに実施可能である。本発明の範囲は、上述された具体的な複数の例によって決定されるものではなく、以下の特許請求の範囲によってのみ決定される。複数の図面に示され、明細書で説明されたものへの全ての等しい関係は、複数の実施形態内に包含される。他の複数の例では、周知の複数の回路、複数の構造、複数のデバイス及び複数のオペレーションが、ブロック図の形で、または説明に対する理解の妨げとならないよう、詳細は省略して示されている。複数のコンポーネントが示されているいくつかの場合では、これらは、単一のコンポーネントに集積されてもよい。単一のコンポーネントが示され、説明されているいくつかの場合では、この単一のコンポーネントは、2つまたはそれより多くのコンポーネントに分離されてもよい。
本明細書で開示された特定の複数の方法は、基本的な形で示され、説明されているが、複数のオペレーションは、選択的に複数の方法に追加され、及び/またはこれらから取り除かれてもよい。さらに、複数のオペレーションの特定の順序が示され、及び/または説明された可能性があるが、別の複数の実施形態は、特定の複数のオペレーションを異なる順序で実行する、特定の複数のオペレーションを組み合わせる、特定の複数のオペレーションをオーバラップさせる等が可能である。
特定の複数のオペレーションは、複数のハードウェア要素によって実行されてもよく、及び/または複数のオペレーションを実行する命令によりプログラムされたハードウェア要素(例えば、プロセッサ、プロセッサの一部等)を生じ、及び/またはもたらすために用いられ得る機械により実行可能な命令で具現されてもよい。ハードウェア要素は、汎用または特別用途向けのハードウェア要素を含んでもよい。複数のオペレーションは、ハードウェア、ソフトウェア及び/またはファームウェアの組み合わせによって実行されてもよい。ハードウェア要素は、命令を実行及び/または処理し、命令に応答して(例えば、1つまたは複数のマイクロ命令または命令から導出された他の複数の制御信号に応答して)動作を実行するように動作可能な、具体的なまたは特定のロジック(例えば、潜在的には、ソフトウェア及び/またはファームウェアと組み合わせられた回路)を含んでもよい。
本明細書を通して、「一実施形態」、「実施形態」、「1つまたは複数の実施形態」、「いくつかの実施形態」という言及は、例えば、特定の機能が、本発明の実施に含まれてもよいが、必ずしも含まれていなくてもよいことを示す。同様に、説明において、様々な複数の特徴は、場合により、開示を簡素化し、様々な進歩的な複数の態様に対する理解を助けることを目的として、単一の実施形態、図またはその説明の中でグループ化される。この開示方法は、しかしながら、本発明が、各請求項で明確に規定されるよりも多くの機能を必要とするという意図を反映すると解釈されるものではない。むしろ、以下の特許請求の範囲が反映するように、進歩的な複数の態様は単一の開示された実施形態の一部の機能にある。したがって、詳細な説明に続く、各請求項が実施形態として独立する特許請求の範囲は、これにより、この詳細な説明に明確に組み込まれている。
以下の複数の節及び/または複数の例は、さらなる複数の実施形態に関する。複数の節の複数の詳細及び/または複数の例は、1つまたは複数の実施形態のいずれの部分において用いられてもよい。
一実施形態では、第1の装置は、複数のコアと、複数のコアの各々と連結される共有コア拡張ロジックとを含む。共有コア拡張ロジックは、複数のコアの各々に共有される共有データ処理ロジックを有する。第1の装置は、共有コア拡張呼び出し命令に応答して共有コア拡張ロジックを呼び出す、複数のコアの各々に対する命令実行ロジックをさらに含む。呼び出しは、対応するコアの代わりに、共有データ処理ロジックデータ処理を実行させる。
複数の実施形態は、命令実行ロジック及び共有コア拡張ロジックと連結される複数の共有コア拡張コマンドレジスタをさらに含む第1の装置を含み、共有コア拡張呼び出し命令は、複数の共有コア拡張コマンドレジスタの1つ及び複数のパラメータを示す。
複数の実施形態は、上述した第1の装置のいずれかを含み、命令実行ロジックは、共有コア拡張呼び出し命令に応答して、示された複数のパラメータに基づいて、示された共有コア拡張コマンドレジスタにデータを格納する。
複数の実施形態は、上述した第1の装置のいずれかを含み、命令実行ロジックは、共有コア拡張呼び出し命令に応答して、示された共有コア拡張コマンドレジスタに、呼び出し属性情報を指す呼び出し属性ポインタフィールドのポインタ、入力データオペランドを指す入力データオペランドポインタフィールドのポインタ、及び出力データオペランドを指す出力データオペランドポインタフィールドのポインタを格納する。
複数の実施形態は、上述した第1の装置のいずれかを含み、共有コア拡張ロジックは、呼び出しに関連付けられたデータ処理に基づいて、示された共有コア拡張コマンドレジスタに、呼び出しのステータスを提供するステータスフィールド、及び呼び出しの進捗度を提供する進捗度フィールドを格納する。
複数の実施形態は、上述した第1の装置のいずれかを含み、共有コア拡張呼び出し命令は、複数のコアの命令セットのマクロ命令を含む。
複数の実施形態は、上述した第1の装置のいずれかを含み、共有データ処理ロジックは、少なくとも1つのベクトル実行ユニットを含む。
複数の実施形態は、上述した第1の装置のいずれかを含み、共有データ処理ロジックは、複数のコア内に見られないデータ処理ロジックを含む。
複数の実施形態は、上述した第1の装置のいずれかを含み、命令実行ロジックは、共有コア拡張呼び出し命令に応答して、メモリにおいて少なくとも1つの出力データ構造を生成するルーチンに従って、メモリにおける少なくとも1つの入力データ構造に対してデータ処理を実行させるために、共有コア拡張ロジックを呼び出す。
複数の実施形態は、複数のコアの第1のコアのメモリ管理ユニット(MMU)と、共有コア拡張ロジックの共有コア拡張MMUと、第1のコアのMMUと共有コア拡張MMUとを同期するために、ハードウェアにおいて複数の同期信号を交換する、第1のコアのMMUと共有コア拡張MMUとの間のハードウェアインターフェースとをさらに含む、上述した第1の装置のいずれかを含む。
複数の実施形態は、複数のコアの第1のコアのメモリ管理ユニット(MMU)と、共有コア拡張ロジックの共有コア拡張MMUと、第1のコアからの呼び出しに対応するページフォルトを、共有コア拡張MMUから第1のコアのMMUにルーティングする、第1のコアのMMUと共有コア拡張MMUとの間のインターフェースとをさらに含む、上述した第1の装置のいずれかを含む。
複数の実施形態は、ダイ上に共有コア拡張ロジックと共に、複数のコアから共有データ処理ロジックに対する複数の呼び出しをスケジューリングするハードウェアスケジューリングロジックをさらに含む、上述した第1の装置のいずれかを含む。
一実施形態では、第1の方法は、複数のコアを有するプロセッサのコア内で、共有コア拡張呼び出し命令を受信する段階を含む。共有コア拡張呼び出し命令は、コアに、複数のコアにより共有される共有コア拡張ロジックを呼び出させる。呼び出しは、データ処理を実行させる。共有コア拡張呼び出し命令は、共有コア拡張コマンドレジスタを示し、実行されるべきデータ処理を指定する複数のパラメータを示す。共有コア拡張ロジックは、データ処理が実行されるように、共有コア拡張呼び出し命令に応答して呼び出される。共有コア拡張ロジックを呼び出す段階は、命令によって示される複数のパラメータに基づいて、命令によって示される共有コア拡張コマンドレジスタにデータを格納する段階を含む。
複数の実施形態は、命令を受信する段階が、非ブロック共有コア拡張呼び出し命令を受信する段階を含み、共有コア拡張ロジックが実行されるべきデータ処理を受け入れた後、コアで非ブロック共有コア拡張呼び出し命令をリタイアさせる段階をさらに含む、第1の方法を含む。
複数の実施形態は、命令を受信する段階が、ブロック共有コア拡張呼び出し命令を受信する段階を含み、共有コア拡張ロジックがデータ処理を完了した後、コアでブロック共有コア拡張呼び出し命令をリタイアさせる段階をさらに含む、第1の方法を含む。
複数の実施形態は、命令を受信する段階が、ブロック共有コア拡張呼び出し命令を受信する段階を含み、ブロック共有コア拡張呼び出し命令が、示された共有コア拡張コマンドレジスタを解放するタイムアウト値を示す、第1の方法を含む。
複数の実施形態は、共有コア拡張呼び出し命令は、コアの命令セットのマクロ命令を含み、共有コア拡張コマンドレジスタは、アーキテクチャレジスタを備える、上述した複数の第1の方法のいずれかを含む。
複数の実施形態は、複数のパラメータに基づいて、示された共有コア拡張コマンドレジスタにデータを格納する段階は、呼び出し属性情報を指す呼び出し属性ポインタフィールドにポインタを格納する段階と、入力データオペランドを指す入力データオペランドポインタフィールドにポインタを格納する段階と、出力データオペランドを指す出力データオペランドポインタフィールドにポインタを格納する段階とを含む、上述した複数の第1の方法のいずれかを含む。
複数の実施形態は、呼び出しに関連付けられたデータ処理に基づいて、示された共有コア拡張レジスタにデータを格納する共有コア拡張ロジックをさらに含み、データを格納する段階は、呼び出しのステータスを提供するために、示されたレジスタのステータスフィールドにステータスを格納する段階と、呼び出しの進捗度を提供するために、示されたレジスタの進捗度フィールドに進捗度を格納する段階とを含む、上述した複数の第1の方法のいずれかを含む。
複数の実施形態は、上述した複数の第1の方法のいずれかを含む。呼び出す段階は、メモリにおいて少なくとも1つの出力データ構造を生成するルーチンに従って、メモリにおける少なくとも1つの入力データ構造に対してデータ処理を実行させる共有コア拡張ロジックを呼び出す段階を含む。
複数の実施形態は、MMUと共有コア拡張MMUとの間でハードウェアにおいて同期信号を交換することにより、コアのメモリ管理ユニット(MMU)と共有コア拡張ロジックの共有コア拡張MMUとを同期させる段階をさらに含む、上述した複数の第1の方法のいずれかを含む。
複数の実施形態は、呼び出しに対応するページフォルトを、共有コア拡張メモリ管理ユニット(MMU)からコアのMMUにルーティングする段階をさらに含む、上述した複数の第1の方法のいずれかを含む。
複数の実施形態は、共有コア拡張呼び出し命令を受信する前に、共有コア拡張コマンドレジスタを示す供給コア拡張停止命令を受信する段階と、供給コア拡張停止命令に応答して、供給コア拡張停止命令によって示される共有コア拡張コマンドレジスタに対応するデータ処理を中止し、共有コア拡張コマンドレジスタを解放する段階とをさらに含む、上述した複数の第1の方法のいずれかを含む。
複数の実施形態は、共有コア拡張呼び出し命令を受信した後に、共有コア拡張コマンドレジスタを示す共有コア拡張読み出し命令を受信する段階と、共有コア拡張読み出し命令に応答して、共有コア拡張読み出し命令によって示される共有コア拡張コマンドレジスタからデータ処理完了ステータスを読み出す段階とをさらに含む、上述した複数の第1の方法のいずれかを含む。
一実施形態では、機械可読記憶媒体は、機械によって実行された場合に、上述した複数の第1の方法のいずれかを機械に実行させる1つまたは複数の命令を格納する。
一実施形態では、装置は、上述した複数の第1の方法のいずれかを実行するように構成され、または動作可能である。
複数の実施形態は、プロセッサと、プロセッサと連結されるダイナミックランダムアクセスメモリ(DRAM)とを含む第1のシステムを含む。プロセッサは、複数のコアと、複数のコアの各々と連結される共有コア拡張ロジックとを含む。共有コア拡張ロジックは、複数のコアの各々に共有される共有データ処理ロジックを有する。プロセッサは、共有コア拡張呼び出し命令に応答して共有コア拡張ロジックを呼び出す、複数のコアの各々に対する命令実行ロジックをさらに含む。呼び出しは、対応するコアの代わりに、共有データ処理ロジックにデータ処理を実行させる。
複数の実施形態は、共有コア拡張呼び出し命令が、複数のコアの命令セットのマクロ命令を含む第1のシステムを含む。
複数の実施形態は、命令実行ロジック及び共有コア拡張ロジックと連結される複数のアーキテクチャ上の共有コア拡張コマンドレジスタをさらに含み、共有コア拡張呼び出し命令が、複数の共有コア拡張コマンドレジスタの1つ及び複数のパラメータを示す、上述した複数の第1のシステムのいずれかを含む。
本実施形態の例を下記の各項目として示す。
[項目1]
複数のコアと、
前記複数のコアの各々と連結される共有コア拡張ロジックであって、前記複数のコアの各々に共有される共有データ処理ロジックを有する共有コア拡張ロジックと、
対応するコアの代わりに、前記共有データ処理ロジックにデータ処理を実行させるために、共有コア拡張呼び出し命令に応答して前記共有コア拡張ロジックを呼び出す、前記複数のコアの各々に対する命令実行ロジックとを備える、装置。
[項目2]
前記共有コア拡張呼び出し命令は、前記複数のコアの命令セットのマクロ命令を備える、項目1に記載の装置。
[項目3]
前記命令実行ロジック及び前記共有コア拡張ロジックと連結される複数の共有コア拡張コマンドレジスタをさらに備え、前記共有コア拡張呼び出し命令は、前記複数の共有コア拡張コマンドレジスタの中の1つの共有コア拡張コマンドレジスタ及び複数のパラメータを示す、項目1または2に記載の装置。
[項目4]
前記命令実行ロジックは、前記共有コア拡張呼び出し命令に応答して、示された前記複数のパラメータに基づいて、示された前記1つの共有コア拡張コマンドレジスタにデータを格納する、項目3に記載の装置。
[項目5]
前記命令実行ロジックは、前記共有コア拡張呼び出し命令に応答して、示された前記1つの共有コア拡張コマンドレジスタに、
呼び出し属性情報を指す呼び出し属性ポインタフィールドのポインタと、
入力データオペランドを指す入力データオペランドポインタフィールドのポインタと、
出力データオペランドを指す出力データオペランドポインタフィールドのポインタとを格納する、項目4に記載の装置。
[項目6]
前記共有コア拡張ロジックは、前記呼び出しに関連付けられたデータ処理に基づいて、示された前記1つの共有コア拡張コマンドレジスタに、
前記呼び出しのステータスを提供するステータスフィールドと、
前記呼び出しの進捗度を提供する進捗度フィールドとを格納する、項目4または5に記載の装置。
[項目7]
前記共有データ処理ロジックは、少なくとも1つのベクトル実行ユニットを備える、項目1から6のいずれか1項に記載の装置。
[項目8]
前記共有データ処理ロジックは、前記複数のコア内に見られないデータ処理ロジックを備える、項目1から7のいずれか1項に記載の装置。
[項目9]
前記命令実行ロジックは、メモリにおいて少なくとも1つの出力データ構造を生成するルーチンに従って、前記共有コア拡張呼び出し命令に応答して、メモリにおける少なくとも1つの入力データ構造に対してデータ処理を実行させるために、前記共有コア拡張ロジックを呼び出す、項目1から8のいずれか1項に記載の装置。
[項目10]
前記複数のコアの第1のコアのメモリ管理ユニット(MMU)と、
前記共有コア拡張ロジックの共有コア拡張MMUと、
前記第1のコアの前記MMUと前記共有コア拡張MMUとを同期するために、ハードウェアにおいて複数の同期信号を交換する前記第1のコアの前記MMUと前記共有コア拡張MMUとの間のハードウェアインターフェースとをさらに備える、項目1から9のいずれか1項に記載の装置。
[項目11]
前記複数のコアの第1のコアのメモリ管理ユニット(MMU)と、
前記共有コア拡張ロジックの共有コア拡張MMUと、
前記第1のコアからの呼び出しに対応するページフォルトを、前記共有コア拡張MMUから前記第1のコアの前記MMUにルーティングする、前記第1のコアの前記MMUと前記共有コア拡張MMUとの間のインターフェースとをさらに備える、項目1から9のいずれか1項に記載の装置。
[項目12]
ダイ上に前記共有コア拡張ロジックと共に前記複数のコアから前記共有データ処理ロジックに対する複数の呼び出しをスケジューリングするハードウェアスケジューリングロジックをさらに備える、項目1から11のいずれか1項に記載の装置。
[項目13]
複数のコアを有するプロセッサのコア内で、共有コア拡張呼び出し命令を受信する段階であって、前記共有コア拡張呼び出し命令は、データ処理を実行させるために、前記コアに、複数のコアにより共有される共有コア拡張ロジックを呼び出させ、前記共有コア拡張呼び出し命令は、共有コア拡張コマンドレジスタを示し、かつ、実行されるべき前記データ処理を指定する複数のパラメータを示す、段階と、
前記共有コア拡張呼び出し命令に応答して、前記データ処理を実行させるために前記共有コア拡張ロジックを呼び出す段階であって、前記命令によって示された前記複数のパラメータに基づいて、前記命令によって示された前記共有コア拡張コマンドレジスタにデータを格納する段階を含む、前記共有コア拡張ロジックを呼び出す段階とを備える、方法。
[項目14]
前記共有コア拡張呼び出し命令は、前記コアの命令セットのマクロ命令を備え、前記共有コア拡張コマンドレジスタは、アーキテクチャレジスタを備える、項目13に記載の方法。
[項目15]
前記複数のパラメータに基づいて、示された前記共有コア拡張コマンドレジスタに前記データを格納する段階は、
呼び出し属性情報を指す呼び出し属性ポインタフィールドにポインタを格納する段階と、
入力データオペランドを指す入力データオペランドポインタフィールドにポインタを格納する段階と、
出力データオペランドを指す出力データオペランドポインタフィールドにポインタを格納する段階とを備える、項目13または14に記載の方法。
[項目16]
前記呼び出しに関連付けられたデータ処理に基づいて、示された前記共有コア拡張コマンドレジスタにデータを格納する前記共有コア拡張ロジックをさらに備え、前記データを格納する前記段階は、
前記呼び出しのステータスを提供するために、示された前記レジスタのステータスフィールドにステータスを格納する段階と、
前記呼び出しの進捗度を提供するために、示された前記レジスタの進捗度フィールドに進捗度を格納する段階とを含む、項目13から15のいずれか1項に記載の方法。
[項目17]
前記命令を受信する段階は、非ブロック共有コア拡張呼び出し命令を受信する段階を備え、前記共有コア拡張ロジックが実行されるべき前記データ処理を受け入れた後、前記コアにおいて、前記非ブロック共有コア拡張呼び出し命令をリタイアさせる段階をさらに備える、項目13から16のいずれか1項に記載の方法。
[項目18]
前記命令を受信する段階は、ブロック共有コア拡張呼び出し命令を受信する段階を備え、前記共有コア拡張ロジックが前記データ処理を完了した後、前記コアにおいて、前記ブロック共有コア拡張呼び出し命令をリタイアさせる段階をさらに備える、項目13から17のいずれか1項に記載の方法。
[項目19]
前記命令を受信する段階は、ブロック共有コア拡張呼び出し命令を受信する段階を備え、前記ブロック共有コア拡張呼び出し命令は、示された前記共有コア拡張コマンドレジスタを解放するタイムアウト値を示す、項目13から17のいずれか1項に記載の方法。
[項目20]
呼び出す段階は、メモリにおいて少なくとも1つの出力データ構造を生成するルーチンに従って、メモリにおいて、少なくとも1つの入力データ構造に対してデータ処理を実行させる前記共有コア拡張ロジックを呼び出す段階を備える、項目13から19のいずれか1項に記載の方法。
[項目21]
前記コアのメモリ管理ユニット(MMU)と前記共有コア拡張ロジックの共有コア拡張MMUとの間でハードウェアにおいて同期信号を交換することにより、前記MMUと前記共有コア拡張MMUとを同期する段階をさらに備える、項目13から20のいずれか1項に記載の方法。
[項目22]
前記呼び出しに対応するページフォルトを、共有コア拡張メモリ管理ユニット(MMU)から前記コアのMMUへルーティングする段階をさらに備える、項目13から21のいずれか1項に記載の方法。
[項目23]
前記共有コア拡張呼び出し命令を受信する前に、
前記共有コア拡張コマンドレジスタを示す供給コア拡張停止命令を受信する段階と、
前記供給コア拡張停止命令に応答して、前記供給コア拡張停止命令によって示された前記共有コア拡張コマンドレジスタに対応するデータ処理を中止し、前記共有コア拡張コマンドレジスタを解放する段階とをさらに備える、項目13から22のいずれか1項に記載の方法。
[項目24]
前記共有コア拡張呼び出し命令を受信した後に、
前記共有コア拡張コマンドレジスタを示す共有コア拡張読み出し命令を受信する段階と、
前記共有コア拡張読み出し命令に応答して、前記共有コア拡張読み出し命令によって示された前記共有コア拡張コマンドレジスタから、データ処理完了ステータスを読み出す段階とをさらに備える、項目13から23のいずれか1項に記載の方法。
[項目25]
プロセッサを備えるシステムであって、前記プロセッサは、
複数のコアと、
前記複数のコアの各々と連結される共有コア拡張ロジックであって、前記複数のコアの各々に共有される共有データ処理ロジックを有する共有コア拡張ロジックと、
対応するコアの代わりに、前記共有データ処理ロジックにデータ処理を実行させるために、共有コア拡張呼び出し命令に応答して前記共有コア拡張ロジックを呼び出す、前記複数のコアの各々に対する命令実行ロジックと、
前記プロセッサと連結されるダイナミックランダムアクセスメモリ(DRAM)とを備える、システム。
[項目26]
前記共有コア拡張呼び出し命令は、前記複数のコアの命令セットのマクロ命令を備える、項目25に記載のシステム。
[項目27]
前記命令実行ロジック及び前記共有コア拡張ロジックと連結される複数のアーキテクチャ上の共有コア拡張コマンドレジスタをさらに備え、前記共有コア拡張呼び出し命令は、複数の前記共有コア拡張コマンドレジスタの1つ及び複数のパラメータを示す、項目25または26に記載のシステム。
[項目28]
コアと前記共有コア拡張ロジックとの間で複数のコンテキストスイッチを生じさせる、オペレーティングシステムのプレエンプション及びコアの複数の例外条件をルーティングするハードウェアインターフェースをさらに備える、項目1から12のいずれか1項に記載の装置。

Claims (29)

  1. 複数のコアと、
    前記複数のコアの各々と連結される共有コア拡張ハードウェアロジックであって、前記複数のコアの各々に共有される共有データ処理ハードウェアロジックを有する共有コア拡張ハードウェアロジックと、
    対応するコアの代わりに、前記共有データ処理ハードウェアロジックにデータ処理を実行させるために、共有コア拡張呼び出し命令に応答して前記共有コア拡張ハードウェアロジックを呼び出す、前記複数のコアの各々に対する命令実行ハードウェアロジックと、
    前記命令実行ハードウェアロジック及び前記共有コア拡張ハードウェアロジックと連結される複数の共有コア拡張コマンドレジスタとを備え、
    前記共有コア拡張ハードウェアロジックは、前記呼び出しに関連付けられたデータ処理に基づいて、前記共有コア拡張呼び出し命令により示された前記共有コア拡張コマンドレジスタに、前記呼び出しの進捗度を提供する進捗度フィールドを格納する、
    装置。
  2. 複数のコアと、
    前記複数のコアの各々と連結される共有コア拡張ハードウェアロジックであって、前記複数のコアの各々に共有される共有データ処理ハードウェアロジックを有する共有コア拡張ハードウェアロジックと、
    対応するコアの代わりに、前記共有データ処理ハードウェアロジックにデータ処理を実行させるために、共有コア拡張呼び出し命令に応答して前記共有コア拡張ハードウェアロジックを呼び出す、前記複数のコアの各々に対する命令実行ハードウェアロジックと、
    前記命令実行ハードウェアロジック及び前記共有コア拡張ハードウェアロジックと連結される複数の共有コア拡張コマンドレジスタとを備え、
    前記コアは、ブロック共有コア拡張呼び出し命令を受信し、前記ブロック共有コア拡張呼び出し命令は、前記共有コア拡張呼び出し命令により示された前記共有コア拡張コマンドレジスタを解放するタイムアウト値を示す
    装置。
  3. 前記共有コア拡張呼び出し命令は、前記複数のコアの命令セットに含まれるマクロ命令の一つである、請求項1または2に記載の装置。
  4. 前記共有コア拡張ハードウェアロジックは、前記呼び出しに関連付けられたデータ処理に基づいて、示された前記共有コア拡張コマンドレジスタに、
    前記呼び出しのステータスを提供するステータスフィールドを格納する、請求項1または2に記載の装置。
  5. 前記共有データ処理ハードウェアロジックは、少なくとも1つのベクトル実行ユニットを備える、請求項1からのいずれか1項に記載の装置。
  6. 前記共有データ処理ハードウェアロジックは、前記複数のコア内に見られないデータ処理ハードウェアロジックを備える、請求項1からのいずれか1項に記載の装置。
  7. 前記命令実行ハードウェアロジックは、メモリにおいて少なくとも1つの出力データ構造を生成するルーチンに従って、前記共有コア拡張呼び出し命令に応答して、メモリにおける少なくとも1つの入力データ構造に対してデータ処理を実行させるために、前記共有コア拡張ハードウェアロジックを呼び出す、請求項1からのいずれか1項に記載の装置。
  8. 前記複数のコアの第1のコアのメモリ管理ユニット(MMU)と、
    前記共有コア拡張ハードウェアロジックの共有コア拡張MMUと、
    前記第1のコアの前記MMUと前記共有コア拡張MMUとを同期するために、ハードウェアにおいて複数の同期信号を交換する前記第1のコアの前記MMUと前記共有コア拡張MMUとの間のハードウェアインターフェースとをさらに備える、請求項1からのいずれか1項に記載の装置。
  9. 前記複数のコアの第1のコアのメモリ管理ユニット(MMU)と、
    前記共有コア拡張ハードウェアロジックの共有コア拡張MMUと、
    前記第1のコアからの呼び出しに対応するページフォルトを、前記共有コア拡張MMUから前記第1のコアの前記MMUにルーティングする、前記第1のコアの前記MMUと前記共有コア拡張MMUとの間のインターフェースとをさらに備える、請求項1からのいずれか1項に記載の装置。
  10. ダイ上に前記共有コア拡張ハードウェアロジックと共に前記複数のコアから前記共有データ処理ハードウェアロジックに対する複数の呼び出しをスケジューリングするハードウェアスケジューリングロジックをさらに備える、請求項1からのいずれか1項に記載の装置。
  11. 複数のコアを有するプロセッサのコア内で、共有コア拡張呼び出し命令を受信する段階であって、前記共有コア拡張呼び出し命令は、データ処理を実行させるために、前記コアに、複数のコアにより共有される共有コア拡張ハードウェアロジックを呼び出させ、前記共有コア拡張呼び出し命令は、共有コア拡張コマンドレジスタを示し、かつ、実行されるべき前記データ処理を指定する複数のパラメータを示す、段階と、
    前記共有コア拡張呼び出し命令に応答して、前記データ処理を実行させるために前記共有コア拡張ハードウェアロジックを呼び出す段階であって、前記命令によって示された前記複数のパラメータに基づいて、前記命令によって示された前記共有コア拡張コマンドレジスタにデータを格納する段階を含む、前記共有コア拡張ハードウェアロジックを呼び出す段階と、
    前記呼び出しに関連付けられたデータ処理に基づいて、前記呼び出しの進捗度を提供するために、示された前記共有コア拡張コマンドレジスタの進捗度フィールドに進捗度を格納する段階と、を備える、方法。
  12. 複数のコアを有するプロセッサのコア内で、共有コア拡張呼び出し命令を受信する段階であって、前記共有コア拡張呼び出し命令は、データ処理を実行させるために、前記コアに、複数のコアにより共有される共有コア拡張ハードウェアロジックを呼び出させ、前記共有コア拡張呼び出し命令は、共有コア拡張コマンドレジスタを示し、かつ、実行されるべき前記データ処理を指定する複数のパラメータを示す、段階と、
    前記共有コア拡張呼び出し命令に応答して、前記データ処理を実行させるために前記共有コア拡張ハードウェアロジックを呼び出す段階であって、前記命令によって示された前記複数のパラメータに基づいて、前記命令によって示された前記共有コア拡張コマンドレジスタにデータを格納する段階を含む、前記共有コア拡張ハードウェアロジックを呼び出す段階とを備え、
    前記命令を受信する段階は、ブロック共有コア拡張呼び出し命令を受信する段階を備え、前記ブロック共有コア拡張呼び出し命令は、示された前記共有コア拡張コマンドレジスタを解放するタイムアウト値を示す
    方法。
  13. 前記共有コア拡張呼び出し命令は、前記コアの命令セットに含まれるマクロ命令の一つであり、前記共有コア拡張コマンドレジスタは、アーキテクチャレジスタである、請求項11または12に記載の方法。
  14. 前記複数のパラメータに基づいて、示された前記共有コア拡張コマンドレジスタに前記データを格納する段階は、
    呼び出し属性情報を指す呼び出し属性ポインタフィールドにポインタを格納する段階と、
    入力データオペランドを指す入力データオペランドポインタフィールドにポインタを格納する段階と、
    出力データオペランドを指す出力データオペランドポインタフィールドにポインタを格納する段階とを備える、請求項11から13のいずれか1項に記載の方法。
  15. 前記呼び出しに関連付けられたデータ処理に基づいて、前記呼び出しのステータスを提供するために、示された前記共有コア拡張コマンドレジスタのステータスフィールドにステータスを格納する段階を含む、請求項11から14のいずれか1項に記載の方法。
  16. 前記命令を受信する段階は、非ブロック共有コア拡張呼び出し命令を受信する段階を備え、前記共有コア拡張ハードウェアロジックが実行されるべき前記データ処理を受け入れた後、前記コアにおいて、前記非ブロック共有コア拡張呼び出し命令をリタイアさせる段階をさらに備える、請求項11から15のいずれか1項に記載の方法。
  17. 前記命令を受信する段階は、ブロック共有コア拡張呼び出し命令を受信する段階を備え、前記共有コア拡張ハードウェアロジックが前記データ処理を完了した後、前記コアにおいて、前記ブロック共有コア拡張呼び出し命令をリタイアさせる段階をさらに備える、請求項11から16のいずれか1項に記載の方法。
  18. 呼び出す段階は、メモリにおいて少なくとも1つの出力データ構造を生成するルーチンに従って、メモリにおいて、少なくとも1つの入力データ構造に対してデータ処理を実行させる前記共有コア拡張ハードウェアロジックを呼び出す段階を備える、請求項11から17のいずれか1項に記載の方法。
  19. 前記コアのメモリ管理ユニット(MMU)と前記共有コア拡張ハードウェアロジックの共有コア拡張MMUとの間でハードウェアにおいて同期信号を交換することにより、前記MMUと前記共有コア拡張MMUとを同期する段階をさらに備える、請求項11から18のいずれか1項に記載の方法。
  20. 前記呼び出しに対応するページフォルトを、共有コア拡張メモリ管理ユニット(MMU)から前記コアのMMUへルーティングする段階をさらに備える、請求項11から19のいずれか1項に記載の方法。
  21. 前記共有コア拡張呼び出し命令を受信する前に、
    前記共有コア拡張コマンドレジスタを示す共有コア拡張停止命令を受信する段階と、
    前記共有コア拡張停止命令に応答して、前記共有コア拡張停止命令によって示された前記共有コア拡張コマンドレジスタに対応するデータ処理を中止し、前記共有コア拡張コマンドレジスタを解放する段階とをさらに備える、請求項11から20のいずれか1項に記載の方法。
  22. 前記共有コア拡張呼び出し命令を受信した後に、
    前記共有コア拡張コマンドレジスタを示す共有コア拡張読み出し命令を受信する段階と、
    前記共有コア拡張読み出し命令に応答して、前記共有コア拡張読み出し命令によって示された前記共有コア拡張コマンドレジスタから、データ処理完了ステータスを読み出す段階とをさらに備える、請求項11から21のいずれか1項に記載の方法。
  23. プロセッサと、前記プロセッサと連結されるダイナミックランダムアクセスメモリ(DRAM)とを備えるシステムであって、前記プロセッサは、
    複数のコアと、
    前記複数のコアの各々と連結される共有コア拡張ハードウェアロジックであって、前記複数のコアの各々に共有される共有データ処理ハードウェアロジックを有する共有コア拡張ハードウェアロジックと、
    対応するコアの代わりに、前記共有データ処理ハードウェアロジックにデータ処理を実行させるために、共有コア拡張呼び出し命令に応答して前記共有コア拡張ハードウェアロジックを呼び出す、前記複数のコアの各々に対する命令実行ハードウェアロジックと、
    前記命令実行ハードウェアロジック及び前記共有コア拡張ハードウェアロジックと連結される複数のアーキテクチャ上の共有コア拡張コマンドレジスタと、を備え、
    前記共有コア拡張ハードウェアロジックは、前記呼び出しに関連付けられたデータ処理に基づいて、前記共有コア拡張呼び出し命令により示された前記共有コア拡張コマンドレジスタに、前記呼び出しの進捗度を提供する進捗度フィールドを格納する、
    システム。
  24. プロセッサと、前記プロセッサと連結されるダイナミックランダムアクセスメモリ(DRAM)とを備えるシステムであって、前記プロセッサは、
    複数のコアと、
    前記複数のコアの各々と連結される共有コア拡張ハードウェアロジックであって、前記複数のコアの各々に共有される共有データ処理ハードウェアロジックを有する共有コア拡張ハードウェアロジックと、
    対応するコアの代わりに、前記共有データ処理ハードウェアロジックにデータ処理を実行させるために、共有コア拡張呼び出し命令に応答して前記共有コア拡張ハードウェアロジックを呼び出す、前記複数のコアの各々に対する命令実行ハードウェアロジックと、
    前記命令実行ハードウェアロジック及び前記共有コア拡張ハードウェアロジックと連結される複数のアーキテクチャ上の共有コア拡張コマンドレジスタと、を備え、
    前記コアは、ブロック共有コア拡張呼び出し命令を受信し、前記ブロック共有コア拡張呼び出し命令は、前記共有コア拡張呼び出し命令により示された前記共有コア拡張コマンドレジスタを解放するタイムアウト値を示す、
    システム。
  25. 前記共有コア拡張呼び出し命令は、前記複数のコアの命令セットに含まれるマクロ命令の一つである、請求項23または24に記載のシステム。
  26. 前記共有コア拡張ハードウェアロジックから前記コアに対してフォールトを通知するためのハードウェアインターフェースを備える、請求項1から10のいずれか1項に記載の装置。
  27. 前記複数のコアは投機実行をサポートし、前記共有コア拡張ハードウェアロジックは投機実行をサポートしない、請求項1から10のいずれか1項に記載の装置。
  28. 前記複数のコアは投機実行をサポートし、前記共有コア拡張ハードウェアロジックは投機実行をサポートしない、請求項11から22のいずれか1項に記載の方法。
  29. 前記複数のコアは投機実行をサポートし、前記共有コア拡張ハードウェアロジックは投機実行をサポートしない、請求項23から25のいずれか1項に記載のシステム。
JP2015533047A 2012-09-27 2013-06-12 装置、方法、およびシステム Active JP6240964B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/629,460 US9582287B2 (en) 2012-09-27 2012-09-27 Processor having multiple cores, shared core extension logic, and shared core extension utilization instructions
US13/629,460 2012-09-27
PCT/US2013/045501 WO2014051736A1 (en) 2012-09-27 2013-06-12 Processor having multiple cores, shared core extension logic, and shared core extension utilization instructions

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2017157514A Division JP2017224342A (ja) 2012-09-27 2017-08-17 プロセッサ及び装置

Publications (2)

Publication Number Publication Date
JP2015532990A JP2015532990A (ja) 2015-11-16
JP6240964B2 true JP6240964B2 (ja) 2017-12-06

Family

ID=50340107

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2015533047A Active JP6240964B2 (ja) 2012-09-27 2013-06-12 装置、方法、およびシステム
JP2017157514A Pending JP2017224342A (ja) 2012-09-27 2017-08-17 プロセッサ及び装置
JP2018218328A Active JP7052170B2 (ja) 2012-09-27 2018-11-21 プロセッサおよびシステム

Family Applications After (2)

Application Number Title Priority Date Filing Date
JP2017157514A Pending JP2017224342A (ja) 2012-09-27 2017-08-17 プロセッサ及び装置
JP2018218328A Active JP7052170B2 (ja) 2012-09-27 2018-11-21 プロセッサおよびシステム

Country Status (7)

Country Link
US (6) US9582287B2 (ja)
JP (3) JP6240964B2 (ja)
KR (2) KR101783576B1 (ja)
CN (3) CN109375949B (ja)
DE (1) DE112013004751T5 (ja)
GB (2) GB2568816B8 (ja)
WO (1) WO2014051736A1 (ja)

Families Citing this family (80)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8515052B2 (en) 2007-12-17 2013-08-20 Wai Wu Parallel signal processing system and method
US9448847B2 (en) 2011-07-15 2016-09-20 Throughputer, Inc. Concurrent program execution optimization
US9582287B2 (en) 2012-09-27 2017-02-28 Intel Corporation Processor having multiple cores, shared core extension logic, and shared core extension utilization instructions
US9483263B2 (en) * 2013-03-26 2016-11-01 Via Technologies, Inc. Uncore microcode ROM
US9552205B2 (en) * 2013-09-27 2017-01-24 Intel Corporation Vector indexed memory access plus arithmetic and/or logical operation processors, methods, systems, and instructions
WO2015185071A1 (en) * 2014-06-04 2015-12-10 Giesecke & Devrient Gmbh Method for enhanced security of computational device with multiple cores
US20160170767A1 (en) * 2014-12-12 2016-06-16 Intel Corporation Temporary transfer of a multithreaded ip core to single or reduced thread configuration during thread offload to co-processor
WO2016097791A1 (en) 2014-12-14 2016-06-23 Via Alliance Semiconductor Co., Ltd. Apparatus and method for programmable load replay preclusion
US10089112B2 (en) 2014-12-14 2018-10-02 Via Alliance Semiconductor Co., Ltd Mechanism to preclude load replays dependent on fuse array access in an out-of-order processor
US10108420B2 (en) 2014-12-14 2018-10-23 Via Alliance Semiconductor Co., Ltd Mechanism to preclude load replays dependent on long load cycles in an out-of-order processor
US10083038B2 (en) 2014-12-14 2018-09-25 Via Alliance Semiconductor Co., Ltd Mechanism to preclude load replays dependent on page walks in an out-of-order processor
US10127046B2 (en) 2014-12-14 2018-11-13 Via Alliance Semiconductor Co., Ltd. Mechanism to preclude uncacheable-dependent load replays in out-of-order processor
US10114794B2 (en) 2014-12-14 2018-10-30 Via Alliance Semiconductor Co., Ltd Programmable load replay precluding mechanism
US10108421B2 (en) 2014-12-14 2018-10-23 Via Alliance Semiconductor Co., Ltd Mechanism to preclude shared ram-dependent load replays in an out-of-order processor
JP6286068B2 (ja) 2014-12-14 2018-02-28 ヴィア アライアンス セミコンダクター カンパニー リミテッド アウトオブオーダープロセッサでのキャッシュ不可に依存するロードリプレイを除外するメカニズム
WO2016097802A1 (en) 2014-12-14 2016-06-23 Via Alliance Semiconductor Co., Ltd. Mechanism to preclude load replays dependent on long load cycles in an out-order processor
WO2016097792A1 (en) * 2014-12-14 2016-06-23 Via Alliance Semiconductor Co., Ltd. Apparatus and method to preclude load replays dependent on write combining memory space access in out-of-order processor
WO2016097790A1 (en) 2014-12-14 2016-06-23 Via Alliance Semiconductor Co., Ltd. Apparatus and method to preclude non-core cache-dependent load replays in out-of-order processor
US10146540B2 (en) 2014-12-14 2018-12-04 Via Alliance Semiconductor Co., Ltd Apparatus and method to preclude load replays dependent on write combining memory space access in an out-of-order processor
US9703359B2 (en) 2014-12-14 2017-07-11 Via Alliance Semiconductor Co., Ltd. Power saving mechanism to reduce load replays in out-of-order processor
US10175984B2 (en) 2014-12-14 2019-01-08 Via Alliance Semiconductor Co., Ltd Apparatus and method to preclude non-core cache-dependent load replays in an out-of-order processor
US10114646B2 (en) 2014-12-14 2018-10-30 Via Alliance Semiconductor Co., Ltd Programmable load replay precluding mechanism
WO2016097815A1 (en) 2014-12-14 2016-06-23 Via Alliance Semiconductor Co., Ltd. Apparatus and method to preclude x86 special bus cycle load replays in out-of-order processor
US9804845B2 (en) * 2014-12-14 2017-10-31 Via Alliance Semiconductor Co., Ltd. Apparatus and method to preclude X86 special bus cycle load replays in an out-of-order processor
US9645827B2 (en) 2014-12-14 2017-05-09 Via Alliance Semiconductor Co., Ltd. Mechanism to preclude load replays dependent on page walks in an out-of-order processor
US10146539B2 (en) 2014-12-14 2018-12-04 Via Alliance Semiconductor Co., Ltd. Load replay precluding mechanism
US10088881B2 (en) 2014-12-14 2018-10-02 Via Alliance Semiconductor Co., Ltd Mechanism to preclude I/O-dependent load replays in an out-of-order processor
WO2016097814A1 (en) 2014-12-14 2016-06-23 Via Alliance Semiconductor Co., Ltd. Mechanism to preclude shared ram-dependent load replays in out-of-order processor
US10108427B2 (en) 2014-12-14 2018-10-23 Via Alliance Semiconductor Co., Ltd Mechanism to preclude load replays dependent on fuse array access in an out-of-order processor
WO2016097793A1 (en) 2014-12-14 2016-06-23 Via Alliance Semiconductor Co., Ltd. Mechanism to preclude load replays dependent on off-die control element access in out-of-order processor
US10120689B2 (en) 2014-12-14 2018-11-06 Via Alliance Semiconductor Co., Ltd Mechanism to preclude load replays dependent on off-die control element access in an out-of-order processor
US10146546B2 (en) 2014-12-14 2018-12-04 Via Alliance Semiconductor Co., Ltd Load replay precluding mechanism
US10228944B2 (en) 2014-12-14 2019-03-12 Via Alliance Semiconductor Co., Ltd. Apparatus and method for programmable load replay preclusion
US10095514B2 (en) 2014-12-14 2018-10-09 Via Alliance Semiconductor Co., Ltd Mechanism to preclude I/O-dependent load replays in an out-of-order processor
US9569267B2 (en) * 2015-03-16 2017-02-14 Intel Corporation Hardware-based inter-device resource sharing
US9747108B2 (en) 2015-03-27 2017-08-29 Intel Corporation User-level fork and join processors, methods, systems, and instructions
US10417248B2 (en) * 2015-09-01 2019-09-17 Sap Se Field extension in database system
US10768936B2 (en) 2015-09-19 2020-09-08 Microsoft Technology Licensing, Llc Block-based processor including topology and control registers to indicate resource sharing and size of logical processor
US11126433B2 (en) 2015-09-19 2021-09-21 Microsoft Technology Licensing, Llc Block-based processor core composition register
US11016770B2 (en) 2015-09-19 2021-05-25 Microsoft Technology Licensing, Llc Distinct system registers for logical processors
US10019380B2 (en) 2015-09-25 2018-07-10 Qualcomm Incorporated Providing memory management functionality using aggregated memory management units (MMUs)
US20170262291A1 (en) * 2016-03-09 2017-09-14 Mediatek Inc. Heterogeneous computing system with a shared computing unit and separate memory controls
US10901940B2 (en) 2016-04-02 2021-01-26 Intel Corporation Processors, methods, systems, and instructions to atomically store to memory data wider than a natively supported data width
US20170371662A1 (en) * 2016-06-23 2017-12-28 Intel Corporation Extension of register files for local processing of data in computing environments
US10628352B2 (en) * 2016-07-19 2020-04-21 Nxp Usa, Inc. Heterogeneous multi-processor device and method of enabling coherent data access within a heterogeneous multi-processor device
CN106371807B (zh) * 2016-08-30 2019-03-19 华为技术有限公司 一种扩展处理器指令集的方法及装置
US10565670B2 (en) * 2016-09-30 2020-02-18 Intel Corporation Graphics processor register renaming mechanism
US11531552B2 (en) 2017-02-06 2022-12-20 Microsoft Technology Licensing, Llc Executing multiple programs simultaneously on a processor core
US10489877B2 (en) * 2017-04-24 2019-11-26 Intel Corporation Compute optimization mechanism
US10474458B2 (en) * 2017-04-28 2019-11-12 Intel Corporation Instructions and logic to perform floating-point and integer operations for machine learning
KR102277728B1 (ko) * 2017-07-31 2021-07-14 삼성전자주식회사 데이터 저장 시스템, 데이터 저장 시스템의 데이터 저장 방법, 및 솔리드 스테이트 드라이브의 제조 방법
RU2653301C1 (ru) * 2017-10-02 2018-05-07 федеральное государственное бюджетное образовательное учреждение высшего образования "Пермский национальный исследовательский политехнический университет" Программируемое логическое устройство
KR102498582B1 (ko) * 2018-02-26 2023-02-14 에스케이하이닉스 주식회사 파티션 패턴들을 가진 이미지 센서
CN111971663A (zh) * 2018-04-16 2020-11-20 埃米尔·巴登霍斯特 处理器和操作处理器的方法
AU2018423290B2 (en) 2018-05-15 2021-12-16 Huawei Technologies Co., Ltd. Antenna system and terminal device
CN110825436B (zh) * 2018-08-10 2022-04-29 昆仑芯(北京)科技有限公司 应用于人工智能芯片的计算方法和人工智能芯片
GB2579617B (en) * 2018-12-06 2021-01-27 Advanced Risc Mach Ltd An apparatus and method for handling exception causing events
KR101996842B1 (ko) 2018-12-26 2019-07-08 (주)자람테크놀로지 사용자 정의 명령어 셋을 지원하는 하드웨어 고속 연산 결합형 risc-v 기반 연산 장치 및 그 방법
CN113396400A (zh) 2019-03-15 2021-09-14 英特尔公司 用于针对高速缓存操作提供层级开放划分扇区和可变扇区大小的系统和方法
US11435947B2 (en) 2019-07-02 2022-09-06 Samsung Electronics Co., Ltd. Storage device with reduced communication overhead using hardware logic
US11169862B2 (en) * 2019-08-09 2021-11-09 Ciena Corporation Normalizing messaging flows in a microservice architecture
US10910048B1 (en) 2020-01-16 2021-02-02 Micron Technology, Inc. Extended memory communication
US11586439B2 (en) 2020-10-20 2023-02-21 Micron Technology, Inc. Detecting infinite loops in a programmable atomic transaction
US11403023B2 (en) 2020-10-20 2022-08-02 Micron Technology, Inc. Method of organizing a programmable atomic unit instruction memory
US11740929B2 (en) 2020-10-20 2023-08-29 Micron Technology, Inc. Registering a custom atomic operation with the operating system
US11693690B2 (en) 2020-10-20 2023-07-04 Micron Technology, Inc. Method of completing a programmable atomic transaction by ensuring memory locks are cleared
US12020062B2 (en) 2020-10-20 2024-06-25 Micron Technology, Inc. Method of executing programmable atomic unit resources within a multi-process system
US11436187B2 (en) 2020-10-20 2022-09-06 Micron Technology, Inc. Method of notifying a process or programmable atomic operation traps
CN112015522B (zh) * 2020-11-02 2021-02-05 鹏城实验室 系统功能扩展方法、装置及计算机可读存储介质
CN116724316A (zh) * 2020-12-31 2023-09-08 华为技术有限公司 模型处理方法和装置
US20220276914A1 (en) * 2021-03-01 2022-09-01 Nvidia Corporation Interface for multiple processors
CN115080158B (zh) * 2021-03-12 2024-07-09 Oppo广东移动通信有限公司 界面显示方法、装置、终端设备及计算机可读存储介质
CN115344244A (zh) * 2021-05-14 2022-11-15 瑞昱半导体股份有限公司 处理程序语言函数的装置及方法
US12075074B2 (en) 2021-09-24 2024-08-27 Apple Inc. Systems and methods for multi-core image encoding
US12073231B2 (en) * 2021-10-27 2024-08-27 SambaNova Systems, Inc. Fractional force-quit for reconfigurable processors
CN116049035B (zh) * 2022-12-27 2024-02-09 合芯科技有限公司 一种缓存一致性的验证和调试的实现方法
KR102644719B1 (ko) * 2023-04-07 2024-03-08 메티스엑스 주식회사 다중 스레드의 비동기적인 실행이 가능한 매니코어 시스템
CN117171266B (zh) * 2023-08-28 2024-05-14 北京逐风科技有限公司 一种数据同步方法、装置、设备和存储介质
CN117311817B (zh) * 2023-11-30 2024-03-08 上海芯联芯智能科技有限公司 一种协处理器控制方法、装置、设备及存储介质
CN118279125B (zh) * 2024-06-04 2024-08-06 山东浪潮科学研究院有限公司 一种轻量化通用图形处理器的实现方法

Family Cites Families (80)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5840214B2 (ja) * 1979-06-26 1983-09-03 株式会社東芝 計算機システム
JPS6435647A (en) * 1987-07-31 1989-02-06 Hitachi Ltd Data processing system
JPH0564862A (ja) 1991-02-27 1993-03-19 Oji Yuka Synthetic Paper Co Ltd 鉛筆筆記性及び印刷性に優れた合成紙
JPH05197743A (ja) 1991-06-06 1993-08-06 Hitachi Ltd ベクトル処理装置
US5530881A (en) 1991-06-06 1996-06-25 Hitachi, Ltd. Vector processing apparatus for processing different instruction set architectures corresponding to mingled-type programs and separate-type programs
JP3147727B2 (ja) * 1995-08-31 2001-03-19 松下電器産業株式会社 情報処理装置及びその制御方法
US6148395A (en) 1996-05-17 2000-11-14 Texas Instruments Incorporated Shared floating-point unit in a single chip multiprocessor
US6542645B1 (en) 1997-07-15 2003-04-01 Silverbrook Research Pty Ltd Adaptive tracking of dots in optical storage system using ink dots
US6704871B1 (en) * 1997-09-16 2004-03-09 Safenet, Inc. Cryptographic co-processor
US6226734B1 (en) * 1998-06-10 2001-05-01 Compaq Computer Corporation Method and apparatus for processor migration from different processor states in a multi-processor computer system
KR100572945B1 (ko) * 1998-02-04 2006-04-24 텍사스 인스트루먼츠 인코포레이티드 효율적으로 접속 가능한 하드웨어 보조 처리기를 구비하는디지탈 신호 처리기
US6526430B1 (en) * 1999-10-04 2003-02-25 Texas Instruments Incorporated Reconfigurable SIMD coprocessor architecture for sum of absolute differences and symmetric filtering (scalable MAC engine for image processing)
US6785765B1 (en) * 2000-06-30 2004-08-31 Micron Technology, Inc. Status register to improve initialization of a synchronous memory
JP2002073332A (ja) 2000-08-25 2002-03-12 Sanyo Electric Co Ltd 演算実行装置及び方法
US6829697B1 (en) 2000-09-06 2004-12-07 International Business Machines Corporation Multiple logical interfaces to a shared coprocessor resource
JP2002278753A (ja) 2001-03-21 2002-09-27 Rohm Co Ltd データ処理システム
US6898691B2 (en) * 2001-06-06 2005-05-24 Intrinsity, Inc. Rearranging data between vector and matrix forms in a SIMD matrix processor
US6922716B2 (en) * 2001-07-13 2005-07-26 Motorola, Inc. Method and apparatus for vector processing
US6900803B2 (en) * 2002-03-12 2005-05-31 Sun Microsystems, Inc. Method for rasterizing graphics for optimal tiling performance
GB2392742B (en) * 2002-09-04 2005-10-19 Advanced Risc Mach Ltd Synchronisation between pipelines in a data processing apparatus
JP2004234420A (ja) 2003-01-31 2004-08-19 Mitsubishi Electric Corp 割り込み制御方式及び割り込み制御方法
US20040202326A1 (en) * 2003-04-10 2004-10-14 Guanrong Chen System and methods for real-time encryption of digital images based on 2D and 3D multi-parametric chaotic maps
US20040268093A1 (en) 2003-06-26 2004-12-30 Samra Nicholas G Cross-thread register sharing technique
CA2443347A1 (en) * 2003-09-29 2005-03-29 Pleora Technologies Inc. Massively reduced instruction set processor
US7174469B2 (en) * 2003-09-30 2007-02-06 International Business Machines Corporation Processor power and energy management
US8006074B1 (en) * 2003-12-24 2011-08-23 Altera Corporation Methods and apparatus for executing extended custom instructions
US8984517B2 (en) * 2004-02-04 2015-03-17 Intel Corporation Sharing idled processor execution resources
US7328230B2 (en) * 2004-03-26 2008-02-05 Intel Corporation SIMD four-data element average instruction
JP2006048661A (ja) * 2004-07-06 2006-02-16 Matsushita Electric Ind Co Ltd プロセッサとコプロセッサとの間でのデータ転送を制御する演算処理装置
US7395410B2 (en) * 2004-07-06 2008-07-01 Matsushita Electric Industrial Co., Ltd. Processor system with an improved instruction decode control unit that controls data transfer between processor and coprocessor
US7929518B2 (en) 2004-07-15 2011-04-19 Broadcom Corporation Method and system for a gigabit Ethernet IP telephone chip with integrated DDR interface
US20060179273A1 (en) 2005-02-09 2006-08-10 Advanced Micro Devices, Inc. Data processor adapted for efficient digital signal processing and method therefor
US7543119B2 (en) * 2005-02-10 2009-06-02 Richard Edward Hessel Vector processor
US7996659B2 (en) * 2005-06-06 2011-08-09 Atmel Corporation Microprocessor instruction that allows system routine calls and returns from all contexts
JP2007156824A (ja) 2005-12-05 2007-06-21 Nec Electronics Corp プロセッサシステム、タスク制御方法
US9189291B2 (en) 2005-12-12 2015-11-17 International Business Machines Corporation Sharing a kernel of an operating system among logical partitions
TWI335521B (en) * 2005-12-19 2011-01-01 Via Tech Inc Dsp system with multi-tier accelerator architecture and method for operating the same
DE102005062810B4 (de) * 2005-12-28 2019-06-06 Siemens Aktiengesellschaft Verfahren zum Ansteuern einer Geräte- und Maschinenbaugruppenanordnung
US20080177979A1 (en) * 2006-03-01 2008-07-24 Gheorghe Stefan Hardware multi-core processor optimized for object oriented computing
US8595744B2 (en) * 2006-05-18 2013-11-26 Oracle America, Inc. Anticipatory helper thread based code execution
US7647475B2 (en) * 2006-09-06 2010-01-12 Mips Technologies, Inc. System for synchronizing an in-order co-processor with an out-of-order processor using a co-processor interface store data queue
JP4476267B2 (ja) 2006-10-06 2010-06-09 株式会社日立製作所 プロセッサ及びデータ転送ユニット
US8447957B1 (en) * 2006-11-14 2013-05-21 Xilinx, Inc. Coprocessor interface architecture and methods of operating the same
US7512723B2 (en) * 2006-12-29 2009-03-31 Freescale Semiconductor, Inc. Queued interface devices, multi-core peripheral systems, and methods for sharing a peripheral in a multi-core system
US20080163183A1 (en) * 2006-12-29 2008-07-03 Zhiyuan Li Methods and apparatus to provide parameterized offloading on multiprocessor architectures
US8161482B1 (en) * 2007-04-13 2012-04-17 Marvell International Ltd. Power optimization for multi-core devices
EP2015174B1 (en) * 2007-06-21 2018-03-14 Imsys AB Microprogrammed processor having multiple processor cores using time-shared access to a microprogram control store
US8095735B2 (en) * 2008-08-05 2012-01-10 Convey Computer Memory interleave for heterogeneous computing
US8122229B2 (en) * 2007-09-12 2012-02-21 Convey Computer Dispatch mechanism for dispatching instructions from a host processor to a co-processor
KR101360191B1 (ko) * 2007-08-24 2014-02-07 삼성전자주식회사 코어스 그레인 어레이를 공유하는 방법 및 그 방법을이용한 프로세서
US8694758B2 (en) * 2007-12-27 2014-04-08 Intel Corporation Mixing instructions with different register sizes
US8433884B2 (en) 2008-06-19 2013-04-30 Panasonic Corporation Multiprocessor
US7930519B2 (en) * 2008-12-17 2011-04-19 Advanced Micro Devices, Inc. Processor with coprocessor interfacing functional unit for forwarding result from coprocessor to retirement unit
US8307367B2 (en) * 2009-03-05 2012-11-06 International Business Machines Corporation Smart scheduling of automatic partition migration by the use of timers
WO2010123765A2 (en) 2009-04-20 2010-10-28 Henkel Corporation Thin bond line semiconductor packages
US9208084B2 (en) * 2009-06-29 2015-12-08 Oracle America, Inc. Extended main memory hierarchy having flash memory for page fault handling
JP2011034189A (ja) 2009-07-30 2011-02-17 Renesas Electronics Corp ストリームプロセッサ及びそのタスク管理方法
US8452926B2 (en) * 2009-09-02 2013-05-28 Texas Instruments Incorporated Memory sharing arrangement
US8566836B2 (en) * 2009-11-13 2013-10-22 Freescale Semiconductor, Inc. Multi-core system on chip
US9367462B2 (en) * 2009-12-29 2016-06-14 Empire Technology Development Llc Shared memories for energy efficient multi-core processors
JP2011148920A (ja) 2010-01-22 2011-08-04 Sumitomo Chemical Co Ltd ポリプロピレン樹脂組成物及びポリプロピレン樹脂製フィルム
US9047079B2 (en) 2010-02-19 2015-06-02 International Business Machines Corporation Indicating disabled thread to other threads when contending instructions complete execution to ensure safe shared resource condition
US8615644B2 (en) * 2010-02-19 2013-12-24 International Business Machines Corporation Processor with hardware thread control logic indicating disable status when instructions accessing shared resources are completed for safe shared resource condition
US8533719B2 (en) 2010-04-05 2013-09-10 Oracle International Corporation Cache-aware thread scheduling in multi-threaded systems
US20110249744A1 (en) * 2010-04-12 2011-10-13 Neil Bailey Method and System for Video Processing Utilizing N Scalar Cores and a Single Vector Core
US8904154B2 (en) * 2010-04-16 2014-12-02 Massachusetts Institute Of Technology Execution migration
US8751833B2 (en) * 2010-04-30 2014-06-10 Arm Limited Data processing system
JP5895840B2 (ja) * 2010-05-26 2016-03-30 日本電気株式会社 マルチプロセッサシステム、実行制御方法、実行制御プログラム
US8612730B2 (en) * 2010-06-08 2013-12-17 International Business Machines Corporation Hardware assist thread for dynamic performance profiling
US8359453B2 (en) * 2010-09-13 2013-01-22 International Business Machines Corporation Real address accessing in a coprocessor executing on behalf of an unprivileged process
US8904115B2 (en) * 2010-09-28 2014-12-02 Texas Instruments Incorporated Cache with multiple access pipelines
US9176794B2 (en) 2010-12-13 2015-11-03 Advanced Micro Devices, Inc. Graphics compute process scheduling
US8806503B2 (en) 2011-01-24 2014-08-12 Nec Laboratories America, Inc. Method and system for memory aware runtime to support multitenancy in heterogeneous clusters
US8839057B2 (en) * 2011-02-03 2014-09-16 Arm Limited Integrated circuit and method for testing memory on the integrated circuit
US9471532B2 (en) * 2011-02-11 2016-10-18 Microsoft Technology Licensing, Llc Remote core operations in a multi-core computer
WO2012120573A1 (ja) 2011-03-04 2012-09-13 日本電気株式会社 デッドロック回避方法、デッドロック回避機構
US8683175B2 (en) * 2011-03-15 2014-03-25 International Business Machines Corporation Seamless interface for multi-threaded core accelerators
US9141166B2 (en) * 2011-12-13 2015-09-22 Intel Corporation Method, apparatus, and system for energy efficiency and energy conservation including dynamic control of energy consumption in power domains
US20130307860A1 (en) 2012-03-30 2013-11-21 Mostafa Hagog Preempting Fixed Function Media Devices
US9582287B2 (en) 2012-09-27 2017-02-28 Intel Corporation Processor having multiple cores, shared core extension logic, and shared core extension utilization instructions

Also Published As

Publication number Publication date
CN115858017A (zh) 2023-03-28
GB201500450D0 (en) 2015-02-25
GB201816776D0 (en) 2018-11-28
US20140089635A1 (en) 2014-03-27
US20230052630A1 (en) 2023-02-16
CN104603748B (zh) 2018-10-02
CN109375949A (zh) 2019-02-22
US10901748B2 (en) 2021-01-26
US20190114176A1 (en) 2019-04-18
US10963263B2 (en) 2021-03-30
US11494194B2 (en) 2022-11-08
KR20160141001A (ko) 2016-12-07
JP2019050033A (ja) 2019-03-28
DE112013004751T5 (de) 2015-09-03
KR20150023852A (ko) 2015-03-05
US20220004391A1 (en) 2022-01-06
KR101783576B1 (ko) 2017-09-29
GB2568816B (en) 2020-05-13
JP2017224342A (ja) 2017-12-21
GB2568816A8 (en) 2019-06-19
JP7052170B2 (ja) 2022-04-12
US10061593B2 (en) 2018-08-28
GB2568816B8 (en) 2020-07-08
GB2520852A (en) 2015-06-03
CN104603748A (zh) 2015-05-06
US20190012178A1 (en) 2019-01-10
WO2014051736A1 (en) 2014-04-03
GB2520852B (en) 2020-05-13
CN109375949B (zh) 2023-05-16
US12086603B2 (en) 2024-09-10
US9582287B2 (en) 2017-02-28
JP2015532990A (ja) 2015-11-16
US20170147353A1 (en) 2017-05-25
GB2568816A (en) 2019-05-29

Similar Documents

Publication Publication Date Title
JP7052170B2 (ja) プロセッサおよびシステム
JP6708335B2 (ja) ユーザレベルの分岐及び結合を行うプロセッサ、方法、システム、及び命令
JP6143872B2 (ja) 装置、方法、およびシステム
CN106708753B (zh) 在使用共享虚拟存储器的处理器中加速操作的装置和方法
CN108885586B (zh) 用于以有保证的完成将数据取出到所指示的高速缓存层级的处理器、方法、系统和指令
TWI733760B (zh) 記憶體複製指令、處理器、方法及系統
JP5985526B2 (ja) システムコールのためのロバスト且つ高性能な命令
US10127039B2 (en) Extension of CPU context-state management for micro-architecture state
US20200310817A1 (en) System, Apparatus And Method For Symbolic Store Address Generation For Data-Parallel Processor
US20160378471A1 (en) Instruction and logic for execution context groups for parallel processing
JP2016532233A (ja) アドレスへの書き込みに対する監視命令を実行するスケーラブル機構
US20170371701A1 (en) Apparatuses, methods, and systems for granular and adaptive hardware transactional synchronization
US11126438B2 (en) System, apparatus and method for a hybrid reservation station for a processor
US20210200538A1 (en) Dual write micro-op queue
EP4202664B1 (en) System, apparatus and method for throttling fusion of micro-operations in a processor
CN114489793A (zh) 通过应用直接编程的用户定时器

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160412

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160517

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20160817

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20161014

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161117

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20170418

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170817

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20170825

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171010

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171016

R150 Certificate of patent or registration of utility model

Ref document number: 6240964

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250