JP6738579B2 - 命令フローを最適化するチェックを実行するための装置および方法 - Google Patents

命令フローを最適化するチェックを実行するための装置および方法 Download PDF

Info

Publication number
JP6738579B2
JP6738579B2 JP2017527720A JP2017527720A JP6738579B2 JP 6738579 B2 JP6738579 B2 JP 6738579B2 JP 2017527720 A JP2017527720 A JP 2017527720A JP 2017527720 A JP2017527720 A JP 2017527720A JP 6738579 B2 JP6738579 B2 JP 6738579B2
Authority
JP
Japan
Prior art keywords
instruction
operand
sequence
operations
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017527720A
Other languages
English (en)
Other versions
JP2018507453A (ja
Inventor
コーベル、ジーザス
エヌ. ハネク、ロバート
エヌ. ハネク、ロバート
イー. ファーガスン、ワーレン
イー. ファーガスン、ワーレン
バーラミ、タラネー
エイ. テベット、アヴィ
エイ. テベット、アヴィ
アール. ブラッドフォード、デニス
アール. ブラッドフォード、デニス
フェリー、マイケル
ジャン、ジンヴェ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of JP2018507453A publication Critical patent/JP2018507453A/ja
Application granted granted Critical
Publication of JP6738579B2 publication Critical patent/JP6738579B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/3001Arithmetic instructions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/3001Arithmetic instructions
    • G06F9/30014Arithmetic instructions with variable precision
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30076Arrangements for executing specific machine instructions to perform miscellaneous control operations, e.g. NOP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30145Instruction analysis, e.g. decoding, instruction word fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30181Instruction operation extension or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3861Recovery, e.g. branch miss-prediction, exception handling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45504Abstract machines for programme code execution, e.g. Java virtual machine [JVM], interpreters, emulators
    • G06F9/45516Runtime code conversion or optimisation
    • G06F9/4552Involving translation to a different instruction set architecture, e.g. just-in-time translation in a JVM
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45504Abstract machines for programme code execution, e.g. Java virtual machine [JVM], interpreters, emulators
    • G06F9/45516Runtime code conversion or optimisation
    • G06F9/45525Optimisation or modification within the same instruction set architecture, e.g. HP Dynamo

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Executing Machine-Instructions (AREA)
  • Advance Control (AREA)

Description

本発明は、概ねコンピュータプロセッサの分野に関する。より具体的には、本発明は、命令フローを最適化するチェックを実行するための方法および装置に関する。
命令セットまたは命令セットアーキテクチャ(ISA)は、ネイティブなデータタイプ、命令、レジスタアーキテクチャ、アドレス指定モード、メモリアーキテクチャ、割り込みおよび例外処理、ならびに外部入出力(I/O)を含むプログラミングに関連するコンピュータアーキテクチャの一部である。本明細書において「命令」という用語は、一般に、マクロ命令をデコードするプロセッサデコーダの結果であるマイクロ命令またはマイクロオプとは異なり、実行のためにプロセッサに提供される命令であるマクロ命令を指すことに留意されたい。マイクロ命令またはマイクロオプは、プロセッサ上の実行ユニットにマクロ命令に関連するロジックを実装するためのオペレーションの実行を命令するように構成され得る。
ISAは、命令セットを実装するべく用いられるプロセッサ設計技術のセットであるマイクロアーキテクチャとは区別される。異なるマイクロアーキテクチャを有するプロセッサは、共通の命令セットを共有し得る。例えば、インテル(登録商標)PENTIUM(登録商標)4プロセッサ、インテル(登録商標)Core(商標)プロセッサ、およびカリフォルニア州サニーベールにあるAdvanced Micro Devices,Incのプロセッサは、ほぼ同一のバージョンのx86命令セット(より新しいバージョンに追加されたいくつかの拡張を伴う)を実装するが、異なる内部設計を有する。例えば、ISAの同一のレジスタアーキテクチャは、専用物理レジスタ、レジスタリネームメカニズム(例えば、レジスタエイリアステーブル(RAT)、リオーダバッファ(ROB)、およびリタイアメントレジスタファイルの使用)等を用いる1または複数の動的に割り当てられる物理レジスタを含む周知技術を用いて、異なる態様で異なるマイクロアーキテクチャに実装され得る。別途指定されない限り、レジスタアーキテクチャ、レジスタファイル、およびレジスタという文言は、本明細書においてソフトウェア/プログラマに可視であるもの、および命令がレジスタを指定する態様に言及するために用いられる。区別が必要とされる場合、「論理的」、「アーキテクチャの」、または「可視のソフトウェア」という形容詞は、レジスタアーキテクチャにおけるレジスタ/ファイルを示すために用いられるが、異なる形容詞が所与のマイクロアーキテクチャ(例えば、物理レジスタ、リオーダバッファ、リタイアメントレジスタ、レジスタプール)におけるレジスタを指すために用いられる。
命令セットは、1または複数の命令フォーマットを含む。所与の命令フォーマットは、とりわけ、実行されるオペレーションおよび当該オペレーションが実行されるオペランドを指定する様々なフィールド(ビットの数、ビットの位置)を定義する。いくつかの命令フォーマットは、命令テンプレート(またはサブフォーマット)の定義により更に分類される。例えば、所与の命令フォーマットの命令テンプレートは、異なるサブセットの命令フォーマットのフィールドを有するものと定義され(含まれるフィールドは、通常は同じ順序であるが、少なくともいくつかは、より少ないフィールドが含まれているので、異なるビット位置を有する)、および/または異なる解釈をされる所与のフィールドを有するものと定義され得る。所与の命令は、所与の命令フォーマットを用いて(および定義されている場合には、当該命令フォーマットの命令テンプレートのうちの所与の1つで)表され、オペレーションおよびオペランドを指定する。命令ストリームは、命令の特定のシーケンスであり、シーケンスにおける各命令は、命令フォーマットにおける命令の発生である(定義される場合、当該命令フォーマットの命令テンプレートのうちの所与の1つ)。
本発明のより良い理解は、以下の図面と併せて以下の詳細な説明から得られ得る。
本発明の実施形態による一般的ベクトル向け命令フォーマットおよびその命令テンプレートを示すブロック図である。 本発明の実施形態による一般的ベクトル向け命令フォーマットおよびその命令テンプレートを示すブロック図である。
本発明の実施形態による、例示的な特定ベクトル向け命令フォーマットを示すブロック図である。 本発明の実施形態による、例示的な特定ベクトル向け命令フォーマットを示すブロック図である。 本発明の実施形態による、例示的な特定ベクトル向け命令フォーマットを示すブロック図である。 本発明の実施形態による、例示的な特定ベクトル向け命令フォーマットを示すブロック図である。
本発明の一実施形態によるレジスタアーキテクチャのブロック図である。
本発明の実施形態による、例示的なインオーダフェッチ、デコード、リタイアパイプライン、および例示的なレジスタリネーム、アウトオブオーダ発行/実行パイプラインの両方を示すブロック図である。
本発明の実施形態による、プロセッサに含まれるべきインオーダフェッチ、デコード、リタイアコアの例示的な実施形態、および例示的なレジスタリネーム、アウトオブオーダ発行/実行アーキテクチャコアの両方を示すブロック図である。
オンダイ相互接続ネットワークとの接続を伴うシングルプロセッサコアのブロック図である。
本発明の実施形態による図5Aのプロセッサコアの一部の拡大図を示す。
本発明の実施形態による統合メモリコントローラおよびグラフィックスを用いるシングルコアプロセッサおよびマルチコアプロセッサのブロック図である。
本発明の一実施形態によるシステムのブロック図を示す。
本発明の実施形態による第2のシステムのブロック図を示す。
本発明の実施形態による第3のシステムのブロック図を示す。
本発明の実施形態によるシステムオンチップ(SoC)のブロック図を示す。
本発明の実施形態による、ソース命令セットのバイナリ命令を、ターゲット命令セットのバイナリ命令に変換するソフトウェア命令コンバータの使用と対比するブロック図を示す。
本発明の実施形態が実装され得る例示的なプロセッサを示す。
命令の入力をチェックし、これに応じて次の命令シーケンスを決定するのに使用できる出力のセットを生成するための命令チェックロジックを示す。
異なるタイプの入力値に対する除算チェック命令に対して生成される出力を示す。
異なるタイプの入力値のための平方根チェック命令に対して生成される出力を示す。
チェックオペレーションを実行し、第1の命令シーケンスまたは第2の命令シーケンスを選択するための方法の一実施形態を示す。
以下の説明において、説明の目的のために、下記の本発明の実施形態の完全な理解を提供するべく、多数の具体的な詳細が記載される。しかし、当業者には、本発明の実施形態がこれらの具体的な詳細のいくつかを用いることなく実施され得ることが明らかであろう。本発明の実施形態の基礎となる原理を不明瞭にするのを避けるべく、他の例において、周知の構造およびデバイスがブロック図の形態で示される。
例示的なプロセッサアーキテクチャおよびデータタイプ
命令セットは、1または複数の命令フォーマットを含む。所与の命令フォーマットは、とりわけ、実行されるオペレーション(オペコード)および当該オペレーションが実行されるオペランドを指定する様々なフィールド(ビットの数、ビットの位置)を定義する。いくつかの命令フォーマットは、命令テンプレート(またはサブフォーマット)の定義により更に分類される。例えば、所与の命令フォーマットの命令テンプレートは、異なるサブセットの命令フォーマットのフィールド(含まれるフィールドは、通常は同じ順序であるが、少なくともいくつかは、より少ないフィールドが含まれているので、異なるビット位置を有する)を有するものと定義され、および/または異なる解釈をされる所与のフィールドを有するものと定義され得る。従って、ISAの各命令は、所与の命令フォーマットを用いて(および定義される場合には、当該命令フォーマットの命令テンプレートのうちの所与の1つで)表され、オペレーションおよびオペランドを指定するためのフィールドを含む。例えば、例示的なADD命令は、特定のオペコード、ならびに当該オペコードを指定するオペコードフィールドおよびオペランド(ソース1/デスティネーション、およびソース2)を選択するオペランドフィールドを含む命令フォーマットを有する。命令ストリームにおけるこのADD命令が生じることにより、特定のオペランドを選択するオペランドフィールドに特定の内容を有する。Advanced Vector Extensions(AVX)(AVX1およびAVX2)と呼ばれ、ベクトル拡張(VEX)符号化スキームを用いるSIMD拡張のセットが、リリースおよび/または公開されている(例えば、Intel(登録商標)64 and IA−32 Architectures Software Developers Manual,October 2011およびIntel(登録商標)Advanced Vector Extensions Programming Reference,June 2011を参照されたい)。
例示的な命令フォーマット
本明細書に説明される命令の実施形態は、異なるフォーマットで実施され得る。更に、例示的なシステム、アーキテクチャ、およびパイプラインが以下に詳述される。命令の実施形態は、そのようなシステム、アーキテクチャ、およびパイプライン上で実行され得るが、詳述されるものに限定されない。
A.一般的ベクトル向け命令フォーマット
ベクトル向け命令フォーマットは、ベクトル命令に好適な命令フォーマットである。(例えば、ベクトルオペレーションに固有の一定のフィールドが存在する)。ベクトルおよびスカラオペレーションの両方がベクトル向け命令フォーマットによりサポートされる実施形態が説明されるが、代替的な実施形態は、ベクトル向け命令フォーマットによるベクトルオペレーションのみを用いる。
図1A〜図1Bは、本発明の実施形態による一般的ベクトル向け命令フォーマットおよびその命令テンプレートを示すブロック図である。図1Aは、本発明の実施形態による、一般的ベクトル向け命令フォーマット、およびそのクラスA命令テンプレートを示すブロック図である。図1Bは、本発明の実施形態による、一般的ベクトル向け命令フォーマット、およびそのクラスB命令テンプレートを示すブロック図である。具体的には、クラスAおよびクラスB命令テンプレートは、一般的ベクトル向け命令フォーマット100に対して定義され、これらの両方は、非メモリアクセス105の命令テンプレートおよびメモリアクセス120の命令テンプレートを含む。ベクトル向け命令フォーマットの文脈における一般的という用語は、いずれの特定の命令セットにも関係しない命令フォーマットを指す。
ベクトル向け命令フォーマットが、32ビット(4バイト)または64ビット(8バイト)のデータ要素幅(またはサイズ)を有する64バイトのベクトルオペランド長(またはサイズ)(従って、64バイトのベクトルは、16個のダブルワードサイズの要素、または代替的に8クワッドワードサイズの要素のいずれかからなる)、16ビット(2バイト)または8ビット(1バイト)のデータ要素幅(またはサイズ)を有する64バイトのベクトルオペランド長(またはサイズ)、32ビット(4バイト)、64ビット(8バイト)、16ビット(2バイト)、または8ビット(1バイト)のデータ要素幅(またはサイズ)を有する32バイトのベクトルオペランド長(またはサイズ)、および32ビット(4バイト)、64ビット(8バイト)、16ビット(2バイト)、または8ビット(1バイト)のデータ要素幅(またはサイズ)を有する16バイトのベクトルオペランド長(またはサイズ)をサポートする本発明の実施形態が説明されるが、代替的な実施形態は、より多い、より少ない、または異なるデータ要素幅(例えば、128ビット(16バイト)のデータ要素幅)を有するより多い、より少ない、および/または異なるベクトルオペランドサイズ(例えば、256バイトのベクトルオペランド)をサポートし得る。
図1AにおけるクラスA命令テンプレートは、1)非メモリアクセス105の命令テンプレート中に示される非メモリアクセス、フルラウンド制御タイプオペレーション110の命令テンプレート、および非メモリアクセス、データ変換タイプオペレーション115の命令テンプレート、ならびに2)メモリアクセス120の命令テンプレート中に示されるメモリアクセス、一時的125の命令テンプレート、およびメモリアクセス、非一時的130の命令テンプレートを含む。図1BのクラスB命令テンプレートは、1)非メモリアクセス105の命令テンプレート中に示される非メモリアクセス、ライトマスク制御、部分的ラウンド制御タイプオペレーション112の命令テンプレート、および非メモリアクセス、ライトマスク制御、VSIZEタイプオペレーション117の命令テンプレート、ならびに2)メモリアクセス120の命令テンプレート中に示されるメモリアクセス、ライトマスク制御127の命令テンプレートを含む。
一般的ベクトル向け命令フォーマット100は、図1A〜図1Bにおいて示される順序で以下に列挙される、次のフィールドを含む。
フォーマットフィールド140。このフィールドにおける特定の値(命令フォーマット識別子の値)は、ベクトル向け命令フォーマット、従って、命令ストリーム中のベクトル向け命令フォーマットにおける命令の発生を一意に識別する。従って、このフィールドは、一般的ベクトル向け命令フォーマットのみを有する命令セットに必要とされないという意味で任意選択である。
ベースオペレーションフィールド142。その内容は、異なるベースオペレーションを区別する。
レジスタインデックスフィールド144。その内容は、レジスタ内であれ、メモリ内であれ、直接に、またはアドレス生成により、ソースオペランドおよびデスティネーションオペランドの位置を指定する。これらは、PxQ(例えば、32x512、16x128、32x1024、64x1024)のレジスタファイルからN個のレジスタを選択するのに十分な数のビットを含む。一実施形態においては、Nは、最大で3つのソースおよび1つのデスティネーションレジスタであり得るが、代替的な実施形態は、より多いかまたはより少ないソースおよびデスティネーションレジスタをサポートし得る(例えば、最大で2つのソースをサポートし得、この場合、これらのソースのうちの1つは、デスティネーションとしても機能し、最大で3つのソースをサポートし得、この場合、これらのソースのうちの1つは、デスティネーションとしても機能し、最大で2つのソースおよび1つのデスティネーションをサポートし得る)。
修飾子フィールド146。その内容は、一般的ベクトル命令フォーマット中におけるメモリアクセスを指定する命令の発生とメモリアクセスを指定しない命令の発生とを、すなわち、非メモリアクセス105の命令テンプレートとメモリアクセス120の命令テンプレートを区別する。メモリアクセスオペレーションは、メモリ階層を読み出し、および/またはこれに書き込むが(いくつかの場合には、レジスタにおける値を用いて、ソースアドレスおよび/またはデスティネーションアドレスを指定する)、非メモリアクセスオペレーションは、これを行わない(例えば、ソースおよびデスティネーションは、レジスタである)。また、一実施形態において、このフィールドは、3つの異なる態様を選択し、メモリアドレス計算を実行するが、代替的な実施形態は、より多い、より少ない、または異なる態様をサポートし、メモリアドレス計算を実行し得る。
追加オペレーションフィールド150。その内容は、ベースオペレーションに加えて、種々様々な異なるオペレーションのうちのどれが実行されるかを区別する。このフィールドは、コンテキストに固有である。本発明の一実施形態において、このフィールドは、クラスフィールド168、アルファフィールド152、およびベータフィールド154に分割される。追加オペレーションフィールド150は、オペレーションの共通グループが2、3、または4つの命令ではなく、単一の命令で実行されることを可能にする。
スケールフィールド160。その内容は、メモリアドレス生成のための(例えば、2scale*index+baseを用いるアドレス生成のための)インデックスフィールド内容のスケーリングを可能にする。
変位フィールド162A。その内容は、メモリアドレス生成の一部として(例えば、2scale*index+base+displacementを用いるアドレス生成に)用いられる。
変位係数フィールド162B(変位係数フィールド162Bの直ぐ上に変位フィールド162Aを並置することにより、一方または他方が使用されることを示すことに留意されたい)。その内容は、アドレス生成の一部として用いられる。変位係数フィールド162Bは、メモリアクセス(N)のサイズに対して調整される変位係数を指定する。Nは、(例えば、2scale*index+base+scaled displacementを用いるアドレス生成のための)メモリアクセスにおけるバイトの数である。冗長下位ビットは、無視され、従って、変位係数フィールドの内容は、有効なアドレスを計算するときに使用される最終的変位を生成するべく、メモリオペランドの合計サイズ(N)で乗算される。Nの値は、フルオペコードフィールド174(本明細書において後述される)およびデータ操作フィールド154Cに基づいて、ランタイムでプロセッサハードウェアにより決定される。変位フィールド162Aおよび変位係数フィールド162Bは、非メモリアクセス105の命令テンプレートに用いられず、および/または異なる実施形態が1つのみまたは2つのうちいずれも実装しない場合があるという意味で任意選択である。
データ要素幅フィールド164。その内容は、(いくつかの実施形態において全ての命令に対して、他の実施形態において命令のうちいくつかのみに対して)いくつかのデータ要素幅のうちのどれが用いられるかを区別する。このフィールドは、1つのデータ要素幅のみがサポートされ、および/またはオペコードのいくつかの態様を用いて、データ要素幅がサポートされる場合には必要とされないという意味で任意選択である。
ライトマスクフィールド170。その内容は、データ要素位置ベースで、デスティネーションベクトルオペランドにおける当該データ要素位置がベースオペレーションおよび追加オペレーションの結果を反映するか否かを制御する。クラスA命令テンプレートは、マージング・ライトマスキングをサポートするが、クラスB命令テンプレートは、マージングおよびゼロ書き込みマスキングの両方をサポートする。マージングする場合、ベクトルマスクは、デスティネーションにおける要素の任意のセットが(ベースオペレーションおよび追加オペレーションにより指定された)任意のオペレーションの実行中に更新から保護されることを可能にする。他の一実施形態では、対応するマスクビットが0を有するデスティネーションの各要素の古い値を保持する。対照的に、ゼロ書き込みする場合、ベクトルマスクは、デスティネーションにおける要素の任意のセットが(ベースオペレーションおよび追加オペレーションにより指定された)任意のオペレーションの実行中にゼロにされることを可能にする。一実施形態において、対応するマスクビットが0の値を有する場合、デスティネーションの要素は、0に設定される。この機能のサブセットは、実行されるオペレーションのベクトル長を制御する能力である(すなわち、要素のスパンは、最初のものから最後のものに変更される)。しかし、変更される要素が連続している必要はない。従って、ライトマスクフィールド170は、ロード、ストア、演算、論理等を含む部分的ベクトルオペレーションを可能にする。本発明の実施形態は、ライトマスクフィールド170の内容が、用いられるべきライトマスクを含むいくつかのライトマスクレジスタのうちの1つを選択する(従って、ライトマスクフィールド170の内容が実行されるべき当該マスキングを間接的に識別する)ものとして説明されているが、代替的な実施形態はこれに代えて、または更に、マスクライトフィールド170の内容が実行されるべきマスキングを直接に指定することを可能にする。
即値フィールド172。その内容は、即値の指定を可能にする。このフィールドは、即値をサポートしない一般的ベクトル向けフォーマットの実装において存在せず、即値を用いない命令中に存在しないという意味で任意選択である。
クラスフィールド168。その内容は、命令の異なるクラスを区別する。図1A〜図1Bを参照すると、このフィールドの内容は、クラスA命令またはクラスB命令を選択する。図1A〜図1Bにおいて、角が丸い四角形は、特定の値がフィールド内に存在することを示すべく用いられる(例えば、図1Aおよび図1Bにおけるクラスフィールド168のクラスA168AおよびクラスB168Bの各々)。
クラスAの命令テンプレート
クラスAの非メモリアクセス105の命令テンプレートの場合に、アルファフィールド152は、RSフィールド152Aとして解釈され、その内容は、異なる追加オペレーションタイプのうちのどれが実行されるかを区別するが(例えば、ラウンド152A.1およびデータ変換152A.2は、各々、非メモリアクセス、ラウンドタイプオペレーション110、および非メモリアクセス、データ変換タイプオペレーション115の命令テンプレートに対して指定される)、ベータフィールド154は、指定されたタイプのオペレーションのうちいずれが実行されるかを区別する。非メモリアクセス105の命令テンプレートにおいて、スケールフィールド160、変位フィールド162A、および変位スケールフィールド162Bは、存在しない。
非メモリアクセス命令テンプレート‐フルラウンド制御タイプオペレーション 非メモリアクセスのフルラウンド制御タイプオペレーション110の命令テンプレートにおいて、ベータフィールド154は、ラウンド制御フィールド154Aとして解釈され、その内容は、静的ラウンドを提供する。本発明の説明される実施形態において、ラウンド制御フィールド154Aは、抑圧全浮動小数点例外(SAE)フィールド156およびラウンドオペレーション制御フィールド158を含み、代替的な実施形態は、これら両方のコンセプトをサポートおよびエンコードして同一のフィールドとすることができ、またはこれらのコンセプト/フィールドのうち一方または他方のみを有し得る(例えば、ラウンドオペレーション制御フィールド158のみを有し得る)。
SAEフィールド156。その内容は、例外イベント報告を無効にするか否かを区別する。SAEフィールド156の内容が、抑圧が有効にされたことを示す場合、所与の命令は、いずれの種類の浮動小数点例外フラグも報告せず、いずれの浮動小数点例外ハンドラも立ち上げない。
ラウンドオペレーション制御フィールド158。その内容は、ラウンドオペレーション(例えば、ラウンドアップ、ラウンドダウン、ゼロへのラウンド、および近似値へのラウンド)のグループのうちのどれが実行されるべきかを区別する。このように、ラウンドオペレーション制御フィールド158は、命令ベースでラウンドモードの変更を可能にする。プロセッサがラウンドモードを指定する制御レジスタを含む本発明の一実施形態において、ラウンドオペレーション制御フィールド150の内容は、当該レジスタの値を上書きする。
非メモリアクセス命令テンプレート‐データ変換タイプオペレーション 非メモリアクセスのデータ変換タイプオペレーション115の命令テンプレートにおいて、ベータフィールド154は、データ変換フィールド154Bとして解釈され、その内容は、いくつかのデータ変換のうちのどれが実行されるかを区別する(例えば、非データ変換、スウィズル、ブロードキャスト)。
クラスAのメモリアクセス120の命令テンプレートの場合、アルファフィールド152は、エビクションヒントフィールド152Bとして解釈され、その内容は、エビクションヒントのうちのどれが用いられるかを区別するが(図1Aにおいて、一時的152B.1および非一時的152B.2は、各々、メモリアクセス、一時的125の命令テンプレート、およびメモリアクセス、非一時的130の命令テンプレートに対して指定される)、ベータフィールド154は、データ操作フィールド154Cとして解釈され、その内容は、いくつかのデータ操作オペレーション(プリミティブとしても知られる)のうちのどれが実行されるかを区別する(例えば、操作なし、ブロードキャスト、ソースのアップコンバージョン、およびデスティネーションのダウンコンバージョン)。メモリアクセス120の命令テンプレートは、スケールフィールド160を含み、変位フィールド162Aまたは変位スケールフィールド162Bを任意選択で含む。
ベクトルメモリ命令は、変換サポートを用いて、メモリからのベクトルロードおよびメモリへのベクトルストアを実行する。通常のベクトル命令の場合のように、ベクトルメモリ命令は、データ要素の様式で、メモリから/にデータを転送し、実際に転送される要素は、ライトマスクとして選択されるベクトルマスクの内容により規定される。
メモリアクセス命令テンプレート‐一時的 一時的データは、キャッシュから利益を得るのに十分なほど速やかに再利用される可能性が高いデータである。しかし、これはヒントであり、異なるプロセッサは、ヒントを完全に無視することを含め、異なる態様で一時的データを実装してもよい。
メモリアクセス命令テンプレート‐非一時的 非一時的データは、レベル1のキャッシュにおけるキャッシュから利益を得るのに十分なほど速やかに再利用される可能性が低いデータであり、追い出しの優先権を与えられるべきである。しかし、これはヒントであり、異なるプロセッサは、ヒントを完全に無視することを含め、異なる態様で非一時的データを実装してもよい。
クラスBの命令テンプレート クラスBの命令テンプレートの場合、アルファフィールド152は、ライトマスク制御(Z)フィールド152Cとして解釈され、その内容は、ライトマスクフィールド170により制御されるライトマスキングがマージングであるべきか、またはゼロ書き込みであるべきかを区別する。
クラスBの非メモリアクセス105の命令テンプレートの場合、ベータフィールド154の一部は、RLフィールド157Aとして解釈され、その内容は、異なる追加オペレーションタイプのどれが実行されるかを区別するが(例えば、ラウンド157A.1およびベクトル長(VSIZE)157A.2は各々、非メモリアクセス、ライトマスク制御、部分的ラウンド制御タイプオペレーション112の命令テンプレート、および非メモリアクセス、ライトマスク制御、VSIZEタイプオペレーション117の命令テンプレートに対して指定される)、ベータフィールド154の残りは、指定されたタイプのどのオペレーションが実行されるかを区別する。非メモリアクセス105の命令テンプレートにおいて、スケールフィールド160、変位フィールド162A、および変位スケールフィールド162Bは、存在しない。
非メモリアクセス、ライトマスク制御、部分的ラウンド制御タイプオペレーション110の命令テンプレートにおいて、ベータフィールド154の残りは、ラウンドオペレーションフィールド159Aとして解釈され、例外イベント報告は、無効にされる(所与の命令は、いずれの種類の浮動小数点例外フラグも報告せず、いずれの浮動小数点例外ハンドラも立ち上げない)。
ラウンドオペレーション制御フィールド159A。ちょうどラウンドオペレーション制御フィールド158のように、その内容は、ラウンドオペレーション(例えば、ラウンドアップ、ラウンドダウン、ゼロへのラウンド、および近似値へのラウンド)のグループのうちのどれが実行されるべきかを区別する。このように、ラウンドオペレーション制御フィールド159Aは、命令ベースでラウンドモードの変更を可能にする。プロセッサがラウンドモードを指定する制御レジスタを含む本発明の一実施形態において、ラウンドオペレーション制御フィールド150の内容は、そのレジスタの値を上書きする。
非メモリアクセス、ライトマスク制御、VSIZEタイプオペレーション117の命令テンプレートにおいて、ベータフィールド154の残りは、ベクトル長フィールド159Bとして解釈され、その内容は、いくつかのデータベクトル長のうちのどれが実行されるかを区別する(例えば、128、256、または512バイト)。
クラスBのメモリアクセス120の命令テンプレートの場合、ベータフィールド154の一部は、ブロードキャストフィールド157Bとして解釈され、その内容は、ブロードキャストタイプのデータ操作オペレーションが実行されるべきか否かを区別するが、ベータフィールド154の残りは、ベクトル長フィールド159Bとして解釈される。メモリアクセス120の命令テンプレートは、スケールフィールド160を含み、変位フィールド162Aまたは変位スケールフィールド162Bを任意選択で含む。
一般的ベクトル向け命令フォーマット100に関連して、フォーマットフィールド140、ベースオペレーションフィールド142、およびデータ要素幅フィールド164を含む、フルオペコードフィールド174が示される。一実施形態として、フルオペコードフィールド174がこれらのフィールドの全てを含むものが示されているが、これら全てをサポートしない実施形態において、フルオペコードフィールド174は、これらのフィールド全てより少ないものを含む。フルオペコードフィールド174は、オペレーションコード(オペコード)を提供する。
追加オペレーションフィールド150、データ要素幅フィールド164、およびライトマスクフィールド170は、一般的ベクトル向け命令フォーマットにおける命令ベースで、これらの機能が指定されることを可能にする。
ライトマスクフィールドおよびデータ要素幅フィールドを組み合わせることで、マスクが異なるデータ要素幅に基づいて適用されることを可能にするように、型付き命令を生成する。
クラスAおよびクラスB内に見出される様々な命令テンプレートは、異なる状況において有益である。本発明のいくつかの実施形態において、異なるプロセッサまたはプロセッサ内の異なるコアは、クラスAのみ、クラスBのみ、または両方のクラスをサポートし得る。例えば、汎用演算用の高性能汎用アウトオブオーダコアは、クラスBのみをサポートし得、主にグラフィックスおよび/またはサイエンティフィック(スループット)演算用のコアは、クラスAのみをサポートし得、両方用のコアは、両方をサポートし得る(勿論、両方のクラスの全てのテンプレートおよび命令ではないが、両方のクラスのテンプレートおよび命令のいくつかのミックスを有するコアは、本発明の範囲内である)。また、シングルプロセッサは、複数のコアを含み得、これらの全てが同じクラスをサポートし、または異なるコアが異なるクラスをサポートする。例えば、別個のグラフィックスコアおよび汎用コアを有するプロセッサにおいて、主にグラフィックスおよび/またはサイエンティフィック演算用のグラフィックスコアのうちの1つは、クラスAのみをサポートし得るが、汎用コアのうちの1または複数は、クラスBのみをサポートする汎用演算用のアウトオブオーダ実行およびレジスタリネームを用いる高性能汎用コアであり得る。別個のグラフィックスコアを有しない別のプロセッサは、クラスAおよびクラスBの両方をサポートする、もう1つの汎用インオーダまたはオウトオブオーダのコアを含み得る。勿論、本発明の異なる実施形態において、あるクラスの機能は、他のクラスにおいても実装され得る。高水準言語で書かれたプログラムは、1)実行のためにターゲットプロセッサによりサポートされるクラスの命令のみを有する形式、または2)全てのクラスの命令の異なる組み合わせを用いて書かれた代替的なルーチンを有し、現在、コードを実行しているプロセッサによりサポートされる命令に基づいて、実行するルーチンを選択する制御フローコードを有する形式を含む、種々様々な実行可能な形式にされる(例えば、実行時コンパイルまたは静的コンパイル)。
B.例示的な特定ベクトル向け命令フォーマット
図2A〜図2Dは、本発明の実施形態による例示的な特定ベクトル向け命令フォーマットを示すブロック図である。図2A〜図2Dは、フィールドの位置、サイズ、解釈、および順序、ならびにそれらのフィールドのいくつかに対する値を指定するという意味で具体的な特定ベクトル向け命令フォーマット200を示す。特定ベクトル向け命令フォーマット200は、x86命令セットを拡張するために用いられ得、従ってフィールドのうちのいくつかは、既存のx86命令セットおよびその拡張(例えば、AVX)において用いられるものと類似するか、または同じである。このフォーマットは、拡張された既存のx86命令セットのプレフィックスエンコードフィールド、リアルオペコードバイトフィールド、MOD R/Mフィールド、SIBフィールド、変位フィールド、および即値フィールドとの整合性を保つ。図2A〜図2Dがフィールドにマッピングされる図1A〜図1Bのフィールドが示される。
本発明の実施形態は、例示的目的で一般的ベクトル向け命令フォーマット100の文脈において、特定ベクトル向け命令フォーマット200を参照して説明されるが、本発明は、特許請求される場合を除き、特定ベクトル向け命令フォーマット200に限定されないことを理解されたい。例えば、一般的ベクトル向け命令フォーマット100は、様々なフィールドのために考えられる様々なサイズを企図するが、特定ベクトル向け命令フォーマット200は、特定サイズのフィールドを有するものとして示される。具体的な例として、データ要素幅フィールド164は、特定ベクトル向け命令フォーマット200における1つのビットフィールドとして示されるが、本発明は、そのようには限定されない(すなわち、一般的ベクトル向け命令フォーマット100は、他のサイズのデータ要素幅フィールド164を企図する)。
一般的ベクトル向け命令フォーマット100は、図2Aにおいて示される順序で以下に列挙される、次のフィールドを含む。
EVEXプレフィックス(バイト0〜3)202。4バイト形式でエンコードされる。
フォーマットフィールド140(EVEXバイト0、ビット[7:0])。最初のバイト(EVEXバイト0)は、フォーマットフィールド140であり、0x62を含む(本発明の一実施形態において、ベクトル向け命令フォーマットを区別するべく用いられる一意な値)。
第2〜第4のバイト(EVEXバイト1〜3)は、特定の能力を提供するいくつかのビットフィールドを含む。
REXフィールド205(EVEXバイト1、ビット[7−5])は、EVEX.Rビットフィールド(EVEXバイト1、ビット[7]−R)、EVEX.Xビットフィールド(EVEXバイト1、ビット[6]−X)、およびEVEXバイト1、ビット[5]−B)からなる。EVEX.R、EVEX.X、およびEVEX.Bのビットフィールドは、対応するVEXビットフィールドと同一の機能性を提供し、1の補数形式を用いてエンコードされる。すなわち、ZMM0は、1111Bとしてエンコードされ、ZMM15は、0000Bとしてエンコードされる。命令の他のフィールドは、当技術分野で既知のレジスタインデックスの下位の3つのビット(rrr、xxx、およびbbb)をエンコードし、従って、Rrrr、Xxxx、およびBbbbは、EVEX.R、EVEX.X、およびEVEX.Bを加えることにより形成され得る。
REX'フィールド110。これはREX'フィールド110の第1の部分であり、拡張された32個のレジスタセットの上位の16個または下位の16個のいずれかをエンコードするために用いられるEVEX.R'ビットフィールド(EVEXバイト1、ビット[4]−R')である。本発明の一実施形態において、このビットは、以下に示される他のものと共に、(周知のx86の32ビットモードで)BOUND命令から区別するべく、ビット反転フォーマットで格納される。BOUND命令のリアルオペコードバイトは62であるが、MOD R/Mフィールド(下記)にはMODフィールドにおける11の値を受け付けない。本発明の代替的な実施形態は、これおよび以下に示される他のビットを反転フォーマットで格納しない。1の値は、下位の16個のレジスタをエンコードするべく用いられる。換言すると、R'Rrrrは、EVEX.R'、EVEX.R、および他のフィールドの他のRRRを組み合わせることにより形成される。
オペコードマップフィールド215(EVEXバイト1、ビット[3:0]−mmmm)。その内容は、暗黙に示される先頭オペコードバイト(0F、0F38、または0F3)をエンコードする。
データ要素幅フィールド164(EVEXバイト2、ビット[7]−W)は、EVEX.Wという表記により表される。EVEX.Wは、データタイプの粒度(サイズ)(32ビットのデータ要素または64ビットのデータ要素のいずれか)を定義するべく用いられる。
EVEX.vvvv220(EVEXバイト2、ビット[6:3]−vvvv)。EVEX.vvvvの役割は、以下を含み得る。1)EVEX.vvvvは、反転(1の補数)形式で指定された第1のソースレジスタオペランドをエンコードし、2またはそれより多いソースオペランドを用いる命令に対して有効である。2)EVEX.vvvvは、一定の複数のベクトルシフトに対して1の補数形式で指定されたデスティネーションレジスタオペランドをエンコードする。または3)EVEX.vvvvは、いずれのオペランドもエンコードせず、フィールドは予約され、1111bを含むはずである。従って、EVEX.vvvvフィールド220は、反転(1の補数)形式で格納された第1のソースレジスタ指定子の4つの下位ビットをエンコードする。命令に応じて、指定子サイズを32個のレジスタに拡張するべく、追加の異なるEVEXビットフィールドが用いられる。
EVEX.U168クラスフィールド(EVEXバイト2、ビット[2]−U)。EVEX.U=0である場合、クラスAまたはEVEX.U0を示す。EVEX.U=1である場合、クラスBまたはEVEX.U1を示す。
プレフィックスエンコードフィールド225(EVEXバイト2、ビット[1:0]−pp)は、ベースオペレーションフィールドのために追加ビットを提供する。EVEXプレフィックスフォーマットでレガシSSE命令のためのサポートを提供することに加えて、これは、SIMDプレフィックスを圧縮するという利益も有する(EVEXプレフィックスは、SIMDプレフィックスを表すバイトを必要とするのではなく、2ビットのみを必要とする)。一実施形態において、レガシフォーマットおよびEVEXプレフィックスフォーマットの両方でSIMDプレフィックス(66H、F2H、F3H)を用いるレガシSSE命令をサポートするべく、これらのレガシSIMDプレフィックスは、SIMDプレフィックスエンコードフィールドへとエンコードされ、(PLAが変更なしにレガシフォーマットおよびこれらのレガシ命令のEVEXフォーマットの両方を実行し得るように)ランタイム時にデコーダのPLAに提供される前にレガシSIMDプレフィックスへと拡張される。より新しい命令は、EVEXプレフィックスエンコードフィールドの内容をオペコード拡張として直接に用い得るが、ある実施形態は、整合のために同様に拡張されるが、これらのレガシSIMDプレフィックスにより指定される異なる意味を可能にする。代替的な実施形態は、2ビットのSIMDプレフィックスエンコードをサポートするようにPLAを再設計し得、従って拡張を必要としない。
アルファフィールド152(EVEXバイト3、ビット[7]−EH。EVEX.EH、EVEX.rs、EVEX.RL、EVEX.ライトマスク制御、およびEVEX.Nとしても知られる。αでも示される)。上記ように、このフィールドは、コンテキストに固有である。
ベータフィールド154(EVEXバイト3、ビット[6:4]−SSS、EVEX.s2-0、EVEX.r2-0、EVEX.rr1、EVEX.LL0、EVEX.LLBとしても知られる。βββでも示される)。上記のように、このフィールドは、コンテキストに固有である。
REX'フィールド110。これは、REX'フィールドの残りであり、拡張された32個のレジスタセットの上位の16個または下位の16個をエンコードするべく用いられ得るEVEX.V'ビットフィールドのいずれかである(EVEXバイト3、ビット[3]−V')。このビットは、ビット反転フォーマットで格納される。1の値は、下位の16個のレジスタをエンコードするべく用いられる。換言すると、V'VVVVは、EVEX.V'、EVEX.vvvvを組み合わせることにより形成される。
ライトマスクフィールド170(EVEXバイト3、ビット[2:0]−kkk)。その内容は、上記のライトマスクレジスタにおけるレジスタのインデックスを指定する。本発明の一実施形態において、特定の値EVEX.kkk=000は、特定の命令のために非ライトマスクが用いられることを暗に示す、特別な動作を有する(これは、全ての1に対するハードワイヤされたライトマスクの使用、またはマスキングハードウェアを迂回するハードウェアの使用を含む、様々な態様で実装され得る)。
リアルオペコードフィールド230(バイト4)は、オペコードバイトとしても知られる。オペコードの一部は、このフィールド内に指定される。
MOD R/Mフィールド240(バイト5)は、MODフィールド242、Regフィールド244、およびR/Mフィールド246を含む。上記のように、MODフィールド242の内容は、メモリアクセスオペレーションおよび非メモリアクセスオペレーションを区別する。Regフィールド244の役割は、2つの状況に要約され得る。すなわち、デスティネーションレジスタオペランドまたはソースレジスタオペランドのいずれかをエンコードし、またはオペコード拡張として扱われ、任意の命令オペランドをエンコードするためには用いられない。R/Mフィールド246の役割は、メモリアドレスを参照する命令オペランドをエンコードし、またはデスティネーションレジスタオペランドもしくはソースレジスタオペランドのいずれかをエンコードすることを含み得る。
スケール、インデックス、ベース(SIB)バイト(バイト6)。上記のように、スケールフィールド150の内容は、メモリアドレス生成に用いられる。SIB.xxx254およびSIB.bbb256。これらのフィールドの内容は、レジスタインデックスXxxxおよびBbbbに関連して既に言及された。
変位フィールド162A(バイト7〜10)。MODフィールド242が10を含む場合、バイト7〜10は、変位フィールド162Aであり、これはレガシ32ビット変位(disp32)と同様に機能し、バイト粒度で機能する。
変位係数フィールド162B(バイト7)。MODフィールド242が01を含む場合、バイト7は、変位係数フィールド162Bである。このフィールドの位置は、バイト粒度で機能するレガシx86命令セットの8ビット変位(disp8)の位置と同じである。disp8は、符号拡張されるので、−128〜127バイトのオフセットのみをアドレス指定し得る。64バイトのキャッシュラインに関しては、disp8は、4つの本当に有用な値である−128、−64、0、および64のみに設定され得る8ビットを用いる。多くの場合に、より広いレンジが必要とされるので、disp32が用いられる。しかし、disp32は、4バイトを必要とする。disp8およびdisp32とは対照的に、変位係数フィールド162Bは、disp8の再解釈である。変位係数フィールド162Bを用いる場合、実際の変位は、メモリオペランドアクセスのサイズ(N)で乗算される変位係数フィールドの内容により決定される。このタイプの変位は、disp8*Nと称される。これにより、平均命令長(単一バイトだが、はるかに広いレンジの変位に用いられる)を小さくする。そのような圧縮された変位は、有効な変位がメモリアクセスの粒度の倍数であり、従って、アドレスオフセットの冗長下位ビットは、エンコードされる必要がないという前提に基づく。換言すると、変位係数フィールド162Bは、レガシx86命令セットの8ビット変位に置き換わる。従って、disp8がdisp8*Nにオーバーロードされることのみを例外として、変位係数フィールド162Bは、x86命令セットの8ビット変位と同じ態様でエンコードされる(従って、ModRM/SIBエンコードルールに変更はない)。換言すると、エンコードルールまたはエンコードの長さに変更はないが、(バイト的アドレスオフセットを得るべく、メモリオペランドのサイズにより変位を調節する必要がある)ハードウェアによる変位値の解釈のみには変更がある。
即値フィールド172は、上記のように動作する。
フルオペコードフィールド
図2Bは、本発明の一実施形態による、フルオペコードフィールド174を構成する特定ベクトル向け命令フォーマット200のフィールドを示すブロック図である。具体的には、フルオペコードフィールド174は、フォーマットフィールド140、ベースオペレーションフィールド142、およびデータ要素幅(W)フィールド164を含む。ベースオペレーションフィールド142は、プレフィックスエンコードフィールド225、オペコードマップフィールド215、およびリアルオペコードフィールド230を含む。
レジスタインデックスフィールド
図2Cは、本発明の一実施形態による、レジスタインデックスフィールド144を構成する特定ベクトル向け命令フォーマット200のフィールドを示すブロック図である。具体的には、レジスタインデックスフィールド144は、REXフィールド205、REX'フィールド210、MODR/M.regフィールド244、MODR/M.r/mフィールド246、VVVVフィールド220、xxxフィールド254、およびbbbフィールド256を含む。
追加オペレーションフィールド
図2Dは、本発明の一実施形態による、追加オペレーションフィールド150を構成する特定ベクトル向け命令フォーマット200のフィールドを示すブロック図である。クラス(U)フィールド168が0を含む場合、EVEX.U0(クラスA168A)を意味する。1を含む場合、EVEX.U1(クラスB168B)を意味する。U=0、かつMODフィールド242が11を含む場合(非メモリアクセスオペレーションを意味する)、アルファフィールド152(EVEXバイト3、ビット[7]−EH)は、RSフィールド152Aとして解釈される。RSフィールド152Aが1(ラウンド152A.1)を含む場合、ベータフィールド154(EVEXバイト3、ビット[6:4]‐SSS)は、ラウンド制御フィールド154Aとして解釈される。ラウンド制御フィールド154Aは、1ビットのSAEフィールド156および2ビットのラウンドオペレーションフィールド158を含む。RSフィールド152Aが0(データ変換152A.2)を含む場合、ベータフィールド154(EVEXバイト3、ビット[6:4]‐SSS)は、3ビットのデータ変換フィールド154Bとして解釈される。U=0であり、かつMODフィールド242が00、01、または10を含む場合(メモリアクセスオペレーションを意味する)、アルファフィールド152(EVEXバイト3、ビット[7]‐EH)は、エビクションヒント(EH)フィールド152Bとして解釈され、ベータフィールド154(EVEXバイト3、ビット[6:4]‐SSS)は、3ビットのデータ操作フィールド154Cとして解釈される。
U=1である場合、アルファフィールド152(EVEXバイト3、ビット[7]−EH)は、ライトマスク制御(Z)フィールド152Cとして解釈される。U=1であり、かつMODフィールド242が11を含む場合(非メモリアクセスオペレーションを意味する)、ベータフィールド154(EVEXバイト3、ビット[4]−S)の一部は、RLフィールド157Aとして解釈される。1(ラウンド157A.1)を含む場合、ベータフィールド154(EVEXバイト3、ビット[6−5]‐S2−1)の残りは、ラウンドオペレーションフィールド159Aとして解釈されるが、RLフィールド157Aが0(VSIZE157.A2)を含む場合、ベータフィールド154(EVEXバイト3、ビット[6‐5]‐S2−1)の残りは、ベクトル長フィールド159B(EVEXバイト3、ビット[6‐5]‐L1−0)として解釈される。U=1であり、MODフィールド242が00、01、または10を含む場合(メモリアクセスオペレーションを意味する)、ベータフィールド154(EVEXバイト3、ビット[6:4]−SSS)は、ベクトル長フィールド159B(EVEXバイト3、ビット[6‐5]‐L1−0)およびブロードキャストフィールド157B(EVEXバイト3、ビット[4]‐B)として解釈される。
C.例示的なレジスタアーキテクチャ
図3は、本発明の一実施形態による、レジスタアーキテクチャ300のブロック図である。示される実施形態において、512ビット幅の32個のベクトルレジスタ310が存在する。これらのレジスタは、zmm0〜zmm31として参照される。下位の16個のzmmレジスタの下位の256ビットは、レジスタymm0〜15上にオーバーレイされる。下位の16個のzmmレジスタの下位の128ビット(ymmレジスタの下位の128ビット)は、レジスタxmm0〜15上にオーバーレイされる。以下の表に示されるように、特定ベクトル向け命令フォーマット200は、これらのオーバーレイされたレジスタファイルで動作する。
Figure 0006738579
換言すると、ベクトル長フィールド159Bは、最大長、および1もしくは複数の他のより短い長さのうちから選択され、そのような各々のより短い長さは、先述の長さの半分の長さである。ベクトル長フィールド159Bを用いない命令テンプレートは、最大ベクトル長で動作する。更に、一実施形態において、特定ベクトル向け命令フォーマット200のクラスB命令テンプレートは、パックドもしくはスカラ単精度/倍精度浮動小数点データおよびパックドもしくはスカラ整数データで動作する。スカラオペレーションは、zmm/ymm/xmmレジスタにおける最下位のデータ要素位置で実行されるオペレーションである。より高位のデータ要素位置は、命令前と同じままであるか、または実施形態に応じてゼロにされる。
ライトマスクレジスタ315。示される実施形態において、8つのライトマスクレジスタ(k0〜k7)が存在し、各々は64ビットのサイズである。代替的な実施形態において、ライトマスクレジスタ315は16ビットのサイズである。上記のように、本発明の一実施形態において、ベクトルマスクレジスタk0は、ライトマスクとして使用され得ない。通常、k0を示すエンコードがライトマスクに用いられる場合、これは、0xFFFFのハードワイヤードライトマスクを選択し、その命令に対するライトマスキングを実質的に無効にする。
汎用レジスタ325。示される実施形態において、メモリオペランドをアドレス指定する既存のx86のアドレス指定モードと共に用いられる16個の64ビット汎用レジスタが存在する。これらのレジスタは、RAX、RBX、RCX、RDX、RBP、RSI、RDI、RSP、およびR8〜R15の名称により参照される。
スカラ浮動小数点スタックレジスタファイル(x87スタック)345上に、MMXパックド整数フラットレジスタファイル350がエイリアスされ、示される実施形態において、x87スタックは、x87命令セット拡張を用いて、32/64/80ビット浮動小数点データにスカラ浮動小数点オペレーションを実行するべく用いられる8つの要素のスタックである。MMXレジスタは、64ビットパックド整数データにオペレーションを実行すると共に、MMXレジスタとXMMレジスタとの間で実行されるいくつかのオペレーションのためのオペランドを保持するべく用いられる。
本発明の代替的な実施形態は、より広いか、またはより狭いレジスタを用い得る。更に、本発明の代替的な実施形態は、より多いか、より少ないか、または異なるレジスタファイルおよびレジスタを用い得る。
D.例示的なコアアーキテクチャ、プロセッサ、およびコンピュータアーキテクチャ
プロセッサコアは、異なる態様で異なる目的のために異なるプロセッサに実装され得る。例えば、そのようなコアの実装は、1)汎用演算用の汎用インオーダコア、2)汎用演算用の高性能汎用アウトオブオーダコア、3)主にグラフィックスおよび/またはサイエンティフィック(スループット)演算用の専用コアを含み得る。異なるプロセッサの実装は、1)汎用演算用の1もしくは複数の汎用インオーダコア、および/または汎用演算用の1もしくは複数の汎用アウトオブオーダコアを含むCPU、ならびに2)主にグラフィックスおよび/またはサイエンティフィック(スループット)用の1もしくは複数の専用コアを含むコプロセッサを含み得る。そのような異なるプロセッサは、異なるコンピュータシステムアーキテクチャをもたらし、異なるコンピュータシステムアーキテクチャは、1)CPUの別個のチップ上のコプロセッサ、2)CPUと同一のパッケージにおける別個のダイ上のコプロセッサ、3)CPUと同一のダイ上のコプロセッサ(この場合、そのようなコプロセッサは、場合によっては統合グラフィックスおよび/またはサイエンティフィック(スループット)ロジック等の専用ロジック、または専用コアとして言及される)、および4)同一のダイ上に、説明されたCPU(場合によっては、アプリケーションコアもしくはアプリケーションプロセッサとして言及される)、上記のコプロセッサ、および追加の機能性を含み得るシステムオンチップを含み得る。例示的なコアアーキテクチャが次に説明され、その次に例示的なプロセッサおよびコンピュータアーキテクチャの説明が続く。
図4Aは、本発明の実施形態による、例示的なインオーダパイプラインおよび例示的なレジスタリネーム、アウトオブオーダ発行/実行パイプラインの両方を示すブロック図である。図4Bは、本発明の実施形態によるプロセッサに含まれる、インオーダアーキテクチャコアの例示的な実施形態および例示的なレジスタリネーム、アウトオブオーダ発行/実行アーキテクチャコアの両方を示すブロック図である。図4A〜図4Bにおける実線ボックスは、インオーダパイプラインおよびインオーダコアを示すが、破線ボックスの任意選択の追加は、レジスタリネーム、アウトオブオーダ発行/実行のパイプラインおよびコアを示す。インオーダの態様がアウトオブオーダの態様のサブセットであることを考慮して、アウトオブオーダの態様が説明される。
図4Aにおいて、プロセッサパイプライン400は、フェッチステージ402、長さデコードステージ404、デコードステージ406、アロケーションステージ408、リネームステージ410、スケジューリング(ディスパッチまたは発行としても知られる)ステージ412、レジスタ読み出し/メモリ読み出しステージ414、実行ステージ416、ライトバック/メモリライトステージ418、例外処理ステージ422、およびコミットステージ424を含む。
図4Bは、実行エンジンユニット450に結合されたフロントエンドユニット430を含むプロセッサコア490を示し、これら両方はメモリユニット470に結合されている。コア490は、縮小命令セットコンピューティング(RISC)コア、複合命令セットコンピューティング(CISC)コア、超長命令語(VLIW)コア、またはハイブリッドもしくは代替的なコアタイプであり得る。なおも別の選択肢として、コア490は、例えば、ネットワークコアもしくは通信コア、圧縮エンジン、コプロセッサコア、汎用コンピューティンググラフィックス処理ユニット(GPGPU)コア、グラフィックスコア等のような専用コアであってもよい。
フロントエンドユニット430は、命令キャッシュユニット434に結合された分岐予測ユニット432を含み、命令キャッシュユニット434は、命令トランスレーションルックアサイドバッファ(TLB)436に結合され、TLB436は、命令フェッチユニット438に結合され、命令フェッチユニット438は、デコードユニット440に結合される。デコードユニット440(もしくはデコーダ)は、命令をデコードして、出力として1または複数のマイクロオペレーション、マイクロコードエントリポイント、マイクロ命令、他の命令、または元の命令からデコードされ、もしくは別の方法で元の命令を反映し、もしくは元の命令から派生した他の制御信号を生成し得る。デコードユニット440は、様々な異なるメカニズムを用いて実装され得る。好適なメカニズムの例としては、ルックアップテーブル、ハードウェア実装、プログラマブルロジックアレイ(PLA)、マイクロコードリードオンリメモリ(ROM)等が挙げられるが、これらに限定されない。一実施形態において、コア490は、特定のマクロ命令用のマイクロコードを(例えば、デコードユニット440内、またはそうでなければフロントエンドユニット430内に)格納するマイクロコードROMまたは他のメディアを含む。デコードユニット440は、実行エンジンユニット450におけるリネーム/アロケータユニット452に結合される。
実行エンジンユニット450は、リタイアメントユニット454に結合されたリネーム/アロケータユニット452と、1または複数のスケジューラユニット456のセットとを含む。スケジューラユニット456は、リザベーションステーション、中央命令ウィンドウ等を含む任意の数の異なるスケジューラを表す。スケジューラユニット456は、物理レジスタファイルユニット458に結合される。物理レジスタファイルユニット458の各々は、1または複数の物理レジスタファイルを表し、これらの異なるものが、スカラ整数、スカラ浮動小数点、パックド整数、パックド浮動小数点、ベクトル整数、ベクトル浮動小数点、状態(例えば、実行されるべき次の命令のアドレスである命令ポインタ)等のような1または複数の異なるデータタイプを格納する。一実施形態において、物理レジスタファイルユニット458は、ベクトルレジスタユニット、ライトマスクレジスタユニット、およびスカラレジスタユニットを備える。これらのレジスタユニットは、アーキテクチャベクトルレジスタ、ベクトルマスクレジスタ、および汎用レジスタを提供し得る。(例えば、リオーダバッファおよびリタイアメントレジスタファイルを用い、フューチャファイル、履歴バッファ、およびリタイアメントレジスタファイルを用い、レジスタマップおよびレジスタのプールを用いる等して)レジスタリネームおよびアウトオブオーダ実行が実装され得る様々な態様を示すべく、物理レジスタファイルユニット458は、リタイアメントユニット454と重ね合わされている。リタイアメントユニット454および物理レジスタファイルユニット458は、実行クラスタ460に結合される。実行クラスタ460は、1または複数の実行ユニット462のセット、および1または複数のメモリアクセスユニット464のセットを含む。実行ユニット462は、様々なタイプのデータ(例えば、スカラ浮動小数点、パックド整数、パックド浮動小数点、ベクトル整数、ベクトル浮動小数点)に対して様々なオペレーション(例えば、シフト、加算、減算、乗算)を実行し得る。いくつかの実施形態は、特定の関数または関数のセットに専用のいくつかの実行ユニットを含み得るが、他の実施形態は、1つの実行ユニットのみ、または全てがあらゆる関数を実行する複数の実行ユニットを含み得る。スケジューラユニット456、物理レジスタファイルユニット458、および実行クラスタ460は、場合によっては複数のものとして示される。なぜなら、ある実施形態は、一定のタイプのデータ/オペレーションのための別個のパイプライン(例えば、各々が自身のスケジューラユニット、物理レジスタファイルユニット、および/または実行クラスタを有し、別個のメモリアクセスパイプラインの場合に、このパイプラインの実行クラスタのみがメモリアクセスユニット464を有する一定の実施形態が実装される)スカラ整数パイプライン、スカラ浮動小数点/パックド整数/パックド浮動小数点/ベクトル整数/ベクトル浮動小数点パイプライン、および/またはメモリアクセスパイプラインを生成するからである。また、別個のパイプラインが用いられる場合に、これらのパイプラインのうちの1または複数は、アウトオブオーダ発行/実行であり、残りはインオーダであり得ることを理解されたい。
メモリアクセスユニット464のセットは、メモリユニット470に結合される。メモリユニット470は、データキャッシュユニット474に結合されたデータTLBユニット472を含み、データキャッシュユニット474は、レベル2(L2)キャッシュユニット476に結合される。例示的な一実施形態において、メモリアクセスユニット464は、ロードユニット、ストアアドレスユニット、およびストアデータユニットを含み得、これらの各々は、メモリユニット470内のデータTLBユニット472に結合される。命令キャッシュユニット434は、メモリユニット470内のレベル2(L2)キャッシュユニット476に更に結合される。L2キャッシュユニット476は、1つまたは複数の他のレベルのキャッシュに結合され、最終的にはメインメモリに結合される。
例として、例示的なレジスタリネーム、アウトオブオーダ発行/実行コアアーキテクチャは、パイプライン400を以下のように実装し得る。1)命令フェッチ438は、フェッチステージ402および長さデコードステージ404を実行する。2)デコードユニット440はデコードステージ406を実行する。3)リネーム/アロケータユニット452は、アロケーションステージ408およびリネームステージ410を実行する。4)スケジューラユニット456は、スケジューリングステージ412を実行する。5)物理レジスタファイルユニット458およびメモリユニット470は、レジスタ読み出し/メモリ読み出しステージ414を実行し、実行クラスタ460は、実行ステージ416を実行する。6)メモリユニット470および物理レジスタファイルユニット458は、ライトバック/メモリライトステージ418を実行する。7)様々なユニットは、例外処理ステージ422に関与してもよい。8)リタイアメントユニット454および物理レジスタファイルユニット458は、コミットステージ424を実行する。
コア490は、本明細書において説明される命令を含む、1または複数の命令セット(例えば、x86命令セット(より新しいバージョンを追加された、いくつかの拡張を伴う)、カリフォルニア州サニーベールのMIPS TechnologiesのMIPS命令セット、カリフォルニア州サニーベールのARM HoldingsのARM命令セット(NEON等の任意選択の追加拡張を伴う)をサポートし得る。一実施形態において、コア490は、パックドデータ命令セット拡張(例えば、AVX1、AVX2)をサポートするためのロジックを含み、それにより、多くのマルチメディアアプリケーションにより用いられるオペレーションが、パックドデータを用いて実行されることを可能にする。
コアは、(オペレーションまたはスレッドの2またはそれより多い並列セットを実行する)マルチスレッディングをサポートし得、時分割マルチスレッディング、同時マルチスレッディング(物理コアが同時にマルチスレッディングするスレッドの各々のための論理コアを、単一の物理コアが提供する)、またはこれらの組み合わせ(例えば、時分割フェッチおよびデコードを行い、その後にインテル(登録商標)ハイパースレッディング技術等の同時マルチスレッディングを行う)を含む様々な態様でこれを実行し得ることを理解されたい。
レジスタリネームは、アウトオブオーダ実行の文脈で説明されているが、レジスタリネームは、インオーダアーキテクチャにおいて用いられ得ることを理解されたい。プロセッサの示される実施形態は、別個の命令およびデータキャッシュユニット434/474、ならびに共有L2キャッシュユニット476も含むが、代替的な実施形態は、例えば、レベル1(L1)内部キャッシュまたは複数のレベルの内部キャッシュ等の命令およびデータの両方に対する単一の内部キャッシュを有し得る。いくつかの実施形態において、システムは、内部キャッシュ、ならびにコアおよび/またはプロセッサの外部にある外部キャッシュの組み合わせを含み得る。あるいは、キャッシュの全てがコアおよび/またはプロセッサの外部にあってもよい。
図5A〜図5Bは、より具体的な例示的なインオーダコアアーキテクチャのブロック図を示し、このコアは、チップにおける(同じタイプの他のコアおよび/または異なるタイプを含む)いくつかの論理ブロックのうちの1つである。アプリケーションに応じて、論理ブロックは、ある固定機能ロジック、メモリI/Oインタフェース、および他の必要なI/Oロジックを用いる高帯域幅の相互接続ネットワーク(例えば、リングネットワーク)を介して通信する。
図5Aは、本発明の実施形態によるシングルプロセッサコアのブロック図であり、オンダイ相互接続ネットワーク502への接続に加え、レベル2(L2キャッシュ504のローカルサブセットを有する。一実施形態において、命令デコーダ500は、パックドデータ命令セット拡張を用いるx86命令セットをサポートする。L1キャッシュ506は、スカラユニットおよびベクトルユニット内のキャッシュメモリへの低レイテンシアクセスを可能にする。一実施形態において(設計を簡略化するべく)、スカラユニット508およびベクトルユニット510は、別個のレジスタセット(各々、スカラレジスタ512およびベクトルレジスタ514)を用い、それらの間で転送されるデータは、メモリに書き込まれ、次にレベル1(L1)キャッシュ506からリードバックされる。本発明の代替的な実施形態は、異なるアプローチ(例えば、単一のレジスタセットを用い、またはライトバックおよびリードバックされることなく、2つのレジスタファイルの間で、データが転送されることを可能にする通信パスを含む)を用い得る。
L2キャッシュ504のローカルサブセットは、プロセッサコア毎に1つずつ、別個のローカルサブセットに分割される全体的なL2キャッシュの一部である。各プロセッサコアは、L2キャッシュ504の自身のローカルサブセットへの直接のアクセス経路を有する。プロセッサコアにより読み出されたデータは、そのL2キャッシュサブセット504に格納され、他のプロセッサコアが自身のローカルL2キャッシュサブセットにアクセスするのと並列して迅速にアクセスされ得る。プロセッサコアにより書き込まれたデータは、自身のL2キャッシュサブセット504に格納され、必要であれば他のサブセットからフラッシュされる。リングネットワークは、共有データのコヒーレンシを保証する。リングネットワークは、双方向であり、プロセッサコア、L2キャッシュ、および他の論理ブロック等のエージェントがチップ内で互いに通信することを可能にする。各リングのデータパスは、1方向毎に1012ビット幅である。
図5Bは、本発明の実施形態による図5Aのプロセッサコアの一部の拡大図である。図5Bは、L1キャッシュ504のL1データキャッシュ506A部分、ならびにベクトルユニット510およびベクトルレジスタ514に関する更なる詳細を含む。具体的には、ベクトルユニット510は、16ワイドのベクトル処理ユニット(VPU)(16ワイドのALU528を参照)であり、これは整数命令、単精度浮動小数点命令、および倍精度浮動小数点命令のうちの1または複数を実行する。VPUは、スウィズルユニット520によるレジスタ入力のスウィズル、数値変換ユニット522A〜Bによる数値変換、およびメモリ入力時のレプリケーションユニット524によるレプリケーションをサポートする。ライトマスクレジスタ526は、結果として生じるベクトル書き込みを予測(predicating)することを可能にする。
図6は、本発明の実施形態による、2つ以上のコアを有し得、統合メモリコントローラを有し得、統合グラフィックスを有し得るプロセッサ600のブロック図である。図6の実線ボックスは、シングルコア602A、システムエージェント610、1または複数のバスコントローラユニット616のセットを有するプロセッサ600を示すが、破線ボックスの任意選択の追加は、複数のコア602A〜N、システムエージェントユニット610における1または複数の統合メモリコントローラユニット614のセット、および専用ロジック608を有する代替的なプロセッサ600を示す。
従って、プロセッサ600の異なる実装は、1)統合グラフィックスおよび/またはサイエンティフィック(スループット)ロジック(1または複数のコアを含み得る)である専用ロジック608、および1または複数の汎用コア(例えば、汎用インオーダコア、汎用アウトオブオーダコア、2つの組み合わせ)であるコア602A〜Nを用いるCPU、2)主にグラフィックスおよび/またはサイエンティフィック(スループット)用の多数の専用コアであるコア602A〜Nを有するコプロセッサ、ならびに3)多数の汎用インオーダコアであるコア602A〜Nを用いるコプロセッサを含み得る。従って、プロセッサ600は、例えば、ネットワークプロセッサもしくは通信プロセッサ、圧縮エンジン、グラフィックスプロセッサ、GPGPU(汎用グラフィックス処理ユニット)、(30またはそれより多いコアを含む)高スループット多集積コア(MIC)コプロセッサ、エンベデッドプロセッサ等のような汎用プロセッサ、コプロセッサもしくは専用プロセッサであってもよい。プロセッサは、1または複数のチップ上に実装され得る。プロセッサ600は、1または複数の基板の一部であり得、および/または例えば、BiCMOS、CMOS、またはNMOS等のいくつかの処理技術のいずれかを用いてこれらの基板上に実装され得る。
メモリ階層は、コア内の1または複数のレベルのキャッシュ、1セットまたは1もしくは複数の共有キャッシュユニット606、および統合メモリコントローラユニット614のセットに結合された外部メモリ(図示せず)を含む。共有キャッシュユニット606のセットは、レベル2(L2)、レベル3(L3)、レベル4(L4)等の1または複数の中間レベルのキャッシュ、または他のレベルのキャッシュ、ラストレベルキャッシュ(LLC)、および/またはこれらの組み合わせを含み得る。一実施形態において、リングベースの相互接続ユニット612は、統合グラフィックスロジック608、共有キャッシュユニット606のセット、およびシステムエージェントユニット610/統合メモリコントローラユニット614を相互接続し、代替的な実施形態は、そのようなユニットを相互接続するための任意の数の周知の技術を用い得る。一実施形態において、コヒーレンシは、1または複数のキャッシュユニット606とコア602A〜Nとの間で保持される。
いくつかの実施形態において、コア602A〜Nのうちの1または複数は、マルチスレッディングすることができる。システムエージェント610は、コア602A〜Nを調整および動作させるそれらのコンポーネントを含む。システムエージェントユニット610は、例えば、電力制御ユニット(PCU)およびディスプレイユニットを含み得る。PCUは、コア602A〜Nおよび統合グラフィックスロジック608の電力状態を調整するのに必要とされるロジックおよびコンポーネントであるか、またはこれらを含み得る。ディスプレイユニットは、1または複数の外部接続ディスプレイを駆動するためのものである。
コア602A〜Nは、アーキテクチャ命令セットの観点からは同種または異種であり得る。すなわち、コア602A〜Nのうちの2またはそれより多くのものは、同じ命令セットを実行することができる場合があるが、他のものは、当該命令セットまたは異なる命令セットのサブセットのみを実行することができる場合がある。
図7〜図10は、例示的なコンピュータアーキテクチャのブロック図である。ラップトップ、デスクトップ、ハンドヘルドPC、情報携帯端末、エンジニアリングワークステーション、サーバ、ネットワークデバイス、ネットワークハブ、スイッチ、エンベデッドプロセッサ、デジタル信号プロセッサ(DSP)、グラフィックスデバイス、ビデオゲームデバイス、セットトップボックス、マイクロコントローラ、携帯電話、ポータブルメディアプレーヤ、ハンドヘルドデバイス、および様々な他の電子デバイスの技術分野で既知の他のシステム設計および構成も好適である。一般に、本明細書において開示されるプロセッサおよび/または他の実行ロジックを組み込むことができる多種多様なシステムまたは電子デバイスが、概ね好適である。
ここで図7を参照すると、本発明の一実施形態によるシステム700のブロック図が示される。システム700は、1または複数のプロセッサ710、715を含み得、これらは、コントローラハブ720に結合される。一実施形態において、コントローラハブ720は、グラフィックスメモリコントローラハブ(GMCH)790および入出力ハブ(IOH)750(別個のチップ上にあり得る)を含む。GMCH790は、メモリコントローラおよびグラフィックスコントローラを含み、これらにメモリ740およびコプロセッサ745が結合される。IOH750は、入出力(I/O)デバイス760をGMCH790に結合する。あるいは、メモリおよびグラフィックスコントローラの一方または両方が(本明細書に説明される)プロセッサ内に集積され、メモリ740およびコプロセッサ745は、プロセッサ710と、IOH750を有する単一のチップのコントローラハブ720とに直接に結合される。
追加のプロセッサ715の任意選択の性質が図7に破線を用いて示されている。各プロセッサ710、715は、本明細書に説明される処理コアのうちの1または複数を含み得、プロセッサ600のいくつかのバージョンであり得る。
メモリ740は、例えば、ダイナミックランダムアクセスメモリ(DRAM)、相変化メモリ(PCM)、またはこれら2つの組み合わせであってもよい。少なくとも一実施形態においては、コントローラハブ720は、フロントサイドバス(FSB)等のマルチドロップバス、QuickPath相互接続(QPI)等のポイントツーポイントインタフェース、または類似の接続795を介してプロセッサ710、715と通信する。
一実施形態において、コプロセッサ745は、例えば、高スループットMICプロセッサ、ネットワークプロセッサもしくは通信プロセッサ、圧縮エンジン、グラフィックスプロセッサ、GPGPU、エンベデッドプロセッサ等のような専用プロセッサである。一実施形態において、コントローラハブ720は、統合グラフィックスアクセラレータを含み得る。
物理リソース710と物理リソース715との間には、アーキテクチャ、マイクロアーキテクチャ、熱、電力消費の特性等を含む幅広い価値基準に関して様々な違いが存在し得る。
一実施形態において、プロセッサ710は、一般なタイプのデータ処理オペレーションを制御する命令を実行する。コプロセッサ命令は、命令中に埋め込まれ得る。プロセッサ710は、取り付けられたコプロセッサ745により実行されるべきタイプとしてこれらのコプロセッサ命令を認識する。従って、プロセッサ710は、コプロセッサバスまたは他の相互接続においてこれらのコプロセッサ命令(またはコプロセッサ命令を表す制御信号)をコプロセッサ745に発する。コプロセッサ745は、受信したコプロセッサ命令を受け取って実行する。
ここで図8を参照すると、本発明の実施形態による第1のより具体的な例示的システム800のブロック図が示される。図8に示されるように、マルチプロセッサシステム800はポイントツーポイント相互接続システムであり、ポイントツーポイント相互接続850を介して結合される第1のプロセッサ870および第2のプロセッサ880を含む。プロセッサ870および880の各々は、プロセッサ600のいくつかのバージョンであり得る。本発明の一実施形態において、プロセッサ870および880は各々、プロセッサ710および715であるが、コプロセッサ838は、コプロセッサ745である。別の実施形態において、プロセッサ870および880は各々、プロセッサ710およびコプロセッサ745である。
統合メモリコントローラ(IMC)ユニット872および882を各々含むプロセッサ870および880が示される。プロセッサ870は、そのバスコントローラユニットの一部としてポイントツーポイント(P‐P)インタフェース876および878も含む。同様に、第2のプロセッサ880は、P‐Pインタフェース886および888を含む。プロセッサ870、880は、P‐Pインタフェース回路878、888を用いて、ポイントツーポイント(P‐P)インタフェース850を介して情報を交換し得る。図8に示されるように、IMC872および882は、プロセッサを各メモリ、すなわち、各プロセッサにローカルに取り付けられたメインメモリの一部であり得るメモリ832およびメモリ834に結合する。
プロセッサ870、880は各々、ポイントツーポイントインタフェース回路876、894、886、898を用い、個々のP‐Pインタフェース852、854を介してチップセット890と情報を交換し得る。任意選択で、チップセット890は、高性能インタフェース839を介してコプロセッサ838と情報を交換し得る。一実施形態において、コプロセッサ838は、例えば、高スループットMICプロセッサ、ネットワークプロセッサもしくは通信プロセッサ、圧縮エンジン、グラフィックスプロセッサ、GPGPU、エンベデッドプロセッサ等のような専用プロセッサである。
共有キャッシュ(図示せず)は、どちらかのプロセッサに含まれ、または両方のプロセッサの外部にあり得るが、プロセッサが低電力モードにされると、どちらかまたは両方のプロセッサのローカルキャッシュ情報が共有キャッシュに格納され得るように、P‐P相互接続を介してプロセッサとなおも接続され得る。
チップセット890は、インタフェース896を介して第1のバス816に結合され得る。一実施形態において、第1のバス816は、周辺構成要素相互接続(PCI)バス、またはPCI Expressバス等のバス、または別の第3世代I/O相互接続バスであり得るが、本発明の範囲はそのように限定されない。
図8に示されるように、様々なI/Oデバイス814が、第1のバス816を第2のバス820に結合するバスブリッジ818と共に、第1のバス816に結合され得る。一実施形態において、コプロセッサ、高スループットMICプロセッサ、GPGPU、アクセラレータ(例えば、グラフィックスアクセラレータまたはデジタル信号処理(DSP)ユニット等)、フィールドプログラマブルゲートアレイ、またはその他のプロセッサ等、1または複数の追加のプロセッサ815は、第1のバス816に結合される。一実施形態において、第2のバス820は、低ピンカウント(LPC)バスであり得る。様々なデバイスは、一実施形態において、例えば、キーボードおよび/またはマウス822、通信デバイス827、ならびに命令/コードおよびデータ830を含み得るディスクドライブもしくは他の大容量ストレージデバイス等のストレージユニット828を含む第2のバス820に結合され得る。更に、オーディオI/O824は、第2のバス820に結合され得る。他のアーキテクチャが可能であることに留意されたい。例えば、図8のポイントツーポイントアーキテクチャに代えて、システムは、マルチドロップバスまたは他のそのようなアーキテクチャを実装し得る。
ここで図9を参照すると、本発明の実施形態による第2のより具体的な例示的システム900のブロック図を示す。図8および図9の同一の要素は、同一の参照番号を有し、図9の他の態様を不明瞭にするのを避けるべく、図8の特定の態様は、図9から省略されている。
図9は、プロセッサ870、880が統合メモリおよびI/O制御ロジック(「CL」)872および882を各々含み得ることを示す。従って、CL872、882は、統合メモリコントローラユニットを含み、I/O制御ロジックを含む。図9は、メモリ832、834がCL872、882に結合されていることのみならず、I/Oデバイス914も制御ロジック872、882に結合されていることを示す。レガシI/Oデバイス915は、チップセット890に結合される。
ここで図10を参照すると、本発明の一実施形態によるSoC1000のブロック図が示される。図6における類似の要素は、同一の参照番号を有する。また、破線ボックスは、より高度なSoCの任意選択の特徴である。図10において、相互接続ユニット1002は、1もしくは複数のコア606A〜Nおよび共有キャッシュユニット606のセットを含むアプリケーションプロセッサ1010、システムエージェントユニット610、バスコントローラユニット616、統合メモリコントローラユニット614、統合グラフィックスロジック、画像プロセッサ、オーディオプロセッサ、およびビデオプロセッサを含み得る1もしくは複数のコプロセッサ1020のセット、スタティックランダムアクセスメモリ(SRAM)ユニット1030、ダイレクトメモリアクセス(DMA)ユニット1032、および1または複数の外部ディスプレイを結合するディスプレイユニット1040に結合される。一実施形態において、コプロセッサ1020は、例えば、ネットワークプロセッサもしくは通信プロセッサ、圧縮エンジン、GPGPU、高スループットMICプロセッサ、エンベデッドプロセッサ等のような専用プロセッサを含む。
本明細書に開示されるメカニズムの実施形態は、ハードウェア、ソフトウェア、ファームウェア、またはそのような実装アプローチの組み合わせで実装され得る。本発明の実施形態は、少なくとも1つのプロセッサ、ストレージシステム(揮発性および不揮発性メモリ、ならびに/またはストレージ要素を含む)、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスを有するプログラマブルシステム上で実行するコンピュータプログラムまたはプログラムコードとして実装され得る。
図8に示されるコード830等のプログラムコードは、本明細書に説明される機能を実行して出力情報を生成するべく、入力命令に適用され得る。出力情報は、既知の様式で1または複数の出力デバイスに適用され得る。本願の目的のために、処理システムは、例えば、デジタル信号プロセッサ(DSP)、マイクロコントローラ、特定用途向け集積回路(ASIC)、またはマイクロプロセッサ等のプロセッサを有する任意のシステムを含む。
プログラムコードは、高水準手続き型プログラミング言語またはオブジェクト指向プログラミング言語で実装され、処理システムと通信し得る。所望であれば、プログラムコードは、アセンブリ言語または機械語でも実装され得る。実際には、本明細書に説明されるメカニズムは、範囲においていずれの特定のプログラミング言語にも限定されない。いずれの場合においても、言語は、コンパイル型言語またはインタープリタ型言語であってもよい。
少なくとも一実施形態の1または複数の態様は、プロセッサ内の様々なロジックを表す、機械可読媒体上に格納された代表的命令により実装され得、命令は、機械により読み出されると、当該機械に本明細書に説明される技術を実行するためのロジックを生成させる。「IPコア」として知られるそのような表現は、有形機械可読媒体上に格納され、様々な顧客または製造設備に供給され、ロジックまたはプロセッサを実際に作成する製造機械にロードされ得る。
そのような機械可読ストレージ媒体としては、ハードディスク、フロッピー(登録商標)ディスク、光ディスク、コンパクトディスクリードオンリメモリ(CD‐ROM)、書き換え可能コンパクトディスク(CD‐RW)、および光磁気ディスク等、その他のタイプのディスクを含むストレージ媒体、リードオンリメモリ(ROM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)等のランダムアクセスメモリ(RAM)、消去可能プログラマブルリードオンリメモリ(EPROM)、フラッシュメモリ、電気的消去可能プログラマブルリードオンリメモリ(EEPROM)、および相変化メモリ(PCM)等の半導体デバイス、磁気もしくは光カード、または電子命令を格納するのに好適なその他のタイプの媒体を含む、機械またはデバイスにより製造または形成される、非一時的で有形な構成の物品が挙げられ得るが、これらに限定されない。
従って、本発明の実施形態は、命令を含み、または本明細書に説明される構造体、回路、装置、プロセッサ、および/またはシステム機能を定義するハードウェア記述言語(HDL)等の設計データを含む非一時的有形機械可読媒体も含む。そのような実施形態は、プログラム製品と称され得る。
いくつかの場合に、命令コンバータは、ソース命令セットからターゲット命令セットへと命令を変換するべく用いられ得る。例えば、命令コンバータは、(例えば、静的バイナリ変換、動的コンパイルを含む動的バイナリ変換を用いて)命令を、コアにより処理されるべき1または複数の他の命令に翻訳し、モーフィングし、エミュレートし、または別の方法で変換し得る。命令コンバータは、ソフトウェア、ハードウェア、ファームウェア、またはこれらの組み合わせで実装され得る。命令コンバータは、プロセッサにあり、プロセッサから離れ、またはプロセッサ上の一部であり、プロセッサから離れた一部であり得る。
図11は、本発明の実施形態による、ソース命令セットのバイナリ命令を、ターゲット命令セットのバイナリ命令に変換するソフトウェア命令コンバータの使用と対比するブロック図である。示された実施形態において、命令コンバータは、ソフトウェア命令コンバータであるが、あるいは、命令コンバータは、ソフトウェア、ファームウェア、ハードウェア、またはこれらの様々な組み合わせで実装され得る。図11は、高水準言語1102によるプログラムが、少なくとも1つのx86命令セットコア1116を有するプロセッサによりネイティブに実行され得るx86バイナリコード1106を生成するべく、x86コンパイラ1104を用いてコンパイルされ得ることを示す。少なくとも1つのx86命令セットコア1116を有するプロセッサは、少なくとも1つのx86命令セットコアを用いるインテル(登録商標)プロセッサと実質的に同一の結果を実現するべく、(1)インテル(登録商標)x86命令セットコアの命令セットの実質的部分、または(2)少なくとも1つのx86命令セットコアを有するインテル(登録商標)プロセッサ上で起動することを目的とする、オブジェクトコードバージョンのアプリケーションまたは他のソフトウェアを互換的に実行し、または別の方法で処理することにより、少なくとも1つのx86命令セットコアを有するインテル(登録商標)プロセッサと実質的に同一の機能を実行し得る任意のプロセッサを表す。x86コンパイラ1104は、x86バイナリコード1106(例えば、オブジェクトコード)を生成するように動作可能なコンパイラを表す。x86バイナリコード1106は、追加のリンク処理を用いるか、または用いることなく少なくとも1つのx86命令セットコア1116を有するプロセッサにおいて実行され得る。同様に、図11は、高水準言語1102によるプログラムが、少なくとも1つのx86命令セットコア1114を有しないプロセッサ(例えば、カリフォルニア州サニーベールのMIPS TechnologiesのMIPS命令セットを実行し、および/またはカリフォルニア州サニーベールのARM HoldingsのARM命令セットを実行するコアを有するプロセッサ)によりネイティブに実行され得る代替的な命令セットバイナリコード1110を生成するべく、代替的な命令セットコンパイラ1108を用いてコンパイルされ得ることを示す。命令コンバータ1112は、x86バイナリコード1106を、x86命令セットコア1114を有しないプロセッサによりネイティブに実行され得るコードに変換するべく用いられる。この変換済みコードは、代替的な命令セットバイナリコード1110と同じである可能性が低い。なぜなら、これが可能な命令コンバータは、作成することが困難だからである。しかし、変換済みコードは、一般的なオペレーションを実現し、代替的な命令セットの命令から構成される。従って、命令コンバータ1112は、ソフトウェア、ファームウェア、ハードウェア、またはこれらの組み合わせを表し、これらは、エミュレーション、シミュレーション、またはその他の処理により、x86命令セットプロセッサまたはコアを有しないプロセッサまたは他の電子デバイスがx86バイナリコード1106を実行することを可能にする。
命令フローを最適化するチェックを実装するための方法および装置
除算および平方根のようなIEEEの正確な丸め関数は、2つの態様で実装され得る。すなわち、基数ベースのハードウェアディバイダを用いて機能をネイティブに提供するか、またはソフトウェア命令/マイクロコード(ucode)シーケンス、通常は、ニュートン・ファフソンアルゴリズムの形式/変形を実装し、最終的結果を得るべくシードに対してイテレートするかである。
ソフトウェアシーケンスに関する1つの問題は、大抵の入力についてアルゴリズムは、非常に効率的に処理され得るのに対して、(例えば、入力非正規化を処理する場合に)一桁遅いシーケンスをもたらすいくつかの特定のコーナーケースには、追加に処理が必要とされるということである。更に、入力がトリビアルな結果を有する場合に結果をパッチするべく、最終的な後処理(ゼロによる除算等)が必要とされ、これによりシーケンスの限界レイテンシが増加する。
一実施形態において、命令シーケンスは、最良の場合を想定しており、入力においてコーナーの場合が存在するときには、代替的または「低速」のシーケンスにジャンプし、デフォルトシーケンスのクリティカルパスからチェックアウトする。本発明の実施形態は、主要のデフォルト計算とは別個のパスでこの条件付きジャンプを予め計算する「チェック」命令またはマイクロオペレーション(uop)のタイプを含む。いくつかの実施形態において、命令チェックオペレーションは、トリビアルな入力に対するデフォルト応答も提供する。下記の実施形態は、除算および平方根(sqrt)の実装に焦点を当てるが、本発明の基礎となる原理は、いずれの特定のタイプの数学関数にも限定されない。より具体的には、一実施形態は、(例えば、プレディケーション/マスクを用いる)パックド平方根/除算のAVX‐512実装に基づくが、このコンセプトは、いずれの命令セットアーキテクチャにも拡張され得る。
「チェック」命令/uopの一実施形態は、入力に基づいて、デフォルト/ファーストフローを用いるアルゴリズムを処理するか否か、または代替的にスローフローにジャンプし、ブーリアンベクトルをマスクに残しておくべきかを決定する。更に、一実施形態は、計算毎の例外フラグを生成し(無効、非正規、ゼロによる除算)、マスクされない場合には、実行をアボートする。最終的には、本発明の一実施形態は、トリビアルな入力についてはデフォルト応答を予め計算する(例えば、無限大で割る等)。
図12に示されるように、本発明の実施形態が実装され得る例示的なプロセッサ1255は、命令チェック命令をデコードするためのプロセッサパイプラインのデコードステージ1230内における命令チェックデコードロジック1231と、命令チェック命令を実行するためのパイプラインの実行ステージ1240内における命令チェック実行ロジック1241とを含む。一実施形態において、命令チェックデコードロジック1231は、命令チェック命令を複数のマイクロオペレーションにデコードするためのハードウェアを備え、複数のマイクロオペレーションは次に、命令チェック実行ロジック1241により実行される。しかし、本発明の基礎となる原理は、マイクロコード化プロセッサに限定されない。言及されたように、一実施形態において、命令は、除算チェック命令(DIVCHK())および平方根チェック(SQRTCHK())を含む。しかし、本発明の基礎となる原理は、これら特定の実装に限定されない。
図12に示される他のプロセッサコンポーネントは、汎用レジスタ(GPR)1205のセット、ベクトルレジスタ1206のセット、マスクレジスタ1207のセット、および制御レジスタ1208のセットを含む。図12に明示的に示されていないが、制御レジスタ1208は、別個の制御レジスタバス(CRBus)インタフェースを介してアクセスされ得る。一実施形態において、マスクレジスタ1207は、(例えば、上記のマスクレジスタk0〜k7として実装される)ベクトルレジスタ1206に格納された値にビットマスキングオペレーションを実行するために用いられる8個の64ビットオペランドのマスクレジスタを含む。しかし、本発明の基礎となる原理は、いずれの特定のマスクレジスタサイズ/タイプにも限定されない。一実施形態において、複数のベクトルデータ要素は、2個の256ビット値、4個の128ビット値、8個の64ビット値、16個の32ビット値等を格納するための512ビット幅を有し得る各ベクトルレジスタ1206にパックされ得る。しかし、本発明の基礎となる原理は、いずれの特定のサイズ/タイプのベクトルデータにも限定されない。
シングルプロセッサコア(「コア0」)の詳細は、簡略化するために図12に示される。しかし、図12に示される各コアは、コア0と同じセットのロジックを有し得ることが理解されよう。例えば、各コアは、指定されたキャッシュ管理ポリシに従って命令およびデータをキャッシュするための専用レベル1(L1)キャッシュ1212およびレベル2(L2)キャッシュ1211を含み得る。L1キャッシュ1212は、命令を格納するための別個の命令キャッシュ1220と、データを格納するための別個のデータキャッシュ1221とを含む。様々なプロセッサキャッシュに格納された命令およびデータは、固定サイズ(例えば、64バイト、128バイト、512バイトの長さ)であり得るキャッシュラインの粒度で管理される。この例示的な実施形態の各コアは、メインメモリ1200および/または共有レベル3(L3)キャッシュ1216から命令をフェッチするための命令フェッチユニット1210と、命令をデコードする(例えば、プログラム命令をマイクロオペレーションまたは「マイクロオプ」にデコードする)ためのデコードユニット1220と、命令を実行するための実行ユニット1240と、命令をリタイアして結果をライトバックするためのライトバックユニット1250とを有する。
命令フェッチユニット1210は、メモリ1200(またはキャッシュのうちの1つ)からフェッチされるべき次の命令のアドレスを格納するための次の命令ポインタ1203と、最近用いられた仮想・物理命令アドレスのマップを格納してアドレス変換の速度を向上させるための命令トランスレーションルックアサイドバッファ(ITLB)1204と、命令分岐アドレスを推論的に予測するための分岐予測ユニット1202と、分岐アドレスおよびターゲットアドレスを格納するための分岐ターゲットバッファ(BTB)1201とを含む、様々な周知のコンポーネントを含む。フェッチされると、命令は次に、デコードユニット1230、実行ユニット1240、およびライトバックユニット1250を含む命令パイプラインの残りのステージにストリーミングされる。これらのユニットの各々の構造および機能は、当業者により良く理解されており、本発明の異なる実施形態の関連する態様を不明瞭にするのを避けるべく、ここでは詳細に説明されない。
図13は、現在の命令に関連する複数の入力値1301〜1303(例えば、除算命令または平方根命令のための入力)に基づいて、特定の命令シーケンス(例えば、デフォルト/高速シーケンスまたは代替的/低速シーケンス)を選択するためのベクトル出力およびマスク出力1311を生成する命令チェックロジック1300を示す。除算命令および平方根命令のためのベクトル出力およびマスク出力の様々な具体的な例が以下に提供される(例えば、図14(除算)および図15(平方根)を参照)。更に、いくつかの実施形態において、命令チェックロジック1300は、特定のタイプの入力(例えば、無限大で割るなどしたトリビアルな入力)についての結果1312を生成し得、後続の命令シーケンス1311が使用できる例外フラグ1313を生成し得る。例として、例外フラグは、ゼロによる除算(ZE)、無効な演算(IE)、および非正規化オペランド(DE)等の浮動小数点例外フラグを含み得る。
上述のように、本明細書に説明される技術を実装する命令チェックロジック1300は、命令を複数のuopにデコードするデコードステージ1230(例えば、命令チェックデコードロジック1231)と、uopを実行する実行ステージ1240(例えば、命令チェック実行ロジック1241)内のロジックとを含み得る。しかし、本発明の基礎となる原理は、マイクロコード化プロセッサアーキテクチャに限定されないことに留意されたい。
除算命令に関連する入力および他の変数にチェックを実行し、これに応じて適切な/効率的な命令シーケンスを選択して除算オペレーションを実装する除算チェック(DIVCHK)命令の一実施形態が、ここで説明される。一実施形態において、除算のためのマイクロコードフロー手順は、以下の通りである。
Figure 0006738579
上記のコードにおいて、DIVCHKは、入力(x,y)を評価し、代替的な「slow_flow」命令シーケンスにジャンプするか否か、または通常の「finish_fast_flow」シーケンスを完了するか否かを決定する。一実施形態において、以下のDIVCHK仕様が使用される。
一実施形態において、マイクロオプUOP_{JDIVCHK}{PS,PD}が使用され、第1のパラメータ(Param1)は、除算入力をチェックし、第2のパラメータ(Param2)は、オペレーションが単精度入力を伴うか、または倍精度入力を伴うかを示す。UOPは、第1のソース(srcA)を分子として、第2のソース(scrB)を分母として用い得、除算シーケンスに対する入力の特性をチェックして、3つの異なる情報を返す。 1.特別の場合の入力のデフォルト応答によるベクトル出力(例えば、ゼロによる除算は、INFを返す)。一実施形態において、これは、スローパスアルゴリズムを用いて実際の出力が生成される必要がある場合に、特別なインジケーション(例えば、+1.0)を出力する。 2.ファーストパスアルゴリズムを用いて処理され得る要素をシグナリングするマスク出力。一実施形態において、ゼロのマスクは、結果がトリビアルなものであるか、またはスローフローシーケンス(+1.0等の特別なインジケーションにより指定された)により計算が行われる必要があるかのいずれかを意味する。 3.計算毎の例外フラグの生成。これは、例えば、ゼロによる除算(ZE)、無効な演算(IE)、および非正規化オペランド(DE)等の浮動小数点例外フラグを含み得る。
図14に示される表は、2つの異なる入力タイプ(XはINPUT1であるが、YはINPUT2である)の関数における3つの出力を要約する。この表において、X入力は行に示され、Y入力は、列に示されている。結果として生じる出力は、(kdst,vdst,flags)として構成され、「kdst」はマスク出力を含み、「vdst」はベクトル出力を含み、「flags」は例外フラグを含む。入力「denorm」は非正規化オペランドを表し、「normal」は通常のオペランドを表し、「Inf」は無限を表す。NaNは「非数(not a number)」を表し、QNaNはquiet NaNを表し、SNaNはsignaling NaNを表す。QNaNは、最上位の端数ビットを1にセットしたNaNであり、SNaNは、最上位の端数ビットをクリアしたNaNである。
一実施形態において、両方の入力が正規数である場合(表において「以下を参照」で示される)は、以下のように処理される。
Figure 0006738579
従って、上記のコードは、商のオーバーフロー/アンダーフロー、逆数アンダーフロー、および剰余のアンダーフローについてテストする。これらの条件のいずれかが検出されると、ベクトル出力は+1.0であり、そうでなければベクトル出力は+0.0である。剰余テストにおいては、ISAから生じる入出力の非正規数が内部計算においてフラッシュされ得る。
一実施形態において、DIVCHKオペレーションは、以下の形式を取る。
Figure 0006738579
例外は、単精度および倍精度の浮動小数点データ要素の両方に対する非正規(DAZ=0の場合)、無効、およびゼロによる除算に対して生成され得る。
平方根命令に関連する入力および他の変数にチェックを実行し、これに応じて適切な/効率的な命令シーケンスを選択して平方根演算を実装する平方根チェック(SQRTCHK)命令の一実施形態が、ここで説明される。一実施形態において、平方根のマイクロコードフロー手順は、以下のとおりである。
Figure 0006738579
上記のコードにおいて、SQRTCHKは、入力xを評価し、代替的な「slow_flow」命令シーケンスにジャンプするか否か、または通常の「finish_fast_flow」シーケンスを完了するか否かを決定する。一実施形態において、以下のSQRTCHK仕様が使用される。
UOP_{JSQRTCHK}{PS,PD}は、一実施形態において使用されるマイクロオペレーションであり、第1のパラメータ{SQRTCHK}は、平方根命令入力をチェックし、第2のパラメータ{PS,PD}は、オペレーションが単精度入力または倍精度入力を伴うかを示す。UOPは、平方根シーケンスに対する入力の特性をチェックし、3つの異なる情報を返す。 1.特別の場合の入力のデフォルト応答によるベクトル出力(例えば、負の数の平方根は、NaNを返す)。一実施形態において、これは、ファーストパスアルゴリズムを用いて実際の出力が生成される必要がある場合に、特別なインジケーション(例えば、+1.0)を出力する。 2.スローパスアルゴリズムを用いて処理されなければならない要素をシグナリングするマスク出力。 3.計算毎の例外フラグの生成。これは、例えば、無効な演算(IE)、および非正規化オペランド(DE)等の浮動小数点例外フラグを含み得る。
図15に示される表は、x(第1の列)に対する様々な異なる入力タイプおよび(kdst,vdst,flags)として構成された、結果として生じる出力を列挙し、「kdst」はマスク出力を含み、「vdst」はベクトル出力を含み、「flags」は例外フラグを含む。入力は、−normを含む(−無限大+/−非正規化オペランド、+/−0、+無限大、qNaN、およびsNaNを含む)。制限BiasExponent(x)<2*の精度(表において条件(a)として識別される)は、d=x−s*sの計算におけるアンダーフローを防止することが意図される。
Figure 0006738579
例外は、単精度および倍精度の浮動小数点データ要素の両方に対する非正規(DAZ=0の場合)および無効に対して生成され得る。
本発明の一実施形態による方法は、図16に示される。本方法は、上記のアーキテクチャの文脈内で実装され得るが、いずれの特定のアーキテクチャにも限定されない。
1601において、数学関数から入力が取得される。例えば、数学関数が除算である場合、入力は、分子(x)および分母(y)を含む。数学関数が平方根である場合、入力は、平方根が必要とされる数(x)を含む。1602において、数学関数に応じて入力の様々な特性が評価され、代替的/低速の命令シーケンスにジャンプを行うべきか否かを示す出力を生成する。例えば、上述のように、出力は、特別の場合の入力のデフォルト応答によるベクトル出力(例えば、ゼロによる除算は、INFを返す)、(例えば、マスクK2における)ファーストパスアルゴリズムを用いて処理され得る要素をシグナリングするマスク出力、および計算毎の例外フラグを含み得る。更に、1602において、数学関数のうちの少なくともいくつかの結果がトリビアルなものか否かについて判断される。
1603において少なくともいくつかの結果がトリビアルなものであることが判断された場合、次に1604において、トリビアルな結果が計算され、返される。いくつかの例において、トリビアルな結果以外の結果は、必要とされない。更なる結果が必要とされる場合、1605において1602の結果に基づいて、代替的/低速の命令シーケンスにジャンプするか否かについて判断される。唯一の結果が1604におけるトリビアルな結果である場合、代替的/低速シーケンスは保証されない。代替的/低速シーケンスが保証される場合、1606において、代替的/低速の命令シーケンスが実行される。1605における判断が代替的/低速の命令シーケンスは、保証されないというものである場合、1607において、通常/高速命令シーケンスが実行される(例えば、通常のオペランド値を用いて除算、平方根、または他の数学関数の結果を計算する)。
上記の明細書において、本発明の実施形態は、その特定の例示的な実施形態を参照して説明されている。しかし、添付の特許請求の範囲に記載される本発明のより広い趣旨および範囲を逸脱することなく、様々な修正および変更がなされ得ることは明らかであろう。従って、明細書および図面は、限定的意味ではなく、例示的意味で顧慮されるものである。
本発明の実施形態は、上記の様々な段階を含み得る。段階は、汎用または専用プロセッサに段階を実行させるべく用いられ得る機械実行可能命令で実施され得る。あるいは、これらの段階は、段階を実行するためのハードワイヤードロジックを含む特定のハードウェアコンポーネントにより、またはプログラミングされたコンピュータコンポーネントおよびカスタムハードウェアコンポーネントの任意の組み合わせにより、実行され得る。
本明細書において説明されるように、命令は、特定のオペレーションを実行するよう構成され、または予め定められた機能または非一時的コンピュータ可読媒体で実施されるメモリに格納されたソフトウェア命令を有する特定用途向け集積回路(ASIC)等のハードウェアの特定の構成を指し得る。従って、図面に示される技術は、1または複数の電子デバイス(例えば、終端局およびネットワーク要素等)上に格納され、実行されるコードおよびデータを用いて実装され得る。そのような電子デバイスは、非一時的コンピュータ機械可読ストレージ媒体(例えば、磁気ディスク、光ディスク、ランダムアクセスメモリ、リードオンリメモリ、フラッシュメモリデバイス、相変化メモリ)および一時的コンピュータ機械可読通信媒体(例えば、電気的、光、音響、もしくは搬送波、赤外線信号、デジタル信号等の他の形態の伝搬信号)等のコンピュータ機械可読媒体を用いてコードおよびデータを格納し、(内部でおよび/またはネットワークを介する他の電子デバイスと)通信する。更に、そのような電子デバイスは通常、1もしくは複数のストレージデバイス(非一時的機械可読ストレージ媒体)、ユーザ入出力デバイス(例えば、キーボード、タッチスクリーン、および/またはディスプレイ)、ならびにネットワーク接続等、1もしくは複数の他のコンポーネントに結合された1もしくは複数のプロセッサのセットを含む。プロセッサおよび他のコンポーネントのセットの結合は通常、1または複数のバスおよびブリッジ(バスコントローラとも呼ばれる)を介して行われる。ストレージデバイスおよびネットワークトラフィックを搬送する信号は、各々、1または複数の機械可読ストレージ媒体および機械可読通信媒体を表す。従って、所与の電子デバイスのストレージデバイスは通常、当該電子デバイスの1または複数のプロセッサのセット上で実行するためのコードおよび/またはデータを格納する。勿論、本発明の実施形態の1または複数の部分は、ソフトウェア、ファームウェア、および/またはハードウェアの異なる組み合わせを用いて実装され得る。この詳細な説明を通じて、説明の目的のために、多数の具体的な詳細が、本発明の完全な理解を提供するべく記載された。しかし、当業者には本発明がこれら具体的な詳細のいくつかがなくても実施され得ることが明らかであろう。特定の例において、周知の構造および機能は、本発明の主題を不明瞭にするのを避けるべく、精巧詳細に説明されていない。従って、本発明の範囲および趣旨は、以下の特許請求の範囲の観点から判断されるべきである。

Claims (18)

  1. 1または複数のソースオペランドを用いて複数の数学的命令を実行するための演算論理装置(ALU)と、
    現在の数学的命令のための前記1または複数のソースオペランドを評価し、前記評価に基づいて、前記ALUによって前記現在の数学的命令を実行することを含むデフォルト演算シーケンスを実行するか否か、または特定のタイプのソースオペランドを有する前記数学的命令の結果を、前記デフォルト演算シーケンスより効率的に提供する代替的な演算シーケンスにジャンプするか否かを判断するための命令チェックロジックとを備え
    前記1または複数のソースオペランドの前記評価を実行すると、前記命令チェックロジックは、前記デフォルト演算シーケンスまたは前記代替的なシーケンスを実行するか否かを示すベクトル出力と、前記代替的なシーケンスで処理されるべき要素をシグナリングするマスク出力と、前記1または複数のソースオペランドに対する数学的オペレーションの実行から生じた1または複数の例外を示すべく出力された計算毎の例外フラグとを生成する
    プロセッサ。
  2. 前記現在の数学的命令は、前記1または複数のソースオペランドにより指定された分子および分母を有する除算命令を含み、
    前記命令チェックロジックは、非正規化オペランドであるか、無限大に等しいか、非数(NaN)オペランドであるか、およびゼロによる除算をもたらすかのうちの少なくとも1つである分子または分母のいずれかに応答して、前記代替的な演算シーケンスへのジャンプを生じさせる、請求項1に記載のプロセッサ。
  3. 前記命令チェックロジックは、ゼロ(ZE)による除算、無効な演算(IE)、および非正規化オペランド(DE)のうちの少なくとも1つを含む、1または複数の例外フラグを前記プロセッサ内で設定する、請求項2に記載のプロセッサ。
  4. 前記現在の命令は、平方根演算を実行するソースオペランド値を有する平方根命令を含み、
    前記命令チェックロジックは、負の数であるか、非正規化オペランドであるか、無限大に等しいか、および非数(NaN)オペランドであるかのうちの少なくとも1つである前記ソースオペランドに応答して、前記代替的な演算シーケンスへのジャンプを生じさせる、請求項1〜3のいずれか1項に記載のプロセッサ。
  5. 前記現在の命令は、平方根演算を実行するソースオペランド値(x)を有する平方根命令を含み、
    前記命令チェックロジックは、xを用いて実行される比較に応答して前記代替的な演算シーケンスへのジャンプを生じさせる、請求項1〜4のいずれか1項に記載のプロセッサ。
  6. 前記デフォルト演算シーケンスは、デフォルトシーケンスの命令またはマイクロオペレーションを含み、
    前記代替的な演算シーケンスは、代替的なシーケンスの命令またはマイクロオペレーションを含む、請求項1〜のいずれか1項に記載のプロセッサ。
  7. 現在の数学的命令のための1または複数のソースオペランドを取得する段階と、
    前記現在の数学的命令のための前記1または複数のソースオペランドを評価する段階と、
    前記評価に基づいて、前記現在の数学的命令を実行することを含むデフォルト演算シーケンスを実行するか否か、または特定のタイプのソースオペランドを有する前記数学的命令の結果を、前記デフォルト演算シーケンスより効率的に提供する代替的な演算シーケンスにジャンプするか否かを判断する段階と
    前記1または複数のソースオペランドの前記評価を実行すると、前記デフォルト演算シーケンスまたは前記代替的なシーケンスを実行するか否かを示すベクトル出力を生成する段階と、
    前記代替的なシーケンスで処理されるべき要素をシグナリングするマスク出力を生成する段階と、
    前記1または複数のソースオペランドに対する数学的オペレーションの実行から生じた1または複数の例外を示すべく出力された計算毎の例外フラグを生成する段階と、を備える、方法。
  8. 前記現在の数学的命令は、前記1または複数のソースオペランドにより指定された分子および分母を有する除算命令を含み、
    前記方法は、非正規化オペランドであるか、無限大に等しいか、非数(NaN)オペランドであるか、およびゼロによる除算をもたらすかのうちの少なくとも1つである分子または分母のいずれかに応答して、前記代替的な演算シーケンスにジャンプする、請求項に記載の方法。
  9. ゼロ(ZE)による除算、無効な演算(IE)、および非正規化オペランド(DE)のうちの少なくとも1つを含む、1または複数の例外フラグを前記方法において設定する段階を更に備える、請求項に記載の方法。
  10. 前記現在の命令は、平方根演算を実行するソースオペランド値を有する平方根命令を含み、
    前記方法は、負の数であるか、非正規化オペランドであるか、無限大に等しいか、および非数(NaN)オペランドであるかのうちの少なくとも1つである前記ソースオペランドに応答して、前記代替的な演算シーケンスにジャンプする段階を更に備える、請求項のいずれか1項に記載の方法。
  11. 前記現在の命令は、平方根演算を実行するソースオペランド値(x)を有する平方根命令を含み、
    前記方法は、xを用いて実行される比較に応答して前記代替的な演算シーケンスにジャンプする段階を更に備える、請求項10のいずれか1項に記載の方法。
  12. 前記デフォルト演算シーケンスは、デフォルトシーケンスの命令またはマイクロオペレーションを含み、
    前記代替的な演算シーケンスは、代替的なシーケンスの命令またはマイクロオペレーションを含む、請求項11のいずれか1項に記載の方法。
  13. 数学的命令およびグラフィックス命令を含む命令およびデータを格納するためのメモリと、
    前記数学的命令を実行して前記データを処理するための複数のコアと、
    前記グラフィックス命令に応答してグラフィックスオペレーションを実行するためのグラフィックスプロセッサユニットと、
    ネットワークを介してデータを受信および送信するためのネットワークインタフェースと、
    マウスまたはカーソル制御デバイスからユーザ入力を受信するためのインタフェースと、
    1または複数のソースオペランドを用いて複数の数学的命令を実行するための演算論理装置(ALU)と、
    現在の数学的命令のための前記1または複数のソースオペランドを評価し、前記評価に基づいて、前記ALUにより前記現在の数学的命令を実行することを含むデフォルト演算シーケンスを実行するか否か、または特定のタイプのソースオペランドを有する前記数学的命令についての結果を、前記デフォルト演算シーケンスより効率的に提供する代替的な演算シーケンスにジャンプするか否かを判断する命令チェックロジックとを備え
    前記1または複数のソースオペランドの前記評価を実行すると、前記命令チェックロジックは、前記デフォルト演算シーケンスまたは前記代替的なシーケンスを実行するか否かを示すベクトル出力と、前記代替的なシーケンスで処理されるべき要素をシグナリングするマスク出力と、前記1または複数のソースオペランドに対する数学的オペレーションの実行から生じた1または複数の例外を示すべく出力された計算毎の例外フラグとを生成する
    システム。
  14. 前記現在の数学的命令は、前記1または複数のソースオペランドにより指定された分子および分母を有する除算命令を含み、
    前記命令チェックロジックは、非正規化オペランドであるか、無限大に等しいか、非数(NaN)オペランドであるか、およびゼロによる除算をもたらすかのうちの少なくとも1つである分子または分母のいずれかに応答して、前記代替的な演算シーケンスへのジャンプを生じさせる、請求項13に記載のシステム。
  15. 前記命令チェックロジックは、ゼロ(ZE)による除算、無効な演算(IE)、および非正規化オペランド(DE)のうちの少なくとも1つを含む、1または複数の例外フラグをプロセッサ内で設定する、請求項14に記載のシステム。
  16. 前記現在の命令は、平方根演算を実行するソースオペランド値を有する平方根命令を含み、
    前記命令チェックロジックは、負の数であるか、非正規化オペランドであるか、無限大に等しいか、および非数(NaN)オペランドであるかのうちの少なくとも1つである前記ソースオペランドに応答して、前記代替的な演算シーケンスへのジャンプを生じさせる、請求項1315のいずれか1項に記載のシステム。
  17. 前記現在の命令は、平方根演算を実行するソースオペランド値(x)を有する平方根命令を含み、
    前記命令チェックロジックは、xを用いて実行される比較に応答して前記代替的な演算シーケンスへのジャンプを生じさせる、請求項1316のいずれか1項に記載のシステム。
  18. 前記命令チェックロジックは、マイクロオペレーションを実行するためのものである
    請求項1〜6のいずれか1項に記載のプロセッサまたは請求項13〜17のいずれか1項に記載のシステム。
JP2017527720A 2014-12-23 2015-11-23 命令フローを最適化するチェックを実行するための装置および方法 Active JP6738579B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/581,815 US9696992B2 (en) 2014-12-23 2014-12-23 Apparatus and method for performing a check to optimize instruction flow
US14/581,815 2014-12-23
PCT/US2015/062056 WO2016105754A1 (en) 2014-12-23 2015-11-23 Apparatus and method for performing a check to optimize instruction flow

Publications (2)

Publication Number Publication Date
JP2018507453A JP2018507453A (ja) 2018-03-15
JP6738579B2 true JP6738579B2 (ja) 2020-08-12

Family

ID=56129459

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017527720A Active JP6738579B2 (ja) 2014-12-23 2015-11-23 命令フローを最適化するチェックを実行するための装置および方法

Country Status (7)

Country Link
US (1) US9696992B2 (ja)
EP (1) EP3238066A4 (ja)
JP (1) JP6738579B2 (ja)
KR (1) KR102462283B1 (ja)
CN (1) CN107003840B (ja)
TW (1) TWI564796B (ja)
WO (1) WO2016105754A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729053B (zh) * 2017-10-17 2020-11-27 安徽皖通邮电股份有限公司 一种实现高速缓存表的方法
US10447983B2 (en) * 2017-11-15 2019-10-15 Nxp Usa, Inc. Reciprocal approximation circuit
US11237827B2 (en) * 2019-11-26 2022-02-01 Advanced Micro Devices, Inc. Arithemetic logic unit register sequencing
US20220206805A1 (en) * 2020-12-26 2022-06-30 Intel Corporation Instructions to convert from fp16 to bf8
US20240303041A1 (en) * 2021-07-23 2024-09-12 Solid State Of Mind Apparatus and method for energy-efficient and accelerated processing of an arithmetic operation

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5134693A (en) 1989-01-18 1992-07-28 Intel Corporation System for handling occurrence of exceptions during execution of microinstructions while running floating point and non-floating point instructions in parallel
US7301541B2 (en) * 1995-08-16 2007-11-27 Microunity Systems Engineering, Inc. Programmable processor and method with wide operations
CN1075646C (zh) * 1996-01-19 2001-11-28 张胤微 一种高速乘法器
US6108769A (en) * 1996-05-17 2000-08-22 Advanced Micro Devices, Inc. Dependency table for reducing dependency checking hardware
US5844830A (en) 1996-08-07 1998-12-01 Sun Microsystems, Inc. Executing computer instrucrions by circuits having different latencies
US6009511A (en) * 1997-06-11 1999-12-28 Advanced Micro Devices, Inc. Apparatus and method for tagging floating point operands and results for rapid detection of special floating point numbers
EP1151374B1 (en) * 1999-01-28 2017-08-02 Advanced Silicon Technologies, LLC Executing programs for a first computer architecture on a computer of a second architecture
US6338136B1 (en) * 1999-05-18 2002-01-08 Ip-First, Llc Pairing of load-ALU-store with conditional branch
US6446197B1 (en) 1999-10-01 2002-09-03 Hitachi, Ltd. Two modes for executing branch instructions of different lengths and use of branch control instruction and register set loaded with target instructions
US6732134B1 (en) * 2000-09-11 2004-05-04 Apple Computer, Inc. Handler for floating-point denormalized numbers
KR100718754B1 (ko) * 2002-01-31 2007-05-15 에이알씨 인터내셔널 길이가 다른 명령어집합 구조를 갖는 설정가능형데이터프로세서
US20070061551A1 (en) * 2005-09-13 2007-03-15 Freescale Semiconductor, Inc. Computer Processor Architecture Comprising Operand Stack and Addressable Registers
US7676653B2 (en) * 2007-05-09 2010-03-09 Xmos Limited Compact instruction set encoding
GB2458487B (en) 2008-03-19 2011-01-19 Imagination Tech Ltd Pipeline processors
US8458684B2 (en) * 2009-08-19 2013-06-04 International Business Machines Corporation Insertion of operation-and-indicate instructions for optimized SIMD code
CN102298352B (zh) * 2010-06-25 2012-11-28 中国科学院沈阳自动化研究所 高性能可编程控制器专用处理器体系结构及其实现方法
US10078515B2 (en) * 2011-10-03 2018-09-18 International Business Machines Corporation Tracking operand liveness information in a computer system and performing function based on the liveness information
CN102566967B (zh) * 2011-12-15 2015-08-19 中国科学院自动化研究所 一种采用多级流水线结构的高速浮点运算器
US9158660B2 (en) 2012-03-16 2015-10-13 International Business Machines Corporation Controlling operation of a run-time instrumentation facility
US9471315B2 (en) 2012-03-16 2016-10-18 International Business Machines Corporation Run-time instrumentation reporting
US9411589B2 (en) 2012-12-11 2016-08-09 International Business Machines Corporation Branch-free condition evaluation
FR3002341B1 (fr) 2013-02-19 2015-04-03 Commissariat Energie Atomique Systeme de compilation dynamique d'au moins un flot d'instructions
US9268527B2 (en) * 2013-03-15 2016-02-23 Freescale Semiconductor, Inc. Method and device for generating an exception

Also Published As

Publication number Publication date
CN107003840B (zh) 2021-05-25
CN107003840A (zh) 2017-08-01
TWI564796B (zh) 2017-01-01
KR20170097617A (ko) 2017-08-28
EP3238066A4 (en) 2018-08-08
WO2016105754A1 (en) 2016-06-30
EP3238066A1 (en) 2017-11-01
US20160179515A1 (en) 2016-06-23
TW201640334A (zh) 2016-11-16
US9696992B2 (en) 2017-07-04
KR102462283B1 (ko) 2022-11-03
JP2018507453A (ja) 2018-03-15

Similar Documents

Publication Publication Date Title
JP6456867B2 (ja) 密結合ヘテロジニアスコンピューティングのためのハードウェアプロセッサ及び方法
JP6711480B2 (ja) ベクトルインデックスロードおよびストアのための方法および装置
KR20170097018A (ko) 벡터 브로드캐스트 및 xorand 로직 명령어를 위한 장치 및 방법
KR102508075B1 (ko) 인덱스 및 즉치로 벡터 치환을 수행하기 위한 방법 및 장치
JP6741006B2 (ja) マスクレジスタとベクトルレジスタとの間で可変に拡張するための方法および装置
KR102462174B1 (ko) 벡터 비트 셔플을 수행하기 위한 방법 및 장치
JP6635438B2 (ja) ベクトルビット反転およびクロスを実行するための方法および装置
KR102460268B1 (ko) 큰 정수 산술 연산을 수행하기 위한 방법 및 장치
JP6738579B2 (ja) 命令フローを最適化するチェックを実行するための装置および方法
KR20170099860A (ko) 벡터 포화된 더블워드/쿼드워드 덧셈을 수행하기 위한 명령어 및 로직
JP6835436B2 (ja) マスクをマスク値のベクトルに拡張するための方法および装置
JP2017534982A (ja) 4d座標から4dのz曲線インデックスを計算するための機械レベル命令
KR102528073B1 (ko) 벡터 비트 수집을 수행하기 위한 방법 및 장치
TWI697836B (zh) 處理包括高功率及標準指令之指令集的方法與處理器
KR20170099864A (ko) 마스크 값을 압축하기 위한 방법 및 장치
KR20170097613A (ko) 벡터 수평 로직 명령어를 위한 장치 및 방법
KR102321941B1 (ko) 스핀-루프 점프를 수행하기 위한 장치 및 방법
US20170177341A1 (en) Apparatus and method for retrieving elements from a linked structure
CN113050994A (zh) 用于512位操作的系统、装置和方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191203

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200519

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20200617

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200713

R150 Certificate of patent or registration of utility model

Ref document number: 6738579

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250