JP6615819B2 - 単一命令でシフト・アンド・排他的論理和演算を行うシステム - Google Patents

単一命令でシフト・アンド・排他的論理和演算を行うシステム Download PDF

Info

Publication number
JP6615819B2
JP6615819B2 JP2017076187A JP2017076187A JP6615819B2 JP 6615819 B2 JP6615819 B2 JP 6615819B2 JP 2017076187 A JP2017076187 A JP 2017076187A JP 2017076187 A JP2017076187 A JP 2017076187A JP 6615819 B2 JP6615819 B2 JP 6615819B2
Authority
JP
Japan
Prior art keywords
processor
data
shift
instruction
bit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017076187A
Other languages
English (en)
Other versions
JP2017152016A (ja
Inventor
ゴパル、ヴィノド
ディー. ギルフォード、ジェームス
オズターク、エルディンク
フェガーリ、ワジディ
エム. ウォルリッチ、ギルバート
ジー. ディクソン、マーティン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of JP2017152016A publication Critical patent/JP2017152016A/ja
Application granted granted Critical
Publication of JP6615819B2 publication Critical patent/JP6615819B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/14Handling requests for interconnection or transfer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3885Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units
    • G06F9/3893Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units controlled in tandem, e.g. multiplier-accumulator
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30145Instruction analysis, e.g. decoding, instruction word fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/3001Arithmetic instructions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/30029Logical and Boolean instructions, e.g. XOR, NOT
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/30032Movement instructions, e.g. MOVE, SHIFT, ROTATE, SHUFFLE
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/30036Instructions to perform operations on packed data, e.g. vector, tile or matrix operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30145Instruction analysis, e.g. decoding, instruction word fields
    • G06F9/3016Decoding the operand specifier, e.g. specifier format
    • G06F9/30167Decoding the operand specifier, e.g. specifier format of immediate specifier, e.g. constants
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3802Instruction prefetching
    • G06F9/3816Instruction alignment, e.g. cache line crossing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Executing Machine-Instructions (AREA)
  • Advance Control (AREA)
  • Complex Calculations (AREA)

Description

本開示は、コンピュータ処理分野に係る。より詳しくは、実施形態は、シフト・アンド・論理和(XOR)演算を実行する命令に係る。
単一命令多重データ処理(SIMD)命令は、多くのデータエレメント(パックデータ)を並列に処理する様々なアプリケーションで利用価値がある。シフト演算または排他的論理和(XOR)演算等の演算を直列で実行すると、性能が落ちる。
本発明は、添付図面に例示として、限定としてではなく示されている。
本発明の一実施形態におけるシフト・アンド・XOR演算命令を実行する実行部を含むプロセッサで構成されるコンピュータシステムのブロック図である。 本発明の別の実施形態における別のコンピュータシステム例のブロック図である。 本発明の別の実施形態における別のコンピュータシステム例のブロック図である。 本発明におけるシフト・アンド・XOR演算を行う論理回路を含む一実施形態のプロセッサのマイクロアーキテクチャのブロック図である。 本発明の一実施形態におけるマルチメディアレジスタ内の様々なパックデータタイプ表現である。 別の実施形態刑におけるパックデータタイプを示す。 本発明の一実施形態におけるマルチメディアレジスタの、様々な符号付き、および、符号なしのパックデータタイプ表現を示す。 演算符号(オペコード)フォーマットの一実施形態を示す。 別の演算符号(オペコード)フォーアットを示す。 また別の演算符号フォーマットを示す。 本発明における命令を実行する論理の一実施形態のブロック図である。 一実施形態において実行される演算のフロー図である。
以下の記載は、処理装置、コンピュータシステム、またはソフトウェアプログラムでシフトまたはXOR演算を実行する技術の実施形態を記載している。以下の記載では、プロセッサタイプ、マイクロアーキテクチャ条件、イベント、実施メカニズム(enablement mechanism)等の幾多の詳細を述べて、本発明のより完全な理解を促している。しかし、当業者には本発明の実施形態をこれら特定の詳細なしに実行できることが明らかである。さらに、公知の構造、回路等は詳述を避けて、本発明の実施形態を不当に曖昧にしないようにしている箇所もある。
以下の実施形態はプロセッサに関して記載されるが、他の種類の集積回路および論理デバイスには他の実施形態を適用可能である。本発明と同じ技術および教示は、パイプラインスループットおよび性能を上げることで利益がある他の種類の回路または半導体素子にも容易に適用できる。本発明の教示は、データ操作を行う任意のプロセッサまたは機械に適用可能である。しかし本発明の実施形態は、256ビット、128ビット、64ビット、32ビット、または16ビットのデータ処理を行うプロセッサまたは機械に限定されず、パックデータの操作が必要ないずれのプロセッサおよび機械にも適用可能である。
以下の例は、実行部および論理回路のコンテキストで命令処理および配信を記載しているが、本発明の他の実施形態は、有形媒体に格納されているソフトウェアにより実行可能である。一実施形態では、本発明の方法は、機械実行可能命令に具現化される。命令を利用して、命令をプログラミングされた汎用プロセッサまたは専用プロセッサに、本発明の各段階を実行させることができる。本発明の実施形態は、コンピュータ(その他の電子デバイス)に本発明のプロセスを実行させるようプログラミングするのに利用できる命令を格納する機械またはコンピュータ可読媒体を含みうるコンピュータプログラムプロダクトまたはソフトウェアとして提供可能である。または、本発明の各段階を、各段階を実行するハードワイヤ論理を含む特定用途のハードウェアコンポーネントにより、または、プログラミングされたコンピュータコンポーネントおよびカスタムハードウェアコンポーネントの任意の組み合わせにより実行することもできる。これらのソフトウェアは、システムのメモリ内に格納可能である。同様に、コードは、他のコンピュータ可読媒体により、またはネットワーク経由で配信可能である。
機械可読媒体は、機械可読な形式で情報を格納または送信する任意のメカニズムを含んでよく、これらに限定はされないが、フロッピー(登録商標)ディスク、光ディスク、CD,CD−ROM,および磁気光ディスク、ROM,RAM、EPROM、EEPROM、光カードまたは磁気カード、フラッシュメモリ、インターネット経由の送信、電気、光、音響、その他の形態の伝播信号(例えば搬送波、赤外線信号、デジタル信号等)が含まれる。従って、コンピュータ可読媒体は、機械(コンピュータ)が可読な形式で電子命令または情報を格納または送信するのに適した任意の種類の媒体/機会か読媒体を含む。さらに本発明は、コンピュータプログラムプロダクトとしてダウンロードすることもできる。従って、プログラムは、遠隔コンピュータ(例えばサーバ)から要求を出しているコンピュータ(例えばクライアント)に転送されてよい。プログラムの転送は、搬送波または他の伝播媒体で、通信リンク(例えばモデム、ネットワーク接続等)を介して具現化される、電気、光、音響、または他の形式のデータ信号により行うことができる。
設計は、作成からシミュレーション、ひいては製造までの様々な段階を経て行うことができる。設計を表すデータは、複数の方法で設計を表していてよい。第一に、シミュレーションで好適であるが、ハードウェアを、ハードウェア記述言語その他の機能記述言語で表すことができる。さらに、論理および/またはトランジスタゲートを有する回路レベルモデルを、設計プロセスの幾つかの段階で製造することができる。さらに、殆どの設計では、ある段階で、ハードウェアモデルの様々なデバイスの物理的位置を表すデータレベルに到達する。通常の半導体製造技術を利用する場合には、ハードウェアモデルを表すデータは、集積回路の製造に利用されるマスク用の様々なマスク層上の様々な特徴の存在または不在を示すデータであってよい。設計のいずれの表現においても、データは、いずれかの形態の機械可読媒体に格納されてよい。変調されたり、この情報を送信するように生成されたりしている光波または電波、メモリ、またはディスク等の磁気光ストレージは、機械可読媒体である。これら媒体のいずれかは、設計またはソフトウェア情報を「搬送」または「指示」できてよい。コードまたは設計を指示する、または搬送する電気搬送波が送信されると、電気信号のコピー、バッファリング、または再送信の範囲では、新たなコピーが生成される。従って、通信プロバイダまたはネットワークプロバイダは、本発明の技術を具現化している物品(搬送波)のコピーを製造しうる。
現代のプロセッサでは、複数の異なる実行部を利用して、様々なコードおよび命令を処理および実行している。完了まで速いものもあれば、莫大な数のクロックサイクルを要するものもあり、全ての命令を同じように製造するわけではない。命令のスループットが速いと、プロセッサの全体性能は良くなる。従って、多くの命令がより高速に実行されると好適である。しかし、複雑度が高く、実行時間およびプロセッサリソースをより多く必要とする命令も存在する。例を挙げると、浮動小数点命令、ロード/格納処理、データ移動などである。
インターネットおよびマルチメディアアプリケーションで利用されるコンピュータシステム数が増えるにつれて、さらなるプロセッササポートを導入することが増えてきた。例えば、単一命令多重データ(SIMD)整数/浮動小数点命令、および、ストリーミングSIMD拡張(SSE)は、特定のプログラムタスクの実行に必要な命令の総数を減らす命令であり、消費電力も減らすことができる。この種類の命令は、複数のデータエレメントに並列処理を行うことにより、ソフトウェアのパフォーマンスを高速化することができる。この結果、ビデオ、音声、および画像/写真処理を含む幅広い範囲のアプリケーションで性能面の利得が得られる。SIMD命令をマイクロプロセッサおよび類似した種類の論理回路に実装するには、通常、多くの課題が存在する。さらに、SIMD演算は複雑なので、しばしば、正確にデータを処理、操作するためにはさらなる回路が必要となる。
現在のところSIMDによるシフト・アンド・XOR命令は実用化されていない。本発明の実施形態では、SIMDシフト・アンド・XOR命令がないと、音声/ビデオ/グラフィック圧縮、処理、操作等のアプリケーションで同等の成果を達成するために、多数の命令およびデータレジスタが必要となることが想定される。従って、本発明の実施形態においては少なくとも1つのシフト・アンド・XOR命令を利用することで、コードのオーバヘッドおよびリソース要件を低減させることができる。本発明の実施形態は、シフト・アンド・XOR演算を、SIMD関連のハードウェアを利用するアルゴリズムとして実装する方法を提供する。現在のところ、SIMDレジスタのデータに、シフト・アンド・XOR演算を行うことは困難であり時間がかかる(tedious)。またアルゴリズムのなかには、これら演算を実行するのにかかる実際の命令数よりも、算術演算データを配置するための命令数が多いようなものがある。本発明の実施形態におけるシフト・アンド・XOR演算を実装することで、シフト・アンド・XOR演算を行うために必要となる命令数を大幅に減らすことができるようになる。
本発明の実施形態は、シフト・アンド・XOR演算の実装命令に係る。一実施形態では、シフト・アンド・XOR演算は…。
データエレメントに実行される一実施形態におけるシフト・アンド・XOR演算は、概してDEST1←SCR1「SRC2」と表すことができる。
一実施形態では、SRC1は、複数のデータエレメントを有する第1のオペランドを格納しており、SRC2は、シフト・アンド・XOR命令でシフトされる値を表す値を含んでいる。他の実施形態では、シフト・アンド・XOR値のインジケータを、即値フィールドに格納してもよい。
上述したフローでは、「DEST」および「SRC」は、対応するデータまたは演算のソースおよび宛先を表す一般用語である。一部の実施形態では、これらを、レジスタ、メモリ、または記載されたものとは異なる名称または関数を有する他の格納領域に実装することができる。一実施形態では、例えば、DEST1およびDEST2は、第1の時間格納領域および第2の時間格納領域(例えば「TEMP1」「TEMP2」レジスタ)であってよく、SRC1およびSRC3は、第1および第2の宛先格納領域(例えば「DEST1」および「DEST2」レジスタ)等であってよい。他の実施形態では、2以上のSRCおよびDEST格納領域が、同じ格納領域(例えばSIMDレジスタ)内の異なるデータ格納エレメントに対応していてもよい。
図1Aは、本発明の一実施形態におけるシフト・アンド・XOR演算命令を実行する実行部を含むプロセッサで形成されるコンピュータシステムのブロック図である。システム100は、例えばここに記載する実施形態におけるような、本発明における処理データのアルゴリズムを実行する論理を含む実行部を利用するプロセッサ102等のコンポーネントを含む。システム100は、カリフォルニア州サンタクララのIntel Corporationから入手可能なPENTIUM(登録商標)III、PENTIUM(登録商標)4、Xeon(登録商標)、Itanium(登録商標)、XScale(登録商標)、および/または、StrongARM(登録商標)マイクロプロセッサを表しているが、他のシステム(他のマイクロプロセッサ、工学ワークステーション、セットトップボックス等を有するPCを含む)を利用することもできる。一実施形態では、サンプルシステム100は、ワイントン州のRedmondのMicrosoft Corporationから入手可能なWINDOWS(登録商標)オペレーティングシステムの一バージョンを実行することができるが、他のオペレーティングシステム(例えばUNIX(登録商標)、Linux(登録商標))、埋め込みソフトウェア、および/またはグラフィックユーザインタフェースを利用することもできる。従って本発明の実施形態は、ハードウェア回路およびソフトウェアの特定の組み合わせに限定されない。
実施形態はコンピュータシステムに限定されない。ハンドヘルドデバイスおよび埋め込みアプリケーションといった他のデバイスには本発明の別の実施形態を利用することができる。ハンドヘルドデバイスの例には、携帯電話(cellular phone)、インターネットプロトコルデバイス、デジタルカメラ、携帯情報端末(PDA)およびハンドヘルドPCが含まれる。埋め込みアプリケーションは、マイクロコントローラ、デジタル信号プロセッサ(DSP)、システムオンチップ、ネットワークコンピュータ(NetPC)、セットトップボックス、ネットワークハブ、ワイドエリアネットワーク(WAN)スイッチ、またはシフト・アンド・XOR演算をオペランドに行うことのできる任意の他のシステムを含むことができる。さらに、マルチメディアアプリケーションの効率を高めるために、幾つかのデータに同時に命令を実行するために幾つかのアーキテクチャを実装することもできる。データの種類および量が増えると、コンピュータおよびそのプロセッサを向上させて、より効率的な方法でデータを操作する必要がでてくる。
図1Aは、本発明の一実施形態において、幾つかのデータエレメントをシフト・アンド・XOR演算させるアルゴリズムを実行する1以上の実行部108を含むプロセッサ102で構成されるコンピュータシステム100のブロック図である。一実施形態は、単一のプロセッサデスクトップまたはサーバシステムを想定した説明がなされるが、マルチプロセッサを想定する別の実施形態を含むこともできる。システム100は、ハブアーキテクチャの一例である。コンピュータシステム100は、データ信号を処理するプロセッサ102を含む。プロセッサ102は、複合命令セットコンピュータ(CISC)マイクロプロセッサ、縮小命令セットコンピュータ(RISC)マイクロプロセッサ、超長命令後(VLIW)マイクロプロセッサ、命令セットの組み合わせを実装するプロセッサ、または任意の他のプロセッサデバイス(例えばデジタル信号プロセッサ)であってよい。プロセッサ102は、プロセッサ102とシステム100の他のプロセッサとの間でデータ信号を送信することのできるプロセッサバス110に連結されている。システム100のエレメントは、当業者には公知である自身の通常の機能を実行する。
一実施形態では、プロセッサ102は、レベル1(L1)内部キャッシュメモリ104を含む。アーキテクチャによっては、プロセッサ102は、単一の内部キャッシュまたは複数のレベルの内部キャッシュを有してよい。また別の実施形態では、キャッシュメモリがプロセッサ102の外部に常駐していてもよい。また他の実施形態として、実装例および必要性に応じて、内部キャッシュおよび外部キャッシュの両方の組み合わせを含んでもよい。レジスタファイル106は、整数レジスタ、浮動小数点レジスタ、ステータスレジスタ、および命令ポインタレジスタ等の様々なレジスタに様々な種類のデータを格納することができる。
実行ユニット108は、整数および浮動小数点演算を実行する論理を含み、これもプロセッサ102内に常駐している。プロセッサ102はさらに、一定のマクロ命令のマイクロコードを格納するマイクロコード(uコード)ROMを含む。この実施形態では、実行ユニット108は、パック命令セット109を処理する論理を含む。一実施形態では、パック命令セット109は、複数のオペランドにシフト・アンド・XORを行う、パック・シフト・アンド・XOR命令を含む。パック命令セット109を汎用プロセッサ102の命令セットに含め、さらに、命令を実行する関連回路も含めることで、多くのマルチメディアアプリケーションが利用する処理を、汎用プロセッサ102の充填データを利用して行うことができる。従って多くのマルチメディアアプリケーションは、充填データを処理するためにプロセッサのデータバス全幅を利用することで、加速化してより効率的に実行することができる。これにより、1つの処理を一度に1つのデータエレメントに対して行う際に、プロセッサのデータバスに各小片のデータを転送する必要がなくなる。
さらにマイクロコントローラ、埋め込みプロセッサ、グラフィックデバイス、DSP、その他の論理回路では、実行部108の別の実施形態を利用することもできる。システム100はメモリ120を含む。メモリ120は、DRAMデバイス、SRAMデバイス、フラッシュメモリデバイス、その他のメモリデバイスであってよい。メモリ120は、プロセッサ102が実行可能なデータ信号により表される命令および/またはデータを格納することができる。
プロセッサバス110およびメモリ120には、システム論理チップ116が連結される。例示されている実施形態におけるシステム論理チップ116は、メモリコントローラハブ(MCH)である。プロセッサ102は、プロセッサバス110を介してMCH116と通信することができる。MCH116は、命令およびデータを格納して、グラフィックコマンド、データおよびテクスチャを格納するために、高い帯域幅メモリ経路118をメモリ120に提供する。MCH116は、プロセッサ102、メモリ120、およびシステム100の他のコンポーネント間にデータ信号を送信して、プロセッサバス110、メモリ120、およびシステムI/O122間でデータ信号をブリッジ(橋絡)する。一部の実施形態では、システム論理チップ116は、グラフィックコントローラ112に連結するためのグラフィックポートを提供してよい。MCH116は、メモリインタフェース118を介してメモリ120に連結される。グラフィックカード112は、アクセラレーテッドグラフィックポート(AGP)インターコネクト114経由でMCH116に連結される。
システム100は、MCH116をI/Oコントローラハブ(ICH)130に連結するために専用ハブインタフェースバス122を利用する。ICH130は、一部のI/OデバイスへのローカルI/Oバスを介した直接接続を提供する。ローカルI/Oバスは、周辺機器をメモリ120、チップセット、およびプロセッサ102に接続するための高速I/Oバスである。数例には、オーディオコントローラ、ファームウェアハブ(フラッシュBIOS)128、無線トランシーバ126、データストレージ124、ユーザ入力およびキーボードインタフェームを含むレガシーI/Oコントローラ、ユニバーサルシリアルバス(USB)等のシリアル拡張ポート、およびネットワークコントローラ134が含まれる。データ格納デバイス124は、ハードディスクドライブ、フロッピー(登録商標)ディスクドライブ、CD−ROMデバイス、フラッシュメモリデバイス、その他の大容量格納デバイスを含んでよい。
システムの別の実施形態では、シフト・アンド・XOR命令を有するアルゴリズムを実行する実行部をシステムオンチップとともに利用することができる。システムオンチップの一実施形態には、プロセッサおよびメモリからなるものがある。このようなシステム用のメモリの一例はフラッシュメモリである。フラッシュメモリは、プロセッサおよびその他のシステムコンポーネントと同じダイに配置されてよい。加えて、他の論理ブロック(例えばメモリコントローラまたはグラフィックコントローラ等)を、システムオンチップに配置することもできる。
図1Bは、本発明の一実施形態の原理を実装するデータ処理システム140を示す。当業者であればここに記載する実施形態を、本発明の範囲を逸脱することなく別の処理システムに応用することもできることを理解する。
コンピュータシステム140は、シフト・アンド・XOR演算を含むSIMD演算を実行する機能を有する処理コア159を含む。一実施形態では、処理コア159は、任意の種類のアーキテクチャの処理ユニットを表す(これらに限られないが、CISC、RISC,またはVLIWアーキテクチャ等)。処理コア159は、1以上のプロセス技術での製造に適したものであってもよいし、十分な詳細を機械可読媒体に表すことにより、この製造を促すのに適したものであってもよい。
処理コア159は、実行部142、レジスタファイルセット145、およびデコーダ144を含む。処理コア159は、さらに、本発明の理解には不要な回路(不図示)も含んでいる。実行部142は、処理コア159が受信する命令を実行するのに利用される。通常のプロセッサ命令を認識することに加えて、実行部142は、パック令セット143の命令を認識して、パックデータフォーマットに演算を行うことができる。パック命令セット143は、シフト・アンド・XOR演算をサポートする命令を含み、さらには他のパック命令を含むこともできる。実行部142は、内部バスによりレジスタファイル145に連結される。レジスタファイル145は、データを含む情報を格納する処理コア159上の格納領域を表す。前述したように、パックデータを格納するために利用する格納領域は必須ではない。実行部142はデコーダ144に連結される。デコーダ144は、処理コア159が受信した命令を、制御信号および/またはマイクロコード・エントリポイントにデコードするために利用される。これらの制御信号および/またはマイクロコード・エントリポイントに呼応して、実行部142は適切な処理を行う。
処理コア159は、様々な他のシステムデバイスと通信するバス141に連結されており、これには、これらに限定はされないが、SDRAMコントロール146、SRAMコントロール147、バーストフラッシュメモリインタフェース148、PCMCIA(personal computer memory card international association)/コンパクトフラッシュ(登録商標)(CF)カードコントロール149、液晶ディスプレイ(LCD)コントロール150、直接メモリアクセス(DMA)コントローラ151、および代用バスマスターインタフェース152が含まれる。一実施形態では、データ処理システム140はさらに、I/Oバス153経由で様々なI/Oデバイスと通信するI/Oブリッジ154を含んでよい。このI/Oデバイスは、これらに限定はされないが、UART(universal asynchronous receiver/transmitter)155、ユニバーサルシリアルバス(USB)156、Bluetooth(登録商標)無線UART157、およびI/O拡張インタフェース158をさらに含んでよい。
データ処理システム140の一実施形態は、モバイル、ネットワークおよび/または無線通信を提供し、シフト・アンド・XOR演算を含むSIMD演算を実行する機能を有する処理コア159を提供する。処理コア159は、様々な音声、ビデオ、画像および通信アルゴリズム(例えば、ウォルシュ・アダマール変換、高速フーリエ変換(FFT)、離散コサイン変換(DCT)、およびそれらのそれぞれの逆変換、色空間等の変換圧縮/伸張技術、ビデオ符号化動き推定またはビデオ復号動き補償、およびパルス符号変調(PCM)等の変復調(MODEM)機能)でプログラミングされてよい。本発明の一部の実施形態はさらに、グラフィックアプリケーション(三次元(「3D」)モデリング、描画、オブジェクト衝突検出、3Dオブジェクト変換および点灯(lighting)等)に利用することもできる。
図1Cは、SIMDシフト・アンド・XOR演算を行う機能を有するデータ処理システムのまた別の実施形態を示す。別の実施形態において、データ処理システム160は、メインプロセッサ166、SIMDコプロセッサ161、キャッシュメモリ167、および入出力システム168を含んでよい。入出力システム168は、必須ではないが、無線インタフェース169に連結されてもよい。SIMDコプロセッサ161は、シフト・アンド・XOR演算を含むSIMD演算を行う機能を有する。処理コア170は、1以上のプロセス技術での製造に適したものであってもよいし、十分な詳細を機械可読媒体に表すことにより、処理コア170を含むデータ処理システム160の全てまたは一部の製造を促すのに適したものであってもよい。
一実施形態では、SIMDコプロセッサ161は、実行部162とレジスタファイルセット164とを含む。メインプロセッサ165の一実施形態は、実行部162により実行されるSIMDシフト・アンド・XOR計算命令を含む、命令セット163の中の命令を認識するデコーダ165を含む。別の実施形態では、SIMDコプロセッサ161はさらに、命令セット163内の命令をデコードするデコーダ165Bの少なくとも一部を含む。処理コア170はさらに、本発明の理解には不要な回路(不図示)も含んでいる。
動作において、メインプロセッサ166は、キャッシュメモリ167および入出力システム168との相互作用を含む一般的な種類のデータ処理を制御するデータ処理命令ストリームを実行する。データ処理命令ストリームにはSIMDコプロセッサ命令が埋め込まれている。メインプロセッサ166のデコーダ165は、これらSIMDコプロセッサ命令を、接続されているSIMDコプロセッサ161が実行すべき種類のものである認識する。従ってメインプロセッサ166は、コプロセッサバス166上にこれらのSIMDコプロセッサ命令(またはSIMDコプロセッサ命令を表す制御信号)を発行して、ここから任意の接続されているSIMDコプロセッサがこれら命令を受け取る。この場合、SIMDコプロセッサ161は、これを宛先とする全ての受信されたSIMDコプロセッサ命令を受け付けて実行する。
データは無線インタフェース169経由で受信され、SIMDコプロセッサ命令による処理に備えさせられる。一例としては、音声通信は、デジタル信号の形式で受け取られてよく、SIMDコプロセッサ命令の処理を受けて、音声通信を表すデジタルオーディオサンプルが再生される。別の例では、圧縮された音声および/またはビデオがデジタルビットストリームの形式で受信されてよく、これがSIMDコプロセッサ命令により処理されることで、デジタルオーディオサンプルおよび/または動きビデオフレームが再生されてよい。処理コア170の一実施形態では、メインプロセッサ166およびSIMDコプロセッサ161は、実行部162、レジスタファイルセット164、およびSIMDシフト・アンド・XOR命令を含む命令セット163の命令を認識するデコーダ165を含む単一の処理コア170に統合される。
図2は、本発明におけるシフト・アンド・XOR演算を行う論理回路を含む一実施形態のプロセッサ200のマイクロアーキテクチャのブロック図である。シフト・アンド・XOR命令の一実施形態では、命令は、浮動小数点の仮数値を、指数が示す量だけ右にシフトさせて、シフトされた値を所与の値でXORして、最終結果を生成する。一実施形態では、正常のフロントエンド201は、実行するマクロ命令をフェッチしてきて、プロセッサパイプラインでの利用に備えさせるプロセッサ200の一部である。フロントエンド201は、幾つかのユニットを含んでよい。一実施形態では、命令プリフェッチャ226が、メモリからマクロ命令をフェッチして、命令デコーダ228に供給して、命令デコーダ228がこれらを、機械が実行できるマイクロ命令またはマイクロオプレーションと称されるプリミティブ(マイクロオプまたはuオプと称されることもある)にデコードする。一実施形態では、トレースキャッシュ230は、デコードされたuオプをとり、これらを、uオプキュー234のプログラムが命ずる(program ordered)シーケンスまたはトレースに、実行用にアセンブルする。トレースキャッシュ230が複合マイクロ命令を発見すると、マイクロコードROM232は、演算を完了させるのに必要なuオプを提供する。
数多くのマクロ命令が、単一のマイクロオプに変換され、その他のマクロ命令は、演算全体を完了させるのに幾つかのマイクロオプを必要とする。一実施形態では、4つを超える数のマイクロオプがマクロ命令の完了に必要な場合、デコーダ228はマイクロコードROM232にアクセスして、マクロ命令を実行する。一実施形態では、パック・シフト・アンド・XOR命令を、少数のマイクロオプにデコードして、命令デコーダ228での処理に備えさせる。別の実施形態では、処理を実行するのに幾つかの数のマイクロオプが必要な場合に、パック・シフト・アンド・XORアルゴリズムのための命令をマイクロコードROM232内に格納することができる。トレースキャッシュ230は、エントリポイントのプログラマブルロジックアレイ(PLA)を参照して、マイクロコードROM232のシフト・アンド・XORアルゴリズムのためのマイクロコードシーケンスを読み出す正確なマイクロ命令ポインタを決定する。マイクロコードROM232が現在のマクロ命令のマイクロオプの順序付けを終了すると、マシンのフロントエンド201が、トレースキャッシュ230からのマイクロオプのフェッチを再開する。
SIMDその他のマルチメディアタイプの命令は、複合命令とみなされる。殆どの浮動小数点関連の命令も複合命令である。従って、命令デコーダ228が複合マクロ命令を発見すると、マイクロコードROM232の適切な位置にアクセスして、そのマクロ命令のマイクロコードシーケンスを取得する。そのマクロ命令を実行するのに必要な様々なマイクロオプをアウトオブオーダ実行エンジン203に通信して、適切な整数および浮動小数点実行部での実行に備えさせる。
アウトオブオーダ実行エンジン203では、マイクロ命令を実行に備えさせる。アウトオブオーダ実行論理は、マイクロ命令がパイプラインを流れて実行をスケジュールされるときに、マイクロ命令のフローの平滑化および順序のつけ直し(リオーダ)を行って性能を最適化するための複数のバッファを備える。アロケータ論理は、各uオプが実行する際に必要とするマシンバッファおよびリソースを割り当てる。レジスタのリネーム論理は、論理レジスタをレジスタファイルのエントリへとリネームする。アロケータはさらに、命令スケジューラ、メモリスケジューラ、高速スケジューラ202、遅い/汎用の浮動小数点スケジューラ204、および簡易浮動小数点スケジューラ206の前に、各uオプのエントリを2つのuオプキューのどちらかに対して、1つをメモリ処理に、1つを非メモリ処理に、という具合に割り当てる。uオプスケジューラ202、204、206は、従属入力レジスタオペランドソースが準備できているか、および、uオプが処理を完了するために必要な実行リソースの利用可能性に基づいて、uオプが準備できているかを判断する。本実施形態の高速スケジューラ202は、メインクロックサイクルの各半分にスケジュールを行うが、他のスケジューラは、各メインプロセッサのクロックサイクルごとに一度しかスケジュールを行うことができない。スケジューラは、実行するuオプをスケジュールするべく発送ポート間を調整する。
レジスタファイル208、210は、スケジューラ202、204、206、および、実行部212、214、216、218、220、222、224の間に存在している(実行ブロック211)。整数および浮動小数点演算のためにそれぞれ別個のレジスタファイル208、210が存在している。本実施形態の各レジスタファイル208、210は、さらに、今完成したばかりで、まだレジスタファイルに書き込まれていない結果を、新たな依存uオプにバイパスまたは転送することのできるバイパスネットワークを含む。整数レジスタファイル208および浮動小数点レジスタファイル210は、さらに互いに(with the other)データを通信する機能を有する。一実施形態では、整数レジスタファイル208は、2つの別個のレジスタファイル(一方のレジスタファイルが、下位32ビットのデータ用であり、他方のレジスタファイルが、上位32ビットのデータ用である)に分割される。浮動小数点命令は通常64ビット幅から128ビット幅であるので、一実施形態の浮動小数点レジスタファイル210は、128ビット幅のエントリを有する。
実行ブロック211は、命令が実際に実行される実行部212、214、216、218、220、222、224を含む。このセクションは、マイクロ命令が実行する必要のある整数および浮動小数点データオペランドの値を格納するレジスタファイル208、210を含む。本実施形態のプロセッサ200は、幾つかの実行ユニット(アドレス生成ユニット(AGU)212、AGU214、高速ALU216、高速ALU218、遅いALU220、浮動小数点ALU222、浮動小数点移動ユニット224)からなる。本実施形態では、浮動小数点実行ブロック222、224は、浮動小数点MMX、SIMD、およびSSE演算を実行する。本実施形態の浮動小数点ALU222は、マイクロオプの除算、平方根、および余りを求める、64ビット×64ビットの浮動小数点除算器を含む。本発明の実施形態では、浮動小数点の値に関する任意の処理は、浮動小数点ハードウェアで行われる。例えば、整数フォーマットと浮動小数点フォーマットとの間の変換には、浮動小数点レジスタファイルを利用する。同様に、浮動小数点の除算は、浮動小数点除算器で行う。他方で、非浮動小数点および整数のタイプは、整数ハードウェアリソースで処理する。この単純で、非常に頻繁に行われるALU演算は、高速ALU事項部216、218に送られる。本実施形態の高速ALU216、218は、二分の一のクロックサイクルという実効レイテンシーで高速処理を行うことができる。一実施形態では、殆どの複雑な整数演算が遅いALU220に送られるが、これは、遅いALU220が、乗算、シフト、フラグ論理、および分岐処理といったレイテンシーの長いタイプの演算用の整数実行ハードウェアを含むからである。メモリロード/格納演算は、AGU212、214で行われる。本実施形態では、整数ALU216、218、220を、64ビットのオペランドに対する整数演算を例にとって記載する。しかし別の実施形態では、ALU216、218、220は、16、32、128、256等の様々なデータビットをサポートするために実装することもできる。同様に、浮動小数点部222、224を、様々な幅のビットを有する一定の範囲のオペランドをサポートするために実装することもできる。一実施形態では、浮動小数点部222.224は、SIMDおよびマルチメディア命令と協働して、128ビット幅のパックデータオペランドに演算を行うことができる。
「レジスタ」という用語は、ここでは、オペランドを特定するマクロ命令の一部として利用されるオンボードのプロセッサ格納位置を示すために利用される。つまり、ここで利用されるレジスタは、プロセッサ外から見ることができるもののことである(例えばプログラマから見えるもののことである)。しかし、一実施形態のレジスタの意味は、特定の種類の回路に限定されない。一実施形態におけるレジスタは、データの格納および提供が可能であり、且つ、ここで記載する機能を行うことができる、ということのみを要件としている。ここで記載するレジスタは、任意の数の様々な技術を利用してプロセッサ内の回路により実装可能である(例えば、専用物理レジスタ、レジスタリネーミング機能を利用して動的に割り当てられた物理レジスタ、専用レジスタと動的に割り当てられた物理レジスタの組み合わせ等)。一実施形態では、整数レジスタは32ビットの整数データを格納する。一実施形態のレジスタファイルはさらに、16個のXMMおよび汎用レジスタを含み、8個のマルチメディア(例えば「EM64T」個の追加)マルチメディアSIMDレジスタを、パックデータ用に含む。以下の説明では、レジスタは、カリフォルニア州サンタクララのIntel Corporationから入手可能なMMX技術で可能となるマイクロプロセッサ内の64ビット幅のMMX(登録商標)レジスタ(「mm」レジスタと称される場合もある)等の、パックデータを保持するよう設計されるデータレジスタとして理解される。これらMMXレジスタは、整数および浮動小数点の形態で利用することができ、SIMDおよびSSE命令に付随するパックデータエレメントで処理することができる。同様に、SSE2、SSE3、SSE4、またはこれらを超える(一般的に「SSEx」と称される)技術に関する128ビット幅のXMMレジスタも、これらパックデータオペランドを保持するために利用することができる。本実施形態では、パックデータおよび整数データを格納する際に、レジスタは、2つのデータタイプを区別する必要がない。一実施形態では、他のレジスタおよびレジスタの組み合わせを利用して、256ビット以上のデータを格納することもできる。
以下の図の例では、複数のデータオペランドが記載されている。図3Aは、本発明の一実施形態におけるマルチメディアレジスタにおける様々なタイプのパックデータの表現を示す。図3Aは、128ビット幅のオペランドについて、パックバイト310、パックワード320、および、パックダブルワード(dword)330のデータタイプを示す。この例のパックバイトのフォーマット310は、128ビットの長さを有し、16個のパックバイトのデータエレメントを含む。1バイトは、8ビットのデータとして定義されている。各バイトデータエレメントの情報は、ビット7からビット0までをバイト0として、ビット15からビット8までをバイト1として、ビット23からビット16までをバイト2として、最後にビット120からビット127までをバイト15として、といった具合に格納される。このようにして全ての利用可能なビットをレジスタで利用することができる。この格納構成によって、プロセッサの格納効率が上がる。また、16個のデータエレメントにアクセスするとき、1つの処理を16個のデータエレメントに対して並列に実行することもできる。
一般的に、1データエレメントは、同じ長さの他のデータエレメントとともに単一のレジスタまたはメモリ位置に格納されている個々のデータのことである。SSEx技術に関するパックデータシーケンスでは、XMMレジスタに格納されているデータエレメント数は、128ビットを個々のデータエレメントのビット長で除算した値である。同様に、MMXおよびSSE技術に関するパックデータシーケンスでは、MMXレジスタに格納されているデータエレメントの数は、64ビットを個々のデータエレメントのビット長で除算した値である。図3Aに示されているデータのタイプは128ビット長であるが、本発明の実施形態は、64ビット幅であっても、他のサイズのオペランドであっても処理することができる。この例のパックワードフォーマット320は128ビット長であり、8つのパックワードデータエレメントを含む。各パックワードは、16ビットの情報を含む。図3Aのパックダブルワードフォーマット330は、128ビット長であり、4つのパックダブルワードデータエレメントを含む。各パックダブルワードデータエレメントは、32ビットの情報を含む。パッククワドワードは128ビット長であり、2つのパッククワドワードのデータエレメントを含む。
図3Bは、別のレジスタ内のデータ格納フォーマットを示す。各パックデータは、1を超える数の独立データエレメントを含んでよい。パック・ハーフ341、パック・シングル342、およびパック・ダブル343という、3つのパックデータエレメントが記載されている。パック・ハーフ341、パック・シングル342、およびパック・ダブル343の一実施形態は、固定小数点(fixed-point)データエレメントを含む。別の実施形態では、パック・ハーフ341、パック・シングル342、およびパック・ダブル343の1以上が、浮動小数点データエレメントを含む。パック・ハーフ341の別の実施形態は、16ビットのデータエレメントを8つ含む128ビット長である。パック・シングル342の一実施形態は、128ビット長であり、32ビットのデータエレメントを4つ含む。パック・ダブル343の一実施形態は、128ビット長であり、64ビットのデータエレメントを2つ含む。これらパックデータフォーマットは、さらに、他のレジスタ長(例えば96ビット、160ビット、192ビット、224ビット、256ビット、あるいはそれ以上のビット)に拡張することもできる。
図3Cは、本発明の一実施形態におけるマルチメディアレジスタの、様々な符号付き、および、符号なしのタイプのパックデータ表現を示す。符号なしパックバイト表現344は、SIMDレジスタに符号なしパックバイトが格納されていることを示している。各バイトデータエレメントの情報は、ビット7からビット0までをバイト0として、ビット15からビット8までをバイト1として、ビット23からビット16までをバイト2として、最後に、ビット120からビット127までをバイト15として、といった具合に格納される。このようにすることで、全ての利用可能なビットをレジスタで利用することができる。この格納構成によって、プロセッサの格納効率が上がる。さらにこの構成では、16個のデータエレメントにアクセスするとき、1つの処理を16個のデータエレメントに対して並列に実行することもできる。符号付きパックデータ表現345は、符号付パックバイトの格納状態を示している。各バイトデータエレメントの8つ目のビットは、符号インジケータである。符号なしパックデータ表現346は、ワード7からワード0までがどのようにSIMDレジスタに格納されているかを示している。符号付きパックワード表現347は、符号なしパックワードのレジスタ内の表現346に類似している。各ワードデータエレメントの16個目のビットは、符号インジケータである。符号なしパックダブルワード表現348は、ダブルワードデータエレメントがどのようい格納されているかを示している。符号付きパックダブルワード表現349は、符号なしパックダブルワードのレジスタ内の表現348に類似している。必要な符号ビットは、各ダブルワードデータエレメントの32個目のビットである。
図3Dは、演算符号(オペコード)フォーマット360の一実施形態を示しており、32以上のビットを有し、レジスタ/メモリオペランドアドレスモードが「IA-32 Intel Architecture Software Developer's Manual Volume 2: Instruction Set Reference」に記載されているオペコードフォーマットの種類に対応しており、この文献は、カリフォルニア州のサンタクララのIntel Corporationが発行しており、www.intel. com/design/litcentr.から入手可能である。一実施形態では、シフト・アンド・XOR演算は、フィールド361および362の1以上で符号化されてよい。各命令について、2つまでのオペランド位置(2つのソースオペランド識別子364および365までを含む)を特定する。シフト・アンド・XOR命令の一実施形態では、宛先オペランド識別子366は、ソースオペランド識別子364と等しいが、他の実施形態では異なっていてもよい。別の実施形態では、宛先オペランド識別子366は、ソースオペランド識別子365と等しいが、他の実施形態では異なっていてもよい。シフト・アンド・XOR命令の一実施形態では、ソースオペランド識別子364および365が特定するソースオペランドのいずれかを、シフト・アンド・XORオペランドの結果で上書きし、他の実施形態では、識別子364がソースレジスタエレメントに対応しており、識別子365が宛先レジスタエレメントに対応している。シフト・アンド・XOR命令の一実施形態では、オペランド識別子364および365を利用して、32ビットまたは64ビットのソースオペランドおよび宛先オペランドを特定する。
図3Eは、40以上のビットを有する別の演算符号(オペコード)フォーマット370を示す。オペコードフォーマット370は、オペコードフォーマット360に対応しており、オプションのプレフィックスバイト378を含む。シフト・アンド・XOR演算の種類は、フィールド378、371、および372の1以上でエンコードされてよい。ソースオペランド識別子374および375により、および、プレフィックスバイト378により、各命令についてオペランド位置を2つまで特定することができる。シフト・アンド・XOR命令の一実施形態では、プレフィックスバイト378を利用して、32ビットまたは64ビットのソースオペランドおよび宛先オペランドを特定する。シフト・アンド・XOR命令の一実施形態では、宛先オペランド識別子376はソースオペランド識別子374と等しいが、他の実施形態では異なっていてもよい。別の実施形態では、宛先オペランド識別子376は、ソースオペランド識別子375と等しいが、他の実施形態では異なっていてもよい。シフト・アンド・XOR命令の一実施形態では、オペランド識別子374および375が特定するオペランドのいずれかを、オペランド識別子374および375が特定する別のオペランドに、シフト・アンド・XORを行い、これを、シフト・アンド・XORの結果で上書きするが、他の実施形態では、識別子374および375が特定するオペランドのシフト・アンド・XORは、別のレジスタの別のデータエレメントに書き込まれる。オペコードフォーマット360および370は、レジスタからレジスタへ、メモリからレジスタへ、メモリによりレジスタへ、レジスタによりレジスタへ、即値よりレジスタへ、レジスタから、MODフィールド363および373により部分的に、およびオプションとしてスケールインデックスベースおよび変位バイトにより特定されるメモリアドレスへ、といった書き込みを許可する。
次に図3Fを参照すると、一部の別の実施形態では、64ビットの単一命令多重データ(SIMD)算術演算を、コプロセッサデータ処理(CDP)命令により行ってよい。演算符号(オペコード)フォーマット380は、CDPオペコードフィールド382および389を有するこのようなCDP命令を示す。この種類のCDP命令は、シフト・アンド・XOR演算の別の実施形態では、フィールド383、384、387、および388の1以上により符号化されてよい。各命令について、2つまでのソースオペランド識別子385および390、並びに、1つの宛先オペランド識別子386を含む、3つまでのオペランド位置を特定する。コプロセッサの一実施形態は、8、16、32、および64ビットの値に演算を行うことができる。一実施形態では、シフト・アンド・XOR演算を、浮動小数点データエレメントに行う。一部の実施形態では、シフト・アンド・XOR命令は、選択フィールド381を利用して条件付きで実行されてよい。幾つかのシフト・アンド・XOR命令では、ソースデータサイズはフィールド383により符号化されてよい。シフト・アンド・XOR命令の一部の実施形態では、ゼロ(Z)、負(N)、繰上げ(carry)(C)、およびオーバフロー(V)検知をSIMDフィールドに対して行う。一部の命令では、飽和のタイプをフィールド384で符号化することもできる。
図4は、本発明におけるパックデータオペランドにシフト・アンド・XOR演算を行う論理の一実施形態のブロック図である。本発明の実施形態は、上述したもののような様々な種類のオペランドを有する関数に実装することができる。簡潔にいうと、以下の記載および例は、データエレメントを処理するシフト・アンド・XOR命令を例にとって説明される。一実施形態では、第1のオペランド401は、シフタ410により、入力405が特定する量だけシフトされる。一実施形態では、これは右シフトである。しかし他の実施形態では、シフタは左シフト演算を行う。一部の実施形態では、オペランドはスカラー値であるが、他の実施形態では、複数の異なる可能性のあるデータサイズおよびタイプを有するパックデータ値(例えば浮動小数点、整数)である。一実施形態では、シフトカウント405は、パック(あるいは「ベクトル」)値であり、その各エレメントは、対応するシフトカウントエレメントによりシフトされるパックオペランドのエレメントに対応している。他の実施形態では、シフトカウントは、第1のデータオペランドの全てのエレメントに適用される。さらに一部の実施形態では、シフトカウントは、命令の1フィールドで指定される(例えば即値、r/m、またはその他のフィールド)。他の実施形態では、シフトカウントは、命令が指定するレジスタにより指定される。
シフトされたオペランドは次に、論理420により値430でXORされ、XORされた結果は、宛先格納位置(例えばレジスタ)425に格納される。一実施形態では、XOR値430は、パック(あるいは「ベクトル」)値であり、その各エレメントは、対応するXORエレメントでXORされるパックオペランドのエレメントに対応している。他の実施形態では、XOR値430は、第1のデータオペランドの全てのエレメントに適用される。さらに一部の実施形態では、XOR値は、命令の1フィールドで指定される(例えば即値、r/m、またはその他のフィールド)。他の実施形態では、XOR値は、命令が指定するレジスタにより指定される。
図5は、本発明の一実施形態におけるシフト・アンド・XOR命令の演算を示す。処理501で、シフト・アンド・XOR命令を受信すると、第1のオペランドを、処理505のシフトカウント分だけシフトする。一実施形態では、これは右シフトである。他の実施形態では、シフタは左シフトを行ってもよい。一部の実施形態では、オペランドはスカラー値であるが、他の実施形態では、複数の異なる可能性のあるデータサイズおよびタイプを有するパックデータ値(例えば浮動小数点、整数)である。一実施形態では、シフトカウント405は、パック(あるいは「ベクトル」)値であり、その各エレメントは、対応するシフトカウントエレメントによりシフトされるパックオペランドのエレメントに対応している。他の実施形態では、シフトカウントは、第1のデータオペランドの全てのエレメントに適用される。さらに一部の実施形態では、シフトカウントは、命令の1フィールドで指定される(例えば即値、r/m、またはその他のフィールド)。他の実施形態では、シフトカウントは、命令が指定するレジスタにより指定される。
処理510で、シフトされた値を、XOR値でXORする。一実施形態では、XOR値430は、パック(あるいは「ベクトル」)値であり、その各エレメントは、対応するXORエレメントでXORされるパックオペランドのエレメントに対応している。他の実施形態では、XOR値430は、第1のデータオペランドの全てのエレメントに適用される。さらに一部の実施形態では、XOR値は、命令の1フィールドで指定される(例えば即値、r/m、またはその他のフィールド)。他の実施形態では、XOR値は、命令が指定するレジスタにより指定される。
処理515で、シフトされ、XORされた値を、所与の位置に格納する。一実施形態では、この位置はスカラーレジスタである。別の実施形態では、この位置がパックデータレジスタである。別の実施形態では、宛先位置はさらにソース位置としても利用される(例えば命令が指定するパックデータレジスタ)。他の実施形態では、宛先位置は、最初のオペランドその他の値(例えばシフトカウントまたはXOR値)を格納するソース位置とは異なる位置である。
一実施形態では、シフト・アンド・XOR命令は、様々なコンピュータアプリケーションでデータの重複除外(de-duplication)を行う際に有用である。データの重複除外は、ファイル間で共通のデータブロックを見つけて、ディスクのストレージおよび/またはネットワーク帯域幅を最適化しようとする試みである。一実施形態では、シフト・アンド・XOR命令は、ローリングハッシュ、ハッシュダイジェスト(例えばSHA1またはMD5)および固有のチャンクの圧縮(高速レンペル・ジブ(Lempel−Ziv)スキームを利用する)を利用して、チャンク境界を見つける等の処理を利用してデータの重複解除性能を向上させる用途に有用である。
例えば、あるデータの重複解除アルゴリズムは、以下の擬似コードで示すことができる。
Figure 0006615819
上述したアルゴリズムでは、スクランブルテーブルは、ランダムな32ビットの定数の256のエントリアレイであり、vは、過去の32バイトのデータのハッシュ値を有するローリングハッシュである。チャンク境界が見つかると、アルゴリズムは、ret=1として戻り、位置pは、チャンクの境界を示す。値zは、12から15といった、良好なチャンクを検知することができる値であり、用途に応じて決定されてよい。一実施形態では、シフト・アンド・XOR命令を利用することで、上述のアルゴリズムを、約2サイクル/バイトのレートで行うことができる。他の実施形態では、シフト・アンド・XOR命令は、用途によっては、これよりさらに速く、または遅くアルゴリズムを実行することもできる。
シフト・アンド・XOR命令を利用する少なくとも1つの実施形態を、以下の擬似コードで表すことができる。
Figure 0006615819
上述したアルゴリズムでは、bref1_scrambleアレイの各エントリが、元のスクランブルアレイの対応するエントリのビットを反映したバージョンを含む。一実施形態では、上述したアルゴリズムにより、右ではなくて左にvをシフトして、vには、ローリングハッシュのビットが反映されたバージョンが含まれる。一実施形態では、チャンク境界のチェックを、先頭のゼロの最小数(minimum number of leading zeros)をチェックすることにより行う。
他の実施形態では、シフト・アンド・XOR命令を、他の有用なコンピュータ演算およびアルゴリズムで利用することもできる。さらに、実施形態によって、シフト・アンド・XOR演算を大規模に利用する数多くのプログラムの性能を向上させることができる。
このように、シフト・アンド・XOR命令を行う技術が開示された。一部の実施形態は、添付図面に示されているが、これら実施形態はあくまで例示を意図しており、広い範囲に及ぶ発明を制約する意図はなく、本発明が図示されたり説明されたりしている特定の構成および配置に限定されない点に留意されたい。本開示を読んだ当業者であれば、様々な他の変形例を想到する。当技術分野は成長著しく、将来の進歩を見通すことが難しいので、開示されている実施形態は、本開示の原理または添付請求項の範囲から逸脱しなければ、技術的進歩により、構成および詳細において容易に変更可能であることを理解されたい。
本実施形態によれば、以下の各項目もまた開示される。
(項目1)
第1の値を所与のシフト量だけシフトして、前記シフトされた値を第2の値でXORする、シフト・アンド・XOR命令を実行する論理を備えるプロセッサ。
(項目2)
前記第1の値は左シフトされる項目1に記載のプロセッサ。
(項目3)
前記第1の値は右シフトされる項目1に記載のプロセッサ。
(項目4)
前記第1の値は論理シフトされる項目1に記載のプロセッサ。
(項目5)
前記第1の値は算術シフトされる項目1に記載のプロセッサ。
(項目6)
シフタとXOR回路とを備える項目1に記載のプロセッサ。
(項目7)
前記シフト・アンド・XOR命令は、前記第2の値を格納する第1のフィールドを含む項目1に記載のプロセッサ。
(項目8)
前記第1の値は、パックデータタイプである項目1に記載のプロセッサ。
(項目9)
シフト・アンド・XOR演算を実行させる第1の命令を格納するストレージと、
第1の値を所与のシフト量だけシフトして、前記シフトされた値を第2の値でXORする、シフト・アンド・XOR命令を実行する論理を実行するプロセッサと
を備えるシステム。
(項目10)
前記第1の値は左シフトされる項目9に記載のシステム。
(項目11)
前記第1の値は右シフトされる項目9に記載のシステム。
(項目12)
前記第1の値は論理シフトされる項目9に記載のシステム。
(項目13)
前記第1の値は算術シフトされる項目9に記載のシステム。
(項目14)
シフタとXOR回路とを備える項目9に記載のシステム。
(項目15)
前記シフト・アンド・XOR命令は、前記第2の値を格納する第1のフィールドを含む項目9に記載のシステム。
(項目16)
前記第1の値は、パックデータタイプである項目9に記載のシステム。
(項目17)
第1の値を所与のシフト量だけシフトして、前記シフトされた値を第2の値でXORする、シフト・アンド・XOR命令を実行する段階を備える方法。
(項目18)
前記第1の値は左シフトされる項目17に記載の方法。
(項目19)
前記第1の値は右シフトされる項目17に記載の方法。
(項目20)
前記第1の値は論理シフトされる項目17に記載の方法。
(項目21)
前記第1の値は算術シフトされる項目17に記載の方法。
(項目22)
シフタとXOR回路とを備える項目17に記載の方法。
(項目23)
前記シフト・アンド・XOR命令は、前記第2の値を格納する第1のフィールドを含む項目17に記載の方法。
(項目24)
前記第1の値は、パックデータタイプである項目17に記載の方法。
(項目25)
命令を格納する機械可読媒体であって、前記命令は機械により実行されると、前記機械に、
第1の値を所与のシフト量だけシフトする段階と、
前記シフトされた値を第2の値でXORする段階と
を含む方法を実行させる機械可読媒体。
(項目26)
前記第1の値は左シフトされる項目25に記載の方法。
(項目27)
前記第1の値は右シフトされる項目25に記載の方法。
(項目28)
前記第1の値は論理シフトされる項目25に記載の方法。
(項目29)
前記第1の値は算術シフトされる項目25に記載の方法。
(項目30)
シフタとXOR回路とを備える項目25に記載の方法。
(項目31)
前記シフト・アンド・XOR命令は、前記第2の値を格納する第1のフィールドを含む項目25に記載の方法。
(項目32)
前記第1の値は、パックデータタイプである項目25に記載の方法。
(項目33)
第1のシフト値と第2のビット反映値との間で排他的論理和(XOR)演算を実行して、実行結果を第1のレジスタに格納する段階と、
前記実行結果の先頭のゼロの最小数をチェックする段階と
を備える方法。
(項目34)
先頭のゼロの最小数が前記実行結果にある場合に、前記実行結果が第1のチャンクに対応していることを示す項目33に記載の方法。
(項目35)
前記第1のシフト値は、1ビットに相当する位置だけ左シフトされる項目34に記載の方法。
(項目36)
前記第1のシフト値は、1ビットに相当する位置だけ右シフトされる項目34に記載の方法。

Claims (9)

  1. 命令を実行するシステムであって、
    ネットワークコントローラと、
    前記ネットワークコントローラに接続されたプロセッサと
    を備え、
    前記プロセッサは、汎用プロセッサを含み、
    レベル1(L1)キャッシュを含む複数レベルのキャッシュと、
    複数の整数レジスタと、
    2つの64ビット倍精度浮動小数点データエレメントを有する128ビットパックダブルオペランドを含む複数の浮動小数点データエレメントを格納する複数の浮動小数点レジスタと、
    複数のステータスレジスタと、
    命令ポインタレジスタと、
    命令をフェッチする命令プリフェッチャと、
    第1の32ビットソースオペランドを特定する第1ソースオペランド識別子と、第2の32ビットソースオペランドを識別する第2ソースオペランド識別子と、1つのシフト量を指定する即値フィールドとを有しシフト・アンド・XOR演算を実行する命令を含む、フェッチされた複数の命令をデコードするデコーダと、
    前記デコーダに接続される実行ユニットと、
    浮動小数点データエレメントを処理する浮動小数点ユニットと、
    を有し、
    前記プロセッサは、前記シフト・アンド・XOR演算を実行する命令に応じて、
    前記1つのシフト量を複数のデータエレメントの全てに適用して、パックデータ値の前記第1の32ビットソースオペランドを前記即値フィールドにより指定された前記1つのシフト量分算術シフトし、
    スカラー値の前記第2の32ビットソースオペランドを前記複数のデータエレメントの全てに適用して、算術シフトされた前記第1の32ビットソースオペランドと前記第2の32ビットソースオペランドとを、前記第2の32ビットソースオペランドをシフトせずにXORし、
    シフトされXORされた32ビットの結果の値を、パックデータレジスタであるデスティネーションレジスタに格納する
    システム。
  2. 前記第1の32ビットソースオペランドは、算術左シフトされる、請求項1に記載のシステム。
  3. 前記第1の32ビットソースオペランドは、整数データ型である請求項1または2に記載のシステム。
  4. 前記第1の32ビットソースオペランドは、前記命令により指定されるレジスタに格納される請求項1から3のいずれか一項に記載のシステム。
  5. 前記実行ユニットは、前記プロセッサのアウトオブオーダ・エンジンである請求項1から4のいずれか一項に記載のシステム。
  6. 前記デコーダに接続されたマイクロコードROMを更に備える請求項1から5のいずれか一項に記載のシステム。
  7. 前記プロセッサに接続された大容量記憶デバイスを更に備える請求項1から6のいずれか一項に記載のシステム。
  8. 前記プロセッサに接続されたRAMを更に備える請求項1から6のいずれか一項に記載のシステム。
  9. 前記プロセッサに接続された大容量記憶デバイスと、
    前記プロセッサに接続されたRAMと
    を更に備える請求項1から6のいずれか一項に記載のシステム。
JP2017076187A 2009-12-17 2017-04-06 単一命令でシフト・アンド・排他的論理和演算を行うシステム Active JP6615819B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/653,704 US9747105B2 (en) 2009-12-17 2009-12-17 Method and apparatus for performing a shift and exclusive or operation in a single instruction
US12/653,704 2009-12-17

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2015088424A Division JP6126162B2 (ja) 2009-12-17 2015-04-23 単一命令でシフト・アンド・排他的論理和演算を行う方法および装置

Publications (2)

Publication Number Publication Date
JP2017152016A JP2017152016A (ja) 2017-08-31
JP6615819B2 true JP6615819B2 (ja) 2019-12-04

Family

ID=44152595

Family Applications (5)

Application Number Title Priority Date Filing Date
JP2012516393A Active JP5567668B2 (ja) 2009-12-17 2010-10-29 単一命令でシフトおよび排他的論理和演算を行う方法および装置
JP2014092408A Active JP5941493B2 (ja) 2009-12-17 2014-04-28 単一命令でシフトおよび排他的論理和演算を行う方法および装置
JP2014126121A Active JP5941498B2 (ja) 2009-12-17 2014-06-19 単一命令でシフトおよび排他的論理和演算を行う方法および装置
JP2015088424A Active JP6126162B2 (ja) 2009-12-17 2015-04-23 単一命令でシフト・アンド・排他的論理和演算を行う方法および装置
JP2017076187A Active JP6615819B2 (ja) 2009-12-17 2017-04-06 単一命令でシフト・アンド・排他的論理和演算を行うシステム

Family Applications Before (4)

Application Number Title Priority Date Filing Date
JP2012516393A Active JP5567668B2 (ja) 2009-12-17 2010-10-29 単一命令でシフトおよび排他的論理和演算を行う方法および装置
JP2014092408A Active JP5941493B2 (ja) 2009-12-17 2014-04-28 単一命令でシフトおよび排他的論理和演算を行う方法および装置
JP2014126121A Active JP5941498B2 (ja) 2009-12-17 2014-06-19 単一命令でシフトおよび排他的論理和演算を行う方法および装置
JP2015088424A Active JP6126162B2 (ja) 2009-12-17 2015-04-23 単一命令でシフト・アンド・排他的論理和演算を行う方法および装置

Country Status (8)

Country Link
US (5) US9747105B2 (ja)
JP (5) JP5567668B2 (ja)
KR (1) KR101411064B1 (ja)
CN (7) CN104679478B (ja)
DE (1) DE112010004887T5 (ja)
GB (2) GB2552117B (ja)
TW (5) TWI575456B (ja)
WO (1) WO2011084214A2 (ja)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4930251B2 (ja) * 2007-07-31 2012-05-16 富士通セミコンダクター株式会社 誤り訂正装置及びデスクランブル回路
US8515052B2 (en) 2007-12-17 2013-08-20 Wai Wu Parallel signal processing system and method
US9747105B2 (en) * 2009-12-17 2017-08-29 Intel Corporation Method and apparatus for performing a shift and exclusive or operation in a single instruction
US10318291B2 (en) 2011-11-30 2019-06-11 Intel Corporation Providing vector horizontal compare functionality within a vector register
CN103959237B (zh) * 2011-11-30 2016-09-28 英特尔公司 用于提供向量横向比较功能的指令和逻辑
WO2013095513A1 (en) * 2011-12-22 2013-06-27 Intel Corporation Packed data operation mask shift processors, methods, systems, and instructions
CN104185837B (zh) * 2011-12-23 2017-10-13 英特尔公司 在不同的粒度等级下广播数据值的指令执行单元
CN116414459A (zh) 2011-12-23 2023-07-11 英特尔公司 在不同的粒度水平下对数据值进行广播和掩码的指令执行
EP2798804A4 (en) * 2011-12-26 2015-09-23 Intel Corp COMMUNICATION BETWEEN COPROCESSORS WITH DIRECT CONNECTION SYNCHRONIZATION
CN104025033B (zh) * 2011-12-30 2017-11-21 英特尔公司 利用控制操纵的simd可变移位和循环
US9128698B2 (en) * 2012-09-28 2015-09-08 Intel Corporation Systems, apparatuses, and methods for performing rotate and XOR in response to a single instruction
JP6219631B2 (ja) * 2013-07-29 2017-10-25 学校法人明星学苑 論理演算装置
EP3001307B1 (en) * 2014-09-25 2019-11-13 Intel Corporation Bit shuffle processors, methods, systems, and instructions
US10001995B2 (en) * 2015-06-02 2018-06-19 Intel Corporation Packed data alignment plus compute instructions, processors, methods, and systems
US10423411B2 (en) * 2015-09-26 2019-09-24 Intel Corporation Data element comparison processors, methods, systems, and instructions
US9916159B2 (en) * 2016-01-14 2018-03-13 International Business Machines Corporation Programmable linear feedback shift register
CN107534445B (zh) * 2016-04-19 2020-03-10 华为技术有限公司 用于分割哈希值计算的向量处理
US10606587B2 (en) 2016-08-24 2020-03-31 Micron Technology, Inc. Apparatus and methods related to microcode instructions indicating instruction types
US20180121202A1 (en) * 2016-11-02 2018-05-03 Intel Corporation Simd channel utilization under divergent control flow
CN107145334B (zh) * 2017-04-26 2020-10-09 龙芯中科技术有限公司 常量获取方法、装置、处理器及计算机可读存储介质
WO2019027415A1 (en) 2017-07-31 2019-02-07 Hewlett-Packard Development Company, L.P. TREATMENT OR EXCLUSIVE VOXELS OF MODELS IN THREE DIMENSIONS
CN107612684B (zh) * 2017-10-20 2020-09-15 中博龙辉装备集团股份有限公司 基于国产化处理器平台专有指令集的数据对称加密方法
CN110058884B (zh) * 2019-03-15 2021-06-01 佛山市顺德区中山大学研究院 用于计算型存储指令集运算的优化方法、系统及存储介质
CN109976705B (zh) * 2019-03-20 2020-06-02 上海燧原智能科技有限公司 浮点格式数据处理装置、数据处理设备及数据处理方法
CN110221807B (zh) * 2019-06-06 2021-08-03 龙芯中科(合肥)技术有限公司 数据移位方法、装置、设备及计算机可读存储介质
US11269631B2 (en) * 2020-07-29 2022-03-08 Ghost Locomotion Inc. Extending fused multiply-add instructions
US20230004393A1 (en) * 2021-06-26 2023-01-05 Intel Corporation Apparatus and method for vector packed signed/unsigned shift, round, and saturate

Family Cites Families (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3781819A (en) * 1971-10-08 1973-12-25 Ibm Shift unit for variable data widths
JPS53147593A (en) 1977-05-27 1978-12-22 Hitachi Ltd Oxygen density measuring device
US4356549A (en) * 1980-04-02 1982-10-26 Control Data Corporation System page table apparatus
US4467444A (en) 1980-08-01 1984-08-21 Advanced Micro Devices, Inc. Processor unit for microcomputer systems
JPS6491228A (en) * 1987-09-30 1989-04-10 Takeshi Sakamura Data processor
US5504914A (en) * 1993-06-23 1996-04-02 National Science Council Multi-level instruction boosting method using plurality of ordinary registers forming plurality of conjugate register pairs that are shadow registers to each other with different only in MSB
US5559730A (en) * 1994-02-18 1996-09-24 Matsushita Electric Industrial Co., Ltd. Shift operation unit and shift operation method
JPH08137666A (ja) 1994-11-14 1996-05-31 Matsushita Electric Ind Co Ltd 演算装置およびその演算方法
ZA9510127B (en) 1994-12-01 1996-06-06 Intel Corp Novel processor having shift operations
AU4464596A (en) 1994-12-02 1996-06-19 Intel Corporation Microprocessor with packing operation of composite operands
US5864344A (en) * 1995-07-03 1999-01-26 Ikedo; Tsuneo Computer graphics circuit
CN103064651B (zh) 1995-08-31 2016-01-27 英特尔公司 用于在分组数据上执行分组乘法运算的装置
JPH09115298A (ja) * 1995-10-19 1997-05-02 Mitsubishi Electric Corp 半導体記憶装置
JPH1040078A (ja) 1996-07-24 1998-02-13 Hitachi Ltd 先行0、1数予測回路、浮動小数点演算装置、マイクロプロセッサおよび情報処理装置
TW325552B (en) 1996-09-23 1998-01-21 Advanced Risc Mach Ltd Data processing condition code flags
US6009451A (en) * 1996-11-22 1999-12-28 Lucent Technologies Inc. Method for generating barrel shifter result flags directly from input data
US5896406A (en) 1997-03-31 1999-04-20 Adaptec, Inc. Shift register-based XOR accumulator engine for generating parity in a data processing system
GB9707861D0 (en) 1997-04-18 1997-06-04 Certicom Corp Arithmetic processor
US5917914A (en) 1997-04-24 1999-06-29 Cirrus Logic, Inc. DVD data descrambler for host interface and MPEG interface
US6134597A (en) 1997-05-28 2000-10-17 International Business Machines Corporation CRC hash compressed server object identifier
US5909520A (en) 1997-08-25 1999-06-01 The United States Of America As Represented By The Secretary Of The Navy Noise coding processor
US6223320B1 (en) 1998-02-10 2001-04-24 International Business Machines Corporation Efficient CRC generation utilizing parallel table lookup operations
JP2001142694A (ja) * 1999-10-01 2001-05-25 Hitachi Ltd データフィールドのエンコード方法、情報フィールドの拡張方法、及び、コンピュータシステム
US6539467B1 (en) 1999-11-15 2003-03-25 Texas Instruments Incorporated Microprocessor with non-aligned memory access
US6889319B1 (en) 1999-12-09 2005-05-03 Intel Corporation Method and apparatus for entering and exiting multiple threads within a multithreaded processor
US7046802B2 (en) 2000-10-12 2006-05-16 Rogaway Phillip W Method and apparatus for facilitating efficient authenticated encryption
US6810398B2 (en) 2000-11-06 2004-10-26 Avamar Technologies, Inc. System and method for unorchestrated determination of data sequences using sticky byte factoring to determine breakpoints in digital sequences
KR100805343B1 (ko) * 2000-11-15 2008-02-20 인도오스트 인베스트먼츠 피티와이 엘티디 시프트 레지스터의 업데이트 방법
TWI261968B (en) 2001-09-13 2006-09-11 Macronix Int Co Ltd Shifting apparatus for bit-shifting manipulation in a digital processor device
DE10201441A1 (de) 2002-01-16 2003-08-14 Infineon Technologies Ag Schiebevorrichtung und Verfahren zum Verschieben
US7114116B2 (en) 2002-09-13 2006-09-26 Sun Microsystems, Inc. Accelerated Galois data integrity crosscheck system and method
WO2004034581A1 (ja) * 2002-10-11 2004-04-22 Fujitsu Limited Pn符号発生器、gold符号発生器、pn符号逆拡散器、pn符号発生方法、gold符号発生方法、pn符号逆拡散方法、及びコンピュータプログラム
JP4057876B2 (ja) 2002-10-11 2008-03-05 フリースケール セミコンダクター インコーポレイテッド ガロア体掛け算器の制御方法
US7395294B1 (en) * 2003-01-10 2008-07-01 Altera Corporation Arithmetic logic unit
JP4228728B2 (ja) 2003-03-06 2009-02-25 日立工機株式会社 遠心分離機及び遠心分離機用スイングロ−タ
US7539714B2 (en) 2003-06-30 2009-05-26 Intel Corporation Method, apparatus, and instruction for performing a sign operation that multiplies
CN1898641B (zh) 2003-10-23 2015-03-25 密克罗奇普技术公司 微控制器指令集
GB2411975B (en) 2003-12-09 2006-10-04 Advanced Risc Mach Ltd Data processing apparatus and method for performing arithmetic operations in SIMD data processing
JP3845636B2 (ja) * 2004-01-21 2006-11-15 株式会社東芝 関数近似値の演算器
JP4418713B2 (ja) 2004-06-11 2010-02-24 キヤノン株式会社 乱数発生方法及び乱数発生装置
US7653674B2 (en) * 2004-10-07 2010-01-26 Infoprint Solutions Company Llc Parallel operations on multiple signed elements in a register
US8209366B2 (en) * 2005-02-28 2012-06-26 Hitachi Global Storage Technologies Netherlands B.V. Method, apparatus and program storage device that provides a shift process with saturation for digital signal processor operations
US8195922B2 (en) 2005-03-18 2012-06-05 Marvell World Trade, Ltd. System for dynamically allocating processing time to multiple threads
US7590930B2 (en) 2005-05-24 2009-09-15 Intel Corporation Instructions for performing modulo-2 multiplication and bit reflection
US8253751B2 (en) 2005-06-30 2012-08-28 Intel Corporation Memory controller interface for micro-tiled memory access
JP2007174312A (ja) * 2005-12-22 2007-07-05 Sanyo Electric Co Ltd 符号化回路およびデジタル信号処理回路
CN100495322C (zh) 2006-05-18 2009-06-03 中国科学院计算技术研究所 对预处理微指令发生异常多层嵌套进行处理的设备及方法
US7941435B2 (en) 2006-08-01 2011-05-10 Cisco Technology, Inc. Substring search algorithm optimized for hardware acceleration
US20080071851A1 (en) 2006-09-20 2008-03-20 Ronen Zohar Instruction and logic for performing a dot-product operation
US20080077772A1 (en) 2006-09-22 2008-03-27 Ronen Zohar Method and apparatus for performing select operations
US9069547B2 (en) 2006-09-22 2015-06-30 Intel Corporation Instruction and logic for processing text strings
US7886255B2 (en) 2007-01-22 2011-02-08 Texas Instruments Incorporated Method for design of programmable data processors
DK176721B1 (da) 2007-03-06 2009-04-27 I/S Boewind V/Chr. I S Boewind V Chr Fremgangsmode til akkumulering og udnyttelse af vedvarende energi
US8762345B2 (en) 2007-05-31 2014-06-24 Netapp, Inc. System and method for accelerating anchor point detection
US7774399B2 (en) 2007-09-24 2010-08-10 Vns Portfolio Llc Shift-add based parallel multiplication
US7729185B2 (en) * 2007-11-01 2010-06-01 Arm Limited Apparatus and method for detection of address decoder open faults
IL188089A (en) * 2007-12-12 2013-02-28 Nds Ltd Bit generator
US7689816B2 (en) 2008-01-31 2010-03-30 International Business Machines Corporation Branch prediction with partially folded global history vector for reduced XOR operation time
US9146708B2 (en) 2008-05-12 2015-09-29 Qualcomm Incorporated Implementation of arbitrary galois field arithmetic on a programmable processor
US8340280B2 (en) * 2008-06-13 2012-12-25 Intel Corporation Using a single instruction multiple data (SIMD) instruction to speed up galois counter mode (GCM) computations
CN102292222A (zh) 2009-01-28 2011-12-21 贝卡尔特公司 用作椭圆形绳芯部的弯皱且扁平的金属线
US9747105B2 (en) 2009-12-17 2017-08-29 Intel Corporation Method and apparatus for performing a shift and exclusive or operation in a single instruction

Also Published As

Publication number Publication date
KR20120099236A (ko) 2012-09-07
US10684855B2 (en) 2020-06-16
TW201730760A (zh) 2017-09-01
CN104679478B (zh) 2019-03-15
JP5941498B2 (ja) 2016-06-29
GB2483575B (en) 2017-11-01
TWI562067B (en) 2016-12-11
US20150089196A1 (en) 2015-03-26
CN102103487A (zh) 2011-06-22
WO2011084214A3 (en) 2011-09-01
US9501281B2 (en) 2016-11-22
CN104598203A (zh) 2015-05-06
JP6126162B2 (ja) 2017-05-10
TWI610235B (zh) 2018-01-01
CN104598203B (zh) 2019-02-15
CN104679478A (zh) 2015-06-03
CN104598204A (zh) 2015-05-06
US9495165B2 (en) 2016-11-15
CN102103487B (zh) 2017-08-01
US9747105B2 (en) 2017-08-29
CN104598204B (zh) 2018-01-02
CN104699459A (zh) 2015-06-10
US20170351519A1 (en) 2017-12-07
JP2014160500A (ja) 2014-09-04
CN104699459B (zh) 2018-01-09
US20150089197A1 (en) 2015-03-26
JP5941493B2 (ja) 2016-06-29
CN104699456B (zh) 2019-02-15
US9495166B2 (en) 2016-11-15
TWI531969B (zh) 2016-05-01
US20150089195A1 (en) 2015-03-26
CN104699457A (zh) 2015-06-10
GB2552117B (en) 2018-07-18
TW201533662A (zh) 2015-09-01
TW201533661A (zh) 2015-09-01
WO2011084214A2 (en) 2011-07-14
JP2017152016A (ja) 2017-08-31
CN104699457B (zh) 2019-02-15
GB201715480D0 (en) 2017-11-08
CN104699456A (zh) 2015-06-10
GB201119720D0 (en) 2011-12-28
US20110153700A1 (en) 2011-06-23
TW201533660A (zh) 2015-09-01
JP5567668B2 (ja) 2014-08-06
JP2015164061A (ja) 2015-09-10
DE112010004887T5 (de) 2012-09-20
JP2014194825A (ja) 2014-10-09
GB2552117A (en) 2018-01-10
JP2012530978A (ja) 2012-12-06
TWI575456B (zh) 2017-03-21
KR101411064B1 (ko) 2014-06-27
GB2483575A (en) 2012-03-14
TW201123008A (en) 2011-07-01
TWI575455B (zh) 2017-03-21

Similar Documents

Publication Publication Date Title
JP6615819B2 (ja) 単一命令でシフト・アンド・排他的論理和演算を行うシステム
JP7452930B2 (ja) プロセッサ、システム及び方法
JP4697639B2 (ja) ドット積演算を行うための命令および論理

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170508

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170508

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180619

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180731

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20181030

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20181228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190618

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190917

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191008

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191106

R150 Certificate of patent or registration of utility model

Ref document number: 6615819

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250