JP2006502464A

JP2006502464A - プロセッサに関するロード／移動及び複製命令

Info

Publication number: JP2006502464A
Application number: JP2003555340A
Authority: JP
Inventors: ルーセル，パトリス
Original assignee: インテルコーポレイション
Priority date: 2001-12-20
Filing date: 2002-12-12
Publication date: 2006-01-19
Also published as: RU2004122101A; TW200304091A; RU2292581C2; TW594569B; JP5960115B2; US8539202B2; KR100806408B1; US8200941B2; US20130219153A1; CN1605062A; WO2003054692A1; US20110047361A1; US20120317401A1; DE10297581T5; CN101520723B; US8032735B2; US20130013896A1; US7853778B2; US9043583B2; US8650382B2

Abstract

本方法はプロセッサにおいて、ソースのビットの第１部分をデスティネーション・レジスタの第１部分にロード／移動して、デスティネーション・レジスタの後続する部分にビットの第１部分を複製することを含む。

Description

本発明は、プロセッサに関するロード／移動及び複製命令に関するものである。

システム・アーキテクチャは、プロセッサの動作のモードと、オペレーティング・システムをサポートするよう設けられて更にシステム指向レジスタ並びにデータ構造及びシステム指向命令を有する仕組み、とを表すものである。システム・アーキテクチャは更に、実アドレスと保護モードとの間を切り替えるのに必要な仕組みを設けるものである。

システム・アーキテクチャに対する単一命令複数データ（ＳＩＭＤ）技術は６４ビットのレジスタに入ったパック整数データの並列計算を備える。ＳＩＭＤは性能の向上を、例えば、高度メディア、画像処理及びデータ圧縮アプリケーションにおけるプロセッサに対して、設ける。

下記の実施例以外の実施例は本特許請求の範囲内におさまるものである。

［実施例］
図１によって、プロセッサ１０を表す。プロセッサ１０は３ウェイのスーパースカラ・パイプライン・アーキテクチャである。並列処理手法を用いて、プロセッサ１０は大抵、クロック・サイクル毎に３つの命令を復号化し、ディスパッチして、実行を完了する（リタイアする）ことができる。このレベルの命令スループットを取り扱うよう、プロセッサ１０は、アウト・オブ・オーダ型命令実行をサポートする分離型１２段パイプラインを用いる。プロセッサ１０のマイクロ・アーキテクチャ・パイプラインは４つの部分、すなわち、１次キャッシュ１２及び２次キャッシュ１４、フロント・エンド１６、アウト・オブ・オーダ型実行コア１８、及びリタイアメント部２０、に分割される。命令及びデータはシステム・バス２４とインタフェースするバス・インタフェース・ユニット２２を通じてこれらのユニットに供給される。フロント・エンド１６は非常に高い実行帯域を有して半分のクロック・サイクルのレーテンシによって基本整数演算を実行し得るアウト・オブ・オーダ型コア１８に対してプログラムの順序で命令を供給する。フロント・エンド１６は命令をフェッチして、マイクロ演算（μ−ｏｐｓ）と呼ばれる、簡単な演算に復号化する。フロント・エンド１６は、アウト・オブ・オーダ型コア１８に対して、元のプログラム順序で、サイクル毎に複数のマイクロ演算を発出し得る。フロント・エンド１６はいくつかの基本機能を行う。例えば、フロント・エンド１６は実行されそうなプリフェッチ命令を行い、既にプリフェッチされていない命令をフェッチし、命令をマイクロ演算に復号化し、複雑な命令及び特定用途向コードに対するマイクロ・コードを生成し、実行トレース・キャッシュ２６からの復号化命令を配信して、分岐予測ユニット２８において高度アルゴリズムを用いて分岐を予測する。

プロセッサ１０のフロント・エンド１６は高速の、パイプライン・マイクロプロセッサにおける共通の問題のいくつかに対応するよう企図されている。これらの問題のうちの２つは、例えば、重大な遅延の原因をもたらしている。これらは当該ターゲットからフェッチされた命令を復号化する時間及びキャッシュ線の中間にある分岐又は分岐ターゲットによる無駄な復号化帯域である。

実行トレース・キャッシュ２６は復号化命令を記憶することによってこれらの両方の問題に対応する。命令はフェッチされ、翻訳エンジン（図なし）によって復号化されて、トレースと呼ばれる一連のマイクロ演算に組み入れられる。これらのマイクロ演算のトレースはトレース・キャッシュ２６に記憶される。最もありそうな分岐のターゲットからの命令は、命令アドレスの連続性にかかわりなく、該分岐の直後に続く。トレースが構築されると、トレース・キャッシュ２６はそのトレースに後続する命令についてサーチされる。その命令が既存のトレースにおける第１命令として出現する場合、メモリ階層からの命令３０のフェッチ及び復号化は終わって、トレース・キャッシュ２６は命令の新たなソースになる。

実行トレース・キャッシュ１８及び翻訳エンジン（図なし）は協調分岐予測ハードウェアを有する。分岐ターゲットは分岐ターゲット・バッファ（ＢＴＢＳ）２８を用いてそれらのリニア・アドレスに基づいて予測されて直ちにフェッチされる。分岐ターゲットは、それらがトレース・キャッシュ２６から、実際にそこにキャッシュされている場合、フェッチされる；さもなければ、それらはメモリ階層からフェッチされる。翻訳エンジンの分岐予測情報は最もありうる経路に沿ってトレースを形成するのに用いられる。

コア１８はプロセッサ１０が命令を再配列することを可能にするようアウト・オブ・オーダで命令を実行するので、一マイクロ演算が、データ又は競合実行リソース待ちの間に、遅延された場合、プログラムの順序において後続する他のマイクロ演算はそれを迂回して進み得る。プロセッサ１０はＴ演算（Ｔ−ｏｐｓ）の流れを円滑化するよういくつかのバッファを使用する。これは、パイプラインの一部が遅延を経験する場合、その遅延は並列に実行する他の演算又は先行してバッファのキューに入れられたマイクロ演算の実行によって相殺され得ることを示唆する。

コア１８は並列実行を容易にするよう企図されている。コア１８はサイクル毎に６つのマイクロ演算までディスパッチし得る、すなわち、これはトレース・キャッシュ２６及びリタイアメント部２０のマイクロ演算の帯域を超える、ことを特筆する。ほとんどのパイプラインは毎サイクル、新しいマイクロ演算の実行を開始し得るので、いくつかの命令がパイプライン毎にいつでも処理し得る。多数の算術論理演算ユニット（ＡＬＵ）命令は１サイクル毎に２つを開始し得て、多くの浮動小数点命令は２サイクル毎に１つを開始し得る。最後に、マイクロ演算を、アウト・オブ・オーダで、それらのデータ入力が準備完了になってリソースが利用可能になるとすぐに、開始し得る。

リタイアメント部２０は実行コア１８からの実行マイクロ演算の結果を受信して該結果を処理するので、適切なアーキテクチャ状態が元のプログラムの順序によって更新される。意味上正しく実行するよう、命令の結果はリタイアされる前に元のプログラムの順序でコミットされる。命令がリタイアされるのと並行して、例外を発生させ得る。したがって、例外は投機的には発生し得ない。それらは正しい順序にて発生して、プロセッサ１０は実行後、正しく再起動し得る。

マイクロ演算が完了してその結果をデスティネーションに書き込む場合、それはリタイアされる。３つのマイクロ演算までをサイクル毎にリタイアし得る。リタイアメント部２０におけるリオーダ・バッファ（ＲＯＢ）（図なし）は完了マイクロ演算をバッファし、アーキテクチャ状態を正常に更新して、例外の配列を管理するプロセッサ１０におけるユニットである。

リタイアメント部２０は更に、分岐を常に把握して更新分岐ターゲット情報をＢＴＢ２８に送信して分岐履歴を更新する。このようにして、もう必要のないトレースをトレース・キャッシュ２６から除去し得て、新しい分岐経路を、更新分岐履歴情報に基づいて、フェッチし得る。

図２によって、実行環境５０を表す。（図１の）プロセッサ１０上で実行中のプログラム又はタスクは何れも命令を実行するリソース群及びコード、データ、並びに状態情報を記憶するリソース群が与えられる。これらのリソースはプロセッサ１０に関する実行環境５０を構成する。プロセッサ１０上で実行中のアプリケーション・プログラム及びオペレーティング・システム又はエグゼクティブは共同で実行環境５０を使用する。実行環境５０は基本プログラム実行レジスタ５２、アドレス空間５４、浮動小数点ユニット（ＦＰＵ）レジスタ５６、マルチメディア拡張レジスタ（ＭＭＸ）５８、及びＳＩＭＤ拡張（ＳＳＥ（ストリーミングＳＩＭＤ拡張命令）及びＳＳＥ２（ストリーミングＳＩＭＤ拡張命令２））レジスタ６０を含む。

プロセッサ１０上で実行中のタスク又はプログラムは何れも４ギガバイト（２^３２バイト）までのリニア・アドレス・ベース５４及び６４ギガバイト（２^３６バイト）までの物理アドレス・ベースをアドレス指定し得る。アドレス空間５４はフラットなものでもセグメント化されたものでもよい。物理アドレス拡張の仕組みを用いて、２^３６−１の物理アドレス空間をアドレス指定し得る。

基本プログラム実行レジスタ５２は８つの汎用レジスタ６２、６つのセグメント・レジスタ６４、ＥＦＬＡＧＳレジスタ（フラグ・レジスタ）６６、及びＥＩＰ（命令ポインタ）レジスタ６８を含む。基本プログラム実行レジスタ５２は汎用命令群を実行する基本実行環境を設ける。これらの命令はバイト、ワード、及びダブルワード整数に基本整数算術を行い、プログラムのフロー制御を扱い、ビット及びバイトの強さを演算して、メモリをアドレス指定する。

ＦＰＵレジスタ５６は８つのＦＰＵデータ・レジスタ７０、ＦＰＵ制御レジスタ７２、ステータス・レジスタ７４、ＦＰＵ命令ポインタ・レジスタ７６、ＦＰＵオペランド（データ）ポインタ・レジスタ７８、ＦＰＵタグ・レジスタ８０及びＦＰＵ命令操作（ＯＰ）コード・レジスタ８２を含む。ＦＰＵレジスタ５６は単精度、倍精度、並びに倍精度拡張浮動小数値、ワード、ダブルワード、並びにクアドワード整数、及び２進化１０進符号（ＢＣＤ）値を演算する実行環境を設ける。

８つのマルチメディア拡張レジスタ５８は６４ビットのパック・バイト、ワード、及びダブルワードの整数に単一命令複数データ（ＳＩＭＤ）演算を行うことをサポートする。

ＳＩＭＤ拡張命令（ＳＳＥ及びＳＳＥ２）レジスタ６０は８つの拡張マルチメディア（ＸＭＭ）データ・レジスタ８４及びＭＸＣＳＲレジスタ８６を含む。ＳＩＭＤ拡張命令（ＳＳＥ及びＳＳＥ２）レジスタ６０は１２８ビットのパック単精度並びに倍精度浮動小数値及び１２８ビットのパック・バイト、ワード、ダブルワード及びクワドワード整数にＳＩＭＤ演算を実行することをサポートする。

スタック（図なし）はプロシジャ又はサブルーチン・コール及びプロシジャ又はサブルーチン間でのパラメータ渡しをサポートする。

汎用レジスタ６２はオペランド及びポインタを記憶するのに利用可能である。セグメント・レジスタ６４はセグメント・セレクタを６つまで収容する。ＥＦＬＡＧＳ（プログラム・ステータス及び制御）レジスタ６６は実行中のプログラムのステータスについて通知してプロセッサの限定的な（アプリケーション・プログラム・レベルの）制御を可能にする。ＥＩＰ（命令ポインタ）レジスタ６８は実行する次の命令に対する３２ビットのポインタを含む。

３２ビットの汎用レジスタ６２は論理及び算術演算用オペランド、アドレス計算用オペランド、及びメモリ・ポインタを収容するよう備えられる。セグメント・レジスタ６４は１６ビットのセグメント・セレクタを収容する。セグメント・セレクタはメモリにおけるセグメントを識別する特別なポインタである。メモリにおいて特定のセグメントをアクセスするよう、そのセグメントに対するセグメント・セレクタが適切なセグメント・レジスタ６４になければならない。

アプリケーション・コードを作成する場合、プログラマは一般に、アセンブラ指令及び記号のあるセグメント・セレクタを生成する。アセンブラ及び他のツールはその場合、これらの指令及び記号に関連した実際のセグメント・セレクタ値を生成する。システム・コードを作成する場合、プログラマはセグメント・セレクタを直接生成する必要があるかもしれない。

セグメント・レジスタ６４の使用方法はオペレーティング・システム又はエグゼクティブが用いるメモリ管理モデルの種類によって変わってくる。フラットな（非セグメント化）メモリ・モデルを用いる場合、セグメント・レジスタ６４は重複セグメントに向けられたセグメント・セレクタによってロードされ、それらの各々はリニア・アドレス空間上のアドレス・ゼロから始まる。これらの重複セグメントは更にプログラムに対するリニア・アドレス空間を含む。一般に、２つ：コードに対する１つ；及びデータ並びにスタックに対するもう１つ；の重複セグメントが定義される。セグメント・レジスタ６４のＣＳ（コード・セグメント）セグメント・レジスタ（図なし）はコード・セグメントに向けられて全ての他のセグメント・レジスタはデータ及びスタック・セグメントに向けられる。

セグメント化メモリ・モデルを用いる場合、各セグメント・レジスタ６４は通常、異なるセグメント・セレクタによってロードされるので、各セグメント・レジスタ６４はリニア・アドレス空間内で異なるセグメントに向けられる。したがって、常に、プログラムはリニア・アドレス空間においてセグメントを６つまでアクセスし得る。セグメント・レジスタ６４の１つによって向けられることのないセグメントをアクセスするよう、プログラムは第１に、アクセスされるセグメント・セレクタをセグメント・レジスタ６４にロードする。

３２ビットＥＦＬＡＧＳレジスタ６６はステータス・フラグ群、制御フラグ、及びシステム・フラグ群を含む。ＥＦＬＡＧＳレジスタ６６におけるフラグの一部は、特定用途向命令を用いて、直接修正し得る。該全部のレジスタ６６が直接検査又は修正されることを可能にする命令はない。しかしながら、以下の命令：ＬＡＨＦ（ステータス・フラグをＡＨレジスタにロードする）、ＳＡＨＦ（ステータス・フラグをＡＨレジスタに記憶する）、ｐｕｓｈ−Ｆ（Ｆレジスタのプッシュ）、ｐｕｓｈ−ＦＤ（ＦＤレジスタのプッシュ）、ｐｏｐ−Ｆ（Ｆレジスタのポップ）、及びｐｏｐ−ＦＤ（ＦＤレジスタのポップ）；をプロシジャ・スタック又は汎用レジスタにフラグ群を移動してプロシジャ・スタック又は汎用レジスタからフラグ群を移動するのに用い得る。ＥＦＬＡＧＳレジスタ６６の内容がプロシジャ・スタック又は汎用レジスタに転送された後、フラッグを、プロセッサ１０ビット操作命令を用いて、検査及び修正し得る。

タスクを一時停止する場合、プロセッサ１０は自動的に一時停止されているタスクについての（図なしの）タスク状態セグメント（ＴＳＳ）においてＥＦＬＡＧＳレジスタ６６の状態をセーブする。プロセッサ１０は、該プロセッサ自体に新しいタスクを結びつける場合、新しいタスク・プログラム状態レジスタ（ＰＳＳ（プログラム状態セグメント）、図なし）からのデータによってＥＦＬＡＧＳレジスタ６６をロードする。

コールがインタラプト又は例外ハンドラ・プロシジャに対して行われた場合、プロセッサ１０は自動的にプロシジャ・スタック上でＥＦＬＡＧＳレジスタ６６の状態をセーブする。インタラプト又は例外がタスク・スイッチによって扱われる場合、ＥＦＬＡＧＳレジスタ６６の状態は一時停止されているタスクに対するＴＳＳ上にセーブされる。

プロセッサ１０において用いられる基本データ・タイプはバイト、ワード、ダブルワード、クワドワード及びダブルクワドワードである。１バイトは８ビットで、１ワードは２バイト（１６ビット）で、ダブルワードは４バイト（３２ビット）で、クワドワードは８バイト（６４ビット）で、ダブルクワドワードは１６バイト（１２８ビット）である。

図３によって、メモリにおいてオペランドとして表される基本データ・タイプ各々のバイト・オーダを表す。各データ・タイプのロー・バイト（ビット０乃至７）はメモリにおける最下位のアドレスを占めてそのアドレスは更にオペランドのアドレスである。

ワード、ダブルワード及びクアドワードはメモリにおいて自然境界上でアラインされる必要はない。ワード、ダブルワード及びクワドワードに対する自然境界は各々、偶数のアドレス、４で割り切れるアドレス、及び８で割り切れるアドレスである。しかしながら、プログラムの性能を向上させるよう、データ構造（特にスタック）は可能な限り、自然境界上でアラインされるべきである。この理由はプロセッサ１０がアラインされていないメモリ・アクセスを行うのに２つのメモリ・アクセスを必要とする一方、アラインされたアクセスは１つのメモリ・アクセスを必要とすることにある。４バイトの境界をまたがるワード若しくはダブルワードのオペランド又は８バイトの境界をまたがるクワドワードのオペランドはアラインされていないとみなされ、それをアクセスするのに２つの別個のメモリ・バス・サイクルを必要とする。奇数のアドレスから開始するがワードの境界をまたがらないワードはアラインされているとみなされて、なお、１つのバス・サイクルにおいてアクセスし得る。

ダブルクワドワードを演算する命令のいくつかはメモリ・オペランドが自然境界上でアラインされることを必要とする。これらの命令は、アラインされていないオペランドが特定された場合、一般保護例外（＃ＧＰ）を生成する。ダブルクワドワードに対する自然境界は１６によって割り切れるアドレスの何れかである。ダブルクワドワードを演算する他の命令はアラインされていないアクセスを、一般保護例外を生成することなく、可能にするが、メモリからアラインされていないデータをアクセスするには追加のメモリ・バス・サイクルが必要になる。

バイト、ワード及びダブルワードはプロセッサ１０の基本データ・タイプであるが、命令のいくつかは演算を数値データ・タイプに行うことを可能にするよう更にこれらのデータ・タイプを解釈・実行することをサポートする。例えば、プロセッサ１０は２つの種類：符号無し；及び符号付き；の整数を定義する。符号無しの整数はゼロから、選定オペランド・サイズで符号化し得る最大の正数までの範囲の通常の（ｏｒｄｉｎａｒｙ）２進値である。符号付きの整数は正及び負の整数の値の両方を表すのに用い得る２の補数の２進値である。

プロセッサ１０は３つの浮動小数点データ・タイプ；単精度浮動小数点；倍精度浮動小数点；及び倍精度拡張浮動小数点；を定義して該データ・タイプを演算する。これらのデータ・タイプに対するデータ・フォーマットは２進の浮動小数点算術に関するＩＥＥＥ（米国電気電子学会）標準７５４に規定されたようなフォーマットに直接相当する。

ポインタはメモリにおける位置のアドレスである。プロセッサ１０は２つの種類のポインタ；ニア・ポインタ（３２ビット）；及びファー・ポインタ（４８ビット）；を定義する。ニア・ポインタはセグメント内部の（実効アドレスとも呼ばれる）３２ビットのオフセットである。フラットなメモリ・モデルにおける全てのメモリ参照に、又はアクセスされるセグメントの身元が暗示される場合に、セグメント化されたモデルにおける参照に、用いられる。ファー・ポインタは４８ビットの論理アドレスで、１６ビットのセグメント・セレクタ及び３２ビットのオフセットから成る。ファー・ポインタはアクセスされるセグメントの身元が明示的に規定されなければならない場合に、メモリ参照及びセグメント化されたメモリ・モデルにおける参照に用いられる。

ビット・フィールドは連続する一連のビットのことである。それはメモリにおける如何なるバイトの如何なるビット位置からでも開始し得、３２ビットまで含み得る。ストリングは連続する一連のビット、バイト、ワード又はダブルワードのことである。ビット列は如何なるバイトの如何なるビット位置からでも開始し得、２^３２−１ビットまで含み得る。バイト列はバイト、ワード又はダブルワードを含み得、ゼロから２^３２−１バイト（４ギガバイト）までの範囲に及び得る。

２進符号化１０進整数（ＢＣＤ整数）は０から９までの範囲の有効値を有する符号無しの４ビット整数である。プロセッサ１０は１つ以上の汎用レジスタ６２又は１つ以上のＦＰＵレジスタ５６にあるＢＣＤ整数の演算を定義する。

図４によれば、実数はＦＰＵ５６浮動小数点レジスタ７０における浮動小数点フォーマット１００にて表される。浮動小数点フォーマットは３つの部分；符号１０２；有効数字１０４；及び指数１０６；を含む。符号１０２は該数が正（０）か負（１）を示す２進値である。有効数字１０４は２つの部分：１ビットの（更にＪビットとも呼ばれる）２進整数１０８及び２進分数１１０；を有する。整数ビット１０８は表されないことがあり、その代わりに暗黙の値である。指数１０６は有効数字１０４が乗算される２を基底とする累乗を表す２進整数である。

プロセッサ１０はＳＩＭＤ演算において用いられる６４ビット及び１２８ビットのパック・データ・タイプの群を規定して該群を演算する。これらのデータ・タイプは基本データ・タイプ（パックされた、バイト、ワード、ダブルワード並びにクワドワード）及びパック整数及びパック浮動小数点演算において用いる基本データ・タイプの数値解釈を含む。

６４ビットのＳＩＭＤデータ・タイプは主に、６４ビットのマルチメディア拡張レジスタ５８において演算される。基本６４ビット・パック・データ・タイプはパック・バイト、パック・ワード及びパック・ダブルワードである。マルチメディア拡張レジスタ５８においてこれらのデータ・タイプに数値ＳＩＭＤ演算を行う場合、これらのデータ・タイプはバイト、ワード、又はダブルワード整数値を含むものとして解釈される。

１２８ビットのパックＳＩＭＤデータ・タイプは主に、１２８ビットの拡張マルチメディア（ＸＭＭ）レジスタ８４及びメモリ５４において演算される。基本１２８ビット・パック・データ・タイプはパック・バイト、パック・ワード、パック・ダブルワード及びパック・クワドワードである。拡張マルチメディア（ＸＭＭ）レジスタ８４においてこれらの基本データ・タイプにＳＩＭＤ演算を行う場合、これらのデータ・タイプはパック若しくはスカラ単精度浮動小数点又は倍精度浮動小数点値を含むものとしてか、パックされた、バイト、ワード、ダブルワード、又はクワドワード整数値を含むものとして、解釈される。

図５によれば、表１２０は種々のＳＩＭＤ拡張、演算されるデータ・タイプ、及びデータ・タイプがマルチメディア拡張レジスタ５８及び拡張マルチメディア（ＸＭＭ）レジスタ８４にパックされる方法のまとめを表す。

上記のように、マルチメディア拡張命令はメモリ５４、マルチメディア拡張レジスタ５８、及び／又は汎用レジスタ６２に含まれた、パックされた、バイト、ワード、ダブルワード又はクワドワード整数オペランドを演算する。マルチメディア拡張命令はデータ転送命令、変換命令、パック算術命令、比較命令、論理命令、シフト並びに回転命令及び状態管理命令を含む。

ＳＩＭＤ拡張（ＳＳＥ及びＳＳＥ２）命令はいくつかの、例えば、４つの、群：拡張マルチメディア（ＸＸＭ）レジスタ８４を演算するＳＩＭＤ単精度浮動小数点命令、ＭＸＳＣＲレジスタ８６を演算するＭＸＳＣＲ命令、ＭＸＸレジスタ５８を演算する６４ビットＳＩＭＤ整数命令、及びキャッシュ可能性制御、プリフェッチ並びに命令順序付け命令に分割される。

命令の１つのクラスに移動／ロード及び複製タイプの命令がある。これらの命令は、例えば、ビットの複製を得るようロード値に明示的な演算を行う必要性を省くものであるため、「複合」命令とも呼ばれる。現在のアーキテクチャはＭＯＶＤＤＵＰ命令、ＭＯＶＳＨＤＵＰ命令及びＭＯＶＳＬＤＵＰ命令を含む。これらの命令はパック単精度及びパック倍精度浮動小数点データ・タイプの複雑な算術をサポートするよう備えられる。これらの命令は種々のアプリケーションにおいて用い得る。例えば、これらの命令は信号処理アプリケーション及び自然データ・タイプの処理に関係するアプリケーションの効率を向上し得る。

ＭＯＶＤＤＵＰ命令は、６４ビット（ソースがレジスタの場合、ビット〔６３−０〕）をロード／移動する、倍精度浮動小数点の１だけの移動及びＳＳＥ２複製命令である。ＭＯＶＤＤＵＰ命令は、同じ結果レジスタの下半分と上半分との両方において同じ６４ビットを返す、すなわち、ソースからの６４ビットを複製する。したがって、ソースが０／１のエントリを有する場合、デスティネーションは１／０／１／０のエントリを有する。ＭＯＶＥＤＤＵＰ命令は以下のフォーマット：
ＭＯＶＥＤＤＵＰデスティネーション、ソース；
を有し、ソース・オペランドはメモリ位置５４又は第２拡張マルチメディア（ＸＭＭ）レジスタ８４でデスティネーション・オペランドは第１拡張マルチメディア（ＸＭＭ）レジスタ８４である。ソースは倍精度浮動小数点データ・タイプを含む。

演算においては、ソース・オペランドがメモリ・アドレスの場合、第１拡張マルチメディア（ＸＭＭ）レジスタのビット〔６３−０〕がメモリ・アドレスのビット〔６３−０〕によってロードされて、第１拡張マルチメディア（ＸＭＭ）レジスタのビット〔１２７−６４〕はメモリ位置のビット〔６３−０〕によってロードされる。ソース・オペランドが第２拡張マルチメディア（ＸＭＭ）レジスタの場合、第１拡張マルチメディア（ＸＭＭ）レジスタのビット〔６３−０〕は第２拡張マルチメディア（ＸＭＭ）レジスタのビット〔６３−０〕に等しくなるよう設定されて第１拡張マルチメディア（ＸＭＭ）レジスタのビット〔１２７−６４〕は第２拡張マルチメディア（ＸＭＭ）レジスタのビット〔６３−０〕に等しくなるよう設定される。

リニア・アドレスは参照メモリ・データの最下位バイトのアドレスに相当する。メモリ・アドレスが示された場合、メモリ位置でのデータの１６バイトがロード又は記憶される。レジスタ−レジスタ形式の演算が用いられる場合、１２８ビットのソース・レジスタの内容は１２８ビットのデスティネーション・レジスタに複製される。

ＭＯＶＳＨＤＵＰ命令は１２８ビットをロード／移動して結果として生じるレジスタにエントリ１及び３を複製する、単精度浮動小数点上位移動及びＳＳＥ２複製命令である。１２８ビットのソース・レジスタ幅の例においては、各エントリは３２ビットである。特に、ソースのエントリが、３／２／１／０の（０が下位単精度エントリで３が上位単精度エントリである）、場合、ＭＯＶＳＨＤＵＰ命令の実行後の結果レジスタは複製されたエントリ３及び１を記憶してエントリ３／３／１／１を設ける。ＭＯＶＳＨＤＵＰは以下のフォーマット：
ＭＯＶＳＨＤＵＰデスティネーション、ソース；
を有し、ソース・オペランドはメモリ位置５４又は第２拡張マルチメディア（ＸＭＭ）レジスタ８４を表してデスティネーション・オペランドは第１拡張マルチメディア（ＸＭＭ）レジスタ８４である。ソース・オペランドはパック単精度浮動小数点データ・タイプを有する。

演算においては、ソース・オペランドがメモリ・アドレスの場合、第１拡張マルチメディア（ＸＭＭ）レジスタのビット〔３１−０〕がメモリ・アドレスのビット〔６３−３２〕によってロードされ、第１拡張マルチメディア（ＸＭＭ）レジスタのビット６３−３２がメモリ・アドレスのビット〔６３−３２〕によってロードされ、第１拡張マルチメディア（ＸＭＭ）レジスタのビット９５−６４がメモリ・アドレスのビット〔１２７−９６〕によってロードされて、第１拡張マルチメディア（ＸＭＭ）レジスタのビット１２７−９６がメモリ・アドレスのビット〔１２７−９６〕によってロードされる。

ソース・オペランドが第２拡張マルチメディア（ＸＭＭ）レジスタの場合、第１拡張マルチメディア（ＸＭＭ）レジスタのビット〔３１−０〕が第２拡張マルチメディア（ＸＭＭ）レジスタのビット〔６３−３２〕に等しくなるよう設定され、第１拡張マルチメディア（ＸＭＭ）レジスタのビット〔６３−３２〕が第２拡張マルチメディア（ＸＭＭ）レジスタのビット〔６３−３２〕に等しくなるよう設定され、第１拡張マルチメディア（ＸＭＭ）レジスタのビット〔９５−６４〕が第２拡張マルチメディア（ＸＭＭ）レジスタのビット〔１２７−９６〕に等しくなるよう設定され、第１拡張マルチメディア（ＸＭＭ）レジスタのビット〔１２７−９６〕が第２拡張マルチメディア（ＸＭＭ）レジスタのビット〔１２７−９６〕に等しくなるよう設定される。

リニア・アドレスは参照メモリ・データの最下位バイトのアドレスに相当する。メモリ・アドレスが示された場合、メモリ位置での１６バイトのデータがロード又は記憶される。レジスタ−レジスタ形式の演算が用いられる場合、１２８ビットのソース・レジスタの内容は１２８ビットのデスティネーション・レジスタに複製される。

ＭＯＶＳＬＤＵＰ命令は、１２８ビットをロード／移動してエントリ０及び２を複製する、パック単精度浮動小数点下位移動及びＳＳＥ２複製命令である。特に、ソースが３／２／１／０（０が下位単精度エントリ）である場合、結果レジスタはエントリ２／２／０／０を記憶する。ＭＯＶＳＬＤＵＰ命令は以下のフォーマット：
ＭＯＶＳＬＤＵＰデスティネーション、ソース；
を有し、ソース・オペランドはメモリ位置５４又は第２拡張マルチメディア（ＸＭＭ）レジスタ８４でデスティネーション・オペランドは第１拡張マルチメディア（ＸＭＭ）レジスタ８４である。ソース・オペランドはパック単精度浮動小数点データ・タイプを含む。

演算においては、ソース・オペランドがメモリ・アドレスの場合、第１拡張マルチメディア（ＸＭＭ）レジスタのビット〔３１−０〕はメモリ・アドレスのビット〔３１−０〕によってロードされて、第１拡張マルチメディア（ＸＭＭ）レジスタのビット〔６３−３２〕はメモリ・アドレスのビット〔３１−０〕によってロードされて、第１拡張マルチメディア（ＸＭＭ）レジスタのビット〔９５−６４〕はメモリ・アドレスのビット〔９５−６４〕によってロードされて、第１拡張マルチメディア（ＸＭＭ）レジスタのビット〔１２７−９６〕はメモリ・アドレスのビット〔９５−６４〕によってロードされる。ソース・オペランドがレジスタの場合、第１拡張マルチメディア（ＸＭＭ）レジスタのビット〔３１−０〕は第２拡張マルチメディア（ＸＭＭ）レジスタのビット〔３１−０〕に等しくなるよう設定され、第１拡張マルチメディア（ＸＭＭ）レジスタのビット〔６３−３２〕は第２拡張マルチメディア（ＸＭＭ）レジスタのビット〔３１−０〕に等しくなるよう設定され、第１拡張マルチメディア（ＸＭＭ）レジスタのビット〔９５−６４〕は第２拡張マルチメディア（ＸＭＭ）レジスタのビット〔９５−６４〕に等しくなるよう設定され、第１拡張マルチメディア（ＸＭＭ）レジスタのビット〔１２７−９６〕は第２拡張マルチメディア（ＸＭＭ）レジスタのビット〔９５−６４〕に等しくなるよう設定される。

プロセッサの構成図である。実行環境の構成図である。バイト・オーダ基本データ・タイプの図である。浮動小数点フォーマットの図である。種々のＳＩＭＤ拡張命令、データ・タイプ及び該データ・タイプをレジスタにパックする方法をまとめた表である。

Claims

コンピュータ命令であって：
プロセッサに、ソースのビットの第１部分をデスティネーション・レジスタの第１部分にロードさせて、前記ビットの第１部分を該デスティネーション・レジスタの後続する部分に複製させる、移動及び複製命令；
を有することを特徴とするコンピュータ命令。
請求項１記載の命令であって、前記ソースの前記第１部分がメモリ位置における、倍精度浮動小数点データ・タイプを表す、６４ビットであることを特徴とする命令。
請求項１記載の命令であって、前記ソースの前記第１部分がソース・レジスタにおける、倍精度浮動小数点データ・タイプを表す、６４ビットであることを特徴とする命令。
請求項１記載の命令であって、前記デスティネーション・レジスタの前記第１部分が前記ソースの前記第１部分のビット〔６３−０〕によってロードされて、該デスティネーション・レジスタの前記後続する部分が前記ソースの前記第１部分のビット〔６３−０〕によってロードされることを特徴とする命令。
方法であって：
プロセッサにおいて、ソースのビットの第１部分をデスティネーション・レジスタの第１部分にロードする工程；及び
前記ビットの第１部分を該デスティネーション・レジスタの後続する部分に複製する工程；
を有することを特徴とする方法。
請求項５記載の方法であって、前記ソースの前記第１部分がメモリ位置における、倍精度浮動小数点データ・タイプを表す、６４ビットであることを特徴とする方法。
請求項５記載の方法であって、前記ソースの前記第１部分がソース・レジスタにおける、倍精度浮動小数点データ・タイプを表す、６４ビットであることを特徴とする方法。
請求項５記載の方法であって、前記デスティネーション・レジスタの前記第１部分が前記ソースの前記第１部分のビット〔６３−０〕によってロードされて、該デスティネーション・レジスタの前記後続する部分が前記ソースの前記第１部分のビット〔６３−０〕によってロードされることを特徴とする方法。
コンピュータ・プログラム・プロダクトであって、該コンピュータ・プログラム・プロダクトはコンピュータ判読可能媒体上に存在するものであり、該コンピュータ判読可能媒体は該コンピュータ判読可能媒体上に命令を記憶させていて、該命令がプロセッサによって実行された場合、該プロセッサに：
ソースのビットの第１部分をデスティネーション・レジスタの第１部分にロードする工程；及び
前記ビットの第１部分を該デスティネーション・レジスタの後続する部分に複製する工程；
を行わせることを特徴とするコンピュータ・プログラム・プロダクト。
請求項９記載のコンピュータ・プログラム・プロダクトであって、前記ソースの前記第１部分がメモリ位置における、倍精度浮動小数点データ・タイプを表す、６４ビットであることを特徴とするコンピュータ・プログラム・プロダクト。
請求項９記載のコンピュータ・プログラム・プロダクトであって、前記ソースの前記第１部分がソース・レジスタにおける、倍精度浮動小数点データ・タイプを表す、６４ビットであることを特徴とするコンピュータ・プログラム・プロダクト。
請求項９記載のコンピュータ・プログラム・プロダクトであって、前記デスティネーション・レジスタの前記第１部分が前記ソースの前記第１部分のビット〔６３−０〕によってロードされて、該デスティネーション・レジスタの前記後続する部分が前記ソースの前記第１部分のビット〔６３−０〕によってロードされることを特徴とするコンピュータ・プログラム・プロダクト。
コンピュータ命令であって：
プロセッサに、ソースの６４ビットをロードさせて、デスティネーションの下半分及びデスティネーションの上半分において該６４ビットを返させる、倍精度浮動小数点値の１つだけの移動及び複製命令；
を有することを特徴とするコンピュータ命令。
請求項１３記載の命令であって、更に：
ソース・オペランド；及び
デスティネーション・オペランド；
を有することを特徴とする命令。
請求項１４記載の命令であって、前記ソース・オペランドがメモリ位置であることを特徴とする命令。
請求項１５記載の命令であって、前記メモリ位置が倍精度浮動小数点データ・タイプを表す１２８ビットの値を有することを特徴とする命令。
請求項１４記載の命令であって、前記ソース・オペランドが１２８ビットのソース・レジスタであることを特徴とする命令。
請求項１７記載の命令であって、前記ソース・レジスタが倍精度浮動小数点データ・タイプを表す１２８ビットの値を有することを特徴とする命令。
プロセッサにおいて実行される方法であって：
ソースからのビットの最初のＮ分を２Ｎビット幅デスティネーション・レジスタの下半分及び該２Ｎビット幅デスティネーション・レジスタの上半分にロードする工程；
を有することを特徴とする方法。
請求項１９記載の方法であって、前記ソースはメモリ位置であり、Ｎが６４ビットであることを特徴とする方法。
請求項２０記載の方法であって、前記メモリ位置は倍精度浮動小数点データ・タイプを含むことを特徴とする方法。
請求項１９記載の方法であって、前記ソースは１２８ビット・ソース・レジスタであり、Ｎが６４ビットであることを特徴とする方法。
請求項２２記載の方法であって、前記１２８ビット・ソース・レジスタは倍精度浮動小数点データ・タイプを含むことを特徴とする方法。
コンピュータ・プログラム・プロダクトであって、該コンピュータ・プログラム・プロダクトはコンピュータ判読可能媒体上に存在するものであり、該コンピュータ判読可能媒体は該コンピュータ判読可能媒体上に命令を記憶させていて、該命令がプロセッサによって実行された場合、該プロセッサに：
ソースからの６４ビットを１２８ビット・デスティネーション・レジスタの下半分及び該１２８ビット・デスティネーション・レジスタの上半分にロードする工程；
を行わせることを特徴とするコンピュータ・プログラム・プロダクト。
請求項２４記載のコンピュータ・プログラム・プロダクトであって、前記ソースは１２８ビット倍精度浮動小数点データ・タイプを含むメモリ位置であることを特徴とするコンピュータ・プログラム・プロダクト。
請求項２４記載のコンピュータ・プログラム・プロダクトであって、前記ソースは１２８ビット倍精度浮動小数点データ・タイプを含む１２８ビット・ソース・レジスタであることを特徴とするコンピュータ・プログラム・プロダクト。
コンピュータ命令であって：
プロセッサに、ソースのビット〔１２７−０〕をロードさせ、１２８ビット・デスティネーション・レジスタのビット〔３１−０〕において該ソースのビット〔６３−３２〕を返させ、該デスティネーション・レジスタのビット〔６３−３２〕において該ソースのビット〔６３−３２〕を返させ、該デスティネーション・レジスタのビット〔９５−６４〕において該ソースのビット〔１２７−９６〕を返させて、該デスティネーション・レジスタのビット〔１２７−９６〕において該ソースのビット〔１２７−９６〕を返させる、単精度浮動小数点上位移動及び複製命令；
を有することを特徴とするコンピュータ命令。
請求項２７記載の命令であって、更に：
ソース・オペランド・フィールド；及び
デスティネーション・オペランド・フィールド；
を有することを特徴とする命令。
請求項２８記載の命令であって、前記ソース・オペランド・フィールドがメモリ位置であることを特徴とする命令。
請求項２９記載の命令であって、前記メモリ位置がパック単精度浮動小数点データ・タイプを表す１２８ビットを有することを特徴とする命令。
請求項２８記載の命令であって、前記ソース・オペランド・フィールドが１２８ビットのソース・レジスタであることを特徴とする命令。
請求項３１記載の命令であって、前記ソース・レジスタがパック単精度浮動小数点データ・タイプを表す１２８ビットを有することを特徴とする命令。
プロセッサにおいて実行される方法であって：
ソースのビット〔１２７−０〕をアクセスする工程；
該ソースのビット〔６３−３２〕をデスティネーション・レジスタのビット〔３１−０〕及びビット〔６３−３２〕において返す工程；及び
該ソースのビット〔１２７−９６〕を該デスティネーション・レジスタのビット〔９５−６４〕及びビット〔１２７−９６〕において返す工程；
を有することを特徴とする方法。
請求項３３記載の方法であって、前記ソースがメモリ位置であることを特徴とする方法。
請求項３４記載の方法であって、前記メモリ位置がパック単精度浮動小数点データ・タイプを含むことを特徴とする方法。
請求項３３記載の方法であって、前記ソースが１２８ビット・ソース・レジスタであることを特徴とする方法。
請求項３６記載の方法であって、前記１２８ビット・ソース・レジスタがパック単精度浮動小数点データ・タイプを含むことを特徴とする方法。
コンピュータ・プログラム・プロダクトであって、該コンピュータ・プログラム・プロダクトはコンピュータ判読可能媒体上に存在するものであり、該コンピュータ判読可能媒体は該コンピュータ判読可能媒体上に命令を記憶させていて、該命令がプロセッサによって実行された場合、該プロセッサに：
ソースのビット〔１２７−０〕をロードする工程；
１２８ビット・デスティネーション・レジスタのビット〔３１−０〕において、該ソースのビット〔６３−３２〕を返す工程；
該デスティネーション・レジスタのビット〔６３−３２〕において該ソースのビット〔６３−３２〕を返す工程；
該デスティネーション・レジスタのビット〔９５−６４〕において該ソースのビット〔１２７−９６〕を返す工程；及び
該デスティネーション・レジスタのビット〔１２７−９６〕において該ソースのビット〔１２７−９６〕を返す工程；
を行わせることを特徴とするコンピュータ・プログラム・プロダクト。
請求項３８記載のコンピュータ・プログラム・プロダクトであって、前記ソースはメモリ位置であることを特徴とするコンピュータ・プログラム・プロダクト。
請求項３９記載のコンピュータ・プログラム・プロダクトであって、前記メモリ位置はパック単精度浮動小数点データ・タイプを含むことを特徴とするコンピュータ・プログラム・プロダクト。
請求項３８記載のコンピュータ・プログラム・プロダクトであって、前記ソースは１２８ビット・ソース・レジスタであることを特徴とするコンピュータ・プログラム・プロダクト。
請求項４１記載のコンピュータ・プログラム・プロダクトであって、前記１２８ビット・ソース・レジスタはパック単精度浮動小数点データ・タイプを含むことを特徴とするコンピュータ・プログラム・プロダクト。
コンピュータ命令であって：
プロセッサに、ソースのビット〔１２７−０〕をロードさせ、１２８ビット・デスティネーション・レジスタのビット〔３１−０〕において該ソースのビット〔３１−０〕を返させ、該デスティネーション・レジスタのビット〔６３−３２〕において該ソースのビット〔３１−０〕を返させ、該デスティネーション・レジスタのビット〔９５−６４〕において該ソースのビット〔９５−６４〕を返させて、該デスティネーション・レジスタのビット〔１２７−９６〕において該ソースのビット〔９５−６４〕を返させる、パック単精度浮動小数点下位移動及び複製命令；
を有することを特徴とするコンピュータ命令。
請求項４３記載の命令であって、更に：
ソース・アドレス・フィールド；及び
デスティネーション・レジスタ；
を有することを特徴とする命令。
請求項４４記載の命令であって、前記ソースがメモリ位置であることを特徴とする命令。
請求項４５記載の命令であって、前記メモリ位置がパック単精度浮動小数点データ・タイプを表す１２８ビットを含むことを特徴とする命令。
請求項４３記載の命令であって、前記ソースが１２８ビットのソース・レジスタであることを特徴とする命令。
請求項４７記載の命令であって、前記ソース・レジスタがパック単精度浮動小数点データ・タイプを表す１２８ビットを含むことを特徴とする命令。
方法であって：
プロセッサにおいて、ソースのビット〔１２７−０〕をロードする工程；
該ソースのビット〔３１−０〕を１２８ビット・デスティネーション・レジスタのビット〔３１−０〕において返す工程；
該ソースのビット〔３１−０〕を該デスティネーション・レジスタのビット〔６３−３２〕において返す工程；
該ソースのビット〔９５−６４〕を該デスティネーション・レジスタのビット〔９５−６４〕において返す工程；及び
該ソースのビット〔９５−６４〕を該デスティネーション・レジスタのビット〔１２７−９６〕において返す工程；
を有することを特徴とする方法。
請求項４９記載の方法であって、前記ソースがメモリ位置であることを特徴とする方法。
請求項５０記載の方法であって、前記メモリ位置がパック単精度浮動小数点データ・タイプを含むことを特徴とする方法。
請求項５１記載の方法であって、前記ソースが１２８ビット・ソース・レジスタであることを特徴とする方法。
請求項５２記載の方法であって、前記１２８ビット・ソース・レジスタがパック単精度浮動小数点データ・タイプを含むことを特徴とする方法。
コンピュータ・プログラム・プロダクトであって、該コンピュータ・プログラム・プロダクトはコンピュータ判読可能媒体上に存在するものであり、該コンピュータ判読可能媒体は該コンピュータ判読可能媒体上に命令を記憶させていて、該命令がプロセッサによって実行された場合、該プロセッサに：
ソースのビット〔１２７−０〕をロードする工程；
１２８ビット・デスティネーション・レジスタのビット〔３１−０〕において、該ソースのビット〔３１−０〕を返す工程；
該デスティネーション・レジスタのビット〔６３−３２〕において該ソースのビット〔３１−０〕を返す工程；
該デスティネーション・レジスタのビット〔９５−６４〕において該ソースのビット〔９５−６４〕を返す工程；及び
該デスティネーション・レジスタのビット〔１２７−９６〕において該ソースのビット〔９５−６４〕を返す工程；
を行わせることを特徴とするコンピュータ・プログラム・プロダクト。
請求項５４記載のコンピュータ・プログラム・プロダクトであって、前記ソースはメモリ位置であることを特徴とするコンピュータ・プログラム・プロダクト。
請求項５５記載のコンピュータ・プログラム・プロダクトであって、前記メモリ位置はパック単精度浮動小数点データ・タイプを含むことを特徴とするコンピュータ・プログラム・プロダクト。
請求項５４記載のコンピュータ・プログラム・プロダクトであって、前記ソースは１２８ビット・ソース・レジスタであることを特徴とするコンピュータ・プログラム・プロダクト。
請求項５７記載のコンピュータ・プログラム・プロダクトであって、前記１２８ビット・ソース・レジスタはパック単精度浮動小数点データ・タイプを含むことを特徴とするコンピュータ・プログラム・プロダクト。