JP2001243063A

JP2001243063A - Ｓｉｍｄ命令をエミュレートする方法及び装置

Info

Publication number: JP2001243063A
Application number: JP2001025784A
Authority: JP
Inventors: Patrick Knebel; パトリック・クネベル; Kevin David Safford; ケビン・デイビッド・サフォード
Original assignee: Hewlett Packard Co
Current assignee: HP Inc
Priority date: 2000-02-02
Filing date: 2001-02-01
Publication date: 2001-09-07
Also published as: US6820190B1

Abstract

(57)【要約】【課題】既存のハードウェアを効率よく使用し、かつ
比較的少ないクロックサイクルしか必要としない、SSE
命令セットをエミュレートする方法を提供する。【解決手段】本発明の方法は、（ａ）マクロ命令を複
数のマイクロ命令に分解するステップ（３１０）と、
（ｂ）複数のマイクロ命令の少なくとも２個を並列に発
行するステップ（３２０）と、（ｃ）複数のマイクロ命
令の少なくとも２個のいずれかにおいて例外が発生する
か否かを判定するステップ（３４０）と、（ｄ）複数の
マイクロ命令の少なくとも２個のいずれかにおいて例外
が発生した場合、複数のマイクロ命令の少なくとも２個
をキャンセルするステップ（３５０）と、からなること
を特徴とする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、一般に、ディジタ
ルコンピュータシステムに関する。より詳細には、本発
明は、ディジタルコンピュータシステムにおいて命令を
処理する方法及び装置に関するが、これに限定されな
い。

【０００２】

【従来の技術】縮小命令セット計算（RISC）命令セット
アーキテクチャ（ISA）及び独立コンプレックス命令セ
ット計算（CISC）命令セットアーキテクチャ（ISA）
を、RISC命令セットに固有の命令でCISC命令をエミュレ
ートすることによって、実施するマイクロプロセッサが
存在する。CISC ISAからの命令は「マクロ命令」と呼ば
れる。RISC ISAからの命令は「マイクロ命令」と呼ばれ
る。

【０００３】最近のあるコンピュータアーキテクチャ、
例えばIA-32アーキテクチャの命令セットを改善するた
めに、ストリーミング単一命令多重データ拡張（SSE）
が開発されてきた。SSEは、新たなレジスタセットと、
新たな浮動小数点データタイプと、新たな命令とを含
む。特に、SSEは、８個の１２８ビット単一命令多重デ
ータ（SIMD）小数点レジスタ（ＸＭＭ０〜ＸＭＭ７）を
有し、これを利用して浮動小数点データに計算及び演算
を施すことができる。これらのＸＭＭレジスタを図１Ａ
に示す。各１２８ビット浮動小数点レジスタは、４個の
パックされた３２ビット単精度（SP）浮動小数点（FP）
数からなる。パックされた３２ビットSP FP数の構造を
図１Ｂに示すが、ここで４個の３２ビットSP FP数（０
〜３の数）は、ＸＭＭ２ SSEレジスタに格納されている
かのように示される。その固有のアーキテクチャのよう
な、SSEをサポートするように設計されるアーキテクチ
ャにおいて、SSE命令セットの単一命令は、特定のＸＭ
Ｍレジスタにおける４個の３２ビットSP FP数に対して
並列に演算する。

【０００４】またSSEは、ＭＸＣＳＲレジスタと呼ばれ
る状態及び制御レジスタをさらに含む。ＭＸＣＳＲのフ
ォーマットを図２Ａの例に示す。ＭＸＣＳＲレジスタを
用いて、例外を選択的にマスク(mask)したり又はマスク
しなかったり(unmask)することができる。すなわち、ビ
ット７〜１２のＭＸＣＳＲレジスタをプログラマが使用
して、特定の例外を選択的にマスクしたり又はマスクし
なかったりすることができる。マスクされた例外は、デ
フォルト応答をもたらし得る、プログラマがプロセッサ
により自動的に処理することを望む例外である。一方、
マスクされていない例外は、プログラマが割り込み又は
オペレーティングシステムハンドラの呼び出しにより処
理することを望む例外である。このハンドラの呼び出し
により、オペレーティングシステム（マイクロソフト社
製のWindowsのような）の制御が転送され、問題が修正
されるか、又はプログラムを終了できる。

【０００５】また、ＭＸＣＳＲレジスタを利用して、例
外フラグの状態を追跡してもよい。ビット０〜５のＭＸ
ＣＳＲレジスタは、６個の例外のいずれかがSSE命令の
実行中に発生したか否かを示す。これらの例外には、無
効演算(invalid operation)（Ｉ）、ゼロによる除算(di
vide-by-zero)（Ｚ）、非正規演算（denormal operatio
n）（Ｄ）、数値オーバーフロー(numeric overflow)
（Ｏ）、数値アンダーフロー(numeric underflow)
（Ｕ）、不正確な結果(inexact result)（Ｐ）が含まれ
る。フラグの状態は「スティッキー(sticky)」である
が、これは、フラグが一旦設定されると、例外なしに実
行されても、後続のSSE命令により、フラグがクリアで
きないということを意味する。状態フラグは、通常、オ
ペレーティングシステムから発行される特殊な命令によ
ってのみクリアすることができる。

【０００６】図２Ａの例外フラグは、特定の１２８ビッ
トレジスタＸＭＭレジスタで実行される３２ビットSP F
P演算の４つすべてにビット論理和演算を施した結果で
ある。（４個の３２ビットSP FP数のそれぞれについて
１つの演算。）したがって、４個の３２ビットSP FP数
のいずれか１つについて例外が発生すると、その特定タ
イプの例外に対する例外フラグが上がり、本システムに
おいて何らかのタイプの問題が発生したことを示す。無
効演算（Ｉ）、ゼロによる除算（Ｚ）、非正規演算
（Ｄ）の例外は、事前計算(precomputation)例外である
が、これは、いずれかの演算又は論理演算が発生する前
に、これらが検出されることを意味する。すなわち、計
算を全く行わずに、これらを検出することが可能であ
る。他の３つの例外、すなわち数値オーバーフロー
（Ｏ）、数値アンダーフロー（Ｕ）、不正確な結果
（Ｐ）は、事後計算(post-computation)例外であるが、
これは、演算を実行した後に、これらが検出されること
を意味する。サブオペランド（すなわち１２８ビットＸ
ＭＭレジスタにおける４個のオペランドの１つ）で施さ
れた演算が多数のフラグを上げることが可能である。

【０００７】例外について、SSEには以下の規則があ
る。１．マスクされていない例外が発生すると、命令を実行
するプロセッサは、ＸＭＭレジスタの内容を変更しな
い。換言すれば、マスクされていない例外が４個の３２
ビットSP FP数のいずれかについて発生していないこと
がわかるまで、結果は完遂又は格納されない。２．マスクされた例外がある場合、すべての例外フラグ
は更新される。３．マスクされていない事前計算例外の場合、マスクさ
れている又はマスクされていないに関わらず、事前計算
例外に関するすべてのフラグが更新される。しかしなが
ら、事後実行(post-execution)例外が発生しない可能性
がある、又は発生しないことを意味する後続の計算は認
められない。これが、事後実行例外フラグが変更又は更
新されないことを意味することは勿論である。４．マスクされていない事後計算例外の場合、マスクさ
れている又はマスクされていないに関わらず、すべての
事後実行条件が更新され、これはすべての事前計算例外
についても同様である。事前計算例外がマスクされてい
なければ、上記の第３の規則にしたがって、さらなる計
算は認められないという理由においてのみ、いずれの事
前計算例外もマスクされた例外となる。

【０００８】ストリーミングSIMD拡張についてのさらな
る情報は、「インテルアーキテクチャソフトウェア開発
者のマニュアル(Intel Architecture Software Develop
er'sManual)」（１９９９）第１〜３巻、Intel Order N
umbers 243190、243191、243192に見ることができる
が、参照により、これを本明細書中に組み込む。

【０００９】多数のアーキテクチャにおいて、SSE命令
に対する準備（provision）はなされていない。これら
の非固有アーキテクチャにおいて、４個の３２ビットSP
FP数を含むことが可能な８個の１２８ビット浮動小数
点ＸＭＭレジスタは、利用できない。非固有アーキテク
チャの中には、この８個の１２８ビットＸＭＭレジスタ
を、１２８ビット幅より少なく６４ビット幅より多いも
のとすることができる１６個の浮動小数点レジスタ（例
えばIA-64レジスタ）にマッピングし得るものもある。
すなわちアーキテクチャの中には、２個の３２ビットSP
FP数を保持するために、８２ビットレジスタを使用す
るものがある（６４を越えるビットは、SIMDタイプの３
２ビットSP FP数を保持するレジスタを示すために使用
される特殊符号化に使用される場合がある）。一例を図
２Ｂに示す。なお、SSE固有環境のＸＭＭ２レジスタに
格納された４個の３２ビットSP FP数０〜３（図１Ｂ）
は、ここで「ＸＭＭ２レジスタの下半分」と「ＸＭＭ２
レジスタの上半分」をそれぞれ含むＸＭＭ２ LowとＸＭ
Ｍ２ Highの２つの８２ビットレジスタに格納されるこ
とに留意されたい。これにより、４個の３２ビットSP F
P数のそれぞれで演算を並列に実行することが困難にな
る。

【００１０】したがって、この非固有環境（non-native
environment）において、SSE命令は、エミュレーショ
ンにより実行される必要がある。すなわち、４個の３２
ビットSP FP数の２つで、まず（並列で）演算を行い、
次に残りの２個の３２ビットSP FP数で、（同様に並列
で）演算を行うことができる。代替的には、１個のみ又
は少なくとも３個の３２ビットSP FP数で演算を行うこ
とができる。例えば、下半分ＸＭＭ２ Low、次いで上半
分ＸＭＭ２ Highのオペランドで演算を実行することが
できる。しかしながら、SSE規則が例外を処理し、例外
フラグを更新するとしたとき、このように一部並列、一
部逐次的にSSE命令をエミュレートする際に問題が発生
する。例えば、図２Ｂの下半分及び上半分で実行される
命令のセットＸＭＭ２：＝ＯＰ（ＸＭＭ３，ＸＭＭ４）がＸＭＭ２ Low：＝ＯＰ（ＸＭＭ３ Low，ＸＭＭ４ Low）ＸＭＭ２ High：＝ＯＰ（ＸＭＭ３ High，ＸＭＭ４ Hig
h）によりエミュレートされると想定する。下半分、ＸＭＭ
３ Low及びＸＭＭ４ Lowにおけるオペランドについてマ
スクされていない例外が存在することなく、第１の命令
が実行されるとする。この演算の結果は、ＸＭＭ２ Low
に正確にコミット、完遂される。次に、第２の命令を上
半分で実行した結果、事前計算のマスクされていない例
外が得られるとする。SSE規則によれば、この事前計算
のマスクされていない例外により、４個の３２ビットSP
FP数のいずれでも後続の演算は実行されない。しかし
ながら、ここでは、下半分で演算を行った結果が、SSE
規則に反して、レジスタＸＭＭ２ Lowに完遂されてい
る。これは、ＸＭＭ２ Lowにおけるデータを破損するた
め、発生させることができない。

【００１１】従来のマシンでは、第１のマイクロ命令が
完了したときに、マシンに、アーキテクチャ状態を投機
的に(speculatively)変更させた後、第２のマイクロ命
令が例外を有していれば、この変更を「アンドゥ(und
o)」させる「バックオフ(back-off)」機構を実施するこ
とによって、この問題を解決していた。このバックオフ
機構は、ある一定のマシン、特に再命令する(renaming)
レジスタを実施しないマシンでは、実施が困難となるこ
とがある。多くのシステムでは、バックオフ又はアンド
ゥ操作の使用が、様々な理由から困難であったり、又は
制限される。

【００１２】SSEのエミュレートを首尾よく行い、かつ
この規則違反を防ぐ１つの方法は、「シャドー（shado
w）」レジスタ機構を使用することである。シャドーレ
ジスタ機構では、下半分で以前の成功した演算の結果が
シャドーレジスタ内に物理的に格納される。この場合、
上述の例では、例外が上半分において検出されると、下
半分での以前の演算についてシャドーレジスタにすでに
格納されている結果が再記録(re-store)できる、すなわ
ち下半分について「アンドゥ」演算が実行される。しか
しながらシャドーレジスタ機構は比較的複雑である。ほ
とんどのシステムにおいて、下半分での以前の演算の結
果を格納するために、少なくとも１６個のレジスタが利
用可能でなければならず、それぞれが２個の３２ビット
FP SP数が可能である必要がある。さらに「アンドゥ」
演算が必要とされる場合、どのシャドーレジスタに所望
の結果があるかを決定しなければならない。この機構
は、他の場合により効率よく使用される高価なレジスタ
スペースを消費する。さらに以前のマップを格納するた
めに比較的複雑なポインタ及び仮想マップのシステムが
必要とされる。

【００１３】特定のSSE命令をエミュレートする別の方
法は、バックオフレジスタ機構を設けるものである。こ
の手法は、複数個のレジスタ、結合マルチプレクサ／デ
マルチプレクサ結合、その他各種のハードウェア、命令
の新たなセットを必要とする場合があるということを、
当業者は理解するであろう。これらは、すべてコスト高
を招くとともに効率の低下をもたらす。

【００１４】特定のSSE命令をエミュレートするさらに
別の方法は、SSE ＸＭＭレジスタにおける４個の３２ビ
ットSP FP数のそれぞれについて命令を一度に１つ実行
し、各実行の結果をテンポラリレジスタに格納するもの
である。４番目の３２ビットSP FP数に関する命令が実
行され、マスクされていない例外が発生していなけれ
ば、適切なアーキテクチャ場所に結果が完遂され、例外
フラグが更新される。このエミュレーションの方法で
は、結果が完遂され得る前に、１つの命令を４回実行す
る際に費やすクロックサイクル数に加え、比較的複雑な
マイクロコードシーケンスをさらに追加し、別の場合に
より効率よく使用されるハードウェアを使用する必要が
ある。

【００１５】

【発明が解決しようとする課題】既存のハードウェアを
効率よく使用し、かつ比較的少ないクロックサイクルを
消費する、すなわち比較的少ないクロックサイクルしか
必要としない、SSE命令セット（及び他の命令セット）
をエミュレートする方法及び装置が必要とされているこ
とが明らかである。さらに一連の命令を実行する際に、
これらの命令の結果を完遂することなく、ある一定の問
題が発生するおそれがあるか否かを判定する方法及び装
置が必要とされている。

【００１６】

【課題を解決するための手段】本発明は、１つのマクロ
命令を少なくとも２個のマイクロ命令に分解するステッ
プ、このマイクロ命令を２つの別の機能ユニットで並列
に実行するステップ、これらの機能ユニットが単一の機
能ユニットとして実行されたかのように、見なせるよう
にこれらのマイクロ命令をリンクするステップ、からな
る命令を処理する方法である。本発明は、例外について
のSSE規則にしたがって、機能ユニットのいずれか一方
において所定の例外が発生するか否かを判定することに
よって動作する。リンクされたマイクロ命令のいずれか
において、例外が発生すれば、これらのマイクロ命令の
それぞれの実行はキャンセルされる。これにより、バッ
クオフ又はアンドゥ機構の必要性が回避される。

【００１７】また本発明は、浮動小数点ユニットを備え
たプロセッサと、ＲＯＭと、浮動小数点レジスタとを有
する、ソフトウェア命令を処理するコンピュータシステ
ムである。本プロセッサは、１つのマクロ命令を少なく
とも２つのマイクロ命令に分解し、これらのマイクロ命
令を並列に実行し、これらの機能ユニットが単一の機能
ユニットとして実行されたかのように、見なせるように
これらの命令をリンクするように構成されている。また
本プロセッサは、バックオフ又はアンドゥ機構を使用す
ることなく、例外を識別して処理することが可能であ
る。

【００１８】

【発明の実施の形態】Ａ．コンピュータシステム図３は、本発明を実施可能なコンピュータシステム１０
を示す。このコンピュータシステム１０は、少なくとも
１個のプロセッサ２０と、主メモリ３０と、各種相互接
続データバス、アドレスバス及びコントロールバス（総
称的に４０で表す）と、を備える。主メモリ３０には、
SSEを含むことが可能な命令セット５０とオペレーティ
ングシステム６０とが格納される。

【００１９】図４に示すように、プロセッサ２０は、浮
動小数点ユニット７０と、マイクロコードＲＯＭ１００
と、各種バス及び相互結線（総称的に１１０で表す）
と、SSE ＸＭＭレジスタをエミュレートするために必要
なＸＭＭ０ Low〜ＸＭＭ７ Highの１６個の浮動小数点
レジスタを備えるレジスタファイル１２０と、を備え
る。一実施形態において、１６個の浮動小数点レジスタ
は８２ビットレジスタであるが、しかし他の幅（例えば
１２８ビット又は６４ビット）を使用することができ、
８２ビットレジスタに関する以下の記載は単なる例示で
あり、限定することを意図するものではない。SSEの４
個の３２ビットSP浮動小数点数は、本発明の８２ビット
SP FPレジスタの２個（例えば図２Ｂに示す、ＸＭＭ２
Low及びＸＭＭ２ High）に格納される。浮動小数点ユニ
ット７０は、SSEのＭＸＣＳＲレジスタに対応する第１
の３２ビットレジスタ１３０と、２個のFP演算を実行す
るために使用される少なくとも２つの機能ユニット（例
えば１７０、１７２）と、からなる。

【００２０】プロセッサ２０には、主メモリ３０から命
令が供給される。プロセッサ２０に供給される命令は、
マイクロコードＲＯＭ１００に格納される１つ以上のマ
イクロコード命令１４０にマップするマクロコード命令
である。マイクロコード命令は、プロセッサ２０が直接
実行することもできる。またマイクロコードＲＯＭ１０
０には、１セットのマイクロコードハンドラ１５０も格
納されており、これを呼び出して、ある一定のマスクさ
れていないプロセッサの例外を処理することができる。
プロセッサ２０は、パイプラインアーキテクチャを有
し、ある一定の命令を並列処理することができる。

【００２１】Ｂ．利用 IA-32 ISAは、単一命令が、８エントリ深さ（entry dee
p）で、１２８ビット幅（bit wide）である、レジスタ
ファイルに保持される多数の単精度（SP）浮動小数点
（FP）値で同時に演算する、ストリーミングSIMD拡張、
すなわちSSE命令を画定する。単精度浮動小数点数を３
２ビットで表すことができるため、各SSEレジスタは、
４個のパックされたSP値を保持可能であるとともに、各
SSE命令は４個のSP結果を計算することができる。IA-32
ISAが１２８ビットレジスタ及び１２８ビットデータで
演算可能な命令を特定するとしても、一実施例では、１
つあるいは２つのFP SP演算を一度に計算することだけ
が可能である下位レジスタ又はFP機能ユニットを実施す
ることを選択しても良い。SSE命令を多数の機能ユニッ
ト上でエミュレートすることにより、又は、４個のFP S
P演算を複数サイクルに亘ってシリアルに実行すること
により、又は、これらの手法の両方の組み合わせによ
り、SSE命令を実施することが可能である。ISAは、演算
のアーキテクチャ的な目に見える副作用の何れかが、４
つすべての演算がハードウェアにおいて同時に発生して
いるかのように、見なせるということだけを必要とす
る。

【００２２】好ましい実施形態において、８２ビット幅
のFPレジスタを含むRISC ISAが実施される。したがっ
て、SSE命令をこの実施例でエミュレートするために
は、１つのSSEレジスタに含まれる不可欠な４個の３２
ビットSP FP値をエミュレートするための２個のFPレジ
スタが必要とされる。またRISC ISAは、１つの命令によ
り２個のSP値を演算する、その固有のSIMD演算を規定す
る。このためこの実施例では、単一SSEマクロ命令をエ
ミュレートするために２個のRISCマイクロ命令が必要と
なる。

【００２３】オペランドの値によって、SSE命令は、実
行時に例外を生じさせることがある。IA-32アーキテク
チャは、６個の可能な例外と、３個の事前計算と、３個
の事後計算を定義する。事前計算例外は、ソースレジス
タの値に基づいて計算されるものであり、それに対して
事後計算例外は、計算の結果の値に基づいて計算され
る。またこのアーキテクチャは、制御及び状態レジスタ
であるＭＸＣＳＲを定義する。ＭＸＣＳＲは、各例外を
独立的にマスク可能な制御ビットと、発生するいずれの
例外の状態も捕獲するフラグビットとからなる。

【００２４】本発明の好適な実施形態は、２個のRISCマ
イクロ命令を並列に発行する方法と、両FPユニットの結
果に基づいてフラグを更新する方法と、いずれか一方の
FPユニットにおいて例外を引き起こして両FPユニットに
おける結果レジスタを設定しないようにする方法を含
む。

【００２５】固有モード（RISC ISA）における実行時、
実施には、精密な例外を有することが必要とされる。す
なわち、命令により例外が引き起こされる場合、その命
令ストリームにおける後続のすべての命令は、当該プロ
セスからフラッシュ（flush）されなければならない。
ある実施が複数の命令を並列に実行するとしても、逐次
意味 (sequential semantics)を添付する必要がある。
例えば、以下の命令ストリームｏｐ１―最も古い命令ｏｐ２ｏｐ３ｏｐ４ … ｏｐＮ―最も新しい命令において、ｏｐ１は最も古い命令であり、これが障害
（fault）を取る場合、プロセッサはこれより新しい演
算（ｏｐ２〜ｏｐＮ）をすべてフラッシュしなければな
らない。プロセッサが２個の演算を並列で実行し、かつ
新たな演算をサイクルごとにパイプライン処理する場
合、これらの演算は、すべて同時に「インフライト（in
flight）」状態、飛行中の状態になり得る。例えばｏ
ｐ３及びｏｐ４を１サイクル遅らせて「インフライト」
状態にし、ｏｐ５及びｏｐ６を２サイクル遅らせて「イ
ンフライト」状態にし、…その間に、ｏｐ１及びｏｐ２
を並列発行して、完了に近づけることができる。ｏｐ１
が例外を取る場合、演算（ｏｐ１〜ｏｐ８）をすべてフ
ラッシュしなければならない。しかしｏｐ２が例外を取
る場合、演算ｏｐ２〜ｏｐ８のみをフラッシュすればよ
い。

【００２６】図５は、SSE命令をエミュレートするため
に、本発明を実施するのに必要とされる各ステップを示
すフローチャートである。まず分解機能３１０におい
て、マクロ命令が２個以上のマイクロ命令に分解され
る。エミュレーション機能３２０において示すように、
SSE演算の上半分及び下半分をエミュレートするために
使用される２個のマイクロ命令を並列に発行させて、こ
のマイクロ命令が、１サイクルにつき２個のSP値を計算
することがそれぞれ可能な２個のFPユニットに同時にデ
ィスパッチする（dispatch）、すなわちタスク指名す
る。これは、本願と同日付けで出願された、Knebelらに
よる「Method and Apparatus for Implementing Two Ar
chitectures on a Chip」と題する同時係属中の特許出
願に請求されている機構により達成される。参照によ
り、この出願を本明細書中に組み込む。両マイクロ演算
は、単一演算として扱われる必要がある。これらは互い
に密接に関連して作動する。

【００２７】信号生成機能３３０に示すように、エミュ
レーションハードウェアにより信号が生成され、FP機能
ユニットに送られ、SSE命令がエミュレートされている
ときを特定する。そして信号の発信時、例外検出機能３
４０は、いずれか一方のFP機能ユニットにおいて例外が
取られたか否かを判定する。いずれか一方のFP機能ユニ
ットにおいて例外が取られた場合、キャンセル機能３５
０に示すように、両FP機能ユニットからの結果はクリア
されなければならず、例外がキャンセルされ、ハンドラ
が呼び出される。本発明は、２個の機能ユニットにおけ
るマイクロ命令の相対年齢（relative age）にかかわら
ず、他方のFP機能ユニットにおける結果をフラッシュす
ることを可能とすべきである。上述のように信号が発信
されると、更新機能３６０に示すように、ＭＸＣＳＲフ
ラグは、両機能ユニットの結果に基づいて更新されなけ
ればならない。マイクロ命令の実行が首尾よく完了した
後、続行機能３７０に示すように、本プロセスは続行す
る。

【００２８】本発明を、その特定の実施形態を参照して
詳説してきたが、各種の変更が可能である。したがって
本発明は、その本質的な精神又は属性から逸脱しなけれ
ば、他の特定の形式においても実現し得る。あらゆる点
において、本明細書に記載の実施形態は限定ではなく例
示と見なされ、また本発明の範囲を決定する特許請求の
範囲を参照することが望ましい。

【００２９】以下においては、本発明の種々の構成要件
の組み合わせからなる例示的な実施態様を示す。１．ソフトウェア命令を処理する方法であって、
（ａ）マクロ命令を複数のマイクロ命令に分解するステ
ップ（３１０）と、（ｂ）前記複数のマイクロ命令の少
なくとも２個を並列に発行するステップ（３２０）と、
（ｃ）複数のマイクロ命令の前記少なくとも２個のいず
れかにおいて例外が発生するか否かを判定するステップ
（３４０）と、（ｄ）複数のマイクロ命令の前記少なく
とも２個のいずれかにおいて例外が発生した場合、複数
のマイクロ命令の前記少なくとも２個をキャンセルする
ステップ（３５０）と、により特徴付けられる方法。

【００３０】２．前記複数のマイクロ命令の前記少な
くとも２個を実行するステップ（３２０）をさらに特徴
とする、１項記載の方法。

【００３１】３．複数のマイクロ命令の前記少なくと
も２個が、別個の実行ユニット（１７０、１７２）上で
実行されるが、単一の実行ユニット上で実行されている
かのように見なされる、１項又は２項記載の方法。

【００３２】４．複数のマイクロ命令の前記少なくと
も２個が、同一クロックサイクルで実行される、１〜３
項の何れか１項記載の方法。

【００３３】５．複数のマイクロ命令の前記少なくと
も２個が、多数のクロックサイクルに亘って実行され
る、１〜４項の何れか１項記載の方法。

【００３４】６．前記方法が、SSE命令をエミュレー
トするシステムにおいて実施される、１〜５項の何れか
１項記載の方法。

【００３５】７．前記システムが、単一命令に、多数
の単精度（「SP」）浮動小数点（「FP」）値（７０）を
演算させる、１〜６項の何れか１項記載の方法。

【００３６】８．さらに、複数のマイクロ命令の前記
少なくとも２個の実行の結果に基づいて、フラグを更新
するステップ（３６０）からなることを特徴とする、１
〜７項の何れか１項記載の方法。

【００３７】９．さらに（ａ）マスクされていない例
外が発生する場合、前記マイクロ命令の実行をキャンセ
ル（３５０）して、マイクロコードハンドラ（１５０）
を呼び出す（３５０）ステップと、（ｂ）マスクされて
いない例外が発生しない場合、複数の機能ユニットに対
して例外の論理和を独立的に生成することによって、少
なくとも１個の例外フラグを更新する（３６０）ステッ
プと、からなることを特徴とする、１〜８項の何れか１
項記載の方法。

【００３８】１０．さらに（ａ）上半分及び下半分のSS
E演算をエミュレートするために２個のマイクロ命令を
設けるステップ（３１０）と、（ｂ）前記上半分及び下
半分の演算を並列に発行させるステップ（３２０）と、
（ｃ）前記上半分及び下半分の演算を、第１のFPユニッ
ト（１７０）及び第２のFPユニット（１７２）にそれぞ
れタスク指名するステップ（３２０）と、（ｄ）信号を
エミュレータのハードウェアから生成するステップ（３
３０）と、（ｅ）前記第１及び第２のFPユニット（１７
０、１７２）に前記信号を送信するステップと、（ｆ）
前記第１又は第２のFPユニット（１７０、１７２）のい
ずれか一方において、例外が取られたか否かを判定する
ステップ（３４０）と、（ｇ）前記第１又は第２のFPユ
ニットのいずれか一方において、例外が取られた場合、
他のFPユニット（例えば１７０、１７２）における結果
をフラッシュするステップ（３５０）と、（ｈ）前記第
１及び第２のFPユニット（１７０、１７２）の結果に基
づいて、ＭＸＣＳＲフラグを更新するステップ（３６
０）と、からなることを特徴とする、１〜９項の何れか
１項記載の方法。

【００３９】

【発明の効果】本発明は、マクロ命令を少なくとも２つ
のマイクロ命令に分解するステップ（３１０）と、この
複数のマイクロ命令を並列に実行するステップ（３２
０）と、これらが単一の機能ユニット（１７０）として
実行されたかのように、見なせるようにこれらのマイク
ロ命令をリンクするステップ（３４０）とによって、命
令を処理する方法である。本発明は、例外についてのSS
E規則にしたがって、機能ユニット（１７０、１７２）
のいずれか一方において所定の例外が発生するか否かを
判定するステップ（３４０）によって動作する。リンク
されたマイクロ命令のいずれかにおいて、例外が発生す
れば、これらのマイクロ命令のそれぞれの実行はキャン
セルされる（３５０）。これにより、バックオフ又はア
ンドゥ機構の必要性が回避される。

【図面の簡単な説明】

【図１】図１Ａ及び１Ｂは、図２Ａ及び２Ｂとともに、
SSEのコンポーネントのブロック図を示す。

【図２】図２Ａ及び２Ｂは、図１Ａ及び１Ｂとともに、
SSEのコンポーネントのブロック図を示す。

【図３】本発明を含むコンピュータシステムのブロック
図である。

【図４】図３のプロセッサのブロック図である。

【図５】本発明の方法のフローチャートである。

【符号の説明】

７０浮動小数点ユニット１５０マイクロコードハンドラ１７０機能ユニット１７２機能ユニット

───────────────────────────────────────────────────── フロントページの続き (72)発明者ケビン・デイビッド・サフォードアメリカ合衆国コロラド州80525，フォートコリンズ，サンクレスト・ドライブ・ 4100

Claims

【特許請求の範囲】

【請求項１】ソフトウェア命令を処理する方法であっ
て、（ａ）マクロ命令を複数のマイクロ命令に分解する
ステップ（３１０）と、（ｂ）前記複数のマイクロ命令
の少なくとも２個を並列に発行するステップ（３２０）
と、（ｃ）複数のマイクロ命令の前記少なくとも２個の
いずれかにおいて例外が発生するか否かを判定するステ
ップ（３４０）と、（ｄ）複数のマイクロ命令の前記少
なくとも２個のいずれかにおいて例外が発生した場合、
複数のマイクロ命令の前記少なくとも２個をキャンセル
するステップ（３５０）と、からなることを特徴とする
方法。