JP3537448B2

JP3537448B2 - 先進のマイクロプロセッサのためのゲート格納バッファ

Info

Publication number: JP3537448B2
Application number: JP52883098A
Authority: JP
Inventors: ウィング，マルコム・ジェイ; ドソウザ，ゴドフレイ・ピー
Original assignee: トランスメタ・コーポレーション
Priority date: 1996-12-23
Filing date: 1997-12-12
Publication date: 2004-06-14
Anticipated expiration: 2017-12-12
Also published as: WO1998028689A1; JP2001507151A; CA2270122A1; CN1103079C; EP1010077A1; KR100394967B1; KR20000062300A; US6011908A; CA2270122C; EP1010077A4; CN1242087A

Description

【発明の詳細な説明】

発明の背景発明の分野本発明は、コンピュータ・システムに関し、更に特定
すれば、異なるプロセッサで実行するために設計された
プログラムから変換されたプログラムを実行するホスト
・マイクロプロセッサによってメモリ格納を制御するた
めに利用されるゲート格納バッファ（gated store buff
er）に関するものである。従来技術の歴史特定のマイクロプロセッサ・ファミリを中心に設計さ
れた、コンピュータ上で走るアプリケーション・プログ
ラムは、数千種にも上る。既存のプログラムでは、カリ
フォルニア州サンタクララのIntel Corporation（イン
テル社）が設計し製造する、"X86"ファミリ・マイクロ
プロセッサ（Intel8088、Intel8086、Intel80186、Inte
l80286、i386、i486、および種々のPentiumマイクロプ
ロセッサの発展型を含む:Intel及びPentiumは登録商
標）を用いたコンピュータ（IBM互換パーソナル・コン
ピュータと一般的に呼ばれている）上で走るように設計
されたものの数が最も多い。他のプロセッサ・ファミリ
を用いたコンピュータ上で走るように設計された他のプ
ログラムの例も多くある。これらのコンピュータ上で走
る多くのアプリケーション・プログラムがあるので、か
かるコンピュータ、特にX86プログラムを処理するよう
に設計されたプログラムにおいて使用可能なマイクロプ
ロセッサの市場は膨大である。マイクロプロセッサの市
場は大きいだけでなく、非常に収益性が高い。多数のアプリケーション・プログラムを走らせること
ができるマイクロプロセッサの市場は大きく収益性が高
いが、競争力のある新たなマイクロプロセッサを設計す
ることは非常に難しい。例えば、X86プロセッサ・ファ
ミリは長年にわたって存在し続け、これらのプロセッサ
は販売および使用されたコンピュータの大部分に含まれ
るが、X86のプログラムを走らせることができる競合プ
ロセッサで成功したものは殆どない。その理由は多くあ
る。成功するためには、このプロセッサ・ファミリに設計
されたプログラム全て（オペレーティング・システムお
よび旧来のプログラムも含む）を、しかも既存のプロセ
ッサと同じくらい速く走らせることができるマイクロプ
ロセッサでなければならず、更に既存のプロセッサより
もコストを抑えなければならない。加えて、経済的に成
功するためには、新たなマイクロプロセッサは、これら
の条件の少なくとも１つにおいて、既存のプロセッサよ
りも勝っていることによって、既存の認められているプ
ロセッサを差し置いて新たなプロセッサを選択する理由
を、購入者に与えなければならない。最新のマイクロプロセッサと同じ位速くマイクロプロ
セッサを走らせるのは困難であり、かつ費用もかかる。
プロセッサは、ロード、シフト、加算、格納のような原
始な動作および同様の低レベルの動作によって命令を実
行し、アプリケーション・プログラムによって与えられ
るいずれの命令を実行する際にも、このような原始な命
令にのみ応答する。例えば、X86のような、命令が比較
的高いレベルで実行すべきプロセスを指定することがで
きる、複雑命令セット・コンピュータ（CISC:complicat
ed instruction set computer）の命令を走らせるよう
に設計されたプロセッサは、従来よりリード・オンリ・
メモリ（ROM）を含み、その中にいわゆるマイクロ命令
を格納している。各マイクロ命令は、一連の原始命令を
含み、これらを連続して走らせることにより、高いレベ
ルのCISC命令によって命令された結果がもたらされる。
典型的に、"add A to B"（ＡをＢに加算する）というCI
SC命令がデコードされると、この"add A to B"命令の機
能を実行するマイクロ命令が格納されているROM内のア
ドレスを参照する。このマイクロ命令がロードされ、そ
の原始命令を順次走らせることによって、"add A to B"
命令を実行する。このようなCISCコンピュータでは、マ
イクロ命令内の原始動作は、プログラムの実行中決して
変化させることはできない。各CISC命令は、命令をデコ
ードし、マイクロ命令をアドレスしてこれを取り込み、
当該マイクロ命令内に与えられている順序で一連の原始
動作を走らせることによってのみ、走らせることができ
る。マイクロ命令を走らせる毎に、同じシーケンスが発
生しなければならない。 X86アプリケーションを走らせるための先進のプロセ
ッサは、多数の技術を利用し、可能な限り高速に、しか
も経済的に低い価格で処理を行おうとしている。プロセ
ッサが走ることができる速度を加速させるための公知の
ハードウエア技術を実装する新たなプロセッサは、いず
れも処理ハードウエアの洗練性を高める必要がある。こ
れには、ハードウエア・コストの増大が必要となる。例えば、複数の処理チャネルを用いて一度に２つ以上
の動作を実行するスーパースカラー・マイクロプロセッ
サには、多数の追加要件がある。最も基本的なレベルで
は、単純なスーパースカラー・マイクロプロセッサは、
各アプリケーション命令をマイクロ命令にデコードし、
当該アプリケーション命令の機能を実行することができ
る。そこで、単純なスーパースカラー・マイクロプロセ
ッサは、２つのマイクロ命令が同じハードウエア資源を
要求せず、一方のマイクロ命令の実行が他方のマイクロ
命令の処理結果に依存しないのであれば、これら２つの
マイクロ命令を一緒に走らせるようにスケジューリング
を行う。更に進んだスーパースカラー・マイクロプロセッサに
は、典型的に、各アプリケーション命令を一連の原始命
令にデコードし、これらの原始命令の順序を変更し、最
も効率的な実行順序でスケジューリングを行うことを可
能にするものがある。これには、個々の原始動作各々を
アドレスし、取り込むことが必要となる。順序変更を行
うためには、プロセッサは、他の原始命令から生ずるデ
ータを必要とする原始命令を、他の原始命令が必要なデ
ータを生成した後に、実行することを保証できなければ
ならない。このようなスーパースカラー・マイクロプロ
セッサは、一緒に走らせる２つの原始命令が同じハード
ウエア資源を要求しないことを保証しなければならな
い。また、このようなプロセッサは、条件付き分岐を解
決し、その後に分岐動作の効果が完了することを可能に
しなければならない。このように、スーパースカラー・マイクロプロセッサ
は、複数の原始命令の関係を互いに比較し、これら原始
命令のシーケンスを並び替え、あらゆる命令をスケジュ
ーリングして実行するために、広範なハードウエアを必
要とする。処理チャネル数が増大するに連れて、これら
スーパースカラー加速技術を達成するためのハードウエ
アの量およびコストはほぼ４倍に増大する。これらのハ
ードウエア要件は全て、関連する回路の複雑化および高
コスト化を招く。マイクロ命令を扱う際と同様、アプリ
ケーション命令を実行する毎に、スーパースカラー・マ
イクロプロセッサは、その比較的複雑なアドレシング・
ハードウエアおよび取り込みのためのハードウエアを用
いてこれらの原始命令の各々を取り込まなければなら
ず、他の原始命令およびハードウエアの使用状況に基づ
いてこれらの原始命令の並び替えおよび再スケジュール
を行わなければならず、更に、再スケジュールした原始
命令全てを実行しなければならない。各アプリケーショ
ン命令を実行する度に、ハードウエア・シーケンス全体
でこれを走らせなければならないので、スーパースカラ
ー・プロセッサがその命令を実行可能な速度は限定され
る。更に、これら種々のハードウエア技術が処理速度を高
めるとしても、このようなハードウエアを備えるために
伴う複雑性のために、このようなマイクロプロセッサの
大幅なコスト上昇を招くことになる。例えば、インテル
i486DX4プロセッサは、約150万個のトランジスタを使用
する。Intel Pentiumのような基本的なスーパースカラ
ー・マイクロプロセッサにおいて、２つのチャネルによ
って命令を処理するために必要な依存性およびスケジュ
ーリングのチェックを行うために必要なハードウエアを
追加するには、300万個以上のトランジスタの使用が必
要となる。異なるターゲット命令から派生する原始命令
間の並び替えを行い、思索的実行（speculative execut
ion）を行い、レジスタの名称変更を可能とし、分岐予
測を行うためにハードウエアを追加すると、トランジス
タ数は、Intel Pentium Pro（登録商標）では、600万
個以上にも増大する。したがって、動作速度を高めるた
めにハードウエアを追加する毎に、最新のマイクロプロ
セッサではトランジスタ数が激増したことがわかる。これら公知の技術を用いても、既存のマイクロプロセ
ッサよりも高速のマイクロプロセッサは生産することが
できない場合もある。何故なら、製造者は既存のマイク
ロプロセッサの動作を加速させる公知の技術で、経済的
に実現可能なものを利用するからである。その結果、よ
り速いプロセッサの設計は非常に困難でありしかも費用
がかかる作業となる。プロセッサのコスト削減も非常に困難である。先に例
示したように、十分な能力のあるプロセッサを生産する
ハードウエア加速技術は非常に高価である。新たなプロ
セッサを設計しようとする者は、ハードウエアを生産す
る設備を獲得しなければならない。このような設備の獲
得は非常に困難である。何故なら、チップ製造者は典型
的に少量のデバイスに資産を費やすことはない。チップ
製造設備を生産するために必要な資本投下は非常に大き
く、殆どの会社に可能な範囲を超えている。競合プロセッサと少なくとも同じ位速く、あるプロセ
ッサ・ファミリに設計されたアプリケーション・プログ
ラムの全てを走らせる新たなプロセッサを設計すること
ができる者がいるとしても、競合プロセッサの価格は、
十分な利益を含んでおり、いずれの競合も大幅な値下げ
に直面することは確実である。ハードウエアの複雑度を高めることによって競争力の
あるプロセッサを設計することは非常に困難であるが、
特定のマイクロプロセッサ・ファミリ（ターゲット・マ
イクロプロセッサ）に設計されたアプリケーション・プ
ログラム（ターゲット・アプリケーション・プログラ
ム）を走らせる他の方法として、ソフトウエアで他のよ
り速いマイクロプロセッサ（ホスト・マイクロプロセッ
サ）上でターゲット・マイクロプロセッサをエミュレー
トすることが行われてきた。これは、格段に安価にこれ
らのプログラムを走らせる方法である。何故なら、より
速いマイクロプロセッサ上でアプリケーション・プログ
ラムを走らせる、ある形態のエミュレーション・ソフト
ウエアを追加しさえすればよいからである。エミュレー
タ・ソフトウエアは、ターゲット・プロセッサ・ファミ
リに書かれたアプリケーション・プログラムのターゲッ
ト命令を、ホスト・プロセッサによって実行可能なホス
ト命令に変更する。これら変更した命令を、より速いホ
スト・マイクロプロセッサ上のオペレーティング・シス
テムの制御の下で走らせる。ターゲット・コンピュータのプロセッサよりも速いプ
ロセッサを有するホスト・コンピュータ上で、ターゲッ
ト・アプリケーションを走らせることを可能にする設計
には、これまでにも多種多様なものがある。一般に、エ
ミュレーション・ソフトウエアを用いてターゲット・プ
ログラムを実行するホスト・コンピュータは、縮小命令
セット（RISC:reduced instruction set）マイクロプロ
セッサを利用する。何故なら、RISCプロセッサは、理論
上他の形式のプロセッサよりも単純で、その結果より速
く走らせることができるからである。しかしながら、エミュレータ・ソフトウエアを走らせ
るRISCコンピュータ・システムは多くの場合X86（また
はその他の）プログラムを走らせることができるが、こ
れらがこれを行うレートは、通常、技術的現状のX86コ
ンピュータ・システムが同じプログラムを走らせるレー
トよりもはるかに遅い。更に、これらのエミュレータ・
プログラムは、入手可能なターゲット・プログラムの全
てまたは大多数を走らせることができる訳ではない。エミュレータ・プログラムが、ターゲット・マイクロ
プロセッサ程速くターゲット・プログラムを走らせるこ
とができない理由は、非常に複雑であり、異なるエミュ
レーション動作の理解がある程度必要となる。図１は、
複数の異なる種別のマイクロプロセッサがターゲット・
アプリケーション・プログラムを実行する異なる方法を
表す一連の図を含む。図１（ａ）では、IntelX86マイクロプロセッサのよう
な典型的なCISCマイクロプロセッサが、当該ターゲット
・プロセッサ上で走らせるために設計されたターゲット
・アプリケーション・プログラムを走らせる場合を示
す。図に見られるように、コンピュータのハードウエア
へのアクセスを得るためのインターフェースを与えるよ
うに設計されたCISCオペレーティング・システム（X86
コンピュータと共に用いられる、MS DOS（商標）、Win
dows3.1（商標）、WindowsNT（商標）、およびOS/2（商
標）のような）を用いて、CISCプロセッサ上でアプリケ
ーションを走らせる。通常、アプリケーション・プログ
ラムの命令は、オペレーティング・システムによって与
えられるアクセスのみを通じて、コンピュータのデバイ
スを利用するように選択される。したがって、オペレー
ティング・システムは、コンピュータのメモリおよび種
々の入出力デバイスへのアクセスをアプリケーションに
許可する操作を処理する。ターゲット・コンピュータ
は、オペレーティング・システムが認識するメモリおよ
びハードウエアを含み、ターゲット・アプリケーション
からオペレーティング・システムへのコールによって、
オペレーティング・システムのデバイス・ドライバは、
定義されたターゲット・コンピュータのデバイスを用い
て、予想される動作を行わせる。アプリケーションの命
令は、プロセッサ上で実行するが、この場合、当該プロ
セッサが実行可能な動作（マイクロコード、またはマイ
クロコードがアセンブルされる、更に原始な動作で実体
化する）にこれらは変更される。前述のように、複雑な
ターゲット命令を実行する毎に、命令は、マイクロコー
ドとして（または同じ原始動作セットとして）格納され
ている同じサブルーチンをコールする。同じサブルーチ
ンが常に実行される。プロセッサがスーパースカラーで
ある場合、ターゲット命令を実行するためのこれら原始
動作は、多くの場合プロセッサによって並び替えが行わ
れ、再スケジューリングが行われ、前述と同様に種々の
処理チャネルを用いて実行可能となる。しかしながら、
依然としてサブルーチンを取り込み実行する。図１（ｂ）は、図１（ａ）のCISCプロセッサ上で走ら
せるように設計された、同じターゲット・アプリケーシ
ョン・プログラムを走らせる、Apple Macintosh（商
標）コンピュータにおいて用いられているPowerPC（商
標）マイクロプロセッサのような典型的なRISCマイクロ
プロセッサを表す。図に見られるように、当該ターゲッ
ト・アプリケーションが発生するコールの一部に応答す
る、少なくとも部分的なターゲット・オペレーティング
・システムを用いて、ホスト・プロセッサ上でターゲッ
ト・アプリケーションを実行する。通常、これらは、デ
ィスプレイ上にグラフィカル・インターフェースを備え
るために用いられる、ターゲット・オペレーティング・
システムのアプリケーション状部分へのコール、および
概してアプリケーション状の短いユーティリティ・プロ
グラムである。ターゲット・アプリケーションおよびタ
ーゲット・オペレーティング・システムのこれらの部分
は、SoftPC（登録商標）のようなソフトウエア・エミュ
レータによって変換される。ソフトウエア・エミュレー
タは、ターゲット・アプリケーション・プログラムおよ
びアプリケーション状ターゲット・オペレーティング・
システム・プログラムによって与えられる命令を分解
し、ホスト・プロセッサおよびそのホスト・オペレーテ
ィング・システムが実行可能な命令にする。ホスト・オ
ペレーティング・システムは、RISCコンピュータのメモ
リおよび入出力ハードウエアへのアクセスが得られるイ
ンターフェースを提供する。しかしながら、ホストRICSコンピュータ内のホストRI
SCプロセッサおよびそれと連動するハードウエア・デバ
イスは、通常、ターゲット・アプリケーションの設計対
象としたプロセッサと連動するデバイスとは非常に異な
っている。更に、ターゲット・アプリケーション・プロ
グラムによって与えられる種々の命令は、ターゲット・
コンピュータの種々の部分にアクセスする際に、ターゲ
ット・オペレーティング・システムのデバイス・ドライ
バと協同するように設計されたものである。その結果、
ターゲット・アプリケーション・プログラムの命令を、
ホスト・オペレーティング・システムが利用可能な原始
ホスト命令に変換するエミュレーション・プログラム
は、何らかの方法で、ターゲット・コンピュータ内のハ
ードウエア・デバイスを動作させるように設計された動
作を、ホスト・システムのハードウエア・デバイスが実
現可能な動作にリンクしなければならない。多くの場
合、このために、エミュレータ・ソフトウエアは、ター
ゲット・アプリケーションの命令に応答する仮想デバイ
スを作成し、ホスト・システムが実行できない命令を実
行するようにしなければならない。何故なら、ターゲッ
ト・デバイスは、ホスト・コンピュータのものではない
からである。時として、エミュレータは、これら仮想デ
バイスからホスト・オペレーティング・システムを通じ
て、存在するがホスト・オペレーティング・システムに
よって異なる方法でアドレスされるホスト・ハードウエ
ア・デバイスに至るリンクを作成しなければならない場
合もある。このようにターゲット・プログラムを実行すると、多
くの理由のため、比較的遅く走ることになる。第１に、
ターゲット・アプリケーション・プログラムおよびター
ゲット・オペレーティング・システムからの各ターゲッ
ト命令は、エミュレータによって、ホスト・プロセッサ
が用いるホストの原始機能に変換しなければならない。
ターゲット・アプリケーションがX86のようなCISCマシ
ンに設計されたものである場合、ターゲット命令の長さ
は様々に変化し非常に複雑であるので、これらをホスト
の原始命令に変換することは多くの混乱を伴う。元のタ
ーゲット命令を最初にデコードし、当該ターゲット命令
を構成する原始ホスト命令のシーケンスを決定する。次
いで、原始ホスト命令の各シーケンスのアドレス（また
は複数のアドレス）を決定し、原始ホスト命令の各シー
ケンスを取り込み、これら原始ホスト命令を順番に、ま
たは順序を外して実行する。命令を実行する毎に、ター
ゲット・アプリケーションおよびオペレーティング・シ
ステム命令を、ホスト・プロセッサが理解するホスト命
令に変更するために、エミュレータに必要な膨大な追加
の工程を実施しなければならず、エミュレーションのプ
ロセスは遅くなる。第２に、多くのターゲット命令は、ホスト・コンピュ
ータでは使用できない、ターゲット・コンピュータのハ
ードウエアにおいて、特定の方法で機能する特定のハー
ドウエア・デバイスが行う動作への参照を含む。この動
作を実行するために、エミュレーション・ソフトウエア
は、既存のホスト・オペレーティング・システムを通じ
て、ホスト・コンピュータのハードウエア・デバイスに
ソフトウエアによる接続を行わなければならないか、あ
るいはエミュレーション・ソフトウエアが仮想ハードウ
エア・デバイスを備えなければならない。他のコンピュ
ータのハードウエアをソフトウエアでエミュレートする
ことは、非常に困難である。エミュレーション・ソフト
ウエアは、ホスト・オペレーティング・システムに対す
るターゲット・アプリケーション・コールの各々に対し
て、仮想デバイスを生成しなければならず、更にこれら
仮想デバイスの各々が実際のホスト・デバイスにコール
を与えなければならない。ハードウエア・デバイスをエ
ミュレートするには、ターゲット命令がデバイスを使用
しようとする場合に、当該命令が要求する仮想デバイス
を表すコードをメモリから取り込み、これを走らせて当
該デバイスを実現しなければならない。前述の問題を解
決するこれらの方法は、いずれも、命令のシーケンスの
実行に、更に一連の動作を追加することになる。エミュレーションの問題を複雑化するのは、ターゲッ
ト・アプリケーションが様々な例外を発生し、コンピュ
ータ・システムが動作するために、ターゲット・コンピ
ュータのハードウエアおよびターゲット・オペレーティ
ング・システムがこれを実行しなければならないためで
ある。ターゲット・コンピュータの動作中にターゲット
の例外が発生した場合、例外の時点におけるコンピュー
タの状態をセーブしなければならない。通常、これを行
うには、この動作を達成するためのマイクロコード・シ
ーケンスをコールする。更に、正しい例外ハンドラを検
索しなければならず、例外を処理しなければならず、更
にプログラムを継続するために、プログラム内の正しい
地点を発見しなければならない。時として、このため
に、例外が発生した時点、および例外ハンドラが与えた
分岐が行われた他の時点のターゲット・コンピュータの
状態にプログラムを逆戻りさせる必要性がある。いずれ
の場合でも、これらの動作を行うために必要なターゲッ
ト・コンピュータのハードウエアおよびソフトウエア
を、何らかの方法でエミュレーションのプロセス内に備
えなければならない。適正な実行のためには、このよう
な例外のいずれの時点においても、正しいターゲットの
状態が得られなければならないので、エミュレータは、
これらの例外に正しく応答できるように、常にこの状態
を精度高く追跡することを強いられる。従来技術では、
このために、ターゲット・アプリケーションが与える順
序で各命令を行う必要があった。何故なら、正しいター
ゲットの状態が維持できるのは、この方法を置いて他に
なかったからである。更に、従来技術のエミュレータは、その他の理由で
も、ターゲット・アプリケーションの実行順序を常に維
持する必要があった。ターゲット命令は２つの種別、即
ち、メモリに影響を与えるものおよびメモリ・マップ入
出力（I/O）デバイスに影響を与えるものとすることが
できる。ある動作がメモリに影響を与えるのか、または
メモリ・マップI/Oデバイスに影響を与えるのかについ
ては、命令を実行してみないことには、他に知る方法が
ない。命令がメモリ上で動作する場合、最適化および並
び替えが可能であり、システム動作の高速化に非常に役
立つ。しかしながら、I/Oデバイスに影響を与える動作
は、ステップを全く除去せずに、動作がプログラムされ
た順序で正確に実施しなければならない。さもないと、
I/Oデバイスの動作に何らかの悪影響を及ぼす可能性が
ある。例えば、特定のI/O動作には、I/Oレジスタをクリ
アする結果をもたらすものもあり得る。動作が順序通り
には行われず、未だ必要な値がレジスタからクリアされ
た場合、その動作の結果は、ターゲット命令が命令した
動作とは異なるものとなる可能性がある。メモリをメモ
リ・マップI/Oから区別する手段がないと、全ての命令
を、それらがメモリ・マップI/Oに影響を与えるかのよ
うに扱うことが必要となる。これは、達成可能な最適化
を厳しく制限する。従来技術のエミュレータは、アドレ
スされたメモリの特性（nature）を検出する手段、およ
びこのような障害から復元する手段の双方を欠いている
ので、各動作がメモリ・マップI/Oに影響を与えるかの
ように、ターゲット命令全体を通じて順次進んでいく必
要がある。これによって、ホスト命令を最適化する可能
性が著しく阻害される。従来技術のエミュレータのホスト・コードを最適化す
る能力を妨げる他の問題に、自己変更コード（self−mo
difying code）によって発生するものがある。ターゲッ
ト命令がホスト命令のシーケンスに変換され、次いで書
き戻されて、元のターゲット命令が変化した場合、ホス
ト命令はもはや有効ではない。その結果、エミュレータ
は、格納（store）がターゲット・コード・エリアに対
するものか否かについて判定を行うために、常にチェッ
クしていなければならない。これらの問題全てのため
に、この種のエミュレーションは、ターゲット・プロセ
ッサ上でターゲット・アプリケーションを走らせるより
も、大幅に遅くなる。図１（ｂ）に示す種類のエミュレーション・ソフトウ
エアの他の例が、"Talisman:Fast and Accurate Multic
omputer Simulation"（タリスマン：高速で高精度のマ
ルチコンピュータ・シミュレーション）（R.C.Bediche
k,Laboratory for Computer Sciences,Massachusetts I
nstitute of Technology（R.C.ベディチェック、コンピ
ュータ科学研究所、マサチューセッツ工科大学）と題す
る論文に記載されている。これは、更に複雑な変換の例
であり、これは完全な開発システムをエミュレートし、
開発用ターゲット・オペレーティング・システムを走ら
せることができる。タリスマンは、ホストUNIXオペレー
ティング・システムを用いている。図１（ｃ）に、他のエミュレーションの一例を示す。
この場合、元のMachintoshコンピュータに用いられてい
たMotorola68000ファミリCISCプロセッサ上で走るよう
に設計されたターゲット・アプリケーション・プログラ
ムを走らせる、Apple Machintoshコンピュータに用い
られているPowerPCマイクロプロセッサを示している。
この種の構成は、Appleの旧来のプログラムを、RISCプ
ロセッサを有するMachintoshコンピュータ上で走らせる
ために必要であった。図に見られるように、少なくとも
部分的にターゲット・オペレーティング・システムを用
いて、ホスト・プロセッサ上でターゲット・アプリケー
ションを走らせ、ターゲット・オペレーティング・シス
テムのアプリケーション状部分に応答する。ソフトウエ
ア・エミュレータには、ターゲット・アプリケーション
・プログラムやアプリケーション状ターゲット・オペレ
ーティング・システム・プログラムが与える命令を、ホ
スト・プロセッサやそのホスト・オペレーティング・シ
ステムが実行可能な命令に分解するものがある。ホスト
・オペレーティング・システムは、インターフェースを
与え、これを通じてホスト・コンピュータのメモリおよ
び入出力ハードウエアへのアクセスが得られるようにし
ている。この場合も、ホストRICSコンピュータにおけるホスト
RISCプロセッサおよびそれと連動するデバイスは、Moto
rolaのCISCプロセッサと連動するデバイスとは全く異な
り、種々のターゲット命令は、ターゲット・コンピュー
タの種々の部分にアクセスする際に、ターゲットCISCオ
ペレーティング・システムと協同するように設計されて
いる。その結果、エミュレーション・プログラムは、タ
ーゲット・コンピュータにおけるハードウエア・デバイ
スを動作させるように設計された動作を、ホスト・シス
テムのハードウエア・デバイスが実現可能な動作にリン
クしなければならない。このために、エミュレータは、
ターゲット・アプリケーションの命令に応答するソフト
ウエアの仮想デバイスを作成し、これらの仮想デバイス
から、ホスト・オペレーティング・システムを通じて、
存在するがホスト・オペレーティング・システムによっ
て異なる方法でアドレスされるホスト・ハードウエア・
デバイスへのリンクを作成する必要がある。このようにして走らせるターゲット・ソフトウエア
は、図１（ｂ）のエミュレーションが走るのが遅いのと
同じ理由で、比較的走るのが遅い。第１に、ターゲット
・アプリケーションおよびターゲット・オペレーティン
グ・システムからの各ターゲット命令は、当該命令を取
り込むことによって変換しなければならず、更に、命令
を実行する毎に、当該命令から派生するホスト原始機能
の全てを順次走らせなければならない。第２に、エミュ
レーション・ソフトウエアは、ホスト・オペレーティン
グ・システムへのターゲット・アプリケーションのコー
ル毎に、仮想デバイスを生成しなければならない。更
に、これら仮想デバイスの各々は、実際のホスト・デバ
イスへのコールを与えなければならない。第３に、エミ
ュレータは、メモリ・マップI/Oデバイスに向けられた
命令、またはそれが復元することができない例外を生成
する危険を処理するために、全ての命令を保存的に処理
しなければならない。最後に、エミュレータは、常に正
しいターゲット状態を維持し、格納動作は、予め当該格
納がターゲット・コード・エリアに対するものか否かに
ついて判定するために、常にチェックしなければならな
い。これらの要件全ては、エミュレータのホスト・プロ
セッサ上で走るコードの重要な最適化を行う能力を奪い
取り、ターゲット・プロセッサ上でターゲット・アプリ
ケーションを走らせるよりも、この種のエミュレータの
速度を大幅に低下させる。技術的現状のプロセッサの1/
4未満のエミュレーション・レートは非常に良好と考え
られる。概して、このために、この種のエミュレーショ
ン・ソフトウエアが、他のプロセッサに設計されたアプ
リケーションを走らせる機能は有用ではあるが主要では
ない使用に追いやられている。図１（ｄ）では、ホスト・プロセッサ上でターゲット
・アプリケーション・プログラムをエミュレーション
し、非常に限られた一連のターゲット・アプリケーショ
ンに対して比較的良好な処理能力（performance）を与
える、特定の方法を示す、ターゲット・アプリケーショ
ンは、命令をエミュレータに与え、エミュレータはこれ
らの命令を、ホスト・プロセッサおよびホスト・オペレ
ーティング・システムに対する命令に変更する。ホスト
・プロセッサは、Digital Equipment Corporation
（ディジタルエクイップメント社）のAlpha RISCプ
ロセッサであり、ホスト・オペレーティング・システム
は、Microsoft NTである。このシステムによって走ら
せることができるターゲット・アプリケーションは、Wi
ndows WIN32s（商標）に準拠するオペレーティング・
システムを有するターゲットX86プロセッサによって実
行されるように設計された32ビット・アプリケーション
のみである。ホストおよびターゲット・オペレーティン
グ・システムは殆ど同一であり、これら同じ命令を処理
するように設計されているので、エミュレータ・ソフト
ウエアは命令を非常に簡単に変換することができる。更
に、ホスト・オペレーティング・システムは、既に、タ
ーゲット・アプリケーションが発生する同じコールに応
答するように設計されているので、仮想デバイスの生成
は大幅に減少する。これは技術的にホスト・プロセッサ上でターゲット・
アプリケーションを走らせるエミュレーション・システ
ムであるが、非常に特殊な場合である。ここでは、エミ
ュレーション・ソフトウエアは、同様のアプリケーショ
ンを走らせるように既に設計されているホスト・オペレ
ーティング・システム上で走っている。このため、ター
ゲット・アプリケーションからのコールを、ホストおよ
びホスト・オペレーティング・システムの補正機構に向
けるのが一層容易となる。更に重要なのは、このシステ
ムは、恐らく全てのX86アプリケーションの１パーセン
トにも満たない量の32ビットのWindowsアプリケーショ
ンのみを走らせることである。更にまた、このシステム
は、１つのオペレーティング・システム、即ち、Window
sNT上でのみアプリケーションを走らせるが、一方X86プ
ロセッサは、多数のオペレーティング・システムに設計
されたアプリケーションを走らせる。したがって、この
ようなシステムは、この明細書で当初示した意味の範囲
内では、互換性があると見なすことはできない。したが
って、このようなエミュレータを走らせるプロセッサ
は、競合のX86プロセッサと見なすことはできない。異なる命令セットを認識するコンピュータ上で、ソフ
トウエアを用いて第１命令セットに対して書かれたアプ
リケーションの部分を走らせることを可能にする他のエ
ミュレーション方法を、図１（ｅ）に示す。この形態の
エミュレーション・ソフトウエアは、通常、あるコンピ
ュータ・システムから他のシステムにアプリケーション
を移植（port）しようとしているプログラマによって利
用される。通常、ターゲット・アプリケーションは、エ
ミュレータを走らせるホスト・マシン以外のいずれかの
ターゲット・コンピュータ用に設計されている。エミュ
レータ・ソフトウエアは、ターゲット命令を分析し、こ
れらの命令を、ホスト・マシン上で走らせることができ
る命令に変換し、これらのホスト命令をキャッシュし、
それらを再利用可能とする。この動的な変換およびキャ
ッシングによって、アプリケーションの部分を非常に高
速に走らせることが可能となる。この形態のエミュレー
タは、通常ソフトウエア・トレース・ツールと共に用い
られ、実行中のターゲット・プログラムの挙動に関する
詳細な情報を提供する。一方、トレース・ツールの出力
はトレース情報を分析するアナライザ・プログラムを駆
動するために用いることができる。実際にコードがどのように機能するのかについて判定
するために、とりわけ、この種のエミュレータは、ホス
ト・マシン上でホスト・オペレーティング・システムに
よって走らせ、ホスト・オペレーティング・システムが
備えていない仮想ハードウエアを与え、そうでなけれ
ば、アプリケーションの設計対象であるコンピュータの
動作を、ホスト・マシンのハードウエア資源にマップ
し、走らせているプログラムの動作を実行する。このソ
フトウエアによるハードウエアの仮想化およびホスト・
コンピュータへのマッピングは、非常に遅く、しかも不
完全な可能性がある。更に、ターゲット命令の１つを実行するために複数の
ホスト命令を必要とする場合が多いので、ターゲット・
オペレーション・システムの例外ハンドラを必要とする
フォールトやトラップを含む例外が発生する可能性があ
り、ターゲット命令の境界とは無関係な地点で、ホスト
にホスト命令の処理を中止させる場合がある。これが発
生した場合、例外を正しく処理することは不可能となる
場合がある。何故なら、ホスト・プロセッサおよびメモ
リの状態は正しくないからである。このような場合、エ
ミュレータを停止し、再度走らせて、例外を発生した動
作を追跡しなければならない。したがって、このような
エミュレータはターゲット・コードのシーケンスを非常
に迅速に走らせることはできるが、これらの例外から復
元する方法がなく、したがってアプリケーションの重要
な部分を迅速に走らせることは全くできない。これは、この形態のエミュレータに伴う特異の問題で
はない。何故なら、エミュレータ、トレーサおよび連動
するアナライザが実行する機能は、新たなプログラムを
発生するか、あるいは古いプログラムを別のマシンに移
植して、エミュレータ・ソフトウエアが走る速度が殆ど
問題にならないようにすることを目的とするからであ
る。即ち、プログラマは、エミュレータが生成したコー
ドがホスト・マシン上でどれ位速く走るかに常に関心が
ある訳ではなく、エミュレータが生成するコードが、そ
のために設計した機械上で実行可能か、そして当該マシ
ン上で迅速に走るか否かに関心があるのである。結果的
に、この種のエミュレーション・ソフトウエアは、プロ
グラミング以外の目的で異なる種類のマイクロプロセッ
サ上で走らせるために第１命令セットで書かれたアプリ
ケーション・プログラムを走らせる方法を提供するもの
ではない。この種のエミュレーション・ソフトウエアの
一例が、"Shade:A First Instruction−Set Simulator
for Execution Profiling"（シェード：実行の特性を知
るために高速命令セット・シミュレータ）と題するCmel
ik（スメリック）およびKeppel（ケッペル）の論文に記
載されている。技術的現状のマイクロプロセッサよりも高速でかつ安
価でありながら、しかも技術的現状のマイクロプロセッ
サに設計されたターゲット・アプリケーション・プログ
ラムと完全に互換性があり、これらのマイクロプロセッ
サに入手可能なあらゆるオペレーティング・システムを
走らせることができる、競争力のあるマイクロプロセッ
サを提供することが望ましい。更に特定すれば、例外からの迅速な回復を可能にする
ことにより、プロセッサが機能する速度を高めるよう
に、ホスト・プロセッサのメモリ格納を処理する回路を
提供することが望ましい。発明の概要したがって、本発明の目的は、プログラムの実行の間
に発生するメモリ格納を高速化する装置によって、マイ
クロプロセッサの動作を改善することである。本発明のこの目的およびその他の目的は、一連のター
ゲット命令をホスト命令に変換するホスト・プロセッサ
が変換間隔の間に順次発生した全てのメモリ格納を、他
のメモリ格納から分離して、一時的に保持するバッファ
と、変換が例外を発生することなく実行された場合、変
換間隔の間に順次発生したメモリ格納をメモリに転送す
る回路と、メモリ・アドレスにおけるメモリ・アクセス
に応答して、同一のメモリ・アドレスに対してどのメモ
リ格納が最新であるかを示す回路と、変換が例外を発生
することなく実行された場合、変換間隔の間に順次発生
したメモリ格納を消去する回路とを含む装置および方法
によって実現される。本発明のこれらおよびその他の目的は、以下の詳細な
説明を図面と共に参照することによって、より良く理解
されよう。尚、図面においては、同様のエレメントには
種々の図にわたって同様の符号によって引用することと
する。図面の簡単な説明図１（ａ）ないし図１（ｅ）は、従来技術にしたがっ
て設計されたマイクロプロセッサの動作態様を示す図で
ある。図２は、異なるマイクロプロセッサに設計されたアプ
リケーションを走らせる、マイクロプロセッサのブロッ
ク図である。図３は、図２に示すマイクロプロセッサの一部を示す
図である。図４は、図３に示すようなマイクロプロセッサにおい
て用いられるレジスタ・ファイルを示すブロック図であ
る。図５は、本発明にしたがって設計したゲート格納バッ
ファを示すブロック図である。図６（ａ）ないし図６（ｃ）は、従来技術の種々のマ
イクロプロセッサおよび図３に示すようなマイクロプロ
セッサにおいて用いられる命令を示す。図７は、図３に示すようなマイクロプロセッサのソフ
トウエア部分によって実施される方法を示す。図８は、図３に示すようなマイクロプロセッサのソフ
トウエア部分によって実施される別の方法を示す。図９は、図３に示すような改良されたコンピュータ・
システムを示すブロック図である。図10は、図３に示すマイクロプロセッサの一部を示す
ブロック図である。図11は、図３のマイクロプロセッサ内に示す、変換ル
ック・アサイド・バッファを詳細に示すブロック図であ
る。図12は、図３に示すようなプロセッサにおいて用いら
れるメモリを詳細に示すブロック図である。図13は、本発明によるゲート格納バッファの第１の論
理的実施形態を示すブロック図である。図14は、本発明によるゲート格納バッファの第２の実
施形態を示すブロック図である。表記および名称以下の詳細な説明では、コンピュータ・メモリ内のデ
ータ・ビットに対する動作を象徴的な表現で提示する部
分がある。これらの記載および表現は、データ処理技術
における当業者によって用いられ、他の当業者にそれら
の動作の本質を最も効果的に伝える手段である。動作
は、物理的な量の物理的な操作を必要とするものであ
る。通常、これらの量は、格納、転送、結合、比較、お
よびそれ以外の操作が可能な電気的または磁気的信号の
形態を取るが、必ずしもそうとは限らない。主に共通の
使用という理由のために、これらの信号を、ビット、
値、エレメント、シンボル、文字、言葉、数値等として
言及すると便利であることが時として認められている。
しかしながら、これらおよび同様の用語は全て、適切な
物理量に関連付けられており、これらの量に適用された
単に便宜上の名称に過ぎないことは、念頭に置いておく
べきであろう。更に、実行される操作は、多くの場合、加算または比
較というような用語で言及するが、これらは、人のオペ
レータが実行する精神的な動作と一般的に関連がある。
人のオペレータのこのような能力は、殆どの場合、本発
明の一部を形成する、ここに記載する動作のいずれにも
必要でも望ましくもない。動作とは、機械的動作であ
る。本発明の動作を実行するために有用なマシンは、汎
用ディジタルコンピュータ、またはその他の同様のデバ
イスを含む。全ての場合において、コンピュータを動作
させる方法動作と、計算自体の方法との間の区別を、念
頭に置いておくべきである。本発明は、電気的またはそ
の他の（例えば、機械的、化学的）物理的信号を処理
し、その他の所望の物理信号を発生するように、コンピ
ュータを動作させる方法および装置に関するものであ
る。以下の説明の間、場合によっては、詳細な動作例を与
えるために、ターゲット・プログラムとは、X86マイク
ロプロセッサ上で実行するように設計されたプログラム
を意味するものとする。何故なら、殆どのエミュレータ
はX86アプリケーションを走らせるからである。しかし
ながら、ターゲット・プログラムは、いずれのターゲッ
ト・コンピュータ・ファミリ上で走るように設計された
ものでもよい。これは、Pcode（商標）マシン、Postscr
ipt（商標）マシン、またはJava（商標）マシンのよう
な、ターゲット仮想コンピュータを含む。詳細な説明本発明は、従来技術の問題を克服する際に役立つもの
であり、従来技術のマイクロプロセッサよりも高速に、
従来技術の多数のファミリのマイクロプロセッサによっ
て走らせることができるオペレーティングシステムの全
てに対してソフトウエアの全てを走らせることができ、
しかも従来技術のマイクロプロセッサよりも安価なマイ
クロプロセッサを提供する。更に複雑化したハードウエアによってその動作を加速
させるマイクロプロセッサを用いる代わりに、プロセッ
サは、技術的現状のマイクロプロセッサよりも格段に単
純な改良ハードウエア処理部（この明細書では「モーフ
・ホスト」と呼ぶ）と、エミュレート・ソフトウエア部
（この明細書では、「コード・モーフィング・ソフトウ
エア」と呼ぶ）とを含む組み合わせの一部とし、これら
２つの部分が一体となってマイクロプロセッサとして機
能し、公知のいずれの競合マイクロプロセッサよりも高
い性能を有するようにしたものである。更に具体的に
は、モーフ・ホストとは、例外またはエラーが発生した
場合、その後直ちにターゲット・コンピュータの状態を
得る際に補佐するハードウエア機能強化を含むプロセッ
サであり、一方コード・モーフィング・ソフトウエアと
は、ターゲット・プログラムの命令を、モーフ・ホスト
のためのモーフ・ホスト命令に変換し、例外およびエラ
ーに応答して、必要に応じてワーキング状態を正しいタ
ーゲット状態と置換することにより、正しい再変換が行
われるようにするソフトウエアである。また、コード・
モーフィング・ソフトウエアは、処理速度を高めるため
の種々のプロセスを含むことも可能である。従来技術の
超高速マイクロプロセッサは、その全てがハードウエア
を備えて処理速度を高めるが、その代わりに、本改良プ
ロセッサは、コード・モーフィング・ソフトウエアによ
って、多数の加速補佐技術を選択可能な段階において実
行可能とする。コード・モーフィング・ソフトウエアに
速度補強技術を備えることにより、複雑度が格段に低い
ハードウエアを用いて、モーフ・ホストを実現すること
が可能となる。これは、従来技術のマイクロプロセッサ
のハードウエアよりも高速であると共に大幅に安価であ
る。比較として、入手可能なX86アプリケーション全て
を走らせるように設計したマイクロプロセッサを含む一
実施形態は、Pentium Proマイクロプロセッサのゲート
数の約1/4を含むモーフ・ホストによって実現され、し
かもPentium Proマイクロプロセッサ、またはX86アプ
リケーションを処理可能な他の公知のマイクロプロセッ
サのいずれよりも、これらのアプリケーションを大幅に
速く走らせる。コード・モーフィング・ソフトウエアは、新たなソフ
トウエアを設計したり、あるいは新たなハードウエアを
エミュレートするプログラマによってのみ以前から用い
られていた、ある種の技術を利用する。モーフ・ホスト
は、特に、コード・モーフィング・ソフトウエアが提供
する加速技術を効率的に利用可能とするように構成され
た、複数のハードウエア機能強化を含む。これらのハー
ドウエア機能強化は、モード・モーフィング・ソフトウ
エアが、より広い範囲の命令に対して、加速技術を実現
可能とするものである。また、これらのハードウエア機
能強化は、ハードウエア・プロセッサでは得ることがで
きず、法外なコストをかけたプロセッサでなければ実現
できないような、追加の加速技術を、コード・モーフィ
ング・ソフトウエアによって実施可能とする。これらの
技術は、ネーティブの命令セットの実行を行う従来技術
のマイクロプロセッサの速度と比較して、マイクロプロ
セッサの速度を格段に高めるものである。例えば、改良モーフ・ホストと組み合わせたコード・
モーフィング・ソフトウエアは、大量の回路を追加する
必要なく、ターゲット命令のシーケンスによって発生し
た原始命令の並び替えや再スケジューリングを可能にす
る技術の使用を可能にできる。多数のターゲット命令全
体の並び替えおよび再スケジューリングを可能にするこ
とによって、他の最適化技術を用いて、ターゲット命令
群を実行するのに必要なプロセッサ・ステップ数を、タ
ーゲット・アプリケーションを走らせる他のいずれのマ
イクロプロセッサが必要とするよりも削減することがで
きる。改良モーフ・ホストと組み合わせたコード・モーフィ
ング・ソフトウエアは、ターゲット命令を、実行中に、
モーフ・ホストの命令に変換し、これらのホスト命令を
メモリ・データ構造（この明細書では、「変換バッフ
ァ」と呼ぶ）にキャッシュする。変換バッファを用いて
変換した命令を保持することにより、どの原始命令が各
ターゲット命令を実現するために必要かを判定し、各原
始命令をアドレスし、各原始命令を取り込み、原始命令
のシーケンスを最適化し、各原始命令にアセットを割り
当て、原始命令を並び替え、そして各ターゲット命令を
実行する毎に、必要な原始命令の各シーケンスの各ステ
ップを実行するという長大なプロセスを再度走らせるこ
となく、命令を呼び出すことが可能となる。一旦ターゲ
ット命令を変換したなら、これら無数のステップを全く
必要とすることなく、変換バッファからこれを呼び出
し、実行することができる。従来技術のエミュレーション技術の第１の問題は、こ
れらの技術が、ターゲット・プログラムの実行中に発生
する例外を、良好なパーフォーマンスで処理することで
きない点にある。これは、特に、ターゲット・オペレー
ティング・システムを対象とするターゲット・アプリケ
ーションを走らせている際に発生する例外のときに該当
する。この場合、例外およびそれに続く命令の適正な実
行のためには、正しいターゲット状態が、このような例
外のいずれの時点でも得ることができなければならな
い。その結果、エミュレータは常にターゲット状態を高
精度に追跡することを強いられ、格納がターゲット・コ
ード・エリアに対するものか否かについて判定するため
に、常にチェックしていなければならない。他の例外も
同様の問題を引き起こす。例えば、エミュレータが、あ
る特定のホスト機能によって置換された特定のターゲッ
ト動作を検出する場合に、例外が発生することがある。
即ち、ターゲット・プロセッサの種々のハードウエア動
作は、エミュレータ・ソフトウエアが提供するソフトウ
エア動作で置換することができる。加えて、ターゲット
命令から派生したホスト命令を実行するホスト・プロセ
ッサも、例外を発生する可能性がある。これらの例外は
全て、エミュレータがターゲット命令をホスト命令に変
換しようとしている間、またはホスト変換がホスト・プ
ロセッサ上で実行されるときのいずれかに発生する可能
性がある。効率的なエミュレーションのためには、例外
を正しく処理しつつ、これらの例外から効率的に復元す
る何らかの方法を備える必要がある。エミュレートされ
得る全てのソフトウエアに対してこれを行うものは、従
来技術にはない。これら従来技術の限界を克服するために、改良モーフ
・ホストには、多数のハードウエアの改善が含まれてい
る。これらの改善には、ゲート格納バッファ（gated st
ore buffer）および複数の大量の追加プロセッサ・レジ
スタが含まれる。追加レジスタのいくつかによって、レ
ジスタの名称変更を用い、同じハードウエア資源を必要
とする命令の問題を軽減することができる。また、追加
レジスタによって、ホスト命令を処理する１組のホスト
・レジスタまたはワーキング・レジスタ、および１組の
ターゲット・レジスタを維持し、ターゲット・アプリケ
ーションを作成したターゲット・プロセッサのオフィシ
ャル状態（official state）を保持することができる。
ターゲット（またはシャドウ）レジスタは、専用のイン
ターフェースを介して、それらのワーキング・レジスタ
の同等物に接続されている。専用インターフェースは、
「コミット」（commit）と呼ばれる動作によって、全て
のワーキング・レジスタの内容を素早くオフィシャル・
ターゲット・レジスタに転送させ、かつ「ロールバッ
ク」（rollback）と呼ばれる動作によって、全てのオフ
ィシャル・ターゲット・レジスタの内容をそれらのワー
キング・レジスタ同等物に素早く逆転送させることを可
能にする。ゲート格納バッファは、ハードウエア「ゲー
ト」の「アンコミット」側（uncommit side）のワーキ
ング・メモリの状態変化を格納し、更にハードウエア・
ゲートの「コミット」側のオフィシャル・メモリの状態
変化を格納する。この場合、コミットされた格納は、主
メモリに「流出」する。コミット動作は、ゲートのアン
コミット側からゲートのコミット側に格納を転送する。
一旦１つまたは１群のターゲット命令を変換し、エラー
なく走らせたなら、追加のオフィシャル・レジスタおよ
びゲート格納バッファによって、メモリ状態およびター
ゲット・レジスタ状態を一緒に更新することが可能とな
る。これらの更新は、コード・モーフィング・ソフトウエ
アによって、整数ターゲット命令境界（integral targe
t instruction boundary）上で生じるように選択され
る。したがって、一連のターゲット命令の変換を構成す
る原始ホスト命令が、例外を発生せずに、ホスト・プロ
セッサによって走らされた場合、これらの命令によって
発生したワーキング・メモリの格納およびワーキング・
レジスタ状態は、オフィシャル・メモリに、次いでオフ
ィシャル・ターゲット・レジスタに転送される。このよ
うに、変換される１つまたは１組のターゲット命令の境
界上にない点において、ホスト命令を処理している際に
例外が発生した場合、最後の更新（またはコミット）に
おけるターゲット・レジスタ内の元の状態は、ワーキン
グ・レジスタに呼び出すことができ、ゲート格納バッフ
ァ内のアンコミット・メモリ格納を消去する（dump）こ
とができる。次に、発生した例外がターゲット例外であ
る場合、このターゲット例外を生じたターゲット命令を
１回に１つずつ再変換し、それらがターゲット・マイク
ロプロセッサによって実行されるように、一連のシーケ
ンスで実行することができる。各ターゲット命令はエラ
ーなく正しく実行されるので、ターゲット・レジスタの
状態を更新でき、格納バッファ内のデータをメモリに通
過させる（gate）ことができる。次に、ホスト命令を走
らせている際に例外が再び発生した場合、ターゲット・
コンピュータの正しい状態は、モーフ・ホストのターゲ
ット・レジスタおよびメモリ内に保持され、動作を遅延
なく正しく処理することができる。この正しい変換によ
って得られる新たな変換の各々は、今後のためにキャッ
シュしておき、それを変換する際、または一旦それを消
去する際、あるいはページ・フォールトのような稀な出
来事の際に使用することができる。これによって、モー
ド・モーフィング・ソフトウエアとモーフ・ホストとの
組み合わせによって作成したマイクロプロセッサが、元
来ソフトウエアを書いた対象であるプロセッサよりも速
く、命令を実行することが可能になる。尚、本発明を含むマイクロプロセッサを用いてターゲ
ット・プログラムを実行する場合、多くの異なる種類の
例外が発生する可能性があり、これらは異なる方法で処
理することを注記しておく。例えば、例外には、例外を
発生するターゲット・ソフトウエアが原因のものもあ
り、これにはターゲット・オペレーティング・システム
の例外ハンドラを利用する。このような例外ハンドラの
使用では、プロセスの処理のために、コード・モーフィ
ング・ソフトウエアは、ターゲット・コンピュータが備
えるあらゆるハードウエアを含む、例外処理プロセス全
体をエミュレートするルーチンを含むことが必要であ
る。このためには、コード・モーフィング・ソフトウエ
アが、ターゲット・プロセッサの状態をセーブする機能
を備え、例外を処理し終わった後に、正しく移行できる
ようにする必要がある。ページ・フォールトのように、
変換されるプロセスを実施する前に、メモリの新たなペ
ージにデータを取り込む必要がある例外では、例外を処
理し終えた後に、変換対象のプロセスの先頭に戻る必要
がある。他の例外は、動作がハードウエアによって与え
られない場合、ソフトウエアで特定の動作を実現する。
これらは、例外ハンドラが、例外を処理し終えた後に、
変換における次のステップに動作を戻すことを必要とす
る。これら異なる種類の例外は各々、本発明を含むマイ
クロプロセッサによって効率的に処理することができ
る。加えて、例外には、ホスト・ハードウエアが発生し、
種々のホストおよびターゲット状態を検出するものがあ
る。また、例外には、従来のマイクロプロセッサ上の例
外のように振る舞うものもあるが、その他のものは、コ
ード・モーフィング・ソフトウエアによって、種々の思
索（speculation）の失敗を検出するために用いられ
る。これらの場合、コード・モーフィング・ソフトウエ
アは、前述の状態セーブおよび復元機構を用いて、ター
ゲット状態をその最近のオフィシャル・バージョンに復
元させ、失敗した思索を回避する新たな変換を発生しセ
ーブする（あるいは、以前に行った安全な変換を用い
る）。次に、この変換を実行する。モーフ・ホストは、追加のハードウエア例外検出機構
を含み、前述のロールバックおよび再変換方法と共に、
一層の最適化を可能にする。例として、メモリをメモリ
・マップI/Oから区別する手段、およびアドレスまたは
アドレス範囲を保護することによってメモリの参照を不
要とし、ターゲット変数をレジスタに保持可能とする手
段を挙げる。動作がメモリまたはメモリ・マップI/Oに影響を与え
るか否かというように、例外を用いて他の思索の失敗を
検出する場合、新たな変換の生成によって復元が達成さ
れるが、メモリ動作は異なり、最適化も異なる。図２は、図１（ａ）のCISCプロセッサ上で走っている
のと同じアプリケーション・プログラムを走らせるモー
フ・ホスト・ハードウエアを示す図である。図に見られ
るように、マイクロプロセッサは、前述のコード・モー
フィング・ソフトウエア部と、改良ハードウエア・モー
フ・ホスト部とを含む。ターゲット・アプリケーション
は、ターゲット命令をコード・モーフィング・ソフトウ
エアに与え、モーフ・ホストが実行可能なホスト命令に
変換させる。その間、ターゲット・オペレーティング・
システムは、ターゲット・アプリケーション・プログラ
ムからのコールを受け取り、これらをコード・モーフィ
ング・ソフトウエアに転送する。マイクロプロセッサの
好適な実施形態では、モーフ・ホストは、超長命令ワー
ド（VLIW:very long instruction word）マイクロプロ
セッサであり、複数の処理チャネルによって設計されて
いる。このようなプロセッサの全体的な動作について
は、図６（ｃ）に更に示されている。図６（ａ）ないし図６（ｃ）は、CISCプロセッサ、RI
SCプロセッサ、およびVLIWプロセッサの各々と使用する
ように構成された命令を示す。図に見られるように、CI
SC命令は可変長であり、より多くの原始動作（例えば、
ロードおよび加算）を複数個含むことができる。一方、
RISC命令は、長さが等しく、本質的に原始動作である。
図示のVLIWプロセッサに対する単一の超長命令は、CISC
およびRISC命令のより多くの原始動作（即ち、ロード、
格納、整数加算、比較、浮動小数点乗算、分岐）の各々
を含む。図６（ｃ）に見られるように、一体となって単
一の超長命令ワードを構成する原始命令の各々は、他の
原始命令と並列に、VLIWプロセッサの複数の別個の処理
チャネルの１つ、またはメモリのいずれかに与えられ、
処理チャネルおよびメモリによって並列に扱われる。こ
れら並列動作の全ての結果は、マルチポート・レジスタ
・ファイルに転送される。モーフ・ホストの基本であるVLIWプロセッサは、前述
の他のプロセッサよりもはるかに単純なプロセッサであ
る。これは、発行依存性（issue dependency）を検出す
る回路も、原始命令を並び替え、最適化し、再スケジュ
ーリングする回路も含まない。このために、元来ターゲ
ット・アプリケーション・プログラムを設計した対象の
プロセッサや、エミュレーション・プログラムを用いて
ターゲット・アプリケーション・プログラムを走らせる
その他のプロセッサのいずれかが可能なクロック・レー
トよりも高いクロック・レートで速い処理が可能とな
る。しかしながら、プロセッサは、VLIWプロセッサに限
定される訳ではなく、RISCプロセッサのようなあらゆる
種類のプロセッサとでも同様に機能することができる。図２に示すマイクロプロセッサのコード・モーフィン
グ・ソフトウエアは、変換部を含む。これは、ターゲッ
ト・アプリケーションの命令をデコードし、これらのタ
ーゲット命令を、モーフ・ホストによる実行が可能な原
始ホスト命令に変換し、ターゲット命令が要求する動作
を最適化し、原始命令を並び替えスケジューリングして
モーフ・ホストのVLIW命令（変換）とし、このホストVL
IW命令を実行する。変換部の動作を図７に示す。図７
は、コード・モーフィング・ソフトウエアの主ループの
動作を示す。コード・モーフィング・ソフトウエアおよび改良モー
フ・ホスト・ハードウエアを含むマイクロプロセッサの
動作を加速するために、コード・モーフィング・ソフト
ウエアは、図２に示すような変換バッファを含む。一実
施形態の変換バッファは、メモリに格納可能なソフトウ
エア・データ構造である。特定の実施形態では、ハード
ウエアのキャッシュも利用できる場合がある。変換バッ
ファは、ターゲット命令の完了した変換各々を実体化す
るホスト命令を格納するために用いられる。図に見られ
るように、一旦個々のターゲット命令を変換し、得られ
たホスト命令の最適化、並び替え、および再スケジュー
リングを行ったなら、得られたホスト変換を変換バッフ
ァに格納する。次に、変換を構成するホスト命令を、モ
ーフ・ホストによって実行する。ホスト命令を実行し例
外が発生しない場合、その後ターゲット命令または命令
群が必要とする動作が要求されるときにはいつでも、変
換を呼び出すことができる。したがって、図７に示すように、アプリケーション・
プログラムによってターゲット命令のアドレスが与えら
れたときの、マイクロプロセッサのコード・モーフィン
グ・ソフトウエアの典型的な動作は、最初に、当該ター
ゲット・アドレスにおけるターゲット命令が変換されて
いるか否かについて判定することである。ターゲット命
令が変換されていない場合、変換部によって、それおよ
び後続のターゲット命令を取り込み、デコードし、変換
し、次いで（恐らく）最適化し、並び替え、新たなホス
ト変換に再スケジューリングし、変換バッファに格納す
る。後でわかるであろうが、可能な最適化には様々な度
合いがある。この明細書では、「最適化」という用語
は、処理を加速するための技術のことを総称的に呼ぶた
めに用いることが多い。例えば、並び替えは、処理の高
速化を可能とする最適化の一形態であり、この用語に含
まれるものである。可能な最適化の多くは、コンパイラ
の最適化の従来技術において説明されており、「スーパ
ー・ブロック」（super−block）のように、従来技術の
範囲内では実行が困難であったいくつかの最適化が、VL
IWの研究から明らかとなった。次に、制御を変換に移転
し、改良モーフ・ホスト・ハードウエアによって実行
し、再開する。アプリケーションを走らせている際に、特定のターゲ
ット命令シーケンスが次に発見された場合、変換バッフ
ァ内にホスト変換が存在し、変換、最適化、並び替えま
たは再スケジュールの必要性なく、直ちに実行する。以
下で述べる先進の技術を用いることによって、ターゲッ
ト命令（一旦完全に変換された）に対する変換は、ほぼ
100万回の変換の実行毎に１回変換バッファ中に発見さ
れることが推測されている。その結果、最初の変換後に
は、デコード、原始命令の取り込み、原始命令の最適
化、ホスト変換への再スケジューリング、および変換バ
ッファへの格納というような変換に必要なステップの全
ては、必要な処理から除外することができる。ターゲッ
ト命令を書いた対象のプロセッサは、命令を実行する毎
に、各命令のデコード、取り込み、並べ替え、および再
スケジューリングを行わなければならないので、これ
は、ターゲット命令を実行するために必要な作業を激減
させ、改良マイクロプロセッサの速度を高めることにな
る。従来技術のプロセッサによるターゲット・アプリケー
ションの実行に必要なこれらのステップ全てを除去する
ため、本発明を含むマイクロプロセッサは、従来技術に
おいて、このような動作をいずれの正当な速度でも不可
能とする問題を克服する。例えば、改良マイクロプロセ
ッサの技術のいくつかは、アプリケーションを他のシス
テムに移植するために用いられる、前述のエミュレータ
において用いられていた。しかしながら、これらのエミ
ュレータのいくつかは、アプリケーションの短い部分以
外を走らせる方法がなかった。何故なら、変換された命
令を処理する際、種々のシステム例外ハンドラへのコー
ルを発生する例外は、ホスト・プロセッサの状態が同じ
命令を処理しているターゲット・プロセッサの状態には
関係がない動作時点で発生するからである。このため、
このような例外が発生する時点におけるターゲット・プ
ロセッサの状態はわからなかった。したがって、ターゲ
ット・マシンの正しい状態を判定することができず、動
作を停止し、再起動し、正しい状態を把握してからでな
いと、例外に対処し（service）、実行を継続すること
ができなかった。このため、アプリケーション・プログ
ラムをホストの速度で走らせることが不可能であった。モーフ・ホスト・ハードウエアは、この問題を克服す
る多数の機能強化を含む。これらの機能強化を、各々図
３、図４および図５に示す。エラーが発生した時点にお
けるレジスタの正しい状態を判定するために、１組のオ
フィシャル・ターゲット・レジスタが改良ハードウエア
によって与えられ、元のアプリケーションを設計した対
象のターゲット・プロセッサのレジスタの状態を保持す
る。これらのターゲット・レジスタは、浮動小数点ユニ
ット、あらゆる整数ユニットおよびその他のあらゆる実
行ユニットの各々に含ませることができる。これらのオ
フィシャル・レジスタをモーフ・ホストに追加しつつ、
通常のワーキング・レジスタ数も増加させることによっ
て、レジスタの名称変更を含む多数の最適化を実施可能
とする。改良ハードウエアの一実施形態は、64個のワー
キング・レジスタを整数ユニット内に、32個のワーキン
グ・レジスタを浮動小数点ユニット内に含む。また、こ
の実施形態は、補強した１組のターゲット・レジスタも
含む。その中には、ターゲット・プロセッサの状態を与
えるために必要な、当該プロセッサの頻繁に変化するレ
ジスタ全てが含まれる。これらには、条件制御レジスタ
や、シミュレーション対象システムの制御に必要な他の
レジスタが含まれる。尚、モーフ・ホストが利用する改良処理ハードウエア
の種類によっては、変換された命令シーケンスが、元の
アプリケーションからの複数のターゲット命令を構成す
る原始動作を含む場合があることを注記しておく。例え
ば、VLIWマイクロプロセッサは、図６（ａ）ないし図６
（ｃ）に示すように、CISCまたはRISCのいずれかの複数
の命令を同時に走らせることができる場合がある。モー
フ・ホストの種類が何であれ、モーフ・ホスト・ハード
ウエアのターゲット・レジスタの状態は、整数ターゲッ
ト命令境界（integral target instruction boundary）
以外では変化せず、次いで全てのターゲット・レジスタ
は更新される。したがって、並び替えられホスト変換に
再スケジューリングされた可能性がある一連の原始命令
に変換されたターゲット命令または命令群をマイクロプ
ロセッサが実行している場合、プロセッサがその変換さ
れた命令シーケンスを実行し始めるとき、オフィシャル
・ターゲット・レジスタは、最初のターゲット命令がア
ドレスされたときに、アプリケーションの設計対象のタ
ーゲット・プロセッサのレジスタが保持していた値を保
持する。モーフ・ホストが変換後の命令を実行し始めた
後は、しかしながら、ワーキング・レジスタは、その時
点までに実行された変換後の命令の原始動作によって決
定される値を保持する。したがって、これらのワーキン
グ・レジスタのいくつかは、オフィシャル・ターゲット
・レジスタにおける値と同一の値を保持する可能性があ
るが、他のワーキング・レジスタはターゲット・プロセ
ッサには無意味な値を保持する。これは、特定のターゲ
ット・マシンよりもはるかに多いレジスタを与え、先進
の加速技術を可能にしようとする実施例には、特に当て
はまる。一旦変換後のホスト命令が開始したなら、これ
らの変換後のホスト命令がワーキング・レジスタの状態
を決定し、これらのレジスタ内の値は、変換後のホスト
命令が決定したいずれかの値となる。例外を発生せずに
１組の変換後のホスト命令が実行された場合、この１組
の命令の終了時に決定された新たなワーキング・レジス
タ値が一緒にオフィシャル・ターゲット・レジスタに転
送される（恐らく、ターゲット命令ポインタ・レジスタ
を含む）。プロセッサの本実施形態では、この転送は、
追加のパイプライン段において、ホスト命令の実行以外
で行われるので、モーフ・ホストの動作を遅らせること
はない。同様に、図５に示す実施形態のようなゲート格納バッ
ファを、改良マイクロプロセッサのハードウエアにおい
て利用し、データのメモリへの転送を制御する。ゲート
格納バッファは、多数のエレメントを含み、その各々は
メモリ格納動作に対してアドレスおよびデータを保持す
る格納位置として作用することができる。これらのエレ
メントは、多数の異なるハードウエア構成のいずれでも
実現可能であり（例えば、先入れ先出しバッファ）、図
示の実施形態は、ランダム・アクセス・メモリおよび３
つの専用ワーキング・レジスタを利用して実現してい
る。３つのレジスタは、それぞれ、メモリ格納のキュー
の先頭に対するポインタ、ゲートに対するポインタ、お
よびメモリ格納のキューの末尾に対するポインタを格納
する。また、データをメモリに排出している（drain）
最中のエレメントを示すポインタも、別個のレジスタ
（図５には示さない）に格納される。キューの先頭とゲ
ートとの間の格納位置にあるメモリ格納は、既にメモリ
にコミットされており、一方キューのゲートと末尾との
間の他の位置から分離（separate）または隔離（segreg
ate）された格納位置にあるメモリ格納は未だメモリに
コミットされていない。ホスト変換の実行中に発生した
メモリ格納は、モーフ・ホストによるホスト命令の実行
中に発生した順序で、整数ユニットによって格納バッフ
ァに置かれるが、ホスト命令においてコミット動作が見
出されるまで、メモリへの書き込みは許されない。この
ように、変換を実行すると、格納動作がキュー内に置か
れる。これらが最初の格納であって他の格納がゲート格
納バッファ内にないと仮定すると、先頭ポインタおよび
ゲート・ポインタは同じ位置を示している。各格納を実
行するにつれて、キュー内の次の場所に置かれ、末尾ポ
インタが次の位置（図では上向き）に増分される。これ
は、コミット・コマンドが実行されるまで続けられる。
コミット・コマンドの実行が行われるのは、通常、例外
やエラー終了状態を発生することなく、１組のターゲッ
ト命令の変換を完了したときである。エラーなくモーフ
・ホストによって変換が実行された場合、実行中に発生
した格納バッファ内のメモリ格納は、一緒に格納バッフ
ァ（コミットされている）のゲートを通過し、続いてメ
モリに書き込まれる。図示の実施形態では、これは、末
尾ポインタを保持するレジスタ内の値を、ゲートポイン
タを保持するレジスタにコピーすることによって行われ
る。このように、ワーキング・レジスタからオフィシャル
・ターゲット・レジスタへのレジスタ状態の転送、およ
びワーキング・メモリ格納のオフィシャル・メモリへの
転送の双方は、一緒に行われ、明示的なコミット動作に
応答して、整数ターゲット命令間の境界上でのみ行われ
ることがわかる。これによって、マイクロプロセッサは、改良モーフ・
ホストによる実行中に発生したターゲット例外から、重
大な遅延を全く伴うことなく、復元することができる。
変換された命令または命令群のいずれかの実行中に、タ
ーゲット例外が発生した場合、この例外は、モーフ・ホ
スト・ハードウエアまたはソフトウエアによって検出す
る。ターゲット例外の検出に応答して、コード・モーフ
ィング・ソフトウエアは、オフィシャル・レジスタ内に
保持されている値を、ワーキング・レジスタに戻し、ゲ
ート格納バッファ内のコミットされていないメモリ格納
を全て消去する（「ロールバック」と呼ばれる動作）。
図５のゲート格納バッファ内のメモリ格納の消去は、ゲ
ート・ポインタを保持するレジスタ内の値を、末尾ポイ
ンタを保持するレジスタにコピーすることによって、行
うことができる。ターゲット・レジスタからワーキング・レジスタに値
を移すことにより、例外が発生したときに走っていたタ
ーゲット命令の最初のもののアドレスを、ワーキング命
令ポインタ・レジスタ内に置くことができる。ワーキング・レジスタ内のターゲット・プロセッサの
このオフィシャル状態から開始して、例外が発生したと
きに走っていたターゲット命令を連続順序で再変換する
が、並び替えやその他の最適化はまったく行わない。各
ターゲット命令を新たにデコードし新たなホスト変換に
変換した後、ターゲット命令を表す変換されたホスト命
令をモーフ・ホストによって実行すると、例外が発生す
る場合あるいは発生しない場合がある。（モーフ・ホス
トがVLIWプロセッサ以外である場合、ホスト変換の原始
動作の各々が順次実行される。ホスト変換を走らせてい
る際に例外が発生しなかった場合、次の原始機能を走ら
せる。）これは、例外が再度発生するか、あるいは単一
のターゲット命令が変換され実行し終えるまで続けられ
る。一実施形態では、例外を発生せずにターゲット命令
の変換が実行された場合、ワーキング・レジスタの状態
がターゲット・レジスタに転送され、更にゲート格納バ
ッファ内のあらゆるデータがコミットされるので、メモ
リに転送することができる。しかしながら、変換の実行
中に例外が再度発生した場合、ターゲット・レジスタお
よびメモリの状態は変化せず、例外が発生したときにタ
ーゲット・コンピュータ内に生じた状態と同一である。
その結果、ターゲット例外が発生した場合、この例外
は、ターゲット・オペレーティング・システムによって
正しく処理される。同様に、変換によって例外が発生した一連の命令の内
第１のターゲット命令が一旦実行され、例外が発生しな
かったのであれば、ターゲット命令ポインタは、次のタ
ーゲット命令を示す。この第２のターゲット命令は、第
１の場合と同様に、最適化または並び替えを行わず、デ
コードし再変換する。単一のターゲット命令のホスト変
換の各々がモーフ・ホストによって処理されていくと、
ターゲット・レジスタおよびメモリの状態が、ターゲッ
ト・コンピュータ内に生ずる状態と同一である場合、何
らかの例外が発生する。その結果、例外を直ちにかつ正
しく処理することができる。これら新たな変換は、ター
ゲット・アプリケーションにおける命令のシーケンスに
対する正しい変換として、変換バッファ内に格納され、
命令を再度走らせるときにはいつでも呼び出すことがで
きる。図５のゲート格納バッファと同じ結果を得る他の実施
形態は、格納を直接メモリに転送しつつ、変換の例外の
結果ロールバックを必要とする例外またはエラーを生じ
た場合にターゲット・コンピュータの状態を復元するた
めに十分なデータを記録する構成を含むものとすること
ができよう。このような場合、変換および実行の間に発
生したいずれのメモリ格納についてもその効果を逆転さ
せ、変換の開始時に存在していたメモリ状態を復元しな
ければならない。一方、ワーキング・レジスタは、先に
論じたように、オフィシャル・ターゲット・レジスタ内
に保持されているデータを受け取らなければならない。
これを行う一実施形態は、別個のターゲット・メモリを
維持して元のメモリ状態を保持しておき、ロールバック
が発生した場合に、これを利用して、上書きされたメモ
リを置換する。メモリ・ロールバックを行う他の実施形
態は、各格納を記録し、メモリ・データが発生する毎に
これを置換し、次いでロールバックが必要な場合に、格
納プロセスを逆転させる。ここまで詳細に説明したゲート格納バッファを実現す
ると、多数の問題が生ずる。例えば、マイクロプロセッ
サの動作の間、データが常に同じメモリ・アドレスに格
納されている場合がある。このように格納されるいずれ
かのデータが実際にメモリに送られる前のいずれかの時
点において、そのデータがマイクロプロセッサによる他
の処理のために必要とされる可能性がある。通常、使用
すべきデータは、使用可能な最新の有効データである。
典型的な格納バッファでは、バッファ内に既にあるデー
タのアドレスと同じバッファ内のメモリ・アドレスに転
送されるデータは、通常、古いデータの代わりに格納さ
れる。その結果、当該アドレスにおける有効なデータを
探索するまでもなく、常に最新のデータをバッファから
直ちに得ることができる。しかしながら、これは、前述のゲート格納バッファを
用いる場合不可能である。何故なら、このバッファは、
未だ最終的と判断されていない動作からのメモリ格納を
保持するように、特別に考案されたからである。これら
の格納がメモリにコミットされる前に、格納を生ずる命
令のシーケンスが正しく実行されるか否かについて判定
を行わなければならない。その結果、既にコミットされ
ている先のメモリ格納に代わって、後から発生したメモ
リ可能をバッファ位置にセーブすることは、事実上、新
たな格納データを発生するホスト命令の実行が、例外を
発生せずに完了する前に、そのデータをコミットするこ
とになろう。これは、ゲート格納バッファの目的全体に
反することになる。その結果、ゲート格納バッファの一実施形態では、新
たなメモリ格納は、同じアドレスに対する古い格納に代
わって格納されるのではなく、これらが発生する毎に、
バッファの分離された部分または隔離された部分に順次
格納される。そして、いずれの時点においても、ゲート
格納バッファには、同じメモリ・アドレスに多数の格納
がある場合があり、それらの格納のいくつかはメモリに
コミットされ、これらの格納の他のものは未だアンコミ
ットのまま留まる。ゲート格納バッファ内の各格納位置
は、当該位置にあるデータの有効性について、ある指定
を含む。図13に論理構成を示す実施形態では、ゲート格
納バッファ内の格納位置におけるデータの各バイト（本
実施形態における最少アドレス可能データ量）毎に、有
効ビット（Ｖで示す列）を備える。典型的に、各バッフ
ァ格納位置において、64ビットがデータを格納するため
に使用可能であるので、バッファ内の各格納位置には、
８つの個別のバイトが各々それ自体の有効ビットと共に
含まれる。バッファ内に保持されている、あるメモリ・アドレス
に対する最新の格納を区別するために、各格納位置の各
バイトには、第１のビット（Ｍで示す列）も備え、その
バイトが当該メモリ・アドレスにおける最新のデータ・
バイトであることを示すために用いられる。各メモリ位
置は、比較回路を含み、ゲート格納バッファに対する新
たな書き込みの都度、そのメモリ・アドレス（バイト・
アドレスを含む）および制御ビットを検査する。新たな
データが格納バッファのある格納位置に格納される場
合、新たに格納されるデータの各バイトには、その最新
格納ビットがアサートされている。新たに格納されるデ
ータが、ゲート格納バッファ内に既にある有効データの
メモリ・アドレスと同一メモリ・アドレスに格納されよ
うとしている場合、比較回路はこれをバイト毎に判定
し、同一メモリ・アドレスにおいて以前は最後に格納さ
れたものであったあらゆるバイトに対する最新ビットを
ディアサートする。このように、当該メモリ・アドレス
におけるデータのロードに対する最新データの必要性
は、特定のメモリ・アドレスにおいて最新ビット（複数
のビット）がアサートされているデータを検出すること
によって満たされる。本実施形態では、従来技術におけるように、ゲート格
納バッファのメモリ・アドレスに格納されている古いデ
ータを上書きする代わりに、それに関連する古い最新ビ
ットをディアサートすることにより、当該アドレスから
マイクロプロセッサのレジスタへのロードの目的のため
に、古いデータを仮想的に消去する（eliminate）こと
がわかる。ロードのためにアクセスされたメモリ・アド
レスにおけるバイトの最新ビットをディアサートするこ
とにより、当該バイトは無視され、一方最新ビットによ
ってマークされている。同じアドレスのバイトが、ロー
ド動作のために格納バッファから読み出される。同時
に、当該位置においてもはや最新ではないデータは格納
バッファ内に残るので、それらがゲート格納バッファに
置かれた順序で、最終的にはメモリに順次コミットする
ことができる。ゲート格納バッファ内のデータは、前述のようにマイ
クロプロセッサの動作の高速化を果たすために、コミッ
ト動作およびロールバック動作を受けるので、アンコミ
ットされた格納にあるデータが、ロールバック動作の間
に破棄（消去）される可能性がある。このデータは、常
に、ゲート格納バッファ内に保持されており同じメモリ
・アドレスにおいてコミットされているいずれのデータ
よりも新しい。その結果、破棄されるアンコミット・デ
ータと同じメモリ・アドレスを有するコミットされたデ
ータが、ゲート格納バッファ内の別の格納位置に存在す
る場合、ロールバックの後、そのメモリ・アドレスにお
いてコミットされている最新のデータが、格納バッファ
内のそのメモリ・アドレスに残留する最新のデータとな
り、そのように指示されなければならない。しかしなが
ら、このコミットされたデータの最新ビットは、ゲート
格納バッファの同じアドレスに、それよりも新しいアン
コミット・データ（既に破棄されている）が置かれたと
きには、既にディアサートされているはずである。あるメモリ・アドレスに対する最新データが、ロール
バック動作やコミット動作の後に正しく指定され続ける
ことを保証するために、各バイトは、最新ビット位置だ
けでなく、第２の「シャドーイング最新ビット」（shad
owing−most−recent bit」位置（図13において「Ｓ」
で示す）も有する。ゲートの位置をバッファの末尾まで
移動させることにより、ゲート格納バッファ内の１個所
以上の格納位置のデータをコミットした場合、バッファ
に格納されている各アドレスの最新データは、そのシャ
ドーイング最新ビットがアサートされ、同時に既にアサ
ートされている同じメモリ・アドレスの他のデータに対
するあらゆるシャドーイング最新ビットがディアサート
される。これが発生する時点において、新たにコミット
されたデータが、実際に当該メモリ・アドレスに対する
最新データとなるので、必要な全ては、コミットされた
各格納位置の各バイトに関連する最新ビットを当該バイ
トに対するシャドーイング最新ビットにコピーすること
である。格納バッファのその同じメモリ・アドレスに、
より新しいデータが書き込まれた場合、コミットされて
いるデータの最新ビットがディアサートされるが、シャ
ダーイング最新ビットは、アサートされたまま残る。次
いで、ロールバックが後に行われ、そのアドレスに宛て
られたより新しいアンコミット・データが破棄された場
合、コミットされているデータの内最新のもののシャド
ーイング最新ビットが、コミットされているバイトの最
新ビット位置にコピーされ、最後にコミットされたデー
タが実際に最後に格納されたデータであることを正確に
示す。このように、これまでに論じた実施形態では、ゲート
格納バッファに書き込むために利用するロジックは、次
の連続メモリ位置に新しいデータを書き込み、その位置
に書き込まれた各バイトに対する有効ビットおよび最新
ビットをアサートすることがわかるであろう。このロジ
ックは、書き込まれたデータのメモリ・アドレスを、バ
ッファ内の格納位置におけるメモリ・アドレスと比較
し、当該アドレスに宛てられたより古いデータがバッフ
ァ内にあるか否かについて判定を行う。かかるデータが
見つかった場合、そのアドレスに対するより古いデータ
の、アサートされているその最新ビットがディアサート
される。コミット動作において、最新ビットがアサート
されている全てのデータは、そのシャドーイング最新ビ
ットがアサートされ、シャドーイング最新ビットがアサ
ートされている全てのデータは、当該ビットがディアサ
ートされる。ロールバック動作では、アンコミット・デ
ータが破棄され、コミットされたデータでシャドーイン
グ最新ビットが既にアサートされているものに対して、
最新ビットがアサートされる。図示の実施形態に追加のレジスタを利用し、メモリに
排出すべき次のメモリ格納位置に対するポインタを格納
し、データを順次メモリに排出するようにしてもよい。
各格納位置におけるデータをメモリに排出する毎に、当
該データに対する有効、最新及びシャドーイング最新ビ
ットをクリアし、正しい排出シーケンスを維持する。こ
の排出される格納位置を示す追加のレジスタは、各メモ
リ・アドレスに格納すべき全てのコミットされたデータ
を比較するロジックを実装し、メモリ・アドレスに対す
る最新のコミットされたデータのみをメモリに排出しつ
つ、コミットされたが最新でないデータを無視すること
によって、メモリに排出する動作を短縮化するために用
いることも可能である。ゲート格納バッファの第２の実施形態を図14に示す。
この実施形態は、複数の格納位置グループを利用し、各
グループが一連のターゲット命令の典型的な完全な変換
によって発生する格納を保持するために、十分な数の格
納位置を保持する。より多くの数の格納が発生した場
合、２つ以上のグループを利用して、当該変換を格納す
る。図13の実施形態の場合と同様、グループの各格納位
置は、多数の格納データ・バイト、メモリ・アドレス、
および各バイト毎の有効ビットを保持する。各格納位置
グループは、（例えば、当該グループに関連付けたビッ
トＷをアサートすることによって）発生した格納データ
を当面格納しておく、ワーキング・グループとして指定
することができる。ワーキング・グループ内のデータ
は、全てアンコミットされたものである。しかしなが
ら、各グループは、連想キャッシュの場合と同様にアド
レスされるように構成され、特定のメモリ・アドレスに
書き込まれる新しい格納データは、ワーキング・グルー
プ内に既にある、より古い格納データ上に上書きされ、
同じメモリ・アドレスに書き込まれる。これは、図示の
実施形態では、各格納位置において比較器によって行わ
れる。このように、いずれのメモリ・アドレスにアドレ
スされたデータも、あるグループ内に格納される場合、
当該格納位置グループ内では１つの格納位置にのみ存在
する。したがって、データがコミットされる前に、ロー
ドのためにホスト・プロセッサが利用する必要がある場
合、当該グループ内のメモリ・アドレスを検査すること
によって見つけることができる。これによって、前述の
実施形態におけるような、最新ビットおよびシャドーイ
ング最新ビットの必要性をなくす。例外を発生することなく一連のターゲット命令を実行
した場合、当該シーケンスによってワーキング・グルー
プ内に発生したデータ格納は、一括してコミットされ
る。このコミット（先の実施形態において、ゲート・ポ
インタを末尾ポインタの位置まで移動させることと等価
である）を行うには、特定の格納位置グループと関連付
けたコミット・ビット（ビットＣ）をアサートし、当該
グループに対するワーキング・ビット（ビットＷ）をデ
ィアサートすればよい。一旦格納位置グループがコミッ
トされたなら、それらの位置にあるデータは、メモリに
排出されるまで、当該グループ内に留まることができ
る。このように、コミットされた格納およびアンコミッ
トされた格納を指定するためにヘッド・ポインタ、ゲー
ト・ポインタ、および末尾ポインタを保持するのに必要
な回路は不要となるが、ワーキング・ビットおよびコミ
ット・ビットの使用により、同一結果が得られる。したがって、一連の変換したターゲット命令を実行し
ている間にロールバックが必要な例外が発生した場合、
ワーキング・グループ内に格納されているデータは、単
純に消去（破棄）される。これを行うには、例えば、コ
ミット・ビットをアサートせずに、Ｗビットとして格納
されているワーキングの指示を除去すればよい。実際に
は、ワーキングの指示を除去することは、先の実施形態
において、末尾ポインタをゲート・ポインタの位置に移
動させることと等価である。先に論じた２つの実施形態の様々な組み合わせも、当
業者には明白であろう。例えば、新たなデータ格納を古
いデータ格納の上に上書きさせるが、ゲートと末尾との
間にあるデータ格納が未だコミットされていない格納位
置の範囲内のみとするロジックを利用することによっ
て、第１の実施形態のサイズを縮小することができる。
同様に、同一アドレスを有する、全てのコミットされた
格納を検出し、先に示したように排出ポインタを使用し
て、コミットされたデータの内最新のものを示すことに
よって、最新のもの（バイト）のみをメモリに書き込む
ロジックも利用可能である。また、前述の実施例の詳細を、典型的なプロセッサ・
キャッシュと組み合わせ、双方の目的を単一の回路で達
成することも可能である。このような場合、コミットさ
れたメモリ格納およびアンコミットされたメモリ格納を
格納するキャッシュのラインを示す手段、ならびにその
他の制御インディケータを備えることが必要となろう。コード・モーフィング・ソフトウエアは、変換されて
いるプログラムを処理する速度を大幅に高める、追加の
動作を備えている。単純に命令を変換し、最適化し、並
び替え、再スケジューリングし、キャッシュし、各変換
を実行して、１組の命令を実行する必要があるときには
いつでも再度走らせることができるようにしておくこと
に加えて、変換部は異なる変換をリンクし、殆ど全ての
場合に、変換プロセスの主ループへのリターンを不要に
する。図８は、このリンク・プロセスを行う際に、コー
ド・モーフィング・ソフトウエアの変換部が実行するス
テップを示す。このリンク動作は、殆どの命令の変換に
ついて、本質的に主ループへのリターンを不要とし、こ
のオーバーヘッドをなくするものであることは、当業者
には理解されよう。例示の目的のために、走らせるターゲット・プログラ
ムがX86の命令で構成されていると仮定する。ターゲッ
ト命令のシーケンスの変換を行い、原始ホスト命令を並
び替え再スケジューリングする場合、各ホスト変換の終
了時に、２つの原始命令が発生する可能性がある。最初
のものは、ターゲット・プロセッサに対する命令ポイン
タの値（またはその同等物）を更新する原始命令であ
る。この命令は、次のターゲット命令の正しいアドレス
を、ターゲット命令ポインタ・レジスタに置くために用
いられる。この原始命令に続くのは、分岐命令であり、
当該分岐に対する２つの可能なターゲットの各々のアド
レスを含む。分岐命令に先立つ原始命令がターゲット・
プロセッサに対する命令ポインタの値を更新する方法
は、条件コード・レジスタ内の当該分岐に対する条件コ
ードを試験し、分岐を制御する条件が示す２つの分岐ア
ドレスの一方が変換バッファ内に格納されているか否か
について判定を行うことである。最初にターゲット命令
のシーケンスを変換する場合、ホスト命令の２つの分岐
ターゲットは双方とも、変換部ソフトウエアの主ループ
に対して、同じホスト・プロセッサ・アドレスを保持し
ている。ホスト変換が完了し、変換バッファに格納され、最初
に実行されるとき、ターゲット命令ポインタ・レジスタ
において、命令ポインタを更新し（ターゲット・レジス
タの残りと同様に）、動作は分岐して主ループに戻る。
主ループでは、変換ソフトウエアは、ターゲット命令ポ
インタ・レジスタ内において、次のターゲット命令への
命令ポインタを参照する。次いで、次のターゲット命令
シーケンスをアドレスする。このターゲット命令のシー
ケンスが未だ変換されておらず、したがって変換が変換
バッファ内にないと仮定すると、次の１組のターゲット
命令をメモリから取り込み、デコードし、変換し、最適
化し、並び替え、再スケジューリングを行い、変換バッ
ファ内にキャッシュし、実行する。第２組のターゲット
命令が第１組のターゲット命令に続くので、第１組のタ
ーゲット命令のホスト変換の最後の原始分岐命令は自動
的に更新され、第２組のターゲット命令のホスト変換の
アドレスを、当該分岐を制御する特定の条件に対する分
岐アドレスとして置換する。次に、第２の変換されたホスト命令が第１の変換され
たホスト命令にループ・バックする場合、第２の変換の
最後における分岐動作は、主ループのアドレス、および
第１の変換のX86アドレスを、当該分岐に可能な２つの
ターゲットとして含む。分岐に先立つ更新−命令−ポイ
ンタ原始動作は、条件を試験し、第１の変換へのループ
・バックを行うことを決定し、最初の変換のX86アドレ
スへのターゲット命令ポインタを更新する。これによっ
て、変換部は変換バッファを調べ、捜索中のX86アドレ
スがそこにあるか否か確かめる。最初の変換のアドレス
を発見したなら、ホスト・メモリ空間内におけるその値
を、第２のホスト変換命令の最後の分岐内のX86アドレ
スと置換する。次に、第２のホスト変換命令をキャッシ
ュし実行する。これによって、第１の変換から第２の変
換への分岐を行わせる条件が満たされなくなるまで、こ
のループを走らせ、主ループに戻る経路を取る分岐を行
う。これが行われた場合、第１の変換されたホスト命令
は主ループに戻るように分岐し、ターゲット命令ポイン
タによって指定される次の１組のターゲット命令を変換
バッファ内で探索し、キャッシュからホスト変換を取り
込む。あるいは、変換バッファ内の探索が失敗した場
合、ターゲット命令をメモリから取り込み、変換する。
この変換されたホスト命令が変換バッファにキャッシュ
されるとき、そのアドレスが、ループを終了した分岐命
令内の主ループ・アドレスと置換する。このように、種々の変換されたホスト命令が互いに連
鎖されているので、変換主ループを通過する長い経路を
辿る必要があるのは、リンクが存在しない場合のみであ
る。最終的に、ホスト命令の分岐命令における主ループ
の参照は、殆ど完全に無用となる。この条件に達した場
合、いずれのホスト命令を走らせる前であっても、ター
ゲット命令を取り込み、ターゲット命令をデコードし、
当該ターゲット命令を構成する原始命令を取り込み、こ
れらの原始動作を最適化し、原始動作を並び替え、これ
ら原始動作の再スケジュールを行うために必要な時間が
不要となる。したがって、いずれのアプリケーションの
命令シーケンスを走らせる場合にもその都度これらのス
テップの各々を実行しなければならない全ての従来技術
のマイクロプロセッサとは対照的に、改良マイクロプロ
セッサを用いれば、最初の変換を行った後には、いずれ
の１組のターゲット命令を走らせるために必要な作業も
激減する。この作業は、各組の変換されたホスト命令を
他の組の変換されたホスト命令にリンクすることによっ
て、更に減少する。実際、アプリケーションを走らせて
いる間、変換が必要となるのは、100万回の命令実行中
１回未満となることが推定される。変換する各組の命令を順にキャッシュし、再度変換す
る必要をなくすようにするため、このマイクロプロセッ
サの実現には、大きな変換バッファが必要であることを
当業者は認識するであろう。異なるシステムに対してプ
ログラムされたアプリケーションと共に機能するように
設計された変換部の支援用バッファ・メモリに対する必
要性は様々に変化する。しかしながら、X86プログラム
を走らせるように設計されたマイクロプロセッサの一実
施形態は、２メガバイトのランダム・アクセス・メモリ
を変換バッファとして利用している。２つの追加のハードウエア機能強化が、本発明を含む
マイクロプロセッサがアプリケーションを処理可能な速
度を高めるのに役立つ。これらの内最初のものは、異常
／正常（A/N）保護ビットであり、ターゲット命令の物
理アドレスの参照を最初に行った変換ルック・アサイド
・バッファ（TLB）（図３参照）内の各アドレス変換と
ともに格納される。変換内部のターゲット・メモリの動
作には、２種類あり、一方はメモリ上で動作するもの
（正常）、他方はメモリ・マップI/Oデバイス上で動作
するもの（異常）とすることができる。メモリに影響を与える正常アクセスは、正常に完了す
る。命令がメモリ上で動作する場合、これらの命令の最
適化および並び替えを行うことが適当であり、本発明を
含むマイクロプロセッサを用いたいずれのシステムで
も、その速度を高めるのに非常に役立つ。一方、I/Oデ
バイスに影響を与える異常アクセスの動作は、いずれの
ステップも除去することなく、これらの動作がプログラ
ムされた正確な順序で行わなければならない場合が多
い。さもないと、I/Oデバイスに何らかの悪影響を与え
る可能性がある。例えば、特定のI/O動作が、I/Oレジス
タをクリアする結果をもたらす場合があり、原始動作が
順序を外して行われた場合、動作の結果は、ターゲット
命令が指令した動作とは異なる場合がある。メモリをメ
モリ・マップI/Oと区別する手段がないと、メモリ・マ
ップI/Oに影響を与える命令を変換する際に用いられる
旧来の仮定を用いて、全てのメモリを扱わなければなら
ない。これは、達成可能な最適性を著しく制限すること
になる。従来技術のエミュレータは、アドレスされてい
るメモリの特性に対する思索の失敗を検出する手段、お
よびこのような失敗から復元する手段の双方を欠いてい
たので、その処理能力には限界があった。図11に示すマイクロプロセッサの一実施形態では、A/
Nビットは、メモリ・ページまたはメモリ・マップI/Oの
いずれかを示すために、変換ルック・アサイド・バッフ
ァ内にセットすることができるビットである。変換ルッ
ク・アサイド・バッファは、メモリ・アクセスに対する
ページ・テーブル・エントリを格納する。このようなエ
ントリは各々、アクセスされる仮想アドレスおよび捜索
中のデータにアクセス可能な物理アドレス、ならびにエ
ントリに関するその他の情報を含む。A/Nビットはその
他の情報の一部であり、物理アドレスがメモリ・アドレ
スかあるいはメモリ・マップI/Oアドレスかを示す。メ
モリに影響を与える動作を、メモリ動作であるかのよう
に変換することは、実際には、この動作がメモリに影響
を与えるものとする思索である。一実施形態では、コー
ド・モーフィング・ソフトウエアが最初に、メモリまた
はメモリ・マップI/Oデバイスのいずれかのアクセスを
必要とする変換を実行しようとする場合、実際には、当
該アクセスをメモリ・アクセスと仮定する。別の実施形
態では、ターゲット・コマンドがI/Oアクセスを要求す
ると、ソフトウエアが仮定することも可能である。その
アドレスへのアクセスが未だ行われていないと仮定する
と、変換ルック・アサイド・バッファ内にはエントリが
なく、アクセスは変換ルック・アサイド・バッファにお
いて失敗する。この失敗のために、ソフトウエアは、ペ
ージ・テーブル参照を行い、変換ルック・アサイド・バ
ッファの格納位置に、ページ・テーブル・エントリを入
力し、仮想アドレスに対する正しい物理アドレス変換を
与える。これを行う際に、ソフトウエアは、この物理ア
ドレスに対するA/Nビットを、変換ルック・アサイド・
バッファに入力させる。次いで、アクセスがメモリ・ア
ドレスに対するものと仮定すると、再度アクセスを実行
しようとする試みが行われる。アクセスが試行される
と、仮定したアクセス型（正常または異常）を、現在TL
Bページ・テーブル・エントリ内にあるA/N保護ビットと
比較することによって、ターゲット・メモリ参照をチェ
ックする。アクセス型がA/N保護と一致しない場合、例
外が発生する。実際に動作がメモリに影響を与える場
合、前述の最適化、並び替え、および再スケジューリン
グ技術が、変換中に正しく適用されたことになる。しか
しながら、TLB内のA/Nビットとの比較が、動作がI/Oデ
バイスに影響を与えることが示す場合、実行によって例
外が発生し、変換部は、いずれの種類の最適化、並び替
え、再スケジューリングも行わず、１度に１つのターゲ
ット命令ずつ、新たな変換を行う。同様に、変換が、実
際にはメモリに影響を与える動作をI/O動作と誤って仮
定した場合、実行によって例外が発生し、最適化技術、
並び替え技術および再スケジューリング技術を用いて、
ターゲット命令を再変換する。このように、本プロセッ
サは、従来可能であった性能を超える改良をもたらすこ
とができる。尚、A/Nビットを用いて、アクセスがメモリまたはメ
モリ・マップI/Oデバイスのどちらに対するものかにつ
いての思索が失敗したか否かを判定する技術は、メモリ
・マップ・アドレスの他の特性に関する思索にも使用可
能であることは、当業者には認められよう。例えば、こ
のような正常／異常ビットを用いて、異なる種類のメモ
リを区別することができる。他の同様な使用法として、
メモリ特性を区別することも挙げられるが、当業者には
理解されよう。改良マイクロプロセッサが最も頻繁に実施する思索の
１つは、変換中にターゲット例外が発生しないことに関
するものである。これによって、従来技術に対して格段
の最適化が可能となる。第１に、ターゲット状態を各タ
ーゲット命令境界毎に更新する必要がなく、変換境界上
に生ずるターゲット命令境界上でのみ更新すればよい。
これによって、各ターゲット命令境界毎にターゲット状
態をセーブするために必要な命令が不要となる。スケジ
ューリングや冗長な動作を除去することに対する、従来
では不可能であった最適化も可能となる。驚くべきことに、改良マイクロプロセッサは、適切な
変換プロセスを選択するように構成されている。前述の
変換方法によれば、最初に１組の命令を、それがメモリ
に影響を与えるかのように、変換することができる。次
に、ホスト命令の最適化、並び替え、および再スケジュ
ーリングを実行すると、変換ルック・アサイド・バッフ
ァ内に備えられているA/Nビットの状態によって、I/Oデ
バイスを参照するアドレスを得ることができる。A/Nビ
ットと、ある動作がI/O動作であることを示す変換命令
アドレスとの比較により、エラー例外が発生し、これに
よってソフトウエアが開始するロールバック手順が行わ
れ、あらゆるアンコミット・メモリ格納が消去され、タ
ーゲット・レジスタ内の値はワーキング・レジスタ内に
戻される。次に、１度に１ターゲット命令ずつ変換が開
始され、最適化、並び替え、あるいは再スケジューリン
グは行われない。この再変換は、I/Oデバイスに適した
ホスト変換である。同様に、メモリ動作を、I/O動作として誤って変換す
る可能性がある。発生するエラーを用いて、その正しい
再変換を行わせ、最適化、並び替え、および再スケジュ
ーリングを行うことにより、より速い動作を与える。従来技術のエミュレータは、一般的に自己変更コード
（self modifying code）と呼ばれるものにも苦闘して
いた。ターゲット・プログラムが、ターゲット命令を収
容しているメモリに書き込みを行った場合、これらのタ
ーゲット命令のために存在する変換は「古く」なり、も
はや有効でなくなる。これらの格納が発生する際に、動
的にこれらを検出する必要がある。従来技術では、各格
納に対して余分な命令を用いてこのような検出を行わな
ければならない。この問題は、プログラムがそれ自体を
変更することよりも、範囲が広い。第２のプロセッサや
DMAデバイスのような、メモリに書き込みを行う可能性
のあらゆるエージェントも、この問題を発生する可能性
がある。この改良マイクロプロセッサは、モーフ・ホストに対
する別の機能強化によって、この問題に対処する。同様
に変換ルック・アサイド・バッファに格納することがで
きる変換ビット（Ｔビット）を用いて、変換が存在する
原因であるターゲット・メモリ・ページを示す。したが
って、Ｔビットは、ターゲット・メモリの特定のページ
が、ホスト変換が存在する原因であるターゲット命令を
含むことを示すことができる。これらのターゲット命令
が上書きされた場合、変換は陳腐化することになる。メ
モリ内で保護されているページに書き込みを行おうとし
た場合、変換ビットの存在によって例外が発生し、これ
をコード・モーフィング・ソフトウエアで処理すると、
該当する変換（複数の変換）を無効化し、変換バッファ
から除去することができる。また、Ｔビットは、書き込
まれていないターゲット・ページにマークを付けるため
に用い、これに基づいて変換を行うことも可能である。本発明を含むマイクロプロセッサの全体的な機能エレ
メントをブロック図状で示す図３を参照することによっ
て、これは理解することができる。モーフ・ホストがタ
ーゲット・プログラムを実行する場合、実際には、変換
されていない元のホスト命令のみを含む、コード・モー
フィング・ソフトウエアの変換部部分を走らせる。変換
されていない元のホスト命令は、事実上、モーフ・ホス
ト上で走る。図の右側に、本質的に変換部および変換バ
ッファを含むホスト部分と、ターゲット・オペレーティ
ング・システムを含み、ターゲット命令およびデータを
含むターゲット部分とに分割されたメモリが示されてい
る。モーフ・ホスト・ハードウエアは、変換部を実行開
始する際、メモリからホスト命令を取り込み、これらの
命令を命令キャッシュ内に置く。変換部の命令は、メモ
リのターゲット部分に格納されている最初のターゲット
命令のフェッチ（fetch）を発生する。ターゲット・フ
ェッチを実行することにより、整数ユニットは、ターゲ
ット命令の第１のアドレスを求めて、オフィシャル・タ
ーゲット命令ポインタ・レジスタを探る。次に、メモリ
管理ユニットの変換ルック・アサイド・バッファ内の最
初のアドレスにアクセスする。メモリ管理ユニットは、
ページング用ハードウエアを含み、TLBにメモリ・マッ
ピング機能（facilities）を与える。TLBが正しくマッ
プされており、ターゲット・メモリの正しいページに対
する参照データを保持していると仮定すると、ターゲッ
ト命令ポインタ値は、ターゲット命令の物理アドレスに
変換される。この時点において、変換がターゲット命令
に対して行われたか否かを示すビット（Ｔビット）の状
態が検出されるが、アクセスは読み取り動作であり、Ｔ
ビットの例外は発生しない。アクセスがメモリまたはメ
モリ・マップI/Oのどちらに対するものかを示すA/Nビッ
トの状態も検出される。最後に述べたビットがメモリ位
置を示すと仮定すると、変換が存在しないので、ターゲ
ット・メモリ内のターゲット命令にアクセスする。この
ターゲット命令および後続のターゲット命令は、モーフ
・ホスト計算機ユニットへのデータとして転送され、命
令キャッシュに格納されている変換命令の制御の下で変
換される。変換命令は、このターゲット命令がメモリに
影響を与えるかのように、並び替え技術、最適化技術、
および再スケジューリング技術を利用する。次に、ホス
ト命令のシーケンスを含む変換が得られ、これをホスト
・メモリ内の変換バッファに格納する。変換は、ゲート
格納バッファを介して、ホスト・メモリ内の変換バッフ
ァに直接転送される。一旦変換がホスト・メモリに格納
されたなら、変換部は変換に分岐し、次いでこれを実行
する。この実行（および後続の実行）は、変換が例外お
よびメモリに関して正しい仮定を行たか否かについて判
定を行う。変換を実行する前に、変換したターゲット命
令を収容しているターゲット・ページ（群）に対するＴ
ビットをセットする。この指示は、命令が変換されたこ
と、およびターゲット・アドレスに対する書き込みを行
おうとすると、この試行は例外を発生し、変換が無効に
なるかあるいは除去される可能性があることを警告す
る。Ｔビットによってマークされたターゲット・ページに
書き込みを行おうとした場合、例外が発生し、この書き
込みは中止される。書き込みを続けることが許されるの
は、例外に対する応答によって、書き込まれるターゲッ
ト・メモリ・アドレスと関連する変換に無効と印されて
いるか、あるいは適切に更新され終わるまで、その他の
方法で使用に対して保護されていることが保証された後
である。書き込み動作には、有効な変換が影響を受けな
いので、実際には何も行うことを要求しない場合もあ
る。他の書き込み動作には、アドレスされたターゲット
・メモリに関連する１つ以上の変換に適切にマークを付
けるか、あるいはこれらを除去することを要求するもの
がある。図11は、Ｔビット指示を保持するために各々エ
ントリを有する格納位置を含む、変換ルック・アサイド
・バッファの一実施形態を示す。モーフ・ホストに対する追加のハードウエア機能強化
の１つは、通常はメモリに格納されるが動作の実行にお
いて頻繁に用いられるデータを、実行ユニット・レジス
タ内に複製（即ち、「エイリアス」）し、当該データを
メモリから取り出したりあるいはメモリに格納する際に
要する時間を不要にするために利用する回路である。例
えば、メモリ内のデータがコード・シーケンスの実行中
頻繁に再利用される場合、通常このデータが用いられる
度に、メモリから検索し実行ユニット内のレジスタにロ
ードしなければならない。このように頻繁なメモリ・ア
クセスに要する時間を短縮するために、代わりにデータ
を一旦コード・シーケンスの開始時にメモリから実行ユ
ニット・レジスタにロードし、そのコード・シーケンス
が続く期間中、メモリの代わりに機能するように、この
レジスタを指定する。一旦これを行えば、通常データを
指定したメモリ・アドレスからレジスタにロードする場
合に必要となるロード動作の各々は、代わりに、単純な
レジスタ間のコピー動作となり、はるかに速いペースで
進行する。しかも、更なる最適化によって、多くの場合
これらのコピー動作さえも不要にすることができる。同様に、コード・シーケンスの実行は、コード・シー
ケンスの実行中データをメモリ・アドレスに頻繁に書き
込むことを必要とすることが多い。このような同じアド
レスへの頻繁なメモリ格納に要する時間を短縮するため
に、データをメモリ・アドレスに書き込もうとする度
に、コード・シーケンスが継続する期間中、メモリ空間
の代わりとして機能するように指定した、実行ユニット
・レジスタに転送することができる。一旦実行ユニット
・レジスタを指定すれば、データを変換する毎に必要と
なるのは、単純なレジスタ間転送のみであり、メモリ・
アドレスに格納するよりもはるかに速く進行する。改良マイクロプロセッサは、これらエイリアス動作を
行う独特の構成を提供する。図10に示す一実施形態で
は、モーフ・ホストは、コード・シーケンスにおいて頻
繁に用いられる指定メモリ・アドレスに対して、「ロー
ドおよび保護」コマンドに応答するように設計されてい
る。モーフ・ホストは、実行ユニット110内のワーキン
グ・レジスタ111をメモリ・データを保持するために割
り当て、メモリ制御ユニットの特殊レジスタ112内にそ
のメモリ・アドレスを格納する。ワーキング・レジスタ
111は、このような目的のために割り当てることができ
る実行ユニット内の多数のレジスタ（例えば、図４に示
すワーキング・レジスタの８つ）の１つとすることがで
きる。メモリのエイリアシング（memory aliasing）を用い
て、メモリ・アドレスから実行ユニットへのロードをな
くそうとする場合、当該メモリ・アドレスにあるデータ
を最初にレジスタ111にロードし、このメモリ・アドレ
スをレジスタ112に置く。その後、レジスタ111内のデー
タを用いて、加速したレートで、コード・シーケンスを
実行する。この期間中、通常であればレジスタ112内に
保持されているメモリ・アドレスからのロードを必要と
する各動作は、代わりにレジスタ111からデータをコピ
ーすることによって行われる。これは、コード・シーケ
ンスが完了し（あるいは、他の何らかの態様で終了
し）、メモリ空間の保護が解除されるまで継続する。同様に、実行ユニット110から同じメモリ・アドレス
に一定してデータを格納するコード・シーケンスを加速
するために、同様のエイリアス動作を実施することがで
きる。「ロードおよび保護」コマンドが、メモリ・アド
レスをレジスタ112内に置き、通常であればそのメモリ
・アドレスに格納されるデータを、代わりに、ワーキン
グ・レジスタ111に転送する。例えば、通常であればル
ープの実行によって一連の値を同じメモリ・アドレスに
格納する計算において、データを保持するレジスタ111
を割り当て、レジスタ112にメモリ・アドレスを保持す
ることによって、格納するプロセスは、実行ユニット内
部のレジスタ間転送となる。この動作も、コード・シー
ケンスが完了し（または他の何らかの態様で終了し）、
メモリ空間が更新され、メモリ空間の保護が解除される
まで継続する。これらエイリアス技法の各々は、コード・シーケンス
によってはその実行速度を大幅に高めるが、メモリ・ア
クセスを不要とするこれらの動作は、非常に多くの問題
の原因となる。特に、ホスト・プロセッサの動作の大部
分が、ターゲット命令セットとホスト命令セットとの間
の命令の変換に関係する場合に、該当する。これらの問
題は全て、命令の実行中に用いられるデータが、使用す
べきときに有効であることを保証する必要性に関係す
る。あるメモリ・アドレスに格納されているデータと実行
ユニット・レジスタに格納されているデータが異なるた
めに、特定の時点に一方または他方が無効となるような
場合が多数ある。例えば、通常であればコード・シーケ
ンスの間メモリ空間からレジスタに頻繁にロードされる
データを保持するためにワーキング・レジスタ111を用
いている場合、実行ユニット・レジスタ内のデータを用
いるコード・シーケンスが完了する前に、ある命令がそ
のメモリ・アドレスに書き込みを行う可能性がある。こ
のような場合、コード・シーケンスが利用している実行
ユニット・レジスタ内のデータは、陳腐化し、更新しな
ければならなくなる。一例として、通常ではコード・シーケンス中あるメモ
リ・アドレスに頻繁に格納するデータを保持するため
に、あるワーキング・レジスタを用いている場合、メモ
リの代わりに実行ユニット・レジスタを用いるコード・
シーケンスが完了する前に、ある命令が当該メモリ・ア
ドレスに書き込みを行おうとする場合がある。通常であ
ればメモリ・アドレスにあるデータをコード・シーケン
スの終了時にのみ更新するモード（ライト・バック・モ
ード）でホスト・プロセッサが機能している場合、実行
ユニット・レジスタ内のデータは陳腐化し、当該メモリ
・アドレスに書き込まれたデータから更新しなければな
らない。勿論、このメモリ・アドレスにあるデータを実
行ユニット・レジスタに書き込む毎に通常通り更新する
モード（ライト・スルー・モード）でホスト・プロセッ
サが実行しているのであれば、レジスタとメモリは一貫
性がある。更に他の例として、通常であればコード・シーケンス
中頻繁にメモリ・アドレスに格納するデータを保持する
ために、ワーキング・レジスタを用いている場合、レジ
スタ111にデータを転送するコード・シーケンスが完了
する前に、ある命令がそのメモリ・アドレスからデータ
を読み出そうとする場合がある。コード・シーケンスの
終了時にのみ通常メモリ・アドレスにあるデータを更新
するモード（ライト・バック・モード）でホスト・プロ
セッサが機能している場合、メモリ内のデータは陳腐化
してしまい、読み取りを許可する前に、実行ユニット・
レジスタからのデータによって更新しなければならな
い。前述の例におけると同様、そのメモリ・アドレスに
あるデータを実行ユニット・レジスタに書き込む毎に通
常それを更新するモード（ライト・スルー・モード）で
ホスト・プロセッサが機能している場合、レジスタとメ
モリは一貫性がある。他にも、メモリに保持されているデータとエイリアス
・レジスタに保持されているデータが矛盾する場合があ
り得る。何故なら、モーフ・ホストとコード・モーフィ
ング・ソフトウエアとの組み合わせによって形成したマ
イクロプロセッサは、実行を加速するために、ホスト命
令の並び替えおよび再スケジューリングを行うように構
成されているからである。以下に提示するコード・シー
ケンスの様々な例に見られるように、一旦メモリ・デー
タを実行ユニット・レジスタ内にエイリアスし、コード
・シーケンスの実行中に使用するようにしたなら、実行
ユニット・レジスタ内のデータを他のレジスタにコピー
し、次いで命令を並び替え再スケジューリングするプロ
セスを行うことができる。並び替えおよび再スケジュー
リングが行われたならば、コード・シーケンス内の命令
を、エイリアスされているメモリ・アドレスに書き込む
ことが可能となるので、実行ユニット・レジスタ内のデ
ータは、再度使用する前に更新しなければならない。し
かしながら、実行ユニット・レジスタ111内において既
に陳腐化したデータを追加のレジスタに既にコピーして
おり、これらのレジスタを用いる命令のコード・シーケ
ンスが既に変化している場合、データをコピーした先の
レジスタにある陳腐化データを、コード・シーケンスを
実行する際に利用する場合がある。このようにして、二
次的な非一貫性が発生する可能性がある。保護されているメモリ・アドレスからのロードおよび
このメモリ・アドレスへの格納が起こらないことを確実
にすることにより、ロードまたは格納動作の後、メモリ
・アドレスおよびレジスタ111内のデータが一致するこ
との確認を不要とするために、メモリ制御ユニット内の
比較器113が、アドレス・レジスタ112と関連付けられて
いる。比較器113は、変換中メモリからのロードおよび
メモリに向けられたゲート格納バッファへの格納のアド
レスを受け取る。ロードまたは格納のいずれかに対する
メモリ・アドレスをレジスタ112（または実施形態によ
っては追加のレジスタ）内のアドレスと比較した場合、
モードによっては例外が発生する可能性がある。コード
・モーフィング・ソフトウエアは、メモリ・アドレスお
よび例外ユニット・レジスタ111が同じ正しいデータを
保持していることを確認することによって、この例外に
応答する。これによって、前述の非一貫性を補正するこ
とが可能となる。コード・モーフィング・ソフトウエアが応答する方法
は、個々の例外によって異なる。データが同一でない場
合、一実施形態では、変換をロール・バックし、実行ユ
ニット・レジスタ内に「エイリアス」データがない状態
で、再実行する。このような解決法によって、コード・
シーケンスの並び替えまたは再スケジューリングを行う
前に、メモリと実行ユニット・レジスタとの間、および
メモリと実行ユニット・レジスタ111からのデータをコ
ピーした他のレジスタとの間の非一貫性の補正が可能と
なる。この問題を補正する他の可能な方法として、実行
ユニット・レジスタを最新のメモリ・データで更新する
か、あるいはメモリを最新のロード・データで更新する
ことが挙げられる。メモリ・アドレスをエイリアスし、当該メモリ・アド
レスからのロードを不要にする期間中、比較器はこのメ
モリ・アドレスに書き込もうとする試みを探す。何故な
ら、新たなデータがこのメモリ・アドレスに書き込まれ
た場合、実行ユニット・レジスタ111内のデータは陳腐
化する可能性があるからである。このような場合、比較
器113は、保護されているメモリ・アドレスに対する書
き込みの試みを検出し、このような試みがあった場合、
例外を発生する。この例外により、レジスタ・データを
更に使用する前に、メモリ内のデータをレジスタ111に
書き込んでこのレジスタを更新するか、あるいは実行ユ
ニット・レジスタを用いないコードのロールバックおよ
び実行によって、エイリアス最適化を行う。これは、タ
ーゲット・コードの再変換を伴う場合がある。メモリ・アドレスをエイリアスすることにより、レジ
スタ111を用いる順次格納動作がこのメモリ・アドレス
を表すことを可能にする期間中、このメモリ・アドレス
への格納に対する例外の発生は、エイリアスのチェック
を行うことなくレジスタ111からこのメモリ・アドレス
への格納を行うことができるモード（ライト・スルー・
モード）に回路を置くコマンドによってディスエーブル
し、これにより、メモリの保護されているアドレスに対
するレジスタからの連続的な格納を可能にする。あるいは、メモリ・アドレスをエイリアスすることに
より、レジスタ111を用いる格納動作がこのメモリ・ア
ドレスを表すことを可能にする間、コード・シーケンス
が完了するまでまたはそれ以外の場合で終了するまで、
そのメモリ位置のデータを更新しないモード（ライト・
バック・モード）に回路を置くことができる。このよう
なモードでは、命令によるこのメモリ・アドレスへの書
き込みは、実行ユニット・レジスタ内に保持されている
データを更新し、新たなデータとの一貫性を保つことが
必要な場合がある。一方、このようなモードでは、メモ
リ・アドレスを読み取ろうとする試みには、それを読み
取る前に、例外を発生しメモリ空間に保持されているデ
ータを更新し、実行ユニット・レジスタ内の新たなデー
タとの一貫性を保つことができるようにする必要があ
る。図12は、保護されたメモリ空間に対するロードおよび
格納動作を検出し制御する比較器120の一実施形態を含
むエイリアス回路を示す。比較器120は、保護すべきメ
モリ・アドレスのエントリに対して、コンテント・アド
レサブル・メモリ（content addressable memory）のよ
うな、複数の格納位置122（その内１つのみを図示す
る）を含む。例えば、エントリに対して８つの位置があ
る場合がある。各エントリは、当該メモリ位置に物理ア
ドレスを格納するために十分な数のビット位置（例え
ば、32）、バイト・マスク、および種々の属性ビットを
含む。属性ビットの中には、保護メモリのサイズを示す
ものや、メモリ・アドレスが正常かあるいは異常かを示
すものがある。比較器120内のエントリに対する位置は
各々、図10に示すレジスタ112と同等であるので、比較
器120は、図10のレジスタ112および比較器113双方の目
的を達成することを注記しておく。また、エイリアス回路は、エイリアス・イネーブル・
レジスタ124、エイリアス・イネーブル・レジスタをシ
ャドウ（shadow）するためのレジスタ125、エイリアス
・フォールト・レジスタ126,エイリアス回路がイネーブ
ルされていることの指示（例えば、単一ビット）を格納
するレジスタ127,およびモード・ビットを格納するレジ
スタ128も含む。動作において、保護すべき物理アドレスを、バイト・
マスクと共に、エントリに対する位置の１つに格納す
る。バイト・マスクのビットは、その位置のどのバイト
が保護されているのかを示す。このような物理アドレス
は、64ビットのデータをアドレスする場合があるので、
バイト・マスクの各ビットは、そのアドレスにあるデー
タの１バイトを示す。保護されている特定のエントリ
は、ハードウエア・イネーブル・レジスタ124の特定の
ビットをセットすることによって示す。レジスタ125
は、変換の間、コミット点においてレジスタ124内の値
をシャドウし、変換の間にロールバックを行うことを可
能にする。図示した実施形態では、イネーブル・レジス
タ24およびシャドウ・イネーブル・レジスタは、物理的
に、格納位置122の属性ビットとして分配されている。レジスタ127によって示されるようにエイリアシング
がイネーブルされると、レジスタ128によって示される
ようにモードがセットされている状態に応じて、比較器
は物理メモリ・アドレスとバイト・マスクを保持し、こ
れらを用いてメモリに対する格納またはロードおよび格
納双方のアドレスを検査する。モードがライト・スルー
状態にセットされている場合、保護されているメモリ・
アドレスのデータを保持する実行ユニット・レジスタか
ら継続的にメモリを更新し、そのメモリ・アドレスから
他のアドレスへのロードが常に最新となり、チェックす
る必要をなくすようにする。しかしながら、このメモリ
・アドレスへの格納は、実行ユニット・レジスタ112内
のデータを無効化する可能性があるので、これらの格納
を試験する必要がある。格納が保護アドレスに対するも
のであり、そのバイト・マスクが、比較器120に保持さ
れているメモリ・アドレスにおける保護バイトにデータ
を格納していることを示す場合、比較器はエイリアス例
外を発生し、ライト・スルー・モードにおける格納を試
験する。一方、モードがライト・バック状態にセットされてい
る場合、エイリアス・ハードウエアが解除されたときま
たは例外が発生したときにのみ、メモリ・アドレスを更
新する。その結果、このメモリ・アドレスにあるデータ
は陳腐化する可能性があるので、エイリアス・ハードウ
エアをイネーブルするときに、ロードおよび格納双方を
試験しなければならない。これを行うために、ロードま
たは格納のいずれかが保護アドレスに対するものであ
り、そのバイト・マスクが、比較器120内に保持されて
いるメモリ・アドレスの保護バイトにおいてデータをア
クセスしていることを示す場合、比較器はエイリアス例
外を発生する。いずれかのモードにおいて発生した例外は、エイリア
ス・フォールト・レジスタ126内の適切なビットをセッ
トし、例外を発生したアドレスを指定する。コード・モ
ーフィング・ソフトウエアの特定の例外ハンドラにした
がって、発生した特定の例外は、問題を補正するために
修復またはロールバックを行うことができる。問題の修
復により、最新のデータを、実行ユニット・データ・レ
ジスタの影響を受けた特定のバイト、およびメモリ・ア
ドレス内に置く。ロールバックにより、レジスタの状態
を、ターゲット・レジスタ内に保持されている状態で置
換する。これは、レジスタ125に保持されている状態に
ロール・バックするイネーブル・レジスタ124の状態を
含む。エイリアス検出ハードウエアを用いてロードおよび格
納を除去する最適化を可能とし、更に除去したロードお
よび格納に応じて動作の並び替えおよび再スケジューリ
ングも可能にすることについて述べた。スーパースカラ
ーまたはVLIWマシンのような、並列実行資源を有するマ
シンにおいて、並び替えは、より良い動作のスケジュー
リングを可能にする。前述の方法は、ロードや格納動作を除去することな
く、ロードおよび格納に応じて、動作の安全な並び替え
を可能にするために用いることもできる。これによっ
て、スケジューリング能力が改善され、ロードまたは格
納動作の繰り返しがない場合のコードに有用となる。前述のマイクロプロセッサは、典型的なコンピュータ
・エレメントを有する回路に接続すれば、図９に示すよ
うなコンピュータを形成可能であることは、当業者には
認められよう。図に見られるように、最近のX86コンピ
ュータに用いる場合、前述のマイクロプロセッサをプロ
セッサ・バスを介してメモリおよびバス制御回路に結合
する。メモリおよびバス制御回路は、主メモリおよび、
マイクロプロセッサと共に利用可能なキャッシュ・メモ
リへのアクセスを与えるように構成されている。また、
メモリおよびバス制御回路は、PCIまたはその他のロー
カル・バスのようなバスへのアクセスも与え、このバス
を通じてI/Oデバイスにアクセスすることができる。個
々のコンピュータ・システムは、本発明のプロセッサに
よって置換される典型的なマイクロプロセッサと共に用
いられる回路に依存する。プロセッサの動作、および実行中の加速化を行う態様
を示すために、X86ターゲットコードの小さなサンプル
のホスト原始命令への変換を、ここで提示する。このサ
ンプルは、X86ターゲット命令のモーフ・ホスト命令へ
の変換を示し、本発明を含むマイクロプロセッサによ
る、最適化、並び替え、および再スケジューリングのス
テップの様々な例を含む。例示するプロセスを追って行
くことにより、ターゲット・プロセッサを用いて元の命
令を実行する際に必要な動作と、ホスト・プロセッサ上
で変換を実行する際に必要な動作との間の大幅な差が、
当業者には明白となろう。Ｃ言語のソース・コードで例示した元の命令は、非常
に短いループ処理を記述する。本質的に、各ループの後
に減分される変数「ｎ」が「０」より大きい間、値
「ｃ」が、ポインタ「＊ｓ」が示すアドレスに格納され
る。ポインタ「＊ｓ」は各ループの後に増分される。元のＣコードこのＣコードをコンパイルしたコンパイラによって生成
されたWin32x86命令表記：［...］は、メモリ・オペランドに対するアドレ
ス表現を示す。先の例では、メモリ・オペランドに対す
るアドレスは、レジスタの内容を、Oxプレフィクスが示
す16進定数に加算することによって形成される。ターゲ
ット・レジスタは、％プレフィクスで示される。例え
ば、％ecxは、excレジスタを示す。動作の宛先は左側で
ある。このサンプルの第１部分では、Ｃ言語の命令文によっ
て定義される動作の実行を行うための個々のX86アセン
ブリ言語の命令は各々、当該動作に対するアセンブリ言
語のニモックによって表に纏められており、特定の原始
動作に含まれるパラメータがこれに続く。動作の説明
も、各命令毎のコメントにおいて与えることにする。実
行の順序は、ターゲット・プロセッサでは、図示のもの
とは異なる場合もあるが、これらのアセンブリ言語命令
の各々は、ターゲットＣ言語命令を実行する際に、ルー
プを実行する毎に実行しなければならない。したがっ
て、ループが100回行われる場合、以上に示した各命令
は100回実行されなければならない。以上に示した各X86命令、およびそれに続いて、X86命令
を実装するために必要なホスト命令を示す。次のサンプルは、Ｃ言語命令を実行する、同じターゲ
ット原始命令を示す。しかしながら、各原始ターゲット
命令の次に、マイクロプロセッサの一特定実施形態にお
いて同じ動作を行うために必要な原始ホスト命令を纏め
てある。このマイクロプロセッサでは、モーフ・ホスト
はここに記載したように設計されたVLIWプロセッサであ
る。オフィシャル・ターゲット・レジスタによってシャ
ドウされたホスト・レジスタは、「Ｒ」で示し、その後
ろにX86レジスタ名称が続くので、例えば、Reaxは、EAX
オフィシャル・ターゲット・レジスタと連動するワーキ
ング・レジスタであることを注記しておく。 X86アドレス計算およびセグメントの上限および下限チ
ェックを行うために必要なホスト命令を追加する。次のサンプルは、原始ターゲット命令の各々につい
て、ホスト原始命令の追加を示し、これによって、ター
ゲット動作に必要なアドレスを、コード・モーフィング
・ソフトウエアによって発生することができるものであ
る。ホスト・アドレス発生命令は、アドレス発生ハード
ウエアの代わりに、コード・モーフィング・ソフトウエ
アをアドレス発生に用いるマイクロプロセッサの実施形
態においてのみ必要となることを注記しておく。X86マ
イクロプロセッサのようなターゲット・プロセッサで
は、アドレス発生ハードウエアを用いてこれらのアドレ
スを発生する。このような実施例においてアドレスが発
生したときはいつでも、計算が行われ、また、ホスト原
始命令が追加され、アドレス値をチェックすることによ
って、算出されたアドレスが適切なX86セグメントの限
度内にあることを判定する。ターゲットX86命令ポインタ「eip」を維持するための命
令、および特殊なモーフ・ホスト・ハードウエアを用い
てX86の状態を更新するコミット命令を追加する。このサンプルは、原始ホスト命令の各組に２ステップ
を追加することによって、ゲート格納バッファ内のアン
コミット値をメモリにコミットするために必要なホスト
命令の実行後に、各原始ターゲット命令を実行し、オフ
ィシャル・ターゲット・レジスタを更新することを例示
する。サンプルに見られるように、各場合において、タ
ーゲット命令の長さを、ワーキング命令ポインタ・レジ
スタ（Reip）内の値に加算する。次に、コミット命令を
実行する。一実施形態では、コミット命令は、連動する
オフィシャル・ターゲット・レジスタにシャドウされて
いる各ワーキング・レジスタの現在値をコピーし、ゲー
ト格納バッファのゲートの位置を指定するポインタ値
を、アンコミットの格納の直前から、それらの格納の直
後に移動させ、それらをメモリ内に置くようにする。上記の最後に示した命令のリストは、元のターゲット
・アセンブリ言語命令のホスト変換を形成するために必
要な命令の全てであることは認められよう。変換がこの
時点で停止した場合、原始ホスト命令の数は、ターゲッ
ト命令の数よりもはるかに多くなり（恐らく、６倍多い
命令）、その実行は、ターゲット・プロセッサ上での実
行よりも長くかかる可能性がある。しかしながら、この
時点では、並び替えや、最適化や、再スケジューリング
は未だ行われていない。命令を１度だけ走らせる場合、更に並び替えやその他
の最適化も行うために要する時間は、この時点で存在す
る変換を実行するための時間よりも長くなるということ
になり得る。その場合、マイクロプロセッサの一実施形
態では、この時点で変換を中止し、変換を格納し、次い
でそれを実行して例外またはエラーが発生するか否かに
ついて判定を行う。この実施形態では、並び替えおよび
その他の最適化のステップが行われるのは、特定の変換
をある回数走らせることまたは最適化すべきことを決定
した場合のみである。これは、例えば、ホスト命令を各
変換に置き、変換を実行した回数を数え、ある値に達し
たときに例外（または分岐）を発生することによって行
われる。例外（または分岐）は、動作をコード・モーフ
ィング・ソフトウエアに転送し、次いでコード・モーフ
ィング・ソフトウエアは、以下の最適化の一部または全
部、および当該変換に有用と判定されたあらゆる追加の
最適化を実現する。変換を走らせた回数を判定し、最適
化を要求する第２の方法は、ある頻度でまたはある統計
的基準に基づいて、変換の実行を中断し、その時点で走
っているいずれの変換も最適化することである。これ
は、究極的に、最も頻繁に走らせる命令を最適化しよう
とするものである。別の解決策として、ループを形成す
るものや、その他に最も頻繁に走らせる可能性があるも
ののような、ある特定の形式のホスト命令の各々を最適
化することも挙げられよう。最適化このサンプルは、改良マイクロプロセッサを利用して
実施可能な最適化の第１段を例示する。この最適化段
は、コード・モーフィング・ソフトウエアの他の動作の
多くと同様、最適な結果を想定する。特定の最適化は、
X86プロセッサ・ファミリによって与えられるフラット
・メモリ・モデルに対して書かれた32ビット・プログラ
ムとして開始したターゲット・アプリケーション・プロ
グラムが、そのようなプログラムとして継続することを
想定する。このような想定は、X86ファミリに特定なも
のであり、エミュレート対象の他のプロセッサ・ファミ
リでは必ずしも適用される訳ではないことを注記してお
く。この想定を行った場合、X86用アプリケーションで
は、全てのセグメントが同一アドレス空間にマップされ
る。これによって、X86セグメンテーション・プロセス
が要求する原始ホスト命令を除去することが可能とな
る。サンプルに見られるように、最初にセグメント値を
ゼロにセットする。次に、データのベースをゼロにセッ
トし、限度を最大使用可能メモリにセットする。する
と、ターゲット原始命令を実行するための各組の原始ホ
スト命令において、セグメンテーションに必要なセグメ
ント・ベース値のチェック、およびセグメント・ベース
・アドレスの計算双方が不要となる。これによって、ア
ドレシング機能を必要とする各ターゲット原始命令に対
して、２つのホスト原始命令が実行すべきループを減少
する。この時点では、メモリ上限に対するホスト命令チ
ェックは未だ存在する。この最適化には、アプリケーションが32ビット・フラ
ット・メモリ・モデルを利用することを記した思索を必
要とすることを注記すべきであろう。これが真でない場
合、主ループが制御転送の宛先を解明し、転送元の想定
が宛先の想定と一致しないことを検出する際に、エラー
が発見される。すると、新たな変換が必要となる。この
技法は非常に一般的であり、種々のセグメンテーション
およびその他の「モード化」の場合において、デバッ
グ、システム管理モード、または「リアル」モードのよ
うに、「モード」が頻繁に変化する場合に適用可能であ
る。アドレスされたデータはコンピュータ・メモリの限度以
外のバイトを含まないと想定する。限度を超える可能性
があるのは、メモリ上限においてメモリ参照と交差する
整合されていないページ上においてのみであり、特殊ケ
ース用ソフトウエアまたはハードウエアによって処理可
能である。このサンプルは、最適化の次の段階を例示する。この
場合、思索的な変換（speculative translation）によ
って、メモリ・アドレス空間の上端においてメモリ参照
と交差する整合されていないページに対してのみ必要
な、上側のメモリ境界チェックを不要にする。この想定
の失敗は、ハードウエアまたはソフトウエアの整合解決
（fix up）によって検出される。これによって、アドレ
シングを必要とする各ターゲット原始命令毎に、ホスト
原始命令１つだけ変換が減少する。この最適化は、アプ
リケーションが32ビット・フラット・メモリ・モデルを
利用するという先に記した想定、および命令が整合され
ているという思索の双方を必要とする。これらが真でな
い場合、変換を実行した際に失敗に終わり、新たな変換
が必要となる。冗長なアドレス算出を検出し除去する。この例は、冗長
な動作を除去した後のコードを示す。このサンプルは、次の最適化を例示する。この場合、
共通のホスト表現を除去する。即ち、２番目のターゲッ
ト原始命令を変換する際、ワーキング・レジスタRebp
（X86プロセッサのスタック・ペース・ポイント・レジ
スタを表すワーキング・レジスタ）内の値を、オフセッ
ト値0x8に加算し、ホスト・ワーキング・レジスタR2に
置く。直前のサンプルにおいてターゲット原始命令５を
変換する際に同じ動作を行ったが、加算の結果はワーキ
ング・レジスタR5に置かれたことを注記しておく。その
結果、ワーキング・レジスタR5に置かれる値は、ホスト
原始命令５が生じようとするときには、既にワーキング
・レジスタR2に存在する。したがって、ホストの加算命
令を、ターゲット原始命令５の変換から除去することが
でき、ワーキング・レジスタR2内の値をワーキング・レ
ジスタR5にコピーすればよい。同様に、ワーキング・レ
ジスタRebp内の値をオフセット値0x10と加算するホスト
命令も、ターゲット原始命令８の変換では除去すること
ができる。何故なら、このステップは既にターゲット原
始命令６の変換において行われており、結果はレジスタ
R7にあるからである。この最適化は思索に依存せず、そ
のため失敗や再変換がないことを注記しておく。変換内ではターゲット例外が発生せず、したがって、ei
pやターゲット状態を更新する際の遅延も発生しないと
仮定する。この例は、変換全体を構成する原始ターゲット命令の
変換が、例外を発生することなく行うことができると思
索する最適化を例示する。これが真であれば、オフィシ
ャル・ターゲット・レジスタを更新したり、個々のター
ゲット原始命令を実行するホスト原始命令の各シーケン
ス毎に、その終了時に格納バッファにおけるアンコミッ
トの格納をコミットする必要がなくなる。思索が真であ
れば、ターゲット原始命令のシーケンスの終了時に、オ
フィシャル・ターゲット・レジスタだけを更新すればよ
く、格納をコミットするのは一度だけでよい。これによ
って、各原始ターゲット命令を実行するための原始ホス
ト命令を２つ除去することが可能となる。これらは、オ
フィシャル・ターゲット・レジスタを更新し、アンコミ
ットの格納をメモリにコミットする単一のホスト原始命
令と置換する。これは、別の思索的動作であり、これも正しい思索を
含む可能性が非常に高いことは理解されよう。このステ
ップは、思索が真であれば、従来技術のエミュレーショ
ン技術全てに対して、非常に大きな利点を提供すること
になる。これは、ターゲット原始命令のシーケンス全体
を実行する原始ホスト命令の全てを、１つのシーケンス
に集合化し、その中で個々のホスト原始命令の全てを一
緒に最適化することができる。これには、超長命令ワー
ド技術を利用したモーフ・ホスト上で多数の動作を並列
に走らせることができるという利点がある。また、これ
によって、より多数のその他の最適化も可能となる。何
故なら、このような最適化に対する選択肢が広がるから
である。更にまた、しかしながら、思索が真でないこと
が判明し、ループの実行時に例外が発生した場合、オフ
ィシャル・ターゲット・レジスタおよびメモリは、ター
ゲット原始命令のシーケンスの開始時に存在したオフィ
シャル・ターゲットの状態を保持している。何故なら、
ホスト命令のシーケンスが実際に実行されるまで、コミ
ットは生じないからである。例外から復元するために必
要な全ては、アンコミットの格納を消去し、オフィシャ
ル・レジスタをワーキング・レジスタにロールバック
し、シーケンスの開始時にターゲット原始命令の変換を
再度開始することである。この再変換は、１度に１ター
ゲット命令ずつの変換を行い、各ターゲット原始命令を
表すホスト・シーケンスを変換した後に、オフィシャル
状態を更新する。次に、この変換を実行する。この再変
換において例外が発生した場合、この例外を実行するた
めに、オフィシャル・ターゲット・レジスタおよびメモ
リにおいて、正しいターゲット状態を直ちに得ることが
できる。この要約は、最適化プロセスのこの時点において残っ
ているホスト原始命令のシーケンスを例示する。この例
は、ターゲット命令ポインタ（EIP）インラインの維持
を示すが、変換時に分岐のためのポインタEIPをライン
外に維持することが可能である。この場合、ポインタEI
P更新シーケンスをこのステップおよび本例の後続のス
テップから除去することができる。レジスタ資源依存性を低下させるための名称変更。これ
によって、以降のスケジューリングが一層効果的とな
る。この時点以降、個々のターゲットX86命令とホスト
命令との間の関係が増々曖昧になるので、元のターゲッ
トX86コードを省略する。このサンプルは、通常レジスタ名称変更と呼ばれる、
最適化の次のステップを示す。ここでは、ホスト原始命
令のシーケンスにおいて１回以上の動作に用いられるワ
ーキング・レジスタを必要とする動作は、異なる不使用
のワーキング・レジスタを利用するように変更され、２
つのホスト命令が同じハードウエアを必要とするという
可能性をなくす。したがって、例えば、先の２つのサン
プルにおいて、２番目のホスト原始命令は、オフィシャ
ル・ターゲット・レジスタECXを表すワーキング・レジ
スタRecxを使用する。10番目のホスト原始命令も、ワー
キング・レジスタRecxを使用する。２番目のホスト原始
命令における動作を変更し、R0内のアドレスによって示
される値を、レジスタRecxではなく、ワーキング・レジ
スタR1に格納することにより、先の２つのホスト命令が
双方とも同じレジスタを使用する事態は避けられる。同
様に、４番目、５番目、および６番目の原始命令も、先
のサンプルでは、全てワーキング・レジスタReaxを利用
する。４番目のホスト原始命令を変更し、ワーキング・
レジスタReaxの代わりに、それまで不使用のワーキング
・レジスタR3を利用するようにし、更に６番目のホスト
原始命令を変更して、レジスタReaxの代わりに、それま
で不使用のワーキング・レジスタR4を利用することによ
って、これらのハードウエア依存性がなくなる。ホストVLIWハードウエア上で並列に実行可能な多数の動
作として、原始ホスト動作を組織化するスケジューリン
グ・プロセスの後。各行は、VLIWマシンが実行する並列
動作を示し、”＆”は並列であることを示す。このサンプルは、モーフ・ホスト上で実行するための
ホスト原始命令のスケジューリングを示す。この例で
は、モーフ・ホストをVLIWプロセッサと仮定し、コード
・モーフィング・ソフトウエアと協同するために備えら
れたハードウエア機能強化に加えて、処理ユニットの中
でもとりわけ、２つの算術および論理（ALU）ユニット
が含まれている。最初の行は、モーフ・ホスト上で一緒
に走るようにスケジュールされた２つの個別の加算命令
を示す。サンプルに見られるように、これらは、先の要
約の直前のサンプルにおける３番目および８番目の原始
ホスト命令である。２番目の行は、NOP（無動作である
が、次の命令に進む）命令および別の加算命令を含む。
NOP命令は、何らかのスケジューリング最適化を行った
後でも、一緒に走らせることができる命令が常に２つあ
るとは限らないことを示す。いずれにしても、このサン
プルは、この時点では９組の原始ホスト命令のみが、元
の10個のターゲット命令を実行するために残されている
ことを示す。ホスト分岐ターゲットおよび連鎖格納変換の解決このサンプルは、本質的に、ホスト原始命令の同じ組
を例示するが、命令はこの時点では、変換バッファに格
納され、１回以上実行されている点で異なる。何故な
ら、最後のジャンプ（jp）命令が、ここでは、変換され
た命令の別のシーケンスに連鎖することによって与えら
れたジャンプ・アドレスを示すからである。連鎖プロセ
スは、シーケンスの変換が完了していれば、変換部のメ
イン・ループから命令のシーケンスを取り出す。進んだ最適化、逆方向コード移動これ以降の例は、スケジューリングに先立つコードから
始まる。この最適化は、まず、コードがループであるこ
との検出に依存する。次に、ループ本体から不変の動作
を除去し、ループ本体に入る前に１回実行することがで
きる。この例は、大抵は多数回繰り返されるシーケンスでの
み利用される進んだ最適化ステップを例示する。このプ
ロセスは、最初に、ループを形成する変換を検出し、個
々の原始ホスト命令を調べて、ループ本体内で一定の結
果を生成する命令を判定する。これらの命令をループ本
体から除去し、１回だけ実行して、レジスタ内に値を置
く。その時点以降、このレジスタに格納した値を用い、
命令を再度走らせることはしない。逆方向コード移動後のループ本体のスケジューリング。
例示の目的のために、ループ本体内のコードのみをスケ
ジューリングして示す。これら繰り返しのない命令をループから除去し、シー
ケンスを実行のためにスケジューリングすると、スケジ
ューリングされた命令は、この最後のサンプルのように
なる。初期の命令は実行されるが、ループの最初の繰り
返しの間に１度だけであり、その後は、図示の７つのク
ロック・インタバルに残っているホスト原始命令のみ
が、ループの間に実行されることがわかる。したがっ
て、実行時間は、原始ターゲット命令を実行するために
必要な10命令から、７命令インタバルに短縮した。サンプルからわかるように、ループから除去したステ
ップは、アドレス発生ステップである。したがって、ア
ドレス発生は、改良マイクロプロセッサでは、ループ呼
び出し毎に１回だけ行えばよい。即ち、アドレス発生は
１回だけ行えばよい。一方、X86ターゲット・プロセッ
サのアドレス発生ハードウエアは、これらのアドレス
を、ループを実行する毎に発生しなければならない。ル
ープを100回実行する場合、改良マイクロプロセッサは
１回だけアドレスを発生するのに対して、ターゲット・
プロセッサは、各アドレスを100回発生することにな
る。逆方向コード移動の後これは、変数を安全にメモリからレジスタに移動させる
ことができる。モーフ・ホストのレジスタ・エイリアス
検出ハードウエアの使用を示す。開始点は、「逆方向コ
ード移動」の後のコードである。これは、ロードを除去
することができる最適化を示す。最初にロードを実行す
る。エイリアス・ハードウエアによってアドレスは保護
されており、このアドレスに対する格納が行われると、
「エイリアス」例外が発生する。次に、ループ本体内の
ロードをコピーと置換する。ループの本体の後、エイリ
アス・ハードウエアを解放する。このサンプルは、更に進んだ最適化を例示し、本発明
を含むマイクロプロセッサによって実施することができ
る。このサンプルより２つ前のサンプルを再度参照する
と、最初の３つの加算命令が、スタック上のアドレスの
計算を伴っていたことに気が付くであろう。これらのア
ドレスは、ホスト動作のシーケンスの実行中変化しな
い。つまり、これらのアドレスに格納されている値は、
メモリから検索し、実行のために直ちに得ることができ
るレジスタにロードしておけばよい。サンプルに見られ
るように、これはホスト原始命令6,8,および10において
行われる。命令7,9および11では、メモリ・アドレスの
各々に、特殊なホスト・エイリアス・ハードウエアによ
って保護されているという印が付けられており、レジス
タは、これらのメモリ・アドレスのエイリアスとして示
されているので、そのデータを変更しようとするいずれ
の試みも、例外の原因となる。この点において、これら
のスタック・メモリ・アドレスからのデータ移動を伴う
ロード動作の各々は、単純なレジスタ間コピー動作とな
り、これは、メモリ・アドレスからのロードよりも格段
に速く進展する。ｎ＝０まで一旦ループを実行し終えた
なら、エイリアス・レジスタを他のために利用できるよ
うに、メモリ・アドレスの各々から保護を除去しなけれ
ばならないことを注記しておく。コピー伝搬エイリアス・ハードウエアを用いて、ループ本体内のロ
ードをコピーに転換した後、コピー伝搬によって、いく
つかのコピーを不要とすることができる。このサンプルは、最適化の次の段階を示す。ここで
は、最後のサンプルで示した最適化においてロード命令
を置換したコピー命令の殆どが不要であり、除外しても
よいことを認識する。即ち、レジスタ間コピー動作が行
われると、データをコピーした元のレジスタ内に、その
動作前のデータが存在する。その場合、データは、それ
がコピーされたレジスタではなく、最初のレジスタにア
クセスすることができ、コピー動作を除去することがで
きる。これからわかるように、最後のサンプルのループ
内に示す。先頭、２番目、５番目および９番目の原始ホ
スト命令が除去される。加えて、ホスト原始命令の他の
ものに用いられているレジスタも変更され、当該データ
に対する正しいレジスタを反映する。したがって、例え
ば、最初と２番目のコピー命令を除去した場合、３番目
の格納命令は、データが存在するワーキング・レジスタ
Rc（レジスタR1ではなく）からデータをコピーし、ワー
キング・レジスタRs（レジスタR3ではなく）内に示され
るアドレスにそのデータを置かなければならない。ワー
キング・レジスタRsには、そのアドレスが存在する。ループ本体のみのスケジューリングを示す例上のサンプルにスケジューリング後のホスト命令を示
す。このシーケンスは、ソース・コードから当初デコー
ドされた原始ターゲット命令を実行するよりも、ループ
を実行するのに必要なクロックが少なくて済むことを注
記しておく。したがって、行われた他の加速化の全てと
は別に、結合された動作を走らせる総回数は、元のター
ゲット・コードを実行するために必要な動作よりも、単
純に少なくなる。エイリアス・ハードウエアの使用による格納の除去このサンプルに示す最終的な最適化は、エイリアス・
ハードウエアの使用による格納の除去である。これは、
ループ本体内から格納を除去し、それらをループの結び
においてのみ実行する。これによって、ループ本体内の
ホスト命令数が、元の10個のターゲット命令と比較し
て、３つに減少する。以上、好適な実施形態に関して本発明の説明を行った
が、本発明の精神および範囲から逸脱することなく、当
業者には種々の変更や変形も可能であることは認められ
よう。例えば、本発明は、X86プロセッサのエミュレー
ションに関して説明したが、本発明は、同様に、他のプ
ロセッサ・アーキテクチャに設計されたプログラム、お
よびＰコード、Postscript、またはJavaプログラムのよ
うな仮想マシン上で実行するプログラムにも適用される
ことは理解されよう。したがって、本発明は、以下の請
求の範囲に沿って解釈すべきものとする。

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開平４−367953（ＪＰ，Ａ) 特開平３−158929（ＪＰ，Ａ) 特開平１−255933（ＪＰ，Ａ) 特開平３−255535（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 9/38 G06F 9/30

Claims

(57)【特許請求の範囲】

【請求項１】プロセッサによる一連の命令の実行中に発
生するデータのメモリ内への格納を制御するためのバッ
ファであって、各々メモリにアドレスされたデータと、該データのアド
レスとを保持することができる、複数の格納位置と、プロセッサの動作によって発生したデータを、該データ
が発生する毎に、前記一連の命令が実行を完了するま
で、前記格納位置へ転送する手段と、実行が完了していない一連の命令によって発生した、バ
ッファ内のデータを識別する手段と、メモリ・アクセスに応答して、特定のメモリ・アドレス
に送出される、バッファ内で最新のデータがどれである
かを検出する手段と、前記格納を発生する一連の命令が、例外またはエラーを
発生することなく、実行し終わった後、前記格納位置に
おけるデータをメモリに転送する手段と、前記格納を発生する一連の命令の実行が例外またはエラ
ーを発生した場合、前記格納位置内のメモリ格納を消去
する手段と、を備えることを特徴とするバッファ。
【請求項２】請求項１記載のバッファにおいて、メモリ
・アクセスに応答して、特定のメモリ・アドレスに送出
される、バッファ内で最新のデータがどれであるかを検
出する前記手段が、特定のメモリ・アドレスにアドレス
された、前記バッファ内の各々の最新のアドレス可能な
データ量を示す手段を備えることを特徴とするバッフ
ァ。
【請求項３】請求項２記載のバッファにおいて、実行が
完了していない一連の命令によって発生した、バッファ
内のデータを識別する前記手段が、実行を完了していな
い一連の命令によって発生した前記データを、該一連の
命令を実行し終わるまで、前記バッファ内の他のデータ
から分離する手段を備えることを特徴とするバッファ。
【請求項４】請求項３記載のバッファにおいて、前記一
連の命令を実行し終わるまで、前記データを前記バッフ
ァ内の他のデータから分離する前記手段が、前記バッフ
ァ内の一連のデータの先頭および末尾を示す手段である
ことを特徴とするバッファ。
【請求項５】請求項４記載のバッファにおいて、メモリ
・アクセスに応答して、特定のメモリ・アドレスにアド
レスされた、前記バッファ内の各々の最新のアドレス可
能なデータ量を示す前記手段が、前記バッファ内の一連
のデータの先頭と末尾との間の格納位置における古いデ
ータを、同一のメモリ・アドレスにアドレスされ、未だ
実行されていない前記一連の命令によって発生する新し
いデータで置換する手段を備えることを特徴とするバッ
ファ。
【請求項６】請求項４記載のバッファにおいて、メモリ
・アクセスに応答して、特定のメモリ・アドレスにアド
レスされた、前記バッファ内の各々の最新のアドレス可
能なデータ量を示す前記手段が、前記バッファ内に最新として置かれるデータを識別する
ための、アドレス可能な格納位置に対する第１のインデ
ィケータと、格納位置に置かれるデータのメモリ・アドレスと、既に
複数の格納位置にあるデータの複数のメモリ・アドレス
とを比較し、前記格納位置に置かれる前記データのメモ
リ・アドレスと同一のメモリ・アドレスを有するデータ
に対するインディケータを除去する比較器と、前記一連の命令のエラーまたは例外のない実行に応答し
て、前記格納位置にあるデータを、一連の命令によって
発生した最新のデータとして識別するための、アドレス
可能な格納位置に対する第２のインディケータと、前記格納を発生する一連の命令の実行が例外またはエラ
ーを発生した場合前記バッファから消去されるデータの
メモリ・アドレスと、消去されておらず、第２のインデ
ィケータによって、前記一連の命令のエラーまたは例外
のない実行に応答して、一連の命令によって発生した最
新のデータとして識別されたデータを識別するデータの
メモリ・アドレスとを比較し、最新として第１のインデ
ィケータを書き込む比較器と、を備えることを特徴とするバッファ。
【請求項７】請求項２記載のバッファにおいて、前記格
納を発生する一連の命令の実行が例外またはエラーを発
生した場合、前記格納位置内のデータを消去する前記手
段が、前記一連の命令を実行する際に発生したエラーま
たは例外に応答して、前記データを無効化するインディ
ケータを備えることを特徴とするバッファ。
【請求項８】請求項３記載のバッファにおいて、前記一
連の命令を実行し終わるまで、前記バッファ内の他のデ
ータからデータを分離する前記手段が、未だ実行されて
いない一連の命令からのデータを含むことを示された、
前記バッファの物理的に別個の部分に、一連のデータを
置く手段を備えることを特徴とするバッファ。
【請求項９】請求項８記載のバッファにおいて、メモリ
・アクセスに応答して、特定のメモリ・アドレスにアド
レスされた、前記バッファ内の各々の最新のアドレス可
能なデータ量を示す前記手段が、未だ実行されていない一連の命令からのデータを含むこ
とを示された、前記バッファの物理的に別個の部分にあ
る格納位置における古いデータを、同一のメモリ・アド
レスにアドレスされ、前記未だ実行されていない一連の
命令によって発生した新たなデータと置換する手段を備
えることを特徴とするバッファ。
【請求項１０】請求項８記載のバッファにおいて、前記
データを発生する一連の命令が、例外またはエラーを発
生することなく、実行し終わった後、前記格納位置にお
けるデータをメモリに転送する前記手段が、更に、前記
データは、エラーなく実行した一連の命令によって発生
したことを示す手段を備えることを特徴とするバッフ
ァ。
【請求項１１】請求項８記載のバッファにおいて、前記
格納を発生する一連の命令が、例外またはエラーを発生
することなく、実行し終わった後、前記格納位置におけ
るデータをメモリに転送する前記手段が、エラーまたは
例外なく実行し終えた一連の命令によって発生した、前
記バッファ内のデータのメモリ・アドレスを比較し、い
ずれのメモリ・アドレスにおいても、格納のために最新
のアドレス可能データのみを選択する比較器を備えるこ
とを特徴とするバッファ。
【請求項１２】プロセッサによる一連の命令の実行中に
発生するデータのメモリ内への格納を制御する方法であ
って、メモリ・アドレスと関連するデータを、該データが発生
する毎に、格納バッファの隔離部分に順次転送するステ
ップと、前記メモリ・アドレスのアクセスに応答して、前記格納
バッファにおいて、特定のメモリ・アドレスを有する最
新データを検出するステップと、前記一連の命令が例外またはエラーを発生しない場合、
前記格納バッファの前記隔離部分から全てのデータを転
送し、メモリに排出するステップと、前記一連の命令が例外またはエラーを発生した場合、前
記格納バッファの前記隔離部分から全てのデータを消去
するステップと、から成ることを特徴とする方法。
【請求項１３】請求項12記載の方法において、メモリ・
アドレスと関連するデータを、該データが発生する毎
に、格納バッファの隔離部分に順次転送する前記ステッ
プが、最初と最後の格納位置の指示の間の前記格納バッ
ファの部分にある連続格納位置に前記データを置くステ
ップを含むことを特徴とする方法。
【請求項１４】請求項13記載の方法において、前記一連の命令が例外またはエラーを発生しない場合、
前記格納バッファの前記隔離部分から全てのデータを転
送し、メモリに排出する前記ステップが、第１の格納位
置指示を移動させ最後の格納位置を指定するステップを
含み、前記一連の命令が例外またはエラーを発生した場合、前
記格納バッファの前記隔離部分から全てのデータを消去
する前記ステップが、前記最後の格納位置指示を移動さ
せ、前記第１の格納位置を指定するステップを含むこと
を特徴とする方法。
【請求項１５】請求項14記載の方法において、前記メモ
リ・アドレスのアクセスに応答して、前記格納バッファ
において、特定のメモリ・アドレスを有する最新データ
を検出する前記ステップが、いずれかのアドレス可能なデータが格納位置に置かれた
場合、これと共に、該データが、当該データに関連する
メモリ・アドレスに対する最新データであることの第１
の指示を置くステップと、いずれかのアドレス可能なデータが前記格納バッファの
前記隔離部分から転送される場合に、前記データと共
に、当該データが前記格納バッファの前記隔離部分から
最後に転送されたことの第２の指示を置くステップと、前記格納バッファの前記隔離部分にあるデータ全てを消
去する場合、第２の指示を有するいずれかのアドレス可
能なデータと共に、第１の指示を置くステップと、前記格納バッファ内に保持されているデータのメモリ・
アドレスのアクセスに応答して、前記メモリ・アドレス
と、アドレス可能な格納位置に保持されているいずれか
のデータの第１の指示とを比較するステップと、を含むことを特徴とする方法。
【請求項１６】請求項12記載の方法において、メモリ・
アドレスと関連するデータを、該データが発生する毎
に、格納バッファの隔離部分に順次転送する前記ステッ
プが、一連のデータを前記バッファの物理的に別個の部分に置
くステップと、前記格納バッファの前記物理的に別個の部分が、未だ実
行を完了していない一連の命令からのデータを含むこと
を示すステップと、を含むことを特徴とする方法。
【請求項１７】請求項16記載の方法において、前記メモ
リ・アドレスのアクセスに応答して、前記格納バッファ
において、特定のメモリ・アドレスを有する最新データ
を検出する前記ステップが、前記格納バッファの前記隔離部分内の同じメモリ・アド
レスにアドレスされたデータに対して、データの各々別
個にアドレス可能な部分を、前記格納バッファの前記隔
離部分に書き込むステップと、前記格納バッファ内の全データのメモリ・アドレスを、
アクセスされるあらゆるメモリ・アドレスと比較し、前
記格納バッファにおける最新データを検出するステップ
と、を含むことを特徴とする方法。
【請求項１８】請求項16記載の方法において、前記一連
の命令が例外またはエラーを発生しない場合、前記格納
バッファの前記隔離部分から全てのデータを転送し、メ
モリに排出する前記ステップが、前記格納バッファの前
記物理的に隔離された部分が、実行し終えた一連の命令
からのデータを含むことを示すステップを含み、前記一連の命令が例外またはエラーを発生した場合、前
記格納バッファの前記隔離部分から全てのデータを消去
する前記ステップが、前記格納バッファの前記物理的に
隔離された部分が無効であるデータを含むことを示すス
テップを含むことを特徴とする方法。
【請求項１９】請求項18記載の方法であって、更に、各
メモリ・アドレス毎に前記隔離部分から転送される全て
のデータのアドレスを比較し、いずれのメモリ・アドレ
スに対しても最新のデータのみをメモリに排出すること
により、前記格納バッファの前記隔離部分から転送され
る前記データの全てをメモリに排出するステップを含む
ことを特徴とする方法。
【請求項２０】第１の命令集合を実行可能なホスト・プ
ロセッサを有する処理システムにおいて、前記ホスト・
プロセッサによって前記第１の命令集合に変換された、
異なる命令集合の命令を走らせるのを補助するために用
いる装置であって、一連の変換された命令が前記ホスト・プロセッサ上で例
外またはエラーなく実行する判定まで、発生したメモリ
格納を一時的に格納するための隔離領域を含むバッファ
と、メモリ・アドレスのアクセスに応答して、前記バッファ
内に保持されている特定のメモリ・アドレスへの最新の
メモリ格納を検出する論理回路と、前記ホスト・プロセッサ上で一連の変換された命令が例
外またはエラーなく実行されるという判定が下されたと
きに、一時的に格納されているメモリ格納を前記隔離部
分から除去し、前記メモリ格納を永続的に格納する排出
回路と、前記ホスト・プロセッサ上で一連の変換された命令が例
外またはエラーを発生するという判定が下されたとき
に、前記バッファの前記隔離部分に一時的に格納されて
いるメモリ格納を消去する手段と、から成ることを特徴とする装置。
【請求項２１】請求項20記載の処理システムにおいて用
いるための装置において、前記バッファの前記隔離領域が、最初および最後の格納
位置へのポインタによって定義され、前記メモリ・アドレスのアクセスに応答して、前記バッ
ファ内に保持されている特定のメモリアドレスへの最新
のメモリ格納を検出する前記論理回路が、最新のメモリ格納を示すための、各格納位置における第
１の場所と、メモリ格納が格納位置に置かれたときはいつでも、指示
を第１の場所に置き、同じメモリ・アドレスに対するよ
り古いメモリ格納に対する、第１の場所におけるあらゆ
る指示を除去する回路と、前記バッファの前記隔離部分以外における最新のメモリ
格納を示すための、各格納位置における第２の場所と、前記排出回路によって前記隔離部分から前記メモリ格納
が除去されたときはいつでも、前記第２の場所に指示を
置き、同じメモリ・アドレスに対するより古いメモリ格
納に対する、前記第２の場所におけるあらゆる指示を除
去する回路と、メモリ・アドレスを比較し、メモリ格納に対する第１の
場所における指示を検出する比較器と、を備えることを特徴とする装置。
【請求項２２】請求項20記載の処理システムにおいて用
いるための装置において、前記バッファの前記隔離領域が、格納位置の物理的に隔
離された部分によって定義され、該部分が、当該部分に
おけるメモリ格納が、実行を完了していない一連の命令
によって発生されたことの指示を有し、前記メモリ・アドレスのアクセスに応答して、前記バッ
ファ内に保持されている特定のメモリ・アドレスへの最
新のメモリ格納を検出する前記論理回路が、前記隔離部分に既にあるあらゆるメモリ格納に対して、
メモリ格納を書き込むためのメモリ・アドレス検出器
と、前記バッファのあらゆる物理的に分離された部分にメモ
リ格納を置いた順序を指定する回路と、メモリ・アドレスを比較し、前記バッファの部分におけ
るあらゆる格納位置において最も古いメモリ格納を検出
する比較器と、を備えることを特徴とする装置。
【請求項２３】ゲート格納バッファであって、一連のターゲット命令をホスト命令に変換するホスト・
プロセッサが変換間隔の間に順次発生した全てのメモリ
格納を、他のメモリ格納から分離して、一時的に保持す
る手段と、前記変換が例外を発生することなく実行した場合、変換
間隔の間に順次発生したメモリ格納をメモリに転送する
手段と、メモリ・アドレスにおけるメモリ・アクセスに応答し
て、同一のメモリ・アドレスに対するどのメモリ格納が
最新であるかを示す手段と、前記変換が例外を発生した場合、変換間隔の間に順次発
生したメモリ格納を消去する手段と、を備えることを特徴とするゲート格納バッファ。
【請求項２４】コンピュータであって、ホスト命令集合の命令を実行するように設計されたホス
ト・プロセッサと、ターゲット命令集合からの命令を前記ホスト命令集合の
命令に変換するホスト・ソフトウエアと、メモリと、前記ホスト・プロセッサ上において一連のターゲット命
令を変換する際に、前記ホスト・ソフトウエアが発生す
るデータを保持する格納バッファであって、各々メモリにアドレスされたデータと該データのアドレ
スとを保持することができる、複数の格納位置と、ホスト・プロセッサの動作によって発生したデータを、
該データが発生する毎に、前記一連の命令が実行を完了
するまで、前記格納位置に転送する手段と、実行が完了していない一連の命令によって発生した、バ
ッファ内のデータを識別する手段と、メモリ・アクセスに応答して、特定のメモリ・アドレス
に送出される、バッファ内で最新のデータがどれである
かを検出する手段と、前記格納を発生する一連の命令が、例外またはエラーを
発生することなく、実行し終わった後、前記格納位置に
おけるデータをメモリに転送する手段と、前記格納を発生する一連の命令の実行が例外またはエラ
ーを発生した場合、前記格納位置内のメモリ格納を消去
する手段と、を含む格納バッファと、を備えることを特徴とするコンピュータ。
【請求項２５】請求項24記載のコンピュータにおいて、プロセッサの動作によって発生したデータを、該データ
が発生する毎に、前記一連の命令が実行を完了するま
で、前記格納位置に転送する前記手段が、前記バッファ
内の連続格納位置にデータを転送する手段を備え、メモリ・アクセスに応答して、特定のメモリ・アドレス
に送出される、バッファ内で最新のデータがどれである
かを検出する前記手段が、特定のメモリ・アドレスにア
ドレスされる、前記バッファ内の各々の最新のアドレス
可能なデータ量を示す手段を備えることを特徴とするコ
ンピュータ。
【請求項２６】請求項25記載のコンピュータにおいて、
実行が完了していない一連の命令によって発生した、バ
ッファ内のデータを識別する前記手段が、前記データ
を、前記一連の命令を実行し終わるまで、前記バッファ
内の他のデータから分離する手段を備えることを特徴と
するコンピュータ。
【請求項２７】請求項26記載のコンピュータにおいて、
前記一連の命令を実行し終わるまで、前記データを前記
バッファ内の他のデータから分離する前記手段が、前記
バッファ内の一連のデータの先頭および末尾を示す手段
であることを特徴とするコンピュータ。
【請求項２８】請求項27記載のコンピュータにおいて、
メモリ・アクセスに応答して、特定のメモリ・アドレス
にアドレスされた、前記バッファ内の各々の最新のアド
レス可能なデータ量を示す前記手段が、前記バッファ内
の一連のデータの先頭と末尾との間の格納位置における
古いデータを、同一のメモリ・アドレスにアドレスさ
れ、未だ実行されていない前記一連の命令によって発生
する新しいデータと置換する手段を備えることを特徴と
するコンピュータ。
【請求項２９】請求項27記載のコンピュータにおいて、
メモリ・アクセスに応答して、特定のメモリ・アドレス
にアドレスされた、前記バッファ内の各々の最新のアド
レス可能なデータ量を示す前記手段が、前記バッファ内に最新として置かれるデータを識別する
ための、アドレス可能な格納位置に対する第１のインデ
ィケータと、格納位置に置かれるデータのメモリ・アドレスと、既に
複数の格納位置にあるデータの複数のメモリ・アドレス
とを比較し、前記格納位置に置かれる前記データのメモ
リ・アドレスと同一のメモリ・アドレスを有するデータ
に対するインディケータを除去する比較器と、前記一連の命令のエラーまたは例外のない実行に応答し
て、前記格納位置にあるデータを、一連の命令によって
発生した最新のデータとして識別するための、アドレス
可能な格納位置に対する第２のインディケータと、前記格納を発生する一連の命令の実行が例外またはエラ
ーを発生した場合前記バッファから消去されるデータの
メモリ・アドレスと、消去されておらず、第２のインデ
ィケータによって、前記一連の命令のエラーまたは例外
のない実行に応答して、一連の命令によって発生した最
新のデータとして識別されたデータを識別するデータの
メモリ・アドレスとを比較し、最新としての第１のイン
ディケータを書き込む、比較器と、を備えることを特徴とするコンピュータ。
【請求項３０】請求項24記載のコンピュータにおいて、
一連の命令によって発生したとして識別された、前記バ
ッファ内のデータを消去する前記手段が、前記一連の命
令を実行する際に発生したエラーまたは例外に応答し
て、前記データを無効化するインディケータを備えるこ
とを特徴とするコンピュータ。
【請求項３１】請求項26記載のコンピュータにおいて、
前記一連の命令が実行を完了するまで、前記バッファ内
の他のデータから前記データを分離する前記手段が、未
だ実行されていない一連の命令からのデータを含むこと
を示された、前記バッファの物理的に別個の部分に、一
連のデータを置く手段を備えることを特徴とするコンピ
ュータ。
【請求項３２】請求項31記載のコンピュータにおいて、
メモリ・アクセスに応答して、特定のメモリ・アドレス
にアドレスされた、前記バッファ内の各々の最新のアド
レス可能なデータ量を示す前記手段が、未だ実行されていない一連の命令からのデータを含むこ
とを示された、前記バッファの物理的に別個の部分にあ
る格納位置における古いデータを、同一のメモリ・アド
レスにアドレスされ、前記未だ実行されていない一連の
命令によって発生した新たなデータと置換する手段を備
えることを特徴とするコンピュータ。
【請求項３３】請求項31記載のコンピュータにおいて、
前記データを発生する一連の命令が、例外またはエラー
を発生することなく、実行し終わった時、前記格納位置
におけるデータをメモリに転送する前記手段が、更に、
前記データが、エラーなく実行した一連の命令によって
発生したことを示す手段を備えることを特徴とするコン
ピュータ。
【請求項３４】請求項31記載のコンピュータにおいて、
前記格納を発生する一連の命令が、例外またはエラーを
発生することなく、実行し終わった後、前記格納位置に
おけるデータをメモリに転送する前記手段が、エラーま
たは例外なく実行し終えた一連の命令によって発生し
た、前記バッファ内のデータのメモリ・アドレスを比較
し、いずれのメモリ・アドレスにおいても、格納のため
に最新のアドレス可能データのみを選択する比較器を備
えることを特徴とするバッファ。