JP3615770B2

JP3615770B2 - アドレスされた構成部分の思索の失敗を検出するメモリ・コントローラ

Info

Publication number: JP3615770B2
Application number: JP51207399A
Authority: JP
Inventors: ケリー，エドマンド・ジェイ; クメリク，ロバート・エフ; ウィング，マルコム・ジョン
Original assignee: トランスメタ・コーポレーション
Priority date: 1997-08-11
Filing date: 1997-08-11
Publication date: 2005-02-02
Anticipated expiration: 2017-08-11
Also published as: CN1161691C; EP1002271A1; CN1265204A; ATE412940T1; CA2283559A1; DE69739078D1; KR20010014095A; EP1002271B1; JP2001519956A; CA2283559C; EP1002271A4; KR100463810B1; WO1999008188A1; US5832205A

Description

発明の背景
発明の分野
本発明は、コンピュータ・システムに関し、更に特定すれば、マイクロプロセッサを改良するための方法および装置に関するものである。
従来技術の歴史
特定のマイクロプロセッサ・ファミリを中心に設計された、コンピュータ上で走るアプリケーション・プログラムは、数千種にも上る。既存のプログラムでは、カリフォルニア州サンタクララのIntel Corporation（インテル社）が設計し製造する、"X86"ファミリ・マイクロプロセッサ（Intel8088、Intel8086、Intel80186、Intel80286、i386、i486、および種々のPentiumマイクロプロセッサの発展型を含む:IntelおよびPentiumは登録商標）を用いたコンピュータ（IBM互換パーソナル・コンピュータと一般的に呼ばれている）上で走るように設計されたものの数が最も多い。他のプロセッサ・ファミリを用いたコンピュータ上で走るように設計された他のプログラムの例も多くある。これらのコンピュータ上で走る多くのアプリケーション・プログラムがあるので、かかるコンピュータ、特にX86プログラムを処理するように設計されたプログラムにおいて使用可能なマイクロプロセッサの市場は膨大である。マイクロプロセッサの市場は大きいだけでなく、非常に収益性が高い。
多数のアプリケーション・プログラムを走らせることができるマイクロプロセッサの市場は大きく収益性が高いが、競争力のある新たなマイクロプロセッサを設計することは非常に難しい。例えば、X86プロセッサ・ファミリは長年にわたって存在し続け、これらのプロセッサは販売および使用されたコンピュータの大部分に含まれるが、X86のプログラムを走らせることができる競合プロセッサで成功したものは殆どない。その理由は多くある。
成功するためには、このプロセッサ・ファミリに設計されたプログラム全て（オペレーティング・システムおよび旧来のプログラムも含む）を、しかも既存のプロセッサと同じくらい速く走らせることができるマイクロプロセッサでなければならず、更に既存のプロセッサよりもコストを抑えなければならない。加えて、経済的に成功するためには、新たなマイクロプロセッサは、これらの条件の少なくとも１つにおいて、既存のプロセッサよりも勝っていることによって、既存の認められているプロセッサを差し置いて新たなプロセッサを選択する理由を、購入者に与えなければならない。
最新のマイクロプロセッサと同じ位速くマイクロプロセッサを走らせるのは困難であり、かつ費用もかかる。プロセッサは、ロード、シフト、加算、格納のような原始な動作および同様の低レベルの動作によって命令を実行し、アプリケーション・プログラムによって与えられるいずれの命令を実行する際にも、このような原始な命令にのみ応答する。例えば、X86のような、命令が比較的高いレベルで実行すべきプロセスを指定することができる、複雑命令セット・コンピュータ（CISC:complicated instruction set computer）の命令を走らせるように設計されたプロセッサは、従来よりリード・オンリ・メモリ（ROM）を含み、その中にいわゆるマイクロ命令を格納している。各マイクロ命令は、一連の原始命令を含み、これらを連続して走らせることにより、高いレベルのCISC命令によって命令された結果がもたらされる。典型的に、"add A to B"（ＡをＢに加算する）というCISC命令がデコードされると、この"add A to B"命令の機能を実行するマイクロ命令が格納されているROM内のアドレスを参照する。このマイクロ命令がロードされ、その原始命令を順次走らせることによって、"add A to B"命令を実行する。このようなCISCコンピュータでは、マイクロ命令内の原始動作は、プログラムの実行中決して変化させることはできない。各CISC命令は、命令をデコードし、マイクロ命令をアドレスしてこれを取り込み、当該マイクロ命令内に与えられている順序で一連の原始動作を走らせることによってのみ、走らせることができる。マイクロ命令を走らせる毎に、同じシーケンスが発生しなければならない。
X86アプリケーションを走らせるための先進のプロセッサは、多数の技術を利用し、可能な限り高速に、しかも経済的に低い価格で処理を行おうとしている。プロセッサが走ることができる速度を加速させるための公知のハードウエア技術を実装する新たなプロセッサは、いずれも処理ハードウエアの洗練性を高める必要がある。これには、ハードウエア・コストの増大が必要となる。
例えば、複数の処理チャネルを用いて一度に２つ以上の動作を実行するスーパースカラー・マイクロプロセッサには、多数の追加要件がある。最も基本的なレベルでは、単純なスーパースカラー・マイクロプロセッサは、各アプリケーション命令をマイクロ命令にデコードし、当該アプリケーション命令の機能を実行することができる。そこで、単純なスーパースカラー・マイクロプロセッサは、２つのマイクロ命令が同じハードウエア資源を要求せず、一方のマイクロ命令の実行が他方のマイクロ命令の処理結果に依存しないのであれば、これら２つのマイクロ命令を一緒に走らせるようにスケジューリングを行う。
更に進んだスーパースカラー・マイクロプロセッサには、典型的に、各アプリケーション命令を一連の原始命令にデコードし、これらの原始命令の順序を変更し、最も効率的な実行順序でスケジューリングを行うことを可能にするものがある。これには、個々の原始動作各々をアドレスし、取り込むことが必要となる。順序変更を行うためには、プロセッサは、他の原始命令から生ずるデータを必要とする原始命令を、他の原始命令が必要なデータを生成した後に、実行することを保証できなければならない。このようなスーパースカラー・マイクロプロセッサは、一緒に走らせる２つの原始命令が同じハードウエア資源を要求しないことを保証しなければならない。また、このようなプロセッサは、条件付き分岐を解決し、その後に分岐動作の効果が完了することを可能にしなければならない。
このように、スーパースカラー・マイクロプロセッサは、複数の原始命令の関係を互いに比較し、これら原始命令のシーケンスを並び替え、あらゆる命令をスケジューリングして実行するために、広範なハードウエアを必要とする。処理チャネル数が増大するに連れて、これらスーパースカラー加速技術を達成するためのハードウエアの量およびコストはほぼ４倍に増大する。これらのハードウエア要件は全て、関連する回路の複雑化および高コスト化を招く。マイクロ命令を扱う際と同様、アプリケーション命令を実行する毎に、スーパースカラー・マイクロプロセッサは、その比較的複雑なアドレシング・ハードウエアおよび取り込みのためのハードウエアを用いてこれらの原始命令の各々を取り込まなければならず、他の原始命令およびハードウエアの使用状況に基づいてこれらの原始命令の並び替えおよび再スケジュールを行わなければならず、更に再スケジュールした原始命令全てを実行しなければならない。各アプリケーション命令を実行する度に、ハードウエア・シーケンス全体でこれを走らせなければならないので、スーパースカラー・プロセッサがその命令を実行可能な速度は限定される。
更に、これら種々のハードウエア技術が処理速度を高めるとしても、このようなハードウエアを備えるために伴う複雑性のために、このようなマイクロプロセッサの大幅なコスト上昇を招くことになる。例えば、インテルi486DX4プロセッサは、約150万個のトランジスタを使用する。Intel Pentiumのような基本的なスーパースカラー・マイクロプロセッサにおいて、２つのチャネルによって命令を処理するために必要な依存性およびスケジューリングのチェックを行うために必要なハードウエアを追加するには、300万個以上のトランジスタの使用が必要となる。異なるターゲット命令から派生する原始命令間の並び替えを行い、思索的実行（speculative execution）を行い、レジスタの名称変更を可能とし、分岐予測を行うためにハードウエアを追加すると、トランジスタ数は、Intel Pentium Pro（登録商標）では、600万個以上にも増大する。したがって、動作速度を高めるためにハードウエアを追加する毎に、最新のマイクロプロセッサではトランジスタ数が激増したことがわかる。
これら公知の技術を用いても、既存のマイクロプロセッサよりも高速のマイクロプロセッサは生産することができない場合もある。何故なら、製造者は既存のマイクロプロセッサの動作を加速させる公知の技術で、経済的に実現可能なものを利用するからである。その結果、より速いプロセッサの設計は非常に困難でありしかも費用がかかる作業となる。
プロセッサのコスト削減も非常に困難である。先に例示したように、十分な能力のあるプロセッサを生産するハードウエア加速技術は非常に高価である。新たなプロセッサを設計しようとする者は、ハードウエアを生産する設備を獲得しなければならない。このような設備の獲得は非常に困難である。何故なら、チップ製造者は典型的に少量のデバイスに資産を費やすことはない。チップ製造設備を生産するために必要な資本投下は非常に大きく、殆どの会社に可能な範囲を超えている。
競合プロセッサと少なくとも同じ位速く、あるプロセッサ・ファミリに設計されたアプリケーション・プログラムの全てを走らせる新たなプロセッサを設計することができる者がいるとしても、競合プロセッサの価格は、十分な利益を含んでおり、いずれの競合も大幅な値下げに直面することは確実である。
ハードウエアの複雑度を高めることによって競争力のあるプロセッサを設計することは非常に困難であるが、特定のマイクロプロセッサ・ファミリ（ターゲット・マイクロプロセッサ）に設計されたアプリケーション・プログラム（ターゲット・アプリケーション・プログラム）を走らせる他の方法として、ソフトウエアで他のより速いマイクロプロセッサ（ホスト・マイクロプロセッサ）上でターゲット・マイクロプロセッサをエミュレートすることが行われてきた。これは、格段に安価にこれらのプログラムを走らせる方法である。何故なら、より速いマイクロプロセッサ上でアプリケーション・プログラムを走らせる、ある形態のエミュレーション・ソフトウエアを追加しさえすればよいからである。エミュレータ・ソフトウエアは、ターゲット・プロセッサ・ファミリに書かれたアプリケーション・プログラムのターゲット命令を、ホスト・プロセッサによって実行可能なホスト命令に変更する。これら変更した命令を、より速いホスト・マイクロプロセッサ上のオペレーティング・システムの制御の下で走らせる。
ターゲット・コンピュータのプロセッサよりも速いプロセッサを有するホスト・コンピュータ上で、ターゲット・アプリケーションを走らせることを可能にする設計には、これまでにも多種多様なものがある。一般に、エミュレーション・ソフトウエアを用いてターゲット・プログラムを実行するホスト・コンピュータは、縮小命令セット（RISC:reduced instruction set）マイクロプロセッサを利用する。何故なら、RISCプロセッサは、理論上他の形式のプロセッサよりも単純で、その結果より速く走らせることができるからである。
しかしながら、エミュレータ・ソフトウエアを走らせるRISCコンピュータ・システムは多くの場合X86（またはその他の）プログラムを走らせることができるが、これらがこれを行うレートは、通常、技術的現状のX86コンピュータ・システムが同じプログラムを走らせるレートよりもはるかに遅い。更に、これらのエミュレータ・プログラムは、入手可能なターゲット・プログラムの全てまたは大多数を走らせることができる訳ではない。
エミュレータ・プログラムが、ターゲット・マイクロプロセッサ程速くターゲット・プログラムを走らせることができない理由は、非常に複雑であり、異なるエミュレーション動作の理解がある程度必要となる。図１は、複数の異なる種別のマイクロプロセッサがターゲット・アプリケーション・プログラムを実行する異なる方法を表す一連の図を含む。
図１（ａ）では、IntelX86マイクロプロセッサのような典型的なCISCマイクロプロセッサが、当該ターゲット・プロセッサ上で走らせるために設計されたターゲット・アプリケーション・プログラムを走らせる場合を示す。図に見られるように、コンピュータのハードウエアへのアクセスを得るためのインターフェースを与えるように設計されたCISCオペレーティング・システム（X86コンピュータと共に用いられる、MS DOS（商標）、Windows3.1（商標）、WindowsNT（商標）、およびOS/2（商標）のような）を用いて、CISCプロセッサ上でアプリケーションを走らせる。通常、アプリケーション・プログラムの命令は、オペレーティング・システムによって与えられるアクセスのみを通じて、コンピュータのデバイスを利用するように選択される。したがって、オペレーティング・システムは、コンピュータのメモリおよび種々の入出力デバイスへのアクセスをアプリケーションに許可する操作を処理する。ターゲット・コンピュータは、オペレーティング・システムが認識するメモリおよびハードウエアを含み、ターゲット・アプリケーションからオペレーティング・システムへのコールによって、オペレーティング・システムのデバイス・ドライバは、定義されたターゲット・コンピュータのデバイスを用いて、予想される動作を行わせる。アプリケーションの命令は、プロセッサ上で実行するが、この場合、当該プロセッサが実行可能な動作（マイクロコード、またはマイクロコードがアセンブルされる、更に原始な動作で実体化する）にこれらは変更される。前述のように、複雑なターゲット命令を実行する毎に、命令は、マイクロコードとして（または同じ原始動作セットとして）格納されている同じサブルーチンをコールする。同じサブルーチンが常に実行される。プロセッサがスーパースカラーである場合、ターゲット命令を実行するためのこれら原始動作は、多くの場合プロセッサによって並び替えが行われ、再スケジューリングが行われ、前述と同様に種々の処理チャネルを用いて実行可能となる。しかしながら、依然としてサブルーチンを取り込み実行する。
図１（ｂ）は、図１（ａ）のCISCプロセッサ上で走らせるように設計された、同じターゲット・アプリケーション・プログラムを走らせる、AppleMacintosh（商標）コンピュータにおいて用いられているPowerPC（商標）マイクロプロセッサのような典型的なRISCマイクロプロセッサを表す。図に見られるように、当該ターゲット・アプリケーションが発生するコールの一部に応答する、少なくとも部分的なターゲット・オペレーティング・システムを用いて、ホスト・プロセッサ上でターゲット・アプリケーションを実行する。通常、これらは、ディスプレイ上にグラフィカル・インターフェースを備えるために用いられる、ターゲット・オペレーティング・システムのアプリケーション状部分へのコール、および概してアプリケーション状の短いユーティリティ・プログラムである。ターゲット・アプリケーションおよびターゲット・オペレーティング・システムのこれらの部分は、SoftPC（登録商標）のようなソフトウエア・エミュレータによって変換される。ソフトウエア・エミュレータは、ターゲット・アプリケーション・プログラムおよびアプリケーション状ターゲット・オペレーティング・システム・プログラムによって与えられる命令を分解し、ホスト・プロセッサおよびそのホスト・オペレーティング・システムが実行可能な命令にする。ホスト・オペレーティング・システムは、RISCコンピュータのメモリおよび入出力ハードウエアへのアクセスが得られるインターフェースを提供する。
しかしながら、ホストRISCコンピュータ内のホストRISCプロセッサおよびそれと連動するハードウエア・デバイスは、通常、ターゲット・アプリケーションの設計対象としたプロセッサと連動するデバイスとは非常に異なっている。更に、ターゲット・アプリケーション・プログラムによって与えられる種々の命令は、ターゲット・コンピュータの種々の部分にアクセスする際に、ターゲット・オペレーティング・システムのデバイス・ドライバと協同するように設計されたものである。その結果、ターゲット・アプリケーション・プログラムの命令を、ホスト・オペレーティング・システムが利用可能な原始ホスト命令に変換するエミュレーション・プログラムは、何らかの方法で、ターゲット・コンピュータ内のハードウエア・デバイスを動作させるように設計された動作を、ホスト・システムのハードウエア・デバイスが実現可能な動作にリンクしなければならない。多くの場合、このために、エミュレータ・ソフトウエアは、ターゲット・アプリケーションの命令に応答する仮想デバイスを作成し、ホスト・システムが実行できない命令を実行するようにしなければならない。何故なら、ターゲット・デバイスは、ホスト・コンピュータのものではないからである。時として、エミュレータは、これら仮想デバイスからホスト・オペレーティング・システムを通じて、存在するがホスト・オペレーティング・システムによって異なる方法でアドレスされるホスト・ハードウエア・デバイスに至るリンクを作成しなければならない場合もある。
このようにターゲット・プログラムを実行すると、多くの理由のため、比較的遅く走ることになる。第１に、ターゲット・アプリケーション・プログラムおよびターゲット・オペレーティング・システムからの各ターゲット命令は、エミュレータによって、ホスト・プロセッサが用いるホストの原始機能に変換しなければならない。ターゲット・アプリケーションがX86のようなCISCマシンに設計されたものである場合、ターゲット命令の長さは様々に変化し非常に複雑であるので、これらをホストの原始命令に変換することは多くの混乱を伴う。元のターゲット命令を最初にデコードし、当該ターゲット命令を構成する原始ホスト命令のシーケンスを決定する。次いで、原始ホスト命令の各シーケンスのアドレス（または複数のアドレス）を決定し、原始ホスト命令の各シーケンスを取り込み、これら原始ホスト命令を順番に、または順序を外して実行する。命令を実行する毎に、ターゲット・アプリケーションおよびオペレーティング・システム命令を、ホスト・プロセッサが理解するホスト命令に変更するために、エミュレータに必要な膨大な追加の工程を実施しなければならず、エミュレーションのプロセスは遅くなる。
第２に、多くのターゲット命令は、ホスト・コンピュータでは使用できない、ターゲット・コンピュータのハードウエアにおいて、特定の方法で機能する特定のハードウエア・デバイスが行う動作への参照を含む。この動作を実行するために、エミュレーション・ソフトウエアは、既存のホスト・オペレーティング・システムを通じて、ホスト・コンピュータのハードウエア・デバイスにソフトウエアによる接続を行わなければならないか、あるいはエミュレーション・ソフトウエアが仮想ハードウエア・デバイスを備えなければならない。他のコンピュータのハードウエアをソフトウエアでエミュレートすることは、非常に困難である。エミュレーション・ソフトウエアは、ホスト・オペレーティング・システムに対するターゲット・アプリケーション・コールの各々に対して、仮想デバイスを生成しなければならず、更にこれら仮想デバイスの各々が実際のホスト・デバイスにコールを与えなければならない。ハードウエア・デバイスをエミュレートするには、ターゲット命令がデバイスを使用しようとする場合に、当該命令が要求する仮想デバイスを表すコードをメモリから取り込み、これを走らせて当該デバイスを実現しなければならない。前述の問題を解決するこれらの方法は、いずれも、命令のシーケンスの実行に、更に一連の動作を追加することになる。
エミュレーションの問題を複雑化するのは、ターゲット・アプリケーションが様々な例外を発生し、コンピュータ・システムが動作するために、ターゲット・コンピュータのハードウエアおよびターゲット・オペレーティング・システムがこれを実行しなければならないためである。ターゲット・コンピュータの動作中にターゲットの例外が発生した場合、例外の時点におけるコンピュータの状態をセーブしなければならない。通常、これを行うには、この動作を達成するためのマイクロコード・シーケンスをコールする。更に、正しい例外ハンドラを検索しなければならず、例外を処理しなければならず、更にプログラムを継続するために、プログラム内の正しい地点を発見しなければならない。時として、このために、例外が発生した時点、および例外ハンドラが与えた分岐が行われた他の時点のターゲット・コンピュータの状態にプログラムを逆戻りさせる必要性がある。いずれの場合でも、これらの動作を行うために必要なターゲット・コンピュータのハードウエアおよびソフトウエアを、何らかの方法でエミュレーションのプロセス内に備えなければならない。適正な実行のためには、このような例外のいずれの時点においても、正しいターゲットの状態が得られなければならないので、エミュレータは、これらの例外に正しく応答できるように、常にこの状態を精度高く追跡することを強いられる。従来技術では、このために、ターゲット・アプリケーションが与える順序で命令を行う必要があった。何故なら、正しいターゲットの状態が維持できるのは、この方法を置いて他になかったからである。
更に、従来技術のエミュレータは、その他の理由でも、ターゲット・アプリケーションの実行順序を常に維持する必要があった。ターゲット命令は２つの種別、即ち、メモリに影響を与えるものおよびメモリ・マップ入出力（I/O）デバイスに影響を与えるものとすることができる。ある動作がメモリに影響を与えるのか、またはメモリ・マップI/Oデバイスに影響を与えるのかについては、命令を実行してみないことには、他に知る方法がない。命令がメモリ上で動作する場合、最適化および並び替えが可能であり、システム動作の高速化に非常に役立つ。しかしながら、I/Oデバイスに影響を与える動作は、ステップを全く除去せずに、動作がプログラムされた順序で正確に実施しなければならない。さもないと、I/Oデバイスの動作に何らかの悪影響を及ぼす可能性がある。例えば、特定のI/O動作には、I/Oレジスタをクリアする結果をもたらすものもあり得る。動作が順序通りには行われず、未だ必要な値がレジスタからクリアされた場合、その動作の結果は、ターゲット命令が命令した動作とは異なるものとなる可能性がある。メモリをメモリ・マップI/Oから区別する手段がないと、全ての命令を、それらがメモリ・マップI/Oに影響を与えるかのように扱うことが必要となる。これは、達成可能な最適化を厳しく制限する。従来技術のエミュレータは、アドレスされたメモリの特性（nature）を検出する手段、およびこのような障害から復元する手段の双方を欠いているので、各動作がメモリ・マップI/Oに影響を与えるかのように、ターゲット命令全体を通じて順次進んでいく必要がある。これによって、ホスト命令を最適化する可能性が著しく阻害される。
従来技術のエミュレータのホスト・コードを最適化する能力を妨げる他の問題に、自己変更コード（self−modifying code）によって発生するものがある。ターゲット命令がホスト命令のシーケンスに変換され、次いで書き戻されて、元のターゲット命令が変化した場合、ホスト命令はもはや有効ではない。その結果、エミュレータは、格納（store）がターゲット・コード・エリアに対するものか否かについて判定を行うために、常にチェックしていなければならない。これらの問題全てのために、この種のエミュレーションは、ターゲット・プロセッサ上でターゲット・アプリケーションを走らせるよりも、大幅に遅くなる。
図１（ｂ）に示す種類のエミュレーション・ソフトウエアの他の例が、"Talisman:Fast and Accurate Multicomputer Simulation"（タリスマン：高速で高精度のマルチコンピュータ・シミュレーション）（R.C.Bedichek,Laboratory for Computer Sciences,Massachusetts Institute of Technology（R.C.ベディチェック、コンピュータ科学研究所、マサチューセッツ工科大学）と題する論文に記載されている。これは、更に複雑な変換の例であり、これは完全な開発システムをエミュレートし、開発用ターゲット・オペレーティング・システムを走らせることができる。タリスマンは、ホストUNIXオペレーティング・システムを用いている。
図１（ｃ）に、他のエミュレーションの一例を示す。この場合、元のMachintoshコンピュータに用いられていたMotorola68000ファミリCISCプロセッサ上で走るように設計されたターゲット・アプリケーション・プログラムを走らせる、Apple Machintoshコンピュータに用いられているPowerPCマイクロプロセッサを示している。この種の構成は、Appleの旧来のプログラムを、RISCプロセッサを有するMachintoshコンピュータ上で走らせるために必要であった。図に見られるように、少なくとも部分的にターゲット・オペレーティング・システムを用いて、ホスト・プロセッサ上でターゲット・アプリケーションを走らせ、ターゲット・オペレーティング・システムのアプリケーション状部分に応答する。ソフトウエア・エミュレータには、ターゲット・アプリケーション・プログラムやアプリケーション状ターゲット・オペレーティング・システム・プログラムが与える命令を、ホスト・プロセッサやそのホスト・オペレーティング・システムが実行可能な命令に分解するものがある。ホスト・オペレーティング・システムは、インターフェースを与え、これを通じてホスト・コンピュータのメモリおよび入出力ハードウエアへのアクセスが得られるようにしている。
この場合も、ホストRISCコンピュータにおけるホストRISCプロセッサおよびそれと連動するデバイスは、MotorolaのCISCプロセッサと連動するデバイスとは全く異なり、種々のターゲット命令は、ターゲット・コンピュータの種々の部分にアクセスする際に、ターゲットCISCオペレーティング・システムと協同するように設計されている。その結果、エミュレーション・プログラムは、ターゲット・コンピュータにおけるハードウエア・デバイスを動作させるように設計された動作を、ホスト・システムのハードウエア・デバイスが実現可能な動作にリンクしなければならない。このために、エミュレータは、ターゲット・アプリケーションの命令に応答するソフトウエアの仮想デバイスを作成し、これらの仮想デバイスから、ホスト・オペレーティング・システムを通じて、存在するがホスト・オペレーティング・システムによって異なる方法でアドレスされるホスト・ハードウエア・デバイスへのリンクを作成する必要がある。
このようにして走らせるターゲット・ソフトウエアは、図１（ｂ）のエミュレーションが走るのが遅いのと同じ理由で、比較的走るのが遅い。第１に、ターゲット・アプリケーションおよびターゲット・オペレーティング・システムからの各ターゲット命令は、当該命令を取り込むことによって変換しなければならず、更に、命令を実行する毎に、当該命令から派生するホスト原始機能の全てを順次走らせなければならない。第２に、エミュレーション・ソフトウエアは、ホスト・オペレーティング・システムへのターゲット・アプリケーションのコール毎に、仮想デバイスを生成しなければならない。更に、これら仮想デバイスの各々は、実際のホスト・デバイスへのコールを与えなければならない。第３に、エミュレータは、メモリ・マップI/Oデバイスに向けられた命令、またはそれが復元することができない例外を生成する危険を処理するために、全ての命令を保存的に処理しなければならない。最後に、エミュレータは、常に正しいターゲット状態を維持し、格納動作は、予め当該格納がターゲット・コード・エリアに対するものか否かについて判定するために、常にチェックしなければならない。これらの要件全ては、エミュレータのホスト・プロセッサ上で走るコードの重要な最適化を行う能力を奪い取り、ターゲット・プロセッサ上でターゲット・アプリケーションを走らせるよりも、この種のエミュレータの速度を大幅に低下させる。技術的現状のプロセッサの1/4未満のエミュレーション・レートは非常に良好と考えられる。概して、このために、この種のエミュレーション・ソフトウエアが、他のプロセッサに設計されたアプリケーションを走らせる機能は有用ではあるが主要ではない使用に追いやられている。
図１（ｄ）では、ホスト・プロセッサ上でターゲット・アプリケーション・プログラムをエミュレーションし、非常に限られた一連のターゲット・アプリケーションに対して比較的良好な処理能力（performance）を与える、特定の方法を示す。ターゲット・アプリケーションは、命令をエミュレータに与え、エミュレータはこれらの命令を、ホスト・プロセッサおよびホスト・オペレーティング・システムに対する命令に変更する。ホスト・プロセッサは、Digital Equipment Corporation（ディジタルエクイップメント社）のAlpha RISCプロセッサであり、ホスト・オペレーティング・システムは、Microsoft NTである。このシステムによって走らせることができるターゲット・アプリケーションは、Windows WIN32sに準拠するオペレーティング・システムを有するターゲットX86プロセッサによって実行されるように設計された32ビット・アプリケーションのみである。ホストおよびターゲット・オペレーティング・システムは殆ど同一であり、これら同じ命令を処理するように設計されているので、エミュレータ・ソフトウエアは命令を非常に簡単に変換することができる。更に、ホスト・オペレーティング・システムは、既に、ターゲット・アプリケーションが発生する同じコールに応答するように設計されているので、仮想デバイスの生成は大幅に減少する。
これは技術的にホスト・プロセッサ上でターゲット・アプリケーションを走らせるエミュレーション・システムであるが、非常に特殊な場合である。ここでは、エミュレーション・ソフトウエアは、同様のアプリケーションを走らせるように既に設計されているホスト・オペレーティング・システム上で走っている。このため、ターゲット・アプリケーションからのコールを、ホストおよびホスト・オペレーティング・システムの補正機構に向けるのが一層容易となる。更に重要なのは、このシステムは、恐らく全てのX86アプリケーションの１パーセントにも満たない量の32ビットのWindowsアプリケーションのみを走らせることである。更にまた、このシステムは、１つのオペレーティング・システム、即ち、WindowsNT上でのみアプリケーションを走らせるが、一方X86プロセッサは、多数のオペレーティング・システムに設計されたアプリケーションを走らせる。したがって、このようなシステムは、この明細書で当初示した意味の範囲内では、互換性があると見なすことはできない。したがって、このようなエミュレータを走らせるプロセッサは、競合のX86プロセッサと見なすことはできない。
異なる命令セットを認識するコンピュータ上で、ソフトウエアを用いて第１命令セットに対して書かれたアプリケーションの部分を走らせることを可能にする他のエミュレーション方法を、図１（ｅ）に示す。この形態のエミュレーション・ソフトウエアは、通常、あるコンピュータ・システムから他のシステムにアプリケーションを移植（port）しようとしているプログラマによって利用される。通常、ターゲット・アプリケーションは、エミュレータを走らせるホスト・マシン以外のいずれかのターゲット・コンピュータ用に設計されている。エミュレータ・ソフトウエアは、ターゲット命令を分析し、これらの命令を、ホスト・マシン上で走らせることができる命令に変換し、これらのホスト命令をキャッシュし、それらを再利用可能とする。この動的な変換およびキャッシングによって、アプリケーションの部分を非常に高速に走らせることが可能となる。この形態のエミュレータは、通常ソフトウエア・トレース・ツールと共に用いられ、実行中のターゲット・プログラムの挙動に関する詳細な情報を提供する。一方、トレース・ツールの出力はトレース情報を分析するアナライザ・プログラムを駆動するために用いることができる。
実際にコードがどのように機能するのかについて判定するために、とりわけ、この種のエミュレータは、ホスト・マシン上でホスト・オペレーティング・システムによって走らせ、ホスト・オペレーティング・システムが備えていない仮想ハードウエアを与え、そうでなければ、アプリケーションの設計対象であるコンピュータの動作を、ホスト・マシンのハードウエア資源にマップし、走らせているプログラムの動作を実行する。このソフトウエアによるハードウエアの仮想化およびホスト・コンピュータへのマッピングは、非常に遅く、しかも不完全な可能性がある。
更に、ターゲット命令の１つを実行するために複数のホスト命令を必要とする場合が多いので、ターゲット・オペレーション・システムの例外ハンドラを必要とするフォールトやトラップを含む例外が発生する可能性があり、ターゲット命令の境界とは無関係な地点で、ホストにホスト命令の処理を中止させる場合がある。これが発生した場合、例外を正しく処理することは不可能となる場合がある。何故なら、ホスト・プロセッサおよびメモリの状態は正しくないからである。このような場合、エミュレータを停止し、再度走らせて、例外を発生した動作を追跡しなければならない。したがって、このようなエミュレータはターゲット・コードのシーケンスを非常に迅速に走らせることはできるが、これらの例外から復元する方法がなく、したがってアプリケーションの重要な部分を迅速に走らせることは全くできない。
これは、この形態のエミュレータに伴う特異の問題ではない。何故なら、エミュレータ、トレーサおよび連動するアナライザが実行する機能は、新たなプログラムを発生するか、あるいは古いプログラムを別のマシンに移植して、エミュレータ・ソフトウエアが走る速度が殆ど問題にならないようにすることを目的とするからである。即ち、プログラマは、エミュレータが生成したコードがホスト・マシン上でどれ位速く走るかに常に関心がある訳ではなく、エミュレータが生成するコードが、そのために設計した機械上で実行可能か、そして当該マシン上で迅速に走るか否かに関心があるのである。結果的に、この種のエミュレーション・ソフトウエアは、プログラミング以外の目的で異なる種類のマイクロプロセッサ上で走らせるために第１命令セットで書かれたアプリケーション・プログラムを走らせる方法を提供するものではない。この種のエミュレーション・ソフトウエアの一例が、"Shade:A First Instruction−Set Simulator for Execution Profiling"（シェード：実行の特性を知るための高速命令セット・シミュレータ）と題するCmelik（スメリック）およびKeppel（ケッペル）の論文に記載されている。
技術的現状のマイクロプロセッサよりも高速でかつ安価でありながら、しかも技術的現状のマイクロプロセッサに設計されたターゲット・アプリケーション・プログラムと完全に互換性があり、これらのマイクロプロセッサに入手可能なあらゆるオペレーティング・システムを走らせることができる、競争力のあるマイクロプロセッサを提供することが望ましい。
更に特定すれば、かかるプロセッサの動作速度および互換性を高める回路を有するホスト・プロセッサを提供することが好ましい。
発明の概要
したがって、本発明の目的は、従来の技術的現状のマイクロプロセッサよりも安価であり、しかも他のマイクロプロセッサのために設計されたアプリケーション・プログラムやオペレーティング・システムと互換性があり、他のマイクロプロセッサよりも速いレートでこれらを走らせることが可能なマイクロプロセッサの動作を改良する装置を備えたホスト・プロセッサを提供することである。
本発明のこの目的およびその他の目的は、アドレスされるメモリの本質に関する思索の失敗を検出する装置と、かかる失敗から復元する装置とを双方共含む、マイクロプロセッサ用メモリ・コントローラによって実現される。
本発明のこれらおよびその他の目的は、以下の詳細な説明を図面と共に参照することによって、より良く理解されよう。尚、図面においては、同様のエレメントには種々の図にわたって同様の符号によって引用することとする。
【図面の簡単な説明】
図１（ａ）ないし図１（ｅ）は、従来技術に従って設計されたマイクロプロセッサの動作態様を示す図である。
図２は、本発明に従って設計され、異なるマイクロプロセッサに設計されたアプリケーションを走らせる、マイクロプロセッサのブロック図である。
図３は、図２に示すマイクロプロセッサの一部を示す図である。
図４は、本発明に従って設計したマイクロプロセッサにおいて用いられるレジスタ・ファイルを示すブロック図である。
図５は、本発明に従って設計したゲート格納バッファを示すブロック図である。
図６（ａ）ないし図６（ｃ）は、従来技術の様々なマイクロプロセッサおよび本発明にしたがって設計したマイクロプロセッサにおいて用いられる命令を示す。
図７は、本発明に従って設計したマイクロプロセッサのソフトウエア部分によって実施される方法を示す。
図８は、本発明に従って設計したマイクロプロセッサのソフトウエア部分によって実施される別の方法を示す。
図９は、本発明を含む改良コンピュータ・システムを示すブロック図である。
図10は、図３に示すマイクロプロセッサの一部を示すブロック図である。
図11は、図３のマイクロプロセッサ内に示す、変換ルック・アサイド・バッファを更に詳細に表わすブロック図である。
表記および名称
以下の詳細な説明では、コンピュータ・メモリ内のデータ・ビットに対する動作を象徴的な表現で提示する部分がある。これらの記載および表現は、データ処理技術における当業者によって用いられ、他の当業者にそれらの動作の本質を最も効果的に伝える手段である。動作は、物理的な量の物理的な操作を必要とするものである。通常、これらの量は、格納、転送、結合、比較、およびそれ以外の操作が可能な電気的または磁気的信号の形態を取るが、必ずしもそうとは限らない。主に共通の使用という理由のために、これらの信号を、ビット、値、エレメント、シンボル、文字、言葉、数値等として言及すると便利であることが時として認められている。しかしながら、これらおよび同様の用語は全て、適切な物理量に関連付けられており、これらの量に適用された単に便宜上の名称に過ぎないことは、念頭に置いておくべきであろう。
更に、実行される操作は、多くの場合、加算または比較というような用語で言及するが、これらは、人のオペレータが実行する精神的な動作と一般的に関連がある。人のオペレータのこのような能力は、殆どの場合、本発明の一部を形成する、ここに記載する動作のいずれにも必要でも望ましくもない。動作とは、機械的動作である。本発明の動作を実行するために有用なマシンは、汎用ディジタルコンピュータ、またはその他の同様のデバイスを含む。全ての場合において、コンピュータを動作させる方法動作と、計算自体の方法との間の区別を、念頭に置いておくべきである。本発明は、電気的またはその他の（例えば、機械的、化学的）物理的信号を処理し、その他の所望の物理信号を発生するように、コンピュータを動作させる方法および装置に関するものである。
以下の説明の間、場合によっては、詳細な動作例を与えるために、ターゲット・プログラムとは、X86マイクロプロセッサ上で実行するように設計されたプログラムを意味するものとする。何故なら、殆どのエミュレータはX86アプリケーションを走らせるからである。しかしながら、ターゲット・プログラムは、いずれのターゲット・コンピュータ・ファミリ上で走るように設計されたものでもよい。これは、Pcode（商標）マシン、Postscript（商標）マシン、またはJava（商標）仮想マシンのような、ターゲット仮想コンピュータを含む。
詳細な説明
本発明は、従来技術の問題を克服し、従来技術のマイクロプロセッサよりも高速に、従来技術の多数のファミリのマイクロプロセッサによって走らせることができるオペレーティング・システムの全てに対してソフトウエアの全てを走らせることができ、しかも従来技術のマイクロプロセッサよりも安価なマイクロプロセッサを提供する。
更に複雑化したハードウエアによってその動作を加速させるマイクロプロセッサを用いる代わりに、本発明は、技術的現状のマイクロプロセッサよりも格段に単純な改良ハードウエア処理部（この明細書では「モーフ・ホスト」と呼ぶ）と、エミュレート・ソフトウエア部（この明細書では、「コード・モーフィング・ソフトウエア」と呼ぶ）とを組み合わせ、これら２つの部分が一体となってマイクロプロセッサとして機能し、公知のいずれの競合マイクロプロセッサよりも高い性能を有するようにしたものである。更に具体的には、モーフ・ホストとは、例外またはエラーが発生した場合、その後直ちにターゲット・コンピュータの状態を得る際に補佐するハードウエア機能強化を含むプロセッサであり、一方コード・モーフィング・ソフトウエアとは、ターゲット・プログラムの命令を、モーフ・ホストのためのモーフ・ホスト命令に変換し、例外およびエラーに応答して、必要に応じてワーキング状態を正しいターゲット状態と置換することにより、正しい再変換が行われるようにするソフトウエアである。また、コード・モーフィング・ソフトウエアは、処理速度を高めるための種々のプロセスを含むことも可能である。従来技術の超高速マイクロプロセッサは、その全てがハードウエアを備えて処理速度を高めるが、その代わりに、本発明は、コード・モーフィング・ソフトウエアによって、多数の加速補強技術を選択可能な段階において実行可能とする。コード・モーフィング・ソフトウエアに速度補強技術を備えることにより、複雑度が格段に低いハードウエアを用いて、モーフ・ホストを実現することが可能となる。これは、従来技術のマイクロプロセッサのハードウエアよりも高速であると共に大幅に安価である。比較として、入手可能なX86アプリケーション全てを走らせるように設計した本発明の一実態形態は、Pentium Proマイクロプロセッサのゲート数の約1/4を含むモーフ・ホストによって実現され、しかもPentium Proマイクロプロセッサ、またはX86アプリケーションを処理可能な他の公知のマイクロプロセッサのいずれよりも、これらのアプリケーションを大幅に速く走らせる。
コード・モーフィング・ソフトウエアは、新たなソフトウエアを設計したり、あるいは新たなハードウエアをエミュレートするプログラマによってのみ以前から用いられていた、ある種の技術を利用する。モーフ・ホストは、特に、コード・モーフィング・ソフトウエアが提供する加速技術を効率的に利用可能とするように構成された、複数のハードウエア機能強化を含む。これらのハードウエア機能強化は、コード・モーフィング・ソフトウエアが、より広い範囲の命令に対して、加速技術を実現可能とするものである。また、これらのハードウエア機能強化は、ハードウエア・プロセッサでは得ることができず、法外なコストをかけたプロセッサでなければ実現できないような、追加の加速技術を、コード・モーフィング・ソフトウエアによって実施可能とする。これらの技術は、ネーティブの命令セットの実行を行う従来技術のマイクロプロセッサの速度と比較して、本発明のマイクロプロセッサの速度を格段に高めるものである。
例えば、改良モーフ・ホストと組み合わせたコード・モーフィング・ソフトウエアは、大量の回路を追加する必要なく、ターゲット命令のシーケンスによって発生した原始命令の並び替えや再スケジューリングを可能にする技術の使用を可能にできる。多数のターゲット命令全体の並び替えおよび再スケジューリングを可能にすることによって、他の最適化技術を用いて、ターゲット命令群を実行するのに必要なプロセッサ・ステップ数を、ターゲット・アプリケーションを走らせる他のいずれのマイクロプロセッサが必要とするよりも削減することができる。
改良モーフ・ホストと組み合わせたコード・モーフィング・ソフトウエアは、ターゲット命令を、実行中に、モーフ・ホストの命令に変換し、これらのホスト命令をメモリ・データ構造（この明細書では、「変換バッファ」と呼ぶ）にキャッシュする。変換バッファを用いて変換した命令を保持することにより、どの原始命令が各ターゲット命令を実現するために必要かを判定し、各原始命令をアドレスし、各原始命令を取り込み、原始命令のシーケンスを最適化し、各原始命令にアセットを割り当て、原始命令を並び替え、そして各ターゲット命令を実行する毎に、必要な原始命令の各シーケンスの各ステップを実行するという長大なプロセスを再度走らせることなく、命令を呼び出すことが可能となる。一旦ターゲット命令を変換したなら、これら無数のステップを全く必要とすることなく、変換バッファからこれを呼び出し、実行することができる。
従来技術のエミュレーション技術の第１の問題は、これらの技術が、ターゲット・プログラムの実行中に発生する例外を、良好なパーフォーマンスで処理することができない点にある。これは、特に、ターゲット・オペレーティング・システムを対象とするターゲット・アプリケーションを走らせている際に発生する例外のときに該当する。この場合、例外およびそれに続く命令の適正な実行のためには、正しいターゲット状態が、このような例外のいずれの時点でも得ることができなければならない。その結果、エミュレータは常にターゲット状態を高精度に追跡することを強いられ、格納がターゲット・コード・エリアに対するものか否かについて判定するために、常にチェックしていなければならない。他の例外も同様の問題を引き起こす。例えば、エミュレータが、ある特定のホスト機能によって置換された特定のターゲット動作を検出する場合に、例外が発生することがある。即ち、ターゲット・プロセッサの種々のハードウエア動作は、エミュレータ・ソフトウエアが提供するソフトウエア動作で置換することができる。加えて、ターゲット命令から派生したホスト命令を実行するホスト・プロセッサも、例外を発生する可能性がある。これらの例外は全て、エミュレータがターゲット命令をホスト命令に変換しようとしている間、またはホスト変換がホスト・プロセッサ上で実行されるときのいずれかに発生する可能性がある。効率的なエミュレーションのためには、例外を正しく処理しつつ、これらの例外から効率的に復元する何らかの方法を備える必要がある。エミュレートされ得る全てのソフトウエアに対してこれを行うものは、従来技術にはない。
これら従来技術の限界を克服するために、改良モーフ・ホストには、多数のハードウエアの改善が含まれている。これらの改善には、ゲート格納バッファ（gated store buffer）および複数の大量の追加プロセッサ・レジスタが含まれる。追加レジスタのいくつかによって、レジスタの名称変更を用い、同じハードウエア資源を必要とする命令の問題を軽減することができる。また、追加レジスタによって、ホスト命令を処理する１組のホスト・レジスタまたはワーキング・レジスタ、および１組のターゲット・レジスタを維持し、ターゲット・アプリケーションを作成したターゲット・プロセッサのオフィシャル状態（official state）を保持することができる。ターゲット（またはシャドウ）レジスタは、専用のインターフェースを介して、それらのワーキング・レジスタの同等物に接続されている。専用インターフェースは、「コミット」（commit）と呼ばれる動作によって、全てのワーキング・レジスタの内容を素早くオフィシャル・ターゲット・レジスタに転送させ、かつ「ロールバック」（rollback）と呼ばれる動作によって、全てのオフィシャル・ターゲット・レジスタの内容をそれらのワーキング・レジスタ同等物に素早く逆転送させることを可能にする。ゲート格納バッファは、ハードウエア「ゲート」の「アンコミット」側（uncommit side）のワーキング・メモリの状態変化を格納し、更にハードウエア・ゲートの「コミット」側のオフィシャル・メモリの状態変化を格納する。この場合、コミットされた格納は、主メモリに「流出」する。コミット動作は、ゲートのアンコミット側からゲートのコミット側に格納を転送する。一旦１つまたは１群のターゲット命令を変換し、エラーなく走らせたなら、追加のオフィシャル・レジスタおよびゲート格納バッファによって、メモリ状態およびターゲット・レジスタ状態を一緒に更新することが可能となる。
これらの更新は、コード・モーフィング・ソフトウエアによって、整数ターゲット命令境界（integral target instruction boundary）上で生じるように選択される。したがって、一連のターゲット命令の変換を構成する原始ホスト命令が、例外を発生せずに、ホスト・プロセッサによって走らされた場合、これらの命令によって発生したワーキング・メモリの格納およびワーキング・レジスタ状態は、オフィシャル・メモリおよびオフィシャル・ターゲット・レジスタに転送される。このように、変換される１つまたは１組のターゲット命令の境界上にない点において、ホスト命令を処理している際に例外が発生した場合、最後の更新（またはコミット）におけるターゲット・レジスタ内の元の状態は、ワーキング・レジスタに呼び出すことができ、ゲート格納バッファ内のアンコミット・メモリ格納を消去する（dump）ことができる。次に、発生した例外がターゲット例外である場合、このターゲット例外を生じたターゲット命令を１回に１つずつ再変換し、それらがターゲット・マイクロプロセッサによって実行されるように、一連のシーケンスで実行することができる。各ターゲット命令はエラーなく正しく実行されるので、ターゲット・レジスタの状態を更新でき、格納バッファ内のデータをメモリに通過させる（gate）ことができる。次に、ホスト命令を走らせている際に例外が再び発生した場合、ターゲット・コンピュータの正しい状態は、モーフ・ホストのターゲット・レジスタおよびメモリ内に保持され、動作を遅延なく正しく処理することができる。この正しい変換によって得られる新たな変換の各々は、今後のためにキャッシュしておき、それを変換する際、または一旦それを消去する際、あるいはページ・フォールトのような稀な出来事の際に使用することができる。これによって、コード・モーフィング・ソフトウエアとモーフ・ホストとの組み合わせによって作成したマイクロプロセッサが、元来ソフトウエアを書いた対象であるプロセッサよりも速く、命令を実行することが可能になる。
尚、本発明のマイクロプロセッサを用いてターゲット・プログラムを実行する場合、多くの異なる種類の例外が発生する可能性があり、これらは異なる方法で処理することを注記しておく。例えば、例外には、例外を発生するターゲット・ソフトウエアが原因のものもあり、これにはターゲット・オペレーティング・システムの例外ハンドラを利用する。このような例外ハンドラの使用では、プロセスの処理のために、コード・モーフィング・ソフトウエアは、ターゲット・コンピュータが備えるあらゆるハードウエアを含む、例外処理プロセス全体をエミュレートするルーチンを含むことが必要である。このためには、コード・モーフィング・ソフトウエアが、ターゲット・プロセッサの状態をセーブする機能を備え、例外を処理し終わった後に、正しく移行できるようにする必要がある。ページ・フォールトのように、変換されるプロセスを実施する前に、メモリの新たなページにデータを取り込む必要がある例外では、例外を処理し終えた後に、変換対象のプロセスの先頭に戻る必要がある。他の例外は、動作がハードウエアによって与えられない場合、ソフトウエアで特定の動作を実現する。これらは、例外ハンドラが、例外を処理し終えた後に、変換における次のステップに動作を戻すことを必要とする。これら異なる種類の例外は各々、本発明を含むマイクロプロセッサによって効率的に処理することができる。
加えて、例外には、ホスト・ハードウエアが発生し、種々のホストおよびターゲット状態を検出するものがある。また、例外には、従来のマイクロプロセッサ上の例外のように振る舞うものもあるが、その他のものは、コード・モーフィング・ソフトウエアによって、種々の思索（speculation）の失敗を検出するために用いられる。これらの場合、コード・モーフィング・ソフトウエアは、前述の状態セーブおよび復元機構を用いて、ターゲット状態をその最近のオフィシャル・バージョンに復元させ、失敗した思索を回避する新たな変換を発生しセーブする（あるいは、以前に行った安全な変換を用いる）。次に、この変換を実行する。
モーフ・ホストは、追加のハードウエア例外検出機構を含み、前述のロールバックおよび再変換方法と共に、一層の最適化を可能にする。例として、メモリをメモリ・マップI/Oから区別する手段、およびアドレスまたはアドレス範囲を保護することによってメモリの参照を不要とし、ターゲット変数をレジスタに保持可能とする手段を挙げる。
動作がメモリまたはメモリ・マップI/Oに影響を与えるか否かというように、例外を用いて他の思索の失敗を検出する場合、新たな変換の生成によって復元が達成されるが、メモリ動作は異なり、最適化も異なる。
図２は、図１（ａ）のCISCプロセッサ上で走っているのと同じアプリケーション・プログラムを走らせる、本発明にしたがって設計したモーフ・ホスト・ハードウエアを表わす図である。図に見られるように、マイクロプロセッサは、前述のコード・モーフィング・ソフトウエア部と、改良ハードウエア・モーフ・ホスト部とを含む。ターゲット・アプリケーションは、ターゲット命令をコード・モーフィング・ソフトウエアに与え、モーフ・ホストが実行可能なホスト命令に変換させる。その間、ターゲット・オペレーティング・システムは、ターゲット・アプリケーション・プログラムからのコールを受け取り、これらをコード・モーフィング・ソフトウエアに転送する。本発明の好適な実施形態では、モーフ・ホストは、超長命令ワード（VLIW:very long instruction word）マイクロプロセッサであり、複数の処理チャネルによって設計されている。このようなプロセッサの全体的な動作については、図６（ｃ）に更に示されている。
図６（ａ）ないし図６（ｃ）は、CISCプロセッサ、RISCプロセッサ、およびVLIWプロセッサの各々と使用するように構成された命令を示す。図に見られるように、CISC命令は可変長であり、より多くの原始動作（例えば、ロードおよび加算）を複数個含むことができる。一方、RISC命令は、長さが等しく、本質的に原始動作である。図示のVLIWプロセッサに対する単一の超長命令は、CISCおよびRISC命令のより多くの原始動作（即ち、ロード、格納、整数加算、比較、浮動小数点乗算、分岐）の各々を含む。図６（ｃ）に見られるように、一体となって単一の超長命令ワードを構成する原始命令の各々は、他の原始命令と並列に、VLIWプロセッサの複数の別個の処理チャネルの１つ、またはメモリのいずれかに与えられ、処理チャネルおよびメモリによって並列に扱われる。これら並列動作の全ての結果は、マルチポート・レジスタ・ファイルに転送される。
モーフ・ホストの基本であるVLIWプロセッサは、前述の他のプロセッサよりもはるかに単純なプロセッサである。これは、発行依存性（issue dependency）を検出する回路も、原始命令を並び替え、最適化し、再スケジューリングする回路も含まない。このために、元来ターゲット・アプリケーション・プログラムを設計した対象のプロセッサや、エミュレーション・プログラムを用いてターゲット・アプリケーション・プログラムを走らせるその他のプロセッサのいずれかが可能なクロック・レートよりも高いクロック・レートで速い処理が可能となる。しかしながら、プロセッサは、VLIWプロセッサに限定される訳ではなく、RISCプロセッサのようなあらゆる種類のプロセッサとでも同様に機能することができる。
図２に示すマイクロプロセッサのコード・モーフィング・ソフトウエアは、変換部を含む。これは、ターゲット・アプリケーションの命令をデコードし、これらのターゲット命令を、モーフ・ホストによる実行が可能な原始ホスト命令に変換し、ターゲット命令が要求する動作を最適化し、原始命令を並び替えスケジューリングしてモーフ・ホストのVLIW命令（変換）とし、このホストVLIW命令を実行する。変換部の動作を図７に示す。図７は、コード・モーフィング・ソフトウエアの主ループの動作を示す。
コード・モーフィング・ソフトウエアおよび改良モーフ・ホスト・ハードウエアを含むマイクロプロセッサの動作を加速するために、コード・モーフィング・ソフトウエアは、図２に示すような変換バッファを含む。一実施形態の変換バッファは、メモリに格納可能なソフトウエア・データ構造である。特定の実施形態では、ハードウエアのキャッシュも利用できる場合がある。変換バッファは、ターゲット命令の完了した変換各々を実体化するホスト命令を格納するために用いられる。図に見られるように、一旦個々のターゲット命令を変換し、得られたホスト命令の最適化、並び替え、および再スケジューリングを行ったなら、得られたホスト変換を変換バッファに格納する。次に、変換を構成するホスト命令を、モーフ・ホストによって実行する。ホスト命令を実行し例外が発生しない場合、その後ターゲット命令または命令群が必要とする動作が要求されるときにはいつでも、変換を呼び出すことができる。
したがって、図７に示すように、アプリケーション・プログラムによってターゲット命令のアドレスが与えられたときの、マイクロプロセッサのコード・モーフィング・ソフトウエアの典型的な動作は、最初に、当該ターゲット・アドレスにおけるターゲット命令が変換されているか否かについて判定することである。ターゲット命令が変換されていない場合、変換部によって、それおよび後続のターゲット命令を取り込み、デコードし、変換し、次いで（恐らく）最適化し、並び替え、新たなホスト変換に再スケジューリングし、変換バッファに格納する。後でわかるであろうが、可能な最適化には様々な度合いがある。この明細書では、「最適化」という用語は、処理を加速するための技術のことを総称的に呼ぶために用いることが多い。例えば、並び替えは、処理の高速化を可能とする最適化の一形態であり、この用語に含まれるものである。可能な最適化の多くは、コンパイラの最適化の従来技術において説明されており、「スーパー・ブロック」（super−block）のように、従来技術の範囲内では実行が困難であったいくつかの最適化が、VLIWの研究から明らかとなった。次に、制御を変換に移転し、改良モーフ・ホスト・ハードウエアによって実行し、再開する。
アプリケーションを走らせている際に、特定のターゲット命令シーケンスが次に発見された場合、変換バッファ内にホスト変換が存在し、変換、最適化、並び替えまたは再スケジュールの必要性なく、直ちに実行する。以下で述べる先進の技術を用いることによって、ターゲット命令（一旦完全に変換された）に対する変換は、ほぼ100万回の変換の実行毎に１回変換バッファ中に発見されることが推測されている。その結果、最初の変換後には、デコード、原始命令の取り込み、原始命令の最適化、ホスト変換への再スケジューリング、および変換バッファへの格納というような変換に必要なステップの全ては、必要な処理から除外することができる。ターゲット命令を書いた対象のプロセッサは、命令を実行する毎に、各命令のデコード、取り込み、並べ替え、および再スケジューリングを行わなければならないので、これは、ターゲット命令を実行するために必要な作業を激減させ、改良プロセッサのマイクロプロセッサの速度を高めることになる。
従来技術のプロセッサによるターゲット・アプリケーションの実行に必要なこれらのステップ全てを除去するため、本発明を含むマイクロプロセッサは、従来技術において、このような動作をいずれの正当な速度でも不可能とする問題を克服する。例えば、改良マイクロプロセッサの技術のいくつかは、アプリケーションを他のシステムに移植するために用いられる、前述のエミュレータにおいて用いられていた。しかしながら、これらのエミュレータのいくつかは、アプリケーションの短い部分以外を走らせる方法がなかった。何故なら、変換された命令を処理する際、種々のシステム例外ハンドラへのコールを発生する例外は、ホスト・プロセッサの状態が同じ命令を処理しているターゲット・プロセッサの状態には関係がない動作時点で発生するからである。このため、このような例外が発生する時点におけるターゲット・プロセッサの状態はわからなかった。したがって、ターゲット・マシンの正しい状態を判定することができず、動作を停止し、再起動し、正しい状態を把握してからでないと、例外に対処し（service）、実行を継続することができなかった。このため、アプリケーション・プログラムをホストの速度で走らせることが不可能であった。
本発明のモーフ・ホスト・ハードウエアは、この問題を克服する多数の機能強化を含む。これらの機能強化を、各々図３、図４および図５に示す。エラーが発生した時点におけるレジスタの正しい状態を判定するために、１組のオフィシャル・ターゲット・レジスタが改良ハードウエアによって与えられ、元のアプリケーションを設計した対象のターゲット・プロセッサのレジスタの状態を保持する。これらのターゲット・レジスタは、浮動小数点ユニット、あらゆる整数ユニットおよびその他のあらゆる実行ユニットの各々に含ませることができる。これらのオフィシャル・レジスタを本発明のモーフ・ホストに追加しつつ、通常のワーキング・レジスタ数も増加させることによって、レジスタの名称変更を含む多数の最適化を実施可能とする。改良ハードウエアの一実施形態は、64個のワーキング・レジスタを整数ユニット内に、32個のワーキング・レジスタを浮動小数点ユニット内に含む。また、この実施形態は、補強した１組のターゲット・レジスタも含む。その中には、ターゲット・プロセッサの状態を与えるために必要な、当該プロセッサの頻繁に変化するレジスタ全てが含まれる。これらには、条件制御レジスタや、シミュレーション対象システムの制御に必要な他のレジスタが含まれる。
尚、モーフ・ホストが利用する改良処理ハードウエアの種類によっては、変換された命令シーケンスが、元のアプリケーションからの複数のターゲット命令を構成する原始動作を含む場合があることを注記しておく。例えば、VLIWマイクロプロセッサは、図６（ａ）ないし図６（ｃ）に示すように、CISCまたはRISCのいずれかの複数の命令を同時に走らせることができる場合がある。モーフ・ホストの種類が何であれ、本発明のモーフ・ホスト・ハードウエアのターゲット・レジスタの状態は、整数ターゲット命令境界（integral target instruction boundary）以外では変化せず、次いで全てのターゲット・レジスタは更新される。したがって、並び替えられホスト変換に再スケジューリングされた可能性がある一連の原始命令に変換されたターゲット命令または命令群を本発明のマイクロプロセッサが実行している場合、プロセッサがその変換された命令シーケンスを実行し始めるとき、オフィシャル・ターゲット・レジスタは、最初のターゲット命令がアドレスされたときに、アプリケーションの設計対象のターゲット・プロセッサのレジスタが保持していた値を保持する。モーフ・ホストが変換後の命令を実行し始めた後は、しかしながら、ワーキング・レジスタは、その時点までに実行された変換後の命令の原始動作によって決定される値を保持する。したがって、これらのワーキング・レジスタのいくつかは、オフィシャル・ターゲット・レジスタにおける値と同一の値を保持する可能性があるが、他のワーキング・レジスタはターゲット・プロセッサには無意味な値を保持する。これは、特定のターゲット・マシンよりもはるかに多いレジスタを与え、先進の加速技術を可能にしようとする実施例には、特に当てはまる。一旦変換後のホスト命令が開始したなら、これらの変換後のホスト命令がワーキング・レジスタの状態を決定し、これらのレジスタ内の値は、変換後のホスト命令が決定したいずれかの値となる。例外を発生せずに１組の変換後のホスト命令が実行された場合、この１組の命令の終了時に決定された新たなワーキング・レジスタ値が一緒にオフィシャル・ターゲット・レジスタに転送される（恐らく、ターゲット命令ポインタ・レジスタを含む）。本発明のプロセッサのこの実施形態では、この転送は、追加のパイプライン段において、ホスト命令の実行以外で行われるので、モーフ・ホストの動作を遅らせることはない。
同様に、図５に示すようなゲート格納バッファを、改良マイクロプロセッサのハードウエアにおいて利用し、データのメモリへの転送を制御する。ゲート格納バッファは、多数のエレメントを含み、その各々はメモリ格納動作に対してアドレスおよびデータを保持することができる。これらのエレメントは、多数の異なるハードウエア構成のいずれでも実現可能であり（例えば、先入れ先出しバッファ）、図示の実施形態は、ランダム・アクセス・メモリおよび３つの専用ワーキング・レジスタを利用して実現している。３つのレジスタは、それぞれ、メモリ格納のキューの先頭に対するポインタ、ゲートに対するポインタ、およびメモリ格納のキューの末尾に対するポインタを格納する。キューの先頭とゲートとの間に位置するメモリ格納は、既にメモリにコミットされており、一方キューのゲートと末尾との間に位置するメモリ格納は未だメモリにコミットされていない。ホスト変換の実行中に発生したメモリ格納は、モーフ・ホストによるホスト命令の実行中に発生した順序で、整数ユニットによって格納バッファに置かれるが、ホスト命令においてコミット動作が見出されるまで、メモリへの書き込みは許されない。このように、変換を実行すると、格納動作がキュー内に置かれる。これらが最初の格納であって他の格納がゲート格納バッファ内にないと仮定すると、先頭ポインタおよびゲート・ポインタは同じ位置を示している。各格納を実行するにつれて、キュー内の次の場所に置かれ、末尾ポインタが次の位置（図では上向き）に増分される。これは、コミット・コマンドが実行されるまで続けられる。コミット・コマンドの実行が行われるのは、通常、例外やエラー終了状態を発生することなく、１組のターゲット命令の変換を完了したときである。エラーなくモーフ・ホストによって変換が実行された場合、実行中に発生した格納バッファ内のメモリ格納は、一緒に格納バッファ（コミットされている）のゲートを通過し、続いてメモリに書き込まれる。図示の実施形態では、これは、末尾ポインタを保持するレジスタ内の値を、ゲートポインタを保持するレジスタにコピーすることによって行われる。
このように、ワーキング・レジスタからオフィシャル・ターゲット・レジスタへのレジスタ状態の転送、およびワーキング・メモリ格納のオフィシャル・メモリへの転送の双方は、一緒に行われ、明示的なコミット動作に応答して、整数ターゲット命令間の境界上でのみ行われることがわかる。
これによって、マイクロプロセッサは、改良モーフ・ホストによる実行中に発生したターゲット例外から、重大な遅延を全く伴うことなく、復元することができる。変換された命令または命令群のいずれかの実行中に、ターゲット例外が発生した場合、この例外は、モーフ・ホスト・ハードウエアまたはソフトウエアによって検出する。ターゲット例外の検出に応答して、コード・モーフィング・ソフトウエアは、オフィシャル・レジスタ内に保持されている値を、ワーキング・レジスタに戻し、ゲート格納バッファ内のコミットされていないメモリ格納を全て消去する（「ロールバック」と呼ばれる動作）。図５のゲート格納バッファ内のメモリ格納の消去は、ゲート・ポインタを保持するレジスタ内の値を、末尾ポインタを保持するレジスタにコピーすることによって、行うことができる。
ターゲット・レジスタからワーキング・レジスタに値を移すことにより、例外が発生したときに走っていたターゲット命令の最初のもののアドレスを、ワーキング命令ポインタ・レジスタ内に置くことができる。
ワーキング・レジスタ内のターゲット・プロセッサのこのオフィシャル状態から開始して、例外が発生したときに走っていたターゲット命令を連続順序で再変換するが、並び替えやその他の最適化はまったく行わない。各ターゲット命令を新たにデコードし新たなホスト変換に変換した後、ターゲット命令を表す変換されたホスト命令をモーフ・ホストによって実行すると、例外が発生する場合あるいは発生しない場合がある。（モーフ・ホストがVLIWプロセッサ以外である場合、ホスト変換の原始動作の各々が順次実行される。ホスト変換を走らせている際に例外が発生しなかった場合、次の原始機能を走らせる。）これは、例外が再度発生するか、あるいは単一のターゲット命令が変換され実行し終えるまで続けられる。一実施形態では、例外を発生せずにターゲット命令の変換が実行された場合、ワーキング・レジスタの状態がターゲット・レジスタに転送され、更にゲート格納バッファ内のあらゆるデータがコミットされるので、メモリに転送することができる。しかしながら、変換の実行中に例外が再度発生した場合、ターゲット・レジスタおよびメモリの状態は変化せず、例外が発生したときにターゲット・コンピュータ内に生じた状態と同一である。その結果、ターゲット例外が発生した場合、この例外は、ターゲット・オペレーティング・システムによって正しく処理される。
同様に、変換によって例外が発生した一連の命令の内第１のターゲット命令が一旦実行され、例外が発生しなかったのであれば、ターゲット命令ポインタは、次のターゲット命令を示す。この第２のターゲット命令は、第１の場合と同様に、最適化または並び替えを行わず、デコードし再変換する。単一のターゲット命令のホスト変換の各々がモーフ・ホストによって処理されていくと、ターゲット・レジスタおよびメモリの状態が、ターゲット・コンピュータ内に生ずる状態と同一である場合、何らかの例外が発生する。その結果、例外を直ちにかつ正しく処理することができる。これら新たな変換は、ターゲット・アプリケーションにおける命令のシーケンスに対する正しい変換として、変換バッファ内に格納され、命令を再度走らせるときにはいつでも呼び出すことができる。
図５のゲート格納バッファと同じ結果を得る本発明の他の実施形態は、格納を直接メモリに転送しつつ、変換の例外の結果ロールバックを必要とする例外またはエラーを生じた場合にターゲット・コンピュータの状態を復元するために十分なデータを記録する構成を含むものとすることができよう。このような場合、変換および実行の間に発生したいずれのメモリ格納についてもその効果を逆転させ、変換の開始時に存在していたメモリ状態を復元しなければならない。一方、ワーキング・レジスタは、先に論じたように、オフィシャル・ターゲット・レジスタ内に保持されているデータを受け取らなければならない。これを行う一実施形態は、別個のターゲット・メモリを維持して元のメモリ状態を保持しておき、ロールバックが発生した場合に、これを利用して、上書きされたメモリを置換する。メモリ・ロールバックを行う他の実施形態は、各格納を記録し、メモリ・データが発生する毎にこれを置換し、次いでロールバックが必要な場合に、格納プロセスを逆転させる。
本発明のコード・モーフィング・ソフトウエアは、変換されているプログラムを処理する速度を大幅に高める、追加の動作を備えている。単純に命令を変換し、最適化し、並び替え、再スケジューリングし、キャッシュし、各変換を実行して、１組の命令を実行する必要があるときにはいつでも再度走らせることができるようにしておくことに加えて、変換部は異なる変換をリンクし、殆ど全ての場合に、変換プロセスの主ループへのリターンを不要にする。図８は、このリンク・プロセスを行う際に、コード・モーフィング・ソフトウエアの変換部が実行するステップを示す。このリンク動作は、殆どの命令の変換について、本質的に主ループへのリターンを不要とし、このオーバーヘッドをなくするものであることは、当業者には理解されよう。
例示の目的のために、走らせるターゲット・プログラムがX86の命令で構成されていると仮定する。ターゲット命令のシーケンスの変換を行い、原始ホスト命令を並び替え再スケジューリングする場合、各ホスト変換の終了時に、２つの原始命令が発生する可能性がある。最初のものは、ターゲット・プロセッサに対する命令ポインタの値（またはその同等物）を更新する原始命令である。この命令は、次のターゲット命令の正しいアドレスを、ターゲット命令ポインタ・レジスタに置くために用いられる。この原始命令に続くのは、分岐命令であり、当該分岐に対する２つの可能なターゲットの各々のアドレスを含む。分岐命令に先立つ原始命令がターゲット・プロセッサに対する命令ポインタの値を更新する方法は、条件コード、レジスタ内の当該分岐に対する条件コードを試験し、分岐を制御する条件が示す２つの分岐アドレスの一方が変換バッファ内に格納されているか否かについて判定を行うことである。最初にターゲット命令のシーケンスを変換する場合、ホスト命令の２つの分岐ターゲットは双方とも、変換部ソフトウエアの主ループに対して、同じホスト・プロセッサ・アドレスを保持している。
ホスト変換が完了し、変換バッファに格納され、最初に実行されるとき、ターゲット命令ポインタ・レジスタにおいて、命令ポインタを更新し（ターゲット・レジスタの残りと同様に）、動作は分岐して主ループに戻る。主ループでは、変換ソフトウエアは、ターゲット命令ポインタ・レジスタ内において、次のターゲット命令への命令ポインタを参照する。次いで、次のターゲット命令シーケンスをアドレスする。このターゲット命令のシーケンスが未だ変換されておらず、したがって変換が変換バッファ内にないと仮定すると、次の１組のターゲット命令をメモリから取り込み、デコードし、変換し、最適化し、並び替え、再スケジューリングを行い、変換バッファ内にキャッシュし、実行する。第２組のターゲット命令が第１組のターゲット命令に続くので、第１組のターゲット命令のホスト変換の最後の原始分岐命令は自動的に更新され、第２組のターゲット命令のホスト変換のアドレスを、当該分岐を制御する特定の条件に対する分岐アドレスとして置換する。
次に、第２の変換されたホスト命令が第１の変換されたホスト命令にループ・バックする場合、第２の変換の最後における分岐動作は、主ループのアドレス、および第１の変換のX86アドレスを、当該分岐に可能な２つのターゲットとして含む。分岐に先立つ更新−命令−ポインタ原始動作は、条件を試験し、第１の変換へのループ・バックを行うことを決定し、最初の変換のX86アドレスへのターゲット命令ポインタを更新する。これによって、変換部は変換バッファを調べ、捜索中のX86アドレスがそこにあるか否かを確かめる。最初の変換のアドレスを発見したなら、ホスト・メモリ空間内におけるその値を、第２のホスト変換命令の最後の分岐内のX86アドレスと置換する。次に、第２のホスト変換命令をキャッシュし実行する。これによって、第１の変換から第２の変換への分岐を行わせる条件が満たされなくなるまで、このループを走らせ、主ループに戻る経路を取る分岐を行う。これが行われた場合、第１の変換されたホスト命令は主ループに戻るように分岐し、ターゲット命令ポインタによって指定される次の１組のターゲット命令を変換バッファ内で探索し、キャッシュからホスト変換を取り込む。あるいは、変換バッファ内の探索が失敗した場合、ターゲット命令をメモリから取り込み、変換する。この変換されたホスト命令が変換バッファにキャッシュされるとき、そのアドレスが、ループを終了した分岐命令内の主ループ・アドレスと置換する。
このように、種々の変換されたホスト命令が互いに連鎖されているので、変換主ループを通過する長い通路を辿る必要があるのは、リンクが存在しない場合のみである。最終的に、ホスト命令の分岐命令における主ループの参照は、殆ど完全に無用となる。この条件に達した場合、いずれのホスト命令を走らせる前であっても、ターゲット命令を取り込み、ターゲット命令をデコードし、当該ターゲット命令を構成する原始命令を取り込み、これらの原始動作を最適化し、原始動作を並び替え、これら原始動作の再スケジュールを行うために必要な時間が不要となる。したがって、いずれのアプリケーションの命令シーケンスを走らせる場合にもその都度これらのステップの各々を実行しなければならない全ての従来技術のマイクロプロセッサとは対照的に、改良マイクロプロセッサを用いれば、最初の変換を行った後には、いずれの１組のターゲット命令を走らせるために必要な作業も激減する。この作業は、各組の変換されたホスト命令を他の組の変換されたホスト命令にリンクすることによって、更に減少する。実際、アプリケーションを走らせている間、変換が必要となるのは、100万回の命令実行中１回未満となることが推定される。
変換する各組の命令を順にキャッシュし、再度変換する必要をなくすようにするため、このマイクロプロセッサの実現には、大きな変換バッファが必要であることを当業者は認識するであろう。異なるシステムに対してプログラムされたアプリケーションと共に機能するように設計された変換部の支援用バッファ・メモリに対する必要性は様々に変化する。しかしながら、X86プログラムを走らせるように設計されたマイクロプロセッサの一実施形態は、２メガバイトのランダム・アクセス・メモリを変換バッファとして利用している。
２つの追加のハードウエア機能強化が、本発明を含むマイクロプロセッサがアプリケーションを処理可能な速度を高めるのに役立つ。これらの内最初のものは、異常／正常（A/N）保護ビットであり、ターゲット命令の物理アドレスの参照を最初に行った変換ルック・アサイド・バッファ（TLB）（図３参照）内の各アドレス変換と共に格納される。変換内部のターゲット・メモリの動作には、２種類あり、一方はメモリ上で動作するもの（正常）、他方はメモリ・マップI/Oデバイス上で動作するもの（異常）とすることができる。
メモリに影響を与える正常アクセスは、正常に完了する。命令がメモリ上で動作する場合、これらの命令の最適化および並び替えを行うことが適当であり、本発明を含むマイクロプロセッサを用いたいずれのシステムでも、その速度を高めるのに非常に役立つ。一方、I/Oデバイスに影響を与える異常アクセスの動作は、いずれのステップも除去することなく、これらの動作がプログラムされた正確な順序で行わなければならない場合が多い。さもないと、I/Oデバイスに何らかの悪影響を与える可能性がある。例えば、特定のI/O動作が、I/Oレジスタをクリアする結果をもたらす場合があり、原始動作が順序を外して行われた場合、動作の結果は、ターゲット命令が指令した動作とは異なる場合がある。メモリをメモリ・マップI/Oと区別する手段がないと、メモリ・マップI/Oに影響を与える命令を変換する際に用いられる旧来の仮定を用いて、全てのメモリを扱わなければならない。これは、達成可能な最適性を著しく制限することになる。従来技術のエミュレータは、アドレスされているメモリの特性に対する思索の失敗を検出する手段、およびこのような失敗から復元する手段の双方を欠いていたので、その処理能力には限界があった。
図11に示すマイクロプロセッサの一実施形態では、A/Nビットは、メモリ・ページまたはメモリ・マップI/Oのいずれかを示すために、変換ルック・アサイド・バッファ内にセットすることができるビットである。変換ルック・アサイド・バッファは、メモリ・アクセスに対するページ・テーブル・エントリを格納する。このようなエントリは各々、アクセスされる仮想アドレスおよび捜索中のデータにアクセス可能な物理アドレス、ならびにエントリに関するその他の情報を含む。本発明では、A/Nビットはその他の情報の一部であり、物理アドレスがメモリ・アドレスかあるいはメモリ・マップI/Oアドレスかを示す。メモリに影響を与える動作を、メモリ動作であるかのように変換することは、実際には、この動作がメモリに影響を与えるものとする思索である。一実態形態では、コード・モーフィング・ソフトウエアが最初に、メモリまたはメモリ・マップI/Oデバイスのいずれかのアクセスを必要とする変換を実行しようとする場合、実際には、当該アクセスをメモリ・アクセスと仮定する。別の実施形態では、ターゲット・コマンドがI/Oアクセスを要求すると、ソフトウエアが仮定することも可能である。そのアドレスへのアクセスが未だ行われていないと仮定すると、変換ルック・アサイド・バッファ内にはエントリがなく、アクセスは変換ルック・アサイド・バッファにおいて失敗する。この失敗のために、ソフトウエアは、ページ・テーブル参照を行い、変換ルック・アサイド・バッファの格納位置に、ページ・テーブル・エントリを入力し、仮想アドレスに対する正しい物理アドレス変換を与える。これを行う際に、ソフトウエアは、この物理アドレスに対するA/Nビットを、変換ルック・アサイド・バッファに入力させる。その後、アクセスがメモリ・アドレスに対するものと仮定して、再度アクセスを実行しようとする試みが行われる。アクセスが試行されると、仮定したアクセス型（正常または異常）を、現在TLBページ・テーブル・エントリ内にあるA/N保護ビットと比較することによって、ターゲット・メモリ参照をチェックする。アクセス型がA/N保護と一致しない場合、例外が発生する。実際に動作がメモリに影響を与える場合、前述の最適化、並び替え、および再スケジューリング技術が、変換中に正しく適用されたことになる。しかしながら、TLB内のA/Nビットとの比較が、動作がI/Oデバイスに影響を与えることが示す場合、実行によって例外が発生し、変換部は、いずれの種類の最適化、並び替え、再スケジューリングも行わず、１度に１つのターゲット命令ずつ、新たな変換を行う。同様に、変換が、実際にはメモリに影響を与える動作をI/O動作と誤って仮定した場合、実行によって例外が発生し、最適化技術、並び替え技術および再スケジューリング技術を用いて、ターゲット命令を再変換する。このように、本プロセッサは、従来可能であった性能を超える改良をもたらすことができる。
尚、A/Nビットを用いて、アクセスがメモリまたはメモリ・マップI/Oデバイスのどちらに対するものかについての思索が失敗したか否かを判定する技術は、メモリ・マップ・アドレスの他の特性に関する思索にも使用可能であることは、当業者には認められよう。例えば、このような正常／異常ビットを用いて、異なる種類のメモリを区別することができる。他の同様な使用法として、メモリ特性を区別することも挙げられるが、当業者には理解されよう。
改良マイクロプロセッサが最も頻繁に実施する思索の１つは、変換中にターゲット例外が発生しないことに関するものである。これによって、従来技術に対して格段の最適化が可能となる。第１に、ターゲット状態を各ターゲット命令境界毎に更新する必要がなく、変換境界上に生ずるターゲット命令境界上でのみ更新すればよい。これによって、各ターゲット命令境界毎にターゲット状態をセーブするために必要な命令が不要となる。スケジューリングや冗長な動作を除去することに対する、従来では不可能であった最適化も可能となる。
驚くべきことに、改良マイクロプロセッサは、適切な変換プロセスを選択するように構成されている。前述の変換方法によれば、最初に１組の命令を、それがメモリに影響を与えるかのように、変換することができる。次に、最適化、並び替え、および再スケジューリングされたホスト命令を実行するときに変換ルック・アサイド・バッファ内に備えられているA/Nビットの状態によって、I/Oデバイスを参照するアドレスであったことが分る。A/Nビットと、ある動作がI/O動作であることを示す変換命令アドレスとの比較により、エラー例外が発生し、これによってソフトウエアが開始するロールバック手順が行われ、あらゆるアンコミット・メモリ格納が消去され、ターゲット・レジスタ内の値はワーキング・レジスタ内に戻される。次に、１度に１ターゲット命令ずつ変換が開始され、最適化、並び替え、あるいは再スケジューリングは行われない。この再変換は、I/Oデバイスに適したホスト変換である。
同様に、メモリ動作を、I/O動作として誤って変換する可能性がある。発生するエラーを用いて、その正しい再変換を行わせ、最適化、並び替え、および再スケジューリングを行うことにより、より速い動作を与える。
従来技術のエミュレータは、一般的に自己変更コード（self modifying code）と呼ばれるものにも苦闘していた。ターゲット・プログラムが、ターゲット命令を収容しているメモリに書き込みを行った場合、これらのターゲット命令のために存在する変換は「古く」なり、もはや有効でなくなる。これらの格納が発生する際に、動的にこれらを検出する必要がある。従来技術では、各格納に対して余分な命令を用いてこのような検出を行わなければならない。この問題は、プログラムがそれ自体を変更することよりも、範囲が広い。第２のプロセッサやDMAデバイスのような、メモリに書き込みを行う可能性のあらゆるエージェントも、この問題を発生する可能性がある。
本発明は、モーフ・ホストに対する別の機能強化によって、この問題に対処する。同様に変換ルック・アサイド・バッファに格納することができる変換ビット（Ｔビット）を用いて、変換が存在する原因であるターゲット・メモリ・ページを示す。したがって、Ｔビットは、ターゲット・メモリの特定のページが、ホスト変換が存在する原因であるターゲット命令を含むことを示すことができる。これらのターゲット命令が上書きされた場合、変換は陳腐化することになる。メモリ内で保護されているページに書き込みを行おうとした場合、変換ビットの存在によって例外が発生し、これをコード・モーフィング・ソフトウエアで処理すると、当該する変換（複数の変換）を無効化し、変換バッファから除去することができる。また、Ｔビットは、書き込まれていないターゲット・ページにマークを付けるために用い、これに基づいて変換を行うことも可能である。
本発明を含むマイクロプロセッサの全体的な機能エレメントをブロック図状で示す図３を参照することによって、これは理解することができる。モーフ・ホストがターゲット・プログラムを実行する場合、実際には、変換されていない元のホスト命令のみを含む、コード・モーフィング・ソフトウエアの変換部部分を走らせる。変換されていない元のホスト命令は、事実上、モーフ・ホスト上で走る。図の右側に、本質的に変換部および変換バッファを含むホスト部分と、ターゲット・オペレーティング・システムを含み、ターゲット命令およびデータを含むターゲット部分とに分割されたメモリが示されている。モーフ・ホスト・ハードウエアは、変換部を実行開始する際、メモリからホスト命令を取り込み、これらの命令を命令キャッシュ内に置く。変換部の命令は、メモリのターゲット部分に格納されている最初のターゲット命令のフェッチ（fetch）を発生する。ターゲット・フェッチを実行することにより、整数ユニットは、ターゲット命令の第１のアドレスを求めて、オフィシャル・ターゲット命令ポインタ・レジスタを探る。次に、メモリ管理ユニットの変換ルック・アサイド・バッファ内の最初のアドレスにアクセスする。メモリ管理ユニットは、ページング用ハードウエアを含み、TLBにメモリ・マッピング機能（facilities）を与える。TLBが正しくマップされており、ターゲット・メモリの正しいページに対する参照データを保持していると仮定すると、ターゲット命令ポインタ値は、ターゲット命令の物理アドレスに変換される。この時点において、変換がターゲット命令に対して行われたか否かを示すビット（Ｔビット）の状態が検出されるが、アクセスは読み取り動作であり、Ｔビットの例外は発生しない。アクセスがメモリまたはメモリ・マップI/Oのどちらかに対するものかを示すA/Nビットの状態も検出される。最後に述べたビットがメモリ位置を示すと仮定すると、変換が存在しないので、ターゲット・メモリ内のターゲット命令にアクセスする。このターゲット命令および後続のターゲット命令は、モーフ・ホスト計算機ユニットへのデータとして転送され、命令キャッシュに格納されている変換命令の制御の下で変換される。変換命令は、このターゲット命令がメモリに影響を与えるかのように、並び替え技術、最適化技術、および再スケジューリング技術を利用する。次に、ホスト命令のシーケンスを含む変換が得られ、これをホスト・メモリ内の変換バッファに格納する。変換は、ゲート格納バッファを介して、ホスト・メモリ内の変換バッファに直接転送される。一旦変換がホスト・メモリに格納されたなら、変換部は変換に分岐し、次いでこれを実行する。この実行（および後続の実行）は、変換が例外およびメモリに関して正しい仮定を行ったか否かについて判定を行う。変換を実行する前に、変換したターゲット命令を収容しているターゲット・ページ（群）に対するＴビットをセットする。この指示は、命令が変換されたこと、およびターゲット・アドレスに対する書き込みを行おうとすると、この試行は例外を発生し、変換が無効になるかあるいは除去される可能性があることを警告する。
モーフ・ホストに対する追加のハードウエア機能強化の１つは、通常はメモリに格納されるが動作の実行において頻繁に用いられるデータを、実行ユニット・レジスタ内に複製（即ち、「エイリアス」）し、各使用毎に当該データをメモリから取り出す際に要する時間を不要にするために利用する回路である。一実施形態においてこれを行うためには、モーフ・ソフトを「ロードおよび保護」コマンドに応答するように設計し、図10に示す実行ユニット110内のワーキング・レジスタ111にメモリ・データをコピーし、そのメモリ・アドレスを当該ユニット内のレジスタ112内に置く。アドレス・レジスタと連動するのは、比較器113である。比較器は、変換中メモリに向けられたゲート格納バッファへのロードおよび格納のアドレスを受け取る。ロードまたは格納のいずれかに対するメモリ・アドレスをレジスタ112（または実施形態によっては追加のレジスタ）内のアドレスと比較した場合、例外が発生する。コード・モーフィング・ソフトウエアは、メモリ・アドレスおよびレジスタが同じ正しいデータを保持していることを確認することによって、この例外に応答する。一実施形態では、変換をロール・バックし、実行レジスタ内に「エイリアス」データが全くない状態で、再実行することによって、これを行う。この問題を補正する他の可能な方法として、レジスタを最新のメモリ・データで更新するか、あるいはメモリを最新のロード・データで更新することが挙げられる。
本発明のマイクロプロセッサは、典型的なコンピュータ・エレメントを有する回路に接続すれば、図９に示すようなコンピュータを形成可能であることは、当業者には認められよう。図に見られるように、最近のX86コンピュータに用いる場合、マイクロプロセッサをプロセッサ・バスを介してメモリおよびバス制御回路に結合する。メモリおよびバス制御回路は、主メモリおよび、マイクロプロセッサと共に利用可能なキャッシュ・メモリへのアクセスを与えるように構成されている。また、メモリおよびバス制御回路は、PCIまたはその他のローカル・バスのようなバスへのアクセスも与え、このバスを通じてI/Oデバイスにアクセスすることができる。個々のコンピュータ・システムは、本発明のプロセッサによって置換される典型的なマイクロプロセッサと共に用いられる回路に依存する。
本発明のプロセッサの動作、および実行の加速化を行う態様を示すために、X86ターゲットコードの小さなサンプルのホスト原始命令への変換を、ここで提示する。このサンプルは、X86ターゲット命令のモーフ・ホスト命令への変換を示し、本発明のマイクロプロセッサによる、最適化、並び替え、および再スケジューリングのステップの様々な例を含む。例示するプロセスを追って行くことにより、ターゲット・プロセッサを用いて元の命令を実行する際に必要な動作と、ホスト・プロセッサ上で変換を実行する際に必要な動作との間の大幅な差が、当業者には明白となろう。
Ｃ言語のソース・コードで例示した元の命令は、非常に短いループ処理を記述する。本質的に、各ループの後に減分される変数「ｎ」が「０」より大きい間、値「ｃ」が、ポインタ「＊ｓ」が示すアドレスに格納される。ポインタ「＊ｓ」は各ループの後に増分される。

表記：［...］は、メモリ・オペランドに対するアドレス表現を示す。先の例では、メモリ・オペランドに対するアドレスは、レジスタの内容を、Oxプレフィクスが示す16進定数に加算することによって形成される。ターゲット・レジスタは、％プレフィクスで示される。例えば、％ecxは、excレジスタを示す。動作の宛先は左側である。

このサンプルの第１部分では、Ｃ言語の命令文によって定義される動作の実行を行うための個々のX86アセンブリ言語の命令は各々、当該動作に対するアセンブリ言語のニモニックによって表に纏められており、特定の原始動作に含まれるパラメータがこれに続く。動作の説明も、各命令毎のコメントにおいて与えることにする。実行の順序は、ターゲット・プロセッサでは、図示のものとは異なる場合もあるが、これらのアセンブリ言語命令の各々は、ターゲットＣ言語命令を実行する際に、ループを実行する毎に実行しなければならない。したがって、ループが100回行われる場合、以上に示した各命令は100回実行されなければならない。
以上に示した各X86命令、およびそれに続いて、X86命令を実装するために必要なホスト命令を示す。

次のサンプルは、Ｃ言語命令を実行する、同じターゲット原始命令を示す。しかしながら、各原始ターゲット命令の次に、本発明のマイクロプロセッサの一特定実施形態において同じ動作を行うために必要な原始ホスト命令を纏めてある。このマイクロプロセッサでは、モーフ・ホストはここに記載したように設計されたVLIWプロセッサである。オフィシャル・ターゲット・レジスタによってシャドウされたホスト・レジスタは、「Ｒ」で示し、その後ろにX86レジスタ名称が続くので、例えば、Reaxは、EAXオフィシャル・ターゲット・レジスタと連動するワーキング・レジスタであることを注記しておく。
X86アドレス計算およびセグメントの上限および下限チェックを行うために必要なホスト命令を追加する。

次のサンプルは、原始ターゲット命令の各々について、ホスト原始命令の追加を示し、これによって、ターゲット動作に必要なアドレスを、コード・モーフィング・ソフトウエアによって発生することができるものである。ホスト・アドレス発生命令は、アドレス発生ハードウエアの代わりに、コード・モーフィング・ソフトウエアをアドレス発生に用いるマイクロプロセッサの実施形態においてのみ必要となることを注記しておく。X86マイクロプロセッサのようなターゲット・プロセッサでは、アドレス発生ハードウエアを用いてこれらのアドレスを発生する。このような本発明の実施例においてアドレスが発生したときはいつでも、計算が行われ、また、ホスト原始命令が追加され、アドレス値をチェックすることによって、算出されたアドレスが適切なX86セグメントの限度内にあることを判定する。
ターゲットX86命令ポインタ「eip」を維持するための命令、および特殊なモーフ・ホスト・ハードウエアを用いてX86の状態を更新するコミット命令を追加する。

このサンプルは、原始ホスト命令の各組に２ステップを追加することによって、ゲート格納バッファ内のアンコミット値をメモリにコミットするために必要なホスト命令の実行後に、各原始ターゲット命令を実行し、オフィシャル・ターゲット・レジスタを更新することを例示する。サンプルに見られるように、各場合において、ターゲット命令の長さを、ワーキング命令ポインタ・レジスタ（Reip）内の値に加算する。次に、コミット命令を実行する。一実施形態では、コミット命令は、連動するオフィシャル・ターゲット・レジスタにシャドウされている各ワーキング・レジスタの現在値をコピーし、ゲート格納バッファのゲートの位置を指定するポインタ値を、アンコミットの格納の直前から、それらの格納の直後に移動させ、それらをメモリ内に置くようにする。
上記の最後に示した命令のリストは、元のターゲット・アセンブリ言語命令のホスト変換を形成するために必要な命令の全てであることは認められよう。変換がこの時点で停止した場合、原始ホスト命令の数は、ターゲット命令の数よりもはるかに多くなり（恐らく、６倍多い命令）、その実行は、ターゲット・プロセッサ上での実行よりも長くかかる可能性がある。しかしながら、この時点では、並び替えや、最適化や、再スケジューリングは未だ行われていない。
命令を１度だけ走らせる場合、更に並び替えやその他の最適化も行うために要する時間は、この時点で存在する変換を実行するための時間よりも長くなるということになり得る。その場合、マイクロプロセッサの一実施形態では、この時点で変換を中止し、変換を格納し、次いでそれを実行して例外またはエラーが発生するか否かについて判定を行う。この実施形態では、並び替えおよびその他の最適化のステップが行われるのは、特定の変換をある回数走らせることまたは最適化すべきことを決定した場合のみである。これは、例えば、ホスト命令を各変換に置き、変換を実行した回数を数え、ある値に達したときに例外（または分岐）を発生することによって行われる。例外（または分岐）は、動作をコード・モーフィング・ソフトウエアに転送し、次いでコード・モーフィング・ソフトウエアは、以下の最適化の一部または全部、および当該変換に有用と判定されたあらゆる追加の最適化を実現する。変換を走らせた回数を判定し、最適化を要求する第２の方法は、ある頻度でまたはある統計的基準に基づいて、変換の実行を中断し、その時点で走っているいずれの変換も最適化することである。これは、究極的に、最も頻繁に走らせる命令を最適化しようとするものである。別の解決策として、ループを形成するものや、その他に最も頻繁に走らせる可能性があるもののような、ある特定の形式のホスト命令の各々を最適化することも挙げられよう。

このサンプルは、改良マイクロプロセッサを利用して実施可能な最適化の第１段を例示する。この最適化段は、コード・モーフィング・ソフトウエアの他の動作の多くと同様、最適な結果を想定する。特定の最適化は、X86プロセッサ・ファミリによって与えられるフラット・メモリ・モデルに対して書かれた32ビット・プログラムとして開始したターゲット・アプリケーション・プログラムが、そのようなプログラムとして継続することを想定する。このような想定は、X86ファミリに特定なものであり、エミュレート対象の他のプロセッサ・ファミリでは必ずしも適用される訳ではないことを注記しておく。
この想定を行った場合、X86用アプリケーションでは、全てのセグメントが同一アドレス空間にマップされる。これによって、X86セグメンテーション・プロセスが要求する原始ホスト命令を除去することが可能となる。サンプルに見られるように、最初にセグメント値をゼロにセットする。次に、データのベースをゼロにセットし、限度を最大使用可能メモリにセットする。すると、ターゲット原始命令を実行するための各組の原始ホスト命令において、セグメンテーションに必要なセグメント・ベース値のチェック、およびセグメント・ベース・アドレスの計算双方が不要となる。これによって、アドレシング機能を必要とする各ターゲット原始命令に対して、２つのホスト原始命令が実行すべきループを減少する。この時点では、メモリ上限に対するホスト命令チェックは未だ存在する。
この最適化には、アプリケーションが32ビット・フラット・メモリ・モデルを利用することを記した思索を必要とすることを注記すべきであろう。これが真でない場合、主ループが制御転送の宛先を解明し、転送元の想定が宛先の想定と一致しないことを検出する際に、エラーが発見される。すると、新たな変換が必要となる。この技法は非常に一般的であり、種々のセグメンテーションおよびその他の「モード化」の場合において、デバッグ、システム管理モード、または「リアル」モードのように、「モード」が頻繁に変化する場合に適用可能である。
アドレスされたデータはコンピュータ・メモリの限度以外のバイトを含まないと想定する。限度を超える可能性があるのは、メモリ上限においてメモリ参照と交差する整合されていないページ上においてのみであり、特殊ケース用ソフトウエアまたはハードウエアによって処理可能である。

このサンプルは、最適化の次の段階を例示する。この場合、思索的な変換（speculative translation）によって、メモリ・アドレス空間の上端においてメモリ参照と交差する整合されていないページに対してのみ必要な、上側のメモリ境界チェックを不要にする。この想定の失敗は、ハードウエアまたはソフトウエアの整合解決（fix up）によって検出される。これによって、アドレシングを必要とする各ターゲット原始命令毎に、ホスト原始命令１つだけ変換が減少する。この最適化は、アプリケーションが32ビット・フラット・メモリ・モデルを利用するという先に記した想定、および命令が整合されているという思索の双方を必要とする。これらが真でない場合、変換を実行した際に失敗に終わり、新たな変換が必要となる。
冗長なアドレス算出を検出し除去する。この例は、冗長な動作を除去した後のコードを示す。

このサンプルは、次の最適化を例示する。この場合、共通のホスト表現を除去する。即ち、２番目のターゲット原始命令を変換する際、ワーキング・レジスタRebp（X86プロセッサのスタック・ペース・ポイント・レジスタを表すワーキング・レジスタ）内の値を、オフセット値0x8に加算し、ホスト・ワーキング・レジスタR2に置く。直前のサンプルにおいてターゲット原始命令５を変換する際に同じ動作を行ったが、加算の結果はワーキング・レジスタR5に置かれたことを注記しておく。その結果、ワーキング・レジスタR5に置かれる値は、ホスト原始命令５が生じようとするときには、既にワーキング・レジスタR2に存在する。したがって、ホストの加算命令を、ターゲット原始命令５の変換から除去することができ、ワーキング・レジスタR2内の値をワーキング・レジスタR5にコピーすればよい。同様に、ワーキング・レジスタRebp内の値をオフセット値0x10と加算するホスト命令も、ターゲット原始命令８の変換では除去することができる。何故なら、このステップは既にターゲット原始命令６の変換において行われており、結果はレジスタR7にあるからである。この最適化は思索に依存せず、そのため失敗や再変換がないことを注記しておく。
変換内ではターゲット例外が発生せず、したがって、eipやターゲット状態を更新する際の遅延も発生しないと仮定する。

この例は、変換全体を構成する原始ターゲット命令の変換が、例外を発生することなく行うことができると思索する最適化を例示する。これが真であれば、オフィシャル・ターゲット・レジスタを更新したり、個々のターゲット原始命令を実行するホスト原始命令の各シーケンス毎に、その終了時に格納バッファにおけるアンコミットの格納をコミットする必要がなくなる。思索が真であれば、ターゲット原始命令のシーケンスの終了時に、オフィシャル・ターゲット・レジスタだけを更新すればよく、格納をコミットするのは一度だけでよい。これによって、各原始ターゲット命令を実行するための原始ホスト命令を２つ除去することが可能となる。これらは、オフィシャル・ターゲット・レジスタを更新し、アンコミットの格納をメモリにコミットする単一のホスト原始命令と置換する。
これは、別の思索的動作であり、これも正しい思索を含む可能性が非常に高いことは理解されよう。このステップは、思索が真であれば、従来技術のエミュレーション技術全てに対して、非常に大きな利点を提供することになる。これは、ターゲット原始命令のシーケンス全体を実行する原始ホスト命令の全てを、１つのシーケンスに集合化し、その中で個々のホスト原始命令の全てを一緒に最適化することができる。これには、超長命令ワード技術を利用したモーフ・ホスト上で多数の動作を並列に走らせることができるという利点がある。また、これによって、より多数のその他の最適化も可能となる。何故なら、このような最適化に対する選択肢が広がるからである。更にまた、しかしながら、思索が真でないことが判明し、ループの実行時に例外が発生した場合、オフィシャル・ターゲット・レジスタおよびメモリは、ターゲット原始命令のシーケンスの開始時に存在したオフィシャル・ターゲットの状態を保持している。何故なら、ホスト命令のシーケンスが実際に実行されるまで、コミットは生じないからである。例外から復元するために必要な全ては、アンコミットの格納を消去し、オフィシャル・レジスタをワーキング・レジスタにロールバックし、シーケンスの開始時にターゲット原始命令の変換を再度開始することである。この再変換は、１度に１ターゲット命令ずつの変換を行い、各ターゲット原始命令を表すホスト・シーケンスを変換した後に、オフィシャル状態を更新する。次に、この変換を実行する。この再変換において例外が発生した場合、この例外を実行するために、オフィシャル・ターゲット・レジスタおよびメモリにおいて、正しいターゲット状態を直ちに得ることができる。

この要約は、最適化プロセスのこの時点において残っているホスト原始命令のシーケンスを例示する。この例は、ターゲット命令ポインタ（EIP）インラインの維持を示すが、変換時に分岐のためのポインタEIPをライン外に維持することが可能である。この場合、ポインタEIP更新シーケンスをこのステップおよび本例の後続のステップから除去することができる。
レジスタ資源依存性を低下させるための名称変更。これによって、以降のスケジューリングが一層効果的となる。この時点以降、個々のターゲットX86命令とホスト命令との間の関係が増々曖昧になるので、元のターゲットX86コードを省略する。

このサンプルは、通常レジスタ名称変更と呼ばれる、最適化の次のステップを示す。ここでは、ホスト原始命令のシーケンスにおいて１回以上の動作に用いられるワーキング・レジスタを必要とする動作は、異なる不使用のワーキング・レジスタを利用するように変更され、２つのホスト命令が同じハードウエアを必要とするという可能性をなくす。したがって、例えば、先の２つのサンプルにおいて、２番目のホスト原始命令は、オフィシャル・ターゲット・レジスタECXを表すワーキング・レジスタRecxを使用する。10番目のホスト原始命令も、ワーキング・レジスタRecxを使用する。２番目のホスト原始命令における動作を変更し、R0内のアドレスによって示される値を、レジスタRecxではなく、ワーキング・レジスタR1に格納することにより、先の２つのホスト命令が双方とも同じレジスタを使用する事態は避けられる。同様に、４番目、５番目、および６番目の原始命令も、先のサンプルでは、全てワーキング・レジスタReaxを利用する。４番目のホスト原始命令を変更し、ワーキング・レジスタReaxの代わりに、それまで不使用のワーキング・レジスタR3を利用するようにし、更に６番目のホスト原始命令を変更して、レジスタReaxの代わりに、それまで不使用のワーキング・レジスタR4を利用することによって、これらのハードウエア依存性がなくなる。
ホストVLIWハードウエア上で並列に実行可能な多数の動作として、原始ホスト動作を組織化するスケジューリング・プロセスの後。各行は、VLIWマシンが実行する並列動作を示し、”＆”は並列であることを示す。

このサンプルは、モーフ・ホスト上で実行するためのホスト原始命令のスケジューリングを示す。この例では、モーフ・ホストをVLIWプロセッサと仮定し、コード・モーフィング・ソフトウエアと協同するために備えられたハードウエア機能強化に加えて、処理ユニットの中でもとりわけ、２つの算術および論理（ALU）ユニットが含まれている。最初の行は、モーフ・ホスト上で一緒に走るようにスケジュールされた２つの個別の加算命令を示す。サンプルに見られるように、これらは、先の要約の直前のサンプルにおける３番目および８番目の原始ホスト命令である。２番目の行は、NOP（無動作であるが、次の命令に進む）命令および別の加算命令を含む。NOP命令は、何らかのスケジューリング最適化を行った後でも、一緒に走らせることができる命令が常に２つあるとは限らないことを示す。いずれにしても、このサンプルは、この時点では９組の原始ホスト命令のみが、元の10個のターゲット命令を実行するために残されていることを示す。
ホスト分岐ターゲットおよび連鎖格納変換の解決

このサンプルは、本質的に、ホスト原始命令の同じ組を例示するが、命令はこの時点では、変換バッファに格納され、１回以上実行されている点で異なる。何故なら、最後のジャンプ（jp）命令が、ここでは、変換された命令の別のシーケンスに連鎖することによって与えられたジャンプ・アドレスを示すからである。連鎖プロセスは、シーケンスの変換が完了していれば、変換部のメイン・ループから命令のシーケンスを取り出す。
進んだ最適化、逆方向コード移動
これ以降の例は、スケジューリングに先立つコードから始まる。この最適化は、まず、コードがループであることの検出に依存する。次に、ループ本体から不変の動作を除去し、ループ本体に入る前に１回実行することができる。

この例は、大抵は多数回繰り返されるシーケンスでのみ利用される進んだ最適化ステップを例示する。このプロセスは、最初に、ループを形成する変換を検出し、個々の原始ホスト命令を調べて、ループ本体内で一定の結果を生成する命令を判定する。これらの命令をループ本体から除去し、１回だけ実行して、レジスタ内に値を置く。その時点以降、このレジスタに格納した値を用い、命令を再度走らせることはしない。
逆方向コード移動後のループ本体のスケジューリング。例示の目的のために、ループ本体内のコードのみをスケジューリングして示す。

これら繰り返しのない命令をループから除去し、シーケンスを実行のためにスケジューリングすると、スケジューリングされた命令は、この最後のサンプルのようになる。初期の命令は実行されるが、ループの最初の繰り返しの間に１度だけであり、その後は、図示の７つのクロック・インタバルに残っているホスト原始命令のみが、ループの間に実行されることがわかる。したがって、実行時間は、原始ターゲット命令を実行するために必要な10命令から、７命令インタバルに短縮した。
サンプルからわかるように、ループから除去したステップは、アドレス発生ステップである。したがって、アドレス発生は、改良マイクロプロセッサでは、ループ呼び出し毎に１回だけ行えばよい。即ち、アドレス発生は１回だけ行えばよい。一方、X86ターゲット・プロセッサのアドレス発生ハードウエアは、これらのアドレスを、ループを実行する毎に発生しなければならない。ループを10回実行する場合、改良マイクロプロセッサは１回だけアドレスを発生するのに対して、ターゲット・プロセッサは、各アドレスを100回発生することになる。
逆方向コード移動の後

これは、変数を安全にメモリからレジスタに移動させることができる、モーフ・ホストのレジスタ・エイリアス検出ハードウエアの使用を示す。開始点は、「逆方向コード移動」の後のコードである。これは、ロードを除去することができる最適化を示す。
最初にロードを実行する。エイリアス・ハードウエアによってアドレスは保護されており、このアドレスに対する格納が行われると、「エイリアス」例外が発生する。次に、ループ本体内のロードをコピーと置換する。ループの本体の後、エイリアス・ハードウエアを解放する。

このサンプルは、更に進んだ最適化を例示し、本発明を含むマイクロプロセッサによって実施することができる。このサンプルより２つ前のサンプルを再度参照すると、最初の３つの加算命令が、スタック上のアドレスの計算を伴っていたことに気が付くであろう。これらのアドレスは、ホスト動作のシーケンスの実行中変化しない。つまり、これらのアドレスに格納されている値は、メモリから検索し、実行のために直ちに得ることができるレジスタにロードしておけばよい。サンプルに見られるように、これはホスト原始命令6,8,および10において行われる。命令7,9および11では、メモリ・アドレスの各々に、特殊なホスト・エイリアス・ハードウエアによって保護されているという印が付けられており、レジスタは、これらのメモリ・アドレスのエイリアスとして示されているので、そのデータを変更しようとするいずれの試みも、例外の原因となる。この点において、これらのスタック・メモリ・アドレスからのデータ移動を伴うロード動作の各々は、単純なレジスタ間コピー動作となり、これは、メモリ・アドレスからのロードよりも格段に速く進展する。ｎ＝０まで一旦ループを実行し終えたなら、エイリアス・レジスタを他のために利用できるように、メモリ・アドレスの各々から保護を除去しなければならないことを注記しておく。
コピー伝搬
エイリアス・ハードウエアを用いて、ループ本体内のロードをコピーに転換した後、コピー伝搬によって、いくつかのコピーを不要とすることができる。

このサンプルは、最適化の次の段階を示す。個々では、最後のサンプルで示した最適化においてロード命令を置換したコピー命令の殆どが不要であり、除去してもよいことを認識する。即ち、レジスタ間コピー動作が行われると、データをコピーした元のレジスタ内に、その動作前のデータが存在する。その場合、データは、それがコピーされたレジスタではなく、最初のレジスタにアクセスすることができ、コピー動作を除去することができる。これからわかるように、最後のサンプルのループ内に示す、先頭、２番目、５番目および９番目の原始ホスト命令が除去される。加えて、ホスト原始命令の他のものに用いられているレジスタも変更され、当該データに対する正しいレジスタを反映する。したがって、例えば、最初と２番目のコピー命令を除去した場合、３番目の格納命令は、データが存在するワーキング・レジスタRc（レジスタR1ではなく）からデータをコピーし、ワーキング・レジスタRs（レジスタR3ではなく）内に示されるアドレスにそのデータを置かなければならない。ワーキング・レジスタRsには、そのアドレスが存在する。
ループ本体のみのスケジューリングを示す例

上のサンプルにスケジューリング後のホスト命令を示す。このシーケンスは、ソース・コードから当初デコードされた原始ターゲット命令を実行するよりも、ループを実行するのに必要なクロックが少なくて済むことを注記しておく。したがって、行われた他の加速化の全てとは別に、結合された動作を走らせる総回数は、元のターゲット・コードを実行するために必要な動作よりも、単純に少なくなる。
エイリアス・ハードウエアの使用による格納の除去

このサンプルに示す最終的な最適化は、エイリアス・ハードウエアの使用による格納の除去である。これは、ループ本体内から格納を除去し、それらをループの結びにおいてのみ実行する。これによって、ループ本体内のホスト命令数が、元の10個のターゲット命令と比較して、３つに減少する。
以上、好適な実施形態に関して本発明の説明を行ったが、本発明の精神および範囲から逸脱することなく、当業者には種々の変更や変形も可能であることは認められよう。例えば、本発明は、X86プロセッサのエミュレーションに関して説明したが、本発明は、同様に、他のプロセッサ・アーキテクチャに設計されたプログラム、およびＰコード、Postscript、またはJavaプログラムのような仮想マシン上で実行するプログラムにも適用されることは理解されよう。したがって、本発明は、以下の請求の範囲に沿って解釈すべきものとする。

Claims

コンピュータにおいてメモリへのアクセスを制御するシステムであって、
命令のアドレスが、メモリまたはメモリ・マップI/Oデバイスのどちらに向けられたものかを示すハードウエア手段と、
前記アドレスがメモリであるかI/Oであるかを思索する命令を起動するための、最適化され、並び換えられ、再スケジューリングされた複数の命令を含む手段と、
前記命令に関して行った前記思索を、前記ハードウエア手段の指示と比較する手段と、
比較が、前記思索および前記指示が異なることを示した場合、補正処置を取る手段と、
を備えることを特徴とするシステム。
請求項１記載のメモリへのアクセスを制御するシステムにおいて、前記ハードウエア手段が、
仮想アドレスおよび関連する物理アドレスに対する複数の格納ロケーションを含むルック・アサイド・バッファと、
前記変換ルック・アサイド・バッファの各格納ロケーションにおける格納位置と、
を備えることを特徴とするシステム。
請求項１記載のメモリへのアクセスを制御するシステムにおいて、前記アドレスがメモリであるかI/Oであるかを思索する命令を起動する前記手段が、ターゲット・プロセッサに対する１組の命令から変換された、ホスト・プロセッサに対する１組の命令であり、前記１組の命令が、当該命令によって用いられる各アドレスに対する思索の指示を含むことを特徴とするシステム。
請求項１記載のメモリへのアクセスを制御するシステムにおいて、前記ハードウエア手段が、
仮想アドレスおよび関連する物理アドレスに対する複数の格納ロケーションを含むルック・アサイド・バッファと、
前記変換ルック・アサイド・バッファの各格納ロケーションにおける格納位置と、
を備え、
前記アドレスがメモリであるかI/Oであるかを思索する命令を起動する前記手段が、ターゲット・プロセッサに対する１組の命令から変換された、ホスト・プロセッサに対する１組の命令であり、前記１組の命令が、当該命令によって用いられる各アドレスに対する思索の指示を含む、
ことを特徴とするシステム。
請求項４記載のメモリへのアクセスを制御するシステムにおいて、前記命令に関して行った前記思索を、前記ハードウエア手段の指示と比較する前記手段が、各アドレスに対する思索の指示を、一致するアドレスを格納する格納ロケーションにおける記憶位置の状態と比較するハードウエア比較器を備えることを特徴とするシステム。
マイクロプロセッサ用メモリ・コントローラであって、
アドレスされるメモリの本質に関する思索の失敗を検出する手段と、
最適化され、並び換えられ、再スケジューリングされた複数の命令がある場合にかかる失敗から復元する手段と、
を備えることを特徴とするメモリ・コントローラ。
請求項６記載のメモリ・コントローラにおいて、アドレスされるメモリの本質に関する思索の失敗を検出する前記手段が、
アドレスされる物理メモリの本質の指示を格納するハードウエア手段と、
前記アドレスされるメモリの本質の思索を、前記ハードウエア手段によって格納された、前記アドレスされる物理メモリの本質の指示と比較する手段と、
を備えることを特徴とするメモリ・コントローラ。
請求項７記載のメモリ・コントローラにおいて、かかる失敗から復元する前記手段が、
前記アドレスされるメモリの本質の思索を、前記アドレスされる物理メモリの本質の指示と比較する前記手段による比較の失敗に応答し、例外を発生する手段と、
前記例外に応答する手段と、
を備えることを特徴とするメモリ・コントローラ。
請求項６記載のメモリ・コントローラにおいて、アドレスされるメモリの本質に関する思索の失敗を検出する前記手段が、
前記アドレスされる物理メモリの本質の指示を格納するハードウエア手段と、
前記アドレスされるメモリの本質に関する思索、および前記ハードウエア手段によって格納された、前記アドレスされる物理メモリの本質の指示を比較する手段と、
を備え、
かかる失敗から復元する前記手段が、
前記アドレスされるメモリの本質の思索を、前記アドレスされる物理メモリの本質の指示と比較する前記手段による比較の失敗に応答し、例外を発生する手段と、
前記例外に応答する手段と、
を備えることを特徴とするメモリ・コントローラ。
請求項９記載のメモリ・コントローラにおいて、前記例外に応答する前記手段が、
前記マイクロプロセッサを利用するコンピュータの状態を復元する手段と、
前記アドレスされるメモリの本質が前記思索とは異なると推定し、前記アドレスにアクセスする手段と、
を備えることを特徴とするメモリ・コントローラ。
請求項９記載のメモリ・コントローラにおいて、かかる失敗から復元する前記手段が、
前記アドレスされるメモリの本質に関する思索の失敗に応答して、例外を発生する手段と、
前記アドレスされるメモリの本質に関する思索の失敗に関係する例外から復元するためのプロセスを与える手段と、
を備えることを特徴とするメモリ・コントローラ。
コンピュータ用メモリ制御システムであって、
主メモリと、
メモリ・マップ入出力（I/O）デバイスと、
コマンドに、特定のアドレスにおける動作に影響を与えさせるメモリ制御手段と、
最近アクセスされた仮想アドレスと、これら仮想アドレスの前記コンピュータ内部における物理アドレスへの変換とを格納するメモリ・ロケーションを含む変換ルックアサイド・バッファと、
前記アドレスがメモリまたはメモリ・マップI/Oのどちらであると仮定したかに関する指示を記録する、各メモリ・ロケーション毎の少なくとも１つのメモリ位置と、
を備えることを特徴とするコンピュータ用メモリ制御システム。
請求項12記載のメモリ制御システムであって、更に、前記変換ルックアサイド・バッファに格納されている仮想アドレスにアクセスする命令が、前記物理アドレスが当該物理アドレスに対して記録された指示と同一であると推定するか否かを検出する比較器を備えることを特徴とするメモリ制御システム。
コンピュータ・システム内のメモリとしてアクセスされる構成部分の特性に関して失敗した思索から復元する方法であって、
複数の命令が最適化され、並び換えられ、再スケジューリングされている場合に、メモリとしてアクセスされる構成部分の特性が存在しないことに関する例外から復元するプロセスを与えるステップと、
あるアドレスに対するアクセスを発生し、特定のアドレスの特性に関して思索するステップと、
前記思索を前記アドレスされる構成部分の特性と比較することによって、前記思索の失敗を検出するステップと、
前記プロセスを走らせることによって、前記思索の失敗の検出に応答するステップと、
から成ることを特徴とする方法。
請求項14記載の失敗した思索から復元する方法において、前記思索の失敗を検出する前記ステップが、前記思索の失敗に応答して例外を発生するステップを含むことを特徴とする方法。
請求項14記載の失敗した思索から復元する方法において、メモリとしてアクセスされる構成部分の特性が存在しないことに関する例外から復元するプロセスを与える前記ステップが、
前記思索以前に存在していた前記コンピュータ・システムの状態の指示の格納を復元するために例外ハンドラを格納するステップと、
前記思索以前に存在していた前記コンピュータの状態の指示を格納するステップと、
を含み、
前記プロセスを走らせることによって、前記思索の失敗の検出に応答する前記ステップが、
前記格納した状態の指示を復元するステップと、
前記復元した状態を利用し、前記失敗した思索が行われた地点から、前記コンピュータの動作を継続するステップと、
を含むことを特徴とする方法。
マイクロプロセッサであって、
第１命令セットを実行可能なホスト・プロセッサと、
第２の異なる命令セットを有するターゲット・プロセッサに対して書かれたプログラムを、前記第１命令セットの命令に変換するコード・モーフィング手段と、
メモリ・コントローラと、
を備え、前記メモリ・コントローラが、
最近アクセスされた仮想ターゲット・アドレスと、該仮想ターゲット・アドレスによって表わされる物理アドレスとを記録する、複数の格納ロケーションを含むアドレス変換バッファと、
前記格納ロケーションの各々が、物理アドレスがメモリ・アドレスまたはメモリ・マップ入出力（I/O）アドレスのどちらかであるかを示す手段を含み、
格納ロケーションにおける指示を、格納位置における仮想ターゲット・アドレスへのアクセスがメモリまたはメモリ・マップI/Oのどちらに対するものであるかについて行われた思索と比較し、前記アドレスにアクセスする際に行うべき後続の動作を示す手段と、
を備えることを特徴とするマイクロプロセッサ。
請求項17記載のマイクロプロセッサにおいて、格納ロケーションにおける指示を、格納位置における仮想ターゲット・アドレスへのアクセスがメモリまたはメモリ・マップI/Oのどちらに対するものであるかについて行われた思索と比較し、前記アドレスにアクセスする際に行うべき後続の動作を示す前記手段が、
比較の失敗に応答して例外を発生する手段と、
前記例外に応答し、前記アドレスにアクセスする際に行うべき後続の動作を示す手段と、
を備えることを特徴とするマイクロプロセッサ。
請求項18記載のマイクロプロセッサにおいて、物理アドレスがメモリ・アドレスまたはメモリ・マップ入出力（I/O）アドレスのどちらであるかを示す前記手段が、格納ロケーションにおける格納位置を備えることを特徴とするマイクロプロセッサ。
メモリ・コントローラであって、
最近アクセスされた仮想ターゲット・アドレスと、該仮想ターゲット・アドレスによって表わされる物理アドレスとを記録する、複数の格納ロケーションを含むアドレス変換バッファと、
前記格納ロケーションの各々が、物理アドレスがメモリ・アドレスまたはメモリ・マップ入出力（I/O）アドレスのどちらであるかを示す手段を含み、
格納ロケーションにおける指示を、格納位置におけるアドレスへのアクセスがメモリまたはメモリ・マップI/Oのどちらにに対するものであるかについて行われた思索と比較し、前記アドレスにアクセスする際に行うべき後続の動作を示す手段と、
を備えることを特徴とするメモリ・コントローラ。
請求項20記載のメモリ・コントローラにおいて、格納ロケーションにおける指示を、格納位置における仮想ターゲット・アドレスへのアクセスがメモリまたはメモリ・マップI/Oのどちらにに対するものであるかについて行われた思索と比較し、前記アドレスにアクセスする際に行うべき後続の動作を示す前記手段が、
比較の失敗に応答して例外を発生する手段と、
前記例外に応答し、前記アドレスにアクセスする際に行うべき後続の動作を示す手段と、
を備えることを特徴とするメモリ・コントローラ。
請求項20記載のメモリ・コントローラにおいて、物理アドレスがメモリ・アドレスまたはメモリ・マップ入出力（I/O）アドレスのどちらであるかを示す前記手段が、格納ロケーションにおける格納位置を備えることを特徴とするメモリ・コントローラ。