JPH0773036A

JPH0773036A - 命令シーケンスを識別してタグを付加する方法

Info

Publication number: JPH0773036A
Application number: JP3096091A
Authority: JP
Inventors: Richard J Eickemeyer; リチャード・ジェームス・エイケメヤ; Stamatis Vassiliadis; スタマティス・バシリアディス
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1990-05-04
Filing date: 1991-04-03
Publication date: 1995-03-17
Anticipated expiration: 2011-01-29
Also published as: EP0454984B1; US5500942A; CA2037708A1; CA2037708C; DE69122294D1; CS93591A2; EP0454984A3; JPH087681B2; EP0454984A2; HU911102D0; HUT57456A; PL289723A1; DE69122294T2

Abstract

(57)【要約】【目的】各々の個々の命令の開始点または長さを知る
ことなしに命令ストリームから２つ以上の命令を複合化
する。【構成】全ての命令（３３）は、所定のフィールド位
置に命令とその長さを識別する１つのオペレーションコ
ードを含む。これらの命令は、それらが複合化の候補で
あることを示す適切なタグＴを有する必要がある。命令
の長さが２，４，６バイトのいずれかであるシステム３
７０においては、オペレーションコードに対するフィー
ルド位置が評価された命令長コードに基づいて想定され
る。想定されたオペレーションコードに基づく各々のタ
グＴの値が記録され、またこの想定されたオペレーショ
ンコードにおける命令長コードを用いて可能な命令の完
全なシーケンスを配置する。実際の命令境界が見出され
ると、対応する正しいタグ値を用いて複合命令の開始を
識別し、またその他の不正確に生成されたタグを無視す
る。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、コンピュータにおける
命令の並列処理に係り、特に特定のコンピュータ構成に
おいて並列に実行できる命令を識別するために命令を含
む２進情報流を処理する方法に関する。

【０００２】

【従来の技術】命令の並列実行の概念は、コンピュータ
システムの性能の改善に用いられている。並列実行は、
２つ以上の同一のまたは異なる命令を同時に実行できる
個別の機能ユニットを使用することに基づいてなされ
る。コンピュータシステムの性能を改善するために使用
される他の方法は、パイプライン方式である。このパイ
プライン方式は、これが多重命令を同時に実行すること
ができることから並列処理の形態を与える。

【０００３】しかしながら、並列実行および／またはパ
イプライン方式の利点は、データ依存性インタロックお
よびハードウェア依存性インタロックによりもたらされ
るもののような遅延のために実現されない場合が多い。
データ依存性インタロックの例はいわゆる書込み／読出
しインタロックであり、このインタロックでは第１命令
がその結果を、第２命令がそれを読み出し使用できる前
に、書き込まなければならないようになっている。ハー
ドウェア依存性インタロックの例は、第１命令が特定の
ハードウェア要素を使用し、第２命令も同一の特定のハ
ードウェアを使用しなければならない場合である。

【０００４】インタロック（パイプラインハザードと呼
ばれることが多い）を回避するために従来使用されてい
る方法の１つは、ダイナミック・スケジューリングであ
る。このダイナミック・スケジューリングは、実行直前
に命令ストリームのオペレーションコードが復号されて
命令が並列に実行され得るか否かを決定することを意味
している。このようなダイナミック・スケジューリング
の１つの形態を実施するコンピュータは、スーパスカラ
マシンと呼ばれることが多い。ダイナミック・スケジュ
ーリングに対する基準は、所定の命令処理ユニットにお
ける各々の命令セットアーキテクチュアの実現に対する
場合と同様に、そのアーキテクチュアに対して独自のも
のである。従って、ダイナミック・スケジューリングの
有効性は、命令のどの組合わせが並列に実行され得る
か、従って命令処理ユニットのサイクルタイムを増加さ
せるかを決定する拡張理論に通じるアーキテクチュアの
複雑性により制限される。このようなダイナミック・ス
ケジューリングに対するハードウェアやサイクルタイム
の増加は、多くの異なる命令を持つアーキテクチュアで
は一層大きな問題になる。

【０００５】命令ストリームが記憶装置から実行のため
に取り出される前になされるいわゆるスタティック・ス
ケジューリングにより、性能を改善するいくつかの試み
がなされている。スタティック・スケジューリングは、
コードを移動し、それにより実行以前に命令シーケンス
を再配置することにより実現される。このような再配置
は、並列処理によりハードウェアをより十分利用する等
価な命令ストリームを生成する。このようなスタティッ
ク・スケジューリングは、コンパイル時間においてなさ
れるのが普通である。しかしながら、再配置された命令
はそれらの元の形態のままであり、また従来の並列処理
はなお、次の２つの命令を直列または並列に実行すべき
か否かを判定するために命令の実行直前に、ある形態の
ダイナミックな決定を必要としている。

【０００６】上記ダイナミック・スケジューリングやス
タティック・スケジューリングまたはそれらの組合わせ
には、その他の問題点がある。例えば、各々のスカラ命
令が実行のために取り出されて並列実行に対するその能
力が決定されるごとに、各々のスカラ命令を再度レビュ
ーする必要がある。並列実行能力を有するスカラ命令を
予定より早く識別しフラグを立てる如何なる方法も与え
られていない。

【０００７】スーパスカラマシンで実現される場合のダ
イナミック・スケジューリングには、スカラ命令が可能
な並列処理に対してチェックされる方法における他の問
題点がある。スーパスカラマシンはそれらのオペレーシ
ョンコードの記述に基づいてスカラ命令をチェックする
が、ハードウェアの利用を考慮する如何なる方法も与え
られていない。さらに、命令はＦＩＦＯ（先入れ先出
し）の形で発生され、これによりインタロックの発生を
回避または最小にする選択的グループ分けの可能性が排
除される。

【０００８】また、並列命令処理に対するハードウェア
要件を考慮しようとする幾つかの既存の方法が知られて
いる。このようなシステムのあるものは、非常に長い命
令ワード（ＶｅｒｙＬｏｎｇＩｎｓｔｒｕｃｔｉｏ
ｎｗｏｒｄ）マシンと呼ばれ、このマシンにおいて
は、ハードウェアの命令スケジューリングが簡単になる
ように非常に複雑なコンパイラが命令を再配置するよう
になっている。この方法においては、コンパイラは、命
令ストリームにおいて一層の並列性を見出すためにより
大きなウインドを使用できるように、標準コンパイラよ
り一層複雑になる。しかし、得られた命令は必ずしも予
め存在するアーキテクチュアとコンパティブルなオブジ
ェクトコードではなく、従って１つの問題は解決するが
新たな問題を生起することになる。さらに、並列性を制
限する頻繁な分岐に起因する他の問題も発生する。

【０００９】命令の並列実行を更に十分に開発しようと
する最近の技術革新は、スカラブル複合命令セットマシ
ン（ＳｃａｌａｂｌｅＣｏｍｐｏｕｎｄＩｎｓｔｒ
ｕｃｔｉｏｎＳｅｔＭａｃｈｉｎｅｓ：ＳＣＩＳ
Ｍ）と呼ばれるものにより実現されている。。並列に実
行できる２つ以上の隣接スカラ命令のセットを求めるた
めに、命令ストリームを予め処理することにより複合命
令が生成される。ある場合には、ある種のインタロック
ド命令を並列実行のために複合化すると、特定のハード
ウェア構成においてインタロックを解消させることがで
きる。インタロックを解消させることができない他の構
成においては、データ依存性またはハードウェア依存性
インタロックを有する命令は、複合命令を形成するグル
ープから排除される。各々の複合命令は複合命令に関わ
るタグなどの制御情報により識別され、また複合命令の
長さは、２つのスカラ命令のセットから始まって、最大
数の個々のスカラ命令が特定のハードウェア実現により
処理可能なものに到るまでの範囲にわたってスカラブル
である。

【００１０】命令が実行のために取り出されると、適切
な実行を可能にするために命令の境界を知ることが必要
になる。しかしながら、複合命令を生成するために命令
ストリームが予め処理される場合は、命令境界は単にバ
イト・ストリングを検討するだけでは明らかにならない
ことがある。これは、可変長命令を許容するアーキテク
チュアの場合は特に問題になることである。その他の複
雑な問題も、アーキテクチュアがデータと命令の混合を
許容するときに発生する。

【００１１】例えば、ＩＢＭシステム３７０アーキテク
チュアにおいては、上記両方の問題点は適切なスカラ命
令のグループ分けを行う命令ストリームの予備処理を非
常に複雑な問題にする。第１に、命令は３つの可能な長
さ、すなわち２バイトまたは４バイトまたは６バイトを
有するが、特定命令の実際の長さが命令のオペレーショ
ンコードの最初の２ビットに示されても、バイトのスト
リングにおける命令の開始は単純な検査により容易には
識別することはできない。第２に、命令とデータは混合
可能であり、従って、命令バイト・ストリームにおける
基準点の有無は本発明にとっては非常に重要になる。基
準点は、どこで命令が始まるかまたはどこに命令境界が
存するかについての知識として定義される。もし、付加
的な情報が命令ストリームに付加されていないときは、
命令境界は単に、命令がＣＰＵにより取り出されるコン
パイル時間または実行時間においてのみ知られるのが普
通である。

【００１２】

【発明が解決しようとする課題】上記従来の方法の欠点
に鑑み、本発明の目的は、どこで命令が始まるかを知る
ことなしに、また命令の代りにどのバイトがデータを含
むかを知ることなしに２進命令ストリームから複合命令
を発生する方法を提供することにある。

【００１３】本発明の他の目的は、命令ストリームに対
して、どこで複合命令が始まるかを示すと共に複合命令
に取り込まれるスカラ命令の数を示すグループ分け情報
を含む制御情報を付加することにある。

【００１４】本発明の更に他の目的は、可変長命令およ
びこれらの命令に混合されたデータを有する複雑な命令
アーキテクチュアに適用でき、さらに命令が通常は一定
長であり、データが命令と混合されないＲＩＳＣアーキ
テクチュアに適用できる方法を提供することにある。

【００１５】本発明の更に他の目的は、命令ストリーム
を予備処理して、複合命令であってそれらの元の内容を
なお保持しているスカラ命令からなる複合命令を生成す
る方法を提供することにある。これに関連する目的は、
複合命令を形成するスカラ命令のオブジェクトコードを
変えることなしに複合命令を生成し、これにより既存プ
ログラムが、既に実現されたスカラ命令マシンとのコン
パティビリティを維持しながら複合命令マシンに対する
性能改善を実現することを可能にすることにある。

【００１６】更に他の目的は、命令ストリームを予備処
理して複合命令を生成する方法であって、命令実行前に
コンピュータシステム内の種々の点でソフトウェアおよ
び／またはハードウェアにより実現できる方法を提供す
ることにある。これに関連する目的は、命令を予備処理
する方法であって、ポストコンパイラの一部として、ま
たはイン・メモリ複合化器の一部として、またはキャッ
シュ命令複合化ユニットの一部として２進命令ストリー
ムに対して動作すると共に、命令の境界を知ることなし
にバイト・ストリームの始めにおいて命令の複合化を開
始させることができる方法を提供することにある。

【００１７】

【課題を解決するための手段】従って、本発明は、１組
の命令（またはプログラム）を予備処理してどの命令が
複合命令に結合されてよいかをスタティックに決定する
ことにより上記目的を実現しようとするものである。こ
のような処理は、特定のコンピュータシステム構成で並
列に実行できる命令クラスを求めるソフトウェアおよび
／またはハードウェア手段により代表的な実施例におい
てなされる。これらの命令クラスおよび複合化規則は実
現に対して特異的であり、また機能実行ユニットの数と
種類に従って変化する。個々の命令は、それらの元のシ
ーケンスおよびオブジェクトコードをそのまま維持しな
がら、選択的にグループ分けされると共に１つ以上の他
の隣接スカラ命令と結合されて、並列実行のための複合
スカラ命令と単一実行のための非複合スカラ命令の両者
を有する複合命令バイト・ストリームを形成する。制御
情報が付加されて複合命令の実行に関わる情報を識別す
る。

【００１８】特に、本発明は、各々の個別命令の開始点
または長さを知ることなしに命令ストリームから２つ以
上のスカラ命令を複合化する方法を提供する。全ての可
能な命令シーケンスが、所定のフィールド位置において
想定された命令長を求めることにより考慮される。ＩＢ
Ｍシステム／３７０システムにおいては、命令長はオペ
レーションコードの一部をなしている。他のシステムで
は命令長はオペランドの一部である。本発明の方法を実
施する幾つかの場合において、２つの可能な命令シーケ
ンスの間には有効な収束が生じ、これにより命令境界に
対する可能な選択範囲を狭くしている。有効な収束が得
られない他の場合には、バイト・ストリームの最後まで
多くの可能な命令シーケンスが続く。実際の命令境界
は、命令が実行のために取り出されるまでは未知であ
る。従って、全てのオーセンティック（ａｕｔｈｅｎｔ
ｉｃ）な命令および全てのスプリアス（ｓｐｕｒｉｏｕ
ｓ）な命令が、ハードウェア構成に適用される特定の複
合化規則に基づいて識別タグビットと共に符号化され
る。ＩＢＭシステム／３７０アーキテクチュアにおいて
は、命令は命令長コードに基づいて、長さが２，４，６
バイトのいずれかである。各々の識別タグビットの値
（想定されたオペレーションコード位置に基づく）は、
可能な２，４または６バイト命令ごとに記録される。実
際の命令境界が実行時に見出されると、対応する正しい
タグ位置を用いて複合命令の開始および／または非複合
命令の開始を識別し、他の不正確に発生したタグは無視
される。

【００１９】

【実施例】以下に詳細に説明する添付図面に示したよう
に、スカラブル複合命令セットマシン（Ｓｃａｌａｂｌ
ｅＣｏｍｐｏｕｎｄＩｎｓｔｒｕｃｔｉｏｎＳｅ
ｔＭａｃｈｉｎｅ：ＳＣＩＳＭ）と呼ばれる最近の手法
では、スカラ命令ストリームは、それらが適切な命令実
行ユニットによる同時並列実行のために既にフラグを立
てられると共に識別されるように、命令デコードタイム
前に複合され、またはグループ分けされる。このような
複合化はオブジェクトコードを変化させないので、既存
のプログラムで、既に実現されたシステムとのコンパテ
ィビリティを維持しながら性能改善を達成することがで
きる。

【００２０】図１に一般的に示すように、命令複合ユニ
ット２０は、２進スカラ命令ストリーム２１（データを
内部に含むかあるいは含まない）を取り、隣接スカラ命
令のいくつかを選択的にグループ分けして符号化複合命
令を形成する。従って、得られた複合命令ストリーム２
２は、並列実行のできないスカラ命令と、並列実行が可
能なスカラ命令のグループにより形成される複合命令と
を結合している。スカラ命令が命令処理ユニット２４に
与えられると、それは逐次実行のために適切な機能ユニ
ットにルーティングされる。複合命令が命令処理ユニッ
ト２４に与えられると、そのスカラ成分はそれぞれそれ
らの適切な機能ユニットまたはインタロック解消ユニッ
トにルーティングされ、同時並列実行に供される。通常
の機能ユニットは、限定されるものではないが、算術論
理ユニット（ＡＬＵ）２６，２８、浮動小数点算術ユニ
ット（ＦＰ）３０、および記憶アドレス発生ユニット
（ＡＵ）３２を備えている。データ依存性解消ユニット
は、例えば、米国特許出願第０７／５０４９１０号に示
されている。

【００２１】本発明の方法は、サイクルあたり多重命令
を（ある命令は１以上のサイクルが実行されることを要
求するが）処理する全てのコンピュータ・アーキテクチ
ュアにおける命令の並列送出と並列実行を容易にするこ
とを意図したものである。

【００２２】図２に示すように、本発明は、各々の機能
実行ユニットがスカラ命令（Ｓ）を、あるいは複合スカ
ラ命令（ＣＳ）を実行するユニプロセッサ環境内で実現
可能である。図に示したように、スカラ命令および複合
スカラ命令のシーケンスを含む命令ストリーム３３は、
各々の複合命令に関わる制御タグ（Ｔ）を有している。
このようにして、第１スカラ命令３４はサイクル１にお
いて機能ユニットＡにより単独で実行可能であり、タグ
Ｔ３により識別される三重複合命令３６はサイクル２に
おいて機能ユニットＡ，ＣおよびＤにより並列に実行さ
れる３つの複合スカラ命令を有することができ、タグＴ
２により識別される他の複合命令３８はサイクル３にお
いて機能ユニットＡおよびＢにより並列に実行される複
合スカラ命令対を有することができ、第２スカラ命令４
０はサイクル４において機能ユニットＣにより単独で実
行することができ、大きなグループの複合命令４２はサ
イクル５において機能ユニットＡ−Ｄにより並列に実行
される４つの複合スカラ命令を有することができ、さら
に第３スカラ命令４４はサイクル６において機能ユニッ
トＡにより単独で実行することができる。

【００２３】多重複合命令は、あるコンピュータシステ
ムの構成において並列実行できることを実現することが
重要である。例えば、本発明は、複合命令がＣＰＵ（中
央処理ユニット）の１つにより並列処理の１単位として
処理される図３に示したマルチプロセッサ環境において
潜在的に実現することができる。図示のように、同じ命
令ストリーム３３が次のように単に２サイクルのみで処
理できる。第１サイクルにおいては、ＣＰＵ＃１は第１
スカラ命令３４を実行し、ＣＰＵ＃２の機能ユニットは
三重複合命令３６を実行し、さらにＣＰＵ＃３の機能ユ
ニットは複合命令３８における２つの複合スカラ命令を
実行する。第２サイクルにおいては、ＣＰＵ＃１は第２
スカラ命令４０を実行し、ＣＰＵ＃２の機能ユニットは
複合命令４２の４つの複合スカラ命令を実行し、さらに
ＣＰＵ＃３の機能ユニットは第３スカラ命令４４を実行
する。

【００２４】複合命令の処理に適合できるコンピュータ
・アーキテクチュアの一例として、多重スカラ命令を送
出してマシンサイクル毎の実行に供することができるＩ
ＢＭシステム／３７０命令レベルアーキテクチュアがあ
る。その場合、マシンサイクルは、スカラ命令を実行す
るのに必要な全てのパイプライン・ステップまたはステ
ージを参照する。スカラ命令は、単一値パラメータを表
わすオペランドに作用する。命令ストリームが複合化さ
れると、隣接スカラ命令は同時または並列実行のために
選択的にグループ分けされる。

【００２５】各種のＩＢＭシステム／３７０アーキテク
チュア、例えばシステム／３７０、システム／３７０拡
張アーキテクチュア（３７０−ＸＡ）、およびシステム
／３７０エンタプライズ・システム・アーキテクチュア
（３７０−ＥＳＡ）などに供する命令セットはよく知ら
れている。これについては、ＩＢＭシステム／３７０の
動作原理（発行番号＃ＧＡ２２−７０００−１０１９
８７）およびＩＢＭエンタプライズ・システムズ・アー
キテクチュア／３７０、動作原理（発行番号＃ＳＡ２２
−７２００−０１９８８）に説明が与えられている。

【００２６】一般に、命令複合化ファシリティは、並列
実行が許される命令のクラスを求め、複合命令のメンバ
の間にはハードウェアでは処理できないインタロックは
存在しないことを保証する。コンパティブルな命令シー
ケンスが見出されたときは、複合命令が生成される。

【００２７】特に、システム／３７０命令セットは、特
定のコンピュータシステム構成で並列実行可能な命令の
カテゴリに分割することができる。これらのカテゴリの
あるものに属する命令は、同じカテゴリの命令またはあ
る他のカテゴリの命令と結合または複合化されて複合命
令を形成する。例えば、システム／３７０命令セットは
図４および５に示したカテゴリに区分することができ
る。この分類の根拠は、システム／３７０の命令の機能
要件および通常のコンピュータシステム構成におけるそ
れらのハードウェアの利用度に基づいて与えられる。シ
ステム／３７０命令の残りのものは、この実施例におけ
る複合処理に対しては特別には考慮されない。これは、
それらの命令がここで示す本発明の方法により複合化さ
れることを排除するものではない。

【００２８】例えば、命令シーケンスＡＲＲ１，Ｒ２ＳＲＲ３，Ｒ４のカテゴリ１からの命令と複合化される同じカテゴリに
含まれる命令を考えてみる。このシーケンスはデータハ
ザードインタロックを含まず、２つの独立したシステム
／３７０命令からなる結果Ｒ１＝Ｒ１＋Ｒ２Ｒ３＝Ｒ３−Ｒ４を発生する。このようなシーケンスの実行には、命令レ
ベルアーキテクチュアに対して設計された２つの独立で
並行する２対１ＡＬＵが必要とされる。従って、これら
の２つの命令がグループ分けされて、このような２つの
ＡＬＵを有するコンピュータシステム構成において複合
命令を形成することが理解される。このスカラ命令を複
合化する例は、データ依存性インタロック、さらにハー
ドウェア依存性インタロックとは無関係な全ての命令シ
ーケンス対に一般化することができる。

【００２９】実際の命令プロセッサにおいては、複合命
令を構成できる個々の命令の個数に上限が存在する。こ
の上限は特に、複合命令を生成しているハードウェアお
よび／またはソフトウェアユニットに取り込まれなけれ
ばならず、従って複合命令は基礎になる実行ハードウェ
アの最大能力以上の個別命令（例えば、対グループ、三
重グループ、四重グループ）を含むことはない。この上
限は、厳密には特定のコンピュータシステム構成におけ
るハードウェア実現の結果であり、この上限は、複合化
処理に対する候補と考えられる命令の全数または複合化
処理のために解析される所定のコードシーケンスのグル
ープ・ウインドの長さのいずれにも制限を与えるもので
はない。一般に、複合化処理のために解析されるグルー
プ・ウインドの長さが長い程、より都合のよい複合化処
理の組合わせにより実現できる並列性は大きくなる。

【００３０】図６は、ソフトウェアおよびハードウェア
の両者で複合化が生じるコンピュータシステムの多くの
可能な配置を示す図である。それぞれは、独自の利点と
欠点を有している。図６に示したように、プログラムが
ソースコードから実際の実行までに通常とる種々のステ
ージが存在する。コンパイル・フェーズではソースプロ
グラムはマシンコードに変換され、ディスク４６に記憶
される。実行フェーズでは、プログラムはディスク４６
から読み出され、適切な命令処理ユニット５２，５４，
５６により命令が実行される特定のコンピュータシステ
ム構成５０の主メモリ４８にロードされる。複合化は、
この径路に沿いどこでも実施することができる。一般
に、複合化器は命令処理ユニットまたはＣＰＵに近接し
て配置されるときは、時間的な拘束が一層厳しいものに
なる。複合化器がＣＰＵから離れて配置されるときは、
より多くの命令が大規模の命令ストリーム・ウインドで
検討され複合化のための最良のグループ分けを決定し、
実行性能の増加に供することができる。しかしながら、
このような初期の複合化は、付加的な開発とコスト要件
という点でシステム設計の残部に、より多くのインパク
トを与える可能性がある。

【００３１】図７の流れ図は、システムおよびハードウ
ェア・アーキテクチュアの両者に反映する１組のカスタ
マイズ複合化規則５８に従った、アセンブリ・ランゲー
ジ・プログラムからの複合命令セットプログラムの発生
を示す図である。アセンブリ・ランゲージ・プログラム
は、複合命令プログラムを発生するソフトウェア複合フ
ァシリティ５９に対する入力として与えられる。所定長
の連続する命令ブロックが、ソフトウェア複合化ファシ
リティ５９により解析される。複合化のために一緒に考
慮される命令グループを含むバイト・ストリームにおけ
る各々のブロック６０，６２，６４の長さは、複合化フ
ァシリティの複雑度に依存する。

【００３２】図７に示したように、この特定の複合化フ
ァシリティは、各々のブロックにおける“ｍ”個の固定
長命令に対する双方向複合化を与えるように設計されて
いる。主要な第１ステップは、第１および第２命令が複
合可能対を構成するか否か、次に第２および第３命令が
複合可能対を構成するか否か、次に第３および第４命令
が複合可能対を構成するか否かを、ブロックの最後まで
検討することにある。各種の可能な複合可能対Ｃ１〜Ｃ
５が識別されると、複合化ファシリティは複合命令の好
適なシーケンスを選択し、フラグまたは識別ビットを用
いて複合命令の最適シーケンスを選択することができ
る。

【００３３】最適シーケンスがないときは、複合可能隣
接スカラ命令の全ては、各種の複合命令の間に配置され
た目標への分岐が、図１５に示すように、そう遇する複
合対のいずれかを使用できるように、識別することがで
きる。多重複合化ユニットが得られる場合は、命令スト
リーム中の連続する多重ブロックが同時に複合可能にな
る。

【００３４】勿論、命令がどこで始まるかを示す既知の
基準点が既に存在するときは、複合命令を生成するため
に命令ストリームを予備処理することは容易である。こ
こで使用されるように、基準点とは、テキストのどのバ
イトが命令中の第１バイトであるという知識を意味す
る。この知識は、命令境界の位置について情報を与える
あるマークフィールドまたはその他のインジケータによ
り得ることができる。多くのコンピュータシステムにお
いては、このような基準点は、単にコンパイル時間にお
けるコンパイラにより、また命令が取り出されるときの
ＣＰＵにより明白に知られる。もし特定の基準タグ付き
スキームが提供されていないときは、このような基準点
はコンパイル時間と命令送出の間では未知である。

【００３５】図８の流れ図は、ハードウェア・プリプロ
セッサ６６またはソフトウェア・プリプロセッサ６７に
より発生される複合命令セットプログラムの実行を示す
図である。複合命令を有するバイト・ストリームは、複
合命令に対して迅速なアクセスを与える記憶バッファと
して用いられる複合命令（ＣＩ）キャッシュ６８に流入
する。ＣＩ送出論理６９はＣＩキャッシュから複合命令
を取り出し、それらの個々の複合命令を適切な機能ユニ
ットに送出し並列実行に供する。

【００３６】複合命令コンピュータシステムにおけるＡ
ＬＵなどの命令実行ユニット（ＣＩＥＵ）７１は、それ
ら自身で一度に１つスカラ命令か、または他の複合スカ
ラ命令と並列に複合スカラ命令を実行できることが強調
されるべきである。さらに、このような並列実行は、Ａ
ＬＵや浮動小数点（ＦＰ）ユニット７３、記憶アドレス
発生ユニット（ＡＵ）７５などの異なる種類の実行ユニ
ットで、またはコンピュータ・アーキテクチュアおよび
特定のコンピュータシステム構成に従った複数の同じ種
類のユニット（ＦＰ１，ＦＰ２）で実施することができ
る。

【００３７】コンパイルタイムの後複合化がなされる
と、コンパイラは、どのバイトが命令の第１バイトを含
むか、またどのバイトがデータを含むかをタグにより示
すことができる。この他の情報は、正確な命令位置が知
られることからより効率のよい複合化器を与える。勿
論、コンパイラは、命令境界を示す特定情報を複合化器
に与えるために、他の方法で命令とデータの間を識別す
ることができる。

【００３８】例示としての２方向複合化の実施例におい
ては、複合情報はテキスト（命令とデータ）の２バイト
毎に１ビットとして命令ストリームに付加される。一般
に、制御情報を含むタグは、複合バイト・ストリームの
各々の命令に付加することができる。即ち、それぞれの
非複合スカラ命令に、および対，三重をなして、または
更に大きな複合グループをなして含まれるそれぞれの複
合スカラ命令に付加することができる。ここで使用され
るように、識別ビットは複合グループを形成する複合ス
カラ命令を非複合スカラ命令から識別し弁別するために
使用するタグの部分をさしている。非複合スカラ命令
は、複合命令プログラム内にあり、取り出されるときは
単独で実行される。

【００３９】４バイト境界上に配列された全ての４バイ
ト命令を有するシステムにおいては、１つのタグはテキ
ストの各４バイトに関係している。同様に、命令を任意
に配列できるときは、タグはテキストの全てのバイトに
対して必要になる。多くて２つの命令を複合化する場合
は、スカラ命令の最小のグループ分けを与えて複合命令
を形成し、また識別ビットに対して次のような好適な符
号化手順を使用する。全てのシステム／３７０命令は、
長さが２または４または６バイトのいずれかのハーフワ
ード（２バイト）の境界上に配列されるので、ハーフワ
ード毎に識別ビットを持つ１つのタグが必要になる。こ
の小さなグループ分けの例においては、識別ビット
“１”は、問題のバイトで始まる命令が次の命令と複合
化されることを示し、“０”は、問題のバイトで始まる
命令が複合化されないことを示している。命令の第１バ
イトを含まないハーフワードに関わる識別ビットは無視
される。複合対の第２命令の第１バイトに対する識別ビ
ットもまた無視される。従って、識別ビットに対するこ
の符号化手順は、最も簡単な場合に情報の１ビットのみ
がＣＰＵにより実行中に必要とされ、複合命令を識別す
ることを意味する。

【００４０】２以上のスカラ命令がグループ分けされて
複合命令を形成する場合は、余分の識別ビットが要求さ
れる。実際に複合化される特定数のスカラ命令を示すの
に必要な最小数の識別ビットは、グループ分けされて複
合命令を形成できる最大数のスカラ命令の底２に対する
対数（最も近い全数に丸められる）である。例えば、最
大数が２のときは、複合命令毎に１つの識別ビットが必
要とされる。最大数が３または４のときは、複合命令毎
に２つの識別ビットが必要とされる。最大数が５，６，
７または８のときは、複合命令毎に３つの識別ビットが
必要とされる。この符号化方式を表１に示す

【表１】従って、各々のハーフワードはタグを必要とす
るが、ＣＰＵは実行される命令ストリームの第１命令に
対するタグを除く全てを無視することがわかる。換言す
れば、バイトを調べ、その識別ビットをチェックするこ
とにより、それが複合命令であるか否かを決定する。も
しそれが複合命令の始めでないときは、その識別ビット
は０になる。このバイトが２つのスカラ命令を含む複合
命令の始めのときは、識別ビットは第１命令に対して
“１”であり、第２命令に対して“０”である。また、
このバイトが３つのスカラ命令を含む複合命令の始めの
ときは、識別ビットは第１命令に対しては“２”であ
り、第２命令に対しては“１”であり、第３命令に対し
ては“０”である。換言すれば、各々のハーフワードに
対する識別ビットは、この特定のバイトが複合命令の始
めであるか否かを識別し、同時に複合グループを構成す
る命令数を示している。

【００４１】複合命令を符号化する上記方法では、３つ
の命令が複合化されて三重グループを形成するとき、第
２および第３命令も複合化されて対グループを形成する
と仮定される。換言すれば、三重グループの第２命令へ
の分岐が生じるとき、第２命令に対する識別ビット
“１”は、三重グループの第１命令が実行されていなく
ても、第２および第３命令が複合対として並列に実行さ
れることを示している。

【００４２】当業者には明らかなように、本発明は特定
のコンピュータシステム構成に対して命令ストリームが
一度だけ複合化されることを要求し、その後複合命令の
任意の取出しがそれに係る識別ビットの取出しをもたら
すものである。これにより、いわゆるスーパスカラマシ
ンにおける実行に対して同じまたは異なる命令が取り出
される毎に反復して生じる並列実行に対するあるスカラ
命令の不十分な最後の瞬時の決定と選択の必要性が回避
されることになる。

【００４３】２進命令ストリームを複合化する全ての利
点とは別に、バイト・ストリングで命令境界を決定する
方法が発展しない限りは、あるコンピュータ・アーキテ
クチュアの下で２進命令ストリームを複合化することは
困難である。このような決定は可変長命令が許容される
ときは複雑であり、またデータおよび命令が混合される
ときは更に複雑である。勿論、実行時間では適切な実行
を可能にするには命令境界がわかっていなければならな
い。しかし、複合化は好適には命令実行以前に十分な時
間をかけてなされることから、どこで命令が始まるかに
ついての知識なしに、またどのバイトがデータであるか
についての知識なしに命令を複合化する方法が必要とさ
れる。この方法は、命令が通常は一定長でありまたデー
タと混合されないＲＩＳＣ（ＲｅｄｕｃｅｄＩｎｓｔ
ｒｕｃｔｉｏｎＳｅｔＣｏｍｐｕｔｅｒｓ）を含
む、容認される種類のアーキテクチュアの全てに適用可
能である必要がある。

【００４４】本発明の方法には、複合化される特定の命
令ストリームについて既に得られた情報に依存して多く
の変形が可能である。通常の適切な情報の種々の組合わ
せを表２に示す。

【００４５】

【表２】いくつかの場合には、固定長命令および可変長
命令は異なるケースであると識別されることに留意すべ
きである。これは、可変長命令の存在により、基準点が
未知である多くの不確実性が生成され、そのため多くの
より潜在的な複合化ビットが生成されるということから
なされる。換言すると、本発明の方法により与えられる
ものとして潜在的な命令シーケンスを発生するとき、任
意の固定長命令の中間におけるバイトに対しては複合化
識別タグは存在しない。また、好適な符号化方式の下で
要求される識別タグの全数はわずかである（即ち、４バ
イトの固定長を持つ命令に対して４バイト毎に１つの識
別タグ）。とは言え、本発明の独特の方法は、命令の開
始が一旦知られる（または想定される）と、長さは一方
向で命令中のいたる所で常に見出すことができるので、
固定長命令に対しても可変長命令に対しても同様に適用
することができる。システム／３７０命令においては、
長さはオペレーションコードで符号化され、他のシステ
ムではオペランドで符号化される。

【００４６】固定長命令が混合されたデータを持たず、
またオペレーションコードに対する基準点位置がわかっ
ているケースＡの場合、複合化は特定のコンピュータ構
成に対して適用可能な規則に従って行うことができる。
長さは固定されているので、スカラ命令のシーケンスは
容易に決定され、またシーケンス中の各々の命令は次の
命令との並列実行に対する可能な候補として考えれるこ
とができる。制御タグの第１の符号化値は、命令が次の
命令と複合可能ではないことを示し、制御タグの第２の
符号化値は、次の命令との並列実行に対して複合可能で
あることを示している。

【００４７】同様に、可変長命令が混合されたデータを
持たず、また命令に対して（従ってまた、命令長コード
に対して）基準点がわかっているケースＢの場合には、
複合化はルーチン的に行われる。図９に示すように、オ
ペレーションコードは次のような命令シーケンスを示
す。即ち、第１命令は６バイト長であり、第２および第
３命令はそれぞれ２バイト長であり、第４命令は４バイ
ト長であり、第５命令は２バイト長であり、第６命令は
６バイト長であり、さらに第７および第８命令はそれぞ
れ２バイト長である。

【００４８】ここで説明のため、隣接対のスカラ命令か
ら形成された複合命令を生成する複合化法（図９〜図１
１）並びにより大きなグループのスカラ命令から形成さ
れる複合命令を生成する複合化法（図１３）について示
す。図に示した実施例に対する規則例が更に定義され、
２バイト長または４バイト長の全ての命令が互いに複合
可能である（即ち、２バイト命令は、他の２バイト命令
または他の４バイト命令と共にこの特定のコンピュータ
構成において並列実行が可能である）ことを与える。こ
れらの規則は更に、６バイト長である全ての命令は全く
複合可能ではない（即ち、６バイト命令はこの特定のコ
ンピュータ構成においてそれ自身単独で実行できるに過
ぎない。）ことを与える。勿論、本発明はこれらの複合
規則例に限定されるものではなく、与えられたコンピュ
ータ・アーキテクチュアに対する特定の構成における既
存命令の並列実行に対する基準を定める任意の組の複合
化規則に適用可能である。

【００４９】本発明のこれらの例示として複合化法で使
用する命令セットは、システム／３７０アーキテクチュ
アからとられる。以下で更に詳細に説明するように、各
々の命令に対するオペレーションコードを検討すること
により、各々の命令の種類と長さを決定することがで
き、また次に識別ビットを含む制御タグが特定の命令に
対して生成される。勿論、本発明は特定のアーキテクチ
ュアまたは命令セットに限定されるものではなく、また
上記複合化規則は単に例示として与えられるに過ぎな
い。

【００５０】ここで、これらの実施例における複合命令
に対する好適な符号化について説明しておく。２つの隣
接命令が複合化され得るときは、記憶装置に対して生成
されるそれらの識別ビットは、第１の複合命令に対して
は“１”であり、第２の複合命令に対しては“０”であ
る。しかし、第１および第２の命令が複合化できないと
きは、第１の命令に対する識別ビットは“０”であり、
次に第２および第３の命令が複合化のために検討され
る。この方法によりまた種々のスカラ命令に対して符号
化された識別ビットに従って命令バイト・ストリームが
予備処理されると、より大きなグループを見るより大き
なウインドを用い、次に複合化のための隣接対の最良の
組合わせを取り出すことにより並列実行を実現するより
最適な結果が得られる。

【００５１】図９のＣベクトル７２は、第１命令の始め
を示す基準点がわかっている上記の特定の命令シーケン
ス７０に対する識別ビット（図では複合化ビットと呼ば
れる）に対する値を示している。このような識別ビット
の値に基づいて、第２および第３命令は第２命令に対す
る識別ビットの“１”により示されるように複合対を形
成する。第４および第５命令は、第４命令に対する識別
ビットの“１”により示されるように他の複合対を形成
する。第７および第８命令も、第７命令に対する識別ビ
ットの“１”により示されるように複合対を形成する。

【００５２】図９のＣベクトル７２も、命令バイトと混
合されたデータバイトが存在しないとき、また命令の全
てが同じ長さで既知の境界を持つ場合は、ケースＢで生
成するのは比較的容易である。

【００５３】わずかに複雑な状況がケースＣで与えら
れ、この場合には、命令は非命令と混合され、命令の開
始を示す基準点が与えられている。図１４の概略図は命
令基準点を示す１つの方法を示す図であり、全てのハー
フワードは、これが命令の第１バイトを含むか否かを示
すタグによりフラグを立てられている。これは固定長お
よび可変長命令の両方に対して生じ得るものである。基
準点を与えることにより、可能な複合化のためにバイト
・ストリームのデータ部分を評価することは不要にな
る。従って、複合化ユニットはスキップし、非命令バイ
トの全てを無視することができる。

【００５４】ケースＤは、命令およびデータが通常は所
定のバイト境界上に配列されるので、データが混合され
ない固定長命令に対し困難な問題は与えない。従って、
表では基準点が未知であることを示しているが、実際に
はそれは配列要件に基づいて容易に決定される。

【００５５】ケースＥはより複雑な場合であり、そこで
はバイト・ストリームは可変長命令（データ無し）を含
むが、どこで第１命令が始まるかはわかっていない。最
大長命令は６バイトであり、また命令は２バイト境界上
に配列されているので、命令ストリームの第１命令に対
しては３つの可能な開始点が存在する。従って、本発明
は、図１０に示すように、バイト・ストリーム７９のテ
キスト中の第１命令に対する全ての可能な開始点の検討
を保証する。

【００５６】シーケンス１は、第１命令が第１バイトで
始まり、そのプレミスにおける複合化と共に進行するも
のと仮定している。第１バイトに対する長さフィールド
の値は６で次の命令が第８バイトで始まることを示し、
第７バイトに対する長さフィールドの値は２で次の命令
が第９バイトで始まることを示し、第９バイトに対する
長さフィールドの値は２で次の命令が第１１バイトで始
まることを示し、第１１バイトに対する長さフィールド
の値は４で次の命令が第１５バイトで始まることを示
し、第１５バイトに対する長さフィールドの値は２で次
の命令の第１７バイトで始まることを示し、第１７バイ
トに対する長さフィールドの値は６で次の命令が第２３
バイトで始まることを示し、第２３バイトに対する長さ
フィールドの値は２で次の命令が第２５バイトで始まる
ことを示し、さらに第２５バイトに対する長さフィール
ドの値は２で次の命令（図示せず）が第２７バイトで始
まることを示す。

【００５７】この例示としての実施例においては、長さ
フィールドはまた各々の可能な命令に対するＣベクトル
値の決定要因でもある。従って、シーケンス１に対する
Ｃベクトル７４は、２バイトおよび４バイト命令の組み
合わせにより形成された可能な複合対の第１命令に対し
て値“１”を単に有している。

【００５８】シーケンス２は、第１命令が第３バイト
（第２ハーフワードの始め）で始まり、そのプレミスの
複合化と共に進行するものと仮定している。第３バイト
に対する長さフィールドの値は２で次の命令が第５バイ
トで始まることを示す。先行する命令の長さフィールド
値に基づいて各々の可能な命令を通して進行することに
より、Ｃベクトル７６に示すように、シーケンス２の全
体の潜在的命令が可能な識別ビットと共に生成される。

【００５９】シーケンス３は、第１命令が第５バイト
（第３ハーフワードの始め）で始まり、そのプレミス上
を進行すると仮定される。第５バイトに対する長さフィ
ールドの値は４で、次の命令が第９バイトで始まること
を示す。Ｃベクトル７８に示すように、先行する命令の
長さフィールド値に基づいて各々の可能な命令を通して
進行することにより、シーケンス２３の全体の潜在的命
令が可能な識別ビットと共に生成される。

【００６０】幾つかの場合には、潜在的命令の３つの異
なるシーケンスが１つの独特のシーケンスに収束する。
その収束速度は、命令長に対して留保された潜在的オペ
レーションコード・フィールドにある特定ビットに依存
する。幾つかの命令バイト・ストリームにおいては、特
定のウインド（例えば、全ての長さが偶然４バイトであ
る命令シーケンス）の複合化時に収束は見出されない。
その他の場合には、同じ命令境界に対する収束が、アウ
トオブフェーズで２つの異なるシーケンスの複合化シー
ケンスと共に発生する。しかしながら、アウトオブフェ
ーズな収束は、初期でなければ、次の非複合可能命令に
より常に補正される。

【００６１】図１０において、第８バイトの端部８０の
命令境界で３つのシーケンスが収束することがわかる。
また、付加的なシーケンスが第６，第８，および第１０
バイトの端部で始まるときは、これらのシーケンスも迅
速に収束することがわかる。シーケンス２および３は、
第４バイトの端部８２の命令境界上で収束するが、第１
６バイトの端部までは複合化に際してアウトオブフェー
ズである。換言すれば、これらの２つのシーケンスは同
じシーケンスの命令に基づいて異なる対の命令を考慮す
ることになる。第１７バイトは８４の非複合可能命令を
開始するので、アウトオブフェーズ収束が終了する。レ
ビューされる命令の各々のウインドが２つ以上の命令を
含む場合は、２つの命令複合化器が同じ最適対を選択す
るので種々のシーケンスはより早く収束することにな
る。

【００６２】有効な収束が何ら生じないときは、全ての
３つの可能な命令シーケンスをウインドの端部まで継続
することが必要になる。しかしながら、有効な収束が発
生し、検出された場合は、シーケンスの数は３から２に
減少し（同等シーケンスの１つがインオペレーティブに
なる）、また幾つかの場合には２から１に減少する。命
令の多重シーケンスを未知の命令境界のため考慮しなけ
ればならない場合は、複合化の速度は図９の複合化の場
合よりも活性シーケンスの数に等しい因子だけ遅くなる
（単一ユニットの複合化ファシリティを仮定して）。収
束が速いときは、図９および図１０に例示した複合化速
度は仮想的に等しくなる。

【００６３】このようにして、収束の前に、一時的な命
令境界が、各々の可能な命令シーケンスおよび各々のこ
のような命令に対して割り当てられ、潜在的な複合命令
の位置を示す識別ビットに対して決定される。図１０か
ら明らかなように、この方法は２テキストバイト毎に３
つの個別識別ビットを生成する。ケースＡ−Ｄでなされ
た予備処理と一致させるために、３つの可能なシーケン
スを、１ビットだけが各々のハーフワードに関わる識別
ビットの単一シーケンスに減らすことが望ましい。必要
な唯一の情報は、現在の命令が次の命令と複合化される
か否かであるので、３ビットが論理ＯＲされてＣＣベク
トル８６における単一シーケンスを生成する。

【００６４】上記のように図１０で示した複合化法にお
ける各種のステップを図１７，図１８のフローチャート
に示す。（フローチャートの上半分を図１７、下半分を
図１８に示す）。

【００６５】並列実行のためには、コンポジットＣＣベ
クトルのコンポジット識別ビットは、個々の３つのシー
ケンス１〜３の個別Ｃベクトルに等価である。このこと
は図１０のＣＣベクトル８６を参照することにより示す
ことができる。シーケンス１に対しては、従来の逐次処
理のためかまたは分岐により第１バイトを実行のために
考慮すると、命令はその関連する識別ビットと共に取り
出される。識別ビットは“０”なので、第１命令は単一
命令として逐次実行される。第３および第４バイトに関
わる識別ビットは、無視される。シーケンス１の次の命
令が第７バイトで始まり、従ってこのような命令はＣＰ
Ｕにより“１”であるその識別ビットと共に取り出され
る。これは複合命令の開始を示すので、次の命令も、第
７バイトで始まる命令との並列実行のために取り出され
る（ＣＣベクトル８６におけるその識別ビット“１”は
無視されるので、Ｃベクトル７４のその識別ビットが異
なるという事実は重要ではない。）。従って、ＣＣベク
トル８６は、もしそれが実際の命令シーケンスであるこ
とがわかればシーケンス１に対して満足に作用する。

【００６６】シーケンス２の場合は、従来の逐次処理の
ためかまたは分岐により第３バイトを実行のために考慮
するときは、命令はその関係する識別ビットと共に取り
出される。識別ビットは“１”であり、複合命令の開始
を示すので、次の命令も第３バイトで始まる命令との並
列実行のために取り出される（ＣＣベクトル８６のその
識別ビット“１”は無視され、従ってＣベクトル７６の
その識別ビットが異なるという事実は重要ではな
い。）。従って、ＣＣベクトル８６も、もしそれが実際
の命令シーケンスであることがわかったときはシーケン
ス２に対して満足に作用する。

【００６７】シーケンス３の場合は、従来の逐次処理の
ためまたは分岐によるのいずれかにより第５バイトを実
行のために考慮するときは、命令はその関連する識別ビ
ットと共に取り出される。識別ビットは“１”であり、
複合命令の開始を示すので、次の命令も第５バイトで始
まる命令との並列実行のために取り出される（ＣＣベク
トル８６のその識別ビット“１”は無視され、従ってＣ
ベクトル７８のその識別ビットが異なるという事実は重
要ではない。）。従って、ＣＣベクトルも、もしそれが
実際の命令シーケンスであることがわかったときはシー
ケンス３に対して満足に作用する。

【００６８】このようにして、ＣＣベクトルのコンポジ
ット識別ビットは、３つの可能なシーケンスのいずれか
が、複合命令に対して並列に適切に実行され、または非
複合命令に対して単独に実行することを許容する。コン
ポジット識別ビットも分岐に対して適切に作用する。例
えば、第９バイトの開始部８８への分岐が生じると、第
９バイトは命令を開始しなければならない。さもなけれ
ば、プログラム中にエラーが存在することになる。第９
バイトに関わる識別ビット“１”が使用され、またこの
ような命令と、その次の命令との正しい並列実行が進行
する。

【００６９】ＣＣベクトルにおけるコンポジット識別ビ
ットにより与えられる１つの利点は、多重有効複合化ビ
ットシーケンスの生成にあり、このビットシーケンスに
基づいて分岐ターゲットにより命令がアドレスされる。
図１５および１６に最良に示したように、異なって形成
された複合命令が同じバイト・ストリームから可能であ
る。

【００７０】図１５は、コンピュータ構成が単に２つの
命令の並列送出と実行を与えるときの複合命令の可能な
組合わせを示す図である。複合命令を含む命令ストリー
ム９０が通常のシーケンスで処理される場合は、ＣＣベ
クトル９２の第１バイトに対する識別ビットの復号化に
基づいて複合命令Ｉが並列実行のために送出される。し
かし、第５バイトへの分岐が生じると、第５バイトに対
する識別ビットの復号化に基づいて複合命令IIが並列実
行のために送出される。

【００７１】同様にして、他の複合化されたバイト・ス
トリーム９４の通常の逐次処理により、複合命令IV，VI
およびVIIIが逐次実行される（各々の複合命令の成分命
令は並列に実行される。）。一方、複合化されたバイト
・ストリームの第３バイトへの分岐により複合命令Ｖお
よびVII が逐次実行され、また第１５バイトで始まる命
令（これは複合命令VIIIの第２部分を形成する。）が送
出されて、単独で実行され、これらの全てはＣＣベクト
ル９６の識別ビットに基づいてなされる。

【００７２】第７バイトへの分岐により複合命令VIおよ
びVIIIが逐次実行され、また第１１バイトへの分岐によ
り複合命令VIIIが実行される。一方、複合化されたバイ
ト・ストリームの第９バイトへの分岐により複合命令VI
I が実行される（これは複合命令VIの第２部分および複
合命令VIIIの第１部分により形成される。）。一方、複
合バイト・ストリームの第９バイトへの分岐により複合
命令VII が実行される（これは複合命令VIの第２部分お
よび複合命令VIIIの第１部分により形成される。）。

【００７３】このようにして、複合命令IV，VIおよびVI
IIに対するＣＣベクトル９６の識別ビット“１”は、複
合命令ＶまたはVII のいずれかが実行されているときは
無視される。一方、複合命令ＶおよびVII に対してはＣ
Ｃベクトル９６の識別ビット“１”は、複合命令IV, VI
またはVIIIのいずれかが実行されるときは無視される。

【００７４】図１６は、コンピュータ構成が最高３つの
命令の並列送出と実行を与えるときの複合命令の可能な
組合わせを示す図である。複合命令を含む命令ストリー
ム９８が通常のシーケンスで処理される場合、複合命令
Ｘ（三重グループ）およびXIII（対グループ）が実行さ
れる。一方、第１１バイトへの分岐により複合命令XI
（三重グループ）が実行され、また第１３バイトへの分
岐により複合命令XII （異なる三重グループ）が実行さ
れる。

【００７５】このようにして、複合命令XIおよびXII に
対するＣＣベクトル９９の識別ビット“２”は、複合命
令ＸおよびXIIIが実行されるときは無視される。一方、
複合命令XIが実行されるときは、その他の３つの複合命
令Ｘ，XII ，XII に対する識別ビットは無視される。同
様に、複合命令XII が実行されるときは、その他の３つ
の複合命令Ｘ，XI，XIIIに対する識別ビットが無視され
る。

【００７６】ケースＧは、任意の命令の開始に対する何
らかの基準点を知ることなしに可変長命令と混合された
データを持つ命令ストリームを処理する最も複雑なケー
スである。これは、基準点が未知のときにメモリまたは
命令キャッシュ中のページを複合化するときに生じる。
ケースＧを処理する第１実施例（図示せず）は、ケース
Ｅに対して用いられたものと同等であるが、データが命
令と混合されるという点で異なっている。収束が生じる
と、収束により排除された各々のシーケンスの代りに新
しいシーケンスを常に開始させなければならない。これ
は、データを含むバイト内に収束が生じ、従って全ての
３つの複合化シーケンスが実際には命令ではない「命
令」のスプリアスなシーケンスに収束するということに
よる。これは、実際の命令のシーケンスが上記シーケン
スにそう遇したとき、最終的には補正されることにな
る。しかし一方、幾つかの複合可能命令は検出されない
ことがある。得られた複合命令ストリームは正しく実行
されるが、わずかな複合命令対は並列実行のためにタグ
を付され、従ってＣＰＵの性能が劣化することになる。

【００７７】ケースＧを処理する好適な方法を、図１０
に示した場合と同じバイト・ストリーム７９に対して図
１１に示す。可能な命令の新しいシーケンスが、潜在的
なオペレーションコードの命令長部分の値とは無関係
に、ハーフワード毎に開始される。他のケースと同様
に、２つの隣接する潜在的な命令が検討され、種々のＣ
ベクトル１００に対する適切な識別ビットが決定され
る。これは２バイト（１ハーフワード）から始まって後
に反復される。ケースＥの場合と同様に、同じハーフワ
ードに対する種々のＣベクトル値がＯＲされ（図１２参
照）、関連する複合ＣＣベクトル１０２のコンポジット
識別ビットを形成する。第１バイトのみに対して“１”
を生成することにより複合化器が複合命令を識別し、ま
た図１１において各々の潜在的シーケンスの長さが単に
２命令であるこの特定の実施例においては、２方向複合
化に対する好適な符号化方式を用いて各々のシーケンス
を検討して得られる出力は、単一ビットであることがわ
かる。従って、この場合にＣＣベクトル１０２を形成す
るために、各々のシーケンスにおける第１識別ビットの
全てが連結され、これにより種々のＣベクトル値をＯＲ
する一般の場合と同じＣＣベクトルを生成する。

【００７８】バイトが実行のために選択されると、それ
は実際にはプログラムが正しいときの命令でなければな
らず、またそのバイトが複合命令の始めか否かを知るた
めにそのバイトに関わる適切なＣＣベクトル識別ビット
がチェックされる。データに関わるタグは実際の命令の
実行中は常に無視され、両スカラ命令は単独で実行さ
れ、また複合命令は並列に実行される。

【００７９】分岐命令がデータと複合化されると、この
分岐が（正しいプログラムを仮定して）取られなければ
ならず、また並列に実行されている対をなす第２命令
は、もし分岐が取られなかったときは、無効にされる。
この機能は、もし分岐がパイプライン式に次の命令と同
時に実行可能のときは実行ユニット中に常に存在しなけ
ればならない。

【００８０】図１０および図１１のＣＣベクトル８８，
１０２のコンポジット複合化シーケンスは、テキストが
同じであっても、同一ではないことに注目することが重
要である。図１０において、テキストは命令と混合され
たデータを含まないことがわかるので、収束の結果、知
られた基準点が与えられる。図１１に対するＣＣベクト
ル１０２の余分の“１”値が、図１０において基準点が
知られた後に発生し、またこのような余分の“１”は、
データがテキスト中に存在する可能性を命令が示さない
ので、命令を開始するハーフワードに対応するものでは
ない。しかしながら、図１０に示したケースＥに対する
方法で仮定されたように、テキストが命令のみを含むと
きは、２つのＣＣベクトル８８，１０２の異なるコンポ
ジット・シーケンスは、それにも拘らず本発明の利点に
従って同等のプログラム実行をもたらす。

【００８１】データと混合された固定長命令を含み、ど
んな命令基準点も持たないケースＦは、ケースＧを簡単
にしたものである。命令がハーフワード境界上に配列さ
れた２バイト長のときは、潜在的な命令シーケンスはハ
ーフワード毎に開始され、また命令長を用いて潜在的シ
ーケンスを生成する必要がなくなる。

【００８２】図１１のケースＧを処理する最悪のケース
の方法は、ケースＡ〜Ｆに対する方法よりも多くの可能
な命令シーケンスを検討する。これはより多くの時間お
よび／またはより多くの複合化ユニットを要求して、実
現要件に依存してタグ中に必要な識別ビットを生成す
る。

【００８３】命令複合化ユニットに対しては、その位置
とテキスト内容の知識に依存して、多くの可能な設計方
法がある。最も簡単な場合には、コンパイラが、そのバ
イトが命令の第１バイトを含むかまたどれがデータを含
むかをタグにより示すことが望ましい。この臨時の情報
は、正確な命令位置がわかっているので（図１４参照）
より効率的な複合化器をもたらす。これは、複合命令毎
にＣベクトル識別ビットを発生するために、複合化がケ
ースＣの場合として常に処理され得ることを意味してい
る（図９参照）。コンパイラはさらにスタティック分岐
予測などの他の情報を付加することができ、あるいは複
合化器に方向性を挿入することもできる。

【００８４】また、複合化されるべき命令ストリームが
メモリに記憶された場合に、命令からデータを区別する
他の方法を用いることができる。例えば、データ部分の
頻度が少ないときは、データを含むアドレスの簡単なリ
ストはタグよりも少ないスペースを要求することにな
る。ハードウェアおよびソフトウェアのこのような組合
わせは、複合命令を有効に発生するための多くのオプシ
ョンを提供する。

【００８５】図１２は、ケースＥ，ＦかケースＧのカテ
ゴリのいずれかの命令ストリームを処理する複合化器の
可能な実現方法を示す流れ図である。多数の複合化器ユ
ニット１０４，１０６，１０８を示してあり、この数は
効率を上げるためにテキストバッファで保持できるハー
フワードの数と同じにできる。この場合は、ケースＧに
対してなされたと同様に、３つの複合化ユニットはそれ
らの処理シーケンスを第１，第３および第５バイト目に
それぞれ開始することになる。各々の複合化器は、可能
な命令シーケンスで終了すると、その前回のシーケンス
から６バイトオフセットされた次の可能なシーケンスの
検討を開始する。各々の複合化器はテキストのハーフワ
ード毎に複合識別ビット（Ｃベクトル値）を生成する。
３つの複合化器からの３つのシーケンスがＯＲ処理１１
０され、得られたコンポジット複合識別ビット（ＣＣベ
クトル値）がそれらの対応するテキストバイトに関連し
て記憶される。

【００８６】図１３は、ケースＧに対する最悪ケースの
複合化方法が、各々の複合命令における最高４命令など
の大きなグループに適用される方法を示す図である。こ
こで同じバイト・ストリーム７９をもう一度見ると、ハ
ーフワードの開始時における各々のバイトが、これが命
令の開始であるか否かに関して検討され、またそのオペ
レーションコードが評価されて３つの付加的な命令の潜
在的シーケンスが配置されている。もしこのバイトが複
合化できないときは、その識別ビット値は“０”にな
る。もしこのバイトが次の潜在的命令と複合化できると
きは、識別ビットは命令対の第１命令に対して“１”で
あり、対の第２命令に対して“０”である。このバイト
が次の２つの潜在的命令と複合化できることがわかって
いるときは、第１命令と共に始まる複合化ビットはそれ
ぞれ“２”，“１”，および“０”である。この方法で
は、大きなグループの複合命令の中間への分岐は、大き
なグループのテイルエンドサブセットである三重または
対のグループを実行できると仮定する。

【００８７】図１４に示したように、各々のハーフワー
ドで始まるバイトを検討し、潜在的な命令境界を配置し
なければならない。検討された各々のシーケンスは、Ｃ
ベクトル１１２と呼ばれる識別ビットのシーケンスを発
生する。ＣＣベクトル値１１４と呼ばれる識別ビットの
コンポジット・シーケンスは、そのハーフワードに係る
全ての個別識別ビットの最大値を取ることにより形成さ
れる。大きなグループの複合命令が発生され実行される
と、ＣＰＵはこのグループの第１バイト以外のバイトに
係る全ての複合ビットを無視する。この符号化方法にお
いては、ＣＣベクトル１１４の複合識別ビットは、複合
命令の開始を示すと共に複合命令を構成する命令の数を
示すものである。

【００８８】使用する実際の複合化規則に依存して、こ
の特定の大きなグループの複合化方法には幾つかの最適
化方法がある。例えば、第９バイト１１６で始まる第５
シーケンスは長さ２，４，２および６バイト長の命令を
仮定している。６バイト命令がこの例においては複合可
能ではないので、その他の３つの潜在的命令（第１１，
第１５，および第１７バイト）から始めて複合化する場
合に、これらの命令は既に可能な限り複合化されている
ので如何なる利点も存在しない。この点で、第１１およ
び第１５バイトで始まる潜在的命令に対する識別ビット
は、それぞれ１１８，１２０でＣベクトル１１２中に示
されている。第９バイトは１１６で命令シーケンスを開
始すると仮定すると、第１３バイトは命令を開始しな
い。しかしながら、以上に説明した最適化は、可能な命
令の開始と同様に第１３バイトが、これが予め考慮され
ていないことから、検討されることをなお必要としてい
る。

【００８９】勿論、大きなグループの複合化方法は、図
１３に示したが例が第１５バイトで停止したとしても、
テキスト中のハーフワードの全てと共に継続されること
になる。

【００９０】転送すべきビット数を減らすために、複合
化情報の他の表示方法がある。例えば、複合化識別ビッ
トは、真の命令境界が決定されると、異なるフォーマッ
トに変換することができる。例えば、次のような符号化
により、命令あたり１ビットを実現することができる。
即ち、値“１”は次の命令との複合化を意味し、値
“０”は次の命令との複合化を意味しない。４つの個別
命令のグループと共に形成された複合命令は、複合化識
別ビット（１，１，１，０）のシーケンスを有すること
になる。既に示した他の複合命令の実行の場合と同様
に、命令ではなく、従ってオペレーションコードを有さ
ないハーフワードに係る複合化識別ビットは実行時には
無視される。

【００９１】

【発明の効果】以上説明したように、本発明の方法によ
れば、命令がどこで開始されるかまたどのバイトが命令
の代りにデータを含むかを知ることなしに、２進命令ス
トリームから複合命令を発生できる効果がある。

【図面の簡単な説明】

【図１】本発明の上位概略図である。

【図２】ユニプロセッサ実現のためのタイミング図で、
複合命令ストリームに選択的にグループ分けされた非イ
ンタロックド命令の並列実行を示す図である。

【図３】多重プロセッサを実現するためのタイミング図
で、インタロックされないスカラおよび複合命令の並列
実行を示す図である。

【図４】既存スカラマシンにより実行される命令の選択
的カテゴリ化を示す図である。

【図５】既存スカラマシンにより実行される命令の選択
的カテゴリ化を示す図である。

【図６】プログラムによりとられる、ソースコードから
実際の実行までの通常の径路を示す図である。

【図７】アセンブリ・ランゲージ・プログラムからの複
合命令セットプログラムの動作を示す流れ図である。

【図８】複合命令セットプログラムの実行を示す流れ図
である。

【図９】識別可能な命令基準点による命令ストリーム・
テキストの解析チャートである。

【図１０】基準点なしの可変長命令による命令ストリー
ムテキストに対する解析チャートである。

【図１１】基準点なしに可変長命令と混合されたデータ
を有する最悪のケースの命令ストリーム・テキストに対
する解析チャートであり、それらの関係する可能な複合
識別ビットの組を示す図である。

【図１２】図１０および図１２に命令ストリーム・テキ
ストを処理する命令複合ファシリティの論理的実現を示
す図である。

【図１３】図１１の最悪ケースの命令テキストに対する
解析チャートで最高４つのスカラ命令をグループ分けし
て各々の複合命令を形成する可能な複合識別ビットの組
を示す図である。

【図１４】命令境界基準点を識別するタグを有する命令
ストリームを複合化するための流れ図である。

【図１５】命令の有効な非インタロックド対の異なるグ
ループ分けが逐次または分岐ターゲット実行のために多
重複合命令を形成する方法を示す図である。

【図１６】図１５と共に、命令の有効な非インタロック
ド三重対の異なるグループ分けが逐次または分岐ターゲ
ット実行のために多重複合命令を形成する方法を示す図
である。

【図１７】図１０に示したような命令ストリームを複合
化する流れ図である。

【図１８】図１０に示したような命令ストリームを複合
化する流れ図である。

【符号の説明】

２０命令複合化ユニット２１２進スカラ命令ストリーム２２符号化複合命令と混合されたスカラ命令ストリー
ム２４命令処理ユニット２６，２８算術論理用機能ユニット（ＡＬＵ＃１，Ａ
ＬＵ＃２）３０浮動小数点演算用機能ユニット（ＦＰ）３２記憶アドレス発生用機能ユニット（ＡＵ）４８主メモリ５０コンピュータシステム構成５２，５４，５６命令処理ユニット＃１，＃２，＃３５８複合化規則６０，６２，６４アセンブリ・ランゲージ・プログラ
ム６６ハードウェア命令複合化ユニット６７ソフトウェア複合化ファシリティ１０４，１０６，１０８複合化器

───────────────────────────────────────────────────── フロントページの続き (72)発明者スタマティス・バシリアディスアメリカ合衆国ニューヨーク州ベスタルベスタルロード 717

Claims

【特許請求の範囲】

【請求項１】バイト・ストリームによる命令シーケンス
を識別すると共に、並列実行させる少なくとも２つの命
令にタグを付加する方法であって、想定された第１命令を選択することにより第１の可能な
命令シーケンスを開始するステップと、前記第１の可能な命令シーケンスの前記想定された第１
命令に対する第１命令長を配置するステップと、前記第１命令長を用いて少なくとも想定された第２命令
を配置するステップと、前記想定された第１命令と前記少なくとも想定された第
２命令とを符号化して、これらの命令が特定のコンピュ
ータシステム構成による並列実行のためにタグを付され
たか否かを示すステップ、とを含む、命令シーケンスを
識別してタグを付加する方法。
【請求項２】前記第１の可能な命令シーケンスの前記少
なくとも想定された第２命令に対する第２命令長を配置
するステップと、前記第２命令長を用いて少なくとも想定された第３命令
を配置するステップと、前記想定された第２命令および前記少なくとも想定され
た第３命令とを符号化して、これらの命令が特定のコン
ピュータシステム構成による並列実行のためにタグを付
されたか否かを示すステップ、とをさらに含む請求項１
記載の、命令シーケンスを識別してタグを付加する方
法。
【請求項３】前記想定された第１命令とは異なる他の想
定された命令を選択することにより第２の可能な命令シ
ーケンスを開始させるステップと、前記第２の可能な命令シーケンスの前記他の想定された
命令に対する他の命令長を配置するステップと、前記他の命令長を用いて他の想定された命令を配置する
ステップと、前記他の命令および前記他の想定された命令を符号化し
て、これらの命令が特定のコンピュータ構成による並列
実行のためにタグを付されているかを否か示すステッ
プ、とをさらに含む請求項１記載の、命令シーケンスを
識別してタグを付加する方法。
【請求項４】前記第１の可能な命令シーケンスの前記想
定された第１および第２命令を、前記第２の可能な命令
シーケンスの前記他の命令および前記他の想定された命
令と比較して、命令境界間に何らかの収束があるか否か
を決定するステップ、をさらに含む請求項３記載の、命
令シーケンスを識別してタグを付加する方法。
【請求項５】前記バイト・ストリームは固定長の命令を
含む請求項１記載の、命令シーケンスを識別してタグを
付加する方法。
【請求項６】前記バイト・ストリームは可変長の命令を
含む請求項１記載の、命令シーケンスを識別してタグを
付加する方法。
【請求項７】前記バイト・ストリームは命令と混合され
た非命令を含む請求項１記載の、命令シーケンスを識別
してタグを付加する方法。
【請求項８】前記バイト・ストリームに命令境界基準点
は存在しない請求項１記載の、命令シーケンスを識別し
てタグを付加する方法。
【請求項９】前記バイト・ストリームは命令と混合され
た非命令を含む請求項８記載の、命令シーケンスを識別
してタグを付加する方法。
【請求項１０】前記バイト・ストリームは可変長の命令
を含む請求項９記載の、命令シーケンスを識別してタグ
を付加する方法。
【請求項１１】前記符号化ステップは、前記想定された
第１および第２命令、および前記少なくとも第３命令を
符号化して、これらの命令が特定のコンピュータシステ
ム構成による並列実行のためにタグを付加されたか否か
を示すステップ、を含む請求項２記載の、命令シーケン
スを識別してタグを付加する方法。
【請求項１２】前記第１の可能な命令シーケンスの前記
想定された命令に関わるバイト位置を追跡するステップ
と、前記第２の可能な命令シーケンスの前記想定された命令
に関わるバイト位置を追跡するステップと、前記想定された命令に関わるバイト位置の各々に対する
個々の識別タグを維持するステップ、とをさらに含む請
求項２記載の、命令シーケンスを識別してタグを付加す
る方法。
【請求項１３】前記第１または第２の可能な命令シーケ
ンスのいずれかの命令が並列実行のために符号化される
ときは常に、命令に並列実行のためにタグを付する、請
求項１２記載の、命令シーケンスを識別してタグを付加
する方法。
【請求項１４】２進命令ストリームの未だ取り出されて
ない命令を予め処理して、特定のコンピュータシステム
構成における並列実行可能な命令を識別する方法であっ
て、想定された命令の第１の可能なシーケンスをそれら
の命令長に基づいて発生するステップと、前記第１の可能なシーケンスの各対の想定された命令を
比較して、それらの並列実行の能力を決定するステップ
と、各々の想定された命令に関わる制御タグを符号化して、
特定のコンピュータシステム構成における並列実行のた
めにタグを付された想定された命令の対を識別するステ
ップ、とを含む、命令シーケンスを識別してタグを付加
する方法。
【請求項１５】前記比較ステップは、第１命令をその次
の命令と比較するステップと、前記次の命令をそれに続
く命令と比較するステップ、とを含む請求項１４記載
の、命令シーケンスを識別してタグを付加する方法。
【請求項１６】前記想定された命令の第１の可能なシー
ケンスとは異なる想定された命令の付加的可能なシーケ
ンスを発生するステップ、をさらに含む請求項１４記載
の、命令シーケンスを識別してタグを付加する方法。
【請求項１７】前記付加的可能なシーケンスを発生する
ステップは、命令ストリームにおけるある固定インタバ
ルにおいて新しい可能なシーケンスを開始させるステッ
プ、を含む請求項１６記載の、命令シーケンスを識別し
てタグを付加する方法。
【請求項１８】前記固定されたインタバルは全てのバイ
トである請求項１７記載の、命令シーケンスを識別して
タグを付加する方法。
【請求項１９】前記固定されたインタバルは１つおきの
バイトである請求項１７記載の、命令シーケンスを識別
してタグを付加する方法。
【請求項２０】前記比較ステップは、２つ以上の想定さ
れた命令のグループを比較するステップ、を含む請求項
１４記載の、命令シーケンスを識別してタグを付加する
方法。
【請求項２１】既知命令境界基準点を有さない命令スト
リームの命令を処理して特定のコンピュータ構成におい
て並列実行が可能な隣接スカラ命令を識別する方法であ
って、異なる可能な命令境界で始まる想定された命令の異なる
シーケンスを発生するステップと、各々の想定された命令を、その隣接する命令と並列に実
行される能力を示す識別タグで符号化するステップ、と
を含む、命令シーケンスを識別してタグを付加する方
法。
【請求項２２】前記命令は所定数の異なる可能な長さを
有し、前記発生ステップは前記所定数の異なる可能な長
さの各々に対する想定された命令の異なるシーケンスを
発生するステップ、を含む請求項２１記載の、命令シー
ケンスを識別してタグを付加する方法。
【請求項２３】前記所定数の可能な長さは２以上である
請求項２２記載の、命令シーケンスを識別してタグを付
加する方法。
【請求項２４】前記所定数の可能な長さをバイト境界上
に配列する請求項２２記載の、命令シーケンスを識別し
てタグを付加する方法。
【請求項２５】前記第１の可能なシーケンスおよび前記
付加的な可能シーケンスにおける各々の想定された命令
に関わる制御タグを符号化する多重複合化ユニットを使
用するステップ、をさらに含む請求項１６記載の、命令
シーケンスを識別してタグを付加する方法。
【請求項２６】並列実行が可能な前記少なくとも３つの
想定された命令の最大数を識別する符号化タグを、命令
実行時間における使用のために維持する、請求項２記載
の、命令シーケンスを識別してタグを付加する方法。
【請求項２７】前記比較ステップは、互いに隣接関係に
ある２つ以上の隣接する想定された命令のグループを比
較するステップ、を含む請求項２０記載の、命令シーケ
ンスを識別してタグを付加する方法。