JP2001195252A

JP2001195252A - マスク技術による無効で分岐効率向上を図るプロセッサ

Info

Publication number: JP2001195252A
Application number: JP2001006735A
Authority: JP
Inventors: Patrick W Bosshart; ダブリュ、ボスハートパトリック
Original assignee: Texas Instruments Inc
Current assignee: Texas Instruments Inc
Priority date: 2000-01-13
Filing date: 2001-01-15
Publication date: 2001-07-19
Also published as: DE60133784T2; EP1117032A3; DE60133784D1; EP1117032B1; ATE393930T1; EP1117032A2

Abstract

(57)【要約】【課題】無効化を用いて分岐命令の非効率性を低減す
るプロセッサを提供する。【解決手段】変化可能な構造状態を有するプロセッサ
（５０）。このプロセッサは、命令を格納する命令メモ
リ（５２）を含む。また、プロセッサは命令パイプライ
ンも含み、パイプラインを完全に通過する命令が構造状
態を変化させる。更に、パイプラインは、命令メモリか
らパイプラインに命令をフェッチする回路（５８ａ）を
備えている。また、プロセッサは、パイプライン内の命
令に対応する無効コード（４６）を格納する回路も含
む。最後に、プロセッサは、無効コードに応答して、群
内で選択した１つ以上の命令が構造状態を変化させるの
を防止する回路（ＦＵ₁ないしＦＵ₈）も含む。この構成
により、無効ワードに応じて、プロセッサ・パイプライ
ンに入る命令の内、選択された命令がプロセッサの構造
状態に影響を及ぼすのを防止する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、プロセッサに関
し、更に特定すれば、かかるプロセッサにおける分岐効
率の向上に関する。

【０００２】

【従来の技術】本発明は、増々発展しつつあるコンピュ
ータ技術、マイクロプロセッサ、およびその他の種類の
プロセッサの分野に関連する。プロセッサ・デバイス
は、多数の用途で用いられており、複雑化の傾向にあ
り、動作の効率を重視する市場を対象とし、かかる効率
がプロセッサの価格および性能に反映される。したがっ
て、以下の論述および実施形態は、プロセッサ効率の主
要な領域の１つ、即ち、コンピュータ・コードにおいて
非常に有効な分岐命令を対象とする。

【０００３】分岐命令は、IF-THENまたはIF-THEN-ELSE
ステートメントのような高級コンピュータ言語における
条件付きステートメント、または所与の高級言語に基づ
く同一または同等の機能性を与えるその他のステートメ
ントのように、多くの状況(context)において用いられ
る。高級言語の条件付きステートメントは、ジャンプ命
令のように、機械レベルにおける一層単純な分岐命令に
コンパイル即ち変換される。いずれの場合でも、コンピ
ュータ・コード内で分岐命令に遭遇する毎に、プロセッ
サの動作フローが変化する潜在的可能性を表す。即ち、
分岐条件を満たす場合（即ち、分岐を「行なう」場
合）、その結果フローが変化し、多数のプロセッサ・ク
ロック・サイクルが余計に必要となる可能性がある。例
えば、プロセッサの現在の構造状態(architected stat
e)は、後に復元するためにセーブしておかなければなら
ない場合があり、新たなプログラム・フローの位置で命
令を取り込むことによるなどして、新たなフローを開始
しなければならない。前述の結果を更に複雑化するの
は、分岐命令は一般的に受け入れら統計的な意味で比較
的頻繁に用いられているという観念(notation)である。
例えば、最近のコードでは、分岐命令は平均６命令毎に
用いられている。更に、かかる分岐の約２／３は行われ
ている。更にまた、現行の標準では、決定した分岐を実
行するには４クロック・サイクルを要すると推定され
る。これらの数値から、分岐アクティビティがコンピュ
ータの性能を左右し得ることは容易に認められる。実
際、これらの数値が、当技術分野において分岐の非効率
性の影響を低減する種々の手法を得ようとする動機とな
ったのである。かかる手法には、分岐予測手法や、分岐
断定(branch predication)（通常単に「断定」と呼ばれ
る）手法が含まれる。後者を理解することが好適な実施
形態の理解につながるので、断定について以下に更に詳
細に論ずることにする。

【０００４】多くのコンピュータでは、特にスーパース
カラーおよび特大命令ワード（「ＶＬＩＷ」）コンピュ
ータでは、コンパイラは、命令断定の使用によって、条
件付き分岐を排除しようとする。断定は、プロセッサ内
に、追加のハードウエアを含ませることによって実施さ
れ、このハードウエアは多くの場合、述部レジスタ(pre
dicate register)と呼ばれ、このレジスタの状態は所与
の命令と関連付けられている。更に、述部レジスタは、
関連する命令を実行する場合に満たさなければならない
条件を与える、即ち、「断定」する。言い換えると、断
定された各命令を実行する前に、それに関連する条件を
検査し、条件を満たす場合に命令を実行する。逆に、関
連する条件を満たさない場合、命令は実行されない。こ
の手法を用いると、代わりに分岐命令（または１つより
も多い分岐命令）を用いて評価されていたはず条件に基
づいてある命令を断定することによって、分岐命令の数
を削減することができる。

【０００５】更に断定について例示すると共に、好適な
実施形態を更に詳しく表すために用いる凡例の概説とし
て、以下に典型的なIF-THEN-ELSEシーケンスを表す疑似
コードのリストを示す。

【表１】

【０００６】当業者には明白であろうが、上に提示した
コードは条件Ａ１を検査し、それが満たされた場合（即
ち、真である場合）、"THEN"経路に続く命令（即ち、命
令１および３）を実行してコードを完了する。一方、条
件Ａ１が満たされない場合（即ち、偽である場合）、"E
LSE"経路に続く命令（即ち、命令２および４）を実行し
てコードを完了する。

【０００７】更に別の概説として、先に提示した疑似コ
ードを、図１ａに示すツリー図を用いて示す。図１ａに
移ると、単一の条件ツリーを形成する命令群Ｇ１が示さ
れており、その条件はＡ１条件の結果であり、したがっ
て、ツリーの最上位に条件Ａ１が示されている。更に、
条件の結果に基づいて実行する命令は、ツリーの分岐と
して示されている。即ち、Ａ１が真の場合、ツリーの左
下側にある分岐即ち経路に沿って命令を実行する（"Ｔ
ＨＥＮ"というラベルで示されている）。一方、Ａ１が
偽の場合、ツリーの右下側にある分岐即ち経路に沿って
命令を実行する（"ＥＬＳＥ"というラベルで示されてい
る）。一旦ツリーの最下位に達すると、コードは完了す
る。

【０００８】前述の疑似コードおよび図１ａにおけるそ
のツリー図について、図１ｂは、このコードに断定を適
用可能な形状(nature)を模式図で示す。具体的には、図
１ｂは、ツリーにおける各命令を行単位のエントリとし
て示し、ある種の格納または各命令へのアクセスを示唆
するために概略的にボックス形状とした。また、各アク
セス可能な命令にはＡ１の条件を関連付け、対応する命
令と同じ行エントリに条件を置くことによって、図１ｂ
に具体的な条件を示す。例えば、図１ｂにおける最初の
行は、命令１に伴い条件Ａ１が真である場合を示す。別
の例として、図１ｂにおける２番目の行は、ａ１の条件
が偽である場合を示す（Ａ１バーで示す）。図１ｂの命
令および対応する条件の関連付けにより、各命令を実行
する前に、それに関連する条件を検査し、条件を満たす
場合にのみ当該命令を実行する。最後に、図１ｂの図は
背景の目的のためであり、断定をハードウエアで行なう
ことができる態様を実際に表現することを意図する訳で
はないことを記しておく。実際、多くの現在のプロセッ
サ・アーキテクチャでは、述部フィールドと呼ばれる制
御ワード全体が各命令に関連付けられている場合が多
く、例えば、述部フィールドは、３ビットを含み、これ
ら３ビットで可能なビットの組み合わせの内７つを用い
て、異なる述部を格納する対応のレジスタ（例えば、汎
用レジスタ）を識別し、８番目の二進組み合わせは、単
に当該命令が断定されないことを示す。

【０００９】断定は分岐命令の非効率性を低減するが、
種々の欠点もある。断定の欠点の第１例として、断定は
一般に長いコード・ブロックについては容認可能な解決
策ではないことがあげられる。コード・ブロックは、こ
の目的のために、順次実行される命令群として定義す
る。この場合、群内には分岐命令はないものとする（し
かし、群の最後に分岐命令が来ることは容認する）。更
に具体的には、大きなブロックの場合、ブロック内の各
命令を同じ条件で断定すると、ブロック内の各命令につ
いて述部を検査するために必要な資源の追加が過剰とな
り、単一の分岐命令によってブロック全体をその開始時
に条件付ける場合に生ずる負担(penalty)を容易に超え
てしまう可能性がある。その結果、断定の使用と所与の
ブロックにおける命令数に基づく分岐命令との間に折衷
案ができる。典型的に、群内における分岐命令数の制限
は、経験的に決定することができる。例えば、分岐命令
が５つの遅延スロットを用い、分岐命令自体が６実行サ
イクルを必要とするプロセッサにおいて、更に当該プロ
セッサがスーパースカラーであり、１サイクル当たり８
つまでの命令を実行可能である場合、４８命令までのブ
ロックに対しては、命令を断定することは有用であると
考えられる。したがって、一般的に述べると、断定は、
相対的に短い命令ブロックと呼ばれるものについては効
率が高い。この制約があっても、事実上最近のマイクロ
プロセッサの全てはある種の断定を実施している。断定
の欠点の第２例として、現在のプロセッサの多くは、１
命令当たりに設けられる述部ビットは１つだけに過ぎな
い。したがって、かかる手法は、図１ａの場合のよう
に、単一レベルの条件のみに限定される。しかしなが
ら、命令が１つよりも多い条件と関連付けられている場
合、後に更に詳しく説明するが、断定を用いて追加の条
件を命令に賦課することはできず、代わりに、前述した
非効率性を生ずる分岐命令を用いて命令を処理しなけれ
ばならないことが多い。

【００１０】

【発明が解決しようとする課題】前述に鑑み、本発明者
は、先に述べた課題および欠点を認識し、分岐命令のオ
ーバーヘッドが多いという不利を大幅に低減する、改善
された実施形態を以下に提示する。

【００１１】

【課題を解決するための手段】好適な実施形態は、可変
構造状態(architected state)を有するプロセッサを含
む。このプロセッサは、命令を格納する命令メモリを含
む。また、このプロセッサは命令パイプラインも含み、
パイプラインを完全に通過する命令はその構造状態を変
化させる。更に、パイプラインは、命令メモリからパイ
プラインに命令を取り込む回路を備えている。また、プ
ロセッサは、パイプライン内の命令に対応する無効コー
ド(annul code)を格納する回路も含む。最後に、プロセ
ッサは、群内で選択した１つ以上の命令が、無効コード
に応答して構造状態を変化させるのを防止する回路を含
む。

【００１２】

【発明の実施の形態】図１ａおよび図１ｂについては、
本明細書の従来技術において先に説明した。

【００１３】第１例として好適な実施形態を表すため
に、図２ａは、命令群Ｇ２の論理順序を示すツリー図で
ある。群Ｇ２は、多数のレベルの条件付き命令を含む。
更に具体的には、図２ａの例には、２レベルの命令があ
り、最初のレベルは条件Ａ２から成り、２番目のレベル
は条件Ｂ２およびＣ２から成る。図２ａのツリー図の残
りの構造は、先に図１ａによって行なった概説から容易
に理解することができ、図２ａのツリー図を形成する、
以下の疑似コードによって更に例示する。

【表２】

【００１４】このコードは、第１レベルの条件Ａ２を検
査し、これが真か否かについて判定を行なう。条件Ａ１
が満たされる場合、フローは命令１に向かい、次いで第
２レベルの条件Ｂ２に進む。条件Ａ２が満たされない場
合、フローは命令２に向かい、第２レベルの条件Ｃ２に
進む。加えて、第２レベルの条件Ｂ２およびＣ２の各々
に続いて、フローは、条件を満たす場合には、ツリー図
において所与の条件の左下側に示す命令に進み、条件を
満たさない場合、所与の条件の右下側にある命令に進
む。例えば、条件Ｂ２に関して、これを満たす場合、フ
ローは命令３および７を処理する。一方、条件Ｂ２を満
たさない場合、フローは命令４および８を処理する。そ
れ以外の可能性については、当業者は確認することがで
きよう。最後に、群Ｇ２の２つの異なるレベルは、従来
技術と関連付けて先に述べたように、１ビット断定シス
テムによってそれが完全に処理されるのを防止する。言
い換えると、１ビット断定システムでは、条件Ａ１を検
査し、述部ビットを確立するために用いる場合、条件Ｂ
２およびＣ２も検査しなければならない。

【００１５】図２ｂは、好適な実施形態の第１の態様の
論理図を示す。更に具体的には、図２ｂはまず図２ａの
ツリー図にも示した命令群Ｇ２を示す。ここで理解すべ
きは、これらの命令は、本実施形態の異なる実施態様に
よっては、プロセッサ内において種々の方法で表現可能
であるということである。例えば、かかる命令は、パイ
プライン内に保留しておくことや、レジスタ・ファイル
等に格納する場合がある。いずれにしても、以下に説明
する好適な方法は、図２ａに示すような少なくとも２レ
ベルの条件付きツリーを形成する命令の何らかの形式の
格納表現へのアクセスを想定する。

【００１６】また、図２ｂには、追加の記憶装置も示
す。これは、以下で明らかにする理由のために、本明細
書では無効ワードと呼ぶ。好適な実施形態では、無効ワ
ードは、所与の命令群内の命令に対応する二進エレメン
トを含む。例えば、図２ｂの図では、無効ワードＡＷ１
は、Ｅ１₁ないしＥ１_Nで識別したＮ個のエレメントを有
するものとして示されており、Ｅ１インディケータにお
ける「１」は、当該エレメントを無効ワードＡＷ１と関
連付けるために用いられ、下付き文字はワードの一端か
ら他端に向かって単調に増分していく。エレメントＥ１
₁ないしＥ１_Nの各々は、図２ｂにおける同じ行に沿った
群Ｇ２内の命令に対応する。尚、この点について、条件
には命令の形式が考慮され、したがって各条件は、無効
ワードＡＷ１内のエレメントに関連付けられていること
を記しておく。あらゆる場合において、この整合の例と
して、エレメントＥ１₀は命令１に対応し、エレメント
Ｅ１₁は命令２に対応し、エレメントＥ１₂は命令（およ
び条件）Ｂ２に対応し、エレメントＥ１₁₁は命令１０に
対応する。更に、そして、後に説明するように、群Ｇ２
の最上位にある命令（即ち、命令Ａ１）に対応するエレ
メントはないことを記しておく。最後に、これまでの論
述および本明細書の残り部分における更なる詳細によっ
て、種々の記憶装置または状態デバイスを用いて無効ワ
ードを実行(perform)し、一例としてレジスタが使用可
能であることを、当業者は認めよう。

【００１７】図３ａは、好適な実施形態による方法１０
の簡略フロー・チャートを示す。方法１０は、コンパイ
ラで実行することが好ましく、図２ｂからの無効ワード
ＡＷ１の状態をセットする。実際には、後に詳細に説明
するように、好適な実施形態では、方法１０は、互いに
相補的な２つの異なる無効ワードを形成するために繰り
返される。方法１０を理解するために、そのステップを
最初に説明し、次いで命令群Ｇ２に関連付けて、その応
用例をいくつかあげることにする。方法１０はステップ
１２にて開始し、命令群における条件結果(condition o
utcome)を憶測する。ここで、分析する最初の条件は、
群の最上位にある条件である。例えば、群Ｇ２に関し
て、方法１０は条件Ａ２から開始する。ステップ１２の
第１例では、条件Ａ２は真であると仮定し、方法１０は
ステップ１４に進み、第１無効ワードのために、命令群
の"ELSE"経路に沿った各命令に対して無効ワード・ビッ
トをセットする。ステップ１４の後、フローはステップ
１２に戻り、この時点において、条件（例えば、Ａ２）
を偽と仮定する。偽の仮定に応答して、方法１０はステ
ップ１６に進み、第２無効ワードのために、命令群の"T
HEN"経路に沿った各命令に対して無効ワード・ビットを
セットする。ステップ１４および１６によって得られる
二者の各々について、以下で更に説明する。これら二者
に到達する前に、好適な実施形態の別の態様の概説とし
て、一旦ビットを無効ワード内でセットしたなら、セッ
トしたビットに対応する命令は後に無効化、即ち、抑制
され、プロセッサの構造状態を変化させないことを記し
ておく。無効化は種々の方法で行なうことができ、以下
で更に詳しく取り上げることにする。最後に、本明細書
において具体的な回路について説明しないという点で、
方法１０は、当業者によって認められるような種々の回
路および動作によって実施することができ、種々の異な
る形式のプロセッサの一部であってもよいことを記して
おく。

【００１８】図２ｃは、再度図２ｂの命令群Ｇ２および
無効ワードＡＷ１を示すが、ここでは、条件Ａ２が真で
あると仮定した場合に、方法１０にしたがってセットさ
れる二進エレメントの状態も更に示す。即ち、条件Ａ２
が真であると仮定した場合、ステップ１４において、コ
ンパイラは、命令群Ｇ２の"ＥＬＳＥ"経路に沿った各命
令に対応する、無効ワードＡＷ１におけるビットをセッ
トする。図２ａのツリー図から、ＥＬＳＥ経路に沿った
命令とは、命令２、Ｃ２、５、６、９、および１０であ
ることを確認することができる。したがって、図２ｃで
は、エレメントＥ１₂、Ｅ１₄、Ｅ１₇、Ｅ１₈、Ｅ１₁₁、
およびＥ１₁₂がセットされることがわかる。何故なら、
これらは命令２、Ｃ２、５、６、９、および１０に対応
するからである。図２ｃの無効ワードＡＷ１にビットの
状態が与えられると、次に、好適な実施形態では、命令
２、Ｃ２、５、６、９、および１０は、プロセッサの構
造状態を変化させることを許されなくなる。実際には、
後に好適な実施形態に示すように、これらの命令は実行
することを許されない。更に、同様に後に認められるで
あろうが、好適な実施形態によって分岐命令の代わりと
して行われる動作が、分岐動作に伴う遅延や予測不可能
性を回避し、しかも分岐を用いる場合に頻繁に見られる
ような、分岐命令に続く命令のスケジューリングを複雑
化することや不可能にすることはない。更に付け加える
と、条件Ｃ２は、つまり、抑制された命令の１つであ
り、条件として、これは検査されないことを更に記して
おく。したがって、先に述べた１ビット断定システムと
比較すると、プロセッサの負担は減少する。

【００１９】図２ｄは、再度図２ｂの命令群Ｇ２よび無
効ワードＡＷ１を示すが、図２ｄは、条件Ａ２を偽と仮
定した場合に方法１０にしたがってコンパイラによって
セットされる二進エレメントの状態を示す。即ち、条件
Ａ２が偽であると仮定した場合、ステップ１６は、命令
群Ｇ２の"THEN"経路に沿った各命令に対応する、無効ワ
ードＡＷ１内のビットをセットする。図２ａのツリー図
から、THEN経路に沿った命令とは、命令１、Ｂ２、３、
４、７、および８であることを確認することができる。
したがって、図２ｄでは、エレメントＥ１₁、Ｅ１₃、Ｅ
１₅、Ｅ１₆、Ｅ１₉、およびＥ１₁₀がセットされること
がわかる。何故なら、これらは命令１、Ｂ２、３、４、
７および８に対応するからである。図２ｄの無効ワード
ＡＷ１内のビットの状態が与えられると、次に、好適な
実施形態では、命令１、Ｂ２、３、４、７、および８
は、プロセッサの構造状態を変化させることを許されな
い。更に、これらの命令はプロセッサによって実行され
ないのが好ましいので、そしてこれら実行されない命令
は、検査されない条件Ｂ２の検査およびそれに対する応
答によって生ずる複雑性を含むので、分岐命令の検査お
よびそれに対する応答の遅延および複雑性は生じない。

【００２０】図３ｂは、好適な実施形態による方法２０
のフロー・チャートを示す。方法２０は、コンパイラに
よって実行することが好ましく、以下で実証するよう
に、図３ａの方法１０のステップを含み、この場合も種
々の無効ワードに対してビット状態を決定するための動
作を行なう。方法２０は、単に命令フローの検査を示す
開始ステップ２２にて開始し、一例として、命令は命令
群Ｇ２として認めることができる。シーケンス内にある
命令の１つが条件付き命令であることが検出されると、
ステップ２４に到達する。これに応答して、方法２０は
ステップ２６に進み、ステップ２４で検出した条件は、
確立されている所与の無効ワードでは既に無効化されて
いるか否か、即ち、条件が当該無効ワード内において設
定されているビットに対応するか否かについて判定を行
なう。検出された条件が既に無効化されている場合、方
法２０はステップ２２に戻り、その後別の条件を検出す
ることができる。一方、検出された条件が未だ無効化さ
れていない場合、方法２０はステップ２８に進む。

【００２１】ステップ２８は、ステップ２４で検出した
条件が、所与の命令ツリーの最下位レベルにあるか否か
について判定を行なう。検出した命令がツリーの最下位
にある場合、方法２０はステップ３０に進む。一方、検
出した命令がツリーの最下位ではない場合、方法２０は
ステップ１２に進む。一旦図２ａに戻り、ステップ２８
の動作を一例として示すことができる。即ち、ステップ
２８は、到達したが無効化されていない命令に対して
（ステップ２６によって実行されるように）、命令Ｂ２
またはＣ２のいずれかが命令ツリーの最下位にあること
を判定する。その結果、かかる命令に対して、方法２０
はステップ３０に進み、ステップ３０は命令を断定す
る。この場合、断定は従来技術と同様である。この動作
を更に詳しく例示するために、図４ａおよび図４ｂは、
断定をこれらの命令に適用することができる形状を模式
図で示す。ここでは、かかる形態は、述部レジスタ等を
用いることによって具体化することができる。これらの
図を端的に見ていくと、図４ａは命令Ｂ２に対する述部
形成を示し、一方図４ｂは命令Ｃ２に対する述部形成を
示す。したがって、図４ａでは、命令Ｂ２が、条件とし
て、検査で真であった場合、次いで命令３および７を実
行し、一方、命令Ｂ２が検査で偽であった場合、命令４
および８を実行することを表す。同様に、図４ｂでは、
命令Ｃ２が、条件として、検査で真であった場合、次に
命令５および９を実行し、一方命令Ｃ２が検査で偽であ
った場合、命令６および１０を実行することを表す。図
４ａおよび図４ｂの指示の各々は、図２ａのツリー構造
から、容易に確認することができる。

【００２２】前述の動作を更に実証するために、ここで
方法２０のステップを辿っていくことにする。方法２０
が開始すると、ステップ２２で群Ｇ２内の命令を処理
し、ステップ２４において条件Ａ２を検出する。ステッ
プ２６は、条件Ａ２が無効化されているか否かについて
評価する。しかしながら、この時点では、群Ｇ２に関し
ては無効化は行われておらず、したがってフローはステ
ップ２８に進む。次に、ステップ２８は、条件Ａ２がツ
リーの最下位にあるか否かについて判定を行なう。そし
て、そうではないので、フローはステップ１２に進む。
ステップ１２は、まず、条件Ａ２の結果が真であると見
なし、したがって、フローはステップ１４に進み、第１
無効ワード内のビット状態をセットし、"ELSE"経路に沿
ったビットを１にセットする。言い換えると、したがっ
て、ステップ１４は、図２ｃに示す状態となるように、
エレメントをセットする。次に、フローは再度ステップ
１２に戻り、次に条件Ａ２が偽であると見なす。これに
応答して、方法２０はステップ１６に進み、第２無効ワ
ードに対して、命令群の"THEN"経路に沿った各命令に対
して無効ワード・ビットをセットする。言い換えると、
したがって、ステップ１６は、図２ｄに示す状態となる
ように、エレメントをセットする。ステップ１４および
１６によって得られた二者の各々について、以下で更に
説明することにする。いずれにしても、一旦ステップ１
６が完了すると、フローはステップ２２に戻る。これに
ついても以下で更に説明することにする。

【００２３】条件Ａ２を処理しステップ２２に戻った
後、ステップ２４において条件Ｂ２を検出し、ステップ
２６に進み、検出した条件（即ち、Ｂ２）は、所与の形
成された無効ワードに対して無効化されているか否かに
ついて評価する。例えば、図２ｄの無効ワードＡＷ１は
現在形成されているワードを示すと仮定する。したがっ
て、図２ｄでは、セットされたエレメントＥ１₃の状態
が示すように、実際に条件Ｂ２が無効化されていること
がわかる。その結果、フローはステップ２６からステッ
プ２２に戻り、以下で説明するように、更に処理し続け
る。

【００２４】ステップ２２では、条件Ａ２およびＢ２を
既に検出した後プロセスを継続し、条件Ｃ２が検出され
ると、次にステップ２４に到達する。次に、ステップ２
６において、条件Ｃ２が無効化されているか否かについ
て検査する。本例が既に図２ｄにおける無効ワードＡＷ
１によって反映されているとすると、エレメントＥ１ ₄
の状態がクリアされ、条件Ｃ２が無効化されていないこ
とを示す。その結果、方法２０はステップ２８に進む。
ステップ２８では、条件Ｃ２が最下位レベル条件である
ことを判定し、フローをステップ３０に渡し、ツリーに
おいて条件Ｃ２に続く命令を断定する。したがって、ス
テップ３０では、図４ｂに示す述部情報を作成し、方法
２０は、停止ステップ３２において終了する。最後に、
図３ｂには明示的に示さないが、好適な実施形態の方法
２０を繰り返し、ツリーの最下位レベルではない全ての
条件に対して可能な結果（即ち、真かまたは偽のいずれ
か）に基づいて、各々異なる可能な無効ワードを形成す
ることを当業者は認めよう。

【００２５】以上、図２ａの２レベル命令群に適用した
場合について、好適な実施形態を例示したが、これは２
レベルよりも多い命令群にも適用されることは認められ
よう。この態様を更に示すために、図５ａは命令群Ｇ３
の論理順序を示すツリー図であり、群Ｇ３は３レベルの
条件付き命令を含む。先に行なった論述から、当業者は
図５ａに表すようなシーケンスを理解して当然であるの
で、群Ｇ３における各命令に関する詳細な説明は不要で
ある。したがって、端的に述べると、群３は第１レベル
条件Ａ３から開始し、その下に第２レベルの条件Ｂ３お
よびＣ３の集合があり、更にその下に第３レベルの条件
Ｄ３、Ｅ３、Ｆ３、およびＧ３の集合がある。本明細書
における先のツリーの凡例と同様、条件が満たされると
見なされれた場合、フローは条件の左下に進み、一方条
件が満たされない場合、フローは条件の右下に進む。

【００２６】更に、好適な実施形態による無効ワードの
使用を例示するために、図５ｂないし図５ｇは、図５ａ
で検査した条件に関する異なる発見に応答して方法２０
によってセットされた、無効ワードＡＷ２の値を示す。
これらの図の一部についてこれより詳細に説明するが、
当業者は、残りの図における同様の結果を、以下の説明
から容易に理解できて当然である。

【００２７】図５ｂは、条件Ａ３が真であると見なされ
た場合に、方法２０によってセットされる対応の無効ワ
ードと共に、命令群Ｇ２を示す。更に具体的には、方法
２０が群Ｇ２に関して動作する場合、ステップ２４にお
いて条件Ａ３を検出し、これが無効化されていないの
で、ステップ２６からステップ２８にフローが移り、命
令Ａ３が最下位レベルの命令ではないので、フローはス
テップ１２に進む。ステップ１２では、条件Ａ３が真で
あると見なし（図５ｂの例）、したがって、次にステッ
プ１４において、群Ｇ２の"ＥＬＳＥ"経路に対応する無
効ワードＡＷ２内の各エレメントをセットする。このよ
うに、図５ａに関しては、ステップ１４は、条件Ａ３の
右下の経路に沿った命令に対応して、無効ワードＡＷ２
内の各エレメントをセットし、更に図５ｂから、これら
セットしたエレメントが命令２、Ｃ３、５、６、Ｆ３、
Ｇ３、１１、１２、１３、１４、１９、２０、２１、お
よび２２に対応することが示される。これらセットした
ビットは、最終的にこれらの命令を無効化し、無効化し
た命令は３つの条件（即ち、Ｃ３、Ｆ３、およびＧ３）
を含むことがわかる。これらの条件が無効化されたの
で、これらの条件を検査し、検査に応答して作用するの
に要する、プロセッサの追加負担はない。最後に、図５
ｃは、条件Ａ３が偽であると見なされた場合に、方法２
０によってセットされる対応の無効ワードと共に、命令
群Ｇ２を示す。前述の説明から、当業者は、その無効ワ
ードの状態が図５ｂに示したものと相補的であり、した
がって、条件Ａ３の左下にある経路に沿った命令を無効
化することを理解して当然である。

【００２８】図５ｄは、条件Ａ３が真であると見なさ
れ、更に条件Ｂ３も真であると見なされた場合に、方法
２０によってセットされる対応の無効ワードと共に、命
令群Ｇ２を示す。即ち、方法２０は、ステップ１４また
は１６のいずれかを最初に実行した後、次の条件を処理
するために戻ることを思い出されたい。したがって、図
５ｄの例では、最初に条件Ａ３が真であると見なされた
ときに、ステップ２４の次の実行において、条件Ｂ３を
検出する。次に、ステップ２６において、条件Ｂ３が無
効化されているか否かについて判定を行い、この判定を
行なう際、本例に対応する図５の無効ワードＡＷ２を参
照する。この場合、条件Ａ３は真と見なされ、この分析
から条件Ｂ３は無効化されていないと判定され、したが
って、ステップ２６からステップ２８にフローが移る。
条件Ｂ３は最下位レベルの条件ではないので、ステップ
２８からステップ１２にフローが移る。図５ｂの例で
は、条件Ｂ３も真であると見なされるので、ステップ１
２の動作により、フローは再度ステップ１４に渡され、
ここで、条件Ｂ３より下にある命令に関して、無効ワー
ドＡＷ２内のビットをセットする。このように、条件Ａ
３を処理したときに既にセットされていたワードに加え
て、真であると見なされた条件Ｂに関してステップ１４
を再度実行し、ステップ１４は、条件Ｂ３の右下にある
経路に沿った命令に対応する、無効ワードＡＷ２内のビ
ットをセットする。したがって、図５ｄは、図５ｂから
の真である条件Ａ３について示したのと同じようにセッ
トされたビットに加えて、命令４、Ｅ３、９、１０、１
７、および１８に対応するビットもセットされることを
示す。

【００２９】以上提示した例から、当業者は図５ｅない
し図５ｇも容易に辿ることができ、残りのビットを確認
することができよう。これらの図は各々、ステップ１２
における判断(assumption)に応じた、方法２０の異なる
適用を示す。この点に関して、これら残りの図は以下の
ことを示す。（１）図５ｅは、条件Ａ３が真であると見
なされ、条件Ｂ３が偽であると見なされた場合の無効ワ
ードＡＷ２の値を示す。（３）図５ｆは、条件Ａ３が偽
であると見なされ条件Ｃ３が真であると見なされた場合
の無効ワードＡＷ２の値を示す。（４）図５ｇは、条件
Ａ３が偽であると見なされ条件Ｃ３が偽であると見なさ
れた場合の無効ワードＡＷ２の値を示す。したがって、
これらの例の各々では、図５ｂにおけると同様、第２レ
ベルの条件が方法２０によって処理される時点までに
は、群Ｇ３内の２０個全ての命令が無効化されることが
わかる。つまり、これらの命令はプロセッサ・パイプラ
インの一部を通過することができ、代わりに分岐命令を
用いてツリーを実施した場合のような非効率性を伴うこ
とはない。最後に、当業者は、上位レベルの条件（即
ち、Ａ３、Ｂ３、およびＣ３）の真または偽の値に基づ
いて、究極的に方法２０は４つの下位レベルの条件から
選択した１つに収束し、この選択した条件の下にある残
りの命令を断定することも理解して当然である。その結
果、最下位レベルの条件に続く命令（複数の命令）に対
して、一層の処理効率向上が得られる。

【００３０】無効ワードを確立するための好適な実施形
態について詳細に説明したので、これより、無効ワード
・ビットの使用により、当該ワードによって指定された
命令（複数の命令）を抑制し、抑制即ち「無効化」した
命令がプロセッサの構造状態を変化させないようにする
構成に注意を向けることにする。最初に、図６ａに関連
付けて説明する。概説として、図６ａは命令抑制システ
ム４０の図を示す。システム４０は、種々の異なる回路
を用いて実施することができるが、図６ａは、好適な実
施形態に望ましい論理機能性を表す。更に、条件を検出
し無効ワード内の状態を設定する好適な方法論に関して
先に記したように、システム４０は、種々の異なる形式
のプロセッサにおいて実施可能である。

【００３１】次にシステム４０の詳細に移ると、これは
無効ワードを含み、これまでの例から区別するために、
この無効ワードをＡＷ３で示すことにする。好適な実施
形態では、無効ワードＡＷ３は、命令シーケンス内の所
望数の命令に対処するために、十分な数のビット・エレ
メントを含む。例えば、現在のアーキテクチャの下で
は、所望のサイズが３２命令である場合があり、したが
って、図６ａに示すように、無効ワードＡＷ３は３２個
のビット・エレメントＥ３₁ないしＥ３₃₂を含む。無効
ワードＡＷ３の状態は、バッファ４２の第１データ入力
に接続されている。バッファ４２は、シフト・レジスタ
４４の出力に接続された第２入力を有する。シフト・レ
ジスタ４４は、無効ワードＡＷ３が格納するビット数に
等しいサイズのシフト能力を有し、したがって、この例
では、シフト・レジスタ４４は３２ビット・シフト・レ
ジスタである。シフト・レジスタ４４のシフト制御入力
は、ＮＩＰと称する制御信号を受け取る。これは、パケ
ット内の命令数を意味する略語であり、以下で詳細に説
明する。バッファ４２の出力はビット群４６を与える。
これに関して、ビット群４６をこのように参照して、以
下で詳細に説明するように、あるビットをバッファ４２
の出力から用いるが、これらのビットは更に別の別個の
デバイスに格納する必要はないことを示す。別個のデバ
イスに格納すると、設計の複雑化および遅延の増大を招
く可能性がある。ビット群４６内のビット数は、無効ワ
ードＡＷ３内のビット数と同一である（即ち、本例では
３２）。ビット群４６の３２ビットは、シフト・レジス
タ４４の第２入力にフィードバックされるように、そし
てこれら３２ビットの最下位ビットの整数Ｍを無効マス
クＡＭとして用いるように結合される。また、無効マス
クＡＭは、別個のハードウエア・デバイスではなく、ビ
ット群も表すが、例示のために、これらＭビットは図６
ａではＡＭ₁ないしＡＭ_Mとして示されている。最後に、
無効マスクＡＭのビットは、機能ユニット使用マップ(f
unctional unit use map)４８に結合され、以下で詳細
に説明するように、コンパイラによって書き込まれ、無
効マスクＡＭからの１つ以上のビットを８つの機能ユニ
ットＦＵ₁ないしＦＵ₈の内適切な１つにマップする。

【００３２】システム４０の動作について論ずる前に、
これを実施するプロセッサも整数Ｍ個の機能ユニットを
有するものと理解されるよう記しておく。機能ユニット
とは、種々の異なる形式のデバイスの１つであり、典型
的に当技術分野では、対応する命令を「実行」すると言
われているのがこれらのユニットである。また、これに
関して、これらのユニットはプロセッサの「実行段」を
構成すると言われることが多い。一例として、図６ａに
示すように、Ｍが８に等しいと仮定する。即ち、好適な
実施形態によるシステム４０を実施するプロセッサは、
８つの機能ユニットを含む。例えば、これらのユニット
は、２つのロード／格納ユニット、２つの乗算ユニッ
ト、２つのＡＬＵ動作（例えば、加算、減算、および論
理）ユニット、および２つのシフト・ユニットを含むこ
とができる。以下この例を進めて行き、無効マスクＡＭ
内のエレメントを用いてこれら８つの機能ユニットの各
々の実行動作をイネーブルまたはディゼーブルする好適
な方法を説明する。

【００３３】図６ａのシステム４０の動作に対する別の
概説として、図７は、コンパイラによって後に詳細に示
す順序にしたがってスケジュールされた場合の、群Ｇ３
内の命令（図５ａから）を示す。最も右側の列にある各
命令と位置を合わせてあるのは、無効ワードＡＷ１（図
２ｃから）内の対応ビットの状態の例である。したがっ
て、本実施形態では、無効ワード・ビットは、事実上、
対応する命令と共に移動する。更に図７には、対応する
命令を実行する機能ユニットの指示が、最も左側の列に
示されている。例えば、命令１は機能ユニットＦＵ₁が
実行するように割り当てられており、命令２は機能ユニ
ットＦＵ₂が実行するように割り当てられている等とな
っている。尚、このようなコンパイラによる命令の機能
ユニットに対する割り当ては、当技術分野では公知であ
るが、ここに記載するように無効ワードおよび関連する
機能性の使用および実施を加えることにより、公知の実
施態様の改良がもたらされる。図７に示す追加の概念
は、命令パケットの観念(notation)であり、パケット
は、単一クロック・サイクル内で対応する機能ユニット
によって実行するようにスケジュールされた命令群とし
て定義されている。例えば、第１パケットＰ₁は命令１
および２から成り、したがってこれら２つの命令は単一
クロック・サイクルで実行するようにスケジュールされ
ている。別の例として、第２パケットＰ２は命令３、Ｂ
２、２、およびＣ２から成り、したがってこれら４つの
命令は単一のクロック・サイクル中に実行するようにス
ケジュールされている。１一例として論ずるプロセッサ
は８つの機能ユニットを含むので、このプロセッサのパ
ケットには８つまでの対応する命令が含まれることは、
当業者は当然理解しよう。

【００３４】ここで図６ａのシステム４０に戻り、図７
によって与えられた追加の状況にしたがって、その動作
を説明する。最初に、無効マスクＡＭを０にリセットす
ると仮定する。更に、一例として、リセット後の所与の
時点において、図６ａの無効ワードＡＷ３は、図７から
の無効ワードＡＷ１のビット状態を含むと仮定し、かか
るビットは、図７に示したのと同じ順序でコンパイラに
よって無効ワードＡＷ３に割り当てられており、命令１
の無効ビット状態はエレメントＥ３₁に位置し、命令２
はエレメントＥ３₂に位置し、このようにシーケンス全
体にわたって進めて行き、最後の命令、命令１０のビッ
ト状態はエレメントＥ３₁₂に位置すると仮定する。つま
り、この時点では、図７からの無効ワードＡＷ１のビッ
トは全て、図６ａからの無効ワードＡＷ３として格納さ
れ、バッファ４２に出力され、バッファ４２によってビ
ット群４６として与えられる。加えて、ビット群４６か
らの下位８（即ちＭ＝８）ビット（ＬＳＢ）は無効マス
クＡＭのビット、即ち、元々無効ワードＡＷ３に格納さ
れていたエレメントＥ３₁ないしＥ３₈からのビットを形
成し、転送されてビット群４６内のビットとなり、した
がって、それぞれ、ビットＡＭ₁ないしＡＭ₈として出力
される。最後に、本例は、無効ワードＡＷ３を部分的に
満たされただけのものとして示しているという点で簡略
化されていることを記しておく。その理由は、命令群Ｇ
３は１２個の命令のみを有し、一方無効ワードＡＷ３
は、３２命令までを有するより大きなブロックに対応す
る３２ビットまで対処することができるからである。ま
た、これに関して、後に明白になる理由のために、元々
命令に対応するビットを含んでいなかった無効ワードＡ
Ｗ３のいずれの上位ビットも０にリセットされていると
仮定する。

【００３５】更に、図６ｂは、前述のような設定を示
し、システム４０を含むプロセッサの次のクロック・サ
イクルにおける動作を表す。最初に、図６ｂにおいて、
無効マスクＡＭは、図７の無効ワードＡＷ１からの下位
８ビット値を格納していることが示されており、したが
って、これらの値は、パケットＰ₁の２つの命令、パケ
ットＰ₂の４つの命令、およびパケットＰ₃からの命令の
２つに対応する。また、図６ｂは、無効マスクＡＭから
の１つ以上のビットを適切な対応する機能ユニットに適
正にマップするためにコンパイラによって機能ユニット
使用マップ４８に書き込まれた値も示す。更に具体的に
は、好適な実施形態では、機能ユニットには、規定され
た順序付けが与えられている。この順序付けは、ここで
は、一例として機能ユニットの下付き文字によって表
す。即ち、これらはＦＵ₁からＦＵ₈まで昇順で順序付け
されており、順序付けされた各ユニットは、使用マップ
４８内の位置４８₁ないし４８₈に対応する。以下に示す
ように、この順序付けは、使用マップ４８におけるビッ
トのセットに用いられる。

【００３６】図６ｂの論述を完了し、機能ブロックの順
序付けの観念を概説し終える前に、好適な実施形態で
は、機能ユニットの順序付けに応じて無効マスク・ビッ
トを順序付けすることもコンパイラの役割であり、この
順序付けの要件は図７に明記する順序で示されているこ
とを記しておく。更に具体的には、図７における無効ワ
ードＡＷ１の無効ワード・ビット（および対応する命
令）は、先に論じたのと同じシーケンスに従うのではな
いことを記しておく。つまり、これらは好適な実施形態
にしたがって順序付けしなおしたことを記しておく。即
ち、先に概説した無効ワード・ビットＡＷ１では、コン
パイラは、好ましくは、これらのビットを図６ｂの無効
ワードＡＷ３内に連続する順序で配置することによっ
て、第１（少なくとも最下位）整列無効ワード・ビット
は、最も番号が小さい機能ユニットが実行するようにス
ケジュールされている命令に対応し、ユニットの番号が
大きくなるにしたがって、同様に行われる。例えば、パ
ケットＰ₁では、最も番号が小さい機能ユニットが実行
するようにスケジュールされている命令は命令１であ
り、機能ユニットＦＵ₁が実行することになっている。
したがって、その無効ビットは、図７における最上位行
に示されている。別の例として、パケットＰ₂では、最
も番号が小さい機能ユニットが実行するようにスケジュ
ールされている命令は命令３であり、これは機能ユニッ
トＦＵ₁が実行するようにスケジュールされており、し
たがってその無効ビットは図７ではパケットＰ₂に対す
る最初の無効ビットとして示されている。パケットＰ₂
の例を続けると、機能ユニットＦＵ₁の次に番号が大き
な機能ユニットが実行するようにスケジュールされてい
る命令は命令Ｂ２である。これは機能ユニットＦＵ₂が
実行するようにスケジュールされており、したがってそ
の無効ビットは図７ではパケットＰ₂に対する２番目の
無効ビットとして示されている。当業者は、図７におけ
る残りの順序付けに対してもこの態様を理解しよう。

【００３７】ここで図６ｂに戻り、好適な実施形態で
は、所与のクロック・サイクルの間に、コンパイラは、
現サイクルの間に実行する命令を割り当てられている機
能ユニットに対応する使用マップ４８の各位置に１を書
き込む。一例として、図６ｂは、パケットＰ₁を実行す
るサイクルに対する使用マップ４８の状態を示す。パケ
ットＰ₁は２つの命令を含むことを思い出されたい。し
たがって、コンパイラは、２つの論理１を使用マップ４
８に書き込む。これらは各々パケットＰ₁内にある２つ
の命令の一方に対応する。更に、使用マップ４８内の１
の位置は、各命令に割り当てられた機能ユニットに対応
する。例えば、使用マップ位置４８₁は１にセットされ
ているので、無効マスクＡＭからの最下位ビット（即ち
ＡＭ₁）は機能ユニットＦＵ₁にマップされる。したがっ
て、図６ｂは、ＡＭ₁からの無効マスク・ビット値０を
機能ユニットＦＵ₁にマップする矢印を示す。別の例と
して、使用マップ位置４８₅は１にセットされているの
で、無効マスクＡＭからのビットＡＭ₂は、機能ユニッ
トＦＵ₅にマップされる。したがって、図６ｂは、ＡＭ ₂
からの無効マスク・ビット値１を機能ユニットＦＵ₅に
マップする矢印を示す。前述の結果として、無効ワード
の対応するビット状態を無効マスクＡＭに与え終えた時
点で、これらの状態は無効マスクＡＭから図７に識別し
た対応の機能ユニットにマップされる。実際には、この
好適なマッピング機能性は、部分的に前述の優先動作に
よって簡便化され、機能ユニットの順序付けに対応した
順序で無効ビットが配置されることを更に記しておく。
最後に、説明したばかりの本実施形態の動作は、無効マ
スクから、実行することをスケジュールされた命令数に
等しい数だけのビットを適切な機能ユニットにマップす
るのであり、説明したばかりの例では、２つの無効マス
ク・ビットのみが機能ユニットにマップされ、その結
果、現クロック・サイクルでは、無効マスクＡＭ内の残
りのビットはプロセッサの実行に何の影響も与えないこ
とを記しておく。

【００３８】一旦命令および無効マスク・ビットがそれ
ぞれの機能ユニットによって受け取られると、各ユニッ
トは受け取った無効マスク・ビットの状態に応答して動
作する。即ち、無効マスク・ビットがクリア（即ち
「０」）の場合、機能ユニットはその対応する命令を実
行する。しかしながら、無効マスク・ビットがセットさ
れている（即ち「１」）場合、機能ユニットはその対応
する命令を実行しない。これは、単に現クロック・サイ
クルの間機能ユニットをディゼーブルすることによって
行なうことができる。命令の実行を妨げることによっ
て、好適な実施形態は命令を無効化する。即ち、命令を
抑制し、プロセッサの構造状態に何の変化も起こさせな
い。これら２つの選択肢(alternative)を更に例示する
ために、図６ｂに示したパケットＰ₁の例について再度
考える。この場合、機能ユニットＦＵ₁は命令１および
その０の無効マスク・ビット状態を受け取っている。し
たがって、機能ユニットＦＵ₁は命令１を実行する。逆
に、機能ユニットＦＵ₂は命令２を受け取っているが、
その無効マスク・ビット状態は１である。したがって、
機能ユニットＦＵ₂は命令２を実行しない。

【００３９】また、パケットＰ₁の命令が潜在的に実行
されるクロック・サイクルの間（即ち、対応する無効ワ
ード・ビットの状態に基づいて）、システム４０はシフ
ト・レジスタ４４に、パケット（ＮＩＰ）値内の命令数
を与える。ここで、この数値は、現クロック・サイクル
の間に１つ以上の機能ユニットに転送された、パケット
内の命令数を識別することを説明しておくとよいであろ
う。再びＰ₁の例に戻ると、ＮＩＰは２に等しい（即
ち、命令１および２に対応する）。加えて、シフト・レ
ジスタ４４はビット群４６からのフィードバック入力を
有することを思い出されたい。したがって、シフト・レ
ジスタ４４は、ビット群４６によって与えられた無効マ
スク・ビットを既に入力しており、本例では、無効ワー
ドＡＷ３によって以前に与えられた無効ビット全てであ
り、命令群Ｇ３全体に対応する。次に、シフト・レジス
タ４４は、ＮＩＰビットをシフトしその最下位端、即
ち、最も古い保留中の命令に対応するＮＩＰビットを除
去する。加えて、以下で説明する理由のために、シフト
・レジスタ４４は、０の値を有するＮＩＰビットを、そ
の最上位位置（複数の上位側位置）にシフトする。この
ように、パケットＰ₁の例では、シフト・レジスタ４４
は下位２ビットをシフトして除去し、最上位ビット側に
２つの０をシフトして入力する。その結果、シフト・レ
ジスタ４４がその下位側ビット位置に命令群Ｇ３のパケ
ットＰ₂およびＰ₃に対応する無効ワード・ビットを、図
７に示す順序で格納した時点で、残りの上位側ビット位
置には０を格納する。これらのビットは各々バッファ４
２に出力され、こうしてビット群４６の一部を形成す
る。

【００４０】図６ｃは、パケットＰ₁の命令を実行ユニ
ットに転送し潜在的に実行する可能性がある（即ち、当
該命令に対して無効ビットがセットされていない場合実
行される）クロック・サイクルに続く、第２のクロック
・サイクルにおいて得られる無効マスク・ビットを示
す。更に具体的には、シフト・レジスタ４４はパケット
Ｐ₁の実行との関連において下位２ビットをシフトして
除去したことを思い出されたい。その結果、図６ｃに示
すように、続くクロック・サイクルでは、無効マスクＡ
Ｍ内のビットは、図７からの順序で無効ワードＡＷ１の
ビットを表し、これらのビットの下位２ビットは、シフ
ト・アウト動作によって既に除去されている。このよう
に、図６ｃの無効マスクＡＭにおけるビットＡＭ₁ない
しＡＭ₈は、順番に、パケットＰ２に関連する図７の無
効ワードＡＷ１のビット、およびパケットＰ₃に関連す
る下位４無効ワード・ビットに対応することは容易に確
認できよう。

【００４１】また、図６ｃは、コンパイラによって使用
マップ４８に書き込まれたマッピング・ビットを、パケ
ットＰ₂の命令の可能な実行に関連するものとして示
す。即ち、図７から、命令３、Ｂ２、４、およびＣ２
は、それぞれ、機能ユニットＦＵ ₁、ＦＵ₂、ＦＵ₅、お
よびＦＵ₇によって実行するようにスケジュールされて
いることがわかる。その結果、コンパイラはこれらの機
能ユニット（即ち、ＦＵ₁、ＦＵ₂、ＦＵ₅、およびＦ
Ｕ₇）に対応する使用マップ４８内のビット位置をセッ
トする。更に、前述のように、コンパイラは命令３、Ｂ
２、４、およびＣ２を機能ユニットの順序付けに対応す
る連続順序で配置したので、パケットＰ２内の命令数に
等しい無効マスクＡＭの下位ビット数（すなわち４つの
命令、したがって、４つの無効マスク・ビット）が、機
能ユニットＦＵ₁、ＦＵ₂、ＦＵ₅、およびＦＵ₇にマップ
される。更に具体的には、機能ユニットＦＵ₁、ＦＵ₂、
およびＦＵ₅の各々は０に等しい無効マスク・ビットを
受け取り、一方機能ユニットＦＵ₇は１に等しい無効マ
スク・ビットを受け取る。最後に、無効マスク・ビット
の値に応答して、機能ユニットＦＵ₁、ＦＵ₂、およびＦ
Ｕ₅の各々はそれぞれ命令３、Ｂ２、および４を実行
し、一方機能ユニットＦＵ７は、高の無効マスク・ビッ
トに応答してディゼーブルされ、したがって命令Ｃ２は
実行されない。

【００４２】これまで図６ｂ、図６ｃ、および図７にお
いて部分的に表した例を完全に説明するために、図６ｄ
は、第３クロック・サイクル、即ち、パケットＰ₁およ
びＰ₂を実行する潜在的な可能性があるクロック・サイ
クルに続くクロック・サイクルにおいて得られる無効マ
スク・ビットおよび使用マップ・ビットを示す。無効マ
スクＡＭ内のビットに関して、前述のパケットＰ₂は４
つの命令を有し、したがってＮＩＰは４に等しく、シフ
ト・レジスタ４４の下位４ビットをシフトして除去さ
せ、その上位４ビットに０の値をシフト入力することを
記しておく。これらの値はバッファ４２を通過し、ビッ
ト群４６を形成し、下位８ビットは無効マスクＡＭに達
する。したがって、図６ｄでは、無効マスクＡＭはパケ
ットＰ₃に対応する図７からの無効ワードＡＷ１の６ビ
ットを、そこに示す順序で格納し、上位２ビットは、シ
フト・レジスタ４４が先に０値の上位側ビットへのシフ
ト入力したことにより、０となっている。使用マップ４
８に関して、その値は、コンパイラによって、パケット
Ｐ₃の命令に対応する無効ビットを適切な機能ユニット
にマップするようにセットされている。したがって、図
６ｃは、パケットＰ₃の命令に対応した、各無効マスク
・ビットの適切な機能ユニットに対する適正なマッピン
グを示すことを当業者は容易に確認することができよ
う。これに応答して、そして前述のことから、機能ユニ
ットＦＵ₂およびＦＵ₆はそれぞれの命令７および８を実
行し、一方命令ユニットＦＵ₁、ＦＵ₄、ＦＵ₅、および
ＦＵ₈はそれぞれの命令５、９、６、および１０を実行
しない、即ち、命令５、９、６、および１０はプロセッ
サの構造状態には影響を与えない（即ち、これらは無効
化されている）ことが容易に認められよう。

【００４３】以上、シフト・レジスタ４４による無効ワ
ードのシフティングの好適な実施形態を示したが、図３
ｂに戻って、１点追加しておくのがよいであろう。即
ち、方法２０は最下位レベルにおける条件がステップ２
８によって検出されるまで、命令群を処理することを思
い出されたい。更に、このルーピング方法論によって、
コア・ツリーの異なるレベルでの条件を評価することを
思い出し、最後に、この方法は、ツリーの最下位レベル
にはない条件については、当該条件に関係する"THEN"ま
たは"ELSE"経路のいずれかに沿って無効ビットをセット
することを記したことを思い出されたい。更に、この点
に関して、そのレベルよりも高いいずれのパケット（複
数のパケット）におけるいずれの命令（複数の命令）に
対しても、これら以前のパケット命令に対応する無効ビ
ットは既にシフト・レジスタ４４によって除去されてい
ることもここで記しておく。したがって、評価されてい
る命令より前のいずれのパケットに対応する無効ビット
ももはや問題ではなく、したがって本方法によって更に
変更されることはない。

【００４４】また、システム４０の好適な動作に鑑み
て、無効ワードに応答して命令を抑制する他の代替実施
形態も考えられることもわかる。１つの手法は、使用マ
ップ４８をなくし、各サイクル毎に無効マスクを完全に
満たすことである。即ち、無効ワードからのある数のビ
ットを無効マスクに結合し、このビット数を機能ユニッ
トの総数と等しくし、無効マスク内の所与の位置を常に
同じ対応する機能ユニットにマップすることである。こ
の場合、実行ユニットが実行するようにスケジュールさ
れていない所与のクロック・サイクルにおいて、それに
渡された無効マスク・ビットが実際の効果を有さない
（即ち、実行ユニットは既に現クロック・サイクルの間
は動作しないようにスケジュールされているからであ
る）。別の手法として、命令ストリーム内における命令
の順序を追跡し、パケットのＮ番目の命令を無効マスク
のビットＮ−１によって無効化することがあげられる。
しかしながら、パケット内に命令の順序付けの記録を維
持する必要性は他にはないことから、この手法はハード
ウエアの追加を招き、所与の実施態様では望ましくない
場合もあり得る。更に別の手法として、無効化ハードウ
エアの追加という代償により、入来するＮビットの無効
ワードを得て、そのセットされているビットを、以前の
無効ワードによって無効化されていない命令にのみマッ
プし、この新しい方の無効ワードを古い方の無効ワード
に融合することがあげられる。この代替案は複雑度の増
大を必要とするが、if-then-elseツリーの階層全体にわ
たって無効化する際に、範囲の拡大を可能とする。尚、
８−ウェイＶＬＩＷでは、最初のクロック・サイクルに
おいて、新しい無効ワードを、直前の無効ワードの下位
８ビットとのみ論理ＯＲを取ることを記しておく。上位
ビットは、無効ビットの融合を実行するために、追加の
クロックサイクルを有することができる。

【００４５】先に明記した種々の手法は、その各々が究
極的には無効ワードを与え、これを変換して、割り当て
られた命令に関して機能ユニットの動作を潜在的に抑制
する。したがって、更にこの点に関して、無効ワードは
潜在的に実行されない命令に関する情報を表すことも記
しておく。この情報は、断定を用いる場合、同一命令に
関して断定の判定を行なう時点よりも前の時点において
既に把握されている。その結果、無効ワード・ビットの
セットに応答して所与のクロック・サイクルの間機能ユ
ニットをディゼーブルすることに加えて、好適な実施形
態を拡張すれば、無効ビットのセットについて事前情報
を用いて、命令が無効化されるために不要となることが
わかった他のハードウエアを停止させることができる。
例えば、断定の場合、述部が最終的に偽であることがわ
かっても、述部情報は、述部が真であることがわかった
場合に加算（または減算）を実行するために用いられる
加算器への入力を形成する２つのレジスタを更新するの
を防止するには、到達するのが遅すぎるのである。しか
しながら、無効ワード・ビットであれば十分早くわかる
ので、これらのレジスタを駆動(clocking)するのを回避
し、したがって、こうしなければ加算器が消費する余分
な電力の消散を回避することができる。

【００４６】図３ａおよび図３ｂに関連して先に説明し
たように、好適な実施形態では、プログラム・ツリーに
おける条件（複数の条件）に可能な異なる結果に基づい
て、コンパイラに異なる無効ワードを形成させることに
より、命令群の分析をコンパイラ・レベルで行なう。こ
れら無効ワードの存在により、好適な実施形態では、更
に、命令ストリーム内に、同時にまたはこれを適用する
条件の後のいずれかに実行し、応答して条件の実際の結
果に対応する適切な無効ワードを与え、関連する無効ワ
ードに応答する準備をアーキテクチャにさせる命令（ま
たは１つよりも多い命令）を挿入することによって、本
発明の教示を実施する。参考のために、本明細書の残り
の部分では、この命令（即ち、無効ワードにしたがって
無効化を行なわせる命令）を、無効命令と呼ぶことにす
る。無効命令およびそれに関係する無効ワードは、種々
の方法で作成し互いに関連付けることができるため、以
下に詳細に述べるように多数の異なる実施形態が得られ
る。これらの実施形態について論ずる前に注記すべき
は、実施態様には無関係に、無効命令（複数の命令）の
パケット位置に関して、更に別の好ましい態様が得られ
ることである。即ち、コンパイラによって挿入した無効
命令（複数の命令）は、その無効化動作（即ち、命令の
抑制）を、無効命令を含むパケットの後のサイクルにお
いて実行される命令と共に開始することが好ましい。言
い換えると、命令が命令ストリーム内で無効命令の前に
あるかまたは後ろにあるかには係らず、無効命令が無効
命令と同じパケット内にあるいずれの命令にも影響を与
えないことが好ましい。

【００４７】これより無効命令およびそれに関係する無
効ワードの種々の実施形態に移るが、第１の実施形態で
は、２つの定数発生命令を実行して２つの対応する１６
ビット定数を発生する。次に、２つの定数を連接して３
２ビットの無効ワードを形成する。そして、追加の無効
命令に応答して無効ワードを用いる。あるいは、ロード
命令が、メモリ等から３２ビットの無効ワードをロード
させ、続いて無効命令によって、ロードされた無効ワー
ドを用いて追加の命令の実行を選択的に抑制することが
できる。第２の実施形態では、無効ワードは、命令内に
含まれる即値オペランドである。これに関して、現在の
命令は多くが、ソース識別子、宛先識別子、即値ビット
等のように、多数のビットを含む。しかしながら、無効
の機能性を得るためには、これらのビットの多くは不要
であり、したがってこれら余分なビット位置は、無効ワ
ードを直接命令内に埋め込むために用いることができ
る。この場合、しかしながら、利用可能なビット数には
制限があることが多く、したがって埋め込まれる無効ワ
ードは３２ビット未満に制限される可能性がある（例え
ば、１６ビットの制限）。第３の実施形態では、無効命
令は、２つの３２ビット・レジスタ・ソースを指定する
ことによる等して、３２ビットよりも多い無効ワードを
与え、これらを組み合わせることによって、６４個の入
来する命令のために、合計６４個の無効ビットを備え
る。この手法は、実際の無効化動作の前に、６４個の無
効化ビットを生成するために、ロード・ダブル命令（即
ち、６４ビット・ロード）を必要とする可能性が高い。
第４の実施形態では、無効化命令を断定する。これは２
つの異なるソース・レジスタを含み、各々、述部に対す
る応答に基づいて異なる無効ワードを有する。例えば、
命令群Ｇ３に戻って、ツリーの最上位にある条件Ａ３を
述部として用いることができる。この場合、第１ソース
・レジスタは条件Ａ３が真の場合に用いられる無効ワー
ドを格納し、第２ソース・レジスタは条件Ａ３が偽の場
合に用いられる無効ワードを格納する。第５の実施形態
では、第４の実施形態の場合と同様に、この場合も無効
命令を断定するが、第５の実施形態では単一のレジスタ
・ソースのみを用い、条件が真の場合このレジスタ・ソ
ースの半分が無効ワードを与え、一方条件が偽の場合こ
のレジスタの別の半分が無効ワードを与える。第６の実
施形態では、無効ワードが単に次のＮ個の命令を無効化
させる引数Ｎを含むが、これまでの実施形態とは異な
り、この実施形態では、コードのシーケンスがわかって
いること、およびブロック内にブロックの外側からのコ
ードの混合がないことが必然的に要求される（即ち、混
合した命令が誤って無効化されないようにするためであ
る）。最後である第７の実施形態として、命令は述部レ
ジスタおよび単一のソース・レジスタを含む。この場
合、述部が真であると、ソース・レジスタにおける１に
対応する命令が無効化され、一方述部が偽であると、ソ
ース・レジスタにおける０に対応する命令が無効化され
る。更にこの最後の命令の実施形態に関して、追加の引
数Ｘを含み、これがソース・レジスタ内で使用するビッ
ト数を指定し、これによって制限することができる。即
ち、ソース・レジスタのビット容量（即ち、無効ワー
ド）が個々の群内の命令数よりも大きい場合、レジスタ
は上位側のビットに０を格納して、これらのビットに対
する命令がないことに対応付ける。この可能性により、
この第７の実施形態における引数Ｘは、実際の命令に対
応するビットのみを、ソース・レジスタ内で指定するよ
うにセットされ、これら上位側のビットが、命令に適用
されかかる命令を無効化する（または無効化しない）た
めに用いられるものと、誤って解釈されないようにす
る。

【００４８】以上のことから、並列性およびレイテンシ
の傾向により、更に別の実施形態も得られる。即ち、一
般に、無効化に有用な命令の数は、分岐レイテンシおよ
び並列に実行可能な命令数の関数である。これら２つの
数値(aspect)の積が、分岐するよりも無効化する方が好
ましい命令数の限度となる。コンピュータ・アーキテク
チャの傾向は、これらの量双方が徐々に増大する方向に
向かっている。その結果、今後６４ビットよりも更に多
くのビットをマスクの下で無効化することが望ましくな
る可能性もある。更にまた、本教示を用いると、分岐の
代わりに無効化を用いることによって、より大きなコー
ド・ブロックが使用可能となり、if-then-selse構造の
階層を実施するための無効命令の階層の使用が増大す
る。実際、１６−ウェイＶＬＩＷは８−ウェイＶＬＩＷ
よりも、分岐は潜在的な命令に関して２倍不経済である
ので、これをはるかに多く行なわなければならないこと
を予測することができる。

【００４９】割込処理に関連して、本明細書の好ましい
無効化方法論から、最後の課題が見出される。即ち、好
適な実施形態では、無効化することが識別された保留中
の命令（即ち、無効ワード内で対応するビットがセット
されている命令）がある場合に、２種類の割込処理方法
がある。第１の手法として、割込が受け取られた場合、
本無効ワードをレジスタにセーブし、次いで無効ワード
をクリアすることにより、割込に影響を与えないように
する。その後、割込から戻るときに、セーブした情報を
新たな無効命令のデータとして別の無効命令を実行する
ことにより、格納されている無効ワードを復元する。第
２の手法として、無効ワードがいずれかの非ゼロ・ビッ
トを有するときはいつでも（即ち、少なくとも１つの命
令が既に無効化されるものとして識別されていると
き）、割込をディゼーブルすることができる。

【００５０】次に、好適な実施形態の異なる適用に、論
述を向けることにする。ここでは、分岐命令が直接的な
目的ではないが、好適な実施形態は当技術分野において
ソフトウエア・パイプライニングと呼ばれる分野におい
てもいかに効果的に使用できるかということについて、
以下に表す。ソフトウエア・パイプライニングを例示す
るために、Ｃ言語で書かれ表１に示す、２ラインのコー
ドについて検討する。

【表３】表１のコードは、双方とも長さがＬのベクトルＡをベク
トルＢに加算し、結果をベクトルＤに格納する、高級言
語のループを表す。

【００５１】次に、以下の表２における低級言語のニモ
ニックについて検討する。これは、表１の命令ａ１およ
びａ２を実施する典型的な低レベル・コード・セットで
ある。

【表４】

【００５２】命令ｂ１ないしｂ４は、ベクトルのエレメ
ントを別のベクトルのエレメントに加算し、その結果を
格納する単一のループを表す。更に具体的には、命令ｂ
１およびｂ２は加数(addend)をレジスタＲ１およびＲ２
にロードし、命令ｂ３はこれらの加数を加算し、命令ｂ
４は結果をレジスタＲ３に格納する。

【００５３】更に別の背景として、命令ｂ１ないしｂ４
は、以下の現在では共通の属性を有するプロセッサによ
って実行すると仮定する。第１に、プロセッサはロード
命令を実行するために５クロック・サイクルを必要とす
ると仮定する。第２に、プロセッサは２つの異なるロー
ド・ユニットを含むと仮定する。これらの仮定により、
命令ｂ１およびｂ２は同時に行われるが、命令ｂ３は命
令ｂ１およびｂ２が完了するのを待たなければならな
い、即ち、ｂ３は命令ｂ１およびｂ２に関連する５クロ
ック・サイクルの間待ってなければならないことがわか
る。更に、Ｌが命令ａ１における大きな数値に等しい場
合のように、命令ｂ１ないしｂ４を多数回実行する場
合、この同じ遅延が各ループ毎に発生し、プロセッサの
効率に関しては、増々高コスト化することになる。この
潜在的な非効率性を抑えるために、当技術分野ではソフ
トウエア・パイプライングを実施している。これについ
て以下に更に詳しく説明する。

【００５４】図８は、ループに適用される命令ｂ１ない
しｂ４を示す。ここでは、Ｌは１２８に等しく、ソフト
ウエア・パイプライニングを用いて実施される。概説と
して、ソフトウエア・パイプライングは、ソフトウエア
・ループ処理に用いられることが多く、所与のクロック
・サイクル内における異なる命令が異なるループの繰り
返しに関連する場合に、クロック・サイクル当たりに実
行する命令数を最適化しようとするものであることを記
しておく。図８に移ると、一例として、各行において、
命令ｂ１ないしｂ４の内どれが所与のクロック・サイク
ルに実行されるかが示されている。これらの命令各々の
下付き文字は、所与の命令に関連する対応のループ番号
を示す。例えば、クロック・サイクル０を見ると、命令
ｂ１およびｂ２は双方とも、ループ値が０に等しい場合
に実行する（即ち、先の命令ａ１においてｊ＝０）。し
たがって、クロック・サイクル０の間、２つのロード命
令が、０に等しいループ値に対して開始され、これらの
ロード命令（即ち、ｂ１およびｂ２）は、値が０の下付
き文字と共に図８に示されている。同様に、クロック・
サイクル１では、２つのロード命令が、１に等しいルー
プ値に対して開始され、この同じパターンがクロック・
サイクル４まで（そして、後に詳細に説明するように、
その後も）継続する。

【００５５】図８のクロック・サイクル５において、ル
ープ０に関連する２つのロード命令が開始されたので、
５クロック・サイクルが経過していることがわかる。更
に、本例では、ロード命令が完了するのに５クロック・
サイクルを要することを思い出されたい。したがって、
クロック・サイクル５の時点では、ループ０からロード
された加数がレジスタ内において得られ、互いに加算さ
れる。その結果、命令ｂ３（即ち、ADD R1, R2）の例示
によってクロック・サイクル５の間に起こるものとして
示すように、これらの加数が加算される。更に、クロッ
ク・サイクル５における加算命令は、したがって、０の
ループ値に関連付けられているので、命令ｂ３は０の値
の下付き文字を有するものとして示されている。最後
に、クロック・サイクル５における加算命令は、この和
を得るのに１サイクルがあればよいものと見なす。

【００５６】次に、図８のクロック・サイクル６に移
り、ここに示す最初から３つの命令は、先に示したパタ
ーンに従うことがわかる。即ち、２つのロード命令から
始まり、５クロック・サイクル早く開始した命令によっ
てロードされた加数を用いて、加算命令が実行される。
加えて、そしてクロック・サイクル６に対応する行の最
後のエントリに示すように、命令ｂ４（即ち、STORE R
3）も実行し、命令ｂ４は、ループ０によって開始され
直前のクロック・サイクル５において加算された和を格
納する。したがって、クロック・サイクル６の終了まで
に、命令ａ１およびａ２の最初のループ（即ち、ｊ＝
０）は完了するが、今概説したばかりのパターンのため
に、この同じ時点で、ループ６によるロード命令が開始
し、ループ１による格納命令は完了している。

【００５７】クロック・サイクル６までの例示により、
クロック・サイクル６からクロック・サイクル１２７ま
ででは、かかるクロック・サイクル毎に、同じパターン
があることがわかる。言い換えると、かかるクロック・
サイクル毎に、２つのロード命令が開始し、５クロック
・サイクル早く開始したロード命令に対応する加数を用
いて加算命令が実行され、６クロック・サイクル早く開
始したロード命令に対応する加数を用いて、格納命令が
実行される。言い換えると、クロック・サイクル６から
クロック・サイクル１２７まででは、命令は、以下のよ
うに表すことができる。ｂｌ_N ｂ2_N ｂ３_N-5 ｂ４_N-6

【００５８】このパターンから、命令が異なるループ値
にしたがって互い違いに通過する様子を見ることができ
よう。そして、この理由のために、このプロセスはパイ
プラインと類似しており、ソフトウエア・パイプライニ
ングと命名されたのである。また、当技術分野における
用語に関して、各命令（ｂ１ないしｂ４）を実行するク
ロック・サイクルを含む時間期間をコード・ループと呼
ぶことを記しておく。更に、ループ命令の一部のみが実
行される、その時間期間に先立つクロック・サイクルか
ら成る時間期間（例えば、クロック・サイクル０ないし
５）を当技術分野ではプロローグと呼ぶ。最後に、以下
で詳細に説明するように、コード・ループが最終的にル
ープ全体に対するロード命令を完了した後でも、各ルー
プ毎に命令（例えば、加算および格納）を完了するため
に残りのクロック・サイクルが必要であり、この残りの
時間期間のことを当技術分野ではエピローグと呼ぶ。

【００５９】また、図８は、クロック・サイクル１２８
において開始するエピローグも示す。更に具体的には、
クロック・サイクル１２８の時点で、このループの各ロ
ード命令は既に開始されており、したがって新たなロー
ド命令（即ち、ｂ１およびｂ２）は示されていない。し
かしながら、クロック・サイクル１２８の時点において
も、既に開始されたロード命令は、一旦ロードされた加
数に関するロードの完了に向かって動作中であるか、あ
るいは既に完了しており、一旦ロードした加数は加算さ
れ、次いで格納される。例えば、クロック・サイクル１
２８では、ループ１２２の間にロードされた加数が、既
に加算に使用可能となっており、したがってクロック・
サイクル１２８の間に、命令ｂ３がこれらの加数を加算
する（ｂ３₁₂₂によって示す）。別の例として、クロッ
ク・サイクル１２８において、ループ１２１の間にロー
ドされた加数は、既にロードされそして加算されてお
り、したがって既に格納することができる。したがっ
て、クロック・サイクル１２７の間に、命令ｂ４はこれ
ら加数の和を格納する（ｂ４₁₂₁によって示す）。した
がって、このプロセスはクロック・サイクル１３２まで
繰り返される。最後に、クロック・サイクル１３３にお
いて、ループ値０ないし１２６までの和が計算されそし
て加算されているが、この時点ではループ１２７のため
にロードされる加数も既にロードされ加算されているの
で、したがって既に格納が可能となっている。したがっ
て、クロック・サイクル１３３の間に、命令ｂ４はこれ
ら加数の和を格納する（ｂ４₁₂₇によって示す）。

【００６０】以上、ソフトウエア・パイプライニングの
利点について実証した。ここで示したのは、各クロック
・サイクルの間、ループ・コードにおいて、前の命令の
遅延を考慮に入れながら、ループ内の命令全てをどのよ
うに実行するかについてである。実際には、この利点に
よって、ソフトウエア・パイプラインは非常に一般的に
用いられており、特に、大きなベクトルまたはアレイ処
理（例えば、画面上の画素、フィルタ係数等）の場合に
用いられている。しかしながら、本発明者は、この効果
にも拘らず、ソフトウエア・パイプライニングには未だ
欠点もあり、かかる欠点は、先に詳細に説明した好適な
実施形態をソフトウエア・パイプライニングの状況に適
用することによって、大幅に減少することがわかった。
これらの態様を更に詳しく表すために、以下ではソフト
ウエア・パイプライニングによって生ずる欠点について
最初に論じ、次いで好適な実施形態をソフトウエア・パ
イプライニングに適用することによって、かかる欠点の
影響を低減することについて論ずる。

【００６１】ソフトウエア・パイプライニングの欠点
は、プロセッサにおけるそのプログラム・メモリ（また
は命令）空間の使用に起因する。即ち、プロセッサ・メ
モリは、プロセッサの高コストおよび複雑化の主たる要
因であり、そのため設計の際には多くの場合かかるメモ
リの量を制限するという対策を取り、更に、プロセッサ
が大きなプログラムに対処しなければならない場合、そ
の命令メモリが一層複雑化し不経済とならざるを得ない
ことは公知である。これらの原理を図８における命令に
適用した場合、プロローグは１３命令から成ることに注
目する。したがって、これらの命令の各々は、命令メモ
リ内にそれ自体の空間（即ち、命令を取り込み実行する
ためのアドレス可能な空間）を必要とすると考えられ
る。その結果、１３箇所のメモリ位置が、図８の例にお
けるプロローグに使用可能でなければならない。同様
に、エピローグは１１命令から成り、したがって、１１
箇所のメモリ位置が図８の例におけるエピローグに使用
可能でなければならない。しかしながら、最後に、ルー
プ・コードはそのメモリ空間の使用においてはるかに効
率的であることを記しておく。即ち、ループ・コードの
各ラインは同一の命令セットで構成されているので、通
常その命令セットがメモリ内の空間を必要とし、少数の
それ以外の命令がループを形成し、この命令セットを適
切な繰り返し回数だけ繰り返し実行する。したがって、
図８の例では、クロック・サイクル毎に４つの命令に対
して４つのメモリ空間のみがあればよい。このループの
各繰り返し毎に、本例について先に述べたクロック・サ
イクルの遅延を想定すると、２回のロードが開始され、
使用可能でありかつ５クロック・サイクルの遅延がある
ので５サイクル前に始まったロード命令に関係する加数
を用いて加算が実行され、使用可能でありかつ５クロッ
ク・サイクルの遅延があるので６サイクル前に開始した
ロード命令に関係する和を用いて格納が実行される。こ
のループを実施する際、カウンタの設定というような初
期化、ループ・コードにおける各ループ毎の当該カウン
タの減数、およびカウンタが適切なカウント値に到達す
るまでループの開始に戻すためのループ終端における分
岐の予測も必要となる。その結果、図８のループ・コー
ドをメモリ空間に実装するためには、各ラインに示すも
のについて合計４命令、そして初期化命令、減数命令、
および分岐命令が必要となり、合計７命令および７箇所
のメモリ空間のみとなる。前述のことから、ループ・コ
ードに必要な相対的なメモリ空間量は、プロローグまた
はエピローグのいずれに対するメモリ空間量よりも少な
く、一旦繰り返しの全てを完了したループ・コードがプ
ロローグまたはエピローグのいずれよりもかなり多くの
命令を占める場合には特に少ないことがわかる。

【００６２】図９は、同様にＬが１２８に等しいループ
に適用し、ソフトウエア・パイプラインを用いて実施し
た、図８の命令ｂ１ないしｂ４を示すが、図９では、ソ
フトウエア・パイプライニングの改善を図っている。何
故なら、好適な実施形態は、ある命令を無効化するよう
に適用されているからである。更に具体的には、図９の
各クロック・サイクルにおいて、図８のループ・コード
に用いられる４つの命令全てが実行をスケジュールされ
ていることを記しておく。しかしながら、従来技術との
重要な相違として、図９における命令の一部は、先に説
明した好適な実施形態を用いて無効化されることがあげ
られる。図９では、無効化された命令を、命令の下付き
文字として「Ａ」を用いて示している。実際には、図８
からのプロローグまたはエピローグのいずれかまたは双
方に対応するクロック・サイクルにおいて無効化した命
令を用いる。これについて以下で詳細に説明する。

【００６３】図８のプロローグおよび図９に示すプロロ
ーグの同じクロック・サイクルの比較に注目し、更に一
例としてクロック・サイクル０に注目すると、４つの命
令ｂ１、ｂ２、ｂ３、およびｂ４を実行するようにスケ
ジュールされている。しかしながら、下付き文字「Ａ」
で示す命令ｂ３およびｂ４（即ち、ｂ３_A、ｂ４_A）は、
命令パイプラインを通過するが、プロセッサの構造状態
には影響を与えないように無効化されることを記してお
く。したがって、図８および図９におけるクロック・サ
イクル０を比較することによって、双方の場合におい
て、命令ｂ１₀およびｂ２₀が実行され、図９における命
令ｂ３およびｂ４に対して行われる無効化ステップによ
って、いずれの図でもプロセッサの構造状態に対する影
響には相違がないことを当業者は認めよう。更にまた、
図８から、プロローグは、クロック・サイクル０ないし
５内にある命令で構成されていることを思い出された
い。好適な実施形態を用いることにより、図８のプロロ
ーグと同じ命令を、図９のクロック・サイクル０ないし
５において実行することができ、一方同時にこれらのク
ロックサイクルの各々において１つ以上の命令を更に無
効化する。

【００６４】図８のエピローグおよび図９に示すエピロ
ーグの同じクロック・サイクルの比較に注目し、更に一
例としてクロック・サイクル１２８に注目すると、この
場合も、４つの命令ｂ１、ｂ２、ｂ３、およびｂ４を実
行するようにスケジュールされている。しかしながら、
命令ｂ１およびｂ２は、その下付き文字「Ａ」で示され
るように（即ち、ｂ１_Aおよびｂ２_A）、命令パイプライ
ンを通過するが、これらがプロセッサの構造状態に影響
を及ぼさないように、無効化されている。したがって、
図８および図９におけるクロック・サイクル１２８を比
較することによって、双方の図では、命令ｂ３₁₂₃およ
びｂ４₁₂₂が実行され、図９における命令ｂ１およびｂ
２に対して行われる無効化ステップのために、いずれの
図についてもプロセッサの構造状態に対する影響には相
違がないことを当業者は認めよう。また、図８から、エ
ピローグはクロック・サイクル１２８ないし１３３内に
ある命令で構成されていることを思い出されたい。好適
な実施形態を用いることによって、図８のエピローグと
同じ命令を図９のクロック・サイクル１２８ないし１３
３において実行することができ、一方同時にこれらのク
ロック・サイクルの各々において１つ以上の命令を更に
無効化する。

【００６５】前述の説明から、図９は、好適な実施形態
を実施することによってソフトウエア・パイプライニン
グが変更可能となることを示しているという点を、今や
当業者は認めよう。即ち、従来技術のソフトウエア・パ
イプライニングで以前に用いられていたソフトウエア・
ループに対して、好適な実施形態は、ループの全クロッ
ク・サイクルにて、ループ内の命令全ての実行がスケジ
ュールされるように実施されている。加えて、これらの
クロック・サイクルのいずれかの間に、これらの命令の
１つ以上が無効化される（即ち、無効ワード内の適切な
ビットをセットすることによって）。無効化する個々の
命令（複数の命令）は、所与の繰り返しの、ループを完
了するために必要な総繰り返し回数に対する関係に基づ
いて決定することができる。図９の例では、例えば、１
３４クロック・サイクルの内クロック・サイクル０ない
し４の間に２つの命令が無効化され、１３４クロック・
サイクルの内クロック・サイクル５の間に１つの命令が
無効化され、１３４クロック・サイクルの内クロック・
サイクル１２８ないし１３２の間に２つの命令が無効化
され、１３４クロック・サイクルの内クロック・サイク
ル１３３の間に３つの命令が無効化される。

【００６６】図９に示したものの範囲を更に表すため
に、その中に示す命令は、表３に示す以下の命令を用い
て実行可能であることを記しておく。

【表５】

【００６７】表３の命令について、これより詳細に説明
する。更に、この論述において、図９も再度参照する。
更に、比較のために、従来技術のプロローグ、ループ・
コード、およびエピローグの各々に該当する動作を近似
する集合単位でこれらの命令を論ずることにする。

【００６８】表３の先頭に注目すると、命令ｃ１は第１
無効ワードを適切なレジスタにロードする。ロードされ
た無効ワードのビットは、図９のクロック・サイクル０
ないし５において無効化されるように示された命令を無
効化するように、適切にセットされている。言い換える
と、これら無効化される命令は、図８のプロローグにお
いて、パイプライン内になかった命令である。更に、無
効化する命令は合計１１個であるので、無効ワードはし
たがって１１個のセットされたビットを対応して有する
ことになる。命令ｃ２は無効命令であり、これによって
レジスタに格納されている無効ワードを適切なハードウ
エアに移動させる。即ち、無効ワードは図６ａにおける
無効ワードＡＷ３として扱うことができる。命令ｃ３
は、Ａ０と称する第１カウンタをセットする。このカウ
ンタは、以下で一層明かになるが、図９におけるクロッ
ク・サイクル全てを完了するために要するクロック・サ
イクルの総数を定義するために用いられる。したがっ
て、本例では、カウンタＡ０は１３４にセットされる。
命令ｃ４は、Ａ１と称する第２カウンタをセットする。
このカウンタは、以下で一層明かになるが、図８におい
てエピローグに先立つ、図９における全ての命令を完了
するために要するクロック・サイクルの総数を定義する
ために用いられる。したがって、本例では、カウンタＡ
１は１２８にセットされる。したがって、この時点で、
ロード、加算、および格納動作を開始する準備が整う。
これは、以下で更に詳細に説明する。

【００６９】命令ｃ５、ｃ６、ｃ７、およびｃ８の最初
の繰り返しは、図９においてクロック・サイクル０とし
て示すものを表す。更に具体的には、命令ｃ５およびｃ
６は、ｂ１₀およびｂ２₀を実行させる。しかしながら、
命令ｃ１およびｃ２の無効ワードのロードおよび実装の
ため、図９におけるクロック・サイクル０の無効化され
た命令ｂ３_Aおよびｂ４_Aに対応して、命令ｃ６およびｃ
７は無効化される。命令ｃ９およびｃ１０は、カウンタ
Ａ０およびＡ１をそれぞれ減数する。したがって、この
時点では、図９のクロック・サイクル０が完了し、プロ
セスは図９のクロック・サイクル１に向けられる。更に
この点に関して、カウンタＡ０が０に達していない場合
にのみ実行するように命令ｃ１１が断定される。この例
では、この時点において、カウンタＡ０は１回減数され
ただけであり、したがって１３３の値を格納している。
つまり、述部は満たされず、命令フローは命令ｃ５に戻
される。このリターン分岐動作から、各クロック・サイ
クル毎に、カウンタＡ０が０の値に達するまで、命令ｃ
５、ｃ６、ｃ７、およびｃ８は、当該クロック・サイク
ルの間の実行がスケジュールされていることを当業者は
認めよう。更に、先にロードした１１ビットの無効ワー
ドのために、これら繰り返しクロック・サイクルの間に
合計１１個の命令が無効化される。ここで、無効化ワー
ドは、図９のクロック・サイクル０ないし５において下
付き文字「Ａ」で示すものである。

【００７０】一旦カウンタＡ０が１２８の値に減数され
ると、命令ｃ３、ｃ４、ｃ５、およびｃ６は実行がスケ
ジュールされており、無効化されていなければ、合計６
回実行され、これによって図９におけるクロック・サイ
クル０ないし５を終了する。また、この時点において、
６回減数した後のカウンタＡ１は１２２の値に等しい。
更に、クロック・サイクル６によって、セットされた残
りの無効ワード・ビットはなく、したがってカウンタＡ
０が６に到達するまで、表３のコードは、命令ｃ５、ｃ
６、ｃ７、およびｃ８の各々をスケジュールしかつ実行
する。これらの命令の無効化はない。

【００７１】カウンタＡ０が６の値に達すると、カウン
タＡ１は同時に０の値に減数されたことになる。その結
果、命令ｃ１２およびｃ１３の述部が満たされ、これに
応答して、命令ｃ１２は第２無効ワードを適切なレジス
タにロードする。第２無効ワードのビットは、図９のク
ロック・サイクル１２８ないし１３３において無効化さ
れるように示されている命令を無効化するように、適切
にセットされている。無効化する命令が合計１３個ある
ので、無効ワードはしたがって１３個の対応するセット
されたビットを有することになる。命令ｃ１３は、レジ
スタに格納されている第２無効ワードを適切なハードウ
エアに移動させる無効命令であり、この場合も図６ａに
おける無効ワードＡＷ３によって表される。

【００７２】本例を終了するにあたり、この時点では、
カウンタＡ０は６に等しく、カウンタＡ１は０に等し
い。したがって、命令ｃ１１はフローを命令ｃ５、ｃ
６、ｃ７、およびｃ８に戻す。このため、命令ｃ５、ｃ
６、ｃ７、およびｃ８の次の繰り返しは、図９において
クロック・サイクル１２８として示すものを表す。更に
具体的には、命令ｃ７およびｃ８は、ｂ３₁₂₃およびｂ
４₁₂₂を実行させる。しかしながら、命令ｃ１２および
ｃ１３の第２無効ワードのロードおよび実装のために、
図９におけるクロック・サイクル１２８の無効化命令ｂ
１_Aおよびｂ２_Aに対応して、命令ｃ５およびｃ６が無効
化される。命令ｃ９およびｃ１０は、カウンタＡ０およ
びＡ１を減数し、これらをそれぞれ−１および５の値に
する。このため、命令ｃ１１の述部は未だ満たされず、
プロセスは更に５クロック・サイクル、即ち、図９のク
ロック・サイクル１３３まで繰り返す。最後に、これら
５回のクロック・サイクルの後、カウンタＡ０が減数さ
れ、その時点で０の値を格納する。こうして、命令ｃ１
１の述部が満たされ、したがって分岐は行われず、表３
のループおよび命令を完了する。

【００７３】表３の方法論について実証し終えたので、
従来技術におけるソフトウエア・パイプライニングより
もいかに効率的な動作をもたらすか、更に具体的には、
好適な実施形態をソフトウエア・パイプライニングと共
に実施すると、いかに命令メモリ空間の使用度が向上す
るかが、今やわかるであろう。尚、１３個のプロローグ
命令、７つのループ・コード命令、および１１個のエピ
ローグ命令から成る図８のソフトウエア・パイプライニ
ングに必要な命令数は、合計３１個であることを思い出
されたい。対照的に、表３は、他の命令と共に、無効命
令を適切に位置付け実行することにより、合計１３個の
命令を用いて、図９の動作全てを実施可能であることを
表す。このように、図９を図８と対比させる本例のソフ
トウエア・パイプライニングに好適な実施形態を実施す
ることによって、従来技術で必要な３１個から合計１８
個の命令が削減され、好適な実施形態では１３個で済
む。言い換えると、この例では、用いる命令は５８パー
セント減少する。結果的に、必要な命令メモリ空間量も
同様に５８パーセント削減される。先に述べたように、
かかる削減はいずれも複雑性およびコストの改善をもた
らし、したがって、好適な実施形態はこの点に関してい
かに劇的な効果を有するものであるかが、今や示された
ことになる。

【００７４】前述における最後の課題として、表３のコ
ードは単に一例に過ぎず、その順序付けも本例を論理的
に表すためのものであり、かかるコードおよび／または
順序付けは、種々の理由で変更し得ることを記してお
く。例えば、コードの一部を再構成するために、異なる
最適化技術を適用することも可能である。別の例とし
て、多くのプロセッサでは分岐に伴う遅延がある。した
がって、一例として、かかる場合には、命令ｃ１１の分
岐をコンパイラによってコード内の早い時点に配置し、
その遅延が実際の分岐を適切な時点に行なわせる（また
は、行なわせない）ようにすることができる。

【００７５】図１０は、プロセッサ５０のブロック図で
あり、システム４０および前述の本発明の方法論を実施
することにより、分岐命令の複雑性を回避することおよ
びソフトウエア・パイプライニングを改善することのい
ずれかまたは双方に関して、一層効率的な動作を可能に
する。プロセッサ５０は、好ましくは、単一の集積回路
であり、前述の命令に関連する図示および論述を簡略化
するために、ブロック形態で示されているが、プロセッ
サの動作および機能性に関するこれ以外の詳細は、ブロ
ックから得られることは当業者には容易に認められよ
う。更に、プロセッサ５０は、Texas Instruments Inco
rporated から市販されているTMS320 C6000シリーズ・
プロセッサからのプロセッサを代表するものであり、TM
S320C62x/C67xディジタル信号プロセッサを含む。

【００７６】プロセッサ５０に移り、これはプログラム
・メモリ５２を含む。デバイスによっては、これをプロ
グラム・キャッシュとして用いることも可能である。ま
た、プロセッサ５０は、データ・メモリ５４も含む。メ
モリ５２および５４は、中央演算装置（「ＣＰＵ」）５
６と通信するように結合されている。ＣＰＵ５６は、プ
ログラム・フェッチ・ユニット５８ａ，命令ディスパッ
チ・ユニット５８ｂ、および命令デコード・ユニット５
８ｃとして示す、種々の段階を有するパイプライン５８
を含む。ＣＰＵ５６のパイプラインは、更に、経路Ａお
よび経路Ｂとして示す２系統のデータ経路を含み、各デ
ータ経路は、対応する４つの機能ユニット集合（経路Ａ
ではＬ１、Ｓ１、Ｍ１、およびＤ１、そして経路Ｂでは
Ｌ２、Ｓ２、Ｍ２、およびＤ２）を有する。端的に、機
能ユニットの動作機能性を以下の表４に明記する。所与
の実施態様にしたがって、追加の機能性を各ユニットに
加えたり、あるいは除去することも可能である。

【表６】

【００７７】各機能ユニット集合は、対応するデータ経
路レジスタ・ファイル（レジスタ・ファイルＡおよびレ
ジスタ・ファイルＢとして示す）と通信することがで
き、各レジスタ・ファイルは３２個の３２ビット・レジ
スタを含む。図示しないが、これらの通信の一部は、交
差結合経路も含み、これによって経路Ａからの機能ユニ
ットの一部がレジスタ・ファイルＢを読み取り、一方経
路Ｂからの機能ユニットの一部がレジスタ・ファイルＡ
を読み取ることができる。また、ＣＰＵ５６は、制御レ
ジスタ６０、制御ロジック６２、検査ロジック６４、エ
ミュレーション・ロジック６６、および割込ロジック６
８を含む、追加の支援ハードウエアを含む。また、プロ
セッサ５０は、これらの識別子に対応する機能を実行す
る、直接メモリ・アクセス（「ＤＭＡ」）／外部メモリ
・インターフェース（「ＥＭＩＦ」）ブロック７０のよ
うな追加のブロックも含むことができる。また、プロセ
ッサ５０は、種々の周辺機器への接続を支援することが
できる周辺ブロック７２も含む。周辺機器は、一例とし
て、タイマ、シリアル・ポート（複数のシリアル・ポー
ト）、およびホスト・ポート・インターフェースを含
む。最後に、プロセッサ５０は、ＣＰＵアクティビテ
ィ、周辺機器アクティビティ、および位相ロック・ルー
プ（ＰＬＬ）アクティビティを停止し、電力消費を低減
させることができる、電力停止論理ブロック７４を含
む。

【００７８】次に、パイプラインにおける命令処理の態
様に関連付けて、先に詳細に説明した本発明の無効回
路、システムおよび方法がいかにしてその機能性をプロ
セッサ５０において発揮するかを、これも一例として、
理解できるように、プロセッサ５０の動作について説明
する。プログラム・フェッチ・ユニット５８ａ、命令デ
ィスパッチ・ユニット５８ｂ、および命令デコード・ユ
ニット５８は全て、各ＣＰＵクロック・サイクル毎に、
８つまでの３２ビット命令を機能ユニットに送出するこ
とができる。命令の処理は、２系統のデータ経路（Ａお
よびＢ）の各々において行われる。これらの経路の各々
は、４つの機能ユニット（Ｌ、Ｓ、Ｍ、およびＤ）およ
び３２個の３２ビット汎用レジスタを含むことを思い出
されたい。更にプロセッサ５０のパイプライン動作を例
示するために、以下には一例として’Ｃ６２ｘに関して
かかる動作を説明する。

【００７９】フェッチ・ユニット５８ａに注目すると、
これは８つの命令のフェッチ・パケットを用いる。８つ
の命令は全て、共に４つのフェーズ（プログラム・アド
レス発生フェーズ、プログラム・アドレス送出フェー
ズ、プログラム・アクセス・レディ待機フェーズ、およ
びプログラム・フェッチ・パケット受信フェーズ）から
成るフェッチ処理によって処理される。プログラム・ア
ドレス発生フェーズの間、ＣＰＵにおいてプログラム・
アドレスを発生する。プログラム・アドレス送出フェー
ズでは、プログラム・アドレスをメモリに送る。プログ
ラム・アドレス送出フェーズでは、メモリ・リードが行
われる。最後に、プログラム・アドレス送出フェーズで
は、フェッチ・パケットがＣＰＵにおいて受け取られ
る。

【００８０】命令ディスパッチ・ユニット５８ｂおよび
命令デコード・ユニット５８ｃに注目すると、ディスパ
ッチ・ユニット５８ｂでは、フェッチ・パケットが実行
パケットに分割される。実行パケットは、１つの命令ま
たは２つないし８つの並列命令から成る。また、ディス
パッチ・ユニット５８ｂは、実行パケット内の命令を適
切な機能ユニットに割り当てる。命令デコード・ユニッ
ト５８ｃの動作において、機能ユニットにおける命令の
実行のために、ソース・レジスタ、宛先レジスタ、およ
び関連する経路をデコードする。その後、所与のクロッ
ク・サイクルにおいて、命令を割り当てられた各機能ユ
ニットがそれに対応する命令を実行することができる。
ここで、好適な実施形態では、割り当てられた命令に対
応する無効ビットがある場合、これがセットされていな
い場合にのみ、かかる実行が行われることは認められよ
う。実行パケットは８つまでの命令を含むことができる
ので、単一のクロック（および実行）サイクルでは、こ
れら８つまでの命令を実行することができる（無効ビッ
トはクリアされていると仮定する）。実行パケットが有
する命令が８つ未満である場合、対応する命令を有さな
いパケットの残りのスロットは、無動作命令（「ＮＯ
Ｐ」）として扱われ、これに関連する実行はないので、
ＮＯＰ（複数のＮＯＰ）は機能ユニットにディスパッチ
される。

【００８１】プロセッサ５０における実行は、各命令に
対処する５つのフェーズに分解される。しかしながら、
殆どの命令を実行するには、これらのフェーズの内１つ
だけがあればよい。例えば、いわゆる単一サイクル命令
では、１フェーズで実行し、その中で結果を計算しその
結果をレジスタに書き込む。他の例として、乗算命令で
は、第１実行フェーズでオペランドを読み出し、その計
算を開始し、第２実行フェーズで結果を計算しその結果
をレジスタに書き込む。更に別の例として、ロード命令
では、５フェーズで実行し、順番に次のステップを実行
する。即ち、（１）アドレスを計算する。（２）アドレ
スをメモリに送る。（３）メモリにアクセスする。
（４）データをＣＰＵに返送する。そして（５）データ
をレジスタに書き込む。

【００８２】以上論じた好適な実施形態は、無効化した
命令がプロセッサの構造状態に影響を及ぼさないシステ
ムを含むものとして示した。この態様について、図１０
のプロセッサ５０を例として、更に示すことができる。
即ち、プロセッサの構造状態は一般的に当技術分野では
公知であり、一例として、メモリ５２および５４、レジ
スタ・ファイルＡおよびレジスタ・ファイルＢ、プログ
ラム・カウンタ（明示的には示していない）、ならびに
特殊制御レジスタ（制御レジスタ６０に含むことも可能
である）を含む、図１０における構成要素のビットの状
態である。したがって、好適な実施形態では、命令を無
効化すると、これらの構成要素のいずれにおいてもビッ
ト状態を変更することは許されない。デバイスの形式お
よび構成に基づいて、更に別の例も、当業者には確認す
ることができよう。

【００８３】以上の説明から、本実施形態は、プロセッ
サの命令がプロセッサ・パイプラインに入るが、無効ワ
ードに応答して動作し、これらの命令の内選択したもの
がプロセッサの構造状態に影響を及ぼすのを防止できる
ようにすることが認められよう。更に、本実施形態につ
いて詳細に説明したが、本発明の範囲から逸脱すること
なく、種々の代用、変更または変形も、先に明記した説
明に対して行なうことができる。実際に、代替方法論に
対し、種々の例を既に示した。加えて、別の例として、
好適な実施態様およびその結果得られる機能性をシステ
ム４０内に実施したものとして示したが、他の手法も当
業者によって得ることができる。別の例として、実行ユ
ニットの抑制動作は、命令がプロセッサの構造状態を変
化させるのを防止するために好ましい手法として示した
が、別の手法は、プロセッサ・パイプラインの他の部分
の動作を抑制し、無効化することが望ましい命令がプロ
セッサの構造状態を変化させることを許可しないように
することを含めてもよい。更に別の例として、分岐の複
雑性回避およびソフトウエア・パイプラインの改善を、
好適な実施形態が有用な２つの方法として示したが、更
に別のことも当業者には明白となろう。最後に、図１０
のプロセッサは、本回路、システムおよび対応する機能
性を実施可能な形式のプロセッサの一例を示すが、多数
のその他のプロセッサも、ここに教示した技術を同様に
実施することができる。これら追加の例から、当業者
は、特許請求の範囲によって規定される、本発明の範囲
をより良く認めることができて当然である。

【００８４】以上の説明に関して更に以下の項を開示す
る。（１）可変構造状態を有するプロセッサであって、命令
を格納する命令メモリと、命令パイプラインであって、
このパイプラインを完全に通過する命令が前記構造状態
を変化させ、前記命令メモリから命令をフェッチし、前
記パイプラインに入力する回路を備える、前記命令パイ
プラインと、前記パイプライン内の命令に対応する無効
コードを格納する回路と、無効コードに応答して、前記
群内において選択した１つ以上の命令が、前記構造状態
を変化させるのを防止する回路と、から成るプロセッ
サ。（２）前記命令パイプラインは複数の実行ユニットを備
え、前記複数の実行ユニットの１つ以上が、対応する命
令を受け取り、所与のクロック・サイクルにおいて前記
対応する命令を実行する、第１項記載のプロセッサ。（３）前記無効コードは複数のビット状態から成り、前
記群内において選択した１つ以上の命令が、前記構造状
態を変化させるのを防止する前記回路は、前記複数のビ
ット状態を前記複数の実行ユニットのそれぞれに結合す
る回路を備え、ビット状態が第１状態にあることに応答
して、前記ビット状態が結合される前記実行ユニット
が、前記所与のクロック・サイクルにおいて、前記対応
する命令を実行せず、ビット状態が前記第１状態とは異
なる第２状態にあることに応答して、前記ビット状態が
結合される前記実行ユニットが、前記所与のクロック・
サイクルにおいて、前記対応する命令を実行する、第２
項記載のプロセッサ。（４）前記複数の実行ユニットは、ロード／ストア・ユ
ニット、乗算ユニット、ＡＬＵユニット、およびシフト
・ユニットから成る第３項記載のプロセッサ。（５）前記複数の実行ユニットは、所与のクロック・サ
イクルにおいて、前記複数の実行ユニットの内整数個Ｎ
が実行をスケジュールされるように動作可能であり、前
記複数のビット状態を前記複数の実行ユニットのそれぞ
れに結合する前記回路は、前記複数のビット状態の内前
記整数個Ｎのみを、前記所与のクロック・サイクルにお
いて実行するようにスケジュールされている前記複数の
実行ユニットに結合する回路を備える、第３項記載のプ
ロセッサ。（６）前記無効コードに対応する命令は、論理的に条件
付き命令の後に配置され、条件を満たす場合に実行され
る、１つ以上の命令から成る第１の群と、論理的に前記
条件付き命令の後に配置され、条件を満たさない場合に
実行する１つ以上の命令から成る第２の群と、から成
り、前記防止する回路は、前記条件が満たされない場
合、前記無効コードに応答して、前記第１群の命令が前
記構造状態を変化させるのを防止し、前記防止する回路
は、前記条件が満たされる場合に、前記無効コードに応
答して、前記第２群の命令が前記構造状態を変化させる
のを防止する、第５項記載のプロセッサ。（７）前記無効コードに対応する命令は、整数Ｍ回繰り
返して実行するようにスケジュールされたソフトウエア
・ループに対応する命令から成り、所与の繰り返しの間
に、前記防止回路は、前記無効コードに応答して、かつ
前記所与の繰り返しの前記整数Ｍ回の繰り返しに対する
関係に基づいて、前記無効コードに対応する１つ以上の
前記命令が、前記構造状態を変化させるのを防止する、
第５項記載のプロセッサ。（８）前記無効コードに対応する命令は、整数Ｍ回繰り
返して実行するようにスケジュールされたソフトウエア
・ループに対応する命令から成り、所与の繰り返しの
間、前記防止回路は、前記無効コードに応答して、かつ
前記所与の繰り返しの前記整数Ｍ回の繰り返しに対する
関係に基づいて、前記無効コードに対応する１つ以上の
前記命令が、前記構造状態を変化させるのを防止する、
第３項記載のプロセッサ。（９）前記無効コードに対応する前記命令群は、論理的
に条件付き命令の後に配置され、条件を満たす場合に実
行される、１つ以上の命令から成る第１の群と、論理的
に前記条件付き命令の後に配置され、条件を満たさない
場合に実行する１つ以上の命令から成る第２の群と、か
ら成り、前記条件が満たされない場合、前記第１の群に
対応するビット状態が前記第１状態にセットされ、前記
第２の群に対応するビット状態が前記第２状態にセット
され、前記条件が満たされる場合、前記第１の群に対応
するビット状態が前記第２状態にセットされ、前記第２
の群に対応するビット状態が前記第１状態にセットされ
る、第３項記載のプロセッサ。（１０）前記無効コードは、１つ以上の定数発生命令に
応答して発生する第１項記載のプロセッサ。（１１）前記無効コードはメモリからロードされる第１
項記載のプロセッサ。（１２）前記無効コードは、前記パイプラインを通過す
る命令における即値である第１項記載のプロセッサ。（１３）前記無効コードは３２ビットから成る第１項記
載のプロセッサ。（１４）前記無効コードは３２ビットより多い第１項記
載のプロセッサ。（１５）前記無効コードは６４ビットから成り、前記無
効コードは、２つの３２ビット値に応答して形成され
る、第１項記載のプロセッサ。（１６）前記無効コードは、条件述部を有する命令に応
答してロードされ、前記無効コードは、前記条件述部が
満たされることに応答して、第１無効コードを構成し、
前記無効コードは、前記条件述部が満たされないことに
応答して、第２無効コードを構成する、第１項記載のプ
ロセッサ。（１７）更に、第１レジスタおよび第２レジスタを備
え、前記第１無効コードが前記第１レジスタに格納さ
れ、前記第１無効コードが前記第２レジスタに格納され
る、第１６項記載のプロセッサ。（１８）更に、レジスタを備え、前記第１無効コードが
前記レジスタの半分に格納され、前記第２無効コードが
前記レジスタの半分に格納される、第１６項記載のプロ
セッサ。（１９）前記パイプラインを通過する無効命令が整数Ｎ
を指定し、前記防止回路が、前記パイプラインにおける
Ｎ個の連続する命令が前記構造状態を変化させるのを防
止するように、前記整数値Ｎに応答して前記無効コード
を形成する、第１項記載のプロセッサ。（２０）更に、レジスタを備え、前記レジスタが、第１
論理値を有するビット集合と、第２論理値を有するビッ
ト集合とから成る前記無効コードを格納し、前記無効コ
ードは、条件述部を有する命令に応答してロードされ、
前記防止回路は、前記条件述部が満たされることに応答
して、第１論理値を有するビットに対応する命令が前記
構造状態を変化させるのを防止し、前記防止回路は、前
記条件述部が満たされないことに応答して、第２論理値
を有するビットに対応する命令が前記構造状態を変化さ
せるのを防止する、第１項記載のプロセッサ。（２１）更に、割込の受信に応答して、前記無効コード
の一部を格納する回路を備える第１項記載のプロセッ
サ。

【００８５】（２２）変化可能な構造状態を有するプロ
セッサ（５０）。このプロセッサは、命令を格納する命
令メモリ（５２）を含む。また、プロセッサは命令パイ
プラインも含み、パイプラインを完全に通過する命令が
構造状態を変化させる。更に、パイプラインは、命令メ
モリからパイプラインに命令をフェッチする回路（５８
ａａ）を備えている。また、プロセッサは、パイプライ
ン内の命令に対応する無効コード（４６）を格納する回
路も含む。最後に、プロセッサは、無効コードに応答し
て、群内で選択した１つ以上の命令が構造状態を変化さ
せるのを防止する回路（ＦＵ₁ないしＦＵ₈）も含む。

【図面の簡単な説明】

【図１】ａは単一レベルの単一条件を有する命令群を示
すツリー図。ｂは図１ａの無条件命令を図１ａの条件付
き命令によって断定する場合を示す図。

【図２】ａは２レベルの条件を有する命令群を示すツリ
ー図。ｂは図２ａの命令群、および好適な実施形態によ
る対応の無効ワードを示す図。ｃは条件Ａ２が真の場合
における、図２ｂの無効ワードを、セットされたその値
と共に示す図。ｄは条件Ａ２が偽の場合における、図２
ｂの無効ワードを、セットされたその値と共に示す図。

【図３】ａは図２ｂの無効ワードにおけるエレメントの
状態をセットする好適な方法において、図２ｃおよび図
２ｄにおけるように状態をセットした場合を示す図。ｂ
は２つ以上の条件レベルを有する命令を処理し、対応す
る無効ワードにおけるエレメントの状態をセットする、
好適な実施形態による方法を示す図。

【図４】ａは条件Ａ２が真の場合に、図２ａの命令ツリ
ーに関して行われる、好適な実施形態の断定ステップを
示す図。ｂは条件Ａ２が偽の場合に、図２ａの命令ツリ
ーに関して行われる、好適な実施形態の断定ステップを
示す図。

【図５】ａは３レベルの条件を有する命令群を示すツリ
ー図。ｂは条件Ａ３が真の場合に、図５ａの命令群およ
び対応する無効ワードを、セットされたその値と共に示
す図。ｃは条件Ａ３が偽の場合に、図５ａの命令群およ
び対応する無効ワードを、セットされたその値と共に示
す図。ｄは条件Ａ３が真であり条件Ｂ３が真の場合に、
図５ａの命令群および対応する無効ワードを、セットさ
れたその値と共に示す図。ｅは条件Ａ３が真であり条件
Ｂ３が偽の場合に、図５ａの命令群および対応する無効
ワードを、セットされたその値と共に示す図。ｆは条件
Ａ３が偽であり条件Ｃ３が真の場合に、図５ａの命令群
および対応する無効ワードを、セットされたその値と共
に示す図。ｇは条件Ａ３が偽であり条件Ｃ３が偽の場合
に、図５ａの命令群および対応する無効ワードを、セッ
トされたその値と共に示す図。

【図６ａ】無効ワードからのビットを用いて、無効化が
識別された命令の実行を防止するために用いられる無効
マスクを発生するための、好適な実施形態を示す電気機
能図。

【図６ｂ】実行するようにスケジュールされた第１命令
パケットに応じてセットされた無効マスクおよび使用マ
ップと共に、図６ａの電気機能図を示す図。

【図６ｃ】実行するようにスケジュールされた第２命令
パケットに応じてセットされた無効マスクおよび使用マ
ップと共に、図６ａの電気機能図を示す図。

【図６ｄ】実行するようにスケジュールされた第３命令
パケットに応じてセットされた無効マスクおよび使用マ
ップと共に、図６ａの電気機能図を示す図。

【図７】各命令が、マップされる対応の機能ユニット、
および命令を無効化するか否かを示す、無効ワードから
のビットを有する、３つの命令パケットを有する命令ス
トリームを示す図。

【図８】従来技術のソフトウエア・パイプライニングの
例を示す図。

【図９】図８のソフトウエア・パイプライニングの例を
実施するために必要な命令数を大幅に削減する、無効ワ
ードの適用を示す図。

【図１０】前述の図に示した回路、システム、および方
法を実施するプロセッサの好適な実施形態を示す図。

【符号の説明】

４０システム４２バッファ４４シフト・レジスタ４６ビット群４８機能ユニット使用マップ５０プロセッサ５２プログラム・メモリ５４データ・メモリ５６中央演算装置（「ＣＰＵ」）５８ａプログラム・フェッチ・ユニット５８ｂ命令ディスパッチ・ユニット５８ｃ命令デコード・ユニット６０制御レジスタ６２制御ロジック６４検査ロジック６６エミュレーション・ロジック６８割込ロジック７０直接メモリ・アクセス／外部メモリ・インターフ
ェース・ブロック７２周辺ブロック７４電力停止論理ブロック

Claims

【特許請求の範囲】

【請求項１】可変構造状態を有するプロセッサであっ
て、命令を格納する命令メモリと、命令パイプラインであって、該パイプラインを完全に通
過する命令が前記構造状態を変化させ、前記命令メモリ
から命令をフェッチし、前記パイプラインに入力する回
路を備える、前記命令パイプラインと、前記パイプライン内の命令に対応する無効コードを格納
する回路と、無効コードに応答して、前記群内において選択した１つ
以上の命令が、前記構造状態を変化させるのを防止する
回路と、から成るプロセッサ。