JP2001216154A

JP2001216154A - むき出しのパイプラインを具備するコードのサイズを、ｎｏｐ演算を命令オペランドとしてコード化することで削減するための方法並びに装置

Info

Publication number: JP2001216154A
Application number: JP2000401009A
Authority: JP
Inventors: Eric J Stotzer; ジェイ、ストツアーエリック; Elana D Granston; ディ、グランストンイラーナ; Alan S Ward; エス、ワードアラン
Original assignee: Texas Instruments Inc
Current assignee: Texas Instruments Inc
Priority date: 1999-12-30
Filing date: 2000-12-28
Publication date: 2001-08-10

Abstract

(57)【要約】【課題】むき出しのパイプラインを有するプロセッサ
内の総コードサイズを削減する方法並びに装置を提供す
る。【解決手段】ロード命令や分岐命令の様にその命令の
結果が利用出来るようになるまでに待ち時間が必要な命
令に対して、従来挿入されているＮＯＰ命令の代わり
に、このＮＯＰ命令の数に等しい値を含むＮＯＰフィー
ルドをそれぞれの命令の中に挿入することで、同一効果
をもたらす総コードサイズを削減する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ＮＯＰを必要とす
る命令を具備したマイクロプロセッサまたはマイクロ制
御装置、例えばディジタル信号処理装置上（以降「プロ
セッサ」という）で命令のコードサイズを削減するため
の方法並びに装置に関する。特に、本発明はむき出しの
（exposed）パイプライン、例えば大規模命令ワード
（ＶＬＩＷ:very large instruction word）を具備した
アーキテクチャ上で、ＮＯＰ演算を１つの命令オペラン
ドとしてコード化することでコードサイズを低減するた
めの方法並びに装置に関する。

【０００２】

【従来の技術】ＶＩＬＷは命令セット概念を記述してお
り、この中でコンパイラは多数の比較的単純な、相互に
無関係な演算を単一命令ワードに集約している。キャッ
シュまたはメモリからプロセッサの中にフェッチされる
と、これらのワードは容易に分解されてそれらの命令は
個別の実行ユニットに送られる。ＶＬＩＷはおそらくソ
フトウェアまたはコンパイラベースのスーパースカラー
技術として最適に記述される。ＶＬＩＷアーキテクチャ
はしばしばむき出しのパイプラインを有する。

【０００３】遅延効果命令は、１つまたは複数の連続し
た命令が最初の命令結果が完了する前に実行される命令
である。ＮＯＰ命令が命令の待ち時間を補償するために
挿入される。ＮＯＰ命令はダミー命令であって、何の結
果ももたらさない。これは明示的な「何もしない」命令
として使用され、これは命令パイプラインの中で待ち時
間を補うために必要である。しかしながら、この様なＮ
ＯＰ命令はコードサイズを増加させる。例えば、複数の
ＮＯＰはＮＯＰの複数の繰り返しまたは一連の個別ＮＯ
Ｐとして下記のように定義される：ＮＯＰはＶＬＩＷ用のコードの中でしばしば発生する。

【０００４】しばしばＮＯＰ命令は複数のシーケンシャ
ル・サイクルに対して実行される。c6xシリーズ・アー
キテクチャは、ＮＯＰ命令のシーケンスをコード化する
ための多重サイクルＮＯＰを有する。テキサス州ダラス
のテキサス・インスツルメンツ社から購入できるc6000
プラットフォームは、固定および浮動小数点ディジタル
信号処理装置（ＤＳＰ）を提供しており、これは高性能
システムの開発者が彼らの特定アプリケーションに適し
た素子を選択出来るようにしている。このプラットフォ
ームはいくつかの好適な特徴をＤＳＰと組み合わせて、
性能の強化、コスト効率の改善、および電力消費の削減
を実現する。工業的に最も強力なプロセッサのいくつか
として、テキサス州ダラスのテキサス・インスツルメン
ツ社から購入できるc6000プラットフォームは、1200ミ
リオン命令毎秒（ＭＩＰＳ:million instructions per
second）から2400ＭＩＰＳの性能範囲を具備したc62x固
定小数点ＤＳＰを提供する。c67x浮動小数点素子は600
ミリオン浮動小数点演算毎秒（ＭＦＬＯＰＳ:million f
loating-point operations per second）から１ＧＦＬ
ＯＰＳ（１ビリオン浮動小数点演算毎秒）を超えるレベ
ルの範囲にある。新たに出現する技術の性能要求に適合
するために、このc6000プラットフォームは、c62x生成
固定小数点素子の5000ＭＩＰＳから浮動小数点素子用の
３ＧＦＬＯＰＳ以上の範囲に相当する固定小数点および
浮動小数点コードを提供する。

【０００５】ロード（ＬＤ）および分岐（Ｂ）命令は、
それぞれ五（５）および六（６）サイクル待ち時間を有
する。待ち時間とはその中で１つの命令の全ての結果が
完了する期間（サイクルまたは遅延スロットで測定され
る）として定義される。これらの待ち時間をその他の有
用な演算で「満たす」ために命令スケジューリングが使
用される。その様なその他の命令を命令待ち時間中に実
行することが出来ない場合を仮定すると、その命令が発
せられた後にＮＯＰが挿入されてプログラムが正しく実
行されるように維持する。下記は現在のパイプライン演
算でのＮＯＰの使用例である：例１ａ： LD*a0,a5 % a5をa0にロード（１サイクル） NOP 4 % ４サイクルの間演算しない（遅延スロット） ADD a5,6,a7; % a5の値が利用可能例２ａ： B Label % ラベル命令へ分岐（１サイクル） NOP 5 % ５サイクルの間演算しない（遅延スロット） ; % 分岐発生ＮＯＰはその他の命令の遅延効果を補償するために使用
されているが、ＮＯＰは１より大きな遅延を有するその
他の型式の命令にも関連しているはずである。一般的に
複雑な命令、メモリを読みとるロード命令、および制御
フロー命令（例えば、分岐）は１より大きな待ち時間を
有し、それらの実行フェーズは複数サイクルを必要とす
る。

【０００６】パイプライン化は命令をアセンブリ・ライ
ン形式で実行するための方法である。パイプライン化は
演算毎の実効プログラム遅延を削減するための設計技術
であって、演算を一連の段に分割し、その各々が演算の
一部を実行する。一連のデータは典型的にパイプライン
を通してシーケンシャルな形式でクロックが掛けられ、
クロック周期毎に１段づつ前進する。

【０００７】命令は１つの演算を実行させるプログラミ
ングの基本ユニットである。これは１つの演算コードと
複数のオペランドとで構成され、オプションとしてラベ
ルおよびコメントを具備する。１つの命令は複数ビッ
ト、Ｎで符号化される。Ｎは可変であったり固定であっ
たりするが、それは個々の装置のアーキテクチャに依存
する。例えば、テキサス州ダラスのテキサスインスツル
メンツ社製のc6xファミリーのプロセッサは、固定３２
ビット命令ワードを有する。レジスタとは高速メモリの
小さな領域で、プロセッサまたは電子装置の内部に配置
され、それはデータまたは命令を一時的に格納するため
に使用される。各々のレジスタ名前が付けられていて、
数バイトの命令を含み、これはプログラムにより参照さ
れる。

【０００８】命令パイプラインの１例では、このパイプ
ラインはフェッチ、復号および実行段で構成されてい
る。例えば、命令フェッチ・フェーズがパイプラインの
第１フェーズである。このフェーズでは命令がプログラ
ム・メモリからフェッチされる。命令復号フェーズがパ
イプラインの次のフェーズである；このフェーズでは命
令が復号される。オペランド・フェッチ・フェーズはパ
イプラインの第３フェーズであり、ここでは１つまたは
複数のオペランドがレジスタ・ファイルから読み込まれ
る。オペランドは１つの命令の一部であり、中央処理ユ
ニット（ＣＰＵ）が何処から情報をフェッチまたは格納
するかを指し示す部分である。オペランドはアセンブリ
語命令の引数（またはパラメータ）で構成されている。
最後に命令実行フェーズで、その命令が実行される。命
令レジスタ（ＩＲＥＧ）または（ＩＲ）は実行される実
際の命令を含むレジスタであり、命令キャッシュはオン
チップ静的ＲＡＭ（ＳＣＲＡＭ）であって、プロセッサ
の１つで実行されるカレント命令を含む。

【０００９】

【発明が解決しようとする課題】従って、ＮＯＰ命令の
数を減らしてコード・サイズを減らしたりまたは最小化
するための方法並びに装置および、プロセッサ上のむき
出しのパイプラインで使用するために開発されるコード
の総および平均コード・サイズを削減するための方法に
対する必要性が高まってきている。ＮＯＰを別の命令と
して挿入するとコード・サイズを増加させるため、ＮＯ
Ｐを実行命令のフィールドとして含むことにより、コー
ド・サイズは削減されるはずである。

【００１０】更に、その様な素子で要求されるメモリを
削減することでプロセッサのコストを低減する必要性も
高まっている。コード・サイズを削減することは、シス
テム内で必要とされる物理的メモリの量を少なくしたり
または最小とすることにより全体のシステム・コストを
低減させる。コード・サイズを削減することはまた、更
に多くのコードをオンチップ・メモリ、すなわちチップ
または素子の内部メモリでその資源は限られている、の
中に実装させることが出来るので、システム性能を改善
するはずである。

【００１１】更に、既存のプロセッサの性能及び容量
を、カレント演算を実行するために必要なメモリを削減
することで増大させる必要性も高まっている。これもま
たプログラム・キャッシュを有するシステム内の性能を
改善するはずである。

【００１２】加えて、既存および新たな素子において信
号処理演算を実行するために要求される総電力を削減す
るための方法に対する必要性も高まっている。コード・
サイズを削減することはまた、チップで使用される電力
量を削減するが、それはフェッチされる命令の個数も削
減されるはずだからである。

【００１３】

【課題を解決するための手段】１つの実施例において、
本発明はまたむき出しの（exposed）パイプラインを例
えばプロセッサ内に有する装置の総コード・サイズを削
減するための方法でもある。この方法は下記のステップ
で構成されている、すなわち命令定義、例えばロード命
令の間の待ち時間を決定し、命令を使用し、疑似ＮＯＰ
フィールドを命令定義または命令使用の中または中間命
令の中に挿入する。例えば、待ち時間はコードを検索し
てその中でその命令の全ての結果が完了する期間（サイ
クルまたは遅延スロットで計測される）、例えばプログ
ラム命令を非シーケンシャル・プログラム・メモリ・ア
ドレスへ切り換えることを含む分岐ステップ、を識別し
て決定される。定義命令の中に挿入されると、この疑似
ＮＯＰフィールドは定義命令に続く以下の待ち時間を定
める。使用命令の中に挿入されると、ＮＯＰフィールド
はその使用命令に先行する待ち時間を定める。定義また
は使用命令はそのＮＯＰフィールドを受け入れるための
十分なスペースを持たないであろうから、ＮＯＰフィー
ルドを中間命令の中に置くことが便利であるかまたは望
ましい。一般的に、定義命令はいくつかの変数の値を
「定義」し、一方使用命令は定義された変数を、例えば
いくつかの数学的または論理的演算の中で採用する。更
に、中間命令の中に挿入されると、ＮＯＰフィールドは
遅延がその中間命令の前または後で生じることを示す。

【００１４】別の実施例では、本発明は例えばプロセッ
サ内での分岐中の総コード・サイズを削減するための方
法である。この方法は下記のステップを含む、すなわち
命令ストリーム内の新たな（非連続）点への分岐、例え
ば命令ストリーム内の第１点から第２点への分岐を開始
するための分岐命令後の待ち時間を決定し、疑似ＮＯＰ
フィールドをその分岐命令の中に挿入する。

【００１５】更に別の実施例では、本発明は削減された
総コード・サイズを有する装置である。この装置は少な
くとも１つの定義命令とそれに続く少なくとも１つの使
用命令を含む１つのプロセッサを有し、ここで少なくと
も１つの定義命令、例えばロード命令と少なくとも１つ
の使用命令との間に待ち時間が存在する。少なくとも１
つの定義または少なくとも１つの使用命令または中間命
令は疑似ＮＯＰフィールドを含む。先に説明したよう
に、定義命令の中に挿入されると、ＮＯＰフィールドは
定義命令に続く後続の待ち時間を定める。使用命令の中
に挿入されると、ＮＯＰフィールドは使用命令に先行す
る待ち時間を定める。更に、中間命令の中に挿入される
と、ＮＯＰフィールドはその遅延が中間命令の前または
後に生じることを示す。

【００１６】更に別の実施例において、本発明は分岐中
に総コード・サイズを削減するための装置である。この
装置は命令ストリーム内の新たな（非連続）点への分
岐、例えば命令ストリーム内の第１点から第２点への分
岐を行うための、少なくとも１つの分岐命令を含むプロ
セッサを含む。第１点から第２点への移動の中に待ち時
間が存在する、すなわち分岐命令に続く待ち時間であ
る。少なくとも１つの分岐命令はその待ち時間に相当す
る疑似ＮＯＰフィールドを含む。

【００１７】更に別の実施例において、本発明は以下の
ステップを含む方法であり、ＮＯＰ（シリアルまたは多
重サイクルＮＯＰのいずれか）が続く少なくとも１つの
遅延効果命令、例えばロードまたは分岐命令を１つのコ
ードの中に配置し；そのコードからＮＯＰを削除し；そ
してＮＯＰフィールドを遅延命令の中に、少なくとも１
つの遅延効果命令として挿入する。これに代わって、Ｎ
ＯＰをＮＯＰフィールドを中間命令、またはそのコード
内の別の適当な位置の命令の中に挿入する事で置き換え
ることも可能である。加えて、遅延効果命令が一度配置
されると、そのコードはＮＯＰをＮＯＰフィールドで置
き換えることを容易にするために、並べ替えられる。

【００１８】更に別の実施例において、本発明は少なく
とも１つの遅延効果命令を含むプロセッサを含む装置で
ある。少なくとも１つの遅延効果命令の少なくとも１つ
は疑似ＮＯＰフィールドを含み、これによりＮＯＰを置
き換えている。

【００１９】その他の目的、特徴並びに効果は当業者に
は以下の詳細な説明から明らかであろう。

【００２０】本発明は添付図を参照して更に容易に理解
されるであろう。

【００２１】

【好適な実施例の詳細な説明】本発明を組み込み使用す
るのに適したデータ処理装置が、米国特許明細書シリア
ル番号第（代理人整理番号第ＴＩ−３０
３０２）、２０００年２月１８日登録、名称「改善され
た命令アーキテクチャを具備したマイクロプロセッサ」
に記載されており、これは此処に挙げることで引用され
ている。本発明の１つの実施例には、６４個の汎用レジ
スタが存在する。汎用レジスタＡ０，Ａ１，Ａ２，Ｂ
０，Ｂ１およびＢ２は各々制限付きレジスタとして使用
される。更に各々の各．Ｄユニットは倍ワード（６４ビ
ット）のロードおよびストアを行う。この．Ｄユニット
は任意のバイト境界でワードおよび倍ワードにアクセス
する。この．Ｄユニットはデータ並びにアドレス交叉パ
スをサポートする。同じレジスタが実行パケット内の複
数の機能ユニットに対するデータ・パス交叉オペランド
として使用される。１つの命令が交叉パスを介して先の
サイクルで更新されたレジスタの読み込みを試みる際に
遅延クロック・サイクルが導入される。各サイクル毎に
２つのロング・ソースと２つのロング結果までが各デー
タ・パス上でアクセスされるであろう。

【００２２】各．Ｍユニットは各サイクル毎に２つの１
６ｘ１６ビット掛け算および４つの８ｘ８ビット掛け算
を実行する。特別通信特定命令、例えばＳＨＦＬ，ＤＥ
ＡＬ，およびＧＭＰＹ４が．Ｍユニットに関連づけられ
ていて、誤り訂正符号の中の共通演算のアドレス指定を
する。ビット計数、ビット反転、および．Ｍユニット上
の回転ハードウェアはビット・レベルでのアルゴリズ
ム、例えばバイナリ形態学、画像距離計算および暗号ア
ルゴリズムまでサポートを拡張する。

【００２３】命令セット・アーキテクチャの増強直交性
が具備されると、．Ｍユニットは．Ｓユニットのシフト
能力に加えて、双方向変数シフトを実行する。この様な
双方向シフトは音声圧縮コーデック（vocoder）を直接
支援する。

【００２４】（マイクロプロセッサ）図１はマイクロプ
ロセッサ１のブロック図であり、これは本発明の実施例
を有する。マイクロプロセッサ１はＶＬＩＷディジタル
信号処理装置（「ＤＳＰ」）である。明瞭にしたいがた
めに、図１は本発明の実施例の理解に関係するマイクロ
プロセッサ１の部分のみを示す。ＤＳＰの一般的構成の
詳細は良く知られており、別のところで容易に探すこと
が出来るであろう。例えば、米国特許第５，０７２，４
１８号、フレデリック・ボタウ（Frederick Boutaud）
その他に付与、はＤＳＰを詳細に記述しており、これは
此処に挙げることで引用されている。米国特許第５，３
２９，４７１号、グレイ・スボボダ（Grey Swoboda）そ
の他に付与、はＤＳＰのテストおよびエミュレート方法
を詳細に記述しており、これは此処に挙げることで引用
されている。本発明の１つの実施例に関連するマイクロ
プロセッサ１の部分の詳細は以下に十分詳細に説明され
ていて、マイクロプロセッサ技術に関して通常の技術を
有する者が本発明を使用できるように意図している。

【００２５】マイクロプロセッサ１の中には中央処理ユ
ニット（ＣＰＵ）１０、データ・メモリ２２、プログラ
ム・メモリ２３、周辺装置６０および直接メモリ接続
（ＤＭＡ）を具備した外部メモリ・インタフェース（Ｅ
ＭＩＦ）６１が示されている。ＣＰＵ１０は更に命令フ
ェッチ／復号ユニット１０ａ−ｃ、算術およびロード／
ストアユニットＤ１，掛け算器Ｍ１，ＡＬＵ／シフト・
ユニットＳ１、算術論理ユニット（「ＡＬＵ」）Ｌ１，
および此処からデータが読みとられそこに対してデータ
が書き込まれる共有多重ポート・レジスタ・ファイル２
０ａを含む、複数の実行ユニットを有する。復号された
命令は命令フェッチ／復号ユニット１０ａ−ｃから機能
ユニットＤ１，Ｍ１，Ｓ１およびＬ１に、図示されてい
ないが種々の制御ラインの組を介して提供される。デー
タはレジスタ・ファイル２０ａとロード／ストアユニッ
トＤ１とは第１組のバス３２ａを介して、掛け算器Ｍ１
とは第２組のバス３４ａを介して、ＡＬＵ／シフト・ユ
ニットＳ１とは第３組のバス３６ａを介して、そしてＡ
ＬＵＬ１とは第４組のバス３８ａを介して相互に提供
される。データはメモリ２２とロード／ストアユニット
Ｄ１の間で第５組のバス４０ａを介して相互に提供され
る。先に説明した全データ・パスはレジスタ・ファイル
２０ｂおよび実行ユニットＤ２，Ｍ２，Ｓ２およびＬ２
で二重化されていることに注意されたい。命令はフェッ
チ・ユニット１０ａにより命令メモリ２３から１組のバ
ス４１を介してフェッチされる。エミュレーション回路
５０は集積回路１の内部演算へのアクセスを提供し、こ
れは外部のテスト／開発システム（ＸＤＳ）５１で制御
される。

【００２６】外部テスト・システム５１は集積回路のデ
バッグおよびエミュレーションを行うための種々の既知
テスト・システムを表している。その様なシステムの１
つは米国特許第５，５３５，３３１号に記載されてお
り、これは此処に挙げることで引用されている。テスト
回路５２は、集積回路１をテストするための制御レジス
タおよび並列特徴抽出分析回路（parallel signature a
nalysis）を含む。

【００２７】メモリ２２およびメモリ２３は図１に、全
体としてボックス４２で表されているマイクロプロセッ
サ１集積回路の一部として示されていることに注意され
たい。これらのメモリ２２−２３は同様にマイクロプロ
セッサ１集積回路４２の外部に置いたり、または一部を
集積回路４２上に配置し、またその一部を集積回路４２
の外部に置くことも可能である。

【００２８】マイクロプロセッサ１がデータ処理システ
ムに組み込まれる際に、追加メモリまたは周辺装置が図
１に示すようにマイクロプロセッサ１に接続される。例
えば、ランダムアクセス・メモリ（ＲＡＭ）７０、読み
取り専用メモリ（ＲＯＭ）７１およびディスク７２が外
部バス７３を介して接続されるように示されている。バ
ス７３は外部メモリ・インタフェース（ＥＭＩＦ）に接
続されており、これはマイクロプロセッサ（集積回路）
４２内部の機能ブロック６１の一部である。直接メモリ
・アクセス（ＤＭＡ）制御装置もまたブロック６１の中
に含まれている。ＤＭＡ制御装置は一般的にデータをメ
モリとマイクロプロセッサ１内部の周辺装置との間、お
よびメモリとマイクロプロセッサ１の外部の周辺装置と
の間で移動させるために使用される。

【００２９】（レジスタ・ファイル交叉パス）各々の機
能ユニットはそれ自身のデータ・パス内のレジスタ・フ
ァイルから直接読みとりおよび直接書き込みを行う。す
なわち、．Ｌ１，．Ｓ１，．Ｄ１および．Ｍ１ユニット
はレジスタ・ファイルＡに書き込み、．Ｌ２，．Ｓ
２，．Ｄ２および．Ｍ２ユニットはレジスタ・ファイル
Ｂに書き込む。これらのレジスタ・ファイルは反対側レ
ジスタ・ファイルの機能ユニットに１Ｘおよび２Ｘ交叉
パス経由で接続されている。これらの交叉パスは機能ユ
ニットが１つのデータ・パスから３２ビット・オペラン
ドへ反対側のレジスタ・ファイルからアクセス出来るよ
うにしている。１Ｘ交叉パスはデータ・パスＡの機能ユ
ニットがそれらのソースをレジスタ・ファイルＢから読
みとれるようにしている。同様に２Ｘ交叉パスはデータ
・パスＢの機能ユニットがそれらのソースをレジスタ・
ファイルＡから読みとれるようにしている。

【００３０】８つの機能ユニットは全て、交叉パスを介
して反対側レジスタ・ファイルへのアクセスを有す
る。．Ｍ１，．Ｍ２，．Ｓ１，．Ｓ２，．Ｄ１および．
Ｄ２ユニットのｓｒｃ２入力は交叉パスと同一側レジス
タ・ファイルの間で選択可能である。．Ｌ１および．Ｌ
２の場合、ｓｒｃ１とｓｒｃ２入力は共に交叉パスと同
一側レジスタ・ファイルとの間で選択可能である。

【００３１】このアーキテクチャの実施例の中には２つ
の交叉パス、１Ｘおよび２Ｘのみが存在する。従って、
各データ・パスの反対側レジスタ・ファイルからサイク
ル毎に１つのソース読み取りか、またはサイクル毎に全
部で２つの交叉パスソース読み取りに制限される。好適
に、１つの側の複数のユニットは同一交叉パス・ソース
を同時に読みとることができる。従って、１つの側の交
叉パス・オペランドは任意の１つ、実行パケット内の複
数またはその側の全ての機能ユニットで使用される。テ
キサス州ダラスのテキサスインスツルメンツ社製のC62x
/C67xは、データ・パス毎、実行パケット毎に１つの機
能ユニットのみが、反対側レジスタ・ファイルからオペ
ランドを獲得する。

【００３２】遅延クロック・サイクルが、先行サイクル
で更新されたレジスタの読み取りを交叉パス経由で試み
る際には常に導入される。これは交叉パス・ストール
（stall）として知られている。このストールはハード
ウェアにより自動的に挿入される；ＮＯＰ命令は不要で
ある。しかしながら、読みとられるレジスタがＬＤｘ命
令でロードされたデータの宛先である場合は、ストール
は導入されない。

【００３３】（メモリ、ロードおよびストア・パス）プ
ロセッサ１０は倍ワード・ロードおよびストアをサポー
トする。メモリ用のデータをレジスタ・ファイルにロー
ドするために４本の３２ビット・パスが存在する。Ａ側
では、ＬＤ１ａが３２ＬＳＢへのロード・パスである；
ＬＤ１ｂが３２ＭＳＢへのロード・パスである。Ｂ側で
は、ＬＤ２ａが３２ＬＳＢへのロード・パスである；Ｌ
Ｄ２ｂが３２ＭＳＢへのロード・パスである。各々のレ
ジスタ・ファイルからメモリへレジスタ値をストアする
ために４本の３２ビット・パスが存在する。ＳＴ１ａは
Ａ側の３２ＬＳＢへの書き込みパスであり；ＳＴ１ｂが
Ａ側の３２ＭＳＢへの書き込みパスである。Ｂ側では、
ＳＴ２ａが３２ＬＳＢへの書き込みパスであり；ＳＴ２
ｂが３２ＭＳＢへの書き込みパスである。

【００３４】ロングおよび倍ワード・オペランド用ポー
トのいくつかは機能ユニットの間で共有される。これは
ロングまたは倍ワード演算が同一実行パケット内のデー
タ・パス上にスケジュールされなければならないという
制約をもたらす。

【００３５】図２はＡユニット・グループ７８の最上位
ブロック図であり、これはＤＳＰコア部４４の算術およ
び論理演算の一部をサポートする。Ａユニット・グルー
プ７８はＡ加算ユニット１２８、Ａゼロ検出ユニット１
３０、Ａビット検出ユニット１３２、ＡＲ／Ｚ論理ユ
ニット１３４、Ａパック／反復ユニット１３６、Ａシャ
ッフル・ユニット１３８、Ａ汎用論理ブロック・ユニッ
ト１４０、およびＡ割り算／シード・ユニット１４２を
含む多数の機能ユニットで要求される種々の演算型式を
取り扱う。機能副ユニットの分割はＡユニット・グルー
プ７８の機能要求に基づき、低電力を実現しつつ最大性
能を目指して行われる。入力オペランドに対して２つの
入力マルチプレクサ１４４および１４６が存在し、共に
オペランドが５つのソースの１つから転送されるように
している。両方のマルチプレクサはＡ，ＣとＳ結果バス
からの３本のホット・パス・ソース、並びに一次データ
・パス内のレジスタ・ファイル７６からの直接入力を有
する。加えて、ｓｒｃ１マルチプレクサ１４４は復号ユ
ニット６２から定数データを通過させ、一方ｓｒｃ２マ
ルチプレクサ１４６は反対側データ・パスからのオペラ
ンド用のパスを提供する。結果マルチプレクサ１４８は
４つのレベルに分割される。クロック・サイクル内で早
く完了する単純演算は、クリティカル最終出力マルチプ
レクサへのローディングを削減するために事前マルチプ
レクスされる。Ａユニット・グループ７８はまた制御レ
ジスタ演算１４３を処理する責任を有する。ハードウェ
アは不要であるが、これらの演算はデータを回送するた
めにＡユニット・グループ７８の読み取りおよび書き込
みポートを借用する。ｓｒｃ２読み取りポートがデータ
をレジスタ・ファイル７６から有効構成レジスタに回送
するために使用される。同様に、書き込みポートは構成
レジスタ・データをレジスタ・ファイル７６に回送する
ために借用される。

【００３６】図３はＳユニット・グループ８２の最上位
ブロック図であり、これはシフト、回送、およびブール
演算を最適化するものであって、もちろん加算および減
算演算の制限された組に対してはハードウェアが利用可
能である。Ｓユニット・グループ８２はほとんどのハー
ドウェアにおいて独自のものであり、直接プログラマに
より制御される。Ｓユニット・グループ８２はＡおよび
Ｃユニット・グループよりも更に２つの読み取りポート
を有し、従って、入力マルチプレクサ１４４，１４６，
１６１および１６３を通して選択された最大４つのソー
ス・レジスタ上での演算命令を可能とする。ＡおよびＣ
ユニット・グループと同様、一次実行機能は設計の実行
サイクル内で実施される。Ｓユニット・グループ８２は
２つの主要機能ユニットを有する；３２ビット加算ユニ
ット１５６、および回転／ブール代数ユニット１６５で
ある。回転／ブール代数ユニット１６５はＳ回転器ユニ
ット１５８、Ｓマスク生成ユニット１６０、Ｓビット複
写ユニット１６７、Ｓアンパック（unpack）／符号拡張
ユニット１６９、およびＳ論理ユニット１６２を含む。
Ｓ回転器ユニット１５８、Ｓマスク生成ユニット１６
０、Ｓビット複写ユニット１６７、およびＳアンパック
／符号拡張ユニット１６９からの出力はＳ論理ユニット
１６２に送られる。回転／ブール代数ユニット１６５を
構成する種々の機能ユニットを組み合わせて使用し、非
常に複雑なブール演算を処理することの可能なＳユニッ
ト・グループ８２を形成する。最後に、結果マルチプレ
クサ１４８は２つ主要機能ユニット、Ｓ加算ユニット１
５６と回転／ブール代数ユニット１６５からの１つの出
力を選択して、レジスタ・ファイル７６へ送る。

【００３７】データ・フロー強化には、種々のシフト演
算を含む命令セット効率増加が含まれる。ＢＮＯＰ命令
は、分岐の遅延スロットを満たすためにＮＯＰが必要と
される際に、分岐命令を実行する際に必要な命令数を削
減する助けとなる。パイプラインの不連続性は種々の原
因で起こり得て、例えばメモリ・ストール、ＳＴＰ命
令、および多重サイクルＮＯＰ等がある。ＮＯＰ計数命
令はＮＯＰ用の計数サイクルを提供する。計数値が２以
上の場合、ＮＯＰは多重サイクルＮＯＰである。ＮＯＰ
２は、例えばその中にそれが含まれている実行パケット
内の命令に対する追加遅延スロット、および全ての先行
の実行パケットに対する追加遅延スロットを充たす。従
って、ＮＯＰ２がＭＰＹ命令と並列の場合、ＭＰＹの結
果は次の実行パケット内の命令で使用することが可能と
なる。多重サイクルＮＯＰがＮＯＰをパイプラインの中
に送り出している間に、分岐の遅延スロットが完了する
場合、分岐は多重サイクルＮＯＰをオーバーライドし、
分岐目標は５遅延スロットの後に実行を開始する。本発
明の更に別の実施例では、実行パケット境界に制約は無
く、従って不必要なＮＯＰ命令を追加してフェッチ・パ
ケットを膨らませる必要が取り除かれる。

【００３８】本発明に基づく総コード・サイズを削減す
るための方法は、例えばロード命令（ＬＤ）の様な定義
命令と、算術命令（例えばＡＤＤ）の様な使用命令との
間の待ち時間を決定するステップを含み、パイプライン
化された演算を実行する。少なくとも１つの中間命令が
定義命令と使用命令との間で識別される。以下の例１ｃ
参照。ＮＯＰフィールドが少なくとも１つの定義および
使用命令の中に挿入される。例えば、命令の順序はＮＯ
Ｐの配置によって異なるはずである：第１順序第２順序 inst.1 inst.1 nop.4 inst.2 inst.2 nop.4 inst.3 inst.3 ＮＯＰフィールドは命令の任意の点に挿入出来るが、例
えばLD*a0,a5,4の様な命令の終わりに挿入するのが簡便
である。この例で「４」がＮＯＰフィールドである。

【００３９】本発明の方法並びに装置はロードまたは分
岐命令と共に使用されているが、分岐命令は追加ＮＯＰ
フィールドを受け取る更なる余地を有する傾向にある。
従って、分岐中に総コード・サイズを削減するための方
法において、この方法は第１パイプライン演算と第２パ
イプライン演算との間のシフト中の待ち時間を決定する
ためのステップを含むはずである。この待ち時間は分岐
命令と第１および第２パイプライン演算を識別すること
によって決定される。更に、この方法は分岐命令の終わ
りにＮＯＰフィールド、例えばＢラベル、５を加えるこ
とで完結する。１つのコード中の待ち時間を決定する際
に、そのコードは手動でまたは自動的にコードのセクシ
ョンを、例えば待ち時間または遅延を必要とする分岐演
算として決めるために検索されるであろう。これに代わ
って、特定プログラムが走ってそのプログラムの中に待
ち時間が有るか否かが決定される場合もある。

【００４０】本発明の結果として総コード・サイズの削
減を実現するための装置は、ディジタル信号処理装置
（ＤＳＰ）、例えばテキサス州、ダラスのテキサスイン
スツルメンツ社製のc6xシリーズＤＳＰを含む。このＤ
ＳＰは、与えられたパイプライン演算を実行するため
に、少なくとも１つの定義命令および待ち時間で分離さ
れている少なくとも１つの使用命令で符号化されてい
る。先に示されているように、ＮＯＰフィールドは少な
くとも１つの中間命令の終わりに添付されている。

【００４１】最後に、分岐中に総コード・サイズを削減
するための装置はまた、第１パイプライン演算と第２パ
イプライン演算の間でシフトするための少なくとも１つ
の分岐命令を含むプロセッサを含む。分岐命令と第１お
よび第２パイプライン演算は、分岐命令と分岐発生との
間の第１パイプライン演算を終了させるために必要な待
ち時間を決定する。この装置において、ＮＯＰフィール
ドは分岐命令の終わりに添付される。此処で説明されて
いる装置において、演算および命令はソフトウェア、ハ
ードウェア構造またはそれらの組み合わせで実行され
る。

【００４２】本発明は更に下記の例を参照することによ
り更に明らかとなろう、これは本発明の使用を単に例示
することだけを意図している。下記の例で示されるよう
に、ＮＯＰ演算は命令の内部またはその上に、ＮＯＰが
待ち時間を必要とする命令と並行して発せられる演算と
なるように符号化される。先に提示した例を参照して、
下記の例は本発明に基づいて書き直されたコードを示
す：例１ｂ： LD*a0,a5,4 % 「４」（すなわち４サイクルまたは遅延スロット）はＮＯＰフィールドである。 ADDa5,6,a7 % a5 値が利用可能例２ｂ： B label,5 % 「５」（すなわち５サイクルまたは遅延スロット）はＮＯＰフィールドである。 ; % 分岐発生。これらの例から分かるように、ＮＯＰフィールドは０か
ら命令の最大待ち時間の範囲の命令オペランドである。
それにも係わらず、その他の範囲も適用可能であり、結
果として更に演算コード符号化空間を節約することにな
る。別の例が以下に例１ｂのＬＤ命令に対して提供され
ており、ここで最大待ち時間より小さな値が使用されて
いるが、それはその他の命令がその命令の遅延スロット
の中にスケジュールされるからである。例１ｃ： LD*a0,a5,3 % 「３」（すなわち３サイクルまたは遅延スロット）はＮＯＰフィールドである。 ADD a3,5,a3 % 新たな命令が第４遅延スロットの中に挿入される。 ADD a3,6,a7 % a5 値が利用可能。

【００４３】本発明の更に別の実施例において、待ち時
間がＮＯＰを具備した相対分岐、すなわちＢＮＯＰを実
行するための分岐命令の中に識別される。演算コードま
たは演算コードは、演算の個々の型式と中央処理ユニッ
ト（ＣＰＵ）へのオペランドの組み合わせを記述する機
械コードの第１バイトである。例えば、ＢＮＯＰの演算
コードは、開始ソース（ｓｒｃ２）終了ソース（ｓｒｃ
１）の識別子を具備したＢＮＯＰ（．ｕｎｉｔ）コード
の組み合わせで、例えば、.unit,.S1,.S2 として形成さ
れるはずである。このフォーマットの中で、ｓｒｃ２演
算コードマップ・フィールドはｓｃｓｔ１２オペランド
型ユニットとして使用され、ｓｒｃ２で指定される１２
ビット符号付き定数を用いたＮＯＰを具備した相対分岐
を実行する。この定数は２ビット左にシフトされ、続い
てＢＮＯＰ命令を含むフェッチ・パケットの第１命令の
アドレスに加えられる。図４ａを参照すると、３２ビッ
ト演算コードの例が図示されており、１２ビット符号付
き定数フィールドscst12であるｓｒｃ２と３ビット符号
無し定数フィールドusct3であるｓｒｃ１とに関連する
ＢＮＯＰ命令の組み込みを示している。

【００４４】結果はプログラム・フェッチ計数器（ＰＦ
Ｃ）の中に置かれる。フェッチとはその間に次の命令が
メモリからリトリーブされるコンピュータ・サイクルの
部分である。フェッチ・パケットは最大８命令までを含
むプログラム・データのブロックである。

【００４５】ｓｒｃ１と示されている３ビット符号無し
定数は、挿入されるべき遅延スロット疑似ＮＯＰの数、
例えばゼロ（０）から（５）を提供する。従って、例え
ばｓｒｃ１＝０では遅延スロットＮＯＰは挿入されな
い。結果として、この命令は分岐の遅延スロットを充た
すためにＮＯＰが必要とされる場合に、分岐演算を実行
するために必要な命令数を削減する。

【００４６】下記はＢＮＯＰを実行するために必要な命
令数のその様な削減例である。予め、この機能を実行す
るためのコードは下記の通りである：

【００４７】本発明によれば、この命令は次のように置
き換えられる：此処でＮは挿入されるべき遅延スロットＮＯＰＳの数で
ある。更に、ＢＮＯＰ命令は記述されるとしても、記述
条件は分岐が行われるか否かを制御するが、ＮＯＰの挿
入は制御しない。その結果、ＢＮＯＰ命令を実現する際
には、Ｎで指定されたＮＯＰ数が記述条件に関係なく挿
入される。

【００４８】サイクル毎には唯１つの分岐命令のみが実
行される。２つの分岐条件制御が同一実行パケットの中
に有る場合は、すなわち１つの命令ブロックかせ並列に
実行される場合で、両方とも受容される場合、プログラ
ムの振る舞いは未定義である。更に、記述されたＢＮＯ
Ｐ命令が５よりも大きなＮＯＰ計数値と共に使用される
場合、テキサス州、ダラスのテキサスインスツルメンツ
社製C64Xプロセッサは、記述条件が偽の時のみ、必要と
される遅延スロットの総数を挿入するはずである。例え
ば、下記の命令セットは７サイクルのＮＯＰをＢＮＯＰ
命令の中に挿入する：従って、分岐は行われず、７サイクルの疑似ＮＯＰが挿
入される。逆に、記述されたＢＮＯＰ命令が５より大き
なＮＯＰ計数値と共に使用され、記述された条件が真の
場合、分岐が実行され多重サイクルＮＯＰは同時に終了
するはずである。例えば、下記の命令セットは唯５サイ
クルの疑似ＮＯＰのみをＢＮＯＰ命令の中に挿入する：従って分岐が行われ、５サイクルのＮＯＰが効果的に挿
入される。

【００４９】これは次のように実行される：次に図４ｂを参照すると、この分岐命令を実行するため
のパイプライン形式が図示されている。特に、この図は
読み取り（ｓｒｃ２）と書き込み（ＰＣ）ステップおよ
び対象命令の間の関係を図示しており、ここで分岐はＰ
ＣＥ１で行われる。

【００５０】１例として、命令：BNOP .S1 30h,
2; は対象命令ＰＣＥ内の或る情報を呼び出して、分岐
が行われた後にＰＣに移動させる。従って、下記は遅延
移動の前後でのレジスタ状態を示す。命令前分岐実施後 PCE1 0100 0500h PCE1 [ ] PC[ ] PC 0100 0500h

【００５１】本発明の更に別の実施例において、演算コ
ードまたは演算コードは演算の特定の型および中央処理
ユニット（ＣＰＵ）へのオペランドの組み合わせを記述
する機械コードの第１バイトである。例えば、ＢＮＯＰ
命令用の演算コードは再び、開始ソース（ｓｒｃ２）終
了ソース（ｓｒｃ１）の識別子を具備したＢＮＯＰ（．
ｕｎｉｔ）コードの組み合わせで、例えば、.unit,.S
1,.S2 として形成されるはずである。このフォーマット
の中で、ｓｒｃ２演算コードマップ・フィールドはＮ
ＯＰを具備した絶対分岐を実行するためのｘｕｎｉｔオ
ペランド型ユニットとして使用される。ｓｒｃ２の中で
特定されるレジスタが先に説明したようにプログラム・
フェッチ計数器（ＰＥＣ）の中に配置される。ｓｒｃ１
の中で特定されている３ビット符号無し定数は、挿入さ
れるべき遅延スロットＮＯＰの数、例えばゼロ（０）か
ら（５）を提供する。従って、例えばｓｒｃ１＝０では
遅延スロットＮＯＰは挿入されない。結果として、この
命令もまた分岐の遅延スロットを充たすためにＮＯＰが
必要とされる場合に、分岐演算を実行するために必要な
命令の数を削減する。図５ａを参照すると、３２ビット
演算コードの例が図示されており、絶対分岐アドレスを
提供するためのレジスタを選択するｓｒｃ２と３ビット
符号無し定数フィールドusct3であるｓｒｃ１に関連す
るＢＮＯＰの結合を示している。

【００５２】下記はＢＮＯＰを実行するために必要な命
令数のその様な削減の例である。予め、この機能を実行
するためのコードは下記の通りである： B .S2 B3 NOP N

【００５３】本発明に基づけば、この命令は次のように
置き換えられる： B .S2 B3,N ここでＮは挿入されるべき遅延スロット疑似ＮＯＰＳの
数である。更に、このＢＮＯＰ命令は.S2機能ユニット
の上にのみ実行されるが、ｓｒｃ２は必要に応じて交叉
パスを使用してレジスタ・ファイルから読みとることも
出来る。

【００５４】ＢＮＯＰ命令は再び記述される。記述条件
は分岐が行われるか否かの制御は行うが、この条件はＮ
ＯＰの挿入には影響を与えない。ＢＮＯＰは常に、記述
条件に無関係にＮで指定された疑似ＮＯＰの個数を挿入
する。

【００５５】先に説明したように、１つのサイクルでは
唯１つの分岐命令のみが実行出来る。２つの分岐条件制
御が同一実行パケット内に存在し、共に受容された場
合、プログラムの挙動は未定義である。更に、記述され
たＢＮＯＰ命令が５より大きなＮＯＰ計数値と共に使用
された場合は、テキサス州、ダラスのテキサスインスツ
ルメンツ社製C64Xプロセッサは、記述条件が偽の時のみ
必要な遅延スロットの総数を挿入するはずである。例え
ば、下記の命令セットは７サイクルのＮＯＰをＢＮＯＰ
命令の中に挿入する：従って、分岐は行われず７サイクルのＮＯＰが挿入され
る。逆に、記述されたＢＮＯＰ命令が５より大きなＮＯ
Ｐ計数値と共に使用され、記述条件が真の場合、分岐は
行われ多重サイクルＮＯＰは同時に終了される。例え
ば、下記の命令セットは５サイクルのみのＮＯＰをＢＮ
ＯＰ命令の中に挿入する：従って、分岐は行われ５サイクルのＮＯＰが効果的に挿
入される。

【００５６】これは下記のように実行される：図５ｂを参照すると、この分岐命令を実施するためのパ
イプライン・フォーマットが図示されている。特に、こ
の図は読み取り（ｓｒｃ２）と書き込み（ＰＣ）ステッ
プおよび対象命令との間の関係を図示しており、分岐は
ＰＣＥ１で行われる。

【００５７】１例として、命令：BNOP .S2 A5,
2；は分岐が行われた後にＰＣに移動される、対象
命令ＰＣＥ内の或る情報を呼び出す。従って、下記は遅
延移動前後のレジスタ状態を示す。命令前分岐実施後 PCE1 0010 0c00h PCE1 [ ] PC [ ] PC 0100 f000h A5 0100 f000h A5 0100 f000h

【００５８】従って、むき出しのパイプラインを有する
プロセッサ内の総コード・サイズを削減するための方法
は、ロード命令と使用命令との間の待ち時間を決定し、
ＮＯＰフィールドを定義または使用命令の中に挿入する
ステップを含む。ロード命令の中に挿入されると、ＮＯ
Ｐフィールドはロード命令に続く待ち時間を定める。使
用命令の中に挿入されると、ＮＯＰフィールドは使用命
令に先行する待ち時間を定める。加えて、分岐中の総コ
ード・サイズを削減するための方法は、命令ストリーム
内の第１点から第２点へ分岐を開始するための分岐命令
に続く待ち時間を決定するステップと、ＮＯＰフィール
ドを分岐命令の中に挿入するステップとを含む。更に、
本発明に基づく方法はＮＯＰが後に続く遅延効果命令
を、ロードまたは分岐命令が１つのコードの中に入るよ
うに配置するステップと；そのコードからＮＯＰを除去
するステップと；ＮＯＰフィールドを遅延された効果命
令の中に挿入するステップとを含む。本発明に基づく装
置は遅延効果命令を有するプロセッサを含み、此処で遅
延効果命令は疑似ＮＯＰ命令で充たされるべき遅延スロ
ットの数（Ｎ）を特定するＮＯＰフィールドを含む。

【００５９】本発明を好適な実施例を参照して説明して
きたが、先の説明並びに例は本発明の単なる例を意図し
たものである。本発明の真の範囲並びに精神は先の説明
並びに例で制限されることを意図したものでは無く、添
付の特許請求の範囲で規定されることを意図している。
請求された発明の構成要素に対する変更および修正は、
この明細書の検討または此処に開示されている発明を実
施することにより、当業者にとって明らかであろう。

【００６０】以上の説明に関して更に以下の項を開示す
る。（１）演算コードフィールドと疑似ＮＯＰフィールドと
を含む遅延効果命令を有するマイクロプロセッサ動作方
法であって：第１演算コードフィールドと第１疑似ＮＯ
Ｐフィールドとを有する第１遅延効果命令をフェッチ
し；第１遅延効果命令を実行し；第２命令をフェッチ
し；第２命令を実行し、該第１遅延効果命令を実行する
ステップが：第１演算コードフィールドに応答して１つ
の演算を実行し；第２命令を実行する前に、第１疑似Ｎ
ＯＰフィールド内の値に相当する選択された遅延スロッ
トの数だけスキップするステップを含む、前記方法。

【００６１】（２）第１項記載の方法において、スキッ
プするステップが第１疑似ＮＯＰ内の値に等しいＮＯＰ
命令の数がフェッチされ実行されたかのように、マイク
ロプロセッサを運転管理することを含む、前記方法。

【００６２】（３）先行するいずれかの項に記載の方法
において、第１演算コードフィールドが分岐演算を指定
する、前記方法。

【００６３】（４）第３項記載の方法において、実行す
るステップが第３命令を目標アドレスに従って、第２の
遅延スロット数が第３命令の実行が開始される前に生じ
るようにフェッチし、ここで第２の数は第１の数よりも
小さく、スキップするステップが第２の数の遅延スロッ
トだけスキップする、前記方法。

【００６４】（５）先行するいずれかの項に記載の方法
において、更に演算を実行するステップの前に、第１記
述値を第１演算コードフィールドに応答して決定するス
テップを含み；第１演算コードフィールドに応答して演
算を実行するステップは第１記述値によって記述される
が、スキップするステップは無条件である前記方法。

【００６５】（６）総コードサイズを削減するための方
法であって、コード内でＮＯＰが後に続く少なくとも１
つの遅延効果命令の配置を決め；前記ＮＯＰを前記コー
ドから削除し；ＮＯＰフィールドを遅延効果命令の中に
挿入する、以上のステップを含む前記方法。

【００６６】（７）第６項記載の方法において、前記遅
延効果命令がロード命令である前記方法。

【００６７】（８）第６項記載の方法において、前記遅
延効果命令が分岐命令である前記方法。

【００６８】（９）むき出しのパイプラインを有するプ
ロセッサ内の総コードサイズを削減するための方法であ
って、ロード命令と使用命令との間の待ち時間を決定す
るステップと、ＮＯＰフィールドを定義または使用命令
の中に挿入するステップを含む。ロード命令の中に挿入
する際には、ＮＯＰフィールドはそのロード命令に続く
待ち時間を定義する。使用命令の中に挿入する際には、
ＮＯＰフィールドはその使用命令に先行する待ち時間を
定義する。加えて、分岐中に総コードサイズを削減する
ための方法は、命令ストリーム内の第１点から第２点へ
分岐を開始するための分岐命令の後に続く待ち時間を決
定するステップと、ＮＯＰフィールドを分岐命令の中に
挿入するステップとを含む。更に、本発明に基づく方法
は後ろにＮＯＰが続く遅延効果命令、例えばロードまた
は分岐命令が１つのコードの中に配置するステップと；
そのコードからＮＯＰを削除するステップと；ＮＯＰフ
ィールドを遅延効果命令の中に挿入するステップとを含
む。本発明に基づく装置は、遅延効果命令を有するプロ
セッサを含み、ここで遅延効果命令が疑似ＮＯＰ命令で
充たされるべき遅延スロットの数（Ｎ）を特定するＮＯ
Ｐフィールドを含む。

【図面の簡単な説明】

【図１】図１はディジタル信号処理装置（ＤＳＰ）のブ
ロック図である。

【図２】図２はＤＳＰコア部の算術および論理演算をサ
ポートするＡユニット・グループの最上位レベルのブロ
ック図を示す。

【図３】図３はＤＳＰコア部の移動、回転、およびブー
ル演算をサポートするＳユニット・グループの最上位レ
ベルのブロック図を示す。

【図４】図４ａはＮＯＰ（ＢＮＯＰ）演算を具備した相
対分岐実行命令用の３２ビット演算コードの例を示す；
図４ｂは相対ＢＮＯＰ演算を実行するためのパイプライ
ン・フォーマットを示す。

【図５】図５ａは絶対ＢＮＯＰ演算実行命令用の３２ビ
ット演算コードの例を示す、図５ｂは絶対ＢＮＯＰ演算
を実行するためのパイプライン・フォーマットを示す。

【符号の説明】

１マイクロプロセッサ１０中央処理ユニット（ＣＰＵ）２０ａ，２０ｂ多重ポート・レジスタ・ファイル２２データ・メモリ２３プログラム・メモリ３２、３６，３８，４０バス４２集積回路５１外部テスト・システム５２テスト回路６１外部メモリ・インタフェース１２８Ａ加算ユニット１３０Ａゼロ検出ユニット１３２Ａビット検出ユニット１３４ＡＲ／Ｚ論理ユニット１３６Ａパック／反復ユニット１３８Ａシャッフル・ユニット１４０Ａ汎用論理ブロック・ユニット１４２Ａ割り算／シード・ユニット１４４，１４６入力マルチプレクサ１４８結果マルチプレクサ１５６３２ビット加算ユニット１５８Ｓ回転器ユニット１６０Ｓマスク生成ユニット１６１、１６３入力マルチプレクサ１６２Ｓ論理ユニット１６５回転／ブール代数ユニット１６７Ｓビット複写ユニット１６９Ｓアンパック／符号拡張ユニット

───────────────────────────────────────────────────── フロントページの続き (72)発明者アランエス、ワードアメリカ合衆国テキサス、シュガーランド、サイプレスランドライブ 2211

Claims

【特許請求の範囲】

【請求項１】演算コードフィールドと疑似ＮＯＰフィ
ールドとを含む遅延効果命令を有するマイクロプロセッ
サ動作方法であって：第１演算コードフィールドと第１
疑似ＮＯＰフィールドとを有する第１遅延効果命令をフ
ェッチし；第１遅延効果命令を実行し；第２命令をフェ
ッチし；第２命令を実行し、該第１遅延命令を実行する
ステップが：第１演算コードフィールドに応答して１つ
の演算を実行し；第２命令を実行する前に、第１疑似Ｎ
ＯＰフィールド内の値に相当する選択された遅延スロッ
トの数だけスキップするステップを含む、前記方法。