JPH10105402A

JPH10105402A - パイプライン方式のプロセッサ

Info

Publication number: JPH10105402A
Application number: JP9238917A
Authority: JP
Inventors: Christian Prof Dr Rer Siemers; ジーマースクリスチアン
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 1996-08-23
Filing date: 1997-08-20
Publication date: 1998-04-24
Also published as: KR100316078B1; KR19980018874A; EP0825540A1; US6061367A; DE19634031A1; DE59710022D1; EP0825540B1

Abstract

(57)【要約】【課題】マイクロコンピュータの処理速度を高め得る
ように処理の際のより高い並列性を達成する。【解決手段】特にコンフィギュレーション可能な論理
ユニット、命令メモリ１６、デコードユニット１８およ
びインタフェース手段１０、３６を有するスーパースカ
ラー‐アーキテクチュアを有するパイプライン方式のプ
ロセッサにおいて、論理ユニットとして作用するプログ
ラマブル‐構造‐バッファ３０と、整数／アドレス‐命
令‐バッファ３２と、データ記憶するインタフェース手
段３６と直接通信するための整数‐レジスタ‐ファイル
２４と、整数‐レジスタ‐ファイル２４の内容を“プロ
グラマブル‐構造を有する機能ユニット”３４と論理演
算するために構成され、多重制御され、マルチプレクサ
により接続される多数のデータ接続を有するｓ‐パラダ
イム‐ユニット（ｓ‐ユニット）３０、３４、３２、２
４とを含む。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、特に請求項１の前
文によるスーパースカラー‐アーキテクチュアを有する
パイプライン方式のプロセッサに関する。

【０００２】このようなマイクロアーキテクチュアはマ
イクロコンピュータにおける命令レベル上で最高度の並
列性を実現しなければならない。

【０００３】

【従来の技術】マイクロコンピュータにおける中央計算
ユニットは主として、以下では独立のプロセッサとし
て、たとえばマイクロプロセッサシステムの構成部分で
はないかまたはこのような従属性が命令並列性の意味で
何等の役割を演じないマイクロプロセッサとして理解す
べきであるプロセッサから成っている。

【０００４】これらのプロセッサは一般にフォン‐ノイ
マン‐モデルに従って構想されている。このモデルはハ
ーバード‐モデルにおけるコード‐およびデータメモリ
範囲の分離に対して止揚されるが（そこではこれらのメ
モリは分離され、また種々のアクセス経路により到達さ
れる）、フォン‐ノイマン‐モデルでもハーバード‐モ
デルでもそれらの多くの部分的修正および変形により命
令フローの厳密な処理および結果の逐次性が有効であ
る。コントロール‐フローによってではなくデータフロ
ーによって制御されて動作するデータフロー計算機はこ
のモデルの例外を形成する。

【０００５】命令の流れの逐次処理の維持のもとに、最
初はプロセッサ設計の簡単化のための命令セットの減少
のみの内容をもったいわゆるＲＩＳＣアーキテクチュア
の導入がプロセッサのシステムクロックあたり命令へ速
度を近づけることを可能にした。このことは固定配線さ
れたハードウェアによるプロセッサ内のマイクロプログ
ラムの置換により、また広範囲なパイプライン化措置に
より達成された。プロセッサ内部の見掛け上の並列性に
もかかわらずクロックあたり１つの命令を有する最大の
命令レートおよび処理および結果の逐次性が得られた。

【０００６】さらに、従来技術では、ダイナミックにコ
ンフィギュレーション可能なゲートアレイを説明する米
国特許第 5361373号明細書と、刊行物「コンカレンシー
・プラクティス・アンド・エクスペリエンス（ＣＯＮＣ
ＵＲＲＥＮＣＹ：ＰｒａｃｔｉｃｅａｎｄＥｘｐｅ
ｒｉｅｎｃｅ）」Ｖｏｌ．８（６）、４２９４４３（１
９９６年７月−８月）”中の論文「リコンフィギュレー
ション可能なアクセレレータを使用する高性能計算」と
が注目されている。後者には、その後にプログラムの特
別なループを迅速に処理するためプログラム開始時に完
全にロードされるリコンフィギュレーション可能な算術
演算‐論理ユニット（ｒＡＬＵ）を含む純粋なコプロセ
ッサが記載されている。このことはコンパイラにおける
大きな費用を必要とする。その完全な記述可能性により
このような計算ユニットはより複雑な命令を受ける。従
って新しいコンパイリングを作ることが不可避である。

【０００７】プロセッサ分野での近年のすべての最新の
開発は、平均的にクロックあたり１つよりも多い命令を
有する処理速度を達成している。ＲＩＳＣとしてもＣＩ
ＳＣアーキテクチュア（複合命令セット計算機）として
もとらえるべき“スーパースカラー”と呼ばれるこれら
のプロセッサは、それによって逐次的処理順序がもはや
許さない速度の尺度を与える。プロセッサの内部構成に
おけるさまざまな措置により、より多くの命令、従って
またそれらと結び付けられるアクションが互いに並列に
可能にされ、その際に結果ならびに逐次処理の意味での
中断可能性が保証される。

【０００８】スーパースカラー‐プロセッサのこのよう
なマイクロアーキテクチュアの一例は、刊行物「プロシ
ーディングス・オブ・ディ・アイ・イー・イー・イー
（ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥ
Ｅ）」第８３巻、第１２号、第１６０９頁のジェイムズ
・イー・スミス（ＪａｍｅｓＥ．Ｓｍｉｔｈ）の論
文「スーパースカラー‐プロセッサのマイクロアーキテ
クチュア」に記載されている。この刊行物にはスーパー
スカラー‐プロセッサの動作に関する展望が記載されて
いる。

【０００９】それにすぐ続く同じ雑誌の同じ号の第１６
２５頁のウェン‐マイ・ダブリュ・ヒュー（Ｗｅｎ‐Ｍ
ａｉＷ．Ｈｗｕ）ほかの論文「未来のマイクロプロセ
ッサのためのコンパイラー‐テクノロジー」には付属の
コンパイラー‐テクノロジーが記載されている。

【００１０】しかし、すべての新開発に共通することと
して、結果の逐次性の遵守と同じ意味である結果の保護
が、処理並列性により命令レベルで生ずる実際的かつ仮
想的な擾乱、いわゆるハザードの認識および解消を内容
として持つ。唯一の実際的なハザードはその際“リード
・アフター・ライト（Ｒｅａｄ‐Ａｆｔｅｒ‐Ｗｒｉｔ
ｅ＝（ＲＡＷ）”に存在する。なぜならば、計算のため
の出発ベースとしての１つの値が先行の書込みの後に初
めて読出されるからである。このようなシーケンスは互
いに並列に処理され得ず、他方において仮想的なハザー
ドである“ライト・アフター・リード（Ｗｒｉｔｅ‐Ａ
ｆｔｅｒ‐Ｒｅａｄ）”および“ライト・アフター・ラ
イト（Ｗｒｉｔｅ‐Ａｆｔｅｒ‐Ｗｒｉｔｅ）”はいわ
ゆる“レジスタ‐リネーミング（Ｒｅｇｉｓｔｅｒ‐Ｒ
ｅｎａｍｉｎｇ）”により止揚可能である。

【００１１】スーパースカラー‐プロセッサは、特別に
構想されたアセンブラプログラムとこのように最適化さ
れたプログラムを供給する相応のコンパイラー‐テクノ
ロジーとを用いて、それらの理論的性能を最良可能に利
用しつくして作動させることができる。

【００１２】

【発明が解決しようとする課題】本発明の課題は、マイ
クロコンピュータの処理速度を高め得るように処理の際
のより高い並列性を達成することにある。

【００１３】

【課題を解決するための手段】上記の課題は、請求項１
の特徴を有するマイクロプロセッサにより解決される。
有利な実施態様は従属項に記載されている。

【００１４】特に以下では、スーパースカラー‐アーキ
テクチュアへの努力が継続され、また構造的プログラミ
ングとも呼ばれるプログラマブル構造の導入により、現
存のテクノロジーの利用の際に顕著に高い処理速度が達
成されるように改善されているマイクロプロセッサを説
明する。そのために先ずアーキテクチュアについて説明
し、続いてその結果としてのアセンブラおよびコンパイ
ラ措置を説明し、また命令の徹底的な並列性による速度
利得をいくつかの例について計算する。

【００１５】第２の利点は、“リード・アフター・ライ
ト（Ｒｅａｄ‐Ａｆｔｅｒ‐Ｗｒｉｔｅ）”‐ハザード
が適当な仕方で解消し得ることにある。“リード・アフ
ター・ライト（Ｒｅａｄ‐Ａｆｔｅｒ‐Ｗｒｉｔｅ）”
は、その後の計算の流れを維持するため、計算後に結果
にアクセスしなければならないことを意味する。しかし
以下に説明するｓ‐パラダイム‐ユニットの場合には、
この結果は、それが記憶される前に存在しており、また
それは構造の内部で既に正しい値により継続利用され得
る。このことは、これまでの変形例で記憶のために一巡
しなければならなかった実行クロックの利得と同じ意味
である。

【００１６】新規な構造的措置は、マイクロプロセッサ
を作動するｓ‐パラダイム‐計算機またはｓ‐パラダイ
ム‐モデルに対しても関係する。

【００１７】

【実施例】以下にｓパラダイム‐モデルを説明する。ｓ
パラダイム‐モデルは基本的に任意のプロセッサの内部
の実行ユニットに応用され得る。なぜならば、このモデ
ルは専らこのユニット内でフォン‐ノイマン‐モデルと
区別され、またまさにフォン‐ノイマン‐モデルの典型
的な特徴である命令取り出しのコントロールフローに基
づく進行がそれに手をつけられずにとどまるからであ
る。しかし、モデルの性能を明らかにするため、以下で
は一般性の制限なしにｓパラダイム‐モデルが従来通常
の構成形式のスーパースカラー‐プロセッサと関連し
て、またそれと比較して示される。

【００１８】図１は浮動小数点ユニットを意識的に省略
したスーパースカラー‐プロセッサの構成を示す。計算
機の整数部分に対する実行ユニットの以下に示される特
性は浮動小数点ユニット１：１に伝えられる。

【００１９】プロセッサの内部で整数‐レジスタ‐ファ
イル、機能的ユニットおよび“リ・オーダー・アンド・
コミット（Ｒｅ‐ｏｒｄｅｒ‐ａｎｄＣｏｍｍｉ
ｔ）”‐ユニットを新しいユニット、ｓ‐ユニットによ
り置換する。このユニットは以下に一層詳細に説明す
る。追加的にいくつかの他のユニットでは、以下に同じ
く説明する変更が必要である。しかし先ず図１中の機能
について短い説明を行う。

【００２０】メモリインタフェース１０は外部のコード
‐およびデータメモリ範囲（主メモリＬ‐２‐キャッシ
ュ、図示せず）への接続を形成する。命令の側にこれら
は命令キャッシュ１４にプリデコーディングにより格納
される。プリデコーディングは、追加的な情報を後続段
に対するより速い処理のために発生すべき場合に有利で
あり、さもなければ省略できる。命令は次いで命令キャ
ッシュ１４にプリデコーディングにより格納される。プ
リデコーディングは、追加的な情報を後続段に対するよ
り速い処理のために発生すべき場合に有利であり、さも
なければ省略できる。命令は次いで命令キャッシュ１４
にプリデコーディングにより格納される。命令は次いで
直接的なメモリとしての命令キャッシュ１４に処理前
に、および／または命令バッファ１６に記憶され、それ
によって後者の場合にはそれらは既に処理中である。す
なわち図１は従来技術に相応する。

【００２１】それに続く“デコード・リネーム・アンド
・ディスパッチ（Ｄｅｃｏｄｅ，Ｒｅｎａｍｅ＆Ｄ
ｉｓｐａｔｃｈ）”‐ユニット１８はスーパースカラー
‐アーキテクチュアの内部で命令を機能ユニット２２の
複数の実行部分ユニットに分配し、また整数レジスタフ
ァイル２４から成るレジスタを割当てる。この割当は、
仮想的なハザードを避けるため、レジスタ・リネーミン
グ（Ｒｅｇｉｓｔｒ‐Ｒｅｎａｍｉｎｇ）に基づいて行
われなければならない。機能ユニット２２は、必要なオ
ペランドをロードし得るように、場合によってはデータ
‐キャッシュと密接に共同動作する。多数の命令を並列
に実行した後に、レジスタ中に存在している結果が新た
に配列され、または特に有効なものとして特徴付けられ
なければならない（“リ・オーダー・アンド・コミット
（Ｒｅ‐ｏｒｄｅｒ‐ａｎｄＣｏｍｍｉｔ）”‐ユニ
ット）。

【００２２】最後に、モデルに関して、条件付きおよび
非条件付き分岐の処理がここに示されている部分の外側
で進行することにも言及されるべきであろう。そのため
にたとえば“ブランチ・プリディンクション（Ｂｒａｎ
ｃｈ‐Ｐｒｅｄｉｃｔｉｏｎ＝分岐予報）”の処置を試
験的に実行するが、満たされないときには遅れを生ずる
ことになる。

【００２３】図１中に一点鎖線で示した従来技術で使用
されているブロックは、図２中に示すように、本発明に
より相応に異なって構成される。

【００２４】図２に示すように、プログラマブル‐構造
‐バッファ３０と、整数／アドレス‐命令‐バッファ３
２と、プログラマブル‐構造を有する機能ユニット３４
を有する装置とが整数‐レジスタ‐ファイル２４となら
んで設けられている。

【００２５】ｓ‐パラダイム‐モデルはその際以下の４
つの分類の機械命令を識別する。コントロールフロー制
御のための分岐および飛越し命令、レジスタとメモリ範
囲との間のデータ転送のためのロード／ストア命令、計
算のための算術演算および論理命令、および最も広い意
味でコントロールフロー制御の役割もする“無動作（Ｎ
ｏＯｐｅｒａｔｉｏｎ）”、“待ち（Ｗａｉｔ) ”、
“停止（Ｓｔｏｐ）”などのようなその他の命令。

【００２６】コントロールフロー制御のための命令分類
が従来のままにとどめられ、従ってまたスーパースカラ
ー計算機における標準に相応して実行されるのに対し、
“ロード／ストア（Ｌｏａｄ‐／Ｓｔｏｒｅ）”命令お
よび算術演算／論理命令は新しい位置を占める。

【００２７】ロード／ストア命令は１つまたはそれ以上
のロード・ストアパイプラインを用いて整数‐レジスタ
‐ファイル２４とデータメモリ（キャッシュ３６、主メ
モリ）との間のデータ転送に使用され、また次いで従来
のように処理され、もしくはそれらは算術演算／論理命
令に付加され、またｓ‐パラダイム‐モデルのいま説明
している中核部分に組み込まれる。これに関する決定は
ＣＰＵのシステム設計者の責任である。それに対して、
プロセッサのレジスタの間のデータ転送を行わせる“ム
ーブ（Ｍｏｖｅ）”命令は基本的にこのモデルに属す
る。

【００２８】算術演算／論理命令（およびこれに導かれ
たロード／ストア‐命令）はそのプログラムシーケンス
に従って連続するハードウェア演算結合の構造に変換さ
れる。この目的で本発明によるマイクロコンピュータの
機能ユニットはプログラマブル構造および固定配線され
た算術／論理演算（ならびに場合によってはロード／ス
トア・パイプラインのようなアクセス機能）を提供し、
これらは構造により互いに結合され、ストラクチュアリ
ングの順序で処理される。

【００２９】相応のする機能性を図３中に説明する。図
３では機能ユニット２２の部分ユニットおよびレジスタ
‐ファイル２４（図３中で灰色に示されている）は多数
のデータ接続およびマルチプレクサ４０に接続されてい
る。その際にデータ接続はそのつどの内部バス幅（たと
えば３２ビット）を有するバスとして構成されており、
ビット線（点を打たれて示されている）として実行され
ている条件コードが１つの例外をなしている。機能ユニ
ットに以下の５つの形式の部分ユニットが存在してい
る。従来からの算術論理ユニット（ＡＬＵ）と混同して
はならないような算術演算ユニット（ＡＵ、形式Ａ）５
０、５１。ＡＵ５０、５１は１つまたは少数のコンフィ
ギュレーション可能な演算、たとえば２つの整数を加算
する可能性を含んでいる。それは、入力端が相応に接続
されるとき、１つの結果をその出力端に与え、またこの
結果は回路網内でひき続いて使用される。ＡＵ５０、５
１は２つの入力バスおよび１つの出力バスにより、場合
によってはコンフィギュレーション可能性（論理演算の
選択、極端な場合にはＡＬＵに相応）により、また条件
付きビットにより特徴付けられている。いくつかの場合
には、たとえば乗算の際には、出力バスの幅は、計算を
可能にするため、異ならせることができる。同じくマル
チプレクサの後に接続されている“コンペア（Ｃｏｍｐ
ａｒｅ）”ユニット（ＣｏＵ、形式Ｂ）。論理演算の条
件付きの実行のためにここで条件コード‐ビットがコン
フィギュレーション可能な比較によりＣｏＵ５２に発生
される。比較は３つのコンフィギュレーション‐ビット
の使用の際に＞、＞＝、＜、＜＝、！＝、＝＝、ＴＲＵ
ＥまたはＦＡＬＳＥにセットされる。ＣｏＵの特徴は２
つの入力バスおよび１つの出力ビットならびにコンフィ
ギュレーション可能性である。マルチプレクサ（Ｍｕｌ
Ｃ、形式Ｃ）はＡＵおよびＣｏＵの入力端を完全な処理
幅のそれぞれ２つの入力値により占有する。そのために
それらは複数個の入力端および２つの出力端から生ずる
複数個のコンフィギュレーションビットを必要とする。
ＭｕｌＣユニットの特徴は２つの出力バスである。さら
に、レジスタファイル２４の前に設けられているマルチ
プレクサ（ＭｕｌＤ、形式Ｄ）をあげなければならな
い。結果値によるレジスタの占有のために単に１つの出
力バス、従ってまたコンフィギュレーションビットの半
部のみが必要とされる。従って、ＭｕｌＤはＭｕｌＣと
はその出力導線の数により相違している。最後に、比較
（ＣｏＵ）の結果を相応のＡＵに伝達するデマルチプレ
クサ（Ｄｅｍｕｌ、形式Ｅ）もあげなければならない。
ソース選択を行うマルチプレクサ５８とは異なり、ここ
では宛先選択が行われる。

【００３０】部分ユニットの間の接続は全体のなかで利
用できるコンフィギュレーションビットの数に関係して
完全にまたは部分的に行うことができる。すぐ次の段落
のなかの例アーキテクチュアでは完全な接続可能性が示
され、また必要なビットの数がそれから計算される。

【００３１】構造化可能な機能ユニットの意味は、本発
明によれば、構造をプログラムの１つの（基本またはス
ーパー）ブロック内の機械命令に相応して適応させるこ
とにある。このようなブロックは、それらが分岐なしで
（基本ブロック）または稀に利用される分岐のみで（ス
ーパーブロック）十分であること、すなわちコントロー
ルフローで決定論的に、または少なくとも高い確率をも
って決定可能であることにより特徴付けられている。こ
のブロックの問題点およびそれらのアセンブラ‐および
コンパイラ‐テクノロジーへの影響は後で説明する段落
“…結論”で一層詳細に説明する。

【００３２】プログラミングはｓ‐パラダイムモデルに
おいで部分ユニットに対するコンフィギュレーションビ
ットのロードにより行われる。これらはプログラマブル
‐構造‐バッファに一時記憶され、またブロックの処理
の際に、それにより相応に構造化されており、またブロ
ックを処理し得るｓ‐ユニットにロードされる。処理は
その際にレジスタ内容間の、また場合によっては（相応
のロード／ストア‐パイプラインが利用できる場合に
は）メモリ内容との算術および論理演算のみに関し、他
方においてすべての他の命令、特にロード／ストアおよ
びコントロールフロー命令は通常のように進行する。

【００３３】コンフィギュレーションビットの発生はア
センブラで行われ得るが（コンパイル時間に基づく発
生）、それをＣＰＵでたとえば機能的に拡張されたプロ
グラマブル‐構造‐バッファにより実行時に発生させる
こと（実行時間に基づく発生）も原理的に可能である。

【００３４】本発明によるマイクロコンピュータの実行
ユニットの実現形態を説明する。固定配線されたＡＵ５
０、５１ならびにＣｏＵ５２およびこれらの部分ユニッ
トの間のコンフィギュレーション可能な経路を有するｓ
‐ユニットＳの構造は先ず、マルチプレクサがこのコン
フィギュレーションのプログラミング可能な要素を示す
ことを決定する。特にＡＵ５０、５１の固定配線は、ロ
ードすべきビットの数を可能なかぎりわずかに保つため
に選ばれた。フレキシブル化の別の段階では、ＡＵ５
０、５１もプログラミング可能であってよい。すなわち
ナンドゲートまたは乗法標準形（ＤＮＦ）を構成するよ
うに実現されていてよい。それによってほぼ任意の機能
性が既にＡＵ５０、５１に組み込み可能であろう。

【００３５】算術演算ユニット５０、５１はたとえば下
記の機能性を内容としている。加算、減算、乗算、除算
のような算術演算、ＡＮＤ、ＯＲ、ＸＯＲ、（２の）補
数のような論理演算、右／左への算術的または論理的シ
フトのようなシフト機能、入力ビットに関係しての条件
付きデータ転送（ラン時間に対するＭｕｌＣおよびＭｕ
ｌＤと相違して、２経路‐マルチプレクサ）。

【００３６】構造、すなわち両マルチプレクサ形式のプ
ログラミングに対する基礎はＲＡＭセルにある。これに
よって、ＥＥＰＲＯＭのような他のテクノロジーがより
長い時間を必要とし、またもっと以前にプログラミング
可能なＡＵの使用に対して考えられ得たのに対して、非
常に速いコンフィギュレーションが保証されている。ｎ
ビットを用いてその場合には２ⁿの経路が切換えられる
ので、ＭｕｌＤに対して３２の入力端において２×５ビ
ット、ＭｕｌＤに対して５ビットがコンフィギュレーシ
ョンのために必要であった。このマルチプレクサの原理
的構成が図４に示されている。

【００３７】可能な具体的なモデルアーキテクチュアで
は下記の部分ユニットおよびレジスタが具現化されてい
る。“コンディション（Ｃｏｎｄｉｔｉｏｎ）”コード
‐ビットにより加算が徐行され（ＴＲＵＥ）、または最
初のワードが変更されずに通過させられる（ＦＡＬＳ
Ｅ）４つの加算器、２ビットによりコンフィギュレーシ
ョン可能な、ＡＮＤ、ＯＲ、ＸＯＲおよび２の補数の形
成を有する論理ユニット（ＡＵ）、乗算器（ＡＵ）、除
算器（ＡＵ）、２つのビットを用いて左方／右方にかつ
算術的／論理的にコンフィギュレーションされるシフト
機能ユニット（ＡＵ）、制御入力のビットにより両入力
バスの１つを出力端に接続させる２つのダイナミックな
経路マルチプレクサ（ＡＵ）。これらのマルチプレクサ
はマルチプレクサ形式ＣまたはＤと混同してはならない
であろう。なぜならば、ここに提案される部分ユニット
は選択をダイナミックに切換えるからである。３つのビ
ットを介して８つの比較形式（ＣｏＵ）５２にコンフィ
ギュレーション可能な各ビット出力端を有する６つの比
較ユニット、レジスタ・リネーミングあたりたとえば２
４の物理的レジスタの“プール（Ｐｏｏｌ）”内で識別
される１２の論理的レジスタＲ０ないしＲ１１、命令コ
ードでコード化される定数が１つのブロックの処理の間
に記憶される４つの定数レジスタ。

【００３８】これは全体で３２の接続すべき部分をｓ‐
ユニットＳに生ずる。完全な接続可能性が要求されるな
らば、主として５または２×５ビットを有するマルチプ
レクサをコンフィギュレーションしなければならない。
すべてのユニットを接続するためには形式Ｃの１０のマ
ルチプレクサ、形式Ｄの１２のマルチプレクサおよび形
式Ｅの６つのデマルチプレクサが必要とされる。比較演
算によるコンディショニングがＡＵにしか関係しないこ
とが仮定されるので、デマルチプレクサはコンフィギュ
レーションのために３ビットしか必要としない。それに
よって２００ビットの（マルチプレクサおよびコンフィ
ギュレーション可能なＡＵに対する）コンフィギュレー
ションビットの全数が生ずる。

【００３９】モデルはさらにフラグの処理にも拡張でき
る。このことは評価特性を有する別個のＡＵにより可能
である。算術演算の際のオーバフローを回避または検出
するためには、十分な大きさを有するデータバスおよび
相応の評価ユニットが必要であるが、これらは、図面を
見易くするために省略されている。

【００４０】次に機械命令に対するｓ‐パラダイム‐モ
デルの結論およびアセンブラプログラミングおよびコン
パイラ構成について説明する。本発明によるマイクロコ
ンピュータは、ＡＬＵの並列設置に基づくスーパースカ
ラー‐アーキテクチュアと非常に類似して動作する。こ
のアーキテクチュアの最適な利用のためにはアセンブラ
コード化の枠内の可能なかぎり大きいブロック形成が重
要である。

【００４１】ここで基本ブロックとは、たとえば条件付
き分岐命令による分岐を内容としていない一連の命令を
いう。このような基本ブロックは従来通常のコンパイラ
テクノロジーでは比較的短いので、内部の並列性の利用
はわずかにとどまる。

【００４２】現在、前記のスミス（Ｓｍｉｔｈ）の刊行
物に示されているように、改善された利用を約束する多
くのコンパイラストラテジーが開発されている。１つの
方法は、ループの通常例において一巡するまたこの動作
との関連で同じく適当なブロックとみなされるスーパー
ブロックの発生にある。本質的に重要なことは、決定ビ
ットに基づいて実行または飛越しをされる条件付き命令
の導入である。この決定ビットは比較により生じ、また
次いでコントロールフローを決定して、すなわち周縁条
件のもとでも分岐を補って有効である。

【００４３】このような条件付き命令実行である“プリ
ディケイテッド・エクセキューション（ｐｒｅｄｉｃａ
ｔｅｄｅｘｅｃｕｔｉｏｎ）”の一例は図５中に示さ
れているＣ中のシーケンスおよびアセンブラ（命令の意
味は付録Ａを参照）により与えられる。

【００４４】この例は、従来の仕方でレジスタの比較的
最適な利用の際に条件付き値割当を翻訳する擬似ＣＰＵ
に対して示される。しかしその際に生ずる飛越し命令ｂ
ｌｅ（ｂｒａｎｃｈｉｆｌｅｓｓｏｒｅｑｕａ
ｌ）は場合によってはコントロールフロー中の１つの分
岐を意味し、このことは条件付き命令実行の実現および
利用の際に不可欠ではない。ここで、ｒ０＞０が成り立
つ場合には、１つのビットがレジスタｐ１にセットさ
れ、さもなければ消去され、また条件付きのｍｏｖｐ命
令はｐ１に関連し、また互いに排除するので、このこと
は良好に、１つの経路しか能動的であってはならない並
列ランするハードウェアに変換される。

【００４５】短い例はその際に決して条件付き命令によ
る加速に対する証拠とみなされないが、上記のスミス
（Ｓｍｉｔｈ）のような広範囲な研究により、これらの
機械命令は特に望ましくスーパースカラー‐マイクロプ
ロセッサの実行ユニット内の流れに対して効果を現すこ
とが判明している。ハードウェア内の変換は、図６中に
アセンブラコードに対するデータフロー変換により示さ
れているように、比較器と結び付けてダイナミックなマ
ルチプレクサにより行われる。

【００４６】変換は、“より大きい”に対して条件付け
されている比較器６０と比較図を用いて両方の流入する
データストリームからの選択を行うダイナミックなマル
チプレクサ６２とをこの実行ブロックに対応付けること
により行われる。ロード／ストア命令は直前の形態にと
どまり、また示されていない。追加的にレジスタＣ０は
（定数に対して）比較値、ここでは“０”をロードされ
なければならない。

【００４７】本発明によるマイクロコンピュータの機械
命令文に対してその場合に追加的な下記の命令が仮定さ
れている。ＰＥＱ＜Ｄｅｓｔ＞、＜Ｓｏｕｒｃｅ＞、＜目的ビット
＞（同等）ＰＮＥ＜Ｄｅｓｔ＞、＜Ｓｏｕｒｃｅ＞、＜目的ビット
＞（不等）ＰＧＥ＜Ｄｅｓｔ＞、＜Ｓｏｕｒｃｅ＞、＜目的ビット
＞（より大きいまたは等しい）ＰＧＴ＜Ｄｅｓｔ＞、＜Ｓｏｕｒｃｅ＞、＜目的ビット
＞（より大きい）ＰＬＥ＜Ｄｅｓｔ＞、＜Ｓｏｕｒｃｅ＞、＜目的ビット
＞（より小さいまたは等しい）ＰＬＴ＜Ｄｅｓｔ＞、＜Ｓｏｕｒｃｅ＞、＜目的ビット
＞（より小さい）

【００４８】条件ビットをセットするためのこの命令文
の拡張はもちろん考えられる。それとならんでこれらの
条件ビットは評価可能でなければならず、このことは条
件付きシフトおよび算術的／論理的命令の導入により行
われる。従って、以下では本発明によるマイクロコンピ
ュータのモデルアーキテクチュアに対して、すべてのシ
フト命令が１つの条件により割当て可能であること（ｍ
ｏｖｐ）、また算術的／論理的命令が、条件が満足され
ていない場合には第１の論理オペランドが通過させられ
るように、実行されることが仮定される。すなわちａｄ
ｄｐ＜目的＞、＜オペランド１＞、＜オペランド２
＞、＜予測ビット＞演算の場合には、＜予測ビット＞
が消去されている場合には＜オペランド１＞が、さも
なければ＜オペランド１＞および＜オペランド２＞
の和が目的レジスタにロードされる。

【００４９】本発明によるマイクロコンピュータにおけ
るスループットを高めるためのこれ以外の方法はスーパ
ースカラー‐マイクロプロセッサに対するそれに相当す
る。それにはアセンブラまたはＣ（標準言語に対する例
として）におけるプログラミングに関して、コントロー
ルフロー構造なしにより大きいブロックを作るための命
令の条件付き実行の利用、資源の最大までのループのア
ンローリング、依存性解析および（コンパイル‐タイム
‐）レジスタ・リネーミングによる依存性の除去が属す
る。

【００５０】これがスーパースカラー‐アーキテクチュ
アに対して最適に導かれた後に、存在しているブロック
が新たに解析され、また構造的なプログラミングに変換
される。この変換はコンパイル時間に行われ、その際に
利点は目的システムにおけるシリコンの利用なしの強力
な解析にあるとみられる。構造的なプログラミングはそ
の際に、存在している依存性解析およびなかんずく除去
によりかなりサポートされるので、命令はデータフロー
に、従ってまた構造に変換可能である。この構造はその
場合に、非同期デザインの際にハードウェア構造化に対
して使用不可能であったサイクルまたは負帰還を有して
いない。

【００５１】性能利得はスーパースカラー‐マイクロプ
ロセッサの“古典的な”アーキテクチュアにくらべての
２つの利点の利用から生ずる。これまでのアーキテクチ
ュアにおいて幾重にもされるＡＬＵはこれにより分割さ
れるので、個々の部分が互いに無関係に利用可能であ
る。プログラム可能な構造内部のラン時間が、結果が１
クロック内のデータフロー経路に無関係に存在している
ように小さくとどまるという仮定のもとに、このことは
平均的により良好な利用およびより小さい実行時間を生
ずる。

【００５２】しかし、ｓ‐ユニット内の実行時間の制御
または決定はハードウェア実行における中心点を占め
る。下記の方法がこのために供される。構造的にプログ
ラム可能なものが、ｓ‐ユニット内のラン時間があらゆ
る場合に対して結果が１クロック後にレジスタに記憶可
能であるように設定されるように構成され、また最大許
容クロックと同調させられる。あらゆる場合に互いに非
同期に結び付けられている（同期化があらゆる場合にレ
ジスタにおいて初めて行われ、そのために依存性除去も
必要である）ハードウェアが一巡の際にレジスタへの受
け渡しを制御する“レディー（Ｒｅａｄｙ）”信号を一
緒に供給する。この形態は場合によっては，より高いク
ロックレートを許容し、その際にたとえば通常の場合に
はクロックが、また例外的な場合には２つのクロックが
通過のために必要とされる。

【００５３】ひき続いて以下に１つの例プログラムが解
析され、変換され、またスーパースカラー‐アーキテク
チュアに対して最適化されなければならない。この機械
プログラムの進行中の速度が次いで本発明によるマイク
ロコンピュータに比較して示される。この例は、結果を
相応に比較可能に形成し得るように、ジェイ・スミスの
上記の刊行物に由来している。

【００５４】例プログラムコンパイラテクノロジーとハ
ードウェアの構造的プログラミングによる並列化の可能
性との共同作用は簡単なＣループで説明することができ
る。その際にコード発生のために一方ではスーパースカ
ラー‐マイクロプロセッサが基礎とされ、他方では少な
くとも１２のレジスタと、条件付き命令と、両方共すべ
ての能力を有するものとして構成されている２つの並列
ランするＡＬＵを有するＳ‐ユニットの上記のモデルが
利用される。この過程で下記のステップが通過される。１．Ｃ‐ソースコードが、非スーパースカラー‐アーキ
テクチュアに対して最適化するコンパイラを用いて変換
される。２．ブロックの大きさが条件付き命令による条件付き飛
越しの置換により高められる。３．各２つのループがより大きいループにまとめられる
（ループ‐アンローリング）。４．得られたループに対して（コンパイル‐タイム）レ
ジスタ・リネーミングが依存性解析を用いて実行され
る。

【００５５】最適化のすべての段階に対して並列化の度
合または必要とされるクロックの数が示され、最高の段
階に対しては従来の構成形式のスーパースカラー‐アー
キテクチュアと本発明によるマイクロコンピュータとの
間を比較して示される。

【００５６】図７にはＣ‐ソースコードが示されてい
る。プログラムはアレイａ〔〕に関係してのアレイｂ
〔〕における割当ループにあり、その際にここでは特
に“リード・アフター・ライト（Ｒｅａｄ‐Ａｆｔｅｒ
‐Ｗｒｉｔｅ）”関係を解析することにする。

【００５７】このコードにおいて注目すべきことは、そ
れぞれアクセスされるアドレスの順序である。なぜなら
ば、割当はループの一部分においてｂ〔ｉ〕＋ｂ〔ｉ＋
１〕を表し、またこうして第１のアクセスの第２の要素
は第２のループの第１の要素に等しいからである。伝統
的なアーキテクチュアに対して定められている最適化コ
ンパイラによるＣ‐ソースコードの変換は図８に示され
ているアセンブラリスティングが生ずる。

【００５８】コントロールフローグラフは、図９中に示
されているように、このコードが通過させられる経路を
示す。コンパイラ自体はアセンブラコードを、二三の基
本ブロックが生ずる（図８中で線により隔てられてい
る）ように最適化している。相い続く命令１および２は
たとえば、ここに“リード・アフター・ライト（Ｒｅａ
ｄ‐Ａｆｔｅｒ‐Ｗｒｉｔｅ）”ハザードが存在するこ
とを意味する。ｒ１が先ず書かれ、また次いでその後に
初めて０との比較のために読まれる。この関係は、並列
な実行が可能でないという結果をもたらす。現在のサイ
クルに対する列は、原理的に並列な作用を実行し得るス
ーパースカラー‐アーキテクチュアに関連する。ループ
の計算は最大の場合で６サイクル継続する（主メモリへ
のデータ転送に対して２サイクルと仮定して）ので、ｔ
ｈｅｎ部分に対して９の通過する命令の際に１．５命令
／サイクルが実行される。

【００５９】ｅｌｓｅ部分に対するブロックＬ４の１：
１コピー、命令の順序の変更およびメモリ命令の条件付
き実行による条件付き分岐の置換により基本ブロックの
拡大が達成され得る。図１０のアセンブラリスティング
は４サイクルへのループの加速を示す（最後の分岐が正
しく予言されると仮定して）。

【００６０】ループあたりのスループットはスーパース
カラー‐アーキテクチュアに対してこれらの措置により
２命令／クロックに増大する。いま、ｓ‐パラダイム‐
ユニットＳが任意の回路網をクロック内で処理し得ると
仮定すると、本発明によるマイクロコンピュータでの実
行はそれに対して条件付き値割当を含むすべての計算に
対して１クロックを必要とし、ループあたりの通過は３
クロックに短縮し、スループットは２．６６命令／クロ
ックである。

【００６１】図１１はｓ‐ユニットＳの構造を示す。外
部のメモリとの通信を司るロード／ストア命令は同じく
有効なアドレスに対する算術的計算を行わなければなら
ない。これらは、原理的にＳ‐ユニットから成る加算器
がアドレス加算のために利用可能ではあろうが、ここに
は示されていない。

【００６２】ここに示されている最適化の最後の段階は
２つのループ通過を後続の関係解析および除去を有する
１つ（ループ‐アンローリング）にまとめることにより
性能の改良を行う。この最適化は、両部分ループの無関
係な並列処理が可能である場合に、スループットを高め
る。従って、この方法は関係性の除去のために“コンパ
イル‐タイム‐レジスタ‐リネーミング（Ｃｏｍｐｉｌ
ｅ‐Ｔｉｍｅ‐Ｒｅｇｉｓｔｅｒ‐Ｒｅｎａｍｉｎ
ｇ）”を使用する。

【００６３】図１２には最適化〔１〕後の結果が示され
ている。

【００６４】２つのループの並列処理により処理時間は
（かっての）簡単なループあたり平均的に２クロックに
低下し、その際に並列化尺度はいまや３．７５命令／ク
ロックである。このことはスーパースカラー‐アーキテ
クチュアに対して当てはまる。他方、本発明によるマイ
クロコンピュータでは前記の（本発明によるマイクロコ
ンピュータの実行ユニットの実現形態の表題のもとに説
明された）段落の具体的モデルにおいてさらに向上がも
たらされる。

【００６５】アドレス計算を別として二重ループにおけ
る４つの加算ならびに２つの条件付き割当が必要とされ
る。これらの資源は特にループ実行のための加算容量を
有するモデルに存在している。それによって、同様に回
路網がこれを安定にクロックの間に通過させるという仮
定のもとに、加算および値割当のすべてのブロックが１
クロック内で実行され得る。簡単なループあたりの平均
的な処理時間はその場合に３クロックであり、このこと
は５命令／クロックのレートを生ずる。

【００６６】全体としてそれによって初めて構造的プロ
グラミングがプロシジュア‐プログラムの中央処理要
素、すなわちＣＰＵに導入されている。実行ユニットの
新構想への制限のもとに、制限されたソースを有する具
体的なモデルが設計された。その際にこのモデルはこれ
までのスーパースカラー‐アーキテクチュアに比較して
顕著に改善された性能を与えることが示された。処理時
間は上記の例では２５〜３３％だけ短縮された。

【００６７】付録Ａ：アセンブラコードに対しては同じ
ようにほとんどすべてのＣＰＵに見い出される擬似コー
ドが利用された。命令はシンタックス（構文）の支配下
にある。〈ニューモニック〉＜目的＞、＜ソース＞２オペラン
ドに対して〈ニューモニック〉＜目的＞、＜ソース１＞、＜ソース
２＞３オペランドに対して（算術演算的）＜ニューモニック＞＜ソース１＞、＜ソース２＞、〈飛
越し目的〉３オペランドに対して（飛越し命令）＜ニューモニック＞はそれぞれ入れるべき命令に対する
短縮を示す。その際明細書中に下記の符号が使用され
た。ｍｏｖデータ（内部のみ）の移動（より良い：コピ
ー）に対してｍｕｌ＜ソース１＞および＜ソース２＞の乗算に対し
て、＜目的＞の結果ａｄｄ等価な方法での加算に対してｌｄロードに対して、これによって外部のメモリ範
囲のメモリ個所の内容のコピーがＣＰＵのレジスタに書
かれる。ｓｔ外部メモリのＣＰＵのレジスタ内容の記憶に対
してｓｔｐ条件付き記憶として；条件は値“真”または
“偽”のみを有し得るスイッチング変数であり、またそ
れは“真”でなければならない。ｐｎｅ両ソースが合致しない場合は、必要とされるス
イッチング変数（等しくないならばプレディケート）を
“真”にセットするため（同一のスイッチング変数がそ
の場合に反転された“偽”を生ずる。ｂｇｅ分岐命令として（より大きいまたは等しいなら
ば分岐）、その際＜ソース１＞が＜ソース２＞よりも大
きいまたはそれに等しいならば、飛越し目的への分岐が
実行されるｂｌｔ＜ソース１＞が＜ソース２＞よりも小さい場合
の相応の分岐（より小さいならば分岐）内部コピー（ｍｏｖ）と外部ロード／記憶（ｌｄ、ｓ
ｔ）との間の区別は多くのアーキテクチュアでは行われ
ない（例ＩｎｔｅｌＰｅｎｔｉｕｍ）。それはここで
は相違、従ってまたロード／ストア・パイプラインの利
用を明らかにするために導入された。

【図面の簡単な説明】

【図１】通常のスーパースカラー‐プロセッサの典型的
な編成を示すブロック図。

【図２】本発明によるマイクロアーキテクチュアを示す
ブロック図。

【図３】機能ユニットの原理的な構成を示すブロック
図。

【図４】マルチプレクサの構成を示すブロック図。

【図５】２つのコードの比較図。

【図６】アセンブラコードに対するデータフロー変換を
示す図。

【図７】Ｃ‐ソース‐コードを示す図。

【図８】第１の最適化におけるアセンブラコードを示す
図。

【図９】アセンブリングに対するコントロールフローダ
イアグラム。

【図１０】第２の最適化におけるアセンブラコードを示
す図。

【図１１】図１０のアセンブラコードに対するデータフ
ロー変換を示す図。

【図１２】第３の最適化におけるアセンブラコードを示
す図。

【符号の説明】

１０インタフェース手段１６命令メモリ１８復号ユニット２２機能ユニット２４整数‐レジスタ‐ファイル３０プログラマブル‐構造‐バッファ３２整数／アドレス‐命令‐バッファ３４機能ユニット３６インタフェース手段４０マルチプレクサ４６デマルチプレクサ５０算術演算ユニット５２比較ユニット５８マルチプレクサ

Claims

【特許請求の範囲】

【請求項１】特にコンフィギュレーション可能な論理
ユニット、命令メモリ（１６）、デコードユニット（１
８）およびインタフェース手段（１０、３６）を有する
スーパースカラー‐アーキテクチュアを有するパイプラ
イン方式のプロセッサにおいて、論理ユニットとして作用するプログラマブル‐構造‐バ
ッファ（３０）と、整数／アドレス‐命令‐バッファ（３２）と、データ記憶するインタフェース手段（３６）と直接通信
するための整数‐レジスタ‐ファイル（２４）と、整数‐レジスタ‐ファイル（２４）の内容を“プログラ
マブル‐構造を有する機能ユニット”（３４）と論理演
算するために構成されており、多重制御され、マルチプ
レクサにより接続される多数のデータ接続を有するｓ‐
パラダイム‐ユニット（ｓ‐ユニット）（３０、３４、
３２、２４）とを含んでおり、その際にｓ‐ユニット（３０、３４、３２、２４）がプ
ログラム可能なハードウェア構造によるプログラムの進
行時間中にダイナミックな新規コンフィギュレーション
／プログラミングを行うために設けられており、またそ
の際に機能ユニット（３４）に、２つの入力バス上の２つのオペランドを、１つの出力バ
ス上に結果を得るように、算術および／または論理演算
を行うための複数個の算術演算ユニット（５０）と、２つの入力バスおよび１つの出力バスを有する複数個の
比較ユニット（５２）と、算術演算ユニット（５０）および比較ユニット（５２）
とレジスタ‐ファイル（２４）との間に設けられている
複数個の入力バスおよび１つまたは２つの出力バスを有
する複数個のマルチプレクサ（４０、５８）と、ｓユニット内の相応の算術演算ユニット（５０）におけ
る宛先選択に比較の結果（ＣｏＵ）を供給するための、
１つの入力ビットおよび複数個の出力ビットを有する複
数個のデマルチプレクサ（４６）とが設けられているこ
とを特徴とするパイプライン方式のプロセッサ。
【請求項２】整数‐レジスタ‐ファイル（２４）とし
て、またはそれに追加して、相応の論理演算を有する浮
動小数点レジスタ‐ファイルを含んでいることを特徴と
する請求項１記載のプロセッサ。
【請求項３】算術演算ユニットおよび比較ユニットが
プログラム実行中にダイナミックに命令のそれぞれのブ
ロックに対してその機能性をコンフィギュレーション可
能かつプログラミング可能であることを特徴とする請求
項１または２記載のプロセッサ。
【請求項４】請求項１ないし３の１つによるパイプラ
イン方式のプロセッサにより高速度計算をするための方
法において、ｓユニット内で可能なかぎり大きいブロック形成の後に
アセンブラコーディングおよび“決定”ビットをもとに
して実行または飛越される条件付き命令の導入の範囲内
で、部分ユニットに対するコンフィギュレーションビットが
“プログラマブル‐構造‐バッファ”に一時記憶され、
またブロックの処理の際にｓユニットにロードされ、その際に決定ビットが、ダイナミックなマルチプレクサ
（算術演算ユニットの下位形式）において比較器と結び
付いて最適なデータフロー変換が発生されるように、比
較により制御の流れを決定して決められることを特徴と
するパイプライン方式のプロセッサによる高速度計算方
法。