JP2002508102A

JP2002508102A - 高水準プログラミング言語をコンパイルするための方法

Info

Publication number: JP2002508102A
Application number: JP50587699A
Authority: JP
Inventors: ローレンス・エイチ・クック; クリストファー・イー・フィリップス; デール・ウォン
Original assignee: カメレオン・システムズ・インコーポレーテッド
Priority date: 1997-06-27
Filing date: 1998-06-29
Publication date: 2002-03-12
Also published as: EP0991997A1; AU8275498A; KR100614491B1; WO1999000731A1; EP0991997A4; US6708325B2; KR20010020544A; US5966534A; CA2290649A1; US20030014743A1

Abstract

(57)【要約】高水準プログラミング言語で書かれたコンピュータプログラム（項目１０１）は、コンパイラ（１０３）により、それ自体の制御フローとデータフローとを表す中間データ構造（１０５）にコンパイルされる。このデータ構造は、全体の性能を向上させるための特定用途向け集積回路（１１７）として実装され得るロジックのクリティカルブロックを識別するために、オプティマイザおよびパラレライザ（１１１）において解析される。前記ロジックのクリティカルブロックは、最初に、最大データ並列処理を伴う新たな等価ロジックに変換される。次に、前記新たな並列処理ロジックは、特定用途向け集積回路（１１７）上における実行に適切なブールゲート表示に変換される。前記特定用途向け集積回路（１１７）は、包括的マイクロプロセッサ（１０７）と、該マイクロプロセッサ用のカスタム命令を介して、接続されている。次に、元のコンピュータプログラムは、新たな拡張されたターゲット命令セットを備えたオブジェクトコード（１０９）にコンパイルされる。

Description

【発明の詳細な説明】高水準プログラミング言語をコンパイルするための方法１．発明の背景本発明は、再構成可能な（reconfigurable）コンピューティングに関する。２．従来技術従来、集積回路は、その構成をブールゲート（Boolean gate）やレジスタのような回路プリミティブ（circuit primitives）とともに記述することにより設計される必要がある。回路設計者は、例えば、ビデオ圧縮アルゴリズムのような特定の用途を念頭に置いて（設計を）開始する必要があり、かつ、この結果として得られる集積回路については、目標とする用途に対してのみ用いることができる。あるいはまた、集積回路については、固定命令（fixed instruction）を備えた一般的な目的のマイクロプロセッサ（例えば、インテル社のｘ８６プロセッサ）として設計してもよい。これにより、マイクロプロセッサの命令の任意のシーケンスを呼び出すことができるコンピュータプログラムを書くことにおける柔軟性が可能となる。この方法は、柔軟性を増加させる一方で性能を低下させる。その理由は、あらゆる用途に対して回路を最適化することができないためである。高水準のプログラマーにとっては、任意のコンピュータプログラムを書くことができ、かつ、これらのプログラムを迅速な特定用途向け集積回路（applicatio n specific integrated circuits）に自動的に変換できることが望ましい。しかしながら、現在は、マイクロプロセッサに関するプログラミング言語の専門知識を有するコンピュータプログラマーと、回路設計における専門知識を必要とする特定用途向け集積回路との間の橋渡しが存在していない。集積回路設計の研究および開発は、回路記述（circuit descriotion）の水準を、徐々により高い抽象水準へ押し上げようと試みている。現在の技術状態は、回路の記録／転送作用に関する行動言語記述である入力と、この行動を実行するのに必要な回路素子の構成記述である出力とを有する“行動（behavioral）シンセサイザ”である。この入力記述は、特定の用途をターゲットとし、かつ、その作用を高水準の回路プリミティブに記述する必要があるが、行動コンパイラは、低水準な回路プリミティブがいくつ必要とされるのか、また、これらのプリミティブがどのように異なる諭理ブロック間で共有されるのか、また、これらのプリミティブの使用がどのように予定されている（scheduled）のかを自動的に判断する。次に、これらの回路プリミティブの出力記述は、該回路プリミティブを有効な“セル”のライブラリ上にマッピングする“論理シンセサイザ”に渡され、ここで、各々のセルは、集積回路上の回路プリミティブの完備した手段である。論理シンセサイザの出力は、全ての必要とされるセルとそれらの相互接続とに関する記述である。次に、この記述は、全てのセルのレイアウトと集積回路上における相互接続とを決定する“プレーサ（placer）およびルータ”に渡される。その反面、コンピュータプログラミングの研究および開発は、特定用途向けプログラムを、特別に目標を定められた（custom taegeted）ハードウェアと整合させることにより、抽象水準を押し下げようと試みている。このような試みの１つは、インテル社のＭＭＸ命令セットである。この命令セットは、ディジタル信号処理アルゴリズムを伴う用途を促進するために、特定の目的で設計されている。このような用途については、包括的に書くことができ、かつ、ＭＭＸを意識したコンパイラは、特別な命令を用いることにより、コンパイルされたコードを自動的に加速させる。前記用途を適切なソフトウェアと整合させる他の試みは、並列処理コンパイラ（parallelizing compiler）上における仕事である。これらのコンパイラは、順次的なプログラミング言語で書かれたコンピュータプログラムを用い、かつ、暗黙並列処理（implicit parallelism）を自動的に抽出し、次に、この暗黙並列処理については、不定数のプロセッサ上における実行のための目標とすることができる。したがって、様々な用途を、これらの特定の必要性に応じて、様々な数のブロセッサ上において実行することができる。ハードウェアおよびソフトウェア・コミュニティによる上述の努力にも関わらず、高水準プログラミング言語と集積回路行動記述との間の隔たりに対する橋渡しは、未だ行われていない。発明の概要高水準プログラミング言語で書かれたコンピュータプログラムは、中問データ構造（intermediate data structure）にコンパイルされ、このデータ構造は、その制御およびデータのフローを表す。このデータ構造は、全体を性能を向上させるための特定用途向け集積回路として実行され得る、ロジックのクリティカルブロックを識別するために解析される。このロジックのクリティカルブロックは、最初に、最大のデータ並列処理を伴う新たな等価ロジックに変換される。次に、この新たな並列処理されたロジックは、特定用途向け集積回路上における実行に適切なブールゲート表示に変換される。この特定用途向け集積回路は、包括的マイクロプロセッサと、該命令用のカスタム命令を介して接続されている。次に、元のコンピュータプログラムは、新たに拡張されたターゲット命令セットを備えたオブジェクトコードにコンパイルされる。本発明のある実施形態によれば、コンピュータにより実行される方法は、高水準プログラミング言語で書かれたコンピュータプログラムを、マイクロプロセッサと接続された１つ以上の特定用途向け集積回路により実行するためのプログラムに、自動的にコンパイルする。前記１つ以上の特定用途向け集積回路内の回路により実行されることになる機能を有するコードブロックが選択され、かつ、このコードブロックは、領域制約および実行時間制約のうちの少なくとも１つに基づいて、グループにまとめられる。前記機能のローディングおよび活性化が予定され、かつ、コードが、前記機能のローディングおよび活性化のための命令を備えるマイクロプロセッサにより実行用に生成される。本発明の他の特徴によれば、コンピュータにより実行される方法は、高水準プログラミング言語で書かれたコンピュータプログラムを、１つ以上の特定用途向け集積回路に、自動的にコンパイルする。本発明のさらに他の特徴によれば、コンピュータにより実行される方法は、高水準プログラミング言語で書かれたコンピュータプログラムを、標準マイクロプロセッサと接続された１つ以上の特定用途向け集積回路により実行するためのプログラムに、自動的にコンパイルする。本発明のさらに他の特徴によれば、再構成可能な論理ブロックは、コンパイルされた命令によりロックされ、この場合に、活性化コンフィギュレーション命令は、前記ブロックを、あらゆる後続の活性化からロックし、かつ、解放コンフィギュレーション命令は、前記ブロックを解除する。本発明のさらに他の特徴によれば、高水準プログラミング言語コンパイラは、マイクロプロセッサの標準命令セットを拡張するための１つ以上の特別命令のセットを、自動的に決定し、これにより、所定の入力コンピュータプログラムに関する相対的な性能の向上という結果が生じる。本発明のさらに他の特徴によれば、２つ以上のマイクロプロセッサ標準命令の実行を、単一の特別命令の実行に変換するための方法が提供される。本発明のさらに他の特徴によれば、高水準プログラミング言語コンパイラは、データフローグラフの中間表示を介して、行動シンセサイザと接続される。図面の簡潔な説明本発明については、添付図面と関連した以下の説明から、さらに理解される。図１は、好ましい実施形態のコンパイラの設計方法の流れ図を示す。図２は、特定用途向け集積回路も好ましい実施形態の動作に関する制御フローを示す。図３は、コンパイラ内に入力され得る高水準ソースコードの例の一部を示す。図４は、標準コンパイラにより出力されることになる、図３のコード例に関する、マイクロプロセッサのオブジェクトコードを示す。図５は、図３のコード例に関するコンパイラにより出力される特定用途向け回路構成の例を示す。好ましい実施形態の詳細な説明本発明の好ましい実施形態によれば、高水準プログラミング言語を、特定用途向け集積回路（ＡＳＩＣ）に自動的にコンパイルするための方法が呈される。図１を参照すると、コンピュータプログラムソースコード１０１は、標準コンパイラ技術１０３によって、言語的に独立した中間フォーマット（Ianguage ind ependent intermediate format）１０５に構文解析される（parse）。この中間メフォーマット１０５は、標準の制御およびデータフローグラフであるが、キャプチャーループ、条件ステートメント、アレイアクセスの構成が追加されている。このフォーマットの演算子は、言語的に独立した簡単なＲＩＳＣに似た命令であるが、アレイアクセス用のさらなる演算子と手続呼び出し（procedure calls ）とが備えられている。これらの構成は、コードの並列処理に必要な全ての高水準情報を捉える。コンパイルされた中間フォーマットに関するさらなる説明については、例えば、S．P．Amarasinghe，J．H．Anderson，C．S．Wilson，S.-W．L iao，B．M．Murphy，R．S．French，M．S．Lam，M．W．HallによるMultiprocess ors from a Software Perspective;IEEE Micro，June 1996;pages 52-61を参照のこと。標準コンパイラ技術が用いられているので、入力コンピュータプログラムは、サポートされた高水準プログラミング言語のための任意のリーガルソースコードであってもよい。この方法は、特にハードウェア実装要素を記述するための構成を備えた特別な言語を必要としない。現在、フロントエンドパーサは、ＡＮＳＩＣとＦＯＲＴＲＡＮ７７用に存在しており、かつ、単に新たなフロントエンドパーサを加えることにより他の言語をサポートすることもできる。フロントエンドパーサに関するさらなる説明については、例えば、C．W．Fraser，D．R．Hanson によるA Retargetable Compiler for ANSI C;SIGPLAN Notices，26(10);October 1991を参照のこと。前記中間フォーマット１０５から、本発明の方法は、標準マイクロプロセッサおよびＡＳＩＣという、２つの異なった形式のターゲットハードウェアのためのコード生成を独自にサポートする。ＡＳＩＣはマイクロプロセッサよりもはるかに迅速である一方で、ＡＳＩＣはより大型でかつ高価であるが故に稀少資源として扱われる必要があるので、双方のターゲットが必要とされている。コンパイラは、性能対領域のトレードオフを見積もり、かつ、どのコードブロックを所定の有効ＡＳＩＣ領域のための目標とすべきかを自動的に判断する。前記マイクロプロセッサのためのコード生成は、標準コンパイラ技術１０７により処理される。現在、ＭＩＰＳマイクロプロセッサ用のコード生成プログラムが存在しており、かつ、単に新たなバックエンド生成プログラムを加えることにより他のマイクロプロセッサをサポートすることもできる。生成されたオブジェクトコード１０９において、ＡＳＩＣにより実行されるロジックを呼び出すカスタム命令が、特別命令として挿入される。前記特別命令は、ロード（load）＿コンフィギュレーション、活性化（activa te）＿コンフィギュレーション、呼び出し（invoke）＿コンフィギュレーション、および、解放（release）＿コンフィギュレーションという、４つの生成カテゴリーとなっている。前記ロード＿コンフィギュレーション命令は、前記ロジックと、ＡＳＩＣ上において再構成可能なロジックの単一ブロック用の相互接続とを構成できる固定ビットストリームのアドレスを識別する。図２を参照すると、ＡＳＩＣ２００は、このような１つ以上のブロック２０１ａ，２０１ｂを、埋め込み式マイクロプロセッサ２０５および再構成可能なロジック用の制御ロジック２０７とともに、単一チップ上に有していてもよい。識別されたビットストリームは、例えば、ランダムアクセスメモリ（ＲＡＭ）またはリードオンリーメモリ（ＰＲＯＭまたはＥＥＰＲＯＭ）２０３内に存在してもよい。このビットストリームは、ＡＳＩＣ上において可能なブロック構成のキャッシュへダウンロードされる。前記活性化＿コンフィギュレーション命令は、以前にダウンロードされた構成を識別し、この構成にしたがって、前記再構成可能なロジックをＡＳＩＣブロック上で再構成し、かつ、このブロックをあらゆる後続の活性化命令からロックする。呼び出し＿コンフィギュレーションは、入力されたオペランドレジスタをロードし、出力されたレジスタをロックし、かつ、ＡＳＩＣ上で構成されたロジックを呼び出す。ＡＳＩＣがこの結果を命令の出力レジスタにロードした後に、ＡＳＩＣは、レジスタを解除し、かつ、マイクロプロセッサは、結果を得て実行を継続することができる。前記解放＿コンフィギュレーション命令は、ＡＳＩＣブロックを解除し、このブロックを、後続の活性化＿コンフィギュレーション命令のために有効にする。再構成可能なロジックを備える埋め込み式マイクロプロセッサに関するさらなる説明については、L．Cooke，C．Phillips，D．WongによるAn Integrated Processor and Programmable Data Path Chip for Reconfig u rable Computingという、参考文献として本明細書中に組み込まれている米国特許第０８／８８４，３８０号明細書を参照のこと。ＡＳＩＣロジックのためのコード生成については、幾つかの方法により実行することができる。ある手段は、中間の制御およびデータフローグラフを行動シンセシスプログラムへ渡す。このインタフェースについては、データ構造を直接的に渡すか、または、中間行動言語記述を生成するかのいずれかにより達成することができる。行動シンセシスに関するさらなる説明については、例えば、D．Kna ppによるBehavioral Synthesis;Prentice Hall PTR;1996を参照のこと。他の手段は、中間フォーマットプリミティブの回路手段上への１対１のマッピングを生成する。例えば、スカラー変数およびアレイが、レジスタとして実装され、かつ、適切なビット幅と、加算、乗算、累積、比較のような算術およびブール演算子とを備えるレジスタファイルは、適切なビット幅を備える単一のセルとして実装され、条件分岐手段およびループは、ステートマシンとして実装される。一般に、図１に例示されるように、シリコンコンパイラ１１３は、中間フォーマット１０５におけるコンパイルされたコードと回路プリミティブライブラリ１１５からの回路プリミティブとを入力として受け取り、かつ、ＡＳＩＣ１１７のためのレイアウトまたはコンフィギュレーション情報を生成する。ステートマシン・シンセシスに関するさらなる説明については、例えば、G．De Micheli，A．Sangiova nni-Vincentelli，P．AntognettiによるDesign Systems for VLSI Circuits;Mar tinus Nijhoff Publishers;1987;pp．327-364を参照のこと。シンセシスまたはマッピング段階が完了した後に、セルとこれらセルの相互接続とに関する等価リストが生成される。このリストは、通常は、ネットリストと称される。このネットリストは、次に、前記セルとＡＳＩＣ上におけるこれらのセルの相互接続との実際のレイアウトを決定するプレーサおよびルータに渡される。このレイアウト全体は、次に、暗号化され、かつ、ＡＳＩＣを構成するための単一ユニットとして記憶されかつロードされ得るビットストリームフォーマット形式で圧縮される。前述の処理に関する段階的な例は、図３〜図５に例示されている。プレースおよびルート・アルゴリズムに関する一般的な説明については、T．OhtsukiによるLayout Design and Verification;North-Holland;1986; pp．55-198を参照のこと。ＡＳＩＣのための目標とされることになるコードの基本ユニットはループである。入力ソースコードにおける単一ループについては、中間フォーマット形式で、ランタイムの最適化と図１のオプティマイザおよびパラレライザ１１１による並列処理とのための多数の構成に変換してもよい。並列実行のためのループ変換の程度が、ＡＳＩＣ対マイクロプロセッサの性能を向上させることにおける鍵となる要因である。これらの変換は、一定の伝搬（constant propagation）と、順方向伝搬（forward propagation）と、誘導変数検出（induction variable dete ction）と、一定の折り畳み（constant folding）と、スカラープライベータイゼイション（scalar privatization）解析と、ループ交換と、スキューイングと、反転（reversal）とを備える標準並列処理コンパイラ技術により処理される。並列コンパイラループ変換に関する一般的な説明については、Michael WolfeによるHigh Performance Compilers for Parallel Computing;Addison-Wesley Pub lishing Company;1996;pp．307-363を参照のこと。どのソースコードループが最も相対的な性能向上をもたらすのかを決定するために、標準ソースコードコプロファイラがコンパイラに入力される。このプロファイラの解析は、コードの各々のブロックに費やされたランタイムの百分率を示す。これらの百分率を、各々のループに関して可能な並列処理の量と組み合わせることにより、各々のループの可能なゲインに関する効果尺度（figure of meri t）を見積もることができる。例えば、ゲイン＝（profilePercent）×（１−１／parallelPaths）ここで、profilePercent＝このループで費やされたランタイムの百分率 parallelPaths＝並列に実行することができるパスの数。ソースコードループを実行するために必要なＡＳＩＣ領域の総計は、マッピングされた全てのセルの個々の領域を加算することと、これらのセルを相互接続するために必要な追加領域を見積もることとにより決定される。前記セルとこれらの相互接続とのサイズは、必要とされるデータの精度を実行するために必要なナンバービットに依存する。ＡＳＩＣ領域は、各々のループのコストに関する効果尺度として機能することができる。例えば、コスト＝cellArea＋MAX（0，(interconnectArea−overTheCellArea)）ここで、 cellArea＝全ての成分セル領域の和 overTheCellArea＝cellArea×（１／相互接続のために有効なセル領域） interconnectArea＝（相互接続の数）×（interconnectLength） ×（相互接続の幅） interconnectLength＝（セル数の平方根）／３。相互接続領域の見積もりに関するさらなる情報については、B．Preas，M．Lor enzettiによるPhysical Design Automation of VLSI Systems;Benjamin/Cumming s Publishing Company;1988;pp．31-64を参照のこと。前記方法は、ソースコードにおける全てのループに関する効果尺度を、実際には計算しない。コンパイラは、目標とされたランタイムシステムに応じて、単一ＡＳＩＣブロックのための最大領域、および、最大の総有効ＡＳＩＣ領域という、２つのランタイムパラメータを与えられている。前記コンパイラは、最初に、ループを、これらのランタイム百分率の降順にソートし、次に、各々のループに関する効果尺度を、このループが、被評価領域の総数における所定の境界へ到達するまで評価する。前記所定の境界は、前記最大総有効ＡＳＩＣ領域の一定の倍数である。単一ＡＳＩＣブロックよりも広い領域を必要とするループについては、より簡易な実行のためにスキップしてもよい。最後に、効果尺度が計算された全てのループを用いて、ナップサック・アルゴリズムがこれらのループを選択するために適用される。この手順については、異なったＡＳＩＣにあることと関連したゲインやコストが存在しなければ多数のＡＳＩＣを目標とする場合を処理するために僅かに拡張することができる。ナップサック・アルゴリズムの一般的な説明については、Syslo，Deo，KowalikによるDiscrete Optimization Algorithm s;Prentice Hall;1983;pp．118-176を参照のこと。単一のＡＳＩＣ上に詰め込まれている種々のソースコードループは、一般に、互いに独立している。あるＡＳＩＣ形式、すなわち、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）を用いて、ランタイム時に、機能の幾つかまたは全てを、ＦＰＧＡ上において変更することが可能である。ＦＰＧＡは、再構成可能なロジックに関する１つ以上の独立したブロックを有している。各々のブロックを、他のあらゆるブロックに影響を及ぼすことなく再構成することができる。機能が現在実行されている変更は、コンピュータプログラムが異なったコード領域を実行している際、または、完全に異なったコンピュータプログラムがロードされているとき、または、有効なＦＰＧＡロジックの総計が変化するときであることが望ましい。再構成可能なＦＰＧＡ環境は、実行すべき機能の総セットを選択することと、この機能を多数のＦＰＧＡブロックに沿って区分することと、ＦＰＧＡブロックのローディングおよび活性化の予定を立てることという、コンパイラが解決すべき問題を呈する。これらの問題については、多項式時間（polynomial time）においては最適に解決することができない。以下のパラグラフば、これらの問題に上手く適用され得る幾つかの発見的方法を説明している。単一の瞬間においてＦＰＧＡ上に同時に共存するコンフィギュレーションのセットを、スナップショットと称する。スナップショットを具備する種々の機能は、コンパイラにより別個のブロックに区分され、これにより、このブロックのストール（stall）時間が最小限にされ、それ故に、実行スケジュール全体も最小限にされる。ブロックは、マイクロプロセッサが新たな活性化＿コンフィギュレーション命令を発行したが前のコンフィギュレーションの全ての機能がまだ完了していなければ、ストールされる。区分化は、同時に近い状態で終了する機能をともにまとめる。前記ナップサック・アルゴリズムにより選択された全ての機能は、これらの理想的に予定された終了時間にしたがってソートされる（理想的な終了時間は、これらの機能が予定された開始時間に呼び出されるように、ブロックが遅延なしでダウンロードされかつ活性化されたと仮定している）。終了時間を増加させることにより前記リストを横断して、各々の機能ば、ＦＰＧＡブロック領域の最大容量が到達されるまで、同じＦＰＧＡに割り当てられる。ＦＰＧＡブロックが満たされると、次のＦＰＧＡブロックが開放される。全ての機能がＦＰＧＡブロックに割り当てられた後に、最も早い終了時間と最も後の終了時間との間の差が、各々のＦＰＧＡブロックに関して計算される。次に、各々の機能は、逆の（減少する）順序で再訪される。前記機能を次のＦＰＧＡブロックに再度割り当てることが、その領域容量を超過せずに、かつ、２つのＦＰＧＡブロックに対する２つの差のうちの最大値を縮小させれば、前記機能は、次のＦＰＧＡブロックに再度割り当てられる。前記機能が区分された後に、ＦＰＧＡブロックの各々のコンフィギュレーションを、単一のタスクとして見てもよい。そのデータ依存性および制御依存性は、その割り当てられた機能の依存性の和集合であり、かつ、その必要時間は、その割り当てられた機能の最も遅い終了時間と最も早い開始時間との間の差である。全てのスナップショットにわたる、全てのこのようなコンフィギュレーションタスクのセットについては、各々の物理ＦＰＧＡブロックをプロセッサとして処理する標準マイクロプロセッサ・スケジューリング・アルゴリズムを用いて予定してもよい。このことは、全ての活性化＿コンフィギュレーション命令の予定を立てる。共通のスケジューリング・アルゴリズムは、リスト・スケジューリングと称される。リスト・スケジューリングにおいては、以下の段階が通常の手段である。１．タスクグラフにおける各々のノードは、優先順位を割り当てられる。この優先順位は、タスクグラフの開始地点からノードへの最も長いパスの長さとして規定される。タスクは、タスクの優先順位が減少していく順序でソートされる。２．優先順位待ち行列（priority queue）が空でない限りは、以下のことを行う。ａ．タスクは、この待ち行列の前部から得られる。ｂ．アイドル状態のプロセッサは、タスクを実行するために選択される。ｃ．特定のタスクの全ての中間プロセッサが実行されるときに、このプロセッサは、準備ができており、かつ、前記優先順位待ち行列内に挿入され得る。マイクロプロセッサ・スケジューリング・アルゴリズムに関するさらなる情報については、A．ZomayaによるParallel and Distributed Computing Handbook;M cGraw-Hill;1996;pp.239-273を参照のこと。全てのロード＿コンフィギュレーション命令については、任意のＦＰＧＡブロックのためのコンフィギュレーションの総数が該ＦＰＧＡブロックのコンフィギュレーション・キャッシュの容量を超過しなければ、プログラムの始めに発行してもよい。同様に、このプログラムを２つ以上のセクションに分割してもよく、この場合に、任意のＦＰＧＡブロックのためのコンフィギュレーションの総数は、該ＦＰＧＡブロックのコンフィギュレーション・キャッシュの容量を超過しない。あるいはまた、ロード＿コンフィギュレーション命令を、全てのブロックの活性化＿コンフィギュレーション命令に及ぶプログラムの制御フローグラフにおける最も低い先行分岐地点に予定してもよい。これは、カバーリング・ロード命令と称される。これは、ロード命令のための予備的なスケジュールであるが、実際のロード時間が、マイクロプロセッサがロード＿コンフィギュレーション命令から最初の活性化＿コンフィギュレーション命令へ行くために必要とする時間を超過する場合には、ストールにつながる。さらに、ＦＰＧＡブロックのためのコンフィギュレーションの数は、そのコンフィギュレーション・キャッシュの容量を超過してもよい。このことは、再び、スケジュールにおけるストールにつながる。このような場合には、コンパイラは、ストールの長さと、各々のコンフィギュレーションのために見積もられたゲインとを競合させて比較する。コンフィギュレーションのゲインは、その割り当てられた機能のゲインの和として見積もられる。競合している全てのゲインの中で、最小と見積もられたゲインを有するものが求めて得られる。ストールがこの最小ゲインより大きければ、最小ゲインを伴うコンフィギュレーションは、スケジュール内のその地点においては用いられない。カバーリング・ロード命令が上述のようにデ・スケジュール（de-schedule）されると、仮のロード＿コンフィギュレーションタスクが各々の活性化＿コンフィギュレーション命令の直前に作成される。これらは、活性化＿コンフィギュレーション命令の直前に先行した最も低い分岐地点において作成される。これらは、単一ロード命令と称される。スケジュールの地点においてＦＰＧＡブロックのコンフィギュレーション・キャッシュ容量を超過せずに単一ロード命令を予定するための新たな試みがなされる。以前のスケジューリングの試みと同様に、コンフィギュレーション数が再びコンフィギュレーション・キャッシュ容量を超過すれば、ストールの長さは見積もられゲインと比較される。しかしながら、この場合には、見積もられたコンフィギュレーション・ゲインは、単に、このブランチの下に呼び出される単一の機能のゲインである。再び、ストールが最小ゲインより大きければ、最小ゲインを伴うコンフィギュレーションは、スケジュール内のその地点においては用いられない。デ・スケジュールされたロード命令がカバーリング・ロード命令であれば、この処理は反復され（recursed）、そうではなく単一ロード命令であれば、この処理は終了する。この処理については、ロード命令を１度に１段階だけ制御フローグラフの下に移動させることと、サポートされる必要がある呼び出しの数を減少させることとに対して一般化することができる。単一の段階に関しては、各々の競合するコンフィギュレーションを２つの新たなタスクに区分する。既に予定されたコンフィギュレーションに関しては、割り当てられた機能を、現在時間までに終了する機能と終了しない機能とに分割する。まだ予定されていないコンフィギュレーションに関しては、割り当てられた機能を、ストール時間後にスタートする機能とスタートしない機能とに分割する。分岐予測については、ありそうな分岐結果を予測しかつこの分岐の結果として必要とされそうなコンフィギュレーションをこの分岐に先行してロードするために用いてもよい。必然的に、分岐予測は、時には、実際に必要とされていないコンフィギュレーションがロードされてしまったという結果を伴ってうまくいかない。これらの例に備えるために、正味の実行時間の節約が結果として生ずる場合には、分岐の前にロードされたコンフィギュレーションをクリアしかつ前記分岐に続くために必要な異なったコンフィギュレーションをロードする命令を、分岐命令の前に挿入してもよい。本発明がその意図または本質的な特徴から逸脱することなく他の特定の形式でも実施され得ることが、当業者により理解される。したがって、現在開示されている実施形態は、あらゆる点において、例示的であって制限的なものではないと考えられる。本発明の範囲は、前述の説明よりも、添付された請求項により示されており、かつ、本発明と同義なものの意義および範囲の内部で生ずるあらゆる変更が、本発明中に包含されるように意図されている。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＧＭ，ＫＥ，ＬＳ，ＭＷ，ＳＤ，ＳＺ，ＵＧ，ＺＷ)，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ)，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＥ，ＧＨ，ＧＭ，ＧＷ，ＨＵ，ＩＤ，ＩＬ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＵＡ，ＵＧ，ＵＳ，ＵＺ，ＶＮ，ＹＵ，ＺＷ (72)発明者クリストファー・イー・フィリップスアメリカ合衆国・カリフォルニア・ 95138・サン・ホセ・アシス・コート・ 5888 (72)発明者デール・ウォンアメリカ合衆国・カリフォルニア・ 94121・サン・フランシスコ・サーティフィフス・アベニュ・855

Claims

【特許請求の範囲】１．高水準プログラミング言語で書かれたコンピュータプログラムを、マイクロプロセッサと接続された１つ以上の特定用途向け集積回路による実行のためのプログラムへ自動的にコンパイルするための、コンピュータにより実行される方法であって、前記１つ以上の特定用途向け集積回路により実行されるべき特別命令であって、前記マイクロプロセッサによる実行用に書かれた所定の入力コンピュータプログラムに関する相対的な性能向上という結果となる１つ以上の特別命令のセットを自動的に決定する段階と、前記１つ以上の特別命令を有するコードを生成する段階とを具備することを特徴とする方法。２．前記コードを生成する段階は、前述の機能のローディングおよび活性化のための命令を有する、前記マイクロプロセッサによる実行用のコードを生成する段階を具備することを特徴とする請求項１に記載の方法。３．前記１つ以上の特定用途向け集積回路内の回路構成により実行されるべき機能を有するコードブロックを選択する段階と、前記コードブロックを、領域制約および実行時間制約のうちの少なくとも１つに基づいてグループにまとめる段階と、前記機能のローディングを予定する段階と、前記機能の活性化を予定する段階とをさらに具備することを特徴とする請求項２に記載の方法。４．前記回路構成の詳細な集積回路レイアウトを生成する段階をさらに具備することを特徴とする請求項２に記載の方法。５．前記機能に関するコンフィギュレーションデータを生成する段階をさらに具備することを特徴とする請求項４に記載の方法。６．前記命令は、特定用途向け集積回路上において実行される、ロード、活性化、呼び出し、および／または解放機能に対する特別命令を備えることを特徴とする請求項２に記載の方法。７．前記グループにまとめる段階は、前記選択されたコードブロックに関する開始時間と終了時間とを計算する段階であることを特徴とする請求項２に記載の方法。８．前記開始時間および前記終了時間は、前記選択されたコードブロックが各々の並列動作に関して固定されたオーバーヘッドと並列に実行されると仮定して計算されることを特徴とする請求項７に記載の方法。９．前記固定されたオーバーヘッドは、ＯＶ＝Ｉ＋Ａ＋Ｌとして計算され、ここでＩは、前記特定用途向け集積回路をコプロセッサ命令として呼び出すために必要とされる平均時間であり、Ａは、活性化コンフィギュレーション命令を発行するために必要とされる平均時間＋活性化のための平均ストール時間であり、Ｌは、ロードコンフィギュレーションを発行するために必要とされる平均時間＋ローディングのための平均ストール時間であることを特徴とする請求項８に記載の方法。１０．前記グループにまとめる段階は、グループ内において最も遅い終了時間と最も早い終了時間との間の差が最小とされるように実行されることを特徴とする請求項７に記載の方法。１１．前記グループにまとめる段階は、各々のグループに関して、そのグループの機能を実行するための回路構成が特定用途向け集積回路のブロックの指定された容量を超過しないように実行されることを特徴とする請求項７に記載の方法。１２．前記グループにまとめる段階は、ゼロの総割り当て領域を備える新たなグループを開く段階と、前記コードブロックを所定の順序でソートしかつ横断する段階と、各々のコードブロックに関して、前記ブロックの前記領域＋前記グループの割り当て領域が、単一のグループ用に指定された最大領域を超過しなければ、前記コードブロックを前記グループへ追加し、かつ、前記コードブロックの前記領域を前記グループの割り当て領域へ追加し、そうでなければ、新たなグループを開いて、前記コードブロックを前記新たなグループへ追加し、かつ、前記コードブロックの前記領域を前記新たなグループの割り当て領域へ追加する段階とを具備することを特徴とする請求項７に記載の方法。１３．前記所定の順序は、終了時間の増加方向の順序を一次鍵とし、かつ、開始時間の増加方向の順序を二次鍵とする形式であることを特徴とする請求項１２に記載の方法。１４．前記グループにまとめる段階は、前記コードブロックを、前記終了時間の減少方向の順序に横断する段階と、各々のコードブロックに関して、前記コードブロックが属するグループの開始幅と終了幅とを決定する段階と、前記コードブロックの領域＋異なるグループの割り当てられた領域が単一のグループ用に指定された最大領域を超過せず、かつ、前記コードブロックを再度割り当てることが、前記コードブロックが属するグループと、異なるグループとに関する前記開始幅と前記終了幅のうちの少なくとも１つにおける正味の向上という結果となれば、前記コードブロックを前記異なるグループへ再度割り当てる段階とをさらに具備し、前記開始幅は、同じグループに属する全てのコードブロックの最も遅い開始時間と最も早い開始時間との間の差であり、前記終了幅は、同じグループに属する全てのコードブロックの最も遅い終了時間と最も早い終了時間との間の差であることを特徴とする請求項１３に記載の方法。１５．前記選択する段階は、前記コンピュータプログラムが単一のマイクロプロセッサ上で実行されるときに、各々のコードブロックに費やされた時間の百分率をサンプリングする段階を具備することを特徴とする請求項２に記載の方法。１６．前記選択する段階は、前記高水準プログラミング言語を、前記コンピュータプログラムの制御依存性とデータ依存性とを表す中間データ構造に構文解析する段階と、前記中間データ構造における暗黙並列処理の総計を解析する段階とをさらに具備することを特徴とする請求項１５に記載の方法。１７．前記選択する段階は、前記コンピュータプログラムの前記コードブロックのうちの少なくとも幾つかに関して、特定用途向け集積回路内の回路構成を用いてコードブロックを実装することに関するコストおよび利益を見積もる段階をさらに具備することを特徴とする請求項１６に記載の方法。１８．前記コードブロックを実装することに関するコストおよび利益を見積もる段階は、前記コードブロックが特定用途向け集積回路として実装されれば、実行時間の縮小を見積もる段階と、前記コードブロックが特定用途向け集積回路として実装されれば、必要とされるレイアウト領域を見積もる段階とを具備することを特徴とする請求項１７に記載の方法。１９．前記選択する段階は、特定用途向け集積回路の単一ブロックの最大領域を表す第１ランタイムパラメータと、特定用途向け集積回路として実装するために考慮すべき全てのブロックのための最大総領域を表す第２ランタイムパラメータを受け入れる段階と、前記第１および第２ランタイムパラメータを満たしかつ実行時間の見積もり総縮小量を最大にするコードブロックのセットを選択する段階とをさらに具備することを特徴とする請求項１８に記載の方法。２０．前記第１および第２ランタイムパラメータを満たしかつ実行時間の見積もり総縮小量を最大にするコードブロックのセットを選択する段階は、前記コードブロックを、実行時間の縮小量が減少していく順序にソートしかつ横断する段階と、各々のコードブロックに関して、前記縮小がゼロに等しければ、終了する段階と、前記必要とされるレイアウトを見積もる段階と、前記領域が、特定用途向け集積回路の単一のブロック用に指定された最大領域を超過しなければ、このコードブロックをスキップする段階と、前記全てのブロック用に指定された最大総領域を、１より大きな一定値だけ増加させる段階と、以前選択されたコードブロックの総領域＋現在のコードブロック用に見積もられた必要なレイアウト領域が、前記一定値だけ増加された指定された最大総領域を超過すれば、終了する段階と、そうでなければ、前記コードブロックを選択する段階と、前記選択されたコードブロック上においてさらなる選択を行うために、ナップサック・アルゴリズムと前記最大総領域とを用いる段階とを具備することを特徴とする請求項１９に記載の方法。２１．前記実行時間の縮小が、Ｒ＝Ｔ（１−１／Ｐ）という式にしたがって見積もられ、ここでＴは、前記コードブロックに費やされた実行時間の百分率であり、Ｐは、前記コードブロックにおいて並列に実行され得るパスの数であることを特徴とする請求項１８に記載の方法。２２．前記中間データ構造は、ノードを有するツリー構造であり、かつ、前記レイアウト領域を見積もる段階は、前記ツリー構造の上向きの横断を実行する段階と、前記ツリー内の各々のノードを回路プリミティブのライブラリからのセルにマッピングする段階と、前記マッピングされたセルの総領域を計算する段階と、セルの相互接続のために必要とされるさらなる領域を計算する段階とを具備することを特徴とする請求項１８に記載の方法。２３．前記マッピングは、レジスタへのスカラー変数マップ、レジスタファイルへのアレイマップ、加算器への加算および減算演算子マップ、加算器へのインクリメントおよびデクリメント演算子マップ、乗算器への乗算および除算演算子マップ、比較器への等式および不等式演算子マップ、アキュムレータへの＋＝，−＝演算子マップ、乗算−アキュムレータへの＊＝，／＝演算子マップ、シフトレジスタへの＜＜，＞＞演算子マップ、ブールゲートへの＆，｜，〜，＾演算子マップ、ステートマシンへの分岐マップ、およびステートマシンへのループマップのうちの少なくとも１つを有する多数の所定のマッピングにしたがって実行されることを特徴とする請求項２２に記載の方法。２４．前記マッピングは、前記コンピュータプログラムにより期待されるデータ精度をサポートするために必要とされる有効ピット数を決定することを有することを特徴とする請求項２２に記載の方法。２５．前記相互接続のために必要とされるさらなる領域を計算する段階は、領域＝ｍａｘ（０，(Ａ−Ｂ)）という式にしたがって実行され、ここで、Ａは、相互接続のために必要とされる総領域の椎定値であり、Ｂば、前記相互接続による使用のためにマッピングされたセル内において有効な領域の推定値であることを特徴とする請求項２２に記載の方法。２６．前記Ａは、相互接続の幅と、前記マッピングされたセル数の平方根の分数倍として計算された相互接続の平均長さと、相互接続の総数とに関するランタイムパラメータの積として計算されることを特徴とする請求項２５に記載の方法。２７．前記Ｂは、相互接続のためのセル領域の分数と、前記マッピングされた全セルの総領域とに関するランタイムパラメータの積として計算されることを特徴とする請求項２５に記載の方法。２８．各々のグループに関する実行時間の縮小を見積もる段階をさらに具備することを特徴とする請求項１６に記載の方法。２９．スケジューリングの活性化は、領域制約および実行時間制約のうちの少なくとも１つを条件として、実行時間全体が最小にされるように実行されることを特徴とする請求項２８に記載の方法。３０．前記スケジューリングの活性化は、グループ内の全てのコードブロックのデータ依存性および制御依存性が侵害されないように実行されることを特徴とする請求項２９に記載の方法。３１．前記スケジューリングの活性化は、特定用途向け回路の同時ブロックの指定された数が超過されないように実行されることを特徴とする請求項２９に記載の方法。３２．前記スケジューリングは、各々のグループを別個のタスクとしてモデリングする段階と、特定用途向け集積回路上において再構成可能なロジックの各々の有効ブロックをプロセッサとしてモデリングする段階と、変更されたマイクロプロセッサ・スケジューリング・アルゴリズムを実行する段階とをさらに具備することを特徴とする請求項２９に記載の方法。３３．前記中間データ構造は、アークが依存性を表すグラフであり、前記各々のグループを別個のタスクとしてモデリングする段階は、各々のグループに関して、ノードを前記グラフに加える段階と、グループに割り当てられた各々のコードブロックに関して、以前にノードの代わりに前記コードブロックの地点を指していたアークが前記グループを表すように前記グラフを変更する段階と、前記グループに割り当てられたコードブロックの最も遅い終了時間と最も早い開始時間との間の差を決定する段階と、前記差と等しい、前記グループの必要とされる時間を設定する段階とを具備することを特徴とする請求項３２に記載の方法。３４．前記変更されたマイクロプロセッサ・スケジューリング・アルゴリズムを実行する段階は、標準リストスケジューリング・マイクロプロセッサ・スケジューリング・アルゴリズムを実行する段階と、前記アルゴリズムの実行中に、新たに準備状態となったタスクの準備ができたときにどのプロセッサも有効ではない場合に、プロセッサが有効となるまでストール時間を計算する段階と、新たに準備状態となったタスクと、該新たに準備状態となったタスクの準備ができた時刻に実行するように予定されたタスクとを備える競合するタスクのリストを作成する段階と、最小に見積もられた実行時間の縮小を伴う競合するタスクを見つける段階とを具備することを特徴とする請求項３２に記載の方法。３５．前記変更されたマイクロプロセッサ・スケジューリング・アルゴリズムを実行する段階は、前記ストール時間が前記最小の縮小以下であれば、プロセッサが有効となったときに実行するための新たに準備状態となったタスクをスケジューリングし、かつ、前記マイクロプロセッサ・スケジューリング・アルゴリズムを実行し続ける段階とをさらに具備することを特徴とする請求項３４に記載の方法。３６．前記変更されたマイクロプロセッサ・スケジューリング・アルゴリズムを実行する段階は、前記ストール時間が前記最小の縮小よりも長ければ、前記最小の縮小を伴うタスクを捨て、かつ、前記マイクロプロセッサ・スケジューリング・アルゴリズムを実行し続ける段階をさらに具備することを特徴とする請求項３５に記載の方法。３７．前記変更されたマイクロプロセッサ・スケジューリング・アルゴリズムを実行する段階は、前記ストール時間が前記最小の縮小よりも長ければ、前記新たに準備状態となったタスクを、２つの新たなタスクに置き換える段階と、前記新たに準備状態となったタスクの準備ができる時刻に実行するように予定されたそれそれのタスクを、２つの新たなタスクそれぞれに置き換える段階とをさらに具備し、前記２つの新たなタスクのうち、第１の新たなタスクは、プロセッサが有効となるときより後の開始時間を有する前記新たに準備状態となったタスクのコードブロックを有し、第２の新たなタスクは、前記新たに準備状態となったタスクの他のコードブロックを有することをさらに具備することを特徴とする請求項３５に記載の方法。３８．前記変更されたマイクロプロセッサ・スケジューリング・アルゴリズムを実行する段階は、前記新たなタスクのうち、最小の実行時間の縮小を伴うタスクを見つける段階と、前記最小の実行時間の縮小を伴うタスクを捨てる段階とをさらに具備することを特徴とする請求項３７に記載の方法。３９．スケジューリング・ローディングは、領域制約および実行時間制約のうちの少なくとも１つを条件として、実行時間全体が最小にされるように実行されることを特徴とする請求項２８に記載の方法。４０．前記スケジューリング・ローディングは、各々の機能の活性化がローディングによって先行されるように実行されることを特徴とする請求項３９に記載の方法。４１．前記スケジューリング・ローディングは、特定用途向け回路のブロックのためにロードされた共存するグループ用に指定された容量が超過されないように実行されることを特徴とする請求項３９に記載の方法。４２．前記データ構造は、制御フローグラフを有し、前記スケジューリング・ローディングは、各々のグループをタスクとして、かつ、特定用途向け集積回路の各々の有効ブロックを、指定された最大数の同時タスクを備えたプロセッサとしてモデリングする段階と、首尾よく予定された活性化を伴う各々のグループに関して、前記グループを表すタスクの終了時間と等しい終了時間と、前記グループを表す前記タスクの開始時間から、グループをロードするために必要な時間を指定するランタイムパラメータを差し引いたものに等しい開始時間とを有する新たなロード＿グループタスクを作成する段階とを具備することを特徴とする請求項３９に記載の方法。４３．前記スケジューリング・ローディングは、各々の新たなロード＿グループタスクに関して、ノードを前記制御フローグラフ内に挿入する段階をさらに具備することを特徴とする請求項４２に記載の方法。４４．前記スケジューリング・ローディングは、活性化の直前に先行する前記制御フローグラフ内に分岐ノードを見つける段階と、ロード＿グループタスクのストール時間を、前記分岐ノードの終了時間から前記ロード＿グループタスクの開始時間を差し引いたものとして計算する段階と、前記ストール時間が前記グループ用に見積もられた実行時間の縮小以下であれば、前記分岐ノードから前記ロード＿グループタスクへの制御フローアークを作成し、そうでなければ、前記ロード＿グループタスクを捨て、かつ、前記グループを捨てる段階とをさらに具備することを特徴とする請求項４２に記載の方法。４５．前記スケジューリング・ローディングは、変更されたリスト処理マイクロプロセッサ・スケジューリング・アルゴリズムを実行する段階をさらに具備することを特徴とする請求項４３または請求項４４に記載の方法。４６．前記変更されたリスト処理マイクロプロセッサ・スケジューリング・アルゴリズムを実行する段階は、指定された最大数の同時タスクをプロセッサ毎に伴うリストスケジューリング・マイクロプロセッサ・スケジューリング・アルゴリズムを実行する段階と、前記アルゴリズムの実行中に、新たに準備状態となったタスクの準備ができたときにどのプロセッサも有効ではない場合に、プロセッサが有効となるまでストール時間を計算する段階と、新たに準備状態となったタスクと、該新たに準備状態となったタスクの準備ができた時刻に実行するように予定されたタスクとを備える競合するタスクのリストを作成する段階と、最小に見積もられた実行時間の縮小を伴う競合するタスクを見つける段階とを具備することを特徴とする請求項４５に記載の方法。４７．前記変更されたマイクロプロセッサ・スケジューリング・アルゴリズムを実行する段階は、前記ストール時間が前記最小の縮小以下であれば、プロセッサが有効となったときに実行するための新たに準備状態となったタスクをスケジューリングし、対応するグループタスクのために前記スケジューリングを調整し、かつ、前記マイクロプロセッサ・スケジューリング・アルゴリズムを実行し続ける段階をさらに具備することを特徴とする請求項４６に記載の方法。４８．前記変更されたマイクロプロセッサ・スケジューリング・アルゴリズムを実行する段階は、前記ストール時間が前記最小の縮小よりも長ければ、前記最小の縮小を伴うタスクとその対応するグループとを捨て、かつ、前記マイクロプロセッサ・スケジューリング・アルゴリズムを実行し続ける段階を具備することを特徴とする請求項４６に記載の方法。４９．前記変更されたマイクロプロセッサ・スケジューリング・アルゴリズムを実行する段階は、前記制御フローグラフにおいて、捨てられたロード＿グループタスクを表すノードと、前記対応するグループの活性化を表すノードとの間に分岐ノードが介在すれば、活性化の直前に先行する前記制御フローグラフ内に分岐ノードを見つける段階と、ロード＿グループタスクのストール時間を、前記分岐ノードの終了時間から前記ロード＿グループタスクの開始時間を差し引いたものとして計算する段階と、前記ストール時間が前記グループ用に見積もられた実行時間の縮小以下であれば、前記分岐ノードから前記ロード＿グループタスクへの制御フローアークを作成し、そうでなければ、前記ロード＿グループタスクを捨て、かつ、前記グループを捨てる段階とをさらに具備することを特徴とする請求項４８に記載の方法。５０．前記変更されたマイクロプロセッサ・スケジューリング・アルゴリズムを実行する段階は、前記ストール時間が前記最小の縮小よりも長ければ、前記新たに準備状態となったタスクを、２つの新たなそれそれのタスクおよび対応するグループに置き換える段階と、前記新たに準備状態となったタスクの準備ができる時刻に実行するように予定されたそれそれのタスクを、２つの新たなタスクおよび対応するグループに置き換える段階とをさらに具備し、第１の新たなグループは、プロセッサが有効となるときより後の開始時間を有する前記新たに準備状態となったタスクのコードブロックを有し、第２の新たなグループは、前記新たに準備状態となったタスクの他のコードブロックを有することをさらに具備することを特徴とする請求項４８に記載の方法。５１．前記変更されたマイクロプロセッサ・スケジューリング・アルゴリズムを実行する段階は、前記新たなタスクのうち、最小の実行時間の縮小を有する対応するグループを伴うタスクを見つける段階と、前記最小の縮小を有する対応する区画を伴うタスクを捨てる段階とをさらに具備することを特徴とする請求項５０に記載の方法。５２．前記変更されたマイクロプロセッサ・スケジューリング・アルゴリズムを実行する段階は、前記制御フローグラフにおいて、捨てられたロード＿グループタスクを表すノードと、前記対応グループの活性化を表すノードとの間に分岐ノードが介在すれば、活性化の直前に先行する前記制御フローグラフ内に分岐ノードを見つける段階と、ロード＿グループタスクのストール時間を、前記分岐ノードの終了時間から前記ロード＿グループタスクの開始時間を差し引いたものとして計算する段階と、前記ストール時間が前記グループ用に見積もられた実行時間の縮小以下であれば、前記分岐ノードから前記ロード＿グループタスクへの制御フローアークを作成し、そうでなければ、前記ロード＿グループタスクを捨て、かつ、前記グループを捨てる段階とをさらに具備することを特徴とする請求項５１に記載の方法。