JP5725583B2 - アーキテクチャ・レベルの省電力指向の最適化およびリスク軽減 - Google Patents

アーキテクチャ・レベルの省電力指向の最適化およびリスク軽減 Download PDF

Info

Publication number
JP5725583B2
JP5725583B2 JP2013519755A JP2013519755A JP5725583B2 JP 5725583 B2 JP5725583 B2 JP 5725583B2 JP 2013519755 A JP2013519755 A JP 2013519755A JP 2013519755 A JP2013519755 A JP 2013519755A JP 5725583 B2 JP5725583 B2 JP 5725583B2
Authority
JP
Japan
Prior art keywords
computer
instruction
architecture
execution
computer readable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013519755A
Other languages
English (en)
Other versions
JP2013540295A (ja
Inventor
アナン ダーバ
アナン ダーバ
パイアス ウン
パイアス ウン
ギャリー オブロック
ギャリー オブロック
スレッシュ カディヤラ
スレッシュ カディヤラ
サティシュ パドゥマナバン
サティシュ パドゥマナバン
Original Assignee
アルゴトゥチップ コーポレーション
アルゴトゥチップ コーポレーション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アルゴトゥチップ コーポレーション, アルゴトゥチップ コーポレーション filed Critical アルゴトゥチップ コーポレーション
Publication of JP2013540295A publication Critical patent/JP2013540295A/ja
Application granted granted Critical
Publication of JP5725583B2 publication Critical patent/JP5725583B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/30Circuit design
    • G06F30/32Circuit design at the digital level
    • G06F30/33Design verification, e.g. functional simulation or model checking
    • G06F30/3308Design verification, e.g. functional simulation or model checking using simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/30Circuit design
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/30Circuit design
    • G06F30/32Circuit design at the digital level
    • G06F30/337Design optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/30Circuit design
    • G06F30/39Circuit design at the physical level

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • Design And Manufacture Of Integrated Circuits (AREA)

Description

(相互に参照される出願)
出願人を共通とする、同日に出願された米国特許出願第12/835,603号『アルゴリズムおよび仕様に基づく自動最適集積回路ジェネレータ(AUTOMATIC OPTIMAL INTEGRATED CIRCUIT GENERATOR FROM ALGORITHMS AND SPECIFICATION)』、米国特許出願第12/835,621号『アルゴリズムおよび仕様に基づく自動最適集積回路ジェネレータ(AUTOMATIC OPTIMAL INTEGRATED CIRCUIT GENERATOR FROM ALGORITHMS AND SPECIFICATION)』、米国特許出願第12/835,628号『駆動電力ゲーティングの応用(APPLICATION DRIVEN POWER GATING)』、米国特許出願第12/835,631号『集積回路におけるシステム、アーキテクチャおよびマイクロアーキテクチャ(SAMA)表現(SYSTEM, ARCHITECTURE AND MICRO‐ARCHITECTURE (SAMA) REPRESENTATION OF AN INTEGRATED CIRCUIT)』、および米国特許出願第12/835,640号『アーキテクチャ・レベルの省電力指向の最適化およびリスク軽減(ARCHITECTURAL LEVEL POWER‐AWARE OPTIMIZATION AND RISK MITIGATION)』が相互に関連しており、これらの文献によって参照される内容が、本願に援用される。
本発明は、アーキテクチャ・レベルの省電力指向の最適化およびリスク軽減のための方法および装置に関する。
電力の分布は、しばしば、製品内において消費される電力のレベルと同程度に重要になる。消費される電力のレベルがより低い場合であってさえ、消費部位が限られたエリア内に位置するときには、その位置で重大な電圧降下を生じさせることがある。続いて、その位置におけるパフォーマンスの低下を生じさせる。これは、電圧降下/IRホット−スポットと呼ばれる。
通常、アルゴリズムおよび/またはプロダクト仕様から、アーキテクチャ開発者が、プロダクトをハードウエアおよびソフトウエアに分割することによってアーキテクチャを開発する。続いて設計者が、レジスタ・トランスファ言語(RTL)コード等の中間コードにそのアーキテクチャを翻訳する。その後、フロア・プランニングが行なわれ、そこで初めてICレイアウトの生成が可能になる。レイアウトの後に、そのレイアウトについてのホット−スポット分析を行なうことが可能になり、ホット−スポット分析が、現在の設計から生じているIRホット−スポットが容認可能でないことを示している場合には、ユーザは、すべてのシーケンス、すなわちアーキテクチャ開発、RTL、フロア・プランニング、レイアウト、およびホット−スポット分析からなる全シーケンスを再度始める。このプロセスは、非常に長々しくなる可能性があり、かつ設計の複雑性によっては数百万ドルのコストが掛かる可能性がある。
第1の態様においては、コンピュータ可読コードを含むカスタム集積回路の仕様を受け取り、かつそのコンピュータ可読コードのプロファイルを生成してインストラクション利用度を決定し、そのコンピュータ可読コードに対して固有のカスタマイズがなされたプロセッサ・アーキテクチャであって、1つまたは複数のインストラクションを実装する1つまたは複数の処理ブロックを有するプロセッサ・アーキテクチャを自動的に生成し、上記のコード・プロファイルに基づいてインストラクション実行シーケンスを決定し、かつそのインストラクション・シーケンスの再割り当てを行なってホット−スポットを低減するべくIC上の異なるブロックに動作を分散させ、生成されたプロセッサ・チップ仕様を、半導体製造のために、カスタム集積回路のコンピュータ可読記述に合成する、ことによってカスタム集積回路を自動的に合成するシステムおよび方法が開示されている。
別の態様においては、実行シーケンスの再整理を行なってIC上の動作を空間的に分散させることに代えて、プロセスが、コード・プロファイルに基づいてインストラクション実行シーケンスを決定し、かつ処理ブロックの空間的な再割り当てを行なってホット−スポットを低減するべくIC上の異なるエリアに動作を分散させることができる。
上記の態様の実装には、次に示す内容のうちの1つまたは複数が含まれる。このプロセスは、1つ1つのマシン・インストラクションと、オンチップ・ロジックおよび相互接続構造のコレクションである関連付けされたハードウエア実行パスと、を関連付ける。実行パスは、インストラクションのハードウエア「フットプリント」と考えることが可能である。データ・モデルは、可能性のあるすべての実行パスおよびそれらに関連付けされたインストラクションの記録を保持している。データ・モデルは、多様なマシン・インストラクションの統計的プロファイルを受け取り、そこから、任意の所定サイクル内においてインストラクションが実行される定常状態確率を抽出する。データ・モデルは、各インストラクション実行パスに対して推定された位相幾何学的レイアウトを作り出すことが可能である。レイアウトは、物理設計のモデリングのために必要とされる適切なアブストラクション・レベルを選択する、あらかじめ決定済みのプロトコルに基づいた多様な物理設計モデルを使用して推定される。データ・モデルは、インストラクションの実行の定常状態確率を、それの実行パスの位相幾何学的レイアウトと関連付けする。データ・モデルは、レイアウトの部分領域を作り出すが、各部分領域には、部分領域の重みの計算に使用される実行パスの確率の集まりをもたらす、交差する実行パスの集まりが存在する。部分領域の重みの(全領域にわたる)分布は、電力ホット−スポットの部位の推定に使用される。データ・モデルは、影響を受けるインストラクション、すなわち実行パスが電力ホット−スポットと交差するインストラクションを識別する。その後、電力ホット−スポット領域が、仮想の制限容量リソースとしてモデリングされる。データ・モデルは、制限容量リソースに依存して影響を受けるインストラクションを調べるべくコンパイラのインストラクション・スケジューラを調整する。制限容量は、閉じた連続の中でアクティブ化が許されるべき部分領域内の実行パスの数を制限することと解釈される。その種のリソース依存度は、インストラクション・スケジューラのリソース割り付けテーブルに容易に追加することが可能である。その後、このインストラクション・スケジューラの最適化が、前述のように作り出された仮想リソースを、そのほかのパフォーマンス・コスト関数とともに考慮する。したがって、電力およびパフォーマンスが同時に最適化される。システムは、プロファイルから機能ブロック利用度の統計を生成することができる。システムは、時間の関数として、異なる処理ブロックの利用度を追跡することができる。システムは、1つまたは複数の処理ブロックのための電力を推測して遮断することが可能であり、必要時には、電力を遮断した処理ブロックを自動的にオンに切り換えることができる。各電力ドメインに電力がいつ印加されるべきかについては、インストラクション・デコーダが決定することができる。アプリケーション・コードを走らせるカスタムICのためのソフトウエア・ツールは、自動的に生成することが可能である。これらのツールには、コンパイラ、アッセンブラ、リンカ、サイクル−ベースのシミュレータのうちの1つまたは複数が含まれる。ツールは、自動的にファームウエアを生成する。ツールは、ファームウエアのプロファイリングを行なうことが可能であり、ファームウエアのプロファイルを、最適化するアーキテクチャにフィードバックする。コンパイラのインストラクション・スケジューラは、この電力最適化スキームが与えられ、利点を最大化するべくインストラクションの順序をアレンジすることが可能である。システムは、あらかじめ決定済みの物理的な制約に基づいてプロセッサ・アーキテクチャを反復的に最適化することが可能である。システムは、コンピュータ可読コードの静的プロファイリングまたは動的プロファイリングを実行することが可能である。システムは、コンピュータ可読コードを走らせるカスタム集積回路のためのソフトウエア開発キット(SDK)を自動的に生成することが可能である。コンピュータ可読コードは、アッセンブリ・コードに変換され、かつリンクされて、選択されたアーキテクチャのためのファームウエアを生成することが可能である。システムは、ファームウエアのサイクル精度のシミュレーションを実行することが可能である。アーキテクチャは、プロファイリングが行なわれたファームウエアおよび/またはアッセンブリ・コードに基づいて最適化が行われることが可能である。システムは、選択されたアーキテクチャのために、したがって、タイミング、面積、または電力に関して最適化された物理設計のために、レジスタ・トランスファ・レベルのコードを生成することが可能である。システムは、RTLコードを合成することが可能である。
好ましい実施態様の利点には、次に示す内容のうちの1つまたは複数が含まれる。静的電力は、アーキテクチャ上の見通しからコントロールすることが可能である。このことは、チップ設計者に、消費される電力のより良好な取り扱いを前もって獲得させることになり、さらには電力関連のスケジュール遅延を回避させることにもなる。システムは、コスト関数の更新を通じて、ホット−スポット管理における予測可能性を改善する。これにより、ホット−スポットによって招かれる部分最適性に関して予期しない事態が発生することを回避することができる。インストラクション・スケジューラにはデータ・モデルを通じて電力利用度が通知され、インストラクションの実行をスケジューリングすることによる真のコストを調べることができ、その結果、チップ上の最小限のホット−スポットを伴った高いパフォーマンスがもたらされる。したがって、このインストラクション・スケジューラが、予測されたホット−スポット情報を使用し、かつこの情報を仮想リソース制約にマップすることが可能であるという点から、このインストラクション・スケジューラは「省電力指向」であり、標準の既製のインストラクション・スケジューラが省電力指向となることが可能となる。
別の態様においては、コンピュータ可読コードおよびカスタム集積回路に対する1つまたは複数の制約を含むカスタム集積回路の仕様を受け取り、コンピュータ可読コードに対して固有のカスタマイズがなされたチップ仕様の物理的な合成のための情報を渡すべく、データ・モデル内においてアーキテクチャ・レベルの知識をエンコーディングし、チップ仕様の物理的な合成およびデータ・モデルの更新を、制約が満たされるまで反復的に実行し、半導体製造のために、チップ仕様のコンピュータ可読記述をカスタム集積回路内に合成する、ことによってカスタム集積回路を自動的に合成するシステムおよび方法が開示されている。
上記の態様の実装には、次に示す内容のうちの1つまたは複数が含まれる。システムは、階層内のセルのグループ化がハード制約またはソフト制約であるか否かを示すプレフィクスおよびポストフィクス・タグを適用することが可能である。アーキテクチャ・レベルの情報からのクリティカル・パスを示すべく、名前に特定のプレフィクス/ポストフィクスをストアすることが可能である。システムは、マクロ・ブロック名、階層名、プラグマ、コメント、ダミー・モジュール、およびラッパー・モジュールのうちの1つを用いて、最適なタイミングを実現するのための配置の制約を示すことが可能である。システムは、以前の繰り返しの中で取り込んだか、またはユーザによって供給された情報を使用して、クリティカル・パスを検出するために先読みを実行することが可能である。制約は、レジスタ・トランスファ言語(RTL)の制約、フロア・プランの制約、物理的な制約、タイミングの制約、電力の制約、システム・レベルの制約のうちの1つであるとすることが可能である。制約情報は、とりわけネットリストのインスタンスのネーミング・プロトコルを通じてデータ・モデルに提供することが可能である。
システムの好ましい実施態様の利点には、次に示す内容のうちの1つまたは複数が含まれる。システムは、設計活動のなかでもっとも詳細な技術水準を要する物理的な合成を自動化する。初期の設計段階においては、実在のクリティカル・パスが、解決可能なクリティカル・パスによってマスクされる。システムは、いずれのクリティカル・パスについて最適化を行なうかを自動的に決定し、かつ実在のクリティカル・パスを自動的に明らかにする。システムは、非階層的設計方法および、単一の処理の実行の中で完全な回路を分析する階層的方法を使用する。この包括的アプローチは、設計者およびツールが常時、同一の回路のすべての側面に焦点を当てているため、設計の収束をもたらす。このシステムは、チップ設計の問題を緩和し、それを単純なプロセスにする。これらの実施態様は、プロダクト開発プロセスの焦点を、ハードウエア実装プロセスからプロダクト仕様およびコンピュータ可読コードまたはアルゴリズム設計に戻るようにシフトさせる。特定のハードウエアを選択することに束縛される代わり、コンピュータ可読コードまたはアルゴリズムが、それの適用のために特に最適化されたプロセッサ上において実装されることが可能となる。好ましい実施態様は、最適化されたプロセッサを自動的に、すべての関連付けされたソフトウエア・ツールおよびファームウエア・アプリケーションとともに生成する。このプロセスは、これまで数年の問題として対処されていた事項を、数日の問題として対処することを可能とする。このシステムは、ハードウエア・チップ・ソリューションが設計される方法におけるパラダイムを完全にシフトするものである。
このシステムは、チップ設計の知識をまったく伴うことなく、アルゴリズム設計者自身が直接ハードウエア・チップを作ることが可能となるように、リスクを取り除き、チップ設計を自動的なプロセスにする。システムへの一次的な入力は、CまたはMATLAB(マトラボ)等のより高水準の言語で記述されたコンピュータ可読コードまたはアルゴリズム仕様となる。
このシステムを使用する多くの利点のうちのいくつかには、次のようなものが含まれる。
(1)スケジュール:チップ設計サイクルが数年単位ではなく数週単位に落ち着くことになる場合には、このシステムを使用している会社が、自社の製品をすばやく市場に持ち込むことによって急速に変化する市場に浸透することが可能になる。
(2)コスト:一般にチップの実装に使用する必要がある多数の技術者が不必要なものとなる。このことは、このシステムを使用している会社に夥しいコストの節約をもたらす。
(3)最適性:このシステム・プロダクトを使用して設計されたチップは、優れたパフォーマンス、面積、および電力消費を有している。
このシステムは、システムの設計にデジタル・チップ構成要素を有するシステムの設計で使用される方法におけるパラダイムを完全にシフトするものである。このシステムは、C/MATLAB(マトラボ)で記述されたアルゴリズムからデジタル・ハードウエアを生成する完全に自動化されたソフトウエア・プロダクトである。このシステムは、CまたはMATLAB(マトラボ)等の高水準言語を採用してハードウエア・チップを実現するプロセスへの独特のアプローチを使用する。要約して言えば、これは、チップ設計を完全に自動化されたソフトウエア・プロセスにする。
図1は、カスタムICを自動的に生成するシステムの一例を示す。 図2は、カスタムICを自動的に生成するワークフローの一例を示す。 図3は、カスタムICを自動的に生成するプロセスの一例を示す。 図4は、データ・モデルの一例を示す。 図5は、アーキテクチャ・レベルのホヮット−イフ・インクリメンタル・コスト推定データ・モデル(WICE−DM)の一例を示す。 図6は、設計のフロント−エンド、すなわちこの場合はWICE−DMのフロント−エンドを初期化するプロセスの一例を示す。 図7Aは、最適化ループ・バックを伴う物理的な合成プロセスの一例を示す。 図7Bは、最適化ループ・バックを伴う物理的な合成プロセスの一例を示す。 図8Aは、インストラクション実行プロファイルに基づいたインストラクションの発行とパス・エクササイズの間における相関の一例を図解した説明図である。 図8Bは、どのようにしてインストラクション・スケジューラがインストラクション実行プロファイルに基づいて電力ホット−スポットを最小化することが可能であるかの一例を図解した説明図である。 図8Cは、本発明の1つの態様によるワークフロー・プロセスの一例を示す。 図9Aは、どのようにしてホット−スポットを意識したインストラクション・スケジューラの最適化をデータ・モデルによって達成可能であるかを記述したタスク・レベルのプロセスの一例を示す。 図9Bは、どのようにしてホット−スポットを意識したインストラクション・スケジューラの最適化をデータ・モデルによって達成可能であるかを記述したタスク・レベルのプロセスの一例を示す。
図1は、カスタムICを自動的に生成するシステムの一例を示している。図1のシステムは、選択された目標とするアプリケーションに対する最適カスタム集積回路ソリューションを自動的に生成することをサポートする。目標とするアプリケーションの仕様は、一般に、C、MATLAB(マトラボ)、SystemC(システムC)、フォートラン、エイダ等の高水準言語またはそのほかのいずれかの言語によるコンピュータ可読コードとして表現されたアルゴリズムを通じてなされる。仕様は、目標とするアプリケーションの記述を含み、またそれには、望ましいコスト、面積、電力、速度、パフォーマンス、およびそのほかのハードウエア・ソリューションの属性といった1つまたは複数の制約も含まれる。物理的な合成を補助するため、システムは、ネットリスト・ファイルに『側波帯』情報をエンコーディングし、オリジナルのユーザ制約のみで実現されるより、物理的な合成のガイドする上でより生産的な(物理的はもとよりタイミングの)設計制約をファイルに保存することが可能である。起き得る形態においては、その種の制約は、ネットリストのインスタンス名設定スキームを通じた『暗黙的』なものである。
図1においては、ICカスタマがプロダクト仕様102を生成する。通常は、所望のプロダクトのすべての主要機能を取り込んだ初期プロダクト仕様が存在する。そのプロダクトから、アルゴリズムの専門家がそのプロダクトに必要とされるコンピュータ可読コードまたはアルゴリズムを識別する。それらのアルゴリズムのうちのいくつかは、サードパーティから、または標準開発委員会からのIPとして利用可能となることがある。それらのうちのいくつかは、製品開発の一部として開発されなければならない。この態様においては、さらにプロダクト仕様102が、とりわけCプログラム等のプログラムまたはMATLAB(マトラボ)モデル等の数学モデルとして表現することが可能なコンピュータ可読コードまたはアルゴリズム104で詳述される。プロダクト仕様102は、また、とりわけコスト、面積、電力、プロセス・タイプ、ライブラリ、およびメモリ・タイプ等の要件106も含んでいる。
コンピュータ可読コードまたはアルゴリズム104および要件106は、自動化されたICジェネレータ110に提供される。コードまたはアルゴリズム104およびチップ設計に課せられた制約だけに基づいて、ICジェネレータ110は、図2のプロセスを使用し、人間の係り合いをまったく伴うことなく、GDSファイル112、ICに実行させるファームウエア114、ソフトウエア開発キット(SDK)116、および/またはテスト・スイート118を含む出力を自動的に生成する。GDSファイル112は、カスタム・チップ120の製造に使用される。その後ファームウエア114が、製造されたこのチップ上で実行されて、カスタマ・プロダクト仕様102を実装する。
物理的な合成の間、ICジェネレータ110は、ネットリスト・ファイルに『側波帯』情報をエンコーディングする。その後、システムは、物理的な合成のガイドする上での(物理的はもとよりタイミングの)設計制約を適用する。起き得る形態においては、その種の制約は、ネットリストのインスタンス名設定スキームを通じた『暗黙的』なものである。
図1のシステムは、チップ設計の課題を緩和し、それを単純なプロセスにする。このシステムは、プロダクト開発プロセスの焦点を、ハードウエア実装プロセスからプロダクト仕様およびアルゴリズム設計に戻すようにシフトさせる。特定のハードウエアを選択することに束縛される代わりに、アルゴリズムが、その適用のために特に最適化されたデジタル・チップ・プロセッサ上において実装されることが常に可能となる。システムは、この最適化されたプロセッサを自動的に、すべての関連付けされたソフトウエア・ツールおよびファームウエア・アプリケーションとともに生成する。この全体的なプロセスは、これまで数年を要する問題として対処されていた事項を、数日の問題として対処することを可能とする。要約して言えば、このシステムは、プロダクト開発のデジタル・チップ設計部分をブラック・ボックス化する。
1つの実施態様においては、このシステム・プロダクトが、次に示すものを入力することが可能である。
C/MATLAB(マトラボ)で定義されたコンピュータ可読コードまたはアルゴリズム、
必要とされる周辺機器、
IO仕様、
面積目標、
電力目標、
マージン目標(将来的なファームウエア更新のためにどの程度のオーバーヘッドを組み込むべきか、またどの程度複雑性が増加するか)、
プロセスの選択肢、
標準セル・ライブラリの選択肢、
メモリ・コンパイラの選択肢、
テスト可能性(スキャン、タップ・コントローラ、内蔵セルフ・テスト機能等)。
システムの出力は、関連付けされるファームウエアすべてを伴ったデジタル・ハード・マクロとすることができる。このデジタル・ハード・マクロのために最適化されたソフトウエア開発キット(SDK)もまた自動的に生成されて、ファームウエアに対する将来的なアップグレードがプロセッサの交換を強いることなく実装されることが可能である。
図2は、カスタムICを自動的に生成するワークフローの一例を示している。このシステムは、選択された目標とするアプリケーションに対する完全かつ最適なハードウエア・ソリューションを自動的に生成する。共通の目標とするアプリケーションは埋め込みアプリケーション領域内にあるが、それらは、必ずしもそれに限定されない。
図2を参照すると、まずASICカスタマがプロダクト仕様202を生成する。プロダクト仕様202は、さらに、とりわけCプログラム等のプログラムまたはMATLAB(マトラボ)モデル等の数学モデルとして表現することが可能なコンピュータ可読コードまたはアルゴリズム204で詳述される。プロダクト仕様202は、また、とりわけコスト、面積、電力、プロセス・タイプ、ライブラリ、およびメモリ・タイプ等のプロダクト・パラメータおよび要件206も含んでいる。コンピュータ可読コードまたはアルゴリズム204およびプロダクト・パラメータ206は、自動最適インストラクション・セット・アーキテクチャジェネレータ(AOISAG)(210)を含む自動化されたICジェネレータ110に提供される。ジェネレータ210は、自動最適チップ・ジェネレータ(AOCHIPG)244を駆動する自動最適RTLジェネレータ(AORTLG)242をコントロールする。AOCHIPG 244は、ネットリスト・ファイルに『側波帯』情報をエンコーディングし、オリジナルのユーザ制約のみで実現されるより、物理的な合成のガイドする上でより生産的な(物理的はもとよりタイミングの)設計制約をファイルに保存することが可能である。起き得る形態においては、その種の制約は、ネットリストのインスタンス名設定スキームを通じた『暗黙的』なものである。
AOCHIPG 244およびAORTLG 242の出力は、AOISAG 210のフィードバック・ループ内に提供されている。またAOISAG 210は、自動最適ファームウエア・ツール・ジェネレータ(AOFTG)246もコントロールし、それの出力は、自動最適ファームウエア・ジェネレータ(AOFG)248に提供される。AOFG 248の出力もまた、AOISAGへのフィードバック・ループ内に提供される。
ICジェネレータ110は、出力として、GDSファイル212、ICを実行させるファームウエア214、ソフトウエア開発キット(SDK)216を生成する。GDSファイル212およびファームウエア214は、カスタム・チップ220を製造するTSMCまたはUMC等のIC製造器230に提供される。
1つの実施態様においては、システムが完全に自動化される。人力の介入または誘導は、まったく必要とされない。このシステムは、最適化されている。ツールが、最適ソリューションを自動的に生成することになる。このほかの実施態様においては、必要であればユーザが間に割り込んで人間による誘導を提供することが可能である。
AOISAG 210は、最適インストラクション・セット・アーキテクチャ(ISAと呼ばれている)を自動的に生成することが可能である。ISAは、プログラマブル・ハードウエア・ソリューションの実現に必要とされ、かつ全デジタル・チップ仕様を規定するあらゆる詳細まで定義される。これらの詳細は、次に例として示すファクタのうちの1つまたは複数が含まれる。
(1)インストラクション・セットの機能、エンコーディング、および圧縮、
(2)コ‐プロセッサ/マルチ‐プロセッサ・アーキテクチャ、
(3)スカラー性、
(4)レジスタ・ファイル・サイズおよび幅、アクセス待ち時間およびポート、
(5)固定小数点サイズ、
(6)静的および動的分岐予測、
(7)コントロール・レジスタ、
(8)スタック演算、
(9)ループ、
(10)サーキュラー・バッファ、
(11)データ・アドレシング、
(12)パイプラインの深さおよび機能、
(13)サーキュラー・バッファ、
(14)周辺機器、
(15)メモリ・アクセス/待ち時間/幅/ポート、
(16)スキャン/タップ・コントローラ、
(17)専用アクセラレータ・モジュール、
(18)クロック仕様、
(19)データ・メモリおよびキャッシュ・システム、
(20)データ・プリ‐フェッチ・メカニズム、
(21)プログラム・メモリおよびキャッシュ・システム、
(22)プログラム・プリ‐フェッチ・メカニズム。
AORTLG 242は、最適ISAから、レジスタ・トランスファ言語(RTL)でのハードウエア・ソリューションの自動生成を提供する自動最適RTLジェネレータである。AORTLG 242は、完全に自動化されている。人力の介入または誘導は、まったく必要とされない。ツールが、最適ソリューションを自動的に生成することになる。生成されたRTLは合成可能、かつコンパイル可能である。
AOCHIPG 244は、最適RTLからGDSIIハードウエア・ソリューションの自動生成を提供する自動最適チップ・ジェネレータである。ツール244は、完全に自動化されている。人力の介入または誘導は、まったく必要とされない。ツールが、最適ソリューションを自動的に生成することになる。生成されたチップは、完全に機能を実現するものであり、かつ修正を伴うことなく標準FABを使用して製造することが可能である。
AOFTG 246は、ハードウエア・ソリューション上におけるファームウエア・コードの開発に必要とされるソフトウエア・ツールを自動的に生成するための自動最適ファームウエア・ツール・ジェネレータである。これは、完全に自動化されている。人力の介入または誘導は、まったく必要とされない。ツールが、最適ソリューションを自動的に生成することになる。コンパイラ、アッセンブラ、リンカ、機能シミュレータ、サイクル精度のシミュレータといった標準ツールを、デジタル・チップ仕様に基づいて自動的に生成することが可能である。AOFG 248は、結果として得られるチップ120による実行が必要になるファームウエアの自動生成を実行する自動最適ファームウエア・ジェネレータである。このツールは、完全に自動化されている。人力の介入または誘導は、まったく必要とされない。それに加えて、このツールは、最適ソリューションを自動的に生成することになる。最適化されたリアルタイム・オペレーティング・システム(RTOS)もまた、自動的に生成することが可能である。
チップ仕様は、カスタマ・アプリケーションの実行に必要とされる正確な機能ユニットを定義する。またこれは、並列に使用されるこれらのユニットの数が決定されるように固有の並列処理も正確に定義する。ミクロ的およびマクロ的レベルの並列処理の複雑性が、すべて、プロファイリング情報から抽出され、したがってチップ仕様は、この情報を伴って設計される。したがって、チップ仕様は、最適に設計され、この種のプロファイリング情報を伴わないでチップ仕様が設計される場合に起こり得るような設計が過剰になることまたは設計が不足することがない。動的プロファイリングの間に分岐の統計値が収集され、この情報に基づいて分岐予測メカニズムが最適に設計される。また、連続するインストラクションの間におけるすべての依存性チェックも、このプロファイリングから既知となり、したがってチップ仕様のパイプラインおよびインストラクション・スケジューリングに関する点のすべてが最適に設計される。
チップ仕様は、次に挙げるようなオプションを提供することが可能である。
* ラッピングについて絶えずテストすることを必要とせずに、サーキュラー・バッファが実装されることを可能にする、ハードウエア・モジュロ・アドレシング。
* DMAを広範囲に使用し、コードを予測してキャッシュ階層および関連する遅延についての情報が書き込まれる、ストリーミング・データのために設計されたメモリ・アーキテクチャ。
* 複数の演算ユニットの駆動は、メモリ・アーキテクチャが毎インストラクション・サイクル当たりいくつかのアクセスをサポートすることを要求する。
* 独立したプログラムおよびデータ・メモリ(ハーバード・アーキテクチャ)、および場合によっては複数のデータ・バス上における同時アクセス。
* 特殊SIMD(単一インストラクション多重データ)演算。
* いくつかのプロセッサは、VLIWテクニックを使用し、したがって各インストラクションが複数の演算ユニットを並列に駆動する。
* 特殊な演算、たとえば高速積和演算(MAC)等。
* ビット反転アドレシング、FFTの計算に有用な特殊なアドレシング・モード。
* 特殊なループ・コントロール、たとえばインストラクションのフェッチまたは出口テストのためのオーバーヘッドを伴わない非常にタイトなループ内において少数のインストラクション・ワードを実行するためのアーキテクチャ上のサポート等。
* データ欠如のために実行ユニットが機能停止することが皆無であるように、データ・プリ‐フェッチ・メカニズムと結合された特殊なプリ‐フェッチ・インストラクション。これにより、メモリ帯域幅が、所定の実行ユニットおよびその種の実行ユニットを使用するインストラクションのスケジューリングのために最適に設計される。
図3は、図1のカスタム・チップ120を自動的に生成するためのプロセス・フローの一例を示している。ここで図3を参照するが、まずカスタマ・プロダクト仕様が生成される(302)。カスタマ・プロダクト仕様302は、さらに、とりわけCプログラム等のプログラムまたはMATLAB(マトラボ)モデル等の数学モデルとして表現することが可能なコンピュータ可読コードまたはアルゴリズム304で詳述される。
カスタマ・アルゴリズム304は、静的316および動的318にプロファイリングが行なわれる。このプロファイリングから収集された統計が、アーキテクチャ・オプティマイザ・ユニット320内において使用される。このユニットはまた、カスタマ仕様302も受け取る。ベース機能ジェネレータ314は、カスタマ・アルゴリズム304の実装に必要となる基本的演算子または実行ユニットを決定する。ベース機能ジェネレータ314の出力はまた、アーキテクチャ・オプティマイザ320へも供給される。
アーキテクチャ・オプティマイザ320の出力に基づいて、初期チップ仕様がアーキテクチャ322として定義される。続いてこれが、ツール・ジェネレータ332ユニットに供給されて自動的にコンパイラ306、アッセンブラ308、リンカ310、およびサイクル精度のシミュレータ338を生成する。その後、これらの一連のツールを使用して、カスタマ・アルゴリズム304が、アーキテクチャ322上で実行することが可能なファームウエア312に変換される。
アッセンブラ308の出力は静的プロファイリング334が行ない、サイクル精度のシミュレータ338の出力は動的プロファイリング340が行なう。これらのプロファイル情報は、その後、アーキテクチャ・オプティマイザ342によって使用され、アーキテクチャ322の純化および改善が行なわれる。
カスタマ仕様が満たされるまで322から332、306、308、310、312、338、340、342へと至り、322に戻るフィードバック・ループ、および322から332、306、308、334、342へと至り、322に戻るフィードバック・ループが、反復的に実行される。これらのフィードバック・ループは、人間の介入をまったく伴わずに自動的に生じ、したがって自動的に、最適ソリューションに到達する。
アーキテクチャ・オプティマイザ342は、アーキテクチャ・フロア‐プランナ336および、合成およびP&R 328フィードバックにも基づいている。アーキテクチャの決定は、アプリケーション・プロファイリング情報だけでなく、物理的な場所およびルート情報も参照して行なわれる。アーキテクチャの最適化は正確であり、設計済みアーキテクチャのバック・エンド設計で起き得る驚きの事態が生じることはない。たとえば、アーキテクチャ・オプティマイザが、2つの16ビットのオペランドを入力として取り、32ビットの結果を生成する乗算器ユニットを使用することを選択したものとする。アーキテクチャ・オプティマイザ342は、それらのオペランドを適用した時点と、フロア‐プランナ336および合成328からの結果を利用可とする時点との間における正確なタイミング遅延を承知している。アーキテクチャ・オプティマイザ342はまた、実際のチップ内において乗算器が配置され、ルーティングされるときの正確な面積も承知している。したがって、この乗算器を使用するためのアーキテクチャは、プロファイリング・データからのこの乗算器の必要性に基づくだけでなく、面積、タイミング遅延(パフォーマンスとも呼ばれている)、および電力の観点から見たこの乗算器に関連するコストにも基づいて決定される。
別の例においては、パフォーマンスがカスタム・チップ上における制約事項である場合に、パフォーマンスを高速化するために、コンパイラ306は、シリアル・プロセッサ上での実行に長時間を要するプログラム、コード、またはアルゴリズムを抽出し、同時演算が可能な複数の処理ユニットを含む新しいアーキテクチャがあれば、それを、多重処理ユニット内において並列に、またはオーバーラップ態様で処理することが可能である複数の部品に分解することによってプログラムの実行時間を短縮する。フロント・エンドの追加のタスクは、並列処理を捜し出すことであり、バック・エンドの追加のタスクは、正しい結果および向上したパフォーマンスが獲得される態様でそれをスケジュールすることである。システムは、どのような種類の部品をプログラムが分割するか、およびどのようにそれらの部品を再アレンジできるかについて決定する。これには、次の事項が含まれる。
・ 並列処理の精度、レベル、および程度、
・ 並列実行の候補の間における依存度の分析。
別の例においては、空間または電力がカスタム・チップ上における制約事項である場合に、たとえばコンパイラは、コードをシーケンシャルに実行して電力およびチップの地積要件を節約する単一の低電力プロセッサDSPを生成することになる。
アーキテクチャ・ブロック322から、プロセスは、RTLジェネレータ(324)を使用してRTLを生成することができる。RTLコードが生成され(326)、当該RTLコードを、合成配置およびルーティング・ブロック(328)に提供することができる。アーキテクチャ・フロア‐プランナからの情報もまた考慮に入れることが可能である(336)。レイアウトを生成することが可能である(330)。このレイアウトは、たとえば、GDSIIファイル・フォーマットとすることができる。
本発明の1つの態様は、統一されたアーキテクチャ322の表現形式であり、ソフトウエア・ツール・ジェネレータ332およびハードウエアRTLジェネレータ324の両方がこの表現形式を使用することが可能となるように作り出される。この表現形式は、SAMA(システム、アーキテクチャ、およびマイクロ‐アーキテクチャ)と呼ばれている。
アーキテクチャ設計動作は、カスタム・チップによって実行されることになるプログラム、コード、またはアルゴリズムの分析に基づく。1つの実装においては、ユニスカラー・プロセッサ上での実行に長時間を要するプログラムがある場合に、システムは、多重処理ユニット内において並列に、またはオーバーラップ態様で処理することが可能な複数の部品に処理要件を分解することによってパフォーマンスを向上させることが可能である。フロント・エンドの追加のタスクは、並列処理を捜し出すことであり、バック・エンドの追加のタスクは、正しい結果および向上したパフォーマンスが獲得される態様でそれをスケジュールすることである。システムは、どのような種類の部品をプログラムが分割するか、およびどのようにそれらの部品を再アレンジできるかについて決定することが可能である。これは、並列処理の精度、程度をはじめ、並列実行の候補の間における依存度の分析を伴う。プログラムの部品および複数の処理ユニットが広い範囲にわたることから、異なるコンパイル・アプローチを必要とする適正な数の組み合わせが可能である。
これらの組み合わせのために、チップ仕様は、設計の過剰または不足がまったく存在しないように計算ユニットのサポートに必要とされるデータ帯域幅が正しく設計される。アーキテクチャ・オプティマイザ342は、最初にプログラム内の潜在的な並列ユニットを識別し、続いて、それらに対する依存度分析を実行して、互いに独立であって、しかも同時に実行することが可能なセグメントを見つけ出す。
アーキテクチャ・オプティマイザ342は、マシン・インストラクションの精度レベルの点で並列処理を識別する。たとえば、標準スカラー・プロセッサ上における2つのN要素ベクトルの加算は、一度に1つのインストラクションを実行することになる。しかしながら、ベクトル・プロセッサ上においては、すべてのN個のインストラクションをN個の独立したプロセッサ上で実行することが可能であり、そのことは合計時間を、単一の加算の実行に必要とされる時間のN倍をわずかに超える程度にまで短縮する。アーキテクチャ・オプティマイザは、ベクトル・ステートメントに等価なシーケンシャル・ステートメントを採用し、ベクトル・マシン・インストラクションへの翻訳を行なう。ベクトル化を可能にする条件は、ソース・オペランドの要素が結果のオペランドから独立していなければならないということである。たとえば、次のようなコードがある。
DO 100 J=1,N
DO 100 I=1,N
DO 100 K=1,N
C(I,J)=C(I,J)+A(I,K)×B(K,J)
100 CONTINUE
この行列乗算の例では、各繰り返しが、直前の繰り返しにおいて計算されたC(I,J)の値を使用してC(I,J)を計算しており、したがってベクトル化は可能でない。パフォーマンスが希望されているのであれば、システムは、このコードを次のように変換する。
DO 100 J=1,N
DO 100 K=1,N
DO 100 I=1,N
C(I,J)=C(I,J)+A(I,K)×B(K,J)
100 CONTINUE
この場合においては、連続するインストラクションが互いに独立しているC(I‐1,J)およびC(I,J)を計算し、異なるプロセッサ上において同時に実行可能であることからベクトル化が可能である。このように、インストラクション・レベルにおける依存度分析は、オペランド・レベルの依存度を認識し、とりわけ、適切な最適化を適用してベクトル化を可能にする補助となることが可能である。
図4は、データ・モデルの一例を示している。アーキテクチャ・オプティマイザ342は、ASICのアブストラクト統一表現である、システム、アーキテクチャ、およびマイクロ−アーキテクチャ(SAMA)表現120と呼ばれるアプリケーション・コードに対してカスタマイズされた中間ハードウエア表現を生成する。データ・モデル(DM)280は、設計の多様なビューを用いてSAMAを表現することが可能である。SAMAは、ソフトウエア・コンピレーションとハードウエア合成の間における遷移レイヤとして作用する。その種の遷移レイヤには、コンパイラ・ツール・フロー内において利用可能な最適化を利用し、かつ低レベル・シンセサイザへの自由度の提供、アプリケーション固有の実装のためのオプションの探索も行なうことが意図されている。DM 280は、アプリケーションの多様なビューの生成に使用することが可能である。たとえば、アーキテクチャ・オプティマイザ・ビュー282が、オプティマイザによる制約に対する設計の最良の割り当てが可能となるように、タイミング、面積、電力効率等のアーキテクチャ上の構成要素情報を提供する。空間/サイズ要件等の物理的な制約に取り組む物理設計ビュー284を生成することが可能である。ソフトウエア・ツール・ビュー286は、DM 280をてこ入れして、使用するソフトウエアのためのISAおよびアーキテクチャ上の制約を提供することが可能である。そのほかのビューも同様にDM 280から生成することが可能である。DM 280は、図3のツールによって生成される情報のリポジトリであり、その種の情報は、ICのレイアウトの最終的な生成に必要とされる。DM 280は、異なるツールによってクエリを行なうことが可能な異なるビューを生成することが可能である。これらのビューは、物理設計の間に使用することが可能である。
図5は、図4のデータ・モデルを使用して物理的な合成を実行するためのプロセスの一例を示している。このプロセスは、コンピュータ可読コードに対して固有のカスタマイズがなされたチップ仕様の物理的な合成のための情報を渡すべく、データ・モデル内において初期アーキテクチャ・レベルの情報をエンコーディングする(510)。次に、プロセスは、それぞれの繰り返しの中でチップ仕様の物理的な合成およびチップ仕様のデータ・モデルの更新を反復して行い、制約が満たされるまで実行する(520)。以前の繰り返しから生成された情報が、データ・モデルを通じて次の繰り返しに供給されるクリティカル・パスのルック・アヘッド情報とともにフィードバック・ループとして提供される(530)。たとえば、システムは、階層内のセルのグループ化がハード制約またはソフト制約であるか否かを示すプレフィクスおよびポストフィクス・タグを適用することが可能である。システムは、マクロ・ブロック名、階層名、プラグマ、コメント、ダミー・モジュール、およびラッパー・モジュールのうちの1つを用いて最適なタイミングを実現するための配置の制約を示すことが可能である。
アーキテクチャ・レベルの情報からのクリティカル・パスを示すべく、名前に特定のプレフィクス/ポストフィクスを格納することが可能である。したがって、1つの例においては、先行するパスの間にサブモジュールAをサブモジュールBおよびCの近くに配置する必要があった場合に、この関係をABCと表示することが可能であり、同様にBをBACと表示することが可能である。
すべての制約が満たされる最終的な繰り返しの過程で、プロセスは、半導体製造のために、チップ仕様のコンピュータ可読記述をカスタム集積回路内に合成する。
図5は、アーキテクチャ・レベルのホヮット−イフ・インクリメンタル・コスト推定データ・モデル(WICE−DM)の一例を示している。WICE−DMアーキテクチャは、フロント−エンド、バック−エンド、コンテキスト管理セクション、およびAPIセクションからなる。フロント−エンドは、A2C設計技法で念入りに作られたアーキテクチャ設計状態を表わす。この念入りに作られた設計は、相互に参照される「多アスペクト多レベル」(MAML)ハイパーグラフ構成で記録されるが、これは、非常に効率的なカスタマイズを可能とする設計アブストラクション・モデル(DAM)の生成を可能にする。バック−エンドは、物理設計を意識したホヮット−イフ・インクリメンタル・コスト推定エンジンを表わす。コンテキスト管理セクションは、フロント−エンドがバック−エンドにおける分析を駆動するべく生成しなければならない適切なDAMを決定する。
次に、MAMLハイパーグラフ構成の一例について考察する。ハイパーグラフは、よく知られたグラフ構造であり、そのグラフ構造は、相互接続を、ノードの単一ペアに対向するようにハイパー−エッジ(すなわち、複数のヘッドおよび複数のテール)としてモデリングするものである。ハイパーグラフ内の多レベルの階層は、配置の間におけるネットリスト分割をはじめ、設計検証問題において使用することが可能である。この回路図は、4つの頂点(白の矩形およびディスクとして描画される)がツリーとして描画される3つのハイパーエッジによって接続されるハイパーグラフの線画として解釈される。たとえば、回路図は、ツリーとして描画されるハイパーエッジによって複数の頂点(構成要素を表わす白の矩形およびディスクとして描画される)が接続される、ハイパーグラフの線画として解釈される。
ハイパーグラフは、オーバーラップする階層をサポートする複数の階層アスペクトをサポートすることが可能である。このことは、アスペクト間の効率的な切り換えが可能なハイパーグラフを可能にする。
図5は、アーキテクチャおよびマイクロ−アーキテクチャ・レベルのインクリメンタル・ホヮット−イフ分析のための物理設計(PD)モデル・ベースの面積、電力、および遅延コスト推定についてのデータ・フローを示している。図5を参照すると、i回の繰り返しの後に、次のSAMA i+1が、502において、次の繰り返しへの入力として使用される。したがって、第i回のSAMAは、504において更新される。504におけるSAMAは、506においてCAシミュレータに、510においてアーキテクチャ・オプティマイザに提供される。AO 510は、コスト関数クエリAPI 512を通じて伝達する。SAMAは、SAMAリーダAPI 514を通じて伝達する。CAsimは、プロファイル・データ・リーダAPI 516を通じてプロファイル情報を送る。
SAMAリーダAPI 514は、アーキテクチャ設計状態(MAML−HG)518に、アーキテクチャおよび合成情報を伝達する。コスト関数クエリAPI 512は、評価コンテキスト管理515に情報を提供し、続いてそれが、MAML−HG 518に情報を提供する。コンテキスト管理515は、評価コンテキスト物理設計モデルの形成に使用することが可能である。コンテキスト管理515は、ベースラインから提案された設計の修正の記録を保持している。コスト評価の初期段階の間には、多くの変更が確定されることなく提案される。確定されたコンテキストは、ベースライン設計の一部になる(SAMAファイルの更新)。
MAML−HG 518は、多レベルのX階層マネージャ520に対して多レベルのハイパーグラフ・データ構造を提供する。続いてマネージャ520が多様なビューを、とりわけブラック−ボックス・ビュー522、カスタム多分解能階層的ビュー524、および完全に合成可能なネットリスト・ビュー526を含む多様なビューを提供する。これらのビュー522乃至526は、ベースラインの物理設計モデル528の形成に使用することが可能である。
モデル528乃至530は、とりわけ電力ホット−スポット推定エンジン540、遅延およびタイミング推定エンジン542、および面積推定エンジン544によって使用されることが可能である。電力ホット−スポット推定エンジン540は、MAML−HG 518から推定による作動係数(AFs)を受け取ることが可能である。エンジン540乃至544からのデータは、分析情報マネージャ550に提供され、それがコスト関数クエリAPI 512を介してAO 510にフィードバックを提供する。
次に、APIの一例について、より詳細に考察する
コスト関数推定(CFE)API。
boolean define_contextcontext_name {change_list}
boolean set_active_context context_name
response_type compute_delay{path\whole_chip}
response_type compute_area component
boolean commit_context context_name −outfileName sama_i.txt
「response_type」は、以下の情報を含む。
● 相対的コスト(遅延、面積、電力等、実際のクエリに依存する)
○ 定性(改善、有意の影響なし、低下)
○ 定量(定性的変化のヒューリスティックな測度)
● 補足的な物理設計の最適化を伴う条件付きコスト(SPDO)
○ 補足的なPD最適化ID(将来的な参照のための内部のブック−キーピングID)
○ WAが受け入れられた場合の新しい相対的コスト
● 信頼区間
○ 0と1の間の値
○ 1は、もっとも正確なデータ駆動ツールのフローを伴ってコストが計算されたことを意味する
○ 0は、コストが大まかに推定されたことを意味し、詳細なコスト分析が実行された場合には大きく異なる可能性が非常に高い。
補足的な最適化提案(IDによってインデクスされる)を提供する能力は、物理設計の最適化を向上させ、アーキテクチャの最適化がまだ処理中であり、最適化が完了していないときにはAOに影響を与える。標準的なの工業フローにおいては、アーキテクチャの最適化が完了するまで物理設計の最適化が行なわれない。同時にAOは、代替案を詳細を意識する必要はない。このメカニズムは、AOが、単なる直接に計算されたコスト関数ではなく、広範囲にわたって変化する最適化の結果を考慮することを可能にし、したがって、より良好な設計の収斂を可能にする。
別のAPIの一例は、次のようなパス作動プロファイルである。
パス・プロファイル(PP)API
set_path_likelihood path activity_factor
パス作動係数は、そのパスが用いられる確率または尤度である。この情報は、サイクル精度のシミュレータから利用することが可能である。WICE−DMは、この情報を、物理設計のモデリングから獲得されたパスのトポロジ情報と統合する。その結果として、それが、物理設計の各単位面積についての電力利用度の見積を生成する。続いてこれが、電力ホット−スポット情報を提供し、その後それは、フィードバックとしてリソース制約の形式でインストラクション・スケジューラに提供することが可能である。このフィードバックの正味の効果は、(a)潜在的なタイミングおよびそのほかの信号品質の問題が回避されるようにインストラクションがスケジュールされること、および(b)電力の散在、クロック・ゲーティングまたはそのほかの技術を用いて電力ホット−スポットの近隣となる必要がある構成要素を組み込むことが可能となり、かつその種の即席処理の面積/タイミングのコストが直ちに利用可能となることである。
図5の1つの実施態様においては、アーキテクチャ・レベルの情報が、通常は物理的な合成に利用可能でない情報を渡すべく、ネットリスト・ファイル内にエンコーディングされる。たとえば、階層名には、その階層内のセルのグループ化がハード制約またはソフト制約であるか否かを示すプレフィクスおよびポストフィクス・タグを含めることができる。この情報は、ツール・チェーン・キャパシティの向上に帰する物理的な分割を行う点で、より積極的な決定を行なうために有用であり、この結果、より高速なターン・アラウンド時間を実現できる。インスタンスの名前もまた、アーキテクチャ・レベルのモデルが、これを、実在のクリティカル・パスのためのありえる経路として見るか否かを示す特定のプレフィクス/ポストフィクスを含めることができる。物理的な合成は、正しいものが発見されるまで正しくないものを徐々に除いていくのではなく、実在のクリティカル・パスに対する「ルック・アヘッド」を行なうことが可能である。これは、望ましくない最適化(ほかのコスト増加を導く過剰な最適化)を除去し、ターン・アラウンド時間を節約する。別の例として、特定のマクロ・ブロックに、配置制約(とりわけアレイの配置等)を示す名前を付けることができ、それが、一度目で最適タイミングを達成することの補助となる。ネットリスト・ファイルに「側波帯」情報をエンコーディングすることに加えて、図3のフローは、オリジナルのユーザ制約のみで生成するより、物理的な合成を導出する上でより生産的な(物理的はもとよりタイミングの)設計制約を生成することも可能である。いくつかの場合においては、その種の制約は、ネットリストの名前設定スキームを通じて「暗黙的」なものである。
図6は、設計のフロント−エンドを初期化するプロセスの一例を示している。フロント−エンドは、「アーキテクチャ設計状態」を表わす。フロント−エンドは、SAMAファイルからのアーキテクチャ仕様の高水準の記述を得、指定されたアーキテクチャを実現するために必要とされるすべての機能構成要素の詳細を完全な形で生成する。
図6は、WICE−DMフロント−エンドを初期化するためのプロセスである。このプロセスは、XMLマークアップ言語を使用し、マシンによるデータの把握をサポートする。このプロセスでは、SAMA DTDが602において受け取られてXMLパーザ604に送られるが、ここでは、606におけるSAMAバージョン情報も受け取られる。XMLパーザ604は、610においてWICE−DMコールバック機能を、612においてSAMA変数空間を、セットアップする。またプロセスは、614においてアーキテクチャを生成し、616においてアーキテクチャ設計状態MAML−HGを生成する。初期化が終了すると、この念入りに作られたアーキテクチャが、すべてのコスト関数クエリのためのベースラインとして働く。
図7A及び図7Bは、最適化ループ・バック710を伴う物理的な合成プロセスの一例を示している。複数のループ・バック710は、プロセスは、改善のために焦点を当てることが可能な特定の動作について、細かい精度での最適化を可能にする。720におけるフロント−エンドから、プロセスは、階層構造および透過性プランニング(722)を実行する。次に、723においてI/O配置制約を受け取った後、フル・チップI/Oプランニングが行なわれる(724)。726においては、ブロック・シェイピングを行なうことが可能である。次に、相対配置制約を受け取ることが可能であり(727)、728において粗配置を行なうことが可能になる。
750においては、フィードスルー・プランニングを行なうことが可能である。プロセスは、752における電力グリッド・プランニングおよび接続に進む。754においては、クロック配置プランニングが行なわれる。756においては、HFN(ハイ・ファンアウト・ネット)およびFTN(フィードスルー・ネット)固定動作を行なうことができる。その後758において、ブロック・レベルの配分割り当てを行なうことができる。760においては、トップ・レベルとブロック・レベルの物理的な分割が行なわれる。最適化されたトップ・レベルの配置は、762において決定することが可能である。最適化されたトップ・レベルのクロックは、764において決定することが可能である。トップ・レベルの最適化されたルーティングは、766において決定することが可能である。
トップおよびブロックの物理的な分割から、プロセスは、チップの各ブロックについてモジュール788を実行することが可能である。モジュール788内では、790において最適化されたブロック・レベルの配置を決定することが可能である。最適化されたブロック・レベルのクロックは、792において決定することが可能である。最適化されたブロック・レベルのルーティングは、794において決定することが可能である。さらに、796においてブロックSTAを行なうことが可能である。
766または796から、プロセスは、768におけるフル・チップ集積化、および770におけるフル・チップSTAを実行する。フル・チップSTAの結果が合格であれば、780においてプロセスが物理設計モデルを生成するが、そうでなければいずれかの710にループ・バックして、設計の最適化および制約への適合を行なう。
1つの実施態様における、クリティカル・パスのルック・アヘッドを伴う物理的な合成プロセスの擬似コードの一例は次のとおりである。
スタート→ゲート・レベル・ネットリスト
1. 設計分割
2. 粗配置
3. 分割のサイジングおよび成形
4. トップ・レベルのI/Oパッド配置
5. ロジック配置
6. HFNバッファリング
7. ブロックI/O割り当て(フィードスルーを含む)→ブロック・フロア・プラン準備完了
8. バッファリングの最適化
9. 推定によるSTA←目標を満たさなければならず、そうならない場合には、設計が収斂しない可能性が非常に高い。
10. ブロック・レベルの予算作成→ブロックSDC準備完了
11. {ブロック}
1. スタート→ブロックI/Oが固定されたブロック・フロア・プラン
2. 詳細な配置最適化を実行する
3. 詳細なクロック・ツリー合成および最適化を実行する
4. 詳細なルーティング最適化を実行する
5. ブロック・レベルSTA←現在のタイミング問題を確定するには局所的な目標を満たさなければならない。
12. トップ・レベル・アッセンブリ
1. スタート→トップ・レベル・ネットリストの詳細な配置最適化
2. トップ・レベル・ネットリストの詳細なクロック最適化
3. トップ・レベル・ネットリストの詳細なルート最適化
13. 詳細な寄生抽出
14. フル・チップSTA←テープアウトに移行するには目標を満たさなければならない。
15. チップ仕上げタスク − メタル・フィル等
終了→GDSIIレイアウト
ゲート・レベル・ネットリストが、プロセスへ入力される。プロセスは、2つのループを有している。ループ1においては、ステップ1から9までが、通常、ステップ9の目標に到達するために多数回にわたって反復される。ループ2においてもステップ11.1から11.5までが、各ブロックについて多数回にわたって反復され、ステップ10における見積が収束しないことが明らかになると、ループ1のやり直しが必要になることがある。ステップ14は、ステップ9にて見積もられたSTAに現実性の点で一貫性がなかった場合、それを理由に不合格となる可能性がある。
図8Aは、インストラクション実行プロファイルに基づいたインストラクションの発行とパス・エクササイズの間における相関を図解した一例の図式である。サイクル精度のシミュレータが、パスが実行される確率または尤度であるパス作動係数を提供する。WICE−DMは、この情報を、物理設計のモデリングから獲得されたパスのトポロジ情報と統合する。その結果として、それが、物理設計の各単位面積についての電力利用度推定を生成する。続いてこれが、電力ホット−スポット情報を提供し、その後それは、フィードバックとしてリソース制約の形式でインストラクション・スケジューラに提供することが可能である。このフィードバックの正味の効果は、(a)潜在的なタイミングおよびそのほかの信号品質の問題が回避されるようにインストラクションがスケジュールされること、および(b)電力の散在、クロック・ゲーティングまたはそのほかのテクニックを用いて電力ホット−スポットの近隣となる必要がある構成要素を組み込んで変更することが可能となり、かつこのような適宜の変更により面積/タイミングのコストが直ちに利用可能となることである。
伝統的なフローでは、物理設計段階において、利用可能な実行パスの尤度についての唯一の情報は、ユーザ指定のフォールス・パス(0の確率を有するもの)である。WICE−DMにおいては、このコンセプトが、0から1までの確率値の範囲を表わすべく拡張される。このメカニズムは、WICE−DMがアーキテクチャ・オプティマイザの挙動に影響を及ぼすことを可能にする。したがって、AOは、以前は置き去りにされていた可能性のあるより新しいパス内を検索することができるようになり、最適化の結果、異なるソリューションに収束することとなる。図8Aは、4つのインストラクションI乃至Iについてインストラクション実行経路(トポロジ)の一例を示している。この例においては、インストラクション・スケジューラが、I→I→I→Iの順序でそれらの実行をシーケンス処理することを選ぶ。電力ホット−スポット推定によるコストに基づいて、WICE−DMは、新しいリソース制約を挿入してインストラクション・スケジューラに影響を及ぼす。それにより、新しい最適実行順序を、I→I→I→Iとすることができることになった。この実行順序の再整理は、電力ホット−スポット・エリアが再び作動される前に冷却される時間を与える。
図8Bは、インストラクション・スケジューラがインストラクション実行プロファイルに基づいてどのように電力ホット−スポットを最小化することが可能であるかを図解した一例の図式である。このプロセスは、コンピュータ可読コードを含むカスタム集積回路の仕様を受け取り、かつそのコンピュータ可読コードのプロファイルを生成してインストラクション利用度を決定し(810)、そのコンピュータ可読コードに対して固有のカスタマイズがなされたプロセッサ・アーキテクチャであって、1つまたは複数のインストラクションを実装する1つまたは複数の処理ブロックを有するプロセッサ・アーキテクチャを自動的に生成し(812)、上記のコード・プロファイルに基づいてインストラクション実行シーケンスを決定し、かつそのインストラクション・シーケンスの再割り当てを行なってホット−スポットを低減するべくIC上の異なるブロックに動作を分散させ(814)、手順を含む。インストラクション・シーケンスを変更する代わりに、ほかのオプションの中でもとりわけ、インストラクション・シーケンスの部分を時間的に遅延させてホット−スポットを平均することも可能である。最後にこのプロセスは、生成されたアーキテクチャを、半導体製造のために、カスタム集積回路のコンピュータ可読記述に合成する(816)。
図8Cは、本発明の1つの態様によるワークフロー・プロセスの一例を示している。図8Cのフローにおいては、システムがアーキテクチャ設計を生成する(850)。次に、ホット−スポット分析が行なわれる(852)。その後、RTL等の中間コードを生成することが可能になる(854)。フロア・プランニングが実行され(856)、レイアウトを行なうことが可能になる(858)。ホット−スポット分析の間に生成された情報は、早い時期に統合される。
図9Aおよび9Bは、ホット−スポットを意識したインストラクション・スケジューラの最適化をデータ・モデルによってどのようにして達成可能であるかを記述したタスク・レベルのプロセスの一例を示している。901においては、プロセスが、各マシン・インストラクションを関連付けされたハードウエア実行パスにマップする。902においては、プロセスが、可能性のあるすべての実行パスおよびそれらの関連付けされたインストラクションの記録をデータ・モデル内において保持する。次に、903においては、データ・モデルが、多様なマシン・インストラクションの統計的プロファイルを受け取る。904においては、データ・モデルが、そこから、任意の所定サイクル内においてインストラクションが実行される定常状態確率を抽出する。905においては、データ・モデルが、各インストラクション実行パスに対して推定された位相幾何学的レイアウトを作り出す。906においては、レイアウトが、物理設計のモデリングのために必要とされる適切なアブストラクション・レベルを選択する、あらかじめ決定済みのプロトコルに基づいた多様な物理設計モデルを使用して推定される。907においては、データ・モデルが、インストラクションの実行の定常状態確率を、それの実行パスのトポロジと関連付けする。
908においては、データ・モデルが、レイアウトの部分領域を作り出すが、各部分領域については、部分領域の重みの計算に使用される実行パスの確率の集まりをもたらす、交差する実行パスの集まりが存在する。
909においては、部分領域の重みの(全領域にわたる)分布が、電力ホット−スポットの部位の推定に使用される。910においては、データ・モデルが、影響を受けるインストラクション、すなわち実行パスが電力ホット−スポットと交差するインストラクションを識別する。次の911においては、電力ホット−スポット領域が、仮想の制限容量リソースとしてモデリングされる。データ・モデルは、制限容量リソースに依存して影響を受けるインストラクションを調べるべくインストラクション・スケジューラを調整する。制限容量とは、閉じた連続する処理の中でアクティブ化が許容される部分領域内の実行パスの数を制限することである。その種のリソース依存度は、インストラクション・スケジューラのリソース割り付けテーブルに容易に追加することが可能である。続く912においては、このインストラクション・スケジューラの最適化が、前述のように作り出された仮想リソースを、そのほかのパフォーマンス・コスト関数とともに考慮する。したがって、電力およびパフォーマンスが同時に最適化される。
上記のプロセスは、実行シーケンスの再整理を行なっているが、実行シーケンスの再整理を行なってIC上の動作を空間的に分散させることに代えて、プロセスが、コード・プロファイルに基づいてインストラクション実行シーケンスを決定し、かつ処理ブロックの空間的な再割り当てを行なってホット−スポットを低減するべくIC上の異なるエリアに動作を分散させることができる。
1つの実施態様においては、マイクロアーキテクチャの最適化ループのために高速インクリメンタル物理遅延推定モデルを次のとおりに生成することが可能である。最初に、プロセスが、あらかじめ決定済みの分割スキームを識別し、かつRTLを粗いゲート・レベル・ネットリストに(ADMから)変換する。主要な構成要素はブラック−ボックス化されており、インターフェースが、より少ないネットに要約される。プロセスは、単純なあらかじめ決定済みの、高速タイミング計算にとって容易なルート形状を決定する。タイミング・グラフは、特に、敏感度分析のために設計される。タイマは、エルモア遅延推定を使用し、主要ブロック(ブラック−ボックスとしてモデリングされる)間の最良のケース、平均的なケース、および最悪のケースの「フライト」時間を提供する。このモデルは、インクリメンタル・クエリを可能にし、かつSTAツールより数桁高速である。この速度は、テープアウトの結果の品質(QoR)の測定ではなく、インクリメンタル・コスト・フィードバックの提供に使用される。
1つの設計の例においては、アルゴリズムが、500MのMAC演算/サイクルを必要とする。図5のプロセスを用いて、180nmのTSMCプロセス・ノード上において推定約250MHzのクロック速度を伴う初期アーキテクチャが生成される。初期ハードウエアは、要求されたスループットを達成するべく2つのMACユニットのために設計される。しかしながら、ゲート・レベル合成の後、達成可能なクロック周波数が200MHzまで下げられ、DM 280内において情報が更新される。バック−エンド・フロー(前述のステップ14)の後、達成可能なクロック周波数がさらに165MHz未満まで下げられ、その情報を用いてDM 280が更新される。プログラムの部品および複数の処理ユニットが広い範囲にわたることから、異なる最適化アプローチを適正な数の組み合わせ実施することが可能である。アーキテクチャ・オプティマイザは、最初にプログラム内の潜在的な並列ユニットを識別し、続いて、それらに対する依存度分析を実行して、互いに独立であって、しかも同時に実行することが可能なセグメントを見つけ出す。システムは、アーキテクチャ決定に戻り、このとき、ハードウエアが、3つのMACユニット用に再設計される。新しい設計が、バック−エンド・フローまで反復的にループし、再び、設計目標が満たされているか否かを調べる。
このシステムは、チップ設計の問題を緩和し、それを単純なプロセスにする。これらの実施態様は、プロダクト開発プロセスの焦点を、ハードウエア実装プロセスからプロダクト仕様およびコンピュータ可読コードまたはアルゴリズム設計に戻すようにシフトさせる。特定のハードウエアを選択することに束縛される代わり、コンピュータ可読コードまたはアルゴリズムが、その適用のために特に最適化されたプロセッサ上において実装されることが常に可能となる。好ましい実施態様は、最適化されたプロセッサを自動的に、すべての関連付けされたソフトウエア・ツールおよびファームウエア・アプリケーションとともに生成する。このプロセスは、従来の数年を要する問題として対処されていた事項を、数日の問題として対処することを可能とする。このシステムは、ハードウエア・チップ・ソリューションが設計される方法におけるパラダイムを完全にシフトさせるものである。多くの利点のうち、システムの好ましい実施態様を使用する利点を3つ次に挙げる。
(1)スケジュール:チップ設計サイクルが数年単位ではなく数週単位に落ち着くことになる場合には、ユーザが、製品をすばやく市場に持ち込むことによって急速に変化する市場に浸透することが可能になる。
(2)コスト:一般にチップの実装に使用する必要がある多数の技術者が不必要なものとなる。このことは、システムを使用している会社に夥しいコストの節約をもたらす。
(3)最適性:このシステム・プロダクトを使用して設計されたチップは、優れたパフォーマンス、面積、および電力消費を有している。
次に、例として、自動化されたチップ設計システムをサポートするコンピュータについて考察する。コンピュータは、好ましくは、プロセッサ、ランダム・アクセス・メモリ(RAM)、プログラム・メモリ(好ましくは、フラッシュROM等の書き込み可能な読み出し専用メモリ(ROM))、および入力/出力(I/O)コントローラをCPUバスによって結合された形で含んでいる。このコンピュータは、ハードディスクおよびCPUバスに結合されるハード・ドライブ・コントローラをオプションとして含むことができる。ハードディスクは、本発明等のアプリケーション・プログラムおよびデータをストアするために使用することができる。それに代えて、アプリケーション・プログラムをRAMまたはROM内にストアすることができる。I/Oコントローラは、I/Oバスを経由してI/Oインターフェースに結合される。I/Oインターフェースは、シリアル・リンク、ローカル・エリア・ネットワーク、無線リンク、およびパラレル・リンク等の通信リンクを介してアナログまたはデジタル形式でデータの受信および送信を行なう。オプションとして、表示器、キーボード、およびポインティング・デバイス(マウス)がI/Oバスに接続されることもある。それに代えて、I/Oインターフェース、表示器、キーボード、およびポインティング・デバイスのために別々の接続(別々のバス)が使用されることもある。プログラマブル処理システムは、あらかじめプログラムすること、または別のソース(たとえば、フロッピーディスク、CD−ROM、または別のコンピュータ)からプログラムをダウンロードすることによってそれをプログラムすること(および再プログラムすること)ができる。
各コンピュータ・プログラムは、目に見える形として、コンピュータによってストレージ媒体またはデバイスが読み出されたときに、ここで説明しているプロシージャを実行するべくそのコンピュータの構成および動作のコントロールを行なうために、汎用または専用プログラマブル・コンピュータによって読み出されることが可能なマシン可読ストレージ媒体またはデバイス(たとえば、プログラム・メモリまたは磁気ディスク)内にストアされる。また本発明のシステムは、コンピュータ・プログラムを用いて構成されるコンピュータ可読ストレージ媒体内において具体化されると考えてもよく、それにおいてストレージ媒体は、ここで述べている機能を実行するべく特定の、あらかじめ定義済みの態様でコンピュータを動作させるように構成される。
以上、ここでは、特許法に従うため、および当業者に、新しい原理の適用および必要とされる専用の構成要素の組み立ておよび使用に必要となる情報を提供するために、相当に詳細に本発明を説明してきた。しかしながら、本発明が明確に異なる装置およびデバイスによって実行可能であること、および装置の詳細および動作手順の両方に対する多様な修正が本発明自体の範囲からの逸脱なしに達成可能であることは理解されるものとする。
120 SAMA表現
280 データ・モデル、DM
282 アーキテクチャ・オプティマイザ・ビュー
284 物理設計ビュー
286 ソフトウエア・ツール・ビュー
342 アーキテクチャ・オプティマイザ
510 AO
512 コスト関数クエリAPI
514 SAMAリーダAPI
515 評価コンテキスト管理、コンテキスト管理
516 プロファイル・データ・リーダAPI
518 アーキテクチャ設計状態、MAML−HG
520 X階層マネージャ、マネージャ
522 ブラック−ボックス・ビュー
524 カスタム多分解能階層ビュー
526 ネットリスト・ビュー
528 物理設計モデル
540 電力ホット−スポット推定エンジン
542 遅延およびタイミング推定エンジン
544 面積推定エンジン
550 分析情報マネージャ
604 XMLパーザ
710 最適化ループ・バック
722 階層構造および透過性プラニング
724 フル・チップI/Oプラニング

Claims (16)

  1. コンピュータが、カスタム集積回路(IC)設計において電力を管理する方法であって、
    a. コンピュータが、コンピュータ可読コードを含む前記カスタム集積回路の仕様を受け取り、かつ前記コンピュータ可読コードのプロファイルを生成してインストラクション利用度を決定し、前記プロファイルには、マシン・インストラクションの実行の定常状態確率を実行パスのトポロジと関連付けるデータ・モデルが含まれ、
    b. コンピュータが、前記データ・モデルからレイアウトの部分領域を作り出し、各部分領域が、部分領域重みを決定する1つまたは複数の実行パスの確率をもたらす交差する実行パスの集まりを決定し、
    c. コンピュータが、部分領域の重み分布を適用して電力ホット−スポットの部位を推定し、
    d. コンピュータが、前記コンピュータ可読コードに対して固有のカスタマイズがなされたプロセッサ・アーキテクチャであって、1つまたは複数のインストラクションを実行する前記IC上に1つまたは複数の処理ブロックを有するプロセッサ・アーキテクチャと、各プロセッサ・アーキテクチャに対し反復的にコードをコンパイル、アセンブル、リンクするためのコンパイラを含むループとを自動的に生成し、
    e. コンピュータが、前記コンピュータ可読コードプロファイルに基づいてインストラクション実行シーケンスを決定し、かつ前記インストラクション実行シーケンスの再割り当てまたは遅延を行なって、ホット−スポットを低減するべく前記処理ブロックにわたって動作または活動を分散させ、
    f. コンピュータが、生成された前記アーキテクチャを、半導体製造のために、前記インストラクション実行シーケンスに基づいて、前記カスタム集積回路のコンピュータ可読記述に合成する、
    方法。
  2. 各マシン・インストラクションはハードウエア実行パスと関連付けされており、データ・モデル内において、可能性のある実行パスおよび関連付けされたインストラクションの記録を保持する、請求項1に記載の方法。
  3. 前記データ・モデルは、前記マシン・インストラクションの統計的プロファイルを受け取り、任意の所定サイクル内におけるインストラクションの実行の定常状態確率を抽出する、請求項1に記載の方法。
  4. 前記データ・モデルは、各インストラクション実行パスのための推定による位相幾何学的レイアウトを作り出す、請求項1に記載の方法。
  5. コンピュータが、あらかじめ決定済みのプロトコルに基づいて1つまたは複数の物理設計モデルを使用する前記レイアウトを推定し、物理設計のモデリングのために必要とされるアブストラクションのあらかじめ決定済みのレベルを選択する、請求項4に記載の方法。
  6. コンピュータが、前記データ・モデルを適用して、実行パスが電力ホット−スポットと交差する影響を受けるインストラクションを識別する、請求項1に記載の方法。
  7. コンピュータが、仮想制限容量リソースとして電力ホット−スポット領域のモデリングを行なう、請求項6に記載の方法。
  8. 前記データ・モデルを通じ、コンパイラのインストラクション・スケジューラに対する前記制限容量リソースに依存して影響を受けるインストラクションが提供される、請求項に記載の方法。
  9. インストラクション・スケジューラの最適化は、1つまたは複数のパフォーマンス・コスト関数とともに前記制限容量リソースが考慮され、前記ICのための電力ホット−スポットおよびパフォーマンスを同時に最適化する、請求項8に記載の方法。
  10. コンピュータが、前記プロファイルから機能ブロック利用度の統計を生成する、請求項1に記載の方法。
  11. コンピュータが、異なる処理ブロックの利用度を時間の関数として追跡する、請求項10に記載の方法。
  12. コンピュータが、1つまたは複数の処理ブロックのための電力を推測して遮断し、電力を遮断した処理ブロックを自動的に必要時にオンに切り換える、請求項1に記載の方法
  13. コンピュータが、インストラクション・デコーダを使用して、各電力ドメインに対して電力がいつ印加されるべきかを決定する、請求項1に記載の方法。
  14. コンピュータが、前記コンピュータ可読コードの静的プロファイリングまたは動的プロファイリングを実行して処理ブロックの利用度を決定する、請求項1に記載の方法。
  15. コンピュータが、前記コンピュータ可読コードをアッセンブリ・コードにコンパイルし、前記アッセンブリ・コードをリンクして選択された前記アーキテクチャのためのファームウエアを生成し、かつ前記ファームウエアのサイクル精度のシミュレーションを実行する、請求項1に記載の方法。
  16. コンピュータが、カスタム集積回路(IC)設計において電力を管理する方法であって、
    a. コンピュータが、コンピュータ可読コードを含む前記カスタム集積回路の仕様を
    受け取り、かつ前記コンピュータ可読コードのプロファイルを生成してインストラクション利用度を決定し、前記プロファイルには、マシン・インストラクションの実行の定常状態確率を実行パスのトポロジと関連付けるデータ・モデルが含まれ、
    b. コンピュータが、前記データ・モデルからレイアウトの部分領域を作り出し、各部分領域が、部分領域重みを決定する1つまたは複数の実行パスの確率をもたらす交差する実行パスの集まりを決定し、
    c. コンピュータが、部分領域の重み分布を適用して電力ホット−スポットの部位を推定し、
    d. コンピュータが、前記コンピュータ可読コードに対して独特のカスタマイズがなされたプロセッサ・アーキテクチャであって、1つまたは複数のインストラクションを実装する1つまたは複数の処理ブロックを有するプロセッサ・アーキテクチャと、各プロセッサ・アーキテクチャに対し反復的にコードをコンパイル、アセンブル、リンクするためのコンパイラを含むループとを自動的に生成し、
    e. コンピュータが、前記コンピュータ可読コードプロファイルに基づいてインストラクション実行シーケンスを決定し、前記処理ブロックの空間的な割り当てを行なってホット−スポットを低減するべく前記IC上の異なるエリアに対して動作または活動を分散し、
    f. コンピュータが、生成された前記アーキテクチャを、半導体製造のために、前記カスタム集積回路のコンピュータ可読記述に合成する、
    方法。
JP2013519755A 2010-07-13 2011-07-11 アーキテクチャ・レベルの省電力指向の最適化およびリスク軽減 Expired - Fee Related JP5725583B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/835,640 US8185862B2 (en) 2010-07-13 2010-07-13 Architectural level power-aware optimization and risk mitigation
US12/835,640 2010-07-13
PCT/US2011/043609 WO2012009295A1 (en) 2010-07-13 2011-07-11 Architectural level power-aware optimization and risk mitigation

Publications (2)

Publication Number Publication Date
JP2013540295A JP2013540295A (ja) 2013-10-31
JP5725583B2 true JP5725583B2 (ja) 2015-05-27

Family

ID=45467875

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013519755A Expired - Fee Related JP5725583B2 (ja) 2010-07-13 2011-07-11 アーキテクチャ・レベルの省電力指向の最適化およびリスク軽減

Country Status (7)

Country Link
US (3) US8185862B2 (ja)
EP (1) EP2593865A1 (ja)
JP (1) JP5725583B2 (ja)
KR (1) KR20130043668A (ja)
CN (1) CN103282886A (ja)
TW (1) TW201209617A (ja)
WO (1) WO2012009295A1 (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8972958B1 (en) 2012-10-23 2015-03-03 Convey Computer Multistage development workflow for generating a custom instruction set reconfigurable processor
US8372742B2 (en) * 2010-02-25 2013-02-12 Taiwan Semiconductor Manufacturing Company, Ltd. Method, system, and apparatus for adjusting local and global pattern density of an integrated circuit design
US8225247B2 (en) * 2010-07-13 2012-07-17 Satish Padmanabhan Automatic optimal integrated circuit generator from algorithms and specification
US10430190B2 (en) 2012-06-07 2019-10-01 Micron Technology, Inc. Systems and methods for selectively controlling multithreaded execution of executable code segments
US11468218B2 (en) * 2012-08-28 2022-10-11 Synopsys, Inc. Information theoretic subgraph caching
US9251554B2 (en) 2012-12-26 2016-02-02 Analog Devices, Inc. Block-based signal processing
US9053285B2 (en) 2013-10-17 2015-06-09 International Business Machines Corporation Thermally aware pin assignment and device placement
US20150212152A1 (en) 2014-01-24 2015-07-30 Texas Instruments Incorporated Testing of integrated circuits during at-speed mode of operation
US10268485B2 (en) * 2014-02-28 2019-04-23 Tyco Fire & Security Gmbh Constrained device and supporting operating system
US9513364B2 (en) 2014-04-02 2016-12-06 Tyco Fire & Security Gmbh Personnel authentication and tracking system
US9489480B1 (en) * 2014-06-04 2016-11-08 Altera Corporation Techniques for compiling and generating a performance analysis for an integrated circuit design
CN104199724B (zh) * 2014-09-10 2017-07-18 山东省计算中心(国家超级计算济南中心) 一种基于性价比的虚拟化资源调度优化方法
US9710590B2 (en) * 2014-12-31 2017-07-18 Arteris, Inc. Estimation of chip floorplan activity distribution
EP3106951A1 (de) * 2015-06-15 2016-12-21 Fronius International GmbH Gerät mit überwachter gerätkühlung
US9442512B1 (en) 2015-11-20 2016-09-13 International Business Machines Corporation Interface clock frequency switching using a computed insertion delay
US10133840B2 (en) 2015-12-04 2018-11-20 International Business Machines Corporation Priority based circuit synthesis
US9582622B1 (en) 2015-12-21 2017-02-28 International Business Machines Corporation Evaluating on-chip voltage regulation
CN105957044B (zh) * 2016-06-03 2018-10-02 金陵科技学院 具有asip核心的图像融合红外热像仪
US10970055B2 (en) * 2018-08-21 2021-04-06 International Business Machines Corporation Identifying software and hardware bottlenecks
CN112771529B (zh) * 2018-09-14 2022-04-29 美商新思科技有限公司 基于Elmore延迟时间(EDT)的电阻模型
CN110956266B (zh) * 2019-06-06 2023-08-15 国网辽宁省电力有限公司 基于层次分析法的多电源电力系统多目标优化调度方法
CN113239655A (zh) * 2020-05-21 2021-08-10 台湾积体电路制造股份有限公司 半导体电路的约束确定系统和方法
US20220012392A1 (en) * 2020-07-10 2022-01-13 Taiwan Semiconductor Manufacturing Company Limited Systems and Methods for Generating Synthesizable Netlists From Register Transfer Level Designs
CN113515950B (zh) * 2021-04-30 2023-06-23 贵州电网有限责任公司 一种适用于电力智能调度的自然语言处理语义分析方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7369815B2 (en) * 2003-09-19 2008-05-06 Qualcomm Incorporated Power collapse for a wireless terminal
US7725848B2 (en) * 2005-01-27 2010-05-25 Wolfgang Nebel Predictable design of low power systems by pre-implementation estimation and optimization
JP2005216177A (ja) * 2004-01-30 2005-08-11 Toshiba Corp コンフィグラブル・プロセッサの設計装置、設計方法、ライブラリの最適化方法、プロセッサ、及びプロセッサを備えた半導体装置の製造方法
JP2005293448A (ja) * 2004-04-05 2005-10-20 Renesas Technology Corp データ処理装置の開発方法、データプロセッサの開発支援プログラム、設計データの提供方法、及びデータ処理システムの開発方法
US7143368B1 (en) * 2004-06-10 2006-11-28 Altera Corporation DSP design system level power estimation
US7882464B1 (en) * 2005-02-14 2011-02-01 Cadence Design Systems, Inc. Method and system for power distribution analysis
US7441210B2 (en) * 2005-10-11 2008-10-21 Lsi Corporation On-the-fly RTL instructor for advanced DFT and design closure
US7805692B2 (en) * 2006-05-15 2010-09-28 Taiwan Semiconductor Manufacturing Company, Ltd. Method for local hot spot fixing
US7707535B2 (en) * 2007-02-23 2010-04-27 International Business Machines Corporation Stitched IC chip layout design structure
JP5277781B2 (ja) * 2007-12-05 2013-08-28 富士通株式会社 消費電力見積プログラム、該プログラムを記録したコンピュータに読み取り可能な記録媒体、消費電力見積装置、および消費電力見積方法
US8468510B1 (en) * 2008-01-16 2013-06-18 Xilinx, Inc. Optimization of cache architecture generated from a high-level language description
JP5012611B2 (ja) * 2008-03-25 2012-08-29 日本電気株式会社 動作合成装置、動作合成方法およびプログラム
US8261215B2 (en) * 2008-12-22 2012-09-04 Cadence Design Systems, Inc. Method and system for performing cell modeling and selection
US8037443B1 (en) * 2009-07-02 2011-10-11 Calypto Design Systems, Inc. System, method, and computer program product for optimizing an altered hardware design utilizing power reports

Also Published As

Publication number Publication date
US20130111426A1 (en) 2013-05-02
KR20130043668A (ko) 2013-04-30
US20130104097A1 (en) 2013-04-25
TW201209617A (en) 2012-03-01
CN103282886A (zh) 2013-09-04
JP2013540295A (ja) 2013-10-31
EP2593865A1 (en) 2013-05-22
US8185862B2 (en) 2012-05-22
US8572544B2 (en) 2013-10-29
US8561005B2 (en) 2013-10-15
US20120017189A1 (en) 2012-01-19
WO2012009295A1 (en) 2012-01-19

Similar Documents

Publication Publication Date Title
JP5725583B2 (ja) アーキテクチャ・レベルの省電力指向の最適化およびリスク軽減
JP5681281B2 (ja) アルゴリズムおよび仕様に基づく自動最適集積回路ジェネレータ
JP5667305B2 (ja) アーキテクチャ最適化から物理設計クロージャへの設計の収束を図るために統合されたデータ・モデル・ベースのフレームワーク
JP5717015B2 (ja) アーキテクチャ・オプティマイザ
JP5681280B2 (ja) アルゴリズムおよび仕様に基づく自動最適集積回路ジェネレータ
US8589854B2 (en) Application driven power gating
Bazargan et al. Integrating scheduling and physical design into a coherent compilation cycle for reconfigurable computing architectures
Bergamaschi Behavioral synthesis: An overview
Galanis et al. Automated framework for partitioning DSP applications in hybrid reconfigurable platforms
Döbrich Performance Improvement of Adaptive Processors
Dragomir et al. Loop parallelization for reconfigurable architectures
Turkington Datapath and Memory Co-optimization for FPGA-based Computation
Veale Reconfigurable Microprocessors: Instruction Set Selection, Code Optimization, and Configuration Control
Code High-Level Synthesis
Catthoor et al. Global State-of-the-Art Overview

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20140210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140327

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140401

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20140701

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20140708

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140801

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150121

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150303

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150326

R150 Certificate of patent or registration of utility model

Ref document number: 5725583

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees