JP2003223473A

JP2003223473A - 集積回路の設計方法及びそれによって設計された集積回路

Info

Publication number: JP2003223473A
Application number: JP2002324539A
Authority: JP
Inventors: Andrew Kay; ケイアンドリュー
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1996-09-12
Filing date: 2002-11-07
Publication date: 2003-08-08
Also published as: EP0829812A3; US6021266A; JPH10116302A; JP2003216668A; JP3835754B2; GB9619096D0; EP0829812A2; GB2317245A

Abstract

(57)【要約】【課題】高レベル言語で記述されたソフトウェアレベ
ルからハードウェアレベルへの変換時間を短縮し、ハー
ドウェア開発の効率を向上させる集積回路の設計方法を
提供する。【解決手段】並列処理及び同期通信をサポートするプ
ログラミング言語でその機能を定義することによって、
集積回路が設計される。得られたソースコード（１）
が、コンパイラに与えられる。コンパイラは、集積回路
の外部通信の順番を変えずに同期通信のタイミングを変
える最適化器モジュール（８）を含む。コンパイラは、
集積回路の回路構成を表す出力コード（１２）を生成す
る。出力コード（１２）は、統合ツール、及び集積回路
の製造における後工程にも提供され得る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、集積回路の設計方
法に関する。本発明はまた、そのような方法によって設
計された集積回路に関する。

【０００２】

【従来の技術】大規模集積（ＬＳＩ）回路のデザイン
は、例えばＡＮＤ、ＯＲ、ＮＯＴ、ＦＬＩＰ−ＦＬＯＰ
等の２進機能を実行するゲートの集合体と、それらのゲ
ートの相互接続に関する仕様と、を含む。その後に、デ
ザインを適切な技術での製造に適した形式に変換するた
めに、レイアウトツールが使用され得る。

【０００３】このようなデザインを作成する公知の技術
では、「概略的な獲得（schematiccapture)」の名で知
られる方法が用いられる。この技術によれば、ユーザ
は、グラフィックソフトウェアツールを用いて、ライブ
ラリから得た各論理ゲート或いはゲートの集合体を配置
し、コンピュータのマウスを用いて配線を「描く」こと
によってこれらのゲートを相互接続することができる。
その後に、例えばゲートを除去或いは単純化することに
よって、回路の全体機能を変えずに得られた回路を最適
化し、これをレイアウト及び製造工程に出すことができ
る。しかし、設計者は、全て或いは殆ど全てのゲート或
いはゲートの集合体についてのタイミング及び論理を考
慮しなければならない。従って、この技術は、大規模な
設計に使用することが難しく、またエラーを生じ易い。

【０００４】別の公知の技術では、設計者が、ＬＳＩ回
路の記述をハードウェア記述言語（ＨＤＬ）で書く。Ｈ
ＤＬの各ステートメントは最終デザインにおける数個の
ゲートに対応するので、最終デザインにおける論理の複
雑さに比べれば入力ソースコードは比較的に短い。従っ
て、設計者の生産性が向上する。公知のＨＤＬには、IE
EE Standard VHDL Language ReferenceManual, IEEE St
d 1076-1993, IEEE,New York, 1993に開示されるＶＨＤ
Ｌ、及びD.E. Thomasand P.R. MoorbyによりTheVerilog
Hardware Description Language, Kluwer Academic 19
95に開示されるＶｅｒｉｌｏｇがある。このような言語
をS. CarlsonによりIntroductionto HDL-Based Design
Using VHDL, SynopsysInc., CA, 1991（文献１）に開示
されるような適切な統合ツールとともに用いることによ
り、デザインを回路構成に変換する。

【０００５】このようなＨＤＬを用いた統合技術を利用
して新たなＬＳＩ回路を設計する際には、その回路の挙
動についてのアルゴリズムが、ソフトウェア技術者によ
って、Ｃ言語として知られるような適切な高レベル言語
でキャプチャされる。その後に、例えばＣ言語で書かれ
た「テストハーネス」を用いて、アルゴリズムの挙動が
正しいかどうかを調べるテストを行う。テストハーネス
は、回路シミュレータ或いはエミュレータを用いて、そ
の回路設計がテストされ得る環境を記述する。ディスク
或いはランダムアクセスメモリ（ＲＡＭ）に格納された
回路に対しては、ベクトルとして知られている入力セッ
トを利用したテストをコンパイルして且つ実行するため
に、標準的なコンパイラを有するワークステーションが
用いられる。

【０００６】次のステップでは、文献１に開示されるＶ
ＨＤＬレジスタ転送レベル（ＲＴＬ）のような、ハード
ウェアの統合及びシミュレーションにより適した言語
に、ハードウェア技術者がＣコードを書き換える。この
時点では、どの種のアーキテクチャを用いるか、データ
をパイプライン化するかどうか、外部に対する回路イン
ターフェースをどのようにするか、及び各ストラクチャ
に何ビット分の格納場所をアロケートするのか等、多数
の設計上の選択肢が存在する。典型的には、ＶＨＤＬバ
ージョンは、オリジナルのＣバージョンに比べて、大き
さが１桁大きくなる。

【０００７】ＣバージョンとＨＤＬバージョンとの間に
直接的な結び付きがないので、ＨＤＬの記述にエラーが
生じることがあり、そのために、この段階でテストを行
うことが必要不可欠である場合が多い。デザインがテス
トされ得る前には、例えばＶＨＤＬなどで新しいテスト
ハーネスを書かなければならない。このハーネスもま
た、Ｃ言語で書かれたハーネスに比べて１桁大きくなる
場合が多い。ＶＨＤＬバージョンを綿密にテストした後
には、上記のような適切な統合ツールを用いて、回路に
変換することができる。しかし、回路に統合され得るＶ
ＨＤＬ構成のセットは、ＶＨＤＬ言語全体のサイズと比
べて比較的に小さい。また、タイミング及びアーキテク
チャに関する決定の殆どは、ユーザによって明示的に注
釈されなければならず、従って、ユーザは個々の言語構
成がどのように統合されるかに関してかなり詳細な知識
を持っていなければならない。この知識は、異なる統合
ツール間では異なる。

【０００８】この時点で、統合された回路が、所望のデ
ザインに対して遅過ぎたり大き過ぎたりすることを発見
することができる。そのような場合、ＨＤＬを調節して
デザインを指定の範囲内に戻すことができる場合もある
が、それができない場合には、Ｃ言語で書かれた新たな
アルゴリズムを試作する必要があり、設計時間が長くか
かってしまう。

【０００９】例えばD.Gajski, N. Dutt, A. Wu and S.
LinによってHigh-Level Synthesis,Introduction to Ch
ip and System Design,Klewer, 1992（文献２）に開示
されているような高レベルハードウェア設計言語を提供
するために、ＨＤＬの抽象化レベルの向上が図られてい
る。その一例に、Synopsys On-Line documentation 3.2
b (CDROM format), Synopsys Inc., CA, 1995に開示さ
れているシノプシス・ビヘイビア・コンパイラがある。
このコンパイラは、「挙動性(behavoural)」ＶＨＤＬで
書かれたソースコードを受け取り、比較的低レベルな統
合可能ＶＨＤＬの出力を生成する。この入力言語は、標
準的な統合可能サブセットよりも広いフルＶＨＤＬ言語
のサブセットから派生する。コンパイラは、そのデザイ
ンのアーキテクチャを選択し、マイクロプロセッサコア
としてそれをモデリングし、回路全体の速度要件に見合
う十分なハードウェアが利用可能であるようにする。こ
のコンパイラは最適化を提供し、文献２に開示されるよ
うなスケジューリング及びアロケーション方式アルゴリ
ズムによって速度と面積とのトレードオフを行う。

【００１０】しかし、依然としてユーザは、クロック端
がどこで生じるのかを注釈することによってタイミング
情報を提供し、且つ、どのクロックサイクルで入力及び
出力データが利用可能でなければならないのかを知って
いる必要がある。このような理由から、このシステムを
使用しようとする設計者には、ハードウェアに関する相
当な知識が要求される。また、得られるハードウェア記
述は、オリジナルの挙動性ＶＨＤＬ記述とは挙動が異な
るので、２つの異なるテストハーネスが必要となり得
る。さらに、このシステムは、そのタイミング要件への
依存性のために、アルゴリズムの試作には適さない。な
ぜなら、これらは、現在はクロックサイクルレベルであ
り、サブクロックレベルではないからである。

【００１１】他の公知のコンパイラとしては、I. Page
and W. LuckによりCompiling Occaminto FPGAs, 271-28
3, Abingdon EE & CSbooks, 1991に開示されているよう
なＨａｎｄｅｌコンパイラ及びＨａｎｄｅｌ−Ｃコンパ
イラがある。Ｈａｎｄｅｌコンパイラは、例えばInmos,
The Occam 2 Programming Manual, Prentice-HallInte
rnational, 1988に開示されるような、Ｏｃｃａｍの名
で知られる言語で書かれたソースコードを受け取る。Ｏ
ｃｃａｍはＣに似た言語であるが、並列処理及び名前付
きチャネルを介した同期２点間通信を表現するための余
分な構成を有する。Ｈａｎｄｅｌ−Ｃコンパイラも殆ど
同じであるが、ソース言語が若干異なっており、Ｃ言語
に慣れたプログラマにとってより馴染み易いものとなっ
ている。

【００１２】コンパイラが並列構成を提供するので、プ
ログラマは、設計上の問題に対する可能な解決策とし
て、並列アルゴリズムを考えることができる。プログラ
マがどのサイクルで開始しようともメッセージが全く失
われないことを確実にするために、周知のタイプの単純
な「ハンドシェーク」技術によって同期通信が行われ
る。従って、送信側及び受信側の両者は、通信が完了す
るのを待ってからでなければ、続行することができな
い。言語によってこの制約が課せられるので、プログラ
マが通信イベントを再スケジューリングする際の自由度
が増す。例えば、プログラマが、ｃ１及びｃ２と名付け
られたチャネルを介してそれぞれ１０及び２３という値
の送信を要求する場合、受信プロセスが適切に書かれて
いるとすれば、上記データは、どの順番でも、並列にも
送信され得て、或いは、ｓｅｎｄコマンドの前とｓｅｎ
ｄコマンドの間とに任意の遅延を伴っても送信され得
る。このための疑似コードの一例は、

【００１３】

【数１】

【００１４】のようになる。

【００１５】ハンドシェークプロトコルは、（どのよう
な形態で実施されていても）受信側が準備状態にあると
きにデータアイテムが必ず受信され且つ全く失われない
ことを確実にする。このようにして、コンパイルされた
回路の２つの部分が正確にいつ相互作用するかに関し
て、幾分の自由度がある。

【００１６】しかし、Ｈａｎｄｅｌの場合は、（通信以
外の）各構成のタイミングの総合的な制御は、プログラ
マが行う。各構成には、正確なサイクル数が割当てられ
ている（これを、タイムドセマンティクスと呼ぶ）。従
って、プログラマは、デザインにおける全ての低レベル
並列処理を考慮しなければならず、且つ、コンパイラが
各構成をどのようにクロックサイクルに割当てるのかを
知っていなければならない。例えば、プログラマは、

【００１７】

【数２】

【００１８】を指定することができる。しかし、全ての
アサインメントに１サイクルしか要しないので、両方の
乗算１サイクルで行われる必要がある。これは、２つの
乗算器が形成されなければならないことを意味し、面積
が大きくなる。また、これらの乗算器が単一のサイクル
で動作しなければならないので、クロック速度が遅くな
る。

【００１９】さらに、主としてタイムドセマンティクス
のために、Ｈａｎｄｅｌが対応できない重要な構成がい
くつかある。そのような構成には、あるアレイ（ＲＡ
Ｍ）を２回参照するアサインメント（なぜなら、これは
高価なデュアルポートＲＡＭを示唆する）、ファンクシ
ョンコールを含む表現、ならびにパラメータ付き関数が
含まれる。

【００２０】

【発明が解決しようとする課題】タイムドソース言語セ
マンティクスを用いる公知の言語は、オリジナルのソー
スコードにおける暗示的なタイミングに従ってしまう。
従って、コンパイラがプログラムの実行に要するサイク
ル数を変えるような最適化を行うことができないことが
あって、オリジナルソースコードにおけるタイミング挙
動をエンコードするのがユーザの責任になる。従って、
タイムドセマンティクスを利用する場合には、設計者自
身が最適化を行わなければならず、コンパイラがそれを
助けることはできないので、設計時間の点で問題があ
る。

【００２１】本発明は、上記課題を克服するためになさ
れたものであって、その目的は、（１）高レベル言語で
記述されたソフトウェアレベルからハードウェアレベル
への変換時間を短縮し、ハードウェア開発の効率を向上
させる集積回路の設計方法を提供すること、及び（２）
そのような設計方法に従って設計された集積回路を提供
すること、である。

【００２２】

【課題を解決するための手段】本発明の第１の局面によ
れば、集積回路の機能を並列処理及び同期通信をサポー
トするプログラミング言語で定義するステップと、該集
積回路の外部通信の順番を変えずに同期通信のタイミン
グを変えるように構成されたコンパイラを適用して、該
集積回路の回路構成を表す出力コードを生成するステッ
プと、を包含する集積回路の設計方法が提供され、その
ことによって上記目的が達成される。

【００２３】前記同期通信は、ハンドシェークを含み得
る。

【００２４】前記コンパイラは、抽象構文木及び記号テ
ーブルを形成するように構成され得る。前記コンパイラ
は、前記抽象構文木を単純化するソフトウェア最適化器
を含み得る。前記ソフトウェア最適化器は、各コンポー
ネント部分に変数が１つ存在するように複合データ構造
をコンポーネント部分に変換するように構成され得る。
前記ソフトウェア最適化器は、未使用変数を除去するよ
うに構成され得る。前記ソフトウェア最適化器は、ルー
プ外の共通演算子を移動させるように構成され得る。

【００２５】前記コンパイラは、前記出力コードによっ
て表記されるハードウェアインプリメンテーションを最
適化するハードウェア最適化器を含み得る。前記ハード
ウェア最適化器は、スケジューリング及びアロケーショ
ンを行うように構成され得る。

【００２６】前記コンパイラは、少なくとも１つの所定
の性能パラメータが達成されたときに最適化を終了する
ように構成され得る。前記少なくとも１つの所定の性能
パラメータは、集積回路の最大面積を含み得る。前記少
なくとも１つの所定の性能パラメータは、集積回路の最
小処理速度を含み得る。前記少なくとも１つの所定の性
能パラメータは、最大消費パワーを含み得る。

【００２７】該方法は、前記出力コードで定義される構
成を実行する回路構成を表すレジスタ転送レベルコード
を生成するステップをさらに含み得る。

【００２８】本発明の第２の局面によれば、本発明の第
１の局面による方法によって設計された集積回路が提供
され、そのことによって上記目的が達成される。

【００２９】以下に、本発明の作用を説明する。

【００３０】ハンドシェーク等の通信プロトコルを高レ
ベルの最適化と共に使用すれば、コンパイラは効率的な
インプリメンテーションをもたらし得るので、通信を抽
象的に表現する際のより高い自由度が設計者にもたらさ
れる。入力言語は、高レベルで且つプログラマに馴染み
易いものであり得るとともに、ハードウェアにおいて認
識可能な表記を有する重要な構成の殆どをサポートし得
る。言語は、並列処理及び２点間通信を表現し得るが、
タイムドセマンティクスを持たない。コンパイラは、例
えばソースコードレベルに近い比較的高レベルで最適化
を行うことができるとともに、ＨＤＬを出力することが
できる。従って、低レベルの統合、最適化及びハードウ
ェアマッピングは、業界標準ツールを用いて行うことが
できる。並列構成及び２点間通信を伴うＣ言語に類似し
たソフトウェア言語を用いたデザインの機能は、効率的
なＬＳＩ設計のために自動的に或いは半自動的にＨＤＬ
に変換される。アンタイムドソース言語セマンティクス
を使用すれば、コンパイラによって、オリジナルソース
言語の仕様に従いながらデザインのタイミングを向上さ
せる最適化を行うことが可能になる。

【００３１】

【発明の実施の形態】以下に、添付の図面を参照しなが
ら本発明の実施例を説明する。

【００３２】図１に示されるコンパイラは、「並列Ｃ言
語」の名で知られる高レベル言語で書かれたソースコー
ド１を受け取る。この言語は、構成とハンドシェーク２
点間通信プリミティブとを含み、例えば最終デザインの
コスト及び性能に関するユーザ指定性能制約（参照符号
２で図示）を指定する。コンパイラは、モジュール３を
有する。モジュール３は、入力ソースコードの構文解析
及びチェックを行うことにより、中間抽象構文木（ＡＳ
Ｔ）表記４及び記号テーブル５を作成する。記号テーブ
ル５は、ソースコードによって宣言された名前及びオブ
ジェクトを記録するものである。A.V. Aho and J.D. Ul
lmanによりPrinciples of Compiler Design,Addison-We
sley, 1977（文献３）第１９７〜２４４頁に、これに適
したレクサ及びパーサが開示されている。中間構文は、
シーケンシャル、並列、及びループ構造のための表記を
有し、また、演算のスケジューリング及びアロケーショ
ンを表すために用いられる特定の注釈を有する。

【００３３】ＡＳＴは、単純化器モジュール６に与えら
れる。単純化器モジュール６は、全ての不体裁な構成
を、よりシンプルな構成に書き直す。特に、後のステー
ジをより単純にコード化できるように、単純化器モジュ
ール６からの出力はフル抽象構文のサブセットだけが使
用されている。例えば、単純化器モジュール６は、複合
データ構造を、各コンポーネントに変数が１つであるコ
ンポーネント部分に分解する。

【００３４】単純化されたＡＳＴ７は、最適化器モジュ
ール８に与えられる。最適化器モジュール８は、ソフト
ウェア最適化器モジュール９とその次にあるハードウェ
ア最適化器モジュール１０とを含んでいる。ソフトウェ
ア最適化器モジュール９は、例えば文献３の第４０６〜
５１７頁に開示されるような、不使用変数の除去及びル
ープ外の共通処理の移動のようなソフトウェア最適化技
術を用いて、単純化されたＡＳＴ７を最適化する。ハン
ドシェークのようなプロトコルを用いて通信を行うの
で、転送中にデータが失われることがない。従って、デ
ザインにおける最終タイミングに影響を及ぼし得るが、
そのような通信の時間的順序は変えないように、単純化
されたＡＳＴ内で通信の移動を行うことができる。並列
処理を許容する言語でソースコード１が書かれているた
め、ソフトウェア最適化器モジュール９は、性能制約２
を満たすように計算をパイプライン化する等の手段を導
入することができる。

【００３５】全ての最適化が設計の向上に貢献するよう
に、推定関数が用いられる。推定関数を用いて、ゲート
数、回路面積、回路速度、待ち時間、スループット、消
費パワー、リソース要件などを推定することができる。
ソフトウェア最適化が完了すると、ハードウェア最適化
器モジュール１０は、ハードウェアターゲットに固有の
最適化を行う。文献２の第１３７〜２９６頁に、適切な
ハードウェア最適化器が開示されている。回路面積及び
ゲート数はハードウェアの作成における重要な考慮点で
あるので、上記の最適化は、可能な限りハードウェアが
再利用され得るように、タイミングを考慮して設計され
る。このプロセスには、パイプライン化、スケジューリ
ング、及びアロケーションの技術が含まれ、各最適化に
対して再び推定関数を行うことにより、確実に改善がな
されているようにする。モジュール１０による最適化の
結果によって、各変数及び演算子の最適なハードウェア
表記についての追加情報が、記号テーブル５に追加され
る。例えば、初期化された後に書込みが全く行われない
アレイは、読出し／書込みアレイに必要なＲＡＭよりも
安価なリードオンリーメモリ（ＲＯＭ）によって表すこ
とができる。

【００３６】デザインが、ユーザによって指定された性
能及びコスト制約２を満たしていることが推定関数によ
って示されたとき、モジュール９及び１０による最適化
が終了し得る。これらの制約を満たすことが不可能な場
合、ユーザにメッセージが与えられ得る。さらに、特定
の最適化を選択する、或いは、最適化のパラメータを与
えることによって、最適化器モジュール８に命令を与え
るためのユーザインタラクションがさらに設けられても
良い。この最適化は、適切な環境下におけるデザインの
機能性には影響を与えないが、これによって、異なる性
能或いはコストを達成し得る。

【００３７】最適化されたＡＳＴ及び改変された記号テ
ーブルは、ＨＤＬ生成器モジュール１１に与えられる。
ＨＤＬ生成器モジュール１１は、ＡＳＴを詳細に検討
し、そして、記号テーブル５に集められた情報を用いて
各構成についてのハードウェア表記を作成する。このよ
うにして、生成器モジュール１１は、ＶＨＤＬＲＴＬ等
の適切な言語で書かれたハードウェア表記１２を提供す
る。その後、業界標準ツールを用いて、ＲＴＬをＬＳＩ
回路に変換することができる。

【００３８】モジュール８が行い得る最適化の種類の３
つの例を、以下に説明する。（例１）この例は、ソフトウェア式の最適化によってア
ルゴリズム性能を向上させる１つの方法を示す。

【００３９】

【数３】

【００４０】というコードを考える。この例に適用可能
な最適化がいくつかある。まず、ａ＊ａはループの反復
の度に計算されるが、ａの値はループ内で変わらないの
で、答は常に同じである。ループ開始前に行う１回の計
算と１回の一時的変数の代入とによって、これを置換し
得る。これは、ハードウェア上では、ループの実行中に
乗算器を開放して他の場所での乗算器の使用を可能にす
るとともに、乗算器が２サイクル以上のサイクルを要求
する場合にはループ待ち時間を短縮する可能性もある。
これが可能であるのは、ｓｅｎｄコマンドがタイミング
に依存しないからであり、

【００４１】

【数４】

【００４２】のようになる。

【００４３】２番目の最適化は、ａ＝３及びｔｍｐ＝９
とすることである。従って、このプログラムは、

【００４４】

【数５】

【００４５】のように書くことができる。

【００４６】次に、ａは一度も読み出されないので、

【００４７】

【数６】

【００４８】のように、ａを取ってしまうことが可能で
ある。（例２）ハードウェア式の最適化の例として、

【００４９】

【数７】

【００５０】というアサインメントを考える。

【００５１】先に述べたように、公知のコンパイラにお
けるタイムドセマンティクスでは、やはり、ソース言語
で書かれたこのステートメントは、実行時には、１クロ
ックサイクルで実行されなければならない。これは、２
つのフラッシュ乗算器及び１つの加算器を設ける他に
は、あまり選択の余地がない。結果的に、２つの乗算器
のために面積が大きくなり、サイクル時間が遅くなる
（フラッシュ乗算器は、典型的に、入力の幅に依存して
大きな組合せ遅延を有する）。

【００５２】しかし、図１のコンパイラには、上記のよ
うな制限が全くない。上記の乗算は、

【００５３】

【数８】

【００５４】と示すようにシーケンシャル化することが
できる。

【００５５】次に、

【００５６】

【数９】

【００５７】に示すように、上記乗算を共有乗算関数に
代入することが可能である。

【００５８】乗算器は、その時の処理の種類に合わせる
ことができる（高速ではあるが大型なパラレル乗算、ま
たは、数サイクルを必要とはするが非常に小型で且つク
ロック速度の速いシーケンシャル乗算）。いずれの場合
も、乗算器は１つで十分である。実際の選択は、自動的
になされても、或いは、コンピュータのガイダンスによ
ってユーザが行ってもよい。（例３）この例では、最終的なデザインの効率を向上さ
せるために、どのようにアサインメントの再スケジュー
リングを行うかを示す。

【００５９】

【数１０】

【００６０】というプログラム例を考える。

【００６１】乗算器と加算器とが１つずつある場合、受
信側がａの値を受信する準備ができていれば、上記プロ
グラム全体を、

【００６２】

【数１１】

【００６３】のように、２サイクルに圧縮できる。

【００６４】公知のコンパイラでは、通信をこのように
再スケジューリングすることができないので、この最適
化を行うことはできない。例えば、タイムドセマンティ
クスを有するコンパイラでは、ソース言語のタイミング
を変えることはできず、一方、挙動性コンパイラ(Behav
ioral Compiler)のようなコンパイラでは、通信によっ
て課せられる境界を越えて最適化を行うことはできな
い。

【００６５】あるデザインのソースコード１は、Ｃ言語
のサブセットにいくつかの追加を含む並列Ｃ言語で書か
れている。追加分は、以下の通りである。（ａ）並列処理のための構成：ｐａｒｐａｒ構成は、プログラム内のどこにでも使用すること
ができ、これにより、システムレベルから単一ステート
メントレベルまでのあらゆる細分性の並列処理が導入さ
れ得る。この構文は、

【００６６】

【数１２】

【００６７】に示すように、通常のＣステートメント構
文を拡張する。

【００６８】例えば、

【００６９】

【数１３】

【００７０】のようにして、２つのファンクションコー
ルを並列に実行する。（ｂ）所与のタイプの同期チャネルこれらのチャネルにより、１つのｐａｒにおけるブラン
チ間での通信、及び、（Ｃ言語の通常の外部キーワード
とともに用いられる場合に）同期回路とその周辺との間
での通信が可能になる。内部チャネルは、

【００７１】

【数１４】

【００７２】に示す宣言の構文の拡張を用いて宣言され
る。

【００７３】例えば、

【００７４】

【数１５】

【００７５】のようにすれば、構造成タイプｃｏｍｍの
データを用いて通信する２つの内部チャネルａ及びｂが
宣言される。

【００７６】チャネルは単方向性であるので、周辺との
通信を行うには、そのプロセスが、任意の共有チャネル
の送信端或いは受信端のいずれを有しているのかが分か
っている必要がある。これは、キーワードｃｈａｎｉｎ
及びｃｈａｎｏｕｔによって区別されるので、全ての外
部チャネル宣言において、これらのキーワードを使用し
なければならない。

【００７７】

【数１６】

【００７８】例えば、

【００７９】

【数１７】

【００８０】のようにして、１６ビットの整数で周辺と
通信するチャネルｆｒｏｍ＿ｅｎｖ及びｔｏ＿ｅｎｖを
宣言する。（ｃ）プリミティブｓｅｎｄ（ｃｈａｎ、ｖａｌ）及び
ｒｅｃｅｉｖｅ（ｃｈａｎ）ｓｅｎｄ（ｃｈａｎ、ｖａｌ）は、チャネルｃｈａｎを
介して値ｖａｌを送信する。ｒｅｃｅｉｖｅ（ｃｈａ
ｎ）は、チャネルｃｈａｎを介して値を受信するもので
あり、表現を作成する際に使用できる。各チャネルは２
点間方式でデータの通信を行い、通信を行っている２つ
の処理はそれぞれ、通信が完了するのを待ってからでな
ければ続行できない。さらに、チャネルｃｈａｎを介し
て送信されるのを待っているデータが存在するときに真
となる関数ｒｅａｄｙ（ｃｈａｎ）がある。

【００８１】

【数１８】

【００８２】次の例は一対のプロセスを示し、一方のプ
ロセスは、整数を生成してそれを他方のプロセスに（チ
ャネルｃｈを用いて）送信し、この他方のプロセスは、
受信した整数を加算する。

【００８３】

【数１９】

【００８４】（ｄ）所与のビット幅の整数型のセットこれは、どのような数値精度が要求された場合でも、効
率的な回路が形成できるようにするためのものである。
このために、＃ｅが含まれるように、型修飾子のセット
が拡張される。ここで、ｅは、ｅの値に等しい幅を示す
定数表現である。

【００８５】

【数２０】

【００８６】例えば、

【００８７】

【数２１】

【００８８】のようにして、「符号無し７ビット整数」
型のｃと呼ばれるチャネルを宣言する。（ｅ）ビット操作を行う効率的な回路を構築するための
ビット選択及びビット連結演算子記号＠は、連結を表す。「ｇｒａｂ」演算子（＜−と書
く）は、表現ｅ、及び定数ビット位置ｂ₁．．．ｂ_nのリ
ストを要する。この演算子が評価されると、ｅ_b1．．．
ｅ_bnのｎビットの結果が返される。但し、ｅ_iは、ｅの
ｉ番目のビットである。

【００８９】

【数２２】

【００９０】例えば、３ビット２進数では５₁₀＝１０１
₂であり、７₁₀＝１１１₂である。従って、６ビット２進
数では、５₁₀＠７₁₀＝１０１１１１₂＝４７₁₀である。
４７₁ ₀から上位４ビットを選択すると、表現４７₁₀＜−
｛５，４，３，２｝は、値１０１１₂＝１１₁₀を生成す
る。

【００９１】入力言語の標準Ｃ部分は、ｉｆ、ｗｈｉｌ
ｅ、ｓｗｉｔｃｈ、ｂｌｏｃｋｓ、ｆｕｎｃｔｉｏｎｓ
等の全ての制御特徴、ならびに、ポインタを除く演算及
びデータ操作の殆ど全てを有する。しかし、アレイのイ
ンデックスを用いてポインタを真似ることは可能であ
る。回路の外部のＲＡＭ或いはＲＯＭコンポーネントで
あると仮定される「外部アレイ」を除いて、アレイは、
統合回路内の専用ロジックとして実現される。

【００９２】上記言語におけるＣ言語部分のセマンティ
クスは、Ｃ言語のセマンティクス（つまり、ｅｘｐｒｅ
ｓｓｉｏｎｓ、ａｓｓｉｇｎｍｅｎｔ、ｉｆ、ｗｈｉｌ
ｅ、ｆｏｒ、ｂｒｅａｋ等）と類似している。ｐａｒ及
びチャネル通信のセマンティクスは、上記ＩＮＭＯＳの
文献に開示されるＯｃｃａｍのセマンティクス、及び、
C.A.R.HoareによってCommunicationSequential Process
es, InternationalSeries in Computer Science, Prent
ice-Hall,1985に開示されるＣＳＰのセマンティクスと
類似している。Ｏｃｃａｍの用法ルールに類似する用法
ルールがある。２つの異なる並列コンポーネントから同
一の変数がアクセスされる場合、そのアクセスが全てリ
ードオンリーでない限り、挙動は不確定である。

【００９３】先に説明したように、ソースコードがファ
イルに入力された後、図１の３においてコンパイラはコ
ンパイルを開始し、標準的な構文解析技術を用いてソー
スコードを構文解析して、デザインの構造やサブ構造な
どを記録する抽象構文木４とするとともに、使用される
全ての識別子のタイプ及び名前を記録する記号テーブル
を作成する。処理が進むと、記号テーブルは、各識別子
についての情報を照合することによって様々な変換ステ
ージを互いに関連付ける。

【００９４】次の工程は、図１の６において抽象構文木
を単純化することである。これを行うのは、生成器１１
によって、プログラミング特徴の全てをハードウェアに
変換することはできないからである。単純化器モジュー
ル６は、それらのサポートされない構成を除去して、Ｈ
ＤＬ生成器モジュール１１によってサポートされる等価
な構成に置き換える。例えば、生成器モジュールは、標
準的なＣ言語におけるａ＝（ｂ＋＋）＋５のように、ア
サインメントが副次的効果を有することを許可しない。
単純化された等価物は、ａ＝ｂ＋５；ｂ＝ｂ＋１のよう
になり得る。さらに、単純化器モジュール６は、全ての
演算子及び定数の幅と型とを計算し、この情報を構文木
に格納する。

【００９５】ｓｅｎｄ（ｃｈ、Ｒ）は、ｃｈ：＝Ｒのよ
うなアサインメントに単純化される。この表記は、記号
テーブルにおけるｃｈの型によって、それが本当はチャ
ネル送信であることを「知る」。しかし、この表記法の
統一性（どのプロトコルが要求される場合でも、デステ
ィネーションは常にアサインメントの左側に書かれる）
のために、後のトランスフォーメーションが殆ど例外無
く記述される。同様に、ｘ：＝ｒｅｃｅｉｖｅ（ｃｈ）
は、ｘ：＝ｃｈというアサインメントに単純化される。

【００９６】この時点で、デザインは、単純化された抽
象構文７及び記号テーブル５の組合せで表現される。Ｈ
ＤＬ生成器が処理できない全ての構成を取り去り、最適
化を行う必要がある。例えば、外部アレイ（ＲＡＭ）へ
のアクセスは、逆の情報がない限り、シングルポートＲ
ＡＭであると想定される。従って、ｍｅｍ［ｉ］：＝ｍ
ｅｍ［ｊ］のような表現は、ＨＤＬ生成器によって正し
く処理されない。なぜなら、ＨＤＬ生成器は、そのメモ
リへの２つのアクセスを（ほぼ）同時に生成するからで
ある。この表現は、ｌｏｃａｌｔ；ｔ：＝ｍｅｍ
［ｊ］；ｍｅｍ［ｉ］：＝ｔ；のように書き換えられ
る。

【００９７】標準的な最適化の１つの可能な方法は、ル
ープ内のある計算を反復する必要がない場合に、その計
算をループから取り去ってしまうことである。例えば、

【００９８】

【数２３】

【００９９】は、

【０１００】

【数２４】

【０１０１】のように書き換えられる。

【０１０２】もう１つの可能な方法は、寿命時間が重な
らない複数の変数の間でレジスタを共有することであ
る。例えば、

【０１０３】

【数２５】

【０１０４】は、

【０１０５】

【数２６】

【０１０６】のように書き換えられる。

【０１０７】最適化器モジュール１０が、ある特別な場
合にしか用いられない構造を見つけた場合、生成器モジ
ュール１１がその情報を利用してより簡潔なコードを生
成できるように、最適化器モジュール１０は、構文木
（或いは記号テーブル）にその情報を記録することがで
きる。例えば、あるアレイが定数によって初期化され、
その後に全く更新されない場合、より高価なＲＡＭより
も安価なＲＯＭとして、そのアレイが実現され得る。

【０１０８】抽象構文における１つの重要な構成は、ア
サインメント同期化の形態である。これにより、数個の
アサインメントを同時に実行して、時間若しくは格納ス
ペース或いはそれら両方を節減することができる。例え
ば、ｌｏｃａｌｔｍｐ；ｔｍｐ：＝ａ；ａ：＝ｂ；ｂ：
＝ｔｍｐ；とする代わりに、これを最適化して、ｓｙｎ
ｃｈ｛ａ：＝ｂＡＮＤｂ：＝ａ｝とすることが可能で
ある。アサインメントは、レジスタ、チャネル、及びア
レイの値の全ての通信を処理する。この構造により、い
くつかの有用なアクションを短縮し、短縮しなかった場
合よりも時間を短くすることが可能になる。何が同期化
され得るかについては制限があり、その制限は、インプ
リメンテーションに依存する。

【０１０９】最適化器モジュール１０は、さらに根本的
なことをすることが可能であり、例えば、シーケンシャ
ルコードをパラレルに動作させる、或いは、その逆を行
う、チャネルを除去して、より弱い形態の同期化に置き
換える、インラインに関数を拡張する、乗算を共有乗算
関数へのコールにすることにより乗算器を共有する、コ
ード或いは表現の重複部分を共有する、そして、得られ
る回路の外部挙動が変わらない場合に複雑な表現をパイ
プライン化することができる。無論、速度、面積及びサ
イクル数は変化し得るが、外部インターフェースは全て
ハンドシェークを有するので、通信の順序が守られる場
合は、このような変化は影響しない。

【０１１０】最適化は、自動的に適用されてもよいし、
ユーザ命令型もしくはユーザ選択型であってもよい。目
標は、特定の用途によって決まる指定の面積、パワー、
或いは時間の範囲を達成することである。これらの属性
は、抽象表記に適用される単純なメトリクスによって推
定され得る。

【０１１１】ＨＤＬ生成器モジュール１１は、洗練され
た抽象構文木を受け取り、これをＨＤＬによる回路の記
述に変換する。この段階では、抽象構文に残された各構
成が、良好に特定されたハードウェアインプリメンテー
ションを有する。その一部を以下に説明する。全般的な
技術は、以下に示す重要な点において、公知の技術とは
異なっている。（１）アサインメントが、より複雑なものであり得る
とともに、チャネル通信及びパラメータ化されたファン
クションコールを含み得る。そのためには、例えば乗算
器にその引数がいつ準備状態にあるかが知らされるよう
に、表現の部分間のより複雑なプロトコルが要求され
る。（２）コンパイラが、ネットリストではなくＨＤＬを
生成するので、幾分かの選択の余地がある。具体的に
は、設計チェーンにおけるより低い統合ツールまで、状
態マシン及びレジスタを実行する方法に、選択の余地が
ある。

【０１１２】基本的なスキームは、抽象構文内の制御ス
テートメントからの状態マシンとして、制御パスを統合
することである。殆どの状態において、何らかの計算が
行われる。状態マシンは、計算を初期化し、その計算が
完了するのを待ってから次のステージに進む。例えばＩ
Ｆの場合、次の状態の位置は、計算された値に依存す
る。１つの状態マシンが、その後に同時に実行される他
の１セットの状態マシンを起動し得るようにすることに
よって、並列処理が行われる。

【０１１３】それぞれの計算が完了するまでにかかり得
る時間は未知であるので、例えば、チャネル或いは外部
装置との送信或いは受信が行われる場合、データ依存型
の計算が行われる場合、或いは、ファンクションコール
が行われる場合には、その計算を実行する回路は、計算
の完了を信号で知らせるとともに、その値が使用される
の待ってからその値をディスアサートできなければなら
ない。これは、以下に述べる表現のプロトコルの複雑さ
を説明する。最適化工程によって抽象構文が十分に単純
化されるならば、より単純なプロトコルを用いることも
可能であるが、その場合、実行時間が長くなり得る。さ
らに、統合後のゲートレベルの何らかの最適化は、必要
とされないシグナリングの余分なレベルを除去する。

【０１１４】図２Ａ〜図２Ｃは、制御パス用の基本的な
ビルディングブロックがどのように形成されるのかを示
す図である。ステージは、抽象構文木によって決まる形
状に従う。図２Ａには、１プロセスを表す状態マシン１
５が示されている。大きい円１６は制御ノードであり、
各制御ノードは、１つ或いは１セットのアクションに関
連し得る。最も単純なケースにおいて、これらの制御ノ
ードは、抽象構文言語内の基本プロセスに対応するアサ
インメント或いは通信である。状態マシン１５は、その
アクションが完了してからでないと、次の状態に進むこ
とができない。

【０１１５】図２Ｂには、コンポーネント状態マシン１
７及び１８のシーケンシャル構造として、シーケンシャ
ル構造が示されており、第１のマシンの終了状態１９が
第２のマシンの開始状態と１つになっている。

【０１１６】図２Ｃには、並列構造が示されている。一
つのマスタープロセス２０は特別なものであり、通常の
方法によって現在のシーケンシャル状態マシンに挿入さ
れる。他の全てのスレーブプロセス２１は、マスタープ
ロセスが開始するのを待ってから開始する。

【０１１７】並列部分の終端では、マスタープロセス２
０は、全てのスレーブプロセス２１が終了するのを待っ
てから、次に進む。その後、各スレーブプロセス２１は
初期待機状態に戻って、次の起動に備える。実行中は、
マスタープロセス及びスレーブプロセスのステータスは
同じである。つまり、両者を区別するのは、その開始方
法だけである。

【０１１８】ａ及びｂが幅８で宣言されたものとして、

【０１１９】

【数２７】

【０１２０】という抽象構文のフラグメントを考える。

【０１２１】図３は、このプログラムのために生成され
得る可能な回路例を示す。図３の左側には、この例にお
ける抽象状態マシンが示されている。各アサインメント
につき１つ、合計２つの中間状態２２があり、また、通
常の開始状態２３及び終了状態２４がある。図３の残り
の部分は、可能な回路を示す。フリップフロップ２５、
２６、２９及び３０は、グローバルクロック（不図示）
に接続され、立ち上がりエッジで起動する。

【０１２２】リセット付きＤ型フリップフロップ２５及
び２６は、「ワンホット」エンコードにおける状態マシ
ンを表す。これは、各フリップフロップが可能な状態の
１つを表していることを意味する。フリップフロップが
１を有するときには状態はアクティブであり、そうでな
いときには非アクティブである。プログラムの開始前に
フリップフロップ２５及び２６を０に設定するために、
リセットライン２７が必要である。この他のエンコード
を用いて状態マシンを表すことも可能であるが、この例
が恐らく最も単純である。

【０１２３】開始パルス２８は、１クロックサイクル毎
に１状態の割合で、チェーン上を移動する。これは、特
別な例である。なぜなら、各アサインメントは１サイク
ルしか要しないとが仮定されているからである。より複
雑な例の場合、関連アクションが完了するまでパルスを
待機させるために、何らかの回路機構を生成する必要が
ある。

【０１２４】第１の中間状態においては、変数ａのため
のレジスタ２９のイネーブルビットは真に設定されてお
り、これにより、次の立ち上がりクロックエッジにおい
て、８ビットの定数値１（２進数で０００００００１）
を格納することが可能になる。

【０１２５】第２の中間状態においては、変数ｂのレジ
スタ３０のイネーブルビットは、シングルサイクル加算
器３１のイネーブルビットと同様に真に設定されてい
る。従って、ａ及びｂの以前の値は、次の立ち上がりク
ロックエッジが生じたときにｂに格納される。

【０１２６】図４Ａは、Ｒ表現３２（即ち、その値がデ
ータとして要求されている表現）がどのようにインター
フェースされるかを示す。Ｒ表現の値が要求されると、
信号Ｒｒｅｑｕｅｓｔがアサートされる。上記の値が要
求されなくなるまでの間、信号Ｒｒｅｑｕｅｓｔを真に
保っておかなければならない。その後、この表現はある
値を計算し、その値を信号Ｒｖａｌｕｅとして出力する
とともに、その信号Ｒｖａｌｕｅが有効であることを示
すために信号Ｒｒｅａｄｙをアサートする。Ｒｖａｌｕ
ｅが要求されなくなると、入力信号ｇｏが、１クロック
サイクルだけ真となり、そして信号Ｒｒｅｑｕｅｓｔは
偽になる。信号Ｒｒｅｑｕｅｓｔが次に真となるまで、
信号Ｒｖａｌｕｅ及びＲｒｅａｄｙはディスアサートさ
れる。無論、定数及び組合せ表現等の多くの単純な表現
の場合、本スキームにおける明らかな複雑さの大部分
は、統合中にゲートレベル最適化器によって容易に単純
化され得る。

【０１２７】図４Ｂにおいては、Ａ＋ＢについてのＲ表
現が、Ａ及びＢについてのＲ表現３３及び３４、加算器
３５、及び組合せロジックから構成される。Ｒ表現は、
定数、単純変数、アレイのリファレンス、チャネル入
力、或いは外部メモリからの読出し、ならびに通常の演
算的、論理的及びビット的組合せであり得る。Ｒｒｅｑ
ｕｅｓｔ及びｇｏ信号は、両方のコンポーネント３３及
び３４に一斉送信され、そのＲｖａｌｕｅは加算器３５
に与えられる。この例において、加算器３５は組合せ加
算器であると仮定されている。複合物のＲｒｅａｄｙと
して、ＲｒｅａｄｙのブールＡＮＤをとる。この回路
は、加算器３５を必要な関数に変えるだけで、あらゆる
組合せ表現を実行するのに十分なものとなる。実行する
処理が組合せではない場合、演算子自体が、適切な方法
によって２つのコンポーネントのＲｒｅａｄｙを組み合
わせることによって、Ｒｒｅａｄｙを提供しなければな
らない。このような接続は、パワー削減のためにも利用
され得る。その場合、入力データが有効になるまで、加
算器３５をオフにする。

【０１２８】オペランドと演算子入力との間に幾つかの
マルチプレクサを挿入し、演算子出力の上にデマルチプ
レクサを挿入するだけで、１つの加算器（或いは他の演
算子）を、いくつかの計算によって共有することが可能
になる。最適化器モジュール８がコンフリクトが全く無
いこと、例えば一度に２つの計算が同一の演算子を使用
しようとしていないことを、確かめる必要がある（これ
は、スケジューリング及びアロケーションと呼ばれ
る）。

【０１２９】図５Ａ〜図５Ｃに、その他のＲ表現を示
す。図５Ａは、コール・バイ・バリュー関数がどのよう
にコールされ得るのかを示す。実際のパラメータ（引
数）を連結することによって、１つの表現Ｒ３８が与え
られる。この表現は、準備状態になると、プロセスを始
動する。このプロセスは、図４Ａ及び図４Ｂのスレーブ
プロセスと同様に関数Ｆ３９を実行する。Ｆが一度に２
回以上起動されないようにするためにＦにとって必要な
調停は、図５Ａには図示されておらず、この単純なロジ
ックは、Ｆの内部に設けられている。Ｆからの全ての戻
り値は、Ｒｖａｌｕｅ信号を介して発信側に渡され、ま
た、Ｆが終了すると、Ｒｒｅａｄｙがアサートされる。
ｇｏ信号は、Ｆ及びＲに一斉送信される。

【０１３０】図５Ｂは、単純変数をどのように実施する
のかを示す。値自体はレジスタ（不図示）に格納されて
おり、そのレジスタからの出力は、Ｒｖａｌｕｅ信号を
介して、その出力を要求する各Ｒ表現に対して利用可能
になっている。Ｒｒｅｑｕｅｓｔ及びｇｏ信号は無視さ
れる。この値は常に利用可能であるので、Ｒｒｅａｄｙ
はロジック１に固定されている。

【０１３１】図５Ｃは、チャネルがどのように読み出さ
れるのかを示す。チャネルのｔｘｒｅａｄｙ信号が真で
あれば、その表現は準備状態である。ハンドシェークの
最終部は、ｇｏ信号である。特定のチャネルから読出し
を行う全てのＲ表現からのｇｏ信号のＯＲをとることに
より、そのチャネルのｒｘｒｅａｄｙ（受信準備完了）
信号を生成する。

【０１３２】図６Ａ及び図６Ｂは、どのようにしてＬ表
現（値のデスティネーションを表す表現）を作成するの
かを示す。図６Ａは、Ｌ表現４２のための標準的なイン
ターフェースを示す。Ｌ表現は、単純変数、アレイのリ
ファレンス、チャネルの出力、外部メモリへの書込み、
或いはそれらの組合せであり得る。Ｒｒｅｑｕｅｓｔ信
号を用いて、Ｌ表現内のあらゆる埋込みＲ表現（通常
は、アレイのインデックス計算）を開始する。Ｌｒｅｑ
ｕｅｓｔ信号は、真性Ｌ表現を開始し、また、Ｌｖａｌ
ｕｅ信号に有効なデータが存在するときには真に設定さ
れる。格納処理の完了準備が整うと、ＬＲｒｅａｄｙ信
号が立ち上がる。最後に、表現の環境が準備状態になっ
たとき、１サイクルの間ｇｏ信号を真にすることによっ
て、リソースの解放を示す。Ｌ表現の組合せの場合、２
クロックサイクルを要求できるのはＬ表現の中の１つだ
けであり、そして、このサブ表現が、処理全体のタイミ
ングを決定する。他の全てのサブ表現のＬＲｒｅａｄｙ
は、常に真でなければならない。この条件が満たされな
い場合、プロトコルが失敗し得る。

【０１３３】図６Ｂにおいては、アサインメントがどの
ように構築されるのかを説明するために、インターフェ
ースが用いられている。

【０１３４】図７Ａ〜図７Ｃは、いくつかの特定のＬ表
現がどのようにしてエンコードされるのかを示す。図７
Ａは、単純変数（レジスタ）に対する書込みがどのよう
に行われるのかを示す。書込みデータを、３状態ドライ
バ４４を介して、その変数用の書込みバスの上に流す。
３状態ドライバ４４は、信号ｇｏが送信されるとイネー
ブルされる。これがうまく作動するように、書込みに要
するサイクル数を１とする。そのレジスタの書込みイネ
ーブル信号をとって、そのレジスタに書込みを行う全て
のＬ表現に対する全ての書込みイネーブル信号の論理Ｏ
Ｒにする。コンフリクトが全く生じ得ないようにするの
は、最適化ステージまでである。

【０１３５】図７Ｂは、外部メモリへの書込みがどのよ
うに行われるのかを示す。ｇｏ信号が到達するまでの
間、書込み完了信号を真に保っておかなければならな
い。やはり、このメモリ装置に関係する全ての書込みイ
ネーブルのＯＲがとられなければならない。

【０１３６】図７Ｃは、チャネル出力がどのように行わ
れるのかを示す。所与のチャネルに対するチャネル出力
の全てのＬ表現が集められる。そのチャネルのｔｘｒｅ
ａｄｙ（発信準備完了）は、（このチャネルに言及する
各Ｌ表現に１つずつある）部分的ｔｘｒｅａｄｙ信号の
全てのＯＲである。個々のｒｘｒｅａｄｙ信号は、チャ
ネルｒｘｒｅａｄｙに直接に接続される。

【０１３７】図８は、ｉｆｂｔｈｅｎＰｅｌｓｅＱ
のインプリメンテーションを示す。Ｒ表現ｂからのｒｅ
ａｄｙ信号は、マルチプレクサによって方向づけられ
る。このマルチプレクサは、ｂが返した値によって制御
される。これにより、状態マシンがＰまたはＱのどちら
を伴って継続するかが選択される。

【０１３８】図９は、ｗｈｉｌｅＣ（ｂ）ｄｏＰのイ
ンプリメンテーションを示す。状態マシンは、ｂの値に
よって、再びＰを実行するか、或いは、Ｐを実行せずに
次に進むように指示される。

【０１３９】図１０Ａ及び図１０Ｂは、リソースの作成
方法を示す。変数、アレイ、チャネル、或いは関数のそ
れぞれが、リソースである。ＨＤＬ生成器モジュール１
１が構文木を詳細に検討した後の時点では、各リソース
は、１つ以上の様々なＲ表現及びＬ表現によってアクセ
スされている。各リソースについて、ＨＤＬ生成器モジ
ュール１１は、これらのＲ表現及びＬ表現の「バックエ
ンド」からの信号を用いて、リソースの正しい挙動を規
定する適切な回路を作成しなければならない。

【０１４０】図１０Ａは、書込みイネーブルを有するエ
ッジトリガレジスタ４５として実施される、単純変数を
どのように形成するのかを示す。Ｌ表現からの（書き込
まれるべき値を持つ）データバスは結合され、書込みイ
ネーブル信号は一緒にＯＲをとられる。出力（Ｒ表現）
は比較的簡単であり、必要とされるところにデータがコ
ピーされるだけである。

【０１４１】図１０Ｂは、どのようにチャネルが形成さ
れるのかを示す。全てのＬ表現（チャネル出力）は、そ
れぞれデータバスを有する。それらのデータバスは結合
され、このチャネルの全てのＲ表現（チャネル入力）の
データバスにコピーされる。チャネルの読出し箇所はｍ
箇所あり、また、チャネルの書込み箇所がｎ箇所あると
仮定されている。図１０Ｂの４６において、書込み側の
ｔｘｒｅａｄｙ信号のＯＲをとり、これを読出し側に一
斉送信する。同様に、図１０Ｂの４７において、読出し
側のｒｘｒｅａｄｙ信号のＯＲをとり、これを書込み側
に一斉送信する。（例）

【０１４２】

【数２８】

【０１４３】というフラグメント例を考える。

【０１４４】これは、非常に不自然な例である。なぜな
ら、入力も出力もないからである。しかし、この例は、
短くて理解し易い。変数Ｘは、値０から始まる。その
後、変数Ｘをインクリメントして、これを左に１ビット
シフトし、その工程を変数Ｘが１０未満でなくなるまで
反復する。その後に、プログラムを終了する。この時点
では、出力が多少整理されており、可読性が高められて
いる。

【０１４５】記号テーブルは、

【０１４６】

【数２９】

【０１４７】というエントリを有する。

【０１４８】抽象構文は、

【０１４９】

【数３０】

【０１５０】となる。

【０１５１】ＨＤＬ生成器には「ｆｏｒ」構成がなく、
副次的効果を持つアサインメントは、その副次的効果を
明示しなければならない。従って、上記の例は、

【０１５２】

【数３１】

【０１５３】のように単純化される。

【０１５４】最適化器モジュールは、ループ内の２つの
アサインメントが組み合わされ得ることを発見する。

【０１５５】

【数３２】

【０１５６】最終的に、ＨＤＬ生成器モジュールは、統
合用のＶＨＤＬＲＴＬで書かれた以下の出力を生成す
る。初めにエントリ宣言があり、これにより、周辺との
インターフェースが記述される。

【０１５７】

【数３３】

【０１５８】第２に、アーキテクチャがあり、これによ
り、エントリの挙動が記述される。これは、３つの部
分、即ち、いくつかのローカル宣言と、制御パスのため
の状態マシンと、格納場所及びデータパスのためのレジ
スタ定義とに分かれる。

【０１５９】ローカル宣言

【０１６０】

【数３４】

【０１６１】メイン(main)のアーキテクチャＲＴＬを、
以上に示す。

【０１６２】制御パス状態マシンは、

【０１６３】

【数３５】

【０１６４】のように示される。

【０１６５】格納場所及びデータパスは、

【０１６６】

【数３６】

【０１６７】のように示される。

【０１６８】

【発明の効果】以上に説明したように、本発明によれ
ば、集積回路の設計にあたって、Ｃ言語に類似した言語
によって記述された集積回路の機能や仕様などに関する
ソフトウェアアルゴリズムが、高レベルの最適化を行う
適切なコンパイラの使用によって、自動的に或いは半自
動的に、ハードウェア記述言語（ＨＤＬ）に変換（コン
パイル）される。ソフトウェアアルゴリズムを記述する
言語としては、並列処理や同期通信を記述できる高レベ
ル言語（例えば、並列Ｃ言語）を使用することができ
る。従って、本発明によれば、集積回路の設計にあたっ
て、高レベル言語で記述されたソフトウェアレベルから
ハードウェアレベルへの変換時間が短縮され、ハードウ
ェア開発の効率が向上する。

【図面の簡単な説明】

【図１】本発明のある実施形態の一部を構成するハード
ウェアコンパイラの構造を示す概略図である。

【図２Ａ】図１のコンパイラによって制御パスがどのよ
うに統合されるのかを概略的に示す図であり、特に、開
始及び終了時間が１つである単一の処理を説明するため
の図である。

【図２Ｂ】図１のコンパイラによって制御パスがどのよ
うに統合されるのかを概略的に示す図であり、特に、２
つの処理をシーケンシャルに実行する方法を説明するた
めの図である。

【図２Ｃ】図１のコンパイラによって制御パスがどのよ
うに統合されるのかを概略的に示す図であり、特に、数
個の処理を同時に実行する方法を説明するための図であ
る。

【図３】簡単なプログラム例を実行するための可能な回
路例を示す図である。

【図４Ａ】表現をどのようにエンコードするのかを説明
するための図であり、特に、単一のＲ表現の場合を説明
するための図である。

【図４Ｂ】表現をどのようにエンコードするのかを説明
するための図であり、特に、Ａ及びＢの表現から表現Ａ
＋Ｂをどのように作成するのかを説明するための図であ
る。

【図５Ａ】コール・バイ・バリューファンクションコー
ルがどのように行われるのかを説明するための図であ
る。

【図５Ｂ】単純変数がどのように読み出されるのかを説
明するための図である。

【図５Ｃ】チャネルがどのように読み出されるのかを説
明するための図である。

【図６Ａ】Ｌ表現がどのようにエンコードされるのかを
示す図であり、特に、単一のＬ表現インターフェースを
説明するための図である。

【図６Ｂ】Ｌ表現がどのようにエンコードされるのかを
示す図であり、特に、どのようにＬ表現とＲ表現を組み
合わせてアサインメントを生成するのかを説明するため
の図である。

【図７Ａ】特定のＬ表現がどのようにエンコードされる
のかを示す図であり、特に、単純変数或いはレジスタへ
の書込みがどのように行われるのかを説明するための図
である。

【図７Ｂ】特定のＬ表現がどのようにエンコードされる
のかを示す図であり、特に、外部メモリへの書込みがど
のように行われるのかを説明するための図である。

【図７Ｃ】特定のＬ表現がどのようにエンコードされる
のかを示す図であり、特に、チャネル出力がどのように
行われるのかを説明するための図である。

【図８】条件ステートメントをどのように作成するのか
を説明するための図である。

【図９】ループステートメントをどのように作成するの
かを説明するための図である。

【図１０Ａ】どのようにリソースを作成するのかを説明
するための図であり、特に、単純変数をどのように作成
するのかを説明するための図である。

【図１０Ｂ】どのようにリソースを作成するのかを説明
するための図であり、特に、チャネルをどのように作成
するのかを説明するための図である。

【符号の説明】

１ソースコード５記号テーブル６単純化器モジュール８最適化器モジュール９ソフトウェア最適化器モジュール１０ハードウェア最適化器モジュール１１ＨＤＬ生成器モジュール１２ハードウェア表記（出力コード）

Claims

【特許請求の範囲】

【請求項１】並列処理を許容する言語で集積回路の機
能を記述したソースコードをハードウェア依存のコード
に変換するコンパイラであって、該集積回路内の通信の時間的順序を変えることなく該通
信の再スケジューリングを行うことにより、該集積回路
の性能またはコストを最適化する最適化器と、該最適化器の出力に基づいて、該集積回路の回路構成を
表す出力コードを生成する生成器とを備えた、コンパイ
ラ。
【請求項２】前記通信は、ハンドシェークのプロトコ
ルを用いた同期通信である、請求項１に記載のコンパイ
ラ。
【請求項３】前記コンパイラは、前記ソースコードを
解析することにより、抽象構文木と記号テーブルとを作
成する解析器をさらに備えており、前記最適化器は、該抽象構文木と該記号テーブルとを用
いて最適化を行う、請求項１に記載のコンパイラ。
【請求項４】前記コンパイラは、前記抽象構文木を単
純化する単純化器をさらに備えている、請求項３に記載
のコンパイラ。
【請求項５】前記最適化器は、未使用変数を除去する
ように構成されたソフトウェア最適化器を含む、請求項
１に記載のコンパイラ。
【請求項６】前記最適化器は、ループの反復の度に計
算されるが答えが常に同じである演算を該ループの外に
移動させるように構成されたソフトウェア最適化器を含
む、請求項１に記載のコンパイラ。
【請求項７】前記最適化器は、前記出力コードによっ
て表記されるハードウェアインプリメンテーションを最
適化するハードウェア最適化器を含む、請求項１に記載
のコンパイラ。
【請求項８】前記ハードウェア最適化器は、スケジュ
ーリングおよびアロケーションを行うように構成されて
いる、請求項７に記載のコンパイラ。
【請求項９】前記最適化器は、少なくとも１つの所定
の性能パラメータが所定の制約を満たしたときに最適化
を終了するように構成されている、請求項１に記載のコ
ンパイラ。
【請求項１０】前記少なくとも１つの所定の性能パラ
メータは、集積回路の最大面積を含む、請求項９に記載
のコンパイラ。
【請求項１１】前記少なくとも１つの所定の性能パラ
メータは、集積回路の最小処理速度を含む、請求項９に
記載のコンパイラ。
【請求項１２】前記少なくとも１つの所定の性能パラ
メータは、集積回路の最大消費パワーを含む、請求項９
に記載のコンパイラ。
【請求項１３】前記出力コードは、レジスタ転送レベ
ル（ＲＴＬ）のコードである、請求項１に記載のコンパ
イラ。
【請求項１４】並列処理を許容する言語で集積回路の
機能を記述したソースコードをハードウェア依存のコー
ドに変換するコンパイラであって、該ソースコードを解析することにより、抽象構文木と記
号テーブルとを作成する解析器と、該抽象構文木を単純化することにより、単純化された抽
象構文木を作成する単純化器と、該単純化された抽象構文木を最適化することにより最適
化された抽象構文木を作成するとともに、該記号テーブ
ルを改変することにより改変された記号テーブルを作成
する最適化器と、該最適化された抽象構文木と該改変された記号テーブル
とを用いて、該集積回路の回路構成を表す出力コードを
生成する生成器とを備え、該最適化器は、通信の時間的順序を変えることなく該単
純化された抽象構文木内で該通信の移動を行うソフトウ
ェア最適化器を含む、コンパイラ。
【請求項１５】前記通信は、ハンドシェークのプロト
コルを用いた同期通信である、請求項１４に記載のコン
パイラ。
【請求項１６】前記ソフトウェア最適化器は、未使用
変数を除去するように構成されている、請求項１４に記
載のコンパイラ。
【請求項１７】前記ソフトウェア最適化器は、ループ
の反復の度に計算されるが答えが常に同じである演算を
該ループの外に移動するように構成されている、請求項
１４に記載のコンパイラ。
【請求項１８】前記最適化器は、前記出力コードによ
って表記されるハードウェアインプリメンテーションを
最適化するハードウェア最適化器をさらに含む、請求項
１４に記載のコンパイラ。
【請求項１９】前記ハードウェア最適化器は、スケジ
ューリングおよびアロケーションを行うように構成され
ている、請求項１８に記載のコンパイラ。
【請求項２０】前記最適化器は、少なくとも１つの所
定の性能パラメータが所定の制約を満たしたときに最適
化を終了するように構成されている、請求項１４に記載
のコンパイラ。
【請求項２１】前記少なくとも１つの所定の性能パラ
メータは、集積回路の最大面積を含む、請求項２０に記
載のコンパイラ。
【請求項２２】前記少なくとも１つの所定の性能パラ
メータは、集積回路の最小処理速度を含む、請求項２０
に記載のコンパイラ。
【請求項２３】前記少なくとも１つの所定の性能パラ
メータは、集積回路の最大消費パワーを含む、請求項２
０に記載のコンパイラ。
【請求項２４】前記出力コードは、レジスタ転送レベ
ル（ＲＴＬ）のコードである、請求項１４に記載のコン
パイラ。