JP2003186680A

JP2003186680A - コンパイラ装置および半導体集積回路

Info

Publication number: JP2003186680A
Application number: JP2001380413A
Authority: JP
Inventors: Kimihiko Aeba; 侯彦饗庭; Shuichi Takayama; 秀一高山; Junichi Yano; 純一矢野; Hisato Yoshida; 久人吉田; Katsuyuki Imamura; 勝幸今村; Junichi Mori; 淳一森; Junya Yamamoto; 淳也山本
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2001-12-13
Filing date: 2001-12-13
Publication date: 2003-07-04
Anticipated expiration: 2021-12-13
Also published as: JP3606836B2

Abstract

(57)【要約】【課題】ＣＰＵの使用効率を上げ、半導体集積回路の
消費電力を低減するオブジェクトプログラムを生成する
コンパイラ装置を提供する。さらに、このオブジェクト
プログラムの実行に必要となるさまざまなビット幅のＣ
ＰＵを、プログラマブルデバイスを備えた半導体集積回
路に構成する。【解決手段】コンパイラ装置の抽出手段Ｍ１はソース
プログラムの実行に必要なＣＰＵのビット幅および個数
を見積もり、コンパイル手段Ｍ２は回路構成すべきＣＰ
Ｕを決定してこれらＣＰＵを想定したコンパイルを行
い、付加手段Ｍ３は想定したＣＰＵの回路構成をするた
めの命令をオブジェクトプログラムに付加する。このよ
うに生成されたオブジェクトプログラムを、ＣＰＵとプ
ログラマブルデバイスとが混載された半導体集積回路で
実行することにより、プログラマブルデバイスに必要な
ＣＰＵが回路構成され、ＣＰＵの使用効率を向上させる
ことができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、コンパイラ装置お
よび半導体集積回路に関するものであり、特に、プログ
ラマブルデバイスを備えた半導体集積回路の回路構成技
術および該半導体集積回路によって実行されるオブジェ
クトプログラムを生成するコンパイル技術に属する。

【０００２】

【従来の技術】コンピュータに所望の処理を行わせるに
は、その処理をプログラムとして記述する必要がある。
通常、このプログラムはＣ言語などの高級プログラム言
語を用いて記述されるが、ＣＰＵは高級プログラム言語
で書かれたソースプログラムを直接、実行することがで
きない。このため、ソースプログラムを、ＣＰＵが実行
することのできるオブジェクトプログラムに変換しなけ
ればならない。この変換処理（コンパイル）は、コンパ
イラによって行われる。

【０００３】コンパイラは、ソースプログラムのコンパ
イル時に、オブジェクトプログラムを実行するＣＰＵと
して、ソースプログラムの実行に必要とされる最大ビッ
ト幅のものを選択している。たとえば、図１７に示され
たＣ言語のソースプログラムでは、char型、 short型お
よびlong型の３つのデータ型が使用されており、各デー
タ型の処理に必要なビット幅はそれぞれ８ビット、１６
ビットおよび３２ビットである。したがって、コンパイ
ラは、このソースプログラムの実行に必要なＣＰＵとし
て３２ビットＣＰＵを選択する。

【０００４】図１８は、図１７のソースプログラムが３
２ビットＣＰＵによって実行されることを前提として生
成されたオブジェクトプログラムを示す。

【０００５】１および２行目の“ movbu”は、８ビット
変数ａおよびｂの値を３２ビットデータレジスタＤ０お
よびＤ１にゼロ拡張をして転送するゼロ拡張バイト転送
命令である。同様に、６および７行目の“ movhu”は、
１６ビット変数ｄおよびｅの値を３２ビットデータレジ
スタＤ０およびＤ１にゼロ拡張をして転送するゼロ拡張
ハーフワード転送命令である。

【０００６】３、８および１３行目の“ add”、“ su
b”および“ mul”は、それぞれ３２ビットデータレジ
スタＤ０と３２ビットデータレジスタＤ１との加算命
令、減算命令および乗算命令である。そして、４、９お
よび１４行目の“ mov”は、ＣＡ、ＦＡおよびＩＡでそ
れぞれ表されている変数ｃ、ｆおよびｉのアドレスをア
ドレスレジスタＡ０に転送する命令であり、１１および
１２行目の“ mov”は、３２ビット変数ｇおよびｈの値
を３２ビットデータレジスタＤ０およびＤ１に転送する
命令である。同様に、１５行目の“ mov”は、３２ビッ
トレジスタＤ１の値をアドレスレジスタＡ０で表される
メモリに転送する命令である。

【０００７】５行目の“ movbu”は、３２ビットデータ
レジスタＤ１の値の上位ビットを切り捨て、８ビットデ
ータにしてからアドレスレジスタＡ０で表されるメモリ
に転送するバイト転送命令である。同様に、１０行目の
“ movhu”は、３２ビットデータレジスタＤ１の値の上
位ビットを切り捨て、１６ビットデータにしてからアド
レスレジスタＡ０で表されるメモリに転送するハーフワ
ード転送命令である。

【０００８】

【発明が解決しようとする課題】ソースプログラムによ
っては、そのソースプログラムの実行に必要とされる最
大ビット幅よりも小さなビット幅で実行される命令が頻
繁に出現するようなものがある。このようなソースプロ
グラムにおいて、ＣＰＵは、小さなビット幅で実行でき
る命令を、最大ビット幅に拡張して実行する。たとえ
ば、図１７のソースプログラム中の“c=a+b;”を実行す
るのに、図１８のオブジェクトプログラム中の１および
２行目のゼロ拡張バイト転送命令で８ビットデータを３
２ビットに拡張し、５行目のバイト転送命令で３２ビッ
トデータの上位ビットを切り捨てて８ビットデータにし
てからメモリに転送している。同様に、ソースプログラ
ム中の“f=d-e;”を実行するのに、オブジェクトプログ
ラム中の６および７行目のゼロ拡張ハーフワード転送命
令で１６ビットデータを３２ビットに拡張し、１０行目
のハーフワード転送命令で３２ビットデータの上位ビッ
トを切り捨てて１６ビットデータにしてからメモリに転
送している。

【０００９】このように、最大ビット幅のＣＰＵによっ
てソースプログラム中のすべての命令が実行されるので
は、効率的にＣＰＵを使用することができない。さら
に、小さなビット幅の命令を最大ビット幅に拡張するこ
とにより、ゼロ拡張されたデータを載せたバスの部分に
もクロックが供給される。しかし、このゼロ拡張された
部分に供給されるクロックは無駄であり、半導体集積回
路の消費電力の増大を招く原因となる。

【００１０】上記の問題に鑑み、本発明は、ＣＰＵの使
用効率を上げるとともに、半導体集積回路の消費電力が
低減されるオブジェクトプログラムを生成するコンパイ
ラ装置を実現することを課題とする。さらに、オブジェ
クトプログラムの実行に必要となるさまざまなビット幅
のＣＰＵの回路をＦＰＧＡ（ Field Programmable Gate
Array）などのプログラマブルデバイスを備えた半導体
集積回路に構成することを課題とする。

【００１１】

【課題を解決するための手段】上記課題を解決するため
に、請求項１の発明が講じた手段は、ソースプログラム
から、回路構成が書き換え可能なプログラマブルデバイ
スを備えた半導体集積回路によって実行されるオブジェ
クトプログラムを生成するコンパイラ装置であって、前
記ソースプログラムの実行に必要なＣＰＵのビット幅お
よび個数を見積もる抽出手段と、前記抽出手段によって
見積もられたビット幅および個数、および前記プログラ
マブルデバイスの使用可能領域に基づいて、前記プログ
ラマブルデバイスに回路構成をされるべきＣＰＵのビッ
ト幅および個数を決定し、これら回路構成をされるべき
ＣＰＵによって実行される前記オブジェクトプログラム
を生成するコンパイル手段と、前記コンパイル手段によ
って決定されたビット幅および個数のＣＰＵの回路を前
記プログラマブルデバイスに構成するための命令を、前
記オブジェクトプログラムに付加する付加手段とを備え
るものとする。

【００１２】請求項１の発明によると、ソースプログラ
ムの実行に必要なＣＰＵがプログラマブルデバイスに回
路構成をされると想定して、これらＣＰＵによって実行
されるオブジェクトプログラムが生成される。このよう
に生成されたオブジェクトプログラムにおいて、各命令
の実行に必要なビット幅に応じたＣＰＵでその命令が実
行され、ＣＰＵの使用効率を上げることができる。

【００１３】請求項２の発明では、前記請求項１の抽出
手段は、前記ソースプログラム中に記述された命令の実
行に要するビット幅の出現回数をカウントし、データの
依存関係をも解析して、前記ビット幅および個数を見積
もるものとする。

【００１４】請求項３の発明では、前記請求項２のコン
パイル手段は、前記抽出手段によってカウントされた出
現回数が所定値以上であるビット幅ごとに少なくとも１
個のＣＰＵを、前記プログラマブルデバイスに回路構成
をされるべきＣＰＵとして決定するものとする。

【００１５】請求項４の発明では、前記請求項１のコン
パイル手段は、前記オブジェクトプログラムの生成時
に、前記ソースプログラム中のデータの依存関係を考慮
して、前記プログラマブルデバイスに回路構成をされる
べきＣＰＵによって並列処理が行われるように最適化を
行うものとする。

【００１６】そして、請求項５の発明が講じた手段は、
ソースプログラムから、ＣＰＵと回路構成が書き換え可
能なプログラマブルデバイスとが混載された半導体集積
回路によって実行されるオブジェクトプログラムを生成
するコンパイラ装置であって、前記ソースプログラムの
実行に必要なＣＰＵのビット幅および個数を見積もる抽
出手段と、前記抽出手段によって見積もられたビット幅
および個数、前記半導体集積回路に備えられたＣＰＵの
ビット幅および個数、および前記プログラマブルデバイ
スの使用可能領域に基づいて、前記プログラマブルデバ
イスに回路構成をされるべきＣＰＵのビット幅および個
数を決定し、これら回路構成をされるべきＣＰＵおよび
前記半導体集積回路に備えられたＣＰＵによって実行さ
れる前記オブジェクトプログラムを生成するコンパイル
手段と、前記コンパイル手段によって決定されたビット
幅および個数のＣＰＵの回路を前記プログラマブルデバ
イスに構成するための命令を、前記オブジェクトプログ
ラムに付加する付加手段とを備えたものとする。

【００１７】請求項５の発明によると、ＣＰＵを初めか
ら備えた半導体集積回路においても、ソースプログラム
の実行に必要なＣＰＵがプログラマブルデバイスに回路
構成をされると想定して、これらＣＰＵによって実行さ
れるオブジェクトプログラムが生成される。このように
生成されたオブジェクトプログラムにおいて、各命令の
実行に必要なビット幅に応じたＣＰＵでその命令が実行
され、ＣＰＵの使用効率を上げることができる。

【００１８】請求項６の発明では、前記請求項５の抽出
手段は、前記ソースプログラム中に記述された命令の実
行に要するビット幅の出現回数をカウントし、データの
依存関係をも解析して、前記ビット幅および個数を見積
もるものとする。

【００１９】請求項７の発明では、前記請求項６のコン
パイル手段は、前記半導体集積回路に備えられたＣＰＵ
のビット幅を除いて、前記抽出手段によってカウントさ
れた出現回数が所定値以上であるビット幅ごとに少なく
とも１個のＣＰＵを、前記プログラマブルデバイスに回
路構成をされるべきＣＰＵとして決定するものとする。

【００２０】請求項８の発明では、前記請求項５のコン
パイル手段は、前記オブジェクトプログラムの生成時
に、前記ソースプログラム中のデータの依存関係を考慮
して、前記プログラマブルデバイスに回路構成をされる
べきＣＰＵおよび前記半導体集積回路に備えられたＣＰ
Ｕによって並列処理が行われるように最適化を行うもの
とする。

【００２１】そして、請求項９の発明が講じた手段は、
回路構成が書き換え可能なプログラマブルデバイスを備
えた半導体集積回路であって、前記プログラマブルデバ
イスに、指定されたビット幅および指定された個数のＣ
ＰＵならびに該ＣＰＵに接続されるバスの回路構成をす
る制御部を備えるものとする。

【００２２】請求項９の発明によると、たとえば、オブ
ジェクトプログラムに指定されたビット幅および個数の
ＣＰＵを、半導体集積回路が備えるプログラマブルデバ
イスに回路構成をし、各命令の実行に必要なビット幅に
応じたビット幅のＣＰＵによってその命令が実行され
る。これにより、ゼロ拡張命令などを実行することによ
る無駄なバス部分へのクロック供給がなくなり、半導体
集積回路の消費電力を低減することができる。

【００２３】請求項１０の発明では、前記請求項９の制
御部は、ＣＰＵ回路構成データを参照して、前記プログ
ラマブルデバイスに、指定されたビット幅および指定さ
れた個数のＣＰＵの回路構成をするものとする。

【００２４】請求項１１の発明では、前記請求項１０の
ＣＰＵ回路構成データは、ビット幅でパラメータ化され
ているものとする。

【００２５】請求項１２の発明では、前記請求項９の制
御部は、前記バスとして、命令メモリが保持する命令を
前記ＣＰＵに供給する共有命令バスの回路構成をするも
のとする。

【００２６】請求項１３の発明では、前記請求項１２の
制御部は、共有命令バス回路構成データを参照して、前
記プログラマブルデバイスに、前記共有命令バスの回路
構成をするものとする。

【００２７】請求項１４の発明では、前記請求項９の制
御部は、前記バスとして、データメモリと前記ＣＰＵと
の間でデータを転送する共有データバスの回路構成をす
るものとする。

【００２８】請求項１５の発明では、前記請求項１４の
制御部は、共有データバス回路構成データを参照して、
前記プログラマブルデバイスに、前記共有データバスの
回路構成をするものとする。

【００２９】請求項１６の発明では、前記請求項９の半
導体集積回路はメモリを備えており、制御部は、前記プ
ログラマブルデバイスに回路構成をされるＣＰＵのう
ち、使用頻度が多い順に前記メモリに近い位置に配置さ
れるように、前記指定されたビット幅および指定された
個数のＣＰＵの回路構成をするものとする。

【００３０】請求項１７の発明では、前記請求項９の半
導体集積回路はメモリを備えており、制御部は、前記プ
ログラマブルデバイスに回路構成をされるＣＰＵのう
ち、ビット幅が大きい順に前記メモリに近い位置に配置
されるように、前記指定されたビット幅および指定され
た個数のＣＰＵの回路構成をするものとする。

【００３１】また、請求項１８の発明が講じた手段は、
前記請求項９の半導体集積回路は、前記プログラマブル
デバイスに回路構成をされたＣＰＵとは別個に、ＣＰＵ
を備えているものとする。

【００３２】請求項１８の発明によると、ＣＰＵを備え
た半導体集積回路においても、たとえば、オブジェクト
プログラムに指定されたビット幅および個数のＣＰＵ
を、半導体集積回路が備えるプログラマブルデバイスに
回路構成をし、各命令の実行に必要なビット幅に応じた
ビット幅のＣＰＵによってその命令が実行される。これ
により、ゼロ拡張命令などを実行することによる無駄な
バス部分へのクロック供給がなくなり、半導体集積回路
の消費電力を低減することができる。

【００３３】請求項１９の発明では、前記請求項１８の
制御部は、前記指定されたビット幅と半導体集積回路に
備えられたＣＰＵのビット幅とが等しい場合、該ビット
幅に対して指定された個数から半導体集積回路に備えら
れたＣＰＵのうち該ビット幅と等しいビット幅のＣＰＵ
の個数を減じて、前記プログラマブルデバイスにＣＰＵ
の回路構成をするものとする。

【００３４】請求項２０の発明では、前記請求項１８の
制御部は、前記指定されたビット幅が半導体集積回路に
備えられたＣＰＵのビット幅と等しいビット幅がなく、
前記指定されたビット幅が当該半導体集積回路に備えら
れたＣＰＵのビット幅よりも小さい場合、該指定された
ビット幅に対して指定された個数から半導体集積回路に
備えられたＣＰＵの個数を減じて、前記プログラマブル
デバイスにＣＰＵの回路構成をするものとする。

【００３５】

【発明の実施の形態】以下、図面を用いて、本発明の実
施形態について説明する。

【００３６】（第１の実施形態）図１は、本発明の第１
の実施形態に係るコンパイラ装置の構成を示す。本実施
形態に係るコンパイラ装置は、プログラマブルデバイス
を備えた半導体集積回路によって実行されるオブジェク
トプログラムを生成するものであり、ソースプログラム
の実行に必要なＣＰＵのビット幅および個数を見積もる
抽出手段Ｍ１と、プログラマブルデバイスに回路構成を
されるべきＣＰＵのビット幅および個数を決定してこれ
らＣＰＵによって実行されるオブジェクトプログラムを
生成するコンパイル手段Ｍ２と、ＣＰＵの回路をプログ
ラマブルデバイスに構成するための命令をオブジェクト
プログラムに付加する付加手段Ｍ３とを備えている。以
下、本実施形態に係るコンパイラ装置が行うコンパイル
処理について、図２のフローチャートを用いて説明す
る。

【００３７】本実施形態に係るコンパイラ装置はコンパ
イルを開始すると、ステップＳ１において、ソースプロ
グラム全体にわたり、ソースプログラム中に記述された
命令が実行されるときのビット幅の出現回数をカウント
する。このとき、データの依存関係についても解析す
る。そして、データの依存関係がある命令のビット幅に
ついては出現回数を減じて、ソースプログラムの実行に
必要なＣＰＵのビット幅およびそのビット幅ごとの個数
を見積もる。以上のステップＳ１は、本実施形態に係る
コンパイラ装置の抽出手段Ｍ１によって実行される。

【００３８】次に、ステップＳ２において、抽出手段Ｍ
１によってカウントされたビット幅の出現回数と所定値
とを比較し、出現回数が所定値以上のビット幅（以下、
「必要ビット幅」）を抽出する。ここで、必要ビット幅
を抽出するとしたのは、出現回数が少ないビット幅のＣ
ＰＵはプログラマブルデバイスに回路構成をされても無
駄が多いため、このようなＣＰＵは回路構成をされない
ようにするためである。たとえば、あるソースプログラ
ムにおいて、１６ビットおよび８ビットのビット幅の出
現回数がそれぞれ１８回および２回であるとき、出現回
数が少ない８ビットのＣＰＵは回路構成をされず、１６
ビットのＣＰＵのみが回路構成をされるようにする。な
お、本実施形態では、ソースプログラム全体に対するビ
ット幅の出現割合と所定の閾値とを比較するものとす
る。そして、必要ビット幅が１つの場合はステップＳ３
に進み、複数の場合はステップＳ４に進む。

【００３９】ステップＳ３では、必要ビット幅のＣＰＵ
について抽出手段Ｍ１によって見積もられた個数が１個
である場合、必要ビット幅のＣＰＵが１個だけプログラ
マブルデバイスに回路構成をされるものとしてステップ
Ｓ９に進む。一方、必要ビット幅のＣＰＵの個数が複数
個である場合、プログラマブルデバイスの使用可能領域
に収まる個数のＣＰＵが回路構成をされるものとしてス
テップＳ１０に進む。

【００４０】ステップＳ４では、必要ビット幅に対する
必要な個数のＣＰＵがすべて回路構成をされたときの回
路面積ＳＣＡを計算し、プログラマブルデバイスの使用
可能領域の回路面積ＳＦと比較する。そして、ＳＦ≧Ｓ
ＣＡの場合は、必要ビット幅のＣＰＵがすべて回路構成
をされるものとしてステップＳ８に進み、ＳＦ＜ＳＣＡ
の場合はステップＳ５に進む。

【００４１】ステップＳ５では、必要ビット幅のＣＰＵ
がその必要ビット幅ごとに１個だけ回路構成をされるも
のとして、この場合に要する回路面積ＳＣ１を計算す
る。そして、回路面積ＳＣ１とプログラマブルデバイス
の使用可能領域の回路面積ＳＦとの差（ＳＦ−ＳＣ１）
と、必要ビット幅のＣＰＵのうち回路構成に要する回路
面積が最小であるものの回路面積ＳＳとを比較する。つ
まり、必要ビット幅ごとに１個のＣＰＵの回路構成を
し、なおも残存するプログラマブルデバイスの使用可能
領域に別の必要ビット幅のＣＰＵが追加して回路構成を
され得るか否かを判断する。そして、ＳＦ−ＳＣ１≧Ｓ
Ｓの場合はステップＳ６に進み、ＳＦ−ＳＣ１＜ＳＳの
場合は、複数ビット幅のＣＰＵがビット幅ごとに１個、
プログラマブルデバイスに回路構成をされるものとして
ステップＳ７に進む。

【００４２】ステップＳ６では、必要ビット幅のＣＰＵ
がビット幅ごとに１個、回路構成をされ、さらに、なお
も残存するプログラマブルデバイスの使用可能領域に別
の必要ビット幅のＣＰＵが追加して回路構成をされるよ
うに、必要ビット幅のＣＰＵの個数を見積もり直す処理
が行われる。この処理については後述する。

【００４３】ステップＳ７では、複数ビット幅のＣＰＵ
が、ビット幅ごとに１個、プログラマブルデバイスに回
路構成をされると想定して、これらＣＰＵによって実行
されるオブジェクトプログラムを生成する。このとき、
ソースプログラム中に記述された命令の実行に要するビ
ット幅に応じて、各命令に各ビット幅のＣＰＵを割り当
てるようにコンパイルする。

【００４４】ステップＳ８では、複数ビット幅のＣＰＵ
が、ビット幅ごとに複数個、プログラマブルデバイスに
回路構成をされると想定して、これらＣＰＵによって実
行されるオブジェクトプログラムを生成する。このと
き、ソースプログラム中に記述された命令の実行に要す
るビット幅に応じて、各命令に各ビット幅のＣＰＵを割
り当てるとともに、各命令が並列に実行されるように最
適化を行ってコンパイルする。

【００４５】ステップＳ９では、単一ビット幅のＣＰＵ
が１個、プログラマブルデバイスに回路構成をされると
想定して、このＣＰＵによって実行されるオブジェクト
プログラムを生成する。

【００４６】ステップＳ１０では、単一ビット幅のＣＰ
Ｕが１または複数個、プログラマブルデバイスに回路構
成をされると想定して、これらＣＰＵによって実行され
るオブジェクトプログラムを生成する。このとき、ソー
スプログラム中に記述された各命令が並列に実行される
ように最適化を行ってコンパイルする。

【００４７】以上、ステップＳ２からステップＳ１０ま
での処理は、本実施形態に係るコンパイラ装置のコンパ
イル手段Ｍ２によって実行される。

【００４８】最後に、ステップＳ１１では、回路構成を
されると想定したＣＰＵの回路をプログラマブルデバイ
スに構成するための命令をオブジェクトプログラム付加
する。まず、コンパイル手段Ｍ２によって生成されたオ
ブジェクトプログラムを解析して、各ビット幅のＣＰＵ
の使用頻度を調べる。そして、付加する命令において、
ビット幅を表す数字が使用頻度の多い順に、先に現れる
ようにする。また、使用頻度が同一の場合は、ビット幅
の大きい順に、先に現れるようにする。そして、コンパ
イル手段Ｍ２によって生成されたオブジェクトプログラ
ムに、この命令を付加して、すべての処理を終了する。
このステップＳ１１は、本実施形態に係るコンパイラ装
置の付加手段Ｍ３によって実行される。

【００４９】次に、ステップＳ６における処理につい
て、図３のフローチャートを用いて説明する。

【００５０】ステップＳ６１では、プログラマブルデバ
イスに残存する使用可能領域の回路面積（ＳＦ−ＳＣ
１）と、必要ビット幅のＣＰＵのうち回路構成に要する
回路面積が最大であるものの回路面積ＳＢとを比較す
る。つまり、プログラマブルデバイスの残存領域に必要
バス幅のＣＰＵのうち、任意のものが追加して回路構成
をされ得るか否かを判断する。そして、ＳＦ−ＳＣ１≧
ＳＢの場合はステップＳ６２に進み、ＳＦ−ＳＣ１＜Ｓ
Ｂの場合はステップＳ６４に進む。

【００５１】ステップＳ６２では、出現回数が最多であ
る必要ビット幅のＣＰＵが追加して回路構成可能である
として、この必要ビット幅のＣＰＵの個数を１つ増や
す。そして、この追加されたＣＰＵが要する回路面積を
回路面積ＳＣ１に加えて新たな回路面積ＳＣ１を計算
し、ステップＳ６３に進む。

【００５２】ステップＳ６３では、プログラマブルデバ
イスに残存する使用可能領域の回路面積（ＳＦ−ＳＣ
１）と、必要ビット幅のＣＰＵのうち回路構成に要する
回路面積が最小であるものの回路面積ＳＳとを比較す
る。つまり、なおも残存するプログラマブルデバイスの
使用可能領域に別の必要ビット幅のＣＰＵが追加して回
路構成可能か否かを判断する。そして、ＳＦ−ＳＣ１≧
ＳＳの場合は、なおもＣＰＵが追加可能であるとして、
ステップＳ６１に戻ってＣＰＵの個数をさらに見積もり
直す。一方、ＳＦ−ＳＣ１＜ＳＳの場合は、これ以上の
ＣＰＵを追加できないため、このときの選択されている
ビット幅およびそのビット幅ごとの個数のＣＰＵが、プ
ログラマブルデバイスに回路構成をされるものとしてス
テップＳ７に進む。

【００５３】ステップＳ６４では、追加されるＣＰＵと
して、プログラマブルデバイスに残存する使用可能領域
の回路面積（ＳＦ−ＳＣ１）に収まる回路面積であり、
かつ、出現回数が最多のＣＰＵを選択する。そして、こ
のとき選択されているビット幅およびそのビット幅ごと
の個数のＣＰＵが、プログラマブルデバイスに回路構成
をされるものとしてステップＳ７に進む。

【００５４】以上、本実施形態に係るコンパイラ装置の
処理の流れを説明した。次に、図４に示されたＣ言語プ
ログラムを例に、本実施形態に係るコンパイラ装置のコ
ンパイル処理について具体的に説明する。なお、ソース
プログラム中に記述された各命令に対するコンパイル処
理については説明を省略し、オブジェクトプログラムの
実行に必要なＣＰＵを決定する処理およびこれらＣＰＵ
の回路を構成するための命令を付加する処理について詳
しく述べる。

【００５５】コンパイラ装置はコンパイルを開始する
と、ステップＳ１において、図４のソースプログラム中
の“c=a+b;”はすべてchar型データなのでこの命令を実
行するのに要するビット幅は８ビット、“f=d-e;”はす
べてchar型データなので８ビット、“i=g*h;”はすべて
short型データなので１６ビットであるため、８ビット
の出現回数を２回、１６ビットの出現回数を１回として
カウントする。さらに、データの依存関係を解析し、図
４のソースプログラムにはデータの依存関係がないと判
断する。そして、図４のソースプログラムの実行に必要
なＣＰＵとして、８ビットが２個、１６ビットが１個で
あると見積もる。

【００５６】次に、ステップＳ２に進み、各ビット幅の
出現割合をチェックする。ここでは、閾値を１／４とす
る。８ビットの出現割合は２／３および１６ビットの出
現割合は１／３であり、どちらも閾値以上なので、必要
ビット幅として８ビットおよび１６ビットの２種類を抽
出し、ステップＳ４に進む。

【００５７】ステップＳ４に進むと、抽出されたビット
幅のＣＰＵがすべてプログラマブルデバイスに回路構成
可能か否かを判断する。ここで、プログラマブルデバイ
スの使用可能な領域の回路面積ＳＦを１０、８ビットＣ
ＰＵの回路構成に要する回路面積を２、１６ビットＣＰ
Ｕの回路構成に要する回路面積を４とする。すべてのＣ
ＰＵを回路構成するのに要する回路面積ＳＣＡは２×２
＋４＝８となり、ＳＦ≧ＳＣＡなので、すべてのＣＰＵ
の回路を構成するものとしてステップＳ８に進む。

【００５８】ステップＳ８に進むと、８ビットＣＰＵが
２個および１６ビットＣＰＵが１個、プログラマブルデ
バイスに回路構成されると想定して、これら３個のＣＰ
Ｕによって実行されるオブジェクトプログラムを生成
し、ステップＳ１１に進む。なお、ここで生成されるの
は、図５に示されたオブジェクトプログラムの２行目以
降となる。

【００５９】オブジェクトプログラムは、ソースプログ
ラム中に記述された命令の実行に要するビット幅に応じ
て、各命令に各ビット幅のＣＰＵを割り当てるように生
成される。図５のオブジェクトプログラムの２行目以降
に記述された命令の末尾に付された数字は、その命令が
その数字のビット幅のＣＰＵによって実行されることを
示している。また、図４のソースプログラムに対して、
２個の８ビットＣＰＵが回路構成をされるため、この２
個のＣＰＵで並列処理が行われるように最適化されたオ
ブジェクトプログラムが生成される。図５のオブジェク
トプログラムでは、２行目以降の命令の末尾に付された
数字の後に、さらに“ａ”や“ｂ”といった記号を付し
て、その命令が実行されるべきＣＰＵが指定されてい
る。

【００６０】そして、ステップＳ１１に進むと、コンパ
イル手段Ｍ２によって生成されたオブジェクトプログラ
ムを解析して、各ビット幅のＣＰＵの使用頻度を調べ
る。図５のオブジェクトプログラムでは、どのビット幅
のＣＰＵも使用頻度は５回であるので、ビット幅の大き
い順に、１６ビット、８ビット、８ビットとして bit命
令に現れるようにする。この bit命令は、プログラマブ
ルデバイスにＣＰＵの回路を構成するための命令であ
る。そして、図５のオブジェクトプログラムの１行目に
示された“bit 16,8,8”を付加して、処理を終了する。

【００６１】以上は、データの依存関係がないソースプ
ログラムを例にコンパイル処理の説明をした。次に、デ
ータの依存関係があるソースプログラムのコンパイル処
理について、図６のＣ言語プログラムを例に説明をす
る。なお、先ほどと同様に、ソースプログラム中に記述
された各命令に対するコンパイル処理については説明を
省略し、オブジェクトプログラムの実行に必要なＣＰＵ
を決定する処理およびこれらＣＰＵの回路を構成するた
めの命令を付加する処理について詳しく述べる。

【００６２】コンパイラ装置はコンパイルを開始する
と、ステップＳ１において、図６のソースプログラム中
の“c=a+b;”はすべてchar型データなのでこの命令を実
行するのに必要なビット幅は８ビット、“f=c-e;”はす
べてchar型データなので８ビット、“i=g*h;”はすべて
short型データなので１６ビットであるため、８ビット
の出現回数を２回、１６ビットの出現回数を１回として
カウントする。さらに、データの依存関係を解析し、変
数ｃについてデータの依存関係があると判断する。した
がって、図６のソースプログラムの実行に必要なＣＰＵ
として、８ビットが１個、１６ビットが１個であると見
積もり、ステップＳ２に進む。なお、ステップＳ２以
降、コンパイル手段Ｍ２によって行われる処理は、先ほ
どの例と同様であるので説明を省略する。なお、コンパ
イル手段Ｍ２によって図７に示されたオブジェクトプロ
グラムの２行目以降が生成される。

【００６３】最後に、ステップＳ１１に進み、コンパイ
ル手段Ｍ２によって生成されたオブジェクトプログラム
を解析して、各ビット幅のＣＰＵの使用頻度を調べる。
図７のオブジェクトプログラムでは、８ビットＣＰＵの
使用頻度は９回、１６ビットＣＰＵは５回であるので、
使用頻度の多い順に、８ビット、１６ビットとして bit
命令に現れるようにする。そして、図７のオブジェクト
プログラムの１行目に示された“bit 8,16”を付加し
て、処理を終了する。

【００６４】次に、本実施形態に係る半導体集積回路に
ついて、図８を用いて説明する。本実施形態に係る半導
体集積回路１は、上記の bit命令が付加されたオブジェ
クトプログラム、たとえば、本実施形態に係るコンパイ
ラ装置によって生成されたオブジェクトプログラムを実
行することができる。

【００６５】本実施形態に係る半導体集積回路１は、Ｆ
ＰＧＡ１１と、ＦＰＧＡ１１にさまざまな回路を構成す
る制御部１２と、ＦＰＧＡ１１に構成されるさまざまな
回路の回路構成データを格納している構成データメモリ
１３と、半導体集積回路１によって実行される命令を格
納する命令メモリ１５と、データメモリ１６とを備えて
いる。なお、本実施形態で用いる回路構成データは、Ｆ
ＰＧＡに回路を構成するための一般的なデータと同様の
ものである。

【００６６】ＦＰＧＡ１１には、１または複数個（図８
では４個）のＣＰＵ１４と、命令メモリ１５からＣＰＵ
１４に命令を供給するための共有命令バス１７と、ＣＰ
Ｕ１４とデータメモリ１６との間でデータを転送するた
めの共有データバス１８と、共有データバス１８の使用
に関してＣＰＵ１４を調停するバス調停回路１９とが回
路構成をされている。

【００６７】制御部１２は、指定されたビット幅および
指定された個数のＣＰＵ１４の回路をＦＰＧＡ１１に構
成する機能と、共有命令バス１７の回路をＦＰＧＡ１１
に構成する機能と、共有データバス１８の回路をＦＰＧ
Ａ１１に構成する機能と、バス調停回路１９の回路をＦ
ＰＧＡ１１に構成する機能とを有する。なお、本実施形
態におけるこれら回路の構成は、一般的な回路構成技術
によって行うものとする。

【００６８】構成データメモリ１３は、ＦＰＧＡ１１に
回路構成をされる８ビットＣＰＵ、１６ビットＣＰＵ、
３２ビットＣＰＵなどのさまざまなビット幅のＣＰＵの
回路構成データと、さまざまなビット幅のＣＰＵに接続
することのできる共有命令バスの回路構成データおよび
共有データバスの回路構成データとを格納している。

【００６９】ＣＰＵ１４は、データレジスタおよびアド
レスレジスタを有し、独立して命令を実行することがで
きる。したがって、これらＣＰＵ１４によって並列処理
が行われる。

【００７０】共有命令バス１７は、すべてのＣＰＵ１４
と命令メモリ１５とに接続するように回路構成をされ、
命令メモリ１５から命令を受け取り、この命令がどのＣ
ＰＵ１４によって実行されるのかを判別する機能と、各
命令をその命令が実行されるＣＰＵに供給する機能とを
有する。

【００７１】共有データバス１８は、すべてのＣＰＵ１
４とデータメモリ１６とに接続するように回路構成をさ
れ、ＣＰＵ１４とデータメモリ１６との間のデータ転送
命令に関して、ＣＰＵ１４からデータメモリ１６に指定
アドレスを供給する機能と、データメモリ１６からＣＰ
Ｕ１４にデータを供給する機能とを有する。

【００７２】共有データバス１８は複数のＣＰＵ１４に
よって共有されているため、複数のＣＰＵ１４によって
同時にアクセスされる可能性がある。しかし、共有デー
タバス１８は、一度に１個のＣＰＵ１４のデータしか扱
えないため、ＣＰＵ１４間で共有データバス１８を使用
するタイミングを調整しなければならない。この調整を
行うのがバス調停回路１９である。

【００７３】バス調停回路１９は、共有データバス１８
の使用状況を判断するためのレジスタを有する。このレ
ジスタは、共有データバス１８がＣＰＵ１４によって使
用されている場合は“１”、どのＣＰＵ１４にも使用さ
れていない場合は“０”の値を保持する。ＣＰＵ１４が
データメモリ１６にアクセスするには、まず、バス調停
回路１９にバス使用要求信号ＤＴ１を発する。バス調停
回路１９はバス使用要求信号ＤＴ１を受けると、レジス
タ値を参照して、レジスタ値が“０”の場合は、レジス
タ値を“１”にして他のＣＰＵ１４が共有データバス１
８を使用できないようにするとともに、バス使用要求信
号ＤＴ１を発したＣＰＵ１４にバス使用許可信号ＤＴ２
を送る。一方、レジスタ値が“１”の場合は、レジスタ
値が“０”になるまで、バス使用要求信号ＤＴ１を発し
たＣＰＵ１４を待機させる。バス使用許可信号ＤＴ２を
受けたＣＰＵ１４は、共有データバス１８を使用してデ
ータメモリ１６にアクセスができるようになる。そし
て、アクセスが終了すると、バス調停回路１９にバス使
用終了信号ＤＴ３を発する。バス調停回路１９はバス使
用終了信号ＤＴ３を受けると、レジスタ値を“０”にし
て他のＣＰＵ１４が共有データバス１８を使用できるよ
うにする。

【００７４】次に、半導体集積回路１によって図５のオ
ブジェクトプログラムが実行されるときの動作について
説明する。なお、オブジェクトプログラム中の個々の命
令に対する動作についての説明は省略し、 bit命令に対
する動作について説明する。

【００７５】半導体集積回路１によって図５のオブジェ
クトプログラムが実行されると、まず、１行目の“bit
16,8,8”が命令メモリ１５から制御部１２に送られる。
制御部１２はこの bit命令を受けると、構成データメモ
リ１３から、１６ビットおよび８ビットのＣＰＵの回路
構成データ、および１６ビットおよび８ビットのＣＰＵ
に接続するための共有命令バスおよび共有データバスの
回路構成データを読み込み、ＦＰＧＡ１１にこれらの回
路構成をする。

【００７６】図９は、制御部１２が bit命令を実行した
結果、ＦＰＧＡ１１にＣＰＵ１４−Ａ，１４−Ｂ，１４
−Ｃ、共有命令バス１７および共有データバス１８の回
路が構成されたところを示す。図５のオブジェクトプロ
グラムの bit命令において、回路構成をされるべきＣＰ
Ｕのビット幅を示す数値として“１６”が先に指定され
ているので、１６ビットＣＰＵのＣＰＵ１４−ＡがＦＰ
ＧＡ１１の領域内でメモリにより近い位置に回路構成を
される。共有データバス１８は、ＣＰＵ１４−Ａとは１
６ビット、ＣＰＵ１４−ＢおよびＣＰＵ１４−Ｃとは８
ビットで接続されるように回路構成をされる。なお、共
有データバス１８の下位８ビットはＣＰＵ１４−Ａ，１
４−Ｂ，１４−Ｃに、上位８ビットはＣＰＵ１４−Ａの
みに接続される。

【００７７】図５のオブジェクトプログラムの２行目以
降に記述された命令は、共有命令バス１７によって、そ
の命令が実行されるべきＣＰＵに供給される。図５のオ
ブジェクトプログラムにおいて、命令の末尾に付された
“16”はＣＰＵ１４−Ａ、“8a”はＣＰＵ１４−Ｂ、そ
して“8b”はＣＰＵ１４−Ｃでそれぞれ実行されること
を表す。ＣＰＵ１４−Ａ，１４−Ｂ，１４−Ｃは命令を
受けると、それぞれ独立してその命令を実行するが、こ
の実行については説明を省略する。

【００７８】以上、本実施形態によると、コンパイル時
に、ソースプログラム中に記述された命令の実行に要す
るビット幅に応じてＣＰＵのビット幅を選択し、その選
択されたビット幅のＣＰＵによってその命令が実行され
るようにすることにより、ＣＰＵを効率的に使用するオ
ブジェクトプログラムを生成することができる。

【００７９】また、半導体集積回路１のＦＰＧＡ１１に
回路構成をされるＣＰＵ１４を、使用頻度が多い順にメ
モリに近い位置に配置することにより、使用頻度の多い
共有データバス１８の配線長を短くすることができ、処
理の高速化が可能となる。さらに、ビット幅が大きい順
にメモリに近い位置に配置することにより、共有データ
バス１８の無駄な配線を削減することができ、ＦＰＧＡ
１１の回路資源を有効に活用することができる。また、
ソースプログラムの実行に必要なビット幅のＣＰＵ１４
をＦＰＧＡ１１に回路構成をすることにより、小さなビ
ット幅の命令を最大ビット幅に拡張して実行することが
なくなり、拡張されたバスの部分に無駄に供給されるク
ロックを削減することができ、半導体集積回路１の消費
電力を低減することができる。

【００８０】なお、構成データメモリ１３、命令メモリ
１５およびデータメモリ１６は半導体集積回路１に備え
られるとしたが、これらは半導体集積回路１の外部にあ
るものでもよい。また、構成データメモリ１３は、さま
ざまなビット幅のＣＰＵ１４の回路構成データ、共有命
令バス１７の回路構成データおよび共有データバス１８
の回路構成データを格納しているとしたが、これら回路
構成データをビット幅でパラメータ化して格納していて
もよい。この場合、制御部１２から指定されたビット幅
をパラメータとして、指定されたビット幅のＣＰＵ１
４、共有命令バス１７および共有データバス１８の回路
構成データを生成して制御部１２に送る機能を有する。

【００８１】（第２の実施形態）図１は、本発明の第２
の実施形態に係るコンパイラ装置の構成を示す。本実施
形態に係るコンパイラ装置は、ＣＰＵ（以下、「メイン
ＣＰＵ」）とプログラマブルデバイスとが混載された半
導体集積回路によって実行されるオブジェクトプログラ
ムを生成するものであり、ソースプログラムの実行に必
要なＣＰＵのビット幅および個数を見積もる抽出手段Ｍ
１と、プログラマブルデバイスに回路構成をされるべき
ＣＰＵのビット幅および個数を決定してこれらＣＰＵお
よびメインＣＰＵによって実行されるオブジェクトプロ
グラムを生成するコンパイル手段Ｍ２Ａと、プログラマ
ブルデバイスにＣＰＵの回路を構成するための命令をオ
ブジェクトプログラムに付加する付加手段Ｍ３とを備え
ている。以下、本実施形態に係るコンパイラ装置が行う
コンパイル処理について、図１０のフローチャートを用
いて説明する。

【００８２】コンパイル処理が開始されると、まず、抽
出手段Ｍ１によってステップＳ１の処理が実行される。
このステップＳ１は、第１の実施形態と同様であるので
説明を省略する。続くステップＳ２も、第１の実施形態
と同様であるので説明を省略する。ここで、ステップＳ
２において、出現回数が所定値以上であるとして抽出さ
れたビット幅（以下、「必要ビット幅」）の中には、メ
インＣＰＵのビット幅と等しいビット幅があるとする。

【００８３】ステップＳ３Ａでは、必要ビット幅として
メインＣＰＵのビット幅を選択し、このビット幅のＣＰ
Ｕについて抽出手段Ｍ１によって見積もられた個数が１
個である場合、メインＣＰＵ１個によって実行されるオ
ブジェクトプログラムを生成するためにステップＳ９Ａ
に進む。一方、メインＣＰＵと同一ビット幅のＣＰＵの
個数が複数個である場合、この個数からメインＣＰＵの
個数を減じ、さらに、プログラマブルデバイスの使用可
能領域に収まる個数のＣＰＵが回路構成をされるものと
してステップＳ１０Ａに進む。

【００８４】ステップＳ４Ａでは、メインＣＰＵを除く
必要ビット幅に対する必要な個数のＣＰＵがすべて回路
構成をされたときの回路面積ＳＣＡを計算し、プログラ
マブルデバイスの使用可能領域の回路面積ＳＦと比較す
る。そして、ＳＦ≧ＳＣＡの場合は、メインＣＰＵを除
く必要ビット幅のＣＰＵがすべて回路構成をされるもの
としてステップＳ８Ａに進み、ＳＦ＜ＳＣＡの場合はス
テップＳ５Ａに進む。

【００８５】ステップＳ５Ａでは、メインＣＰＵのビッ
ト幅を除く必要ビット幅のＣＰＵがその必要ビット幅ご
とに１個だけ回路構成をされるものとして、この場合に
要する回路面積ＳＣ１を計算する。そして、回路面積Ｓ
Ｃ１とプログラマブルデバイスの使用可能領域の回路面
積ＳＦとの差（ＳＦ−ＳＣ１）と、必要ビット幅のＣＰ
Ｕのうち回路構成に要する回路面積が最小であるものの
回路面積ＳＳとを比較する。つまり、メインＣＰＵのビ
ット幅を除く必要ビット幅ごとに１個のＣＰＵの回路構
成をし、なおも残存するプログラマブルデバイスの使用
可能領域に別の必要ビット幅のＣＰＵが追加して回路構
成をされ得るか否かを判断する。そして、ＳＦ−ＳＣ１
≧ＳＳの場合はステップＳ６に進み、ＳＦ−ＳＣ１＜Ｓ
Ｓの場合は、メインＣＰＵのビット幅を除く複数ビット
幅のＣＰＵがビット幅ごとに１個、プログラマブルデバ
イスに回路構成をされるものとしてステップＳ７Ａに進
む。

【００８６】ステップＳ６では、メインＣＰＵのビット
幅を除く必要ビット幅のＣＰＵがビット幅ごとに１個、
回路構成され、さらに、なおも残存するプログラマブル
デバイスの使用可能領域に別の必要ビット幅のＣＰＵが
追加して回路構成をされるように、必要ビット幅のＣＰ
Ｕの個数を見積もり直す処理が行われる。この処理は、
第１の実施形態と同様であるので説明を省略する。

【００８７】ステップＳ７Ａでは、メインＣＰＵのビッ
ト幅を除く複数ビット幅のＣＰＵが、ビット幅ごとに１
個、プログラマブルデバイスに回路構成をされると想定
して、これら回路構成をされるＣＰＵおよびメインＣＰ
Ｕによって実行されるオブジェクトプログラムを生成す
る。このとき、ソースプログラム中に記述された命令の
実行に要するビット幅に応じて、各命令に各ビット幅の
ＣＰＵを割り当てるようにコンパイルする。

【００８８】ステップＳ８Ａでは、メインＣＰＵを除く
複数ビット幅のＣＰＵが、ビット幅ごとに１または複数
個、プログラマブルデバイスに回路構成をされると想定
して、これら回路構成をされるＣＰＵおよびメインＣＰ
Ｕによって実行されるオブジェクトプログラムを生成す
る。このとき、ソースプログラム中に記述された命令の
実行に要するビット幅に応じて、各命令に各ビット幅の
ＣＰＵを割り当てるようにするとともに、各命令が並列
に実行されるように最適化を行ってコンパイルする。さ
らに、メインＣＰＵと同一のビット幅のＣＰＵが回路構
成をされる場合、メインＣＰＵを優先的に使用するよう
に最適化を行う。

【００８９】ステップＳ９Ａでは、メインＣＰＵ１個に
よって実行されるオブジェクトプログラムを生成する。

【００９０】ステップＳ１０Ａでは、メインＣＰＵのビ
ット幅のＣＰＵが複数個、プログラマブルデバイスに回
路構成をされると想定して、これら回路構成をされるＣ
ＰＵおよびメインＣＰＵによって実行されるオブジェク
トプログラムを生成する。このとき、メインＣＰＵを優
先的に使用し、ソースプログラム中に記述された各命令
が並列に実行されるように最適化を行ってコンパイルす
る。

【００９１】以上、ステップＳ２からステップＳ１０Ａ
までの処理は、本実施形態に係るコンパイラ装置のコン
パイル手段Ｍ２Ａによって実行される。

【００９２】最後に、付加手段Ｍ３によってステップＳ
１１の処理が実行される。このステップＳ１１は、第１
の実施形態と同様であるので説明を省略する。

【００９３】以上、本実施形態に係るコンパイラ装置の
処理の流れを説明した。次に、図１１に示されたＣ言語
プログラムを例に、本実施形態に係るコンパイラ装置の
コンパイル処理について具体的に説明する。なお、ソー
スプログラム中に記述された各処理に対するコンパイル
処理については説明を省略し、オブジェクトプログラム
の実行に必要なＣＰＵを決定する処理およびこれらＣＰ
Ｕの回路構成のための命令を付加する処理について詳し
く述べる。また、生成されるオブジェクトプログラムを
実行する半導体集積回路は、メインＣＰＵとして３２ビ
ットＣＰＵを備えているとする。

【００９４】コンパイラ装置はコンパイルを開始する
と、ステップＳ１において、図１１のソースプログラム
中の“c=a+b;”はすべてchar型データなのでこの命令を
実行するのに要するビット幅は８ビット、“f=d-e;”は
すべて short型なので１６ビット、処理“i=g*h;”はす
べてlong型データなので３２ビット、処理“l=j*k;”は
すべてchar型データなので８ビットであるため、８ビッ
トの出現回数を２回、１６ビットの出現回数を１回、３
２ビットの出現回数を１回としてカウントする。さら
に、データの依存関係を解析し、図１１のソースプログ
ラムにはデータの依存関係がないと判断する。そして、
図１１のソースプログラムの実行に必要なＣＰＵとし
て、８ビットが２個、１６ビットが１個、３２ビットが
１個であると見積もる。

【００９５】次に、ステップＳ２に進み、各ビット幅の
出現割合をチェックする。ここでは、閾値を１／４とす
る。８ビットの出現割合は２／４、１６ビットの出現割
合は１／４および３２ビットの出現割合は１／４であ
り、いずれも閾値以上であるので、必要ビット幅として
８ビット、１６ビットおよび３２ビットの３種類を抽出
し、ステップＳ４Ａに進む。

【００９６】ステップＳ４Ａに進むと、抽出されたビッ
ト幅のＣＰＵからメインＣＰＵを除く、２個の８ビット
ＣＰＵおよび１個の１６ビットＣＰＵがプログラマブル
デバイスに回路構成可能か否かを判断する。ここで、プ
ログラマブルデバイスの使用可能な領域の回路面積ＳＦ
を１０、８ビットＣＰＵの回路構成に要する回路面積を
２、１６ビットＣＰＵの回路構成に要する回路面積を４
とする。メインＣＰＵを除くすべてのＣＰＵを回路構成
するのに要する回路面積ＳＣＡは２×２＋４＝８とな
り、ＳＦ≧ＳＣＡなので、メインＣＰＵを除くすべての
ＣＰＵの回路を構成するものとしてステップＳ８Ａに進
む。

【００９７】ステップＳ８Ａに進むと、８ビットＣＰＵ
が２個および１６ビットＣＰＵが１個、プログラマブル
デバイスに回路構成されると想定して、これら３個のＣ
ＰＵおよびメインＣＰＵによって実行されるオブジェク
トプログラムを生成し、ステップＳＴ１１に進む。な
お、ここで生成されるのは、図１２に示されたオブジェ
クトプログラムの２行目以降となる。

【００９８】オブジェクトプログラムは、ソースプログ
ラム中に記述された命令の実行に要するビット幅に応じ
て、各命令に各ビット幅のＣＰＵを割り当てるように生
成される。図１２のオブジェクトプログラムの２行目以
降に記述された命令の末尾に付された数字は、その命令
がその数字のビット幅のＣＰＵによって実行されること
を示している。ただし、メインＣＰＵによって実行され
る命令には数字は付されない。また、図１１のソースプ
ログラムに対して、２個の８ビットＣＰＵが回路構成を
されるため、この２個のＣＰＵで並列処理が行われるよ
うに最適化されたオブジェクトプログラムが生成され
る。図１２のオブジェクトプログラムでは、２行目以降
の命令の末尾に付された数字の後に、さらに“ａ”や
“ｂ”といった記号を付して、その命令が実行されるべ
きＣＰＵが指定されている。

【００９９】そして、ステップＳ１１に進むと、コンパ
イル手段Ｍ２Ａによって生成されたオブジェクトプログ
ラムを解析して、プログラマブルデバイスに回路構成を
されるべきＣＰＵの使用頻度を調べる。図１２のオブジ
ェクトプログラムでは、どのビット幅のＣＰＵも使用頻
度は５回であるので、ビット幅の大きい順に、１６ビッ
ト、８ビット、８ビットとして bit命令に現れるように
する。この bit命令は、プログラマブルデバイスにＣＰ
Ｕの回路を構成するための命令である。そして、図１２
のオブジェクトプログラムの１行目に示された“bit 1
6,8,8”を付加して、処理を終了する。

【０１００】以上は、データの依存関係がないソースプ
ログラムを例にコンパイル処理の説明をした。次に、デ
ータの依存関係があるソースプログラムのコンパイル処
理について、図１３のＣ言語プログラムを例に説明をす
る。

【０１０１】コンパイラ装置はコンパイルを開始する
と、ステップＳ１において、図１３のソースプログラム
中の“c=a+b;”はすべてchar型データなのでこの処理の
ビット幅は８ビット、“f=d-e;”はすべて short型デー
タなので１６ビット、“i=g*h;”はすべてlong型データ
なので３２ビット、“l=c*k;”はすべてchar型データな
ので８ビットであるため、８ビットの出現回数を２回、
１６ビットの出現回数を１回、３２ビットの出現回数が
１回としてカウントする。さらに、データの依存関係を
解析し、変数ｃについてデータの依存関係があると判断
する。したがって、必要なＣＰＵとして、８ビットが１
個、１６ビットが１個、３２ビットが１個であると見積
もり、ステップＳ２に進む。なお、ステップＳ２以降、
コンパイル手段Ｍ２Ａによって行われる処理は、先ほど
の例と同様であるので説明を省略する。なお、コンパイ
ル手段Ｍ２Ａによって図１４に示されたオブジェクトプ
ログラムの２行目以降が生成される。

【０１０２】最後に、ステップＳ１１に進み、コンパイ
ル手段Ｍ２Ａによって生成されたオブジェクトプログラ
ムを解析して、プログラマブルデバイスに回路構成をさ
れるべきＣＰＵの使用頻度を調べる。図１４のオブジェ
クトプログラムでは、８ビットＣＰＵの使用頻度は９
回、１６ビットＣＰＵは５回であるので、使用頻度の多
い順に、８ビット、１６ビットとして bit命令に現れる
ようにする。そして、図１４のオブジェクトプログラム
の１行目に示された“bit 8,16”を付加して、処理を終
了する。

【０１０３】次に、本実施形態に係る半導体集積回路に
ついて、図１５を用いて説明する。本実施形態に係る半
導体集積回路１Ａは、上記の bit命令が付加されたオブ
ジェクトプログラム、たとえば、本実施形態に係るコン
パイラ装置によって生成されたオブジェクトプログラム
を実行することができる。

【０１０４】本実施形態に係る半導体集積回路１Ａは、
メインＣＰＵ１０と、ＦＰＧＡ１１と、ＦＰＧＡ１１に
さまざまな回路を構成する制御部１２と、ＦＰＧＡ１１
に構成されるさまざまな回路の回路構成データを格納し
ている構成データメモリ１３と、半導体集積回路１Ａに
よって実行される命令を格納する命令メモリ１５と、デ
ータメモリ１６と、ＣＰＵ１０およびＦＰＧＡ１１に回
路構成をされたＣＰＵ１４に命令を供給するための共有
命令バス１７と、ＣＰＵ１０およびＦＰＧＡ１１に回路
構成をされたＣＰＵ１４とデータメモリ１６との間でデ
ータを転送するための共有データバス１８とを備える。

【０１０５】ＦＰＧＡ１１には、１または複数（図１５
では４個）のＣＰＵ１４と、共有データバス１８の使用
に関してＣＰＵ１０およびＣＰＵ１４を調停するバス調
停回路１９と、上記の共有命令バス１７とＣＰＵ１４と
を接続するための延長部分と、上記の共有データバス１
８とＣＰＵ１４とを接続するための延長部分とが回路構
成をされている。

【０１０６】なお、本実施形態に係る半導体集積回路１
Ａの各構成要素については、第１の実施形態と同様であ
るので説明を省略する。

【０１０７】次に、半導体集積回路１Ａによって図１２
のオブジェクトプログラムが実行されるときの動作につ
いて説明する。ここで、メインＣＰＵ１０は３２ビット
ＣＰＵであるとする。なお、オブジェクトプログラム中
の個々の命令に対する動作ついての説明は省略し、 bit
命令に対する動作について説明する。

【０１０８】半導体集積回路１Ａによって図１２のオブ
ジェクトプログラムが実行されると、まず、１行目の
“bit 16,8,8”が命令メモリ１５から制御部１２に送ら
れる。制御部１２は bit命令を受けると、構成データメ
モリ１３から、１６ビットＣＰＵおよび８ビットＣＰＵ
の回路構成データ、および１６ビットＣＰＵおよび８ビ
ットＣＰＵに接続するための共有命令バスおよび共有デ
ータバスの回路構成データを読み込み、ＦＰＧＡ１１に
これらの回路構成をする。このとき、半導体集積回路１
Ａが、 bit命令に指定されたビット幅と同一ビット幅の
メインＣＰＵを既に備えていたなら、メインＣＰＵの個
数だけ減じて、ＣＰＵ１４の回路構成をするようにす
る。

【０１０９】図１６は、制御部１２が bit命令を実行し
た結果、ＦＰＧＡ１１にＣＰＵ１４−Ａ，１４−Ｂ，１
４−Ｃ、共有命令バス１７の延長部分および共有データ
バス１８の延長部分の回路が構成されたところを示す。
図１２のオブジェクトプログラムの bit命令において、
回路構成をされるべきＣＰＵのビット幅を示す数値とし
て“１６”が先に指定されているので、１６ビットＣＰ
ＵのＣＰＵ１４−ＡがＦＰＧＡ１１の領域内でメモリに
より近い位置に回路構成をされる。共有データバス１８
の延長部分は、ＣＰＵ１４−Ａとは１６ビット、ＣＰＵ
１４−ＢおよびＣＰＵ１４−Ｃとは８ビットで接続され
るように回路構成をされる。なお、共有データバス１８
の下位８ビットはＣＰＵ１０およびＣＰＵ１４−Ａ，１
４−Ｂ，１４−Ｃに、下位１６ビットはＣＰＵ１０およ
びＣＰＵ１４−Ａに、上位１６ビットはＣＰＵ１０のみ
に接続される。

【０１１０】図１２のオブジェクトプログラムの２行目
以降に記述された命令は、共有命令バス１７によって、
その命令が実行されるべきＣＰＵに供給される。図１２
のオブジェクトプログラムにおいて、命令の末尾に付さ
れた“16”はＣＰＵ１４−Ａ、“8a”はＣＰＵ１４−
Ｂ、“8b”はＣＰＵ１４−Ｃ、そして何も付されていな
いものはメインＣＰＵ１０でそれぞれ実行されることを
表す。ＣＰＵ１０およびＣＰＵ１４−Ａ，１４−Ｂ，１
４−Ｃは命令を受けると、それぞれ独立してその命令を
実行するが、各命令の実行については説明を省略する。

【０１１１】以上、本実施形態によると、コンパイル時
に、ソースプログラム中に記述された命令の実行に要す
るビット幅に応じてＣＰＵのビット幅を選択し、その選
択されたビット幅のＣＰＵによってその処理が実行され
るようにすることにより、ＣＰＵを効率的に使用するオ
ブジェクトプログラムを生成することができる。

【０１１２】また、半導体集積回路１Ａが元来備えてい
るＣＰＵ１０を優先的に使用するようにコンパイルする
ことにより、半導体集積回路１Ａに備えられたＣＰＵ１
０を効率的に使用することができ、高速に処理されるオ
ブジェクトプログラムを作成することができる。また、
ＦＰＧＡ１１に回路構成をされるＣＰＵ１４を、使用頻
度が多い順にメモリに近い位置に配置することにより、
使用頻度の多い共有データバス１８の配線長を短くする
ことができ、処理の高速化が可能となる。さらに、ビッ
ト幅が大きい順にメモリに近い位置に配置することによ
り、共有データバス１８の無駄な配線を削減することが
でき、ＦＰＧＡ１１の回路資源を有効に活用することが
できる。また、ソースプログラムの実行に必要なＣＰＵ
でメインＣＰＵ１０を除くＣＰＵ１４をＦＰＧＡ１１に
回路構成をすることにより、小さなビット幅の命令を最
大ビット幅に拡張して実行することがなくなり、拡張さ
れたバスの部分に無駄に供給されるクロックを削減する
ことができ、半導体集積回路１Ａの消費電力を低減する
ことができる。

【０１１３】なお、コンパイラ手段Ｍ２Ａは必要ビット
幅の中にメインＣＰＵのビット幅と等しいビット幅があ
るとしているが、必要ビット幅の中にメインＣＰＵのビ
ット幅がなくてもよい。そのとき、必要ビット幅がメイ
ンＣＰＵのビット幅より小さいものがある場合、必要ビ
ット幅の中で一番大きなビット幅のＣＰＵをメインＣＰ
Ｕに割り当てる一方、必要ビット幅がメインＣＰＵのビ
ット幅よりすべて大きい場合、メインＣＰＵを使用せ
ず、必要ビット幅のＣＰＵをプログラマブルデバイスで
回路構成する。

【０１１４】また、構成データメモリ１３、命令メモリ
１５およびデータメモリ１６は半導体集積回路１Ａに備
えられるとしたが、これらは半導体集積回路１Ａの外部
にあってもよい。また、構成データメモリ１３は、さま
ざまなバス幅のＣＰＵ１４の回路構成データ、共有命令
バス１７の回路構成データおよび共有データバス１８の
回路構成データを格納しているとしたが、これら回路構
成データをビット幅でパラメータ化して格納していても
よい。この場合、制御部１２から指定されたビット幅を
パラメータとして、指定されたビット幅のＣＰＵ１４、
共有命令バス１７および共有データバス１８の回路構成
データを生成して制御部１２に送る機能を有する。

【０１１５】

【発明の効果】以上、本発明によると、オブジェクトプ
ログラムの実行時に、半導体集積回路に備えられたＦＰ
ＧＡなどのプログラマブルデバイスにさまざまなビット
幅のＣＰＵの回路が、適宜、構成されるため、ゼロ拡張
命令などを実行することによる無駄なバス部分へのクロ
ック供給がなくなり、半導体集積回路の消費電力を低減
することができる。また、ソースプログラムを、これら
ＣＰＵによって実行されるようにコンパイルすることに
より、ＣＰＵの使用効率を上げ、かつ、処理速度が速く
なるようなオブジェクトプログラムの生成が可能とな
る。

【０１１６】なお、本発明に係るコンパイラ装置は、コ
ンパイラプログラムを、たとえば、記録媒体を介して、
コンピュータにインストールすることによって、実現す
ることができる。

【図面の簡単な説明】

【図１】本発明のコンパイラ装置の構成図である。

【図２】本発明の第１の実施形態に係るコンパイラ装置
のコンパイル処理を示すフローチャートである。

【図３】本発明の第１および第２の実施形態に係るコン
パイラ装置のＣＰＵ個数見積もり直し処理のフローチャ
ートである。

【図４】Ｃ言語プログラムの１例である。

【図５】本発明の第１の実施形態に係るコンパイラ装置
が図４のＣ言語プログラムをコンパイルして生成したオ
ブジェクトプログラムである。

【図６】Ｃ言語プログラムの１例である。

【図７】本発明の第１の実施形態に係るコンパイラ装置
が図６のＣ言語プログラムをコンパイルして生成したオ
ブジェクトプログラムである。

【図８】本発明の第１の実施形態に係る半導体集積回路
のブロック図である。

【図９】本発明の第１の実施形態に係る半導体集積回路
が図５のオブジェクトプログラムを実行してＣＰＵが回
路構成されたところを示した図である。

【図１０】本発明の第２の実施形態に係るコンパイラ装
置のコンパイル処理を示すフローチャートである。

【図１１】Ｃ言語プログラムの１例である。

【図１２】本発明の第２の実施形態に係るコンパイラ装
置が図１１のＣ言語プログラムをコンパイルして生成し
たオブジェクトプログラムである。

【図１３】Ｃ言語プログラムの１例である。

【図１４】本発明の第２の実施形態に係るコンパイラ装
置が図１３のＣ言語プログラムをコンパイルして生成し
たオブジェクトプログラムである。

【図１５】本発明の第２の実施形態に係る半導体集積回
路のブロック図である。

【図１６】本発明の第２の実施形態に係る半導体集積回
路が図１２のオブジェクトプログラムを実行してＣＰＵ
が回路構成されたところを示した図である。

【図１７】Ｃ言語プログラムの１例である。

【図１８】従来のコンパイラ装置が図１７のＣ言語プロ
グラムをコンパイルして生成したオブジェクトプログラ
ムである。

【符号の説明】

Ｍ１抽出手段Ｍ２，Ｍ２Ａコンパイル手段Ｍ３付加手段１，１Ａ半導体集積回路１０半導体集積回路に備えられたＣＰＵ（メイン
ＣＰＵ）１１プログラマブルデバイス（ＦＰＧＡ）１２制御部１３構成データメモリ１４プログラマブルデバイスに回路構成をされた
ＣＰＵ１５命令メモリ１６データメモリ１７共有命令バス１８共有データバス１９バス調停回路

───────────────────────────────────────────────────── フロントページの続き (72)発明者矢野純一大阪府門真市大字門真1006番地松下電器産業株式会社内 (72)発明者吉田久人大阪府門真市大字門真1006番地松下電器産業株式会社内 (72)発明者今村勝幸大阪府門真市大字門真1006番地松下電器産業株式会社内 (72)発明者森淳一大阪府門真市大字門真1006番地松下電器産業株式会社内 (72)発明者山本淳也大阪府門真市大字門真1006番地松下システムテクノ株式会社内Ｆターム(参考） 5B081 AA10 CC21 5J042 BA01 BA11 DA02 DA04

Claims

【特許請求の範囲】

【請求項１】ソースプログラムから、回路構成が書き
換え可能なプログラマブルデバイスを備えた半導体集積
回路によって実行されるオブジェクトプログラムを生成
するコンパイラ装置であって、前記ソースプログラムの実行に必要なＣＰＵのビット幅
および個数を見積もる抽出手段と、前記抽出手段によって見積もられたビット幅および個
数、ならびに前記プログラマブルデバイスの使用可能領
域に基づいて、前記プログラマブルデバイスに回路構成
をされるべきＣＰＵのビット幅および個数を決定し、該
回路構成をされるべきＣＰＵによって実行される前記オ
ブジェクトプログラムを生成するコンパイル手段と、前記コンパイル手段によって決定されたビット幅および
個数のＣＰＵを前記プログラマブルデバイスに回路構成
するための命令を、前記オブジェクトプログラムに付加
する付加手段とを備えたことを特徴とするコンパイラ装
置。
【請求項２】請求項１記載のコンパイラ装置におい
て、前記抽出手段は、前記ソースプログラム中に記述された命令の実行に要す
るビット幅の出現回数をカウントし、データの依存関係
をも解析して、前記ビット幅および個数を見積もるもの
であることを特徴とするコンパイラ装置。
【請求項３】請求項２記載のコンパイラ装置におい
て、前記コンパイル手段は、前記抽出手段によってカウントされた出現回数が所定値
以上であるビット幅ごとに少なくとも１個のＣＰＵを、
前記プログラマブルデバイスに回路構成をされるべきＣ
ＰＵとして決定するものであることを特徴とするコンパ
イラ装置。
【請求項４】請求項１記載のコンパイラ装置におい
て、前記コンパイル手段は、前記オブジェクトプログラムの生成時に、前記ソースプ
ログラム中のデータの依存関係を考慮して、前記プログ
ラマブルデバイスに回路構成をされるべきＣＰＵによっ
て並列処理が行われるように最適化を行うものであるこ
とを特徴とするコンパイラ装置。
【請求項５】ソースプログラムから、ＣＰＵと回路構
成が書き換え可能なプログラマブルデバイスとが混載さ
れた半導体集積回路によって実行されるオブジェクトプ
ログラムを生成するコンパイラ装置であって、前記ソースプログラムの実行に必要なＣＰＵのビット幅
および個数を見積もる抽出手段と、前記抽出手段によって見積もられたビット幅および個
数、前記半導体集積回路に備えられたＣＰＵのビット幅
および個数、ならびに前記プログラマブルデバイスの使
用可能領域に基づいて、前記プログラマブルデバイスに
回路構成をされるべきＣＰＵのビット幅および個数を決
定し、これら回路構成をされるべきＣＰＵおよび前記半
導体集積回路に備えられたＣＰＵによって実行される前
記オブジェクトプログラムを生成するコンパイル手段
と、前記コンパイル手段によって決定されたビット幅および
個数のＣＰＵを前記プログラマブルデバイスに回路構成
するための命令を、前記オブジェクトプログラムに付加
する付加手段とを備えたことを特徴とするコンパイラ装
置。
【請求項６】請求項５記載のコンパイラ装置におい
て、前記抽出手段は、前記ソースプログラム中に記述された命令の実行に要す
るビット幅の出現回数をカウントし、データの依存関係
をも解析して、前記ビット幅および個数を見積もるもの
であることを特徴とするコンパイラ装置。
【請求項７】請求項６記載のコンパイラ装置におい
て、前記コンパイル手段は、前記半導体集積回路に備えられたＣＰＵのビット幅を除
いて、前記抽出手段によってカウントされた出現回数が
所定値以上であるビット幅ごとに少なくとも１個のＣＰ
Ｕを、前記プログラマブルデバイスに回路構成をされる
べきＣＰＵとして決定するものであることを特徴とする
コンパイラ装置。
【請求項８】請求項５記載のコンパイラ装置におい
て、前記コンパイル手段は、前記オブジェクトプログラムの生成時に、前記ソースプ
ログラム中のデータの依存関係を考慮して、前記プログ
ラマブルデバイスに回路構成をされるべきＣＰＵおよび
前記半導体集積回路に備えられたＣＰＵによって並列処
理が行われるように最適化を行うものであることを特徴
とするコンパイラ装置。
【請求項９】回路構成が書き換え可能なプログラマブ
ルデバイスを備えた半導体集積回路であって、前記プログラマブルデバイスに、指定されたビット幅お
よび指定された個数のＣＰＵならびに該ＣＰＵに接続さ
れるバスの回路構成をする制御部を備えたことを特徴と
する半導体集積回路。
【請求項１０】請求項９記載の半導体集積回路におい
て、前記制御部は、ＣＰＵ回路構成データを参照して、前記プログラマブル
デバイスに、指定されたビット幅および指定された個数
のＣＰＵの回路構成をするものであることを特徴とする
半導体集積回路。
【請求項１１】請求項１０記載の半導体集積回路にお
いて、前記ＣＰＵ回路構成データは、ビット幅でパラメータ化
されていることを特徴とする半導体集積回路。
【請求項１２】請求項９記載の半導体集積回路におい
て、前記制御部は、前記バスとして、命令メモリが保持する命令を前記ＣＰ
Ｕに供給する共有命令バスの回路構成をするものである
ことを特徴とする半導体集積回路。
【請求項１３】請求項１２記載の半導体集積回路にお
いて、前記制御部は、共有命令バス回路構成データを参照して、前記プログラ
マブルデバイスに、前記共有命令バスの回路構成をする
ものであることを特徴とする半導体集積回路。
【請求項１４】請求項９記載の半導体集積回路におい
て、前記制御部は、前記バスとして、データメモリと前記ＣＰＵとの間でデ
ータを転送する共有データバスの回路構成をするもので
あることを特徴とする半導体集積回路。
【請求項１５】請求項１４記載の半導体集積回路にお
いて、前記制御部は、共有データバス回路構成データを参照して、前記プログ
ラマブルデバイスに、前記共有データバスの回路構成を
するものであることを特徴とする半導体集積回路。
【請求項１６】請求項９記載の半導体集積回路におい
て、メモリを備え、前記制御部は、前記プログラマブルデバイスに回路構成をされるＣＰＵ
のうち、使用頻度が多い順に前記メモリに近い位置に配
置されるように、前記指定されたビット幅および指定さ
れた個数のＣＰＵの回路構成をするものであることを特
徴とする半導体集積回路。
【請求項１７】請求項９記載の半導体集積回路におい
て、メモリを備え、前記制御部は、前記プログラマブルデバイスに回路構成をされるＣＰＵ
のうち、ビット幅が大きい順に前記メモリに近い位置に
配置されるように、前記指定されたビット幅および指定
された個数のＣＰＵの回路構成をするものであることを
特徴とする半導体集積回路。
【請求項１８】請求項９記載の半導体集積回路におい
て、前記プログラマブルデバイスに回路構成をされたＣＰＵ
とは別個に、ＣＰＵを備えたことを特徴とする半導体集
積回路。
【請求項１９】請求項１８記載の半導体集積回路にお
いて、前記制御部は、前記指定されたビット幅と当該半導体集積回路に備えら
れたＣＰＵのビット幅とが等しい場合、該ビット幅に対
して指定された個数から当該半導体集積回路に備えられ
たＣＰＵのうち該ビット幅と等しいビット幅のＣＰＵの
個数を減じて、前記プログラマブルデバイスにＣＰＵの
回路構成をするものであることを特徴とする半導体集積
回路。
【請求項２０】請求項１８記載の半導体集積回路にお
いて、前記制御部は、前記指定されたビット幅が当該半導体集積回路に備えら
れたＣＰＵのビット幅と等しいビット幅がなく、前記指
定されたビット幅が当該半導体集積回路に備えられたＣ
ＰＵのビット幅よりも小さい場合、該指定されたビット
幅に対して指定された個数から当該半導体集積回路に備
えられたＣＰＵの個数を減じて、前記プログラマブルデ
バイスにＣＰＵの回路構成をするものであることを特徴
とする半導体集積回路。