JP2003241975A

JP2003241975A - コンパイラ装置および半導体集積回路

Info

Publication number: JP2003241975A
Application number: JP2002044334A
Authority: JP
Inventors: Junichi Mori; 淳一森; Katsuyuki Imamura; 勝幸今村; Junya Yamamoto; 淳也山本; Shuichi Takayama; 秀一高山; Junichi Yano; 純一矢野; Hisato Yoshida; 久人吉田; Kimihiko Aeba; 侯彦饗庭
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2002-02-21
Filing date: 2002-02-21
Publication date: 2003-08-29

Abstract

(57)【要約】【課題】ＣＰＵ５１とＦＰＧＡ５２とが混載された半
導体集積回路５において、プログラムの実行の高速化お
よびコスト削減を図る。【解決手段】コンパイラ装置２は、ソースプログラム
１から、オブジェクトプログラム３およびＦＰＧＡ５２
にプログラムの処理の一部を実行させるための回路コー
ド４を生成する。回路コード４によって生成されるもの
は、拡張演算器および拡張レジスタファイルである。オ
ブジェクトプログラム３は、回路コード４に基づいてＦ
ＰＧＡ５２に回路構成されるものを使用することを前提
としており、プログラムの実行を高速化することができ
る。また、ＦＰＧＡ５２に拡張命令デコーダを回路構成
して、オブジェクトプログラム３のコードサイズを縮小
する。これにより、命令メモリの容量を低減することが
でき、コストを削減することができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、コンパイラ装置お
よび半導体集積回路に関するものであり、特に、ＣＰＵ
と回路構成が書き換え可能なプログラマブルデバイスと
が混載された半導体集積回路およびこの半導体集積回路
によって実行されるプログラムのコンパイル技術に関す
る。

【０００２】

【従来の技術】近年、ＰＬＤ（Programmable Logic Dev
ice ）やＦＰＧＡ（Field Programmable Gate Array ）
などの回路構成が書き換え可能なプログラマブルデバイ
ス（以下、「ＦＰＧＡ」と称する。）およびＣＰＵを１
つの半導体集積回路上に混載したプロセッサが提案され
ている。このような半導体集積回路を用いることで、従
来ではすべてＣＰＵが処理していたプログラムについ
て、その一部をＦＰＧＡに回路化してハードウェア的に
処理させることにより、プログラム全体としての実行速
度を向上させることができる。たとえば、特開平６−３
０１５２２号公報に開示された技術によると、ソースプ
ログラム中での出現頻度の高い処理をＦＰＧＡに回路化
することにより、プログラムの実行速度の向上を図って
いる。

【０００３】ＦＰＧＡに回路構成をするためには、回路
コードが必要となる。同公報に開示された技術では、ソ
ースプログラムをコンパイルしてオブジェクトプログラ
ムを生成する過程において、ソースプログラム中の出現
頻度の高い処理をＦＰＧＡに回路構成するための回路コ
ードをも生成している。

【０００４】

【発明が解決しようとする課題】ＦＰＧＡに回路面積は
有限である。したがって、プログラム中でソフトウェア
的に処理するには最も過負荷となる部分をＦＰＧＡにハ
ードウェア化することが重要である。このようにＦＰＧ
Ａへの回路構成が最適化されることにより、プログラム
の実行速度を最も向上することができる。

【０００５】上記公報に開示された技術によると、ＦＰ
ＧＡにハードウェア化すべき処理部分として、ソースプ
ログラムにおける処理の出現頻度に着目し、頻繁に出現
する処理を選択している。しかし、この方法では、必ず
しもＦＰＧＡへの回路化が最適されるとは言えない。た
とえば、出現頻度は低いがＦＰＧＡに回路化することに
よりプログラム全体としての処理速度が向上するような
処理もあるからである。

【０００６】上記問題に鑑み、本発明は、ＣＰＵとＦＰ
ＧＡとが混載された半導体集積回路を対象として、与え
られたソースプログラムから、実行時の性能が高くなる
ようなオブジェクトプログラムおよび回路コードを生成
するコンパイラ装置を提供し、また、このようなオブジ
ェクトプログラムおよび回路コードに基づいて、ＦＰＧ
Ａに処理の一部を回路構成してプログラムを高速に実行
できる半導体集積回路を提供することを課題とする。

【０００７】

【課題を解決するための手段】上記の課題を解決するた
めに、請求項１の発明が講じた手段は、ソースプログラ
ムから、第１の演算器を備えたＣＰＵと回路構成が書き
換え可能なプログラマブルデバイスとが混載された半導
体集積回路によって実行されるオブジェクトプログラム
と、該プログラマブルデバイスの回路構成を決定する回
路コードとを生成するコンパイラ装置であって、前記ソ
ースプログラムから少なくとも１つの第１の命令列を抽
出する命令列抽出手段と、前記第１の命令列について、
前記第１の演算器によって実行される場合の第１の処理
性能と、前記プログラマブルデバイスに回路構成された
と想定した想定演算器によって実行される場合の第２の
処理性能との性能差をそれぞれ見積もる処理見積手段
と、前記性能差に基づいて前記第１の命令列の中から前
記プログラマブルデバイスに回路構成される第２の演算
器によって実行されるべき第２の命令列を選択し、該第
２の演算器の構成を決定する処理決定手段と、前記第２
の命令列を複合命令として該複合命令に前記第２の演算
器用の命令コードを割り当てる命令コード割当手段と、
前記複合命令に割り当てられた命令コードを用いて前記
オブジェクトプログラムを生成するコンパイル手段と、
前記第２の演算器の前記回路コードを生成する回路コー
ド生成手段とを備えるものとする。

【０００８】請求項１の発明によると、ソースプログラ
ムから抽出された第１の命令列の中から、第１の演算器
による実行と想定演算器による実行との処理性能の差に
基づいて、第２の演算器によって実行されるべき第２の
命令列が選択される。そして、第２の演算器の回路コー
ド、および第２の演算器用の命令コードを使用したオブ
ジェクトプログラムを生成することができる。この結
果、ＣＰＵとプログラマブルデバイスとが混載された半
導体集積回路において、プログラマブルデバイスに上記
の回路コードに基づいて第２の演算器を回路構成して上
記のオブジェクトプログラムを実行することにより、プ
ログラムの実行性能、たとえば、実行速度を向上させる
ことができる。

【０００９】請求項２の発明では、請求項１の命令列抽
出手段は、前記第１の命令列の前記ソースプログラムに
おける出現回数をカウントするものとし、また、処理見
積手段は、前記第１の処理性能として前記第１の演算器
が前記第１の命令列を前記出現回数だけ実行する場合の
第１の処理時間を見積もり、前記第２の処理性能として
前記想定演算器が前記第１の命令列を前記出現回数だけ
実行する場合の第２の処理時間を見積もり、前記性能差
として該第１の処理時間と該第２の処理時間との差に相
当する短縮時間を見積もるものとする。

【００１０】請求項２の発明によると、性能差として、
ソースプログラムにおける出現回数を考慮した短縮時間
が見積もられる。このため、実行１回あたりの短縮時間
は小さいが、出現回数が多い命令列が、第２の演算器に
よって実行されるべき第２の命令列として確実に選択さ
れる。したがって、プログラムの実行速度の向上を図る
ことができる。

【００１１】請求項３の発明では、請求項２の処理決定
手段は、前記第２の演算器の回路面積が前記プログラマ
ブルデバイスの使用可能領域の回路面積以下であり、か
つ前記短縮時間の合計が最大となるように前記第２の命
令列を選択するものとする。

【００１２】請求項４の発明では、請求項１の命令列抽
出手段は、前記第１の命令列の前記ソースプログラムに
おける出現回数をカウントするものとし、また、処理見
積手段は、前記第１の処理性能として前記第１の演算器
が前記第１の命令列を前記出現回数だけ実行する場合の
第１の消費電力を見積もり、前記第２の処理性能として
前記想定演算器が前記第１の命令列を前記出現回数だけ
実行する場合の第２の消費電力を見積もり、前記性能差
として該第１の消費電力と該第２の消費電力との差に相
当する削減電力を見積もるものとする。

【００１３】請求項４の発明によると、性能差として、
ソースプログラムにおける出現回数を考慮した削減電力
が見積もられる。このため、実行１回あたりの削減電力
は小さいが、出現回数が多い命令列が、第２の演算器に
よって実行されるべき第２の命令列として確実に選択さ
れる。したがって、プログラム実行時の消費電力を低減
することができる。

【００１４】請求項５の発明では、請求項４の処理決定
手段は、前記第２の演算器の回路面積が前記プログラマ
ブルデバイスの使用可能領域の回路面積以下であり、か
つ前記削減電力の合計が最大となるように前記第２の命
令列を選択するものとする。

【００１５】請求項６の発明では、請求項１の命令列抽
出手段は、前記第１の命令列の前記ソースプログラムに
おける出現回数をカウントするものとし、また、処理見
積手段は、前記第１の処理性能として前記第１の演算器
が前記第１の命令列を前記出現回数だけ実行する場合の
第１の処理時間および第１の消費電力を見積もり、前記
第２の処理性能として前記想定演算器が前記第１の命令
列を前記出現回数だけ実行する場合の第２の処理時間お
よび第２の消費電力を見積もり、前記性能差として該第
１の処理時間と該第２の処理時間との差に相当する短縮
時間および該第１の消費電力と該第２の消費電力との差
に相当する削減電力を見積もるものとする。また、処理
決定手段は、前記第２の演算器の回路面積が前記プログ
ラマブルデバイスの使用可能領域の回路面積以下であ
り、かつ前記短縮時間の合計が所定値以上で前記削減電
力の合計が最大となるように前記第２の命令列を選択す
るものとする。

【００１６】請求項６の発明によると、プログラムの実
行に関して、所望の実行速度を確保しつつ、消費電力を
低減することができるような第２の演算器の回路コー
ド、および第２の演算器用の命令コードを使用したオブ
ジェクトプログラムを生成することができる。

【００１７】請求項７の発明では、請求項１のコンパイ
ラ装置は、命令列、前記第１の演算器が該命令列を実行
する場合の処理時間、前記想定演算器が該命令列を実行
する場合の処理時間および前記想定演算器が要する回路
面積があらかじめ記載された演算テーブルを用いるもの
とする。そして、命令列抽出手段は、前記演算テーブル
を参照して前記第１の命令列を抽出するものとし、処理
見積手段は、前記演算テーブルを参照して前記性能差を
見積もるものとする。

【００１８】請求項８の発明では、請求項７の命令列抽
出手段は、前記ソースプログラムから前記演算テーブル
に記載外の命令列をも抽出し、該記載外の命令列につい
て、前記第１の演算器によって実行される場合の処理時
間と、前記想定演算器によって実行される場合の処理時
間と、該想定演算器が要する回路面積とを見積もり、前
記演算テーブルに追加するものとする。

【００１９】請求項９の発明では、請求項１のコンパイ
ラ装置は、命令列、前記第１の演算器が該命令列を実行
する場合の消費電力、前記想定演算器が該命令列を実行
する場合の消費電力および前記想定演算器が要する回路
面積があらかじめ記載された演算テーブルを用いるもの
とする。そして、命令列抽出手段は、前記演算テーブル
を参照して前記第１の命令列を抽出するものとし、処理
見積手段は、前記演算テーブルを参照して前記性能差を
見積もるものとする。請求項１のコンパイラ装置は、抽
出されるべき命令列、前記第１の演算器が該命令列を実
行する場合の消費電力、前記想定演算器が該命令列を実
行する場合の消費電力および前記想定演算器が要する回
路面積があらかじめ記載された演算テーブルを参照して
動作するものとする。

【００２０】請求項１０の発明では、請求項９の命令列
抽出手段は、前記ソースプログラムから前記演算テーブ
ルに記載外の命令列をも抽出し、該記載外の命令列につ
いて、前記第１の演算器によって実行される場合の消費
電力と、前記想定演算器によって実行される場合の消費
電力と、該想定演算器が要する回路面積とを見積もり、
前記演算テーブルに追加するものとする。

【００２１】請求項７または９の発明によると、請求項
１のコンパイラ装置は、演算テーブルにあらかじめ記載
された情報を基にして、第２の演算器として回路構成す
べき命令列を、ソースプログラムから抽出し、その命令
列についての処理性能差を見積もることができる。ま
た、請求項８または１０の発明によると、命令列抽出手
段は、演算テーブルに記載されていない命令列をも抽出
することができ、その抽出した命令列についての各種情
報を演算テーブルに追加し、演算テーブルを自動的に拡
張することができる。

【００２２】そして、請求項１１の発明が講じた手段
は、ソースプログラムから、第１のレジスタファイルを
備えたＣＰＵと回路構成が書き換え可能なプログラマブ
ルデバイスとが混載された半導体集積回路によって実行
されるオブジェクトプログラムと、該プログラマブルデ
バイスの回路構成を決定する回路コードとを生成するコ
ンパイラ装置であって、前記ソースプログラムの実行に
必要な必要レジスタファイルの数を見積もるレジスタ処
理見積手段と、前記必要レジスタファイルの数および前
記第１のレジスタファイルの数を考慮して前記プログラ
マブルデバイスに回路構成をすべき第２のレジスタファ
イルの構成を決定するとともに、該第２のレジスタファ
イルに前記第１のレジスタファイルに割り当てられる第
１のレジスタファイル名とは別の第２のレジスタファイ
ル名を割り当てるレジスタ処理決定手段と、前記第２の
レジスタファイル名を用いて前記オブジェクトプログラ
ムを生成するコンパイル手段と、前記第２のレジスタフ
ァイルの前記回路コードを生成する回路コード生成手段
とを備えたものとする。

【００２３】請求項１１の発明によると、ソースプログ
ラムから、第２のレジスタファイルの回路コード、およ
び第２のレジスタファイルに割り当てられた第２のレジ
スタファイル名を使用したオブジェクトプログラムを生
成することができる。この結果、ＣＰＵとプログラマブ
ルデバイスとが混載された半導体集積回路において、プ
ログラマブルデバイスに上記の回路コードに基づいて第
２のレジスタファイルを回路構成して上記のオブジェク
トプログラムを実行することにより、プログラムの実行
性能、たとえば、実行速度を向上させることができる。

【００２４】請求項１２の発明では、請求項１１のレジ
スタ処理見積手段は、前記必要レジスタファイルの数と
して前記ソースプログラムにおける使用頻度が所定値以
上である変数の個数を見積もるものとする。

【００２５】プログラマブルデバイスの回路面積は有限
であり、ソースプログラム中のすべての変数についてレ
ジスタファイルを割り当てることはできない。したがっ
て、請求項１２の発明によると、第２のレジスタファイ
ルの候補としての必要レジスタファイルの数を制限する
ことができる。

【００２６】請求項１３の発明では、請求項１２のレジ
スタ処理決定手段は、前記必要レジスタファイルのうち
前記使用頻度の高いものから順に前記第１および第２の
レジスタファイルの順に割り当て、前記第２のレジスタ
ファイルに割り当てられるレジスタファイルについて
は、前記使用頻度の高い順に前記ＣＰＵに近い位置に配
置するようにして、前記第２のレジスタファイルの構成
を決定するものとする。

【００２７】請求項１３の発明によると、使用頻度の高
いレジスタファイルを、よりアクセスタイムが短くて済
む第１のレジスタファイル、およびＣＰＵに近い位置に
配置した第２のレジスタファイルに割り付けることがで
きる。

【００２８】請求項１４の発明では、請求項１１のレジ
スタ処理決定手段は、前記必要レジスタファイルの数と
前記第１のレジスタファイルの数との差に相当する数の
レジスタファイルが前記プログラマブルデバイスに回路
構成される場合に要する第１の回路面積と、前記プログ
ラマブルデバイスの使用可能領域の第２の回路面積とを
比較するものとする。そして、該第１の回路面積が該第
２の回路面積よりも大きい場合、前記レジスタ見積手段
に前記必要レジスタファイルの数を見積もり直させる一
方、該第１の回路面積が該第２の回路面積以下である場
合、前記差に相当する数を前記第２のレジスタファイル
の数として決定するものとする。

【００２９】請求項１５の発明では、請求項１１のレジ
スタ処理決定手段は、前記第２のレジスタファイルが回
路構成されてもなお前記プログラマブルデバイスに使用
可能な空き領域が存在すると判断する場合、該空き領域
に演算器を回路構成することを決定するものとする。

【００３０】請求項１５の発明によると、プログラマブ
ルデバイスに、第２のレジスタファイルに加えて、たと
えば、請求項１の第２の演算器を回路構成させることが
でき、プログラムの実行速度をより高速化することがで
きる。

【００３１】請求項１６の発明が講じた手段は、ソース
プログラムから、第１の命令デコーダを備えたＣＰＵと
回路構成が書き換え可能なプログラマブルデバイスとが
混載された半導体集積回路によって実行されるオブジェ
クトプログラムと、該プログラマブルデバイスの回路構
成を決定する回路コードとを生成するコンパイラ装置で
あって、前記ソースプログラムから命令を抽出して該命
令の出現回数をカウントする命令抽出手段と、前記出現
回数および前記ＣＰＵが実行可能な命令の命令コードか
ら命令リストを作成する命令リスト作成手段と、前記命
令リストを参照して、（Ｌ１×Ｎ１＋Ｌ２×Ｎ２）＞
（Ｌ２×Ｎ１＋Ｌ１×Ｎ２）（ただし、Ｌ１は前記命令
リストにおける第１の命令の命令コード長、Ｎ１は該第
１の命令の前記出現回数、Ｌ２は前記命令リストにおけ
る該第２の命令の命令コード長、Ｎ２は該第２の命令の
前記出現回数である。）となる場合、該第１の命令に対
応する第１の命令コードと該第２の命令に対応する第２
の命令コードとを交換する命令コード交換手段と、前記
命令コード交換手段によって交換された前記第１および
第２の命令コードを用いて前記オブジェクトプログラム
を生成するコンパイル手段と、前記第１の命令デコーダ
による前記第１の命令コードのデコード結果に相当する
ものを前記第２の命令コードから生成するとともに、前
記第１の命令デコーダによる前記第２の命令コードのデ
コード結果に相当するものを前記第１の命令コードから
生成する第２の命令デコーダが、前記プログラマブルデ
バイスに回路構成されるように、前記回路コードを生成
する回路コード生成手段とを備えたものとする。

【００３２】請求項１６の発明によると、Ｌ１、Ｎ１が
大、Ｌ２、Ｎ２が小のときは、（Ｌ１×Ｎ１＋Ｌ２×Ｎ
２）＞（Ｌ２×Ｎ１＋Ｌ１×Ｎ２）が成立するので、第
１の命令と第２の命令とにおいて命令コードが交換され
る。すなわち、ソースプログラム中に頻繁に出現する可
変長命令であって命令コード長の長いものと、あまり
（または、まったく）出現しない可変長命令コードであ
ってコード長の短いものとについて、命令コードが交換
されるので、プログラム全体としてのコードサイズを縮
小したオブジェクトプログラムを生成することができ
る。また、交換した命令コードから交換前のデコード結
果を得るための第２の命令デコーダの回路コードを生成
することができる。

【００３３】請求項１７の発明では、ソースプログラム
から、第１の命令デコーダを備えたＣＰＵと回路構成が
書き換え可能なプログラマブルデバイスとが混載された
半導体集積回路によって実行されるオブジェクトプログ
ラムと、該プログラマブルデバイスの回路構成を決定す
る回路コードとを生成するコンパイラ装置であって、前
記ソースプログラムから命令列を抽出する命令列抽出手
段と、前記命令列を複合命令として該複合命令に、該複
合命令に対応する第１の命令コードの命令コード長より
も短いコード長の第２の命令コードを割り当てる命令コ
ード割当手段と、前記第２の命令コードを用いて前記オ
ブジェクトプログラムを生成するコンパイル手段と、前
記第１の命令デコーダによる前記第１の命令コードのデ
コード結果に相当するものを前記第２の命令コードから
生成する第２の命令デコーダが前記プログラマブルデバ
イスに回路構成されるように、前記回路コードを生成す
る回路コード生成手段とを備えたものとする。

【００３４】請求項１７の発明によると、たとえば、ソ
ースプログラム中に頻繁に出現する命令列に、その命令
列全体の命令コードのコード長よりも短い新たな命令コ
ード（第２の命令コード）を割り当てることにより、プ
ログラム全体としてのコードサイズを縮小したオブジェ
クトプログラムを生成することができる。また、新たに
割り当てた命令コードから元の命令列のデコード結果を
得るための第２の命令デコーダの回路コードを生成する
ことができる。

【００３５】請求項１８の発明では、請求項１７の命令
列抽出手段は、前記ソースプログラムにおける出現回数
が所定値以上の、一連の命令の組み合わせからなる命令
列を抽出するものとする。

【００３６】そして、請求項１９の発明が講じた手段
は、ソースプログラムから、第１の演算器、第１のレジ
スタファイルおよび第１の命令デコーダを備えたＣＰＵ
と回路構成が書き換え可能なプログラマブルデバイスと
が混載された半導体集積回路によって実行されるオブジ
ェクトプログラムと、該プログラマブルデバイスの回路
構成を決定する回路コードとを生成するコンパイラ装置
であって、前記ソースプログラムから少なくとも１つの
第１の命令列を抽出する第１の命令列抽出手段と、前記
第１の命令列について、前記第１の演算器によって実行
される場合の処理性能と、前記プログラマブルデバイス
に回路構成をされたと想定した想定演算器によって実行
される場合の処理性能との性能差をそれぞれ見積もる処
理見積手段と、前記性能差に基づいて、前記第１の命令
列の中から前記プログラマブルデバイスに回路構成され
る第２の演算器によって実行されるべき第２の命令列を
選択し、該第２の演算器の構成を決定する処理決定手段
と、前記第２の命令列を複合命令として該複合命令に前
記第２の演算器用の第１の命令コードを割り当てる第１
の命令コード割当手段と、前記ソースプログラムの実行
に必要な必要レジスタファイルの数を見積もるレジスタ
処理見積手段と、前記必要レジスタファイルの数、前記
第１のレジスタファイルの数および前記プログラマブル
デバイスの使用可能領域の回路面積を考慮して、前記プ
ログラマブルデバイスに回路構成をすべき第２のレジス
タファイルの数を最適化するレジスタ数最適化手段と、
前記第２のレジスタファイルに、前記第１のレジスタフ
ァイルに割り当てられる第１のレジスタファイル名とは
別の第２のレジスタファイル名を割り当てるレジスタ処
理決定手段と、前記第１の命令コードおよび前記第２の
レジスタファイル名を用いて、オブジェクトプログラム
を仮生成する第１のコンパイル手段と、前記第１のコン
パイル手段によって仮生成されたオブジェクトプログラ
ムから第２の命令列を抽出し、該第２の命令列の出現回
数をカウントする第２の命令列抽出手段と、前記出現回
数が所定値以上の前記第２の命令列を複合命令として該
複合命令に、該複合命令に対応する第２の命令コードの
命令コード長よりも短いコード長の第３の命令コードを
割り当てる第２の命令コード割当手段と、前記第１およ
び第３の命令コードならびに前記第２のレジスタファイ
ル名を用いて、前記オブジェクトプログラムを生成する
第２のコンパイル手段と、前記第２の演算器の前記回路
コードおよび前記第２のレジスタファイルの前記回路コ
ードを生成するとともに前記第１の命令デコーダによる
前記第２の命令コードのデコード結果に相当するものを
前記第３の命令コードから生成する第２の命令デコーダ
が、前記プログラマブルデバイスに回路構成されるよう
に、前記回路コードを生成する回路コード生成手段とを
備えたものとする。

【００３７】請求項１９の発明によると、ソースプログ
ラムから、第２の演算器および第２のレジスタファイル
の回路コード、ならびに第２の演算器用の命令コードお
よび第２のレジスタファイルに割り当てられた第２のレ
ジスタファイル名を使用したオブジェクトプログラムを
生成することができる。この結果、ＣＰＵとプログラマ
ブルデバイスとが混載された半導体集積回路において、
プログラマブルデバイスに上記の回路コードに基づいて
第２のレジスタファイルを回路構成して上記のオブジェ
クトプログラムを実行することにより、プログラムの実
行性能、たとえば、実行速度を向上させることができ
る。また、プログラム全体としてのコードサイズを縮小
したオブジェクトプログラム、およびこのオブジェクト
プログラムの命令コードをデコードすることが可能な第
２の命令デコーダの回路コードを生成することができ
る。

【００３８】請求項２０の発明が講じた手段は、レジス
タファイルおよび命令デコーダを備えたＣＰＵと、回路
構成が書き換え可能なプログラマブルデバイスとが混載
された半導体集積回路であって、前記レジスタファイル
に保持されたデータを、前記プログラマブルデバイスに
転送する第１のデータ転送機構と、前記命令デコーダの
出力を、前記プログラマブルデバイスに転送する第２の
データ転送機構とを備えたものとする。

【００３９】請求項２０の発明によると、ＣＰＵとプロ
グラマブルデバイスとが混載された半導体集積回路につ
いて、第１および第２のデータ転送機構によって、ＣＰ
Ｕ内のレジスタファイルおよび命令デコーダから、プロ
グラマブルデバイスにデータを転送することができる。

【００４０】請求項２１の発明では、請求項２０の半導
体集積回路において、プログラマブルデバイスは、演算
器が回路構成されたものとし、当該半導体集積回路は、
前記演算器の出力を、前記レジスタファイルに転送する
第３のデータ転送機構を備えたものとする。また、第１
のデータ転送機構は、前記レジスタファイルに保持され
たデータを前記演算器に転送するものとし、第２のデー
タ転送機構は、前記命令デコーダの出力を前記演算器に
転送するものとする。

【００４１】請求項２１の発明によると、第１および第
２のデータ転送機構によって、ＣＰＵ内のレジスタファ
イルおよび命令デコーダから、プログラマブルデバイス
に回路構成された演算器にデータを転送することができ
る。また、第３のデータ転送機構によって、この演算器
からＣＰＵ内のレジスタファイルにデータを転送するこ
とができる。これにより、プログラマブルデバイスに回
路構成された演算器を、ＣＰＵ内の演算器と同様に取り
扱うことができる。

【００４２】請求項２２の発明では、請求項２０の半導
体集積回路において、メモリと、前記メモリと前記プロ
グラマブルデバイスとの間でデータ転送を行う第３のデ
ータ転送機構とを備えたものとする。

【００４３】そして、請求項２３の発明が講じた手段
は、演算器および命令デコーダを備えたＣＰＵと、回路
構成が書き換え可能なプログラマブルデバイスとが混載
された半導体集積回路であって、前記演算器および命令
デコーダの出力を前記プログラマブルデバイスに転送す
る第１のデータ転送機構を備えたものとする。

【００４４】請求項２３の発明によると、ＣＰＵとプロ
グラマブルデバイスとが混載された半導体集積回路につ
いて、第１のデータ転送機構によって、ＣＰＵ内の演算
器および命令デコーダから、プログラマブルデバイスに
データを転送することができる。

【００４５】請求項２４の発明では、請求項２３の半導
体集積回路において、プログラマブルデバイスは、レジ
スタファイルが回路構成されたものとし、当該半導体集
積回路は、前記レジスタファイルに保持されたデータを
前記演算器に転送する第２のデータ転送機構を備えたも
のとする。また、第１のデータ転送機構は、前記演算器
および命令デコーダの出力を前記レジスタファイルに転
送するものとする。

【００４６】請求項２４の発明によると、第１のデータ
転送機構によって、ＣＰＵ内の演算器および命令デコー
ダから、プログラマブルデバイスに回路構成されたレジ
スタファイルにデータを転送するができる。また、第２
のデータ転送機構によって、このレジスタファイルから
ＣＰＵ内の演算器にデータを転送することができる。こ
れにより、プログラマブルデバイスに回路構成されたレ
ジスタファイルを、ＣＰＵ内のレジスタファイルと同様
に取り扱うことができる。

【００４７】請求項２５の発明が講じた手段は、第１の
命令デコーダを備えたＣＰＵと、回路構成が書き換え可
能なプログラマブルデバイスとが混載された半導体集積
回路であって、前記第１の命令デコーダが入力するデー
タを前記プログラマブルデバイスに転送する第１のデー
タ転送機構を備えたものとする。

【００４８】請求項２６の発明では、請求項２５の半導
体集積回路において、プログラマブルデバイスは第２の
命令デコーダが回路構成されたものとし、当該半導体集
積回路は、前記第２の命令デコーダの出力を、前記ＣＰ
Ｕに転送する第２のデータ転送機構を備えたものとす
る。また、第１のデータ転送機構は、前記第１の命令デ
コーダが入力するデータを前記第２の命令デコーダに転
送するものとする。

【００４９】請求項２７の発明では、請求項２６の半導
体集積回路において、ＣＰＵは、前記第１の命令デコー
ダの出力、および前記第２のデータ転送機構によって転
送された前記第２の命令デコーダの出力のいずれか一方
を選択し、当該ＣＰＵが有する演算器およびレジスタフ
ァイルに出力する選択回路を備えたものとする。

【００５０】請求項２７の発明によると、第１および第
２の命令デコーダのいずれか一方のデコード結果を選択
して、ＣＰＵ内の演算器およびレジスタファイルに出力
することができる。これにより、第２の命令デコーダの
デコード結果を、第１の命令デコーダのデコード結果と
同様に取り扱うことができる。

【００５１】請求項２８の発明では、第１の演算器、第
１のレジスタファイルおよび命令デコーダを備えたＣＰ
Ｕと、回路構成が書き換え可能なプログラマブルデバイ
スとが混載された半導体集積回路であって、プログラマ
ブルデバイスは、第２の演算器と、第２のレジスタファ
イルとが回路構成されたものとし、当該半導体集積回路
は、前記第１のレジスタファイルに保持されたデータを
前記第２の演算器に転送する第１のデータ転送機構と、
前記命令デコーダの出力を前記第２の演算器に転送する
第２のデータ転送機構と、前記第２の演算器の出力を前
記第１のレジスタファイルに転送する第３のデータ転送
機構と、前記第１の演算器および第１の命令デコーダの
出力を前記第２のレジスタファイルに転送する第４のデ
ータ転送機構と、前記第２のレジスタファイルに保持さ
れたデータを前記第１の演算器に転送する第５のデータ
転送機構と、前記第２のレジスタファイルに保持された
データを前記第２の演算器に転送する第６のデータ転送
機構と、前記第２の演算器の出力を前記第２のレジスタ
ファイルに転送する第７のデータ転送機構とを備えたも
のとする。

【００５２】請求項２９の発明では、第１の演算器、レ
ジスタファイルおよび第１の命令デコーダを備えたＣＰ
Ｕと、回路構成が書き換え可能なプログラマブルデバイ
スとが混載された半導体集積回路であって、前記プログ
ラマブルデバイスは、第２の演算器と、第２の命令デコ
ーダとが回路構成されたものとし、前記ＣＰＵは、前記
第１の命令デコーダの出力および前記第２の命令デコー
ダの出力のいずれか一方を選択し、前記第１の演算器お
よびレジスタファイルに出力する選択回路を備えたもの
とし、当該半導体集積回路は、前記レジスタファイルに
保持されたデータを前記第２の演算器に転送する第１の
データ転送機構と、前記第１の命令デコーダの出力を前
記第２の演算器に転送する第２のデータ転送機構と、前
記第２の演算器の出力を前記レジスタファイルに転送す
る第３のデータ転送機構と、前記第１の命令デコーダが
入力するデータを前記第２の命令デコーダに転送する第
４のデータ転送機構と、前記第２の命令デコーダの出力
を前記選択回路に転送する第５のデータ転送機構とを備
えたものとする。

【００５３】請求項３０の発明では、演算器、第１のレ
ジスタファイルおよび第１の命令デコーダを備えたＣＰ
Ｕと、回路構成が書き換え可能なプログラマブルデバイ
スとが混載された半導体集積回路であって、前記プログ
ラマブルデバイスは、第２のレジスタファイルと、第２
の命令デコーダとが回路構成されたものとし、前記ＣＰ
Ｕは、前記第１の命令デコーダの出力および前記第２の
命令デコーダの出力のいずれか一方を選択し、前記演算
器および第１のレジスタファイルに出力する選択回路を
備えたものとし、当該半導体集積回路は、前記演算器お
よび第１の命令デコーダの出力を前記第２のレジスタフ
ァイルに転送する第１のデータ転送機構と、前記第２の
レジスタファイルに保持されたデータを前記演算器に転
送する第２のデータ転送機構と、前記第１の命令デコー
ダが入力するデータを前記第２の命令デコーダに転送す
る第３のデータ転送機構と、前記第２の命令デコーダの
出力を前記選択回路に転送する第４のデータ転送機構
と、前記第２の命令デコーダの出力を前記第２のレジス
タファイルに転送する第５のデータ転送機構とを備えた
ものとする。

【００５４】

【発明の実施の形態】まず、本発明のコンパイラ装置お
よび半導体集積回路からなるシステムの構成を図１に示
す。

【００５５】コンパイラ装置２は、Ｃ言語などの高級言
語で記述されたソースプログラム１から、オブジェクト
プログラム３および回路コード４を生成する。また、Ｃ
ＰＵ５１とＦＰＧＡ５２とを備えた半導体集積回路５
は、回路コード４に基づいてＦＰＧＡ５２にソースプロ
グラム１の処理の一部を回路構成し、オブジェクトプロ
グラム３に従ってプログラムを実行する。

【００５６】なお、本発明に係るコンパイラ装置２は、
コンパイラプログラムを、たとえば、記録媒体を介して
コンピュータにインストールすることによって、コンピ
ュータを本発明の各手段として機能させることができ
る。

【００５７】以下、本発明の実施の形態について、図面
を用いて詳細に説明する。なお、特に断りがない限り、
図１に付した符号を用いて各構成要素を参照する。

【００５８】（第１の実施形態）本発明の第１の実施形
態に係るコンパイラ装置２は、本発明における第２の演
算器に相当する拡張演算器の回路コード４を生成するも
のである。以下、本実施形態に係るコンパイラ装置２の
動作について、図２のフローチャートに従って説明す
る。

【００５９】処理が開始すると、まず、ステップＳ２０
１において、ソースプログラム１から命令列が抽出され
る。ここで、抽出される命令列は、あらかじめ演算テー
ブルに記載されているものである。演算テーブルについ
ては後述する。さらに、抽出された各命令列について、
ソースプログラム１における出現回数がカウントされ、
演算テーブルに書き込まれる。なお、本ステップＳ２０
１は、本発明における命令列抽出手段が行うものであ
る。

【００６０】ここで、演算テーブルについて、図３を用
いて説明する。同図中、（ａ）は、抽出された命令列の
出現回数が書き込まれる前の演算テーブルを示す。この
演算テーブルには、抽出すべき命令列と、ＣＰＵ５１内
の演算器（この演算器は、本発明における第１の演算器
に相当する。）がその命令列を実行する場合に要するク
ロックサイクル数と、その命令列用としてＦＰＧＡ５２
に回路構成されたと想定した想定演算器がその命令列を
実行する場合に要するクロックサイクル数と、その想定
演算器の回路構成に必要な回路面積とがあらかじめ記載
されている。また、同図中、（ｂ）は、抽出された命令
列の出現回数が書き込まれた後の演算テーブルを示す。

【００６１】次に、ステップＳ２０２では、図３のよう
な演算テーブルを参照し、抽出された各命令列に関し
て、ＣＰＵ５１内の演算器による処理と想定演算器によ
る処理との処理性能差が見積もられる。ここでは、各命
令列を、ＣＰＵ５１内の演算器が実行する場合の処理時
間と、想定演算器が実行する場合の処理時間とを比較し
て、想定演算器が実行する場合に短縮される短縮時間が
見積もられるものとする。なお、本ステップＳ２０２
は、本発明における処理見積手段が行うものである。

【００６２】ここで、短縮時間の見積もりについて、図
３（ｂ）の演算テーブルを用いて説明する。演算テーブ
ル１行目の命令列“(a+b) *c”の出現回数は１０、ＣＰ
Ｕ５１内の演算器がこの命令列を実行する場合の処理時
間は、２×１０＝２０クロックである。一方、想定演算
器の場合は、１×１０＝１０クロックの処理時間で済
む。したがって、想定演算器による短縮時間は、２０−
１０＝１０クロックということになる。同様に、演算テ
ーブル２行目の命令列“(a+b+c+d) ”の出現回数は７、
ＣＰＵ５１内の演算器がこの命令列を実行する場合の処
理時間は、３×７＝２１クロックである。一方、想定演
算器の場合は、１×７＝７クロックの処理時間で済む。
したがって、想定演算器による短縮時間は、２１−７＝
１４クロックということになる。

【００６３】次に、ステップＳ２０３では、ステップＳ
２０１において抽出された命令列の中から、ステップＳ
２０２において見積もられた短縮時間に基づいて、拡張
演算器によって実行されるべき命令列が選択され、拡張
演算器の構成が決定される。なお、本ステップＳ２０３
は、本発明における処理決定手段が行うものである。

【００６４】ここで、ステップＳ２０３における処理に
ついて、図４のフローチャートに従って詳細に説明す
る。まず、ステップＳ２０１において抽出されたすべて
の命令列が選択される（Ｓ２０３１）。そして、選択さ
れた命令列を実行する拡張演算器の回路面積ＳＡが見積
もられる。回路面積ＳＡは、演算テーブルを参照して各
命令列に対応した想定演算器の回路面積Ｓｎを得て、こ
れら回路面積Ｓｎを合計することにより見積もることが
できる。そして、回路面積ＳＡとＦＰＧＡ５２の使用可
能領域の回路面積ＳＦとが比較され、ＳＦ＜ＳＡである
ときはステップＳ２０３３に進み、ＳＦ≧ＳＡであると
きはステップＳ２０３４に進む（Ｓ２０３２）。ステッ
プＳ２０３３では、選択されている命令列のうち、ステ
ップＳ２０２において見積もられた短縮時間が最も小さ
い命令列をＦＰＧＡ５２に回路構成しないものとして選
択から除外し、ステップＳ２０３２に戻る。一方、ステ
ップＳ２０３４では、選択された命令列を実行する拡張
演算器が決定される。

【００６５】次に、ステップＳ２０４では、ステップＳ
２０３において選択された命令列を新たな複合命令とみ
なして、この複合命令に、あらかじめ複数用意されてい
る拡張命令コードが割り当てられる。この拡張命令コー
ドは、ＦＰＧＡ５２に回路構成される拡張演算器によっ
て実行されるものである。なお、本ステップＳ２０４
は、本発明における命令コード割当手段が行うものであ
る。

【００６６】最後に、ステップＳ２０５において、最適
化やレジスタ割り付けが行われてオブジェクトプログラ
ム３が生成される。このオブジェクトプログラム３のコ
ーディングに用いられる命令コードは、ステップＳ２０
４において割り当てられた拡張命令コードを含むもので
ある。また、ステップＳ２０６において、ステップＳ２
０３において決定された拡張演算器の回路コード４が生
成される。なお、ステップＳ２０５は、本発明における
コンパイル手段が行うものであり、ステップＳ２０６
は、回路コード生成手段が行うものである。

【００６７】次に、本実施形態に係る半導体集積回路に
ついて説明する。

【００６８】図５は、本実施形態に係る半導体集積回路
５の構成を示す。半導体集積回路５は、ＣＰＵ５１と、
ＦＰＧＡ５２と、メモリ５３とを備えている。ＣＰＵ５
１は、演算器５１１と、レジスタファイル５１２と、命
令デコーダ５１３とを備えている。また、ＦＰＧＡ５２
には、拡張演算器５２１が回路構成されている。この拡
張演算器５２１は、たとえば、本実施形態に係るコンパ
イラ装置２によって生成された回路コード４に基づいて
回路構成されたものである。そして、半導体集積回路５
は、たとえば、本実施形態に係るコンパイラ装置２によ
って生成されたオブジェクトプログラム３に従って、プ
ログラムを実行するものである。

【００６９】半導体集積回路５は、上記の各構成要素間
のデータ転送機構として、５つのデータ転送機構ＴＭ
１、ＴＭ２、ＴＭ３、ＴＭ４およびＴＭ５を備えてい
る。データ転送機構ＴＭ１は、レジスタファイル５１２
に保持されたデータを、拡張演算器５２１に転送する。
データ転送機構ＴＭ２は、命令デコーダ５１３のデコー
ド結果を、拡張演算器５２１に転送する。データ転送機
構ＴＭ３は、拡張演算器５２１の演算結果を、レジスタ
ファイル５１２に転送する。データ転送機構ＴＭ４は、
メモリ５３と拡張演算器５２１との間でデータ転送を行
う。そして、データ転送機構ＴＭ５は、メモリ５３と演
算器５１１との間でデータ転送を行う。

【００７０】以下、半導体集積回路５の動作について説
明する。なお、演算器５１１、レジスタファイル５１２
および命令デコーダ５１３は一般のＣＰＵに備えられた
ものと同様であるので説明を省略し、拡張演算器５２１
の動作を中心に説明する。

【００７１】まず、命令デコーダ５１３は、命令メモリ
６から命令コードをフェッチし、デコードを行う。この
デコード結果は、演算器５１１およびレジスタファイル
５１２に転送されるとともに、転送機構ＴＭ２によっ
て、拡張演算器５２１にも転送される。このときの命令
コードが、演算器５１１では扱えないもの、たとえば、
上述した拡張命令コードであるときは、拡張命令コード
による命令は拡張演算器５２１によって実行されること
になる。なお、拡張命令コードは、あらかじめ命令デコ
ーダ５１３に拡張演算命令用として複数用意されてお
り、たとえば、図２のステップＳ２０４において複合命
令に割り当てられるものである。

【００７２】拡張演算器５２１における命令の実行時に
必要があれば、レジスタファイル５１２からはデータ転
送機構ＴＭ１によって、また、メモリ５３からはデータ
転送機構ＴＭ４によって、拡張演算器５２１にデータが
転送される。そして、拡張演算器５２１の演算結果は、
データ転送機構ＴＭ３によって、レジスタファイル５１
２に転送され、また、データ転送機構ＴＭ４によってメ
モリ５３に書き込むこともできる。これにより、拡張演
算器５２１の演算結果を演算器５１１における演算処理
に利用することが可能となる。

【００７３】以上、本実施形態によると、ソースプログ
ラム１において処理負荷の大きな命令列を実行する拡張
演算器５２１をＦＰＧＡ５２に回路構成するための回路
コード４、および拡張演算器５２１を使用するようなオ
ブジェクトプログラム３を生成することができる。そし
て、回路コード４に基づいて、実際に、ＦＰＧＡ５２に
拡張演算器５２１を回路構成し、オブジェクトプログラ
ム３に従って、プログラムを高速に実行することができ
る。また、ＦＰＧＡ５２に回路構成される拡張演算器５
２１は、ＣＰＵ５１に備えられた演算器５１１と同様に
制御することができるため、プログラムの実行時に制御
が複雑化することがない。

【００７４】なお、半導体集積回路５はメモリ５３を備
えているとしたが、これらは半導体集積回路５の外部に
あるものでもよい。

【００７５】また、拡張演算器５２１が扱う拡張命令コ
ードが増えて複雑化して、命令デコーダ５１３では対応
できない、つまりあらかじめ与えられた拡張命令コード
で対応できない場合、ＦＰＧＡ５２に新たな命令デコー
ダを回路構成して、この命令デコーダから拡張演算器５
２１に命令コードを転送するようにしてもよい。

【００７６】（第２の実施形態）本発明の第２の実施形
態に係るコンパイラ装置２は、処理速度および消費電力
を考慮して、拡張演算器の回路コード４を生成するもの
である。本実施形態に係るコンパイラ装置２の動作は、
第１の実施形態に係るコンパイラ装置２とほぼ同様であ
るので、重複する部分の説明は省略し、以下、異なる部
分について、図２のフローチャートに従って説明する。

【００７７】本実施形態に係るコンパイラ装置２が参照
する演算テーブルは、図３に示した情報に加えて、ＣＰ
Ｕ５１内の演算器が命令列を実行する場合の消費電力お
よび想定演算器が命令列を実行する場合の消費電力に関
する情報が記載されている。そして、この演算テーブル
を参照して、ステップＳ２０２Ａにおいて、上述の短縮
時間に加えて、ＣＰＵ５１内の演算器が実行する場合の
消費電力、想定演算器が実行する場合の消費電力とを比
較した削減電力が見積もられる。なお、削減電力の見積
もり方法は、短縮時間の場合と同様である。

【００７８】次に、ステップＳ２０３Ａにおいて、ステ
ップＳ２０１において抽出された命令列の中から、ステ
ップＳ２０２Ａにおいて見積もられた短縮時間および削
減電力に基づいて、拡張演算器によって実行されるべき
命令列が選択される。本ステップＳ２０３Ａは、第１の
実施形態に係るコンパイラ装置２に関するステップＳ２
０３とほぼ同様の処理内容であるので、以下、ステップ
Ｓ２０３Ａの処理について、具体例を用いて、図４のフ
ローチャートに従って説明する。

【００７９】具体例として、ステップＳ２０１におい
て、命令列Ａ、ＢおよびＣが抽出され、ステップＳ２０
２Ａにおいて、命令列Ａに関して、短縮時間が３および
削減電力が８、命令列Ｂに関して、短縮時間が４および
削減電力が７、命令列Ｃに関して、短縮時間が５および
削減電力が６として、それぞれ見積もられたとものとす
る。また、命令列Ａ、ＢおよびＣについての回路面積Ｓ
ｎはいずれも５であるとし、ＦＰＧＡ５２の使用可能領
域の回路面積ＳＦは１０であるとする。

【００８０】まず、ステップＳ２０３１において、抽出
された命令列Ａ、ＢおよびＣを選択する。次に、ステッ
プＳ２０３２において、回路面積ＳＡとして、命令列Ａ
についての回路面積５＋命令列Ｂについての回路面積５
＋命令列Ｃについての回路面積５＝１５が見積もられ
る。ＳＦ（＝１０）＜ＳＡ（＝１５）であるので、ステ
ップＳ２０３３Ａに進む。

【００８１】ステップＳ２０３３Ａでは、短縮時間の合
計が与えられた所定値以上で、削減電力の合計が最大と
なるように、選択されている命令列の中から、不必要な
ものが除外される。命令列Ａが除外された第１の場合の
短縮時間の合計は、命令列Ｂについての短縮時間４＋命
令列Ｃについての短縮時間５＝９であり、削減電力の合
計は、命令列Ｂについての削減電力７＋命令列Ｃについ
ての削減電力６＝１３である。命令列Ｂが除外された第
２の場合の短縮時間の合計は、命令列Ａについての短縮
時間３＋命令列Ｃについての短縮時間５＝８であり、削
減電力の合計は、命令列Ａについての削減電力８＋命令
列Ｃについての削減電力６＝１４である。命令列Ｃが除
外された第３の場合の短縮時間の合計は、命令列Ａにつ
いての短縮時間３＋命令列Ｂについての短縮時間４＝７
であり、削減電力の合計は、命令列Ａについての削減電
力８＋命令列Ｂについての削減電力７＝１５である。

【００８２】ここで、短縮時間の所定値を、たとえば８
とする。上記の３つの組み合わせのうち、短縮時間の合
計が所定値以上という条件を満たすものは、第１および
第２の場合である。さらに、第１および第２の場合にお
ける削減電力の合計を比較すると、第２の場合のほうが
削減電力の合計が大きいことがわかる。したがって、ス
テップＳ２０３３Ａにおいて、命令列Ｂが選択から除外
され、ステップＳ２０３２に戻る。

【００８３】ステップＳ２０３２では、回路面積ＳＡと
して、命令列Ａについての回路面積５＋命令列Ｂについ
ての回路面積５＝１０が見積もられる。ＳＦ（＝１０）
≧ＳＡ（＝１０）を満たすので、ステップＳ２０３４に
進み、命令列ＡおよびＣを実行する拡張演算器がＦＰＧ
Ａ５２に回路構成されるものと決定される。

【００８４】以上、本実施形態によると、所望の実行速
度の高速化を図りつつ、実行時の消費電力を低減するこ
とができるようなオブジェクトプログラム３および回路
コード４を生成することが可能となる。

【００８５】なお、図２のステップＳ２０２Ａにおいて
性能差として短縮時間および削減電力を見積もるものと
したが、削減できる消費電力のみを見積もるようにして
もよい。これにより、消費電力をより抑えて実行できる
ようなオブジェクトプログラム３および回路コード４を
生成することができる。

【００８６】（第３の実施形態）本発明の第３の実施形
態に係るコンパイラ装置２は、ソースプログラム１か
ら、演算テーブルに記載されていない命令列をも抽出し
て、拡張演算器の回路コード４を生成するものである。
これ以外の点については、第１または第２の実施形態に
係るコンパイラ装置２と同様であるので説明を省略し、
以下、本実施形態に係るコンパイラ装置２の特徴部分に
ついて、図２のフローチャートに従って説明する。

【００８７】処理が開始すると、まず、ステップＳ２０
１Ａにおいて、ソースプログラム１から命令列が抽出さ
れる。ここで、抽出される命令列は、あらかじめ演算テ
ーブルに記載されているものに限定されない。たとえ
ば、３命令以上からなる命令列をも抽出するものとす
る。そして、抽出された各命令列について、ソースプロ
グラム１における出現回数がカウントされ、その出現回
数は演算テーブルに書き込まれる。

【００８８】抽出された命令列が演算テーブルに記載さ
れていないものである場合、ＣＰＵ５１内の演算器がそ
の命令列を実行する場合に要するクロックサイクル数、
想定演算器がその命令列を実行する場合に要するクロッ
クサイクル数、想定演算器が要する回路面積などの情報
は、演算テーブル上にない。したがって、これら情報
は、本ステップＳ２０１Ａにおいて見積もられ、演算テ
ーブルに追加されることになる。

【００８９】具体的には、抽出された命令列について論
理圧縮が行われ、この命令列をＦＰＧＡ５２に回路構成
するときの回路コードが見積もられる。そして、この回
路コードから、ＦＰＧＡ５２の構成要素のゲート遅延、
配線遅延などが記載されたＦＰＧＡ基本データに基づい
て、上記の各情報が見積もられ、演算テーブルに追加さ
れる。

【００９０】ステップＳ２０２（またはＳ２０２Ａ）以
降、上記の情報が追加された演算テーブルを参照して処
理が行われ、オブジェクトプログラム３および回路コー
ド４が生成される。

【００９１】以上、本実施形態によると、演算テーブル
には記載されていないが、ＦＰＧＡに構成されることに
より大幅に実行速度が改善されるような命令列や、低消
費電力化ができる命令列などを抽出することができ、ま
た、抽出された命令列に関する各種情報を自動的に見積
もり、それらを演算テーブルに追加することができる。
したがって、ＦＰＧＡ５２に回路化する対象となる命令
列を限定することなく、より一層の、ＦＰＧＡ５２の回
路構成の最適化を図ることができる。

【００９２】（第４の実施形態）本発明の第４の実施形
態に係るコンパイラ装置２Ａは、本発明における第２の
レジスタファイルに相当する拡張レジスタファイルの回
路コード４を生成するものである。以下、本実施形態に
係るコンパイラ装置２Ａの動作について、図６のフロー
チャートに従って説明する。

【００９３】処理が開始すると、まず、ステップＳ２１
１において、ソースプログラム１における各変数の使用
頻度がカウントされる。そして、使用頻度が所定値Ｋ以
上の変数に対してレジスタファイルを割り付けるものと
し、このときのレジスタファイルを必要レジスタファイ
ルとして、その数Ｎａが見積もられる。また、必要レジ
スタファイルに対して、それぞれの使用頻度がパラメー
タとして蓄積される。なお、本ステップＳ２１１は、本
発明におけるレジスタ処理見積手段が行うものである。

【００９４】ステップＳ２１２では、必要レジスタファ
イルの数ＮａとＣＰＵ５１Ａ内のレジスタファイル（こ
のレジスタファイルは、本発明における第１のレジスタ
ファイルに相当する。）の数との差に相当するＮｆ個の
レジスタファイルが、拡張レジスタファイルとして回路
構成されるものと仮決定される。具体的には、必要レジ
スタファイルを、使用頻度の高い順に、ＣＰＵ５１Ａ内
のレジスタファイルに割り当て、続いて、拡張レジスタ
ファイルに割り当てる。なお、拡張レジスタファイル
は、使用頻度の高い順に、物理的に、ＣＰＵ５１Ａに近
い位置に配置されるものとし、この配置に関する配置情
報もあわせて見積もられる。そして、拡張レジスタファ
イル１個あたりの回路面積にＮｆを乗じた回路面積ＳＲ
が見積もられる。

【００９５】上記のように、より使用頻度の高いレジス
タファイルをＣＰＵ５１Ａ内のレジスタファイルに割り
当て、また、より使用頻度の高い拡張レジスタファイル
をＣＰＵ５１Ａに近い位置に配置することにより、ＣＰ
Ｕ５１Ａ内の演算器がレジスタファイルまたは拡張レジ
スタファイルに保持されたデータをアクセスする際のア
クセス時間を短縮することができる。これにより、プロ
グラムの実行をより高速化することができる。

【００９６】次に、ステップＳ２１３では、ＦＰＧＡ５
２Ａの使用可能領域の回路面積ＳＦと回路面積ＳＲとが
比較される。ＳＦ＜ＳＲであるときは、必要レジスタフ
ァイルの数を削減すべくステップＳ２１４に進み、ＳＦ
≧ＳＲであるときはステップＳ２１５に進む。

【００９７】ステップＳ２１４では、ステップＳ２１１
における所定値Ｋの値を１つ増加させて、ステップＳ２
１１に戻って必要レジスタファイルの数を再見積もりさ
せる。ステップＳ２１１では、所定値Ｋが大きな値とな
るほど、必要レジスタファイルとして見積もられる数Ｎ
ａが小さくなる。

【００９８】一方、ステップＳ２１５では、拡張レジス
タファイルとして仮決定されたものを、すべてＦＰＧＡ
５２Ａに回路構成するものとして、拡張レジスタファイ
ルの構成が決定される。そして、拡張レジスタファイル
に、あらかじめ用意されている拡張レジスタファイル名
が割り当てられる。なお、ステップＳ２１２からＳ２１
５は、本発明におけるレジスタ処理決定手段が行うもの
である。

【００９９】最後に、ステップＳ２１６において、最適
化やレジスタ割り付けが行われてオブジェクトプログラ
ム３が生成される。このオブジェクトプログラム３のコ
ーディングに用いられるレジスタファイル名は、ステッ
プＳ２１５において割り当てられた拡張レジスタファイ
ル名を含むものである。また、ステップＳ２１７におい
て、ステップＳ２１４において決定された拡張レジスタ
ファイルの回路コード４が生成される。なお、ステップ
Ｓ２１６は、本発明におけるコンパイル手段が行うもの
であり、ステップＳ２１７は、回路コード生成手段が行
うものである。

【０１００】次に、本実施形態に係る半導体集積回路に
ついて説明する。

【０１０１】図７は、本実施形態に係る半導体集積回路
５Ａの構成を示す。半導体集積回路５Ａは、ＣＰＵ５１
ＡとＦＰＧＡ５２Ａとを備えている。ＣＰＵ５１Ａは、
演算器５１１と、レジスタファイル５１２と、命令デコ
ーダ５１３とを備えている。また、ＦＰＧＡ５２Ａに
は、拡張レジスタファイル５２２が回路構成されてい
る。この拡張レジスタファイル５２２は、たとえば、本
実施形態に係るコンパイラ装置２Ａによって生成された
回路コード４に基づいて回路構成されたものである。そ
して、半導体集積回路５Ａは、たとえば、本実施形態に
係るコンパイラ装置２Ａによって生成されたオブジェク
トプログラム３に従って、プログラムを実行するもので
ある。

【０１０２】半導体集積回路５Ａは、上記の各構成要素
間のデータ転送機構として、２つのデータ転送機構ＴＭ
６およびＴＭ７を備えている。データ転送機構ＴＭ６
は、演算器５１１および命令デコーダ５１３の出力を、
拡張レジスタファイル５２２に転送する。データ転送機
構ＴＭ７は、拡張レジスタファイル５２２に保持された
データを、演算器５１１に転送する。

【０１０３】以下、半導体集積回路５Ａの動作について
説明する。なお、演算器５１１、レジスタファイル５１
２および命令デコーダ５１３は一般のＣＰＵに備えられ
たものと同様であるので説明を省略し、拡張レジスタフ
ァイル５２２の動作を中心に説明する。

【０１０４】まず、命令デコーダ５１３は、命令メモリ
６から命令コードをフェッチし、デコードを行う。この
デコード結果は、演算器５１１およびレジスタファイル
５１２に転送されるとともに、転送機構ＴＭ６によっ
て、拡張レジスタファイル５２２にも転送することがで
きる。また、拡張レジスタファイル５２２に保持された
データは、データ転送機構ＴＭ７によって、演算器５１
１に転送することができる。そして、演算器５１１の演
算結果は、レジスタファイル５１２だけではなく、デー
タ転送機構ＴＭ６によって、拡張レジスタファイル５２
２にも転送することができる。したがって、ＣＰＵ５１
Ａは、拡張レジスタファイル５２２を、レジスタファイ
ル５１２と同様なレジスタファイルとして取り扱うこと
ができる。

【０１０５】以上、本実施形態によると、ソースプログ
ラム１の実行に必要なレジスタファイルを、ＣＰＵ５１
Ａ内のレジスタファイルの数に制約を受けることなく、
ＦＰＧＡ５２Ａに拡張レジスタファイルとして回路構成
することができる。これにより、レジスタファイルが不
足することにより、演算に用いる変数をメモリに退避さ
せるスタック処理による演算処理速度の低下を防ぐこと
ができ、プログラムを高速に実行させることが可能とな
る。また、ＦＰＧＡ５２Ａに回路構成される拡張レジス
タファイル５２２は、ＣＰＵ５１Ａ内のレジスタファイ
ル５１２と同様に取り扱うことができるため、制御が複
雑化することがない。

【０１０６】なお、たとえば、第１の実施形態のように
ＦＰＧＡ５２Ａに拡張演算器を回路構成するものとし、
拡張演算器が回路構成されてなおもＦＰＧＡ５２Ａに使
用可能領域が残存する場合、拡張レジスタファイル５２
２を構成するようにしてもよい。また、これとは逆に、
ＦＰＧＡ５２Ａに拡張レジスタファイル５２２の回路構
成がされて、なおもＦＰＧＡ５２Ａに使用可能領域が残
存する場合に、拡張演算器を回路構成するようにしても
よい。いずれの場合においても、ＦＰＧＡ５２Ａに拡張
演算器および拡張レジスタファイルを回路構成すること
により、プログラムの実行速度をより高速化することが
できる。

【０１０７】（第５の実施形態）本発明の第５の実施形
態に係るコンパイラ装置２Ｂは、本発明における第２の
命令デコーダに相当する拡張命令デコーダの回路コード
４を生成するものである。以下、本実施形態に係るコン
パイラ装置２Ｂの動作について、図８のフローチャート
に従って説明する。

【０１０８】処理が開始すると、まず、ステップＳ２２
１において、ソースプログラム１から命令が抽出され
る。ここで抽出される命令は、たとえば、可変長命令で
ある。さらに、抽出された各命令について、ソースプロ
グラム１における出現回数がカウントされる。なお、本
ステップＳ２２１は、本発明における命令抽出手段が行
うものである。

【０１０９】次に、ステップＳ２２２では、ＣＰＵ５１
Ｂが実行可能な命令と、その命令に対応する命令コード
の命令コード長と、その命令の出現回数とが記載された
命令リストが作成される。図９は、命令Ａから命令Ｆま
でについて作成された命令リストの例を示す。命令リス
トＡは出現回数の降順にソートしたものであり、後ほど
説明する命令コードの交換処理において交換対象となる
命令を設定するためのものである。また、命令リストＢ
は、命令コード長の昇順および出現回数の昇順にソート
したものであり、命令コードの交換処理において交換候
補となる命令を設定するためのものである。なお、本ス
テップＳ２２２は、本発明における命令リスト作成手段
が行うものである。

【０１１０】ステップＳ２２３では、上記の命令リスト
を用いて、命令コードの交換が行われる。この命令コー
ドの交換処理については、後ほど詳細に説明する。な
お、本ステップＳ２２３は、本発明における命令コード
交換手段が行うものである。

【０１１１】最後に、ステップＳ２２４において、最適
化やレジスタ割り付けが行われてオブジェクトプログラ
ム３が生成される。このオブジェクトプログラム３のコ
ーディングは、ステップＳ２２３において命令コードの
交換が行われた後の命令リストに基づいて生成される。
また、ステップＳ２２５において、ステップＳ２２３に
おいて命令コードの交換が行われた後の命令リストに基
づいてコードマップが作成され、このコードマップを基
にして、拡張命令デコーダの回路コード４が生成され
る。なお、ステップＳ２２４は、本発明におけるコンパ
イル手段が行うものであり、ステップＳ２２５は、回路
コード生成手段が行うものである。

【０１１２】次に、ステップＳ２２３における命令コー
ドの交換処理について、図１０のフローチャートに従っ
て詳細に説明する。

【０１１３】まず、ステップＳ２２３１では、命令リス
トＡにおいて、命令コードの交換対象の命令として命令
Ｘが設定される。命令Ｘは、命令リストＡの命令欄に記
載された命令のうちのいずれか１つを指すものである。
また、ステップＳ２２３２では、命令リストＢにおい
て、命令コードの交換候補の命令として命令Ｙが設定さ
れる。命令Ｙは、命令リストＢの命令欄に記載された命
令のうちのいずれか１つを指すものである。

【０１１４】続くステップＳ２２３３では、命令Ｘの命
令コード長と命令Ｙの命令コード長とが比較される。そ
して、“命令Ｘの命令コード長＞命令Ｙの命令コード
長”であるときは、ステップＳ２２３４に進む一方、
“命令Ｘの命令コード長≦命令Ｙの命令コード長”であ
るときは、命令Ｘおよび命令Ｙについて、命令コードの
交換を行わないものとしてステップＳ２２３７に進む。

【０１１５】ステップＳ２２３４に進むと、命令リスト
Ａを参照し、命令コード交換前の命令コード長総和とし
てＬ０（＝命令Ｘの命令コード長×命令Ｘの出現回数＋
命令Ｙの命令コード長×命令Ｙの出現回数）が算出され
る。また、命令コードが交換されたと想定し、命令コー
ド交換後の命令コード長総和としてＬ１（＝命令Ｙの命
令コード長×命令Ｘの出現回数＋命令Ｘの命令コード長
×命令Ｙの出現回数）が算出される。

【０１１６】ステップＳ２２３５では、命令コード長総
和Ｌ０とＬ１との比較が行われ、Ｌ０＞Ｌ１であるとき
は、これは命令コードの交換を行うことにより総命令コ
ード長が削減可能であることを意味しているので、ステ
ップＳ２２３６に進む。一方、Ｌ０≦Ｌ１であるとき
は、命令コードの交換を行わないものとしてステップＳ
２２３２に戻る。ステップＳ２２３２に戻ると、命令リ
ストＢにおける命令Ｙの次行の命令が、新たな命令Ｙと
して設定されることになる。

【０１１７】ステップＳ２２３６に進むと、命令Ｘの命
令コードと命令Ｙの命令コードが交換される。そして、
命令リストＡおよび命令リストＢが更新される。具体的
には、命令リストＡにおいては、命令Ｘの命令コード長
と命令Ｙの命令コード長とが交換され、命令リストＢに
おいては、命令Ｘの命令コード長と命令Ｙの命令コード
長とが交換されて命令Ｘの行が削除され、命令コードの
昇順および出現回数の昇順にソートされる。

【０１１８】ステップＳ２２３７では、命令リストＡに
おける命令Ｘの次行以降に、交換対象および交換候補と
して設定可能な命令が存在するか否かが判定され、存在
するときは、ステップＳ２２３１に戻り、命令Ｘの次行
の命令が新たな命令Ｘとして設定される。一方、存在し
ないときは、命令コードの交換処理を終了する。

【０１１９】次に、上記のステップＳ２２３１〜２２３
７までのフローについて、図９に示した命令リストを用
いて具体的に説明する。

【０１２０】まず、命令リストＡの第１行目の命令Ａ
が、命令コードの交換対象の命令Ｘとして設定される
（Ｓ２２３１）。また、命令リストＢの第１行目の命令
Ｆが、命令コードの交換候補の命令Ｙとして設定される
（Ｓ２２３２）。ここで、命令Ａの命令コード長（＝２
４）＞命令Ｆの命令コード長（＝８）なので、命令コー
ドの交換を行うものとする（Ｓ２２３３）。

【０１２１】次に、命令コード交換前の命令コード長総
和としてＬ０＝２４×２０＋８×０＝４８０が、命令コ
ード交換後の命令コード長総和としてＬ１＝８×２０＋
２４×０＝１６０がそれぞれ算出される（Ｓ２２３
４）。ここでＬ０（＝４８０）＞Ｌ１（＝１６０）なの
で、命令Ａの命令コードおよび命令Ｆの命令コードの交
換が決定される。そして、命令リストＡにおいて、命令
Ａの命令コード長と命令Ｆの命令コード長とが交換され
る。また、命令リストＢにおいて、命令Ａの命令コード
長と命令Ｆの命令コード長とが交換されて命令Ｆの行は
削除され、命令コードの昇順および出現回数の昇順にソ
ートされる（Ｓ２２３６）。こうして得たのが図１１に
示した命令リストである。

【０１２２】命令リストＡにおいて、命令Ａの次行以降
には、交換対象となる命令Ｂおよび交換候補となる命令
Ｃから命令Ｆが存在するので、次は命令Ｂについて、命
令コードの交換処理が行われる（Ｓ２２３７）。そし
て、命令Ｂについて、上記と同様の命令コードの交換処
理が行われた結果、図１２に示した命令リストを得る。

【０１２３】次は、図１２の命令リストＡにおける命令
Ｃを交換対象、そして、命令リストＢにおける命令Ｅを
交換候補として命令コードの交換処理が行われる（Ｓ２
２３１、Ｓ２２３２）。しかし、ここで、命令Ｃの命令
コード長（＝１６）と命令Ｅの命令コード長（＝１６）
とは等しいため、命令コードの交換は行わないものとす
る（Ｓ２２３３）。そして、命令リストＡにおいて、命
令Ｃの次行以降には、交換対象となる命令Ｄおよび交換
候補となる命令Ｅ、Ｆが存在するので、次は命令Ｄにつ
いて、命令コードの交換処理が行われる（Ｓ２２３
７）。そして、図１２の命令リストＡにおける命令Ｄを
交換対象、そして、命令リストＢにおける命令Ｅを交換
候補として命令コードの交換処理が行われた結果、図１
３に示した命令リストを得る。

【０１２４】次は、図１３の命令リストＡにおける命令
Ｅを交換対象、そして、命令リストＢにおける命令Ｃを
交換候補として命令コードの交換処理が行われる（Ｓ２
２３１、Ｓ２２３２）。命令Ｅの命令コード長（＝３
２）＞命令Ｃの命令コード長（＝１６）なので、命令コ
ードの交換を行うものとする（Ｓ２２３３）。そして、
命令コード交換前の命令コード長総和としてＬ０＝３２
×１＋１６×５＝１１６が、命令コード交換後の命令コ
ード長総和としてＬ１＝１６×１＋３２×５＝１７６が
それぞれ算出される（Ｓ２２３４）。ここで、Ｌ０（＝
１１６）＜Ｌ１（＝１７６）となり、命令コードの交換
後の命令コード長総和Ｌ１の方が交換前の総和Ｌ０より
も大きいので、命令Ｅの命令コードと命令Ｃの命令コー
ドの交換を行わないものとする（Ｓ２２３５）。

【０１２５】次に、命令リストＢにおける命令Ｃの次行
の命令Ｆが交換候補として設定される（Ｓ２２３２）。
命令Ｅの命令コード長（＝３２）＞命令Ｆの命令コード
長（＝２４）なので、命令コードの交換を行うものとす
る（Ｓ２２３３）。そして、命令コード交換前の命令コ
ード長総和としてＬ０＝３２×１＋２４×０＝３２が、
命令コード交換後の命令コード長総和としてＬ１＝２４
×１＋３２×０＝２４がそれぞれ算出される（Ｓ２２３
４）。ここで、Ｌ０（＝３２）＞Ｌ１（＝２４）なの
で、命令Ｅの命令コードと命令Ｆの命令コードとの交換
が決定される。そして、命令リストＡにおいて、命令Ｅ
の命令コード長と命令Ｆの命令コード長とが交換され
る。また、命令リストＢにおいて、命令Ｅの命令コード
長と命令Ｆの命令コード長とが交換されて命令Ｆの行は
削除され、命令コードの昇順および出現回数の昇順にソ
ートされる（Ｓ２２３６）。こうして得たのが図１４に
示した命令リストである。

【０１２６】図１４の命令リストＡにおいて、命令Ｅの
次行以降には命令Ｆしか存在しないので、命令コードの
交換処理を終了する（Ｓ２２３７）。以上の結果、命令
コード長の総和は、命令コードの交換処理を行うことに
より、交換処理前の１０８０から、交換処理後の４３２
に削減される。

【０１２７】次に、本実施形態に係る半導体集積回路に
ついて説明する。

【０１２８】図１５は、本実施形態に係る半導体集積回
路５Ｂの構成を示す。半導体集積回路５Ｂは、ＣＰＵ５
１ＢとＦＰＧＡ５２Ｂとを備えている。ＣＰＵ５１Ｂ
は、演算器５１１と、レジスタファイル５１２と、命令
デコーダ５１３と、選択回路５１４とを備えている。ま
た、ＦＰＧＡ５２Ｂには、拡張命令デコーダ５２３が回
路構成されている。この拡張命令デコーダ５２３は、た
とえば、本実施形態に係るコンパイラ装置２Ｂによって
生成された回路コード４に基づいて回路構成されたもの
である。そして、半導体集積回路５Ｂは、たとえば、本
実施形態に係るコンパイラ装置２Ｂによって生成された
オブジェクトプログラム３に従って、プログラムを実行
するものである。

【０１２９】半導体集積回路５Ｂは、上記の各構成要素
間のデータ転送機構として、２つのデータ転送機構ＴＭ
８およびＴＭ９を備えている。データ転送機構ＴＭ８
は、命令デコーダ５１３が命令メモリ６から入力する命
令コードを拡張命令デコーダ５２３に転送する。データ
転送機構ＴＭ９は、拡張命令デコーダ５２３のデコード
結果を、選択回路５１４に転送する。

【０１３０】選択回路５１４は、命令デコーダ５１３の
デコード結果、およびデータ転送機構ＴＭ９によって転
送される拡張命令デコーダ５２３のデコード結果のいず
れか一方を選択し、演算器５１１およびレジスタファイ
ル５１２に出力する。この選択のために、拡張命令デコ
ーダ５２３は、デコード結果だけではなく、選択回路５
１４を制御するための制御信号をも出力するように構成
される。選択回路５１４は、データ転送機構ＴＭ９によ
って転送された制御信号に基づいて、デコード結果の選
択を行う。

【０１３１】以下、半導体集積回路５Ｂの動作について
説明する。なお、演算器５１１、レジスタファイル５１
２および命令デコーダ５１３は一般のＣＰＵに備えられ
たものと同様であるため説明を省略し、選択回路５１４
および拡張命令デコーダ５２３の動作を中心に説明す
る。

【０１３２】まず、命令デコーダ５１３は、命令メモリ
６から命令コードをフェッチし、デコードを行う。ま
た、これと同じ命令コードが、データ転送機構ＴＭ８に
より、拡張命令デコーダ５２３にも転送される。命令デ
コーダ５１３のデコード結果は選択回路５１４に送ら
れ、拡張命令デコーダ５２３のデコード結果もまた、デ
ータ転送機構ＴＭ９によって、選択回路５１４に転送さ
れる。ここで、拡張命令デコーダ５２３が、たとえば、
本実施形態に係るコンパイラ装置２Ｂによって交換され
た命令コードを入力する場合、選択回路５１４に、デコ
ード結果とともに制御信号も転送される。

【０１３３】選択回路５１４は、データ転送機構ＴＭ９
によって制御信号を受けた場合、拡張命令デコーダ５２
３のデコード結果を選択する。一方、制御信号がない場
合、命令デコーダ５１３のデコード結果を選択する。そ
して、選択したデコード結果を、演算器５１１およびレ
ジスタファイル５１２に出力する。

【０１３４】以上、本実施形態によると、オブジェクト
プログラム３の命令コードのコード長総和を小さくする
ことができる。これにより、命令メモリ６の容量を削減
することができ、コストを削減することができる。ま
た、ＦＰＧＡ５２Ｂに拡張命令デコーダ５２３を回路構
成することにより、命令コードの交換処理に対して、半
導体集積回路５Ｂを作り変えることなく、柔軟に対応す
ることができる。

【０１３５】（第６の実施形態）本発明の第６の実施形
態に係るコンパイラ装置２Ｃは、本発明における第２の
命令デコーダに相当する拡張命令デコーダの回路コード
４を生成するものである。以下、本実施形態に係るコン
パイラ装置２Ｃの動作について、図１６のフローチャー
トに従って説明する。

【０１３６】処理が開始すると、まず、ステップＳ２３
１において、ソースプログラム１において頻繁に使用さ
れる命令列として、ソースプログラム１での出現回数が
所定値以上である命令列が抽出される。ここで抽出され
る命令列は、たとえば、一連の命令の組み合わせからな
る特定命令列である。また、特定命令列は、演算テーブ
ルなどにより、あらかじめ与えられているものとする。
なお、本ステップＳ２２１は、本発明における命令列抽
出手段が行うものである。

【０１３７】次に、ステップＳ２３２に進み、ステップ
Ｓ２３１において抽出された特定命令列を１つの複合命
令とみなし、その特定命令列に新たな命令コードを割り
当てる。このとき、新たな命令コードのコード長が、特
定命令列全体の命令コードのコード長よりも小さくなる
ようにする。なお、新たな命令コードは、ＣＰＵ５１Ｂ
用にあらかじめ用意されているものとは異なるものであ
る。なお、本ステップＳ２３２は、本発明の命令コード
割当手段が行うものである。

【０１３８】最後に、ステップＳ２３３において、最適
化やレジスタ割り付けが行われてオブジェクトプログラ
ム３が生成される。このオブジェクトプログラム３のコ
ーディングは、ステップＳ２３２において新たに割り当
てられた命令コードを用いて生成される。また、ステッ
プＳ２３４において、ステップＳ２３２において新たに
割り当てられた命令コードに基づいてコードマップが作
成され、このコードマップを基にして、拡張命令デコー
ダの回路コード４が生成される。なお、ステップＳ２３
３は、本発明におけるコンパイル手段が行うものであ
り、ステップＳ２３４は、本発明における回路コード生
成手段が行うものである。

【０１３９】以上、本実施形態によると、オブジェクト
プログラム３の命令コードのコード長総和を小さくする
ことができる。これにより、命令メモリ６の容量を削減
することができ、コストを削減することができる。ま
た、ＦＰＧＡ５２Ｂに拡張命令デコーダ５２３を回路構
成することにより、命令コードの交換処理に対して、半
導体集積回路５Ｂを作り変えることなく、柔軟に対応す
ることができる。

【０１４０】（第７の実施形態）本発明の第７の実施形
態に係るコンパイラ装置２Ｄは、本発明における第２の
演算器に相当する拡張演算器と、第２のレジスタファイ
ルに相当する拡張レジスタファイルと、第２の命令デコ
ーダに相当する拡張命令デコーダの回路コード４を生成
するものである。以下、本実施形態に係るコンパイラ装
置２Ｄの動作について、図１７のフローチャートに従っ
て説明する。

【０１４１】処理が開始すると、まず、ステップＳ２４
０１において、ソースプログラム１から命令列が抽出さ
れる。本ステップＳ２４０１は、図２のステップＳ２０
１またはＳ２０１Ａと同様であり、本発明の第１の命令
列抽出手段が行うものである。

【０１４２】ステップＳ２４０２では、図３に示したよ
うな演算テーブルを参照して、抽出された各命令列に関
するＣＰＵ５１Ｃ内の演算器と想定演算器との処理性能
差が見積もられる。本ステップＳ２４０２は、図２のス
テップＳ２０２またはＳ２０２Ａと同様であり、本発明
の処理見積手段が行うものである。

【０１４３】ステップＳ２４０３では、ステップＳ２４
０１において抽出された命令列の中から、ステップＳ２
４０２において見積もられた処理性能、たとえば、短縮
時間を基にして、拡張演算器によって実行されるべき命
令列が選択され、拡張演算器の構成が決定される。本ス
テップＳ２４０３は、図２のステップＳ２０３またはＳ
２０３Ａと同様であり、本発明の処理決定手段が行うも
のである。

【０１４４】ステップＳ２４０４では、ステップＳ２４
０３において選択された命令列を新たな複合命令とみな
して、この複合命令に、あらかじめ複数用意されている
拡張命令コードが割り当てられる。この拡張命令コード
は、ＦＰＧＡ５２Ｃに回路構成される拡張演算器によっ
て実行されるものである。本ステップＳ２４０４は、図
２のステップＳ２０４と同様であり、本発明の第１の命
令コード割当手段が行うものである。

【０１４５】次に、ステップＳ２４０５において、ソー
スプログラム１での使用頻度が所定値Ｋ以上の変数に対
して必要レジスタファイルを割り付けるものとし、その
数Ｎａが見積もられる。また、必要レジスタファイルに
対して、それぞれの使用頻度がパラメータとして蓄積さ
れる。本ステップＳ２４０５は、図６のステップＳ２１
１と同様であり、本発明のレジスタ見積手段が行うもの
である。

【０１４６】続くステップＳ２４０６では、拡張レジス
タファイルの数が最適化される。まず、拡張レジスタフ
ァイルが仮決定され、拡張レジスタファイルの回路面積
ＳＲが見積もられる。なお、仮決定および回路面積ＳＲ
の算出方法は、図６のステップＳ２１２において行われ
るものと同様である。

【０１４７】そして、回路面積ＳＲとＦＰＧＡ５２Ｃの
使用可能領域の回路面積ＳＦとが比較される。ここでの
回路面積ＳＦは、ステップＳ２４０３において決定され
た拡張演算器が要する回路面積ＳＦＦが既に引き去られ
たものとする。比較の結果、ＳＲ≦ＳＦであるときは、
ステップＳ２４０８に進み、拡張レジスタファイルの構
成を決定する。一方、ＳＲ＞ＳＦであるときは、拡張レ
ジスタファイルの数の最適化が行われる。

【０１４８】拡張レジスタファイルの数の最適化におい
ては、まず、ＦＰＧＡ５２Ｃの使用可能領域に回路構成
可能な拡張レジスタファイルの最大数Ｎｂが見積もられ
る。これは、回路面積ＳＦを拡張レジスタファイル１つ
あたりの回路面積で除算することにより見積もることが
できる。ここで、ＦＰＧＡ５２Ｃに回路構成できない拡
張レジスタファイルとして使用頻度の低いものを選択
し、この拡張レジスタファイルに割り当てられる変数の
データが、拡張レジスタファイルが回路構成されないこ
とによりメモリにスタックされる回数ＳＤが見積もられ
る。

【０１４９】上記のスタック動作に必要なクロック数を
ＳＳとすると、拡張レジスタファイルの数をＮｂより１
つ増やしたとき、プログラム実行の短縮時間ＲＴ１はＳ
Ｄ×ＳＳである。ここで、短縮時間ＲＴ１と、ステップ
Ｓ２４０３において選択された命令列のうち、その想定
演算器の回路面積が拡張レジスタファイル１個分の面積
であるようなものについての短縮時間ＲＴ２とが比較さ
れる。このとき、ＲＴ１＞ＲＴ２であるときは、その命
令列を拡張演算器用として選択された命令列から除外し
て、代わりに拡張レジスタファイルを１つ増やす方がプ
ログラムの実行速度が速くなる。したがって、ＲＴ１＞
ＲＴ２の場合、Ｎｂを１つ増やして、再度、本ステップ
Ｓ２４０６における拡張レジスタファイルの最適化の処
理を行う。

【０１５０】一方、ＲＴ１≦ＲＴ２であるときは、これ
以上拡張レジスタファイルを増やしても、プログラムの
速度向上は図れないので、ステップＳ２４０８に進み、
拡張レジスタファイルの決定を行う。以上、本ステップ
Ｓ２４０６は、本発明のレジスタ数最適化手段が行うも
のである。

【０１５１】次に、ステップＳ２４０８では、拡張レジ
スタファイルとして仮決定されたものが、すべてＦＰＧ
Ａ５２Ｃに回路構成するものとして、最終的な拡張レジ
スタファイルの構成が決定される。そして、拡張レジス
タファイルに、あらかじめ用意されている拡張レジスタ
ファイル名が割り当てられる。なお、本ステップＳ２４
０８は、本発明のレジスタ処理決定手段が行うものであ
る。

【０１５２】そして、ステップＳ２４０９において、最
適化やレジスタ割り付けが行われてオブジェクトプログ
ラムが仮生成される。このオブジェクトプログラムのコ
ーディングには、ステップＳ２４０４において割り当て
られた拡張命令コード、およびステップＳ２４０８にお
いて割り当てられた拡張レジスタファイル名が用いられ
る。なお、本ステップＳ２４０７は、本発明の第１のコ
ンパイル手段が行うものである。

【０１５３】ここで、ソースプログラム１からオブジェ
クトプログラムが仮生成されるまで（Ｓ２４０１からＳ
２４０７まで）について、図１８のソースプログラム例
を用いて説明する。なお、説明の都合上、ＣＰＵ５１Ｃ
内のレジスタファイルの数を２、拡張レジスタファイル
１つあたりの回路面積ＳＲを１、ＦＰＧＡ５２Ｃの回路
面積ＳＦＡを２０、ＦＰＧＡ５２Ｃにおいて拡張演算器
および拡張レジスタファイルの回路構成に使用可能な領
域の回路面積ＳＦを８とし、ＣＰＵ５１Ｃは拡張命令コ
ードとしてexfunc1 、exfunc2 およびexfunc3 を準備し
ているものとする。また、演算テーブルとして、図３に
示したものを用いるものとする。

【０１５４】まず、ソースプログラムから、演算テーブ
ル１行目の命令列“(a+b)*c ”が抽出される（Ｓ２４０
１）。また、命令列“(a+b)*c ”の出現回数は１回とカ
ウントされ、演算テーブルに書き込まれる。そして、演
算テーブルを参照して、想定演算器が命令列“(a+b)*c
”を実行することにより、１（＝２×１−１×１）だ
け、プログラムの実行時間が短縮されることが見積もら
れる（Ｓ２４０２）。ここで、命令列“(a+b)*c ”を実
行する拡張演算器をＦＰＧＡ５２Ｃに回路構成するのに
要する回路面積ＳＡは３であり、ＳＦ（＝８）＞ＳＡ
（＝３）であるから、この演算器はＦＰＧＡ５２Ｃに回
路構成されるものとして決定され（Ｓ２４０３）、命令
列“(a+b)*c ”に拡張命令コードexfunc1 が割り当てら
れる（Ｓ２４０４）。

【０１５５】次に、ソースプログラムにおいて変数とし
て使用されているものは、ａ、ｂおよびｃの３つであ
り、必要レジスタファイルの数として３が見積もられる
（Ｓ２４０５）。そして、ＣＰＵ５１Ｃは２つのレジス
タファイルを備えるので、拡張レジスタファイルの数と
して１が見積もられる。ここで、ＦＰＧＡ５２Ｃに残存
する使用可能領域の回路面積ＳＦ＝５（＝８−３）であ
り、ＳＦ（＝５）＞ＳＲ（＝１）なので、１個の拡張レ
ジスタファイルを回路構成することが決定される（Ｓ２
４０６、Ｓ２４０８）。

【０１５６】以上のようにして、図１９に示すオブジェ
クトプログラムが仮生成される（Ｓ２４０７）。このオ
ブジェクトプログラムにおいて、拡張命令コードは４行
目の“exfunc1 ”であり、拡張レジスタファイル名は３
および４行目の“D2”である。このオブジェクトプログ
ラムを、拡張演算器および拡張レジスタファイルのいず
れも回路構成しないという条件で生成された図２０のオ
ブジェクトプログラムと比較すると、図１９のオブジェ
クトプログラムの方が、プログラム全体の命令コード数
が削減されていることがわかる。また、拡張レジスタフ
ァイルのみを回路構成するという条件で生成された図２
１のオブジェクトプログラムと比較しても、図１９のオ
ブジェクトプログラムの方が、プログラム全体の命令コ
ード数が削減されていることがわかる。

【０１５７】次に、図１７におけるステップＳ２４１０
以降について説明する。

【０１５８】ステップＳ２４１０では、ステップＳ２４
０９において仮生成されたオブジェクトプログラムか
ら、命令列が抽出される。ここで抽出される命令列は、
たとえば、一連の命令の組み合わせからなる特定命令列
である。また、特定命令列は、演算テーブルなどに、あ
らかじめ与えられているものとする。なお、本ステップ
Ｓ２４１０は、本発明の第２の命令列抽出手段が行うも
のである。

【０１５９】続くステップＳ２４１１では、ステップＳ
２４１０において抽出された特定命令列を１つの複合命
令とみなし、その特定命令列に新たな命令コードを割り
当てる。このとき、この新たな命令コードのコード長
が、特定命令列全体の命令コードのコード長よりも小さ
くなるようにする。なお、新たな命令コードは、ＣＰＵ
５１Ｃ用にあらかじめ用意されているものとは異なるも
のである。なお、本ステップＳ２４１１は、本発明の第
２の命令コード割当手段が行うものである。

【０１６０】最後に、ステップＳ２４１２において、最
適化やレジスタ割り付けが行われてオブジェクトプログ
ラム３が生成される。このオブジェクトプログラム３の
コーディングに用いられる命令コードおよびレジスタフ
ァイル名は、ステップＳ２４０４において割り当てられ
た拡張命令コード、およびステップＳ２４０８において
割り当てられた拡張レジスタファイル名を含むものであ
る。また、ステップＳ２４１３において、ステップＳ２
４１１において新たに割り当てられた命令コードに基づ
いてコードマップが作成され、このコードマップを基に
して、拡張命令デコーダの回路コード４が生成される。
また、ステップＳ２４０４において決定された拡張演算
器、およびステップＳ２４０８において決定された拡張
レジスタファイルの回路コード４も生成される。なお、
ステップＳ２４１２は、本発明の第２のコンパイル手段
が行うものであり、ステップＳ２４１３は、回路コード
生成手段が行うものである。

【０１６１】次に、本実施形態に係る半導体集積回路に
ついて説明する。

【０１６２】図２２は、本実施形態に係る半導体集積回
路５Ｃの構成を示す。半導体集積回路５Ｃは、ＣＰＵ５
１Ｃと、ＦＰＧＡ５２Ｃと、メモリ５３とを備えてい
る。ＣＰＵ５１Ｃは、演算器５１１と、レジスタファイ
ル５１２と、命令デコーダ５１３と、選択回路５１４と
を備えている。また、ＦＰＧＡ５２Ｃには、拡張演算器
５２１と、拡張レジスタファイル５２２と、拡張命令デ
コーダ５２３とが回路構成されている。この拡張演算器
５２１、拡張レジスタファイル５２２および拡張命令デ
コーダ５２３は、たとえば、本実施形態に係るコンパイ
ラ装置２Ｄによって生成された回路コード４に基づい
て、それぞれ回路構成されたものである。そして、半導
体集積回路５Ｃは、たとえば、本実施形態に係るコンパ
イラ装置２Ｄによって生成されたオブジェクトプログラ
ム３に従って、プログラムを実行するものである。

【０１６３】半導体集積回路５Ｃは、上記の各構成要素
間のデータ転送機構として、１２個のデータ転送機構Ｔ
Ｍ１、ＴＭ２Ａ、ＴＭ３、ＴＭ４、ＴＭ５、ＴＭ６Ａ、
ＴＭ７、ＴＭ８、ＴＭ９、ＴＭ１０、ＴＭ１１およびＴ
Ｍ１２を備えている。

【０１６４】データ転送機構ＴＭ２Ａは、選択回路５１
４によって選択されたデコード結果を拡張演算器５２１
に転送するものであり、データ転送機構ＴＭ６Ａは、演
算器５１１の出力および選択回路５１４によって選択さ
れたデコード結果を拡張レジスタファイル５２２に転送
するものであり、データ転送機構ＴＭ１０は、拡張レジ
スタファイル５２２に保持されたデータを拡張演算器５
２１に転送するものであり、データ転送機構ＴＭ１１
は、拡張命令デコーダ５２３のデコード結果を拡張レジ
スタファイル５２２に転送するものであり、そして、デ
ータ転送機構ＴＭ１２は、拡張演算器５２１の演算結果
を拡張レジスタファイル５２２に転送するものである。
これ以外のデータ転送機構については、これまでに説明
したとおりであるので説明を省略する。

【０１６５】以下、半導体集積回路５Ｃの動作について
説明する。なお、演算器５１１、レジスタファイル５１
２および命令デコーダ５１３は一般のＣＰＵに備えられ
たものと同様であるため説明を省略し、拡張演算器５２
１、拡張レジスタファイル５２２および拡張命令デコー
ダ５２３の動作を中心に説明する。

【０１６６】まず、命令デコーダ５１３は、命令メモリ
６から命令コードをフェッチし、デコードを行う。ま
た、これと同じ命令コードが、データ転送機構ＴＭ８に
より、拡張命令デコーダ５２３にも転送される。命令デ
コーダ５１３のデコード結果は選択回路５１４に送ら
れ、拡張命令デコーダ５２３のデコード結果もまた、デ
ータ転送機構ＴＭ９によって、選択回路５１４に転送さ
れる。ここで、制御信号も転送されるが、これについて
は、第５の実施形態において説明したとおりである。

【０１６７】次に、選択回路５１４によって選択された
命令デコードの結果は、演算器５１１やレジスタファイ
ル５１２だけではなく、データ転送機構ＴＭ２Ａによっ
て拡張演算器５２１に、そして、データ転送機構ＴＭ６
Ａによって拡張レジスタファイル５２２にも転送するこ
とができる。つまり、拡張演算器５２１および拡張レジ
スタファイル５２２は、演算器５１１やレジスタファイ
ル５１２と同様に制御することが可能である。

【０１６８】以上、本実施形態によると、拡張演算器５
２１および拡張レジスタファイル５２２の回路コード４
を生成し、また、拡張演算器５２１および拡張レジスタ
ファイル５２２を使用するようなオブジェクトプログラ
ム３を生成することができる。そして、回路コード４に
基づいて、実際に、ＦＰＧＡ５２Ｃに拡張演算器５２１
および拡張レジスタファイル５２２を回路構成し、オブ
ジェクトプログラム３に従って、プログラムを高速に実
行することができる。また、拡張演算器５２１および拡
張レジスタファイル５２２は、演算器５１１およびレジ
スタファイル５１２と同様に取り扱うことができるた
め、制御が複雑化することがない。

【０１６９】さらに、オブジェクトプログラム３の命令
コードのコード長総和を小さくすることができる。これ
により、命令メモリ６の容量を削減することができ、コ
ストを削減することができる。

【０１７０】なお、本実施形態に係るコンパイラ装置２
Ｄは、先に拡張演算器の構成を決定し、その後、拡張レ
ジスタファイルの構成を決定するものとしたが、これと
は逆に、先に拡張レジスタファイルの構成を決定し、そ
の後、拡張演算器の構成を決定するようにしてもよい。

【０１７１】以上で説明したコンパイラ装置２、２Ａ、
２Ｂ、２Ｃ、２Ｄと半導体集積回路５、５Ａ、５Ｂ、５
Ｃとは互いに独立して動作することができる。したがっ
て、半導体集積回路５、５Ａ、５Ｂ、５Ｃが入力するオ
ブジェクトプログラム３および回路コード４は、コンパ
イラ装置２、２Ａ、２Ｂ、２Ｃ、２Ｄ以外によって生成
されるものであってもよい。

【０１７２】

【発明の効果】上記の説明のとおり、本発明によると、
ソースプログラムから、ソースプログラムにおいて処理
負荷の大きな部分を実行する拡張演算器（第２の演算
器）やソースプログラムの実行に必要な数の拡張レジス
タファイル（第２の拡張レジスタファイル）の回路コー
ドを生成するとともに、これら拡張演算器や拡張レジス
タファイルの使用を前提としたオブジェクトプログラム
を生成することができる。そして、ＣＰＵとＦＰＧＡと
が混載された半導体集積回路において、回路コードに基
づいてＦＰＧＡに拡張演算器や拡張レジスタファイルが
回路構成されることにより、オブジェクトプログラムの
実行が可能な半導体集積回路を実現することができる。
このような半導体集積回路でオブジェクトプログラムを
実行することにより、プログラムの実行速度を高速化す
ることができる。

【０１７３】また、生成されるオブジェクトプログラム
および回路コードとして、プログラムの実行速度を高速
化するものだけではなく、所望の実行速度を確保しつつ
消費電力を抑えたようなものをも生成することができ
る。

【０１７４】さらに、ソースプログラムから、コードサ
イズを縮小したオブジェクトプログラムを生成するとと
もに、このオブジェクトプログラムの実行に必要な拡張
命令デコーダ（第２の命令デコーダ）の回路コードを生
成することができる。そして、ＣＰＵとＦＰＧＡとが混
載された半導体集積回路において、回路コードに基づい
てＦＰＧＡに拡張命令デコーダが回路構成されることに
より、半導体集積回路は、コードサイズが縮小されたオ
ブジェクトプログラムの実行が可能となる。これによ
り、オブジェクトプログラムを格納するための命令メモ
リ容量が少なくて済み、メモリに係るコストを削減する
ことができる。

【図面の簡単な説明】

【図１】本発明のコンパイラ装置および半導体集積回路
からなるシステムの構成図である。

【図２】本発明の第１から第３の実施形態に係るコンパ
イラ装置のフローチャートである。

【図３】演算テーブルの具体例である。

【図４】本発明の第１から第３の実施形態に係るコンパ
イラ装置における処理決定手段のフローチャートであ
る。

【図５】本発明の第１の実施形態に係る半導体集積回路
の構成図である。

【図６】本発明の第４の実施形態に係るコンパイラ装置
のフローチャートである。

【図７】本発明の第４の実施形態に係る半導体集積回路
の構成図である。

【図８】本発明の第５の実施形態に係るコンパイラ装置
のフローチャートである。

【図９】命令リストの具体例である。

【図１０】本発明の第５の実施形態に係るコンパイラ装
置における命令コード交換手段のフローチャートであ
る。

【図１１】命令リストの具体例である。

【図１２】命令リストの具体例である。

【図１３】命令リストの具体例である。

【図１４】命令リストの具体例である。

【図１５】本発明の第５の実施形態に係る半導体集積回
路の構成図である。

【図１６】本発明の第６の実施形態に係るコンパイラ装
置のフローチャートである。

【図１７】本発明の第７の実施形態に係るコンパイラ装
置のフローチャートである。

【図１８】ソースプログラムの具体例である。

【図１９】オブジェクトプログラムの具体例である。

【図２０】オブジェクトプログラムの具体例である。

【図２１】オブジェクトプログラムの具体例である。

【図２２】本発明の第７の実施形態に係る半導体集積回
路の構成図である。

【符号の説明】

１ソースプログラム２、２Ａ、２Ｂ、２Ｃ、２Ｄコンパイラ装置３オブジェクトプログラム４回路コード５、５Ａ、５Ｂ、５Ｃ半導体集積回路５１、５１Ａ、５１Ｂ、５１ＣＣＰＵ５１１演算器（第１の演算器）５１２レジスタファイル（第１のレジスタファイル）５１３命令デコーダ（第１の命令デコーダ）５１４選択回路５２、５２Ａ、５２Ｂ、５２ＣＦＰＧＡ（プログラマ
ブルデバイス）５２１拡張演算器（第２の演算器）５２２拡張レジスタファイル（第２のレジスタファイ
ル）５２３拡張命令デコーダ（第２の命令デコーダ）５３メモリＴＭ１データ転送機構（第１のデータ転送機構）ＴＭ２、ＴＭ２Ａデータ転送機構（第２のデータ転送
機構）ＴＭ３データ転送機構（第３のデータ転送機構）ＴＭ４データ転送機構（第３のデータ転送機構）ＴＭ５データ転送機構ＴＭ６、ＴＭ６Ａデータ転送機構（第１のデータ転送
機構、第４のデータ転送機構）ＴＭ７データ転送機構（第２のデータ転送機構、第５
のデータ転送機構）ＴＭ８データ転送機構（第１のデータ転送機構、第４
のデータ転送機構、第３のデータ転送機構）ＴＭ９データ転送機構（第２のデータ転送機構、第５
のデータ転送機構、第４のデータ転送機構）ＴＭ１０データ転送機構（第６のデータ転送機構）ＴＭ１１データ転送機構（第５のデータ転送機構）ＴＭ１２データ転送機構（第７のデータ転送機構）Ｓ２０１、Ｓ２０１Ａ命令列抽出手段Ｓ２０２、Ｓ２０２Ａ処理見積手段Ｓ２０３、Ｓ２０３Ａ処理決定手段Ｓ２０４命令コード割当手段Ｓ２０５コンパイル手段Ｓ２０６回路コード生成手段Ｓ２１１レジスタ処理見積手段Ｓ２１２、Ｓ２１３、Ｓ２１４、Ｓ２１５レジスタ処
理決定手段Ｓ２１６コンパイル手段Ｓ２１７回路コード生成手段Ｓ２２１命令抽出手段Ｓ２２２命令リスト作成手段Ｓ２２３命令コード交換手段Ｓ２２４コンパイル手段Ｓ２２５回路コード生成手段Ｓ２３１命令列抽出手段Ｓ２３２命令コード割当手段Ｓ２３３コンパイル手段Ｓ２３４回路コード生成手段Ｓ２４０１第１の命令列抽出手段Ｓ２４０２処理見積手段Ｓ２４０３処理決定手段Ｓ２４０４第１の命令コード割当手段Ｓ２４０５レジスタ処理見積手段Ｓ２４０６、Ｓ２４０７レジスタ数最適化手段Ｓ２４０８レジスタ処理決定手段Ｓ２４０９第１のコンパイル手段Ｓ２４１０第２の命令列抽出手段Ｓ２４１１第２の命令コード割当手段Ｓ２４１２第２のコンパイル手段Ｓ２４１３回路コード生成手段

───────────────────────────────────────────────────── フロントページの続き (72)発明者山本淳也大阪府門真市大字門真1006番地松下システムテクノ株式会社内 (72)発明者高山秀一大阪府門真市大字門真1006番地松下電器産業株式会社内 (72)発明者矢野純一大阪府門真市大字門真1006番地松下電器産業株式会社内 (72)発明者吉田久人大阪府門真市大字門真1006番地松下電器産業株式会社内 (72)発明者饗庭侯彦大阪府門真市大字門真1006番地松下電器産業株式会社内Ｆターム(参考） 5B046 AA08 BA03 5B079 BC01 DD13 5B081 CC21 CC25

Claims

【特許請求の範囲】

【請求項１】ソースプログラムから、第１の演算器を
備えたＣＰＵと回路構成が書き換え可能なプログラマブ
ルデバイスとが混載された半導体集積回路によって実行
されるオブジェクトプログラムと、該プログラマブルデ
バイスの回路構成を決定する回路コードとを生成するコ
ンパイラ装置であって、前記ソースプログラムから少なくとも１つの第１の命令
列を抽出する命令列抽出手段と、前記第１の命令列について、前記第１の演算器によって
実行される場合の第１の処理性能と、前記プログラマブ
ルデバイスに回路構成されたと想定した想定演算器によ
って実行される場合の第２の処理性能との性能差をそれ
ぞれ見積もる処理見積手段と、前記性能差に基づいて、前記第１の命令列の中から、前
記プログラマブルデバイスに回路構成される第２の演算
器によって実行されるべき第２の命令列を選択し、該第
２の演算器の構成を決定する処理決定手段と、前記第２の命令列を複合命令として、該複合命令に前記
第２の演算器用の命令コードを割り当てる命令コード割
当手段と、前記複合命令に割り当てられた命令コードを用いて、前
記オブジェクトプログラムを生成するコンパイル手段
と、前記第２の演算器の前記回路コードを生成する回路コー
ド生成手段とを備えたことを特徴とするコンパイラ装
置。
【請求項２】請求項１記載のコンパイラ装置におい
て、前記命令列抽出手段は、前記第１の命令列の前記ソースプログラムにおける出現
回数をカウントするものであり、前記処理見積手段は、前記第１の処理性能として、前記第１の演算器が前記第
１の命令列を前記出現回数だけ実行する場合の第１の処
理時間を見積もり、前記第２の処理性能として、前記想
定演算器が前記第１の命令列を前記出現回数だけ実行す
る場合の第２の処理時間を見積もり、前記性能差とし
て、該第１の処理時間と該第２の処理時間との差に相当
する短縮時間を見積もるものであることを特徴とするコ
ンパイラ装置。
【請求項３】請求項２記載のコンパイラ装置におい
て、前記処理決定手段は、前記第２の演算器の回路面積が前記プログラマブルデバ
イスの使用可能領域の回路面積以下であり、かつ前記短
縮時間の合計が最大となるように、前記第２の命令列を
選択するものであることを特徴とするコンパイラ装置。
【請求項４】請求項１記載のコンパイラ装置におい
て、前記命令列抽出手段は、前記第１の命令列の前記ソースプログラムにおける出現
回数をカウントするものであり、前記処理見積手段は、前記第１の処理性能として、前記第１の演算器が前記第
１の命令列を前記出現回数だけ実行する場合の第１の消
費電力を見積もり、前記第２の処理性能として、前記想
定演算器が前記第１の命令列を前記出現回数だけ実行す
る場合の第２の消費電力を見積もり、前記性能差とし
て、該第１の消費電力と該第２の消費電力との差に相当
する削減電力を見積もるものであることを特徴とするコ
ンパイラ装置。
【請求項５】請求項４記載のコンパイラ装置におい
て、前記処理決定手段は、前記第２の演算器の回路面積が前記プログラマブルデバ
イスの使用可能領域の回路面積以下であり、かつ前記削
減電力の合計が最大となるように、前記第２の命令列を
選択するものであることを特徴とするコンパイラ装置。
【請求項６】請求項１記載のコンパイラ装置におい
て、前記命令列抽出手段は、前記第１の命令列の前記ソースプログラムにおける出現
回数をカウントするものであり、前記処理見積手段は、前記第１の処理性能として、前記第１の演算器が前記第
１の命令列を前記出現回数だけ実行する場合の第１の処
理時間および第１の消費電力を見積もり、前記第２の処
理性能として、前記想定演算器が前記第１の命令列を前
記出現回数だけ実行する場合の第２の処理時間および第
２の消費電力を見積もり、前記性能差として、該第１の
処理時間と該第２の処理時間との差に相当する短縮時間
および該第１の消費電力と該第２の消費電力との差に相
当する削減電力を見積もるものであり、前記処理決定手段は、前記第２の演算器の回路面積が前記プログラマブルデバ
イスの使用可能領域の回路面積以下であり、かつ前記短
縮時間の合計が所定値以上で前記削減電力の合計が最大
となるように、前記第２の命令列を選択するものである
ことを特徴とするコンパイラ装置。
【請求項７】請求項１記載のコンパイラ装置におい
て、命令列、前記第１の演算器が該命令列を実行する場合の
処理時間、前記想定演算器が該命令列を実行する場合の
処理時間および前記想定演算器が要する回路面積があら
かじめ記載された演算テーブルを用い、前記命令列抽出手段は、前記演算テーブルを参照して、前記第１の命令列を抽出
するものであり、前記処理見積手段は、前記演算テーブルを参照して、前記性能差を見積もるも
のであることを特徴とするコンパイラ装置。
【請求項８】請求項７記載のコンパイラ装置におい
て、前記命令列抽出手段は、前記ソースプログラムから前記演算テーブルに記載外の
命令列をも抽出し、該記載外の命令列について、前記第
１の演算器によって実行される場合の処理時間と、前記
想定演算器によって実行される場合の処理時間と、該想
定演算器が要する回路面積とを見積もり、前記演算テー
ブルに追加するものであることを特徴とするコンパイラ
装置。
【請求項９】請求項１記載のコンパイラ装置におい
て、命令列、前記第１の演算器が該命令列を実行する場合の
消費電力、前記想定演算器が該命令列を実行する場合の
消費電力および前記想定演算器が要する回路面積があら
かじめ記載された演算テーブルを用い、前記命令列抽出手段は、前記演算テーブルを参照して、前記第１の命令列を抽出
するものであり、前記処理見積手段は、前記演算テーブルを参照して、前記性能差を見積もるも
のであることを特徴とするコンパイラ装置。
【請求項１０】請求項９記載のコンパイラ装置におい
て、前記命令列抽出手段は、前記ソースプログラムから前記演算テーブルに記載外の
命令列をも抽出し、該記載外の命令列について、前記第
１の演算器によって実行される場合の消費電力と、前記
想定演算器によって実行される場合の消費電力と、該想
定演算器が要する回路面積とを見積もり、前記演算テー
ブルに追加するものであることを特徴とするコンパイラ
装置。
【請求項１１】ソースプログラムから、第１のレジス
タファイルを備えたＣＰＵと回路構成が書き換え可能な
プログラマブルデバイスとが混載された半導体集積回路
によって実行されるオブジェクトプログラムと、該プロ
グラマブルデバイスの回路構成を決定する回路コードと
を生成するコンパイラ装置であって、前記ソースプログラムの実行に必要な必要レジスタファ
イルの数を見積もるレジスタ処理見積手段と、前記必要レジスタファイルの数および前記第１のレジス
タファイルの数を考慮して、前記プログラマブルデバイ
スに回路構成をすべき第２のレジスタファイルの構成を
決定するとともに、該第２のレジスタファイルに、前記
第１のレジスタファイルに割り当てられる第１のレジス
タファイル名とは別の第２のレジスタファイル名を割り
当てるレジスタ処理決定手段と、前記第２のレジスタファイル名を用いて、前記オブジェ
クトプログラムを生成するコンパイル手段と、前記第２のレジスタファイルの前記回路コードを生成す
る回路コード生成手段とを備えたことを特徴とするコン
パイラ装置。
【請求項１２】請求項１１記載のコンパイラ装置にお
いて、前記レジスタ処理見積手段は、前記必要レジスタファイルの数として、前記ソースプロ
グラムにおける使用頻度が所定値以上である変数の個数
を見積もるものであることを特徴とするコンパイラ装
置。
【請求項１３】請求項１２記載のコンパイラ装置にお
いて、前記レジスタ処理決定手段は、前記必要レジスタファイルのうち前記使用頻度の高いも
のから順に前記第１および第２のレジスタファイルの順
に割り当て、前記第２のレジスタファイルに割り当てら
れるレジスタファイルについては、前記使用頻度の高い
順に前記ＣＰＵに近い位置に配置するようにして、前記
第２のレジスタファイルの構成を決定するものであるこ
とを特徴とするコンパイラ装置。
【請求項１４】請求項１１記載のコンパイラ装置にお
いて、前記レジスタ処理決定手段は、前記必要レジスタファイルの数と前記第１のレジスタフ
ァイルの数との差に相当する数のレジスタファイルが前
記プログラマブルデバイスに回路構成される場合に要す
る第１の回路面積と、前記プログラマブルデバイスの使
用可能領域の第２の回路面積とを比較し、該第１の回路
面積が該第２の回路面積よりも大きい場合、前記レジス
タ見積手段に前記必要レジスタファイルの数を見積もり
直させる一方、該第１の回路面積が該第２の回路面積以
下である場合、前記差に相当する数を前記第２のレジス
タファイルの数として決定するものであることを特徴と
するコンパイラ装置。
【請求項１５】請求項１１記載のコンパイラ装置にお
いて、前記レジスタ処理決定手段は、前記第２のレジスタファイルが回路構成されてもなお前
記プログラマブルデバイスに使用可能な空き領域が存在
すると判断する場合、該空き領域に演算器を回路構成す
ることを決定するものであることを特徴とするコンパイ
ラ装置。
【請求項１６】ソースプログラムから、第１の命令デ
コーダを備えたＣＰＵと回路構成が書き換え可能なプロ
グラマブルデバイスとが混載された半導体集積回路によ
って実行されるオブジェクトプログラムと、該プログラ
マブルデバイスの回路構成を決定する回路コードとを生
成するコンパイラ装置であって、前記ソースプログラムから命令を抽出し、該命令の出現
回数をカウントする命令抽出手段と、前記出現回数および前記ＣＰＵが実行可能な命令の命令
コードから命令リストを作成する命令リスト作成手段
と、前記命令リストを参照して、（Ｌ１×Ｎ１＋Ｌ２×Ｎ
２）＞（Ｌ２×Ｎ１＋Ｌ１×Ｎ２）（ただし、Ｌ１は前
記命令リストにおける第１の命令の命令コード長、Ｎ１
は該第１の命令の前記出現回数、Ｌ２は前記命令リスト
における該第２の命令の命令コード長、Ｎ２は該第２の
命令の前記出現回数である。）となる場合、該第１の命
令に対応する第１の命令コードと該第２の命令に対応す
る第２の命令コードとを交換する命令コード交換手段
と、前記命令コード交換手段によって交換された前記第１お
よび第２の命令コードを用いて、前記オブジェクトプロ
グラムを生成するコンパイル手段と、前記第１の命令デコーダによる前記第１の命令コードの
デコード結果に相当するものを前記第２の命令コードか
ら生成するとともに、前記第１の命令デコーダによる前
記第２の命令コードのデコード結果に相当するものを前
記第１の命令コードから生成する第２の命令デコーダ
が、前記プログラマブルデバイスに回路構成されるよう
に、前記回路コードを生成する回路コード生成手段とを
備えたことを特徴とするコンパイラ装置。
【請求項１７】ソースプログラムから、第１の命令デ
コーダを備えたＣＰＵと回路構成が書き換え可能なプロ
グラマブルデバイスとが混載された半導体集積回路によ
って実行されるオブジェクトプログラムと、該プログラ
マブルデバイスの回路構成を決定する回路コードとを生
成するコンパイラ装置であって、前記ソースプログラムから命令列を抽出する命令列抽出
手段と、前記命令列を複合命令として、該複合命令に、該複合命
令に対応する第１の命令コードの命令コード長よりも短
いコード長の第２の命令コードを割り当てる命令コード
割当手段と、前記第２の命令コードを用いて、前記オブジェクトプロ
グラムを生成するコンパイル手段と、前記第１の命令デコーダによる前記第１の命令コードの
デコード結果に相当するものを前記第２の命令コードか
ら生成する第２の命令デコーダが、前記プログラマブル
デバイスに回路構成されるように、前記回路コードを生
成する回路コード生成手段とを備えたことを特徴とする
コンパイラ装置。
【請求項１８】請求項１７記載のコンパイラ装置であ
って、前記命令列抽出手段は、前記ソースプログラムにおける出現回数が所定値以上
の、一連の命令の組み合わせからなる命令列を抽出する
ものであることを特徴とするコンパイラ装置。
【請求項１９】ソースプログラムから、第１の演算
器、第１のレジスタファイルおよび第１の命令デコーダ
を備えたＣＰＵと回路構成が書き換え可能なプログラマ
ブルデバイスとが混載された半導体集積回路によって実
行されるオブジェクトプログラムと、該プログラマブル
デバイスの回路構成を決定する回路コードとを生成する
コンパイラ装置であって、前記ソースプログラムから少なくとも１つの第１の命令
列を抽出する第１の命令列抽出手段と、前記第１の命令列について、前記第１の演算器によって
実行される場合の処理性能と、前記プログラマブルデバ
イスに回路構成をされたと想定した想定演算器によって
実行される場合の処理性能との性能差をそれぞれ見積も
る処理見積手段と、前記性能差に基づいて、前記第１の命令列の中から、前
記プログラマブルデバイスに回路構成される第２の演算
器によって実行されるべき第２の命令列を選択し、該第
２の演算器の構成を決定する処理決定手段と、前記第２の命令列を複合命令として、該複合命令に前記
第２の演算器用の第１の命令コードを割り当てる第１の
命令コード割当手段と、前記ソースプログラムの実行に必要な必要レジスタファ
イルの数を見積もるレジスタ処理見積手段と、前記必要レジスタファイルの数、前記第１のレジスタフ
ァイルの数および前記プログラマブルデバイスの使用可
能領域の回路面積を考慮して、前記プログラマブルデバ
イスに回路構成をすべき第２のレジスタファイルの数を
最適化するレジスタ数最適化手段と、前記第２のレジスタファイルに、前記第１のレジスタフ
ァイルに割り当てられる第１のレジスタファイル名とは
別の第２のレジスタファイル名を割り当てるレジスタ処
理決定手段と、前記第１の命令コードおよび前記第２のレジスタファイ
ル名を用いて、オブジェクトプログラムを仮生成する第
１のコンパイル手段と、前記第１のコンパイル手段によって仮生成されたオブジ
ェクトプログラムから第２の命令列を抽出し、該第２の
命令列の出現回数をカウントする第２の命令列抽出手段
と、前記出現回数が所定値以上の前記第２の命令列を複合命
令として、該複合命令に、該複合命令に対応する第２の
命令コードの命令コード長よりも短いコード長の第３の
命令コードを割り当てる第２の命令コード割当手段と、前記第１および第３の命令コードならびに前記第２のレ
ジスタファイル名を用いて、前記オブジェクトプログラ
ムを生成する第２のコンパイル手段と、前記第２の演算器の前記回路コードおよび前記第２のレ
ジスタファイルの前記回路コードを生成するとともに、
前記第１の命令デコーダによる前記第２の命令コードの
デコード結果に相当するものを前記第３の命令コードか
ら生成する第２の命令デコーダが、前記プログラマブル
デバイスに回路構成されるように、前記回路コードを生
成する回路コード生成手段とを備えたことを特徴とする
コンパイラ装置。
【請求項２０】レジスタファイルおよび命令デコーダ
を備えたＣＰＵと、回路構成が書き換え可能なプログラ
マブルデバイスとが混載された半導体集積回路であっ
て、前記レジスタファイルに保持されたデータを、前記プロ
グラマブルデバイスに転送する第１のデータ転送機構
と、前記命令デコーダの出力を、前記プログラマブルデバイ
スに転送する第２のデータ転送機構とを備えたことを特
徴とする半導体集積回路。
【請求項２１】請求項２０記載の半導体集積回路にお
いて、前記プログラマブルデバイスは、演算器が回路構成されたものであり、当該半導体集積回路は、前記演算器の出力を、前記レジスタファイルに転送する
第３のデータ転送機構を備え、前記第１のデータ転送機構は、前記レジスタファイルに保持されたデータを、前記演算
器に転送するものであり、前記第２のデータ転送機構は、前記命令デコーダの出力を、前記演算器に転送するもの
であることを特徴とする半導体集積回路。
【請求項２２】請求項２０記載の半導体集積回路にお
いて、メモリと、前記メモリと前記プログラマブルデバイスとの間でデー
タ転送を行う第３のデータ転送機構とを備えたことを特
徴とする半導体集積回路。
【請求項２３】演算器および命令デコーダを備えたＣ
ＰＵと、回路構成が書き換え可能なプログラマブルデバ
イスとが混載された半導体集積回路であって、前記演算器および命令デコーダの出力を、前記プログラ
マブルデバイスに転送する第１のデータ転送機構を備え
たことを特徴とする半導体集積回路。
【請求項２４】請求項２３記載の半導体集積回路にお
いて、前記プログラマブルデバイスは、レジスタファイルが回路構成されたものであり、当該半導体集積回路は、前記レジスタファイルに保持されたデータを、前記演算
器に転送する第２のデータ転送機構を備え、前記第１のデータ転送機構は、前記演算器および命令デコーダの出力を、前記レジスタ
ファイルに転送するものであることを特徴とする半導体
集積回路。
【請求項２５】第１の命令デコーダを備えたＣＰＵ
と、回路構成が書き換え可能なプログラマブルデバイス
とが混載された半導体集積回路であって、前記第１の命令デコーダが入力するデータを、前記プロ
グラマブルデバイスに転送する第１のデータ転送機構を
備えたことを特徴とする半導体集積回路。
【請求項２６】請求項２５記載の半導体集積回路にお
いて、前記プログラマブルデバイスは、第２の命令デコーダが回路構成されたものであり、当該半導体集積回路は、前記第２の命令デコーダの出力を、前記ＣＰＵに転送す
る第２のデータ転送機構を備え、前記第１のデータ転送機構は、前記第１の命令デコーダが入力するデータを、前記第２
の命令デコーダに転送するものであることを特徴とする
半導体集積回路。
【請求項２７】請求項２６記載の半導体集積回路にお
いて、前記ＣＰＵは、前記第１の命令デコーダの出力、および前記第２のデー
タ転送機構によって転送された前記第２の命令デコーダ
の出力のいずれか一方を選択し、当該ＣＰＵが有する演
算器およびレジスタファイルに出力する選択回路を備え
たものであることを特徴とする半導体集積回路。
【請求項２８】第１の演算器、第１のレジスタファイ
ルおよび命令デコーダを備えたＣＰＵと、回路構成が書
き換え可能なプログラマブルデバイスとが混載された半
導体集積回路であって、前記プログラマブルデバイスは、第２の演算器と、第２のレジスタファイルとが回路構成
されたものであり、当該半導体集積回路は、前記第１のレジスタファイルに保持されたデータを、前
記第２の演算器に転送する第１のデータ転送機構と、前記命令デコーダの出力を、前記第２の演算器に転送す
る第２のデータ転送機構と、前記第２の演算器の出力を、前記第１のレジスタファイ
ルに転送する第３のデータ転送機構と、前記第１の演算器および命令デコーダの出力を、前記第
２のレジスタファイルに転送する第４のデータ転送機構
と、前記第２のレジスタファイルに保持されたデータを、前
記第１の演算器に転送する第５のデータ転送機構と、前記第２のレジスタファイルに保持されたデータを、前
記第２の演算器に転送する第６のデータ転送機構と、前記第２の演算器の出力を、前記第２のレジスタファイ
ルに転送する第７のデータ転送機構とを備えたことを特
徴とする半導体集積回路。
【請求項２９】第１の演算器、レジスタファイルおよ
び第１の命令デコーダを備えたＣＰＵと、回路構成が書
き換え可能なプログラマブルデバイスとが混載された半
導体集積回路であって、前記ＣＰＵは、前記第１の命令デコーダの出力および前記第２の命令デ
コーダの出力のいずれか一方を選択し、前記第１の演算
器およびレジスタファイルに出力する選択回路を備えた
ものであり、前記プログラマブルデバイスは、第２の演算器と、第２の命令デコーダとが回路構成され
たものであり、当該半導体集積回路は、前記レジスタファイルに保持されたデータを、前記第２
の演算器に転送する第１のデータ転送機構と、前記第１の命令デコーダの出力を、前記第２の演算器に
転送する第２のデータ転送機構と、前記第２の演算器の出力を、前記レジスタファイルに転
送する第３のデータ転送機構と、前記第１の命令デコーダが入力するデータを、前記第２
の命令デコーダに転送する第４のデータ転送機構と、前記第２の命令デコーダの出力を、前記選択回路に転送
する第５のデータ転送機構とを備えたことを特徴とする
半導体集積回路。
【請求項３０】演算器、第１のレジスタファイルおよ
び第１の命令デコーダを備えたＣＰＵと、回路構成が書
き換え可能なプログラマブルデバイスとが混載された半
導体集積回路であって、前記ＣＰＵは、前記第１の命令デコーダの出力および前記第２の命令デ
コーダの出力のいずれか一方を選択し、前記演算器およ
び第１のレジスタファイルに出力する選択回路を備えた
ものであり、前記プログラマブルデバイスは、第２のレジスタファイルと、第２の命令デコーダとが回
路構成されたものであり、当該半導体集積回路は、前記演算器および第１の命令デコーダの出力を、前記第
２のレジスタファイルに転送する第１のデータ転送機構
と、前記第２のレジスタファイルに保持されたデータを、前
記演算器に転送する第２のデータ転送機構と、前記第１の命令デコーダが入力するデータを、前記第２
の命令デコーダに転送する第３のデータ転送機構と、前記第２の命令デコーダの出力を、前記選択回路に転送
する第４のデータ転送機構と、前記第２の命令デコーダの出力を、前記第２のレジスタ
ファイルに転送する第５のデータ転送機構とを備えたこ
とを特徴とする半導体集積回路。