JP2002537599A

JP2002537599A - 構成可能な機能ユニットを備えるデータプロセッサ及びそのようなデータプロセッサを使用する方法

Info

Publication number: JP2002537599A
Application number: JP2000600174A
Authority: JP
Inventors: オリベイラカストルプペレイラベルナルドデ; アドリアヌスジェイビンク; ジャンフーゲルブルージュ
Original assignee: Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1999-02-15
Filing date: 2000-01-26
Publication date: 2002-11-05
Anticipated expiration: 2020-01-26
Also published as: KR100731371B1; KR20010042690A; WO2000049496A1; JP5148029B2; US6721884B1; EP1073951A1

Abstract

(57)【要約】プロセッサが、再構成可能な命令を処理することが可能で、その効果が実行時に構成プログラムをロードすることにより再定義することができるような構成可能な機能ユニットを含む。再構成可能な命令は、２以上の再構成可能な命令の組み合わせとして選択される。各命令の組み合わせに対して、各々の構成プログラムが発生される。実行中に上記組み合わせのうちの１つからの命令が必要とされ、上記の構成可能な機能ユニットが該組み合わせ用の構成プログラムで構成されていない都度に、該組み合わせの全ての命令用の構成プログラムが当該構成可能な機能ユニットにロードされる。上記再構成可能な命令は、当該組み合わせのうちのどの命令が実行されるかを選択する。

Description

【発明の詳細な説明】

【０００１】

【技術分野】

本発明は、その効果を実行時に再定義することが可能な、再構成可能な命令（
reconfigurable instructions）を実行することができる構成可能な（configura
ble）機能ユニットを含むプロセッサを用いてコンピュータプログラムを実行す
る方法に関する。また、本発明は斯様な方法を使用するデータプロセッサにも関
する。

【０００２】

【背景技術】

構成可能な機能ユニットを含むプロセッサを用いてコンピュータプログラムを
実行する方法は、John Schewelにより編集された１９９５年の“会議録、高速回
路基板開発及び再構成可能なコンピューティング用のＦＰＧＡ”（ＳＰＩＥ2607
会議録）の第９２〜１０３頁に公開されたMichael J. Wirthlin及びBrad L. Hut
chingsによる“ＤＩＳＣ：ダイナミック命令セットコンピュータ”なる題名の文
献から既知である。

【０００３】この文献は、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）を含む機能
ユニットを備えるようなデータプロセッサを記載している。ＦＰＧＡは、出力信
号を入力信号の関数として生成するような回路である。ＦＰＧＡは、構成可能な
回路素子の行及び列のマトリクスからなる。入力と出力との関係は、該ＦＰＧＡ
の異なる回路素子間の接続及びこれら回路素子の機能を制御するメモリセルに情
報をロードすることにより構成（configure）することができる。

【０００４】構成プログラム（configuration program）の使用は、マイクロプログラムか
らは区別されるべきである。周知のように、マイクロプログラムは、機能回路を
制御するために使用される個々の制御信号を規定する。異なる制御信号が、マイ
クロコードの実行の異なる段階に対して、且つ、異なる命令に対して規定される
。対照的に、構成プログラムのビットを記憶する該当メモリセルは、入出力関係
に対して不変的制御を有する。即ち、これらメモリセルは、実行されている命令
及び如何なる実行段階とも無関係に回路素子を不変的に制御する。通常、制御さ
れる入出力関係は、時間的に連続した回路特性である。

【０００５】構成プログラムは、異なる構成可能な命令を実行するために導出される。Whir
thlin他による上記文献によれば、ＦＰＧＡマトリクスは回路素子の行の多数の
バンド（bands）に分割される。各構成プログラムは、１以下のバンドしか占め
ることはなく、如何なるバンドにも配置することができる。実行時において、或
る構成可能な命令に遭遇した場合は、この命令用の構成プログラムが上記バンド
のうちの何れかに既にロードされているかが判断される。もしそうなら、この命
令は該構成プログラムを使用して実行される。もしそうでない場合は、上記命令
用の構成プログラムがロードされ、次いで、この構成プログラムを使用して該命
令が実行される。

【０００６】同時には、限られた数の構成プログラムしかロードすることができない。新た
な構成プログラムをロードする余裕がない場合は、他の構成可能な命令用の構成
プログラムが当該バンドから削除され、該新たな構成プログラム用の余裕を作る
。

【０００７】構成プログラムがロードされる毎に、かなりのオーバーヘッドが存在する。前
記文献によれば、このオーバーヘッドは、ロードされている構成プログラムを、
他の構成プログラムをロードするために削除するまで、可能な限り長く維持する
ことにより最小化される。このようにして、構成プログラムの一種のキャッシュ
が実現され、これが、構成プログラムが繰り返し使用される場合はオーバーヘッ
ドを最小化する。しかしながら、依然として、構成プログラムをロードするため
のかなりのオーバーヘッドが存在する。

【０００８】

【発明の開示】

本発明の一つの目的は、なかでも、構成プログラムをロードするために必要と
されるオーバーヘッドを低減することにある。本発明の他の目的は、一緒にロー
ドされた状態に維持することができる構成プログラムの数を増加させ、これによ
り構成プログラムが少ない回数しかロードする必要がないようにすることにある
。また、本発明の他の目的は、コンピュータプログラム用に必要とされる全ての
構成プログラムを記憶するのに要するメモリの量を低減することにある。

【０００９】本発明によるコンピュータプログラムを実行する方法の一実施例が請求項１に
記載されている。この実施例によれば、構成可能な命令の組み合わせが定義され
、個別にではなく、組み合わせとしてロードされる。当該プログラムを実行する
前に、各々が少なくとも２つの構成可能な命令からなる１以上の組み合わせが選
択される。典型的には、各組み合わせは、当該コンピュータプログラムの１以上
の連続した命令の領域に関連付けられる。当該プログラムの該特定の領域が実行
される場合、該領域に関連する組み合わせの全ての構成可能な命令用の構成プロ
グラムがロードされる。

【００１０】上記命令の組み合わせ及びそれらに関連する領域は、当該プログラムを実行す
る前に、構成プログラムをロードするためのオーバーヘッドが最小となるように
、即ち、当該組み合わせのために選択される構成可能な命令が該組み合わせに属
さない他の構成可能な命令により中断されることなく連続的に発生するように（
もし、これらの他の構成可能な命令が他の組み合わせをロードする必要性を生じ
るであろうようなら）、選択することができる。このように、オーバーヘッドを
最小化するためになされる作業は、実行時というよりはコンパイル時になされる
。

【００１１】更に、多くのコンピュータプログラムに関して、命令サイクルカウントは、オ
ペランドにおける同一位置からのビットの使用又は類似しているが僅かに異なる
論理関数の計算のような強い類似性を持つ命令の組み合わせを用いて最小化する
ことができる。これらの命令は、当該組み合わせにおける全ての命令により共通
に使用されるハードウェア資源と、個々の命令（又は、これら命令の部分集合）
に特有の幾つかのハードウェア資源とをプラスしたものを用いて実現することが
できる。このように、上記組み合わせにおいてロードすることができる命令の数
が増加される。

【００１２】本発明による方法の他の実施例によれば、上記命令の組み合わせ用の構成プロ
グラムは、該プログラムが再構成可能な機能ユニットにおける上記組み合わせ内
の異なる命令の再構成可能なハードウェア資源の使用を相互最小化（cross-mini
mize）するように選択される。幾つかの機能に対する資源使用の相互最小化とは
、資源使用が各機能に関して独立に最小化されるのではなく、全ての機能を実行
する全ての構成プログラムの設計空間において極小が追求されることを意味する
。上記組み合わせにおける異なる命令の間の相互最小化の結果として、資源使用
が各命令個別に対して最小化された場合に上記組み合わせに対して必要とされた
であろうよりも、少ないハードウェア資源しか必要とされない。

【００１３】構成可能な機能ユニットにおけるハードウェア資源の例は、回路素子及びプロ
グラム可能な接続部である。典型的な構成可能な機能ユニットは、オン又はオフ
となるように構成することができると共に回路素子を互いに、他の回路型式の回
路素子に又は当該機能ユニットの入力端子若しくは出力端子に接続するような接
続部を備える多数の同一の回路素子を含んでいる。典型的には、限られた数の斯
様な接続部のみを構成することが可能である。例えば、幾つかの回路素子のみが
、直接に入力端子若しくは出力端子、又は所与の他の回路素子に接続することが
できる。

【００１４】構成プログラムが異なる命令に対して独立に選択されるとすると、或る組み合
わせにおける或る命令用の各構成プログラムは、それらハードウェア資源がたと
え実際に使用されないであろう場合でも、該組み合わせ内の他の命令用の他の構
成プログラムにより使用するために、これらハードウェア資源を空き状態にして
おかなければならない。相互最小化により、１つの命令用の構成プログラムは、
他の命令のために使用されない如何なるハードウェアも使用することができる。

【００１５】更に悪いことに、当該組み合わせにおける他の命令を考慮しない、或る命令用
の構成プログラムに使用するための回路素子の選択は、この選択が当該接続部を
入力端子又は出力端子に固定するような場合、追加の資源使用の原因となる。こ
れは、他の命令用の入力端子／出力端子接続部を最適に選択することによるハー
ドウェア資源使用を最小化する可能性を取り除くことになる。

【００１６】同一の組み合わせにおける異なる命令のハードウェア資源の使用を相互最小化
することにより、斯様なハードウェア資源の浪費を防止することができる。更に
、異なる命令の間で、共通のハードウェア資源を共用することが可能になる。ハ
ードウェア使用を相互最小化することにより、共通のハードウェア資源が当該命
令の組み合わせに対して２回以上割り付けられねばならないということが防止さ
れる。

【００１７】本発明による方法の他の実施例によれば、当該組み合わせ内の異なる命令を選
択するための、及び上記異なる命令によるオペランドデータを処理するためのハ
ードウェア資源使用が、相互最小化される。通常、命令選択は、演算コードのオ
ペランドデータ処理回路を可能化する信号への解読を含んでいる。該実施例にお
いては、命令及びオペランドデータ処理用の構成プログラムのハードウェア資源
使用が互いに独立に最小化された場合よりも、少ない数のハードウェア資源しか
命令選択及びオペランドデータ処理用として必要とされない。

【００１８】好ましくは、当該プロセッサはパイルライン化される。このことは、命令処理
が、命令解読とオペランドフェッチとをプラスした段階、命令実行段階及び結果
の書き戻し段階等の順次の段階に分割されることを意味する。パイプライン化さ
れたプロセッサにおいては、順次の命令の命令処理の異なる段階が互いに並列に
実行される。命令処理の構成可能な部分は、上記実行段階で生じる。本発明の一
実施例によれば、オペランドデータ処理と、異なる命令の間を区別する命令選択
ビットの使用との両方が、該構成可能な命令の処理の実行段階で生じる。

【００１９】本発明による方法の他の実施例によれば、上記の再構成可能な機能ユニットは
再構成可能な交点スイッチ（cross-point switch）を、オペランドデータ用の入
力端子と、該交点スイッチの各出力端子を異なる論理合成回路へ接続する接続ラ
インとの間に含む。

【００２０】本発明の、これら及び他の特徴は添付図面を参照して説明されるであろう。

【００２１】

【発明を実施するための最良の形態】

図１は、構成可能な命令をサポートするプロセッサのアーキテクチャを示して
いる。本発明に影響を与えない該プロセッサアーキテクチャの種々の特徴は、明
瞭化のために図１から削除されていることに注意されたい。例示として、パイプ
ライン化されたＲＩＳＣアーキテクチャが考察されるが、本発明は斯様なアーキ
テクチャに限定されるものではない。例えば、代わりにＣＩＳＣアーキテクチャ
又はＤＳＰアーキテクチャを使用することもできる。該実施例は、異なるパイプ
ライン段を分離する３つのレジスタ１０、１４及び１９を備えるパイプライン化
されたプロセッサを示している。命令レジスタ１０は、当該パイプラインの源に
位置する。この命令レジスタ１０のオペランド参照フィールド出力端子は、レジ
スタファイル１２の入力端子に接続されている（例として、これらのフィールド
は５ビット幅とする）。このレジスタファイル１２の出力端子（例えば、ビット
幅ｗ＝３２）は、上記命令レジスタ１０の他の出力端子と共に、実行段レジスタ
１４に結合されている。上記他の出力端子は、結果アドレス出力端子（例として
、５ビット幅）及び構成可能な命令の選択コード用出力端子（例として、１１ビ
ット幅）を含んでいる。

【００２２】レジスタファイル１２からのデータを通過させる実行段レジスタ１４の出力端
子は、ＡＬＵ機能ユニット１６と構成可能な機能ユニット１８とに並列に結合さ
れている。ＡＬＵ機能ユニット１６はＡＬＵ160を含み、該ＡＬＵの入力端子は
マルチプレクサ162及び164に各々結合されている。各マルチプレクサ162、164は
実行段レジスタ１４の出力端子に接続されている。マルチプレクサ162及び164は
、プログラムカウンタ値及び上記命令レジスタからの中間値を各々入力する入力
端子を更に有している（これらの入力端子用の接続は図示されていない）。

【００２３】上記実行段レジスタ１４の他の出力端子は前記の構成可能な命令の選択コード
を構成可能な機能ユニット１８に受け渡し、結果アドレスは書き戻し段レジスタ
１９に渡される。ＡＬＵ機能ユニット１６及び構成可能な機能ユニット１８の出
力端子は、書き戻し段レジスタ１９に接続されている。上記実行段レジスタはレ
ジスタファイル１２に対し、ＡＬＵ機能ユニット１６又は構成可能な機能ユニッ
ト１８の結果をレジスタファイル１２における結果オペランドアドレスにより示
されるロケーションに書き込むための接続部（図示略）を有している。

【００２４】他の機能ユニット（例えば、メモリアクセスユニット）、制御ライン、分岐回
路、命令解読回路及びレジスタ１４、１９等に対する入力を選択するためのマル
チプレクサのような種々の回路は、明瞭化のために図１から削除されている。

【００２５】動作時に、図１のアーキテクチャは、パイプライン化された実行機構を達成す
る。順次の命令は、順次のクロックサイクルにおいて命令レジスタ１０にロード
される。或る命令がロードされた後のクロックサイクルにおいて、そのオペラン
ド参照が、レジスタファイル１２からオペランドをロードするために使用される
。このクロックサイクルは、例えば機能ユニット１６、１８（又は図示せぬ他の
もの）の何れが当該命令を実行するかの選択のような、命令解読を含むことがで
きる。このサイクルの終了時に、オペランド、結果オペランドアドレス及び構成
可能な命令の選択コードが、実行に要する全ての他のデータ（図示略）と共に、
実行段レジスタ１４にロードされる。次のクロックサイクルにおいては、この情
報は機能ユニット１６、１８（及び／又は図示せぬ他の機能ユニット）に渡され
、結果を得るために処理される。このクロックサイクルの終了時に、選択された
機能ユニット１６、１８からの結果及び結果オペランドアドレスが、書き戻し段
レジスタ１９にロードされる。この次のサイクルの後のクロックサイクルにおい
て、上記結果がレジスタファイル１２に書き戻される。

【００２６】当該命令の演算コードフィールドが構成可能な命令を選択した場合は、構成可
能な機能実行ユニット１８が該命令を実行して結果を生成するために選択される
。この場合、当該命令における構成可能な命令の選択コードは、どの特定の構成
可能な命令が実行されるかを決定するために使用される。

【００２７】勿論、本発明から逸脱することなく、各々が異なる命令の組み合わせを用いて
構成された２以上の構成可能な機能ユニットを並列に設け、所要の構成プログラ
ムの交換のためのオーバーヘッドなしで、２以上の組み合わせを同時に利用可能
にすることもできる。

【００２８】図２は、構成可能な機能ユニットの一実施例を示している。これは、基本的に
それ自体既知のＣＰＬＤ（複合プログラマブル論理装置）コアである。該構成可
能な機能ユニットは、前記オペランドの各々のｗビット及び上記構成可能な命令
の選択コードのＮビット（例として、Ｎ＝４）を入力するための入力ポート２０
a、２０b及び２２を有している。これら入力ポートは交点スイッチ２４の入力端
子に接続されている。この交点スイッチ２４は多数の出力端子を有している。該
交点スイッチ２４は、その２＊ｗ＋Ｎ個の入力端子の各々が、当該構成可能な機
能ユニットにロードされる構成プログラムの制御の下で上記出力端子のうちの何
れかに接続することができるように設計されている。

【００２９】交点スイッチ２４の出力端子は論理ブロック２６a及び２６bの各々に接続され
ている。これら論理ブロック２６a及び２６bの出力端子は、当該構成可能な機能
ユニットの出力ポート２８に結合されている。例示として、各々が３６個の入力
端子とｗ／２（例えば、１６）個の出力端子を備える２つの論理ブロック２６a
及び２６bが示されている。２つの論理ブロック２６a、２６bのｗ／２ビットの
出力は一緒にｗビットの結果出力を形成する。

【００３０】該構成可能な機能ユニットは、再構成制御回路２３を含んでいる。この再構成
制御回路２３は、前記構成可能な命令の選択コードのうちの交点スイッチ２４に
供給されなかったビットを入力する入力端子を含んでいる。該再構成制御回路２
３は、交点スイッチ２４及び論理ブロック２６a、２６bに接続された出力端子を
有している。

【００３１】動作時において、制御回路２３は、上記命令選択コードの入力されたビットを
、当該構成可能な機能ユニットが現在実行するようにプログラムされている再構
成可能な命令の組み合わせの対応するビットと比較する。好ましくは、上記命令
選択コードのビットの部分集合が当該組み合わせを示すために使用され、残りの
ビットが該組み合わせ内の構成可能な命令を示すようにする。上記選択コードが
、異なる組み合わせからの命令が実行されるべきであることを示している場合は
、上記再構成制御回路２３は、メモリ（図示略）から該新たな組み合わせの全命
令用の構成プログラムをロードし、交点スイッチ２４及び論理ブロック２６a、
２６bを該新たな組み合わせが要するように再プログラムする。その後、該新た
な組み合わせからの命令は実行することができる。

【００３２】新たな組み合わせが一旦ロードされるか、又は既にロードされていた組み合わ
せからの命令が選択されると、該構成可能な機能ユニットは該命令を処理する。
この場合、前記交点スイッチに供給されるＮ個の命令ビットが、どの命令（当該
構成可能な機能ユニットにロードされた命令の組み合わせからの）に従いオペラ
ンドが処理されるかを決定する。

【００３３】構成プログラムのロードの最も容易な実施は、該構成プログラムがロードされ
るまで当該プロセッサによる更なる命令の実行を停止（stall）させることであ
る。しかしながら、もっと少ない命令サイクルオーバーヘッドしか要さない他の
構成を使用することもできる。例えば、当該構成プログラムのロードを起動する
ために、先駆（precursor）命令を使用することもできる。該先駆命令は、上記
組み合わせからの構成可能な命令が使用されるであろうことを示す。該先駆命令
自体は構成プログラムを必要としないが、指示された構成プログラムのロードを
起動する。

【００３４】他の例では、当該プロセッサは通常の（例えば、ＡＬＵ）命令のサブルーチン
に跳び、構成プログラムがロードされなければならない又はロードされつつある
場合は、これら命令が上記構成可能な命令を実行する。これは、アドレス指定さ
れたオペランドレジスタの内容をサブルーチン呼び出しスタックに配置し、該サ
ブルーチンを呼び出し、該サブルーチンからの帰還後に上記の構成可能な命令の
アドレス指定された結果レジスタに上記呼び出しスタックからの結果を戻すこと
により達成することができる。

【００３５】図３は、図２の構成可能な機能ユニットに使用する論理ブロックの一例の実施
例を示している（それ自体は、ＣＰＬＤから既知である）。この論理ブロックは
ＰＡＬアレイ３０とＰＬＡアレイ３２とを含み、両者は前記交点スイッチ２４の
全出力端子に結合されている。アレイ３０及び３２の出力端子には、アンドゲー
ト３４a〜３４b及び３５a〜３５cが記号的に図示されている。例示として、ＰＡ
Ｌアレイ３０に対しては６４個のアンドゲート３４a〜３４bが存在し、ＰＬＡア
レイ３２に対しては３２個のアンドゲート３５a〜３５cが存在する。

【００３６】アレイ３０、３２は列導体及び行導体（図示略）から構成され、各列は交点ス
イッチ２４の各出力端子に対応し（好ましくは、各列は各信号と、それらの否定
の両者に対して存在するようにする）、各行は当該論理ブロックのアンドゲート
３４a〜３４b及び３５a〜３５cに対応している。行と列との交点には、トランジ
スタとメモリセルとが存在する（図示略）。メモリセルはトランジスタが駆動さ
れるか否かを制御する。トランジスタは、駆動されると、アンドゲート３４a〜
３４b及び３５a〜３５bの入力を形成し、これらアンドゲート３４a〜３４b及び
３５a〜２５cは、それらのトランジスタが駆動された列導体の論理レベルのアン
ドを出力する。

【００３７】上記ＰＬＡアレイのアンドゲート３５a〜３５cの出力端子は、マトリクス３３
の行導体に接続されている。このマトリクスの列導体はオアゲート３６a〜３６c
に接続されるように図示されている。行及びの交点には、トランジスタとメモリ
セル（図示略）が存在する。メモリセルはトランジスタが駆動されるか否かを制
御する。トランジスタは、駆動されると、オアゲート３６a〜３６cの入力を形成
し、これらオアゲート３６a〜３６cは、それらのトランジスタが駆動された行導
体の論理レベルのオアを出力する。

【００３８】ＰＡＬアレイ３０の出力端子は、４つの群毎に、更なるオアゲート３８a〜３
８bに接続されている。各オアゲート３６a〜３６cは、上記更なるオアゲート３
８a〜３８bの各々の入力端子に結合された出力端子を有している。例示として、
１６個のオアゲート３６a〜３６cと、１６個の更なるオアゲート３８a〜３８bが
存在する。更なるオアゲート３８a〜３８bの各々は、プログラム可能なインバー
タ／非インバータ３９a〜３９bを介して当該論理ブロックの出力ビットラインに
接続されている。各インバータ／非インバータ３９a〜３９bに対してメモリセル
（図示略）が設けられ、これらメモリセルの内容が、これらインバータ／非イン
バータ３９a〜３９bが反転するか否かを制御する。

【００３９】上記論理ブロックの論理機能は、ＰＡＬマトリクス３０、ＰＬＡマトリクス３
２、マトリクス３３及びインバータ／非インバータ３９a〜３９b内の各交点にお
けるトランジスタの駆動を制御するメモリセルに、構成プログラムのビットをロ
ードすることによりプログラムすることができる。

【００４０】命令選択コードのＮビットは、前記交点スイッチ２４に供給される。これらＮ
ビットは、前記オペランドのビットと同様の方法で供給される。当該構成可能な
機能ユニットの構成プログラムは、これらＮビットをオペランドビットの何れか
のように扱う自由度を有している。上記Ｎビットが命令の特定の１つを検出する
ために最初に合成され、データがどの様に処理されるかを制御するために該検出
結果が使用される必要はない。反対に、上記Ｎビットの個々のビットは、当該Ｎ
ビットの他のビットとは独立に、オペランドビットと共に論理機能に引数として
参加することができる。

【００４１】図５は、命令の或る組み合わせからの命令を実行するようにプログラムされた
場合の、上記機能ユニットのハードウェア機能記述のモデルを示している。この
記述に示される構造は機能的のみのものであって、物理的なものではないことに
注意されたい。異なる機能ブロックへの分割は、当該構成可能な機能ユニットに
おいて実施化される回路の構造の如何なる分割にも対応する必要はなく、異なる
ブロックが当該構成可能な機能ユニットにおける同一の物理的回路素子を共用す
ることもできる。

【００４２】該モデルは、２つのソースオペランド用の入力部５０ａ及び５０ｂと、構成可
能な命令の各々を実行するための多数のブロック５２ａ〜５２ｃと、これら命令
の結果用のポート５４ａ〜５４ｃと、上記結果の１つを出力部５８に通過させる
マルチプレクサ５６とを示している。マルチプレクサ５６は、前記命令選択コー
ドのＮビットにより制御される。

【００４３】このモデルは、その機能を果たすためになされなければならない接続のリスト
に変換される。この変換の間に、図５の種々のブロックの間で資源使用が相互最
小化される。即ち、マルチプレクサ５６の機能はブロック５２ａ〜５２ｃのもの
と（部分的に）併合することができ、これらブロック５２ａ〜５２ｃの機能は互
いに併合することができる。

【００４４】構成可能な命令及び一緒にロードされる命令の組み合わせは、好ましくは、当
該プロセッサ上で走る特定の各プログラムに対して独立に選択されるものとする
。以下においては、これらの命令及び組み合わせは、各々、“カスタム命令”及
び“クラスタ”とも呼ぶ。カスタム命令及びクラスタの選択は、好ましくは、コ
ンピュータプログラムのコンパイルを用いて、即ち上記プロセッサが該コンピュ
ータプログラムを実行する前に、なされる。

【００４５】図４はコンパイルされたプログラムを発生するためのフローチャートを示して
いる。図４のフローチャートは以下のステップを実行する。４１：ソースコード（典型的には、Ｃで書かれる）がコンパイラ前置部により処
理され、データフローグラフとして表された中間コードを発生する。４２：上記中間コードはクラスタ検出／選択モジュールにより読み取られ、該モ
ジュールはハードウェア合成に潜在的に適したデータフローセグメント（候補）
を探す。各“候補”はカスタム命令を定義する。好ましくは、当該アプリケーシ
ョンの臨界的経路内で純粋に算術的又は論理的演算からなるセグメントのみが考
慮されるものとする。上記検索を案内するためにプロファイルデータが使用され
る。候補は、或る評価規準に従いカスタム命令のクラスタにグループ化される（
以下の説明を参照）。４３：上記クラスタはトランスレータにより処理され、該トランスレータはデー
タフローセグメントの算術演算をＨＤＬ（標準ハードウェア定義言語）でのハー
ドウェア記述に変換する。異なるカスタム命令が独立に実行することができるよ
うに、このハードウェア記述には解読ロジックが付加される。図５は、この段階
で生成された回路記述のモデルの一例を示している。４４：結果としての回路記述はハードウェア合成ツールにより処理され、そこで
は、タイミング及び適合性レポート（所要の処理時間量及びハードウェアを記述
している）が、回路ネットリストと共に発生される。この段階で、当該回路記述
内のマルチプレクサの機能を、図５の機能ブロックの資源使用とで相互最小化す
ることができる。この資源の相互最小化それ自体は、通常、機能を備えるプログ
ラマブルロジックをプログラムするためとして既知である。４５：タイミング及び適合性情報は前記クラスタ検出／選択モジュールに送り返
され、そこでは、クラスタが再配置若しくは廃棄されるか、又は新たなクラスタ
が形成される。該サイクルは最終的なクラスタの集合が選択されるまで繰り返さ
れる。４６：最終的なクラスタの集合が選択されたら、該最終的に選択されたクラスタ
で構成された中間コードのデータフローセグメントは、それらの等価なカスタム
命令ラベルにより置換される。４７：次いで、結果としてのコードは後置部により後処理（レジスタの割り付け
、アセンブリコードの出力、命令のスケジューリング及び／又は当てはまる何ら
かの他の後処理のために）される。４８：結果としてのアセンブリは、新たに合成されたカスタム命令ラベルを認識
する修正されたアセンブラに送られる。前記ハードウェア合成ツールにより発生
されたネットリストは、該アセンブリと組み合わされて、最終的な実行可能なも
のを生成する。

【００４６】上記のハードウェア合成ステップは、人のプログラマからは完全に隠すことが
できる。他の例として、好ましくは上述した指針を用いて前記候補及び／又はク
ラスタを選択する人のプログラマを必要とするかもしれない。

【００４７】プログラムのデータフローグラフから候補の構成可能な命令を選択すること自
体は既知である。基本的に、これは、上記プログラムのデータフローグラフから
サブグラフを選択することを含み、その場合、これらサブグラフは２以下の変数
オペランド入力しか有さない。（これは、上記の構成可能な機能ユニットが２つ
のオペランド入力を有する場合である。該構成可能な機能ユニットが小さな数の
又は大きな数のオペランド入力を有している場合は、対応して大きな又は小さな
入力を有するサブグラフを選択することができる。）

【００４８】好ましくは、候補は、当該プログラムにおける上記候補が発生する連続した命
令の領域に基づいてクラスタにグループ化されるようにする。或る領域に対して
は、同時にロードすることが可能な構成プログラムの数よりも多くのクラスタが
定義されるべきではない（例えば、１つのみの構成可能な機能ユニットしか存在
せず、該ユニットが一度に１つのみの構成プログラムを用いてしか構成すること
ができない場合は、１つのみのクラスタ）。上記プログラム領域のサイズ及び該
領域用に選択される候補の数は、全ての候補を同時にロードされる最大数のクラ
スタにおいてプログラムすることができるように、選択されねばならない。

【００４９】原理的には、候補命令の選択及びそれらのクラスタへの合成の両者は、厄介な
最適化問題である。多数の構成可能な命令の可能な組み合わせの集合が存在する
。狙いは、プログラムの典型的な実行（実行プロファイルにより定義される）に
必要とされる命令サイクルの数を最小化するような集合を見付けることである。
命令サイクルのカウントの最小化は、或るクラスタに関する全ての選択された候
補が構成プログラムに適合するという拘束を受ける。

【００５０】この目的のため、通常の命令のみが使用されたとしたら一層多数の命令サイク
ルを必要としたであろうような、各々が１命令サイクルにおいて効果を生成する
構成可能な命令を考慮する。当該プロファイルにおいてカスタム命令により置換
されるべき全ての通常の命令を実行するのに要する追加の命令サイクルの数は、
構成プログラムをロードするためのオーバーヘッドサイクルよりも大きくなくて
はならない。さもなければ、何の組み合わせも選択されるべきでない。オーバー
ヘッドサイクルの数は、組み合わせをロードする場合の方が、同数の命令を個々
にロードする場合よりも小さいことに注意すべきである。何故なら、ローディン
グは、上記組み合わせにおける全ての命令に対しては１回しか行う必要がなく、
平均して、相互最小化により命令当たり少ない構成プログラム空間しか占めない
からである。

【００５１】クラスタに合成することができる候補の数は、構成可能な機能ユニットにおけ
る資源使用の最小化に依存する。構成可能な命令が“小さい”程、又は一層高度
に類似している程、より多くの構成可能な命令を１つのクラスタに組み合わせる
ことができる。

【００５２】クラスタを選択するアルゴリズムの一例は、１）当該プログラムの範囲から領域を、コンパイラにより生成された中間コード
における領域の開始命令及び終了命令に関して選択する。好ましくは、領域とし
て、頻繁に実行されるループ又は頻繁に実行されるサブルーチンにおける命令を
選択するものとするが、非常に頻繁には実行されないが類似の命令の繰り返しを
含む領域も良好な候補である。２）上記の選択された領域における命令に対するデータフローセグメントに関し
て多数の候補のカスタム命令を選択する。３）上記の選択されたカスタム命令が全て当該構成可能な機能ユニットに一緒に
納まり、且つ、完了するのにパイプラインサイクル未満しか掛からないような形
で、これら選択されたカスタム命令を組み合わせるクラスタに対する構成プログ
ラムを発生することができるか判断する。もしそうなら、通常の命令の組み合わ
せを選択された候補のカスタム命令により置換することにより当該プロファイル
において得られる命令サイクルの数を決定する。４）ステップ１ないし３を、一層大きな大きな及び一層小さな領域に対して、且
つ、別の選択された命令に対して繰り返し、選択された領域及び選択された命令
を保持し、及び最も多い命令サイクルを得るクラスタを保持する。このステップ
は、或る領域に対して見つかった最も有利なクラスタから始めて、同一の領域か
ら又は該領域の拡張からの何れかから、上記クラスタを更なるカスタム命令を用
いて拡張することにより発見的に高速化することができる。５）上記ステップ１ないし４を、当該プログラムの異なる、重ならない領域に対
して、これら全ての異なる領域に関する各クラスタを保持しながら繰り返す。

【００５３】上記の最小化は、当該プログラムの上記領域に局部化された局部的処理であり
、当該プログラム全体に対するものでないことに注意すべきである。重要な点は
、クラスタが特定の領域に対する命令サイクルカウントを減少させることである
。他の領域で何が起きるかは問題ではない。何故なら、当該クラスタは、それら
領域に関してはロードする必要はないからである。事実、異なる領域用の異なる
クラスタは同一の効果を伴う幾つかのカスタム命令を含むかもしれない。これら
の同一の効果を持つカスタム命令の１つが実行されると、実行された領域が、上
記クラスタの何れがロードされたかを決定する。従って、ロードされる構成プロ
グラムは、実行されねばならない如何なる特定の命令によるというよりも、実行
されている領域により決定される。

【００５４】クラスタ及び領域の選択は、これらの点を選択するための多数の発見的評価規
準を用いて単純化することができる。種々の評価規準を、候補をクラスタにグル
ープ化するために使用することができる。例えば、 − 共通のループ内の候補は、同一のクラスタにグループ化される（これは、ル
ープ内の再構成オーバーヘッドを防止する）。 − サブルーチン内で発生する候補は、当該サブルーチン用のクラスタ又は複数
のクラスタにグループ化される。 − 低い論理的複雑さの候補は、大きなクラスタ（一層多くの候補を持つ）にグ
ループ化される。 − 高い論理的複雑さの候補は、小さなクラスタ（一層少ない候補を持つ）にグ
ループ化される。 − 一層良好に論理的相互最小化の機会を利用するために、類似の候補（論理の
点で）の同一のクラスタへの合成が好まれる。

【００５５】実際に効果的に働くことが分かったクラスタ選択用の評価規準は、カスタム命
令を、該カスタム命令の結果に影響を与えるような、それらのオペランドの入力
ビットの類似性に依存してクラスタに配置することである。或るカスタム命令が
与えられた場合、その入力オペランドのどのビットが、該命令の結果に影響を与
えるか、及びどのビットが該結果に影響を与えないかを決定するのは回りくどく
ない。この場合、カスタム命令の非類似性は、共用されない入力ビットの数によ
り測ることができる。従って、カスタム命令のクラスタは、好ましくは、各命令
の入力のどのビットが該命令の結果に影響するかを計算し（これらは“関連ビッ
ト”と呼ばれる）、命令間の非類似性の目安を共用されない関連ビットの数に関
して計算し、且つ、設定された量より少ない非類似性を持つカスタム命令のクラ
スタを選択することにより選択される。

【００５６】ＣＰＬＤコアの規則的な予測可能なタイミングモデルは、クラスタの形成に有
利である。複数候補の単一構成へのグループ化は、典型的なＦＰＧＡ構造におけ
る導入遅延をかなり変化させ得、自動的なクラスタ形成用のアルゴリズムをかな
り困難にする。何故なら、その場合には、相互最小化を、該最小化が過度に多い
遅延を導入しないという制限の下で実施しなければならないからである。ＣＰＬ
Ｄの場合は、或る構成への一層多くのカスタム命令の追加は、前記ＰＡＬ又はＰ
ＬＡからの一層多くの積項（ＰＴ）を単に必要とする。回路が当該コアに適合す
る限り、上記遅延は前記交点スイッチ及びＰＬＡを介しての時間遅延（Tpd_pla
）に限定され、当該アルゴリズムはクラスタを形成する際に遅延変動の問題を考
慮する必要がない。

【００５７】図２の機能ユニットにおいては、交点スイッチ２４が特に有効である。何故な
ら、該交点スイッチは、オペランドの異なるビットに関する信号を、これら異な
るビットが該オペランド内の非常に異なる位置に不規則に広がっている場合でさ
えも、１つの論理ブロック２６ａ、２６ｂに一緒にもたらすことを可能にするか
らである。これは、同一の効果がＡＬＵ１６を用いて実現されなければならなか
った場合に、非常に多くの通常の命令を必要としたであろう構成可能な命令を実
施化することを可能にするからである。

【００５８】また、交点スイッチ２４は、命令選択ビットを異なるブロック２６ａ、２６ｂ
においてオペランドデータビットと自由に混合することを可能にする。このよう
にして、命令の区別をオペランドの処理と統合することにより、ハードウェア資
源使用の一層良好な相互最小化が可能となる。

【図面の簡単な説明】

【図１】図１は、構成可能な命令をサポートするプロセッサのアーキテクチャを示す。

【図２】図２は、構成可能な機能ユニットを示す。

【図３】図３は、構成可能な論理ブロックを示す。

【図４】図４は、コンパイルされたプログラムを発生させるためのフローチャートを示
す。

【図５】図５は、命令の組み合わせを実行する機能ユニットのモデルを示す。

【符号の説明】

１４…実行段レジスタ１６…ＡＬＵ機能ユニット１８…構成可能な機能ユニット２０ａ、２０ｂ、２２…入力ポート２３…再構成制御回路２４…交点スイッチ２６ａ、２６ｂ…論理ブロック２８…出力ポート

───────────────────────────────────────────────────── フロントページの続き (72)発明者デオリベイラカストルプペレイラベルナルドオランダ国 5656 アーアーアインドーフェンプロフホルストラーン６ (72)発明者ビンクアドリアヌスジェイオランダ国 5656 アーアーアインドーフェンプロフホルストラーン６ (72)発明者フーゲルブルージュジャンオランダ国 5656 アーアーアインドーフェンプロフホルストラーン６Ｆターム(参考） 5B033 AA05 AA07 BA01 BB00

Claims

【特許請求の範囲】

【請求項１】構成プログラムをロードすることにより実行時に効果を再定
義することが可能な、再構成可能な命令を実行することができる構成可能な機能
ユニットを含むプロセッサを用いてコンピュータプログラムを実行する方法にお
いて、 − 再構成可能な命令の組み合わせを選択するステップと、 − 各組み合わせに対する構成プログラムを各々発生するステップと、 − 前記コンピュータプログラムを実行するステップと、 − 実行の間に前記組み合わせのうちの１つの組み合わせからの命令が必要とさ
れ、且つ、前記構成可能な機能ユニットが前記１つの組み合わせ用の構成プログ
ラムを用いて構成されていない都度に、前記１つの組み合わせの全命令に対する
構成プログラムを前記構成可能な機能ユニットにロードするステップと、を有していることを特徴とする方法。
【請求項２】請求項１に記載の方法において、前記構成プログラムを発生
するステップが、前記構成プログラムのうちの少なくとも１つにおける異なる命
令に対するハードウェア資源使用を相互最小化するステップを有していることを
特徴とする方法。
【請求項３】請求項２に記載の方法において、プログラム実行の間に前記
組み合わせから異なる命令を選択し、且つ、これら異なる命令によりオペランド
データを処理するためのハードウェア資源使用が相互最小化されることを特徴と
する方法。
【請求項４】請求項２に記載の方法において、前記構成可能な機能ユニッ
トは、交点スイッチをオペランドデータ用の入力端子と、該交点スイッチの出力
端子を異なる論理合成回路に接続する接続ラインとの間に含み、前記交点スイッ
チは前記構成プログラムにより制御され、前記交点スイッチ内の接続のプログラ
ミングが前記構成可能な機能ユニットにおけるハードウェア資源使用を相互最小
化するために使用されることを特徴とする方法。
【請求項５】請求項２に記載の方法において、前記組み合わせから前記再
構成可能な命令を選択するためのビットの少なくとも一部が、前記オペランドデ
ータと交換可能に前記交点スイッチに供給されることを特徴とする方法。
【請求項６】構成プログラムをロードすることにより効果を実行時に再定
義することが可能な、再構成可能な命令を実行することができる構成可能な機能
ユニットを有するようなプロセッサであって、前記構成可能な機能ユニットが、
再構成可能な命令を実行するために必要とされる際に前記構成プログラムが未だ
ロードされていない場合に該構成プログラムのロードを起動するロード起動回路
を有するようなプロセッサにおいて、前記構成プログラムは少なくとも２つの組
み合わされた再構成可能な命令の効果を定義し、前記ロード起動回路は前記組み
合わされた再構成可能な命令のうちの少なくとも１つが必要とされる場合に該組
み合わされた命令の全てに対する前記構成プログラムのロードを起動することを
特徴とするプロセッサ。
【請求項７】請求項６に記載のプロセッサにおいて、前記構成可能な機能
ユニットは前記組み合わせから命令を選択するための命令選択入力端子と、オペ
ランドデータ入力端子と、合成ロジックと、結果出力端子とを有し、前記オペラ
ンドデータ入力端子及び前記命令選択入力端子は、共に、命令選択ビット及びオ
ペランドデータビットが交換可能に使用することができるように、前記合成ロジ
ックを介して前記結果出力端子に結合されていることを特徴とするプロセッサ。
【請求項８】請求項７に記載のプロセッサにおいて、前記構成可能な機能
ユニットは、前記合成ロジックと、前記オペランドデータ入力端子及び前記命令
選択入力端子との間に交点スイッチを有し、該交点スイッチは前記命令選択ビッ
ト及び前記オペランドデータビットを前記合成ロジックに機能的に交換可能に接
続することができることを特徴とするプロセッサ。
【請求項９】請求項６に記載のプロセッサにおいて、前記構成可能な機能
ユニットはプログラム可能な論理装置を有し、該装置は、前記組み合わせの構成
可能な命令を構成する可能な接続の部類の何れが前記構成プログラムの制御の下
で接続されるかに無関係に、略一定のオペランド結果の遅延を与えることを特徴
とするプロセッサ。
【請求項１０】構成可能な処理ユニットを含むプロセッサ用のマシンコー
ドを発生するコンピュータプログラム製品であって、前記マシンコードは複数の
構成可能な命令を含み、前記コンピュータプログラム製品は前記構成可能な処理
ユニットに組み合わせてロードするための構成可能な命令の組み合わせを選択す
るように構成され、該選択するステップは、 − 多数の構成可能な命令の各々に関して、これら構成可能な命令の入力オペラ
ンドのどのビットが、これら構成可能な命令の結果に影響するかを決定するステ
ップと、 − 非類似性の目安が計算される全ての構成可能な命令の結果に影響を与えない
入力オペランドのビットの数に対応するような、前記構成可能な命令の間の非類
似性の目安を決定するステップと、 − 前記構成可能な命令の組み合わせを、前記非類似性の目安に基づいて、相対
的に少ない非類似性を持つ可能な組み合わせが当該選択において相対的に多い非
類似性を持つ可能な組み合わせよりも好まれるように選択するステップと、を有していることを特徴とするコンピュータプログラム製品。