JP2024024312A

JP2024024312A - プロセッサ、およびコンパイラ

Info

Publication number: JP2024024312A
Application number: JP2022127072A
Authority: JP
Inventors: 崇雄戸井; Takao Toi; 賢悟西野; Kengo Nishino; 大悟林; Daigo Hayashi
Original assignee: Renesas Electronics Corp
Current assignee: Renesas Electronics Corp
Priority date: 2022-08-09
Filing date: 2022-08-09
Publication date: 2024-02-22
Also published as: DE102023121153A1; CN117591178A; US20240053970A1

Abstract

【課題】ループ変数、またはアキュムレータ変数などを繰り返しするカウントするカウンタ回路が、プログラマブルデバイスによって構成されている場合には、処理の遅延が発生する。【解決手段】プロセッサ１６１は、複数のプログラマブルロジック１からなるアレイ１６２と、繰り返し変更操作される変数をカウントするための少なくとも１つの専用のカウンタ回路１６３とを備える。【選択図】図１

Description

本開示は、プロセッサ、およびコンパイラに関する。

動的再構成プロセッサと動作合成ツールの組み合わせたシステムでは、多状態回路を時系列に折りたたむことによって演算器および配線資源を再利用する（特許文献１を参照）。このため、このようなシステムは、一度書き込んだ回路を使い続けるＦＰＧＡ（Field Programmable Gate Array）に代表される細粒度のリコンフィギュラブルデバイスに対して、高い面積効率でプログラムを実行できる。

Ｃ言語などの動作記述言語によって書かれたプログラムを動的再構成プロセッサなどの書き換えが可能なプログラマブルデバイス向けの回路として合成する動作合成では、状態遷移マシン（ＦＳＭ）とデータパスとを生成して、各状態に応じて時系列にデータパスを切り替える回路が生成される。この動作合成における並列化手法の一つとして、ループ記述をパイプライン回路として合成する方法が知られている（特許文献２）。

パイプライン回路を合成する動作合成では、パイプラインのステージごとに実行を制御する方法が知られている（特許文献３）。

特開２００３－９９４０９号公報特開２００８－７１０８９号公報特開２０１４－６６５０号公報

ループ変数、またはアキュムレータ変数などを繰り返しカウントするカウンタ回路が、プログラマブルロジックによって構成されている場合には、処理の遅延が発生するという問題がある。

その他の課題と新規な特徴は、本明細書の記述および添付図面から明らかになるであろう。

一実施形態のプロセッサは、複数のプログラマブルロジックからなるアレイと、繰り返し変更操作される変数をカウントするための少なくとも１つの専用のカウンタ回路とを備える。

一実施形態のプロセッサによれば、カウンタ回路が専用回路化されているので、処理が遅延するのを回避できる。

第１の実施形態のプロセッサ１６１の構成を表わす図である。画像フィルタを説明するための図である。Ｃ言語による画像フィルタ処理記述を表わす図である。第２の実施形態の動的再構成プロセッサの構成を表わす図である。プロセッシングエレメントＰＥの構成を表わす図である。第２の実施形態のループ記述の例を表わす図である。図６のループのループ変数をカウントするための専用のカウンタ回路２の構成要素を表わすブロック図である。第２の実施形態のカウンタ回路の詳細な構成を表わす図である。参考例のカウンタの実現方法の例を表わす図である。プロセッシングエレメントＰＥ（Ｘ）、ＰＥ（Ｙ）、ＰＥ（Ｚ）の構成を表わす図である。第２の実施形態の変形例のループ記述の例を表わす図である。図１１のループのループ変数をカウントするための専用のカウンタ回路２Ａの構成要素を表わすブロック図である。第３の実施形態のカウンタ回路２０２の構成要素を表わすブロック図である。第３の実施形態の変形例のカウンタ回路３０２の構成要素を表わすブロック図である。第４の実施形態のカウンタ回路４０２の構成要素を表わすブロック図である。第４の実施形態の変形例のカウンタ回路５０２の構成を表わす図である。第５の実施形態のカウンタ回路、状態遷移コントローラ、およびプロセッシングエレメントアレイを表わす図である。第５の実施形態の変形例１のカウンタ回路、状態遷移コントローラ、およびプロセッシングエレメントアレイを表わす図である。第５の実施形態の変形例２のカウンタ回路、状態遷移コントローラ、およびプロセッシングエレメントアレイを表わす図である。第６の実施形態の動的再構成プロセッサの構成を表わす図である。第６の実施形態の変形例のカウンタ回路２Ｘの構成を表わすブロック図である。脱出条件成立信号ＰＳおよび反転脱出条件信号／ＰＳが利用されるプログラムの例を表わす図である。第７の実施形態のカウンタ回路７２の構成要素を表わすブロック図である。アキュムレータを利用するプログラムの例を表わす図である。コンパイラの構成を表わす図である。動作合成部９００によって生成される状態遷移マシン、およびデータパスコンテキストの例を表わす図である。動作合成時に生成されるパイプラインの例を表わす図である。ループの繰り返し回数が４回の場合のパイプライン回路の実行例を表わす図である。パイプライン化のオーバーヘッドを表わす図である。パイプライン化のオーバーヘッドを削減する例を表わす図である。

以下、実施の形態について図面を参照して説明する。
［第１の実施形態］
図１は、第１の実施形態のプロセッサの構成を表わす図である。

プロセッサ１６１は、アレイ１６２と、少なくとも１つのカウンタ回路１６３とを備える。

アレイ１６２は、複数のプログラマブルロジック１を含む。
プログラマブルロジック１は、加算器、セレクタ、およびＬＵＴなどの演算資源を提供する。

カウンタ回路１６３は、繰り返し変更操作される変数をカウントするための専用の回路である。繰り返し変更操作される変数とは、たとえば、ループ記述におけるループ変数、または、ループの内部において増分値が繰り返し加算されるアキュムレータ変数である。

本実施の形態では、カウンタ回路が専用回路化されているので、処理が遅延するという問題を解決することができる。

［第２の実施形態］
図２は、画像フィルタを説明するための図である。画像データをＦＩＲ(Finite Impulse Response)フィルタなどによって畳み込み処理する例が示されている。図２では３×３画素のカーネルフィルタを画像に適応する例が示されている。

図３は、Ｃ言語による画像フィルタ処理記述を表わす図である。画像imageの横サイズ（ｘ方向）を２００画素、縦サイズ（ｙ方向）を１００画素、カーネルkernelを３×３画素として記述している。左右に各１画素分、合計２画素の無効領域ができるためｘ方向の最大値を（２００－２）画素、ｙ方向も同様に上下方向の無効領域２画素分を引いて最大値を（１００－２）画素としている。

ＣＰＵ（Central Processing Unit）などのプロセッサは、基本的に記述通り逐次的に処理する。一方、ＦＰＧＡまたは動的再構成プロセッサなどのプロセッサ、または専用ハードウエアは、複数同時に演算を実行することによって、処理速度を上げることができる。

図４は、第２の実施形態の動的再構成プロセッサの構成を表わす図である。動的再構成プロセッサは、演算要素である加減算などの基本演算が可能な複数のプロセッシングエレメントＰＥを含むアレイ５１、乗算器ＭＵＬなどのより大きな演算器要素、メモリＨＭＥＭ、ＶＭＥＭ、およびこれらの間を接続するための配線、および配線スイッチを備える。動的再構成プロセッサは、状態遷移コントローラ５０を備える。状態遷移コントローラ５０は、配線スイッチ、およびプロセッシングエレメントＰＥに対する命令を切り替えることによって、動的再構成プロセッサの状態遷移を制御する。

図５は、プロセッシングエレメントＰＥの構成を表わす図である。プロセッシングエレメントＰＥは、命令メモリ９１と、演算器９２と、レジスタ９３とを備える。

状態遷移コントローラ５０からの命令ポインタＰＴによって、命令メモリ９１内の実行命令が指定される。演算器９２は、命令を実行する。レジスタ９３は、データを記憶する。ＳＷＩによって、データ配線上のデータを入力するか否かが切り替えられる。ＳＷＯによって、レジスタ９３内のデータをデータ配線に出力するか否かが切り替えられる。ＳＷによって、データの伝送ルートが切り替えられる。

状態遷移コントローラ５０からの命令ポインタ、およびスイッチＳＷ、ＳＷＩ、ＳＷＯを切り替えることによって、上述した画像フィルタを実現することができる。この時に、内側ループ内の（３×３）カーネルの画像フィルタ処理部分はパイプライン化することができる。しかし、ループを制御する部分については、ｘ＝ｘ＋１のように左辺と右辺の両方に同じループ変数があって自己参照しているため、ループ変数をカウントするカウンタ回路は、パイプライン化によって動作周波数を上げることができない。

本実施の形態の動的再構成プロセッサは、ループ変数をカウントするための専用のカウンタ回路２を備える。状態遷移コントローラ５０は、カウンタ回路２を制御することによって、動的再構成プロセッサの状態を制御する。

ループの制御は、for文とdo-while文のいずれかで記述することができる。for文では、ループ変数と最大値との比較後に、ループ変数が加算される。do-while文では、ループ変数の加算後に、ループ変数と最大値とが比較される。本実施の形態では、for文のループ変数をカウントするためのカウンタ回路が示されている。

図６は、第２の実施形態のループ記述の例を表わす図である。図７は、図６のループのループ変数ｘをカウントするための専用のカウンタ回路２の構成要素を表わすブロック図である。カウンタ回路２は、記憶部１１、選択部１３、加算部１２、および比較部１４を備える。

記憶部１１は、選択部１３の出力をカウンタ値(ｓＣｎｔ)として記憶する。記憶部１１は、書込可能信号ＷＥがアサートされているときに、選択部１３の出力信号によって、カウンタ値（ｓＣｎｔ）を更新する。

選択部１３は、初期値(ｓＩｎｉｔ)を記憶する。選択部１３は、初期化信号（ＩＮＩＴ）がアサートされているときに、初期値（ｓＩｎｉｔ）を記憶部１１に出力する。選択部１３は、初期化信号（ＩＮＩＴ）がアサートされていないときに、加算部１２の出力信号を記憶部１１に出力する。初期値（ｓＩｎｉｔ）は、たとえば「０」である。

加算部１２は、増分値(ｓＩｎｃ)を記憶する。加算部１２は、加算指示信号（ＥＮ）がアサートされているときに、記憶部１１の出力（ｓＣｎｔ）と増分値（ｓＩｎｃ）とを加算する。増分値（ｓＩｎｃ）は、たとえば、「１」である。

比較部１４は、最大値(ｓＭａｘ)を記憶する。比較部１４は、カウンタ値（ｓＣｎｔ）と最大値（ｓＭａｘ）とを比較し、比較結果を表わす信号を出力する。比較部１４は、カウンタ値（ｓＣｎｔ）が最大値（ｓＭａｘ）に達したときに、ループ脱出条件成立信号（ＰＳ）をアサートする。

図８は、第２の実施形態のカウンタ回路の詳細な構成を表わす図である。
選択部１３は、セレクタ３８１と、レジスタ３８６とを備える。セレクタ３８１は、初期化信号（ＩＮＩＴ）を受ける。レジスタ３８６は、初期値（ｓＩｎｉｔ）を記憶する。初期値（ｓＩｎｉｔ）は、たとえば、「０」である。

記憶部１１は、レジスタ３８２を備える。レジスタ３８２は、カウンタ値（ｓＣｎｔ）を記憶する。

加算部１２は、加算器３８３と、レジスタ３８４とを備える。加算器３８３は、加算指示信号（ＥＮ）を受ける。レジスタ３８４は、増分値（ｓＩｎｃ）を記憶する。増分値（ｓＩｎｃ）は、たとえば、「１」である。

本実施の形態では、カウンタ回路を専用回路化にすることによって、遅延を短縮して動作速度を向上させることができる。

（参考例）
図９は、参考例のカウンタの実現方法の例を表わす図である。図１０は、プロセッシングエレメントＰＥ（Ｘ）、ＰＥ（Ｙ）、ＰＥ（Ｚ）の構成を表わす図である。

３個のＰＥ（Ｘ）、ＰＥ（Ｙ）、ＰＥ（Ｚ）によって、カウンタ回路が実現される。このように、プログラマブルロジックにおけるＰＥ、またはＦＰＧＡのＬＵＴは自由度が高く汎用的な回路を作ることができる反面、専用のハードウエア回路と比べると遅延が大きくなる。

［第２の実施形態の変形例］
図１１は、第２の実施形態の変形例のループ記述の例を表わす図である。図１１では、ループ記述の例としてdo-while文を使う場合が示されている。図１２は、図１１のループのループ変数ｘをカウントするための専用のカウンタ回路１５２の構成要素を表わすブロック図である。カウンタ回路１５２は、記憶部１１、選択部１３、加算部１２、および比較部６４を備える。

カウンタ回路１５２の記憶部１１、選択部１３、および加算部１２の構成及び動作は、カウンタ回路２の記憶部１１、選択部１３、および加算部１２の構成および動作と同様なので、説明を繰り返さない。

比較部６４は、最大値(ｓＭａｘ)を記憶する。比較部１４Ａは、加算部１２の出力と最大値（ｓＭａｘ）とを比較する。比較部６４は、加算部１２の出力が最大値（ｓＭａｘ）に達したときに、ループ脱出条件成立信号（ＰＳ）をアサートする。

［第３の実施形態］
図１３は、第３の実施形態のカウンタ回路２０２の構成要素を表わすブロック図である。カウンタ回路２０２は、ループＡのループ変数（たとえば、図３のｘ）と、ループＡの１つ外側のループＢのループ変数（たとえば、図３のｙ）とをカウントする。カウンタ回路２０２は、ループＡのループ変数をカウントする第１ループ用カウンタ２２Ａと、ループＢのループ変数をカウントする第２ループ用カウンタ２２Ｂとを備える。

第１ループ用カウンタ２２Ａは、ループＡの終了条件が満たされたときに第２ループ用カウンタ２２Ｂにループ脱出条件成立信号（ＰＳ１）（第１の信号）を出力する。第２ループ用カウンタ２２Ｂは、ループ脱出条件成立信号（ＰＳ１）（第１の信号）を受けたときには、ループＢのループ変数をインクリメントする。第２ループ用カウンタ２２Ｂは、ループＢの終了条件が満たされたときに状態遷移コントローラ５０にループ脱出条件成立信号（ＰＳ１）（第２の信号）を出力する。

第１ループ用カウンタ２２Ａは、記憶部１１Ａ、選択部１３Ａ、加算部１２Ａ、および比較部１４Ａを備える。第２ループ用カウンタ２２Ｂは、記憶部１１Ｂ、選択部１３Ｂ、加算部１２Ｂ、および比較部１４Ｂを備える。

記憶部１１Ａは、ループＡのループ変数のカウンタ値(ｓＣｎｔ１)を記憶する。記憶部１１Ａは、書込可能信号ＷＥがアサートされているときに、選択部１３Ａの出力信号によって、カウンタ値（ｓＣｎｔ１）を更新する。

選択部１３Ａは、初期値(ｓＩｎｉｔ１)を記憶する。選択部１３Ａは、初期化信号（ＩＮＩＴ）がアサートされているとき、またはループ脱出条件成立信号（ＰＳ１）がアサートされているときに、初期値（ｓＩｎｉｔ１）を記憶部１１Ａに出力する。選択部１３Ａは、初期化信号（ＩＮＩＴ）がアサートされず、かつループ脱出条件成立信号（ＰＳ１）がアサートされていないときに、加算部１２Ａの出力信号を記憶部１１Ａに出力する。初期値（ｓＩｎｉｔ１）は、たとえば「０」である。

加算部１２Ａは、増分値(ｓＩｎｃ１)を記憶する。加算部１２Ａは、加算指示信号（ＥＮ）がアサートされているときに、記憶部１１Ａの出力（ｓＣｎｔ１）と増分値（ｓＩｎｃ１）とを加算する。増分値（ｓＩｎｃ１）は、たとえば「１」である。

比較部１４Ａは、最大値(ｓＭａｘ１)を記憶する。比較部１４Ａは、カウンタ値（ｓＣｎｔ１）と最大値（ｓＭａｘ１）とを比較する。比較部１４Ａは、カウンタ値（ｓＣｎｔ１）が最大値（ｓＭａｘ１）に達したときに、ループ脱出条件成立信号（ＰＳ１）をアサートする。ループ脱出条件成立信号（ＰＳ１）は、選択部１３Ａおよび第２ループ用カウンタ２２Ｂの加算部１２Ｂに送られる。

記憶部１１Ｂは、ループＢのループ変数のカウンタ値(ｓＣｎｔ２)を記憶する。記憶部１１Ｂは、書込可能信号ＷＥがアサートされているときに、選択部１３Ｂの出力信号によって、カウンタ値（ｓＣｎｔ２）を更新する。

選択部１３Ｂは、初期値(ｓＩｎｉｔ２)を記憶する。選択部１３Ｂは、初期化信号（ＩＮＩＴ）がアサートされているときに、初期値（ｓＩｎｉｔ２）を記憶部１１Ｂに出力する。選択部１３Ｂは、初期化信号（ＩＮＩＴ）がアサートされていないときに、加算部１２Ｂの出力信号を記憶部１１Ｂに出力する。初期値（ｓＩｎｉｔ２）は、たとえば「０」である。

加算部１２Ｂは、増分値(ｓＩｎｃ２)を記憶する。加算部１２Ｂは、ループ脱出条件成立信号（ＰＳ１）がアサートされているときに、記憶部１１Ｂの出力（ｓＣｎｔ２）と増分値（ｓＩｎｃ２）とを加算する。増分値（ｓＩｎｃ２）は、たとえば「１」である。

比較部１４Ｂは、最大値(ｓＭａｘ２)を記憶する。比較部１４Ｂは、カウンタ値（ｓＣｎｔ２）と最大値（ｓＭａｘ２）とを比較する。比較部１４Ｂは、カウンタ値（ｓＣｎｔ２）が最大値（ｓＭａｘ２）に達したときに、ループ脱出条件成立信号（ＰＳ２）をアサートする。ループ脱出条件成立信号（ＰＳ２）は、状態遷移コントローラ５０に送られる。

本実施の形態のカウンタ回路２０２では、ループＡでの繰り返しが規定回数に達した場合に、第１ループ用カウンタ２２Ａの比較の条件が成立して、第２ループ用カウンタ２２Ｂに対して加算を指示する信号が送られるとともに、第１ループ用カウンタ２２Ａ自身がループの初期状態に戻り、次の繰り返し動作に移ることができる。また、ループＢでの繰り返しが規定回数に達した場合に、第２ループ用カウンタ２２Ｂの比較の条件が成立して、ループ脱出し次の動作に移ることができる。

［第３の実施形態の変形例］
図１４は、第３の実施形態の変形例のカウンタ回路３０２の構成要素を表わすブロック図である。このカウンタ回路３０２は、ループＡのループ変数と、ループＡの１つ外側のループＢのループ変数と、ループＢの１つ外側のループＣのループ変数をカウントする。カウンタ回路３０２は、ループＡのループ変数をカウントする第１ループ用カウンタ２２Ａと、ループＢのループ変数をカウントする第２ループ用カウンタ２２Ｂと、ループＣのループ変数をカウントする第３ループ用カウンタ２２Ｃとを備える。

第１ループ用カウンタ２２Ａは、第３の実施形態と同様なので、説明を繰り返さない。
第２ループ用カウンタ２２Ｂは、第３の実施形態と以下の点で相違する。ループ脱出条件成立信号（ＰＳ２）は、選択部１３Ｂおよび第３ループ用カウンタ２２Ｃの加算部１２Ｃに送られる。

選択部１３Ｂは、初期化信号（ＩＮＩＴ）がアサートされているとき、またはループＡの脱出条件成立信号（ＰＳ１）とループＢの脱出条件成立信号（ＰＳ２）とがともにアサートされているときに、初期値（ｓＩｎｉｔ２）を記憶部１１Ｂに出力する。

第３ループ用カウンタ２２Ｃは、記憶部１１Ｃ、選択部１３Ｃ、加算部１２Ｃ、および比較部１４Ｃを備える。

記憶部１１Ｃは、ループＣのループ変数のカウンタ値(ｓＣｎｔ３)を記憶する。記憶部１１Ｃは、書込可能信号ＷＥがアサートされているときに、選択部１３Ｃの出力信号によって、カウンタ値（ｓＣｎｔ３）を更新する。

選択部１３Ｃは、初期値(ｓＩｎｉｔ３)を記憶する。選択部１３Ｃは、初期化信号（ＩＮＩＴ）がアサートされているときに、初期値（ｓＩｎｉｔ３）を記憶部１１Ｃに出力する。選択部１３Ｃは、初期化信号（ＩＮＩＴ）がアサートされていないときに、加算部１２Ｃの出力信号を記憶部１１Ｃに出力する。初期値（ｓＩｎｉｔ３）は、たとえば「０」である。

加算部１２Ｃは、増分値(ｓＩｎｃ３)を記憶する。加算部１２Ｃは、ループＡの脱出条件成立信号（ＰＳ１）とループＢの脱出条件成立信号（ＰＳ２）とがともにアサートされているときに、記憶部１１Ｃの出力（ｓＣｎｔ３）と増分値（ｓＩｎｃ３）とを加算する。増分値（ｓＩｎｃ３）は、たとえば「１」である。

比較部１４Ｃは、最大値(ｓＭａｘ３)を記憶する。比較部１４Ｃは、カウンタ値（ｓＣｎｔ３）と最大値（ｓＭａｘ３）とを比較する。比較部１４Ｃは、カウンタ値（ｓＣｎｔ３）が最大値（ｓＭａｘ３）に達したときに、ループ脱出条件成立信号（ＰＳ３）をアサートする。ループ脱出条件成立信号（ＰＳ３）は、状態遷移コントローラ５０に送られる。

［第４の実施形態］
図１５は、第４の実施形態のカウンタ回路４０２の構成要素を表わすブロック図である。カウンタ回路４０２は、ループの２倍ビット幅のループ変数をカウントする。２倍ビット幅とは、たとえば３２ビットである。

カウンタ回路４０２は、ループ変数の下位ビットをカウントする下位ビット用カウンタ３２Ａと、ループ変数の上位ビットをカウントする上位ビット用カウンタ３２Ｂと、倍幅判定部３３とを備える。倍幅判定部３３は、下位ビット用カウンタ３２Ａの値と、上位ビット用カウンタ３２Ｂの値とに基づいて、ループの終了条件が満たされたか否かを判定する。下位ビットは、３２ビットのループ変数の下位の１６ビットである。上位ビットは、３２ビットのループ変数の上位の１６ビットである。

下位ビット用カウンタ３２Ａは、ループ変数の下位ビットが最大値を超えたときに、キャリー信号ＣＲを上位ビット用カウンタ３２Ｂに出力する。上位ビット用カウンタ３２Ｂは、キャリー信号ＣＲを受けたときには、ループ変数の上位ビットをインクリメントする。

下位ビット用カウンタ３２Ａは、記憶部１１Ａ、選択部１３Ａ、加算部１２Ａ、および比較部１４Ａを備える。これらの構成要素は、１６ビット用のものである。

上位ビット用カウンタ３２Ｂは、記憶部１１Ｂ、選択部１３Ｂ、加算部１２Ｂ、および比較部１４Ｂを備える。これらの構成要素は、１６ビット用のものである。

記憶部１１Ａは、ループ変数の下位ビットのカウンタ値(ｓＣｎｔ１)を記憶する。記憶部１１Ａは、書込可能信号ＷＥがアサートされているときに、選択部１３Ａの出力信号によって、カウンタ値（ｓＣｎｔ１）を更新する。

選択部１３Ａは、初期値(ｓＩｎｉｔ１)を記憶する。選択部１３Ａは、初期化信号（ＩＮＩＴ）がアサートされているときに、初期値（ｓＩｎｉｔ１）を記憶部１１Ａに出力する。選択部１３Ａは、初期化信号（ＩＮＩＴ）がアサートされていないときに、加算部１２Ａの出力信号を記憶部１１Ａに出力する。初期値（ｓＩｎｉｔ１）は、たとえば「０」である。

加算部１２Ａは、増分値(ｓＩｎｃ１)を記憶する。加算部１２Ａは、加算指示信号（ＥＮ）がアサートされているときに、記憶部１１Ａの出力（ｓＣｎｔ１）と増分値（ｓＩｎｃ１）とを加算する。増分値（ｓＩｎｃ１）は、たとえば「１」である。加算部１２Ａは、桁上がりが生じた場合（すなわち、加算後の値が「０ｘＦＦＦＦ」を超えた場合に）、キャリー信号ＣＲをアサートする。

記憶部１１Ｂは、ループ変数の上位ビットのカウンタ値(ｓＣｎｔ２)を記憶する。記憶部１１Ｂは、書込可能信号ＷＥがアサートされているときに、選択部１３Ｂの出力信号によって、カウンタ値（ｓＣｎｔ２）を更新する。

加算部１２Ｂは、増分値(ｓＩｎｃ２)を記憶する。加算部１２Ｂは、キャリー信号ＣＲがアサートされているときに、記憶部１１Ｂの出力（ｓＣｎｔ２）と増分値（ｓＩｎｃ２）とを加算する。増分値（ｓＩｎｃ２）は、たとえば「１」である。

倍幅判定部３３は、比較部３４を備える。
比較部３４は、最大値（ｓＭａｘ）と記憶する。比較部１４は、記憶部１１Ａからのカウンタ値（ｓＣｎｔ１）を下位ビットとし、記憶部１１Ｂからのカウンタ値（ｓＣｎｔ２）を上位ビットとした値（たとえば、３２ビット）を最大値（ｓＭａｘ）とを比較する。比較部３４は、カウンタ値（ｓＣｎｔ２）が最大値（ｓＭａｘ）に達したときに、ループ脱出条件成立信号（ＰＳＸ）をアサートする。ループ脱出条件成立信号（ＰＳＸ）は、状態遷移コントローラ５０に送られる。ｓＭａｘ２は、たとえば、「０ｘＦＦＦＦＦＦＦＦ」である。

［第４の実施形態の変形例］
図１６は、第４の実施形態の変形例のカウンタ回路５０２の構成を表わす図である。

カウンタ回路５０２は、第１のモードにおいて、ループＡ、およびループＡの１つ外側のループＢ、およびループＢの１つ外側のループＣの多重ループのループ変数をカウントし、第２のモードにおいて、ループＤの２倍ビット幅のループ変数をカウントする。

カウンタ回路５０２は、第１のカウンタ５３２Ａと、第２のカウンタ５３２Ｂと、第３のカウンタ５３２Ｃと、倍幅判定部５３３と、セレクタ１９０とを備える。図１６において、ブロック８００が、第２のモードにおいて実行される構成要素を表わす。

第１のカウンタ５３２Ａは、第１のモードにおいて、ループＡのループ変数をカウントし、第２のモードにおいて、ループＤのループ変数の下位ビットをカウントする。

第２のカウンタ５３２Ｂは、第１のモードにおいて、ループＢのループ変数をカウントし、第２のモードにおいて、ループＤのループ変数の上位ビットをカウントする。

第３のカウンタ５３２Ｃは、第１のモードにおいて、ループＣのループ変数をカウントする。

倍幅判定部５３３は、第２のモードにおいて、第１のカウンタ５３２Ａの値と第２のカウンタ５３２Ｂの値とに基づいて、ループＤの終了条件が満たされたか否かを判定する。倍幅判定部５３３は、第２のモードにおいて、ループＤの終了条件が満たされたときに、状態遷移コントローラ５０への条件成立信号ＥｖｅｎｔＬをアサートする。

第１のカウンタ５３２Ａは、第１のモードにおいて、ループＡの終了条件が満たされたときに第２のカウンタ５３２Ｂへの条件成立信号ＥｖｅｎｔＬをアサートする。

第２のカウンタ５３２Ｂは、第１のモードにおいて、条件成立信号ＥｖｅｎｔＬがアサートされたときには、ループＢのループ変数をインクリメントする。

第２のカウンタ５３２Ｂは、第１のモードにおいて、ループＢの終了条件が満たされたときに第３のカウンタ５３２Ｃへの条件成立信号ＥｖｅｎｔＭをアサートする。

第３のカウンタ５３２Ｃは、第１のモードにおいて、条件成立信号ＥｖｅｎｔＬがアサートされ、かつ条件成立信号ＥｖｅｎｔＭがアサートされたときには、ループＣのループ変数をインクリメントする。

第３のカウンタ５３２Ｃは、第１のモードにおいて、ループＣの終了条件が満たされたときに状態遷移コントローラ５０への条件成立信号ＥｖｅｎｔＵをアサートする。

第１のカウンタ５３２Ａは、レジスタ８９Ａと、セレクタ８１Ａと、レジスタ８２Ａと、レジスタ８４Ａと、加算器８３Ａと、セレクタ８８と、レジスタ８６Ａと、比較器８５Ａとを備える。

レジスタ８９Ａは、初期値ｓＩｎｉｔ［０］を記憶する。
セレクタ８１Ａは、初期化信号Ｉｎｉｔがアサートされているときには、初期値ｓＩｎｉｔ［０］を出力する。セレクタ８１Ａは、ＥｖｅｎｔＬがアサートされているときは、初期値ｓＩｎｉｔ［０］を出力する。セレクタ８１Ａは、第１のモードにおいて、初期化信号Ｉｎｉｔがアサートされず、かつモード信号ｍｏｄｅがアサートされているときには、レジスタ８２Ａのカウンタ値ｓＣｎｔ[０]を出力する。セレクタ８１Ａは、第１のモードにおいて、初期化信号Ｉｎｉｔがアサートされず、かつモード信号ｍｏｄｅがアサートされていないときには、加算器８３Ａの出力を出力する。セレクタ８１Ａは、第２のモードにおいて、倍幅判定部５３３の加算器１８３の３２ビット出力の下位１６ビットを出力する。

レジスタ８２Ａは、セレクタ８１Ａの出力をカウンタ値ｓＣｎｔ［０］として記憶する。

レジスタ８４Ａは、増分値ｓＩｎｃ［０］を記憶する。
加算器８３Ａは、加算指示信号ＣｎｔＥｎがアサートされているときに、レジスタ８２Ａの出力と、レジスタ８４Ａの出力とを加算する。

セレクタ８８は、モードＣｍｐＭｏｄｅがアサートされているときには、加算器８３Ａの出力を出力する。セレクタ８８は、モードＣｍｐＭｏｄｅがアサートされていないときには、レジスタ８２Ａの出力を出力する。

レジスタ８６Ａは、最大値ｓＭａｘ［０］を記憶する。
比較器８５Ａは、符号モードに基づいて、セレクタ８８の出力のＭＳＢを拡張された信号と最大値ｓＭａｘ［０］とを比較する。比較器８５Ａは、セレクタ８８の出力のＭＳＢを拡張された信号が最大値ｓＭａｘ［０］以上のときには、条件成立信号ＥｖｅｎｔＬをアサートする。

第２のカウンタ５３２Ｂは、レジスタ８９Ｂと、セレクタ８１Ｂと、レジスタ８２Ｂと、レジスタ８４Ｂと、加算器８３Ｂと、レジスタ８６Ｂと、比較器８５Ｂとを備える。

レジスタ８９Ｂは、初期値ｓＩｎｉｔ［１］を記憶する。
セレクタ８１Ｂは、初期化信号Ｉｎｉｔがアサートされているときには、初期値ｓＩｎｉｔ［１］を出力する。セレクタ８１Ｂは、ＥｖｅｎｔＬがアサートされ、かつＥｖｅｎｔＭがアサートされているときは、初期値ｓＩｎｉｔ［１］を出力する。セレクタ８１Ｂは、第１のモードにおいて、初期化信号Ｉｎｉｔがアサートされず、かつモード信号ｍｏｄｅがアサートされているときには、レジスタ８２Ｂのカウンタ値ｓＣｎｔ[１]を出力する。セレクタ８１Ｂは、第１のモードにおいて、初期化信号Ｉｎｉｔがアサートされず、かつモード信号ｍｏｄｅがアサートされていないときには、加算器８３Ｂの出力を出力する。セレクタ８１Ｂは、第２のモードにおいて、倍幅判定部５３３の加算器１８３の３２ビット出力の上位１６ビットを出力する。

レジスタ８２Ｂは、セレクタ８１Ｂの出力をカウンタ値ｓＣｎｔ［１］として記憶する。

レジスタ８４Ｂは、増分値ｓＩｎｃ［１］を記憶する。
加算器８３Ｂは、加算指示信号ＣｎｔＥｎがアサートされ、かつ条件成立信号ＥｖｅｎｔＬがアサートされているときに、レジスタ８２Ｂの出力と、レジスタ８４Ｂの出力とを加算する。

レジスタ８６Ｂは、最大値ｓＭａｘ［１］を記憶する。
比較器８５Ｂは、符号モードに基づいて、レジスタ８２Ｂの出力のＭＳＢを拡張された信号と最大値ｓＭａｘ［１］とを比較する。比較器８５Ｂは、レジスタ８２Ｂの出力のＭＳＢを拡張された信号が最大値ｓＭａｘ［１］以上のときには、条件成立信号ＥｖｅｎｔＭをアサートする。

第３のカウンタ５３２Ｃは、レジスタ８９Ｃと、セレクタ８１Ｃと、レジスタ８２Ｃと、レジスタ８４Ｃと、加算器８３Ｃと、レジスタ８６Ｃと、比較器８５Ｃとを備える。

レジスタ８９Ｃは、初期値ｓＩｎｉｔ［２］を記憶する。
セレクタ８１Ｃは、初期化信号Ｉｎｉｔがアサートされているときには、初期値ｓＩｎｉｔ［２］を出力する。セレクタ８１Ｂは、第１のモードにおいて、初期化信号Ｉｎｉｔがアサートされず、かつモード信号ｍｏｄｅがアサートされているときには、レジスタ８２Ｃのカウンタ値ｓＣｎｔ[２]を出力する。セレクタ８１Ｃは、第１のモードにおいて、初期化信号Ｉｎｉｔがアサートされず、かつモード信号ｍｏｄｅがアサートされていないときには、加算器８３Ｃの出力を出力する。

レジスタ８２Ｃは、セレクタ８１Ｃの出力をカウンタ値ｓＣｎｔ［２］として記憶する。

レジスタ８４Ｃは、増分値ｓＩｎｃ［２］を記憶する。
加算器８３Ａは、加算指示信号ＣｎｔＥｎがアサートされ、かつ条件成立信号ＥｖｅｎｔＬがアサートされ、かつ条件成立信号ＥｖｅｎｔＭがアサートされているときに、レジスタ８２Ｃの出力と、レジスタ８４Ｃの出力とを加算する。

レジスタ８６Ｃは、最大値ｓＭａｘ［２］を記憶する。
比較器８５Ｃは、符号モードに基づいて、レジスタ８２Ｃの出力のＭＳＢを拡張された信号と最大値ｓＭａｘ［２］とを比較する。比較器８５Ｃは、レジスタ８２Ｃの出力のＭＳＢを拡張された信号が最大値ｓＭａｘ［２］以上のときには、条件成立信号ＥｖｅｎｔＵをアサートする。

倍幅判定部５３３は、レジスタ１８４と、加算器１８３と、セレクタ１８８と、レジスタ８６と、比較器１８５とを備える。

レジスタ１８４は、増分値ｓＩｎｃ［０］を記憶する。
加算器１８３は、第２のモードにおいて、加算指示信号ＣｎｔＥｎがアサートされているときに、レジスタ８２Ａから出力されるカウンタ値ｓＣｎｔ［０］を下位１６ビットとし、レジスタ８２Ｂから出力されるカウンタ値ｓＣｎｔ［１］を上位１６ビットとした値と、レジスタ１８４の出力とを加算する。

セレクタ１８８は、モードＣｍｐＭｏｄｅがアサートされているときには、加算器１８３の出力を出力する。セレクタ１８８は、モードＣｍｐＭｏｄｅがアサートされていないときには、レジスタ８２Ａから出力されるカウンタ値ｓＣｎｔ［０］を下位１６ビットとし、レジスタ８２Ｂから出力されるカウンタ値ｓＣｎｔ［１］を上位１６ビットとした値を出力する。

レジスタ８６は、最大値ｓＭａｘ［０］を記憶する。
比較器１８５は、符号モードに基づいて、セレクタ１８８の出力と最大値ｓＭａｘ［０］とを比較する。比較器１８５は、セレクタ１８８の出力が最大値ｓＭａｘ［０］以上のときには、条件成立信号ＥｖｅｎｔＬをアサートする。

専用のカウンタ回路は高速である反面、全ての多重にネストしたループ記述に対応させようとすると回路規模が大きくなってしまう欠点がある。本実施の形態では、専用のカウンタ回路を複数連動させることによって、例えば３重ループ記述のすべてにおいて３２ビットカウンタ回路が必要な場合においてもネストしたカウンタ回路を実現することができる。

全て３つの専用カウンタ回路を３２ビット化した場合と比べると、多くのループ記述においては１６ビットのカウンタ回路で足りることから、本実施の形態では、遅延の増大を防ぎ、高速な動作が可能になる。また、本実施の形態によれば、多数の専用のカウンタ回路を設けること、およびカウンタ回路をプログラマブルロジックに接続するための配線スイッチを設けることによる面積増大を回避できる。

なお、多重のループ記述のうち、一部（例えば内側のループ記述のみなど）にしか専用カウンタ回路がマッチしない場合には、該当する部分には専用カウンタ回路を使い、マッチしない部分は既存のＰＥまたはＬＵＴなどの演算資源を組み合わせることでカウンタ回路を実現することとしてもよい。

［第５の実施形態］
図１７は、第５の実施形態のカウンタ回路、状態遷移コントローラ、およびプロセッシングエレメントアレイを表わす図である。

カウンタ回路５０２は、状態遷移コントローラ５０に隣接して配置される。
カウンタ回路５０２は、ループ脱出条件成立信号ＰＳ１、ＰＳ２、ＰＳ３、ＰＸを状態遷移コントローラ５０に出力する。

状態遷移コントローラ５０は、セレクタ５３、および状態指定部５２を備える。
セレクタ５３は、複数のループ脱出条件成立信号ＰＳ１、ＰＳ２、ＰＳ３、ＰＸから判定に使用する信号を選択する。

状態指定部５２は、選択した信号に応じて次の状態、および各状態に応じたデータパスコンテキストを決定する。

カウンタ回路５０２を状態遷移コントローラ５０に隣接させた位置に配置することによって、プロセッシングエレメントアレイ５１を通らずに、ループ脱出条件成立信号ＰＳ１、ＰＳ２、ＰＳ３、ＰＸ信号を状態遷移コントローラ５０に直接送ることができる。これによって、遅延時間を短縮させることができ、高速な動作が可能になる。

一方で、カウンタ回路５０２によるループ変数の値をループ中で参照する処理には、ループの脱出条件が成立したタイミングでのみ行う処理、またはループの脱出条件が未成立の間において行う処理が存在する。この時に参照する値は、プログラムの書き方により、加算前の値である場合、または加算後の値である。

本実施の形態では、第１のカウンタ５３２Ａの記憶部１１Ａの出力Ｓ１と加算部１２の出力Ａ１とをプロセッシングエレメントアレイ５１に出力する。プロセッシングエレメントアレイ５１は、記憶部１１Ａの出力Ｓ１と加算部１２の出力Ａ１との両方を利用することができる。

第２のカウンタ５３２Ｂ、および第３のカウンタ５３２Ｃについても、記憶部の出力と加算部の出力とをプロセッシングエレメントアレイ５１に出力するものとしてもよい。

［第５の実施形態の変形例１］
図１８は、第５の実施形態の変形例１のカウンタ回路、状態遷移コントローラ、およびプロセッシングエレメントアレイを表わす図である。

第１のカウンタ回路６０２および第２のカウンタ回路７０２は、連携してネストしたループに対応する。

第１のカウンタ回路６０２、および第２のカウンタ回路７０２は、１６ビット変数では多重ループに対応していても、３２ビットでは１重のループにしか対応しない。第１のカウンタ回路６０２と第２のカウンタ回路７０２とを連動させることによって多重のループに対応させることができる。

第１のカウンタ回路６０２は、第１のモードにおいて、ループＡ、ループＡの１つ外側のループＢ、およびループＢの１つ外側のループＣからなる多重ループのループ変数をカウントする。第２のカウンタ回路７０２は、第１のモードにおいて、ループＤ、ループＤの１つ外側のループＥ、およびループＥの１つ外側のループＦからなる多重ループのループ変数をカウントする。

第１のカウンタ回路６０２は、第２のモードにおいて、２重ループの内側のループＧの２倍ビット幅のループ変数をカウントする。第２のカウンタ回路７０２は、第２のモードにおいて、ループＧの１つ外側のループＨの２倍ビット幅のループ変数をカウントする。

第１のカウンタ回路６０２は、第１のカウンタ１３２Ａ、第２のカウンタ１３２Ｂ、第３のカウンタ１３２Ｃ、および倍幅判定部１３３を備える。

第１のカウンタ１３２Ａは、第１のモードにおいて、ループＡのループ変数をカウントし、第２のモードにおいて、ループＧの２倍ビット幅のループ変数の下位ビットをカウントする。

第２のカウンタ１３２Ｂは、第１のモードにおいて、ループＢのループ変数をカウントし、第２のモードにおいて、ループＧの２倍ビット幅のループ変数の上位ビットをカウントする。

第３のカウンタ１３２Ｃは、第１のモードにおいて、ループＣのループ変数をカウントする。

第１のカウンタ１３２Ａは、第１のモードにおいて、ループＡの終了条件が満たされたときに第２のカウンタ１３２Ｂに条件成立信号ＰＳ１Ａを出力する。

第２のカウンタ１３２Ｂは、第１のモードにおいて、条件成立信号ＰＳ１Ａを受けたときには、ループＢのループ変数をインクリメントする。第２のカウンタ１３２Ｂは、第１のモードにおいて、ループＢの終了条件が満たされたときに第３のカウンタ１３２Ｃに条件成立信号ＰＳ２Ａを出力する。

第３のカウンタ１３２Ｃは、第１のモードにおいて、条件成立信号ＰＳ２Ａを受けたときには、ループＣのループ変数をインクリメントする。第３のカウンタ１３２Ｃは、第１のモードにおいて、ループＣの終了条件が満たされたときに、状態遷移コントローラ５０に条件成立信号ＰＳ３Ａを出力する。

第１のカウンタ１３２Ａは、第２のモードにおいて、ループＧのループ変数の下位ビットが最大値を超えたときに、第２のカウンタ１３２Ｂに条件成立信号ＰＳ１Ａを出力する。

第２のカウンタ１３２Ｂは、第２のモードにおいて、条件成立信号ＰＳ１Ａを受けたときには、ループＧのループ変数の上位ビットをインクリメントする。

倍幅判定部１３３は、第２のモードにおいて、第１のカウンタ１３２Ａの値と第２のカウンタ１３２Ｂの値とに基づいて、ループＧの終了条件が満たされたか否かを判定し、ループＧの終了条件が満たされたときに、条件成立信号ＰＳＸを出力する。

第２のカウンタ回路７０２は、第１のカウンタ２３２Ａ、第２のカウンタ２３２Ｂ、第３のカウンタ２３２Ｃ、および倍幅判定部２３３を備える。

第１のカウンタ２３２Ａは、第１のモードにおいて、ループＤのループ変数をカウントし、第２のモードにおいて、ループＨの２倍ビット幅のループ変数の下位ビットをカウントする。

第２のカウンタ２３２Ｂは、第１のモードにおいて、ループＥのループ変数をカウントし、第２のモードにおいて、ループＨの２倍ビット幅のループ変数の上位ビットをカウントする。

第３のカウンタ２３２Ｃは、第１のモードにおいて、ループＦのループ変数をカウントする。

第１のカウンタ２３２Ａは、第１のモードにおいて、ループＤの終了条件が満たされたときに第２のカウンタ２３２Ｂに条件成立信号ＰＳ１Ｂを出力する。

第２のカウンタ２３２Ｂは、第１のモードにおいて、条件成立信号ＰＳ１Ｂを受けたときには、ループＥのループ変数をインクリメントする。第２のカウンタ２３２Ｂは、第１のモードにおいて、ループＥの終了条件が満たされたときに第３のカウンタ２３２Ｃに条件成立信号ＰＳ２Ｂを出力する。

第３のカウンタ２３２Ｃは、第１のモードにおいて、条件成立信号ＰＳ２Ｂを受けたときには、ループＦのループ変数をインクリメントする。第３のカウンタ２３２Ｃは、第１のモードにおいて、ループＦの終了条件が満たされたときに、状態遷移コントローラ５０に条件成立信号ＰＳ３Ｂを出力する。

第１のカウンタ２３２Ａは、第２のモードにおいて、条件成立信号ＰＳＸを受けたときには、ループＨのループ変数の下位ビットをインクリメントする。

第１のカウンタ２３２Ａは、第２のモードにおいて、ループＨのループ変数の下位ビットが最大値を超えたときに、第２のカウンタ２３２Ｂに条件成立信号ＰＳ１Ｂを出力する。

第２のカウンタ２３２Ｂは、第２のモードにおいて、条件成立信号ＰＳ１Ｂを受けたときには、ループＨのループ変数の上位ビットをインクリメントする。

倍幅判定部２３３は、第２のモードにおいて、第１のカウンタ２３２Ａの値と第２のカウンタ２３２Ｂの値とに基づいて、ループＨの終了条件が満たされたか否かを判定し、ループＨの終了条件が満たされたときに、条件成立信号ＰＳＹを出力する。

［第５の実施形態の変形例２］
図１９は、第５の実施形態の変形例２のカウンタ回路、状態遷移コントローラ、およびプロセッシングエレメントアレイを表わす図である。

第１のカウンタ回路６０２は、第２のモードにおいて、ループＡの２倍ビット幅のループ変数をカウントする。

第２のカウンタ回路７０２は、第２のモードにおいて、ループＡの１つ外側のループＢの２倍ビット幅のループ変数をカウントする。

第１のカウンタ回路６０２は、ループＡの終了条件が満たされたときにプロセッシングエレメントアレイ５１にループ脱出条件成立信号ＰＳＸを出力する。

プロセッシングエレメントアレイ５１の少なくとも１つのプロセッシングエレメントＰＥがループ脱出条件成立信号ＰＳＸに基づく論理演算を実行し、論理演算の結果が所定の条件を満たすときに、増加指示信号を第２のカウンタ回路７０２に出力する。

第２のカウンタ回路７０２は、増加指示信号を受けたときには、ループＢのループ変数をインクリメントする。第２のカウンタ回路７０２は、ループＢの終了条件が満たされたときに状態遷移コントローラ５０にループ脱出条件成立信号ＰＳＹを出力する。

［第６の実施形態］
図２０は、第６の実施形態の動的再構成プロセッサの構成を表わす図である。

動的再構成プロセッサは、第１のカウンタ回路２Ａ、２Ｂ、２Ｃと、第２のカウンタ回路２０Ａ、２０Ｂ、２０Ｃを備える。

第２のカウンタ回路２０Ａ、２０Ｂ、２０Ｃは、第１のカウンタ回路２Ａ、２Ｂ、２Ｃのコピーカウンタである。

第１のカウンタ回路２Ａは、変数Ａをカウントする。第１のカウンタ回路２Ｂは、変数Ｂをカウントする。第１のカウンタ回路２Ｃは、変数Ｃをカウントする。第２のカウンタ回路２０Ａは、変数Ａをカウントする。第２のカウンタ回路２０Ｂは、変数Ｂをカウントする。第２のカウンタ回路２０Ｃは、変数Ｃをカウントする。

第１のカウンタ回路２Ａと第２のカウンタ回路２０Ａとは、両方が同時に、または一方だけが変数Ａをカウントすることができる。第１のカウンタ回路２Ｂと第２のカウンタ回路２０Ｂとは、両方が同時に、または一方だけが変数Ｂをカウントすることができる。第１のカウンタ回路２Ｃと第２のカウンタ回路２０Ｃとは、両方が同時に、または一方だけが変数Ｃをカウントすることができる。

第１のカウンタ回路２Ａ、２Ｂ、２Ｃは、状態遷移コントローラ５０の近傍に配置される。第１のカウンタ回路２Ａ、２Ｂ、２Ｃの出力は、状態遷移コントローラ５０に送られ、動的再構成プロセッサの制御のために用いられる。

第２のカウンタ回路２０Ａ、２０Ｂ、２０Ｃは、メモリＶＭＥＭ、ＨＭＥＭの近傍に配置される。メモリＶＭＥＭ、ＨＭＥＭは、第１のカウンタ回路２Ａ、２Ｂ、２Ｃ、および状態遷移コントローラ５０から離れた場所に配置されるため、第１のカウンタ回路２Ａ、２Ｂ、２Ｃからループ脱出条件成立信号、または変数のカウンタ値などをＶＭＥＭ、ＨＭＥＭに供給しようとするとＰＥアレイ５１の中を通過する配線が必要となるため、遅延が大きくなる。

第２のカウンタ回路２０Ａ、２０Ｂ、２０Ｃは、近傍のメモリＶＭＥＭ、ＨＭＥＭにループ脱出条件成立信号、または変数のカウンタ値などを供給することによって、遅延を短縮することができる。

なお、図２０の例では、左上隅にはカウンタ回路が配置されていないが、第２のカウンタ回路を配置してもよい。

［第６の実施形態の変形例］
脱出条件成立信号ＰＳは、ループの脱出条件が成立したタイミングでのみ行う処理を有効とする信号として使える。一方、ループの脱出条件が未成立の間において行う処理用には脱出条件成立信号ＰＳを反転させる必要がある。たとえば、ループの脱出条件が未成立の間において、レジスタのライトイネーブルを指示する信号をアサートする場合がある。

プロセッシングエレメントアレイ５１中において脱出条件成立信号ＰＳを反転することも考えられるが、演算器を使用してしまうとともに、遅延量が増加するという問題がある。カウンタ回路が脱出条件成立信号ＰＳを反転した信号を出力することによって、このような問題を回避することができる。

図２１は、第６の実施形態の変形例のカウンタ回路２Ｘの構成を表わすブロック図である。このカウンタ回路２Ｘが、第１の実施形態のカウンタ回路２と相違する点は、カウンタ回路２Ｘが、反転部１１４を備える点である。

反転部１１４は、ループ脱出条件成立信号ＰＳを反転することによって、反転ループ脱出条件成立信号／ＰＳを生成して、出力する。反転部１１４は、たとえば、インバータによって構成される。

図２２は、脱出条件成立信号ＰＳおよび反転脱出条件信号／ＰＳが利用されるプログラムの例を表わす図である。

内側ループ内のarrayへの書き込みについては、内側ループを脱出していないときに書き込みを有効とするため、脱出条件成立信号ＰＳを反転した信号／ＰＳをarray用のレジスタへのライトイネーブルを指示する信号として用いることができる。これによって、カウンタ回路からメモリの間に別途信号反転用の汎用演算器を設ける必要がなくなる。

内側ループ脱出後のarray2への書き込みについては、脱出条件成立信号ＰＳをarray2用のレジスタへのライトイネーブルを指示する信号として用いることができる。

[第７の実施形態］
カウンタ回路は、次のような利用法がある。カウンタ回路はループの内側の演算においても活用することができる。あるレジスタに毎回他から供給される値を加算するアキュムレータは、プロセッシングエレメントＰＥでも構築することができる。しかし、レジスタと加算器とをプログラマブル配線接続し、レジスタを起点かつ終点とするループを形成させる必要があるので、遅延が大きくなるという問題がある。

図２３は、第７の実施形態のカウンタ回路７２の構成要素を表わすブロック図である。
カウンタ回路７２は、ループの内部において増分値が繰り返し加算されるアキュムレータ変数をカウントする。

カウンタ回路７２は、第１の実施形態で説明したカウンタ回路２と同様に、記憶部１１と、選択部１３４と、加算部１２と、および比較部１４を備える。

図２４は、アキュムレータを利用するプログラムの例を表わす図である。
図２４のプログラムでは、for文によるループ記述の内側において、アキュムレータ変数acumが自己参照して累算（アキュムレータ）を行っている。例えば、画像領域内の画素値の平均を算出する場合にこのようなアキュムレータが必要になる。

加算部１２に入力される増分値αは、プロセッシングエレメントＰＥから与えるようにすることもできる。その結果、上記のループの内部の処理回路を固定回路とすることができる。増分値αを入力する部分については、パイプラインレジスタを挿入することで、全体として遅延量を抑えることができる。

加算部１２の加算器を浮動小数点にも対応させることで、浮動小数点のアキュムレータとして使うこともできる。浮動小数点演算は一般的に整数演算よりも遅延が大きいため、カウンタ回路７２を用いることによって、遅延量を短縮することができる。

［第８の実施形態］
画像処理では、ｘ方向およびｙ方向の二重のネストしたループ記述を使って二次元平面上の点の位置を動かしていくことで処理する場所を移動させていく。ＡＩにおける畳み込み処理ではさらにｚ方向となるチャネル方向の処理が入ることがある。このような画像処理およびＡＩにおける畳み込みなどを専用ロジック、またはプログラマブルロジックなどによって処理する場合に、高いスループットを得るための方法として回路をパイプライン化にすることが考えられる。

しかしながら、パイプライン回路の遅延を短縮して高速化していくと、カウンタ回路がクリティカルパス（最大遅延のパス、つまり動作周波数を上げる上でボトルネックになっている部分）になるという課題があった。特にループがネストしていて、多重になっている場合には、カウンタ回路がクリティカルパスになる可能性が高くなる。

カウンタ回路を上述の実施形態において説明したように専用回路化することによって、このような問題を解決することができる。

本実施の形態では、動的再構成プロセッサ、そのコンパイル方法、パイプライン回路の合成について説明した上で、カウンタ回路をマッピングする方法、およびその実例を示す。

本実施の形態のコンパイラは、上述の実施形態で説明したカウンタ回路を備える動的再構成プロセッサによって実行されるコードを生成する。

図２５は、コンパイラの構成を表わす図である。
コンパイラは、動作合成部９００と、テクノロジマッピング部９０４と、配置配線部９０５と、コード生成部９０６とを備える。

動作合成部９００は、状態遷移コントローラ５０へ割り当てる状態遷移マシン（ＦＳＭ）、および各状態に応じた回路であるデータパスコンテキストを生成する。

動作合成部９００は、Ｃ言語などの動作記述言語によって記述されたプログラム、遅延情報を含む回路ライブラリ、動作周波数および回路規模など合成制約条件から状態遷移マシン（ＦＳＭ）、および状態遷移マシンの各状態に応じたデータパスコンテキストを生成する。

動作合成部９００は、データフロー解析時に上述の実施形態において説明した専用のカウンタ回路を抽出する。動作合成のスケジューリングにおいて専用カウンタ回路を考慮することができるため、カウンタ回路の資源の個数管理および遅延管理が容易になる。

テクノロジマッピング部９０４は、論理合成などの最適化、およびＰＥの演算ビット幅に応じたマッピング処理を行なう。

配置配線部９０５は、演算器、レジスタ、メモリの位置を決めて、プログラマブル配線を結線する。

コード生成部９０６は、状態遷移コントローラ（ＳＴＣ）向けのコンフィギュレーションコード、およびＰＥアレイ向けのコンフィギュレーションコードを生成する。

図２６は、動作合成部９００によって生成される状態遷移マシン、およびデータパスコンテキストの例を表わす図である。

動的再構成プロセッサは、回路切り替えを活用することによって、複数の条件の回路および初期化回路を混在させずに、必要な部分のみをコンテキストとして動かすことができる。例えば、画像処理の例では、動的再構成プロセッサは、内側ループ内の画像処理用のパイプライン回路と、専用カウンタ回路の設定用のレジスタ初期化回路と、その他の前処理と、後処理とを切り替える。これらを動的再構成プロセッサの各データパスコンテキストへ割り当てて、状態遷移マシンによって画像領域に応じてデータパスコンテキストを切り替える。

図２７は、動作合成時に生成されるパイプラインの例を表わす図である。
動作合成部９００は、処理スループットを向上させるために、最も内側のループの内部の処理をパイプライン化する。動作合成部９００は、データフローグラフを生成後にパイプライン化に向けて演算器などのリソースを制約してスケジューリングする。この際に、動作合成部９００は、データハザードを避けるために、レジスタ・フォワーディングなどを行った後に、パイプライン化で複数の状態を折りたたんでパイプライン回路として合成する。

図２７では、４状態の回路を１状態の４ステージの回路として折りたたみ一つのコンテキストにまとめることによってスループットを４倍に向上させる例を示している。

ループ内の処理は前述したようにパイプライン化によってスループットを向上させることができる。パイプライン化では、演算途中でレジスタまたはF/Fを挿入することで遅延を短縮することができる。

しかし、内側ループと外側ループのループ記述は、パイプライン化することができないため、性能上のボトルネックとなりやすい。特にネストしたループの場合には、複数のカウンタ回路を連動させる必要があるため、動作周波数を上げることが難しくなる。そこで、動作合成部９００は、多重ループの記述を上述の実施形態で説明した多重ループに対応した専用のカウンタ回路にマッピングする。

図２８は、ループの繰り返し回数が４回の場合のパイプライン回路の実行例を表わす図である。

パイプライン回路ではデータを導入するまでのプロローグの要するサイクルと、データを排出するためのエピローグに要するサイクルとが必要となる。１状態４ステージのパイプライン回路の場合には、図２８に示すように、３サイクルのプロローグ、および３サイクルのエピローグ用のサイクル数が必要になる。

図２９は、パイプライン化のオーバーヘッドを表わす図である。
２重にネストしたループにおいて内側ループＡのみをパイプライン化した場合、図２９に示すように、１状態４ステージのパイプライン回路の外側に別のループが存在することになる。外側ループＢが１回実行されるごとに、内側ループＡのプロローグおよびエピローグの時間が隙間となって生じるため、実行サイクル上のオーバーヘッドになってしまう。

図３０は、パイプライン化のオーバーヘッドを削減する例を表わす図である。
動作合成部９００は、ループＡの各繰り返しにおいて、最初のステージの終了後に、第１ループ用カウンタ２２ＡにループＡのループ変数をインクリメントさせるデータパスコンテキストを生成する。動作合成部９００は、ループＡの最後の繰り返しにおける最初のステージの終了後に、第２ループ用カウンタ２２ＢにループＢのループ変数をインクリメントさせるデータパスコンテキストを生成する。

これによって、ループＢの各繰り返し回数において、ループＡの繰り返し回数がｋ回目での最初のステージの終了後に、ループＡの繰り返し回数が（ｋ＋１）回目での最初のステージが開始する。ループＢの繰り返し回数がｓ回目でのループＡの最後の繰り返し回数における最初のステージの終了後に、ループＢの繰り返し回数が（ｓ＋１）回目におけるループＡの繰り返し回数が１回目における最初のステージが開始する。

図３０に示すように、外側ループが内側ループの中に入ることによって、１重のループ化するができる。その結果、外側ループがまわるごとに発生する内側ループのプロローグおよびエピローグに関わるオーバーヘッドを削減することができる。これによって、全体のサイクル数を短縮することができる。

なお、合成フローにおいて、テクノロジマッピング時にカウンタ回路に該当する回路を抽出して専用カウンタ回路へマッピングするものとしてもよい。専用カウンタ回路にマッチするかどうかの判別、多重にネストしたループ記述から複数の専用カウンタ回路を使う場合の分割、その間のプログラマブル配線の接続などを行なうものとしてもよい。

以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。

１プログラマブルロジック、２，２Ａ，２Ｂ，２Ｃ，２Ｘ，２０Ａ，２０Ｂ，２０Ｃ，７２，１５２，１６３，２０２，２０３，３０２，４０２，５０２，６０２，７０２カウンタ回路、１１，１１Ａ，１１Ｂ，１１Ｃ記憶部、１２，１２Ａ，１２Ｂ，１２Ｃ加算部、１３，１３Ａ，１３Ｂ，１３Ｃ，１３４選択部、１４，１４Ａ，１４Ｂ，１４Ｃ，３４，６４比較部、２２Ａ第１ループ用カウンタ、２２Ｂ第２ループ用カウンタ、２２Ｃ第３ループ用カウンタ、３２Ａ下位ビット用カウンタ、３２Ｂ上位ビット用カウンタ、３３，１３３，２３３，５３３倍幅判定部、５０状態遷移コントローラ、５１，１８２アレイ、５２状態指定部、５３，８１Ａ，８１Ｂ，８１Ｃ，８８，１８８，１９０，３８１セレクタ、８２Ａ，８２Ｂ，８２Ｃ，８４Ａ，８４Ｂ，８４Ｃ，８６，８６Ａ，８６Ｂ，８６Ｃ，８９Ａ，８９Ｂ，８９Ｃ，９３，１８４，３８２，３８４，３８６レジスタ、８３Ａ，８３Ｂ，８３Ｃ，１８３，３８３加算器、８５Ａ，８５Ｂ，８５Ｃ，１８５比較器、９１命令メモリ、９２演算器、１１４反転部、１３２Ａ，２３２Ａ，５３２Ａ第１のカウンタ、１３２Ｂ，２３２Ｂ，５３２Ｂ第２のカウンタ、１３２Ｃ，２３２Ｃ，５３２Ｃ第３のカウンタ、１６１プロセッサ、９００動作合成部、９０４テクノロジマッピング部、９０５配置配線部、９０６コード生成部、ＨＭＥＭ，ＶＭＥＭメモリ、ＭＵＬ乗算器、ＰＥプロセッシングエレメント、ＳＷ，ＳＷＩ，ＳＷＯスイッチ。

Claims

複数のプログラマブルロジックからなるアレイと、
繰り返し変更操作される変数をカウントするための少なくとも１つの専用のカウンタ回路と、を備えたプロセッサ。
前記カウンタ回路は、ループ記述におけるループ変数をカウントする、請求項１記載のプロセッサ。
前記カウンタ回路は、ループの内部において増分値が繰り返し加算されるアキュムレータ変数をカウントする、請求項１記載のプロセッサ。
前記カウンタ回路は、
選択部、記憶部、加算部、および比較部を備え、
前記選択部は、初期値、および前記加算部の出力のいずれかを選択して出力し、
前記記憶部は、前記選択部の出力を記憶し、
前記加算部は、前記記憶部の出力と増分値とを加算し、
前記比較部は、前記加算部の出力と最大値とを比較し、比較結果を表わす信号を出力する、請求項１記載のプロセッサ。
前記カウンタ回路は、
第１ループのループ変数をカウントする第１のカウンタと、
前記第１ループの１つ外側の第２ループのループ変数をカウントする第２のカウンタと、を含み、
前記第１のカウンタは、前記第１ループの終了条件が満たされたときに前記第２のカウンタに第１の信号を出力し、
前記第２のカウンタは、前記第１の信号を受けたときには、前記第２ループのループ変数をインクリメントする、請求項２記載のプロセッサ。
前記プロセッサは、
前記プログラマブルロジック、および前記カウンタ回路を制御することによって、前記プロセッサの状態遷移を制御する状態遷移コントローラをさらに備え、
前記第２のカウンタは、前記第２ループの終了条件が満たされたときに前記状態遷移コントローラに第２の信号を出力する、請求項５記載のプロセッサ。
前記カウンタ回路は、
ループ変数の下位ビットをカウントする第１のカウンタと、
前記ループ変数の上位ビットをカウントする第２のカウンタと、
前記第１のカウンタの値と前記第２のカウンタの値とに基づいて、ループの終了条件が満たされたか否かを判定する倍幅判定部と、を含み、
前記第１のカウンタは、前記ループ変数の下位ビットが最大値を超えたときに、キャリー信号を前記第２のカウンタに出力し、
前記第２のカウンタは、前記キャリー信号を受けたときには、前記ループ変数の上位ビットをインクリメントする、請求項２記載のプロセッサ。
前記カウンタ回路は、第１のモードにおいて、第１ループおよび前記第１ループの１つ外側の第２ループを含む多重ループのループ変数をカウントし、第２のモードにおいて、第３ループの２倍ビット幅のループ変数をカウントし、
前記第１のモードにおいて、前記第１ループのループ変数をカウントし、前記第２のモードにおいて、前記第３ループのループ変数の下位ビットをカウントする第１のカウンタと、
前記第１のモードにおいて、前記第２ループのループ変数をカウントし、前記第２のモードにおいて、前記第３ループのループ変数の上位ビットをカウントする第２のカウンタと、
前記第２のモードにおいて、前記第１のカウンタの値と前記第２のカウンタの値とに基づいて、前記第３ループの終了条件が満たされたか否かを判定する倍幅判定部と、を含み、
前記第１のカウンタは、前記第１のモードにおいて、前記第１ループの終了条件が満たされたときに前記第２のカウンタに第１の信号を出力し、
前記第２のカウンタは、前記第１のモードにおいて、前記第１の信号を受けたときには、前記第２ループのループ変数をインクリメントし、
前記第１のカウンタは、前記第２のモードにおいて、前記第３ループのループ変数の下位ビットが最大値を超えたときに、前記第２のカウンタに前記第１の信号を出力し、
前記第２のカウンタは、前記第２のモードにおいて、前記第１の信号を受けたときには、前記第３ループのループ変数の上位ビットをインクリメントする、請求項２記載のプロセッサ。
前記プロセッサは、
前記プログラマブルロジック、および前記カウンタ回路を制御することによって、前記プロセッサの状態遷移を制御する状態遷移コントローラをさらに備え、
前記カウンタ回路は、前記状態遷移コントローラに隣接して配置される、請求項１記載のプロセッサ。
前記少なくとも１つのカウンタ回路は、第１のカウンタ回路と第２のカウンタ回路とを備え、
前記第１のカウンタ回路は、第１のモードにおいて、第１ループおよび前記第１ループの１つ外側の第２ループを含む多重ループのループ変数をカウントし、前記第２のカウンタ回路は、前記第１のモードにおいて、第３ループおよび前記第３ループの１つ外側の第４ループを含む多重ループのループ変数をカウントし、
前記第１のカウンタ回路は、第２のモードにおいて、２重ループの内側の第５ループの２倍ビット幅のループ変数をカウントし、前記第２のカウンタ回路は、前記第２のモードにおいて、前記第５ループの１つ外側の第６ループの２倍ビット幅のループ変数をカウントし、
前記第１のカウンタ回路は、
前記第１のモードにおいて、前記第１ループのループ変数をカウントし、前記第２のモードにおいて、前記第５ループのループ変数の下位ビットをカウントする第１のカウンタと、
前記第１のモードにおいて、前記第２ループのループ変数をカウントし、前記第２のモードにおいて、前記第５ループのループ変数の上位ビットをカウントする第２のカウンタと、
前記第２のモードにおいて、前記第１のカウンタの値と前記第２のカウンタの値とに基づいて、前記第５ループの終了条件が満たされたか否かを判定し、前記第５ループの終了条件が満たされたときに、第５ループ条件成立信号を出力する倍幅判定部と、を含み、
前記第１のカウンタは、前記第１のモードにおいて、前記第１ループの終了条件が満たされたときに前記第２のカウンタに第１の条件成立信号を出力し、
前記第２のカウンタは、前記第１のモードにおいて、前記第１の条件成立信号を受けたときには、前記第２ループのループ変数をインクリメントし、
前記第１のカウンタは、前記第２のモードにおいて、前記第５ループのループ変数の下位ビットが最大値を超えたときに、前記第２のカウンタに第１の条件成立信号を出力し、
前記第２のカウンタは、前記第２のモードにおいて、前記第１の条件成立信号を受けたときには、前記第５ループのループ変数の上位ビットをインクリメントし、
前記第２のカウンタ回路は、
前記第１のモードにおいて、前記第３ループのループ変数をカウントし、前記第２のモードにおいて、前記第６ループのループ変数の下位ビットをカウントする第１のカウンタと、
前記第１のモードにおいて、前記第４ループの変数をカウントし、前記第２のモードにおいて、前記第６ループのループ変数の上位ビットをカウントする第２のカウンタと、
前記第２のモードにおいて、前記第１のカウンタの値と前記第２のカウンタの値とに基づいて、前記第６ループの終了条件が満たされたか否かを判定する倍幅判定部と、を含み、
前記第１のカウンタは、前記第１のモードにおいて、前記第３ループの終了条件が満たされたときに前記第２のカウンタに第１の条件成立信号を出力し、
前記第２のカウンタは、前記第１のモードにおいて、前記第１の条件成立信号を受けたときには、前記第４ループの変数をインクリメントし、
前記第１のカウンタは、前記第２のモードにおいて、前記第５ループ条件成立信号を受けたときには、前記第６ループのループ変数の下位ビットをインクリメントし、
前記第１のカウンタは、前記第２のモードにおいて、前記第６ループのループ変数の下位ビットが最大値を超えたときに、前記第２のカウンタに第１の条件成立信号を出力し、
前記第２のカウンタは、前記第２のモードにおいて、前記第１の条件成立信号を受けたときには、前記第６ループのループ変数の上位ビットをインクリメントする、請求項２記載のプロセッサ。
前記少なくとも１つのカウンタ回路は、
第１ループのループ変数をカウントする第１のカウンタ回路と、
前記第１ループの１つ外側の第２ループのループ変数をカウントする第２のカウンタ回路と、を含み、
前記第１のカウンタ回路は、第１ループの終了条件が満たされたときに前記プログラマブルロジックに第１の信号を出力し、
前記プログラマブルロジックは、前記第１の信号に基づく論理演算を実行し、前記論理演算の結果が所定の条件を満たすときに増加指示信号を前記第２のカウンタ回路に出力し、
前記第２のカウンタ回路は、前記増加指示信号を受けたときには、前記第２ループのループ変数をインクリメントする、請求項２記載のプロセッサ。
前記プロセッサは、
前記プログラマブルロジック、および前記カウンタ回路を制御することによって、前記プロセッサの状態遷移を制御する状態遷移コントローラをさらに備え、
前記第２のカウンタ回路は、前記第２ループの終了条件が満たされた時に、前記状態遷移コントローラに第２の信号を出力する、請求項１１記載のプロセッサ。
前記プロセッサは、
メモリと、
前記プログラマブルロジック、および前記カウンタ回路を制御することによって、前記プロセッサの状態遷移を制御する状態遷移コントローラと、をさらに備え、
前記少なくとも１つのカウンタ回路は、
前記状態遷移コントローラの近傍に配置され、第１の変数をカウントする第１のカウンタ回路と、
前記メモリの近傍に配置され、前記第１の変数をカウントする第２のカウンタ回路と、を含む、請求項１記載のプロセッサ。
前記カウンタ回路は、
前記比較結果を表わす信号の反転信号を生成する反転部をさらに含む、請求項４記載のプロセッサ。
動的再構成プロセッサによって実行されるコードを生成するコンパイラであって、
前記動的再構成プロセッサは、
複数のプログラマブルプロセッサからなるアレイと、
第１ループのループ変数をカウントする第１のカウンタと、
前記第１ループの１つ外側の第２ループのループ変数をカウントする第２のカウンタと、
前記プログラマブルプロセッサ、前記第１のカウンタおよび前記第２のカウンタを制御することによって、前記動的再構成プロセッサの状態遷移を制御する状態遷移コントローラと、を備え、
前記コンパイラは、
前記第１ループの内部の処理を複数のステージにパイプライン化し、前記第１ループの各繰り返しにおいて、最初のステージの終了後に、前記第１のカウンタに前記第１ループのループ変数をインクリメントさせ、前記第１ループの最後の繰り返しにおける最初のステージの終了後に、前記第２のカウンタに前記第２ループのループ変数をインクリメントさせるデータパスコンテキストを生成する動作合成部、を備えたコンパイラ。