JP6849908B2

JP6849908B2 - 情報処理装置、ｐｌｄ管理プログラム及びｐｌｄ管理方法

Info

Publication number: JP6849908B2
Application number: JP2016248297A
Authority: JP
Inventors: 芳印; 渡部　康弘; 康弘渡部
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2016-12-21
Filing date: 2016-12-21
Publication date: 2021-03-31
Anticipated expiration: 2036-12-21
Also published as: US10050627B2; US20180175861A1; JP2018101359A

Description

本発明は，情報処理装置、PLD管理プログラム及びPLD管理方法に関する。

プログラマブルロジックデバイス（Programmable Logic Device, 以下PLDと称する。）は、予め複数の論理回路要素、メモリ回路要素、配線、スイッチ等が形成された集積回路に、所定の処理を実行可能な回路をコンフィグレーションするためのコンフィグレーションデータが設定または書込まれると、所定の処理を実行可能な回路をリコンフィグレーションする。このようなPLDは、例えばFPGA（Field Programmable Gate Array）などであり、コンフィグレーションデータを書き換えることで内部の回路を様々な論理回路にリコンフィグレーション可能なLSIである。以下、PLDの１つであるFPAGを例にして説明する。

プロセッサは、ソフトウエアの所定の処理（例えばジョブ）をハードウエアの専用回路で実行するとき、その専用回路をコンフィグレーションするためのコンフィグレーションデータをFPGAに設定または書込んでFPGA内に専用回路をコンフィグレーションし、その専用回路に所定の処理を実行させる。また、専用回路が所定の処理を終了すると、異なる処理を実行する別の専用回路のコンフィグレーションデータをFPGAに設定または書き込んでFPGA内に別の専用回路をコンフィグレーションし、別の専用回路に異なる処理を実行させる。プロセッサがソフトウエアの所定の処理をFPGAの専用回路に実行させることで、FPGAをプロセッサのアクセラレータとして利用する。これにより、プロセッサを有する情報処理装置（コンピュータ）を省電力化、高機能化できる。

FPGAの大規模化に伴い、FPGA内に複数の論理回路をコンフィグレーションし、複数の論理回路を並行して動作させることができる。また、FPGA内にコンフィグレーションした複数の論理回路を動作させながら、一部の論理回路をリコンフィグレーションして新たな論理回路の動作を開始するなど、複数の論理回路を非同期で動的にリコンフィグレーションし、非同期で並列に動作させることが可能になる。

FPGAに複数の回路をコンフィグレーションすることについては以下の特許文献に開示されている。

特開２０１６−７６８６７号公報特開２０１５−２３１２０５号公報

一方で、複数のユーザが、プロセッサとFPGAを搭載した情報処理装置を使用する場合、複数のユーザのプログラムの特定の処理を、FPGAにコンフィグレーションした複数の論理回路がそれぞれ処理することがある。その場合、複数のユーザのプログラムは、互いの論理回路を意識せず、それぞれの論理回路をFPGA内にコンフィグレーションし、コンフィグレーションされた複数の論理回路がFPGAを部分的に且つ動的に共用する。その結果、FPGAとメモリとの間のバスの使用帯域がバス帯域の上限値に達してバス帯域にボトルネックが発生する場合がある。

そこで，本発明の目的は，PLDのバス帯域のボトルネックの発生を抑制する情報処理装置、PLD管理プログラム及びPLD管理方法を提供することにある。

実施の形態の第１の側面は，プログラムを実行するプロセッサと、前記プロセッサからのコンフィグレーション要求に応じて、前記コンフィグレーション要求が要求する論理回路をコンフィグレーションするリコンフィグレーション領域を有するプログラマブルロジック回路装置（以下ＰＬＤ）とを有し、前記プロセッサは、前記リコンフィグレーション領域内にコンフィグレーションされ動作中の複数の論理回路のデータ転送量の測定値を取得し、前記取得したデータ転送量の合計が前記ＰＬＤのバスのデータ転送量の上限値を超えない範囲で、前記リコンフィグレーション領域内にコンフィグレーションする前記複数の論理回路それぞれの並列数を増加する、情報処理装置である。

第１の側面によれば，PLDのバス帯域のボトルネックの発生を抑制することができる。

本実施の形態における情報処理装置の構成例を示す図である。 FPGAの構成例を示す図である。 FPGAのリコンフィグレーション領域の一例を示す図である。複数のユーザの論理回路が動的にコンフィグレーションされそして削除される例を説明する図である。 FPGA内にコンフィグレーションされる論理回路の並列度の制御例を示す図である。 FPGAにおけるバス帯域のボトルネックを説明する図である。第1の実施の形態におけるFPGA管理方法による並列度の制御例を示す図である。第1の実施の形態におけるFPGA管理プログラムのフローチャート図である。プロセッサが管理するユーザ回路のパラメータを示す図表である。ユーザ回路の並列度調整処理のフローチャート図である。工程S13Aの並列度を増加する処理を示すフローチャート図である。工程S15の処理を示すフローチャート図である。工程S13Bの処理を示すフローチャート図である。工程S17の処理を示すフローチャート図である。第1の実施の形態のユーザ回路の並列度調整を適用した場合の具体例を示す図表である。図１５の具体例の予測実行時間、並列度調整無の場合の測定実行時間、並列度調整有の場合の測定実行時間を示す図である。第２の実施の形態におけるユーザ回路の並列度調整処理のフローチャート図である。工程S13Cのフローチャート図である。

図１は、本実施の形態における情報処理装置の構成例を示す図である。情報処理装置であるサーバ１０は、OSやアプリケーションプログラムやミドルウエアプログラムを実行するプロセッサまたはCPU(Central Processing Unit)１１と、DRAMなどのメインメモリ１２を接続するCPUバスなどの第1のバスBUS_1を有する。さらに、サーバ１０は、マウス、キーボード、表示パネルなどのI/Oデバイス（１３）、ネットワークNETに接続されるNIC（Network Interface Card）１４、そして、OS、アプリケーションプログラムAPL、データDATAなどを記憶するHDD（Hard Disk Drive）やSSD（Solid State Drive）などの補助記憶装置１７などを有する。そして、それらと第1のバスBUS_1がPCIバスなどの第２のバスBUS_2を介して接続される。

さらに、サーバ１０は、任意の論理回路をリコンフィグレーション可能なPLD(Programmable Logic Drive)１５と、PLDのコンフィグレーションデータなどを記憶するメモリ１６と、それらを接続するバスである第３のバスBUS_3を有する。PLDは例えばFPGAなどであり、メモリ１６はFPGA用メモリ、第３のバスはFPGAバスである。

たとえば、CPU１１が実行するOSのジョブ管理プログラムが、実行中のアプリケーションプログラム中にFPGA内の論理回路により処理可能なジョブを検出した場合、CPUがその論理回路をコンフィグレーションするためのコンフィグレーションデータをFPGA内に書き込んで（または設定して）論理回路をコンフィグレーションし、その論理回路を実行する。

補助記憶装置１７には、FPGAを管理するFPGA管理プログラムと、論理回路をコンフィグレーションするコンフィグレーションデータC_DATAが記憶される。サーバ１０が起動する時、補助記憶装置内のOS、アプリケーションAPL、FPGA管理プログラムがメインメモリ１２に展開され、プロセッサ１１により実行される。また、補助記憶装置内のコンフィグレーションデータC_DATAはFPGA用メモリに展開される。

FPGA１５は、コンフィグレーションデータを変更することで様々な論理回路をコンフィグレーションすることができるので、サーバ１０が製造された後でも、コンフィグレーションデータを変更することで、様々なジョブの処理をFPGA内にコンフィグレーションした論理回路で高速に処理することができる。

クラウドサービス等において、複数のユーザがそれぞれのアプリケーションプログラムをサーバ１０に実行させる。その結果、サーバ１０のプロセッサ１１は、複数のユーザのアプリケーションプログラムを並列に実行する。そして、それぞれのアプリケーションプログラムの所定の処理（ジョブ）を実行する論理回路が、FPGA１５内に非同期で構築され、構築された複数の論理回路（ユーザ回路）が並列に動作してそれぞれの所定の処理（ジョブ）を実行する。

図２は、FPGAのコンフィグレーション例を示す図である。図２のFPGA１５は、FPGAの第３のバスBUS_3とのバスインターフェース回路BUS_IFと、コンフィグレーションデータの書込み制御及びその他の制御を行う制御回路１５１と、コンフィグレーションデータが書き込まれるコンフィグレーションデータメモリC_RAMと、書き込まれたコンフィグレーションデータにより種々の論理回路がリコンフィグレーションされるリコンフィグレーション領域RC_REGと、内部バスI_BUSを有する。

リコンフィグレーション領域RC_REGには、図示しないが、複数の論理回路要素、メモリ回路要素、配線、スイッチ等が予め形成される。また、リコンフィグレーション領域RC_REGは、論理的にまたは物理的に区分された複数の部分リコンフィグレーションブロックPBに区分される。そして、リコンフィグレーションされる論理回路は、各部分リコンフィグレーションブロックPBに収容できる回路ブロックをコンフィグレーション単位として、単数または複数の各部分リコンフィグレーションブロック内にコンフィグレーションされる。したがって、例えば、コンフィグレーションデータメモリC_RAMは、複数の部分リコンフィグレーションブロックPBに対応する複数の記憶領域に区分され、各記憶領域にコンフィグレーションデータC_DATAが書き込まれると、その記憶領域に対応する部分リコンフィグレーションブロックPBにそれぞれの論理回路がコンフィグレーションされる。

さらに、あるジョブを実行する論理回路（ユーザ回路）が複数の部分リコンフィグレーションブロックPBにコンフィグレーションされる場合がある。その場合は、複数の機能ブロック領域に対応する記憶領域に論理回路をコンフィグレーションするためのコンフィグレーションデータがそれぞれ書き込まれ、各部分リコンフィグレーションブロックにコンフィグレーションされた複数の回路により前述のジョブの処理を実行する論理回路（ユーザ回路）がコンフィグレーションされる。

上記のとおり、FPGA内のリコンフィグレーション領域RC_REGは、複数の部分リコンフィグレーションブロックPBでコンフィグレーションされる。そして、各ユーザのアプリケーションプログラム内の所定の処理（ジョブ）を実行する論理回路は、単一の部分リコンフィグレーションブロックPBにコンフィグレーションされる場合と、複数の部分リコンフィグレーションブロックPBにコンフィグレーションされる場合とがある。

リコンフィグレーション領域RC_REG内にコンフィグレーションされた論理回路には、バスインターフェースBUS_IFを介して、CPUから入力データが入力され、入力データの処理結果がCPUに出力される。また、リコンフィグレーション領域RC_REG内にコンフィグレーションされた複数の論理回路は、内部バスI_BUS、バスインターフェースBUS_IF、及びFPGAバスBUS_3を介して、FPGA用メモリ１６と動作中のデータの送受信を行う。

図３は、FPGAのリコンフィグレーション領域の一例を示す図である。図２に示したとおり、リコンフィグレーション領域RC_REGは、マトリクス状に配置された複数の部分リコンフィグレーションブロックPBに区分される。また、リコンフィグレーション領域RC_REGは、複数の部分リコンフィグレーションブロックPB内に構成される複数の論理回路間のデータ転送や、図２のバスインターフェースBUS_IFと部分リコンフィグレーションブロックPB内にコンフィグレーションされる論理回路との間のデータ転送のための運用回路OCを有する。運用回路OCは、ネットワーク配線と、ネットワークスイッチと、ルーティング回路など含む。

図３の例では、複数の部分リコンフィグレーションブロックPBのうち、左側の３×３の部分リコンフィグレーションブロックPBにコンフィグレーションされた回路によりユーザAの論理回路UC_Aがコンフィグレーションされ、右側の２×４の部分リコンフィグレーションブロックPBにコンフィグレーションされた回路によりユーザBの論理回路UC_Bがコンフィグレーションされる。また、回路がコンフィグレーションされていない８個の部分リコンフィグレーションブロックPBが無色で示されている。

図４は、複数のユーザの論理回路が動的にコンフィグレーションされそして削除される例を説明する図である。時間T1では、FPGA内のリコンフィグレーション領域RC_REGには論理回路はコンフィグレーションされていない。次に、時間T2で、ユーザAの論理回路が２つの部分リコンフィグレーションブロックにコンフィグレーションされジョブの実行を開始する。その後、時間T3で、ユーザBの論理回路が６個の部分リコンフィグレーションブロックにコンフィグレーションされ実行開始する。時間T3の後でユーザAの論理回路が処理を完了し、時間T4で、ユーザCの論理回路が４個の部分リコンフィグレーションブロックにコンフィグレーションされ実行開始する。その後、時間T5でユーザBの論理回路が処理を終了し、時間T6でユーザDの論理回路が４個の部分リコンフィグレーションブロックにコンフィグレーションされ実行開始する。それぞれコンフィグレーションされた論理回路は、処理が完了すると、例えば、論理回路をコンフィグレーションしていた部分リコンフィグレーションブロックが開放され、他の論理回路をコンフィグレーション可能な状態に開放される。その場合、例えば、解放された部分リコンフィグレーションブロックに他の論理回路がコンフィグレーションされるまでは、コンフィグレーションデータメモリC_RAM内のコンフィグレーションデータは削除されず、再度同じ論理回路のコンフィグレーション要求が発生すると、コンフィグレーション済みの論理回路が有効化される。

図４に示すとおり、FPGAのリコンフィグレーション領域内には、同じユーザのまたは異なるユーザの異なる論理回路が非同期でコンフィグレーションされ、コンフィグレーションされた論理回路がジョブの実行を行う。そして、前述のサーバ１０内のFPGA管理プログラムが、FPGA内に論理回路をリコンフィグレーションする制御を行う。

図５は、FPGA内にコンフィグレーションされる論理回路の並列度の制御例を示す図である。PLDの１つであるFPGAには、コンフィグレーションデータを設定することで論理回路がコンフィグレーションされ、その論理回路がジョブを実行し、CPUのアクセラレータの機能を有する。しかし、FPGA内の論理回路は、コンフィグレーションデータでリコンフィグレーションされたルックアップテーブルやスイッチング回路でコンフィグレーションされるため、通常のカスタム集積回路よりも動作速度が低い。そのため、FPGA内の論理回路をCPUのアクセラレータとして利用するための１つの方法として、FPGA内に同じ論理回路を複数個コンフィグレーションし、複数個の論理回路で並列動作することが考えられる。

例えば、FPGA管理プログラムを実行するプロセッサは、あるジョブの処理を実行する論理回路をFPGA内にコンフィグレーションする場合、リコンフィグレーション領域RC_REGに空きがあれば、同じ論理回路を複数個コンフィグレーションするようにFPGAを制御し、複数個の同じ論理回路に並列にジョブの実行を行わせる。

図５の例では、時間T11で、FPGA管理プログラムを実行するプロセッサは、ユーザAの論理回路UC_Aを６個の部分リコンフィグレーションブロックにコンフィグレーションし、ユーザBの論理回路UC_Bを２個の部分リコンフィグレーションブロックにコンフィグレーションする。そして、その後の時間T12では、プロセッサは、２つ目のユーザBの論理回路UC_B2を２個の部分リコンフィグレーションブロックにコンフィグレーションし、２個の論理回路UC_B, UC_B2に並列動作を行わせる。同様に、時間T13では、プロセッサは、２つ目のユーザAの論理回路UC_A2を６個の部分リコンフィグレーションブロックにコンフィグレーションし、２個の論理回路UC_A, UC_A2に並列動作を行わせる。これにより、FPGA内の論理回路の動作速度を高速化することができる。

例えば、ユーザの論理回路が加算器であり、1個の加算器がＮサイクルで演算を完了する場合、２個の加算器をコンフィグレーションして並列に加算演算すれば、Ｎ／２サイクルで演算を完了する。これが論理回路の並列度を増加してジョブの実行時間を短縮する例である。

［バス帯域のボトルネック］
図６は、FPGAにおけるバス帯域のボトルネックを説明する図である。FPGA内にコンフィグレーションされた論理回路は、FPGAバスBUS_3を介して図１、２に示したFPGA用メモリ１６にアクセスする。FPGA用メモリ１６には、リコンフィグレーションされる論理回路のコンフィグレーションデータと、コンフィグレーションされた論理回路がアクセスするデータとが格納される。したがって、FPGA管理プログラムを実行するプロセッサが、FPGAにある論理回路のコンフィグレーションを要求したとき、FPGA内の制御回路がFPGA用メモリにアクセスし、論理回路のコンフィグレーションデータをダウンロードする。さらに、FPGA内にコンフィグレーションされた論理回路がそれぞれのジョブを実行すると、各論理回路がFPGA用メモリ内に格納されているデータにアクセスする。したがって、PFGA内にコンフィグレーションされた論理回路は、FPGAバスBUS_3が提供可能な帯域のうち、それぞれのデータ転送量に対応する帯域を使用する。

図６の例では、時間T21で、FPGAのリコンフィグレーション領域RC_REG内に、ユーザ１，３，４のユーザ回路UC_1、UC_3、UC_4が並列度１でコンフィグレーションされ、ユーザ２のユーザ回路UC2が並列度２でコンフィグレーションされている。FPGAバスBUS_3の提供可能な帯域（データ転送量の上限値）が例えば1350MB/Sであり、ユーザ１，２，３，４のユーザ回路UC_1, UC_2、UC_3, UC_4の平均データ転送量がそれぞれ100MB/S、200MB/S、200MB/S、300MB/Sとする。図６の状態では、コンフィグレーションされたユーザ回路UC_1〜UC_4の平均データ転送量の合計値が100+200*2+200+300=1000MB/Sである。したがって、合計値1000MB/Sは上限値1350MB/Sに達していない。この状態では、FPGAバスBUS_3にボトルネックは発生しておらず、各ユーザ回路は予測されたデータ転送量で動作し、ジョブの実行時間も予測された実行時間になる。

一方、時間T22では、FPGA管理プログラムを実行するプロセッサが、FPGAの制御回路にユーザ２の論理回路UC_2の並列度を４に増加する要求を行い、論理回路UC_2の並列度が４に増加されている。この場合、プロセッサは、リコンフィグレーション領域内に論理回路UC_2の並列度を４に増加するために必要な部分リコンフィグレーションブロックの空きがあり、且つ論理回路UC_2のデータ転送量の予測が低くかったため、並列度を４に増加してもバス帯域の上限値を超えることはないと予測されていたと考えられる。

しかしながら、実際には、動作中の論理回路のデータ転送量の合計値が100+200*4+200+300=1400MB/Sとなり、FPGAバスの上限値1350MB/Sを超えてしまい、PFGAバスの帯域にボトルネックが発生する場合がある。その結果、並列度を４に増加されたユーザ２の論理回路UC_2は、ジョブの実行に必要な帯域を使用することができず、ユーザ２の論理回路UC_2による１つのジョブの実行時間は、予測した実行時間より長くなる。

上記のとおり、FPGA内のリコンフィグレーション領域RC_REG内の部分リコンフィグレーションブロックに空きがある場合、論理回路の並列度を増加させたとしても、FPGAバスの帯域が足りず論理回路のデータ転送量の合計値がバス帯域の上限値に達してバス帯域にボトルネックが発生する場合がある。その結果、並列度を増加した論理回路の性能は上がらず、リコンフィグレーション領域内の部分リコンフィグレーションブロックを無駄に使用することになる。

［第1の実施の形態］
図７は、第1の実施の形態におけるFPGA管理方法による並列度の制御例を示す図である。このFPGA管理方法では、ユーザの論理回路に、１つのジョブを実行するのに要する実行時間を測定する実行時間測定回路と、FPGAバスへのアクセスを監視しバスアクセスの単位時間当たりのデータ転送量の平均値を測定するデータ転送量測定回路とが含まれる。これらの測定回路は、FPGAのコンフィグレーションデータによりコンフィグレーション可能である。そして、FPGAの制御回路は、ユーザの論理回路をコンフィグレーションデータでコンフィグレーションするときに同時に測定回路もコンフィグレーションデータでコンフィグレーションする。または、測定回路を予め部分リコンフィグレーションブロックに形成しておき、部分リコンフィグレーションブロックにコンフィグレーションされる論理回路の測定回路として使用してもよい。

そして、FPGA管理プログラムを実行するプロセッサは、FPGA内のリコンフィグレーション領域内にコンフィグレーションされ動作中の複数の論理回路のデータ転送量の測定値を取得し、取得したデータ転送量の測定値の合計がFPGAバスのデータ転送量の上限値を超えない範囲で、リコンフィグレーション領域内にコンフィグレーションする複数の論理回路それぞれの並列数を増加する。

また、第1の実施の形態では、プロセッサは、取得したデータ転送量の測定値の合計がFPGAバスのデータ転送量の上限値に達した場合、複数の論理回路のうち、所定の条件を満たす論理回路の並列度を減少する。そして、プロセッサは、並列度を減少させた論理回路以外の論理回路のいずれかの並列度を、FPGAバスのデータ転送量の上限値を超えない範囲で、増加する。これにより、並列度を増加した論理回路の動作が予測より短い時間で終了することが期待できる。プロセッサは、並列度を増加した論理回路の動作終了後、上限値を超えない範囲で、並列度を減少した論理回路の並列度を増加する。これにより、当該論理回路の動作が予測より短い時間で終了することが期待できる。

図７の例で説明すると、プロセッサが、図６の時間T22の状態で動作中の論理回路のデータ転送量の測定値を取得し、その合計値がFPGAバスの限界値に達していることを検出する。これにより、図7の時間T23に示すとおり、プロセッサは、バスのボトルネックの原因と考えられるユーザ２の論理回路UC_2の並列度を２に減らす。その後、論理回路のデータ転送量が低いユーザ１の論理回路UC_1の並列度を１から４に増加する。この結果、動作中の論理回路のデータ転送量の測定値の合計が、100*4+200*2+200+300=1300MB/SとなりFPGAバスの上限値1350MB/S未満になり、バス帯域のボトルネックは解消される。

これにより、ユーザ１の論理回路UC_1の動作時間が短くなり短時間で動作完了することが予測される。そして、時間T24に示すとおり、ユーザ１の論理回路UC_1の動作が完了すると、プロセッサは、並列度を減少したユーザ２の論理回路UC_2を優先的に並列度２から４に増やす。そして、プロセッサは、動作中の論理回路のデータ転送量の測定値を取得し、測定値の合計200*4+200+300=1300MB/SがFPGAバスの上限値1350MB/S未満であることを検出する。この状態でも、バス帯域のボトルネックが解消され、論理回路が十分な動作を行うことができる。

図８は、第1の実施の形態におけるFPGA管理プログラムのフローチャート図である。例えば、OS（Operating System）のジョブ管理プログラムは、プロセッサが実行するユーザのアプリケーションプログラムのジョブを監視し、ジョブの処理がFPGA内の論理回路で実行可能な場合、プロセッサに新ユーザ回路のコンフィグレーション要求の割込みを発生する。

FPGA管理プログラムを実行するプロセッサは、OS（Operating System）から新たなユーザ回路をコンフィグレーションする要求を受信すると（S1のYES）、次のように要求を処理する。まず、プロセッサは、FPGAのリコンフィグレーション領域の総面積から動作中のユーザ回路の総面積を減じた値が、新たなユーザ回路の面積より大きいか否か判定する（S2）。FPGAのリコンフィグレーション領域の総面積は、例えば部分リコンフィグレーションブロックPBの数であり、動作中のユーザ回路の総面積は、例えば動作中のユーザ回路がコンフィグレーションされている部分リコンフィグレーションブロックの数である。

工程S2の判定がYESの場合、プロセッサは、FPGAに新ユーザ回路のコンフィグレーションを要求する（S3）。そして、FPGAから新ユーザ回路のコンフィグレーション完了通知があると（S4のYES）、プロセッサはFPGAにユーザ回路によるジョブ開始を通知する（S5）。一方、工程S2の判定がNOの場合、プロセッサは、FPGAに新ユーザ回路のコンフィグレーションを要求せず、新たに回路コンフィグレーション要求を要求キュー（要求の待ち行列）に格納する（S9）。要求キュー内の要求は、次のサイクルで前述の工程S1で新ユーザ回路構築要求としてチェックされる。

さらに、プロセッサは、FPGAからユーザ回路のジョブの実行完了通知を受信すると（S6）、FPGAにジョブの実行が完了したユーザ回路の開放通知を行う（S7）。これにより、FPGA内の制御回路は、リコンフィグレーション領域内にコンフィグレーションされたユーザ回路を解放状態にする。

さらに、プロセッサは、ユーザ回路の並列度調整処理S8を実行する。ユーザ回路の並列度調整処理については以下にて説明する。そして、プロセッサは、上記の工程S1〜S8を繰り返し実行する。

並列度調整処理の説明をする前に、まず、プロセッサが管理するユーザ回路の各種パラメータの例について説明する。

図９は、プロセッサが管理するユーザ回路のパラメータを示す図表である。図９の図表に、FPGAのリコンフィグレーション領域内にコンフィグレーションされているユーザ回路UC_1, UC_2, UC_3, UC_4それぞれについて、論理回路の並列度PL、予測コンフィグレーション時間CT_E、予測実行時間ET_E、予測使用帯域BD_E、測定実行時間ET_M、測定使用帯域BD_Mの値が示されている。

予測コンフィグレーション時間CT_Eは、論理回路のコンフィグレーションデータをFPGAメモリからダウンロードしてFPGA内のコンフィグレーションデータメモリC_RAMに設定するのに要する時間の予測値である。予測実行時間ET_Eは、論理回路による１つのジョブの実行完了までの時間の予測値である。予測使用帯域BD_Eは、論理回路がジョブ実行中に使用する単位時間当たりのバス帯域（データ転送量）の予測値であり、単位はMB/Sである。

一方、測定実行時間ET_M、測定使用帯域BD_Mは、論理回路に設けられた実行時間測定回路とデータ転送量測定回路それぞれの測定値である。

また、FPGAバスの帯域の上限値をBD_Lとする。この帯域上限値BD_Lは、FPGAバスの帯域であり、リコンフィグレーション領域にコンフィグレーションされた論理回路のFPGAバスへのデータ転送量の合計がこの帯域上限値BD_Lを超えることはできない。したがって、リコンフィグレーション領域にコンフィグレーションされた論理回路のデータ転送量の合計が帯域上限値BD_Lに達している場合、バス帯域にボトルネックが発生しているとみなすことができる。

ユーザの論理回路の並列度調整処理S8では、プロセッサは、図９に示した値に基づいてFPGAのリコンフィグレーション領域内のユーザの論理回路の並列度を制御する。

図１０は、ユーザ回路の並列度調整処理のフローチャート図である。FPGA管理プログラムを実行するプロセッサは、一定時間待機するたびに（S10のYES）、FPGA内にコンフィグレーションされているユーザ回路の実行時間測定回路と使用帯域測定回路が測定中の測定実行時間ET_Mと測定使用帯域BD_Mを両回路から読み出すまたはFPGA内の制御回路１５１から受信する（S11）。

［並列度の増加制御（１）］
そして、プロセッサは、FPGAバスの帯域上限BD_Lからユーザ回路の測定使用帯域の合計値を減じた値が、FPGA内にコンフィグレーション中のユーザ回路のいずれかの並列度を増加するために必要な最小帯域より大きいか否かを判定する（S12）。工程S12の判定がYESであれば、プロセッサは、以下に示す式１、式２を満たす範囲で、測定使用帯域が小さい回路を優先して並列度を増加する（S13A）。

図１１は、工程S13Aの並列度を増加する処理を示すフローチャート図である。まず、プロセッサは、複数（ｎ個）のユーザ回路を測定使用帯域BD_Mが小さい順にソートする（S131）。このソートされたユーザ回路の順番を係数ｉ= 1〜nとする。そして、プロセッサは、ソートされた順番（測定使用帯域が小さい順）で、つまり係数順に、係数ｉ= 1〜ｎの各ｉついて(S132-S135)、処理対象のi番目のユーザ回路の並列度PLiを１つ増加した後の並列度PLXi（＝PLi + 1）で以下の式１，式２を満たすか否か判定する（S133）。

式１、式２は図１１に示されるが以下のとおりである。
Σ（BD_Mj/PLj）*PLXj < BD_L 式１
Σ (Aj*PLXj) ≦ A_L 式２
ここで、Σは全ユーザ回路j=1〜nの合計である。また、式１、式２のPLXjは、j=iならPLXj=PLj + 1、j≠iならPLXj=PLjとなり、処理対象のi番目のユーザ回路だけ並列度PLjを＋１増加し、i番目ではない他のユーザ回路は増加しない並列度PLjのままである。

つまり、n=4,i=2の場合の式１は次の通りである。
(BD_M1/PL1)*PL1 + (BD_M2/PL2)*PLX2 + (BD_M3/PL3)*PL3 + (BD_M4/PL4)*PL4 < BD_L
上記の左辺の第１項は(BD_M1/PL1)*PL1=BD_M1であり、第３，４項も同様であるから、よって、
BD_M1 + (BD_M2/PL2)*PLX2 + BD_M3 + BD_M4 < BD_L
さらに、式２のAjは並列度１のユーザ回路の回路面積（例えば、部分リコンフィグレーションブロックの数）、A_Lはリコンフィグレーション領域の総回路面積（例えば、部分リコンフィグレーションブロックの総数）である。n=4,i=2の場合の式２は次の通りである。
A1*PL1 + A2*PLX2 +A3*PL3 + A4*PL4 ≦ A_L
式１を満たすことは、処理対象のi番目のユーザ回路だけその並列度PLiを１つ増加した後の全ユーザ回路の使用帯域の合計が、FPGAバスの帯域上限値BD_Lより小さいことである。式１において(BD_M2/PL2)*PLX2は、測定使用帯域は並列度に比例することを意味する。一方、式２を満たすことは、処理対象のi番目のユーザ回路だけその並列度PLiを１つ増加した後の全ユーザ回路の使用面積の合計が、FPGAの総回路面積A_L以下であることを意味する。

工程S133の判定がYESなら（S133のYES）、プロセッサは、増加後の並列度PLXiをそのユーザ回路UC_iの並列度PLiに設定する（S134）。係数ｉ=1〜ｎの全てにおいて工程S133がYESの場合、全てのユーザ回路の並列度PLiが＋１されたことを意味する。

一方、係数iが１〜ｎのいずれかで工程S133の判定がNOなら（S133のNO）、係数iがi=1でなければ（S136のNO）、再度係数ｉ = 1〜ｎの各ｉついて(S132-S135)、工程S133,S134を繰り返す。工程S133の判定がNOで係数iがi=1であれば（S136のYES）、S132〜S135のループを抜ける。すなわち、測定使用帯域が小さいユーザ回路から大きいユーザ回路の順に並列度を＋１増加し、あるユーザ回路で工程S133の判定がNOになると、再度、測定使用帯域が小さいユーザ回路から大きいユーザ回路の順に並列度を＋１できるか否かを判定する。そして、係数iがi=1で工程S133の判定でNO（並列度を＋１できない）になる場合、ループS132〜S135の処理を終了する。

そして、CPUは、ユーザ回路UC_iを新しく設定した並列度PLiでリコンフィグレーションする要求をFPGAに行い、そのユーザ回路のリコンフィグレーション完了通知受信後、そのユーザ回路のジョブの実行再開を通知する（S137）。

図１１のように、測定使用帯域が小さいユーザ回路を優先的に並列度を増加させるのは以下の理由である。すなわち、一般的に測定使用帯域が小さいほど並列度１での使用帯域も低い傾向にあるので、かかるユーザ回路の並列度をより増加させてジョブの実行時間をより短縮させ、より早くジョブの実行を完了させるためである。ユーザ回路のジョブ実行が完了すれば、その後他のユーザ回路の並列度を増加させてそれらのジョブの実行時間も短縮できる場合がある。

［バス帯域のボトルネックの原因と推定されるユーザ回路の並列度の低下と、他のユーザ回路の並列度の増加］
図１０に戻り、工程S12での判定がNOの場合、プロセッサは、測定使用帯域の合計がFPGAバスの帯域上限に達しているか否か判定する（S14）。この工程S14の判定がYESの場合、FPGAバスの帯域にボトルネックが発生していることを意味する。

そこで、プロセッサは、予測実行時間と測定実行時間の差分が最大のユーザ回路UC_MAXの並列度を、以下に示す式３にしたがって低下させる（S15）。予測実行時間ET_Eと測定実行時間ET_Mの差分が最も大きいユーザ回路は、バスボトルネックにより予測使用帯域BD_EほどFPGAバスの帯域を使用することができていない蓋然性が高い。したがって、かかるユーザ回路の並列度を低下させることで、バスボトルネックによりユーザ回路の一部が十分に動作せずFPGA内に無駄にコンフィグレーションされている状況を改善することができる。

並列度を低下させるターゲットのユーザ回路の選択は、上記の差分が最大のユーザ回路以外に、全ユーザ回路の差分の平均値などの閾値THよりも、差分が大きいユーザ回路を選択してもよい。この場合、複数のユーザ回路が選択される場合がある。また、別の選択としては、予測使用帯域BD_Eと測定使用帯域BD_Mの差分が最大のユーザ回路を選択してもよい。この場合、差分が最大のユーザ回路は、バスボトルネックにより予測使用帯域BD_EほどFPGAバスの帯域を使用することができていないユーザ回路であるため、かかるユーザ回路を、並列度を減少させるターゲットに選択する。さらに、並列度が最大のユーザ回路を選択して並列度を減少させてもよい。この場合、並列度が最大に制御されているユーザ回路は、他のユーザ回路よりもより優遇されているユーザ回路といえるので、かかるユーザ回路を、並列度を減少させるターゲットに選択する。

図１２は、工程S15の処理を示すフローチャート図である。全ユーザ回路の測定使用帯域の合計がFPGAバスの帯域上限に達している場合（図１０のS14のNO）、プロセッサは、予測実行時間ET_Eと測定実行時間ET_Mの差分が最大のユーザ回路UC_MAXを検出する（S151）。別の選択方法としては、前述のとおり、全ユーザ回路の差分の平均値などの閾値THよりも差分が大きいユーザ回路や、予測使用帯域と測定使用帯域の差分が最大のユーザ回路や、並列度が最大のユーザ回路でもよい。

そして、プロセッサは、選択されたユーザ回路UC_MAXの新並列度PLXを以下の式３によって算出する（S152）。
PLX = PL/(ET_M/ET_E) 式３
上記の式は、ユーザ回路の並列度とユーザ回路の処理量は比例し、処理量は実行時間の逆数に比例するので、並列度と実行時間は反比例することに基づく。

すなわち、事前の予測では、並列度PLに対する１ジョブの実行時間は予測実行時間ET_Eであるが、バス帯域のボトルネックの発生により使用できるバス帯域が制限され、測定実行時間ET_Mが予測実行時間ET_Eより長くなっている。そこで、測定実行時間ET_Mに見合った並列度を新たな並列度PLXにすることで、バス帯域のボトルネックを解消できると考えられる。もしボトルネックが解消されない場合、次のサイクルでの測定値に基づいてそのユーザ回路の並列度が再度低下させられ、やがてボトルネックが解消されることになる。

上記のとおり、並列度と実行時間は反比例するので、以下の式が成り立つ。
PL：PLX = 1/ET_E : 1/ET_M
この式を解けば上記の式３が導かれる。

次に、プロセッサは、並列度低下のターゲットになったユーザ回路UC_MAXを新並列度PLXでコンフィグレーションすることをFPGAに要求し、回路リコンフィグレーション完了通知を受信後、そのユーザ回路のジョブの実行再開をFPGAに通知する（S153）。そして、プロセッサは、並列度を低下させたユーザ回路UC_MAXを並列度低下リストに記憶する（S154）。この並列度低下リストは、後で述べる他のユーザ回路の処理完了時の並列度増加制御で参照される。

図１０に戻り、プロセッサは、バス帯域のボトルネックの原因と考えられるユーザ回路UC_MAXの並列度を低下させた後（S15）、そのユーザ回路UC_MAX以外のユーザ回路のうち測定使用帯域が小さい回路を優先して、式１、式２を満たす範囲で並列度を増加する制御を行う（S13B）。この並列度を増加する制御工程S13Bは、前述の制御工程S13Aと類似する。

図１３は、工程S13Bの処理を示すフローチャート図である。図１１の工程S13Aと異なるのは、工程S133Bと工程S136Bである。すなわち、工程S133Bでは、図１０の工程S15で並列度が低下されたユーザ回路UC_MAXを除いて、式1，式２を満たすユーザ回路か否かを判定する。さらに、工程S136Bでは、ソート順iがユーザ回路UC_MAXを除いた残りのユーザ回路の最小ソート順の場合（S136BのYES）、ループS132〜S135を抜ける。

それ以外は、図１１と同じである。この結果、並列度を低下されたユーザ回路UC_MAXを除く残りのユーザ回路のうち、測定使用帯域が小さいユーザ回路を優先してその並列度を増加させることができる。

［ユーザ回路UC_MAXの並列度を増加する制御］
図１０に戻り、プロセッサは、一定時間待機中（S10のNO）、ユーザ回路のジョブ実行完了通知を受信すると（S16のYES）、式１、式２を満たす範囲で、ユーザ回路UC_MAXの並列度を増加する制御を行う（S17）。一定時間待機中にジョブ実行完了通知を受信しない場合、プロセッサは、ユーザ回路の並列度調整処理S8を終了する。

図１４は、工程S17の処理を示すフローチャート図である。ユーザ回路のジョブ実行完了通知を受信すると(図１０のS16のYES)、プロセッサは、並列度低下リストにユーザ回路UC_MAXが存在するか判定する（S171）。存在する場合（S171のYES）、プロセッサは、式1、式２を満たす範囲で、ユーザ回路UC_MAXの最大の新並列度PLXを算出する（S172）。式１，式２は、図11、図１３の式1、式２と同じである。但し、ここでは、直前にあるユーザ回路がジョブ実行を完了して開放されるので、式１，式２から開放されたユーザ回路は除かれる。また、並列度増加対象はユーザ回路UC_MAXである。

例えば、ユーザ２の回路UC_2が並列度低下リストに格納されていて、ユーザ１とユーザ３の回路UC_1, UC_3のジョブ実行が完了したとすると、式１、式２は次の通りになる。
(BD_M2/PL2)*PLX2 + BD_M4 < BD_L 式１
A2*PLX2 + A4*PL4 ≦ A_L 式２
プロセッサは、上記の式を満たす範囲で、最大の新並列度PLX2を算出する。これにより、ユーザ回路UC_MAX（UC_2）は、他のユーザ回路の実行完了時に優先的に並列度を増加する制御を受けることができる。

そして、プロセッサは、ユーザ回路UC_MAXの新並列度PLXでの論理回路のコンフィグレーションをFPGAに要求し、回路リコンフィグレーション完了通知を受信するとジョブの実行再開を通知する（S173）。また、プロセッサは、並列度を増加したユーザ回路UC_MAXを並列度低下リストから削除する（S173）。

図１０に戻り、プロセッサによるユーザ回路の並列度調整制御をまとめると次のとおりである。プロセッサは、通常は一定時間ごとに測定実行時間ET_Mと測定使用帯域BD_MをFPGA内のユーザ回路の測定回路から取得する（S11）。そして、全ユーザ回路の測定使用帯域の合計がFPGAバスの帯域上限値より、並列度増加のために必要な帯域分低い場合（S12のYES）、プロセッサは、式1，式２を満たす範囲で、測定使用帯域が小さいユーザ回路を優先して、その並列度を増加する（S13A）。また、あるユーザ回路がジョブ実行完了した場合（S16のYES）、並列度低下ユーザ回路UC_MACがなければ（S171のNO）、次の測定サイクルで取得した測定使用帯域BD_Mに基づいて工程S12の判定がYESになり、プロセッサは、再度、式1、式２を満たす範囲で測定使用帯域が小さいユーザ回路を優先して並列度を増加する（S13A）。

一方、測定使用帯域の合計値がFPGAバスの帯域上限値に達している場合（S14のYES）、プロセッサは、FPGAバス帯域のボトルネックの原因とみられるユーザ回路UC_MAXを選択し、その並列度を式３に基づいて低下する（S15）。そして、プロセッサは、残りのユーザ回路について、測定使用帯域が小さいユーザ回路を優先して式１、式２を満たす範囲で並列度を増加する（S13B）。

さらに、あるユーザ回路のジョブの実行が完了したら（S16のYES）、プロセッサは、並列度を低下させたユーザ回路UC_MAXの並列度を、式１、式２を満たす範囲で最大の並列度に増加する（S17）。これにより、プロセッサは、バス帯域のボトルネックの原因と見なされたユーザ回路UC_MAXの並列度を一時的に低下するが、他のユーザ回路の並列度を増加した結果それらの実行完了時間が早まる。そして、他のユーザ回路のジョブの実行が完了すると、一時的に並列度を低下させたユーザ回路UC_MAXの並列度を再度増加させる。この並列度が低下前よりも高くできれば、ユーザ回路UC_MAXのジョブ実行完了時間も早くなる可能性がある。

［並列度調整の具体例］
図１５は、第1の実施の形態のユーザ回路の並列度調整を適用した場合の具体例を示す図表である。この具体例では、FPGA内にユーザ1の論理回路UC_1とユーザ２の論理回路UC_2とがコンフィグレーションされ実行中である。図１５の図表には、ユーザ回路UC_1とUC_2について、時間ｔ０〜ｔ７での、並列度PL、予測コンフィグレーション時間CT_E、予測実行時間ET_E、予測使用帯域BD_E、測定実行時間ET_M、測定使用帯域BD_M、ユーザ回路のFPGA内の割合RTの値が示されている。さらに、FPGAバス帯域の上限値BD_Lは１４００MB/Sとする。

図１６は、図１５の具体例の予測実行時間、並列度調整無の場合の測定実行時間、並列度調整有の場合の測定実行時間を示す図である。図１６には、ユーザ回路UC_1とUC_2がジョブを４回繰り返した場合の、予測実行時間、並列度調整無の場合の測定実行時間、並列度調整有の場合の測定実行時間を示している。図中、ハッチングされた時間は予測コンフィグレーション時間CT_Eを示し、ハッチングされていない時間は予測実行時間ET_Eと測定実行時間ET_Mを示す。

図１５、図１６を参照しながら、具体例で並列度調整処理を説明する。前提として、時間ｔ０でユーザ回路UC_1がFPGA内にコンフィグレーションされ実行開始し、時間ｔ１でユーザ回路UC_2がFPGA内にコンフィグレーションされ実行開始する。但し、時間ｔ３の前後でFPGAバスの帯域にボトルネックが発生し、ユーザ回路UC_1の測定実行時間ET_M1（２００ms）が予測実行時間ET_E1(１００ms)より大幅に長くなっている。

図１５に示されるとおり、プロセッサは、時間ｔ０以降、ユーザ回路UC_1を並列度PL=8でFPGA内にコンフィグレーションしたが、測定実行時間ET_M1の２００ｍｓは予測実行時間ET_E1の１００ｍｓより約２倍長くなり、測定使用帯域BD_M1の１２００MB/Sは予測使用帯域BD_E1の１０００MB/Sより大きくなっている。一方、プロセッサは、時間ｔ１以降、ユーザ回路UC_2を並列度PL=2でFPGA内にコンフィグレーションし、測定実行時間ET_M2の２００ｍｓは予測実行時間ET_E2の２００ｍｓと一致し、測定使用帯域BD_M2の２００MB/Sも予測使用帯域BD_E2の２００MB/Sと一致している。そして、両ユーザ回路の測定使用帯域の合計は、１２００＋２００＝１４００MB/SとFPGAバスの帯域上限値BD_Lに達している。

上記の状態では、ユーザ回路UC_1が予測実行時間ET_E1よりも測定実行時間ET_M1が２倍まで長くなり、予測使用帯域BD_E1よりも測定使用帯域BD_M1が長くなっている原因が、FPGAバス帯域に発生したボトルネックによりユーザ回路UC_1が予測したとおり十分に動作していないと推定される。つまり、ユーザ回路UC_1の予測使用帯域BD_Eが外れて、FPGAバス帯域にボトルネックが発生したと考えられる。

そこで、プロセッサは、時間ｔ４で、予測実行時間と測定実行時間との差分が最大のユーザ回路UC_1を並列度低下ターゲットとして選択し、予測実行時間ET_E1＝１００msと測定実行時間ET_M1＝２００msの逆数の比率（２：１）に比例するように、並列度PL=8を新並列度PLX=4に低下させる。前述の式３に基づく新並列度の算出である。その結果、時間ｔ４以降では、並列度１／２に対応して、ユーザ回路UC_1の測定実行時間ET_M1が２００msとなり、測定使用帯域BD_M1が６００MB/sと変化している。この結果、両ユーザ回路UC_1、UC_2の測定使用帯域の合計が６００＋２００＝８００MB/sと上限値１４００MB/sより低くなっている。

そこで、プロセッサは、時間ｔ５で、並列度を低下させたユーザ回路UC_1以外のユーザ回路UC_2の並列度を式１、式２を満たす範囲で増加させ、ユーザ回路UC_2の並列度は2から4に増加している。これは、式２の回路面積の合計（３２％＋６０％）がFPAGの回路面積１００％以下という条件により、最大並列度は4と制限されたからである。そして、ユーザ回路UC＿２は、測定実行時間ET_M2は１００msと１／２になり、測定使用帯域BD_M2は４００msと２倍になっている。この結果、ユーザ回路UC_2は時間ｔ６にて予測実行時間よりも時間dt2だけ早く処理実行を完了する。つまり、図１５において、ユーザ回路UC_2は時間ｔ６で並列度が０、それ以外の実行時間、使用帯域、面積の割合が全て０になる。

そこで、プロセッサは、時間ｔ７で、並列度を低下させたユーザ回路UC_1の並列度を式３に基づいて算出し４から９に増加する。この並列度の増加率は、使用帯域を上限値未満にする式１による制限に基づいて決定された。並列度が２．２５倍に増加されたことで、予測実行時間ET_E1、測定実行時間ET_M1は共に８８．９ｍｓと短くなり、予測使用帯域BD_E1、測定使用帯域BD_M1は共に１３５０MB/sに増加する。そして、図１６に示されるとおり、ユーザ回路UC_1のジョブ実行完了時間は、並列度を調整しなかった場合よりも時間dt1だけ早くなっている。

［第２の実施の形態］
第１の実施の形態では、プロセッサは、FPGAのバス帯域にボトルネックが発生している場合、測定実行時間と予測実行時間との差分が最大のユーザ回路を、ボトルネックにより無駄に並列度が高くされていると推定して、そのユーザ回路の並列度を測定実行時間に見合った並列度に低下させた。

それに対して、第２の実施の形態では、プロセッサは、単純に、全てのユーザ回路の並列度をできるだけ平等に保つように制御する。

図１７は、第２の実施の形態におけるユーザ回路の並列度調整処理のフローチャート図である。第１の実施の形態のユーザ回路の並列度調整処理を示す図１０と異なり、ユーザ回路の並列度が低い回路を優先的に並列度を増加し（S13C）、並列度が高い回路を優先的に並列度を減少する（S15A）。

プロセッサは、一定時間毎に（S10のYES）、測定実行時間と測定使用帯域を全てのユーザ回路の測定回路から取得する（S11）。そして、プロセッサは、FPGAバス帯域の上限値から測定使用帯域の合計値を減じた値がいずれかのユーザ回路の並列度を増加できるに十分な帯域を有するか否かを判定する（S12）。

工程S12の判定がYESであれば、プロセッサは、式１、式２を満たす範囲で、並列度が低いユーザ回路の順に（優先度を並列度が低いと定義すれば、優先度が高いユーザ回路の順に）並列度を増加する（S13C）。

図１８は、工程S13Cのフローチャート図である。図１１のフローチャートと異なり、プロセッサは、並列度が小さい順にユーザ回路をソートする（S131C）。また、プロセッサは、並列度が同じユーザ回路はコンフィグレーション時が古い順にソートする（S131C）。そして、ソート順に、新並列度PLXi＝PLi＋１で式１、式２を満たす場合（S133のYES）、並列度PLiを新並列度PLXiに設定する（S134）。それ以外は、図１１と同じである。これにより、並列度が低いユーザ回路を優先して式１、式２を満たす範囲で優先度を増加することができる。

一方、図１７の工程S12の判定がNOであり、さらに測定使用帯域の合計がFPGAバス帯域の上限値に達している場合（S14のYES）、プロセッサは、並列度が高いユーザ回路の順に（優先度を並列度が低いと定義すれば、優先度が低いユーザ回路の順に）並列度を低下する（S15A）。この場合は、測定使用帯域の合計が帯域上限値に達しているので、並列度を低下させた後の測定使用帯域の合計がFPGAバス帯域の上限未満か否かの判定をすることができない。したがって、プロセッサは、並列度が最も高いユーザ回路の並列度を−１して、次のサイクルで取得した測定使用帯域に基づき、工程S14の判定を行うことになる。再度工程S14の判定がYESになれば、プロセッサは、再度並列度が最も高いユーザ回路の並列度を低下する。

工程S15Aにて、並列度が同じ場合、コンフィグレーション時が新しいユーザ回路を優先して並列度を減少するようにしてもよい。

上記のとおり、第２の実施の形態のユーザ回路の並列度調整処理によれば、全てのユーザ回路の並列度をできるだけ平等にするよう並列度調整を行う。さらに、並列度が同じ場合は、コンフィグレーション時が古いユーザ回路を優先して並列度を増加し、コンフィグレーション時が新しいユーザ回路を優先して並列度を減少する。

以上の通り、第１、第２の本実施の形態によれば、FPGA内に構築するユーザの論理回路の並列度をFPGAバス帯域の上限値未満の範囲で増加する。これにより、FPGAバス帯域にボトルネックが発生しない範囲でユーザの論理回路の並列度をできるだけ高くでき、且つ、FPGA内のユーザ回路の並列度を無駄に高くすることを防止できる。また、FPAGをCPUのアクセレータとして有効に利用できる。

以上の実施の形態をまとめると，次の付記のとおりである。

（付記１）
プログラムを実行するプロセッサと、
前記プロセッサからのコンフィグレーション要求に応じて、前記コンフィグレーション要求が要求する論理回路をコンフィグレーションするリコンフィグレーション領域を有するプログラマブルロジック回路装置（以下ＰＬＤ）を有し、
前記プロセッサは、
前記リコンフィグレーション領域内にコンフィグレーションされ動作中の複数の論理回路のデータ転送量の測定値を取得し、
前記取得したデータ転送量の測定値の合計に基づいて、データ転送量の合計が前記ＰＬＤのバスのデータ転送量の上限値を超えない範囲で、前記リコンフィグレーション領域内にコンフィグレーションする前記複数の論理回路それぞれの並列数を調整する、情報処理装置。

（付記２）
前記プロセッサは、前記取得したデータ転送量の測定値の合計が前記上限値に達した場合、前記複数の論理回路のうち第１の条件を満たす論理回路の並列度を減少する、付記１に記載の情報処理装置。

（付記３)
前記プロセッサは、前記取得したデータ転送量の測定値の合計が前記上限値に達していない場合、前記複数の論理回路のうち第２の条件を満たす論理回路の並列度を増加する、付記１に記載の情報処理装置。

（付記４）
前記プロセッサは、
前記リコンフィグレーション領域内にコンフィグレーションされ動作中の前記複数の論理回路の処理完了に要する実行時間の測定値を取得し、
前記リコンフィグレーション領域内にコンフィグレーションされ動作中の前記複数の論理回路のうち、前記実行時間の測定値と予測した実行時間との差分が最大の論理回路を前記第１の条件を満たす論理回路に選択する、付記２に記載の情報処理装置。

（付記５）
前記プロセッサは、
前記リコンフィグレーション領域内にコンフィグレーションされ動作中の前記複数の論理回路の処理完了に要する実行時間の測定値を取得し、
前記リコンフィグレーション領域内にコンフィグレーションされ動作中の前記複数の論理回路のうち、前記実行時間の測定値と予測した実行時間との差分が所定の基準値以上の論理回路を前記第１の条件を満たす論理回路に選択する、付記２に記載の情報処理装置。

（付記６）
前記プロセッサは、
前記リコンフィグレーション領域内にコンフィグレーションされ動作中の前記複数の論理回路の処理完了に要する実行時間の測定値を取得し、
前記論理回路の並列度を減少するとき、前記第１の条件を満たす論理回路の前記実行時間の測定値と予測した実行時間との比率に反比例して前記第１の条件を満たす論理回路の並列度を減少する、付記２のいずれかに記載の情報処理装置。

（付記７）
前記プロセッサは、
前記リコンフィグレーション領域内にコンフィグレーションされ動作中の前記複数の論理回路の処理完了に要する実行時間の測定値を取得し、
前記論理回路の並列度を減少した後、前記複数の論理回路の動作時間の測定値を取得し、前記並列度を減少した論理回路を除く残りの論理回路について、前記並列数を増加する制御を実行する、付記２に記載の情報処理装置。

（付記８）
前記プロセッサは、
前記リコンフィグレーション領域内にコンフィグレーションされ動作中の前記複数の論理回路の１つが処理の実行を完了したとき、前記取得したデータ転送量の合計が前記ＰＬＤのバスのデータ転送量の上限値を超えない範囲で、前記並列度を減少した論理回路を優先して前記並列度を増加する、付記２に記載の情報処理装置。

（付記９）
前記プロセッサは、
前記データ転送量の合計が前記ＰＬＤのバスのデータ転送量の上限値を超えない範囲で、並列度が低い論理回路を優先して前記論理回路の並列度を増加する、付記１に記載の情報処理装置。

（付記１０）
前記プロセッサは、
前記データ転送量の合計が前記ＰＬＤのバスのデータ転送量の上限値を超えない範囲で、並列度が高い論理回路を優先して前記論理回路の並列度を減少する、付記１または９に記載の情報処理装置。

（付記１１）
プログラムを実行するプロセッサからのコンフィグレーション要求に応じて、前記コンフィグレーション要求が要求する論理回路をコンフィグレーションするリコンフィグレーション領域を有するプログラマブルロジック回路装置（以下ＰＬＤ）を制御するＰＬＤ管理プログラムであって、
前記リコンフィグレーション領域内にコンフィグレーションされ動作中の複数の論理回路のデータ転送量の測定値を取得し、
前記取得したデータ転送量の合計が前記ＰＬＤのバスのデータ転送量の上限値を超えない範囲で、前記リコンフィグレーション領域内にコンフィグレーションする前記複数の論理回路それぞれの並列数を増加する、
処理を前記プロセッサに実行させるコンピュータ読み取り可能なＰＬＤ管理プログラム。

（付記１２）
プログラムを実行するプロセッサからのコンフィグレーション要求に応じて、前記コンフィグレーション要求が要求する論理回路をコンフィグレーションするリコンフィグレーション領域を有するプログラマブルロジック回路装置（以下ＰＬＤ）を制御するＰＬＤ管理方法であって、
前記リコンフィグレーション領域内にコンフィグレーションされ動作中の複数の論理回路のデータ転送量の測定値を取得し、
前記取得したデータ転送量の合計が前記ＰＬＤのバスのデータ転送量の上限値を超えない範囲で、前記リコンフィグレーション領域内にコンフィグレーションする前記複数の論理回路それぞれの並列数を増加する、
処理を有するＰＬＤ管理方法。

１０：情報処理装置
１１：CPU、プロセッサ
１２：メインメモリ
１５：FPGA、PLD
１６：補助記憶装置
１７：FPGA用のデータメモリ
BUS_1：CPUバス
BUS_2：PCIバス
BUS_3：FPGAバス
I_BUS：FPGA内部バス
RC_REG：リコンフィグレーション領域
OC:FPGAの運用回路
PB：部分リコンフィグレーションブロック
UC_A, UC_B：ユーザ回路
１５１：C_DATA書き込み制御回路
C_RAM：コンフィグレーションデータメモリ
PL：並列度
ET_E：予測実行時間
BD_E：予測帯域
ET_M：測定実行時間
BD_M：測定帯域、使用帯域
A1、A2：ユーザ回路面積
BD_L：上限帯域
A_L：総回路面積

Claims

プログラムを実行するプロセッサと、
前記プロセッサからのコンフィグレーション要求に応じて、前記コンフィグレーション要求が要求する論理回路をコンフィグレーションするリコンフィグレーション領域を有するプログラマブルロジック回路装置（以下ＰＬＤ）とを有し、
前記プロセッサは、
前記リコンフィグレーション領域内にコンフィグレーションされ動作中の複数の論理回路のデータ転送量の測定値を取得し、
前記取得したデータ転送量の測定値の合計に基づいて、データ転送量の合計が前記ＰＬＤのバスのデータ転送量の上限値を超えない範囲で、前記リコンフィグレーション領域内にコンフィグレーションする前記複数の論理回路それぞれの並列数を調整し、
前記取得したデータ転送量の測定値の合計が前記上限値に達した場合、前記複数の論理回路のうち第１の条件を満たす論理回路の並列度を減少し、
前記リコンフィグレーション領域内にコンフィグレーションされ動作中の前記複数の論理回路の処理完了に要する実行時間の測定値を取得し、
前記リコンフィグレーション領域内にコンフィグレーションされ動作中の前記複数の論理回路のうち、前記実行時間の測定値と予測した実行時間との差分が最大の論理回路を前記第１の条件を満たす論理回路に選択する、情報処理装置。
プログラムを実行するプロセッサと、
前記プロセッサからのコンフィグレーション要求に応じて、前記コンフィグレーション要求が要求する論理回路をコンフィグレーションするリコンフィグレーション領域を有するプログラマブルロジック回路装置（以下ＰＬＤ）とを有し、
前記プロセッサは、
前記リコンフィグレーション領域内にコンフィグレーションされ動作中の複数の論理回路のデータ転送量の測定値を取得し、
前記取得したデータ転送量の測定値の合計に基づいて、データ転送量の合計が前記ＰＬＤのバスのデータ転送量の上限値を超えない範囲で、前記リコンフィグレーション領域内にコンフィグレーションする前記複数の論理回路それぞれの並列数を調整し、
前記取得したデータ転送量の測定値の合計が前記上限値に達した場合、前記複数の論理回路のうち第１の条件を満たす論理回路の並列度を減少し、
前記リコンフィグレーション領域内にコンフィグレーションされ動作中の前記複数の論理回路の処理完了に要する実行時間の測定値を取得し、
前記リコンフィグレーション領域内にコンフィグレーションされ動作中の前記複数の論理回路のうち、前記実行時間の測定値と予測した実行時間との差分が所定の基準値以上の論理回路を前記第１の条件を満たす論理回路に選択する、情報処理装置。
前記プロセッサは、前記取得したデータ転送量の測定値の合計が前記上限値に達していない場合、前記複数の論理回路のうち第２の条件を満たす論理回路の並列度を増加する、請求項１または２に記載の情報処理装置。
前記プロセッサは、
前記論理回路の並列度を減少するとき、前記第１の条件を満たす論理回路の前記実行時間の測定値と予測した実行時間との比率に反比例して前記第１の条件を満たす論理回路の並列度を減少する、請求項１または２に記載の情報処理装置。
前記プロセッサは、
前記論理回路の並列度を減少した後、前記複数の論理回路の動作時間の測定値を取得し、前記並列度を減少した論理回路を除く残りの論理回路について、前記並列数を増加する制御を実行する、請求項１または２に記載の情報処理装置。
前記プロセッサは、
前記リコンフィグレーション領域内にコンフィグレーションされ動作中の前記複数の論理回路の１つが処理の実行を完了したとき、前記取得したデータ転送量の合計が前記ＰＬＤのバスのデータ転送量の上限値を超えない範囲で、前記並列度を減少した論理回路を優先して前記並列度を増加する、請求項１または２に記載の情報処理装置。
プログラムを実行するプロセッサからのコンフィグレーション要求に応じて、前記コンフィグレーション要求が要求する論理回路をコンフィグレーションするリコンフィグレーション領域を有するプログラマブルロジック回路装置（以下ＰＬＤ）を制御するＰＬＤ管理プログラムであって、
前記リコンフィグレーション領域内にコンフィグレーションされ動作中の複数の論理回路のデータ転送量の測定値を取得し、
前記取得したデータ転送量の合計が前記ＰＬＤのバスのデータ転送量の上限値を超えない範囲で、前記リコンフィグレーション領域内にコンフィグレーションする前記複数の論理回路それぞれの並列数を増加し、
前記取得したデータ転送量の測定値の合計が前記上限値に達した場合、前記複数の論理回路のうち第１の条件を満たす論理回路の並列度を減少し、
前記リコンフィグレーション領域内にコンフィグレーションされ動作中の前記複数の論理回路の処理完了に要する実行時間の測定値を取得し、
前記リコンフィグレーション領域内にコンフィグレーションされ動作中の前記複数の論理回路のうち、前記実行時間の測定値と予測した実行時間との差分が最大の論理回路を前記第１の条件を満たす論理回路に選択する、
処理を前記プロセッサに実行させるコンピュータ読み取り可能なＰＬＤ管理プログラム。
プログラムを実行するプロセッサからのコンフィグレーション要求に応じて、前記コンフィグレーション要求が要求する論理回路をコンフィグレーションするリコンフィグレーション領域を有するプログラマブルロジック回路装置（以下ＰＬＤ）を制御するＰＬＤ管理方法であって、
前記リコンフィグレーション領域内にコンフィグレーションされ動作中の複数の論理回路のデータ転送量の測定値を取得し、
前記取得したデータ転送量の合計が前記ＰＬＤのバスのデータ転送量の上限値を超えない範囲で、前記リコンフィグレーション領域内にコンフィグレーションする前記複数の論理回路それぞれの並列数を増加し、
前記取得したデータ転送量の測定値の合計が前記上限値に達した場合、前記複数の論理回路のうち第１の条件を満たす論理回路の並列度を減少し、
前記リコンフィグレーション領域内にコンフィグレーションされ動作中の前記複数の論理回路の処理完了に要する実行時間の測定値を取得し、
前記リコンフィグレーション領域内にコンフィグレーションされ動作中の前記複数の論理回路のうち、前記実行時間の測定値と予測した実行時間との差分が最大の論理回路を前記第１の条件を満たす論理回路に選択する、
処理を有するＰＬＤ管理方法。