JP6849908B2 - 情報処理装置、pld管理プログラム及びpld管理方法 - Google Patents

情報処理装置、pld管理プログラム及びpld管理方法 Download PDF

Info

Publication number
JP6849908B2
JP6849908B2 JP2016248297A JP2016248297A JP6849908B2 JP 6849908 B2 JP6849908 B2 JP 6849908B2 JP 2016248297 A JP2016248297 A JP 2016248297A JP 2016248297 A JP2016248297 A JP 2016248297A JP 6849908 B2 JP6849908 B2 JP 6849908B2
Authority
JP
Japan
Prior art keywords
parallelism
logic circuit
degree
circuit
data transfer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016248297A
Other languages
English (en)
Other versions
JP2018101359A (ja
Inventor
芳 印
芳 印
渡部 康弘
康弘 渡部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2016248297A priority Critical patent/JP6849908B2/ja
Priority to US15/847,978 priority patent/US10050627B2/en
Publication of JP2018101359A publication Critical patent/JP2018101359A/ja
Application granted granted Critical
Publication of JP6849908B2 publication Critical patent/JP6849908B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03KPULSE TECHNIQUE
    • H03K19/00Logic circuits, i.e. having at least two inputs acting on one output; Inverting circuits
    • H03K19/02Logic circuits, i.e. having at least two inputs acting on one output; Inverting circuits using specified components
    • H03K19/173Logic circuits, i.e. having at least two inputs acting on one output; Inverting circuits using specified components using elementary logic circuits as components
    • H03K19/177Logic circuits, i.e. having at least two inputs acting on one output; Inverting circuits using specified components using elementary logic circuits as components arranged in matrix form
    • H03K19/17736Structural details of routing resources
    • H03K19/17744Structural details of routing resources for input/output signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03KPULSE TECHNIQUE
    • H03K19/00Logic circuits, i.e. having at least two inputs acting on one output; Inverting circuits
    • H03K19/02Logic circuits, i.e. having at least two inputs acting on one output; Inverting circuits using specified components
    • H03K19/173Logic circuits, i.e. having at least two inputs acting on one output; Inverting circuits using specified components using elementary logic circuits as components
    • H03K19/177Logic circuits, i.e. having at least two inputs acting on one output; Inverting circuits using specified components using elementary logic circuits as components arranged in matrix form
    • H03K19/17748Structural details of configuration resources
    • H03K19/17756Structural details of configuration resources for partial configuration or partial reconfiguration
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03KPULSE TECHNIQUE
    • H03K19/00Logic circuits, i.e. having at least two inputs acting on one output; Inverting circuits
    • H03K19/02Logic circuits, i.e. having at least two inputs acting on one output; Inverting circuits using specified components
    • H03K19/173Logic circuits, i.e. having at least two inputs acting on one output; Inverting circuits using specified components using elementary logic circuits as components
    • H03K19/177Logic circuits, i.e. having at least two inputs acting on one output; Inverting circuits using specified components using elementary logic circuits as components arranged in matrix form
    • H03K19/17748Structural details of configuration resources
    • H03K19/1776Structural details of configuration resources for memories

Landscapes

  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Stored Programmes (AREA)
  • Logic Circuits (AREA)

Description

本発明は,情報処理装置、PLD管理プログラム及びPLD管理方法に関する。
プログラマブルロジックデバイス(Programmable Logic Device, 以下PLDと称する。)は、予め複数の論理回路要素、メモリ回路要素、配線、スイッチ等が形成された集積回路に、所定の処理を実行可能な回路をコンフィグレーションするためのコンフィグレーションデータが設定または書込まれると、所定の処理を実行可能な回路をリコンフィグレーションする。このようなPLDは、例えばFPGA(Field Programmable Gate Array)などであり、コンフィグレーションデータを書き換えることで内部の回路を様々な論理回路にリコンフィグレーション可能なLSIである。以下、PLDの1つであるFPAGを例にして説明する。
プロセッサは、ソフトウエアの所定の処理(例えばジョブ)をハードウエアの専用回路で実行するとき、その専用回路をコンフィグレーションするためのコンフィグレーションデータをFPGAに設定または書込んでFPGA内に専用回路をコンフィグレーションし、その専用回路に所定の処理を実行させる。また、専用回路が所定の処理を終了すると、異なる処理を実行する別の専用回路のコンフィグレーションデータをFPGAに設定または書き込んでFPGA内に別の専用回路をコンフィグレーションし、別の専用回路に異なる処理を実行させる。プロセッサがソフトウエアの所定の処理をFPGAの専用回路に実行させることで、FPGAをプロセッサのアクセラレータとして利用する。これにより、プロセッサを有する情報処理装置(コンピュータ)を省電力化、高機能化できる。
FPGAの大規模化に伴い、FPGA内に複数の論理回路をコンフィグレーションし、複数の論理回路を並行して動作させることができる。また、FPGA内にコンフィグレーションした複数の論理回路を動作させながら、一部の論理回路をリコンフィグレーションして新たな論理回路の動作を開始するなど、複数の論理回路を非同期で動的にリコンフィグレーションし、非同期で並列に動作させることが可能になる。
FPGAに複数の回路をコンフィグレーションすることについては以下の特許文献に開示されている。
特開2016−76867号公報 特開2015−231205号公報
一方で、複数のユーザが、プロセッサとFPGAを搭載した情報処理装置を使用する場合、複数のユーザのプログラムの特定の処理を、FPGAにコンフィグレーションした複数の論理回路がそれぞれ処理することがある。その場合、複数のユーザのプログラムは、互いの論理回路を意識せず、それぞれの論理回路をFPGA内にコンフィグレーションし、コンフィグレーションされた複数の論理回路がFPGAを部分的に且つ動的に共用する。その結果、FPGAとメモリとの間のバスの使用帯域がバス帯域の上限値に達してバス帯域にボトルネックが発生する場合がある。
そこで,本発明の目的は,PLDのバス帯域のボトルネックの発生を抑制する情報処理装置、PLD管理プログラム及びPLD管理方法を提供することにある。
実施の形態の第1の側面は,プログラムを実行するプロセッサと、前記プロセッサからのコンフィグレーション要求に応じて、前記コンフィグレーション要求が要求する論理回路をコンフィグレーションするリコンフィグレーション領域を有するプログラマブルロジック回路装置(以下PLD)とを有し、前記プロセッサは、前記リコンフィグレーション領域内にコンフィグレーションされ動作中の複数の論理回路のデータ転送量の測定値を取得し、前記取得したデータ転送量の合計が前記PLDのバスのデータ転送量の上限値を超えない範囲で、前記リコンフィグレーション領域内にコンフィグレーションする前記複数の論理回路それぞれの並列数を増加する、情報処理装置である。
第1の側面によれば,PLDのバス帯域のボトルネックの発生を抑制することができる。
本実施の形態における情報処理装置の構成例を示す図である。 FPGAの構成例を示す図である。 FPGAのリコンフィグレーション領域の一例を示す図である。 複数のユーザの論理回路が動的にコンフィグレーションされそして削除される例を説明する図である。 FPGA内にコンフィグレーションされる論理回路の並列度の制御例を示す図である。 FPGAにおけるバス帯域のボトルネックを説明する図である。 第1の実施の形態におけるFPGA管理方法による並列度の制御例を示す図である。 第1の実施の形態におけるFPGA管理プログラムのフローチャート図である。 プロセッサが管理するユーザ回路のパラメータを示す図表である。 ユーザ回路の並列度調整処理のフローチャート図である。 工程S13Aの並列度を増加する処理を示すフローチャート図である。 工程S15の処理を示すフローチャート図である。 工程S13Bの処理を示すフローチャート図である。 工程S17の処理を示すフローチャート図である。 第1の実施の形態のユーザ回路の並列度調整を適用した場合の具体例を示す図表である。 図15の具体例の予測実行時間、並列度調整無の場合の測定実行時間、並列度調整有の場合の測定実行時間を示す図である。 第2の実施の形態におけるユーザ回路の並列度調整処理のフローチャート図である。 工程S13Cのフローチャート図である。
図1は、本実施の形態における情報処理装置の構成例を示す図である。情報処理装置であるサーバ10は、OSやアプリケーションプログラムやミドルウエアプログラムを実行するプロセッサまたはCPU(Central Processing Unit)11と、DRAMなどのメインメモリ12を接続するCPUバスなどの第1のバスBUS_1を有する。さらに、サーバ10は、マウス、キーボード、表示パネルなどのI/Oデバイス(13)、ネットワークNETに接続されるNIC(Network Interface Card)14、そして、OS、アプリケーションプログラムAPL、データDATAなどを記憶するHDD(Hard Disk Drive)やSSD(Solid State Drive)などの補助記憶装置17などを有する。そして、それらと第1のバスBUS_1がPCIバスなどの第2のバスBUS_2を介して接続される。
さらに、サーバ10は、任意の論理回路をリコンフィグレーション可能なPLD(Programmable Logic Drive)15と、PLDのコンフィグレーションデータなどを記憶するメモリ16と、それらを接続するバスである第3のバスBUS_3を有する。PLDは例えばFPGAなどであり、メモリ16はFPGA用メモリ、第3のバスはFPGAバスである。
たとえば、CPU11が実行するOSのジョブ管理プログラムが、実行中のアプリケーションプログラム中にFPGA内の論理回路により処理可能なジョブを検出した場合、CPUがその論理回路をコンフィグレーションするためのコンフィグレーションデータをFPGA内に書き込んで(または設定して)論理回路をコンフィグレーションし、その論理回路を実行する。
補助記憶装置17には、FPGAを管理するFPGA管理プログラムと、論理回路をコンフィグレーションするコンフィグレーションデータC_DATAが記憶される。サーバ10が起動する時、補助記憶装置内のOS、アプリケーションAPL、FPGA管理プログラムがメインメモリ12に展開され、プロセッサ11により実行される。また、補助記憶装置内のコンフィグレーションデータC_DATAはFPGA用メモリに展開される。
FPGA15は、コンフィグレーションデータを変更することで様々な論理回路をコンフィグレーションすることができるので、サーバ10が製造された後でも、コンフィグレーションデータを変更することで、様々なジョブの処理をFPGA内にコンフィグレーションした論理回路で高速に処理することができる。
クラウドサービス等において、複数のユーザがそれぞれのアプリケーションプログラムをサーバ10に実行させる。その結果、サーバ10のプロセッサ11は、複数のユーザのアプリケーションプログラムを並列に実行する。そして、それぞれのアプリケーションプログラムの所定の処理(ジョブ)を実行する論理回路が、FPGA15内に非同期で構築され、構築された複数の論理回路(ユーザ回路)が並列に動作してそれぞれの所定の処理(ジョブ)を実行する。
図2は、FPGAのコンフィグレーション例を示す図である。図2のFPGA15は、FPGAの第3のバスBUS_3とのバスインターフェース回路BUS_IFと、コンフィグレーションデータの書込み制御及びその他の制御を行う制御回路151と、コンフィグレーションデータが書き込まれるコンフィグレーションデータメモリC_RAMと、書き込まれたコンフィグレーションデータにより種々の論理回路がリコンフィグレーションされるリコンフィグレーション領域RC_REGと、内部バスI_BUSを有する。
リコンフィグレーション領域RC_REGには、図示しないが、複数の論理回路要素、メモリ回路要素、配線、スイッチ等が予め形成される。また、リコンフィグレーション領域RC_REGは、論理的にまたは物理的に区分された複数の部分リコンフィグレーションブロックPBに区分される。そして、リコンフィグレーションされる論理回路は、各部分リコンフィグレーションブロックPBに収容できる回路ブロックをコンフィグレーション単位として、単数または複数の各部分リコンフィグレーションブロック内にコンフィグレーションされる。したがって、例えば、コンフィグレーションデータメモリC_RAMは、複数の部分リコンフィグレーションブロックPBに対応する複数の記憶領域に区分され、各記憶領域にコンフィグレーションデータC_DATAが書き込まれると、その記憶領域に対応する部分リコンフィグレーションブロックPBにそれぞれの論理回路がコンフィグレーションされる。
さらに、あるジョブを実行する論理回路(ユーザ回路)が複数の部分リコンフィグレーションブロックPBにコンフィグレーションされる場合がある。その場合は、複数の機能ブロック領域に対応する記憶領域に論理回路をコンフィグレーションするためのコンフィグレーションデータがそれぞれ書き込まれ、各部分リコンフィグレーションブロックにコンフィグレーションされた複数の回路により前述のジョブの処理を実行する論理回路(ユーザ回路)がコンフィグレーションされる。
上記のとおり、FPGA内のリコンフィグレーション領域RC_REGは、複数の部分リコンフィグレーションブロックPBでコンフィグレーションされる。そして、各ユーザのアプリケーションプログラム内の所定の処理(ジョブ)を実行する論理回路は、単一の部分リコンフィグレーションブロックPBにコンフィグレーションされる場合と、複数の部分リコンフィグレーションブロックPBにコンフィグレーションされる場合とがある。
リコンフィグレーション領域RC_REG内にコンフィグレーションされた論理回路には、バスインターフェースBUS_IFを介して、CPUから入力データが入力され、入力データの処理結果がCPUに出力される。また、リコンフィグレーション領域RC_REG内にコンフィグレーションされた複数の論理回路は、内部バスI_BUS、バスインターフェースBUS_IF、及びFPGAバスBUS_3を介して、FPGA用メモリ16と動作中のデータの送受信を行う。
図3は、FPGAのリコンフィグレーション領域の一例を示す図である。図2に示したとおり、リコンフィグレーション領域RC_REGは、マトリクス状に配置された複数の部分リコンフィグレーションブロックPBに区分される。また、リコンフィグレーション領域RC_REGは、複数の部分リコンフィグレーションブロックPB内に構成される複数の論理回路間のデータ転送や、図2のバスインターフェースBUS_IFと部分リコンフィグレーションブロックPB内にコンフィグレーションされる論理回路との間のデータ転送のための運用回路OCを有する。運用回路OCは、ネットワーク配線と、ネットワークスイッチと、ルーティング回路など含む。
図3の例では、複数の部分リコンフィグレーションブロックPBのうち、左側の3×3の部分リコンフィグレーションブロックPBにコンフィグレーションされた回路によりユーザAの論理回路UC_Aがコンフィグレーションされ、右側の2×4の部分リコンフィグレーションブロックPBにコンフィグレーションされた回路によりユーザBの論理回路UC_Bがコンフィグレーションされる。また、回路がコンフィグレーションされていない8個の部分リコンフィグレーションブロックPBが無色で示されている。
図4は、複数のユーザの論理回路が動的にコンフィグレーションされそして削除される例を説明する図である。時間T1では、FPGA内のリコンフィグレーション領域RC_REGには論理回路はコンフィグレーションされていない。次に、時間T2で、ユーザAの論理回路が2つの部分リコンフィグレーションブロックにコンフィグレーションされジョブの実行を開始する。その後、時間T3で、ユーザBの論理回路が6個の部分リコンフィグレーションブロックにコンフィグレーションされ実行開始する。時間T3の後でユーザAの論理回路が処理を完了し、時間T4で、ユーザCの論理回路が4個の部分リコンフィグレーションブロックにコンフィグレーションされ実行開始する。その後、時間T5でユーザBの論理回路が処理を終了し、時間T6でユーザDの論理回路が4個の部分リコンフィグレーションブロックにコンフィグレーションされ実行開始する。それぞれコンフィグレーションされた論理回路は、処理が完了すると、例えば、論理回路をコンフィグレーションしていた部分リコンフィグレーションブロックが開放され、他の論理回路をコンフィグレーション可能な状態に開放される。その場合、例えば、解放された部分リコンフィグレーションブロックに他の論理回路がコンフィグレーションされるまでは、コンフィグレーションデータメモリC_RAM内のコンフィグレーションデータは削除されず、再度同じ論理回路のコンフィグレーション要求が発生すると、コンフィグレーション済みの論理回路が有効化される。
図4に示すとおり、FPGAのリコンフィグレーション領域内には、同じユーザのまたは異なるユーザの異なる論理回路が非同期でコンフィグレーションされ、コンフィグレーションされた論理回路がジョブの実行を行う。そして、前述のサーバ10内のFPGA管理プログラムが、FPGA内に論理回路をリコンフィグレーションする制御を行う。
図5は、FPGA内にコンフィグレーションされる論理回路の並列度の制御例を示す図である。PLDの1つであるFPGAには、コンフィグレーションデータを設定することで論理回路がコンフィグレーションされ、その論理回路がジョブを実行し、CPUのアクセラレータの機能を有する。しかし、FPGA内の論理回路は、コンフィグレーションデータでリコンフィグレーションされたルックアップテーブルやスイッチング回路でコンフィグレーションされるため、通常のカスタム集積回路よりも動作速度が低い。そのため、FPGA内の論理回路をCPUのアクセラレータとして利用するための1つの方法として、FPGA内に同じ論理回路を複数個コンフィグレーションし、複数個の論理回路で並列動作することが考えられる。
例えば、FPGA管理プログラムを実行するプロセッサは、あるジョブの処理を実行する論理回路をFPGA内にコンフィグレーションする場合、リコンフィグレーション領域RC_REGに空きがあれば、同じ論理回路を複数個コンフィグレーションするようにFPGAを制御し、複数個の同じ論理回路に並列にジョブの実行を行わせる。
図5の例では、時間T11で、FPGA管理プログラムを実行するプロセッサは、ユーザAの論理回路UC_Aを6個の部分リコンフィグレーションブロックにコンフィグレーションし、ユーザBの論理回路UC_Bを2個の部分リコンフィグレーションブロックにコンフィグレーションする。そして、その後の時間T12では、プロセッサは、2つ目のユーザBの論理回路UC_B2を2個の部分リコンフィグレーションブロックにコンフィグレーションし、2個の論理回路UC_B, UC_B2に並列動作を行わせる。同様に、時間T13では、プロセッサは、2つ目のユーザAの論理回路UC_A2を6個の部分リコンフィグレーションブロックにコンフィグレーションし、2個の論理回路UC_A, UC_A2に並列動作を行わせる。これにより、FPGA内の論理回路の動作速度を高速化することができる。
例えば、ユーザの論理回路が加算器であり、1個の加算器がNサイクルで演算を完了する場合、2個の加算器をコンフィグレーションして並列に加算演算すれば、N/2サイクルで演算を完了する。これが論理回路の並列度を増加してジョブの実行時間を短縮する例である。
[バス帯域のボトルネック]
図6は、FPGAにおけるバス帯域のボトルネックを説明する図である。FPGA内にコンフィグレーションされた論理回路は、FPGAバスBUS_3を介して図1、2に示したFPGA用メモリ16にアクセスする。FPGA用メモリ16には、リコンフィグレーションされる論理回路のコンフィグレーションデータと、コンフィグレーションされた論理回路がアクセスするデータとが格納される。したがって、FPGA管理プログラムを実行するプロセッサが、FPGAにある論理回路のコンフィグレーションを要求したとき、FPGA内の制御回路がFPGA用メモリにアクセスし、論理回路のコンフィグレーションデータをダウンロードする。さらに、FPGA内にコンフィグレーションされた論理回路がそれぞれのジョブを実行すると、各論理回路がFPGA用メモリ内に格納されているデータにアクセスする。したがって、PFGA内にコンフィグレーションされた論理回路は、FPGAバスBUS_3が提供可能な帯域のうち、それぞれのデータ転送量に対応する帯域を使用する。
図6の例では、時間T21で、FPGAのリコンフィグレーション領域RC_REG内に、ユーザ1,3,4のユーザ回路UC_1、UC_3、UC_4が並列度1でコンフィグレーションされ、ユーザ2のユーザ回路UC2が並列度2でコンフィグレーションされている。FPGAバスBUS_3の提供可能な帯域(データ転送量の上限値)が例えば1350MB/Sであり、ユーザ1,2,3,4のユーザ回路UC_1, UC_2、UC_3, UC_4の平均データ転送量がそれぞれ100MB/S、200MB/S、200MB/S、300MB/Sとする。図6の状態では、コンフィグレーションされたユーザ回路UC_1〜UC_4の平均データ転送量の合計値が100+200*2+200+300=1000MB/Sである。したがって、合計値1000MB/Sは上限値1350MB/Sに達していない。この状態では、FPGAバスBUS_3にボトルネックは発生しておらず、各ユーザ回路は予測されたデータ転送量で動作し、ジョブの実行時間も予測された実行時間になる。
一方、時間T22では、FPGA管理プログラムを実行するプロセッサが、FPGAの制御回路にユーザ2の論理回路UC_2の並列度を4に増加する要求を行い、論理回路UC_2の並列度が4に増加されている。この場合、プロセッサは、リコンフィグレーション領域内に論理回路UC_2の並列度を4に増加するために必要な部分リコンフィグレーションブロックの空きがあり、且つ論理回路UC_2のデータ転送量の予測が低くかったため、並列度を4に増加してもバス帯域の上限値を超えることはないと予測されていたと考えられる。
しかしながら、実際には、動作中の論理回路のデータ転送量の合計値が100+200*4+200+300=1400MB/Sとなり、FPGAバスの上限値1350MB/Sを超えてしまい、PFGAバスの帯域にボトルネックが発生する場合がある。その結果、並列度を4に増加されたユーザ2の論理回路UC_2は、ジョブの実行に必要な帯域を使用することができず、ユーザ2の論理回路UC_2による1つのジョブの実行時間は、予測した実行時間より長くなる。
上記のとおり、FPGA内のリコンフィグレーション領域RC_REG内の部分リコンフィグレーションブロックに空きがある場合、論理回路の並列度を増加させたとしても、FPGAバスの帯域が足りず論理回路のデータ転送量の合計値がバス帯域の上限値に達してバス帯域にボトルネックが発生する場合がある。その結果、並列度を増加した論理回路の性能は上がらず、リコンフィグレーション領域内の部分リコンフィグレーションブロックを無駄に使用することになる。
[第1の実施の形態]
図7は、第1の実施の形態におけるFPGA管理方法による並列度の制御例を示す図である。このFPGA管理方法では、ユーザの論理回路に、1つのジョブを実行するのに要する実行時間を測定する実行時間測定回路と、FPGAバスへのアクセスを監視しバスアクセスの単位時間当たりのデータ転送量の平均値を測定するデータ転送量測定回路とが含まれる。これらの測定回路は、FPGAのコンフィグレーションデータによりコンフィグレーション可能である。そして、FPGAの制御回路は、ユーザの論理回路をコンフィグレーションデータでコンフィグレーションするときに同時に測定回路もコンフィグレーションデータでコンフィグレーションする。または、測定回路を予め部分リコンフィグレーションブロックに形成しておき、部分リコンフィグレーションブロックにコンフィグレーションされる論理回路の測定回路として使用してもよい。
そして、FPGA管理プログラムを実行するプロセッサは、FPGA内のリコンフィグレーション領域内にコンフィグレーションされ動作中の複数の論理回路のデータ転送量の測定値を取得し、取得したデータ転送量の測定値の合計がFPGAバスのデータ転送量の上限値を超えない範囲で、リコンフィグレーション領域内にコンフィグレーションする複数の論理回路それぞれの並列数を増加する。
また、第1の実施の形態では、プロセッサは、取得したデータ転送量の測定値の合計がFPGAバスのデータ転送量の上限値に達した場合、複数の論理回路のうち、所定の条件を満たす論理回路の並列度を減少する。そして、プロセッサは、並列度を減少させた論理回路以外の論理回路のいずれかの並列度を、FPGAバスのデータ転送量の上限値を超えない範囲で、増加する。これにより、並列度を増加した論理回路の動作が予測より短い時間で終了することが期待できる。プロセッサは、並列度を増加した論理回路の動作終了後、上限値を超えない範囲で、並列度を減少した論理回路の並列度を増加する。これにより、当該論理回路の動作が予測より短い時間で終了することが期待できる。
図7の例で説明すると、プロセッサが、図6の時間T22の状態で動作中の論理回路のデータ転送量の測定値を取得し、その合計値がFPGAバスの限界値に達していることを検出する。これにより、図7の時間T23に示すとおり、プロセッサは、バスのボトルネックの原因と考えられるユーザ2の論理回路UC_2の並列度を2に減らす。その後、論理回路のデータ転送量が低いユーザ1の論理回路UC_1の並列度を1から4に増加する。この結果、動作中の論理回路のデータ転送量の測定値の合計が、100*4+200*2+200+300=1300MB/SとなりFPGAバスの上限値1350MB/S未満になり、バス帯域のボトルネックは解消される。
これにより、ユーザ1の論理回路UC_1の動作時間が短くなり短時間で動作完了することが予測される。そして、時間T24に示すとおり、ユーザ1の論理回路UC_1の動作が完了すると、プロセッサは、並列度を減少したユーザ2の論理回路UC_2を優先的に並列度2から4に増やす。そして、プロセッサは、動作中の論理回路のデータ転送量の測定値を取得し、測定値の合計200*4+200+300=1300MB/SがFPGAバスの上限値1350MB/S未満であることを検出する。この状態でも、バス帯域のボトルネックが解消され、論理回路が十分な動作を行うことができる。
図8は、第1の実施の形態におけるFPGA管理プログラムのフローチャート図である。例えば、OS(Operating System)のジョブ管理プログラムは、プロセッサが実行するユーザのアプリケーションプログラムのジョブを監視し、ジョブの処理がFPGA内の論理回路で実行可能な場合、プロセッサに新ユーザ回路のコンフィグレーション要求の割込みを発生する。
FPGA管理プログラムを実行するプロセッサは、OS(Operating System)から新たなユーザ回路をコンフィグレーションする要求を受信すると(S1のYES)、次のように要求を処理する。まず、プロセッサは、FPGAのリコンフィグレーション領域の総面積から動作中のユーザ回路の総面積を減じた値が、新たなユーザ回路の面積より大きいか否か判定する(S2)。FPGAのリコンフィグレーション領域の総面積は、例えば部分リコンフィグレーションブロックPBの数であり、動作中のユーザ回路の総面積は、例えば動作中のユーザ回路がコンフィグレーションされている部分リコンフィグレーションブロックの数である。
工程S2の判定がYESの場合、プロセッサは、FPGAに新ユーザ回路のコンフィグレーションを要求する(S3)。そして、FPGAから新ユーザ回路のコンフィグレーション完了通知があると(S4のYES)、プロセッサはFPGAにユーザ回路によるジョブ開始を通知する(S5)。一方、工程S2の判定がNOの場合、プロセッサは、FPGAに新ユーザ回路のコンフィグレーションを要求せず、新たに回路コンフィグレーション要求を要求キュー(要求の待ち行列)に格納する(S9)。要求キュー内の要求は、次のサイクルで前述の工程S1で新ユーザ回路構築要求としてチェックされる。
さらに、プロセッサは、FPGAからユーザ回路のジョブの実行完了通知を受信すると(S6)、FPGAにジョブの実行が完了したユーザ回路の開放通知を行う(S7)。これにより、FPGA内の制御回路は、リコンフィグレーション領域内にコンフィグレーションされたユーザ回路を解放状態にする。
さらに、プロセッサは、ユーザ回路の並列度調整処理S8を実行する。ユーザ回路の並列度調整処理については以下にて説明する。そして、プロセッサは、上記の工程S1〜S8を繰り返し実行する。
並列度調整処理の説明をする前に、まず、プロセッサが管理するユーザ回路の各種パラメータの例について説明する。
図9は、プロセッサが管理するユーザ回路のパラメータを示す図表である。図9の図表に、FPGAのリコンフィグレーション領域内にコンフィグレーションされているユーザ回路UC_1, UC_2, UC_3, UC_4それぞれについて、論理回路の並列度PL、予測コンフィグレーション時間CT_E、予測実行時間ET_E、予測使用帯域BD_E、測定実行時間ET_M、測定使用帯域BD_Mの値が示されている。
予測コンフィグレーション時間CT_Eは、論理回路のコンフィグレーションデータをFPGAメモリからダウンロードしてFPGA内のコンフィグレーションデータメモリC_RAMに設定するのに要する時間の予測値である。予測実行時間ET_Eは、論理回路による1つのジョブの実行完了までの時間の予測値である。予測使用帯域BD_Eは、論理回路がジョブ実行中に使用する単位時間当たりのバス帯域(データ転送量)の予測値であり、単位はMB/Sである。
一方、測定実行時間ET_M、測定使用帯域BD_Mは、論理回路に設けられた実行時間測定回路とデータ転送量測定回路それぞれの測定値である。
また、FPGAバスの帯域の上限値をBD_Lとする。この帯域上限値BD_Lは、FPGAバスの帯域であり、リコンフィグレーション領域にコンフィグレーションされた論理回路のFPGAバスへのデータ転送量の合計がこの帯域上限値BD_Lを超えることはできない。したがって、リコンフィグレーション領域にコンフィグレーションされた論理回路のデータ転送量の合計が帯域上限値BD_Lに達している場合、バス帯域にボトルネックが発生しているとみなすことができる。
ユーザの論理回路の並列度調整処理S8では、プロセッサは、図9に示した値に基づいてFPGAのリコンフィグレーション領域内のユーザの論理回路の並列度を制御する。
図10は、ユーザ回路の並列度調整処理のフローチャート図である。FPGA管理プログラムを実行するプロセッサは、一定時間待機するたびに(S10のYES)、FPGA内にコンフィグレーションされているユーザ回路の実行時間測定回路と使用帯域測定回路が測定中の測定実行時間ET_Mと測定使用帯域BD_Mを両回路から読み出すまたはFPGA内の制御回路151から受信する(S11)。
[並列度の増加制御(1)]
そして、プロセッサは、FPGAバスの帯域上限BD_Lからユーザ回路の測定使用帯域の合計値を減じた値が、FPGA内にコンフィグレーション中のユーザ回路のいずれかの並列度を増加するために必要な最小帯域より大きいか否かを判定する(S12)。工程S12の判定がYESであれば、プロセッサは、以下に示す式1、式2を満たす範囲で、測定使用帯域が小さい回路を優先して並列度を増加する(S13A)。
図11は、工程S13Aの並列度を増加する処理を示すフローチャート図である。まず、プロセッサは、複数(n個)のユーザ回路を測定使用帯域BD_Mが小さい順にソートする(S131)。このソートされたユーザ回路の順番を係数i= 1〜nとする。そして、プロセッサは、ソートされた順番(測定使用帯域が小さい順)で、つまり係数順に、係数i= 1〜nの各iついて(S132-S135)、処理対象のi番目のユーザ回路の並列度PLiを1つ増加した後の並列度PLXi(=PLi + 1)で以下の式1,式2を満たすか否か判定する(S133)。
式1、式2は図11に示されるが以下のとおりである。
Σ(BD_Mj/PLj)*PLXj < BD_L 式1
Σ (Aj*PLXj) ≦ A_L 式2
ここで、Σは全ユーザ回路j=1〜nの合計である。また、式1、式2のPLXjは、j=iならPLXj=PLj + 1、j≠iならPLXj=PLjとなり、処理対象のi番目のユーザ回路だけ並列度PLjを+1増加し、i番目ではない他のユーザ回路は増加しない並列度PLjのままである。
つまり、n=4,i=2の場合の式1は次の通りである。
(BD_M1/PL1)*PL1 + (BD_M2/PL2)*PLX2 + (BD_M3/PL3)*PL3 + (BD_M4/PL4)*PL4 < BD_L
上記の左辺の第1項は(BD_M1/PL1)*PL1=BD_M1であり、第3,4項も同様であるから、よって、
BD_M1 + (BD_M2/PL2)*PLX2 + BD_M3 + BD_M4 < BD_L
さらに、式2のAjは並列度1のユーザ回路の回路面積(例えば、部分リコンフィグレーションブロックの数)、A_Lはリコンフィグレーション領域の総回路面積(例えば、部分リコンフィグレーションブロックの総数)である。n=4,i=2の場合の式2は次の通りである。
A1*PL1 + A2*PLX2 +A3*PL3 + A4*PL4 ≦ A_L
式1を満たすことは、処理対象のi番目のユーザ回路だけその並列度PLiを1つ増加した後の全ユーザ回路の使用帯域の合計が、FPGAバスの帯域上限値BD_Lより小さいことである。式1において(BD_M2/PL2)*PLX2は、測定使用帯域は並列度に比例することを意味する。一方、式2を満たすことは、処理対象のi番目のユーザ回路だけその並列度PLiを1つ増加した後の全ユーザ回路の使用面積の合計が、FPGAの総回路面積A_L以下であることを意味する。
工程S133の判定がYESなら(S133のYES)、プロセッサは、増加後の並列度PLXiをそのユーザ回路UC_iの並列度PLiに設定する(S134)。係数i=1〜nの全てにおいて工程S133がYESの場合、全てのユーザ回路の並列度PLiが+1されたことを意味する。
一方、係数iが1〜nのいずれかで工程S133の判定がNOなら(S133のNO)、係数iがi=1でなければ(S136のNO)、再度係数i = 1〜nの各iついて(S132-S135)、工程S133,S134を繰り返す。工程S133の判定がNOで係数iがi=1であれば(S136のYES)、S132〜S135のループを抜ける。すなわち、測定使用帯域が小さいユーザ回路から大きいユーザ回路の順に並列度を+1増加し、あるユーザ回路で工程S133の判定がNOになると、再度、測定使用帯域が小さいユーザ回路から大きいユーザ回路の順に並列度を+1できるか否かを判定する。そして、係数iがi=1で工程S133の判定でNO(並列度を+1できない)になる場合、ループS132〜S135の処理を終了する。
そして、CPUは、ユーザ回路UC_iを新しく設定した並列度PLiでリコンフィグレーションする要求をFPGAに行い、そのユーザ回路のリコンフィグレーション完了通知受信後、そのユーザ回路のジョブの実行再開を通知する(S137)。
図11のように、測定使用帯域が小さいユーザ回路を優先的に並列度を増加させるのは以下の理由である。すなわち、一般的に測定使用帯域が小さいほど並列度1での使用帯域も低い傾向にあるので、かかるユーザ回路の並列度をより増加させてジョブの実行時間をより短縮させ、より早くジョブの実行を完了させるためである。ユーザ回路のジョブ実行が完了すれば、その後他のユーザ回路の並列度を増加させてそれらのジョブの実行時間も短縮できる場合がある。
[バス帯域のボトルネックの原因と推定されるユーザ回路の並列度の低下と、他のユーザ回路の並列度の増加]
図10に戻り、工程S12での判定がNOの場合、プロセッサは、測定使用帯域の合計がFPGAバスの帯域上限に達しているか否か判定する(S14)。この工程S14の判定がYESの場合、FPGAバスの帯域にボトルネックが発生していることを意味する。
そこで、プロセッサは、予測実行時間と測定実行時間の差分が最大のユーザ回路UC_MAXの並列度を、以下に示す式3にしたがって低下させる(S15)。予測実行時間ET_Eと測定実行時間ET_Mの差分が最も大きいユーザ回路は、バスボトルネックにより予測使用帯域BD_EほどFPGAバスの帯域を使用することができていない蓋然性が高い。したがって、かかるユーザ回路の並列度を低下させることで、バスボトルネックによりユーザ回路の一部が十分に動作せずFPGA内に無駄にコンフィグレーションされている状況を改善することができる。
並列度を低下させるターゲットのユーザ回路の選択は、上記の差分が最大のユーザ回路以外に、全ユーザ回路の差分の平均値などの閾値THよりも、差分が大きいユーザ回路を選択してもよい。この場合、複数のユーザ回路が選択される場合がある。また、別の選択としては、予測使用帯域BD_Eと測定使用帯域BD_Mの差分が最大のユーザ回路を選択してもよい。この場合、差分が最大のユーザ回路は、バスボトルネックにより予測使用帯域BD_EほどFPGAバスの帯域を使用することができていないユーザ回路であるため、かかるユーザ回路を、並列度を減少させるターゲットに選択する。さらに、並列度が最大のユーザ回路を選択して並列度を減少させてもよい。この場合、並列度が最大に制御されているユーザ回路は、他のユーザ回路よりもより優遇されているユーザ回路といえるので、かかるユーザ回路を、並列度を減少させるターゲットに選択する。
図12は、工程S15の処理を示すフローチャート図である。全ユーザ回路の測定使用帯域の合計がFPGAバスの帯域上限に達している場合(図10のS14のNO)、プロセッサは、予測実行時間ET_Eと測定実行時間ET_Mの差分が最大のユーザ回路UC_MAXを検出する(S151)。別の選択方法としては、前述のとおり、全ユーザ回路の差分の平均値などの閾値THよりも差分が大きいユーザ回路や、予測使用帯域と測定使用帯域の差分が最大のユーザ回路や、並列度が最大のユーザ回路でもよい。
そして、プロセッサは、選択されたユーザ回路UC_MAXの新並列度PLXを以下の式3によって算出する(S152)。
PLX = PL/(ET_M/ET_E) 式3
上記の式は、ユーザ回路の並列度とユーザ回路の処理量は比例し、処理量は実行時間の逆数に比例するので、並列度と実行時間は反比例することに基づく。
すなわち、事前の予測では、並列度PLに対する1ジョブの実行時間は予測実行時間ET_Eであるが、バス帯域のボトルネックの発生により使用できるバス帯域が制限され、測定実行時間ET_Mが予測実行時間ET_Eより長くなっている。そこで、測定実行時間ET_Mに見合った並列度を新たな並列度PLXにすることで、バス帯域のボトルネックを解消できると考えられる。もしボトルネックが解消されない場合、次のサイクルでの測定値に基づいてそのユーザ回路の並列度が再度低下させられ、やがてボトルネックが解消されることになる。
上記のとおり、並列度と実行時間は反比例するので、以下の式が成り立つ。
PL:PLX = 1/ET_E : 1/ET_M
この式を解けば上記の式3が導かれる。
次に、プロセッサは、並列度低下のターゲットになったユーザ回路UC_MAXを新並列度PLXでコンフィグレーションすることをFPGAに要求し、回路リコンフィグレーション完了通知を受信後、そのユーザ回路のジョブの実行再開をFPGAに通知する(S153)。そして、プロセッサは、並列度を低下させたユーザ回路UC_MAXを並列度低下リストに記憶する(S154)。この並列度低下リストは、後で述べる他のユーザ回路の処理完了時の並列度増加制御で参照される。
図10に戻り、プロセッサは、バス帯域のボトルネックの原因と考えられるユーザ回路UC_MAXの並列度を低下させた後(S15)、そのユーザ回路UC_MAX以外のユーザ回路のうち測定使用帯域が小さい回路を優先して、式1、式2を満たす範囲で並列度を増加する制御を行う(S13B)。この並列度を増加する制御工程S13Bは、前述の制御工程S13Aと類似する。
図13は、工程S13Bの処理を示すフローチャート図である。図11の工程S13Aと異なるのは、工程S133Bと工程S136Bである。すなわち、工程S133Bでは、図10の工程S15で並列度が低下されたユーザ回路UC_MAXを除いて、式1,式2を満たすユーザ回路か否かを判定する。さらに、工程S136Bでは、ソート順iがユーザ回路UC_MAXを除いた残りのユーザ回路の最小ソート順の場合(S136BのYES)、ループS132〜S135を抜ける。
それ以外は、図11と同じである。この結果、並列度を低下されたユーザ回路UC_MAXを除く残りのユーザ回路のうち、測定使用帯域が小さいユーザ回路を優先してその並列度を増加させることができる。
[ユーザ回路UC_MAXの並列度を増加する制御]
図10に戻り、プロセッサは、一定時間待機中(S10のNO)、ユーザ回路のジョブ実行完了通知を受信すると(S16のYES)、式1、式2を満たす範囲で、ユーザ回路UC_MAXの並列度を増加する制御を行う(S17)。一定時間待機中にジョブ実行完了通知を受信しない場合、プロセッサは、ユーザ回路の並列度調整処理S8を終了する。
図14は、工程S17の処理を示すフローチャート図である。ユーザ回路のジョブ実行完了通知を受信すると(図10のS16のYES)、プロセッサは、並列度低下リストにユーザ回路UC_MAXが存在するか判定する(S171)。存在する場合(S171のYES)、プロセッサは、式1、式2を満たす範囲で、ユーザ回路UC_MAXの最大の新並列度PLXを算出する(S172)。式1,式2は、図11、図13の式1、式2と同じである。但し、ここでは、直前にあるユーザ回路がジョブ実行を完了して開放されるので、式1,式2から開放されたユーザ回路は除かれる。また、並列度増加対象はユーザ回路UC_MAXである。
例えば、ユーザ2の回路UC_2が並列度低下リストに格納されていて、ユーザ1とユーザ3の回路UC_1, UC_3のジョブ実行が完了したとすると、式1、式2は次の通りになる。
(BD_M2/PL2)*PLX2 + BD_M4 < BD_L 式1
A2*PLX2 + A4*PL4 ≦ A_L 式2
プロセッサは、上記の式を満たす範囲で、最大の新並列度PLX2を算出する。これにより、ユーザ回路UC_MAX(UC_2)は、他のユーザ回路の実行完了時に優先的に並列度を増加する制御を受けることができる。
そして、プロセッサは、ユーザ回路UC_MAXの新並列度PLXでの論理回路のコンフィグレーションをFPGAに要求し、回路リコンフィグレーション完了通知を受信するとジョブの実行再開を通知する(S173)。また、プロセッサは、並列度を増加したユーザ回路UC_MAXを並列度低下リストから削除する(S173)。
図10に戻り、プロセッサによるユーザ回路の並列度調整制御をまとめると次のとおりである。プロセッサは、通常は一定時間ごとに測定実行時間ET_Mと測定使用帯域BD_MをFPGA内のユーザ回路の測定回路から取得する(S11)。そして、全ユーザ回路の測定使用帯域の合計がFPGAバスの帯域上限値より、並列度増加のために必要な帯域分低い場合(S12のYES)、プロセッサは、式1,式2を満たす範囲で、測定使用帯域が小さいユーザ回路を優先して、その並列度を増加する(S13A)。また、あるユーザ回路がジョブ実行完了した場合(S16のYES)、並列度低下ユーザ回路UC_MACがなければ(S171のNO)、次の測定サイクルで取得した測定使用帯域BD_Mに基づいて工程S12の判定がYESになり、プロセッサは、再度、式1、式2を満たす範囲で測定使用帯域が小さいユーザ回路を優先して並列度を増加する(S13A)。
一方、測定使用帯域の合計値がFPGAバスの帯域上限値に達している場合(S14のYES)、プロセッサは、FPGAバス帯域のボトルネックの原因とみられるユーザ回路UC_MAXを選択し、その並列度を式3に基づいて低下する(S15)。そして、プロセッサは、残りのユーザ回路について、測定使用帯域が小さいユーザ回路を優先して式1、式2を満たす範囲で並列度を増加する(S13B)。
さらに、あるユーザ回路のジョブの実行が完了したら(S16のYES)、プロセッサは、並列度を低下させたユーザ回路UC_MAXの並列度を、式1、式2を満たす範囲で最大の並列度に増加する(S17)。これにより、プロセッサは、バス帯域のボトルネックの原因と見なされたユーザ回路UC_MAXの並列度を一時的に低下するが、他のユーザ回路の並列度を増加した結果それらの実行完了時間が早まる。そして、他のユーザ回路のジョブの実行が完了すると、一時的に並列度を低下させたユーザ回路UC_MAXの並列度を再度増加させる。この並列度が低下前よりも高くできれば、ユーザ回路UC_MAXのジョブ実行完了時間も早くなる可能性がある。
[並列度調整の具体例]
図15は、第1の実施の形態のユーザ回路の並列度調整を適用した場合の具体例を示す図表である。この具体例では、FPGA内にユーザ1の論理回路UC_1とユーザ2の論理回路UC_2とがコンフィグレーションされ実行中である。図15の図表には、ユーザ回路UC_1とUC_2について、時間t0〜t7での、並列度PL、予測コンフィグレーション時間CT_E、予測実行時間ET_E、予測使用帯域BD_E、測定実行時間ET_M、測定使用帯域BD_M、ユーザ回路のFPGA内の割合RTの値が示されている。さらに、FPGAバス帯域の上限値BD_Lは1400MB/Sとする。
図16は、図15の具体例の予測実行時間、並列度調整無の場合の測定実行時間、並列度調整有の場合の測定実行時間を示す図である。図16には、ユーザ回路UC_1とUC_2がジョブを4回繰り返した場合の、予測実行時間、並列度調整無の場合の測定実行時間、並列度調整有の場合の測定実行時間を示している。図中、ハッチングされた時間は予測コンフィグレーション時間CT_Eを示し、ハッチングされていない時間は予測実行時間ET_Eと測定実行時間ET_Mを示す。
図15、図16を参照しながら、具体例で並列度調整処理を説明する。前提として、時間t0でユーザ回路UC_1がFPGA内にコンフィグレーションされ実行開始し、時間t1でユーザ回路UC_2がFPGA内にコンフィグレーションされ実行開始する。但し、時間t3の前後でFPGAバスの帯域にボトルネックが発生し、ユーザ回路UC_1の測定実行時間ET_M1(200ms)が予測実行時間ET_E1(100ms)より大幅に長くなっている。
図15に示されるとおり、プロセッサは、時間t0以降、ユーザ回路UC_1を並列度PL=8でFPGA内にコンフィグレーションしたが、測定実行時間ET_M1の200msは予測実行時間ET_E1の100msより約2倍長くなり、測定使用帯域BD_M1の1200MB/Sは予測使用帯域BD_E1の1000MB/Sより大きくなっている。一方、プロセッサは、時間t1以降、ユーザ回路UC_2を並列度PL=2でFPGA内にコンフィグレーションし、測定実行時間ET_M2の200msは予測実行時間ET_E2の200msと一致し、測定使用帯域BD_M2の200MB/Sも予測使用帯域BD_E2の200MB/Sと一致している。そして、両ユーザ回路の測定使用帯域の合計は、1200+200=1400MB/SとFPGAバスの帯域上限値BD_Lに達している。
上記の状態では、ユーザ回路UC_1が予測実行時間ET_E1よりも測定実行時間ET_M1が2倍まで長くなり、予測使用帯域BD_E1よりも測定使用帯域BD_M1が長くなっている原因が、FPGAバス帯域に発生したボトルネックによりユーザ回路UC_1が予測したとおり十分に動作していないと推定される。つまり、ユーザ回路UC_1の予測使用帯域BD_Eが外れて、FPGAバス帯域にボトルネックが発生したと考えられる。
そこで、プロセッサは、時間t4で、予測実行時間と測定実行時間との差分が最大のユーザ回路UC_1を並列度低下ターゲットとして選択し、予測実行時間ET_E1=100msと測定実行時間ET_M1=200msの逆数の比率(2:1)に比例するように、並列度PL=8を新並列度PLX=4に低下させる。前述の式3に基づく新並列度の算出である。その結果、時間t4以降では、並列度1/2に対応して、ユーザ回路UC_1の測定実行時間ET_M1が200msとなり、測定使用帯域BD_M1が600MB/sと変化している。この結果、両ユーザ回路UC_1、UC_2の測定使用帯域の合計が600+200=800MB/sと上限値1400MB/sより低くなっている。
そこで、プロセッサは、時間t5で、並列度を低下させたユーザ回路UC_1以外のユーザ回路UC_2の並列度を式1、式2を満たす範囲で増加させ、ユーザ回路UC_2の並列度は2から4に増加している。これは、式2の回路面積の合計(32%+60%)がFPAGの回路面積100%以下という条件により、最大並列度は4と制限されたからである。そして、ユーザ回路UC_2は、測定実行時間ET_M2は100msと1/2になり、測定使用帯域BD_M2は400msと2倍になっている。この結果、ユーザ回路UC_2は時間t6にて予測実行時間よりも時間dt2だけ早く処理実行を完了する。つまり、図15において、ユーザ回路UC_2は時間t6で並列度が0、それ以外の実行時間、使用帯域、面積の割合が全て0になる。
そこで、プロセッサは、時間t7で、並列度を低下させたユーザ回路UC_1の並列度を式3に基づいて算出し4から9に増加する。この並列度の増加率は、使用帯域を上限値未満にする式1による制限に基づいて決定された。並列度が2.25倍に増加されたことで、予測実行時間ET_E1、測定実行時間ET_M1は共に88.9msと短くなり、予測使用帯域BD_E1、測定使用帯域BD_M1は共に1350MB/sに増加する。そして、図16に示されるとおり、ユーザ回路UC_1のジョブ実行完了時間は、並列度を調整しなかった場合よりも時間dt1だけ早くなっている。
[第2の実施の形態]
第1の実施の形態では、プロセッサは、FPGAのバス帯域にボトルネックが発生している場合、測定実行時間と予測実行時間との差分が最大のユーザ回路を、ボトルネックにより無駄に並列度が高くされていると推定して、そのユーザ回路の並列度を測定実行時間に見合った並列度に低下させた。
それに対して、第2の実施の形態では、プロセッサは、単純に、全てのユーザ回路の並列度をできるだけ平等に保つように制御する。
図17は、第2の実施の形態におけるユーザ回路の並列度調整処理のフローチャート図である。第1の実施の形態のユーザ回路の並列度調整処理を示す図10と異なり、ユーザ回路の並列度が低い回路を優先的に並列度を増加し(S13C)、並列度が高い回路を優先的に並列度を減少する(S15A)。
プロセッサは、一定時間毎に(S10のYES)、測定実行時間と測定使用帯域を全てのユーザ回路の測定回路から取得する(S11)。そして、プロセッサは、FPGAバス帯域の上限値から測定使用帯域の合計値を減じた値がいずれかのユーザ回路の並列度を増加できるに十分な帯域を有するか否かを判定する(S12)。
工程S12の判定がYESであれば、プロセッサは、式1、式2を満たす範囲で、並列度が低いユーザ回路の順に(優先度を並列度が低いと定義すれば、優先度が高いユーザ回路の順に)並列度を増加する(S13C)。
図18は、工程S13Cのフローチャート図である。図11のフローチャートと異なり、プロセッサは、並列度が小さい順にユーザ回路をソートする(S131C)。また、プロセッサは、並列度が同じユーザ回路はコンフィグレーション時が古い順にソートする(S131C)。そして、ソート順に、新並列度PLXi=PLi+1で式1、式2を満たす場合(S133のYES)、並列度PLiを新並列度PLXiに設定する(S134)。それ以外は、図11と同じである。これにより、並列度が低いユーザ回路を優先して式1、式2を満たす範囲で優先度を増加することができる。
一方、図17の工程S12の判定がNOであり、さらに測定使用帯域の合計がFPGAバス帯域の上限値に達している場合(S14のYES)、プロセッサは、並列度が高いユーザ回路の順に(優先度を並列度が低いと定義すれば、優先度が低いユーザ回路の順に)並列度を低下する(S15A)。この場合は、測定使用帯域の合計が帯域上限値に達しているので、並列度を低下させた後の測定使用帯域の合計がFPGAバス帯域の上限未満か否かの判定をすることができない。したがって、プロセッサは、並列度が最も高いユーザ回路の並列度を−1して、次のサイクルで取得した測定使用帯域に基づき、工程S14の判定を行うことになる。再度工程S14の判定がYESになれば、プロセッサは、再度並列度が最も高いユーザ回路の並列度を低下する。
工程S15Aにて、並列度が同じ場合、コンフィグレーション時が新しいユーザ回路を優先して並列度を減少するようにしてもよい。
上記のとおり、第2の実施の形態のユーザ回路の並列度調整処理によれば、全てのユーザ回路の並列度をできるだけ平等にするよう並列度調整を行う。さらに、並列度が同じ場合は、コンフィグレーション時が古いユーザ回路を優先して並列度を増加し、コンフィグレーション時が新しいユーザ回路を優先して並列度を減少する。
以上の通り、第1、第2の本実施の形態によれば、FPGA内に構築するユーザの論理回路の並列度をFPGAバス帯域の上限値未満の範囲で増加する。これにより、FPGAバス帯域にボトルネックが発生しない範囲でユーザの論理回路の並列度をできるだけ高くでき、且つ、FPGA内のユーザ回路の並列度を無駄に高くすることを防止できる。また、FPAGをCPUのアクセレータとして有効に利用できる。
以上の実施の形態をまとめると,次の付記のとおりである。
(付記1)
プログラムを実行するプロセッサと、
前記プロセッサからのコンフィグレーション要求に応じて、前記コンフィグレーション要求が要求する論理回路をコンフィグレーションするリコンフィグレーション領域を有するプログラマブルロジック回路装置(以下PLD)を有し、
前記プロセッサは、
前記リコンフィグレーション領域内にコンフィグレーションされ動作中の複数の論理回路のデータ転送量の測定値を取得し、
前記取得したデータ転送量の測定値の合計に基づいて、データ転送量の合計が前記PLDのバスのデータ転送量の上限値を超えない範囲で、前記リコンフィグレーション領域内にコンフィグレーションする前記複数の論理回路それぞれの並列数を調整する、情報処理装置。
(付記2)
前記プロセッサは、前記取得したデータ転送量の測定値の合計が前記上限値に達した場合、前記複数の論理回路のうち第1の条件を満たす論理回路の並列度を減少する、付記1に記載の情報処理装置。
(付記3)
前記プロセッサは、前記取得したデータ転送量の測定値の合計が前記上限値に達していない場合、前記複数の論理回路のうち第2の条件を満たす論理回路の並列度を増加する、付記1に記載の情報処理装置。
(付記4)
前記プロセッサは、
前記リコンフィグレーション領域内にコンフィグレーションされ動作中の前記複数の論理回路の処理完了に要する実行時間の測定値を取得し、
前記リコンフィグレーション領域内にコンフィグレーションされ動作中の前記複数の論理回路のうち、前記実行時間の測定値と予測した実行時間との差分が最大の論理回路を前記第1の条件を満たす論理回路に選択する、付記2に記載の情報処理装置。
(付記5)
前記プロセッサは、
前記リコンフィグレーション領域内にコンフィグレーションされ動作中の前記複数の論理回路の処理完了に要する実行時間の測定値を取得し、
前記リコンフィグレーション領域内にコンフィグレーションされ動作中の前記複数の論理回路のうち、前記実行時間の測定値と予測した実行時間との差分が所定の基準値以上の論理回路を前記第1の条件を満たす論理回路に選択する、付記2に記載の情報処理装置。
(付記6)
前記プロセッサは、
前記リコンフィグレーション領域内にコンフィグレーションされ動作中の前記複数の論理回路の処理完了に要する実行時間の測定値を取得し、
前記論理回路の並列度を減少するとき、前記第1の条件を満たす論理回路の前記実行時間の測定値と予測した実行時間との比率に反比例して前記第1の条件を満たす論理回路の並列度を減少する、付記2のいずれかに記載の情報処理装置。
(付記7)
前記プロセッサは、
前記リコンフィグレーション領域内にコンフィグレーションされ動作中の前記複数の論理回路の処理完了に要する実行時間の測定値を取得し、
前記論理回路の並列度を減少した後、前記複数の論理回路の動作時間の測定値を取得し、前記並列度を減少した論理回路を除く残りの論理回路について、前記並列数を増加する制御を実行する、付記2に記載の情報処理装置。
(付記8)
前記プロセッサは、
前記リコンフィグレーション領域内にコンフィグレーションされ動作中の前記複数の論理回路の1つが処理の実行を完了したとき、前記取得したデータ転送量の合計が前記PLDのバスのデータ転送量の上限値を超えない範囲で、前記並列度を減少した論理回路を優先して前記並列度を増加する、付記2に記載の情報処理装置。
(付記9)
前記プロセッサは、
前記データ転送量の合計が前記PLDのバスのデータ転送量の上限値を超えない範囲で、並列度が低い論理回路を優先して前記論理回路の並列度を増加する、付記1に記載の情報処理装置。
(付記10)
前記プロセッサは、
前記データ転送量の合計が前記PLDのバスのデータ転送量の上限値を超えない範囲で、並列度が高い論理回路を優先して前記論理回路の並列度を減少する、付記1または9に記載の情報処理装置。
(付記11)
プログラムを実行するプロセッサからのコンフィグレーション要求に応じて、前記コンフィグレーション要求が要求する論理回路をコンフィグレーションするリコンフィグレーション領域を有するプログラマブルロジック回路装置(以下PLD)を制御するPLD管理プログラムであって、
前記リコンフィグレーション領域内にコンフィグレーションされ動作中の複数の論理回路のデータ転送量の測定値を取得し、
前記取得したデータ転送量の合計が前記PLDのバスのデータ転送量の上限値を超えない範囲で、前記リコンフィグレーション領域内にコンフィグレーションする前記複数の論理回路それぞれの並列数を増加する、
処理を前記プロセッサに実行させるコンピュータ読み取り可能なPLD管理プログラム。
(付記12)
プログラムを実行するプロセッサからのコンフィグレーション要求に応じて、前記コンフィグレーション要求が要求する論理回路をコンフィグレーションするリコンフィグレーション領域を有するプログラマブルロジック回路装置(以下PLD)を制御するPLD管理方法であって、
前記リコンフィグレーション領域内にコンフィグレーションされ動作中の複数の論理回路のデータ転送量の測定値を取得し、
前記取得したデータ転送量の合計が前記PLDのバスのデータ転送量の上限値を超えない範囲で、前記リコンフィグレーション領域内にコンフィグレーションする前記複数の論理回路それぞれの並列数を増加する、
処理を有するPLD管理方法。
10:情報処理装置
11:CPU、プロセッサ
12:メインメモリ
15:FPGA、PLD
16:補助記憶装置
17:FPGA用のデータメモリ
BUS_1:CPUバス
BUS_2:PCIバス
BUS_3:FPGAバス
I_BUS:FPGA内部バス
RC_REG:リコンフィグレーション領域
OC:FPGAの運用回路
PB:部分リコンフィグレーションブロック
UC_A, UC_B:ユーザ回路
151:C_DATA書き込み制御回路
C_RAM:コンフィグレーションデータメモリ
PL:並列度
ET_E:予測実行時間
BD_E:予測帯域
ET_M:測定実行時間
BD_M:測定帯域、使用帯域
A1、A2:ユーザ回路面積
BD_L:上限帯域
A_L:総回路面積

Claims (8)

  1. プログラムを実行するプロセッサと、
    前記プロセッサからのコンフィグレーション要求に応じて、前記コンフィグレーション要求が要求する論理回路をコンフィグレーションするリコンフィグレーション領域を有するプログラマブルロジック回路装置(以下PLD)とを有し、
    前記プロセッサは、
    前記リコンフィグレーション領域内にコンフィグレーションされ動作中の複数の論理回路のデータ転送量の測定値を取得し、
    前記取得したデータ転送量の測定値の合計に基づいて、データ転送量の合計が前記PLDのバスのデータ転送量の上限値を超えない範囲で、前記リコンフィグレーション領域内にコンフィグレーションする前記複数の論理回路それぞれの並列数を調整し、
    前記取得したデータ転送量の測定値の合計が前記上限値に達した場合、前記複数の論理回路のうち第1の条件を満たす論理回路の並列度を減少し、
    前記リコンフィグレーション領域内にコンフィグレーションされ動作中の前記複数の論理回路の処理完了に要する実行時間の測定値を取得し、
    前記リコンフィグレーション領域内にコンフィグレーションされ動作中の前記複数の論理回路のうち、前記実行時間の測定値と予測した実行時間との差分が最大の論理回路を前記第1の条件を満たす論理回路に選択する、情報処理装置。
  2. プログラムを実行するプロセッサと、
    前記プロセッサからのコンフィグレーション要求に応じて、前記コンフィグレーション要求が要求する論理回路をコンフィグレーションするリコンフィグレーション領域を有するプログラマブルロジック回路装置(以下PLD)とを有し、
    前記プロセッサは、
    前記リコンフィグレーション領域内にコンフィグレーションされ動作中の複数の論理回路のデータ転送量の測定値を取得し、
    前記取得したデータ転送量の測定値の合計に基づいて、データ転送量の合計が前記PLDのバスのデータ転送量の上限値を超えない範囲で、前記リコンフィグレーション領域内にコンフィグレーションする前記複数の論理回路それぞれの並列数を調整し、
    前記取得したデータ転送量の測定値の合計が前記上限値に達した場合、前記複数の論理回路のうち第1の条件を満たす論理回路の並列度を減少し、
    前記リコンフィグレーション領域内にコンフィグレーションされ動作中の前記複数の論理回路の処理完了に要する実行時間の測定値を取得し、
    前記リコンフィグレーション領域内にコンフィグレーションされ動作中の前記複数の論理回路のうち、前記実行時間の測定値と予測した実行時間との差分が所定の基準値以上の論理回路を前記第1の条件を満たす論理回路に選択する、情報処理装置。
  3. 前記プロセッサは、前記取得したデータ転送量の測定値の合計が前記上限値に達していない場合、前記複数の論理回路のうち第2の条件を満たす論理回路の並列度を増加する、請求項1または2に記載の情報処理装置。
  4. 前記プロセッサは、
    前記論理回路の並列度を減少するとき、前記第1の条件を満たす論理回路の前記実行時間の測定値と予測した実行時間との比率に反比例して前記第1の条件を満たす論理回路の並列度を減少する、請求項1または2に記載の情報処理装置。
  5. 前記プロセッサは、
    前記論理回路の並列度を減少した後、前記複数の論理回路の動作時間の測定値を取得し、前記並列度を減少した論理回路を除く残りの論理回路について、前記並列数を増加する制御を実行する、請求項1または2に記載の情報処理装置。
  6. 前記プロセッサは、
    前記リコンフィグレーション領域内にコンフィグレーションされ動作中の前記複数の論理回路の1つが処理の実行を完了したとき、前記取得したデータ転送量の合計が前記PLDのバスのデータ転送量の上限値を超えない範囲で、前記並列度を減少した論理回路を優先して前記並列度を増加する、請求項1または2に記載の情報処理装置。
  7. プログラムを実行するプロセッサからのコンフィグレーション要求に応じて、前記コンフィグレーション要求が要求する論理回路をコンフィグレーションするリコンフィグレーション領域を有するプログラマブルロジック回路装置(以下PLD)を制御するPLD管理プログラムであって、
    前記リコンフィグレーション領域内にコンフィグレーションされ動作中の複数の論理回路のデータ転送量の測定値を取得し、
    前記取得したデータ転送量の合計が前記PLDのバスのデータ転送量の上限値を超えない範囲で、前記リコンフィグレーション領域内にコンフィグレーションする前記複数の論理回路それぞれの並列数を増加し、
    前記取得したデータ転送量の測定値の合計が前記上限値に達した場合、前記複数の論理回路のうち第1の条件を満たす論理回路の並列度を減少し、
    前記リコンフィグレーション領域内にコンフィグレーションされ動作中の前記複数の論理回路の処理完了に要する実行時間の測定値を取得し、
    前記リコンフィグレーション領域内にコンフィグレーションされ動作中の前記複数の論理回路のうち、前記実行時間の測定値と予測した実行時間との差分が最大の論理回路を前記第1の条件を満たす論理回路に選択する
    処理を前記プロセッサに実行させるコンピュータ読み取り可能なPLD管理プログラム。
  8. プログラムを実行するプロセッサからのコンフィグレーション要求に応じて、前記コンフィグレーション要求が要求する論理回路をコンフィグレーションするリコンフィグレーション領域を有するプログラマブルロジック回路装置(以下PLD)を制御するPLD管理方法であって、
    前記リコンフィグレーション領域内にコンフィグレーションされ動作中の複数の論理回路のデータ転送量の測定値を取得し、
    前記取得したデータ転送量の合計が前記PLDのバスのデータ転送量の上限値を超えない範囲で、前記リコンフィグレーション領域内にコンフィグレーションする前記複数の論理回路それぞれの並列数を増加し、
    前記取得したデータ転送量の測定値の合計が前記上限値に達した場合、前記複数の論理回路のうち第1の条件を満たす論理回路の並列度を減少し、
    前記リコンフィグレーション領域内にコンフィグレーションされ動作中の前記複数の論理回路の処理完了に要する実行時間の測定値を取得し、
    前記リコンフィグレーション領域内にコンフィグレーションされ動作中の前記複数の論理回路のうち、前記実行時間の測定値と予測した実行時間との差分が最大の論理回路を前記第1の条件を満たす論理回路に選択する
    処理を有するPLD管理方法。
JP2016248297A 2016-12-21 2016-12-21 情報処理装置、pld管理プログラム及びpld管理方法 Active JP6849908B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016248297A JP6849908B2 (ja) 2016-12-21 2016-12-21 情報処理装置、pld管理プログラム及びpld管理方法
US15/847,978 US10050627B2 (en) 2016-12-21 2017-12-20 Information processing device, PLD management program, and PLD management method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016248297A JP6849908B2 (ja) 2016-12-21 2016-12-21 情報処理装置、pld管理プログラム及びpld管理方法

Publications (2)

Publication Number Publication Date
JP2018101359A JP2018101359A (ja) 2018-06-28
JP6849908B2 true JP6849908B2 (ja) 2021-03-31

Family

ID=62562126

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016248297A Active JP6849908B2 (ja) 2016-12-21 2016-12-21 情報処理装置、pld管理プログラム及びpld管理方法

Country Status (2)

Country Link
US (1) US10050627B2 (ja)
JP (1) JP6849908B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017188416A1 (ja) * 2016-04-28 2017-11-02 Necソリューションイノベータ株式会社 回路装置、回路書き換え方法、及びコンピュータ読み取り可能な記録媒体
JP2022056144A (ja) 2020-09-29 2022-04-08 富士フイルムビジネスイノベーション株式会社 プログラマブル論理回路、情報処理装置、情報処理システム、及びプログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9525696B2 (en) * 2000-09-25 2016-12-20 Blue Coat Systems, Inc. Systems and methods for processing data flows
JP2005316957A (ja) * 2004-03-31 2005-11-10 Seiko Epson Corp 情報処理システム、第1の情報処理装置、第1の情報処理装置制御プログラム及び第1の情報処理装置制御方法
JP4679856B2 (ja) * 2004-09-09 2011-05-11 三菱電機株式会社 分散シミュレーションシステム及びプログラム
US8284665B1 (en) * 2008-01-28 2012-10-09 Juniper Networks, Inc. Flow-based rate limiting
JP2013066129A (ja) * 2011-09-20 2013-04-11 Renesas Electronics Corp バス制御装置及び情報処理装置
US9807189B2 (en) * 2012-10-19 2017-10-31 Nec Corporation Data transfer device and data transfer system using adaptive compression algorithm
US9100012B1 (en) * 2012-12-14 2015-08-04 Altera Corporation Adaptable programs using partial reconfiguration
JP2015231205A (ja) 2014-06-06 2015-12-21 国立大学法人静岡大学 フィールドプログラマブルゲートアレイ、フィールドプログラマブルゲートアレイ開発ツール、及び、フィールドプログラマブルゲートアレイ開発方法
JP2016076867A (ja) 2014-10-08 2016-05-12 キヤノン株式会社 情報処理装置、情報処理装置の制御方法、及びプログラム
JP6447024B2 (ja) * 2014-11-07 2019-01-09 カシオ計算機株式会社 楽音発生装置、処理方法、プログラムおよび電子楽器
CN105700956A (zh) * 2014-11-28 2016-06-22 国际商业机器公司 用于处理分布式作业的方法和系统
JP6616420B2 (ja) * 2015-08-20 2019-12-04 株式会社日立製作所 情報処理装置
JP6694138B2 (ja) * 2016-07-26 2020-05-13 富士通株式会社 プログラマブルロジックデバイスの制御プログラム、制御方法及び情報処理装置
JP6743568B2 (ja) * 2016-08-09 2020-08-19 富士通株式会社 制御装置、情報処理システム、プログラム及び情報処理方法

Also Published As

Publication number Publication date
US10050627B2 (en) 2018-08-14
US20180175861A1 (en) 2018-06-21
JP2018101359A (ja) 2018-06-28

Similar Documents

Publication Publication Date Title
US8782657B2 (en) Dynamic creation and destruction of IO resources based on actual load and resource availability
US11093352B2 (en) Fault management in NVMe systems
US8713572B2 (en) Methods, systems, and physical computer storage media for processing a plurality of input/output request jobs
US11221876B2 (en) Scheduling applications in CPU and GPU hybrid environments
CN111095220B (zh) 在服务于存储事务时的服务质量控制方法和系统
US10831539B2 (en) Hardware thread switching for scheduling policy in a processor
CN111177984B (zh) 电子设计自动化中异构计算单元的资源利用
KR20140140636A (ko) 컴퓨팅 시스템의 동작 관리
JP6849908B2 (ja) 情報処理装置、pld管理プログラム及びpld管理方法
JPWO2009060567A1 (ja) データ転送制御装置、データ転送装置、データ転送制御方法及び再構成回路を用いた半導体集積回路
EP3729282A1 (en) Scheduling memory bandwidth based on quality of service floorbackground
JP6836065B2 (ja) 情報処理装置、pld管理プログラム及びpld管理方法
CN111930516B (zh) 一种负载均衡方法及相关装置
JP5971214B2 (ja) データ処理装置及びデータ処理プログラム
US10157066B2 (en) Method for optimizing performance of computationally intensive applications
KR20160061726A (ko) 인터럽트 핸들링 방법
US10078604B1 (en) Interrupt coalescing
JP2004171172A (ja) プロセッサ負荷制御機能をもつ記憶制御装置
US9152451B2 (en) Method of distributing processor loading between real-time processor threads
US10225198B2 (en) Bandwidth control circuit, arithmetic processing apparatus, and bandwidth control method for apparatus
US11899551B1 (en) On-chip software-based activity monitor to configure throttling at a hardware-based activity monitor
TWI756974B (zh) 機器學習系統及其資源配置方法
US8447895B2 (en) Methods and apparatus for decreasing power consumption and bus activity
US20230205661A1 (en) Real-time simulation of compute accelerator workloads with remotely accessed working sets
WO2022185527A1 (ja) スケジューリング装置、スケジューリング方法、および、スケジューリングプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190910

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200727

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200915

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201113

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210202

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210215

R150 Certificate of patent or registration of utility model

Ref document number: 6849908

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150