JP7466643B2

JP7466643B2 - 学習装置、推論装置、学習方法、および推論方法

Info

Publication number: JP7466643B2
Application number: JP2022530483A
Authority: JP
Inventors: 敦弘森
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2020-06-09
Filing date: 2021-06-01
Publication date: 2024-04-12
Anticipated expiration: 2041-06-01
Also published as: US20230342530A1; JPWO2021251206A1; WO2021251206A1; US12380264B2; CN115699010A

Description

本開示は、学習装置、推論装置、およびプログラマブルロジックデバイスの開発用ツールチェーンに関する。

近年、半導体プロセス世代の進化とともにカスタムＡＳＩＣ（Application Specific Integrated Circuit）開発のコストが増大している。そのため、ＦＰＧＡ（Field Programmable Gate Array）またはＤＲＰ（Dynamic ReConfigurable Processor）などのプログラマブルロジックデバイスへのニーズが高まっている。

これらのプログラマブルデバイスを用いてユーザアプリケーション回路を開発するツールチェーンにおいては、大別して高位合成、論理マッピング、および配置配線などの工程が存在する。この中で特に実行時間を要するのが配置配線である。配置配線を完了するためにはクロック周波数および入出力遅延設定などの制約条件、およびツールオプションなどを様々に変更した上で試行を繰り返す必要がある。特にコストを抑えたデバイスを用いて比較的規模の大きな回路を開発する場合には、試行に要する時間が開発期間に大きな影響を及ぼす。

たとえば、特許文献１には、半導体回路設計のＥＤＡツールにおいて、性能向上のため、その回路の特徴ベクターを抽出し、特徴量ライブラリを参照して、ツールが推奨する第１の配置配線トポロジーを生成する。特許文献１には、第１の配置配線トポロジーを元に、さらに別の推奨する配置配線トポロジーを生成するための手法が記載されている。

米国特許１０，４３７，９５４明細書

特許文献１においては、回路の特徴量を求めて配置配線のための適切なトポロジーを推奨する。しかしながら、特許文献１に記載した手法は、ＡＳＩＣ回路設計に特化したものであり、プログラマブルロジックデバイスへの適用は考慮されていない。

本開示の目的は、プログラマブルロジックデバイスを用いてユーザアプリケーション回路を開発する際に、配置配線の高速化を実現できる学習装置、推論装置、およびプログラマブルロジックデバイスの開発用ツールチェーンを提供することである。

本開示の学習装置は、プログラマブルロジックデバイスの開発用ツールチェーンのテクノロジ毎のリソース使用率データおよびテクノロジマッピング時のタイミングスラック情報と、テクノロジ毎のリソース使用率データおよびテクノロジマッピング時のタイミングスラック情報におけるプログラマブルロジックデバイスの開発用ツールチェーンの目標クロック周波数および反復合成用パラメータとを含む学習用データを取得するデータ取得部と、学習用データを用いて、プログラマブルロジックデバイスの開発用ツールチェーンのテクノロジ毎のリソース使用率データおよびテクノロジマッピング時のタイミングスラック情報から配置配線を成功させるためのプログラマブルロジックデバイスの開発用ツールチェーンに与える反復合成用パラメータを推論するための学習済モデルを生成するモデル生成部とを備える。

本開示の推論装置は、プログラマブルロジックデバイスの開発用ツールチェーンのテクノロジ毎のリソース使用率データおよびテクノロジマッピング時のタイミングスラック情報を取得するデータ取得部と、テクノロジ毎のリソース使用率データおよびテクノロジマッピング時のタイミングスラック情報から配置配線を成功させるためのプログラマブルロジックデバイスの開発用ツールチェーンに与える反復合成用パラメータを推論するための学習済モデルを用いて、データ取得部で取得したテクノロジ毎のリソース使用率データおよびテクノロジマッピング時のタイミングスラック情報から配置配線を成功させるための反復合成用パラメータを出力する推論部とを備える。

本開示の学習装置は、プログラマブルロジックデバイスの開発用ツールチェーンの目標クロック周波数と、反復合成用パラメータと、プログラマブルロジックデバイスの開発用ツールチェーンのテクノロジ毎のリソース使用率データと、テクノロジマッピング時のタイミングスラック情報とを含む学習用データを取得するデータ取得部と、学習用データを用いて、プログラマブルロジックデバイスの開発用ツールチェーンの目標クロック周波数と、反復合成用パラメータと、テクノロジ毎のリソース使用率データと、テクノロジマッピング時のタイミングスラック情報とから配置配線の成功確率を推論するための学習済モデルを生成するモデル生成部とを備える。

本開示の推論装置は、プログラマブルロジックデバイスの開発用ツールチェーンの目標クロック周波数と、反復合成用パラメータと、プログラマブルロジックデバイスの開発用ツールチェーンのテクノロジ毎のリソース使用率データと、テクノロジマッピング時のタイミングスラック情報とを取得するデータ取得部と、目標クロック周波数と、反復合成用パラメータと、テクノロジ毎のリソース使用率データと、テクノロジマッピング時のタイミングスラック情報とから配置配線の成功確率を推論するための学習済モデルを用いて、データ取得部で取得した目標クロック周波数と、反復合成用パラメータと、テクノロジ毎のリソース使用率データと、テクノロジマッピング時のタイミングスラック情報とから配置配線の成功確率を出力する推論部とを備える。

本開示によれば、プログラマブルロジックデバイスを用いてユーザアプリケーション回路を開発する際に、配置配線の高速化を実現できる。

実施の形態１におけるプログラマブルロジックデバイスの開発用ツールチェーンに関する学習装置１０の構成図である。実施の形態１における学習装置１０の学習処理に関するフローチャートである。実施の形態１におけるプログラマブルロジックデバイスの開発用ツールチェーンに関する推論装置３０の構成図である。実施の形態１における推論装置３０による反復合成用パラメータの推論手順を表わすフローチャートである。実施の形態２におけるプログラマブルロジックデバイスの開発用ツールチェーンに関する学習装置１０Ａの構成を表わす図である。実施の形態２における学習装置１０Ａの学習処理に関するフローチャートである。実施の形態２におけるプログラマブルロジックデバイスの開発用ツールチェーンに関する推論装置３０Ａの構成を表わす図である。実施の形態２における推論装置３０Ａの配置配線の成功確率の推論手順を表わすフローチャートである。学習装置１０，１０Ａ、推論装置３０，３０Ａ、またはプログラマブルロジックデバイスの開発用ツールチェーン４０のハードウェア構成を表わす図である。

以下、実施の形態について、図面を参照して説明する。
実施の形態１．
図１は、実施の形態１におけるプログラマブルロジックデバイスの開発用ツールチェーンに関する学習装置１０の構成図である。学習装置１０は、データ取得部１２と、モデル生成部１３とを備える。

データ取得部１２は、目標クロック周波数、反復合成用パラメータ、テクノロジ毎のリソース使用率データ、およびテクノロジマッピング時のタイミングスラック情報を学習用データとして取得する。

目標クロック周波数とは、プログラマブルロジックデバイスを実際に動作させる目標のクロック周波数のことである。

反復合成とは、目標クロック周波数を配置配線後に達成するために複数回の配置配線を試行することを意味する。反復合成では、例えば、目標クロック周波数、または目標クロック周波数よりも高いクロック周波数を中心周波数Ｘ[MHz]として、周波数の低い側および高い側に閾値σ[MHz]の範囲を設定し、すなわち（Ｘ－σ）[MHz]から（Ｘ＋σ）[MHz]までの範囲を設定し、その範囲の間をステップ値Δ[MHz]ずつ変化させながら配置配線の試行が繰返される。反復合成の試行回数は（２σ／Δ＋１）回となる。反復合成用パラメータとは、上記のＸ、σ、Δのことを指す。下限値（Ｘ－σ）は、目標クロック周波数およりも大きな値とする。

テクノロジ毎のリソース使用率データとは、プログラマブルロジックデバイス内の各種演算資源毎の使用可能な数に対する使用数の割合を示す。

テクノロジ毎のリソース使用率データは、たとえば、プログラマブルロジックデバイスのテクノロジマッピングの結果、ＬＥ（Logic Element）またはＰＥ（Processing Element）のＡＬＵ（算術論理演算ユニット）の使用率、マルチプレクサの使用率、加算器の使用率、減算器の使用率、および算術シフタの使用率などを含む。

テクノロジマッピング時のタイミングスラック情報は、テクノロジマッピング後の静的タイミング解析の結果、目標クロック周波数で決まるサイクル時間に対して、プログラマブルデバイス内のＦＦ（Flip Flop）間の信号伝搬遅延時間のうち最も大きなもの（クリティカルパス）における、サイクル時間に対するタイミングの余裕度を含む。たとえば、目標クロック周波数が１００[MHz]で決まるサイクル時間が１０．０[ns]で、クリティカルパスにおけるＦＦ（Flip Flop）間の信号伝搬遅延時間が７．０[ns]の場合は、タイミングスラックは１０．０[ns]－７．０[ns]＝３．０[ns]となる。

モデル生成部１３は、データ取得部１２で取得した目標クロック周波数、反復合成用パラメータ、テクノロジ毎のリソース使用率データ、およびテクノロジマッピング時のタイミングスラック情報を含む学習用データを用いて、プログラマブルロジックデバイスの開発用ツールチェーンのテクノロジ毎のリソース使用率データおよびテクノロジマッピング時のタイミングスラック情報から配置配線を成功させるためのプログラマブルロジックデバイスの開発用ツールチェーンに与える反復合成用パラメータを推論するための学習済モデルを生成する。

反復合成用パラメータとは、前述の反復合成実施のためのクロック中心周波数Ｘ[MHz]、周波数の低い側および高い側の周波数範囲を決定するための閾値σ[MHz]、その周波数範囲内を変化させながら配置配線の試行を繰返すためのステップ値Δ[MHz]である。

「配置配線を成功させるための反復合成用パラメータ」とは、配置配線後の回路が目的の信号処理性能を達成できる中心クロック周波数と、反復合成実行時における各々の配置配線結果が成功となる確率が最も高く、かつ配置配線の試行回数が最も少なくて済むような条件を満たすような閾値σ[MHz]およびステップ値Δ[MHz]の組み合わせである。

上記条件を満たすために、たとえば、小さな閾値σを選択して周波数範囲を狭める、あるいは、大きなステップ値Δを選択して配置配線の試行回数を削減することによって、閾値σ[MHz]およびステップ値Δ[MHz]の組み合わせが決定される。

使用可能な最大の演算リソース数を超えないこと、かつ使用するインターコネクトリソースがプログラマブルロジックデバイス上で使用可能な最大のインターコネクトリソース数を超えないこと、かつ、ＦＦ（Flip Flop）間の信号伝搬遅延時間のうち最も大きな値が目標クロック周波数で決まるサイクル時間を超えないことを示す。

モデル生成部１３が用いる学習アルゴリズムとして、教師あり学習、教師なし学習、または強化学習等の公知のアルゴリズムを用いることができる。一例として、強化学習を適用した場合について説明する。強化学習では、ある環境内におけるエージェント（行動主体）が、現在の状態（環境のパラメータ）を観測し、取るべき行動を決定する。エージェントの行動により環境が動的に変化し、エージェントには環境の変化に応じて報酬が与えられる。エージェントはこれを繰り返し、一連の行動を通じて報酬が最も多く得られる行動方針を学習する。強化学習の代表的な手法であるＱ学習、またはＴＤ学習（Temporal Difference Learning）を用いることができる。例えば、Ｑ学習（Q-learning）の場合、行動価値関数Ｑ（ｓ，ａ）の一般的な更新式は、式（１）で表される。

式（１）において、ｓｔは時刻ｔにおける環境の状態を表わす。ａｔは時刻ｔにおける行動を表わす。行動ａｔにより、状態はｓｔ＋１に変わる。ｒｔ＋１はその状態の変化によってもらえる報酬を表わす。γは割引率を表わす。αは学習係数を表わす。０＜γ≦１、０＜α≦１の範囲とする。反復合成用パラメータが行動ａｔである。テクノロジ毎のリソース使用率データおよびテクノロジマッピング時のタイミングスラック情報が状態ｓｔである。Ｑ学習では、時刻ｔの状態ｓｔにおける最良の行動ａｔを学習する。

式（１）で表される更新式は、時刻ｔ＋１における最もＱ値の高い行動ａの行動価値Ｑが、時刻ｔにおいて実行された行動ａの行動価値Ｑよりも大きければ、行動価値Ｑを大きくし、逆の場合は、行動価値Ｑを小さくする。換言すれば、時刻ｔにおける行動ａの行動価値Ｑを、時刻ｔ＋１における最良の行動価値に近づけるように、行動価値関数Ｑ（ｓ，ａ）を更新する。それにより、或る環境における最良の行動価値が、それ以前の環境における行動価値に順次伝播していくようになる。

上記のように、強化学習によって学習済モデルを生成する場合、モデル生成部１３は、報酬計算部１４と、関数更新部１５とを備える。

報酬計算部１４は、目標クロック周波数および反復合成用パラメータ、テクノロジ毎のリソース使用率データおよびテクノロジマッピング時のタイミングスラック情報に基づいて報酬を計算する。報酬計算部１４は、配置配線の結果に基づいて、報酬ｒを計算する。たとえば、報酬計算部１４は、配置配線が成功した場合には報酬ｒを増大させ（例えば「１」の報酬を与える。）、他方、配置配線が失敗した場合には報酬ｒを低減する（例えば「－１」の報酬を与える。）。

具体的には、報酬計算部１４は、配置配線が成功した場合には、プログラマブルロジックデバイス内のＬＥまたはＰＥの使用率の余裕度（％）に比例して報酬を増大させる、またはプログラマブルロジックデバイス内のインターコネクトリソースの余裕度（％）に比例して報酬を増大させる、またはプログラマブルロジックデバイス内のＦＦ（Flip Flop）間の信号伝搬遅延時間のうち最も大きなもの（クリティカルパス）における、サイクル時間に対するタイミングの余裕度（Positive Slack値）に比例して報酬を増大させる。報酬計算部１４は、これらの３つの報酬を増大させる要素（演算リソースの余裕度、インターコネクトリソースの余裕度、クリティカルパスのタイミング余裕度）のうち複数の要素を組み合わせて報酬を増大させてもよく、また必要に応じて各々の要素に重み係数を掛けて報酬を増大させてもよい。

報酬計算部１４は、配置配線が失敗した場合には、プログラマブルロジックデバイス内のＬＥまたはＰＥの溢れ度合に比例して報酬を低減させる、またはプログラマブルロジックデバイス内インターコネクトリソースの溢れ度合に比例して報酬を低減させる、またはいずれのリソースも溢れていない場合は、プログラマブルデバイス内のＦＦ（Flip Flop）間の信号伝搬遅延時間のうち最も大きなもの（クリティカルパス）におけるサイクル時間に対するタイミング違反度合（Negative Slack値）または全タイミング違反度（Total Negative Slack値）に比例して報酬を低減させる。報酬計算部１４は、これらの３つの報酬を低減させる要素（演算リソースの溢れ度合、インターコネクトリソースの溢れ度合、タイミング違反度）のうち複数の要素を組み合わせて報酬を低減させてもよく、また必要に応じて各々の要素に重み係数を掛けて報酬を低減させてもよい。

関数更新部１５は、報酬計算部１４によって計算される報酬に従って、配置配線を成功させるための反復合成用パラメータを決定するための関数を更新し、学習済モデル記憶部２０に出力する。例えばＱ学習の場合、関数更新部１５は、式（１）で表される行動価値関数Ｑ（ｓｔ，ａｔ）を、配置配線を成功させるための反復合成用パラメータを算出するための関数として用いる。

以上のような学習を繰り返し実行する。学習済モデル記憶部２０は、関数更新部１５によって更新された行動価値関数Ｑ（ｓｔ，ａｔ）、すなわち、学習済モデルを記憶する。

次に、図２を用いて、学習装置１０が学習する処理について説明する。図２は、実施の形態１における学習装置１０の学習処理に関するフローチャートである。

ステップＳ１０１において、データ取得部１２は、目標クロック周波数、反復合成用パラメータ、テクノロジ毎のリソース使用率データ、およびテクノロジマッピング時のタイミングスラック情報を学習用データとして取得する。

ステップＳ１０２において、モデル生成部１３は、目標クロック周波数、反復合成用パラメータ、テクノロジ毎のリソース使用率データ、およびテクノロジマッピング時のタイミングスラック情報に基づいて報酬を計算する。具体的には、報酬計算部１４は、目標クロック周波数、反復合成用パラメータ、テクノロジ毎のリソース使用率データおよびテクノロジマッピング時のタイミングスラック情報を取得し、配置配線の結果に基づいて、報酬を増大させるか、減少させるかを決定する。報酬計算部１４が報酬を増大させると判断した場合に、処理がステップＳ１０３に進む。報酬計算部１４が報酬を減少させると判断した場合に、処理がステップＳ１０４に進む。

ステップＳ１０３において、報酬計算部１４が、報酬を増大させる。
ステップＳ１０４において、報酬計算部１４は、報酬を減少させる。

ステップＳ１０５において、関数更新部１５は、報酬計算部１４によって計算された報酬に基づいて、学習済モデル記憶部２０が記憶する式（１）で表される行動価値関数Ｑ（ｓｔ，ａｔ）を更新する。

学習装置１０は、以上のステップＳ１０１からＳ１０５までのステップを繰り返し実行し、生成された行動価値関数Ｑ（ｓｔ，ａｔ）を学習済モデルとして記憶する。

本実施の形態に係る学習装置１０は、学習済モデルを学習装置１０の外部に設けられた学習済モデル記憶部２０に記憶するものとしたが、学習済モデル記憶部２０を学習装置１０の内部に備えていてもよい。

図３は、実施の形態１におけるプログラマブルロジックデバイスの開発用ツールチェーンに関する推論装置３０の構成図である。推論装置３０は、データ取得部３１、および推論部３２を備える。

データ取得部３１は、テクノロジ毎のリソース使用率データおよびテクノロジマッピング時のタイミングスラック情報を取得する。

推論部３２は、学習済モデル記憶部２０から、プログラマブルロジックデバイスの開発用ツールチェーンのテクノロジ毎のリソース使用率データおよびテクノロジマッピング時のタイミングスラック情報から配置配線を成功させるためのプログラマブルロジックデバイスの開発用ツールチェーンに与える反復合成用パラメータを推論するための学習済モデルを読出す。

推論部３２は、データ取得部３１で取得したデータと、学習済モデルを利用して、配置配線を成功させるための反復合成用パラメータを推論する。すなわち、推論部３２は、学習済モデルにデータ取得部３１が取得したテクノロジ毎のリソース使用率データおよびテクノロジマッピング時のタイミングスラック情報を入力することで、テクノロジ毎のリソース使用率データおよびテクノロジマッピング時のタイミングスラック情報に適した配置配線を成功させるための反復合成用パラメータを推論することができる。

たとえば、推論部３２は、学習済モデル記憶部２０から学習済みモデルとして、行動価値関数Ｑ（ｓｔ，ａｔ）を読み出す。推論部３２は、テクノロジ毎のリソース使用率データおよびテクノロジマッピング時のタイミングスラック情報（状態ｓｔ）に対して、行動価値関数Ｑ（ｓ，ａ）に基づいて、反復合成用パラメータ（行動ａｔ）を得る。この行動ａｔに含まれる反復合成用パラメータが配置配線を成功させるための反復合成用パラメータである。

本実施の形態では、プログラマブルロジックデバイスの開発用ツールチェーンのモデル生成部１３で学習した学習済モデルを用いて配置配線を成功させるための反復合成用パラメータを出力するものとして説明したが、他のプログラマブルロジックデバイスの開発用ツールチェーンから学習済モデルを取得し、この学習済モデルに基づいて配置配線を成功させるための反復合成用パラメータを出力するようにしてもよい。

次に、図４を用いて、配置配線を成功させるための反復合成用パラメータを得るための処理を説明する。

図４は、実施の形態１における推論装置３０による反復合成用パラメータの推論手順を表わすフローチャートである。

ステップＳ２０１において、データ取得部３１は、テクノロジ毎のリソース使用率データおよびテクノロジマッピング時のタイミングスラック情報を取得する。

ステップＳ２０２において、推論部３２は、学習済モデル記憶部２０に記憶された学習済モデルにテクノロジ毎のリソース使用率データおよびテクノロジマッピング時のタイミングスラック情報を入力する。

ステップＳ２０３において、推論部３２は、学習済モデルから配置配線を成功させるための反復合成用パラメータを得る。推論部３２は得られた配置配線を成功させるための反復合成用パラメータをプログラマブルロジックデバイスの開発用ツールチェーンに出力する。

ステップＳ２０４において、プログラマブルロジックデバイスの開発用ツールチェーンは、出力された配置配線を成功させるための反復合成用パラメータと、テクノロジマッピングによる回路構成情報を用いて、プログラマブルデバイス上の実際のＰＥ（Processing Element）、ＬＥ（Logic Element）、ＳＲＡＭ（Static Random Access Memory）およびインターコネクトリソースを用いた配置配線の試行を繰り返し、すなわち反復合成を行う。このとき、反復合成の合成制約は、ステップＳ２０３によって出力された配置配線を成功させるための反復合成用パラメータである。中心周波数Ｘ[MHz]、閾値σ[MHz]、ステップ値Δ[MHz]を用いて、（Ｘ－σ）[MHz]から（Ｘ＋σ）[MHz]までの周波数範囲を設定し、クロック周波数をその範囲の間でステップ値Δ[MHz]ずつ変化させる。この場合の反復合成の試行回数は（２σ／Δ＋１）回となる。これにより、最も少ない配置配線の試行回数、すなわち短時間での配置配線の試行によって、目的の信号処理性能を達成できるクロック周波数以上での配置配線を成功させることができる。

本実施の形態では、推論部が用いる学習アルゴリズムに強化学習を適用した場合について説明したが、これに限られるものではない。学習アルゴリズムについては、強化学習以外にも、教師あり学習、教師なし学習、または半教師あり学習等を適用することも可能である。

モデル生成部１３に用いられる学習アルゴリズムとしては、特徴量そのものの抽出を学習する深層学習を用いることもできる。あるいは、これに代えて他の公知の方法、例えばニューラルネットワーク、遺伝的プログラミング、機能論理プログラミング、またはサポートベクターマシンなどに従って機械学習を実行してもよい。

学習装置１０及び推論装置３０は、例えば、ネットワークを介してプログラマブルロジックデバイスの開発用ツールチェーンに接続され、このプログラマブルロジックデバイスの開発用ツールチェーンとは別個の装置であってもよい。また、学習装置１０及び推論装置３０は、プログラマブルロジックデバイスの開発用ツールチェーンに内蔵されていてもよい。さらに、学習装置１０及び推論装置３０は、クラウドサーバ上に存在していてもよい。

モデル生成部１３は、複数のプログラマブルロジックデバイスの開発用ツールチェーンから取得される学習用データを用いて、配置配線を成功させるための反復合成用パラメータを学習するようにしてもよい。なお、モデル生成部１３は、同一の場所で使用される複数のプログラマブルロジックデバイスの開発用ツールチェーンから学習用データを取得してもよいし、異なる場所で独立して動作する複数のプログラマブルロジックデバイスの開発用ツールチェーンから学習用データを取得してもよい。また、学習用データを収集するプログラマブルロジックデバイスの開発用ツールチェーンを途中で対象に追加したり、対象から除去することも可能である。さらに、あるプログラマブルロジックデバイスの開発用ツールチェーンに関して配置配線を成功させるための反復合成用パラメータを学習した学習装置を、これとは別のプログラマブルロジックデバイスの開発用ツールチェーンに適用し、この別のプログラマブルロジックデバイスの開発用ツールチェーンに関して配置配線を成功させるための反復合成用パラメータを再学習して更新するようにしてもよい。

以上のように、本実施の形態によれば、プログラマブルデバイスの開発ツールチェーンを用いて反復して配置配線を実行し、配置配線が成功するクロックおよびタイミング制約条件を見つける工程において、人工知能による推論結果によって得られたクロック中心周波数と周波数範囲とを用いる。これによって、配置配線工程の試行回数を大幅に削減することができるので、配置配線工程に要する時間の大幅な短縮を図ることができる。

実施の形態２．
図５は、実施の形態２におけるプログラマブルロジックデバイスの開発用ツールチェーンに関する学習装置１０Ａの構成を表わす図である。

学習装置１０Ａは、データ取得部１２Ａと、モデル生成部１３Ａとを備える。
データ取得部１２Ａは、クロック周波数と、反復合成用パラメータ、テクノロジ毎のリソース使用率データ、テクノロジマッピング時のタイミングスラック情報を学習用データとして取得する。

モデル生成部１３Ａは、データ取得部１２Ａから出力されるクロック周波数と、反復合成用パラメータ、およびテクノロジ毎のリソース使用率データ、テクノロジマッピング時のタイミングスラック情報の組合せに基づいて作成される学習用データに基づいて、配置配線の成功確率を学習する。すなわち、プログラマブルロジックデバイスの開発用ツールチェーンのクロック周波数と、反復合成用パラメータ、テクノロジ毎のリソース使用率データ、テクノロジマッピング時のタイミングスラック情報から配置配線の成功確率を推論する学習済モデルを生成する。ここで、学習用データは、クロック周波数と、反復合成用パラメータおよびテクノロジ毎のリソース使用率データ、テクノロジマッピング時のタイミングスラック情報を互いに関連付けたデータである。プログラマブルロジックデバイスの開発用ツールチェーンにＡＩを活用する場合、学習済モデルは、配置配線が成功したときのクロック周波数と、反復合成用パラメータ、テクノロジ毎のリソース使用率データ、テクノロジマッピング時のタイミングスラック情報と、配置配線が失敗したときのクロック周波数と、反復合成用パラメータ、テクノロジ毎のリソース使用率データ、テクノロジマッピング時のタイミングスラック情報とを分類（クラスタリング）するためのモデルとして構成される。

モデル生成部１３Ａが用いる学習アルゴリズムは、教師あり学習、教師なし学習、強化学習等の公知のアルゴリズムを用いることができる。一例として、教師なし学習であるＫ平均法（クラスタリング）を適用した場合について説明する。教師なし学習とは、結果（ラベル）を含まない学習用データを学習装置に与えることで、それらの学習用データにある特徴を学習する手法をいう。

モデル生成部１３Ａは、例えば、Ｋ平均法によるグループ分け手法に従って、いわゆる教師なし学習により、配置配線の成功確率を学習する。

Ｋ平均法とは、非階層型クラスタリングのアルゴリズムであり、クラスタの平均を用い、与えられたクラスタ数をｋ個に分類する手法である。

具体的に、Ｋ平均法は以下のような流れで処理される。まず、各データｘｉに対してランダムにクラスタを割り振る。次いで、割り振ったデータをもとに各クラスタの中心Ｖｊを計算する。次いで、各ｘｉと各Ｖｊとの距離を求め、ｘｉを最も近い中心のクラスタに割り当て直す。そして、上記の処理で全てのｘｉのクラスタの割り当てが変化しなかった場合、あるいは変化量が事前に設定した一定の閾値を下回った場合に、収束したと判断して処理を終了する。

本願においては、データ取得部１２Ａによって取得されるクロック周波数と、反復合成用パラメータ、テクノロジ毎のリソース使用率データ、テクノロジマッピング時のタイミングスラック情報の組合せに基づいて作成される学習用データに従って、いわゆる教師なし学習により、配置配線の成功確率を学習する。

モデル生成部１３Ａは、以上のような学習を実行することで学習済モデルを生成し、出力する。

学習済モデル記憶部２０Ａは、モデル生成部１３Ａから出力された学習済モデルを記憶する。

次に、図６を用いて、学習装置１０Ａが学習する処理について説明する。図６は、実施の形態２における学習装置１０Ａの学習処理に関するフローチャートである。

ステップＳ３０１において、データ取得部１２Ａは、クロック周波数、反復合成用パラメータ、テクノロジ毎のリソース使用率データ、およびテクノロジマッピング時のタイミングスラック情報を取得する。クロック周波数、反復合成用パラメータ、テクノロジ毎のリソース使用率データ、およびテクノロジマッピング時のタイミングスラック情報を同時に取得するものとしたが、クロック周波数、反復合成用パラメータ、テクノロジ毎のリソース使用率データ、およびテクノロジマッピング時のタイミングスラック情報を関連づけて入力できれば良く、クロック周波数、反復合成用パラメータ、テクノロジ毎のリソース使用率データ、およびテクノロジマッピング時のタイミングスラック情報のデータをそれぞれ別のタイミングで取得しても良い。

ステップＳ３０２において、モデル生成部１３Ａは、データ取得部１２Ａによって取得されるクロック周波数、反復合成用パラメータ、テクノロジ毎のリソース使用率データ、およびテクノロジマッピング時のタイミングスラック情報の組合せに基づいて作成される学習用データに従って、いわゆる教師なし学習により、配置配線の成功確率を学習し、学習済モデルを生成する。

ステップＳ３０３において、学習済モデル記憶部２０Ａは、モデル生成部１３Ａが生成した学習済モデルを記憶する。

図７は、実施の形態２におけるプログラマブルロジックデバイスの開発用ツールチェーンに関する推論装置３０Ａの構成を表わす図である。推論装置３０Ａは、データ取得部３１Ａと、推論部３２Ａとを備える。

データ取得部３１Ａは、クロック周波数、反復合成用パラメータ、テクノロジ毎のリソース使用率データ、およびテクノロジマッピング時のタイミングスラック情報を取得する。

推論部３２Ａは、学習済モデル記憶部２０Ａに記憶された学習済モデルを利用して得られる配置配線の成功確率を推論する。すなわち、推論部３２Ａは、学習済モデルにデータ取得部３１Ａで取得したクロック周波数、反復合成用パラメータ、テクノロジ毎のリソース使用率データ、およびテクノロジマッピング時のタイミングスラック情報を入力することで、クロック周波数、反復合成用パラメータ、テクノロジ毎のリソース使用率データ、およびテクノロジマッピング時のタイミングスラック情報がいずれのクラスタに属するかを推論し、推論結果を配置配線の成功確率として出力することができる。プログラマブルロジックデバイスの開発用ツールチェーンにＡＩを活用する場合、推論部３２Ａは、学習済モデルに入力されたクロック周波数、反復合成用パラメータ、テクノロジ毎のリソース使用率データ、およびテクノロジマッピング時のタイミングスラック情報が、配置配線の成功を示すクラスタに属しているか、それとも配置配線の失敗を示すクラスタに属しているかを判定する。そして、配置配線の成功を示すクラスタに属している場合、推論部３２Ａは、配置配線が成功すると推論する。一方、配置配線の失敗を示すクラスタに属している場合、推論部は配置配線が失敗すると推論する。

あるいは、推論部３２Ａは、学習済モデルにデータ取得部３１Ａで取得したクロック周波数、反復合成用パラメータ、テクノロジ毎のリソース使用率データ、およびテクノロジマッピング時のタイミングスラック情報を入力することで、クロック周波数、反復合成用パラメータ、テクノロジ毎のリソース使用率データ、およびテクノロジマッピング時のタイミングスラック情報が配置配線の成功を示すクラスタに属する確率を推論し、出力することととしてもよい。たとえば、学習済モデルに入力されたクロック周波数、反復合成用パラメータ、テクノロジ毎のリソース使用率データ、およびテクノロジマッピング時のタイミングスラック情報と、配置配線の成功を示すクラスタの重心との距離が小さいほど、配置配線の成功を示すクラスタに属する確率が大きくなるものとしてもよい。

あるいは、モデル生成部１３Ａは、Ｋ平均法の代わりに、ソフトクラスタリング手法を用いて、配置配線の成功を示すクラスタに属する確率を生成するモデルを生成し、推論部３２Ａは、ソフトクラスタリング手法を用いて、生成されたモデルから配置配線の成功を示すクラスタに属する確率を推論するものとしてもよい。

本実施の形態では、プログラマブルロジックデバイスの開発用ツールチェーンのモデル生成部で学習した学習済モデルを用いて配置配線の成功確率を出力するものとして説明したが、他のプログラマブルロジックデバイスの開発用ツールチェーン等の外部から学習済モデルを取得し、この学習済モデルに基づいて配置配線の成功確率を出力するようにしてもよい。

このようにして、推論部３２Ａは、クロック周波数、反復合成用パラメータ、テクノロジ毎のリソース使用率データ、およびテクノロジマッピング時のタイミングスラック情報に基づいて得られた配置配線の成功確率をプログラマブルロジックデバイスの開発用ツールチェーンの入出力部に対して出力する。入出力部としては、例えばディスプレイなどの表示装置が挙げられる。

次に、図８を用いて、推論装置３０Ａを使って配置配線の成功確率を得るための処理を説明する。

図８は、実施の形態２における推論装置３０Ａの配置配線の成功確率の推論手順を表わすフローチャートである。

ステップＳ４０１において、データ取得部３１Ａは、クロック周波数、反復合成用パラメータ、テクノロジ毎のリソース使用率データ、およびテクノロジマッピング時のタイミングスラック情報を取得する。

ステップＳ４０２において、推論部３２Ａは、学習済モデル記憶部２０Ａに記憶された学習済モデルにクロック周波数、反復合成用パラメータ、テクノロジ毎のリソース使用率データ、およびテクノロジマッピング時のタイミングスラック情報を入力し、配置配線の成功確率を得る。

ステップＳ４０３において、推論部３２Ａは、学習済モデルにより得られた配置配線の成功確率をプログラマブルロジックデバイスの開発用ツールチェーンに出力する。

ステップＳ４０４において、プログラマブルロジックデバイスの開発用ツールチェーンは、出力された配置配線の成功確率を考慮して、プログラマブルデバイス上の実際のＰＥ（Processing Element）、ＬＥ（Logic Element）、ＳＲＡＭ（Static Random Access Memory）およびインターコネクトリソースを用いた配置配線の試行を繰り返し、すなわち反復合成を行う。これにより、配置配線の成功確率をディスプレイなどの表示装置に表示することができる。

なお、本実施の形態では、モデル生成部１３Ａおよび推論部３２Ａが用いる学習アルゴリズムに教師なし学習を適用した場合について説明したが、これに限られるものではない。学習アルゴリズムについては、教師なし学習以外にも、強化学習、教師あり学習、又は半教師あり学習等を適用することも可能である。

また、学習に用いられる学習アルゴリズムとしては、特徴量そのものの抽出を学習する、深層学習（ＤｅｅｐＬｅａｒｎｉｎｇ）を用いることもでき、他の公知の方法でもよい。

本実施形態における教師なし学習を実現する場合、上記のようなＫ平均(k-means)法による非階層型クラスタリングに限らず、クラスタリング可能な他の公知の方法であればよい。例えば、最短距離法等の階層型クラスタリングであってもよい。

本実施の形態において、学習装置１０Ａ及び推論装置３０Ａは、例えば、ネットワークを介してプログラマブルロジックデバイスの開発用ツールチェーンに接続され、このプログラマブルロジックデバイスの開発用ツールチェーンとは別個の装置であってもよい。また、学習装置１０Ａ及び推論装置３０Ａは、プログラマブルロジックデバイスの開発用ツールチェーンに内蔵されていてもよい。さらに、学習装置１０Ａ及び推論装置３０Ａは、クラウドサーバ上に存在していてもよい。

モデル生成部１３Ａは、複数のプログラマブルロジックデバイスの開発用ツールチェーンに対して作成される学習用データに従って、配置配線の成功確率を学習するようにしてもよい。なお、モデル生成部１３Ａは、同一のエリアで使用される複数のプログラマブルロジックデバイスの開発用ツールチェーンから学習用データを取得してもよいし、異なるエリアで独立して動作する複数のプログラマブルロジックデバイスの開発用ツールチェーンから収集される学習用データを利用して配置配線の成功確率を学習してもよい。また、学習用データを収集するプログラマブルロジックデバイスの開発用ツールチェーンを途中で対象に追加したり、対象から除去したりすることも可能である。さらに、あるプログラマブルロジックデバイスの開発用ツールチェーンに関して配置配線の成功確率を学習した学習装置を、これとは別のプログラマブルロジックデバイスの開発用ツールチェーンに適用し、当該別のプログラマブルロジックデバイスの開発用ツールチェーンに関して配置配線の成功確率を再学習して更新するようにしてもよい。

図９は、学習装置１０，１０Ａ、推論装置３０，３０Ａ、またはプログラマブルロジックデバイスの開発用ツールチェーン４０のハードウェア構成を表わす図である。

学習装置１０，１０Ａ、推論装置３０，３０Ａ、およびプログラマブルロジックデバイスの開発用ツールチェーン４０は、相当する動作をデジタル回路のハードウェアまたはソフトウェアで構成することができる。学習装置１０，１０Ａ、推論装置３０，３０Ａ、およびプログラマブルロジックデバイスの開発用ツールチェーン４０の機能をソフトウェアを用いて実現する場合には、学習装置１０，１０Ａ、推論装置３０，３０Ａ、およびプログラマブルロジックデバイスの開発用ツールチェーン４０は、例えば、図９に示すように、バス５３によって接続されたプロセッサ５１とメモリ５２とを備え、メモリ５２に記憶されたプログラムをプロセッサ５１が実行するようにすることができる。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本開示の範囲は上記した説明ではなくて請求の範囲によって示され、請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。

１０，１０Ａ学習装置、１２，１２Ａデータ取得部、１３，１３Ａモデル生成部、１４報酬計算部、１５関数更新部、２０，２０Ａ学習済みモデル記憶部、３１，３１Ａデータ取得部、３２，３２Ａ推論部、４０プログラマブルロジックデバイスの開発用ツールチェーン、５１プロセッサ、５２メモリ、５３バス。

Claims

プログラマブルロジックデバイスの開発用ツールチェーンのテクノロジ毎のリソース使用率データおよびテクノロジマッピング時のタイミングスラック情報と、前記テクノロジ毎のリソース使用率データおよび前記テクノロジマッピング時のタイミングスラック情報における前記プログラマブルロジックデバイスの開発用ツールチェーンの目標クロック周波数および反復合成用パラメータとを含む学習用データを取得するデータ取得部と、
前記学習用データを用いて、前記プログラマブルロジックデバイスの開発用ツールチェーンのテクノロジ毎のリソース使用率データおよびテクノロジマッピング時のタイミングスラック情報から配置配線を成功させるための前記プログラマブルロジックデバイスの開発用ツールチェーンに与える反復合成用パラメータを推論するための学習済モデルを生成するモデル生成部と、
を備える学習装置。
前記テクノロジ毎のリソース使用率データは、前記プログラマブルロジックデバイス内のロジックエレメントまたはプロセッシングエレメントの算術論理演算ユニットの使用率と、マルチプレクサの使用率と、加算器の使用率と、減算器の使用率と、算術シフタの使用率とを含む、請求項１記載の学習装置。
前記テクノロジマッピング時のタイミングスラック情報は、前記目標クロック周波数で決まるサイクル時間に対して前記プログラマブルロジックデバイス内のフリップフロップ間の信号伝搬遅延時間のうち最も大きなものにおける前記サイクル時間に対する余裕値を含む、請求項１または２記載の学習装置。
前記反復合成用パラメータは、
中心となるクロック周波数と、
クロック周波数の下限値および上限値を決定するための閾値と、
前記閾値で決定される前記クロック周波数の前記下限値から前記上限値までの範囲を網羅するためのステップ値とを含む、請求項１～３のいずれか１項に記載の学習装置。
前記配置配線を成功させるための反復合成用パラメータは、
前記配置配線後の回路が目的とする信号処理性能を達成できるための前記中心となるクロック周波数と、
反復合成実行時における前記配置配線の結果が成功となる確率が最も高く、かつ前記配置配線の試行回数が最も少なくて済むような条件を満たす前記閾値および前記ステップ値の組み合わせを含む、請求項４に記載の学習装置。
前記モデル生成部は、報酬基準として、前記配置配線が成功した場合に、前記プログラマブルロジックデバイス内のロジックエレメントまたはプロセッシングエレメントの使用率の余裕度、または前記プログラマブルロジックデバイス内のインターコネクトリソースの使用率の余裕度、または前記プログラマブルロジックデバイス内の前記フリップフロップ間の前記信号伝搬遅延時間のうち最も大きなものにおける前記サイクル時間に対する余裕度を用いて報酬を増大させる、請求項３に記載の学習装置。
前記モデル生成部は、報酬基準として、前記配置配線が失敗した場合に、前記プログラマブルロジックデバイス内のロジックエレメントまたはプロセッシングエレメントの使用率の溢れ度合、または前記プログラマブルロジックデバイス内の前記インターコネクトリソースの溢れ度合、または前記プログラマブルロジックデバイス内の前記フリップフロップ間の前記信号伝搬遅延時間のうち最も大きなものにおける前記サイクル時間に対するタイミング違反度合を用いて報酬を低減させる、請求項６に記載の学習装置。
プログラマブルロジックデバイスの開発用ツールチェーンのテクノロジ毎のリソース使用率データおよびテクノロジマッピング時のタイミングスラック情報を取得するデータ取得部と、
テクノロジ毎のリソース使用率データおよびテクノロジマッピング時のタイミングスラック情報から配置配線を成功させるための前記プログラマブルロジックデバイスの開発用ツールチェーンに与える反復合成用パラメータを推論するための学習済モデルを用いて、前記データ取得部で取得した前記テクノロジ毎のリソース使用率データおよび前記テクノロジマッピング時のタイミングスラック情報から配置配線を成功させるための反復合成用パラメータを出力する推論部と、
を備える推論装置。
前記テクノロジ毎のリソース使用率データは、前記プログラマブルロジックデバイス内のロジックエレメントまたはプロセッシングエレメントの算術論理演算ユニットの使用率と、マルチプレクサの使用率と、加算器の使用率と、減算器の使用率と、算術シフタの使用率とを含む、請求項８記載の推論装置。
前記テクノロジマッピング時のタイミングスラック情報は、前記プログラマブルロジックデバイスの開発用ツールチェーンの目標クロック周波数で決まるサイクル時間に対して前記プログラマブルロジックデバイス内のフリップフロップ間の信号伝搬遅延時間のうち最も大きなものにおける前記サイクル時間に対する余裕値を含む、請求項８または９記載の推論装置。
前記配置配線を成功させるための反復合成用パラメータは、
前記配置配線後の回路が目的とする信号処理性能を達成できるための中心となるクロック周波数と、
反復合成実行時における前記配置配線の結果が成功となる確率が最も高く、かつ前記配置配線の試行回数が最も少なくて済むような条件を満たすクロック周波数の下限値および上限値を決定するための閾値、および前記下限値から前記上限値までの範囲を網羅するためのステップ値の組み合わせとを含む、請求項８～１０のいずれか１項に記載の推論装置。
プログラマブルロジックデバイスの開発用ツールチェーンの目標クロック周波数と、反復合成用パラメータと、前記プログラマブルロジックデバイスの開発用ツールチェーンのテクノロジ毎のリソース使用率データと、テクノロジマッピング時のタイミングスラック情報とを含む学習用データを取得するデータ取得部と、
前記学習用データを用いて、前記プログラマブルロジックデバイスの開発用ツールチェーンの前記目標クロック周波数と、前記反復合成用パラメータと、前記テクノロジ毎の前記リソース使用率データと、前記テクノロジマッピング時の前記タイミングスラック情報とから配置配線の成功確率を推論するための学習済モデルを生成するモデル生成部と、
を備える学習装置。
プログラマブルロジックデバイスの開発用ツールチェーンの目標クロック周波数と、反復合成用パラメータと、前記プログラマブルロジックデバイスの開発用ツールチェーンのテクノロジ毎のリソース使用率データと、テクノロジマッピング時のタイミングスラック情報とを取得するデータ取得部と、
前記目標クロック周波数と、前記反復合成用パラメータと、前記テクノロジ毎の前記リソース使用率データと、前記テクノロジマッピング時の前記タイミングスラック情報とから配置配線の成功確率を推論するための学習済モデルを用いて、前記データ取得部で取得した前記目標クロック周波数と、前記反復合成用パラメータと、前記テクノロジ毎の前記リソース使用率データと、前記テクノロジマッピング時の前記タイミングスラック情報とから配置配線の成功確率を出力する推論部と、
を備える推論装置。
プログラマブルロジックデバイスの開発用ツールチェーンのテクノロジ毎のリソース使用率データおよびテクノロジマッピング時のタイミングスラック情報と、前記テクノロジ毎のリソース使用率データおよび前記テクノロジマッピング時のタイミングスラック情報における前記プログラマブルロジックデバイスの開発用ツールチェーンの目標クロック周波数および反復合成用パラメータとを含む学習用データを取得するステップと、
前記学習用データを用いて、前記プログラマブルロジックデバイスの開発用ツールチェーンのテクノロジ毎のリソース使用率データおよびテクノロジマッピング時のタイミングスラック情報から配置配線を成功させるための前記プログラマブルロジックデバイスの開発用ツールチェーンに与える反復合成用パラメータを推論するための学習済モデルを生成するステップと、
を備える学習方法。
プログラマブルロジックデバイスの開発用ツールチェーンのテクノロジ毎のリソース使用率データおよびテクノロジマッピング時のタイミングスラック情報を取得するステップと、
テクノロジ毎のリソース使用率データおよびテクノロジマッピング時のタイミングスラック情報から配置配線を成功させるための前記プログラマブルロジックデバイスの開発用ツールチェーンに与える反復合成用パラメータを推論するための学習済モデルを用いて、前記取得した前記テクノロジ毎のリソース使用率データおよび前記テクノロジマッピング時のタイミングスラック情報から配置配線を成功させるための反復合成用パラメータを出力するステップと、
を備える推論方法。
プログラマブルロジックデバイスの開発用ツールチェーンの目標クロック周波数と、反復合成用パラメータと、前記プログラマブルロジックデバイスの開発用ツールチェーンのテクノロジ毎のリソース使用率データと、テクノロジマッピング時のタイミングスラック情報とを含む学習用データを取得するステップと、
前記学習用データを用いて、前記プログラマブルロジックデバイスの開発用ツールチェーンの前記目標クロック周波数と、前記反復合成用パラメータと、前記テクノロジ毎の前記リソース使用率データと、前記テクノロジマッピング時の前記タイミングスラック情報とから配置配線の成功確率を推論するための学習済モデルを生成するステップと、
を備える学習方法。
プログラマブルロジックデバイスの開発用ツールチェーンの目標クロック周波数と、反復合成用パラメータと、前記プログラマブルロジックデバイスの開発用ツールチェーンのテクノロジ毎のリソース使用率データと、テクノロジマッピング時のタイミングスラック情報とを取得するステップと、
前記目標クロック周波数と、前記反復合成用パラメータと、前記テクノロジ毎の前記リソース使用率データと、前記テクノロジマッピング時の前記タイミングスラック情報とから配置配線の成功確率を推論するための学習済モデルを用いて、前記取得した前記目標クロック周波数と、前記反復合成用パラメータと、前記テクノロジ毎の前記リソース使用率データと、前記テクノロジマッピング時の前記タイミングスラック情報とから配置配線の成功確率を出力するステップと、
を備える推論方法。