JP2022537433A

JP2022537433A - バックプロパゲーションを直接用いたプログラマブルデバイスブロックのニューラルネットワークの学習

Info

Publication number: JP2022537433A
Application number: JP2021576147A
Authority: JP
Inventors: ウムログル，ヤマン; フレイザー，ニコラス; ブロット，ミカエラ; デノルフ，クリストフ; フィッセルス，コルネリス
Original assignee: Xilinx Inc
Current assignee: Xilinx Inc
Priority date: 2019-06-21
Filing date: 2020-04-17
Publication date: 2022-08-25
Also published as: US20200401882A1; EP3987451A1; KR20220024774A; CN114008634A; WO2020256822A1

Abstract

ニューラルネットワークを訓練する方法の例は、ハードウェアビルディングブロック（ＨＢＢ）、ニューロン等価（ＮＥＱ）およびＮＥＱからＨＢＢへの変換手順を定義することと、機械学習フレームワークでＮＥＱを用いてニューラルネットワークを定義することと、トレーニングプラットフォームでニューラルネットワークを訓練すること、変換手順を用いて、訓練されたニューラルネットワークをＨＢＢのネットリストに変換して、ニューラルネットワーク内のＮＥＱをネットリストのＨＢＢに変換することとを備える。

Description

技術分野
本開示の例は、一般にニューラルネットワーク、特にバックプロパゲーションを直接用いたプログラマブルデバイスブロックのニューラルネットワークの学習に関する。

背景
ディープニューラルネットワーク（ｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋ：ＤＮＮ）の規模が予測能力を向上させるために拡大し続けるにつれて、それらのメモリおよび計算フットプリントも拡大し、エネルギーおよびリソースに制約のあるハードウェア環境での展開がますます困難になっている。浮動小数点演算を使用するＤＮＮには大きな冗長性があり、これによって計算およびメモリコストを削減することができる。これらの技術は、量子化、枝刈りおよび低ランク分解を含む。量子化の手法として提案されているもののうち、訓練型量子化法（訓練過程でＤＮＮを量子化する）は、量子化ニューラルネットワーク（ｑｕａｎｔｉｚｅｄｎｅｕｒａｌｎｅｔｗｏｒｋ：ＱＮＮ）という形で精度を維持しつつ作業量を削減するという点で、いくつかの最も有望な結果をもたらしている。量子化の最も極端な形態はバイナリニューラルネットワーク（ｂｉｎａｒｙｎｅｕｒａｌｎｅｔｗｏｒｋ：ＢＮＮ）であり、重みおよび活性度を２値に拘束することで、高い精度を維持しながら計算およびメモリコストを大幅に下げる。

従来、フィールド・プログラマブル・ゲート・アレイ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ：ＦＰＧＡ）などのプログラマブルデバイス用のＤＮＮアクセラレータを作成する戦略は、学習したパラメータをメモリに配置し、対応する重みと活性度との間で正しい計算が行われるように演算をスケジューリングすることによって、人工ニューロンを固定ハードウェアアーキテクチャにマッピングすることであった。そして、ルックアップテーブル（ｌｏｏｋｕｐｔａｂｌｅ：ＬＵＴ）、デジタル信号プロセッサ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ：ＤＳＰ）および他のプログラマブルデバイスリソースを用いて、固定ハードウェアアーキテクチャを実装する。この問題を全体として見ると、固定アーキテクチャは、ファブリックの機能とＤＮＮが実行する演算との間のインターフェイスとして機能する。しかしながら、このインターフェイスは、ＤＮＮがプログラマブルデバイスファブリックを最大限に活用できるようにするための最適化の障害にもなる。さらに、固定アーキテクチャでは、ＤＮＮの計算をハードウェアにマッピングしスケジュールする重要な最適化コンパイラが必要であり、これがさらに性能を低下させる可能性がある。

概要
バックプロパゲーションを直接用いて、プログラマブルデバイスブロックのニューラルネットワークを学習するための技術について説明する。一例では、ニューラルネットワークを訓練する方法は、ハードウェアビルディングブロック（ＨＢＢ）、ニューロン等価（ｎｅｕｒｏｎｅｑｕｉｖａｌｅｎｔ：ＮＥＱ）、およびＮＥＱからＨＢＢへの変換手順を定義することと、機械学習フレームワークでＮＥＱを用いてニューラルネットワークを定義することと、トレーニングプラットフォームでニューラルネットワークを訓練することと、変換手順を用いて、訓練されたニューラルネットワークをＨＢＢのネットリストに変換して、ニューラルネットワーク内のＮＥＱをネットリストのＨＢＢに変換することとを備える。

他の例では、プロセッサによって実行されるとプロセッサにニューラルネットワークを訓練する方法を行わせる命令を格納した非一時的コンピュータ読取可能媒体であって、方法は、ハードウェアビルディングブロック（ＨＢＢ）、ニューロン等価（ＮＥＱ）、およびＮＥＱからＨＢＢへの変換手順を定義することと、機械学習フレームワークでＮＥＱを用いてニューラルネットワークを定義することと、トレーニングプラットフォームでニューラルネットワークを訓練することと、変換手順を用いて、訓練されたニューラルネットワークをＨＢＢのネットリストに変換して、ニューラルネットワーク内のＮＥＱをネットリストのＨＢＢに変換することとを含む。

他の例では、コンピューティングシステムは、設計ツールを実装するコードを格納するように構成されたシステムメモリと、トレーニングプラットフォームと、システムメモリおよびトレーニングプラットフォームに結合されたプロセッサとを備え、プロセッサは、コードを実行して、ニューラルネットワークの訓練を、ハードウェアビルディングブロック（ＨＢＢ）、ニューロン等価（ＮＥＱ）、およびＮＥＱからＨＢＢへの変換手順を定義することと、機械学習フレームワークでＮＥＱを用いてニューラルネットワークを定義することと、トレーニングプラットフォームでニューラルネットワークを訓練することと、変換手順を用いて、訓練されたニューラルネットワークをＨＢＢのネットリストに変換して、ニューラルネットワーク内のＮＥＱをネットリストのＨＢＢに変換することとによって、実行するように構成される。

これらおよび他の態様は、以下の詳細な説明を参照して理解可能である。
上記の特徴が詳細に理解され得るような態様で、そのいくつかが添付の図面において示される実現例を参照することによって、簡潔に概説された実現例のより詳細な記載が提供され得る。しかしながら、添付の図面は、実現例の典型的な例のみを示しているため、その範囲を限定するものと考えられるべきではないことに留意されたい。

ある例に係るハードウェアアクセラレーションシステムを示すブロック図である。ある例に係る高速化アプリケーションを示すブロック図である。ある例に係るコンピューティングシステム（「コンピュータ」）を示すブロック図である。ある例に係るニューラルネットワークの訓練方法を示すフロー図である。ある例に係る、図３に示す方法の一部を実行する方法を示すフロー図である。疎なグラフトポロジを有するニューラルネットワークの例を示すブロック図である。ある例に係るマルチ集積回路（ＩＣ）プログラマブルデバイスを示すブロック図である。ある例に係るプログラマブルＩＣを示すブロック図である。ある例に係るプログラマブルＩＣのシステムオンチップ（Ｓｙｓｔｅｍ－ｏｎ－Ｃｈｉｐ：ＳＯＣ）実装を示すブロック図である。ある例に係るプログラマブルＩＣのフィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）実装を示す図である。

理解を容易にするために、可能な場合、これらの図に共通の同一の要素を指定するように、同一の参照符号が使用されている。ある例の要素は、他の例において有用に援用され得ると考えられる。

詳細な説明
図面を参照して、さまざまな特徴について以下で説明する。図が縮尺通りに描かれていてもいなくてもよく、図面全体を通して、同様の構造の要素または機能が同様の参照符号で表されていることに留意されたい。図面が特徴の説明を容易にすることのみを意図されたものであることに留意されたい。それらは、請求された発明の網羅的な説明として、または請求された発明の範囲に対する制限であると意図されていない。くわえて、図示された例は、示された全ての態様または利点を有する必要はない。特定の例と関連して説明される態様または利点は、必ずしもその例に限定されず、そのように図示されていない場合、またはそのように明示的に説明されていない場合でも、他の任意の例において実施することが可能である。

プログラマブルデバイスブロックのニューラルネットワークを、バックプロパゲーションを直接用いて学習するための技術について説明する。これらの技術は、プログラマブルデバイスファブリック（たとえば、ルックアップテーブル（ＬＵＴ）、ブロックランダムアクセスメモリ（ＢＲＡＭ）およびこれらの組合わせ）のビルディングブロックを機械学習フレームワークに直接公開するものである。これらの技術により、カスタムオーバーレイアーキテクチャまたはスケジューリングツールを定義する必要がなく、効率的なプログラマブルデバイスのハードウェア実装に直接マッピングする態様で、トレーニングフェーズ中にディープニューラルネットワーク（ＤＮＮ）をカスタマイズ可能になる。要するに、これらの技術は、量子化入力、量子化出力および任意の重みを有する人工ニューロンを使用することにより、ニューラルネットワークのトポロジにプログラマブルデバイスファブリックの機能を反映させる。ネットワークの訓練が完了すると、各ニューロンを１つのビルディングブロックの真理値表にマッピングすることができる。その結果生じるネットリストは、同じニューラルネットワークを実装した高度にパイプライン可能な超並列回路として、十分なサイズのデバイスのプログラマブルファブリック上に配置およびルーティングすることができる。これらおよび他の態様について、図面に関して以下で説明する。

図１Ａは、一例に係るハードウェアアクセラレーションシステム１００を示すブロック図である。ハードウェアアクセラレーションシステム１００は、ホストコンピューティングシステム１０２を備える。ホストコンピューティングシステム１０２は、ハードウェアプラットフォーム（「ハードウェア１０４」）と、ハードウェア１０４で実行されるソフトウェアプラットフォーム（「ソフトウェア１０６」）とを含む。ハードウェア１０４は、処理システム１１０、システムメモリ１１６、ストレージデバイス（「ストレージ１１８」）およびハードウェアアクセラレータ１２２を含む。ソフトウェア１０６は、オペレーティングシステム（ＯＳ）１４４、アクセラレーションスタック１４６、ホストアプリケーション１５０および競合スレッド１３９を含む。

処理システム１１０は、マイクロプロセッサ１１２、サポート回路１１４および周辺バス１１５を含む。マイクロプロセッサ１１２は、ｘ８６ベースのプロセッサ、またはＡＲＭ（登録商標）ベースのプロセッサなど、任意のタイプの汎用中央処理装置（ＣＰＵ）であり得る。マイクロプロセッサ１１２は、１つ以上のコアおよび関連する回路（たとえば、キャッシュメモリ、メモリ管理ユニット（ＭＭＵ）、割込みコントローラ等）を含み得る。マイクロプロセッサ１１２は、システムメモリ１１６および／またはストレージ１１８に格納することができる、本明細書に記載される１つ以上の動作を実行するプログラムコードを実行するように構成されている。サポート回路１１４は、マイクロプロセッサ１１２と協働して、マイクロプロセッサ１１２、システムメモリ１１６、ストレージ１１８、ハードウェアアクセラレータ１２２、または任意の他の周辺デバイス間のデータフローを管理するさまざまなデバイスを含む。たとえば、サポート回路１１４は、チップセット（たとえば、ノースブリッジ、サウスブリッジ、プラットフォームホストコントローラ等）、電圧レギュレータ、およびファームウェア（たとえば、基本入出力システム（ＢＩＯＳ））などを含み得る。サポート回路１１４は、マイクロプロセッサ１１２と、ハードウェアアクセラレータ１２２などのさまざまな周辺機器が接続されている周辺バス１１５との間のデータフローを管理する。例によっては、マイクロプロセッサ１１２は、チップセット（たとえば、ノースブリッジ、サウスブリッジ等）の機能の全てまたはかなりの部分を吸収するシステムインパッケージ（Ｓｙｓｔｅｍ－ｉｎ－Ｐａｃｋａｇｅ：ＳｉＰ）またはシステムオンチップ（ＳＯＣ）などであり得る。周辺バス１１５は、ＰＣＩｅ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｔＥｘｐｒｅｓｓ）などの拡張バス規格を実装することができる。

システムメモリ１１６は、実行可能な命令およびデータなどの情報を記憶し、取出すことを可能にする装置である。システムメモリ１１６は、たとえば、ダブルデータレート（ＤＤＲ）ダイナミックＲＡＭ（ＤＲＡＭ）などの１つ以上のランダムアクセスメモリ（ＲＡＭ）モジュールを含み得る。ストレージ１１８は、ローカルストレージデバイス（たとえば、１つ以上のハードディスク、フラッシュメモリモジュール、ソリッドステートディスクおよび光ディスク）ならびに／またはコンピューティングシステム１０２が１つ以上のネットワークデータストレージシステムと通信することを可能にするストレージインターフェイスを含む。ハードウェア１０４は、グラフィックスカードおよびユニバーサルシリアルバス（ＵＳＢ）インターフェイスなどの、コンピューティングシステムのさまざまな他の従来のデバイスおよび周辺機器を含み得る。

一例では、ハードウェアアクセラレータ１２２は、プログラマブルデバイス１２８およびＲＡＭ１２６を含む。ハードウェアアクセラレータ１２２は任意に、不揮発性メモリ（ＮＶＭ）１２４を含み得る。プログラマブルデバイス１２８は、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）または他の組込みサブシステムとともにＦＰＧＡプログラマブルロジックを有するＳＯＣであり得る。ＮＶＭ１２４は、フラッシュメモリなどの任意のタイプの不揮発性メモリを含み得る。ＲＡＭ１２６は、ＤＤＲＤＲＡＭなどを含み得る。ＲＡＭ１２６は、以下でさらに説明するように、離散的なＲＡＭバンク１２７に編成することができる。プログラマブルデバイス１２８は、ＮＶＭ１２４およびＲＡＭ１２６に結合される。また、プログラマブルデバイス１２８は、処理システム１１０の周辺バス１１５に結合される。

ＯＳ１４４は、Ｌｉｎｕｘ（登録商標）、ＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ（登録商標）、またＭａｃＯＳ（登録商標）などの、当該技術分野で知られている任意の商品オペレーティングシステムであり得る。アクセラレーションスタック１４６は、ハードウェアアクセラレータ１２２に対して、そのコマンドおよび制御のためのアプリケーションプログラミングインターフェイス（ＡＰＩ）を提供するドライバおよびライブラリを含む。

図１Ｂは、ある例に係る高速化アプリケーション１８０を示すブロック図である。高速化アプリケーション１８０は、ホストアプリケーション１５０およびアクセラレーション回路１３０を含む。アクセラレーション回路１３０は、ハードウェアアクセラレータ１２２上のプログラマブルデバイス１２８のプログラマブルロジック（ＰＬ）３でプログラムされる。ホストアプリケーション１５０は、マイクロプロセッサ１１２上で実行されるソフトウェアを含み、マイクロプロセッサ１１２は、加速スタック１４６へのＡＰＩコールを用いてアクセラレーション回路１３０を呼出して、ある作業を実行する。ホストアプリケーション１５０は、ハードウェアアクセラレータ１２２に一部の機能をオフロードするニューラルネットワーク、ビデオ処理、またはネットワーク処理などのタイプのアプリケーションを含み得る。

図２は、ある例に係るコンピューティングシステム（「コンピュータ２００」）を示すブロック図である。コンピュータ２００は、ハードウェアプラットフォーム２０２で実行されるソフトウェアプラットフォーム２０４を含む。ハードウェアプラットフォーム２０２は、中央処理装置（ＣＰＵ）２０６、システムメモリ２０８、ストレージデバイス２１０、サポート回路２１１およびトレーニングプラットフォーム２１２を含む。ソフトウェアプラットフォーム２０４は、オペレーティングシステム（ＯＳ）２３０および設計ツール２３５を含む。

ＣＰＵ２０６は、ｘ８６ベースのプロセッサまたはＡＲＭベースのプロセッサなど、任意のタイプの汎用中央処理装置（ＣＰＵ）であり得る。ＣＰＵ２０６は、１つ以上のコアおよび関連する回路（たとえば、キャッシュメモリ、メモリ管理ユニット（ＭＭＵ）、割込みコントローラ等）を含み得る。ＣＰＵ２０６は、システムメモリ２０８および／またはストレージデバイス２１０に格納可能な、本明細書に記載される１つ以上の動作を実行するプログラムコードを実行するように構成されている。サポート回路２１１は、ＣＰＵ２０６と協働して、ＣＰＵ２０６、システムメモリ２０８、ストレージデバイス２１０、トレーニングプラットフォーム２１２、ハードウェアアクセラレータ２１４、または他の任意の周辺デバイス間のデータフローを管理するさまざまなデバイスを含む。たとえば、サポート回路２１１は、チップセット（たとえば、ノースブリッジ、サウスブリッジ、プラットフォームホストコントローラ等）、電圧レギュレータおよびファームウェア（たとえば、ＢＩＯＳ）などを含み得る。例によっては、ＣＰＵ２０６は、システムインパッケージ（ＳｉＰ）またはシステムオンチップ（ＳｏＣ）などであり得、チップセット（たとえば、ノースブリッジ、サウスブリッジ等）の機能の全てまたはかなりの部分を吸収する。

システムメモリ２０８は、実行可能な命令およびデータなどの情報を記憶し、取出すことを可能にする装置である。システムメモリ２０８は、たとえば、ダブルデータレート（ＤＤＲ）ダイナミックＲＡＭ（ＤＲＡＭ）などの１つまたは複数のランダムアクセスメモリ（ＲＡＭ）モジュールを含み得る。システムメモリ２０８は、データ２２６と、ソフトウェアプラットフォーム２０４を実装するためにＣＰＵ２２６によって処理および実行されるプログラムコード（「コード２２８」）とを格納し得る。ストレージデバイス２１０は、ローカルストレージデバイス（たとえば、１つ以上のハードディスク、フラッシュメモリモジュール、ソリッドステートディスクおよび光ディスク）ならびに／またはコンピュータ２００が１つ以上のネットワークデータストレージシステムと通信することを可能にするストレージインターフェイスを含む。ハードウェアプラットフォーム２０２は、グラフィックスカードおよびユニバーサルシリアルバス（ＵＳＢ）インターフェイスなどの、コンピューティングシステムのさまざまな他の従来のデバイスおよび周辺機器を含み得る。

トレーニングプラットフォーム２１２は、プロセッサ（複数可）、メモリ、入出力（ＩＯ）回路などを含み得るハードウェア２１６を含む。一例では、ハードウェア２１６は、グラフィックス処理ユニット（ＧＰＵ）および関連するサポート回路を含む。他の例では、ハードウェア２１６は、関連するサポート回路と共に、特定用途向け集積回路（ＡＳＩＣ）またはプログラマブルＩＣなどを含み得る。一例では、トレーニングプラットフォーム２１２は、ハードウェアアクセラレータ１２２よりも性能が高いが、ハードウェアアクセラレータ１２２よりエネルギー消費も多い。トレーニングプラットフォーム２１２は、ニューラルネットワークを訓練するために使用可能である。

ＯＳ２３０は、Ｌｉｎｕｘ、ＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ、またはＭａｃＯＳなどの、当該技術分野で知られている任意の商品オペレーティングシステムであり得る。設計ツール２３５は、トレーニングプラットフォーム２１２上でニューラルネットワークをトレーニングし、ターゲットプログラマブルデバイスのためにニューラルネットワークを実装するソフトウェアを含む。

図３は、ある例に係るニューラルネットワークの訓練方法３００を示すフロー図である。方法３００は、上述したコンピュータ２００上の設計ツール２３５によって実行可能である。方法３００はステップ３０２で始まり、ステップ３０２で、設計ツール２３５は、ハードウェアビルディングブロック（ＨＢＢ）、ニューロン等価（ＮＥＱ）および変換手順を定義する。

ＨＢＢは、真理値表を実装可能な、プログラマブルデバイスファブリックで利用できるプリミティブである。たとえば、プログラマブル・ファブリックは、ルックアップテーブル（ＬＵＴ）およびブロックＲＡＭ（ＢＲＡＭ）などを含み得る。ＨＢＢは、異なるサイズの真理値表を実装する。ＨＢＢ真理値表への入力ビット数は、Ｂ_Ａと表記される。出力ビット数（すなわち、異なる出力変数の数）は、Ｂ_Ｗと表記される。真理値表の内容は、ＨＢＢの構成と呼ばれる。一般に、任意のメモリ部品があるサイズの真理値表を実装可能であり、ＨＢＢとして使用可能である。

ＮＥＱは、機械学習フレームワークで表現される計算グラフである。一例では、ＮＥＱは、入力および学習可能なパラメータに対する乗算累積演算と、後に続く非線形関数とを含む。ＮＥＱは量子化入力および出力を含むが、浮動小数点数パラメータを有し得る。各ＮＥＱは数学的に１つのＨＢＢと等価であり、変換手順により１つのＨＢＢに変換可能である。一般に、メモリデバイスは以下の条件を満たす限り、どのような形式のリダクションも扱うことができる。

式中、Ｂ_Ａはメモリ部品のアドレスビット数であり、Ｃ_ｉｎは入力チャネル数であり、Ｂ_ｉはｉ番目の入力チャネルに使用されるビット数である。ＮＥＱは、最後の演算が以下の制約を満たす限り、任意の数の要素ごとの演算または非要素ごとの演算を含み得る。

式中、Ｃ_ｏｕｔは出力チャネル数であり、Ｂ_Ｏはｏ番目の出力チャネル用のビット数であり、Ｂ_Ｗは出力ビット数（たとえば、メモリ幅）である。各ＮＥＱは、標準的なバックプロパゲーションのような勾配法を用いて学習可能なパラメータを含む。したがって、ＮＥＱは、半微分可能な関数のみを含む。

変換手順は、訓練されたパラメータを有するＮＥＱを受取り、その構成でＨＢＢを出力する。ＮＥＱがマッピングするＨＢＢのタイプは静的に決定される（すなわち、各ＮＥＱのタイプは１つのＨＢＢのタイプにのみマッピングされる）。ＮＥＱは量子化入力および出力を有するため、ＨＢＢ（すなわち真理値表）の構成は、訓練されたＮＥＱの入力のすべての並べ換えを評価し、出力を観察するだけで生成可能である。各（入力、出力）ペアは、真理値表の１行となる。

ＨＢＢおよびＮＥＱの例について以下で説明する。たとえば、Ｂ_Ａ＝６およびＢ_Ｗ＝１である６対１のＬＵＴについて考える。ターゲット・デバイスで利用可能であれば、他のタイプのＬＵＴ構成も利用可能である。一般に、各ＮＥＱは、ドット積演算と非線形演算（たとえば、閾値演算）とを含み得る。任意に、ＮＥＱは、ドット積演算と非線形演算との間の要素ごとの演算（たとえば、バッチ正規化）などの１つ以上の付加的な演算を含み得る。このようなＮＥＱは、ＬＵＴにマッピングされる。変換には、各入力候補を列挙し（たとえば、ここでは２^６＝６４の可能性）、入力候補ごとに訓練された方程式を評価し、（入力、出力）ペアをＨＢＢ真理値表へ入力することが含まれる。

他の例では、ＢＲＡＭがＨＢＢとして使用される。ＢＲＡＭについて説明したが、ファブリック内のどのようなタイプのＲＡＭ素子も使用可能である。ＢＲＡＭは、多くの異なる方法で構成することができ、各例でメモリデバイスとして機能する。たとえば、２つの独立した１８ｋメモリとして、または１つの３６ｋメモリとして構成可能なＢＲＡＭについて考える。さらに、これらの構成の各々は、ワードあたりのビット数ならびにメモリの容量（たとえば、１８ｋ構成の場合は１６ｋ１ビットワード、８ｋ２ビットワード等）および（たとえば、３６ｋ構成の場合は３２ｋ１ビットワード、１６ｋ２ビットワード等）を変える複数のモードを有し得る。このような例では、２×１８ｋ構成の場合、１４／１、１３／２，１２／４，１１／９，１０／１８，および９／３６のＢ_Ａ／Ｂ_Ｗの組合わせがサポートされる。なお、この構成では、事実上２つの並列ＮＥＱがあり、各々が上記のような独立したＢ_Ａ／Ｂ_Ｗモードをサポートしている。１×３６ｋ構成では、１５／１，１４／２，１３／４，１２／９，１１／１８，１０／３６，および９／７２のＢ_Ａ／Ｂ_Ｗの組合わせがサポートされる。ＢＲＡＭにマッピング可能なＮＥＱは、ＬＵＴにマッピング可能なＮＥＱと同様である。しかしながら、６対１のＬＵＴと異なり、ＢＲＡＭはより高いビット幅の出力を生成可能である。ＬＵＴベースのＮＥＱと同様に、Ｂ_Ｗの制約を満たす限り、任意の数の要素ごとの演算を含み得る。

図４は、ある例に係る方法３００におけるステップ３０２を実行する方法を示すフロー図である。ステップ４０２で、設計ツール２３５は、所与のプログラマブルデバイスファブリックについてＨＢＢを特定する。ステップ４０４で、ＨＢＢごとに、設計ツール２３５は、機械学習フレームワークで１つまたは複数のＮＥＱを定義する。各ＮＥＱは、バックプロパゲーションを用いて訓練可能である。ステップ４０６で、ＮＥＱタイプごとに、設計ツール２３５は、学習されたニューロンからその対応するＨＢＢへの変換手順を特定する。

図３に戻り、ステップ３０４で、ユーザーは、設計ツール２３５とインタラクトして、機械学習フレームワークでＮＥＱを用いてＤＮＮを定義し、ＤＮＮを訓練する。機械学習フレームワークとして、ＰｙＴｏｒｃｈまたはＴｅｎｓｏｒＦｌｏｗなどが挙げられる。ステップ３０２で特定する利用可能なＮＥＱを用いて、ユーザーは、ＮＥＱをインスタンス化しそれらを接続することによって、ＤＮＮトポロジを構築する。トポロジは、バックプロパゲーションを用いて、機械学習フレームワークでラベル付きデータセットに対して訓練可能である。

理論的には、ＮＥＱの数および接続性に制限はない。しかしながら、実際には、各ＮＥＱはＨＢＢにマップバックされ、プログラマブルデバイスの容量および相互接続構造を考慮する必要がある。たとえば、図５は、疎なグラフトポロジを有するニューラルネットワークの一例を示すブロック図である。ニューラルネットワークは、ＬＵＴ層５０２および５０４と、出力層５０８とを含む。ＬＵＴ層５０２には、データセット５０１が適用される。データセット５０１は、ＬＵＴ層５０２に疎に接続されている。ＬＵＴ層５０２は、ＬＵＴ層５０４に疎に接続されている。ＬＵＴ層５０４は、出力層５０８に完全に接続されている。各ＬＵＴ層５０２，５０４は、複数のＬＵＴＮＥＱ５１０を含む。各ＬＵＴＮＥＱ５１０は、和演算子５１２および非線形演算子５１４（たとえば、大なりイコール演算子）を含む。この例では、各ＬＵＴ層は次の層に疎に接続されている、すなわち、レベルＮ＋１におけるすべてのＬＵＴ入力がレベルＮにおけるすべてのＬＵＴ出力に直接接続されていない。これは、前の層における幅を指数関数的に増大させることなく出力ノードのファンインの増大を可能にし、マルチレベル論理合成を暗示するものである。層間の接続パターンは、ランダムに選択してもよく、配置・ルーティングアルゴリズムに資することが知られている所定の疎パターンに従って選択してもよい。さらに、この方式では、階層の途中で生成された中間出力を共有して、新しい／異なるニューロン出力を生成することができる。

一例では、ユーザは、標準的な畳込み層、完全接続層およびプーリング層などの非ＮＥＱビルディングブロックを含むことによって、ハイブリッドトポロジを生成することができる。しかしながら、そのような場合、本明細書で説明する技術はトポロジのＮＥＱ部分にのみ適用される。すなわち、設計ツール２３５は、トポロジのＮＥＱをＨＢＢにマッピングするだけである。トポロジの残りの非ＮＥＱ部分に加えて、ＮＥＱ部分と非ＮＥＱ部分との間の接続性も、従来の方法を用いて（たとえば、オーバーレイアーキテクチャを定義し、マッピングおよびスケジューリングツールを用いることによって）ハードウェアにマッピングされる。たとえば、通常の浮動小数点畳込み層で始まりＬＵＴ層で終わるネットワークを構築可能であり、バックプロパゲーションで訓練可能であり、第１の部分は固定ハードウェアアーキテクチャにマッピングされ、第２の部分はＨＢＢ（たとえば、ＬＵＴ、ＢＲＡＭ等）に直接変換される。

ステップ３０２からのＮＥＱが微分可能である限り、ＮＥＱ（および任意で非ＮＥＱの従来の深層学習層）から構築されるトポロジは、バックプロパゲーションアルゴリズムを用いてエンドツーエンドで訓練可能になる。ＮＥＱは量子化入力および出力を有するため、ストレートスルー推定器（ＳＴＥ）技術を用いて、量子化関数によって勾配を伝搬することができ、これは、ＱＮＮおよびＢＮＮに対して実際に良好に機能することが示されている。バックプロパゲーションを訓練に用いるため、知識蒸留（ｋｎｏｗｌｅｄｇｅｄｉｓｔｉｌｌａｔｉｏｎ）およびアンサンブル（ｅｎｓｅｍｂｌｉｎｇ）といった、標準的なニューラルネットワーク訓練を改善するために適用される技術を適用可能である。

図３に戻り、ステップ３０６で、設計ツール２３５は、変換手順を用いて、ＮＥＱの訓練されたネットワークをＨＢＢのネットリストに変換する。トポロジが訓練され所望の精度に達すると、ステップ３０２からの変換手順が各ＮＥＱに適用されて、その等価ＨＢＢに変換される。ステップ３０４で得られた訓練済みのＮＥＱパラメータを用いて、変換手順は、出力を得るために、各可能な入力の組合わせで各ＮＥＱを評価することになる。各（入力－＞出力）マッピングは、ＨＢＢが実装する必要のある真理値表の１行に相当する。ＮＥＱの入力および出力の量子性によって、結果として得られるＨＢＢは、どの入力に対してもＮＥＱと同じ結果を生成する。ＮＥＱごとにこの手順を実行すると、構成されたＨＢＢのネットリストが生成され、各ＨＢＢは変換元のＮＥＱの接続性および機能を模倣する。

ステップ３０８で、設計ツール２３５は、ネットリストに適用可能な任意の後処理最適化を任意で行い、ターゲットプログラマブルデバイス用のインプリメンテーションを生成する。たとえば、ヒューリスティックロジックミニマイザーをネットリストに適用して使用するＬＵＴ数を減らすことが可能である、パイプラインレジスタを層間に挿入してクロック周波数を高めることが可能である、または、ネットリストをチャンクに分割して一度に１つのチャンクずつ、動的な部分再構成を有するより小さなプログラマブルデバイスにマッピング可能である。オプションの後処理が完了すると、最終的なネットリストが配置・ルーティングアルゴリズムで処理されて、プログラマブルデバイス用のビットファイルが生成される。とりわけ、ＨＢＢはターゲットとなるプログラマブル・ファブリックのプリミティブに対応するため、論理合成および技術マッピングは必要ではない。その結果得られる設計は超並列になり、ステップ３０４から訓練されたネットワークと同じになる。くわえて、最適化中にネットリストが分割されていない限り、ニューラルネットワークのハードウェア実装は、回路のクロックレートで入力を分類することができる。

図６Ａは、ある例に係るプログラマブルデバイス５４を示すブロック図である。プログラマブルデバイス５４は、ハードウェアアクセラレータ１２２にプログラマブルデバイス１２８を実装するために使用可能である。プログラマブルデバイス５４は、複数のプログラマブル集積回路（ＩＣ）１、たとえば、プログラマブルＩＣ１Ａ，１Ｂ，１Ｃおよび１Ｄを含む。ある例では、各プログラマブルＩＣ１は、インターポーザ５１上に配置されたＩＣダイである。各プログラマブルＩＣ１は、プログラマブルデバイス５４のスーパーロジック領域（ＳＬＲ）５３、たとえば、ＳＬＲ５３Ａ，５３Ｂ，５３Ｃおよび５３Ｄを含む。プログラマブルＩＣ１は、インターポーザ５１上の導体（ＳＬＬ（ＳｕｐｅｒＬｏｎｇＬｉｎｅ）５２と称する）を介して相互接続されている。

図６Ｂは、ある例に係るプログラマブルＩＣ１を示すブロック図である。プログラマブルＩＣ１は、プログラマブルデバイス１２８またはプログラマブルデバイス５４のプログラマブルＩＣ１Ａ～１Ｄのうちの１つを実装するために使用され得る。プログラマブルＩＣ１は、プログラマブルロジック３（プログラマブルファブリックとも呼ばれる）、構成ロジック２５および構成メモリ２６を含む。プログラマブルＩＣ１は、不揮発性メモリ２７、ＤＲＡＭ２８およびその他の回路２９などの外部回路に結合可能である。プログラマブルロジック３は、論理セル３０、サポート回路３１およびプログラマブルインターコネクト３２を含む。論理セル３０は、複数の入力の一般的な論理機能を実装するように構成可能な回路を含む。サポート回路３１は、トランシーバ、入出力ブロック、デジタル信号プロセッサおよびメモリなどの専用回路を含む。論理セルおよびサポート回路３１は、プログラマブルインターコネクト３２を用いて相互接続可能である。論理セル３０をプログラミングするための情報、サポート回路３１のパラメータを設定するための情報およびプログラマブルインターコネクト３２をプログラミングするための情報は、構成ロジック２５によって構成メモリ２６に格納される。構成ロジック２５は、不揮発性メモリ２７または他のソース（たとえば、ＤＲＡＭ２８または他の回路２９）から構成データを取得し得る。例によっては、プログラマブルＩＣ１は処理システム２を含む。処理システム２は、マイクロプロセッサ（複数可）、メモリ、サポート回路およびＩＯ回路などを含み得る。例によっては、プログラマブルＩＣ１は、ネットワークオンチップ（Ｎｅｔｗｏｒｋ－ｏｎ－Ｃｈｉｐ：ＮＯＣ）５５およびデータ処理エンジン（ＤＰＥ）アレイ５６を含む。ＮＯＣ５５は、ＰＳ２、ＰＬ３およびＤＰＥアレイ５６の間など、プログラマブルＩＣ１のサブシステム間の通信を提供するように構成される。ＤＰＥアレイ５６は、ベクトルプロセッサのアレイといった、データ処理を実行するように構成されたＤＰＥのアレイを含み得る。

図６Ｃは、ある例に係るプログラマブルＩＣ１のＳＯＣ実装を示すブロック図である。本例では、プログラマブルＩＣ１は、処理システム２およびプログラマブルロジック３を含む。処理システム２は、リアルタイム処理ユニット（ＲＰＵ）４、アプリケーション処理ユニット（ＡＰＵ）５、グラフィックス処理ユニット（ＧＰＵ）６、構成・セキュリティユニット（ＣＳＵ）１２およびプラットフォーム管理ユニット（ＰＭＵ）１２２などのさまざまな処理ユニットを含む。また、処理システム２は、オンチップメモリ（ＯＣＭ）１４、トランシーバ７、周辺機器８、インターコネクト１６、ＤＭＡ回路９、メモリコントローラ１０、周辺機器１５および多重入出力（ＭＩＯ）回路１３などのさまざまなサポート回路を含む。処理ユニットおよびサポート回路は、インターコネクト１６によって相互接続されている。また、ＰＬ３は、インターコネクト１６に結合されている。トランシーバ７は、外部ピン２４に結合されている。ＰＬ３は、外部ピン２３に結合されている。メモリコントローラ１０は、外部ピン２２に結合されている。ＭＩＯ１３は、外部ピン２０に結合されている。ＰＳ２は、一般に外部ピン２１に結合されている。ＡＰＵ５は、ＣＰＵ１７、メモリ１８およびサポート回路１９を含み得る。

図６Ｃの例では、プログラマブルＩＣ１は、ハードウェアアクセラレータ１２２において用いることができ、上述したように機能し得る。アクセラレーション回路１３０は、ＰＬ３においてプログラムされ、上述したように機能し得る。他の例では、上述したハードウェア１０４の機能は、コンピューティングシステムのハードウェアを介してではなく、ＰＳ２を用いて実装可能である。このような場合、ソフトウェア１０６は、ＰＳ２上で実行され、上述したように機能する。

ＰＳ２を参照すると、処理ユニットの各々は、１つ以上の中央処理装置（ＣＰＵ）と、メモリ、割込みコントローラ、ダイレクトメモリアクセス（ＤＭＡ）コントローラ、メモリ管理ユニット（ＭＭＵ）および浮動小数点ユニット（ＦＰＵ）などの関連回路とを含む。インターコネクト１６は、処理ユニットを相互接続するとともに、ＰＳ２内の他のコンポーネントを処理ユニットに相互接続するように構成されたさまざまなスイッチ、バスおよび通信リンクなどを含む。

ＯＣＭ１４は、１つまたは複数のＲＡＭモジュールを含み、これらはＰＳ２全体に分散可能である。たとえば、ＯＣＭ１４は、バッテリバックアップ式ＲＡＭ（ＢＢＲＡＭ）および密結合メモリ（ＴＣＭ）などを含み得る。メモリコントローラ１０は、外部ＤＲＡＭにアクセスするためのＤＲＡＭインターフェイスを含み得る。周辺機器８，１５は、ＰＳ２にインターフェイスを提供する１つ以上のコンポーネントを含み得る。たとえば、周辺機器１５は、グラフィックス処理ユニット（ＧＰＵ）、ディスプレイインターフェイス（たとえば、ＤｉｓｐｌａｙＰｏｒｔ、高品位マルチメディアインターフェイス（ＨＤＭＩ（登録商標））ポート等）、ユニバーサルシリアルバス（ＵＳＢ）ポート、イーサネット（登録商標）ポート、ユニバーサル・アシンクロナス・トランシーバ（ＵＡＲＴ）ポート、シリアル周辺インターフェイス（ＳＰＩＲＩＴ）ポート、汎用ＩＯ（ＧＰＩＯ）ポート、ＳＡＴＡ（ｓｅｒｉａｌａｄｖａｎｃｅｄｔｅｃｈｎｏｌｏｇｙａｔｔａｃｈｍｅｎｔ）ポートおよびＰＣＩｅポートなどを含み得る。周辺機器１５は、ＭＩＯ１３に結合可能である。周辺機器８は、トランシーバ７に結合可能である。トランシーバ７は、シリアライザ／デシリアライザ（ＳＥＲＤＥＳ）回路およびマルチギガビットトランシーバ（ＭＧＴ）などを含み得る。

図６Ｄは、ＰＬ３を含むプログラマブルＩＣ１のフィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）実装を示す図である。図６Ｄに示すＰＬ３は、本明細書で説明するプログラマブルデバイスの任意の例で使用可能である。ＰＬ３は、トランシーバ３７と、コンフィギュラブル論理ブロック（「ＣＬＢ」）３３と、ランダムアクセスメモリブロック（「ＢＲＡＭ」）３４と、入出力ブロック（「ＩＯＢ」）３６と、構成・クロッキングロジック（「ＣＯＮＦＩＧ／ＣＬＯＣＫＳ」）４２と、デジタル信号処理ブロック（「ＤＳＰ」）３５と、専用入出力ブロック（「Ｉ／Ｏ」）４１（たとえば、構成ポートおよびクロックポート）と、デジタルクロックマネージャ、アナログ－デジタルコンバータ、システムモニタリングロジックなどの他のプログラマブルロジック３９とを含む。また、ＰＬ３は、ＰＣＩｅインターフェイス４０およびアナログ－デジタル・コンバータ（ＡＤＣ）３８などを含み得る。

ＰＬによっては、各プログラマブルタイルは、図６Ｄの上部に含まれる例によって示されるように、同じタイル内のプログラマブルロジック素子の入力および出力端子４８への接続を有する少なくとも１つのプログラマブル相互接続素子（「ＩＮＴ」）４３を含み得る。また、各プログラマブル相互接続要素４３は、同じタイルまたは他のタイル（複数可）内の隣接するプログラマブル相互接続要素（複数可）の相互接続セグメント４９への接続を含み得る。また、各プログラマブル相互接続要素４３は、論理ブロック（図示せず）間の一般的なルーティングリソースの相互接続セグメント５０への接続を含み得る。一般的なルーティングリソースは、相互接続セグメント（たとえば、相互接続セグメント５０）のトラックと、相互接続セグメントを接続するためのスイッチブロック（図示せず）とを含む論理ブロック（図示せず）間のルーティングチャネルを含み得る。一般的なルーティングリソースの相互接続セグメント（たとえば、相互接続セグメント５０）は、１つまたは複数の論理ブロックにまたがり得る。プログラマブル相互接続要素４３は、一般的なルーティングリソースと共に、図示されたＰＬについてプログラマブル相互接続構造（「プログラマブルインターコネクト」）を実装する。

ある実現例では、ＣＬＢ３３は、ユーザロジックを実現するようにプログラム可能なコンフィギュラブル論理素子（「ＣＬＥ」）４４に加えて、１つのプログラマブル相互接続素子（「ＩＮＴ」）４３を含み得る。ＢＲＡＭ３４は、１つ以上のプログラマブル相互接続要素に加えて、ＢＲＡＭ論理要素（「ＢＲＬ」）４５を含み得る。一般に、タイルに含まれる相互接続要素の数は、タイルの高さによって決まる。図示された例では、ＢＲＡＭタイルは５つのＣＬＢと同じ高さを有するが、他の数（たとえば、４つ）も使用することができる。ＤＳＰタイル３５は、適切な数のプログラマブル相互接続要素に加えて、ＤＳＰロジック要素（「ＤＳＰＬ」）４６を含み得る。ＩＯＢ３６は、たとえば、プログラマブル相互接続要素４３の１つのインスタンスに加えて、入出力論理要素（「ＩＯＬ」）４７の２つのインスタンスを含み得る。当業者に明らかなように、たとえば入出力論理素子４７に接続される実際のＩ／Ｏパッドは、典型的には、入出力論理素子４７の領域に制限されない。

図示された例では、ダイの中央付近の水平領域（図３Ｄに示す）が、構成、クロック、およびその他の制御ロジックに使用される。この水平領域またはカラムから延びる垂直カラム５１は、クロックおよび構成信号をＰＬの幅にわたって分散させるために使用される。

図６Ｄに示すアーキテクチャを利用するＰＬの中には、ＰＬの大部分を構成する通常の柱状構造を崩すような追加ロジックブロックを含むものがある。追加ロジックブロックは、プログラマブルブロックおよび／または専用ロジックであり得る。

なお、図６Ｄは、例示的なＰＬアーキテクチャのみを説明することを意図している。たとえば、行内の論理ブロックの数、行の相対幅、行の数および順序、行に含まれる論理ブロックのタイプ、論理ブロックの相対サイズおよび図６Ｄの上部に含まれる相互接続／論理実装は、例示に過ぎない。たとえば、実際のＰＬでは、ユーザーロジックの効率的な実装を容易にするために、ＣＬＢが現れる場所には通常１つ以上の隣接するＣＬＢの行が含まれるが、隣接するＣＬＢ行の数は、ＰＬ全体のサイズによって変化する。

プログラマブルデバイスブロックのニューラルネットワークをバックプロパゲーションを直接用いて学習する技術について説明した。上記の新しい技術は、ＬＵＴおよび他のプログラマブルデバイスのビルディングブロックの上に固定アーキテクチャを実施することが、プログラマブルデバイスでニューラルネットワークを実行するための最適化の障壁になると認識することを含む。これらの技術には、プログラマブルデバイスのプリミティブと、異なるモードの単一ＬＵＴおよびＲＡＭを含む量子化ニューロンとの間のマッピングが含まれる。プログラマブルデバイスのプリミティブは、機械学習フレームワークに公開され、バックプロパゲーションで訓練可能である。複数レベルの２値ニューロンを積層し疎に接続して、間接的なファンインを増加させ、機械学習フレームワークでバックプロパゲーションおよびＳＴＥで訓練し、ＬＵＴのネットワークにマッピングしてターゲットプログラマブルデバイスのプログラマブルファブリック上に配置することができる。

上記は特定の例に関するが、それらの基本的な範囲から逸脱することがなければ、他の例およびさらに他の例が考案されてもよく、その範囲は、添付の請求の範囲によって決まる。

Claims

ニューラルネットワークを訓練する方法であって、
ハードウェアビルディングブロック（ＨＢＢ）、ニューロン等価（ＮＥＱ）、およびＮＥＱからＨＢＢへの変換手順を定義することと、
機械学習フレームワークで前記ＮＥＱを用いて前記ニューラルネットワークを定義することと、
トレーニングプラットフォームで前記ニューラルネットワークを訓練することと、
前記変換手順を用いて、訓練された前記ニューラルネットワークをＨＢＢのネットリストに変換して、前記ニューラルネットワーク内の前記ＮＥＱを前記ネットリストの前記ＨＢＢに変換することとを備える、方法。
前記ネットリストを後処理して、前記ネットリストの１つ以上の最適化を行うことをさらに備える、請求項１に記載の方法。
プログラマブルデバイスをプログラミングするために、前記ネットリストのインプリメンテーションを生成することをさらに備える、請求項１に記載の方法。
前記ＨＢＢ、前記ＮＥＱおよび前記変換手順を定義するステップは、
プログラマブルデバイスのプログラマブルファブリック内のプリミティブを特定して、前記ＨＢＢを実装することと、
ＨＢＢごとに、前記機械学習フレームワークで前記ＮＥＱのうちの１つ以上を定義することと、
ＮＥＱごとに、対応するＨＢＢに対する変換手順を特定することとを含む、請求項１に記載の方法。
各ＮＥＱは、量子化入力および量子化出力を含み、前記量子化入力の幅の合計は、前記ＮＥＱのそれぞれが変換されるＨＢＢを実装するメモリコンポーネントのアドレスビット数以下であり、前記量子化出力の幅の合計は、前記メモリコンポーネントの幅以下である、請求項１に記載の方法。
プロセッサによって実行されると前記プロセッサにニューラルネットワークを訓練する方法を行わせる命令を格納した非一時的コンピュータ読取可能媒体であって、前記方法は、
ハードウェアビルディングブロック（ＨＢＢ）、ニューロン等価（ＮＥＱ）、およびＮＥＱからＨＢＢへの変換手順を定義することと、
機械学習フレームワークで前記ＮＥＱを用いて、前記ニューラルネットワークを定義することと、
トレーニングプラットフォームで前記ニューラルネットワークを訓練することと、
前記変換手順を用いて、訓練された前記ニューラルネットワークをＨＢＢのネットリストに変換して、前記ニューラルネットワーク内の前記ＮＥＱを前記ネットリストの前記ＨＢＢに変換することとを含む、非一時的コンピュータ読取可能媒体。
前記ネットリストを後処理して、前記ネットリストの１つ以上の最適化を行うことをさらに備える、請求項６に記載の非一時的コンピュータ読取可能媒体。
プログラマブルデバイスをプログラミングするために、前記ネットリストのインプリメンテーションを生成することをさらに備える、請求項６に記載の非一時的コンピュータ読取可能媒体。
前記ＨＢＢ、前記ＮＥＱおよび前記変換手順を定義するステップは、
プログラマブルデバイスのプログラマブルファブリック内のプリミティブを特定して、前記ＨＢＢを実装することと、
ＨＢＢごとに、前記機械学習フレームワークで前記ＮＥＱのうちの１つ以上を定義することと、
ＮＥＱごとに、対応するＨＢＢに対する変換手順を特定することとを含む、請求項６に記載の非一時的コンピュータ読取可能媒体。
各ＮＥＱは、ドット積演算および非線形演算を含み、各ＮＥＱは、量子化入力および量子化出力を含み、前記量子化入力の幅の合計は、前記ＮＥＱのそれぞれが変換されるＨＢＢを実装するメモリコンポーネントのアドレスビット数以下であり、前記量子化出力の幅の合計は、前記メモリコンポーネントの幅以下である、請求項６に記載の非一時的コンピュータ読取可能媒体。
コンピューティングシステムであって、
設計ツールを実装するコードを格納するように構成されたシステムメモリと、
トレーニングプラットフォームと、
前記システムメモリおよび前記トレーニングプラットフォームに結合されたプロセッサとを備え、前記プロセッサは、前記コードを実行して、ニューラルネットワークの訓練を、
ハードウェアビルディングブロック（ＨＢＢ）、ニューロン等価（ＮＥＱ）、およびＮＥＱからＨＢＢへの変換手順を定義することと、
機械学習フレームワークで前記ＮＥＱを用いて前記ニューラルネットワークを定義することと、
前記トレーニングプラットフォームで前記ニューラルネットワークを訓練することと、
前記変換手順を用いて、訓練された前記ニューラルネットワークをＨＢＢのネットリストに変換して、前記ニューラルネットワーク内の前記ＮＥＱを前記ネットリストの前記ＨＢＢに変換することとによって実行するように構成される、コンピューティングシステム。
前記ニューラルネットワークを訓練することはさらに、前記ネットリストを後処理して、前記ネットリストの１つ以上の最適化を行うことを含む、請求項１１に記載のコンピューティングシステム。
前記ニューラルネットワークを訓練することはさらに、プログラマブルデバイスをプログラミングするために、前記ネットリストのインプリメンテーションを生成することを含む、請求項１１に記載のコンピューティングシステム。
前記ＨＢＢ、前記ＮＥＱおよび前記変換手順を定義することは、
プログラマブルデバイスのプログラマブルファブリック内のプリミティブを特定して、前記ＨＢＢを実装することと、
ＨＢＢごとに、前記機械学習フレームワークで前記ＮＥＱのうちの１つ以上を定義することと、
ＮＥＱごとに、対応するＨＢＢに対する変換手順を特定することとを含む、請求項１１に記載のコンピューティングシステム。
各ＮＥＱは、ドット積演算および非線形演算を含み、各ＮＥＱは、量子化入力および量子化出力を含み、前記量子化入力の幅の合計は、前記ＮＥＱのそれぞれが変換されるＨＢＢを実装するメモリコンポーネントのアドレスビット数以下であり、前記量子化出力の幅の合計は、前記メモリコンポーネントの幅以下である、請求項１１に記載のコンピューティングシステム。