JP7461433B2

JP7461433B2 - リソース再設定可能な深層ニューラルネットワーク加速器、システムおよび方法

Info

Publication number: JP7461433B2
Application number: JP2022163999A
Authority: JP
Inventors: ユンビンキム; ジンアーシン; チェドクリム; キュンイルキム; ベブキュンキム; ドゥクキュンウー; ドンワンリュ; ユジンリム; ヤンジェジョン; スジュンハ
Original assignee: Electronics and Telecommunications Research Institute ETRI
Current assignee: Electronics and Telecommunications Research Institute ETRI
Priority date: 2021-10-15
Filing date: 2022-10-12
Publication date: 2024-04-03
Anticipated expiration: 2042-10-12
Also published as: EP4167143A1; US20230121052A1; JP2023059847A

Description

本発明は、リソース再設定可能な深層ニューラルネットワーク加速器、システムおよび方法に関する。

最近、深層ニューラルネットワークは多様な分野で高い正確度を示し、多様な装置と応用に広く活用されている。深層ニューラルネットワークは、既存の機械学習手法とは異なり、データから分類器のみならず、特徴を学習して高い正確度を示す。

一方、深層ニューラルネットワークを用いるためには、多くの格納空間と高い計算性能を必要とする問題があり、このような問題を解決するための一方策として、クラウドコンピューティングベースで深層ニューラルネットワークを活用することがある。しかし、クラウドコンピューティングは、サーバと装置との間の通信によって電力消耗が非常に大きいという問題がある。

このために、オンデバイスにおいて深層ニューラルネットワークを活用できるようにするための深層ニューラルネットワーク加速器が提案された。深層ニューラルネットワーク加速器の場合、深層ニューラルネットワーク推論加速機能を内蔵することでコンピューティングリソースに比べて深層ニューラルネットワーク推論時間を短縮できるだけでなく、既存の高性能サーバに比べて費用が安価で電力消費を低減できるというメリットがある。

しかし、初期の深層ニューラルネットワーク加速器は、限られたデータフローのみを行うように設計されていて、深層ニューラルネットワーク応用による最適なデータフローを使用できない問題がある。

韓国公開特許公報第１０－２０２１－００３９９２１号

本発明が解決しようとする課題は、深層ニューラルネットワーク加速器において、推論を行う途中にメモリ、コアなどのリソースを再設定できるようにして推論中の消耗電力を調整できる、リソース再設定可能な深層ニューラルネットワーク加速器、システムおよび方法を提供することである。

ただし、本発明が解決しようとする課題は上記の課題に限定されず、さらに他の課題が存在し得る。

上述した課題を解決するための、本発明の第１側面によるリソース再設定可能な深層ニューラルネットワーク加速器は、外部メモリ階層における深層ニューラルネットワークパラメータデータ（以下、データ）を複数のタイルに分割してロードするスクラッチパッドメモリ階層と、前記スクラッチパッドメモリ階層のタイリングされたデータをロードするレジスタファイルメモリ階層とを含むメモリ階層と、前記レジスタファイルメモリ階層にロードされたデータに対する推論演算を処理する複数のコアとを含み、前記メモリ階層は、所定のタイリングサイズに相応するように、前のメモリ階層からタイリングされたデータをロードする任意の位置に追加された仮想タイリング階層を含む。

また、本発明の第２側面による深層ニューラルネットワーク加速器におけるリソース再設定方法は、当該ループが行われることにより、仮想タイリングレジスタの値を読出すステップと、前記読出された仮想タイリングレジスタの値に基づいて仮想タイリング階層のタイリングサイズを設定するステップと、前記仮想タイリング階層のタイリングサイズに基づいて関連リソースのタイリングサイズを変換するステップと、前記タイリングサイズに応じて使用量が調整された関連リソースのうち未使用の関連リソースのリソース割当を解除するステップとを含む。

さらに、本発明の第３側面によるリソース再設定システムは、スクラッチパッドメモリ階層、レジスタファイルメモリ階層、およびコアの少なくとも１つを含む関連リソースと、仮想タイリングレジスタの値に基づいてタイリングサイズが設定される仮想タイリング階層とを含む深層ニューラルネットワーク加速器と、前記深層ニューラルネットワーク加速器の推論実行中に仮想タイリングレジスタの値を設定して関連リソースの活性化の有無を決定するホストシステムとを含む。

上述した課題を解決するための、本発明の他の側面によるコンピュータプログラムは、ハードウェアであるコンピュータと結合されてリソース再設定方法を実行し、コンピュータ読取可能記録媒体に格納される。

本発明のその他の具体的な事項は詳細な説明および図面に含まれている。

上述した本発明の一実施例によれば、ホストシステムは、深層ニューラルネットワーク加速器が推論を行っている途中にもリソースの一部を非活性化または再活性化して加速器の消耗電力を制御することができる。このような機能は、１秒あたり数回から数十回のＰｏｗｅｒｏｆｆが発生するインターミテントコンピューティング環境など電力消耗を積極的に管理しなければならないシステムの管理効率を増大させることができる。

本発明の効果は以上に言及された効果に制限されず、言及されていないさらに他の効果は以下の記載から当業者に明確に理解されるであろう。

深層ニューラルネットワーク加速器におけるデータフローの一例を示す図である。本発明の一実施例によるリソース再設定システムのブロック図である。仮想タイリング階層によるデータフローの一例を示す図である。仮想タイリング階層によるデータフローの他の例を示す図である。本発明の一実施例によるリソース再設定方法のフローチャートである。

本発明の利点および特徴、そしてそれらを達成する方法は添付した図面とともに詳細に後述する実施例を参照すれば明確になる。しかし、本発明は以下に開示される実施例に制限されるものではなく、互いに異なる多様な形態で実現可能であり、単に本実施例は本発明の開示が完全となるようにし、本発明の属する技術分野における当業者に本発明の範疇を完全に知らせるために提供されるものであり、本発明は請求項の範疇によってのみ定義される。

本明細書で使われた用語は実施例を説明するためのものであり、本発明を制限しようとするものではない。本明細書において、単数形は、文言で特に言及しない限り、複数形も含む。明細書で使われる「含む（ｃｏｍｐｒｉｓｅｓ）」および／または「含む（ｃｏｍｐｒｉｓｉｎｇ）」は、言及された構成要素のほか、１つ以上の他の構成要素の存在または追加を排除しない。明細書全体にわたって同一の図面符号は同一の構成要素を指し示し、「および／または」は、言及された構成要素のそれぞれおよび１つ以上のすべての組み合わせを含む。「第１」、「第２」などが多様な構成要素を述べるために使われるが、これらの構成要素はこれらの用語によって制限されないことはもちろんである。これらの用語は、単に１つの構成要素を他の構成要素と区別するために使うものである。したがって、以下に言及される第１構成要素は、本発明の技術的思想内で第２構成要素であってもよいことはもちろんである。

他に定義されなければ、本明細書で使われるすべての用語（技術および科学的用語を含む）は、本発明の属する技術分野における当業者に共通して理解できる意味で使われるであろう。また、一般的に使われる事前に定義されている用語は、明らかに特に定義されていない限り、理想的または過度に解釈されない。

以下、まず、当業者の理解のために、本発明が着目した背景について説明した後、本発明について詳しく説明する。

深層ニューラルネットワーク加速器は、深層ニューラルネットワークによる推論を迅速に行うための装置である。深層ニューラルネットワーク加速器では、小さなレジスタファイル（ＲｅｇｉｓｔｅｒＦｉｌｅ）と演算ユニット（ＦｕｎｃｔｉｏｎａｌＵｎｉｔ）を含むコアが並列的に演算を処理する。また、深層ニューラルネットワーク加速器は、メモリ階層を含むことができ、一般的に、外部メモリ－内部スクラッチパッドメモリ（ＳｃｒａｔｃｈｐａｄＭｅｍｏｒｙ）－レジスタファイルのメモリ階層を含む。

深層ニューラルネットワークは、複数段階のネストされたループ（ＮｅｓｔｅｄＬｏｏｐ）で構成されており、多量のパラメータデータを含んでいる。このとき、深層ニューラルネットワーク加速器内のスクラッチパッドメモリは、深層ニューラルネットワークのすべてのパラメータデータを一度にロードできないので、パラメータデータをより小さいサイズに分割した後に順次にロードする。これをタイリング（Ｔｉｌｉｎｇ）という。このようなタイリングは、スクラッチパッドメモリとコア内のレジスタファイルメモリとの間でも発生する。

また、深層ニューラルネットワークのループは、前のループとの依存性が存在しないため、任意にアクセス順序を変更しても（ＬｏｏｐＩｎｔｅｒｃｈａｎｇｅ）、最終結果が同一の性質を有する。したがって、深層ニューラルネットワークは、タイリングとループのネストされた順序によって非常に多い方法で推論を行うことができ、このような推論を行う方法をデータフロー（Ｄａｔａｆｌｏｗ）という。

図１は、深層ニューラルネットワーク加速器におけるデータフローの一例を示す図である。

図１は、４個のコアを有する深層ニューラルネットワーク加速器のデータフローを単純化して示す図である。図１のデータフローでは、外部メモリ階層（Ｌ１）における深層ニューラルネットワークパラメータデータ（以下、データ）を２個の単位に分けてスクラッチパッドメモリ階層（Ｌ２）にロードし、スクラッチパッドメモリ階層（Ｌ２）を２個の単位に分けて４個のコア（Ｌ３）でデータに対する推論演算を行っている。ロードされていないデータは時間によって順次に処理して、図１の例においては、計４回の反復によりデータ全体を処理することができる。

一方、初期の深層ニューラルネットワーク加速器は、限られた種類のデータフローのみを行うように設計されていて、深層ニューラルネットワークの応用特性によって最適なデータフローを使用できない場合が発生した。

このような限界を改善するために、ＮｏＣ（ＮｅｔｗｏｒｋｏｎＣｈｉｐ）の構成を任意に変更できるようにするなどの再設定可能な深層ニューラルネットワーク加速器アーキテクチャが研究されている。

しかし、このようなアーキテクチャの場合、深層ニューラルネットワーク加速器が推論を行う途中にリソースに対する再設定を行うことが不可能である。

このような問題を解消するために、本発明の一実施例は、深層ニューラルネットワーク加速器が推論を行う途中にリソース再設定を実行可能にして、推論の正確度を維持しながらもシステムが精密に電力を管理できるようにする。このような特性は、１秒に最大数十回の電力枯渇が発生するインターミテントコンピューティング（ｉｎｔｅｒｍｉｔｔｅｎｔｃｏｍｐｕｔｉｎｇ）のような環境の実行効率を高めるのに役立つことができる。

以下、図２～図４を参照して、本発明の一実施例によるリソース再設定システム１および深層ニューラルネットワーク加速器１００について説明する。

図２は、本発明の一実施例によるリソース再設定システム１のブロック図である。図３は、仮想タイリング階層（Ｌ３）によるデータフローの一例を示す図である。図４は、仮想タイリング階層（Ｌ２）によるデータフローの他の例を示す図である。

本発明の一実施例によるリソース再設定システム１は、深層ニューラルネットワーク加速器１００と、ホストシステム２００とを含む。

深層ニューラルネットワーク加速器１００は、スクラッチパッドメモリ１１０、レジスタファイルメモリ（図示せず）、およびコア１３０の少なくとも１つを含む関連リソースと、仮想タイリングレジスタ１２０により提供される仮想タイリング階層とを含む。ここで、関連リソースは、仮想タイリング階層によって調整されるリソースを意味する。

本発明の一実施例において、複数のコア１３０は、レジスタファイルメモリ階層にロードされたデータに対する推論演算を行う。

本発明の一実施例において、メモリ階層は、外部メモリ階層と、深層ニューラルネットワーク加速器１００の内部のスクラッチパッドメモリ階層と、レジスタファイルメモリ階層とで構成される。

スクラッチパッドメモリ階層は、外部メモリ階層におけるデータを複数のタイルに分割してロードする。そして、レジスタファイルメモリ階層は、スクラッチパッドメモリ階層のタイリングされたデータをロードする。

ここで、本発明の一実施例による深層ニューラルネットワーク加速器１００は、仮想タイリング階層を追加的に備えることを特徴とする。仮想タイリング階層は、所定のタイリングサイズに相応するように、前のメモリ階層からタイリングされたデータをロードし、メモリ階層内の任意の位置に追加される。

一実施例として、仮想タイリング階層は、予め構成されたデータフローに追加されて、推論演算の実行中に変更可能なタイリング階層である。本発明の一実施例は、仮想タイリング階層のタイリングサイズに基づいて関連リソースの使用量を調整することができる。

そして、関連リソースの使用量が調整されることにより、未使用の関連リソースはリソース割当が解除される。一例として、仮想タイリングによって使用されない関連リソースは、パワーゲーティング（ＰｏｗｅｒＧａｔｉｎｇ）のような電力遮断手法により電力消耗を制限することができる。

図３の実施例において、仮想タイリング階層（Ｌ３）は、スクラッチパッドメモリ階層（Ｌ２）とレジスタファイルメモリ階層（Ｌ４）との間に存在し、これによってコア１３０の使用量を調整している。

このとき、仮想タイリング階層（Ｌ３）のタイリングサイズは、毎ループを開始する度にアップデートされ、これによって使用するコア１３０の数が変更可能である。

図３の実施例では、コア１３０が関連リソースに設定されて、仮想タイリング階層（Ｌ３）のタイリングサイズの変化に反比例して作動するコア１３０の数が調整される。すなわち、当該ループの実行時、タイリングサイズがＮ（Ｎは２以上の自然数）個に決定される場合、複数のコア１３０のうち１／Ｎ個のコアが当該ループを行うためのリソースに割当てられる。

例えば、スクラッチパッドメモリ階層（Ｌ２）の１番目のタイルを処理する時には、仮想タイリング階層（Ｌ３）のタイリングサイズが２個に設定され、これによって４個のコア１３０のうち半分のコアのみを使用する代わりに２倍の反復推論演算を行う。

これに対し、スクラッチパッドメモリ階層（Ｌ２）の２番目のタイルを処理する時には、仮想タイリング階層（Ｌ３）のタイリングサイズが４個に変更設定され、これによって４個のコア１３０のうち１つのコアのみが活性化された状態で推論演算を行い、４回の反復演算を行う。

本発明の一実施例において、関連リソースは、コア１３０のほかにも、スクラッチパッドメモリ階層、レジスタファイルメモリ階層などになってもよい。

他の例として、仮想タイリング階層（Ｌ２）は、外部メモリ階層（Ｌ１）とスクラッチパッドメモリ階層（Ｌ３）との間に存在して、スクラッチパッドメモリ１１０の使用を調整するように設定可能である。

図４の実施例では、スクラッチパッドメモリ１１０が関連リソースに設定されて、仮想タイリング階層（Ｌ２）のタイリングサイズの変化に反比例して作動するスクラッチパッドメモリ１１０の数が調整される。すなわち、当該ループの実行時、タイリングサイズがＮ（Ｎは２以上の自然数）個に決定される場合、スクラッチパッドメモリ階層（Ｌ３）は、１／Ｎ個が当該ループを行うためのリソースに割当てられる。

例えば、外部メモリ階層（Ｌ１）の１番目のタイルを処理する時には、仮想タイリング階層（Ｌ２）のタイリングサイズが２個に設定され、これによってスクラッチパッドメモリ階層（Ｌ３）は半分のみがリソースとして使用され、これに対応するように４個のコア１３０のうち半分のコアのみが使用され、その代わりに２倍の反復推論演算を行う。この時、スクラッチパッドメモリ階層（Ｌ３）は、仮想タイリング階層（Ｌ２）が設定される前には、図１に示されるように、コア１３０の個数、または外部メモリ階層（Ｌ１）のタイリングサイズに比例して分割設定されていてもよい。

これに対し、外部メモリ階層（Ｌ１）の２番目のタイルを処理する時には、仮想タイリング階層（Ｌ２）のタイリングサイズが４個に変更設定され、これによってスクラッチパッドメモリ階層（Ｌ３）は４個の単位に分割されて使用され、これに対応するように４個のコア１３０のうち１つのコアのみが活性化された状態で推論演算を行い、４回の反復演算を行う。

このように、本発明の一実施例は、スクラッチパッドメモリ階層、レジスタファイルメモリ階層、コアなどの個別関連リソースのリソース割当を仮想タイリング階層により調整することができ、実施例により、複数の関連リソースを同時に調整することもできる。

上述のように、１つのリソースが関連づけられている場合、タイリングサイズがＮ個の場合、関連リソースの大きさは１／Ｎ個になる。これとは異なり、複数のリソースが関連づけられている場合、関連リソースをアップデートする規則が必要であり、これはハードウェアまたはソフトウェア的に提供可能である。

一方、本発明の一実施例において、仮想タイリング階層の位置は、ハードウェアまたはソフトウェア的に設定可能である。一実施例として、仮想タイリング階層は、ハードウェア的にスクラッチパッドメモリ階層とコア（レジスタファイルメモリ階層）との間に配置して深層ニューラルネットワーク加速器１００を設計することができる。他の実施例としては、ソフトウェアインターフェースを介して仮想タイリングの位置をホストシステム２００が設定できるように実現可能である。

再度図２を参照すれば、仮想タイリングレジスタ１２０は、深層ニューラルネットワーク加速器１００の構造に追加されるレジスタまたはメモリの特定アドレスであって、ホストシステム２００は、非同期的に仮想タイリングレジスタ１２０の値を変更することができる。

この時、ホストシステム２００は、任意のアルゴリズムによりタイリングレジスタの値を決定することができる。一実施例として、ホストシステム２００は、目標電力レベルに応じたタイリングサイズを予め計算したテーブルを用いることができる。他の実施例として、ホストシステム２００は、カーネルを介してリアルタイムにタイリングサイズを計算して深層ニューラルネットワーク加速器１００のタイリングレジスタの値をアップデートすることができる。

ホストシステム２００によって仮想タイリングレジスタ１２０の値が決定されると、深層ニューラルネットワーク加速器１００は、仮想タイリング階層の実行を開始する前、仮想タイリングレジスタ１２０の値に基づいてタイリングサイズを設定し、関連リソースのタイリングサイズを変更する。

一実施例として、仮想タイリング階層のタイリングサイズは、深層ニューラルネットワークの毎ループを行う度にアップデートされる。毎度のループが行われる前、深層ニューラルネットワーク加速器１００は、仮想タイリングレジスタ１２０の値を読出し、読出された仮想タイリングレジスタ１２０の値に基づいてタイリングサイズを設定する。これにより、関連リソースのタイリングサイズが決定され、関連リソースのタイリングサイズが決定された後には、未使用の関連リソースに対するリソース割当は解除するなど関連リソースに対する処理を行う。

ただし、本発明の実施例において、タイリングサイズは、全体ループに同一にアップデートされて全体ループが行われてもよいことはもちろんである。

以下、図５を参照して、本発明の一実施例によるリソース再設定システム１の深層ニューラルネットワーク加速器１００により行われるリソース再設定方法について説明する。

図５は、本発明の一実施例によるリソース再設定方法のフローチャートである。

深層ニューラルネットワーク加速器１００は、当該ループが開始されることにより（Ｓ１０５）、仮想タイリング階層が存在するか否かを確認する（Ｓ１１０）。

確認の結果、仮想タイリング階層が存在しない場合（Ｓ１１０－Ｎ）、一般的な手順でループを行う（Ｓ１３５）。

これとは異なり、確認の結果、仮想タイリング階層が存在する場合（Ｓ１１０－Ｙ）、仮想タイリングレジスタ１２０の値を読出す（Ｓ１１５）。

そして、読出された仮想タイリングレジスタ１２０の値に基づいて仮想タイリング階層のタイリングサイズを設定する（Ｓ１２０）。

次に、仮想タイリング階層のタイリングサイズに基づいて関連リソースのタイリングサイズを変換し（Ｓ１２５）、タイリングサイズに応じて使用量が調整された関連リソースのうち未使用の関連リソースのリソース割当を解除する（Ｓ１３０）。以後、深層ニューラルネットワーク加速器１００は、再設定されたリソースで当該ループを行う（Ｓ１３５）。

上述した過程は、全体ループ実行が完了するまで反復で行われる（Ｓ１４０）。

一方、上述した説明において、ステップＳ１０５～Ｓ１４０は、本発明の実施形態により、追加的なステップにさらに分割されるか、より少ないステップに組み合わされてもよい。また、一部のステップは、必要に応じて省略されてもよく、ステップ間の順序が変更されてもよい。これとともに、その他省略された内容であっても、図２～図４の内容は図５のリソース再設定方法にも適用可能である。

以上、上述した本発明の一実施例は、ハードウェアであるコンピュータと結合されて実行されるために、プログラム（またはアプリケーション）で実現されて媒体に格納される。

上述したプログラムは、前記コンピュータがプログラムを読み込んでプログラムで実現された前記方法を実行させるために、前記コンピュータのプロセッサ（ＣＰＵ）が前記コンピュータの装置インターフェースを介して読み込み可能なＣ、Ｃ＋＋、ＪＡＶＡ（登録商標）、Ｒｕｂｙ、機械語などのコンピュータ言語でコード化されたコード（Ｃｏｄｅ）を含むことができる。このようなコードは、前記方法を実行する必要な機能を定義した関数などに関連する機能的なコード（ＦｕｎｃｔｉｏｎａｌＣｏｄｅ）を含むことができ、前記機能を前記コンピュータのプロセッサが所定の手順どおりに実行させるのに必要な実行手順関連の制御コードを含むことができる。また、このようなコードは、前記機能を前記コンピュータのプロセッサが実行させるのに必要な追加情報やメディアが前記コンピュータの内部または外部メモリのどの位置（アドレス番地）で参照されるべきかに対するメモリ参照関連コードをさらに含むことができる。さらに、前記コンピュータのプロセッサが前記機能を実行させるために、遠隔（Ｒｅｍｏｔｅ）にある何らかの他のコンピュータやサーバなどと通信が必要な場合、コードは、前記コンピュータの通信モジュールを用いて遠隔にあるどのような他のコンピュータやサーバなどとどのように通信すべきか、通信時にどのような情報やメディアを送受信すべきか、などに対する通信関連コードをさらに含むことができる。

前記格納される媒体は、レジスタ、キャッシュ、メモリなどのように、短い瞬間にデータを格納する媒体ではなく、半永続的にデータを格納し、機器によって読取（ｒｅａｄｉｎｇ）可能な媒体を意味する。具体的には、前記格納される媒体の例としては、ＲＯＭ、ＲＡＭ、ＣＤ－ＲＯＭ、磁気テープ、フロッピーディスク、光データ記憶装置などがあるが、これらに制限されない。すなわち、前記プログラムは、前記コンピュータ接続可能な多様なサーバ上の多様な記録媒体またはユーザの前記コンピュータ上の多様な記録媒体に格納されてもよい。また、前記媒体は、ネットワークで連結されたコンピュータシステムに分散して、分散方式でコンピュータ読出可能なコードが格納されてもよい。

上述した本発明の説明は例示のためのものであり、本発明の属する技術分野における当業者は、本発明の技術的思想や必須の特徴を変更することなく他の具体的な形態で容易に変形可能であることを理解するであろう。そのため、以上に述べた実施例は、あらゆる面で例示的であり、限定的ではないと理解しなければならない。例えば、単一形で説明されている各構成要素は分散して実施されてもよいし、同様に、分散したと説明されている構成要素も結合された形態で実施されてもよい。

本発明の範囲は、上記の詳細な説明よりは後述する特許請求の範囲によって示され、特許請求の範囲の意味および範囲、そしてその均等概念から導出されるあらゆる変更または変形された形態が本発明の範囲に含まれると解釈されなければならない。

１：リソース再設定システム
１００：深層ニューラルネットワーク加速器
１１０：スクラッチパッドメモリ
１２０：仮想タイリングレジスタ
１３０：コア
２００：ホストシステム

Claims

リソース再設定可能な深層ニューラルネットワーク加速器であって、
外部メモリ階層における深層ニューラルネットワークパラメータデータを複数のタイルに分割してロードするスクラッチパッドメモリ階層と、前記スクラッチパッドメモリ階層のタイリングされた深層ニューラルネットワークパラメータデータをロードするレジスタファイルメモリ階層とを含むメモリ階層と、
前記レジスタファイルメモリ階層にロードされた深層ニューラルネットワークパラメータデータに対する推論演算を処理する複数のコアと、
を含み、
前記メモリ階層は、所定のタイリングサイズに相応するように、前のメモリ階層からタイリングされた深層ニューラルネットワークパラメータデータをロードする任意の位置に追加された仮想タイリング階層を提供する仮想タイリングレジスタを含む、
リソース再設定可能な深層ニューラルネットワーク加速器。
前記スクラッチパッドメモリ階層、レジスタ階層、およびコアの少なくとも１つを含む関連リソースの使用量は、前記仮想タイリング階層のタイリングサイズに基づいて調整される、
請求項１に記載のリソース再設定可能な深層ニューラルネットワーク加速器。
前記関連リソースの使用量が調整されることにより、未使用の関連リソースのリソース割当は解除される、
請求項２に記載のリソース再設定可能な深層ニューラルネットワーク加速器。
前記仮想タイリング階層を提供する前記仮想タイリングレジスタは、前記スクラッチパッドメモリ階層と前記レジスタファイルメモリ階層との間に追加される、
請求項１に記載のリソース再設定可能な深層ニューラルネットワーク加速器。
ループの実行時、前記タイリングサイズがＮ（Ｎは２以上の自然数）個に決定される場合、前記複数のコアのうち１／Ｎ個のコアが前記ループを行うためのリソースに割当てられる、
請求項４に記載のリソース再設定可能な深層ニューラルネットワーク加速器。
前記仮想タイリング階層を提供する前記仮想タイリングレジスタは、前記外部メモリ階層と前記スクラッチパッドメモリ階層との間に追加される、
請求項１に記載のリソース再設定可能な深層ニューラルネットワーク加速器。
ループの実行時、前記タイリングサイズがＮ（Ｎは２以上の自然数）個に決定される場合、前記スクラッチパッドメモリ階層のうち１／Ｎが前記ループを行うためのリソースに割当てられる、
請求項６に記載のリソース再設定可能な深層ニューラルネットワーク加速器。
前記仮想タイリング階層の位置は、ホストシステムのソフトウェアインターフェースを介して設定される、
請求項１に記載のリソース再設定可能な深層ニューラルネットワーク加速器。
前記仮想タイリング階層の前記タイリングサイズは、深層ニューラルネットワークの毎ループを行う度にアップデートされる、
請求項１に記載のリソース再設定可能な深層ニューラルネットワーク加速器。
前記仮想タイリング階層の前記タイリングサイズは、ホストシステムによって決定される前記仮想タイリングレジスタの値に基づいて設定される、
請求項１に記載のリソース再設定可能な深層ニューラルネットワーク加速器。
深層ニューラルネットワーク加速器におけるリソース再設定方法であって、
ループが行われることにより、仮想タイリングレジスタの値を読出すステップと、
前記読出された仮想タイリングレジスタの値に基づいて仮想タイリング階層のタイリングサイズを設定するステップと、
前記仮想タイリング階層のタイリングサイズに基づいて関連リソースのタイリングサイズを変換するステップと、
前記タイリングサイズに応じて使用量が調整された関連リソースのうち未使用の関連リソースのリソース割当を解除するステップと、
を含む、リソース再設定方法。
前記仮想タイリング階層のタイリングサイズは、毎ループを行う度にアップデートされる、
請求項１１に記載のリソース再設定方法。
前記仮想タイリング階層のタイリングサイズに基づいて関連リソースのタイリングサイズを変換するステップは、
外部メモリ階層における深層ニューラルネットワークパラメータデータを複数のタイルに分割してロードするスクラッチパッドメモリ階層、前記スクラッチパッドメモリ階層のタイリングされた深層ニューラルネットワークパラメータデータをロードするレジスタファイルメモリ階層、および前記レジスタファイルメモリ階層にロードされた深層ニューラルネットワークパラメータデータに対する推論演算を処理する複数のコアの少なくとも１つを含む前記関連リソースのタイリングサイズを変換する、
請求項１１に記載のリソース再設定方法。
前記仮想タイリング階層を提供する前記仮想タイリングレジスタは、前記スクラッチパッドメモリ階層と前記レジスタファイルメモリ階層との間に追加され、
前記仮想タイリング階層のタイリングサイズに基づいて関連リソースのタイリングサイズを変換するステップは、
前記仮想タイリング階層のタイリングサイズがＮ（Ｎは２以上の自然数）個に決定される場合、前記複数のコアのうち１／Ｎ個のコアが前記関連リソースのタイリングサイズに変換されて前記ループを行うためのリソースに割当てられるものである、
請求項１３に記載のリソース再設定方法。
前記仮想タイリング階層を提供する前記仮想タイリングレジスタは、前記外部メモリ階層と前記スクラッチパッドメモリ階層との間に追加され、
前記仮想タイリング階層のタイリングサイズに基づいて関連リソースのタイリングサイズを変換するステップは、
前記タイリングサイズがＮ（Ｎは２以上の自然数）個に決定される場合、前記スクラッチパッドメモリ階層のうち１／Ｎが前記関連リソースのタイリングサイズに変換されて前記ループを行うためのリソースに割当てられるものである、
請求項１３に記載のリソース再設定方法。
リソース再設定システムであって、
スクラッチパッドメモリ階層、レジスタファイルメモリ階層、およびコアの少なくとも１つを含む関連リソースと、仮想タイリングレジスタの値に基づいてタイリングサイズが設定される仮想タイリング階層を提供する前記仮想タイリングレジスタとを含む深層ニューラルネットワーク加速器と、
前記深層ニューラルネットワーク加速器の推論実行中に前記仮想タイリングレジスタの値を設定して関連リソースの活性化の有無を決定するホストシステムと、
を含む、リソース再設定システム。
前記関連リソースの使用量は、前記仮想タイリング階層のタイリングサイズに基づいて調整される、
請求項１６に記載のリソース再設定システム。
前記仮想タイリング階層を提供する前記仮想タイリングレジスタは、前記関連リソースとの階層構造において任意の位置に追加され、前記設定されたタイリングサイズに相応するように、階層構造からタイリングされたデータをロードする、
請求項１６に記載のリソース再設定システム。
前記ホストシステムは、ソフトウェアインターフェースを介して前記仮想タイリング階層の位置を設定する、
請求項１６に記載のリソース再設定システム。