JP2023547734A

JP2023547734A - 内積計算のための対数記数法プロセッサ

Info

Publication number: JP2023547734A
Application number: JP2023528004A
Authority: JP
Inventors: ダワニ，サンジェイ; ディミトロフ，ヴァシル; エル．マダナヤケ，ハバラカダ
Original assignee: Lemurian Labs Inc
Current assignee: Lemurian Labs Inc
Priority date: 2020-11-03
Filing date: 2021-11-03
Publication date: 2023-11-13
Also published as: EP4232964A1; US20230409285A1; CA3197435A1; WO2022094710A1

Abstract

内積計算のハードウェアアクセラレーションに多次元対数記数法を使用する方法と装置について説明する。これらの方法および装置は、例えば、エッジデバイス上のディープニューラルネットワークの訓練および推論の計算など、低消費電力、低面積、および高速の内積計算ユニットを必要とする任意のデバイスに使用することができる。特定の実施形態では、ニューラルネットワークの訓練は、ニューラルネットワークの重み係数のセットを得るために、多次元対数データ表現を使用して実行される。決定された重み係数が与えられると、多次元対数データ表現用に第２の底が最適化される。この最適な表現は、ニューラルネットワークによる推論を実行するために使用することができる。

Description

本開示は、一般に、人工知能（ＡＩ）アクセラレータの計算効率を改善するためのデータ表現の方法および装置に関する。

（関連出願の参照）
本出願は、「内積計算のための多次元対数記数法プロセッサ（MULTI-DIMENSIONAL LOGARITHMIC NUMBER SYSTEM PROCESSOR FOR INNER PRODUCT COMPUTATIONS）」と題された２０２０年１１月３日出願の米国特許出願第６３／１０９１３６号の優先権を主張する。本出願は、「内積計算のための多次元対数記数法プロセッサ（MULTI-DIMENSIONAL LOGARITHMIC NUMBER SYSTEM PROCESSOR FOR INNER PRODUCT COMPUTATIONS）」と題された２０２０年１１月３日出願の米国特許出願第６３／１０９１３６号の米国特許法第１１９条に基づく利益を主張するものであり、この出願は、あらゆる目的のために参照によりその全体が本明細書に組み込まれる。

畳み込みニューラルネットワーク（ＣＮＮ）などのディープニューラルネットワークは、画像および映像の認識および分類、並びに、推奨エンジン、自然言語処理、医療画像解析などの他の人工知能（ＡＩ）用途に使用できる。これらの用途に使用されるニューラルネットワークは、計算複雑性（computational complexity）が増大し、学習および推論に必要な消費電力が増加している。特に、モバイルまたは組み込みプラットフォーム上でニューラルネットワークを実行することは、ハードウェアと電力の制約のために難しい課題である。エッジデバイス（消費者製品または商用製品（例えば、ロボット、ドローン、監視装置、拡張現実（ＡＲ）製品、仮想現実（ＶＲ）製品、自動運転車両、スマートフォン、ウェアラブルデバイスなど）とインターフェースするローカルデバイスまたはネットワークをインターネットのエッジに接続できるようにするデバイス）には、そのサイズと利用可能な電力から課される制約がある。そのため、このようなエッジデバイス上でニューラルネットワークのより効率的な動作を可能にする解決策が必要とされている。こうした取り組みの中には、ハードウェア設計の効率化に向けたものもある。その他の取り組みは、機械学習モデルの効率を高めることに向けられている。しかし、ニューラルネットワークの計算複雑性が増大していることを考えると、ハードウェア設計とモデリングの効率向上だけでは十分な解決策を提供できない可能性がある。

そのため、ニューラルネットワークが実行する演算の計算効率を向上させるためのデータ表現の方法への関心が高まっている。例えば、効率の向上と引き換えに多少の精度の低下を受け入れることが現実的である場合、低精度演算および／または圧縮を使用することができる。しかし、低精度の計算方法の中には、計算効率にもたらされる改善が小さいもの、および／または、訓練および推論において貧弱な結果、あるいは無効な結果さえもたらすものがある。例えば畳み込みニューラルネットワークで使用される内積計算を含む計算効率を改善するために使用することができ、なおかつ許容可能な出力を達成することができるデータ表現の方法および装置が必要とされている。

一般に、本明細書では、畳み込みニューラルネットワーク（ＣＮＮ）などのニューラルネットワークにおける内積計算をハードウェアで高速化するために、多次元対数記数法に基づくデータ表現の使用を組み込んだ方法および装置について説明する。

本発明の一態様は、ディープニューラルネットワークの訓練および推論を実施するための方法を提供する。この方法は、訓練データのセットを受け取るステップと、訓練データのセットを多次元対数記数法（multidimensional logarithmic number system：ＭＤＬＮＳ）で表現するステップであって、ＭＤＬＮＳ表現は、第１の底に関連する第１の指数と第２の底に関連する第２の指数を使用するステップと、既定の第１の底および既定の第２の底を使用して、訓練データのセットに対してディープニューラルネットワークの訓練を実施し、ニューラルネットワークの重み係数のセットを決定するステップと、決定されたニューラルネットワークの重み係数のセットに基づいて、既定の第１の底に対して、多次元対数データ表現のための第２の底を最適化するステップと、ネットワーク出力セットを得るために、最適化された多次元対数データ表現を使用して、ネットワーク入力セットに対してディープニューラルネットワーク推論を実施するステップと、を含む。

いくつかの実施形態において、多次元対数データ表現のために第２の底を最適化することは、平均二乗誤差（ＭＳＥ）が最小化される最適な第２の底を決定することを含む。第２の底とそれに関連する第２の指数の可能な範囲を最適化するために、混合整数大域的最適化手順を実行するものであってもよい。

いくつかの実施形態において、既定の第１の底は２である。いくつかの実施形態では、既定の第２の底は２^ωであり、ω＝（１＋ｓｑｒｔ（５））／２ある。ＭＤＬＮＳは、任意選択で、１つ以上の追加の指数（例えば、第３の指数、第４の指数など）を使用してもよく、これらの指数はそれぞれ対応する１つ以上の追加の底（例えば、第３の底、第４の底など）に関連付けられる。いくつかの実施形態において、訓練データのセットに対してディープニューラルネットワークの訓練を実施することは、既定の第３の底を使用することを含むものであってもよく、既定の第２の底は、

であり、既定の第３の底は、

である。いくつかの実施形態において、１つ以上の追加の底のうちの少なくとも１つは、多次元対数データ表現に対して最適化されている。

いくつかの実施形態において、底の指数は整数値である。いくつかの実施形態では、第１の指数と第２の指数は、極性が反対である。いくつかの実施形態では、第１の指数および第２の指数は小数値である。いくつかの実施形態では、既定の第２の底は、

からなるグループから選択される。

本発明の別の態様は、本明細書に記載の方法を実行するためにエッジデバイス上で採用され得るハードウェアアクセラレータを提供する。ハードウェアアクセラレータは、コンピューティングデバイスのメモリおよびハードウェアアクセラレータのキャッシュに接続された多次元対数記数法（ＭＤＬＮＳ）コンバータと、第1の数の行および第２の数の列のアレイに配列された複数の処理ユニットであって、集合的に処理コアを形成する、処理ユニットと、処理コアおよびＭＤＬＮＳコンバータに接続されたマイクロコントローラと、を含む。ＭＤＬＮＳコンバータは、コンピューティングデバイスのメモリから受信したデータセットのＭＤＬＮＳ表現を作成し、そのＭＤＬＮＳ表現をハードウェアアクセラレータのキャッシュに格納するように構成されるものであってもよい。ＭＤＬＮＳ表現は、バイナリに関連する第１の指数と非バイナリに関連する第２の指数を使用するものであってもよい。

いくつかの実施形態において、ハードウェアアクセラレータの処理ユニットは、バイナリの底で動作する第１の加算器と、非バイナリの底で動作する第２の加算器とを含む。処理ユニットは、任意選択で、第１の加算器および第２の加算器に接続された集約加算器を含むものであってもよい。集約加算器は、複数の集約チャネルを有しており、各集約チャネルは、第１の指数のビット数と第２の指数のビット数とによって定められるペア（Ｎ，Ｍ）の一意の組合せに対応する。集約加算器は、任意選択で、指数の一意な（Ｎ，Ｍ）のペアを集約するために並列に動作する２^Ｎ＋Ｍ個のアップカウンタを含むものであってもよい。

いくつかの実施形態において、処理コアの処理ユニットは、行列－ベクトル乗算ユニットのシストリックアレイとして構成される。いくつかの実施形態において、第２の底は２^ωであり、ω＝（１＋ｓｑｒｔ（５））／２である。いくつかの実施形態において、ハードウェアアクセラレータは、チップオンネットワークによって他の処理タイルに接続される複数の処理タイルを含む。処理タイルの各々は、複数の上述した処理コアを含むものであってもよい。

本明細書で説明するハードウェアアクセラレータは、エッジコンピューティングデバイスなどのコンピューティングデバイスで使用され、計算効率の向上と消費電力の低減のために、対数データ表現の使用を組み込み、ディープニューラルネットワークの推論を実施することができる。

本発明のさらなる態様は、以下の説明を考慮すれば明らかになるであろう。

本発明の実施形態の特徴および利点は、添付の図面を参照して説明する以下の詳細な説明から明らかになるであろう。

図１は、多次元対数表現の幾何学的解釈を示す図である。図２は、計算効率を高めるためにハードウェアアクセラレータを用いてディープニューラルネットワークを実行するために使用することができるエッジコンピューティングデバイスの例示的な実施形態を模式的に示す図である。図３は、図２のハードウェアアクセラレータの例示的な実施形態のブロック図である。図３Ａは、例示的な実施形態に従う図３のハードウェアアクセラレータの処理ユニットを模式的に示す図である。図３Ｂは、図３Ａの処理ユニットのいくつかの実施形態に含まれ得る例示的なアグレゲートアダーを模式的に示す図である。図４は、ディープニューラルネットワークの訓練および推論を実施するための多次元対数データ表現を組み込んだ一実施形態に従う方法を示す図である。

以下に続く説明、およびそこに記載された実施形態は、本発明の原理の特定の実施形態の例の説明のために提供される。これらの例は、これらの原理および本発明を、限定するものではなく、説明するために提供されるものである。

本明細書では、畳み込みニューラルネットワーク（ＣＮＮ）などのニューラルネットワークにおける内積計算をハードウェアで高速化するために、多次元対数記数法に基づくデータ表現の使用を組み込んだ方法および装置について説明する。これらの方法および装置の用途には、ニューラルネットワークの訓練および推論の計算が含まれる。しかしながら、低消費電力、低面積、および高速の内積計算ユニットを必要とするあらゆるデバイスが、本明細書に記載される方法および装置から利益を得ることができる。本発明の実施形態は、コンピュータビジョン、人工知能（ＡＩ）用途、画像圧縮、音声認識、機械学習、またはエッジデバイス（例えば、ロボット、ドローン、監視装置、拡張現実（ＡＲ）製品、仮想現実（ＶＲ）製品、自動運転車両、スマートフォン、ウェアラブルデバイスなど）における他の用途に使用できるアクセラレータに組み込むことができる。

古典的な一次元の対数記数法（logarithmic number system：ＬＮＳ）は、低電力、低精度のデジタル信号および画像処理において様々な用途がある。ＬＮＳは、デジタルフィルタ（有限インパルス応答（ＦＩＲ）、無限インパルス応答（ＨＲ）、適応フィルタなど）の分野や、信号変換の実施に使用される。ＬＮＳの機械的バージョンは、よく知られた計算尺である。

ＬＮＳは、次ように要約できる。すなわち、ＬＮＳは、乗算および除算を加算および減算に変換する。加算および減算は、ルックアップテーブル（ＬＵＴ）と追加の加算によって実施される。重大な欠点はＬＵＴのサイズであり、これは計算のダイナミックレンジに応じて指数関数的に大きくなる傾向がある。その結果、一般的にＬＮＳの使用は、低精度（例えば、８～１６ビットのダイナミックレンジなど）を必要とする用途に限られる。全体的な内積アーキテクチャから乗算器が削除されるため、一般的に低消費電力の実装が実現され、これはモバイル用途にとって望ましい機能である。

低精度計算は、機械学習（例えば、深層学習、訓練時間中および配備後に更新される重みを伴うまたは伴わない継続的学習、強化学習など）、人工知能、３Ｄイメージング、ＡＲ／ＶＲシミュレーションなどの用途に関連する計算を高速化するのに有利である。標準的な浮動小数点表現の代替として対数表現を検討した結果、消費電力の大幅な削減など、これらの用途で有望な結果が得られている。対照的に、浮動小数点表現の使用は、このような用途の計算に不必要に大きなダイナミックレンジを提供するため、計算が大幅に遅くなり、消費電力が高くなる。

多次元対数記数法（multidimensional logarithmic number system：ＭＤＬＮＳ）は、ＬＮＳを２次元に拡張したものとして見ることができる。ＭＤＬＮＳにおいて、実数ｘは、ｘ＝ｓ＊Ｄ１^ａ＊Ｄ２^ｂとして符号化され得る。ここで、（Ｄ１，Ｄ２）は、１組の２つの乗算的に独立（multiplicatively independent）な底（これは、実数または複素数であってもよい）および（ａ，ｂ）は、１組の２つの整数である。また、ｘが正の場合、ｓ＝１、ｘが負の場合、ｓ＝－１である。この表現の簡単な幾何学的解釈は、図１に示すように、２次元の計算尺１０である。

下の表１に、ＬＮＳとＭＤＬＮＳの主な相違点のいくつかについて概要が記されている。

第２の底Ｄ２が数値１として選択される場合、ＬＮＳはＭＤＬＮＮＳの部分的な場合であることに留意されたい。ＬＮＳが魅力的な実用的性能を提供する用途では、ＬＮＳと同じ利点を提供するようにＭＤＬＮＮＳを適合させることができる。

表１に見られるように、ＭＤＬＮＮＳはＬＮＳに類似しない特徴を含んでいる。そのため、ＭＤＬＮＮＳは、ＬＮＳよりも計算上の利点を提供するために、そのような機能をより効率的に利用することで活用できる。例えば、ＭＤＬＮＮＳは、対数形式からバイナリ形式への変換を指数関数的に高速化する。ＬＮＳでは、対数形式からバイナリ形式への変換は、大きなＬＵＴを使用するか、または関数ｆ（ｘ）＝２^ｘを実装する専用の回路を使用することによって達成される。ＭＤＬＮＮＳでは、指数ｅｘｐのすべての可能な値に対して、第２の底Ｄ２のべき乗が浮動小数点方式で格納されている場合（例えば、Ｄ２^ｅｘｐ＝１．ｄｄｄｄｄ＊２^{ｅｅｅｅｅ}）、変換はかなり高速に実行できる。

ＭＤＬＮＮＳと古典的なＬＮＳ（または浮動小数点演算）の違いの１つは、１（乗法の単位元）の非自明な近似の存在である（例えば、１に非常に近い２^ｅｘｐ１＊Ｄ２^ｅｘｐ２の形の数）。以下の例は、計算オーバーフローを防止するために、これらの１の近似がどのように有利に使用できるかを示している。

一例では、特定のＭＤＬＮＮＳの底は、Ｄ１＝２およびＤ２＝３である。この例において、１の良好な近似値には次のような数が含まれる。すなわち、２^８＊３^－５、２^１９＊３^－１２、
２^８４＊３^－５３等々である。例示的に、２^ａ＊３^ｂ（ここで、ａ^２＋ｂ^２＞０、ａおよびｂは整数とする）は、一対の指数（ａ、ｂ）のビットサイズに制限が課されない場合、２と３が乗法的に独立である（すなわち、ｌｏｇ_２３は無理数である）ため、任意に１に近づけることができる。

別の例として、ｘ＝（１８０，－１１５）としてｘ^２は、９ビット固定小数点バイナリ演算を利用して計算される。ｘの実数値は、約０．２０７２３１である。ｘ^２を直接計算すると、９ビット符号付き固定小数点演算の場合、結果である（３６０，－２３０）はオーバーフローエラーを生じさせる。しかし、ＭＤＬＮＳが提供する１の優れた近似は、オーバーフロー問題を軽減する最適化オプションを提供する。注目すべきことに、この最適化オプションは、１次元対数記数法（１ＤＬＮＳ）にも浮動小数点バイナリ演算にも類似していない。もしｘが２次元対数記数法(２ＤＬＮＳ)で（－８４，５３）として符号化された数(すなわち、１に非常に近い数)と乗算されるなら、このスケーリングに関連する誤差は非常に小さくなり、指数のサイズは（９６，－６２）に減らすことができる。これにより、二乗演算を９ビット固定小数点のダイナミックレンジ内で安全に実行することができ、最終的な答えは（１９２,－１６４）となる。例示的には、使用する数値のサイズを小さくしてオーバーフローのない範囲にすることで、膨大な計算オプションを提供することができる。

標準的な乗算のような標準的な計算手順も２ＤＬＮＳで実行できる。例として、Ｄ１＝２，Ｄ２＝２．０２２８の底を有する２ＤＬＮＳを使用することで、４１に１０９を乗算することができる。この底の選択により、４１は（－１７，２２）のように符号化され、１０９は（２１，－１４）のように符号化される。指数を成分ごとに加算すると、（４，８）のペアができる。このペアで符号化された数値を得るには、Ｄ２のべき乗（すなわち、
１．ｄｄｄｄｄ＊２^{ｅｅｅｅｅ}のように符号化された）を含む小さなＬＵＴを使用することができる。この例では、Ｄ２^８＝１．０００１１００００１....＊２^８に２４を乗算すると、１．０００１１００００１...＊２１２となり、これは、１０進数で４４８５に相当する。４１に１０９を乗算した場合の正しい積は、１０進数で４４６９である。

本発明の態様は、上述の２ＤＬＮＳなどのＭＤＬＮＮＳを使用して計算を実行するための多次元対数データ表現を提供するシステムおよび方法に関する。例示的に、データの多次元対数表現を使用すると、エッジコンピューティングデバイスによって実行される画像圧縮、画像認識または音声認識、機械学習などのアプリケーションの計算効率を高めることができる。

図２は、例示的な実施形態によるコンピューティングデバイス１２を示す。コンピューティングデバイス１２は、インターネットのエッジで動作するコンピューティングデバイスであってもよい。本明細書では、説明を容易にする目的で、コンピューティングデバイス１２を「エッジコンピューティングデバイス」と呼ぶことがある。しかしながら、他のタイプのコンピューティングデバイスは、本発明の範囲内で「エッジコンピューティングデバイス」と交換可能であることが理解されるべきである。

図２に示されるように、エッジコンピューティングデバイス１２は、プロセッサ１４、（例えば、インターネットへのイーサネットおよび／またはＷｉ－Ｆｉ接続をサポートする）ネットワークインターフェース１６、メモリ１８、およびアプリケーション固有の計算を実行するように適合され得る１つまたは複数のハードウェアアクセラレータ２０を含む。エッジコンピューティングデバイス１２は、クラウドまたはクラウドサーバ１００を介してインターネットに接続されるものであってもよい。図２に示されるように、関心のある様々なローカルデバイス２またはローカルネットワーク（たとえば、商業用ロボットまたはドローン、軍事用ロボットまたはドローン、軌道上のデータセンター、衛星、監視装置、拡張現実（AR）製品、仮想現実（VR）製品、スマートフォンのようなパーソナルコンピューティングデバイス、ウェアラブルデバイス、自律走行（自動運転）車両、または他の任意の無線電子デバイスなど）が、エッジコンピューティングデバイス１２に接続されるものであってもよい。

エッジコンピューティングデバイス１２は、ローカルデバイス２とエッジコンピューティングデバイス１２との間のデータ伝送に関連する待ち時間を低減するために、典型的には、ローカルデバイス２に比較的近接して配置される。例えば、エッジコンピューティングデバイス１２は、風力タービンのローカルセンサ２から収集されたデータを受信して処理するために、風力タービン上に設置される場合がある。別の例として、エッジコンピューティングデバイス１２は、自律走行車両２から送信されたデータを受信して処理するために、信号機上に設置されることがある。いくつかの実施形態では、エッジコンピューティングデバイス１２は、ローカルデバイス２に物理的に配置され、および／またはローカルデバイス２の一部を形成する（すなわち、ローカルデバイス２は、エッジコンピューティングデバイス12を含むものであってもよい）。

エッジコンピューティングデバイス１２は、場合によっては、ディープニューラルネットワークを実行することが要求されることがある。例えば、エッジコンピューティングデバイス１２は、画像またはビデオ認識、音声認識、推奨エンジン、自然言語処理、医療画像分析などのＡＩアプリケーションを実行するために、ディープニューラルネットワークを採用することがある。そのような場合、エッジコンピューティングデバイス１２は、ニューラルネットワークの実行に関連する計算タスクを、そのハードウェアアクセラレータ２０のうちの１つ以上に割り当てるように構成され得る。いくつかの実施形態では、エッジコンピューティングデバイス１２は、行列－ベクトル乗算および／または内積計算を実行するようにプログラム可能であるか、または他の方法でカスタム設計されたハードウェアアクセラレータ２０を含む。必須ではないが、ハードウェアアクセラレータ２０には、典型的には、タイルベースのアーキテクチャが組み込まれている。例示的に、ハードウェアアクセラレータ２０は、従来の中央処理装置（ＣＰＵ）またはグラフィカルプロセシングユニット（ＧＰＵ）を使用するのに比べて計算効率が高い方法で、そのような計算を実行することができる。

図３は、ハードウェアアクセラレータ２０の例示的な実施形態のブロック図である。ハードウェアアクセラレータ２０は、並列アーキテクチャで配列された複数の処理要素２２を含む。処理要素２２は、任意の適切な次元（例えば、２、３、等々）のアレイに配列されてもよい。例えば、処理要素２２は、図３に示されているように、ｍ行ｎ列を有する２次元アレイに配置されてもよい。行数ｍは、例えば、２から１６の範囲の任意の数（例えば、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、または１６）を含む任意の適切な数とすることができる。列数ｎは、例えば、２から１６の範囲の任意の数（例えば、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、または１６）を含む任意の適切な数とすることができる。いくつかの実施形態において、処理要素２２は、同じ数のｍ行とｎ列を有する２次元アレイに配置される（すなわち、処理要素２２は、正方形アレイに配置されるものであってもよい）。

本明細書では、説明を容易にする目的で、（例えば上述のように）アレイ構成で配置された処理要素２２のアセンブリを処理コア４０と呼ぶことがある。図３の例示的な実施形態では、図示上の目的および簡潔さのため、ハードウェアアクセラレータの単一の処理コア４０が示されている。一般には、ハードウェアアクセラレータ２０は、任意の適切な数の処理コア４０を含むものであってもよい。各処理コア４０は、ハードウェアアクセラレータ２０の他の処理コア４０と同じ数または異なる数の処理要素２２を有することができる。

本明細書では、説明を容易にするためで、処理コア４０のアセンブリを処理タイルと呼ぶことがある。各処理タイルは、例えば、２から１６の範囲の任意の数（例えば、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、または１６）を含む、適切な数の処理コア４０を含む。例えば、例示的な一実施形態において、ハードウェアアクセラレータ２０の単一の処理タイルは、８つの処理コア４０を含むものであってもよく、各処理コア４０は、８行８列の正方形アレイに配置された６４個の処理要素２２を含むものであってもよい。ハードウェアアクセラレータ２０は、エッジコンピューティングデバイス１２によって必要とされる処理能力に応じて、任意の適切な数の処理タイルを含むものであってもよい。多くのアプリケーションでは、エッジコンピューティングデバイス１２は、６４個から５１２個の処理タイルを有するハードウェアアクセラレータ２０で含む。

処理コア４０およびその中に含まれる処理ユニット２２は、ハードウェアアクセラレータ２０の1つまたは複数のマイクロコントローラ２４によって制御される。マイクロコントローラ２４は、専用に設計されたハードウェア、構成可能なハードウェア、データプロセッサ上で実行可能なソフトウェアまたはファームウェアを備えることによって構成されたプログラム可能なデータプロセッサ、および本明細書に記載される方法に従って処理ユニット２２を制御するように専用にプログラムされ、構成され、または構築された特定目的データプロセッサのうちの１つ以上を使用して実装され得る。

いくつかの実施形態では、マイクロコントローラ２４は、縮小命令セットコンピュータ（ＲＩＳＣ）マイクロコントローラである。そのような実施形態では、マイクロコントローラ２４は、データメモリ、命令メモリ、プログラムカウンタ、レジスタ、制御回路、および入出力デバイスのうちの１つまたは複数を含み得る。

いくつかの実施形態では、各処理コア４０は、それ自体のマイクロコントローラ２４によって制御される。他の実施形態では、ハードウェアアクセラレータ２０の単一のマイクロコントローラ２４が、２つ以上の処理コア４０を制御する。例えば、ハードウェアアクセラレータ２０の処理タイルを形成する全ての処理コア４０は、単一のマイクロコントローラ２４によって制御されるものであってもよい。

マイクロコントローラ２４は、ハードウェアアクセラレータ２０に割り当てられた計算タスク（例えば、エッジコンピューティングデバイス１２の中央プロセッサ１４によって割り当てられたタスク）を実行するために、処理ユニット２２およびハードウェアアクセラレータ２０のデータメモリ３０と通信する。例えば、マイクロコントローラ２４は、メモリ３０に記憶されたデータを処理ユニット２２にロードするロード命令を提供するように構成され得る。ロード命令は、ハードウェアアクセラレータ２０のローカルクロック２６によって定められるクロックサイクルで実行されてもよい。データが処理ユニット２２にロードされると、次のクロックサイクルでマイクロコントローラ２４によって提供される演算命令（例えば、加算、減算、乗算、除算）が、処理ユニット２２にロードされたデータに対して実行され得る。

算術演算が実行された直後に処理ユニットの出力データをメモリに格納することを必要とする従来のコンピュータ・アーキテクチャ（例えば、フォン・ノイマン型のアーキテクチャ）とは異なり、処理コア４０およびその中に含まれる処理ユニット２２のアーキテクチャは、最終データがメモリに出力される格納前に一連の算術演算を実行することを可能にする。

図３に示される例では、データは、ローカルクロック２６の第１のクロックサイクルにおいて、メモリ３０から処理コア４０の第１の処理ユニット２２Ａにロードされ得る。第１の処理ユニット２２Ａは、次いで、ローカルクロック２６の第２のクロックサイクルで、ロードされたデータに対して第１の算術演算を実行することができる。第１の算術演算を実行した後、処理ユニット２２Ａの出力データは、メモリ３０に戻る代わりに、処理コア４０の第２の処理ユニット２２Ｂに直接転送される。次いで、第２の処理ユニット２２Ｂは、第１の処理ユニット２２Ａの出力データのメモリ３０からのロードを要することなく、ローカルクロック２６の次の（すなわち、第３の）クロックサイクルにおいて、転送されたデータに対して直ちに第２の算術演算を実行することができる。この処理は、処理コア４０の最後の処理ユニット２２Ｃが、そこに転送されたデータに対して最後の演算処理を実行し、処理コア４０の最終出力データをメモリ３０に格納して戻すまで繰り返すことができる。これにより、処理コア４０が必要とするロードおよび格納動作の回数を減らすことができ、それにより、従来のプロセッサよりも処理コア４０の計算効率を向上させることができる。

いくつかの実施形態では、メモリ３０は、スタティックランダムアクセスメモリ（ＳＲＡＭ）または他の適切なストレージ技術を使用して実装され、同時ロード動作および同時格納動作を容易にする。すなわち、メモリ３０は、（すなわち、他の１つまたは複数の処理ユニットからの）他の１つまたは複数のデータセットがメモリ３０に格納されるのと同じクロックサイクルで、１つまたは複数のデータセットが１つまたは複数の処理ユニット２２にロードされることを可能にするストレージ技術を使用して実装され得る。例えば、メモリ３０は、８ＴＳＲＡＭを用いて実装されてもよい。任意選択で、メモリ３０は、処理ユニット２２の実行速度にピッチ整合されていてもよい。

例示的に、ハードウェアアクセラレータ２０のアーキテクチャは、各処理コア４０を互いに独立して動作させることができるように、グローバルに非同期であるが、ローカルに同期である。各処理コア４０がそれ自体のローカルクロック２６を含む実施形態では、各処理コア４０は、例えば、マイクロコントローラ２４によって必要に応じて高速化または低速化され得る。他の実施形態では、処理タイルは、そこに含まれる処理コア４０の処理を同期させる単一のクロック２６を含むものであってもよい。ハードウェアアクセラレータ２０のアーキテクチャは、大量の動的エネルギーと大きな面積を消費する可能性のあるグローバルクロックツリーの必要性を回避するものである。

いくつかの実施形態では、ハードウェアアクセラレータ２０の異なる処理タイルは、ネットワークオンチップ（ＮｏＣ）５０によって互いに接続される。ＮｏＣ５０は、ハードウェアアクセラレータの消費電力を比較的低く保ちつつ、より柔軟性を高めるために、データフロー再構成可能であってもよい。

いくつかの実施形態では、処理ユニット２２は、入力データに対して乗算演算を実行するように設計または構成された乗算ユニットである。図３に示される例では、各処理ユニット２２は、第１の入力を介して受信された第１のデータと第２の入力を介して受信された第２のデータとを乗算し、その積を、処理ユニット２２のパイプラインの下流に位置する２つ以上の処理ユニット２２（処理ユニットがパイプラインの最後の処理ユニット２２Ｃである場合はメモリ３０）に出力するように構成され得る。例示的に、乗算演算は、ハードウェアアクセラレータ２０のタイルベースアーキテクチャを利用して、乗算演算の実行に関連する計算効率を向上させるために、ＭＤＬＮＮＳで数値を表現するデータに対して実行され得る。例えば、ハードウェアアクセラレータ２０は、バイナリで数値を表現するデータ（例えば、エッジコンピューティングデバイス１２のメインメモリ１８に格納された数値に対応する）をＭＤＬＮＮＳで同じ数値を表現するデータに変換するＭＤＬＮＮＳコンバータ４０を含むか、または他の方法でＭＤＬＮＮＳコンバータ４０とインターフェースすることができる。ＭＤＬＮＳコンバータ４０は、MDLNSで数値を表すデータをバイナリで数値を表現するデータに戻すこともできる。

図３Ａは、処理ユニット２２の例示的な実施形態を模式的に示す図である。図３Ａに図示される例では、処理ユニット２２は、ＭＤＬＮＳで表現された第１の数値（ｘ＝ｓ_ｘ＊Ｄ１^ａｘ＊Ｄ２^ｂｘ）と、同じＭＤＬＮＳで表現された第２の数値（ｙ＝ｓ_ｙ＊Ｄ１^ａｙ＊Ｄ２^ｂｙ）とを乗算するように構成または設計される。図３Ａに示されているように、ＭＤＬＮＳコンバータ４０は、エッジコンピューティングデバイス１２のメインメモリ１８に格納されている数値のバイナリデータ表現を、同じ数値のＭＤＬＮＳデータ表現（例えば“ｘ”、“ｙ”）に変換する。ＭＤＬＮＳ数は、続いて、ハードウェアアクセラレータ２０のキャッシュ３０に格納される。処理ユニット２２は、２つ以上のＭＤＬＮＳ数（例えば“ｘ”、“ｙ”）にアクセスし、２つ以上のＭＤＬＮＳ数に対して乗算を実行するように（例えばマイクロコントローラ２４を介して）動作することができる。

図３Ａの例示的な実施形態では、処理ユニット２２は、第１の底用加算器６２と第２の底用加算器６４とを含む。第１の底用加算器６２は、第１の数値の第１の底Ｄ１の指数（すなわち、“ａｘ”）と第２の数値の第１の底Ｄ１の指数（すなわち、“ａｙ”）とを加算するように構成される。第２の底用加算器６４は、第１の数値の第２の底Ｄ２の指数（すなわち、“ｂｘ”）と第２の数値の第２の底Ｄ２の指数（すなわち、“ｂｙ”）とを加算するように構成される。例示的に、底Ｄ１、Ｄ２は、任意の適切な数であってもよく、ハードウェアアクセラレータ２０の特定の用途に従って最適化されていてもよい。底Ｄ１、Ｄ２は、例えば、以下に詳細に説明する方法を用いて最適化されるものであってもよい。加算器６２、６４は、最適化された底Ｄ１、Ｄ２に従って構成することができる。例えば、第１の加算器６２は、Ｄ１＝２の場合、バイナリ（２進）加算器であってもよい。別の例として、第２の加算器６４は、Ｄ２＝３の場合、３進加算器であってもよい。

図３Ａに示されるように、第１の加算器６２は、第１の数値の第１の底Ｄ１の指数と第２の数値の第１の底Ｄ１の指数との和（すなわち、“ａｘ＋ａｙ”）を生成する。第２の加算器６４は、第１の数値の第２の底Ｄ２の指数と第２の数値の第２の底Ｄ２の指数との和（すなわち、“ｂｘ＋ｂｙ”）を生成する。上述したように、ｘとｙの積はＭＤＬＮＳでは
Ｄ１^{ａ１＋ａ２}＊Ｄ２^{ｂ１＋ｂ２}と表現することができる。これによって、第１の加算器６２の出力６６と第２の加算器６４の出力６８をＭＤＬＮＳコンバータ４０に供給することにより、ｘとｙの積をバイナリデータ表現に変換し直すことができる。

場合によっては、数値の大きな集合を一緒に乗算して集約的に積を求めることが望ましい。多数の乗算演算は、例えば、内積計算、行列乗算、および／または機械学習およびＡＩアプリケーションで一般的に見られるタイプの計算を実行するときに必要となる場合がある。このような場合、処理ユニット２２は、多数のＭＤＮＬＳ数を加算してその和を求めるように構成された集約加算器（aggregate adder）７０を含むものであってもよい。

図３Ｂは、集約加算器７０を含む処理ユニット２２の例示的な実施形態を模式的に示す図である。図３Ｂに示される例では、アクセラレータキャッシュ３０は、ＭＤＮＬＳの数値を表現する多数のデータを記憶する。ＭＤＮＬＳで表現される各数値について、データは、第１の底Ｄ１の指数に対応するＮ個のビットと、第２の底Ｄ２の指数に対応するＭ個のビットを含み得る。これらのタイプのデータでは、Ｄ２の指数には２^Ｍ個の可能な異なる値があり、この値のそれぞれが第１の底Ｄ１に由来する２^Ｎ個の可能な乗法因子を有する。

集約加算器７０は、２－組（２成分の順序対）である（Ｎ，Ｍ）の２^Ｎ＋Ｍ個の異なる組み合わせごとに、別個かつ専用の集約チャネルを含む。いくつかの実施形態では、集約加算器７０は、２^Ｎ＋Ｍ個の並列アップカウンタを含み、各アップカウンタは、値の一意の（Ｎ，Ｍ）の組合せを集計するように構成される。各アップカウンタは、複数のＤフロップを含む単純なデジタルカウンタであってもよい。Ｄフロップは、各アップカウンタについて、位置nのＤフロップ（すなわち、Ｆ（ｎ））のクロック入力が、位置（ｎ－１）のＤフロップの出力に接続されるように接続されてもよい。ここで、ｎ＝０，１，...，Ｕであり、Ｕはカウンタ内のビット数である。いくつかの実施形態では、ｎ＝０における第１のＤフロップのクロックには、ハードウェアアクセラレータ２０のアーキテクチャによって定まる望ましいクロック速度“ｆ”で動作するマスタクロック（例えば、処理コア４０のクロッ２６）が使用される。

アップカウンタの出力は、チャネル化された部分和であり、（例えば、ＭＤＬＮＳコンバータ４０によって）エッジコンピューティングデバイス１２によって認識される記数法（例えば、固定小数点）に変換されなければならない。Ｐ個のＭＤＮＬＳ数が合計されなければならない状況では、処理ユニット２２の最終出力は、クロック２６のＰクロックサイクル後にのみ計算される。アップカウンタ値は、ＰサイクルごとにＤ１^Ｍ＊Ｄ２^Ｎよってスケーリングされる。アップカウンタ値は、場合によっては、その後、ハードウェアアクセラレータ２０の固定小数点加算器によって合計されてもよい。固定小数点加算器は、場合によっては、ＭＤＬＮＳコンバータ４０の一部として具現化される。

例示的に、アップコンバータの値を固定小数点にマッピングするために固定小数点加算器によって実装される高精度固定小数点加算および最終再構築ステップ（final reconstruction step：ＦＲＳ）を、低減された速度（rate）（例えば、f／ＰＨｚの速度）で実行することができる。畳み込みニューラルネットワーク（ＣＮＮ）のような典型的な機械学習構造の場合、Ｐは１０，０００～１００，０００以上の範囲の数値となり得る。このようなアプリケーションの場合、ＦＲＳステップは、例えば、エッジコンピューティングデバイス１２の適切な組み込みプロセッサコアを使用してソフトウェアで実装され得る。いくつかの実施形態では、ハードウェアアクセラレータ２０は、ＦＲＳを介してＭＤＬＮＳアップカウンタ値を固定小数点に変換するように構成された一連のプログレッシブダウンサンプリング積分器を備える。一連のプログレッシブダウンサンプリング積分器は、ハードウェアアクセラレータ２０の速度、電力、およびチップ面積の間の適切なトレードオフを決定するために、処理ユニット２２と関連して動作させることができる。

いくつかの実施形態では、集約加算器７０は、アップカウンタの一部または全部に加えて、またはその代わりに、バレルシフタを有する固定小数点加算器を含む。このような固定小数点加算器は、例えば、２^Ｎ個の項を計算するために実装されるものであってもよく、それによって、集約チャネルの数を２^Ｎ＋Ｍから２^Ｍに減少させるものである。

いくつかの実施形態では、処理コア４０およびその中に含まれる処理ユニット２２は、単一のアキュムレータに接続されるシストリックアレイ行列－ベクトル乗算ユニットとして構成される。そのような実施形態では、各処理ユニット２２は、ドット積計算および／または行列乗算の部分的な結果を計算するように動作し得るＭＤＬＮＳ乗算ユニットであるかまたはそのように機能する。例示的に、処理ユニット２２をシストリックアレイとして構成することにより、順序付けられたデータフローを提供することができ、および／または、処理コア４０が、ハードウェアアクセラレータ２０の効率および／またはスループットを増加させるために、重み定常（weight stationary）および／または出力定常（output stationary）などの特性を利用することを可能にすることができる。

いくつかの実施形態では、ハードウェアアクセラレータ２０は、活性化関数および／またはプーリングを処理するための非線形性および削減ユニットを備える。活性化関数は、畳み込みネットワーク（ＣＮＮ）などのニューラルネットワークにおける非線形関数であり、行列乗算の結果（すなわち、重み付き和）がどのように出力に変換されるかを定める。活性化関数の例としては、ＲｅＬＵ活性化関数、ＬｅａｋｙＲｅＬＵ活性化関数、シグモイド活性化関数、ソフトプラス活性化関数、または他の微分可能な非線形関数が挙げられるが、これらに限定されるものではない。非線形性および低減ユニットは、処理コア４０によって実行される行列乗算（例えば、“ＡＸ＋ｂ”（行列－行列）、“Ａｘ＋ｂ”（行列－ベクトル）の結果に適切な活性化関数を適用するように設計または構成されるものであってもよい。

以下、図４を参照して、ディープニューラルネットワーク演算の計算効率を高めるためにハードウェアアクセラレータ２０によって実現することができる方法を説明する。

図４は、ディープニューラルネットワークの訓練および推論の実施に使用されるデータ表現に上述した概念が組み込まれた一実施形態に従う方法２００を示す。方法２００は、上述の１つまたは複数のハードウェアアクセラレータ２０を使用して、それらのタイルベースアーキテクチャを利用するように実装されてもよく、これらのハードウェアアクセラレータ２０は、ディープニューラルネットワークの訓練に必要な計算の一部を効果的な方法で実行するように設計されるか、または構成されるものであってもよい。

方法２００は、データ入力（訓練データ）のセット２０１を受け入れ、データ入力のセット２０１を第１の底および第２の底を含むＭＤＬＮＳで表現することによって、ブロック２０２で開始する。データのセットをＭＤＬＮＳで表現した後、ブロック２０２は、入力２０１に対してディープニューラルネットワークの訓練を実行することによって進行する。上述したように、実数ｘは、ＭＤＬＮＳにおいて、ｘ＝ｓ＊Ｄ１^ａ＊Ｄ２^ｂ、のように符号化され得る。ここで、（Ｄ１，Ｄ２）は、２つの乗法的に独立な底であり、（ａ，ｂ）は、２つの整数の１組である。ブロック２０２は、いくつかの異なる可能なＭＤＬＮＳのうちの任意の１つを使用して、実数ｘを符号化または表現することを含むものであってもよい。例えば、ブロック２０２は、次のうちのいずれか１つを使用して、実数ｘを符号化または表現することを含むものであってもよい。それらは、底（２，２^ω）を用いた２ＤＬＮＳ（ここで、ωは黄金比である）、底（２，Ｄ２，Ｄ３）を用いた３ＤＬＮＳ（ここで、

であり、Ｄ３＝Ｄ２^２である）、非負のバイナリ指数と非正の第２の底のバイナリ指数を用いたＭＤＬＮＳ、底

と整数の指数を用いたＭＤＬＮＳ、底

と整数の指数を用いたＭＤＮＬＳ、異なるダイナミックレンジに対して特定の最適化された底を用いたＭＤＬＮＳ、異なるダイナミックレンジに対して最適化された非バイナリの底を用いた３ＤＬＮＳ、および最適化された第２の底を用いたＭＤＬＮＳである。

ブロック２０２での訓練は、上述した２ＤＬＮＳまたはＭＤＬＮＳのうちのいずれか１つで表現される数値をハードウェアアクセラレータ２０に入力することによって実行されるものであってもよい。例示的に、ブロック２０２において、黄金比の底の２ＤＬＮＳは、重み係数の初期符号化を提供し、ドット積計算を実行する（すなわち、処理コア４０のタイルベースアーキテクチャを利用することによってハードウェアアクセラレータ２０を使用する）ために使用されてもよい。これは、上述した計算効率の向上（例えば、対数形式からバイナリ形式への指数関数的に高速な変換、および指数サイズの低減）をもたらす。ブロック２０２での訓練の結果、ディープニューラルネットワークの重み係数の初期セット２０３が決定される。

方法２００は、ディープニューラルネットワークの重み係数の初期セット２０３を決定した後、ブロック２０４に進む。ブロック２０４では、係数の初期セット２０３を使用して、２ＤＬＮＳまたはＭＤＬＮＳにおける最適な第２の底２０５を決定するために最適化手順が適用される。ブロック２０４における最適化手順は、場合によっては、固定された第１の底（例えば、特定の実施形態において第１の底は２である）に対して最小の平均二乗誤差をもたらす第２の底２０５を決定することを含むものであってもよい。一実施形態では、所与の指数のダイナミックレンジの下で、最適な底および指数の値を見つけるために、混合整数大域的最適化手順が使用される。混合整数大域的最適化手順は、実数である整数指数および非バイナリの底を用いたＭＤＬＮＳのための混合整数最適化アルゴリズムを使用して実施することができる。

最後に、方法２００はブロック２０６に進む。ブロック２０６では、２ＤＬＮＳのために新たに決定された最適な第２の底２０５を用いて、入力のセット２０７に対して推論が実行される。例えば、重み係数は、最適な第２の底を用いて２ＤＬＮＳで表現され得る。推論計算の結果、出力のセット２０８が得られる。ハードウェアアクセラレータ２０による推論計算のための最適な第２の底を用いた２ＤＬＮＳの使用によって、計算効率の向上（例えば、対数形式からバイナリ形式への指数関数的に高速な変換、および指数サイズの低減）をもたらすことができ、これにより、（サイズまたは電力によって制限される）エッジデバイス、または低電力、低面積、および／または高速な内積計算ユニットを必要とする他のデバイス上で推論を実施することが可能になる。バイナリ表現から対数表現への変換は、事前に計算されたルックアップテーブル（ＬＵＴ）を介して得ることができる。例えば、１つのＬＵＴ（それぞれ２５６ワードまたは２Ｋを含む）を、８ビットまたは１２ビットのダイナミックレンジに使用できる。

上述した例示的な態様に加えて、本発明を以下の例で説明するが、これらは本発明の理解を助けるために記載されたものであり、その後に続く特許請求の範囲に定められる本発明の範囲をいかなる意味においても限定するものと解釈されるべきではない。

（例）
デジタル補聴器の分野における以下の例は、ａ）ＭＤＬＮＳにおける第２の底の選択の重要性、ｂ）２桁のＭＤＬＮＳの近似値の使用に基づく指数関数的な指数サイズの低減によって実現される桁数の重要性、を示すことを目的としている。

以下の係数を持つタップ数５３のＦＩＲフィルタを考える（係数２８～５３は、線形位相を保証するために１～２６の鏡映（mirror）である）。このフィルタは、デジタル補聴器に使用され、その目的は８０ｄＢ以上の阻止帯域減衰を確保することである。

上記の表３は、ＭＤＬＮＳが指数サイズの大幅な低減を可能にすることを明らかにしている。実際、理想的な（無限精度の）係数を用いると、－８５．３６２ｄＢの阻止帯域減衰が達成される。１桁のＭＤＬＮＳと９桁の指数、ｘ＝０．７２７８９４６６５６の最適な底は、－８０．３１５ｄＢの阻止帯域減衰が達成される。２桁のＭＤＬＮＳの場合、指数を３ビットのみ使用し、最適な底をｘ＝０．７３５２５４５１８とすると、－８１．５６２ｄＢの阻止帯域減衰が達成される。このように、第２の底の最適化と２桁表現の使用との組み合わせにより、古典的なＬＮＳの主な欠点、すなわち（ＬＮＳにとって）困難な算術演算を実行するための大規模なＬＵＴの必要性を回避することができる。第２の底を正確に選択することの役割は、ランダムな（最適化されていない）第２の底を使用した場合との比較によって強調される。

本発明の実施形態は、２次元対数数記数法（２ＤＬＮＳ）が組み込まれており、この場合、第２の底Ｄ２の選択は、平均最適（optimal-on-average）な底の選択を考慮することによって行われる。まず、（第１の底Ｄ１＝２と仮定して）、Ｄ２について特に悪い選択をいくつか考える。例えば、Ｄ２＝ｓｑｒｔ（２）とする。この場合、Ｄ２の偶数乗は完全な２のべき乗であり、したがって非常に悪い近似値を持つ多くの数を持つことになる。例えば（１９，８３）のような他の(共に非バイナリの)底を考えてみると、避けるべき現象に気づくかもしれない。実際、１９^－３＊８３^２＝１．００４３７...である。したがって、この特定のペアも悪いと考えられる。もし１９^ａ＊８３^ｂ（ａ，ｂは整数）の形の数を考えるなら、それらはクラスターを形成する。クラスター内の数は非常に良い近似になるが、クラスター外の数は、極端に大きな指数（ａおよびｂ）を使用しない限り、悪い近似になる。したがって、底が乗法的に独立であるという理論的制約は、最適な計算性能を得るための底の選択において必要ではあるが、十分な条件ではない。

したがって、「良い」第２の底は、ｌｏｇ_２（Ｄ）(Ｄの底２の対数)が不良近似（badly approximable）無理数となるようなものである。有理近似に関して「最悪」であることが知られている数は黄金比（ω＝（１＋ｓｑｒｔ（５）／２＝１．６１８...）であるため、非常に良い（普遍的な）第２の底は、Ｄ＝２^ω＝２^{１．６１８...}＝３．０６９...となる。利便性のため、Ｄ＝Ｄ／２である底を考えることもできる。実際、この底は良好に機能し、（例えば）適応デジタルフィルタが２ＤＬＮＳで実装される場合、底（２，２^ω）を使用することは、計算上最適であるように思われ、（平均的な意味で）良い性能を望むのであれば、これを選択することができる。これは平均最適な底の選択と呼ぶことができる。第１の底が２でない場合、平均最適な第２の底を選択するための一般的なルールは、Ｄ２＝Ｄ１^ωである。

ＭＤＬＮＳ（具体的には、この例では２ＤＬＮＳ）でテストされる行列乗算タスクに最適な第２の底を見つけるために、本発明者らによって実験が実施された。画像理解アプリケーションの場合、主な計算演算は、Ｗｘ＋ｂである。ここでＷは（非正方）行列、ｘおよびｂはベクトルである。Ｗｘ＋ｂは、－２から＋２に位置するガウス分布則に従う。

上述したことに基づいて、区間［－２，２］が２５６個の等間隔区間に分割され、２５６個の数値の各々が２＾ａ＊Ｄ＾ｂの形に近似される。Ｄに関する平均二乗誤差（ＭＳＥ）は、この区間内のすべての数値がガウス分布によって提供される重みを持つと仮定して最小化される。教師あり訓練では、入力がディープニューラルネットワークに提供され、ネットワーク出力が目標出力と比較される。誤差は、目標出力とネットワーク出力の差として測定される。これらの誤差の和の平均（平均二乗誤差）を最小化することが望ましい。すべての特定の指数、および固定された第１の底（この例では、２に固定）に対して、ＭＳＥが最小化される最適な第２の底が導出される。以下の表4はその結果を示している。

最適な第２の底は、区間[１／ｓｑｒｔ（２），ｓｑｒｔ（２）]内に位置する必要がある。これは、上記の表４で最適な第２の底について見られる数値を説明するものであり、小数点以下５桁の精度で計算される。表４に示されるように、平均二乗誤差は、非バイナリの指数のビット数の関数として減少する。

以下の表５は、（ａ）第１の底２に伴って特に最適化された第２の底（与えられたビットサイズごとに異なる）、（ｂ）底（２，３）の２ＤＬＮＳ、および（ｃ）入力データ近似の平均二乗誤差に関する平均最適な底（２，２^ω)の２ＤＬＮＳの間の数値的に得られたデータの比較を示すものである。データは、[－２，２]の間に位置するガウス分布に従うと仮定する。

上記の表５から、いくつかの重要な結論を見出すことができる。特に最適化された第２の底を使用した場合、指数にさらにビットを追加するため、平均二乗誤差はすべてのステップで２倍以上改善される。平均最適な底（２，２^ω)を選択した場合、誤差は２倍よりわずかに大きく、非常にロバストな低減を得ることができる。この底の選択は、底（２，３）の２ＤＬＮＳよりも、１つの例外（６ビットの指数）を除いて、ほとんど常に良好である。

デジタル信号処理では、ＦＩＲ／ＩＲRフィルタと適応フィルタにおけるＭＤＬＮＳの使用には基本的な違いがある。上述した議論では、非常に小さい指数、非常に小さいＬＵＴ、および非常に小さい加算器を含む非常に効率的なＭＤＬＮＳ内積アーキテクチャを確保するために、第２の底を注意深く選択することの重要性が強調されている。一方、第２の底をランダムに選択すると、ＦＩＲ／ＩＲアーキテクチャの性能は大幅に低下する。

適応フィルタの場合、フィルタの係数は適応フィルタリングアルゴリズムに応じて反復的に変化するため、最適な第２の底を選択するという手段はない。従って、上述したように、第２の底を選択するために平均最適技術を使用することができる。

上述した概念は、３次元対数記数法（３ＤＬＮＳ）を用いたデータ表現による内積計算にも適用できる。平均最適な底の選択のためには、「不良近似実数のペア」を探す必要がある。この分野の研究は少ないが、有理数として良く近似できない無理数のペアに対するいくつかの明示的な推定が、T.W. Cusick, The two-dimensional Diophantine approximation constant - II, Pacific Journal of Mathematics, vol.105, pp.53-67, 1983で議論されている。Cusickの結果はKeith Briggsによって、Some explicitly badly approximable pairs <arxiv.org/pdf/math/0211143.pdf>, October 25, 2018で拡張されており、彼が有理数のペアとして特に近似が難しいとしたペアは、（α，α^２)である。ここで、αの非常に良い候補として、α＝ｃｏｓ（２＊ｐｉ／７）が知られている。したがって、（２，２^α,２^α＾２)＝（２，１．１８６７１，１．４６９１１７）の底の３つ組は、３ＤＬＮＳアプリケーションの場合、平均最適な底の選択として実用的な良い選択である。

以下の表の数値は、混合整数最適化技術（指数は整数、非バイナリの底は実数）を用いて得られたものである。

本明細書で使用される例および対応する図は、説明のためのものである。本明細書で表現される原理から逸脱することなく、異なる構成および用語を使用することができる。

本発明を特定の特定の実施形態を参照して説明したが、当業者には、本発明の範囲を逸脱することのないその様々な変更が明らかであろう。特許請求の範囲は、例に記載された例示的な実施形態によって限定されるべきではなく、全体として説明と一致する最も広い解釈が与えられるべきである。例えば、本明細書では、様々な特徴が「いくつかの実施形態」に存在するものとして記載されている。このような特徴は必須ではなく、全ての実施形態に存在するとは限らない。本発明の実施形態は、そのような特徴のゼロ、任意の１つ、または２つ以上の任意の組み合わせを含むことができる。これは、そのような特徴のうちのあるものが、そのような特徴のうちの他のものと、そのような互換性のない特徴を組み合わせた実用的な実施形態を構築することが当業者にとって不可能であるという意味で互換性がないという範囲にのみ限定される。従って、「いくつかの実施形態」が特徴Ａを有し、「いくつかの実施形態」が特徴Ｂを有するという記述は、（記述に別段の記載があるか、特徴Ａと特徴Ｂが基本的に両立しない場合を除いて）、本発明者らが特徴Ａと特徴Ｂを組み合わせた実施形態も想定していることを明示的に示すものと解釈されるべきである。

Claims

ディープニューラルネットワークの訓練および推論を実施するための方法であって、
（ａ）訓練データのセットを受け取るステップと、
（ｂ）訓練データのセットを多次元対数記数法（ＭＤＬＮＳ）で表現するステップであって、ＭＤＬＮＳ表現は、第１の底に関連する第１の指数と第２の底に関連する第２の指数を使用するステップと、
（ｃ）既定の第１の底および既定の第２の底を使用して、訓練データのセットに対してディープニューラルネットワークの訓練を実施し、ニューラルネットワークの重み係数のセットを決定するステップと、
（ｄ）決定されたニューラルネットワークの重み係数のセットに基づいて、既定の第１の底に対して、多次元対数データ表現のための第２の底を最適化するステップと、
（ｅ）ネットワーク出力セットを得るために、ステップ（ｄ）で決定された最適化された多次元対数データ表現を使用して、ネットワーク入力セットに対してディープニューラルネットワーク推論を実施するステップと、
を含む方法。
多次元対数データ表現のために第２の底を最適化することは、平均二乗誤差（ＭＳＥ）が最小化される最適な第２の底を決定することを含む、ことを特徴とする請求項１に記載の方法。
第２の底および該第２の底に関連する第２の指数の範囲を最適化するために混合整数大域的最適化手順を実行するステップを含む、ことを特徴とする請求項１または２に記載の方法。
既定の第１の底は２である、ことを特徴とする請求項１から３のいずれか１項に記載の方法。
既定の第２の底は２^ωであり、ω＝（１＋ｓｑｒｔ（５））／２ある、ことを特徴とする請求項４に記載の方法。
ＭＤＬＮＳは、１つ以上の追加の指数を使用し、該１つ以上の追加の指数の各々は、対応する１つ以上の追加の底に関連する、ことを特徴とする請求項１から４のいずれか１項に記載の方法。
訓練データのセットに対してディープニューラルネットワークの訓練を実施することは、既定の第３の底を使用することを含み、既定の第２の底は、

であり、既定の第３の底は、

である、ことを特徴とする請求項６に記載の方法。
指数は整数値であり、既定の第２の底は、

からなるグループから選択される、ことを特徴とする請求項６に記載の方法。
第１の指数と第２の指数が極性において反対である、ことを特徴とする請求項６に記載の方法。
第１の指数および第２の指数は小数値である、ことを特徴とする請求項６に記載の方法。
多次元対数データ表現のための１つ以上の追加の底のうちの少なくとも1つを最適化するステップを含む、ことを特徴とする請求項６から１０のいずれか１項に記載の方法。
請求項１から１１のいずれか１項に記載の方法を実行するように構成されたハードウェアアクセラレータ。
コンピューティングデバイスのプロセッサから割り当てられた内積計算を実行するためのハードウェアアクセラレータであって、
コンピューティングデバイスのメモリおよびハードウェアアクセラレータのキャッシュに接続された多次元対数記数法（ＭＤＬＮＳ）コンバータと、
第1の数の行および第２の数の列のアレイに配列された複数の処理ユニットであって、集合的に処理コアを形成する、処理ユニットと、
処理コアおよびＭＤＬＮＳコンバータに接続されたマイクロコントローラと、を含み、
ＭＤＬＮＳコンバータは、コンピューティングデバイスのメモリから受信したデータセットのＭＤＬＮＳ表現を作成し、該ＭＤＬＮＳ表現をハードウェアアクセラレータのキャッシュに格納するように構成され、ＭＤＬＮＳ表現は、バイナリに関連する第１の指数と非バイナリに関連する第２の指数を使用する、ハードウェアアクセラレータ。
前記処理ユニットは、バイナリの底で動作する第１の加算器と、非バイナリの底で動作する第２の加算器とを含む、ことを特徴とする請求項１３に記載のハードウェアアクセラレータ。
前記処理ユニットは、前記第１の加算器および前記第２の加算器に接続された集約加算器を含み、前記集約加算器は、複数の集約チャネルを有し、各集約チャネルは、前記第１の指数のＮ個のビットと前記第２の指数のＭ個のビットとによって定められるペア（Ｎ，Ｍ）の一意の組合せに対応する、ことを特徴とする請求項１４に記載のハードウェアアクセラレータ。
前記集約加算器は、指数の一意な（Ｎ，Ｍ）のペアを集約するために並列に動作する２^Ｎ＋Ｍ個のアップカウンタを含む、ことを特徴とする請求項１５に記載のハードウェアアクセラレータ。
前記処理コアの前記処理ユニットは、行列－ベクトル乗算ユニットのシストリックアレイとして構成される、ことを特徴とする請求項１３から１６のいずれか１項に記載のハードウェアアクセラレータ。
前記第２の底は２^ωであり、ω＝（１＋ｓｑｒｔ（５））／２である、ことを特徴とする請求項１３から１７のいずれか１項に記載のハードウェアアクセラレータ。
複数の処理タイルを含み、各処理タイルは、複数の前記処理コアを含み、チップオンネットワークによって他の処理タイルに接続されている、ことを特徴とする請求項１３から１８のいずれか１項に記載のハードウェアアクセラレータ。
前記コンピューティングデバイスは、エッジコンピューティングデバイスである、ことを特徴とする請求項１３から１９のいずれか１項に記載のハードウェアアクセラレータ。
本明細書に記載される、任意の新規かつ発明的な特徴、特徴の組み合わせ、または特徴のサブコンビネーションを有する装置。
本明細書に記載される、任意の新規かつ発明的なステップ、行為、ステップおよび／または行為の組み合わせ、またはステップおよび／または行為の部分的な組み合わせを有する方法。