JP2022522807A

JP2022522807A - 回帰型ニューラルネットワークのルジャンドルメモリユニット

Info

Publication number: JP2022522807A
Application number: JP2021551888A
Authority: JP
Inventors: アール．フォルカー，アーロン; デイビッドエリアスミス，クリストファー
Original assignee: アプライドブレインリサーチインコーポレイテッド
Priority date: 2019-03-06
Filing date: 2020-03-06
Publication date: 2022-04-20
Anticipated expiration: 2040-03-06
Also published as: EP3935568A1; KR20210117331A; US20210089912A1; EP3935568A4; CA3098085A1; US11238345B2; CN113454648A; WO2020176994A1; CA3098085C; JP7284825B2

Abstract

ニューラルネットワークアーキテクチャは、ルジャンドルメモリユニット方程式を使用して決定された接続重みを用いて訓練されるが、任意選択により、決定された重みを固定したままにしておく。ネットワークは、スパイク又は非スパイク活性化関数を使用することや、他のニューラルネットワークアーキテクチャと積み重ねるか又は回帰結合することや、ソフトウェア及びハードウェアにおいて実装することができる。本発明の実施形態は、スライド時間窓に広がる直交多項式基底関数を使用して演算を行うパターン分類、データ表現及び信号処理用のシステムを提供する。

Description

技術分野
本発明は、概して、人工知能及びディープラーニングに関し、より具体的には、ソフトウェア及びハードウェアにおいて実装することができる回帰型ニューラルネットワークアーキテクチャに関する。この出願は、２０１９年３月６日に出願された米国仮特許出願第６２／８１４，７６７号及び２０１９年５月６日に出願された米国仮特許出願第６２／８４４，０９０号への優先権を主張し、それらの内容は、参照により本明細書に組み込まれる。

背景
ディープラーニングは、人工知能の分野に多くの急速且つ印象的な進歩をもたらしたことは間違いない。そのブラックボックスの性質により、画像認識、音声認識、自然言語理解、質問応答及び言語翻訳を含めて、大多数の重要な問題において最先端の性能を達成するために、専門領域の知識も、ニューラルネットワークの内部機能の理解も不要である（Y. LeCun, Y. Bengio, and G. Hinton, Deep learning. Nature, vol. 521, no. 7553, pp. 436-444, May 2015を参照）。基本的なレシピは、ディープラーニングのためのソフトウェアライブラリをインストールすること、ネットワークアーキテクチャを選択すること、そのハイパーパラメータを設定すること、次いで、ハードウェア（例えば、グラフィックス処理ユニット）がメモリに保持できる限りのデータを使用して訓練することである。

多層パーセプトロンなどのディープラーニングアーキテクチャは、目下のタスクに最も関係する「潜在表現」（すなわち、隠れ特徴）を自動的に発見することによって、新しい例に一般化する静的ベクトル関数の構築に秀でている。しかし、その最適化手順の不透明度は、諸刃の剣として現れる。すなわち、ディープラーニングを最小のハンドエンジニアリングで多くの問題に適用することが簡単である一方で、大部分のハイパーパラメータの変化が性能全体にどのような影響を事前に及ぼすかについては、専門家にとっても不明瞭である。

そのブレイクスルーにもかかわらず、その分野では、時間にわたって入力データ全体に任意に広がる関係をフィードフォワードアーキテクチャが学習できないことは十分に把握されており、それは、長時間依存性を有する映像、音声及び他の逐次時系列データに関与するタスクに必要なものである。ネットワークの深さにかかわらず、フィードフォワードネットワークは、常に、何らかの有限入力応答を有し、それにより、ネットワークの状態内における以前の入力の有限の「メモリ」が残る。言い換えれば、そのようなネットワークで演算可能な関数は、ネットワークの深さを越える深さにある入力にアクセスすることはできない。この問題を克服するための最も一般的な解決法は、ネットワークに回帰接続を導入することであり、それにより、現在の状態の情報は、それ自体に返され、従って、ネットワークは、以前の入力についての情報を捕捉し、将来においてそれを再利用することができる。これらのネットワークは、回帰型ニューラルネットワーク（ＲＮＮ）と呼ばれる。

ＲＮＮは、我々が物理的な実装方法を知っている中で演算的に最も強力なニューラルネットワークのブランドである。時間を通じて状態情報を存続させるために回帰接続を使用することにより、従って、ネットワークに内部メモリを与えることにより、ＲＮＮは、ディープフィードフォワードネットワークによって提供される演算クラス外の関数（すなわち、力学系（その状態がその入力の歴史に従って非線形的に進化する関数））を演算することができる。これにより、ネットワークは、任意の時間的スケールに沿った時間にわたる入力のパターンを活用することができる。

具体的には、ＲＮＮは、離散時間領域における（A. M. Schaefer and H. G. Zimmermann, Recurrent neural networks are universal approximators. In International Conference on Artificial Neural Networks, Springer, pp. 632-640, Sept. 2006を参照）及び連続時間領域における（K. Funahashi and Y. Nakamura, Approximation of dynamical systems by continuous time recurrent neural networks. Neural Networks, vol. 6, no. 6, pp. 801-806, Nov. 1992を参照）任意の有限次元の因果的な力学系に対する万能近似器としての役割を果たす。実践では、ＲＮＮは、音声認識、言語翻訳、映像処理、キャプション生成及び人間の感情の解読など、逐次入力に関与するタスクに対する最良のモデルである場合が多い。

ＲＮＮでの長年の課題は、長時間依存性を活用できるような初期のランダムな回帰重みの訓練における困難性に関連する（Y. Bengio, P. Simard, and P. Frasconi, Learning long-term dependencies with gradient descent is difficult. IEEE Transactions on Neural Networks, vol. 5, no. 2, pp. 157-166, Mar. 1994を参照）。多くのアーキテクチャ上の解決法が提案されており、最も歴史的に成功を収めたものは、長期・短期メモリ（ＬＳＴＭ）である（S. Hochreiter and J. Schmidhuber, Long short-term memory. Neural Computation, vol. 9, no. 8, pp. 1735-1780, Nov. 1997を参照）。また、つい最近のものであるが密接に関連している多様な代替の形態も存在しており、例えば、ゲート付き回帰型ユニット（ＧＲＵ）（J. Chung, C. Gulcehre, K. Cho, and Y. Bengio, Empirical evaluation of gated recurrent neural networks on sequence modeling. arXiv:1412.3555, Dec. 2014を参照）及び不飽和回帰型ユニット（ＮＲＵ）（S. Chandar, C. Sankar, E. Vorontsov, S.E. Kahou, and Y. Bengio, Towards non-saturating recurrent units for modelling long-term dependencies. In Proceedings of the AAAI Conference on Artificial Intelligence, vol. 33, no. 1, pp. 3280-3287, Jul. 2017を参照）が挙げられる。

ＬＳＴＭ、ＧＲＵ、ＮＲＵ及び他の関連する代替の形態はすべて、ネットワークのノード間の接続を構成する方法を提供することによってＲＮＮの訓練における困難性を軽減することを目標とする特定のＲＮＮアーキテクチャである。これらのアーキテクチャは、典型的には、同じサイズのランダムに初期化されたＲＮＮより良い精度レベルになるように訓練する。それにもかかわらず、これらのアーキテクチャは、現在、約１００～５，０００の時間ステップを超えて広がる時間依存性を学習することができず、それにより、これらのアーキテクチャのスケーラビリティは、より長い入力系列に関与する応用に厳しく限定される。従って、時間情報のより長い（すなわち、逐次時系列で１００～５，０００ステップより長い）表現を正確に維持するように訓練することができる改善されたＲＮＮアーキテクチャの必要性が存在し、それにより、提案されるルジャンドルメモリユニット（ＬＭＵ）への動機付けが高まる。

発明の概要
本発明の一実施形態では、ルジャンドルメモリユニット（ＬＭＵ）セルを有する回帰型ニューラルネットワークを生成するための方法であって、回帰型ニューラルネットワークにおける各ノードに対するノード応答関数を定義することであって、ノード応答関数が、経時的な状態を表し、状態が、２値事象又は実数値のうちの１つに符号化され、各ノードが、ノード入力及びノード出力を有する、定義することと、各ノード入力との接続重みのセットを定義することと、各ノード出力との接続重みのセットを定義することと、公式

に基づいてノード接続重みを決定する行列として定義される回帰接続のセットを有する１つ又は複数のＬＭＵセルを定義することであって、式中、

である、定義することとを含む、方法が開示される。式中、ｑは、ユーザによって決定される整数であり、ｉ及びｊは、ゼロ以上である。

本発明の一態様では、入力接続重みのセットは、公式

に基づいてノード接続重みを決定する行列として定義され、式中、ｂ_ｉ＝（２ｉ＋１）（－１）^ｉである。

本発明の別の態様では、ＬＭＵノード接続重みは、方程式ｆ（Ａ；θ，ｔ）に基づいて決定され、式中、ｆは、Ａの関数であり、θは、既定のパラメータであり、ｔは、時間である。

本発明の別の態様では、既定のパラメータは、ユーザによって選択されたもの又はニューラルネットワークにおけるノードの出力を使用して決定されたもののうちの１つである。

本発明の別の態様では、ＬＭＵノード接続重みは、方程式

に基づいて決定され、式中、ｆは、Ａの関数であり、θは、既定のパラメータであり、ｔは、時間であり、Δｔは、既定のパラメータである。

本発明の別の態様では、既定のパラメータの各々は、ユーザによって選択されたもの又はニューラルネットワークの出力を使用して決定されたもののうちの１つである。

本発明の別の態様では、ノード出力からの１つ又は複数の接続重みは、ルジャンドル多項式を評価することによって決定される。

本発明の別の態様では、ＬＭＵセルは積層され、各ＬＭＵセルは、接続重み行列又は別のニューラルネットワークを使用して、次のＬＭＵセルに接続される。

本発明の別の態様では、１つ又は複数のＬＭＵセルは、ＬＳＴＭセル、ＧＲＵセル、ＮＲＵセル、他のＬＭＵセル、多層パーセプトロン、シグモイド層、及び、他の線形又は非線形層から選択された他のネットワークアーキテクチャの入力への接続及び出力からの接続を含む。

本発明の別の態様では、ネットワークは、その多数のパラメータを更新することによって、ニューラルネットワークとして訓練される。

本発明の別の態様では、ネットワークは、１つ又は複数のパラメータを固定しながら、残りのパラメータを更新することによって、ニューラルネットワークとして訓練される。

本発明の別の実施形態によれば、ニューラルネットワークにおけるパターン分類、データ表現又は信号処理用のシステムであって、１つ又は複数の次元のベクトルを提示する１つ又は複数の入力層であって、各次元が、外部の入力によって又はネットワークからの以前の出力を使用することによってネットワークに提供される、１つ又は複数の入力層と、重み行列を介して、入力層、他の中間層又は出力層の少なくとも１つに結合された１つ又は複数の中間層と、入力層で提示されるデータのベクトル表現を生成するか或いはそのデータの関数を１つ若しくは複数の離散時点において又は経時的に連続して演算する１つ又は複数の出力層とを含む、システムであり、本明細書で説明されるように回帰型ニューラルネットワークを生成する、システムが提供される。

本発明の別の実施形態によれば、本明細書で説明されるようにノード接続重みを決定する１つ又は複数の回帰接続を有するハードウェアにおいて実装された回路が提供される。

図面の簡単な説明
本発明は、添付の図面の図に示されており、添付の図面は、制限ではなく、例示的であることが意図され、添付の図面では、同様の参照番号は、同様の又は対応する部分を指すことが意図される。

各層が入力信号のより漸進的なローパスフィルタリングバージョンを符号化するように接続重みを決定するフィードフォワードネットワーク用のソフトウェアにおける実施形態を示す。本発明の実施形態による、各層においてローパスフィルタの効果を取り消すように接続重みを決定する回帰型ネットワーク用のソフトウェアにおける実施形態を示す。六次元回帰及び入力重みに対する連続時間ＬＭＵ方程式を実装する回路の実施形態を示す。本発明の一実施形態による方法を示す。本発明の実施形態を実装することができる例示的なニューラルネットワークの概略図である。

発明の詳細な説明
ここからは、上記の発明を要約して、先行技術との対比及び先行技術に勝る利点をより明示的に説明しながら、ある例示的な及び詳細な実施形態について以下で説明する。

本発明の製品、方法及びシステムの前述の実施形態のいずれにおいても、ハードウェアなどの他の構成を使用できることが当業者には明らかであろう。本明細書が本発明の例示であることや、他の実施形態が当業者に思い当たることが理解されよう。本明細書で引用されるすべての参照は、参照により組み込まれる。

本明細書で説明されるシステム及び方法の実施形態は、ハードウェア若しくはソフトウェア又は両方の組合せにおいて実装することができる。これらの実施形態は、プログラム可能コンピュータ上で実行するコンピュータプログラムにおいて実装することができ、各コンピュータは、少なくとも１つのプロセッサ、データ記憶システム（揮発性メモリ若しくは不揮発性メモリ又は他のデータ記憶要素或いはそれらの組合せを含む）及び少なくとも１つの通信インタフェースを含む。

この発明では、ニューラルネットワークアーキテクチャは、ルジャンドルメモリユニット（ＬＭＵ）方程式を使用して決定された接続重みを用いて訓練されるが、任意選択により、決定された重みを固定したままにしておく。ネットワークは、スパイク又は非スパイク活性化関数を使用することや、他のニューラルネットワークアーキテクチャと積み重ねるか又は回帰結合することや、ソフトウェア及びハードウェアにおいて実装することができる。本発明の実施形態は、スライド時間窓に広がる直交多項式基底関数を使用して演算を行うパターン分類、データ表現及び信号処理用のシステムを提供する。回帰型ニューラルネットワークは、当技術分野でよく知られており、それらの説明及び操作については、この出願では既知であるものと想定される。本発明は、改善された方法及びシステムを提供し、それにより、回帰型ネットワークノード重みは、ルジャンドルメモリユニット（ＬＭＵ）手法及びアルゴリズムを使用して決定される。ＬＭＵ手法が適用された各ノードは、本明細書では、ＬＭＵセルとも呼ばれる。

ＬＭＵセルは、以下の通り定義される。ｑ≧１は、ユーザによって提供される整数とする。

は、ｑ×ｑの正方行列（０≦ｉ，ｊ≦ｑ－１）とし、以下の係数を有する。

各ノードの出力は、以下の通り定義することができる。

は、ｑ×１の行列とし、以下の係数を有する。
ｂ_ｉ＝（２ｉ＋１）（－１）^ｉ

θは、ユーザによって提供されるか又はニューラルネットワークのノードの出力を使用して決定されるパラメータとする。

ｔは、連続時点又は離散時点とする。離散時間の事例の場合、Δｔは、ユーザによって提供されるか又はニューラルネットワークのノードの出力を使用して決定されるパラメータとする。

ＬＭＵ回帰接続は、以下の方程式を評価することによってノード接続重みを決定する。連続時間の事例の場合はｆ（Ａ；θ，ｔ）、又は、離散時間の事例の場合は

、（１）
式中、ｆは、連続時間の事例の場合のθ、ｔによってパラメータ化されるＡの関数であり、関数

は、離散時間の事例の場合のθ、ｔに加えてΔｔによってパラメータ化されるＡの関数である。

ノード入力へのＬＭＵ接続重みは、任意選択により、以下の方程式を評価することによって決定される。連続時間の事例の場合はｇ（Ｂ；θ，ｔ）、又は、離散時間の事例の場合は

、（２）
式中、ｇは、連続時間の事例の場合のθ、ｔによってパラメータ化されるＢの関数であり、関数

は、離散時間の事例の場合のθ、ｔに加えてΔｔによってパラメータ化されるＢの関数である。

ノード出力からのＬＭＵ接続は、任意選択により、ルジャンドル多項式を評価することによって決定される（A.M. Legendre, Recherches sur l’attraction des spheroides homogenes. Memoires de Mathematiques et de Physique, presentes a l’Academie Royale des Sciences, pp. 411-435, 1782を参照）。

回帰接続重みを決定するためのこの手法は、当技術分野では真新しいものであり、以下で論じられるように、改善された回帰型ニューラルネットワークを提供する。

Ａ及びＢ行列の導出
方程式１及び２を導出するため、

は、いくつかのＬＭＵセルによって表される状態ベクトルの何らかのサブセットに相当するものとし、

は、前述のＬＭＵセルに入力として提供されるベクトルの何らかのサブセットに相当するものとする。我々の選択である（Ａ、Ｂ）行列を考慮すると、以下の連続時間力学系が定義される。

この力学系は、状態ｘによって与えられる係数を有する直交ルジャンドル基底を使用した長さθのスライド時間窓にわたるｕのメモリを表す。これにより、他の任意のＲＮＮアーキテクチャでは利用可能ではない演算上の利点が提供される。

ｑ＝６の場合の（Ａ、Ｂ）の例は、以下の通りである。

連続時間回帰及び入力重みの決定の例
次いで、方程式３は、ｑ個の常微分方程式（ＯＤＥ）の以下の連続時間系に相当する。

式中、例えば、回帰重みを決定するために、以下の関数が定義される。

また、入力重みを決定するために、以下の関数が定義される。

離散時間回帰及び入力重みの決定の例
方程式３は、Δｔの時間ステップに離散化されたｑ個のＯＤＥの以下の離散時間力学系に相当し、

式中、例えば、ゼロ次ホールド（ＺＯＨ）（W.L. Brogan, Modern Control Theory. 3rd Edition, Pearson, Oct. 1990を参照）離散化を考慮すると、回帰重みを決定するために、以下の関数が定義され、

方程式１及び２に対する追加の考慮事項
方程式１及び２をそれぞれ評価する際に接続重みを決定するため、ｆ（Ａ；θ，ｔ）又は

及びｇ（Ｂ；θ，ｔ）又は

の他の可能な定義が可能である。それらの例は、これらに限定されないが、微分方程式の数値積分を行い、θをｔ及びΔｔの関数として変換するという代替の方法の使用を含む。

不規則な間隔を有する入力系列（別名、「不均等に離隔された時系列」）は、ニューラルネットワークの入力ノードを使用してΔｔを提供することによってサポートされる。

方程式１又は２の出力が一定である場合（すなわち、そのパラメータのどれも、変数ではなく、ニューラルネットワークのいかなるノードの出力にも依存しない場合）は、方程式１又は２は、１回評価すれば十分である（例えば、重みを初期化するため）。そうでなければ、方程式１又は２は、それらのパラメータが変化した時はいつでも再評価することができる。

出力重みの決定の例
ルジャンドル多項式を使用して１つ又は複数のノードからの出力接続重みを決定するため、例えば、ルジャンドル多項式のシフトに対してロドリゲスの公式（O. Rodrigues, De l’attraction des spheroides, Correspondence sur l’E-cole Imperiale Polytechnique. PhD Thesis, University of Paris, 1816を参照）を使用して、最初のｑ個の多項式を評価することができる：

式中、ｒ∈［０，１］（０≦ｉ≦ｑ－１）であり、Ｐ_ｉは、次数ｉのルジャンドル多項式である。具体的な例を提供するため、以下の特性を述べる。

ｘ_ｉを表すノードから突出する各接続に対し、方程式６を評価してその重みを決定するため、θ’（０≦θ’≦θ）を選択し、次いで、

を設定することができる。より一般的には、ｕのスライド窓の出力ノード近似関数を得るため、これらの多項式のいかなる関数（例えば、フーリエ変換などの積分変換）も演算することができる。

図１及び２を参照すると、θ’＝０を選択することによって層間の出力接続重みを決定するためにこれらの方法が適用されている。この例では、方程式４は、回帰接続重みを決定するために使用され、方程式５は、入力接続重みを決定するために使用される。この例示的な実施形態では、ローパスフィルタを利用して、各層において力学系によって必要とされる積分が実施され、θ’＝０の選択により、各ローパスフィルタによって実行される時間畳み込みが効果的に取り消される。結果的に、これらのＬＭＵ重みを用いることで、システムは、図２に示されるように、その入力信号を最深層まで瞬時に伝播する。この重みの選択なしでは、信号は、図１に示されるように、各層においてより漸進的にローパスフィルタリングされた状態になる。

ニューラルネットワークの訓練
ニューラルネットワークのパラメータは、例えば、通時的誤差逆伝播法（ＢＰＴＴ）（P.J. Werbos, Backpropagation through time: What it does and how to do it. Proceedings of the IEEE, vol. 78, no. 10, pp. 1550-1560, Oct. 1990を参照）など、利用可能な任意の方法を使用して訓練することができる。

訓練の間、方程式１若しくは２又はルジャンドル多項式を評価することによって生成された重みパラメータのうちの１つ又は複数は、固定したまま保つことができる。或いは、方程式１若しくは２又はルジャンドル多項式を評価することによって生成された重みのうちの１つ又は複数は、訓練することができる。いずれの事例でも、ＢＰＴＴを使用する際は、誤差は、接続重みを実装する積和演算を通じて逆伝播することができる。

同様に、方程式１又は２のパラメータ（例えば、θ若しくはΔｔ、又は、θ若しくはΔｔを決定するニューラルネットワークのパラメータ）は、例えば、方程式１又は２の勾配を通じて誤差を逆伝播することによって訓練することもできる（T.Q. Chen, Y. Rubanova, J. Bettencourt, and D.K. Duvenaud, Neural Ordinary Differential Equations. In Advances in Neural Information Processing Systems, pp. 6571-6583, Dec. 2018も参照）。

スパイキング非線形性からなるノードを有するアーキテクチャを訓練するため、スパイキングニューラルネットワークを訓練するための利用可能な任意の方法を使用することができる（E. Hunsberger, C. Eliasmith, Spiking deep networks with LIF neurons, arXiv:1510.08829, Oct. 2015を参照）。

ソフトウェアアーキテクチャ
前述の接続重みを有するニューラルネットワークは、ソフトウェアにおいて実装することができる。方程式１若しくは２又はルジャンドル多項式を評価することによって決定された１つ又は複数の接続重みを有する層は、ＬＭＵセルを作成するためのプログラムコードを使用して実装することができる。これらの層は、他のニューラルネットワークアーキテクチャと回帰結合することができる。また、これらの層は、各層を次の層に接続するために、接続重み又は他のニューラルネットワークを使用することによって積み重ねることもできる。

プログラムコードは、本明細書で説明される関数を実行するため及び出力情報を生成するために、入力データに適用される。出力情報は、公知の様式で１つ又は複数の出力デバイスに適用される。

各プログラムは、コンピュータシステムと通信するために、高レベルの手続き型又はオブジェクト指向プログラミング又はスクリプト言語或いはその両方で実装することができる。或いは、プログラムは、要望に応じて、アセンブリ言語又は機械語で実装することができる。言語は、コンパイラ型又はインタープリタ型言語であり得る。そのようなコンピュータプログラムの各々は、記憶媒体又は記憶装置がコンピュータによって読み取られた際に本明細書で説明される手順を実行するようにコンピュータを構成及び操作するために、汎用又は専用プログラム可能コンピュータによって読み取り可能な記憶媒体又は記憶装置（例えば、読み取り専用メモリ（ＲＯＭ）、磁気ディスク、光ディスク）に格納することができる。また、システムの実施形態は、コンピュータプログラムを有するように構成された非一時的なコンピュータ可読記憶媒体として実装されると考えることもでき、記憶媒体は、本明細書で説明される機能を特定の事前に定義された方法で実行するようにコンピュータに動作させるように構成される。

その上、説明される実施形態のシステム及び方法は、１つ又は複数のプロセッサに対するコンピュータ使用可能命令を有する物理的な非一時的なコンピュータ可読媒体を含むコンピュータプログラム製品において分散させることができる。媒体は、１つ又は複数のディスケット、コンパクトディスク、テープ、チップ、磁気及び電子記憶媒体並びに同様のものを含む、様々な形態で提供することができる。非一時的なコンピュータ可読媒体は、一時的な伝播信号を除く、すべてのコンピュータ可読媒体を含む。非一時的という用語は、格納されるデータがほんの一時的に格納されるものである揮発性メモリ又はランダムアクセスメモリ（ＲＡＭ）などのコンピュータ可読媒体を除外することを意図しない。コンピュータ使用可能命令もまた、コンパイルされている及びコンパイルされていないコードを含む、様々な形態のものであり得る。

図５は、ハードウェア又はソフトウェアにおいて実装することができるニューラルネットワーク５００の概略を示し、入力層５０８、１つ又は複数の中間層５１２及び出力層５１６を有する。入力層は、多数のノード５０８、５３０、５３６を有する。中間層は、中間層でループする回帰ノード５３２を有し、入力重み５１８及び出力重み５２０は、各層のノードを結合する。回帰重みは、中間層のノード内におけるフィードバックループを提供する。出力層は、ノード５３４を有する。入力層への入力は、例えば、外部の入力５０２又は以前の出力からの入力５０４（５２８から導出されたもの）として示される。

ハードウェアアーキテクチャ
前述の接続重みを有するニューラルネットワークは、神経形態学的なデジタル若しくはアナログハードウェア及び／又はそれらのハイブリッドを含む、ハードウェアにおいて実装することができる。より具体的には、このアーキテクチャは、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、グラフィックス処理ユニット（ＧＰＵ）において実装することも、アナログコンポーネント及び他の物理的なプリミティブ（これに限定されないが、トランジスタを含む）の構成及び／又は他の並列コンピューティングシステムを使用して実装することもできる。

図３を参照すると、本発明によるニューラルネットワークを実装する例示的な回路３００が示されており、接続重みは、モジュール３００によって、連続時間の事例においてｑ＝６を用いて方程式１及び２を評価することによって決定される。大きな円は、ｘの各次元に相当する。小さな円は、それらの入力の加算（先端が矢形）又は減算（先端が円形）を行う要素を示す。ｉ番目の次元は、その入力（先端が三角形）を時間積分し、（２ｉ＋１）／θでスケーリングする。

この設計は、２つの総和の連鎖（その後、フィードバックループによって組み合わされるもの）に分解することによって、符号の交互切り替えを活用し、Ａの上三角及び下三角内の中間演算を再利用する。また、これらの同じ演算は、ｕを適切な中間ノードに供給することによって、Ｂの接続重みを実装するために再利用される。

システムの次元を１つ増加するには、Ｏ（１）ワイヤ、加算器及び状態変数を既存の回路構成に追加する必要がある。合計では、この回路は、Ｏ（ｑ）ワイヤ、加算器及び状態変数を必要とし、従って、回路は、空間と時間の両方において線形にスケーラブルなものになる。

シミュレーション結果
等しいリソース使用量で積層ＬＭＵに対して積層ＬＳＴＭのメモリ容量を評価するように設計された実験のセットについて考慮する。この場合、積層ＬＳＴＭの既製のKeras実装形態が使用され、各々が５０個のセルを有する３つの層が構築される。各層は、次の層と完全に接続され、すべてのデフォルト設定（例えば、ｔａｎｈ活性化）を使用する。最終層は、同様に、各出力に対するｔａｎｈ活性化ユニットからなる。連続時間メモリ容量を評価するため、入力データは、白色雑音であり、３０Ｈｚに帯域制限され（０から始まる）、［－１，１］の絶対範囲に正規化される。出力データは、０～０．２ｓの遅延入力の均等配置を表す５０次元のベクトルである。データセットは、２５６のサンプルからなり、各々は、１ｓの長さを有する。このデータは、５０％訓練と５０％テストにランダムに区分化される。訓練データは、訓練中の検定精度を報告するために使用される別個のランダムな２５％サンプルにさらに区分化される。通時的誤差逆伝播法は、平均二乗誤差（ＭＳＥ）損失関数に関するアダムオプティマイザを使用して行われる。訓練は、４つのNvidia Titan Xp GPU（各々が１２ＧＢ）にわたってKeras及びTensorFlowを使用して並列化される。

２ｍｓの時間ステップの場合、誤差逆伝播法は、このタスクを解くために適切なパラメータを見つけられることが見出された。すなわち、ＬＳＴＭは、実際に、約１０％の正規化された二乗平均平方根誤差（ＮＲＭＳＥ）でθ＝１００の時間ステップからなる全遅延間隔を正確に表すことができる。しかし、２００μｓまで一桁分だけ時間ステップを減少させる一方で、データが依然として全く同じ１ｓの信号を表すように同じ分だけデータの長さを増加させた後は、その性能は崩壊する。すなわち、精度は、θ＝１，０００の時間ステップウィンドウにわたって遅延長さの関数として指数関数的に低下する。最悪の事例では、ＬＳＴＭは、約１００％のＮＲＭＳＥで、偶然に等しい確率で動作する。従って、歴史的に最も成功したＲＮＮアーキテクチャでさえ、ますます長さを増す時間窓を表せないことは明確であり、それにより、より能力が高いＲＮＮアーキテクチャの必要性への動機付けが高まる。

次いで、全く同じ訓練コード及びネットワーク仕様が取り入れられ（ただし、各ＬＳＴＭセルはＬＭＵセルの層と置き換えられる）、連続時間の事例の場合の（Ａ、Ｂ）行列が使用される（システムの離散化のためにオイラー法を使用することと同等）。これらの行列は、同じ層内の各セルにわたって共有される（畳み込み型ニューラルネットワークにおける重み共有に似ている）。最後に、同じ層にわたるすべての状態変数から入力を受信する多数のｔａｎｈ非線形性（各セルに１つずつ）が含められ、従って、スケーリングされたルジャンドルベースの混合にわたって非線形演算がサポートされる。小さなｑ値（例えば、９）の場合、このネットワークは、前述のＬＳＴＭと同程度のリソース要件を有する。

各ＬＭＵセルは、一次元の入力を受信する。訓練可能パラメータは、層間の重み及び各セル内の遅延長さθである。この実験では、共有された（Ａ、Ｂ）重みの訓練は無効化される。ＬＭＵは３回積層された５０個のセルを含むため、アーキテクチャ全体は、ＬＳＴＭと一致している。最終出力層は、この時点でｔａｎｈは既に適用されているため、線形活性化ユニットからなる。最後に、ｑ＝９が設定され、各セルの符号化重みが第１の層に対しては１に及び後続のすべての層に対しては１／５０に初期化され（すなわち、ファンインの逆数）、θ値がＵ［１００，１０００］にわたって均等に分散され、セル外からの他のすべての状態変数に対してはゼロ重みを用いて、ｒ＝１におけるルジャンドル多項式を評価することによって、各ｔａｎｈに対して予想される重みが設定される。言い換えれば、各セルは、ｔａｎｈ（ｕ［ｔ－θ］）に近づけるように初期化され、式中、ｕ［・］は、セルの平均入力である。次いで、誤差逆伝播法は、θの値を訓練し、層間の入力と出力の重み付き非線形結合の混合を学習する。

全く同じデータ訓練、検定及びテストにおいて全く同じコード及び分析を実行することにより、２つの手法間の訓練時間の劇的な違いが明らかになる。積層ＬＳＴＭの場合の１エポックあたり１０２．６ｓと比べて、積層ＬＭＵは、訓練に１エポックあたり５２．５ｓ要することが見出された。その上、ＬＭＵは、精度のあらゆる尺度においてＬＳＴＭより優れた働きをする。具体的には、訓練と検定の両方にわたってＭＳＥが３桁低減すると同時に、理想解にはるかに急速に収束する。ＬＭＵアーキテクチャは、遅延間隔にわたって一貫した３～４％の誤差を達成する一方で、同等にサイズ指定されたＬＳＴＭセルアーキテクチャは、ウィンドウの終了に向けて１００％の誤差率に達する。これにより、積層ＬＳＴＭは、長い時間間隔にわたる低周波数信号（時間ステップに対して）の記憶に悪戦苦闘することが示される。対照的には、このタスクは、積層ＬＭＵにとっては自然なことであるが、その理由は、その状態が入力の歴史のｑ次ルジャンドル展開を表すためである。

誤差逆伝播法により、積層ＬＭＵは、ネットワークの初期の構成によるサポートが容易ではないタスクにおいてさえ、積層ＬＳＴＭより優れた働きをすることができる。連続時間予測タスクにおける各ネットワークの性能を評価するため、非線形遅延微分方程式によって説明されるカオス時系列であるマッキーグラス（ＭＧ）と呼ばれる合成データセットが考慮される。ＭＧデータは、τ＝１７の離散時間遅延を使用して生成される（各時間ステップは、時間の１単位である）。所望の出力は、先立った１５の時間ステップの先見（予測）である（図６．１５を参照）。これは、最初の１００のステップ過渡を取り除いた後、５，０００の時間ステップでシミュレーションされる。これは、１２８回繰り返され、毎回、初期のランダム条件から始まる。次いで、データセット全体は、ゼロのグローバル平均を有するように集められる。次に、データセットは、３２個の訓練例、３２個の検定例及び６４個のテスト例にランダムに分割される。

以前の実験から同じネットワークが使用されるが、各々が１００個のセルを含む４つの層を有するものが使用される。ＬＭＵセルに対し、すべてのパラメータが訓練可能になる（同じ層内のセルにわたって共有されるＡ、Ｂ行列を含む）。ｑ＝６が設定され、このデータセットのより短い時間スケールを説明するために、θ∈Ｕ［２５，５０］が初期化される。残りの重みは、標準のKeras重み初期化子を使用して初期化される。３つの方法はすべて、アダムオプティマイザを使用して、５００エポックにわたって訓練される。この事例では、過学習を最小限に抑えるため、最高の検定スコアを有するエポックからのモデルのみが維持される。

テスト性能及び訓練時間は、次の通り要約される。ＬＳＴＭは、２８２，１０１のパラメータを使用して７．０８４％の誤差を達成する一方で、１訓練エポックあたり５０．０秒要する。ＬＭＵは、２７０，７６９のパラメータを使用して６．７８３％の誤差を達成する一方で、１訓練エポックあたり３０．５秒要する。従って、ＬＭＵは、精度及び訓練時間においてＬＳＴＭより優れた働きをする。この理由は、ＬＭＵがその六次元の状態内の遅延埋め込みをより容易にサポートするためであることが断定される。その上、ＬＭＵは、より長い連続時間間隔にわたる、より低い周波数に対する時間の経過に伴うスケーリングの改善を提供する。

例示的な応用
これらの方法は、ハードウェア及びソフトウェアにおけるパターン分類、データ表現又は信号処理のためにニューラルネットワークを使用するシステムを生成するために使用することができる。

例えば、自動音声認識（ＡＳＲ）は、音声を処理し（オーディオ入力波形として）、テキストを生成する（モデル出力として）コンピュータ音声認識用のシステムである。入力は、オーディオ特徴に事前処理し（例えば、メル周波数ケプストラム係数、フィルタバンク係数及び特徴空間最尤線形回帰係数、M. Ravanelli, T. Parcollet, and Y. Bengio, The pytorch-kaldi speech recognition toolkit. In International Conference on Acoustics, Speech and Signal Processing, IEEE, pp. 6465-6469, May, 2019を参照）、ＬＭＵセル方程式を使用して決定される接続重みを有する層からなるニューラルネットワークに提供することができ、ニューラルネットワークの出力ノードは、テキストを生成するための利用可能な方法（例えば、コンテキストビームサーチ）を使用して事後処理される。従って、このシステムは、ＡＳＲシステムを構築するためのニューラルネットワークとして訓練することができる。

別の例を提供するため、データセットにおける異常値又は「異常」の識別である異常検出への応用が考慮される。このデータは、ＬＭＵセル方程式を使用して決定される接続重みを有する層からなるニューラルネットワークに、一度に１つの入力ベクトルを順次提供することができ、ニューラルネットワークの出力ノードは、典型的なもの又は異常なものとして入力を分類する。従って、このシステムは、異常検出器を構築するための利用可能な方法を使用して（例えば、教師なし、半教師あり又は完全教師あり学習規則を使用して）訓練することができる。

Claims

ルジャンドルメモリユニット（ＬＭＵ）セルを有する回帰型ニューラルネットワークを生成するための方法であって、
前記回帰型ニューラルネットワークにおける各ノードに対するノード応答関数を定義することであって、前記ノード応答関数が、経時的な状態を表し、前記状態が、２値事象又は実数値のうちの１つに符号化され、各ノードが、ノード入力及びノード出力を有する、定義することと、
各ノード入力との接続重みのセットを定義することと、
各ノード出力との接続重みのセットを定義することと、
公式

に基づいてノード接続重みを決定する行列として定義される回帰接続のセットを有する１つ又は複数のＬＭＵセルを定義することであって、式中、

であり、ｑが、ユーザによって決定される整数であり、ｉ及びｊが、ゼロ以上である、定義することと
を含む、方法。
前記入力接続重みのセットが、公式

に基づいてノード接続重みを決定する行列として定義され、式中、ｂ_ｉ＝（２ｉ＋１）（－１）^ｉである、請求項１に記載の方法。
前記ＬＭＵノード接続重みが、方程式ｆ（Ａ：θ，ｔ）に基づいて決定され、式中、ｆが、Ａの関数であり、θが、既定のパラメータであり、ｔが、時間である、請求項１に記載の方法。
前記既定のパラメータが、ユーザによって選択されたもの又は前記ニューラルネットワークにおけるノードの前記出力を使用して決定されたもののうちの１つである、請求項３に記載の方法。
前記ＬＭＵノード接続重みが、方程式

に基づいて決定され、式中、

が、Ａの関数であり、θが、既定のパラメータであり、ｔが、時間であり、Δｔが、既定のパラメータである、請求項１に記載の方法。
前記既定のパラメータの各々が、ユーザによって選択されたもの又は前記ニューラルネットワークにおけるノードの前記出力を使用して決定されたもののうちの１つである、請求項５に記載の方法。
ノード出力からの１つ又は複数の接続重みが、ルジャンドル多項式を評価することによって決定される、請求項１に記載の方法。
前記ＬＭＵセルが積層され、各ＬＭＵセルが、接続重み行列又は別のニューラルネットワークのどちらかを使用して、次のＬＭＵセルに接続される、請求項１に記載の方法。
１つ又は複数のＬＭＵセルが、ＬＳＴＭセル、ＧＲＵセル、ＮＲＵセル、他のＬＭＵセル、多層パーセプトロン、シグモイド層、及び、他の線形又は非線形層から選択された他のネットワークアーキテクチャの前記入力への接続及び前記出力からの接続を含む、請求項１に記載の方法。
前記ネットワークが、その多数のパラメータを更新することによって、ニューラルネットワークとして訓練される、請求項１に記載の方法。
前記ネットワークが、１つ又は複数のパラメータを固定しながら、残りのパラメータを更新することによって、ニューラルネットワークとして訓練される、請求項１に記載の方法。
ニューラルネットワークにおけるパターン分類、データ表現又は信号処理用のシステムであって、
－１つ又は複数の次元のベクトルを提示する１つ又は複数の入力層であって、各次元が、外部の入力又は前記ネットワークからの以前の出力を使用することのどちらかによって前記ネットワークに提供される、１つ又は複数の入力層と、
－重み行列を介して、前記入力層、他の中間層又は出力層の少なくとも１つに結合された１つ又は複数の中間層と、
－前記入力層で提示される前記データのベクトル表現を生成するか或いはそのデータの関数を１つ若しくは複数の離散時点において又は経時的に連続して演算する１つ又は複数の出力層と
を含む、システムであり、
請求項１に記載の方法を使用して回帰型ニューラルネットワークを生成する、システム。
請求項１に記載の方法を使用してノード接続重みを決定する１つ又は複数の回帰接続を有するハードウェアにおいて実装された回路。
ノード出力からの１つ又は複数の接続重みが、ルジャンドル多項式を評価することによって決定される、請求項１３に記載の回路。