JP7357080B2

JP7357080B2 - Ｒｐｕアレイのためのノイズおよび信号管理

Info

Publication number: JP7357080B2
Application number: JP2021569493A
Authority: JP
Inventors: ヨハネスラッシュ、マルテ; ゴクメン、タイフン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-05-31
Filing date: 2020-04-09
Publication date: 2023-10-05
Anticipated expiration: 2040-04-09
Also published as: JP2022534380A; CN113841164A; GB2597232B; CN113841164B; DE112020002547T5; GB2597232A; WO2020240288A1; US11361218B2; GB202116922D0; US20200380348A1

Description

本発明は、抵抗処理ユニット（ＲＰＵ）デバイスのアナログ・クロスポイント・アレイを有する人工ニューラル・ネットワーク（ＡＮＮ）のトレーニングに関し、より詳細には、ＡＮＮのトレーニング中のＲＰＵアレイのための高度なノイズおよび信号管理技術に関する。

人工ニューラル・ネットワーク（ＡＮＮ）は、Gokmenらによる「Resistive Processing Unit」と題された米国特許出願公開第２０１７／０１０９６２８号に記載されている抵抗処理ユニット（ＲＰＵ）などの抵抗デバイスのアナログ・クロスポイント・アレイで具現化することができる。本文献に記載されているように、各ＲＰＵは、第１の端子、第２の端子、および活性領域を含む。活性領域のコンダクタンス状態は、第１／第２の端子に信号を印加することによって更新／調整することができるＲＰＵの重み値を識別する。

ＡＮＮベースのモデルは、物体および音声の認識ならびに自然言語処理などの、様々な異なる認知ベースのタスクに使用されてきた。例えば、Gokmenらの「Training Deep Convolutional Neural Networks with Resistive Cross-point Devices」、Frontiers in Neuroscience、vol.11、article 538(October 2017)(13 pages)を参照されたい。ニューラル・ネットワークのトレーニングは、このようなタスクを実行するときに高レベルの精度を提供するために必要とされる。

しかしながら、ＲＰＵアレイで実行されるベクトル－行列乗算演算は、本質的にアナログであるため、様々なノイズ源となりやすい。ＲＰＵアレイへの入力値が小さい場合（逆方向サイクル・パスなど）、出力信号ｙがノイズに埋もれてしまい、誤った結果が生成される可能性がある（すなわち、ｙ＝Ｗ．δ＋「ノイズ」、Ｗ．δ≪「ノイズ」）。例えば、Gokmenらによる「Noise and Bound Management for RPU Array」と題された米国特許出願公開第２０１８／０２９３２０９号を参照されたい。アナログ・ノイズが要因となって、このようなアナログのＲＰＵアレイを用いた正確なＡＮＮのトレーニングは、困難である。

したがって、ＡＮＮのトレーニング中のアナログ・ノイズの影響を最小限に抑えるための技術が望ましい。

本発明は、人工ニューラル・ネットワーク（ＡＮＮ）のトレーニング中の抵抗処理ユニット（ＲＰＵ）アレイのための高度なノイズおよび信号管理技術を提供する。本発明の一態様では、ノイズおよび信号管理を伴うＡＮＮのトレーニングのための方法が提供される。本方法は、ＲＰＵデバイスのアレイに、アレイへの入力ベクトルｘのｎ個の要素のサイズｇの集合群を処理するように構成された事前正規化器、およびアレイからの出力ベクトルｙのｍ個の要素のサイズｇの集合群を処理するように構成された事後正規化器を提供することであって、アレイがｍ行ｎ列を有するＡＮＮの重み行列Ｗを表し、重み行列Ｗの重み値ｗがＲＰＵデバイスの抵抗値として記憶される、提供することと、事前正規化器のそれぞれの集合群に属する入力ベクトルｘのすべての要素の平均μおよび標準偏差σをＮ個のベクトルにわたって計算し、事前正規化器に対する現在の平均μおよび標準偏差σの値を生成することであって、平均μおよび標準偏差σがＮ×ｇ個の入力値に対して計算される、生成することと、事前正規化器に対する前回記憶された平均μおよび標準偏差σの値を割引係数αならびに事前正規化器に対する現在の平均μおよび標準偏差σの値で更新し、事前正規化器に対する更新され記憶された平均μおよび標準偏差σの値を生成することと、事前正規化器に対する更新され記憶された平均μおよび標準偏差σの値を使用してＮ×ｇ個の入力値を事前正規化し、すべての事前正規化器からＮ個の正規化された入力ベクトルｘ_ｎｏｒｍを生成して、アレイを通る順方向サイクル・パスにおいてアナログ・ノイズを伴うＷ＊ｘ_ｎｏｒｍを計算することと、事後正規化器のそれぞれの集合群に属する出力ベクトルｙのすべての要素の平均μおよび標準偏差σをＮ個のベクトルにわたって計算し、事後正規化器に対する現在の平均μおよび標準偏差σの値を生成することであって、平均μおよび標準偏差σがＮ×ｇ個の出力値に対して計算される、生成することと、事後正規化器に対する前回記憶された平均μおよび標準偏差σの値を割引係数αならびに事後正規化器に対する現在の平均μおよび標準偏差σの値で更新し、事後正規化器に対する更新され記憶された平均μおよび標準偏差σの値を生成することと、事後正規化器に対する更新され記憶された平均μおよび標準偏差σの値を使用してＮ×ｇ個の出力値を事後正規化し、すべての事後正規化器からＮ個の正規化された出力ベクトルｙ_ｎｏｒｍを生成することと、前回の標準偏差σを使用してＮ個の入力ベクトルｄを変換し、Ｎ個の変換された入力ベクトルｄ_ｎｏｒｍを生成して、アレイを通る逆方向サイクル・パスにおいてアナログ・ノイズを伴うＷ^Ｔ＊ｄ_ｎｏｒｍを計算することと、事前正規化器に対する前回の標準偏差σを使用してＮ個の出力ベクトルｄ’を変換して、Ｎ個の変換された出力ベクトルｄ’_ｎｏｒｍを生成することとを含む。

本発明のより完全な理解、ならびに本発明のさらなる特徴および利点は、以下の詳細な説明および図面を参照することによって得られるであろう。

本発明の実施形態による、抵抗処理ユニット（ＲＰＵ）デバイスのアナログ・クロスポイント・アレイで具現化された人工ニューラル・ネットワーク（ＡＮＮ）を示す図である。本発明の実施形態による、ノイズおよび信号管理を伴うＡＮＮのトレーニングのための例示的な方法２００の初期化フェーズと、トレーニング・フェーズの順方向サイクル・パスとを示す図である。（図２Ａから続く）本発明の実施形態による例示的な方法２００のトレーニング・フェーズの逆方向サイクル・パスを示す図である。（図２Ｂから続く）本発明の実施形態による例示的な方法２００のトレーニング・フェーズの逆方向サイクル・パスの続きと、更新パスとを示す図である。本発明の実施形態に従って方法２００を実施することができる、事前正規化器および事後正規化器を有する例示的なＲＰＵアレイを示す図である。本発明の実施形態による本技術の１つまたは複数を実行する際に用いることができる例示的な装置を示す図である。

上で強調したように、アナログ抵抗処理ユニット（ＲＰＵ）アレイなどのアナログ抵抗クロスバー・アレイを用いた人工ニューラル・ネットワーク（ＡＮＮ）のトレーニングは、アナログ・ノイズのために困難である。さらに、トレーニング・プロセスは、アレイに使用されるアナログ・デジタル変換器（ＡＤＣ）およびデジタル・アナログ変換器（ＤＡＣ）の有界範囲によって制限される。すなわち、以下で詳細に説明するように、ＤＡＣおよびＡＤＣは、ＲＰＵへのデジタル入力をアナログ信号に変換し、ＲＰＵからの出力を変換してデジタル信号に戻すためにそれぞれ使用される。

有利には、本明細書では、これらのノイズおよび信号限界の制限を克服するために、入力および出力をそれに応じて正規化するための技術が提供される。例えば、以下で詳細に説明するように、ＲＰＵアレイへの入力の正規化（すなわち、平均および分散をゼロにすること）は、複数の入力値または入力値の集合あるいはその両方にわたって平均および分散を計算し記憶して、移動平均方式で平均および分散を更新することによって実行される。

上述したように、ＡＮＮは、ＲＰＵデバイスのアナログ・クロスポイント・アレイで具現化することができる。例えば、図１を参照されたい。図１に示すように、アルゴリズム的な（抽象的な）重み行列１００の各パラメータ（重みｗ_ｉｊ）は、ハードウェア上の単一のＲＰＵデバイス（ＲＰＵ_ｉｊ）、すなわち、ＲＰＵデバイスの物理的なクロスポイント・アレイ１０２にマッピングされる。クロスポイント・アレイ１０２は、一連の導電性行ワイヤ１０４と、導電性行ワイヤ１０４に直交し、交差するように配向された一連の導電性列ワイヤ１０６とを有する。導電性行ワイヤ１０４と列ワイヤ１０６との交点は、ＲＰＵデバイス１０８によって分離され、ＲＰＵデバイス１０８のクロスポイント・アレイ１０２を形成する。米国特許出願公開第２０１７／０１０９６２８号に記載されているように、各ＲＰＵデバイス１０８は、第１の端子、第２の端子、および活性領域を含むことができる。活性領域の導通状態は、ＲＰＵデバイス１０８の重み値を識別し、この重み値が、第１／第２の端子に信号を印加することによって更新／調整され得る。さらに、３端子（またはさらに多くの端子）デバイスは、余分な端子を制御することによって、２端子抵抗メモリ・デバイスとして効果的に機能することができる。３端子ＲＰＵデバイスの説明については、例えば、Kimらの「Analog CMOS-based Resistive Processing Unit for Deep Neural Network Training」、2017 IEEE 60th International Midwest Symposium on Circuits and Systems (MWACAS)、(August 2017)(4 pages)を参照されたい。

各ＲＰＵデバイス１０８（ＲＰＵ_ｉｊ）は、クロスポイント・アレイ１０２のその位置（すなわち、ｉ番目の行およびｊ番目の列）に基づいて一意に識別される。例えば、クロスポイント・アレイ１０２の上から下へ、そして左から右へと進んで、第１の導電性行ワイヤ１０４と第１の導電性列ワイヤ１０６との交点にあるＲＰＵデバイス１０８は、ＲＰＵ_１１として示され、第１の導電性行ワイヤ１０４と第２の導電性列ワイヤ１０６との交点にあるＲＰＵデバイス１０８は、ＲＰＵ_１２として示され、以下同様である。クロスポイント・アレイ１０２のＲＰＵデバイス１０８への重み行列１００の重みパラメータのマッピングは、同じ規則に従う。例えば、重み行列１００の重みｗ_ｉ１は、クロスポイント・アレイ１０２のＲＰＵ_ｉ１にマッピングされ、重み行列１００の重みｗ_ｉ２は、クロスポイント・アレイ１０２のＲＰＵ_ｉ２にマッピングされ、以下同様である。

クロスポイント・アレイ１０２のＲＰＵデバイス１０８は、ＡＮＮのニューロン間の重み付けされた接続として機能する。ＲＰＵデバイス１０８の抵抗は、個々の導電性行ワイヤ１０４と列ワイヤ１０６との間に印加される電圧を制御することによって変更することができる。抵抗を変更することは、例えば、高抵抗状態または低抵抗状態に基づいて、ＲＰＵデバイス１０８にデータをどのように記憶するかである。ＲＰＵデバイス１０８の抵抗状態は、電圧を印加して、ターゲットＲＰＵデバイス１０８を通過する電流を測定することによって読み取られる。重みに関わるすべての操作は、ＲＰＵデバイス１０８によって完全に並列に実行される。

機械学習および認知科学では、ＡＮＮベースのモデルは、動物、特に脳の生物学的ニューラル・ネットワークに着想を得た統計的学習モデルのファミリである。これらのモデルを使用して、一般に未知である多数の入力および接続の重みに依存するシステムならびに認知機能を推定または近似することができる。ＡＮＮは、しばしば、電子信号の形態で相互に「メッセージ」を交換するシミュレートされた「ニューロン」として働く相互接続されたプロセッサ要素のいわゆる「ニューロモーフィック」システムとして具現化される。シミュレートされたニューロン間で電子メッセージを伝達するＡＮＮの接続には、所与の接続の強弱に対応した数値重みが与えられる。これらの数値重みは、経験に基づいて調整およびチューニングすることができ、ＡＮＮを入力に適応させ、学習可能にする。例えば、手書き認識用のＡＮＮは、入力画像のピクセルによって活性化され得る入力ニューロンのセットによって定義される。ネットワークの設計者によって決定された関数によって重み付けおよび変換された後、これらの入力ニューロンの活性化は、他の下流ニューロンに渡される。このプロセスは、出力ニューロンが活性化されるまで繰り返される。活性化された出力ニューロンは、どの文字が読み取られたかを決定する。

以下でさらに詳細に説明するように、ＡＮＮは、増分勾配降下法または確率的勾配降下法（ＳＧＤ）プロセスを用いてトレーニングすることができ、本プロセスでは、各パラメータ（重みｗ_ｉｊ）の誤差勾配が逆伝播を使用して計算される。例えば、Rumelhartらの「Learning representations by back-propagating errors」、Nature 323、pp.533-536(October 1986)を参照されたい。逆伝播は、順方向サイクル、逆方向サイクル、および重み更新サイクルの３つのサイクルで実行され、これらのサイクルは、収束基準が満たされるまで複数回繰り返される。

ＡＮＮベースのモデルは、複数の処理層で構成され、複数の抽象度でデータの表現を学習する。例えば、LeCunらの、「Deep Learning」、Nature 521、pp.436-444 (May 2015)を参照されたい。Ｎ個の入力ニューロンがＭ個の出力ニューロンに接続されている単一の処理層の場合、順方向サイクルは、ベクトル－行列乗算（ｙ＝Ｗｘ）を計算することを含み、長さＮのベクトルｘが入力ニューロンの活動を表し、サイズＭ×Ｎの行列Ｗが入力ニューロンと出力ニューロンの各ペア間の重み値を記憶する。結果として得られる長さＭのベクトルｙは、抵抗メモリ素子のそれぞれに対して非線形活性化を行うことによってさらに処理され、次いで次の層に渡される。

情報が最終出力層に到達すると、逆方向サイクルは、誤差信号を計算し、ＡＮＮを通して誤差信号を逆伝播することを含む。単一層での逆方向サイクルはまた、重み行列の（各行と対応する列を入れ替える）転置に対するベクトル－行列乗算（ｚ＝Ｗ^Ｔδ）を含み、長さＭのベクトルδは、出力ニューロンによって計算された誤差を表し、長さＮのベクトルｚは、ニューロンの非線形性の微分を使用してさらに処理された後、前の層に渡される。

最後に、重み更新サイクルにおいて、重み行列Ｗが、順方向サイクルおよび逆方向サイクルで使用された２つのベクトルの外積を実行することによって更新される。２つのベクトルのこの外積は、しばしば、Ｗ←Ｗ＋η（δｘ^Ｔ）として表され、ここで、ηはグローバルな学習率である。

この逆伝播プロセス中に重み行列Ｗに対して実行される演算のすべては、対応する数のｍ行ｎ列を有するＲＰＵデバイス１０８のクロスポイント・アレイ１０２を用いて実施することができ、クロスポイント・アレイ１０２内の記憶されたコンダクタンス値が行列Ｗを形成する。順方向サイクルでは、入力ベクトルｘが導電性列ワイヤ１０６のそれぞれを通して電圧パルスとして伝達され、結果として得られるベクトルｙが導電性行ワイヤ１０４からの電流出力として読み取られる。同様に、電圧パルスが逆方向サイクルへの入力として導電性行ワイヤ１０４から供給されると、重み行列の転置Ｗ^Ｔに対してベクトル－行列乗算が計算される。最後に、更新サイクルにおいて、ベクトルｘおよびδを表す電圧パルスが、導電性列ワイヤ１０６および導電性行ワイヤ１０４から同時に供給される。このように、各ＲＰＵデバイス１０８は、対応する導電性列ワイヤ１０６および導電性行ワイヤ１０４から来る電圧パルスを処理することによって局所的な乗算および加算演算を実行し、これにより、増分的な重み更新を達成する。

上述したように、ＲＰＵアレイで実行される演算は、本質的にアナログであるため、様々なノイズ源となりやすい。例えば、Gokmenらによる「Noise and Bound Management for RPU Array」と題された米国特許出願公開第２０１８／０２９３２０９号を参照されたい。

米国特許出願公開第２０１８／０２９３２０９号に記載されているようなノイズ管理手法では、出力ノイズ振幅はσｍａｘ（｜（ｘ_ｉ）｜）のオーダであり、ここで、σ（シグマ）は、ＲＰＵアレイのアナログ・ノイズの標準偏差である。ＲＰＵアレイのさらなる詳細については、例えば、Gokmenに交付された「Convolutional Neural Networks Using Resistive Processing Unit Array」と題された米国特許第９，６４６，２４３号を参照されたい。

ＲＰＵアレイ計算の信号対雑音比（ＳＮＲ）は、近似的に以下の通りである。

なぜならば、｜｜ｙ｜｜∝｜｜Ｗ｜｜｜｜ｘ｜｜であるからである。したがって、確率的勾配降下法プロセスによってＳＮＲを改善する仕方は、ＡＮＮ学習中に（出力限界または重み限界に達するまで）重みを増加させることである。

しかしながら、このようにして重みを増加させることには、いくつかの顕著な欠点がある。例えば、ＲＰＵデバイス自体、ＡＮＮのトレーニングに使用することができる重み範囲が限られている。すなわち、ＲＰＵデバイスの重み範囲（抵抗値）は、限定された有限の状態分解能を有する有界範囲に制限される。ＲＰＵデバイスでは、（ゲインを単にコード化するための）状態の数も制限されている。さらに、多くの更新が必要になる場合があり、そうすると、ドリフトが望ましくないほど加速する可能性がある。特に重みがゼロに減衰／ドリフトする場合、大きな重みを維持することに関連した高いコストも（必要な更新の回数という点で）かかる。

また、畳み込みニューラル・ネットワークでは、重み行列の複数の行が異なる出力特徴（チャネル）をコード化し、１つの行（入力）が複数の入力チャネルを含む。出力チャネルｉ当たりのＳＮＲは、以下の通りである。

したがって、（逆方向サイクル・パスの場合など）出力信号が小さな｜ｙ_ｉ｜である場合、（すべての入力に対して絶対最大値で単に除算する）ノイズ管理は、高振幅入力チャネルの方に偏る可能性があり、ほとんどの低振幅入力は、抑制され、ノイズ・フロアに埋もれてしまう。

有利なことに、本技術は、複数の入力値または入力値の集合あるいはその両方にわたって平均および分散を計算して記憶し、移動平均方式で平均および分散を更新して、ＲＰＵアレイへの入力を正規化する（例えば、平均および分散をゼロにする）ことによって、これらのノイズおよび信号限界の制限を克服する。例えば、ノイズおよび信号管理を伴うＡＮＮのトレーニングについては、図２Ａ～図２Ｃの方法２００を参照されたい。

図２Ａ～図２Ｃに示すように、方法２００は、初期化フェーズと、それに続く順方向サイクル・パス、逆方向サイクル・パス、および重み更新パスを有するトレーニング・フェーズとを有する。ＲＰＵアレイは、ｍ行ｎ列を有するＡＮＮの重み行列Ｗを表すために使用される。例えば、図３のＲＰＵアレイ３００を参照されたい。上記の図１の説明に関連して説明したように、重み行列Ｗの重み値ｗは、アレイ３００内のＲＰＵデバイス（「ＲＰＵ」とラベル付けされている）の抵抗値として記憶される。図３に示すように、正規化器は、アレイ３００への各入力に対して（「各入力に対する正規化器」とラベル付けされて）提供され、本明細書では「事前正規化器」とも呼ばれ、同様にアレイ３００からの各出力に対して（「各出力に対する正規化器」とラベル付けされて）提供され、本明細書では「事後正規化器」とも呼ばれる。例示的な実施形態によると、事前正規化器および事後正規化器は、ＲＰＵアレイの外部のハードウェア、例えば、以下の図４の説明に関連して説明される装置４００などによって制御され、これにより、事前正規化器および事後正規化器は、データを交換することができる。

一般に、各入力信号の事前正規化は、以下のように表すことができる。

また、各出力信号の事後正規化は、以下のように表すことができる。

上で強調したように、また以下で詳細に説明するように、（事前／事後）正規化器ｉの平均μ_ｉ（ミュー）および分散（すなわち、標準偏差）σ_ｉ（シグマ）の値は、入力

（ｔは現在の反復／バッチである）の何らかの（リーキー（ｌｅａｋｙ）な）移動平均によって推定され、ここで、

は、以下の１）、２）または３）あるいはその組合せのいずれかである。１）単一の現在の入力。

ここで、整数ａ≦０である。２）単一の入力からの値のバッチであるが、先行する時間ステップを含む。

ここで整数ａ≦０かつｂ≦ａである。３）μ_ｉ、σ_ｉが入力群によって共有されている場合、

は、共有された入力群の入力バッチのすべてを含み、例えば、

であり、これは、入力１および２がグルーピングされている場合である。上記の式１０～１２において、事後正規化器のμおよびσに対しては、ｘがｙ’に置き換えられる。

各パラメータμ_ｉは、

に従って、周期的に（例えば、ａ－ｂ時間ステップごとに１回）更新され、ここで、

は

の平均を示す。量σ_ｉも、同じデータ集合

を使用するが、

および

（ここでε≧０）を計算して周期的に（例えば、ａ－ｂ時間ステップごとに１回）更新される。αおよびβは、事前正規化器側および事後正規化器側のすべての正規化器間で共有されるパラメータであるが、事前正規化器と事後正規化器とでは異なる可能性がある。特に断らない限り、βは、１－αで与えられる。

方法２００を参照すると、図２Ａに示すように、初期化フェーズは、ステップ２０２において、ｎ^ｐｒｅ（０とｎ個の入力値との間の整数）個の事前正規化器（図３を参照）をすべて初期化して、それらのそれぞれの記憶されたμ（ミュー）値を０に設定し、それらのそれぞれの記憶されたσ（シグマ）値を１に設定し、ｍ^ｐｏｓｔ（０とｍ個の出力値との間の整数）個の事後正規化器（図３を参照）をすべて初期化して、それらのそれぞれの記憶されたμ値を０に設定し、それらのそれぞれの記憶されたσ値を１に設定することによって開始する。

任意選択で、ステップ２０４において、事前正規化器をすべて初期化して、それらのそれぞれの記憶された（移動平均係数）ν（ニュー）値を０に設定し、それらのそれぞれの記憶された（相互相関係数）Δ（デルタ）値を１に設定し、事後正規化器をすべて初期化して、それらのそれぞれの記憶されたν値を０に設定し、それらのそれぞれの記憶されたΔ値を１に設定する。ステップ２０４は、逆方向サイクル・パス・タイプａ）またはｂ）のどちらが選択されるかに依存するため、任意選択である（以下参照）。例えば、事前正規化器および事後正規化器におけるνおよびΔの初期化は、逆方向サイクル・パス・タイプｂ）が選択されている場合にのみ必要である。

各事前正規化器は、アレイ３００への入力ベクトルのｎ個の要素群を処理するように構成され、各事前正規化器によって処理されるｎ個の要素群は、以降固定される。同様に、事後正規化器のそれぞれは、アレイ３００からの出力ベクトルのｍ個の要素群を処理するように構成され、各事後正規化器によって処理されるｍ個の要素群は、以降固定される。

ステップ２０６において、割引係数α（アルファ）（上記参照）を０よりも大きく１よりも小さい値に設定する。この値は、一方の側のすべての正規化器（例えば、事前正規化器）では同じであるが、事前正規化器と事後正規化器に対して別々に選択されてもよい。特に断らない限り、βは、１－αで与えられる。ここで、（ステップ２０２～２０６で実行される）初期化フェーズが完了することになる。例示的な実施形態によると、初期化フェーズまたはトレーニング・フェーズあるいはその両方の１つもしくは複数のステップは、ＲＰＵアレイ・ハードウェアの外部で、例えば、以下の図４の説明に関連して説明される装置４００などの装置によって実行されることに留意されたい。

図２Ａに示すように、方法２００の次のフェーズは、トレーニング・フェーズである。上述したように、ＡＮＮのトレーニングは、逆伝播を伴うＳＧＤプロセスを含むことができる。一般に、逆伝播は、順方向サイクル、逆方向サイクル、および重み更新サイクルの３つのサイクルで実行され、これらのサイクルは、収束基準が満たされるまで複数回繰り返される（複数回の反復）。逆伝播中に使用されるサイクルの一般的な説明については、例えば、「DNN Training with Asymmetric RPU Devices」と題されたTayfun Gokmenによる米国特許出願第１６／４００，６７４号を参照されたい。

図２に示すように、トレーニング・フェーズは、順方向サイクル・パスで開始する。本技術によると、順方向サイクル・パスの各反復ｉにおいて、Ｎ個の入力ベクトルｘ（例えば、ミニバッチ）が、例えば、ランダム・アクセス・メモリを有するデジタル・ハードウェアに記憶される。各入力ベクトルｘは、ｎ個の要素を有する。ステップ２０８において、現在の入力ベクトルｘが事前正規化器に提供される（図３の「現在の入力ｘ」参照、各円３０２は、ＲＰＵアレイ３００への別個の入力ベクトルｘを表す）。上で強調したように、プロセスの複数の反復が実行される。反復の内側ループでは、現在の入力ベクトルｘがプロセスへの最初の入力である（以下参照）。反復の外側ループ（例えば、ミニバッチに対する）では、前回記憶された値が割引方式で更新される（以下参照）。

すなわち、ステップ２１０において、各事前正規化器は、その集合群に属する現在の入力ベクトルｘのすべての要素ｎの平均μおよび標準偏差σの現在の値を、Ｎ個のベクトルすべてにわたって計算する。その集合群のサイズがｇである場合、平均μおよび標準偏差σは、Ｎ×ｇ個の入力値に対して計算される。Ｎおよびｇが１の場合、移動平均および標準偏差は、前回記憶された平均μおよび標準偏差σの値を使用して計算される。

次いで、Ｎ×ｇ個の入力値は、割引係数αによって割り引かれた、事前正規化器に対して記憶された平均μおよび標準偏差σを使用して事前正規化される。例えば、例示的な実施形態によると、ステップ２１２において、各事前正規化器は、最後（前回）の反復ｉからの前回記憶されたμおよびσがあれば、これらを（ステップ２１０からの）割引係数α（アルファ）を用いた割引方式で新たに計算された値によって更新し、すなわち、古い（前回記憶された）値ν_ｏｌｄの１マイナスα倍に、新しい値ν_ｎｅｗのα倍を加えたもの、すなわち、（１－α）＊ν_ｏｌｄ＋α＊ν_ｎｅｗを取り、更新された結果を記憶する。ステップ２１４において、各事前正規化器は、Ｎ×ｇ個の入力値すべてを、その記憶されたμで減算し、その結果を、その記憶されたσで除算する。例えば、上記の式８を参照されたい。事前正規化器はともに、Ｎ個の正規化された入力ベクトルｘ_ｎｏｒｍを生成する。

Ｎ個の正規化された入力ベクトルｘ_ｎｏｒｍ（図３の「正規化された入力ｘ’」参照）のそれぞれについて、行列－ベクトル乗算がアレイ３００を用いて実行され、アナログ・ノイズを伴うＷ＊ｘ_ｎｏｒｍが計算される。ステップ２１６を参照されたい。例示的な実施形態によると、ステップ２１６は、ｉ）Ｎ個の正規化された入力ベクトルｘ_ｎｏｒｍを（例えば、デジタル・アナログ変換器（ＤＡＣ）（図示せず）を使用して）アナログ・パルス幅に変換することと、ｉｉ）アレイ３００を介してアナログ・ノイズを伴うＷ＊ｘ_ｎｏｒｍを計算することと（アナログ計算は常にノイズが多い）、ｉｉｉ）アレイ３００からの出力ベクトルｙを（例えば、アナログ・デジタル変換器（ＡＤＣ）（図示せず）を使用して）デジタルで表すこととを含む。ここで、Ｎ個の出力ベクトルｙすべてがｙベクトルとしてデジタル形式で記憶されることになる。デジタルで記憶されるベクトルの場合、ＤＡＣおよびＡＤＣが一般的に必要である。しかしながら、Ｎ＊ｇ＝１の場合は、アナログおよびデジタル変換なしで済ませることが可能である。

ステップ２１８において、各事後正規化器は、その集合群に属する現在の出力ベクトルｙ（例えば、図３の「現在の出力ｙ’」を参照）のすべての要素の平均μおよび標準偏差σの現在の値を、すべてのＮ個のベクトルにわたって計算する。その集合群のサイズがｇである場合、平均μおよび標準偏差σは、Ｎ×ｇ個の出力値に対して計算される。Ｎおよびｇが１である場合、移動平均および標準偏差は、前回記憶された平均μおよび標準偏差σの値を使用して計算される。

次いで、Ｎ×ｇ個の出力値は、割引係数αによって割り引かれた、事後正規化器に対して記憶された平均μおよび標準偏差σを使用して事後正規化される。例えば、例示的な実施形態によると、ステップ２２０において、各事後正規化器は、最後（前回）の反復ｉからの前回記憶されたμおよびσがあれば、これらを（ステップ２１８からの）割引係数α（アルファ）を用いた割引方式で新たに計算された値によって更新し、すなわち、上記したように、古い（前回記憶された）値ν_ｏｌｄの１マイナスα倍に、新しい値ν_ｎｅｗのα倍を加えたもの、すなわち、（１－α）＊ν_ｏｌｄ＋α＊ν_ｎｅｗを取り、更新された結果を記憶する。ステップ２２２において、各事後正規化器は、Ｎ×ｇ個の出力値すべてを、その記憶されたμで減算し、その結果を、その記憶されたσで除算する。例えば、上記の式９を参照されたい。

事後正規化器はともに、Ｎ個の正規化された出力ベクトルｙ_ｎｏｒｍを生成する。これらの正規化された出力ベクトルｙ_ｎｏｒｍは、（１つのＡＮＮ層に対する）ＲＰＵアレイ３００ハードウェアの最終出力を表し、例えば、活性化関数または別の層が次に計算されることがある。

（図２Ａから続く）図２Ｂに示すように、トレーニング・フェーズは、次に逆方向サイクル・パスを含む。逆方向サイクル・パスの各反復ｉにおいて、Ｎ個の入力ベクトルｄが記憶される（例えば、ハードウェアのデジタル部分に、すぐ上位の層から戻される）。各入力ベクトルｄは、ｍ個の要素を有する。

一般に、逆方向サイクル・パスでは、ｘ’がすでに正規化された入力であり、ｄ’が勾配入力である場合、逆方向サイクル・パスの出力ｄは、以下のいずれかである。

ここで、順序付けされた入力

および

の集合は、上記で

について説明したように（同一の順序で）構成されているが、代わりに正規化された入力ｘ’^ｔおよび勾配入力ｄ’^ｔから構成されている。αは、上記の順方向パスについて説明したものと同じ割引係数である。パラメータν_ｉは、

として周期的に更新および計算され、ここで、β＊およびα＊は、固定パラメータであり、例えば、β＊＝０およびα＊＝１であり、デフォルトでは、１－αおよびαにそれぞれ等しい。量γ_ｉは、

として周期的に更新および計算され、ここで、積は、２つの順序付けされた集合において互いに対応するｘ’とｄのペアに沿ったものだけであることを意味する。同様に、事後正規化のステップでは、ｘ’およびｄ’の代わりに、正規化された出力信号ｙおよび対応する勾配入力が取られる。

上で強調したように、本技術によると、２つの異なるタイプの逆方向サイクル・パスが企図され、本明細書では、逆方向サイクル・パス・タイプａ）およびタイプｂ）と呼ばれる。各シナリオでは、最後の事後正規化の反復からの事後正規化器に対する前回の標準偏差σを使用して、逆方向サイクル・パスの入力ベクトルｄを変換し、Ｎ個の変換された入力ベクトルｄ_ｎｏｒｍを生成することを含む。すなわち、例示的な一実施形態では、逆方向サイクル・パス・タイプａ）は、ステップ２２４で開始し、各事後正規化器は、対応する要素グルーピングを使用して、ｄベクトルの要素のＮ×ｄ個すべてを、（最後の事後正規化の反復からの、割り引かれた）前回記憶されたσで除算し、それによって、事後正規化器はともに、Ｎ個の変換された入力ベクトルｄ_ｎｏｒｍを生成する。

代替として、別の例示的な実施形態では、逆方向サイクル・パス・タイプｂ）は、ステップ２２６で開始し、各事後正規化器は、ベクトルｄの対応するＮ×ｇ個の出力値の平均μを計算し、μをν（ニュー）として記憶し、それによって、νの古い値を割引係数αで割り引く。Ｎ×ｇ個の出力値が１である場合、移動平均は、（最後の事後正規化の反復からの、割り引かれた）νの前回の値を使用して計算される。ステップ２２８において、ベクトルｄのＮ×ｇ個の出力値と、順方向サイクル・パス中の出力ベクトルｙの対応する値との相互相関が計算される。これは、Δデルタとして記憶され、それによって、Δの古い値が割引係数αで割り引かれる。Ｎ×ｇ個の出力値が１の場合、実行中の相互相関は、（最後の事後正規化の反復からの、割り引かれた）前回のΔの値を使用して計算される。ステップ２３０において、ベクトルｄのＮ×ｇ個の出力値のそれぞれは、アルファ×ニューとして計算された第１項で減算され、次いで、アルファ×デルタ×順方向パスからのｙベクトルの対応する要素値として計算された第２項で減算される。最後に、ステップ２３２において、各事後正規化器は、対応する要素グルーピングを使用して、ｄベクトルの要素のＮ×ｄ個すべてを（最後の事後正規化の反復からの、割り引かれた）前回記憶されたσで除算し、それによって、事後正規化器はともに、Ｎ個の変換された入力ベクトルｄ_ｎｏｒｍを生成する。

逆方向サイクル・パス・タイプａ）またはタイプｂ）のいずれかを用いて、Ｎ個の変換された入力ベクトルｄ_ｎｏｒｍのそれぞれについて、アレイ３００を用いて、転置行列－ベクトル乗算を実行して、アナログ・ノイズを伴うＷ^Ｔ＊ｄ_ｎｏｒｍを計算する。ステップ２３４を参照されたい。例示的な実施形態によると、ステップ２３４は、ｉ）Ｎ個の変換された入力ベクトルｄ_ｎｏｒｍを（例えば、デジタル・アナログ変換器（ＤＡＣ）（図示せず）を使用して）アナログ・パルス幅に変換することと、ｉｉ）アレイ３００を介してアナログ・ノイズを伴うＷ^Ｔ＊ｄ_ｎｏｒｍを計算することと、ｉｉｉ）アレイ３００からの出力ベクトルｄ’を（例えば、アナログ・デジタル変換器（ＡＤＣ）（図示せず）を使用して）デジタルに戻すこととを含む。ここで、Ｎ個の出力ベクトルｄ’すべてがデジタル形式で記憶されることになる。

転置行列－ベクトル乗算に続いて、事前正規化器の動作は、逆方向サイクル・パス・タイプａ）またはタイプｂ）のどちらが選択されたかによって再び異なる。逆方向サイクル・パス・タイプａ）がステップ２２４で選択された場合、プロセスは、タイプａ）の逆方向サイクル・パスを使用して同じやり方で進む。逆に、逆方向サイクル・パス・タイプｂ）がステップ２２６～２３２で選択された場合、プロセスは、タイプｂ）の逆方向サイクル・パスを使用して同じやり方で進む。各シナリオでは、最後の事前正規化反復からの事前正規化器に対する前回の標準偏差σを使用して、逆方向サイクル・パスの出力ベクトルｄ’を変換して、Ｎ個の変換された出力ベクトルｄ’_ｎｏｒｍを生成することを含む。すべての事前正規化器はともに、Ｎ個の変換された出力ベクトルｄ’_ｎｏｒｍを生成し、これは、逆方向サイクル・パス中の（１つのＡＮＮ層に対する）ＲＰＵハードウェアの最終出力を表す。（図２Ｂから続く）図２Ｃを参照されたい。すなわち、例示的な一実施形態では、逆方向サイクル・パス・タイプａ）は、ステップ２３６に進み、各事前正規化器は、対応する要素グルーピングを使用して、ｄ’ベクトルの要素のＮ×ｇ個すべてを、（最後の事前正規化の反復からの、割り引かれた）前回記憶されたσによって除算し、それによって、事前正規化器はともに、Ｎ個の変換された出力ベクトルｄ’_ｎｏｒｍを生成する。

代替として、別の例示的な実施形態では、逆方向サイクル・パス・タイプｂ）は、ステップ２３８に進み、各事前正規化器は、ベクトルｄ’の対応するＮ×ｇ個の出力値の平均μを計算し、μをν（ニュー）として記憶し、それによって、νの古い値を割引係数αで割り引く。Ｎ×ｇ個の出力値が１である場合、移動平均は、（最後の事後正規化の反復からの、割り引かれた）νの前回の値を使用して計算される。ステップ２４０において、順方向サイクル・パス中にベクトルｄ’のＮ×ｇ個の出力値と入力ベクトルｘの対応する値との相互相関が計算される。これは、Δとして記憶され、それによって、Δの古い値を割引係数αで割り引く。Ｎ×ｇ個の出力値が１である場合、実行中の相互相関は、（最後の事前正規化の反復からの、割り引かれた）前回のΔの値を使用して計算される。ステップ２４２において、ベクトルｄ’のＮ×ｇ個の出力値のそれぞれは、アルファ×ニューとして計算された第１項で減算され、次いで、アルファ×デルタ×順方向パスからのｘベクトルの対応する要素値として計算された第２項で減算される。最後に、ステップ２４４において、各事前正規化器は、対応する要素グルーピングを使用して、ｄ’ベクトルの要素のＮ×ｄ個すべてを（最後の事前正規化の反復からの、割り引かれた）前回記憶されたσで除算し、それによって、事後正規化器はともにＮ個の変換された入力ベクトルｄ’_ｎｏｒｍを生成する。

図２Ｃに示すように、トレーニング・フェーズは、次に、重み更新サイクル・パスを含む。すなわち、ＲＰＵアレイ３００は、順方向サイクルおよび逆方向サイクルのパス中にそれぞれ計算されたｘ_ｎｏｒｍおよびｄ’_ｎｏｒｍベクトルで更新される。トレーニング・フェーズが完了した後、システムは、推論モードで動作することもできる。このモードでは、更新フェーズまたは逆方向フェーズは行われない。代わりに、上述したように順方向パスのみが計算される。ただし、すべての事前正規化器または事後正規化器の記憶された値はすべて、もはや更新されず、前回のトレーニング・フェーズからの事前正規化器および事後正規化器の記憶された値のみが正規化ステップに使用される。

本発明は、任意の可能な技術的詳細レベルの統合において、システム、方法、またはコンピュータ・プログラム製品、あるいはその組合せであってもよい。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体を含むことができる。

コンピュータ可読記憶媒体は、命令実行デバイスが使用するための命令を保持および記憶することができる有形のデバイスとすることができる。コンピュータ可読記憶媒体は、例えば、電子記憶デバイス、磁気記憶デバイス、光記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、または前述の任意の適切な組合せであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストには、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラム可能読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュ・メモリ）、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）、ポータブル・コンパクト・ディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリ・スティック、フロッピー（Ｒ）・ディスク、パンチ・カードまたは命令が記録された溝内の隆起構造などの機械的に符号化されたデバイス、および前述の任意の適切な組合せが含まれる。コンピュータ可読記憶媒体は、本明細書で使用される場合、電波もしくは他の自由に伝播する電磁波、導波路もしくは他の伝送媒体を通して伝播する電磁波（例えば、光ファイバ・ケーブルを通過する光パルス）、またはワイヤを通して送信される電気信号などの、それ自体一過性の信号であると解釈されるべきではない。

本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング／処理デバイスに、あるいはネットワーク、例えばインターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワークまたはワイヤレス・ネットワークあるいはその組合せを介して、外部コンピュータもしくは外部記憶デバイスにダウンロードすることができる。ネットワークは、銅線伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータまたはエッジ・サーバあるいはその組合せを含むことができる。各コンピューティング／処理デバイス内のネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、それぞれのコンピューティング／処理デバイス内のコンピュータ可読記憶媒体に記憶するためにコンピュータ可読プログラム命令を転送する。

本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路の構成データ、あるいは、Ｓｍａｌｌｔａｌｋ（Ｒ）、Ｃ＋＋などのオブジェクト指向プログラミング言語、および「Ｃ」プログラミング言語または同様のプログラミング言語などの手続き型プログラミング言語を含む、１つまたは複数のプログラミング言語の任意の組合せで記述されたソースコードあるいはオブジェクトコードのいずれかであってもよい。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で、一部はユーザのコンピュータ上で、スタンドアロン・ソフトウェア・パッケージとして、一部はユーザのコンピュータ上で、一部はリモート・コンピュータ上で、または完全にリモート・コンピュータまたはサーバ上で実行されてもよい。後者のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ）またはワイド・エリア・ネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを介してユーザのコンピュータに接続されてもよく、または接続は、（例えば、インターネット・サービス・プロバイダを使用してインターネットを介して）外部コンピュータに対して行われてもよい。一部の実施形態では、例えば、プログラマブル・ロジック回路、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、またはプログラマブル・ロジック・アレイ（ＰＬＡ）を含む電子回路は、本発明の態様を実行するために、コンピュータ可読プログラム命令の状態情報を利用して電子回路をパーソナライズすることによって、コンピュータ可読プログラム命令を実行することができる。

本発明の態様は、本発明の実施形態による方法、装置（システム）、およびコンピュータ・プログラム製品の流れ図またはブロック図あるいはその両方を参照して本明細書に記載されている。流れ図またはブロック図あるいはその両方の各ブロック、ならびに流れ図またはブロック図あるいはその両方のブロックの組合せは、コンピュータ可読プログラム命令によって実施することができることを理解されよう。

これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサを介して実行される命令が、流れ図またはブロック図あるいはその両方の１つまたは複数のブロックで指定された機能／行為を実施するための手段を作成するように、コンピュータのプロセッサまたは他のプログラム可能なデータ処理装置に提供されて、機械を生成することができる。これらのコンピュータ可読プログラム命令はまた、内部に命令が記憶されたコンピュータ可読記憶媒体が、流れ図またはブロック図あるいはその両方の１つまたは複数のブロックで指定された機能／行為の態様を実施する命令を含む製品を構成するように、コンピュータ、プログラム可能なデータ処理装置、または他の装置あるいはその組合せに特定のやり方で機能するように指示することができるコンピュータ可読記憶媒体に記憶されてもよい。

コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラム可能な装置、または他のデバイス上で実行される命令が、流れ図またはブロック図あるいはその両方の１つまたは複数のブロックで指定された機能／行為を実施するように、コンピュータ、他のプログラム可能なデータ処理装置、または他のデバイスにロードされ、一連の動作ステップをコンピュータ、他のプログラム可能な装置、または他のデバイス上で実行させて、コンピュータ実装プロセスを生成することができる。

図中の流れ図およびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータ・プログラム製品の可能な実施態様のアーキテクチャ、機能、および動作を示す。これに関して、流れ図またはブロック図の各ブロックは、指定された論理機能を実施するための１つまたは複数の実行可能命令を構成する、モジュール、セグメント、または命令の一部を表すことができる。一部の代替の実施態様では、ブロックに示されている機能は、図に示されている順序とは異なる順序で行われてもよい。例えば、連続して示される２つのブロックは、実際には、１つのステップとして達成されてもよく、同時に、実質的に同時に、部分的または全体的に時間的に重複して実行されてもよく、あるいはブロックは、関与する機能に応じて逆の順序で実行されることがあってもよい。ブロック図または流れ図あるいはその両方の各ブロック、およびブロック図または流れ図あるいはその両方のブロックの組合せは、指定された機能もしくは行為を実行する、または専用のハードウェアおよびコンピュータ命令の組合せを実行する専用のハードウェア・ベースのシステムによって実施することができることにも留意されたい。

ここで図４に目を向けると、本明細書に提示された方法のうちの１つまたは複数を実施するための装置４００のブロック図が示されている。単なる例として、装置４００は、図２Ａ～図２Ｃの方法２００の１つまたは複数のステップを実行するように構成することができる。

装置４００は、コンピュータ・システム４１０およびリムーバブル媒体４５０を含む。コンピュータ・システム４１０は、プロセッサ・デバイス４２０、ネットワーク・インターフェース４２５、メモリ４３０、媒体インターフェース４３５、および任意選択のディスプレイ４４０を含む。ネットワーク・インターフェース４２５は、コンピュータ・システム４１０がネットワークに接続することを可能にし、一方、媒体インターフェース４３５は、コンピュータ・システム４１０が、ハード・ドライブまたはリムーバブル媒体４５０などの媒体と対話することを可能にする。

プロセッサ・デバイス４２０は、本明細書に開示された方法、ステップ、および機能を実施するように構成することができる。メモリ４３０は分散型であってもローカル型であってもよく、プロセッサ・デバイス４２０は、分散型であっても単一型であってもよい。メモリ４３０は、電気的、磁気的、または光学的メモリ、あるいはこれらまたは他のタイプのストレージ・デバイスの任意の組合せとして実装することができる。さらに、「メモリ」という用語は、プロセッサ・デバイス４２０によってアクセスされるアドレス指定可能な空間内のアドレスから読み取ることができる、またはアドレスに書き込むことができる任意の情報を包含するのに十分広く解釈されるべきである。この定義では、ネットワーク・インターフェース４２５を介してアクセス可能なネットワーク上の情報は、プロセッサ・デバイス４２０がネットワークから情報を取り出すことができるため、依然としてメモリ４３０内にある。プロセッサ・デバイス４２０を構成する各分散プロセッサは、一般に、独自のアドレス指定可能なメモリ空間を含むことに留意されたい。コンピュータ・システム４１０の一部またはすべては、特定用途向け集積回路または汎用集積回路に組み込むことができることにも留意されたい。

任意選択のディスプレイ４４０は、装置４００の人間のユーザと対話するのに適した任意のタイプのディスプレイである。一般に、ディスプレイ４４０は、コンピュータ・モニタまたは他の同様のディスプレイである。

本発明の例示的な実施形態を本明細書で説明してきたが、本発明は、それらの正確な実施形態に限定されず、本発明の範囲から逸脱することなく当業者によって様々な他の変更および修正を行うことができることを理解されたい。

本発明の一例では、ノイズおよび信号管理を伴うＡＮＮのトレーニングのための方法が提供され、本方法は、ＲＰＵデバイスのアレイに、アレイへの入力ベクトルｘのｎ個の要素のサイズｇの集合群を処理するように構成された事前正規化器、およびアレイからの出力ベクトルｙのｍ個の要素のサイズｇの集合群を処理するように構成された事後正規化器を提供するステップであって、アレイがｍ行ｎ列を有するＡＮＮの重み行列を表し、重み行列の重み値がＲＰＵデバイスの抵抗値として記憶される、提供するステップと、事前正規化器のそれぞれの集合群に属する入力ベクトルｘのすべての要素の平均および標準偏差をＮ個のベクトルにわたって計算し、事前正規化器に対する現在の平均および標準偏差の値を生成するステップであって、平均および標準偏差が複数個の入力値に対して計算される、生成するステップと、事前正規化器に対する前回記憶された平均および標準偏差の値を割引係数ならびに事前正規化器に対する現在の平均および標準偏差の値で更新し、事前正規化器に対する更新され記憶された平均および標準偏差の値を生成するステップと、事前正規化器に対する更新され記憶された平均および標準偏差の値を使用して複数個の入力値を事前正規化し、すべての事前正規化器から正規化された入力ベクトルを生成して、アレイを通る順方向サイクル・パスにおいてアナログ・ノイズを伴って計算するステップと、事後正規化器のそれぞれの集合群に属する出力ベクトルｙのすべての要素の平均および標準偏差をＮ個のベクトルにわたって計算し、事後正規化器に対する現在の平均および標準偏差の値を生成するステップであって、平均および標準偏差が複数個の出力値に対して計算される、生成するステップと、事後正規化器に対する前回記憶された平均および標準偏差の値を割引係数ならびに事後正規化器に対する現在の平均および標準偏差の値で更新し、事後正規化器に対する更新され記憶された平均および標準偏差の値を生成するステップと、事後正規化器に対する更新され記憶された平均および標準偏差の値を使用して複数個の出力値を事後正規化し、すべての事後正規化器から正規化された出力ベクトルを生成するステップと、Ｎ個の入力ベクトルを事後正規化器に対する前回の標準偏差で除算して変換された入力ベクトルを生成することによって、前回の標準偏差を使用してＮ個の入力ベクトルを変換し、変換された入力ベクトルを生成して、アレイを通る逆方向サイクル・パスにおいてアナログ・ノイズを伴って計算するステップと、Ｎ個の入力ベクトルを事後正規化器に対する前回の標準偏差で除算して変換された入力ベクトルを生成することによって、事前正規化器に対する前回の標準偏差を使用してＮ個の出力ベクトルを変換して、変換された出力ベクトルを生成するステップとを含む。

好ましくは、本方法は、正規化された入力ベクトルをアナログ・パルス幅に変換するステップと、アレイを使用してアナログ・ノイズを伴って計算するステップと、アレイからの出力ベクトルｙをデジタルで表すステップとをさらに含む。

好ましくは、本方法は、正規化された入力ベクトルをアナログ・パルス幅に変換するステップと、アレイを使用してアナログ・ノイズを伴って計算するステップと、アレイからのＮ個の出力ベクトルをデジタルで表すステップとをさらに含む。

本発明の一例では、ノイズおよび信号管理を伴うＡＮＮのトレーニングのための方法が提供され、本方法は、ＲＰＵデバイスのアレイに、アレイへの入力ベクトルｘのｎ個の要素のサイズｇの集合群を処理するように構成された事前正規化器、およびアレイからの出力ベクトルｙのｍ個の要素のサイズｇの集合群を処理するように構成された事後正規化器を提供するステップであって、アレイがｍ行ｎ列を有するＡＮＮの重み行列を表し、重み行列の重み値がＲＰＵデバイスの抵抗値として記憶される、提供するステップと、事前正規化器および事後正規化器のそれぞれを初期化して、記憶された値を０に設定し、記憶された値を１に設定するステップと、事前正規化器のそれぞれの集合群に属する入力ベクトルｘのすべての要素の平均および標準偏差をＮ個のベクトルにわたって計算し、事前正規化器に対する現在の平均および標準偏差の値を生成するステップであって、平均および標準偏差が複数個の入力値に対して計算される、生成するステップと、事前正規化器に対する前回記憶された平均および標準偏差の値を割引係数ならびに事前正規化器に対する現在の平均および標準偏差の値で更新し、事前正規化器に対する更新され記憶された平均および標準偏差の値を生成するステップと、事前正規化器に対する更新され記憶された平均および標準偏差の値を使用して複数個の入力値を事前正規化し、すべての事前正規化器から正規化された入力ベクトルを生成して、アレイを通る順方向サイクル・パスにおいてアナログ・ノイズを伴って計算するステップと、事後正規化器のそれぞれの集合群に属する出力ベクトルｙのすべての要素の平均および標準偏差をＮ個のベクトルにわたって計算し、事後正規化器に対する現在の平均および標準偏差の値を生成するステップであって、平均および標準偏差が複数個の出力値に対して計算される、生成するステップと、事後正規化器に対する前回記憶された平均および標準偏差の値を割引係数ならびに事後正規化器に対する現在の平均および標準偏差の値で更新し、事後正規化器に対する更新され記憶された平均および標準偏差の値を生成するステップと、事後正規化器に対する更新され記憶された平均および標準偏差の値を使用して複数個の出力値を事後正規化し、すべての事後正規化器から正規化された出力ベクトルを生成するステップと、ｉ）Ｎ個の入力ベクトルの複数個の出力値の平均を計算し、Ｎ個の入力ベクトルの複数個の出力値と順方向サイクル・パスからの出力ベクトルの値との相互相関を計算し、Ｎ個の入力ベクトルの複数個の出力値のそれぞれをアルファ×ニューとして計算された第１項で減算し、次いで、アルファ×デルタ×順方向サイクル・パスからの出力ベクトルの値として計算された第２項で減算し、Ｎ個の入力ベクトルを事後正規化器に対する前回の標準偏差で除算して変換された入力ベクトルを生成することによって、前回の標準偏差を使用してＮ個の入力ベクトルを変換し、変換された入力ベクトルを生成して、アレイを通る逆方向サイクル・パスにおいてアナログ・ノイズを伴って計算するステップと、Ｎ個の入力ベクトルの複数個の出力値の平均を計算し、Ｎ個の入力ベクトルの複数個の出力値と順方向サイクル・パスからの出力ベクトルの値との相互相関を計算し、Ｎ個の入力ベクトルの複数個の出力値のそれぞれをアルファ×ニューとして計算された第１項で減算し、次いで、アルファ×デルタ×順方向サイクル・パスからの出力ベクトルの値として計算された第２項で減算し、Ｎ個の入力ベクトルを事後正規化器に対する前回の標準偏差で除算して変換された入力ベクトルを生成することによって、事前正規化器に対する前回の標準偏差を使用してＮ個の出力ベクトルを変換して、変換された出力ベクトルを生成するステップとを含む。

Claims

ノイズおよび信号管理を伴う人工ニューラル・ネットワーク（ＡＮＮ）のトレーニングのための方法であって、
抵抗処理ユニット（ＲＰＵ）デバイスのアレイに、前記アレイへの入力ベクトルｘのｎ個の要素のサイズｇの集合群を処理するように構成された事前正規化器、および前記アレイからの出力ベクトルｙのｍ個の要素のサイズｇの集合群を処理するように構成された事後正規化器を提供するステップであって、前記アレイがｍ行ｎ列を有する前記ＡＮＮの重み行列Ｗを表し、重み行列Ｗの重み値ｗが前記ＲＰＵデバイスの抵抗値として記憶される、前記提供するステップと、
前記事前正規化器のそれぞれの前記集合群に属する前記入力ベクトルｘのすべての要素の平均μおよび標準偏差σをＮ個のベクトルにわたって計算し、前記事前正規化器に対する現在の平均μおよび標準偏差σの値を生成するステップであって、前記平均μおよび前記標準偏差σがＮ×ｇ個の入力値に対して計算される、前記生成するステップと、
前記事前正規化器に対する前回記憶された平均μおよび標準偏差σの値を割引係数αならびに前記事前正規化器に対する前記現在の平均μおよび標準偏差σの値で更新し、前記事前正規化器に対する更新され記憶された平均μおよび標準偏差σの値を生成するステップと、
前記事前正規化器に対する前記更新され記憶された平均μおよび標準偏差σの値を使用して前記Ｎ×ｇ個の入力値を事前正規化し、すべての前記事前正規化器からＮ個の正規化された入力ベクトルｘ_ｎｏｒｍを生成して、前記アレイを通る順方向サイクル・パスにおいてアナログ・ノイズを伴うＷ＊ｘ_ｎｏｒｍを計算するステップと、
前記事後正規化器のそれぞれの前記集合群に属する前記出力ベクトルｙのすべての要素の前記平均μおよび前記標準偏差σを前記Ｎ個のベクトルにわたって計算し、前記事後正規化器に対する現在の平均μおよび標準偏差σの値を生成するステップであって、前記平均μおよび前記標準偏差σがＮ×ｇ個の出力値に対して計算される、前記生成するステップと、
前記事後正規化器に対する前回記憶された平均μおよび標準偏差σの値を前記割引係数αならびに前記事後正規化器に対する前記現在の平均μおよび標準偏差σの値で更新し、前記事後正規化器に対する更新され記憶された平均μおよび標準偏差σの値を生成するステップと、
前記事後正規化器に対する前記更新され記憶された平均μおよび標準偏差σの値を使用して前記Ｎ×ｇ個の出力値を事後正規化し、すべての前記事後正規化器からＮ個の正規化された出力ベクトルｙ_ｎｏｒｍを生成するステップと、
前記前回の標準偏差σを使用してＮ個の入力ベクトルｄを変換し、Ｎ個の変換された入力ベクトルｄ_ｎｏｒｍを生成して、前記アレイを通る逆方向サイクル・パスにおいてアナログ・ノイズを伴うＷ^Ｔ＊ｄ_ｎｏｒｍを計算するステップと、
前記事前正規化器に対する前記前回の標準偏差σを使用してＮ個の出力ベクトルｄ’を変換して、Ｎ個の変換された出力ベクトルｄ’_ｎｏｒｍを生成するステップと
を含む、方法。
前記事前正規化器および前記事後正規化器のそれぞれを初期化して、記憶された平均値を０に設定し、記憶された標準偏差値を１に設定するステップをさらに含む、請求項１に記載の方法。
更新サイクル・パスにおいて、前記順方向サイクル・パスからのｘ_ｎｏｒｍおよび前記逆方向サイクル・パスからのｄ_ｎｏｒｍを用いて前記アレイを更新するステップをさらに含む、請求項１に記載の方法。
前記割引係数αを使用して、前記事前正規化器に対する前記前回記憶された平均μおよび標準偏差σの値を（１－α）＊ν_ｏｌｄ＋α＊ν_ｎｅｗとして更新するステップであって、ν_ｏｌｄが前記事前正規化器に対する前記前回の平均および標準偏差であり、ν_ｎｅｗが前記入力ベクトルｘの前記要素に対して計算された前記平均および標準偏差である、前記更新するステップをさらに含む、請求項１に記載の方法。
最初に前記割引係数αを０よりも大きく１よりも小さい値に設定するステップをさらに含む、請求項４に記載の方法。
前記割引係数αを使用して、前記事後正規化器に対する前記前回記憶された平均μおよび標準偏差σの値を（１－α）＊ν_ｏｌｄ＋α＊ν_ｎｅｗとして更新するステップであって、ν_ｏｌｄが前記事後正規化器に対する前記前回の平均および標準偏差であり、ν_ｎｅｗが前記出力ベクトルｙの前記要素に対して計算された前記平均および標準偏差である、前記更新するステップをさらに含む、請求項１に記載の方法。
最初に前記割引係数αを０よりも大きく１よりも小さい値に設定するステップをさらに含む、請求項６に記載の方法。
前記事前正規化するステップが、
前記事前正規化器のそれぞれについて、前記Ｎ×ｇ個の値を前記事前正規化器の前記前回の平均μで減算して結果を得るステップと、
前記結果を前記事前正規化器の前記前回の標準偏差σで除算するステップと
を含む、請求項１に記載の方法。
前記Ｎ個の正規化された入力ベクトルｄ_ｎｏｒｍをアナログ・パルス幅に変換するステップと、
前記アレイを使用してアナログ・ノイズを伴うＷ^Ｔ＊ｄ_ｎｏｒｍを計算するステップと、
前記アレイからの前記出力ベクトルｙをデジタルで表すステップと
をさらに含む、請求項１に記載の方法。
前記Ｎ個の正規化された入力ベクトルｘ_ｎｏｒｍをアナログ・パルス幅に変換するステップと、
前記アレイを使用してアナログ・ノイズを伴うＷ＊ｘ_ｎｏｒｍを計算するステップと、
前記アレイからの前記Ｎ個の出力ベクトルｄ’をデジタルで表すステップと
をさらに含む、請求項１に記載の方法。
前記Ｎ個の入力ベクトルｄを変換する前記ステップが、前記Ｎ個の入力ベクトルｄを前記事後正規化器に対する前記前回の標準偏差σで除算して、前記Ｎ個の変換された入力ベクトルｄ_ｎｏｒｍを生成するステップを含む、請求項１に記載の方法。
前記事前正規化器および事後正規化器のそれぞれを初期化して、記憶された値νを０に設定し、記憶された値Δを１に設定するステップをさらに含む、請求項１に記載の方法。
前記Ｎ個の入力ベクトルｄを変換する前記ステップが、
前記事後正規化器を介して、前記Ｎ個の入力ベクトルｄの前記Ｎ×ｇ個の出力値の前記平均μとして、νを計算するステップと、
前記事後正規化器を介して、前記Ｎ個の入力ベクトルｄの前記Ｎ×ｇ個の出力値と、前記順方向サイクル・パスからの前記出力ベクトルｙの値との相互相関Δを計算するステップと、
前記事後正規化器を介して、前記Ｎ個の入力ベクトルｄの前記Ｎ×ｇ個の出力値のそれぞれを、α×νとして計算された第１項で減算し、次いで、α×Δ×前記順方向サイクル・パスからの前記出力ベクトルｙの前記値として計算された第２項で減算するステップと、
前記Ｎ個の入力ベクトルｄを前記事後正規化器に対する前記前回の標準偏差σで除算して、前記Ｎ個の変換された入力ベクトルｄ_ｎｏｒｍを生成するステップと
を含む、請求項１２に記載の方法。
前記逆方向サイクル・パスの前記Ｎ個の出力ベクトルｄ’を変換する前記ステップが、前記Ｎ個の入力ベクトルｄを前記事後正規化器に対する前記前回の標準偏差σで除算して、前記Ｎ個の変換された入力ベクトルｄ_ｎｏｒｍを生成するステップを含む、請求項１１に記載の方法。
前記Ｎ個の出力ベクトルｄ’を変換する前記ステップが、
前記事後正規化器を介して、前記Ｎ個の入力ベクトルｄの前記Ｎ×ｇ個の出力値の前記平均μとして、νを計算するステップと、
前記事後正規化器を介して、前記Ｎ個の入力ベクトルｄの前記Ｎ×ｇ個の出力値と、前記順方向サイクル・パスからの前記出力ベクトルｙの値との相互相関Δを計算するステップと、
前記事後正規化器を介して、前記Ｎ個の入力ベクトルｄの前記Ｎ×ｇ個の出力値のそれぞれを、α×νとして計算された前記第１項で減算し、次いで、α×Δ×前記順方向サイクル・パスからの前記出力ベクトルｙの前記値として計算された前記第２項で減算するステップと、
前記Ｎ個の入力ベクトルｄを前記事後正規化器に対する前記前回の標準偏差σで除算して、前記Ｎ個の変換された入力ベクトルｄ_ｎｏｒｍを生成するステップと
を含む、請求項１３に記載の方法。
コンピュータ・プログラムであって、請求項１ないし１５のいずれか１項に記載の方法の各ステップをコンピュータに実行させるための、コンピュータ・プログラム。