JPH05508041A

JPH05508041A - 実数入力処理用ニューラルプロセッシング装置

Info

Publication number: JPH05508041A
Application number: JP91511408A
Authority: JP
Inventors: テイラー，ジョン　ジェラルド; ゴース，デニス; クラークソン，トレバー　グラント
Original assignee: ユニバーシティー、カレッジ、ロンドン; キングス、カレッジ、ロンドン
Priority date: 1990-06-29
Filing date: 1991-06-28
Publication date: 1993-11-11
Also published as: DE69115488D1; EP0537208B1; AU8214591A; AU8192791A; WO1992000573A1; US5175798A; DE69115488T2; GB9014569D0; WO1992000572A1; BR9106607A; ATE131642T1; CA2085896A1; EP0537208A1; US5475795A

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】実数入力処理用ニューラルプロセッシング装置本発明はニューラルプロセッシングに使用する（以下単に「ニューロン」と称する）人工的な神経状装置に関する。

実際にニューロンを実現する公知の１つの方法は、乱アクセスメモリ（ＲＡＭ）を使用することである。この目的のためにＲＡＭを使用することはかなりの年数にわたって後戻りすることになる。近年、生理機能的なネットワークの活動にさらによく似たＲＡＭの特定の形状（人工ニューラルネットワークに関する第１回ＩＥＥ国際会議の会報参照）が開示された。この形態のＲＡＭは、ｐＲＡＭ（プロバブリスチック・乱・アクセス・メモリ）と称される。ｐＲＡＭの詳細な説明に関して、関心は上述した内容に向けられる。しかしながら、本発明の説明に入る前にｐＲＡＭの簡単な説明を以下に行う。

ｐＲＡＭは内在的なニューロン状の作用（図１参照）を有するハードウェア装置である。それは、Ｎ入力ラインの各々上の存在または非存在を表す２進入力５から（１がファイアリング事象に等しく、０が非作動に等しい）マツプを有する。

（０，１）Ｎから（０，１）へのこのマツピングは、通常、確率行列的な（ｓ＋ｏｃｈａｓｔｉｃ）関数である。アドレスデコーダ６を使用してＮ入力ｐＲＡＭの２Ｎのアドレスロケーション３がＮビット２進アドレスベクトルＵによって索引が引かれるならば、Ａの出力ａＸ　（０，１）は、ここで、ｉＸ　（０，１）　Ｎは入力アクティビティを表すベクトルであり、（ＸはＸ毎に１−ｘと定義される）。

符号αＵは確率を表す。装置のハードウエアリアライゼーションにおいて、αＵは範囲０から２Ｍ−１内の値を有する、メモリロケーション［３コ内のＭビット整数として表され、これらの値は、範囲内の確率を表す。

αＵは、ニューロバイオケミカルな解釈を有する値である。それは適当に選択されたメモリ内容によって、ｐＲＡＭのネットワークが生物の神経装置の行動に極めて類似するように行動させるようにする特徴である。

ｐＲＡＭにおいて、すべての２Ｎのメモリコンポーネントは独立した乱数である。従って、その応答作用において最大の非線形の程度を所有することに加えて、決定論的な（αε（０，１）　Ｎ）ｐＲＡＭは、その入力の２Ｎ′（ただし、Ｎ ′＝２Ｎ）の可能性がある２進関数のいずれかを実現し、ｐＲＡＭは、ノイズがスレッショルドの水準以上の接合部に導入されるニューラルネットワークの適用においてこれまで使用されているユニットと異なり、接合部ノイズは生物の神経における確率論的な主要なソースである。このノイズνは、ノイズジェネレータ１によって導入される。νは時間にわたって変化するＭビット整数であり、乱数のジェネレータによって発生される。このコンパレータ２は、アドレス指定されたメモリのロケーションに記憶された値とνとを比較する。

これを行うための１つの方法は、アドレス指定されたロケーションに記憶された値をνに加える。この合計内にキャリービットを有するならば、すなわちこの合計がＭ＋１ビットを有するならば、１を示すスパイクがクロックパルス７の到着時に発生する。キャリービットがないならば、このようなスパイクは発生されず、これは０を示す。発生される１の確率はアドレス指定されたロケーションに記憶された数によって表された確率に等しく、後者が確率と称される理由である。

確率の値がνより大きいならば、確率の値が同様の結果が他の方法、例えば１を発生することによって達成されることに留意すべきである。また、ｐＲＡＭネットワークが（連続的なメモリのアドレシングによって生じる２進デイジツトの流れである）「スパイクトレイン」の間に作動されるからファイアリング事象のタイミングに関する情報が保持され、これは潜在的に目視できるニューロンの観察される位相固定のような現象をｐＲＡＭネットによって再現することができ、有効な「表示機械」の部分としてこのようなネットを使用する可能性が生じる。

特に、ｐ　ＲＡ　Ｍの数学の運用に関する情報に関して、人工の神経回路網にニューラルネットワーク）に関する１９８９年の第１回のＩＥＥ国際会議の議事録、第３１３のページ２４２−２４６に書かれており、その内容はここに組み入れられている。

図９は、ＲＡＭＩ及びＲＡＭ２として表示される２つのｐＲＡＭを有する１つのニューラルネットワークを示す。実際のアプリケーションにおいて、より拡張されたネットワークが必要になり、その性質は、関連するアプリケ−ジーンに依存する。図９に示すようなネットワークは基本的な原理を示す。各出力は、図１に示す出力４に対応する。ＲＡ　Ｍ　１からの出力はＲＡＭＩの入力端ＩＮＩとして適用され、ＲＡＭ２からの出力は、ＲＡＭ１の入力端ＩＮ２への入力として適用される。ＲＡＭ２からの出力端は、ＲＡＭ２の入力端ＩＮ２への入力端として適用され、ＲＡＭ２の出力端は、ＲＡＭ２の入力端ＩＮＩへの出力端として適用される。ネットワークは、タイミング及びコントロールのラベル付き回路から受けられるクロック信号に応答して動作される。

ＲＡＭＩの回路は、図１０に詳細に示される。ＲＡＭ２は、ＲＡＭ２をＲＡＭＩと交換する以外図１０のＲＡＭＩと同様である。

ＲＡＭＩは、乱数のジェネレータである。これは、従来の構造であり、したがって、これについて詳細には説明しない。ここに示す実施例は、シフトレジスタを使用し、２１２７−１のシーケンス長を得るために１２７段が使用される。乱数ジェネレータは、入力端２゜３及び４を有する３つのＥＸＯＲのアレイを有し、シフトレジスタの選択された１つのタップＴに接続された３つのＥＸＯＲゲートの１つのアレイを有する。ＲＡＭＩの選択されたタップはＲＡＭ２に選択されたものと異なり、当業者によってよく知られた分野による選択は、２つのジェネレータによって発生する乱数の間の望ましくない関係を避ける。乱数ジェネレータの出力は、コンパレータを形成する２つの加算器に２つの４ビツトのセグメントとして供給される８ビツト乱数である。図示した実施例は、４つのアドレスで保持された４つの８ビツト数を保持するメモリを有する。このメモリは、２ビツトのアドレスによって番地指定される。ネットワークの各操作において、メモリ内のアドレス記憶ロケーションの内容は、それがその時に発生された乱数に加えられるコンパレータに供給される。コンパレータの出力が１であるときは、キャリービット内の加算結果であり、そうでなければ０である。

コンパレータの出力は、（図９においてアウトとラベルが付された）ＲＡＭの出力に供給され、またラッチに供給される。それは、メモリを番地指定することによってアドレスデコーダに供給される次のアドレスの１つのビットを形成するために保持される。図９及び図１０をともに参照することによって分かるように、（例えば、ＲＡＭＩの入力端ＩＮ２に供給される）アドレスの他のビットはＲＡＭ２の出力である。

また図１０は、始めにメモリ内にデータをロードすることによってシステムを初期化するＲ１ロード及びメモリデータとラベルを付された入力端を示す。最後に、図１０に示すように、ｐＲＡＭからの新しい出力の生成を初期化するために作用し、−組の８ＳＣＬＫパルスを生じさせる反転ゲートを介してラッチに接続された入力支持されたＧＥＮＥＲＡＴＥがある。図１１に示すクロックジェネレータは従来の構造であり、従って詳細には説明しないが、その構造及び動作は、図面から当業者にはおのずと明らかになろう。これは、ＲＡＭＩ及びＲＡＭ２の各タイミング入力端に供給される出力端５ＣＬＫでの８クロック信号のバーストを提供する。ジェネレートパルスが各時間において発生し、ＲＡＭＩ及びＲＡ　Ｍ　２は（各５ＣＬＫパルスにおいて１ビツトの）新しい８ビツト乱数を発生し、メモリ内の４つの記憶ロケーションの所定の１つの記憶ロケーションを番地指定し、アドレスロケーションの内容を有する乱数と乱数を比較し、従って出力を発生する。

ｐＲＡＭは、それに関する学習またはトレーニングのルールを有さない。トレーニングの特に有利な形態の提示は「学習能力を有するニューラルプロセッシング装置」の題名で同日に出願された同時出願内の請求の範囲に記載されている。これを説明する。

（ｐＲＡＭと識別される）動作ユニットが全体として装置の性能の品質に関して情報を受け取り、これを改良するためにそれらの活動をどう変化させるかをそれら自身毎に明らかにしなければならない適応する制御の問題において使用される方法である。それはグローバルなサクセス／障害信号にのみ依存するから、補強トレーニングは、「オンライン」ニューラルネットワーク用の選択方法である。

ｐ　ＲＡ　Ｍ用の補強トレーニングの形態は、迅速で効率のよい（及びその実施例においてｐＲＡＭの技術で完全に実行できるように改良された）装置である。

このトレーニングのアルゴリズムは、ディジタルまたはアナログハードウェアを使用して実行され自己収容された「学習ｐＲＡＭＪの製造を可能にする。このようなユニットのネットワークは広いアプリケーション、例えば自動ロボットの制御において見いだされる。制御は集中化される必要はなく、例えば、学習ｐＲＡＭの小さなネットがロボットのリムの個々の接続部に配置されている。このような制御構成は、半自律神経節に類似している。

共願の発明によれば、確率を表す数の各々毎に複数の記憶ロケーションを有するメモリと、コンパレータの入力端にロケーションの内容を読ませる各記憶ロケーションを選択的に番地指定する手段と、ノイズを表す乱数をコンパレータに入力するためのノイズ発生器と、番地指定された記憶ロケーション、ノイズジェネレータ、アドレスロケーションの数によって決定された第１と第２の値の一方を有する出力信号の確率から受けた数の値に依存する第１または第２の値を有する出力信号をコンパレータの出力端に現れるようにする手段と、ネットワークの成功または障害を表すエンベロンメント信号を受ける手段と、サクセス信号が成功する活動の確率を増大させるような方法で受けられるならば、アドレスの付いたロケーションに収容された数の値を変化させるための手段と、障害信号が不成功の活動の確率を増大させるような方法で受けられるならば、アドレスの付いたロケーションに収容された数の値を変化させるための手段とを有するニューラルネットワークに使用される装置が提供される。アドレス付きのロケーションに収容された数は、例えば、適当な増大または減少作用によって変化させられる。

本発明のこの観点によって表されるトレーニングの好ましい形態は次の公式によって表される。

６吋（ｔ）　＝ｐ（（ａ−吋）ｒ＋λ（ａ−αすｐ）（ｔ）δ（旦−±（ｔ））ここで、ｒ　（ｔ）　、ｐ　（ｔ）は、時間ｔで環境から受けられるグローバルなサクセス、ファウル侶号である。

環境応答はｐＲＡＭによって行われるが、他の多（のちのによっても発生される。ａ　（ｔ）は、ユニットの２進出力であり、ρ、λは定数Ｘ　［０，１］である。このデルタ関数は、時間ｔで実際に番地指定されたロケーションだけが変更されて使用可能であり、他のロケーションの内容は、時間ｔでリワードまたはペナルティに導（作用と接続されていない。ｒ＝１（成功）であるとき、αＵは、将来においてそのロケーションから同じ値゛を放出する機会を増大させるように変化するが、ｐ＝１（失敗）ならば、アドレスが増加したとき他の値を放出する。定数λは、リワードとペナルティの比を表し、λ用の非ゼロ値は、トレーニングがメモリ内容の適当な組に集約し、装置が誤った極小値内に捕らえられないことを保証する。

これによって、リワードかペナルティのいずれかの「神経」作用の可能性を許容するが環境の有益な探索などに使用し得る。

図１は、上述したようなｐＲＡＭを示す図である。

図２は本発明による学習特性を有するｐＲＡＭの実施例を示す図である。

図３は学習特性を有するｐＲＡＭの他の実施例を示す図である。

図４は実数入力を処理するようになっているｐ　ＲＡ　Ｍを示す図である。

図５は図２で使用するよりさらに一般化された学習ルールを実施するための能力を有するｐＲＡＭを示す図である。

図６は（以下に説明する）適確追跡を各メモリロケーションに加えたｐＲＡＭを示す図である。

図７は、適確な図面を有するｐＲＡＭが（以下に説明する公式９（ａ）をどのように実行するかを示す図である。

図８は、（以下に説明する）公式１０を実行するために必要な変更を示す図である。

図９は、２つのｐＲＡＭを使用するシンプルなニューラルネットワークを示す図である。

図１０は図９のｐＲＡＭを詳細に示す回路図である。

図１１は図９に使用されるタイミング及び制御回路を示す回路図である。

図２は公式（２）をハードウェアで実行する１つの方法を示す。メモリ内容αｉ　（ｔ＋１）は公式（２）によって各クロック期間に更新される。このｐＲＡＭ８は図１に示すユニットと同一であり、上記のテキストにおいて説明した。アドレス入力端５上の所定のアドレスにおいて、出力スパイクが上記したように発生される。項ａら読み取られる。これらの項は乗算器１３を使用することによってリワード及びペナルティ因数ρｒ１４及びρλｐ１５と掛は合わせられる。この結果のりワード／ペナルティの増分は他の加算器１２を使用してアドレスが付されたロケーションに記憶された値９に加算され、書き込みポートを使用してメモリ内に畜房される。学習公式（２）は学習速度定数ρの適当に小さい値のメモリ定数の論理的に予期し得る最終値に極めて接近する。しかしながら、これは、トレーニング用の長い長さに導く。

トレーニング速度を増加させるために、ρは始め大きな値に設定され、ステップの数が増加するにつれて適当な早さで消える因子によって連続的な時間ステップで次第に減少する。

また公式（２）は、ｐＲＡＭ技術を使用してハードウェアで実現される（図３参照）。この方法の利点は、乗算器回路が必要ではないことである。しかしながら、これはαｉ　（ｔ＋ｌ）を得るために２Ｍサイクルが必要であり、ここでＭは、αＵを表すために使用されるビット数である。この例において、αｉ　（ｔ）、ａ　（ｔ）。

ｒ　（ｔ）及びｐ（ｔ）、αｉからｐに行くラインによって伝達される多数のビットの順序）及びβ＝　（０，０，０，０，ρλ、　０．０．１−ρλ、０．ｌ −ρ、ρ、１．ρλ、１−ρ、ρ、１−ρλ）（３）によって得られるメモリ定数を伝達する入力ラインを有する補助の４人力ｐ　ＲＡ　Ｍ　１６によっては実行不可能である。

αｉ　（ｔ）Ｅ　［０，１］及びｐＲＡＭは別のパルスを介して通信する神経状の対象であるから、更新を実行するために（多数のサイクルにわたって、ここでＲによって指示される）平均時間を使用する必要がある。各ステップの補助ｐ　ＲＡ　Ｍ　１６の出力１７はａ、ｒ及びｐが同じままであり、αｌのみがＯと１との間で変換されるから、ｐＲＡＭ１６内の２つのロケーションの１方の内容からなる。積分器１９を使用するＲステップにわたって累算されたｐＲＡＭ１６の出力は、更新されたメモリ内容 αｉ　（ｔ＋ｌ）＝α１　（ｔ）＋Δαｉ　（ｔ）であり、α１　（ｔ）は（２）によって得られる。メモリのロケーションは、書き込みメモリポート１０を使用して積分器出力によって更新される。Ｒ＝２ゞを設定することが最も簡単であり、ここでＭはαＵを表すために使用されるビット数である。この更新において使用されるステップは、００Ｍビットレジスタ１９の内容をゼロに設定。

１、±（ｔ）（番地指定されたロケーション）、（ラッチ１８を使用した）ａ（ｔ）、及び（報償２４及びペナルティ２５の信号）　ｒ　（ｔ）及びｐ　（ｔ）。２０は報償及びペナルティ信号を提供する「環境」を表す。

２、次のＲ回のステップのために（スパイクトレインαｉを生成するために）ｐＲＡＭＳ内の同じロケーション土を繰り返し指定する。記録されたａ、ｒ、及びｐとともにこれらのパルスによって補助ｐＲＡＭ１６のロケーションからスパイクを発生させこれらの値を積分器１９内に累積する。

３．１９はαｉ　（ｔ＋１）に対するＭビットの近似値を含む。この近似値をポート１０を使用してｐＲＡＭ８のロケーション土にコピーする。ｐＲＡＭがアナログ回路を使用して実行されるとき、１９は始めにクリアされ、次にＲ回のステップにわたって積分する積分器になる。

この期間の後に出力は、ｐＲＡＭのアドレスｉに書き込まれる。これは上述したディジタル装置の記載と機能的には同一である。

図２に関連して説明したように時間によって学習速度ρを減少させる能力は、図３の方法に含まれる。

実数入力を必要とする適当な制御の多数の興味深い問題がある。本発明の他の目的は、このような入力を取り扱うことのできる変更されたｐＲＡＭを提供することにある。

本発明によれば、好ましい形態において、確率を表す数を記憶する複数の記憶ロケーションを有するメモリと、０から１への範囲で複数の実数を受け、その出力で一連の記憶ロケーションのアドレスを形成するメモリの各アドレスラインに加えられる同期した対応する複数の平行なパルス列を生成する実数ディジタルコンバータであって、パルスの確率は、そのアドレスラインに加えられるパルス列が引き出される実数の値に等しい所定のアドレスライン上にある１を表す実数ディジタルコンバータと、連続したアドレスのロケーションの各々の内容を入力として受け取るために接続されたコンパレータと、ノイズを表す一連の乱ンダムな数をコンパレータに入力するノイズジェネレータと、コンパレータの出力端に、アドレス付きの記憶ロケーション及びノイズジェネレータから受け取れられた数の値によって第１または第２の値を有する一連の出力信号が現れるようにするための手段であって、所定の出力信号は、アドレスロケーションで数によって決定された第１及び第２の値の内の一方を有する手段は、さらにコンパレータからの出力信号を積分するための積分器とを有する神経処理回路網で使用するためのニューロンが提供される。本発明によって提供される装置は、強化トレーニングルール（２）を実行するために上述したものと同様の平均時間の考えを使用して［０゜１］Ｎから（０，１）のマツピングを実行する。それは、ここで積分ｐＲＡＭまたはｉ−ｐＲＡＭとして言及され、図４に図示される。従って、実数の値の入力ベクトル２６ｘε［０，１］は、（実数スパイク周波数トランスレ連続的な２進入カバターンｉＸ　（０，１）　’の（ある期間Ｒにわたって）平均時間によって近似される。従って、ベクトルを作るライン（２６）の各々は、０から１の範囲の実数を有する。各ライン２６において、対応するアドレス人力５があり、これは、所定の場合において、１を表すパルスが対応するライン２６の実数値に等しい一連のパルスを有する。他の方法によれば、所定のライン５によって指示されたパルス列の平均時間は対応するライン２６の値に等しい。このライン２５のパルス列は互いに同期が取られている。トランスレータ２８は、いくつかの可能性を有するが、１つの可能性は、それ自身がｐＲＡＭであるトランスレータである。

各タイムにおいて、ステップｒ＝１．．．Ｒ，ｉ　（ｒ）は、アドレス人力５を使用してｐＲＡＭ８の特定のロケーションを選択し、ａ　（ｒ）としてここに表示された２進出力を行う。これらの出力は、内容がこのサイクルの始めでリセットされるスパイク積分器１９内に累積される。この積分器１９は固定された間隔にわたって受け取られた１の数を計数するカウンタと、ルックアップテーブル２７がないならば、いかに示すような数字カウンタに依存する２進出力２１を発生する装置とを有する。この装置は、１つの記憶ロケーションを有するｐＲＡＭのように動作され、例えば、乱な数がオーバーフロービットがあるかどうかに依存して発生されるＯまたは１がカウンタの内容に加えられる。Ｒ回のステップの後に、１９の内容は、確率ここで、ｘｕ＝Ｐｒｏｂ　（アドレス付きＵ）は、（１）の右手側上のデルタ関数を置き換えるさらに一般的な分配関数である。

一連の固定された間隔を越えて平均化されることに替えて、最後に終了したところから始まり、各平均の形成後に発生された出力を有する移動平均を使用してもよい。

ある適用において、２進出力Ｐｒｏｂ　（ａ＝１　ｌ　ｘ）＝ｆ（Σ）（６）を発生するためにΣ＝ΣαｕＸｕの関数を使用することが望ましい。例えば、ｆは（スレッショルドθ及び逆転温度βを有する）シグモイドである。

この場合において、ｉ−ｐＲＡＭの出力を使用する前に積分器１９の内容を適切に変換する必要がある。これは２７によって指示されるルックアップテーブルによってハードウェア内で実現される。この場合、スパイクジェネレータ１９によってカウントされた１の数は、ジェネレータ１９の出力端で０または１を発生しないように使用されるが、ルックアップテーブル２７内の記憶ロケーションのアドレスとしてルックアップテーブル内の各ロケーションとして０または１を含む。ルックアップテーブル２７の出力端はジェネレータ１９の出力端によってアドレス指定されるとき０または１である。

前述したようにｉ−ｐＲＡＭは訓練ルール（２）の一般化された形態を実行するために開発された。ルール（２）によれば、１つの２進アドレスの入力は、変更された１つのアドレス付きのロケーションの内容に帰着する。しかしながら、ｉ −ｐＲＡＭは、実数値の入力端が複数のロケーションの内容を変更する訓練ルール（２）の一般化された形態を実行するために使用される。これは、アドレスの付いた記憶ロケーションの時間数をカウントするためのアドレスカウンタを使用することによつて達成され、学習ｉ−ｐＲＡＭと称されるものを提供する。この −膜化された訓練ルールは、 Δａｇ　（ｔ）　＝ρ（（ａ−ａすｒ＋λ（ａ−ａすｐ）　（ｔ）　Ｘｕ　（ｔ）　（８）は（２）のデルタ関数を置き換える。

従って、学習ｉ−ｐＲＡＭにおいて、（公式（２）のアルゴリズムを使用して得られた）最大ｐＲＡＭ２進出力ａ　（ｔ）についてアドレス応答性に比例する変化によって更新される。

Ｘ１１はアクセスされたアドレスによって周波数を記憶する。ｐＲＡＭ（図１）のメモリ部分に対する１つの変更は、図５に示すような内容または積分器２２を使用してアクセスされるアドレス回数を記憶する。

また、Ｘは、Ｎ入力ｐＲＡＭ内に記録され、図３と同様な方法でメモリ内容を変更するように使用される。しかしながら、この方法は、図５のアーキテクチャを使用するよりも２Ｎ長い時間を取る。

図２及び図３に関して考慮したと同様の理由で、学習速度定数ρに最初は大きな値を時間がたつにつれてゼロを有するようにすることによって加速することができ、これは、上述したと同様な方法で達成される。

ルール（８）は、報償または罰則におけるように状態で取り扱うためにさらに一般化することができ、環境の応答を引き起こすクリティカルな活動の後にタイムステップの不明瞭な数に到達する。このような遅延した強化タスクにおいて、ポジションアクション関連よりパースアクションを学ぶことが必要である。これは図６に示すように各メモリロケーションへの適確性の追跡を加えることによって行われる。アクセスされないロケーションのこれらの指数的な遅延は、双方のアクセス周波数を反射させるように実行され、ｉ−ｐＲＡＭ活動の結果を招く。この文脈において、「アクセス」は与えられたアドレスを有する記憶ロケーションがアクセスされたことを意味し、「アクティビティ」は記憶ロケーションがアクセスされたとき、ｐＲＡＭが作動する結果を招き（例えば、その出力が１になり）、「イナクティビティ」は、記憶ロケーションがアクセスされたとき、ｐＲＡＭが作動しない結果を招く（例えば、その出力が０になる）ことを意味する。カウンタまたは積分器２３の追跡ｅａは、各所定の記憶ロケーションで「アクセス及びアクティビティ」がある場合の数を記録し、一方、カウンタまたは積分器２４に記録された追跡ｆｕは、変化する環境に適当な応答を行う場合に等しく重要な、各所定の記憶ロケーションでの「アクセス及びアクティビティ」がある場合の数を記録する。図５において、カウンタまたは積分器２２は各記憶ロケーションがアクセスされた全体の回数を記録する。適確性の追跡は、タスクに開始においてゼロに初期化され、時間ｔにおいて、それらが、６Ｇ＝δｅｕ（ｔ−１）＋ δａ　（ｔ）　Ｘａ　（ｔ）　（９ａ）ｆｕ＝δｆｕ（ｔ−１）＋δａ　（ｔ）　Ｘｕ　（ｔ）　（９ｂ）を有するようにほぼ更新される。

特徴がハードウェアで実現可能である公式９ａによって更新される。ｅｕの電流値はポート２６から読み取られ、乗算器１３を使用して適確性追跡速度δに掛は合わせられる。この積は、書き込みポート２７を使用してｅｕ２３として書き戻される前にアクセスカウントデータ。

Ｘｕ及び遅延速度δ２９の補数とｐＲＡＭ出力の積ａ（１）を有する加算器１２を使用して組み合わされる。

これは公式９ａを使用する。

ｆｕを更新することは、公式９ｂを実行するために使用される出力ａ　（ｔ）の反転を除いて上述したものと同様である。環境の一時的な特徴について学習する能力に帰する公式（８）の必要な延長は、 Δａｕ　＝ρ（（ａｕ　ｅｕ　−ａｎ　ｆｕ　）　ｒ＋λ（ａｎ　ｆｕ　−ａｎ　ｅｕ　）　ｐ）　（ｔ）δ＝Ｏ，ｅａ　＝ａＸａ　、ｆｕ　＝ａＸａのとき、１０は初めの学習ｉ−ｐＲＡＭ）レーニングルール（８）を減少させる。

（図７に示す）適確性追跡を更新することに加えて、メモリ内容αＵは学習活動を実行するように変更される。

図８は、図７の動作に加えて、公式１０を実行するためれた積から引かれる。乗算器３４によって生成された積は、減算器３６内の乗算器３１によって生成された積から引かれる。減算器３５の出力は、３９における環境ｐら乗算器３７への入力である罰則因子ｐと掛は合わせられる。減算器３６の出力は４０における環境から乗算器３７への入力である報償因子ｒと掛は合わせられる。乗算器３７及び３８は加算器１２を使用して１９で最初のメモリ内容に加えられる。加算器１２からの出力は、書き込みポート１０を使用してメモリ内に書き込まれ、それによってメモリが更新される。説明した動作は公式１０で説明した学習ルールを実行する。

公式（８）の学習ルールの変更例は、ｉ−ｐＲＡＭのビヘイビアをさらに現実的に考慮にいれたルールである。

Δα。　（ｉ）　＝ｐ　（Ｕｇ”Ｔ）　ａｉ　−（（ＺＪＬ”　ｇ）　＝ａｉ　コ　）　。

＋４　［（ａｌ”Ｔ）ａｉ　−（ａｌ（１）ｇ）　ａｉ　］　ｐ）　Ｘｉここでｇは例えばここで、適確性追跡が加えられ、これは、ΔＣＬ＝　−ρ（［Ｔｘ”ｇ）ｅｔ　（ａｌ（ｉ）ｇ）ｆｌＤｒ（ｉ）− ＋λ［＠ｌ（１）ｇ）ｆｌ−（ａｌ（ｉ）ｇ）ｅＩＬコ　ｐ）ここに述べた本発明の種々の観点によれば、この装置はハードウェアによって実現される。また、本発明は説明したハードウェアをシュミレートするために従来のディジタルコンピュータを使用して実現することもでき、本出願はその可能性をも含む。しかしながら、非常に小さい回路網を除いて現実的でなく、ハードウェアによる方法がより現実的であり、したがってさらに興味深い回路網である。

また、例えばＶＬＳＩを使用した他のハードウェアの実現が可能であることに留意すべきである。

要　約　書確率を表す数を記憶する複数の記憶ロケーション３を有するメモリを有し、記憶ロケーションの各々は、そのロケーションの内容をコンバータ２の読み出すことができるように選択的にアドレス指定可能である。ノイズジェネレーター１はノイズを表す乱数をコンバータに入力する。コンパレータの出力端でアドレス指定された記憶ロケーション及びノイズジェネレータから受けられた数値によって第１と第２の値を有する出力信号４が現れる。

所定の第１と第２の値の一方を有する出力信号の確率はアドレス指定されたロケーションの数字によって決定される。メモリ用のアドレス入力はその入力ベクトル２６として実数値を有する実数スパイク周波数から導かれる。

補正書の翻訳文提出書（特許法第１８４条の８）平成５年１月４日国

Claims

【特許請求の範囲】

１．確率を表す数記憶する複数の記憶ロケーションを有するメモリと、０から１への範囲で複数の実数を受け、その出力で一連の記憶ロケーションのアドレスを形成するメモリの各アドレスラインに加えられる同期した対応する複数のパラレルなパルス列を生成する実数ディジタルコンバータであって、パルスの確率は、そのアドレスラインに加えられるパルス列が引き出される実数の値に等しい所定のアドレスライン上にある１を表すディジタルコンバータと、連続したアドレスのロケーションの各々の内容を入力として受け取るために接続されたコンパレータと、ノイズを表す一連の乱な数をコンパレータに入力するためのノイズジェネレータと、コンパレータの出力端に、アドレス付きの記憶ロケーション及びノイズジェネレータから受け取れられた数値によって第１または第２の値を有する一連の出力信号が現れるようにするための手段であって、所定の出力信号は、アドレスロケーションで数によって決定された第１及び第２の値の内の一方を有する手段と、コンパレータからの出力信号を積分するための積分器とを有するニューラルネットワークで使用するための装置。
２．積分器に接続され、かつ積分器によって生成された積分値の関数として現れる２つの値の内一方を有する出力を有する出力ジェネレータを有する請求項１に記載の装置。
３．出力ジェネレータは、積分器によって生成された積分値の関数として現れる２つの値の内所定の一方を発生するためのルックアップテーブルを有する請求項２に記載の装置。
４．乱数及び記憶ロケーションの数は同じ数のビットを有し、コンパレータは、受け取られた乱数及びアドレス付きのロケーションから受けた数値を加えるように動作し、出力信号は、加算がオーバーフロービットになるかどうかによって第１と第２の値を有する請求項１，２または３に記載の装置。
５．回路網のサクセスまたは障害を表す環境信号から受け取るための手段と、成功動作の確率を増加するような方法でサクセス信号が受け取られるならば、アドレス付きのロケーションに記憶された数の値を変化するための手段と、不成功動作の確率を減少するような方法で障害信号が受け取られるならば、アドレス付きのロケーションに記憶された数値を変化するための手段とを有する請求項１から４のいずれか１項に記載の装置。
６．記憶ロケーションがアドレス指定された回数を計数するためのアドレスカウンタと、アドレス指定された記憶ロケーションの回数によってアドレス指定されたロケーションに記憶された数の値を増加しまたは減少させるための手段とを有する請求項５に記載の装置。
７．所定のロケーションに記憶された数の値において、Δαｕの増加または減少は、公式 Δαｕ（ｔ）＝ρ（（ａ−αｕ）ｒ＋λ（ａ−αｕ）Ｐ）（ｔ）Ｘｕ（ｔ）によって与えられる。ここで、ｒ（ｔ）及びｐ（ｔ）は時間ｔで環境から受け取られた成功及び障害信号であり、ａ（ｔ）はコンパレータ∈｛０，１｝の出力信号の値であり，ρ及び λは定数∈｛０，１｝であり、αｕは、アドレスロケーションｕで記憶された数によって表される可能性である請求項５または６に記載の装置。
８．各アドレス用の２つのカウンタに加えて、前記カウンタの一方の内容は関連する記憶ロケーションがアクセスされ、装置の出力信号が前記第１の値を有するとき各場合において増大するようになっており、前記他のカウンタの内容は関連する記憶ロケーションがアクセスされ、装置の出力信号が前記第２の値を有するとき各場合において増大するようになっており、前記他のカウンタの双方の内容は記憶ロケーションがアクセスされる度毎に遅延因子を与え、アドレス付きのロケーションに記憶された数値は他のカウンタの内容によって増加し減少する請求項６に記載の装置。
９．時間ｔでの前記他のカウンタの内容は、ｅｕ（ｔ）＝δｅｕ（ｔ−１）十δ ａ（ｔ）Ｘｕ（ｔ）ｆｕ（ｔ）＝δｆｕ（ｔ−１）十δａ（ｔ）Ｘｕ（ｔ）によって与えられ、δは選択された定数，０≦δ＜１，及びδ＝１−δである請求項８に記載の装置。
１０．所定のロケーションに記憶された数の値において Δαｕ（ｔ）の増加または減少は公式 Δαｕ（ｔ）＝ρ（（αｕｅｕ−αｕｆｕ）ｒ＋λ（αｕｆｕ−αｕｅｕ）ｐ）（ｔ）によって与えられる請求項９に記載の装置。
１１．前記メモリは乱アクセスメモリである請求項１から１０のいずれか１項に記載の装置。
１２．確率を表す数を記憶する複数の記憶ロケーションを有するメモリと、０から１の範囲の複数の実数を受け取り、一連の記憶ロケーションのアドレスを生成するためにその出力でメモリの各アドレスラインに供給される対応した複数の同期した平行なパルス列を受け取る実数ディジタルコンバーターであって、１を示すパルスの確率はアドレスラインに供給されるパルス列が引き出される実数の値に等しい所定のアドレスライン上のアドレスにあるディジタルコンバータと、記憶ロケーションが指定されたとき、アドレス指定された記憶ロケーションから受けられた数の値に依存して第１または第２の値を有する一連の出力信号が装置の出力端に現れるようにする手段であって、出力信号の確率は、アドレス指定されたロケーションによって決定された第１と第２の値の所定の一方を有する手段と、前記出力信号を積分する積分器とを有する神経処理回路網内で使用する装置。