JP2006119930A

JP2006119930A - 神経回路素子およびそれを用いた学習装置

Info

Publication number: JP2006119930A
Application number: JP2004307318A
Authority: JP
Inventors: Koji Tsujino; 広司辻野; Nobuaki Miyagawa; 宣明宮川; Hajime Matsumoto; 元松本
Original assignee: Honda Motor Co Ltd; RIKEN Institute of Physical and Chemical Research
Current assignee: Honda Motor Co Ltd; RIKEN Institute of Physical and Chemical Research
Priority date: 2004-10-21
Filing date: 2004-10-21
Publication date: 2006-05-11

Abstract

【課題】システムの振る舞いに応じ学習の方向を制御でき、学習すべきイベントの前後関係をより強力に学習することが可能な神経回路素子およびそれを用いた学習装置を提供する。
【解決手段】本発明で提供する、複数の入力信号に応答して出力信号を出力する神経回路素子は、複数の入力信号を時系列順に履歴値として積算し記憶する履歴蓄積部と、複数の入力信号と対応する結合係数との積の総和とに基づく内部状態がしきい値を超えた場合に前記出力信号を出力する出力部とを備える。履歴値は内部状態に依存し、内部状態は出力部の発火直後に大きく減算され、結合係数は出力部の発火後に履歴値に従って強化または減衰される学習を実行する。これにより、内部状態が低い場合は履歴が記憶されにくく、内部状態が発火しきい値に近づくにつれて履歴の記憶が強化されるので、学習の方向性を持って履歴が蓄積されることになる。
【選択図】図２

Description

本発明は、入力信号に対応して出力する出力信号の内容を学習する神経回路素子および当該神経回路素子によって構成される神経回路の学習装置に関する。

神経回路（ニューラルネットワーク）の入出力関係を学習する方法に関する従来技術として、バックプロパゲーション、自己組織化マップ、Hebb学習、ＴＤ（temporal differential）学習などが挙げられる。これらの学習方法は、神経回路の構成要素である神経回路素子（ニューロン）が、さまざまな入力情報パターンに対応する出力を獲得することを可能とする。しかし、多くの場合、素子間の結合係数を更新するなどの処理による学習の進行は、現時点での入出力が同時に発火しているかどうかに集約されており、過去の情報は学習に反映されていなかった。つまり、時系列情報処理の学習に関しては大部分の従来手法が理論的にサポートされておらず、上記に挙げた中で時系列情報の学習に対応しているのはＴＤ学習のみである（ＴＤ学習に関しては、例えば非特許文献１を参照）。

しかし、ＴＤ学習は、学習に時間がかかるという問題点がある。ＴＤ学習では、時系列情報獲得のために適正値（eligibility）という概念を導入している。適正値は入力信号の履歴のようなものであるが、入力信号と出力信号両方に依存しているので神経回路素子が発火するタイミングで入力がなければ新たな履歴が蓄積されない。つまり、適正値は、入力信号の時系列情報としては不完全であり、例えば長期的な発火プロセスなどは記憶されない。また、結合係数の更新式が強化信号と適正値に依存しているため、強化信号さえあればそのときに発火しなくても過去に入力と同期の発火があれば結合係数が強化されてしまう。これらの理由で、学習初期では多くの学習ステップを要する。

一方、重松らの神経回路モデル（特許文献１参照）は、時系列情報を学習可能な神経回路素子を提案している。このモデルでは、出力の発火に関係なく、入力の時間的情報が履歴に蓄積される。また、発火時のみ結合重みが更新されるので学習効率が良いのが特徴である。

しかし、重松らの神経回路モデルでは、時間情報の学習が入力の履歴と出力にのみ依存しているため、システムの中で用いる場合、学習の方向性を制御できない。また、時間情報履歴が入力と減衰係数のみに依存しているため、時間方向での情報学習が曖昧に進むという欠点があった。さらに、重松らのモデルの学習方法では、時系列情報を扱う学習制御の枠組みとして主流である強化学習に適用することができないという問題点がある。
特公平７−１０９６０９ A. G. Barto et al., "Neuronlike Adaptive Elements That Can Solve Difficult Lerning Control Problems", IEEE Transactions on Systems, Man and Cybernetics, Vol. SMC-13, No. 5, pp. 834-846, 1983

ＴＤ学習など従来の強化学習に代わる、時系列情報学習が可能であり、学習時間の短い神経回路素子が望まれている。

本発明は、システムの中で用いられるとき、システムの振る舞いに応じ学習の方向を制御でき、学習すべきイベントの前後関係をより強力に学習することが可能な神経回路素子およびそれを用いた学習装置を提供する。

本発明の一形態では、複数の入力信号に応答して出力信号を出力する神経回路素子は、複数の入力信号を時系列順に履歴値として積算し記憶する履歴蓄積部と、複数の入力信号と対応する結合係数との積の総和とに基づく内部状態がしきい値を超えた場合に前記出力信号を出力する出力部とを備える。履歴値は内部状態の変化に依存する。この神経回路素子は、内部状態を出力部の発火直後に大きく減算し、結合係数を出力部の発火後に履歴値に従って強化または減衰させる学習を実行するよう構成されている。

この形態によれば、発火に関係なく入力信号の時系列情報が履歴に蓄積されるのと同時に、内部状態に応じて履歴に変化を加えることが、学習の方向性を持たせることとなる。つまり、内部状態が低い場合は履歴が記憶されにくく、内部状態が発火しきい値に近づくにつれて履歴の記憶が強化されるので、学習の方向性を持って履歴が蓄積されることになる。

また、神経回路素子の発火後に内部状態を大きく減算することは、間接的に履歴も発火後に大きく減少させることになり、履歴値の発火前後のコントラストがより明確化され、より時間的方向性を持った情報が履歴として蓄積される。

本発明の別の形態では、履歴値は全体システムからの情報を伝達する強化信号にも依存している。この強化信号により履歴に変動を加えることができ、システムに依存した学習制御が可能となる。

さらに、本発明で提供する神経回路素子を複数組み合わせることによって強化学習を実行することが可能となる。

図１は、本発明の一実施形態である神経回路素子（ニューロン）１０を示す概略図である。神経回路素子１０は、例えば汎用コンピュータをプログラムすることにより形成される。また神経回路素子１０は、アナログ回路またはデジタル回路で形成することも可能である。この図において、神経回路素子１０のうちの任意の神経回路素子ｉは、複数（図１では３個）の神経回路素子ｊから受け取る入力信号Xj（t-1）に基づいて動作をおこなう。神経回路素子ｊとの入力結合部ｊを介して受取った入力信号Xj(t-1)は、結合係数Wij(t)を乗算して素子内部に集積され、内部状態Vi(t)が算出される。ここで結合係数Wij(t)は、神経回路素子の活動履歴や発火状態に依存する変数であり、神経回路素子間の結合効率を表す。続いて、出力結合部において、現在の内部状態Vi(t)に基づいて出力信号Xi(t)が決定される。これに併せて出力および内部状態が逆伝播され、履歴Hijと結合係数Wijが更新される。ここで、履歴Hij(t)とは、入力信号Xjの時刻ｔまでの時系列情報である。

図２は、神経回路素子ｉをさらに詳細に示すブロック図である。以下、この図を参照して、神経回路素子ｉの機能を説明する。

複数の入力結合部２１を介して受取られた入力信号Xj(t-1)は、入力信号変換部２２で結合係数を乗算され、内部状態算出部２３においてその他の入力信号と集積される。さらに内部状態の減衰値pVi(t-1)が残留値として以前から引き継がれ、集積された入力に加わり、現在の内部状態Vi(t)となる。内部状態Vi(t)は次式で表される。

ここで、pは内部状態Viの減衰速度を決定する定数であり、０＜ｐ＜１である。通常、内部状態Viは入力信号と過去の内部状態に基づいて決定されるが、神経回路素子ｉが発火（Xi(t-1)=１）した直後には、静止状態V₀から所定値δだけ低い値に強制的に設定される。この処理は、素子が保持する時系列情報をより明確にするためであるが、詳細は後述する。

現在の内部状態Viに基づいて、神経回路素子ｉの出力信号Xi(t)が決定される。本実施形態では、入力信号Xj(t-1)および出力信号Xi(t)は、デジタル的なパルス（０か１）とする。内部状態Viが所定のしきい値θより大きいとき、神経回路素子ｉは発火してパルスを出力する（Xi(t)＝1）。しきい値より小さいとき、パルスを出力しない（Xi(t)＝0）。神経回路素子ｉの出力Xi(t)は次式で表される。

以上説明したような神経回路素子ｉを組み合わせてニューラルネットワークを構成することが可能である。各神経回路素子はアナログ回路、デジタル回路またはソフトウェアで実現することができる。また、入力信号および出力信号をアナログ値（例えばパルス頻度）にすることで連続情報を扱うことも可能である。

次に、神経回路素子１０の時系列学習方法について説明する。引き続き図２を参照すると、出力結合部２４で神経回路素子ｉの出力信号Xi(t)が決定された後、現在の内部状態Vi(t)の情報が各入力結合部２１の履歴蓄積部２５へと送られ、結合されている神経回路素子ｊに関する履歴値Hij(t)を更新する。本発明では、これらの履歴値Hij(t)の変化を神経回路素子ｉの内部状態Viに依存させることによって、発火前後のシナプス履歴の時間変化のコントラストをより明確にすることが可能となる。また、履歴値Hij(t)を併せて強化信号ri(t)にも依存させることにより、学習の方向性を制御することを可能にする。神経回路素子ｉにおける神経回路素子ｊからの入力の履歴値Hij(t)は次式のように表される。

ここで、λは右辺第一項と第二項の比率を決めるパラメータ（減衰係数）であり、0＜λ＜１である。右辺第一項は、強化信号ri(t)、内部状態Vi(t)および神経回路素子ｊからの入力信号Xj(t-1)の積により履歴が更新されることを示す項である。第二項は、古い履歴Hij(t-1)が減衰係数λにより減衰されて蓄積されることを示す項である。このような履歴値の定義により、神経回路素子ｉに結合されている神経回路素子ｊが発火したときに、その情報が履歴に加えられることを表現できる。また、履歴値Hij(t)は神経回路素子ｉ自身の発火には依存せずに蓄積されるので、より長期的な発火プロセスも記憶することが可能である。

続いて履歴値Hij(t)が結合係数変更部２６へ送られて、時系列情報を含む履歴値Hij(t)に基づいた結合係数Wijの更新が行われる。結合係数の変更分ΔWij(t)は次式のように表される。

ここで、αは学習の進行速度を表す定数（学習率）であり、0＜α＜1である。Hi₀は学習の方向を決定するしきい値である。履歴値Hij(t)がしきい値Hi₀より大きい場合には、神経回路素子ｊとの結合係数Wijは増強され、しきい値より小さい場合にはWijは減衰される。Zi(t)は神経回路素子ｉの発火に依存する関数であって、発火後所定時間τ経過後に学習を実行させるための係数となる。Zi(t)は次式のように表される。

式（４）、式（５）は、神経回路素子ｉが発火してからτ[msec]経過した後に、その時点の履歴値Hijに基づいて神経回路素子ｊとの結合係数Wijが更新されることを示す。所定の時間τだけ更新を遅延させることは、生体の神経学習動作に３０[msec]程度の時間遅れが生じる現象を参考にしたものである。τの値は０より大きな微小値でさえあれば良く、神経回路素子の使用目的、制御対象の特性などの条件に応じて適宜設定すれば良い。

ここで、従来技術と本発明との相違点について説明する。図３は、従来技術として取り上げる、重松らの神経回路素子３０（特公平７−１０９６０９）（図中（ａ））と、ＴＤ学習法４０（図中（ｂ））のブロック図である。本発明のブロック図（図２）と対応付けて、それぞれの情報の流れを表現している。

図３（ａ）に示すように、重松らの神経回路素子３０（特公平７−１０９６０９）は、履歴値Hijを入力信号Xjと減衰係数のみに依存している（履歴蓄積部３５を参照）。一方、本発明は（３）式に示すように、入力信号Xj、内部状態Vi、強化信号ri、および減衰係数λに依存して履歴値が更新される（図２の履歴蓄積部２５を参照）。これにより、強化信号や内部状態の増減が履歴に反映されるようになり、間接的に学習の方向性を制御することが可能となる。

また、図３（ｂ）に示すように、ＴＤ学習は、本発明の履歴値Hijに該当する適正値（eligibility）が入力信号Xjと出力信号Xi両方に依存しているので（履歴蓄積部４５を参照）、出力が発生しなければ入力信号の情報については履歴として蓄積されない。本発明は、履歴値Hijの更新は出力信号Xiに依存しないので、長期的な発火プロセスを履歴として蓄積することが可能である。

さらに、ＴＤ学習は、結合係数Wijの更新が強化信号rと適正値（履歴値）Hijに依存しているので（結合係数変更部４６を参照）、現時点で入出力信号の発火が無くても、過去に同時発火があれば結合係数Wijが更新されてしまう。しかし、神経回路素子の学習の観点からは、重要度の低い状態でも学習が進行してしまうことが学習の遅延を招く弊害を生じる可能性が高い。

本発明は、ＴＤと同様に履歴値Hijを結合係数Wijの更新に用いているが、併せて出力信号Xi依存の関数Zi（式５）を用いているため、神経回路素子発火時にしか結合係数Wijが更新されない。このため、本発明はＴＤ学習に比べて学習の収束を高速にすることが可能である。

図４は、本発明の神経回路素子の挙動を示すシミュレーションの結果である。図中（ａ）から（ｃ）は、それぞれ神経回路素子ｉにおける、結合する他の神経回路素子１〜３からのパルス入力列X₁、X₂、X₃を示している。（ｄ）は神経回路素子ｉの内部状態Viであり、（ｅ）は神経回路素子ｉの出力Xiである。（ｆ）から（ｈ）は、神経回路素子１〜３における履歴値H_i1、H_i2、H_i3である。

内部状態Vi（ｄ）と出力Xi（ｅ）に注目すると、神経回路素子ｉが発火した時には内部状態Viが大きく低下している（図中Ａ参照）。一方、神経回路素子ｉが発火しない状態では内部状態Viは低下せず、（１）式に従って、発火しきい値まで徐々に蓄積されていく。このように、（１）式で出力発火時に大きく減算する処理により、発火前後の内部状態Viのコントラストが明確となるので、履歴値H_i1、H_i2、H_i3の出力発火によるコントラストもより明確になることがわかる。この結果、従来手法より強い時間的方向性を持った情報が履歴として蓄積されることが可能となっている（（ｆ）〜（ｈ）を参照）。

図５は、図４で実施したシミュレーションと同じ構成、同じ入力信号を与えた時のＴＤ学習による挙動を示すシミュレーション結果である。ＴＤ学習は、入力と出力が同時に発火した場合のみ実行されるHebb式の履歴更新をするため、このように頻度の少ない入力列X₁、X₂、X₃に対しては履歴保持能力が弱く、かつ入力による結合係数Wijの変更も弱いものとなる。神経回路素子ｉの発火前後のコントラストは、内部状態Viは明確に現れているが（（ｄ）を参照）、履歴値H_i1、H_i2、H_i3の変動は本発明と比べて微弱であることが確認できる（（ｆ）〜（ｈ）を参照）。

図４と図５は、本発明がＴＤ学習に比べてより明確な時系列情報を履歴に蓄積することが可能であることを示している。また、この履歴値H_i1、H_i2、H_i3を利用することにより結合係数Wijの更新が大きくなるので、学習の高速化を実現可能であることも示している。

次に、本発明の別の実施形態として、前述の神経回路素子１０を適用したラジコンヘリコプターの運動制御システムについて説明する。

図６は、このシステムの構成例を示す図である。このシステムは、カメラ６２によるターゲット６３の位置情報およびジャイロ６１による機体６４の姿勢情報に基づいて、ホバリングなどのヘリコプター６０の自律飛行を制御する。

制御対象であるヘリコプター６０は、機体６４、メインロータ６５、およびテールロータ６６から構成されている。ヘリコプター６０は、メインロータ６５およびテールロータ６６の回転により空中に浮揚する。

機体６４にはジャイロ６１、カメラ６２、運動制御部６７およびサーボモータ６８が搭載される。ジャイロ６１は機体６４のピッチ、ヨーおよびロール角を検出し、カメラ６２はヘリコプター６０の自律飛行の指標となるターゲット６３の画像を提供する。ジャイロ６１およびカメラ６２からの情報は運動制御部６７へ入力される。また、メインロータ６５およびテールロータ６６の基部にはそれぞれ伸縮機構６９およびリンク機構７０があり、ロッド７１などによりサーボモータ６８と連結されている。運動制御部６７からの指令値によってサーボモータ６８の出力が変化すると、伸縮機構６９およびリンク機構７０を介してメインロータ６５およびテールロータ６６の傾きも変化する。これらロータの傾きの変化によって、ヘリコプター６０のピッチ、ヨー、およびロール角が調整される。

図７は、運動制御部６７の構成をさらに詳しく示したブロック図である。運動制御部６７は、センサ情報状態分離部７２、感覚評価部７３、および行動学習部７４を含む。この運動制御部は、プログラムなどのソフトウェア、ならびにアナログ回路およびデジタル回路などのハードウェアのどちらでも実現可能である。また、全体をソフトウェアまたはハードウェアで構成しても良いし、構成要素を個別にソフトウェアまたはハードウェアで構成し、これらを接続することによってシステムを構築しても良い。

運動制御部６７は、ジャイロ６１、カメラ６２などのセンサ類から機体６４の姿勢情報、ターゲット６３の位置情報などの外界の情報を得る。得られた情報は、センサ情報状態分離部７２にて、いくつかの状況に分類される。この分類は、たとえばKohonenの自己組織化マップ（Self Organizing Map、ＳＯＭ）で可能である。ＳＯＭを用いた場合、センサ情報を類似性により分類したマップが形成され、センサ情報は、次元が圧縮された状態へと変換される。

感覚評価部７３は、ジャイロ６１、カメラ６２からの入力情報をもとに、自己の状態が不安であるかを評価する。たとえば、ジャイロ出力の大きな振幅は不安要素であるし、カメラから情報が得られない（ターゲットが捕捉されない）ことも不安要素となりうる。状態評価に基づき、感覚評価部７３は、学習の強度を制御可能な強化減弱信号（図１、図２の強化信号ri(t)に相当）を出力する。例えば、ヨー角、ロール角、またはピッチ角が所与のしきい値（例えば１０度）を超える場合、または機体の上下動が大きくジャイロ出力の変動が所定のしきい値を超える場合、対応する強化減弱信号は負の値となる。センサ毎に局所的な強化減弱信号が求められる。この局所的な強化減弱信号の合計が、システム全体の強化減弱信号となる。

感覚評価部７３の出力は行動学習部７４の学習を強化するほか、入出力インタフェース７５において、行動出力を直接制御する。直接制御は、たとえば、自己の状態が不安であるとき、行動出力を弱めるなどの制御である。

センサ情報状態分離部７２で分類された状態を入力として、行動学習部７４は状態に応じた行動の選択を学習する。本実施形態における行動は、具体的には、ヘリコプター機体の上下動（上昇と下降）、ヨー角、ロール角、およびピッチ角にそれぞれ相当する４チャンネルの制御ポートにおける、各チャンネルへの出力値を選択することである。行動の選択学習は、感覚評価部７３の強化減弱信号により進む。

行動学習部７４において、すべての学習は、提案する神経回路素子１０を用いた神経回路で行われる。学習は基本的には強化学習により進む。つまり、システムが何らかの行動を起こし、その行動結果を反映して行動が修正されていく。しかし、ＴＤ学習のような従来の強化信号の方法は、学習に時間がかかるため、ヘリコプター制御のように試行数が限られるような学習への適用は非常に困難とされている。

行動学習部７４の神経回路構造は、Bartoらによって提案されているActor-Critic構造を導入した。この構造では、Actor部が行動選択の学習を行い、Critic部が強化信号の予測を行うことで内部強化信号を生成する。モデルの挙動は脳の大脳基底核という行動学習を行う中枢から得られる神経生理的データと合致しているという知見がある。

ただし、Bartoらの実装はＴＤ学習モデルによるものなので、前述の学習時間の長さという問題を抱える。そこで、学習モデルを本発明で提案する神経回路素子１０の学習方法に変更した。

図８は、行動学習部７４の構成をさらに詳しく示したブロック図である。行動学習部は、センサ情報状態分離部より入力ベクトルＸ(t)＝｛X_１(t)，・・・，X_ｊ(t)｝を受け取り、感覚評価部より強化減弱信号ベクトルR(t)＝｛ｒ_１(t)，・・・，ｒ_ｎ(t)｝を受け取る。X_ｊ(t)は前記センサ情報状態分離部６３で分類された状態であり、添字ｊは状態の数を表す。これら状態Xi(t)の集合X(t)が、すべての神経回路素子への入力となる。ｒ_１(t)〜ｒ_n-1(t)は、各センサの計測値に基づいて求められた局所的な強化減弱信号である。ｒ_ｎ(t)は、局所的な強化減弱信号の総和であり、システム全体の強化減弱信号である。局所的な強化減弱信号ｒ_１(t)〜ｒ_n-1(t)の各々は、Actor１〜Actor n-1の強化学習にそれぞれ利用される。システム全体の強化減弱信号ｒ_ｎ(t)は、Criticの学習に利用される。

行動学習部は、局所的な強化減弱信号と同数（n-1）のActor８１を有する。各Actor８１は、入力X(t)に基づき局所的な行動指令を出力する。本実施形態における行動指令は、例えばヘリコプター機体の上下動（上昇と下降）、ヨー角、ロール角、およびピッチ角にそれぞれ相当する４チャンネルの制御ポートのうち選択されたチャンネルの制御量である。各Actor８１から出力された局所的な行動指令は出力決定部８２で比較され、最終的な行動指令が出力される。

Critic８３はシステム全体に関する強化減弱信号r_nの時刻ｔから将来の総和（予測値）P(t)を予測する。Critic８３の出力する予測値P(t)に基づき、内部強化信号生成部８４において内部強化信号P(t-1)-γP(t)が生成される。この内部強化信号が各Actor８１へ送られ、強化減弱信号と内部強化信号の差分（r_i(t)+ γP(t)- P(t-1) (i=1, 2, ・・・, n-1)）を強化信号として学習が行われる。また、Criticでは、強化減弱信号と内部強化信号の差分（r_ｎ(t)+ γP(t)- P(t-1)）を減少する方向に学習が行われる。

図９は、行動学習部７４のActor８１に本発明の神経回路素子１０を実装したブロック図である。各Actor８１は、出力行動の数と同数の神経回路素子から構成される。本実施形態の場合、各神経回路素子１０は、それぞれ上下動制御、ヨー角制御、ロール角制御、およびピッチ角制御に対応している。各素子は、入力Ｘ(t)に応じた出力をActor出力選択部８５に送る。Actor出力選択部８５は、最大値を出力した行動を選択して、このActorが選択した局所的な行動指令として出力決定部８２に送る。

行動学習部６５が従来のActor-Critic構造と異なる点は、感覚評価部６４からの信号（強化減弱信号）が全ての神経回路素子に共通ではなく、複数のActor毎に別個であることである。強化減弱信号r₁(t)〜r_n-1(t)は、例えば、ヨー角、ロール角、またはピッチ角が所与のしきい値（例えば１０度）を超える場合、または機体の上下動が大きくジャイロ出力の変動が所定のしきい値を超える場合、対応するActor内の神経回路素子に負の値を与える。また、強化減弱信号は、局所化により生成されても良い。たとえば、ヨー角、ロール角、またはピッチ角に関する離散軸において、ひとつ以上の峰を持つガウス分布により強化減弱信号（r₁(t)〜r_n-1(t)）を生成する。また、r_n(t)はシステム全体の評価を基に決定される強化減弱信号である。システム全体の強化減弱信号r_n(t)は、例えば、カメラの画像情報が途切れた場合、Critic８３に負の値を与える。このような構成により、システム全体の行動評価を持ちながら、複数の行動種類を学習させることができる。

なお、本実施例では図７に示すように、強化減弱信号は、運動制御部６７内の感覚評価部７３から出力される構成を示したが、所定のイベントが生じるたびに予め定められた基準に従った強化減弱信号が外部から与えられる構成としても良い。

以上、本発明を具体的な実施例について記述したが、この発明は、このような実施例に限定されるものではない。

本発明の一実施形態である神経回路素子の概略図である。図1の神経回路素子の機能を詳細に示すブロック図である。従来技術である重松らの神経回路素子とＴＤ学習について、図２に対応付けて表現したブロック図である。本発明の神経回路素子の挙動を示すシミュレーション結果である。図４のシミュレーションと同じ条件であるＴＤ学習のシミュレーション結果である。本発明の別の実施形態である、ヘリコプター制御システムの構成図である。図６の運動制御部の構成を示すブロック図である。図７の行動学習部の構成を示すブロック図である。図８のActorに本発明の神経回路素子を実装したブロック図である。

符号の説明

１０神経回路素子ｉ
２１入力結合部ｊ
２２入力信号変換部
２３内部状態算出部
２４出力結合部
２５履歴蓄積部
２６結合係数変更部
Xj 神経回路素子ｊからの入力信号
Xi 神経回路素子ｉの出力信号
Wij 神経回路素子ｉと神経回路素子ｊとの間の結合係数
Vi 神経回路素子ｉの内部状態
Hij 神経回路素子ｉと神経回路素子ｊとの間の履歴値
ri 神経回路素子ｉへの強化信号
λ 減衰係数

Claims

複数の入力信号に応答して出力信号を出力する神経回路素子であって、
前記複数の入力信号を時系列順に履歴値として積算し記憶する履歴蓄積部と、
前記複数の入力信号と対応する結合係数との積の総和とに基づく内部状態がしきい値を超えた場合に前記出力信号を出力する出力部とを備えており、
前記履歴値は前記内部状態に依存し、
前記神経回路素子は、前記内部状態を前記出力部の発火直後に大きく減算し、前記結合係数を前記出力部の発火後に前記履歴値に従って強化または減衰させる学習を実行するよう構成されている、前記神経回路素子。
前記履歴値は、全体システムからの情報を伝達する強化信号に依存している、請求項１記載の神経回路素子。
請求項２の神経回路素子を複数組み合わせることによって強化学習を実行することができる神経回路学習装置。