JP2006119930A - 神経回路素子およびそれを用いた学習装置 - Google Patents

神経回路素子およびそれを用いた学習装置 Download PDF

Info

Publication number
JP2006119930A
JP2006119930A JP2004307318A JP2004307318A JP2006119930A JP 2006119930 A JP2006119930 A JP 2006119930A JP 2004307318 A JP2004307318 A JP 2004307318A JP 2004307318 A JP2004307318 A JP 2004307318A JP 2006119930 A JP2006119930 A JP 2006119930A
Authority
JP
Japan
Prior art keywords
learning
neural circuit
history
circuit element
internal state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004307318A
Other languages
English (en)
Inventor
Koji Tsujino
広司 辻野
Nobuaki Miyagawa
宣明 宮川
Hajime Matsumoto
元 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
RIKEN Institute of Physical and Chemical Research
Original Assignee
Honda Motor Co Ltd
RIKEN Institute of Physical and Chemical Research
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd, RIKEN Institute of Physical and Chemical Research filed Critical Honda Motor Co Ltd
Priority to JP2004307318A priority Critical patent/JP2006119930A/ja
Priority to EP05023033A priority patent/EP1650672A3/en
Priority to US11/255,895 priority patent/US7664714B2/en
Publication of JP2006119930A publication Critical patent/JP2006119930A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Feedback Control In General (AREA)

Abstract

【課題】システムの振る舞いに応じ学習の方向を制御でき、学習すべきイベントの前後関係をより強力に学習することが可能な神経回路素子およびそれを用いた学習装置を提供する。
【解決手段】本発明で提供する、複数の入力信号に応答して出力信号を出力する神経回路素子は、複数の入力信号を時系列順に履歴値として積算し記憶する履歴蓄積部と、複数の入力信号と対応する結合係数との積の総和とに基づく内部状態がしきい値を超えた場合に前記出力信号を出力する出力部とを備える。履歴値は内部状態に依存し、内部状態は出力部の発火直後に大きく減算され、結合係数は出力部の発火後に履歴値に従って強化または減衰される学習を実行する。これにより、内部状態が低い場合は履歴が記憶されにくく、内部状態が発火しきい値に近づくにつれて履歴の記憶が強化されるので、学習の方向性を持って履歴が蓄積されることになる。
【選択図】図2

Description

本発明は、入力信号に対応して出力する出力信号の内容を学習する神経回路素子および当該神経回路素子によって構成される神経回路の学習装置に関する。
神経回路(ニューラルネットワーク)の入出力関係を学習する方法に関する従来技術として、バックプロパゲーション、自己組織化マップ、Hebb学習、TD(temporal differential)学習などが挙げられる。これらの学習方法は、神経回路の構成要素である神経回路素子(ニューロン)が、さまざまな入力情報パターンに対応する出力を獲得することを可能とする。しかし、多くの場合、素子間の結合係数を更新するなどの処理による学習の進行は、現時点での入出力が同時に発火しているかどうかに集約されており、過去の情報は学習に反映されていなかった。つまり、時系列情報処理の学習に関しては大部分の従来手法が理論的にサポートされておらず、上記に挙げた中で時系列情報の学習に対応しているのはTD学習のみである(TD学習に関しては、例えば非特許文献1を参照)。
しかし、TD学習は、学習に時間がかかるという問題点がある。TD学習では、時系列情報獲得のために適正値(eligibility)という概念を導入している。適正値は入力信号の履歴のようなものであるが、入力信号と出力信号両方に依存しているので神経回路素子が発火するタイミングで入力がなければ新たな履歴が蓄積されない。つまり、適正値は、入力信号の時系列情報としては不完全であり、例えば長期的な発火プロセスなどは記憶されない。また、結合係数の更新式が強化信号と適正値に依存しているため、強化信号さえあればそのときに発火しなくても過去に入力と同期の発火があれば結合係数が強化されてしまう。これらの理由で、学習初期では多くの学習ステップを要する。
一方、重松らの神経回路モデル(特許文献1参照)は、時系列情報を学習可能な神経回路素子を提案している。このモデルでは、出力の発火に関係なく、入力の時間的情報が履歴に蓄積される。また、発火時のみ結合重みが更新されるので学習効率が良いのが特徴である。
しかし、重松らの神経回路モデルでは、時間情報の学習が入力の履歴と出力にのみ依存しているため、システムの中で用いる場合、学習の方向性を制御できない。また、時間情報履歴が入力と減衰係数のみに依存しているため、時間方向での情報学習が曖昧に進むという欠点があった。さらに、重松らのモデルの学習方法では、時系列情報を扱う学習制御の枠組みとして主流である強化学習に適用することができないという問題点がある。
特公平7−109609 A. G. Barto et al., "Neuronlike Adaptive Elements That Can Solve Difficult Lerning Control Problems", IEEE Transactions on Systems, Man and Cybernetics, Vol. SMC-13, No. 5, pp. 834-846, 1983
TD学習など従来の強化学習に代わる、時系列情報学習が可能であり、学習時間の短い神経回路素子が望まれている。
本発明は、システムの中で用いられるとき、システムの振る舞いに応じ学習の方向を制御でき、学習すべきイベントの前後関係をより強力に学習することが可能な神経回路素子およびそれを用いた学習装置を提供する。
本発明の一形態では、複数の入力信号に応答して出力信号を出力する神経回路素子は、複数の入力信号を時系列順に履歴値として積算し記憶する履歴蓄積部と、複数の入力信号と対応する結合係数との積の総和とに基づく内部状態がしきい値を超えた場合に前記出力信号を出力する出力部とを備える。履歴値は内部状態の変化に依存する。この神経回路素子は、内部状態を出力部の発火直後に大きく減算し、結合係数を出力部の発火後に履歴値に従って強化または減衰させる学習を実行するよう構成されている。
この形態によれば、発火に関係なく入力信号の時系列情報が履歴に蓄積されるのと同時に、内部状態に応じて履歴に変化を加えることが、学習の方向性を持たせることとなる。つまり、内部状態が低い場合は履歴が記憶されにくく、内部状態が発火しきい値に近づくにつれて履歴の記憶が強化されるので、学習の方向性を持って履歴が蓄積されることになる。
また、神経回路素子の発火後に内部状態を大きく減算することは、間接的に履歴も発火後に大きく減少させることになり、履歴値の発火前後のコントラストがより明確化され、より時間的方向性を持った情報が履歴として蓄積される。
本発明の別の形態では、履歴値は全体システムからの情報を伝達する強化信号にも依存している。この強化信号により履歴に変動を加えることができ、システムに依存した学習制御が可能となる。
さらに、本発明で提供する神経回路素子を複数組み合わせることによって強化学習を実行することが可能となる。
図1は、本発明の一実施形態である神経回路素子(ニューロン)10を示す概略図である。神経回路素子10は、例えば汎用コンピュータをプログラムすることにより形成される。また神経回路素子10は、アナログ回路またはデジタル回路で形成することも可能である。この図において、神経回路素子10のうちの任意の神経回路素子iは、複数(図1では3個)の神経回路素子jから受け取る入力信号Xj(t-1)に基づいて動作をおこなう。神経回路素子jとの入力結合部jを介して受取った入力信号Xj(t-1)は、結合係数Wij(t)を乗算して素子内部に集積され、内部状態Vi(t)が算出される。ここで結合係数Wij(t)は、神経回路素子の活動履歴や発火状態に依存する変数であり、神経回路素子間の結合効率を表す。続いて、出力結合部において、現在の内部状態Vi(t)に基づいて出力信号Xi(t)が決定される。これに併せて出力および内部状態が逆伝播され、履歴Hijと結合係数Wijが更新される。ここで、履歴Hij(t)とは、入力信号Xjの時刻tまでの時系列情報である。
図2は、神経回路素子iをさらに詳細に示すブロック図である。以下、この図を参照して、神経回路素子iの機能を説明する。
複数の入力結合部21を介して受取られた入力信号Xj(t-1)は、入力信号変換部22で結合係数を乗算され、内部状態算出部23においてその他の入力信号と集積される。さらに内部状態の減衰値pVi(t-1)が残留値として以前から引き継がれ、集積された入力に加わり、現在の内部状態Vi(t)となる。内部状態Vi(t)は次式で表される。
Figure 2006119930
ここで、pは内部状態Viの減衰速度を決定する定数であり、0<p<1である。通常、内部状態Viは入力信号と過去の内部状態に基づいて決定されるが、神経回路素子iが発火(Xi(t-1)=1)した直後には、静止状態V0から所定値δだけ低い値に強制的に設定される。この処理は、素子が保持する時系列情報をより明確にするためであるが、詳細は後述する。
現在の内部状態Viに基づいて、神経回路素子iの出力信号Xi(t)が決定される。本実施形態では、入力信号Xj(t-1)および出力信号Xi(t)は、デジタル的なパルス(0か1)とする。内部状態Viが所定のしきい値θより大きいとき、神経回路素子iは発火してパルスを出力する(Xi(t)=1)。しきい値より小さいとき、パルスを出力しない(Xi(t)=0)。神経回路素子iの出力Xi(t)は次式で表される。
Figure 2006119930
以上説明したような神経回路素子iを組み合わせてニューラルネットワークを構成することが可能である。各神経回路素子はアナログ回路、デジタル回路またはソフトウェアで実現することができる。また、入力信号および出力信号をアナログ値(例えばパルス頻度)にすることで連続情報を扱うことも可能である。
次に、神経回路素子10の時系列学習方法について説明する。引き続き図2を参照すると、出力結合部24で神経回路素子iの出力信号Xi(t)が決定された後、現在の内部状態Vi(t)の情報が各入力結合部21の履歴蓄積部25へと送られ、結合されている神経回路素子jに関する履歴値Hij(t)を更新する。本発明では、これらの履歴値Hij(t)の変化を神経回路素子iの内部状態Viに依存させることによって、発火前後のシナプス履歴の時間変化のコントラストをより明確にすることが可能となる。また、履歴値Hij(t)を併せて強化信号ri(t)にも依存させることにより、学習の方向性を制御することを可能にする。神経回路素子iにおける神経回路素子jからの入力の履歴値Hij(t)は次式のように表される。
Figure 2006119930
ここで、λは右辺第一項と第二項の比率を決めるパラメータ(減衰係数)であり、0<λ<1である。右辺第一項は、強化信号ri(t)、内部状態Vi(t)および神経回路素子jからの入力信号Xj(t-1)の積により履歴が更新されることを示す項である。第二項は、古い履歴Hij(t-1)が減衰係数λにより減衰されて蓄積されることを示す項である。このような履歴値の定義により、神経回路素子iに結合されている神経回路素子jが発火したときに、その情報が履歴に加えられることを表現できる。また、履歴値Hij(t)は神経回路素子i自身の発火には依存せずに蓄積されるので、より長期的な発火プロセスも記憶することが可能である。
続いて履歴値Hij(t)が結合係数変更部26へ送られて、時系列情報を含む履歴値Hij(t)に基づいた結合係数Wijの更新が行われる。結合係数の変更分ΔWij(t)は次式のように表される。
Figure 2006119930
ここで、αは学習の進行速度を表す定数(学習率)であり、0<α<1である。Hi0は学習の方向を決定するしきい値である。履歴値Hij(t)がしきい値Hi0より大きい場合には、神経回路素子jとの結合係数Wijは増強され、しきい値より小さい場合にはWijは減衰される。Zi(t)は神経回路素子iの発火に依存する関数であって、発火後所定時間τ経過後に学習を実行させるための係数となる。Zi(t)は次式のように表される。
Figure 2006119930
式(4)、式(5)は、神経回路素子iが発火してからτ[msec]経過した後に、その時点の履歴値Hijに基づいて神経回路素子jとの結合係数Wijが更新されることを示す。所定の時間τだけ更新を遅延させることは、生体の神経学習動作に30[msec]程度の時間遅れが生じる現象を参考にしたものである。τの値は0より大きな微小値でさえあれば良く、神経回路素子の使用目的、制御対象の特性などの条件に応じて適宜設定すれば良い。
ここで、従来技術と本発明との相違点について説明する。図3は、従来技術として取り上げる、重松らの神経回路素子30(特公平7−109609)(図中(a))と、TD学習法40(図中(b))のブロック図である。本発明のブロック図(図2)と対応付けて、それぞれの情報の流れを表現している。
図3(a)に示すように、重松らの神経回路素子30(特公平7−109609)は、履歴値Hijを入力信号Xjと減衰係数のみに依存している(履歴蓄積部35を参照)。一方、本発明は(3)式に示すように、入力信号Xj、内部状態Vi、強化信号ri、および減衰係数λに依存して履歴値が更新される(図2の履歴蓄積部25を参照)。これにより、強化信号や内部状態の増減が履歴に反映されるようになり、間接的に学習の方向性を制御することが可能となる。
また、図3(b)に示すように、TD学習は、本発明の履歴値Hijに該当する適正値(eligibility)が入力信号Xjと出力信号Xi両方に依存しているので(履歴蓄積部45を参照)、出力が発生しなければ入力信号の情報については履歴として蓄積されない。本発明は、履歴値Hijの更新は出力信号Xiに依存しないので、長期的な発火プロセスを履歴として蓄積することが可能である。
さらに、TD学習は、結合係数Wijの更新が強化信号rと適正値(履歴値)Hijに依存しているので(結合係数変更部46を参照)、現時点で入出力信号の発火が無くても、過去に同時発火があれば結合係数Wijが更新されてしまう。しかし、神経回路素子の学習の観点からは、重要度の低い状態でも学習が進行してしまうことが学習の遅延を招く弊害を生じる可能性が高い。
本発明は、TDと同様に履歴値Hijを結合係数Wijの更新に用いているが、併せて出力信号Xi依存の関数Zi(式5)を用いているため、神経回路素子発火時にしか結合係数Wijが更新されない。このため、本発明はTD学習に比べて学習の収束を高速にすることが可能である。
図4は、本発明の神経回路素子の挙動を示すシミュレーションの結果である。図中(a)から(c)は、それぞれ神経回路素子iにおける、結合する他の神経回路素子1〜3からのパルス入力列X1、X2、X3を示している。(d)は神経回路素子iの内部状態Viであり、(e)は神経回路素子iの出力Xiである。(f)から(h)は、神経回路素子1〜3における履歴値Hi1、Hi2、Hi3である。
内部状態Vi(d)と出力Xi(e)に注目すると、神経回路素子iが発火した時には内部状態Viが大きく低下している(図中A参照)。一方、神経回路素子iが発火しない状態では内部状態Viは低下せず、(1)式に従って、発火しきい値まで徐々に蓄積されていく。このように、(1)式で出力発火時に大きく減算する処理により、発火前後の内部状態Viのコントラストが明確となるので、履歴値Hi1、Hi2、Hi3の出力発火によるコントラストもより明確になることがわかる。この結果、従来手法より強い時間的方向性を持った情報が履歴として蓄積されることが可能となっている((f)〜(h)を参照)。
図5は、図4で実施したシミュレーションと同じ構成、同じ入力信号を与えた時のTD学習による挙動を示すシミュレーション結果である。TD学習は、入力と出力が同時に発火した場合のみ実行されるHebb式の履歴更新をするため、このように頻度の少ない入力列X1、X2、X3に対しては履歴保持能力が弱く、かつ入力による結合係数Wijの変更も弱いものとなる。神経回路素子iの発火前後のコントラストは、内部状態Viは明確に現れているが((d)を参照)、履歴値Hi1、Hi2、Hi3の変動は本発明と比べて微弱であることが確認できる((f)〜(h)を参照)。
図4と図5は、本発明がTD学習に比べてより明確な時系列情報を履歴に蓄積することが可能であることを示している。また、この履歴値Hi1、Hi2、Hi3を利用することにより結合係数Wijの更新が大きくなるので、学習の高速化を実現可能であることも示している。
次に、本発明の別の実施形態として、前述の神経回路素子10を適用したラジコンヘリコプターの運動制御システムについて説明する。
図6は、このシステムの構成例を示す図である。このシステムは、カメラ62によるターゲット63の位置情報およびジャイロ61による機体64の姿勢情報に基づいて、ホバリングなどのヘリコプター60の自律飛行を制御する。
制御対象であるヘリコプター60は、機体64、メインロータ65、およびテールロータ66から構成されている。ヘリコプター60は、メインロータ65およびテールロータ66の回転により空中に浮揚する。
機体64にはジャイロ61、カメラ62、運動制御部67およびサーボモータ68が搭載される。ジャイロ61は機体64のピッチ、ヨーおよびロール角を検出し、カメラ62はヘリコプター60の自律飛行の指標となるターゲット63の画像を提供する。ジャイロ61およびカメラ62からの情報は運動制御部67へ入力される。また、メインロータ65およびテールロータ66の基部にはそれぞれ伸縮機構69およびリンク機構70があり、ロッド71などによりサーボモータ68と連結されている。運動制御部67からの指令値によってサーボモータ68の出力が変化すると、伸縮機構69およびリンク機構70を介してメインロータ65およびテールロータ66の傾きも変化する。これらロータの傾きの変化によって、ヘリコプター60のピッチ、ヨー、およびロール角が調整される。
図7は、運動制御部67の構成をさらに詳しく示したブロック図である。運動制御部67は、センサ情報状態分離部72、感覚評価部73、および行動学習部74を含む。この運動制御部は、プログラムなどのソフトウェア、ならびにアナログ回路およびデジタル回路などのハードウェアのどちらでも実現可能である。また、全体をソフトウェアまたはハードウェアで構成しても良いし、構成要素を個別にソフトウェアまたはハードウェアで構成し、これらを接続することによってシステムを構築しても良い。
運動制御部67は、ジャイロ61、カメラ62などのセンサ類から機体64の姿勢情報、ターゲット63の位置情報などの外界の情報を得る。得られた情報は、センサ情報状態分離部72にて、いくつかの状況に分類される。この分類は、たとえばKohonenの自己組織化マップ(Self Organizing Map、SOM)で可能である。SOMを用いた場合、センサ情報を類似性により分類したマップが形成され、センサ情報は、次元が圧縮された状態へと変換される。
感覚評価部73は、ジャイロ61、カメラ62からの入力情報をもとに、自己の状態が不安であるかを評価する。たとえば、ジャイロ出力の大きな振幅は不安要素であるし、カメラから情報が得られない(ターゲットが捕捉されない)ことも不安要素となりうる。状態評価に基づき、感覚評価部73は、学習の強度を制御可能な強化減弱信号(図1、図2の強化信号ri(t)に相当)を出力する。例えば、ヨー角、ロール角、またはピッチ角が所与のしきい値(例えば10度)を超える場合、または機体の上下動が大きくジャイロ出力の変動が所定のしきい値を超える場合、対応する強化減弱信号は負の値となる。センサ毎に局所的な強化減弱信号が求められる。この局所的な強化減弱信号の合計が、システム全体の強化減弱信号となる。
感覚評価部73の出力は行動学習部74の学習を強化するほか、入出力インタフェース75において、行動出力を直接制御する。直接制御は、たとえば、自己の状態が不安であるとき、行動出力を弱めるなどの制御である。
センサ情報状態分離部72で分類された状態を入力として、行動学習部74は状態に応じた行動の選択を学習する。本実施形態における行動は、具体的には、ヘリコプター機体の上下動(上昇と下降)、ヨー角、ロール角、およびピッチ角にそれぞれ相当する4チャンネルの制御ポートにおける、各チャンネルへの出力値を選択することである。行動の選択学習は、感覚評価部73の強化減弱信号により進む。
行動学習部74において、すべての学習は、提案する神経回路素子10を用いた神経回路で行われる。学習は基本的には強化学習により進む。つまり、システムが何らかの行動を起こし、その行動結果を反映して行動が修正されていく。しかし、TD学習のような従来の強化信号の方法は、学習に時間がかかるため、ヘリコプター制御のように試行数が限られるような学習への適用は非常に困難とされている。
行動学習部74の神経回路構造は、Bartoらによって提案されているActor-Critic構造を導入した。この構造では、Actor部が行動選択の学習を行い、Critic部が強化信号の予測を行うことで内部強化信号を生成する。モデルの挙動は脳の大脳基底核という行動学習を行う中枢から得られる神経生理的データと合致しているという知見がある。
ただし、Bartoらの実装はTD学習モデルによるものなので、前述の学習時間の長さという問題を抱える。そこで、学習モデルを本発明で提案する神経回路素子10の学習方法に変更した。
図8は、行動学習部74の構成をさらに詳しく示したブロック図である。行動学習部は、センサ情報状態分離部より入力ベクトルX(t)={X(t),・・・,X(t)}を受け取り、感覚評価部より強化減弱信号ベクトルR(t)={r(t),・・・,r(t)}を受け取る。X(t)は前記センサ情報状態分離部63で分類された状態であり、添字jは状態の数を表す。これら状態Xi(t)の集合X(t)が、すべての神経回路素子への入力となる。r(t)〜rn-1(t)は、各センサの計測値に基づいて求められた局所的な強化減弱信号である。r(t)は、局所的な強化減弱信号の総和であり、システム全体の強化減弱信号である。局所的な強化減弱信号r(t)〜rn-1(t)の各々は、Actor1〜Actor n-1の強化学習にそれぞれ利用される。システム全体の強化減弱信号r(t)は、Criticの学習に利用される。
行動学習部は、局所的な強化減弱信号と同数(n-1)のActor81を有する。各Actor81は、入力X(t)に基づき局所的な行動指令を出力する。本実施形態における行動指令は、例えばヘリコプター機体の上下動(上昇と下降)、ヨー角、ロール角、およびピッチ角にそれぞれ相当する4チャンネルの制御ポートのうち選択されたチャンネルの制御量である。各Actor81から出力された局所的な行動指令は出力決定部82で比較され、最終的な行動指令が出力される。
Critic83はシステム全体に関する強化減弱信号rnの時刻tから将来の総和(予測値)P(t)を予測する。Critic83の出力する予測値P(t)に基づき、内部強化信号生成部84において内部強化信号P(t-1)-γP(t)が生成される。この内部強化信号が各Actor81へ送られ、強化減弱信号と内部強化信号の差分(ri(t)+ γP(t)- P(t-1) (i=1, 2, ・・・, n-1))を強化信号として学習が行われる。また、Criticでは、強化減弱信号と内部強化信号の差分(r(t)+ γP(t)- P(t-1))を減少する方向に学習が行われる。
図9は、行動学習部74のActor81に本発明の神経回路素子10を実装したブロック図である。各Actor81は、出力行動の数と同数の神経回路素子から構成される。本実施形態の場合、各神経回路素子10は、それぞれ上下動制御、ヨー角制御、ロール角制御、およびピッチ角制御に対応している。各素子は、入力X(t)に応じた出力をActor出力選択部85に送る。Actor出力選択部85は、最大値を出力した行動を選択して、このActorが選択した局所的な行動指令として出力決定部82に送る。
行動学習部65が従来のActor-Critic構造と異なる点は、感覚評価部64からの信号(強化減弱信号)が全ての神経回路素子に共通ではなく、複数のActor毎に別個であることである。強化減弱信号r1(t)〜rn-1(t)は、例えば、ヨー角、ロール角、またはピッチ角が所与のしきい値(例えば10度)を超える場合、または機体の上下動が大きくジャイロ出力の変動が所定のしきい値を超える場合、対応するActor内の神経回路素子に負の値を与える。また、強化減弱信号は、局所化により生成されても良い。たとえば、ヨー角、ロール角、またはピッチ角に関する離散軸において、ひとつ以上の峰を持つガウス分布により強化減弱信号(r1(t)〜rn-1(t))を生成する。また、rn(t)はシステム全体の評価を基に決定される強化減弱信号である。システム全体の強化減弱信号rn(t)は、例えば、カメラの画像情報が途切れた場合、Critic83に負の値を与える。このような構成により、システム全体の行動評価を持ちながら、複数の行動種類を学習させることができる。
なお、本実施例では図7に示すように、強化減弱信号は、運動制御部67内の感覚評価部73から出力される構成を示したが、所定のイベントが生じるたびに予め定められた基準に従った強化減弱信号が外部から与えられる構成としても良い。
以上、本発明を具体的な実施例について記述したが、この発明は、このような実施例に限定されるものではない。
本発明の一実施形態である神経回路素子の概略図である。 図1の神経回路素子の機能を詳細に示すブロック図である。 従来技術である重松らの神経回路素子とTD学習について、図2に対応付けて表現したブロック図である。 本発明の神経回路素子の挙動を示すシミュレーション結果である。 図4のシミュレーションと同じ条件であるTD学習のシミュレーション結果である。 本発明の別の実施形態である、ヘリコプター制御システムの構成図である。 図6の運動制御部の構成を示すブロック図である。 図7の行動学習部の構成を示すブロック図である。 図8のActorに本発明の神経回路素子を実装したブロック図である。
符号の説明
10 神経回路素子i
21 入力結合部j
22 入力信号変換部
23 内部状態算出部
24 出力結合部
25 履歴蓄積部
26 結合係数変更部
Xj 神経回路素子jからの入力信号
Xi 神経回路素子iの出力信号
Wij 神経回路素子iと神経回路素子jとの間の結合係数
Vi 神経回路素子iの内部状態
Hij 神経回路素子iと神経回路素子jとの間の履歴値
ri 神経回路素子iへの強化信号
λ 減衰係数




Claims (3)

  1. 複数の入力信号に応答して出力信号を出力する神経回路素子であって、
    前記複数の入力信号を時系列順に履歴値として積算し記憶する履歴蓄積部と、
    前記複数の入力信号と対応する結合係数との積の総和とに基づく内部状態がしきい値を超えた場合に前記出力信号を出力する出力部とを備えており、
    前記履歴値は前記内部状態に依存し、
    前記神経回路素子は、前記内部状態を前記出力部の発火直後に大きく減算し、前記結合係数を前記出力部の発火後に前記履歴値に従って強化または減衰させる学習を実行するよう構成されている、前記神経回路素子。
  2. 前記履歴値は、全体システムからの情報を伝達する強化信号に依存している、請求項1記載の神経回路素子。
  3. 請求項2の神経回路素子を複数組み合わせることによって強化学習を実行することができる神経回路学習装置。

JP2004307318A 2004-10-21 2004-10-21 神経回路素子およびそれを用いた学習装置 Pending JP2006119930A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2004307318A JP2006119930A (ja) 2004-10-21 2004-10-21 神経回路素子およびそれを用いた学習装置
EP05023033A EP1650672A3 (en) 2004-10-21 2005-10-21 A neural network element with reinforcement/attenuation learning
US11/255,895 US7664714B2 (en) 2004-10-21 2005-10-21 Neural network element with reinforcement/attenuation learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004307318A JP2006119930A (ja) 2004-10-21 2004-10-21 神経回路素子およびそれを用いた学習装置

Publications (1)

Publication Number Publication Date
JP2006119930A true JP2006119930A (ja) 2006-05-11

Family

ID=36537752

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004307318A Pending JP2006119930A (ja) 2004-10-21 2004-10-21 神経回路素子およびそれを用いた学習装置

Country Status (1)

Country Link
JP (1) JP2006119930A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101603940B1 (ko) 2013-03-05 2016-03-16 한국과학기술원 기본 가치 신호를 이용한 강화 학습 방법 및 그 장치

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101603940B1 (ko) 2013-03-05 2016-03-16 한국과학기술원 기본 가치 신호를 이용한 강화 학습 방법 및 그 장치

Similar Documents

Publication Publication Date Title
US10293483B2 (en) Apparatus and methods for training path navigation by robots
CN110806759A (zh) 一种基于深度强化学习的飞行器航线跟踪方法
CN111240356B (zh) 一种基于深度强化学习的无人机集群会合方法
JP6446126B2 (ja) 処理システム及びプログラム
US12033521B2 (en) Machine learning in avionics
KR20170074539A (ko) 딥 러닝을 이용한 무인기 비행 제어 시스템 및 방법
CN112446468A (zh) 用于创建脉冲神经网络的方法、设备和计算机程序
US7664714B2 (en) Neural network element with reinforcement/attenuation learning
JP2021057024A (ja) 航空機を制御するためのニューラルネットワークを訓練するためのシステム及び方法
US11347221B2 (en) Artificial neural networks having competitive reward modulated spike time dependent plasticity and methods of training the same
KR101851374B1 (ko) 입력 데이터를 학습하는 방법 및 학습 장치
CN116136945A (zh) 一种基于反事实基线的无人机集群对抗博弈仿真方法
CN112651486A (zh) 一种提高maddpg算法收敛速度的方法及其应用
Zhang et al. Situational continuity-based air combat autonomous maneuvering decision-making
CN113255893A (zh) 一种多智能体行动策略自演进生成方法
JP2006119930A (ja) 神経回路素子およびそれを用いた学習装置
CN117170392A (zh) 轨道威胁环境下的启发式航天器自主规避任务规划方法
Liu et al. Forward-looking imaginative planning framework combined with prioritized-replay double DQN
JP4776205B2 (ja) 行動学習制御装置
CN115660446A (zh) 一种空中交通管制预案智能生成方法、装置及系统
KR20160056068A (ko) Mr-댐퍼가 있는 콘크리트 구조물의 비선형 움직임을 예측하기 위한 웨이블릿 기반 시간 지연 퍼지-신경망 추론 시스템
Ganesh et al. Deep reinforcement learning for simulated autonomous driving
JP2606317B2 (ja) 学習処理装置
CN118034355B (zh) 网络训练方法、无人机避障方法及装置
CN114756025B (zh) 一种自主小车巡航控制方法及装置