JP4776205B2 - 行動学習制御装置 - Google Patents
行動学習制御装置 Download PDFInfo
- Publication number
- JP4776205B2 JP4776205B2 JP2004307284A JP2004307284A JP4776205B2 JP 4776205 B2 JP4776205 B2 JP 4776205B2 JP 2004307284 A JP2004307284 A JP 2004307284A JP 2004307284 A JP2004307284 A JP 2004307284A JP 4776205 B2 JP4776205 B2 JP 4776205B2
- Authority
- JP
- Japan
- Prior art keywords
- learning
- state
- unit
- behavior
- action
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Feedback Control In General (AREA)
Description
図1は従来のActor-Criticアーキテクチャを用いた強化学習システム10の一例を示している。このシステムは、センサ情報状態分離部11、感覚評価部12、および行動学習部13によって構成される。
2.本発明のシステム構成
図2は、本発明の一実施形態である学習制御システム20のブロック図を示している。このシステムは、図1に示す従来の強化学習システム10よりも、予測能力の高さと学習の高速化を考慮して構成されている。学習制御システム20の構成要素のうち、センサ情報状態分離部21、感覚評価部22、および行動学習部23は、図1に示した従来手法における構成要素と基本的に同様である。改良点は、新たな構成要素として注意制御部25と行動列記憶修正部26を追加、センサ情報状態分離部21への強化学習導入、および感覚評価部22による出力制御、である。
注意制御部25は、センサ情報状態分離部21と感覚評価部22に対して、システムが取るべき行動方針を提供する。ここでいう行動方針とは一種のモードであり、システムの目標を達成しやすくする短期的制約である。行動方針は、あらかじめ設定されていても、自己組織的に形成されていても良い。行動方針は、具体的には、方針集合(たとえば4種類の行動方針があるなら方針集合は[Pa、Pb、Pc、Pd]となる)の中から一つ選択され、センサ情報状態分離部21と感覚評価部22へ送られる。選択された行動方針により、センサ情報の状態分離や強化信号の生成に変化が起きる。
行動列記憶修正部26は、報酬獲得に貢献する状態と行動の時系列情報を記憶しており、記憶している状態・行動と同様の状態・行動があった場合、記憶している時系列情報から行動を出力する。従来の強化学習では、発見的に時系列情報を学習可能だが、それを安定して保持し、さらに修正して精度を上げるといった処理は困難である。そこで、行動列記憶修正部26を導入し、報酬に貢献する過去の時系列関係を優先して出力させる。これにより、出力計算が簡易になり高速処理が可能となるとともに、予測ドメインを自ら絞り込むことによって学習の自由度を拘束し、複雑な環境にも対応可能となる。
次に、センサ情報状態分離部21への強化学習導入について説明する。本発明の一実施形態では、センサ情報状態分離部21への入力は、従来のセンサ情報の他に、感覚評価部22からの強化信号と注意制御部25からの行動方針が加わり、センサ情報の分類学習を促進する。
次に、感覚評価部22による出力制御について説明する。感覚評価部22は、システムが目標を達成することなく失敗したと判断したときには、行動出力を抑制する命令を出力する。実際に学習によりシステムを制御する場合、学習初期は明らかにシステム動作の失敗となる可能性が高い。システムはまだ充分な知識がないため、失敗した場合、さらに失敗を重ねることがある。そこで、システムが失敗したと評価した場合、行動出力を抑え、行動を控える命令を出力するようにした。これにより、失敗後のあまり有効でない行動に対しての学習を止めるとともに、無駄な学習を排除して少ない時間でより多くの試行を行うことができる。
この学習制御システムの特徴は、出力依存のシステム構成である。自律的に行動を学習する手法として、現在は強化学習があるが、学習できる行動領域が狭くないと学習が困難である。そのため、階層的な構築を目指す研究もあるが、基本的原理はない。そこで、本発明の一実施形態による学習制御システムでは、出力27を基準にシステムが統合されるように学習が実行される。つまり、出力が決まると、履歴として蓄積された情報を用いて行動の学習およびセンサ情報の学習が独立して実行され、その結果としての出力によりさらに更新される。学習制御システムに図2のような異種の学習モジュールを用意することで、結果としてそのアーキテクチャに沿った階層的処理が創られていく。
続いて、本発明の別な実施形態として、上記の学習制御システムを適用したラジコンヘリコプターの運動制御システムについて説明する。従来の強化学習の手法は、学習時間の遅さという問題があり、ヘリコプター制御のように試行数が限られるような学習は非常に困難とされている。これに対して、本発明で提案する学習制御システムは、予測能力が高く、学習が速いことを特徴としており、ヘリコプター制御のような少ない学習回数を要求される問題にも対応可能である。
図3は、このシステムの構成例を示す図である。このシステムは、カメラ32によるターゲット33の位置情報およびジャイロ31による機体34の姿勢情報に基づいて、ホバリングなどのヘリコプター30の自律飛行を制御する。
注意制御部55において、入力信号に基づいてある行動方針が選択されると、システムの目標状態が定義されることになって、行動の目標が決定される。行動方針の選択方法は、事前に与えても、探索的に発見しても良い。探索的に発見する場合、感覚評価部からの強化信号により学習される。この実施形態では行動目標とは、操縦者からの機体ピッチ角の操作命令である。また、目標状態とは、選択される行動方針により受け入れられる状態である。
感覚評価部52は、行動方針に応じた関数セットを用いて、センサ情報およびカメラ情報に基づく強化信号を生成する。つまり、行動方針が異なれば、同じ入力情報でも異なる強化信号が生成される場合がある。以下に示す表は、行動方針に応じた関数セットの一例である。
このように、感覚評価部52において複数のセンサ情報に基づく複数の強化信号が生成される。生成された複数の強化信号の各々は、局所的な情報に基づいている。本実施形態では、このような局所的な強化信号毎に行動学習を行うことにより、ヘリコプターという複雑な制御対象の行動学習を適切な方向へ進めることが可能である。
図7は、システムに一定の行動目標(ピッチ方向の姿勢)を与えたときの学習の進行を示す実験結果である。横軸は時間軸で、0秒から800秒まで表している。縦軸上部は出力された制御命令を表しており、行動0から行動8までの9ステップである。縦軸下部はセンサ情報状態分離部で分離された状態を表しており、この場合状態数は9個である。
21 センサ情報状態分離部
22 感覚評価部
23 行動学習部
24 センサ
25 注意制御部
26 行動列記憶修正部
Claims (2)
- 外環境の情報を取得するセンサと、前記センサからセンサ情報を受け取り、該情報に基づいて制御対象の状態を評価して評価に応じた報酬を強化信号として出力する感覚評価部(22、52)と、前記センサ情報を低次元化した状態へ分類するセンサ情報状態分離部(21、51)と、前記センサ情報状態分離部から与えられる前記状態に応じて行動指令を出力し、該状態と前記行動指令に応じた前記制御対象の行動との関係を前記強化信号に基づいて学習する行動学習部(23、53)と、を備える、自らの行動に応じて入出力関係を学習可能な行動学習制御装置において、
前記行動学習制御装置は、さらに
前記センサ情報を「状態」とし、前記行動指令を「行動」とし、前記感覚評価部からの強化信号を報酬として、報酬に関係する状態・行動の時系列情報を記憶し、現在の状態、行動を前記時系列情報と照合して、合致するときは、照合した箇所から後の時系列の行動を出力する行動列記憶修正部(26、56)と、
前記センサ情報、前記感覚評価部からの強化信号、前記行動学習部からの行動指令、および前記行動列記憶修正部からの出力に基づいて、前記制御対象がとるべき行動方針を方針集合から選択し、前記センサ情報状態分離部と前記感覚評価部に送る注意制御部(25、55)と、を備えることと、
前記センサ情報状態分離部は、前記センサ情報、前記感覚評価部からの前記強化信号および前記注意制御部からの前記行動方針を入力とし、自己組織化マップ(SOM)を用いて前記センサ情報を低次元化した状態にマップし、当該装置の目的達成に関係するセンサ情報の選択を学習すること、
を特徴とする行動学習制御装置。 - 前記感覚評価部は、前記制御対象の状態が不安定と判別した場合に、前記行動指令の出力を禁止する指令を出す、請求項1記載の行動学習制御装置。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004307284A JP4776205B2 (ja) | 2004-10-21 | 2004-10-21 | 行動学習制御装置 |
EP05023033A EP1650672A3 (en) | 2004-10-21 | 2005-10-21 | A neural network element with reinforcement/attenuation learning |
US11/255,895 US7664714B2 (en) | 2004-10-21 | 2005-10-21 | Neural network element with reinforcement/attenuation learning |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004307284A JP4776205B2 (ja) | 2004-10-21 | 2004-10-21 | 行動学習制御装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006119926A JP2006119926A (ja) | 2006-05-11 |
JP4776205B2 true JP4776205B2 (ja) | 2011-09-21 |
Family
ID=36537749
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004307284A Expired - Fee Related JP4776205B2 (ja) | 2004-10-21 | 2004-10-21 | 行動学習制御装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4776205B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018005739A (ja) * | 2016-07-06 | 2018-01-11 | 株式会社デンソー | ニューラルネットワークの強化学習方法及び強化学習装置 |
EP3724821A1 (en) * | 2018-01-22 | 2020-10-21 | Dakiana Research LLC | Objective-effectuators in synthesized reality settings |
US20230144995A1 (en) * | 2020-06-05 | 2023-05-11 | Deepmind Technologies Limited | Learning options for action selection with meta-gradients in multi-task reinforcement learning |
JP7204717B2 (ja) * | 2020-09-29 | 2023-01-16 | トヨタ モーター ヨーロッパ | 環境コンテキストにおいて人間のような制御行動をシミュレーションするためのシステム及びコンピュータに基づく方法。 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3086206B2 (ja) * | 1998-07-17 | 2000-09-11 | 科学技術振興事業団 | エージェント学習装置 |
-
2004
- 2004-10-21 JP JP2004307284A patent/JP4776205B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2006119926A (ja) | 2006-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kang et al. | Generalization through simulation: Integrating simulated and real data into deep reinforcement learning for vision-based autonomous flight | |
US11707838B1 (en) | Artificial intelligence system for efficiently learning robotic control policies | |
US11584008B1 (en) | Simulation-real world feedback loop for learning robotic control policies | |
US10792810B1 (en) | Artificial intelligence system for learning robotic control policies | |
CN110806759B (zh) | 一种基于深度强化学习的飞行器航线跟踪方法 | |
KR101813697B1 (ko) | 딥 러닝을 이용한 무인기 비행 제어 시스템 및 방법 | |
US6751529B1 (en) | System and method for controlling model aircraft | |
US7664714B2 (en) | Neural network element with reinforcement/attenuation learning | |
EP3201694B1 (en) | System and method for controller adaptation | |
US20210341904A1 (en) | Device and method for controlling a robot | |
Ferdaus et al. | Online identification of a rotary wing unmanned aerial vehicle from data streams | |
JP4776205B2 (ja) | 行動学習制御装置 | |
Xu et al. | Coordinated intelligent control of the flight control system and shape change of variable sweep morphing aircraft based on dueling-DQN | |
Olaz et al. | Quadcopter neural controller for take-off and landing in windy environments | |
Howard | A platform that directly evolves multirotor controllers | |
Jardine et al. | Adaptive MPC using a dual fast orthogonal Kalman filter: Application to quadcopter altitude control | |
CN113743603A (zh) | 控制方法、装置、存储介质及电子设备 | |
Dutoi et al. | Hybrid robust control and reinforcement learning for optimal upset recovery | |
Kimathi | Application of reinforcement learning in heading control of a fixed wing uav using x-plane platform | |
Priandana et al. | Development of self-organizing maps neural networks based control system for a boat model | |
Liu et al. | Forward-looking imaginative planning framework combined with prioritized-replay double DQN | |
Van Hecke et al. | Persistent self-supervised learning principle: from stereo to monocular vision for obstacle avoidance | |
Bao et al. | Model-free control design using policy gradient reinforcement learning in lpv framework | |
Sun et al. | Unmanned aerial vehicles control study using deep deterministic policy gradient | |
Ferrer | Creating Visual Reactive Robot Behaviors Using Growing Neural Gas. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070316 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070326 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100629 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100713 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110412 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110523 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110614 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110628 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4776205 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140708 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |