JP4776205B2 - 行動学習制御装置 - Google Patents

行動学習制御装置 Download PDF

Info

Publication number
JP4776205B2
JP4776205B2 JP2004307284A JP2004307284A JP4776205B2 JP 4776205 B2 JP4776205 B2 JP 4776205B2 JP 2004307284 A JP2004307284 A JP 2004307284A JP 2004307284 A JP2004307284 A JP 2004307284A JP 4776205 B2 JP4776205 B2 JP 4776205B2
Authority
JP
Japan
Prior art keywords
learning
state
unit
behavior
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004307284A
Other languages
English (en)
Other versions
JP2006119926A (ja
Inventor
広司 辻野
宣明 宮川
元 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
RIKEN Institute of Physical and Chemical Research
Original Assignee
Honda Motor Co Ltd
RIKEN Institute of Physical and Chemical Research
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd, RIKEN Institute of Physical and Chemical Research filed Critical Honda Motor Co Ltd
Priority to JP2004307284A priority Critical patent/JP4776205B2/ja
Priority to EP05023033A priority patent/EP1650672A3/en
Priority to US11/255,895 priority patent/US7664714B2/en
Publication of JP2006119926A publication Critical patent/JP2006119926A/ja
Application granted granted Critical
Publication of JP4776205B2 publication Critical patent/JP4776205B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Feedback Control In General (AREA)

Description

本発明は、ニューラルネットワークを用いた行動制御装置に関する。より詳細には、入力信号に対応してどのような出力信号を選択するかを自ら学習するシステムに関する。
入力信号から望ましい出力信号を生成する学習は、「教師あり学習」と「教師なし学習」に大別される。「教師あり学習」とは、入力信号に対する望ましい出力を教師信号として与えることでシステムの学習を進める方法であり、バックプロパゲーション法などが含まれる。「教師なし学習」とは、入力信号のみを用いて学習する方法である。システムは、学習に用いた信号または類似する信号が入力されたときに同じような出力信号を生成するように学習する。
実環境で学習制御システムを稼働させる場合を考えると、入力信号に対して適切な教師信号をあらかじめ与えることは難しい。入出力の関係に複雑さや非線形性があって事前の定義が煩雑なときに、制御システムに学習要素を追加するからである。従って、学習制御システムの実環境での使用には、教師なし学習が適している。さらに、教師なし学習の中でも、システム自らの行動の結果得られる報酬をもとに学習を進める強化学習が、報酬の与え方によって学習の方向性を制御可能な点が有効であり、これまで多く利用されている。
強化学習は、システム自らが探索的に行動を重ね、より多くの報酬を得られる方向へ学習を進めることができる。しかし、逆に言えば、探索の結果たどり着いた報酬に学習が依存してしまうので、概してローカルミニマムに陥りやすい。つまり、比較的単純なドメインでは強化学習は有効であるが、入力および出力のバリエーションが増えるに従い、なかなか最適な方向への学習ができない可能性が高い。
銅谷らは、強化学習の一手法であるActor-Criticアーキテクチャを改良し、複数のActor-Criticに状態予測器を付加する構造を提案している(特許文献1を参照)。状態予測器によって起こりうる状況を予測し、これに応じた最適な行動を選択するよう学習が行われる。また、複数のActor-Criticについて、それぞれの責任度を計算して学習に用いることで行動選択の幅を広げ、ローカルミニマムの問題の解決を試みた。
特開2000-35956
銅谷らの手法は、出力に関する非線形性をある程度持たせることができるが、入力に関するバリエーションや、そのバリエーションに関連した非線形な出力に関しての問題が解決できない。また、環境予測では予測の誤差最小化を基礎に学習が進み、その予測誤差を基に強化学習が制御されるため、経験数(学習数)があまり期待できないドメインには有効ではない。
従来手法よりも、予測能力が高く、学習が速い学習制御システムであって、より複雑なドメインの実時間制御にも適用可能なシステムが提供されるのが望ましい。本発明はこのような学習制御システムを提供することを目的とする。
本発明は、自らの行動に応じて入出力関係を学習可能な行動学習制御装置を提供する。この行動学習制御装置は、外環境の情報を取得するセンサと、センサ情報から制御対象の状態が安定か否かを判別し、判別結果に応じた強化信号を出力する感覚評価部と、センサ情報と感覚評価部から与えられる強化信号に基づき強化学習を実行し、感覚評価の高いセンサ情報ほど重み付けを大きくして、センサ情報を低次元化した状態へ分類するセンサ情報状態分離部と、センサ情報状態分離部から与えられる状態と対応する行動制御指令との関係を、強化信号に基づいて学習し、行動制御指令を出力する行動学習部と、を有する。このように、センサ情報状態分離部に強化学習を導入することにより、効果的な状態分類を短時間で実現することが期待できる。
この発明の一形態では、行動学習制御装置は、システムの行動目標に基づき、行動目標を達成するのを促進する行動方針をセンサ情報状態分離部と感覚評価部に送る注意制御部をさらに有する。行動方針は、センサ情報状態分離部の状態分離を調整し、感覚評価部の強化信号生成を調整する。注意制御部の導入により、行動目標に適した規範を与えることができ、学習の方向性が安定し、学習の高速化が期待できる。また行動方針をセンサ情報状態分離部と感覚評価部に与えることで、状態分割や強化信号生成を、短時間で望ましい状態にすることができる。これにより、学習の高速化が期待できる。
この発明の一形態では、行動学習制御装置は、センサ情報と行動制御指令を受け取り、記憶している時系列情報と照合した場合に時系列情報から行動制御指令を出力する行動列記憶修正部をさらに有する。これにより、報酬に貢献しやすい状態と行動が記憶されて、類似した状態が再び起きた場合に適切な行動を選択することが容易になり、高い予測能力が期待できる。
また、この発明の一形態では、感覚評価部が制御対象の状態が不安定と判別した場合に、システムの出力を抑制するよう指令を出力する。これにより学習初期に発生しやすい無駄な学習を削減することができ、学習の高速化が期待できる。
1.従来の強化学習システム
図1は従来のActor-Criticアーキテクチャを用いた強化学習システム10の一例を示している。このシステムは、センサ情報状態分離部11、感覚評価部12、および行動学習部13によって構成される。
システムでは、複数のセンサ14によって外環境からの情報を得る。得られた情報は、入力信号としてセンサ情報状態分離部11にていくつかの状態に分類される。この分類は、たとえばKohonenの自己組織化マップ(Self Organizing Map、SOM)で可能である。SOMを用いた場合、センサ情報を類似性により分類したマップが競合層に形成され、センサ情報は、次元が圧縮された状態へと変換される。
感覚評価部12は、センサの情報からシステムの状態を評価して、これに応じた報酬を強化信号として行動学習部13に送る。
行動学習部13は、Actor-Criticアーキテクチャで構成されており、センサ情報状態分離部11で分類された状態を入力信号として、状態に応じた行動の選択を学習する。行動の選択学習は、感覚評価部12からの強化信号に基づいた強化学習を実行する。
このような従来の強化学習システムは、前述のように、比較的単純なドメインでは有効に学習を実行できるが、入力および出力が複雑になるにつれてローカルミニマムに陥りやすくなり、なかなか最適な解を得ることができない可能性が高い。

2.本発明のシステム構成
図2は、本発明の一実施形態である学習制御システム20のブロック図を示している。このシステムは、図1に示す従来の強化学習システム10よりも、予測能力の高さと学習の高速化を考慮して構成されている。学習制御システム20の構成要素のうち、センサ情報状態分離部21、感覚評価部22、および行動学習部23は、図1に示した従来手法における構成要素と基本的に同様である。改良点は、新たな構成要素として注意制御部25と行動列記憶修正部26を追加、センサ情報状態分離部21への強化学習導入、および感覚評価部22による出力制御、である。
まず、追加された注意制御部25と行動列記憶修正部26について説明する。
2.1 注意制御部
注意制御部25は、センサ情報状態分離部21と感覚評価部22に対して、システムが取るべき行動方針を提供する。ここでいう行動方針とは一種のモードであり、システムの目標を達成しやすくする短期的制約である。行動方針は、あらかじめ設定されていても、自己組織的に形成されていても良い。行動方針は、具体的には、方針集合(たとえば4種類の行動方針があるなら方針集合は[Pa、Pb、Pc、Pd]となる)の中から一つ選択され、センサ情報状態分離部21と感覚評価部22へ送られる。選択された行動方針により、センサ情報の状態分離や強化信号の生成に変化が起きる。
注意制御部25への入力信号は、センサ24からの情報と、感覚評価部22からの強化信号と、行動学習部23の出力行動と、行動列記憶修正部26の出力行動である。これらの入力からどの行動方針を選択するかは、例えばルールによって記述される。この場合、行動方針を選択する順番は、あらかじめ決められていて、入力信号に応じて次の行動方針へと順次切り換えられる。
選択された行動方針は、その目標が達成されるまで継続される。しかし、予測のつかない状況などに入った場合、感覚評価部22からの強化信号から判断し、行動方針をリセットし、後述する2.4節の感覚評価部22による行動制御処理に移行する。
注意制御部25で選択された行動方針は、センサ情報状態分離部21および感覚評価部22へ送られる。感覚評価部22では、行動方針に応じた関数セットを用いて強化信号が生成される。つまり、与えられる行動方針によって、同じセンサ情報からでも異なる強化信号が生成されることがありうる。また、センサ情報状態分離部21では、行動方針が学習に利用される。
2.2 行動列記憶修正部
行動列記憶修正部26は、報酬獲得に貢献する状態と行動の時系列情報を記憶しており、記憶している状態・行動と同様の状態・行動があった場合、記憶している時系列情報から行動を出力する。従来の強化学習では、発見的に時系列情報を学習可能だが、それを安定して保持し、さらに修正して精度を上げるといった処理は困難である。そこで、行動列記憶修正部26を導入し、報酬に貢献する過去の時系列関係を優先して出力させる。これにより、出力計算が簡易になり高速処理が可能となるとともに、予測ドメインを自ら絞り込むことによって学習の自由度を拘束し、複雑な環境にも対応可能となる。
行動列記憶修正部26への入力は、センサ情報と、行動学習部23の出力行動と、感覚評価部22からの強化信号である。センサ情報が「状態」であり、行動学習部23の出力が「行動」であり、強化信号が「報酬」である。記憶している時系列情報との比較は、たとえば、入力された現在の状態、行動を含む過去数ステップ前までの時系列情報を、記憶している時系列情報と照合し、記憶データと合致した場合には照合した箇所から後の時系列の行動を出力すれば良い。
2.3 センサ情報状態分離部への強化学習導入
次に、センサ情報状態分離部21への強化学習導入について説明する。本発明の一実施形態では、センサ情報状態分離部21への入力は、従来のセンサ情報の他に、感覚評価部22からの強化信号と注意制御部25からの行動方針が加わり、センサ情報の分類学習を促進する。
上述の通り、センサ情報状態分離部21では、複数のセンサ情報を低次元化した状態へのマップを、SOMなどを用いて自己組織的に形成している。しかし、センサ24の種類が多くなると、各センサの重要度といった分類のための規範が決まりづらくなってしまう。強化学習を導入することにより、システムの出力結果に強く関係するセンサ情報が選択されやすくなり、効果的な状態分類を学習可能となる。さらに、注意制御部25から行動方針を受取ることにより、システムの目的達成に強く関係するセンサ情報が選択されやすくマップが形成される。
本実施形態では、センサ情報状態分離部21の入力信号として、センサ情報の他に行動方針が併せて用いられる。行動方針を入力信号として扱うことで、センサ情報と行動方針の組み合わせに関するマッピングが可能となる。つまり、同一のセンサ情報パターンでも行動方針に応じて異なる状態が表現される。行動方針は、たとえば選択されている行動方針が1で、その他の行動方針は0として入力される。
入力信号の各成分は、入力層の対応付けられているニューロンに入力される。競合層の各ニューロンは、入力層のニューロンと全結合しており、入力層のニューロンとの結合重みと入力信号とのユークリッド距離が計算される。このユークリッド距離の最も小さいニューロンが競合に勝ち、近傍のニューロンも含めて結合重みの更新が行われる。感覚評価部22からの強化信号は、この結合重みの更新の速度を調整してマッピングを強化する。
センサ情報状態分離部21のニューロンには、高速で時系列情報学習が可能であることを特徴とする、図8に示す神経回路用の素子(以下「神経回路素子」と呼ぶ)80が適用されるのが望ましい。
この神経回路素子80のうちの任意の神経回路素子iは、複数の他の神経回路素子jから受け取る入力信号Xj(t-1)に基づいて動作をおこなう。神経回路素子jからの入力信号Xj(t-1)は、結合係数Wij(t)を乗算して素子内部に集積され、内部状態Vi(t)が算出される。続いて、現在の内部状態Vi(t)に基づいて出力信号Xi(t)が決定される。これに併せて出力Xiおよび内部状態Viが逆伝播され、履歴Hijと結合係数Wijが更新される。
神経回路素子jからの入力信号Xj(t-1)は、結合係数を乗算されてから他の入力信号と集積される。さらに内部状態の減衰値pVi(t-1)が残留値として以前から引き継がれ、集積された入力に加わり、現在の内部状態Vi(t)となる。内部状態Vi(t)は次式で表される。
Figure 0004776205
ここで、pは内部状態Viの減衰速度を決定する定数であり、0<p<1である。通常、内部状態Vi(t)は入力信号Xjと過去の内部状態Vi(t-1)に基づいて決定されるが、神経回路素子iが発火(Xi(t-1)=1)した直後には、静止状態V0から所定値δだけ低い値に強制的に設定される。この処理は、素子が保持する時系列情報をより明確にするためであるが、詳細は後述する。
現在の内部状態Viに基づいて、神経回路素子iの出力信号Xi(t)が決定される。本実施形態では、入力信号Xj(t-1)および出力信号Xi(t)は、デジタル的なパルス(0か1)とする。内部状態Viが所定のしきい値θより大きいとき、神経回路素子iは発火してパルスを出力する(Xi(t)=1)。しきい値より小さいとき、パルスを出力しない(Xi(t)=0)。神経回路素子iの出力Xi(t)は次式で表される。
Figure 0004776205
次に、この神経回路素子iの時系列学習方法について説明する。神経回路素子iの出力信号Xi(t)が決定された後、現在の内部状態Vi(t)の情報が各入力結合部jへと送られ、結合されている神経回路素子jに関する履歴値Hij(t)を更新する。本発明では、これらの履歴値Hij(t)の変化を神経回路素子iの内部状態Viに依存させることによって、発火前後のシナプス履歴の時間変化のコントラストをより明確にすることが可能となる。また、履歴値Hij(t)を併せて強化信号ri(t)にも依存させることにより、学習の方向性を制御することを可能にする。神経回路素子iにおける神経回路素子jからの入力の履歴値Hij(t)は次式のように表される。
Figure 0004776205
ここで、λは右辺第一項と第二項の比率を決めるパラメータであり、0<λ<1である。右辺第一項は、強化信号ri(t)、内部状態Vi(t)および神経回路素子jからの入力信号Xj(t-1)の積により履歴が更新されることを示す項である。第二項は、古い履歴Hij(t-1)がλにより減衰されて蓄積されることを示す項である。このような履歴値Hijの定義により、神経回路素子iに結合されている神経回路素子jが発火したときに、その情報が履歴に加えられることを表現できる。また、履歴値Hijは神経回路素子i自身の発火には依存せずに蓄積されるので、より長期的な発火プロセスも記憶することが可能である。
続いて時系列情報を含む履歴値Hij(t)に基づいて、結合係数Wijの更新が行われる。結合係数の変更分ΔWij(t)は次式のように表される。
Figure 0004776205
ここで、αは学習の進行速度を表す定数(学習率)であり、0<α<1である。Hi0は学習の方向を決定するしきい値である。履歴値Hij(t)がしきい値Hi0より大きい場合には、神経回路素子jとの結合係数Wijは増強され、しきい値より小さい場合にはWijは減衰される。Zi(t)は神経回路素子iの発火に依存する関数であって、発火後所定時間τ経過後に学習を実行させるための係数となる。Zi(t)は次式のように表される。
Figure 0004776205
式(4)、式(5)は、神経回路素子iが発火してからτ[msec]経過した後に、その時点の履歴値Hijに基づいて神経回路素子jとの結合係数Wijが更新されることを示す。所定の時間τだけ更新を遅延させることは、生体の神経学習動作に30[msec]程度の時間遅れが生じる現象を参考にしたものである。τの値は0より大きな微小値でさえあれば良く、神経回路素子の使用目的、制御対象の特性などの条件に応じて適宜設定すれば良い。
以上、本実施形態で適用する時系列情報学習が可能な神経回路素子80について説明した。なお、センサ情報状態分離部21のニューロンには、従来型の履歴を持たないニューロンを適用しても良い。この場合、結合重みを更新する際の学習係数を強化信号に応じて増減させることにより、効果的な学習を実現する。
2.4 感覚評価部による出力制御
次に、感覚評価部22による出力制御について説明する。感覚評価部22は、システムが目標を達成することなく失敗したと判断したときには、行動出力を抑制する命令を出力する。実際に学習によりシステムを制御する場合、学習初期は明らかにシステム動作の失敗となる可能性が高い。システムはまだ充分な知識がないため、失敗した場合、さらに失敗を重ねることがある。そこで、システムが失敗したと評価した場合、行動出力を抑え、行動を控える命令を出力するようにした。これにより、失敗後のあまり有効でない行動に対しての学習を止めるとともに、無駄な学習を排除して少ない時間でより多くの試行を行うことができる。
2.5 出力依存のシステム構成
この学習制御システムの特徴は、出力依存のシステム構成である。自律的に行動を学習する手法として、現在は強化学習があるが、学習できる行動領域が狭くないと学習が困難である。そのため、階層的な構築を目指す研究もあるが、基本的原理はない。そこで、本発明の一実施形態による学習制御システムでは、出力27を基準にシステムが統合されるように学習が実行される。つまり、出力が決まると、履歴として蓄積された情報を用いて行動の学習およびセンサ情報の学習が独立して実行され、その結果としての出力によりさらに更新される。学習制御システムに図2のような異種の学習モジュールを用意することで、結果としてそのアーキテクチャに沿った階層的処理が創られていく。
3.ヘリコプター運動制御への適用
続いて、本発明の別な実施形態として、上記の学習制御システムを適用したラジコンヘリコプターの運動制御システムについて説明する。従来の強化学習の手法は、学習時間の遅さという問題があり、ヘリコプター制御のように試行数が限られるような学習は非常に困難とされている。これに対して、本発明で提案する学習制御システムは、予測能力が高く、学習が速いことを特徴としており、ヘリコプター制御のような少ない学習回数を要求される問題にも対応可能である。
3.1 システム構成
図3は、このシステムの構成例を示す図である。このシステムは、カメラ32によるターゲット33の位置情報およびジャイロ31による機体34の姿勢情報に基づいて、ホバリングなどのヘリコプター30の自律飛行を制御する。
制御対象であるヘリコプター30は、機体34、メインロータ35、およびテールロータ36から構成されている。ヘリコプター30は、メインロータ35およびテールロータ36の回転により空中に浮揚する。
機体34にはジャイロ31、カメラ32、運動制御部37およびサーボモータ38が搭載される。ジャイロ31は機体34のピッチ、ヨーおよびロール角を検出し、カメラ32はヘリコプター30の自律飛行の指標となるターゲット33の画像を提供する。ジャイロ31およびカメラ32からの情報は運動制御部37へ入力される。また、メインロータ35およびテールロータ36の基部にはそれぞれ伸縮機構39およびリンク機構40があり、ロッド41などによりサーボモータ38と連結されている。運動制御部37からの指令値によってサーボモータ38の出力が変化すると、伸縮機構39およびリンク機構40を介してメインロータ35およびテールロータ36の傾きも変化する。これらロータの傾きの変化によって、ヘリコプター30のピッチ、ヨー、およびロール角が調整される。
図4は、運動制御部37の構成をさらに詳しく示したブロック図である。運動制御部37は、図2で説明した学習制御システムと同様に、センサ情報状態分離部51、感覚評価部52,行動学習部53、注意制御部55,および行動列記憶修正部56を含む。この運動制御部37は、プログラムなどのソフトウェア、ならびにアナログ回路およびデジタル回路などのハードウェアのどちらでも実現可能である。また、全体をソフトウェアまたはハードウェアで構成しても良いし、構成要素を個別にソフトウェアまたはハードウェアで構成し、これらを接続することによってシステムを構築しても良い。
運動制御部37は、ジャイロ31によるヨー、ロール、およびピッチ角、並びにカメラ32の画像によるブロッブ情報およびテンプレート位置情報を、外環境からのセンサ情報として取得する。
ここで、ブロッブ情報とは、カメラ画像から抽出される一定明度の領域の位置および面積の情報である。カメラ画像が濃淡しきい値によって多段階の明度画像に多値化され、各明度の画像内にある全てのブロッブの面積およびブロッブの中心の位置座標がブロッブ情報として記録される。
テンプレート位置情報とは、各ブロッブの周囲で最もテンプレートの形状に類似する位置の情報である。本実施形態のテンプレートは、大小2種類のターゲット33の形状であって飛行高度によって使い分ける。各ブロッブの周辺でテンプレート照合が行われ、ブロッブ毎に最大の照合値を示す位置座標およびその照合値が求められる。これらのデータの中から照合値の高いものがテンプレート位置情報として記録される。
また、行動出力は、機体の上下動制御、ヨー角制御、ロール角制御、およびピッチ角制御に対応するサーボモータ38への印加電圧である。この実施形態では、サーボモータ38は伸縮機構39およびリンク機構40に連結されている。サーボモータ38の駆動によってメインロータ35およびテールロータ36の傾きを変化させ、その結果ヘリコプター機体34の姿勢も変化する。
学習の簡易化のため、システムが出力する行動(印加電圧)は、連続値ではなく、ロータの角度に応じて複数の離散ステップに分類する。たとえば、行動0から行動8までの9ステップに分類する場合、行動4はメインロータが機体に対して水平な状態であり、行動0に近づくほどロータが前方に傾き、行動8に近づくほど後方に傾く。
3.2 注意制御部における行動方針の選択
注意制御部55において、入力信号に基づいてある行動方針が選択されると、システムの目標状態が定義されることになって、行動の目標が決定される。行動方針の選択方法は、事前に与えても、探索的に発見しても良い。探索的に発見する場合、感覚評価部からの強化信号により学習される。この実施形態では行動目標とは、操縦者からの機体ピッチ角の操作命令である。また、目標状態とは、選択される行動方針により受け入れられる状態である。
行動方針をあらかじめ設定する場合、本実施形態では例えば、「離陸」、「ホバリング」、「トラッキング」、および「着陸」という行動方針を設定する。これらの行動方針は、選択される順番があらかじめ決められている。本実施形態では、「離陸」→「ホバリング」→「トラッキング」→「着陸」という順番である。次の行動方針への遷移は、入力信号によって判断される。例えば、「離陸」から「ホバリング」への遷移は、両者の強化信号を比較して「ホバリング」の方が大きな強化信号を得る場合、且つメインロータの回転数が安定したホバリングが可能な所定値以上の場合に遷移が決定される。また、「ホバリング」から「トラッキング」への遷移は、上記の強化信号の条件に加え、過去数ステップの行動が安定であることが遷移の条件となる。
3.3 感覚評価部における強化信号生成
感覚評価部52は、行動方針に応じた関数セットを用いて、センサ情報およびカメラ情報に基づく強化信号を生成する。つまり、行動方針が異なれば、同じ入力情報でも異なる強化信号が生成される場合がある。以下に示す表は、行動方針に応じた関数セットの一例である。
Figure 0004776205
メインロータの回転数による強化信号rΨは、回転数Ψと係数ρの積から求められる。行動方針によって係数ρの値が異なっており、離陸→トラッキング→ホバリング→着陸の順で小さくなる。つまり、離陸時にはメインロータの回転数が最も大きな報酬を提供し、システムの行動に大きな影響を与える。一方、着陸時にはシステムへの影響は最も低くなる。
ヨー角、ロール角、およびピッチ角による強化信号rGγ,rGΔ,rGθは、角度が所定値kγ,kΔ,kθ(たとえば10度)を超えたときに、負の値が与えられる。この設定は、機体を一定の姿勢で保持するためである。与えられる強化信号の値は、離陸時および着陸時が最大であり、トラッキング時が最も0に近い値である。つまり、離陸時および着陸時にはより安定した姿勢が要求されるので、機体の姿勢の変動がシステムに大きな影響を与える。
ブロッブ情報による強化信号rは、ブロッブの数によって所定値が与えられる。トラッキング時において、カメラ画像から検出されるブロッブが1個の場合所定値δbが与えられ、ブロッブが2個以上の場合強化信号は0であり、ブロッブが0個の場合強化信号は−1となる。トラッキングモードは、ターゲット33を捕捉して飛行姿勢を安定させるタスクなので、ターゲットを正確に特定することが要求される。このため、ブロッブが1個の場合が最も評価が高く、ブロッブが0個の場合が最も評価が低い。一方、ホバリング時には、検出したブロッブ数が0個ならば評価が最も低く、その他ブロッブを何個でも検出すれば一定の評価が与えられる。ホバリングの場合、捕捉対象がターゲット33に限定される必要はなく、飛行姿勢を維持するために何らかの物体の画像情報があれば充分だからである。また、離陸時、着陸時にはブロッブ情報による強化信号は考慮されていない。
ターゲット33の位置情報による強化信号rtは、前回フレームと比較してターゲットの位置が一定範囲内に収まっていれば、所定値δtが与えられる。ホバリングにおいて、前回フレームとの位置の絶対差の大きさ(すなわちΔx=|tx(t)―tx(t-1)|、Δy=|ty(t)―ty(t-1)|)が求められ、ΔxおよびΔyがしきい値Tb未満ならば、強化信号rt=δtとなる。トラッキングにおいても同様に、ΔxおよびΔyがしきい値Tc未満ならば、強化信号rt=δtとなる。ここで、δt>0であって、Tb>Tcである。つまり、トラッキングモードの方が飛行姿勢の安定性に関して、より高い精度が要求されており、報酬を得るための条件が厳しくなっている。また、離陸時および着陸時には、ターゲットの位置情報による強化信号は考慮されていない。
以上、各種センサ情報に基づく強化信号の生成方法について説明した。これらの強化信号のうち、メインロータの回転数による強化信号rΨおよびヨー角、ロール角、およびピッチ角による強化信号rGγ,rGΔ,rGθは、局所的な強化信号r1〜rn-1として行動学習部53に送られる。また、これら局所的な強化信号と、ブロッブ情報による強化信号rおよびターゲットの位置情報による強化信号rとの総和が、システム全体の強化信号rnとなる。
3.4 行動学習部の構成
このように、感覚評価部52において複数のセンサ情報に基づく複数の強化信号が生成される。生成された複数の強化信号の各々は、局所的な情報に基づいている。本実施形態では、このような局所的な強化信号毎に行動学習を行うことにより、ヘリコプターという複雑な制御対象の行動学習を適切な方向へ進めることが可能である。
図5は、行動学習部53を詳細に示すブロック図である。行動学習部53は、センサ情報状態分離部51より入力ベクトルX(t)={X(t),・・・,X(t)}を受け取り、感覚評価部52より強化減弱信号(図1、図2の強化信号に相当)ベクトルR(t)={r(t),・・・,r(t)}を受け取る。X(t)は前記センサ情報状態分離部51で分類された状態であり、添字jは状態の数を表す。これら状態Xi(t)の集合X(t)が、すべての神経回路素子への入力となる。r(t)〜rn-1(t)は、各センサの計測値に基づいて求められた局所的な強化信号である。r(t)は、局所的な強化信号の総和であり、システム全体の強化信号である。局所的な強化信号r(t)〜rn-1(t)の各々は、Actor1〜Actor n-1の強化学習にそれぞれ利用される。システム全体の強化信号r(t)は、Criticの学習に利用される。
行動学習部53は、局所的な強化信号と同数(n-1)のActor61を有する。各Actor61は、入力X(t)に基づき局所的な行動指令を出力する。本実施形態における行動指令は、例えばヘリコプター機体の上下動(上昇と下降)、ヨー角、ロール角、およびピッチ角にそれぞれ相当する4チャンネルの制御ポートのうち選択されたチャンネルの制御量である。各Actor61から出力された局所的な行動指令は出力決定部62で比較され、最終的な行動指令が出力される。
Critic63はシステム全体に関する強化信号rnの時刻tから将来の総和(予測値)P(t)を予測する。Critic63の出力する予測値P(t)に基づき、内部強化信号生成部64において内部強化信号P(t-1)-γP(t)が生成される。この内部強化信号が各Actor61へ送られ、強化信号と内部強化信号の差分(ri(t)+ γP(t)- P(t-1) (i=1, 2, ・・・, n-1))を強化信号として学習が行われる。また、Criticでは、強化信号と内部強化信号の差分(r(t)+ γP(t)- P(t-1))を減少する方向に学習が行われる。
図6は、行動学習部53のActor61の構成を詳細に示すブロック図である。各Actor61は、出力行動の数と同数のニューロンから構成される。本実施形態の場合、各ニューロン66は、それぞれ上下動制御、ヨー角制御、ロール角制御、およびピッチ角制御に対応している。各ニューロンは、入力X(t)に応じた出力をActor出力選択部65に送る。Actor出力選択部65は、最大値を出力した行動を選択して、このActorが選択した局所的な行動指令として出力決定部62に送る。
行動学習部53が従来のActor-Critic構造と異なる点は、感覚評価部52からの信号(強化信号)が全てのニューロンに共通ではなく、複数のActor毎に別個であることである。強化信号r1(t)〜rn-1(t)は、例えば、ヨー角、ロール角、またはピッチ角が所与のしきい値(例えば10度)を超える場合、または機体の上下動が大きくジャイロ出力の変動が所定のしきい値を超える場合、対応するActor内のニューロンに負の値を与える。また、強化信号は、局所化により生成されても良い。たとえば、ヨー角、ロール角、またはピッチ角に関する離散軸において、ひとつ以上の峰を持つガウス分布により強化信号(r1(t)〜rn-1(t))を生成する。また、rn(t)はシステム全体の評価を基に決定される強化信号である。システム全体の強化信号rn(t)は、例えば、カメラの画像情報が途切れた場合、Critic83に負の値を与える。このような構成により、システム全体の行動評価を持ちながら、複数の行動種類を学習させることができる。
ここで、行動学習部の各ニューロン66には、式(1)から式(5)で説明した、時系列学習可能な神経回路素子を適用することが望ましい。しかし、従来型の履歴を持たないニューロンを適用することも可能である。
3.5 実験結果
図7は、システムに一定の行動目標(ピッチ方向の姿勢)を与えたときの学習の進行を示す実験結果である。横軸は時間軸で、0秒から800秒まで表している。縦軸上部は出力された制御命令を表しており、行動0から行動8までの9ステップである。縦軸下部はセンサ情報状態分離部で分離された状態を表しており、この場合状態数は9個である。
図7より、大体200秒辺りまでは制御命令、状態ともに変動が大きく、さまざまな行動、状態に遷移している。これは、学習初期は行動学習部の入出力関係がまだ不安定であり、また状態分離の不完全なため、探索的に学習が進んでいるためと考えられる。
一方、800秒に近づくにつれて行動、状態ともに遷移が少なくなり、制御命令は行動6に、状態は状態5にそれぞれ安定してきている。行動の安定と、状態の安定が、相互作用しながら進んでいることがわかる。
なお、本実施例では図4に示すように、強化信号は、運動制御部37内の感覚評価部52から出力される構成を示したが、所定のイベントが生じるたびに予め定められた基準に従った強化信号が外部から与えられる構成としても良い。
以上、本発明を具体的な実施例について記述したが、この発明は、このような実施例に限定されるものではない。
従来のActor-Criticアーキテクチャを用いた強化学習システムのブロック図である。 本発明の一実施形態である、学習制御システムのブロック図である。 本発明の別な実施形態であるヘリコプター学習制御システムの構成図である。 図3の運動制御部の構成を示すブロック図である。 図4の行動学習部の構成を示すブロック図である。 図5のActorの構成を示すブロック図である。 ヘリコプターの学習制御システムの実験結果である。 センサ情報状態分離部で適用されるのが望ましい、高速時系列学習が可能な神経回路素子の概略図である。
符号の説明
20 行動学習制御システム
21 センサ情報状態分離部
22 感覚評価部
23 行動学習部
24 センサ
25 注意制御部
26 行動列記憶修正部

Claims (2)

  1. 外環境の情報を取得するセンサと、前記センサからセンサ情報を受け取り、該情報に基づいて制御対象の状態を評価して評価に応じた報酬を強化信号として出力する感覚評価部(22、52)と、前記センサ情報を低次元化した状態へ分類するセンサ情報状態分離部(21、51)と、前記センサ情報状態分離部から与えられる前記状態に応じて行動指令を出力し、該状態と前記行動指令に応じた前記制御対象の行動との関係を前記強化信号に基づいて学習する行動学習部(23、53)と、を備える、自らの行動に応じて入出力関係を学習可能な行動学習制御装置において、
    前記行動学習制御装置は、さらに
    前記センサ情報を「状態」とし、前記行動指令を「行動」とし、前記感覚評価部からの強化信号を報酬として、報酬に関係する状態・行動の時系列情報を記憶し、現在の状態、行動を前記時系列情報と照合して、合致するときは、照合した箇所から後の時系列の行動を出力する行動列記憶修正部(26、56)と、
    前記センサ情報、前記感覚評価部からの強化信号、前記行動学習部からの行動指令、および前記行動列記憶修正部からの出力に基づいて、前記制御対象がとるべき行動方針を方針集合から選択し、前記センサ情報状態分離部と前記感覚評価部に送る注意制御部(25、55)と、を備えることと、
    前記センサ情報状態分離部は、前記センサ情報、前記感覚評価部からの前記強化信号および前記注意制御部からの前記行動方針を入力とし、自己組織化マップ(SOM)を用いて前記センサ情報を低次元化した状態にマップし、当該装置の目的達成に関係するセンサ情報の選択を学習すること、
    を特徴とする行動学習制御装置。
  2. 前記感覚評価部は、前記制御対象の状態が不安定と判別した場合に、前記行動指令の出力を禁止する指令を出す、請求項1記載の行動学習制御装置。
JP2004307284A 2004-10-21 2004-10-21 行動学習制御装置 Expired - Fee Related JP4776205B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2004307284A JP4776205B2 (ja) 2004-10-21 2004-10-21 行動学習制御装置
EP05023033A EP1650672A3 (en) 2004-10-21 2005-10-21 A neural network element with reinforcement/attenuation learning
US11/255,895 US7664714B2 (en) 2004-10-21 2005-10-21 Neural network element with reinforcement/attenuation learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004307284A JP4776205B2 (ja) 2004-10-21 2004-10-21 行動学習制御装置

Publications (2)

Publication Number Publication Date
JP2006119926A JP2006119926A (ja) 2006-05-11
JP4776205B2 true JP4776205B2 (ja) 2011-09-21

Family

ID=36537749

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004307284A Expired - Fee Related JP4776205B2 (ja) 2004-10-21 2004-10-21 行動学習制御装置

Country Status (1)

Country Link
JP (1) JP4776205B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018005739A (ja) * 2016-07-06 2018-01-11 株式会社デンソー ニューラルネットワークの強化学習方法及び強化学習装置
EP3724821A1 (en) * 2018-01-22 2020-10-21 Dakiana Research LLC Objective-effectuators in synthesized reality settings
US20230144995A1 (en) * 2020-06-05 2023-05-11 Deepmind Technologies Limited Learning options for action selection with meta-gradients in multi-task reinforcement learning
JP7204717B2 (ja) * 2020-09-29 2023-01-16 トヨタ モーター ヨーロッパ 環境コンテキストにおいて人間のような制御行動をシミュレーションするためのシステム及びコンピュータに基づく方法。

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3086206B2 (ja) * 1998-07-17 2000-09-11 科学技術振興事業団 エージェント学習装置

Also Published As

Publication number Publication date
JP2006119926A (ja) 2006-05-11

Similar Documents

Publication Publication Date Title
Kang et al. Generalization through simulation: Integrating simulated and real data into deep reinforcement learning for vision-based autonomous flight
US11707838B1 (en) Artificial intelligence system for efficiently learning robotic control policies
US11584008B1 (en) Simulation-real world feedback loop for learning robotic control policies
US10792810B1 (en) Artificial intelligence system for learning robotic control policies
CN110806759B (zh) 一种基于深度强化学习的飞行器航线跟踪方法
KR101813697B1 (ko) 딥 러닝을 이용한 무인기 비행 제어 시스템 및 방법
US6751529B1 (en) System and method for controlling model aircraft
US7664714B2 (en) Neural network element with reinforcement/attenuation learning
EP3201694B1 (en) System and method for controller adaptation
US20210341904A1 (en) Device and method for controlling a robot
Ferdaus et al. Online identification of a rotary wing unmanned aerial vehicle from data streams
JP4776205B2 (ja) 行動学習制御装置
Xu et al. Coordinated intelligent control of the flight control system and shape change of variable sweep morphing aircraft based on dueling-DQN
Olaz et al. Quadcopter neural controller for take-off and landing in windy environments
Howard A platform that directly evolves multirotor controllers
Jardine et al. Adaptive MPC using a dual fast orthogonal Kalman filter: Application to quadcopter altitude control
CN113743603A (zh) 控制方法、装置、存储介质及电子设备
Dutoi et al. Hybrid robust control and reinforcement learning for optimal upset recovery
Kimathi Application of reinforcement learning in heading control of a fixed wing uav using x-plane platform
Priandana et al. Development of self-organizing maps neural networks based control system for a boat model
Liu et al. Forward-looking imaginative planning framework combined with prioritized-replay double DQN
Van Hecke et al. Persistent self-supervised learning principle: from stereo to monocular vision for obstacle avoidance
Bao et al. Model-free control design using policy gradient reinforcement learning in lpv framework
Sun et al. Unmanned aerial vehicles control study using deep deterministic policy gradient
Ferrer Creating Visual Reactive Robot Behaviors Using Growing Neural Gas.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070316

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070326

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100629

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100713

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110412

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110523

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110614

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110628

R150 Certificate of patent or registration of utility model

Ref document number: 4776205

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140708

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees