JP4776205B2

JP4776205B2 - 行動学習制御装置

Info

Publication number: JP4776205B2
Application number: JP2004307284A
Authority: JP
Inventors: 広司辻野; 宣明宮川; 元松本
Original assignee: Honda Motor Co Ltd; RIKEN Institute of Physical and Chemical Research
Current assignee: Honda Motor Co Ltd; RIKEN Institute of Physical and Chemical Research
Priority date: 2004-10-21
Filing date: 2004-10-21
Publication date: 2011-09-21
Anticipated expiration: 2024-10-21
Also published as: JP2006119926A

Description

本発明は、ニューラルネットワークを用いた行動制御装置に関する。より詳細には、入力信号に対応してどのような出力信号を選択するかを自ら学習するシステムに関する。

入力信号から望ましい出力信号を生成する学習は、「教師あり学習」と「教師なし学習」に大別される。「教師あり学習」とは、入力信号に対する望ましい出力を教師信号として与えることでシステムの学習を進める方法であり、バックプロパゲーション法などが含まれる。「教師なし学習」とは、入力信号のみを用いて学習する方法である。システムは、学習に用いた信号または類似する信号が入力されたときに同じような出力信号を生成するように学習する。

実環境で学習制御システムを稼働させる場合を考えると、入力信号に対して適切な教師信号をあらかじめ与えることは難しい。入出力の関係に複雑さや非線形性があって事前の定義が煩雑なときに、制御システムに学習要素を追加するからである。従って、学習制御システムの実環境での使用には、教師なし学習が適している。さらに、教師なし学習の中でも、システム自らの行動の結果得られる報酬をもとに学習を進める強化学習が、報酬の与え方によって学習の方向性を制御可能な点が有効であり、これまで多く利用されている。

強化学習は、システム自らが探索的に行動を重ね、より多くの報酬を得られる方向へ学習を進めることができる。しかし、逆に言えば、探索の結果たどり着いた報酬に学習が依存してしまうので、概してローカルミニマムに陥りやすい。つまり、比較的単純なドメインでは強化学習は有効であるが、入力および出力のバリエーションが増えるに従い、なかなか最適な方向への学習ができない可能性が高い。

銅谷らは、強化学習の一手法であるActor-Criticアーキテクチャを改良し、複数のActor-Criticに状態予測器を付加する構造を提案している（特許文献１を参照）。状態予測器によって起こりうる状況を予測し、これに応じた最適な行動を選択するよう学習が行われる。また、複数のActor-Criticについて、それぞれの責任度を計算して学習に用いることで行動選択の幅を広げ、ローカルミニマムの問題の解決を試みた。
特開2000-35956

銅谷らの手法は、出力に関する非線形性をある程度持たせることができるが、入力に関するバリエーションや、そのバリエーションに関連した非線形な出力に関しての問題が解決できない。また、環境予測では予測の誤差最小化を基礎に学習が進み、その予測誤差を基に強化学習が制御されるため、経験数（学習数）があまり期待できないドメインには有効ではない。

従来手法よりも、予測能力が高く、学習が速い学習制御システムであって、より複雑なドメインの実時間制御にも適用可能なシステムが提供されるのが望ましい。本発明はこのような学習制御システムを提供することを目的とする。

本発明は、自らの行動に応じて入出力関係を学習可能な行動学習制御装置を提供する。この行動学習制御装置は、外環境の情報を取得するセンサと、センサ情報から制御対象の状態が安定か否かを判別し、判別結果に応じた強化信号を出力する感覚評価部と、センサ情報と感覚評価部から与えられる強化信号に基づき強化学習を実行し、感覚評価の高いセンサ情報ほど重み付けを大きくして、センサ情報を低次元化した状態へ分類するセンサ情報状態分離部と、センサ情報状態分離部から与えられる状態と対応する行動制御指令との関係を、強化信号に基づいて学習し、行動制御指令を出力する行動学習部と、を有する。このように、センサ情報状態分離部に強化学習を導入することにより、効果的な状態分類を短時間で実現することが期待できる。

この発明の一形態では、行動学習制御装置は、システムの行動目標に基づき、行動目標を達成するのを促進する行動方針をセンサ情報状態分離部と感覚評価部に送る注意制御部をさらに有する。行動方針は、センサ情報状態分離部の状態分離を調整し、感覚評価部の強化信号生成を調整する。注意制御部の導入により、行動目標に適した規範を与えることができ、学習の方向性が安定し、学習の高速化が期待できる。また行動方針をセンサ情報状態分離部と感覚評価部に与えることで、状態分割や強化信号生成を、短時間で望ましい状態にすることができる。これにより、学習の高速化が期待できる。

この発明の一形態では、行動学習制御装置は、センサ情報と行動制御指令を受け取り、記憶している時系列情報と照合した場合に時系列情報から行動制御指令を出力する行動列記憶修正部をさらに有する。これにより、報酬に貢献しやすい状態と行動が記憶されて、類似した状態が再び起きた場合に適切な行動を選択することが容易になり、高い予測能力が期待できる。

また、この発明の一形態では、感覚評価部が制御対象の状態が不安定と判別した場合に、システムの出力を抑制するよう指令を出力する。これにより学習初期に発生しやすい無駄な学習を削減することができ、学習の高速化が期待できる。

１．従来の強化学習システム
図１は従来のActor-Criticアーキテクチャを用いた強化学習システム１０の一例を示している。このシステムは、センサ情報状態分離部１１、感覚評価部１２、および行動学習部１３によって構成される。

システムでは、複数のセンサ１４によって外環境からの情報を得る。得られた情報は、入力信号としてセンサ情報状態分離部１１にていくつかの状態に分類される。この分類は、たとえばKohonenの自己組織化マップ（Self Organizing Map、ＳＯＭ）で可能である。ＳＯＭを用いた場合、センサ情報を類似性により分類したマップが競合層に形成され、センサ情報は、次元が圧縮された状態へと変換される。

感覚評価部１２は、センサの情報からシステムの状態を評価して、これに応じた報酬を強化信号として行動学習部１３に送る。

行動学習部１３は、Actor-Criticアーキテクチャで構成されており、センサ情報状態分離部１１で分類された状態を入力信号として、状態に応じた行動の選択を学習する。行動の選択学習は、感覚評価部１２からの強化信号に基づいた強化学習を実行する。

このような従来の強化学習システムは、前述のように、比較的単純なドメインでは有効に学習を実行できるが、入力および出力が複雑になるにつれてローカルミニマムに陥りやすくなり、なかなか最適な解を得ることができない可能性が高い。

２．本発明のシステム構成
図２は、本発明の一実施形態である学習制御システム２０のブロック図を示している。このシステムは、図１に示す従来の強化学習システム１０よりも、予測能力の高さと学習の高速化を考慮して構成されている。学習制御システム２０の構成要素のうち、センサ情報状態分離部２１、感覚評価部２２、および行動学習部２３は、図１に示した従来手法における構成要素と基本的に同様である。改良点は、新たな構成要素として注意制御部２５と行動列記憶修正部２６を追加、センサ情報状態分離部２１への強化学習導入、および感覚評価部２２による出力制御、である。

まず、追加された注意制御部２５と行動列記憶修正部２６について説明する。

２．１注意制御部
注意制御部２５は、センサ情報状態分離部２１と感覚評価部２２に対して、システムが取るべき行動方針を提供する。ここでいう行動方針とは一種のモードであり、システムの目標を達成しやすくする短期的制約である。行動方針は、あらかじめ設定されていても、自己組織的に形成されていても良い。行動方針は、具体的には、方針集合（たとえば４種類の行動方針があるなら方針集合は［Ｐａ、Ｐｂ、Ｐｃ、Ｐｄ］となる）の中から一つ選択され、センサ情報状態分離部２１と感覚評価部２２へ送られる。選択された行動方針により、センサ情報の状態分離や強化信号の生成に変化が起きる。

注意制御部２５への入力信号は、センサ２４からの情報と、感覚評価部２２からの強化信号と、行動学習部２３の出力行動と、行動列記憶修正部２６の出力行動である。これらの入力からどの行動方針を選択するかは、例えばルールによって記述される。この場合、行動方針を選択する順番は、あらかじめ決められていて、入力信号に応じて次の行動方針へと順次切り換えられる。

選択された行動方針は、その目標が達成されるまで継続される。しかし、予測のつかない状況などに入った場合、感覚評価部２２からの強化信号から判断し、行動方針をリセットし、後述する２．４節の感覚評価部２２による行動制御処理に移行する。

注意制御部２５で選択された行動方針は、センサ情報状態分離部２１および感覚評価部２２へ送られる。感覚評価部２２では、行動方針に応じた関数セットを用いて強化信号が生成される。つまり、与えられる行動方針によって、同じセンサ情報からでも異なる強化信号が生成されることがありうる。また、センサ情報状態分離部２１では、行動方針が学習に利用される。

２．２行動列記憶修正部
行動列記憶修正部２６は、報酬獲得に貢献する状態と行動の時系列情報を記憶しており、記憶している状態・行動と同様の状態・行動があった場合、記憶している時系列情報から行動を出力する。従来の強化学習では、発見的に時系列情報を学習可能だが、それを安定して保持し、さらに修正して精度を上げるといった処理は困難である。そこで、行動列記憶修正部２６を導入し、報酬に貢献する過去の時系列関係を優先して出力させる。これにより、出力計算が簡易になり高速処理が可能となるとともに、予測ドメインを自ら絞り込むことによって学習の自由度を拘束し、複雑な環境にも対応可能となる。

行動列記憶修正部２６への入力は、センサ情報と、行動学習部２３の出力行動と、感覚評価部２２からの強化信号である。センサ情報が「状態」であり、行動学習部２３の出力が「行動」であり、強化信号が「報酬」である。記憶している時系列情報との比較は、たとえば、入力された現在の状態、行動を含む過去数ステップ前までの時系列情報を、記憶している時系列情報と照合し、記憶データと合致した場合には照合した箇所から後の時系列の行動を出力すれば良い。

２．３センサ情報状態分離部への強化学習導入
次に、センサ情報状態分離部２１への強化学習導入について説明する。本発明の一実施形態では、センサ情報状態分離部２１への入力は、従来のセンサ情報の他に、感覚評価部２２からの強化信号と注意制御部２５からの行動方針が加わり、センサ情報の分類学習を促進する。

上述の通り、センサ情報状態分離部２１では、複数のセンサ情報を低次元化した状態へのマップを、ＳＯＭなどを用いて自己組織的に形成している。しかし、センサ２４の種類が多くなると、各センサの重要度といった分類のための規範が決まりづらくなってしまう。強化学習を導入することにより、システムの出力結果に強く関係するセンサ情報が選択されやすくなり、効果的な状態分類を学習可能となる。さらに、注意制御部２５から行動方針を受取ることにより、システムの目的達成に強く関係するセンサ情報が選択されやすくマップが形成される。

本実施形態では、センサ情報状態分離部２１の入力信号として、センサ情報の他に行動方針が併せて用いられる。行動方針を入力信号として扱うことで、センサ情報と行動方針の組み合わせに関するマッピングが可能となる。つまり、同一のセンサ情報パターンでも行動方針に応じて異なる状態が表現される。行動方針は、たとえば選択されている行動方針が１で、その他の行動方針は０として入力される。

入力信号の各成分は、入力層の対応付けられているニューロンに入力される。競合層の各ニューロンは、入力層のニューロンと全結合しており、入力層のニューロンとの結合重みと入力信号とのユークリッド距離が計算される。このユークリッド距離の最も小さいニューロンが競合に勝ち、近傍のニューロンも含めて結合重みの更新が行われる。感覚評価部２２からの強化信号は、この結合重みの更新の速度を調整してマッピングを強化する。

センサ情報状態分離部２１のニューロンには、高速で時系列情報学習が可能であることを特徴とする、図８に示す神経回路用の素子（以下「神経回路素子」と呼ぶ）８０が適用されるのが望ましい。

この神経回路素子８０のうちの任意の神経回路素子ｉは、複数の他の神経回路素子ｊから受け取る入力信号Xj（t-1）に基づいて動作をおこなう。神経回路素子ｊからの入力信号Xj（t-1）は、結合係数Wij（t）を乗算して素子内部に集積され、内部状態Vi（t）が算出される。続いて、現在の内部状態Vi（t）に基づいて出力信号Xi（t）が決定される。これに併せて出力Xiおよび内部状態Viが逆伝播され、履歴Hijと結合係数Wijが更新される。

神経回路素子ｊからの入力信号Xj(t-1)は、結合係数を乗算されてから他の入力信号と集積される。さらに内部状態の減衰値pVi(t-1)が残留値として以前から引き継がれ、集積された入力に加わり、現在の内部状態Vi(t)となる。内部状態Vi(t)は次式で表される。

ここで、pは内部状態Viの減衰速度を決定する定数であり、０＜ｐ＜１である。通常、内部状態Vi(t)は入力信号Xjと過去の内部状態Vi(t-1)に基づいて決定されるが、神経回路素子ｉが発火（Xi(t-1)=１）した直後には、静止状態V₀から所定値δだけ低い値に強制的に設定される。この処理は、素子が保持する時系列情報をより明確にするためであるが、詳細は後述する。

現在の内部状態Viに基づいて、神経回路素子ｉの出力信号Xi(t)が決定される。本実施形態では、入力信号Xj(t-1)および出力信号Xi(t)は、デジタル的なパルス（０か１）とする。内部状態Viが所定のしきい値θより大きいとき、神経回路素子ｉは発火してパルスを出力する（Xi(t)＝1）。しきい値より小さいとき、パルスを出力しない（Xi(t)＝0）。神経回路素子ｉの出力Xi(t)は次式で表される。

次に、この神経回路素子ｉの時系列学習方法について説明する。神経回路素子ｉの出力信号Xi(t)が決定された後、現在の内部状態Vi(t)の情報が各入力結合部ｊへと送られ、結合されている神経回路素子ｊに関する履歴値Hij(t)を更新する。本発明では、これらの履歴値Hij(t)の変化を神経回路素子ｉの内部状態Viに依存させることによって、発火前後のシナプス履歴の時間変化のコントラストをより明確にすることが可能となる。また、履歴値Hij(t)を併せて強化信号ri(t)にも依存させることにより、学習の方向性を制御することを可能にする。神経回路素子ｉにおける神経回路素子ｊからの入力の履歴値Hij(t)は次式のように表される。

ここで、λは右辺第一項と第二項の比率を決めるパラメータであり、0＜λ＜１である。右辺第一項は、強化信号ri(t)、内部状態Vi(t)および神経回路素子ｊからの入力信号Xj(t-1)の積により履歴が更新されることを示す項である。第二項は、古い履歴Hij(t-1)がλにより減衰されて蓄積されることを示す項である。このような履歴値Hijの定義により、神経回路素子ｉに結合されている神経回路素子ｊが発火したときに、その情報が履歴に加えられることを表現できる。また、履歴値Hijは神経回路素子ｉ自身の発火には依存せずに蓄積されるので、より長期的な発火プロセスも記憶することが可能である。

続いて時系列情報を含む履歴値Hij(t)に基づいて、結合係数Wijの更新が行われる。結合係数の変更分ΔWij(t)は次式のように表される。

ここで、αは学習の進行速度を表す定数（学習率）であり、0＜α＜1である。Hi₀は学習の方向を決定するしきい値である。履歴値Hij(t)がしきい値Hi₀より大きい場合には、神経回路素子ｊとの結合係数Wijは増強され、しきい値より小さい場合にはWijは減衰される。Zi(t)は神経回路素子ｉの発火に依存する関数であって、発火後所定時間τ経過後に学習を実行させるための係数となる。Zi(t)は次式のように表される。

式（４）、式（５）は、神経回路素子ｉが発火してからτ[msec]経過した後に、その時点の履歴値Hijに基づいて神経回路素子ｊとの結合係数Wijが更新されることを示す。所定の時間τだけ更新を遅延させることは、生体の神経学習動作に３０[msec]程度の時間遅れが生じる現象を参考にしたものである。τの値は０より大きな微小値でさえあれば良く、神経回路素子の使用目的、制御対象の特性などの条件に応じて適宜設定すれば良い。

以上、本実施形態で適用する時系列情報学習が可能な神経回路素子８０について説明した。なお、センサ情報状態分離部２１のニューロンには、従来型の履歴を持たないニューロンを適用しても良い。この場合、結合重みを更新する際の学習係数を強化信号に応じて増減させることにより、効果的な学習を実現する。

２．４感覚評価部による出力制御
次に、感覚評価部２２による出力制御について説明する。感覚評価部２２は、システムが目標を達成することなく失敗したと判断したときには、行動出力を抑制する命令を出力する。実際に学習によりシステムを制御する場合、学習初期は明らかにシステム動作の失敗となる可能性が高い。システムはまだ充分な知識がないため、失敗した場合、さらに失敗を重ねることがある。そこで、システムが失敗したと評価した場合、行動出力を抑え、行動を控える命令を出力するようにした。これにより、失敗後のあまり有効でない行動に対しての学習を止めるとともに、無駄な学習を排除して少ない時間でより多くの試行を行うことができる。

２．５出力依存のシステム構成
この学習制御システムの特徴は、出力依存のシステム構成である。自律的に行動を学習する手法として、現在は強化学習があるが、学習できる行動領域が狭くないと学習が困難である。そのため、階層的な構築を目指す研究もあるが、基本的原理はない。そこで、本発明の一実施形態による学習制御システムでは、出力２７を基準にシステムが統合されるように学習が実行される。つまり、出力が決まると、履歴として蓄積された情報を用いて行動の学習およびセンサ情報の学習が独立して実行され、その結果としての出力によりさらに更新される。学習制御システムに図２のような異種の学習モジュールを用意することで、結果としてそのアーキテクチャに沿った階層的処理が創られていく。

３．ヘリコプター運動制御への適用
続いて、本発明の別な実施形態として、上記の学習制御システムを適用したラジコンヘリコプターの運動制御システムについて説明する。従来の強化学習の手法は、学習時間の遅さという問題があり、ヘリコプター制御のように試行数が限られるような学習は非常に困難とされている。これに対して、本発明で提案する学習制御システムは、予測能力が高く、学習が速いことを特徴としており、ヘリコプター制御のような少ない学習回数を要求される問題にも対応可能である。

３．１システム構成
図３は、このシステムの構成例を示す図である。このシステムは、カメラ３２によるターゲット３３の位置情報およびジャイロ３１による機体３４の姿勢情報に基づいて、ホバリングなどのヘリコプター３０の自律飛行を制御する。

制御対象であるヘリコプター３０は、機体３４、メインロータ３５、およびテールロータ３６から構成されている。ヘリコプター３０は、メインロータ３５およびテールロータ３６の回転により空中に浮揚する。

機体３４にはジャイロ３１、カメラ３２、運動制御部３７およびサーボモータ３８が搭載される。ジャイロ３１は機体３４のピッチ、ヨーおよびロール角を検出し、カメラ３２はヘリコプター３０の自律飛行の指標となるターゲット３３の画像を提供する。ジャイロ３１およびカメラ３２からの情報は運動制御部３７へ入力される。また、メインロータ３５およびテールロータ３６の基部にはそれぞれ伸縮機構３９およびリンク機構４０があり、ロッド４１などによりサーボモータ３８と連結されている。運動制御部３７からの指令値によってサーボモータ３８の出力が変化すると、伸縮機構３９およびリンク機構４０を介してメインロータ３５およびテールロータ３６の傾きも変化する。これらロータの傾きの変化によって、ヘリコプター３０のピッチ、ヨー、およびロール角が調整される。

図４は、運動制御部３７の構成をさらに詳しく示したブロック図である。運動制御部３７は、図２で説明した学習制御システムと同様に、センサ情報状態分離部５１、感覚評価部５２，行動学習部５３、注意制御部５５，および行動列記憶修正部５６を含む。この運動制御部３７は、プログラムなどのソフトウェア、ならびにアナログ回路およびデジタル回路などのハードウェアのどちらでも実現可能である。また、全体をソフトウェアまたはハードウェアで構成しても良いし、構成要素を個別にソフトウェアまたはハードウェアで構成し、これらを接続することによってシステムを構築しても良い。

運動制御部３７は、ジャイロ３１によるヨー、ロール、およびピッチ角、並びにカメラ３２の画像によるブロッブ情報およびテンプレート位置情報を、外環境からのセンサ情報として取得する。

ここで、ブロッブ情報とは、カメラ画像から抽出される一定明度の領域の位置および面積の情報である。カメラ画像が濃淡しきい値によって多段階の明度画像に多値化され、各明度の画像内にある全てのブロッブの面積およびブロッブの中心の位置座標がブロッブ情報として記録される。

テンプレート位置情報とは、各ブロッブの周囲で最もテンプレートの形状に類似する位置の情報である。本実施形態のテンプレートは、大小２種類のターゲット３３の形状であって飛行高度によって使い分ける。各ブロッブの周辺でテンプレート照合が行われ、ブロッブ毎に最大の照合値を示す位置座標およびその照合値が求められる。これらのデータの中から照合値の高いものがテンプレート位置情報として記録される。

また、行動出力は、機体の上下動制御、ヨー角制御、ロール角制御、およびピッチ角制御に対応するサーボモータ３８への印加電圧である。この実施形態では、サーボモータ３８は伸縮機構３９およびリンク機構４０に連結されている。サーボモータ３８の駆動によってメインロータ３５およびテールロータ３６の傾きを変化させ、その結果ヘリコプター機体３４の姿勢も変化する。

学習の簡易化のため、システムが出力する行動（印加電圧）は、連続値ではなく、ロータの角度に応じて複数の離散ステップに分類する。たとえば、行動０から行動８までの９ステップに分類する場合、行動４はメインロータが機体に対して水平な状態であり、行動０に近づくほどロータが前方に傾き、行動８に近づくほど後方に傾く。

３．２注意制御部における行動方針の選択
注意制御部５５において、入力信号に基づいてある行動方針が選択されると、システムの目標状態が定義されることになって、行動の目標が決定される。行動方針の選択方法は、事前に与えても、探索的に発見しても良い。探索的に発見する場合、感覚評価部からの強化信号により学習される。この実施形態では行動目標とは、操縦者からの機体ピッチ角の操作命令である。また、目標状態とは、選択される行動方針により受け入れられる状態である。

行動方針をあらかじめ設定する場合、本実施形態では例えば、「離陸」、「ホバリング」、「トラッキング」、および「着陸」という行動方針を設定する。これらの行動方針は、選択される順番があらかじめ決められている。本実施形態では、「離陸」→「ホバリング」→「トラッキング」→「着陸」という順番である。次の行動方針への遷移は、入力信号によって判断される。例えば、「離陸」から「ホバリング」への遷移は、両者の強化信号を比較して「ホバリング」の方が大きな強化信号を得る場合、且つメインロータの回転数が安定したホバリングが可能な所定値以上の場合に遷移が決定される。また、「ホバリング」から「トラッキング」への遷移は、上記の強化信号の条件に加え、過去数ステップの行動が安定であることが遷移の条件となる。

３．３感覚評価部における強化信号生成
感覚評価部５２は、行動方針に応じた関数セットを用いて、センサ情報およびカメラ情報に基づく強化信号を生成する。つまり、行動方針が異なれば、同じ入力情報でも異なる強化信号が生成される場合がある。以下に示す表は、行動方針に応じた関数セットの一例である。

メインロータの回転数による強化信号ｒ_Ψは、回転数Ψと係数ρの積から求められる。行動方針によって係数ρの値が異なっており、離陸→トラッキング→ホバリング→着陸の順で小さくなる。つまり、離陸時にはメインロータの回転数が最も大きな報酬を提供し、システムの行動に大きな影響を与える。一方、着陸時にはシステムへの影響は最も低くなる。

ヨー角、ロール角、およびピッチ角による強化信号ｒ_Ｇγ，ｒ_ＧΔ，ｒ_Ｇθは、角度が所定値ｋ_γ，ｋ_Δ，ｋ_θ（たとえば10度）を超えたときに、負の値が与えられる。この設定は、機体を一定の姿勢で保持するためである。与えられる強化信号の値は、離陸時および着陸時が最大であり、トラッキング時が最も０に近い値である。つまり、離陸時および着陸時にはより安定した姿勢が要求されるので、機体の姿勢の変動がシステムに大きな影響を与える。

ブロッブ情報による強化信号ｒ_ｂは、ブロッブの数によって所定値が与えられる。トラッキング時において、カメラ画像から検出されるブロッブが１個の場合所定値δｂが与えられ、ブロッブが２個以上の場合強化信号は０であり、ブロッブが０個の場合強化信号は−１となる。トラッキングモードは、ターゲット３３を捕捉して飛行姿勢を安定させるタスクなので、ターゲットを正確に特定することが要求される。このため、ブロッブが１個の場合が最も評価が高く、ブロッブが０個の場合が最も評価が低い。一方、ホバリング時には、検出したブロッブ数が０個ならば評価が最も低く、その他ブロッブを何個でも検出すれば一定の評価が与えられる。ホバリングの場合、捕捉対象がターゲット３３に限定される必要はなく、飛行姿勢を維持するために何らかの物体の画像情報があれば充分だからである。また、離陸時、着陸時にはブロッブ情報による強化信号は考慮されていない。

ターゲット３３の位置情報による強化信号ｒｔは、前回フレームと比較してターゲットの位置が一定範囲内に収まっていれば、所定値δｔが与えられる。ホバリングにおいて、前回フレームとの位置の絶対差の大きさ（すなわちΔx=|tx(t)―tx(t-1)|、Δy=|ty(t)―ty(t-1)|）が求められ、ΔｘおよびΔｙがしきい値Ｔｂ未満ならば、強化信号ｒｔ＝δｔとなる。トラッキングにおいても同様に、ΔｘおよびΔｙがしきい値Ｔｃ未満ならば、強化信号ｒｔ＝δｔとなる。ここで、δｔ＞０であって、Ｔｂ＞Ｔｃである。つまり、トラッキングモードの方が飛行姿勢の安定性に関して、より高い精度が要求されており、報酬を得るための条件が厳しくなっている。また、離陸時および着陸時には、ターゲットの位置情報による強化信号は考慮されていない。

以上、各種センサ情報に基づく強化信号の生成方法について説明した。これらの強化信号のうち、メインロータの回転数による強化信号ｒ_Ψおよびヨー角、ロール角、およびピッチ角による強化信号ｒ_Ｇγ，ｒ_ＧΔ，ｒ_Ｇθは、局所的な強化信号r₁〜r_n-1として行動学習部５３に送られる。また、これら局所的な強化信号と、ブロッブ情報による強化信号ｒ_ｂおよびターゲットの位置情報による強化信号r_ｔとの総和が、システム全体の強化信号r_nとなる。

３．４行動学習部の構成
このように、感覚評価部５２において複数のセンサ情報に基づく複数の強化信号が生成される。生成された複数の強化信号の各々は、局所的な情報に基づいている。本実施形態では、このような局所的な強化信号毎に行動学習を行うことにより、ヘリコプターという複雑な制御対象の行動学習を適切な方向へ進めることが可能である。

図５は、行動学習部５３を詳細に示すブロック図である。行動学習部５３は、センサ情報状態分離部５１より入力ベクトルＸ(t)＝｛X_１(t)，・・・，X_ｊ(t)｝を受け取り、感覚評価部５２より強化減弱信号（図１、図２の強化信号に相当）ベクトルR(t)＝｛ｒ_１(t)，・・・，ｒ_ｎ(t)｝を受け取る。X_ｊ(t)は前記センサ情報状態分離部５１で分類された状態であり、添字ｊは状態の数を表す。これら状態Xi(t)の集合X(t)が、すべての神経回路素子への入力となる。ｒ_１(t)〜ｒ_n-1(t)は、各センサの計測値に基づいて求められた局所的な強化信号である。ｒ_ｎ(t)は、局所的な強化信号の総和であり、システム全体の強化信号である。局所的な強化信号ｒ_１(t)〜ｒ_n-1(t)の各々は、Actor１〜Actor n-1の強化学習にそれぞれ利用される。システム全体の強化信号ｒ_ｎ(t)は、Criticの学習に利用される。

行動学習部５３は、局所的な強化信号と同数（n-1）のActor６１を有する。各Actor６１は、入力X(t)に基づき局所的な行動指令を出力する。本実施形態における行動指令は、例えばヘリコプター機体の上下動（上昇と下降）、ヨー角、ロール角、およびピッチ角にそれぞれ相当する４チャンネルの制御ポートのうち選択されたチャンネルの制御量である。各Actor６１から出力された局所的な行動指令は出力決定部６２で比較され、最終的な行動指令が出力される。

Critic６３はシステム全体に関する強化信号r_nの時刻ｔから将来の総和（予測値）P(t)を予測する。Critic６３の出力する予測値P(t)に基づき、内部強化信号生成部６４において内部強化信号P(t-1)-γP(t)が生成される。この内部強化信号が各Actor６１へ送られ、強化信号と内部強化信号の差分（r_i(t)+ γP(t)- P(t-1) (i=1, 2, ・・・, n-1)）を強化信号として学習が行われる。また、Criticでは、強化信号と内部強化信号の差分（r_ｎ(t)+ γP(t)- P(t-1)）を減少する方向に学習が行われる。

図６は、行動学習部５３のActor６１の構成を詳細に示すブロック図である。各Actor６１は、出力行動の数と同数のニューロンから構成される。本実施形態の場合、各ニューロン６６は、それぞれ上下動制御、ヨー角制御、ロール角制御、およびピッチ角制御に対応している。各ニューロンは、入力Ｘ(t)に応じた出力をActor出力選択部６５に送る。Actor出力選択部６５は、最大値を出力した行動を選択して、このActorが選択した局所的な行動指令として出力決定部６２に送る。

行動学習部５３が従来のActor-Critic構造と異なる点は、感覚評価部５２からの信号（強化信号）が全てのニューロンに共通ではなく、複数のActor毎に別個であることである。強化信号r₁(t)〜r_n-1(t)は、例えば、ヨー角、ロール角、またはピッチ角が所与のしきい値（例えば１０度）を超える場合、または機体の上下動が大きくジャイロ出力の変動が所定のしきい値を超える場合、対応するActor内のニューロンに負の値を与える。また、強化信号は、局所化により生成されても良い。たとえば、ヨー角、ロール角、またはピッチ角に関する離散軸において、ひとつ以上の峰を持つガウス分布により強化信号（r₁(t)〜r_n-1(t)）を生成する。また、r_n(t)はシステム全体の評価を基に決定される強化信号である。システム全体の強化信号r_n(t)は、例えば、カメラの画像情報が途切れた場合、Critic８３に負の値を与える。このような構成により、システム全体の行動評価を持ちながら、複数の行動種類を学習させることができる。

ここで、行動学習部の各ニューロン６６には、式（１）から式（５）で説明した、時系列学習可能な神経回路素子を適用することが望ましい。しかし、従来型の履歴を持たないニューロンを適用することも可能である。

３．５実験結果
図７は、システムに一定の行動目標（ピッチ方向の姿勢）を与えたときの学習の進行を示す実験結果である。横軸は時間軸で、0秒から800秒まで表している。縦軸上部は出力された制御命令を表しており、行動０から行動８までの9ステップである。縦軸下部はセンサ情報状態分離部で分離された状態を表しており、この場合状態数は９個である。

図７より、大体200秒辺りまでは制御命令、状態ともに変動が大きく、さまざまな行動、状態に遷移している。これは、学習初期は行動学習部の入出力関係がまだ不安定であり、また状態分離の不完全なため、探索的に学習が進んでいるためと考えられる。

一方、800秒に近づくにつれて行動、状態ともに遷移が少なくなり、制御命令は行動６に、状態は状態５にそれぞれ安定してきている。行動の安定と、状態の安定が、相互作用しながら進んでいることがわかる。

なお、本実施例では図４に示すように、強化信号は、運動制御部３７内の感覚評価部５２から出力される構成を示したが、所定のイベントが生じるたびに予め定められた基準に従った強化信号が外部から与えられる構成としても良い。

以上、本発明を具体的な実施例について記述したが、この発明は、このような実施例に限定されるものではない。

従来のActor-Criticアーキテクチャを用いた強化学習システムのブロック図である。本発明の一実施形態である、学習制御システムのブロック図である。本発明の別な実施形態であるヘリコプター学習制御システムの構成図である。図３の運動制御部の構成を示すブロック図である。図４の行動学習部の構成を示すブロック図である。図５のActorの構成を示すブロック図である。ヘリコプターの学習制御システムの実験結果である。センサ情報状態分離部で適用されるのが望ましい、高速時系列学習が可能な神経回路素子の概略図である。

符号の説明

２０行動学習制御システム
２１センサ情報状態分離部
２２感覚評価部
２３行動学習部
２４センサ
２５注意制御部
２６行動列記憶修正部

Claims

外環境の情報を取得するセンサと、前記センサからセンサ情報を受け取り、該情報に基づいて制御対象の状態を評価して評価に応じた報酬を強化信号として出力する感覚評価部(22、52)と、前記センサ情報を低次元化した状態へ分類するセンサ情報状態分離部(21、51)と、前記センサ情報状態分離部から与えられる前記状態に応じて行動指令を出力し、該状態と前記行動指令に応じた前記制御対象の行動との関係を前記強化信号に基づいて学習する行動学習部(23、53)と、を備える、自らの行動に応じて入出力関係を学習可能な行動学習制御装置において、
前記行動学習制御装置は、さらに
前記センサ情報を「状態」とし、前記行動指令を「行動」とし、前記感覚評価部からの強化信号を報酬として、報酬に関係する状態・行動の時系列情報を記憶し、現在の状態、行動を前記時系列情報と照合して、合致するときは、照合した箇所から後の時系列の行動を出力する行動列記憶修正部(26、56)と、
前記センサ情報、前記感覚評価部からの強化信号、前記行動学習部からの行動指令、および前記行動列記憶修正部からの出力に基づいて、前記制御対象がとるべき行動方針を方針集合から選択し、前記センサ情報状態分離部と前記感覚評価部に送る注意制御部(25、55)と、を備えることと、
前記センサ情報状態分離部は、前記センサ情報、前記感覚評価部からの前記強化信号および前記注意制御部からの前記行動方針を入力とし、自己組織化マップ（ＳＯＭ）を用いて前記センサ情報を低次元化した状態にマップし、当該装置の目的達成に関係するセンサ情報の選択を学習すること、
を特徴とする行動学習制御装置。
前記感覚評価部は、前記制御対象の状態が不安定と判別した場合に、前記行動指令の出力を禁止する指令を出す、請求項１記載の行動学習制御装置。