JPH11134003A

JPH11134003A - モジュール型学習制御方法

Info

Publication number: JPH11134003A
Application number: JP9300411A
Authority: JP
Inventors: Satoshi Yamada; 訓山田
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1997-10-31
Filing date: 1997-10-31
Publication date: 1999-05-21

Abstract

(57)【要約】【課題】多次元の入力を必要とするような複雑な制御
課題をリアルタイムで制御学習できるモジュール型学習
制御方法を得る。【解決手段】制御系への入力の一部分を入力して制御
結果予測値を計算し、その予測値に基づいて出力を選択
し、実際に制御した結果から予測値を学習する複数の学
習型制御モジュールを有し、各制御モジュール選択によ
る制御結果予測値を計算し、その予測値に基づいて制御
モジュールを選択し、実際の制御の結果から予測値を学
習する選択モジュールにて各状態で適切な制御モジュー
ルを選択する。制御系への入力の最大値・最小値・和・
平均などや学習型制御モジュールで計算される制御結果
予測値の最大値・最小値などを選択モジュールに入力し
て学習制御する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、振舞いが複雑でそ
の動作の同定が困難な動的システムなどによる制御対象
の制御を、モジュール型学習制御装置の学習によってそ
の制御法を獲得しつつ制御するモジュール型学習制御方
法に関するものである。

【０００２】

【従来の技術】図１１は例えば、「ロボティックスア
ンドオートノマスシステムズ(Robotics and Autono
mous Systems) 」第１５号（１９５５）の第２４７〜２
７４ページに示された、従来のニューラルネットワーク
を用いた学習制御方法が適用される制御装置の一例を示
すブロック図である。図１１において、１は例えば、２
自由度のマニピュレータなどの制御対象、２はこの制御
対象１を制御する制御系の制御モジュール、３，４は制
御モジュールを形成する各々の学習型制御モジュール、
５は適切な学習型制御モジュールを選択する選択モジュ
ール、７は基本制御課題と複合制御課題の間のＱ値の違
いを補償するためのバイアス値を計算するバイアスモジ
ュールである。

【０００３】次に動作について説明する。ここで、図１
２は図１１に示した制御装置に適用される従来の学習制
御方法を示すフローチャートである。

【０００４】まず、ステップＳＴ１０において、ニュウ
ーラルネットワークのシナプス結合強度に初期値を代入
し、初期化する。次にステップＳＴ１１において、制御
モジュール２の各学習型制御モジュール３、４及び、選
択モジュール５に制御対象１の状態値を入力する。この
制御課題では、各リンクの角度と角速度を入力する。各
状態値は最小値と最大値を用いて規格化し、０〜１の間
の値として入力する。

【０００５】次にステップＳＴ１２において、各学習型
制御モジュールの各出力に対するＱ値を計算する。ここ
でＱ値とは、現在の状態に、ある制御を行なった場合の
制御結果を予測する制御結果予測値である。Ｑ値の計算
には前記文献に記載のCerebellar Model Arithmetic Co
mputer(CMAC)を用いるとすると、Ｑ値の計算を以下のよ
うに行なう。CMACの各ニューロンは、入力空間のある領
域を受容野として持ち、入力値が受容野内にある時は１
を出力し、その他の場合には０を出力する。各ニューロ
ンの受容野が互いに重ならず入力空間全体をおおうよう
にニューロンを配置する。通常は入力空間を一定に分割
して各ニューロンの受容野とする。入力空間全体をおお
うように配置したCMACのニューロンのセットをタイルと
呼ぶ。CMACではこのタイルを複数用意して入力を処理す
る。各タイルのニューロンの受容野は少しずつずれてい
るので、各タイルで活動するニューロンのパターンによ
って入力を細かく分類でき、優れた分解能で迅速に処理
することができる。学習型制御モジュールでは、ある出
力で制御した場合の制御結果を予測するＱ値を計算し、
それに基づいて出力を決定する。k番目のタイルのj番目
のニューロンの時刻tでの出力をy(k,j,t)とする。モジ
ュールmの状態ベクトルx、出力a に対するＱ値Q(m,x,a,
t)を次式で計算する。 Q(m,x,a,t)=Σ_k,j w(m,a,k,j,t)y(k,j,t) (1) ここで、w(m,a,k,j,t)は学習型制御モジュールmのk番目
のタイルの j番目のニューロンの出力aに対するシナプ
ス結合強度である。

【０００６】次にステップＳＴ１３において、選択モジ
ュールの出力を計算する。選択モジュールでは、学習型
制御モジュールmを選択する確率g(m,t)を計算する。 g(m,t)=exp(s(m,t))/Σ_nexp(s(n,t)) s(m,t)=Σ_k,j w(m,k,j,t)y(k,j,t) (2) ここで、w(m,k,j,t)はの k番目のタイルの j番目のニュ
ーロンn の学習型制御モジュールm に対する選択モジュ
ールのシナプス結合強度である。続いて、バイアスモジ
ュールの出力K(t)を計算する。バイアスモジュールの出
力は入力された状態には依存しないで、与えられた制御
課題にだけ依存する。

【０００７】次にステップＳＴ１４において、制御出力
値を決定する。まず、学習型制御モジュールは、(2)式
の確率g(m,t)で学習型制御モジュールmを確率的に選択
する。制御モジュールm では、出力a(t)を次式で与えら
れる確率p(m,a,t)で確率的に選択する。 p(m,a,t)=exp(Q(m,x,a,t)/T_m)/Σ_bexp(Q(m,x,b,t)/T_m) (3) ここで、Tmは出力選択のＱ値への依存性の度合いを決定
する定数である。

【０００８】次にステップＳＴ１５において、選択され
た学習型制御モジュールの出力に対応したトルクを加
え、マニピュレータを制御する。次にステップＳＴ１６
において制御結果を入力する。制御結果R(t)は次式で与
えられる。 R(t) =0.5+0.5^*exp(-(Σ_i｜dq_i/dt｜) 目標地点に到達した場合 = -0.025^*｜dq/dt｜障害に衝突した場合 = -0.05 角速度絶対値が10rad/sを越えた場合 (4)

【０００９】次にステップＳＴ１７でシナプス結合強度
の学習をする。目標のＱ値 (q_des(t))を次式で計算す
る。 q_des(t)=R(t)+max_a(t+1) Q(sel(t+1),x,a,t+1)+K(t+1)-K(t) (5) 目標のＱ値が制御モジュールmで出力される確率は次式
で計算される。 p(q_des(t)｜m)=(1/((2π)^N/2σ_m ^N))^*exp(- (1/2σ_m ²)(｜q_des(t)｜-｜Q(m,x,a,t )｜) (6) ここで、σ_mはモジュールmの出力の標準偏差、Nは出力
の個数である。逆に、q_des(t)が与えられたとき、学習
型制御モジュールmを選択する確率は次式で計算され
る。 p(m｜q_des(t))=(g(m,t) p(q_des(t)｜m))/(Σ_ng(n,t) p(q_des(t)｜n)) (7) 対数尤度l(q_des(t))は次式で計算される。 l(q_des(t))=logΣ_ng(n,t) p(q_des(t)｜n) (8) 対数尤度が最大になるように、最急登坂法で学習する。
各シナプス結合強度を次式で更新する。 w(m,a,k,j,t+1)=w(m,a,k,j,t) +α_q(∂l(q_des(t))/∂Q(m,x,a,t))y(k,j,t) w(s,k,j,t+1)=w(s,k,j,t)+α_s(∂l(q_des(t))/∂s(m,t)) y(k,j,t) ∂l(q_des(t))/∂Q(m,x,a,t)=(1/σ_m ²)p(m｜q_des(t))(q_des(t)-Q(m,x,a,t)) ∂l(q_des(t))/∂s(m,t)= p(m｜q_des(t))(1-g(m,t)) (9) ここで、α_q,α_sは学習定数、sel(t)は時刻tで選択した
学習型制御モジュールである。

【００１０】次にステップＳＴ１８において、制御結果
が成功であるか失敗であるかの判定を行ない、制御結果
が失敗の場合には、制御を中止して、マニピュレータの
状態を制御開始の状態に戻し、ステップＳＴ１１に戻
り、制御が成功するまで制御学習を続ける。このように
して、多数回の試行によって、マニピュレータを目標の
位置に移動させる制御を学習することが可能になる。

【００１１】

【発明が解決しようとする課題】従来の学習制御方法は
以上のように構成されているので、複数のセンサ情報を
利用し、多次元の入力を必要とする制御課題（例えば、
４個の障害検知センサと４個の光センサを用いて障害を
回避しながらゴールへ到達させる制御等）を学習しよう
とすると、入力次元が大きくなり、非常に多数のニュー
ロンが必要になるので、計算時間が大きくなり、リアル
タイムでの制御学習が困難であるという問題点があっ
た。

【００１２】本発明は上記のような問題点を解決するた
めになされたもので、複数のセンサ情報を必要とし、入
力次元が大きい制御課題をリアルタイムで容易に制御学
習ができるモジュール型学習制御方法を得ることを目的
とする。

【００１３】

【課題を解決するための手段】本発明の第１の構成に係
るモジュール型学習制御方法は、制御対象の状態を測定
した測定結果および実際に制御した結果に基づいて、前
記制御対象の制御法を学習して制御する学習制御方法に
おいて、それぞれが制御結果の予測値を計算し、その予
測値に基づいて出力を決定し、実際に制御した結果から
予測値を学習し、制御対象の状態値の一部分をそれぞれ
に入力する複数の学習型制御モジュールと、前記各学習
型制御モジュール選択による制御結果の予測値を計算
し、それらの予測値に基づいて採用する学習型制御モジ
ュールを選択し、実際に制御した結果から制御結果予測
値を学習する選択モジュールとを備えて、前記制御対象
を制御する制御系に適用され、該制御系に前記制御対象
の状態の測定結果を入力する第１処理、その入力値に基
づいて前記制御対象の制御を行なって、当該制御による
前記制御対象の状態を測定する第２処理、その測定結果
から前記制御対象の制御の結果に対する評価を判定する
第３処理、およびその判定結果に基づいて前記制御系を
学習させる第４処理をそれぞれ施し、その学習結果に基
づいて前記第１〜第４処理を繰り返しつつ前記制御対象
の制御を行なうものである。

【００１４】本発明の第２の構成に係るモジュール型学
習制御方法は、前記選択モジュールに制御系への状態値
入力の最大値・最小値・和・平均などを入力するもので
ある。

【００１５】本発明の第３の構成に係るモジュール型学
習制御方法は、前記選択モジュールに前記学習型制御モ
ジュールで計算される制御結果予測値の最大値や最小値
などを入力するものである。

【００１６】本発明の第４の構成に係るモジュール型学
習制御方法は、前記選択モジュールを複数備え、選択モ
ジュールを選択する２層以上の選択モジュール層を持つ
という多層選択モジュール構造を備えたものである。

【００１７】

【発明の実施の形態】

実施の形態１．以下、この発明の実施形態を図を用いて
説明する。ここで、制御対象である移動ロボットについ
て説明する。今回の制御対象は図１−（ａ）のような移
動ロボットである。直径５．５ｃｍで、図１（ｂ）の模
式図に示したように、ＤＣモータ駆動の２個の車輪（ア
クチュエータ）と８個の赤外線センサを持つ。赤外線セ
ンサは障害物を検知する距離センサのモードと光量を計
測する光センサのモードで計測できる。距離センサモー
ドでは障害物が近い程大きい値を示し（最大値１０２
３）、光センサモ−ドでは光量が大きい程、小さい値を
示す（センサ値の範囲は０から５００の間）。移動ロボ
ットはホストコンピュータとＲＳ２３２Ｃインターフェ
ースを介して接続し、制御される。今回は図２に示され
るような発泡スチロールで囲われた空間の中にランプを
設置し、障害を回避しながら、ランプ近くへ移動するこ
とが制御目標である。

【００１８】図３は本発明の実施の形態１による学習制
御方法が適用される制御装置の構成例を示すブロック図
である。図において、１は例えば上記の移動ロボットな
どの制御対象、２は制御モジュール、３はニューラルネ
ットワークを備えた学習型制御モジュールＡ、４は３と
同様な学習型制御モジュールＢ、５は個々の学習型制御
モジュールを選択する選択モジュールである。

【００１９】次に動作について説明する。ここで、図４
は図３に示した制御装置に適用される本発明の実施の形
態１による学習制御方法を示すフローチャートである。
まず、ステップＳＴ１０において、シナプス結合強度に
初期値を代入し、初期化する。

【００２０】次にステップＳＴ１１において、制御対象
１から当該制御対象１の周囲の状態を表す状態値を各種
センサを用いて検出し、各学習型モジュールと選択モジ
ュールに入力する。本実施の形態では、移動ロボットの
赤外線センサの距離センサのモードの測定値８個と光セ
ンサのモードの測定値８個を入力する。距離センサ１と
２、３と４、５と６、７と８の測定値の和、計４個を入
力する。光センサ１と２、３と４、５と６、７と８のそ
れぞれの最小値、計４個を入力する。距離センサの入力
４個はその最大値（２０４６）と最小値（０）を用いて
０から１の間に規格化し、学習型制御モジュールＡ；３
に入力する。光センサの入力４個はその最大値（５０
０）と最小値（０）を用いて０から１の間に規格化し、
学習型制御モジュールＢ；４に入力する。選択モジュー
ル５には距離センサ１から４の和、距離センサ５から８
の和、光センサ１から４の最小値、光センサ５から８の
最小値の計４個をそれぞれの最大値と最小値で０から１
の間の値に規格化して入力する。

【００２１】次にステップＳＴ１２において、選択モジ
ュール５の学習型制御モジュール選択に対するＱ値；Q
(x,m,t)とシナプス結合強度の学習に用いる変数e(m,k,
j,t)を計算する。本実施の形態では学習型制御モジュー
ルＡ；３、学習型制御モジュールＢ；４と選択モジュー
ル５の計算はCMACニューラルネットワークを用いて行な
う。 Q(x,m,t)=Σ_k,jw(m,k,j,t)y(k,j,t) e(m,k,j,t) =y(k,j,t) ：学習型制御モジュールmが選択された場合 =λ_se(m,k,j,t-1) ：その他 (10) ここで、w(m,k,j,t)はk番目のタイルのj番目のニューロ
ンの制御モジュールm 選択に対するシナプス結合強度、
λ_sは減衰定数である。

【００２２】次にステップＳＴ１３において、選択する
学習型制御モジュールを決定する。選択モジュールのモ
ジュール選択のＱ値；Q(x,m,t)に基づき、最大のＱ値を
示す学習型制御モジュールを制御モジュール２の中から
選択する。

【００２３】次にステップＳＴ１４において、選択され
た学習型制御モジュールの各出力に対するＱ値Q(m,x,a,
t)と各学習型制御モジュールのシナプス結合強度の学習
に用いるe(m,a,k,j,t)を計算する。 Q(m,x,a,t)=Σ_k,jw(m,a,k,j,t)y(k,j,t)：選択された学習型制御モジュールm e(m,a,k,j,t)=y(k,j,t) ：学習型制御モジュールm、出力aが選択された場合 =λ_me(m,a,k,j,t-1) ：その他 (11) ここで、 w(m,a,k,j,t)は学習型制御モジュールm、k番
目のタイルのj番目のニューロンの出力a に対するシナ
プス結合強度、λ_mは減衰定数である。

【００２４】次にステップＳＴ１５において、制御出力
値を決定する。選択された学習型制御モジュールmの各
出力に対するＱ値Ｑ(m,x,a,t)に基づき、最大のＱ値を
示す出力を制御モジュール２全体の出力とする。ここで
は、速度は一定とし、出力は、直進、右回転、左回転の
３種類とする。それぞれの動きになるように左右の車輪
の速度を設定する。次にステップＳＴ１６において、設
定した速度をロボットに送信し、ロボットを制御する。

【００２５】次にステップＳＴ１７において、制御結果
R(t)を入力する。ここでは、移動ロボットが障害に衝突
した場合、その場で一定時間以上回転し続けた場合、一
定時間内にゴールに到達しなかった場合にR(t)=ー１、
ゴールに到達した場合にR(t)=1、その他の場合にR(t)=0
とする。ここでは、２つ以上の距離センサの測定値が
最大値を示した場合に障害に衝突したとした。また、１
つ以上の光センサの測定値が設定した値以下（例えば１
００）になった場合にゴールに近づいたとした。

【００２６】次にステップＳＴ１８において、シナプス
結合強度の学習をする。選択された学習型制御モジュー
ルmのシナプス結合強度の学習に用いる誤差E_m(t)を次式
で計算する。 E_m(t)=R(t)+Q(m,x(t+1),per(t+1),t+1)-Q(m,x(t),per(t),t) :sel(t+1)=mの場合 =R(t)+Q(x(t+1),sel(t+1),t+1)-Q(m,x(t),per(t),t) :sel(t+1)≠mの場合 (12) ここで、sel(t)は時刻tで選択した学習型制御モジュー
ル、per(t)は時刻tで実行した出力を表す。選択されな
かった学習型制御モジュールに対する誤差E_m(t) は０で
ある。シナプス結合強度を次式で更新する。 w(m,a,k,j,t)=w(m,a,k,j,t-1)+α_mE_m(t)e(m,a,k,j,t)/n_t (13) ここで、α_mは学習定数、n_tはCMACのタイル数である。
選択モジュールのシナプス結合強度の学習に用いる誤差
E_s(t) を次式で計算する。 E_s(t)=R(t)+γQ(x(t+1),sel(t+1),t+1)-Q(x(t),sel(t),t)-E_sel(t)(t) (14) ここで、γは減衰定数である。シナプス結合強度を次式
で更新する。 w(m,k,j,t)=w(m,k,j,t-1)+ α_sE_s(t)e(m,k,j,t)/n_t (15) ここで、α_sは学習定数である。

【００２７】次にステップＳＴ１９において、制御結果
が成功であるか失敗であるかその他であるかの判定を行
ない、制御結果が成功か失敗の場合には、制御を中止し
て、移動ロボットを制御開始の位置まで移動させ、ステ
ップＳＴ１１に戻り、全ての開始位置から制御が成功す
るようになるまで制御学習を続ける。

【００２８】このような試行を繰り返すことによって、
障害を回避しながら、ランプの光を検出し、ランプに到
達する制御を学習することが可能になる。この学習を行
なうためのパラメーターとしては、例えば、次の値を用
いる。 λ_s=0.3 λ_m =0.3 α_s=0.2 α_m =0.4 γ=0.9 また、タイル数５、各タイルの構成は(3×3×3×3)のCM
ACを用いる。制御モジュール２の各学習型制御モジュー
ルと選択モジュール５のシナプス結合強度を全て０とし
て学習を開始した。

【００２９】ここで、図５は上記の初期値から開始し
て、本実施の形態１による学習制御方法によって学習し
た場合の、学習された制御方法によって制御し、移動ロ
ボットがゴール（ランプ付近）に到達した割合の変化を
示したものである。すなわち、各試行は実験エリア内の
任意の場所の任意の向きから開始し、制御に失敗する
か、ゴールに到達して成功するかまで続け、１５回連続
してゴールに到達した場合には学習完了とした。本実施
の形態により、障害を回避しながら、ゴールに到達する
という制御が学習できることがわかる。本実施の形態で
は、CMACニューラルネットワークの必要ニューロン数
は、3×5×3⁴=1,215であるが、モジュール型でないCMAC
ニューラルネットワークに距離センサのセンサ値４個と
光センサのセンサ値４個を入力する強化学習の場合に
は、5×3⁸=32,805と２７倍のニューロンが必要である。
計算時間も同様に２７倍かかるので、モジュール型でな
い強化学習法では、リアルタイムに制御学習をすること
が困難である。本実施の形態では、各学習型制御モジュ
ールの入力を制御対象の状態値の一部分としたので、各
学習型制御モジュールの入力次元数を減少させることが
でき、必要ニューロン数および計算時間が減少し、リア
ルタイムでの学習制御が著しく容易になる。

【００３０】実施の形態２．次に実施の形態２を図を用
いて説明する。図６は本発明の実施の形態２による学習
制御方法が適用される制御装置の構成例を示すブロック
図である。図３と同一の部分は同一の番号を付けてあ
る。図３との違いは、選択モジュールに、学習型制御モ
ジュールで計算されたＱ値の最大値を入力することであ
る。

【００３１】次に動作について説明する。図７は図６に
示した制御装置に適用される本発明の実施の形態２によ
る学習制御方法を示すフローチャートである。

【００３２】まず、ステップＳＴ１０において、シナプ
ス結合強度に初期値を代入し、初期化する。次にステッ
プＳＴ１１において、制御対象１から当該制御対象１の
周囲の状態を表す状態値を各種センサを用いて検出し、
入力する。学習型制御モジュールＡ；３と学習型制御モ
ジュールＢ；４には、実施の形態１の場合と同一の入力
を代入する。次に、ステップＳＴ１２において、各学習
型制御モジュールの各出力に対するＱ値とシナプス結合
強度の学習に用いるe(m,a,k,j,t)を実施の形態１と同様
に(11)式を用いて計算する。

【００３３】次にステップＳＴ１３において、選択モジ
ュール５のモジュール選択に対するＱ値とシナプス結合
強度の学習に用いるe(m,k,j,t)を実施の形態１と同様
に、(10)式で計算する。本実施の形態では、選択モジュ
ールにはステップＳＴ１２において計算された各制御モ
ジュールのＱ値の最大値を０から１の間の値に規格化し
て（ー１と１で規格化する）入力する。選択モジュール
への入力が２個であるので、選択モジュールのCMACニュ
ーラルネットワークはタイル数５、3×3の構成のものを
用いる。

【００３４】次にステップＳＴ１４において、選択モジ
ュールのモジュール選択に対するＱ値に基づいて制御モ
ジュールを選択する。ステップＳＴ１５以降は実施の形
態１の制御学習方法と同一である。パラメーターも実施
の形態１と同一のものを用いる。

【００３５】図８は本実施の形態２による学習制御方法
によって学習した場合の、ゴールに到達し、制御に成功
した割合の変化を示したものである。本実施の形態で
も、実施の形態１と同様に、障害を回避しながらゴール
へ向かうという制御が学習できることがわかる。また、
実施の形態１と同様に、各学習型制御モジュールの入力
次元数を減少させることができるので、必要ニューロン
数と計算時間が減少し、リアルタイムでの学習制御が著
しく容易になる。

【００３６】実施の形態３．次に実施の形態３を図を用
いて説明する。図９は本発明の実施の形態３による学習
制御方法が適用される制御装置の構成例を示すブロック
図である。図６と対応する部分には同一の番号を付けて
ある。図９の構成は選択モジュールを選択する多層選択
モジュール構造で選択し、制御するものである。

【００３７】次に動作について説明する。図１０は図９
に示した制御装置に適用される本発明の実施の形態３に
よる学習制御方法を示すフローチャートである。

【００３８】まず、ステップＳＴ１０において、シナプ
ス結合強度に初期値を代入し、初期化する。次にステッ
プＳＴ１１において、制御対象１から制御対象の状態や
制御対象の周囲の状態を表す状態値を各種センサを用い
て検出し、入力する。制御課題の分割を考慮し、状態値
の中から適切な状態値の一部を選択して、各学習型制御
モジュールに入力する。それぞれの状態値はそれぞれの
最大値と最小値を用いて０から１の間の値に規格化して
入力する。次にステップＳＴ１２において、各学習型制
御モジュールの各出力に対するＱ値；Q(m,x,a,t)とシナ
プス結合強度の学習に用いるe(m,a,k,j,t)を計算する。
計算は(11)式を用いて行なう。

【００３９】次にステップＳＴ１３において、各層の選
択モジュールのモジュール選択に対するＱ値を計算す
る。n層の選択モジュールsのＱ値をQⁿ _s(x,m,t)とする。
１層の選択モジュールsには、選択する学習型制御モジ
ュールのＱ値の内の最大値を入力し、Ｑ値を計算する。
続いて、２層の選択モジュールには、２層の各選択モジ
ュールが選択する１層の選択モジュールから計算された
Ｑ値の最大値を入力し、Ｑ値を計算する。３層以降も同
様にして、一つ下の層の選択モジュールのＱ値を入力し
て、その層の選択モジュールのＱ値を計算する。同時に
シナプス結合強度の学習に用いるeⁿ _s(m,a,k,j,t)を各層
の選択モジュールで計算する。Ｑ値とeⁿ _s(m,a,k,j,t)は
次式で計算する。 Qⁿ _s(x,m,t)=Σ_k,jwⁿ _s(m,k,j,t)yⁿ(k,j,t) eⁿ _s(m,k,j,t)=yⁿ(k,j,t) ：mが選択した制御モジュールの場合 =λ_seⁿ _s(m,k,j,t-1) ：その他 (16) ここで、wⁿ _s(m,k,j,t)はn層の選択モジュールsのk番目
のタイルのj番目のニューロンのモジュールm選択に対す
るシナプス結合強度である。

【００４０】次にステップＳＴ１４で選択するモジュー
ルを決定する。n 層の選択モジュールはn-1層の選択モ
ジュールを選択する。n層の選択モジュールsのＱ値；Qⁿ
_s(x,m,t)の最大値を示すモジュールmを選択する。続い
て、選択されたn-1層の選択モジュールのＱ値によりn-2
層の選択モジュールを選択する。以下同様にして、モ
ジュールを選択し、1層の選択モジュールは学習型制御
モジュールを選択する。

【００４１】次にステップＳＴ１５で選択された学習型
制御モジュールの各出力に対するＱ値に基づき、最大の
Ｑ値を示す出力を選択する。次にステップＳＴ１６で、
選択された出力で制御対象を制御する。次にステップＳ
Ｔ１７で制御結果R(t)を入力する。次にステップＳＴ１
８において、シナプス結合強度の学習をする。

【００４２】選択された学習型制御モジュールmの学習
に用いる誤差E_m(t)は次式で計算する。 E_m(t)=R(t)+Q(m,x(t+1),per(t+1),t+1)-Q(m,x(t),per(t),t) :sel¹(t+1)=mの場合 =R(t)+Q¹ _s(x(t+1),sel¹(t+1),t+1)-Q(m,x(t),per(t),t) :sel¹(t+1)≠m の場合 (17) 選択されなかった学習型制御モジュールのE_m(t) は０で
ある。選択された１層の選択モジュールsの学習に用い
る誤差E¹ _s(t)は次式で計算する。 E¹ _s(t)=R(t)+γQ¹ _s(x(t+1),sel¹(t+1),t+1)-Q¹ _s(x(t),sel¹(t),t)-E_sel1(t)(t): sel²(t+1)=s =R(t)+γQ² _s(x(t+1),sel²(t+1),t+1)-Q¹ _s(x(t),sel¹(t),t)-E_sel1(t)(t): sel²(t+1)≠s (18) ２層以降、k層の選択モジュールの学習に用いる誤差 E^k
_s(t)を次式で計算する。 E^k _s(t)=R(t)+γQ^k _s(x(t+1),sel^k(t+1),t+1)-Q^k _s(x(t),sel^k(t),t)-E^k-1 _selk(t) (t) : sel^k+1(t+1)=s =R(t)+γQ^k+1s(x(t+1),sel^k+1(t+1),t+1)-Q^k _s(x(t),sel^k(t),t)-E^k-1 _selk _(t) (t) : sel^k+1(t+1)≠s (19) 最終のN層の選択モジュールの学習に用いる誤差E^N _s(t)
を次式で計算する。 E^N _s(t)=R(t)+γQ^N _s(x(t+1),sel^N(t+1),t+1)-Q^N _s(x(t),sel^N(t),t)-E^N-1 _selN(t) (t) (20) 学習型制御モジュール、各層の選択モジュールのシナプ
ス結合強度を次式で更新する。 w(m,a,k,j,t)=w(m,a,k,j,t-1)+α_mE_m(t)e(m,a,k,j,t)/n_t wⁿ _s(m,k,j,t)=wⁿ _s(m,k,j,t-1)+αⁿ _sEⁿ _s(t)eⁿ _s(m,k,j,t)/n_t (21)

【００４３】次に、ステップＳＴ１９において、制御結
果が失敗であるか、成功であるか、その他であるかの判
定を行ない、制御結果が成功か失敗である場合には、制
御を中止して、ロボットを制御開始の状態にし、ステッ
プＳＴ１１に戻り、幅広い初期状態から成功するまで制
御学習を続ける。このような試行を繰り返すことによっ
てロボットの制御を学習することができる。本実施の形
態においては、制御対象の状態を細かく分類して制御で
きるので、より複雑な、入力次元数の高い制御課題を学
習制御することができる。

【００４４】実施の形態４．なお、上記実施の形態１で
は、選択モジュールの入力に、距離センサ１から４の
和、距離センサ５から８の和、光センサ１から４の最小
値、光センサ５から８の最小値を用いた場合を示した
が、同様な方法によって、距離センサ１から８の和、光
センサ１から８の最小値を入力した場合にも適用でき
る。また、距離センサの和の代わりに、距離センサの最
大値を入力してもよい。上記実施の形態２では、選択モ
ジュールに学習型制御モジュールのＱ値の最大値を入力
した場合を示したが、Ｑ値の最小値を入力してもよい。
さらに、適用される制御対象１も、移動ロボットばかり
でなく、自律搬送車や知能化車椅子などの自律移動制御
機や自動車の自動運転装置などの制御学習にも適用可能
である。また、上記の実施の形態では、ＣＭＡＣニュー
ラルネットワークを用いた場合について説明したが、si
gmoid 関数を用いたフィードフォワードニューラルネッ
トワークやradial basisfunction 関数を用いたフィー
ドフォワードニューラルネットワークで計算してもよ
い。

【００４５】

【発明の効果】以上のように、本発明の第１の構成によ
るモジュール型学習制御方法によれば、制御対象の状態
を測定した測定結果および実際に制御した結果に基づい
て、前記制御対象の制御法を学習して制御する学習制御
方法において、それぞれが制御結果の予測値を計算し、
その予測値に基づいて出力を決定し、実際に制御した結
果から予測値を学習し、制御対象の状態値の一部分をそ
れぞれに入力する複数の学習型制御モジュールと、前記
各学習型制御モジュール選択による制御結果の予測値を
計算し、それらの予測値に基づいて採用する学習型制御
モジュールを選択し、実際に制御した結果から制御結果
予測値を学習する選択モジュールとを備えて、前記制御
対象を制御する制御系に適用され、該制御系に前記制御
対象の状態の測定結果を入力する第１処理、その入力値
に基づいて前記制御対象の制御を行なって、当該制御に
よる前記制御対象の状態を測定する第２処理、その測定
結果から前記制御対象の制御の結果に対する評価を判定
する第３処理、およびその判定結果に基づいて前記制御
系を学習させる第４処理をそれぞれ施し、その学習結果
に基づいて前記第１〜第４処理を繰り返しつつ前記制御
対象の制御を行なうので、入力次元が大きい制御対象で
も、各学習型制御モジュールの入力次元を減少させるこ
とができ、リアルタイムに制御学習が容易になる効果が
ある。

【００４６】また、本発明の第２の構成によるモジュー
ル型学習制御方法によれば、選択モジュールに制御系へ
の状態値入力の最大値・最小値・和・平均などを入力す
るので、選択モジュールの入力次元を減少させることが
でき、選択モジュールの計算を迅速に行なうことがで
き、リアルタイムに制御学習が容易になる効果がある。

【００４７】また、本発明の第３の構成によるモジュー
ル型学習制御方法によれば、選択モジュールに前記学習
型制御モジュールで計算される制御結果予測値の最大値
や最小値などを入力するので、選択モジュールの入力次
元を減少させることができ、選択モジュールの計算を迅
速に行なうことができ、リアルタイムに制御学習が容易
になる効果がある。

【００４８】また、本発明の第４の構成によるモジュー
ル型学習制御方法によれば、選択モジュールを複数備
え、選択モジュールを選択する２層以上の選択モジュー
ル層を持つという多層選択モジュール構造を備えたの
で、より複雑な制御課題を制御学習できる効果がある。

【図面の簡単な説明】

【図１】移動ロボットの説明図である。

【図２】移動ロボットの移動実験の実験環境を示す説
明図である。

【図３】本発明の実施の形態１による学習制御方法が
適用される制御装置の構成例を示すブロック図である。

【図４】本発明の実施の形態１による学習制御方法を
示すフローチャートである。

【図５】本発明の実施の形態１によって学習した場合
の制御に成功した割合の変化を示す説明図である。

【図６】本発明の実施の形態２による学習制御方法が
適用される制御装置の構成例を示すブロック図である。

【図７】本発明の実施の形態２による学習制御方法を
示すフローチャートである。

【図８】本発明の実施の形態２によって学習した場合
の制御に成功した割合の変化を示す説明図である。

【図９】本発明の実施の形態３による学習制御方法が
適用される制御装置の構成例を示すブロック図である。

【図１０】本発明の実施の形態３による学習制御方法
を示すフローチャートである。

【図１１】従来の学習制御方法が適用される制御装置
の構成例を示すブロック図である。

【図１２】従来の学習制御方法を示すフローチャート
である。

【符号の説明】

１制御対象（動的システム）、２制御モジュール、
３学習型制御モジュールＡ、４学習型制御モジュー
ルＢ、５選択モジュール（１層）、６選択モジュー
ル（２層）、７バイアスモジュール。

Claims

【特許請求の範囲】

【請求項１】制御対象の状態を測定した測定結果およ
び実際に制御した結果に基づいて、前記制御対象の制御
法を学習して制御する学習制御方法において、それぞれ
が制御結果の予測値を計算し、その予測値に基づいて出
力を決定し、実際に制御した結果から予測値を学習し、
制御対象の状態値の一部分をそれぞれに入力する複数の
学習型制御モジュールと、前記各学習型制御モジュール
選択による制御結果の予測値を計算し、それらの予測値
に基づいて採用する学習型制御モジュールを選択し、実
際に制御した結果から制御結果予測値を学習する選択モ
ジュールとを備えて、前記制御対象を制御する制御系に
適用され、該制御系に前記制御対象の状態の測定結果を
入力する第１処理、その入力値に基づいて前記制御対象
の制御を行なって、当該制御による前記制御対象の状態
を測定する第２処理、その測定結果から前記制御対象の
制御の結果に対する評価を判定する第３処理、およびそ
の判定結果に基づいて前記制御系を学習させる第４処理
をそれぞれ施し、その学習結果に基づいて前記第１〜第
４処理を繰り返しつつ前記制御対象の制御を行なうこと
を特徴とするモジュール型学習制御方法。
【請求項２】前記選択モジュールに制御系への状態値
入力の最大値・最小値・和・平均などを入力することを
特徴とする請求項１記載のモジュール型学習制御方法。
【請求項３】前記選択モジュールに前記学習型制御モ
ジュールで計算される制御結果予測値の最大値や最小値
などを入力することを特徴とする請求項１記載のモジュ
ール型学習制御方法。
【請求項４】前記選択モジュールを複数備え、選択モ
ジュールを選択する２層以上の選択モジュール層を持つ
という多層選択モジュール構造を備えることを特徴とす
る請求項１記載のモジュール型学習制御方法。