JPH11134003A - モジュール型学習制御方法 - Google Patents

モジュール型学習制御方法

Info

Publication number
JPH11134003A
JPH11134003A JP9300411A JP30041197A JPH11134003A JP H11134003 A JPH11134003 A JP H11134003A JP 9300411 A JP9300411 A JP 9300411A JP 30041197 A JP30041197 A JP 30041197A JP H11134003 A JPH11134003 A JP H11134003A
Authority
JP
Japan
Prior art keywords
control
learning
module
value
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9300411A
Other languages
English (en)
Inventor
Satoshi Yamada
訓 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP9300411A priority Critical patent/JPH11134003A/ja
Publication of JPH11134003A publication Critical patent/JPH11134003A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Feedback Control In General (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

(57)【要約】 【課題】 多次元の入力を必要とするような複雑な制御
課題をリアルタイムで制御学習できるモジュール型学習
制御方法を得る。 【解決手段】 制御系への入力の一部分を入力して制御
結果予測値を計算し、その予測値に基づいて出力を選択
し、実際に制御した結果から予測値を学習する複数の学
習型制御モジュールを有し、各制御モジュール選択によ
る制御結果予測値を計算し、その予測値に基づいて制御
モジュールを選択し、実際の制御の結果から予測値を学
習する選択モジュールにて各状態で適切な制御モジュー
ルを選択する。制御系への入力の最大値・最小値・和・
平均などや学習型制御モジュールで計算される制御結果
予測値の最大値・最小値などを選択モジュールに入力し
て学習制御する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、振舞いが複雑でそ
の動作の同定が困難な動的システムなどによる制御対象
の制御を、モジュール型学習制御装置の学習によってそ
の制御法を獲得しつつ制御するモジュール型学習制御方
法に関するものである。
【0002】
【従来の技術】図11は例えば、「ロボティックス ア
ンド オートノマス システムズ(Robotics and Autono
mous Systems) 」第15号(1955)の第247〜2
74ページに示された、従来のニューラルネットワーク
を用いた学習制御方法が適用される制御装置の一例を示
すブロック図である。図11において、1は例えば、2
自由度のマニピュレータなどの制御対象、2はこの制御
対象1を制御する制御系の制御モジュール、3,4は制
御モジュールを形成する各々の学習型制御モジュール、
5は適切な学習型制御モジュールを選択する選択モジュ
ール、7は基本制御課題と複合制御課題の間のQ値の違
いを補償するためのバイアス値を計算するバイアスモジ
ュールである。
【0003】次に動作について説明する。ここで、図1
2は図11に示した制御装置に適用される従来の学習制
御方法を示すフローチャートである。
【0004】まず、ステップST10において、ニュウ
ーラルネットワークのシナプス結合強度に初期値を代入
し、初期化する。次にステップST11において、制御
モジュール2の各学習型制御モジュール3、4及び、選
択モジュール5に制御対象1の状態値を入力する。この
制御課題では、各リンクの角度と角速度を入力する。各
状態値は最小値と最大値を用いて規格化し、0〜1の間
の値として入力する。
【0005】次にステップST12において、各学習型
制御モジュールの各出力に対するQ値を計算する。ここ
でQ値とは、現在の状態に、ある制御を行なった場合の
制御結果を予測する制御結果予測値である。Q値の計算
には前記文献に記載のCerebellar Model Arithmetic Co
mputer(CMAC)を用いるとすると、Q値の計算を以下のよ
うに行なう。CMACの各ニューロンは、入力空間のある領
域を受容野として持ち、入力値が受容野内にある時は1
を出力し、その他の場合には0を出力する。各ニューロ
ンの受容野が互いに重ならず入力空間全体をおおうよう
にニューロンを配置する。通常は入力空間を一定に分割
して各ニューロンの受容野とする。入力空間全体をおお
うように配置したCMACのニューロンのセットをタイルと
呼ぶ。CMACではこのタイルを複数用意して入力を処理す
る。各タイルのニューロンの受容野は少しずつずれてい
るので、各タイルで活動するニューロンのパターンによ
って入力を細かく分類でき、優れた分解能で迅速に処理
することができる。学習型制御モジュールでは、ある出
力で制御した場合の制御結果を予測するQ値を計算し、
それに基づいて出力を決定する。k番目のタイルのj番目
のニューロンの時刻tでの出力をy(k,j,t)とする。 モジ
ュールmの状態ベクトルx、出力a に対するQ値Q(m,x,a,
t)を次式で計算する。 Q(m,x,a,t)=Σk,j w(m,a,k,j,t)y(k,j,t) (1) ここで、w(m,a,k,j,t)は学習型制御モジュールmのk番目
のタイルの j番目のニューロンの出力aに対するシナプ
ス結合強度である。
【0006】次にステップST13において、選択モジ
ュールの出力を計算する。選択モジュールでは、学習型
制御モジュールmを選択する確率g(m,t)を計算する。 g(m,t)=exp(s(m,t))/Σnexp(s(n,t)) s(m,t)=Σk,j w(m,k,j,t)y(k,j,t) (2) ここで、w(m,k,j,t)はの k番目のタイルの j番目のニュ
ーロンn の学習型制御モジュールm に対する選択モジュ
ールのシナプス結合強度である。続いて、バイアスモジ
ュールの出力K(t)を計算する。バイアスモジュールの出
力は入力された状態には依存しないで、与えられた制御
課題にだけ依存する。
【0007】次にステップST14において、制御出力
値を決定する。まず、学習型制御モジュールは、(2)式
の確率g(m,t)で学習型制御モジュールmを確率的に選択
する。制御モジュールm では、出力a(t)を次式で与えら
れる確率p(m,a,t)で確率的に選択する。 p(m,a,t)=exp(Q(m,x,a,t)/Tm)/Σbexp(Q(m,x,b,t)/Tm) (3) ここで、Tmは出力選択のQ値への依存性の度合いを決定
する定数である。
【0008】次にステップST15において、選択され
た学習型制御モジュールの出力に対応したトルクを加
え、マニピュレータを制御する。次にステップST16
において制御結果を入力する。制御結果R(t)は次式で与
えられる。 R(t) =0.5+0.5*exp(-(Σi|dqi/dt|) 目標地点に到達した場合 = -0.025*|dq/dt| 障害に衝突した場合 = -0.05 角速度絶対値が10rad/sを越えた場合 (4)
【0009】次にステップST17でシナプス結合強度
の学習をする。目標のQ値 (qdes(t))を次式で計算す
る。 qdes(t)=R(t)+maxa(t+1) Q(sel(t+1),x,a,t+1)+K(t+1)-K(t) (5) 目標のQ値が制御モジュールmで出力される確率は次式
で計算される。 p(qdes(t)|m)=(1/((2π)N/2σm N))*exp(- (1/2σm 2)(|qdes(t)|-|Q(m,x,a,t )|) (6) ここで、σmはモジュールmの出力の標準偏差、Nは出力
の個数である。逆に、qdes(t)が与えられたとき、学習
型制御モジュールmを選択する確率は次式で計算され
る。 p(m|qdes(t))=(g(m,t) p(qdes(t)|m))/(Σng(n,t) p(qdes(t)|n)) (7) 対数尤度l(qdes(t))は次式で計算される。 l(qdes(t))=logΣng(n,t) p(qdes(t)|n) (8) 対数尤度が最大になるように、最急登坂法で学習する。
各シナプス結合強度を次式で更新する。 w(m,a,k,j,t+1)=w(m,a,k,j,t) +αq(∂l(qdes(t))/∂Q(m,x,a,t))y(k,j,t) w(s,k,j,t+1)=w(s,k,j,t)+αs(∂l(qdes(t))/∂s(m,t)) y(k,j,t) ∂l(qdes(t))/∂Q(m,x,a,t)=(1/σm 2)p(m|qdes(t))(qdes(t)-Q(m,x,a,t)) ∂l(qdes(t))/∂s(m,t)= p(m|qdes(t))(1-g(m,t)) (9) ここで、αqsは学習定数、sel(t)は時刻tで選択した
学習型制御モジュールである。
【0010】次にステップST18において、制御結果
が成功であるか失敗であるかの判定を行ない、制御結果
が失敗の場合には、制御を中止して、マニピュレータの
状態を制御開始の状態に戻し、ステップST11に戻
り、制御が成功するまで制御学習を続ける。このように
して、多数回の試行によって、マニピュレータを目標の
位置に移動させる制御を学習することが可能になる。
【0011】
【発明が解決しようとする課題】従来の学習制御方法は
以上のように構成されているので、複数のセンサ情報を
利用し、多次元の入力を必要とする制御課題(例えば、
4個の障害検知センサと4個の光センサを用いて障害を
回避しながらゴールへ到達させる制御等)を学習しよう
とすると、入力次元が大きくなり、非常に多数のニュー
ロンが必要になるので、計算時間が大きくなり、リアル
タイムでの制御学習が困難であるという問題点があっ
た。
【0012】本発明は上記のような問題点を解決するた
めになされたもので、複数のセンサ情報を必要とし、入
力次元が大きい制御課題をリアルタイムで容易に制御学
習ができるモジュール型学習制御方法を得ることを目的
とする。
【0013】
【課題を解決するための手段】本発明の第1の構成に係
るモジュール型学習制御方法は、制御対象の状態を測定
した測定結果および実際に制御した結果に基づいて、前
記制御対象の制御法を学習して制御する学習制御方法に
おいて、それぞれが制御結果の予測値を計算し、その予
測値に基づいて出力を決定し、実際に制御した結果から
予測値を学習し、制御対象の状態値の一部分をそれぞれ
に入力する複数の学習型制御モジュールと、前記各学習
型制御モジュール選択による制御結果の予測値を計算
し、それらの予測値に基づいて採用する学習型制御モジ
ュールを選択し、実際に制御した結果から制御結果予測
値を学習する選択モジュールとを備えて、前記制御対象
を制御する制御系に適用され、該制御系に前記制御対象
の状態の測定結果を入力する第1処理、その入力値に基
づいて前記制御対象の制御を行なって、当該制御による
前記制御対象の状態を測定する第2処理、その測定結果
から前記制御対象の制御の結果に対する評価を判定する
第3処理、およびその判定結果に基づいて前記制御系を
学習させる第4処理をそれぞれ施し、その学習結果に基
づいて前記第1〜第4処理を繰り返しつつ前記制御対象
の制御を行なうものである。
【0014】本発明の第2の構成に係るモジュール型学
習制御方法は、前記選択モジュールに制御系への状態値
入力の最大値・最小値・和・平均などを入力するもので
ある。
【0015】本発明の第3の構成に係るモジュール型学
習制御方法は、前記選択モジュールに前記学習型制御モ
ジュールで計算される制御結果予測値の最大値や最小値
などを入力するものである。
【0016】本発明の第4の構成に係るモジュール型学
習制御方法は、前記選択モジュールを複数備え、選択モ
ジュールを選択する2層以上の選択モジュール層を持つ
という多層選択モジュール構造を備えたものである。
【0017】
【発明の実施の形態】
実施の形態1.以下、この発明の実施形態を図を用いて
説明する。ここで、制御対象である移動ロボットについ
て説明する。今回の制御対象は図1−(a)のような移
動ロボットである。直径5.5cmで、図1(b)の模
式図に示したように、DCモータ駆動の2個の車輪(ア
クチュエータ)と8個の赤外線センサを持つ。赤外線セ
ンサは障害物を検知する距離センサのモードと光量を計
測する光センサのモードで計測できる。距離センサモー
ドでは障害物が近い程大きい値を示し(最大値102
3)、光センサモ−ドでは光量が大きい程、小さい値を
示す(センサ値の範囲は0から500の間)。移動ロボ
ットはホストコンピュータとRS232Cインターフェ
ースを介して接続し、制御される。今回は図2に示され
るような発泡スチロールで囲われた空間の中にランプを
設置し、障害を回避しながら、ランプ近くへ移動するこ
とが制御目標である。
【0018】図3は本発明の実施の形態1による学習制
御方法が適用される制御装置の構成例を示すブロック図
である。図において、1は例えば上記の移動ロボットな
どの制御対象、2は制御モジュール、3はニューラルネ
ットワークを備えた学習型制御モジュールA、4は3と
同様な学習型制御モジュールB、5は個々の学習型制御
モジュールを選択する選択モジュールである。
【0019】次に動作について説明する。ここで、図4
は図3に示した制御装置に適用される本発明の実施の形
態1による学習制御方法を示すフローチャートである。
まず、ステップST10において、シナプス結合強度に
初期値を代入し、初期化する。
【0020】次にステップST11において、制御対象
1から当該制御対象1の周囲の状態を表す状態値を各種
センサを用いて検出し、各学習型モジュールと選択モジ
ュールに入力する。本実施の形態では、移動ロボットの
赤外線センサの距離センサのモードの測定値8個と光セ
ンサのモードの測定値8個を入力する。距離センサ1と
2、3と4、5と6、7と8の測定値の和、計4個を入
力する。光センサ1と2、3と4、5と6、7と8のそ
れぞれの最小値、計4個を入力する。距離センサの入力
4個はその最大値(2046)と最小値(0)を用いて
0から1の間に規格化し、学習型制御モジュールA;3
に入力する。光センサの入力4個はその最大値(50
0)と最小値(0)を用いて0から1の間に規格化し、
学習型制御モジュールB;4に入力する。選択モジュー
ル5には距離センサ1から4の和、距離センサ5から8
の和、光センサ1から4の最小値、光センサ5から8の
最小値の計4個をそれぞれの最大値と最小値で0から1
の間の値に規格化して入力する。
【0021】次にステップST12において、選択モジ
ュール5の学習型制御モジュール選択に対するQ値;Q
(x,m,t)とシナプス結合強度の学習に用いる変数e(m,k,
j,t)を計算する。本実施の形態では学習型制御モジュー
ルA;3、学習型制御モジュールB;4と選択モジュー
ル5の計算はCMACニューラルネットワークを用いて行な
う。 Q(x,m,t)=Σk,jw(m,k,j,t)y(k,j,t) e(m,k,j,t) =y(k,j,t) :学習型制御モジュールmが選択された場合 =λse(m,k,j,t-1) :その他 (10) ここで、w(m,k,j,t)はk番目のタイルのj番目のニューロ
ンの制御モジュールm 選択に対するシナプス結合強度、
λsは減衰定数である。
【0022】次にステップST13において、選択する
学習型制御モジュールを決定する。選択モジュールのモ
ジュール選択のQ値;Q(x,m,t)に基づき、最大のQ値を
示す学習型制御モジュールを制御モジュール2の中から
選択する。
【0023】次にステップST14において、選択され
た学習型制御モジュールの各出力に対するQ値Q(m,x,a,
t)と各学習型制御モジュールのシナプス結合強度の学習
に用いるe(m,a,k,j,t)を計算する。 Q(m,x,a,t)=Σk,jw(m,a,k,j,t)y(k,j,t):選択された学習型制御モジュールm e(m,a,k,j,t)=y(k,j,t) :学習型制御モジュールm、出力aが選択された場合 =λme(m,a,k,j,t-1) :その他 (11) ここで、 w(m,a,k,j,t)は学習型制御モジュールm、k番
目のタイルのj番目のニューロンの出力a に対するシナ
プス結合強度、λmは減衰定数である。
【0024】次にステップST15において、制御出力
値を決定する。選択された学習型制御モジュールmの各
出力に対するQ値Q(m,x,a,t)に基づき、最大のQ値を
示す出力を制御モジュール2全体の出力とする。ここで
は、速度は一定とし、出力は、直進、右回転、左回転の
3種類とする。それぞれの動きになるように左右の車輪
の速度を設定する。次にステップST16において、設
定した速度をロボットに送信し、ロボットを制御する。
【0025】次にステップST17において、制御結果
R(t)を入力する。ここでは、移動ロボットが障害に衝突
した場合、その場で一定時間以上回転し続けた場合、一
定時間内にゴールに到達しなかった場合にR(t)=ー1、
ゴールに到達した場合にR(t)=1、その他の場合にR(t)=0
とする。ここでは、2つ以上の距離センサの測定値が
最大値を示した場合に障害に衝突したとした。また、1
つ以上の光センサの測定値が設定した値以下(例えば1
00)になった場合にゴールに近づいたとした。
【0026】次にステップST18において、シナプス
結合強度の学習をする。選択された学習型制御モジュー
ルmのシナプス結合強度の学習に用いる誤差Em(t)を次式
で計算する。 Em(t)=R(t)+Q(m,x(t+1),per(t+1),t+1)-Q(m,x(t),per(t),t) :sel(t+1)=mの場合 =R(t)+Q(x(t+1),sel(t+1),t+1)-Q(m,x(t),per(t),t) :sel(t+1)≠mの場合 (12) ここで、sel(t)は時刻tで選択した学習型制御モジュー
ル、per(t)は時刻tで実行した出力を表す。選択されな
かった学習型制御モジュールに対する誤差Em(t) は0で
ある。シナプス結合強度を次式で更新する。 w(m,a,k,j,t)=w(m,a,k,j,t-1)+αmEm(t)e(m,a,k,j,t)/nt (13) ここで、αmは学習定数、ntはCMACのタイル数である。
選択モジュールのシナプス結合強度の学習に用いる誤差
Es(t) を次式で計算する。 Es(t)=R(t)+γQ(x(t+1),sel(t+1),t+1)-Q(x(t),sel(t),t)-Esel(t)(t) (14) ここで、γは減衰定数である。シナプス結合強度を次式
で更新する。 w(m,k,j,t)=w(m,k,j,t-1)+ αsEs(t)e(m,k,j,t)/nt (15) ここで、αsは学習定数である。
【0027】次にステップST19において、制御結果
が成功であるか失敗であるかその他であるかの判定を行
ない、制御結果が成功か失敗の場合には、制御を中止し
て、移動ロボットを制御開始の位置まで移動させ、ステ
ップST11に戻り、全ての開始位置から制御が成功す
るようになるまで制御学習を続ける。
【0028】このような試行を繰り返すことによって、
障害を回避しながら、ランプの光を検出し、ランプに到
達する制御を学習することが可能になる。この学習を行
なうためのパラメーターとしては、例えば、次の値を用
いる。 λs=0.3 λm =0.3 αs=0.2 αm =0.4 γ=0.9 また、タイル数5、各タイルの構成は(3×3×3×3)のCM
ACを用いる。制御モジュール2の各学習型制御モジュー
ルと選択モジュール5のシナプス結合強度を全て0とし
て学習を開始した。
【0029】ここで、図5は上記の初期値から開始し
て、本実施の形態1による学習制御方法によって学習し
た場合の、学習された制御方法によって制御し、移動ロ
ボットがゴール(ランプ付近)に到達した割合の変化を
示したものである。すなわち、各試行は実験エリア内の
任意の場所の任意の向きから開始し、制御に失敗する
か、ゴールに到達して成功するかまで続け、15回連続
してゴールに到達した場合には学習完了とした。本実施
の形態により、障害を回避しながら、ゴールに到達する
という制御が学習できることがわかる。本実施の形態で
は、CMACニューラルネットワークの必要ニューロン数
は、3×5×34=1,215であるが、モジュール型でないCMAC
ニューラルネットワークに距離センサのセンサ値4個と
光センサのセンサ値4個を入力する強化学習の場合に
は、5×38=32,805と27倍のニューロンが必要である。
計算時間も同様に27倍かかるので、モジュール型でな
い強化学習法では、リアルタイムに制御学習をすること
が困難である。本実施の形態では、各学習型制御モジュ
ールの入力を制御対象の状態値の一部分としたので、各
学習型制御モジュールの入力次元数を減少させることが
でき、必要ニューロン数および計算時間が減少し、リア
ルタイムでの学習制御が著しく容易になる。
【0030】実施の形態2.次に実施の形態2を図を用
いて説明する。図6は本発明の実施の形態2による学習
制御方法が適用される制御装置の構成例を示すブロック
図である。図3と同一の部分は同一の番号を付けてあ
る。図3との違いは、選択モジュールに、学習型制御モ
ジュールで計算されたQ値の最大値を入力することであ
る。
【0031】次に動作について説明する。図7は図6に
示した制御装置に適用される本発明の実施の形態2によ
る学習制御方法を示すフローチャートである。
【0032】まず、ステップST10において、シナプ
ス結合強度に初期値を代入し、初期化する。次にステッ
プST11において、制御対象1から当該制御対象1の
周囲の状態を表す状態値を各種センサを用いて検出し、
入力する。学習型制御モジュールA;3と学習型制御モ
ジュールB;4には、実施の形態1の場合と同一の入力
を代入する。次に、ステップST12において、各学習
型制御モジュールの各出力に対するQ値とシナプス結合
強度の学習に用いるe(m,a,k,j,t)を実施の形態1と同様
に(11)式を用いて計算する。
【0033】次にステップST13において、選択モジ
ュール5のモジュール選択に対するQ値とシナプス結合
強度の学習に用いるe(m,k,j,t)を実施の形態1と同様
に、(10)式で計算する。本実施の形態では、選択モジュ
ールにはステップST12において計算された各制御モ
ジュールのQ値の最大値を0から1の間の値に規格化し
て(ー1と1で規格化する)入力する。選択モジュール
への入力が2個であるので、選択モジュールのCMACニュ
ーラルネットワークはタイル数5、3×3の構成のものを
用いる。
【0034】次にステップST14において、選択モジ
ュールのモジュール選択に対するQ値に基づいて制御モ
ジュールを選択する。ステップST15以降は実施の形
態1の制御学習方法と同一である。パラメーターも実施
の形態1と同一のものを用いる。
【0035】図8は本実施の形態2による学習制御方法
によって学習した場合の、ゴールに到達し、制御に成功
した割合の変化を示したものである。本実施の形態で
も、実施の形態1と同様に、障害を回避しながらゴール
へ向かうという制御が学習できることがわかる。また、
実施の形態1と同様に、各学習型制御モジュールの入力
次元数を減少させることができるので、必要ニューロン
数と計算時間が減少し、リアルタイムでの学習制御が著
しく容易になる。
【0036】実施の形態3.次に実施の形態3を図を用
いて説明する。図9は本発明の実施の形態3による学習
制御方法が適用される制御装置の構成例を示すブロック
図である。図6と対応する部分には同一の番号を付けて
ある。図9の構成は選択モジュールを選択する多層選択
モジュール構造で選択し、制御するものである。
【0037】次に動作について説明する。図10は図9
に示した制御装置に適用される本発明の実施の形態3に
よる学習制御方法を示すフローチャートである。
【0038】まず、ステップST10において、シナプ
ス結合強度に初期値を代入し、初期化する。次にステッ
プST11において、制御対象1から制御対象の状態や
制御対象の周囲の状態を表す状態値を各種センサを用い
て検出し、入力する。制御課題の分割を考慮し、状態値
の中から適切な状態値の一部を選択して、各学習型制御
モジュールに入力する。それぞれの状態値はそれぞれの
最大値と最小値を用いて0から1の間の値に規格化して
入力する。次にステップST12において、各学習型制
御モジュールの各出力に対するQ値;Q(m,x,a,t)とシナ
プス結合強度の学習に用いるe(m,a,k,j,t)を計算する。
計算は(11)式を用いて行なう。
【0039】次にステップST13において、各層の選
択モジュールのモジュール選択に対するQ値を計算す
る。n層の選択モジュールsのQ値をQn s(x,m,t)とする。
1層の選択モジュールsには、選択する学習型制御モジ
ュールのQ値の内の最大値を入力し、Q値を計算する。
続いて、2層の選択モジュールには、2層の各選択モジ
ュールが選択する1層の選択モジュールから計算された
Q値の最大値を入力し、Q値を計算する。3層以降も同
様にして、一つ下の層の選択モジュールのQ値を入力し
て、その層の選択モジュールのQ値を計算する。同時に
シナプス結合強度の学習に用いるen s(m,a,k,j,t)を各層
の選択モジュールで計算する。Q値とen s(m,a,k,j,t)は
次式で計算する。 Qn s(x,m,t)=Σk,jwn s(m,k,j,t)yn(k,j,t) en s(m,k,j,t)=yn(k,j,t) :mが選択した制御モジュールの場合 =λsen s(m,k,j,t-1) :その他 (16) ここで、wn s(m,k,j,t)はn層の選択モジュールsのk番目
のタイルのj番目のニューロンのモジュールm選択に対す
るシナプス結合強度である。
【0040】次にステップST14で選択するモジュー
ルを決定する。n 層の選択モジュールはn-1層の選択モ
ジュールを選択する。n層の選択モジュールsのQ値;Qn
s(x,m,t)の最大値を示すモジュールmを選択する。続い
て、選択されたn-1層の選択モジュールのQ値によりn-2
層の選択モジュールを選択する。以下同様にして、モ
ジュールを選択し、1層の選択モジュールは学習型制御
モジュールを選択する。
【0041】次にステップST15で選択された学習型
制御モジュールの各出力に対するQ値に基づき、最大の
Q値を示す出力を選択する。次にステップST16で、
選択された出力で制御対象を制御する。次にステップS
T17で制御結果R(t)を入力する。次にステップST1
8において、シナプス結合強度の学習をする。
【0042】選択された学習型制御モジュールmの学習
に用いる誤差Em(t)は次式で計算する。 Em(t)=R(t)+Q(m,x(t+1),per(t+1),t+1)-Q(m,x(t),per(t),t) :sel1(t+1)=mの場合 =R(t)+Q1 s(x(t+1),sel1(t+1),t+1)-Q(m,x(t),per(t),t) :sel1(t+1)≠m の場合 (17) 選択されなかった学習型制御モジュールのEm(t) は0で
ある。選択された1層の選択モジュールsの学習に用い
る誤差E1 s(t)は次式で計算する。 E1 s(t)=R(t)+γQ1 s(x(t+1),sel1(t+1),t+1)-Q1 s(x(t),sel1(t),t)-Esel1(t)(t): sel2(t+1)=s =R(t)+γQ2 s(x(t+1),sel2(t+1),t+1)-Q1 s(x(t),sel1(t),t)-Esel1(t)(t): sel2(t+1)≠s (18) 2層以降、k層の選択モジュールの学習に用いる誤差 Ek
s(t)を次式で計算する。 Ek s(t)=R(t)+γQk s(x(t+1),selk(t+1),t+1)-Qk s(x(t),selk(t),t)-Ek-1 selk(t) (t) : selk+1(t+1)=s =R(t)+γQk+1s(x(t+1),selk+1(t+1),t+1)-Qk s(x(t),selk(t),t)-Ek-1 selk (t) (t) : selk+1(t+1)≠s (19) 最終のN層の選択モジュールの学習に用いる誤差EN s(t)
を次式で計算する。 EN s(t)=R(t)+γQN s(x(t+1),selN(t+1),t+1)-QN s(x(t),selN(t),t)-EN-1 selN(t) (t) (20) 学習型制御モジュール、各層の選択モジュールのシナプ
ス結合強度を次式で更新する。 w(m,a,k,j,t)=w(m,a,k,j,t-1)+αmEm(t)e(m,a,k,j,t)/nt wn s(m,k,j,t)=wn s(m,k,j,t-1)+αn sEn s(t)en s(m,k,j,t)/nt (21)
【0043】次に、ステップST19において、制御結
果が失敗であるか、成功であるか、その他であるかの判
定を行ない、制御結果が成功か失敗である場合には、制
御を中止して、ロボットを制御開始の状態にし、ステッ
プST11に戻り、幅広い初期状態から成功するまで制
御学習を続ける。このような試行を繰り返すことによっ
てロボットの制御を学習することができる。本実施の形
態においては、制御対象の状態を細かく分類して制御で
きるので、より複雑な、入力次元数の高い制御課題を学
習制御することができる。
【0044】実施の形態4.なお、上記実施の形態1で
は、選択モジュールの入力に、距離センサ1から4の
和、距離センサ5から8の和、光センサ1から4の最小
値、光センサ5から8の最小値を用いた場合を示した
が、同様な方法によって、距離センサ1から8の和、光
センサ1から8の最小値を入力した場合にも適用でき
る。また、距離センサの和の代わりに、距離センサの最
大値を入力してもよい。上記実施の形態2では、選択モ
ジュールに学習型制御モジュールのQ値の最大値を入力
した場合を示したが、Q値の最小値を入力してもよい。
さらに、適用される制御対象1も、移動ロボットばかり
でなく、自律搬送車や知能化車椅子などの自律移動制御
機や自動車の自動運転装置などの制御学習にも適用可能
である。また、上記の実施の形態では、CMACニュー
ラルネットワークを用いた場合について説明したが、si
gmoid 関数を用いたフィードフォワードニューラルネッ
トワークやradial basisfunction 関数を用いたフィー
ドフォワードニューラルネットワークで計算してもよ
い。
【0045】
【発明の効果】以上のように、本発明の第1の構成によ
るモジュール型学習制御方法によれば、制御対象の状態
を測定した測定結果および実際に制御した結果に基づい
て、前記制御対象の制御法を学習して制御する学習制御
方法において、それぞれが制御結果の予測値を計算し、
その予測値に基づいて出力を決定し、実際に制御した結
果から予測値を学習し、制御対象の状態値の一部分をそ
れぞれに入力する複数の学習型制御モジュールと、前記
各学習型制御モジュール選択による制御結果の予測値を
計算し、それらの予測値に基づいて採用する学習型制御
モジュールを選択し、実際に制御した結果から制御結果
予測値を学習する選択モジュールとを備えて、前記制御
対象を制御する制御系に適用され、該制御系に前記制御
対象の状態の測定結果を入力する第1処理、その入力値
に基づいて前記制御対象の制御を行なって、当該制御に
よる前記制御対象の状態を測定する第2処理、その測定
結果から前記制御対象の制御の結果に対する評価を判定
する第3処理、およびその判定結果に基づいて前記制御
系を学習させる第4処理をそれぞれ施し、その学習結果
に基づいて前記第1〜第4処理を繰り返しつつ前記制御
対象の制御を行なうので、入力次元が大きい制御対象で
も、各学習型制御モジュールの入力次元を減少させるこ
とができ、リアルタイムに制御学習が容易になる効果が
ある。
【0046】また、本発明の第2の構成によるモジュー
ル型学習制御方法によれば、選択モジュールに制御系へ
の状態値入力の最大値・最小値・和・平均などを入力す
るので、選択モジュールの入力次元を減少させることが
でき、選択モジュールの計算を迅速に行なうことがで
き、リアルタイムに制御学習が容易になる効果がある。
【0047】また、本発明の第3の構成によるモジュー
ル型学習制御方法によれば、選択モジュールに前記学習
型制御モジュールで計算される制御結果予測値の最大値
や最小値などを入力するので、選択モジュールの入力次
元を減少させることができ、選択モジュールの計算を迅
速に行なうことができ、リアルタイムに制御学習が容易
になる効果がある。
【0048】また、本発明の第4の構成によるモジュー
ル型学習制御方法によれば、選択モジュールを複数備
え、選択モジュールを選択する2層以上の選択モジュー
ル層を持つという多層選択モジュール構造を備えたの
で、より複雑な制御課題を制御学習できる効果がある。
【図面の簡単な説明】
【図1】 移動ロボットの説明図である。
【図2】 移動ロボットの移動実験の実験環境を示す説
明図である。
【図3】 本発明の実施の形態1による学習制御方法が
適用される制御装置の構成例を示すブロック図である。
【図4】 本発明の実施の形態1による学習制御方法を
示すフローチャートである。
【図5】 本発明の実施の形態1によって学習した場合
の制御に成功した割合の変化を示す説明図である。
【図6】 本発明の実施の形態2による学習制御方法が
適用される制御装置の構成例を示すブロック図である。
【図7】 本発明の実施の形態2による学習制御方法を
示すフローチャートである。
【図8】 本発明の実施の形態2によって学習した場合
の制御に成功した割合の変化を示す説明図である。
【図9】 本発明の実施の形態3による学習制御方法が
適用される制御装置の構成例を示すブロック図である。
【図10】 本発明の実施の形態3による学習制御方法
を示すフローチャートである。
【図11】 従来の学習制御方法が適用される制御装置
の構成例を示すブロック図である。
【図12】 従来の学習制御方法を示すフローチャート
である。
【符号の説明】
1 制御対象(動的システム)、2 制御モジュール、
3 学習型制御モジュールA、4 学習型制御モジュー
ルB、5 選択モジュール(1層)、6 選択モジュー
ル(2層)、7 バイアスモジュール。

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 制御対象の状態を測定した測定結果およ
    び実際に制御した結果に基づいて、前記制御対象の制御
    法を学習して制御する学習制御方法において、それぞれ
    が制御結果の予測値を計算し、その予測値に基づいて出
    力を決定し、実際に制御した結果から予測値を学習し、
    制御対象の状態値の一部分をそれぞれに入力する複数の
    学習型制御モジュールと、前記各学習型制御モジュール
    選択による制御結果の予測値を計算し、それらの予測値
    に基づいて採用する学習型制御モジュールを選択し、実
    際に制御した結果から制御結果予測値を学習する選択モ
    ジュールとを備えて、前記制御対象を制御する制御系に
    適用され、該制御系に前記制御対象の状態の測定結果を
    入力する第1処理、その入力値に基づいて前記制御対象
    の制御を行なって、当該制御による前記制御対象の状態
    を測定する第2処理、その測定結果から前記制御対象の
    制御の結果に対する評価を判定する第3処理、およびそ
    の判定結果に基づいて前記制御系を学習させる第4処理
    をそれぞれ施し、その学習結果に基づいて前記第1〜第
    4処理を繰り返しつつ前記制御対象の制御を行なうこと
    を特徴とするモジュール型学習制御方法。
  2. 【請求項2】 前記選択モジュールに制御系への状態値
    入力の最大値・最小値・和・平均などを入力することを
    特徴とする請求項1記載のモジュール型学習制御方法。
  3. 【請求項3】 前記選択モジュールに前記学習型制御モ
    ジュールで計算される制御結果予測値の最大値や最小値
    などを入力することを特徴とする請求項1記載のモジュ
    ール型学習制御方法。
  4. 【請求項4】 前記選択モジュールを複数備え、選択モ
    ジュールを選択する2層以上の選択モジュール層を持つ
    という多層選択モジュール構造を備えることを特徴とす
    る請求項1記載のモジュール型学習制御方法。
JP9300411A 1997-10-31 1997-10-31 モジュール型学習制御方法 Pending JPH11134003A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9300411A JPH11134003A (ja) 1997-10-31 1997-10-31 モジュール型学習制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9300411A JPH11134003A (ja) 1997-10-31 1997-10-31 モジュール型学習制御方法

Publications (1)

Publication Number Publication Date
JPH11134003A true JPH11134003A (ja) 1999-05-21

Family

ID=17884485

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9300411A Pending JPH11134003A (ja) 1997-10-31 1997-10-31 モジュール型学習制御方法

Country Status (1)

Country Link
JP (1) JPH11134003A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007164704A (ja) * 2005-12-16 2007-06-28 Kyushu Institute Of Technology 自己組織化マップを用いる装置、その方法及びプログラム
JP2020529088A (ja) * 2017-09-08 2020-10-01 ナイアンティック, インコーポレイテッドNiantic,Inc. 衝突の検出、推定、および回避
JP2021086541A (ja) * 2019-11-29 2021-06-03 新東工業株式会社 ロボット、制御方法、およびプログラム
US11831347B2 (en) 2019-09-18 2023-11-28 Nec Corporation Parameter determination apparatus, signal transmission apparatus, parameter determination method, signal transmission method and recording medium
US12068891B2 (en) 2020-06-10 2024-08-20 Nec Corporation Signal transmission apparatus, parameter determination apparatus, signal transmission method, parameter determination method and recording medium

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007164704A (ja) * 2005-12-16 2007-06-28 Kyushu Institute Of Technology 自己組織化マップを用いる装置、その方法及びプログラム
JP2020529088A (ja) * 2017-09-08 2020-10-01 ナイアンティック, インコーポレイテッドNiantic,Inc. 衝突の検出、推定、および回避
US11831347B2 (en) 2019-09-18 2023-11-28 Nec Corporation Parameter determination apparatus, signal transmission apparatus, parameter determination method, signal transmission method and recording medium
JP2021086541A (ja) * 2019-11-29 2021-06-03 新東工業株式会社 ロボット、制御方法、およびプログラム
US12068891B2 (en) 2020-06-10 2024-08-20 Nec Corporation Signal transmission apparatus, parameter determination apparatus, signal transmission method, parameter determination method and recording medium

Similar Documents

Publication Publication Date Title
US10807235B2 (en) Machine learning device, robot controller, robot system, and machine learning method for learning action pattern of human
Beom et al. A sensor-based navigation for a mobile robot using fuzzy logic and reinforcement learning
CN111712356A (zh) 机器人系统和操作方法
Najjaran et al. Real-time motion planning of an autonomous mobile manipulator using a fuzzy adaptive Kalman filter
Juang et al. Navigation of a fuzzy-controlled wheeled robot through the combination of expert knowledge and data-driven multiobjective evolutionary learning
Millán Learning efficient reactive behavioral sequences from basic reflexes in a goal-directed autonomous robot
JPH11134003A (ja) モジュール型学習制御方法
Sales et al. Topological autonomous navigation for mobile robots in indoor environments using ann and fsm
JP3465236B2 (ja) ロバスト強化学習方式
Chohra et al. Neural navigation approach for intelligent autonomous vehicles (IAV) in partially structured environments
Hoshino et al. Discrete motion planner based on deep recurrent neural network for mobile robot obstacle avoidance in dead-end environments
CN111984000A (zh) 用于自动影响执行器的方法和设备
Ye et al. A novel behavior fusion method for the navigation of mobile robots
CN116339342A (zh) 一种自主路径规划与避障系统及方法
Xu et al. Indoor multi-sensory self-supervised autonomous mobile robotic navigation
Llata et al. Fuzzy controller for obstacle avoidance in robotic manipulators using ultrasonic sensors
Chohra et al. Neuro-fuzzy expert system E_S_CO_V for the obstacle avoidance behavior of intelligent autonomous vehicles
Kim et al. A study on path planning for mobile robot based on fuzzy logic controller
Suykens et al. Neural control theory: an overview
Siemiatkowska A highly parallel method for mapping and navigation of an autonomous mobile robot
Kumar et al. A multi-agent optimal path planning approach to robotics environment
Ng et al. Neural-fuzzy controller for real-time mobile robot navigation
Wei et al. Fuzzy sensor-based motion control among dynamic obstacles for intelligent rigid-link electrically driven arm manipulators
Chatterjee et al. Improving EKF-based solutions for SLAM problems in Mobile Robots employing Neuro-Fuzzy Supervision
Silva et al. Navigating mobile robots with a modular neural architecture