JPH09245012A - 学習制御方法 - Google Patents

学習制御方法

Info

Publication number
JPH09245012A
JPH09245012A JP8052161A JP5216196A JPH09245012A JP H09245012 A JPH09245012 A JP H09245012A JP 8052161 A JP8052161 A JP 8052161A JP 5216196 A JP5216196 A JP 5216196A JP H09245012 A JPH09245012 A JP H09245012A
Authority
JP
Japan
Prior art keywords
control
neural network
learning
result
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8052161A
Other languages
English (en)
Inventor
Satoshi Yamada
訓 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP8052161A priority Critical patent/JPH09245012A/ja
Publication of JPH09245012A publication Critical patent/JPH09245012A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Feedback Control In General (AREA)

Abstract

(57)【要約】 【課題】 過去の履歴を考慮する必要のある制御対象の
制御方法の学習に多くの試行を行う必要があり、多大な
学習時間が必要となる。 【解決手段】 内部状態記憶層10,15を持ち、RB
F関数を入出力関数とするニューロンを隠れ層6,14
として持つニューラルネットワークで形成された制御系
2,11に制御対象1の状態の測定結果を入力し、得ら
れた制御出力値に基づいて制御された制御対象の状態の
測定結果から、当該制御対象の制御に対する評価を判定
し、その判定結果に基づいてニューラルネットワークの
シナプス結合強度を変化させることによって学習を行わ
せ、その学習結果に基づいて以上の処理を繰り返しつつ
制御対象の制御を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、振る舞いが複雑
でその動作の同定が困難な動的システムなどによる制御
対象の制御を、学習によってその制御方法を獲得しつつ
制御する学習制御方法、例えば、学習によって変化可能
なニューラルネットワークが適用される学習制御方法に
関するものである。
【0002】
【従来の技術】図7は例えば、「アドバンセス イン
ニューラル インフォメーション プロセッシング シ
ステムズ(Adavances in Neural Information Processi
ng Systems)」第3号(1991年)の第500〜50
6ページに示された、従来の学習制御方法が適用される
制御装置の一例を示すブロック図である。図において、
1は倒立振り子などの制御対象、2はそれを制御する制
御系としての制御サブニューラルネットワークであり、
3はその入力層、4は制御結果入力層、5は出力層、6
は隠れ層である。また、7は制御対象1の変化をモデル
化するモデルサブニューラルネットワークであり、8は
その入力層、9は隠れ層である。なお、制御系の制御目
標は制御サブニューラルネットワーク2の出力する制御
出力値によって、制御対象1である倒立振り子の台車を
右または左に押すことにより、載せられている棒を倒れ
ないように保つことである。
【0003】次に動作について説明する。ここで、図8
は図7に示した制御装置に適用される、従来の学習制御
方法を示すフローチャートである。まずステップST1
において、制御サブニューラルネットワーク2の入力層
3に制御対象1の状態値を入力する。この制御課題で
は、台車の位置xと棒の角度θだけを入力する。台車の
位置xと棒の角度θと共に台車の速度と角速度を入力す
ると、フィードフォワード型ニューラルネットワークで
解決できるが、台車の位置xと棒の角度θだけを入力す
る場合には、過去の履歴を考慮しなければ制御できず、
リカレント型ニューラルネットワークを用いなければ解
決できない。なお、各状態値はそれぞれの最小値と最大
値を用いて規格化し、0〜1の間の値として入力する。
【0004】次にステップST2において、入力層3の
出力と他のニューロンの1時刻前の出力yj,old と、制
御サブニューラルネットワーク2内のニューロン間のシ
ナプス結合強度wijから、次の式(1)を用いて、制御
サブニューラルネットワーク2の各ニューロンの出力y
i,new を計算する。 yi,new = f[Σwijj,old] f[x] = 1/(1+exp(−x)) (1)
【0005】次にステップST3において、シナプス結
合強度wijの学習のために必要な変数pk ij を、1時刻
前の変数pk ij,old と各ニューロンの出力とシナプス結
合強度から次の式(2)を用いて計算した後、1時刻前
の出力yj,old と変数pk ij, old に、新たな出力y
i,new と変数pk ij,new を代入して更新する。 pk ij,new = yk,new(1−yk,new)(Σwkll ij,old+δikj,old) (2) ここで、δikはクロネッカーのデルタでi=kの場合だ
け1でその他の場合には0である。
【0006】次にステップST4において、出力層5の
ニューロンの出力yo,new から次の式(3)を用いて、
制御に用いる力の大きさFを決定する。 F = (50yo,new−25) (3)
【0007】次に、この決定された力Fを制御対象1に
加えてその制御を行ない、ステップST5において、そ
の制御結果rと次の状態の状態値を得る。ここで、制御
結果rは次の式(4)で与えられる。 r = 0.5((θ/0.21)2+(x/2.4)2) (4)
【0008】次に、ステップST6において、制御対象
1の状態入力を受ける入力層3と制御対象1の制御結果
を受ける制御結果入力層4に新しい値を入力し、モデル
サブニューラルネットワーク7の各ニューロンの出力
を、制御サブニューラルネットワーク2の場合と同様
に、式(1)を用いて計算する。次に、ステップST7
において、モデルサブニューラルネットワーク7のニュ
ーロンkに関する変数pk i j を、制御サブニューラルネ
ットワーク2の場合と同様に、式(2)を用いて計算し
た後、1時刻前の出力yj,old と変数pk ij,old を更新
する。
【0009】次に、ステップST8において、モデルサ
ブニューラルネットワーク7と制御サブニューラルネッ
トワーク2のシナプス結合強度wijを更新する。なお、
モデルサブニューラルネットワーク7のシナプス結合強
度に関しては、次の式(5)を用いてシナプス結合強度
の変化量Δwijを計算する。 Δwij = αΣ(yk,new−yk,pred)pk,pred ij,old (5) ここで、αは学習定数、yk,new は制御サブニューラル
ネットワーク2の入力層3と制御結果入力層4のニュー
ロンの出力、yk,predは対応するモデルサブニューラル
ネットワーク7のニューロンの出力である。
【0010】一方、制御サブニューラルネットワーク2
のシナプス結合強度wijに関しては、次の式(6)を用
いてシナプス結合強度の変化量Δwijを計算する。 Δwij = βΣ(ck−yk,new)pk,pred ij,old (6) ここで、βは学習定数、ck は外部から与えられる制御
結果の値、yk,new は制御サブニューラルネットワーク
2の制御結果ニューロンの出力、pk,pred ij,o ldはモデ
ルサブニューラルネットワーク7の対応するニューロン
に関する変数値である。
【0011】次いで、ステップST9において、制御結
果が成功であるか失敗であるかの判定を行なう。制御結
果が失敗の場合には、制御を中止して振り子の状態を制
御開始の状態に戻し、全ての変数pk ij を0に初期化し
てステップST1より制御学習を再開する。一方、制御
結果が失敗でない場合にはそのままステップST1に戻
り、長時間の振り子の制御が可能になるまで制御学習を
続ける。なお、シナプス結合強度wijは乱数によって初
期設定して制御学習を開始する。
【0012】このようにして、多数回の試行によって、
制御対象を制御範囲内に長時間保持しておく制御方法を
学習することが可能になる。しかしながらこの制御学習
法では、モデルサブニューラルネットワーク7の代わり
に倒立振り子の運動方程式を用いた完全モデルを用いる
というシステムが同定できないという前提に反するよう
な工夫をしても、学習速度が遅く、数千回の試行で20
秒ぐらい倒立振り子を保持できる制御が学習できただけ
であった。
【0013】
【発明が解決しようとする課題】従来の学習制御方法は
以上のように構成されているので、過去の履歴を考慮す
る必要のある制御対象を、所定の制御範囲内に長時間保
持しておくための制御方法の学習には多くの試行を必要
とし、制御方法の学習に多大な時間を要するという課題
があった。
【0014】この発明は上記のような課題を解決するた
めになされたもので、制御対象の制御に対する評価を用
いて、過去の履歴を考慮する必要のある制御対象の制御
方法を迅速に学習することができる学習制御方法を得る
ことを目的とする。
【0015】
【課題を解決するための手段】請求項1記載の発明に係
る学習制御方法は、内部状態記憶層が設けられ、ラディ
アル・ベイシズ・ファンクション(radial basis funct
ion ;以下、RBF関数という)を入出力関数として用
いるニューロンを隠れ層に持つニューラルネットワーク
で形成された制御系に、制御対象の状態の測定結果を入
力して、その入力値と1時刻前の内部状態記憶層のニュ
ーロンの出力に基づいて制御された制御対象の状態の測
定結果から、制御対象の当該制御に対する評価を判定
し、その判定結果に基づいて制御系のニューラルネット
ワークのシナプス結合強度を学習させ、その学習結果に
基づいて以上の処理を繰り返しつつ制御対象を制御する
ものである。
【0016】請求項2記載の発明に係る学習制御方法
は、内部記憶状態層を持ち、RBF関数を入出力関数に
用いるニューロンを1つ以上の隠れ層に持った4層以上
のニューラルネットワークにて形成された制御系を用い
たものである。
【0017】請求項3記載の発明に係る学習制御方法
は、制御系を制御サブニューラルネットワークと予測サ
ブニューラルネットワークとで形成し、制御サブニュー
ラルネットワークで制御対象の制御出力値を決定して制
御対象の制御を行い、その制御結果と制御対象の状態値
を予測サブニューラルネットワークに入力して制御結果
予測誤差を算出し、その制御結果予測誤差に基づいて、
制御サブニューラルネットワークと予測サブニューラル
ネットワークのシナプス結合強度の学習を行うようにし
たものである。
【0018】請求項4記載の発明に係る学習制御方法
は、制御対象の制御に対する評価の判定結果に基づいて
学習を行わせる際の制御に対する評価として、制御に失
敗したか否かを表す2値信号を用いたものである。
【0019】請求項5記載の発明に係る学習制御方法
は、制御対象の制御に対する評価の判定結果に基づいて
学習を行わせる際の制御に対する評価として、制御の成
功の度合い、あるいは失敗の度合いを表すアナログ信号
を用いたものである。
【0020】請求項6記載の発明に係る学習制御方法
は、0で最大となり、その近傍でのみ有意な値を持つ関
数をRBF関数として用いたものである。
【0021】
【発明の実施の形態】以下、この発明の実施の一形態を
説明する。 実施の形態1.図1はこの発明の実施の形態1による学
習制御方法が適用される制御装置の構成例を示すブロッ
ク図である。図において、1は制御対象であり、例えば
台車上に回転可能な棒が載せられた倒立振り子などの動
的システムによって形成されている。2はこの制御対象
1の制御を行う制御系としての制御サブニューラルネッ
トワークであり、リカレント型ニューラルネットワーク
にて構成されている。3はこの制御サブニューラルネッ
トワーク2の入力層であり、制御対象1の状態値が入力
される。5は同じく制御サブニューラルネットワーク2
の出力層であり、制御対象1への制御出力値を出力す
る。6は同じく制御サブニューラルネットワーク2の隠
れ層で、例えばガウス関数などのRBF関数を入出力関
数として用いているニューロンを持ち、入力層3と出力
層5および後述する内部状態記憶層10とを結合する。
10は制御サブニューラルネットワーク2の前記内部状
態記憶層であり、この内部状態記憶層10の出力は次の
時刻に入力層3の出力と同様に扱われ、隠れ層6におい
て処理される。
【0022】また、11は制御サブニューラルネットワ
ーク2と共に制御系を形成し、制御サブニューラルネッ
トワーク2の学習のための制御結果予測値を演算・出力
する予測サブニューラルネットワークである。12はこ
の予測サブニューラルネットワーク11の入力層であ
り、制御対象1の状態値が入力される。13は同じく予
測サブニューラルネットワーク11の出力層であり、前
記制御結果予測値の計算を行う。14は同じく予測サブ
ニューラルネットワーク11の隠れ層であり、入力層1
2と出力層13および後述する内部状態記憶層15とを
結合する。なお、この隠れ層14もガウス関数などのR
BF関数を入出力関数として用いているニューロンを持
っている。15は制御サブニューラルネットワーク2の
前記内部状態記憶層であり、この内部状態記憶層15の
出力は次の時刻に入力層12の出力と同様に扱われ、隠
れ層14において処理される。
【0023】次に動作について説明する。ここで、図2
は図1に示した制御装置に適用される、この発明の実施
の形態1による学習制御方法を示すフローチャートであ
る。まず、ステップST11において、制御対象1から
当該制御対象1の状態を表す状態値を各種センサを用い
て検出する。ここで、この実施の形態1でも従来の場合
と同様に、台車の位置xと棒の角度θだけを入力し、台
車の速度や棒の角速度は入力しない。この場合、制御対
象1は過去の履歴を考慮する必要がある制御対象である
ので、リカレント型ニューラルネットワークを用いなけ
れば制御方法を学習することはできない。各種センサで
得られた制御対象1の各状態値は、それぞれ最小値と最
大値に基づいて0〜1の間に規格化された後、制御サブ
ニューラルネットワーク2の入力層3に入力される。
【0024】次にステップST12において、入力層3
の出力ac i(t)と内部状態記憶層10の1時刻前の出力
c k(t−1)とニューロン間のシナプス結合強度wc ji
およびwc jk から、隠れ層6のニューロンの出力b
c j(t)を次の式(7)で表されるように、RBF関数を
用いて計算する。 rc j(t) = Σ(ac i(t)−wc ji)2+Σ(ec k(t−1)−wc jk)2c j(t) = g[rc j(t)] g[x] = exp(−x/σ2) (7) ここで、g[x]がRBF関数である。
【0025】次にステップST13において、入力層3
の出力ac i(t)、内部状態記憶層10の1時刻前の出力
c k(t−1)、隠れ層6の出力bc j(t)と、シナプス結
合強度から、制御サブニューラルネットワーク2の出力
層5の出力oc (t)と内部状態記憶層10の出力e
c k(t)を、次の式(8)で表されるように、シグモイド
関数を用いて計算する。 vc(t) = Σwc ic i(t)+Σwc kc k(t−1)+Σwc jc j(t) oc(t) = f[vc(t)] sc k(t) = Σwc kic i(t)+Σwc kmc m(t−1)+Σwc kjc j(t) ec k(t) = f[sc k(t)] f[x] = 1/(1+exp(−x)) (8) ここで、f[x]はシグモイド関数である。
【0026】次にステップST14において、その制御
サブニューラルネットワーク2の出力oc(t)に基づ
き、確率oc(t)で制御に用いる力F(t)を+f、確率
1−oc(t) で−fとする。そして制御サブニューラル
ネットワーク2の学習に用いる変数u(t)を次の式
(9)で計算する。 u(t) = 1−oc(t) oc(t) ≧ 0の場合 = −oc(t) oc(t) < 0の場合 (9)
【0027】次にステップST15において、前記ステ
ップST11で規格化した入力を予測サブニューラルネ
ットワーク11にも入力し、その入力層12の出力ap i
(t)と内部状態記憶層15の1時刻前の出力ep k(t−
1)とシナプス結合強度wp ji,wp jk から、隠れ層14
の出力bp j(t)を次の式(10)を用いて計算する。な
お、この式(10)のRBF関数g[x]は式(7)のそ
れと同一のものを用いる。 rp j(t) = Σ(ap i(t)−wp ji)2+Σ(ep k(t−1)−wp jk)2p j(t) = g[rp j(t)] (10)
【0028】次にステップST16において、入力層1
2の出力ap i(t)、内部状態記憶層15の1時刻前の出
力ep k(t−1)、隠れ層14の出力bp j(t)と、シナプ
ス結合強度wp ji およびwp jk とから、予測サブニュー
ラルネットワーク11の出力層13の出力(制御結果予
測値op (t))と内部状態記憶層の出力ep k(t)を、次
の式(11)を用いて計算する。なお、この式のシグモ
イド関数f[x]は式(8)のそれと同一のものを用い
る。 op(t) = Σwp ip i(t)+Σwp kp k(t−1)+Σwp jp j(t) sp k(t) = Σwp kip i(t)+Σwp kmp m(t−1)+Σwp kjp j(t) ep k(t) = f[sp k(t)] (11)
【0029】次にステップST17において、ステップ
ST14にて計算した力F(t)を制御対象1に加えてそ
の倒立振り子を制御する。次にステップST18におい
て、制御サブニューラルネットワーク2からの制御出力
値によって制御された倒立振り子の状態をセンサで検出
して、その制御結果r(t+1)と制御対象1の状態値を
得る。ここでは、制御結果r(t+1)は制御が失敗した
場合には−1、その他の場合には0で与えられる。
【0030】次に、ステップST19において、ステッ
プST18で得られた制御対象1の状態値をステップS
T11の場合と同様に規格化し、それを予測サブニュー
ラルネットワーク11に入力して、ステップST15お
よびステップST16と同一の手順で式(10)と式
(11)を用いて、1時刻後の制御結果予測値op(t+
1)を計算する。
【0031】次にステップST20において、制御結果
r(t+1)と制御結果予測値op(t)および1時刻後の
制御結果予測値op(t+1)から、次の式(12)によ
って制御結果予測誤差r^(t)を計算する。 r^(t) = γop(t+1)−op(t) 時刻t+1で失敗しなかった場合 = r(t+1)−op(t) 時刻t+1で失敗した場合 (12) ここで、γは定数である。
【0032】次にステップST21において、シナプス
結合強度変化Δwc ji を計算するために必要な、制御サ
ブニューラルネットワーク2の微分∂Yc k(t)/∂wc
ji を更新する。ここで、∂Yc k(t)/∂wc ji はシナ
プス結合強度wc ji によるニューロンの出力Yc k(t)の
偏微分を表している。なお、以下の説明においても、関
数F(t)の変数vによる偏微分を、∂F(t)/∂v の形
式で表記する。
【0033】まず、RBF関数の用いられている隠れ層
6のニューロンに対する微分∂Yc k(t)/∂wc ji が、
次の式(13)で計算される。 ∂Yc k(t)/∂wc ji = 2g'[rc k(t)](Σ(Yc l(t)−wc kl)∂Yc l(t)/∂wc ji −δjk(Yc i(t)−wc ji)) g'[x] = −g[x]/σ2 (13) ここで、全てのニューロンの出力ac i(t),bc j(t),
c k(t−1),oc(t)をまとめてYc k (t)で表す。ま
た、g'[x] はRBF関数の微分を表す。また、δjk
クロネッカーのデルタでj=kの場合だけ1で他の場合
には0である。
【0034】一方、シグモイド関数の用いられている内
部状態記憶層10のニューロンに対する微分∂Yc k(t)
/∂wc ji は、次の式(14)で計算される。 ∂Yc k(t)/∂wc ji = f'[sc k(t)](Σwc kl∂Yc l(t)/∂wc ji+δjkc i(t)) f'[x] = f[x](1−f[x]) (14) なお、ここで、f'[x]はシグモイド関数の微分を表す。
【0035】出力層5のニューロンに対しては、ステッ
プST14で計算した変数u(t)を用いて、次の式(1
5)でその微分∂Yc k(t)/∂wc ji を計算する。 ∂Yc k(t)/∂wc ji = u(t)(Σwc kl∂Yc l(t)/∂wc ji+δjkc i(t)) (15)
【0036】次にステップST22において、シナプス
結合強度の変化量を記憶しておく変数hc ji (t)を、次
の式(16)を用いて更新する。 hc ji(t) = oc(t)/∂wc ji+γλhc ji(t−1) (16) ここで、λは定数である。
【0037】次にステップST23において、ステップ
ST22で計算した変数hc ji (t)を用いて、シナプス
結合強度wc ji (t)を次の式(17)に従って変化させ
る。 Δwc ji(t) = αr^(t)hc ji(t) (17) なお、αは定数である。
【0038】次にステップST24において、シナプス
結合強度変化Δwp ji を計算するために必要な予測サブ
ニューラルネットワーク11の微分∂Yp k(t)/∂wp
ji を更新する。この場合も制御サブニューラルネット
ワーク2の場合と同様に、全てのニューロンの出力ap i
(t),bp j(t),ep k(t−1),op(t)をまとめてYp
k (t)で表す。まず、RBF関数が用いられている隠れ
層14のニューロンに対する微分∂Yp k(t)/∂wp ji
が、次の式(18)にて計算される。 ∂Yp k(t)/∂wp ji = 2g'[rp k(t)](Σ(Yp l(t)−wp kl)∂Yp k(t)/∂wp ji −δjk(Yp i(t)−wp ji)) (18) なお、RBF関数の微分g'[x] は式(13)と同一の
ものが用いられる。
【0039】一方、シグモイド関数の用いられている内
部状態記憶層15のニューロンに対する微分∂Yp k(t)
/∂wp ji は、次の式(19)にて計算される。 ∂Yp k(t)/∂wp ji = f'[sp k(t)](Σwp kl∂Yp k(t)/∂wp ji+δjkp i(t)) (19) なお、シグモイド関数の微分f'[x] は式(14)と同
一のものが用いられる。
【0040】さらに、出力層13のニューロンに対して
は、次の式(20)を用いてその微分∂Yp k(t)/∂w
p ji を計算する。 ∂Yp k(t)/∂wp ji = Σwp kl∂Yp l(t)/∂wp ji+δjk]Yp i(t) (20)
【0041】次にステップST25において、シナプス
結合強度の変化量を記憶しておく変数hp ji (t)を、次
の式(21)を用いて更新する。 hp ji(t) = op(t)/∂wp ji+γλhp ji(t−1) (21)
【0042】次にステップST26において、ステップ
ST25にて計算した変数hp ji(t)を用いて、シナプ
ス結合強度wp ji(t)を次の式(22)に従って変化さ
せる。 Δwp ji(t) = βr^(t)hp ji(t) (22) なお、βは定数である。
【0043】次にステップST27において、入力した
制御結果r(t+1)が失敗か成功かの判定を行なう。制
御結果が失敗であれば制御対象1の制御を中止して倒立
振り子を制御開始の状態に戻し、全ての微分∂Yc k(t)
/∂wc ji ,∂Yp k(t)/∂wp ji を0に初期化した
後、ステップST11より制御学習を再開する。また、
制御結果が失敗でない場合にはそのままステップST1
1に戻って、倒立振り子の制御を長時間にわたって持続
できるようになるまで制御学習を継続する。
【0044】なお、この場合、制御サブニューラルネッ
トワーク2と予測サブニューラルネットワーク11の、
出力層5および出力層13に向かうシナプスのシナプス
結合強度の初期値は0とし、それ以外のシナプスのシナ
プス結合強度の初期値は乱数によって定めて制御学習を
開始する。
【0045】以上のような方法で倒立振り子を制御しな
がら学習を行なうと、次第に長い時間振り子を倒さない
で制御できるように学習することができる。この学習を
行なうためのパラメーターとしては、例えば次の値を用
いる。 f = 10 γ = 0.95 λ = 0.7 α = 1, β = 0.2,σ = 0.4 また、制御サブニューラルネットワーク2および予測サ
ブニューラルネットワーク11の隠れ層6,14のニュ
ーロン数はそれぞれ50個とし、内部状態記憶層10,
15のニューロン数はそれぞれ2個とする。
【0046】そのときの、あるシナプス結合強度の初期
値から開始して、この実施の形態1による学習制御方法
によって学習した場合の、学習されたニューラルネット
ワークによる倒立振り子の制御時間の変化を図3に示
す。また、図4は隠れ層6,14のニューロンのシグモ
イド関数を用いたニューラルネットワークで、実施の形
態1と同様の学習制御方法で学習した場合の、学習され
たニューラルネットワークによる倒立振り子の制御時間
の変化を示したものである。この図3と図4を比較する
ことにより、入出力関数としてRBF関数を用いている
この発明の実施の形態1による学習制御方法が、いかに
迅速に倒立振り子の制御を学習できているかが分かる。
なお、フィードバック結合を持たないフィードフォワー
ド型のニューラルネットワークでは、過去の履歴を考慮
できないので、学習が進行しないのはいうまでもない。
【0047】以上のように、この実施の形態1によれ
ば、内部状態記憶層10,15を設置して1時刻前のそ
の出力を入力しているので、過去の履歴を考慮すること
ができ、また、隠れ層6,14にRBF関数を持つニュ
ーロンを用いたので、効率よく高速に制御対象1の制御
方法を学習することができ、さらに制御対象1の制御に
対する評価を、制御に失敗したか否かを表す2値信号に
よって行っているので、制御に対する評価が簡単に得ら
れ、ニューラルネットワークにより速く制御結果の判定
を与えることが可能となって、制御方法の学習を高速に
行うことができる効果がある。
【0048】実施の形態2.図5はこの発明の実施の形
態2による学習制御方法が適用される制御装置の構成例
を示すブロック図であり、各部には図1に示した実施の
形態1のそれぞれの相当部分と同一の符号を付してその
説明を省略する。なお、この実施の形態2は制御系を形
成している制御サブニューラルネットワーク2および予
測サブニューラルネットワーク11として、2層以上の
隠れ層6あるいは隠れ層14を備えた4層以上のニュー
ラルネットワークを用いている点で、実施の形態1と異
なっている。
【0049】次に動作について説明する。ここで、図6
は図5に示した制御装置に適用されるこの発明の実施の
形態2による学習制御方法を示すフローチャートであ
る。まず、ステップST31において、実施の形態1の
場合と同様に、制御対象1からその状態を表す状態値を
各種のセンサを用いて検出し、それら各状態値をそれぞ
れの最小値と最大値を用いて0〜1の間に規格化した
後、制御サブニューラルネットワーク2の入力層3と予
測サブニューラルネットワーク11の入力層12に入力
する。この場合、これら各制御サブニューラルネットワ
ーク2および予測サブニューラルネットワーク11は、
RBF関数を用いたニューロンからなる隠れ層14を1
層以上持つn層のニューラルネットワークであるものと
し、それらの出力をそれぞれck j(t) およびp
k j(t) で表すものとする。なお、kは層の番号を示す
もので、k=1は入力層3および入力層12を表し、k
=nは出力層5および出力層13を表している。また、
内部状態記憶層10および内部状態記憶層15はk=2
以上のどの層にあっても良い。なお、ここでは内部状態
記憶層10および内部状態記憶層15は出力層5および
出力層13と同様にk=nにあるとするが、k=0で内
部状態記憶層10および内部状態記憶層15を表すもの
とする。
【0050】次にステップST32において、制御サブ
ニューラルネットワーク2の各隠れ層6のニューロンの
出力ck j(t) を入力層3に近い順に、それ以下の層の
出力と1時刻前の内部状態記憶層10の出力から次の式
(23)を用いて計算する。なお、この式(23)のR
BF関数g[x]は式(7)のそれと、シグモイド関数f
[x]は式(8)のそれとそれぞれ同一のものが用いられ
る。 cγk j(t) = ΣmΣi(cm jicm i(t))2+Σ(c0 jic0 j(t−1))2 ck j(t) = g[cγk j(t)] RBF関数の場合 ck j(t) = ΣmΣi cm ji cm i(t)+Σc0 ji c0 j(t−1) ck j(t) = f[ck j(t)] シグモイド関数の場合 (23) ここで、c0 j(t−1) は1時刻前の内部状態記憶層1
0のニューロンの出力を表している。
【0051】次にステップST33において、入力層3
の出力、隠れ層6の出力、内部記憶状態層10の1時刻
前の出力とシナプス結合強度から、制御サブニューラル
ネットワーク2の出力層5の出力oc(t)と内部記憶状
態層10の出力c0 j(t)を次の式(24)を用いて計
算する。 oc(t) = cn(t) = f[ΣmΣi cm ji cm i(t)+Σc0 ji c0 i(t−1)] c0 j(t) = ΣmΣj cm ji cm i(t)+Σc0 ji c0 i(t−1) c0 j(t) = f[c0 j(t)] (24) なお、この式(24)のシグモイド関数f[x]は式
(8)のそれと同一のものが用いられる。
【0052】次にステップST34において、その制御
サブニューラルネットワーク2の出力に基づいて、確率
c(t)で制御に用いる力F(t)を+F、確率1−o
c(t)で−fとする。そして制御サブニューラルネット
ワーク2の学習に用いる変数u(t)を次の式(25)で
計算する。 u(t) = 1−oc(t) oc(t) ≧ 0の場合 = −oc(t) oc(t) < 0の場合 (25)
【0053】次にステップST35において、前記ステ
ップST31で規格化した入力を予測サブニューラルネ
ットワーク11にも入力し、当該予測サブニューラルネ
ットワーク11の各隠れ層14のニューロンの出力pk
j(t) を、入力層12に近い順に、それ以下の隠れ層1
4の出力と内部状態記憶層15の1時刻前の出力から次
の式(26)を用いて計算する。なお、この式(23)
のRBF関数g[x]は式(7)のそれと、シグモイド関
数f[x]は式(8)のそれと、それぞれ同一のものが用
いられる。 pγk j(t) = ΣmΣi(pm jipm i(t))2+Σ(p0 jip0 i(t−1))2 pk j(t) = g[pγk j(t)] RBF関数の場合 pk j(t) = ΣmΣi pm ji pm i(t)+Σp0 ji p0 i(t−1) pk j(t) = f[pk j(t)] シグモイド関数の場合 (26) ここで、p0 i(t−1) は1時刻前の内部状態記憶層1
5のニューロンの出力を表している。
【0054】次にステップST36において、入力層1
2の出力、隠れ層14の出力、内部状態記憶層15の1
時刻前の出力とシナプス結合強度から、予測サブニュー
ラルネットワーク11の出力層13の出力op(t)と内
部状態記憶層15の出力p0 j(t)を、次の式(27)
を用いて計算する。 op(t) = pn(t) = ΣmΣi pm ji pm i(t)+Σp0 ji p0 i(t−1) p0 j(t) = ΣmΣi pm ji pm i(t)+Σp0 ji p0 i(t−1) p0 j(t) = f[p0 j(t)] (27) なお、この式(27)のシグモイド関数f[x]は(8)
式のそれと同一のものが用いられる。
【0055】次にステップST37において、ステップ
ST34にて計算した力F(t)を制御対象1に加えてそ
の倒立振り子を制御する。次にステップST38におい
て、制御サブニューラルネットワーク2からの制御出力
値によって制御された倒立振り子の状態をセンサで検出
して、その制御結果r(t+1)と制御対象1の状態値を
得る。得られた制御対象1の状態値はステップST31
の場合と同様に規格化して予測サブニューラルネットワ
ーク11に入力する。
【0056】次にステップST39において、ステップ
ST35およびステップST36と同一の手順で、1時
刻後の制御結果予測値op (t+1)を、式(26)と式
(27)を用いて計算する。次にステップST40にお
いて、制御結果r(t+1)と制御結果予測値op(t)お
よび1時刻後の制御結果予測値op(t+1)から、次の
式(28)によって制御結果予測誤差r^(t)を計算す
る。 r^(t) = γop(t+1)−op(t) 時刻t+1で失敗しなかった場合 = r(t+1)−op(t) 時刻t+1で失敗した場合 (28) ここで、γは定数である。
【0057】次にステップST41において、シナプス
結合強度変化を計算するために必要な、制御サブニュー
ラルネットワーク2の微分∂Xc k(t)/∂wc jiを更新
する。ここで、制御サブニューラルネットワーク2の出
力をまとめてXc k(t)で表し、シナプス結合強度をまと
めてwc ji で表す。まず、RBF関数の用いられている
隠れ層6のニューロンに対する微分∂Xc k(t)/∂wc
ji が、次の式(29)によって計算される。 ∂Xc k(t)/∂wc ji = 2g'[rc k(t)](Σ(Xc l(t)−wc kl)∂Xc l(t)/∂wc ji −δjk(Xc i(t)−wc ji)) (29)
【0058】一方、シグモイド関数の用いられている隠
れ層6のニューロンおよび内部状態記憶層10のニュー
ロンに対する微分∂Xc k(t)/∂wc jiは、次の式(3
0)で計算される。 ∂Xc k(t)/∂wc ji = f'[sc k(t)](Σwc kl∂Xc l(t)/∂wc ji+δjkc i(t)) (30)
【0059】出力層5のニューロンに対しては、ステッ
プST34で計算した変数u(t)を用いて、その微分∂
c k(t)/∂wc ji が次の式(31)で計算される。 ∂Xc k(t)/∂wc ji = u(t)(Σwc kl∂Xc l(t)/∂wc ji+δjkc i(t)) (31)
【0060】次にステップST42において、シナプス
結合強度の変化量を記憶しておく変数hc ji (t)を次の
式(32)を用いて更新する。 hc ji(t) =∂oc(t)/∂wc ji+γλhc ji(t−1) (32) ここで、λは定数である。
【0061】次にステップST43において、ステップ
ST42で計算した変数hc ji(t)を用いて、シナプス
結合強度wc ji (t)を次の式(33)に従って変化させ
る。 Δwc ji(t) = αr^(t)hc ji(t) (33) なお、αは定数である。
【0062】次にステップST44において、シナプス
結合強度変化Δwc ji (t)を計算するために必要な、予
測サブニューラルネットワーク11の微分∂Xp k(t)/
∂wp ji を更新する。この場合も制御サブニューラルネ
ットワーク2の場合と同様に、全てのニューロンの出力
をまとめてXp k(t)で表し、シナプス結合強度をまとめ
てwp ji で表す。まず、RBF関数の用いられている隠
れ層14のニューロンに対する微分∂Xp k(t)/∂wp ji
が、次の式(34)を用いて計算される。 ∂Xp k(t)/∂wp ji = 2g'[rp k(t)](Σ(Xp l(t)−wp kl)∂Xp l(t)/∂wp ji −δjk(Xp i(t)−wp ji)) (34) なお、RBF関数の微分g'[x] は(13)式と同一の
ものが用いられる。
【0063】一方、シグモイド関数の用いられている隠
れ層14のニューロンおよび内部状態記憶層15のニュ
ーロンに対する微分∂Xp k(t)/∂wp ji は、次の式
(35)を用いて計算される。 ∂Xp k(t)/∂wp ji = f'[sp k(t)](Σwp kl∂Xp l(t)/∂wp ji+δjkp i(t)) (35) なお、シグモイド関数の微分f'[x] は(14)式と同
一のものが用いられる。
【0064】さらに、出力層13のニューロンに対して
は、次の式(36)を用いてその微分∂Xp k(t)/∂w
p jiを計算する。 ∂Xp k(t)/∂wp ji = Σwp kl∂Yp l(t)/∂wp ji +δjkp i(t) (36)
【0065】次にステップST45において、シナプス
結合強度の変化量を記憶しておく変数hp ji (t)を、次
の式(37)を用いて更新する。 hp ji(t) =∂op(t)/∂wp ji+γλhp ji(t−1) (37)
【0066】次にステップST46において、ステップ
ST45にて計算した変数hp ji(t)を用いて、シナプ
ス結合強度wp ji(t)を次の式(38)に従って変化さ
せる。 Δwp ji(t) = βr^(t)hp ji(t) (38) なお、βは定数である。
【0067】次にステップST47において、入力した
制御結果r(t+1)が失敗か成功かの判定を行なう。制
御結果が失敗であれば制御対象1の制御を中止して倒立
振り子を制御開始の状態に戻し、全ての微分∂Xc k(t)
/∂wc ji ,∂Xp k(t)/∂wp ji を0に初期化した
後、ステップST31より制御学習を再開する。また、
制御結果が失敗でない場合にはそのままステップST3
1に戻って、長時間にわたって倒立振り子を制御を持続
できるようになるまで制御学習を継続する。
【0068】なお、この場合、制御サブニューラルネッ
トワーク2と予測サブニューラルネットワーク11の、
出力層5および出力層13に向かうシナプスのシナプス
結合強度の初期値は0とし、それ以外のシナプスのシナ
プス結合強度の初期値は乱数によって定めて制御学習を
開始する。
【0069】以上のような方法で倒立振り子を制御しな
がら学習を行なうと、次第に長い時間振り子を倒さない
で制御できるように学習することができる。
【0070】以上のように、この実施の形態2によれ
ば、2層以上の隠れ層6,14によって制御対象1の状
態値の詳細な分類をすることが可能となるため、より精
密な制御方法を学習することができる効果がある。
【0071】実施の形態3.また、上記実施の形態1お
よび実施の形態2では、制御結果(制御に対する評価)
として、制御に失敗したか否かを表す2値信号を用いた
場合について説明したが、この制御結果として、制御の
状態に関する評価値のようなアナログ信号を用いるよう
にしてもよく、そのようなアナログ信号を用いた場合に
は、2値信号を用いる場合に比べてより精密な制御が行
える制御方法を学習することが可能となる。
【0072】ここで、この制御の状態に関する評価値と
しては、制御対象1の望ましい状態で最大となり、その
状態から離れるにつれて減少するような評価値、例え
ば、制御対象1が倒立振り子である場合には、倒立振り
子が中央の位置で直立して静止している状態で最大とな
り、それから離れるに従って減少するアナログ値を用い
ればよい。具体的には、この評価値qi (t)として次の
式(39)で与えられるものを用いるとよい。 ei = (xi(t)−sxi)2i(t) = νexp(−ei/μi 2) (39)
【0073】ここで、xi(t)は入力値、sxiは制御対
象1の望ましい状態であり、ν,μi は定数である。制
御対象1の各状態値に対してこの評価値qi (t)を求
め、その積をその時点の評価値とする。
【0074】以上のように、この実施の形態3によれ
ば、制御の成功の度合いまたは失敗の度合いを表すアナ
ログ信号によって、制御対象の制御に対する評価をより
精密に行うことが可能となり、ニューラルネットワーク
をより正確に学習させることができる効果がある。
【0075】実施の形態4.また、上記各実施の形態で
は、隠れ層6および隠れ層14の持つニューロンが入出
力関数として用いているRBF関数として、式(7)で
示したようなガウス関数を用いたものについて説明した
が、次の式(40)で与えられるような関数であっても
よい。 g[x] = (1−x/ρ)2 x<ρ = 0 x>ρ (40)
【0076】さらに、この式(7)や式(40)と異な
る関数であっても、それら式(7)や式(40)のよう
にx=0で最大となり、その近傍だけで有意な値を持つ
関数であればRBF関数として用いることができる。
【0077】以上のように、この実施の形態4によれ
ば、隠れ層6,14のニューロンに用いるRBF関数と
して、x=0で最大となってその近傍のみで有意な値を
持つ関数を用いたので、制御方法を効率よく高速に学習
することができる効果がある。
【0078】実施の形態5.また、上記各実施の形態で
は、制御サブニューラルネットワーク2から出力される
制御出力値が1つである場合を示したが、同様の方法に
よって制御出力値が2つ以上出力される場合にも適用で
きることはいうまでもない。さらに、適用される制御対
象1も、倒立振り子ばかりでなく、テープドライブ,C
Dプレイヤ,ビデオテープレコーダ(VTR),洗濯機
等の回転体の姿勢制御や、バイオリアクタあるいはプラ
ント等の状態制御にも適用可能である。
【0079】
【発明の効果】以上のように、請求項1記載の発明によ
れば、制御系のニューラルネットワークに内部状態記憶
層のニューロンを設置して、1時刻前のその出力を入力
するようにするとともに、隠れ層に入出力関数としてR
BF関数を持ったニューロンを用いるように構成したの
で、過去の履歴を考慮することが必要な制御対象に対し
ても、その制御方法を効率よく迅速に学習できる効果が
ある。
【0080】請求項2記載の発明によれば、制御系のニ
ューラルネットワークに2層以上の隠れ層を持たせ、1
つ以上の隠れ層にRBF関数を入出力関数に用いるニュ
ーロンを持たせるように構成したので、さらに、制御対
象の状態値の詳細な分類をすることが可能となり、より
精密な制御方法を学習することができる効果がある。
【0081】請求項3記載の発明によれば、制御系の制
御サブニューラルネットワークで制御対象の制御出力値
を決定して制御対象の制御を行い、制御系の予測サブニ
ューラルネットワークでその制御結果と制御対象の状態
値に基づいて制御結果予測誤差を算出し、制御サブニュ
ーラルネットワークと予測サブニューラルネットワーク
のシナプス結合強度の学習を、その制御結果予測誤差に
基づいて行うように構成したので、過去の履歴を考慮す
ることができ、効率よく高速に制御方法を学習すること
ができる効果がある。
【0082】請求項4記載の発明によれば、制御対象の
制御に対する評価を、制御に失敗したか否かを表す2値
信号を用いて行うように構成したので、制御対象の制御
に対する評価の判定結果に基づいて学習を行わせる際
の、制御に対する評価を簡単に得ることが可能となり、
その結果、ニューラルネットワークにより速く制御結果
の判定を与えることができるようになって、学習をより
高速に行える効果がある。
【0083】請求項5記載の発明によれば、制御対象の
制御に対する評価を、制御の成功の度合いまたは失敗の
度合いを表すアナログ信号を用いて行うように構成した
ので、制御対象の制御に対する評価の判定結果に基づい
て学習を行わせる際の、制御に対する評価をより精密に
行うことが可能となり、その結果、ニューラルネットワ
ークに制御方法をより正確に学習させることができる効
果がある。
【0084】請求項6記載の発明によれば、0で最大と
なり、その近傍でのみ有意な値を持つ関数をRBF関数
として用いるように構成したので、制御方法を効率よく
高速に学習することができる効果がある。
【図面の簡単な説明】
【図1】 この発明の実施の形態1による学習制御方法
が適用される制御装置の構成例を示すブロック図であ
る。
【図2】 この発明の実施の形態1による学習制御方法
を示すフローチャートである。
【図3】 この発明の実施の形態1によって学習した場
合の制御時間の変化を示す説明図である。
【図4】 図1における隠れ層のニューロンの入出力関
数を全てシグモイド関数としたニューラルネットワーク
で学習した場合の制御時間の変化を示す説明図である。
【図5】 この発明の実施の形態2による学習制御方法
が適用される制御装置の構成例を示すブロック図であ
る。
【図6】 この発明の実施の形態2による学習制御方法
を示すフローチャートである。
【図7】 従来の学習方法が適用される制御装置の構成
例を示すブロック図である。
【図8】 従来の学習制御方法を示すフローチャートで
ある。
【符号の説明】
1 制御対象、2 制御サブニューラルネットワーク
(制御系)、3,12入力層、5,13 出力層、6,
14 隠れ層、10,15 内部状態記憶層、11 予
測サブニューラルネットワーク(制御系)。

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 制御対象の状態を測定した測定結果に基
    づいて、前記制御対象の制御方法を学習してその制御を
    行う学習制御方法において、 内部状態記憶層を構成するニューロンを持ち、入出力関
    数としてラディアル・ベイシズ・ファンクションを用い
    るニューロンを隠れ層に持つニューラルネットワークで
    形成されて、前記制御対象を制御する制御系に、前記制
    御対象の状態の測定結果と、前記内部状態記憶層を構成
    するニューロンからの1時刻前の出力を入力し、 それらの入力値に基づいて前記制御対象の制御を行な
    い、当該制御による前記制御対象の状態を測定して、そ
    の測定結果から前記制御対象の制御に対する評価を判定
    し、 その判定結果に基づいて、前記制御系のニューラルネッ
    トワークのシナプス結合強度を学習させ、 その学習結果に基づいて以上の処理を繰り返しつつ前記
    制御対象の制御を行なうことを特徴とする学習制御方
    法。
  2. 【請求項2】 制御対象の状態を測定した測定結果に基
    づいて、前記制御対象の制御方法を学習してその制御を
    行う学習制御方法において、 内部状態記憶層を構成するニューロンを持ち、入出力関
    数としてラディアル・ベイシズ・ファンクションを用い
    るニューロンを1つ以上の隠れ層に持つ、4層以上のニ
    ューラルネットワークで形成されて、前記制御対象を制
    御する制御系に、前記制御対象の状態の測定結果と、前
    記内部状態記憶層を構成するニューロンからの1時刻前
    の出力を入力し、 それらの入力値に基づいて前記制御対象の制御を行な
    い、当該制御による前記制御対象の状態を測定して、そ
    の測定結果から前記制御対象の制御に対する評価を判定
    し、 その判定結果に基づいて、前記制御系のニューラルネッ
    トワークのシナプス結合強度を学習させ、 その学習結果に基づいて以上の処理を繰り返しつつ前記
    制御対象の制御を行なうことを特徴とする学習制御方
    法。
  3. 【請求項3】 制御系を、それぞれが、内部状態記憶層
    を構成するニューロンを持ち、入出力関数としてラディ
    アル・ベイシズ・ファンクションを用いるニューロンを
    隠れ層に持つニューラルネットワークより成る、制御サ
    ブニューラルネットワークおよび予測サブニューラルネ
    ットワークで形成し、 前記制御サブニューラルネットワークおよび予測サブニ
    ューラルネットワークによって、制御対象の状態の測定
    結果である状態値と前記内部状態記憶層を構成するニュ
    ーロンからの1時刻前の出力より、前記制御対象の制御
    出力値および制御結果予測値を決定して、その制御出力
    値に基づいて前記制御対象を制御し、 前記制御出力値によって制御された前記制御対象の制御
    結果と状態値を予測サブニューラルネットワークに入力
    して制御結果予測誤差を算出し、 前記制御サブニューラルネットワークおよび予測サブニ
    ューラルネットワークにおいて、前記制御結果予測誤差
    に基づいたシナプス結合強度の学習を行うことを特徴と
    する請求項1または請求項2記載の学習制御方法。
  4. 【請求項4】 制御対象の制御に対する評価を判定し、
    その判定結果に基づいて制御系のニューラルネットワー
    クのシナプス結合強度を学習させる際、 前記制御に対する評価として、制御に失敗したか否かを
    表す2値信号を用いることを特徴とする請求項1から請
    求項3のうちのいずれか1項記載の学習制御方法。
  5. 【請求項5】 制御対象の制御に対する評価を判定し、
    その判定結果に基づいて制御系のニューラルネットワー
    クのシナプス結合強度を学習させる際、 前記制御に対する評価として、制御の成功の度合いある
    いは失敗の度合いを表すアナログ信号を用いることを特
    徴とする請求項1から請求項3のうちのいずれか1項記
    載の学習制御方法。
  6. 【請求項6】 隠れ層の持つニューロンに用いられるラ
    ディアル・ベイシズ・ファンクションとして、0で最大
    となり、その近傍だけで有意な値を持つ関数を用いるこ
    とを特徴とする請求項1から請求項3のうちのいずれか
    1項記載の学習制御方法。
JP8052161A 1996-03-08 1996-03-08 学習制御方法 Pending JPH09245012A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8052161A JPH09245012A (ja) 1996-03-08 1996-03-08 学習制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8052161A JPH09245012A (ja) 1996-03-08 1996-03-08 学習制御方法

Publications (1)

Publication Number Publication Date
JPH09245012A true JPH09245012A (ja) 1997-09-19

Family

ID=12907122

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8052161A Pending JPH09245012A (ja) 1996-03-08 1996-03-08 学習制御方法

Country Status (1)

Country Link
JP (1) JPH09245012A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000010098A1 (fr) * 1998-08-12 2000-02-24 Sony Corporation Machine de traitement des donnees, technique de traitement des donnees et support correspondant
US7133855B2 (en) 2002-04-08 2006-11-07 Honda Giken Kogyo Kabushiki Kaisha Behavior control apparatus and method
JP2008204437A (ja) * 2007-01-12 2008-09-04 Toyota Motor Engineering & Manufacturing North America Inc 固定型の長期及び適応型の短期メモリを有するニューラルネットワークコントローラ
JP2011212418A (ja) * 2010-07-23 2011-10-27 Mitsubishi Electric Corp 粒子線照射装置及び粒子線治療装置
CN104238365A (zh) * 2014-09-25 2014-12-24 河海大学常州校区 基于自适应神经网络控制的悬臂梁振动控制方法
JP2020190853A (ja) * 2019-05-20 2020-11-26 ヤフー株式会社 学習装置、学習方法及び学習プログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000010098A1 (fr) * 1998-08-12 2000-02-24 Sony Corporation Machine de traitement des donnees, technique de traitement des donnees et support correspondant
US7133855B2 (en) 2002-04-08 2006-11-07 Honda Giken Kogyo Kabushiki Kaisha Behavior control apparatus and method
JP2008204437A (ja) * 2007-01-12 2008-09-04 Toyota Motor Engineering & Manufacturing North America Inc 固定型の長期及び適応型の短期メモリを有するニューラルネットワークコントローラ
JP2011212418A (ja) * 2010-07-23 2011-10-27 Mitsubishi Electric Corp 粒子線照射装置及び粒子線治療装置
CN104238365A (zh) * 2014-09-25 2014-12-24 河海大学常州校区 基于自适应神经网络控制的悬臂梁振动控制方法
JP2020190853A (ja) * 2019-05-20 2020-11-26 ヤフー株式会社 学習装置、学習方法及び学習プログラム

Similar Documents

Publication Publication Date Title
JPH04227507A (ja) 移動ロボット用のマップを作成し保持する方法
Bernstein et al. Reinforcement learning for computer vision and robot navigation
Jia et al. A coach-based bayesian reinforcement learning method for snake robot control
Shakhovska et al. The neurocontroller for satellite rotation
JPH09245012A (ja) 学習制御方法
Zhang et al. Dynamic learning-based fault tolerant control for robotic manipulators with actuator faults
CN112388620B (zh) 一种用于气动肌肉驱动系统的轨迹跟踪控制算法
Evans et al. Reward signal design for autonomous racing
Shi et al. Neural network-based iterative learning control for trajectory tracking of unknown SISO nonlinear systems
Hu et al. Incremental learning framework for autonomous robots based on q-learning and the adaptive kernel linear model
Lee et al. Early failure detection of deep end-to-end control policy by reinforcement learning
Chen et al. Learning trajectories for visual-inertial system calibration via model-based heuristic deep reinforcement learning
Shukla et al. UBOL: User-Behavior-aware one-shot learning for safe autonomous driving
CN114193458B (zh) 一种基于高斯过程在线学习的机器人控制方法
Samant et al. Adaptive learning of dynamic movement primitives through demonstration
Zhou et al. Deep reinforcement learning with long-time memory capability for robot mapless navigation
Suykens et al. Neural control theory: an overview
CN115081612A (zh) 用以改进机器人策略学习的设备和方法
Hill et al. Neuroevolution with CMA-ES for Real-time Gain Tuning of a Car-like Robot Controller.
Raj et al. Deep neural network approach for navigation of autonomous vehicles
JP2674167B2 (ja) 神経回路網モデルを用いたプロセス制御方法
Li et al. Lateral state estimation of preceding target vehicle based on multiple neural network ensemble
JPH08115309A (ja) 学習制御方法
US20240028903A1 (en) System and method for controlling machine learning-based vehicles
Petrova-Dimitrova Reinforcement learning algorithms using for agent behaviour modelling and researching