JP3271544B2 - 学習制御方法 - Google Patents

学習制御方法

Info

Publication number
JP3271544B2
JP3271544B2 JP05034697A JP5034697A JP3271544B2 JP 3271544 B2 JP3271544 B2 JP 3271544B2 JP 05034697 A JP05034697 A JP 05034697A JP 5034697 A JP5034697 A JP 5034697A JP 3271544 B2 JP3271544 B2 JP 3271544B2
Authority
JP
Japan
Prior art keywords
control
learning
module
result
control module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP05034697A
Other languages
English (en)
Other versions
JPH10247102A (ja
Inventor
訓 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP05034697A priority Critical patent/JP3271544B2/ja
Publication of JPH10247102A publication Critical patent/JPH10247102A/ja
Application granted granted Critical
Publication of JP3271544B2 publication Critical patent/JP3271544B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、振る舞いが複雑で
その動作の同定が困難な動的システムのような制御対象
の制御を、学習によってその制御法を獲得しつつ制御す
る学習制御方法、例えば、学習によって変化可能なニュ
ーラルネットワークが適用される学習制御方法に関する
ものである。
【0002】
【従来の技術】図9は例えば、文献(「ロボティックス
アンド オートノマス システムズ(Robotics and Au
tonomous Systems)」第15号(1995)、第247〜27
4ページ)に示された、従来のニューラルネットワーク
を用いた学習制御方法が適用される制御装置の一例を示
すブロック図である。図9において、1は例えば2自由
度のマニピュレータなどの制御対象、2はこの制御対象
1を制御する制御系を形成する制御モジュール、4は制
御モジュール2を形成する各々の学習型制御モジュー
ル、5は適切な制御モジュールを選択する選択モジュー
ル、6は基本制御課題と複合制御課題の間のQ値の違い
を補償するためのバイアス値を計算するバイアスモジュ
ールである。
【0003】次に動作について説明する。ここで、図1
0は図9に示した制御装置に適用される従来の学習制御
方法を示すフローチャートである。まず、ステップST
110において、ニューラルネットワークのシナプス結
合強度に初期値を代入し、初期化する。次にステップS
T111において、制御モジュール2の各学習型制御モ
ジュール4及び選択モジュール5に制御対象1の状態値
を入力する。この制御課題では、各リンクの角度と角速
度を入力する。各状態値は最小値と最大値を用いて規格
化し、0〜1の間の値として入力する。
【0004】次にステップST112において、各学習
型制御モジュールの各出力に対するQ値を計算する。こ
こで、Q値とは、現在の状態にある制御を行った場合の
制御結果を予測する制御結果予測値である。Q値の計算
には、前記文献に記載のCerebellar Model Arithmetic
Computer(CMAC)を用いるとすると、Q値の計算を以
下のように行なう。CMACの各ニューロンは、入力空
間のある領域を受容野として持ち、入力値が受容野内に
ある時は1を出力し、その他の場合には0を出力する。
各ニューロンの受容野が互いに重ならず入力空間全体を
おおうようにニューロンを配置する。通常は入力空間を
一定に分割して各ニューロンの受容野とする。入力空間
全体をおおうように配置したCMACのニューロンのセ
ットをタイルと呼ぶ。CMACではこのタイルを複数用
意して入力を処理する。各タイルのニューロンの受容野
は少しずつずれているので、各タイルで活動するニュー
ロンのパターンによって入力を細かく分類でき、優れた
分解能で迅速に処理することができる。学習型制御モジ
ュールでは、ある出力で制御した場合の制御結果を予測
するQ値を計算し、それに基づいて出力を決定する。k
番目のタイルのj番目のニューロンの時刻tでの出力をy
(k,j,t)とする。モジュールmの状態ベクトルx、出力aに
対するQ値Q(m,x,a,t)を次式で計算する。 Q(m,x,a,t)=Σk,j w(m,a,k,j,t)y(k,j,t) (1) ここで、w(m,a,k,j,t)は制御モジュールmのk番目のタイ
ルのj番目のニューロンの出力aに対するシナプス結合強
度である。
【0005】次にステップST113において、選択モ
ジュールの出力を計算する。選択モジュールでは、制御
モジュールmを選択する確率g(m,t)を計算する。 g(m,t)=exp(s(m,t))/Σnexp(s(n,t)) s(m,t)=Σk,j w(m,k,j,t)y(k,j,t) (2) ここで、w(m,k,j,t)はのk番目のタイルのj番目のニュー
ロンnの制御モジュールmに対する選択モジュールのシナ
プス結合強度である。続いて、バイアスモジュールの出
力K(t)を計算する。バイアスモジュールの出力は入力さ
れた状態には依存しないで、与えられた制御課題だけに
依存する。次にステップST114において、制御出力
値を決定する。まず、制御モジュールは、(2)式の確率g
(m,t)で制御モジュールmを確率的に選択する。制御モジ
ュールmでは、出力a(t)を次式で与えられる確率p(m,a,
t)で確率的に選択する。 p(m,a,t)=exp(Q(m,x,a,t)/Tm)/Σb exp(Q(m,x,b,t)/Tm) (3) ここで、Tmは出力選択のQ値への依存性の度合いを決定
する定数である。次にステップST115において、選
択された学習型制御モジュールの出力に対応したトルク
を加え、マニピュレータを制御する。次にステップST
116において制御結果を入力する。制御結果R(t)は例
えば次式で与えられる。 R(t) =0.5+0.5*exp(-(Σi|dθi/dt|):目標地点に到達した場合 = -0.025*|dθ/dt| :障害に衝突した場合 = -0.05 :角速度絶対値が10rad/sを越えた場合 (4)
【0006】次にステップST117でシナプス結合強
度の学習をする。目標のQ値(qdes(t))を次式で計算す
る。 qdes(t)=R(t)+maxa(t+1)Q(sel(t+1),x,a,t+1)+K(t+1)-K(t) (5) 目標のQ値が制御モジュールmで出力される確率は次式
で計算される。 p(qdes(t)|m)=(1/((2π)N/2σm N))*exp(-(1/2σm 2)(|qdes(t)|-|Q(m,x,a,t)|) (6) ここで、σmはモジュールmの出力の標準偏差、Nは出力
の個数である。逆に、qdes(t)が与えられたとき、制御
モジュールmを選択する確率は次式で計算される。 p(m|qdes(t))=(g(m,t) p(qdes(t)|m))/(Σn g(n,t) p(qdes(t)|n)) (7) 対数尤度l(qdes(t))は次式で計算される。 l(qdes(t))=logΣn g(n,t) p(qdes(t)|n) (8) 対数尤度が最大になるように、最急登坂法で学習する。
各シナプス結合強度を次式で更新する。 w(m,a,k,j,t+1)= w(m,a,k,j,t) + αq(∂l(qdes(t))/∂Q(m,x,a,t))y(k,j,t) w(s,k,j,t+1)= w(s,k,j,t) + αs(∂l(qdes(t))/∂s(m,t)) y(k,j,t) ∂l(qdes(t))/∂Q(m,x,a,t) =(1/σm 2) p(m| qdes(t))(qdes(t)-Q(m,x,a,t)) ∂l(qdes(t))/∂s(m,t)= p(m| qdes(t))(1−g(m,
t)) (9) ここで、α,αsは前回の制御結果を次回の制御に反
映する度合を決める学習定数、sel(t)は時刻tで選択し
た制御モジュールである。
【0007】次にステップST118において制御結果
が成功であるか失敗であるかの判定を行ない、制御結果
が失敗の場合には、制御を中止して、マニピュレータの
状態を制御開始の状態に戻し、ステップST111に戻
り、制御が成功するまで制御学習を続ける。このように
して、多数回の試行によって、マニピュレータを目標の
位置に移動させる制御を学習することが可能になる。
【0008】
【発明が解決しようとする課題】従来の学習制御方法は
以上のように構成されているので、全ての状態に対し
て、各学習制御モジュール4における制御と選択モジュ
ール5におけるモジュール選択を同時に学習しなければ
ならないので、多数の試行回数が必要であるという問題
点があった。また、初期状態で暫定的な制御ができる制
御法を利用することができないので、学習の効率が悪い
という問題点があった。
【0009】本発明は上記のような問題点を解決するた
めになされたもので、固定型制御モジュールで制御可能
な範囲を固定型制御モジュールで制御し、固定型制御モ
ジュールで制御困難な範囲を学習型制御モジュールで学
習し、複雑な制御を少数の試行回数で学習できる学習制
御法を得ることを目的とする。
【0010】
【課題を解決するための手段】第1の発明に係わる学習
制御方法は、学習型制御モジュールと共に、既知知識を
用いた固定型制御モジュールを用いているので、既知の
状態での制御を学習する必要が無く、未知の状態だけを
学習型制御モジュールで学習するものである。
【0011】第2の発明に係わる学習制御方法は、制御
モジュール選択の学習を制御結果予測値の誤差を最小に
することによって行なうものである。
【0012】第3の発明に係わる学習制御方法は、制御
モジュール選択の学習を尤度を最大にすることによって
行なうものである。
【0013】第4の発明に係わる学習制御方法は、既知
知識のもとづく固定制御によって制御した経験を選択モ
ジュールの初期設定に生かすものである。
【0014】
【発明の実施の形態】
実施の形態1.以下、本発明の実施の形態1を図を用い
て説明する。ここで、制御対象である2足歩行ロボット
モデルについて説明する。今回の制御対象は図1のよう
な足首や膝のない竹馬型の2足歩行ロボットである。各
脚を2方向に回転させるモータが付いているが、トルク
が小さいので、ロボットを支持している支持脚の運動を
コントロールすることはできず、床に着いていない脚
(遊脚)の運動をコントロールできるだけである。片脚
でロボットを支持している時(片脚支持期)、前後方向
(ピッチ軸周り)と左右方向(ロール軸周り)の運動が
独立であるとすると、文献(「日本機械学会論文集(C
編)」第48号(1982)、第1445ページから1455ページ)
に示されたように、支持脚の運動は次の運動方程式で表
される。 α1(d2θ/dt2)-α8(d2φ/dt2)sin(θ-φ)-α2(d2ψ/dt2)cos(θ-ψ)= -α8(dφ/dt)2cos(θ-φ)+α2(dψ/dt)2sin(θ-ψ)+α3sin(θ)-u18(d2θ/dt2) sin(θ-φ)+α4(d2φ/dt2)-α9(d2ψ/dt2)sin(φ-ψ)= α8(dθ/dt)2cos(θ-φ)-α9(dψ/dt)2cos(φ-ψ)-α5sin(φ)+u1-u22(d2θ/dt2) cos(θ-ψ)-α9(d2φ/dt2)sin(φ-ψ)+α6(d2ψ/dt2)= -α2(dθ/dt)2sin(θ-ψ)+α9(dφ/dt)2cos(φ-ψ) -α7sin(ψ)+u2 β1(d2η/dt2)-β2(d2ζ/dt2)cos(η-ζ)= β2(dη/dt)2sin(η-ζ)+β3sin(η)-u32(d2η/dt2)cos(η-ζ)+β4(d2ζ/dt2)= -β2(dζ/dt)2sin(η-ζ)-β5sin(ζ)+u α=I+M(q +L)+M α2=MrprL α3=[Mr(qr+L)+MbL]g α4=Ib+4Mrr2+Mbr2 α5=(2Mr+Mb)gr α6=Ir+Mrpr 2 α7=Mrgpr α8=(Mb+2Mr)rL α9=2Mrprr β1=Mpqp 2+Ip+MqL2 β2=MqLpq β3=(Mpqp+MqL)g β4=Iq+Mqpq 2 β5=Mqgpq (10) ここで、Mb, Mr, Mp, Mqはそれぞれ、胴体、脚、支持
脚、遊脚の重さ、Ib, Ir,Ip, Iqはそれぞれ、胴体、
脚、支持脚、遊脚の慣性モーメント、φは股関節のロー
ル角、θ,ψはそれぞれ支持脚と遊脚のロール角、η,
ζはそれぞれ支持脚と遊脚のピッチ角、Lは脚の長さ、p
r, qr, pq, qpはそれぞれ、腰から脚の重心までの距
離、脚先から脚の重心までの距離、腰から遊脚の重心ま
での距離、脚先から支持脚の重心までの距離、rは腰か
ら胴体の重心までの距離、gは重力加速度、u1,u2,u3
制御のためにモーターに加えるトルクである。モデルの
スケールは、脚長Lを1mとしている。
【0015】遊脚が着地し、支持脚を交換する時の条件
は以下のようである。各変数の交換前と交換後の状態値
をそれぞれb,aの下付きの記号で表す。 θab φab+π or φb-π ψaba/dt=kd(dθb/dt) dψa/dt=kd(dθb/dt) dφa/dt=kd(dφb/dt) ηab ζaba/dt=dηb/dt dζa/dt=dηb/dt (11) ここで、kdは脚交換時の角速度の減衰定数である。支持
脚が直立に近い場合には、支持脚の動きを倒立振り子で
近似することができるので、遊脚を以下に示す目標角度
になるようにPD制御すれば、足踏みや歩行をすること
ができる。 φ’=θ+ω+ε or π-(ω+ε)+θ ψ’=θ+2ω (1
2) ζ’=−A(dη/dt)+δ A=(L/g)1/2 (13) ここで、φ’,ψ’,ζ’は遊脚の目標角度、ωは脚と腰
の間の目標の角度、εは安定したロール軸周りのリズム
を形成するための定数、δは歩行速度を指定するために
設定する定数である。上記の制御法で、例えばω=7゜,
ε=1.3゜とすると、平らな床面であれば安定して歩行す
ることができるが、床面に段差があると、歩行のリズム
が変化して不安定になり、転倒してしまい、制御できな
くなる。例えば、δ=0.05で歩行させ、開始位置から1m
と2mの間に2.7mmの段差があると、(12)式と(13)式の制
御では段差の所で転倒してしまう。以下では、この条件
で歩行できる制御を学習させた。
【0016】図2は本発明の実施の形態1による学習制
御方法が適用される制御装置の構成例を示すブロック図
である。図において、1は例えば上記の2足歩行ロボッ
トなどの制御対象、2は制御モジュール、3は固定型制
御モジュール、4は学習型制御モジュール、5は選択モ
ジュールである。
【0017】次に動作について説明する。ここで、図3
は図2に示した制御装置に適用される本発明の実施の形
態1による学習制御方法を示すフローチャートである。
まず、ステップST10において、シナプス結合強度に
初期値を代入し、初期化する。次に、ステップST11
において、制御対象1から当該制御対象1の状態を表す
状態値を各種センサを用いて検出し、入力する。本実施
の形態では、2足歩行ロボットの脚交換直後のピッチ軸
周りの支持脚の角度と角速度(η,dη/dt)を入力する。
得られた状態値をそれぞれの最大値と最小値を用いて0
〜1の間に規格化した後、制御モジュール2と選択モジ
ュール5に入力する。次にステップST12において学
習型制御モジュール4の各出力に対するQ値とシナプス
結合強度の学習に用いる変数e(m,a,k,j,t)を計算する。
本実施の形態では学習型制御モジュール4と選択モジュ
ール5の計算はCMACニューラルネットワークを用い
て行なう。 Q(m,x,a,t)=Σk,jw(m,a,k,j,t)y(k,j,t) e(m,a,k,j,t) =y(k,j,t) :制御モジュールm、出力aが選択された場合 =λae(m,a,k,j,t-1) :その他 (14) ここで、w(m,a,k,j,t)は制御モジュールm、k番目のタイ
ルのj番目のニューロンの出力aに対するシナプス結合強
度、λaは減衰定数である。次にステップST13にお
いて、選択モジュール5の制御モジュール選択に対する
Q値Q(x,m,t)とシナプス結合強度の学習に用いるe(m,k,
j,t)を計算する。 Q(x,m,t)= Σk,jw(m,k,j,t)y(k,j,t) e(m,k,j,t) =y(k,j,t) :mが選択した制御モジュールの場合 =λme(m,k,j,t-1) :その他 (15) ここで、 w(m,k,j,t)はk番目のタイルのj番目のニュー
ロンの制御モジュールmの選択に対するシナプス結合強
度、λmは減衰定数である。
【0018】次にステップST14において、制御出力
値を決定する。まず、選択モジュール5のモジュール選
択のQ値Q(x,m,t)に基づき、最大のQ値を示す制御モジ
ュール2を選択する。選択した制御モジュール2が固定
型制御モジュール3の場合には、(12)式、(13)式で制御
する。学習型制御モジュール4の場合には、(14)式で計
算した学習型制御モジュール4の各出力に対するQ値Q
(m,x,a,t)に基づき、最大のQ値を示す制御モジュール
を選択し、このモジュールの出力を制御モジュール2全
体の出力とする。ここでは、ロール軸周りの制御は固定
型制御モジュール3と同様に(12)式で制御する。ピッチ
軸周りの制御は次式で計算する。 ζ’= - kadη/dt+δ (16) kaは学習型制御モジュール4の出力であり、あらかじめ
設定した数種類の数値(例えば0,A,2A)の中から計算に
もとづいて選択する。次にステップST15において、
計算した目標角度に基づき、PD制御で2足歩行ロボッ
トを制御する。次にステップST16において、次ステ
ップの学習過程で用いる制御結果R(t)を入力する。ここ
では、2足歩行ロボットが転倒した場合はR(t)を負の値
(例えば-1)とし、その他の場合にR(t)=0とする。
【0019】次にステップST17において、シナプス
結合強度を学習する。選択モジュール5のシナプス結合
強度を以下のように学習する。シナプス結合強度の学習
に用いる誤差Em(t)を次式で計算する。 Em(t)=R(t)+Q(x,sel(t),t)-Q(x,sel(t-1),t-1) (17) ここで、sel(t)は時刻tに制御モジュール2の中から選
択した制御モジュールを表す。シナプス結合強度を次式
で更新する。 w(m,k,j,t)=w(m,k,j,t-1)+αmEm(t)e(m,k,j,t) (18) ここで、αmは学習定数である。学習型制御モジュール
4のシナプス結合強度を以下のように学習する。時刻t-
1に学習型制御モジュール4を選択した場合には、学習
型制御モジュール4のシナプス結合強度の学習を行な
う。学習に用いる誤差Ea(t)を次式で計算する。 Ea(t) =R(t)-Q(sel(t-1),x,perform(t-1),t-1) :制御を失敗した場合 =R(t)+Q(x,sel(t),t)-Q(sel(t-1),x,perform(t-1),t-1) :時刻tで固定型制御モジュール3を選択した場合 =R(t)+Q(sel(t),x,perform(t),t)-Q(sel(t-1),x,perfom(t-1),t-1) :時刻tで学習型制御モジュール4を選択した場合 (19) ここで、perform(t)は時刻tで選択した出力を表す。シ
ナプス結合強度を次式で更新する。 w(m,a,k,j,t)=w(m,a,k,j,t-1)+αaEa(t)e(m,a,k,j,t) (20) ここで、αaは学習定数である。次にステップST18
において制御結果が成功であるか失敗であるかの判定を
行ない、制御結果が失敗の場合には、制御を中止して、
2足歩行ロボットの状態を制御開始の状態に戻し、ステ
ップST11に戻り、制御が成功するまで制御学習を続
ける。
【0020】このような試行を繰り返すことによって、
2足歩行ロボットを長時間歩行できる制御を学習するこ
とが可能になる。この学習を行なうためのパラメーター
としては、例えば、次の値を用いる。 λm=0.0 λa=0.3 αm=0.01 αa=0.02 また、タイル数5、各タイルの構成(12×12)のCMA
Cを用い、学習型制御モジュール4の出力数3(ka=0,A,
2Aの3種類)とする。学習型制御モジュール4と選択モ
ジュール5の固定型制御モジュール3に対するシナプス
結合強度を全て0、選択モジュール5の学習型制御モジ
ュール4に対するシナプス結合強度を-0.2として学習を
開始した。
【0021】ここで図4は、上記の初期値から開始し
て、本実施の形態1による学習制御方法によって学習し
た場合の、学習された制御方法によって制御された2足
歩行ロボットの歩いた平均の歩数の変化を示したもので
ある。各試行は0mからスタートし、倒れるか50歩歩
行するまで続け、3回連続して50歩歩行できた場合に
は学習完了とした。図4には10回の学習の平均の歩数
の変化を示した。また、図5は、図9に示す従来技術に
より学習型制御モジュール4のみで制御学習した場合の
平均の歩数の変化を示したものである。図4、5を比較
すると、固定型制御モジュール3と学習型制御モジュー
ル4を組み合わせることにより、学習型制御モジュール
4のみの場合より、少数の試行回数で学習が可能である
ことがわかる。また、学習型制御モジュール4のみの場
合より平均の歩数が増加しているので、安定な制御を学
習できた割合が大きく、本実施の形態の方が確実に制御
を学習できることがわかる。
【0022】実施の形態2.次に、実施の形態2を図を
用いて説明する。制御装置の構成は実施の形態1と同一
で図2に示されている。次に動作について説明する。フ
ローチャートも実施の形態1と同一で、図3に示されて
いる。まず、ステップST10において、シナプス結合
強度に初期値を代入し、初期化する。次に、ステップS
T11において、制御対象1から当該制御対象1の状態
を表す状態値を各種センサを用いて検出する。本実施の
形態でも実施の形態1と同様に、2足歩行ロボットの脚
交換直後のピッチ軸周りの支持脚の角度と角速度を入力
する。得られた状態値を最大値と最小値を用いて0〜1
の間に規格化した後、制御モジュール2と選択モジュー
ル5に入力する。
【0023】次にステップST12において学習型制御
モジュールmの出力aに対するQ値Q(m,x,a,t)を計算す
る。本実施の形態では学習型制御モジュール4と選択モ
ジュール5の計算はCMACニューラルネットワークを
用いて行なう。 Q(m,x,a,t)=Σk,jw(m,a,k,j,t)y(k,j,t) (21) また、固定型制御モジュール3のQ値Qu(x,t)を次式で
計算する。 Qu(x,t)=Σk,jwu(k,j,t)y(k,j,t) (22) ここで、 wu(k,j,t)は固定型制御モジュール3のタイル
kのj番目のニューロンに対するシナプス結合強度であ
る。次にステップST13において、選択モジュール5
の出力を計算する。 g(m,t)=exp(s(m,t))/Σnexp(s(n,t)) s(m,t)=Σk,j w(s,k,j,t)y(k,j,t) (23)
【0024】次にステップST14において、制御出力
値を決定する。まず、制御モジュール2は、確率g(m,t)
で制御モジュールmを確率的に選択する。選択した制御
モジュール2が固定型制御モジュール3の場合には、(1
2)式、(13)式で制御する。学習型制御モジュール4が選
択された場合には、(21)式で計算した学習型制御モジュ
ール4の各出力に対するQ値Q(m,x,a,t)に基づき、最大
のQ値を示す制御モジュールを選択し、このモジュール
の出力を制御モジュール2全体の出力とする。ここで
は、ロール軸周りの制御は固定型制御モジュール3と同
様に(12)式で制御する。ピッチ軸周りの制御は実施の形
態1の場合と同様に(16)式で計算する。次にステップS
T15において、計算した目標角度に基づき、PD制御
で2足歩行ロボットを制御する。次にステップST16
において、制御結果R(t)を入力する。ここでは、2足歩
行ロボットが転倒した場合にR(t)=-1、その他の場合にR
(t)=0とする。
【0025】次にステップST17において、シナプス
結合強度の学習をする。目標のQ値(qdes(t))を次式で
計算する。 qdes(t) =R(t)+Qu(x,t+1) :固定型制御モジュール =R(t)+maxa(t+1)Q(sel(t+1),x,a,t+1) :学習型制御モジュール (24) 目標のQ値が制御モジュールmで出力される確率は次式
で計算される。 p(qdes(t)|m)=(1/((2π)N/2σm N))*exp(-(1/2σm 2)(|qdes(t)|-|Q(m,x,a,t)|) (25) ここで、σmはモジュールmの出力の標準偏差、Nは出力
の個数である。逆に、qdes(t)が与えられたとき、制御
モジュールmを選択する確率は次式で計算される。 p(m|qdes(t))=(g(m,t) p(qdes(t)|m))/(Σng(n,t) p(qdes(t)|n)) (26) 対数尤度l(qdes(t))は次式で計算される。 l(qdes(t))=logΣn g(n,t) p(qdes(t)|n) (27) 対数尤度が最大になるように、最急登坂法で各シナプス
結合強度を次式で更新する。 w(m,a,k,j,t+1)= w(m,a,k,j,t) +αq(∂l(qdes(t))/∂Q(m,x,a,t))y(k,j,t) w(u,k,j,t+1)=w(u,k,j,t)+αu(∂l(qdes(t))/∂Qu(x,t)) y(k,j,t) w(s,k,j,t+1)= w(s,k,j,t) + αs(∂l(qdes(t))/∂s(m,t)) y(k,j,t) ∂l(qdes(t))/∂Q(m,x,a,t) =(1/σm 2) p(m| qdes(t))(qdes(t)-Q(m,x,a,t)) ∂l(qdes(t))/∂Qu(x,t)= (1/σm 2) p(u| qdes(t))(qdes(t)-Qu(x,t)) ∂l(qdes(t))/∂s(m,t)= p(m| qdes(t))(1-g(m,t)) (28) ここで、αqsuは学習定数、sel(t)は時刻tで選択
したモジュールである。次にステップST18において
制御結果が成功であるか失敗であるかの判定を行ない、
制御結果が失敗の場合には、制御を中止して、2足歩行
ロボットの状態を制御開始の状態に戻し、ステップST
11に戻り、制御が成功するまで制御学習を続ける。
【0026】このような試行を繰り返すことによって、
2足歩行ロボットが長時間歩行できる制御を学習するこ
とが可能になる。この学習を行なうためのパラメーター
としては、例えば次の値を用いる。 αm=0.01 αa=0.02 αu=0.02 σm=1 N=1 また、タイル数5、各タイルの構成(12×12)のCMA
Cを用い、学習型制御モジュール4の出力数3(ka=0,A,
2Aの3種類)とする。学習型制御モジュール4と選択モ
ジュール5のシナプス結合強度を全て0として学習を開
始した。
【0027】図6は本実施の形態2による学習制御方法
によって学習した場合の、学習された制御方法によって
制御された2足歩行ロボットの歩いた平均の歩数の変化
を示したものである。制御モジュール2の選択が学習さ
れ、長時間歩行できるように学習されている。
【0028】実施の形態3.次に、実施の形態3を図を
用いて説明する。制御装置の構成は実施の形態1と同一
で図2に示されている。次に動作について説明する。図
7は図2に示した制御装置に適用される本発明の実施の
形態3による学習制御方法を示すフローチャートであ
る。この実施の形態では、学習制御を実施する前に、固
定型制御方法だけを用いて、前学習を行なう。この前学
習の結果を、選択モジュール5の初期値に用いる。ま
ず、固定型制御法だけで制御を行ない、固定型制御法で
制御が困難な状態の範囲を知る。学習型制御モジュール
4と同一のニューラルネットワーク構成のCMACニュ
ーラルネットワークを用意し、固定型制御モジュール3
の制御によるQ値を学習する。
【0029】まず、ステップST1において、2足歩行
ロボットの状態を表す状態値を入力する。実施の形態1
と同様に、ピッチ軸周りの足交換直後の支持脚の角度と
角速度を入力する。次に、ステップST2において、そ
の状態値のQ値をCMACニューラルネットワークを用
いて、次式で計算する。 Q(x,t)=Σk,jwp(k,j,t)y(k,j,t) (29) ここで、wp(k,j,t)は、k番目のタイルのj番目のニュー
ロンに対するシナプス結合強度である。次にステップS
T3において、(12)式、(13)式で2足歩行ロボットを制
御する。次にステップST4において、制御結果R(t)を
入力する。ここでは、2足歩行ロボットが転倒した場合
にR(t)=-1、その他の場合にR(t)=0とする。
【0030】次にステップST5において、シナプス結
合強度の学習を行なう。シナプス結合強度の学習に用い
る誤差E(t)を次式で計算する。 E(t)=R(t+1)+γQ(x,t+1)-Q(x,t) (30) ここで、γは減衰定数(例えば、γ=0.9)である。シナプ
ス結合強度を次式で更新する。 w(k,j,t+1)=wp(k,j,t)+αpE(t)y(k,j,t) (31) ここで、αpは学習定数である(例えば、αp=0.02)。 次にステップST6において、制御結果が成功であるか
失敗であるかを判定し、成功であればステップST1に
戻り、制御を繰り返す。失敗の場合には制御を中止し、
ステップST7において、試行回数を調べ、試行回数が
不充分な場合には2足歩行ロボットの状態を制御開始の
状態に戻し、前学習を繰り返す。所定の試行回数を実行
した後の場合には、前学習の結果を記録し、前学習を終
了する。次にステップST10で前学習の結果のシナプ
ス結合強度を選択モジュール5の固定型制御モジュール
3に対するシナプス結合強度として読み込む。また、学
習型制御モジュール4に対する初期値は一定値(例え
ば、-0.08)とする。ステップST10以降は実施の形態
1の制御学習法と同一である。
【0031】図8は、本実施の形態3による学習制御方
法によって学習した場合の、学習された制御方法による
2足歩行ロボットの歩行した平均の歩数の変化を示した
ものである。図4と比較することにより、固定型制御モ
ジュール3で実際に制御した結果を用いることにより、
固定型制御モジュール3で制御可能な範囲と制御困難な
範囲を知ることができ、制御モジュール選択を少数の試
行回数で学習することができることがわかる。また、平
均の歩数も増加しており、より確実に制御を学習できる
こともわかる。
【0032】なお、上記実施の形態ではステップST1
0以降は実施の形態1の制御学習法と同一とした場合に
ついて説明したが、実施の形態2の制御学習方法と同一
としてもよい。
【0033】実施の形態4.なお、上記各実施の形態で
は、制御モジュール2の出力が1つである場合を示した
が、同様な方法によって制御出力が2つ以上の場合にも
適用できることはいうまでもない。さらに、適用される
制御対象1も、2足歩行ロボットばかりでなく、多リン
クのマニピュレータなどの一般のロボットにも適用可能
である。また、上記各実施の形態では、CMACニュー
ラルネットワークを用いた場合について説明したが、Si
gmoid関数を用いたフィードフォワードニューラルネッ
トワークやradial basis function 関数を用いたフィー
ドフォワードニューラルネットワークで計算してもよ
い。
【0034】
【発明の効果】以上のように、第1の発明によれば、制
御対象の状態および前記制御対象を制御した結果の状態
に基づいて、前記制御対象の制御を学習して制御する学
習制御方法において、既知知識を用いて固定的な制御を
行なう固定型制御モジュールと、制御結果を予測する制
御結果予測値を計算し、その制御結果予測値に基づいて
出力を決定し、その出力にもとづいて前記制御対象を制
御した結果から前記制御対象の制御を学習する学習型制
御モジュールを一個以上と、前記各制御モジュールの選
択に対応する制御結果予測値を計算し、それらの制御結
果予測値に基づいて採用する制御モジュールを選択し、
前記制御対象を制御した結果から前記各制御モジュール
の選択を学習する選択モジュールとから構成されて前記
制御対象を制御する制御系を備え、該制御系に前記制御
対象の状態の測定結果を入力する第1処理、その入力値
に基づいて前記制御対象の制御を行なって、当該制御に
よる前記制御対象の状態を測定する第2処理、その測定
結果から前記制御対象の制御の結果に対する評価を判定
する第3処理、およびその判定結果に基づいて前記制御
系を学習させる第4処理をそれぞれ施し、その学習結果
に基づいて前記第1〜第4処理を繰り返しつつ前記制御
対象の制御を行なうので、不必要な学習をすることな
く、制御を少数の試行回数で学習することができる効果
がある。
【0035】また、第2の発明によれば、前記選択モジ
ュールでは、制御結果予測値の誤差を最小にすることに
よって前記制御モジュールの選択を学習するので、制御
モジュール選択を効率よく学習できる効果がある。
【0036】また、第3の発明によれば、前記選択モジ
ュールでは、モジュール選択の尤度を最大にすることに
よって前記制御モジュールの選択を学習するので、制御
モジュール選択を効率よく学習できる効果がある。
【0037】また、第4の発明によれば、選択モジュー
ルでは、固定型制御モジュールで制御を行なった結果か
ら、前記選択モジュールの初期状態を設定するので、制
御モジュール選択を少数の試行回数で学習できる効果が
ある。
【図面の簡単な説明】
【図1】 竹馬型2足歩行ロボットの構造を示す説明図
である。
【図2】 本発明の実施の形態1による学習制御方法が
適用される制御装置の構成例を示すブロック図である。
【図3】 上記実施の形態1による学習制御方法を示す
フローチャートである。
【図4】 上記実施の形態1によって学習した場合の平
均の歩行歩数の変化を示す説明図である。
【図5】 学習型制御モジュールだけで学習した場合の
平均の歩行歩数の変化を示す説明図である。
【図6】 本発明の実施の形態2によって学習した場合
の平均の歩行歩数の変化を示す説明図である。
【図7】 本発明の実施の形態3による学習制御方法を
示すフローチャートである。
【図8】 上記実施の形態3によって学習した場合の平
均の歩行歩数の変化を示す説明図である。
【図9】 従来の学習制御方法が適用される制御装置の
構成例を示すブロック図である。
【図10】 従来の学習制御方法を示すフローチャート
である。
【符号の説明】
1 制御対象(動的システム)、 2 制御モジュー
ル、 3 固定型制御モジュール、 4 学習型制御モ
ジュール、 5 選択モジュール、 6 バイアスモジ
ュール。

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】 制御対象の状態および前記制御対象を制
    御した結果の状態に基づいて、前記制御対象の制御を学
    習して制御する学習制御方法において、既知知識を用い
    て固定的な制御を行なう固定型制御モジュールと、制御
    結果を予測する制御結果予測値を計算し、その制御結果
    予測値に基づいて出力を決定し、その出力にもとづいて
    前記制御対象を制御した結果から前記制御対象の制御を
    学習する学習型制御モジュールを一個以上と、前記各制
    御モジュールの選択に対応する制御結果予測値を計算
    し、それらの制御結果予測値に基づいて採用する制御モ
    ジュールを選択し、前記制御対象を制御した結果から前
    記各制御モジュールの選択を学習する選択モジュールと
    から構成されて前記制御対象を制御する制御系を備え、
    該制御系に前記制御対象の状態の測定結果を入力する第
    1処理、その入力値に基づいて前記制御対象の制御を行
    なって、当該制御による前記制御対象の状態を測定する
    第2処理、その測定結果から前記制御対象の制御の結果
    に対する評価を判定する第3処理、およびその判定結果
    に基づいて前記制御系を学習させる第4処理をそれぞれ
    施し、その学習結果に基づいて前記第1〜第4処理を繰
    り返しつつ前記制御対象の制御を行なうことを特徴とす
    る学習制御方法。
  2. 【請求項2】 前記選択モジュールでは、制御結果予測
    値の誤差を最小にすることによって前記制御モジュール
    の選択を学習することを特徴とする請求項1記載の学習
    制御方法。
  3. 【請求項3】 前記選択モジュールでは、モジュール選
    択の尤度を最大にすることによって前記制御モジュール
    の選択を学習をすることを特徴とする請求項1記載の学
    習制御方法。
  4. 【請求項4】 前記選択モジュールでは、固定型制御モ
    ジュールで制御を行なった結果から、前記選択モジュー
    ルの初期状態を設定することを特徴とする請求項1ない
    し3の何れかに記載の学習制御方法。
JP05034697A 1997-03-05 1997-03-05 学習制御方法 Expired - Fee Related JP3271544B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP05034697A JP3271544B2 (ja) 1997-03-05 1997-03-05 学習制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP05034697A JP3271544B2 (ja) 1997-03-05 1997-03-05 学習制御方法

Publications (2)

Publication Number Publication Date
JPH10247102A JPH10247102A (ja) 1998-09-14
JP3271544B2 true JP3271544B2 (ja) 2002-04-02

Family

ID=12856365

Family Applications (1)

Application Number Title Priority Date Filing Date
JP05034697A Expired - Fee Related JP3271544B2 (ja) 1997-03-05 1997-03-05 学習制御方法

Country Status (1)

Country Link
JP (1) JP3271544B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE0103994L (sv) * 2001-11-29 2003-05-30 Abb Ab An industrial robot system and a method for programming thereof
JP5175218B2 (ja) * 2005-12-28 2013-04-03 ニューロサイエンシーズ リサーチ ファンデーション インコーポレイテッド 予測的運動制御のための小脳モデルを有する頭脳ベース・デバイス

Also Published As

Publication number Publication date
JPH10247102A (ja) 1998-09-14

Similar Documents

Publication Publication Date Title
Hofmann Robust execution of bipedal walking tasks from biomechanical principles
US7937185B2 (en) Stable motion control system and method for a legged mobile robot
US7482775B2 (en) Robot controller
Mori et al. Reinforcement learning for cpg-driven biped robot
CN112297005B (zh) 一种基于图神经网络强化学习的机器人自主控制方法
CN111580385A (zh) 基于深度强化学习的机器人行走控制方法、系统及介质
Kimura et al. Dynamic walking and running of the quadruped using neural oscillator
JP3271544B2 (ja) 学習制御方法
Meduri et al. Deepq stepper: A framework for reactive dynamic walking on uneven terrain
Viereck et al. ValueNetQP: Learned one-step optimal control for legged locomotion
JP3465236B2 (ja) ロバスト強化学習方式
Moore E cient memory-based learning for robot control
Mastrogeorgiou et al. Slope handling for quadruped robots using deep reinforcement learning and toe trajectory planning
Jacobs et al. A modular connectionist architecture for learning piecewise control strategies
Nagasaka et al. Acquisition of visually guided swing motion based on genetic algorithms and neural networks in two-armed bipedal robot
Lakatos et al. Targeted jumping of compliantly actuated hoppers based on discrete planning and switching control
Agarwal et al. Study of toe joints to enhance locomotion of humanoid robots
Or et al. A biologically inspired CPG-ZMP control system for the real-time balance of a single-legged belly dancing robot
KR101105346B1 (ko) 학습에 의한 로봇의 보행 방법 및 학습에 의한 보행 메커니즘을 구비한 로봇
Lim et al. Proprioceptive external torque learning for floating base robot and its applications to humanoid locomotion
Zollo et al. A bio-inspired approach for regulating visco-elastic properties of a robot arm
Berns et al. Neural networks for the control of a six-legged walking machine
Ivancevic et al. Brain-like functor control machine for general humanoid biodynamics
Vadakkepat et al. Soccer playing humanoid robots: Processing architecture, gait generation and vision system
Jorge et al. Efficient learning of inverse dynamics models for adaptive computed torque control

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080125

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090125

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100125

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees