JP3271544B2

JP3271544B2 - 学習制御方法

Info

Publication number: JP3271544B2
Application number: JP05034697A
Authority: JP
Inventors: 訓山田
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1997-03-05
Filing date: 1997-03-05
Publication date: 2002-04-02
Anticipated expiration: 2017-03-05
Also published as: JPH10247102A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、振る舞いが複雑で
その動作の同定が困難な動的システムのような制御対象
の制御を、学習によってその制御法を獲得しつつ制御す
る学習制御方法、例えば、学習によって変化可能なニュ
ーラルネットワークが適用される学習制御方法に関する
ものである。

【０００２】

【従来の技術】図９は例えば、文献（「ロボティックス
アンドオートノマスシステムズ(Robotics and Au
tonomous Systems)」第１５号(1995)、第２４７〜２７
４ページ）に示された、従来のニューラルネットワーク
を用いた学習制御方法が適用される制御装置の一例を示
すブロック図である。図９において、１は例えば２自由
度のマニピュレータなどの制御対象、２はこの制御対象
１を制御する制御系を形成する制御モジュール、４は制
御モジュール２を形成する各々の学習型制御モジュー
ル、５は適切な制御モジュールを選択する選択モジュー
ル、６は基本制御課題と複合制御課題の間のＱ値の違い
を補償するためのバイアス値を計算するバイアスモジュ
ールである。

【０００３】次に動作について説明する。ここで、図１
０は図９に示した制御装置に適用される従来の学習制御
方法を示すフローチャートである。まず、ステップＳＴ
１１０において、ニューラルネットワークのシナプス結
合強度に初期値を代入し、初期化する。次にステップＳ
Ｔ１１１において、制御モジュール２の各学習型制御モ
ジュール４及び選択モジュール５に制御対象１の状態値
を入力する。この制御課題では、各リンクの角度と角速
度を入力する。各状態値は最小値と最大値を用いて規格
化し、０〜１の間の値として入力する。

【０００４】次にステップＳＴ１１２において、各学習
型制御モジュールの各出力に対するＱ値を計算する。こ
こで、Ｑ値とは、現在の状態にある制御を行った場合の
制御結果を予測する制御結果予測値である。Ｑ値の計算
には、前記文献に記載のCerebellar Model Arithmetic
Computer(ＣＭＡＣ)を用いるとすると、Ｑ値の計算を以
下のように行なう。ＣＭＡＣの各ニューロンは、入力空
間のある領域を受容野として持ち、入力値が受容野内に
ある時は１を出力し、その他の場合には０を出力する。
各ニューロンの受容野が互いに重ならず入力空間全体を
おおうようにニューロンを配置する。通常は入力空間を
一定に分割して各ニューロンの受容野とする。入力空間
全体をおおうように配置したＣＭＡＣのニューロンのセ
ットをタイルと呼ぶ。ＣＭＡＣではこのタイルを複数用
意して入力を処理する。各タイルのニューロンの受容野
は少しずつずれているので、各タイルで活動するニュー
ロンのパターンによって入力を細かく分類でき、優れた
分解能で迅速に処理することができる。学習型制御モジ
ュールでは、ある出力で制御した場合の制御結果を予測
するＱ値を計算し、それに基づいて出力を決定する。k
番目のタイルのj番目のニューロンの時刻tでの出力をy
(k,j,t)とする。モジュールmの状態ベクトルx、出力aに
対するＱ値Q(m,x,a,t)を次式で計算する。 Q(m,x,a,t)=Σ_k,j w(m,a,k,j,t)y(k,j,t) (1) ここで、w(m,a,k,j,t)は制御モジュールmのk番目のタイ
ルのj番目のニューロンの出力aに対するシナプス結合強
度である。

【０００５】次にステップＳＴ１１３において、選択モ
ジュールの出力を計算する。選択モジュールでは、制御
モジュールmを選択する確率g(m,t)を計算する。 g(m,t)=exp(s(m,t))/Σ_nexp(s(n,t)) s(m,t)=Σ_k,j w(m,k,j,t)y(k,j,t) (2) ここで、w(m,k,j,t)はのk番目のタイルのj番目のニュー
ロンnの制御モジュールmに対する選択モジュールのシナ
プス結合強度である。続いて、バイアスモジュールの出
力K(t)を計算する。バイアスモジュールの出力は入力さ
れた状態には依存しないで、与えられた制御課題だけに
依存する。次にステップＳＴ１１４において、制御出力
値を決定する。まず、制御モジュールは、(2)式の確率g
(m,t)で制御モジュールmを確率的に選択する。制御モジ
ュールmでは、出力a(t)を次式で与えられる確率p(m,a,
t)で確率的に選択する。 p(m,a,t)=exp(Q(m,x,a,t)/T_m)/Σ_b exp(Q(m,x,b,t)/T_m) (3) ここで、T_mは出力選択のＱ値への依存性の度合いを決定
する定数である。次にステップＳＴ１１５において、選
択された学習型制御モジュールの出力に対応したトルク
を加え、マニピュレータを制御する。次にステップＳＴ
１１６において制御結果を入力する。制御結果R(t)は例
えば次式で与えられる。 R(t) =0.5+0.5*exp(-(Σ_i|dθ_i/dt|)：目標地点に到達した場合 = -0.025*|dθ/dt| ：障害に衝突した場合 = -0.05 ：角速度絶対値が10rad/sを越えた場合 (4)

【０００６】次にステップＳＴ１１７でシナプス結合強
度の学習をする。目標のＱ値(q_des(t))を次式で計算す
る。 q_des(t)=R(t)+max_a(t+1)Q(sel(t+1),x,a,t+1)+K(t+1)-K(t) (5) 目標のＱ値が制御モジュールmで出力される確率は次式
で計算される。 p(q_des(t)|m)=(1/((2π)^N/2σ_m ^N))*exp(-(1/2σ_m ²)(|q_des(t)|-|Q(m,x,a,t)|) (6) ここで、σ_mはモジュールmの出力の標準偏差、Nは出力
の個数である。逆に、q_des(t)が与えられたとき、制御
モジュールmを選択する確率は次式で計算される。 p(m|q_des(t))=(g(m,t) p(q_des(t)|m))/(Σ_n g(n,t) p(q_des(t)|n)) (7) 対数尤度l(q_des(t))は次式で計算される。 l(q_des(t))=logΣ_n g(n,t) p(q_des(t)|n) (8) 対数尤度が最大になるように、最急登坂法で学習する。
各シナプス結合強度を次式で更新する。 w(m,a,k,j,t+1)= w(m,a,k,j,t) + α_q(∂l(q_des(t))/∂Q(m,x,a,t))y(k,j,t) w(s,k,j,t+1)= w(s,k,j,t) + α_s(∂l(q_des(t))/∂s(m,t)) y(k,j,t) ∂l(q_des(t))/∂Q(m,x,a,t) =(1/σ_m ²) p(m| q_des(t))(q_des(t)-Q(m,x,a,t)) ∂l(q_des(t))/∂ｓ（ｍ，ｔ）＝ｐ（ｍ｜ｑ_ｄｅｓ（ｔ））（１−ｇ（ｍ，
ｔ））（９）ここで、α_ｑ，α_sは前回の制御結果を次回の制御に反
映する度合を決める学習定数、sel(t)は時刻tで選択し
た制御モジュールである。

【０００７】次にステップＳＴ１１８において制御結果
が成功であるか失敗であるかの判定を行ない、制御結果
が失敗の場合には、制御を中止して、マニピュレータの
状態を制御開始の状態に戻し、ステップＳＴ１１１に戻
り、制御が成功するまで制御学習を続ける。このように
して、多数回の試行によって、マニピュレータを目標の
位置に移動させる制御を学習することが可能になる。

【０００８】

【発明が解決しようとする課題】従来の学習制御方法は
以上のように構成されているので、全ての状態に対し
て、各学習制御モジュール４における制御と選択モジュ
ール５におけるモジュール選択を同時に学習しなければ
ならないので、多数の試行回数が必要であるという問題
点があった。また、初期状態で暫定的な制御ができる制
御法を利用することができないので、学習の効率が悪い
という問題点があった。

【０００９】本発明は上記のような問題点を解決するた
めになされたもので、固定型制御モジュールで制御可能
な範囲を固定型制御モジュールで制御し、固定型制御モ
ジュールで制御困難な範囲を学習型制御モジュールで学
習し、複雑な制御を少数の試行回数で学習できる学習制
御法を得ることを目的とする。

【００１０】

【課題を解決するための手段】第１の発明に係わる学習
制御方法は、学習型制御モジュールと共に、既知知識を
用いた固定型制御モジュールを用いているので、既知の
状態での制御を学習する必要が無く、未知の状態だけを
学習型制御モジュールで学習するものである。

【００１１】第２の発明に係わる学習制御方法は、制御
モジュール選択の学習を制御結果予測値の誤差を最小に
することによって行なうものである。

【００１２】第３の発明に係わる学習制御方法は、制御
モジュール選択の学習を尤度を最大にすることによって
行なうものである。

【００１３】第４の発明に係わる学習制御方法は、既知
知識のもとづく固定制御によって制御した経験を選択モ
ジュールの初期設定に生かすものである。

【００１４】

【発明の実施の形態】

実施の形態１．以下、本発明の実施の形態１を図を用い
て説明する。ここで、制御対象である２足歩行ロボット
モデルについて説明する。今回の制御対象は図１のよう
な足首や膝のない竹馬型の２足歩行ロボットである。各
脚を２方向に回転させるモータが付いているが、トルク
が小さいので、ロボットを支持している支持脚の運動を
コントロールすることはできず、床に着いていない脚
（遊脚）の運動をコントロールできるだけである。片脚
でロボットを支持している時（片脚支持期）、前後方向
（ピッチ軸周り）と左右方向（ロール軸周り）の運動が
独立であるとすると、文献（「日本機械学会論文集（Ｃ
編）」第４８号(1982)、第1445ページから1455ページ）
に示されたように、支持脚の運動は次の運動方程式で表
される。 α₁(d²θ/dt²)-α₈(d²φ/dt²)sin(θ-φ)-α₂(d²ψ/dt²)cos(θ-ψ)= -α₈(dφ/dt)²cos(θ-φ)+α₂(dψ/dt)²sin(θ-ψ)+α₃sin(θ)-u₁ -α₈(d²θ/dt²) sin(θ-φ)+α₄(d²φ/dt²)-α₉(d²ψ/dt²)sin(φ-ψ)= α₈(dθ/dt)²cos(θ-φ)-α₉(dψ/dt)²cos(φ-ψ)-α₅sin(φ)+u₁-u₂ -α₂(d²θ/dt²) cos(θ-ψ)-α₉(d²φ/dt²)sin(φ-ψ)+α₆(d²ψ/dt²)= -α₂(dθ/dt)²sin(θ-ψ)+α₉(dφ/dt)²cos(φ-ψ) -α₇sin(ψ)+u₂ β₁(d²η/dt²)-β₂(d²ζ/dt²)cos(η-ζ)= β₂(dη/dt)²sin(η-ζ)+β₃sin(η)-u₃ -β₂(d²η/dt²)cos(η-ζ)+β₄(d²ζ/dt²)= -β₂(dζ/dt)²sin(η-ζ)-β₅sin(ζ）＋ｕ_３ α_１＝Ｉ_ｒ＋Ｍ_ｒ（ｑ_ｒ ^２＋Ｌ^２）＋Ｍ_ｂＬ^２ α₂=M_rp_rL α₃=[M_r(q_r+L)+M_bL]g α₄=I_b+4M_rr²+M_br² α₅=(2M_r+M_b)gr α₆=I_r+M_rp_r ² α₇=M_rgp_r α₈=(M_b+2M_r)rL α₉=2M_rp_rr β₁=M_pq_p ²+I_p+M_qL² β₂=M_qLp_q β₃=(M_pq_p+M_qL)g β₄=I_q+M_qp_q ² β₅=M_qgp_q (10) ここで、M_b, M_r, M_p, M_qはそれぞれ、胴体、脚、支持
脚、遊脚の重さ、I_b, I_r,I_p, I_qはそれぞれ、胴体、
脚、支持脚、遊脚の慣性モーメント、φは股関節のロー
ル角、θ，ψはそれぞれ支持脚と遊脚のロール角、η，
ζはそれぞれ支持脚と遊脚のピッチ角、Lは脚の長さ、p
_r, q_r, p_q, q_pはそれぞれ、腰から脚の重心までの距
離、脚先から脚の重心までの距離、腰から遊脚の重心ま
での距離、脚先から支持脚の重心までの距離、rは腰か
ら胴体の重心までの距離、gは重力加速度、u₁,u₂,u₃は
制御のためにモーターに加えるトルクである。モデルの
スケールは、脚長Lを1mとしている。

【００１５】遊脚が着地し、支持脚を交換する時の条件
は以下のようである。各変数の交換前と交換後の状態値
をそれぞれb,aの下付きの記号で表す。 θ_a=ψ_b φ_a=φ_b+π or φ_b-π ψ_a=θ_b dθ_a/dt=k_d(dθ_b/dt) dψ_a/dt=k_d(dθ_b/dt) dφ_a/dt=k_d(dφ_b/dt) η_a=ζ_b ζ_a=η_b dη_a/dt=dη_b/dt dζ_a/dt=dη_b/dt (11) ここで、k_dは脚交換時の角速度の減衰定数である。支持
脚が直立に近い場合には、支持脚の動きを倒立振り子で
近似することができるので、遊脚を以下に示す目標角度
になるようにＰＤ制御すれば、足踏みや歩行をすること
ができる。 φ’=θ+ω+ε or π-(ω+ε)+θ ψ’=θ+2ω （１
２） ζ’＝−Ａ（ｄη/dt)+δ A=(L/g)^1/2 (13) ここで、φ’,ψ’,ζ’は遊脚の目標角度、ωは脚と腰
の間の目標の角度、εは安定したロール軸周りのリズム
を形成するための定数、δは歩行速度を指定するために
設定する定数である。上記の制御法で、例えばω=7゜,
ε=1.3゜とすると、平らな床面であれば安定して歩行す
ることができるが、床面に段差があると、歩行のリズム
が変化して不安定になり、転倒してしまい、制御できな
くなる。例えば、δ=0.05で歩行させ、開始位置から1m
と2mの間に2.7mmの段差があると、(12)式と(13)式の制
御では段差の所で転倒してしまう。以下では、この条件
で歩行できる制御を学習させた。

【００１６】図２は本発明の実施の形態１による学習制
御方法が適用される制御装置の構成例を示すブロック図
である。図において、１は例えば上記の２足歩行ロボッ
トなどの制御対象、２は制御モジュール、３は固定型制
御モジュール、４は学習型制御モジュール、５は選択モ
ジュールである。

【００１７】次に動作について説明する。ここで、図３
は図２に示した制御装置に適用される本発明の実施の形
態１による学習制御方法を示すフローチャートである。
まず、ステップＳＴ１０において、シナプス結合強度に
初期値を代入し、初期化する。次に、ステップＳＴ１１
において、制御対象１から当該制御対象１の状態を表す
状態値を各種センサを用いて検出し、入力する。本実施
の形態では、２足歩行ロボットの脚交換直後のピッチ軸
周りの支持脚の角度と角速度(η,dη/dt)を入力する。
得られた状態値をそれぞれの最大値と最小値を用いて０
〜１の間に規格化した後、制御モジュール２と選択モジ
ュール５に入力する。次にステップＳＴ１２において学
習型制御モジュール４の各出力に対するＱ値とシナプス
結合強度の学習に用いる変数e(m,a,k,j,t)を計算する。
本実施の形態では学習型制御モジュール４と選択モジュ
ール５の計算はＣＭＡＣニューラルネットワークを用い
て行なう。 Q(m,x,a,t)=Σ_k,jw(m,a,k,j,t)y(k,j,t) e(m,a,k,j,t) =y(k,j,t) ：制御モジュールm、出力aが選択された場合 =λ_ae(m,a,k,j,t-1) ：その他 (14) ここで、w(m,a,k,j,t)は制御モジュールm、k番目のタイ
ルのj番目のニューロンの出力aに対するシナプス結合強
度、λ_aは減衰定数である。次にステップＳＴ１３にお
いて、選択モジュール５の制御モジュール選択に対する
Ｑ値Q(x,m,t)とシナプス結合強度の学習に用いるe(m,k,
j,t)を計算する。 Q(x,m,t)= Σ_k,jw(m,k,j,t)y(k,j,t) e(m,k,j,t) =y(k,j,t) ：mが選択した制御モジュールの場合 =λ_me(m,k,j,t-1) ：その他 (15) ここで、 w(m,k,j,t)はk番目のタイルのj番目のニュー
ロンの制御モジュールmの選択に対するシナプス結合強
度、λ_mは減衰定数である。

【００１８】次にステップＳＴ１４において、制御出力
値を決定する。まず、選択モジュール５のモジュール選
択のＱ値Q(x,m,t)に基づき、最大のＱ値を示す制御モジ
ュール２を選択する。選択した制御モジュール２が固定
型制御モジュール３の場合には、(12)式、(13)式で制御
する。学習型制御モジュール４の場合には、(14)式で計
算した学習型制御モジュール４の各出力に対するＱ値Q
(m,x,a,t)に基づき、最大のＱ値を示す制御モジュール
を選択し、このモジュールの出力を制御モジュール２全
体の出力とする。ここでは、ロール軸周りの制御は固定
型制御モジュール３と同様に(12)式で制御する。ピッチ
軸周りの制御は次式で計算する。 ζ’= - k_adη/dt+δ (16) k_aは学習型制御モジュール４の出力であり、あらかじめ
設定した数種類の数値（例えば0,A,2A）の中から計算に
もとづいて選択する。次にステップＳＴ１５において、
計算した目標角度に基づき、ＰＤ制御で２足歩行ロボッ
トを制御する。次にステップＳＴ１６において、次ステ
ップの学習過程で用いる制御結果R(t)を入力する。ここ
では、２足歩行ロボットが転倒した場合はR(t)を負の値
（例えば-1）とし、その他の場合にR(t)=0とする。

【００１９】次にステップＳＴ１７において、シナプス
結合強度を学習する。選択モジュール５のシナプス結合
強度を以下のように学習する。シナプス結合強度の学習
に用いる誤差E_m(t)を次式で計算する。 E_m(t)=R(t)+Q(x,sel(t),t)-Q(x,sel(t-1),t-1) (17) ここで、sel(t)は時刻tに制御モジュール２の中から選
択した制御モジュールを表す。シナプス結合強度を次式
で更新する。 w(m,k,j,t)=w(m,k,j,t-1)+α_mE_m(t)e(m,k,j,t) (18) ここで、α_mは学習定数である。学習型制御モジュール
４のシナプス結合強度を以下のように学習する。時刻t-
1に学習型制御モジュール４を選択した場合には、学習
型制御モジュール４のシナプス結合強度の学習を行な
う。学習に用いる誤差E_a(t)を次式で計算する。 E_a(t) =R(t)-Q(sel(t-1),x,perform(t-1),t-1) ：制御を失敗した場合 =R(t)+Q(x,sel(t),t)-Q(sel(t-1),x,perform(t-1),t-1) ：時刻tで固定型制御モジュール３を選択した場合 =R(t)+Q(sel(t),x,perform(t),t)-Q(sel(t-1),x,perfom(t-1),t-1) ：時刻tで学習型制御モジュール４を選択した場合 (19) ここで、perform(t)は時刻tで選択した出力を表す。シ
ナプス結合強度を次式で更新する。 w(m,a,k,j,t)=w(m,a,k,j,t-1)+α_aE_a(t)e(m,a,k,j,t) (20) ここで、α_aは学習定数である。次にステップＳＴ１８
において制御結果が成功であるか失敗であるかの判定を
行ない、制御結果が失敗の場合には、制御を中止して、
２足歩行ロボットの状態を制御開始の状態に戻し、ステ
ップＳＴ１１に戻り、制御が成功するまで制御学習を続
ける。

【００２０】このような試行を繰り返すことによって、
２足歩行ロボットを長時間歩行できる制御を学習するこ
とが可能になる。この学習を行なうためのパラメーター
としては、例えば、次の値を用いる。 λ_m=0.0 λ_a=0.3 α_m=0.01 α_a=0.02 また、タイル数5、各タイルの構成（12×12）のＣＭＡ
Ｃを用い、学習型制御モジュール４の出力数３(k_a=0,A,
2Aの３種類)とする。学習型制御モジュール４と選択モ
ジュール５の固定型制御モジュール３に対するシナプス
結合強度を全て０、選択モジュール５の学習型制御モジ
ュール４に対するシナプス結合強度を-0.2として学習を
開始した。

【００２１】ここで図４は、上記の初期値から開始し
て、本実施の形態１による学習制御方法によって学習し
た場合の、学習された制御方法によって制御された２足
歩行ロボットの歩いた平均の歩数の変化を示したもので
ある。各試行は０ｍからスタートし、倒れるか５０歩歩
行するまで続け、３回連続して５０歩歩行できた場合に
は学習完了とした。図４には１０回の学習の平均の歩数
の変化を示した。また、図５は、図９に示す従来技術に
より学習型制御モジュール４のみで制御学習した場合の
平均の歩数の変化を示したものである。図４、５を比較
すると、固定型制御モジュール３と学習型制御モジュー
ル４を組み合わせることにより、学習型制御モジュール
４のみの場合より、少数の試行回数で学習が可能である
ことがわかる。また、学習型制御モジュール４のみの場
合より平均の歩数が増加しているので、安定な制御を学
習できた割合が大きく、本実施の形態の方が確実に制御
を学習できることがわかる。

【００２２】実施の形態２．次に、実施の形態２を図を
用いて説明する。制御装置の構成は実施の形態１と同一
で図２に示されている。次に動作について説明する。フ
ローチャートも実施の形態１と同一で、図３に示されて
いる。まず、ステップＳＴ１０において、シナプス結合
強度に初期値を代入し、初期化する。次に、ステップＳ
Ｔ１１において、制御対象１から当該制御対象１の状態
を表す状態値を各種センサを用いて検出する。本実施の
形態でも実施の形態１と同様に、２足歩行ロボットの脚
交換直後のピッチ軸周りの支持脚の角度と角速度を入力
する。得られた状態値を最大値と最小値を用いて０〜１
の間に規格化した後、制御モジュール２と選択モジュー
ル５に入力する。

【００２３】次にステップＳＴ１２において学習型制御
モジュールmの出力aに対するＱ値Q(m,x,a,t)を計算す
る。本実施の形態では学習型制御モジュール４と選択モ
ジュール５の計算はＣＭＡＣニューラルネットワークを
用いて行なう。 Q(m,x,a,t)=Σ_k,jw(m,a,k,j,t)y(k,j,t) (21) また、固定型制御モジュール３のＱ値Q_u(x,t)を次式で
計算する。 Q_u(x,t)=Σ_k,jw_u(k,j,t)y(k,j,t) (22) ここで、 w_u(k,j,t)は固定型制御モジュール３のタイル
kのj番目のニューロンに対するシナプス結合強度であ
る。次にステップＳＴ１３において、選択モジュール５
の出力を計算する。 g(m,t)=exp(s(m,t))/Σ_nexp(s(n,t)) s(m,t)=Σ_k,j w(s,k,j,t)y(k,j,t) (23)

【００２４】次にステップＳＴ１４において、制御出力
値を決定する。まず、制御モジュール２は、確率g(m,t)
で制御モジュールmを確率的に選択する。選択した制御
モジュール２が固定型制御モジュール３の場合には、(1
2)式、(13)式で制御する。学習型制御モジュール４が選
択された場合には、(21)式で計算した学習型制御モジュ
ール４の各出力に対するＱ値Q(m,x,a,t)に基づき、最大
のＱ値を示す制御モジュールを選択し、このモジュール
の出力を制御モジュール２全体の出力とする。ここで
は、ロール軸周りの制御は固定型制御モジュール３と同
様に(12)式で制御する。ピッチ軸周りの制御は実施の形
態１の場合と同様に(16)式で計算する。次にステップＳ
Ｔ１５において、計算した目標角度に基づき、ＰＤ制御
で２足歩行ロボットを制御する。次にステップＳＴ１６
において、制御結果R(t)を入力する。ここでは、２足歩
行ロボットが転倒した場合にR(t)=-1、その他の場合にR
(t)=０とする。

【００２５】次にステップＳＴ１７において、シナプス
結合強度の学習をする。目標のＱ値(q_des(t))を次式で
計算する。 q_des(t) =R(t)+Q_u(x,t+1) ：固定型制御モジュール =R(t)+max_a(t+1)Q(sel(t+1),x,a,t+1) ：学習型制御モジュール (24) 目標のＱ値が制御モジュールmで出力される確率は次式
で計算される。 p(q_des(t)|m)=(1/((2π)^N/2σ_m ^N))*exp(-(1/2σ_m ²)(|q_des(t)|-|Q(m,x,a,t)|) (25) ここで、σ_mはモジュールmの出力の標準偏差、Nは出力
の個数である。逆に、q_des(t)が与えられたとき、制御
モジュールmを選択する確率は次式で計算される。 p(m|q_des(t))=(g(m,t) p(q_des(t)|m))/(Σ_ng(n,t) p(q_des(t)|n)) (26) 対数尤度l(q_des(t))は次式で計算される。 l(q_des(t))=logΣ_n g(n,t) p(q_des(t)|n) (27) 対数尤度が最大になるように、最急登坂法で各シナプス
結合強度を次式で更新する。 w(m,a,k,j,t+1)= w(m,a,k,j,t) +α_q(∂l(q_des(t))/∂Q(m,x,a,t))y(k,j,t) w(u,k,j,t+1)=w(u,k,j,t)+α_u(∂l(q_des(t))/∂Q_u(x,t)) y(k,j,t) w(s,k,j,t+1)= w(s,k,j,t) + α_s(∂l(q_des(t))/∂s(m,t)) y(k,j,t) ∂l(q_des(t))/∂Q(m,x,a,t) =(1/σ_m ²) p(m| q_des(t))(q_des(t)-Q(m,x,a,t)) ∂l(q_des(t))/∂Q_u(x,t)= (1/σ_m ²) p(u| q_des(t))(q_des(t)-Q_u(x,t)) ∂l(q_des(t))/∂_s(m,t)= p(m| q_des(t))(1-g(m,t)) (28) ここで、α_q,α_s,α_uは学習定数、sel(t)は時刻tで選択
したモジュールである。次にステップＳＴ１８において
制御結果が成功であるか失敗であるかの判定を行ない、
制御結果が失敗の場合には、制御を中止して、２足歩行
ロボットの状態を制御開始の状態に戻し、ステップＳＴ
１１に戻り、制御が成功するまで制御学習を続ける。

【００２６】このような試行を繰り返すことによって、
２足歩行ロボットが長時間歩行できる制御を学習するこ
とが可能になる。この学習を行なうためのパラメーター
としては、例えば次の値を用いる。 α_m=0.01 α_a=0.02 α_u=0.02 σ_m=1 N=1 また、タイル数5、各タイルの構成（12×12）のＣＭＡ
Ｃを用い、学習型制御モジュール４の出力数３(k_a=0,A,
2Aの３種類)とする。学習型制御モジュール４と選択モ
ジュール５のシナプス結合強度を全て０として学習を開
始した。

【００２７】図６は本実施の形態２による学習制御方法
によって学習した場合の、学習された制御方法によって
制御された２足歩行ロボットの歩いた平均の歩数の変化
を示したものである。制御モジュール２の選択が学習さ
れ、長時間歩行できるように学習されている。

【００２８】実施の形態３．次に、実施の形態３を図を
用いて説明する。制御装置の構成は実施の形態１と同一
で図２に示されている。次に動作について説明する。図
７は図２に示した制御装置に適用される本発明の実施の
形態３による学習制御方法を示すフローチャートであ
る。この実施の形態では、学習制御を実施する前に、固
定型制御方法だけを用いて、前学習を行なう。この前学
習の結果を、選択モジュール５の初期値に用いる。ま
ず、固定型制御法だけで制御を行ない、固定型制御法で
制御が困難な状態の範囲を知る。学習型制御モジュール
４と同一のニューラルネットワーク構成のＣＭＡＣニュ
ーラルネットワークを用意し、固定型制御モジュール３
の制御によるＱ値を学習する。

【００２９】まず、ステップＳＴ１において、２足歩行
ロボットの状態を表す状態値を入力する。実施の形態１
と同様に、ピッチ軸周りの足交換直後の支持脚の角度と
角速度を入力する。次に、ステップＳＴ２において、そ
の状態値のＱ値をＣＭＡＣニューラルネットワークを用
いて、次式で計算する。 Q(x,t)=Σ_k,jw_p(k,j,t)y(k,j,t) (29) ここで、w_p(k,j,t)は、k番目のタイルのj番目のニュー
ロンに対するシナプス結合強度である。次にステップＳ
Ｔ３において、(12)式、(13)式で２足歩行ロボットを制
御する。次にステップＳＴ４において、制御結果R(t)を
入力する。ここでは、２足歩行ロボットが転倒した場合
にR(t)=-1、その他の場合にR(t)=０とする。

【００３０】次にステップＳＴ５において、シナプス結
合強度の学習を行なう。シナプス結合強度の学習に用い
る誤差E(t)を次式で計算する。 E(t)=R(t+1)+γQ(x,t+1)-Q(x,t) (30) ここで、γは減衰定数(例えば、γ=0.9)である。シナプ
ス結合強度を次式で更新する。 w(k,j,t+1)=w_p(k,j,t)+α_pE(t)y(k,j,t) (31) ここで、α_pは学習定数である（例えば、α_p=0.02）。次にステップＳＴ６において、制御結果が成功であるか
失敗であるかを判定し、成功であればステップＳＴ１に
戻り、制御を繰り返す。失敗の場合には制御を中止し、
ステップＳＴ７において、試行回数を調べ、試行回数が
不充分な場合には２足歩行ロボットの状態を制御開始の
状態に戻し、前学習を繰り返す。所定の試行回数を実行
した後の場合には、前学習の結果を記録し、前学習を終
了する。次にステップＳＴ１０で前学習の結果のシナプ
ス結合強度を選択モジュール５の固定型制御モジュール
３に対するシナプス結合強度として読み込む。また、学
習型制御モジュール４に対する初期値は一定値(例え
ば、-0.08)とする。ステップＳＴ１０以降は実施の形態
１の制御学習法と同一である。

【００３１】図８は、本実施の形態３による学習制御方
法によって学習した場合の、学習された制御方法による
２足歩行ロボットの歩行した平均の歩数の変化を示した
ものである。図４と比較することにより、固定型制御モ
ジュール３で実際に制御した結果を用いることにより、
固定型制御モジュール３で制御可能な範囲と制御困難な
範囲を知ることができ、制御モジュール選択を少数の試
行回数で学習することができることがわかる。また、平
均の歩数も増加しており、より確実に制御を学習できる
こともわかる。

【００３２】なお、上記実施の形態ではステップＳＴ１
０以降は実施の形態１の制御学習法と同一とした場合に
ついて説明したが、実施の形態２の制御学習方法と同一
としてもよい。

【００３３】実施の形態４．なお、上記各実施の形態で
は、制御モジュール２の出力が１つである場合を示した
が、同様な方法によって制御出力が２つ以上の場合にも
適用できることはいうまでもない。さらに、適用される
制御対象１も、２足歩行ロボットばかりでなく、多リン
クのマニピュレータなどの一般のロボットにも適用可能
である。また、上記各実施の形態では、ＣＭＡＣニュー
ラルネットワークを用いた場合について説明したが、Si
gmoid関数を用いたフィードフォワードニューラルネッ
トワークやradial basis function 関数を用いたフィー
ドフォワードニューラルネットワークで計算してもよ
い。

【００３４】

【発明の効果】以上のように、第１の発明によれば、制
御対象の状態および前記制御対象を制御した結果の状態
に基づいて、前記制御対象の制御を学習して制御する学
習制御方法において、既知知識を用いて固定的な制御を
行なう固定型制御モジュールと、制御結果を予測する制
御結果予測値を計算し、その制御結果予測値に基づいて
出力を決定し、その出力にもとづいて前記制御対象を制
御した結果から前記制御対象の制御を学習する学習型制
御モジュールを一個以上と、前記各制御モジュールの選
択に対応する制御結果予測値を計算し、それらの制御結
果予測値に基づいて採用する制御モジュールを選択し、
前記制御対象を制御した結果から前記各制御モジュール
の選択を学習する選択モジュールとから構成されて前記
制御対象を制御する制御系を備え、該制御系に前記制御
対象の状態の測定結果を入力する第１処理、その入力値
に基づいて前記制御対象の制御を行なって、当該制御に
よる前記制御対象の状態を測定する第２処理、その測定
結果から前記制御対象の制御の結果に対する評価を判定
する第３処理、およびその判定結果に基づいて前記制御
系を学習させる第４処理をそれぞれ施し、その学習結果
に基づいて前記第１〜第４処理を繰り返しつつ前記制御
対象の制御を行なうので、不必要な学習をすることな
く、制御を少数の試行回数で学習することができる効果
がある。

【００３５】また、第２の発明によれば、前記選択モジ
ュールでは、制御結果予測値の誤差を最小にすることに
よって前記制御モジュールの選択を学習するので、制御
モジュール選択を効率よく学習できる効果がある。

【００３６】また、第３の発明によれば、前記選択モジ
ュールでは、モジュール選択の尤度を最大にすることに
よって前記制御モジュールの選択を学習するので、制御
モジュール選択を効率よく学習できる効果がある。

【００３７】また、第４の発明によれば、選択モジュー
ルでは、固定型制御モジュールで制御を行なった結果か
ら、前記選択モジュールの初期状態を設定するので、制
御モジュール選択を少数の試行回数で学習できる効果が
ある。

【図面の簡単な説明】

【図１】竹馬型２足歩行ロボットの構造を示す説明図
である。

【図２】本発明の実施の形態１による学習制御方法が
適用される制御装置の構成例を示すブロック図である。

【図３】上記実施の形態１による学習制御方法を示す
フローチャートである。

【図４】上記実施の形態１によって学習した場合の平
均の歩行歩数の変化を示す説明図である。

【図５】学習型制御モジュールだけで学習した場合の
平均の歩行歩数の変化を示す説明図である。

【図６】本発明の実施の形態２によって学習した場合
の平均の歩行歩数の変化を示す説明図である。

【図７】本発明の実施の形態３による学習制御方法を
示すフローチャートである。

【図８】上記実施の形態３によって学習した場合の平
均の歩行歩数の変化を示す説明図である。

【図９】従来の学習制御方法が適用される制御装置の
構成例を示すブロック図である。

【図１０】従来の学習制御方法を示すフローチャート
である。

【符号の説明】

１制御対象（動的システム）、２制御モジュー
ル、３固定型制御モジュール、４学習型制御モ
ジュール、５選択モジュール、６バイアスモジ
ュール。

Claims

(57)【特許請求の範囲】

【請求項１】制御対象の状態および前記制御対象を制
御した結果の状態に基づいて、前記制御対象の制御を学
習して制御する学習制御方法において、既知知識を用い
て固定的な制御を行なう固定型制御モジュールと、制御
結果を予測する制御結果予測値を計算し、その制御結果
予測値に基づいて出力を決定し、その出力にもとづいて
前記制御対象を制御した結果から前記制御対象の制御を
学習する学習型制御モジュールを一個以上と、前記各制
御モジュールの選択に対応する制御結果予測値を計算
し、それらの制御結果予測値に基づいて採用する制御モ
ジュールを選択し、前記制御対象を制御した結果から前
記各制御モジュールの選択を学習する選択モジュールと
から構成されて前記制御対象を制御する制御系を備え、
該制御系に前記制御対象の状態の測定結果を入力する第
１処理、その入力値に基づいて前記制御対象の制御を行
なって、当該制御による前記制御対象の状態を測定する
第２処理、その測定結果から前記制御対象の制御の結果
に対する評価を判定する第３処理、およびその判定結果
に基づいて前記制御系を学習させる第４処理をそれぞれ
施し、その学習結果に基づいて前記第１〜第４処理を繰
り返しつつ前記制御対象の制御を行なうことを特徴とす
る学習制御方法。
【請求項２】前記選択モジュールでは、制御結果予測
値の誤差を最小にすることによって前記制御モジュール
の選択を学習することを特徴とする請求項１記載の学習
制御方法。
【請求項３】前記選択モジュールでは、モジュール選
択の尤度を最大にすることによって前記制御モジュール
の選択を学習をすることを特徴とする請求項１記載の学
習制御方法。
【請求項４】前記選択モジュールでは、固定型制御モ
ジュールで制御を行なった結果から、前記選択モジュー
ルの初期状態を設定することを特徴とする請求項１ない
し３の何れかに記載の学習制御方法。