JP2720605B2

JP2720605B2 - 学習制御装置

Info

Publication number: JP2720605B2
Application number: JP503291A
Authority: JP
Inventors: 成彰松林; 修伊藤
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1990-01-22
Filing date: 1991-01-21
Publication date: 1998-03-04
Anticipated expiration: 2013-03-04
Also published as: JPH04211801A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、例えば歩行ロボットや
化学プラントなどのように、入出力間の関係をあらかじ
め正確に把握する事が困難な制御対象を制御する事が可
能な学習制御装置に関するものである。

【０００２】

【従来の技術】従来の学習制御装置としては、例えば、
論文 ”行動する機械”（生体の科学，Vol.37, No.1, p
p.41-48, 1986年）において、中野によって提案されて
いるものがある。この論文では、図２に示された歩行ロ
ボットの制御について論じている。

【０００３】図２において、歩行ロボット１０５は前足
１０２Ａおよび後足１０２Ｂより構成されており、胴体
１００で接続されている。さらに前足１０２Ａおよび後
足１０２Ｂはそれぞれモーター１０３Ａおよび１０３Ｂ
で駆動されており、各モータの回転はドライバー回路１
０４より指令されている。また歩行ロボットが移動した
距離は出力検出器１０６で検出される。

【０００４】以上のように構成された歩行ロボット１０
５の動作は（数２）式のように表現できる。

【０００５】

【数２】

【０００６】ここで、ｙは歩行ロボットの出力である歩
行距離、Ｕ＝（ｕ1A、ｕ1B、ｕ2A、ｕ2B）は歩行ロボッ
トの前足１０２Ａおよび後足１０２Ｂへの入力ベクトル
であるモータ回転角ベクトル、ｇは正確に把握すること
が困難な関数である。また、ｕ1Aは動作前の前足の角
度、ｕ1Bは動作後の前足の角度、ｕ2Aは動作前の後足の
角度、ｕ2Bは動作後の後足の角度である。

【０００７】（数２）式のｙをできるだけ大きくするよ
うなＵを求めるために、従来の学習制御装置は、一般的
に以下の手順から構成される「山登り法」を用いてい
る。

【０００８】手順１：例えば（△ｕ_1A,０,０,０）、（０,-△
ｕ_1B,△ｕ_2A,△ｕ_2B）などの、微小な値を各要素に持つ
入力変化ベクトル△Ｕ_iを△Ｕ₁，…，△Ｕ₈₁と８１個作
成する。この例では、入力変化ベクトルの個数は３⁴＝
８１個となり、”３”は各要素の符号の種類数、すなわ
ち”＋”、”−”あるいは”０”の３個に相当し、ベキ
数”４”は入力変化ベクトル△Ｕ_iの次数に相当する。

【０００９】手順２：現在の入力ベクトルＵに上記の入力変化ベク
トルを一つづつ加えて、すなわち、Ｕ_i←Ｕ＋△Ｕ_iとし
て歩行ロボットに入力し、その時の出力変化 △
ｙ₁，...，△ｙ₈₁を検出する。

【００１０】手順３：上記の出力変化を最大にする入力変化ベクト
ル △Ｕ_j を選び、現在の入力ベクトルＵをＵ←Ｕ＋△
Ｕ_jと更新して、手順２〜３を繰り返す。ただし、上記
の出力変化が全て負または零の時は、現在の入力ベクト
ルが所望のベクトルであるので、上記の繰り返しを終了
する。

【００１１】

【発明が解決しようとする課題】この学習制御装置は、
全く同一の構成を用いて、歩行ロボットに限らず、特性
のわからないあらゆる制御対象に適用可能であるという
利点を持つ。しかしながら、手順２においては８１回も
の試行が必要であり、仮に出力ｙが極大値に達するまで
に必要な手順２〜３の繰り返し回数を１０とすると、合
計で８１０回という極めて多くの試行を繰り返さなけれ
ばならないという実用上の課題があった。

【００１２】

【課題を解決するための手段】したがって本発明の目的
は、従来の学習制御装置と比較して、必要な繰り返し回
数が極めて少ない学習制御装置を提供する事である。

【００１３】この目的を達成するために、本発明は以下
のような構成を備えたものである。即ち、制御対象に印
加する制御入力Ｕを変化させる複数の入力変化ベクトル
ΔＵ _iを発生させる手段と、前記入力変化ベクトルΔＵ_i
に所定の定性モデルにもとづいた演算を行ない予測符号
データ

【００１４】

【数３】

【００１５】を出力する定性モデル演算手段と、前記制
御対象の出力ｙを検出する検出手段と、前記検出手段の
検出値ｙと目標値ｙ_dとの差の値の符号を検出する誤差
符号検出手段と、前記誤差符号検出手段の出力［ｅ］及
び前記予測符号データ（数３）に基づいて、前記入力変
化ベクトルΔＵ_iを選択する入力変化ベクトル選択回路
と、前記制御対象の出力の値の変化を表す所定の符号を
検出する出力符号検出手段と、前記入力ベクトル選択回
路で選択された入力変化ベクトルを前記制御対象の入力
に加算する入力ベクトル更新手段と、前記制御対象の入
力及び前記出力符号検出手段の検出出力に基づいて前記
定性モデルを修正する定性モデル修正手段とを具備する
ことを特徴とする学習制御装置を提供するものである。

【００１６】

【作用】本発明によれば、定性モデル演算手段および入
力変化ベクトル選択手段において、出力ｙを所望の目標
値ｙ_dに近づけることができる入力変化ベクトル△Ｕ_jの
みを選択し、これについてのみ試行するために、従来の
ようにすべての入力変化ベクトルについて試行する必要
がなく、出力ｙが目標値ｙ_dに一致するまでの繰り返し
回数を極めて少なくすることができる。さらに状態が変
化し、出力ｙが目標値ｙ_dから離れる傾向にある場合に
は、定性モデル修正手段において出力ｙが目標値ｙ_dに
近づくように定性モデルを修正するため、あらゆる状態
で繰り返し回数を少なくできる効果を維持することがで
きる。

【００１７】

【実施例】以下図面を用いて、本発明の第一の実施例に
ついて説明する。図１は本発明の第一の実施例における
学習制御装置のブロック図である。図１において、制御
対象は図３（ａ）および図３（ｂ）に示す歩行ロボット
１０５である。図３（ａ）および図３（ｂ）において、
歩行機械１０５は、胴体１００に前足１０２Ａおよび後
足１０２Ｂが取り付けられており、それぞれがモータ１
０３Ａおよび１０３Ｂで回動できるように構成されてい
る。床１０１と接触している前足先１０２Ｃおよび後足
先１０２Ｄのそれぞれの摩擦係数は互いに異なってい
る。また歩行ロボットが移動した距離は出力検出器１０
６で検出される。

【００１８】上記の歩行ロボット１０５の動作を以下に
説明する。歩行ロボットに与えられる入力ベクトルＵは
（数４）式によって表される。

【００１９】

【数４】

【００２０】（数４）式において、ｕ_1Aは動作前の前足
の角度、ｕ_1Bは動作後の前足の角度、ｕ_2Aは動作前の後
足の角度、ｕ_2Bは動作後の後足の角度である。

【００２１】制御入力Ｕはベクトル量であり、その要素
ｕ_1A,ｕ_1B,ｕ_2A及びｕ_2Bはいずれも実数で定義される。

【００２２】前足１０２Ａと後足１０２Ｂはそれぞれの
モータ１０３Ａ及び１０３Ｂにより、図３（ａ）及び図
３（ｂ）に示すように回転される。その結果前足先１０
２Ｃ及び後足先１０２Ｄの床面１０１に対する摩擦力が
同じでない場合歩行ロボット１０５は一定方向に移動す
る。

【００２３】歩行ロボットは図３（ａ）に示す状態から
図３（ｂ）に示す状態に動作し、次に再び図３（ａ）に
示す状態に戻り、１サイクルの歩行動作を完了する。従
って（数４）式は歩行ロボットの半サイクルの動作を表
している。

【００２４】歩行ロボット１０５が図３（ａ）、図３
（ｂ）に示す１サイクルの歩行動作によって進む距離を
ｙとすると、制御入力Ｕと距離ｙの関係は（数２）式に
よって表される。この（数２）式における関数ｇは、前
足１０２Ａと後足１０２Ｂにおける歩行ロボット１０５
の重量配分、前足１０２Ａの長さＬ₁と後足１０２Ｂの
長さＬ₂の比、及び床１０１と各足先１０２Ｃ、１０２
Ｄ間の摩擦係数等によって変化する。

【００２５】図１において、第１の実施例の学習制御装
置は、入力変化ベクトルを定める入力変化ベクトル決定
回路３１０、入力変化ベクトル決定回路３１０の出力に
基づいて、歩行ロボットに入力される入力ベクトルを更
新する入力ベクトル更新回路３１１、距離検出器１０６
の出力から移動方向の符号（一定の方向を正又は負と
定めておく）を検出する出力符号検出回路３１３、定性
モデル修正回路３１２及び誤差符号検出回路３０８を有
している。

【００２６】入力変化ベクトル決定回路３１０は次に示
す回路を有している。（１）入力変化ベクトルメモリ３０１：あらかじめ定め
られた８１個の入力変化ベクトルΔＵ1,・・・,ΔＵ81がメ
モリされている。入力変化ベクトルΔＵiの数は「従来
の技術」の項で述べた方法により求められる。入力変化
ベクトルΔＵiは4つのデータ（Δｕ1A,Δｕ1B,Δｕ2A,
Δｕ2B）を含んでおり、各データは正の値、負の値、零
のいずれかである。例えば（Δｕ1A,０,０,０）、（０,
−Δｕ1B,Δｕ2A,Δｕ2B）となる。正の値はあらかじめ
定められた方向への増加を表し、負の値は減少を表して
いる。零は変化ないことを表している。各データ（Δｕ
1A,Δｕ1B,Δｕ2A,Δｕ2B）は前足１０２Ａ及び後足１
０２Ｂの回転角度に加えられる微少角であり、例えば２
°などの微小な値が設定される。各データがすべて同じ
角度である必要はなく、互いに異なる値が設定されても
よい（例：２,−３°,０°,２°）。（２）スイッチ３０５Ａ：入力変化ベクトルメモリ３０
１のデータを符号ベクトル検出器３０２に入力するとき
に閉にされる。（３）符号ベクトル検出器３０２：入力変化ベクトルメ
モリ３０１から入力される入力変化ベクトルΔＵiに基
づいて、その各データの符号（＋,−,0）を表す符号ベ
クトル[ΔＵi]を出力する。（以後[ ]に入れられた文
字はその文字が表すデータの符号“＋”、“−”、ある
いは“０”を示す。）例えば入力変化ベクトルΔＵi＝
（0,−Δｕ1B,Δｕ2A,Δｕ2B）が入力されると、符号ベ
クトル[ΔＵi]＝（0,−,＋,＋）が出力される。（４）定性モデル演算回路３０３：符号ベクトル検出
器３０２から出力される符号ベクトル[ΔＵi]に基づい
て、歩行ロボット１０５の移動距離ｙの変化方向の符号
（移動方向に対応する）を予測する演算回路を有する。
演算はあらかじめ設定された定性モデルに従って行なわ
れ、結果の予測符号データ

【００２７】

【数５】

【００２８】が出力される。以後文字の上のハット
“＾”はその文字が表すデータの予測データを表す。
予測符号データ（数５）は出力ｙの変化方向を示す符号
を表しており、増加予測は“＋”、減少予測は“−”、
変化なしは“０”、予測不可能は“？”のいずれかのデ
ータを有する。（５）スイッチ３０５Ｂ：定性モデル演算回路３０３の出力データをメモリ３０４
に入力するときに閉じられる。（６）メモリ３０４：定性モデル演算回路３０３から出力されて予測符号デー
タ（数５）はスイッチ３０５Ｂを経てメモリ３０４にメ
モリされる。通常８１個の予測符号データ

【００２９】

【数６】

【００３０】がメモリされる。（７）入力変化ベクトル選択回路３０９：メモリ３０４からの予測符号データ（数５）と入力変化
ベクトルΔＵ_iが入力され、そのすべての予測符号デー
タ（数６）からその符号が後に述べる誤差符号検出回路
３０８から入力される誤差の値の符号［ｅ］と一致する
１個の予測符号データ

【００３１】

【数７】

【００３２】が選択され、定性モデル修正回路３１１に
印加される。この学習制御装置はさらに次の回路を備え
ている。誤差符号検出回路３０８は距離検出器１０６に
よって検出された値ｙと目標値ｙ_dとの差を求める誤差
演算回路３０６を備え、演算結果の誤差ｅを符号検出回
路３０７に入力する。符号検出回路３０７においては、
誤差ｅの値の符号［ｅ］を検出し、入力変化ベクトル選
択回路３０９に入力する。符号［ｅ］は“＋”、
“−”、“０”のいずれか１つを表すデータを有してい
る。すなわち符号［ｅ］は出力ｙを目標出力ｙ_dに近づ
けるために出力ｙを増加又は減少させるか、あるいは現
在の値を保持すべきかの情報を有している。

【００３３】入力ベクトル更新回路３１１は入力変化ベ
クトル選択回路３０９から出力される入力変化ベクトル
ΔＵ_jと現在の入力Ｕとを加算演算し、更新された新し
い入力Ｕを出力する。スイッチ３１６は上記の加算演算
中は開となる。

【００３４】定性モデル修正回路３１２には入力Ｕ、予
測符号データ（数７）が入力される。また出力符号検出
回路３１３において、移動距離の変化方向を表す符号変
化ベクトル［△ｙ］が検出されるとスイッチ３１４が閉
となり（図４のフローチャート図のステップ１，２）、
符号変化ベクトル［△ｙ］が定性モデル修正回路３１２
に入力される（ステップ３）。

【００３５】定性モデル修正回路３１２において、符号
変化ベクトル［△ｙ］と予測符号データ（数７）が比較
され（ステップ４）、両者が等しくない場合はスイッチ
３１５が閉となり修正出力ＱA、ＱBが定性モデル演算回
路３０３に入力される（ステップ５,６）。

【００３６】定性モデルについて以下に説明する。歩行
ロボットが前足１０２Ａと後足１０２Ｂを開いた図３
（ａ）の姿勢から図３（ｂ）に示す両足１０２Ａ,１０
２Ｂを閉じた姿勢へ移るとき、前足先１０２Ｃの摩擦力
が後足先１０２Ｄの摩擦力より大きいときは、前足先１
０２Ｃは床１０１上をすべらず、後足先１０２Ｄのみが
床１０１上をすべって、歩行ロボットは図５に示すよう
に距離ｙ_ABだけ移動する。この場合、前足１０２Ａの角
度の変化量（ｕ_1A-ｕ_1B）が大きいほど移動の距離ｙ_AB
は大きい。従って後足１０２Ｂの回転量は移動距離に貢
献しない。その結果、前記の姿勢の変化による移動距離
ｙ_ABは（数８）式により表される。

【００３７】

【数８】

【００３８】ここに、Ｆ_1Aは前足先１０２Ｃの摩擦力、
Ｆ_2Aは後足先１０２Ｄの摩擦力である。

【００３９】ｇ₁,ｇ₂は増加関数であり、ｇ₁（０）＝ｇ
₂（０）＝０である。（数８）式において、式（Ｆ_1A-Ｆ_2A）の値の符号を判
定する必要があるが、これらの摩擦力を検出するこは極
めて困難である。そこで検知可能な角度データである入
力ベクトル（ｕ_1A,ｕ_1B,ｕ_2A,ｕ_2B）を用いてこの式
（Ｆ_1A-Ｆ_2A）に等価な式を表す。

【００４０】（数８）式における式（Ｆ_1A-Ｆ_2A＝０）
は前足先１０２Ｃと後足先１０２Ｄの摩擦力が等しいこ
とを表している。前足１０２Ａの長さＬ₁と後足１０２
Ｂの長さＬ₂が等しく、前足１０２Ａと床１０１間の摩
擦係数μ₁、後足１０２Ｂと床１０１間の摩擦係数μ₂が
等しいと仮定すると、式（Ｆ_1A-Ｆ_2A＝０）は式（ｕ_1A-
ｕ_2A＝０）と等価である。

【００４１】上記の関係は一般には（数９）式によって
表される。

【００４２】

【数９】

【００４３】ここで、Ｑ_AはＬ₁,Ｌ₂,μ₁,μ₂の関係によ
って変動する境界パラメータであり、従ってｕ_2A-ｕ_1A-
Ｑ_Aは入力と境界パラメータからなる境界関数であり、
入力と同じ次元である。ただし、Ｌ₁＝Ｌ₂ かつμ₁＝μ
₂の時はＱ_A＝０となる。

【００４４】（数９）式と（数８）式を組み合わせる
と、（数１９）式が得られる。

【００４５】

【数１０】

【００４６】同様に考えると、図３（ｂ）から図３
（ａ）へ変化するときの歩行距離ｙ_BAは（数１１）式で
表される。

【００４７】

【数１１】

【００４８】また、歩行ロボットが図３（ａ）→図３
（ｂ）→図３（ａ）と変化するとき、歩行距離ｙは、
（数１２）式で表わされる。

【００４９】

【数１２】

【００５０】（数９）式〜（数１１）式をまとめると、
（表１）に示すようになる。

【００５１】

【表１】

【００５２】（表１）において、領域番号（１〜９）は
歩行ロボットに与えた入力Ｕ＝（ｕ_1A,ｕ_1B,ｕ_2A,
ｕ_2B）と境界パラメータＱ_A,Ｑ_Bの差の値の符号によっ
て分けられる領域を示すものである。その領域は、（数
１０）式において、入力値（ｕ_1A-ｕ₂ _A）と境界パラメ
ータＱ_Aの差の値の符号から３通りに分けられる。また
（数１１）において、入力値（ｕ_2B-ｕ_1A）と境界パラ
メータＱ_Bの差の値の符号から３通りの領域に分けられ
る。従って９（３×３＝９）通りの領域に区分され、そ
れぞれの領域において歩行距離ｙを求めるための関数が
異なる。

【００５３】境界関数の値の符号は次のようにして得ら
れる。例えば、領域番号（１）において、境界関数符号
[ｕ2A−ｕ1A−ＱA]については、ｕ2A−ｕ1A−ＱA＞0で
あるのでその値の符号は“＋”である。同様にして、領
域番号（２）において、境界関数符号[ｕ2B−ｕ1B−Ｑ
B]についてはｕ2B−ｕ1B−ＱB＝0であるのでその値は
“0”となる。なお、境界関数符号[ｕ2A−ｕ1A−ＱA]
や、境界関数符号[ｕ2B−ｕ1B−ＱB]のことを請求項で
は一般的な表現として定性式としている。

【００５４】各領域番号における出力値ｙは次のように
して求められる。すなわち、領域番号（１）では、（数
１０）式よりｙ_AB＝ｇ₁（ｕ_1A-ｕ_1B）、（数１１）式よ
りｙ _BA＝-ｇ₁（ｕ_1A-ｕ_1B）であるので、歩行距離ｙは

【００５５】

【数１３】

【００５６】となる。また、領域番号（２）では、（数
１０）式よりｙ_AB＝ｇ₁（ｕ_1A-ｕ_1B）、（数１１）式よ
りｙ_BA＝０であるので、歩行距離ｙは

【００５７】

【数１４】

【００５８】となる。関数ｇ₁,ｇ₂が増加関数であるの
で、入力ベクトルの値の符号に対する出力の符号を予測
することができる。この「符号の予測」が定性モデル演
算回路３０３に設定された「定性モデル」に基づいて行
なわれる。（表２）はこの「定性モデル」を表すもので
あり、境界関数符号［ｕ_2A-ｕ_1A-Ｑ_A］及び［ｕ_2B-ｕ_1B
-Ｑ_B］の符号の組合せに対応する予測符号データ（数
３）が示されている。

【００５９】

【表２】

【００６０】（表２）において、予測符号データ（数
３）は次のようにして求められる。例えば領域番号
（１）の場合には、符号ベクトル［△Ｕ_i］＝（＋，
０，−，＋）に対して、予測符号データ（数５）は
“０”となる。（符号ベクトル［△Ｕ _i］がどのような
値をとる場合でも予測符号データ

【００６１】

【数１５】

【００６２】となる。）領域番号（２）の場合には、例
えば符号ベクトル［△Ｕ_i］＝（＋，−，−，＋）に対
して、予測符号データ（数５）は“＋”になる。

【００６３】

【数１６】

【００６４】また例えば、符号ベクトル［△Ｕ_i］＝
（＋、＋、−、＋）に対しては、予測符号データ（数
５）は確定した値が求まらない。

【００６５】

【数１７】

【００６６】定性モデル修正回路３１２の出力は前足先
１０２Ｃと床１０１との摩擦係数μ1、及び後足先１０
２Ｄと床１０１との摩擦係数μ2、前足１０２Ａ及び後
足１０２Ｂのそれぞれの長さによって定まる境界パラメ
ータＱA,ＱBを含んでいる。摩擦係数μ1,μ2は測定の困
難なデータであり、予測できない、従ってそれらを含ん
でいる境界パラメータＱA,ＱBを正確に予測することが
できず、（表２）の予測が正しいとは限らない。この予
測が正しくなかった場合には、出力符号検出回路３１３
により検出された実際の出力値の符号データ[Δｙ]と入
力ベクトル選択回路３０９から出力される予測符号デー
タ（数７）が一致しない。このような場合には定性モデ
ル演算回路３０３で用いられる定性モデルが適正でない
と思われるので、定性モデルの境界パラメータＱA,ＱB
を変更する。

【００６７】実際の数値を当てはめた修正操作の一例を
次に示す。歩行ロボットの入力が

【００６８】

【数１８】

【００６９】であり、Ｑ_A＝２０゜、Ｑ_B＝１０゜とする
と、（数１０）式から

【００７０】

【数１９】

【００７１】また（数１１）式から

【００７２】

【数２０】

【００７３】（数１９）式と（数２０）式の演算結果か
ら（表２）の領域番号（２）が選択される。

【００７４】このとき、入力変化ベクトルとして例えば
次のデータを入力するとする。

【００７５】

【数２１】

【００７６】この場合、予測符号データ（数３）は（表
２）から次のように計算される。

【００７７】

【数２２】

【００７８】次に上記の入力変化ベクトルが与えられた
歩行ロボットの歩行動作終了後の符号データ［Δｙ］が
“−”になった場合には、領域番号の選択が間違ってい
ると予想される。そこで（表２）において、予測符号デ
ータ（数３）が“−”になる領域番号をさがす。その結
果、適合する領域番号は（４）であることがわかる
（（数２０）式の演算から）。

【００７９】そこで、（数１８）式,（数２１）式のデ
ータにおいて、領域番号（４）の境界関数に適合するよ
うな境界パラメータＱ_A,Ｑ_Bを求める。

【００８０】（数１０）式、（数１１）式から

【００８１】

【数２３】

【００８２】上の２式が成立するためにはＱ_A',Ｑ_B'の
値を次のようにすればよい。

【００８３】

【数２４】

【００８４】ここで、“ε”は正の実数である。他方符
号データ［Δｙ］が“＋”の場合には

【００８５】

【数２５】

【００８６】であるので、予測符号データと符号データ
が一致する。したがって境界パラメータＱ_A,Ｑ_Bの修正
はしない。

【００８７】両足の摩擦係数が等しく（μ₁＝μ₂）、か
つ前足と後足の長さが等しい（Ｌ₁＝Ｌ₂）場合には、Ｑ
_A＝Ｑ_B＝０である。したがって定性モデルの修正は行な
わない。その結果定性モデル修正回路３１２、出力変化
符号検出回路３１３及びスイッチ３１４,３１５のない
図６の回路を用いることができる。

【００８８】また、この実施例は学習制御を歩行ロボッ
トに適用しているが、本発明の学習制御は化学プラント
や空調システム等にも適用することができる。

【００８９】

【発明の効果】以上、本発明によれば、定性モデル演算
回路３０３および入力変化ベクトル選択回路３０９にお
いて、歩行距離ｙを所望の目標歩行距離ｙ_dに近づける
ことができる入力変化ベクトル△Ｕ_jのみを選択し、こ
れについてのみ歩行動作を行うため、従来のようにすべ
ての入力変化ベクトルについて試行する必要がなく、目
標歩行距離ｙ_dに到達するまでの歩行動作の繰り返し回
数を極めて少なくすることができる。さらに、摩擦係数
μ₁およびμ₂や前足１０２Ａの長さＬ₁および後足１０
２Ｂの長さＬ₂が変化し、歩行距離ｙが目標歩行距離ｙ_d
から離れる傾向にある場合には、定性モデル修正回路に
おいて歩行距離ｙが目標歩行距離ｙ_dに近づくように定
性モデルを修正するため、繰り返し回数を少なくできる
効果を維持することができる。実際に実験では、同じ目
標歩行距離ｙ_dに到達するのに、従来例では既に述べた
ように約８１０回の試行を必要としていたのに対し、本
発明では約１０回の試行で実現でき、大きな効果を確認
できた。

【図面の簡単な説明】

【図１】本発明の第１の実施例における学習制御装置の
ブロック図である。

【図２】本発明の学習制御装置の制御対象の一例であ
る、歩行ロボットの斜視図である。

【図３】本発明の学習制御装置の制御対象の一例であ
る、歩行ロボットの動作例を表わす正面図である。

【図４】本発明の第１の実施例である学習制御装置にお
ける定性モデル修正回路と出力符号検出回路の動作を示
すフローチャート図である。

【図５】本発明の学習制御装置の制御対象の一例であ
る、歩行ロボットの動作中を示す正面図である。

【図６】本発明の第２の実施例における学習制御装置の
ブロック図である。

【符号の説明】

１００胴体１０１床１０２Ａ前足１０２Ｂ後足１０２Ｃ前足先１０２Ｄ後足先１０３Ａモータ１０３Ｂモータ１０４ドライバー回路１０５歩行ロボット１０６出力検出器３０５Ａ、３０５Ｂスイッチ３０６誤差演算回路３０８誤差符号検出回路３１０入力変化ベクトル決定回路３１１入力ベクトル更新回路３１４スイッチ３１５スイッチ３１６スイッチ

Claims

(57)【特許請求の範囲】

【請求項１】制御対象に印加する制御入力Ｕを変化させ
る複数の入力変化ベクトルΔＵiを発生させる手段と、
前記入力変化ベクトルΔＵiに所定の定性モデルにもと
づいた演算を行い予測符号データ【数１】を出力する定性モデル演算手段と、前記制御対象の出力
ｙを検出する検出手段と、前記検出手段の検出値ｙと目
標値ｙdとの差の値の符号を検出する誤差符号検出手段
と、前記誤差符号検出手段の出力[ｅ]及び前記予測符号
データ（数１）に基づいて、前記入力変化ベクトルΔＵ
iを選択する入力変化ベクトル選択回路と、前記制御対
象の出力の値の変化を表す所定の符号を検出する出力符
号検出手段と、前入力ベクトル選択回路で選択された入
力変化ベクトルを前記制御対象の入力に加算する入力ベ
クトル更新手段と、前記制御対象の入力及び前記出力符
号検出手段の検出出力および前記予測符号データに基づ
いて前記定性モデルを修正する定性モデル修正手段を具
備し、前記制御対象の出力ｙを目標値Ｙｄに一致させる
学習制御装置。
【請求項２】定性モデル演算手段は入力ベクトルＵと少
なくとも１つの境界パラメータを有する境界関数と前記
入力ベクトルを前記境界関数に代入することによって得
られる値の符号に対応する少なくとも１つの定性式によ
って表される定性モデルを有することを特徴とする請求
項１記載の学習制御装置。
【請求項３】定性モデル修正手段は、境界パラメータを
変更する手段を有することを特徴とする請求項２記載の
学習制御装置。
【請求項４】制御対象に印加する制御入力Ｕを変化させ
る複数の入力変化ベクトルΔＵiを発生させる手段と、
前記入力変化ベクトルΔＵiに所定の定性モデルにもと
づいた演算を行い予測符号データ（数１）を出力する定
性モデル演算手段と、前記制御対象の出力ｙを検出する
検出手段と、前記検出手段の検出値ｙと目標値ｙdとの
差の値の符号を検出する誤差符号検出手段と、前記誤差
符号検出手段の出力[ｅ]及び前記予測符号データ（数
１）に基づいて、前記入力変化ベクトルΔＵiを選択す
る入力変化ベクトル選択回路と、前記入力ベクトル選択
回路で選択された入力変化ベクトルを前記制御対象の入
力に加算する入力ベクトル更新手段を具備し、前記制御
対象の出力ｙを目標値Ｙｄに一致させる学習制御装置。
【請求項５】定性モデル演算手段は入力ベクトルＵと少
なくとも１つの境界パラメータを有する境界関数と、前
記入力ベクトルを前記境界関数に代入することによって
得られる値の符号に対応する少なくとも１つの定性式に
よって表される定性モデルを有することを特徴とする請
求項４記載の学習制御装置。