JPH056202A

JPH056202A - 学習制御装置

Info

Publication number: JPH056202A
Application number: JP15646191A
Authority: JP
Inventors: Shigeaki Matsubayashi; 成彰松林; Osamu Ito; 修伊藤; Yasuyuki Shintani; 保之新谷
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1991-06-27
Filing date: 1991-06-27
Publication date: 1993-01-14

Abstract

(57)【要約】【目的】制御対象への入力Ｕを微小変化させて得られ
る出力ｙを検出し、出力ｙが目標値ｙdに一致するまで
微小変化を繰り返し試行する学習制御装置において、必
要な繰り返し回数を少なくし、最適な制御入力Ｕを与え
ることを目的とする。【構成】評価値演算回路４０１で評価値Ｈiを演算
し、入力変化ベクトル選択回路３０９で、この評価値Ｈ
iを最大あるいは最小にする入力変化ベクトルと予測符
号データを選択するため、ランダムに選択する必要がな
く、最適な入力変化ベクトル△Ｕjと最適な予測符号デ
ータ（数１）を選択できる。【数１】さらに評価値Ｈiを演算する評価関数を制御入力Ｕと制
御入力Ｕの上限値および下限値で構成することにより、
制御入力Ｕが上限値および下限値に近づかないようにし
ながら目標歩行距離ｙdに到達できる_。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、例えば歩行ロボットや
化学プラントなどのように、入出力間の関係をあらかじ
め正確に把握する事が困難な制御対象を制御する事が可
能な学習制御装置に関するものである。

【０００２】

【従来の技術】本出願人はすでに、必要な繰り返し回数
が極めて少ない効果を有する学習制御装置を提案してい
る。（特願平３−５０３２）以下図面を用いて、既に本
出願人が提案した学習制御装置の一例について説明す
る。

【０００３】図３は既に本出願人が提案した学習制御装
置の制御対象である歩行ロボットである。図３におい
て、歩行ロボット１０５は前足１０２Ａおよび後足１０
２Ｂより構成されており、胴体１００で接続されてい
る。さらに前足１０２Ａおよび後足１０２Ｂはそれぞれ
モーター１０３Ａおよび１０３Ｂで駆動されており、各
モータの回転はドライバー回路１０４より指令されてい
る。また歩行ロボットが移動した距離は出力検出器１０
６で検出される。

【０００４】以上のように構成された歩行ロボット１０
５の動作は（数２）のように表現できる。

【０００５】

【数２】

【０００６】ここで、ｙは歩行ロボットの出力である歩
行距離、Ｕ＝（ｕ_1A,ｕ_1B,ｕ_2A,ｕ_2B）は歩行ロボット
の前足１０２Ａおよび後足１０２Ｂへの入力ベクトルで
あるモータ回転角ベクトル、ｇは正確に把握することが
困難な関数である。

【０００７】（数２）のｙを目標歩行距離ｙdに一致さ
せるためのＵを求めるために、既に本出願人が提案した
学習制御装置のブロック図を図２に示す。

【０００８】図２において、制御対象は図４（ａ）およ
び図４（ｂ）に示す歩行ロボット１０５である。図４
（ａ）および図４（ｂ）において、歩行機械１０５は、
胴体１００に前足１０２Ａおよび後足１０２Ｂが取り付
けられており、それぞれがモータ１０３Ａおよび１０３
Ｂで回動できるように構成されている。床１０１と接触
している前足先１０２Ｃおよび後足先１０２Ｄのそれぞ
れの摩擦係数は互いに異なっている。また歩行ロボット
が移動した距離は出力検出器１０６で検出される。

【０００９】上記の歩行ロボット１０５の動作を以下に
説明する。歩行ロボットに与えられる入力ベクトルＵは
（数３）によって表される。

【００１０】

【数３】

【００１１】（数３）において、ｕ_1Aは動作前の前足の
角度、ｕ_1Bは動作後の前足の角度、ｕ _2Aは動作前の後足
の角度、ｕ_2Bは動作後の後足の角度である。

【００１２】制御入力Ｕはベクトル量であり、その要素
ｕ_1A,ｕ_1B,ｕ_2A及びｕ_2Bはいずれも実数で定義される。

【００１３】前足１０２Ａと後足１０２Ｂはそれぞれの
モータ１０３Ａ及び１０３Ｂにより、図４（ａ）及び図
４（ｂ）に示すように回転される。その結果前足先１０
２Ｃ及び後足先１０２Ｄの床面１０１に対する摩擦力が
同じでない場合歩行ロボット１０５は一定方向に移動す
る。

【００１４】歩行ロボットは図４（ａ）に示す状態から
図４（ｂ）に示す状態に動作し、次に再び図４（ａ）に
示す状態に戻り、１サイクルの歩行動作を完了する。従
って（数３）は歩行ロボットの半サイクルの動作を表し
ている。

【００１５】歩行ロボット１０５が図４（ａ）、図４
（ｂ）に示す１サイクルの歩行動作によって進む距離を
ｙとすると、制御入力Ｕと距離ｙの関係は（数２）によ
って表される。この（数２）における関数ｇは、前足１
０２Ａと後足１０２Ｂにおける歩行ロボット１０５の重
量配分、前足１０２Ａの長さＬ₁と後足１０２Ｂの長さ
Ｌ₂の比、及び床１０１と各足先１０２Ｃ、１０２Ｄ間
の摩擦係数等によって変化する。

【００１６】図２において、既に本出願人が提案した学
習制御装置は、入力変化ベクトルを定める入力変化ベク
トル決定回路３１０、入力変化ベクトル決定回路３１０
の出力に基づいて、歩行ロボットに入力される入力ベク
トルを更新する入力ベクトル更新回路３１１、距離検出
器１０６の出力から移動方向の符号（一定の方向を正
又は負と定めておく）を検出する出力符号検出回路３１
３、定性モデル修正回路３１２及び誤差符号検出回路３
０８を有している。

【００１７】入力変化ベクトル決定回路３１０は次に示
す回路を有している。（１）入力変化ベクトルメモリ３０１：あらかじめ定
められた８１個の入力変化ベクトルΔＵ₁，…，ΔＵ₈₁
がメモリされている。この例では、入力変化ベクトルΔ
Ｕ_iの個数は３⁴＝８１個となり、”３”は各要素の符号
の種類数、すなわち”＋”、”−”あるいは”０”の３
個に相当し、ベキ数”４”は入力変化ベクトル△Ｕ_iの
次数に相当する。入力変化ベクトルΔＵ_iは４つのデー
タ（Δｕ_1A,Δｕ_1B,Δｕ_2A,Δｕ_2B）を含んでおり、各
データは正の値、負の値、零のいずれかである。例えば
（Δｕ_1A,０,０,０）、（０,-Δｕ_1B,Δｕ_2A,Δｕ_2B）
となる。正の値はあらかじめ定められた方向への増加を
表し、負の値は減少を表している。零は変化のないこと
を表している。各データ（Δｕ_1A,Δｕ_1B,Δｕ_2A,Δｕ
_2B）は前足１０２Ａ及び後足１０２Ｂの回転角度に加え
られる微少角であり、例えば２゜などの微小な値が設定
される。各データがすべて同じ角度である必要はなく、
互に異なる値が設定されてもよい（例：２,−３゜,０
゜,２゜）。（２）スイッチ３０５Ａ：入力変化ベクトルメモリ３
０１のデータを符号ベクトル検出器３０２に入力すると
き閉にされる。（３）符号ベクトル検出器３０２：入力ベクトルメモ
リ３０１から入力される入力変化ベクトルΔＵ_iに基づ
いて、その各データの符号（＋、−、０）を表す符号ベ
クトル［ΔＵ_i］を出力する。（以後［］に入れられ
た文字はその文字が表すデータの符号“＋”、“−”、
あるいは“０”を示す。）例えば入力変化ベクトルΔＵ
_i＝（０,-Δｕ_1B,Δｕ _2A,Δｕ_2B）が入力されると、符
号ベクトル［ΔＵ_i］＝（０,−,＋,＋）が出力される。（４）定性モデル演算回路３０３：符号ベクトル検出
器３０２から出力される符号ベクトル［ΔＵ_i］に基づ
いて、歩行ロボット１０５の移動距離と移動方向を表す
出力ｙの符号（移動方向に対応する）を予測する演算回
路を有する。演算はあらかじめ設定された定性モデルに
従って行なわれ、結果の予測符号データ

【００１８】

【数４】

【００１９】が出力される。以後文字の上のハット
“＾”はその文字が表すデータの予測データを表す。
予測符号データ（数４）は出力ｙの変化方向を示す符号
を表しており、増加予測は“＋”、減少予測は“−”、
変化なしは“０”、予測不可能は“？”のいずれかのデ
ータを有する。（５）スイッチ３０５Ｂ：定性モデル演算回路３０３
の出力データをメモリ３０４に入力するときに閉じられ
る。（６）メモリ３０４：定性モデル演算回路３０３から
出力された予測符号データ（数４）はスイッチ３０５Ｂ
を経てメモリ３０４にメモリされる。通常８１個の予測
符号データ

【００２０】

【数５】

【００２１】がメモリされる。（７）入力変化ベクトル選択回路３０９：メモリ３０
４からの予測符号データ（数４）と入力変化ベクトルΔ
Ｕ_iが入力され、そのすべての予測符号データ（数５）
からその符号が後に述べる誤差符号検出回路３０８から
入力される誤差の値の符号［ｅ］と一致する１個の予測
符号データ

【００２２】

【数６】

【００２３】が選択され、定性モデル修正回路３１１に
印加される。この学習制御装置はさらに次の回路を備え
ている。誤差符号検出回路３０８は距離検出器１０６に
よって検出された値ｙと目標値ｙ_dとの差を求める誤差
演算回路３０６を備え、演算結果の誤差ｅを符号検出回
路３０７に入力する。符号検出回路３０７においては、
誤差ｅの値の符号［ｅ］を検出し、入力変化ベクトル選
択回路３０９に入力する。符号［ｅ］は“＋”、
“−”、“０”のいずれか１つを表すデータを有してい
る。すなわち符号［ｅ］は出力ｙを目標出力ｙ_dに近づ
けるために出力ｙを増加又は減少させるか、あるいは現
在の値を保持すべきかの情報を有している。

【００２４】入力ベクトル更新回路３１１は入力変化ベ
クトル選択回路３０９から出力される入力変化ベクトル
ΔＵ_jと現在の入力Ｕとを加算演算し、更新された新し
い入力Ｕを出力する。スイッチ３１６は上記の加算演算
中は開となる。

【００２５】定性モデル修正回路３１２には入力Ｕ、予
測符号データ（数６）が入力される。また出力符号検出
回路３１３において、移動距離の変化方向を表す符号変
化ベクトル［△ｙ］が検出されるとスイッチ３１４が閉
となり（図５のフローチャート図のステップ１，２）、
符号変化ベクトル［△ｙ］が定性モデル修正回路３１２
に入力される（ステップ３）。

【００２６】定性モデル修正回路３１２において、符号
変化ベクトル［△ｙ］と予測符号データ（数６）が比較
され（ステップ４）、両者が等しくない場合はスイッチ
３１５が閉となり修正出力ＱA、ＱBが定性モデル演算回
路３０３に入力される（ステップ５,６）。

【００２７】定性モデルについて以下に説明する。歩行
ロボットが前足１０２Ａと後足１０２Ｂを開いた図４
（ａ）の姿勢から図４（ｂ）に示す両足１０２Ａ,１０
２Ｂを閉じた姿勢へ移るとき、前足先１０２Ｃの摩擦力
が後足先１０２Ｄの摩擦力より大きいときは、前足先１
０２Ｃは床１０１上をすべらず、後足先１０２Ｄのみが
床１０１上をすべって、歩行ロボットは図６に示すよう
に距離ｙ_ABだけ移動する。この場合、前足１０２Ａの角
度の変化量（ｕ_1A-ｕ_1B）が大きいほど移動の距離ｙ_AB
は大きい。従って後足１０２Ｂの回転量は移動距離に貢
献しない。その結果、前記の姿勢の変化による移動距離
ｙ_ABは（数７）により表される。

【００２８】

【数７】

【００２９】ここに、Ｆ_1Aは前足先１０２Ｃの摩擦力、
Ｆ_2Aは後足先１０２Ｄの摩擦力である。

【００３０】ｇ₁,ｇ₂は増加関数であり、ｇ₁（０）＝ｇ
₂（０）＝０である。（数７）において、式（Ｆ_1A-
Ｆ_2A）の値の符号を判定する必要があるが、これらの摩
擦力を検出するこは極めて困難である。そこで検知可能
な角度データである入力ベクトル（ｕ_1A,ｕ_1B,ｕ_2A,ｕ
_2B）を用いてこの式（Ｆ_1A-Ｆ_2A）に等価な式を表す。

【００３１】（数７）における式（Ｆ_1A-Ｆ_2A＝０）は
前足先１０２Ｃと後足先１０２Ｄの摩擦力が等しいこと
を表している。前足１０２Ａの長さＬ₁と後足１０２Ｂ
の長さＬ₂が等しく、前足１０２Ａと床１０１間の摩擦
係数μ₁、後足１０２Ｂと床１０１間の摩擦係数μ₂が等
しいと仮定すると、式（Ｆ_1A-Ｆ_2A＝０）は式（ｕ_1A-ｕ
_2A＝０）と等価である。

【００３２】上記の関係は一般には（数８）によって表
される。

【００３３】

【数８】

【００３４】ここで、Ｑ_AはＬ₁,Ｌ₂,μ₁,μ₂の関係によ
って変動する境界パラメータであり、従ってｕ_2A-ｕ_1A-
Ｑ_Aは入力と境界パラメータからなる境界関数であり、
入力と同じ次元である。ただし、Ｌ₁＝Ｌ₂ かつμ₁＝μ
₂の時はＱ_A＝０となる。

【００３５】（数３）と（数７）を組み合わせると、
（数９）が得られる。

【００３６】

【数９】

【００３７】同様に考えると、図４（ｂ）から図４
（ａ）へ変化するときの歩行距離ｙBAは（数１０）で表
される。

【００３８】

【数１０】

【００３９】また、歩行ロボットが図４（ａ）→図４
（ｂ）→図４（ａ）と変化するとき、歩行距離ｙは、
（数１１）で表わされる。

【００４０】

【数１１】

【００４１】（数８）〜（数１０）をまとめると（表
１）のようになる。

【００４２】

【表１】

【００４３】（表１）において、領域番号（１〜９）は
歩行ロボットに与えた入力Ｕ＝（ｕ1A,ｕ₁B,ｕ₂A,ｕ
₂B）と境界パラメータＱA,Ｑ_Bの差の値の符号によって
分けられる領域を示すものである。その領域は、（数
９）において、入力値（ｕ1A-ｕ2_A _）と境界パラメー
タＱAの差の値の符号から３通りに分けられる。また
（数１０）において、入力値（ｕ2B-ｕ1_A）と境界パラ
メータＱBの差の値の符号から３通りの領域に分けられ
る。従って９（３×３＝９）通りの領域に区分され、そ
れぞれの領域において歩行距離ｙを求めるための関数が
異なる。

【００４４】境界関数の値の符号は次にようにして得ら
れる。例えば、領域番号（１）において、境界関数符号
［ｕ2A-ｕ1_A-ＱA］についてはｕ2A-ｕ1_A-ＱA＞０である
のでその値の符号は“＋”である。同様にして、領域番
号（２）において、境界関数符号［ｕ2B-ｕ1_B-ＱB］に
ついてはｕ2B-ｕ1_B-ＱB_＝０であるのでその値は“０”
となる。

【００４５】各領域番号における出力値ｙは次のように
して求められる。すなわち、領域番号（１）では、（数
９）よりｙAB＝ｇ1（ｕ1A-ｕ1B）_、（数１０）よりｙBA
＝-ｇ1（ｕ1A-ｕ1B）であるので、歩行距離ｙは

【００４６】

【数１２】

【００４７】となる。また、領域番号（２）では、（数
９）よりｙAB＝ｇ1（ｕ₁A-ｕ₁B）、（数５）よりｙBA＝
０であるので、歩行距離ｙは

【００４８】

【数１３】

【００４９】となる。関数ｇ1,ｇ2が増加関数であるの
で、入力ベクトルの値の符号に対する出力の符号を予測
することができる。この「符号の予測」が定性モデル演
算回路３０３に設定された「定性モデル」に基づいて行
なわれる。（表２）はこの「定性モデル」を表すもので
あり、境界関数符号［ｕ2A-ｕ1A-Ｑ_A］及び［ｕ2B-ｕ1B
-Ｑ_B］の符号の組合せに対応する予測符号データ

【００５０】

【数１４】

【００５１】が示されている。

【００５２】

【表２】

【００５３】（表２）において、予測符号データ（数１
４）は次のようにして求められる。例えば領域番号
（１）の場合には、符号ベクトル［△Ｕi］＝（＋，
０，−，＋）に対して、予測符号データ（数４）は
“０”となる。（符号ベクトル［△Ｕi］がどのような
値をとる場合でも予測符号データ

【００５４】

【数１５】

【００５５】となる。）領域番号（２）の場合には、例
えば符号ベクトル［△Ｕi］＝（＋，−，−，＋）に対
して、予測符号データ（数４）は“＋”になる。

【００５６】

【数１６】

【００５７】また例えば、符号ベクトル［△Ｕi］＝
（＋_、＋、−、＋）に対しては、予測符号データ（数
４）は確定した値が求まらない。

【００５８】

【数１７】

【００５９】定性モデル修正回路３１２の出力は前足先
１０２Ｃと床１０１との摩擦係数μ1、及び後足先１０
２Ｄと床１０１との摩擦係数μ2、前足１０２Ａ及び後
足１０２Ｂのそれぞれの長さによって定まる境界パラメ
ータＱA,ＱBを含んでいる。摩擦係数μ1,μ2は測定の困
難なデータであり、予測できない、従ってそれらを含ん
でいる境界パラメータＱA,ＱBを正確に予測することが
できず、（表２）の予測が正しいとは限らない。この予
測が正しくなかった場合には、出力符号検出回路３１３
により検出された実際の出力値の符号データ［Δｙ］と
入力ベクトル選択回路３０９から出力される予測符号デ
ータ（数１４）が一致しない。このような場合には定性
モデル演算回路３０３で用いられる定性モデルが適正で
ないと思われるので、定性モデルの境界パラメータＱA,
ＱBを変更する。

【００６０】実際の数値を当てはめた修正操作の一例を
次に示す。歩行ロボットの入力が

【００６１】

【数１８】

【００６２】であり、ＱA＝２０゜、ＱB＝１０゜とする
と、（数９）から

【００６３】

【数１９】

【００６４】また（数１０）から

【００６５】

【数２０】

【００６６】（数１９）と（数２０）の演算結果から
（表２）の領域番号（２）が選択される。

【００６７】このとき、入力変化ベクトルとして例えば
次のデータを入力するとする。

【００６８】

【数２１】

【００６９】この場合、予測符号データ（数１４）は
（表２）から次のように計算される。

【００７０】

【数２２】

【００７１】次に上記の入力変化ベクトルが与えられた
歩行ロボットの歩行動作終了後の符号データ［Δｙ］が
“−”になった場合には、領域番号の選択が間違ってい
ると予想される。そこで（表２）において、予測符号デ
ータ（数１４）が“−”になる領域番号をさがす。その
結果、適合する領域番号は（４）であることがわかる
（（数２０）の演算から）。

【００７２】そこで、（数１８）,（数２１）のデータ
において、領域番号（４）の境界関数に適合するような
境界パラメータＱA,ＱBを求める。

【００７３】（数９）、（数１０）から

【００７４】

【数２３】

【００７５】上の２式が成立するためにはＱA',ＱB'の
値を次のようにすればよい。

【００７６】

【数２４】

【００７７】ここで、“ε”は正の実数である。他方符
号データ［Δｙ］が“＋”の場合には

【００７８】

【数２５】

【００７９】であるので、予測符号データと符号データ
が一致する。したがって境界パラメータＱA,ＱBの修正
はしない。

【００８０】両足の摩擦係数が等しく（μ1＝μ2）、か
つ前足と後足の長さが等しい（Ｌ1＝Ｌ2）場合には、Ｑ
A＝ＱB＝０である。したがって定性モデルの修正は行な
わない。その結果定性モデル修正回路３１２、出力変化
符号検出回路３１３及びスイッチ３１４,３１５のない
図７の回路を用いることができる。

【００８１】

【発明が解決しようとする課題】既に本出願人が提案し
た学習制御装置では、入力変化ベクトル決定回路３１０
にさらなる問題点があることがわかった。すなわち、
（７）入力変化ベクトル選択回路３０９では、メモリ３
０４から入力されるすべての予測符号データ（数５）の
中から、その符号が誤差符号検出回路３０８から入力さ
れる誤差の値の符号［ｅ］と一致する予測符号データ
（数６）が選択され定性モデル修正回路３１１に印加さ
れ、さらにそれに対応する入力変化ベクトルΔＵjが入
力ベクトル更新回路３１１に印加されていた。しかしな
がら符号［ｅ］および予測符号データ（数４）は
“＋”、“−”、“０”のいずれか１つを表すデータで
あり、高々３種類しかない。これに対して、すべての予
測符号データ（数５）は８１個も存在するため、符号
［ｅ］に一致する予測符号データは一般には複数個存在
する。このため、既に本出願人が提案した学習制御装置
の方式では符号［ｅ］に一致する複数個の予測符号デー
タの中から１つ選択する方法として、番号の小さいもの
を優先に選択したり、あるいはランダムに１つ選択した
りしていた。このことは、入力変化ベクトルΔＵjに対
しても番号の小さいものを優先に選択したり、あるいは
ランダムに１つ選択したりすることになるため、最適な
入力変化ベクトルΔＵjを選択することができない課題
を有していた。

【００８２】したがって本発明の目的は、最適な入力変
化ベクトルΔＵjを１つ選択する学習制御装置を提供す
る事である。

【００８３】

【課題を解決するための手段】この目的を達成するため
に、本発明は以下のような構成を備えたものである。即
ち、制御対象に印加する制御入力Ｕを変化させる複数の
入力変化ベクトルΔＵiを発生させる手段と、前記入力
変化ベクトルΔＵiに所定の定性モデルにもとづいた演
算を行ない予測符号データ（数１４）を出力する定性モ
デル演算手段と、前記制御対象の出力ｙを検出する検出
手段と、前記検出手段の検出値ｙと目標値ｙdとの差の
値の符号を検出する誤差符号検出手段と、前記入力変化
ベクトルΔＵiに所定の評価関数に基づいた演算を行い
評価値Ｈiを出力する評価値演算手段と、前記誤差符号
検出手段の出力［ｅ］及び前記予測符号データ（数１
４）、および前記評価値Ｈiに基づいて、前記入力変化
ベクトルΔＵiを選択する入力変化ベクトル選択回路
と、前記制御対象の出力の値の変化を表す所定の符号を
検出する出力符号検出手段と、前記入力ベクトル選択回
路で選択された入力変化ベクトルを前記制御対象の入力
に加算する入力ベクトル更新手段と、前記制御対象の入
力及び前記出力符号検出手段の検出出力に基づいて前記
定性モデルを修正する定性モデル修正手段を具備するこ
とを特徴とする学習制御装置を提供するものである。

【００８４】

【作用】本発明によれば、評価値演算手段において、入
力変化ベクトルΔＵiに対して所定の評価関数に基づき
演算を行い評価値Ｈiを求めておき、誤差符号検出手段
の出力［ｅ］に一致する複数の予測符号データ（数４）
に対応する複数の入力変化ベクトルΔＵiの中から、さ
らに評価値Ｈiを最高あるいは最低にする入力変化ベク
トルを最適入力変化ベクトルΔＵjと決定し、選択する
ことができる。

【００８５】

【実施例】以下図面を用いて、本発明の第一の実施例に
ついて説明する。図１は本発明の第一の実施例における
学習制御装置のブロック図である。制御対象は既に本出
願人が提案した学習制御装置と同じ歩行ロボットであ
る。

【００８６】図１において、第一の実施例の学習制御装
置は、評価値Ｈiを演算する評価値記憶回路４０４、評
価値Ｈiに基づいて入力変化ベクトルを定める入力変化
ベクトル決定回路３１０、入力変化ベクトル決定回路３
１０の出力に基づいて、歩行ロボットに入力される入力
ベクトルを更新する入力ベクトル更新回路３１１、距離
検出器１０６の出力から移動方向の符号（一定の方向
を正又は負と定めておく）を検出する出力符号検出回路
３１３、定性モデル修正回路３１２及び誤差符号検出回
路３０８を有している。

【００８７】評価値記憶回路４０４は次に示す回路を有
している。（１）スイッチ４０３Ａ：入力変化ベクトルメモリ３
０１から入力変化ベクトルΔＵiを評価値演算回路４０
１に入力するとき閉にされる。（２）評価値演算回路４０１：スイッチ４０３Ａを通
して入力された入力変化ベクトルΔＵiに対し、所定の
評価関数に基づき評価値Ｈiを演算する。評価関数は評
価する内容によって様々な構成が考えられるが、その１
つとして入力が上限値および下限値に近づかないための
評価関数を与えることが制御上では特に有効である。制
御入力Ｕには、制御対象のハードウェアなどの制約から
上限値および下限値が必ず存在し、入力がそれに近づか
ないことが望ましい。制御入力Ｕが上限値および下限値
に達すると制御不能になるからである。従って、入力変
化ベクトルΔＵiを与えた結果、制御入力Ｕができるだ
け上限値および下限値に近づかないものを、最適入力変
化ベクトルとして選択できる評価関数を構成する。例え
ば、次式のような評価関数Ｊ（ΔＵi）を与える。

【００８８】

【数２６】

【００８９】（数２６）は、制御入力Ｕ＝（ｕ1A,ｕ1B,
ｕ2A,ｕ₂B）と各要素に対応する上限値ｕ1A_max,ｕ1B_m
ax_,ｕ2A_max_,ｕ2B_maxと下限値ｕ1A_{_}min,ｕ1B_min_,ｕ2A
_min_,ｕ2B_minで構成されている。この上限値および下
限値は歩行ロボットの構造上の制約から決まる定数であ
る。ａiおよびｂiは定数である。

【００９０】（数２６）は１つの変数（仮にｘとする）
に対しては（数２７）の構成をとっており、ｘが上限値
ｘmaxあるいは下限値ｘminに近づけばＪ(ｘ）の値は急
激に大きくなる。

【００９１】

【数２７】

【００９２】従って、評価値Ｈi＝Ｊ（ΔＵi）を演算し
た場合、最小の評価値Ｈiを与える入力変化ベクトルΔ
Ｕiを選択すれば制御入力Ｕの各要素の上限値および下
限値に近づかない入力が構成でき、これを最適入力変化
ベクトルΔＵjとして選択することができる。（３）スイッチ４０３Ｂ：評価値演算回路４０１から
評価値Ｈiをメモリ４０２に入力するときに閉じられ
る。（４）メモリ４０２：評価値演算回路４０１から出力
された評価値Ｈiはスイッチ４０３Ｂを経てメモリ４０
２にメモリされる。通常８１個の評価値Ｈ1〜Ｈ81がメ
モリされる。

【００９３】入力変化ベクトル決定回路３１０は次に示
す回路を有している。（５）入力変化ベクトルメモリ３０１：（６）スイッチ３０５Ａ：（７）符号ベクトル検出器３０２：（８）定性モデル演算回路３０３：（９）スイッチ３０５Ｂ：（１０）メモリ３０４：は、既に本出願人が提案した学習制御装置の有する回路
と動作が同じであるから説明を省略する。（１１）入力変化ベクトル選択回路３０９：メモリ３
０４からの予測符号データ（数４）と入力変化ベクトル
ΔＵiが入力され、そのすべての予測符号データ（数
５）からその符号が誤差符号検出回路３０８から入力さ
れる誤差の値の符号［ｅ］と一致する複数個の予測符号
データ（数４）が選択される。さらにそれに対応する複
数個の入力変化ベクトルΔＵiの中から、評価値記憶回
路４０４のメモリ４０２の評価値Ｈiを最大あるいは最
小にする入力変化ベクトルが最適入力変化ベクトルΔＵ
jとして選択され、入力ベクトル更新回路３１１に印加
される。さらに、最適入力変化ベクトルΔＵjに対応す
る予測符号データが最適予測符号データ（数６）として
選択され、定性モデル修正回路３１１に印加される。ま
た、（２）評価値演算回路４０１で説明したように、評
価値Ｈiを演算する評価関数を（数２６）のように構成
すれば、評価値Ｈiを最小にするものを最適として選択
する。

【００９４】誤差符号検出回路３０８、入力ベクトル更
新回路３１１、定性モデル修正回路３１２、出力符号検
出回路３１３については、既に本出願人が提案した学習
制御装置の有する回路と動作が同じであるから説明を省
略する。

【００９５】なお、既に本出願人が提案した学習制御装
置でも説明したように、歩行ロボットの両足の摩擦係数
が等しく（μ1＝μ2）、かつ前足と後足の長さが等しい
（Ｌ1＝Ｌ2）場合には、ＱA＝ＱB＝０である。したがっ
て定性モデルの修正は行なわない。その結果定性モデル
修正回路３１２、出力変化符号検出回路３１３及びスイ
ッチ３１４,３１５のない図８の回路を用いることがで
きる。

【００９６】また、この実施例は学習制御を歩行ロボッ
トに適用しているが、本発明の学習制御は化学プラント
や空調システム等にも適用することができる。

【００９７】

【発明の効果】以上、既に本出願人が提案した学習制御
装置は入力変化ベクトル選択回路３０９において、符号
［ｅ］に一致する予測符号データは複数個存在し、この
中から１つ選択する方法として、番号の小さいものを優
先に選択したり、あるいはランダムに１つ選択したりし
ていたのに対し、本発明によれば、評価値演算回路４０
１で評価値Ｈiを演算し、この評価値Ｈiを最大あるいは
最小にする入力変化ベクトルと予測符号データを最適入
力変化ベクトル△Ｕjと最適予測符号データ（数６）を
選択できる。

【００９８】さらに評価値Ｈiを演算する評価関数を制
御入力Ｕと制御入力Ｕの上限値および下限値で構成する
ことにより、制御入力Ｕが上限値および下限値に近づか
ないようにしながら目標歩行距離ｙdに到達できる。

【図面の簡単な説明】

【図１】本発明の第１の実施例における学習制御装置の
ブロック図

【図２】既に本出願人が提案した学習制御装置のブロッ
ク図

【図３】既に本出願人が提案したおよび本発明の学習制
御装置の制御対象の一例である、歩行ロボットの斜視図

【図４】（ａ）は既に本出願人が既に提案したおよび本
発明の学習制御装置の制御対象の一例である、歩行ロボ
ットの動作例を表わす正面図（ｂ）は既に本出願人が既に提案したおよび本発明の学
習制御装置の制御対象の一例である、歩行ロボットの動
作例を表わす正面図

【図５】既に本出願人が提案したおよび本発明の第１の
実施例である学習制御装置における定性モデル修正回路
と出力符号検出回路の動作を示すフローチャート

【図６】既に本出願人が提案したおよび本発明の学習制
御装置の制御対象の一例である、歩行ロボットの動作中
を示す正面図

【図７】既に本出願人が提案した第２の実施例における
学習制御装置のブロック図

【図８】本発明の第２の実施例における学習制御装置の
ブロック図

【符号の説明】

１００胴体１０１床１０２Ａ前足１０２Ｂ後足１０２Ｃ前足先１０２Ｄ後足先１０３Ａモータ１０３Ｂモータ１０４ドライバー回路１０５歩行ロボット１０６出力検出器３１０入力変化ベクトル決定回路３０８誤差符号検出回路３０６誤差演算回路３１１入力ベクトル更新回路３０５Ａ、３０５Ｂスイッチ３１４スイッチ３１５スイッチ３１６スイッチ４０１評価値演算回路４０２メモリ４０３Ａ、４０３Ｂ、４０３Ｃスイッチ

Claims

【特許請求の範囲】

【請求項１】制御対象に印加する制御入力Ｕを変化させ
る複数の入力変化ベクトルΔＵ_iを発生させる手段と、
前記入力変化ベクトルΔＵ_iに所定の定性モデルにもと
づいた演算を行ない予測符号データ【数１】を出力する定性モデル演算手段と、前記制御対象の出力
ｙを検出する検出手段と、前記検出手段の検出値ｙと目
標値ｙ_dとの差の値の符号を検出する誤差符号検出手段
と、前記入力変化ベクトルΔＵ_iに所定の評価関数に基
づいた演算を行い評価値Ｈ_iを出力する評価値演算手段
と、前記誤差符号検出手段の出力［ｅ］及び前記予測符
号データ（数１）、および前記評価値Ｈ_iに基づいて、
前記入力変化ベクトルΔＵ_iを選択する入力変化ベクト
ル選択回路と、前記制御対象の出力の値の変化を表す所
定の符号を検出する出力符号検出手段と、前記入力ベク
トル選択回路で選択された入力変化ベクトルを前記制御
対象の入力に加算する入力ベクトル更新手段と、前記制
御対象の入力及び前記出力符号検出手段の検出出力に基
づいて前記定性モデルを修正する定性モデル修正手段を
具備するように構成し、上記一連の動作を繰り返すこと
で前記制御対象の出力ｙを目標値Ｙdに一致させる学習
制御装置。
【請求項２】評価値演算手段は、制御入力Ｕと前記制御
入力Ｕの上限値および下限値で構成された評価関数に基
づき評価値Ｈ_iを演算することを特徴とする請求項１記
載の学習制御装置。
【請求項３】定性モデル演算手段は入力ベクトルＵと少
なくとも１つの境界パラメータを有する境界関数と前記
入力ベクトルを前記境界関数に代入することによって得
られる値の符号に対応する少なくとも１つの定性式によ
って表される定性モデルを有することを特徴とする請求
項２記載の学習制御装置。
【請求項４】定性モデル修正手段は、境界パラメータを
変更する手段を有することを特徴とする請求項３記載の
学習制御装置。
【請求項５】制御対象に印加する制御入力Ｕを変化させ
る複数の入力変化ベクトルΔＵ_iを発生させる手段と、
前記入力変化ベクトルΔＵ_iに所定の定性モデルにもと
づいた演算を行ない予測符号データ（数１）を出力する
定性モデル演算手段と、前記制御対象の出力ｙを検出す
る検出手段と、前記検出手段の検出値ｙと目標値ｙ_dと
の差の値の符号を検出する誤差符号検出手段と、前記入
力変化ベクトルΔＵ_iに所定の評価関数に基づいた演算
を行い評価値Ｈ_iを出力する評価値演算手段と、前記誤
差符号検出手段の出力［ｅ］及び前記予測符号データ
（数１）、および前記評価値Ｈ_iに基づいて、前記入力
変化ベクトルΔＵ_iを選択する入力変化ベクトル選択回
路と、前記入力ベクトル選択回路で選択された入力変化
ベクトルを前記制御対象の入力に加算する入力ベクトル
更新手段を備え、上記一連の動作を繰り返すことで前記
制御対象の出力ｙを目標値Ｙdに一致させる学習制御装
置。
【請求項６】評価値演算手段は、制御入力Ｕと前記制御
入力Ｕの上限値および下限値で構成された評価関数に基
づき評価値Ｈ_iを演算することを特徴とする請求項５記
載の学習制御装置。
【請求項７】定性モデル演算手段は入力ベクトルＵと少
なくとも１つの境界パラメータを有する境界関数と、前
記入力ベクトルを前記境界関数に代入することによって
得られる値の符号に対応する少なくとも１つの定性式に
よって表される定性モデルを有することを特徴とする請
求項６記載の学習制御装置。
【請求項８】制御対象に印加する制御入力Ｕを変化させ
る複数の入力変化ベクトルΔＵ_iを発生させる手段と、
前記入力変化ベクトルΔＵ_iに所定の定性モデルにもと
づいた演算を行ない予測符号データ（数１）を出力する
定性モデル演算手段と、前記制御対象の出力ｙを検出す
る検出手段と、前記検出手段の検出値ｙと目標値ｙ_dと
の差の値の符号を検出する誤差符号検出手段と、前記入
力変化ベクトルΔＵ_iに制御入力Ｕと前記制御入力Ｕの
上限値および下限値で構成された評価関数に基づいた演
算を行い評価値Ｈ_iを出力する評価値演算手段と、前記
誤差符号検出手段の出力［ｅ］及び前記予測符号データ
（数１）、および前記評価値Ｈ_iに基づいて、前記入力
変化ベクトルΔＵ_iを選択する入力変化ベクトル選択回
路と、前記制御対象の出力の値の変化を表す所定の符号
を検出する出力符号検出手段と、前記入力ベクトル選択
回路で選択された入力変化ベクトルを前記制御対象の入
力に加算する入力ベクトル更新手段と、前記制御対象の
入力及び前記出力符号検出手段の検出出力に基づいて前
記定性モデルを修正する定性モデル修正手段を具備する
ように構成し、上記一連の動作を繰り返すことで前記制
御対象の出力ｙを目標値Ｙdに一致させる学習制御装
置。
【請求項９】制御対象に印加する制御入力Ｕを変化させ
る複数の入力変化ベクトルΔＵ_iを発生させる手段と、
前記入力変化ベクトルΔＵ_iに所定の定性モデルにもと
づいた演算を行ない予測符号データ（数１）を出力する
定性モデル演算手段と、前記制御対象の出力ｙを検出す
る検出手段と、前記検出手段の検出値ｙと目標値ｙ_dと
の差の値の符号を検出する誤差符号検出手段と、前記入
力変化ベクトルΔＵ_iに制御入力Ｕと前記制御入力Ｕの
上限値および下限値で構成された評価関数に基づいた演
算を行い評価値Ｈ_iを出力する評価値演算手段と、前記
誤差符号検出手段の出力［ｅ］及び前記予測符号データ
（数１）、および前記評価値Ｈ_iに基づいて、前記入力
変化ベクトルΔＵ_iを選択する入力変化ベクトル選択回
路と、前記入力ベクトル選択回路で選択された入力変化
ベクトルを前記制御対象の入力に加算する入力ベクトル
更新手段を備え、上記一連の動作を繰り返すことで前記
制御対象の出力ｙを目標値Ｙdに一致させる学習制御装
置。