JPH056202A - 学習制御装置 - Google Patents

学習制御装置

Info

Publication number
JPH056202A
JPH056202A JP15646191A JP15646191A JPH056202A JP H056202 A JPH056202 A JP H056202A JP 15646191 A JP15646191 A JP 15646191A JP 15646191 A JP15646191 A JP 15646191A JP H056202 A JPH056202 A JP H056202A
Authority
JP
Japan
Prior art keywords
input
vector
value
output
equation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP15646191A
Other languages
English (en)
Inventor
Shigeaki Matsubayashi
成彰 松林
Osamu Ito
修 伊藤
Yasuyuki Shintani
保之 新谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP15646191A priority Critical patent/JPH056202A/ja
Publication of JPH056202A publication Critical patent/JPH056202A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Feedback Control In General (AREA)

Abstract

(57)【要約】 【目的】 制御対象への入力Uを微小変化させて得られ
る出力yを検出し、出力yが目標値ydに一致するまで
微小変化を繰り返し試行する学習制御装置において、必
要な繰り返し回数を少なくし、最適な制御入力Uを与え
ることを目的とする。 【構成】 評価値演算回路401で評価値Hiを演算
し、入力変化ベクトル選択回路309で、この評価値H
iを最大あるいは最小にする入力変化ベクトルと予測符
号データを選択するため、ランダムに選択する必要がな
く、最適な入力変化ベクトル△Ujと最適な予測符号デ
ータ(数1)を選択できる。 【数1】 さらに評価値Hiを演算する評価関数を制御入力Uと制
御入力Uの上限値および下限値で構成することにより、
制御入力Uが上限値および下限値に近づかないようにし
ながら目標歩行距離ydに到達できる

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、例えば歩行ロボットや
化学プラントなどのように、入出力間の関係をあらかじ
め正確に把握する事が困難な制御対象を制御する事が可
能な学習制御装置に関するものである。
【0002】
【従来の技術】本出願人はすでに、必要な繰り返し回数
が極めて少ない効果を有する学習制御装置を提案してい
る。(特願平3−5032)以下図面を用いて、既に本
出願人が提案した学習制御装置の一例について説明す
る。
【0003】図3は既に本出願人が提案した学習制御装
置の制御対象である歩行ロボットである。図3におい
て、歩行ロボット105は前足102Aおよび後足10
2Bより構成されており、胴体100で接続されてい
る。さらに前足102Aおよび後足102Bはそれぞれ
モーター103Aおよび103Bで駆動されており、各
モータの回転はドライバー回路104より指令されてい
る。また歩行ロボットが移動した距離は出力検出器10
6で検出される。
【0004】以上のように構成された歩行ロボット10
5の動作は(数2)のように表現できる。
【0005】
【数2】
【0006】ここで、yは歩行ロボットの出力である歩
行距離、U=(u1A,u1B,u2A,u2B)は歩行ロボット
の前足102Aおよび後足102Bへの入力ベクトルで
あるモータ回転角ベクトル、gは正確に把握することが
困難な関数である。
【0007】(数2)のyを目標歩行距離ydに一致さ
せるためのUを求めるために、既に本出願人が提案した
学習制御装置のブロック図を図2に示す。
【0008】図2において、制御対象は図4(a)およ
び図4(b)に示す歩行ロボット105である。図4
(a)および図4(b)において、歩行機械105は、
胴体100に前足102Aおよび後足102Bが取り付
けられており、それぞれがモータ103Aおよび103
Bで回動できるように構成されている。床101と接触
している前足先102Cおよび後足先102Dのそれぞ
れの摩擦係数は互いに異なっている。また歩行ロボット
が移動した距離は出力検出器106で検出される。
【0009】上記の歩行ロボット105の動作を以下に
説明する。歩行ロボットに与えられる入力ベクトルUは
(数3)によって表される。
【0010】
【数3】
【0011】(数3)において、u1Aは動作前の前足の
角度、u1Bは動作後の前足の角度、u 2Aは動作前の後足
の角度、u2Bは動作後の後足の角度である。
【0012】制御入力Uはベクトル量であり、その要素
1A,u1B,u2A及びu2Bはいずれも実数で定義される。
【0013】前足102Aと後足102Bはそれぞれの
モータ103A及び103Bにより、図4(a)及び図
4(b)に示すように回転される。その結果前足先10
2C及び後足先102Dの床面101に対する摩擦力が
同じでない場合歩行ロボット105は一定方向に移動す
る。
【0014】歩行ロボットは図4(a)に示す状態から
図4(b)に示す状態に動作し、次に再び図4(a)に
示す状態に戻り、1サイクルの歩行動作を完了する。従
って(数3)は歩行ロボットの半サイクルの動作を表し
ている。
【0015】歩行ロボット105が図4(a)、図4
(b)に示す1サイクルの歩行動作によって進む距離を
yとすると、制御入力Uと距離yの関係は(数2)によ
って表される。この(数2)における関数gは、前足1
02Aと後足102Bにおける歩行ロボット105の重
量配分、前足102Aの長さL1と後足102Bの長さ
2の比、及び床101と各足先102C、102D間
の摩擦係数等によって変化する。
【0016】図2において、既に本出願人が提案した学
習制御装置は、入力変化ベクトルを定める入力変化ベク
トル決定回路310、入力変化ベクトル決定回路310
の出力に基づいて、歩行ロボットに入力される入力ベク
トルを更新する入力ベクトル更新回路311、距離検出
器106の出力から移動方向の符号 (一定の方向を正
又は負と定めておく)を検出する出力符号検出回路31
3、定性モデル修正回路312及び誤差符号検出回路3
08を有している。
【0017】入力変化ベクトル決定回路310は次に示
す回路を有している。 (1) 入力変化ベクトルメモリ301:あらかじめ定
められた81個の入力変化ベクトルΔU1,…,ΔU81
がメモリされている。この例では、入力変化ベクトルΔ
iの個数は34=81個となり、”3”は各要素の符号
の種類数、すなわち”+”、”−”あるいは”0”の3
個に相当し、ベキ数”4”は入力変化ベクトル△Ui
次数に相当する。入力変化ベクトルΔUiは4つのデー
タ(Δu1A,Δu1B,Δu2A,Δu2B)を含んでおり、各
データは正の値、負の値、零のいずれかである。例えば
(Δu1A,0,0,0)、(0,-Δu1B,Δu2A,Δu2B
となる。正の値はあらかじめ定められた方向への増加を
表し、負の値は減少を表している。零は変化のないこと
を表している。各データ(Δu1A,Δu1B,Δu2A,Δu
2B)は前足102A及び後足102Bの回転角度に加え
られる微少角であり、例えば2゜などの微小な値が設定
される。各データがすべて同じ角度である必要はなく、
互に異なる値が設定されてもよい(例:2,−3゜,0
゜,2゜)。 (2) スイッチ305A:入力変化ベクトルメモリ3
01のデータを符号ベクトル検出器302に入力すると
き閉にされる。 (3) 符号ベクトル検出器302:入力ベクトルメモ
リ301から入力される入力変化ベクトルΔUiに基づ
いて、その各データの符号(+、−、0)を表す符号ベ
クトル[ΔUi]を出力する。(以後[ ]に入れられ
た文字はその文字が表すデータの符号“+”、“−”、
あるいは“0”を示す。)例えば入力変化ベクトルΔU
i=(0,-Δu1B,Δu 2A,Δu2B)が入力されると、符
号ベクトル[ΔUi]=(0,−,+,+)が出力される。 (4) 定性モデル演算回路303:符号ベクトル検出
器302から出力される符号ベクトル[ΔUi]に基づ
いて、歩行ロボット105の移動距離と移動方向を表す
出力yの符号(移動方向に対応する)を予測する演算回
路を有する。演算はあらかじめ設定された定性モデルに
従って行なわれ、結果の予測符号データ
【0018】
【数4】
【0019】が出力される。以後文字の上のハット
“^”はその文字が表すデータの予測データを表す。
予測符号データ(数4)は出力yの変化方向を示す符号
を表しており、増加予測は“+”、減少予測は“−”、
変化なしは“0”、予測不可能は“?”のいずれかのデ
ータを有する。 (5) スイッチ305B:定性モデル演算回路303
の出力データをメモリ304に入力するときに閉じられ
る。 (6) メモリ304:定性モデル演算回路303から
出力された予測符号データ(数4)はスイッチ305B
を経てメモリ304にメモリされる。通常81個の予測
符号データ
【0020】
【数5】
【0021】がメモリされる。 (7) 入力変化ベクトル選択回路309:メモリ30
4からの予測符号データ(数4)と入力変化ベクトルΔ
iが入力され、そのすべての予測符号データ(数5)
からその符号が後に述べる誤差符号検出回路308から
入力される誤差の値の符号[e]と一致する1個の予測
符号データ
【0022】
【数6】
【0023】が選択され、定性モデル修正回路311に
印加される。この学習制御装置はさらに次の回路を備え
ている。誤差符号検出回路308は距離検出器106に
よって検出された値yと目標値ydとの差を求める誤差
演算回路306を備え、演算結果の誤差eを符号検出回
路307に入力する。符号検出回路307においては、
誤差eの値の符号[e]を検出し、入力変化ベクトル選
択回路309に入力する。符号[e]は“+”、
“−”、“0”のいずれか1つを表すデータを有してい
る。すなわち符号[e]は出力yを目標出力ydに近づ
けるために出力yを増加又は減少させるか、あるいは現
在の値を保持すべきかの情報を有している。
【0024】入力ベクトル更新回路311は入力変化ベ
クトル選択回路309から出力される入力変化ベクトル
ΔUjと現在の入力Uとを加算演算し、更新された新し
い入力Uを出力する。スイッチ316は上記の加算演算
中は開となる。
【0025】定性モデル修正回路312には入力U、予
測符号データ(数6)が入力される。また出力符号検出
回路313において、移動距離の変化方向を表す符号変
化ベクトル[△y]が検出されるとスイッチ314が閉
となり(図5のフローチャート図のステップ1,2)、
符号変化ベクトル[△y]が定性モデル修正回路312
に入力される(ステップ3)。
【0026】定性モデル修正回路312において、符号
変化ベクトル[△y]と予測符号データ(数6)が比較
され(ステップ4)、両者が等しくない場合はスイッチ
315が閉となり修正出力QA、QBが定性モデル演算回
路303に入力される(ステップ5,6)。
【0027】定性モデルについて以下に説明する。歩行
ロボットが前足102Aと後足102Bを開いた図4
(a)の姿勢から図4(b)に示す両足102A,10
2Bを閉じた姿勢へ移るとき、前足先102Cの摩擦力
が後足先102Dの摩擦力より大きいときは、前足先1
02Cは床101上をすべらず、後足先102Dのみが
床101上をすべって、歩行ロボットは図6に示すよう
に距離yABだけ移動する。この場合、前足102Aの角
度の変化量(u1A-u1B)が大きいほど移動の距離yAB
は大きい。従って後足102Bの回転量は移動距離に貢
献しない。その結果、前記の姿勢の変化による移動距離
ABは(数7)により表される。
【0028】
【数7】
【0029】ここに、F1Aは前足先102Cの摩擦力、
2Aは後足先102Dの摩擦力である。
【0030】g1,g2は増加関数であり、g1(0)=g
2(0)=0である。(数7)において、式(F1A-
2A)の値の符号を判定する必要があるが、これらの摩
擦力を検出するこは極めて困難である。そこで検知可能
な角度データである入力ベクトル(u1A,u1B,u2A,u
2B)を用いてこの式(F1A-F2A)に等価な式を表す。
【0031】(数7)における式(F1A-F2A=0)は
前足先102Cと後足先102Dの摩擦力が等しいこと
を表している。前足102Aの長さL1と後足102B
の長さL2が等しく、前足102Aと床101間の摩擦
係数μ1、後足102Bと床101間の摩擦係数μ2が等
しいと仮定すると、式(F1A-F2A=0)は式(u1A-u
2A=0)と等価である。
【0032】上記の関係は一般には(数8)によって表
される。
【0033】
【数8】
【0034】ここで、QAはL1,L212の関係によ
って変動する境界パラメータであり、従ってu2A-u1A-
Aは入力と境界パラメータからなる境界関数であり、
入力と同じ次元である。ただし、L1=L2 かつμ1=μ
2の時はQA=0となる。
【0035】(数3)と(数7)を組み合わせると、
(数9)が得られる。
【0036】
【数9】
【0037】同様に考えると、図4(b)から図4
(a)へ変化するときの歩行距離yBAは(数10)で表
される。
【0038】
【数10】
【0039】また、歩行ロボットが図4(a)→図4
(b)→図4(a)と変化するとき、歩行距離yは、
(数11)で表わされる。
【0040】
【数11】
【0041】(数8)〜(数10)をまとめると(表
1)のようになる。
【0042】
【表1】
【0043】(表1)において、領域番号(1〜9)は
歩行ロボットに与えた入力U=(u1A,u1B,u2A,u
2B)と境界パラメータQA,QBの差の値の符号によって
分けられる領域を示すものである。その領域は、(数
9)において、入力値(u1A-u2A と境界パラメー
タQAの差の値の符号から3通りに分けられる。また
(数10)において、入力値(u2B-u1A)と境界パラ
メータQBの差の値の符号から3通りの領域に分けられ
る。従って9(3×3=9)通りの領域に区分され、そ
れぞれの領域において歩行距離yを求めるための関数が
異なる。
【0044】境界関数の値の符号は次にようにして得ら
れる。例えば、領域番号(1)において、境界関数符号
[u2A-u1A-QA]についてはu2A-u1A-QA>0である
のでその値の符号は“+”である。同様にして、領域番
号(2)において、境界関数符号[u2B-u1B-QB]に
ついてはu2B-u1B-QB0であるのでその値は“0”
となる。
【0045】各領域番号における出力値yは次のように
して求められる。すなわち、領域番号(1)では、(数
9)よりyAB=g1(u1A-u1B)(数10)よりyBA
=-g1(u1A-u1B)であるので、歩行距離yは
【0046】
【数12】
【0047】となる。また、領域番号(2)では、(数
9)よりyAB=g1(u1A-u1B)、(数5)よりyBA=
0であるので、歩行距離yは
【0048】
【数13】
【0049】となる。関数g1,g2が増加関数であるの
で、入力ベクトルの値の符号に対する出力の符号を予測
することができる。この「符号の予測」が定性モデル演
算回路303に設定された「定性モデル」に基づいて行
なわれる。(表2)はこの「定性モデル」を表すもので
あり、境界関数符号[u2A-u1A-QA]及び[u2B-u1B
-QB]の符号の組合せに対応する予測符号データ
【0050】
【数14】
【0051】が示されている。
【0052】
【表2】
【0053】(表2)において、予測符号データ(数1
4)は次のようにして求められる。例えば領域番号
(1)の場合には、符号ベクトル[△Ui]=(+,
0,−,+)に対して、予測符号データ(数4)は
“0”となる。(符号ベクトル[△Ui]がどのような
値をとる場合でも予測符号データ
【0054】
【数15】
【0055】となる。)領域番号(2)の場合には、例
えば符号ベクトル[△Ui]=(+,−,−,+)に対
して、予測符号データ(数4)は“+”になる。
【0056】
【数16】
【0057】また例えば、符号ベクトル[△Ui]=
(++、−、+)に対しては、予測符号データ(数
4)は確定した値が求まらない。
【0058】
【数17】
【0059】定性モデル修正回路312の出力は前足先
102Cと床101との摩擦係数μ1、及び後足先10
2Dと床101との摩擦係数μ2、前足102A及び後
足102Bのそれぞれの長さによって定まる境界パラメ
ータQA,QBを含んでいる。摩擦係数μ1,μ2は測定の困
難なデータであり、予測できない、従ってそれらを含ん
でいる境界パラメータQA,QBを正確に予測することが
できず、(表2)の予測が正しいとは限らない。この予
測が正しくなかった場合には、出力符号検出回路313
により検出された実際の出力値の符号データ[Δy]と
入力ベクトル選択回路309から出力される予測符号デ
ータ(数14)が一致しない。このような場合には定性
モデル演算回路303で用いられる定性モデルが適正で
ないと思われるので、定性モデルの境界パラメータQA,
QBを変更する。
【0060】実際の数値を当てはめた修正操作の一例を
次に示す。歩行ロボットの入力が
【0061】
【数18】
【0062】であり、QA=20゜、QB=10゜とする
と、(数9)から
【0063】
【数19】
【0064】また(数10)から
【0065】
【数20】
【0066】(数19)と(数20)の演算結果から
(表2)の領域番号(2)が選択される。
【0067】このとき、入力変化ベクトルとして例えば
次のデータを入力するとする。
【0068】
【数21】
【0069】この場合、予測符号データ(数14)は
(表2)から次のように計算される。
【0070】
【数22】
【0071】次に上記の入力変化ベクトルが与えられた
歩行ロボットの歩行動作終了後の符号データ[Δy]が
“−”になった場合には、領域番号の選択が間違ってい
ると予想される。そこで(表2)において、予測符号デ
ータ(数14)が“−”になる領域番号をさがす。その
結果、適合する領域番号は(4)であることがわかる
((数20)の演算から)。
【0072】そこで、(数18),(数21)のデータ
において、領域番号(4)の境界関数に適合するような
境界パラメータQA,QBを求める。
【0073】(数9)、(数10)から
【0074】
【数23】
【0075】上の2式が成立するためにはQA',QB'の
値を次のようにすればよい。
【0076】
【数24】
【0077】ここで、“ε”は正の実数である。他方符
号データ[Δy]が“+”の場合には
【0078】
【数25】
【0079】であるので、予測符号データと符号データ
が一致する。したがって境界パラメータQA,QBの修正
はしない。
【0080】両足の摩擦係数が等しく(μ1=μ2)、か
つ前足と後足の長さが等しい(L1=L2)場合には、Q
A=QB=0である。したがって定性モデルの修正は行な
わない。その結果定性モデル修正回路312、出力変化
符号検出回路313及びスイッチ314,315のない
図7の回路を用いることができる。
【0081】
【発明が解決しようとする課題】既に本出願人が提案し
た学習制御装置では、入力変化ベクトル決定回路310
にさらなる問題点があることがわかった。すなわち、
(7)入力変化ベクトル選択回路309では、メモリ3
04から入力されるすべての予測符号データ(数5)の
中から、その符号が誤差符号検出回路308から入力さ
れる誤差の値の符号[e]と一致する予測符号データ
(数6)が選択され定性モデル修正回路311に印加さ
れ、さらにそれに対応する入力変化ベクトルΔUjが入
力ベクトル更新回路311に印加されていた。しかしな
がら符号[e]および予測符号データ(数4)は
“+”、“−”、“0”のいずれか1つを表すデータで
あり、高々3種類しかない。これに対して、すべての予
測符号データ(数5)は81個も存在するため、符号
[e]に一致する予測符号データは一般には複数個存在
する。このため、既に本出願人が提案した学習制御装置
の方式では符号[e]に一致する複数個の予測符号デー
タの中から1つ選択する方法として、番号の小さいもの
を優先に選択したり、あるいはランダムに1つ選択した
りしていた。このことは、入力変化ベクトルΔUjに対
しても番号の小さいものを優先に選択したり、あるいは
ランダムに1つ選択したりすることになるため、最適な
入力変化ベクトルΔUjを選択することができない課題
を有していた。
【0082】したがって本発明の目的は、最適な入力変
化ベクトルΔUjを1つ選択する学習制御装置を提供す
る事である。
【0083】
【課題を解決するための手段】この目的を達成するため
に、本発明は以下のような構成を備えたものである。即
ち、制御対象に印加する制御入力Uを変化させる複数の
入力変化ベクトルΔUiを発生させる手段と、前記入力
変化ベクトルΔUiに所定の定性モデルにもとづいた演
算を行ない予測符号データ(数14)を出力する定性モ
デル演算手段と、前記制御対象の出力yを検出する検出
手段と、前記検出手段の検出値yと目標値ydとの差の
値の符号を検出する誤差符号検出手段と、前記入力変化
ベクトルΔUiに所定の評価関数に基づいた演算を行い
評価値Hiを出力する評価値演算手段と、前記誤差符号
検出手段の出力[e]及び前記予測符号データ(数1
4)、および前記評価値Hiに基づいて、前記入力変化
ベクトルΔUiを選択する入力変化ベクトル選択回路
と、前記制御対象の出力の値の変化を表す所定の符号を
検出する出力符号検出手段と、前記入力ベクトル選択回
路で選択された入力変化ベクトルを前記制御対象の入力
に加算する入力ベクトル更新手段と、前記制御対象の入
力及び前記出力符号検出手段の検出出力に基づいて前記
定性モデルを修正する定性モデル修正手段を具備するこ
とを特徴とする学習制御装置を提供するものである。
【0084】
【作用】本発明によれば、評価値演算手段において、入
力変化ベクトルΔUiに対して所定の評価関数に基づき
演算を行い評価値Hiを求めておき、誤差符号検出手段
の出力[e]に一致する複数の予測符号データ(数4)
に対応する複数の入力変化ベクトルΔUiの中から、さ
らに評価値Hiを最高あるいは最低にする入力変化ベク
トルを最適入力変化ベクトルΔUjと決定し、選択する
ことができる。
【0085】
【実施例】以下図面を用いて、本発明の第一の実施例に
ついて説明する。図1は本発明の第一の実施例における
学習制御装置のブロック図である。制御対象は既に本出
願人が提案した学習制御装置と同じ歩行ロボットであ
る。
【0086】図1において、第一の実施例の学習制御装
置は、評価値Hiを演算する評価値記憶回路404、評
価値Hiに基づいて入力変化ベクトルを定める入力変化
ベクトル決定回路310、入力変化ベクトル決定回路3
10の出力に基づいて、歩行ロボットに入力される入力
ベクトルを更新する入力ベクトル更新回路311、距離
検出器106の出力から移動方向の符号 (一定の方向
を正又は負と定めておく)を検出する出力符号検出回路
313、定性モデル修正回路312及び誤差符号検出回
路308を有している。
【0087】評価値記憶回路404は次に示す回路を有
している。 (1) スイッチ403A:入力変化ベクトルメモリ3
01から入力変化ベクトルΔUiを評価値演算回路40
1に入力するとき閉にされる。 (2) 評価値演算回路401:スイッチ403Aを通
して入力された入力変化ベクトルΔUiに対し、所定の
評価関数に基づき評価値Hiを演算する。評価関数は評
価する内容によって様々な構成が考えられるが、その1
つとして入力が上限値および下限値に近づかないための
評価関数を与えることが制御上では特に有効である。制
御入力Uには、制御対象のハードウェアなどの制約から
上限値および下限値が必ず存在し、入力がそれに近づか
ないことが望ましい。制御入力Uが上限値および下限値
に達すると制御不能になるからである。従って、入力変
化ベクトルΔUiを与えた結果、制御入力Uができるだ
け上限値および下限値に近づかないものを、最適入力変
化ベクトルとして選択できる評価関数を構成する。例え
ば、次式のような評価関数J(ΔUi)を与える。
【0088】
【数26】
【0089】(数26)は、制御入力U=(u1A,u1B,
u2A,u2B)と各要素に対応する上限値u1A_max,u1B_m
ax,u2A_max,u2B_maxと下限値u1A_min,u1B_min,u2A
_min,u2B_minで構成されている。この上限値および下
限値は歩行ロボットの構造上の制約から決まる定数であ
る。aiおよびbiは定数である。
【0090】(数26)は1つの変数(仮にxとする)
に対しては(数27)の構成をとっており、xが上限値
xmaxあるいは下限値xminに近づけばJ(x)の値は急
激に大きくなる。
【0091】
【数27】
【0092】従って、評価値Hi=J(ΔUi)を演算し
た場合、最小の評価値Hiを与える入力変化ベクトルΔ
Uiを選択すれば制御入力Uの各要素の上限値および下
限値に近づかない入力が構成でき、これを最適入力変化
ベクトルΔUjとして選択することができる。 (3) スイッチ403B:評価値演算回路401から
評価値Hiをメモリ402に入力するときに閉じられ
る。 (4) メモリ402:評価値演算回路401から出力
された評価値Hiはスイッチ403Bを経てメモリ40
2にメモリされる。通常81個の評価値H1〜H81がメ
モリされる。
【0093】入力変化ベクトル決定回路310は次に示
す回路を有している。 (5) 入力変化ベクトルメモリ301: (6) スイッチ305A: (7) 符号ベクトル検出器302: (8) 定性モデル演算回路303: (9) スイッチ305B: (10) メモリ304: は、既に本出願人が提案した学習制御装置の有する回路
と動作が同じであるから説明を省略する。 (11) 入力変化ベクトル選択回路309:メモリ3
04からの予測符号データ(数4)と入力変化ベクトル
ΔUiが入力され、そのすべての予測符号データ(数
5)からその符号が誤差符号検出回路308から入力さ
れる誤差の値の符号[e]と一致する複数個の予測符号
データ(数4)が選択される。さらにそれに対応する複
数個の入力変化ベクトルΔUiの中から、評価値記憶回
路404のメモリ402の評価値Hiを最大あるいは最
小にする入力変化ベクトルが最適入力変化ベクトルΔU
jとして選択され、入力ベクトル更新回路311に印加
される。さらに、最適入力変化ベクトルΔUjに対応す
る予測符号データが最適予測符号データ(数6)として
選択され、定性モデル修正回路311に印加される。ま
た、(2)評価値演算回路401で説明したように、評
価値Hiを演算する評価関数を(数26)のように構成
すれば、評価値Hiを最小にするものを最適として選択
する。
【0094】誤差符号検出回路308、入力ベクトル更
新回路311、定性モデル修正回路312、出力符号検
出回路313については、既に本出願人が提案した学習
制御装置の有する回路と動作が同じであるから説明を省
略する。
【0095】なお、既に本出願人が提案した学習制御装
置でも説明したように、歩行ロボットの両足の摩擦係数
が等しく(μ1=μ2)、かつ前足と後足の長さが等しい
(L1=L2)場合には、QA=QB=0である。したがっ
て定性モデルの修正は行なわない。その結果定性モデル
修正回路312、出力変化符号検出回路313及びスイ
ッチ314,315のない図8の回路を用いることがで
きる。
【0096】また、この実施例は学習制御を歩行ロボッ
トに適用しているが、本発明の学習制御は化学プラント
や空調システム等にも適用することができる。
【0097】
【発明の効果】以上、既に本出願人が提案した学習制御
装置は入力変化ベクトル選択回路309において、符号
[e]に一致する予測符号データは複数個存在し、この
中から1つ選択する方法として、番号の小さいものを優
先に選択したり、あるいはランダムに1つ選択したりし
ていたのに対し、本発明によれば、評価値演算回路40
1で評価値Hiを演算し、この評価値Hiを最大あるいは
最小にする入力変化ベクトルと予測符号データを最適入
力変化ベクトル△Ujと最適予測符号データ(数6)を
選択できる。
【0098】さらに評価値Hiを演算する評価関数を制
御入力Uと制御入力Uの上限値および下限値で構成する
ことにより、制御入力Uが上限値および下限値に近づか
ないようにしながら目標歩行距離ydに到達できる。
【図面の簡単な説明】
【図1】本発明の第1の実施例における学習制御装置の
ブロック図
【図2】既に本出願人が提案した学習制御装置のブロッ
ク図
【図3】既に本出願人が提案したおよび本発明の学習制
御装置の制御対象の一例である、歩行ロボットの斜視図
【図4】(a)は既に本出願人が既に提案したおよび本
発明の学習制御装置の制御対象の一例である、歩行ロボ
ットの動作例を表わす正面図 (b)は既に本出願人が既に提案したおよび本発明の学
習制御装置の制御対象の一例である、歩行ロボットの動
作例を表わす正面図
【図5】既に本出願人が提案したおよび本発明の第1の
実施例である学習制御装置における定性モデル修正回路
と出力符号検出回路の動作を示すフローチャート
【図6】既に本出願人が提案したおよび本発明の学習制
御装置の制御対象の一例である、歩行ロボットの動作中
を示す正面図
【図7】既に本出願人が提案した第2の実施例における
学習制御装置のブロック図
【図8】本発明の第2の実施例における学習制御装置の
ブロック図
【符号の説明】
100 胴体 101 床 102A 前足 102B 後足 102C 前足先 102D 後足先 103A モータ 103B モータ 104 ドライバー回路 105 歩行ロボット 106 出力検出器 310 入力変化ベクトル決定回路 308 誤差符号検出回路 306 誤差演算回路 311 入力ベクトル更新回路 305A、305B スイッチ 314 スイッチ 315 スイッチ 316 スイッチ 401 評価値演算回路 402 メモリ 403A、403B、403C スイッチ

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】制御対象に印加する制御入力Uを変化させ
    る複数の入力変化ベクトルΔUiを発生させる手段と、
    前記入力変化ベクトルΔUiに所定の定性モデルにもと
    づいた演算を行ない予測符号データ 【数1】 を出力する定性モデル演算手段と、前記制御対象の出力
    yを検出する検出手段と、前記検出手段の検出値yと目
    標値ydとの差の値の符号を検出する誤差符号検出手段
    と、前記入力変化ベクトルΔUiに所定の評価関数に基
    づいた演算を行い評価値Hiを出力する評価値演算手段
    と、前記誤差符号検出手段の出力[e]及び前記予測符
    号データ(数1)、および前記評価値Hiに基づいて、
    前記入力変化ベクトルΔUiを選択する入力変化ベクト
    ル選択回路と、前記制御対象の出力の値の変化を表す所
    定の符号を検出する出力符号検出手段と、前記入力ベク
    トル選択回路で選択された入力変化ベクトルを前記制御
    対象の入力に加算する入力ベクトル更新手段と、前記制
    御対象の入力及び前記出力符号検出手段の検出出力に基
    づいて前記定性モデルを修正する定性モデル修正手段を
    具備するように構成し、上記一連の動作を繰り返すこと
    で前記制御対象の出力yを目標値Ydに一致させる学習
    制御装置。
  2. 【請求項2】評価値演算手段は、制御入力Uと前記制御
    入力Uの上限値および下限値で構成された評価関数に基
    づき評価値Hiを演算することを特徴とする請求項1記
    載の学習制御装置。
  3. 【請求項3】定性モデル演算手段は入力ベクトルUと少
    なくとも1つの境界パラメータを有する境界関数と前記
    入力ベクトルを前記境界関数に代入することによって得
    られる値の符号に対応する少なくとも1つの定性式によ
    って表される定性モデルを有することを特徴とする請求
    項2記載の学習制御装置。
  4. 【請求項4】定性モデル修正手段は、境界パラメータを
    変更する手段を有することを特徴とする請求項3記載の
    学習制御装置。
  5. 【請求項5】制御対象に印加する制御入力Uを変化させ
    る複数の入力変化ベクトルΔUiを発生させる手段と、
    前記入力変化ベクトルΔUiに所定の定性モデルにもと
    づいた演算を行ない予測符号データ(数1)を出力する
    定性モデル演算手段と、前記制御対象の出力yを検出す
    る検出手段と、前記検出手段の検出値yと目標値yd
    の差の値の符号を検出する誤差符号検出手段と、前記入
    力変化ベクトルΔUiに所定の評価関数に基づいた演算
    を行い評価値Hiを出力する評価値演算手段と、前記誤
    差符号検出手段の出力[e]及び前記予測符号データ
    (数1)、および前記評価値Hiに基づいて、前記入力
    変化ベクトルΔUiを選択する入力変化ベクトル選択回
    路と、前記入力ベクトル選択回路で選択された入力変化
    ベクトルを前記制御対象の入力に加算する入力ベクトル
    更新手段を備え、上記一連の動作を繰り返すことで前記
    制御対象の出力yを目標値Ydに一致させる学習制御装
    置。
  6. 【請求項6】評価値演算手段は、制御入力Uと前記制御
    入力Uの上限値および下限値で構成された評価関数に基
    づき評価値Hiを演算することを特徴とする請求項5記
    載の学習制御装置。
  7. 【請求項7】定性モデル演算手段は入力ベクトルUと少
    なくとも1つの境界パラメータを有する境界関数と、前
    記入力ベクトルを前記境界関数に代入することによって
    得られる値の符号に対応する少なくとも1つの定性式に
    よって表される定性モデルを有することを特徴とする請
    求項6記載の学習制御装置。
  8. 【請求項8】制御対象に印加する制御入力Uを変化させ
    る複数の入力変化ベクトルΔUiを発生させる手段と、
    前記入力変化ベクトルΔUiに所定の定性モデルにもと
    づいた演算を行ない予測符号データ(数1)を出力する
    定性モデル演算手段と、前記制御対象の出力yを検出す
    る検出手段と、前記検出手段の検出値yと目標値yd
    の差の値の符号を検出する誤差符号検出手段と、前記入
    力変化ベクトルΔUiに制御入力Uと前記制御入力Uの
    上限値および下限値で構成された評価関数に基づいた演
    算を行い評価値Hiを出力する評価値演算手段と、前記
    誤差符号検出手段の出力[e]及び前記予測符号データ
    (数1)、および前記評価値Hiに基づいて、前記入力
    変化ベクトルΔUiを選択する入力変化ベクトル選択回
    路と、前記制御対象の出力の値の変化を表す所定の符号
    を検出する出力符号検出手段と、前記入力ベクトル選択
    回路で選択された入力変化ベクトルを前記制御対象の入
    力に加算する入力ベクトル更新手段と、前記制御対象の
    入力及び前記出力符号検出手段の検出出力に基づいて前
    記定性モデルを修正する定性モデル修正手段を具備する
    ように構成し、上記一連の動作を繰り返すことで前記制
    御対象の出力yを目標値Ydに一致させる学習制御装
    置。
  9. 【請求項9】制御対象に印加する制御入力Uを変化させ
    る複数の入力変化ベクトルΔUiを発生させる手段と、
    前記入力変化ベクトルΔUiに所定の定性モデルにもと
    づいた演算を行ない予測符号データ(数1)を出力する
    定性モデル演算手段と、前記制御対象の出力yを検出す
    る検出手段と、前記検出手段の検出値yと目標値yd
    の差の値の符号を検出する誤差符号検出手段と、前記入
    力変化ベクトルΔUiに制御入力Uと前記制御入力Uの
    上限値および下限値で構成された評価関数に基づいた演
    算を行い評価値Hiを出力する評価値演算手段と、前記
    誤差符号検出手段の出力[e]及び前記予測符号データ
    (数1)、および前記評価値Hiに基づいて、前記入力
    変化ベクトルΔUiを選択する入力変化ベクトル選択回
    路と、前記入力ベクトル選択回路で選択された入力変化
    ベクトルを前記制御対象の入力に加算する入力ベクトル
    更新手段を備え、上記一連の動作を繰り返すことで前記
    制御対象の出力yを目標値Ydに一致させる学習制御装
    置。
JP15646191A 1991-06-27 1991-06-27 学習制御装置 Pending JPH056202A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP15646191A JPH056202A (ja) 1991-06-27 1991-06-27 学習制御装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP15646191A JPH056202A (ja) 1991-06-27 1991-06-27 学習制御装置

Publications (1)

Publication Number Publication Date
JPH056202A true JPH056202A (ja) 1993-01-14

Family

ID=15628260

Family Applications (1)

Application Number Title Priority Date Filing Date
JP15646191A Pending JPH056202A (ja) 1991-06-27 1991-06-27 学習制御装置

Country Status (1)

Country Link
JP (1) JPH056202A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06301404A (ja) * 1993-04-14 1994-10-28 Nec Corp 協調方式
KR20160013012A (ko) * 2013-05-22 2016-02-03 아베엘 리스트 게엠베하 기술적 시스템의 스타팅 변수의 모델을 확인하기 위한 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06301404A (ja) * 1993-04-14 1994-10-28 Nec Corp 協調方式
KR20160013012A (ko) * 2013-05-22 2016-02-03 아베엘 리스트 게엠베하 기술적 시스템의 스타팅 변수의 모델을 확인하기 위한 방법

Similar Documents

Publication Publication Date Title
KR102503616B1 (ko) 외골격을 움직이는 방법
US9555543B2 (en) Robot with joints of variable rigidity and method for calculating said optimized rigidity
Er et al. Obstacle avoidance of a mobile robot using hybrid learning approach
Jha et al. On-line stable gait generation of a two-legged robot using a genetic–fuzzy system
Lin et al. An ensemble method for inverse reinforcement learning
JPH056202A (ja) 学習制御装置
Mahapatro et al. Towards stabilization and navigational analysis of humanoids in complex arena using a hybridized fuzzy embedded PID controller approach
Komura et al. A muscle‐based feed‐forward controller of the human body
Nayak et al. Parameter estimation of DC motor using adaptive transfer function based on Nelder-Mead optimisation
JP2720605B2 (ja) 学習制御装置
Onishi et al. Knee-stretched Biped Gait Generation along Spatially Quantized Curves
Fielding et al. Omnidirectional hexapod walking and efficient gaits using restrictedness
US5212632A (en) Adaptive control system
Brandao et al. Optimizing energy consumption and preventing slips at the footstep planning level
Ryu et al. Preview control-based online walking pattern generation for biped robots with vertical center-of-mass motion
Wu et al. Kid-size robot humanoid walking with heel-contact and toe-off motion
Yazdi et al. Evolution of biped walking using neural oscillators controller and harmony search algorithm optimizer
Bahar et al. STS motion control using humanoid robot
JP2003311669A (ja) ロボット装置
WO2003045640A1 (en) An industrial robot system and a method for programming thereof
Andrjejew et al. Development the algorithms of anthropomorphic robot's motion control by use of AI algorithms
CN109212975B (zh) 一种具有发育机制的感知行动认知学习方法
JP4453076B2 (ja) ヒューマノイドロボット
Mihalec Balance recoverability and control of bipedal robotic walkers with foot slip
Liu et al. Implementation of a trajectory library approach to controlling humanoid standing balance