JPH04211801A - Learning controller - Google Patents

Learning controller

Info

Publication number
JPH04211801A
JPH04211801A JP503291A JP503291A JPH04211801A JP H04211801 A JPH04211801 A JP H04211801A JP 503291 A JP503291 A JP 503291A JP 503291 A JP503291 A JP 503291A JP H04211801 A JPH04211801 A JP H04211801A
Authority
JP
Japan
Prior art keywords
input
output
vector
sign
qualitative model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP503291A
Other languages
Japanese (ja)
Other versions
JP2720605B2 (en
Inventor
Shigeaki Matsubayashi
成彰 松林
Osamu Ito
修 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP503291A priority Critical patent/JP2720605B2/en
Publication of JPH04211801A publication Critical patent/JPH04211801A/en
Application granted granted Critical
Publication of JP2720605B2 publication Critical patent/JP2720605B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Feedback Control In General (AREA)

Abstract

PURPOSE:To reduce the necessary number of times of repetition in a learning controller to detect output (y) obtained by changing input U to a controlled object by a very small amount, and try repeatedly this very small change until the output (y) coincides with a target value yd. CONSTITUTION:In a qualitative model arithmetic circuit 303 and an input change vector selection circuit 309, since only an input change vector U1 capable of bringing the output (y) close to the target value yd is selected, and a trial is executed in respect of this vector, it is unnecessary to execute the trial for all input change vectors like in the conventional one, and the number of times of repetition can be greatly reduced. Further, in the case that a state varies, and the output (y) tends to go away from the target value yd, since a qualitative model is corrected by a qualitative model correction circuit 312 so that the output (y) approaches to the target value yd an effect to reduce the number of times of the repetition can be kept in all the states.

Description

【発明の詳細な説明】[Detailed description of the invention]

【0001】0001

【産業上の利用分野】本発明は、例えば歩行ロボットや
化学プラントなどのように、入出力間の関係をあらかじ
め正確に把握する事が困難な制御対象を制御する事が可
能な学習制御装置に関するものである。
[Field of Industrial Application] The present invention relates to a learning control device capable of controlling control objects for which it is difficult to accurately grasp the relationship between input and output in advance, such as walking robots and chemical plants. It is something.

【0002】0002

【従来の技術】従来の学習制御装置としては、例えば、
論文 ”行動する機械”(生体の科学,Vol.37,
 No.1, pp.41−48, 1986年)にお
いて、中野によって提案されているものがある。この論
文では、図2に示された歩行ロボットの制御について論
じている。
[Prior Art] Conventional learning control devices include, for example,
Paper ``Machine that acts'' (Science of living organisms, Vol. 37,
No. 1, pp. 41-48, 1986), proposed by Nakano. This paper discusses the control of the walking robot shown in Figure 2.

【0003】図2において、歩行ロボット105は前足
102Aおよび後足102Bより構成されており、胴体
100で接続されている。さらに前足102Aおよび後
足102Bはそれぞれモーター103Aおよび103B
で駆動されており、各モータの回転はドライバー回路1
04より指令されている。また歩行ロボットが移動した
距離は出力検出器106で検出される。
[0003] In FIG. 2, a walking robot 105 is composed of front legs 102A and hind legs 102B, which are connected by a body 100. Furthermore, the front legs 102A and the rear legs 102B are provided with motors 103A and 103B, respectively.
The rotation of each motor is driven by driver circuit 1.
Commanded by 04. Further, the distance traveled by the walking robot is detected by the output detector 106.

【0004】以上のように構成された歩行ロボット10
5の動作は(数2)式のように表現できる。
Walking robot 10 configured as described above
The operation of No. 5 can be expressed as in equation (2).

【0005】[0005]

【数2】[Math 2]

【0006】ここで、y は歩行ロボットの出力である
歩行距離、U=(u1A,u1B,u2A,u2B)は
歩行ロボットの前足102Aおよび後足102Bへの入
力ベクトルであるモータ回転角ベクトル、gは正確に把
握することが困難な関数である。
Here, y is the walking distance which is the output of the walking robot, U=(u1A, u1B, u2A, u2B) is the motor rotation angle vector which is the input vector to the front leg 102A and the rear leg 102B of the walking robot, and g is a function that is difficult to understand accurately.

【0007】(数2)式のyをできるだけ大きくするよ
うなUを求めるために、従来の学習制御装置は、一般的
に以下の手順から構成される「山登り法」を用いている
[0007] In order to obtain U such that y in equation (2) is as large as possible, conventional learning control devices generally use a "hill climbing method" consisting of the following steps.

【0008】 手順1:  例えば (△u1A,0,0,0)、(0
,−△u1B,△u2A,△u2B)などの、微小な値
を各要素に持つ入力変化ベクトル△Uiを△U1,…,
△U81と81個作成する。この例では、入力変化ベク
トルの個数は34=81個となり、”3”は各要素の符
号の種類数、すなわち”+”、”−”あるいは”0”の
3個に相当し、ベキ数”4”は入力変化ベクトル△Ui
の次数に相当する。
Step 1: For example, (△u1A,0,0,0), (0
, -△u1B, △u2A, △u2B), the input change vector △Ui has minute values in each element, such as △U1,...,
Create △U81 and 81 pieces. In this example, the number of input change vectors is 34=81, and "3" corresponds to the number of types of signs for each element, that is, "+", "-", or "0", and the power number " 4” is the input change vector △Ui
corresponds to the order of

【0009】 手順2:  現在の入力ベクトルUに上記の入力変化ベ
クトルを一つづつ加えて、すなわち、Ui←U+△Ui
として歩行ロボットに入力し、その時の出力変化 △y
1,...,△y81を検出する。
Step 2: Add the above input change vectors one by one to the current input vector U, that is, Ui←U+△Ui
input to the walking robot as , and the output change at that time △y
1,. .. .. , Δy81 are detected.

【0010】 手順3:  上記の出力変化を最大にする入力変化ベク
トル △Uj を選び、現在の入力ベクトルUをU←U
+△Ujと更新して、手順2〜3を繰り返す。ただし、
上記の出力変化が全て負または零の時は、現在の入力ベ
クトルが所望のベクトルであるので、上記の繰り返しを
終了する。
Step 3: Select the input change vector △Uj that maximizes the above output change, and change the current input vector U by U←U
Update +ΔUj and repeat steps 2 and 3. however,
If all of the above output changes are negative or zero, the current input vector is the desired vector, and the above iteration ends.

【0011】[0011]

【発明が解決しようとする課題】この学習制御装置は、
全く同一の構成を用いて、歩行ロボットに限らず、特性
のわからないあらゆる制御対象に適用可能であるという
利点を持つ。しかしながら、手順2においては81回も
の試行が必要であり、仮に出力yが極大値に達するまで
に必要な手順2〜3の繰り返し回数を10とすると、合
計で810回という極めて多くの試行を繰り返さなけれ
ばならないという実用上の課題があった。
[Problem to be solved by the invention] This learning control device
It has the advantage that it can be applied not only to walking robots but also to any controlled object whose characteristics are unknown, using exactly the same configuration. However, 81 trials are required in step 2, and if we assume that the number of repetitions of steps 2 and 3 required for the output y to reach its maximum value is 10, a total of 810 trials will be repeated. There was a practical problem that it had to be done.

【0012】0012

【課題を解決するための手段】したがって本発明の目的
は、従来の学習制御装置と比較して、必要な繰り返し回
数が極めて少ない学習制御装置を提供する事である。
SUMMARY OF THE INVENTION Accordingly, it is an object of the present invention to provide a learning control device that requires a significantly smaller number of repetitions than conventional learning control devices.

【0013】この目的を達成するために、本発明は以下
のような構成を備えたものである。即ち、制御対象に印
加する制御入力Uを変化させる複数の入力変化ベクトル
ΔUiを発生させる手段と、前記入力変化ベクトルΔU
iに所定の定性モデルにもとづいた演算を行ない予測符
号データ
[0013] In order to achieve this object, the present invention has the following configuration. That is, means for generating a plurality of input change vectors ΔUi for changing the control input U applied to the controlled object;
Predicted code data is obtained by performing calculations on i based on a predetermined qualitative model.

【0014】[0014]

【数3】[Math 3]

【0015】を出力する定性モデル演算手段と、前記制
御対象の出力yを検出する検出手段と、前記検出手段の
検出値yと目標値ydとの差の値の符号を検出する誤差
符号検出手段と、前記誤差符号検出手段の出力[e]及
び前記予測符号データ(数3)に基づいて、前記入力変
化ベクトルΔUiを選択する入力変化ベクトル選択回路
と、前記制御対象の出力の値の変化を表す所定の符号を
検出する出力符号検出手段と、前記入力ベクトル選択回
路で選択された入力変化ベクトルを前記制御対象の入力
に加算する入力ベクトル更新手段と、前記制御対象の入
力及び前記出力符号検出手段の検出出力に基づいて前記
定性モデルを修正する定性モデル修正手段とを具備する
ことを特徴とする学習制御装置を提供するものである。
Qualitative model calculating means for outputting y, detecting means for detecting the output y of the controlled object, and error sign detecting means for detecting the sign of the difference between the detected value y of the detecting means and the target value yd. an input change vector selection circuit that selects the input change vector ΔUi based on the output [e] of the error code detection means and the predicted code data (Equation 3); output sign detection means for detecting a predetermined sign expressed by the control object; input vector updating means for adding the input change vector selected by the input vector selection circuit to the input of the controlled object; and detection of the input and output sign of the controlled object. The present invention provides a learning control device characterized by comprising: qualitative model modification means for modifying the qualitative model based on a detection output of the means.

【0016】[0016]

【作用】本発明によれば、定性モデル演算手段および入
力変化ベクトル選択手段において、出力yを所望の目標
値ydに近づけることができる入力変化ベクトル△Uj
のみを選択し、これについてのみ試行するために、従来
のようにすべての入力変化ベクトルについて試行する必
要がなく、出力yが目標値ydに一致するまでの繰り返
し回数を極めて少なくすることができる。さらに状態が
変化し、出力yが目標値ydから離れる傾向にある場合
には、定性モデル修正手段において出力yが目標値yd
に近づくように定性モデルを修正するため、あらゆる状
態で繰り返し回数を少なくできる効果を維持することが
できる。
[Operation] According to the present invention, in the qualitative model calculation means and the input change vector selection means, the input change vector △Uj that can bring the output y closer to the desired target value yd
Since only one of the input change vectors is selected and tested, there is no need to try all the input change vectors as in the conventional method, and the number of repetitions until the output y matches the target value yd can be extremely reduced. If the state further changes and the output y tends to deviate from the target value yd, the qualitative model correction means changes the output y to the target value yd.
Since the qualitative model is modified to approach , the effect of reducing the number of repetitions can be maintained in all conditions.

【0017】[0017]

【実施例】以下図面を用いて、本発明の第一の実施例に
ついて説明する。図1は本発明の第一の実施例における
学習制御装置のブロック図である。図1において、制御
対象は図3(a)および図3(b)に示す歩行ロボット
105である。図3(a)および図3(b)において、
歩行機械105は、胴体100に前足102Aおよび後
足102Bが取り付けられており、それぞれがモータ1
03Aおよび103Bで回動できるように構成されてい
る。床101と接触している前足先102Cおよび後足
先102Dのそれぞれの摩擦係数は互いに異なっている
。また歩行ロボットが移動した距離は出力検出器106
で検出される。
DESCRIPTION OF THE PREFERRED EMBODIMENTS A first embodiment of the present invention will be described below with reference to the drawings. FIG. 1 is a block diagram of a learning control device in a first embodiment of the present invention. In FIG. 1, the controlled object is a walking robot 105 shown in FIGS. 3(a) and 3(b). In FIG. 3(a) and FIG. 3(b),
The walking machine 105 has front legs 102A and hind legs 102B attached to a body 100, each of which is powered by a motor 1.
It is configured to be able to rotate at 03A and 103B. The respective friction coefficients of the front foot tip 102C and the rear foot tip 102D that are in contact with the floor 101 are different from each other. Also, the distance traveled by the walking robot is measured by the output detector 106.
Detected in

【0018】上記の歩行ロボット105の動作を以下に
説明する。歩行ロボットに与えられる入力ベクトルUは
(数4)式によって表される。
The operation of the walking robot 105 described above will be explained below. The input vector U given to the walking robot is expressed by equation (4).

【0019】[0019]

【数4】[Math 4]

【0020】(数4)式において、u1Aは動作前の前
足の角度、u1Bは動作後の前足の角度、u2Aは動作
前の後足の角度、u2Bは動作後の後足の角度である。
In equation (4), u1A is the angle of the front foot before the movement, u1B is the angle of the front foot after the movement, u2A is the angle of the hind foot before the movement, and u2B is the angle of the hind foot after the movement.

【0021】制御入力Uはベクトル量であり、その要素
u1A,u1B,u2A及びu2Bはいずれも実数で定
義される。
The control input U is a vector quantity, and its elements u1A, u1B, u2A and u2B are all defined as real numbers.

【0022】前足102Aと後足102Bはそれぞれの
モータ103A及び103Bにより、図3(a)及び図
3(b)に示すように回転される。その結果前足先10
2C及び後足先102Dの床面101に対する摩擦力が
同じでない場合歩行ロボット105は一定方向に移動す
る。
The front legs 102A and the rear legs 102B are rotated by respective motors 103A and 103B as shown in FIGS. 3(a) and 3(b). As a result, the tip of the front foot is 10
If the frictional forces of the foot 2C and the rear foot 102D against the floor 101 are not the same, the walking robot 105 moves in a certain direction.

【0023】歩行ロボットは図3(a)に示す状態から
図3(b)に示す状態に動作し、次に再び図3(a)に
示す状態に戻り、1サイクルの歩行動作を完了する。従
って(数4)式は歩行ロボットの半サイクルの動作を表
している。
The walking robot moves from the state shown in FIG. 3(a) to the state shown in FIG. 3(b), then returns to the state shown in FIG. 3(a) again, and completes one cycle of walking motion. Therefore, equation (4) represents the motion of the walking robot in a half cycle.

【0024】歩行ロボット105が図3(a)、図3(
b)に示す1サイクルの歩行動作によって進む距離をy
とすると、制御入力Uと距離yの関係は(数2)式によ
って表される。この(数2)式における関数gは、前足
102Aと後足102Bにおける歩行ロボット105の
重量配分、前足102Aの長さL1と後足102Bの長
さL2の比、及び床101と各足先102C、102D
間の摩擦係数等によって変化する。
The walking robot 105 is shown in FIGS. 3(a) and 3(a).
The distance traveled by one cycle of walking motion shown in b) is y
Then, the relationship between the control input U and the distance y is expressed by equation (2). The function g in this equation (2) is based on the weight distribution of the walking robot 105 between the front legs 102A and the hind legs 102B, the ratio of the length L1 of the front legs 102A to the length L2 of the hind legs 102B, and the floor 101 and the tip of each foot 102C. , 102D
It changes depending on the friction coefficient between the two.

【0025】図1において、第1の実施例の学習制御装
置は、入力変化ベクトルを定める入力変化ベクトル決定
回路310、入力変化ベクトル決定回路310の出力に
基づいて、歩行ロボットに入力される入力ベクトルを更
新する入力ベクトル更新回路311、距離検出器106
の出力から移動方向の符号 (一定の方向を正又は負と
定めておく)を検出する出力符号検出回路313、定性
モデル修正回路312及び誤差符号検出回路308を有
している。
In FIG. 1, the learning control device of the first embodiment determines the input vector to be input to the walking robot based on the output of the input change vector determination circuit 310 and the input change vector determination circuit 310, which determines the input change vector. An input vector update circuit 311 that updates the distance detector 106
It has an output sign detection circuit 313 that detects the sign of the moving direction (a fixed direction is defined as positive or negative) from the output of the output, a qualitative model correction circuit 312, and an error sign detection circuit 308.

【0026】入力変化ベクトル決定回路310は次に示
す回路を有している。 (1) 入力変化ベクトルメモリ301:あらかじめ定
められた81個の入力変化ベクトルΔU1,…,ΔU8
1がメモリされている。入力変化ベクトルΔUiの数は
「従来の技術」の項で述べた方法により求められる。入
力変化ベクトルΔUiは4つのデータ(Δu1A,Δu
1B,Δu2A,Δu2B)を含んでおり、各データは
正の値、負の値、零のいずれかである。例えば(Δu1
A,0,0,0)、(0,−Δu1B,Δu2A,Δu
2B)となる。正の値はあらかじめ定められた方向への
増加を表し、負の値は減少を表している。零は変化のな
いことを表している。各データ(Δu1A,Δu1B,
Δu2A,Δu2B)は前足102A及び後足102B
の回転角度に加えられる微少角であり、例えば2゜など
の微小な値が設定される。各データがすべて同じ角度で
ある必要はなく、互に異なる値が設定されてもよい(例
:2,−3゜,0゜,2゜)。 (2) スイッチ305A: 入力変化ベクトルメモリ301のデータを符号ベクトル
検出器302に入力するとき閉にされる。 (3) 符号ベクトル検出器302: 入力ベクトルメモリ301から入力される入力変化ベク
トルΔUiに基づいて、その各データの符号(+、−、
0)を表す符号ベクトル[ΔUi]を出力する。(以後
[  ]に入れられた文字はその文字が表すデータの符
号“+”、“−”、あるいは“0”を示す。)例えば入
力変化ベクトルΔUi=(0,−Δu1B,Δu2A,
Δu2B)が入力されると、符号ベクトル[ΔUi]=
(0,−,+,+)が出力される。 (4) 定性モデル演算回路303: 符号ベクトル検出器302から出力される符号ベクトル
[ΔUi]に基づいて、歩行ロボット105の移動距離
と移動方向を表す出力yの符号(移動方向に対応する)
を予測する演算回路を有する。演算はあらかじめ設定さ
れた定性モデルに従って行なわれ、結果の予測符号デー
The input change vector determining circuit 310 has the following circuit. (1) Input change vector memory 301: 81 predetermined input change vectors ΔU1,...,ΔU8
1 is stored in memory. The number of input change vectors ΔUi is determined by the method described in the "Prior Art" section. The input change vector ΔUi consists of four data (Δu1A, Δu
1B, Δu2A, Δu2B), and each data is either a positive value, a negative value, or zero. For example, (Δu1
A, 0, 0, 0), (0, -Δu1B, Δu2A, Δu
2B). Positive values represent an increase in the predetermined direction, and negative values represent a decrease. Zero represents no change. Each data (Δu1A, Δu1B,
Δu2A, Δu2B) are front legs 102A and hind legs 102B
This is a minute angle added to the rotation angle of , and a minute value such as 2 degrees is set, for example. It is not necessary for each data to be the same angle, and different values may be set (eg, 2, -3°, 0°, 2°). (2) Switch 305A: Closed when inputting data from input change vector memory 301 to code vector detector 302. (3) Sign vector detector 302: Based on the input change vector ΔUi input from the input vector memory 301, the sign (+, -,
A code vector [ΔUi] representing 0) is output. (Hereafter, characters placed in brackets [ ] indicate the sign "+", "-", or "0" of the data represented by that character.) For example, input change vector ΔUi = (0, -Δu1B, Δu2A,
When Δu2B) is input, the code vector [ΔUi]=
(0, -, +, +) is output. (4) Qualitative model calculation circuit 303: Based on the code vector [ΔUi] output from the code vector detector 302, the sign of the output y representing the moving distance and moving direction of the walking robot 105 (corresponding to the moving direction)
It has an arithmetic circuit that predicts. The calculation is performed according to a preset qualitative model, and the resulting predicted sign data is

【0027】[0027]

【数5】[Math 5]

【0028】が出力される。以後文字の上のハット“^
”はその文字が表すデータの予測データを表す。 予測
符号データ(数5)は出力yの変化方向を示す符号を表
しており、増加予測は“+”、減少予測は“−”、変化
なしは“0”、予測不可能は“?”のいずれかのデータ
を有する。 (5) スイッチ305B: 定性モデル演算回路303の出力データをメモリ304
に入力するときに閉じられる。 (6) メモリ304: 定性モデル演算回路303から出力されて予測符号デー
タ(数5)はスイッチ305Bを経てメモリ304にメ
モリされる。通常81個の予測符号データ
##EQU1## is output. From now on, the hat above the letters “^
” represents the predicted data of the data represented by that character. The predicted code data (Equation 5) represents the sign indicating the direction of change in the output y, with “+” for predicted increase, “-” for predicted decrease, and no change. is “0” and unpredictable is “?” (5) Switch 305B: Transfers the output data of the qualitative model calculation circuit 303 to the memory 304.
Closed when typing. (6) Memory 304: The predicted code data (Equation 5) output from the qualitative model calculation circuit 303 is stored in the memory 304 via the switch 305B. Normally 81 predicted code data

【0029】[0029]

【数6】[Math 6]

【0030】がメモリされる。 (7) 入力変化ベクトル選択回路309:メモリ30
4からの予測符号データ(数5)と入力変化ベクトルΔ
Uiが入力され、そのすべての予測符号データ(数6)
からその符号が後に述べる誤差符号検出回路308から
入力される誤差の値の符号[e]と一致する1個の予測
符号データ
##EQU1## is stored in memory. (7) Input change vector selection circuit 309: memory 30
Predicted code data from 4 (Equation 5) and input change vector Δ
Ui is input, and all its predicted code data (Equation 6)
One predicted code data whose code matches the sign [e] of the error value input from the error code detection circuit 308 described later.

【0031】[0031]

【数7】[Math 7]

【0032】が選択され、定性モデル修正回路311に
印加される。この学習制御装置はさらに次の回路を備え
ている。誤差符号検出回路308は距離検出器106に
よって検出された値yと目標値ydとの差を求める誤差
演算回路306を備え、演算結果の誤差eを符号検出回
路307に入力する。符号検出回路307においては、
誤差eの値の符号[e]を検出し、入力変化ベクトル選
択回路309に入力する。符号[e]は“+”、“−”
、“0”のいずれか1つを表すデータを有している。す
なわち符号[e]は出力yを目標出力ydに近づけるた
めに出力yを増加又は減少させるか、あるいは現在の値
を保持すべきかの情報を有している。
##EQU1## is selected and applied to the qualitative model modification circuit 311. This learning control device further includes the following circuit. The error sign detection circuit 308 includes an error calculation circuit 306 that calculates the difference between the value y detected by the distance detector 106 and the target value yd, and inputs the calculation result error e to the sign detection circuit 307. In the code detection circuit 307,
The sign [e] of the value of the error e is detected and input to the input change vector selection circuit 309. Code [e] is “+”, “-”
, "0". That is, the code [e] has information as to whether the output y should be increased or decreased in order to bring it closer to the target output yd, or whether the current value should be maintained.

【0033】入力ベクトル更新回路311は入力変化ベ
クトル選択回路309から出力される入力変化ベクトル
ΔUjと現在の入力Uとを加算演算し、更新された新し
い入力Uを出力する。スイッチ316は上記の加算演算
中は開となる。
The input vector update circuit 311 performs an addition operation on the input change vector ΔUj output from the input change vector selection circuit 309 and the current input U, and outputs an updated new input U. Switch 316 is open during the above addition operation.

【0034】定性モデル修正回路312には入力U、予
測符号データ(数7)が入力される。また出力符号検出
回路313において、移動距離の変化方向を表す符号変
化ベクトル[△y]が検出されるとスイッチ314が閉
となり(図4のフローチャート図のステップ1,2)、
符号変化ベクトル[△y]が定性モデル修正回路312
に入力される(ステップ3)。
The input U and predicted code data (Equation 7) are input to the qualitative model correction circuit 312. Furthermore, when the output sign detection circuit 313 detects a sign change vector [Δy] representing the direction of change in the moving distance, the switch 314 is closed (steps 1 and 2 in the flowchart of FIG. 4).
The sign change vector [Δy] is the qualitative model correction circuit 312
(Step 3).

【0035】定性モデル修正回路312において、符号
変化ベクトル[△y]と予測符号データ(数7)が比較
され(ステップ4)、両者が等しくない場合はスイッチ
315が閉となり修正出力QA、QBが定性モデル演算
回路303に入力される(ステップ5,6)。
In the qualitative model correction circuit 312, the sign change vector [Δy] and the predicted sign data (Equation 7) are compared (step 4), and if the two are not equal, the switch 315 is closed and the correction outputs QA and QB are The data is input to the qualitative model calculation circuit 303 (steps 5 and 6).

【0036】定性モデルについて以下に説明する。歩行
ロボットが前足102Aと後足102Bを開いた図3(
a)の姿勢から図3(b)に示す両足102A,102
Bを閉じた姿勢へ移るとき、前足先102Cの摩擦力が
後足先102Dの摩擦力より大きいときは、前足先10
2Cは床101上をすべらず、後足先102Dのみが床
101上をすべって、歩行ロボットは図5に示すように
距離yABだけ移動する。この場合、前足102Aの角
度の変化量(u1A−u1B)が大きいほど移動の距離
yABは大きい。従って後足102Bの回転量は移動距
離に貢献しない。その結果、前記の姿勢の変化による移
動距離yABは(数8)式により表される。
The qualitative model will be explained below. Figure 3 shows the walking robot opening its front legs 102A and hind legs 102B (
Both legs 102A, 102 shown in FIG. 3(b) from the posture of a)
When moving B to the closed position, if the friction force at the front foot tip 102C is greater than the friction force at the rear foot tip 102D, the front foot tip 10
2C does not slide on the floor 101, only the tip of the rear foot 102D slides on the floor 101, and the walking robot moves by a distance yAB as shown in FIG. In this case, the larger the amount of change in the angle of the front foot 102A (u1A-u1B), the larger the distance yAB of movement. Therefore, the amount of rotation of the hind leg 102B does not contribute to the distance traveled. As a result, the moving distance yAB due to the change in posture is expressed by equation (8).

【0037】[0037]

【数8】[Math. 8]

【0038】ここに、F1Aは前足先102Cの摩擦力
、F2Aは後足先102Dの摩擦力である。
Here, F1A is the frictional force of the front foot tip 102C, and F2A is the frictional force of the rear foot tip 102D.

【0039】g1,g2は増加関数であり、g1(0)
=g2(0)=0である。 (数8)式において、式(F1A−F2A)の値の符号
を判定する必要があるが、これらの摩擦力を検出するこ
は極めて困難である。そこで検知可能な角度データであ
る入力ベクトル(u1A,u1B,u2A,u2B)を
用いてこの式(F1A−F2A)に等価な式を表す。
[0039] g1 and g2 are increasing functions, and g1(0)
=g2(0)=0. In equation (8), it is necessary to determine the sign of the value of equation (F1A-F2A), but it is extremely difficult to detect these frictional forces. Therefore, an expression equivalent to this expression (F1A-F2A) is expressed using input vectors (u1A, u1B, u2A, u2B) that are detectable angle data.

【0040】(数8)式における式(F1A−F2A=
0)は前足先102Cと後足先102Dの摩擦力が等し
いことを表している。前足102Aの長さL1と後足1
02Bの長さL2が等しく、前足102Aと床101間
の摩擦係数μ1、後足102Bと床101間の摩擦係数
μ2が等しいと仮定すると、式(F1A−F2A=0)
は式(u1A−u2A=0)と等価である。
In the equation (8), the equation (F1A-F2A=
0) indicates that the friction force between the front foot tip 102C and the rear foot tip 102D is equal. Length L1 of front leg 102A and hind leg 1
Assuming that the length L2 of 02B is equal, the friction coefficient μ1 between the front foot 102A and the floor 101, and the friction coefficient μ2 between the rear foot 102B and the floor 101 are equal, the formula (F1A-F2A=0)
is equivalent to the formula (u1A-u2A=0).

【0041】上記の関係は一般には(数9)式によって
表される。
The above relationship is generally expressed by equation (9).

【0042】[0042]

【数9】[Math. 9]

【0043】ここで、QAはL1,L2,μ1,μ2の
関係によって変動する境界パラメータであり、従ってu
2A−u1A−QAは入力と境界パラメータからなる境
界関数であり、入力と同じ次元である。ただし、L1=
L2 かつμ1=μ2の時はQA=0となる。
Here, QA is a boundary parameter that varies depending on the relationship between L1, L2, μ1, μ2, and therefore u
2A-u1A-QA is a boundary function consisting of an input and a boundary parameter, and has the same dimension as the input. However, L1=
When L2 and μ1=μ2, QA=0.

【0044】(数4)式と(数8)式を組み合わせると
、(数10)式が得られる。
When formula (4) and formula (8) are combined, formula (10) is obtained.

【0045】[0045]

【数10】[Math. 10]

【0046】同様に考えると、図3(b)から図3(a
)へ変化するときの歩行距離yBAは(数11)式で表
される。
Considering the same way, FIGS. 3(b) to 3(a)
) The walking distance yBA when changing to ) is expressed by equation (11).

【0047】[0047]

【数11】[Math. 11]

【0048】また、歩行ロボットが図3(a)→図3(
b)→図3(a)と変化するとき、歩行距離yは、(数
12)式で表わされる。
[0048] Furthermore, the walking robot moves from Fig. 3(a) to Fig. 3(
When changing from b) to FIG. 3(a), the walking distance y is expressed by equation (12).

【0049】[0049]

【数12】[Math. 12]

【0050】(数9)式〜(数11)式をまとめると、
(表1)に示すようになる。
To summarize equations (9) to (11), we get
(Table 1).

【0051】[0051]

【表1】[Table 1]

【0052】(表1)において、領域番号(1〜9)は
歩行ロボットに与えた入力U=(u1A,u1B,u2
A,u2B)と境界パラメータQA,QBの差の値の符
号によって分けられる領域を示すものである。その領域
は、(数10)式において、入力値(u1A−u2A)
と境界パラメータQAの差の値の符号から3通りに分け
られる。また(数11)において、入力値(u2B−u
1A)と境界パラメータQBの差の値の符号から3通り
の領域に分けられる。従って9(3×3=9)通りの領
域に区分され、それぞれの領域において歩行距離yを求
めるための関数が異なる。
In (Table 1), the area numbers (1 to 9) are the inputs U=(u1A, u1B, u2) given to the walking robot.
A, u2B) and the boundary parameters QA, QB). In equation (10), the area is the input value (u1A-u2A)
It can be divided into three types based on the sign of the difference value between and the boundary parameter QA. Also, in (Equation 11), the input value (u2B-u
1A) and the boundary parameter QB can be divided into three regions based on the sign of the difference value. Therefore, it is divided into 9 (3×3=9) regions, and the function for determining the walking distance y is different in each region.

【0053】境界関数の値の符号は次にようにして得ら
れる。例えば、領域番号(1)において、境界関数符号
[u2A−u1A−QA]についてはu2A−u1A−
QA>0であるのでその値の符号は“+”である。同様
にして、領域番号(2)において、境界関数符号[u2
B−u1B−QB]についてはu2B−u1B−QB=
0であるのでその値は“0”となる。
The sign of the value of the boundary function is obtained as follows. For example, in area number (1), for boundary function code [u2A-u1A-QA], u2A-u1A-
Since QA>0, the sign of the value is "+". Similarly, in region number (2), boundary function code [u2
B-u1B-QB], u2B-u1B-QB=
Since it is 0, its value is "0".

【0054】各領域番号における出力値yは次のように
して求められる。すなわち、領域番号(1)では、(数
10)式よりyAB=g1(u1A−u1B)、(数1
1)式よりyBA=−g1(u1A−u1B)であるの
で、歩行距離yは
The output value y for each area number is determined as follows. That is, in area number (1), from equation (10), yAB=g1(u1A-u1B), ( equation 1
From formula 1), yBA=-g1(u1A-u1B), so the walking distance y is

【0055】[0055]

【数13】[Math. 13]

【0056】となる。また、領域番号(2)では、(数
10)式よりyAB=g1(u1A−u1B)、(数1
1)式よりyBA=0であるので、歩行距離yは
[0056] Also, in area number (2), from equation (10), yAB=g1(u1A-u1B), (formula 1
From formula 1), yBA=0, so the walking distance y is

【00
57】
00
57]

【数14】[Math. 14]

【0058】となる。関数g1,g2が増加関数である
ので、入力ベクトルの値の符号に対する出力の符号を予
測することができる。この「符号の予測」が定性モデル
演算回路303に設定された「定性モデル」に基づいて
行なわれる。(表2)はこの「定性モデル」を表すもの
であり、境界関数符号[u2A−u1A−QA]及び[
u2B−u1B−QB]の符号の組合せに対応する予測
符号データ(数3)が示されている。
[0058] Since the functions g1 and g2 are increasing functions, it is possible to predict the sign of the output relative to the sign of the input vector value. This “sign prediction” is performed based on the “qualitative model” set in the qualitative model calculation circuit 303. (Table 2) represents this "qualitative model", with boundary function codes [u2A-u1A-QA] and [
Predicted code data (Equation 3) corresponding to the code combination [u2B-u1B-QB] is shown.

【0059】[0059]

【表2】[Table 2]

【0060】(表2)において、予測符号データ(数3
)は次のようにして求められる。例えば領域番号(1)
の場合には、符号ベクトル[△Ui]=(+,0,−,
+)に対して、予測符号データ(数5)は“0”となる
。(符号ベクトル[△Ui]がどのような値をとる場合
でも予測符号データ
In (Table 2), the predicted code data (Equation 3
) can be obtained as follows. For example, area number (1)
In the case, code vector [△Ui] = (+, 0, −,
+), the predicted code data (Equation 5) is “0”. (No matter what value the code vector [△Ui] takes, the predicted code data

【0061】[0061]

【数15】[Math. 15]

【0062】となる。)領域番号(2)の場合には、例
えば符号ベクトル[△Ui]=(+,−,−,+)に対
して、予測符号データ(数5)は“+”になる。
[0062] ) In the case of area number (2), for example, the predicted code data (Equation 5) becomes "+" for code vector [ΔUi]=(+, -, -, +).

【0063】[0063]

【数16】[Math. 16]

【0064】また例えば、符号ベクトル[△Ui]= 
(+、+、−、+)に対しては、予測符号データ(数5
)は確定した値が求まらない。
For example, code vector [△Ui]=
For (+, +, -, +), predicted code data (Equation 5
) has no fixed value.

【0065】[0065]

【数17】[Math. 17]

【0066】定性モデル修正回路312の出力は前足先
102Cと床101との摩擦係数μ1、及び後足先10
2Dと床101との摩擦係数μ2、前足102A及び後
足102Bのそれぞれの長さによって定まる境界パラメ
ータQA,QBを含んでいる。摩擦係数μ1,μ2は測
定の困難なデータであり、予測できない、従ってそれら
を含んでいる境界パラメータQA,QBを正確に予測す
ることができず、(表2)の予測が正しいとは限らない
。この予測が正しくなかった場合には、出力符号検出回
路313により検出された実際の出力値の符号データ[
Δy]と入力ベクトル選択回路309から出力される予
測符号データ(数3)が一致しない。このような場合に
は定性モデル演算回路303で用いられる定性モデルが
適正でないと思われるので、定性モデルの境界パラメー
タQA,QBを変更する。
The output of the qualitative model correction circuit 312 is the friction coefficient μ1 between the front foot tip 102C and the floor 101, and the rear foot tip 10
It includes a coefficient of friction μ2 between 2D and the floor 101, and boundary parameters QA and QB determined by the respective lengths of the front foot 102A and the rear foot 102B. The friction coefficients μ1 and μ2 are data that are difficult to measure and cannot be predicted. Therefore, the boundary parameters QA and QB that include them cannot be accurately predicted, and the predictions in (Table 2) are not necessarily correct. . If this prediction is incorrect, the code data of the actual output value detected by the output code detection circuit 313 [
Δy] and the predicted code data (Equation 3) output from the input vector selection circuit 309 do not match. In such a case, the qualitative model used by the qualitative model calculation circuit 303 is considered to be inappropriate, so the boundary parameters QA and QB of the qualitative model are changed.

【0067】実際の数値を当てはめた修正操作の一例を
次に示す。歩行ロボットの入力が
An example of a correction operation applying actual numerical values is shown below. The input of the walking robot is

【0068】[0068]

【数18】[Math. 18]

【0069】であり、QA=20゜、QB=10゜とす
ると、(数10)式から
[0069] If QA=20° and QB=10°, then from equation (10),

【0070】[0070]

【数19】[Math. 19]

【0071】また(数11)式から[0071] Also, from equation (11),

【0072】[0072]

【数20】[Math. 20]

【0073】(数19)式と(数20)式の演算結果か
ら(表2)の領域番号(2)が選択される。
Region number (2) in Table 2 is selected from the calculation results of equations (19) and (20).

【0074】このとき、入力変化ベクトルとして例えば
次のデータを入力するとする。
At this time, it is assumed that the following data, for example, is input as the input change vector.

【0075】[0075]

【数21】[Math. 21]

【0076】この場合、予測符号データ(数3)は(表
2)から次のように計算される。
In this case, the predicted code data (Equation 3) is calculated from (Table 2) as follows.

【0077】[0077]

【数22】[Math. 22]

【0078】次に上記の入力変化ベクトルが与えられた
歩行ロボットの歩行動作終了後の符号データ[Δy]が
“−”になった場合には、領域番号の選択が間違ってい
ると予想される。そこで(表2)において、予測符号デ
ータ(数3)が“−”になる領域番号をさがす。その結
果、適合する領域番号は(4)であることがわかる((
数20)式の演算から)。
[0078] Next, if the code data [Δy] of the walking robot given the above input change vector after the completion of the walking motion becomes "-", it is predicted that the selection of the area number is incorrect. . Therefore, in (Table 2), a region number where the predicted code data (Equation 3) becomes "-" is searched. As a result, it is found that the matching area number is (4) ((
From the calculation of equation 20).

【0079】そこで、(数18)式,(数21)式のデ
ータにおいて、領域番号(4)の境界関数に適合するよ
うな境界パラメータQA,QBを求める。
Therefore, in the data of equations (18) and (21), boundary parameters QA and QB that match the boundary function of area number (4) are determined.

【0080】(数10)式、(数11)式からFrom equation (10) and equation (11),

【008
1】
008
1]

【数23】[Math. 23]

【0082】上の2式が成立するためにはQA’,QB
’の値を次のようにすればよい。
In order for the above two equations to hold true, QA', QB
The value of ' can be set as follows.

【0083】[0083]

【数24】[Math. 24]

【0084】ここで、“ε”は正の実数である。他方符
号データ[Δy]が“+”の場合には
[0084] Here, "ε" is a positive real number. On the other hand, if the sign data [Δy] is “+”

【0085】[0085]

【数25】[Math. 25]

【0086】であるので、予測符号データと符号データ
が一致する。したがって境界パラメータQA,QBの修
正はしない。
Therefore, the predicted code data and the code data match. Therefore, the boundary parameters QA and QB are not modified.

【0087】両足の摩擦係数が等しく(μ1=μ2)、
かつ前足と後足の長さが等しい(L1=L2)場合には
、QA=QB=0である。したがって定性モデルの修正
は行なわない。その結果定性モデル修正回路312、出
力変化符号検出回路313及びスイッチ314,315
のない図6の回路を用いることができる。
[0087] The friction coefficients of both feet are equal (μ1=μ2),
And when the lengths of the front and hind legs are equal (L1=L2), QA=QB=0. Therefore, we do not modify the qualitative model. As a result, a qualitative model correction circuit 312, an output change sign detection circuit 313, and switches 314 and 315
It is possible to use the circuit of FIG. 6 without.

【0088】また、この実施例は学習制御を歩行ロボッ
トに適用しているが、本発明の学習制御は化学プラント
や空調システム等にも適用することができる。
Furthermore, although this embodiment applies learning control to a walking robot, the learning control of the present invention can also be applied to chemical plants, air conditioning systems, and the like.

【0089】[0089]

【発明の効果】以上、本発明によれば、定性モデル演算
回路303および入力変化ベクトル選択回路309にお
いて、歩行距離yを所望の目標歩行距離ydに近づける
ことができる入力変化ベクトル△Ujのみを選択し、こ
れについてのみ歩行動作を行うため、従来のようにすべ
ての入力変化ベクトルについて試行する必要がなく、目
標歩行距離ydに到達するまでの歩行動作の繰り返し回
数を極めて少なくすることができる。さらに、摩擦係数
μ1およびμ2や前足102Aの長さL1および後足1
02Bの長さL2が変化し、歩行距離yが目標歩行距離
ydから離れる傾向にある場合には、定性モデル修正回
路において歩行距離yが目標歩行距離ydに近づくよう
に定性モデルを修正するため、繰り返し回数を少なくで
きる効果を維持することができる。実際に実験では、同
じ目標歩行距離ydに到達するのに、従来例では既に述
べたように約810回の試行を必要としていたのに対し
、本発明では約10回の試行で実現でき、大きな効果を
確認できた。
As described above, according to the present invention, the qualitative model calculation circuit 303 and the input change vector selection circuit 309 select only the input change vector △Uj that can bring the walking distance y closer to the desired target walking distance yd. However, since the walking motion is performed only for this, there is no need to try all the input change vectors as in the conventional case, and the number of repetitions of the walking motion until the target walking distance yd is reached can be extremely reduced. Furthermore, the friction coefficients μ1 and μ2, the length L1 of the front foot 102A, and the rear foot 1
When the length L2 of 02B changes and the walking distance y tends to move away from the target walking distance yd, the qualitative model is corrected in the qualitative model correction circuit so that the walking distance y approaches the target walking distance yd. The effect of reducing the number of repetitions can be maintained. In actual experiments, in order to reach the same target walking distance yd, the conventional example required approximately 810 trials as mentioned above, whereas the present invention can achieve this in approximately 10 trials, which is a significant I was able to confirm the effect.

【図面の簡単な説明】[Brief explanation of the drawing]

【図1】本発明の第1の実施例における学習制御装置の
ブロック図である。
FIG. 1 is a block diagram of a learning control device in a first embodiment of the present invention.

【図2】本発明の学習制御装置の制御対象の一例である
、歩行ロボットの斜視図である。
FIG. 2 is a perspective view of a walking robot, which is an example of the object to be controlled by the learning control device of the present invention.

【図3】(a)は本発明の学習制御装置の制御対象の一
例である、歩行ロボットの動作例を表わす正面図である
。(b)は本発明の学習制御装置の制御対象の一例であ
る、歩行ロボットの動作例を表わす正面図である。
FIG. 3(a) is a front view showing an example of the operation of a walking robot, which is an example of the object to be controlled by the learning control device of the present invention. (b) is a front view showing an example of the operation of a walking robot, which is an example of the object to be controlled by the learning control device of the present invention.

【図4】本発明の第1の実施例である学習制御装置にお
ける定性モデル修正回路と出力符号検出回路の動作を示
すフローチャート図である。
FIG. 4 is a flowchart showing the operations of a qualitative model correction circuit and an output sign detection circuit in the learning control device according to the first embodiment of the present invention.

【図5】本発明の学習制御装置の制御対象の一例である
、歩行ロボットの動作中を示す正面図である。
FIG. 5 is a front view showing a walking robot in operation, which is an example of the object to be controlled by the learning control device of the present invention.

【図6】本発明の第2の実施例における学習制御装置の
ブロック図である。
FIG. 6 is a block diagram of a learning control device in a second embodiment of the present invention.

【符号の説明】[Explanation of symbols]

100  胴体 101  床 102A  前足 102B  後足 102C  前足先 102D  後足先 103A  モータ 103B  モータ 104  ドライバー回路 105  歩行ロボット 106  出力検出器 305A、305B  スイッチ 306  誤差演算回路 308  誤差符号検出回路 310  入力変化ベクトル決定回路 311  入力ベクトル更新回路 314  スイッチ 315  スイッチ 316  スイッチ 100 Torso 101 Floor 102A front leg 102B Hind leg 102C Front foot tip 102D Hind foot tip 103A motor 103B Motor 104 Driver circuit 105 Walking robot 106 Output detector 305A, 305B switch 306 Error calculation circuit 308 Error sign detection circuit 310 Input change vector determination circuit 311 Input vector update circuit 314 Switch 315 Switch 316 Switch

Claims (5)

【特許請求の範囲】[Claims] 【請求項1】制御対象に印加する制御入力Uを変化させ
る複数の入力変化ベクトルΔUiを発生させる手段と、
前記入力変化ベクトルΔUiに所定の定性モデルにもと
づいた演算を行ない予測符号データ 【数1】 を出力する定性モデル演算手段と、前記制御対象の出力
yを検出する検出手段と、前記検出手段の検出値yと目
標値ydとの差の値の符号を検出する誤差符号検出手段
と、前記誤差符号検出手段の出力[e]及び前記予測符
号データ(数1)に基づいて、前記入力変化ベクトルΔ
Uiを選択する入力変化ベクトル選択回路と、前記制御
対象の出力の値の変化を表す所定の符号を検出する出力
符号検出手段と、前記入力ベクトル選択回路で選択され
た入力変化ベクトルを前記制御対象の入力に加算する入
力ベクトル更新手段と、前記制御対象の入力及び前記出
力符号検出手段の検出出力に基づいて前記定性モデルを
修正する定性モデル修正手段を具備し、上記一連の動作
を繰り返すことで前記制御対象の出力yを目標値Ydに
一致させる学習制御装置。
1. Means for generating a plurality of input change vectors ΔUi for changing a control input U applied to a controlled object;
qualitative model calculating means for performing calculations on the input change vector ΔUi based on a predetermined qualitative model and outputting predicted code data [Equation 1]; a detecting means for detecting the output y of the controlled object; and a detecting means for detecting the output y of the controlled object. an error sign detection means for detecting the sign of the difference between the value y and the target value yd, and the input change vector Δ based on the output [e] of the error sign detection means and the predicted sign data (Equation 1)
an input change vector selection circuit for selecting Ui; an output sign detection means for detecting a predetermined sign representing a change in the value of the output of the controlled object; and a qualitative model modification means for modifying the qualitative model based on the input of the controlled object and the detection output of the output sign detection means, and by repeating the above series of operations. A learning control device that makes the output y of the controlled object match a target value Yd.
【請求項2】定性モデル演算手段は入力ベクトルUと少
なくとも1つの境界パラメータを有する境界関数と前記
入力ベクトルを前記境界関数に代入することによって得
られる値の符号に対応する少なくとも1つの定性式によ
って表される定性モデルを有することを特徴とする請求
項1記載の学習制御装置。
2. The qualitative model calculation means uses an input vector U, a boundary function having at least one boundary parameter, and at least one qualitative formula corresponding to the sign of a value obtained by substituting the input vector into the boundary function. The learning control device according to claim 1, further comprising a qualitative model represented.
【請求項3】定性モデル修正手段は、境界パラメータを
変更する手段を有することを特徴とする請求項2記載の
学習制御装置。
3. The learning control device according to claim 2, wherein the qualitative model modification means includes means for changing boundary parameters.
【請求項4】制御対象に印加する制御入力Uを変化させ
る複数の入力変化ベクトルΔUiを発生させる手段と、
前記入力変化ベクトルΔUiに所定の定性モデルにもと
づいた演算を行ない予測符号データ(数1)を出力する
定性モデル演算手段と、前記制御対象の出力yを検出す
る検出手段と、前記検出手段の検出値yと目標値ydと
の差の値の符号を検出する誤差符号検出手段と、前記誤
差符号検出手段の出力[e]及び前記予測符号データ(
数1)に基づいて、前記入力変化ベクトルΔUiを選択
する入力変化ベクトル選択回路と、前記入力ベクトル選
択回路で選択された入力変化ベクトルを前記制御対象の
入力に加算する入力ベクトル更新手段を具備し、上記一
連の動作を繰り返すことで前記制御対象の出力yを目標
値Ydに一致させる学習制御装置。
4. Means for generating a plurality of input change vectors ΔUi for changing the control input U applied to the controlled object;
a qualitative model calculating means for performing calculations on the input change vector ΔUi based on a predetermined qualitative model and outputting predicted code data (Equation 1); a detecting means for detecting the output y of the controlled object; and a detecting means for detecting the output y of the controlled object. an error code detection means for detecting the sign of the difference between the value y and the target value yd, and an output [e] of the error code detection means and the predicted code data (
An input change vector selection circuit that selects the input change vector ΔUi based on Equation 1), and input vector update means that adds the input change vector selected by the input vector selection circuit to the input of the controlled object. , a learning control device that makes the output y of the controlled object match the target value Yd by repeating the above series of operations.
【請求項5】定性モデル演算手段は入力ベクトルUと少
なくとも1つの境界パラメータを有する境界関数と、前
記入力ベクトルを前記境界関数に代入することによって
得られる値の符号に対応する少なくとも1つの定性式に
よって表される定性モデルを有することを特徴とする請
求項4記載の学習制御装置。
5. The qualitative model calculation means comprises an input vector U, a boundary function having at least one boundary parameter, and at least one qualitative formula corresponding to the sign of a value obtained by substituting the input vector into the boundary function. 5. The learning control device according to claim 4, further comprising a qualitative model represented by .
JP503291A 1990-01-22 1991-01-21 Learning control device Expired - Fee Related JP2720605B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP503291A JP2720605B2 (en) 1990-01-22 1991-01-21 Learning control device

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP1314190 1990-01-22
JP19363890 1990-07-20
JP2-193638 1990-07-20
JP2-13141 1990-07-20
JP503291A JP2720605B2 (en) 1990-01-22 1991-01-21 Learning control device

Publications (2)

Publication Number Publication Date
JPH04211801A true JPH04211801A (en) 1992-08-03
JP2720605B2 JP2720605B2 (en) 1998-03-04

Family

ID=27276567

Family Applications (1)

Application Number Title Priority Date Filing Date
JP503291A Expired - Fee Related JP2720605B2 (en) 1990-01-22 1991-01-21 Learning control device

Country Status (1)

Country Link
JP (1) JP2720605B2 (en)

Also Published As

Publication number Publication date
JP2720605B2 (en) 1998-03-04

Similar Documents

Publication Publication Date Title
US7072741B2 (en) Robot control algorithm constructing apparatus
Kelly An introduction to trajectory optimization: How to do your own direct collocation
US9555543B2 (en) Robot with joints of variable rigidity and method for calculating said optimized rigidity
Goharimanesh et al. A fuzzy reinforcement learning approach for continuum robot control
JP2019166626A (en) Control device and machine learning device
Romano et al. The codyco project achievements and beyond: Toward human aware whole-body controllers for physical human robot interaction
JP2022176917A (en) Method for controlling robot device
Prakash et al. Dual-loop optimal control of a robot manipulator and its application in warehouse automation
Lin et al. An ensemble method for inverse reinforcement learning
Seleem et al. Guided pose planning and tracking for multi-section continuum robots considering robot dynamics
Wu et al. Genetic algorithm trajectory plan optimization for EAMA: EAST Articulated Maintenance Arm
JPH04211801A (en) Learning controller
Boivin et al. Movement error based control for a firm touch of a soft somatosensitive actuator
Stitt et al. Distal learning applied to biped robots
Mombaur et al. An inverse optimal control approach to human motion modeling
Koch et al. Discrete mechanics and optimal control of walking gaits
EP0439091B1 (en) Adaptive control system
JPH056202A (en) Learning controller
Valle et al. Computed-torque control of a simulated bipedal robot with locomotion by reinforcement learning
Bobrow et al. Recent advances on the algorithmic optimization of robot motion
Bahar et al. STS motion control using humanoid robot
Nemec et al. Incremental policy refinement by recursive regression and kinesthetic guidance
Zelek A framework for mobile robot concurrent path planning and execution in incomplete and uncertain environments
WO2003045640A1 (en) An industrial robot system and a method for programming thereof
Andrjejew et al. Development the algorithms of anthropomorphic robot's motion control by use of AI algorithms

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees