JPH05257919A - 適応型制御装置の学習処理方式 - Google Patents

適応型制御装置の学習処理方式

Info

Publication number
JPH05257919A
JPH05257919A JP4054611A JP5461192A JPH05257919A JP H05257919 A JPH05257919 A JP H05257919A JP 4054611 A JP4054611 A JP 4054611A JP 5461192 A JP5461192 A JP 5461192A JP H05257919 A JPH05257919 A JP H05257919A
Authority
JP
Japan
Prior art keywords
control
adaptive
amount
output
conversion function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP4054611A
Other languages
English (en)
Inventor
Shinya Hosoki
信也 細木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP4054611A priority Critical patent/JPH05257919A/ja
Publication of JPH05257919A publication Critical patent/JPH05257919A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Feedback Control In General (AREA)

Abstract

(57)【要約】 【目的】本発明は、適応型制御装置のデータ変換機能の
学習を実現する適応型制御装置の学習処理方式に関し、
適応型制御装置のデータ変換機能を教師信号を要求され
ることなく、かつ、オンラインで学習できるようにする
とともに、更に、ハードウェアによる実装を可能にする
ことを目的とする。 【構成】適応型制御装置が、制御対象の持つ制御状態量
と制御目標量との差分量と、制御対象に与えられる制御
操作量とを入力信号とするとともに、制御操作差分量を
出力信号とする構成を採り、かつ、制御操作量を入力と
して、出力信号と制御操作差分量との乗算量が、制御状
態差分量と一致することになるようにとデータ変換機能
が学習されるように構成される適応型データ処理装置を
備え、この適応型データ処理装置の出力する出力信号に
従って、適応型制御装置のデータ変換機能の学習を実行
していくように構成する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、設定変更可能なデータ
変換機能に従って、入力信号に対応する出力信号を算出
して出力する構成を採って、この入出力信号関係に従っ
て制御対象を所望の制御状態に制御する構成を採る適応
型制御装置のデータ変換機能を学習する適応型制御装置
の学習処理方式に関し、特に、適応型制御装置のデータ
変換機能を教師信号を要求されることなく、かつ、オン
ラインで学習できるようにするとともに、更に、ハード
ウェアによる実装をも可能とする適応型制御装置の学習
処理方式に関するものである。
【0002】ニューロコンピュータ等のように、設定変
更可能なデータ変換機能に従ってデータ処理を実行する
適応型データ処理装置があり、この適応型データ処理装
置を用いて、制御対象を所望の制御状態に制御する適応
型制御装置を構築していくことが行われている。このよ
うな適応型制御装置を複雑な制御対象の制御処理にも用
いることができるようにするためには、そのデータ変換
機能を教師信号を用いずに学習できるようにしていく必
要がある。
【0003】
【従来の技術】ニューロコンピュータ等のような適応型
データ処理装置に従ってデータ処理目的を実現するとき
には、データ処理目的にかなう入出力信号関係を持つ教
師信号群を入手して、その教師信号群の入出力信号関係
が実現できるようにと、バックプロパゲーション法等の
学習アルゴリズムを用いて適応型データ処理装置のデー
タ変換機能を学習していくことになる。
【0004】この教師信号群を入手することは、データ
処理目的が、例えば入力値の論理積値を算出するといっ
たように数学的に明示的である場合や、入力文字の認識
といったように入出力信号関係が明示的である場合に
は、比較的容易に可能となるものの、データ処理目的が
複雑となってくると極めて困難なものとなっている。特
に、データ処理目的が制御対象の制御処理にある場合、
制御対象が複雑であることで教師信号群の入手が事実上
不可能という点が挙げられる。
【0005】次に、この点に関して、多関節を持つロボ
ットマニピュレータを具体例にして説明する。多関節の
ロボットマニピュレータでは、xi (i=1〜m)をm
次元空間の空間座標、qj (j=1〜n)をn個ある関
節の第j関節の関節変位角度とするならば、 =(q1,2,3,…qn T 但し、Tは転置行列という関節変位角度ベクトルを制御
操作量として持ち、 =(x1,2,3,…xm T という手先位置ベクトルの制御状態量を持つことにな
り、これらの間には、非線形で表される) 式 という関係式が成立することになる。
【0006】この非線形な関係式から分かるように、関
節変位角度ベクトルが与えられれば、この関係式に代
入していくことで、手先位置ベクトルは容易に決定で
きる。すなわち、マニピュレータの各関節の駆動機構に
駆動電流等のエネルギーを与えれば、一義的にマニピュ
レータの手先位置が決定されていくことになることから
も分かるように、関節変位角度ベクトルが与えられれ
ば、この関係式に従って、手先位置ベクトルが一義的
に決定されることになるのである。
【0007】しかるに、実際にロボットマニピュレータ
で作業を行う場合には、手先位置ベクトルを指定して
マニピュレータに要求される移動軌道が与えられる。こ
れから、ロボットマニピュレータの制御を実現するため
には、この関係式を逆に解いていく必要がある。すなわ
ち、 -1) 式 という関係式を導き出す必要がある。この式を解く問
題は、逆運動学問題と言われるものであって、手先位置
ベクトルに対応する関節変位角度ベクトルが存在す
るものとは限らず、また、存在しても一意とは限らない
という性質を持っている。
【0008】このように、ロボットマニピュレータの手
先位置が与えられるときに、それを実現する関節変位角
度を求めるには、式の関係式を解いていく必要があ
る。しかしながら、この方法は、単純な構造のロボット
マニピュレータに対しては実現可能であるものの、関節
数が多くなるような複雑な構造のロボットマニピュレー
タに対しては、複雑な解析処理が要求されることになっ
て現実には不可能である。これから、複雑な構造を持つ
ロボットマニピュレータについては、制御目的を実現す
るための教師信号群を得ることができないので、適応型
データ処理装置により構成される適応型制御装置を構築
することができないことになる。
【0009】図12ないし図16に、この問題点を解決
するために採用されている従来技術を図示する。ここ
で、図中、適応型制御装置のデータ変換機能の学習を実
行する学習処理装置については、適応型制御装置を斜め
に突きさす直線でもってその存在を示してあり、また、
Nは、適応型制御装置のデータ変換機能の学習処理の実
現のために用意される適応型データ処理装置(斜めに突
きさす直線は、そのデータ変換機能の学習を実行する学
習処理装置)を表している。
【0010】図12に示す従来技術(参考文献/D.Psal
tis,A.Sideris and A.A.Yamamura:AMultilayered Neura
l Network,IEEE Control Systems Magagine,Vol.8,No.
2,pp.17-21(1988). 以下資料1と略記)は、図12
(a)に示すように、ランダムな制御操作量を制御対
象に与えて実際に駆動し、そのときの制御対象の制御状
態量を求めて適応型制御装置に入力するとともに、そ
のときの適応型制御装置の出力信号が制御対象に与えた
制御操作量になるようにと、適応型制御装置の持つデ
ータ変換機能を学習する。そして、実際に制御対象を制
御するときには、図12(b)に示すように、学習され
たデータ変換機能を持つ適応型制御装置に制御状態量の
制御目標量d を入力して、そのときの適応型制御装置
の出力する制御操作量を制御対象に与えていくこと
で、制御対象の制御状態量が目標のものになるようにと
制御するものである。
【0011】図13に示す従来技術(参考文献/資料
1)は、制御目標量d を入力とする適応型制御装置の
出力する制御操作量を制御対象に与えていくときにあ
って、制御対象の出力する制御状態量を入力とする適
応型データ処理装置Nを設けて、適応型制御装置の出力
信号と適応型データ処理装置Nの出力信号とが一致する
ようにと、適応型制御装置及び適応型データ処理装置N
のデータ変換機能を学習していくことで、制御目標量
d を実現する制御操作量の出力を実行する適応型制御
装置の構築を実現するものである。
【0012】図14に示す従来技術(参考文献/資料
1)は、制御目標量d を入力とする適応型制御装置の
出力する制御操作量を制御対象に与えていくときにあ
って、制御対象の逆Jacobianを算出する算出器を設け、
この算出器に従って、制御目標量d と制御対象の制御
状態量との差分量に対応付けられる制御操作差分量Δ
を算出して、この制御操作差分量Δqが小さくなるよ
うにと適応型制御装置のデータ変換機能を学習していく
ことで、制御目標量d を実現する制御操作量の出力
を実行する適応型制御装置の構築を実現するものであ
る。
【0013】図15に示す従来技術(参考文献/M.Kawa
to,Y.Uno,M.Isobe and R.Suzuki:Ahierarchical neural
network model for voluntary movement with applica
tion to robotics,IEEE Control Systems Magagine 8,8
-16(1988).)は、制御目標量d と制御対象の制御状態
との差分量を入力とする固定利得Kを持つフィード
バック制御器を設けるとともに、制御目標量d を入力
とする適応型制御装置の出力する制御操作量と、この
フィードバック制御器の出力する誤差量との加算量を制
御対象に与える構成を採って、フィードバック制御器の
出力する誤差量が小さくなるようにと適応型制御装置の
データ変換機能を学習していくことで、制御目標量d
を実現する制御操作量の出力を実行する適応型制御装
置の構築を実現するものである。
【0014】図16に示す従来技術(参考文献/M.Jord
an:In ref.4.(ref.4/Neural Networks for Control: e
d. W.Thomas Miller,III et.al.(1990).)) は、適応型
制御装置の出力する制御操作量を入力とする適応型デ
ータ処理装置Nを設けて、この適応型データ処理装置N
が制御対象と同一の入出力特性を持つ順システムとなる
ように学習する。そして、十分学習した後に、適応型デ
ータ処理装置Nの出力する制御状態量’と制御目標量
d との誤差量を、適応型データ処理装置Nのデータ変
換機能の内部状態値を固定にして逆伝播させることで入
力誤差を得て、この入力誤差を学習信号として用いて適
応型制御装置のデータ変換機能を学習していくことで、
制御目標量d を実現する制御操作量の出力を実行す
る適応型制御装置の構築を実現するものである。
【0015】
【発明が解決しようとする課題】しかしながら、この図
12に示す従来技術では、オフライン学習であるという
問題点がある。そして、適応型制御装置のデータ変換機
能を正しい逆システムのものとするためには、極めて多
数のランダムな制御操作量を制御対象に与えて学習を
行っていく必要があるという問題点がある。更に、ロボ
ットアームのリンク長といったような制御対象の持つパ
ラメータが変化すると、改めて学習をやり直さなくては
ならないという問題点がある。
【0016】また、図13に示す従来技術では、適応型
制御装置のデータ変換機能の学習にあたって、適応型デ
ータ処理装置Nのデータ変換機能を予め学習しておく必
要があることから、オフライン学習になるという問題点
がある。そして、未学習の段階で、適応型制御装置の出
力信号と適応型データ処理装置Nの出力信号とが一致し
てしまうようなことが起こると、適応型制御装置のデー
タ変換機能の学習が実行できなくなるという問題点があ
る。
【0017】また、図14に示す従来技術では、算出器
に従って逆Jacobianをリアルタイムでもって算出してい
く必要があることから、オフライン学習になるという問
題点がある。そして、算出器を備えるために、制御対象
の逆Jacobianの知識が必要になるという問題点がある。
【0018】また、図15に示す従来技術では、オンラ
イン学習を実現できるという利点はある。しかしなが
ら、適応型制御装置のデータ変換機能の学習を実現する
ためには、フィードバック制御器の固定利得Kが適切に
設定される必要があるが、この固定利得Kの設定のため
には、制御対象の逆Jacobianの知識が必要になるという
問題点がある。
【0019】また、図16に示す従来技術では、適応型
制御装置のデータ変換機能の学習にあたって、適応型デ
ータ処理装置Nのデータ変換機能を予め学習しておく必
要があることから、オフライン学習になるという問題点
がある。
【0020】このようなことを背景にして、本出願人
は、先に出願の特願平3-51497号(発明の名称:適応型
制御装置の自己学習処理方式)において、適応型制御装
置のデータ変換機能を教師信号を要求されることなく、
すなわち、制御対象に対しての知識を要求されることな
く、かつ、オンラインで学習できるようにする新たな適
応型制御装置の学習処理方式の発明を開示した。しかる
に、この発明では、適応型制御装置の学習処理のアルゴ
リズムについては開示したものの、ハードウェア構成の
実現を可能とするまでに至っていない構成部分が残され
ていた。
【0021】本発明はかかる事情に鑑みてなされたもの
であって、本出願人が先に出願した特願平3-51497号の
発明に従って、適応型制御装置のデータ変換機能を教師
信号を要求されることなく、かつ、オンラインで学習で
きるようにする構成を採るときにあって、この発明のハ
ードウェアによる実現を可能にする新たな適応型制御装
置の学習処理方式の提供を目的とするものである。
【0022】
【課題を解決するための手段】図1及び図2に本発明の
原理構成を図示する。図中、1は適応型制御装置、2は
非線形の制御対象、3は第1の適応型データ処理装置、
4は乗算器、5は第2の適応型データ処理装置、6は加
算器である。適応型制御装置1や第1の適応型データ処
理装置3や第2の適応型データ処理装置5としては、誤
差逆伝播型やCMAC型や自己組織型等のネットワーク
構成データ処理装置といったような様々な形式の適応型
データ処理装置を用いることが可能である。また、制御
対象2は、その数学的なモデルを確立できる必要はない
が、入出力関係は測定可能であるものとし、特性パラメ
ータについては時間的に変化することも許容する。
【0023】適応型制御装置1は、設定変更可能なデー
タ変換機能NA に従って、入力信号に対応する出力信号
を算出して出力する構成を採り、この入出力信号関係に
従って制御対象2を所望の制御状態に制御するものであ
って、試行動作する制御対象2の持つ制御状態量(図中
)とこの制御状態量の制御目標量(図中のd )と
の差分量(図中のx )と、制御対象2に与えられる制
御操作量(図中の)とを入力信号とするとともに、制
御対象2に与える制御操作差分量(図中のΔq)を出力
信号とする構成を採る。ここで、この適応型制御装置1
のデータ変換機能NA の学習を実行する学習処理装置に
ついては、適応型制御装置1を斜めに突きさす直線でも
ってその存在を示してある。
【0024】この適応型制御装置1のデータ変換機能N
A は、乗算器4の出力する出力信号に従って更新されて
いくことで学習されるように構成される。第1の適応型
データ処理装置3は、設定変更可能なデータ変換機能N
J に従って、入力信号に対応する出力信号を算出して出
力する構成を採り、制御対象2に与えられる制御操作量
(図中の)を入力信号とするものであって、この出力
信号と上述の差分量(図中のx )との乗算量が適応型
制御装置1のデータ変換機能NA の更新信号として用い
られることになる。ここで、この第1の適応型データ処
理装置3のデータ変換機能NJ の学習を実行する学習処
理装置については、第1の適応型データ処理装置3を斜
めに突きさす直線でもってその存在を示してある。
【0025】この第1の適応型データ処理装置3のデー
タ変換機能NJ は、出力信号と制御対象2に与えられる
制御操作差分量(図中のΔq)との乗算量が、制御対象
2の出力する制御状態差分量(図中のΔx)と一致する
ことになるようにと学習されるように構成される。
【0026】乗算器4は、第1の適応型データ処理装置
3の出力する出力信号と上述の差分量(図中のx )と
の乗算量を算出して、この乗算量を適応型制御装置1の
学習処理装置に出力する。
【0027】第2の適応型データ処理装置5は、設定変
更可能なデータ変換機能NF に従って、入力信号に対応
する出力信号を算出して出力する構成を採って、試行動
作する制御対象2の持つ制御状態量の制御目標量(図中
d )を入力信号とし、制御対象2に与える制御操作
量(図中のq’)を出力信号とする構成を採り、更に、
制御対象2の持つ特性パラメータを入力信号とすること
がある。ここで、この第2の適応型データ処理装置5の
データ変換機能NF の学習を実行する学習処理装置につ
いては、第2の適応型データ処理装置5を斜めに突きさ
す直線でもってその存在を示してある。
【0028】この第2の適応型データ処理装置5のデー
タ変換機能NF は、出力信号の制御操作量(図中の
q’)が、適応型制御装置1により設定されて制御対象
2に与えられる制御操作量(図中の)と一致すること
になるようにと学習されるように構成される。
【0029】加算器6は、適応型制御装置1の出力する
制御操作差分量(図中のΔq)と、適応型データ処理装
置4の出力する制御操作量(図中のq’)との加算量を
算出して、この加算量を制御対象2に制御操作量として
与えていく処理を実行する。
【0030】
【作用】kサイクル目の試行サイクル時点において、制
御対象2に制御操作量(k)が与えられるときに、制
御対象2が制御状態量(k)を示すものとする。この
状態にあるときに、制御処理の目標となる制御目標量
d が与えられるとする。このとき、適応型制御装置1に
は、(k)とd との誤差量である差分量x ( k)
が入力される。その結果、適応型制御装置1は、データ
変換機能NA を規定する内部状態値をwA (k)で表す
ならば、Δq (k)=NA x ( k),(k),w
A (k)) を出力する。これにより、制御対象2に制御操作量(
(k)+Δq(k))が与えられることになり、制御対
象2の制御状態量は(k+1)(≡(k)+Δx
(k))に遷移する。
【0031】このような試行を実行していくときに、第
1の適応型データ処理装置3は、例えば、下記の評価関
数J1 を想定して、
【0032】
【数1】
【0033】この評価関数J1 の関数値が極小値を示す
ことになるようにと評価していくことで、適応型制御装
置1のデータ変換機能NA の内部状態値をwA (k)を
更新するための更新信号を生成する。このデータ変換機
能NA の内部状態値の更新量ΔwA (k)は、例えば最
急降下法に従って、
【0034】
【数2】
【0035】但し、μA :学習係数 T :転置行列 により決定される。
【0036】この〔数2〕の第1項である“x ( k)
T ”は、制御対象2の制御状態量(k)とその制御目
標量d との差分量であり、計測により特定できる。第
2項である“∂(k)/∂(k)”は、制御対象2
の入出力微分特性(Jacobian)であり、計測により特定
できるとともに、制御対象2のモデルが既知であれば計
算により特定することも可能である。第3項である“∂
(k)/∂wA (k)”は、制御対象2に与えられる
制御操作量の内部状態値wA (k)についての偏微分
である。
【0037】この第3項は、適応型制御装置1のネット
ワーク構造にのみ依存する部分であり、以下に説明する
ように変形できる。すなわち、適応型制御装置1のデー
タ変換機能NA の遷移関数をφとすると、このデータ変
換機能NA の出力する制御操作差分量Δq(k)は、 Δqi ( k)=φ(ΣwAij ( k)Vj ( k)−hi ) 但し、i :出力ユニットの番号 Vj :出力ユニットの前層の出力 で与えられる。これから、nサイクル目の試行時点での
制御操作量qi ( n)は、その初期値をqi0とすると、
【0038】
【数3】
【0039】で与えられることから、この第3項は、
【0040】
【数4】
【0041】但し、<φ>は遷移関数φの微分 ui ( k)=ΣwAij ( k)Vj ( k)−hi と表せる。
【0042】ここで、この〔数4〕中の遷移関数φの微
分項は、遷移関数φの関数が規定されているものである
ときには測定可能となるものであり、特に、線形関数で
あるときには定数となって、〔数4〕の値は出力ユニッ
トの前層の出力Vj により決定されることになる。そし
て、出力Vj が“1”か“0”を示す表参照形式のネッ
トワーク構造では、“1”のものだけが学習に寄与する
ことになる。
【0043】これから、〔数2〕で表される適応型制御
装置1のデータ変換機能NA の内部状態値の更新量Δw
Aij ( k)は、 ΔwAij ( k)=μA ・T・<φ(ui ( k))>・Vj ( k) と表され、特に、遷移関数φが線形関数である場合に
は、 ΔwAij ( k)=μA ・T・Vj ( k) と表される。ここで、Tは、制御対象2の制御状態量と
制御目標量との差分量である“x ( k)T ”と、制御
対象2のJacobianである“∂(k)/∂(k)”と
の乗算量である
【0044】
【数5】
【0045】として定義されるものである。第1の適応
型データ処理装置3は、〔課題を解決するための手段〕
の欄で説明したように、その出力信号と制御対象2に与
えられる制御操作差分量(図中のΔq)との乗算量が、
制御対象2の出力する制御状態差分量(図中のΔx)と
一致することになるようにとデータ変換機能NJ が学習
されるように構成されることで、制御対象2のJacobian
である“∂(k)/∂(k)”を出力信号として出
力するよう動作する。具体的には、第1の適応型データ
処理装置3のデータ変換機能NJ の学習処理装置は、第
1の適応型データ処理装置3のデータ変換機能NJ の内
部状態値wJ を、データ変換機能NJ が表参照形式で構
成される場合には、 ΔwJ =μJ (Δx−Δx’)Δq データ変換機能NJ が線形出力細胞で構成される場合に
は、 ΔwJ =μJ (Δx−Δx’)ΔqΔV に従って更新していくことになる。ここで、Δx’は、
第1の適応型データ処理装置3の出力信号と制御操作差
分量Δqとの乗算量を表している。
【0046】そして、この第1の適応型データ処理装置
3の出力信号を受けて、乗算器4は、第1の適応型デー
タ処理装置3の出力する“∂(k)/∂(k)”
と、制御対象2の制御状態量と制御目標量との差分量で
ある“x ( k)T ”との乗算量Tを算出して、適応型
制御装置1のデータ変換機能NA の学習処理装置に渡し
ていく。
【0047】この乗算器4の出力する出力信号Tを受け
て、適応型制御装置1のデータ変換機能NA の学習処理
装置は、上述の ΔwAij ( k)=μA ・T・<φ(ui ( k))>・Vj ( k) に従って、適応型制御装置1のデータ変換機能NA の内
部状態値wAij ( k)を更新していくことで、データ変
換機能NA の学習を実行していく。このようにして実行
される学習処理は、〔数1〕で示される評価関数J1
関数値が極小値を示すことになるように実行されるもの
であることから、適応型制御装置1は、「(k)→
d 」が実現されるようにと、データ変換機能NA の内部
状態値wA(k)を更新していき、その結果、学習終了
後の適応型制御装置1のデータ変換機能NA には、
【0048】
【数6】
【0049】の写像が形成される。この写像は、制御対
象2が正確に数学モデルとして表されるときに導出され
Δq -1Δx に相当するものである。ここで、J(-1はInverse
Jacobianであって、-1=(∂)/∂-1 と表される。
【0050】すなわち、ハードウェア構成による実装が
可能となる第1の適応型データ処理装置3は、正確な数
学モデルが確立できないような制御対象2であっても、
教師信号を要求することなく、かつ、オンライン処理で
もって、適応型制御装置1のデータ変換機能NA に制御
目標量への制御処理の実現のためのInverse Jacobianを
形成することで、適応型制御装置1をその制御対象2の
制御処理のための制御装置として構築していくよう処理
することになる。
【0051】このようにして、適応型制御装置1のデー
タ変換機能NA の学習が実行されていくときに、図1の
原理構成に従う本発明では、第2の適応型データ処理装
置5のデータ変換機能NF の学習を実行する学習処理装
置は、制御対象2に与えられる制御操作量(図中)を
教師信号として用いて、この制御操作量(図中の
と、第2の適応型データ処理装置5の出力する制御操作
量(図中のq’)との誤差値が極小値を示すようにと、
データ変換機能NF を規定するwF (k)を更新してい
く。
【0052】この学習処理は、具体的には、制御対象2
に与えられて教師信号をなす制御操作量(k)と、第
2の適応型データ処理装置5の出力する制御操作量q’
( k)との誤差値の2乗和により定義される下記の評価
関数J2
【0053】
【数7】
【0054】の関数値が極小値を示すことになるように
と、第2の適応型データ処理装置5のデータ変換機能N
F の内部状態値をwF (k)を更新していくことで実行
されるものであって、この更新量ΔwF (k)は、例え
ば最急降下法に従って、
【0055】
【数8】
【0056】但し、μF :学習係数 により決定される。ここで、この〔数8〕の第3項は、
遷移関数φが線形関数である場合には、上述の〔数4〕
により“VFj(k)”と表されることになる。
【0057】この第2の適応型データ処理装置5のデー
タ変換機能NF の学習は、適応型制御装置1のデータ変
換機能NA の学習が終了する時点で終了して、その結
果、学習終了後の第2の適応型データ処理装置5のデー
タ変換機能NF には、制御対象2の入出力の逆変換であ
る「d 」変換が形成される。このようにして、第
2の適応型データ処理装置5のデータ変換機能NF の学
習が実行されると、再び同一の制御目標量d への制御
要求があるときに、第2の適応型データ処理装置5は、
直ちにその制御目標量d への制御を実現する制御操作
を出力していくように動作する。
【0058】これから、第2の適応型データ処理装置5
のデータ変換機能NF の学習処理の終了時点に出力する
制御操作量を、制御対象2に与える制御操作量の初期量
として設定していくことで、再び同一の制御目標量d
への制御要求があるときに、直ちにその制御目標量d
への制御を実現できるようになる。そして、この構成に
あって、第2の適応型データ処理装置5が制御対象2の
持つ特性パラメータを入力信号としていると、その特性
パラメータが変化するようなときにあっても、第2の適
応型データ処理装置5の持つ汎化能力により、それに迅
速に対応して学習を進めていけるようになる。
【0059】図1の原理構成に従う本発明の第2の適応
型データ処理装置5のデータ変換機能NF の学習方式
は、以下のように解釈できるものである。すなわち、制
御対象2に与えられる制御操作量(k)と、第2の適
応型データ処理装置5の出力する制御操作量q’( k)
と、適応型制御装置1の出力する制御操作差分量Δq
(k)との間に、 (k)=Δq(k)+q’( k) という関係式が成立することから、評価関数J2 の関数
値が極小値をとるようにするというこの学習方式は、制
御対象2に与えられる制御操作量(k)を仮想的な教
師信号として、適応型制御装置1の出力する制御操作差
分量Δq(k)が極小値をとるようにとする学習方式と
等価なものとなる。
【0060】これから、図2の原理構成に従う本発明で
は、第2の適応型データ処理装置5のデータ変換機能N
F の学習に必要となる誤差量として、適応型制御装置1
の出力する制御操作差分量Δq(k)を直接用いる構成
を採っているのである。そして、この図2の原理構成に
従う本発明では、更に、このフィードフォーワード的な
制御機構として動作する第2の適応型データ処理装置5
の出力する制御操作量を、加算器6により適応型制御装
置1の出力する制御操作差分量と加算して制御対象2に
与えていく構成を採るものであることから、学習速度が
高められるという利点がでてくる。しかも、この構成に
あって、第2の適応型データ処理装置5が制御対象2の
持つ特性パラメータを入力信号としていると、その特性
パラメータが変化するようなときにあっても、第2の適
応型データ処理装置5の持つ汎化能力により、それに迅
速に対応して学習を進めていけるようになるのである。
【0061】このように、本発明では、本出願人が先に
出願した特願平3-51497号の発明に従って、適応型制御
装置1のデータ変換機能NA を教師信号を要求されるこ
となく、かつ、オンラインで学習できるようにする構成
を採るときにあって、このデータ変換機能NA の内部状
態値WA の更新に必要となる信号の発生手段として適応
型データ処理装置(第1の適応型データ処理装置3)を
用いるように構成したことから、この発明のハードウェ
アによる実装を実現可能にすることになるのである。
【0062】
【実施例】以下、本発明の有効性を検証するために行っ
たシミュレーションデータについて説明する。
【0063】このシミュレーションは、図3に示すよう
に、L1 とL2 というリンク長の関節を持つ2関節のロ
ボットマニピュレータを想定して、このロボットマニピ
ュレータの手先位置を制御目標の座標位置Pd ( x1d,
2d)に移動させる制御処理を実現する適応型制御装置
1の構築を想定して行った。ここで、この2つの関節の
関節変位角度を(q1,2 )とし、そのときの手先座標
位置を(x1,2 )とするならば、この2つの間には、
【0064】
【数9】
【0065】という関係が成立することになる。以下に
説明するシミュレーションでの共通するシミュレーショ
ン条件は、下記の通りである。なお、シミュレーション
開始時点における内部状態値WJ,A, F の初期値とし
てはランダム値を用い、1回目の試行に続いて実行され
る2回目の試行の開始時点における内部状態値WJ,A,
F の初期値としては、1回目の試行終了時点における
内部状態値WJ,A,F を用いるというように、各試行
開始時点における内部状態値WJ,A,F の初期値とし
ては、前回の試行終了時点における内部状態値WJ,A,
F を用いた。
【0066】 初期角度 :(q10,q20)=(-70.0, 50.0)(degree ) 手先目標位置 :(x1d, 2d)=(-0.7424, 0.5198) リンク長 : L1 =0.5(m),L2 =0.5(m) 学習係数 : μJ =50.0,μA =0.01,μF =0.95 各試行の最大時間ステップ : 200回 図4に示すシミュレーションデータは、リンク長を固定
とし、第2の適応型データ処理装置5を備えない構成を
採るときの適応型制御装置1のデータ変換機能の学習処
理をシミュレートしたデータである。
【0067】図4(a)は、1回目の試行時のシミュレ
ーションデータ、図4(b)は、5回目の試行時のシミ
ュレーションデータであり、各図において、左側に図示
するデータは、2関節のロボットマニュピュレータの移
動軌跡、右側に図示するデータは、このときの試行ステ
ップ数を横軸として、各試行ステップ数における〔数
1〕式で表される評価関数J1 の正規化された誤差量を
示すものである。
【0068】このシミュレーションデータから分かるよ
うに、本発明を用いることで、ロボットマニピュレータ
の手先位置を目標位置まで動作させるための適応型制御
装置1のデータ変換機能の学習処理を、ロボットマニピ
ュレータから教師信号を収集することなく、かつ、オン
ラインでもって実行できることが検証された。そして、
適応型制御装置1の内部状態値wA の初期値を前回の試
行により得られるものに設定して学習を繰り返していく
ことで、より少ない試行ステップ数でもって、かつ、よ
り高精度でもって学習を実行できるようになることが検
証された。
【0069】図5に示すシミュレーションデータは、図
4に示すシミュレーションと同様の学習処理を実行する
ときにあって、各試行の100回目の試行ステップのと
きに、リンク長L1 を“0.5(m)”から“0.7(m)”に、リ
ンク長L2 を“0.5(m)”から“0.6(m)”に変更するとき
のデータである。図5(a)は、1回目の試行時のシミ
ュレーションデータ、図5(b)は、5回目の試行時の
シミュレーションデータであり、各図において、左側に
図示するデータは、2関節のロボットマニュピュレータ
の移動軌跡、右側に図示するデータは、このときの評価
関数J1 の正規化された誤差量を示すものである。
【0070】このシミュレーションデータから分かるよ
うに、本発明を用いることで、リンク長のようなロボッ
トマニピュレータの特性パラメータが学習途中で変更さ
れるようなことがあっても、適応型制御装置1のデータ
変換機能の学習処理はそれに影響されることなく実現で
きることが検証された。
【0071】図6に示すシミュレーションデータは、図
4に示すシミュレーションと同様の学習処理を実行する
ときにあって、更に、ロボットマニュピレータの手先位
置が直線軌道を描きつつ目標位置まで動作させるという
条件を付加して、その付加条件下における適応型制御装
置1のデータ変換機能の学習処理をシミュレートしたデ
ータである。
【0072】図6(a)は、1回目の試行時のシミュレ
ーションデータ、図6(b)は、5回目の試行時のシミ
ュレーションデータであり、各図において、左側に図示
するデータは、2関節のロボットマニュピュレータの移
動軌跡、右側に図示するデータは、このときの評価関数
1 の正規化された誤差量を示すものである。
【0073】このシミュレーションデータから分かるよ
うに、本発明を用いることで、ロボットマニピュレータ
の手先位置の移動軌跡に何らかの条件が加わるといった
ように、ロボットマニピュレータに動特性的な制約条件
が課されるようなことがあっても、適応型制御装置1の
データ変換機能の学習処理はそれに影響されることなく
実現できることが検証された。
【0074】図7に示すシミュレーションデータは、図
6に示すシミュレーションと同様の学習処理を実行する
ときにあって、各試行の100回目の試行ステップのと
きに、リンク長L1 を“0.5(m)”から“0.7(m)”に、リ
ンク長L2 を“0.5(m)”から“0.6(m)”に変更するとき
のデータである。
【0075】図7(a)は、1回目の試行時のシミュレ
ーションデータ、図7(b)は、5回目の試行時のシミ
ュレーションデータであり、各図において、左側に図示
するデータは、2関節のロボットマニュピュレータの移
動軌跡、右側に図示するデータは、このときの評価関数
1 の正規化された誤差量を示すものである。
【0076】このシミュレーションデータから分かるよ
うに、本発明を用いることで、ロボットマニピュレータ
に動特性的な制約条件が課されるときにおいて、ロボッ
トマニピュレータの特性パラメータが学習途中で変更さ
れるようなことがあっても、適応型制御装置1のデータ
変換機能の学習処理はそれに影響されることなく実現で
きることが検証された。
【0077】図8に示すシミュレーションデータは、図
4に示すシミュレーションと同様の学習処理を実行する
ときにあって、第2の適応型データ処理装置5を備える
ようにしたときのデータである。
【0078】図8(a)は、1回目の試行時のシミュレ
ーションデータ、図8(b)は、2回目の試行時のシミ
ュレーションデータ、図8(c)は、4回目の試行時の
シミュレーションデータであり、各図において、左側に
図示するデータは、2関節のロボットマニュピュレータ
の移動軌跡、右側に図示するデータは、このときの評価
関数J1 の正規化された誤差量を示すものである。
【0079】このシミュレーションデータから分かるよ
うに、第2の適応型データ処理装置5を備える本発明に
従うと、1回目の学習の終了後に再び同一の制御目標が
与えられると、直ちにロボットマニピュレータの手先位
置を目標位置へ動作させることを実現できることが検証
された。
【0080】図9及び図10に示すシミュレーションデ
ータは、図5に示すシミュレーションと同様の学習処理
を実行するときにあって、第2の適応型データ処理装置
5を備えるようにしたときのデータである。
【0081】図9(a)は、1回目の試行時のシミュレ
ーションデータ、図9(b)は、2回目の試行時のシミ
ュレーションデータ、図10(a)は、4回目の試行時
のシミュレーションデータ、図10(b)は、6回目の
試行時のシミュレーションデータであり、各図におい
て、左側に図示するデータは、2関節のロボットマニュ
ピュレータの移動軌跡、右側に図示するデータは、この
ときの評価関数J1 の正規化された誤差量を示すもので
ある。
【0082】このシミュレーションデータから分かるよ
うに、第2の適応型データ処理装置5を備える本発明に
従うと、リンク長が学習途中で変化するようなことがあ
っても、迅速にロボットマニピュレータの手先位置を目
標位置へ動作させることを実現できることが検証され
た。
【0083】図11に示すシミュレーションデータは、
図6に示すシミュレーションと同様の学習処理を実行す
るときにあって、第2の適応型データ処理装置5を備え
るようにしたときのデータである。
【0084】図11(a)は、1回目の試行時のシミュ
レーションデータ、図11(b)は、8回目の試行時の
シミュレーションデータ、図11(c)は、9回目の試
行時のシミュレーションデータであり、各図において、
左側に図示するデータは、2関節のロボットマニュピュ
レータの移動軌跡、右側に図示するデータは、このとき
の評価関数J1 の正規化された誤差量を示すものであ
る。ここで、9回目の試行時には、適応型制御装置1を
切り離して、第2の適応型データ処理装置5だけでもっ
てロボットマニピュレータを制御している。
【0085】このシミュレーションデータから分かるよ
うに、本発明を用いることで、適応型制御装置1のデー
タ変換機能の学習が完了することで、第2の適応型デー
タ処理装置5のデータ変換機能が構築されると、第2の
適応型データ処理装置5だけもロボットマニピュレータ
の手先位置の制御を実現できることが検証された。
【0086】図示実施例について説明したが、本発明は
これに限定されるものではない。例えば、実施例では、
制御目標への制御だけを条件とすることで本発明を開示
したが、障害物を回避しつつ制御目標に制御するとか、
各関節変位角度をなるべく小さくして制御目標に制御す
るといったように制御操作量に一定の条件を課して制御
目標に制御するとかいったような制御処理に対しても、
適応型制御装置1の学習に用いる評価関数にこれらの条
件についての項を加えていくことで対応可能なのであ
る。
【0087】
【発明の効果】以上説明したように、本発明により、設
定変更可能なデータ変換機能に従って、入力信号に対応
する出力信号を算出して出力する構成を採って、この入
出力信号関係に従って制御対象を所望の制御状態に制御
する構成を採る適応型制御装置のデータ変換機能を教師
信号を要求されることなく、かつ、オンラインで学習で
きるようになるとともに、ハードウェアによる実装が実
現可能となる。
【0088】これから、非線形の複雑な制御対象に対し
ても、適応型制御装置でもって制御していくことが可能
になる。しかも、この学習にあたって、制御対象の特性
パラメータを用いることで、制御対象の特性パラメータ
が変化していくようなことがあっても再学習を要求され
ることがない。しかも、この学習にあたって、フィード
フォワード的な学習機構を組み込むことで、この学習を
高速に実行できるようになる。
【0089】そして、ハードウェアによる実装が可能な
適応型データ処理装置に従って適応型制御装置の構築を
実現できることから、適応型制御装置の構築処理を実用
的なレベルのものにできるのである。
【図面の簡単な説明】
【図1】本発明の原理構成図である。
【図2】本発明の原理構成図である。
【図3】シミュレーションに用いたロボットマニピュレ
ータの説明図である。
【図4】シミュレーションデータの説明図である。
【図5】シミュレーションデータの説明図である。
【図6】シミュレーションデータの説明図である。
【図7】シミュレーションデータの説明図である。
【図8】シミュレーションデータの説明図である。
【図9】シミュレーションデータの説明図である。
【図10】シミュレーションデータの説明図である。
【図11】シミュレーションデータの説明図である。
【図12】従来技術の説明図である。
【図13】従来技術の説明図である。
【図14】従来技術の説明図である。
【図15】従来技術の説明図である。
【図16】従来技術の説明図である。
【符号の説明】
1 適応型制御装置 2 制御対象 3 第1の適応型データ処理装置 4 乗算器 5 第2の適応型データ処理装置 6 加算器

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 設定変更可能なデータ変換機能に従っ
    て、入力信号に対応する出力信号を算出して出力する構
    成を採って、この入出力信号関係に従って制御対象を所
    望の制御状態に制御する構成を採る適応型制御装置(1)
    において、 上記適応型制御装置(1) が、試行動作する制御対象の持
    つ制御状態量と該制御状態量の制御目標量との差分量
    と、該制御対象に与えられる制御操作量とを入力信号と
    するとともに、該制御対象に与える制御操作差分量を出
    力信号とする構成を採り、 かつ、設定変更可能なデータ変換機能に従って、入力信
    号に対応する出力信号を算出して出力する構成を採っ
    て、制御対象に与えられる制御操作量を入力信号とし
    て、該出力信号と制御対象に与えられる制御操作差分量
    との乗算量が、制御対象の出力する制御状態差分量と一
    致することになるようにと該データ変換機能が学習され
    るように構成される第1の適応型データ処理装置(3) を
    備え、 上記第1の適応型データ処理装置(3) の出力する出力信
    号と上記差分量との乗算量に従って、上記適応型制御装
    置(1) のデータ変換機能が所望の制御処理を実行するも
    のとなるように学習していくように構成されてなること
    を、 特徴とする適応型制御装置の学習処理方式。
  2. 【請求項2】 請求項1記載の適応型制御装置の学習処
    理方式において、 設定変更可能なデータ変換機能に従って、入力信号に対
    応する出力信号を算出して出力する構成を採って、試行
    動作する制御対象の持つ制御状態量の制御目標量を入力
    信号とし、制御対象に与える制御操作量を出力信号とす
    る構成を採るとともに、該出力信号の制御操作量が、適
    応型制御装置(1) により設定されて制御対象に与えられ
    る制御操作量と一致することになるようにと該データ変
    換機能が学習されるように構成される第2の適応型デー
    タ処理装置(5) を備え、 上記第2の適応型データ処理装置(5) が学習処理の終了
    時点に出力する制御操作量を、制御対象に与える制御操
    作量の初期量として設定していくように構成されてなる
    ことを、 特徴とする適応型制御装置の学習処理方式。
  3. 【請求項3】 設定変更可能なデータ変換機能に従っ
    て、入力信号に対応する出力信号を算出して出力する構
    成を採って、この入出力信号関係に従って制御対象を所
    望の制御状態に制御する構成を採る適応型制御装置(1)
    において、 上記適応型制御装置(1) が、試行動作する制御対象の持
    つ制御状態量と該制御状態量の制御目標量との差分量
    と、該制御対象に与えられる制御操作量とを入力信号と
    するとともに、該制御対象に与える制御操作差分量を出
    力信号とする構成を採り、 かつ、設定変更可能なデータ変換機能に従って、入力信
    号に対応する出力信号を算出して出力する構成を採っ
    て、制御対象に与えられる制御操作量を入力信号とし
    て、該出力信号と制御対象に与えられる制御操作差分量
    との乗算量が、制御対象の出力する制御状態差分量と一
    致することになるようにと該データ変換機能が学習され
    るように構成される第1の適応型データ処理装置(3)
    と、 設定変更可能なデータ変換機能に従って、入力信号に対
    応する出力信号を算出して出力する構成を採って、試行
    動作する制御対象の持つ制御状態量の制御目標量を入力
    信号とし、制御対象に与える制御操作量を出力信号とす
    る構成を採るとともに、該出力信号の制御操作量が、上
    記適応型制御装置(1) により設定されて制御対象に与え
    られる制御操作量と一致することになるようにと、上記
    適応型制御装置(1) の出力する制御操作差分量を用いて
    該データ変換機能が学習されるように構成される第2の
    適応型データ処理装置(5) と、 上記適応型制御装置(1) の出力する制御操作差分量と、
    上記第2の適応型データ処理装置(5) の出力する制御操
    作量との加算量を制御対象に制御操作量として与える加
    算器(6) とを備え、 上記第1の適応型データ処理装置(3) の出力する出力信
    号と上記差分量との乗算量に従って、上記適応型制御装
    置(1) のデータ変換機能が所望の制御処理を実行するも
    のとなるように学習していくように構成されてなること
    を、 特徴とする適応型制御装置の学習処理方式。
  4. 【請求項4】 請求項2又は3記載の適応型制御装置の
    学習処理方式において、 第2の適応型データ処理装置(5) が、更に、制御対象の
    持つ特性パラメータを入力信号としていくよう構成され
    てなることを、 特徴とする適応型制御装置の学習処理方式。
JP4054611A 1992-03-13 1992-03-13 適応型制御装置の学習処理方式 Withdrawn JPH05257919A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4054611A JPH05257919A (ja) 1992-03-13 1992-03-13 適応型制御装置の学習処理方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4054611A JPH05257919A (ja) 1992-03-13 1992-03-13 適応型制御装置の学習処理方式

Publications (1)

Publication Number Publication Date
JPH05257919A true JPH05257919A (ja) 1993-10-08

Family

ID=12975540

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4054611A Withdrawn JPH05257919A (ja) 1992-03-13 1992-03-13 適応型制御装置の学習処理方式

Country Status (1)

Country Link
JP (1) JPH05257919A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7133855B2 (en) 2002-04-08 2006-11-07 Honda Giken Kogyo Kabushiki Kaisha Behavior control apparatus and method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7133855B2 (en) 2002-04-08 2006-11-07 Honda Giken Kogyo Kabushiki Kaisha Behavior control apparatus and method

Similar Documents

Publication Publication Date Title
CN105773623B (zh) 基于预测型间接迭代学习的scara机器人轨迹跟踪控制方法
Wu et al. Adaptive fractional-order non-singular terminal sliding mode control based on fuzzy wavelet neural networks for omnidirectional mobile robot manipulator
CN112904728B (zh) 一种基于改进型趋近律的机械臂滑模控制轨迹跟踪方法
CN110977988B (zh) 基于有限时间命令滤波的多关节机械臂阻抗控制方法
CN108555914B (zh) 一种基于腱驱动灵巧手的dnn神经网络自适应控制方法
US6000827A (en) System identifying device and adaptive learning control device
CN111399375A (zh) 一种基于非线性系统的神经网络预测控制器
CN112571420B (zh) 一种未知参数下的双功能模型预测控制方法
CN115139301A (zh) 基于拓扑结构自适应神经网络的机械臂运动规划方法
CN115990888A (zh) 一种具有死区和时变约束功能的机械臂控制方法
CN109108964B (zh) 一种基于自适应动态规划Nash博弈的空间机械臂协调控制方法
CN107894709A (zh) 基于自适应评价网络冗余机器人视觉伺服控制
Nagata et al. Adaptive learning with large variability of teaching signals for neural networks and its application to motion control of an industrial robot
CN116460860A (zh) 一种基于模型的机器人离线强化学习控制方法
JP3105694B2 (ja) マニピュレータ制御方法
JPH05257919A (ja) 適応型制御装置の学習処理方式
CN115609584A (zh) 基于sigmoid型惩罚策略的机械臂运动规划方法
CN112947066B (zh) 一种机械手改进有限时间反演控制方法
CN113650014A (zh) 一种基于回声状态网络的冗余机械臂追踪控制方法
CN112894819A (zh) 一种基于双神经网络的机器人动力学运动控制方法及装置
JPH05158907A (ja) 適応型制御装置の自己学習処理方式
JPH07168605A (ja) システム同定装置
JPH0643944A (ja) 防振制御方法
Li et al. Model predictive control for constrained robot manipulator visual servoing tuned by reinforcement learning
Ohama et al. A forward-propagation rule for acquiring neural inverse models using a RLS algorithm

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 19990518