JPH05158907A - 適応型制御装置の自己学習処理方式 - Google Patents

適応型制御装置の自己学習処理方式

Info

Publication number
JPH05158907A
JPH05158907A JP3051497A JP5149791A JPH05158907A JP H05158907 A JPH05158907 A JP H05158907A JP 3051497 A JP3051497 A JP 3051497A JP 5149791 A JP5149791 A JP 5149791A JP H05158907 A JPH05158907 A JP H05158907A
Authority
JP
Japan
Prior art keywords
control
adaptive
amount
learning
control device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP3051497A
Other languages
English (en)
Inventor
Shinya Hosoki
信也 細木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP3051497A priority Critical patent/JPH05158907A/ja
Publication of JPH05158907A publication Critical patent/JPH05158907A/ja
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Feedback Control In General (AREA)

Abstract

(57)【要約】 【目的】本発明は、設定変更可能なデータ変換機能に従
って、入力信号に対応する出力信号を算出して出力する
構成を採って、この入出力信号関係に従って制御対象を
所望の制御状態に制御する適応型制御装置のデータ変換
機能の自己学習を実現する適応型制御装置の自己学習処
理方式に関し、教師信号を要求されることなく、かつオ
ンラインで自己学習を実現できるようにすることを目的
とする。 【構成】適応型制御装置が、試行動作する制御対象の持
つ制御状態量と制御目標量との差分量と、制御対象に与
えられる制御操作量とを入力信号とするとともに、制御
対象に与える制御操作差分量を出力信号とする構成を採
り、かつ、差分量により関数値の規定される評価関数の
該関数値の極小値を実現すべく適応型制御装置のデータ
変換機能を変更する学習装置を備え、学習装置の変更処
理に従って、適応型制御装置を所望の制御処理を実行す
るものに構築するように構成する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、設定変更可能なデータ
変換機能に従って、入力信号に対応する出力信号を算出
して出力する構成を採って、この入出力信号関係に従っ
て制御対象を所望の制御状態に制御する構成を採る適応
型制御装置のデータ変換機能を、教師信号を要求される
ことなく、かつ、オンラインで自己学習できるようにす
る適応型制御装置の自己学習処理方式に関するものであ
る。
【0002】ニューロコンピュータ等のように、設定変
更可能なデータ変換機能に従ってデータ処理を実行する
適応型データ処理装置があり、この適応型データ処理装
置を用いて、制御対象を所望の制御状態に制御する適応
型制御装置を構築していくことが行われている。このよ
うな適応型制御装置を複雑な制御対象の制御処理にも用
いることができるようにするためには、そのデータ変換
機能を教師信号を用いずに自己学習できるようにしてい
く必要があるのである。
【0003】
【従来の技術】ニューロコンピュータ等のような適応型
データ処理装置に従ってデータ処理目的を実現するとき
には、データ処理目的にかなう入出力信号関係を持つ教
師信号群を入手して、その教師信号群の入出力信号関係
が実現できるようにと、バックプロパゲーション法等の
学習アルゴリズムを用いて適応型データ処理装置のデー
タ変換機能を学習していくことになる。
【0004】この教師信号群を入手することは、データ
処理目的が、例えば入力値の論理積値を算出するといっ
たように数学的に明示的である場合や、入力文字の認識
といったように入出力信号関係が明示的である場合に
は、比較的容易に可能となるものの、データ処理目的が
複雑となってくると極めて困難なものとなっている。特
に、データ処理目的が制御対象の制御処理にある場合、
制御対象が複雑であることで教師信号群の入手が事実上
不可能という点が挙げられる。これから、制御装置を適
応型データ処理装置で構築することができないというの
が実情である。
【0005】次に、この点に関して、多関節を持つロボ
ットマニピュレータを具体例にして説明する。多関節の
ロボットマニピュレータでは、xi (i=1〜m)をm
次元空間の空間座標、qj (j=1〜n)をn個ある関
節の第j関節の関節変位角度とするならば、 =(q1,2,3,…qn T 但し、Tは転置行列 という関節変位角度ベクトルを制御操作量として持ち、 =(x1,2,3,…xm T という手先位置ベクトルの制御状態量を持つことにな
り、これらの間には、非線形で表される) 式 という関係式が成立することになる。
【0006】この非線形な関係式から分かるように、関
節変位角度ベクトルが与えられれば、この関係式に代
入していくことで、手先位置ベクトルは容易に決定で
きる。すなわち、マニピュレータの各関節の駆動機構に
駆動電流等のエネルギーを与えれば、一義的にマニピュ
レータの手先位置が決定されていくことになることから
も分かるように、関節変位角度ベクトルが与えられれ
ば、この関係式に従って、手先位置ベクトルが一義的
に決定されることになるのである。しかるに、実際にロ
ボットマニピュレータで作業を行う場合には、手先位置
ベクトルを指定してマニピュレータに要求される移動
軌道が与えられる。これから、ロボットマニピュレータ
の制御を実現するためには、この関係式を逆に解いてい
く必要がある。すなわち、 -1) 式 という関係式を導き出す必要がある。この式を解く問
題は、逆運動学問題と言われるものであって、手先位置
ベクトルに対応する関節変位角度ベクトルが存在す
るものとは限らず、また、存在しても一意とは限らない
という性質を持っている。
【0007】このように、ロボットマニピュレータの手
先位置が与えられるときに、それを実現する関節変位角
度を求めるには、式の関係式を解いていく必要があ
る。しかしながら、この方法は、単純な構造のロボット
マニピュレータに対しては実現可能であるものの、関節
数が多くなるような複雑な構造のロボットマニピュレー
タに対しては、複雑な解析処理が要求されることになっ
て現実には不可能である。これから、複雑な構造を持つ
ロボットマニピュレータについては、制御目的を実現す
るための教師信号群を得ることができないので、適応型
データ処理装置により構成される適応型制御装置を構築
することができないことになる。
【0008】この問題点を解決する1つの方法として、
ランダムな関節変位角度ベクトルを想定し、この想定
した関節変位角度ベクトルを式の関係式に代入する
ことで、この想定した関節変位角度ベクトルに対応す
る手先位置ベクトルを求める。そして、この求めた手
先位置ベクトルを構築対象の適応型制御装置に入力し
た場合に、その適応型制御装置からその手先位置ベクト
に対応する関節変位角度ベクトルが出力されるこ
とになるようにと、適応型制御装置の持つデータ変換機
能を学習していくという方法を採ることが行われてい
る。
【0009】図16に、この従来技術の学習処理の説明
図を図示する。ここで、この図では、適応型制御装置の
データ変換機能の学習を実行する学習処理装置について
は、適応型制御装置を斜めに突きさす直線でもってその
存在を示している。すなわち、この従来技術では、解く
ことが可能な式の関係式に従って、関節変位角度ベク
トルと手先位置ベクトルとの対応関係を作成し、次
に、この対応関係を逆に見ることでロボットマニピュレ
ータの制御のための教師信号(本来は式の関係式を解
くことで得られるものである)を作成して、この教師信
号を用いてロボットマニピュレータの制御処理のために
用意される適応型制御装置のデータ変換機能の学習を行
っていくのである。
【0010】
【発明が解決しようとする課題】しかしながら、この図
16に示す従来技術では、オフライン学習であるという
問題点がある。そして、教師信号を間接的に求めていく
ものであることから、正確なデータ変換を得るために
は、式の関係式に従って多数の入出力信号の対応関係
を生成しなければならないという問題点がある。更に、
ロボットアームのリンク長といったような制御対象の持
つパラメータが変化すると、改めて学習をやり直さなく
てはならないという問題点がある。
【0011】本発明はかかる事情に鑑みてなされたもの
であって、設定変更可能なデータ変換機能に従って、入
力信号に対応する出力信号を算出して出力する構成を採
って、この入出力信号関係に従って制御対象を所望の制
御状態に制御する構成を採る適応型制御装置のデータ変
換機能を、教師信号を要求されることなく、かつ、オン
ラインで自己学習できるようにする新たな適応型制御装
置の自己学習処理方式の提供を目的とするものである。
【0012】
【課題を解決するための手段】図1(a)(b)に本発明
の原理構成を図示する。図中、1は適応型制御装置、2
は非線形の制御対象、3は学習処理装置、4は適応型デ
ータ処理装置、5は加算装置である。適応型制御装置1
や適応型データ処理装置4としては、誤差逆伝播型やC
MAC型や自己組織型等のネットワーク構成データ処理
装置といったような様々な形式の適応型データ処理装置
を用いることが可能である。また、制御対象2は、その
数学的なモデルを確立できる必要はないが、入出力関係
は測定可能であるものとし、特性パラメータについては
時間的に変化することも許容する。
【0013】適応型制御装置1は、設定変更可能なデー
タ変換機能に従って、入力信号に対応する出力信号を算
出して出力する構成を採り、この入出力信号関係に従っ
て制御対象2を所望の制御状態に制御するものであっ
て、試行動作する制御対象2の持つ制御状態量(図中の
)とこの制御状態量の制御目標量(図中のd )との
差分量(図中のx )と、制御対象2に与えられる制御
操作量(図中の)とを入力信号とするとともに、制御
対象2に与える制御操作差分量(図中のΔq)を出力信
号とする構成を採る。
【0014】学習処理装置3は、適応型制御装置1に入
力される差分量(図中のx )の例えば2乗和により規
定される評価関数を定義して、この定義した評価関数の
関数値の極小値が実現されるようにと適応型制御装置1
のデータ変換機能を変更していく処理を実行する。この
学習処理装置3は、誤差逆伝播型のネットワーク構成デ
ータ処理装置の学習に用いられるバックプロパゲーショ
ン法の学習アルゴリズムとは異なって、教師信号を必要
としないで学習処理を実行することになる。
【0015】適応型データ処理装置4は、設定変更可能
なデータ変換機能に従って、入力信号に対応する出力信
号を算出して出力する構成を採って、試行動作する制御
対象2の持つ制御状態量の制御目標量(図中のd )を
入力信号とし、制御対象2に与える制御操作量(図中の
q’)を出力信号とする構成を採るとともに、この出力
信号の制御操作量が、適応型制御装置1により設定され
て制御対象2に与えられる制御操作量(図中の)と一
致することになるようにとデータ変換機能が学習される
ように構成される。適応型データ処理装置4は、更に、
制御対象2の持つ特性パラメータを入力信号とすること
がある。
【0016】この適応型データ処理装置4のデータ変換
機能の学習処理は、適応型制御装置1により設定されて
制御対象2に与えられる制御操作量(図中の)を出力
側に提示する教師信号とするものであることから、バッ
クプロパゲーション法の学習アルゴリズム等のような従
来方式により実行されるものであって、図16と同様
に、適応型データ処理装置4を斜めに突きさす直線でも
ってその学習処理装置の存在を図示してある。
【0017】加算装置5は、適応型制御装置1の出力す
る制御操作差分量(図中のΔq)と、適応型データ処理
装置4の出力する制御操作量(図中のq’)との加算量
を制御対象2に制御操作量として与えていく処理を実行
する。
【0018】
【作用】kサイクル目の試行サイクル時点において、制
御対象2に制御操作量(k)が与えられるときに、制
御対象2が制御状態量(k)を示すものとする。この
状態にあるときに、制御処理の目標となる制御目標量
d が与えられるとする。このとき、適応型制御装置1に
は、(k)とd との誤差量である差分量x ( k)
が入力される。その結果、適応型制御装置1は、データ
変換機能をN1 、そのデータ変換機能N1 を規定する内
部状態値をw1(k)で表すならば、Δq (k)=N1 x ( k),(k),w1(k)) を出力する。これにより、制御対象2に制御操作量(
(k)+Δq(k))が与えられることになり、制御対
象2の制御状態量は(k+1)(≡(k)+Δx
(k))に遷移する。
【0019】このような試行を実行していくときに、学
習処理装置3は、例えば、下記の評価関数J1 を定義し
て、
【数1】 この評価関数J1 の関数値が極小値を示すことになるよ
うにと、適応型制御装置1のデータ変換機能N1 を規定
する内部状態値をw1(k)を更新する。この更新量Δw
1(k)は、例えば最急降下法に従って、
【数2】 但し、μ1 :正の定数 T :転置行列 により決定される。
【0020】後述する実施例で詳述するように、この
〔数2〕式で表される内部状態値w1(k)の更新量Δw
1(k)は、具体的に特定することが可能な値である。こ
れから、適応型制御装置1は、「(k)→d 」が実
現されるようにと、データ変換機能N1 を規定する内部
状態値w1(k)を更新していく。その結果、学習終了後
の適応型制御装置1のデータ変換機能N1 には、
【数3】 の写像が形成される。この写像は、制御対象2が正確に
数学モデルとして表されるときに導出されるΔq -1Δx に相当するものである。ここで、J(-1はInverse
Jacobianであって、-1=(∂)/∂-1 と表される。
【0021】すなわち、学習処理装置3は、正確な数学
モデルが確立できないような制御対象2であっても、教
師信号を要求することなく、かつ、オンライン処理でも
って、適応型制御装置1のデータ変換機能N1 に制御目
標量への制御処理の実現のためのInverse Jacobianを形
成することで、適応型制御装置1をその制御対象2の制
御処理のための制御装置として構築することができるの
である。
【0022】学習処理装置3が、適応型制御装置1のデ
ータ変換機能N1 の学習を実行していくときに、図1
(a)の原理構成に従う本発明では、適応型データ処理
装置4のデータ変換機能N2 の学習を実行する学習処理
装置は、制御対象2に与えられる制御操作量(図中の
)を教師信号として用いて、この制御操作量(図中の
)と、適応型データ処理装置4の出力する制御操作量
(図中のq’)との誤差値が極小値を示すようにと、デ
ータ変換機能N2 を規定するw2(k)を更新していく。
この学習処理は、具体的には、制御対象2に与えられて
教師信号をなす制御操作量を(k)と、適応型データ
処理装置4の出力する制御操作量q’( k)との誤差値
の2乗和により定義される下記の評価関数J2
【数4】 の関数値が極小値を示すことになるようにと、適応型デ
ータ処理装置4のデータ変換機能N2 を規定する内部状
態値をw2(k)を更新するものであって、この更新量Δ
2(k)は、例えば最急降下法に従って、
【数5】 但し、μ2 :正の定数 により決定される。
【0023】この適応型データ処理装置4のデータ変換
機能N2 の学習は、適応型制御装置1のデータ変換機能
1 の学習が終了する時点で終了して、その結果、学習
終了後の適応型データ処理装置4のデータ変換機能N2
には、制御対象2の入出力の逆変換である「d
変換が形成される。このようにして、適応型データ処理
装置4のデータ変換機能N2 の学習が実行されると、再
び同一の制御目標量 d への制御要求があるときに、適
応型データ処理装置4は、直ちにその制御目標量d
の制御を実現する制御操作量を出力していくように動
作する。これから、適応型データ処理装置4のデータ変
換機能N2 の学習処理の終了時点に出力する制御操作量
を、制御対象2に与える制御操作量の初期量として設定
していくことで、再び同一の制御目標量d への制御要
求があるときに、直ちにその制御目標量d への制御を
実現できるようになるのである。そして、この構成にあ
って、適応型データ処理装置4が制御対象2の持つ特性
パラメータを入力信号としていると、その特性パラメー
タが変化するようなときにあっても、適応型データ処理
装置4の持つ汎化能力により、それに迅速に対応して学
習を進めていけるようになるのである。
【0024】図1(a)の原理構成に従う本発明の適応
型データ処理装置4のデータ変換機能N2 の学習方式
は、以下のように解釈できるものである。すなわち、制
御対象2に与えられる制御操作量(k)と、適応型デ
ータ処理装置4の出力する制御操作量q’( k)と、適
応型制御装置1の出力する制御操作差分量Δq(k)と
の間に、 (k)=Δq(k)+q’( k) という関係式が成立することから、評価関数J2 の関数
値が極小値をとるようにするというこの学習方式は、制
御対象2に与えられる制御操作量(k)を仮想的な教
師信号として、適応型制御装置1の出力する制御操作差
分量Δq(k)が極小値をとるようにとする学習方式と
等価なものとなる。
【0025】これから、図1(b)の原理構成に従う本
発明では、適応型データ処理装置4のデータ変換機能N
2 の学習に必要となる誤差量として、適応型制御装置1
の出力する制御操作差分量Δq(k)を直接用いる構成
を採っているのである。そして、この図1(b)の原理
構成に従う本発明では、更に、このフィードフォーワー
ド的な制御機構として動作する適応型データ処理装置4
の出力する制御操作量を、加算装置5により適応型制御
装置1の出力する制御操作差分量と加算して制御対象2
に与えていく構成を採るものであることから、学習速度
が高められるという利点がでてくる。しかも、この構成
にあって、適応型データ処理装置4が制御対象2の持つ
特性パラメータを入力信号としていると、その特性パラ
メータが変化するようなときにあっても、適応型データ
処理装置4の持つ汎化能力により、それに迅速に対応し
て学習を進めていけるようになるのである。
【0026】このように、本発明では、制御装置として
構築する際に要求される適応型制御装置1のデータ変換
機能の学習処理を、制御対象2から教師信号を収集しな
くても自己学習により実行できるようになるとともに、
この自己学習をオンラインでもって実行できるようにな
る。
【0027】
【実施例】以下、制御対象2として多関節のロボットマ
ニピュレータを想定した実施例に従って本発明を詳細に
説明する。
【0028】先ず最初に、〔数2〕式に従って教師信号
なく決定されることになる適応型制御装置1のデータ変
換機能N1 の内部状態値w1(k)の更新量Δw1(k)
が、具体的に特定できる値であることを説明する。次
に、本発明の有効性を検証すべく多関節のロボットマニ
ピュレータに対して行ったシミュレーションデータにつ
いて説明する。
【0029】〔数2〕式の第1項である“x (
k)T”は、試行動作するロボットマニピュレータの手
先位置ベクトルと、その制御目標の手先位置ベクトル
d との差分量を表している。これから、この第1項は
観測可能であるので特定可能な値である。
【0030】〔数2〕式の第2項である“∂)/
(k)”は、制御対象2の持つ制御状態量(≡
))の制御操作量についての偏微分であり、近似
的に、
【数6】 と表せる。すなわち、この項は、実際に数学モデルの偏
微分を計算することなく、ロボットマニピュレータの手
先位置ベクトルの変化分と、関節変位角度ベクトル
の変化分とを測定して除算することで求められる。これ
から、この第2項も観測可能であるので特定可能な値で
ある。
【0031】〔数2〕式の第3項である“∂(k)/
∂w1(k)”は、制御対象2に与えられる制御操作量
の内部状態値w1(k)についての偏微分である。ネット
ワーク構造により構成される適応型制御装置1のデータ
変換機能N1 の遷移関数をφとすると、このデータ変換
機能N1 の出力する制御操作差分量Δq(k)は、 Δqi ( k)=φ(Σw1ij ( k)Vj (k)−hi ) 但し、i :関節対応に備えられる出力ユニットの番号 Vj :出力ユニットの前層の出力 で与えられる。これから、ロボットマニピュレータの持
つi番目の関節に与えられるnサイクル目の試行時点で
の制御操作量qi ( n)は、その初期値をqi0とする
と、
【数7】 で与えられることから、この第3項は、
【数8】 但し、<φ>は遷移関数φの微分 ui =Σw1ij ( k)Vj ( k)−hi と表せる。この〔数8〕式中の遷移関数φの微分項は、
遷移関数φの関数が規定されているものであるときには
測定可能となるものであり、特に、線形関数であるとき
には定数となって、〔数8〕式は出力ユニットの前層の
出力Vj により決定されることになる。これから、この
第3項も観測可能であるので特定可能な値である。
【0032】このように、〔数2〕式の第1項から第3
項までが特定可能な値であるので、この〔数2〕式によ
り表される適応型制御装置1のデータ変換機能N1 の内
部状態値w1(k)の更新量Δw1(k)は、具体的に特定
することが可能な値である。これから、〔作用〕の欄で
説明したように、適応型制御装置1は、教師信号を要す
ることなく、「(k)→d 」が実現されるようにと
データ変換機能N1 を規定する内部状態値w1(k)を更
新していく。その結果、学習終了後の適応型制御装置1
のデータ変換機能N1 には〔数3〕式に示したデータ変
換機能の写像が形成され、適応型制御装置1をロボット
マニピュレータの制御処理のための制御装置として構築
することができるのである。
【0033】〔作用〕の欄で説明したように、適応型デ
ータ処理装置4のデータ変換機能N 2 の学習を実行する
学習処理装置は、ロボットマニピュレータに与えられる
制御操作量を教師信号として用いて、〔数5〕式に従っ
て適応型データ処理装置4のデータ変換機能N2 の内部
状態値w2(k)の更新量Δw2(k)を決定していくこと
になる。この学習処理は、教師信号を用いて従来通りに
行われるものであることから、〔数5〕式は説明をする
までもなく特定可能な値であるが、このことは、上述し
たように〔数8〕式が出力ユニットの前層の出力等によ
り決定されることに対応して、〔数5〕式からも明らか
に説明できることである。
【0034】このようにして、本発明では、ロボットマ
ニピュレータの制御装置として構築する際に要求される
適応型制御装置1のデータ変換機能の学習処理を、ロボ
ットマニピュレータから教師信号を収集しなくても自己
学習により実行できるようになるとともに、この自己学
習をオンラインでもって実行できるようになる。
【0035】次に、本発明の有効性を検証すべく多関節
のロボットマニピュレータに対して行ったシミュレーシ
ョンデータについて説明する。
【0036】このシミュレーションは、図2に示すよう
に、L1 とL2 というリンク長の関節を持つ2関節のロ
ボットマニピュレータを想定して、このロボットマニピ
ュレータの手先位置を制御目標の座標位置Pd( x1d,
2d)に移動させる制御処理を実現する適応型制御装置
1の構築を想定して行った。この2つの関節の関節変位
角度を(q1,2)とし、そのときの手先座標位置を(x
1,2)とするならば、この2つの間には、
【数9】 という関係が成立することになる。
【0037】図3ないし図8に示すシミュレーションデ
ータは、適応型データ処理装置4を備えない構成を採る
ときの適応型制御装置1のデータ変換機能の学習処理を
シミュレートしたデータであって、試行を繰り返す度毎
に、学習がより少ない試行サイクル回数で完了すること
になることを示すデータである。ここで、各図の左側に
図示するデータが、100回を最大試行サイクル回数と
して行われる2関節のロボットマニピュレータの移動軌
跡を示すものであり、右側に図示するデータが、このと
きの試行サイクル回数を横軸として、各試行サイクル回
数における〔数1〕式で表される評価関数J1 の正規化
された誤差量を示すものである。学習条件は、 初期状態 :(q10,q20)=(40.0, 30.0)(de
gree) 手先目標位置 :(x1d, 2d)=(-0.7912, 0.554
0) リンク長 : L1 =0.5(m),L2 =0.5(m) 〔数2〕式のμ1 : μ1 =100.0 で行った。
【0038】そして、図3の学習処理では、適応型制御
装置1のデータ変換機能を規定する内部状態値w1 の初
期値を“1”に設定して学習を行い、図4の学習処理で
は、内部状態値w1 の初期値として、図3の学習処理の
終了時点に求められた内部状態値w1 を設定して学習を
行い、図5の学習処理では、内部状態値w1 の初期値と
して、図4の学習処理の終了時点に求められた内部状態
値w1 を設定して学習を行い、図6の学習処理では、内
部状態値w1 の初期値として、図5の学習処理の終了時
点に求められた内部状態値w1 を設定して学習を行い、
図7の学習処理では、内部状態値w1 の初期値として、
図6の学習処理の終了時点に求められた内部状態値w1
を設定して学習を行い、図8の学習処理では、内部状態
値w1 の初期値として、図7の学習処理の終了時点に求
められた内部状態値w1 を設定して学習を行った。
【0039】この図3ないし図8に示すシミュレーショ
ンデータから分かるように、本発明を用いることで、適
応型制御装置1のデータ変換機能の学習処理を、ロボッ
トマニピュレータから教師信号を収集することなく、か
つ、オンラインでもって自己学習できるようになること
が検証されたのである。そして、適応型制御装置1の内
部状態値w1 の初期値を前回の試行により得られるもの
に設定して学習を繰り返していくことで、より少ない試
行サイクル回数でもって、かつ、より高精度でもって学
習を実行できるようになることが検証されたのである。
【0040】図9ないし図11に示すシミュレーション
データは、図3ないし図8に示すシミュレーションデー
タと同様の学習処理を実行するときに、学習途中で、リ
ンク長L1 を“0.5(m)”から“0.7(m)”に、リンク長L
2 を“0.5(m)”から“0.6(m)”に変更するときのデータ
である。図9の学習処理では、内部状態値w1 の初期値
として、図8の学習処理により求められた内部状態値w
1 を設定して学習を行い、図10の学習処理では、内部
状態値w1 の初期値として、図9の学習処理の終了時点
に求められた内部状態値w1 を設定して学習を行い、図
11の学習処理では、内部状態値w1 の初期値として、
図10の学習処理の終了時点に求められた内部状態値w
1 を設定して学習を行った。各図の右側に図示するデー
タにおいて、誤差量の急激に増加する試行サイクル回数
のときにリンク長の変更処理が行われることになる。な
お、その他の学習条件は、図3ないし図8に示すシミュ
レーションデータと同様である。
【0041】この図9ないし図11に示すシミュレーシ
ョンデータから分かるように、リンク長が学習途中で変
更されるようなことがあっても、適応型制御装置1のデ
ータ変換機能の学習処理はそれに影響されることなく実
現できることが検証されたのである。これにより、本発
明を用いることで、制御対象2の特性パラメータが変化
するようなものであっても、適応型制御装置1のデータ
変換機能のオンラインの学習処理を遂行できることが検
証されたのである。
【0042】図12及び図13に示すシミュレーション
データは、適応型データ処理装置4を備える構成を採る
ときの適応型制御装置1のデータ変換機能の学習処理を
シミュレートしたデータであって、図12の学習処理
で、図3に示すシミュレーションデータと同一の学習条
件で適応型制御装置1及び適応型データ処理装置4のデ
ータ変換機能の学習を行い、次に、図13の学習処理
で、同一の学習の繰り返しを行ったときのデータであ
る。ここで、適応型データ処理装置4は、図1(b)の
原理構成に従う態様で備えられて、そのデータ変換機能
を規定する内部状態値w2 の初期値を“1”に設定し、
〔数5〕式のμ2 を“0.1 ”に設定してシミュレーショ
ンを実行した。
【0043】この図12及び図13に示すシミュレーシ
ョンデータから分かるように、適応型データ処理装置4
を備える本発明に従うと、学習の終了後に再び同一の制
御目標が与えられるときに、直ちに、その制御目標への
制御を実現できることが検証されたのである。
【0044】図14及び図15に示すシミュレーション
データは、図12及び図13に示すシミュレーションデ
ータと同様の学習処理を実行するときに、学習途中で、
リンク長L1 を“0.5(m)”から“0.7(m)”に、リンク長
2 を“0.5(m)”から“0.6(m)”に変更するときのデー
タである。
【0045】この図14及び図15に示すシミュレーシ
ョンデータから分かるように、適応型データ処理装置4
を備える本発明に従うと、学習の終了後に再び同一の制
御目標が与えられるときに、学習途中で制御対象2の特
性パラメータが変化するようなことがあっても、迅速
に、その制御目標への制御を実現できることが検証され
たのである。
【0046】図示実施例について説明したが、本発明は
これに限定されるものではない。例えば、実施例では、
制御目標への制御だけを条件とすることで本発明を開示
したが、障害物を回避しつつ制御目標に制御するとか、
各関節変位角度をなるべく小さくして制御目標に制御す
るといったように制御操作量に一定の条件を課して制御
目標に制御するとかいったような制御処理に対しても、
適応型制御装置1の学習に用いる評価関数にこれらの条
件についての項を加えていくことで対応可能なのであ
る。
【0047】
【発明の効果】以上説明したように、本発明によれば、
設定変更可能なデータ変換機能に従って、入力信号に対
応する出力信号を算出して出力する構成を採って、この
入出力信号関係に従って制御対象を所望の制御状態に制
御する構成を採る適応型制御装置のデータ変換機能を、
教師信号を要求されることなく自己学習できるようにな
る。これから、非線形の複雑な制御対象に対しても、適
応型制御装置でもって制御していくことが可能になるの
である。そして、この自己学習をオンラインでできるよ
うになることから、制御対象の特性パラメータが変化し
ていくようなことがあっても、オフライン学習で要求さ
れるような再学習を要求されることがないのである。し
かも、この自己学習にあたって、フィードフォワード的
な学習機構を組み込むことで、この自己学習を高速に実
行できるようになるのである。
【図面の簡単な説明】
【図1】本発明の原理構成図である。
【図2】シミュレーションに用いたロボットマニピュレ
ータの説明図である。
【図3】シミュレーションデータの説明図である。
【図4】シミュレーションデータの説明図である。
【図5】シミュレーションデータの説明図である。
【図6】シミュレーションデータの説明図である。
【図7】シミュレーションデータの説明図である。
【図8】シミュレーションデータの説明図である。
【図9】シミュレーションデータの説明図である。
【図10】シミュレーションデータの説明図である。
【図11】シミュレーションデータの説明図である。
【図12】シミュレーションデータの説明図である。
【図13】シミュレーションデータの説明図である。
【図14】シミュレーションデータの説明図である。
【図15】シミュレーションデータの説明図である。
【図16】従来技術の説明図である。
【符号の説明】
1 適応型制御装置 2 制御対象 3 学習処理装置 4 適応型データ処理装置 5 加算装置

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 設定変更可能なデータ変換機能に従っ
    て、入力信号に対応する出力信号を算出して出力する構
    成を採って、この入出力信号関係に従って制御対象を所
    望の制御状態に制御する構成を採る適応型制御装置(1)
    において、 上記適応型制御装置(1) が、試行動作する制御対象の持
    つ制御状態量と該制御状態量の制御目標量との差分量
    と、該制御対象に与えられる制御操作量とを入力信号と
    するとともに、該制御対象に与える制御操作差分量を出
    力信号とする構成を採り、 かつ、上記差分量により関数値の規定される評価関数の
    該関数値の極小値を実現すべく上記適応型制御装置(1)
    のデータ変換機能を変更する学習処理装置(3)を備え、 上記学習処理装置(3) の実行する変更処理に従って、上
    記適応型制御装置(1)のデータ変換機能が所望の制御処
    理を実行するものとなるように自己学習していくように
    構成されてなることを、 特徴とする適応型制御装置の自己学習処理方式。
  2. 【請求項2】 請求項1記載の適応型制御装置の自己学
    習処理方式において、 設定変更可能なデータ変換機能に従って、入力信号に対
    応する出力信号を算出して出力する構成を採って、試行
    動作する制御対象の持つ制御状態量の制御目標量を入力
    信号とし、制御対象に与える制御操作量を出力信号とす
    る構成を採るとともに、該出力信号の制御操作量が、適
    応型制御装置(1) により設定されて制御対象に与えられ
    る制御操作量と一致することになるようにと該データ変
    換機能が学習されるように構成される適応型データ処理
    装置(4) を備え、 上記適応型データ処理装置(4) が学習処理の終了時点に
    出力する制御操作量を、制御対象に与える制御操作量の
    初期量として設定していくよう構成されてなることを、 特徴とする適応型制御装置の自己学習処理方式。
  3. 【請求項3】 設定変更可能なデータ変換機能に従っ
    て、入力信号に対応する出力信号を算出して出力する構
    成を採って、この入出力信号関係に従って制御対象を所
    望の制御状態に制御する構成を採る適応型制御装置(1)
    において、 上記適応型制御装置(1) が、試行動作する制御対象の持
    つ制御状態量と該制御状態量の制御目標量との差分量
    と、該制御対象に与えられる制御操作量とを入力信号と
    するとともに、該制御対象に与える制御操作差分量を出
    力信号とする構成を採り、 かつ、設定変更可能なデータ変換機能に従って、入力信
    号に対応する出力信号を算出して出力する構成を採っ
    て、試行動作する制御対象の持つ制御状態量の制御目標
    量を入力信号とし、制御対象に与える制御操作量を出力
    信号とする構成を採るとともに、該出力信号の制御操作
    量が、上記適応型制御装置(1) により設定されて制御対
    象に与えられる制御操作量と一致することになるように
    と、上記適応型制御装置(1) の出力する制御操作差分量
    を用いて該データ変換機能が学習されるように構成され
    る適応型データ処理装置(4) と、 上記適応型制御装置(1) の出力する制御操作差分量と、
    上記適応型データ処理装置(4) の出力する制御操作量と
    の加算量を制御対象に制御操作量として与える加算装置
    (5) と、 上記差分量により関数値の規定される評価関数の該関数
    値の極小値を実現すべく上記適応型制御装置(1) のデー
    タ変換機能を変更する学習処理装置(3) とを備え、 上記学習処理装置(3) の実行する変更処理に従って、上
    記適応型制御装置(1)のデータ変換機能が所望の制御処
    理を実行するものとなるように自己学習していくように
    構成されてなることを、 特徴とする適応型制御装置の自己学習処理方式。
  4. 【請求項4】 請求項2又は3記載の適応型制御装置の
    自己学習処理方式において、 適応型データ処理装置(4) が、更に、制御対象の持つ特
    性パラメータを入力信号としていくよう構成されてなる
    ことを、 特徴とする適応型制御装置の自己学習処理方式。
JP3051497A 1991-03-15 1991-03-15 適応型制御装置の自己学習処理方式 Expired - Lifetime JPH05158907A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3051497A JPH05158907A (ja) 1991-03-15 1991-03-15 適応型制御装置の自己学習処理方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3051497A JPH05158907A (ja) 1991-03-15 1991-03-15 適応型制御装置の自己学習処理方式

Publications (1)

Publication Number Publication Date
JPH05158907A true JPH05158907A (ja) 1993-06-25

Family

ID=12888614

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3051497A Expired - Lifetime JPH05158907A (ja) 1991-03-15 1991-03-15 適応型制御装置の自己学習処理方式

Country Status (1)

Country Link
JP (1) JPH05158907A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7133855B2 (en) 2002-04-08 2006-11-07 Honda Giken Kogyo Kabushiki Kaisha Behavior control apparatus and method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7133855B2 (en) 2002-04-08 2006-11-07 Honda Giken Kogyo Kabushiki Kaisha Behavior control apparatus and method

Similar Documents

Publication Publication Date Title
CN110682286B (zh) 一种协作机器人实时避障方法
CN110238839B (zh) 一种利用环境预测优化非模型机器人多轴孔装配控制方法
CN112904728B (zh) 一种基于改进型趋近律的机械臂滑模控制轨迹跟踪方法
US11529733B2 (en) Method and system for robot action imitation learning in three-dimensional space
JP3436320B2 (ja) 非線形システムの出力軌道と動特性の制御方法および装置
JPH06314103A (ja) 制御装置と能動的センシング装置
CN108555914B (zh) 一种基于腱驱动灵巧手的dnn神经网络自适应控制方法
CN112140101A (zh) 轨迹规划方法、装置及系统
JP3369351B2 (ja) 多関節マニピュレータの弾性設定方法および制御装置
Aghajanzadeh et al. An offline geometric model for controlling the shape of elastic linear objects
CN116460860B (zh) 一种基于模型的机器人离线强化学习控制方法
CN107894709A (zh) 基于自适应评价网络冗余机器人视觉伺服控制
JPH07319507A (ja) ロボット制御装置
CN108693776A (zh) 一种三自由度Delta并联机器人的鲁棒控制方法
Hasan et al. Neural networks’ based inverse kinematics solution for serial robot manipulators passing through singularities
CN117086877A (zh) 一种基于深度强化学习的工业机器人轴孔装配方法、装置和设备
CN113650014B (zh) 一种基于回声状态网络的冗余机械臂追踪控制方法
Nagata et al. Adaptive learning with large variability of teaching signals for neural networks and its application to motion control of an industrial robot
JP3105694B2 (ja) マニピュレータ制御方法
JPH05158907A (ja) 適応型制御装置の自己学習処理方式
CN106875008A (zh) 一种机械手运动学逆解方法及系统
JPH05257919A (ja) 適応型制御装置の学習処理方式
Jing et al. Research on neural network PID adaptive control with industrial welding robot in multi-degree of freedom
EP0445729B1 (en) Model following control device and method
Zhou et al. Intelligent Control of Manipulator Based on Deep Reinforcement Learning

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 19980514