JPH0254304A

JPH0254304A - 非線形システム学習制御装置

Info

Publication number: JPH0254304A
Application number: JP63206540A
Authority: JP
Inventors: Mitsuo Kawahito; 光男川人; Ryoji Suzuki; 良次鈴木; Toru Setoyama; 徹瀬戸山
Original assignee: A T R SHICHIYOUKAKU KIKO KENKYUSHO KK
Current assignee: A T R SHICHIYOUKAKU KIKO KENKYUSHO KK
Priority date: 1988-08-19
Filing date: 1988-08-19
Publication date: 1990-02-23
Anticipated expiration: 2014-08-03
Also published as: JP2929538B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［産業上の利用分野］この発明は非線形システム学習制御装置に関し、たとえ
ばロボットや発電プラントや自動車エンジンなどの非線
形性を持ったシステムを適応的に学習制御するための非
線形システム学習制御装置に関する。

［従来の技術］多関節型のマニピュレータはその構造上の特徴により、
姿勢により慣性モーメントが変化するなど非線形性が強
い。また、関節間に干渉があるため、アクチュエータの
トルクが他の関節にも影響を与え、遠心力やコリオリカ
といった速度の２乗に比例する力が働くなどの理由から
、その制御は一般に難しい。しかし、現在の産業用マニ
ピュレータの多くは局所的に設計されたフィードバック
ループによるＰＩＤ制御で動かされている。これは、減
速比の大きい電動機を用いることにより、アクチュエー
タの慣性がマニピュレータの本体のそれに比べて相対的
に大きくなるため、マニピュレータの非線形性や関節間
の干渉を無視し得るからである。

それでも高速動作の場合やダイレクトドライブ型のマニ
ピュレータの場合などにはこれらの影響を無視すること
はできず、何らかの形で補償してやらなければならない
。

［発明が解決しようとする課題］近年、モデル参照型適応制御や、制御対象のダイナミッ
クスから直接制御に必要な制御量を計算するＣｏｍｐｕ
ｔｅｄ　　ｔｏｒｑｕｅ法などが提案されている。しか
し、モデル参照型適応制御は、その適用範囲が限られて
おり、またロバストでない。すなわち、制御対象の実際
の特性が、制御システム設計の際に想定したモデルと多
少食違っても制御性をあまり損わない制御を行なうこと
ができない。また、Ｃｏｍｐｕｔｅｄ　　ｔｏｒｑｕｅ
法は、厳密な制御対象モデリングとパラメータ推定に基
づく前向き制御であるが、良いモデルを立てることと精
密なパラメータ推定は、実際には非常に困難である。さ
らに、繰返し学習方式が提案されているが、これは成る
特定の制御の時間パターンで得られた経験が他のパター
ンには使えないという欠点があった。

それゆえに、この発明の主たる目的は、高精度で適用範
囲が広く、ロバストで厳密なモデリングやパラメータ推
定を必要とせず、がっ成る制御パターンで得られた経験
が全く異なる状況でも役に立つような非線形システム学
習制御装置を提供することである。

［課題を解決するための手段］この発明は非線形システム学習制御装置であって、非線
形の制御対象をほぼ目標の時間経過通りに制御するため
のフィードバックループと、フィードバックループがら
のフィードバック指令を誤差信号としてシナプス加重を
適応的に変化させる多層学習神経回路とを階層的に組合
わせて構成したものである。

［作用］この発明に係る非線形システム学習制御装置は、フィー
ドバックループにより非線形の制御対象をほぼ目標の時
間経過通りに制御するとともに、フィードバック指令を
誤差信号としてシナプス加重を適応的に変化させるよう
にしたので、従来方式に比べて高精度で適用範囲が広く
、ロバストで厳密なモデリングやパラメータ推定を必要
とせず、かつ成る制御パターンで得られた経験が全く異
なる状況でも役に立たせることができる。

［発明の実施例コ第１図はこの発明の一実施例を示すブロック図である。

第１図において、目標軌道信号θｄ＋＋　　θｄ２・・
・θｄＮは減算回路１に与えられ、減算回路１によって
フィードバックループ３からフィードバックされたフィ
ードバック信号θ１．θ２・・・θＮと加算されて演算
部２に与えられる。演算部２は目標軌道と実際の軌道と
の差にフィードバックゲインＫをかけてフィードバック
トルクＴＦ　＋　、Ｔ４’２・・・Ｔｐ、を計算して出
力する。

前述の目標軌道信号θｄ＋＋　　θｄ２・・・θｄＮは
微分回路６によって微分され、微分信号θｄ＋＋θｄ１
・・・θｄ、が逆ダイナミックスモデルとしての多層神
経回路７に与えられる。多層神経回路７は複数の入力層
と複数の中間層と複数の出力層を含んで構成される。そ
して、多層神経回路７は目標軌道の１階または２階の時
間微分から制御に必要なフィードフォワードトルクＴ＋
＋＋”ｒ、２・・・Ｔ、Ｎを計算して加算回路４に出力
する。加算回路４は演算部２によって演算されたフィー
ドバックトルクＴｌ’　＋　、Ｔ＃　２・・・Ｔｐｍ　
とフィードフォワードトルクＴ、、、Ｔ、２・・・Ｔ、
Ｎを加算してマニピュレータ５に与える。なお、フィー
ドバックトルクＴｆ＋、ＴＦ２・・・ＴＦＮは誤差信号
とし゛で多層神経回路７の出力層にも与えられている。

マニピュレータ５は制御対象となるロボットであって、
実際の軌道θ４．θ２・・・θＫを出力するとともに１
．フィードバックループ３を介して前述の減算回路１に
フィードバックする。

次に、この発明の一実施例の動作について説明する。目
標軌道信号θｄ＋＋　　θｄ２・・・θｄＮが与えられ
ると、学習前には第１図におけるフィードバックループ
３を介してフィードバックされたフィードバック信号θ
７．θ２・・・θＨと目標軌道信号θｄ　＋　＋　　θ
ｄ２・・・θｄＮとに基づいて制御が行なわれる。学習
が進むに従って、多層神経回路７のシナプス伝達効率が
変化し、制御対象の逆ダイナミックスモデルが徐々に形
成される。学習の最終段階では、はぼ完全な逆ダイナミ
ックスモデルが獲得され、制御は多層神経回路７を通る
前向き経路にほとんど依存する。このとき、実現された
軌道は目標軌道にほぼ一致する。

次に、多層神経回路７の各ニューロンの特性について説
明する。各ニューロンは、多数の入力信号をシナプス加
重で重みづけして足し併せる線形加重の操作と、その結
果得られる膜電位をシグモイド型の非線形関数で変換し
て出力とする操作の２つを同時に行なう。

ここで、多層神経回路７のモデルのシナプス学習につい
て説明する。制御対象となるマニピュレータ５には、ネ
ガティブフィードバックによる制御信号ＴＩ：と内部モ
デルによる制御信号Ｔ、の和Ｔが加えられる。ここで、
入力層と中間層の間のシナプス加重をｗ’　、　Ｊとし
、中間層と出力層の間の加重をｗ２．、とし、ニューロ
ンの人力と出力をそれぞれＸｉ、ＹＪ　とし、ｉ、　　
ｈ、　　ｏはそれぞれ人力層、中間層および出力層であ
ることを示すものとする。すると、Ｘ　、−Σｗ’、、　　・ｙＸｏ、−ΣＷ２４．・ｙｈ。

となり、各ニューロンの入出力関係は、ｙ　＋−Ｘ’ ｙ’ｒ−ｆｃＸ”；）Ｙｏ＞　　−ｆ　　（Ｘ’　ｙ　）ここで、ｆ　（Ｘ）はシグモイド型の単調増加連続関数
でｆ　（Ｘ）＝２／　（１＋ｅｘｐ　（−Ｘ））−１であ
る。多層神経回路７からの出力Ｔ、、はｙｏ、の定数倍
とする。

ネットワークの学習は、シナプス加重を変化させること
により行なわれる。シナプス加重を次式に従って変化さ
せる。

ｄ　ｗ’　　、、ｍ−ΣＴｃ、・ｆ′　（ｙｏｋ　）・
ｗ２Ｊｋ　”Ｙ’　ｌ　−ｆ’　　ＣＹ’；　）−一Σ
Ｔ１−．・　（１ｙ’ｉ　２　）／に２・Ｗ２ｊｌ　　−ｙ’ｉ　　・　（１−ｙ）１２）／
２ｄｗ２＝　ｋ　−ＴＦｋ　−ＹＪ　　”　ｆ′　（Ｙｏ
ｋ）−ｍ”ｒｉ、　　争ｙｈ、　　・　（Ｉ　　　Ｖ０
Ｌ２）／２ Δｗ’　　（ｔ）−ｅ　・ｄｗ″　（ｔ）＋ａ　・Δｗ
″（ｔ−１）ｗ　　　（ｔ＋１）　　−７ｗ　　　（ｔ）　　＋Δｗ
’（ｔ）（ｎ−１，２）但し、ｔは加重を変化させた回数であり、ε、α。

γは定数である。

第２図はこの発明の一実施例による産業用マニピュレー
タロボットの学習制御方式の実験結果の一例を示す図で
あって、それぞれ横軸は学習時間を示し、縦軸は第１．
第２．第３軸の関節角度で表わした１１標軌道と実際の
軌道とを引算してそれを２乗して時間・１０均をとった
平均２乗誤差を示している。そして、２つの実線は訓練
パターンに対する結果を示し、１点鎖線はより速くて異
なるテストパターンを示し、２点鎖線は遅くて異なるテ
ストパターンに関する結果を示している。この第２図か
ら明らかなように、学習を開始してから約７０分で平均
２乗誤差の少な（なっていることが明らかである。

［発明の効果］以上のように、この発明によれば、フィードバックルー
プからのフィードバック指令を誤差信号としてシナプス
加重を適応的に変化させる多層学習神経回路を設けたこ
とによって、従来方式に比べて高精度で適用範囲が広く
、ロバストであり厳密なモデリングやパラメータの推定
を必要とせず、かつ成る制御パターンで得られた経験が
全く異なる状況でも役に立つなどの性能向上を制御シス
テム一般にもたらすことが期待できる。

【図面の簡単な説明】

第１図はこの発明の一実施例のブロック図である。第２
図はこの発明の一実施例の実験結果を示す図である。図において、１は減算回路、４は加算回路、２は演算部
、３はフィードバックループ、５はマニピュレータ、６
は微分回路、７は多層神経回路を示す。特許出願人　株式会社エイ・ティ・アールＪに／、Ｅ　
Ｊ

Claims

【特許請求の範囲】

非線形の制御対象をほぼ目標の時間経過通りに制御する
ためのフィードバックループと、前記フィードバックル
ープからのフィードバック指令を誤差信号としてシナプ
ス加重を適応的に変化させる多層学習神経回路とを備え
た、非線形システム学習制御装置。