JP2723720B2 - 制御装置構築処理システム - Google Patents

制御装置構築処理システム

Info

Publication number
JP2723720B2
JP2723720B2 JP3281741A JP28174191A JP2723720B2 JP 2723720 B2 JP2723720 B2 JP 2723720B2 JP 3281741 A JP3281741 A JP 3281741A JP 28174191 A JP28174191 A JP 28174191A JP 2723720 B2 JP2723720 B2 JP 2723720B2
Authority
JP
Japan
Prior art keywords
control
target
value
virtual
virtual target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP3281741A
Other languages
English (en)
Other versions
JPH056204A (ja
Inventor
実 関口
玉美 菅坂
茂美 長田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP3281741A priority Critical patent/JP2723720B2/ja
Publication of JPH056204A publication Critical patent/JPH056204A/ja
Application granted granted Critical
Publication of JP2723720B2 publication Critical patent/JP2723720B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Feedback Control In General (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、制御対象の制御に用い
られる制御装置を構築するための制御装置構築処理シス
テムに関し、特に、非線型な前記対象を扱う前記装置を
容易に、かつ一般的な制御規則形式でもって構築できる
ようにする制御装置構築処理システムに関するものであ
る。
【0002】倒立振子々の1入力2出力系等のような複
雑な制御対象に対しては、古典的PID対応では対応で
きないことから、現代制御理論を適用して制御装置を設
計していく方法が採られている。しかしながら、現代制
御理論の線形制御理論を用いる場合には、制御対象の運
動方程式を線形化して制御対象モデルを構築していくた
めに、線形領域外ではその制御性能が低下するという欠
点がある。
【0003】また、現代制御理論の非線形制御理論を用
いる場合には、運動方程式を完全に記述する必要がある
ため、制御対象のパラメータを正確に同定していく必要
があるがこれは極めて困難な作業になるという欠点があ
る。このようなことを背景にして、近年、ニューラルネ
ットワークを用いる新たな構成の制御装置が提案されつ
つある。
【0004】
【従来の技術】ニューラルネットワークは、教師信号群
があたえられると、学習により、それらの教師信号群の
持つ入出力特性を備えることになるという性質を持つも
のであって、その後、未知の入力信号が与えられると、
それらしい出力信号を出力するという適応的なデータ処
理機能を実現していくという性質をもつものである。
【0005】このようなニューラルネットワークを制御
装置として構築する場合、制御対象から十分な数の制御
データを入手して、その入手した制御データを教師信号
として用いて学習を実行していくことで、制御対象に対
しての制御規則をニューラルネットワーク上に写像して
いくことで、制御装置として構築していくという方法が
採られることになる。
【0006】しかしながら、制御対象の制御データを得
ることは、制御対象が複雑になると現実には不可能であ
ることが多い。そこで、これに対処する一方法として、
最近、定性的にはある程度の先験的知識が得られている
が、定量的には未知の部分が多いような制御対象に対し
て、試行によって教師信号を得て、これを用いて制御対
象に対しての制御規則をニューラルネットワーク上に写
像していくという新たな提案(斉藤,北村,“多層型ニ
ューラルネットワークを用いた倒立振子の安定化学習制
御”,ロボティクス・メカトロニクス '90論文集,p
283-286,1990)がなされるに至った。
【0007】この新たな方法は、台車に乗っている倒立
振子を原点で制止させるために、ニューラルネットワー
クと、仮想目標発生部と、評価部とを備える構成を採っ
ている。
【0008】この新たに備えられる仮想目標値発生部
は、「台車の位置が原点から離れるほど、振子の仮想目
標角度を鉛直方向から原点側により大きく傾ける」とい
う先験的知識を数式で表したものであって、台車の位置
と速度が与えられるときに、これを原点に移すための振
子の角度と角速度の仮想目標値を発生する。
【0009】一方、この新に備えられる評価部は、発生
された仮想目標値と制御出力(振子の角度・角速度)と
の差が1サンプリング後にどのようになればよいかを評
価することで、台車に加えるべき力の修正量を求めて、
その修正量により修正された力を教師信号として特定す
る。そして、ニューラルネットワークは、各サンプリン
グ時刻における振子の角度・各速度と、台車の位置・速
度とを入力して、台車に加えるべき力を出力していく。
このニューラルネットワークの学習は、評価部で生成さ
れる教師信号に基づいて、バックプロパゲーション法に
より行われる。
【0010】この構成を採ることで、定性的にはある程
度の先験的知識が得られているが、定量的には未知の部
分が多いような制御対象に対して、試行によって教師信
号を得て、これを用いて制御対象に対しての制御規則を
ニューラルネットワーク上に写像していくことで、ニュ
ーラルネットワークをその制御対象の制御装置として構
築していくということが実現されることになる。
【0011】従来より、システムの取りうる中間状態を
仮想目標値という仮想的な値で表し、その仮想目標値を
実現できる入出力関係を学習することによって制御を行
う制御装置が考案されている。しかし、これらは、仮想
目標値が1つしか用いられていないため、システムの状
態が複雑に変化する場合には、制御性能が低下するとい
う問題点があった。そこで、本発明では、複数の仮想目
標値をシステムの状態に応じて設定し、システムの制御
性能の向上をはかるものである。
【0012】
【発明が解決しようとする課題】確かに、この新たに提
案される方法は、非線形な制御対象に用いられる制御装
置を容易に構築できるという利点が得られるようになる
ものの、仮想目標値発生部が、台車の位置と速度が与え
られるときに、これを原点に移すための振子の角度と角
速度の仮想目標を発生するというように、制御状態量の
絶対値を入力として、対応の制御状態量の仮想目標値を
出力していくという構成を採り、一方、ニューラルネッ
トワークが、各サンプリング時刻における振子の角度・
角速度と、台車の位置・速度とを入力とするというよう
に、制御状態量の絶対値を入力する構成を採ることか
ら、制御状態量の目標値が変更されると、いちいち学習
をやり直さなくてはならないという問題点があった。
【0013】そして、上述しなかったが、評価部が、制
御対象の応対特性を変更する複雑な評価式に従って、台
車に加えるべき力の修正量を求めていかなくてはならな
いことから、制御対象の持つ応答抑制に忠実な制御規則
でないものを設定してしまうとともに、制御装置の構築
を短時間で実行できないというよな問題点もあったので
ある。
【0014】本発明は、非線形な制御対象を扱う制御装
置を容易に、かつ一般的な制御規則形式でもって構築で
きるようにする新たな前記装置構築処理システムの提供
を目的とするものである。
【0015】本発明の他の目的は、複数の仮想目標値を
システムの状態に応じて設定し、目標値までの距離に応
じて選択することによって目標値に安定的に到達するよ
うに制御することである。
【0016】
【課題を解決するための手段】図1は本発明の原理構成
図である。図中は、1はデータ処理装置、2は学習処理
装置、3は制御対象、4は目標値設定装置、5は仮想目
標管理装置、6は操作修正量計算装置、7は第1の差分
器、8は第2の差分器である。
【0017】データ処理装置1は、可変的な信号変換機
能を備えて、教師信号群与えられるときに、その信号変
換機能を教師信号群の持つ入出力特性を実現するものに
設定可能とする構成を採る。このデータ処理装置1は、
制御装置として構築されることになって、制御対象3の
制御状態量とその目標値とが与えられるときに、制御対
象3をその目標の制御状態にと制御するための制御操作
量を出力していくことになる。
【0018】データ処理装置1は、1つ又は複数の入力
とそれらの入力に対して乗算されるべき内部状態値とを
受け取って積和値を得るとともに、その積和値を所定の
関数によって変換して出力値を得る基本ユニットの内部
結合により構成されるネットワーク構造部で構成され
る。
【0019】また、データ処理装置1は制御状態量と制
御操作量との間の定性的なデータ関係をIF−THEN
ルールで既述するとともに、IF−THENルールに記
述される制御状態量及び制御操作量の定性属性をメンバ
シップ関数で記述するファジィ装置で構成してもよい。
【0020】学習処理装置2は、教師信号群が与えられ
るときに、データ処理装置1の信号変換機能を教師信号
群の持つ入出力特性を実現するように学習するものであ
る。この学習処理装置2は、データ処理装置1がネット
ワーク構造部により構成されるときには、よく知られて
いるバックプロパゲーション法等の学習アルゴリズムを
実行していくことになる。
【0021】制御対象3は、制御装置として構築される
データ処理装置1により制御される制御対象である。こ
の制御対象3は、現実の制御対象が用いられることが好
ましいが、現実の制御対象ではなくてその制御対象モデ
ルが用いられることもある。
【0022】目標値設定装置4は、制御対象3の所望の
制御状態を表す制御状態量の目標値を設定する。仮想目
標管理装置5は、制御対象3の所望の制御状態を実現す
るために得られている制御状態量とその目標値との関係
の先験的知識を管理する。本発明の仮想目標管理装置5
は、この先験的知識の管理データを制御状態量とその
標値との差分値をパラメータにして管理する。
【0023】操作修正量計算装置6は、制御対象3の持
つ制御状態量とその制御状態量に対応して仮想目標管理
装置5の管理データから特定される制御状態量の仮想的
な目標値とから、制御状態量の目標値を実現するために
必要となる制御対象3に対しての制御操作量の修正量を
算出する。
【0024】この操作修正量計算装置6は、制御対象3
の持つ制御状態量と、仮想目標管理装置5の出力する仮
想目標値との差分値に比例係数を乗ずることで、制御操
作量の修正量を算出する構成を採ることがある。
【0025】第1の差分器7は、目標値設定装置4の設
定する制御状態量の目標値と、制御対象3の持つ制御状
態量との差分値を算出して、その差分値をデータ処理装
置1と学習処理装置2とに入力する。このとき、ダイナ
ミックレンジ調整のためこの第1の差分器7の出力値に
比例係数が乗じられることがある。
【0026】第2の差分器8は、データ処理装置1の出
力する制御操作量と、操作修正量計算装置6の出力する
制御操作量の修正量との差分値を算出して、その差分
値、すなわち、データ処理装置1から出力されている制
御操作量を算出された修正量で補正したものを学習処理
装置2に入力する。
【0027】
【作用】本発明では、データ処理装置1の信号変換機能
が例えば初期状態に設定されているときに、制御対象3
から制御状態量の初期値が出力されると、第1の差分器
7は、目標値設定装置4の設定する制御状態量の目標値
とその制御状態量の初期値との差分値を算出して、デー
タ処理装置1に入力する。この入力を受けて、データ処
理装置1は、初期状態信号変換機能により規定される制
御操作量を算出して制御対象3に出力し、この制御操作
量の出力処理を受けて、制御対象3は初期状態とは異な
る制御状態に遷移する。以下、制御対象3の制御状態が
規定の限界に達するまで、この処理を繰り返していく。
【0028】この処理時に、仮想目標管理装置5は、制
御対象3から制御状態量を受けると、管理データに従っ
て制御状態量の仮想的な目標値を特定する。この仮想目
標管理装置5の処理に従って、例えば、制御対象3が1
入力2出力系の制御系の例で説明するならば、制御対象
3から出力される一方の制御状態量に対しての他方の制
御状態量の仮想的な目標値が特定されることになる。
【0029】仮想目標管理装置5が制御状態量の仮想的
な目標値を特定すると、操作修正量計算装置6は、この
仮想的な目標値を使用して、制御状態量の目標値を実現
するために必要となる制御対象3に対しての制御操作量
の修正量を算出する。この修正量の算出処理に従って、
目標値設定装置4により設定される目標の制御状態量を
実現するために、その処理時点のデータ処理装置1の出
力する制御操作量が、どのように修正されるべきかが決
定されることになる。
【0030】このようにして、データ処理装置1に入力
される制御状態量とその目標値との差分値と、その差分
値の入力時点でのより好ましい制御操作量とからなる教
師信号群が求められると、学習処理装置2は、データ処
理装置1の信号変換機能の学習処理を実行して、信号変
換機能をより目標の制御状態を実現するために適してい
るものに設定する。
【0031】そして、この新たに設定されるデータ処理
装置1の信号変換機能に従って上述と同様の処理を繰り
返していくことで次の教師信号群が生成されるように処
理し、学習処理装置2に従って、データ処理装置1の信
号変換機能を目標の制御状態を実現するものに設定して
いくことで、データ処理装置1を制御装置として構築し
ていく。
【0032】このように、本発明では定性的にはある程
度の先験的知識が得られているが、定量的には未知の部
分が多いような制御対象3に対して、試行によって教師
信号を得て、これを用いて制御対象3に対しての制御規
則をデータ処理装置1の信号変換機能上に写像していく
ことで、データ処理装置1をその制御対象3の制御装置
として構築していくときにあって、制御状態量とその
標値との差分値に従ってデータ処理装置1の構築処理を
実行していくように構成するものであることから、制御
状態量の目標値が変更されるときにあっても学習をやり
直さなくて済むようになるのである。
【0033】目標位置が変わっても、例えば倒立させる
ための制御対象への入力が目標位置と現在位置との差分
値に関しては変化しない。つまり、制御対象への入力
は、差分値によってのみ変化し、もし目標位置が変わっ
ても、その差分値が変わらなければ、同じ制御対象への
入力を出力すればよい。従って、差分値に関する制御対
象への入力を学習しておけば、あとはその差分値に従っ
て制御が行われるだけなので、学習し直す必要がない。
【0034】本発明は、制御状態量の目標値が変更され
た場合でも現在値と目標値との差分値とそれに対応する
制御対象への入力値との関係を予め学習しておくことに
より制御状態量を所望の値に制御するすなわち制御対象
を任意の目標位置において所望の制御状態にすることが
できる。さらに、本発明においては目標値設定装置4を
設けたので、振り子を倒立させたまま倒立位置をある速
度で移動させることが可能になる。
【0035】また、本発明は制御対象の変数の依存関係
を示す仮想目標曲線を複数設け、各仮想目標曲線に対す
る複数の制御部の1つを制御対象の制御状態量に従って
選択する。
【0036】さらに、本発明は制御対象の変数の依存関
係を示す仮想目標曲線を複数設け、制御対象の変数の1
部の領域に従って該変数の仮想目標曲線の1つを選択す
ることにより制御するようにした。
【0037】
【実施例】以下、実施例に従って本発明を詳細に説明す
る。図2に、本発明の一実施例を図示する。図中、10
はニューラルネットワークであって、制御装置として機
能するもの、11は学習処理装置であって、ニューラル
ネットワーク10の学習処理を実行するもの、12は倒
立振子モデルであって、制御対象となる1入力2出力系
の制御系をなすもの、13は目標値設定装置であって、
倒立振子モデル12の制御実施例量の目標値を設定する
もの、14は仮想目標計算装置であって、倒立振子モデ
ル12の制御状態量の仮想目標を算出するもの、15は
トルク修正量計算装置であって、ニューラルネットワー
ク10の出力するトルクの修正量を算出するもの、16
は第1の遅延器であって、倒立振子モデル12の出力す
る制御状態量を1サンプリング時間遅延して仮想目標計
算装置14に与えるもの、17は第2の遅延器であっ
て、倒立振子モデル12の出力する制御状態量を1サン
プリング時間遅延するもの、18は第1の差分器であっ
て、目標値設定装置13の設定する制御状態量の目標値
と、第2の遅延器17の出力する制御状態量との差分値
を算出して、その差分値をニューラルネットワーク10
と学習処理装置11に入力するもの、19は第2の差分
器であって、ニューラルネットワーク10の出力するト
ルクと、トルク修正量計算装置15の算出するトルク修
正量との差分値を算出して、その差分値を学習処理装置
11に入力するものである。ここで、図中の(n)は、
サンプリング時刻を表している。
【0038】図3に、この実施例で制御対象モデルとし
て想定した倒立振子モデル12を図示する。この図3に
示すように、倒立振子モデル12は、原点0でモータシ
ャフト(Z軸)に連結されたベースリンクL1 の他端C
に、リンクL2 がベースリンクL1 を回転軸にして連結
されることにより構成される。ベースリンクL1 とリン
クL 2 の回転角をそれぞれθ1 ,θ2 とし、質量をそれ
ぞれm1 ,m2 とし、長さをそれぞれl1 ,l2 とし、
重力加速度をg、モータのトルクをTで表すならば、こ
の倒立振子モデル12の運動方程式は図4に示すものに
なる。
【0039】この実施例では、この運動方程式に従う倒
立振子モデル12に対して、モータの発生するトルクT
を制御して、各リンクL1 ,L2の状態をフィードバッ
クすることにより振子を倒立させ、更に、ベースリンク
1 を適当な目標位置で停止させることを制御目標とす
るものである。
【0040】このように、倒立振子モデル12は制御状
態量として、
【0041】
【数1】
【0042】という4つを持ち、制御操作量として、モ
ータのトルクTという1つを持つことになるので、第1
の差分器18は、目標値設定装置13の設定する対応の
目標値が、
【0043】
【数2】
【0044】であるとするならば、
【0045】
【数3】
【0046】という差分値を算出してニューラルネット
ワーク10に入力することになる。なお、以下におい
て、記述の便宜上、角速度の微分値を表す場合には、そ
の角度の前に(d/dt) を付けることがある。
【0047】これから、ニューラルネットワーク10
は、入力装置として4ユニットを持ち、出力層としてト
ルクTを出力する1ユニットを持つものを用意する必要
があるので、この実施例では、図5に示すように、4個
の入力ユニット20からなる入力層と、8個の基本ユニ
ット21からなる1段構成の中間層と、1個の基本ユニ
ット21からなる出力層とを備えて、入力層の入力ユニ
ット20と中間層の基本ユニット21との間の内部結合
と、中間層の基本ユニット21と出力層の基本ユニット
21との間の内部結合に、それぞれ重み値の設定される
階層ネットワーク構成のニューラルネットワーク10を
用意することにする。
【0048】この入力層の入力ユニット20は、入力信
号値をそのまま分配して中間層の基本ユニット21に出
力し、中間層及び出力層の基本ユニット21は、複数の
入力に対し夫々の内部結合の重み値を乗算する乗算処理
部と、それらの全乗算結果を加算する累積処理部と、こ
の累積値に非線型の閾値処理を施して一つの最終出力を
出力する閾値処理部とを備える。学習処理装置11は、
教師信号群の持つ入出力特性を実現するようになるべ
く、これらの内部結合の重み値の学習処理を実行するこ
とになる。
【0049】仮想目標計算装置14は、倒立振子モデル
12に対して得られている「ベースリンクL1 の回転角
θ1 が目標位置から離れている場合にリンクL2 の回転
各θ 2 を目標位置側に倒すことによって、ベースリンク
1 の回転角θ1 が目標位置に近づく」という先験的な
制御知識に基づいて、リンクL2 の回転角θ2 の仮想的
な目標値θd 2 とその角速度(d/dt) θ2 の仮想的な目
標値(d/dt) θd 2とを算出して出力する。
【0050】すなわち、仮想目標計算装置14は、目標
値設定装置13から、ベースリンクL1 の回転角θ1
目標値θt 1 が与えられ、倒立振子モデルから、第1の
遅延器16を介して、ベースリンクL1 の回転角θ1
その角速度(d/dt) θ1が与えられると、リンクL2
回転角θ2 の仮想的な目標値θd 2 と、その角速度(d/
dt) θ2 の仮想的な目標値(d/dt) θd 2 とを、
【0051】
【数4】
【0052】という計算式に従って算出して出力するよ
う処理することになる。ここで、θ2 max は、リンクL
2 の回転角θ2 の最大倒れ角である。また、仮想目標計
算装置14は、ベースリンクL1 の回転角θ1 とその角
速度(d/dt) θ1 については、目標値設定装置13から
与えられる目標値をそのまま出力していくことになる。
なお、この式では、シグモイド関数を用いているが、θ
1 とθd 2 が比例するような関係式を用いることも可能
である。この式から分かるように、ベースリンクL1
回転角θ1 が目標位置であるθt 1 に達すると、リンク
2 の回転角θ2 の仮想目標値θd 2 が0になるので振
子は倒立することになるのである。
【0053】トルク修正量計算装置15は、リンクL2
の回転角θ2 が仮想目標値θd 2 になるようにと、ベー
スリンクL1 に加えるトルクTを修正するものである。
すなわち、トルク修正量計算装置15は、仮想目標計算
装置14から、リンクL2 の回転角θ2 の仮想的な目標
値θd 2 と、その角速度(d/dt)θ2 の仮想的な目標値
(d/dt) θd 2 と、ベースリンクL1 の回転角θ1 の角
速度(d/dt) θ1 の仮想的な目標値(d/dt) θd 1 (こ
の場合は、実際の目標値(d/dt) θt 1 に一致する)と
が与えられ、倒立振子モデル12から、リンクL2 の回
転角θ2とその角速度(d/dt) θ2 と、ベースリンクL1
の回転角θ1 の角速度(d/dt) θ1 とが与えられると、
トルクの修正量ΔT(n)を、
【0054】
【数5】
【0055】という計算式に従って算出して出力するよ
う処理することになる。ここで、この式中の第3項は、
減衰項として働き、回転角θ1 の目標位置付近で急速に
停止させる効果を発揮するものである。
【0056】第2の差分器19は、このトルク修正量計
算装置15の出力するトルク修正量計算装置15の出力
するトルク修正量を受けて、ニューラルネットワーク1
0の出力するトルクT(n)と、トルク修正量計算装置
15の算出するトルク修正量 ΔT(n)との差分値T’(n) T’(n)=T(n)−ΔT(n) を算出して、この差分値がニューラルネットワーク10
の出力しているトルクの好ましい値であるとして、学習
処理装置11に通知していくよう処理することになる。
【0057】学習処理装置11は、このようにして得ら
れていくニューラルネットワーク10に対しての入力値
と、そのときのより好ましいニューラルネットワーク1
0のトルク値の出力とを教師信号として用いて本出願人
が仮想インピーダンス制御法として提案している改良さ
れたバックプロパゲーション法(ネットワーク構成デー
タ処理装置学習処理方式:特開平1−183763号)
に従って、ニューラルネットワーク10の内部結合の重
み値の学習を高速に実行していくよう処理することにな
る。改良されたバックプロパゲーション法によれば、数
組の異なるサンプリング結果を教師信号として学習を行
う時、あるサンプリング結果について先に学習した結果
得られた重み値を、次のサンプリング結果について学習
するときの初期値として用いる。したがって、新たなサ
ンプリング結果が得られた時に最初から学習をやり直す
必要がなく、学習処理が高速化される。
【0058】学習の仕方について述べると、まずベース
リンクL1 (腕)を30°、リンクL2 (振り子)を0
°に設定して試行を行う。その結果、倒れるまでに20
個のサンプリング値が得られたとする。これをメモリに
記憶し、このサンプリング値を使って教師信号のトルク
値を自動生成して、ニューラルネットの重み値を更新
し、学習を行う。
【0059】次に腕を30°、振り子を0°に設定し
て、2回目の試行を行う。その間で前の20個のサンプ
リング値によって決まった重み値を初期値として、たと
えば40個のサンプリング値をとって、新しいサンプリ
ング値として、メモリに記憶し、このサンプリング値を
使って、教師信号のトルク値を自動生成して、ニューラ
ルネットの重み値を更新し、学習を行う。
【0060】このようにして、腕を0°から90°まで
動かして、ニューラルネットが最終的に記憶した重み値
を使えば、任意の初期位置と目標位置(ただし、初期位
置と目標位置との差が0°から90°までの間)とが与
えられても、その目標位置で倒立させることができる。
【0061】腕は例えば0°から90°の全領域を動か
せばよりよいネットワークが構築されるが、経験上全領
域を動かす必要はない。また、初期位置と目標位置との
差が0°から90°迄の間以上の差であっても、ある程
度は制御可能である。
【0062】目標位置が変わっても、例えば倒立させる
ための制御トルクが目標位置と現在位置との差分値に関
しては変化しない。つまり、制御トルクは、差分値によ
ってのみ変化し、もし目標位置が変わっても、その差分
値が変わらなければ、同じ制御トルクを出力すればよ
い。従って、本発明によれば、差分値に関する制御トル
クを学習しておけば、あとはその差分値に従って制御が
行われるだけなので、目標位置が変わっても学習し直す
必要がない。
【0063】次にシミュレーション結果に従って、この
ように構成される本発明の実施例の有効性について説明
する。このシミュレーションは、倒立振子モデル12の
ベースリンクL1 の質量m1 を“1”、リンクL2 の質
量m2 を“0.25" 、ベースリンクL1の長さl1 を“0.
2"、リンクL2 の長さl2 を“0.5"、トルク修正量計算
装置15の使用する係数K1 ,K2 ,K3 の値をそれぞ
れ“1”、“1”“0.1"に想定して行った。
【0064】そして、第1の差分器18の出力する差分
値の内の(d/dt)E1 については、“0.1"という係数を
乗じてニューラルネットワーク10に入力していくとい
う方法をとった。回転角θ1 の初期値は30°、回転角
θ2 の初期値は0°、回転角θ1 の目標値θt 1 は0
°、回転角θ2 の目標値θt 2は0°、回転角θ2 の最
大倒れ角θ2maxは20°に設定し、ニューラルネットワ
ーク10の内部結合の重み値の初期値は、±0.01の
ランダム値に従って設定した。
【0065】シミュレーションは、次のように試行す
る。すなわち、倒立振子モデル12の状態〔θi (n) ,
(d/dt) θi (n) 〕(i=1,2)をサンプリング時間
0.01秒単位でサンプリングする。そして、このとき
のニューラルネットワーク10のトルク出力を算出し、
このトルク出力を倒立振子モデル12のベースリンクL
1 に与えて、これにより変化する倒立振子モデル12の
状態〔θi (n+1),(d/dt) θi (n+1)〕をシミュレー
トしていく。
【0066】このとき、トルク修正量計算装置15に従
って、より好ましいニューラルネットワーク10の出力
トルクを算出していくことで教師信号を得る。この処理
を500ステップ、すなわち5秒間繰り返す。このと
き、倒立振子45°以上傾いたときには、そこで試行を
打ち切る。これから教師信号は、最大500個得られる
ことになる。
【0067】このようにして教師信号群が得られると、
学習処理装置11は、改良されたバックプロパゲーショ
ン法に従って、ニューラルネットワーク10の内部結合
の重みを学習していく。この学習処理は、バックプロパ
ゲーション法の学習回数が100回のところで打ち切っ
て、そのときに得られた重み値を新たな重み値としてニ
ューラルネットワーク10の内部結合に設定する。そし
てこの新たに設定された重み値を持つニューラルネット
ワーク10に従って、上述の試行を繰り返していくこと
で、倒立振子モデル12の振子の倒立を制御するニュー
ラルネットワーク10の構築をシミュレートしていくこ
とになる。
【0068】図6〜図11に、このシミュレーション処
理に得られたシミュレーションデータの一例を図示す
る。図6のシミュレーションデータは、上述の試行を1
0回行った後、倒立振子モデル12の回転角θ1 の初期
値を90°、回転角θ2 の初期値を10°、回転角θ1
の目標値θt 1 を0°、回転角θ2 の目標値θt 2 を0
°として動作させたときの応答を示している。また、図
7のシミュレーションデータは同じ初期状態にあって、
回転角θ1 の目標値θt 1 を−30°、回転角θ2 の目
標値θt 2 を0°として動作させたときの回転角θ1
θ2 の応答を示している。図8に、この図6のシミュレ
ーションにおけるトルク曲線、図9に、この図6のシミ
ュレーションにおける回転角θ2 、仮想目標値θd 2
応答を示す。
【0069】この図6及び図7のいずれかのシミュレー
ションの場合にも、約5秒後には目標の制御状態に制御
されることになる。このように、本発明では、制御状態
量の目標値との差分値に従って、ニューラルネットワー
ク10の制御装置としての構築処理を実行するように構
成するものであるから、ニューラルネットワーク10
は、その構築処理に用いられたものとは異なる目標状態
であっても、倒立振子モデル12を所望の制御状態に制
御できるようになるのである。
【0070】図10及び図11のシミュレーションデー
タは、図6のシミュレーションを実行する際に、トルク
修正量計算装置15の算出処理に用いる回転角θ2 の最
大倒れ角θ2maxを20°の他に、10°、30°、40
°に設定して10回の試行を行い、その各々に対して回
転角θ1 ,θ2 の応答を求めたものである。このシミュ
レーションデータから、回転角θ2 の最大倒れ角θ2max
を変えても、倒立振子モデル12の応答は基本的には変
わらないことが明らかとなった。
【0071】図示実施例について説明したが本発明はこ
れに限定されるものではない。例えば、実施例では、ニ
ューラルネットワークを用いて制御装置を構築するもの
を開示したがこれに限られることなく、教師信号に応じ
て信号変換機能を調節できるすべてのデータ処理装置に
対してそのまま適用できるのである。例えば、データ処
理装置1をファジィ装置で構成することも可能である。
ファジィ装置とは、人間のもつ知識をIF−THEN形
式で表し、ファジィ推論を行って対象を制御する制御装
置である。「ファジィ理論の基礎と応用」(坂和正敏
著、森北出版、p.166−170)や「学習機能付フ
ァジー制御」(電子情報通信学会誌、平成元年8月、V
ol.72,No.8,p.937) に紹介されてい
るように、ファジィ装置においては、制御状態量と制御
操作量の間の定性的なデータ関係、あるいは制御規則が
いくつかのIF−THENルールで記述される。そし
て、これらのIF−THENルールを用いて推論した結
果が合成されて出力される。
【0072】そして、実施例では、倒立振子を制御対象
とするものを開示したが、これに限られることなく、す
べての説明対象に対してそのまま適用できるのである。
また、実施例では、実際の制御対象ではなくて、その制
御対象モデルを利用して制御装置を構築するものを開示
したが、これに限られることなく、実際の制御対象その
ものを用いるものであってもよいのであって、そのよう
にすると、クーロン摩擦等を含んだ正確なシステム同定
がなされるので、より適切な制御装置を構築できるよう
になるのである。
【0073】次に本発明の他の実施例として、倒立振子
の安定化制御の方式について説明する。本実施例に用い
た経験則は、「人間がホウキのような棒を立てながらあ
る位置に移動する場合、その移動したい方向へ棒を傾け
ながら移動する」ということを参考にしている。これを
本実施例に当てはめると、「アームが振り子を立てなが
ら目標位置に移動する場合、目標位置側へ振り子を傾け
ながら移動する」となる。
【0074】これを関数で表現したのが、図12であ
る。θ1 がアームのポジションで、θd2 がアームのポ
ジションθ1 に対する仮想目標値である。図12は、原
点がアームθ1 の目標位置を表し、アームθ1 が目標位
置より正側にいる時には、振り子θ2 を負側(目標位置
側)に傾け逆に、アームθ1 が目標位置より負側にいる
時には、振り子θ2 を正側(目標位置側)に傾ける、と
いうことを表現している。
【0075】図12には、このような関数が2つ示して
ある。この2つの違いは、振り子θ 2 の傾きの大きさの
違いである。仮想目標値の傾きを小さくとることによっ
て、倒立振子を倒れにくくすることができる。あるい
は、傾きを大きくとることによって、目標位置に素早く
戻すことができる。従って、2種類の仮想目標値を用い
ることによって、目標位置から遠くでは倒れにくくに、
目標位置付近では素早く目標位置に追従させることが可
能である。
【0076】仮想目標曲線に対応した以下に示す関数に
おいて、仮想目標曲線の種類に対応してパラメータaと
振り子の最大振れ角θ2 max をかえることによって、異
なった関数を形成することができる。そして、例えば2
つの関数に対応した2つの曲線(1) 、(2) 上の点(ここ
では原点)を仮想目標値とすることができる。
【0077】
【数6】
【0078】図13は図12に示した本発明の他実施例
の構成を示す。図13において、対応するところは、図
1と同一番号を付する。図13と図1とが異なること
は、図13の仮想目標管理装置5は複数の仮想目標値に
対する複数の曲線(関数)を用意することと、図13の
制御部10は、図1のニューラルネット1、および学習
装置2からなる複数の制御部10から構成され、それぞ
れの制御部10が仮想目標管理装置5の複数の曲線(関
数)と対応して設けられている。1つの制御部は1つの
仮想目標値に対応する曲線(関数)について学習し、異
なる制御部は、異なる仮想目標値に対応する関数につい
て学習する。すなわち本実施例では仮想目標値を予め、
システムの状態に応じて設定しておき、学習時にシステ
ムの状態が変化する都度、制御部を変更して、随時学習
する方法である。
【0079】制御部10は現在の制御対象の状態に応じ
て、与えられた仮想目標値に近づくような出力を出すよ
う訓練されるものとする。この時、仮想目標値の傾を小
さく取ることによって、倒立振子を倒れにくくするとが
できる。あるいは、傾きを大きく取ることによって、目
標位置に素早く戻すことができる。
【0080】従って、曲線(1),(2)で表される2
種類の仮想目標値を用いることによって、目標値から遠
くでは曲線(1)に従って、腕の角度θ1 が変化して
も、振子の仮想の角度θd2 の変化を少なくすることに
より、振子を倒れしくくし、目標値付近では素早く目標
に追従させることが可能である。1つの仮想目標値につ
いて学習を行い、続いて異なる仮想目標値について学習
していけばよい。
【0081】倒立制御の実行時は、倒立振子からでてく
る現在の腕の位置を使って選択回路19が、目標値から
遠いときには傾きの少ない曲線(関数)で学習した制御
部を選択し、目標値に近くなったときには、傾きの大き
な曲線(関数)によって学習した制御部を選択する。
【0082】図14は本発明のさらに他の実施例を示
す。図13と異なるところは、制御部10を1つ設け、
仮想目標管理装置5における複数の曲線(関数)を合成
して得られる1つの曲線(関数)を学習する点である。
例えば、図12に示した曲線(1),(2)の一部分
を、θ 1 の値に応じて選択的に用いることで、実線で示
した1つの曲線が合成される。
【0083】実行時には、その曲線(関数)を制御部1
0が学習してあるので図13の実施例と異なって、選択
回路19は不要となる。
【0084】
【発明の効果】以上説明したように、本発明によれば、
定性的にはある程度の先験的知識が得られているが、定
量的には未知の部分が多いような制御対象に対して、試
行によって教師信号を得て、これを用いて制御対象に対
しての制御規則をデータ処理装置の信号変換機能上に写
像していくことで、データ処理装置をその制御対象の制
御装置として構築していくときにあって、制御状態量の
目標値との差分値に従ってデータ処理装置の構築処理を
実行していくように構成するものであることから、制御
状態量の目標値が変更されるときにあっても学習をやり
直さなくて済むようになる。これより、非線型な制御対
象を扱う制御装置を用意に、かつ一般的な制御規則形式
でもって構築できるようになるのである。
【0085】本発明はさらに、複数の仮想目標曲線から
合成した特性に従うことにより、先験的知識に基づいて
所望の目標値に向かって変化させることができる。そし
て、本発明では、この実現のために備える教師信号の生
成のための制御操作量の修正量算出装置が、線型の算出
式に従うことで制御対象の応答特性を変更しないで制御
操作量の修正量を算出する構成を採るものであることか
ら、制御対象の持つ応答特性に忠実な制御規則を設定で
きるようになるとともに、制御装置の構築を短時間で実
行できるようになるのである。
【図面の簡単な説明】
【図1】本発明の原理説明図である。
【図2】本発明の一実施例である。
【図3】実施例で用いた倒立振子の説明図である。
【図4】実施例で用いた倒立振子の運動方程式の説明図
である。
【図5】ニューラルネットワークの構成図である。
【図6】シミュレーションデータの説明図である。
【図7】シミュレーションデータの説明図である。
【図8】シミュレーションデータの説明図である。
【図9】シミュレーションデータの説明図である。
【図10】シミュレーションデータの説明図である。
【図11】シミュレーションデータの説明図である。
【図12】本発明の他の実施例を説明する図である。
【図13】本発明の他の実施例の構成図である。
【図14】図13に示した実施例の変形例を示す構成図
である。
【符号の説明】
1 データ処理装置 2 学習処理装置 3 制御対象 4 目標値設定装置 5 仮想目標管理装置 6 操作修正量計算装置 7 第1の差分器 8 第2の差分器
フロントページの続き (56)参考文献 特開 平2−93708(JP,A) 池田直人、外2名、「多層ネットワー クによる倒立振子の安定化学習制御」、 システム制御情報学会論文誌、システム 制御情報学会、平成2年12月15日、第3 巻、第12号、P.405−413

Claims (12)

    (57)【特許請求の範囲】
  1. 【請求項1】 可変的な信号変換機能を備えて、教師信
    号群が与えられるときに、該信号変換機能を該教師信号
    群の持つ入出力特性を実現するものに設定可能とする構
    成を採るデータ処理装置(1)と、 制御対象の所望の制御状態を実現するために得られてい
    る先験的知識であって、制御状態量とその目標値との
    係を表す該先験的知識を管理する仮想目標管理装置
    (5)と、 制御操作量が与えられるときに、制御対象若しくはその
    制御対象モデルの持つ制御状態量と、該制御状態量に対
    応して上記仮想目標管理装置(5)の管理データから特
    定される制御状態量の仮想的な目標値とから、所望の制
    御状態を実現するために必要となる該制御操作量の修正
    量を算出する操作修正量計算装置(6)とを備え、 上記データ処理装置(1)に入力を与えるとともに、該
    入力に対応する出力を制御操作量として扱って制御対象
    若しくはその制御対象モデルに与え、かつ、そのときの
    上記操作修正量計算装置(6)からの修正量に従って、
    該制御操作量を修正していくことで教師信号を得て、そ
    の得た教師信号に従って、上記信号変換機能を設定して
    いくことで、上記データ処理装置(1)を所望の制御状
    態を実現するための制御装置として構築していく制御装
    置構築システムであって、 上記データ処理装置(1)は、制御対象若しくはその制
    御対象モデルの出力する制御状態量と、制御目標となる
    制御状態量との差分値若しくは該差分値から得られる
    を入力していく構成を採るとともに、上記仮想目標管理
    装置(5)は、制御状態量とその目標値との差分値をパ
    ラメータにして制御状態量とその目標値との関係の先験
    的知識を管理するよう構成されてなることを特徴とする
    制御装置構築処理システム。
  2. 【請求項2】 請求項1記載の制御装置構築処理システ
    ムにおいて、操作修正量計算装置(6)は、制御対象若
    しくはその制御対象モデルの持つ制御状態量と、仮想目
    標管理装置(5)の出力する仮想的な目標値との差分値
    に比例係数を乗ずることで、制御操作量の修正量を算出
    するよう構成されてなることを特徴とする制御装置構築
    処理システム。
  3. 【請求項3】 請求項1又は2記載の制御装置構築処理
    システムにおいて、データ処理装置(1)は、1つ又は
    複数の入力と該入力に対して乗算されるべき内部状態値
    とを受け取って積和値を得るとともに、該積和値を所定
    の関数によって変換して出力値を得る基本ユニットの内
    部結合により構成されるネットワーク構造部により構成
    されることを特徴とする制御装置構築処理システム。
  4. 【請求項4】 請求項1又は2記載の制御装置構築処理
    システムにおいて、データ処理装置(1)は、制御状態
    量と制御操作量との間の定性的なデータ関係をIF−T
    HENルールで記述するとともに、該IF−THENル
    ールに記述される前記状態量及び制御操作量の定性属性
    をメンバシップ関数で記述するファジィ装置により構成
    されることを特徴とする制御装置構築処理システム。
  5. 【請求項5】 第1の制御状態量に対応する第1の変数
    の現在値と目標値との差分から予め定められた仮想目標
    曲線に従って第2の制御状態量に対応する第2の変数に
    関する仮想目標値を算出する仮想目標管理手段(5)
    と、 前記得られた第2の変数に関する仮想目標値と現在の制
    御対象の出力値である第1と第2の変数とを用いて制御
    対象の入力信号の修正量を計算する操作修正量計算手段
    (6)と、 制御対象に与える現在の入力信号と前記制御対象の入力
    信号の前記修正量とから新しい教師信号を形成する第1
    の演算手段(8)と、 制御対象の第1、第2の変数の現在値と第1、第2の変
    数の目標値との差分値を計算する第2の演算手段(7)
    と、 前記差分値を入力し前記教師信号を用いて前記第1の変
    数と第2の変数との関係を前記仮想目標管理手段(5)
    で定められたデータ依存関係が結ばれるように学習し、
    且つまた、前記制御対象が目標値設定手段で与えられた
    目標値になったときも前記仮想目標管理手段(5)で設
    定されたデータ依存関係が保たれるように前記教師信号
    を使って学習し、実行時には学習結果に基づいて前記第
    2の演算手段(7)からの差分値に対する応答結果を前
    記制御対象に与えることにより、前記制御対象が、前記
    与えられた目標値において所望の目的が達せられるよう
    に制御する学習機能を有する制御手段(1,2,10)
    とからなることを特徴とする制御装置構築処理システ
    ム。
  6. 【請求項6】 請求項5記載の制御装置構築処理システ
    ムにおいて、前記制御手段はニューラルネットワークか
    ら構成されることを特徴とする制御装置構築処理システ
    ム。
  7. 【請求項7】 請求項6記載の制御装置構築処理システ
    ムにおいて、前記ニューラルネットワークはバックプロ
    パゲーションアルゴリズムによって学習することを特徴
    とする制御装置構築処理システム。
  8. 【請求項8】 請求項5記載の制御装置構築処理システ
    ムにおいて、複数の 仮想目標曲線に対応して前記制御手段を複数個
    、現在の制御対象からの出力により、前記複数の制御
    手段の1つを選択する手段をさらに備えることを特徴と
    する制御装置構築処理システム。
  9. 【請求項9】 請求項5記載の制御装置構築処理システ
    ムにおいて、 前記仮想目標曲線を複数の仮想目標曲線を選択的に用い
    て生成する手段をさらに備えることを特徴とする制御装
    置構築処理システム。
  10. 【請求項10】 制御対象を与えられた目標値へ制御す
    るために制御変数の一部または全部を、経験に基づく
    数の仮想的な目標曲線によって表す仮想目標管理部と、
    前記複数の仮想目標曲線のうちの一つの曲線上の仮想目
    標値を実現するような制御対象への入力を設定する制御
    部と、仮想目標値と制御対象の現在の出力値とを用いて
    制御対象の入力信号の修正量を計算する操作修正量計算
    手段と、 制御対象に与える現在の入力信号と前記制御対象の入力
    信号の前記修正量とから新しい制御対象の入力信号を形
    成する演算手段と、 該制御部に前記仮想目標管理部が算出した仮想目標値を
    実現できる制御対象の現在の制御状態量に関する入力と
    前記制御対象の入力に与える出力との入出力関係を学習
    させる学習処理手段とからなることを特徴とする制御装
    置。
  11. 【請求項11】 請求項10記載の制御装置において、前記制御部は、前記 複数の仮想目標曲線の各々を実現で
    きる前記入出力関係を学習する複数の制御ユニットを含
    み、制御対象の制御状態量によって、前記複数の制御
    ニットのいずれかを選択する手段をさらに備えることを
    特徴とする制御装置。
  12. 【請求項12】 請求項10記載の制御装置において、前記学習処理手段は、 制御対象の制御状態量によって、
    前記複数の仮想目標曲線を選択的に用いて、該仮想目標
    値を実現できる前記入出力関係を前記制御部に学習させ
    ることを特徴とする制御装置。
JP3281741A 1990-10-30 1991-10-28 制御装置構築処理システム Expired - Fee Related JP2723720B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3281741A JP2723720B2 (ja) 1990-10-30 1991-10-28 制御装置構築処理システム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2-292449 1990-10-30
JP29244990 1990-10-30
JP3281741A JP2723720B2 (ja) 1990-10-30 1991-10-28 制御装置構築処理システム

Publications (2)

Publication Number Publication Date
JPH056204A JPH056204A (ja) 1993-01-14
JP2723720B2 true JP2723720B2 (ja) 1998-03-09

Family

ID=26554306

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3281741A Expired - Fee Related JP2723720B2 (ja) 1990-10-30 1991-10-28 制御装置構築処理システム

Country Status (1)

Country Link
JP (1) JP2723720B2 (ja)

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
池田直人、外2名、「多層ネットワークによる倒立振子の安定化学習制御」、システム制御情報学会論文誌、システム制御情報学会、平成2年12月15日、第3巻、第12号、P.405−413

Also Published As

Publication number Publication date
JPH056204A (ja) 1993-01-14

Similar Documents

Publication Publication Date Title
Xiao et al. Adaptive control barrier functions
CN107203134B (zh) 一种基于深度卷积神经网络的前车跟随方法
JP3436320B2 (ja) 非線形システムの出力軌道と動特性の制御方法および装置
JP2004249812A (ja) 車両運動モデルの生成装置および車両運動モデルの生成方法
Izadbakhsh et al. Robust adaptive impedance control of robot manipulators using Szász–Mirakyan operator as universal approximator
CN110442129B (zh) 一种多智能体编队的控制方法和系统
Solgi et al. Variable structure fuzzy wavelet neural network controller for complex nonlinear systems
Smith et al. An algorithm for automated fuzzy logic controller tuning
Qazani et al. Optimising control and prediction horizons of a model predictive control-based motion cueing algorithm using butterfly optimization algorithm
Zeman et al. Control of a flexible-joint robot using neural networks
Chen et al. Flocking dynamics for multi-agent system with measurement delay
CN113043251A (zh) 一种机器人示教再现轨迹学习方法
JP2009129366A (ja) 車両の感性推定システム
JP2723720B2 (ja) 制御装置構築処理システム
CN112947123A (zh) 一种抑制多源干扰的外骨骼机器人跟踪控制方法和系统
WO2021186500A1 (ja) 学習装置、学習方法、及び、記録媒体
CN112965487A (zh) 基于策略迭代的移动机器人轨迹跟踪控制方法
JP7246175B2 (ja) 推定装置、訓練装置、推定方法及び訓練方法
Wang et al. Tracking moving target for 6 degree-of-freedom robot manipulator with adaptive visual servoing based on deep reinforcement learning PID controller
Ak et al. Three link robot control with fuzzy sliding mode controller based on RBF neural network
JP2021143882A (ja) 自動操縦ロボットを制御する操作推論学習モデルの学習システム及び学習方法
JPH08129420A (ja) トンネルロボットの方向・位置制御装置及びn次元線形離散時間系確率モデルの構成方法
WO2023216581A1 (zh) 控制器训练方法、轨迹跟踪方法、终端设备以及存储介质
Marão et al. Deep reinforcement learning control of an autonomous wheeled robot in a challenge task: combined visual and dynamics sensoring
Kim et al. Control of Glass Furnace System using the Linearization of Neural Network

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19971118

LAPS Cancellation because of no payment of annual fees