JPH0377101A - ニューラルネットワークを用いた最適レギュレータ - Google Patents
ニューラルネットワークを用いた最適レギュレータInfo
- Publication number
- JPH0377101A JPH0377101A JP21306389A JP21306389A JPH0377101A JP H0377101 A JPH0377101 A JP H0377101A JP 21306389 A JP21306389 A JP 21306389A JP 21306389 A JP21306389 A JP 21306389A JP H0377101 A JPH0377101 A JP H0377101A
- Authority
- JP
- Japan
- Prior art keywords
- neural network
- plant
- evaluation function
- output
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 81
- 230000006870 function Effects 0.000 claims abstract description 49
- 238000011156 evaluation Methods 0.000 claims abstract description 36
- 230000006978 adaptation Effects 0.000 claims abstract description 12
- 239000011159 matrix material Substances 0.000 claims description 14
- 230000003044 adaptive effect Effects 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 2
- 238000013507 mapping Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 13
- 238000000034 method Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 239000013598 vector Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000003607 modifier Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- IUTDVGSJRKTQPM-UHFFFAOYSA-N [4-(1,3-benzothiazol-2-yl)phenyl]boronic acid Chemical compound C1=CC(B(O)O)=CC=C1C1=NC2=CC=CC=C2S1 IUTDVGSJRKTQPM-UHFFFAOYSA-N 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Landscapes
- Feedback Control In General (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔産業上の利用分野〕
この発明は、ロボット、a業用機械、プラント等に用い
られている制御系一般に関連するもので、安定な制御形
であるニューラルネットワークを用いた最適レギュレー
タに関するものである。
られている制御系一般に関連するもので、安定な制御形
であるニューラルネットワークを用いた最適レギュレー
タに関するものである。
(従来の技術)
現代制御理論の大きな成果として最適レギュレータがあ
る。最適レギュレータは、評価基準としてプラント状態
量および制御入力に関する二次形式評価関数を用い、そ
れを最小にする制御(最適制御)として状態フィードバ
ック制御を求めるものである。最適レギュレータの工学
的意義は、状態フィードバックというその制御則の簡単
さにあるだけでなく、その安定性がシステムの特性変動
に対して損なわれ難いという「ロバスト性」を有してい
る点にある。
る。最適レギュレータは、評価基準としてプラント状態
量および制御入力に関する二次形式評価関数を用い、そ
れを最小にする制御(最適制御)として状態フィードバ
ック制御を求めるものである。最適レギュレータの工学
的意義は、状態フィードバックというその制御則の簡単
さにあるだけでなく、その安定性がシステムの特性変動
に対して損なわれ難いという「ロバスト性」を有してい
る点にある。
しかし、従来の制御理論から構成される最適レギュレー
タは、線形プラントのみを対象にしている。これを第9
図に示したブロック線図を用いて、以下に概要を述べる
。
タは、線形プラントのみを対象にしている。これを第9
図に示したブロック線図を用いて、以下に概要を述べる
。
第9図で、1は制御対象であるプラント、2はゲインマ
トリクスで、評価関数とリカッチの方程式により最適状
態フィードバックゲインGが支配される。
トリクスで、評価関数とリカッチの方程式により最適状
態フィードバックゲインGが支配される。
時刻kにおけるプラント1の制御量、状態量、出力およ
びエラーをそれぞれU(k)X (k)、Y (k)、
eとすると、第10図(a)、(b)に示すように、一
連のプラント1の制御操作において、出力Y (k)の
二乗誤差(ハツチング部分)および制御量を最小にする
ような制御量U (k)を作るコントローラを最適レギ
ュレータと呼ぶ。最適レギュレータ型コントローラは、
コンピュータ上でソフトウェアサーボとして実現するか
、もしくは処理速度の向上を図るならば、一部もしくは
全部をハード化した専用制御装置として実現できる。こ
の時、適用対象のプラント1は化学プラント、ロボット
さらには一般の制御系に適用できる。最適レギュレータ
型コントローラを実現する上で重要な要素は、コントロ
ーラを構成する最適状態フィードバックゲインGであり
、この最適状態フィードバックゲインGが得られれば、
プラント1の状態量X (k)または出力誤差e (k
)を用いて、コントローラは上記出力偏差および制御量
を最小にする制御1U(k)を作りだすことができる。
びエラーをそれぞれU(k)X (k)、Y (k)、
eとすると、第10図(a)、(b)に示すように、一
連のプラント1の制御操作において、出力Y (k)の
二乗誤差(ハツチング部分)および制御量を最小にする
ような制御量U (k)を作るコントローラを最適レギ
ュレータと呼ぶ。最適レギュレータ型コントローラは、
コンピュータ上でソフトウェアサーボとして実現するか
、もしくは処理速度の向上を図るならば、一部もしくは
全部をハード化した専用制御装置として実現できる。こ
の時、適用対象のプラント1は化学プラント、ロボット
さらには一般の制御系に適用できる。最適レギュレータ
型コントローラを実現する上で重要な要素は、コントロ
ーラを構成する最適状態フィードバックゲインGであり
、この最適状態フィードバックゲインGが得られれば、
プラント1の状態量X (k)または出力誤差e (k
)を用いて、コントローラは上記出力偏差および制御量
を最小にする制御1U(k)を作りだすことができる。
以下に最適状態フィードバックゲインGを求める方法を
示す。線形プラントの状態方程式は次式で与えられる。
示す。線形プラントの状態方程式は次式で与えられる。
X (k+1)=AX (k)+BU (k)Y (
k) =CX (k) ”’−
(1)ただし、最適レギュレータは状態量をゼロに移行
させるように働くので、実際のプラント1では、目標値
Ydと平衡状態の状態:ffc X aおよび制御m
U dとし、次式に示す誤差を用いて誤差状態方程式で
MWi mするのが便利である。
k) =CX (k) ”’−
(1)ただし、最適レギュレータは状態量をゼロに移行
させるように働くので、実際のプラント1では、目標値
Ydと平衡状態の状態:ffc X aおよび制御m
U dとし、次式に示す誤差を用いて誤差状態方程式で
MWi mするのが便利である。
x (k) =X (k) −Xd
u (k) =U (k) −1Jd
e (k)=Y (k) −Yd ・・・−(2
)この時、誤差方程式は次式で与えられる。
)この時、誤差方程式は次式で与えられる。
x (k+1)=Ax (k)+Bu (k)e (k
) =Cx (k) ・・・・” (3
)ここで、A、B、Cはプラント1の特徴を示すマトリ
ックス、x、u、eはベクトルである。
) =Cx (k) ・・・・” (3
)ここで、A、B、Cはプラント1の特徴を示すマトリ
ックス、x、u、eはベクトルである。
二次形式評価関数を次式で定義する。
J−Σ [e”(k+1)Qe(k+1)+u”(k
)Ru(k)]・”・・・ (4)kg+ ここで、Q、Rは任意の正定価マトリックス、eT、u
Tはベクトルe、uの転置ベクトルである。
)Ru(k)]・”・・・ (4)kg+ ここで、Q、Rは任意の正定価マトリックス、eT、u
Tはベクトルe、uの転置ベクトルである。
最適レギュレータは、上記の二次形式評価関数を最小に
するような状態フィードバックゲインGを求める問題で
ある。この時、制御量u (k)は次式で与えられる。
するような状態フィードバックゲインGを求める問題で
ある。この時、制御量u (k)は次式で与えられる。
u (k)=−Gx (k)=−GC−’e (k)・
・・・・・ (5) 最適状態フィードバックゲインGは下記のプロセスで求
められる。
・・・・・ (5) 最適状態フィードバックゲインGは下記のプロセスで求
められる。
G=D−’B” PA ・・・・・・
(6)D=R+BTPB ・・・・
・・ (7)第 (6)式および第 (7)式に含まれ
るPは、下記のリカッチの方程式の半正定唯−解Pで与
えられる。
(6)D=R+BTPB ・・・・
・・ (7)第 (6)式および第 (7)式に含まれ
るPは、下記のリカッチの方程式の半正定唯−解Pで与
えられる。
P=Q+AT PA−AT PBD−’BT PA・・
・・・・ (8) 上記に示すように、最適状態フィードバックゲインGは
第(8)式のマトリクス方程式の解を求める煩雑な作業
が必要である。このような煩雑な作業を行っても、適用
対象は第 (3)式に示すような線形システムのみであ
り、最適制御入力も簡単な線形型のみであった。
・・・・ (8) 上記に示すように、最適状態フィードバックゲインGは
第(8)式のマトリクス方程式の解を求める煩雑な作業
が必要である。このような煩雑な作業を行っても、適用
対象は第 (3)式に示すような線形システムのみであ
り、最適制御入力も簡単な線形型のみであった。
上記に示すように、従来の制御理論から生れた最適レギ
ュレータは、線形プラントのみを対象にしている。しか
し、一般のプラントは非線形要素を含む非線形プラント
であり、上記に示した現代制御理論の成果をそのまま適
用できない欠点があった。また、線形プラントに対して
も最適ゲインを定める時に非線形リカッチの方程式とい
う難解な方程式を解く作業が必要であった。
ュレータは、線形プラントのみを対象にしている。しか
し、一般のプラントは非線形要素を含む非線形プラント
であり、上記に示した現代制御理論の成果をそのまま適
用できない欠点があった。また、線形プラントに対して
も最適ゲインを定める時に非線形リカッチの方程式とい
う難解な方程式を解く作業が必要であった。
この発明の目的は、ニューラルネットワークの非線形写
像能力および学習能力を用い、現実の非線形プラントに
適用できる最適レギュレータを実現し、さらに、従来の
リカッチ方程式の解法をニューラルネットワークの学習
能力を用いることによって自動的に行うことができる最
適レギュレータを)是イ共することにある。
像能力および学習能力を用い、現実の非線形プラントに
適用できる最適レギュレータを実現し、さらに、従来の
リカッチ方程式の解法をニューラルネットワークの学習
能力を用いることによって自動的に行うことができる最
適レギュレータを)是イ共することにある。
〔課題を解決するための手段)
この発明にかかる請求項 (1)に記載のニューラルネ
ットワークを用いた最適レギュレータの発明は、コント
ローラとして、ニューラルネットワーク部と評価関数型
適応部とで構成したものである。
ットワークを用いた最適レギュレータの発明は、コント
ローラとして、ニューラルネットワーク部と評価関数型
適応部とで構成したものである。
また、請求項 (2)に記載の発明は、評価関数型適応
部は、ニューラルネットワーク部の出力をゲインマトリ
クスの要素と対応させてニューラルネットワークの出力
を用いてゲインマトリクスを調整するものである。
部は、ニューラルネットワーク部の出力をゲインマトリ
クスの要素と対応させてニューラルネットワークの出力
を用いてゲインマトリクスを調整するものである。
ざらに、請求項 (3)に記載の発明は、記憶部を設け
、さらに評価関数型適応部に初期時刻から有限時刻まで
のプラントの出力偏差および定常状態からの制御量偏差
の二次形式を加え合わせたものを評価関数Jとして用い
、ニューラルネットワークの重みWlj要素で評価関数
Jを微分した値を計算し、次ステップのニューラルネッ
トワークの重み要素の変更量を微分した値の符号と変え
た量に比例するように変更する機能を具備させたもので
ある。
、さらに評価関数型適応部に初期時刻から有限時刻まで
のプラントの出力偏差および定常状態からの制御量偏差
の二次形式を加え合わせたものを評価関数Jとして用い
、ニューラルネットワークの重みWlj要素で評価関数
Jを微分した値を計算し、次ステップのニューラルネッ
トワークの重み要素の変更量を微分した値の符号と変え
た量に比例するように変更する機能を具備させたもので
ある。
(作用)
この発明にかかる請求項 (1)に記載の発明は、ニュ
ーラルネットワークをコントローラに用いたので、非線
形プラントにも適用できる。
ーラルネットワークをコントローラに用いたので、非線
形プラントにも適用できる。
また、請求項 (2)に記載の発明は、ゲインマトリク
スの調整をニューラルネットワーク部が行うので、初期
状態として制御系を安定にするゲインを見つけ易い。
スの調整をニューラルネットワーク部が行うので、初期
状態として制御系を安定にするゲインを見つけ易い。
さらに、請求項(3)に記載の発明は、数時刻前までの
状態量を用いて最適レギュレータが構成され、ニューラ
ルネットワーク内部で誤差が自動的に生成され、学習が
行われる。
状態量を用いて最適レギュレータが構成され、ニューラ
ルネットワーク内部で誤差が自動的に生成され、学習が
行われる。
第1図にこの発明によるニューラルネットワークを用い
た最適レギュレータの原理を示すブロック図を示す。こ
の図で、1はプラント、10はコントローラで、ニュー
ラルネットワーク部3と適応部4とからなる。
た最適レギュレータの原理を示すブロック図を示す。こ
の図で、1はプラント、10はコントローラで、ニュー
ラルネットワーク部3と適応部4とからなる。
この図に示すように、ニューラルネットワークを用いた
コントローラ10は、可調節系を構成するニューラルネ
ットワーク部3とその可調節系を学習させる適応部4と
から構成される。ニューラルネットワーク部3の可調節
系は、非飽和関数のシグモイド関数を含んでいるので非
線形の写像能力を有しており、非線形プラントの影響を
コントローラ10の内部で表現する能力を有している。
コントローラ10は、可調節系を構成するニューラルネ
ットワーク部3とその可調節系を学習させる適応部4と
から構成される。ニューラルネットワーク部3の可調節
系は、非飽和関数のシグモイド関数を含んでいるので非
線形の写像能力を有しており、非線形プラントの影響を
コントローラ10の内部で表現する能力を有している。
また、可調節系を学習させる適応部をプラント1の状態
量x (k)と制御入力から構成される二次形式評価関
数を最小にするように設定すると、適応部4で作られる
教師信号は自動的に最適レギュレータの最適フィードバ
ックゲインに対応する重みマトリクスを、ニューラルネ
ット型コントローラ内部に生成し、非線形プラント用の
最適レギュレータを実現することができる。このニュー
ラルネットワーク型最適レギュレータは、コンピュータ
または専用の制御装置で構成され、ニューラルネットワ
ークはソフトウェアまたはハードウェアで構成される。
量x (k)と制御入力から構成される二次形式評価関
数を最小にするように設定すると、適応部4で作られる
教師信号は自動的に最適レギュレータの最適フィードバ
ックゲインに対応する重みマトリクスを、ニューラルネ
ット型コントローラ内部に生成し、非線形プラント用の
最適レギュレータを実現することができる。このニュー
ラルネットワーク型最適レギュレータは、コンピュータ
または専用の制御装置で構成され、ニューラルネットワ
ークはソフトウェアまたはハードウェアで構成される。
第2図にニューラルネットワークを用いた最適レギュレ
ータ型コントローラの第1の実施例のブロック図を示す
。このコントローラ10は、通常、ディジタルコビュー
タを用いて実現される場合が多いので、ディジタルコン
トロールを例にとって説明を加える。
ータ型コントローラの第1の実施例のブロック図を示す
。このコントローラ10は、通常、ディジタルコビュー
タを用いて実現される場合が多いので、ディジタルコン
トロールを例にとって説明を加える。
この実施例では、最も一般的な多入力多出力系のプラン
ト1を例にとって説明を加える。ただし、制御対象は面
観測、可制御とする。ここで、プラント1の出力誤差を
e= (e、、・・・・・・en)、入力をu= (u
l 、・・・・・・、U、)とする。なお、5は記憶部
である。
ト1を例にとって説明を加える。ただし、制御対象は面
観測、可制御とする。ここで、プラント1の出力誤差を
e= (e、、・・・・・・en)、入力をu= (u
l 、・・・・・・、U、)とする。なお、5は記憶部
である。
第3図にコントローラ10の内部に作られるニューラル
ネットワーク部3の入出力関係を示すが、ニューラルネ
ットワーク部3の重みをWIIJまたはw 0.、とす
ると、上添字Iおよび○はそれぞれ入力層と中間層およ
び中間層と出力層間の重みを示しており、下添字ijは
i番目のユニットから次層のj番目のユニット間の重み
を示している。ニューラルネットワーク部3は、第4図
に示す形の飽和関数のシグモイド関数を用いて非線形写
像能力を有しているので、下記に示す非線形フィードバ
ック型を構成できる。
ネットワーク部3の入出力関係を示すが、ニューラルネ
ットワーク部3の重みをWIIJまたはw 0.、とす
ると、上添字Iおよび○はそれぞれ入力層と中間層およ
び中間層と出力層間の重みを示しており、下添字ijは
i番目のユニットから次層のj番目のユニット間の重み
を示している。ニューラルネットワーク部3は、第4図
に示す形の飽和関数のシグモイド関数を用いて非線形写
像能力を有しているので、下記に示す非線形フィードバ
ック型を構成できる。
u (k) =G (e (k) 、 W) −
” (9)第 (9)式で示されるフィードバック型
の利点は、第 (2)式の線形型とは異なる下記に示す
一般的な非線形プラントの場合に効果を発揮する。
” (9)第 (9)式で示されるフィードバック型
の利点は、第 (2)式の線形型とは異なる下記に示す
一般的な非線形プラントの場合に効果を発揮する。
x (k+1) =f (x (k) 、 u (k
) )・・・・・・(lO) 評価関数Jとして、下記の二次形式を用い、その値が最
小になるようにニューラルネットワーク部3の重みを修
正する。
) )・・・・・・(lO) 評価関数Jとして、下記の二次形式を用い、その値が最
小になるようにニューラルネットワーク部3の重みを修
正する。
J (p) =″X[a”(k+1)Qe(k+1)+
u”(k)Ru(k)]−(12)111 ここで、pは学習の回数を示しており、p回目の学習後
のエラーと制御量を用いた評価関数Jとなっている。重
みの修正剤は、文献“ParallelDistrib
uted Processing″著者ランメルハート
およびうクレ−ラントに示されているデルタルールを用
い、下記に示す修正剤で学習を行わせる。
u”(k)Ru(k)]−(12)111 ここで、pは学習の回数を示しており、p回目の学習後
のエラーと制御量を用いた評価関数Jとなっている。重
みの修正剤は、文献“ParallelDistrib
uted Processing″著者ランメルハート
およびうクレ−ラントに示されているデルタルールを用
い、下記に示す修正剤で学習を行わせる。
Wij (+)”1)・Wム」(p)+αΔWij(P
) ・・・・・・(13)ΔL」(p)−aJ(
p)/ 73Wij(p) −・・−・−(14
)ただし、αは修正剤のゲインである。
) ・・・・・・(13)ΔL」(p)−aJ(
p)/ 73Wij(p) −・・−・−(14
)ただし、αは修正剤のゲインである。
第(14)式の形を変形し、e (k)、 u (k)
およびW(p)の関数形で与える。
およびW(p)の関数形で与える。
′;3J (p) / ’a Wij (p)−Σ [
eT(k+1)Q (a e(k+1)/ ’a Wi
j (p) ) +に!1 u”(k)Ra、(k)/ 9w+j(p)]−Σ [
eT(k+1)Qa e(k+1)/ 3 u(k)
・’a u(k)k=1 / ’a Lj(p)+u”(k)R′au(k)/
a Wij ([))]Σ (eT(k+1)Q23
e(k+1)/ ’a u(k)+u”(k)R1kヨ
l ’a u (k) / 3 Wij (p)
・・・・・・(15)ここで、3 e (k
+1)/ 3 u (k)は制御量が変化した時のエラ
ー変化量であり、プラント1のダイナミックスと密接に
関係する。プラント1のダイナミックスが次式で与えら
れるように既知の場合は容易に求めることができる。
eT(k+1)Q (a e(k+1)/ ’a Wi
j (p) ) +に!1 u”(k)Ra、(k)/ 9w+j(p)]−Σ [
eT(k+1)Qa e(k+1)/ 3 u(k)
・’a u(k)k=1 / ’a Lj(p)+u”(k)R′au(k)/
a Wij ([))]Σ (eT(k+1)Q23
e(k+1)/ ’a u(k)+u”(k)R1kヨ
l ’a u (k) / 3 Wij (p)
・・・・・・(15)ここで、3 e (k
+1)/ 3 u (k)は制御量が変化した時のエラ
ー変化量であり、プラント1のダイナミックスと密接に
関係する。プラント1のダイナミックスが次式で与えら
れるように既知の場合は容易に求めることができる。
e (k+1)=g (e (k)、 u (k) )
・・・・・・(16) すなわち、次式で与えらえる。
・・・・・・(16) すなわち、次式で与えらえる。
ae (k+1)/au (k)=3g/Fu (k)
・・・・・・(17) しかし、プラント1のダイナミックスが未知の場合は、
測定値を用いて近似値を求めることができる。すなわち
、第(17)式のマトリックスの要素(i、j)は近似
的に次式で与えられる。
・・・・・・(17) しかし、プラント1のダイナミックスが未知の場合は、
測定値を用いて近似値を求めることができる。すなわち
、第(17)式のマトリックスの要素(i、j)は近似
的に次式で与えられる。
(3J(p)/ aW+j(1))) +」・(L+
(k+1)−ei(k))/ (u、+ (k) −u
J (k−1)) ・・・・” (18
)次に’a u (k)/ W+」(p)を求める。ま
ず、最初にニューラルネットワーク部3の人出力関係を
示す。
(k+1)−ei(k))/ (u、+ (k) −u
J (k−1)) ・・・・” (18
)次に’a u (k)/ W+」(p)を求める。ま
ず、最初にニューラルネットワーク部3の人出力関係を
示す。
入力層(I)、中間層(h)、出力層(0)の第jユニ
ットの入力1」と出力Ojはそれぞれ次式で与えられる
。O’J= I ’J=eJ (ic)Ihj=Σw
’ko’に、 □h、=S(IhJ)10j=ΣW0k
」Ohk、00j=S(Ioj)uj (k)=○0j
・・・・・・(19)ただし、Sは
シグモイド関数等の飽和関数を示している。
ットの入力1」と出力Ojはそれぞれ次式で与えられる
。O’J= I ’J=eJ (ic)Ihj=Σw
’ko’に、 □h、=S(IhJ)10j=ΣW0k
」Ohk、00j=S(Ioj)uj (k)=○0j
・・・・・・(19)ただし、Sは
シグモイド関数等の飽和関数を示している。
第(19)式の関係を用いて、uj(k) とej(k
)の関係を示す。
)の関係を示す。
uj(k)−S (ΣW0kJS(ΣW’kJ ek(
k))・・・・・・(20) 最初に、中間層から出力層のau(k)/aW0k」(
p)を求める。第j番目の出力に着目すると次の関係が
得られる。
k))・・・・・・(20) 最初に、中間層から出力層のau(k)/aW0k」(
p)を求める。第j番目の出力に着目すると次の関係が
得られる。
9 up(k) / 9W’iu = S’(I 0J
) Ohl。
) Ohl。
・・・・・・(21)
ただし、S′(x)=dS/dx
次に、入力層と中間層の3u (k)/′aW’hj(
p)を求める。第j番目の出力に同様に着目すると次の
関係が得らえる。
p)を求める。第j番目の出力に同様に着目すると次の
関係が得らえる。
auj(k)/FW’kj=S”(I’J)S’(Ih
J)ej(k) ・・・・・・
(22)以上に示すように、第(15)弐〜第(22)
式の計算結果を用いることにより、修正剤を下記の関数
として与えることができる。
J)ej(k) ・・・・・・
(22)以上に示すように、第(15)弐〜第(22)
式の計算結果を用いることにより、修正剤を下記の関数
として与えることができる。
ΔWij (1)) = Σ ΔW (e (k+
1)、e (k)、u (k+i)。
1)、e (k)、u (k+i)。
k!+
“(k)、W・・(p)) ・・・・・・(2
3)第(13)式および第(23)式を用いることによ
り、評価関数Jを最小にするように、ニューラルネット
ワークを学習させることができる。
3)第(13)式および第(23)式を用いることによ
り、評価関数Jを最小にするように、ニューラルネット
ワークを学習させることができる。
上記のアルゴリズムを用いたニューラルネットワークを
教示する方法を示す。まず最初に、平衡状態を求める。
教示する方法を示す。まず最初に、平衡状態を求める。
目標値Y、は与えられるので、制御′MkUdを求める
方法を示す。プラント1のダイナミックスが既知の場合
は、第(15)式より平衡状態の方程式は次式で与えら
れる。
方法を示す。プラント1のダイナミックスが既知の場合
は、第(15)式より平衡状態の方程式は次式で与えら
れる。
g (Ud) =O・・・・・・(24)第(24)式
の方程式Udについて解くと、平衡状態の制御量Udが
求められる。また、プラント1のダイナミックスが未知
の場合は、適当な制御系を安定にできる初期値をニュー
ラルネットワークに与え、平衡状態になった時の制御量
をUdとすると、学習の各ステップでの出力誤差e (
k)および制御量u (k)が第 (2)式より求めら
れる。
の方程式Udについて解くと、平衡状態の制御量Udが
求められる。また、プラント1のダイナミックスが未知
の場合は、適当な制御系を安定にできる初期値をニュー
ラルネットワークに与え、平衡状態になった時の制御量
をUdとすると、学習の各ステップでの出力誤差e (
k)および制御量u (k)が第 (2)式より求めら
れる。
上記アルゴリズムとブロック線図の関係を以下に述べる
。コントローラ10の内部のニューラルネットワーク部
3として、第3図のニューラルネットワーク部3を用い
、一連の制御動作時の誤差e (k)および制御量u
(k)の記憶を記憶部5で行い、上記学習アルゴリズム
として第(13)式と第(23)式のマトリックス修正
則を評価関数型適応部4Aとして用いることにより、最
適レギュレータが構成できる。
。コントローラ10の内部のニューラルネットワーク部
3として、第3図のニューラルネットワーク部3を用い
、一連の制御動作時の誤差e (k)および制御量u
(k)の記憶を記憶部5で行い、上記学習アルゴリズム
として第(13)式と第(23)式のマトリックス修正
則を評価関数型適応部4Aとして用いることにより、最
適レギュレータが構成できる。
次に、pステップの学習プロセスを例にとり、この発明
の学習方法を説明する。(p−1)ステップまでの学習
で得られたニューラルネットワークの重みを用いて、一
連の制御動作を行わせて誤差e (k)および制御量u
(k)を記憶部5にメモリする。評価関数型適応部4
Aは第(12)式の評価関数Jを最小にするように、上
記に示した重み修正アルゴリズムで新たなpステップ目
の重み決定をする。この手順を繰り返すことにより、重
みW口(p)が収束するまで学習を繰り返す。この重み
が収束した時に、ニューラルネットワーク部3は非線形
最適レギュレータを実現できる。
の学習方法を説明する。(p−1)ステップまでの学習
で得られたニューラルネットワークの重みを用いて、一
連の制御動作を行わせて誤差e (k)および制御量u
(k)を記憶部5にメモリする。評価関数型適応部4
Aは第(12)式の評価関数Jを最小にするように、上
記に示した重み修正アルゴリズムで新たなpステップ目
の重み決定をする。この手順を繰り返すことにより、重
みW口(p)が収束するまで学習を繰り返す。この重み
が収束した時に、ニューラルネットワーク部3は非線形
最適レギュレータを実現できる。
第5図および第6図は第2の実施例であり、フィードバ
ックの情報として第1の実施例とは異なり、数時刻前ま
での状態量を用いて最適レギュレータを構成した例であ
る。本実施例の特徴は、高次項の影響を含んだ次数が未
知のプラントに有効である。この時、最適レギュレータ
の形は第1の実施例の第 (9)式とは異なり、次式の
形で与えられる。
ックの情報として第1の実施例とは異なり、数時刻前ま
での状態量を用いて最適レギュレータを構成した例であ
る。本実施例の特徴は、高次項の影響を含んだ次数が未
知のプラントに有効である。この時、最適レギュレータ
の形は第1の実施例の第 (9)式とは異なり、次式の
形で与えられる。
u (k) =G (e (k) 、 e (k −
1) ・・・u (k −1) 、 u (k−2)
・・・、 w)・・・・・・(24) 第7図は第3の実施例であり、第2の実施例の変形であ
る。フィードバックの情報として誤差を与えるのではな
く、目標値Yd+過去の出力Y(k)、Y (k−1)
、・・・・・・、および制御量U(k−1)、U (k
、−2)、・・・・・・を用いることにより最適レギュ
レータを構成しようとするものである。この実施例の特
徴は、ニューラルネットワークの内部で誤差を自動的に
生成しようとするものである。この時の最適レギュレー
タのかたちは次式となる。
1) ・・・u (k −1) 、 u (k−2)
・・・、 w)・・・・・・(24) 第7図は第3の実施例であり、第2の実施例の変形であ
る。フィードバックの情報として誤差を与えるのではな
く、目標値Yd+過去の出力Y(k)、Y (k−1)
、・・・・・・、および制御量U(k−1)、U (k
、−2)、・・・・・・を用いることにより最適レギュ
レータを構成しようとするものである。この実施例の特
徴は、ニューラルネットワークの内部で誤差を自動的に
生成しようとするものである。この時の最適レギュレー
タのかたちは次式となる。
u (k) =G (Ya 、 Y (k)、 Y (
k 1)・・・・・・、U (k−1)、U (k−
2)・・・・・・、W) ・・・・・・(25) 第8図は第4の実施例であり、第1.第2.第3の実施
例とは異なり、リカッチの方程式の解法なニューラルネ
ットワークで行わせ、その結果を従来の最適レギュレー
タの制御系に用いようとするものである。すなわち、第
9図で説明した最適レギュレータを構成するゲインマト
リックスGをニューラルネットワークで求めようとする
ものである。本実施例は構造的に線形フィードバックし
かできないという欠点を有するが、ニューラルネット型
コントローラとは異なり、初期状態として制御系を安定
にするゲインを見つけやすいという利点を有している。
k 1)・・・・・・、U (k−1)、U (k−
2)・・・・・・、W) ・・・・・・(25) 第8図は第4の実施例であり、第1.第2.第3の実施
例とは異なり、リカッチの方程式の解法なニューラルネ
ットワークで行わせ、その結果を従来の最適レギュレー
タの制御系に用いようとするものである。すなわち、第
9図で説明した最適レギュレータを構成するゲインマト
リックスGをニューラルネットワークで求めようとする
ものである。本実施例は構造的に線形フィードバックし
かできないという欠点を有するが、ニューラルネット型
コントローラとは異なり、初期状態として制御系を安定
にするゲインを見つけやすいという利点を有している。
なお、各請求項と各実施例ならびに図面との対応を示す
と、請求項 (1)は第1の実施例(第2図)に対応し
、請求項(2)は第4の実施例(第8図)に対応し、請
求項 (3)は第2.第3の実施例(第5図、第6図、
第7図)に対応している。
と、請求項 (1)は第1の実施例(第2図)に対応し
、請求項(2)は第4の実施例(第8図)に対応し、請
求項 (3)は第2.第3の実施例(第5図、第6図、
第7図)に対応している。
以上説明したように、この発明にかかる請求項(1)の
発明は、非線形プラントのコントローラとしての最適レ
ギュレータにおいて、入力として目標値、過去のプラン
トの出力、過去の制御入力および目標値からの誤差等を
用いるニューラルネットワーク部と、このニューラルネ
ットワーク部に学習を行わせるためのプラントの出力、
制御入力および目標値からの誤差等から構成される二次
形式評価関数を最小にするようにニューラルネットワー
クの重みを変更し、ニューラルネットワーク部の出力を
非線形プラントの入力として用いる評価関数型適応部と
を備えたので、従来線形プラントに限定されていた最適
レギュレータの適用範囲をこの発明を用いれば非常にフ
レキシブルな非線形最適レギュレータが構成できるので
、非線形プラントにも適用が拡張できる利点を有してい
る。
発明は、非線形プラントのコントローラとしての最適レ
ギュレータにおいて、入力として目標値、過去のプラン
トの出力、過去の制御入力および目標値からの誤差等を
用いるニューラルネットワーク部と、このニューラルネ
ットワーク部に学習を行わせるためのプラントの出力、
制御入力および目標値からの誤差等から構成される二次
形式評価関数を最小にするようにニューラルネットワー
クの重みを変更し、ニューラルネットワーク部の出力を
非線形プラントの入力として用いる評価関数型適応部と
を備えたので、従来線形プラントに限定されていた最適
レギュレータの適用範囲をこの発明を用いれば非常にフ
レキシブルな非線形最適レギュレータが構成できるので
、非線形プラントにも適用が拡張できる利点を有してい
る。
さらに、最適ゲインの調整方法もニューラルネットワー
クの学習によって自動的に行うことができるので、従来
の方法のリカツチの方程式を解くような煩雑な作業を回
避できる利点を有している。
クの学習によって自動的に行うことができるので、従来
の方法のリカツチの方程式を解くような煩雑な作業を回
避できる利点を有している。
また、請求項 (2)に記載の発明は、プラントの出力
、制御入力および目標値からの誤差等から構成される二
次形式評価関数を最小にするようにニューラルネットワ
ークの重みを変更し、ニューラルネットワーク部の出力
をゲインマトリックスの要素と対応させることによりニ
ューラルネットワークの出力を用いてゲインマトリック
スを調整し、その出力を非線形プラントの入力として用
いる評価関数型適応部を備えたので、初期状態として制
御系を安定にするゲインを見つけやすい利点を有する。
、制御入力および目標値からの誤差等から構成される二
次形式評価関数を最小にするようにニューラルネットワ
ークの重みを変更し、ニューラルネットワーク部の出力
をゲインマトリックスの要素と対応させることによりニ
ューラルネットワークの出力を用いてゲインマトリック
スを調整し、その出力を非線形プラントの入力として用
いる評価関数型適応部を備えたので、初期状態として制
御系を安定にするゲインを見つけやすい利点を有する。
さらに、請求項(3)に記載の発明は、前回までの学習
結果によつえ得られたニューラルネットワークの重みを
用い、一連の制御動作を行わせて各サンプリン時刻での
目標値からのプラントの出力偏差および定常状態からの
制御量偏差を、ある有限時刻までについて記憶する記憶
部を設けるとともに、評価関数型適応部は、初期時刻か
ら有限時刻までの該プラントの出力偏差および定常状態
からの制御量偏差の二次形式を加え合わせたものを評価
関数Jとして用い、ニューラルネットワークの重みW1
j要素で評価関数Jを微分した値を、該記憶情報および
ニューラルネットワークの特i5[量を用いて計算し、
次ステップのニューラルネットワークの重み要素の変更
量を微分した値の符号を変えた量に比例するように変更
する機能を具備させたので、ニューラルネットワークの
内部で誤差が自動的に生成できるので、未知のプラント
に有効に適用できる利点を有する。
結果によつえ得られたニューラルネットワークの重みを
用い、一連の制御動作を行わせて各サンプリン時刻での
目標値からのプラントの出力偏差および定常状態からの
制御量偏差を、ある有限時刻までについて記憶する記憶
部を設けるとともに、評価関数型適応部は、初期時刻か
ら有限時刻までの該プラントの出力偏差および定常状態
からの制御量偏差の二次形式を加え合わせたものを評価
関数Jとして用い、ニューラルネットワークの重みW1
j要素で評価関数Jを微分した値を、該記憶情報および
ニューラルネットワークの特i5[量を用いて計算し、
次ステップのニューラルネットワークの重み要素の変更
量を微分した値の符号を変えた量に比例するように変更
する機能を具備させたので、ニューラルネットワークの
内部で誤差が自動的に生成できるので、未知のプラント
に有効に適用できる利点を有する。
第1図はこの発明の原理を示すもので、−船釣なニュー
ラルネットワークを用いたコントローラのブロック線図
、第2図はニューラルネットワークを用いた最適レギュ
レータ型コントローラの第1の実施例を示す図、第3図
は、第2図のニューラルネットワークの人出力関係を示
す図、第4図はシグモイド関数の説明図、第5図は過去
の情報を用いたニューラルネットワークを用いた最適レ
ギュレータ型コントローラの第2の実施例を示す図、第
6図は、第5図のニューラルネットワーク部の人出力関
係を示す図、第7図はフィードバック情報として誤差の
代りにプラントの出力および制御入力を直接用いた第3
の実施例を示す図、第8図はニューラルネットワークを
最適ゲインの調整に用いた第4の実施例を示す図、第9
図は従来の最適レギュレータのブロック図、第10図(
a、)、(b)は最適レギュレータを用いた制御例を示
す図である。 図中、1はプラント、2はゲインマトリックス、3はニ
ューラルネットワーク部、4は適応部、4Aは評価関数
型適応部、5は記憶部、10はコントローラである。 第 3 図 ニューラルネットワーク部 第 図 シグモイド関数 第 図 ニューラルネットワーク部
ラルネットワークを用いたコントローラのブロック線図
、第2図はニューラルネットワークを用いた最適レギュ
レータ型コントローラの第1の実施例を示す図、第3図
は、第2図のニューラルネットワークの人出力関係を示
す図、第4図はシグモイド関数の説明図、第5図は過去
の情報を用いたニューラルネットワークを用いた最適レ
ギュレータ型コントローラの第2の実施例を示す図、第
6図は、第5図のニューラルネットワーク部の人出力関
係を示す図、第7図はフィードバック情報として誤差の
代りにプラントの出力および制御入力を直接用いた第3
の実施例を示す図、第8図はニューラルネットワークを
最適ゲインの調整に用いた第4の実施例を示す図、第9
図は従来の最適レギュレータのブロック図、第10図(
a、)、(b)は最適レギュレータを用いた制御例を示
す図である。 図中、1はプラント、2はゲインマトリックス、3はニ
ューラルネットワーク部、4は適応部、4Aは評価関数
型適応部、5は記憶部、10はコントローラである。 第 3 図 ニューラルネットワーク部 第 図 シグモイド関数 第 図 ニューラルネットワーク部
Claims (3)
- (1)非線形プラントのコントローラとしての最適レギ
ュレータにおいて、入力として目標値,過去のプラント
の出力、過去の制御入力および目標値からの誤差等を用
いるニューラルネットワーク部と、このニューラルネッ
トワーク部に学習を行わせるためのプラントの出力,制
御入力および目標値からの誤差等から構成される二次形
式評価関数を最小にするようにニューラルネットワーク
の重みを変更し、前記ニューラルネットワーク部の出力
を非線形プラントの入力として用いる評価関数型適応部
とを備えたことを特徴とするニューラルネットワークを
用いた最適レギュレータ。 - (2)非線形プラントのコントローラとしての最適レギ
ュレータにおいて、入力として目標値,過去のプラント
の出力,過去の制御入力および目標値からの誤差等を用
いるニューラルネットワーク部と、このニューラルネッ
トワーク部に学習を行わせるためのプラントの出力,制
御入力および目標値からの誤差等から構成される二次形
式評価関数を最小にするようにニューラルネットワーク
の重みを変更し、前記ニューラルネットワーク部の出力
をゲインマトリックスの要素と対応させることにより前
記ニューラルネットワークの出力を用いてゲインマトリ
ックスを調整し、その出力を前記非線形プラントの入力
として用いる評価関数型適応部とを備えたことを特徴と
するニューラルネットワークを用いた最適レギュレータ
。 - (3)請求項(1)または(2)に記載のニューラルネ
ットワークを用いた最適レギュレータにおいて、前回ま
での学習結果によって得られたニューラルネットワーク
の重みを用い、一連の制御動作を行わせて各サンプリン
グ時刻での目標値からのプラントの出力偏差および定常
状態からの制御量偏差を、ある有限時刻までについて記
憶する記憶部を設けるとともに、評価関数型適応部に、
初期時刻から有限時刻までの該プラントの出力偏差およ
び定常状態からの制御量偏差の二次形式を加え合わせた
ものを評価関数Jとして用い、ニューラルネットワーク
の重みW_i_j要素で評価関数Jを微分した値を、該
記憶情報およびニューラルネットワークの特徴量を用い
て計算し、次ステップのニューラルネットワークの重み
要素の変更量を前記微分した値の符号を変えた量に比例
するように変更する機能を具備させたことを特徴とする
ニューラルネットワークを用いた最適レギュレータ。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP21306389A JPH0377101A (ja) | 1989-08-21 | 1989-08-21 | ニューラルネットワークを用いた最適レギュレータ |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP21306389A JPH0377101A (ja) | 1989-08-21 | 1989-08-21 | ニューラルネットワークを用いた最適レギュレータ |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0377101A true JPH0377101A (ja) | 1991-04-02 |
Family
ID=16632919
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP21306389A Pending JPH0377101A (ja) | 1989-08-21 | 1989-08-21 | ニューラルネットワークを用いた最適レギュレータ |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0377101A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100447135B1 (ko) * | 1997-12-30 | 2004-11-03 | 엘지전자 주식회사 | 비선형시스템의추종제어장치 |
-
1989
- 1989-08-21 JP JP21306389A patent/JPH0377101A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100447135B1 (ko) * | 1997-12-30 | 2004-11-03 | 엘지전자 주식회사 | 비선형시스템의추종제어장치 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7647284B2 (en) | Fixed-weight recurrent neural network controller with fixed long-term and adaptive short-term memory | |
CN112445131A (zh) | 一种线性系统自适应最优跟踪控制方法 | |
CN107688291A (zh) | 基于单神经元的压电陶瓷平台前馈与闭环复合控制方法、系统 | |
JPH10133703A (ja) | 適応的ロバスト制御装置 | |
JPH0740204B2 (ja) | 多自由度非線形機械システムの制御装置 | |
Si et al. | Nussbaum gain adaptive neural control for stochastic pure-feedback nonlinear time-delay systems with full-state constraints | |
US6768927B2 (en) | Control system | |
CN111273553A (zh) | 二自由度伺服云台系统的耦合辨识和解耦控制设计方法 | |
Nguyen et al. | On-policy and off-policy Q-learning strategies for spacecraft systems: An approach for time-varying discrete-time without controllability assumption of augmented system | |
JPH0377101A (ja) | ニューラルネットワークを用いた最適レギュレータ | |
CN111176117B (zh) | 一种无人直升机的模糊自适应弹性控制方法 | |
Ehring et al. | Greedy sampling and approximation for realizing feedback control for high dimensional nonlinear systems | |
Hovakimyan et al. | A novel observer based adaptive output feedback approach for control of uncertain systems | |
JP3121628B2 (ja) | 2自由度制御装置 | |
JPH0635510A (ja) | ニューラルネットワークを用いたモデル規範型適応制御装置 | |
Muthirayan et al. | Working memory augmentation for improved learning in neural adaptive control | |
JPH11506553A (ja) | ダイナミックプロセスのモデル化装置 | |
Iqbal et al. | Reinforcement learning of LQR control policy by a double inverted-pendulum biomechanical model | |
JPH0527808A (ja) | ニユーラルネツト・モデルを用いた制御器 | |
JP7395063B2 (ja) | ニューラルネットワーク制御器 | |
Szuster et al. | Control of mechatronic systems | |
CN114185268B (zh) | 一种带输入磁滞的机器人传输资源控制方法、系统及介质 | |
CN111399374B (zh) | 基于rbf神经网络的线性输出调节跟踪控制方法及系统 | |
JP2001296907A (ja) | むだ時間補償制御装置、むだ時間補償制御方法及び記憶媒体 | |
JPH0527806A (ja) | ニユーラル・ネツトを用いたフイードフオワード制御器 |