JPH0816208A

JPH0816208A - ニューラルネットワークを用いたコントローラの学習方法

Info

Publication number: JPH0816208A
Application number: JP6148157A
Authority: JP
Inventors: Norifumi Yasue; 律文安江; Takayuki Yamada; 孝行山田; Tetsuo Yabuta; 哲郎藪田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1994-06-29
Filing date: 1994-06-29
Publication date: 1996-01-19

Abstract

(57)【要約】【目的】プラントの特性が変化してもそのまま学習す
ることが可能なニューラルネットワークを用いたコント
ローラの学習方法を提供する。【構成】プラント１０に対する目標軌道出力Ｙｄをニ
ューラルネットワーク２０に入力し、該ニューラルネッ
トワーク２０の出力Ｕ(p) をプラント１０に入力し、こ
の時のプラント１０の出力Ｙ(p) と目標軌道出力Ｙｄと
の差分ε(p) を加算器３０で求め、該差分ε(p) が最小
となるように重み調整部２１で各ニューロン間の結合荷
重を計算し、これを前記目標軌道出力Ｙｄが入力される
度に繰り返すことにより、プラント１０の特性が変化し
ても制御を中止することなく、そのままオンラインで学
習することを可能とする。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、ロボット、産業用機械
等の各種のプラントを制御するニューラルネットワーク
を用いたコントローラの学習方法に関するものである。

【０００２】

【従来の技術】従来のこの種のニューラルネットワーク
を用いたコントローラ及びその学習方法としては、安
江、山田、藪田著「非最小表現を用いたニューラルネ
ットワーク逆方向同定器」（日本ロボット学会学術講演
会、1993、pp21〜22）に記載されたものがある。以下、
これについて説明する。

【０００３】図２は前述した従来のコントローラを示す
もので、図中、１は制御対象となるプラント、２はコン
トローラ本体をなすニューラルネットワークである。ニ
ューラルネットワーク２の各ニューロン間の結合荷重
（重み）は後述する逆方向同定器による学習が十分進ん
だ後の値を備えており、プラント１に対する目標軌道出
力Ｙｄが入力されると、学習を行うことなく直ちに制御
信号Ｕ_Nをプラント１に出力する。プラント１は制御信
号Ｕ_Nが入力されると、目標軌道出力Ｙｄにほぼ等しい
出力信号Ｙを出力する。

【０００４】図３は前述したコントローラの学習を行う
際の装置構成、即ち逆方向同定器を示すもので、図中、
１及び２は前述したプラント及びニューラルネットワー
ク、３は加算器、４はニューラルネットワーク２におけ
る各ニューロン間の結合荷重を調整する重み調整部であ
る。

【０００５】信号Ｕが入力された時のプラント１の出力
信号Ｙを、ニューラルネットワーク２に目標軌道出力と
して入力し、この時のニューラルネットワーク２の出力
Ｕ_N(p) と信号Ｕとの差分ε(p) を加算器３で求め、該
差分ε(p) が最小となるように重み調整部４で各ニュー
ロン間の結合荷重を調整する如くなっている。

【０００６】図４は従来の学習方法の流れを示すもの
で、前述した逆方向同定器によりニューラルネットワー
クにおける各ニューロン間の結合荷重の調整を行い、こ
の調整後のニューラルネットワークを用いることによ
り、前述したコントローラを実現する如くなっている。

【０００７】

【発明が解決しようとする課題】しかしながら、前述し
た従来の学習方法では、逆方向同定器による学習が完了
するまでコントローラとして使用することができず、ま
た、制御対象となるプラントの特性が変化した場合には
プラントの制御を一旦、中止して、即ちオフラインとし
て、逆方向同定器による学習をやり直さなければならな
いという問題があった。

【０００８】本発明は前記従来の問題点を解決し、プラ
ントの特性が変化しても制御を中止することなく、その
ままオンラインで学習することが可能なニューラルネッ
トワークを用いたコントローラの学習方法を提供するこ
とを目的とする。

【０００９】

【課題を解決するための手段】前記目的を達成するた
め、本発明の請求項１では、一入力一出力離散時間制御
系のプラントを制御するニューラルネットワークを用い
たコントローラの学習方法において、プラントに対する
目標軌道出力が発生する度に該目標軌道出力をニューラ
ルネットワークに入力し、該ニューラルネットワークの
出力をプラントに入力し、この時のプラントの出力と目
標軌道出力との差分を求め、該差分を減少する方向に前
記ニューラルネットワークにおける各ニューロン間の結
合荷重を調整するニューラルネットワークを用いたコン
トローラの学習方法を提案する。

【００１０】また、請求項２では、一入力一出力離散時
間制御系のプラントを制御するニューラルネットワーク
を用いたコントローラの学習方法において、予め定めた
サンプリング区間ρでのプラントに対する目標軌道出力
をニューラルネットワークに入力する第１の工程と、該
ニューラルネットワークの出力をプラントに入力する第
２の工程と、前記サンプリング区間ρでのプラントの出
力と前記サンプリング区間ρでの目標軌道出力との差分
を求める第３の工程と、該差分を最小とするように前記
ニューラルネットワークにおける各ニューロン間の結合
荷重を計算する第４の工程とを備え、前記第１の工程か
ら第４の工程までをサンプリング区間ρ毎に繰り返すニ
ューラルネットワークを用いたコントローラの学習方法
を提案する。

【００１１】

【作用】本発明の請求項１によれば、プラントの特性が
変化し、プラントの出力と目標軌道出力との差分が大き
くなっても、プラントに対する制御を中止することな
く、該差分を減少する方向にニューラルネットワークに
おける各ニューロン間の結合荷重を調整する、即ち学習
を行うことができる。

【００１２】また、請求項２によれば、プラントの特性
が変化し、サンプリング区間ρでのプラントの出力と前
記サンプリング区間ρでの目標軌道出力との差分が大き
くなっても、プラントに対する制御を中止することな
く、サンプリング区間ρ単位で該差分を最小とするよう
にニューラルネットワークにおける各ニューロン間の結
合荷重を計算する、即ち学習を行うことができる。

【００１３】

【実施例】まず、本発明のコントローラの学習方法の原
理について説明する。

【００１４】本発明が対象とするプラントの線形部の伝
達関数は、Ａ（ｚ^-1）Ｙ(k) ＝ｚ^-dＧ₀Ｂ（ｚ^-1）Ｕ(k) と表すことができる。

【００１５】前記(1) 式より、出力Ｙ(k) は、と表される。以下、(1) ，(2) 式で表現されるプラント
に対し、解折的に説明を行う。

【００１６】本発明が対象とするコントローラは、一入
力一出力の離散時間制御系であるので、ニューラルネッ
トワークへの入力Ｉ及び出力Ｕ(p) は、Ｉ^T＝［Ｙｄ₁，Ｙｄ₂，Ｙｄ₃，……Ｙｄ_ρ］ ……(3) Ｕ^T(p) ＝［Ｕ₁(p) ，Ｕ₂(p) ，Ｕ₃(p) ，……Ｕ_ρ(p) ］ ……(4) となる（但し、ｐは試行回数である。）。

【００１７】ここで、Ｇ₀＝１、ｄ＝１とすると、(2)
式は、となる。

【００１８】(5) 式は最小表現されているので、非最小
表現に展開し、マトリクスで表すと、Ｃ・Ｙ＝Ｄ・Ｕ ……(6) となる。

【００１９】プラントの上限次数ｎ，ｍが未知であって
も、Ｃ^-1の存在には影響を与えないので、(6) 式は、Ｙ＝Ｃ^-1・Ｄ・Ｕ ……(7) と表される。

【００２０】前記(5) 〜(7) 式をふまえ、Ａをプラント
の性質を表すマトリクス、Ｕ(p) をプラントの入力信号
の時系列ベクトル、ｐを試行回数として、プラント出力
信号の時系列ベクトルＹ(p) を表すと、Ｙ(p) ＝Ａ・Ｕ(p) ……(8) となり、要素表現すると、となる。

【００２１】また、ω(p) をニューラルネットワークの
中間層から出力層への重みマトリクス、Ｗ(p) を入力層
から中間層への重みマトリクス、目標信号の時系列ベク
トルをＹｄとすると、ニューラルネットワークの出力、
つまりプラントへの入力の時系列ベクトルＵ(p) は、要
素表現すると、ｇ(x) ＝［Ｘｇ｛１−ｅｘｐ（−４ｘ／Ｘｇ）｝］／［２｛１＋ｅｘｐ（−４ｘ／Ｘｇ）｝］ ……(11) となる。但し、ｇ(x) は入力層から中間層における出力
を決定するシグモイド関数、Ｘｇはこのシグモイド関数
の形状を決定するパラメータである。

【００２２】この時、Ｙ＝Ｙｄとするには、下記(12)式
の評価関数Ｊ(p) を最小にするにように、下記(13)，(1
4)式で表される各ニューロン間の結合荷重を各試行（サ
ンプリング）毎に調整すれば良い。但し、ηは学習の速度を決定するパラメータ、ｇ´はｇ
のｘに関する微分である。

【００２３】次に、本発明のニューラルネットワークを
用いたコントローラの学習方法の実施例について説明す
る。

【００２４】図１は本発明方法にかかるコントローラの
一実施例を示すもので、図中、１０は制御対象となるプ
ラント、２０はコントローラ本体をなすニューラルネッ
トワーク、３０は加算器である。また、２１はニューラ
ルネットワーク２０の重み調整部である。

【００２５】プラント１０に対する目標軌道出力Ｙｄを
ニューラルネットワーク２０に入力し、該ニューラルネ
ットワーク２０の出力Ｕ(p) をプラント１０に入力し、
この時のプラント１０の出力Ｙ(p) と目標軌道出力Ｙｄ
との差分ε(p) を加算器３０で求め、該差分ε(p) が最
小となるように重み調整部２１でニューロンの結合荷重
を調整する如くなっている。

【００２６】図５は図１中のニューラルネットワーク２
０の詳細を示すもので、図中、２１は重み調整部、２２
は入力層、２３は中間層、２４は出力層、２５は重み計
算部Ａ、２６は重み計算部Ｂである。

【００２７】ニューラルネットワーク２０の入力層３１
に、前記(10)式における目標軌道出力ベクトルＹｄが入
力され、重み計算部Ａ２５において重みマトリクスＷ
(p) と積算される。この計算結果は中間層２３に入力さ
れ、重み計算部Ｂ２６において重みマトリクスω(p) と
積算され、出力層２４によりニューラルネットワーク２
０の出力Ｕ(p) として出力される。また、重み調整部２
１は重みマトリクスＷ(p) ，ω(p) を(13)，(14)式によ
り調整する。

【００２８】図６は本発明のコントローラの学習方法の
流れを示すもので、目標軌道出力Ｙｄが入力される度
に、プラント１０の出力Ｙ(p) と目標軌道出力Ｙｄとの
差分ε(p) に基づいて、(12)〜(14)式に示す学習則によ
りニューラルネットワーク２０における各ニューロン間
の結合荷重の調整を行う。

【００２９】前記(12)〜(14)式に示す学習則の安定性
は、ＰＤＰ（Ｄ．Ｅ．ラメルハート，Ｊ．Ｌ．マクレラ
ンド，ＰＤＰリサーチグループ著「ＰＤＰモデル」産
業図書、1989）の意味で保証されている。

【００３０】次に、前述した本発明の実施例において、
目標起動出力と実際のプラントの出力との関係をシミュ
レーションした結果を示す。

【００３１】本シミュレーションで用いたプラント１０
は、差分方程式表現で、Ｙ(k) ＝−ａ₁Ｙ(k-1) −ａ₂Ｙ(k-2) ＋Ｕ(k-1) ＋ｂＵ(k-2) −ａ₃Ｙ(k-3) ＋Ｃ_nonＹ²(k-1) ……(15) である。但し、ａ₁＝−１．３、ａ₂＝０．３、ｂ＝
０．７を用い、非線形項としてａ₃＝０．１、Ｃ_non＝
０．２を用いた。また、入力及び出力として５０サンプ
リングずつとり、重みマトリクスはそれぞれ５０×５０
の正方マトリクスとした。

【００３２】図７〜図９は前述したシミュレーションの
結果を示すもので、図７は学習回数５回、図８は学習回
数２０回、図９は学習回数１５００回の場合をそれぞれ
示す。図から明らかなように、プラントの目標軌道出力
（実線）とプラント１０の出力（点線）との差は学習が
進むにつれて小さくなっており、本発明のコントローラ
の学習方法が十分有効であることが分かる。

【００３３】

【発明の効果】以上説明したように本発明の請求項１に
よれば、一入力一出力離散時間制御系のプラントを制御
するニューラルネットワークを用いたコントローラの学
習方法において、プラントに対する目標軌道出力が発生
する度に該目標軌道出力をニューラルネットワークに入
力し、該ニューラルネットワークの出力をプラントに入
力し、この時のプラントの出力と目標軌道出力との差分
を求め、該差分を減少する方向に前記ニューラルネット
ワークにおける各ニューロン間の結合荷重を調整するた
め、プラントの特性が変化しても該プラントに対する制
御を中止することなく、該差分を減少する方向にニュー
ラルネットワークにおける各ニューロン間の結合荷重を
調整することができ、オンラインで学習を行うことが可
能となる。

【００３４】また、本発明の請求項２によれば、一入力
一出力離散時間制御系のプラントを制御するニューラル
ネットワークを用いたコントローラの学習方法におい
て、予め定めたサンプリング区間ρでのプラントに対す
る目標軌道出力をニューラルネットワークに入力する第
１の工程と、該ニューラルネットワークの出力をプラン
トに入力する第２の工程と、前記サンプリング区間ρで
のプラントの出力と前記サンプリング区間ρでの目標軌
道出力との差分を求める第３の工程と、該差分を最小と
するように前記ニューラルネットワークにおける各ニュ
ーロン間の結合荷重を計算する第４の工程とを備え、前
記第１の工程から第４の工程までをサンプリング区間ρ
毎に繰り返すため、プラントの特性が変化しても該プラ
ントに対する制御を中止することなく、サンプリング区
間ρ単位で該差分を最小とするようにニューラルネット
ワークにおける各ニューロン間の結合荷重を計算するこ
とができ、オンラインで学習を行うことが可能となる。

【図面の簡単な説明】

【図１】本発明方法にかかるニューラルネットワークを
用いたコントローラの一実施例を示す構成図

【図２】従来のニューラルネットワークを用いたコント
ローラの一例を示す構成図

【図３】図２のコントローラの学習を行う逆方向同定器
を示す構成図

【図４】従来のコントローラの学習方法を示す流れ図

【図５】図１中のニューラルネットワークの詳細を示す
構成図

【図６】本発明のニューラルネットワークを用いたコン
トローラの学習方法の一実施例を示す流れ図

【図７】本発明方法による目標起動出力と実際のプラン
トの出力との関係のシミュレーション結果を示すグラフ

【図８】本発明方法による目標起動出力と実際のプラン
トの出力との関係のシミュレーション結果を示すグラフ

【図９】本発明方法による目標起動出力と実際のプラン
トの出力との関係のシミュレーション結果を示すグラフ

【符号の説明】

１０…プラント、２０…ニューラルネットワーク、２１
…重み調整部、２２…入力層、２３…中間層、２４…出
力層、２５…重み計算部Ａ、２６…重み計算部Ｂ、３０
…加算器。

Claims

【特許請求の範囲】

【請求項１】一入力一出力離散時間制御系のプラント
を制御するニューラルネットワークを用いたコントロー
ラの学習方法において、プラントに対する目標軌道出力が発生する度に該目標軌
道出力をニューラルネットワークに入力し、該ニューラルネットワークの出力をプラントに入力し、この時のプラントの出力と目標軌道出力との差分を求
め、該差分を減少する方向に前記ニューラルネットワークに
おける各ニューロン間の結合荷重を調整することを特徴
とするニューラルネットワークを用いたコントローラの
学習方法。
【請求項２】一入力一出力離散時間制御系のプラント
を制御するニューラルネットワークを用いたコントロー
ラの学習方法において、予め定めたサンプリング区間ρでのプラントに対する目
標軌道出力をニューラルネットワークに入力する第１の
工程と、該ニューラルネットワークの出力をプラントに入力する
第２の工程と、前記サンプリング区間ρでのプラントの出力と前記サン
プリング区間ρでの目標軌道出力との差分を求める第３
の工程と、該差分を最小とするように前記ニューラルネットワーク
における各ニューロン間の結合荷重を計算する第４の工
程とを備え、前記第１の工程から第４の工程までをサンプリング区間
ρ毎に繰り返すことを特徴とするニューラルネットワー
クを用いたコントローラの学習方法。