JPH09245012A

JPH09245012A - 学習制御方法

Info

Publication number: JPH09245012A
Application number: JP8052161A
Authority: JP
Inventors: Satoshi Yamada; 訓山田
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1996-03-08
Filing date: 1996-03-08
Publication date: 1997-09-19

Abstract

(57)【要約】【課題】過去の履歴を考慮する必要のある制御対象の
制御方法の学習に多くの試行を行う必要があり、多大な
学習時間が必要となる。【解決手段】内部状態記憶層１０，１５を持ち、ＲＢ
Ｆ関数を入出力関数とするニューロンを隠れ層６，１４
として持つニューラルネットワークで形成された制御系
２，１１に制御対象１の状態の測定結果を入力し、得ら
れた制御出力値に基づいて制御された制御対象の状態の
測定結果から、当該制御対象の制御に対する評価を判定
し、その判定結果に基づいてニューラルネットワークの
シナプス結合強度を変化させることによって学習を行わ
せ、その学習結果に基づいて以上の処理を繰り返しつつ
制御対象の制御を行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、振る舞いが複雑
でその動作の同定が困難な動的システムなどによる制御
対象の制御を、学習によってその制御方法を獲得しつつ
制御する学習制御方法、例えば、学習によって変化可能
なニューラルネットワークが適用される学習制御方法に
関するものである。

【０００２】

【従来の技術】図７は例えば、「アドバンセスイン
ニューラルインフォメーションプロセッシングシ
ステムズ（Adavances in Neural Information Processi
ng Systems）」第３号（１９９１年）の第５００〜５０
６ページに示された、従来の学習制御方法が適用される
制御装置の一例を示すブロック図である。図において、
１は倒立振り子などの制御対象、２はそれを制御する制
御系としての制御サブニューラルネットワークであり、
３はその入力層、４は制御結果入力層、５は出力層、６
は隠れ層である。また、７は制御対象１の変化をモデル
化するモデルサブニューラルネットワークであり、８は
その入力層、９は隠れ層である。なお、制御系の制御目
標は制御サブニューラルネットワーク２の出力する制御
出力値によって、制御対象１である倒立振り子の台車を
右または左に押すことにより、載せられている棒を倒れ
ないように保つことである。

【０００３】次に動作について説明する。ここで、図８
は図７に示した制御装置に適用される、従来の学習制御
方法を示すフローチャートである。まずステップＳＴ１
において、制御サブニューラルネットワーク２の入力層
３に制御対象１の状態値を入力する。この制御課題で
は、台車の位置ｘと棒の角度θだけを入力する。台車の
位置ｘと棒の角度θと共に台車の速度と角速度を入力す
ると、フィードフォワード型ニューラルネットワークで
解決できるが、台車の位置ｘと棒の角度θだけを入力す
る場合には、過去の履歴を考慮しなければ制御できず、
リカレント型ニューラルネットワークを用いなければ解
決できない。なお、各状態値はそれぞれの最小値と最大
値を用いて規格化し、０〜１の間の値として入力する。

【０００４】次にステップＳＴ２において、入力層３の
出力と他のニューロンの１時刻前の出力ｙ_j,old と、制
御サブニューラルネットワーク２内のニューロン間のシ
ナプス結合強度ｗ_ijから、次の式（１）を用いて、制御
サブニューラルネットワーク２の各ニューロンの出力ｙ
_i,new を計算する。ｙ_i,new ＝ｆ[Σｗ_ijｙ_j,old] ｆ[ｘ] ＝１／(１＋ｅｘｐ(−ｘ)) （１）

【０００５】次にステップＳＴ３において、シナプス結
合強度ｗ_ijの学習のために必要な変数ｐ^k _ij を、１時刻
前の変数ｐ^k _ij,old と各ニューロンの出力とシナプス結
合強度から次の式（２）を用いて計算した後、１時刻前
の出力ｙ_j,old と変数ｐ^k _ij, _old に、新たな出力ｙ
_i,new と変数ｐ^k _ij,new を代入して更新する。ｐ^k _ij,new ＝ｙ_k,new(１−ｙ_k,new)(Σｗ_klｐ^l _ij,old＋δ_ikｙ_j,old) （２）ここで、δ_ikはクロネッカーのデルタでｉ＝ｋの場合だ
け１でその他の場合には０である。

【０００６】次にステップＳＴ４において、出力層５の
ニューロンの出力ｙ_o,new から次の式（３）を用いて、
制御に用いる力の大きさＦを決定する。Ｆ＝ (５０ｙ_o,new−２５) （３）

【０００７】次に、この決定された力Ｆを制御対象１に
加えてその制御を行ない、ステップＳＴ５において、そ
の制御結果ｒと次の状態の状態値を得る。ここで、制御
結果ｒは次の式（４）で与えられる。ｒ＝０．５((θ／０．２１)²＋(ｘ／２．４)²) （４）

【０００８】次に、ステップＳＴ６において、制御対象
１の状態入力を受ける入力層３と制御対象１の制御結果
を受ける制御結果入力層４に新しい値を入力し、モデル
サブニューラルネットワーク７の各ニューロンの出力
を、制御サブニューラルネットワーク２の場合と同様
に、式（１）を用いて計算する。次に、ステップＳＴ７
において、モデルサブニューラルネットワーク７のニュ
ーロンｋに関する変数ｐ^k _i _j を、制御サブニューラルネ
ットワーク２の場合と同様に、式（２）を用いて計算し
た後、１時刻前の出力ｙ_j,old と変数ｐ^k _ij,old を更新
する。

【０００９】次に、ステップＳＴ８において、モデルサ
ブニューラルネットワーク７と制御サブニューラルネッ
トワーク２のシナプス結合強度ｗ_ijを更新する。なお、
モデルサブニューラルネットワーク７のシナプス結合強
度に関しては、次の式（５）を用いてシナプス結合強度
の変化量Δｗ_ijを計算する。 Δｗ_ij ＝ αΣ(ｙ_k,new−ｙ_k,pred)ｐ^k,pred _ij,old （５）ここで、αは学習定数、ｙ_k,new は制御サブニューラル
ネットワーク２の入力層３と制御結果入力層４のニュー
ロンの出力、ｙ_k,predは対応するモデルサブニューラル
ネットワーク７のニューロンの出力である。

【００１０】一方、制御サブニューラルネットワーク２
のシナプス結合強度ｗ_ijに関しては、次の式（６）を用
いてシナプス結合強度の変化量Δｗ_ijを計算する。 Δｗ_ij ＝ βΣ(ｃ_k−ｙ_k,new)ｐ^k,pred _ij,old （６）ここで、βは学習定数、ｃ_k は外部から与えられる制御
結果の値、ｙ_k,new は制御サブニューラルネットワーク
２の制御結果ニューロンの出力、ｐ^k,pred _ij,o _ldはモデ
ルサブニューラルネットワーク７の対応するニューロン
に関する変数値である。

【００１１】次いで、ステップＳＴ９において、制御結
果が成功であるか失敗であるかの判定を行なう。制御結
果が失敗の場合には、制御を中止して振り子の状態を制
御開始の状態に戻し、全ての変数ｐ^k _ij を０に初期化し
てステップＳＴ１より制御学習を再開する。一方、制御
結果が失敗でない場合にはそのままステップＳＴ１に戻
り、長時間の振り子の制御が可能になるまで制御学習を
続ける。なお、シナプス結合強度ｗ_ijは乱数によって初
期設定して制御学習を開始する。

【００１２】このようにして、多数回の試行によって、
制御対象を制御範囲内に長時間保持しておく制御方法を
学習することが可能になる。しかしながらこの制御学習
法では、モデルサブニューラルネットワーク７の代わり
に倒立振り子の運動方程式を用いた完全モデルを用いる
というシステムが同定できないという前提に反するよう
な工夫をしても、学習速度が遅く、数千回の試行で２０
秒ぐらい倒立振り子を保持できる制御が学習できただけ
であった。

【００１３】

【発明が解決しようとする課題】従来の学習制御方法は
以上のように構成されているので、過去の履歴を考慮す
る必要のある制御対象を、所定の制御範囲内に長時間保
持しておくための制御方法の学習には多くの試行を必要
とし、制御方法の学習に多大な時間を要するという課題
があった。

【００１４】この発明は上記のような課題を解決するた
めになされたもので、制御対象の制御に対する評価を用
いて、過去の履歴を考慮する必要のある制御対象の制御
方法を迅速に学習することができる学習制御方法を得る
ことを目的とする。

【００１５】

【課題を解決するための手段】請求項１記載の発明に係
る学習制御方法は、内部状態記憶層が設けられ、ラディ
アル・ベイシズ・ファンクション（radial basis funct
ion ；以下、ＲＢＦ関数という）を入出力関数として用
いるニューロンを隠れ層に持つニューラルネットワーク
で形成された制御系に、制御対象の状態の測定結果を入
力して、その入力値と１時刻前の内部状態記憶層のニュ
ーロンの出力に基づいて制御された制御対象の状態の測
定結果から、制御対象の当該制御に対する評価を判定
し、その判定結果に基づいて制御系のニューラルネット
ワークのシナプス結合強度を学習させ、その学習結果に
基づいて以上の処理を繰り返しつつ制御対象を制御する
ものである。

【００１６】請求項２記載の発明に係る学習制御方法
は、内部記憶状態層を持ち、ＲＢＦ関数を入出力関数に
用いるニューロンを１つ以上の隠れ層に持った４層以上
のニューラルネットワークにて形成された制御系を用い
たものである。

【００１７】請求項３記載の発明に係る学習制御方法
は、制御系を制御サブニューラルネットワークと予測サ
ブニューラルネットワークとで形成し、制御サブニュー
ラルネットワークで制御対象の制御出力値を決定して制
御対象の制御を行い、その制御結果と制御対象の状態値
を予測サブニューラルネットワークに入力して制御結果
予測誤差を算出し、その制御結果予測誤差に基づいて、
制御サブニューラルネットワークと予測サブニューラル
ネットワークのシナプス結合強度の学習を行うようにし
たものである。

【００１８】請求項４記載の発明に係る学習制御方法
は、制御対象の制御に対する評価の判定結果に基づいて
学習を行わせる際の制御に対する評価として、制御に失
敗したか否かを表す２値信号を用いたものである。

【００１９】請求項５記載の発明に係る学習制御方法
は、制御対象の制御に対する評価の判定結果に基づいて
学習を行わせる際の制御に対する評価として、制御の成
功の度合い、あるいは失敗の度合いを表すアナログ信号
を用いたものである。

【００２０】請求項６記載の発明に係る学習制御方法
は、０で最大となり、その近傍でのみ有意な値を持つ関
数をＲＢＦ関数として用いたものである。

【００２１】

【発明の実施の形態】以下、この発明の実施の一形態を
説明する。実施の形態１．図１はこの発明の実施の形態１による学
習制御方法が適用される制御装置の構成例を示すブロッ
ク図である。図において、１は制御対象であり、例えば
台車上に回転可能な棒が載せられた倒立振り子などの動
的システムによって形成されている。２はこの制御対象
１の制御を行う制御系としての制御サブニューラルネッ
トワークであり、リカレント型ニューラルネットワーク
にて構成されている。３はこの制御サブニューラルネッ
トワーク２の入力層であり、制御対象１の状態値が入力
される。５は同じく制御サブニューラルネットワーク２
の出力層であり、制御対象１への制御出力値を出力す
る。６は同じく制御サブニューラルネットワーク２の隠
れ層で、例えばガウス関数などのＲＢＦ関数を入出力関
数として用いているニューロンを持ち、入力層３と出力
層５および後述する内部状態記憶層１０とを結合する。
１０は制御サブニューラルネットワーク２の前記内部状
態記憶層であり、この内部状態記憶層１０の出力は次の
時刻に入力層３の出力と同様に扱われ、隠れ層６におい
て処理される。

【００２２】また、１１は制御サブニューラルネットワ
ーク２と共に制御系を形成し、制御サブニューラルネッ
トワーク２の学習のための制御結果予測値を演算・出力
する予測サブニューラルネットワークである。１２はこ
の予測サブニューラルネットワーク１１の入力層であ
り、制御対象１の状態値が入力される。１３は同じく予
測サブニューラルネットワーク１１の出力層であり、前
記制御結果予測値の計算を行う。１４は同じく予測サブ
ニューラルネットワーク１１の隠れ層であり、入力層１
２と出力層１３および後述する内部状態記憶層１５とを
結合する。なお、この隠れ層１４もガウス関数などのＲ
ＢＦ関数を入出力関数として用いているニューロンを持
っている。１５は制御サブニューラルネットワーク２の
前記内部状態記憶層であり、この内部状態記憶層１５の
出力は次の時刻に入力層１２の出力と同様に扱われ、隠
れ層１４において処理される。

【００２３】次に動作について説明する。ここで、図２
は図１に示した制御装置に適用される、この発明の実施
の形態１による学習制御方法を示すフローチャートであ
る。まず、ステップＳＴ１１において、制御対象１から
当該制御対象１の状態を表す状態値を各種センサを用い
て検出する。ここで、この実施の形態１でも従来の場合
と同様に、台車の位置ｘと棒の角度θだけを入力し、台
車の速度や棒の角速度は入力しない。この場合、制御対
象１は過去の履歴を考慮する必要がある制御対象である
ので、リカレント型ニューラルネットワークを用いなけ
れば制御方法を学習することはできない。各種センサで
得られた制御対象１の各状態値は、それぞれ最小値と最
大値に基づいて０〜１の間に規格化された後、制御サブ
ニューラルネットワーク２の入力層３に入力される。

【００２４】次にステップＳＴ１２において、入力層３
の出力ａ^c _i(ｔ)と内部状態記憶層１０の１時刻前の出力
ｅ^c _k(ｔ−１)とニューロン間のシナプス結合強度ｗ^c _ji
およびｗ^c _jk から、隠れ層６のニューロンの出力ｂ
^c _j(ｔ)を次の式（７）で表されるように、ＲＢＦ関数を
用いて計算する。ｒ^c _j(ｔ) ＝ Σ(ａ^c _i(ｔ)−ｗ^c _ji)²＋Σ(ｅ^c _k(ｔ−１)−ｗ^c _jk)² ｂ^c _j(ｔ) ＝ｇ[ｒ^c _j(ｔ)] ｇ[ｘ] ＝ｅｘｐ(−ｘ／σ²) （７）ここで、ｇ[ｘ]がＲＢＦ関数である。

【００２５】次にステップＳＴ１３において、入力層３
の出力ａ^c _i(ｔ)、内部状態記憶層１０の１時刻前の出力
ｅ^c _k(ｔ−１)、隠れ層６の出力ｂ^c _j(ｔ)と、シナプス結
合強度から、制御サブニューラルネットワーク２の出力
層５の出力ｏ^c (ｔ)と内部状態記憶層１０の出力ｅ
^c _k(ｔ)を、次の式（８）で表されるように、シグモイド
関数を用いて計算する。ｖ^c(ｔ) ＝ Σｗ^c _iａ^c _i(ｔ)＋Σｗ^c _kｅ^c _k(ｔ−１)＋Σｗ^c _jｂ^c _j(ｔ) ｏ^c(ｔ) ＝ｆ[ｖ^c(ｔ)] ｓ^c _k(ｔ) ＝ Σｗ^c _kiａ^c _i(ｔ)＋Σｗ^c _kmｅ^c _m(ｔ−１)＋Σｗ^c _kjｂ^c _j(ｔ) ｅ^c _k(ｔ) ＝ｆ[ｓ^c _k(ｔ)] ｆ[ｘ] ＝１／(１＋ｅｘｐ(−ｘ)) （８）ここで、ｆ[ｘ]はシグモイド関数である。

【００２６】次にステップＳＴ１４において、その制御
サブニューラルネットワーク２の出力ｏ_c(ｔ)に基づ
き、確率ｏ_c(ｔ)で制御に用いる力Ｆ(ｔ)を＋ｆ、確率
１−ｏ_c(ｔ) で−ｆとする。そして制御サブニューラル
ネットワーク２の学習に用いる変数ｕ(ｔ)を次の式
（９）で計算する。ｕ(ｔ) ＝１−ｏ_c(ｔ) ｏ_c(ｔ) ≧ ０の場合＝ −ｏ_c(ｔ) ｏ_c(t) ＜０の場合（９）

【００２７】次にステップＳＴ１５において、前記ステ
ップＳＴ１１で規格化した入力を予測サブニューラルネ
ットワーク１１にも入力し、その入力層１２の出力ａ^p _i
(ｔ)と内部状態記憶層１５の１時刻前の出力ｅ^p _k(ｔ−
１)とシナプス結合強度ｗ^p _ji，ｗ^p _jk から、隠れ層１４
の出力ｂ^p _j(ｔ)を次の式（１０）を用いて計算する。な
お、この式（１０）のＲＢＦ関数ｇ[ｘ]は式（７）のそ
れと同一のものを用いる。ｒ^p _j(ｔ) ＝ Σ(ａ^p _i(ｔ)−ｗ^p _ji)²＋Σ(ｅ^p _k(ｔ−１)−ｗ^p _jk)² ｂ^p _j(ｔ) ＝ｇ[ｒ^p _j(ｔ)] （１０）

【００２８】次にステップＳＴ１６において、入力層１
２の出力ａ^p _i(ｔ)、内部状態記憶層１５の１時刻前の出
力ｅ^p _k(ｔ−１)、隠れ層１４の出力ｂ^p _j(ｔ)と、シナプ
ス結合強度ｗ^p _ji およびｗ^p _jk とから、予測サブニュー
ラルネットワーク１１の出力層１３の出力（制御結果予
測値ｏ^p (ｔ)）と内部状態記憶層の出力ｅ^p _k(ｔ)を、次
の式（１１）を用いて計算する。なお、この式のシグモ
イド関数ｆ[ｘ]は式（８）のそれと同一のものを用い
る。ｏ^p(ｔ) ＝ Σｗ^p _iａ^p _i(ｔ)＋Σｗ^p _kｅ^p _k(ｔ−１)＋Σｗ^p _jｂ^p _j(ｔ) ｓ^p _k(ｔ) ＝ Σｗ^p _kiａ^p _i(ｔ)＋Σｗ^p _kmｅ^p _m(ｔ−１)＋Σｗ^p _kjｂ^p _j(ｔ) ｅ^p _k(ｔ) ＝ｆ[ｓ^p _k(ｔ)] （１１）

【００２９】次にステップＳＴ１７において、ステップ
ＳＴ１４にて計算した力Ｆ(ｔ)を制御対象１に加えてそ
の倒立振り子を制御する。次にステップＳＴ１８におい
て、制御サブニューラルネットワーク２からの制御出力
値によって制御された倒立振り子の状態をセンサで検出
して、その制御結果ｒ(ｔ＋１)と制御対象１の状態値を
得る。ここでは、制御結果ｒ(ｔ＋１)は制御が失敗した
場合には−１、その他の場合には０で与えられる。

【００３０】次に、ステップＳＴ１９において、ステッ
プＳＴ１８で得られた制御対象１の状態値をステップＳ
Ｔ１１の場合と同様に規格化し、それを予測サブニュー
ラルネットワーク１１に入力して、ステップＳＴ１５お
よびステップＳＴ１６と同一の手順で式（１０）と式
（１１）を用いて、１時刻後の制御結果予測値ｏ^p(ｔ＋
１)を計算する。

【００３１】次にステップＳＴ２０において、制御結果
ｒ(ｔ＋１)と制御結果予測値ｏ^p(ｔ)および１時刻後の
制御結果予測値ｏ^p(ｔ＋１)から、次の式（１２）によ
って制御結果予測誤差ｒ^(ｔ)を計算する。ｒ^(ｔ) ＝ γｏ^p(ｔ＋１)−ｏ^p(ｔ) 時刻ｔ＋１で失敗しなかった場合＝ｒ(ｔ＋１)−ｏ^p(ｔ) 時刻ｔ＋１で失敗した場合（１２）ここで、γは定数である。

【００３２】次にステップＳＴ２１において、シナプス
結合強度変化Δｗ^c _ji を計算するために必要な、制御サ
ブニューラルネットワーク２の微分∂Ｙ^c _k(ｔ)／∂ｗ^c
_ji を更新する。ここで、∂Ｙ^c _k(ｔ)／∂ｗ^c _ji はシナ
プス結合強度ｗ^c _ji によるニューロンの出力Ｙ^c _k(ｔ)の
偏微分を表している。なお、以下の説明においても、関
数F(ｔ)の変数ｖによる偏微分を、∂Ｆ(ｔ)／∂ｖの形
式で表記する。

【００３３】まず、ＲＢＦ関数の用いられている隠れ層
６のニューロンに対する微分∂Ｙ^c _k(ｔ)／∂ｗ^c _ji が、
次の式（１３）で計算される。 ∂Ｙ^c _k(ｔ)／∂ｗ^c _ji ＝２ｇ'[ｒ^c _k(ｔ)](Σ(Ｙ^c _l(ｔ)−ｗ^c _kl)∂Ｙ^c _l(ｔ)／∂ｗ^c _ji −δ_jk(Ｙ^c _i(ｔ)−ｗ^c _ji)) ｇ'[ｘ] ＝ −ｇ[ｘ]／σ² （１３）ここで、全てのニューロンの出力ａ^c _i(ｔ)，ｂ^c _j(ｔ)，
ｅ^c _k(ｔ−１)，ｏ^c(ｔ)をまとめてＹ^c _k (ｔ)で表す。ま
た、ｇ'[ｘ] はＲＢＦ関数の微分を表す。また、δ_jkは
クロネッカーのデルタでｊ＝ｋの場合だけ１で他の場合
には０である。

【００３４】一方、シグモイド関数の用いられている内
部状態記憶層１０のニューロンに対する微分∂Ｙ^c _k(ｔ)
／∂ｗ^c _ji は、次の式（１４）で計算される。 ∂Ｙ^c _k(ｔ)／∂ｗ^c _ji ＝ｆ'[ｓ^c _k(ｔ)](Σｗ^c _kl∂Ｙ^c _l(ｔ)／∂ｗ^c _ji＋δ_jkＹ^c _i(ｔ)) ｆ'[ｘ] ＝ｆ[ｘ](１−ｆ[ｘ]) （１４）なお、ここで、f'[x]はシグモイド関数の微分を表す。

【００３５】出力層５のニューロンに対しては、ステッ
プＳＴ１４で計算した変数ｕ(ｔ)を用いて、次の式（１
５）でその微分∂Ｙ^c _k(ｔ)／∂ｗ^c _ji を計算する。 ∂Ｙ^c _k(ｔ)／∂ｗ^c _ji ＝ｕ(ｔ)(Σｗ^c _kl∂Ｙ^c _l(ｔ)／∂ｗ^c _ji＋δ_jkＹ^c _i(ｔ)) （１５）

【００３６】次にステップＳＴ２２において、シナプス
結合強度の変化量を記憶しておく変数ｈ^c _ji (ｔ)を、次
の式（１６）を用いて更新する。ｈ^c _ji(ｔ) ＝ｏ^c(ｔ)／∂ｗ^c _ji＋γλｈ^c _ji(ｔ−１) （１６）ここで、λは定数である。

【００３７】次にステップＳＴ２３において、ステップ
ＳＴ２２で計算した変数ｈ^c _ji (ｔ)を用いて、シナプス
結合強度ｗ^c _ji (ｔ)を次の式（１７）に従って変化させ
る。 Δｗ^c _ji(ｔ) ＝ αｒ^(ｔ)ｈ^c _ji(ｔ) （１７）なお、αは定数である。

【００３８】次にステップＳＴ２４において、シナプス
結合強度変化Δｗ^p _ji を計算するために必要な予測サブ
ニューラルネットワーク１１の微分∂Ｙ^p _k(ｔ)／∂ｗ^p
_ji を更新する。この場合も制御サブニューラルネット
ワーク２の場合と同様に、全てのニューロンの出力ａ^p _i
(ｔ)，ｂ^p _j(ｔ)，ｅ^p _k(ｔ−１)，ｏ^p(ｔ)をまとめてＹ^p
_k (ｔ)で表す。まず、ＲＢＦ関数が用いられている隠れ
層１４のニューロンに対する微分∂Ｙ^p _k(ｔ)／∂ｗ^p _ji
が、次の式（１８）にて計算される。 ∂Ｙ^p _k(ｔ)／∂ｗ^p _ji ＝２ｇ'[ｒ^p _k(ｔ)](Σ(Ｙ^p _l(ｔ)−ｗ^p _kl)∂Ｙ^p _k(ｔ)／∂ｗ^p _ji −δ_jk(Ｙ^p _i(ｔ)−ｗ^p _ji)) （１８）なお、ＲＢＦ関数の微分ｇ'[ｘ] は式（１３）と同一の
ものが用いられる。

【００３９】一方、シグモイド関数の用いられている内
部状態記憶層１５のニューロンに対する微分∂Ｙ^p _k(ｔ)
／∂ｗ^p _ji は、次の式（１９）にて計算される。 ∂Ｙ^p _k(ｔ)／∂ｗ^p _ji ＝ｆ'[ｓ^p _k(ｔ)](Σｗ^p _kl∂Ｙ^p _k(ｔ)／∂ｗ^p _ji＋δ_jkＹ^p _i(ｔ)) （１９）なお、シグモイド関数の微分ｆ'[ｘ] は式（１４）と同
一のものが用いられる。

【００４０】さらに、出力層１３のニューロンに対して
は、次の式（２０）を用いてその微分∂Ｙ^p _k(ｔ)／∂ｗ
^p _ji を計算する。 ∂Ｙ^p _k(ｔ)／∂ｗ^p _ji ＝ Σｗ^p _kl∂Ｙ^p _l(ｔ)／∂ｗ^p _ji＋δ_jk]Ｙ^p _i(ｔ) （２０）

【００４１】次にステップＳＴ２５において、シナプス
結合強度の変化量を記憶しておく変数ｈ^p _ji (ｔ)を、次
の式（２１）を用いて更新する。ｈ^p _ji(ｔ) ＝ｏ^p(ｔ)／∂ｗ^p _ji＋γλｈ^p _ji(ｔ−１) （２１）

【００４２】次にステップＳＴ２６において、ステップ
ＳＴ２５にて計算した変数ｈ^p _ji(ｔ)を用いて、シナプ
ス結合強度ｗ^p _ji(ｔ)を次の式（２２）に従って変化さ
せる。 Δｗ^p _ji(ｔ) ＝ βｒ^(ｔ)ｈ^p _ji(ｔ) （２２）なお、βは定数である。

【００４３】次にステップＳＴ２７において、入力した
制御結果ｒ(ｔ＋１)が失敗か成功かの判定を行なう。制
御結果が失敗であれば制御対象１の制御を中止して倒立
振り子を制御開始の状態に戻し、全ての微分∂Ｙ^c _k(ｔ)
／∂ｗ^c _ji ，∂Ｙ^p _k(ｔ)／∂ｗ^p _ji を０に初期化した
後、ステップＳＴ１１より制御学習を再開する。また、
制御結果が失敗でない場合にはそのままステップＳＴ１
１に戻って、倒立振り子の制御を長時間にわたって持続
できるようになるまで制御学習を継続する。

【００４４】なお、この場合、制御サブニューラルネッ
トワーク２と予測サブニューラルネットワーク１１の、
出力層５および出力層１３に向かうシナプスのシナプス
結合強度の初期値は０とし、それ以外のシナプスのシナ
プス結合強度の初期値は乱数によって定めて制御学習を
開始する。

【００４５】以上のような方法で倒立振り子を制御しな
がら学習を行なうと、次第に長い時間振り子を倒さない
で制御できるように学習することができる。この学習を
行なうためのパラメーターとしては、例えば次の値を用
いる。ｆ＝１０ γ ＝０．９５ λ ＝０．７ α ＝１, β ＝０．２，σ ＝０．４また、制御サブニューラルネットワーク２および予測サ
ブニューラルネットワーク１１の隠れ層６，１４のニュ
ーロン数はそれぞれ５０個とし、内部状態記憶層１０，
１５のニューロン数はそれぞれ２個とする。

【００４６】そのときの、あるシナプス結合強度の初期
値から開始して、この実施の形態１による学習制御方法
によって学習した場合の、学習されたニューラルネット
ワークによる倒立振り子の制御時間の変化を図３に示
す。また、図４は隠れ層６，１４のニューロンのシグモ
イド関数を用いたニューラルネットワークで、実施の形
態１と同様の学習制御方法で学習した場合の、学習され
たニューラルネットワークによる倒立振り子の制御時間
の変化を示したものである。この図３と図４を比較する
ことにより、入出力関数としてＲＢＦ関数を用いている
この発明の実施の形態１による学習制御方法が、いかに
迅速に倒立振り子の制御を学習できているかが分かる。
なお、フィードバック結合を持たないフィードフォワー
ド型のニューラルネットワークでは、過去の履歴を考慮
できないので、学習が進行しないのはいうまでもない。

【００４７】以上のように、この実施の形態１によれ
ば、内部状態記憶層１０，１５を設置して１時刻前のそ
の出力を入力しているので、過去の履歴を考慮すること
ができ、また、隠れ層６，１４にＲＢＦ関数を持つニュ
ーロンを用いたので、効率よく高速に制御対象１の制御
方法を学習することができ、さらに制御対象１の制御に
対する評価を、制御に失敗したか否かを表す２値信号に
よって行っているので、制御に対する評価が簡単に得ら
れ、ニューラルネットワークにより速く制御結果の判定
を与えることが可能となって、制御方法の学習を高速に
行うことができる効果がある。

【００４８】実施の形態２．図５はこの発明の実施の形
態２による学習制御方法が適用される制御装置の構成例
を示すブロック図であり、各部には図１に示した実施の
形態１のそれぞれの相当部分と同一の符号を付してその
説明を省略する。なお、この実施の形態２は制御系を形
成している制御サブニューラルネットワーク２および予
測サブニューラルネットワーク１１として、２層以上の
隠れ層６あるいは隠れ層１４を備えた４層以上のニュー
ラルネットワークを用いている点で、実施の形態１と異
なっている。

【００４９】次に動作について説明する。ここで、図６
は図５に示した制御装置に適用されるこの発明の実施の
形態２による学習制御方法を示すフローチャートであ
る。まず、ステップＳＴ３１において、実施の形態１の
場合と同様に、制御対象１からその状態を表す状態値を
各種のセンサを用いて検出し、それら各状態値をそれぞ
れの最小値と最大値を用いて０〜１の間に規格化した
後、制御サブニューラルネットワーク２の入力層３と予
測サブニューラルネットワーク１１の入力層１２に入力
する。この場合、これら各制御サブニューラルネットワ
ーク２および予測サブニューラルネットワーク１１は、
ＲＢＦ関数を用いたニューロンからなる隠れ層１４を１
層以上持つｎ層のニューラルネットワークであるものと
し、それらの出力をそれぞれ^cｘ^k _j(ｔ) および^pｘ
^k _j(ｔ) で表すものとする。なお、ｋは層の番号を示す
もので、ｋ＝１は入力層３および入力層１２を表し、ｋ
＝ｎは出力層５および出力層１３を表している。また、
内部状態記憶層１０および内部状態記憶層１５はｋ＝２
以上のどの層にあっても良い。なお、ここでは内部状態
記憶層１０および内部状態記憶層１５は出力層５および
出力層１３と同様にｋ＝ｎにあるとするが、ｋ＝０で内
部状態記憶層１０および内部状態記憶層１５を表すもの
とする。

【００５０】次にステップＳＴ３２において、制御サブ
ニューラルネットワーク２の各隠れ層６のニューロンの
出力^cｘ^k _j(ｔ) を入力層３に近い順に、それ以下の層の
出力と１時刻前の内部状態記憶層１０の出力から次の式
（２３）を用いて計算する。なお、この式（２３）のＲ
ＢＦ関数ｇ[ｘ]は式（７）のそれと、シグモイド関数ｆ
[ｘ]は式（８）のそれとそれぞれ同一のものが用いられ
る。 ^cγ^k _j(ｔ) ＝ Σ_mΣ_i(^cｗ^m _ji−^cｘ^m _i(ｔ))²＋Σ(^cｗ⁰ _ji−^cｘ⁰ _j(ｔ−１))² ^cｘ^k _j(ｔ) ＝ｇ[^cγ^k _j(ｔ)] ＲＢＦ関数の場合 ^cｓ^k _j(ｔ) ＝ Σ_mΣ_i ^cｗ^m _ji ^cｘ^m _i(ｔ)＋Σ^cｗ⁰ _ji ^cｘ⁰ _j(ｔ−１) ^cｘ^k _j(ｔ) ＝ｆ[^cｓ^k _j(ｔ)] シグモイド関数の場合（２３）ここで、^cｘ⁰ _j(ｔ−１) は１時刻前の内部状態記憶層１
０のニューロンの出力を表している。

【００５１】次にステップＳＴ３３において、入力層３
の出力、隠れ層６の出力、内部記憶状態層１０の１時刻
前の出力とシナプス結合強度から、制御サブニューラル
ネットワーク２の出力層５の出力ｏ^c(ｔ)と内部記憶状
態層１０の出力^cｘ⁰ _j(ｔ)を次の式（２４）を用いて計
算する。ｏ^c(ｔ) ＝ ^cｘⁿ(ｔ) ＝ｆ[Σ_mΣ_i ^cｗ^m _ji ^cｘ^m _i(ｔ)＋Σ^cｗ⁰ _ji ^cｘ⁰ _i(ｔ−１)] ^cｓ⁰ _j(ｔ) ＝ Σ_mΣ_j ^cｗ^m _ji ^cｘ^m _i(ｔ)＋Σ^cｗ⁰ _ji ^cｘ⁰ _i(ｔ−１) ^cｘ⁰ _j(ｔ) ＝ｆ[^cｓ⁰ _j(ｔ)] （２４）なお、この式（２４）のシグモイド関数ｆ[ｘ]は式
（８）のそれと同一のものが用いられる。

【００５２】次にステップＳＴ３４において、その制御
サブニューラルネットワーク２の出力に基づいて、確率
ｏ^c(ｔ)で制御に用いる力Ｆ(ｔ)を＋Ｆ、確率１−ｏ
^c(ｔ)で−ｆとする。そして制御サブニューラルネット
ワーク２の学習に用いる変数ｕ(ｔ)を次の式（２５）で
計算する。ｕ(ｔ) ＝１−ｏ^c(ｔ) ｏ^c(ｔ) ≧ ０の場合＝ −ｏ^c(ｔ) ｏ^c(ｔ) ＜０の場合（２５）

【００５３】次にステップＳＴ３５において、前記ステ
ップＳＴ３１で規格化した入力を予測サブニューラルネ
ットワーク１１にも入力し、当該予測サブニューラルネ
ットワーク１１の各隠れ層１４のニューロンの出力^pｘ^k
_j(ｔ) を、入力層１２に近い順に、それ以下の隠れ層１
４の出力と内部状態記憶層１５の１時刻前の出力から次
の式（２６）を用いて計算する。なお、この式（２３）
のＲＢＦ関数ｇ[ｘ]は式（７）のそれと、シグモイド関
数ｆ[ｘ]は式（８）のそれと、それぞれ同一のものが用
いられる。 ^pγ^k _j(ｔ) ＝ Σ_mΣ_i(^pｗ^m _ji−^pｘ^m _i(ｔ))²＋Σ(^pｗ⁰ _ji−^pｘ⁰ _i(ｔ−１))² ^pｘ^k _j(ｔ) ＝ｇ[^pγ^k _j(ｔ)] ＲＢＦ関数の場合 ^pｓ^k _j(ｔ) ＝ Σ_mΣ_i ^pｗ^m _ji ^pｘ^m _i(ｔ)＋Σ^pｗ⁰ _ji ^pｘ⁰ _i(ｔ−１) ^pｘ^k _j(ｔ) ＝ｆ[^pｓ^k _j(ｔ)] シグモイド関数の場合（２６）ここで、^pｘ⁰ _i(ｔ−１) は１時刻前の内部状態記憶層１
５のニューロンの出力を表している。

【００５４】次にステップＳＴ３６において、入力層１
２の出力、隠れ層１４の出力、内部状態記憶層１５の１
時刻前の出力とシナプス結合強度から、予測サブニュー
ラルネットワーク１１の出力層１３の出力ｏ^p(ｔ)と内
部状態記憶層１５の出力^pｘ⁰ _j(ｔ)を、次の式（２７）
を用いて計算する。ｏ^p(ｔ) ＝ ^pｘⁿ(ｔ) ＝ Σ_mΣ_i ^pｗ^m _ji ^pｘ^m _i(ｔ)＋Σ^pｗ⁰ _ji ^pｘ⁰ _i(ｔ−１) ^pｓ⁰ _j(ｔ) ＝ Σ_mΣ_i ^pｗ^m _ji ^pｘ^m _i(ｔ)＋Σ^pｗ⁰ _ji ^pｘ⁰ _i(ｔ−１) ^pｘ⁰ _j(ｔ) ＝ｆ[^pｓ⁰ _j(ｔ)] （２７）なお、この式（２７）のシグモイド関数ｆ[ｘ]は（８）
式のそれと同一のものが用いられる。

【００５５】次にステップＳＴ３７において、ステップ
ＳＴ３４にて計算した力Ｆ(ｔ)を制御対象１に加えてそ
の倒立振り子を制御する。次にステップＳＴ３８におい
て、制御サブニューラルネットワーク２からの制御出力
値によって制御された倒立振り子の状態をセンサで検出
して、その制御結果ｒ(ｔ＋１)と制御対象１の状態値を
得る。得られた制御対象１の状態値はステップＳＴ３１
の場合と同様に規格化して予測サブニューラルネットワ
ーク１１に入力する。

【００５６】次にステップＳＴ３９において、ステップ
ＳＴ３５およびステップＳＴ３６と同一の手順で、１時
刻後の制御結果予測値ｏ^p (ｔ＋１)を、式（２６）と式
（２７）を用いて計算する。次にステップＳＴ４０にお
いて、制御結果ｒ(ｔ＋１)と制御結果予測値ｏ^p(ｔ)お
よび１時刻後の制御結果予測値ｏ^p(ｔ＋１)から、次の
式（２８）によって制御結果予測誤差ｒ^(ｔ)を計算す
る。ｒ^(ｔ) ＝ γｏ^p(ｔ＋１)−ｏ^p(ｔ) 時刻ｔ＋１で失敗しなかった場合＝ｒ(ｔ＋１)−ｏ^p(ｔ) 時刻ｔ＋１で失敗した場合（２８）ここで、γは定数である。

【００５７】次にステップＳＴ４１において、シナプス
結合強度変化を計算するために必要な、制御サブニュー
ラルネットワーク２の微分∂Ｘ^c _k(ｔ)／∂ｗ^c _jiを更新
する。ここで、制御サブニューラルネットワーク２の出
力をまとめてＸ^c _k(ｔ)で表し、シナプス結合強度をまと
めてｗ^c _ji で表す。まず、ＲＢＦ関数の用いられている
隠れ層６のニューロンに対する微分∂Ｘ^c _k(ｔ)／∂ｗ^c
_ji が、次の式（２９）によって計算される。 ∂Ｘ^c _k(ｔ)／∂ｗ^c _ji ＝２ｇ'[ｒ^c _k(ｔ)](Σ(Ｘ^c _l(ｔ)−ｗ^c _kl)∂Ｘ^c _l(ｔ)／∂ｗ^c _ji −δ_jk(Ｘ^c _i(ｔ)−ｗ^c _ji)) （２９）

【００５８】一方、シグモイド関数の用いられている隠
れ層６のニューロンおよび内部状態記憶層１０のニュー
ロンに対する微分∂Ｘ^c _k(t)／∂ｗ^c _jiは、次の式（３
０）で計算される。 ∂Ｘ^c _k(ｔ)／∂ｗ^c _ji ＝ｆ'[ｓ^c _k(ｔ)](Σｗ^c _kl∂Ｘ^c _l(ｔ)／∂ｗ^c _ji＋δ_jkＸ^c _i(ｔ)) （３０）

【００５９】出力層５のニューロンに対しては、ステッ
プＳＴ３４で計算した変数ｕ(ｔ)を用いて、その微分∂
Ｘ^c _k(ｔ)／∂ｗ^c _ji が次の式（３１）で計算される。 ∂Ｘ^c _k(ｔ)／∂ｗ^c _ji ＝ｕ(ｔ)(Σｗ^c _kl∂Ｘ^c _l(ｔ)／∂ｗ^c _ji＋δ_jkＸ^c _i(ｔ)) （３１）

【００６０】次にステップＳＴ４２において、シナプス
結合強度の変化量を記憶しておく変数ｈ^c _ji (ｔ)を次の
式（３２）を用いて更新する。ｈ^c _ji(ｔ) ＝∂ｏ^c(ｔ)／∂ｗ^c _ji＋γλｈ^c _ji(ｔ−１) （３２）ここで、λは定数である。

【００６１】次にステップＳＴ４３において、ステップ
ＳＴ４２で計算した変数ｈ^c _ji(ｔ)を用いて、シナプス
結合強度ｗ^c _ji (ｔ)を次の式（３３）に従って変化させ
る。 Δｗ^c _ji(ｔ) ＝ αｒ^(ｔ)ｈ^c _ji(ｔ) （３３）なお、αは定数である。

【００６２】次にステップＳＴ４４において、シナプス
結合強度変化Δｗ^c _ji (ｔ)を計算するために必要な、予
測サブニューラルネットワーク１１の微分∂Ｘ^p _k(ｔ)／
∂ｗ^p _ji を更新する。この場合も制御サブニューラルネ
ットワーク２の場合と同様に、全てのニューロンの出力
をまとめてＸ^p _k(ｔ)で表し、シナプス結合強度をまとめ
てｗ^p _ji で表す。まず、ＲＢＦ関数の用いられている隠
れ層１４のニューロンに対する微分∂X^p _k(ｔ)／∂ｗ^p _ji
が、次の式（３４）を用いて計算される。 ∂Ｘ^p _k(ｔ)／∂ｗ^p _ji ＝２ｇ'[ｒ^p _k(ｔ)](Σ(Ｘ^p _l(ｔ)−ｗ^p _kl)∂Ｘ^p _l(ｔ)／∂ｗ^p _ji −δ_jk(X^p _i(ｔ)−w^p _ji)) （３４）なお、ＲＢＦ関数の微分ｇ'[ｘ] は（１３）式と同一の
ものが用いられる。

【００６３】一方、シグモイド関数の用いられている隠
れ層１４のニューロンおよび内部状態記憶層１５のニュ
ーロンに対する微分∂Ｘ^p _k(ｔ)／∂ｗ^p _ji は、次の式
（３５）を用いて計算される。 ∂Ｘ^p _k(ｔ)／∂ｗ^p _ji ＝ｆ'[ｓ^p _k(ｔ)](Σｗ^p _kl∂Ｘ^p _l(ｔ)／∂ｗ^p _ji＋δ_jkＸ^p _i(ｔ)) （３５）なお、シグモイド関数の微分ｆ'[ｘ] は（１４）式と同
一のものが用いられる。

【００６４】さらに、出力層１３のニューロンに対して
は、次の式（３６）を用いてその微分∂Ｘ^p _k(ｔ)／∂ｗ
^p _jiを計算する。 ∂Ｘ^p _k(ｔ)／∂ｗ^p _ji ＝ Σｗ^p _kl∂Ｙ^p _l(ｔ)／∂ｗ^p _ji ＋δ_jkＸ^p _i(ｔ) （３６）

【００６５】次にステップＳＴ４５において、シナプス
結合強度の変化量を記憶しておく変数ｈ^p _ji (ｔ)を、次
の式（３７）を用いて更新する。ｈ^p _ji(ｔ) ＝∂ｏ^p(ｔ)／∂ｗ^p _ji＋γλｈ^p _ji(ｔ−１) （３７）

【００６６】次にステップＳＴ４６において、ステップ
ＳＴ４５にて計算した変数ｈ^p _ji(ｔ)を用いて、シナプ
ス結合強度ｗ^p _ji(ｔ)を次の式（３８）に従って変化さ
せる。 Δｗ^p _ji(ｔ) ＝ βｒ^(ｔ)ｈ^p _ji(ｔ) （３８）なお、βは定数である。

【００６７】次にステップＳＴ４７において、入力した
制御結果ｒ(ｔ＋１)が失敗か成功かの判定を行なう。制
御結果が失敗であれば制御対象１の制御を中止して倒立
振り子を制御開始の状態に戻し、全ての微分∂Ｘ^c _k(ｔ)
／∂ｗ^c _ji ，∂Ｘ^p _k(ｔ)／∂ｗ^p _ji を０に初期化した
後、ステップＳＴ３１より制御学習を再開する。また、
制御結果が失敗でない場合にはそのままステップＳＴ３
１に戻って、長時間にわたって倒立振り子を制御を持続
できるようになるまで制御学習を継続する。

【００６８】なお、この場合、制御サブニューラルネッ
トワーク２と予測サブニューラルネットワーク１１の、
出力層５および出力層１３に向かうシナプスのシナプス
結合強度の初期値は０とし、それ以外のシナプスのシナ
プス結合強度の初期値は乱数によって定めて制御学習を
開始する。

【００６９】以上のような方法で倒立振り子を制御しな
がら学習を行なうと、次第に長い時間振り子を倒さない
で制御できるように学習することができる。

【００７０】以上のように、この実施の形態２によれ
ば、２層以上の隠れ層６，１４によって制御対象１の状
態値の詳細な分類をすることが可能となるため、より精
密な制御方法を学習することができる効果がある。

【００７１】実施の形態３．また、上記実施の形態１お
よび実施の形態２では、制御結果（制御に対する評価）
として、制御に失敗したか否かを表す２値信号を用いた
場合について説明したが、この制御結果として、制御の
状態に関する評価値のようなアナログ信号を用いるよう
にしてもよく、そのようなアナログ信号を用いた場合に
は、２値信号を用いる場合に比べてより精密な制御が行
える制御方法を学習することが可能となる。

【００７２】ここで、この制御の状態に関する評価値と
しては、制御対象１の望ましい状態で最大となり、その
状態から離れるにつれて減少するような評価値、例え
ば、制御対象１が倒立振り子である場合には、倒立振り
子が中央の位置で直立して静止している状態で最大とな
り、それから離れるに従って減少するアナログ値を用い
ればよい。具体的には、この評価値ｑ_i (ｔ)として次の
式（３９）で与えられるものを用いるとよい。ｅ_i ＝ (ｘ_i(ｔ)−ｓｘ_i)² ｑ_i(ｔ) ＝ νｅｘｐ(−ｅ_i／μ_i ²) （３９）

【００７３】ここで、ｘ_i(ｔ)は入力値、ｓｘ_iは制御対
象１の望ましい状態であり、ν，μ_i は定数である。制
御対象１の各状態値に対してこの評価値ｑ_i (ｔ)を求
め、その積をその時点の評価値とする。

【００７４】以上のように、この実施の形態３によれ
ば、制御の成功の度合いまたは失敗の度合いを表すアナ
ログ信号によって、制御対象の制御に対する評価をより
精密に行うことが可能となり、ニューラルネットワーク
をより正確に学習させることができる効果がある。

【００７５】実施の形態４．また、上記各実施の形態で
は、隠れ層６および隠れ層１４の持つニューロンが入出
力関数として用いているＲＢＦ関数として、式（７）で
示したようなガウス関数を用いたものについて説明した
が、次の式（４０）で与えられるような関数であっても
よい。ｇ[ｘ] ＝ (１−ｘ／ρ)² ｘ＜ρ ＝０ｘ＞ρ （４０）

【００７６】さらに、この式（７）や式（４０）と異な
る関数であっても、それら式（７）や式（４０）のよう
にｘ＝０で最大となり、その近傍だけで有意な値を持つ
関数であればＲＢＦ関数として用いることができる。

【００７７】以上のように、この実施の形態４によれ
ば、隠れ層６，１４のニューロンに用いるＲＢＦ関数と
して、ｘ＝０で最大となってその近傍のみで有意な値を
持つ関数を用いたので、制御方法を効率よく高速に学習
することができる効果がある。

【００７８】実施の形態５．また、上記各実施の形態で
は、制御サブニューラルネットワーク２から出力される
制御出力値が１つである場合を示したが、同様の方法に
よって制御出力値が２つ以上出力される場合にも適用で
きることはいうまでもない。さらに、適用される制御対
象１も、倒立振り子ばかりでなく、テープドライブ，Ｃ
Ｄプレイヤ，ビデオテープレコーダ（ＶＴＲ），洗濯機
等の回転体の姿勢制御や、バイオリアクタあるいはプラ
ント等の状態制御にも適用可能である。

【００７９】

【発明の効果】以上のように、請求項１記載の発明によ
れば、制御系のニューラルネットワークに内部状態記憶
層のニューロンを設置して、１時刻前のその出力を入力
するようにするとともに、隠れ層に入出力関数としてＲ
ＢＦ関数を持ったニューロンを用いるように構成したの
で、過去の履歴を考慮することが必要な制御対象に対し
ても、その制御方法を効率よく迅速に学習できる効果が
ある。

【００８０】請求項２記載の発明によれば、制御系のニ
ューラルネットワークに２層以上の隠れ層を持たせ、１
つ以上の隠れ層にＲＢＦ関数を入出力関数に用いるニュ
ーロンを持たせるように構成したので、さらに、制御対
象の状態値の詳細な分類をすることが可能となり、より
精密な制御方法を学習することができる効果がある。

【００８１】請求項３記載の発明によれば、制御系の制
御サブニューラルネットワークで制御対象の制御出力値
を決定して制御対象の制御を行い、制御系の予測サブニ
ューラルネットワークでその制御結果と制御対象の状態
値に基づいて制御結果予測誤差を算出し、制御サブニュ
ーラルネットワークと予測サブニューラルネットワーク
のシナプス結合強度の学習を、その制御結果予測誤差に
基づいて行うように構成したので、過去の履歴を考慮す
ることができ、効率よく高速に制御方法を学習すること
ができる効果がある。

【００８２】請求項４記載の発明によれば、制御対象の
制御に対する評価を、制御に失敗したか否かを表す２値
信号を用いて行うように構成したので、制御対象の制御
に対する評価の判定結果に基づいて学習を行わせる際
の、制御に対する評価を簡単に得ることが可能となり、
その結果、ニューラルネットワークにより速く制御結果
の判定を与えることができるようになって、学習をより
高速に行える効果がある。

【００８３】請求項５記載の発明によれば、制御対象の
制御に対する評価を、制御の成功の度合いまたは失敗の
度合いを表すアナログ信号を用いて行うように構成した
ので、制御対象の制御に対する評価の判定結果に基づい
て学習を行わせる際の、制御に対する評価をより精密に
行うことが可能となり、その結果、ニューラルネットワ
ークに制御方法をより正確に学習させることができる効
果がある。

【００８４】請求項６記載の発明によれば、０で最大と
なり、その近傍でのみ有意な値を持つ関数をＲＢＦ関数
として用いるように構成したので、制御方法を効率よく
高速に学習することができる効果がある。

【図面の簡単な説明】

【図１】この発明の実施の形態１による学習制御方法
が適用される制御装置の構成例を示すブロック図であ
る。

【図２】この発明の実施の形態１による学習制御方法
を示すフローチャートである。

【図３】この発明の実施の形態１によって学習した場
合の制御時間の変化を示す説明図である。

【図４】図１における隠れ層のニューロンの入出力関
数を全てシグモイド関数としたニューラルネットワーク
で学習した場合の制御時間の変化を示す説明図である。

【図５】この発明の実施の形態２による学習制御方法
が適用される制御装置の構成例を示すブロック図であ
る。

【図６】この発明の実施の形態２による学習制御方法
を示すフローチャートである。

【図７】従来の学習方法が適用される制御装置の構成
例を示すブロック図である。

【図８】従来の学習制御方法を示すフローチャートで
ある。

【符号の説明】

１制御対象、２制御サブニューラルネットワーク
（制御系）、３，１２入力層、５，１３出力層、６，
１４隠れ層、１０，１５内部状態記憶層、１１予
測サブニューラルネットワーク（制御系）。

Claims

【特許請求の範囲】

【請求項１】制御対象の状態を測定した測定結果に基
づいて、前記制御対象の制御方法を学習してその制御を
行う学習制御方法において、内部状態記憶層を構成するニューロンを持ち、入出力関
数としてラディアル・ベイシズ・ファンクションを用い
るニューロンを隠れ層に持つニューラルネットワークで
形成されて、前記制御対象を制御する制御系に、前記制
御対象の状態の測定結果と、前記内部状態記憶層を構成
するニューロンからの１時刻前の出力を入力し、それらの入力値に基づいて前記制御対象の制御を行な
い、当該制御による前記制御対象の状態を測定して、そ
の測定結果から前記制御対象の制御に対する評価を判定
し、その判定結果に基づいて、前記制御系のニューラルネッ
トワークのシナプス結合強度を学習させ、その学習結果に基づいて以上の処理を繰り返しつつ前記
制御対象の制御を行なうことを特徴とする学習制御方
法。
【請求項２】制御対象の状態を測定した測定結果に基
づいて、前記制御対象の制御方法を学習してその制御を
行う学習制御方法において、内部状態記憶層を構成するニューロンを持ち、入出力関
数としてラディアル・ベイシズ・ファンクションを用い
るニューロンを１つ以上の隠れ層に持つ、４層以上のニ
ューラルネットワークで形成されて、前記制御対象を制
御する制御系に、前記制御対象の状態の測定結果と、前
記内部状態記憶層を構成するニューロンからの１時刻前
の出力を入力し、それらの入力値に基づいて前記制御対象の制御を行な
い、当該制御による前記制御対象の状態を測定して、そ
の測定結果から前記制御対象の制御に対する評価を判定
し、その判定結果に基づいて、前記制御系のニューラルネッ
トワークのシナプス結合強度を学習させ、その学習結果に基づいて以上の処理を繰り返しつつ前記
制御対象の制御を行なうことを特徴とする学習制御方
法。
【請求項３】制御系を、それぞれが、内部状態記憶層
を構成するニューロンを持ち、入出力関数としてラディ
アル・ベイシズ・ファンクションを用いるニューロンを
隠れ層に持つニューラルネットワークより成る、制御サ
ブニューラルネットワークおよび予測サブニューラルネ
ットワークで形成し、前記制御サブニューラルネットワークおよび予測サブニ
ューラルネットワークによって、制御対象の状態の測定
結果である状態値と前記内部状態記憶層を構成するニュ
ーロンからの１時刻前の出力より、前記制御対象の制御
出力値および制御結果予測値を決定して、その制御出力
値に基づいて前記制御対象を制御し、前記制御出力値によって制御された前記制御対象の制御
結果と状態値を予測サブニューラルネットワークに入力
して制御結果予測誤差を算出し、前記制御サブニューラルネットワークおよび予測サブニ
ューラルネットワークにおいて、前記制御結果予測誤差
に基づいたシナプス結合強度の学習を行うことを特徴と
する請求項１または請求項２記載の学習制御方法。
【請求項４】制御対象の制御に対する評価を判定し、
その判定結果に基づいて制御系のニューラルネットワー
クのシナプス結合強度を学習させる際、前記制御に対する評価として、制御に失敗したか否かを
表す２値信号を用いることを特徴とする請求項１から請
求項３のうちのいずれか１項記載の学習制御方法。
【請求項５】制御対象の制御に対する評価を判定し、
その判定結果に基づいて制御系のニューラルネットワー
クのシナプス結合強度を学習させる際、前記制御に対する評価として、制御の成功の度合いある
いは失敗の度合いを表すアナログ信号を用いることを特
徴とする請求項１から請求項３のうちのいずれか１項記
載の学習制御方法。
【請求項６】隠れ層の持つニューロンに用いられるラ
ディアル・ベイシズ・ファンクションとして、０で最大
となり、その近傍だけで有意な値を持つ関数を用いるこ
とを特徴とする請求項１から請求項３のうちのいずれか
１項記載の学習制御方法。