JPH07210535A - 学習機能をもった制御装置の学習方法 - Google Patents

学習機能をもった制御装置の学習方法

Info

Publication number
JPH07210535A
JPH07210535A JP6022210A JP2221094A JPH07210535A JP H07210535 A JPH07210535 A JP H07210535A JP 6022210 A JP6022210 A JP 6022210A JP 2221094 A JP2221094 A JP 2221094A JP H07210535 A JPH07210535 A JP H07210535A
Authority
JP
Japan
Prior art keywords
learning
control
evaluation value
control device
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP6022210A
Other languages
English (en)
Inventor
Akimasa Shirosaka
晃正 城坂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mazda Motor Corp
Original Assignee
Mazda Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mazda Motor Corp filed Critical Mazda Motor Corp
Priority to JP6022210A priority Critical patent/JPH07210535A/ja
Publication of JPH07210535A publication Critical patent/JPH07210535A/ja
Abandoned legal-status Critical Current

Links

Landscapes

  • Feedback Control In General (AREA)

Abstract

(57)【要約】 【目的】 学習機能をもった制御装置について効率的な
学習を行う。 【構成】 ステップS1で、現時点での学習成分を保存
し、ステップS2で、現時点での制御能力を示す評価値
G0を求める。ステップS3では、1トライアルの学習
を進めることにより学習成分の書き替えを行い、ステッ
プS4で、書き替え後の制御能力を示す評価値G1を求
める。ステップS5で、評価値G1≧G0の場合には、
ステップS3での学習を受け入れ、学習成分を書き替え
た状態のままとする。一方、評価値G1<G0の場合に
は、ステップS6で、学習成分をステップS1で保存し
たものに戻し、ステップS3での学習を拒否する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は学習機能をもった制御装
置の学習方法、特に、神経回路を用いた制御装置の学習
方法に関する。
【0002】
【従来の技術】制御対象に所定の操作量を与えることに
より所望の目標値を得る自動制御の技術は、古くから研
究されてきており、これまでに種々の制御理論が確立さ
れてきている。現在では、比例制御、微分制御、積分制
御などを組み合わせた制御が一般的に行われており、
C,L,Rなどの回路要素を組み合わせた制御回路が組
まれている。
【0003】このような従来の制御理論に基づく制御回
路に代わって、近年、学習機能を有する制御装置が普及
し始めている。特に、神経回路を用いた制御装置は、高
度な学習機能を有し、具体的な制御対象モデルに置き換
えることが困難であった複雑な制御対象についても高精
度な制御が可能になる。たとえば、特開平4−2523
08号公報には、車両の走行路のパターン認識を神経回
路を用いた装置で行う技術が開示されている。このよう
な神経回路を用いた制御装置では、複数の神経細胞と、
これら相互を接続するシナプスと、が定義され、情報は
神経細胞から別な神経細胞へと、シナプスを伝達するこ
とによって伝わることになる。入力層となるいくつかの
神経細胞に所定の入力情報を与えると、情報は中間層と
なるいくつかの神経細胞を経て、出力層となるいくつか
の神経細胞へと伝えられ、この出力層の神経細胞から最
終的な出力情報(すなわち、制御対象に与える操作量)
が得られることになる。各シナプスには、情報の伝達効
率が設定されており、この伝達効率の設定を適宜変える
ことにより、同じ入力情報を与えても、最終的に得られ
る出力情報は種々異なるものになる。
【0004】このように、各シナプスの伝達効率の設定
を変えるプロセスが、学習のプロセスになる。具体的に
は、たとえば、ある特定の入力情報を与えたときに最終
的に得られる出力情報が、理想的な出力情報に近付くよ
うに、各伝達効率の設定を変えてゆくという誤差逆伝播
学習により、学習を進めてゆけばよい。たとえば、特開
平1−183763号公報には、神経回路を用いた制御
装置の学習方法の一例が開示されている。神経回路を用
いた制御装置に対する有力な学習方法としては、フィー
ドバック誤差学習法が知られている。この方法では、具
体的な制御対象に対して実際の制御を行いながら学習を
行ってゆくため、学習完了時には、その具体的な制御対
象に適合した非常に高精度な制御が可能になる。
【0005】
【発明が解決しようとする課題】一般的に、学習という
ものは、繰り返して行えば行うほど、学習対象の能力は
益々向上してゆくものと考えられている。ところが、上
述した神経回路を用いた制御装置に対する学習について
は、必ずしも学習量に見合った能力向上が得られない場
合がある。特に、フィードバック誤差学習法では、学習
を繰り返して行うと、ある時期までは学習促進が行われ
るが、それ以後は逆に学習破壊が起こり、学習を続ける
ことが逆効果になる場合がある。
【0006】そこで本発明は、より効果的な学習を行う
ことができる学習機能をもった制御装置の学習方法を提
供することを目的とする。
【0007】
【課題を解決するための手段】
(1) 本発明の第1の態様は、学習成分を書き替えるこ
とにより異なる制御動作を行わせることができる制御装
置に対して、制御能力を向上させるための学習を行う方
法において、現時点での学習成分を保存するとともに、
現時点での制御能力を示す評価値G0を求める第1の段
階と、学習を進めることにより学習成分の書き替えを行
い、書き替え後の制御能力を示す評価値G1を求める第
2の段階と、評価値G1>G0の場合には、学習成分を
書き替えた状態のままとし、評価値G1<G0の場合に
は、学習成分を第1の段階で保存したものに戻し、評価
値G1=G0の場合には、学習成分を書き替えた状態の
ままとするかまたは第1の段階で保存したものに戻す第
3の段階と、をこの順番に繰り返し実行するようにした
ものである。
【0008】(2) 本発明の第2の態様は、学習成分を
書き替えることにより異なる制御動作を行わせることが
できる制御装置に対して、制御能力を向上させるための
学習を行う方法において、学習機能を有さないフィード
バック制御装置と、学習対象となる制御装置とを並列に
配置し、これら両制御装置の出力の和を制御対象に操作
量として与え、この制御対象から得られる所定の制御量
と目標値との偏差を、両制御装置に入力として与える制
御系を形成し、学習対象となる制御装置について、現時
点での学習成分を保存するとともに、現時点での制御能
力を示す評価値G0を求める第1の段階と、所定の期
間、両制御装置により制御対象を制御しながら、フィー
ドバック制御装置の出力を零にすることを目的として、
学習対象となる制御装置の学習成分の書き替えを行い、
書き替え後の学習対象となる制御装置の制御能力を示す
評価値G1を求める第2の段階と、評価値G1>G0の
場合には、学習成分を書き替えた状態のままとし、評価
値G1<G0の場合には、学習成分を第1の段階で保存
したものに戻し、評価値G1=G0の場合には、学習成
分を書き替えた状態のままとするかまたは第1の段階で
保存したものに戻す第3の段階と、の3つの段階を、こ
の順番に繰り返し実行するようにしたものである。
【0009】
【作 用】本発明では、第1の段階〜第3の段階に至る
までの一連の手順を1トライアルとして、学習が繰り返
し実行される。ただ、1トライアルの学習実行後、学習
対象となる制御装置の制御能力を示す評価値が求められ
る。そして、トライアル前の評価値G0とトライアル後
の評価値G1とが比較される。ここで、G1>G0、す
なわちトライアルによって制御能力が向上していれば、
そのトライアルにおける学習を受入れ、書き替えられた
学習成分を有効なものとするが、G1<G0、すなわち
トライアルによって制御能力が低下していれば、そのト
ライアルにおける学習を拒否し、書き替えられた学習成
分を無効としてトライアル前の学習成分に戻す処理が行
われる。このような手法によれば、制御能力が向上する
学習のみが受け入れられるようになり、効率的な学習が
可能になる。
【0010】
【実施例】以下、本発明を図示する実施例に基づいて説
明する。はじめに、一般的な神経回路を用いた制御装置
の基本原理を説明しておく。図1に示す神経回路網制御
装置1は、このような制御装置の一例である。この制御
装置1には、入力層A,中間層B,出力層Cの3つの層
が形成されており、各層はそれぞれ5つずつの神経細胞
A1〜A5,B1〜B5,C1〜C5から構成されてい
る。入力層Aの各神経細胞A1〜A5から中間層Bの各
神経細胞B1〜B5には、図に矢印をもった直線で示す
シナプスが接続されている。また、中間層Bの各神経細
胞B1〜B5から出力層Cの各神経細胞C1〜C5に
も、図に矢印をもった直線で示すシナプスが接続されて
いる。情報は、1つの神経細胞から別な神経細胞に向か
って、シナプスを通って図の矢印の方向へ伝播される。
【0011】いま、制御対象2からの制御量と目標値と
の偏差を、動作信号として入力層Aの所定の神経細胞A
1〜A5に与えると、各神経細胞A1〜A5は、それぞ
れ入力された信号値に所定の関数を作用させて新たな信
号値を生成し、これを出力する。この信号値は、各シナ
プスを伝わって中間層Bの各神経細胞B1〜B5に伝達
されるが、その過程において、各シナプスごとに設定さ
れた所定の伝達効率値が乗ぜられる。同様に、中間層B
の神経細胞B1〜B5は、それぞれ入力された信号値
(神経細胞A1〜A5の出力信号値に、各シナプスにつ
いて設定された伝達効率値を乗じた値)に所定の関数を
作用させ、新たな信号値を出力する。このようにして情
報は、最終的に出力層Cの神経細胞C1〜C5まで伝達
され、これら神経細胞C1〜C5の出力する信号値が、
制御信号(操作量)として制御対象2に与えられること
になる。神経回路網制御装置1は、このような原理で、
制御対象2に対する制御を行う。なお、この例では、動
作信号として、制御量と目標値との偏差をフィードバッ
クするフィードバック制御を行っているが、偏差を戻さ
ないフィードフォワード制御を行うことも可能である。
【0012】このような神経回路網制御装置1を学習さ
せるには、次のようにする。まず、入力層Aを構成する
神経細胞A1〜A5に、所定の動作信号を与え、そのと
き、出力層Cを構成する神経細胞C1〜C5から得られ
る出力信号が、所定の教師信号に一致するように、所定
のアルゴリズムに従って各シナプスの伝達効率値の設定
を修正する。ここで、教師信号は、入力した動作信号に
対する理想的な制御信号(操作量)を示すものである。
このような学習動作を何回も繰り返し行い、各シナプス
の伝達効率値を逐次修正してゆくと、過去に学習した入
力パターンを動作信号として与えたときに、理想的な制
御信号が出力されるようになる。
【0013】ここでは、より具体的な学習方法として、
フィードバック誤差学習法を図2のブロック図に基づい
て説明しよう。この学習方法では、神経回路網制御装置
1とフィードバック制御装置3とが並列に設けられる。
ここで、神経回路網制御装置1は、図1に示す構造をも
った学習対象となる制御装置である。一方、フィードバ
ック制御装置3は、この学習を行うために用意された従
来の一般的な制御理論に基づく制御装置(たとえば、比
例制御、微分制御、積分制御などの制御を行うために、
C,L,Rなどの回路要素を組み合わせた制御回路)で
ある。すなわち、フィードバック制御装置3は、制御対
象2を具体的な制御対象モデルに置き換え、このモデル
に制御理論を適用して得られる制御装置であり、学習機
能はもたない。この学習系では、両制御装置1,3の出
力信号の和が制御信号(操作量)として制御対象2に与
えられる。そして、制御対象2からの制御量と目標値と
の偏差がフィードバックされ、両制御装置1,3に入力
として与えられる。
【0014】学習は、この両制御装置1,3によって、
実際に制御対象2を制御することによって行われる。す
なわち、この制御プロセスにおいて、フィードバック制
御装置3の出力信号を学習用誤差信号として取り出し、
この学習用誤差信号の値に基づいて、神経回路網制御装
置1内の各シナプスの伝達効率値の設定を修正すること
により、神経回路網制御装置1を学習させてゆくことが
できる。最終的に、学習用誤差信号の値が0になれば、
この学習系においてフィードバック制御装置3は不要に
なり、神経回路網制御装置1単独で制御対象2に対する
制御動作を行うことが可能になる。すなわち、学習完了
である。
【0015】しかしながら、このような学習系では、必
ずしも学習量に見合った制御能力の向上が得られるとは
限らない。本願発明者が行った実験によれば、このよう
なフィードバック誤差学習法では、図3に示すような学
習プロセスが得られる。この図3は、縦軸に学習の成果
に相当する制御能力評価値をとり、横軸に時間をとり、
学習を繰り返し実行することにより、制御能力がどのよ
うに変化してゆくかをグラフによって示したものであ
る。このグラフによれば、時刻t0〜t1の期間につい
ては、学習を繰り返すたびに制御能力の評価値が向上し
ているが、時刻t1〜t2の期間については、逆に、学
習を繰り返すたびに評価値は低下している。本願発明者
が行った実験によれば、学習により評価値が向上する学
習促進期と、学習により評価値が低下する学習破壊期と
が、図3のグラフに示すように交互に出現することがわ
かった。このグラフでは、時刻t1および時刻t3の時
点が、局所的な最適期となっており、この最適期を過ぎ
て学習を継続すると、学習破壊が起こり逆効果になる。
【0016】また、図3の例では、時刻t1における評
価値よりも、時刻t3における評価値の方が向上してお
り、時刻t1を過ぎて学習を継続した場合、一旦は学習
破壊が起こるが、やがて時刻t3にはより評価値の高い
状態が得られている。しかし、学習を継続していった場
合に、より高い評価値が必ずしも得られるとは限らず、
ある時期をすぎると、もはや評価値をもとのレベルに回
復することができなくなるような場合もある。
【0017】このような学習破壊が起こる理由は、フィ
ードバック制御装置3の出力である学習用誤差信号が、
神経回路網制御装置1の学習進度に無関係となるからで
ある。すなわち、フィードバック制御装置3は、神経回
路網制御装置1の学習進度を全く考慮に入れずに、同じ
入力パターンに対しては、常に同じ出力パターンを出力
するのである。しかも、神経回路網制御装置1に対する
学習、すなわちシナプス伝達効率値の書き替えは、その
時点での学習進度に関わらず、常に、この学習用誤差信
号に基づいて行われるのである。このような理由から、
神経回路網制御装置1がせっかく高い学習状態に達して
いても、一義的な学習用誤差信号によって、そのような
学習状態を破壊するような書き替えが行われてしまうの
である。
【0018】本発明は、このような従来の学習方法の問
題点を解決することができる新しい学習方法を提案する
ものである。以下、本発明の学習方法を図4の流れ図に
基づいて説明する。まず、ステップS1において、現時
点での学習成分の保存を行う。具体的には、図1に示す
神経回路網制御装置1の場合、各神経細胞間に矢印で描
かれた各シナプスについて設定された伝達効率値がメモ
リなどに保存されることになる。
【0019】続いて、ステップS2において、現時点で
の制御能力を示す評価値G0が求められる。ここでは、
評価値G0の値が大きいほど、制御能力が大きいことを
示すように、評価値G0を定義している。評価値G0と
しては、制御能力を何らかの形で評価できる値であれ
ば、どのような値を定義してもよい。たとえば、ある一
定時間の制御を実際に行い、そのときの偏差(制御対象
2から得られる制御量と予め設定した目標値との差)の
時間積分値に基づいて、評価値G0を求めることができ
る。この場合、偏差の時間積分値が小さいほど、制御能
力は大きいことになるので、時間積分値にマイナス符号
をつけたものを評価値G0としてもよいし、時間積分値
の逆数を評価値G0としてもよい。
【0020】次のステップS3では、1トライアルの学
習を行い、学習成分の書き替えを行う。ここで、1トラ
イアルの学習とは、予め設定した所定の時間(たとえ
ば、20秒間)、図2に示す制御系で制御対象2を実際
に制御し、そのときに得られた学習用誤差信号によっ
て、神経回路網制御装置1に対する学習を行うことであ
る。すなわち、神経回路網制御装置1内の各シナプスの
伝達効率値が、学習用誤差信号を0にする方向に修正さ
れることになる。なお、シナプスの伝達効率値に対し
て、実際にどのような修正を施せばよいかというアルゴ
リズムについては、種々のものが公知であるため、ここ
では詳しい説明は省略する。
【0021】続く、ステップS4において、学習成分
(シナプスの伝達効率値)の書き替え後の神経回路網制
御装置1の制御能力を示す評価値G1が求められる。こ
こで、評価値G1はステップS2において定義された評
価値G0と全く同じ定義で求められる値である。上述の
例であれば、ある一定時間の制御を実際に行い、そのと
きの偏差の時間積分値に基づいて、評価値G1が求めら
れることになる。ここで、ステップS3において行った
1トライアルが学習促進期に該当する場合には、学習後
の評価値G1は学習前の評価値G0よりも向上している
はずである。逆に、このトライアルが学習破壊期に該当
する場合には、学習後の評価値G1は学習前の評価値G
0よりも低下しているはずである。そこで、ステップS
5において、G1≧G0であるか否かの判断を行い、G
1≧G0であれば学習促進期に該当するトライアルが行
われたものと判断し、このトライアルにおける学習を受
け入れる。逆に、G1<G0であれば学習破壊期に該当
するトライアルが行われたものと判断し、このトライア
ルにおける学習を拒否し、ステップS6において、学習
成分をステップS1で保存していた学習前のものに戻す
処理を行う。すなわち、ステップS3における1トライ
アルの学習が行われなかった状態に戻すことになる。な
お、ステップS5において、G1=G0の場合には、学
習を受け入れても、拒否しても、いずれでもかまわな
い。この実施例では、G1=G0の場合には学習を受け
入れているが、ステップS5の条件式をG1>G0とし
て、G1=G0の場合には、学習を拒否するようにして
もよい。
【0022】最後のステップS7では、予め定められた
総トライアル回数nに到達したか否かが判断され、nト
ライアルが完了するまで、上述のステップS1〜S6ま
での手順が繰り返し実行されることになる。すなわち、
二巡目では、まずステップS1において、現時点での学
習成分が保存され、ステップS2において、現時点での
評価値G0が求められる。なお、実際には、この二巡目
の評価値G0は、一巡目の評価値G0またはG1のいず
れかと同じになるので、新たに評価を行わずに、一巡目
の評価値G0またはG1を、新たに二巡目の評価値G0
と定義しなおせばよい(一巡目のステップS5におい
て、G1≧G0の場合には、一巡目の評価値G1を二巡
目の評価値G0と定義し、G1<G0の場合には、一巡
目の評価値G0を二巡目の評価値G0と定義すればよ
い)。続くステップS3において、再び1トライアルの
学習を行い、ステップS4において学習後の評価値G1
を求める。そして、ステップS5で、この二巡目のトラ
イアルにおける学習を受け入れるか拒否するかの判断を
行う。以下、同様の処理をnトライアルが完了するまで
繰り返し実行することになる。
【0023】このような学習方法を採れば、学習成分の
書き替えは、制御能力評価値が向上する場合に限って実
行されることになり、制御能力評価値を低下させるよう
な学習が行われても、その学習に基づいては学習成分の
書き替えは行われないことになる。すなわち、学習を継
続して行っても、少なくとも、制御能力評価値が減少す
ることはない。
【0024】最後に、本発明に係る学習方法のメリット
を具体的な制御対象についての例について示そう。この
例は、倒立振子システムの制御に関するものであり、実
験は、計算機上でのシミュレーションとして行った。ま
ず、倒立振子システムの概要を図5に基づいて説明す
る。台車51の上面には、振子52が回動自在に取り付
けられており、台車51はベルト53の一部に固着され
ている。ベルト53は、両側においてプーリ54に掛っ
ており、図の左右方向に張られた状態になっている。プ
ーリ54は、直流モータ55によって両方向に回転駆動
させられ、直流モータ55には、パワーアンプ56から
直流電力が供給される。ここで、パワーアンプ56の入
力端子に所定の電圧uを供給すると、この電圧の極性お
よび大きさに応じた電流が直流モータ55に供給され、
プーリ54が所定方向に所定角度だけ回転する。このた
め、台車51は図の左右方向に所定距離だけ駆動される
ことになる。ここでは、台車51の位置を、図示するよ
うに左端からの距離rで表すことにする。振子52は、
台車51の上面に回動自在に取り付けられているため、
台車51の受ける加速度に基づいて、図の左右方向に角
度θをもって揺動する。
【0025】このような制御対象において、台車51の
位置rと、振子52の揺動角θとを所定の目標値に維持
する制御を行うことを考える。ここでは、所定の目標値
として、r=r(両プーリ間の中心位置),θ=0°
を設定する。すなわち、台車51を図の中央位置にもっ
てゆき、振子52を垂直に立てた状態に保つような制御
が行われることになる。図2に示すブロック図では、制
御対象2から検出される制御量は、台車51の位置rと
振子52の揺動角θということになる。このような制御
量を得るためには、図5に示すシステムにおいて、適当
な場所にポテンショメータなどを取り付け、位置rと揺
動角θとを検出するようにすればよい。この検出値と、
目標値であるr=r,θ=0°との偏差Δr,Δθ
が、動作信号として神経回路網制御装置1およびフィー
ドバック制御装置3に与えられることになる。一方、こ
れら制御装置1,3の出力の和としての制御信号(操作
量)は、パワーアンプ56の入力端子に供給される電圧
uに対応した信号ということになる。したがって、この
制御系は、動作信号としてのΔr,Δθを入力し、制御
信号としての電圧値uを出力する動作を行うことにな
る。
【0026】フィードバック制御装置3にこのような制
御動作を行わせるために、従来の一般的な制御理論によ
り、次のような式に基づいて供給電圧uを出力する制御
系を構築した。 u=k1*r+k2*(r−r0)+k3*θ+k4*
(θ−θ0) ここで、rは現在の台車の位置(単位m)、r0は一時
刻前の台車の位置(単位m)、θは現在の振子の揺動角
(単位rad)、θ0は一時刻前の振子の揺動角(単位
rad)である。また、k1〜k4は所定の定数であ
り、制御周期を20msとすると(すなわち、一時刻前
は20ms前の時点になる)、k1=3.5823,k
2=12.2448,k3=507.3,k4=18
2.7となる。
【0027】一方、神経回路網制御装置1としては、入
力層Aと出力層Cとの二層構造のものを用意した。ここ
で、入力層Aとしては、現在の台車の位置、一時刻前の
台車の位置、二時刻前の台車の位置、現在の振子の揺動
角、一時刻前の振子の揺動角、二時刻前の振子の揺動
角、という6つの情報を入力するために6つの神経細胞
により構成し、出力層Cとしては、パワーアンプ56に
対する供給電圧uを出力するために1つの神経細胞によ
り構成した。各神経細胞は、いずれも線形出力を行う細
胞とし、学習は、図2に示すような系を用い、初期状態
として、台車の位置:0.1m、振子の揺動角:+20
°を与え、1トライアルの学習として、20秒間の制御
動作を行った。そして、1トライアル中に得られた学習
用誤差信号によって、神経回路網制御装置1内の学習成
分(シナプス伝達効率値)の書き替えを行った。なお、
2回目以降のトライアルについては、初期状態を前回の
トライアルの初期状態からややずらすようにした。これ
は、この実験を計算機を用いた数値計算により行ってい
るため、同一の初期状態では、同一の動作が得られ、学
習が進行しなくなるためである。
【0028】この実施例では、評価値として、1トライ
アルの期間(20秒間)における揺動角θの平方θ
(θは正負両方の値をとるため、絶対値をとる意味で
θを用いた)の時間積分値に基づく値、すなわち、Σ
θdtに基づく値を定義した(前述したように、この
ような偏差の時間積分値は、値が小さいほど制御能力が
高いことを表すため、評価値とは大小関係が逆にな
る)。
【0029】図6は、このようなトライアルによる学習
を繰り返し実行したときの、θの時間積分値(評価値
に対応)とトライアル回数との関係を示すグラフであ
る。ここで、実線で示すグラフが、従来の方法による結
果を示す。従来の学習方法では、すべてのトライアルの
学習をそのまま受け入れてしまうため、8回目のトライ
アルまでは、積分値が単調減少しており(評価値は単調
増加)、学習促進期となっているが、9回目のトライア
ルから逆に積分値は増加し、学習破壊が行われている。
以下、学習促進期と学習破壊期とが交互に現われている
が、全体的には、8回目のトライアル時に最も高い評価
値が得られた後、評価値は低下する一方である。したが
って、8回目以降のトライアルに基づく学習を行えば行
うほど、制御能力は低下してゆくことになる。これに対
し、本発明の学習方法では、9回目以降のトライアルに
よる学習はすべて受け入れられずに拒否されることにな
り、図に破線で示すように、常に最も高い評価値が最後
のトライアルに至るまで維持されることになる。このよ
うに、本発明に係る学習方法は、学習を、常に促進され
る方向にのみ進め、学習破壊が行われる方向に進むこと
を抑止する機能をもっている。
【0030】また、本発明は、このように学習を正しい
方向に進行させる機能だけでなく、学習後の制御特性を
所望の方向に導くという付加的な機能をも有する。すな
わち、学習前には全く同一の神経回路網制御装置1であ
ったとしても、評価値の定義の仕方によって、学習後の
制御特性を異ならせることができるのである。たとえ
ば、2つの全く同一な神経回路網制御装置を用意し、第
1の制御装置については、前述したように、振子52の
揺動角の平方θに基づく評価値を定義し、第2の制御
装置については、たとえば、台車51の位置rに基づく
評価値を定義したとする。このような評価値定義を行っ
た後、両制御装置に対して本発明に係る学習方法を実施
すると、第1の制御装置は、揺動角θをできるだけ0に
維持するような制御を学習することになるのに対し、第
2の制御装置は、台車51の位置rをできるだけ0に維
持するような制御を学習することになる。したがって、
学習前は全く同一の制御装置であっても、学習後には異
なる制御特性をもった装置になる。このように、評価値
の設定次第で、所望の制御特性をもった制御装置を教育
できる点が、本発明の付加的な効果である。
【0031】以上、本発明を図示する実施例に基づいて
説明したが、本発明はこの実施例に限定されるものでは
なく、この他にも種々の態様で実施可能である。たとえ
ば、上述の実施例では、神経回路網制御装置を用いた例
のみを示したが、本発明に係る学習方法は、神経回路網
制御装置に対してだけでなく、学習機能をもった制御装
置に広く適用可能なものである。
【0032】
【発明の効果】以上のとおり、本発明に係る制御装置の
学習方法によれば、制御能力を示す評価値が向上する学
習だけを受け入れて学習成分の書き替えを行うようにし
たため、より効果的な学習を行うことができるようにな
る。
【図面の簡単な説明】
【図1】一般的な神経回路を用いた制御装置の基本構成
を示すブロック図である。
【図2】図1に示す制御装置に対する学習プロセスを説
明するブロック図である。
【図3】図2に示す学習プロセスの過程における制御能
力の変遷を示すグラフである。
【図4】本発明に係る学習方法の手順を示す流れ図であ
る。
【図5】本発明に係る学習方法の適用対象となる具体的
な倒立振子システムを説明する図である。
【図6】図5に示す倒立振子システムを制御する装置に
ついての学習効果を示すグラフである。
【符号の説明】
1…神経回路網制御装置 2…制御対象 3…フィードバック制御装置 51…台車 52…振子 53…ベルト 54…プーリ 55…直流モータ 56…パワーアンプ A1〜A5…入力層の神経細胞 B1〜B5…中間層の神経細胞 C1〜C5…出力層の神経細胞

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 学習成分を書き替えることにより異なる
    制御動作を行わせることができる制御装置に対して、制
    御能力を向上させるための学習を行う方法であって、 現時点での学習成分を保存するとともに、現時点での制
    御能力を示す評価値G0を求める第1の段階と、 学習を進めることにより学習成分の書き替えを行い、書
    き替え後の制御能力を示す評価値G1を求める第2の段
    階と、 評価値G1>G0の場合には、学習成分を書き替えた状
    態のままとし、評価値G1<G0の場合には、学習成分
    を第1の段階で保存したものに戻し、評価値G1=G0
    の場合には、学習成分を書き替えた状態のままとするか
    または第1の段階で保存したものに戻す第3の段階と、 をこの順番に繰り返し実行することを特徴とする学習機
    能をもった制御装置の学習方法。
  2. 【請求項2】 学習成分を書き替えることにより異なる
    制御動作を行わせることができる制御装置に対して、制
    御能力を向上させるための学習を行う方法であって、 学習機能を有さないフィードバック制御装置と、学習対
    象となる制御装置とを並列に配置し、これら両制御装置
    の出力の和を制御対象に操作量として与え、この制御対
    象から得られる所定の制御量と目標値との偏差を、前記
    両制御装置に入力として与える制御系を形成し、 前記学習対象となる制御装置について、現時点での学習
    成分を保存するとともに、現時点での制御能力を示す評
    価値G0を求める第1の段階と、 所定の期間、前記両制御装置により前記制御対象を制御
    しながら、前記フィードバック制御装置の出力を零にす
    ることを目的として、前記学習対象となる制御装置の学
    習成分の書き替えを行い、書き替え後の前記学習対象と
    なる制御装置の制御能力を示す評価値G1を求める第2
    の段階と、 評価値G1>G0の場合には、学習成分を書き替えた状
    態のままとし、評価値G1<G0の場合には、学習成分
    を第1の段階で保存したものに戻し、評価値G1=G0
    の場合には、学習成分を書き替えた状態のままとするか
    または第1の段階で保存したものに戻す第3の段階と、 の3つの段階を、この順番に繰り返し実行することを特
    徴とする学習機能をもった制御装置の学習方法。
JP6022210A 1994-01-21 1994-01-21 学習機能をもった制御装置の学習方法 Abandoned JPH07210535A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6022210A JPH07210535A (ja) 1994-01-21 1994-01-21 学習機能をもった制御装置の学習方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6022210A JPH07210535A (ja) 1994-01-21 1994-01-21 学習機能をもった制御装置の学習方法

Publications (1)

Publication Number Publication Date
JPH07210535A true JPH07210535A (ja) 1995-08-11

Family

ID=12076443

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6022210A Abandoned JPH07210535A (ja) 1994-01-21 1994-01-21 学習機能をもった制御装置の学習方法

Country Status (1)

Country Link
JP (1) JPH07210535A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020187489A (ja) * 2019-05-13 2020-11-19 株式会社東芝 制御装置、制御方法、及びモータ制御システム
JP6813231B1 (ja) * 2019-10-21 2021-01-13 株式会社エイシング 制御装置、方法、プログラム及びシステム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020187489A (ja) * 2019-05-13 2020-11-19 株式会社東芝 制御装置、制御方法、及びモータ制御システム
JP6813231B1 (ja) * 2019-10-21 2021-01-13 株式会社エイシング 制御装置、方法、プログラム及びシステム
WO2021079411A1 (ja) * 2019-10-21 2021-04-29 株式会社エイシング 制御装置、方法、プログラム及びシステム
US11940787B2 (en) 2019-10-21 2024-03-26 Aising Ltd. Control device, method, program, and system using machine learning technology

Similar Documents

Publication Publication Date Title
US20110276150A1 (en) Neural network optimizing sliding mode controller
CN105116733B (zh) 改良型粒子群寻优神经网络超声波电机控制系统及其方法
GB2258742A (en) "predictive control method and apparatus".
Celemin et al. Coach: Learning continuous actions from corrective advice communicated by humans
CN115990888A (zh) 一种具有死区和时变约束功能的机械臂控制方法
JPH07210535A (ja) 学習機能をもった制御装置の学習方法
JP3582676B2 (ja) サーボ系の制御ゲイン調整装置およびその調整方法
JPH07210209A (ja) 神経回路を用いた制御装置
JPH0883103A (ja) 調節器パラメータの自動調整装置
Mohammadian et al. Fuzzy logic and genetic algorithms for intelligent control and obstacle avoidance
JPH0643944A (ja) 防振制御方法
Celemin et al. Teaching agents with corrective human feedback for challenging problems
Shimooka et al. Generating equations with genetic programming for control of a movable inverted pendulum
US20020198853A1 (en) Controlling the self learning behavior of an autonomous agent
Prokhorov Toward effective combination of off-line and on-line training in ADP framework
JPH0254304A (ja) 非線形システム学習制御装置
CN112977606B (zh) 基于ddpg的线控转向系统转向补偿控制方法及装置
CN114002957B (zh) 一种基于深度强化学习的智能控制方法及系统
Pérez et al. Reward-modulated learning using spiking neural networks for vehicle lateral control
WO2000010098A1 (fr) Machine de traitement des donnees, technique de traitement des donnees et support correspondant
KR20000051941A (ko) 실시간 학습형 제어기
Chen et al. Adaptive control of a class of nonlinear systems using neural networks
Watkins Automatic learning of efficient behaviour
Engel Attentional mode neural network: A new approach for real-time self-learning
JPH04309696A (ja) ニューラルネットワークを用いた小口径トンネルロボットの方向制御知識の獲得法

Legal Events

Date Code Title Description
A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20031224