JPH02270060A - 格付け学習装置 - Google Patents

格付け学習装置

Info

Publication number
JPH02270060A
JPH02270060A JP1330894A JP33089489A JPH02270060A JP H02270060 A JPH02270060 A JP H02270060A JP 1330894 A JP1330894 A JP 1330894A JP 33089489 A JP33089489 A JP 33089489A JP H02270060 A JPH02270060 A JP H02270060A
Authority
JP
Japan
Prior art keywords
grade
signal
processing
transfer function
subsequent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1330894A
Other languages
English (en)
Inventor
Duane D Desieno
デュアン・ディー・デシーノ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Publication of JPH02270060A publication Critical patent/JPH02270060A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Automation & Control Theory (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Feedback Control In General (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は適応情報を処理する方法及びそのシステムに関
し、さらに詳細には、好ましいの出力を知ることなく、
装置を訓練し、後続の処理能力を改良することが可能な
、神経ネットワークテクノロジーに基づく方法及び装置
に関する。
(従来の技術) 入出力関係の学習が可能な適応装置は、大部分が、各入
力に対する好ましい出力が知られているような管理され
た訓練(supervised training)の
場合に限定されてきた。入出力関係の適応学習が必要な
多くの場面で、各入力に対する好ましい出力が知られな
いことがある。しかしなから、作動環境における有効な
情報を監視し、この情報から、多くの入力群に対する適
応装置の処理能力を測定するための得点、すなわちグレ
ードを導出することができる場合も多い。適応装置はこ
のグレードを基礎として利用して、試行処理能力のシー
ケンスに関しその処理能力を改良することができる。
(発明が解決しようとする課題) しかしなから、これまでは、補強訓練が可能な適応装置
は、比較的単純な古典的調節関係や、参照表入出力関係
の適応展開に限定されてきた。
従って、本発明の目的は、これらの限界を克服し、任意
のグレードを利用した任意の入出力関係を学習可能な、
格付け(graded)学習方法及びその装置を提供す
るにある。
(課題を解決するための手段) 上記課題を解決するために、本発明によれば、任意の処
理環境に関連する動作を改良することが可能な適応回路
であって:処理環境の動作を制御するための制御可能な
伝達関数に従い、処理環境から入力信号を受け出力信号
を発生するべく連係された複数の処理要素を含む処理ネ
ットワークと;上記出力信号の制御の下に、処理環境の
動作の質を示すグレード信号を発生するべく、処理環境
の動作に呼応する任意のグレード付け関数を使用するこ
とが可能なグレード付け手段と;ランダムな信号を発生
するための発生器手段と;受けた入力信号に関し処理環
境に供給される出力信号を修正するべく処理環境の伝達
関数を選択的に変更するために、上記グレード信号と過
去の伝達関数の変更と上記ランダムな信号とに呼応する
探索手段とからなることを特徴とする装置が提供される
また本発明によれば、任意の処理環境に処理性能を改良
するための方法であって:処理環境の動作特性を示す人
力信号を形成し;その出力に呼応して処理環境の動作を
制御するべく、入力信号の制御可能な伝達関数としての
出力信号を形成し;上記出力信号の制御の下に処理環境
の動作の質を示す任意のグレード付け関数からグレード
を形成し;ランダム信号を発生し;受けた入力信号に関
し処理環境に供給された出力信号を修正するべく伝達関
数を選択的に変更するために、上記グレードと過去の伝
達関数の変更とランダム信号とに呼応する各段からなる
ことを特徴とする方法が提供される。
このように本発明においては、格付け(graded)
学習処理ネットワークにより、訓練期間中に入出力関係
を図示するようにして、その処理性能のグレードが定め
られる。処理ネットワークの動作の終わりに、その処理
性能のグレードが定められ、ネットワークの変数が調整
又は補正され、処理ネットワークは再度動作され、その
処理性能のグレードが定められる。処理性能のグレード
(例えば、良好又は不良)の順序、すなわち方向が記入
され、処理ネットワークは、後続の処理性能のグレード
に基づき、同方向(又は反対方向)に処理を進めること
ができる。
これにより、所与の時間の処理ネットワークの出力性能
に関する好ま(2い応答に付いての情報が不要になる。
また、作動パラメータが知られていない処理環境下の処
理性能を改良するための効果的な学習が行われる。
(実施例及び作用) 以下に、本発明の格付け学習装置及び方法を、理解を容
易にするために特別の実施例、すなわち典型的な応用に
言及しなから詳述する。第1図及び第2図に関して言え
ば、それぞれ、本発明の格付け学習装置の1つの実施例
を示すブロック図、及び本発明を典型的なほうきの柄の
バランシングに応用し光場合の典型的な処理環境の説明
図である。議論を明確にするために、第1図に示される
格付け学習装置の実施例は、はうきの柄11の処理環境
10の動作に即して説明する。はうきの柄11はトラッ
クの中央の可動カート13上でバランスされ、解析的結
論を計算に有用な、システムのパラメータに関する情報
は存在しない。この実施例においては、装置は処理ネッ
トワーク9を含むように構成され、この処理ネットワー
クは、後述する第4図に示されるように、いくつかの階
層、すなわちスラブ(slab)内に配列された、任意
の数の処理要素を含んでいる。例えば、第1図、第2図
及び第3図に示すように、処理ネットワーク9に対する
入カフは、一般に処理環境10からのアナログ信号又は
ディジタル信号を含むことが可能である。実施例では、
これらの入力は基準点12の位置、この基準点12の速
度及びこの基準点12の加速度を表示する。処理ネット
ワーク9の出力は一般に処理環境10に対するアナログ
信号又はディジタル信号である。実施例では、この出力
はカート13を駆動するモータへの速度コマンドである
第4図に示すように、処理要素は、処理ネットワーク9
内の他の処理要素からの入力を受信可能なように、相互
に連結することができる。
第4図に示すように、処理要素に対する入力信号は、そ
れぞれ、乗算され15、合計され17、さらにこの重み
付けられた合計19は関数要素21に供給される。この
関゛数要素21は、正弦波状(Signoid)関数の
ような線形又は非線形関数であり、(各処理要素からの
)出力23を発生する。
正弦波状関数の1つの可能な公式としては、f(x)=
(2/(1+eす))−1が揚げられる。かがる出力2
3は処理ネットワーク9の内部の別の処理要素の別の入
力として供給する事も可能であり、また処理ネットワー
ク9の外部の処理環境10に供給することも可能である
。本発明の1つの実施例においては、処理ネットワーク
9内の各処理要素からの出力は、(図面に明示はしない
が)ネットワーク内の他の全ての処理要素の入力に連係
され、完全な相互連係ネットワークを構成している。も
ちろん、この完全な相互連係ネットワークの代わりに、
別の処理要素からなるネットワークを構成することも可
能である。例えば、この処理要素を複数の階層内に配列
することも可能であり、この場合には第1の階層は入カ
フにのみ連係され、第2の階層は第1の階層の出力に連
係されると入った手順により、いわゆる「フィード・フ
ォワード・ネットワーク」が構成される。
本発明の1つの実施例においては、格付け学習のプロセ
スは、第1図及び第5図のブロック図に示されるような
、探索要素34を利用して実施される。概略的に示され
た探索要素34は要素間の電圧又はディジタル信号の伝
達を説明している。探索要素34には3つの基本的タイ
プの回路動作が含まれている。ラッチ25,27.29
は更新コマンドにより可変の信号を保持する。加算要素
28及び乗算要素31は、それぞれ、供給された入力を
加算又は乗算し、結果的に探索要素の「重み付け」出力
37を発生する。これらの探索要素34は一連の制御パ
ラメータ33及び乱数人力35を受け、第4図の処理要
素において乗算15を行うための「重み付け」出力37
を発生する。第1図、第2図及び第6図に示すようなグ
レード(すなわち処理能力)評価手段41の制御に基づ
き、制御パラメータ33が導出される。グレード評価手
段41は処理環境10からの入力を受ける。
事例においては、これらの入力として、はうきの柄11
の角度、トラック中央位置に対するほうきの柄11の位
置、さらにほうきの柄が倒れるまでの処理時間が含まれ
る。グレード評価手段41は特定の処理環境10に固有
のものであるが、さらに従来技術に属する回路をも含ん
でいる。この回路は適応入力を評価し、それから、特定
の処理環境lOに関する本発明に基づく処理性能を表す
出力信号43を発生するためのものである。
後述する第6図のブロック図に示されるように、制御要
素39はパラメータ33を発生し、次いでこのパラメー
タ33が探索要素34を動作させ、第4図に示す処理要
素内で乗算15を行うための「重み付け」出力37を発
生させる。
一般に、本発明に基づく格付け学習装置は、まず第1に
、処理環境10からの入カフ(例えば、はうきの柄ll
状の基準点12に関する角度、位置、速度と入った情報
)に応答して動作し、処理環境10(例えば、カート1
3状のパルスモータへのパルス割合)を制御するための
出力23を発生し、さらに、処理性能(例えば、どれだ
け上手くかつ長い時間はうきの柄がトラックの中央付近
でバランスされるか)についてのグレード43を受け取
る。このように、装置は処理環境10からの情報を学習
し、処理性能に関するグレード43を受け取る。グレー
ドは処理ネットワーク9に供給された最新の重み群37
に関して評価される。
グレードの特徴としては、(結果として生じた)最新の
重み群に完全に依存している点があげられ、重みが変化
した場合にはグレードも対応して変化するのである。但
し、処理性能に関する重みとグレード43の間の正確な
関係を知る必要はない。この代わりに、探索要素34は
最良の可能グレードを生成するための重みの組み合わせ
を見いだすように機能する。[良好(good)Jな重
み群が見いだされた場合には、探索要素34からのこれ
らの重みは、これまでの最良の処理性能グレードを生成
する最良の重みを示すために、「最良ラッチ」25に保
存される。さらに、第6図の制御要素内の「誤差ラッチ
」45はこの最良グレードの値を保持する。その後、第
5図の実施例に示すように、「重み」37は乱数人力3
5に応じて探索要素34により変えられ、新しい重みが
処理ネットワーク9に供給される。処理ネットワーク9
は入カフを受け、出力23を発生し、制御、すなわち、
「シュミレーション時限」と称される、いくつかの固定
時間間隔に関して処理環境10を操作する。この時限の
間、処理環境10から受けた環境情報14はグレード評
価手段41に供給され、このグレード評価手段41によ
りこの情報は処理され、処理環境lO内で処理ネットワ
ーク9がどれだけ上手く機能するかを示すグレード43
が発生される。ある応用では、グレード自体を環境情報
入力として供給することも可能である。この手順によっ
て、重み群が形成され、これによって処理ネ・ットワー
ク9は別の重み群より良好な処理が行われ、最良の重み
群が各探索要素34の「最良ラッチ」25内に記憶され
る。さらに、最良重み群に先行する値から形成される変
化もまた各探索要素34内のバイアスラッチ27に記憶
され、バイアスラッチ27の出力と乱数発生器51の出
力35から方向信号30が発生される。乱数発生器51
は乱数を統べての探索要素34に供給し、従前に試行さ
れていない新しい重み群が試行されるようにする。発生
器51により発生される数値のランダム性に関連する[
温度(temperature)J 、すなわち活動水
準を設定可能であり(例えば、より篇い温度はより広い
ランダム性の段階を示す)、この温度は各更新時の温度
ファクタ53により制御される。更新は処理環境10の
各処理の終わり(例えば、各シュミレーション時限の終
わり)に行われ、温度ファクタは乱数値を広くとったり
狭くとったりするために設定されるが、これは、ユーザ
が所望の学習特性を確立するに当たりどのようなファク
タを設定することを望んでいるかに依っている。
操作時、ランダムな新しい重み群37は、変化された重
みの方向と共に、更新によって確立される。新しい重み
37は処理ネットワーク9に供給され、処理ネットワー
ク9は処理環境lOの別の処理を行い、良好に処理され
たか不良に処理されたかについて処理能力の格付けが行
われる。
処理が不良である場合には(すなわち、より低いグレー
ド43)、バイアスラッチ27が記憶されたバイアス及
び現在の方向30に基づき変更される。方向30は単に
記憶されたバイアスの合計と探索要素34に供給された
乱数である。各探索要素34は、ある方向における重み
の変化がより高いグレードを生じるような好ましい変化
を展開させることが可能であり、探索要素34はより高
いグレードを生じる方向に重みを変化させ続けることが
できる。
第6図を参照するに、制御要素39は入力グレード43
に対応し、誤差ラッチ45内の最良のグレードを記憶す
る。処理環境10にランダム性が存在する場合には、こ
のグレードは操作の継続にともないゆっくりと減衰して
ゆく。この目的のためには、第6図の実施例において示
すように、グレード人力43と誤差ラッチ45の間には
、相互連係のネットワークが配設される。誤差ラッチ4
5内に保存された現在のグレード(すなわち真に最良の
グレードと入力のグレード43の間の差としての「誤差
」)及び入力グレード43により、処理環境10からの
入力グレードが実際にこれまでに誤差ラッチ45内に記
憶されたグレードよりも良好かどうか(すなわち「勝る
(win)J条件か)、あるいはこれまでに獲得され誤
差ラッチ45内に記憶されたものより低いかどうか(す
なわち「劣る(lose)J条件か)が決定される。勝
る条件の場合には、α、β及び温度ファクタ53を含む
関連する探索要素34を制御するファクタが変更され、
勝るファクタ55と共に、探索要素34に供給され最良
ラッチ25を、新しいより良好なグレードに関連してい
た重みと共に更新可能になる。入力パラメータ58はユ
ーザによって設定され、装置の学習特性を確立する。
セレクタ57はスイッチや、マルチプレクサなどにする
ことが可能であり、コンパレータ59の出力に応答して
、(セレクタ57を介して)各探索要素34に関連する
パラメータ33として供給されるべき入力パラメータ5
8が「勝る」か「劣る」かが選択される。探索要素34
は全て同じ構成をしており、処理ネットワーク9内のこ
この重みに関し1つの探索要素が存在するように、装置
内でそれぞれが別個に重み付けられる。重要なのは、処
理ネットワーク9に含み得る探索要素34の数の制限が
存在しないことであり、通常その数は数百乃至数千のオ
ーダーで設定される。
ただ1つの制御要素39がパラメータ33の選択を行う
ために必要とされ、さらにただ1つのグレード評価手段
41が処理環境lOの処理性能にアクセスするために必
要とされるのみである。もちろん、事例の処理環境IO
におけるほうきの柄のパンランシングに関する適用には
、処理ネットワーク9、グレード評価手段41及びカー
トの移動を操作するための関連する回路と共に、2つの
共平面軸に沿って移動するカート13が含まれる。
第2図に示した事例の処理環境IOにおける本発明の操
作においては、カート13は、(1つの軸で説明を行う
ために)1つの支点に固定されたほうきの柄11と共に
、固定トラック状を移動可能である。この処理環境lO
においては、本発明のネットワークは、トラックの中央
に垂直にほうきの柄11を保持するためにカート13の
速度を制御することを学習しようとする。これを達成す
るために、3つの入力が処理ネットワーク9から供給さ
れ、処理ネットワーク9からカート13に1つの出力2
3が供給される。これらの入力は=1)トラックの中央
に対するほうきの柄11状の基準点の位置、2)基準点
の速度、及び、3)基準点の加速度である。これらの入
力は従来の方法によって導出することができる。例えば
、位置、速度及び加速度のそれぞれのエンコーダから、
またステップモータによって駆動されるカート13上の
ほうきの柄11のディジタル化されたビデオ画像から導
出可能である。処理ネットワーク9の出力23は、ステ
ップモータに供給されるべき方向と秒単位のパルス数の
形式をとる速度コマンドであり、これらのコマンドは、
カート13を動かすためのステップモータの駆動に関す
る従来の回路によって行われる。本発明に基づく装置を
効果的に動作させるためには、所与のシュミレーション
時限に関するグレードを確立する必要がある。はうきの
柄11とカート13は、初期条件を一定にするために各
走行で一致するスタート地点から開始する。従って、各
シュミレーション走行における同じ初期条件から操作は
開始する。このシュミレーション走行は固定された時間
周期(例えば、15秒)に関し行われる。処理性能のグ
レードを確定するために、情報がほうきの柄11から導
出される。すなわち、1)直立からのほうきの柄11の
傾斜角度、2)トラックに沿ったほうきの柄の基準点1
2の位置、3)はうきの柄が倒れるまでの、シュミレー
ション走行の残り時間の総計である。
これらの入力はネットワークのグレード評価手段41に
供給される。グレード評価手段41はユーザが確立しよ
うと望む任意の関数と共に供給された入力により動作位
置、この関数としては、例えば、直立位置からの誤差(
すなわち、角度)シュミレーション時限にわたっての積
分や、トラックの中央からの走行距離や、はうきの柄1
1が倒れた倍にはシュミレーション時限の残余時間があ
る。
第7図には、処理環境10内の典型的な学習処理に関す
る本発明の動作のフローチャートが示されている。初期
動作条件61は、全ての処理ネットワーク9の重みに関
してゼロ値または乱数値で、及び初期のシュミレーショ
ン時限の動作に関しゼロバイアスで(すなわち、所望の
変化方向を示さずに)、開始される必要がある。これに
より示されることは、初期走行シュミレーション又は動
作63の間に処理ネットワーク9は本質的に何も行って
いないということであり、これにより、はうきの柄11
が倒れるまでにどの程度の時間を要するかについての基
線誤差、すなわちグレードが確立され、さらにグレード
評価手段41内で、処理ネットワーク9が何も行ってい
ないことを示すグレード43が展開される。
このグレードは誤差ラッチ65にセットされ、α及びβ
33,58を含む装置に関する定数が供給される。ユー
ザによって供給されるべき通常の入力パラメータは以下
のごとくである: 誤差ファクタ「勝るJ = 1.0 誤差フアクタ[劣るJ = 0.0 「勝る」α      =08 「劣る」α      =0.9 「勝る」β      = 0.25 「劣る」β      =−0,01 「勝る」温度ファクター 1.01 「劣る」温度ファクター 0.995 初期走行のグレード付け及び定数を確立した後に、更新
パルスが処理ネットワーク9内に新しい重み群を確立す
るためにネットワーク制御要素39及び探索要素34に
送られる(67)。これらの新しい重み群と共に、より
良好なグレード43またはより不良なグレードを示すあ
る処理性能を備えた処理環境10が再び動作する(69
)。さらに、先行する処理性能の結果及びこれまでの最
良の走行結果に基づく新しい重み70の確立を含む、別
のグレード付け学習反復71を初期化するために、更新
パルスが供給される。処理環境内でシュミレートされた
走行または動作の後に、グレードが評価され、最良の重
みの組み合わせが認容可能な結果であるかが決定される
(73)。
この代わりに、温度ファクタがある値よりも低くなった
場合に、または動作またはシュミレーション及び更新が
所定のサイクル行われた後に、または最良の重みが決定
された後に、または重みの改良が不要になった後に、学
習の改良を停止させることも可能である。更新を実行す
るにあたり、現在のグレードが誤差ラッチ45内の値と
比較され、このグレードが誤差ラッチ45内の値よりも
多いか少ないかが検討される(77)。これにより、現
在の重みが最良ラッチ25に記憶されるべきか否かが決
定される(79)。処理性能がより良好なグレードに示
されるように改良され、その結果処理ネットワークが改
良され、さらに最良ラッチ25内に現在の重みが記憶さ
れた場合には、新しい方向が確立され(81)、さらに
改良のための探索が継続される。バイアスラッチ27内
の値及び温度ラッチ29内の温度ファクタが補正ないし
修正され、新しい乱数が探索要素34の入力に供給され
、処理環境10の動作が始まる前に、(最良バイアス及
び新しい乱数入力の組み合わせに基づき)新しい重みが
発生される。このようにし、動作及びグレード付けを継
続することにより処理性能のグレードアップを図ること
ができる。従って、本発明の処理ネットワーク内の重み
は、処理環境10内の一連の処理性能のグレード及び動
作に呼応して、処理環境10内のグレード付けされた処
理性能、及び最良の重みが選択され好ましい変化の方向
が決定された格付けされた学習の結果、初期値(すなわ
ち、ゼロ値または乱数値)から変更される。
本発明の如上の実施例において、変化の方向は任意に選
択可能であり、処理環境lOの動作またはシュミレーシ
ョンは再びグレード付けされる。処理性能がより良好に
グレード付けされた場合には、重み及び値が記憶され、
変化の方向が保持され、後続する試行変化が同じ方向に
対して行われ、後続するシュミレーション内において処
理性能のグレードの改良が図られる。改良される変化の
方向を示すバイアスが、乱数入力に基づく先行の変化の
方向から(異なる場合には)更新される。結果として、
重み変化は、処理性能のグレードが処理環境10内の後
続するシュミレーションまたはどうさないで改良を続け
る間は、この新しい方向に対して行われる。
さらに、あるランダム性が変化の寸法に導入され、変化
が余り線形増加を示さないようにされる。これにより、
バイアス方向における新しいランダムな重みにより予測
不能の処理性能を生じさせることが可能な、あるいは規
則的な増分変化によって確立されるような中間重みにお
ける変則的な処理性能を回避可能な実験要素が提供され
る。もちろん、かかる実験は、後続のシュミレーション
における処理性能のグレードに示されるように成功する
場合もあれば失敗する場合もある。格付けされた学習及
びしゆみれ−しょんの各サイクルにより改良されたグレ
ードが生成される場合には、バイアスは、処理能力の改
良が進展しているという事実によって補強され、処理性
能のグレードが改良される限りは、バイアス方向に対す
る大きな変化が正当化される。温度ファクタは増加され
、格付け学習プロセスに対しより大きなランダム性を供
給する。
結果として、シュミレーションの継続とバイアス方向に
対する変化により、先行する値よりも劣る処理性能グレ
ードが示される場合がある。
これにより、最良の結果から現在の方向を減じることに
よる実験的変化の[失敗(failure) Jに基づ
く、バイアスの変化83が引き起こされる。
このバイアスからの減法は、現在の変化の方向が不良で
ある、あるいは少なくともより好ましくないことを示し
ており、このある方向への変化のバイアスは減少される
。このようにして、処理性能のグレードの改良をもたら
すものとして選択された方向に対する重みの変化が結果
的により劣るグレードをもたらした場合には、バイアス
が変化し、別の(反対の)方向に重みの変化が生じる。
これに続き、他の方向に対してランダムなサイズで重み
変化のステップが刻まれる。このように、本発明の格付
けされた学習動作により、連続的に改良された処理性能
が所望の方向に対する実験の変化をさらに正当化するが
、あるいは、結果的に劣る処理性能型の方向に対する変
化を正当化するのが、に関する問題を解決するための試
行−誤差図式のシュミレーションが行われる。
上述のバイアスはどちらの道が「下り坂」か(すなわち
、改良に対する否定的な勾配)を示している。これが本
発明が改良された処理能力に関する確立された変化の方
向を利用することを可能にし、より効果的な最適処理能
力グレードに関する最適条件の探索を可能にする。本発
明のこのアスペクトは、動作要素が見いだせない、ある
いは適切に特徴づけることができないまたはモデル化で
きない、あるいは(偏流性、非線形性といった)ランダ
ム性が存在するような処理環境10に対して特に有利に
作用する。これに対して、適切に特徴づけることができ
るまたはモデル化可能な処理環境の数値分析によれば、
重みをどちらの方向に変化させるかを知り、分析結果を
利用することにより、予測可能に重みを変化させること
ができる。しかしなから、本0発明による格付けされた
学習は、むしろ、重み変化のランダム性及び改良された
処理性能のグレードを形成した変化を示す情報の蓄積に
依拠しているのである。
次に本発明に基づくネットワークに供給されるパラメー
タに関し言及すれば、−船釣に温度ファクタは処理性能
のグレードが改良された場合に増加され、処理性能のグ
レードが下がった場合に減少され、このようにして、処
理性能グレードがより劣る場合に新しい重み変化をセッ
トする場合には、より少ないランダム性が考慮される。
かくして、現在の解決をめぐって、重みの最良の解決が
獲得されない場合でも、否定的な勾配(すなわち下り坂
)の処理性能はグレードにおいて改良されることが期待
される。処理性能のグレードが低下するまで大きなステ
ップの変化が行われ、その時点で処理性能のグレードが
再び改良されるまで、バイアスファクタも連続的に減少
される。さらに、処理性能のグレードの改良が獲得され
るまで、温度ファクタも変化を狭めるために減少される
。このように、シュミレーションによって良好な重みの
組み合わせが見いだされない場合には、選択された方向
において現在の重み及び値から小さなステップをおいた
ところにあるより良い結果により改良された処理性能の
グレードが形成されるまで1、段階的な変化は徐々に小
さなステップをとる傾向にある。正しい方向に対する小
さなステップの変化による改良された処理性能のグレー
ドの探索に呼応して、バイアスがさらに変化し、より大
きなステップ変化が形成される。この変化は改良された
処理性能のグレードが形成されるまで継続するが、その
様子は、最良の解決に向かって[下る(down th
e hill) Jように、速度と運動量を増加させる
のと類似しており、最良の結果を通過し、さらにより減
少された温度ファクタとより小さなステップの変化で戻
ってくる動作が、改良された処理性能のグレードが了解
されるまで継続する。実験の処理環境10においては、
本発明の動作は、モデル化またはほうきの柄11及びカ
ート13の動作に関する制御の法則から導出される何ら
かのものを知ること無しに、はうきの柄11のバランス
をとることを学習しており、これは如何にほうきの柄1
1のバランスを取るかについての解析的結果を行使する
場合とは対極をなしている。
(発明の効果) このように、実際の物理実験においては、通常は動作パ
ラメータは計算に基づくパラメータとは異なっているが
、あるいは従来の解析的結果から導出される何らかのも
のとは異なっているが、本発明によれば、かかる環境に
おける最良の可能な解決方法を見いだすことができる。
(あるいは、少なくとも、解析的技術により見いだされ
る解決策よりも良好な結果を得ることができる。) 従って、本発明に基づく格付け学習の装置及び方法は従
来の装置とは異なり1、装置の全ての処理性能のうちい
くつかの測定値が与えられる限り、装置の学習を行うた
めに装置の所望のあるいは期待すべき出力を知ることを
必要としない。
【図面の簡単な説明】
第1図は、本発明の1つの実施例に基づく処理ネットワ
ーク、すなわち装置のブロック図であり; 第2図は、第1図に示す処理ネットワークと典型的な処
理環境との相互作用を示した説明図であり; 第3図、第1図及び第2図の処理ネットワークのあるブ
ロックを示し; 第4図は、本発明に基づく処理要素に関するある実施例
のブロックを示し; 第5図は、第1図に示す実施例の探索要素のブロックを
示し; 第6図は、第1図に示す実施例の制御要素のブロックを
示し; 第7図は、訓練処理をめぐる本発明の動作を示したフロ
ーチャートである。 7・・・入力、9・・・処理ネットワーク、10・・・
処理環境、11・・・はうきの柄、12・・・基準点、
13・・・可動カート、14・・・環境情報、15・・
・積算、17・・・合計、19・・・重み付け合計、2
1・・・関数要素、23・・・出力、25・・・最良ラ
ッチ、27・・・バイアスラッチ、28・・・加算要素
、29・・・ラッチ、30・・・方向信号、31・・・
乗算要素33・・・制御パラメータ、34・・・探索要
素、35・・・乱数入力、37・・・「重み付け」出力
、41・・・グレード評価手段、43・・・グレード、
45・・・誤差ラッチ、51・・・乱数発生器、53・
・・温度ファクタ、55・・・勝るファクタ、57・・
・セレクタ、58・・・入力パラメータ・59・・・コ
ンパレータ、

Claims (1)

  1. 【特許請求の範囲】 1 任意の処理環境に関連する動作を改良することが可
    能な適応回路であって: 処理環境の動作を制御するための制御可能な伝達関数に
    従い、処理環境から入力信号を受け出力信号を発生する
    べく連係された複数の処理要素を含む処理ネットワーク
    と; 上記出力信号の制御の下に、処理環境の動作の質を示す
    グレード信号を発生するべく、処理環境の動作に呼応す
    る任意のグレード付け関数を使用することが可能なグレ
    ード付け手段と; ランダムな信号を発生するための発生器手段と; 受けた入力信号に関し処理環境に供給される出力信号を
    修正するべく処理環境の伝達関数を選択的に変更するた
    めに、上記グレード信号と過去の伝達関数の変更と上記
    ランダムな信号とに呼応する探索手段とからなることを
    特徴とする装置。 2 上記探索手段が、グレード信号とランダム信号の組
    み合わせとして、関連する処理要素の伝達関数を変更す
    るための出力を発生することを特徴とする、請求項1に
    記載の装置。 3 上記探索手段が各処理要素のための探索回路を含み
    、この各処理要素が、グレード信号を記憶するための記
    憶手段と、記憶されたグレード信号を越える後続のグレ
    ード信号に呼応する場合にのみ関連する処理要素の伝達
    関数を変更するために後続するグレード信号と記憶され
    たグレード信号とを比較するために記憶手段に連係され
    た比較器手段とからなることを特徴とする請求項1に記
    載の装置。 4 上記探索手段が、後続するグレード信号とランダム
    信号の組み合わせとして、記憶されたグレード信号を越
    える後続するグレード信号に呼応して関連する処理要素
    の伝達関数を変更するための出力信号を発生することを
    特徴とする、請求項3に記載の装置。 5 上記ランダム信号のバリエーションの範囲が、グレ
    ード信号を改良すると共に関連する処理要素の伝達関数
    のバリエーションの大きさを変更するために、後続する
    グレード信号に呼応して変化させられることを特徴とす
    る、請求項4に記載の装置。 6 上記範囲が、グレード信号を改良すると共に関連す
    る処理要素の伝達関数のバリエーションの大きさを増加
    するために、記憶されたグレード信号を超過する上記後
    続のグレード信号に呼応して増加することを特徴とする
    、請求項4に記載の装置。 7 上記探索手段が、関連する処理要素の伝達関数の変
    化方向を示す信号を記憶するための補助の記憶手段を含
    み;さらに、記憶されたグレード信号を越えない後続す
    るグレード信号に呼応して、上記補助の記憶手段に記憶
    された信号を変更するために、上記補助の記憶手段に連
    係された回路手段とをさらに含むことを特徴とする、請
    求項3に記載の装置。 8 任意の処理環境に処理性能を改良するための方法で
    あって: 処理環境の動作特性を示す入力信号を形成し; その出力に呼応して処理環境の動作を制御するべく、入
    力信号の制御可能な伝達関数としての出力信号を形成し
    ; 上記出力信号の制御の下に処理環境の動作の質を示す任
    意のグレード付け関数からグレードを形成し; ランダム信号を発生し; 受けた入力信号に関し処理環境に供給された出力信号を
    修正するべく伝達関数を選択的に変更するために、上記
    グレードと過去の伝達関数の変更とランダム信号とに呼
    応する各段からなることを特徴とする方法。 9 上記呼応する段において、グレード及びランダム信
    号の論理的組み合わせとして上記伝達関数が変更される
    ことを特徴とする、請求項8に記載の装置。 10 上記呼応する段において、初期のグレードが記憶
    され、記憶されたグレードを後続するグレードが超過す
    る場合にのみ制御可能な伝達関数を変更するために、後
    続するグレードを記憶されたグレードと比較することを
    特徴とする、請求項8に記載の方法。 11 後続するグレードとランダム信号の論理的組み合
    わせとして、後続のグレードが記憶されたグレードを越
    えた場合に伝達関数を変更することを特徴とする、請求
    項10に記載の方法。 12 グレードの改良と共に伝達関数の変更の大きさを
    変更するために、後続のグレードに呼応して、ランダム
    信号のバリエーションの範囲が偏することを特徴とする
    、請求項11に記載の方法。 13 グレードの改良と共に伝達関数の変更の大きさを
    増加するために、記憶されたグレードを超過する後続の
    グレードに呼応して、上記範囲が増加することを特徴と
    する、請求項12に記載の方法。 14 上記呼応する段において、伝達関数の変化の方向
    を示す指示が記憶され、上記指示が、記憶されたグレー
    ドを超過しない後続のグレードに呼応して変更されるこ
    とを特徴とする、請求項10に記載の方法。
JP1330894A 1988-12-21 1989-12-20 格付け学習装置 Pending JPH02270060A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US287877 1988-12-21
US07/287,877 US4933871A (en) 1988-12-21 1988-12-21 Graded learning device and method

Publications (1)

Publication Number Publication Date
JPH02270060A true JPH02270060A (ja) 1990-11-05

Family

ID=23104754

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1330894A Pending JPH02270060A (ja) 1988-12-21 1989-12-20 格付け学習装置

Country Status (2)

Country Link
US (1) US4933871A (ja)
JP (1) JPH02270060A (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5414865A (en) * 1985-09-17 1995-05-09 Beran; James T. Self-programming with limited sequential memory capacity
JPH0660826B2 (ja) * 1989-02-07 1994-08-10 動力炉・核燃料開発事業団 プラントの異常診断方法
JPH03189856A (ja) * 1989-12-20 1991-08-19 Fujitsu Ltd 外部評価基準の学習方式
US5172253A (en) * 1990-06-21 1992-12-15 Inernational Business Machines Corporation Neural network model for reaching a goal state
US5113482A (en) * 1990-06-21 1992-05-12 International Business Machines Corporation Neural network model for reaching a goal state
US5263122A (en) * 1991-04-22 1993-11-16 Hughes Missile Systems Company Neural network architecture
US5214746A (en) * 1991-06-17 1993-05-25 Orincon Corporation Method and apparatus for training a neural network using evolutionary programming
US5283418A (en) * 1992-02-27 1994-02-01 Westinghouse Electric Corp. Automated rotor welding processes using neural networks
JP3178884B2 (ja) * 1992-03-30 2001-06-25 株式会社東芝 ニューラルネットワーク装置
JPH06203005A (ja) * 1992-10-27 1994-07-22 Eastman Kodak Co 高速区分化ニューラルネットワーク及びその構築方法
US5857177A (en) * 1994-03-08 1999-01-05 Alstroem; Preben Neural network
US5848402A (en) * 1994-07-07 1998-12-08 Ai Ware, Inc. Universal system for artificial intelligence based learning, categorization, and optimization
US5761387A (en) * 1994-09-12 1998-06-02 Fuji Xerox Co., Ltd. System controller
US5802506A (en) * 1995-05-26 1998-09-01 Hutchison; William Adaptive autonomous agent with verbal learning
US6004021A (en) * 1995-09-28 1999-12-21 Chaos, L.L.C. Toy system including hardware toy pieces and toy design software for designing and building various toy layouts using the hardware toy pieces
US5709581A (en) * 1996-09-24 1998-01-20 Chaos, L.L.C. Kinetic toy
US6074269A (en) * 1996-09-24 2000-06-13 Choas, L.L.C. Kinetic toy
US5785573A (en) * 1996-09-24 1998-07-28 Chaos, L.L.C. Kinetic toy
US7849030B2 (en) * 2006-05-31 2010-12-07 Hartford Fire Insurance Company Method and system for classifying documents

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4760604A (en) * 1985-02-15 1988-07-26 Nestor, Inc. Parallel, multi-unit, adaptive, nonlinear pattern class separator and identifier

Also Published As

Publication number Publication date
US4933871A (en) 1990-06-12

Similar Documents

Publication Publication Date Title
JPH02270060A (ja) 格付け学習装置
Gruau et al. A comparison between cellular encoding and direct encoding for genetic neural networks
Smith et al. Automated calibration of a fuzzy logic controller using a cell state space algorithm
Tesauro Extending Q-learning to general adaptive multi-agent systems
Konidaris et al. Efficient Skill Learning using Abstraction Selection.
Tao et al. Robust fuzzy control for a plant with fuzzy linear model
JP2001236337A (ja) ニューラルネットワークによる予測装置
EP0540168B1 (en) Simulator using a neural network
Zhang et al. A fast UD factorization-based learning algorithm with applications to nonlinear system modeling and identification
CN114912357A (zh) 基于用户模型学习的多任务强化学习用户运营方法及系统
Baxter et al. Direct gradient-based reinforcement learning: II. Gradient ascent algorithms and experiments
Omatu et al. Stabilization of inverted pendulum by the genetic algorithm
Öztürk et al. An educational tool for the genetic algorithm-based fuzzy logic controller of a permanent magnet synchronous motor drive
Chan et al. Tuning of fuzzy controller for an open-loop unstable system: a genetic approach
Ng et al. Neural integrated fuzzy controller (nif-t) and real-time implementation of a ball balancing beam (bbb)
Camachol Inducing models of human control skills
Mezghani et al. Multimodel control of discrete systems with uncertainties
JP7378309B2 (ja) 作業装置
US6760692B1 (en) Structure of a trainable state machine
Pikuliak Development of an adaptive module of the distance education system based on a hybrid neuro-fuzzy network
US6662169B2 (en) Controlling the self learning behavior of an autonomous agent
Haddow et al. Evolving a robot controller in hardware
Cotta et al. Evolutionary design of fuzzy logic controllers
Pasemann et al. Evolving structure and function of neurocontrollers
KR19980084979A (ko) 퍼지 전문가 장치를 이용한 피아이디 제어기의 계수조정 장치 및 그의 제어방법