JPH02270060A

JPH02270060A - 格付け学習装置

Info

Publication number: JPH02270060A
Application number: JP1330894A
Authority: JP
Inventors: Duane D Desieno; デュアン・ディー・デシーノ
Original assignee: Individual
Current assignee: Individual
Priority date: 1988-12-21
Filing date: 1989-12-20
Publication date: 1990-11-05
Also published as: US4933871A

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（産業上の利用分野）本発明は適応情報を処理する方法及びそのシステムに関
し、さらに詳細には、好ましいの出力を知ることなく、
装置を訓練し、後続の処理能力を改良することが可能な
、神経ネットワークテクノロジーに基づく方法及び装置
に関する。

（従来の技術）入出力関係の学習が可能な適応装置は、大部分が、各入
力に対する好ましい出力が知られているような管理され
た訓練（ｓｕｐｅｒｖｉｓｅｄ　ｔｒａｉｎｉｎｇ）の
場合に限定されてきた。入出力関係の適応学習が必要な
多くの場面で、各入力に対する好ましい出力が知られな
いことがある。しかしなから、作動環境における有効な
情報を監視し、この情報から、多くの入力群に対する適
応装置の処理能力を測定するための得点、すなわちグレ
ードを導出することができる場合も多い。適応装置はこ
のグレードを基礎として利用して、試行処理能力のシー
ケンスに関しその処理能力を改良することができる。

（発明が解決しようとする課題）しかしなから、これまでは、補強訓練が可能な適応装置
は、比較的単純な古典的調節関係や、参照表入出力関係
の適応展開に限定されてきた。

従って、本発明の目的は、これらの限界を克服し、任意
のグレードを利用した任意の入出力関係を学習可能な、
格付け（ｇｒａｄｅｄ）学習方法及びその装置を提供す
るにある。

（課題を解決するための手段）上記課題を解決するために、本発明によれば、任意の処
理環境に関連する動作を改良することが可能な適応回路
であって：処理環境の動作を制御するための制御可能な
伝達関数に従い、処理環境から入力信号を受け出力信号
を発生するべく連係された複数の処理要素を含む処理ネ
ットワークと；上記出力信号の制御の下に、処理環境の
動作の質を示すグレード信号を発生するべく、処理環境
の動作に呼応する任意のグレード付け関数を使用するこ
とが可能なグレード付け手段と；ランダムな信号を発生
するための発生器手段と；受けた入力信号に関し処理環
境に供給される出力信号を修正するべく処理環境の伝達
関数を選択的に変更するために、上記グレード信号と過
去の伝達関数の変更と上記ランダムな信号とに呼応する
探索手段とからなることを特徴とする装置が提供される
。

また本発明によれば、任意の処理環境に処理性能を改良
するための方法であって：処理環境の動作特性を示す人
力信号を形成し；その出力に呼応して処理環境の動作を
制御するべく、入力信号の制御可能な伝達関数としての
出力信号を形成し；上記出力信号の制御の下に処理環境
の動作の質を示す任意のグレード付け関数からグレード
を形成し；ランダム信号を発生し；受けた入力信号に関
し処理環境に供給された出力信号を修正するべく伝達関
数を選択的に変更するために、上記グレードと過去の伝
達関数の変更とランダム信号とに呼応する各段からなる
ことを特徴とする方法が提供される。

このように本発明においては、格付け（ｇｒａｄｅｄ）
学習処理ネットワークにより、訓練期間中に入出力関係
を図示するようにして、その処理性能のグレードが定め
られる。処理ネットワークの動作の終わりに、その処理
性能のグレードが定められ、ネットワークの変数が調整
又は補正され、処理ネットワークは再度動作され、その
処理性能のグレードが定められる。処理性能のグレード
（例えば、良好又は不良）の順序、すなわち方向が記入
され、処理ネットワークは、後続の処理性能のグレード
に基づき、同方向（又は反対方向）に処理を進めること
ができる。

これにより、所与の時間の処理ネットワークの出力性能
に関する好ま（２い応答に付いての情報が不要になる。

また、作動パラメータが知られていない処理環境下の処
理性能を改良するための効果的な学習が行われる。

（実施例及び作用）以下に、本発明の格付け学習装置及び方法を、理解を容
易にするために特別の実施例、すなわち典型的な応用に
言及しなから詳述する。第１図及び第２図に関して言え
ば、それぞれ、本発明の格付け学習装置の１つの実施例
を示すブロック図、及び本発明を典型的なほうきの柄の
バランシングに応用し光場合の典型的な処理環境の説明
図である。議論を明確にするために、第１図に示される
格付け学習装置の実施例は、はうきの柄１１の処理環境
１０の動作に即して説明する。はうきの柄１１はトラッ
クの中央の可動カート１３上でバランスされ、解析的結
論を計算に有用な、システムのパラメータに関する情報
は存在しない。この実施例においては、装置は処理ネッ
トワーク９を含むように構成され、この処理ネットワー
クは、後述する第４図に示されるように、いくつかの階
層、すなわちスラブ（ｓｌａｂ）内に配列された、任意
の数の処理要素を含んでいる。例えば、第１図、第２図
及び第３図に示すように、処理ネットワーク９に対する
入カフは、一般に処理環境１０からのアナログ信号又は
ディジタル信号を含むことが可能である。実施例では、
これらの入力は基準点１２の位置、この基準点１２の速
度及びこの基準点１２の加速度を表示する。処理ネット
ワーク９の出力は一般に処理環境１０に対するアナログ
信号又はディジタル信号である。実施例では、この出力
はカート１３を駆動するモータへの速度コマンドである
。

第４図に示すように、処理要素は、処理ネットワーク９
内の他の処理要素からの入力を受信可能なように、相互
に連結することができる。

第４図に示すように、処理要素に対する入力信号は、そ
れぞれ、乗算され１５、合計され１７、さらにこの重み
付けられた合計１９は関数要素２１に供給される。この
関゛数要素２１は、正弦波状（Ｓｉｇｎｏｉｄ）関数の
ような線形又は非線形関数であり、（各処理要素からの
）出力２３を発生する。

正弦波状関数の１つの可能な公式としては、ｆ（ｘ）＝
（２／（１＋ｅす））−１が揚げられる。かがる出力２
３は処理ネットワーク９の内部の別の処理要素の別の入
力として供給する事も可能であり、また処理ネットワー
ク９の外部の処理環境１０に供給することも可能である
。本発明の１つの実施例においては、処理ネットワーク
９内の各処理要素からの出力は、（図面に明示はしない
が）ネットワーク内の他の全ての処理要素の入力に連係
され、完全な相互連係ネットワークを構成している。も
ちろん、この完全な相互連係ネットワークの代わりに、
別の処理要素からなるネットワークを構成することも可
能である。例えば、この処理要素を複数の階層内に配列
することも可能であり、この場合には第１の階層は入カ
フにのみ連係され、第２の階層は第１の階層の出力に連
係されると入った手順により、いわゆる「フィード・フ
ォワード・ネットワーク」が構成される。

本発明の１つの実施例においては、格付け学習のプロセ
スは、第１図及び第５図のブロック図に示されるような
、探索要素３４を利用して実施される。概略的に示され
た探索要素３４は要素間の電圧又はディジタル信号の伝
達を説明している。探索要素３４には３つの基本的タイ
プの回路動作が含まれている。ラッチ２５，２７．２９
は更新コマンドにより可変の信号を保持する。加算要素
２８及び乗算要素３１は、それぞれ、供給された入力を
加算又は乗算し、結果的に探索要素の「重み付け」出力
３７を発生する。これらの探索要素３４は一連の制御パ
ラメータ３３及び乱数人力３５を受け、第４図の処理要
素において乗算１５を行うための「重み付け」出力３７
を発生する。第１図、第２図及び第６図に示すようなグ
レード（すなわち処理能力）評価手段４１の制御に基づ
き、制御パラメータ３３が導出される。グレード評価手
段４１は処理環境１０からの入力を受ける。

事例においては、これらの入力として、はうきの柄１１
の角度、トラック中央位置に対するほうきの柄１１の位
置、さらにほうきの柄が倒れるまでの処理時間が含まれ
る。グレード評価手段４１は特定の処理環境１０に固有
のものであるが、さらに従来技術に属する回路をも含ん
でいる。この回路は適応入力を評価し、それから、特定
の処理環境ｌＯに関する本発明に基づく処理性能を表す
出力信号４３を発生するためのものである。

後述する第６図のブロック図に示されるように、制御要
素３９はパラメータ３３を発生し、次いでこのパラメー
タ３３が探索要素３４を動作させ、第４図に示す処理要
素内で乗算１５を行うための「重み付け」出力３７を発
生させる。

一般に、本発明に基づく格付け学習装置は、まず第１に
、処理環境１０からの入カフ（例えば、はうきの柄ｌｌ
状の基準点１２に関する角度、位置、速度と入った情報
）に応答して動作し、処理環境１０（例えば、カート１
３状のパルスモータへのパルス割合）を制御するための
出力２３を発生し、さらに、処理性能（例えば、どれだ
け上手くかつ長い時間はうきの柄がトラックの中央付近
でバランスされるか）についてのグレード４３を受け取
る。このように、装置は処理環境１０からの情報を学習
し、処理性能に関するグレード４３を受け取る。グレー
ドは処理ネットワーク９に供給された最新の重み群３７
に関して評価される。

グレードの特徴としては、（結果として生じた）最新の
重み群に完全に依存している点があげられ、重みが変化
した場合にはグレードも対応して変化するのである。但
し、処理性能に関する重みとグレード４３の間の正確な
関係を知る必要はない。この代わりに、探索要素３４は
最良の可能グレードを生成するための重みの組み合わせ
を見いだすように機能する。［良好（ｇｏｏｄ）Ｊな重
み群が見いだされた場合には、探索要素３４からのこれ
らの重みは、これまでの最良の処理性能グレードを生成
する最良の重みを示すために、「最良ラッチ」２５に保
存される。さらに、第６図の制御要素内の「誤差ラッチ
」４５はこの最良グレードの値を保持する。その後、第
５図の実施例に示すように、「重み」３７は乱数人力３
５に応じて探索要素３４により変えられ、新しい重みが
処理ネットワーク９に供給される。処理ネットワーク９
は入カフを受け、出力２３を発生し、制御、すなわち、
「シュミレーション時限」と称される、いくつかの固定
時間間隔に関して処理環境１０を操作する。この時限の
間、処理環境１０から受けた環境情報１４はグレード評
価手段４１に供給され、このグレード評価手段４１によ
りこの情報は処理され、処理環境ｌＯ内で処理ネットワ
ーク９がどれだけ上手く機能するかを示すグレード４３
が発生される。ある応用では、グレード自体を環境情報
入力として供給することも可能である。この手順によっ
て、重み群が形成され、これによって処理ネ・ットワー
ク９は別の重み群より良好な処理が行われ、最良の重み
群が各探索要素３４の「最良ラッチ」２５内に記憶され
る。さらに、最良重み群に先行する値から形成される変
化もまた各探索要素３４内のバイアスラッチ２７に記憶
され、バイアスラッチ２７の出力と乱数発生器５１の出
力３５から方向信号３０が発生される。乱数発生器５１
は乱数を統べての探索要素３４に供給し、従前に試行さ
れていない新しい重み群が試行されるようにする。発生
器５１により発生される数値のランダム性に関連する［
温度（ｔｅｍｐｅｒａｔｕｒｅ）Ｊ　、すなわち活動水
準を設定可能であり（例えば、より篇い温度はより広い
ランダム性の段階を示す）、この温度は各更新時の温度
ファクタ５３により制御される。更新は処理環境１０の
各処理の終わり（例えば、各シュミレーション時限の終
わり）に行われ、温度ファクタは乱数値を広くとったり
狭くとったりするために設定されるが、これは、ユーザ
が所望の学習特性を確立するに当たりどのようなファク
タを設定することを望んでいるかに依っている。

操作時、ランダムな新しい重み群３７は、変化された重
みの方向と共に、更新によって確立される。新しい重み
３７は処理ネットワーク９に供給され、処理ネットワー
ク９は処理環境ｌＯの別の処理を行い、良好に処理され
たか不良に処理されたかについて処理能力の格付けが行
われる。

処理が不良である場合には（すなわち、より低いグレー
ド４３）、バイアスラッチ２７が記憶されたバイアス及
び現在の方向３０に基づき変更される。方向３０は単に
記憶されたバイアスの合計と探索要素３４に供給された
乱数である。各探索要素３４は、ある方向における重み
の変化がより高いグレードを生じるような好ましい変化
を展開させることが可能であり、探索要素３４はより高
いグレードを生じる方向に重みを変化させ続けることが
できる。

第６図を参照するに、制御要素３９は入力グレード４３
に対応し、誤差ラッチ４５内の最良のグレードを記憶す
る。処理環境１０にランダム性が存在する場合には、こ
のグレードは操作の継続にともないゆっくりと減衰して
ゆく。この目的のためには、第６図の実施例において示
すように、グレード人力４３と誤差ラッチ４５の間には
、相互連係のネットワークが配設される。誤差ラッチ４
５内に保存された現在のグレード（すなわち真に最良の
グレードと入力のグレード４３の間の差としての「誤差
」）及び入力グレード４３により、処理環境１０からの
入力グレードが実際にこれまでに誤差ラッチ４５内に記
憶されたグレードよりも良好かどうか（すなわち「勝る
（ｗｉｎ）Ｊ条件か）、あるいはこれまでに獲得され誤
差ラッチ４５内に記憶されたものより低いかどうか（す
なわち「劣る（ｌｏｓｅ）Ｊ条件か）が決定される。勝
る条件の場合には、α、β及び温度ファクタ５３を含む
関連する探索要素３４を制御するファクタが変更され、
勝るファクタ５５と共に、探索要素３４に供給され最良
ラッチ２５を、新しいより良好なグレードに関連してい
た重みと共に更新可能になる。入力パラメータ５８はユ
ーザによって設定され、装置の学習特性を確立する。

セレクタ５７はスイッチや、マルチプレクサなどにする
ことが可能であり、コンパレータ５９の出力に応答して
、（セレクタ５７を介して）各探索要素３４に関連する
パラメータ３３として供給されるべき入力パラメータ５
８が「勝る」か「劣る」かが選択される。探索要素３４
は全て同じ構成をしており、処理ネットワーク９内のこ
この重みに関し１つの探索要素が存在するように、装置
内でそれぞれが別個に重み付けられる。重要なのは、処
理ネットワーク９に含み得る探索要素３４の数の制限が
存在しないことであり、通常その数は数百乃至数千のオ
ーダーで設定される。

ただ１つの制御要素３９がパラメータ３３の選択を行う
ために必要とされ、さらにただ１つのグレード評価手段
４１が処理環境ｌＯの処理性能にアクセスするために必
要とされるのみである。もちろん、事例の処理環境ＩＯ
におけるほうきの柄のパンランシングに関する適用には
、処理ネットワーク９、グレード評価手段４１及びカー
トの移動を操作するための関連する回路と共に、２つの
共平面軸に沿って移動するカート１３が含まれる。

第２図に示した事例の処理環境ＩＯにおける本発明の操
作においては、カート１３は、（１つの軸で説明を行う
ために）１つの支点に固定されたほうきの柄１１と共に
、固定トラック状を移動可能である。この処理環境ｌＯ
においては、本発明のネットワークは、トラックの中央
に垂直にほうきの柄１１を保持するためにカート１３の
速度を制御することを学習しようとする。これを達成す
るために、３つの入力が処理ネットワーク９から供給さ
れ、処理ネットワーク９からカート１３に１つの出力２
３が供給される。これらの入力は＝１）トラックの中央
に対するほうきの柄１１状の基準点の位置、２）基準点
の速度、及び、３）基準点の加速度である。これらの入
力は従来の方法によって導出することができる。例えば
、位置、速度及び加速度のそれぞれのエンコーダから、
またステップモータによって駆動されるカート１３上の
ほうきの柄１１のディジタル化されたビデオ画像から導
出可能である。処理ネットワーク９の出力２３は、ステ
ップモータに供給されるべき方向と秒単位のパルス数の
形式をとる速度コマンドであり、これらのコマンドは、
カート１３を動かすためのステップモータの駆動に関す
る従来の回路によって行われる。本発明に基づく装置を
効果的に動作させるためには、所与のシュミレーション
時限に関するグレードを確立する必要がある。はうきの
柄１１とカート１３は、初期条件を一定にするために各
走行で一致するスタート地点から開始する。従って、各
シュミレーション走行における同じ初期条件から操作は
開始する。このシュミレーション走行は固定された時間
周期（例えば、１５秒）に関し行われる。処理性能のグ
レードを確定するために、情報がほうきの柄１１から導
出される。すなわち、１）直立からのほうきの柄１１の
傾斜角度、２）トラックに沿ったほうきの柄の基準点１
２の位置、３）はうきの柄が倒れるまでの、シュミレー
ション走行の残り時間の総計である。

これらの入力はネットワークのグレード評価手段４１に
供給される。グレード評価手段４１はユーザが確立しよ
うと望む任意の関数と共に供給された入力により動作位
置、この関数としては、例えば、直立位置からの誤差（
すなわち、角度）シュミレーション時限にわたっての積
分や、トラックの中央からの走行距離や、はうきの柄１
１が倒れた倍にはシュミレーション時限の残余時間があ
る。

第７図には、処理環境１０内の典型的な学習処理に関す
る本発明の動作のフローチャートが示されている。初期
動作条件６１は、全ての処理ネットワーク９の重みに関
してゼロ値または乱数値で、及び初期のシュミレーショ
ン時限の動作に関しゼロバイアスで（すなわち、所望の
変化方向を示さずに）、開始される必要がある。これに
より示されることは、初期走行シュミレーション又は動
作６３の間に処理ネットワーク９は本質的に何も行って
いないということであり、これにより、はうきの柄１１
が倒れるまでにどの程度の時間を要するかについての基
線誤差、すなわちグレードが確立され、さらにグレード
評価手段４１内で、処理ネットワーク９が何も行ってい
ないことを示すグレード４３が展開される。

このグレードは誤差ラッチ６５にセットされ、α及びβ
３３，５８を含む装置に関する定数が供給される。ユー
ザによって供給されるべき通常の入力パラメータは以下
のごとくである：誤差ファクタ「勝るＪ　＝　１．０誤差フアクタ［劣るＪ　＝　０．０「勝る」α　　　　　　＝０８「劣る」α　　　　　　＝０．９「勝る」β　　　　　　＝　０．２５「劣る」β　　　　　　＝−０，０１「勝る」温度ファクター　１．０１「劣る」温度ファクター　０．９９５初期走行のグレード付け及び定数を確立した後に、更新
パルスが処理ネットワーク９内に新しい重み群を確立す
るためにネットワーク制御要素３９及び探索要素３４に
送られる（６７）。これらの新しい重み群と共に、より
良好なグレード４３またはより不良なグレードを示すあ
る処理性能を備えた処理環境１０が再び動作する（６９
）。さらに、先行する処理性能の結果及びこれまでの最
良の走行結果に基づく新しい重み７０の確立を含む、別
のグレード付け学習反復７１を初期化するために、更新
パルスが供給される。処理環境内でシュミレートされた
走行または動作の後に、グレードが評価され、最良の重
みの組み合わせが認容可能な結果であるかが決定される
（７３）。

この代わりに、温度ファクタがある値よりも低くなった
場合に、または動作またはシュミレーション及び更新が
所定のサイクル行われた後に、または最良の重みが決定
された後に、または重みの改良が不要になった後に、学
習の改良を停止させることも可能である。更新を実行す
るにあたり、現在のグレードが誤差ラッチ４５内の値と
比較され、このグレードが誤差ラッチ４５内の値よりも
多いか少ないかが検討される（７７）。これにより、現
在の重みが最良ラッチ２５に記憶されるべきか否かが決
定される（７９）。処理性能がより良好なグレードに示
されるように改良され、その結果処理ネットワークが改
良され、さらに最良ラッチ２５内に現在の重みが記憶さ
れた場合には、新しい方向が確立され（８１）、さらに
改良のための探索が継続される。バイアスラッチ２７内
の値及び温度ラッチ２９内の温度ファクタが補正ないし
修正され、新しい乱数が探索要素３４の入力に供給され
、処理環境１０の動作が始まる前に、（最良バイアス及
び新しい乱数入力の組み合わせに基づき）新しい重みが
発生される。このようにし、動作及びグレード付けを継
続することにより処理性能のグレードアップを図ること
ができる。従って、本発明の処理ネットワーク内の重み
は、処理環境１０内の一連の処理性能のグレード及び動
作に呼応して、処理環境１０内のグレード付けされた処
理性能、及び最良の重みが選択され好ましい変化の方向
が決定された格付けされた学習の結果、初期値（すなわ
ち、ゼロ値または乱数値）から変更される。

本発明の如上の実施例において、変化の方向は任意に選
択可能であり、処理環境ｌＯの動作またはシュミレーシ
ョンは再びグレード付けされる。処理性能がより良好に
グレード付けされた場合には、重み及び値が記憶され、
変化の方向が保持され、後続する試行変化が同じ方向に
対して行われ、後続するシュミレーション内において処
理性能のグレードの改良が図られる。改良される変化の
方向を示すバイアスが、乱数入力に基づく先行の変化の
方向から（異なる場合には）更新される。結果として、
重み変化は、処理性能のグレードが処理環境１０内の後
続するシュミレーションまたはどうさないで改良を続け
る間は、この新しい方向に対して行われる。

さらに、あるランダム性が変化の寸法に導入され、変化
が余り線形増加を示さないようにされる。これにより、
バイアス方向における新しいランダムな重みにより予測
不能の処理性能を生じさせることが可能な、あるいは規
則的な増分変化によって確立されるような中間重みにお
ける変則的な処理性能を回避可能な実験要素が提供され
る。もちろん、かかる実験は、後続のシュミレーション
における処理性能のグレードに示されるように成功する
場合もあれば失敗する場合もある。格付けされた学習及
びしゆみれ−しょんの各サイクルにより改良されたグレ
ードが生成される場合には、バイアスは、処理能力の改
良が進展しているという事実によって補強され、処理性
能のグレードが改良される限りは、バイアス方向に対す
る大きな変化が正当化される。温度ファクタは増加され
、格付け学習プロセスに対しより大きなランダム性を供
給する。

結果として、シュミレーションの継続とバイアス方向に
対する変化により、先行する値よりも劣る処理性能グレ
ードが示される場合がある。

これにより、最良の結果から現在の方向を減じることに
よる実験的変化の［失敗（ｆａｉｌｕｒｅ）　Ｊに基づ
く、バイアスの変化８３が引き起こされる。

このバイアスからの減法は、現在の変化の方向が不良で
ある、あるいは少なくともより好ましくないことを示し
ており、このある方向への変化のバイアスは減少される
。このようにして、処理性能のグレードの改良をもたら
すものとして選択された方向に対する重みの変化が結果
的により劣るグレードをもたらした場合には、バイアス
が変化し、別の（反対の）方向に重みの変化が生じる。

これに続き、他の方向に対してランダムなサイズで重み
変化のステップが刻まれる。このように、本発明の格付
けされた学習動作により、連続的に改良された処理性能
が所望の方向に対する実験の変化をさらに正当化するが
、あるいは、結果的に劣る処理性能型の方向に対する変
化を正当化するのが、に関する問題を解決するための試
行−誤差図式のシュミレーションが行われる。

上述のバイアスはどちらの道が「下り坂」か（すなわち
、改良に対する否定的な勾配）を示している。これが本
発明が改良された処理能力に関する確立された変化の方
向を利用することを可能にし、より効果的な最適処理能
力グレードに関する最適条件の探索を可能にする。本発
明のこのアスペクトは、動作要素が見いだせない、ある
いは適切に特徴づけることができないまたはモデル化で
きない、あるいは（偏流性、非線形性といった）ランダ
ム性が存在するような処理環境１０に対して特に有利に
作用する。これに対して、適切に特徴づけることができ
るまたはモデル化可能な処理環境の数値分析によれば、
重みをどちらの方向に変化させるかを知り、分析結果を
利用することにより、予測可能に重みを変化させること
ができる。しかしなから、本０発明による格付けされた
学習は、むしろ、重み変化のランダム性及び改良された
処理性能のグレードを形成した変化を示す情報の蓄積に
依拠しているのである。

次に本発明に基づくネットワークに供給されるパラメー
タに関し言及すれば、−船釣に温度ファクタは処理性能
のグレードが改良された場合に増加され、処理性能のグ
レードが下がった場合に減少され、このようにして、処
理性能グレードがより劣る場合に新しい重み変化をセッ
トする場合には、より少ないランダム性が考慮される。

かくして、現在の解決をめぐって、重みの最良の解決が
獲得されない場合でも、否定的な勾配（すなわち下り坂
）の処理性能はグレードにおいて改良されることが期待
される。処理性能のグレードが低下するまで大きなステ
ップの変化が行われ、その時点で処理性能のグレードが
再び改良されるまで、バイアスファクタも連続的に減少
される。さらに、処理性能のグレードの改良が獲得され
るまで、温度ファクタも変化を狭めるために減少される
。このように、シュミレーションによって良好な重みの
組み合わせが見いだされない場合には、選択された方向
において現在の重み及び値から小さなステップをおいた
ところにあるより良い結果により改良された処理性能の
グレードが形成されるまで１、段階的な変化は徐々に小
さなステップをとる傾向にある。正しい方向に対する小
さなステップの変化による改良された処理性能のグレー
ドの探索に呼応して、バイアスがさらに変化し、より大
きなステップ変化が形成される。この変化は改良された
処理性能のグレードが形成されるまで継続するが、その
様子は、最良の解決に向かって［下る（ｄｏｗｎ　ｔｈ
ｅ　ｈｉｌｌ）　Ｊように、速度と運動量を増加させる
のと類似しており、最良の結果を通過し、さらにより減
少された温度ファクタとより小さなステップの変化で戻
ってくる動作が、改良された処理性能のグレードが了解
されるまで継続する。実験の処理環境１０においては、
本発明の動作は、モデル化またはほうきの柄１１及びカ
ート１３の動作に関する制御の法則から導出される何ら
かのものを知ること無しに、はうきの柄１１のバランス
をとることを学習しており、これは如何にほうきの柄１
１のバランスを取るかについての解析的結果を行使する
場合とは対極をなしている。

（発明の効果）このように、実際の物理実験においては、通常は動作パ
ラメータは計算に基づくパラメータとは異なっているが
、あるいは従来の解析的結果から導出される何らかのも
のとは異なっているが、本発明によれば、かかる環境に
おける最良の可能な解決方法を見いだすことができる。

（あるいは、少なくとも、解析的技術により見いだされ
る解決策よりも良好な結果を得ることができる。）従って、本発明に基づく格付け学習の装置及び方法は従
来の装置とは異なり１、装置の全ての処理性能のうちい
くつかの測定値が与えられる限り、装置の学習を行うた
めに装置の所望のあるいは期待すべき出力を知ることを
必要としない。

【図面の簡単な説明】

第１図は、本発明の１つの実施例に基づく処理ネットワ
ーク、すなわち装置のブロック図であり；第２図は、第１図に示す処理ネットワークと典型的な処
理環境との相互作用を示した説明図であり；第３図、第１図及び第２図の処理ネットワークのあるブ
ロックを示し；第４図は、本発明に基づく処理要素に関するある実施例
のブロックを示し；第５図は、第１図に示す実施例の探索要素のブロックを
示し；第６図は、第１図に示す実施例の制御要素のブロックを
示し；第７図は、訓練処理をめぐる本発明の動作を示したフロ
ーチャートである。７・・・入力、９・・・処理ネットワーク、１０・・・
処理環境、１１・・・はうきの柄、１２・・・基準点、
１３・・・可動カート、１４・・・環境情報、１５・・
・積算、１７・・・合計、１９・・・重み付け合計、２
１・・・関数要素、２３・・・出力、２５・・・最良ラ
ッチ、２７・・・バイアスラッチ、２８・・・加算要素
、２９・・・ラッチ、３０・・・方向信号、３１・・・
乗算要素３３・・・制御パラメータ、３４・・・探索要
素、３５・・・乱数入力、３７・・・「重み付け」出力
、４１・・・グレード評価手段、４３・・・グレード、
４５・・・誤差ラッチ、５１・・・乱数発生器、５３・
・・温度ファクタ、５５・・・勝るファクタ、５７・・
・セレクタ、５８・・・入力パラメータ・５９・・・コ
ンパレータ、

Claims

【特許請求の範囲】１　任意の処理環境に関連する動作を改良することが可
能な適応回路であって：処理環境の動作を制御するための制御可能な伝達関数に
従い、処理環境から入力信号を受け出力信号を発生する
べく連係された複数の処理要素を含む処理ネットワーク
と；上記出力信号の制御の下に、処理環境の動作の質を示す
グレード信号を発生するべく、処理環境の動作に呼応す
る任意のグレード付け関数を使用することが可能なグレ
ード付け手段と；ランダムな信号を発生するための発生器手段と；受けた入力信号に関し処理環境に供給される出力信号を
修正するべく処理環境の伝達関数を選択的に変更するた
めに、上記グレード信号と過去の伝達関数の変更と上記
ランダムな信号とに呼応する探索手段とからなることを
特徴とする装置。２　上記探索手段が、グレード信号とランダム信号の組
み合わせとして、関連する処理要素の伝達関数を変更す
るための出力を発生することを特徴とする、請求項１に
記載の装置。３　上記探索手段が各処理要素のための探索回路を含み
、この各処理要素が、グレード信号を記憶するための記
憶手段と、記憶されたグレード信号を越える後続のグレ
ード信号に呼応する場合にのみ関連する処理要素の伝達
関数を変更するために後続するグレード信号と記憶され
たグレード信号とを比較するために記憶手段に連係され
た比較器手段とからなることを特徴とする請求項１に記
載の装置。４　上記探索手段が、後続するグレード信号とランダム
信号の組み合わせとして、記憶されたグレード信号を越
える後続するグレード信号に呼応して関連する処理要素
の伝達関数を変更するための出力信号を発生することを
特徴とする、請求項３に記載の装置。５　上記ランダム信号のバリエーションの範囲が、グレ
ード信号を改良すると共に関連する処理要素の伝達関数
のバリエーションの大きさを変更するために、後続する
グレード信号に呼応して変化させられることを特徴とす
る、請求項４に記載の装置。６　上記範囲が、グレード信号を改良すると共に関連す
る処理要素の伝達関数のバリエーションの大きさを増加
するために、記憶されたグレード信号を超過する上記後
続のグレード信号に呼応して増加することを特徴とする
、請求項４に記載の装置。７　上記探索手段が、関連する処理要素の伝達関数の変
化方向を示す信号を記憶するための補助の記憶手段を含
み；さらに、記憶されたグレード信号を越えない後続す
るグレード信号に呼応して、上記補助の記憶手段に記憶
された信号を変更するために、上記補助の記憶手段に連
係された回路手段とをさらに含むことを特徴とする、請
求項３に記載の装置。８　任意の処理環境に処理性能を改良するための方法で
あって：処理環境の動作特性を示す入力信号を形成し；その出力に呼応して処理環境の動作を制御するべく、入
力信号の制御可能な伝達関数としての出力信号を形成し
；上記出力信号の制御の下に処理環境の動作の質を示す任
意のグレード付け関数からグレードを形成し；ランダム信号を発生し；受けた入力信号に関し処理環境に供給された出力信号を
修正するべく伝達関数を選択的に変更するために、上記
グレードと過去の伝達関数の変更とランダム信号とに呼
応する各段からなることを特徴とする方法。９　上記呼応する段において、グレード及びランダム信
号の論理的組み合わせとして上記伝達関数が変更される
ことを特徴とする、請求項８に記載の装置。１０　上記呼応する段において、初期のグレードが記憶
され、記憶されたグレードを後続するグレードが超過す
る場合にのみ制御可能な伝達関数を変更するために、後
続するグレードを記憶されたグレードと比較することを
特徴とする、請求項８に記載の方法。１１　後続するグレードとランダム信号の論理的組み合
わせとして、後続のグレードが記憶されたグレードを越
えた場合に伝達関数を変更することを特徴とする、請求
項１０に記載の方法。１２　グレードの改良と共に伝達関数の変更の大きさを
変更するために、後続のグレードに呼応して、ランダム
信号のバリエーションの範囲が偏することを特徴とする
、請求項１１に記載の方法。１３　グレードの改良と共に伝達関数の変更の大きさを
増加するために、記憶されたグレードを超過する後続の
グレードに呼応して、上記範囲が増加することを特徴と
する、請求項１２に記載の方法。１４　上記呼応する段において、伝達関数の変化の方向
を示す指示が記憶され、上記指示が、記憶されたグレー
ドを超過しない後続のグレードに呼応して変更されるこ
とを特徴とする、請求項１０に記載の方法。