JPH03225553A - 自己学習システムの安定化方式 - Google Patents

自己学習システムの安定化方式

Info

Publication number
JPH03225553A
JPH03225553A JP2019228A JP1922890A JPH03225553A JP H03225553 A JPH03225553 A JP H03225553A JP 2019228 A JP2019228 A JP 2019228A JP 1922890 A JP1922890 A JP 1922890A JP H03225553 A JPH03225553 A JP H03225553A
Authority
JP
Japan
Prior art keywords
output
learning
noise
input
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019228A
Other languages
English (en)
Other versions
JP2856259B2 (ja
Inventor
Kazushige Saga
一繁 佐賀
Tamami Sugasaka
菅坂 玉美
Shigemi Osada
茂美 長田
Minoru Sekiguchi
実 関口
Atsuko Asakawa
浅川 敦子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2019228A priority Critical patent/JP2856259B2/ja
Publication of JPH03225553A publication Critical patent/JPH03225553A/ja
Application granted granted Critical
Publication of JP2856259B2 publication Critical patent/JP2856259B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Feedback Control In General (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔概   要〕 教師付き学習を行うニューラルネットワークを用いた自
己学習システムにおいて、ニューラルネットワークの出
力に加えられるノイズの大きさを制御してシステムを安
定に動作させる自己学習システムの安定化方式に関し、 システムの実行時と学習時において異なる入力が与える
ことにより学習時の評価値学習手段の入力を評価値が一
対一対応する評価値学習手段を設け、その出力によって
ノイズの振り幅を抑制し、自己学習システムを安定に動
作させることを目的とし、 実行時に外部から入力される入力パターンに対する自ネ
ットワークの出力パターンにノイズが加算されて外部出
力とされ、学習時に該外部出力に対する評価値に応じて
作成される教師データを学習する行動決定用ニューラル
ネットワークを有する自己学習システムにおいて、該自
己学習システムの学習時には前記入力パターンと前記出
力パターンに前記ノイズが加算された自己学習システム
の外部出力とを入力側教師データ、該外部出力に対する
評価値を表すパターンを出力側教師データとしてシステ
ムの挙動と評価の対応の学習を行い、実行時には前記入
力パターンと前記行動決定用ニューラルネットワークの
出力パターンとを入力として、該行動決定用ニューラル
ネットワークの出力パターンに該ノイズを加算せずに該
外部出力とした場合に予想される評価値を出力する評価
値学習用ニューラルネットワークと、前記自己学習シス
テムの実行時に該評価値学習用ニューラルネ・ノドワー
クが出力する予想評価値に応じてノイズの大きさを制御
し、該ノイズを前記行動決定用ニューラルネットワーク
の出力パターンに加算して前記外部出力とするノイズ加
算手段と、前記自己学習システムの学習時に前記評価値
学習用ニューラルネットワークが行う学習と、前記外部
出力に対する評価値が良の時にのみ行われる前記実行時
入力パターンを入力端教師データ、前記ノイズが加算さ
れた外部出力を出力側教師データとする教師データを用
いた前記行動決定用ニューラルネ・ノドワークの学習と
を制御する学習制御手段とを備え、前記評価値学習用ニ
ューラルネットワークに対する教師データに矛盾が発生
することを防止して自己学習の安定化を計るように構成
する。
(産業上の利用分野〕 本発明はニューラルネットワークを利用した学習システ
ムに係り、さらに詳しくは教師付き学習を行うニューラ
ルネットワークを用いた自己学習システムにおいて、ニ
ューラルネットワークの出力に加えられるノイズの大き
さを制御してシステムを安定に動作させる自己学習シス
テムの安定化方式に関する。
〔従来の技術〕
教師付き学習を行うニューラルネットワークを利用した
自己学習システムでは、教師データの作成のためにネッ
トワークの出力にノイズを加えて外部への出力とするこ
とによって、システムを揺らして行動し、その行動に対
する入出力パターンを採取し、その行動に対する評価が
“良°のパターンを選択して学習する。すなわちニュー
ラルネットワークとして単なるパーセブトロン型の階層
ネットワークを用いると、同じ入力パターンに対しては
いつも同じ出力が出ることになり、よりよい出力パター
ンを学習することができない。そこで、通常、ネットワ
ークの出力層のユニットや、ネットワークの出力値自体
にノイズを加えてシステムを揺らし、よりよい出力を模
索する。
第5図は教師付き学習ニューラルネットワークを使用し
た自己学習システムの従来例の全体構成ブロック図であ
る。同図において、自己学習システム10は教師付き学
習を行うニューラルネットワーク1、その学習を制御す
る学習制御部2、例えばニューラルネットワーク1の出
力値自体に加えられるノイズを発生するノイズ発生ユニ
ット3、システムの出力値に対して外部から与えられる
評価が°良°である時に、その出力パターンと対応する
入力パターンとをニューラルネットワーク1に学習パタ
ーン8として与えるために一時記憶する入出力パターン
短期記憶部4、外部から与えられる入力情報を基に入力
パターンを作成する入力部5、ノイズが加えられた出力
パターンを実際のシステム出力、例えばロボットの場合
におけるモータの回転角度に変換する出力部6とで構成
されている。そして出力部6の出力するシステム出力を
受けて、環境9はその出力の結果が良いか悪いかを評価
する評価信号7を学習制御部2に出力し、また入力部5
に外部情報を与える。
第5図の自己学習システムの動作をロボットの移動動作
を例として説明する。第6図はロボットに対する自己学
習方式の例である。同図においてロボット11はターゲ
ット12に近づくための視覚センサ13を備えている。
この視覚センサ13は例えば横方向に並んだ11個のセ
ンサ素子から構成されており、それぞれのセンサがター
ゲット12を捕らえたか否かを出力する。第5図におい
てこのセンサ情報は入力部5に与えられ、入力部5はこ
の外部情報を用いてニューラルネットワーク1に対する
入力パターンを作成する。ニューラルネットワークエは
この入力パターンに対するロボットの行動を決定するた
めの出力値を計算し、その出力値にノイズ発生ユニット
3が発生するノイズが加えられ、出力部6によってモー
タの回転角度、すなわちロボットの進行方向の角度14
が求められ、ロボットはその方向に移動する。これが1
ステツプの動作である。
第5図において、ニューラルネットワーク1には現在の
11個のセンサ入力に加えて1ステツプ前のセンサ入力
も入力されるものとし、ネットワークは22個の入力層
ユニット、例えば5個の中間層ユニット、モータの回転
角度を決定するための1つの出力値を出力する1個の出
力層ユニットから構成されるものとする。視覚センサ1
3の11個のセンサ素子のうちで、ターゲット12を捕
らえた素子に対する入力パターンの値を1、その他の素
子に対する値を0とし、例えば1ステツプ前のセンサ入
力が’00000110000″、現在のセンサ入力が
’00000111000°、これに対するネットワー
ク1の出力が0.44046であり、さらにこの出力値
に対してノイズ発生ユニット3によって例えば−1と+
1の間のノイズが加算され、例えば0゜7の出力値が出
力部6に出力されたとする。この出力値はロボットの進
行方向角度14を0と1の範囲で正規化したものに対応
し、出力部6は出力値0.7に対応するモータの回転角
度をシステム出力として出力する。一方この時前述の1
ステツプ前のセンサ入力、現在のセンサ入力から成る入
力パターンとノイズの加えられた外部出力値0.7とが
対応づけられて、入出力パターンとして入出力パターン
短期記憶部4に記憶される。
出力部6の出力するモータ回転角度に応じてロボットは
その方向へ移動し、その移動結果は環境9によって評価
される。この場合の評価基準はいろいろと考えられるが
、例えば単にロボットがターゲットに近づいたか否か、
あるいはある一定の近さまではロボットがターゲットに
近づくか否かで評価し、ある一定距離に近づいた以降は
ターゲットの回りを回りながら近づけばよいというよう
な評価基準が用いられる。いずれにしても環境9はロボ
ットの1ステツプの移動を評価し、その移動が良い場合
には評価信号7として例えば“1′を、また悪い場合に
は°O°を学習制御部2に出力する。学習制御部2は環
境9から与えられる評価信号7が1′である場合に、環
境9に与えられたシステム出力に対応する入出力パター
ンを入出力パターン短期記憶部4から取り出し、これを
学習パターン8としてニューラルネットワークlに与え
、学習を行わせる。その結果、前述の入力パターンに対
してニューラルネットワーク1そのものの出力が0.7
となるように学習が行われる。
〔発明が解決しようとする課題〕
しかしながら、上述の学習方式ではニューラルネットワ
ーク1の出力値自体に無条件にノイズが加えられるため
に、過去に良いと評価され、充分に学習済のパターンが
入力されても、出力部6に与えられる外部出力が学習し
た出力データと異なるものとなり、システムが安定に動
作しないという問題点がある。例えば前述の入力パター
ンに対するネットワークの出力値自体が0゜7となるよ
うにネットワーク1の学習が行われた後に、再び同じ入
力パターンが入力されるとネットワーク1の出力値自体
は0.7となる。しかしこの出力値にノイズ発生ユニッ
ト3が発生するノイズが加えられ、例えば0.8の外部
出力が出力部6に与えられることになり、システムの動
作が安定しない。
このノイズによる悪影響は、学習が進んでもノイズによ
る出力の振り幅が一定であることが原因となっている。
そこで学習が進むにつれてノイズによるネットワーク出
力の振り幅を変化させることでその影響を避けることも
できるが、めったに表れないパターンが入力された場合
や、まだ学習していないパターンが入力された場合のノ
イズによる振り幅か弱すぎて良い出力を模索しにくくな
るという問題点もある。
さらに入力パターン毎にノイズによる出力の振り幅を制
御し、過去において良い評価がされていた入力パターン
に対してはノイズの振り幅を抑制するために、入力パタ
ーンとそれに対する、例えば外部からの評価値とを対応
させて学習を行う評価値学習手段を別個に設けることも
考えられる。
この場合ニューラルネットワーク1にはノイズが加算さ
れているため同一人力に対し複数の外部出力値をしめず
ことになる。したがって同一人力に対し複数の評価値を
得る。評価値学習手段の学習時に入力側教師データとし
てシステムの入力パターンのみ与えると出力側の教師デ
ータ(評価値)が複数存在することになり学習が安定し
ない。このため実行時にノイズの制御を誤ると言う問題
がある。
本発明は、システムの実行時と学習時において異なる入
力が与えることにより学習時の評価値学習手段の入力を
評価値が一対一対応する評価値学習手段を設け、その出
力によってノイズの振り幅を抑制し、自己学習システム
を安定に動作させることを目的とする。
〔課題を解決するための手段〕
第1図は本発明の原理ブロック図である。同図はシステ
ムの実行時に外部から入力される入力パターンに対する
自ネットワークの出力パターンにノイズが加算されて外
部に出力され、学習時にはその外部出力に対するシステ
ムの内部、または外部からの評価値に応じて作成される
教師データを学習する行動決定用ニューラルネットワー
ク15を有する自己学習システムの安定化方式の原理ブ
ロック図である。
第1図において評価値学習用ニューラルネットワーク1
6は、システムの学習時には実行時の入力パターンと、
それに対する行動決定用ニューラルネットワーク15の
出力にノイズが加えられた外部出力とを入力側教師デー
タ、外部出力に対するシステム内または外からの評価値
を出力側教師データとする教師データを用いて学習を行
い、システムの実行時には入力パターンと行動決定用ニ
ューラルネットワーク15の出力とを入力として、行動
決定用ニューラルネットワーク15の出力にノイズを加
算せずに外部出力としたときの予測される評価値を出力
する。すなわち評価値学習用ニューラルネットワーク1
6には学習時にはシステムの外部出力、実行時には行動
決定用ニューラルネットワーク15の出力が入力される
ことになる。
ノイズ加算手段17は、システムの実行時に評価値学習
用ニューラルネットワーク16が出力する予測評価値に
よって大きさが制御されたノイズ、例えば−1から+1
の範囲のノイズを行動決定用ニューラルネットワーク1
5の出力パターンに加算して外部へ出力する。
学習制御手段1日は、システムの学習時に評価値学習用
ニューラルネットワーク16が行う学習と、自己学習シ
ステムの外部出力に対する評価値が′良゛の時にのみ行
われる、実行特大カバターンを入力パターン、ノイズが
加算された外部出力を出力パターンとする教師データを
用いた行動決定用ニューラルネットワーク15の学習を
制御する。すなわち評価値が良であっても否であっても
、評価値学習用ニューラルネットワーク16の学習は行
われるが、行動決定用ニューラルネットワーク15の学
習は外部出力に対する評価値が良の時にのみ行われる。
本発明の自己学習方式では、システムの外部出力がシス
テム内のノイズによってt呂らされるため、同一の入力
に対し複数の評価がある。しかし、システムの入出力と
評価の対応は1対1であるから、評価値学習用ニューラ
ルネットワーク16の学習データとして、入力側にシス
テムの入出力を、出力側に評価値を与えれば良い。しか
し、評価値学習用ニューラルネットワーク16の出力は
、実行時においてシステムの外部出力を計算する際に必
要なため、実行時にはシステムの外部出力を評価値学習
用ニューラルネットワーク16に入力することは不可能
である。そこで、実行時には行動決定用ニューラルネッ
トワーク15の出力を入力する。−見、異なる種類の情
報を入力するように見える。しかし、評価値学習用ニュ
ーラルネットワーク16の目的は、行動決定用ニューラ
ルネットワーク15の出力が、過去に良“ と評価され
たシステムの外部出力と同じ値であったならノイズを加
えるのを抑制することであり、またシステムの外部出力
は行動決定用ニューラルネットワーク15の出力にノイ
ズを加えただけのものであるから、システム全体の動作
を学習し、行動決定用ニューラルネットワーク15の動
作を評価することは、理にかなっている。
〔作   用〕
本発明においては自己学習システム内のニューラルネッ
トワーク、すなわち行動決定用ニューラルネットワーク
15と評価値学習用ニューラルネットワーク16の実行
と学習とが交互に繰り返される。システムの実行時に、
システムにある外部情報、例えば前述のロボントの例で
はセンサ入力が入力されると、それに応じた入力パター
ンが作成され、その入力パターンに対する行動決定用ニ
ューラルネットワーク15の出力が計算される。
次に評価値学習用ニューラルネットワーク16の出力が
計算され、その出力によってノイズ加算手段17の発生
するノイズが制御され、制御されたノイズが行動決定用
ニューラルネットワーク15の出力パターンに加算され
る。
そして加算結果が外部出力としてシステムの外部に出力
され、その外部出力に対する評価が、例えばシステム外
部から与えられる。評価値学習用ニューラルネットワー
ク16は前述の入力パターン、およびノイズの加算され
た外部出力と評価値を表す出力パターンとを用いて学習
を行う。また行動決定用ニューラルネットワーク15は
、例えば外部から与えられる評価値が゛良゛の時にのみ
、前述の入力パターンと前述のノイズが加算された外部
出力とを教師データとして学習を行う。これらの学習の
タイミングはシステムの行動に対する評価が与えられた
時である。学習が終わった時点でシステムに次の外部情
報が与えられ、それによって作成される入力パターンに
対する実行と学習とが行われる。
本発明においては、前述のように評価値学習用ニューラ
ルシネ・ントワーク16に対してシステムへの入力パタ
ーンに加えて学習時にはノイズが加算された外部出力が
、また実行時には行動決定用ニューラルネットワーク1
5の出力が入力される。
しかしながら行動決定用ニューラルネットワーク15の
出力はシステムの外部出力を学習したものであって、実
行時において評価値学習用ニューラルネットワーク16
が行動決定用ニューラルネットワーク15の出力にノイ
ズを加えない場合の評価を正確に出力することになり、
ノイズの制御が正確になる。さらに学習時においては評
価値学習用ニューラルネットワーク16へのある入力に
対する出力側教師データは一義的に決定されることとな
り、評価値学習用ニューラルネットワーク16の動作が
安定化される。
以上のように、本発明においては、行動決定用ニューラ
ルネットワーク15の出力に加えられるノイズを評価値
学習用ニューラルネットワーク16の出力を用いて制御
することができる。これによって過去に゛良′と学習し
た入力パターンに対しては加算されるノイズの大きさを
小さくすることが可能となる。
〔実  施  例] 第2図は本発明における自己学習システムの実施例の全
体構成ブロック図である。同図において自己学習システ
ム20は、第1図の行動決定用ニューラルネットワーク
15に相当する動作ネットワーク21、評価値学習用ニ
ユーラルネツトワ−り16に相当する評価ネットワーク
22、第5図の従来例におけると同様に入力パターンと
それに対する動作ネットワーク21の出力パターンにノ
イズが加算された外部出力(制御出力)とを対応づけて
一時記憶する短期記憶部23、評価ネットワーク22が
出力する評価値をノイズ制御信号29として用いてノイ
ズ32を発生するノイズ発生器24、動作ネットワーク
21の出力パターンにノイズ32を加算するノイズ加算
部25、自己学習システム20の外部から与えられる評
価信号30の値に応じて動作ネットワーク21に学習デ
ータ31を与えて学習を行わせ、また評価ネットワーク
22の学習を学習制御信号33によって制御する学習制
御部26、システムの外部から入力される外部情報を入
力パターンに変換する入力機構27、ノイズ加算部25
の出力35をシステム出力に変換する出力機構28から
成っている。そしてシステム出力は環境34に与えられ
、環境34はその出力に対する評価信号30を短期記憶
部23、および学習制御部26に出力する。また環境3
4からは外部情報、例えば前述のロボットの場合にはセ
ンサ情報がシステムの入力機構27に与えられる。
本発明においては第5図の従来例における欠点、すなわ
ち゛良′の入出力関係を学習した後にその学習パターン
と同じ入力が提示された場合に、出力に加えられるノイ
ズの影響でシステムの出力値が揺れるという欠点を解決
するために、良い出力が得られるパターンが入力された
場合には動作ネットワーク21の出力パターンに対する
ノイズによる振り幅を小さく、その他のパターンが入力
された場合には振り幅を大きくするというように入力パ
ターン毎の制御が行われる。
入力パターン毎にノイズ制御を変えるための指標は、入
力パターンに対する、動作ネットワーク21のノイズを
加える前の出力(以下、ノイズ前出力と略)の合目的度
である。しかし、合目的度はシステムが最終出力を出し
た後にしか測ることが出来ず、またノイズ前出力は、最
終出力ではない。
もし、動作ネットワーク21がパターンを正確に学習す
るならば、学習済パターンが入力された場合、そのノイ
ズ前出力は、前回のノイズを加えた後の出力に一致する
。このとき、ノイズを加えずに出力したならば、システ
ムは前回と同じ動作をし、同じ評価を受けるはずである
。したがって、前回の評価値は今回の合目的度の予測値
として使用することが出来る。
未学習パターンについては、予測値として使用できるも
のはない。しかし、誤ったノイズ制御をしても、その時
の行動、評価、学習によって、しだいに正しく予測され
るようになる。したがって、未学習パターンについては
、どのように制御してもよい。
ノイズの制御のために評価値を使用するならば、行動パ
ターンごとに評価値を記憶しておく必要がある。これに
は、組み合わせ可能な入力パターン数分のエントリを持
つテーブルを作成し記憶しておくのが、最も簡単かつ正
確であるが、入力の組二:1合わせが非常に多い場合や
入力データがアナログの場合不可能である。そこで、本
発明では動作ネットワーク21の他に評価値を学習する
評価ネットワーク22を設は記憶させる。
評価ネットワーク22は、評価の良否にかかわらず、そ
の評価値を学習する。学習するタイミングは、動作ネッ
トワーク21に対する評価が与えられたときである。動
作ネットワーク21は、′良′と評価されたパターンの
みを学習する。
゛否゛ と判定されたパターンを学習させると、ネット
ワークが否と評価されるような出力を出しやすくなるた
めである。学習タイミングは、行動に対する評価が与え
られたときである。
ノイズを制御する方法は、パターンが入力されたら、ま
ず動作ネットワーク21の出力を計算し、つぎに評価ネ
ットワーク22の計算を行う。動作ネットワーク21出
力にノイズを加えるとき評価ネットワーク22の出力で
ノイズ発生器24の出力を制御し、ノイズの量を調整す
る。これにより、過去に“良“と学習した入力パターン
に対してはノイズの大きさを小さくすることができ、安
定した出力が得られる。
第3図は本発明におけるネットワーク部の実施例の構成
図である。同図において入力機構27からの入力パター
ンは動作ネットワーク21と評価ネットワーク22の入
力層に与えられる。第5゜6図におけると同様に、例え
ば現在の11個のセンサ入力に加えて1ステツプ前のセ
ンサ入力も入力されるものとすると、両ネットワークの
入力層は22個のユニットで構成される。動作ネットワ
ーク21の出力層は、第5図では例えばロボットのモー
タ回転角度を決定するための1つのユニットのみの場合
を説明したが、一般には複数個のユニットから構成され
る。これに対して評価ネットワーク22の出力層のユニ
ット数は、このユニットからの出力がシステムの外部出
力に対する評価イ直にあたることから1個のみである。
そしてこの出力層のユニットが発生する評価値によって
ノイズ発生器24が発生するノイズの値が制御され、そ
の値がノイズ加算部25によって動作ネットワーク21
の出力パターンに加算されて出力機構28へ出力される
本発明の自己学習方式の実施例の動作を第2図および第
3図を用いて実行フェーズと学習フェーズとにわけて説
明する。以下の■〜■は動作の順序である。
■ 実行フェーズ ■ システムに何らかの外部情報が入力された時点で、
入力機構27によって作成される入力パターンに対する
動作ネットワーク21の出力を計算する。
■ 次にこの入力パターンとそれに対する動作ネットワ
ーク21の出力とを入力としてと評価ネットワーク22
の出力を計算する。この出力によってノイズ発生器24
の出力を制御し、動作ネ・ノドワーク21の出力パター
ンに加えられるノイズ32の最大幅を調節する。
■ 入力パターンと制御出力35(ノイズが加えられた
もの)を短期記憶部23に記憶する。
■ 出力機構28を通じ環境34にシステム出力を与え
る。
■ システムの出力に対する評価が環境34から評価信
号30として与えられ、その評価値はさきに記憶された
システムの入出力情報に対応づけて短期記憶部23およ
び学習制御部26に記憶される。
■ 学習フェーズ ■ 短期記憶部23に記憶されている実行時のシステム
の入出力パターンを入力側教師データとし、それに対応
する評価信号30を出力側教師データとする教師データ
を用いて評価ネットワーク22の学習を行わせる。
■ 環境34から与えられた評価が良い場合には、短期
記憶部23に記憶されているシステムの入出力パターン
を教師データとして用いて動作ネットワーク21の学習
を行わせる。
動作ネットワーク21、評価ネットワーク22の計算方
法は従来のパックプロパゲーション法と同一である。シ
ステムのP番目の入力パターンに対する動作ネットワー
ク21の出力層のO番目のユニットからの出力yO02
に実行時にはノイズを加算し、学習時にはノイズを加算
しない量は次式で与えられる。
ysop(t)=f(yoop(t)十r (1−yR
p(t)  ζ(t)L)  ・ (1)ただし、 yOop:P番目のパターンに対する、動作ネットワー
クの出力層の0番目の ユニットからの出力 yllp:P番目のパターンに対する、評価ネットワー
クの出力 γ   : ノイズの最大値を決定する定数ζ   :
  −1,0〜1.0の範囲のノイズL   : 実行
時=1.学習時=Oをとる(1)式の出力結果について
説明する。いま、ある入力情報に対するシステムの動作
が“良゛として評価され、両ネットワークとも充分に学
習したものとする。システムに再びこの同じ情報が入力
されると、“良゛の評価値は、“1°として学習してい
るので、評価ネットワーク22は、1または1に非常に
近い数値を出力する。(1)式に従って最終出力を計算
すると、評価ネットワーク22の出力は1付近の値であ
るため、たとえノイズの値が大きくても(1)式の第2
項は、0または0に非常に近い値となり動作ネットワー
ク21の出力にほとんど影響を与えない。したがって、
システムの出力は動作ネットワーク21の出力と非常に
近いものとなるが、動作ネットワーク21は、この入力
に対する良い動作を充分に学習しであるので、システム
の動作は安定し、良い動作が行われる。
一方、従来方式では(1)式の第2項ばTζ(t)Lと
なり、ノイズこの値が大きい場合には出力が大きく影響
され、学習した教師データとは大きく異なる値が出力さ
れることになり、システムは不安定となる。
第4図は本発明の自己学習方式の実施例のフローチャー
トである。同図において、第6図と同様にロボットのセ
ンサ入力に対してモータの回転角度を動作出力として得
るものとして、このフローチャートを説明する。まずス
テップ336で外部情報入力、すなわちセンサ入力があ
たえられると、それに対応する入力パターンに対してS
37で動作ネットワーク21の出力が計算され、33B
で評価ネットワーク22の出力が計算される。そして3
39で評価ネットワーク22の出力に応じて、ノイズが
抑制され、S40で動作ネットワーク21の出力パター
ンにノイズが加算され、341でノイズが加えられた後
の入出力情報が短期記憶部23に格納される。
S42で出力機構28からシステム出力、すなわち動作
出力が出力され、ロボットの場合にはこの出力に応じて
移動がなされる。そしてS43で動作結果から環境34
によって評価信号30が与えられ、S44で評価ネット
ワーク22が評価値を学習する。次に345で評価信号
30の値が良”であるか否かが判定され、良であればS
46で短期記憶部23に記憶されている入出力情報が動
作ネットワーク21によって学習された後に、また評価
値が′否′である時にはS46を経由することなく、S
36からの動作が繰り返される。
以上説明ではニューラルネットワークとして階層ネット
ワークを、また教師付き学習法としてバックプロパゲー
ション法を例として実施例を説明したが、階層ネットワ
ーク以外のネットワーク、またバンクプロパゲーション
法以外の学習法を用いることもできることは当然である
。またノイズことしては様々な分布を持つものが使用で
き、さらにシステムの外部出力に対してシステム外部、
あるいは内部から与えられる評価値はアナログ値でもデ
ィジタル値でもよい。
〔発明の効果〕
以上詳細に説明したように、本発明によれば過去におい
て良い評価がされていた入力パターンに対しては行動ネ
ットワークの出力パターンに加算されるノイズが確実に
抑制され、教師付き学習のネットワークによる強化学習
におけるシステムの安定動作に寄与するところが大きい
【図面の簡単な説明】
第1図は本発明の原理ブロック図、 第2図は本発明における自己学習システムの実施例の全
体構成を示すブロック図、 第3図は本発明におけるネットワーク部の実施例の構成
を示すブロック図、 第4図は自己学習方式の実施例のフローチャートを示す
図、 第5図は教師付学習ニューラルネットワークを使用した
自己学習システムの従来例の全体構成を示すブロック図
、 第6図はロボットに対する自己学習方式の例を示す図で
ある。 20・・・自己学習システム、 21・・・動作ネットワーク、 22・・・評価ネットワーク、 23・・・短期記憶部、 24・・・ノイズ発生器、 25・・・ノイズ加算部、 26・・・学習制御部、 34 ・ ・環境。

Claims (1)

  1. 【特許請求の範囲】 1)実行時に外部から入力される入力パターンに対する
    自ネットワークの出力パターンにノイズが加算されて外
    部出力とされ、学習時に該外部出力に対する評価値に応
    じて作成される教師データを学習する行動決定用ニュー
    ラルネットワーク(15)を有する自己学習システムに
    おいて、該自己学習システムの学習時には前記入力パタ
    ーンと前記出力パターンに前記ノイズが加算された自己
    学習システムの外部出力とを入力側教師データ、該外部
    出力に対する評価値を表すパターンを出力側教師データ
    としてシステムの挙動と評価の対応の学習を行い、実行
    時には前記入力パターンと前記行動決定用ニューラルネ
    ットワーク(15)の出力パターンとを入力として、該
    行動決定用ニューラルネットワーク(15)の出力パタ
    ーンに該ノイズを加算せずに該外部出力とした場合に予
    想される評価値を出力する評価値学習用ニューラルネッ
    トワーク(16)と、 前記自己学習システムの実行時に該評価値学習用ニュー
    ラルネットワーク(16)が出力する予想評価値に応じ
    てノイズの大きさを制御し、該ノイズを前記行動決定用
    ニューラルネットワーク(15)の出力パターンに加算
    して前記外部出力とするノイズ加算手段(17)と、 前記自己学習システムの学習時に前記評価値学習用ニュ
    ーラルネットワーク(16)が行う学習と、前記外部出
    力に対する評価値が良の時にのみ行われる前記実行時入
    力パターンを入力側教師データ、前記ノイズが加算され
    た外部出力を出力側教師データとする教師データを用い
    た前記行動決定用ニューラルネットワーク(15)の学
    習とを制御する学習制御手段(18)とを備え、前記評
    価値学習用ニューラルネットワーク(16)に対する教
    師データに矛盾が発生することを防止して自己学習の安
    定化を計ることを特徴とする自己学習システムの安定化
    方式。 2)前記ノイズは乱数によって与えられることを特徴と
    する請求項1記載の自己学習システムの安定化方式。 3)前記評価値学習用ニューラルネットワーク(16)
    の出力ユニットは1個のユニットからなり、前記行動決
    定用ニューラルネットワーク(15)の出力ユニットは
    複数個のユニットからなることを特徴とする請求項1記
    載の自己学習システムの安定化方式。
JP2019228A 1990-01-31 1990-01-31 自己学習システムの安定化方式 Expired - Fee Related JP2856259B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019228A JP2856259B2 (ja) 1990-01-31 1990-01-31 自己学習システムの安定化方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019228A JP2856259B2 (ja) 1990-01-31 1990-01-31 自己学習システムの安定化方式

Publications (2)

Publication Number Publication Date
JPH03225553A true JPH03225553A (ja) 1991-10-04
JP2856259B2 JP2856259B2 (ja) 1999-02-10

Family

ID=11993521

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019228A Expired - Fee Related JP2856259B2 (ja) 1990-01-31 1990-01-31 自己学習システムの安定化方式

Country Status (1)

Country Link
JP (1) JP2856259B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007287153A (ja) * 2006-04-13 2007-11-01 Fisher Rosemount Syst Inc モデルベース制御技法におけるロバストなプロセスモデルの同定方法及びシステム
US11214492B2 (en) 2017-04-06 2022-01-04 Nippon Shokubai Co., Ltd. Silica particles

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5737641B2 (ja) * 2014-05-24 2015-06-17 洋彰 宮崎 自律型思考パターン生成機

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007287153A (ja) * 2006-04-13 2007-11-01 Fisher Rosemount Syst Inc モデルベース制御技法におけるロバストなプロセスモデルの同定方法及びシステム
CN105259763A (zh) * 2006-04-13 2016-01-20 费舍-柔斯芒特系统股份有限公司 生成过程模型的模型生成系统
US11214492B2 (en) 2017-04-06 2022-01-04 Nippon Shokubai Co., Ltd. Silica particles

Also Published As

Publication number Publication date
JP2856259B2 (ja) 1999-02-10

Similar Documents

Publication Publication Date Title
US20220363259A1 (en) Method for generating lane changing decision-making model, method for lane changing decision-making of unmanned vehicle and electronic device
Ni et al. Adaptive learning in tracking control based on the dual critic network design
Juang Fuzzy neural network approaches for robotic gait synthesis
Zhong et al. A theoretical foundation of goal representation heuristic dynamic programming
JPH0546205A (ja) 予測制御方法
Da et al. Fuzzy neural networks for direct adaptive control
Shamsollahi et al. On-line identification of synchronous generator using neural networks
JPH03225553A (ja) 自己学習システムの安定化方式
US20010034560A1 (en) Control system
Zhang et al. Clique-based cooperative multiagent reinforcement learning using factor graphs
He et al. A hierarchical learning architecture with multiple-goal representations based on adaptive dynamic programming
JPH03184156A (ja) 自己学習方式
JPH0635510A (ja) ニューラルネットワークを用いたモデル規範型適応制御装置
JP2002133390A (ja) 学習装置および記録媒体
Hovakimyan et al. A novel observer based adaptive output feedback approach for control of uncertain systems
JPH03105663A (ja) 強化学習処理方式
JPH0756617A (ja) マニピュレータの最適軌道計画法
Ravichandran et al. Knowledge based approach for online self-tuning of PID-control
JPH0736505A (ja) 制御対象の同定・制御方法
Jouila et al. Stabilization of neuro-control structure using Lyapunov functional based approach
JP2966076B2 (ja) 学習装置の自己学習方法
Ishida Control by a policy-and-experience-driven neural network
Farrell et al. Connectionist learning control systems: submarine depth control
JPH07109609B2 (ja) 神経回路の時系列学習方法
McPherson et al. BasketBallBot: Developing an intelligent controls teaching platform using LabView, MATLAB, and Arduino

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081127

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081127

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091127

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees