JPH03105663A - 強化学習処理方式 - Google Patents

強化学習処理方式

Info

Publication number
JPH03105663A
JPH03105663A JP1244410A JP24441089A JPH03105663A JP H03105663 A JPH03105663 A JP H03105663A JP 1244410 A JP1244410 A JP 1244410A JP 24441089 A JP24441089 A JP 24441089A JP H03105663 A JPH03105663 A JP H03105663A
Authority
JP
Japan
Prior art keywords
output
unit
learning
network
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1244410A
Other languages
English (en)
Inventor
Kazushige Saga
一繁 佐賀
Minoru Sekiguchi
実 関口
Tamami Sugasaka
菅坂 玉美
Shigemi Osada
茂美 長田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP1244410A priority Critical patent/JPH03105663A/ja
Publication of JPH03105663A publication Critical patent/JPH03105663A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Feedback Control In General (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (4!t  要) 教師付き学習を行うニューラルネットワークを使用して
.その出力に対する評価により教師データを自動的に作
成し,当該教師データにもとづいて学習する強化学習処
理方式に関し, ネットワークにゆらぎを与えてより好ましい出力パター
ンが得られることを期待する構或を採用しつつ.システ
ムを安定に動作せしめるようにすることを目的とし, ニューラルネットワークのいわば出力層に近い位置に,
ネットワークの出力を評価する強化信号を学習するユニ
ットをもうけると共に.当該ユニットの出力に応じてネ
ットワークにかけるゆらぎを制御する機構をもつ構成と
する. 〔産業上の利用分野〕 本発明は,教師付き学習を行うニエーラルネツトワーク
を使用して.その出力に対する評価により教師データを
自動的に作戒し.当該教師データにもとづいて学習する
強化学習処理方式に関する.最近二エーラルネットワー
クを用いた学習する装置が用いられるようになり,パタ
ーン認識処理や.適応フィルタや.ロボットの制1nな
どに応用される. 〔従来の技術〕 教師付き学習を行うニューラルネットワークを使用して
学習する装置においては,教師パターンを作成すること
が必要となる.このためにこの種の学習システムでは,
実行時のネットワークに乱数を掛けてシステムをゆらし
,その入出力パターンを採取して,教師パターンを作戒
する試みが行われる.しかしこの方式では無条件に乱数
を掛ける形となる. 〔発明が解決しようとする1lI!!〕このため,“良
”と評価されて十分に学習が行われたパターンが入力さ
れても.乱数の影響で学習データと異なる出力を出すこ
とが生じ,学習を重ねてもシステムが安定しないという
問題がある.ただこれは,学習が進むにつれて乱数の強
さを変化させる手段を取り入れることにより解決できる
が,すべての入力パターンに対して同じように強さを弱
めてゆくようにすると.新たに追加された入力パターン
については色々模索しても仲々良い出力を得ることが出
来ないという問題が出てくる.本発明は.ネットワーク
にゆらぎを与えてより好ましい出力パターンが得られる
ことを期待する構戒を採用しつつ.システムを安定に動
作せしめるようにすることを目的としている. 〔課題を解決するための手段〕 第1図は本発明の原理構戒図を示す.図において,10
は本発明の対応となる強化学習ネットワークを示してい
る.そして,11は教師付き学習のニューラルネットワ
ークであって,教師パターンが与えられているとき.入
力された入力パターンに対応して上記教師パターンにも
とづいて学習した結果の出力パターンを出力する.12
は本発明によってもうけられた強化信号学習ユニットで
あって,強化学習ネットワーク10の出力が十分に学習
が行われた上での出力か否かにもとづいて後述する乱数
発生ユニット13への出力が変化するよう構成される.
13は乱数発生ユニットであって,図示の場合には.強
化信号学習ユニット12の出力に対応した大きさのゆら
ぎをもつ乱数を図示のニューラルネットワーク11の出
力vL:q ”/トに供給する。14は入出力パターン
記憶メモリであって.ニューラルネットワーク11の入
カパターンとそれに対応した出力パターンとの組(以下
入出力パターンという)のうちで,いわば“良”とされ
たものを記憶して.それをニューラルネットワーク11
への教師パターンとして利用するようにするためのもの
である.15は入力パターンを生戒する入力部であり,
16は出力パターンに対応して例えば図示しないモータ
を駆動するなどの動作を行う出力部である.またI8は
環境であり,例えばロボットの動きなどに対応して変化
する外部環境と考えてよく,17は当該環境から判断し
て(人間が判断してもよい)上記ニューラルネットワー
ク11の出力が合目的的であるとみられた場合に“良”
を与える如き強化信号である。
図示の強化信号学習ユニット12は.ニューラルネット
ワーク11の出力ユニットに近い位置にユニットとして
用意される.そして.ニューラルネットワーク11から
の出力が既に十分に学習を受けた結果のものであれば,
当該強化信号学習ユニット12の出力が値r1,に近づ
くように構成される, 〔作 用〕 環境1日に対応して入力部15が入力パターンを生成す
る。この人力パターンは.ニューラルネットワーク11
と入出力パターン記憶メモリl4に供給される.ニュー
ラルネットワーク1lは教師パターンを学習しており(
十分に学習していないこともある),上記入力パターン
に対して.当該学習の結果に対応した出力パターンを出
力する.図示の場合には,当該出力パターン内に上記乱
数発生ユニット13からのゆらぎが含まれた形となって
いる.その出力パターンは入出力パターン記憶メモリ1
4に供給され.上記の入力パターンと組にされて入出力
パターンとして蓄えられる.また出力パターンは出力部
l6に供給されて例えば図示しないモータを駆動する. 出力部16による駆動の結果に対応して澄境l8が変化
するが,当咳変化がニューラルネットワークl1にとっ
て合目的的なものであればその旨が強化信号l7の形で
通知される.そして,合目的的な入出力パターンが人出
力パターン記憧メモリl4に保持されて.次回以降の教
師パターンとして利用されてゆく.モして5上記強化信
号l7に対応して強化信号学習ユニット12は,当該強
化信号が“良”である程.値rlJを出力するように学
習してゆく.現実的には,ニューラルネットワーク11
において好ましい教師パターンに対して十分に学習が進
んでいれば.それに対応した形で強化信号学習ユニット
12が値「1」に近い出力を乱数発生ユニット13に供
給するようにされる. 従来の場合には,システムをゆらすために,実行時のニ
ューラルネットワークの出力層や出力自体に乱数を加え
ている.そして一般にこの乱数の強さ(範囲)は制御さ
れていないため.″良”と評価され十分に学習したパタ
ーンについてもかなり大きな乱数が掛かり,シス亭ムが
不安定になる.そこで.提示パターンの出力に対する強
化信号を学習するユニットを設け.その出力によって乱
数の強さを制御する.これにより.“良”と評価された
パターンに対しては乱数の掛かり方が弱くなり.システ
ムが安定して動作するようになる.〔実施例〕 第2図は.3層のニューラルネットワークを用いた本発
明の実施例を示す. 図中の符号12.13は第1図に対応している.モして
23はニューラルネットワークの入力層.24はニュー
ラルネットワークの中間層.25は本発明においてもう
けられた第一出力層であって本発明にいう強化信号学習
ユニット12を構成するもの.26は第二出力層であっ
てニューラルネットワークの従来からの出力層に相当す
るものである.また27は学習時に値「0」が与えられ
実行時に値「l」が与えられる信号Lを表している.入
力層,中間層は従来の場合と同じである.出力層は2つ
に分かれており.中間層側のものを第′一出力層,他方
のものを第二出力層と呼ぶ.第一出力層には本発明によ
る強化信号学習ユニット12のみがあり.第二出力層に
は従来の出力層に相当するユニットがある.乱数発生ユ
ニット13と第二出力層26との結合は固定である.動
作を説明する. ■ ネットワークの入力に何らかのパターンが提示され
ると,ニューラルネットワーク11は強化信号学習ユニ
ット12への出力を計算する.また,このときに入力パ
ターンをメモリに記憶する. ■ また第二出力1j26への出力をも計算する.この
とき,第二出力層26に掛かる乱数は.■で計算した強
化信号学習ユニット12への出力によって制御される.
第二出力層26は乱数発生ユニット13から信号を含め
た計算結果を出力するとともにそれを出力パターンとし
てメモリl4に記憶する. ■ 出力に対する評価である強化信号が環境18から与
えられる.この信号をメモリl4に記憶する. ■ メモリに記憶された入出力パターン.強化信号を利
用して強化学習ネットワーク10は学習する. ■ ネットワーク1lの出力によって,環境l8が変化
する.変化した環境を入力部l5がセンスし,ネットワ
ーク11に入力し,上記■ないし■の動作が繰り返され
る. 入力層23と中間層24とにおける計算方法は.従来公
知のパックブロパゲーシッン法の場合と同一であると考
えてよい.また,第一出力層25の強化信号学習ユニッ
ト12の出力も.従来と同一の方法で求める.したがっ
て,このユニット12のp番目のパターンに対する出力
)’Illは.x*p(t)  一Σ)’ tp(t)
  wmt(t)    一・一・−−−−− (1)
▲ y at(t)  − 1 / ( i +exp (
−χN.(t)  ) )(2) ただし. ?*e:P番目のパターンに対する,中間層・24から
本ユニット12への入力の重みつき総和 )’tpFP番目のパターンに対する,中間層24の1
番目のユニットからの出力 W■:中間11524の1番目のユニットと本ユニット
12との結合の重み となる.システムに対する乱数の与え方には様々な方法
があるが.一例として第二出力層26のバイアスとして
乱数をかけるようにしている.この乱数バイアスθ,は
.次式のように定義する.θ,  (1)  一γ・(
1  )’ *p(t))・ζ(1)・L −−−−−
 (3)ここで, γ:乱数の範囲を決定する定数 ζ:−X.O〜1.0の範囲の乱数 L:実行時−1.学習時一〇をとる となる. 第二出力層26のP番目のパターンに対する出力yjp
は, xjp(t)  一Σ7 i s ( t)  W j
= (t)    ・−−−−−−−−−{4)yjp
(t)  −1/ (1 +exp (  xat(t
) + 01(t)1(5) ただし. XJp’P番目のパターンに対する.中間層からの第二
出力層への入力の重みつき総和 3’tpjP番目のパターンに対する9中間層のi番目
のユニットからの出力 Wj!:中間層のi番目のユニットと,第二出力層のj
番目のユニットとの結合の重み となる. 学習時には,信号Lによりe,−oとなり,また強化信
号学習ユニット12も第二出力層26の各ユニットも中
間層24と完全結合しているので,学習方法はパックプ
ロパゲーシッン法と同一となる. なお勿論,本発明は,階層ネットワーク以外のネットワ
ークにも,またバックプロパゲーシッン法以外の教師付
き学習法に適用することができる.また乱数ζはさまざ
まな分布をもつものが使用できる。また強化信号として
アナログ値を用い゛ることもできる. 第2図図示の場合.強化信号学習ユニット12は次の如
く動作する.即ち.いま,ある入力パターンに対する出
力が゜良”として評価され.十分に学習したものとする
.ネットワーク11にこの入力パターンが与えられると
,本発明では(1), (2)式に従って強化信号学習
ユニッ}12の出力が計算される.“良”の強化信号は
,′1”として学習しているので.本ユニット12の出
力は値「1」または値「1」に非常に近い値になる.従
来の方式の場合には,このステップはない.次に(3)
, (4).(5)式に従って,第二出力層の出力が計
算される.強化信号学習ユニット12の出力はr1,付
近の値であるため.たとえ乱数の値ζが大きくても(3
)式は「0」または「0」に非常に近い値となり.(5
)式にほとんど影響を与えない.したがって,第二出力
層26のユニットは乱数の影響を受けない所の学習した
値を出力し,システムは安定して動作する. 従来方式では(3)式を θr (t) = r・ζ(1)  ・Lとして表され
るものを用いていたため.乱数の値ζが大きい場合(5
)式が大きく影響され,学習したものとは異なる値即ち
乱数の影響を大きく受けた値を出力する。この結果,シ
ステムが不安定となる。以上述べたように.本発明は教
師付き学習のネットワークによる強化学習において,シ
ステムを安定に動作させるのに有効である. 〔発明の効果〕 本発明によれば強化信号を学習するユニットを設け,評
価の良否に対応して学習させることにより.ネットワー
ク出力の計算時に.その出力が如何に評価されるかを予
測することを可能とするようにしている.そしてその予
測に従って出力ユニットに掛かる乱数を制御することが
出来る.これは.入力パターンごとに乱数を与える量を
制御出来ることを示している. このように,強化信号を学習するユニット・を設一ける
ことによって,乱数の制御が可能になるが.未学習のパ
ターンに対してはこのユニットも誤った出力を出す.し
かし,その出力に対する強化信号の学習によって.次回
以降正しい出力を出すようになり.システムは正常に動
作するようになる.
【図面の簡単な説明】 第1図は本発明の原理構戒図.第2図は3層のニューラ
ルネットワークを用いた本発明の実施例を示す. 10:強化学習ネットワーク 1l:教師付き学習のニューラルネットワーク12:強
化信号学習ユニット 13:乱数発生ユニット 14:入出力パターン記憶メモリ l5:入力部 16:出力部 17:強化信号 l8:環境 23:入力層 24:中間層 25:第一出力層 26:第二出力層 27:学習制御信号L

Claims (1)

  1. 【特許請求の範囲】 教師付き学習を行うニューラルネットワーク(11)を
    使用して、その出力に対する外部あるいは内部からの評
    価により、教師データを作成し、当該教師データにもと
    づいて学習する学習処理システムにおいて、 提示パターンに対するネットワークの出力を評価する強
    化信号を学習するユニット(12)を設け、該ユニット
    (12)の出力に応じてネットワークに掛けるゆらぎを
    与える乱数発生ユニット(13)に対して制御量を変化
    する機構を持つよう構成されてなり、 “良”と評価され学習が行われたパターンに対しては、
    上記ゆらぎの程度を少なくするようにした ことを特徴とする強化学習処理方式。
JP1244410A 1989-09-20 1989-09-20 強化学習処理方式 Pending JPH03105663A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1244410A JPH03105663A (ja) 1989-09-20 1989-09-20 強化学習処理方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1244410A JPH03105663A (ja) 1989-09-20 1989-09-20 強化学習処理方式

Publications (1)

Publication Number Publication Date
JPH03105663A true JPH03105663A (ja) 1991-05-02

Family

ID=17118252

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1244410A Pending JPH03105663A (ja) 1989-09-20 1989-09-20 強化学習処理方式

Country Status (1)

Country Link
JP (1) JPH03105663A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000004457A1 (fr) * 1998-07-17 2000-01-27 Japan Science And Technology Corporation Machine didactique pour agents
JP2006079279A (ja) * 2004-09-08 2006-03-23 Institute Of Physical & Chemical Research 自己進化型パターン認識システム
JP2010261172A (ja) * 2009-04-30 2010-11-18 For Build Co Ltd 角締金具
JP2019016025A (ja) * 2017-07-04 2019-01-31 株式会社日立製作所 情報処理システム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000004457A1 (fr) * 1998-07-17 2000-01-27 Japan Science And Technology Corporation Machine didactique pour agents
US6529887B1 (en) * 1998-07-17 2003-03-04 Agency Of Industrial Science And Technology Agent learning machine
JP2006079279A (ja) * 2004-09-08 2006-03-23 Institute Of Physical & Chemical Research 自己進化型パターン認識システム
JP4599509B2 (ja) * 2004-09-08 2010-12-15 独立行政法人理化学研究所 自己進化型パターン認識システム
JP2010261172A (ja) * 2009-04-30 2010-11-18 For Build Co Ltd 角締金具
JP2019016025A (ja) * 2017-07-04 2019-01-31 株式会社日立製作所 情報処理システム

Similar Documents

Publication Publication Date Title
Berenji et al. Learning and tuning fuzzy logic controllers through reinforcements
Clouse et al. A teaching method for reinforcement learning
Barto Adaptive critics and the basal ganglia
Anderson Strategy learning with multilayer connectionist representations
Psaltis et al. A multilayered neural network controller
Chiang et al. A self-learning fuzzy logic controller using genetic algorithms with reinforcements
CN109523029A (zh) 用于训练智能体的自适应双自驱动深度确定性策略梯度强化学习方法
CN112698572B (zh) 一种基于强化学习的结构振动控制方法、介质及设备
Zhang et al. Robot learning system based on dynamic movement primitives and neural network
Yazdizadeh et al. Identification of a two-link flexible manipulator using adaptive time delay neural networks
JPH03105663A (ja) 強化学習処理方式
Saito et al. Learning architecture for real robotic systems-extension of connectionist Q-learning for continuous robot control domain
He et al. A hierarchical learning architecture with multiple-goal representations based on adaptive dynamic programming
CN113485099B (zh) 一种非线性离散时间系统的在线学习控制方法
Beck Modeling the student with reinforcement learning
JPH04237388A (ja) ニューロプロセッサ
Peterson et al. Towards automatic shaping in robot navigation
JP2002133390A (ja) 学習装置および記録媒体
Dadios et al. Application of neural networks to the flexible pole-cart balancing problem
JPH05265509A (ja) 学習制御装置
TWI835638B (zh) 於非對稱策略架構下以階層式強化學習訓練主策略的方法
JPH03225553A (ja) 自己学習システムの安定化方式
JPH04291662A (ja) 階層ネットワーク構成演算素子
Vollbrecht Three principles of hierarchical task composition in reinforcement learning
Wayne Self-modeling neural systems