JP2000035956A - エージェント学習装置 - Google Patents

エージェント学習装置

Info

Publication number
JP2000035956A
JP2000035956A JP10203760A JP20376098A JP2000035956A JP 2000035956 A JP2000035956 A JP 2000035956A JP 10203760 A JP10203760 A JP 10203760A JP 20376098 A JP20376098 A JP 20376098A JP 2000035956 A JP2000035956 A JP 2000035956A
Authority
JP
Japan
Prior art keywords
learning
environment
action
agent
responsibility
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10203760A
Other languages
English (en)
Other versions
JP3086206B2 (ja
Inventor
Kenji Dotani
賢治 銅谷
Mitsuo Kawahito
光男 川人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Science and Technology Agency
Original Assignee
Japan Science and Technology Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Science and Technology Corp filed Critical Japan Science and Technology Corp
Priority to JP10203760A priority Critical patent/JP3086206B2/ja
Priority to PCT/JP1999/003689 priority patent/WO2000004457A1/ja
Priority to CA002303874A priority patent/CA2303874C/en
Priority to EP99929751A priority patent/EP1016981A4/en
Priority to US09/508,850 priority patent/US6529887B1/en
Publication of JP2000035956A publication Critical patent/JP2000035956A/ja
Application granted granted Critical
Publication of JP3086206B2 publication Critical patent/JP3086206B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/048Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators using a predictor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Feedback Control In General (AREA)

Abstract

(57)【要約】 【課題】 非線形性/非定常性を持つ制御対象やシステ
ムなどの環境で、具体的な教師信号は与えられず、様々
な環境の状態や動作モードに最適な行動の切り替えや組
み合わせを行い、また先見知識を用いることなく柔軟に
行動学習を行なうことのできる、適応性に優れた、新し
いエージェント学習装置を提供する。 【解決手段】 環境(4)に対して働きかけ、その結果
得られる報酬を最大化するための行動出力を決定する強
化学習システム(1)と、環境の変化を予測する環境予
測システム(2)との組によりなる学習モジュール
(3)が複数備えられ、各学習モジュール(3)の環境
予測システム(2)の予測誤差が少ないものほど大きな
値を取る責任信号が求められ、この責任信号に比例して
強化学習システム(1)による行動出力が重み付けされ
て、環境に対する行動が与えられる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この出願の発明は、エージェ
ント学習装置に関するものである。さらに詳しくは、こ
の出願の発明は、ロボット、自動車、航空機など物理的
システムの制御、また、広く人間に代わって情報検索、
ユーザー応答、資源割当、市場取引などを行なうプログ
ラムにおいて、制御対象やシステムなどの環境の非線形
性または非定常性に対応し、環境の様々な状態やモード
それぞれに最適な行動の切り替えや組み合わせを、先験
的知識を用いることなく行い、柔軟な行動を行なうこと
のできる、適応性に優れた、新しいエージェント学習装
置に関するものである。
【0002】
【従来の技術とその課題】従来の学習システムの大半
は、予め人間により与えられた規範出力やその時間パタ
ーンをいかに実現するかという「教師付き学習」の問題
を解くものであった。しかし、実世界の多くの問題で
は、何が正しい出力かということは未知であり、教師付
き学習の枠組みは適用できない。
【0003】具体的に何が正しい出力かは教えられず
に、制御対象などの環境と試行錯誤的に相互作用を行な
うことにより、望ましい出力やその時間系列を学習する
方式は、「強化学習」の枠組みのもとで研究開発が行な
われて来た(R.Sutton and A.G.Barto. Reinforcement
Learning: An Introduction. MIT Press, 1998 参
照)。強化学習のシステムは、一般に、たとえば図1に
例示したように、環境(ア)から得られる報酬r(t)
をもとに状態の評価x(t)を学習する状態評価器
(イ)と、それをもとに環境(ア)への適切な行動出力
u(t)を学習する行動生成器(ウ)からなる。
【0004】これまで強化学習のアルゴリズムは、移動
ロボットやエレベーターの制御、通信チャンネル割当、
ゲームのプログラムなどに応用が行なわれている(R.Su
ttonand A.G.Barto. Reinforcement Learning: An Intr
oduction. MIT Press, 1998参照)。しかし、環境
(ア)の動作が非線形性を持つ場合には、状態評価器
(イ)や行動生成器(ウ)は極めて複雑な非線形関数近
似を行なわねばならず、学習には非常に長い時間を要
し、また、環境(ア)の動作が非定常性を持つ場合で
は、最適な行動の学習は不可能であるといった問題があ
った。
【0005】一方、適応制御の分野では、ロボット、航
空機など非線形性または非定常性を持つシステムに対し
て、その動作点や動作モードの変化に応じて異なる制御
回路を複数用意しておき、それらを随時切り替える方法
はしばしば用いられてきた。しかし、従来の技術では、
どのような制御回路を用意するか、どのような条件のも
とでそれらを切り替えるかを、予め先見知識に基づいて
決定しておく必要があり、適応性に欠けていた。
【0006】このような問題を解決するために様々な技
術が提案されている。たとえば、R.A.Jacobs, et al. A
daptive mixtures of local experts. Neural Computat
ion, 3, 79-87, 1990 では、複数の多層神経回路網の出
力を、ゲーティング回路と呼ばれる多層神経回路網の出
力により重み付け切り替えることにより、複雑な非線形
関数近似を実現することが提案されている。また、T.W.
Cacciatore and S.J.Nowlan. Mixtures of controllers
for jump linear and non-linear plants. Neural Inf
ormation Processing Systems, 6, Morgan Kaufmann, 1
994 や、H.Gomi and M.Kawato. Recognition of manipu
lated objects by motorlearning with modular archit
ecture networks. Neural Networks, 6, 485-497,1993
や、特開平06−19508や、特開平05−2979
04においては、たとえば図2に例示したように、この
ゲーティング回路(エ)を持つ多層神経回路を適応制御
に応用することが提案されている。しかし、現実には各
モジュールの学習とゲーティング回路の学習を相互協調
的に進めることは非常に困難である。
【0007】また、K.Narendra, et al. Adaptation an
d learning using multiple models, switching, and t
uning. IEEE Control Systems Magazine, June, 37-51,
1995 では、予測回路と制御回路の対による非線形制御
が提案されているが、制御は、最小の予測誤差を与える
単一のモジュールによって行なわれ、柔軟な組み合わせ
は考慮されていない。また、これらはすべて教師付き学
習の枠組みしか想定していないため、適用範囲が限られ
ている。
【0008】K.Pawelzik, et al. Annealed competitio
n of experts for a segmentationand classification
of switching dynamics. Neural Computation, 8, 340-
356, 1996では、信号源の事後確率にもとづく予測モジ
ュールの組み合わせと切り替えが提案されているが、制
御回路との組み合わせは考えられていない。この出願の
発明は、以上の通りの事情に鑑みてなされたものであ
り、従来技術の問題点を解消し、非線形性/非定常性を
持つ制御対象やシステムなどの環境で、具体的な教師信
号は与えられず、様々な環境の状態や動作モードに最適
な行動の切り替えや組み合わせを行い、また先見知識を
用いることなく柔軟に行動学習を行なうことのできる、
適応性に優れた、新しいエージェント学習装置を提供す
ることを目的としている。
【0009】
【課題を解決するための手段】この出願の発明は、上記
の課題を解決するものとして、環境に対して働きかけ、
その結果得られる報酬を最大化するための行動出力を決
定する強化学習システムと、環境の変化を予測する環境
予測システムとの組によりなる学習モジュールが複数備
えられ、各学習モジュールの環境予測システムの予測誤
差が少ないものほど大きな値を取る責任信号が求めら
れ、この責任信号に比例して強化学習システムによる行
動出力が重み付けされて、環境に対する行動が与えられ
ることを特徴とするエージェント学習装置(請求項1)
を提供する。
【0010】また、この出願の発明は、上記の方法にお
いて、学習モジュールの強化学習システムもしくは環境
予測システムのいずれかまたは両者の学習が、責任信号
に比例して行なわれること(請求項2)や、強化学習シ
ステムの学習に、強化学習アルゴリズムまたは動的計画
法アルゴリズムが用いられていること(請求項3)や、
環境予測システムの学習に、教師付き学習アルゴリズム
が用いられていること(請求項4)や、強化学習システ
ムが、状態評価器および行動生成器を有していること
(請求項5)や、状態評価器の関数近似手段として、線
形モデル、多項式モデル、および多層神経回路網の少な
くとも一つが用いられていること(請求項6)や、行動
生成器の関数近似手段として、線形モデル、多項式モデ
ル、および多層神経回路網の少なくとも一つが用いられ
ていること(請求項7)や、環境予測システムが、状態
予測器もしくは責任信号予測器のいずれかまたは両者を
有していること(請求項8)や、状態予測器の関数近似
手段として、線形モデル、多項式モデル、および多層神
経回路網の少なくとも一つが用いられていること(請求
項9)や、責任信号予測器の関数近似手段として、線形
モデル、多項式モデル、および多層神経回路網の少なく
とも一つが用いられていること(請求項10)などもそ
の態様として提供する。
【0011】
【発明の実施の形態】図3は、この出願の発明のエージ
ェント学習装置の一例を示した概略図である。たとえば
この図3に示したように、この発明のエージェント学習
装置では、環境(4)に対して働きかけ、その結果得ら
れる報酬を最大化するための行動出力を決定する強化学
習システム(1)と、環境(4)の変化を予測する環境
予測システム(2)の組を一つの学習モジュール(3)
として、それらがn組備えられている。
【0012】各学習モジュール(3)における強化学習
システム(1)は、たとえば状態評価器(11)と行動
生成器(12)を有している。各強化学習システム
(1)の状態評価器(11)はそれぞれ、環境(4)の
現在の状態つまり現状態x(t)を用いて、将来に向け
て得られる報酬の重みつき期待値Vi (x(t))を予
測する。各行動生成器(12)は、ただちに得られる報
酬r(t)と、状態評価器(11)による報酬の重みつ
き期待値Vi (x(t))との和が最大化されるよう
に、行動出力ui (t)を与える。なお、i=1,2・
・・nである(以下同じ)。
【0013】この強化学習システム(1)の学習には、
たとえば、Actor−Critic、Q学習、実時間
Dynamic Programming、線形2次形
式制御回路(LQR)などの強化学習アルゴリズムまた
は動的計画法アルゴリズム(R.Sutton and A.G.Barto.
Reinforcement Learning: An Introduction. MIT Pres
s, 1998 および D.P.Bertsekas and J.N. Tsitsiklis.
Neuro-Dynamic Programming. Athena Scientific. 199
6 参照)が用いられる。
【0014】一方、環境予測システム(2)は、たとえ
ば、状態予測器(21)を有しており、さらに責任信号
予測器(22)を有していてもよい。各環境予測器(2
1)は、現状態x(t)と行動u(t)を用いて、環境
(4)の状態変化x(t)を予測する。各責任信号予測
器(22)は、現状態x(t)の責任信号λi (t)を
予測する。学習には、たとえば教師付き学習アルゴリズ
ムが用いられる。
【0015】状態評価器(11)、行動生成器(1
2)、状態予測器(21)、責任信号予測器(22)そ
れぞれにおいては、その関数近似手段として、たとえば
線形モデル、多項式モデル、多層神経回路などを、単独
で或いは組み合わせて用いることができる。なお、各学
習モジュール(3)における強化学習システム(1)と
環境予測システム(2)の学習は、そのいずれか一方ま
たは両者が責任信号に比例して行なわれることが好まし
い。
【0016】そして、このような強化学習システム
(1)と環境予測システム(2)との組によりなる各学
習モジュール(3)i=1,2・・・nにおいて、環境
予測システム(2)の予測誤差が少ないものほど大きな
値を取る責任信号λi (t)が求められ、この責任信号
λi (t)に比例して強化学習システム(1)による行
動出力ui (t)が重み付けされて、環境(4)に対す
る行動u(t)が得られる。
【0017】この責任信号λi (t)に比例した重み付
によって、各時点においてどの学習モジュール(3)の
出力をどのように選択あるいは組み合わせるか、また各
学習モジュール(3)の学習をどのような比率で行なう
かが決定され、環境(4)により適した行動u(t)を
得ることができるようになる。さらに説明すると、各処
理は、たとえば以下のように行なわれる。
【0018】I)責任信号λi (t)は、各学習モジュ
ール(3)における環境予測システム(2)の状態予測
器(21)による状態変化x(t)の予測誤差、つまり
状態予測器(21)の予測モデルの誤差、の大きさに従
って求められる。より具体的には、まず、環境予測シス
テム(2)に責任信号予測器(22)がない場合では、
環境(4)の状態変化x(t)を、各学習モジュール
(3)の状態予測器(21)により予測し、それらの予
測自乗誤差の短時間平均値Ei (t)をもとに、責任信
号λi (t)が、次式により求められる。
【0019】
【数1】
【0020】ここで、σは各学習モジュール(3)の分
担範囲の広さを指定するパラメタである。これにより、
責任信号λi (t)は、環境予測システム(2)の予測
誤差が少ないものほど大きな値となる。 II)この責任信号λi (t)に比例した重みで、各行動
生成器(12)の行動出力ui (t)が足し合わされ
て、環境(4)への行動u(t)が与えられる。
【0021】III)責任信号λi (t)に比例した強さ
で、各環境予測システム(2)の学習が行なわれる。 IV)責任信号λi (t)に比例した強さで、各強化学習
システム(1)の学習が行なわれる。 このような処理が繰り返されて、各学習モジュール
(3)間の切り替え、組み合わせと、各学習モジュール
(3)内の強化学習システム(1)と環境予測システム
(2)とが、一貫性を保った形で、非線形性または非定
常性を持つシステムや制御対象などの環境(4)におけ
る異なる状態、動作点、動作モードなどに対応して最適
化されていき、先見知識を用いることなく柔軟な行動学
習が行なわれて、環境(4)に適した行動の取得が実現
される。
【0022】また、環境予測システム(2)が責任信号
予測器(22)を有している場合には、この責任信号予
測器(22)によって、環境(4)の現状態x(t)を
もとに責任信号の予測値が求められ、この予測値と、実
際の平均予測誤差つまり上述した予測自乗誤差の短時間
平均値Ei (t)とをもとに、責任信号λi (t)が、
上記数1の代りに、
【0023】
【数2】
【0024】として求められる。各責任信号予測器(2
2)は、たとえば、このλi (t)を教師信号として学
習を行なう。これにより、さらに最適な行動の切り替え
や組み合わせが行われて、さらに柔軟な行動学習の実現
を図ることができる。
【0025】以下、添付した図面に沿って実施例を示
し、この発明の実施の形態についてさらに詳しく説明す
る。
【0026】
【実施例】図1に例示したエージェント学習装置におい
て、まず、各学習モジュール(3)の環境予測システム
(2)における状態予測器(21)の関数近似手段とし
て、局所線形モデル
【0027】
【数3】
【0028】が用いられ、これにより環境(4)として
の制御対象の状態変化x(t)の予測値を求める。各強
化学習システム(1)は、次式で表される報酬の2次形
式モデルを有する。
【0029】
【数4】
【0030】また、状態評価器(11)の出力である報
酬の重みつき期待値Vi (x(t))は、リカッチ方程
【0031】
【数5】
【0032】の解Pi により、次式で与えられる。
【0033】
【数6】
【0034】さらに、行動生成器(12)の行動出力u
i (t)は、次式により与えられる。
【0035】
【数7】
【0036】なお、本実施例では、責任信号予測器(2
2)は用いないとする。また、環境(4)を制御対象と
しており、よって環境(4)に対する行動u(t)は制
御対象に対する制御指令となる。このような各学習モジ
ュール(3)において、学習は、t=0において平均予
測誤差Ei (0)=0、責任信号λi (0)=1/n、
行動出力u(t)=0と初期化を行なった後、下記の各
ステップI)〜IV)をt=Δt,2Δt,・・・におい
て繰り返すことにより、行なわれる。
【0037】I)まず、責任信号が以下のように算出さ
れる。 a)各学習モジュール(3)において、状態予測器(2
1)における上記数3の局所線形モデルにより、状態変
化x(t)の予測が行われ、さらにそれらの重み付によ
り、状態変化の総合予測が次式により求められる。
【0038】
【数8】
【0039】b)各状態予測器(21)の出力、つまり
予測モデルである局所線形モデルの出力の誤差の短時間
平均が、
【0040】
【数9】
【0041】により求められる。ここで、τR は評価の
時定数である。 c)そして、各モジュールの責任信号λi (t)が、前
記数1により求められ。 II)各行動生成器(12)の行動出力ui (t)は上記
数7により求められ、これらの責任信号λi (t)に比
例した重み付き和により、制御対象に対する制御指令で
ある行動u(t)が次式で求められる。
【0042】
【数10】
【0043】III)環境予測システム(2)の学習が行
なわれる。線形予測モデルのパラメタが、
【0044】
【数11】
【0045】
【数12】
【0046】により更新される。 IV)強化学習システム(1)の学習が行なわれる。 a)報酬モデルのパラメタが、
【0047】
【数13】
【0048】
【数14】
【0049】
【数15】
【0050】により更新される。 b)更新された線形予測モデルおよび報酬モデルに基づ
き、上記数5のリカッチ方程式を解く。 以上のようにして、先見知識を用いることなく、行動生
成器(12)の行動出力ui (t)の切り替えや組み合
わせが最適化されていき、非線形性/非定常性を持つ制
御対象の様々な状態や動作モードに対する最適な制御指
令である行動u(t)が与えられることとなる。
【0051】ただし、上記の報酬の定義、すなわち
i 、xi 、Ri が既知の場合には、ステップIV)−
a)は省略することができる。また、モデルの更新を徐
々に行なう場合は、ステップIV)−b)のリカッチ方程
式の解は毎ステップ行なう必要はない。上述したこの発
明のエージェント学習装置により、たとえば図4に例示
したようなクレーン(5)の制御を、上記の線形2次モ
デルを用いて行なう。
【0052】クレーン(5)は、質量m=1(kg)の
台車(51)、長さL(m)のアーム(52)、質量M
(kg)の負荷(53)からなる。このクレーン(5)
における状態変数はx=(P,P,θ,θ)であり、各
々、台車(51)の位置と速度、アーム(52)の角度
と角速度を表す。また、制御指令である行動u(t)=
fは台車の駆動力である。
【0053】制御試行中、クレーン(5)の目標位置P
* は±1(m)の範囲で3秒おきにランダムに設定され
る。3ステップの動作のうちに、負荷(53)の荷重M
とアーム(52)の長さLは、下記の表1に示すS1
2 ,S3 の3組の値のひとつに変更されるとする。エ
ージェント学習装置にn=3組の学習モジュール(3)
を用意し、報酬のパラメタをxi =(P* ,0,0,
0)、Q=diag(1,0,1,0)、R=0.01とし
た状態で、上記学習制御の実験を行なった。学習のパラ
メタは、τR =0.1、η=0.1とした。
【0054】また、各学習モジュール(3)の分担範囲
の広さを指定するパラメタである予測誤差のスケールσ
は、前回の試行の平均予測誤差により、学習の進行に伴
い減少させた。500回の試行の後の各学習モジュール
(3)は3つのクレーン状態S1 ,S 2 ,S3 にほぼ対
応するように分化した。各行動生成器(12)のフィー
ドバックゲインの値と、その理論的最適ゲインの値との
比較を以下の表1に示す。
【0055】
【表1】
【0056】ここで、表1における理論的最適ゲインの
4つの値は、各々、Ai ,Bi に解析的に求めた真の値
を用いてリカッチ方程式(数5)を解き与えられた行動
出力(数7)のフィードバックゲイン行列R-1i ’P
i の4つの要素(位置、速度、角度、角速度のゲイン)
を表す。学習後のゲインは、学習によって得られた
i ,Bi から数5、数7、数10により求められたフ
ィードバックゲイン行列の4つの要素の、各条件S1
2 ,S3 のもとでの平均値
【0057】
【数16】
【0058】を表す。また、(λ1 ,λ2 ,λ3 )は、
各々、各学習モジュール(3)による責任信号の平均値
である。この表1から明らかなように、この発明のエー
ジェント学習装置に従った学習により獲得された行動生
成器(12)のフィードバックゲインが、各クレーン状
態において、理論的最適フィードバックゲインに非常に
近くなっていることがわかる。すなわち、この発明によ
って、柔軟な行動学習が実現されて、クレーン(5)の
様々な状態や動作モードに対して最適な制御を行なうこ
とができた。
【0059】もちろん、この発明は以上の例に限定され
るものではなく、細部については様々な態様が可能であ
ることは言うまでもない。
【0060】
【発明の効果】以上詳しく説明した通り、この発明によ
って、非線形性/非定常性を持つ制御対象やシステムな
どの環境で、具体的な教師信号は与えられず、様々な環
境の状態や動作モードに最適な行動の切り替えや組み合
わせを行い、また先見知識を用いることなく柔軟に行動
学習を行なうことのできる、適応性に優れた、新しいエ
ージェント学習装置が提供される。
【図面の簡単な説明】
【図1】従来の強化学習システムの一例を示した概略図
である。
【図2】従来のゲーティング回路を持つ多層神経回路に
よる適応制御の一例を示した概略図である。
【図3】この発明のエージェント学習装置の各処理の概
略を例示した図である。
【図4】制御対象であるクレーンの一例を示した概略図
である。
【符号の説明】
1 強化学習システム 11 状態評価器 12 行動生成器 2 環境予測システム 21 状態予測器 22 責任信号予測器 3 学習モジュール 4 環境 5 クレーン 51 台車 52 アーム 53 負荷
フロントページの続き (72)発明者 銅谷 賢治 京都府相楽郡精華町光台7−2−2−5− 201 (72)発明者 川人 光男 京都府相楽郡精華町光台4−5−1−2 Fターム(参考) 5H004 GA15 GB12 GB13 GB16 GB17 HA07 HB07 HB08 HB09 JA03 JB07 KA65 KB38 KC06 KC10 KC12 KC24 KC27 KC46 KD33 KD45 KD62 KD70 LA05 MA19

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 環境に対して働きかけ、その結果得られ
    る報酬を最大化するための行動出力を決定する強化学習
    システムと、環境の変化を予測する環境予測システムと
    の組によりなる学習モジュールが複数備えられ、各学習
    モジュールの環境予測システムの予測誤差が少ないもの
    ほど大きな値を取る責任信号が求められ、この責任信号
    に比例して強化学習システムによる行動出力が重み付け
    されて、環境に対する行動が与えられることを特徴とす
    るエージェント学習装置。
  2. 【請求項2】 学習モジュールの強化学習システムもし
    くは環境予測システムのいずれかまたは両者の学習が、
    責任信号に比例して行なわれる請求項1のエージェント
    学習装置。
  3. 【請求項3】 強化学習システムの学習に、強化学習ア
    ルゴリズムまたは動的計画法アルゴリズムが用いられて
    いる請求項1または2のエージェント学習装置。
  4. 【請求項4】 環境予測システムの学習に、教師付き学
    習アルゴリズムが用いられている請求項1ないし3のい
    ずれかのエージェント学習装置。
  5. 【請求項5】 強化学習システムが、状態評価器および
    行動生成器を有している請求項1ないし4のいずれかの
    エージェント学習装置
  6. 【請求項6】 状態評価器の関数近似手段として、線形
    モデル、多項式モデル、および多層神経回路網の少なく
    とも一つが用いられている請求項5のエージェント学習
    装置。
  7. 【請求項7】 行動生成器の関数近似手段として、線形
    モデル、多項式モデル、および多層神経回路網の少なく
    とも一つが用いられている請求項5または6のエージェ
    ント学習装置。
  8. 【請求項8】 環境予測システムが、状態予測器もしく
    は責任信号予測器のいずれかまたは両者を有している請
    求項1ないし7のいずれかのエージェント学習装置。
  9. 【請求項9】 状態予測器の関数近似手段として、線形
    モデル、多項式モデル、および多層神経回路網の少なく
    とも一つが用いられている請求項8のエージェント学習
    装置。
  10. 【請求項10】 責任信号予測器の関数近似手段とし
    て、線形モデル、多項式モデル、および多層神経回路網
    の少なくとも一つが用いられている請求項8または9の
    エージェント学習装置。
JP10203760A 1998-07-17 1998-07-17 エージェント学習装置 Expired - Fee Related JP3086206B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP10203760A JP3086206B2 (ja) 1998-07-17 1998-07-17 エージェント学習装置
PCT/JP1999/003689 WO2000004457A1 (fr) 1998-07-17 1999-07-08 Machine didactique pour agents
CA002303874A CA2303874C (en) 1998-07-17 1999-07-08 Agent learning machine
EP99929751A EP1016981A4 (en) 1998-07-17 1999-07-08 DIDACTIC MACHINE FOR AGENTS
US09/508,850 US6529887B1 (en) 1998-07-17 1999-07-08 Agent learning machine

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10203760A JP3086206B2 (ja) 1998-07-17 1998-07-17 エージェント学習装置

Publications (2)

Publication Number Publication Date
JP2000035956A true JP2000035956A (ja) 2000-02-02
JP3086206B2 JP3086206B2 (ja) 2000-09-11

Family

ID=16479387

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10203760A Expired - Fee Related JP3086206B2 (ja) 1998-07-17 1998-07-17 エージェント学習装置

Country Status (5)

Country Link
US (1) US6529887B1 (ja)
EP (1) EP1016981A4 (ja)
JP (1) JP3086206B2 (ja)
CA (1) CA2303874C (ja)
WO (1) WO2000004457A1 (ja)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001086610A1 (de) * 2000-05-05 2001-11-15 Siemens Aktiengesellschaft Verfahren und vorrichtung zum ermitteln einer optimierten auswahl eines rahmensignalplans aus einer menge mehrerer rahmensignalpläne für ein verkehrssystem
JP2002059384A (ja) * 2000-08-22 2002-02-26 Sony Corp ロボットのための学習システム及び学習方法
WO2002063402A1 (fr) * 2001-02-05 2002-08-15 Honda Giken Kogyo Kabushiki Kaisha Appareil, procede et programme d'apprentissage pour agent
JP2006119926A (ja) * 2004-10-21 2006-05-11 Honda Motor Co Ltd 行動学習制御装置
JP2008508581A (ja) * 2004-07-27 2008-03-21 ソニー フランス エスアー 動作選択システム、動作選択方法、予測マシントレーニングシステム、予測マシントレーニング方法及び予測マシン
JP2009110256A (ja) * 2007-10-30 2009-05-21 Hitachi Ltd プラントの制御装置および火力発電プラントの制御装置
US7664714B2 (en) 2004-10-21 2010-02-16 Honda Motor Co., Ltd. Neural network element with reinforcement/attenuation learning
JP2010176583A (ja) * 2009-01-30 2010-08-12 Dainippon Printing Co Ltd 情報処理装置、情報処理方法、情報処理プログラム及び情報処理システム
US8095479B2 (en) * 2006-02-28 2012-01-10 Hitachi, Ltd. Plant control apparatus and method having functions of determining appropriate learning constraint conditions
US8135653B2 (en) 2007-11-20 2012-03-13 Hitachi, Ltd. Power plant control device which uses a model, a learning signal, a correction signal, and a manipulation signal
US8155763B2 (en) 2006-03-31 2012-04-10 Hitachi, Ltd. Operation control method, operation control device, and operation control system
US8175982B2 (en) 2005-09-02 2012-05-08 Nat'l University Corp. Yokohama Nat'l University Value function representation method of reinforcement learning and apparatus using this
US8209040B2 (en) 2007-01-10 2012-06-26 Hitachi, Ltd. Plant control apparatus
US8214062B2 (en) 2008-03-28 2012-07-03 Hitachi, Ltd. Plant control system and thermal power generation plant control system
US8355996B2 (en) 2007-06-07 2013-01-15 Hitachi, Ltd. Plant control apparatus that uses a model to simulate the plant and a pattern base containing state information
JP2019159888A (ja) * 2018-03-14 2019-09-19 株式会社日立製作所 機械学習システム
WO2019187548A1 (ja) * 2018-03-26 2019-10-03 ソニー株式会社 情報処理装置および情報処理方法
JP2020035221A (ja) * 2018-08-30 2020-03-05 本田技研工業株式会社 学習装置、シミュレーションシステム、学習方法、およびプログラム
JP2020152532A (ja) * 2019-03-20 2020-09-24 株式会社タダノ クレーン
JP2020152529A (ja) * 2019-03-20 2020-09-24 株式会社タダノ クレーン
JPWO2019146044A1 (ja) * 2018-01-25 2021-01-14 日本電気株式会社 交渉装置、推定方法、プログラム、推定装置

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6937966B1 (en) * 2000-06-09 2005-08-30 International Business Machines Corporation System and method for on-line adaptive prediction using dynamic management of multiple sub-models
US6917925B2 (en) * 2001-03-30 2005-07-12 Intelligent Inference Systems Corporation Convergent actor critic-based fuzzy reinforcement learning apparatus and method
US20030158827A1 (en) * 2001-06-26 2003-08-21 Intuition Intelligence, Inc. Processing device with intuitive learning capability
US7249116B2 (en) * 2002-04-08 2007-07-24 Fiske Software, Llc Machine learning
JP2004268235A (ja) * 2003-03-11 2004-09-30 Sony Corp ロボット装置、その行動制御方法及びプログラム
US8019705B2 (en) * 2003-03-24 2011-09-13 Fiske Software, LLC. Register and active element machines: commands, programs, simulators and translators
US20070028220A1 (en) * 2004-10-15 2007-02-01 Xerox Corporation Fault detection and root cause identification in complex systems
DE102007001024B4 (de) * 2007-01-02 2008-10-02 Siemens Ag Verfahren zur rechnergestützten Regelung und/oder Steuerung eines technischen Systems insbesondere einer Gasturbine
JP4423617B2 (ja) * 2007-01-10 2010-03-03 株式会社日立製作所 プラント制御装置
DE102008007700A1 (de) * 2007-10-31 2009-05-07 Siemens Aktiengesellschaft Verfahren zur rechnergestützten Exploration von Zuständen eines technischen Systems
DE102008020380B4 (de) * 2008-04-23 2010-04-08 Siemens Aktiengesellschaft Verfahren zum rechnergestützten Lernen einer Steuerung und/oder Regelung eines technischen Systems
WO2009158653A1 (en) * 2008-06-27 2009-12-30 Intuitive Automata, Inc. Apparatus and method for assisting in achieving desired behavior patterns
EP2216145B1 (en) * 2009-02-06 2011-06-08 Honda Research Institute Europe GmbH Learning and use of schemata in robotic devices
EP2296062B1 (de) * 2009-09-09 2021-06-23 Siemens Aktiengesellschaft Verfahren zum rechnergestützten Lernen einer Steuerung und/oder Regelung eines technischen Systems
US10839302B2 (en) 2015-11-24 2020-11-17 The Research Foundation For The State University Of New York Approximate value iteration with complex returns by bounding
US20170213150A1 (en) * 2016-01-25 2017-07-27 Osaro, Inc. Reinforcement learning using a partitioned input state space
JP2018126796A (ja) * 2017-02-06 2018-08-16 セイコーエプソン株式会社 制御装置、ロボットおよびロボットシステム
DE112017007028B4 (de) * 2017-02-09 2023-06-15 Mitsubishi Electric Corporation Positionskontrollvorrichtung und Positionskontrollverfahren
KR101875319B1 (ko) 2017-03-03 2018-08-02 박재관 키보드 커버
US10762424B2 (en) 2017-09-11 2020-09-01 Sas Institute Inc. Methods and systems for reinforcement learning
KR102488558B1 (ko) 2017-11-21 2023-01-13 구글 엘엘씨 기계 학습 기능을 갖는 저전력 앰비언트 컴퓨팅 시스템
CN113359476B (zh) * 2021-07-09 2022-09-16 广东华中科技大学工业技术研究院 离散时间下多智能体系统的一致性控制算法设计方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02226458A (ja) * 1989-02-28 1990-09-10 Fujitsu Ltd 並列処理計算機パイプライン処理方式
JPH02226459A (ja) * 1989-02-28 1990-09-10 Fujitsu Ltd ニューラルネット学習処理方法
JPH02226460A (ja) * 1989-02-28 1990-09-10 Toshiba Corp 適応型学習制御システム
JPH03105664A (ja) * 1989-09-20 1991-05-02 Sanyo Electric Co Ltd かな漢字変換装置
JPH03105663A (ja) * 1989-09-20 1991-05-02 Fujitsu Ltd 強化学習処理方式
JPH0748211B2 (ja) * 1989-09-20 1995-05-24 三洋電機株式会社 かな漢字変換装置
US5448681A (en) * 1992-03-27 1995-09-05 National Semiconductor Corporation Intelligent controller with neural network and reinforcement learning
JP3105663B2 (ja) 1992-10-13 2000-11-06 株式会社田中製作所 加工ヘッドの高さ制御方法及び該制御方法を用いた切断加工装置
JP3105664B2 (ja) 1992-10-16 2000-11-06 株式会社コーセー 皮膚外用剤
JP3105665B2 (ja) 1992-10-29 2000-11-06 三洋電機株式会社 補強軸の固定機構
EP0935202A1 (en) * 1998-01-19 1999-08-11 Sony France S.A. Hardware or software architecture implementing self-biased conditioning

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001086610A1 (de) * 2000-05-05 2001-11-15 Siemens Aktiengesellschaft Verfahren und vorrichtung zum ermitteln einer optimierten auswahl eines rahmensignalplans aus einer menge mehrerer rahmensignalpläne für ein verkehrssystem
JP2002059384A (ja) * 2000-08-22 2002-02-26 Sony Corp ロボットのための学習システム及び学習方法
WO2002063402A1 (fr) * 2001-02-05 2002-08-15 Honda Giken Kogyo Kabushiki Kaisha Appareil, procede et programme d'apprentissage pour agent
JP2008508581A (ja) * 2004-07-27 2008-03-21 ソニー フランス エスアー 動作選択システム、動作選択方法、予測マシントレーニングシステム、予測マシントレーニング方法及び予測マシン
JP2006119926A (ja) * 2004-10-21 2006-05-11 Honda Motor Co Ltd 行動学習制御装置
US7664714B2 (en) 2004-10-21 2010-02-16 Honda Motor Co., Ltd. Neural network element with reinforcement/attenuation learning
US8175982B2 (en) 2005-09-02 2012-05-08 Nat'l University Corp. Yokohama Nat'l University Value function representation method of reinforcement learning and apparatus using this
US8095479B2 (en) * 2006-02-28 2012-01-10 Hitachi, Ltd. Plant control apparatus and method having functions of determining appropriate learning constraint conditions
US8155763B2 (en) 2006-03-31 2012-04-10 Hitachi, Ltd. Operation control method, operation control device, and operation control system
US8209040B2 (en) 2007-01-10 2012-06-26 Hitachi, Ltd. Plant control apparatus
US8355996B2 (en) 2007-06-07 2013-01-15 Hitachi, Ltd. Plant control apparatus that uses a model to simulate the plant and a pattern base containing state information
JP2009110256A (ja) * 2007-10-30 2009-05-21 Hitachi Ltd プラントの制御装置および火力発電プラントの制御装置
US8554706B2 (en) 2007-11-20 2013-10-08 Hitachi, Ltd. Power plant control device which uses a model, a learning signal, a correction signal, and a manipulation signal
US8135653B2 (en) 2007-11-20 2012-03-13 Hitachi, Ltd. Power plant control device which uses a model, a learning signal, a correction signal, and a manipulation signal
US8214062B2 (en) 2008-03-28 2012-07-03 Hitachi, Ltd. Plant control system and thermal power generation plant control system
JP2010176583A (ja) * 2009-01-30 2010-08-12 Dainippon Printing Co Ltd 情報処理装置、情報処理方法、情報処理プログラム及び情報処理システム
JPWO2019146044A1 (ja) * 2018-01-25 2021-01-14 日本電気株式会社 交渉装置、推定方法、プログラム、推定装置
US11494818B2 (en) 2018-01-25 2022-11-08 Nec Corporation Negotiation device, estimation method, program, and estimation device
JP2019159888A (ja) * 2018-03-14 2019-09-19 株式会社日立製作所 機械学習システム
JPWO2019187548A1 (ja) * 2018-03-26 2021-05-13 ソニーグループ株式会社 情報処理装置および情報処理方法
WO2019187548A1 (ja) * 2018-03-26 2019-10-03 ソニー株式会社 情報処理装置および情報処理方法
JP7331837B2 (ja) 2018-03-26 2023-08-23 ソニーグループ株式会社 情報処理装置および情報処理方法
JP2020035221A (ja) * 2018-08-30 2020-03-05 本田技研工業株式会社 学習装置、シミュレーションシステム、学習方法、およびプログラム
JP7048455B2 (ja) 2018-08-30 2022-04-05 本田技研工業株式会社 学習装置、シミュレーションシステム、学習方法、およびプログラム
US11544556B2 (en) 2018-08-30 2023-01-03 Honda Motor Co., Ltd. Learning device, simulation system, learning method, and storage medium
JP2020152529A (ja) * 2019-03-20 2020-09-24 株式会社タダノ クレーン
JP2020152532A (ja) * 2019-03-20 2020-09-24 株式会社タダノ クレーン

Also Published As

Publication number Publication date
WO2000004457A1 (fr) 2000-01-27
CA2303874C (en) 2005-10-04
EP1016981A1 (en) 2000-07-05
EP1016981A4 (en) 2005-02-16
US6529887B1 (en) 2003-03-04
CA2303874A1 (en) 2000-01-27
JP3086206B2 (ja) 2000-09-11

Similar Documents

Publication Publication Date Title
JP3086206B2 (ja) エージェント学習装置
Wolpert et al. Multiple paired forward and inverse models for motor control
Haruno et al. Multiple paired forward-inverse models for human motor learning and control
Johansson et al. State-space system identification of robot manipulator dynamics
Heinen et al. An incremental probabilistic neural network for regression and reinforcement learning tasks
JP3465236B2 (ja) ロバスト強化学習方式
Kodogiannis et al. Neural network modelling and control for underwater vehicles
Rezaei-Shoshtari et al. Cascaded gaussian processes for data-efficient robot dynamics learning
CN112338914B (zh) 一种在输出受限和输入时滞下基于随机系统的单连杆机械手模糊控制算法
Krug et al. Representing movement primitives as implicit dynamical systems learned from multiple demonstrations
Kuntze et al. A fuzzy-logic concept for highly fast and accurate position control of industrial robots
Nawrocka et al. Neural network control for robot manipulator
JPH0895938A (ja) 時系列データの学習方法及び時系列データの学習装置
Zeng et al. Obstacle avoidance through incremental learning with attention selection
Janusz et al. Self-learning neural control of a mobile robot
JP2996952B1 (ja) 学習制御方法および学習制御装置
Oubbati et al. Meta-learning for adaptive identification of non-linear dynamical systems
Brown et al. Artificial neural network identification of partially known dynamic nonlinear systems
Han et al. A neural network based approach for the identification and optimal control of a cantilever plate
Wira et al. A divide-and-conquer learning architecture for predicting unknown motion.
Koivisto Minimum prediction error neural controller
Camacho et al. Neural network based adaptive control
Kaiser et al. Using neural networks for real-world adaptive control
Kodogiannis et al. Neural network based predictive control systems for underwater robotic vehicles
Nawrocka et al. Neural network control of nonlinear objects

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080707

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090707

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100707

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110707

Year of fee payment: 11

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110707

Year of fee payment: 11

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120707

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120707

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130707

Year of fee payment: 13

LAPS Cancellation because of no payment of annual fees