JP2011065553A - 学習制御システム及び学習制御方法 - Google Patents

学習制御システム及び学習制御方法 Download PDF

Info

Publication number
JP2011065553A
JP2011065553A JP2009217454A JP2009217454A JP2011065553A JP 2011065553 A JP2011065553 A JP 2011065553A JP 2009217454 A JP2009217454 A JP 2009217454A JP 2009217454 A JP2009217454 A JP 2009217454A JP 2011065553 A JP2011065553 A JP 2011065553A
Authority
JP
Japan
Prior art keywords
value
state
action
behavior
update
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009217454A
Other languages
English (en)
Other versions
JP5405252B2 (ja
Inventor
Tenkai Kin
天海 金
Koji Tsujino
広司 辻野
Hiroyuki Nakahara
裕之 中原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
RIKEN Institute of Physical and Chemical Research
Original Assignee
Honda Motor Co Ltd
RIKEN Institute of Physical and Chemical Research
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd, RIKEN Institute of Physical and Chemical Research filed Critical Honda Motor Co Ltd
Priority to JP2009217454A priority Critical patent/JP5405252B2/ja
Publication of JP2011065553A publication Critical patent/JP2011065553A/ja
Application granted granted Critical
Publication of JP5405252B2 publication Critical patent/JP5405252B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Feedback Control In General (AREA)

Abstract

【課題】自然勾配法を適用した、計算時間の短い強化学習システム及び強化学習方法を提供する。
【解決手段】学習制御システムは、状態Sに対応する行動価値Oの更新量を求める第1の学習器103と、状態Sをさらに分割した状態Si,jに対応する行動価値Oi,jの更新量を求める第2の学習器105と、第1及び第2の学習器による行動価値の更新量の、行動価値の空間(O,Oi,j)における勾配を自然勾配法の勾配へ変換し、更新前の行動価値に加算することによって行動価値を更新する行動価値決定器107とを備えている。
【選択図】図4

Description

本発明は、強化学習を使用した学習制御システム及び学習制御方法に関する。
強化学習は、たとえば、未知の環境下でのロボットの行動獲得などに使用されている。しかし、強化学習は学習効率が低く、学習に時間がかかるという問題を有する。
強化学習による学習を高速化する手法として、強化学習による学習に自然勾配法を適用することが提案されている(たとえば、特許文献1)。しかし、自然勾配法を、強化学習を使用した学習制御システムに適用する場合に、計算の負荷が大きく計算時間が長くなるという問題がある。
他方、本出願の出願時点で未公開の、本出願と同一出願人による、特願2009−141680は、階層型強化学習システムを記載している。このような階層型強化学習についても、さらに学習時間を短くすることが望まれる。
このように、自然勾配法を適用した、計算時間の短い強化学習システム及び強化学習方法は開発されていない。
特開2007−65929
したがって、自然勾配法を適用した、計算時間の短い強化学習システム及び強化学習方法に対するニーズがある。
本発明による学習制御システムは、装置の状態を複数の状態のいずれかに分類し、状態ごとに求めた行動価値に基づいて行動を選択し実行する装置において、行動価値を更新する。本発明による学習制御システムは、状態Sに対応する行動価値Oの更新量を求める第1の学習器と、状態Sをさらに分割した状態Si,jに対応する行動価値Oi,jの更新量を求める第2の学習器と、第1及び第2の学習器による行動価値の更新量の、行動価値の空間(O,Oi,j)における勾配を自然勾配法の勾配へ変換し、更新前の行動価値に加算することによって行動価値を更新する行動価値決定器と、を備える。iは1からNまでの整数であるとして、前記行動価値決定器は、所定のiに属する状態Si,j及び行動に対応して更新されるN個のフィッシャーの逆行列の内、更新される行動価値の更新量に対応するフィッシャーの逆行列を使用して勾配を変換する。
本発明による学習制御方法は、装置の状態を複数の状態のいずれかに分類し、状態ごとに求めた行動価値に基づいて行動を選択し実行する装置において、行動価値を学習する。本発明による学習制御方法は、状態Sに対応する行動価値Oの更新量を求めるステップと、状態Sをさらに分割した状態Si,jに対応する行動価値Oi,jの更新量を求めるステップと、行動価値Oの更新量及び行動価値Oi,jの更新量の、行動価値の空間(O,Oi,j)における勾配を自然勾配法の勾配へ変換し、更新前の行動価値に加算することによって行動価値を更新するステップと、含む。前記行動価値を更新するステップにおいて、iは1からNまでの整数であるとして、所定のiに属する状態Si,j及び行動に対応して更新されるN個のフィッシャーの逆行列の内、更新される行動価値の更新量に対応するフィッシャーの逆行列を使用して勾配を変換する。
本発明によれば、自然勾配法を使用するので行動価値の学習速度が速くなる。またN個のフィッシャーの逆行列の内、更新される行動価値の更新量に対応するフィッシャーの逆行列を使用して勾配を変換するので計算時間を短くすることができる。
本発明の実施形態において、フィッシャーの逆行列の発散防止処理が行われる。
本実施形態によれば、フィッシャーの逆行列の計算中の発散が防止される。
本発明の実施形態において、更新ごとの更新量の大きさが大きく変化しないように更新量の調整が行われる。
本実施形態によれば、フィッシャーの逆行列の発散防止処理をおこなっても、更新ごとの更新量の大きさが大きく変化しない。
本発明による学習制御システムは、装置の状態を複数の状態のいずれかに分類し、状態ごとに求めた行動価値に基づいて行動を選択し実行する装置において、行動価値を学習する。本発明による学習制御システムは、複数の階層的な状態分類に対応する複数の行動価値の更新量をそれぞれ求める複数の学習器と、前記複数の学習器による前記複数の行動価値の更新量の、行動価値の空間における勾配を自然勾配法の勾配へ変換し、更新前の行動価値に加算することによって行動価値を更新する行動価値決定器と、を備える。前記行動価値決定器は、所定の個数に分類された状態及び行動に対応して更新される、前記所定の個数のフィッシャーの逆行列の内、更新される行動価値の更新量に対応するフィッシャーの逆行列を使用して勾配を変換する。
本発明による学習制御方法は、装置の状態を複数の状態のいずれかに分類し、状態ごとに求めた行動価値に基づいて行動を選択し実行する装置において、行動価値を学習する学習制御方法である。本発明による学習制御方法は、複数の階層的な状態分類に対応して複数の行動価値の更新量を求めるステップと、前記複数の行動価値の更新量の、行動価値の空間における勾配を自然勾配法の勾配へ変換し、更新前の行動価値に加算することによって行動価値を更新するステップと、を含む。前記行動価値を更新するステップにおいて、所定の個数に分類された状態及び行動に対応して更新される、前記所定の個数のフィッシャーの逆行列の内、更新される行動価値の更新量に対応するフィッシャーの逆行列を使用して勾配を変換する。
本発明によれば、自然勾配法を使用するので行動価値の学習速度が速くなる。また前記所定の個数のフィッシャーの逆行列の内、更新される行動価値の更新量に対応するフィッシャーの逆行列を使用して勾配を変換するので計算時間を短くすることができる。
本発明の一実施形態による学習制御システムを含む装置の構成を示す図である。 装置の置かれる環境の一例の状態遷移図である。 行動選択部の行動選択方法を示す流れ図である。 学習制御システムの構成を示す図である。 状態予測器の構成の一例を示す図である。 学習器の入力空間及びQ学習器の入力空間を示す図である。 状態と行動価値との関係を示す図である。 学習制御システムの学習方法を示す流れ図である。 学習器及びQ学習器のパラメータO及びOijを軸とする超空間を示す図である。 状態と行動とF逆行列との関係を示す図である。 図2に示した環境において、自然勾配法及び勾配法を使用して行動価値Qを求めた結果を示す図である。
図1は、本発明の一実施形態による学習制御システム100を含む装置200の構成を示す図である。装置200は、たとえばロボットであってもよい。装置200は、入力情報取得部201、入力情報処理部203、行動選択部205、行動出力部207、記憶部209及び学習制御システム100を含む。
図2は、装置100の置かれる環境の一例の状態遷移図である。装置100は、エージェントとも呼称する。環境の入力は、エージェントの行動である。エージェントの行動をa及びaで示す。環境の出力は、エージェントの状態である。エージェントの状態をS、S、G及びGで示す。
環境の動作を以下に説明する。前回のエージェントの状態がS(初期値)である場合、環境は、行動a、aによらず1/2の確率で状態S、Sを出力する。前回のエージェントの状態がSまたはSであり、行動aが入力された場合、環境は、状態S、Sの各場合に対し、それぞれ状態G、Gを出力する。前回のエージェントの状態がSまたはSであり、行動aが入力された場合、環境は、状態S、Sの各場合に対し、それぞれ状態S、Sを出力する。
入力情報取得部201は、環境300からエージェントの状態S、S、GまたはGを取得する。
入力情報処理部203は、エージェントの状態がSまたはSである場合には、報酬値r=0を計算し、状態と報酬値とを学習制御システム100へ伝送する。入力情報処理部203は、エージェントの状態がGである場合には、報酬値r=rを計算し、状態と報酬値とを学習制御システム100へ伝送する。入力情報処理部203は、エージェントの状態がGである場合には、報酬値r=rを計算し、状態と報酬値とを学習制御システム100へ伝送する。ここで、報酬値は、エージェントの目的を達成することを尺度とした評価である。
学習制御システム100は、状態ごとに行動価値を学習する。行動価値の学習には、報酬値が使用される。行動価値とは、ある状態である行動をとった場合の報酬値の時間重み付き期待値である。学習制御システム100の動作については、後で詳細に説明する。
記憶部209は、入力情報処理部203、行動選択部205及び学習制御システム100で使用する情報を記憶する。
行動選択部205は、以下に説明する方法によってエージェントの行動aまたはaを選択する。
図3は、行動選択部205の行動選択方法を示す流れ図である。なお、後で説明するように、以下のステップS110乃至ステップS160は、学習制御システム100で実行してもよい。
図3のステップS110において、行動選択部205は、入力情報処理部203から状態情報を取得する。
図3のステップS120において、行動選択部205は、予定行動aまたはaを生成する。
図3のステップS130において、行動選択部205は、記憶部209から現在の状態における予定行動の行動価値O及びOi,jを求める。行動価値O及びOi,jについては後で説明する。
図3のステップS140において、行動選択部205は、行動価値O及びOi,jから、現在の状態における予定行動の行動価値O+Oi,jを算出する。行動価値O+Oi,jについては後で説明する。
図3のステップS150において、行動選択部205は、全ての行動(a及びa)について処理を行ったかどうか判断する。全ての行動について処理を行っていなければ、ステップS120に進む。全ての行動について処理を行っていれば、ステップS160に進む。
図3のステップS160において、行動選択部205は、全ての行動についての行動価値の内、最大値を有するものを定める。
図3のステップS170において、行動選択部205は、ε−グリーディー法にしたがって予定行動を選択する。すなわち、通常は、行動価値が最大値を有する予定行動を選択するが、確率εでランダムな行動を選択する。
行動出力部207は、行動aまたはaを環境300へ出力する。
学習制御システム100について以下に説明する。学習制御システム100は、状態ごとに行動価値O及びOi,jを更新する。更新の詳細な方法(学習方法)は後で説明する。
学習システム100への入力がSまたはSであれば、学習制御システム100は、行動価値O及びOi,jを更新した後、行動選択部205が、図3に示した方法を実行するように指示を送る。あるいは、学習制御システム100が、行動価値O及びOi,jを更新した後、図3のステップS110乃至S160を実行し、その後、行動選択部205が図3のステップS170を実行するように構成してもよい。
学習システム100への入力がGまたはGであれば、学習制御システム100は、行動価値O及びOi,jの更新のみを行う。
図4は、学習制御システム100の構成を示す図である。学習制御システム100は、目標値決定部101、Q学習器103、Q学習器105及び行動価値決定部107を含む。
最初に、Q学習器103及びQ学習器105について説明する。Q学習器103は、たとえば、状態S及び行動aに対応する行動価値Oの学習を行なう。Q学習器105は、たとえば、状態Sij及び行動aに対応する行動価値Oijの学習を行なう。ここで、状態Sijは、Sをさらに細分化した状態を示す。
図5は、状態予測器2031の構成の一例を示す図である。状態予測器2031は、入力情報処理部203内に設けてもよい。図5において、tは時刻を示し、x(t)、y(t)は、環境のパラメータを示し、a(t)は、エージェントの行動を示す。状態予測器2031は、環境のパラメータ及びエージェントの行動から、次の時刻における環境のパラメータの予測値
Figure 2011065553
を求める。また、tにおける環境パラメータの値y(t)と上記予測値との差分
Figure 2011065553
が求められる。
なお、図2を使用したこれまでの説明においては、理解しやすくするために、環境の出力が、エージェントの状態S、S、G及びGであるとした。しかし、実際の環境では、エージェントの入力情報取得部201が環境のパラメータを取得し、入力情報処理部203が環境のパラメータに基づいてエージェントの状態を定める。
図6は、Q学習器103の入力空間及びQ学習器105の入力空間を示す図である。Q学習器103の入力空間は、環境のパラメータ及び行動
Figure 2011065553
に基づいて定められるS及びSi+1である。Q学習器105の入力空間は、環境のパラメータ、行動及び状態予測器2031の出力と状態との差分
Figure 2011065553
に基づいて定められるSij、S(i+1)j、Si(j+1)及びS(i+1)(j+1)である。Q学習器105の入力空間は、上記差分を使用することによって、Q学習器103の入力空間をさらに細分化した入力空間となっている。
ここで、Q学習器103によって学習される行動価値をOによって表し、Q学習器105によって学習される行動価値をOijによって表す。すなわち、Oは、Qに対応し、Oijは、Qに対応する。
図7は、状態と行動価値との関係を示す図である。たとえば、行動aに対する行動価値には、状態Sに対応する行動価値Oと、状態Sを細分化した状態Sijに対応する行動価値Oijとがある。行動aに対する行動価値の値は、行動価値Oと行動価値Oijとの和である。たとえば、状態がS11である場合には、行動価値の値は、
Figure 2011065553
である。
図4は、状態がS11である場合を示している。学習制御システム100の目標値決定部101は、報酬値rと現在の行動価値の値
Figure 2011065553
から目標値
Figure 2011065553
を求め、Q学習器103及びQ学習器105に目標値を与える。ここで、γは、割引率である。割引率は遠い将来に得られる報酬ほど割り引いて評価するための係数であり、0以上1以下の値である。
学習器103及びQ学習器105は、以下の式にしたがって更新量を計算する。
Figure 2011065553
行動価値決定部107は、現在の行動価値O及びO11と行動価値の更新量
Figure 2011065553
から更新された行動価値O及びO11を計算する。計算方法の詳細は以下に説明する。
図8は、学習制御システム100の学習方法を示す流れ図である。
最初に本学習方法で使用する、フィッシャー情報行列の逆行列(以下の明細書及び図面おいてF逆行列と呼称する)について説明する。
図9は、Q学習器103及びQ学習器105のパラメータO及びOijを軸とする超空間を示す図である。図9(a)は、パラメータ軸を直交させたユークリッド空間を示し、図9(b)は、リーマン空間を示す。コスト関数を等高線で示し、パラメータの最適値は、等高線の中心とする。図9(a)に示すように、通常は、等高線に垂直な方向へパラメータを更新すればよい(勾配法)。しかし、図9(b)に示すように、空間自体がねじれている場合には、ねじれを修正しつつ更新を行う必要がある(自然勾配法)。F逆行列は、勾配法で計算された更新の方向、たとえば
Figure 2011065553
を自然勾配法の更新の方向へおきなおすための変換行列に相当する。
θは、O、Oijを全て含んだベクトルとして、自然勾配法は以下の式で表せる。
Figure 2011065553
ここで、tは時刻、ηは更新率、G−1はF逆行列、lは対数尤度関数を示す。また、
Figure 2011065553
は、システムへの入力値を示し、
Figure 2011065553
は、システムの目標出力値を示す。
また、システムの入力ベクトルをIで表し、その際のQの更新目標値
Figure 2011065553
が与えられるとする。この入力ベクトルIと更新目標値tとの組合せをサンプルと呼称する。いま、p個のサンプルがあるとして、それらのサンプルに対する尤度、対数尤度は、以下の式によって定義できる。
Figure 2011065553
ここでσは、充分に小さな正の値である。
なお、式(3)において、F逆行列を単位行列とすれば、式(3)は、従来の勾配法を表す。
図8のステップS310において、学習制御システム100の行動価値決定部107は、状態及び行動に対応するF逆行列を更新する。
図10は、状態と行動とF逆行列との関係を示す図である。図1の縦の点線の左側は、状態Sにおいて、行動aが選択された場合を示し、この場合にF逆行列
Figure 2011065553
が更新される。図1の縦の点線の右側は、状態Sにおいて、行動aが選択された場合を示し、この場合にF逆行列
Figure 2011065553
が更新される。
本発明の実施形態において、F逆行列は、行動および状態ごとに更新される。たとえば、図7において、F逆行列は、S及びSごとに更新される。したがって、F逆行列の次数が制限され、計算負荷が増加するのが防止される。
F逆行列G−1の更新は、以下の式で示す甘利らによる近似解法を使用して行う。甘利らによる近似解法は、文献(Shun-ichi Amari, Heyoung Park, and Kenji Fukumizu: “Adaptive Method of Realizing Natural Gradient Learning For Multilayer Perceptrons”, (1999))に記載されている。ただし、F逆行列G−1の初期状態は、単位行列とする。初期状態を単位行列とすることにより、初期状態では勾配法と同じ更新を行うので、システムが安定する。
Figure 2011065553
ここで、tは時刻を示し、εは定数を示す。
Figure 2011065553
に対応する
Figure 2011065553
は、以下の式によって定義される。
Figure 2011065553
ここで、Q(I)は、システム出力であり、以下の式によって定義される。
Figure 2011065553
入力Iのもとで、O、Oijが出力Q(I)へ寄与する確率は、
Figure 2011065553
であるとする。また、入力Iが得られる確率をq(I)とする。
図8のステップS320において、行動価値決定部107は、F逆行列の発散防止処理を行う。具体的には、g11の要素で、F逆行列の全要素を割ることによってg11が常に1となるようにすることによって発散を防止する。他方、式(3)のηは、任意に選択可能な正の値であるので、全要素を同じ値で割っても自然勾配法の意味は保たれる。
Figure 2011065553
図8のステップS330において、Q学習器103及びQ学習器105は、以下の式にしたがって更新量を計算する。
Figure 2011065553
図8のステップS340において、行動価値決定部107は、各Oの更新量を計算する。具体的に、Q=O、Q=O11であるので、
Figure 2011065553
となる。
図8のステップS350において、行動価値決定部107は、F逆行列を使用して以下の式によって勾配の方向を変換する。
Figure 2011065553
図8のステップS360において、行動価値決定部107は、更新比率を調整する。ステップS320において、F逆行列の全要素をg11で割ることは、式(3)のηを更新することに等しいため、図9の矢印の長さに相当するパラメータの更新率が不安定となる。そこで、
Figure 2011065553
の更新量が一定と成るように以下の式によって更新比率を調整する。
Figure 2011065553
図8のステップS370において、行動価値決定部107は、以下の式によって各Oを更新する。
Figure 2011065553
図11は、図2に示した環境において、自然勾配法及び勾配法を使用して行動価値Qを求めた結果を示す図である。図11の横軸はステップ数を示し、図2の縦軸は、行動価値の値を示す。図11(a)は自然勾配法を使用した場合を示し、図11(b)は、勾配法を使用した場合を示す。自然勾配法の場合は、勾配法の場合と比較して、行動価値が急速に変化する点(A点)がより早く現れる。また、自然勾配法の場合には、A点通過後にO(a)O12(a)の値がほぼ瞬時に収束している。このように、自然勾配法を使用することにより、収束速度が改善された。
図11(a)において、収束後の行動価値の値を確認する。状態Sにおいてaの行動を行う価値は、
(a)+O11(a
であり、個の値は、ほぼ10である。この値は、報酬の値rに対応する。他方、状態Sにおいてaの行動を行う価値は、
(a)+O12(a
であり、この値は、ほぼ1である。この値は、報酬の値rに対応する。
上記の実施形態においては、学習制御システムが二階層の学習器を含む場合について説明したが、三階層以上の学習器を含む場合にも本発明を同様に適用することができる。
100…学習制御システム、101…目標値決定部、103…Q学習器、105…Q学習器、107…行動価値決定部

Claims (8)

  1. 装置の状態を複数の状態のいずれかに分類し、状態ごとに求めた行動価値に基づいて行動を選択し実行する装置において、行動価値を更新する学習制御システムであって、
    状態Sに対応する行動価値Oの更新量を求める第1の学習器と、
    状態Sをさらに分割した状態Si,jに対応する行動価値Oi,jの更新量を求める第2の学習器と、
    第1及び第2の学習器による行動価値の更新量の、行動価値の空間(O,Oi,j)における勾配を自然勾配法の勾配へ変換し、更新前の行動価値に加算することによって行動価値を更新する行動価値決定器と、を備え、
    iは1からNまでの整数であるとして、前記行動価値決定器は、所定のiに属する状態Si,j及び行動に対応して更新されるN個のフィッシャーの逆行列の内、更新される行動価値の更新量に対応するフィッシャーの逆行列を使用して勾配を変換する学習制御システム。
  2. フィッシャーの逆行列の発散防止処理が行われる請求項1に記載の学習制御システム。
  3. 更新ごとの更新量の大きさが大きく変化しないように更新量の調整が行われる請求項2に記載の学習制御システム。
  4. 装置の状態を複数の状態のいずれかに分類し、状態ごとに求めた行動価値に基づいて行動を選択し実行する装置において、行動価値を学習する学習制御システムであって、
    複数の階層的な状態分類に対応する複数の行動価値の更新量をそれぞれ求める複数の学習器と、
    前記複数の学習器による前記複数の行動価値の更新量の、行動価値の空間における勾配を自然勾配法の勾配へ変換し、更新前の行動価値に加算することによって行動価値を更新する行動価値決定器と、を備え、
    前記行動価値決定器は、所定の個数に分類された状態及び行動に対応して更新される、前記所定の個数のフィッシャーの逆行列の内、更新される行動価値の更新量に対応するフィッシャーの逆行列を使用して勾配を変換する学習制御システム。
  5. 装置の状態を複数の状態のいずれかに分類し、状態ごとに求めた行動価値に基づいて行動を選択し実行する装置において、行動価値を学習する学習制御方法であって、
    状態Sに対応する行動価値Oの更新量を求めるステップと、
    状態Sをさらに分割した状態Si,jに対応する行動価値Oi,jの更新量を求めるステップと、
    行動価値Oの更新量及び行動価値Oi,jの更新量の、行動価値の空間(O,Oi,j)における勾配を自然勾配法の勾配へ変換し、更新前の行動価値に加算することによって行動価値を更新するステップと、含み、
    前記行動価値を更新するステップにおいて、iは1からNまでの整数であるとして、所定のiに属する状態Si,j及び行動に対応して更新されるN個のフィッシャーの逆行列の内、更新される行動価値の更新量に対応するフィッシャーの逆行列を使用して勾配を変換する学習制御方法。
  6. フィッシャーの逆行列の発散防止処理が行われる請求項5に記載の学習制御方法。
  7. 更新ごとの更新量の大きさが大きく変化しないように更新量の調整が行われる請求項6に記載の学習制御方法。
  8. 装置の状態を複数の状態のいずれかに分類し、状態ごとに求めた行動価値に基づいて行動を選択し実行する装置において、行動価値を学習する学習制御方法であって、
    複数の階層的な状態分類に対応して複数の行動価値の更新量を求めるステップと、
    前記複数の行動価値の更新量の、行動価値の空間における勾配を自然勾配法の勾配へ変換し、更新前の行動価値に加算することによって行動価値を更新するステップと、を含み、
    前記行動価値を更新するステップにおいて、所定の個数に分類された状態及び行動に対応して更新される、前記所定の個数のフィッシャーの逆行列の内、更新される行動価値の更新量に対応するフィッシャーの逆行列を使用して勾配を変換する学習制御方法。
JP2009217454A 2009-09-18 2009-09-18 学習制御システム及び学習制御方法 Expired - Fee Related JP5405252B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009217454A JP5405252B2 (ja) 2009-09-18 2009-09-18 学習制御システム及び学習制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009217454A JP5405252B2 (ja) 2009-09-18 2009-09-18 学習制御システム及び学習制御方法

Publications (2)

Publication Number Publication Date
JP2011065553A true JP2011065553A (ja) 2011-03-31
JP5405252B2 JP5405252B2 (ja) 2014-02-05

Family

ID=43951702

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009217454A Expired - Fee Related JP5405252B2 (ja) 2009-09-18 2009-09-18 学習制御システム及び学習制御方法

Country Status (1)

Country Link
JP (1) JP5405252B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103970156A (zh) * 2014-05-22 2014-08-06 杭州劲力节能科技有限公司 一种真空制盐循环水系统在线自学习寻优控制系统
JP2014519118A (ja) * 2011-05-31 2014-08-07 アー・ファウ・エル・リスト・ゲゼルシャフト・ミト・ベシュレンクテル・ハフツング 機械に実装される、テストランの間に非線形ダイナミック実システムからデータを取得する方法
CN104932264A (zh) * 2015-06-03 2015-09-23 华南理工大学 基于rbf网络的q学习框架仿人机器人稳定控制方法
JP2018097810A (ja) * 2016-12-16 2018-06-21 ファナック株式会社 ロボットおよびレーザスキャナの動作を学習する機械学習装置,ロボットシステムおよび機械学習方法
CN110712201A (zh) * 2019-09-20 2020-01-21 同济大学 基于感知器模型的机器人多关节自适应补偿方法和稳定器

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007065929A (ja) * 2005-08-30 2007-03-15 Okinawa Institute Of Science & Technology 制御器、制御方法および制御プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007065929A (ja) * 2005-08-30 2007-03-15 Okinawa Institute Of Science & Technology 制御器、制御方法および制御プログラム

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
CSNG200800559005; 森村 哲郎, 他3名: '自然方策こう配法:平均報酬の自然こう配に基づく方策探索' 電子情報通信学会論文誌 第J91-D巻, 第6号, 20080601, p.1515-1527, 社団法人電子情報通信学会 *
CSNG200800695013; 西村 佳也, 他1名: '適応的自然勾配法の特異モデル学習への適用' 電子情報通信学会技術研究報告 第108巻, 第101号, 20080619, p.69-73, 社団法人電子情報通信学会 *
CSNG200801090002; 五十嵐 治一, 他1名: '方策勾配法における状態空間の階層化の一考察' 人工知能学会 第27回SIG-Challenge研究会 , 20080502, p.7-12, 社団法人人工知能学会AIチャレンジ研究会 *
JPN6013041104; 森村 哲郎, 他3名: '自然方策こう配法:平均報酬の自然こう配に基づく方策探索' 電子情報通信学会論文誌 第J91-D巻, 第6号, 20080601, p.1515-1527, 社団法人電子情報通信学会 *
JPN6013041107; 五十嵐 治一, 他1名: '方策勾配法における状態空間の階層化の一考察' 人工知能学会 第27回SIG-Challenge研究会 , 20080502, p.7-12, 社団法人人工知能学会AIチャレンジ研究会 *
JPN6013041110; 西村 佳也, 他1名: '適応的自然勾配法の特異モデル学習への適用' 電子情報通信学会技術研究報告 第108巻, 第101号, 20080619, p.69-73, 社団法人電子情報通信学会 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014519118A (ja) * 2011-05-31 2014-08-07 アー・ファウ・エル・リスト・ゲゼルシャフト・ミト・ベシュレンクテル・ハフツング 機械に実装される、テストランの間に非線形ダイナミック実システムからデータを取得する方法
US9404833B2 (en) 2011-05-31 2016-08-02 Avl List Gmbh Machine-implemented method for obtaining data from a nonlinear dynamic real system during a test run
CN103970156A (zh) * 2014-05-22 2014-08-06 杭州劲力节能科技有限公司 一种真空制盐循环水系统在线自学习寻优控制系统
CN103970156B (zh) * 2014-05-22 2016-04-27 杭州劲力节能科技有限公司 一种真空制盐循环水系统在线自学习寻优控制系统
CN104932264A (zh) * 2015-06-03 2015-09-23 华南理工大学 基于rbf网络的q学习框架仿人机器人稳定控制方法
CN104932264B (zh) * 2015-06-03 2018-07-20 华南理工大学 基于rbf网络的q学习框架仿人机器人稳定控制方法
JP2018097810A (ja) * 2016-12-16 2018-06-21 ファナック株式会社 ロボットおよびレーザスキャナの動作を学習する機械学習装置,ロボットシステムおよび機械学習方法
US10780577B2 (en) 2016-12-16 2020-09-22 Fanuc Corporation Machine learning device, robot system, and machine learning method for learning operations of robot and laser scanner
CN110712201A (zh) * 2019-09-20 2020-01-21 同济大学 基于感知器模型的机器人多关节自适应补偿方法和稳定器
CN110712201B (zh) * 2019-09-20 2022-09-16 同济大学 基于感知器模型的机器人多关节自适应补偿方法和稳定器

Also Published As

Publication number Publication date
JP5405252B2 (ja) 2014-02-05

Similar Documents

Publication Publication Date Title
JP2019537132A (ja) アクション選択ニューラルネットワークをトレーニングすること
US10733501B2 (en) Environment prediction using reinforcement learning
US10380479B2 (en) Acceleration of convolutional neural network training using stochastic perforation
US11861474B2 (en) Dynamic placement of computation sub-graphs
US10635975B2 (en) Method and apparatus for machine learning
JP5346701B2 (ja) 学習制御システム及び学習制御方法
KR102185865B1 (ko) 신경 네트워크들을 사용하여 이미지들 생성하기
JP5405252B2 (ja) 学習制御システム及び学習制御方法
JP2020506488A (ja) バッチ再正規化層
KR20220134627A (ko) 하드웨어-최적화된 신경 아키텍처 검색
JP7073171B2 (ja) 学習装置、学習方法及びプログラム
WO2020218246A1 (ja) 最適化装置、最適化方法、及びプログラム
US8190536B2 (en) Method of performing parallel search optimization
WO2020023483A1 (en) Continuous parametrizations of neural network layer weights
CN106815858A (zh) 一种运动目标提取方法及装置
CN110046338B (zh) 一种上下文选择方法、装置、电子设备及存储介质
JP2021082014A (ja) 推定装置、訓練装置、推定方法、訓練方法、プログラム及び非一時的コンピュータ可読媒体
US20210117793A1 (en) Data processing system and data processing method
JP7093527B2 (ja) 情報処理装置、方法、プログラム及びシステム
US10460206B2 (en) Differentiating physical and non-physical events
JP2006318319A (ja) 学習装置及び学習方法、並びにコンピュータ・プログラム
JP2023028232A (ja) 学習装置および学習方法
JP2023099938A (ja) 学習装置、学習システムおよび学習方法
JP5589522B2 (ja) 情報処理装置及びプログラム
CN105096247A (zh) 图像插值方法和装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120911

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20121029

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20121029

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130820

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130913

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131008

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131030

R150 Certificate of patent or registration of utility model

Ref document number: 5405252

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees