JP4028384B2 - エージェント学習装置、方法、プログラム - Google Patents
エージェント学習装置、方法、プログラム Download PDFInfo
- Publication number
- JP4028384B2 JP4028384B2 JP2002563083A JP2002563083A JP4028384B2 JP 4028384 B2 JP4028384 B2 JP 4028384B2 JP 2002563083 A JP2002563083 A JP 2002563083A JP 2002563083 A JP2002563083 A JP 2002563083A JP 4028384 B2 JP4028384 B2 JP 4028384B2
- Authority
- JP
- Japan
- Prior art keywords
- column
- sensory input
- probability
- output
- action
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
- G05B13/027—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Description
本発明は、エージェント学習装置、方法、及びプログラムに関する。より詳細には、高次の認知制御機構を有する産業用ロボット、自動車、航空機などの物理的システム制御や、非線形的、非定常的な制御対象に対し、迅速で適応性に優れた制御を実現するためのエージェント学習装置、方法、及びプログラムに関する。
背景技術
従来の学習方法の例としては、予め人間が与えた時系列表現による模範的制御軌道と予測軌道との誤差を最小化する教師付き学習法(Gomi.H.and Kawato.M.,Neural Network Control for a Closed−Loop System Using Feedback−Error−Learning,Neural Networks,Vol.6,pp.933−946,1993)や、模範的制御軌道は与えられず、制御系がおかれた環境において、試行錯誤を繰り返すことによって最適軌道を獲得していく強化学習法(Doya.K.,Reinforcement Learning In Continuous Time and Space,Neural Computation,2000)等が挙げられる。
しかし、前者の方法では、実世界においては制御系の置かれた環境は絶えず変化するので、人間が模範的制御軌道を与えつづけることは現実には困難であり、このような教師付き学習をそのまま適用することはできない。また、後者の方法では、試行錯誤を繰り返すことによって最適軌道を獲得するまでには長時間を要してしまうという問題がある。従って、例えばヘリコプターの制御のように環境に応じて迅速かつ的確に対応していく必要がある制御対象に対して上述の学習方法を適用するのは非常に困難である。
一方、最近の人間的制御機構の研究によれば、人間の制御機構では感覚入力に基づいた制御系の非線型近似により得られる行動出力の時系列的な「滑らかさ」や、行動出力の統計的正規分布における対称性に注目し、注意する対象となる感覚入力を選択的に絞り込むという学習を行うことによって、行動出力の分散を最小とするような制御軌道が統計的に高速に獲得されることが分かっている(Harris.M.C.,Signal−dependent noise determines motor planning,Nature,Vol.394,20 August,1998)。
また、認知科学の分野では、人間は大量な感覚情報から必要とする情報を意識的に選択して迅速で効率のよい制御を達成する機構を持っていると考えられている。これを工学的に応用することへの示唆がされているが、実際にはこの機構を工学的に応用する具体的なモデル等の提案には至っていない。
本発明は上記の点に鑑みてなされたものであり、迅速に最適制御軌道を獲得することができるエージェント学習装置、方法、及びプログラムを提供することを目的とする。
発明の開示
本発明では、直接観測できない情報(注意のクラス)を学習的に生成し、感覚入力と注意のクラスとの関係付けを行う選択的注意機構を考案した。これによれば、行動出力の分散が最小となる最適制御軌道を迅速に獲得することができる。
本発明によるエージェント学習装置は、外部環境の情報を取得して感覚入力に変換するセンサと、前記感覚入力に対して行われる学習の結果により得られる行動出力を前記制御対象に与える行動制御器と、前記行動出力により生じた制御対象の挙動を評価する行動状態評価器と、前記評価に応じて、前記行動出力を対応する感覚入力と共に複数のコラムのいずれかに格納し、前記コラム別に格納された行動出力群に基づき、前記感覚入力が各コラムに属する確率的な関係である確率モデルを算出し、新たに与えられた感覚入力を前記確率モデルに適用することで前記コラム別の確信度を算出し、該確信度が最も大きいコラム内で前記感覚入力に対応する行動出力を前記学習結果として出力する選択的注意機構を含む。
上記構成によると、事前学習を行わずに、エージェント学習装置を適用して制御対象の制御を直ちに開始することができる。この場合、確率モデルが算出される前は制御対象の不安定度が大きく、突飛な運動により制御対象が破損等する可能性があるので、所定の間行動制御器が制御対象に与える行動出力の範囲を強制的に制限するような構成にすることが好ましい。
感覚入力に対する確信度が最も大きいコラムを選択する代わりに、行動状態評価器の与えた評価が最も高い行動出力群を含むコラムを常に選択し、該コラム内で新たに与えられた感覚入力に対応付けられている行動出力を出力するようにしても良い。
確率モデルの算出は、期待値最大化アルゴリズムによりコラム別に格納された行動出力群を正規分布で表現し、この正規分布を用いて任意の行動出力が各コラムに属する事前確率を計算し、ニューラルネットワークを用いた教師付き学習により、事前確率を用いて任意の感覚入力と各コラムとの確率的な関係である確率モデルを算出することを含む。確率モデルは具体的には条件付き確率密度関数p(Ii(t)|Ωl)である。
また確信度は、事前確率と確率モデルとをベイズ則に適用することで算出される。この確信度は、ある感覚入力が各注意のクラス(コラム)に属している確率を表している。
制御対象の制御は、上述のように事前の学習なしで開始できる。しかし、感覚入力と行動出力とを対応付けたデータセットを予め準備しておき、このデータセットを用いて事前学習を行って確率モデルを算出しておくのがより好適である。確率モデルの算出後は、新たに与えられた感覚入力に対しこの確率モデルを使用して確信度を算出する。この場合、事前学習で算出したものと同一の確率モデルが使用され続ける。これによって、制御対象をより早期に安定させることができる。事前学習を行うときは、感覚入力はデータセットに基づいて行動出力生成器により行動出力に変換されて、制御対象に与えられる。
発明を実施するための最良の形態
まず初めに、後に説明する図10のラジオコントロールヘリコプター(以下「ヘリコプター」という)を用いて行った予備的実験について説明する。
図1はこのヘリコプターを安定させるように操作したときに、ヘリコプターを制御するモータの出力を30msec毎に取得したデータを時系列で示すグラフである。図2は、この結果の度数分布をとったものである。図2から、ヘリコプターを安定させるためのモータの制御出力(以下「行動出力」という)は、正規分布曲線として表現し得ることが分かる。
多くの制御対象に対して、安定した制御を実現するためには、このような行動出力の正規分布に見られる対称性に注目すればよい。なぜならば、正規分布のうち頻度の高い部分は、安定制御を実現するために多用される行動出力値と考えられるからである。この正規分布の対称性を利用することによって、時々刻々と変化する状況下でどのような行動出力を制御対象に与えるべきかを統計的に予測することが可能となる。
また、センサ等により取得された感覚入力に基づいて制御対象に与える行動出力を選択しようとするとき、選択できる行動出力は無数に考えられる。もし、与えた行動出力により制御対象が示した挙動の結果(以下「行動結果」という)の分散が小さくなるような行動出力を選択する学習を行うならば、時間の経過に伴って、取得した感覚入力に応じて選択し得る行動出力は次第に限定されていき、制御対象は安定するようになる。最終的には、行動出力の正規分布の分散を最小化することで、変動幅や変動率の最も少ない安定した制御が達成される。
本発明のエージェント学習装置は、このような予備的実験に基づいた統計学的学習法と、従来の教師付き学習法とを統合して適用する点に特徴がある。以下、図1〜図12を用いて本発明の実施の形態について説明する。
本発明のエージェント学習装置は、例えば、事前に準備されたデータセットを利用して学習を行う。本明細書においては、この学習を「事前学習」と呼ぶ。図3は、本発明の一実施形態であるエージェント学習装置100の事前学習時の構成を機能ブロックで示す図である。エージェント学習装置100は図3の点線で囲まれた領域で表わされ、1つ又は複数のセンサ301と、行動出力生成器302と、行動状態評価器303と、選択的注意機構304と、を有している。また、選択的注意機構304は、行動状態評価器303の生成する報酬に基づいて作成される複数のコラム1,2,3,…,mと、注意クラス選択器306を有している。
センサ301により取得された感覚入力に対し、行動出力生成器302はデータセットに従った行動出力を生成して制御対象308に供給する。行動状態評価器303は、制御対象308の行動結果を評価して行動出力ごとに報酬を生成する。選択的注意機構304は、この報酬に応じて行動出力を各コラムに分配し、後述するような確率モデルを算出する。確率モデルを予め算出しておくことで、高精度の制御を実現することができる。
事前学習が終了すると、エージェント学習装置100は、本明細書において「行動制御」と呼ぶ以下に述べる処理を行う。
図4は、エージェント学習装置100の行動制御時の構成を機能ブロックで示す図である。行動制御時には、新たにセンサ301で取得される感覚入力は直接注意クラス選択器306に与えられる。注意クラス選択器306は、先に算出した確率モデルを用いた処理を感覚入力に対して行う。行動制御器307は、制御対象308を安定に制御するための行動出力を決定し、制御対象308に与える。制御対象308は、例えば前述のヘリコプターである。
なお、事前学習は行わなくてもよい。この場合のエージェント学習装置100の動作については後述する。
行動出力生成器302、行動状態評価器303、選択的注意機構304、及び行動制御予測器307の何れかまたは全ては、これらの各機能を達成するように作成されたプログラムを汎用コンピュータ等に実行させることによって実現することもできる。
初めに、各機能ブロックの詳細な機能と、事前学習時のエージェント学習装置100の動作について、図3及び図5のフローチャートを使用して説明する。
センサ301は、外部環境の情報を所定の時間間隔で取得し、感覚入力Ii(t)(i=1,2,...,m、以下同様)という信号に変換する。感覚入力Ii(t)は、行動出力生成器302に供給される。行動出力生成器302は、与えられた感覚入力Ii(t)に応じた行動出力Qi(t)を生成し、行動状態評価器303及び制御対象308に供給する。この感覚入力Ii(t)から行動出力Qi(t)への変換の関係は、以下の写像fで表される。
写像fは、例えば、周知のフーリエ級数等を用いた非線形近似変換である。
本実施形態の事前学習では、この写像fは、複数の感覚入力Ii(t)と行動出力Qi(t)の対応付けを記録したランダムなデータセットを予め準備しておくことに相当する。つまり、行動出力生成器302は、このデータセットに基づいて、感覚入力Ii(t)に対応する行動出力Qi(t)を順次生成する(図5のステップS401)。
生成された行動出力Qi(t)は、行動状態評価器303及び制御対象308に供給される。制御対象308は、供給された行動出力Qi(t)に応じた行動を行う。この行動の結果は、行動状態評価器303に与えられる(図5のステップS402)。
行動状態評価器303は、与えられた行動出力Qi(t)により生じた制御対象308の行動結果(例えば、制御対象308の挙動が安定したか否か)を所定の評価関数を用いて評価し、この評価の結果に基づいて行動出力Qi(t)毎に報酬を生成する(図5のステップS403)。行動状態評価器303におけるこの処理は、強化学習と捉えることができる。
ここで、評価関数とは、例えば与えられた行動出力Qi(t)によって制御対象308の挙動が安定した場合は報酬「1」を、不安定であった場合は報酬「2」を生成するような関数である。報酬の種類は、制御対象308の挙動の特性や要求する制御の精度などに応じて任意に設定することができる。前述のヘリコプターの場合は、例えばジャイロセンサーによって検出されるヘリコプターの傾きによって安定か否かを判断し、報酬「1」または「2」を与えるようにする。
評価関数は、行動出力Qi(t)の分散σを最小化するために使用される。つまり、この評価関数を用いることにより、安定制御に不適切な感覚入力Ii(t)を抑え込み、適切な感覚入力Ii(t)を強化して、最終的にσ(Q1)<σ(Q2)を満足する強化学習が行われていくことになる。ここで、Q1は報酬「1」が与えられた行動出力Qi(t)群であり、Q2は報酬「2」が与えられた行動出力Qi(t)群である。
選択的注意機構304は、行動状態評価器303から報酬が与えられると、報酬の種類に応じて複数のコラム1,2,3,…,mを生成し、報酬の値に応じて行動出力Qi(t)を各コラムに分配する(図5のステップS404)。そして各コラムには、この行動出力を生成させた感覚入力Ii(t)と対応付けて行動出力Qi(t)が報酬別に記憶される。具体的に述べると、例えば、行動状態評価器303が報酬「1」または「2」の何れかを生成する場合、選択的注意機構304はコラム1とコラム2を設ける。そして、報酬「1」が与えられた行動出力Qi(t)はコラム1(安定)に格納され、報酬「2」が与えられた行動出力Qi(t)はコラム2(不安定)に格納される。このように、コラム1,2,3,…,mは、報酬によって分けられた行動出力Qi(t)のクラスターモデルに相当する。
続いて、選択的注意機構304は、後述する期待値最大化アルゴリズムとニューラルネットワークを用いた教師付き学習を行って、感覚入力Ii(t)の条件付き確率密度関数(すなわち確率モデル)p(Ii(t)|Ωl)を算出する(図5のステップS405〜S408)。ここで、Ωl(l=1,2,3,…,n)は、「注意のクラス」と呼ばれるパラメータであって、コラムと1対1に対応している。この注意のクラスΩlは、真の確率密度関数p(Ii(t)|Ωl)があるという仮定の下に生成される。
注意のクラスΩlは、膨大な感覚入力Ii(t)の中から注目すべき感覚入力Ii(t)を特定するために使用するものである。具体的には、注意のクラスΩlは、各コラムに含まれる行動出力Qi(t)をその正規分布の確率密度関数を用いてモデル化する際に使用されるパラメータであり、行動出力Qi(t)を含むコラムの数と同数生成される。各コラムに含まれる行動出力Qi(t)に対応する注意のクラスΩlを得ることは、以下の写像hで表現される。
続いて、図5のステップS405〜S408の処理について詳細に説明する。なお、ステップS405〜S408の各処理はコラム毎に実行される。
まず、ステップS405の期待値最大化アルゴリズム(EMアルゴリズム)について説明する。
EMアルゴリズムは、観測データが不完全データであるときに最大尤度になるパラメータθを推測する繰り返しアルゴリズムである。既に述べたように、各コラムに含まれる行動出力Qi(t)は正規分布になっていると考えられるので、パラメータθは平均μl、共分散Σlを用いて、θ(μl,Σl)と表わすことができる。EMアルゴリズムは、パラメータθ(μl,Σl)の適当な初期値から開始して、Eステップ(Expectation step)とMステップ(Maximization step)の2つのステップを反復することでパラメータθ(μ1,Σ1)の値を逐次更新していく。
まず、Eステップでは、次式により条件付き期待値ψ(θ|θ(k))を求める。
次に、Mステップにおいて、次式によりψ(θ|θ(k))を最大にするパラメータμ1、Σ1を得て、これを新たな推測値θ(k+1)とする。
このようにして得られた条件付き期待値ψ(θ|θ(k))をθ(k)に関して偏微分し、得られた結果を「0」と置くことによって、最終的なμ1、Σ1が算出される。EMアルゴリズムは当技術分野において周知なので、これ以上詳細な説明は省略する。
以上のようにして、各コラムに含まれる行動出力Qi(t)を正規分布であらわすことができる(図5のステップS405)。行動出力Qi(t)のμ1、Σ1を算出することは、注意のクラスΩ1の事後確率を算出することに相当する。
コラム1(安定)及びコラム2(不安定)に含まれる行動出力Qi(t)の正規分布の例を、それぞれ図6、図7に示す。図から明らかなように、コラム1の正規分布はコラム2の正規分布に比べて先鋭化しており、行動出力Qi(t)の分散が小さく(σ(Q1)<σ(Q2))なっている。
次に、選択的注意機構304は、算出したμ1、Σ1を次式に用いて、ある注意のクラスΩ1(コラム)にある特定の行動出力Qi(t)が属する確率である注意のクラスΩ1の事前確率p−(Qi 1(t)|Ω1(t))を算出する(図5のステップS406)。
上式において、Nは行動出力Qi(t)の次元数である。
次に、ニューラルネットワークを用いた教師付き学習について説明する。この学習では、先に算出した事後確率としての注意のクラスΩ1を教師信号として、条件付き確率密度関数p(Ii(t)|Ω1)を算出する(図5のステップS407)。
図8は、このニューラルネットワークを用いた教師付き学習に使用される階層型ニューラルネットワークの構成例を示す図である。この階層型ニューラルネットワークは3層のノードを有し、入力層501は感覚入力Ii(t)、中間層502は行動出力Qi(t)、出力層503は注意のクラスΩ1にそれぞれ対応する。なお、入力層501には簡単のために3つのノードのみ描かれているが、実際にはノードはデータセットの感覚入力Ii(t)の数だけ存在する。同様に、中間層502には入力層501と同数の行動出力Qi(t)のノードがあり、両者はそれぞれ1対1に接続されている。また出力層503のノードは注意クラスΩ1の数だけ生成される。
図8において、「λ」は階層型ニューラルネットワークのシナプス荷重である。EMアルゴリズムによって行動出力Qi(t)がそれぞれの注意のクラスΩ1に属する確率が求められており、また行動出力Qi(t)は1つの感覚入力Ii(t)と対応付けてコラムに格納されているので、注意のクラスΩ1を教師信号とする教師付き学習を繰り返していくことで感覚入力Ii(t)と注意のクラスΩ1の確率的な関係(つまり図8中のλ)が決定されていく。この確率的な関係は条件付き確率密度関数p(Ii(t)|Ω1)である。ここで、教師信号となる注意のクラスΩ1は、感覚入力Ii(t)に合成関数h・fを適用することで算出できる。階層型ニューラルネットワークは当技術分野において周知なので、これ以上詳細な説明は省略する。
このようなニューラルネットワークを用いた教師付き学習によって、感覚入力Ii(t)と注意のクラスΩ1との確率的な対応関係である条件付き確率密度関数p(Ii(t)|Ω1)が得られる。
以上のように、事前学習時の選択的注意機構304内での学習はフィードバック的に進行する。そして条件付き確率密度関数p(Ii(t)|Ω1)が得られると、新たな感覚入力Ii(t)に対して写像h・fを逐一計算することなく、その感覚入力Ii(t)がどの注意のクラスΩ1に属する確率が高いかを求めることができる。
与えられたデータセットの全ての感覚入力Ii(t)と行動出力Qi(t)の組に対してステップS401〜S407の一連の処理を行う(図5のステップS408)。事前学習中は、順次与えられる行動出力Qi(t)に応じて、条件付き確率密度関数p(Ii(t)|Ω1)が更新され続ける。
以上で、事前学習時のエージェント学習装置100の動作の説明を終える。
データセットを用いた事前学習が終了すると、エージェント学習装置100は、得られた学習結果に基づいて制御対象308を制御する。以下、行動制御時のエージェント学習装置100の動作について、図4及び図9を使用して説明する。
行動制御時には、事前学習時に算出された事前確率p−(Qi 1(t)|Ω1(t))と条件付き確率密度関数p(Ii(t)|Ω1)が使用される。センサ301で新たに取得された感覚入力Ii(t)は、選択的注意機構304の注意クラス選択器306に供給される(図9のステップS410)。そして、既に事前学習でコラム毎に算出済みの事前確率p−(Qi 1(t)|Ω1(t))と条件付き確率密度関数p(Ii(t)|Ω1)を用いて、以下のベイズ則により各注意のクラスΩ1の確信度p(Ω1(t))(confidence)を計算する(図9のステップS411)。
この確信度p(Ω1(t))は、ある感覚入力Ii(t)がそれぞれの注意のクラスΩ1に属している確率を表している。感覚入力Ii(t)が各注意のクラスΩ1に属する確率をベイズ則により計算することは、確信度p(Ω1(t))をベイズ則の持つ学習性(重み付け)により増していくことで、ある一つの注意のクラスΩ1を選択的に特定可能であることを意味する。すなわち、選択的注意機構304によれば、直接観測可能な感覚入力Ii(t)から隠れ制御パラメータである注意のクラスΩ1を特定できる。
注意クラス選択器306は、この確信度p(Ω1(t))の最も大きい注意のクラスΩ1を、新たに取得された感覚入力Ii(t)に対応する注意のクラスとして選択し、その注意のクラスΩ1を行動制御器307に通知する(図9のステップS412)。
行動制御器307は、与えられた注意のクラスΩ1が「安定」に対応する注意のクラスΩ1であったときは、コラム1内に格納されている行動出力Qi(t)の中から、今回取得した感覚入力Ii(t)に対応する行動出力Qi(t)を計算し(図9のステップS413)、これを制御対象308に与える(ステップS414)。この行動出力Qi(t)は、EMアルゴリズムで計算した確率分布上で求められるものであり、事前学習時にデータセットで与えられた行動出力Qi(t)そのものではない。
与えられた注意のクラスΩ1が「不安定」に対応する注意のクラスΩ2であったとき、行動制御器307は、コラム2からではなくコラム1を選択し、この場合も行動出力Qi(t)の分散の小さいコラム1内に格納されている行動出力Qi(t)の中から今回取得した感覚入力Ii(t)に対応する行動出力Qi(t)を計算し、制御対象308に与える(ステップS414)。対応する行動出力Qi(t)がない場合は、前回の行動出力Qi(t)がそのまま与えられる。この処理を継続することで、コラムの分散の関係σ(Q1)<σ(Q2)が達成される(すなわち、コラム1の行動出力Qi(t)の分散が急速に小さくなり、制御対象308の安定化が図られる)。
なお、与えられた注意のクラスΩ1が「不安定」に対応する注意のクラスΩ2であったときに、行動制御器307がそのままコラム2を選択し、コラム2内に格納されている行動出力Qi(t)の中から今回取得した感覚入力Ii(t)に対応する行動出力Qi(t)を計算し、制御対象308に与えるようにしても良い。
制御対象308は、与えられた行動出力Qi(t)に応じた行動を行う。この行動結果は、再び行動状態評価器303に供給される。そしてこれ以降、新たな感覚入力Ii(t)がセンサ301によって取得されると、条件付き確率密度関数p(Ii(t)|Ω1)を用いてベイズ則による学習により注意のクラスΩ1が選択され、以後上述の処理が繰り返される(ステップS415)。
以上で、行動制御時のエージェント学習装置100の動作の説明を終える。
本発明では、事前学習で条件付き確率密度関数p(Ii(t)|Ω1)が算出されているので、行動制御時には逐一写像f及びhを計算する必要が無く、統計的学習法を用いて新たな感覚入力Ii(t)に対応する注意のクラスΩ1を直接選択することができる。
一般的に、センサ301から取得される感覚入力Ii(t)の情報量は非常に多く、全ての感覚入力Ii(t)に対して写像f及びhを計算すると通常のコンピュータの情報処理能力を容易に超えてしまう。本発明では、注意のクラスΩ1を用いて感覚入力Ii(t)に対し適当なフィルタリングを行うことで、学習効率を格段に向上させる。
また、確信度p(Ω1(t))が最大である注意のクラスΩ1を選択することは、ある感覚入力Ii(t)に対して最も報酬の高い行動出力Qi(t)を含むコラムを選択することに相当する。
上述のように、本発明では学習が3回行われている。すなわち、1)行動状態評価器303での複数回の強化学習(報酬によるクラスターモデルの作成)、2)階層型ニューラルネットワークを用いた教師付き学習による注意のクラスΩ1と感覚入力Ii(t)との関係の学習、3)ベイズ則を用いた学習による新たな感覚入力Ii(t)に対応する注意のクラスΩ1の選択である。このように、本発明のエージェント学習装置100は、教師付き学習と統計的学習とを統合して適用する点に特徴がある。
従来の教師付き学習では、人間が与えた最適制御を実行させていたが、これは実用的でない。また、エージェント自身が試行錯誤しながら最適制御を獲得する従来の強化学習では、処理時間が非常に長くなってしまう。
一方、本発明のエージェント学習装置100では、選択的注意機構304によって注目すべき注意のクラスΩ1を絞り込むことができ、重要な感覚入力Ii(t)を選択的に学習するので、処理時間が大幅に短縮され、また人間が教師情報を与える必要もない。また、制御対象308の動作が非線形性を持つ場合、極めて複雑な非線形関数近似を行わねばならず、強化学習のみでは長時間を要するところ、本発明のエージェント学習装置100では、選択的注意機構304により感覚入力Ii(t)の重要度に応じた学習が行われるので処理が高速化される。また、本発明のエージェント学習装置100は、事前学習時にはフィードバック制御を行い、行動制御時にはフィードフォワード制御を行う点にも特徴がある。
続いて、図10を参照して本発明の一実施例を説明する。図10は、本発明のエージェント学習装置100がラジオコントロールヘリコプター601に適用された様子を示す図である。
ヘリコプター601に搭載された視覚センサ602は、30〜90msec毎に視覚情報を取得し、感覚入力Ii(t)としてコンピュータ603に送信する。コンピュータ603は、図3または図4のエージェント学習装置100を実現するようにプログラム化されており、本発明に従った方法で感覚入力Ii(t)に応じた行動出力Qi(t)を生成する。この行動出力Qi(t)は、無線送信機604によりヘリコプター601に搭載されたモータ制御装置605に送信され、ヘリコプター601のロータを回転させる。
この実施例では、注意のクラスΩ1の数を2つに設定した。また、この実施例では、360組の事前学習用データセットが選択的注意機構304内の処理のために使用された。データセットを用いた事前学習の後は、150の別の新たなテストデータ(新たな感覚入力Ii(t))を与えて正しい注意のクラスΩ1を選択できるか否かを確認した。
事前学習時には、生成された行動出力Qi(t)に応じて2種類の報酬(ポジティブ報酬とネガティブ報酬)が与えられる。選択的注意機構304は報酬に基づいて行動出力Qi(t)をコラム1または2に分配する。この動作は、以下の評価関数により表現される。
ここで、Q1、Q2はそれぞれコラム1,2に分配された行動出力Qi(t)群を意味する。ポジティブ報酬はコラム1に対応し、ネガティブ報酬はコラム2に対応する。
分布p(Qi)の平均値であり、本実施例では「82」に設定した。さらに、δはヘリコプター601の安定状態の許容範囲を示し、本実施例では「1.0」に設定した。上式に示す評価関数は、コラムの分散σ(Q1)<σ(Q2)を満足するように強化学習を実行するための関数である。
図11(a)〜図11(c)は、図10の構成で実験を行った後に得られた、感覚入力Ii(t)と注意のクラスΩ1との関係を示す実験結果である。ここで、実際の注意のクラスΩ1はデータセットから算出できる。図11(a)は感覚入力Ii(t)に対応する実際の注意クラスΩ1を示す。図11(b)は、期待値最大化アルゴリズムにおける繰り返し回数が未熟であるとき(初期)に得られた実験結果を示し、図11(c)は、期待値最大化アルゴリズムにおける繰り返し回数が十分であるとき(後期)に得られた実験結果を示す。各図の実線は、選択される注意のクラスΩ1(t)が遷移したことを示す。すなわち、実線の表示がないタイムステップ(t)間では、コラム1またはコラム2に対応する同一の注意のクラスΩ1(t)が選択され続けていることを表す。学習後期(図11(c))の方が学習初期(図11(b))より実際の注意のクラスΩ1(図11(a))に近いことが分かる。
これは、感覚入力Ii(t)と2つの注意のクラスΩ1の間の予測的な関係を本発明のエージェント学習装置100が学習できていることを示している。感覚入力Ii(t)と2つの注意クラスΩ1の間の予測の識別力は、統計的コラムに対する確率分布が期待値最大化アルゴリズムによる学習段階において、初期であるときは弱く、期待値最大化アルゴリズムの繰り返し数を増加させると正確さが向上する。また、予測識別力は、期待値最大化アルゴリズム内で用いる正規分布(ガウス関数)の数によっても影響を受ける。本実施例では単ガウス関数を用いたが、複数のガウス関数を期待値最大化アルゴリズムの中で用いてもよい。この場合、予測識別力はさらに正確さを増す。
図12は、本実施例により制御を行ったときのヘリコプター601の行動出力Qi(t)の最小分散値の時間経過を示す。図12において、点線が従来の制御法である非線形フィードバック制御を用いて制御を行ったときの結果を示し、実線が本発明のエージェント学習装置100を用いた制御による結果を示す。従来の方法では、選択的注意機構304による学習過程がないので、ヘリコプター601が得る視覚センサ入力(感覚入力Ii(t))のうち、ヘリコプター601の安定化のために必要な情報が何であるかを試行錯誤して学習していく。従って、行動出力Qi(t)の分散が小さくなるまでに、すなわちヘリコプター601が安定するまでに多大な時間を要することが分かる。
一方、本発明のエージェント学習装置100では、選択的注意機構304を有しているので、ヘリコプター601の安定に必要な感覚入力Ii(t)を試行錯誤して獲得するのではなく、感覚入力Ii(t)の重要度に応じた学習をする。その結果、行動出力Qi(t)の分散の最小化を非常に短時間で実現できていることが分かる。
なお、本実施例では、入力部に視覚センサ602を用いたが、感覚入力Ii(t)としては視覚情報入力に限定されず、聴覚情報入力や触覚情報入力等の他のものでも良い。また、本実施例では、コラム及び報酬が「2」の場合を説明したが、コラム及び報酬の数は3つ以上でも良い。コラムが1つだと事前学習が上手く成立しない。なぜなら、コラムに含まれる行動出力Qi(t)の正規分布曲線が先鋭化せず、その分散が小さくならないからである。本発明では複数のコラムを設けるようにして、行動出力Qi(t)の正規分布曲線が迅速に先鋭化するようにした点に特徴がある。通常、コラムを増やすほど、複雑かつ多様性に富んだ行動出力Qi(t)が得られる。
また、以上に説明してきた実施形態では、データセットを用いて事前学習を行っているが、このような事前学習を行うのは、制御対象308をより早期に安定させるためである。従って、事前学習を行わずに、エージェント学習装置100を適用して制御対象308(例えばヘリコプター601)の制御を直ちに開始することも可能である。この場合、当初は前述の確率モデルが算出されていないので、制御開始から短期間は、図4の行動制御器307はセンサが取得する感覚入力Ii(t)と無関係にランダムな行動出力Qi(t)を制御対象308に与える。制御対象308の行動結果に対して行動状態評価器303は報酬を与え、選択的注意機構304は報酬に応じて行動出力Qi(t)を感覚入力Ii(t)と対応付けて各コラムに分配する。そして、感覚入力Ii(t)と行動出力Qi(t)の対応関係が報酬別にコラムに蓄積され、EMアルゴリズムによりコラムに格納された行動出力群の正規分布を算出できるようになると、上述の手順に従って事前確率p−(Qi 1(t)|Ω1(t))と条件付き確率密度関数p(Ii(t)|Ω1)が計算される。これらをベイズ則に適用して各注意のクラスの確信度p(Ω1(t))が計算される。行動制御器307は、確信度p(Ω1(t))が最大のクラスに対応するコラムまたは報酬が最も良い行動出力群が格納されているコラムから、新たに取得した感覚入力Ii(t)に対応する行動出力Qi(t)を計算し、制御対象308に供給する。そして再び、制御対象308の行動結果に対して行動状態評価器303は報酬を与え、計算した行動出力Qi(t)が何れかのコラムに格納される。これに基づいて、事前確率p−(Qi 1(t)|Ω1(t))と条件付き確率密度関数p(Ii(t)|Ω1)が更新される。そして更新後のこれらの確率をベイズ則に適用して、新たな行動出力がQi(t)出力される。このように事前学習を経ない場合は、事前確率p−(Qi 1(t)|Ω1(t))と条件付き密度関数p(Ii(t)|Ω1)が次々に更新される。この場合、制御開始当初は制御対象308の不安定度が大きく、突飛な運動により制御対象308が破損等する可能性があるので、所定の数の行動出力Qi(t)と感覚入力Ii(t)との関係が得られるまで(あるいは所定時間が経過するまで)は、行動制御器307が制御対象308に与える行動出力Qi(t)の範囲を強制的に制限するような構成にすることが好ましい。
さらに、上記ステップS405ではEMアルゴリズムの代わりに公知の競合学習や自己組織型ネットワークを用いた学習を適用してもよい。また、ステップS411ではベイズ則の代わりに公知のビリーフネットワークやグラフティカルモデルを使用してもよい。
産業上の利用の可能性
以上説明してきたように、本発明では、安定と評価されたコラムに基づいて行動出力Qi(t)を算出することによって、迅速に行動出力Qi(t)の分散を最小化し、制御対象を安定させることができる。
【図面の簡単な説明】
図1は、行動出力の時系列データの一例を示す図である。
図2は、図1の時系列データの度数分布を示す図である。
図3は、本発明によるエージェント学習装置の事前学習時の機能ブロック図である。
図4は、本発明によるエージェント学習装置の行動制御時の機能ブロック図である。
図5は、事前学習時のエージェント学習装置の動作を説明するフローチャートである。
図6は、安定の報酬に対応するコラム内に格納された感覚入力と行動出力の関係を示す正規分布曲面の一例を表す図である。
図7は、不安定の報酬に対応するコラム内に格納された感覚入力と行動出力の関係を示す正規分布曲面の一例を表す図である。
図8は、感覚入力と注意のクラスとの関係を学習するための階層型ニューラルネットワークの例を示す図である。
図9は、行動制御時のエージェント学習装置の動作を説明するフローチャートである。
図10は、本発明によるヘリコプター制御システムの構成を示す図である。
図11は、図10のシステムにおいて、視覚センサ入力と注意のクラスの関係の学習結果を示す図である。
図12は、図10のシステムにおいて制御を行ったとき、制御対象であるヘリコプターの行動出力の分散の時間経過を示す図である。
Claims (9)
- 制御対象の最適制御を行うエージェント学習装置(100)であって、
外部環境の情報を取得して感覚入力に変換するセンサ(301)と、
選択的注意機構(304)と、
複数の前記感覚入力に対して前記選択的注意機構(304)により行われた強化学習の結果を用いて、今回の前記感覚入力に対して得られる行動出力を前記制御対象に与える行動制御器(307)と、
前記行動出力により生じた前記制御対象の行動結果に対し評価値としての報酬を付与する行動状態評価器(303)と、
前記選択的注意機構(304)は、
前記報酬に応じて前記行動出力を該行動出力に対応する前記感覚入力と共に複数のコラムのうち該報酬に対応するコラムに格納し、
前記報酬に対応するコラムごとに格納された一群の行動出力を、期待値最大化アルゴリズムにより正規分布で表現し、
該正規分布を用いて任意の行動出力が各コラムに属する事前確率を計算し、
ニューラルネットワークを用いた教師付き学習により、前記事前確率を用いて複数の前記感覚入力が前記各コラムに属する確率を表す確率密度関数(確率モデル)を算出し、
新たに与えられた感覚入力を前記確率密度関数に適用することで前記コラム別の前記新たに与えられた感覚入力が前記各コラムに属する確率である確信度を算出し、
該確信度が最も大きいコラムから、前記新たに与えられた感覚入力に対応する行動出力を前記強化学習の結果として出力する、
よう構成されていることを特徴とするエージェント学習装置(100)。 - 前記確信度は、前記事前確率と前記確率モデルとをベイズ則に適用して算出されることを特徴とする請求項1に記載のエージェント学習装置(100)。
- 前記確率モデルは感覚入力と行動出力とを対応付けたデータセットを使用して予め算出されており、該確率モデルの算出後は、新たに与えられた感覚入力に対しこの確率モデルを使用して前記確信度を算出することを特徴とする請求項2に記載のエージェント学習装置(100)。
- 制御対象の最適制御を行うエージェント学習方法であって、
外部環境の情報を取得して感覚入力に変換し、
複数の前記感覚入力に対して行われた強化学習の結果を用いて、今回の前記感覚入力に対して得られる行動出力を前記制御対象に与え、
前記行動出力により生じた前記制御対象の行動結果に対し評価値としての報酬を付与し、
前記報酬に応じて前記行動出力を該行動出力に対応する前記感覚入力と共に複数のコラムのうち該報酬に対応するコラムに格納し、
前記報酬に対応するコラムごとに格納された一群の行動出力を、期待値最大化アルゴリズムにより正規分布で表現し、
該正規分布を用いて任意の行動出力が各コラムに属する事前確率を計算し、
ニューラルネットワークを用いた教師付き学習により、前記事前確率を用いて複数の前記感覚入力が前記各コラムに属する確率を表す確率密度関数(確率モデル)を算出し、
新たに与えられた感覚入力を前記確率密度関数に適用することで前記コラム別の前記新たに与えられた感覚入力が前記各コラムに属する確率である確信度を算出し、
該確信度が最も大きいコラムから、前記新たに与えられた感覚入力に対応する行動出力を前記強化学習の結果として出力する、
よう構成されていることを特徴とするエージェント学習方法。 - 前記確信度は、前記事前確率と前記確率モデルとをベイズ則に適用して算出されることを特徴とする請求項4に記載のエージェント学習方法。
- 前記確率モデルは感覚入力と行動出力とを対応付けたデータセットを使用して予め算出されており、該確率モデルの算出後は、新たに与えられた感覚入力に対しこの確率モデルを使用して前記確信度を算出することを特徴とする請求項5に記載のエージェント学習方法。
- コンピュータで実行されたときに制御対象の最適制御を実現するためのエージェント学習プログラムであって、
センサにより取得された外部環境の情報を感覚入力に変換する機能と、
複数の前記感覚入力に対して行われた強化学習の結果を用いて、今回の前記感覚入力に対して得られる行動出力を前記制御対象に与える機能と、
前記行動出力により生じた前記制御対象の行動結果に対し評価値としての報酬を付与する機能と、
前記報酬に応じて前記行動出力を該行動出力に対応する前記感覚入力と共に複数のコラムのうち該報酬に対応するコラムに格納する機能と、
前記報酬に対応するコラムごとに格納された一群の行動出力を、期待値最大化アルゴリズムにより正規分布で表現する機能と、
該正規分布を用いて任意の行動出力が各コラムに属する事前確率を計算する機能と、
ニューラルネットワークを用いた教師付き学習により、前記事前確率を用いて複数の前記感覚入力が前記各コラムに属する確率を表す確率密度関数(確率モデル)を算出する機能と、
新たに与えられた感覚入力を前記確率密度関数に適用することで前記コラム別の前記新たに与えられた感覚入力が前記各コラムに属する確率である確信度を算出する機能と、
該確信度が最も大きいコラムから、前記新たに与えられた感覚入力に対応する行動出力を前記強化学習の結果として出力する機能と、
をコンピュータに実現させるエージェント学習プログラム。 - 前記確信度は、前記事前確率と前記確率モデルとをベイズ則に適用して算出されることを特徴とする請求項7に記載のエージェント学習プログラム。
- 前記確率モデルは感覚入力と行動出力とを対応付けたデータセットを使用して予め算出されており、該確率モデルの算出後は、新たに与えられた感覚入力に対しこの確率モデルを使用して前記確信度を算出することを特徴とする請求項8に記載のエージェント学習プログラム。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001028758 | 2001-02-05 | ||
JP2001028759 | 2001-02-05 | ||
JP2001028759 | 2001-02-05 | ||
JP2001028758 | 2001-02-05 | ||
PCT/JP2002/000878 WO2002063402A1 (fr) | 2001-02-05 | 2002-02-04 | Appareil, procede et programme d'apprentissage pour agent |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2002063402A1 JPWO2002063402A1 (ja) | 2004-06-10 |
JP4028384B2 true JP4028384B2 (ja) | 2007-12-26 |
Family
ID=26608946
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002563083A Expired - Fee Related JP4028384B2 (ja) | 2001-02-05 | 2002-02-04 | エージェント学習装置、方法、プログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20060155660A1 (ja) |
EP (1) | EP1359481A4 (ja) |
JP (1) | JP4028384B2 (ja) |
WO (1) | WO2002063402A1 (ja) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7152051B1 (en) * | 2002-09-30 | 2006-12-19 | Michael Lamport Commons | Intelligent control with hierarchical stacked neural networks |
US20060184462A1 (en) | 2004-12-10 | 2006-08-17 | Hawkins Jeffrey C | Methods, architecture, and apparatus for implementing machine intelligence and hierarchical memory systems |
US20070192267A1 (en) * | 2006-02-10 | 2007-08-16 | Numenta, Inc. | Architecture of a hierarchical temporal memory based system |
US8732098B2 (en) | 2006-02-10 | 2014-05-20 | Numenta, Inc. | Hierarchical temporal memory (HTM) system deployed as web service |
FI20070159A0 (fi) * | 2007-02-23 | 2007-02-23 | Teknillinen Korkeakoulu | Menetelmä informaation integrointiin, valintaan ja esityksen oppimiseen |
JP5398414B2 (ja) * | 2008-09-18 | 2014-01-29 | 本田技研工業株式会社 | 学習システム及び学習方法 |
US9015093B1 (en) | 2010-10-26 | 2015-04-21 | Michael Lamport Commons | Intelligent control with hierarchical stacked neural networks |
US8775341B1 (en) | 2010-10-26 | 2014-07-08 | Michael Lamport Commons | Intelligent control with hierarchical stacked neural networks |
US10152037B2 (en) | 2013-07-09 | 2018-12-11 | Ford Global Technologies, Llc | System and method for feedback error learning in non-linear systems |
JP6457369B2 (ja) * | 2015-09-30 | 2019-01-23 | ファナック株式会社 | パラメータを自動調整する機能を有する機械学習装置及び電動機制御装置 |
US10839302B2 (en) | 2015-11-24 | 2020-11-17 | The Research Foundation For The State University Of New York | Approximate value iteration with complex returns by bounding |
JP6203808B2 (ja) * | 2015-11-27 | 2017-09-27 | ファナック株式会社 | ファンモータの清掃間隔を学習する機械学習器、モータ制御システムおよび機械学習方法 |
JP6453805B2 (ja) | 2016-04-25 | 2019-01-16 | ファナック株式会社 | 製品の異常に関連する変数の判定値を設定する生産システム |
US10817801B2 (en) | 2016-07-25 | 2020-10-27 | General Electric Company | System and method for process modeling and control using disturbance rejection models |
CA2982930A1 (en) | 2017-10-18 | 2019-04-18 | Kari Saarenvirta | System and method for selecting promotional products for retail |
GB2567900A (en) | 2017-10-31 | 2019-05-01 | Babylon Partners Ltd | A computer implemented determination method and system |
US10621533B2 (en) * | 2018-01-16 | 2020-04-14 | Daisy Intelligence Corporation | System and method for operating an enterprise on an autonomous basis |
US11281208B2 (en) * | 2018-03-02 | 2022-03-22 | Carnegie Mellon University | Efficient teleoperation of mobile robots via online adaptation |
US11887138B2 (en) | 2020-03-03 | 2024-01-30 | Daisy Intelligence Corporation | System and method for retail price optimization |
JP6950117B1 (ja) * | 2020-04-30 | 2021-10-13 | 楽天グループ株式会社 | 学習装置、情報処理装置、及び学習済の制御モデル |
US11783338B2 (en) | 2021-01-22 | 2023-10-10 | Daisy Intelligence Corporation | Systems and methods for outlier detection of transactions |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03260704A (ja) * | 1990-03-09 | 1991-11-20 | Kobe Steel Ltd | アクション決定装置 |
JP2982174B2 (ja) * | 1989-05-22 | 1999-11-22 | 日本鋼管株式会社 | 高炉の操業支援方法 |
JPH02308301A (ja) * | 1989-05-24 | 1990-12-21 | Hitachi Ltd | プラント運転支援装置 |
JP3151857B2 (ja) * | 1991-06-06 | 2001-04-03 | オムロン株式会社 | 学習機能付き推論装置 |
JP3129342B2 (ja) * | 1992-01-27 | 2001-01-29 | オムロン株式会社 | 知識学習装置 |
JPH05265511A (ja) * | 1992-03-19 | 1993-10-15 | Hitachi Ltd | 制御システム |
JP3086206B2 (ja) * | 1998-07-17 | 2000-09-11 | 科学技術振興事業団 | エージェント学習装置 |
-
2002
- 2002-02-04 EP EP02710486A patent/EP1359481A4/en not_active Withdrawn
- 2002-02-04 US US10/468,316 patent/US20060155660A1/en not_active Abandoned
- 2002-02-04 JP JP2002563083A patent/JP4028384B2/ja not_active Expired - Fee Related
- 2002-02-04 WO PCT/JP2002/000878 patent/WO2002063402A1/ja not_active Application Discontinuation
Also Published As
Publication number | Publication date |
---|---|
WO2002063402A1 (fr) | 2002-08-15 |
JPWO2002063402A1 (ja) | 2004-06-10 |
EP1359481A4 (en) | 2006-04-12 |
US20060155660A1 (en) | 2006-07-13 |
EP1359481A1 (en) | 2003-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4028384B2 (ja) | エージェント学習装置、方法、プログラム | |
Chiou et al. | A PSO-based adaptive fuzzy PID-controllers | |
EP3722894B1 (en) | Control and monitoring of physical system based on trained bayesian neural network | |
US20210201156A1 (en) | Sample-efficient reinforcement learning | |
CN110809505B (zh) | 用于执行机器人手臂的移动控制的方法和装置 | |
US11605026B2 (en) | Methods and systems for support policy learning | |
WO2020152364A1 (en) | Multi-agent reinforcement learning with matchmaking policies | |
Sledge et al. | Balancing exploration and exploitation in reinforcement learning using a value of information criterion | |
WO2021248825A1 (en) | Systems and methods for learning reusable options to transfer knowledge between tasks | |
Rigter et al. | A framework for learning from demonstration with minimal human effort | |
EP4260237A2 (en) | Attention neural networks with short-term memory units | |
CN113614743A (zh) | 用于操控机器人的方法和设备 | |
Huang et al. | Interpretable policies for reinforcement learning by empirical fuzzy sets | |
US20230120256A1 (en) | Training an artificial neural network, artificial neural network, use, computer program, storage medium and device | |
US11934176B2 (en) | Device and method for controlling a robot | |
JP4853997B2 (ja) | エージェント学習装置、エージェント学習方法及びエージェント学習プログラム | |
CN115453880A (zh) | 基于对抗神经网络的用于状态预测的生成模型的训练方法 | |
Song et al. | A data-efficient reinforcement learning method based on local Koopman operators | |
JP2004118658A (ja) | 物理系の制御方法および装置ならびに物理系の制御のためのコンピュータプログラム | |
Galashov et al. | Importance weighted policy learning and adaptation | |
EP4139844A1 (en) | Tactical decision-making through reinforcement learning with uncertainty estimation | |
Šćepanović | Testing reward function choice influence on training performance of Double DQN | |
JP2020113192A (ja) | エージェント結合装置、方法、及びプログラム | |
JP2005084834A (ja) | 適応型制御器、適応型制御方法および適応型制御プログラム | |
US20240143975A1 (en) | Neural network feature extractor for actor-critic reinforcement learning models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041203 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070417 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070605 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070710 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070906 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20071009 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071011 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101019 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101019 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111019 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111019 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121019 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131019 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |