JP2000122992A - 情報処理装置および方法、並びに提供媒体 - Google Patents

情報処理装置および方法、並びに提供媒体

Info

Publication number
JP2000122992A
JP2000122992A JP11021791A JP2179199A JP2000122992A JP 2000122992 A JP2000122992 A JP 2000122992A JP 11021791 A JP11021791 A JP 11021791A JP 2179199 A JP2179199 A JP 2179199A JP 2000122992 A JP2000122992 A JP 2000122992A
Authority
JP
Japan
Prior art keywords
action
learning
reward
prediction
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP11021791A
Other languages
English (en)
Inventor
Atsushi Tani
淳 谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP11021791A priority Critical patent/JP2000122992A/ja
Priority to PCT/JP1999/004306 priority patent/WO2000010098A1/ja
Publication of JP2000122992A publication Critical patent/JP2000122992A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)
  • Manipulator (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

(57)【要約】 【課題】 少ないアクション経験で、リワードを最大に
するアクションプランを生成できるようにする。 【解決手段】 ステップS1で順方向ダイナミクスによ
り、リカレント型ニューラルネットワークにおいて、最
大のリワードが得られる予測処理を行う。ステップS2
において、逆方向ダイナミクスによるプランの生成処理
が行われる。これにより、最大のリワードを得るための
アクションの差分値の系列がアクションプランとして生
成される。以上の処理がステップS3において所望のア
クションプランが得られたと判定されるまで、繰り返し
実行される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、情報処理装置およ
び方法、並びに提供媒体に関し、特に、行動プランを生
成することができるようにした、情報処理装置および方
法、並びに提供媒体に関する。
【0002】
【従来の技術】例えば、ロボットに適用される人工知能
について、さまざまな研究がなされている。Long-Ji Li
nは、その論文「Reinforcement Learning With Hidden
States」において、リカレント型ニューラルネットワー
ク(RNN)を用いて、予測と報酬学習を組み合わせるこ
とを提案している。
【0003】また、R.S. Suttonは、「Learning to pre
dict by the methods of temporaldifferences」,Machi
ne Larning,3:9-44,1988において、内部モデルと報酬学
習を組み合わせることを提案している。そこでは、内部
モデルにより、リハーサルを通してアクションポリシー
の強化学習が行われている。
【0004】
【発明が解決しようとする課題】しかしながら、上記し
たいずれの提案においても、将来のアクションのシーケ
ンスとしての行動(アクション)プランを生成すること
ができない課題があった。
【0005】本発明はこのような状況に鑑みてなされた
ものであり、行動プランを生成することができるように
するものである。
【0006】
【課題を解決するための手段】請求項1に記載の情報処
理装置は、複数ステップ先に得られるリワードの内部モ
デルによる予測を最大にするアクションの変化分を演算
する第1の演算手段と、アクションポリシーに基づきア
クションを演算する第2の演算手段とを備えることを特
徴とする。
【0007】請求項3に記載の情報処理方法は、複数ス
テップ先に得られるリワードの内部モデルによる予測を
最大にするアクションの変化分を演算する第1の演算ス
テップと、アクションポリシーに基づきアクションを演
算する第2の演算ステップとを含むことを特徴とする。
【0008】請求項4に記載の提供媒体は、複数ステッ
プ先に得られるリワードの内部モデルによる予測を最大
にするアクションの変化分を演算する第1の演算ステッ
プと、アクションポリシーに基づきアクションを演算す
る第2の演算ステップとを含む処理を情報処理装置に実
行させるコンピュータが読みとり可能なプログラムを提
供することを特徴とする。
【0009】請求項1に記載の情報処理装置、請求項3
に記載の情報処理方法、および請求項4に記載の提供媒
体においては、複数ステップ先に得られるリワードの内
部モデルによる予測を最大にするアクションの変化分が
演算されるとともに、アクションポリシーに基づきアク
ションが演算される。
【0010】
【発明の実施の形態】図1は、本発明の情報処理装置を
適用したロボットの外観構成を示している。この構成例
においては、ロボット11の上部にセンサの1つとして
機能するテレビカメラ12が取り付けられ、周囲の画像
を撮像するようになされている。ロボット11の下側に
は、車輪13が取り付けられ、任意の位置に移動できる
ようになされている。また、ロボット11の側面には、
ディスプレイ14が取り付けられ、所定の文字や画像
が、必要に応じて表示されるようになされている。セン
サ15は、ロボット11の周囲の情報を検出する。
【0011】図2は、ロボット11の内部の構成例を表
している。テレビカメラ12は、周囲の映像をカラー画
像として取り込み、取り込んだカラー画像データを制御
回路24と量子化回路25に出力している。量子化回路
25は、入力されたカラー画像データを量子化し、ニュ
ーラルネット認識装置23に出力する。センサ15は検
出した各種の情報を制御回路24に出力している。ニュ
ーラルネット認識装置23は、量子化回路25より入力
されたカラー画像データを認識処理し、認識結果を制御
回路24に出力する。例えば、マイクロコンピュータな
どにより構成される制御回路24は、ニューラルネット
認識装置23に対して、ロボットの移動方向を通知する
とともに、ニューラルネット認識装置23より供給され
た予測結果を、CRT,LCDなどよりなるディスプレイ14
に出力し、表示させる。
【0012】また、制御回路24は、モータ21を駆動
し、テレビカメラ12を所定の方向に指向させる。さら
に、制御回路24はモータ22を駆動し、車輪13を回
転して、ロボット11を所定の位置に移動させる。
【0013】図3は、ニューラルネット認識装置23を
構成する、リカレント型ニューラルネットワーク(RN
N)31の構成例を表している。同図に示すように、RNN
31は、所定の数のニューロンからなる入力層41を有
し、この入力層41の各ニューロンには、各種のセンサ
15(テレビカメラ12を含む)の状態に対応する信号
(以下、単にセンサとも称する)S(t)、リワード
(報酬)R(t)、およびアクションA(t)が、制御
回路24から入力される。入力層41に入力されたデー
タは、所定の数のニューロンからなる中間層42を介し
て、所定の数のニューロンからなる出力層43から出力
される。
【0014】各ニューロンは、所定の学習を行うことに
より、所定の重み付け係数を記憶しており、入力に対し
て重み付け係数を乗算して、他のニューロンに出力す
る。また、出力層43の所定のニューロンの出力の一
部、コンテキスト(context)C(t+1)は、入力層
41のニューロンにフィードバックされる。
【0015】RNN31は、現在の時刻(ステップ)tで
のセンサS(t)、リワードR(t)、およびアクショ
ンA(t)を入力し、次の時刻(ステップ)t+1にお
けるセンサS(t+1)、リワードR(t+1)、およ
びアクションA(t+1)を予測し、出力する。RNN3
1は、行動学習を行うことにより、現在時刻と次の時刻
の関係を結合重みを徐々に変えることによって記憶す
る。すなわち、現時点におけるセンサS(t)とアクシ
ョンA(t)の入力に対して、次の時刻(ステップ)に
おいては、どのようなセンサS(t+1)、およびリワ
ードR(t+1)が得られるか、また、そのときのアク
ションA(t+1)はどのようになるかを予測できるよ
うに学習する。
【0016】実際の学習時においては、高いリワードR
(t)が得られたとき、そのアクションA(t)を強化
する方向に学習が行われる。これは、Profit Sharing法
といわれ、強化学習法の一種である。このProfit Shari
ng法については、例えば、「強化学習における報酬割当
ての理論的考察」人工知能学会誌Vol.9 No.4第580ペ
ージ乃至第586ページに紹介されている。
【0017】これにより、ロボット(エージェント)1
1は、常に自分の行動(アクション)を高いリワードが
得られる方向に持っていくようなアクションポリシーを
得ることができる。
【0018】しかしながら、強化学習は、その学習を収
束させるために、多くの試行錯誤が必要であることが知
られている。そこで、本発明においては、アクションポ
リシーの強化学習とともに、内部モデルの学習も行うよ
うにすることで、学習の効率をあげるようにしている。
ここで、内部モデルとは、RNN31において、次の時刻
(ステップ)でのセンサ入力およびリワードを、いまと
る行動に対して予測できる機能を意味する。
【0019】実際には、この内部モデル(予測器)を用
いて、将来得られるリワード(複数ステップでのリワー
ド)の合計値が、最大になるようにアクションプラン
(アクションシーケンスの組み合わせ)が求められる。
このため、RNN31において後述するように、順方向ダ
イナミクスと逆方向ダイナミクスの処理が繰り返し実行
される。
【0020】また、この時、アクションプラン(アクシ
ョンの組み合わせ)のサーチ範囲(予測範囲)が、組み
合わせ的に広がらない(あまり、突飛なアクションプラ
ンが予測されない)ようにするために、サーチ範囲は強
化学習で得られたアクションポリシーに基づいて制約す
る。すなわち、より高いリワードが得られる方向のみを
サーチし、リワード全体を最適化するような行動プラン
が立てられる。
【0021】実際のプランにおいては、次式で示すエネ
ルギEが最小となる方向にアクションプランが求められ
る。
【0022】
【数1】
【0023】上記式において、Kr,Km,Kp,η,α
は係数であり、γはリワード減衰率を表し、R(t)は
リワードを表し、RP(t)はリワードの予測値を表
し、A(t)はアクションを表し、AP(t)はアクシ
ョンの予測値を表し、Noiseはノイズを表している。
【0024】上記した式(1)の第1項は、リワードの
予測値を最大にする(負の符号が付加されているので、
エネルギEを小さくする)ための項であり、第2番目の
項は、アクションを0から1の間の値ではなく、0また
は1の値とさせるための項であり、第3番目の項は、ア
クションポリシーのための項である。エネルギEは、こ
れらの3つの項の和として定義される。
【0025】式(1)における第1番目の項を最小化す
るために、RNN31は、図4のフローチャートに示す処
理を実行する。
【0026】すなわち、最初にステップS1において、
順方向ダイナミクスによる予測処理が行われる。この予
測処理は、例えば図5に示すように、時刻t=0におい
て、センサS(0)、リワードR(0)、アクションA
(0)、コンテキストC(0)の入力を与えたとき、時
刻t=1におけるセンサS(1)、リワードR(1)、
アクションA(1)、およびコンテキストC(1)を予
測生成する処理である。同様にして、時刻t=1のセン
サS(1)、リワードR(1)、アクションA(1)、
およびコンテキストC(1)を入力として、時刻t=2
におけるセンサS(2)、リワードR(2)、アクショ
ンA(2)、およびコンテキストC(2)が予測生成さ
れる。以下同様に、この例の場合、時刻t=3まで、予
測生成処理が行われる。このようにして、リワードR
(0)乃至R(3)を合計した値が最大となるように学
習が行われる。
【0027】なお、図5においては、RNN31が多段階
に示されているが、実際の処理としては、1個のRNN3
1において、所定の時刻(ステップ)における出力が、
次の時刻(ステップ)における入力として帰還されるこ
とになる。
【0028】次に、ステップS2において、逆方向ダイ
ナミクスによるプランの生成処理が実行される。この処
理は、例えば、図6に示すように行われる。すなわち、
0から1までの値をとるリワードの最大値Rmax(=
1)から、時刻t=3において得られたリワードR
(3)を減算した差分値dR(3)(=Rmax−R
(3))と、コンテキストC(3)が、RNN31に対し
てステップS1における場合と逆方向に伝搬され、差分
アクション(アクションの変化分)ΔA(2)とコンテ
キストC(2)が生成される。差分アクションを一般式
で表すと、式(3)に示すようになる。
【0029】次のステップにおいては、同様にして、時
刻t=2におけるリワードR(2)をリワードの最大値
maxから減算した差分dR(2)(=Rmax−R
(2))とコンテキストC(2)が、RNN31に逆方向
から入力される。これにより、差分アクションΔA
(1)が生成されるとともに、コンテキストC(1)が
生成される。
【0030】コンテキストC(2)には、差分dR
(3)の成分が含まれており、アクションの変化分ΔA
(1)は、差分dR(2)と差分dR(3)の両方の成
分に基づいて生成される。
【0031】さらに、同様にして、時刻t=1における
リワードR(1)をリワードの最大値Rmaxから減算し
た差分dR(1)(=Rmax−R(1))と、時刻t=
1におけるコンテキストC(1)を逆方向から入力し
て、差分アクションΔA(0)とコンテキストC(0)
が生成される。
【0032】差分アクション(アクションの差分値)Δ
A(2)乃至ΔA(0)が、アクションシーケンスの組
み合わせ、すなわち、行動プランとなる。
【0033】次に、ステップS3に進み、所望の行動プ
ランが得られ、処理を終了するか否かが判定され、ま
だ、処理を終了しない場合には、ステップS1に戻り、
それ以降の処理が繰り返し実行される。所望の行動プラ
ンが得られたとき、処理が終了される。
【0034】以上のようにして、式(1)における最初
の項のリワードの予測値を最大にするための処理が行わ
れる。図示は省略するが、RNN31においては、式
(1)における第2番目の項と第3番目の項における処
理も実行される。
【0035】これにより、図7に模式的に示すように、
RNN31の所定の時刻(図7の例の場合、t=1)にお
いてRNN31に対して入力されるアクションA(1)
は、時刻t=0からのアクションの予測値AP(1)
と、時刻t=2におけるリワードR(2)により逆ダイ
ナミクスにより生成して得られた差分アクションΔA
(1)に基づいて生成されたものとなる。
【0036】以上の処理におけるRNN31の学習の過程
を模式的に表すと、図8に示すようになる。すなわち、
センサ入力からアクションポリシーの決定処理により、
所定のアクションが出力されるように強化学習が行われ
る。また、センサ、リワード、およびアクションの入力
に基づいて、内部モデルが、所定のセンサ予測とリワー
ド予測を出力するように学習が行われる。すなわち、強
化学習と予測に基づくモデル学習の両方が行われる。
【0037】以上の実施の形態では、強化学習のリワー
ドの仕方を予め外部からロボット11に与える必要があ
る。このため、ロボット11のアクションは、与えられ
た枠(フィールド)の中で発達するだけであり、創造
的、かつ自律的なアクションを生成することが困難とな
る。
【0038】これを解決するために、図9に示すよう
に、センサの予測値とセンサ15の実際の出力とを減算
器51で減算して、その差の絶対値を予測誤差として求
め、これをリワードとしてバックプロパケーションによ
り、RNN31に学習させるようにすることができる。
【0039】すなわち、この場合の学習処理は、図10
のフローチャートに示すようになる。最初に、ステップ
S11において、予測誤差生成処理が実行される。ここ
では、減算器51が出力層43より出力されたセンサの
予測値と、センサ15が実際に周囲の状態を検出した結
果の出力とを減算し、その絶対値から予測誤差を生成す
る。
【0040】次に、ステップS12において、ステップ
S11で生成された予測誤差をリワードとして、バック
プロパケーションによりRNN31において学習処理が行
われる。
【0041】このように、センサの予測誤差による学習
を行った場合の実験例について、以下に説明する。図1
1乃至図15は、ロボット11に予測誤差による学習処
理を行った場合のロボット11の移動軌跡を表してい
る。図11乃至図15に示す数字は、学習の順番を表し
ている。すなわち、図11乃至図15は、第0番目乃至
第19番目の20回の学習時におけるロボット11の移
動軌跡を表している。
【0042】図16乃至図18は、ロボット11に、以
上のような予測誤差に基づく学習処理を20回行わせる
実験を3回行ったときの実験結果を表している。これら
の図において、横軸は学習の回数を表し、縦軸は1ステ
ップ当たりの予測誤差の値、すなわち、各ステップでの
予測誤差の自乗の和をステップの総数で割った値を表し
ている。図18に示す、第3回目の実験の場合、誤差の
値が学習回数が増加するにつれて徐々に減少している
が、第16回目の学習時近傍において、誤差が一時的に
増加している。これに対して、図16と図17に示す第
1回目と第2回目の実験の場合には、学習回数が増加す
るにともなって、予測誤差が次第に減少していることが
わかる。
【0043】図19と図20は、図16に示す第1回目
の実験時における20回の学習の結果を表している。こ
れらの図において、上7行は入力を表し、下6行は出力
を表している。入力のうち、上5行はセンサの入力を表
し、次の第6行目はリワードの入力を表し、次の第7行
目はアクションの入力を表している。出力のうち、上5
行はセンサの予測出力を表し、第6行目はリワードの予
測を表している。
【0044】また、各列は、学習時のステップを表して
いる。例えば、第0回目の学習時においては、数字1乃
至7で示す7ステップの学習処理が行われている。
【0045】各ステップで1つの長方形で示されるブロ
ックは、RNN31における発火の量を表しており、白の
ブロックは発火のないことを表し、黒のブロックは全て
の出力が発火したことを表している。従って、黒い部分
が多いほど、発火の量が多いことを意味する。
【0046】また、各回の学習時における入力と出力
は、同じタイミングのものを表している。例えば、第0
回目に図示されている出力は、第0回目の学習時におけ
る出力を表しているが、その入力は、第1回目の学習時
における入力を表している。従って、第0回目の図にお
いて、第0回目における予測(出力)と、その直後の第
1回目の学習時における入力とを対比して比較すること
ができる。予測が正確であれば、出力の発火のパターン
と入力の発火のパターンとが一致することになる。換言
すれば、各学習時における入力と出力のパターンの差が
少ないほど、予測誤差が少ないことを意味する。図19
と図20から、学習回数が増加するほど、入力と出力の
パターンが似てくること、すなわち、学習回数が進むに
従って、予測誤差が少なくなっていることが判る。この
ことは、図16において、予測誤差が、学習回数が増え
るに従って次第に小さくなることに対応している。
【0047】以上においては、本発明をロボットに適用
した場合を例として説明したが、本発明は、その他の情
報処理装置に適用することが可能である。
【0048】なお、上記したような処理を行うコンピュ
ータプログラムをユーザに提供する提供媒体としては、
磁気ディスク、CD-ROM、固体メモリなどの記録媒体の
他、ネットワーク、衛星などの通信媒体を利用すること
ができる。
【0049】
【発明の効果】以上の如く、請求項1に記載の情報処理
装置、請求項3に記載の情報処理方法、および請求項4
に記載の提供媒体によれば、リワードの内部モデルによ
る予測を最大にするアクションの変化分を演算するとと
もに、アクションポリシーに基づきアクションを演算す
るようにしたので、行動プランを生成することが可能と
なる。
【図面の簡単な説明】
【図1】本発明を適用したロボットの構成を示す図であ
る。
【図2】図1のロボットの内部の構成例を示すブロック
図である。
【図3】図2のニューラルネット認識装置23を構成す
るリカレント型ニューラルネットワークの構成例を示す
図である。
【図4】図3のリカレント型ニューラルネットワークの
動作を説明するフローチャートである。
【図5】図4のステップS1の処理を説明する図であ
る。
【図6】図4のステップS2の処理を説明する図であ
る。
【図7】図3のリカレント型ニューラルネットワークの
動作を説明する図である。
【図8】図3のリカレント型ニューラルネットワークの
学習を説明する図である。
【図9】図3のリカレント型ニューラルネットワークの
他の学習処理を説明する図である。
【図10】図9のリカレント型ニューラルネットワーク
の学習処理を説明するフローチャートである。
【図11】図9のリカレント型ニューラルネットワーク
の学習時におけるロボットの移動軌跡を示す図である。
【図12】図9のリカレント型ニューラルネットワーク
の学習時におけるロボットの移動軌跡を示す図である。
【図13】図9のリカレント型ニューラルネットワーク
の学習時におけるロボットの移動軌跡を示す図である。
【図14】図9のリカレント型ニューラルネットワーク
の学習時におけるロボットの移動軌跡を示す図である。
【図15】図9のリカレント型ニューラルネットワーク
の学習時におけるロボットの移動軌跡を示す図である。
【図16】図9のリカレント型ニューラルネットワーク
の予測誤差を示す図である。
【図17】図9のリカレント型ニューラルネットワーク
の予測誤差を示す図である。
【図18】図9のリカレント型ニューラルネットワーク
の予測誤差を示す図である。
【図19】図9のリカレント型ニューラルネットワーク
の学習時における発火の状態を示す図である。
【図20】図9のリカレント型ニューラルネットワーク
の学習時における発火の状態を示す図である。
【符号の説明】
11 ロボット, 15 センサ, 23 ニューラル
ネット認識装置, 24 制御回路, 25 量子化回
路, 31 リカレント型ニューラルネットワーク,
51 減算器
フロントページの続き Fターム(参考) 3F059 BB07 DA05 DB04 FC00 FC15 5H004 GB16 HA07 HB07 JA02 JA04 JB06 KC03 KC08 KC24 KC28 KD42 MA48 5H301 AA01 AA06 AA10 BB14 CC03 CC06 DD02 GG09 KK02

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 複数ステップ先に得られるリワードの内
    部モデルによる予測を最大にするアクションの変化分を
    演算する第1の演算手段と、 アクションポリシーに基づきアクションを演算する第2
    の演算手段とを備えることを特徴とする情報処理装置。
  2. 【請求項2】 周囲の情報を入力する入力手段と、 前記周囲の情報を予測する予測手段と、 前記予測手段による予測結果と、前記入力手段からの実
    際の入力との差分を前記リワードとして演算する差分演
    算手段と、 前記差分演算手段の演算結果を学習する学習手段とをさ
    らに備えることを特徴とする請求項1に記載の情報処理
    装置。
  3. 【請求項3】 複数ステップ先に得られるリワードの内
    部モデルによる予測を最大にするアクションの変化分を
    演算する第1の演算ステップと、 アクションポリシーに基づきアクションを演算する第2
    の演算ステップとを含むことを特徴とする情報処理方
    法。
  4. 【請求項4】 複数ステップ先に得られるリワードの内
    部モデルによる予測を最大にするアクションの変化分を
    演算する第1の演算ステップと、 アクションポリシーに基づきアクションを演算する第2
    の演算ステップとを含む処理を情報処理装置に実行させ
    るコンピュータが読みとり可能なプログラムを提供する
    ことを特徴とする提供媒体。
JP11021791A 1998-08-12 1999-01-29 情報処理装置および方法、並びに提供媒体 Withdrawn JP2000122992A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP11021791A JP2000122992A (ja) 1998-08-12 1999-01-29 情報処理装置および方法、並びに提供媒体
PCT/JP1999/004306 WO2000010098A1 (fr) 1998-08-12 1999-08-09 Machine de traitement des donnees, technique de traitement des donnees et support correspondant

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP10-227951 1998-08-12
JP22795198 1998-08-12
JP11021791A JP2000122992A (ja) 1998-08-12 1999-01-29 情報処理装置および方法、並びに提供媒体

Publications (1)

Publication Number Publication Date
JP2000122992A true JP2000122992A (ja) 2000-04-28

Family

ID=26358892

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11021791A Withdrawn JP2000122992A (ja) 1998-08-12 1999-01-29 情報処理装置および方法、並びに提供媒体

Country Status (2)

Country Link
JP (1) JP2000122992A (ja)
WO (1) WO2000010098A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002059384A (ja) * 2000-08-22 2002-02-26 Sony Corp ロボットのための学習システム及び学習方法
JP2006268812A (ja) * 2005-02-23 2006-10-05 Sony Corp 学習制御装置および学習制御方法、並びに、プログラム
JP2016196079A (ja) * 2015-04-02 2016-11-24 ホンダ リサーチ インスティテュート ヨーロッパ ゲーエムベーハーHonda Research Institute Europe GmbH ロボットの動作を改善する方法
JP2020126646A (ja) * 2019-01-31 2020-08-20 株式会社ストラドビジョンStradvision,Inc. 人の走行データをトレーニングデータとして利用して、強化学習を支援することによりカスタマイズ型経路プランニングを遂行する学習方法及び学習装置
JP7436652B2 (ja) 2020-12-29 2024-02-21 イニージ 自動学習基盤時系列データ予測及び制御方法と装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3191836B2 (ja) * 1993-05-12 2001-07-23 株式会社安川電機 学習制御装置
JP3260538B2 (ja) * 1994-03-04 2002-02-25 株式会社東芝 制御装置
US5608843A (en) * 1994-08-01 1997-03-04 The United States Of America As Represented By The Secretary Of The Air Force Learning controller with advantage updating algorithm
JPH09245012A (ja) * 1996-03-08 1997-09-19 Mitsubishi Electric Corp 学習制御方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002059384A (ja) * 2000-08-22 2002-02-26 Sony Corp ロボットのための学習システム及び学習方法
JP2006268812A (ja) * 2005-02-23 2006-10-05 Sony Corp 学習制御装置および学習制御方法、並びに、プログラム
JP4525477B2 (ja) * 2005-02-23 2010-08-18 ソニー株式会社 学習制御装置および学習制御方法、並びに、プログラム
JP2016196079A (ja) * 2015-04-02 2016-11-24 ホンダ リサーチ インスティテュート ヨーロッパ ゲーエムベーハーHonda Research Institute Europe GmbH ロボットの動作を改善する方法
JP2020126646A (ja) * 2019-01-31 2020-08-20 株式会社ストラドビジョンStradvision,Inc. 人の走行データをトレーニングデータとして利用して、強化学習を支援することによりカスタマイズ型経路プランニングを遂行する学習方法及び学習装置
JP7436652B2 (ja) 2020-12-29 2024-02-21 イニージ 自動学習基盤時系列データ予測及び制御方法と装置

Also Published As

Publication number Publication date
WO2000010098A1 (fr) 2000-02-24

Similar Documents

Publication Publication Date Title
US7082421B2 (en) Information processing apparatus and method, and recording medium
Van Baar et al. Sim-to-real transfer learning using robustified controllers in robotic tasks involving complex dynamics
JP2005199403A (ja) 情動認識装置及び方法、ロボット装置の情動認識方法、ロボット装置の学習方法、並びにロボット装置
JP2005115654A (ja) 情報処理装置および方法、プログラム格納媒体、並びにプログラム
JP2000122992A (ja) 情報処理装置および方法、並びに提供媒体
Ishihara et al. Empirical study of future image prediction for image-based mobile robot navigation
US6792413B2 (en) Data processing apparatus and method, recording medium, and program
Ramachandruni et al. Attentive task-net: Self supervised task-attention network for imitation learning using video demonstration
Olmer et al. Evolving realtime behavioral modules for a robot with GP
JP4773680B2 (ja) 情報処理装置および方法、プログラム記録媒体、並びにプログラム
Johnson et al. Hierarchies of coupled inverse and forward models for abstraction in robot action planning, recognition and imitation
EP0496108A2 (en) Method and apparatus for recognition of a moving object
US7324980B2 (en) Information processing apparatus and method
Duraisamy et al. Real-time implementation of deep reinforcement learning controller for speed tracking of robotic fish through data-assisted modeling
Datteri et al. Expected perception in robots: a biologically driven perception-action scheme
CN112348843A (zh) 调整深度图像预测模型的方法、装置和电子设备
Khadhouri et al. Compound effects of top-down and bottom-up influences on visual attention during action recognition
JP2002133390A (ja) 学習装置および記録媒体
JP2606317B2 (ja) 学習処理装置
Pezzulo et al. Toward a perceptual symbol system
Lawson et al. Sigma-Delta Networks for Robot Arm Control
Liu et al. AUV Adaptive PID Control Method Based on Deep Reinforcement Learning
Murata et al. Looking Back and Ahead: Adaptation and Planning by Gradient Descent
Maeda et al. View-based programming with reinforcement learning for robotic manipulation
Noda et al. Dynamic generation and switching of object handling behaviors by a humanoid robot using a recurrent neural network model

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20060404