JP4699598B2 - 問題解決器として動作するデータ処理装置、及び記憶媒体 - Google Patents
問題解決器として動作するデータ処理装置、及び記憶媒体 Download PDFInfo
- Publication number
- JP4699598B2 JP4699598B2 JP2000352343A JP2000352343A JP4699598B2 JP 4699598 B2 JP4699598 B2 JP 4699598B2 JP 2000352343 A JP2000352343 A JP 2000352343A JP 2000352343 A JP2000352343 A JP 2000352343A JP 4699598 B2 JP4699598 B2 JP 4699598B2
- Authority
- JP
- Japan
- Prior art keywords
- state
- action
- distance
- cognitive
- cognitive distance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012545 processing Methods 0.000 title claims description 22
- 230000009471 action Effects 0.000 claims description 236
- 230000001149 cognitive effect Effects 0.000 claims description 181
- 239000013598 vector Substances 0.000 claims description 98
- 230000033001 locomotion Effects 0.000 claims description 20
- 230000011218 segmentation Effects 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 15
- 230000008859 change Effects 0.000 claims description 13
- 238000012423 maintenance Methods 0.000 claims 1
- 238000000034 method Methods 0.000 description 46
- 230000008569 process Effects 0.000 description 32
- 230000006870 function Effects 0.000 description 24
- 239000000872 buffer Substances 0.000 description 19
- 230000006399 behavior Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 15
- 230000002787 reinforcement Effects 0.000 description 9
- 230000004044 response Effects 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000009087 cell motility Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000009474 immediate action Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/40—Robotics, robotics mapping to robotics vision
- G05B2219/40465—Criteria is lowest cost function, minimum work path
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Automation & Control Theory (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Feedback Control In General (AREA)
Description
【発明の属する技術分野】
本発明は、データ処理装置に関し、更に詳しくは、ある問題により定義される状態空間中で初期状態と目標状態とが与えられたときに初期状態から目標状態に至るまでの行動系列を生成する問題解決器に関する。
【0002】
【従来の技術】
ある問題により定義される状態空間中で初期状態と目標状態が与えられたときに、初期状態から目標状態に至るまでの行動系列を生成する問題解決器として、一般問題解決器(GPS:General Problem Solver)がよく知られている。
【0003】
GPSは、図17に示すように、ある状態state(t)に対して行動action(t)を適用した(すなわち、行動を起こした)場合に到達する状態state(t+1)を予測するモデル(このモデルは世界モデルあるいはフォワードモデルなどと呼ばれている)を有している。
【0004】
GPSによる行動系列の生成では、問題により定義される状態空間中で、まず初期状態と目標状態との差異が取り出される。そして、その差異を減少させるような行動(オペレータ)が選択される。
【0005】
ここで、そのオペレータが適用されること、つまりそのオペレータの適用条件が満たされることを次の副目標とし、以降、差異の検出とオペレータの選択とが繰り返される。その結果、差異がなくなったときに、初期状態から目標状態に至るまでのオペレータの系列、すなわちプランが得られる。そして最後にこのプランが実行される。
【0006】
上述したモデルを用いた行動系列の生成(古典的プランニングなどとも呼ばれている)は、行動実行時の計算量が多量になる(計算コストが大きい)という問題点を抱えている。
【0007】
一方で、図18に示すように、ある状態state(t)(以下、「s(t)」と略す)から直接に行動action(t)(以下、「a(t)」と略す)を導くようにして、実時間動作を必要とするシステムへの適用を可能にした即応的行動決定(リアクティブプランニング)がある。これは、行動実行時の計算コストは小さいものの、目標状態の変更に対して行動を変化させることができないため、柔軟性に乏しいという問題がある。
【0008】
この問題を克服する技術として目標状態を報酬(または効用)として表現し、実行すべき行動系列の途中の予測評価を用いることで、目標状態の変更に対し、実行すべき行動を学習によって変化させる技法である強化学習というものがある。
【0009】
強化学習の代表的なアルゴリズムであるQ学習は、状態s(t)から行動a(t+1)へのマッピングを外界から得られる報酬に基づいて変更する。図19に(a)として示すように、Q学習においては、状態s(t)における行動a(t+1)に対応する予測報酬としてのQ値であるQ(s(t)+a(t))をQモジュールが見積もり、そのQ値の大きい(予測報酬の高い)行動a(t+1)を優先的に選択するようにすることで合理的な行動選択が行なわれる。
【0010】
また、強化学習のもうひとつの有名なモデルであるActor-Criticモデルでは、図19に(b)として示すCriticモジュールが状態s(t)により決定される予測報酬としてのV値であるvalue(s(t))を見積もり、ここから得られる予測報酬の誤差に基づいて実行すべき行動の選択確率をActor モジュールが変化させるというものである。
【0011】
以上のような仕組みにより、いずれの強化学習モデルにおいても行動実行時には迅速な行動決定が行なえる。
なお、プランニングについては、例えば、Russel, S. J. & Norvig, P. : Artifical Intelligence: Modern Approach, Prentice-Hall International, Inc. (邦訳:エージェントアプローチ 人工知能、共立出版)に詳細に説明されており、強化学習については、例えば、Kaelbling, L. P., Littman, M. L., & Moore, A. W. : Reinforcement Learning: A Survey, J. Artifical Intelligence Reserch, Vol.4, pp237-285(1996)に詳細に説明されている。
【0012】
【発明が解決しようとする課題】
上述したように、古典的プランニングは行動実行時の計算のコストが大きい問題を有していた。
【0013】
また、即応的行動決定は、古典的プランニングよりも行動実行時の計算コストを低減させることができるものの、目標状態の変更に対して行動を変化させることができないため、柔軟性に乏しいという問題を有していた。
【0014】
更に、強化学習については、目標状態の変更に対して行動を変化させることが一応可能ではあるものの、目標状態が変更されたときにはそれまでの学習結果は基本的には再利用できないので学習をやり直す必要がある。ところが、特定された目標状態に対する学習に要する学習量(学習コスト)は多大であるので、結果的に目標状態を変更することの許容される場合は限られてしまうため、柔軟性の確保は不十分であった。
【0015】
以上の問題を鑑み、行動実行時の計算コストを低く抑えつつ、目標状態の変更に対する柔軟性を確保する問題解決器を提供することが本発明が解決しようとする課題である。
【0016】
【課題を解決するための手段】
図1は本発明の原理構成図であり、(a)は本発明に係る問題解決器の第一の構成を、(b)は本発明に係る問題解決器の第二の構成を、それぞれ示している。
【0017】
同図(a)及び(b)にそれぞれ示す本発明に係る問題解決器(1a、1b)は、どちらも、ある問題により定義される状態空間中で初期状態と目標状態とが与えられたときに該初期状態から該目標状態に至るまでの行動系列を生成するものである。
【0018】
同図(a)及び(b)にそれぞれ示す、認知距離学習手段(2a、2b)は、どちらも、上述した状態空間中における任意の状態から上述した目標状態に到達するまでの行動系列の実行によって費やされる、該状態空間の環境に対して作用させるコストを示す認知距離を学習するものである。なお、この認知距離は、状態空間中における任意の2つの状態に対応して得られる値であり、2つの状態の単なる物理的な隔たりの大きさを示す値(すなわち距離)を具体例のひとつに挙げることができるが、これに限定されるものではない。
【0019】
同図(a)に示す次行動決定手段3aは、認知距離学習手段(2a)による認知距離の学習結果に基づいて、上述した行動系列に属することとなる行動であって、目標状態に至るために上述した状態空間中の特定の状態において次に実行すべき該行動である次行動を決定するものである。
【0020】
この次行動の決定については、例えば、問題解決器1aが状態空間中における任意の状態において実行し得る次の行動を提示する行動提示手段を更に有し、次行動決定手段3aが、この行動提示手段により提示される行動のうち、該行動を行なったときに到達する状態から目標状態までの認知距離が少なくなるものを選択するようにするとよい。
【0021】
また、同図(b)に示す次状態決定手段3bは、認知距離学習手段(2a)による認知距離の学習結果に基づいて、上述した行動系列に属することとなる行動であって、目標状態に至るために上述した状態空間中の特定の状態において次に実行すべき該行動を実行することによって到達する状態である次状態を決定するものである。
【0022】
この次状態の決定については、例えば、問題解決器1bが状態空間中における任意の状態において実行し得る次の行動を実行することによって到達する状態を提示する状態提示手段を更に有し、次状態決定手段3bが、この状態提示手段により提示される状態のうち、該状態から目標状態までの認知距離が少なくなるものを選択するようにするとよい。
【0023】
本発明は、上述したような図1(a)若しくは図1(b)に示す構成を有することによって、認知距離学習手段(2a、2b)において状態空間中における任意の状態から目標状態までの認知距離の学習が行なわれ、そしてこの認知距離の学習結果に基づいて行動系列の生成が行なわれる。この認知距離は、強化学習における予測評価と異なり、学習中に目標状態が変更するとその変更が学習結果に直ちに反映される。しかも、次行動決定手段3aによる次行動の決定、及び次状態決定手段3bによる次状態の決定は、認知距離学習手段(2a、2b)の学習結果である認知距離の単純な大小判断によって行なうことができる。従って行動実行時の計算コストは低く抑えられ、且つ、目標状態の変更に対する柔軟性が確保される。
【0024】
なお、図1(a)(若しくは(b))に示す構成において、認知距離学習手段2a(若しくは2b)が、学習結果である認知距離を保持し、次行動決定手段3a(若しくは次状態決定手段3b)が、認知距離学習手段2a(若しくは2b)に保持されている認知距離の学習結果に基づいて次行動(次状態)を決定し、認知距離学習手段2a(若しくは2b)が、同一の状態間についての認知距離を再度学習したときには、保持している認知距離を更新するように構成してもよく、この構成によれば、行動実行時の経験をも学習に反映させることができ、目標状態の変更に対する柔軟性が更に向上する。
【0025】
また、図1(b)に示す構成において、状態空間中の状態が属する範囲であって、認知距離学習手段2bによって認知距離を学習することの可能な状態が属する該範囲を、該状態空間を階層化した上位の状態空間におけるひとつの状態に対応付ける分節化手段と、該上位の状態空間における状態を、該状態に対応する下位の状態空間の範囲に属し、該範囲を代表する状態であるランドマークに対応付けるランドマーク位置手段と、該上位の状態空間中における任意の状態から、該分節化手段によって該目標状態に対応付けられた該上位の状態空間における目標状態に到達するまでの該認知距離を学習する上位認知距離学習手段と、該上位認知距離学習手段による該上位の状態空間中における認知距離の学習結果に基づいて、該分節化手段によって該目標状態に対応付けられた該上位の状態空間における目標状態に至るために、該分節化手段によって該下位の状態空間中の特定の状態に対応付けられた該上位の状態空間における特定の状態において次に実行すべき該行動を実行することによって到達する該上位の状態空間における該次状態を決定する上位次状態決定手段と、を問題解決器1bが更に有し、認知距離学習手段2bが、該下位の状態空間についての該認知距離を学習し、次状態決定手段3bが、認知距離学習手段2bによる該下位の状態空間についての認知距離の学習結果に基づいて、該ランドマーク位置手段によって該上位の状態空間における次状態に対応付けられているランドマークに至るために該下位の状態空間中の特定の状態において次に実行すべき該行動を実行することによって到達する該次状態を決定するように構成してもよく、この構成によれば、認知距離の学習結果の保持量を制限しつつ、状態空間中で遠く離れた状態間での行動決定が行なえるようになる。
【0026】
なお、上述した本発明に係る問題解決器(1a、1b)の備える各構成により行なわれる機能と同様の制御をコンピュータに行なわせる制御プログラムを記憶したコンピュータ読み取り可能な記憶媒体から、その制御プログラムをコンピュータに読み出させて実行させることによっても、前述した課題を解決することができる。
【0027】
【発明の実施の形態】
以下、本発明の実施の形態を図面に基づいて説明する。なお、ここでは、本発明を実施する問題解決器に図2に示す問題を解決させる場合を例にして説明する。
【0028】
図2に示す問題は、移動ロボットのナビゲーションタスクである。同図に示されている問題は、移動ロボット10がゴール11に到達する経路を求めるというものである。ここで、移動ロボット10は、同図に示すフィールド12のマス目のどこに自分が現在位置しているかを示す情報(例えば2次元の座標情報)を得ることができるものとし、更に、このフィールド12のマス目間を上下左右に1マスずつ移動することができるものとする。但し、フィールド12の四方を取り囲む壁13にぶつかっているときには、移動ロボット10はその壁13の方向への移動は行なえないものとする。
【0029】
まず、図3について説明する。同図は、Q学習を用いた問題解決器と、本発明に係る、認知距離に基づく問題解決器との構成を比較する図である。なお、同図においては、図4に示すように、現在の状態s(t)と、その状態において行なう行動a(t+1)とをペアとするベクトルが取り扱われる。
【0030】
図3に(a)として示しているQ学習を用いた問題解決器について先に説明する。
同図に示している問題解決器20は、行動モデル生成部21、Qモジュール22、及び選択器23を備えて構成されており、現在の状態s(t)とその状態において試行した行動a(t+1)とに応じて与えられる報酬(reward)を、問題が定義されている状態空間24から受け取ることで学習を繰り返し、十分な学習を終えた後には、現在の状態s(t)において次に行なう適切な行動a(t+1)を迅速に出力できるようになるというものである。
【0031】
行動モデル生成部21は、現在の状態s(t)におけるとり得る行動の一覧(行動リスト)を生成して出力する。図2の問題例で説明すれば、移動ロボット10の現在の位置において可能な行動(フィールド12における1マス移動)の一覧を生成し、行動リストとして出力する。
【0032】
Qモジュール22は、状態空間24から入力される現在の状態s(t)と学習中に状態空間24から入力される報酬(reward)とに基づいて、その状態において実行し得る行動a(t+1)に対して期待される報酬を算定する。
【0033】
図2の問題例で説明すれば、移動ロボット10は、学習時にはフィールド12上の様々なマスにおいて実際に上下左右への1マスの移動を実行する。このとき、この移動の実行によって移動ロボット10がゴール11に到達したときのみ報酬が与えられる(他の状態では報酬が無い)ようにしておく。この報酬は即時評価と呼ばれている。Qモジュール22は、この報酬と、この報酬を得たときの移動ロボット10のフィールド12上の直前の位置(状態)及びその位置で実行された移動(行動)の内容とに基づいて、フィールド12上の各位置で実行する各移動行動に対して期待される報酬(この期待される報酬の期待値は遅延評価と呼ばれている)をQ値として見積もり、この結果をQ値リストとして出力する。Qモジュール22は、十分な学習を行なうことによってこの見積もりの確度を向上させる。
【0034】
Qモジュール22によって行なわれる学習処理の手順を示すフローチャートを図5に示し、同図に従ってその手順を説明する。図2の問題例で説明すれば、この学習処理は、学習中に移動ロボット10がフィールド12上を移動する度に行なわれる。
【0035】
まず、現在の状態s(t)及びこの状態における報酬rが状態空間24から、また前述した行動リストLaが行動モデル生成部21から、それぞれ取得され、更に、この状態sに至った直前の行動a(t)、すなわち、問題解決器20による直前の出力も取得される(S101)。
【0036】
続いて、行動リストLaから現在の状態s(t)において行ない得る行動aがひとつ取得される(S102)。そして、この行動aを実行したときに到達する状態s(t+1)が求められる(S103)。
【0037】
ここで、Qモジュール22の内部に設けられているハッシュテーブルが参照され、s(t+1)+aなるベクトルをキーとしたときにそのキーに対応付けられているQ値q(t+1)が取得される(S104)。なお、このハッシュテーブルにおけるQ値の初期値は全てゼロ(ヌル)であるが、後述する処理ステップの作用によってQ値が更新される。
【0038】
その後、前ステップの処理によって取得されたQ値q(t+1)が、Qモジュール22の出力情報である前述したQ値リストLqに追加される(S105)。
ここで、行動リストLaに含まれている全ての行動aの要素について、上述したS103からS105にかけての処理が実行されたか否かが判定され(S106)、この判定結果がNoならばS102へ戻って上述した処理が繰り返される。
【0039】
一方、S106の判定結果がYesであった場合には、Q値リストLqが参照され、そこからQ値q(t+1)の最大値maxQが求められる(S107)。更に、前述したハッシュテーブルが参照され、そこからs(t)+a(t+1)なるベクトルをキーとしたときに対応するQ値q(t)が取得される(S108)。
【0040】
ここで、前ステップの処理によって得られた値に基づき、ハッシュテーブルに示されているQ値q(t)が下記の式に従って更新される(S109)。
q(t)+α(r+γmaxQ−q(t))→q(t)
上式はQ学習における基本的なQ値の更新式であり、良く知られている。なお、上式において、γ(0≦γ<1)は割引率と呼ばれ、ある状態の次の状態において獲得される将来の報酬を、現在の状態においてはどの程度割り引いて評価するかを決めるために用いられる。また、α(0<α≦1)は学習率と呼ばれ、学習中における1回毎の試行の結果を学習結果へどの程度反映させるかを決定するために用いられる。
【0041】
Qモジュール22は、問題解決器20の学習時には上述した処理が行なわれる。
次に図6について説明する。同図は十分な学習が行なわれた後にQモジュール22によって行なわれる処理の手順を示すフローチャートである。
【0042】
まず、現在の状態s(t)が状態空間24から、また前述した行動リストLaが行動モデル生成部21から、それぞれ取得される(S201)。
続いて、行動リストLaから現在の状態s(t)において行ない得る行動aがひとつ取得される(S202)。
【0043】
ここで、Qモジュール22の内部に設けられている前述したハッシュテーブルが参照され、そこからs (t)+aなるベクトルをキーとしたときに対応するQ値q(t)が取得される(S203)。
【0044】
その後、前ステップの処理によって取得されたQ値q(t)が、Qモジュール22の出力情報である前述したQ値リストLqに追加される(S204)。
ここで、行動リストLaに含まれている全ての行動aの要素について、上述したS203及びS204の処理が実行されたか否かが判定され(S205)、この判定結果がNoならばS202へ戻って上述した処理が繰り返される。
【0045】
一方、S205の判定結果がYesであった場合にはQ値リストLqが選択器23へと出力される(S206)。
以上のように、Qモジュール22は、十分な学習が行なわれた後には、現在の状態s(t)に対応するQ値リストLqを直ぐに作成し出力することができるようになる。
【0046】
図3(a)の説明に戻る。
選択器23は、十分な学習を行なったQモジュール22から出力されるQ値リストに基づいて、期待される報酬の最も高い(遅延評価の最も良い)行動を行動モデル生成部21から出力される行動リストより選択し、その選択結果を行動a(t+1)として出力する。図2の問題例で説明すれば、移動ロボット10のフィールド12上の現在の位置において可能な1マス行動のうち、ゴール11へ到達できる期待が最も高くなるものを選択することになり、そのマスに移動ロボット10を移動させる指示が出力される。
【0047】
問題解決器20の各構成要素が以上のように動作することによって、ある状態とその状態において行なう行動に対するQ値の学習が行なわれ、行動実行時にはこの学習結果に基づいた適切な行動の選択が迅速に行なわれるようになる。但し、図2に示す問題においては得られる報酬とゴール11の位置との間に依存性があるために、この問題においてゴール11が移動する場合には、それまでのQ値の学習結果を再利用できず、再学習が必要となってしまう。
【0048】
次に、図3に(b)として示している、本発明に係る認知距離に基づく問題解決器について説明する。
この図に示す問題解決器30は、基本的には(a)に示したQ学習を用いた問題解決器20に設けられているQモジュール22が認知距離モジュール32に置き換えられ、更に状態−行動バッファ35が追加されて構成されている。そして、与えられる現在の自己の状態s(t)と到達すべき目標状態を示す“goal(状態+行動)" ベクトルとを、問題により定義されている状態空間34から受け取るという試行を繰り返し、十分な試行が行なわれるにつれて、現在の自己の状態s(t)及び到達すべき目標状態ベクトルgoal(状態+行動)の入力に対し、次に行なう適切な行動a(t+1)が迅速に出力できるようになるというものである。
【0049】
行動モデル生成部31は、図3(a)の行動モデル生成部21と同様に、現在の状態s(t)におけるとり得る行動の一覧(行動リスト)を生成して出力する。
【0050】
認知距離モジュール32は、十分な学習を終えた後には、図7に示すように、移動元である“from(状態+行動)”ベクトルと移動先である“to(状態+行動)”ベクトルとの2つのベクトルの入力に応じ、fromベクトルからtoベクトルへのベクトル間の移動に要する距離(distance)を出力するものである。この距離が認知距離(Cognitive Distance)である。
【0051】
図3(b)では、認知距離モジュール32は、センサ入力Aに入力される状態空間34の現在の状態s (t)、及びセンサ入力Bに入力される到達すべき状態空間34中の目標状態goal(state+action)に基づいて、状態s(t)とその状態において実行し得る行動a(t+1)とよりなるベクトルから目標状態を示すベクトルへの移動に要する距離を算出し、距離リストとして出力する。また、算出された距離の値はテーブルにして蓄積する。
【0052】
図2の問題例で説明すれば、認知距離モジュール32は、移動ロボット10のフィールド12の現在の位置とゴール11の位置及びその行動の状況とに基づいて、移動ロボット10のフィールド12の現在の位置において実行し得る移動と、その移動の結果の移動ロボット10−ゴール11間の認知距離(移動に要するマスの数)との関係を示す距離リストを生成して出力する。
【0053】
選択器33は、認知距離モジュール32から出力される距離リストに基づいて、認知距離が最も短くなる行動を行動モデル生成部21から出力される行動リストより選択し、その選択結果を行動a(t+1)として出力する。図2の問題例で説明すれば、移動ロボット10のフィールド12上の現在の位置において可能な1マス移動のうち、ゴール11との距離が最も短くなるものを選択することになり、そのマスに移動ロボット10を移動させる指示を出力する。
【0054】
また、認知距離と行動の選択確率とを対応させるようにして、認知距離が短くなる行動ほど高い確率で選択されるように選択器33を構成してもよい。
状態−行動バッファ35は、状態s(t)において行なった行動a(t+1)の過去の経験を保持するバッファであり、状態s(t)と、その状態において行なった行動a(t+1)とをペアとするベクトルを保持する。なお、状態−行動バッファ35のサイズは有限とし、保持量を超えたときには、新規のベクトルを、保持されている最古のベクトルと入れ替えて保持するようにする。
【0055】
認知距離モジュール32は状態−行動バッファ35を参照し、距離の導出の対象である状態ととり得る行動とのペアのベクトルが状態−行動バッファ35に既に保持されているときには、認知距離モジュール32が蓄積している距離のテーブルを参照し、そこに示されているそのベクトルに対応する距離と今回改めて導出した距離とを比較し、改めて導出した距離の方が短いのであればその距離テーブルを更新して距離の値を改めて導出したものに変更する。この距離テーブルの更新を行なうことによって、それまでになされた試行に基づく学習結果が修正されるので、目標状態の変化への対応が柔軟に行なわれる。
【0056】
ここで図8について説明する。同図は、図7に示す入出力関係を有する認知距離モジュール32において行なわれる、学習処理の手順を示すフローチャートである。この学習処理は、状態空間における状態+行動を特定する、前述したfromベクトル(fベクトルと略す)とtoベクトル(tベクトルと略す)との2つの任意のベクトル間の距離の学習を行なうものである。この学習処理は、fベクトル若しくはtベクトルが変化する度に行なわれる。
【0057】
まず、fベクトル及びtベクトルが取得され、更に、両ベクトルで示される状態間の距離dが両ベクトルに基づいて求められる(S301)。
ここで、fベクトル及びtベクトルからハッシュコードであるベクターキーvが作成される(S302)。
【0058】
ここで、fベクトルとtベクトルとが一致するか否かが判定される(S303)。判定結果がYesならば距離が代入される変数Dに値「0」が代入され(S304)、その後はS309に進む。
【0059】
一方、S303の判定処理の結果がNoならば、認知距離モジュール32の内部に設けられているハッシュテーブルが参照され、ベクターキーvをキーとしたときにそのキーに対応付けられている距離が取得され、上述した変数Dに代入される(S305)。
【0060】
ここで、この変数Dの値がヌルであるか否か、すなわち、上述したハッシュテーブルにおいてベクターキーvに対応付けられている値が空であるか否かが判定され(S306)、この判定結果がNoならば変数Dの値がS301の処理によって取得されていた距離dの値よりも大きいか否かが更に判定され(S307)、この判定結果がNoならばこの学習処理が終了する。
【0061】
ところで、上述したS306若しくはS307のいずれかの判定処理での判定結果がYesであったときには、S301の処理によって取得されていた距離dの値を変数Dに代入する(S308)。
【0062】
その後、上述したハッシュテーブルが参照され、上述したベクターキーvに対応付けられている値が変数Dの現在の値に更新される(S309)。この判定結果がNoならばこの学習処理が終了する。
【0063】
認知距離モジュール32では、以上のようにして学習処理が行なわれる。
なお、図3(b)に示す問題解決器30においては、上述した学習処理は、認知距離モジュール32と状態−行動バッファ35との組み合わせにより実行される。
【0064】
すなわち、学習時には、認知距離モジュール32には、目標状態を示すベクトルgoal(state+action)とが状態空間34から入力され、このベクトルは上述したtベクトルとして扱われる。その一方で、現在の自己の状態s(t)と、この状態sにおける学習行動において実際に試行された移動行動a(t+1)とが状態−行動バッファ35に入力されてfベクトルが生成され、認知距離モジュール32に入力される。更に、状態−行動バッファ35の履歴が参照されて同一のfベクトルの存在の有無が調べられ、存在するのであれば、ハッシュテーブルに示されている距離と上述した距離dとの長短が判定され、ハッシュテーブルにおいてfベクトルに対応するデータがその判定結果における短い方の距離の値となるようにハッシュテーブルが更新される。なお、このときのハッシュテーブルのサイズ(記憶容量)は状態−行動バッファ35のサイズに対応して設定される。
【0065】
次に図9について説明する。同図は、十分な学習が行なわれた後に図3(b)に設けられている認知距離モジュール32によって行なわれる処理の手順を示すフローチャートである。
【0066】
まず、現在の自己の状態sと目標状態を示すベクトルgoal(state+action)(gベクトルと略す)とが状態空間34から、また前述した行動リストLaが行動モデル生成部31からそれぞれ取得される(S401)。
【0067】
続いて、行動リストLaから現在の状態sにおいて行ない得る行動aがひとつ取得される(S402)。
ここで、状態sと行動aとからなるベクトル及びgベクトルから、前述した学習処理で用いた認知距離モジュール32内のハッシュテーブルを参照するためのハッシュコードであるベクターキーvが作成される (S403)。そして、そのハッシュテーブルが参照され、ベクターキーvをキーとしたときにそのキーに対応付けられている距離dが取得される(S404)。
【0068】
その後、前ステップの処理によって取得された距離dが、認知距離モジュール32の出力情報である前述した距離リストLdに追加される(S405)。
ここで、行動リストLaに含まれている全ての行動aの要素について、上述したS403からS405にかけての処理が実行されたか否かが判定され(S406)、この判定結果がNoならばS402へ戻って上述した処理が繰り返される。
【0069】
一方、S406の判定結果がYesであった場合には距離リストLdが選択器23へと出力される(S407)。
以上のように、認知距離モジュール32は、十分な学習が行なわれた後には、現在の状態sに対応する距離リストLdを直ぐに作成して出力することができるようになる。
【0070】
以下の説明においては、以上までに説明した、図3(b)に示す問題解決器30を「第一実施例における問題解決器」と称することとする。
今までに説明した第一実施例における問題解決器では、問題により定義される状態空間における状態とそこで実行される行動とは区別して扱っていた。以降の説明においては、状態と行動とを区別しない一つの状態として扱うようにし、図10に示すように、同一時刻tにおける状態s(t)と行動a(t)(状態s(t)に至るために実行された行動)とを纏めたひとつの一般化状態Sa(t)を定義し、この一般化状態に対応する一般化認知距離に基づいた問題解決器を第二実施例として説明する。
【0071】
図11は一般化認知距離に基づいた問題解決器の構成を示している。なお、同図に示す第二実施例の構成においては、第一実施例とは異なり、図12に示すように、現在の状態s(t)と、その状態に至るために実行される行動a(t)とをペアとするベクトルが取り扱われる。
【0072】
図11に示す問題解決器40は、移動可能状態モデル生成部41、一般化認知距離モジュール42、選択器43、及び状態バッファ45を備えて構成されており、問題により定義されている状態空間44から、現在の一般化状態Sa(t)[=s(t)+a(t)]と、到達すべき目標状態である一般化状態G(t)とを受け取るという試行を繰り返し、十分な試行が行なわれるにつれて、現在の自己の一般化状態Sa(t)及び到達すべき目標状態であるG(t)の入力に対し、次に行なう適切な行動を成分に含む一般化状態であるサブゴールSG(t)=Sa(t+1)[=s(t+1)+a(t+1)]が迅速に出力できるようになるというものである。
【0073】
状態バッファ45は、この問題解決器40に入力された一般化状態Sa(t)の履歴の保持、すなわち、状態s(t)に至った行動a(t)の経験を蓄えるものであり、図3(b)に示した状態−行動バッファ35と同様の構成・機能を有するものである。
【0074】
移動可能状態モデル生成部41は、現在の一般化状態Sa(t)から直接遷移(移動)可能な一般化状態の一覧(移動可能状態リスト)を生成して出力するものであり、図17に示した従来の世界モデル(フォワードモデル)を一般化状態のフレームワークに適合させたモジュールと考えることができる。移動可能状態モデル生成部41は、状態バッファ45の履歴を参照して実際に試行された移動の経験を蓄積する学習を行なうことによって、移動可能状態リストの生成が行なえるようになる。
【0075】
移動可能状態モデル生成部41において行なわれる、この学習処理の手順を示すフローチャートを図13に示す。この学習処理は、状態空間におけるある一般化状態を特定するfromベクトル(fベクトルと略す)とtoベクトル(tベクトルと略す)との2つの任意のベクトルにおいて、fベクトルからtベクトルへの行動が直接可能であることが学習処理における試行によって判明したときに、その経験を蓄積していく処理である。
【0076】
まず、fベクトル及びtベクトルが取得され(S501)、このうちのfベクトルをキーにして移動可能状態モデル生成部41の内部に設けられているハッシュテーブルが参照され、fベクトルをキーとしたときにそのキーに対応付けられているリストl(過去の経験によってfベクトルから直接移動可能であることが判明した状態を示すベクトルが格納されるリスト)が取得される(S502)。
【0077】
ここで、取得されたリストlがヌルであるか否か、すなわち、リストlが存在しないか否かが判定され (S503)、この判定結果がNoである場合にのみ、その内容にtベクトルを含むリストlが作成され (S504)、fベクトルのキーに対応付けられて上述したハッシュテーブルに登録される(S505)。
【0078】
続いて、リストlにtベクトルが含まれているか否かが判定され(S506)、この判定結果がNoの場合にのみ、リストlにtベクトルが追加される(S507)。
【0079】
移動可能状態モデル生成部41では、以上のようにして学習が行なわれる。
なお、図11においては、移動可能状態モデル生成部41には現在の一般化状態Sa(t)が状態空間44から入力され、このSa(t)が上述した学習処理におけるtベクトルとして扱われる。また、Sa(t)の直前の状態Sa(t−1)が状態バッファ45から入力され、このSa(t−1)が上述した学習処理におけるfベクトルとして扱われる。そして、十分な学習が行なわれた後には、状態空間44から入力される般化状態Sa(t)をキーとして上述したハッシュテーブルが参照され、対応するリストlがハッシュテーブルから取り出されて移動可能状態リストとして選択器43に直ちに出力されるようになる。
【0080】
一般化認知距離モジュール42は、移動可能状態モデル生成部41から出力される移動可能状態リストに示されている各一般化状態、及びセンサ入力Bに入力される到達すべき状態空間44中の目標状態の一般化状態G(t)に基づいて、各一般化状態のベクトルから目標状態の一般化状態G(t)ベクトルへの移動に要する距離(一般化認知距離)を算出し、距離リストとして出力するものであり、図3(b)に示した認知距離モジュール32と同様の構成・機能を有するものである。また、この一般化認知距離モジュール42は、距離テーブルの蓄積も同様に行ない、更に、状態バッファ45に基づくこの距離テーブルの更新も同様に行なう。
【0081】
選択器43は、一般化認知距離モジュール42から出力される距離リストに基づいて、認知距離が最も短くなる一般化状態を移動可能状態モデル生成部41から出力される移動可能状態リストより選択し、その選択結果をサブゴールSG(t)として出力するものであり、これも、図3(b)に示した選択器33と同様の構成・機能を有するものである。
【0082】
問題解決器40は、以上のような構成を備えることで、ある一般化状態Sa(t)における、目標状態に到達するための最適なサブゴールSG(t)を迅速に出力することが学習によって可能となる。
【0083】
次に、本発明の第三実施例について説明する。
今まで説明した本発明の第一及び第二実施例の認知距離(あるいは一般化認知距離)に基づく問題解決器には多量の情報の記憶が必要であり、以下のような2つの問題がある。
【0084】
(1)認知距離を保持する組み合わせの爆発
問題により定義される状態空間に存在する一般化状態の状態数をNsとすると、認知距離の組み合わせはO(Ns×Ns)にもなり、状態数の二乗のオーダーで増加してしまう。従って、状態空間が大きくなるときには全ての認知距離についての情報を保持することは現実的でない。
【0085】
なお、この点において、従来のGPSで用いられるオペレータの総数は、各状態で直接移動可能な状態数の平均をmとするならば、その記憶容量は高々O(Ns×m)程度のオーダーであり、また、強化学習でのその記憶容量はO(Ns)程度のオーダーであった。
【0086】
(2)認知距離の保持量の制限に起因する問題
上記(1)の問題を回避するために、認知距離の保持量に最大値θを設けるようにすることが考えられる。こうすれば、O(Ns×(mのθ乗))程度に押さえ込むことができるし、前述した状態バッファ45(図11)による一般化状態の履歴の保持量もθ程度に留めることも可能となり、更に、認知距離の更新処理のための演算量の抑制も可能となるので、有益である。しかしながら、この手法ではある上限以上に離れた状態間での行動決定が行なえなくなってしまうという問題が生じてしまう。
【0087】
上述した問題に対処するために、本発明の第三実施例では一般化状態を用いた問題解決器を階層化する。図14は、階層化された一般化認知距離に基づく問題解決器の構成を示している。なお、同図において、問題解決器50はレイヤ1及びレイヤ2についての構成のみを示しており、レイヤ3以上については、レイヤ1若しくはレイヤ2と同様の構成であるため、描画を略している。
【0088】
同図を既に説明した図11と比較すると分かるように、図14に示す問題解決器50は、基本的には図11に示した問題解決器40を積み重ねたような構成を有している。
【0089】
ここで、一般化状態で示される状態空間の階層化について、図15を用いて説明する。なお、同図の例は、3レイヤ(階層)の構造を示している。
まず、下位レイヤから上位レイヤへの対応を示す関数が定義されると同時に、上位レイヤから下位レイヤのランドマークを取り出す関数が定義される。ここで、ランドマークとは、上位レイヤにおけるある状態に対応する下位レイヤの1以上の状態のうち、それらを代表するひとつの状態を示すものである。
【0090】
なお、ここでは、前者の関数を分節化関数(Segmentation Function )、後者の関数をランドマーク位置関数(Landmark Position Function)と称することとする。
【0091】
例えば、図15において、分節化関数は、レイヤ2であるフィールド60−2上に示されている(a)の範囲を、レイヤ3であるフィールド60−3上にスタート61−3として示されている位置(状態)に集約させるものであり、ランドマーク位置関数は、レイヤ3であるフィールド60−3上に示されている白丸印の位置からレイヤ2であるフィールド60−2上に示されている対応する星印の位置(ランドマーク)に写像するものである。
【0092】
ここで、レイヤ間の関係の理解を容易にするために、以下の2つの性質を定義する。
(1)直接移動可能性
当該レイヤにおいて、現在の状態からある目標の状態へ直接移動できる性質。
つまり、当該レイヤよりも下位のレイヤのみを利用して移動できる性質を示す。
【0093】
(2)到達可能性
当該レイヤにおいて、現在の状態からの行動(何回でも可)によって目標状態へ到達することが可能である性質。図15には、各スタート(61−1、61−2、61−3)から到達可能である各レイヤのフィールド(60−1、60−2、60−3)上の範囲を破線の枠で示している。
【0094】
ある2つのレイヤに注目した場合、下位のレイヤについての問題解決器はある状態の近傍での詳細な移動についての知識を獲得できるが、遠方の目標状態への移動についての知識を獲得することはできない。その一方で、上位のレイヤについての問題解決器は遠方の目標状態への大まかな移動についての知識を獲得することはできるが、詳細な状態遷移の手続についての知識を獲得することはできない。つまり、問題解決器を階層化することによって、下位レイヤの到達可能性が上位レイヤの直接移動可能性に置き換わるのである。
【0095】
例えば、図15において、レイヤ3であるフィールド60−3上において1マス分の距離であり、直接移動可能であるスタート61−3と白印とは、その下位層であるレイヤ2においては、それぞれがスタート61−2と星印とに置き換わり、それらは共にフィールド61−2上の到達可能な範囲内に位置するようになる。つまりそれらはレイヤ2の問題解決器によって認知距離の算出が可能であり、行動系列の生成が可能であることを示している。
【0096】
階層化を利用して一般化状態空間中でスタートからゴールまで移動する経路を求める課題を考える。図15で説明すれば、レイヤ1であるフィールド60−1上において、スタート61−1からゴール62−1までの経路を求める課題を考える。
【0097】
フィールド60−1に示されているように、ゴール62−1は、スタート61−1の到達可能範囲外に位置している。すなわち、レイヤ1の問題解決器のみによる認知距離の算出は不能であり、行動系列の生成は行なえない。
【0098】
そこで、分節化関数を用い、スタート61−1及びゴール62−1をレイヤ2であるフィールド60−2上のスタート61−2及びゴール62−2に抽象化する。しかしながらレイヤ2においてもゴール62−2はスタート61−2の到達可能範囲外である。
【0099】
このため、分節化関数を更に適用し、スタート61−2及びゴール62−2をレイヤ3であるフィールド60−3上のスタート61−3及びゴール62−3に抽象化する。このレイヤ3においては、ゴール62−3はスタート61−2の到達可能範囲内に位置している。そこで、レイヤ3についての問題解決器により具体的な状態の移動の決定がなされてサブゴールが出力される。その後、このサブゴールのランドマーク位置関数による写像であるランドマークが求められ、このランドマークがレイヤ2に送り返される。
【0100】
レイヤ2についての問題解決器では、スタート61−2からこのランドマークに到達するまでの適切な具体的な状態の移動の決定が行なわれ、そのためのサブゴールが出力される。その後、このサブゴールのランドマーク位置関数による写像であるランドマークが更に求められ、このランドマークがレイヤ1に送り返される。
【0101】
レイヤ1についての問題解決器では、スタート61−1からこの送り返されてきたランドマークに到達するまでの適切な具体的な状態の移動の決定が行なわれ、そのためのサブゴールが出力される。この後は、このサブゴールからゴール62−1までの移動経路を求めることとなる。
【0102】
以上のような操作が各レイヤで繰り返されることによって最終的にスタート61−1からゴール62−1までの移動経路を求めることができる。
以下、図14に示した問題解決器50の構成について説明する。
【0103】
問題解決器50において、移動可能状態モデル生成部(41−1、41−2)、一般化認知距離モジュール(42−1、42−2)、選択器(43−1、43−2)、状態バッファ(45−1、45−2)は、各々図11の問題解決器40における同名の構成要素と同様のものである。
【0104】
スイッチャ(51−1、51−2)は、一般化認知モジュール(42−1、42−2)への入力のひとつとして、下位のレイヤ(若しくは状態空間56)から得られるゴールと、下位のレイヤから送り返されてくるサブゴールのランドマークとのどちらかを選択するものである。スイッチャ(51−1、51−2)は、下位レイヤから与えられるゴールを優先的に選択し、まず、一般化認知モジュール(42−1、42−2)による一般化認知距離の生成を試みる。ここで一般化認知距離の生成が行なえなかったときには上位レイヤから送り返されてくるサブゴールのランドマークを選択して一般化認知モジュール(42−1、42−2)に一般化認知距離の生成を行なわせる。
【0105】
ランドマークデータベース(52−1、52−2)は当該レイヤとその当該レイヤに隣接する上位のレイヤとにおける一般化状態の関係情報が格納されているデータベースであり、前述した分節化関数及びランドマーク位置関数を構成する元となるものである。
【0106】
本実施例においては、分節化関数に関し、TLM−SF(To Landmark Segmentation Function )部(53−1、53−2)とFLM−SF(From Landmark Segmentation Function )部(54−1、54−2)という2種類の分節化関数を適用する情報変換部を用意している。
【0107】
TLM−SF部(53−1、53−2)は、ランドマークデータベース(52−1、52−2)に格納されている関係情報に基づいて、下位レイヤのある一般化状態を示す情報が入力されると、その状態から到達可能である当該レイヤの範囲を集約する上位レイヤにおける一般化状態に対応するID(識別データ)を出力するものであり、現在の一般化状態を示す情報の変換に用いられる。
【0108】
FLM−SF部(54−1、54−2)は、ランドマークデータベース(52−1、52−2)に格納されている関係情報に基づいて、下位レイヤのある一般化状態を示す情報が入力されると、その状態に到達可能である当該レイヤの範囲を集約する上位レイヤにおける一般化状態に対応するIDを出力するものであり、目標(ゴール)である一般化状態を示す情報の変換に用いられる。
【0109】
LMPF(Landmark Position Function)部(55−1、55−2)はランドマーク位置関数を適用する情報変換を行なうものであり、上位レイヤのある一般化状態を示す情報が入力されると、その状態に対応する下位レイヤにおける到達可能範囲中の状態であってその範囲を代表するランドマークについての一般化状態を出力するものであり、上位レイヤから送り返されてくるサブゴールの一般化状態を示す情報の変換に用いられる。
【0110】
問題解決器50はこれらの各要素を備えて構成されることで、遠く離れた状態間の行動決定を実現する。
なお、上述した階層化した構成による一般化状態を用いた問題解決器において、認知距離の情報の保持に要する記憶量は、図15を参照しても容易に分かるように、その殆どが最下層のレイヤに関するものとなる。そしてその記憶量は、その最下層のレイヤにおけるある状態から直接移動可能な状態数の平均をmとし、認知距離の保持量の上限をθするならば、O(Ns×(mのθ乗))のオーダーとなる。このように、第三実施例は、認知距離の学習結果の保持量を制限しつつ、遠く離れた状態間での行動決定を可能にしている。
【0111】
なお、以上までに説明した第一、第二、及び第三実施例における問題解決によってなされる行動系列の生成処理をコンピュータに行なわせるための制御プログラムを作成してコンピュータ読み取り可能な記憶媒体に記憶させ、そのプログラムを記憶媒体からコンピュータに読み出させて実行させることにより、本発明に係る問題解決器による行動系列の生成機能を汎用コンピュータに行なわせることも可能である。
【0112】
記憶させた制御プログラムをコンピュータで読み取ることの可能な記憶媒体の例を図16に示す。同図に示すように、記憶媒体としては、例えば、コンピュータ71に内蔵若しくは外付けの付属装置として備えられるROMやハードディスク装置などのメモリ72、フロッピー(登録商標)ディスク、MO(光磁気ディスク)、CD−ROM、DVD−ROMなどといった可搬型記憶媒体73等が利用できる。また、記憶媒体は回線74を介してコンピュータ71と接続されるコンピュータであるプログラムサーバ75が備える記憶装置76であってもよい。この場合には、制御プログラムを表現するデータ信号で搬送波を変調して得られる伝送信号を、プログラムサーバ75から伝送媒体である回線74を通じて伝送し、コンピュータ71では受信した伝送信号を復調して制御プログラムを再生することで当該制御プログラムの実行が可能となる。
(付記1) ある問題により定義される状態空間中で初期状態と目標状態とが与えられたときに該初期状態から該目標状態に至るまでの行動系列を生成する問題解決器であって、
前記状態空間中における任意の第一の状態から該第一の状態とは異なる第二の状態に到達するまでの行動系列の実行によって費やされる、該状態空間の環境に対して作用させるコストを示す認知距離を学習する認知距離学習手段と、
前記認知距離学習手段による認知距離の学習結果に基づいて、前記行動系列に属することとなる行動であって、前記目標状態に至るために前記状態空間中の特定の状態において次に実行すべき該行動を決定する次行動決定手段と、
を有することを特徴とする問題解決器。
【0113】
(付記2) 前記状態空間中における任意の状態において実行し得る次の行動を提示する行動提示手段を更に有し、
前記次行動決定手段は、前記行動提示手段により提示される行動のうち、該行動を行なったときに到達する状態から前記目標状態までの認知距離が少なくなるものを選択する、
ことを特徴とする付記1に記載の問題解決器。
【0114】
(付記3) 前記認知距離学習手段は、学習結果である前記認知距離を保持し、
前記次行動決定手段は、前記認知距離学習手段に保持されている認知距離の学習結果に基づいて前記行動を決定し、
前記認知距離学習手段は、同一の状態間についての認知距離を再度学習したときには、保持されている認知距離を更新する、
ことを特徴とする付記1に記載の問題解決器。
【0115】
(付記4) ある問題により定義される状態空間中で初期状態と目標状態とが与えられたときに該初期状態から該目標状態に至るまでの行動系列を生成する問題解決器であって、
前記状態空間中における任意の第一の状態から該第一の状態とは異なる第二の状態に到達するまでの行動系列の実行によって費やされる、該状態空間の環境に対して作用させるコストを示す認知距離を学習する認知距離学習手段と、
前記認知距離学習手段による認知距離の学習結果に基づいて、前記行動系列に属することとなる行動であって、前記目標状態に至るために前記状態空間中の特定の状態において次に実行すべき該行動を実行することによって到達する状態である次状態を決定する次状態決定手段と、
を有することを特徴とする問題解決器。
【0116】
(付記5) 前記状態空間中における任意の状態において実行し得る次の行動を実行することによって到達する状態を提示する状態提示手段を更に有し、
前記次状態決定手段は、前記状態提示手段により提示される状態のうち、該状態から前記目標状態までの認知距離が少なくなるものを選択する、
ことを特徴とする付記4に記載の問題解決器。
【0117】
(付記6) 前記認知距離学習手段は、学習結果である前記認知距離を保持し、
前記次状態決定手段は、前記認知距離学習手段に保持されている認知距離の学習結果に基づいて前記次状態を決定し、
前記認知距離学習手段は、同一の状態間についての認知距離を再度学習したときには、保持されている認知距離を更新する、
ことを特徴とする付記4に記載の問題解決器。
【0118】
(付記7) 前記状態空間中の状態が属する範囲であって、前記認知距離学習手段によって認知距離を学習することの可能な状態が属する該範囲を、該状態空間を階層化した上位の状態空間におけるひとつの状態に対応付ける分節化手段と、
前記上位の状態空間における状態を、該状態に対応する下位の状態空間の範囲に属し、該範囲を代表する状態であるランドマークに対応付けるランドマーク位置手段と、
前記上位の状態空間中における任意の第一の状態から該第一の状態とは異なる第二の状態に到達するまでの前記認知距離を学習する上位認知距離学習手段と、
前記上位認知距離学習手段による前記上位の状態空間中における認知距離の学習結果に基づいて、前記分節化手段によって前記目標状態に対応付けられた前記上位の状態空間における目標状態に至るために、該分節化手段によって前記下位の状態空間中の特定の状態に対応付けられた該上位の状態空間における特定の状態において次に実行すべき該行動を実行することによって到達する該上位の状態空間における前記次状態を決定する上位次状態決定手段と、
を更に有し、
前記認知距離学習手段は、前記下位の状態空間についての前記認知距離を学習し、
前記次状態決定手段は、前記認知距離学習手段による前記下位の状態空間についての認知距離の学習結果に基づいて、前記ランドマーク位置手段によって前記上位の状態空間における次状態に対応付けられているランドマークに至るために前記下位の状態空間中の特定の状態において次に実行すべき前記行動を実行することによって到達する状態である次状態を決定する、
ことを特徴とする付記4に記載の問題解決器。
【0119】
(付記8) コンピュータに実行させることによって、ある問題により定義される状態空間中で初期状態と目標状態とが与えられたときに該初期状態から該目標状態に至るまでの行動系列を生成させる制御を該コンピュータに行なわせる制御プログラムを記憶した該コンピュータで読み取り可能な記憶媒体であって、
前記状態空間中における任意の第一の状態から該第一の状態とは異なる第二の状態に到達するまでの行動系列の実行によって費やされる、該状態空間の環境に対して作用させるコストを示す認知距離を学習する制御と、
前記認知距離の学習結果に基づいて、前記行動系列に属することとなる行動であって、前記目標状態に至るために前記状態空間中の特定の状態において次に実行すべき該行動を決定する制御と、
をコンピュータに行なわせる制御プログラムを記憶した記憶媒体。
【0120】
(付記9) コンピュータに実行させることによって、ある問題により定義される状態空間中で初期状態と目標状態とが与えられたときに該初期状態から該目標状態に至るまでの行動系列を生成させる制御を該コンピュータに行なわせる制御プログラムを記憶した該コンピュータで読み取り可能な記憶媒体であって、
前記状態空間中における任意の第一の状態から該第一の状態とは異なる第二の状態に到達するまでの行動系列の実行によって費やされる、該状態空間の環境に対して作用させるコストを示す認知距離を学習する制御と、
前記認知距離の学習結果に基づいて、前記行動系列に属することとなる行動であって、前記目標状態に至るために前記状態空間中の特定の状態において次に実行すべき該行動を実行することによって到達する状態である次状態を決定する制御と、
をコンピュータに行なわせる制御プログラムを記憶した記憶媒体。
【0121】
(付記10) コンピュータに実行させることによって、ある問題により定義される状態空間中で初期状態と目標状態とが与えられたときに該初期状態から該目標状態に至るまでの行動系列を生成させる制御を該コンピュータに行なわせる制御プログラムを含む搬送波に具現化されたコンピュータ・データ・シグナルであって、該制御プログラムは以下のステップをコンピュータに実行させる:
前記状態空間中における任意の第一の状態から該第一の状態とは異なる第二の状態に到達するまでの行動系列の実行によって費やされる、該状態空間の環境に対して作用させるコストを示す認知距離を学習し、
前記認知距離の学習結果に基づいて、前記行動系列に属することとなる行動であって、前記目標状態に至るために前記状態空間中の特定の状態において次に実行すべき該行動を決定する。
【0122】
(付記11) コンピュータに実行させることによって、ある問題により定義される状態空間中で初期状態と目標状態とが与えられたときに該初期状態から該目標状態に至るまでの行動系列を生成させる制御を該コンピュータに行なわせる制御プログラムを含む搬送波に具現化されたコンピュータ・データ・シグナルであって、該制御プログラムは以下のステップをコンピュータに実行させる:
前記状態空間中における任意の第一の状態から該第一の状態とは異なる第二の状態に到達するまでの行動系列の実行によって費やされる、該状態空間の環境に対して作用させるコストを示す認知距離を学習し、
前記認知距離の学習結果に基づいて、前記行動系列に属することとなる行動であって、前記目標状態に至るために前記状態空間中の特定の状態において次に実行すべき該行動を実行することによって到達する状態である次状態を決定する。
【0123】
【発明の効果】
以上詳細に説明したように、本発明は、ある問題により定義される状態空間中で初期状態と目標状態とが与えられたときに、該初期状態から該目標状態に至るまでの行動系列を生成する問題解決器で、該状態空間中における任意の状態から前記目標状態に到達するまでの行動系列の実行によって費やされる、該状態空間の環境に対して作用させるコストを示す認知距離を学習するようにし、その認知距離の学習結果に基づいて、該行動系列に属することとなる行動であって、前記目標状態に至るために前記状態空間中の特定の状態において次に実行すべき該行動である次行動を決定する、若しくはその次行動を実行することによって到達する状態である次状態を決定するように構成する。
【0124】
そして、この構成により、本発明は、行動実行時の計算コストが低く抑えられ、且つ、目標状態の変更に対する柔軟性が確保されるという効果を奏する。
【図面の簡単な説明】
【図1】本発明の原理構成を示す図である。
【図2】本発明を実施する問題解決器に解決させる問題の例を説明する図である。
【図3】Q学習を用いた問題解決器と認知距離に基づく問題解決器との構成を比較する図である。
【図4】図3に示す問題解決器で取り扱うベクトルの成分を示す図である。
【図5】Qモジュールにおいて行なわれる学習処理の手順を示すフローチャートである。
【図6】十分な学習が行なわれた後にQモジュールによって行なわれる処理の手順を示すフローチャートである。
【図7】認知距離モジュールの入出力を説明する図である。
【図8】認知距離モジュールにおいて行なわれる学習処理の手順を示すフローチャートである。
【図9】十分な学習が行なわれた後に認知距離モジュールによって行なわれる処理の手順を示すフローチャートである。
【図10】一般化状態の定義を図2に導入した場合を示す図である。
【図11】一般化認知距離に基づく問題解決器の構成を示す図である。
【図12】図11に示す問題解決器で取り扱うベクトルの成分を示す図である。
【図13】移動可能状態モデル生成部において行なわれる学習処理の手順を示すフローチャートである。
【図14】階層化された、一般化認知距離に基づく問題解決器の構成を示す図である。
【図15】一般化状態で示される状態空間の階層化を説明する図である。
【図16】記憶された制御プログラムをコンピュータで読み取ることの可能な記憶媒体の例を示す図である。
【図17】オペレータ/世界モデル/順モデルを説明する図である。
【図18】即応的行動決定を説明する図である。
【図19】強化学習(Qモジュール/Critic)を説明する図である。
【符号の説明】
1a、1b、20、30、40、50 問題解決器
2a、2b 認知距離学習手段
3a 次行動決定手段
3b 次状態決定手段
4a、4b、24、34、44、56 状態空間
10 移動ロボット
11、62−1、62−2、62−3 ゴール
12、60−1、60−2、60−3 フィールド
13 壁
21、31 行動モデル生成部
22 Qモジュール
23、33、43、43−1、43−2 選択器
32 認知距離モジュール
35 状態−行動バッファ
41、41−1、41−2 移動可能状態モデル生成部
42、42−1、42−2 一般化認知距離モジュール
45、45−1、45−2 状態バッファ
51−1、51−2 スイッチャ
52−1、52−2 ランドマークデータベース
53−1、53−2 TLM−SF部
54−1、54−2 FLM−SF部
55−1、55−2 LMPF部
61−1、61−2、61−3 スタート
71 コンピュータ
72 メモリ
73 可搬型記憶媒体
74 回線
75 プログラムサーバ
76 記憶装置
Claims (7)
- ある問題により定義される状態空間中で初期状態と目標状態とが与えられたときに該初期状態から該目標状態に至るまでの行動系列を生成する問題解決器として動作するデータ処理装置であって、
前記状態空間中における任意の状態から前記目標状態に到達するまでの行動系列の実行によって費やされる、該状態空間の環境に対して作用させるコストを示す認知距離を学習する認知距離学習手段と、
前記認知距離学習手段による認知距離の学習結果に基づいて、前記行動系列に属することとなる行動であって、前記目標状態に至るために前記状態空間中の特定の状態において次に実行すべき該行動である次行動を決定する次行動決定手段と、
を有しており、
前記認知距離学習手段は、前記任意の状態と前記目標状態と該目標状態での前記行動とに基づき、該任意の状態と該任意の状態において実行し得る行動とよりなるベクトルから該目標状態と該目標状態での前記行動とよりなるベクトルへの移動に要する距離を、前記認知距離として算出して、該任意の状態において実行し得る行動と該認知距離との関係を示す距離リストを生成し、
前記次行動決定手段は、前記任意の状態において前記認知距離が最も短くなる行動を、前記次行動として、前記距離リストに基づき選択し、
前記任意の状態と、該任意の状態において前記次行動決定手段が選択した行動とよりなるベクトルを、該次行動決定手段による選択の履歴として保持する状態−行動保持手段を更に有しており、
前記認知距離学習手段は、前記認知距離の算出を行うときに、該認知距離の算出の対象である、状態と該状態において実行し得る行動とよりなるベクトルが前記状態−行動保持手段に保持されていた場合には、前記距離リストにおいて該ベクトルに関係付けられている認知距離と該算出により算出された認知距離とを比較し、該算出された認知距離の方が短い場合には、該距離リストにおいて該ベクトルに関係付けられている認知距離を、該算出された認知距離に変更する、
ことを特徴とするデータ処理装置。 - 前記状態空間中における任意の状態において実行し得る次の行動を提示する行動提示手段を更に有し、
前記次行動決定手段は、前記行動提示手段により提示される行動のうち、該行動を行なったときに到達する状態から前記目標状態までの認知距離が少なくなるものを選択する、
ことを特徴とする請求項1に記載のデータ処理装置。 - ある問題により定義される状態空間中で初期状態と目標状態とが与えられたときに該初期状態から該目標状態に至るまでの行動系列を生成する問題解決器として動作するデータ処理装置であって、
前記状態空間中における任意の状態から前記目標状態に到達するまでの行動系列の実行によって費やされる、該状態空間の環境に対して作用させるコストを示す認知距離を学習する認知距離学習手段と、
前記認知距離学習手段による認知距離の学習結果に基づいて、前記行動系列に属することとなる行動であって、前記目標状態に至るために前記状態空間中の特定の状態において次に実行すべき該行動を実行することによって到達する状態である次状態を決定する次状態決定手段と、
前記任意の状態と、該任意の状態の直前の状態において該任意の状態に至るために実行された行動とよりなるベクトルを状態の履歴として保持する状態保持手段と、
を有しており、
前記認知距離学習手段は、前記任意の状態と前記状態保持手段に保持されている該任意の状態に至るために実行された前記行動と前記目標状態とに基づき、該任意の状態と該任意の状態に至るために実行された行動とよりなるベクトルから該目標状態と該目標状態の直前の状態において該目標状態に至るために実行される前記行動とよりなるベクトルへの移動に要する距離を、前記認知距離として算出して、該任意の状態と該認知距離との関係を示す距離リストを生成し、
前記次状態決定手段は、前記任意の状態において前記認知距離が最も短くなる状態を、前記次状態として、前記距離リストに基づき選択し、
前記認知距離学習手段は、前記認知距離の算出を行うときに、該認知距離の算出の対象である、状態と該状態に至るために該状態の直前の状態において実行された行動とよりなるベクトルが前記状態保持部に保持されていた場合には、前記距離リストにおいて該ベクトルに関係付けられている認知距離と該算出により算出された認知距離とを比較し、該算出された認知距離の方が短い場合には、該距離リストにおいて該ベクトルに関係付けられている認知距離を、該算出された認知距離に変更する、
ことを特徴とするデータ処理装置。 - 前記状態空間中における任意の状態において実行し得る次の行動を実行することによって到達する状態を提示する状態提示手段を更に有し、
前記次状態決定手段は、前記状態提示手段により提示される状態のうち、該状態から前記目標状態までの認知距離が少なくなるものを選択する、
ことを特徴とする請求項3に記載のデータ処理装置。 - 前記状態空間中の状態が属する範囲であって、前記認知距離学習手段によって認知距離を学習することの可能な状態が属する該範囲を、該状態空間を階層化した上位の状態空間におけるひとつの状態に対応付ける分節化手段と、
前記上位の状態空間における状態を、該状態に対応する下位の状態空間の範囲に属し、該範囲を代表する状態であるランドマークに対応付けるランドマーク位置手段と、
前記上位の状態空間中における任意の状態から、前記分節化手段によって前記目標状態に対応付けられた前記上位の状態空間における目標状態に到達するまでの前記認知距離を学習する上位認知距離学習手段と、
前記上位認知距離学習手段による前記上位の状態空間中における認知距離の学習結果に基づいて、前記分節化手段によって前記目標状態に対応付けられた前記上位の状態空間における目標状態に至るために、該分節化手段によって前記下位の状態空間中の特定の状態に対応付けられた該上位の状態空間における特定の状態において次に実行すべき該行動を実行することによって到達する該上位の状態空間における前記次状態を決定する上位次状態決定手段と、
を更に有し、
前記認知距離学習手段は、前記下位の状態空間についての前記認知距離を学習し、
前記次状態決定手段は、前記認知距離学習手段による前記下位の状態空間についての認知距離の学習結果に基づいて、前記ランドマーク位置手段によって前記上位の状態空間における次状態に対応付けられているランドマークに至るために前記下位の状態空間中の特定の状態において次に実行すべき前記行動を実行することによって到達する前記次状態を決定する、
ことを特徴とする請求項3に記載のデータ処理装置。 - コンピュータに実行させることによって、ある問題により定義される状態空間中で初期状態と目標状態とが与えられたときに該初期状態から該目標状態に至るまでの行動系列を生成させる制御を該コンピュータに行なわせる制御プログラムを記憶した該コンピュータで読み取り可能な記憶媒体であって、
前記状態空間中における任意の第一の状態から該第一の状態とは異なる第二の状態に到達するまでの行動系列の実行によって費やされる、該状態空間の環境に対して作用させるコストを示す認知距離を学習する認知距離学習制御と、
前記認知距離の学習結果に基づいて、前記行動系列に属することとなる行動であって、前記目標状態に至るために前記状態空間中の特定の状態において次に実行すべき該行動を決定する次行動決定制御と、
を前記コンピュータに行なわせる制御プログラムを記憶しており、
前記認知距離学習制御では、前記任意の状態と前記目標状態と該目標状態での前記行動とに基づき、該任意の状態と該任意の状態において実行し得る行動とよりなるベクトルから該目標状態と該目標状態での前記行動とよりなるベクトルへの移動に要する距離を、前記認知距離として算出して、該任意の状態において実行し得る行動と該認知距離との関係を示す距離リストを生成し、
前記次行動決定制御では、前記任意の状態において前記認知距離が最も短くなる行動を、前記次行動として、前記距離リストに基づき選択し、
前記制御プログラムは、前記任意の状態と、該任意の状態において前記次行動決定制御により選択された行動とよりなるベクトルを、該次行動決定制御による選択の履歴として、前記コンピュータが有している記憶部で保持する状態−行動保持制御を前記コンピュータに更に行なわせ、
前記認知距離学習制御では、前記認知距離の算出を行うときに、該認知距離の算出の対象である、状態と該状態において実行し得る行動とよりなるベクトルが前記記憶部で保持されていた場合には、前記距離リストにおいて該ベクトルに関係付けられている認知距離と該算出により算出された認知距離とを比較し、該算出された認知距離の方が短い場合には、該距離リストにおいて該ベクトルに関係付けられている認知距離を、該算出された認知距離に変更する、
ことを特徴とする記憶媒体。 - コンピュータに実行させることによって、ある問題により定義される状態空間中で初期状態と目標状態とが与えられたときに該初期状態から該目標状態に至るまでの行動系列を生成させる制御を該コンピュータに行なわせる制御プログラムを記憶した該コンピュータで読み取り可能な記憶媒体であって、
前記状態空間中における任意の第一の状態から該第一の状態とは異なる第二の状態に到達するまでの行動系列の実行によって費やされる、該状態空間の環境に対して作用させるコストを示す認知距離を学習する認知距離学習制御と、
前記認知距離の学習結果に基づいて、前記行動系列に属することとなる行動であって、前記目標状態に至るために前記状態空間中の特定の状態において次に実行すべき該行動を実行することによって到達する状態である次状態を決定する次状態決定制御と、
前記任意の状態と、該任意の状態の直前の状態において該任意の状態に至るために実行された行動とよりなるベクトルを、状態の履歴として、前記コンピュータが有している記憶部で保持する状態保持制御と、
を前記コンピュータに行なわせる制御プログラムを記憶しており、
前記認知距離学習制御では、前記任意の状態と前記記憶部で保持されている該任意の状態に至るために実行された前記行動と前記目標状態とに基づき、該任意の状態と該任意の状態に至るために実行された行動とよりなるベクトルから該目標状態と該目標状態の直前の状態において該目標状態に至るために実行される前記行動とよりなるベクトルへの移動に要する距離を、前記認知距離として算出して、該任意の状態と該認知距離との関係を示す距離リストを生成し、
前記次状態決定制御では、前記任意の状態において前記認知距離が最も短くなる状態を、前記次状態として、前記距離リストに基づき選択し、
前記認知距離学習制御では、前記認知距離の算出を行うときに、該認知距離の算出の対象である、状態と該状態に至るために該状態の直前の状態において実行された行動とよりなるベクトルが前記記憶部で保持されていた場合には、前記距離リストにおいて該ベクトルに関係付けられている認知距離と該算出により算出された認知距離とを比較し、該算出された認知距離の方が短い場合には、該距離リストにおいて該ベクトルに関係付けられている認知距離を、該算出された認知距離に変更する、
ことを特徴とする記憶媒体。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000352343A JP4699598B2 (ja) | 2000-11-20 | 2000-11-20 | 問題解決器として動作するデータ処理装置、及び記憶媒体 |
US09/813,027 US6633858B2 (en) | 2000-11-20 | 2001-03-21 | Problem solver uses learning a cognitive distance to attain a goal state |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000352343A JP4699598B2 (ja) | 2000-11-20 | 2000-11-20 | 問題解決器として動作するデータ処理装置、及び記憶媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002157571A JP2002157571A (ja) | 2002-05-31 |
JP4699598B2 true JP4699598B2 (ja) | 2011-06-15 |
Family
ID=18825259
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000352343A Expired - Fee Related JP4699598B2 (ja) | 2000-11-20 | 2000-11-20 | 問題解決器として動作するデータ処理装置、及び記憶媒体 |
Country Status (2)
Country | Link |
---|---|
US (1) | US6633858B2 (ja) |
JP (1) | JP4699598B2 (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6917925B2 (en) * | 2001-03-30 | 2005-07-12 | Intelligent Inference Systems Corporation | Convergent actor critic-based fuzzy reinforcement learning apparatus and method |
US7286484B2 (en) * | 2003-01-10 | 2007-10-23 | Chunghwa Telecom Co., Ltd. | Q-learning-based multi-rate transmission control (MRTC) scheme for RRC in WCDMA systems |
US20050041746A1 (en) * | 2003-08-04 | 2005-02-24 | Lowell Rosen | Software-defined wideband holographic communications apparatus and methods |
US7581159B2 (en) * | 2004-11-23 | 2009-08-25 | Texas Instruments Incorporated | Simplified decoding using structured and punctured LDPC codes |
JP4525477B2 (ja) * | 2005-02-23 | 2010-08-18 | ソニー株式会社 | 学習制御装置および学習制御方法、並びに、プログラム |
JP2007018490A (ja) * | 2005-02-23 | 2007-01-25 | Sony Corp | 行動制御装置および行動制御方法、並びに、プログラム |
JP2006313512A (ja) * | 2005-04-04 | 2006-11-16 | Sony Corp | 学習制御装置、学習制御方法、およびプログラム |
US11542787B2 (en) | 2014-12-19 | 2023-01-03 | Schlumberger Technology Corporation | Method of creating and executing a plan |
US11288609B2 (en) | 2018-12-04 | 2022-03-29 | Schlumberger Technology Corporation | Systems and methods for executing a plan associated with multiple equipment by using rule-based inference |
CN112384937A (zh) | 2018-05-12 | 2021-02-19 | 地质探索系统公司 | 地震数据解释系统 |
WO2020113027A2 (en) * | 2018-11-28 | 2020-06-04 | Google Llc | Robot navigation using a high-level policy model and a trained low-level policy model |
US11753890B2 (en) | 2019-01-15 | 2023-09-12 | Schlumberger Technology Corporation | Real-time pump-down perforating data acquisition and application automation response |
CA3087962A1 (en) | 2019-07-24 | 2021-01-24 | Schlumberger Canada Limited | Coordinated pumping operations |
WO2021070732A1 (ja) * | 2019-10-11 | 2021-04-15 | ソニー株式会社 | 情報処理装置、情報処理方法、並びにプログラム |
KR102346900B1 (ko) * | 2021-08-05 | 2022-01-04 | 주식회사 애자일소다 | 픽 앤 플레이스 시스템을 위한 심층 강화학습 장치 및 방법 |
-
2000
- 2000-11-20 JP JP2000352343A patent/JP4699598B2/ja not_active Expired - Fee Related
-
2001
- 2001-03-21 US US09/813,027 patent/US6633858B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US6633858B2 (en) | 2003-10-14 |
US20020062156A1 (en) | 2002-05-23 |
JP2002157571A (ja) | 2002-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4699598B2 (ja) | 問題解決器として動作するデータ処理装置、及び記憶媒体 | |
US20220363259A1 (en) | Method for generating lane changing decision-making model, method for lane changing decision-making of unmanned vehicle and electronic device | |
Ding et al. | LTL control in uncertain environments with probabilistic satisfaction guarantees | |
EP1733287B1 (en) | System and method for adaptive path planning | |
Bastani | Safe reinforcement learning with nonlinear dynamics via model predictive shielding | |
Koga et al. | Stochastic abstract policies: Generalizing knowledge to improve reinforcement learning | |
CN111898728A (zh) | 一种基于多Agent强化学习的团队机器人决策方法 | |
Georgakis et al. | Uncertainty-driven planner for exploration and navigation | |
CN112325897A (zh) | 基于启发式深度强化学习的路径规划方法 | |
Jiang et al. | Attention-based meta-reinforcement learning for tracking control of AUV with time-varying dynamics | |
US8175982B2 (en) | Value function representation method of reinforcement learning and apparatus using this | |
CN112930541A (zh) | 通过最小化妄想影响来确定控制策略 | |
Li et al. | ACDER: Augmented curiosity-driven experience replay | |
Schubert et al. | A generalist dynamics model for control | |
KR100994075B1 (ko) | 보행로봇의 최적경로 계획방법 | |
CN112613608A (zh) | 一种强化学习方法及相关装置 | |
Nemecek et al. | Policy caches with successor features | |
Vlassis et al. | A fast point-based algorithm for POMDPs | |
Oliehoek et al. | The decentralized POMDP framework | |
CN110749325B (zh) | 航迹规划方法和装置 | |
CN110989602A (zh) | 医学病理检验实验室内自主引导车路径规划方法及系统 | |
CN116009542A (zh) | 动态多智能体覆盖路径规划方法、装置、设备及存储介质 | |
KR20220166716A (ko) | 퓨샷 모방을 위한 시연 조건부 보강 학습 | |
Blahoudek et al. | Efficient Strategy Synthesis for MDPs with Resource Constraints | |
Yu et al. | Deep Q‐Network with Predictive State Models in Partially Observable Domains |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070709 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101109 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101209 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110118 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110209 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110301 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110303 |
|
LAPS | Cancellation because of no payment of annual fees |