JP2002157571A - 問題解決器、及び記憶媒体 - Google Patents

問題解決器、及び記憶媒体

Info

Publication number
JP2002157571A
JP2002157571A JP2000352343A JP2000352343A JP2002157571A JP 2002157571 A JP2002157571 A JP 2002157571A JP 2000352343 A JP2000352343 A JP 2000352343A JP 2000352343 A JP2000352343 A JP 2000352343A JP 2002157571 A JP2002157571 A JP 2002157571A
Authority
JP
Japan
Prior art keywords
state
action
learning
space
cognitive distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000352343A
Other languages
English (en)
Other versions
JP4699598B2 (ja
Inventor
Hiroshi Yamakawa
宏 山川
Hiroyuki Okada
浩之 岡田
Takayuki Baba
孝之 馬場
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2000352343A priority Critical patent/JP4699598B2/ja
Priority to US09/813,027 priority patent/US6633858B2/en
Publication of JP2002157571A publication Critical patent/JP2002157571A/ja
Application granted granted Critical
Publication of JP4699598B2 publication Critical patent/JP4699598B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/40Robotics, robotics mapping to robotics vision
    • G05B2219/40465Criteria is lowest cost function, minimum work path

Abstract

(57)【要約】 【課題】 行動実行時の計算コストを低く抑えつつ、目
標状態の変更に対する柔軟性を確保する問題解決器を提
供する。 【解決手段】 ある問題により定義される状態空間中で
初期状態と目標状態とが与えられたときに該初期状態か
ら該目標状態に至るまでの行動系列を生成する問題解決
器(1a、1b)に、状態空間中における任意の状態か
ら目標状態に到達するまでの行動系列の実行によって費
やされる、該状態空間の環境に対して作用させるコスト
を示す認知距離を学習する認知距離学習手段(2a、2
b)と、その認知距離の学習結果に基づいて、上述した
行動系列に属することとなる行動であって、目標状態に
至るために状態空間中の特定の状態において次に実行す
べき該行動を決定する次行動決定手段3a、若しくは該
行動を実行することによって到達する状態を決定する次
状態決定手段3bとを備える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、データ処理装置に
関し、更に詳しくは、ある問題により定義される状態空
間中で初期状態と目標状態とが与えられたときに初期状
態から目標状態に至るまでの行動系列を生成する問題解
決器に関する。
【0002】
【従来の技術】ある問題により定義される状態空間中で
初期状態と目標状態が与えられたときに、初期状態から
目標状態に至るまでの行動系列を生成する問題解決器と
して、一般問題解決器(GPS:General Problem Solv
er)がよく知られている。
【0003】GPSは、図17に示すように、ある状態
state(t)に対して行動action(t)を適
用した(すなわち、行動を起こした)場合に到達する状
態state(t+1)を予測するモデル(このモデル
は世界モデルあるいはフォワードモデルなどと呼ばれて
いる)を有している。
【0004】GPSによる行動系列の生成では、問題に
より定義される状態空間中で、まず初期状態と目標状態
との差異が取り出される。そして、その差異を減少させ
るような行動(オペレータ)が選択される。
【0005】ここで、そのオペレータが適用されるこ
と、つまりそのオペレータの適用条件が満たされること
を次の副目標とし、以降、差異の検出とオペレータの選
択とが繰り返される。その結果、差異がなくなったとき
に、初期状態から目標状態に至るまでのオペレータの系
列、すなわちプランが得られる。そして最後にこのプラ
ンが実行される。
【0006】上述したモデルを用いた行動系列の生成
(古典的プランニングなどとも呼ばれている)は、行動
実行時の計算量が多量になる(計算コストが大きい)と
いう問題点を抱えている。
【0007】一方で、図18に示すように、ある状態s
tate(t)(以下、「s(t)」と略す)から直接
に行動action(t)(以下、「a(t)」と略
す)を導くようにして、実時間動作を必要とするシステ
ムへの適用を可能にした即応的行動決定(リアクティブ
プランニング)がある。これは、行動実行時の計算コス
トは小さいものの、目標状態の変更に対して行動を変化
させることができないため、柔軟性に乏しいという問題
がある。
【0008】この問題を克服する技術として目標状態を
報酬(または効用)として表現し、実行すべき行動系列
の途中の予測評価を用いることで、目標状態の変更に対
し、実行すべき行動を学習によって変化させる技法であ
る強化学習というものがある。
【0009】強化学習の代表的なアルゴリズムであるQ
学習は、状態s(t)から行動a(t+1)へのマッピ
ングを外界から得られる報酬に基づいて変更する。図1
9に(a)として示すように、Q学習においては、状態
s(t)における行動a(t+1)に対応する予測報酬
としてのQ値であるQ(s(t)+a(t))をQモジ
ュールが見積もり、そのQ値の大きい(予測報酬の高
い)行動a(t+1)を優先的に選択するようにするこ
とで合理的な行動選択が行なわれる。
【0010】また、強化学習のもうひとつの有名なモデ
ルであるActor-Criticモデルでは、図19に(b)とし
て示すCriticモジュールが状態s(t)により決定され
る予測報酬としてのV値であるvalue(s(t))
を見積もり、ここから得られる予測報酬の誤差に基づい
て実行すべき行動の選択確率をActor モジュールが変化
させるというものである。
【0011】以上のような仕組みにより、いずれの強化
学習モデルにおいても行動実行時には迅速な行動決定が
行なえる。なお、プランニングについては、例えば、Ru
ssel, S. J. & Norvig, P. : Artifical Intelligence:
Modern Approach, Prentice-Hall International, In
c.(邦訳:エージェントアプローチ 人工知能、共立出
版)に詳細に説明されており、強化学習については、例
えば、Kaelbling, L. P., Littman, M. L., & Moore,
A. W. : Reinforcement Learning: A Survey, J. Artif
ical Intelligence Reserch, Vol.4, pp237-285(1996)
に詳細に説明されている。
【0012】
【発明が解決しようとする課題】上述したように、古典
的プランニングは行動実行時の計算のコストが大きい問
題を有していた。
【0013】また、即応的行動決定は、古典的プランニ
ングよりも行動実行時の計算コストを低減させることが
できるものの、目標状態の変更に対して行動を変化させ
ることができないため、柔軟性に乏しいという問題を有
していた。
【0014】更に、強化学習については、目標状態の変
更に対して行動を変化させることが一応可能ではあるも
のの、目標状態が変更されたときにはそれまでの学習結
果は基本的には再利用できないので学習をやり直す必要
がある。ところが、特定された目標状態に対する学習に
要する学習量(学習コスト)は多大であるので、結果的
に目標状態を変更することの許容される場合は限られて
しまうため、柔軟性の確保は不十分であった。
【0015】以上の問題を鑑み、行動実行時の計算コス
トを低く抑えつつ、目標状態の変更に対する柔軟性を確
保する問題解決器を提供することが本発明が解決しよう
とする課題である。
【0016】
【課題を解決するための手段】図1は本発明の原理構成
図であり、(a)は本発明に係る問題解決器の第一の構
成を、(b)は本発明に係る問題解決器の第二の構成
を、それぞれ示している。
【0017】同図(a)及び(b)にそれぞれ示す本発
明に係る問題解決器(1a、1b)は、どちらも、ある
問題により定義される状態空間中で初期状態と目標状態
とが与えられたときに該初期状態から該目標状態に至る
までの行動系列を生成するものである。
【0018】同図(a)及び(b)にそれぞれ示す、認
知距離学習手段(2a、2b)は、どちらも、上述した
状態空間中における任意の状態から上述した目標状態に
到達するまでの行動系列の実行によって費やされる、該
状態空間の環境に対して作用させるコストを示す認知距
離を学習するものである。なお、この認知距離は、状態
空間中における任意の2つの状態に対応して得られる値
であり、2つの状態の単なる物理的な隔たりの大きさを
示す値(すなわち距離)を具体例のひとつに挙げること
ができるが、これに限定されるものではない。
【0019】同図(a)に示す次行動決定手段3aは、
認知距離学習手段(2a)による認知距離の学習結果に
基づいて、上述した行動系列に属することとなる行動で
あって、目標状態に至るために上述した状態空間中の特
定の状態において次に実行すべき該行動である次行動を
決定するものである。
【0020】この次行動の決定については、例えば、問
題解決器1aが状態空間中における任意の状態において
実行し得る次の行動を提示する行動提示手段を更に有
し、次行動決定手段3aが、この行動提示手段により提
示される行動のうち、該行動を行なったときに到達する
状態から目標状態までの認知距離が少なくなるものを選
択するようにするとよい。
【0021】また、同図(b)に示す次状態決定手段3
bは、認知距離学習手段(2a)による認知距離の学習
結果に基づいて、上述した行動系列に属することとなる
行動であって、目標状態に至るために上述した状態空間
中の特定の状態において次に実行すべき該行動を実行す
ることによって到達する状態である次状態を決定するも
のである。
【0022】この次状態の決定については、例えば、問
題解決器1bが状態空間中における任意の状態において
実行し得る次の行動を実行することによって到達する状
態を提示する状態提示手段を更に有し、次状態決定手段
3bが、この状態提示手段により提示される状態のう
ち、該状態から目標状態までの認知距離が少なくなるも
のを選択するようにするとよい。
【0023】本発明は、上述したような図1(a)若し
くは図1(b)に示す構成を有することによって、認知
距離学習手段(2a、2b)において状態空間中におけ
る任意の状態から目標状態までの認知距離の学習が行な
われ、そしてこの認知距離の学習結果に基づいて行動系
列の生成が行なわれる。この認知距離は、強化学習にお
ける予測評価と異なり、学習中に目標状態が変更すると
その変更が学習結果に直ちに反映される。しかも、次行
動決定手段3aによる次行動の決定、及び次状態決定手
段3bによる次状態の決定は、認知距離学習手段(2
a、2b)の学習結果である認知距離の単純な大小判断
によって行なうことができる。従って行動実行時の計算
コストは低く抑えられ、且つ、目標状態の変更に対する
柔軟性が確保される。
【0024】なお、図1(a)(若しくは(b))に示
す構成において、認知距離学習手段2a(若しくは2
b)が、学習結果である認知距離を保持し、次行動決定
手段3a(若しくは次状態決定手段3b)が、認知距離
学習手段2a(若しくは2b)に保持されている認知距
離の学習結果に基づいて次行動(次状態)を決定し、認
知距離学習手段2a(若しくは2b)が、同一の状態間
についての認知距離を再度学習したときには、保持して
いる認知距離を更新するように構成してもよく、この構
成によれば、行動実行時の経験をも学習に反映させるこ
とができ、目標状態の変更に対する柔軟性が更に向上す
る。
【0025】また、図1(b)に示す構成において、状
態空間中の状態が属する範囲であって、認知距離学習手
段2bによって認知距離を学習することの可能な状態が
属する該範囲を、該状態空間を階層化した上位の状態空
間におけるひとつの状態に対応付ける分節化手段と、該
上位の状態空間における状態を、該状態に対応する下位
の状態空間の範囲に属し、該範囲を代表する状態である
ランドマークに対応付けるランドマーク位置手段と、該
上位の状態空間中における任意の状態から、該分節化手
段によって該目標状態に対応付けられた該上位の状態空
間における目標状態に到達するまでの該認知距離を学習
する上位認知距離学習手段と、該上位認知距離学習手段
による該上位の状態空間中における認知距離の学習結果
に基づいて、該分節化手段によって該目標状態に対応付
けられた該上位の状態空間における目標状態に至るため
に、該分節化手段によって該下位の状態空間中の特定の
状態に対応付けられた該上位の状態空間における特定の
状態において次に実行すべき該行動を実行することによ
って到達する該上位の状態空間における該次状態を決定
する上位次状態決定手段と、を問題解決器1bが更に有
し、認知距離学習手段2bが、該下位の状態空間につい
ての該認知距離を学習し、次状態決定手段3bが、認知
距離学習手段2bによる該下位の状態空間についての認
知距離の学習結果に基づいて、該ランドマーク位置手段
によって該上位の状態空間における次状態に対応付けら
れているランドマークに至るために該下位の状態空間中
の特定の状態において次に実行すべき該行動を実行する
ことによって到達する該次状態を決定するように構成し
てもよく、この構成によれば、認知距離の学習結果の保
持量を制限しつつ、状態空間中で遠く離れた状態間での
行動決定が行なえるようになる。
【0026】なお、上述した本発明に係る問題解決器
(1a、1b)の備える各構成により行なわれる機能と
同様の制御をコンピュータに行なわせる制御プログラム
を記憶したコンピュータ読み取り可能な記憶媒体から、
その制御プログラムをコンピュータに読み出させて実行
させることによっても、前述した課題を解決することが
できる。
【0027】
【発明の実施の形態】以下、本発明の実施の形態を図面
に基づいて説明する。なお、ここでは、本発明を実施す
る問題解決器に図2に示す問題を解決させる場合を例に
して説明する。
【0028】図2に示す問題は、移動ロボットのナビゲ
ーションタスクである。同図に示されている問題は、移
動ロボット10がゴール11に到達する経路を求めると
いうものである。ここで、移動ロボット10は、同図に
示すフィールド12のマス目のどこに自分が現在位置し
ているかを示す情報(例えば2次元の座標情報)を得る
ことができるものとし、更に、このフィールド12のマ
ス目間を上下左右に1マスずつ移動することができるも
のとする。但し、フィールド12の四方を取り囲む壁1
3にぶつかっているときには、移動ロボット10はその
壁13の方向への移動は行なえないものとする。
【0029】まず、図3について説明する。同図は、Q
学習を用いた問題解決器と、本発明に係る、認知距離に
基づく問題解決器との構成を比較する図である。なお、
同図においては、図4に示すように、現在の状態s
(t)と、その状態において行なう行動a(t+1)と
をペアとするベクトルが取り扱われる。
【0030】図3に(a)として示しているQ学習を用
いた問題解決器について先に説明する。同図に示してい
る問題解決器20は、行動モデル生成部21、Qモジュ
ール22、及び選択器23を備えて構成されており、現
在の状態s(t)とその状態において試行した行動a
(t+1)とに応じて与えられる報酬(reward)
を、問題が定義されている状態空間24から受け取るこ
とで学習を繰り返し、十分な学習を終えた後には、現在
の状態s(t)において次に行なう適切な行動a(t+
1)を迅速に出力できるようになるというものである。
【0031】行動モデル生成部21は、現在の状態s
(t)におけるとり得る行動の一覧(行動リスト)を生
成して出力する。図2の問題例で説明すれば、移動ロボ
ット10の現在の位置において可能な行動(フィールド
12における1マス移動)の一覧を生成し、行動リスト
として出力する。
【0032】Qモジュール22は、状態空間24から入
力される現在の状態s(t)と学習中に状態空間24か
ら入力される報酬(reward)とに基づいて、その
状態において実行し得る行動a(t+1)に対して期待
される報酬を算定する。
【0033】図2の問題例で説明すれば、移動ロボット
10は、学習時にはフィールド12上の様々なマスにお
いて実際に上下左右への1マスの移動を実行する。この
とき、この移動の実行によって移動ロボット10がゴー
ル11に到達したときのみ報酬が与えられる(他の状態
では報酬が無い)ようにしておく。この報酬は即時評価
と呼ばれている。Qモジュール22は、この報酬と、こ
の報酬を得たときの移動ロボット10のフィールド12
上の直前の位置(状態)及びその位置で実行された移動
(行動)の内容とに基づいて、フィールド12上の各位
置で実行する各移動行動に対して期待される報酬(この
期待される報酬の期待値は遅延評価と呼ばれている)を
Q値として見積もり、この結果をQ値リストとして出力
する。Qモジュール22は、十分な学習を行なうことに
よってこの見積もりの確度を向上させる。
【0034】Qモジュール22によって行なわれる学習
処理の手順を示すフローチャートを図5に示し、同図に
従ってその手順を説明する。図2の問題例で説明すれ
ば、この学習処理は、学習中に移動ロボット10がフィ
ールド12上を移動する度に行なわれる。
【0035】まず、現在の状態s(t)及びこの状態に
おける報酬rが状態空間24から、また前述した行動リ
ストLaが行動モデル生成部21から、それぞれ取得さ
れ、更に、この状態sに至った直前の行動a(t)、す
なわち、問題解決器20による直前の出力も取得される
(S101)。
【0036】続いて、行動リストLaから現在の状態s
(t)において行ない得る行動aがひとつ取得される
(S102)。そして、この行動aを実行したときに到
達する状態s(t+1)が求められる(S103)。
【0037】ここで、Qモジュール22の内部に設けら
れているハッシュテーブルが参照され、s(t+1)+
aなるベクトルをキーとしたときにそのキーに対応付け
られているQ値q(t+1)が取得される(S10
4)。なお、このハッシュテーブルにおけるQ値の初期
値は全てゼロ(ヌル)であるが、後述する処理ステップ
の作用によってQ値が更新される。
【0038】その後、前ステップの処理によって取得さ
れたQ値q(t+1)が、Qモジュール22の出力情報
である前述したQ値リストLqに追加される(S10
5)。ここで、行動リストLaに含まれている全ての行
動aの要素について、上述したS103からS105に
かけての処理が実行されたか否かが判定され(S10
6)、この判定結果がNoならばS102へ戻って上述
した処理が繰り返される。
【0039】一方、S106の判定結果がYesであっ
た場合には、Q値リストLqが参照され、そこからQ値
q(t+1)の最大値maxQが求められる(S10
7)。更に、前述したハッシュテーブルが参照され、そ
こからs(t)+a(t+1)なるベクトルをキーとし
たときに対応するQ値q(t)が取得される(S10
8)。
【0040】ここで、前ステップの処理によって得られ
た値に基づき、ハッシュテーブルに示されているQ値q
(t)が下記の式に従って更新される(S109)。q
(t)+α(r+γmaxQ−q(t))→q(t)上
式はQ学習における基本的なQ値の更新式であり、良く
知られている。なお、上式において、γ(0≦γ<1)
は割引率と呼ばれ、ある状態の次の状態において獲得さ
れる将来の報酬を、現在の状態においてはどの程度割り
引いて評価するかを決めるために用いられる。また、α
(0<α≦1)は学習率と呼ばれ、学習中における1回
毎の試行の結果を学習結果へどの程度反映させるかを決
定するために用いられる。
【0041】Qモジュール22は、問題解決器20の学
習時には上述した処理が行なわれる。次に図6について
説明する。同図は十分な学習が行なわれた後にQモジュ
ール22によって行なわれる処理の手順を示すフローチ
ャートである。
【0042】まず、現在の状態s(t)が状態空間24
から、また前述した行動リストLaが行動モデル生成部
21から、それぞれ取得される(S201)。続いて、
行動リストLaから現在の状態s(t)において行ない
得る行動aがひとつ取得される(S202)。
【0043】ここで、Qモジュール22の内部に設けら
れている前述したハッシュテーブルが参照され、そこか
らs (t)+aなるベクトルをキーとしたときに対応
するQ値q(t)が取得される(S203)。
【0044】その後、前ステップの処理によって取得さ
れたQ値q(t)が、Qモジュール22の出力情報であ
る前述したQ値リストLqに追加される(S204)。
ここで、行動リストLaに含まれている全ての行動aの
要素について、上述したS203及びS204の処理が
実行されたか否かが判定され(S205)、この判定結
果がNoならばS202へ戻って上述した処理が繰り返
される。
【0045】一方、S205の判定結果がYesであっ
た場合にはQ値リストLqが選択器23へと出力される
(S206)。以上のように、Qモジュール22は、十
分な学習が行なわれた後には、現在の状態s(t)に対
応するQ値リストLqを直ぐに作成し出力することがで
きるようになる。
【0046】図3(a)の説明に戻る。選択器23は、
十分な学習を行なったQモジュール22から出力される
Q値リストに基づいて、期待される報酬の最も高い(遅
延評価の最も良い)行動を行動モデル生成部21から出
力される行動リストより選択し、その選択結果を行動a
(t+1)として出力する。図2の問題例で説明すれ
ば、移動ロボット10のフィールド12上の現在の位置
において可能な1マス行動のうち、ゴール11へ到達で
きる期待が最も高くなるものを選択することになり、そ
のマスに移動ロボット10を移動させる指示が出力され
る。
【0047】問題解決器20の各構成要素が以上のよう
に動作することによって、ある状態とその状態において
行なう行動に対するQ値の学習が行なわれ、行動実行時
にはこの学習結果に基づいた適切な行動の選択が迅速に
行なわれるようになる。但し、図2に示す問題において
は得られる報酬とゴール11の位置との間に依存性があ
るために、この問題においてゴール11が移動する場合
には、それまでのQ値の学習結果を再利用できず、再学
習が必要となってしまう。
【0048】次に、図3に(b)として示している、本
発明に係る認知距離に基づく問題解決器について説明す
る。この図に示す問題解決器30は、基本的には(a)
に示したQ学習を用いた問題解決器20に設けられてい
るQモジュール22が認知距離モジュール32に置き換
えられ、更に状態−行動バッファ35が追加されて構成
されている。そして、与えられる現在の自己の状態s
(t)と到達すべき目標状態を示す“goal(状態+
行動)" ベクトルとを、問題により定義されている状態
空間34から受け取るという試行を繰り返し、十分な試
行が行なわれるにつれて、現在の自己の状態s(t)及
び到達すべき目標状態ベクトルgoal(状態+行動)
の入力に対し、次に行なう適切な行動a(t+1)が迅
速に出力できるようになるというものである。
【0049】行動モデル生成部31は、図3(a)の行
動モデル生成部21と同様に、現在の状態s(t)にお
けるとり得る行動の一覧(行動リスト)を生成して出力
する。
【0050】認知距離モジュール32は、十分な学習を
終えた後には、図7に示すように、移動元である“fr
om(状態+行動)”ベクトルと移動先である“to
(状態+行動)”ベクトルとの2つのベクトルの入力に
応じ、fromベクトルからtoベクトルへのベクトル
間の移動に要する距離(distance)を出力するものであ
る。この距離が認知距離(Cognitive Distance)であ
る。
【0051】図3(b)では、認知距離モジュール32
は、センサ入力Aに入力される状態空間34の現在の状
態s (t)、及びセンサ入力Bに入力される到達すべ
き状態空間34中の目標状態goal(state+a
ction)に基づいて、状態s(t)とその状態にお
いて実行し得る行動a(t+1)とよりなるベクトルか
ら目標状態を示すベクトルへの移動に要する距離を算出
し、距離リストとして出力する。また、算出された距離
の値はテーブルにして蓄積する。
【0052】図2の問題例で説明すれば、認知距離モジ
ュール32は、移動ロボット10のフィールド12の現
在の位置とゴール11の位置及びその行動の状況とに基
づいて、移動ロボット10のフィールド12の現在の位
置において実行し得る移動と、その移動の結果の移動ロ
ボット10−ゴール11間の認知距離(移動に要するマ
スの数)との関係を示す距離リストを生成して出力す
る。
【0053】選択器33は、認知距離モジュール32か
ら出力される距離リストに基づいて、認知距離が最も短
くなる行動を行動モデル生成部21から出力される行動
リストより選択し、その選択結果を行動a(t+1)と
して出力する。図2の問題例で説明すれば、移動ロボッ
ト10のフィールド12上の現在の位置において可能な
1マス移動のうち、ゴール11との距離が最も短くなる
ものを選択することになり、そのマスに移動ロボット1
0を移動させる指示を出力する。
【0054】また、認知距離と行動の選択確率とを対応
させるようにして、認知距離が短くなる行動ほど高い確
率で選択されるように選択器33を構成してもよい。状
態−行動バッファ35は、状態s(t)において行なっ
た行動a(t+1)の過去の経験を保持するバッファで
あり、状態s(t)と、その状態において行なった行動
a(t+1)とをペアとするベクトルを保持する。な
お、状態−行動バッファ35のサイズは有限とし、保持
量を超えたときには、新規のベクトルを、保持されてい
る最古のベクトルと入れ替えて保持するようにする。
【0055】認知距離モジュール32は状態−行動バッ
ファ35を参照し、距離の導出の対象である状態ととり
得る行動とのペアのベクトルが状態−行動バッファ35
に既に保持されているときには、認知距離モジュール3
2が蓄積している距離のテーブルを参照し、そこに示さ
れているそのベクトルに対応する距離と今回改めて導出
した距離とを比較し、改めて導出した距離の方が短いの
であればその距離テーブルを更新して距離の値を改めて
導出したものに変更する。この距離テーブルの更新を行
なうことによって、それまでになされた試行に基づく学
習結果が修正されるので、目標状態の変化への対応が柔
軟に行なわれる。
【0056】ここで図8について説明する。同図は、図
7に示す入出力関係を有する認知距離モジュール32に
おいて行なわれる、学習処理の手順を示すフローチャー
トである。この学習処理は、状態空間における状態+行
動を特定する、前述したfromベクトル(fベクトル
と略す)とtoベクトル(tベクトルと略す)との2つ
の任意のベクトル間の距離の学習を行なうものである。
この学習処理は、fベクトル若しくはtベクトルが変化
する度に行なわれる。
【0057】まず、fベクトル及びtベクトルが取得さ
れ、更に、両ベクトルで示される状態間の距離dが両ベ
クトルに基づいて求められる(S301)。ここで、f
ベクトル及びtベクトルからハッシュコードであるベク
ターキーvが作成される(S302)。
【0058】ここで、fベクトルとtベクトルとが一致
するか否かが判定される(S303)。判定結果がYe
sならば距離が代入される変数Dに値「0」が代入され
(S304)、その後はS309に進む。
【0059】一方、S303の判定処理の結果がNoな
らば、認知距離モジュール32の内部に設けられている
ハッシュテーブルが参照され、ベクターキーvをキーと
したときにそのキーに対応付けられている距離が取得さ
れ、上述した変数Dに代入される(S305)。
【0060】ここで、この変数Dの値がヌルであるか否
か、すなわち、上述したハッシュテーブルにおいてベク
ターキーvに対応付けられている値が空であるか否かが
判定され(S306)、この判定結果がNoならば変数
Dの値がS301の処理によって取得されていた距離d
の値よりも大きいか否かが更に判定され(S307)、
この判定結果がNoならばこの学習処理が終了する。
【0061】ところで、上述したS306若しくはS3
07のいずれかの判定処理での判定結果がYesであっ
たときには、S301の処理によって取得されていた距
離dの値を変数Dに代入する(S308)。
【0062】その後、上述したハッシュテーブルが参照
され、上述したベクターキーvに対応付けられている値
が変数Dの現在の値に更新される(S309)。この判
定結果がNoならばこの学習処理が終了する。
【0063】認知距離モジュール32では、以上のよう
にして学習処理が行なわれる。なお、図3(b)に示す
問題解決器30においては、上述した学習処理は、認知
距離モジュール32と状態−行動バッファ35との組み
合わせにより実行される。
【0064】すなわち、学習時には、認知距離モジュー
ル32には、目標状態を示すベクトルgoal(sta
te+action)とが状態空間34から入力され、
このベクトルは上述したtベクトルとして扱われる。そ
の一方で、現在の自己の状態s(t)と、この状態sに
おける学習行動において実際に試行された移動行動a
(t+1)とが状態−行動バッファ35に入力されてf
ベクトルが生成され、認知距離モジュール32に入力さ
れる。更に、状態−行動バッファ35の履歴が参照され
て同一のfベクトルの存在の有無が調べられ、存在する
のであれば、ハッシュテーブルに示されている距離と上
述した距離dとの長短が判定され、ハッシュテーブルに
おいてfベクトルに対応するデータがその判定結果にお
ける短い方の距離の値となるようにハッシュテーブルが
更新される。なお、このときのハッシュテーブルのサイ
ズ(記憶容量)は状態−行動バッファ35のサイズに対
応して設定される。
【0065】次に図9について説明する。同図は、十分
な学習が行なわれた後に図3(b)に設けられている認
知距離モジュール32によって行なわれる処理の手順を
示すフローチャートである。
【0066】まず、現在の自己の状態sと目標状態を示
すベクトルgoal(state+action)(g
ベクトルと略す)とが状態空間34から、また前述した
行動リストLaが行動モデル生成部31からそれぞれ取
得される(S401)。
【0067】続いて、行動リストLaから現在の状態s
において行ない得る行動aがひとつ取得される(S40
2)。ここで、状態sと行動aとからなるベクトル及び
gベクトルから、前述した学習処理で用いた認知距離モ
ジュール32内のハッシュテーブルを参照するためのハ
ッシュコードであるベクターキーvが作成される (S
403)。そして、そのハッシュテーブルが参照され、
ベクターキーvをキーとしたときにそのキーに対応付け
られている距離dが取得される(S404)。
【0068】その後、前ステップの処理によって取得さ
れた距離dが、認知距離モジュール32の出力情報であ
る前述した距離リストLdに追加される(S405)。
ここで、行動リストLaに含まれている全ての行動aの
要素について、上述したS403からS405にかけて
の処理が実行されたか否かが判定され(S406)、こ
の判定結果がNoならばS402へ戻って上述した処理
が繰り返される。
【0069】一方、S406の判定結果がYesであっ
た場合には距離リストLdが選択器23へと出力される
(S407)。以上のように、認知距離モジュール32
は、十分な学習が行なわれた後には、現在の状態sに対
応する距離リストLdを直ぐに作成して出力することが
できるようになる。
【0070】以下の説明においては、以上までに説明し
た、図3(b)に示す問題解決器30を「第一実施例に
おける問題解決器」と称することとする。今までに説明
した第一実施例における問題解決器では、問題により定
義される状態空間における状態とそこで実行される行動
とは区別して扱っていた。以降の説明においては、状態
と行動とを区別しない一つの状態として扱うようにし、
図10に示すように、同一時刻tにおける状態s(t)
と行動a(t)(状態s(t)に至るために実行された
行動)とを纏めたひとつの一般化状態Sa(t)を定義
し、この一般化状態に対応する一般化認知距離に基づい
た問題解決器を第二実施例として説明する。
【0071】図11は一般化認知距離に基づいた問題解
決器の構成を示している。なお、同図に示す第二実施例
の構成においては、第一実施例とは異なり、図12に示
すように、現在の状態s(t)と、その状態に至るため
に実行される行動a(t)とをペアとするベクトルが取
り扱われる。
【0072】図11に示す問題解決器40は、移動可能
状態モデル生成部41、一般化認知距離モジュール4
2、選択器43、及び状態バッファ45を備えて構成さ
れており、問題により定義されている状態空間44か
ら、現在の一般化状態Sa(t)[=s(t)+a
(t)]と、到達すべき目標状態である一般化状態G
(t)とを受け取るという試行を繰り返し、十分な試行
が行なわれるにつれて、現在の自己の一般化状態Sa
(t)及び到達すべき目標状態であるG(t)の入力に
対し、次に行なう適切な行動を成分に含む一般化状態で
あるサブゴールSG(t)=Sa(t+1)[=s(t
+1)+a(t+1)]が迅速に出力できるようになる
というものである。
【0073】状態バッファ45は、この問題解決器40
に入力された一般化状態Sa(t)の履歴の保持、すな
わち、状態s(t)に至った行動a(t)の経験を蓄え
るものであり、図3(b)に示した状態−行動バッファ
35と同様の構成・機能を有するものである。
【0074】移動可能状態モデル生成部41は、現在の
一般化状態Sa(t)から直接遷移(移動)可能な一般
化状態の一覧(移動可能状態リスト)を生成して出力す
るものであり、図17に示した従来の世界モデル(フォ
ワードモデル)を一般化状態のフレームワークに適合さ
せたモジュールと考えることができる。移動可能状態モ
デル生成部41は、状態バッファ45の履歴を参照して
実際に試行された移動の経験を蓄積する学習を行なうこ
とによって、移動可能状態リストの生成が行なえるよう
になる。
【0075】移動可能状態モデル生成部41において行
なわれる、この学習処理の手順を示すフローチャートを
図13に示す。この学習処理は、状態空間におけるある
一般化状態を特定するfromベクトル(fベクトルと
略す)とtoベクトル(tベクトルと略す)との2つの
任意のベクトルにおいて、fベクトルからtベクトルへ
の行動が直接可能であることが学習処理における試行に
よって判明したときに、その経験を蓄積していく処理で
ある。
【0076】まず、fベクトル及びtベクトルが取得さ
れ(S501)、このうちのfベクトルをキーにして移
動可能状態モデル生成部41の内部に設けられているハ
ッシュテーブルが参照され、fベクトルをキーとしたと
きにそのキーに対応付けられているリストl(過去の経
験によってfベクトルから直接移動可能であることが判
明した状態を示すベクトルが格納されるリスト)が取得
される(S502)。
【0077】ここで、取得されたリストlがヌルである
か否か、すなわち、リストlが存在しないか否かが判定
され (S503)、この判定結果がNoである場合に
のみ、その内容にtベクトルを含むリストlが作成され
(S504)、fベクトルのキーに対応付けられて上
述したハッシュテーブルに登録される(S505)。
【0078】続いて、リストlにtベクトルが含まれて
いるか否かが判定され(S506)、この判定結果がN
oの場合にのみ、リストlにtベクトルが追加される
(S507)。
【0079】移動可能状態モデル生成部41では、以上
のようにして学習が行なわれる。なお、図11において
は、移動可能状態モデル生成部41には現在の一般化状
態Sa(t)が状態空間44から入力され、このSa
(t)が上述した学習処理におけるtベクトルとして扱
われる。また、Sa(t)の直前の状態Sa(t−1)
が状態バッファ45から入力され、このSa(t−1)
が上述した学習処理におけるfベクトルとして扱われ
る。そして、十分な学習が行なわれた後には、状態空間
44から入力される般化状態Sa(t)をキーとして上
述したハッシュテーブルが参照され、対応するリストl
がハッシュテーブルから取り出されて移動可能状態リス
トとして選択器43に直ちに出力されるようになる。
【0080】一般化認知距離モジュール42は、移動可
能状態モデル生成部41から出力される移動可能状態リ
ストに示されている各一般化状態、及びセンサ入力Bに
入力される到達すべき状態空間44中の目標状態の一般
化状態G(t)に基づいて、各一般化状態のベクトルか
ら目標状態の一般化状態G(t)ベクトルへの移動に要
する距離(一般化認知距離)を算出し、距離リストとし
て出力するものであり、図3(b)に示した認知距離モ
ジュール32と同様の構成・機能を有するものである。
また、この一般化認知距離モジュール42は、距離テー
ブルの蓄積も同様に行ない、更に、状態バッファ45に
基づくこの距離テーブルの更新も同様に行なう。
【0081】選択器43は、一般化認知距離モジュール
42から出力される距離リストに基づいて、認知距離が
最も短くなる一般化状態を移動可能状態モデル生成部4
1から出力される移動可能状態リストより選択し、その
選択結果をサブゴールSG(t)として出力するもので
あり、これも、図3(b)に示した選択器33と同様の
構成・機能を有するものである。
【0082】問題解決器40は、以上のような構成を備
えることで、ある一般化状態Sa(t)における、目標
状態に到達するための最適なサブゴールSG(t)を迅
速に出力することが学習によって可能となる。
【0083】次に、本発明の第三実施例について説明す
る。今まで説明した本発明の第一及び第二実施例の認知
距離(あるいは一般化認知距離)に基づく問題解決器に
は多量の情報の記憶が必要であり、以下のような2つの
問題がある。
【0084】(1)認知距離を保持する組み合わせの爆
発 問題により定義される状態空間に存在する一般化状態の
状態数をNsとすると、認知距離の組み合わせはO(N
s×Ns)にもなり、状態数の二乗のオーダーで増加し
てしまう。従って、状態空間が大きくなるときには全て
の認知距離についての情報を保持することは現実的でな
い。
【0085】なお、この点において、従来のGPSで用
いられるオペレータの総数は、各状態で直接移動可能な
状態数の平均をmとするならば、その記憶容量は高々O
(Ns×m)程度のオーダーであり、また、強化学習で
のその記憶容量はO(Ns)程度のオーダーであった。
【0086】(2)認知距離の保持量の制限に起因する
問題 上記(1)の問題を回避するために、認知距離の保持量
に最大値θを設けるようにすることが考えられる。こう
すれば、O(Ns×(mのθ乗))程度に押さえ込むこ
とができるし、前述した状態バッファ45(図11)に
よる一般化状態の履歴の保持量もθ程度に留めることも
可能となり、更に、認知距離の更新処理のための演算量
の抑制も可能となるので、有益である。しかしながら、
この手法ではある上限以上に離れた状態間での行動決定
が行なえなくなってしまうという問題が生じてしまう。
【0087】上述した問題に対処するために、本発明の
第三実施例では一般化状態を用いた問題解決器を階層化
する。図14は、階層化された一般化認知距離に基づく
問題解決器の構成を示している。なお、同図において、
問題解決器50はレイヤ1及びレイヤ2についての構成
のみを示しており、レイヤ3以上については、レイヤ1
若しくはレイヤ2と同様の構成であるため、描画を略し
ている。
【0088】同図を既に説明した図11と比較すると分
かるように、図14に示す問題解決器50は、基本的に
は図11に示した問題解決器40を積み重ねたような構
成を有している。
【0089】ここで、一般化状態で示される状態空間の
階層化について、図15を用いて説明する。なお、同図
の例は、3レイヤ(階層)の構造を示している。まず、
下位レイヤから上位レイヤへの対応を示す関数が定義さ
れると同時に、上位レイヤから下位レイヤのランドマー
クを取り出す関数が定義される。ここで、ランドマーク
とは、上位レイヤにおけるある状態に対応する下位レイ
ヤの1以上の状態のうち、それらを代表するひとつの状
態を示すものである。
【0090】なお、ここでは、前者の関数を分節化関数
(Segmentation Function )、後者の関数をランドマー
ク位置関数(Landmark Position Function)と称するこ
ととする。
【0091】例えば、図15において、分節化関数は、
レイヤ2であるフィールド60−2上に示されている
(a)の範囲を、レイヤ3であるフィールド60−3上
にスタート61−3として示されている位置(状態)に
集約させるものであり、ランドマーク位置関数は、レイ
ヤ3であるフィールド60−3上に示されている白丸印
の位置からレイヤ2であるフィールド60−2上に示さ
れている対応する星印の位置(ランドマーク)に写像す
るものである。
【0092】ここで、レイヤ間の関係の理解を容易にす
るために、以下の2つの性質を定義する。 (1)直接移動可能性 当該レイヤにおいて、現在の状態からある目標の状態へ
直接移動できる性質。つまり、当該レイヤよりも下位の
レイヤのみを利用して移動できる性質を示す。
【0093】(2)到達可能性 当該レイヤにおいて、現在の状態からの行動(何回でも
可)によって目標状態へ到達することが可能である性
質。図15には、各スタート(61−1、61−2、6
1−3)から到達可能である各レイヤのフィールド(6
0−1、60−2、60−3)上の範囲を破線の枠で示
している。
【0094】ある2つのレイヤに注目した場合、下位の
レイヤについての問題解決器はある状態の近傍での詳細
な移動についての知識を獲得できるが、遠方の目標状態
への移動についての知識を獲得することはできない。そ
の一方で、上位のレイヤについての問題解決器は遠方の
目標状態への大まかな移動についての知識を獲得するこ
とはできるが、詳細な状態遷移の手続についての知識を
獲得することはできない。つまり、問題解決器を階層化
することによって、下位レイヤの到達可能性が上位レイ
ヤの直接移動可能性に置き換わるのである。
【0095】例えば、図15において、レイヤ3である
フィールド60−3上において1マス分の距離であり、
直接移動可能であるスタート61−3と白印とは、その
下位層であるレイヤ2においては、それぞれがスタート
61−2と星印とに置き換わり、それらは共にフィール
ド61−2上の到達可能な範囲内に位置するようにな
る。つまりそれらはレイヤ2の問題解決器によって認知
距離の算出が可能であり、行動系列の生成が可能である
ことを示している。
【0096】階層化を利用して一般化状態空間中でスタ
ートからゴールまで移動する経路を求める課題を考え
る。図15で説明すれば、レイヤ1であるフィールド6
0−1上において、スタート61−1からゴール62−
1までの経路を求める課題を考える。
【0097】フィールド60−1に示されているよう
に、ゴール62−1は、スタート61−1の到達可能範
囲外に位置している。すなわち、レイヤ1の問題解決器
のみによる認知距離の算出は不能であり、行動系列の生
成は行なえない。
【0098】そこで、分節化関数を用い、スタート61
−1及びゴール62−1をレイヤ2であるフィールド6
0−2上のスタート61−2及びゴール62−2に抽象
化する。しかしながらレイヤ2においてもゴール62−
2はスタート61−2の到達可能範囲外である。
【0099】このため、分節化関数を更に適用し、スタ
ート61−2及びゴール62−2をレイヤ3であるフィ
ールド60−3上のスタート61−3及びゴール62−
3に抽象化する。このレイヤ3においては、ゴール62
−3はスタート61−2の到達可能範囲内に位置してい
る。そこで、レイヤ3についての問題解決器により具体
的な状態の移動の決定がなされてサブゴールが出力され
る。その後、このサブゴールのランドマーク位置関数に
よる写像であるランドマークが求められ、このランドマ
ークがレイヤ2に送り返される。
【0100】レイヤ2についての問題解決器では、スタ
ート61−2からこのランドマークに到達するまでの適
切な具体的な状態の移動の決定が行なわれ、そのための
サブゴールが出力される。その後、このサブゴールのラ
ンドマーク位置関数による写像であるランドマークが更
に求められ、このランドマークがレイヤ1に送り返され
る。
【0101】レイヤ1についての問題解決器では、スタ
ート61−1からこの送り返されてきたランドマークに
到達するまでの適切な具体的な状態の移動の決定が行な
われ、そのためのサブゴールが出力される。この後は、
このサブゴールからゴール62−1までの移動経路を求
めることとなる。
【0102】以上のような操作が各レイヤで繰り返され
ることによって最終的にスタート61−1からゴール6
2−1までの移動経路を求めることができる。以下、図
14に示した問題解決器50の構成について説明する。
【0103】問題解決器50において、移動可能状態モ
デル生成部(41−1、41−2)、一般化認知距離モ
ジュール(42−1、42−2)、選択器(43−1、
43−2)、状態バッファ(45−1、45−2)は、
各々図11の問題解決器40における同名の構成要素と
同様のものである。
【0104】スイッチャ(51−1、51−2)は、一
般化認知モジュール(42−1、42−2)への入力の
ひとつとして、下位のレイヤ(若しくは状態空間56)
から得られるゴールと、下位のレイヤから送り返されて
くるサブゴールのランドマークとのどちらかを選択する
ものである。スイッチャ(51−1、51−2)は、下
位レイヤから与えられるゴールを優先的に選択し、ま
ず、一般化認知モジュール(42−1、42−2)によ
る一般化認知距離の生成を試みる。ここで一般化認知距
離の生成が行なえなかったときには上位レイヤから送り
返されてくるサブゴールのランドマークを選択して一般
化認知モジュール(42−1、42−2)に一般化認知
距離の生成を行なわせる。
【0105】ランドマークデータベース(52−1、5
2−2)は当該レイヤとその当該レイヤに隣接する上位
のレイヤとにおける一般化状態の関係情報が格納されて
いるデータベースであり、前述した分節化関数及びラン
ドマーク位置関数を構成する元となるものである。
【0106】本実施例においては、分節化関数に関し、
TLM−SF(To Landmark Segmentation Function )
部(53−1、53−2)とFLM−SF(From Landm
arkSegmentation Function )部(54−1、54−
2)という2種類の分節化関数を適用する情報変換部を
用意している。
【0107】TLM−SF部(53−1、53−2)
は、ランドマークデータベース(52−1、52−2)
に格納されている関係情報に基づいて、下位レイヤのあ
る一般化状態を示す情報が入力されると、その状態から
到達可能である当該レイヤの範囲を集約する上位レイヤ
における一般化状態に対応するID(識別データ)を出
力するものであり、現在の一般化状態を示す情報の変換
に用いられる。
【0108】FLM−SF部(54−1、54−2)
は、ランドマークデータベース(52−1、52−2)
に格納されている関係情報に基づいて、下位レイヤのあ
る一般化状態を示す情報が入力されると、その状態に到
達可能である当該レイヤの範囲を集約する上位レイヤに
おける一般化状態に対応するIDを出力するものであ
り、目標(ゴール)である一般化状態を示す情報の変換
に用いられる。
【0109】LMPF(Landmark Position Function)
部(55−1、55−2)はランドマーク位置関数を適
用する情報変換を行なうものであり、上位レイヤのある
一般化状態を示す情報が入力されると、その状態に対応
する下位レイヤにおける到達可能範囲中の状態であって
その範囲を代表するランドマークについての一般化状態
を出力するものであり、上位レイヤから送り返されてく
るサブゴールの一般化状態を示す情報の変換に用いられ
る。
【0110】問題解決器50はこれらの各要素を備えて
構成されることで、遠く離れた状態間の行動決定を実現
する。なお、上述した階層化した構成による一般化状態
を用いた問題解決器において、認知距離の情報の保持に
要する記憶量は、図15を参照しても容易に分かるよう
に、その殆どが最下層のレイヤに関するものとなる。そ
してその記憶量は、その最下層のレイヤにおけるある状
態から直接移動可能な状態数の平均をmとし、認知距離
の保持量の上限をθするならば、O(Ns×(mのθ
乗))のオーダーとなる。このように、第三実施例は、
認知距離の学習結果の保持量を制限しつつ、遠く離れた
状態間での行動決定を可能にしている。
【0111】なお、以上までに説明した第一、第二、及
び第三実施例における問題解決によってなされる行動系
列の生成処理をコンピュータに行なわせるための制御プ
ログラムを作成してコンピュータ読み取り可能な記憶媒
体に記憶させ、そのプログラムを記憶媒体からコンピュ
ータに読み出させて実行させることにより、本発明に係
る問題解決器による行動系列の生成機能を汎用コンピュ
ータに行なわせることも可能である。
【0112】記憶させた制御プログラムをコンピュータ
で読み取ることの可能な記憶媒体の例を図16に示す。
同図に示すように、記憶媒体としては、例えば、コンピ
ュータ71に内蔵若しくは外付けの付属装置として備え
られるROMやハードディスク装置などのメモリ72、
フロッピー(登録商標)ディスク、MO(光磁気ディス
ク)、CD−ROM、DVD−ROMなどといった可搬
型記憶媒体73等が利用できる。また、記憶媒体は回線
74を介してコンピュータ71と接続されるコンピュー
タであるプログラムサーバ75が備える記憶装置76で
あってもよい。この場合には、制御プログラムを表現す
るデータ信号で搬送波を変調して得られる伝送信号を、
プログラムサーバ75から伝送媒体である回線74を通
じて伝送し、コンピュータ71では受信した伝送信号を
復調して制御プログラムを再生することで当該制御プロ
グラムの実行が可能となる。 (付記1) ある問題により定義される状態空間中で初
期状態と目標状態とが与えられたときに該初期状態から
該目標状態に至るまでの行動系列を生成する問題解決器
であって、前記状態空間中における任意の第一の状態か
ら該第一の状態とは異なる第二の状態に到達するまでの
行動系列の実行によって費やされる、該状態空間の環境
に対して作用させるコストを示す認知距離を学習する認
知距離学習手段と、前記認知距離学習手段による認知距
離の学習結果に基づいて、前記行動系列に属することと
なる行動であって、前記目標状態に至るために前記状態
空間中の特定の状態において次に実行すべき該行動を決
定する次行動決定手段と、を有することを特徴とする問
題解決器。
【0113】(付記2) 前記状態空間中における任意
の状態において実行し得る次の行動を提示する行動提示
手段を更に有し、前記次行動決定手段は、前記行動提示
手段により提示される行動のうち、該行動を行なったと
きに到達する状態から前記目標状態までの認知距離が少
なくなるものを選択する、ことを特徴とする付記1に記
載の問題解決器。
【0114】(付記3) 前記認知距離学習手段は、学
習結果である前記認知距離を保持し、前記次行動決定手
段は、前記認知距離学習手段に保持されている認知距離
の学習結果に基づいて前記行動を決定し、前記認知距離
学習手段は、同一の状態間についての認知距離を再度学
習したときには、保持されている認知距離を更新する、
ことを特徴とする付記1に記載の問題解決器。
【0115】(付記4) ある問題により定義される状
態空間中で初期状態と目標状態とが与えられたときに該
初期状態から該目標状態に至るまでの行動系列を生成す
る問題解決器であって、前記状態空間中における任意の
第一の状態から該第一の状態とは異なる第二の状態に到
達するまでの行動系列の実行によって費やされる、該状
態空間の環境に対して作用させるコストを示す認知距離
を学習する認知距離学習手段と、前記認知距離学習手段
による認知距離の学習結果に基づいて、前記行動系列に
属することとなる行動であって、前記目標状態に至るた
めに前記状態空間中の特定の状態において次に実行すべ
き該行動を実行することによって到達する状態である次
状態を決定する次状態決定手段と、を有することを特徴
とする問題解決器。
【0116】(付記5) 前記状態空間中における任意
の状態において実行し得る次の行動を実行することによ
って到達する状態を提示する状態提示手段を更に有し、
前記次状態決定手段は、前記状態提示手段により提示さ
れる状態のうち、該状態から前記目標状態までの認知距
離が少なくなるものを選択する、ことを特徴とする付記
4に記載の問題解決器。
【0117】(付記6) 前記認知距離学習手段は、学
習結果である前記認知距離を保持し、前記次状態決定手
段は、前記認知距離学習手段に保持されている認知距離
の学習結果に基づいて前記次状態を決定し、前記認知距
離学習手段は、同一の状態間についての認知距離を再度
学習したときには、保持されている認知距離を更新す
る、ことを特徴とする付記4に記載の問題解決器。
【0118】(付記7) 前記状態空間中の状態が属す
る範囲であって、前記認知距離学習手段によって認知距
離を学習することの可能な状態が属する該範囲を、該状
態空間を階層化した上位の状態空間におけるひとつの状
態に対応付ける分節化手段と、前記上位の状態空間にお
ける状態を、該状態に対応する下位の状態空間の範囲に
属し、該範囲を代表する状態であるランドマークに対応
付けるランドマーク位置手段と、前記上位の状態空間中
における任意の第一の状態から該第一の状態とは異なる
第二の状態に到達するまでの前記認知距離を学習する上
位認知距離学習手段と、前記上位認知距離学習手段によ
る前記上位の状態空間中における認知距離の学習結果に
基づいて、前記分節化手段によって前記目標状態に対応
付けられた前記上位の状態空間における目標状態に至る
ために、該分節化手段によって前記下位の状態空間中の
特定の状態に対応付けられた該上位の状態空間における
特定の状態において次に実行すべき該行動を実行するこ
とによって到達する該上位の状態空間における前記次状
態を決定する上位次状態決定手段と、を更に有し、前記
認知距離学習手段は、前記下位の状態空間についての前
記認知距離を学習し、前記次状態決定手段は、前記認知
距離学習手段による前記下位の状態空間についての認知
距離の学習結果に基づいて、前記ランドマーク位置手段
によって前記上位の状態空間における次状態に対応付け
られているランドマークに至るために前記下位の状態空
間中の特定の状態において次に実行すべき前記行動を実
行することによって到達する状態である次状態を決定す
る、ことを特徴とする付記4に記載の問題解決器。
【0119】(付記8) コンピュータに実行させるこ
とによって、ある問題により定義される状態空間中で初
期状態と目標状態とが与えられたときに該初期状態から
該目標状態に至るまでの行動系列を生成させる制御を該
コンピュータに行なわせる制御プログラムを記憶した該
コンピュータで読み取り可能な記憶媒体であって、前記
状態空間中における任意の第一の状態から該第一の状態
とは異なる第二の状態に到達するまでの行動系列の実行
によって費やされる、該状態空間の環境に対して作用さ
せるコストを示す認知距離を学習する制御と、前記認知
距離の学習結果に基づいて、前記行動系列に属すること
となる行動であって、前記目標状態に至るために前記状
態空間中の特定の状態において次に実行すべき該行動を
決定する制御と、をコンピュータに行なわせる制御プロ
グラムを記憶した記憶媒体。
【0120】(付記9) コンピュータに実行させるこ
とによって、ある問題により定義される状態空間中で初
期状態と目標状態とが与えられたときに該初期状態から
該目標状態に至るまでの行動系列を生成させる制御を該
コンピュータに行なわせる制御プログラムを記憶した該
コンピュータで読み取り可能な記憶媒体であって、前記
状態空間中における任意の第一の状態から該第一の状態
とは異なる第二の状態に到達するまでの行動系列の実行
によって費やされる、該状態空間の環境に対して作用さ
せるコストを示す認知距離を学習する制御と、前記認知
距離の学習結果に基づいて、前記行動系列に属すること
となる行動であって、前記目標状態に至るために前記状
態空間中の特定の状態において次に実行すべき該行動を
実行することによって到達する状態である次状態を決定
する制御と、をコンピュータに行なわせる制御プログラ
ムを記憶した記憶媒体。
【0121】(付記10) コンピュータに実行させる
ことによって、ある問題により定義される状態空間中で
初期状態と目標状態とが与えられたときに該初期状態か
ら該目標状態に至るまでの行動系列を生成させる制御を
該コンピュータに行なわせる制御プログラムを含む搬送
波に具現化されたコンピュータ・データ・シグナルであ
って、該制御プログラムは以下のステップをコンピュー
タに実行させる:前記状態空間中における任意の第一の
状態から該第一の状態とは異なる第二の状態に到達する
までの行動系列の実行によって費やされる、該状態空間
の環境に対して作用させるコストを示す認知距離を学習
し、前記認知距離の学習結果に基づいて、前記行動系列
に属することとなる行動であって、前記目標状態に至る
ために前記状態空間中の特定の状態において次に実行す
べき該行動を決定する。
【0122】(付記11) コンピュータに実行させる
ことによって、ある問題により定義される状態空間中で
初期状態と目標状態とが与えられたときに該初期状態か
ら該目標状態に至るまでの行動系列を生成させる制御を
該コンピュータに行なわせる制御プログラムを含む搬送
波に具現化されたコンピュータ・データ・シグナルであ
って、該制御プログラムは以下のステップをコンピュー
タに実行させる:前記状態空間中における任意の第一の
状態から該第一の状態とは異なる第二の状態に到達する
までの行動系列の実行によって費やされる、該状態空間
の環境に対して作用させるコストを示す認知距離を学習
し、前記認知距離の学習結果に基づいて、前記行動系列
に属することとなる行動であって、前記目標状態に至る
ために前記状態空間中の特定の状態において次に実行す
べき該行動を実行することによって到達する状態である
次状態を決定する。
【0123】
【発明の効果】以上詳細に説明したように、本発明は、
ある問題により定義される状態空間中で初期状態と目標
状態とが与えられたときに、該初期状態から該目標状態
に至るまでの行動系列を生成する問題解決器で、該状態
空間中における任意の状態から前記目標状態に到達する
までの行動系列の実行によって費やされる、該状態空間
の環境に対して作用させるコストを示す認知距離を学習
するようにし、その認知距離の学習結果に基づいて、該
行動系列に属することとなる行動であって、前記目標状
態に至るために前記状態空間中の特定の状態において次
に実行すべき該行動である次行動を決定する、若しくは
その次行動を実行することによって到達する状態である
次状態を決定するように構成する。
【0124】そして、この構成により、本発明は、行動
実行時の計算コストが低く抑えられ、且つ、目標状態の
変更に対する柔軟性が確保されるという効果を奏する。
【図面の簡単な説明】
【図1】本発明の原理構成を示す図である。
【図2】本発明を実施する問題解決器に解決させる問題
の例を説明する図である。
【図3】Q学習を用いた問題解決器と認知距離に基づく
問題解決器との構成を比較する図である。
【図4】図3に示す問題解決器で取り扱うベクトルの成
分を示す図である。
【図5】Qモジュールにおいて行なわれる学習処理の手
順を示すフローチャートである。
【図6】十分な学習が行なわれた後にQモジュールによ
って行なわれる処理の手順を示すフローチャートであ
る。
【図7】認知距離モジュールの入出力を説明する図であ
る。
【図8】認知距離モジュールにおいて行なわれる学習処
理の手順を示すフローチャートである。
【図9】十分な学習が行なわれた後に認知距離モジュー
ルによって行なわれる処理の手順を示すフローチャート
である。
【図10】一般化状態の定義を図2に導入した場合を示
す図である。
【図11】一般化認知距離に基づく問題解決器の構成を
示す図である。
【図12】図11に示す問題解決器で取り扱うベクトル
の成分を示す図である。
【図13】移動可能状態モデル生成部において行なわれ
る学習処理の手順を示すフローチャートである。
【図14】階層化された、一般化認知距離に基づく問題
解決器の構成を示す図である。
【図15】一般化状態で示される状態空間の階層化を説
明する図である。
【図16】記憶された制御プログラムをコンピュータで
読み取ることの可能な記憶媒体の例を示す図である。
【図17】オペレータ/世界モデル/順モデルを説明す
る図である。
【図18】即応的行動決定を説明する図である。
【図19】強化学習(Qモジュール/Critic)を
説明する図である。
【符号の説明】
1a、1b、20、30、40、50 問題解決器 2a、2b 認知距離学習手段 3a 次行動決定手段 3b 次状態決定手段 4a、4b、24、34、44、56 状態空間 10 移動ロボット 11、62−1、62−2、62−3 ゴール 12、60−1、60−2、60−3 フィールド 13 壁 21、31 行動モデル生成部 22 Qモジュール 23、33、43、43−1、43−2 選択器 32 認知距離モジュール 35 状態−行動バッファ 41、41−1、41−2 移動可能状態モデル生成部 42、42−1、42−2 一般化認知距離モジュール 45、45−1、45−2 状態バッファ 51−1、51−2 スイッチャ 52−1、52−2 ランドマークデータベース 53−1、53−2 TLM−SF部 54−1、54−2 FLM−SF部 55−1、55−2 LMPF部 61−1、61−2、61−3 スタート 71 コンピュータ 72 メモリ 73 可搬型記憶媒体 74 回線 75 プログラムサーバ 76 記憶装置
───────────────────────────────────────────────────── フロントページの続き (72)発明者 馬場 孝之 神奈川県川崎市中原区上小田中4丁目1番 1号 富士通株式会社内 Fターム(参考) 5H004 GB16 KC08 KC13

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 ある問題により定義される状態空間中で
    初期状態と目標状態とが与えられたときに該初期状態か
    ら該目標状態に至るまでの行動系列を生成する問題解決
    器であって、 前記状態空間中における任意の状態から前記目標状態に
    到達するまでの行動系列の実行によって費やされる、該
    状態空間の環境に対して作用させるコストを示す認知距
    離を学習する認知距離学習手段と、 前記認知距離学習手段による認知距離の学習結果に基づ
    いて、前記行動系列に属することとなる行動であって、
    前記目標状態に至るために前記状態空間中の特定の状態
    において次に実行すべき該行動である次行動を決定する
    次行動決定手段と、 を有することを特徴とする問題解決器。
  2. 【請求項2】 前記状態空間中における任意の状態にお
    いて実行し得る次の行動を提示する行動提示手段を更に
    有し、 前記次行動決定手段は、前記行動提示手段により提示さ
    れる行動のうち、該行動を行なったときに到達する状態
    から前記目標状態までの認知距離が少なくなるものを選
    択する、 ことを特徴とする請求項1に記載の問題解決器。
  3. 【請求項3】 前記認知距離学習手段は、学習結果であ
    る前記認知距離を保持し、 前記次行動決定手段は、前記認知距離学習手段に保持さ
    れている認知距離の学習結果に基づいて前記次行動を決
    定し、 前記認知距離学習手段は、同一の状態間についての認知
    距離を再度学習したときには、保持している認知距離を
    更新する、 ことを特徴とする請求項1に記載の問題解決器。
  4. 【請求項4】 ある問題により定義される状態空間中で
    初期状態と目標状態とが与えられたときに該初期状態か
    ら該目標状態に至るまでの行動系列を生成する問題解決
    器であって、 前記状態空間中における任意の状態から前記目標状態に
    到達するまでの行動系列の実行によって費やされる、該
    状態空間の環境に対して作用させるコストを示す認知距
    離を学習する認知距離学習手段と、 前記認知距離学習手段による認知距離の学習結果に基づ
    いて、前記行動系列に属することとなる行動であって、
    前記目標状態に至るために前記状態空間中の特定の状態
    において次に実行すべき該行動を実行することによって
    到達する状態である次状態を決定する次状態決定手段
    と、 を有することを特徴とする問題解決器。
  5. 【請求項5】 前記状態空間中における任意の状態にお
    いて実行し得る次の行動を実行することによって到達す
    る状態を提示する状態提示手段を更に有し、 前記次状態決定手段は、前記状態提示手段により提示さ
    れる状態のうち、該状態から前記目標状態までの認知距
    離が少なくなるものを選択する、 ことを特徴とする請求項4に記載の問題解決器。
  6. 【請求項6】 前記認知距離学習手段は、学習結果であ
    る前記認知距離を保持し、 前記次状態決定手段は、前記認知距離学習手段に保持さ
    れている認知距離の学習結果に基づいて前記次状態を決
    定し、 前記認知距離学習手段は、同一の状態間についての認知
    距離を再度学習したときには、保持している認知距離を
    更新する、 ことを特徴とする請求項4に記載の問題解決器。
  7. 【請求項7】 前記状態空間中の状態が属する範囲であ
    って、前記認知距離学習手段によって認知距離を学習す
    ることの可能な状態が属する該範囲を、該状態空間を階
    層化した上位の状態空間におけるひとつの状態に対応付
    ける分節化手段と、 前記上位の状態空間における状態を、該状態に対応する
    下位の状態空間の範囲に属し、該範囲を代表する状態で
    あるランドマークに対応付けるランドマーク位置手段
    と、前記上位の状態空間中における任意の状態から、前
    記分節化手段によって前記目標状態に対応付けられた前
    記上位の状態空間における目標状態に到達するまでの前
    記認知距離を学習する上位認知距離学習手段と、 前記上位認知距離学習手段による前記上位の状態空間中
    における認知距離の学習結果に基づいて、前記分節化手
    段によって前記目標状態に対応付けられた前記上位の状
    態空間における目標状態に至るために、該分節化手段に
    よって前記下位の状態空間中の特定の状態に対応付けら
    れた該上位の状態空間における特定の状態において次に
    実行すべき該行動を実行することによって到達する該上
    位の状態空間における前記次状態を決定する上位次状態
    決定手段と、 を更に有し、 前記認知距離学習手段は、前記下位の状態空間について
    の前記認知距離を学習し、 前記次状態決定手段は、前記認知距離学習手段による前
    記下位の状態空間についての認知距離の学習結果に基づ
    いて、前記ランドマーク位置手段によって前記上位の状
    態空間における次状態に対応付けられているランドマー
    クに至るために前記下位の状態空間中の特定の状態にお
    いて次に実行すべき前記行動を実行することによって到
    達する前記次状態を決定する、 ことを特徴とする請求項4に記載の問題解決器。
  8. 【請求項8】 コンピュータに実行させることによっ
    て、ある問題により定義される状態空間中で初期状態と
    目標状態とが与えられたときに該初期状態から該目標状
    態に至るまでの行動系列を生成させる制御を該コンピュ
    ータに行なわせる制御プログラムを記憶した該コンピュ
    ータで読み取り可能な記憶媒体であって、 前記状態空間中における任意の第一の状態から該第一の
    状態とは異なる第二の状態に到達するまでの行動系列の
    実行によって費やされる、該状態空間の環境に対して作
    用させるコストを示す認知距離を学習する制御と、 前記認知距離の学習結果に基づいて、前記行動系列に属
    することとなる行動であって、前記目標状態に至るため
    に前記状態空間中の特定の状態において次に実行すべき
    該行動を決定する制御と、 をコンピュータに行なわせる制御プログラムを記憶した
    記憶媒体。
  9. 【請求項9】 コンピュータに実行させることによっ
    て、ある問題により定義される状態空間中で初期状態と
    目標状態とが与えられたときに該初期状態から該目標状
    態に至るまでの行動系列を生成させる制御を該コンピュ
    ータに行なわせる制御プログラムを記憶した該コンピュ
    ータで読み取り可能な記憶媒体であって、 前記状態空間中における任意の第一の状態から該第一の
    状態とは異なる第二の状態に到達するまでの行動系列の
    実行によって費やされる、該状態空間の環境に対して作
    用させるコストを示す認知距離を学習する制御と、 前記認知距離の学習結果に基づいて、前記行動系列に属
    することとなる行動であって、前記目標状態に至るため
    に前記状態空間中の特定の状態において次に実行すべき
    該行動を実行することによって到達する状態である次状
    態を決定する制御と、 をコンピュータに行なわせる制御プログラムを記憶した
    記憶媒体。
JP2000352343A 2000-11-20 2000-11-20 問題解決器として動作するデータ処理装置、及び記憶媒体 Expired - Fee Related JP4699598B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2000352343A JP4699598B2 (ja) 2000-11-20 2000-11-20 問題解決器として動作するデータ処理装置、及び記憶媒体
US09/813,027 US6633858B2 (en) 2000-11-20 2001-03-21 Problem solver uses learning a cognitive distance to attain a goal state

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000352343A JP4699598B2 (ja) 2000-11-20 2000-11-20 問題解決器として動作するデータ処理装置、及び記憶媒体

Publications (2)

Publication Number Publication Date
JP2002157571A true JP2002157571A (ja) 2002-05-31
JP4699598B2 JP4699598B2 (ja) 2011-06-15

Family

ID=18825259

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000352343A Expired - Fee Related JP4699598B2 (ja) 2000-11-20 2000-11-20 問題解決器として動作するデータ処理装置、及び記憶媒体

Country Status (2)

Country Link
US (1) US6633858B2 (ja)
JP (1) JP4699598B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006268812A (ja) * 2005-02-23 2006-10-05 Sony Corp 学習制御装置および学習制御方法、並びに、プログラム
JP2006313512A (ja) * 2005-04-04 2006-11-16 Sony Corp 学習制御装置、学習制御方法、およびプログラム
JP2007018490A (ja) * 2005-02-23 2007-01-25 Sony Corp 行動制御装置および行動制御方法、並びに、プログラム
WO2021070732A1 (ja) * 2019-10-11 2021-04-15 ソニー株式会社 情報処理装置、情報処理方法、並びにプログラム
JP7398830B2 (ja) 2021-08-05 2023-12-15 アジャイルソーダ インコーポレイテッド ピックアンドプレイスシステムのための深層強化学習装置及び方法

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6917925B2 (en) * 2001-03-30 2005-07-12 Intelligent Inference Systems Corporation Convergent actor critic-based fuzzy reinforcement learning apparatus and method
US7286484B2 (en) * 2003-01-10 2007-10-23 Chunghwa Telecom Co., Ltd. Q-learning-based multi-rate transmission control (MRTC) scheme for RRC in WCDMA systems
US20050041746A1 (en) * 2003-08-04 2005-02-24 Lowell Rosen Software-defined wideband holographic communications apparatus and methods
US7581159B2 (en) * 2004-11-23 2009-08-25 Texas Instruments Incorporated Simplified decoding using structured and punctured LDPC codes
WO2016100973A1 (en) * 2014-12-19 2016-06-23 Schlumberger Technology Corporation Method of creating and executing a plan
US11288609B2 (en) 2018-12-04 2022-03-29 Schlumberger Technology Corporation Systems and methods for executing a plan associated with multiple equipment by using rule-based inference
CN112384937A (zh) 2018-05-12 2021-02-19 地质探索系统公司 地震数据解释系统
WO2020113027A2 (en) * 2018-11-28 2020-06-04 Google Llc Robot navigation using a high-level policy model and a trained low-level policy model
US11753890B2 (en) 2019-01-15 2023-09-12 Schlumberger Technology Corporation Real-time pump-down perforating data acquisition and application automation response
CA3087962A1 (en) 2019-07-24 2021-01-24 Schlumberger Canada Limited Coordinated pumping operations

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006268812A (ja) * 2005-02-23 2006-10-05 Sony Corp 学習制御装置および学習制御方法、並びに、プログラム
JP2007018490A (ja) * 2005-02-23 2007-01-25 Sony Corp 行動制御装置および行動制御方法、並びに、プログラム
JP4525477B2 (ja) * 2005-02-23 2010-08-18 ソニー株式会社 学習制御装置および学習制御方法、並びに、プログラム
JP2006313512A (ja) * 2005-04-04 2006-11-16 Sony Corp 学習制御装置、学習制御方法、およびプログラム
WO2021070732A1 (ja) * 2019-10-11 2021-04-15 ソニー株式会社 情報処理装置、情報処理方法、並びにプログラム
JP7398830B2 (ja) 2021-08-05 2023-12-15 アジャイルソーダ インコーポレイテッド ピックアンドプレイスシステムのための深層強化学習装置及び方法

Also Published As

Publication number Publication date
JP4699598B2 (ja) 2011-06-15
US20020062156A1 (en) 2002-05-23
US6633858B2 (en) 2003-10-14

Similar Documents

Publication Publication Date Title
JP2002157571A (ja) 問題解決器、及び記憶媒体
CN108459503B (zh) 一种基于量子蚁群算法的无人水面艇航迹规划方法
Ding et al. LTL control in uncertain environments with probabilistic satisfaction guarantees
Kaelbling Learning to achieve goals
CN111191934B (zh) 一种基于强化学习策略的多目标云工作流调度方法
WO2019222745A1 (en) Sample-efficient reinforcement learning
CN112119409A (zh) 具有关系存储器的神经网络
CN111898728A (zh) 一种基于多Agent强化学习的团队机器人决策方法
KR20210011422A (ko) 모델 없는 강화 학습을 위한 스택형 컨볼루션 장단기 메모리
KR20220137732A (ko) 적응형 리턴 계산 방식을 사용한 강화 학습
Yang et al. Intelligent path planning of underwater robot based on reinforcement learning
CN114897160A (zh) 模型训练方法、系统及计算机存储介质
Vlassis et al. A fast point-based algorithm for POMDPs
Lanzi et al. Optimal classifier system performance in non-Markov environments
Jeddi et al. Lyapunov-based uncertainty-aware safe reinforcement learning
US20220027708A1 (en) Arithmetic apparatus, action determination method, and non-transitory computer readable medium storing control program
CN116009542A (zh) 动态多智能体覆盖路径规划方法、装置、设备及存储介质
Śniezyński et al. Combining rule induction and reinforcement learning: An agent-based vehicle routing
Sun et al. Emulation Learning for Neuromimetic Systems
CN113671942A (zh) 用于控制机器人的设备和方法
Yu et al. Deep q-network with predictive state models in partially observable domains
Ge et al. A new improved CMAC neural network
Zhang et al. Digital Twin Enhanced Reinforcement Learning for Integrated Scheduling in Automated Container Terminals
Hernandez-Gardiol et al. Hierarchical memory-based reinforcement learning
Ye A Review of Path Planning Based on IQL and DQN

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070709

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110118

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110209

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110301

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110303

LAPS Cancellation because of no payment of annual fees