JP2002157571A - 問題解決器、及び記憶媒体 - Google Patents
問題解決器、及び記憶媒体Info
- Publication number
- JP2002157571A JP2002157571A JP2000352343A JP2000352343A JP2002157571A JP 2002157571 A JP2002157571 A JP 2002157571A JP 2000352343 A JP2000352343 A JP 2000352343A JP 2000352343 A JP2000352343 A JP 2000352343A JP 2002157571 A JP2002157571 A JP 2002157571A
- Authority
- JP
- Japan
- Prior art keywords
- state
- action
- learning
- space
- cognitive distance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/40—Robotics, robotics mapping to robotics vision
- G05B2219/40465—Criteria is lowest cost function, minimum work path
Abstract
標状態の変更に対する柔軟性を確保する問題解決器を提
供する。 【解決手段】 ある問題により定義される状態空間中で
初期状態と目標状態とが与えられたときに該初期状態か
ら該目標状態に至るまでの行動系列を生成する問題解決
器(1a、1b)に、状態空間中における任意の状態か
ら目標状態に到達するまでの行動系列の実行によって費
やされる、該状態空間の環境に対して作用させるコスト
を示す認知距離を学習する認知距離学習手段(2a、2
b)と、その認知距離の学習結果に基づいて、上述した
行動系列に属することとなる行動であって、目標状態に
至るために状態空間中の特定の状態において次に実行す
べき該行動を決定する次行動決定手段3a、若しくは該
行動を実行することによって到達する状態を決定する次
状態決定手段3bとを備える。
Description
関し、更に詳しくは、ある問題により定義される状態空
間中で初期状態と目標状態とが与えられたときに初期状
態から目標状態に至るまでの行動系列を生成する問題解
決器に関する。
初期状態と目標状態が与えられたときに、初期状態から
目標状態に至るまでの行動系列を生成する問題解決器と
して、一般問題解決器(GPS:General Problem Solv
er)がよく知られている。
state(t)に対して行動action(t)を適
用した(すなわち、行動を起こした)場合に到達する状
態state(t+1)を予測するモデル(このモデル
は世界モデルあるいはフォワードモデルなどと呼ばれて
いる)を有している。
より定義される状態空間中で、まず初期状態と目標状態
との差異が取り出される。そして、その差異を減少させ
るような行動(オペレータ)が選択される。
と、つまりそのオペレータの適用条件が満たされること
を次の副目標とし、以降、差異の検出とオペレータの選
択とが繰り返される。その結果、差異がなくなったとき
に、初期状態から目標状態に至るまでのオペレータの系
列、すなわちプランが得られる。そして最後にこのプラ
ンが実行される。
(古典的プランニングなどとも呼ばれている)は、行動
実行時の計算量が多量になる(計算コストが大きい)と
いう問題点を抱えている。
tate(t)(以下、「s(t)」と略す)から直接
に行動action(t)(以下、「a(t)」と略
す)を導くようにして、実時間動作を必要とするシステ
ムへの適用を可能にした即応的行動決定(リアクティブ
プランニング)がある。これは、行動実行時の計算コス
トは小さいものの、目標状態の変更に対して行動を変化
させることができないため、柔軟性に乏しいという問題
がある。
報酬(または効用)として表現し、実行すべき行動系列
の途中の予測評価を用いることで、目標状態の変更に対
し、実行すべき行動を学習によって変化させる技法であ
る強化学習というものがある。
学習は、状態s(t)から行動a(t+1)へのマッピ
ングを外界から得られる報酬に基づいて変更する。図1
9に(a)として示すように、Q学習においては、状態
s(t)における行動a(t+1)に対応する予測報酬
としてのQ値であるQ(s(t)+a(t))をQモジ
ュールが見積もり、そのQ値の大きい(予測報酬の高
い)行動a(t+1)を優先的に選択するようにするこ
とで合理的な行動選択が行なわれる。
ルであるActor-Criticモデルでは、図19に(b)とし
て示すCriticモジュールが状態s(t)により決定され
る予測報酬としてのV値であるvalue(s(t))
を見積もり、ここから得られる予測報酬の誤差に基づい
て実行すべき行動の選択確率をActor モジュールが変化
させるというものである。
学習モデルにおいても行動実行時には迅速な行動決定が
行なえる。なお、プランニングについては、例えば、Ru
ssel, S. J. & Norvig, P. : Artifical Intelligence:
Modern Approach, Prentice-Hall International, In
c.(邦訳:エージェントアプローチ 人工知能、共立出
版)に詳細に説明されており、強化学習については、例
えば、Kaelbling, L. P., Littman, M. L., & Moore,
A. W. : Reinforcement Learning: A Survey, J. Artif
ical Intelligence Reserch, Vol.4, pp237-285(1996)
に詳細に説明されている。
的プランニングは行動実行時の計算のコストが大きい問
題を有していた。
ングよりも行動実行時の計算コストを低減させることが
できるものの、目標状態の変更に対して行動を変化させ
ることができないため、柔軟性に乏しいという問題を有
していた。
更に対して行動を変化させることが一応可能ではあるも
のの、目標状態が変更されたときにはそれまでの学習結
果は基本的には再利用できないので学習をやり直す必要
がある。ところが、特定された目標状態に対する学習に
要する学習量(学習コスト)は多大であるので、結果的
に目標状態を変更することの許容される場合は限られて
しまうため、柔軟性の確保は不十分であった。
トを低く抑えつつ、目標状態の変更に対する柔軟性を確
保する問題解決器を提供することが本発明が解決しよう
とする課題である。
図であり、(a)は本発明に係る問題解決器の第一の構
成を、(b)は本発明に係る問題解決器の第二の構成
を、それぞれ示している。
明に係る問題解決器(1a、1b)は、どちらも、ある
問題により定義される状態空間中で初期状態と目標状態
とが与えられたときに該初期状態から該目標状態に至る
までの行動系列を生成するものである。
知距離学習手段(2a、2b)は、どちらも、上述した
状態空間中における任意の状態から上述した目標状態に
到達するまでの行動系列の実行によって費やされる、該
状態空間の環境に対して作用させるコストを示す認知距
離を学習するものである。なお、この認知距離は、状態
空間中における任意の2つの状態に対応して得られる値
であり、2つの状態の単なる物理的な隔たりの大きさを
示す値(すなわち距離)を具体例のひとつに挙げること
ができるが、これに限定されるものではない。
認知距離学習手段(2a)による認知距離の学習結果に
基づいて、上述した行動系列に属することとなる行動で
あって、目標状態に至るために上述した状態空間中の特
定の状態において次に実行すべき該行動である次行動を
決定するものである。
題解決器1aが状態空間中における任意の状態において
実行し得る次の行動を提示する行動提示手段を更に有
し、次行動決定手段3aが、この行動提示手段により提
示される行動のうち、該行動を行なったときに到達する
状態から目標状態までの認知距離が少なくなるものを選
択するようにするとよい。
bは、認知距離学習手段(2a)による認知距離の学習
結果に基づいて、上述した行動系列に属することとなる
行動であって、目標状態に至るために上述した状態空間
中の特定の状態において次に実行すべき該行動を実行す
ることによって到達する状態である次状態を決定するも
のである。
題解決器1bが状態空間中における任意の状態において
実行し得る次の行動を実行することによって到達する状
態を提示する状態提示手段を更に有し、次状態決定手段
3bが、この状態提示手段により提示される状態のう
ち、該状態から目標状態までの認知距離が少なくなるも
のを選択するようにするとよい。
くは図1(b)に示す構成を有することによって、認知
距離学習手段(2a、2b)において状態空間中におけ
る任意の状態から目標状態までの認知距離の学習が行な
われ、そしてこの認知距離の学習結果に基づいて行動系
列の生成が行なわれる。この認知距離は、強化学習にお
ける予測評価と異なり、学習中に目標状態が変更すると
その変更が学習結果に直ちに反映される。しかも、次行
動決定手段3aによる次行動の決定、及び次状態決定手
段3bによる次状態の決定は、認知距離学習手段(2
a、2b)の学習結果である認知距離の単純な大小判断
によって行なうことができる。従って行動実行時の計算
コストは低く抑えられ、且つ、目標状態の変更に対する
柔軟性が確保される。
す構成において、認知距離学習手段2a(若しくは2
b)が、学習結果である認知距離を保持し、次行動決定
手段3a(若しくは次状態決定手段3b)が、認知距離
学習手段2a(若しくは2b)に保持されている認知距
離の学習結果に基づいて次行動(次状態)を決定し、認
知距離学習手段2a(若しくは2b)が、同一の状態間
についての認知距離を再度学習したときには、保持して
いる認知距離を更新するように構成してもよく、この構
成によれば、行動実行時の経験をも学習に反映させるこ
とができ、目標状態の変更に対する柔軟性が更に向上す
る。
態空間中の状態が属する範囲であって、認知距離学習手
段2bによって認知距離を学習することの可能な状態が
属する該範囲を、該状態空間を階層化した上位の状態空
間におけるひとつの状態に対応付ける分節化手段と、該
上位の状態空間における状態を、該状態に対応する下位
の状態空間の範囲に属し、該範囲を代表する状態である
ランドマークに対応付けるランドマーク位置手段と、該
上位の状態空間中における任意の状態から、該分節化手
段によって該目標状態に対応付けられた該上位の状態空
間における目標状態に到達するまでの該認知距離を学習
する上位認知距離学習手段と、該上位認知距離学習手段
による該上位の状態空間中における認知距離の学習結果
に基づいて、該分節化手段によって該目標状態に対応付
けられた該上位の状態空間における目標状態に至るため
に、該分節化手段によって該下位の状態空間中の特定の
状態に対応付けられた該上位の状態空間における特定の
状態において次に実行すべき該行動を実行することによ
って到達する該上位の状態空間における該次状態を決定
する上位次状態決定手段と、を問題解決器1bが更に有
し、認知距離学習手段2bが、該下位の状態空間につい
ての該認知距離を学習し、次状態決定手段3bが、認知
距離学習手段2bによる該下位の状態空間についての認
知距離の学習結果に基づいて、該ランドマーク位置手段
によって該上位の状態空間における次状態に対応付けら
れているランドマークに至るために該下位の状態空間中
の特定の状態において次に実行すべき該行動を実行する
ことによって到達する該次状態を決定するように構成し
てもよく、この構成によれば、認知距離の学習結果の保
持量を制限しつつ、状態空間中で遠く離れた状態間での
行動決定が行なえるようになる。
(1a、1b)の備える各構成により行なわれる機能と
同様の制御をコンピュータに行なわせる制御プログラム
を記憶したコンピュータ読み取り可能な記憶媒体から、
その制御プログラムをコンピュータに読み出させて実行
させることによっても、前述した課題を解決することが
できる。
に基づいて説明する。なお、ここでは、本発明を実施す
る問題解決器に図2に示す問題を解決させる場合を例に
して説明する。
ーションタスクである。同図に示されている問題は、移
動ロボット10がゴール11に到達する経路を求めると
いうものである。ここで、移動ロボット10は、同図に
示すフィールド12のマス目のどこに自分が現在位置し
ているかを示す情報(例えば2次元の座標情報)を得る
ことができるものとし、更に、このフィールド12のマ
ス目間を上下左右に1マスずつ移動することができるも
のとする。但し、フィールド12の四方を取り囲む壁1
3にぶつかっているときには、移動ロボット10はその
壁13の方向への移動は行なえないものとする。
学習を用いた問題解決器と、本発明に係る、認知距離に
基づく問題解決器との構成を比較する図である。なお、
同図においては、図4に示すように、現在の状態s
(t)と、その状態において行なう行動a(t+1)と
をペアとするベクトルが取り扱われる。
いた問題解決器について先に説明する。同図に示してい
る問題解決器20は、行動モデル生成部21、Qモジュ
ール22、及び選択器23を備えて構成されており、現
在の状態s(t)とその状態において試行した行動a
(t+1)とに応じて与えられる報酬(reward)
を、問題が定義されている状態空間24から受け取るこ
とで学習を繰り返し、十分な学習を終えた後には、現在
の状態s(t)において次に行なう適切な行動a(t+
1)を迅速に出力できるようになるというものである。
(t)におけるとり得る行動の一覧(行動リスト)を生
成して出力する。図2の問題例で説明すれば、移動ロボ
ット10の現在の位置において可能な行動(フィールド
12における1マス移動)の一覧を生成し、行動リスト
として出力する。
力される現在の状態s(t)と学習中に状態空間24か
ら入力される報酬(reward)とに基づいて、その
状態において実行し得る行動a(t+1)に対して期待
される報酬を算定する。
10は、学習時にはフィールド12上の様々なマスにお
いて実際に上下左右への1マスの移動を実行する。この
とき、この移動の実行によって移動ロボット10がゴー
ル11に到達したときのみ報酬が与えられる(他の状態
では報酬が無い)ようにしておく。この報酬は即時評価
と呼ばれている。Qモジュール22は、この報酬と、こ
の報酬を得たときの移動ロボット10のフィールド12
上の直前の位置(状態)及びその位置で実行された移動
(行動)の内容とに基づいて、フィールド12上の各位
置で実行する各移動行動に対して期待される報酬(この
期待される報酬の期待値は遅延評価と呼ばれている)を
Q値として見積もり、この結果をQ値リストとして出力
する。Qモジュール22は、十分な学習を行なうことに
よってこの見積もりの確度を向上させる。
処理の手順を示すフローチャートを図5に示し、同図に
従ってその手順を説明する。図2の問題例で説明すれ
ば、この学習処理は、学習中に移動ロボット10がフィ
ールド12上を移動する度に行なわれる。
おける報酬rが状態空間24から、また前述した行動リ
ストLaが行動モデル生成部21から、それぞれ取得さ
れ、更に、この状態sに至った直前の行動a(t)、す
なわち、問題解決器20による直前の出力も取得される
(S101)。
(t)において行ない得る行動aがひとつ取得される
(S102)。そして、この行動aを実行したときに到
達する状態s(t+1)が求められる(S103)。
れているハッシュテーブルが参照され、s(t+1)+
aなるベクトルをキーとしたときにそのキーに対応付け
られているQ値q(t+1)が取得される(S10
4)。なお、このハッシュテーブルにおけるQ値の初期
値は全てゼロ(ヌル)であるが、後述する処理ステップ
の作用によってQ値が更新される。
れたQ値q(t+1)が、Qモジュール22の出力情報
である前述したQ値リストLqに追加される(S10
5)。ここで、行動リストLaに含まれている全ての行
動aの要素について、上述したS103からS105に
かけての処理が実行されたか否かが判定され(S10
6)、この判定結果がNoならばS102へ戻って上述
した処理が繰り返される。
た場合には、Q値リストLqが参照され、そこからQ値
q(t+1)の最大値maxQが求められる(S10
7)。更に、前述したハッシュテーブルが参照され、そ
こからs(t)+a(t+1)なるベクトルをキーとし
たときに対応するQ値q(t)が取得される(S10
8)。
た値に基づき、ハッシュテーブルに示されているQ値q
(t)が下記の式に従って更新される(S109)。q
(t)+α(r+γmaxQ−q(t))→q(t)上
式はQ学習における基本的なQ値の更新式であり、良く
知られている。なお、上式において、γ(0≦γ<1)
は割引率と呼ばれ、ある状態の次の状態において獲得さ
れる将来の報酬を、現在の状態においてはどの程度割り
引いて評価するかを決めるために用いられる。また、α
(0<α≦1)は学習率と呼ばれ、学習中における1回
毎の試行の結果を学習結果へどの程度反映させるかを決
定するために用いられる。
習時には上述した処理が行なわれる。次に図6について
説明する。同図は十分な学習が行なわれた後にQモジュ
ール22によって行なわれる処理の手順を示すフローチ
ャートである。
から、また前述した行動リストLaが行動モデル生成部
21から、それぞれ取得される(S201)。続いて、
行動リストLaから現在の状態s(t)において行ない
得る行動aがひとつ取得される(S202)。
れている前述したハッシュテーブルが参照され、そこか
らs (t)+aなるベクトルをキーとしたときに対応
するQ値q(t)が取得される(S203)。
れたQ値q(t)が、Qモジュール22の出力情報であ
る前述したQ値リストLqに追加される(S204)。
ここで、行動リストLaに含まれている全ての行動aの
要素について、上述したS203及びS204の処理が
実行されたか否かが判定され(S205)、この判定結
果がNoならばS202へ戻って上述した処理が繰り返
される。
た場合にはQ値リストLqが選択器23へと出力される
(S206)。以上のように、Qモジュール22は、十
分な学習が行なわれた後には、現在の状態s(t)に対
応するQ値リストLqを直ぐに作成し出力することがで
きるようになる。
十分な学習を行なったQモジュール22から出力される
Q値リストに基づいて、期待される報酬の最も高い(遅
延評価の最も良い)行動を行動モデル生成部21から出
力される行動リストより選択し、その選択結果を行動a
(t+1)として出力する。図2の問題例で説明すれ
ば、移動ロボット10のフィールド12上の現在の位置
において可能な1マス行動のうち、ゴール11へ到達で
きる期待が最も高くなるものを選択することになり、そ
のマスに移動ロボット10を移動させる指示が出力され
る。
に動作することによって、ある状態とその状態において
行なう行動に対するQ値の学習が行なわれ、行動実行時
にはこの学習結果に基づいた適切な行動の選択が迅速に
行なわれるようになる。但し、図2に示す問題において
は得られる報酬とゴール11の位置との間に依存性があ
るために、この問題においてゴール11が移動する場合
には、それまでのQ値の学習結果を再利用できず、再学
習が必要となってしまう。
発明に係る認知距離に基づく問題解決器について説明す
る。この図に示す問題解決器30は、基本的には(a)
に示したQ学習を用いた問題解決器20に設けられてい
るQモジュール22が認知距離モジュール32に置き換
えられ、更に状態−行動バッファ35が追加されて構成
されている。そして、与えられる現在の自己の状態s
(t)と到達すべき目標状態を示す“goal(状態+
行動)" ベクトルとを、問題により定義されている状態
空間34から受け取るという試行を繰り返し、十分な試
行が行なわれるにつれて、現在の自己の状態s(t)及
び到達すべき目標状態ベクトルgoal(状態+行動)
の入力に対し、次に行なう適切な行動a(t+1)が迅
速に出力できるようになるというものである。
動モデル生成部21と同様に、現在の状態s(t)にお
けるとり得る行動の一覧(行動リスト)を生成して出力
する。
終えた後には、図7に示すように、移動元である“fr
om(状態+行動)”ベクトルと移動先である“to
(状態+行動)”ベクトルとの2つのベクトルの入力に
応じ、fromベクトルからtoベクトルへのベクトル
間の移動に要する距離(distance)を出力するものであ
る。この距離が認知距離(Cognitive Distance)であ
る。
は、センサ入力Aに入力される状態空間34の現在の状
態s (t)、及びセンサ入力Bに入力される到達すべ
き状態空間34中の目標状態goal(state+a
ction)に基づいて、状態s(t)とその状態にお
いて実行し得る行動a(t+1)とよりなるベクトルか
ら目標状態を示すベクトルへの移動に要する距離を算出
し、距離リストとして出力する。また、算出された距離
の値はテーブルにして蓄積する。
ュール32は、移動ロボット10のフィールド12の現
在の位置とゴール11の位置及びその行動の状況とに基
づいて、移動ロボット10のフィールド12の現在の位
置において実行し得る移動と、その移動の結果の移動ロ
ボット10−ゴール11間の認知距離(移動に要するマ
スの数)との関係を示す距離リストを生成して出力す
る。
ら出力される距離リストに基づいて、認知距離が最も短
くなる行動を行動モデル生成部21から出力される行動
リストより選択し、その選択結果を行動a(t+1)と
して出力する。図2の問題例で説明すれば、移動ロボッ
ト10のフィールド12上の現在の位置において可能な
1マス移動のうち、ゴール11との距離が最も短くなる
ものを選択することになり、そのマスに移動ロボット1
0を移動させる指示を出力する。
させるようにして、認知距離が短くなる行動ほど高い確
率で選択されるように選択器33を構成してもよい。状
態−行動バッファ35は、状態s(t)において行なっ
た行動a(t+1)の過去の経験を保持するバッファで
あり、状態s(t)と、その状態において行なった行動
a(t+1)とをペアとするベクトルを保持する。な
お、状態−行動バッファ35のサイズは有限とし、保持
量を超えたときには、新規のベクトルを、保持されてい
る最古のベクトルと入れ替えて保持するようにする。
ファ35を参照し、距離の導出の対象である状態ととり
得る行動とのペアのベクトルが状態−行動バッファ35
に既に保持されているときには、認知距離モジュール3
2が蓄積している距離のテーブルを参照し、そこに示さ
れているそのベクトルに対応する距離と今回改めて導出
した距離とを比較し、改めて導出した距離の方が短いの
であればその距離テーブルを更新して距離の値を改めて
導出したものに変更する。この距離テーブルの更新を行
なうことによって、それまでになされた試行に基づく学
習結果が修正されるので、目標状態の変化への対応が柔
軟に行なわれる。
7に示す入出力関係を有する認知距離モジュール32に
おいて行なわれる、学習処理の手順を示すフローチャー
トである。この学習処理は、状態空間における状態+行
動を特定する、前述したfromベクトル(fベクトル
と略す)とtoベクトル(tベクトルと略す)との2つ
の任意のベクトル間の距離の学習を行なうものである。
この学習処理は、fベクトル若しくはtベクトルが変化
する度に行なわれる。
れ、更に、両ベクトルで示される状態間の距離dが両ベ
クトルに基づいて求められる(S301)。ここで、f
ベクトル及びtベクトルからハッシュコードであるベク
ターキーvが作成される(S302)。
するか否かが判定される(S303)。判定結果がYe
sならば距離が代入される変数Dに値「0」が代入され
(S304)、その後はS309に進む。
らば、認知距離モジュール32の内部に設けられている
ハッシュテーブルが参照され、ベクターキーvをキーと
したときにそのキーに対応付けられている距離が取得さ
れ、上述した変数Dに代入される(S305)。
か、すなわち、上述したハッシュテーブルにおいてベク
ターキーvに対応付けられている値が空であるか否かが
判定され(S306)、この判定結果がNoならば変数
Dの値がS301の処理によって取得されていた距離d
の値よりも大きいか否かが更に判定され(S307)、
この判定結果がNoならばこの学習処理が終了する。
07のいずれかの判定処理での判定結果がYesであっ
たときには、S301の処理によって取得されていた距
離dの値を変数Dに代入する(S308)。
され、上述したベクターキーvに対応付けられている値
が変数Dの現在の値に更新される(S309)。この判
定結果がNoならばこの学習処理が終了する。
にして学習処理が行なわれる。なお、図3(b)に示す
問題解決器30においては、上述した学習処理は、認知
距離モジュール32と状態−行動バッファ35との組み
合わせにより実行される。
ル32には、目標状態を示すベクトルgoal(sta
te+action)とが状態空間34から入力され、
このベクトルは上述したtベクトルとして扱われる。そ
の一方で、現在の自己の状態s(t)と、この状態sに
おける学習行動において実際に試行された移動行動a
(t+1)とが状態−行動バッファ35に入力されてf
ベクトルが生成され、認知距離モジュール32に入力さ
れる。更に、状態−行動バッファ35の履歴が参照され
て同一のfベクトルの存在の有無が調べられ、存在する
のであれば、ハッシュテーブルに示されている距離と上
述した距離dとの長短が判定され、ハッシュテーブルに
おいてfベクトルに対応するデータがその判定結果にお
ける短い方の距離の値となるようにハッシュテーブルが
更新される。なお、このときのハッシュテーブルのサイ
ズ(記憶容量)は状態−行動バッファ35のサイズに対
応して設定される。
な学習が行なわれた後に図3(b)に設けられている認
知距離モジュール32によって行なわれる処理の手順を
示すフローチャートである。
すベクトルgoal(state+action)(g
ベクトルと略す)とが状態空間34から、また前述した
行動リストLaが行動モデル生成部31からそれぞれ取
得される(S401)。
において行ない得る行動aがひとつ取得される(S40
2)。ここで、状態sと行動aとからなるベクトル及び
gベクトルから、前述した学習処理で用いた認知距離モ
ジュール32内のハッシュテーブルを参照するためのハ
ッシュコードであるベクターキーvが作成される (S
403)。そして、そのハッシュテーブルが参照され、
ベクターキーvをキーとしたときにそのキーに対応付け
られている距離dが取得される(S404)。
れた距離dが、認知距離モジュール32の出力情報であ
る前述した距離リストLdに追加される(S405)。
ここで、行動リストLaに含まれている全ての行動aの
要素について、上述したS403からS405にかけて
の処理が実行されたか否かが判定され(S406)、こ
の判定結果がNoならばS402へ戻って上述した処理
が繰り返される。
た場合には距離リストLdが選択器23へと出力される
(S407)。以上のように、認知距離モジュール32
は、十分な学習が行なわれた後には、現在の状態sに対
応する距離リストLdを直ぐに作成して出力することが
できるようになる。
た、図3(b)に示す問題解決器30を「第一実施例に
おける問題解決器」と称することとする。今までに説明
した第一実施例における問題解決器では、問題により定
義される状態空間における状態とそこで実行される行動
とは区別して扱っていた。以降の説明においては、状態
と行動とを区別しない一つの状態として扱うようにし、
図10に示すように、同一時刻tにおける状態s(t)
と行動a(t)(状態s(t)に至るために実行された
行動)とを纏めたひとつの一般化状態Sa(t)を定義
し、この一般化状態に対応する一般化認知距離に基づい
た問題解決器を第二実施例として説明する。
決器の構成を示している。なお、同図に示す第二実施例
の構成においては、第一実施例とは異なり、図12に示
すように、現在の状態s(t)と、その状態に至るため
に実行される行動a(t)とをペアとするベクトルが取
り扱われる。
状態モデル生成部41、一般化認知距離モジュール4
2、選択器43、及び状態バッファ45を備えて構成さ
れており、問題により定義されている状態空間44か
ら、現在の一般化状態Sa(t)[=s(t)+a
(t)]と、到達すべき目標状態である一般化状態G
(t)とを受け取るという試行を繰り返し、十分な試行
が行なわれるにつれて、現在の自己の一般化状態Sa
(t)及び到達すべき目標状態であるG(t)の入力に
対し、次に行なう適切な行動を成分に含む一般化状態で
あるサブゴールSG(t)=Sa(t+1)[=s(t
+1)+a(t+1)]が迅速に出力できるようになる
というものである。
に入力された一般化状態Sa(t)の履歴の保持、すな
わち、状態s(t)に至った行動a(t)の経験を蓄え
るものであり、図3(b)に示した状態−行動バッファ
35と同様の構成・機能を有するものである。
一般化状態Sa(t)から直接遷移(移動)可能な一般
化状態の一覧(移動可能状態リスト)を生成して出力す
るものであり、図17に示した従来の世界モデル(フォ
ワードモデル)を一般化状態のフレームワークに適合さ
せたモジュールと考えることができる。移動可能状態モ
デル生成部41は、状態バッファ45の履歴を参照して
実際に試行された移動の経験を蓄積する学習を行なうこ
とによって、移動可能状態リストの生成が行なえるよう
になる。
なわれる、この学習処理の手順を示すフローチャートを
図13に示す。この学習処理は、状態空間におけるある
一般化状態を特定するfromベクトル(fベクトルと
略す)とtoベクトル(tベクトルと略す)との2つの
任意のベクトルにおいて、fベクトルからtベクトルへ
の行動が直接可能であることが学習処理における試行に
よって判明したときに、その経験を蓄積していく処理で
ある。
れ(S501)、このうちのfベクトルをキーにして移
動可能状態モデル生成部41の内部に設けられているハ
ッシュテーブルが参照され、fベクトルをキーとしたと
きにそのキーに対応付けられているリストl(過去の経
験によってfベクトルから直接移動可能であることが判
明した状態を示すベクトルが格納されるリスト)が取得
される(S502)。
か否か、すなわち、リストlが存在しないか否かが判定
され (S503)、この判定結果がNoである場合に
のみ、その内容にtベクトルを含むリストlが作成され
(S504)、fベクトルのキーに対応付けられて上
述したハッシュテーブルに登録される(S505)。
いるか否かが判定され(S506)、この判定結果がN
oの場合にのみ、リストlにtベクトルが追加される
(S507)。
のようにして学習が行なわれる。なお、図11において
は、移動可能状態モデル生成部41には現在の一般化状
態Sa(t)が状態空間44から入力され、このSa
(t)が上述した学習処理におけるtベクトルとして扱
われる。また、Sa(t)の直前の状態Sa(t−1)
が状態バッファ45から入力され、このSa(t−1)
が上述した学習処理におけるfベクトルとして扱われ
る。そして、十分な学習が行なわれた後には、状態空間
44から入力される般化状態Sa(t)をキーとして上
述したハッシュテーブルが参照され、対応するリストl
がハッシュテーブルから取り出されて移動可能状態リス
トとして選択器43に直ちに出力されるようになる。
能状態モデル生成部41から出力される移動可能状態リ
ストに示されている各一般化状態、及びセンサ入力Bに
入力される到達すべき状態空間44中の目標状態の一般
化状態G(t)に基づいて、各一般化状態のベクトルか
ら目標状態の一般化状態G(t)ベクトルへの移動に要
する距離(一般化認知距離)を算出し、距離リストとし
て出力するものであり、図3(b)に示した認知距離モ
ジュール32と同様の構成・機能を有するものである。
また、この一般化認知距離モジュール42は、距離テー
ブルの蓄積も同様に行ない、更に、状態バッファ45に
基づくこの距離テーブルの更新も同様に行なう。
42から出力される距離リストに基づいて、認知距離が
最も短くなる一般化状態を移動可能状態モデル生成部4
1から出力される移動可能状態リストより選択し、その
選択結果をサブゴールSG(t)として出力するもので
あり、これも、図3(b)に示した選択器33と同様の
構成・機能を有するものである。
えることで、ある一般化状態Sa(t)における、目標
状態に到達するための最適なサブゴールSG(t)を迅
速に出力することが学習によって可能となる。
る。今まで説明した本発明の第一及び第二実施例の認知
距離(あるいは一般化認知距離)に基づく問題解決器に
は多量の情報の記憶が必要であり、以下のような2つの
問題がある。
発 問題により定義される状態空間に存在する一般化状態の
状態数をNsとすると、認知距離の組み合わせはO(N
s×Ns)にもなり、状態数の二乗のオーダーで増加し
てしまう。従って、状態空間が大きくなるときには全て
の認知距離についての情報を保持することは現実的でな
い。
いられるオペレータの総数は、各状態で直接移動可能な
状態数の平均をmとするならば、その記憶容量は高々O
(Ns×m)程度のオーダーであり、また、強化学習で
のその記憶容量はO(Ns)程度のオーダーであった。
問題 上記(1)の問題を回避するために、認知距離の保持量
に最大値θを設けるようにすることが考えられる。こう
すれば、O(Ns×(mのθ乗))程度に押さえ込むこ
とができるし、前述した状態バッファ45(図11)に
よる一般化状態の履歴の保持量もθ程度に留めることも
可能となり、更に、認知距離の更新処理のための演算量
の抑制も可能となるので、有益である。しかしながら、
この手法ではある上限以上に離れた状態間での行動決定
が行なえなくなってしまうという問題が生じてしまう。
第三実施例では一般化状態を用いた問題解決器を階層化
する。図14は、階層化された一般化認知距離に基づく
問題解決器の構成を示している。なお、同図において、
問題解決器50はレイヤ1及びレイヤ2についての構成
のみを示しており、レイヤ3以上については、レイヤ1
若しくはレイヤ2と同様の構成であるため、描画を略し
ている。
かるように、図14に示す問題解決器50は、基本的に
は図11に示した問題解決器40を積み重ねたような構
成を有している。
階層化について、図15を用いて説明する。なお、同図
の例は、3レイヤ(階層)の構造を示している。まず、
下位レイヤから上位レイヤへの対応を示す関数が定義さ
れると同時に、上位レイヤから下位レイヤのランドマー
クを取り出す関数が定義される。ここで、ランドマーク
とは、上位レイヤにおけるある状態に対応する下位レイ
ヤの1以上の状態のうち、それらを代表するひとつの状
態を示すものである。
(Segmentation Function )、後者の関数をランドマー
ク位置関数(Landmark Position Function)と称するこ
ととする。
レイヤ2であるフィールド60−2上に示されている
(a)の範囲を、レイヤ3であるフィールド60−3上
にスタート61−3として示されている位置(状態)に
集約させるものであり、ランドマーク位置関数は、レイ
ヤ3であるフィールド60−3上に示されている白丸印
の位置からレイヤ2であるフィールド60−2上に示さ
れている対応する星印の位置(ランドマーク)に写像す
るものである。
るために、以下の2つの性質を定義する。 (1)直接移動可能性 当該レイヤにおいて、現在の状態からある目標の状態へ
直接移動できる性質。つまり、当該レイヤよりも下位の
レイヤのみを利用して移動できる性質を示す。
可)によって目標状態へ到達することが可能である性
質。図15には、各スタート(61−1、61−2、6
1−3)から到達可能である各レイヤのフィールド(6
0−1、60−2、60−3)上の範囲を破線の枠で示
している。
レイヤについての問題解決器はある状態の近傍での詳細
な移動についての知識を獲得できるが、遠方の目標状態
への移動についての知識を獲得することはできない。そ
の一方で、上位のレイヤについての問題解決器は遠方の
目標状態への大まかな移動についての知識を獲得するこ
とはできるが、詳細な状態遷移の手続についての知識を
獲得することはできない。つまり、問題解決器を階層化
することによって、下位レイヤの到達可能性が上位レイ
ヤの直接移動可能性に置き換わるのである。
フィールド60−3上において1マス分の距離であり、
直接移動可能であるスタート61−3と白印とは、その
下位層であるレイヤ2においては、それぞれがスタート
61−2と星印とに置き換わり、それらは共にフィール
ド61−2上の到達可能な範囲内に位置するようにな
る。つまりそれらはレイヤ2の問題解決器によって認知
距離の算出が可能であり、行動系列の生成が可能である
ことを示している。
ートからゴールまで移動する経路を求める課題を考え
る。図15で説明すれば、レイヤ1であるフィールド6
0−1上において、スタート61−1からゴール62−
1までの経路を求める課題を考える。
に、ゴール62−1は、スタート61−1の到達可能範
囲外に位置している。すなわち、レイヤ1の問題解決器
のみによる認知距離の算出は不能であり、行動系列の生
成は行なえない。
−1及びゴール62−1をレイヤ2であるフィールド6
0−2上のスタート61−2及びゴール62−2に抽象
化する。しかしながらレイヤ2においてもゴール62−
2はスタート61−2の到達可能範囲外である。
ート61−2及びゴール62−2をレイヤ3であるフィ
ールド60−3上のスタート61−3及びゴール62−
3に抽象化する。このレイヤ3においては、ゴール62
−3はスタート61−2の到達可能範囲内に位置してい
る。そこで、レイヤ3についての問題解決器により具体
的な状態の移動の決定がなされてサブゴールが出力され
る。その後、このサブゴールのランドマーク位置関数に
よる写像であるランドマークが求められ、このランドマ
ークがレイヤ2に送り返される。
ート61−2からこのランドマークに到達するまでの適
切な具体的な状態の移動の決定が行なわれ、そのための
サブゴールが出力される。その後、このサブゴールのラ
ンドマーク位置関数による写像であるランドマークが更
に求められ、このランドマークがレイヤ1に送り返され
る。
ート61−1からこの送り返されてきたランドマークに
到達するまでの適切な具体的な状態の移動の決定が行な
われ、そのためのサブゴールが出力される。この後は、
このサブゴールからゴール62−1までの移動経路を求
めることとなる。
ることによって最終的にスタート61−1からゴール6
2−1までの移動経路を求めることができる。以下、図
14に示した問題解決器50の構成について説明する。
デル生成部(41−1、41−2)、一般化認知距離モ
ジュール(42−1、42−2)、選択器(43−1、
43−2)、状態バッファ(45−1、45−2)は、
各々図11の問題解決器40における同名の構成要素と
同様のものである。
般化認知モジュール(42−1、42−2)への入力の
ひとつとして、下位のレイヤ(若しくは状態空間56)
から得られるゴールと、下位のレイヤから送り返されて
くるサブゴールのランドマークとのどちらかを選択する
ものである。スイッチャ(51−1、51−2)は、下
位レイヤから与えられるゴールを優先的に選択し、ま
ず、一般化認知モジュール(42−1、42−2)によ
る一般化認知距離の生成を試みる。ここで一般化認知距
離の生成が行なえなかったときには上位レイヤから送り
返されてくるサブゴールのランドマークを選択して一般
化認知モジュール(42−1、42−2)に一般化認知
距離の生成を行なわせる。
2−2)は当該レイヤとその当該レイヤに隣接する上位
のレイヤとにおける一般化状態の関係情報が格納されて
いるデータベースであり、前述した分節化関数及びラン
ドマーク位置関数を構成する元となるものである。
TLM−SF(To Landmark Segmentation Function )
部(53−1、53−2)とFLM−SF(From Landm
arkSegmentation Function )部(54−1、54−
2)という2種類の分節化関数を適用する情報変換部を
用意している。
は、ランドマークデータベース(52−1、52−2)
に格納されている関係情報に基づいて、下位レイヤのあ
る一般化状態を示す情報が入力されると、その状態から
到達可能である当該レイヤの範囲を集約する上位レイヤ
における一般化状態に対応するID(識別データ)を出
力するものであり、現在の一般化状態を示す情報の変換
に用いられる。
は、ランドマークデータベース(52−1、52−2)
に格納されている関係情報に基づいて、下位レイヤのあ
る一般化状態を示す情報が入力されると、その状態に到
達可能である当該レイヤの範囲を集約する上位レイヤに
おける一般化状態に対応するIDを出力するものであ
り、目標(ゴール)である一般化状態を示す情報の変換
に用いられる。
部(55−1、55−2)はランドマーク位置関数を適
用する情報変換を行なうものであり、上位レイヤのある
一般化状態を示す情報が入力されると、その状態に対応
する下位レイヤにおける到達可能範囲中の状態であって
その範囲を代表するランドマークについての一般化状態
を出力するものであり、上位レイヤから送り返されてく
るサブゴールの一般化状態を示す情報の変換に用いられ
る。
構成されることで、遠く離れた状態間の行動決定を実現
する。なお、上述した階層化した構成による一般化状態
を用いた問題解決器において、認知距離の情報の保持に
要する記憶量は、図15を参照しても容易に分かるよう
に、その殆どが最下層のレイヤに関するものとなる。そ
してその記憶量は、その最下層のレイヤにおけるある状
態から直接移動可能な状態数の平均をmとし、認知距離
の保持量の上限をθするならば、O(Ns×(mのθ
乗))のオーダーとなる。このように、第三実施例は、
認知距離の学習結果の保持量を制限しつつ、遠く離れた
状態間での行動決定を可能にしている。
び第三実施例における問題解決によってなされる行動系
列の生成処理をコンピュータに行なわせるための制御プ
ログラムを作成してコンピュータ読み取り可能な記憶媒
体に記憶させ、そのプログラムを記憶媒体からコンピュ
ータに読み出させて実行させることにより、本発明に係
る問題解決器による行動系列の生成機能を汎用コンピュ
ータに行なわせることも可能である。
で読み取ることの可能な記憶媒体の例を図16に示す。
同図に示すように、記憶媒体としては、例えば、コンピ
ュータ71に内蔵若しくは外付けの付属装置として備え
られるROMやハードディスク装置などのメモリ72、
フロッピー(登録商標)ディスク、MO(光磁気ディス
ク)、CD−ROM、DVD−ROMなどといった可搬
型記憶媒体73等が利用できる。また、記憶媒体は回線
74を介してコンピュータ71と接続されるコンピュー
タであるプログラムサーバ75が備える記憶装置76で
あってもよい。この場合には、制御プログラムを表現す
るデータ信号で搬送波を変調して得られる伝送信号を、
プログラムサーバ75から伝送媒体である回線74を通
じて伝送し、コンピュータ71では受信した伝送信号を
復調して制御プログラムを再生することで当該制御プロ
グラムの実行が可能となる。 (付記1) ある問題により定義される状態空間中で初
期状態と目標状態とが与えられたときに該初期状態から
該目標状態に至るまでの行動系列を生成する問題解決器
であって、前記状態空間中における任意の第一の状態か
ら該第一の状態とは異なる第二の状態に到達するまでの
行動系列の実行によって費やされる、該状態空間の環境
に対して作用させるコストを示す認知距離を学習する認
知距離学習手段と、前記認知距離学習手段による認知距
離の学習結果に基づいて、前記行動系列に属することと
なる行動であって、前記目標状態に至るために前記状態
空間中の特定の状態において次に実行すべき該行動を決
定する次行動決定手段と、を有することを特徴とする問
題解決器。
の状態において実行し得る次の行動を提示する行動提示
手段を更に有し、前記次行動決定手段は、前記行動提示
手段により提示される行動のうち、該行動を行なったと
きに到達する状態から前記目標状態までの認知距離が少
なくなるものを選択する、ことを特徴とする付記1に記
載の問題解決器。
習結果である前記認知距離を保持し、前記次行動決定手
段は、前記認知距離学習手段に保持されている認知距離
の学習結果に基づいて前記行動を決定し、前記認知距離
学習手段は、同一の状態間についての認知距離を再度学
習したときには、保持されている認知距離を更新する、
ことを特徴とする付記1に記載の問題解決器。
態空間中で初期状態と目標状態とが与えられたときに該
初期状態から該目標状態に至るまでの行動系列を生成す
る問題解決器であって、前記状態空間中における任意の
第一の状態から該第一の状態とは異なる第二の状態に到
達するまでの行動系列の実行によって費やされる、該状
態空間の環境に対して作用させるコストを示す認知距離
を学習する認知距離学習手段と、前記認知距離学習手段
による認知距離の学習結果に基づいて、前記行動系列に
属することとなる行動であって、前記目標状態に至るた
めに前記状態空間中の特定の状態において次に実行すべ
き該行動を実行することによって到達する状態である次
状態を決定する次状態決定手段と、を有することを特徴
とする問題解決器。
の状態において実行し得る次の行動を実行することによ
って到達する状態を提示する状態提示手段を更に有し、
前記次状態決定手段は、前記状態提示手段により提示さ
れる状態のうち、該状態から前記目標状態までの認知距
離が少なくなるものを選択する、ことを特徴とする付記
4に記載の問題解決器。
習結果である前記認知距離を保持し、前記次状態決定手
段は、前記認知距離学習手段に保持されている認知距離
の学習結果に基づいて前記次状態を決定し、前記認知距
離学習手段は、同一の状態間についての認知距離を再度
学習したときには、保持されている認知距離を更新す
る、ことを特徴とする付記4に記載の問題解決器。
る範囲であって、前記認知距離学習手段によって認知距
離を学習することの可能な状態が属する該範囲を、該状
態空間を階層化した上位の状態空間におけるひとつの状
態に対応付ける分節化手段と、前記上位の状態空間にお
ける状態を、該状態に対応する下位の状態空間の範囲に
属し、該範囲を代表する状態であるランドマークに対応
付けるランドマーク位置手段と、前記上位の状態空間中
における任意の第一の状態から該第一の状態とは異なる
第二の状態に到達するまでの前記認知距離を学習する上
位認知距離学習手段と、前記上位認知距離学習手段によ
る前記上位の状態空間中における認知距離の学習結果に
基づいて、前記分節化手段によって前記目標状態に対応
付けられた前記上位の状態空間における目標状態に至る
ために、該分節化手段によって前記下位の状態空間中の
特定の状態に対応付けられた該上位の状態空間における
特定の状態において次に実行すべき該行動を実行するこ
とによって到達する該上位の状態空間における前記次状
態を決定する上位次状態決定手段と、を更に有し、前記
認知距離学習手段は、前記下位の状態空間についての前
記認知距離を学習し、前記次状態決定手段は、前記認知
距離学習手段による前記下位の状態空間についての認知
距離の学習結果に基づいて、前記ランドマーク位置手段
によって前記上位の状態空間における次状態に対応付け
られているランドマークに至るために前記下位の状態空
間中の特定の状態において次に実行すべき前記行動を実
行することによって到達する状態である次状態を決定す
る、ことを特徴とする付記4に記載の問題解決器。
とによって、ある問題により定義される状態空間中で初
期状態と目標状態とが与えられたときに該初期状態から
該目標状態に至るまでの行動系列を生成させる制御を該
コンピュータに行なわせる制御プログラムを記憶した該
コンピュータで読み取り可能な記憶媒体であって、前記
状態空間中における任意の第一の状態から該第一の状態
とは異なる第二の状態に到達するまでの行動系列の実行
によって費やされる、該状態空間の環境に対して作用さ
せるコストを示す認知距離を学習する制御と、前記認知
距離の学習結果に基づいて、前記行動系列に属すること
となる行動であって、前記目標状態に至るために前記状
態空間中の特定の状態において次に実行すべき該行動を
決定する制御と、をコンピュータに行なわせる制御プロ
グラムを記憶した記憶媒体。
とによって、ある問題により定義される状態空間中で初
期状態と目標状態とが与えられたときに該初期状態から
該目標状態に至るまでの行動系列を生成させる制御を該
コンピュータに行なわせる制御プログラムを記憶した該
コンピュータで読み取り可能な記憶媒体であって、前記
状態空間中における任意の第一の状態から該第一の状態
とは異なる第二の状態に到達するまでの行動系列の実行
によって費やされる、該状態空間の環境に対して作用さ
せるコストを示す認知距離を学習する制御と、前記認知
距離の学習結果に基づいて、前記行動系列に属すること
となる行動であって、前記目標状態に至るために前記状
態空間中の特定の状態において次に実行すべき該行動を
実行することによって到達する状態である次状態を決定
する制御と、をコンピュータに行なわせる制御プログラ
ムを記憶した記憶媒体。
ことによって、ある問題により定義される状態空間中で
初期状態と目標状態とが与えられたときに該初期状態か
ら該目標状態に至るまでの行動系列を生成させる制御を
該コンピュータに行なわせる制御プログラムを含む搬送
波に具現化されたコンピュータ・データ・シグナルであ
って、該制御プログラムは以下のステップをコンピュー
タに実行させる:前記状態空間中における任意の第一の
状態から該第一の状態とは異なる第二の状態に到達する
までの行動系列の実行によって費やされる、該状態空間
の環境に対して作用させるコストを示す認知距離を学習
し、前記認知距離の学習結果に基づいて、前記行動系列
に属することとなる行動であって、前記目標状態に至る
ために前記状態空間中の特定の状態において次に実行す
べき該行動を決定する。
ことによって、ある問題により定義される状態空間中で
初期状態と目標状態とが与えられたときに該初期状態か
ら該目標状態に至るまでの行動系列を生成させる制御を
該コンピュータに行なわせる制御プログラムを含む搬送
波に具現化されたコンピュータ・データ・シグナルであ
って、該制御プログラムは以下のステップをコンピュー
タに実行させる:前記状態空間中における任意の第一の
状態から該第一の状態とは異なる第二の状態に到達する
までの行動系列の実行によって費やされる、該状態空間
の環境に対して作用させるコストを示す認知距離を学習
し、前記認知距離の学習結果に基づいて、前記行動系列
に属することとなる行動であって、前記目標状態に至る
ために前記状態空間中の特定の状態において次に実行す
べき該行動を実行することによって到達する状態である
次状態を決定する。
ある問題により定義される状態空間中で初期状態と目標
状態とが与えられたときに、該初期状態から該目標状態
に至るまでの行動系列を生成する問題解決器で、該状態
空間中における任意の状態から前記目標状態に到達する
までの行動系列の実行によって費やされる、該状態空間
の環境に対して作用させるコストを示す認知距離を学習
するようにし、その認知距離の学習結果に基づいて、該
行動系列に属することとなる行動であって、前記目標状
態に至るために前記状態空間中の特定の状態において次
に実行すべき該行動である次行動を決定する、若しくは
その次行動を実行することによって到達する状態である
次状態を決定するように構成する。
実行時の計算コストが低く抑えられ、且つ、目標状態の
変更に対する柔軟性が確保されるという効果を奏する。
の例を説明する図である。
問題解決器との構成を比較する図である。
分を示す図である。
順を示すフローチャートである。
って行なわれる処理の手順を示すフローチャートであ
る。
る。
理の手順を示すフローチャートである。
ルによって行なわれる処理の手順を示すフローチャート
である。
す図である。
示す図である。
の成分を示す図である。
る学習処理の手順を示すフローチャートである。
解決器の構成を示す図である。
明する図である。
読み取ることの可能な記憶媒体の例を示す図である。
る図である。
説明する図である。
Claims (9)
- 【請求項1】 ある問題により定義される状態空間中で
初期状態と目標状態とが与えられたときに該初期状態か
ら該目標状態に至るまでの行動系列を生成する問題解決
器であって、 前記状態空間中における任意の状態から前記目標状態に
到達するまでの行動系列の実行によって費やされる、該
状態空間の環境に対して作用させるコストを示す認知距
離を学習する認知距離学習手段と、 前記認知距離学習手段による認知距離の学習結果に基づ
いて、前記行動系列に属することとなる行動であって、
前記目標状態に至るために前記状態空間中の特定の状態
において次に実行すべき該行動である次行動を決定する
次行動決定手段と、 を有することを特徴とする問題解決器。 - 【請求項2】 前記状態空間中における任意の状態にお
いて実行し得る次の行動を提示する行動提示手段を更に
有し、 前記次行動決定手段は、前記行動提示手段により提示さ
れる行動のうち、該行動を行なったときに到達する状態
から前記目標状態までの認知距離が少なくなるものを選
択する、 ことを特徴とする請求項1に記載の問題解決器。 - 【請求項3】 前記認知距離学習手段は、学習結果であ
る前記認知距離を保持し、 前記次行動決定手段は、前記認知距離学習手段に保持さ
れている認知距離の学習結果に基づいて前記次行動を決
定し、 前記認知距離学習手段は、同一の状態間についての認知
距離を再度学習したときには、保持している認知距離を
更新する、 ことを特徴とする請求項1に記載の問題解決器。 - 【請求項4】 ある問題により定義される状態空間中で
初期状態と目標状態とが与えられたときに該初期状態か
ら該目標状態に至るまでの行動系列を生成する問題解決
器であって、 前記状態空間中における任意の状態から前記目標状態に
到達するまでの行動系列の実行によって費やされる、該
状態空間の環境に対して作用させるコストを示す認知距
離を学習する認知距離学習手段と、 前記認知距離学習手段による認知距離の学習結果に基づ
いて、前記行動系列に属することとなる行動であって、
前記目標状態に至るために前記状態空間中の特定の状態
において次に実行すべき該行動を実行することによって
到達する状態である次状態を決定する次状態決定手段
と、 を有することを特徴とする問題解決器。 - 【請求項5】 前記状態空間中における任意の状態にお
いて実行し得る次の行動を実行することによって到達す
る状態を提示する状態提示手段を更に有し、 前記次状態決定手段は、前記状態提示手段により提示さ
れる状態のうち、該状態から前記目標状態までの認知距
離が少なくなるものを選択する、 ことを特徴とする請求項4に記載の問題解決器。 - 【請求項6】 前記認知距離学習手段は、学習結果であ
る前記認知距離を保持し、 前記次状態決定手段は、前記認知距離学習手段に保持さ
れている認知距離の学習結果に基づいて前記次状態を決
定し、 前記認知距離学習手段は、同一の状態間についての認知
距離を再度学習したときには、保持している認知距離を
更新する、 ことを特徴とする請求項4に記載の問題解決器。 - 【請求項7】 前記状態空間中の状態が属する範囲であ
って、前記認知距離学習手段によって認知距離を学習す
ることの可能な状態が属する該範囲を、該状態空間を階
層化した上位の状態空間におけるひとつの状態に対応付
ける分節化手段と、 前記上位の状態空間における状態を、該状態に対応する
下位の状態空間の範囲に属し、該範囲を代表する状態で
あるランドマークに対応付けるランドマーク位置手段
と、前記上位の状態空間中における任意の状態から、前
記分節化手段によって前記目標状態に対応付けられた前
記上位の状態空間における目標状態に到達するまでの前
記認知距離を学習する上位認知距離学習手段と、 前記上位認知距離学習手段による前記上位の状態空間中
における認知距離の学習結果に基づいて、前記分節化手
段によって前記目標状態に対応付けられた前記上位の状
態空間における目標状態に至るために、該分節化手段に
よって前記下位の状態空間中の特定の状態に対応付けら
れた該上位の状態空間における特定の状態において次に
実行すべき該行動を実行することによって到達する該上
位の状態空間における前記次状態を決定する上位次状態
決定手段と、 を更に有し、 前記認知距離学習手段は、前記下位の状態空間について
の前記認知距離を学習し、 前記次状態決定手段は、前記認知距離学習手段による前
記下位の状態空間についての認知距離の学習結果に基づ
いて、前記ランドマーク位置手段によって前記上位の状
態空間における次状態に対応付けられているランドマー
クに至るために前記下位の状態空間中の特定の状態にお
いて次に実行すべき前記行動を実行することによって到
達する前記次状態を決定する、 ことを特徴とする請求項4に記載の問題解決器。 - 【請求項8】 コンピュータに実行させることによっ
て、ある問題により定義される状態空間中で初期状態と
目標状態とが与えられたときに該初期状態から該目標状
態に至るまでの行動系列を生成させる制御を該コンピュ
ータに行なわせる制御プログラムを記憶した該コンピュ
ータで読み取り可能な記憶媒体であって、 前記状態空間中における任意の第一の状態から該第一の
状態とは異なる第二の状態に到達するまでの行動系列の
実行によって費やされる、該状態空間の環境に対して作
用させるコストを示す認知距離を学習する制御と、 前記認知距離の学習結果に基づいて、前記行動系列に属
することとなる行動であって、前記目標状態に至るため
に前記状態空間中の特定の状態において次に実行すべき
該行動を決定する制御と、 をコンピュータに行なわせる制御プログラムを記憶した
記憶媒体。 - 【請求項9】 コンピュータに実行させることによっ
て、ある問題により定義される状態空間中で初期状態と
目標状態とが与えられたときに該初期状態から該目標状
態に至るまでの行動系列を生成させる制御を該コンピュ
ータに行なわせる制御プログラムを記憶した該コンピュ
ータで読み取り可能な記憶媒体であって、 前記状態空間中における任意の第一の状態から該第一の
状態とは異なる第二の状態に到達するまでの行動系列の
実行によって費やされる、該状態空間の環境に対して作
用させるコストを示す認知距離を学習する制御と、 前記認知距離の学習結果に基づいて、前記行動系列に属
することとなる行動であって、前記目標状態に至るため
に前記状態空間中の特定の状態において次に実行すべき
該行動を実行することによって到達する状態である次状
態を決定する制御と、 をコンピュータに行なわせる制御プログラムを記憶した
記憶媒体。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000352343A JP4699598B2 (ja) | 2000-11-20 | 2000-11-20 | 問題解決器として動作するデータ処理装置、及び記憶媒体 |
US09/813,027 US6633858B2 (en) | 2000-11-20 | 2001-03-21 | Problem solver uses learning a cognitive distance to attain a goal state |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000352343A JP4699598B2 (ja) | 2000-11-20 | 2000-11-20 | 問題解決器として動作するデータ処理装置、及び記憶媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002157571A true JP2002157571A (ja) | 2002-05-31 |
JP4699598B2 JP4699598B2 (ja) | 2011-06-15 |
Family
ID=18825259
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000352343A Expired - Fee Related JP4699598B2 (ja) | 2000-11-20 | 2000-11-20 | 問題解決器として動作するデータ処理装置、及び記憶媒体 |
Country Status (2)
Country | Link |
---|---|
US (1) | US6633858B2 (ja) |
JP (1) | JP4699598B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006268812A (ja) * | 2005-02-23 | 2006-10-05 | Sony Corp | 学習制御装置および学習制御方法、並びに、プログラム |
JP2006313512A (ja) * | 2005-04-04 | 2006-11-16 | Sony Corp | 学習制御装置、学習制御方法、およびプログラム |
JP2007018490A (ja) * | 2005-02-23 | 2007-01-25 | Sony Corp | 行動制御装置および行動制御方法、並びに、プログラム |
WO2021070732A1 (ja) * | 2019-10-11 | 2021-04-15 | ソニー株式会社 | 情報処理装置、情報処理方法、並びにプログラム |
JP7398830B2 (ja) | 2021-08-05 | 2023-12-15 | アジャイルソーダ インコーポレイテッド | ピックアンドプレイスシステムのための深層強化学習装置及び方法 |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6917925B2 (en) * | 2001-03-30 | 2005-07-12 | Intelligent Inference Systems Corporation | Convergent actor critic-based fuzzy reinforcement learning apparatus and method |
US7286484B2 (en) * | 2003-01-10 | 2007-10-23 | Chunghwa Telecom Co., Ltd. | Q-learning-based multi-rate transmission control (MRTC) scheme for RRC in WCDMA systems |
US20050041746A1 (en) * | 2003-08-04 | 2005-02-24 | Lowell Rosen | Software-defined wideband holographic communications apparatus and methods |
US7581159B2 (en) * | 2004-11-23 | 2009-08-25 | Texas Instruments Incorporated | Simplified decoding using structured and punctured LDPC codes |
WO2016100973A1 (en) * | 2014-12-19 | 2016-06-23 | Schlumberger Technology Corporation | Method of creating and executing a plan |
US11288609B2 (en) | 2018-12-04 | 2022-03-29 | Schlumberger Technology Corporation | Systems and methods for executing a plan associated with multiple equipment by using rule-based inference |
CN112384937A (zh) | 2018-05-12 | 2021-02-19 | 地质探索系统公司 | 地震数据解释系统 |
WO2020113027A2 (en) * | 2018-11-28 | 2020-06-04 | Google Llc | Robot navigation using a high-level policy model and a trained low-level policy model |
US11753890B2 (en) | 2019-01-15 | 2023-09-12 | Schlumberger Technology Corporation | Real-time pump-down perforating data acquisition and application automation response |
CA3087962A1 (en) | 2019-07-24 | 2021-01-24 | Schlumberger Canada Limited | Coordinated pumping operations |
-
2000
- 2000-11-20 JP JP2000352343A patent/JP4699598B2/ja not_active Expired - Fee Related
-
2001
- 2001-03-21 US US09/813,027 patent/US6633858B2/en not_active Expired - Fee Related
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006268812A (ja) * | 2005-02-23 | 2006-10-05 | Sony Corp | 学習制御装置および学習制御方法、並びに、プログラム |
JP2007018490A (ja) * | 2005-02-23 | 2007-01-25 | Sony Corp | 行動制御装置および行動制御方法、並びに、プログラム |
JP4525477B2 (ja) * | 2005-02-23 | 2010-08-18 | ソニー株式会社 | 学習制御装置および学習制御方法、並びに、プログラム |
JP2006313512A (ja) * | 2005-04-04 | 2006-11-16 | Sony Corp | 学習制御装置、学習制御方法、およびプログラム |
WO2021070732A1 (ja) * | 2019-10-11 | 2021-04-15 | ソニー株式会社 | 情報処理装置、情報処理方法、並びにプログラム |
JP7398830B2 (ja) | 2021-08-05 | 2023-12-15 | アジャイルソーダ インコーポレイテッド | ピックアンドプレイスシステムのための深層強化学習装置及び方法 |
Also Published As
Publication number | Publication date |
---|---|
JP4699598B2 (ja) | 2011-06-15 |
US20020062156A1 (en) | 2002-05-23 |
US6633858B2 (en) | 2003-10-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2002157571A (ja) | 問題解決器、及び記憶媒体 | |
CN108459503B (zh) | 一种基于量子蚁群算法的无人水面艇航迹规划方法 | |
Ding et al. | LTL control in uncertain environments with probabilistic satisfaction guarantees | |
Kaelbling | Learning to achieve goals | |
CN111191934B (zh) | 一种基于强化学习策略的多目标云工作流调度方法 | |
WO2019222745A1 (en) | Sample-efficient reinforcement learning | |
CN112119409A (zh) | 具有关系存储器的神经网络 | |
CN111898728A (zh) | 一种基于多Agent强化学习的团队机器人决策方法 | |
KR20210011422A (ko) | 모델 없는 강화 학습을 위한 스택형 컨볼루션 장단기 메모리 | |
KR20220137732A (ko) | 적응형 리턴 계산 방식을 사용한 강화 학습 | |
Yang et al. | Intelligent path planning of underwater robot based on reinforcement learning | |
CN114897160A (zh) | 模型训练方法、系统及计算机存储介质 | |
Vlassis et al. | A fast point-based algorithm for POMDPs | |
Lanzi et al. | Optimal classifier system performance in non-Markov environments | |
Jeddi et al. | Lyapunov-based uncertainty-aware safe reinforcement learning | |
US20220027708A1 (en) | Arithmetic apparatus, action determination method, and non-transitory computer readable medium storing control program | |
CN116009542A (zh) | 动态多智能体覆盖路径规划方法、装置、设备及存储介质 | |
Śniezyński et al. | Combining rule induction and reinforcement learning: An agent-based vehicle routing | |
Sun et al. | Emulation Learning for Neuromimetic Systems | |
CN113671942A (zh) | 用于控制机器人的设备和方法 | |
Yu et al. | Deep q-network with predictive state models in partially observable domains | |
Ge et al. | A new improved CMAC neural network | |
Zhang et al. | Digital Twin Enhanced Reinforcement Learning for Integrated Scheduling in Automated Container Terminals | |
Hernandez-Gardiol et al. | Hierarchical memory-based reinforcement learning | |
Ye | A Review of Path Planning Based on IQL and DQN |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070709 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101109 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101209 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110118 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110209 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110301 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110303 |
|
LAPS | Cancellation because of no payment of annual fees |