JP2002157571A

JP2002157571A - 問題解決器、及び記憶媒体

Info

Publication number: JP2002157571A
Application number: JP2000352343A
Authority: JP
Inventors: Hiroshi Yamakawa; 宏山川; Hiroyuki Okada; 浩之岡田; Takayuki Baba; 孝之馬場
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2000-11-20
Filing date: 2000-11-20
Publication date: 2002-05-31
Anticipated expiration: 2020-11-20
Also published as: JP4699598B2; US20020062156A1; US6633858B2

Abstract

(57)【要約】【課題】行動実行時の計算コストを低く抑えつつ、目
標状態の変更に対する柔軟性を確保する問題解決器を提
供する。【解決手段】ある問題により定義される状態空間中で
初期状態と目標状態とが与えられたときに該初期状態か
ら該目標状態に至るまでの行動系列を生成する問題解決
器（１ａ、１ｂ）に、状態空間中における任意の状態か
ら目標状態に到達するまでの行動系列の実行によって費
やされる、該状態空間の環境に対して作用させるコスト
を示す認知距離を学習する認知距離学習手段（２ａ、２
ｂ）と、その認知距離の学習結果に基づいて、上述した
行動系列に属することとなる行動であって、目標状態に
至るために状態空間中の特定の状態において次に実行す
べき該行動を決定する次行動決定手段３ａ、若しくは該
行動を実行することによって到達する状態を決定する次
状態決定手段３ｂとを備える。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、データ処理装置に
関し、更に詳しくは、ある問題により定義される状態空
間中で初期状態と目標状態とが与えられたときに初期状
態から目標状態に至るまでの行動系列を生成する問題解
決器に関する。

【０００２】

【従来の技術】ある問題により定義される状態空間中で
初期状態と目標状態が与えられたときに、初期状態から
目標状態に至るまでの行動系列を生成する問題解決器と
して、一般問題解決器（ＧＰＳ：General Problem Solv
er）がよく知られている。

【０００３】ＧＰＳは、図１７に示すように、ある状態
ｓｔａｔｅ（ｔ）に対して行動ａｃｔｉｏｎ（ｔ）を適
用した（すなわち、行動を起こした）場合に到達する状
態ｓｔａｔｅ（ｔ＋１）を予測するモデル（このモデル
は世界モデルあるいはフォワードモデルなどと呼ばれて
いる）を有している。

【０００４】ＧＰＳによる行動系列の生成では、問題に
より定義される状態空間中で、まず初期状態と目標状態
との差異が取り出される。そして、その差異を減少させ
るような行動（オペレータ）が選択される。

【０００５】ここで、そのオペレータが適用されるこ
と、つまりそのオペレータの適用条件が満たされること
を次の副目標とし、以降、差異の検出とオペレータの選
択とが繰り返される。その結果、差異がなくなったとき
に、初期状態から目標状態に至るまでのオペレータの系
列、すなわちプランが得られる。そして最後にこのプラ
ンが実行される。

【０００６】上述したモデルを用いた行動系列の生成
（古典的プランニングなどとも呼ばれている）は、行動
実行時の計算量が多量になる（計算コストが大きい）と
いう問題点を抱えている。

【０００７】一方で、図１８に示すように、ある状態ｓ
ｔａｔｅ（ｔ）（以下、「ｓ（ｔ）」と略す）から直接
に行動ａｃｔｉｏｎ（ｔ）（以下、「ａ（ｔ）」と略
す）を導くようにして、実時間動作を必要とするシステ
ムへの適用を可能にした即応的行動決定（リアクティブ
プランニング）がある。これは、行動実行時の計算コス
トは小さいものの、目標状態の変更に対して行動を変化
させることができないため、柔軟性に乏しいという問題
がある。

【０００８】この問題を克服する技術として目標状態を
報酬（または効用）として表現し、実行すべき行動系列
の途中の予測評価を用いることで、目標状態の変更に対
し、実行すべき行動を学習によって変化させる技法であ
る強化学習というものがある。

【０００９】強化学習の代表的なアルゴリズムであるＱ
学習は、状態ｓ（ｔ）から行動ａ（ｔ＋１）へのマッピ
ングを外界から得られる報酬に基づいて変更する。図１
９に（ａ）として示すように、Ｑ学習においては、状態
ｓ（ｔ）における行動ａ（ｔ＋１）に対応する予測報酬
としてのＱ値であるＱ（ｓ（ｔ）＋ａ（ｔ））をＱモジ
ュールが見積もり、そのＱ値の大きい（予測報酬の高
い）行動ａ（ｔ＋１）を優先的に選択するようにするこ
とで合理的な行動選択が行なわれる。

【００１０】また、強化学習のもうひとつの有名なモデ
ルであるActor-Criticモデルでは、図１９に（ｂ）とし
て示すCriticモジュールが状態ｓ（ｔ）により決定され
る予測報酬としてのＶ値であるｖａｌｕｅ（ｓ（ｔ））
を見積もり、ここから得られる予測報酬の誤差に基づい
て実行すべき行動の選択確率をActor モジュールが変化
させるというものである。

【００１１】以上のような仕組みにより、いずれの強化
学習モデルにおいても行動実行時には迅速な行動決定が
行なえる。なお、プランニングについては、例えば、Ru
ssel, S. J. & Norvig, P. : Artifical Intelligence:
Modern Approach, Prentice-Hall International, In
c.（邦訳：エージェントアプローチ人工知能、共立出
版）に詳細に説明されており、強化学習については、例
えば、Kaelbling, L. P., Littman, M. L., & Moore,
A. W. : Reinforcement Learning: A Survey, J. Artif
ical Intelligence Reserch, Vol.4, pp237-285(1996)
に詳細に説明されている。

【００１２】

【発明が解決しようとする課題】上述したように、古典
的プランニングは行動実行時の計算のコストが大きい問
題を有していた。

【００１３】また、即応的行動決定は、古典的プランニ
ングよりも行動実行時の計算コストを低減させることが
できるものの、目標状態の変更に対して行動を変化させ
ることができないため、柔軟性に乏しいという問題を有
していた。

【００１４】更に、強化学習については、目標状態の変
更に対して行動を変化させることが一応可能ではあるも
のの、目標状態が変更されたときにはそれまでの学習結
果は基本的には再利用できないので学習をやり直す必要
がある。ところが、特定された目標状態に対する学習に
要する学習量（学習コスト）は多大であるので、結果的
に目標状態を変更することの許容される場合は限られて
しまうため、柔軟性の確保は不十分であった。

【００１５】以上の問題を鑑み、行動実行時の計算コス
トを低く抑えつつ、目標状態の変更に対する柔軟性を確
保する問題解決器を提供することが本発明が解決しよう
とする課題である。

【００１６】

【課題を解決するための手段】図１は本発明の原理構成
図であり、（ａ）は本発明に係る問題解決器の第一の構
成を、（ｂ）は本発明に係る問題解決器の第二の構成
を、それぞれ示している。

【００１７】同図（ａ）及び（ｂ）にそれぞれ示す本発
明に係る問題解決器（１ａ、１ｂ）は、どちらも、ある
問題により定義される状態空間中で初期状態と目標状態
とが与えられたときに該初期状態から該目標状態に至る
までの行動系列を生成するものである。

【００１８】同図（ａ）及び（ｂ）にそれぞれ示す、認
知距離学習手段（２ａ、２ｂ）は、どちらも、上述した
状態空間中における任意の状態から上述した目標状態に
到達するまでの行動系列の実行によって費やされる、該
状態空間の環境に対して作用させるコストを示す認知距
離を学習するものである。なお、この認知距離は、状態
空間中における任意の２つの状態に対応して得られる値
であり、２つの状態の単なる物理的な隔たりの大きさを
示す値（すなわち距離）を具体例のひとつに挙げること
ができるが、これに限定されるものではない。

【００１９】同図（ａ）に示す次行動決定手段３ａは、
認知距離学習手段（２ａ）による認知距離の学習結果に
基づいて、上述した行動系列に属することとなる行動で
あって、目標状態に至るために上述した状態空間中の特
定の状態において次に実行すべき該行動である次行動を
決定するものである。

【００２０】この次行動の決定については、例えば、問
題解決器１ａが状態空間中における任意の状態において
実行し得る次の行動を提示する行動提示手段を更に有
し、次行動決定手段３ａが、この行動提示手段により提
示される行動のうち、該行動を行なったときに到達する
状態から目標状態までの認知距離が少なくなるものを選
択するようにするとよい。

【００２１】また、同図（ｂ）に示す次状態決定手段３
ｂは、認知距離学習手段（２ａ）による認知距離の学習
結果に基づいて、上述した行動系列に属することとなる
行動であって、目標状態に至るために上述した状態空間
中の特定の状態において次に実行すべき該行動を実行す
ることによって到達する状態である次状態を決定するも
のである。

【００２２】この次状態の決定については、例えば、問
題解決器１ｂが状態空間中における任意の状態において
実行し得る次の行動を実行することによって到達する状
態を提示する状態提示手段を更に有し、次状態決定手段
３ｂが、この状態提示手段により提示される状態のう
ち、該状態から目標状態までの認知距離が少なくなるも
のを選択するようにするとよい。

【００２３】本発明は、上述したような図１（ａ）若し
くは図１（ｂ）に示す構成を有することによって、認知
距離学習手段（２ａ、２ｂ）において状態空間中におけ
る任意の状態から目標状態までの認知距離の学習が行な
われ、そしてこの認知距離の学習結果に基づいて行動系
列の生成が行なわれる。この認知距離は、強化学習にお
ける予測評価と異なり、学習中に目標状態が変更すると
その変更が学習結果に直ちに反映される。しかも、次行
動決定手段３ａによる次行動の決定、及び次状態決定手
段３ｂによる次状態の決定は、認知距離学習手段（２
ａ、２ｂ）の学習結果である認知距離の単純な大小判断
によって行なうことができる。従って行動実行時の計算
コストは低く抑えられ、且つ、目標状態の変更に対する
柔軟性が確保される。

【００２４】なお、図１（ａ）（若しくは（ｂ））に示
す構成において、認知距離学習手段２ａ（若しくは２
ｂ）が、学習結果である認知距離を保持し、次行動決定
手段３ａ（若しくは次状態決定手段３ｂ）が、認知距離
学習手段２ａ（若しくは２ｂ）に保持されている認知距
離の学習結果に基づいて次行動（次状態）を決定し、認
知距離学習手段２ａ（若しくは２ｂ）が、同一の状態間
についての認知距離を再度学習したときには、保持して
いる認知距離を更新するように構成してもよく、この構
成によれば、行動実行時の経験をも学習に反映させるこ
とができ、目標状態の変更に対する柔軟性が更に向上す
る。

【００２５】また、図１（ｂ）に示す構成において、状
態空間中の状態が属する範囲であって、認知距離学習手
段２ｂによって認知距離を学習することの可能な状態が
属する該範囲を、該状態空間を階層化した上位の状態空
間におけるひとつの状態に対応付ける分節化手段と、該
上位の状態空間における状態を、該状態に対応する下位
の状態空間の範囲に属し、該範囲を代表する状態である
ランドマークに対応付けるランドマーク位置手段と、該
上位の状態空間中における任意の状態から、該分節化手
段によって該目標状態に対応付けられた該上位の状態空
間における目標状態に到達するまでの該認知距離を学習
する上位認知距離学習手段と、該上位認知距離学習手段
による該上位の状態空間中における認知距離の学習結果
に基づいて、該分節化手段によって該目標状態に対応付
けられた該上位の状態空間における目標状態に至るため
に、該分節化手段によって該下位の状態空間中の特定の
状態に対応付けられた該上位の状態空間における特定の
状態において次に実行すべき該行動を実行することによ
って到達する該上位の状態空間における該次状態を決定
する上位次状態決定手段と、を問題解決器１ｂが更に有
し、認知距離学習手段２ｂが、該下位の状態空間につい
ての該認知距離を学習し、次状態決定手段３ｂが、認知
距離学習手段２ｂによる該下位の状態空間についての認
知距離の学習結果に基づいて、該ランドマーク位置手段
によって該上位の状態空間における次状態に対応付けら
れているランドマークに至るために該下位の状態空間中
の特定の状態において次に実行すべき該行動を実行する
ことによって到達する該次状態を決定するように構成し
てもよく、この構成によれば、認知距離の学習結果の保
持量を制限しつつ、状態空間中で遠く離れた状態間での
行動決定が行なえるようになる。

【００２６】なお、上述した本発明に係る問題解決器
（１ａ、１ｂ）の備える各構成により行なわれる機能と
同様の制御をコンピュータに行なわせる制御プログラム
を記憶したコンピュータ読み取り可能な記憶媒体から、
その制御プログラムをコンピュータに読み出させて実行
させることによっても、前述した課題を解決することが
できる。

【００２７】

【発明の実施の形態】以下、本発明の実施の形態を図面
に基づいて説明する。なお、ここでは、本発明を実施す
る問題解決器に図２に示す問題を解決させる場合を例に
して説明する。

【００２８】図２に示す問題は、移動ロボットのナビゲ
ーションタスクである。同図に示されている問題は、移
動ロボット１０がゴール１１に到達する経路を求めると
いうものである。ここで、移動ロボット１０は、同図に
示すフィールド１２のマス目のどこに自分が現在位置し
ているかを示す情報（例えば２次元の座標情報）を得る
ことができるものとし、更に、このフィールド１２のマ
ス目間を上下左右に１マスずつ移動することができるも
のとする。但し、フィールド１２の四方を取り囲む壁１
３にぶつかっているときには、移動ロボット１０はその
壁１３の方向への移動は行なえないものとする。

【００２９】まず、図３について説明する。同図は、Ｑ
学習を用いた問題解決器と、本発明に係る、認知距離に
基づく問題解決器との構成を比較する図である。なお、
同図においては、図４に示すように、現在の状態ｓ
（ｔ）と、その状態において行なう行動ａ（ｔ＋１）と
をペアとするベクトルが取り扱われる。

【００３０】図３に（ａ）として示しているＱ学習を用
いた問題解決器について先に説明する。同図に示してい
る問題解決器２０は、行動モデル生成部２１、Ｑモジュ
ール２２、及び選択器２３を備えて構成されており、現
在の状態ｓ（ｔ）とその状態において試行した行動ａ
（ｔ＋１）とに応じて与えられる報酬（ｒｅｗａｒｄ）
を、問題が定義されている状態空間２４から受け取るこ
とで学習を繰り返し、十分な学習を終えた後には、現在
の状態ｓ（ｔ）において次に行なう適切な行動ａ（ｔ＋
１）を迅速に出力できるようになるというものである。

【００３１】行動モデル生成部２１は、現在の状態ｓ
（ｔ）におけるとり得る行動の一覧（行動リスト）を生
成して出力する。図２の問題例で説明すれば、移動ロボ
ット１０の現在の位置において可能な行動（フィールド
１２における１マス移動）の一覧を生成し、行動リスト
として出力する。

【００３２】Ｑモジュール２２は、状態空間２４から入
力される現在の状態ｓ（ｔ）と学習中に状態空間２４か
ら入力される報酬（ｒｅｗａｒｄ）とに基づいて、その
状態において実行し得る行動ａ（ｔ＋１）に対して期待
される報酬を算定する。

【００３３】図２の問題例で説明すれば、移動ロボット
１０は、学習時にはフィールド１２上の様々なマスにお
いて実際に上下左右への１マスの移動を実行する。この
とき、この移動の実行によって移動ロボット１０がゴー
ル１１に到達したときのみ報酬が与えられる（他の状態
では報酬が無い）ようにしておく。この報酬は即時評価
と呼ばれている。Ｑモジュール２２は、この報酬と、こ
の報酬を得たときの移動ロボット１０のフィールド１２
上の直前の位置（状態）及びその位置で実行された移動
（行動）の内容とに基づいて、フィールド１２上の各位
置で実行する各移動行動に対して期待される報酬（この
期待される報酬の期待値は遅延評価と呼ばれている）を
Ｑ値として見積もり、この結果をＱ値リストとして出力
する。Ｑモジュール２２は、十分な学習を行なうことに
よってこの見積もりの確度を向上させる。

【００３４】Ｑモジュール２２によって行なわれる学習
処理の手順を示すフローチャートを図５に示し、同図に
従ってその手順を説明する。図２の問題例で説明すれ
ば、この学習処理は、学習中に移動ロボット１０がフィ
ールド１２上を移動する度に行なわれる。

【００３５】まず、現在の状態ｓ（ｔ）及びこの状態に
おける報酬ｒが状態空間２４から、また前述した行動リ
ストＬａが行動モデル生成部２１から、それぞれ取得さ
れ、更に、この状態ｓに至った直前の行動ａ（ｔ）、す
なわち、問題解決器２０による直前の出力も取得される
（Ｓ１０１）。

【００３６】続いて、行動リストＬａから現在の状態ｓ
（ｔ）において行ない得る行動ａがひとつ取得される
（Ｓ１０２）。そして、この行動ａを実行したときに到
達する状態ｓ（ｔ＋１）が求められる（Ｓ１０３）。

【００３７】ここで、Ｑモジュール２２の内部に設けら
れているハッシュテーブルが参照され、ｓ（ｔ＋１）＋
ａなるベクトルをキーとしたときにそのキーに対応付け
られているＱ値ｑ（ｔ＋１）が取得される（Ｓ１０
４）。なお、このハッシュテーブルにおけるＱ値の初期
値は全てゼロ（ヌル）であるが、後述する処理ステップ
の作用によってＱ値が更新される。

【００３８】その後、前ステップの処理によって取得さ
れたＱ値ｑ（ｔ＋１）が、Ｑモジュール２２の出力情報
である前述したＱ値リストＬｑに追加される（Ｓ１０
５）。ここで、行動リストＬａに含まれている全ての行
動ａの要素について、上述したＳ１０３からＳ１０５に
かけての処理が実行されたか否かが判定され（Ｓ１０
６）、この判定結果がＮｏならばＳ１０２へ戻って上述
した処理が繰り返される。

【００３９】一方、Ｓ１０６の判定結果がＹｅｓであっ
た場合には、Ｑ値リストＬｑが参照され、そこからＱ値
ｑ（ｔ＋１）の最大値ｍａｘＱが求められる（Ｓ１０
７）。更に、前述したハッシュテーブルが参照され、そ
こからｓ（ｔ）＋ａ（ｔ＋１）なるベクトルをキーとし
たときに対応するＱ値ｑ（ｔ）が取得される（Ｓ１０
８）。

【００４０】ここで、前ステップの処理によって得られ
た値に基づき、ハッシュテーブルに示されているＱ値ｑ
（ｔ）が下記の式に従って更新される（Ｓ１０９）。ｑ
（ｔ）＋α（ｒ＋γｍａｘＱ−ｑ（ｔ））→ｑ（ｔ）上
式はＱ学習における基本的なＱ値の更新式であり、良く
知られている。なお、上式において、γ（０≦γ＜１）
は割引率と呼ばれ、ある状態の次の状態において獲得さ
れる将来の報酬を、現在の状態においてはどの程度割り
引いて評価するかを決めるために用いられる。また、α
（０＜α≦１）は学習率と呼ばれ、学習中における１回
毎の試行の結果を学習結果へどの程度反映させるかを決
定するために用いられる。

【００４１】Ｑモジュール２２は、問題解決器２０の学
習時には上述した処理が行なわれる。次に図６について
説明する。同図は十分な学習が行なわれた後にＱモジュ
ール２２によって行なわれる処理の手順を示すフローチ
ャートである。

【００４２】まず、現在の状態ｓ（ｔ）が状態空間２４
から、また前述した行動リストＬａが行動モデル生成部
２１から、それぞれ取得される（Ｓ２０１）。続いて、
行動リストＬａから現在の状態ｓ（ｔ）において行ない
得る行動ａがひとつ取得される（Ｓ２０２）。

【００４３】ここで、Ｑモジュール２２の内部に設けら
れている前述したハッシュテーブルが参照され、そこか
らｓ（ｔ）＋ａなるベクトルをキーとしたときに対応
するＱ値ｑ（ｔ）が取得される（Ｓ２０３）。

【００４４】その後、前ステップの処理によって取得さ
れたＱ値ｑ（ｔ）が、Ｑモジュール２２の出力情報であ
る前述したＱ値リストＬｑに追加される（Ｓ２０４）。
ここで、行動リストＬａに含まれている全ての行動ａの
要素について、上述したＳ２０３及びＳ２０４の処理が
実行されたか否かが判定され（Ｓ２０５）、この判定結
果がＮｏならばＳ２０２へ戻って上述した処理が繰り返
される。

【００４５】一方、Ｓ２０５の判定結果がＹｅｓであっ
た場合にはＱ値リストＬｑが選択器２３へと出力される
（Ｓ２０６）。以上のように、Ｑモジュール２２は、十
分な学習が行なわれた後には、現在の状態ｓ（ｔ）に対
応するＱ値リストＬｑを直ぐに作成し出力することがで
きるようになる。

【００４６】図３（ａ）の説明に戻る。選択器２３は、
十分な学習を行なったＱモジュール２２から出力される
Ｑ値リストに基づいて、期待される報酬の最も高い（遅
延評価の最も良い）行動を行動モデル生成部２１から出
力される行動リストより選択し、その選択結果を行動ａ
（ｔ＋１）として出力する。図２の問題例で説明すれ
ば、移動ロボット１０のフィールド１２上の現在の位置
において可能な１マス行動のうち、ゴール１１へ到達で
きる期待が最も高くなるものを選択することになり、そ
のマスに移動ロボット１０を移動させる指示が出力され
る。

【００４７】問題解決器２０の各構成要素が以上のよう
に動作することによって、ある状態とその状態において
行なう行動に対するＱ値の学習が行なわれ、行動実行時
にはこの学習結果に基づいた適切な行動の選択が迅速に
行なわれるようになる。但し、図２に示す問題において
は得られる報酬とゴール１１の位置との間に依存性があ
るために、この問題においてゴール１１が移動する場合
には、それまでのＱ値の学習結果を再利用できず、再学
習が必要となってしまう。

【００４８】次に、図３に（ｂ）として示している、本
発明に係る認知距離に基づく問題解決器について説明す
る。この図に示す問題解決器３０は、基本的には（ａ）
に示したＱ学習を用いた問題解決器２０に設けられてい
るＱモジュール２２が認知距離モジュール３２に置き換
えられ、更に状態−行動バッファ３５が追加されて構成
されている。そして、与えられる現在の自己の状態ｓ
（ｔ）と到達すべき目標状態を示す“ｇｏａｌ（状態＋
行動）" ベクトルとを、問題により定義されている状態
空間３４から受け取るという試行を繰り返し、十分な試
行が行なわれるにつれて、現在の自己の状態ｓ（ｔ）及
び到達すべき目標状態ベクトルｇｏａｌ（状態＋行動）
の入力に対し、次に行なう適切な行動ａ（ｔ＋１）が迅
速に出力できるようになるというものである。

【００４９】行動モデル生成部３１は、図３（ａ）の行
動モデル生成部２１と同様に、現在の状態ｓ（ｔ）にお
けるとり得る行動の一覧（行動リスト）を生成して出力
する。

【００５０】認知距離モジュール３２は、十分な学習を
終えた後には、図７に示すように、移動元である“ｆｒ
ｏｍ（状態＋行動）”ベクトルと移動先である“ｔｏ
（状態＋行動）”ベクトルとの２つのベクトルの入力に
応じ、ｆｒｏｍベクトルからｔｏベクトルへのベクトル
間の移動に要する距離（distance）を出力するものであ
る。この距離が認知距離（Cognitive Distance）であ
る。

【００５１】図３（ｂ）では、認知距離モジュール３２
は、センサ入力Ａに入力される状態空間３４の現在の状
態ｓ（ｔ）、及びセンサ入力Ｂに入力される到達すべ
き状態空間３４中の目標状態ｇｏａｌ（ｓｔａｔｅ＋ａ
ｃｔｉｏｎ）に基づいて、状態ｓ（ｔ）とその状態にお
いて実行し得る行動ａ（ｔ＋１）とよりなるベクトルか
ら目標状態を示すベクトルへの移動に要する距離を算出
し、距離リストとして出力する。また、算出された距離
の値はテーブルにして蓄積する。

【００５２】図２の問題例で説明すれば、認知距離モジ
ュール３２は、移動ロボット１０のフィールド１２の現
在の位置とゴール１１の位置及びその行動の状況とに基
づいて、移動ロボット１０のフィールド１２の現在の位
置において実行し得る移動と、その移動の結果の移動ロ
ボット１０−ゴール１１間の認知距離（移動に要するマ
スの数）との関係を示す距離リストを生成して出力す
る。

【００５３】選択器３３は、認知距離モジュール３２か
ら出力される距離リストに基づいて、認知距離が最も短
くなる行動を行動モデル生成部２１から出力される行動
リストより選択し、その選択結果を行動ａ（ｔ＋１）と
して出力する。図２の問題例で説明すれば、移動ロボッ
ト１０のフィールド１２上の現在の位置において可能な
１マス移動のうち、ゴール１１との距離が最も短くなる
ものを選択することになり、そのマスに移動ロボット１
０を移動させる指示を出力する。

【００５４】また、認知距離と行動の選択確率とを対応
させるようにして、認知距離が短くなる行動ほど高い確
率で選択されるように選択器３３を構成してもよい。状
態−行動バッファ３５は、状態ｓ（ｔ）において行なっ
た行動ａ（ｔ＋１）の過去の経験を保持するバッファで
あり、状態ｓ（ｔ）と、その状態において行なった行動
ａ（ｔ＋１）とをペアとするベクトルを保持する。な
お、状態−行動バッファ３５のサイズは有限とし、保持
量を超えたときには、新規のベクトルを、保持されてい
る最古のベクトルと入れ替えて保持するようにする。

【００５５】認知距離モジュール３２は状態−行動バッ
ファ３５を参照し、距離の導出の対象である状態ととり
得る行動とのペアのベクトルが状態−行動バッファ３５
に既に保持されているときには、認知距離モジュール３
２が蓄積している距離のテーブルを参照し、そこに示さ
れているそのベクトルに対応する距離と今回改めて導出
した距離とを比較し、改めて導出した距離の方が短いの
であればその距離テーブルを更新して距離の値を改めて
導出したものに変更する。この距離テーブルの更新を行
なうことによって、それまでになされた試行に基づく学
習結果が修正されるので、目標状態の変化への対応が柔
軟に行なわれる。

【００５６】ここで図８について説明する。同図は、図
７に示す入出力関係を有する認知距離モジュール３２に
おいて行なわれる、学習処理の手順を示すフローチャー
トである。この学習処理は、状態空間における状態＋行
動を特定する、前述したｆｒｏｍベクトル（ｆベクトル
と略す）とｔｏベクトル（ｔベクトルと略す）との２つ
の任意のベクトル間の距離の学習を行なうものである。
この学習処理は、ｆベクトル若しくはｔベクトルが変化
する度に行なわれる。

【００５７】まず、ｆベクトル及びｔベクトルが取得さ
れ、更に、両ベクトルで示される状態間の距離ｄが両ベ
クトルに基づいて求められる（Ｓ３０１）。ここで、ｆ
ベクトル及びｔベクトルからハッシュコードであるベク
ターキーｖが作成される（Ｓ３０２）。

【００５８】ここで、ｆベクトルとｔベクトルとが一致
するか否かが判定される（Ｓ３０３）。判定結果がＹｅ
ｓならば距離が代入される変数Ｄに値「０」が代入され
（Ｓ３０４）、その後はＳ３０９に進む。

【００５９】一方、Ｓ３０３の判定処理の結果がＮｏな
らば、認知距離モジュール３２の内部に設けられている
ハッシュテーブルが参照され、ベクターキーｖをキーと
したときにそのキーに対応付けられている距離が取得さ
れ、上述した変数Ｄに代入される（Ｓ３０５）。

【００６０】ここで、この変数Ｄの値がヌルであるか否
か、すなわち、上述したハッシュテーブルにおいてベク
ターキーｖに対応付けられている値が空であるか否かが
判定され（Ｓ３０６）、この判定結果がＮｏならば変数
Ｄの値がＳ３０１の処理によって取得されていた距離ｄ
の値よりも大きいか否かが更に判定され（Ｓ３０７）、
この判定結果がＮｏならばこの学習処理が終了する。

【００６１】ところで、上述したＳ３０６若しくはＳ３
０７のいずれかの判定処理での判定結果がＹｅｓであっ
たときには、Ｓ３０１の処理によって取得されていた距
離ｄの値を変数Ｄに代入する（Ｓ３０８）。

【００６２】その後、上述したハッシュテーブルが参照
され、上述したベクターキーｖに対応付けられている値
が変数Ｄの現在の値に更新される（Ｓ３０９）。この判
定結果がＮｏならばこの学習処理が終了する。

【００６３】認知距離モジュール３２では、以上のよう
にして学習処理が行なわれる。なお、図３（ｂ）に示す
問題解決器３０においては、上述した学習処理は、認知
距離モジュール３２と状態−行動バッファ３５との組み
合わせにより実行される。

【００６４】すなわち、学習時には、認知距離モジュー
ル３２には、目標状態を示すベクトルｇｏａｌ（ｓｔａ
ｔｅ＋ａｃｔｉｏｎ）とが状態空間３４から入力され、
このベクトルは上述したｔベクトルとして扱われる。そ
の一方で、現在の自己の状態ｓ（ｔ）と、この状態ｓに
おける学習行動において実際に試行された移動行動ａ
（ｔ＋１）とが状態−行動バッファ３５に入力されてｆ
ベクトルが生成され、認知距離モジュール３２に入力さ
れる。更に、状態−行動バッファ３５の履歴が参照され
て同一のｆベクトルの存在の有無が調べられ、存在する
のであれば、ハッシュテーブルに示されている距離と上
述した距離ｄとの長短が判定され、ハッシュテーブルに
おいてｆベクトルに対応するデータがその判定結果にお
ける短い方の距離の値となるようにハッシュテーブルが
更新される。なお、このときのハッシュテーブルのサイ
ズ（記憶容量）は状態−行動バッファ３５のサイズに対
応して設定される。

【００６５】次に図９について説明する。同図は、十分
な学習が行なわれた後に図３（ｂ）に設けられている認
知距離モジュール３２によって行なわれる処理の手順を
示すフローチャートである。

【００６６】まず、現在の自己の状態ｓと目標状態を示
すベクトルｇｏａｌ（ｓｔａｔｅ＋ａｃｔｉｏｎ）（ｇ
ベクトルと略す）とが状態空間３４から、また前述した
行動リストＬａが行動モデル生成部３１からそれぞれ取
得される（Ｓ４０１）。

【００６７】続いて、行動リストＬａから現在の状態ｓ
において行ない得る行動ａがひとつ取得される（Ｓ４０
２）。ここで、状態ｓと行動ａとからなるベクトル及び
ｇベクトルから、前述した学習処理で用いた認知距離モ
ジュール３２内のハッシュテーブルを参照するためのハ
ッシュコードであるベクターキーｖが作成される（Ｓ
４０３）。そして、そのハッシュテーブルが参照され、
ベクターキーｖをキーとしたときにそのキーに対応付け
られている距離ｄが取得される（Ｓ４０４）。

【００６８】その後、前ステップの処理によって取得さ
れた距離ｄが、認知距離モジュール３２の出力情報であ
る前述した距離リストＬｄに追加される（Ｓ４０５）。
ここで、行動リストＬａに含まれている全ての行動ａの
要素について、上述したＳ４０３からＳ４０５にかけて
の処理が実行されたか否かが判定され（Ｓ４０６）、こ
の判定結果がＮｏならばＳ４０２へ戻って上述した処理
が繰り返される。

【００６９】一方、Ｓ４０６の判定結果がＹｅｓであっ
た場合には距離リストＬｄが選択器２３へと出力される
（Ｓ４０７）。以上のように、認知距離モジュール３２
は、十分な学習が行なわれた後には、現在の状態ｓに対
応する距離リストＬｄを直ぐに作成して出力することが
できるようになる。

【００７０】以下の説明においては、以上までに説明し
た、図３（ｂ）に示す問題解決器３０を「第一実施例に
おける問題解決器」と称することとする。今までに説明
した第一実施例における問題解決器では、問題により定
義される状態空間における状態とそこで実行される行動
とは区別して扱っていた。以降の説明においては、状態
と行動とを区別しない一つの状態として扱うようにし、
図１０に示すように、同一時刻ｔにおける状態ｓ（ｔ）
と行動ａ（ｔ）（状態ｓ（ｔ）に至るために実行された
行動）とを纏めたひとつの一般化状態Ｓａ（ｔ）を定義
し、この一般化状態に対応する一般化認知距離に基づい
た問題解決器を第二実施例として説明する。

【００７１】図１１は一般化認知距離に基づいた問題解
決器の構成を示している。なお、同図に示す第二実施例
の構成においては、第一実施例とは異なり、図１２に示
すように、現在の状態ｓ（ｔ）と、その状態に至るため
に実行される行動ａ（ｔ）とをペアとするベクトルが取
り扱われる。

【００７２】図１１に示す問題解決器４０は、移動可能
状態モデル生成部４１、一般化認知距離モジュール４
２、選択器４３、及び状態バッファ４５を備えて構成さ
れており、問題により定義されている状態空間４４か
ら、現在の一般化状態Ｓａ（ｔ）［＝ｓ（ｔ）＋ａ
（ｔ）］と、到達すべき目標状態である一般化状態Ｇ
（ｔ）とを受け取るという試行を繰り返し、十分な試行
が行なわれるにつれて、現在の自己の一般化状態Ｓａ
（ｔ）及び到達すべき目標状態であるＧ（ｔ）の入力に
対し、次に行なう適切な行動を成分に含む一般化状態で
あるサブゴールＳＧ（ｔ）＝Ｓａ（ｔ＋１）［＝ｓ（ｔ
＋１）＋ａ（ｔ＋１）］が迅速に出力できるようになる
というものである。

【００７３】状態バッファ４５は、この問題解決器４０
に入力された一般化状態Ｓａ（ｔ）の履歴の保持、すな
わち、状態ｓ（ｔ）に至った行動ａ（ｔ）の経験を蓄え
るものであり、図３（ｂ）に示した状態−行動バッファ
３５と同様の構成・機能を有するものである。

【００７４】移動可能状態モデル生成部４１は、現在の
一般化状態Ｓａ（ｔ）から直接遷移（移動）可能な一般
化状態の一覧（移動可能状態リスト）を生成して出力す
るものであり、図１７に示した従来の世界モデル（フォ
ワードモデル）を一般化状態のフレームワークに適合さ
せたモジュールと考えることができる。移動可能状態モ
デル生成部４１は、状態バッファ４５の履歴を参照して
実際に試行された移動の経験を蓄積する学習を行なうこ
とによって、移動可能状態リストの生成が行なえるよう
になる。

【００７５】移動可能状態モデル生成部４１において行
なわれる、この学習処理の手順を示すフローチャートを
図１３に示す。この学習処理は、状態空間におけるある
一般化状態を特定するｆｒｏｍベクトル（ｆベクトルと
略す）とｔｏベクトル（ｔベクトルと略す）との２つの
任意のベクトルにおいて、ｆベクトルからｔベクトルへ
の行動が直接可能であることが学習処理における試行に
よって判明したときに、その経験を蓄積していく処理で
ある。

【００７６】まず、ｆベクトル及びｔベクトルが取得さ
れ（Ｓ５０１）、このうちのｆベクトルをキーにして移
動可能状態モデル生成部４１の内部に設けられているハ
ッシュテーブルが参照され、ｆベクトルをキーとしたと
きにそのキーに対応付けられているリストｌ（過去の経
験によってｆベクトルから直接移動可能であることが判
明した状態を示すベクトルが格納されるリスト）が取得
される（Ｓ５０２）。

【００７７】ここで、取得されたリストｌがヌルである
か否か、すなわち、リストｌが存在しないか否かが判定
され（Ｓ５０３）、この判定結果がＮｏである場合に
のみ、その内容にｔベクトルを含むリストｌが作成され
（Ｓ５０４）、ｆベクトルのキーに対応付けられて上
述したハッシュテーブルに登録される（Ｓ５０５）。

【００７８】続いて、リストｌにｔベクトルが含まれて
いるか否かが判定され（Ｓ５０６）、この判定結果がＮ
ｏの場合にのみ、リストｌにｔベクトルが追加される
（Ｓ５０７）。

【００７９】移動可能状態モデル生成部４１では、以上
のようにして学習が行なわれる。なお、図１１において
は、移動可能状態モデル生成部４１には現在の一般化状
態Ｓａ（ｔ）が状態空間４４から入力され、このＳａ
（ｔ）が上述した学習処理におけるｔベクトルとして扱
われる。また、Ｓａ（ｔ）の直前の状態Ｓａ（ｔ−１）
が状態バッファ４５から入力され、このＳａ（ｔ−１）
が上述した学習処理におけるｆベクトルとして扱われ
る。そして、十分な学習が行なわれた後には、状態空間
４４から入力される般化状態Ｓａ（ｔ）をキーとして上
述したハッシュテーブルが参照され、対応するリストｌ
がハッシュテーブルから取り出されて移動可能状態リス
トとして選択器４３に直ちに出力されるようになる。

【００８０】一般化認知距離モジュール４２は、移動可
能状態モデル生成部４１から出力される移動可能状態リ
ストに示されている各一般化状態、及びセンサ入力Ｂに
入力される到達すべき状態空間４４中の目標状態の一般
化状態Ｇ（ｔ）に基づいて、各一般化状態のベクトルか
ら目標状態の一般化状態Ｇ（ｔ）ベクトルへの移動に要
する距離（一般化認知距離）を算出し、距離リストとし
て出力するものであり、図３（ｂ）に示した認知距離モ
ジュール３２と同様の構成・機能を有するものである。
また、この一般化認知距離モジュール４２は、距離テー
ブルの蓄積も同様に行ない、更に、状態バッファ４５に
基づくこの距離テーブルの更新も同様に行なう。

【００８１】選択器４３は、一般化認知距離モジュール
４２から出力される距離リストに基づいて、認知距離が
最も短くなる一般化状態を移動可能状態モデル生成部４
１から出力される移動可能状態リストより選択し、その
選択結果をサブゴールＳＧ（ｔ）として出力するもので
あり、これも、図３（ｂ）に示した選択器３３と同様の
構成・機能を有するものである。

【００８２】問題解決器４０は、以上のような構成を備
えることで、ある一般化状態Ｓａ（ｔ）における、目標
状態に到達するための最適なサブゴールＳＧ（ｔ）を迅
速に出力することが学習によって可能となる。

【００８３】次に、本発明の第三実施例について説明す
る。今まで説明した本発明の第一及び第二実施例の認知
距離（あるいは一般化認知距離）に基づく問題解決器に
は多量の情報の記憶が必要であり、以下のような２つの
問題がある。

【００８４】（１）認知距離を保持する組み合わせの爆
発問題により定義される状態空間に存在する一般化状態の
状態数をＮｓとすると、認知距離の組み合わせはＯ（Ｎ
ｓ×Ｎｓ）にもなり、状態数の二乗のオーダーで増加し
てしまう。従って、状態空間が大きくなるときには全て
の認知距離についての情報を保持することは現実的でな
い。

【００８５】なお、この点において、従来のＧＰＳで用
いられるオペレータの総数は、各状態で直接移動可能な
状態数の平均をｍとするならば、その記憶容量は高々Ｏ
（Ｎｓ×ｍ）程度のオーダーであり、また、強化学習で
のその記憶容量はＯ（Ｎｓ）程度のオーダーであった。

【００８６】（２）認知距離の保持量の制限に起因する
問題上記（１）の問題を回避するために、認知距離の保持量
に最大値θを設けるようにすることが考えられる。こう
すれば、Ｏ（Ｎｓ×（ｍのθ乗））程度に押さえ込むこ
とができるし、前述した状態バッファ４５（図１１）に
よる一般化状態の履歴の保持量もθ程度に留めることも
可能となり、更に、認知距離の更新処理のための演算量
の抑制も可能となるので、有益である。しかしながら、
この手法ではある上限以上に離れた状態間での行動決定
が行なえなくなってしまうという問題が生じてしまう。

【００８７】上述した問題に対処するために、本発明の
第三実施例では一般化状態を用いた問題解決器を階層化
する。図１４は、階層化された一般化認知距離に基づく
問題解決器の構成を示している。なお、同図において、
問題解決器５０はレイヤ１及びレイヤ２についての構成
のみを示しており、レイヤ３以上については、レイヤ１
若しくはレイヤ２と同様の構成であるため、描画を略し
ている。

【００８８】同図を既に説明した図１１と比較すると分
かるように、図１４に示す問題解決器５０は、基本的に
は図１１に示した問題解決器４０を積み重ねたような構
成を有している。

【００８９】ここで、一般化状態で示される状態空間の
階層化について、図１５を用いて説明する。なお、同図
の例は、３レイヤ（階層）の構造を示している。まず、
下位レイヤから上位レイヤへの対応を示す関数が定義さ
れると同時に、上位レイヤから下位レイヤのランドマー
クを取り出す関数が定義される。ここで、ランドマーク
とは、上位レイヤにおけるある状態に対応する下位レイ
ヤの１以上の状態のうち、それらを代表するひとつの状
態を示すものである。

【００９０】なお、ここでは、前者の関数を分節化関数
（Segmentation Function ）、後者の関数をランドマー
ク位置関数（Landmark Position Function）と称するこ
ととする。

【００９１】例えば、図１５において、分節化関数は、
レイヤ２であるフィールド６０−２上に示されている
（ａ）の範囲を、レイヤ３であるフィールド６０−３上
にスタート６１−３として示されている位置（状態）に
集約させるものであり、ランドマーク位置関数は、レイ
ヤ３であるフィールド６０−３上に示されている白丸印
の位置からレイヤ２であるフィールド６０−２上に示さ
れている対応する星印の位置（ランドマーク）に写像す
るものである。

【００９２】ここで、レイヤ間の関係の理解を容易にす
るために、以下の２つの性質を定義する。（１）直接移動可能性当該レイヤにおいて、現在の状態からある目標の状態へ
直接移動できる性質。つまり、当該レイヤよりも下位の
レイヤのみを利用して移動できる性質を示す。

【００９３】（２）到達可能性当該レイヤにおいて、現在の状態からの行動（何回でも
可）によって目標状態へ到達することが可能である性
質。図１５には、各スタート（６１−１、６１−２、６
１−３）から到達可能である各レイヤのフィールド（６
０−１、６０−２、６０−３）上の範囲を破線の枠で示
している。

【００９４】ある２つのレイヤに注目した場合、下位の
レイヤについての問題解決器はある状態の近傍での詳細
な移動についての知識を獲得できるが、遠方の目標状態
への移動についての知識を獲得することはできない。そ
の一方で、上位のレイヤについての問題解決器は遠方の
目標状態への大まかな移動についての知識を獲得するこ
とはできるが、詳細な状態遷移の手続についての知識を
獲得することはできない。つまり、問題解決器を階層化
することによって、下位レイヤの到達可能性が上位レイ
ヤの直接移動可能性に置き換わるのである。

【００９５】例えば、図１５において、レイヤ３である
フィールド６０−３上において１マス分の距離であり、
直接移動可能であるスタート６１−３と白印とは、その
下位層であるレイヤ２においては、それぞれがスタート
６１−２と星印とに置き換わり、それらは共にフィール
ド６１−２上の到達可能な範囲内に位置するようにな
る。つまりそれらはレイヤ２の問題解決器によって認知
距離の算出が可能であり、行動系列の生成が可能である
ことを示している。

【００９６】階層化を利用して一般化状態空間中でスタ
ートからゴールまで移動する経路を求める課題を考え
る。図１５で説明すれば、レイヤ１であるフィールド６
０−１上において、スタート６１−１からゴール６２−
１までの経路を求める課題を考える。

【００９７】フィールド６０−１に示されているよう
に、ゴール６２−１は、スタート６１−１の到達可能範
囲外に位置している。すなわち、レイヤ１の問題解決器
のみによる認知距離の算出は不能であり、行動系列の生
成は行なえない。

【００９８】そこで、分節化関数を用い、スタート６１
−１及びゴール６２−１をレイヤ２であるフィールド６
０−２上のスタート６１−２及びゴール６２−２に抽象
化する。しかしながらレイヤ２においてもゴール６２−
２はスタート６１−２の到達可能範囲外である。

【００９９】このため、分節化関数を更に適用し、スタ
ート６１−２及びゴール６２−２をレイヤ３であるフィ
ールド６０−３上のスタート６１−３及びゴール６２−
３に抽象化する。このレイヤ３においては、ゴール６２
−３はスタート６１−２の到達可能範囲内に位置してい
る。そこで、レイヤ３についての問題解決器により具体
的な状態の移動の決定がなされてサブゴールが出力され
る。その後、このサブゴールのランドマーク位置関数に
よる写像であるランドマークが求められ、このランドマ
ークがレイヤ２に送り返される。

【０１００】レイヤ２についての問題解決器では、スタ
ート６１−２からこのランドマークに到達するまでの適
切な具体的な状態の移動の決定が行なわれ、そのための
サブゴールが出力される。その後、このサブゴールのラ
ンドマーク位置関数による写像であるランドマークが更
に求められ、このランドマークがレイヤ１に送り返され
る。

【０１０１】レイヤ１についての問題解決器では、スタ
ート６１−１からこの送り返されてきたランドマークに
到達するまでの適切な具体的な状態の移動の決定が行な
われ、そのためのサブゴールが出力される。この後は、
このサブゴールからゴール６２−１までの移動経路を求
めることとなる。

【０１０２】以上のような操作が各レイヤで繰り返され
ることによって最終的にスタート６１−１からゴール６
２−１までの移動経路を求めることができる。以下、図
１４に示した問題解決器５０の構成について説明する。

【０１０３】問題解決器５０において、移動可能状態モ
デル生成部（４１−１、４１−２）、一般化認知距離モ
ジュール（４２−１、４２−２）、選択器（４３−１、
４３−２）、状態バッファ（４５−１、４５−２）は、
各々図１１の問題解決器４０における同名の構成要素と
同様のものである。

【０１０４】スイッチャ（５１−１、５１−２）は、一
般化認知モジュール（４２−１、４２−２）への入力の
ひとつとして、下位のレイヤ（若しくは状態空間５６）
から得られるゴールと、下位のレイヤから送り返されて
くるサブゴールのランドマークとのどちらかを選択する
ものである。スイッチャ（５１−１、５１−２）は、下
位レイヤから与えられるゴールを優先的に選択し、ま
ず、一般化認知モジュール（４２−１、４２−２）によ
る一般化認知距離の生成を試みる。ここで一般化認知距
離の生成が行なえなかったときには上位レイヤから送り
返されてくるサブゴールのランドマークを選択して一般
化認知モジュール（４２−１、４２−２）に一般化認知
距離の生成を行なわせる。

【０１０５】ランドマークデータベース（５２−１、５
２−２）は当該レイヤとその当該レイヤに隣接する上位
のレイヤとにおける一般化状態の関係情報が格納されて
いるデータベースであり、前述した分節化関数及びラン
ドマーク位置関数を構成する元となるものである。

【０１０６】本実施例においては、分節化関数に関し、
ＴＬＭ−ＳＦ（To Landmark Segmentation Function ）
部（５３−１、５３−２）とＦＬＭ−ＳＦ（From Landm
arkSegmentation Function ）部（５４−１、５４−
２）という２種類の分節化関数を適用する情報変換部を
用意している。

【０１０７】ＴＬＭ−ＳＦ部（５３−１、５３−２）
は、ランドマークデータベース（５２−１、５２−２）
に格納されている関係情報に基づいて、下位レイヤのあ
る一般化状態を示す情報が入力されると、その状態から
到達可能である当該レイヤの範囲を集約する上位レイヤ
における一般化状態に対応するＩＤ（識別データ）を出
力するものであり、現在の一般化状態を示す情報の変換
に用いられる。

【０１０８】ＦＬＭ−ＳＦ部（５４−１、５４−２）
は、ランドマークデータベース（５２−１、５２−２）
に格納されている関係情報に基づいて、下位レイヤのあ
る一般化状態を示す情報が入力されると、その状態に到
達可能である当該レイヤの範囲を集約する上位レイヤに
おける一般化状態に対応するＩＤを出力するものであ
り、目標（ゴール）である一般化状態を示す情報の変換
に用いられる。

【０１０９】ＬＭＰＦ（Landmark Position Function）
部（５５−１、５５−２）はランドマーク位置関数を適
用する情報変換を行なうものであり、上位レイヤのある
一般化状態を示す情報が入力されると、その状態に対応
する下位レイヤにおける到達可能範囲中の状態であって
その範囲を代表するランドマークについての一般化状態
を出力するものであり、上位レイヤから送り返されてく
るサブゴールの一般化状態を示す情報の変換に用いられ
る。

【０１１０】問題解決器５０はこれらの各要素を備えて
構成されることで、遠く離れた状態間の行動決定を実現
する。なお、上述した階層化した構成による一般化状態
を用いた問題解決器において、認知距離の情報の保持に
要する記憶量は、図１５を参照しても容易に分かるよう
に、その殆どが最下層のレイヤに関するものとなる。そ
してその記憶量は、その最下層のレイヤにおけるある状
態から直接移動可能な状態数の平均をｍとし、認知距離
の保持量の上限をθするならば、Ｏ（Ｎｓ×（ｍのθ
乗））のオーダーとなる。このように、第三実施例は、
認知距離の学習結果の保持量を制限しつつ、遠く離れた
状態間での行動決定を可能にしている。

【０１１１】なお、以上までに説明した第一、第二、及
び第三実施例における問題解決によってなされる行動系
列の生成処理をコンピュータに行なわせるための制御プ
ログラムを作成してコンピュータ読み取り可能な記憶媒
体に記憶させ、そのプログラムを記憶媒体からコンピュ
ータに読み出させて実行させることにより、本発明に係
る問題解決器による行動系列の生成機能を汎用コンピュ
ータに行なわせることも可能である。

【０１１２】記憶させた制御プログラムをコンピュータ
で読み取ることの可能な記憶媒体の例を図１６に示す。
同図に示すように、記憶媒体としては、例えば、コンピ
ュータ７１に内蔵若しくは外付けの付属装置として備え
られるＲＯＭやハードディスク装置などのメモリ７２、
フロッピー（登録商標）ディスク、ＭＯ（光磁気ディス
ク）、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭなどといった可搬
型記憶媒体７３等が利用できる。また、記憶媒体は回線
７４を介してコンピュータ７１と接続されるコンピュー
タであるプログラムサーバ７５が備える記憶装置７６で
あってもよい。この場合には、制御プログラムを表現す
るデータ信号で搬送波を変調して得られる伝送信号を、
プログラムサーバ７５から伝送媒体である回線７４を通
じて伝送し、コンピュータ７１では受信した伝送信号を
復調して制御プログラムを再生することで当該制御プロ
グラムの実行が可能となる。（付記１）ある問題により定義される状態空間中で初
期状態と目標状態とが与えられたときに該初期状態から
該目標状態に至るまでの行動系列を生成する問題解決器
であって、前記状態空間中における任意の第一の状態か
ら該第一の状態とは異なる第二の状態に到達するまでの
行動系列の実行によって費やされる、該状態空間の環境
に対して作用させるコストを示す認知距離を学習する認
知距離学習手段と、前記認知距離学習手段による認知距
離の学習結果に基づいて、前記行動系列に属することと
なる行動であって、前記目標状態に至るために前記状態
空間中の特定の状態において次に実行すべき該行動を決
定する次行動決定手段と、を有することを特徴とする問
題解決器。

【０１１３】（付記２）前記状態空間中における任意
の状態において実行し得る次の行動を提示する行動提示
手段を更に有し、前記次行動決定手段は、前記行動提示
手段により提示される行動のうち、該行動を行なったと
きに到達する状態から前記目標状態までの認知距離が少
なくなるものを選択する、ことを特徴とする付記１に記
載の問題解決器。

【０１１４】（付記３）前記認知距離学習手段は、学
習結果である前記認知距離を保持し、前記次行動決定手
段は、前記認知距離学習手段に保持されている認知距離
の学習結果に基づいて前記行動を決定し、前記認知距離
学習手段は、同一の状態間についての認知距離を再度学
習したときには、保持されている認知距離を更新する、
ことを特徴とする付記１に記載の問題解決器。

【０１１５】（付記４）ある問題により定義される状
態空間中で初期状態と目標状態とが与えられたときに該
初期状態から該目標状態に至るまでの行動系列を生成す
る問題解決器であって、前記状態空間中における任意の
第一の状態から該第一の状態とは異なる第二の状態に到
達するまでの行動系列の実行によって費やされる、該状
態空間の環境に対して作用させるコストを示す認知距離
を学習する認知距離学習手段と、前記認知距離学習手段
による認知距離の学習結果に基づいて、前記行動系列に
属することとなる行動であって、前記目標状態に至るた
めに前記状態空間中の特定の状態において次に実行すべ
き該行動を実行することによって到達する状態である次
状態を決定する次状態決定手段と、を有することを特徴
とする問題解決器。

【０１１６】（付記５）前記状態空間中における任意
の状態において実行し得る次の行動を実行することによ
って到達する状態を提示する状態提示手段を更に有し、
前記次状態決定手段は、前記状態提示手段により提示さ
れる状態のうち、該状態から前記目標状態までの認知距
離が少なくなるものを選択する、ことを特徴とする付記
４に記載の問題解決器。

【０１１７】（付記６）前記認知距離学習手段は、学
習結果である前記認知距離を保持し、前記次状態決定手
段は、前記認知距離学習手段に保持されている認知距離
の学習結果に基づいて前記次状態を決定し、前記認知距
離学習手段は、同一の状態間についての認知距離を再度
学習したときには、保持されている認知距離を更新す
る、ことを特徴とする付記４に記載の問題解決器。

【０１１８】（付記７）前記状態空間中の状態が属す
る範囲であって、前記認知距離学習手段によって認知距
離を学習することの可能な状態が属する該範囲を、該状
態空間を階層化した上位の状態空間におけるひとつの状
態に対応付ける分節化手段と、前記上位の状態空間にお
ける状態を、該状態に対応する下位の状態空間の範囲に
属し、該範囲を代表する状態であるランドマークに対応
付けるランドマーク位置手段と、前記上位の状態空間中
における任意の第一の状態から該第一の状態とは異なる
第二の状態に到達するまでの前記認知距離を学習する上
位認知距離学習手段と、前記上位認知距離学習手段によ
る前記上位の状態空間中における認知距離の学習結果に
基づいて、前記分節化手段によって前記目標状態に対応
付けられた前記上位の状態空間における目標状態に至る
ために、該分節化手段によって前記下位の状態空間中の
特定の状態に対応付けられた該上位の状態空間における
特定の状態において次に実行すべき該行動を実行するこ
とによって到達する該上位の状態空間における前記次状
態を決定する上位次状態決定手段と、を更に有し、前記
認知距離学習手段は、前記下位の状態空間についての前
記認知距離を学習し、前記次状態決定手段は、前記認知
距離学習手段による前記下位の状態空間についての認知
距離の学習結果に基づいて、前記ランドマーク位置手段
によって前記上位の状態空間における次状態に対応付け
られているランドマークに至るために前記下位の状態空
間中の特定の状態において次に実行すべき前記行動を実
行することによって到達する状態である次状態を決定す
る、ことを特徴とする付記４に記載の問題解決器。

【０１１９】（付記８）コンピュータに実行させるこ
とによって、ある問題により定義される状態空間中で初
期状態と目標状態とが与えられたときに該初期状態から
該目標状態に至るまでの行動系列を生成させる制御を該
コンピュータに行なわせる制御プログラムを記憶した該
コンピュータで読み取り可能な記憶媒体であって、前記
状態空間中における任意の第一の状態から該第一の状態
とは異なる第二の状態に到達するまでの行動系列の実行
によって費やされる、該状態空間の環境に対して作用さ
せるコストを示す認知距離を学習する制御と、前記認知
距離の学習結果に基づいて、前記行動系列に属すること
となる行動であって、前記目標状態に至るために前記状
態空間中の特定の状態において次に実行すべき該行動を
決定する制御と、をコンピュータに行なわせる制御プロ
グラムを記憶した記憶媒体。

【０１２０】（付記９）コンピュータに実行させるこ
とによって、ある問題により定義される状態空間中で初
期状態と目標状態とが与えられたときに該初期状態から
該目標状態に至るまでの行動系列を生成させる制御を該
コンピュータに行なわせる制御プログラムを記憶した該
コンピュータで読み取り可能な記憶媒体であって、前記
状態空間中における任意の第一の状態から該第一の状態
とは異なる第二の状態に到達するまでの行動系列の実行
によって費やされる、該状態空間の環境に対して作用さ
せるコストを示す認知距離を学習する制御と、前記認知
距離の学習結果に基づいて、前記行動系列に属すること
となる行動であって、前記目標状態に至るために前記状
態空間中の特定の状態において次に実行すべき該行動を
実行することによって到達する状態である次状態を決定
する制御と、をコンピュータに行なわせる制御プログラ
ムを記憶した記憶媒体。

【０１２１】（付記１０）コンピュータに実行させる
ことによって、ある問題により定義される状態空間中で
初期状態と目標状態とが与えられたときに該初期状態か
ら該目標状態に至るまでの行動系列を生成させる制御を
該コンピュータに行なわせる制御プログラムを含む搬送
波に具現化されたコンピュータ・データ・シグナルであ
って、該制御プログラムは以下のステップをコンピュー
タに実行させる：前記状態空間中における任意の第一の
状態から該第一の状態とは異なる第二の状態に到達する
までの行動系列の実行によって費やされる、該状態空間
の環境に対して作用させるコストを示す認知距離を学習
し、前記認知距離の学習結果に基づいて、前記行動系列
に属することとなる行動であって、前記目標状態に至る
ために前記状態空間中の特定の状態において次に実行す
べき該行動を決定する。

【０１２２】（付記１１）コンピュータに実行させる
ことによって、ある問題により定義される状態空間中で
初期状態と目標状態とが与えられたときに該初期状態か
ら該目標状態に至るまでの行動系列を生成させる制御を
該コンピュータに行なわせる制御プログラムを含む搬送
波に具現化されたコンピュータ・データ・シグナルであ
って、該制御プログラムは以下のステップをコンピュー
タに実行させる：前記状態空間中における任意の第一の
状態から該第一の状態とは異なる第二の状態に到達する
までの行動系列の実行によって費やされる、該状態空間
の環境に対して作用させるコストを示す認知距離を学習
し、前記認知距離の学習結果に基づいて、前記行動系列
に属することとなる行動であって、前記目標状態に至る
ために前記状態空間中の特定の状態において次に実行す
べき該行動を実行することによって到達する状態である
次状態を決定する。

【０１２３】

【発明の効果】以上詳細に説明したように、本発明は、
ある問題により定義される状態空間中で初期状態と目標
状態とが与えられたときに、該初期状態から該目標状態
に至るまでの行動系列を生成する問題解決器で、該状態
空間中における任意の状態から前記目標状態に到達する
までの行動系列の実行によって費やされる、該状態空間
の環境に対して作用させるコストを示す認知距離を学習
するようにし、その認知距離の学習結果に基づいて、該
行動系列に属することとなる行動であって、前記目標状
態に至るために前記状態空間中の特定の状態において次
に実行すべき該行動である次行動を決定する、若しくは
その次行動を実行することによって到達する状態である
次状態を決定するように構成する。

【０１２４】そして、この構成により、本発明は、行動
実行時の計算コストが低く抑えられ、且つ、目標状態の
変更に対する柔軟性が確保されるという効果を奏する。

【図面の簡単な説明】

【図１】本発明の原理構成を示す図である。

【図２】本発明を実施する問題解決器に解決させる問題
の例を説明する図である。

【図３】Ｑ学習を用いた問題解決器と認知距離に基づく
問題解決器との構成を比較する図である。

【図４】図３に示す問題解決器で取り扱うベクトルの成
分を示す図である。

【図５】Ｑモジュールにおいて行なわれる学習処理の手
順を示すフローチャートである。

【図６】十分な学習が行なわれた後にＱモジュールによ
って行なわれる処理の手順を示すフローチャートであ
る。

【図７】認知距離モジュールの入出力を説明する図であ
る。

【図８】認知距離モジュールにおいて行なわれる学習処
理の手順を示すフローチャートである。

【図９】十分な学習が行なわれた後に認知距離モジュー
ルによって行なわれる処理の手順を示すフローチャート
である。

【図１０】一般化状態の定義を図２に導入した場合を示
す図である。

【図１１】一般化認知距離に基づく問題解決器の構成を
示す図である。

【図１２】図１１に示す問題解決器で取り扱うベクトル
の成分を示す図である。

【図１３】移動可能状態モデル生成部において行なわれ
る学習処理の手順を示すフローチャートである。

【図１４】階層化された、一般化認知距離に基づく問題
解決器の構成を示す図である。

【図１５】一般化状態で示される状態空間の階層化を説
明する図である。

【図１６】記憶された制御プログラムをコンピュータで
読み取ることの可能な記憶媒体の例を示す図である。

【図１７】オペレータ／世界モデル／順モデルを説明す
る図である。

【図１８】即応的行動決定を説明する図である。

【図１９】強化学習（Ｑモジュール／Ｃｒｉｔｉｃ）を
説明する図である。

【符号の説明】

１ａ、１ｂ、２０、３０、４０、５０問題解決器２ａ、２ｂ認知距離学習手段３ａ次行動決定手段３ｂ次状態決定手段４ａ、４ｂ、２４、３４、４４、５６状態空間１０移動ロボット１１、６２−１、６２−２、６２−３ゴール１２、６０−１、６０−２、６０−３フィールド１３壁２１、３１行動モデル生成部２２Ｑモジュール２３、３３、４３、４３−１、４３−２選択器３２認知距離モジュール３５状態−行動バッファ４１、４１−１、４１−２移動可能状態モデル生成部４２、４２−１、４２−２一般化認知距離モジュール４５、４５−１、４５−２状態バッファ５１−１、５１−２スイッチャ５２−１、５２−２ランドマークデータベース５３−１、５３−２ＴＬＭ−ＳＦ部５４−１、５４−２ＦＬＭ−ＳＦ部５５−１、５５−２ＬＭＰＦ部６１−１、６１−２、６１−３スタート７１コンピュータ７２メモリ７３可搬型記憶媒体７４回線７５プログラムサーバ７６記憶装置

───────────────────────────────────────────────────── フロントページの続き (72)発明者馬場孝之神奈川県川崎市中原区上小田中４丁目１番１号富士通株式会社内Ｆターム(参考） 5H004 GB16 KC08 KC13

Claims

【特許請求の範囲】

【請求項１】ある問題により定義される状態空間中で
初期状態と目標状態とが与えられたときに該初期状態か
ら該目標状態に至るまでの行動系列を生成する問題解決
器であって、前記状態空間中における任意の状態から前記目標状態に
到達するまでの行動系列の実行によって費やされる、該
状態空間の環境に対して作用させるコストを示す認知距
離を学習する認知距離学習手段と、前記認知距離学習手段による認知距離の学習結果に基づ
いて、前記行動系列に属することとなる行動であって、
前記目標状態に至るために前記状態空間中の特定の状態
において次に実行すべき該行動である次行動を決定する
次行動決定手段と、を有することを特徴とする問題解決器。
【請求項２】前記状態空間中における任意の状態にお
いて実行し得る次の行動を提示する行動提示手段を更に
有し、前記次行動決定手段は、前記行動提示手段により提示さ
れる行動のうち、該行動を行なったときに到達する状態
から前記目標状態までの認知距離が少なくなるものを選
択する、ことを特徴とする請求項１に記載の問題解決器。
【請求項３】前記認知距離学習手段は、学習結果であ
る前記認知距離を保持し、前記次行動決定手段は、前記認知距離学習手段に保持さ
れている認知距離の学習結果に基づいて前記次行動を決
定し、前記認知距離学習手段は、同一の状態間についての認知
距離を再度学習したときには、保持している認知距離を
更新する、ことを特徴とする請求項１に記載の問題解決器。
【請求項４】ある問題により定義される状態空間中で
初期状態と目標状態とが与えられたときに該初期状態か
ら該目標状態に至るまでの行動系列を生成する問題解決
器であって、前記状態空間中における任意の状態から前記目標状態に
到達するまでの行動系列の実行によって費やされる、該
状態空間の環境に対して作用させるコストを示す認知距
離を学習する認知距離学習手段と、前記認知距離学習手段による認知距離の学習結果に基づ
いて、前記行動系列に属することとなる行動であって、
前記目標状態に至るために前記状態空間中の特定の状態
において次に実行すべき該行動を実行することによって
到達する状態である次状態を決定する次状態決定手段
と、を有することを特徴とする問題解決器。
【請求項５】前記状態空間中における任意の状態にお
いて実行し得る次の行動を実行することによって到達す
る状態を提示する状態提示手段を更に有し、前記次状態決定手段は、前記状態提示手段により提示さ
れる状態のうち、該状態から前記目標状態までの認知距
離が少なくなるものを選択する、ことを特徴とする請求項４に記載の問題解決器。
【請求項６】前記認知距離学習手段は、学習結果であ
る前記認知距離を保持し、前記次状態決定手段は、前記認知距離学習手段に保持さ
れている認知距離の学習結果に基づいて前記次状態を決
定し、前記認知距離学習手段は、同一の状態間についての認知
距離を再度学習したときには、保持している認知距離を
更新する、ことを特徴とする請求項４に記載の問題解決器。
【請求項７】前記状態空間中の状態が属する範囲であ
って、前記認知距離学習手段によって認知距離を学習す
ることの可能な状態が属する該範囲を、該状態空間を階
層化した上位の状態空間におけるひとつの状態に対応付
ける分節化手段と、前記上位の状態空間における状態を、該状態に対応する
下位の状態空間の範囲に属し、該範囲を代表する状態で
あるランドマークに対応付けるランドマーク位置手段
と、前記上位の状態空間中における任意の状態から、前
記分節化手段によって前記目標状態に対応付けられた前
記上位の状態空間における目標状態に到達するまでの前
記認知距離を学習する上位認知距離学習手段と、前記上位認知距離学習手段による前記上位の状態空間中
における認知距離の学習結果に基づいて、前記分節化手
段によって前記目標状態に対応付けられた前記上位の状
態空間における目標状態に至るために、該分節化手段に
よって前記下位の状態空間中の特定の状態に対応付けら
れた該上位の状態空間における特定の状態において次に
実行すべき該行動を実行することによって到達する該上
位の状態空間における前記次状態を決定する上位次状態
決定手段と、を更に有し、前記認知距離学習手段は、前記下位の状態空間について
の前記認知距離を学習し、前記次状態決定手段は、前記認知距離学習手段による前
記下位の状態空間についての認知距離の学習結果に基づ
いて、前記ランドマーク位置手段によって前記上位の状
態空間における次状態に対応付けられているランドマー
クに至るために前記下位の状態空間中の特定の状態にお
いて次に実行すべき前記行動を実行することによって到
達する前記次状態を決定する、ことを特徴とする請求項４に記載の問題解決器。
【請求項８】コンピュータに実行させることによっ
て、ある問題により定義される状態空間中で初期状態と
目標状態とが与えられたときに該初期状態から該目標状
態に至るまでの行動系列を生成させる制御を該コンピュ
ータに行なわせる制御プログラムを記憶した該コンピュ
ータで読み取り可能な記憶媒体であって、前記状態空間中における任意の第一の状態から該第一の
状態とは異なる第二の状態に到達するまでの行動系列の
実行によって費やされる、該状態空間の環境に対して作
用させるコストを示す認知距離を学習する制御と、前記認知距離の学習結果に基づいて、前記行動系列に属
することとなる行動であって、前記目標状態に至るため
に前記状態空間中の特定の状態において次に実行すべき
該行動を決定する制御と、をコンピュータに行なわせる制御プログラムを記憶した
記憶媒体。
【請求項９】コンピュータに実行させることによっ
て、ある問題により定義される状態空間中で初期状態と
目標状態とが与えられたときに該初期状態から該目標状
態に至るまでの行動系列を生成させる制御を該コンピュ
ータに行なわせる制御プログラムを記憶した該コンピュ
ータで読み取り可能な記憶媒体であって、前記状態空間中における任意の第一の状態から該第一の
状態とは異なる第二の状態に到達するまでの行動系列の
実行によって費やされる、該状態空間の環境に対して作
用させるコストを示す認知距離を学習する制御と、前記認知距離の学習結果に基づいて、前記行動系列に属
することとなる行動であって、前記目標状態に至るため
に前記状態空間中の特定の状態において次に実行すべき
該行動を実行することによって到達する状態である次状
態を決定する制御と、をコンピュータに行なわせる制御プログラムを記憶した
記憶媒体。