JP4746349B2

JP4746349B2 - ロボット行動選択装置及びロボット行動選択方法

Info

Publication number: JP4746349B2
Application number: JP2005145588A
Authority: JP
Inventors: 洋川野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2005-05-18
Filing date: 2005-05-18
Publication date: 2011-08-10
Anticipated expiration: 2025-05-18
Also published as: JP2006320997A

Description

本発明は、ロボット行動選択装置及びロボット行動選択方法に関し、詳しくは、自らの行動制御を行う知能ロボットがマルコフ決定過程の環境下において行動する際に、実際に行動する環境下と予め学習した環境下が外乱の影響により相違する場合でも、知能ロボットが適正方向に移動制御されるように進化したロボット行動選択装置、及びロボット選択方法に係る。

近年、自律的に動作方向、手順を計画し実行する機能を備えた知能ロボットが注目すべき技術として活発に研究されており、知能ロボットはその応用性から多面で利用されている。

例えば、各種移動体として広く使用されている４輪自動車、航空機、船舶、あるいはマニピュレータ搭載型人工衛星などの制御入力数以上の運動自由度を得ることが可能な非ホロノミックロボットなどを知能ロボットとして動作させることは、操作の自動化・簡略化等の効果をもたらす上でも有益といえる。

図２は、非ホロノミックロボット例としての４輪移動ロボットの動作態様を示す図である。

図２に示す非ホロノミック４輪移動ロボットβ１は、構造的に真横方向への直接移動ができず、前後進運動を伴いながら切り返し動作を行い横方向へ徐々に位置を変化させる。つまり、図示のように動作開始点Ｂ１からその近傍の目標点Ｔ１にむけて、まず、動作開始点Ｂ１から円弧軌跡を描きながら中間地点Ｃへと移動し切り返し点Ｋ２で切り返しを行い、中間地点Ｃから直線軌跡を移動後切り返し点Ｋ１で再び切り返しを行い円弧軌跡を経て目標点Ｔ１に到達することが可能となる。

さらに、環境中に障害物がある場合には、非特許文献１に示すような、障害物を回避しながらも目標点に到達可能な運動を動作計画によって計算する必要がある。
中村仁彦、「非ホロノミックロボットシステム第２回幾何学的な非ホロノミック拘束の下での運動計画」、日本ロボット学会誌、Ｖｏｌ．１１、Ｎｏ．５、ｐ．６５５−６６２、１９９３年７月

これらの非ホロノミックロボットを知能ロボットとして動作制御させる場合、行動制御アルゴリズムの一例として、ロボットに環境のモデルを学習させ、それに伴ってロボットの行動を決定する行動学習アルゴリズムが注目されている。

このような行動学習アルゴリズムとしては、非特許文献２に記載された、ロボットの行動環境下においてその行動がマルコフ決定過程に従うことを前提とし、その環境中でロボットが環境から受ける報酬を最大化する行動方策を学習する機能を備えたアルゴリズムとして強化学習が注目されている。
Hiroshi Kawano, Tamaki Ura,"Motion Planning Algorithm for Non-Holonomic Autonomous Underwater Vehicle in Disturbance using Reinforcement Learning and Teaching Method,"Proceedings of IEEE/ASME International Conference on Robotics and Automation, pp. 4032-4038, May 2002.

ここにおける、マルコフ決定過程とは行動主体の行動と、周りの環境を離散的なモデルで表現したものであり、ある状態にある行動主体がある行動を選択したときの状態遷移の結果が確率的に表現され、その確率の値が、それまでの行動主体がたどってきた状態遷移の履歴に依存せず、行動主体が行動選択を行ったときの状態の値にのみ依存するというものである。

例えば、非ホロノミック移動ロボットに対し強化学習を行う場合、ロボットのアクチュエータ制御を行動、ロボットの位置姿勢を状態としてそれぞれ離散的に記述した後、ロボットが選択したアクチュエータ制御の結果、位置姿勢がどのように変化するかをマルコフ状態遷移モデルとして記述する。その遷移モデルをもとに各行動がどのくらい望ましい行動であるかを実測値として算出する状態価値関数を利用することにより、動作開始点から目標点までの最短時間で移動するための適切な行動方策が導き出されることとなる。

上記手法を利用した強化学習の一つであるＱ学習では、上述したように行動状態価値関数を状態と行動で表し、最適行動方策に従った場合に得られるであろう報酬の平均値をＱ値として表現する。Ｑ学習においては、選択した行動により得られる報酬、すなわちＱ値を最大化する行動が適切な行動方策として導き出されることとなる。

しかしながら、知能ロボットが上述した強化学習により得た行動方策が適切であるという保証があるのは、行動方策獲得のために学習が行われた環境と、学習後に実際に行動方策を行う環境が同一である場合のみであり、２つの環境間に外乱として異なる障害が生じた場合、行動主体の選択した行動が適切にならない可能性がある。

具体例として、図３の水中または海中において移動する非ホロノミック水中ロボットを示す（ａ）の概要図、（ｂ）の動作態様を示す図を用いて外乱による行動選択への影響を説明する。

例えば、図３（ａ）に示す非ホロノミック水中ロボットβ２は主推進器ｄと舵ｒを備えたものとし、矢印方向への移動を行う。

ここで、図３（ｂ）に示すように、非ホロノミック水中ロボットβ２が動作開始点Ｂ２から途中通過点Ｋ３、Ｋ４を通り目標点Ｔ２への移動を目的としているとき、左側から学習時とは異なる強さの海流Ｏの影響を受けた場合、行動主体が海流Ｏにより右側へと押し流され目標点Ｔ２とはかけ離れたＴ’へと移動してしまい、適切な行動方策の制御が作用しない。

このように、特に海中等の変化がめまぐるしい環境下においては、学習時に前提とした海流速度の分布と、実際のロボットの任務行動時の海中環境内での海流分布とでは異なっている場合が多く、ロボットの行動中に海中環境中の海流分布を正確に知ることは不可能なため、上述した強化学習アルゴリズムの適用は困難であった。

ここにおいて、本発明の解決すべき主要な目的は、次の通りである。
即ち、本発明の目的は、知能ロボットが行動方策獲得のため学習を行った環境と学習後の環境が外乱の存在によって異なる場合でも、その外乱の影響を考慮し、行動主体が適切な行動方策を選択できるように進化したロボット行動選択装置及び該方法を提供するものである。

本発明の他の目的は、明細書、図面、特に特許請求の範囲の各請求項の記載から、自ずと明らかとなろう。

本発明は、知能ロボットがマルコフ決定過程に従う外乱が存在する環境下において、行動主体が選択した行動により得られうる報酬を実測値として保持する行動状態価値関数を用いて適切な行動方策を選択する場合、環境中に存在する外乱を計測することにより、外乱の影響による行動主体の遷移先状態を予測し、その影響によって変化しうる遷移先状態を予測した上で行動状態価値関数から適切な行動を選択するアルゴリズムが適用できることを、本発明者が見出したことに基づく。

このため、まず、本発明装置においては、学習時の環境下、及び学習後の行動選択時の環境下のそれぞれの環境状態を認識する状態認識部と、学習時において、状態と行動により導き出される報酬の情報を蓄積する学習部と、知能ロボットに対する強化学習の環境下と学習後の行動選択時の環境下との差異である外乱を計測し２つの環境間の変化量として導き出す変化量算出部と、学習部と変化量算出部から外乱の影響を踏まえた上で適切な行動を選択する行動選択部とを具備する、という特徴的構成手段を講じる。

また、本発明方法においては、上記本発明装置を用いて、学習時において、状態と行動により導き出される報酬の情報を蓄積する学習手順と、知能ロボットが行動方策選択を学習手順にて学習した後、実環境下において行動方策の選択を行う際、環境中の状態を認識し、外乱が存在する場合にはその外乱を検出する状態認識手順と、状態認識手順によって外乱の存在が認識された場合に、学習時の環境状態と、外乱の存在する環境状態との差を変化量として導き出す変化量算出手順と、変化量算出手順により導き出された変化量から、外乱による行動への影響を予測した上で適切な行動を選択する行動選択手順とを循環的に実施する、という特徴的構成手法を講じる。

さらに具体的詳細に述べると、当該課題の解決では、本発明が次に列挙する上位概念から下位概念にかかる新規な特徴的構成手段又は手法を採用することにより、前記目的を達成するよう為される。

即ち、本発明装置の特徴は、マルコフ決定過程に従う環境中において強化学習を実施した知能ロボットが、強化学習後の環境下において行動を選択するとき、強化学習時と強化学習後の環境状態に違いがあった場合でも適切な行動を選択するロボット行動選択装置であって、前記強化学習時の環境状態と前記強化学習後の環境状態を各種モニタセンサ、計測器にて認識する状態認識部と、前記強化学習時の環境状態における前記知能ロボットの位置及び姿勢を表す各状態と前記知能ロボットの各行動との組について、当該状態において当該行動を選択した場合に得られる前記知能ロボットの状況の望ましさを数値化した報酬の平均値を示す行動状態価値関数をメモリーに更新可能に蓄積する学習部と、前記強化学習後の環境状態の場合に、前記状態認識部において検出された前記強化学習時の環境状態と前記強化学習後の環境状態との差である外乱を取得するとともに、前記強化学習後の環境状態における前記知能ロボットの状態を取得して、前記外乱の前記強化学習時の環境状態と前記強化学習後の環境状態との間での変化量に前記行動に要する時間を掛け合わせた値を、前記取得した知能ロボットの状態において各行動を選択した結果の状態遷移先の位置に足し合わせた値を位置の変化量ベクトルとし、前記取得した知能ロボットの状態において各行動を選択した結果の状態遷移先の姿勢そのものを姿勢の変化量ベクトルとして算出する変化量算出部と、前記強化学習後の環境状態の場合に、前記変化量算出部から取得した位置の変化量ベクトルと姿勢の変化量ベクトルを用いて状態遷移先の状態を推定し、推定した状態遷移先の状態に対して、前記メモリーに蓄積された前記行動状態価値関数が最大値をとる行動を選択する行動選択部と、を具備してなるロボット行動選択装置の構成採用にある。

本発明方法の特徴は、マルコフ決定過程に従う環境中において強化学習を実施した知能ロボットが、強化学習後の環境下において行動を選択するとき、強化学習時と強化学習後の環境状態に違いがあった場合でも適切な行動を選択するロボット行動選択方法であって、予め、前記知能ロボットに対し前記強化学習を実施することにより、前記強化学習時の環境状態における前記知能ロボットの位置及び姿勢を表す各状態と前記知能ロボットの各行動との組について、当該状態において当該行動を選択した場合に得られる前記知能ロボットの状況の望ましさを数値化した報酬の平均値を示す行動状態価値関数を学習手段で導き出しメモリーに記憶した後、まず、前記強化学習後の環境状態を各種モニタセンサ、計測器を通して状態認識手段で検出してから、前記強化学習時の環境状態と当該強化学習後の環境状態との差を変化量算出手段で外乱として取得してメモリーに更新可能に記憶し、次に、外乱が発生した場合に、前記強化学習後の環境状態における前記知能ロボットの状態を取得して、前記外乱の前記強化学習時の環境状態と前記強化学習後の環境状態との間での変化量に前記行動に要する時間を掛け合わせた値を、前記取得した知能ロボットの状態において各行動を選択した結果の状態遷移先の位置に足し合わせた値を位置の変化量ベクトルとし、前記取得した知能ロボットの状態において各行動を選択した結果の状態遷移先の姿勢そのものを姿勢の変化量ベクトルとして算出し、前記位置の変化量ベクトルと前記姿勢の変化量ベクトルを用いて状態遷移先の状態を推定し、推定した状態遷移先の状態の中から前記行動状態価値関数の最大値をとる行動を選択する、ロボット行動選択方法の構成採用にある。

本発明によれば、マルコフ決定過程における最適行動方策を獲得するための学習が行われる環境と、学習後に行動が選択実施される環境に外乱が存在した環境の間に違いが生じた場合でも、行動主体が適切な行動方策を選択することが可能となる。

以下、本発明の実施の最良形態につき、添付図面を参照しつつ、まず、その装置例を説明し、次いでこれに対応する方法例を説明する。

（装置例）
図１は知能ロボットに搭載されるロボット行動選択装置αの構成図を示したものである。

同図に示すように、ロボット行動選択装置αは、知能ロボットβに搭載され、学習時の環境下、及び学習後の行動選択時の環境下の環境状態を認識する状態認識部１と、学習時において、知能ロボットβがとりうる動作を評価し、その状態と行動に対応した評価となる報酬の情報を図示しないメモリに蓄積する学習部２と、状態認識部１で検出された知能ロボットβに対する強化学習の環境下と学習後の行動選択時の環境下との差である外乱ｎを２つの環境間の位置と姿勢の変化量ベクトル値ｄＸ’として導き出す変化量算出部３と、学習部２と変化量算出部３の状態から外乱の影響による行動主体の行動ａを予測し、それを踏まえた上での目標点までの適切な行動ａを選択する行動選択部４とを有してコンピュータの各機能部を構成する。

知能ロボットβは、図３に図示する海中で動作する非ホロノミック水中ロボットのような、外乱ｎからの影響を受けやすい知能ロボットβに特に有益であるが、行動主体が適切な行動ａを選択することを目的とした知能ロボットβであれば、その種類は限定されない。

環境データ入力機能部としての状態認識部１は学習時または学習後の環境を認識し、図示しないメモリに一旦記憶するか、次の変化量算出部に直接転送するものであり、大気中、水中、空中、宇宙空間等の状態の種類に応じた各種モニタセンサ、計測器を含む認識装置等を用いてよい。また、外乱ｎを別途用意した図示しない計測器に計測させてもよく、計測器から状態認識部１を通り変化量算出部３に外乱の実測値を受渡し可能であればその設置位置は限定されない。

演算記憶機能部としての学習部２は、予め学習時に、ある状態ｓにおいてある行動ａを選択した場合のその後の行動において最適行動方策に従った場合に得られる状況の望ましさを数値化した報酬ｐの平均値である行動状態価値関数をメモリ（図示しない）に保持するものであり、行動選択部４が目的とする位置へ移動する場合に報酬ｐの平均値の値を一番大きくとる行動ａを比較選択する場合に学習として図示しないメモリに保持された情報を読み出し利用する。

また、演算出力機能部としての行動選択部４は演算機能部としての変化量算出部３により導き出された位置と姿勢の変化量ベクトル値ｄＸ’をもとに、知能ロボットβが遷移する可能性のある位置と姿勢を予測し、目標とする位置へ知能ロボットβが選択できうる適切な行動ａを選択する。

（方法例）
次に、上記本発明装置を用いた本発明方法に係る、知能ロボットの強化学習時と学習後の環境の違いを考慮し、外乱が存在する状況下でも適切な行動方策の選択が可能なロボット行動選択方法を説明する。

本方法例は、図１に示すロボット行動選択装置αを搭載する知能ロボットβが、予め、学習部２にて前記知能ロボットに対し前記強化学習を学習手順に則って行い、当該知能ロボットが各位置で選択すべき各行動ａを選択した場合のその後の行動において最適行動方策に従った場合に得られる状況の望ましさを数値化した報酬ｐの平均値である行動状態価値関数ｖを導き出した後に、状態認識部１が、前記強化学習後の行動選択環境下において、前記強化学習時の環境と、当該行動選択環境下との差を外乱ｎとして検出する状態認識手順と、前記状態認識部１により検出された外乱を、変化量処理部３にて位置と姿勢の変化量ベクトル値ｄＸ’として実測値に表す変化量処理手順と、さらに、行動選択部４が、前記変化量処理部３により算出された前記変化量ｄＸ’をもとに、外乱ｎの発生により当該ロボットが移動しうる遷移状態ｓを予測し、前記学習部２より導き出された前記行動状態価値関数の最大値をとる行動を選択する行動選択手順により、前記強化学習時の環境と、前記行動選択環境下の間で外乱の影響によりその環境が異なる場合でも、適切な行動を選択可能とする手法を循環的に実施する一連のコンピュータ演算手法である。

ここで、本方法例において、学習環境及び学習後の環境や、それに係る外乱を具体例の提示により平明に説明するために、図３に示す非ホロノミック水中移動ロボットβ２を方法例に係る知能ロボットβとして挙げ、海中環境下における外乱ｎを海流として説明するが、知能ロボットβは非ホロノミック水中移動ロボットβ２に限らず、４輪自動車や航空機、船舶、あるいはマニピュレータ搭載型人工衛星などでもよい。

図３（ｂ）に示すように、非ホロノミック水中移動ロボットβ２が動作開始点Ｂ２から目標点Ｔ２に向うまでの移動動作を行う場合、動作開始点Ｂ２から目標点Ｔ２までの動作運動の手順を動作計画として計算する必要がある（非特許文献２に記載）。

この場合の動作計画とは、非ホロノミック水中移動ロボットβ２の動作を短い時間単位に区切った複数の動作要素に分解することにより、非ホロノミック水中移動ロボットβ２が目標点Ｔ２に到達するまでの必要動作要素の時系列的な組合せを人工知能工学でいうところの探索的手法でコンピュータ計算することを差す。

知能ロボットの行動学習の手法である学習部２における強化学習は、行動主体の行動がマルコフ決定過程に従うという仮定のもとでマルコフ状態遷移モデルを利用し、知能ロボットが目標点までの適切な動作要素を導き出すまで学習アルゴリズムであり、行動主体がある状態において、ある行動を選択した場合にその結果を評価したものを報酬として受け取るという一連の手段を繰り返し、より報酬を多く得られる行動方策の選択を適切な選択とするものである。

次に、本発明方法例の一連の動作手順を説明する。ロボット行動選択方法は上述した強化学習の一つであるＱ学習の手法に、学習時の環境と、学習後の環境との相違点である外乱ｎの影響を考慮させることにより、非ホロノミック水中移動ロボットβ２が外乱の影響も考慮して適切な行動を選択するアルゴリズムである。

まず、予め非ホロノミック水中移動ロボットβ２は学習部２における強化学習により、非ホロノミック水中移動ロボットの行動選択部４によるアクチュエータ制御を行動ａ、位置姿勢を状態認識部１からの状態ｓとし、アクチュエータ制御の結果が位置姿勢にどのように影響するかをマルコフ状態遷移モデルで記述しておく。

記述されたマルコフ状態遷移モデル上で、各状態ｓにおいて、各行動ａを選択した場合に得られる状況の望ましさの平均値を学習部２にて行動状態価値関数ｖとして記憶設定する。

ここで行動状態価値関数ｖは以下に示す数式（１）として状態ｓと行動ａを用いて表記し、最適方策に従って行動を選択しつづけた場合に将来的に得られるであろう報酬の平均値ｐを指す。

強化学習実施後、海中環境下において行動選択をする場合、外乱ｎとして海流の強さが例として挙げられる。そこで、状態認識部１や、図示しない計測器等で学習時の環境と、現在の環境との海流の速度の違いを変化量算出部３において実時間で計測する。

状態認識部１により計測された外乱ｎは変化量算出部３に転送され、状態ｓであるときに行動ａを選択した場合の位置と姿勢の変化量を換算してｄＸとベクトル表示することとし、実際に実時間で計測された結果、検出された外乱ｎの変化量はベクトル値ｄＦとして算出される。

ｄＸをデカルト座標における位置ｘ，ｙと、非ホロノミック水中ロボットβ２の方位角θを用いて以下に記載の数式（２）としてベクトル表記する。

すると非ホロノミック水中ロボットβ２の位置と姿勢のベクトルｄＸを、ｓ，ａ，ｄＦを用いて表現することが可能となり、状態ｓにおいて、行動ａを選択したときの非ホロノミック水中移動ロボットβ２のｘ座標における位置の変化量をｄｘ’、ｙ座標における位置の変化量をｄｙ’、非ホロノミック水中移動ロボットβ２の方位角の変化量をｄθ’とし、ｄＦのｘ成分をｄＦｘ、ｙ成分をｄＦｙとした場合、ｄｘ’、ｄｙ’、ｄθ’はそれぞれ数式（３）〜（５）として記述することができる。

ここにおいてｔは、行動単位に要する実時間を示し、以上の式（３）〜（５）は海流速度の違いによって方位角の変化の仕方が大きな影響を受けにくく、海流を受けた時間分の距離だけ非ホロノミック水中ロボットβ２のデカルト座標位置がずれていくという発明者の経験的な知見によって導かれたものである。

以上の変化量算出部３により導き出された数式を利用することにより非ホロノミック水中ロボットの位置と姿勢の変化量ベクトル値であるｄＸ’（ｄｘ’，ｄｙ’，ｄθ’）の値が算出され、行動選択部４で状態ｓにおいて行動ａを選択した結果の状態遷移先ｓ’を各行動ａについて推定可能となる。すなわち状態遷移先ｓ’は状態ｓと行動ａの関数ｓ’（ｓ，ａ）として記述することができる。

最後に、行動選択部４は、変化量算出部３より受け取った変化量ベクトル値ｄＸ’をもとに、状態遷移先ｓ’においてＱ値がＱ（ｓ’，ａ’）を示すとき、全てのとりうるａ’の値の中でＱを最大化する値をＱｍａｘ（ｓ’）とすれば、Ｑｍａｘ（ｓ’）の最大値を与える行動ａを選択することにより、非ホロノミック水中ロボットβ２が最も適した行動方策を選択することが可能となる。

以上、本発明の実施の形態につき、その方法例及びこれに対応する装置例を挙げて説明したが、本発明は必ずしも上述した手段及び手法にのみ限定されるものではなく、前述した効果を有する範囲内において、適宜、変更実施することが可能なものである。

本発明の装置例に係るロボット行動選択装置を示す構成図である。非ホロノミックロボットとしての４輪移動ロボットの動作態様図である。非ホロノミックロボットとしての水中移動ロボットを示すものであり、（ａ）は概要図、（ｂ）は動作態様図である。

符号の説明

α…ロボット行動選択装置
β…知能ロボット
β１…非ホロノミック４輪移動ロボット
β２…非ホロノミック水中移動ロボット
１…状態認識部
２…学習部
３…変化量算出部
４…行動選択部
ｓ…状態
ａ…行動
ｐ…報酬
ｎ…外乱
ｄＸ’…位置と姿勢の変化量ベクトル値
Ｂ１、Ｂ２…動作開始点
Ｋ１、Ｋ２…切り返し点
Ｋ３、Ｋ４…途中通過点
Ｔ１、Ｔ２…目標点
Ｃ…中間地点
Ｏ…海流
ｆ…主推進器
ｒ…舵

Claims

マルコフ決定過程に従う環境中において強化学習を実施した知能ロボットが、強化学習後の環境下において行動を選択するとき、強化学習時と強化学習後の環境状態に違いがあった場合でも適切な行動を選択するロボット行動選択装置であって、
前記強化学習時の環境状態と前記強化学習後の環境状態を各種モニタセンサ、計測器にて認識する状態認識部と、
前記強化学習時の環境状態における前記知能ロボットの位置及び姿勢を表す各状態と前記知能ロボットの各行動との組について、当該状態において当該行動を選択した場合に得られる前記知能ロボットの状況の望ましさを数値化した報酬の平均値を示す行動状態価値関数をメモリーに更新可能に蓄積する学習部と、
前記強化学習後の環境状態の場合に、前記状態認識部において検出された前記強化学習時の環境状態と前記強化学習後の環境状態との差である外乱を取得するとともに、前記強化学習後の環境状態における前記知能ロボットの状態を取得して、前記外乱の前記強化学習時の環境状態と前記強化学習後の環境状態との間での変化量に前記行動に要する時間を掛け合わせた値を、前記取得した知能ロボットの状態において各行動を選択した結果の状態遷移先の位置に足し合わせた値を位置の変化量ベクトルとし、前記取得した知能ロボットの状態において各行動を選択した結果の状態遷移先の姿勢そのものを姿勢の変化量ベクトルとして算出する変化量算出部と、
前記強化学習後の環境状態の場合に、前記変化量算出部から取得した位置の変化量ベクトルと姿勢の変化量ベクトルを用いて状態遷移先の状態を推定し、推定した状態遷移先の状態に対して、前記メモリーに蓄積された前記行動状態価値関数が最大値をとる行動を選択する行動選択部と、を具備する、
ことを特徴とする、ロボット行動選択装置。
マルコフ決定過程に従う環境中において強化学習を実施した知能ロボットが、強化学習後の環境下において行動を選択するとき、強化学習時と強化学習後の環境状態に違いがあった場合でも適切な行動を選択するロボット行動選択方法であって、
予め、前記知能ロボットに対し前記強化学習を実施することにより、前記強化学習時の環境状態における前記知能ロボットの位置及び姿勢を表す各状態と前記知能ロボットの各行動との組について、当該状態において当該行動を選択した場合に得られる前記知能ロボットの状況の望ましさを数値化した報酬の平均値を示す行動状態価値関数を学習手段で導き出しメモリーに記憶した後、
まず、前記強化学習後の環境状態を各種モニタセンサ、計測器を通して状態認識手段で検出してから、前記強化学習時の環境状態と当該強化学習後の環境状態との差を変化量算出手段で外乱として取得してメモリーに更新可能に記憶し、
次に、外乱が発生した場合に、前記強化学習後の環境状態における前記知能ロボットの状態を取得して、前記外乱の前記強化学習時の環境状態と前記強化学習後の環境状態との間での変化量に前記行動に要する時間を掛け合わせた値を、前記取得した知能ロボットの状態において各行動を選択した結果の状態遷移先の位置に足し合わせた値を位置の変化量ベクトルとし、前記取得した知能ロボットの状態において各行動を選択した結果の状態遷移先の姿勢そのものを姿勢の変化量ベクトルとして算出し、前記位置の変化量ベクトルと前記姿勢の変化量ベクトルを用いて状態遷移先の状態を推定し、推定した状態遷移先の状態の中から前記行動状態価値関数の最大値をとる行動を選択する、
ことを特徴とするロボット行動選択方法。