JP4746349B2 - ロボット行動選択装置及びロボット行動選択方法 - Google Patents

ロボット行動選択装置及びロボット行動選択方法 Download PDF

Info

Publication number
JP4746349B2
JP4746349B2 JP2005145588A JP2005145588A JP4746349B2 JP 4746349 B2 JP4746349 B2 JP 4746349B2 JP 2005145588 A JP2005145588 A JP 2005145588A JP 2005145588 A JP2005145588 A JP 2005145588A JP 4746349 B2 JP4746349 B2 JP 4746349B2
Authority
JP
Japan
Prior art keywords
state
action
reinforcement learning
robot
intelligent robot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2005145588A
Other languages
English (en)
Other versions
JP2006320997A (ja
Inventor
洋 川野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2005145588A priority Critical patent/JP4746349B2/ja
Publication of JP2006320997A publication Critical patent/JP2006320997A/ja
Application granted granted Critical
Publication of JP4746349B2 publication Critical patent/JP4746349B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、ロボット行動選択装置及びロボット行動選択方法に関し、詳しくは、自らの行動制御を行う知能ロボットがマルコフ決定過程の環境下において行動する際に、実際に行動する環境下と予め学習した環境下が外乱の影響により相違する場合でも、知能ロボットが適正方向に移動制御されるように進化したロボット行動選択装置、及びロボット選択方法に係る。
近年、自律的に動作方向、手順を計画し実行する機能を備えた知能ロボットが注目すべき技術として活発に研究されており、知能ロボットはその応用性から多面で利用されている。
例えば、各種移動体として広く使用されている4輪自動車、航空機、船舶、あるいはマニピュレータ搭載型人工衛星などの制御入力数以上の運動自由度を得ることが可能な非ホロノミックロボットなどを知能ロボットとして動作させることは、操作の自動化・簡略化等の効果をもたらす上でも有益といえる。
図2は、非ホロノミックロボット例としての4輪移動ロボットの動作態様を示す図である。
図2に示す非ホロノミック4輪移動ロボットβ1は、構造的に真横方向への直接移動ができず、前後進運動を伴いながら切り返し動作を行い横方向へ徐々に位置を変化させる。つまり、図示のように動作開始点B1からその近傍の目標点T1にむけて、まず、動作開始点B1から円弧軌跡を描きながら中間地点Cへと移動し切り返し点K2で切り返しを行い、中間地点Cから直線軌跡を移動後切り返し点K1で再び切り返しを行い円弧軌跡を経て目標点T1に到達することが可能となる。
さらに、環境中に障害物がある場合には、非特許文献1に示すような、障害物を回避しながらも目標点に到達可能な運動を動作計画によって計算する必要がある。
中村仁彦、「非ホロノミックロボットシステム 第2回 幾何学的な非ホロノミック拘束の下での運動計画」、日本ロボット学会誌、Vol.11、No.5、p.655−662、1993年7月
これらの非ホロノミックロボットを知能ロボットとして動作制御させる場合、行動制御アルゴリズムの一例として、ロボットに環境のモデルを学習させ、それに伴ってロボットの行動を決定する行動学習アルゴリズムが注目されている。
このような行動学習アルゴリズムとしては、非特許文献2に記載された、ロボットの行動環境下においてその行動がマルコフ決定過程に従うことを前提とし、その環境中でロボットが環境から受ける報酬を最大化する行動方策を学習する機能を備えたアルゴリズムとして強化学習が注目されている。
Hiroshi Kawano, Tamaki Ura,"Motion Planning Algorithm for Non-Holonomic Autonomous Underwater Vehicle in Disturbance using Reinforcement Learning and Teaching Method,"Proceedings of IEEE/ASME International Conference on Robotics and Automation, pp. 4032-4038, May 2002.
ここにおける、マルコフ決定過程とは行動主体の行動と、周りの環境を離散的なモデルで表現したものであり、ある状態にある行動主体がある行動を選択したときの状態遷移の結果が確率的に表現され、その確率の値が、それまでの行動主体がたどってきた状態遷移の履歴に依存せず、行動主体が行動選択を行ったときの状態の値にのみ依存するというものである。
例えば、非ホロノミック移動ロボットに対し強化学習を行う場合、ロボットのアクチュエータ制御を行動、ロボットの位置姿勢を状態としてそれぞれ離散的に記述した後、ロボットが選択したアクチュエータ制御の結果、位置姿勢がどのように変化するかをマルコフ状態遷移モデルとして記述する。その遷移モデルをもとに各行動がどのくらい望ましい行動であるかを実測値として算出する状態価値関数を利用することにより、動作開始点から目標点までの最短時間で移動するための適切な行動方策が導き出されることとなる。
上記手法を利用した強化学習の一つであるQ学習では、上述したように行動状態価値関数を状態と行動で表し、最適行動方策に従った場合に得られるであろう報酬の平均値をQ値として表現する。Q学習においては、選択した行動により得られる報酬、すなわちQ値を最大化する行動が適切な行動方策として導き出されることとなる。
しかしながら、知能ロボットが上述した強化学習により得た行動方策が適切であるという保証があるのは、行動方策獲得のために学習が行われた環境と、学習後に実際に行動方策を行う環境が同一である場合のみであり、2つの環境間に外乱として異なる障害が生じた場合、行動主体の選択した行動が適切にならない可能性がある。
具体例として、図3の水中または海中において移動する非ホロノミック水中ロボットを示す(a)の概要図、(b)の動作態様を示す図を用いて外乱による行動選択への影響を説明する。
例えば、図3(a)に示す非ホロノミック水中ロボットβ2は主推進器dと舵rを備えたものとし、矢印方向への移動を行う。
ここで、図3(b)に示すように、非ホロノミック水中ロボットβ2が動作開始点B2から途中通過点K3、K4を通り目標点T2への移動を目的としているとき、左側から学習時とは異なる強さの海流Oの影響を受けた場合、行動主体が海流Oにより右側へと押し流され目標点T2とはかけ離れたT’へと移動してしまい、適切な行動方策の制御が作用しない。
このように、特に海中等の変化がめまぐるしい環境下においては、学習時に前提とした海流速度の分布と、実際のロボットの任務行動時の海中環境内での海流分布とでは異なっている場合が多く、ロボットの行動中に海中環境中の海流分布を正確に知ることは不可能なため、上述した強化学習アルゴリズムの適用は困難であった。
ここにおいて、本発明の解決すべき主要な目的は、次の通りである。
即ち、本発明の目的は、知能ロボットが行動方策獲得のため学習を行った環境と学習後の環境が外乱の存在によって異なる場合でも、その外乱の影響を考慮し、行動主体が適切な行動方策を選択できるように進化したロボット行動選択装置及び該方法を提供するものである。
本発明の他の目的は、明細書、図面、特に特許請求の範囲の各請求項の記載から、自ずと明らかとなろう。
本発明は、知能ロボットがマルコフ決定過程に従う外乱が存在する環境下において、行動主体が選択した行動により得られうる報酬を実測値として保持する行動状態価値関数を用いて適切な行動方策を選択する場合、環境中に存在する外乱を計測することにより、外乱の影響による行動主体の遷移先状態を予測し、その影響によって変化しうる遷移先状態を予測した上で行動状態価値関数から適切な行動を選択するアルゴリズムが適用できることを、本発明者が見出したことに基づく。
このため、まず、本発明装置においては、学習時の環境下、及び学習後の行動選択時の環境下のそれぞれの環境状態を認識する状態認識部と、学習時において、状態と行動により導き出される報酬の情報を蓄積する学習部と、知能ロボットに対する強化学習の環境下と学習後の行動選択時の環境下との差異である外乱を計測し2つの環境間の変化量として導き出す変化量算出部と、学習部と変化量算出部から外乱の影響を踏まえた上で適切な行動を選択する行動選択部とを具備する、という特徴的構成手段を講じる。
また、本発明方法においては、上記本発明装置を用いて、学習時において、状態と行動により導き出される報酬の情報を蓄積する学習手順と、知能ロボットが行動方策選択を学習手順にて学習した後、実環境下において行動方策の選択を行う際、環境中の状態を認識し、外乱が存在する場合にはその外乱を検出する状態認識手順と、状態認識手順によって外乱の存在が認識された場合に、学習時の環境状態と、外乱の存在する環境状態との差を変化量として導き出す変化量算出手順と、変化量算出手順により導き出された変化量から、外乱による行動への影響を予測した上で適切な行動を選択する行動選択手順とを循環的に実施する、という特徴的構成手法を講じる。
さらに具体的詳細に述べると、当該課題の解決では、本発明が次に列挙する上位概念から下位概念にかかる新規な特徴的構成手段又は手法を採用することにより、前記目的を達成するよう為される。
即ち、本発明装置の特徴は、マルコフ決定過程に従う環境中において強化学習を実施した知能ロボットが、強化学習後の環境下において行動を選択するとき、強化学習時と強化学習後の環境状態に違いがあった場合でも適切な行動を選択するロボット行動選択装置であって、前記強化学習時の環境状態と前記強化学習後の環状態を各種モニタセンサ、計測器にて認識する状態認識部と、前記強化学習時の環境状態における前記知能ロボットの位置及び姿勢を表す各状態と前記知能ロボットの各行動との組について、当該状態において当該行動を選択した場合に得られる前記知能ロボットの状況の望ましさを数値化した報酬の平均値を示す行動状態価値関数をメモリーに更新可能に蓄積する学習部と、前記強化学習後の環境状態の場合に、前記状態認識部において検出された前記強化学習時の環境状態と前強化学習後の環境状態との差である外乱を取得するとともに、前記強化学習後の環境状態における前記知能ロボットの状態を取得して、前記外乱の前記強化学習時の環境状態と前記強化学習後の環境状態との間での変化量に前記行動に要する時間を掛け合わせた値を、前記取得した知能ロボットの状態において各行動を選択した結果の状態遷移先の位置に足し合わせた値を位置の変化量ベクトルとし、前記取得した知能ロボットの状態において各行動を選択した結果の状態遷移先の姿勢そのものを姿勢の変化量ベクトルとして算出する変化量算出部と、前記強化学習後の環境状態の場合に、前記変化量算出部から取得した位置の変化量ベクトルと姿勢の変化量ベクトルを用いて状態遷移先の状態を推定し、推定した状態遷移先の状態に対して、前記メモリーに蓄積された前記行動状態価値関数が最大値をとる行動を選択する行動選択部と、具備してなるロボット行動選択装置の構成採用にある。
本発明方法の特徴は、マルコフ決定過程に従う環境中において強化学習を実施した知能ロボットが、強化学習後の環境下において行動を選択するとき、強化学習時と強化学習後の環境状態に違いがあった場合でも適切な行動を選択するロボット行動選択方法であって、予め、前記知能ロボットに対し前記強化学習を実施することにより、前記強化学習時の環境状態における前記知能ロボットの位置及び姿勢を表す各状態と前記知能ロボットの各行動との組について、当該状態において当該行動を選択した場合に得られる前記知能ロボットの状況の望ましさを数値化した報酬の平均値を示す行動状態価値関数を学習手段で導き出しメモリーに記憶した後、まず、前記強化学習後の環境状態を各種モニタセンサ、計測器を通して状態認識手段で検出してから、前記強化学習時の環境状態と当該強化学習後の環境状態との差を変化量算出手段で外乱として取得してメモリーに更新可能に記憶し、次に、外乱が発生した場合に、前記強化学習後の環境状態における前記知能ロボットの状態を取得して、前記外乱の前記強化学習時の環境状態と前記強化学習後の環境状態との間での変化量に前記行動に要する時間を掛け合わせた値を、前記取得した知能ロボットの状態において各行動を選択した結果の状態遷移先の位置に足し合わせた値を位置の変化量ベクトルとし、前記取得した知能ロボットの状態において各行動を選択した結果の状態遷移先の姿勢そのものを姿勢の変化量ベクトルとして算出し、前記位置の変化量ベクトルと前記姿勢の変化量ベクトルを用いて状態遷移先の状態を推定し、推定した状態遷移先の状態の中から前記行動状態価値関数の最大値をとる行動選択する、ロボット行動選択方法の構成採用にある。
本発明によれば、マルコフ決定過程における最適行動方策を獲得するための学習が行われる環境と、学習後に行動が選択実施される環境に外乱が存在した環境の間に違いが生じた場合でも、行動主体が適切な行動方策を選択することが可能となる。
以下、本発明の実施の最良形態につき、添付図面を参照しつつ、まず、その装置例を説明し、次いでこれに対応する方法例を説明する。
(装置例)
図1は知能ロボットに搭載されるロボット行動選択装置αの構成図を示したものである。
同図に示すように、ロボット行動選択装置αは、知能ロボットβに搭載され、学習時の環境下、及び学習後の行動選択時の環境下の環境状態を認識する状態認識部1と、学習時において、知能ロボットβがとりうる動作を評価し、その状態と行動に対応した評価となる報酬の情報を図示しないメモリに蓄積する学習部2と、状態認識部1で検出された知能ロボットβに対する強化学習の環境下と学習後の行動選択時の環境下との差である外乱nを2つの環境間の位置と姿勢の変化量ベクトル値dX’として導き出す変化量算出部3と、学習部2と変化量算出部3の状態から外乱の影響による行動主体の行動aを予測し、それを踏まえた上での目標点までの適切な行動aを選択する行動選択部4とを有してコンピュータの各機能部を構成する。
知能ロボットβは、図3に図示する海中で動作する非ホロノミック水中ロボットのような、外乱nからの影響を受けやすい知能ロボットβに特に有益であるが、行動主体が適切な行動aを選択することを目的とした知能ロボットβであれば、その種類は限定されない。
環境データ入力機能部としての状態認識部1は学習時または学習後の環境を認識し、図示しないメモリに一旦記憶するか、次の変化量算出部に直接転送するものであり、大気中、水中、空中、宇宙空間等の状態の種類に応じた各種モニタセンサ、計測器を含む認識装置等を用いてよい。また、外乱nを別途用意した図示しない計測器に計測させてもよく、計測器から状態認識部1を通り変化量算出部3に外乱の実測値を受渡し可能であればその設置位置は限定されない。
演算記憶機能部としての学習部2は、予め学習時に、ある状態sにおいてある行動aを選択した場合のその後の行動において最適行動方策に従った場合に得られる状況の望ましさを数値化した報酬pの平均値である行動状態価値関数をメモリ(図示しない)に保持するものであり、行動選択部4が目的とする位置へ移動する場合に報酬pの平均値の値を一番大きくとる行動aを比較選択する場合に学習として図示しないメモリに保持された情報を読み出し利用する。
また、演算出力機能部としての行動選択部4は演算機能部としての変化量算出部3により導き出された位置と姿勢の変化量ベクトル値dX’をもとに、知能ロボットβが遷移する可能性のある位置と姿勢を予測し、目標とする位置へ知能ロボットβが選択できうる適切な行動aを選択する。
(方法例)
次に、上記本発明装置を用いた本発明方法に係る、知能ロボットの強化学習時と学習後の環境の違いを考慮し、外乱が存在する状況下でも適切な行動方策の選択が可能なロボット行動選択方法を説明する。
本方法例は、図1に示すロボット行動選択装置αを搭載する知能ロボットβが、予め、学習部2にて前記知能ロボットに対し前記強化学習を学習手順に則って行い、当該知能ロボットが各位置で選択すべき各行動aを選択した場合のその後の行動において最適行動方策に従った場合に得られる状況の望ましさを数値化した報酬pの平均値である行動状態価値関数vを導き出した後に、状態認識部1が、前記強化学習後の行動選択環境下において、前記強化学習時の環境と、当該行動選択環境下との差を外乱nとして検出する状態認識手順と、前記状態認識部1により検出された外乱を、変化量処理部3にて位置と姿勢の変化量ベクトル値dX’として実測値に表す変化量処理手順と、さらに、行動選択部4が、前記変化量処理部3により算出された前記変化量dX’をもとに、外乱nの発生により当該ロボットが移動しうる遷移状態sを予測し、前記学習部2より導き出された前記行動状態価値関数の最大値をとる行動を選択する行動選択手順により、前記強化学習時の環境と、前記行動選択環境下の間で外乱の影響によりその環境が異なる場合でも、適切な行動を選択可能とする手法を循環的に実施する一連のコンピュータ演算手法である。
ここで、本方法例において、学習環境及び学習後の環境や、それに係る外乱を具体例の提示により平明に説明するために、図3に示す非ホロノミック水中移動ロボットβ2を方法例に係る知能ロボットβとして挙げ、海中環境下における外乱nを海流として説明するが、知能ロボットβは非ホロノミック水中移動ロボットβ2に限らず、4輪自動車や航空機、船舶、あるいはマニピュレータ搭載型人工衛星などでもよい。
図3(b)に示すように、非ホロノミック水中移動ロボットβ2が動作開始点B2から目標点T2に向うまでの移動動作を行う場合、動作開始点B2から目標点T2までの動作運動の手順を動作計画として計算する必要がある(非特許文献2に記載)。
この場合の動作計画とは、非ホロノミック水中移動ロボットβ2の動作を短い時間単位に区切った複数の動作要素に分解することにより、非ホロノミック水中移動ロボットβ2が目標点T2に到達するまでの必要動作要素の時系列的な組合せを人工知能工学でいうところの探索的手法でコンピュータ計算することを差す。
知能ロボットの行動学習の手法である学習部2における強化学習は、行動主体の行動がマルコフ決定過程に従うという仮定のもとでマルコフ状態遷移モデルを利用し、知能ロボットが目標点までの適切な動作要素を導き出すまで学習アルゴリズムであり、行動主体がある状態において、ある行動を選択した場合にその結果を評価したものを報酬として受け取るという一連の手段を繰り返し、より報酬を多く得られる行動方策の選択を適切な選択とするものである。
次に、本発明方法例の一連の動作手順を説明する。ロボット行動選択方法は上述した強化学習の一つであるQ学習の手法に、学習時の環境と、学習後の環境との相違点である外乱nの影響を考慮させることにより、非ホロノミック水中移動ロボットβ2が外乱の影響も考慮して適切な行動を選択するアルゴリズムである。
まず、予め非ホロノミック水中移動ロボットβ2は学習部2における強化学習により、非ホロノミック水中移動ロボットの行動選択部4によるアクチュエータ制御を行動a、位置姿勢を状態認識部1からの状態sとし、アクチュエータ制御の結果が位置姿勢にどのように影響するかをマルコフ状態遷移モデルで記述しておく。
記述されたマルコフ状態遷移モデル上で、各状態sにおいて、各行動aを選択した場合に得られる状況の望ましさの平均値を学習部2にて行動状態価値関数vとして記憶設定する。
ここで行動状態価値関数vは以下に示す数式(1)として状態sと行動aを用いて表記し、最適方策に従って行動を選択しつづけた場合に将来的に得られるであろう報酬の平均値pを指す。
Figure 0004746349
強化学習実施後、海中環境下において行動選択をする場合、外乱nとして海流の強さが例として挙げられる。そこで、状態認識部1や、図示しない計測器等で学習時の環境と、現在の環境との海流の速度の違いを変化量算出部3において実時間で計測する。
状態認識部1により計測された外乱nは変化量算出部3に転送され、状態sであるときに行動aを選択した場合の位置と姿勢の変化量を換算してdXとベクトル表示することとし、実際に実時間で計測された結果、検出された外乱nの変化量はベクトル値dFとして算出される。
dXをデカルト座標における位置x,yと、非ホロノミック水中ロボットβ2の方位角θを用いて以下に記載の数式(2)としてベクトル表記する。
Figure 0004746349
すると非ホロノミック水中ロボットβ2の位置と姿勢のベクトルdXを、s,a,dFを用いて表現することが可能となり、状態sにおいて、行動aを選択したときの非ホロノミック水中移動ロボットβ2のx座標における位置の変化量をdx’、y座標における位置の変化量をdy’、非ホロノミック水中移動ロボットβ2の方位角の変化量をdθ’とし、dFのx成分をdFx、y成分をdFyとした場合、dx’、dy’、dθ’はそれぞれ数式(3)〜(5)として記述することができる。
Figure 0004746349
ここにおいてtは、行動単位に要する実時間を示し、以上の式(3)〜(5)は海流速度の違いによって方位角の変化の仕方が大きな影響を受けにくく、海流を受けた時間分の距離だけ非ホロノミック水中ロボットβ2のデカルト座標位置がずれていくという発明者の経験的な知見によって導かれたものである。
以上の変化量算出部3により導き出された数式を利用することにより非ホロノミック水中ロボットの位置と姿勢の変化量ベクトル値であるdX’(dx’,dy’,dθ’)の値が算出され、行動選択部4で状態sにおいて行動aを選択した結果の状態遷移先s’を各行動aについて推定可能となる。すなわち状態遷移先s’は状態sと行動aの関数s’(s,a)として記述することができる。
最後に、行動選択部4は、変化量算出部3より受け取った変化量ベクトル値dX’をもとに、状態遷移先s’においてQ値がQ(s’,a’)を示すとき、全てのとりうるa’の値の中でQを最大化する値をQmax(s’)とすれば、Qmax(s’)の最大値を与える行動aを選択することにより、非ホロノミック水中ロボットβ2が最も適した行動方策を選択することが可能となる。
以上、本発明の実施の形態につき、その方法例及びこれに対応する装置例を挙げて説明したが、本発明は必ずしも上述した手段及び手法にのみ限定されるものではなく、前述した効果を有する範囲内において、適宜、変更実施することが可能なものである。
本発明の装置例に係るロボット行動選択装置を示す構成図である。 非ホロノミックロボットとしての4輪移動ロボットの動作態様図である。 非ホロノミックロボットとしての水中移動ロボットを示すものであり、(a)は概要図、(b)は動作態様図である。
符号の説明
α…ロボット行動選択装置
β…知能ロボット
β1…非ホロノミック4輪移動ロボット
β2…非ホロノミック水中移動ロボット
1…状態認識部
2…学習部
3…変化量算出部
4…行動選択部
s…状態
a…行動
p…報酬
n…外乱
dX’…位置と姿勢の変化量ベクトル値
B1、B2…動作開始点
K1、K2…切り返し点
K3、K4…途中通過点
T1、T2…目標点
C…中間地点
O…海流
f…主推進器
r…舵

Claims (2)

  1. マルコフ決定過程に従う環境中において強化学習を実施した知能ロボットが、強化学習後の環境下において行動を選択するとき、強化学習時と強化学習後の環境状態に違いがあった場合でも適切な行動を選択するロボット行動選択装置であって、
    前記強化学習時の環境状態と前記強化学習後の環状態を各種モニタセンサ、計測器にて認識する状態認識部と、
    前記強化学習時の環境状態における前記知能ロボットの位置及び姿勢を表す各状態と前記知能ロボットの各行動との組について、当該状態において当該行動を選択した場合に得られる前記知能ロボットの状況の望ましさを数値化した報酬の平均値を示す行動状態価値関数をメモリーに更新可能に蓄積する学習部と、
    前記強化学習後の環境状態の場合に、前記状態認識部において検出された前記強化学習時の環境状態と前強化学習後の環境状態との差である外乱を取得するとともに、前記強化学習後の環境状態における前記知能ロボットの状態を取得して、前記外乱の前記強化学習時の環境状態と前記強化学習後の環境状態との間での変化量に前記行動に要する時間を掛け合わせた値を、前記取得した知能ロボットの状態において各行動を選択した結果の状態遷移先の位置に足し合わせた値を位置の変化量ベクトルとし、前記取得した知能ロボットの状態において各行動を選択した結果の状態遷移先の姿勢そのものを姿勢の変化量ベクトルとして算出する変化量算出部と、
    前記強化学習後の環境状態の場合に、前記変化量算出部から取得した位置の変化量ベクトルと姿勢の変化量ベクトルを用いて状態遷移先の状態を推定し、推定した状態遷移先の状態に対して、前記メモリーに蓄積された前記行動状態価値関数が最大値をとる行動を選択する行動選択部と、を具備する、
    ことを特徴とする、ロボット行動選択装置。
  2. マルコフ決定過程に従う環境中において強化学習を実施した知能ロボットが、強化学習後の環境下において行動を選択するとき、強化学習時と強化学習後の環境状態に違いがあった場合でも適切な行動を選択するロボット行動選択方法であって、
    予め、前記知能ロボットに対し前記強化学習を実施することにより、前記強化学習時の環境状態における前記知能ロボットの位置及び姿勢を表す各状態と前記知能ロボットの各行動との組について、当該状態において当該行動を選択した場合に得られる前記知能ロボットの状況の望ましさを数値化した報酬の平均値を示す行動状態価値関数を学習手段で導き出しメモリーに記憶した後、
    まず、前記強化学習後の環境状態を各種モニタセンサ、計測器を通して状態認識手段で検出してから、前記強化学習時の環境状態と当該強化学習後の環境状態との差を変化量算出手段で外乱として取得してメモリーに更新可能に記憶し、
    次に、外乱が発生した場合に、前記強化学習後の環境状態における前記知能ロボットの状態を取得して、前記外乱の前記強化学習時の環境状態と前記強化学習後の環境状態との間での変化量に前記行動に要する時間を掛け合わせた値を、前記取得した知能ロボットの状態において各行動を選択した結果の状態遷移先の位置に足し合わせた値を位置の変化量ベクトルとし、前記取得した知能ロボットの状態において各行動を選択した結果の状態遷移先の姿勢そのものを姿勢の変化量ベクトルとして算出し、前記位置の変化量ベクトルと前記姿勢の変化量ベクトルを用いて状態遷移先の状態を推定し、推定した状態遷移先の状態の中から前記行動状態価値関数の最大値をとる行動選択する、
    ことを特徴とするロボット行動選択方法。
JP2005145588A 2005-05-18 2005-05-18 ロボット行動選択装置及びロボット行動選択方法 Active JP4746349B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005145588A JP4746349B2 (ja) 2005-05-18 2005-05-18 ロボット行動選択装置及びロボット行動選択方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005145588A JP4746349B2 (ja) 2005-05-18 2005-05-18 ロボット行動選択装置及びロボット行動選択方法

Publications (2)

Publication Number Publication Date
JP2006320997A JP2006320997A (ja) 2006-11-30
JP4746349B2 true JP4746349B2 (ja) 2011-08-10

Family

ID=37541033

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005145588A Active JP4746349B2 (ja) 2005-05-18 2005-05-18 ロボット行動選択装置及びロボット行動選択方法

Country Status (1)

Country Link
JP (1) JP4746349B2 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8626565B2 (en) * 2008-06-30 2014-01-07 Autonomous Solutions, Inc. Vehicle dispatching method and system
JP5283541B2 (ja) * 2009-03-05 2013-09-04 株式会社神戸製鋼所 ロボットの動作経路生成方法
JP6147691B2 (ja) * 2014-03-27 2017-06-14 株式会社デンソーアイティーラボラトリ 駐車スペース案内システム、駐車スペース案内方法、及びプログラム
JP6285849B2 (ja) * 2014-11-17 2018-02-28 日本電信電話株式会社 行動制御システム、その方法及びプログラム
JP6522488B2 (ja) * 2015-07-31 2019-05-29 ファナック株式会社 ワークの取り出し動作を学習する機械学習装置、ロボットシステムおよび機械学習方法
JP6240689B2 (ja) 2015-07-31 2017-11-29 ファナック株式会社 人の行動パターンを学習する機械学習装置、ロボット制御装置、ロボットシステム、および機械学習方法
DE102016009030B4 (de) 2015-07-31 2019-05-09 Fanuc Corporation Vorrichtung für maschinelles Lernen, Robotersystem und maschinelles Lernsystem zum Lernen eines Werkstückaufnahmevorgangs
JP6706173B2 (ja) 2016-08-09 2020-06-03 株式会社日立製作所 制御装置、制御方法、および制御プログラム
JP6517762B2 (ja) 2016-08-23 2019-05-22 ファナック株式会社 人とロボットが協働して作業を行うロボットの動作を学習するロボットシステム
JP7034035B2 (ja) * 2018-08-23 2022-03-11 株式会社日立製作所 自律学習型ロボット装置及び自律学習型ロボット装置の動作生成方法
CN110554707B (zh) * 2019-10-17 2022-09-30 陕西师范大学 一种飞行器姿态控制回路的q学习自动调参方法
CN111273677B (zh) * 2020-02-11 2023-05-12 哈尔滨工程大学 基于强化学习技术的自主水下机器人速度和艏向控制方法
JP7305041B2 (ja) * 2020-04-21 2023-07-07 三菱電機株式会社 情報処理装置および空調システム
JP2022076572A (ja) * 2020-11-10 2022-05-20 株式会社日立製作所 ロボット制御システム、ロボット制御方法及びプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3233323B2 (ja) * 1994-05-31 2001-11-26 富士ゼロックス株式会社 システム制御方法および装置
JPH0981205A (ja) * 1995-09-11 1997-03-28 Fujitsu Ltd 学習システム
JP2000080673A (ja) * 1998-09-08 2000-03-21 Ishikawajima Harima Heavy Ind Co Ltd 浚渫船向け経路計画法
JP3465236B2 (ja) * 2000-12-20 2003-11-10 科学技術振興事業団 ロバスト強化学習方式
JP3949932B2 (ja) * 2001-10-30 2007-07-25 三井造船株式会社 自律型水中航走体の航走制御装置

Also Published As

Publication number Publication date
JP2006320997A (ja) 2006-11-30

Similar Documents

Publication Publication Date Title
JP4746349B2 (ja) ロボット行動選択装置及びロボット行動選択方法
Fu et al. One-shot learning of manipulation skills with online dynamics adaptation and neural network priors
CN101943916B (zh) 一种基于卡尔曼滤波器预测的机器人避障方法
El-Fakdi et al. Two-step gradient-based reinforcement learning for underwater robotics behavior learning
EP3832420A1 (en) Deep learning based motion control of a group of autonomous vehicles
JP4495703B2 (ja) 水中ロボットの動作制御方法、装置及びプログラム
O'Callaghan et al. Learning navigational maps by observing human motion patterns
Spaan et al. Active cooperative perception in network robot systems using POMDPs
JP6939513B2 (ja) モデル予測制御装置
Bansal et al. A hamilton-jacobi reachability-based framework for predicting and analyzing human motion for safe planning
KR102303126B1 (ko) 사용자 선호에 따른 강화학습 기반 자율주행 최적화 방법 및 시스템
US20210402598A1 (en) Robot control device, robot control method, and robot control program
McKinnon et al. Learning multimodal models for robot dynamics online with a mixture of Gaussian process experts
JP2007317165A (ja) 自律移動ロボットの動作計画方法、自律移動ロボットの動作計画方法を利用した自律移動ロボットの制御方法、自律移動ロボットの動作計画装置、自律移動ロボットの動作計画プログラム及びその記録媒体、自律移動ロボットの制御プログラム
Nicolis et al. Human intention estimation based on neural networks for enhanced collaboration with robots
CN110716574B (zh) 一种基于深度q网络的uuv实时避碰规划方法
Elfes Dynamic control of robot perception using stochastic spatial models
Ferrari et al. A potential field approach to finding minimum-exposure paths in wireless sensor networks
McKinnon et al. Learning probabilistic models for safe predictive control in unknown environments
Ramakrishna et al. Augmenting learning components for safety in resource constrained autonomous robots
JP5079602B2 (ja) 自律移動ロボットの動作計画装置、方法、プログラム及び記録媒体並びに自律移動ロボットの動作制御装置及び方法
Transeth et al. Autonomous subsea intervention (SEAVENTION)
EP3904973A1 (en) Device and method for controlling a robot
Hong et al. Dynamics-aware metric embedding: Metric learning in a latent space for visual planning
Alagić et al. Design of mobile robot motion framework based on modified vector field histogram

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20070629

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20070815

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070824

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20071109

RD05 Notification of revocation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7425

Effective date: 20080418

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100907

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101102

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110510

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110513

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140520

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4746349

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350