JP2007317165A - 自律移動ロボットの動作計画方法、自律移動ロボットの動作計画方法を利用した自律移動ロボットの制御方法、自律移動ロボットの動作計画装置、自律移動ロボットの動作計画プログラム及びその記録媒体、自律移動ロボットの制御プログラム - Google Patents

自律移動ロボットの動作計画方法、自律移動ロボットの動作計画方法を利用した自律移動ロボットの制御方法、自律移動ロボットの動作計画装置、自律移動ロボットの動作計画プログラム及びその記録媒体、自律移動ロボットの制御プログラム Download PDF

Info

Publication number
JP2007317165A
JP2007317165A JP2007063834A JP2007063834A JP2007317165A JP 2007317165 A JP2007317165 A JP 2007317165A JP 2007063834 A JP2007063834 A JP 2007063834A JP 2007063834 A JP2007063834 A JP 2007063834A JP 2007317165 A JP2007317165 A JP 2007317165A
Authority
JP
Japan
Prior art keywords
mobile robot
autonomous mobile
state
autonomous
speed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007063834A
Other languages
English (en)
Other versions
JP4406436B2 (ja
Inventor
Hiroshi Kawano
洋 川野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007063834A priority Critical patent/JP4406436B2/ja
Publication of JP2007317165A publication Critical patent/JP2007317165A/ja
Application granted granted Critical
Publication of JP4406436B2 publication Critical patent/JP4406436B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

【課題】自律移動ロボットの加速度制限値と3次元障害物への対応とを考慮した自律移動ロボットの動作計画技術を提供する。
【解決手段】目標速度計算部102が、自律移動ロボットの加速度制限値を考慮した式により、目標速度を計算する。変位量計算部104が、その目標速度と、想定される風速(103)から、位置と方位角と旋回速度のそれぞれの変位量を計算する。状態遷移確率計算部105が、その変位量から状態遷移確率を計算する。一方、傾斜角差計算部107が、地形モデル(106)を参照して、遷移前の状態とある行動を取った際の遷移先の状態の傾斜角差を計算する。登坂角度計算部108が、自律移動ロボットの登坂角度変化最大量を計算する。報酬決定部109が、上記傾斜角と上記登坂角度変化最大量を比較し、上記傾斜角の方が大きければ、低い報酬を与える。
【選択図】図1

Description

本発明は、自律移動ロボットの動作計画方法及びこれを用いた自律移動ロボットの制御方法に関する。詳細には、未知流体外乱中を移動する自律移動ロボットに三次元障害物を回避させながら目的地点まで移動させるための動作計画を行うための技術、そしてその動作計画に基づいて自律移動ロボットを制御させるための技術等に関する。
近年、屋外で活動可能な自律行動主体である自律移動ロボットの研究が活発に行われており、それらの応用先が広がりつつある。
そのような、自律移動ロボットのひとつである自律飛行船は、浮力を利用して空中に静止することが可能であり、機体内に搭載したコンピュータによって自身の運動を制御することが可能である。このような特性から、自律飛行船の地雷探査などへの応用が期待されている。
しかし、自律飛行船は、その機体比重を空気と同じにしなければならないために、機体重量を軽くする必要があり、搭載可能なアクチュエータの数、重量に大きな制約がある。そのため、自律飛行船は一般に劣駆動ロボットと呼ばれる。劣駆動ロボットとは、搭載されたアクチュエータが直接制御可能な運動自由度数が、ロボットの運動自由度よりも少ないものを意味する。
このような、劣駆動ロボットを障害物の存在する環境で制御するためには、その運動学的性質を考慮した動作計画を行う必要がある。自律飛行船のように真横に動くことが出来ない移動ロボットのモデルとして、4輪自動車モデルがある。4輪自動車モデルの運動学的拘束条件は、以下の式(1)で表現できる。
X,Yはロボットの水平面内位置、ψは方位角、vxbは前進速度、σはハンドル角度、Lはホイールベースの長さである。なお、式(1)において、記号’は時間微分を表す。つまり、X’はX方向の速度、Y’はY方向の速度、ψ’は角速度を表す。以下、角速度を旋回速度と云う。この条件式を出発点として解析を行い、4輪自動車型ロボットのような劣駆動移動ロボットの障害物回避アルゴリズムを作成するのが従来の方法である。従来の手法では、まず、(1)式を使って、ロボットがたどるべき目標軌道を算出し、その軌道をロボットに追従させるのが一般的である。
なお、優先日において未公開の先行技術文献情報として非特許文献4、5、6を示す。
T. Yamasaki and N. Goto: "identification of Blimp Dynamics by Flight Tests", Transactions of JSASS, Vol.43, pp.195-205, 2003. 中村仁彦、「非ホロノミックロボットシステム 第2回 幾何学的な非ホロノミック拘束の下での運動計画」、日本ロボット学会誌 Vol.11 No.5,pp.655〜662,1993 川野洋、「未知不均一潮流中での航行を考慮した劣駆動水中ロボットの動作計画と制御」,JSAI2005,人工知能学会(第19回),1D1-04,2005年 H. Kawano, "Method for applying Reinforcement Learning to Motion Planning and Control of Under-actuated Underwater Vehicle in Unknown Non-uniform Sea flow", Proceedings of 2005 IEEE/RSJ international Conference on Intelligent Robots and Systems, pp.146-152, August 2005. H. Kawano, "Tree Dimensional Obstacle Avoidance of Autonomous Blimp Flying in Unknown Disturbance", Proceedings of 2006 IEEE/RSJ international Conference on Intelligent Robots and Systems, pp.123-130, October 2005. 川野洋、「未知風外乱中を航行する自律飛行船の三次元障害物回避」、ロボティクス・メカトロニクス講演会2006(ROBOMEC 2006 in WASEDA)講演予稿集、2P2-C07、2006年5月
しかし、(1)式においては、行動主体の位置座標を用いて目標軌道を規定しており、任意環境において未知の強い風外乱などの流体外乱があったときに、自律飛行船などの自律移動ロボットのアクチュエータ力では風などの流体に対抗しきれず、自律移動ロボットが目標軌道を大きく外れて移動してしまい、動作計画が破綻してしまう可能性があった。
本発明によれば、目標速度計算手段が、マルコフ状態遷移モデルの行動から、目標旋回速度及び機軸方向の速度(以下、サージ速度とする)を各状態ごとに計算する。変位量計算手段が、上記目標旋回速度とサージ速度を用いて、各行動単位時間における変位量(位置の変位量、方位角の変位量、旋回速度の変位量)をそれぞれ計算する。状態遷移確率計算手段が、マルコフ状態遷移モデルのある状態における、その状態を構成する変数の数と同じ次元を持つ格子を上記変化量だけ平行移動させ、その他の格子との共通部分の体積に比例した確率を状態遷移確率として求める。動作計画手段が、上記状態遷移確率を用いてマルコフ決定過程における動作計画法に基づき、方策及び価値関数を計算する。
また、好ましくは、目標速度の変化が自律飛行船などの自律移動ロボットの最大加速度を超えないよう設定する。
風外乱などの流体外乱が存在する中でも自律飛行船などの自律移動ロボットが追従可能な動作計画を行うことができる。
これから説明する本発明の実施形態では、自律行動主体(自律移動ロボット)の具体例として自律飛行船を例に採り、まず、劣駆動自律飛行船の動作計画方法について説明し、その後、この動作計画方法を用いた劣駆動自律飛行船の制御方法について説明する。
《劣駆動自律飛行船の動作計画方法》
理論的背景
劣駆動自律飛行船の動作計画方法について説明する前に、前提知識となるマルコフ状態遷移モデル及びマルコフ状態遷移モデルを用いた動作計画法について説明する。
環境を以下のようにモデル化したものが、マルコフ状態遷移モデルである(強化学習〔Reinforcement Learning〕におけるマルコフ決定過程〔Markov decision Process〕)。環境のとりうる離散的な状態の集合をS={s,s,…,s}、行動主体が取り得る行動の集合をA={a,a,…a}と表す。環境中のある状態s∈Sにおいて、行動主体がある行動a∈Aを実行すると、環境は確率的に状態s’∈Sへ遷移する。その遷移確率を

ss’=Pr{st+1=s’|s=s,a=a}

により表す。このとき環境から行動主体へ報酬rが確率的に与えられるが、その期待値を

ss’=E{r|s=s,a=a,st+1=s’}

とする。行動主体の各時刻における意志決定は方策関数

π(s,a)=Pr{a=a|s=s}

によって表される。π(s,a)は、全状態s,全行動aにおいて定義される。方策関数π(s,a)は、単に方策πとも呼ばれる。
なお、状態s’に附されている記号’は、状態sとの識別を図るための記号である。既述のとおり、時間微分を表す記号として記号’を用いているが、記号’が附された対象がマルコフモデルの状態であるか否かで記号’の意味を容易に識別できるので、以降の説明でもこの記法に従うとする。
ある時間ステップtで実行した行動が、その後の報酬獲得にどの程度貢献したのかを評価するため、その後得られる報酬の時系列を考える。報酬の時系列評価は価値と呼ばれる。行動主体の目標は、価値を最大化すること、あるいはそのような方策を求めることである。価値は、時間の経過とともに報酬を割引率γ(0≦γ<1)で割引いて合計される。すなわち、ある時刻tにおける状態sにおいて、ある行動aを実行したときの価値関数Vπ(s)は、以下のように定義される。Eπは期待値を求める関数である。
ここでは価値関数として方策πの下での状態sの価値である状態価値関数Vπ(s)を採用したが、方策πの下で状態sにおいて行動aを採ることの価値である行動価値関数Qπ(s,a)を採用することもできる。
行動主体の目標は、最適な方策を求めること、つまり任意の状態sについて価値関数(上記の例では状態価値関数Vπ(s)である。)が他の方策を採った場合よりも劣るものではない方策を求めることである。この方策の探求は、Bellman方程式で表され、すべての状態s、行動a、遷移先の状態s’の組み合わせについてのP ss’とR ss’の値が定まっていれば、ダイナミックプログラミング(Dynamic Programming)法により、最適な価値関数Vπ(s)及び方策πを計算することができる(例えば、三上 貞芳、皆川 雅章 共訳、R.S.Sutton、A.G.Barto 原著「強化学習」森北出版、1998、pp.94-118参照)。ダイナミックプログラミング法の処理は、周知技術であるため説明は省略する。
この実施形態では、行動主体は、図8に例示される劣駆動自律飛行船1(以下、自律飛行船とする)である。自律飛行船1は、舵2、主推進器3、上下方向推進器4、ゴンドラ5、風速差計測部6、位置計測部7を有する。この自律飛行船1は、真横方向に直接移動することができない。すなわち、搭載アクチュエータである舵2、主推進器3、上下方向推進器4が制御可能な運動自由度よりも、自律飛行船の運動自由度が高いので、この自律飛行船1は劣駆動ロボットである。
自律飛行船1が航行する空間はマルコフ遷移状態モデルにより離散的にモデル化されており、その状態sは、自律飛行船1の水平面内位置のX座標,Y座標,方位角ψ,旋回速度ψ’の4つのパラメータ・軸から構成される。各軸は、自律飛行船に搭載可能なセンサーの精度を考慮して離散化されている。
各状態sにおいて、自律飛行船1は、自律飛行船の速度を行動として選択することができる。例えば、自律飛行船は、各状態sにおいて、機軸方向の速度vxwτ(t)と旋回速度ψ τ(t)の組み合わせを、行動aとして選択することができる。換言すれば、行動a∈Aは、行動内容に対応付けられたラベルとして定義されるものである。例えば行動内容が機軸方向速度の維持ないし変更であれば、その機軸方向速度の値に応じて行動a∈Aが対応付けられており、行動aはスカラー値(一次元ベクトル)を表す。また、例えば行動内容が機軸方向速度の維持ないし変更と旋回速度の維持ないし変更との組み合わせであれば、その機軸方向速度の値と旋回速度の値の組み合わせに応じて行動a∈Aが対応付けられており、行動aは二次元ベクトルを表す。
遷移先の状態s’への遷移確率P ss’は、行動aの選択により定まった自律飛行船の速度、想定される風速等を考慮して決定される。遷移確率P ss’の求め方の詳細については後述する。
遷移先の状態s’が到達地点を含む場合には、例えば、その時の報酬R ss’を1とする。遷移先の状態s’が後述するように障害物により進入不可能である場合には、その時の報酬R ss’を−1とする。その他の場合には、報酬R ss’を0に設定する。この{1,0,−1}の何れかの報酬を与えるという決定方法は一例に過ぎず、到達点を含む場合の報酬>その他の場合の報酬>障害物である場合の報酬という関係が成り立っている限り、報酬の値はどのような値でも良い。
この実施形態では、後述のとおり実際の試行錯誤行動による学習の替わりに、オフラインの状況下で、状態s、行動a、遷移先の状態s’のすべての組み合わせについてのP ss’とR ss’の値を計算し、ダイナミックプログラミング法により、最適な、価値関数Vπ(s)及び方策πを計算する。
オンラインの状況下で、実際に吹いている風が想定される風と同じ場合には、自律飛行船は、方策πに従って行動すれば、到達地点に到達することができる。
以上が、マルコフ状態遷移モデル及びマルコフ状態遷移モデルを用いた動作計画法についての概要である。
装置構成例
以下、図1と図2を参照して、自律飛行船の動作計画方法を実現するための装置の機能構成例及びその処理例について説明する。図1は、自律飛行船の動作計画装置の機能構成例を示す図である。図2は、自律飛行船の動作計画方法の処理例を示す図である。
自律飛行船の動作計画装置は、最大加速度設定部101、目標速度計算部102、想定風速値入力部103、変位量計算部104、状態遷移確率計算部105、地形モデル保存部106、傾斜角差計算部107、登坂角度計算部108、報酬決定部109、動作計画部110、価値関数データベース111から構成される。水平面内における定高度航行をするための動作計画を行う場合には、後述するように、傾斜角差計算部107、登坂角度計算部108を省略することができる。
[全体の流れ]
ステップ1〜ステップ3において、状態遷移確率P ss’を求める。ステップ4〜ステップ6において、報酬R ss’を求める。ステップ7において、上記状態遷移確率P ss’と上記報酬R ss’に基づいて、方策πと価値関数Vπ(s)を計算する。
以下、各ステップについて説明する。
[ステップ1]
目標速度計算部102が、マルコフ状態遷移モデルの各状態sにおいてある行動aを取ったときの目標速度を決定する。この実施例では、自律飛行船目標速度は、対空気機体座標に基づいて、かつ、飛行船の最大加速度を考慮して設定される。また、目標速度は、例えば、劣駆動自律飛行船の旋回速度ψ τ(t)と飛行船の機軸方向の速度vxwτ(t)(以下、サージ速度とする)である。
例えば、目標速度計算部102は、最大加速度設定部101において予め設定された自律飛行船1の旋回加速度αを読み出し、各行動aについて、下記の式(2)に従って自律飛行船1の旋回速度ψ τ(t)とサージ速度vxwτ(t)を自律飛行船1の目標速度として定め、変位量計算部104に出力する。
ここで、ψ τ(t)は自律飛行船1の目標旋回速度、bはマルコフ状態遷移モデルの各状態sにおける行動aに対応する値、αは自律飛行船1の旋回加速度、tは各行動aの開始時からの経過時間、ψ τ0は各状態sの開始時における飛行船の旋回速度、vxwτ(t)は自律飛行船1の目標対空気機体速度(以下、目標サージ速度とする)、vx0は各状態sの開始時における飛行船のサージ速度である。式(2)では処理の簡略化の場合として、vx0を正の一定値として、vxwτ(t)が不変とした場合を示している。ここで、αは、自律飛行船の最大加速度を超えないように設定される。また、この実施例では、計算量を少なくするためにvxwτ(t)が不変として扱ったが、より精度の高い動作計画を行うためにvxwτ(t)が行動aを反映した値をとることができるようにしても良い。
この場合、各行動aについて、下記の式に従って自律飛行船1の旋回速度ψ τ(t)とサージ速度vxwτ(t)を自律飛行船1の目標速度として定めるようにすればよい。(b,b)はマルコフ状態遷移モデルの各状態sにおける行動aに対応する二次元ベクトル、βは予め定めた機軸方向の加速度であり、自律飛行船の最大加速度を超えないように設定される。式(2)はb=0の場合に相当する。
この実施例では、説明の簡略化のために、行動aに対するbの値が−1,0,1の何れかの値を取るとし、行動aに対するbの値が1の場合には、上記式(2)に従い、自律飛行船の旋回速度ψ’は一定加速度αで加速され、行動aに対するbの値が0の場合には、自律飛行船の旋回速度ψ’は維持され、行動aに対するbの値が−1の場合には、自律飛行船の旋回速度ψ’は一定加速度αで減速されるものとする。
例えば、時刻0の時の状態において行動として1を選択し、時刻Tの状態において行動として0を選択し、時刻2Tの時の状態において行動1、時刻3Tの時の状態において行動1、時刻4Tの時の状態において行動0、時刻5Tの時の状態において行動−1、時刻6Tの時の状態において行動−1、時刻7Tの時の状態において1を選択した場合には、自律飛行船の旋回速度ψ’は、図9に示すように変化する。
なお、この行動aに対するbの値の例は一例であることに注意する。すなわち、aに対するbの値は、−10,0,10の値を取っても良いし、−1,―0.5,0,0.5,1の5つの値等を取っても良い。さらには、各行動時間中に自律飛行船の速度・加速度が変わるような行動を選択することができるようにしても良い。
このように、目標軌道や対地世界座標に基づく目標速度ではなく、対空気機体座標に基づく目標速度の形で、目標となる行動を自律飛行船1に与えることにより、未知風の外乱等により自律飛行船の水平面内の位置がずれた場合であっても、動作計画が破綻しないというメリットがある。すなわち、もし、目標軌道や対地世界座標で目標速度を設定した場合、任意環境において未知の強い風外乱があったときに、自律飛行船のアクチュエータ力では風に対抗しきれず、目標軌道又は対地世界座標で表現された目標速度を大きく外れて航行してしまう可能性があった。本発明では、この実施形態から明らかなように、上記のように、対空気機体座標で目標速度を記述し、自律飛行船1がそれを追従することで、風による自律飛行船1の変位への影響を動作計画の段階で考慮しやすくすることができる。つまり、風外乱による影響が方位角変位には現れにくく、自律飛行船1の位置変化の誤差にのみ現れるようにすることができるのである。
また、自律飛行船は、その機体比重を空気と同じにしなければならないために、その運動のイナーシャ(inertia)が高く、運動が風による影響を受けやすいという性質があり、舵の切り角に対する旋回速度のステップ応答は遅く、舵を切って即、旋回速度が希望の値になることが望めないことがある。しかし、上記の式(2)により、自律飛行船1の加速度制限値を考慮した目標速度の設定をすることができるため、追従可能な動作計画を行うことができるのである。
[ステップ2]
変位量計算部104が、状態sにある自律飛行船1が、想定される風速f、fの下において(想定風速f、fは想定風速値入力部103から入力される。)、各行動aに従って航行した場合、自律飛行船の世界座標系における水平面内位置のX座標,Y座標,方位角ψ,旋回速度ψ’がそれぞれどれくらい変位するのかを計算する。これらの変位を求めることにより、後述するように、ステップ3において、状態sにいる自律飛行船が、行動aを選択した場合に、次に、どの状態s’にどのくらいの確率で遷移するのかを計算することができるのである。
自律飛行船1の水平面内位置のX座標の変位量をD(ψ,a)、Y座標の変位量をD(ψ,a)、方位角ψの変位量をDψ(ψ,a)、旋回速度ψ’の変位量をDψ’(ψ,a)とすると、それぞれの変位量は、次式にように与えられる(図3を参照のこと)。この式が示すように、気流の影響は線形重ね合わせによって評価される。なお、下記式を用いずに、D(ψ,a)、D(ψ,a)、Dψ(ψ,a)、Dψ’(ψ,a)の値を例えば想定気体流速の下で風洞実験等を行うことで直接計測してもよい。
ここで、ψは各状態sの開始時の方位角、Tは状態sから次の状態s’に遷移するまでの時間(以下、行動単位時間とする)、fは想定される風の世界座標系におけるX軸方向の成分、fは想定される風の世界座標系におけるY軸方向の成分である。なお、方位角ψの変位量Dψ(ψ,a)と、旋回速度ψ’の変位量Dψ’(ψ,a)については、旋回速度ψ’の制御を行うことになるため、風の影響による補正は行わない。行動単位時間は例えば15秒とすることができる。
変位量計算部104は、目標速度計算部が出力した各時刻tにおける自律飛行船の旋回速度ψ’τとサージ速度vxwτ、想定風速値入力部で入力されたfとfを用いて、自律飛行船の水平面内位置のX座標の変位量D(ψ,a)、Y座標の変位量D(ψ,a)、方位角ψの変位量Dψ(ψ,a)、旋回速度ψ’の変位量Dψ’(ψ,a)を上記式に基づいてそれぞれ計算して、その計算結果を状態遷移確率計算部105に出力する。
[ステップ3]
状態遷移確率計算部105は、自律飛行船1の水平面内位置のX座標の変位量D(ψ,a)、Y座標の変位量D(ψ,a)、方位角ψの変位量Dψ(ψ,a)、旋回速度ψ’の変位量Dψ’(ψ,a)に基づいて、状態遷移確率P ss’を計算する。すなわち、これらの変位量を用いて、すべての状態sと状態s’と行動aの組み合わせについて、状態sにいる自律飛行船が行動aを選択した場合に、状態s’へ遷移する確率を計算する。
まず、状態sが、自律飛行船1の水平面内位置のX座標,Y座標,方位角ψ,旋回速度ψ’の4つの軸から構成される4次元の格子で示されるとし、その格子をR(s)と定義する(図4を参照のこと)。そして、その格子R(s)を、上記各変位量から構成される変位量ベクトル(D(ψ,a),D(ψ,a),Dψ(ψ,a),Dψ’(ψ,a))で、平行移動したものをR(s)と定義する。
ここで、自律飛行船1が状態sにあるときは、自律飛行船1は、その状態sを表わす4次元の格子R(s)の各点の何れかに、等しい確率で存在するものと仮定する。この仮定の下では、状態遷移確率P ss’は、R(s)と各R(s’)の重なった部分の体積に比例してそれぞれ求めることができる。ここで、R(s’)は、R(s)と重なった格子である。すなわち、R(s’)は、状態sにおいてある行動aを取ったときの遷移先の候補の状態s’に対応した4次元の格子である。R(s)は最大で8つのR(s’)と重なる可能性がある。
状態遷移確率P ss’は、R(s)とあるR(s’)の重なった部分の体積をV(s,s’,a)、R(s)とすべてのR(s’)との重なった部分の体積をΣs’(s,s’,a)とすると、次式により求めることができる。
このように状態遷移確率P ss’を計算することにより、最大8つの遷移先の状態s’についてのみ0でない状態遷移確率P ss’を与え、他のすべての状態s’については0の状態遷移確率P ss’を与えることになるため、後述するダイナミックプログラミング(DP)法による計算量を削減することができる。
[ステップ4]
傾斜角差計算手段107が、地形モデル保存部106に保存された地形モデルを参照して、状態sにおける地形の傾斜角θsteep(s)と、その状態においてある行動aを取ったときの遷移先の状態s’における地形の傾斜角θsteep(s’)の差の絶対値dθsteep(s’,s)を求める。計算されたdθsteep(s’,s)は、報酬決定部109に出力される。
すなわち、状態間の傾斜角差dθsteep(s’,s)は下記の式により定義される(図5を参照のこと)。
地形モデルは、位置(X,Y)と方位角のすべての組み合わせについての傾斜角のデータと、障害物の位置が登録されているデータベースである。自律飛行船の動作計画を行う前に、実際に自律飛行船を航行させる予定の地形についての地形モデルを予め取得し、地形モデル保存部106に格納しておく必要がある。
なお、ステップ4と後述するステップ5は、自律飛行船が3次元障害物上を定高度航行する場合の動作計画において必要なステップであり、自律飛行船が水平面を定高度航行する場合には、省略することができる。
[ステップ5]
登坂角度計算部108が、ある状態sから別の状態s’に遷移するときの自律飛行船の登坂角度変化最大量dθmax(s,s’)を計算する。計算された自律飛行船の登坂角度変化最大量dθmax(s,s’)は、報酬決定部109に出力される。
(s)を状態sにおけるピッチ角の変化速度、aを自律飛行船のピッチ角変化の加速度の最大値、fxbを風の機軸方向の対機体速度とし、登坂角度は十分に小さく、上下方向には風は吹かないものとすると、自律飛行船の登坂角度変化最大量dθmax(s,s’)は、以下のように定義される。登坂角度変化最大量dθmax(s,s’)は、自律飛行船1が一回の行動で、どれだけ登坂角度を変化させることができるかということを表す。このような物理量を考慮する理由は、自律飛行船1はイナーシャが大きく、登坂角度を急激に変更することができないからである。換言すれば、地形の傾斜角の変化に対する自律飛行船1の行動を、自律飛行船1の登坂角度変化最大量によって評価するのである(次のステップ6を参照のこと。)。
[ステップ6]
報酬決定部109が、状態s、行動a、遷移先の状態s’の各組み合わせについて、それぞれ、自律飛行船の登坂角度変化最大量dθmax(s,s’)と状態間の傾斜角差dθsteep(s’,s)の大小関係を調べて、報酬を決定する。
具体的には、報酬決定部109は、状態間の傾斜角差dθsteep(s’,s)の方が大きい場合には、その状態s、行動a、遷移先の状態s’各組み合わせについての報酬R ss’を−1に設定する。状態間の傾斜角差dθsteep(s’,s)の方が大きい場合には、自律飛行船1が、その遷移先の状態s’に移行することは不可能であり、かかる遷移先の状態sは障害物とみなすことができるためである。
また、報酬決定部109は、遷移先の状態s’が到達点を含む場合には報酬R ss’を1に設定し、その他の場合には報酬R ss’を0に設定する。
なお、ステップ4とステップ5を省略する場合には、報酬決定部109は、dθmax(s,s’)と状態間の傾斜角差dθsteep(s’,s)の比較をしないで、報酬を決定する。具体的には、報酬決定部109は、地形モデル保存部106に保存された地形データを参照して、遷移先の状態s’が到達点を含む場合には報酬R ss’を1に設定し、遷移先の状態s’が障害物を含む場合には報酬R ss’を−1に設定し、その他の場合には報酬R ss’を0に設定する。
また、先に述べたように、この{1,0,−1}の何れかの報酬を与えるという決定方法は一例に過ぎず、到達点を含む場合の報酬>その他の場合の報酬>障害物である場合の報酬という関係が成り立っている限り、報酬の値はどのような値でも良い。
[ステップ7]
動作計画部110は、状態遷移確率計算部105が計算した状態遷移確率P ss’と、報酬決定部109が計算した報酬R ss’を用いて、ダイナミックプログラミング法により、価値関数Vπ(s)及び方策πを計算し、これを価値関数データベース111に格納する。
先に述べたように、すべての状態s、行動a、遷移先の状態s’の組み合わせについてのP ss’とR ss’の値がそれぞれ定まっていれば、ダイナミックプログラミング法により、価値関数Vπ(s)及び方策πを計算することができる。
以上が、自律飛行船の動作計画法の説明である。
想定される風が、実際に吹いている風と同じであるときは、自律飛行船1は、各状態sにおいて、方策πに従った行動aを選択するように制御されることにより、到達点に到達することができる。しかし、想定される風が、実際に吹いている風と異なる場合には、方策πにそのまま従うことはできない。かかる場合には、上記価値関数Vπ(s)を用いて、かつ、想定される風と実際に吹いている風の差を考慮して、自律飛行船1の動作を制御する必要がある。以下では、本願発明の2つ目の柱である、劣駆動自律飛行船の動作計画法を用いた劣駆動自律飛行船制御方法の発明について説明する。
《劣駆動自律飛行船の動作計画方法を用いた劣駆動自律飛行船制御方法》
理論的背景
動作計画においては、想定される風の風向と風速は一定であった。しかし、想定される風と実際に吹いている風は通常異なる場合が多い。この場合には、自律飛行船の航行中に、この風の差の影響をリアルタイムで考慮する必要がある。そのためには、まず、未知の風により、自律飛行船の位置がどの程度ずれたのかを推定する必要がある。ここで、自律飛行船の旋回速度ψ’は制御の対象であり、方位角ψは制御の対象となる旋回速度ψ’により定めるため、旋回速度ψ’と方位角ψは、未知の風の影響を受けないものとする。
想定される風と実際に吹いている風の風速のX軸方向の差をdf、Y軸方向の差をdfと定義する。dfとdfは、対地世界座標に基づいて表現される。このとき、自律飛行船の位置の変位量は、下式のように示される。
ここで、DXa(ψ,a)は風速差dfを考慮したときの自律飛行船のX軸方向の変位量、DYa(ψ,a)は風速差dfを考慮したときの自律飛行船のY軸方向の変位量である。
これらの変位量DXa(ψ,a),DYa(ψ,a)を用いることにより、状態sにある自律飛行船がある行動aを取ったときの予想される遷移先の状態sの位置X(s,a),Y(s,a)、方位角ψ(s,a)、旋回速度ψ’(s,a)は、下式のように示される。
ここで、X(s),Y(s)は自律飛行船が状態sにいるときの位置、ψ(s)は自律飛行船が状態sにいるときの方位角、ψ’(s)は自律飛行船が状態sにいるときの旋回速度である。
上記式(4)により、未知の風の影響下において、状態sにいる自律飛行船がある行動aを取ったときに遷移すると予想される状態sが求まる。ある状態sにおいて取り得るすべての行動aについて、遷移すると予想される状態sの価値関数値Vπ(s)を求め、各行動aごとに決まる価値関数値Vπ(s)の大小関係を比べる。このとき、価値関数値Vπ(s)を最大にする行動aが、状態sにおける最適な行動となる。すなわち、各状態sにおいて、上述の計算を逐次行い、その行動aを選択することにより、未知の風が存在する状況においても、自律飛行船は到達地点に到達することができるのである。
装置構成例
図6、図7を参照して、劣駆動自律飛行船の制御方法を実現するための装置(以下、自律飛行船の制御装置とする)構成例・処理例について説明する。図6は、自律飛行船の制御装置の機能構成例を示した図である。図7は、自律飛行船の制御方法例を示した図である。
自律飛行船の制御装置は、風速差計測部6、位置計測部7、遷移先予測部203、価値関数値計算部204、動作選択部205、フィードバック制御部206から構成される。
[ステップ1]
風速差計測部6が、各行動単位時間毎に、動作計画時に予測した風速f,fと、実際に吹いている風の風速の実測値fxa,fyaの差df,dfを計測する。ここで、df=f−fxa,df=f−fyaである。計測された風速差df,dfは、遷移先予測部203に出力される。
[ステップ2]
位置計測部7が、各行動単位時間毎に、自律飛行船の位置X,Y、方位角ψ、旋回速度ψ’を計測する。計測結果は、遷移先予測部203に出力される。
[ステップ3]
遷移先予測部203が、風速差計測部6が出力した風速差df,dfと、位置計測部7が出力した自律飛行船の位置X,Y、方位角ψ、旋回速度ψ’を用いて、状態sにいる自律飛行船が、各行動aを取った場合に、次にどの状態に遷移するのかを予測し、その予測される遷移先の状態sをそれぞれ求める。各行動aごとに求められた予想される遷移先の状態sは、価値関数値計算部204に出力される。
具体的には、遷移先予測部203はまず、ある行動aについて、上記式(3)を用いて、風速差dfを考慮したときの自律飛行船のX軸方向の変位量DXa(ψ,a)、風速差dfを考慮したときの自律飛行船のY軸方向の変位量DYa(ψ,a)をそれぞれ求める。その後、上記式(4)を用いて、その行動aを取ったときの予想遷移先状態sを求める。これを、すべての行動aについて行い、各行動aごとにそれぞれ予想される遷移先の状態sを求める。各行動aごとに求められた予想される遷移先の状態sは、価値関数値計算部204に出力される。
[ステップ4]
価値関数値計算部204が、価値関数データベース111を参照して、各行動aごとに予想される遷移先の状態seにおける価値関数値Vπ(s)をそれぞれ計算する。計算された各行動aごとの価値関数値Vπ(s)は、動作選択部205に出力される。
[ステップ5]
動作選択部205が、価値関数値計算部204が計算した各行動aごとの価値関数値Vπ(s)の大小関係を比較して、価値関数値Vπ(s)を最大にする行動aを選択する。そして、その行動により決定される目標速度を式(2)から再計算する。再計算された目標速度は、フィードバック制御部206に出力される。
[ステップ6]
フィードバック制御部206は、再計算された目標速度を維持することができるように、主推進器力、舵角度を調整する。
以上が、劣駆動自律飛行船の動作計画法を用いた劣駆動自律飛行船制御方法の説明である。
≪変形例等≫
以上の説明では、自律行動主体である自律移動ロボットの具体例として自律飛行船を例に挙げて説明した。しかし、自律移動ロボットの具体例として自律飛行船に限らず、例えば水中無人探査機のような自律水中ロボットなども例示できる。
自律水中ロボットは、その潜航深度を機体の浮力を使って保持する原理を利用するため、その機体比重を機体周囲の液体(例えば自律水中ロボットの活動場所が海であれば海水である。)の比重と同じにする必要があり、そのために、機体が周囲を流れる液体から受ける流体力が、機体に搭載されたプロペラなどの推進手段の力と比較して無視できない大きさになってしまい、その動作計画に困難が生じる。また、機体に搭載可能な推進手段の数、重量にも大きな制約があり、自律水中ロボットは劣駆動ロボットである場合が多い。さらに、自律水中ロボットの運動は、イナーシャが高く、一般にその最大加速度は低い。自律水中ロボットは、これらの点で自律飛行船と同様の自律移動ロボットであり、自律水中ロボットに対して本発明の動作計画方法や制御方法を好ましく適用できる。
なお、自律水中ロボットの場合には、自律飛行船の場合としての用語、例えば「体空気機体座標」、「空気」、「風」、「風速」などを「体水機体座標」、「流体」、「海流」、「流速」などに適宜に呼びかえればよい。
本発明では、自律移動ロボットには自律飛行船や自律水中ロボットの他に格別の限定はないが、自律移動ロボットが、その行動環境の影響、特に「流れ」の影響を受けやすいものである場合に、本発明の有効性が顕著になる。このことは、既述の変位量計算部104が、変位量の算出にあたり、想定される風速(流速)を考慮していることなどからも明らかであろう。
なお、≪劣駆動自律飛行船の動作計画方法≫の項目で説明した動作計画方法は、その技術事項から自明なとおり、自律移動ロボットが劣駆動自律移動ロボットであることを必須事項としない。同様に、≪劣駆動自律飛行船の動作計画方法を用いた劣駆動自律飛行船制御方法≫の項目で説明した制御方法は、その技術事項から自明なとおり、自律移動ロボットが劣駆動自律移動ロボットであることを必須事項としない。ただし、本発明において自律移動ロボットが劣駆動自律移動ロボットである場合は、劣駆動自律移動ロボットが非劣駆動自律移動ロボットに比べて制御可能な運動自由度数が低く追従可能な動作計画の策定や追従制御が困難となることに鑑みて、本発明の有効性が顕著になる。つまり、既述のとおり、劣駆動の自律移動ロボットに対して追従可能性の高い行動計画等を提供できる点で、本発明によって齎される有利な効果がいっそう明確になる。
ところで、上述の動作計画方法では、地形モデルとともに想定流速f、fを用いた。この想定流速を精度良く推定できれば、自律移動ロボットの動作計画を精度の良いものとすることができる。しかし、流速推定のために、詳細な数値流体力学的シミュレーションを自律移動ロボットの任務行動ごとに行なうことは、計算コストや時間コストの面から必ずしも望ましいものではない。また、自律移動ロボットの任務環境の流速分布が、想定される均一な流速分布と異なる場合(実際には異なる場合がほとんどである。)、動作計画の精度は現実の環境との対比で必ずしも良好なものではない。
そこで、簡易でありながら現実の流速分布をできるだけ反映した流速推定の手法を示す。
図12は、海流の主な方向(主流方向)に沿った海底地形の断面での潮流速度分布をシミュレーションした結果を示している。この潮流速度分布から、潮流は、海底面の高度が極大となる場所で主流とほぼ同じ速さとなり、その極大箇所の下流側で当該極大箇所よりも高度の低いところでは、潮流速度がほぼ0になっているのがわかる。ここでは海流の速度分布として示したが、このような速度分布は流体自体の種類よりむしろレイノルズ数などに関係するものであり、実際の自律移動ロボットの動作計画では、海水や淡水などの別、さらには媒質が液体と気体との別に係らず、概ね、流速は、高度が極大となる場所で主流とほぼ同じとなり、その極大箇所の下流の極大箇所より高度の低いところでは、流速がほぼ0になるとして扱うことができる。
このことから、次の要領で流速推定を行う。
〈1〉主流方向に沿った地形モデルの断面で、この断面をマルコフ状態空間の離散化に対応して複数の領域(例えば正方格子状)に分割し、地形表面(地面あるいは海底面)の高度が極大となる領域(以下、極大領域という。)を検出する。これは、地形モデルに登録された高度の主流方向の変化、つまり、高度増加から高度減少に転じる領域として検出でき、あるいは、登録された傾斜角から算出される高度の主流方向の変化から検出することができる。ここでは検出された極大領域をPm0,Pm1,・・・,Pmnとする。なお、「地形表面の高度が極大となる領域(極大領域)」とは、地形モデルの断面で地形表面の高度が極大となる位置を含む領域である。
〈2〉各極大領域Pm0,Pm1,・・・,Pmnについて、極大領域Pmi(i=0,1,・・・,n)の上流側に、当該極大領域Pmiの高度よりも高い、あるいは当該極大領域Pmiの高度以上の、極大領域が存在する場合には、当該極大領域Pmiを極大領域としての指定から除外する、つまり当該極大領域Pmiを極大領域の集合Pm0,Pm1,・・・,Pmnから除外するという補正を行う。例えば、i=5についてのみ、極大領域Pm5の上流側に、当該極大領域Pm5の高度よりも高度の高い極大領域が存在する場合であれば、領域Pm5は極大領域としての指定を外され、領域Pm0,Pm1,・・・,Pm4,Pm6,・・・,Pmnが極大領域となる。ここで、一般的に領域は高低差を有する範囲であるところ、「領域の高度」は、例えば当該領域のうち高度が最も高い部分の高度として定義することも、あるいは逆に最も低い部分の高度として定義することも、もしくは両者の平均値として定義することが可能である。
〈3〉ステップ〈2〉で得られた各極大領域について、各極大領域の下流側で、かつ、当該極大領域の高度以下あるいは未満の領域〔但し、ここで意味のある領域は自律移動ロボットが可動な領域であることに留意しなければならない。〕の主流方向の流速を0とする。
〈4〉その他の領域では、主流方向の流速を主流速度と同じとする。
上記ステップ〈2〉の処理は、ステップ〈3〉の処理で流速を0に設定される領域の重複を避けるための処理であるから、省略可能である。この場合、ステップ〈3〉の処理は、ステップ〈1〉で得られた各極大領域に対して、上述の処理(流速を0に設定する。)を行なう。
上述の流速推定手法であれば、簡便な推定手法でありながら、現実の流速分布を大まかに反映することができる。なお、断面に平行でない方向の速度成分は0とすればよい。
以上の流速推定手法を、図13〜図15に示して説明する。
[ステップ1]
極大領域検出部301が、地形モデル保存部106から読み込んだ地形モデルを用いて、主流方向に沿った地形モデルの断面で地形表面の高度が極大となる領域を検出する。主流方向に沿った地形モデルの断面〔図13(a)参照〕は、マルコフ状態空間の離散化に対応して複数の領域に分割される〔図13(b)参照〕。図13(b)では、主流方向に沿った地形モデルの断面を格子状に分割した例を示している。以下、各領域を指示するにあたり、図13(b)の枠外に示したアラビア数字とアルファベットとの組み合わせで指示する。ここでは検出された極大領域をPm0,Pm1,Pm2とする。つまり、領域(6,c)、(7,f)、(4,i)である。
[ステップ2]
つぎに、極大領域補正部302が、上記ステップ1で検出された極大領域Pm0,Pm1,Pm2について、各極大領域Pmi(i=0,1,2)の上流側に、当該極大領域Pmiの高度よりも高い、あるいは当該極大領域Pmiの高度以上の、極大領域が存在する場合に、当該極大領域Pmiを極大領域としての指定から除外する補正を行う。図13(b)に示す例では、i=1についてのみ、極大領域Pm1の上流側に、この極大領域Pm1よりも高度の高い極大領域(Pm0)が存在するから、領域Pm1は極大領域としての指定を外され、領域Pm0,Pm2が極大領域となる。なお、このステップ2の処理は必須ではない。ただし、この例では、「領域の高度」を当該領域のうち高度が最も高い部分の高度として定義した。
[ステップ3]
想定流速設定部303が、上記ステップ2で得られた各極大領域Pm0,Pm2〔ステップ2を省略した場合は上記ステップ1で得られた各極大領域Pm0,Pm1,Pm2である。〕について、各極大領域の下流側で、かつ、当該極大領域の高度以下あるいは未満の領域の流速を0に設定する。図13(b)に示す例では、例えば図13(c)に示す網掛け領域が流速0に設定される領域である。ただし、この例では、「極大領域の高度」をステップ2と同じ定義とし、「極大領域の高度以下の領域」を流速0に設定するとした。つまり、領域(6,d)、・・・、(6,h)、(7,d)、・・・、(7,h)、(8,f)、(8,g)、(4,j)、・・・、(4,o)、(5,j)、・・・、(5,o)、(6,j)、・・・、(6,o)、(7,k)、・・・、(7,o)、(8,l)、・・・、(8,o)、(9,o)の各領域が流速0に設定される。また、想定流速設定部303は、その他の領域では、流速を主流速度と同じに設定する。設定された流速は、例えば想定風速値入力部103の入力となる。
なお、例えば領域(6,i)、(9,g)、(9,k)などは、「上記ステップ2で得られた各極大領域Pm0,Pm2について、各極大領域の下流側で、かつ、当該極大領域より高度の低い領域」に相当するようにも思われるが、この領域は地形表面下の地中であるから、そもそも流速の存在しない領域である。一方、領域(6,h)、(7,k)などは、領域中に一部であるが自律移動ロボットが行動できる領域を含み、また流速を想定できるから、この例では想定流速を0に設定している。
上記自律移動ロボットの動作計画法動作を実現するための装置及び上記自律移動ロボットの制御方法を実現するための装置における処理機能は、コンピュータによって実現することができる。この場合、これらの装置がそれぞれ有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、これらの装置における各処理機能が、図10又は図11に示すように、コンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、これらの装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
以上の各実施形態の他、本発明である自律移動ロボットの動作計画方法、自律移動ロボットの動作計画方法を利用した自律移動ロボットの制御方法、自律移動ロボットの動作計画装置、自律移動ロボットの動作計画プログラム及びその記録媒体は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
本発明の実施形態における劣駆動自律飛行船の動作計画装置の機能構成を例示した図。 本発明の実施形態における劣駆動自律飛行船の動作計画方法の処理を例示した図。 本発明の実施形態における劣駆動自律飛行船の水平面内の位置を表した図。 本発明の実施形態における状態遷移確率の計算の説明を補助するための図。 本発明の実施形態における状態sと遷移先の状態s’の傾斜角差を表した図。 本発明の実施形態における劣駆動自律飛行船の制御装置の機能構成を例示した図。 本発明の実施形態における劣駆動自律飛行船の制御方法を例示した図。 本発明の実施形態における劣駆動自律飛行船を例示した図。 本発明の実施形態における劣駆動自律飛行船に与えられる目標旋回速度を例示した図。 本発明の実施形態における劣駆動自律飛行船の動作計画装置を、コンピュータにより実行するときの機能構成を例示した図。 本発明による劣駆動自律飛行船の制御装置を、コンピュータにより実行するときの機能構成を例示した図。 海流の主流方向に沿った海底地形の断面での潮流速度分布をシミュレーションした結果を示す図。 (a)主流方向に沿った地形モデルの断面図。(b)図13(a)に示す断面を複数の領域に分割して、地形が極大変化する領域を検出することを説明する図。(c)各極大領域の下流側で、かつ、当該極大領域より高度の低い領域の流速を0に設定することを説明する図。 流速設定を行なう機能構成を例示した図。 流速設定を行なう処理フロー。

Claims (15)

  1. 自律移動ロボットの動作計画方法において、
    目標速度計算手段が、マルコフ状態遷移モデルの行動から、目標旋回速度及び機軸方向の速度(以下、サージ速度とする)を各状態ごとに計算する目標速度計算過程と、
    変位量計算手段が、上記目標旋回速度とサージ速度を用いて、各行動単位時間における変位量(位置の変位量、方位角の変位量、旋回速度の変位量)をそれぞれ計算する変位量計算過程と、
    状態遷移確率計算手段が、マルコフ状態遷移モデルのある状態における、その状態を構成する変数の数と同じ次元を持つ格子を上記変化量だけ平行移動させ、その他の格子との共通部分の体積に比例した確率を状態遷移確率として求める状態遷移確率計算過程と、
    動作計画手段が、上記状態遷移確率を用いてマルコフ決定過程における動作計画法に基づき、方策及び価値関数を計算する動作計画過程と、
    を有する自律移動ロボットの動作計画方法。
  2. 請求項1記載の自律移動ロボットの動作計画方法において、
    上記目標速度計算過程において、上記目標旋回速度、又はこれとサージ速度、の時間微分が、上記自律移動ロボットの最大加速度を超えないように設定されていることを特徴とする自律移動ロボットの動作計画方法。
  3. 請求項1又は2記載の自律移動ロボットの動作計画方法において、
    上記目標旋回速度又はこれとサージ速度が、機体座標における対流体目標速度であることを特徴とする自律移動ロボットの動作計画方法。
  4. 請求項1〜3の何れかに記載の自律移動ロボットの動作計画方法において、
    上記目標速度計算過程におけるサージ速度が一定値であることを特徴とする自律移動ロボットの動作計画方法。
  5. 請求項1〜4の何れかに記載の自律移動ロボットの動作計画方法において、
    傾斜角差計算手段が、地形モデルを参照して、上記マルコフ状態遷移モデルのある状態における地形の傾斜角と、その状態においてある行動を選択した後の遷移状態における地形の傾斜角との差の絶対値を計算する傾斜角差計算過程と、
    登坂角度計算手段が、上記ある状態から上記遷移状態に遷移するときの、上記自律移動ロボットの登坂角度変化最大量を計算する登坂角度計算過程と、
    報酬決定手段が、上記傾斜角の差の絶対値と上記自律移動ロボットの登坂角度変化最大量とを比較して、上記傾斜角の差の絶対値が大きければ、上記ある状態において上記行動を選択したときの報酬を低く設定する報酬決定過程と、
    を更に有し、
    上記動作計画過程は、更に、上記報酬決定過程により求められた報酬に基づいて、方策及び価値関数を計算する過程である、
    ことを特徴とする自律移動ロボットの動作計画方法。
  6. 請求項1〜5の何れかに記載の自律移動ロボットの動作計画方法において、
    上記変位量計算過程は、自律移動ロボットの行動環境として想定される流速(以下、環境想定下流速という。)の下において、上記変位量をそれぞれ計算する過程である、
    ことを特徴とする自律移動ロボットの動作計画方法。
  7. 請求項6に記載の自律移動ロボットの動作計画方法において、
    極大領域検出手段が、地形モデルを参照して、自律移動ロボットの行動環境として想定される流速の主流方向に沿った地形モデルの断面で、この断面を複数の領域に分割し、地形表面の高度が極大となる領域を検出する極大領域検出過程と、
    想定流速設定手段が、上記極大領域検出過程で得られた極大領域ごとに、当該極大領域の下流側で、かつ、当該極大領域の高度以下あるいは未満の領域における主流方向の流速を0とし、その他の領域では、主流方向の流速を主流速度と同じに設定する想定流速設定過程と、
    を更に有し、
    上記変位量計算過程は、上記想定流速設定過程で設定された流速を上記環境想定下流速として、上記変位量をそれぞれ計算する過程である、
    ことを特徴とする自律移動ロボットの動作計画方法。
  8. 請求項1〜7の何れかに記載の自律移動ロボットの動作計画方法において、
    上記自律移動ロボットは、劣駆動自律飛行船である
    ことを特徴とする自律移動ロボットの動作計画方法。
  9. 請求項1〜8の何れかに記載の自律移動ロボットの動作計画方法で決まった動作計画に基づき、自律移動ロボットを制御する自律移動ロボットの制御方法であって、
    流速差計測手段が、動作計画時に予測した流速と実測値との差(以下、流速差という。)を計測する流速差計測過程と、
    位置計測手段が、自律移動ロボットの位置、方位角、旋回速度をそれぞれ求める位置計測過程と、
    遷移先予測手段が、上記流速差、上記位置、上記方位角、上記旋回速度を用いて、遷移先の状態を各行動について予測する遷移先予測過程と、
    価値関数値計算手段が、各行動ごとの、遷移先の状態の価値関数の値を計算する価値関数値計算過程と、
    動作選択手段が、上記各行動ごとに求まった価値関数の値を比較して、これらの価値関数の値を最大にする行動を決定する動作選択過程と、
    を有することを特徴とする自律移動ロボットの制御方法。
  10. 請求項9に記載の自律移動ロボットの制御方法において、
    上記自律移動ロボットは、劣駆動自律飛行船である
    ことを特徴とする自律移動ロボットの制御方法。
  11. 自律移動ロボットの動作計画装置において、
    マルコフ状態遷移モデルの行動から、目標旋回速度及び機軸方向の速度(以下、サージ速度とする)を各状態ごとに計算する目標速度計算手段と、
    上記目標旋回速度とサージ速度を用いて、各行動単位時間における変位量(位置の変位量、方位角の変位量、旋回速度の変位量)をそれぞれ計算する変位量計算手段と、
    マルコフ状態遷移モデルのある状態における、その状態を構成する変数の数と同じ次元を持つ格子を上記変化量だけ平行移動させ、その他の格子との共通部分の体積に比例した確率を状態遷移確率として求める状態遷移確率計算手段と、
    上記状態遷移確率を用いてマルコフ決定過程における動作計画法に基づき、方策及び価値関数を計算する動作計画手段と、
    を備えることを特徴とする自律移動ロボットの動作計画装置。
  12. 請求項11に記載の自律移動ロボットの動作計画装置において、
    上記自律移動ロボットは、劣駆動自律飛行船である
    ことを特徴とする自律移動ロボットの動作計画装置。
  13. 請求項1〜8の何れかに記載の自律移動ロボットの動作計画方法の各過程をコンピュータに実行させるための自律移動ロボットの動作計画プログラム。
  14. 請求項9又は10に記載の自律移動ロボットの制御方法の各過程をコンピュータに実行させるための自律移動ロボットの制御プログラム。
  15. 請求項13に記載の自律移動ロボットの動作計画プログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2007063834A 2006-04-26 2007-03-13 自律移動ロボットの動作計画方法、自律移動ロボットの動作計画方法を利用した自律移動ロボットの制御方法、自律移動ロボットの動作計画装置、自律移動ロボットの動作計画プログラム及びその記録媒体、自律移動ロボットの制御プログラム Expired - Fee Related JP4406436B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007063834A JP4406436B2 (ja) 2006-04-26 2007-03-13 自律移動ロボットの動作計画方法、自律移動ロボットの動作計画方法を利用した自律移動ロボットの制御方法、自律移動ロボットの動作計画装置、自律移動ロボットの動作計画プログラム及びその記録媒体、自律移動ロボットの制御プログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006122183 2006-04-26
JP2007063834A JP4406436B2 (ja) 2006-04-26 2007-03-13 自律移動ロボットの動作計画方法、自律移動ロボットの動作計画方法を利用した自律移動ロボットの制御方法、自律移動ロボットの動作計画装置、自律移動ロボットの動作計画プログラム及びその記録媒体、自律移動ロボットの制御プログラム

Publications (2)

Publication Number Publication Date
JP2007317165A true JP2007317165A (ja) 2007-12-06
JP4406436B2 JP4406436B2 (ja) 2010-01-27

Family

ID=38850937

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007063834A Expired - Fee Related JP4406436B2 (ja) 2006-04-26 2007-03-13 自律移動ロボットの動作計画方法、自律移動ロボットの動作計画方法を利用した自律移動ロボットの制御方法、自律移動ロボットの動作計画装置、自律移動ロボットの動作計画プログラム及びその記録媒体、自律移動ロボットの制御プログラム

Country Status (1)

Country Link
JP (1) JP4406436B2 (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009295103A (ja) * 2008-06-09 2009-12-17 Nippon Telegr & Teleph Corp <Ntt> 自律移動ロボットの動作計画装置、方法、プログラム及び記録媒体並びに自律移動ロボットの動作制御装置及び方法
JP2010165050A (ja) * 2009-01-13 2010-07-29 Nippon Telegr & Teleph Corp <Ntt> 自律移動ロボットの動作計画装置、方法、プログラム及び記録媒体並びに自律移動ロボットの動作制御装置及び方法
JP2011128115A (ja) * 2009-12-21 2011-06-30 Nippon Telegr & Teleph Corp <Ntt> 方位角推定装置、方法及びプログラム
JP2012041004A (ja) * 2010-08-23 2012-03-01 Nippon Telegr & Teleph Corp <Ntt> 自律移動ロボットの動作計画方法、自律移動ロボットの動作計画方法を利用した自律移動ロボットの制御方法、自律移動ロボットの動作計画装置、自律移動ロボットの動作制御装置、自律移動ロボットの動作計画プログラム、自律移動ロボットの制御プログラム
US8527434B2 (en) 2009-06-11 2013-09-03 Sony Corporation Information processing device, information processing method, and program
JP2014079819A (ja) * 2012-10-12 2014-05-08 Nippon Telegr & Teleph Corp <Ntt> ロボット協調搬送計画装置、方法、プログラム
CN105173051A (zh) * 2015-09-15 2015-12-23 北京天航华创科技股份有限公司 一种平流层飞艇的制导控制一体化及控制分配方法
CN106125757A (zh) * 2016-07-12 2016-11-16 中国人民解放军国防科学技术大学 一种欠驱动飞艇航迹跟踪控制方法
WO2018107733A1 (zh) * 2016-12-15 2018-06-21 深圳光启空间技术有限公司 一种用于飞艇的控制方法和装置
CN109506651A (zh) * 2017-09-15 2019-03-22 中国科学院光电研究院 平流层超压气球三维航迹规划方法
US10474149B2 (en) * 2017-08-18 2019-11-12 GM Global Technology Operations LLC Autonomous behavior control using policy triggering and execution
CN110893618A (zh) * 2018-09-13 2020-03-20 皮尔茨公司 用于机械手的无碰撞运动规划的方法和装置
JP6815571B1 (ja) * 2020-02-27 2021-01-20 三菱電機株式会社 ロボット制御装置、ロボット制御方法及び学習モデル生成装置
CN115167404A (zh) * 2022-06-24 2022-10-11 大连海事大学 一种基于迁移强化学习的海上自主水面船舶避碰决策方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103832572A (zh) * 2013-07-15 2014-06-04 中国特种飞行器研究所 一种新型风速自适应压力调节控制方法

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009295103A (ja) * 2008-06-09 2009-12-17 Nippon Telegr & Teleph Corp <Ntt> 自律移動ロボットの動作計画装置、方法、プログラム及び記録媒体並びに自律移動ロボットの動作制御装置及び方法
JP2010165050A (ja) * 2009-01-13 2010-07-29 Nippon Telegr & Teleph Corp <Ntt> 自律移動ロボットの動作計画装置、方法、プログラム及び記録媒体並びに自律移動ロボットの動作制御装置及び方法
US8527434B2 (en) 2009-06-11 2013-09-03 Sony Corporation Information processing device, information processing method, and program
JP2011128115A (ja) * 2009-12-21 2011-06-30 Nippon Telegr & Teleph Corp <Ntt> 方位角推定装置、方法及びプログラム
JP2012041004A (ja) * 2010-08-23 2012-03-01 Nippon Telegr & Teleph Corp <Ntt> 自律移動ロボットの動作計画方法、自律移動ロボットの動作計画方法を利用した自律移動ロボットの制御方法、自律移動ロボットの動作計画装置、自律移動ロボットの動作制御装置、自律移動ロボットの動作計画プログラム、自律移動ロボットの制御プログラム
JP2014079819A (ja) * 2012-10-12 2014-05-08 Nippon Telegr & Teleph Corp <Ntt> ロボット協調搬送計画装置、方法、プログラム
CN105173051A (zh) * 2015-09-15 2015-12-23 北京天航华创科技股份有限公司 一种平流层飞艇的制导控制一体化及控制分配方法
CN106125757A (zh) * 2016-07-12 2016-11-16 中国人民解放军国防科学技术大学 一种欠驱动飞艇航迹跟踪控制方法
WO2018107733A1 (zh) * 2016-12-15 2018-06-21 深圳光启空间技术有限公司 一种用于飞艇的控制方法和装置
US10474149B2 (en) * 2017-08-18 2019-11-12 GM Global Technology Operations LLC Autonomous behavior control using policy triggering and execution
CN109506651A (zh) * 2017-09-15 2019-03-22 中国科学院光电研究院 平流层超压气球三维航迹规划方法
CN110893618A (zh) * 2018-09-13 2020-03-20 皮尔茨公司 用于机械手的无碰撞运动规划的方法和装置
JP6815571B1 (ja) * 2020-02-27 2021-01-20 三菱電機株式会社 ロボット制御装置、ロボット制御方法及び学習モデル生成装置
WO2021171500A1 (ja) * 2020-02-27 2021-09-02 三菱電機株式会社 ロボット制御装置、ロボット制御方法及び学習モデル生成装置
DE112020006315B4 (de) 2020-02-27 2023-12-14 Mitsubishi Electric Corporation Robotersteuervorrichtung, robotersteuerverfahren und vorrichtung zur erzeugung von lernmodellen
CN115167404A (zh) * 2022-06-24 2022-10-11 大连海事大学 一种基于迁移强化学习的海上自主水面船舶避碰决策方法
CN115167404B (zh) * 2022-06-24 2024-04-19 大连海事大学 一种基于迁移强化学习的海上自主水面船舶避碰决策方法

Also Published As

Publication number Publication date
JP4406436B2 (ja) 2010-01-27

Similar Documents

Publication Publication Date Title
JP4406436B2 (ja) 自律移動ロボットの動作計画方法、自律移動ロボットの動作計画方法を利用した自律移動ロボットの制御方法、自律移動ロボットの動作計画装置、自律移動ロボットの動作計画プログラム及びその記録媒体、自律移動ロボットの制御プログラム
Woo et al. Dynamic model identification of unmanned surface vehicles using deep learning network
Wu Coordinated path planning for an unmanned aerial-aquatic vehicle (UAAV) and an autonomous underwater vehicle (AUV) in an underwater target strike mission
Ataei et al. Three-dimensional optimal path planning for waypoint guidance of an autonomous underwater vehicle
JP4495703B2 (ja) 水中ロボットの動作制御方法、装置及びプログラム
Moreira et al. Path following control system for a tanker ship model
Wang et al. Roboat II: A novel autonomous surface vessel for urban environments
Zeng et al. Shell space decomposition based path planning for AUVs operating in a variable environment
CN109655066A (zh) 一种基于Q(λ)算法的无人机路径规划方法
Zeng et al. Efficient path re-planning for AUVs operating in spatiotemporal currents
Hadi et al. Deep reinforcement learning for adaptive path planning and control of an autonomous underwater vehicle
US20200174482A1 (en) Online bidirectional trajectory planning method in state-time space, recording medium storing program for executing same, and computer program stored in recording medium for executing same
Dai et al. Sliding Mode Impedance Control for contact intervention of an I-AUV: Simulation and experimental validation
Liu et al. Adaptive barrier Lyapunov function-based obstacle avoidance control for an autonomous underwater vehicle with multiple static and moving obstacles
Shen et al. Model predictive control for an AUV with dynamic path planning
Hinostroza et al. Motion planning, guidance, and control system for autonomous surface vessel
Deraj et al. Deep reinforcement learning based controller for ship navigation
Sans-Muntadas et al. Learning an AUV docking maneuver with a convolutional neural network
Haugaløkken et al. Monocular vision-based gripping of objects
CN114237256B (zh) 一种适用于欠驱动机器人的三维路径规划与导航方法
Liu et al. Deep reinforcement learning for vectored thruster autonomous underwater vehicle control
Li et al. Characteristic evaluation via multi-sensor information fusion strategy for spherical underwater robots
Lin et al. Research on UUV obstacle avoiding method based on recurrent neural networks
Amendola et al. Navigation in restricted channels under environmental conditions: Fast-time simulation by asynchronous deep reinforcement learning
Raj et al. Dynamically feasible trajectory planning for anguilliform-inspired robots in the presence of steady ambient flow

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090105

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090826

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090901

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090930

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091027

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091106

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121113

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4406436

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121113

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131113

Year of fee payment: 4

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees