JP2007317165A

JP2007317165A - 自律移動ロボットの動作計画方法、自律移動ロボットの動作計画方法を利用した自律移動ロボットの制御方法、自律移動ロボットの動作計画装置、自律移動ロボットの動作計画プログラム及びその記録媒体、自律移動ロボットの制御プログラム

Info

Publication number: JP2007317165A
Application number: JP2007063834A
Authority: JP
Inventors: Hiroshi Kawano; 洋川野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2006-04-26
Filing date: 2007-03-13
Publication date: 2007-12-06
Anticipated expiration: 2027-03-13
Also published as: JP4406436B2

Abstract

【課題】自律移動ロボットの加速度制限値と３次元障害物への対応とを考慮した自律移動ロボットの動作計画技術を提供する。
【解決手段】目標速度計算部１０２が、自律移動ロボットの加速度制限値を考慮した式により、目標速度を計算する。変位量計算部１０４が、その目標速度と、想定される風速（１０３）から、位置と方位角と旋回速度のそれぞれの変位量を計算する。状態遷移確率計算部１０５が、その変位量から状態遷移確率を計算する。一方、傾斜角差計算部１０７が、地形モデル（１０６）を参照して、遷移前の状態とある行動を取った際の遷移先の状態の傾斜角差を計算する。登坂角度計算部１０８が、自律移動ロボットの登坂角度変化最大量を計算する。報酬決定部１０９が、上記傾斜角と上記登坂角度変化最大量を比較し、上記傾斜角の方が大きければ、低い報酬を与える。
【選択図】図１

Description

本発明は、自律移動ロボットの動作計画方法及びこれを用いた自律移動ロボットの制御方法に関する。詳細には、未知流体外乱中を移動する自律移動ロボットに三次元障害物を回避させながら目的地点まで移動させるための動作計画を行うための技術、そしてその動作計画に基づいて自律移動ロボットを制御させるための技術等に関する。

近年、屋外で活動可能な自律行動主体である自律移動ロボットの研究が活発に行われており、それらの応用先が広がりつつある。
そのような、自律移動ロボットのひとつである自律飛行船は、浮力を利用して空中に静止することが可能であり、機体内に搭載したコンピュータによって自身の運動を制御することが可能である。このような特性から、自律飛行船の地雷探査などへの応用が期待されている。
しかし、自律飛行船は、その機体比重を空気と同じにしなければならないために、機体重量を軽くする必要があり、搭載可能なアクチュエータの数、重量に大きな制約がある。そのため、自律飛行船は一般に劣駆動ロボットと呼ばれる。劣駆動ロボットとは、搭載されたアクチュエータが直接制御可能な運動自由度数が、ロボットの運動自由度よりも少ないものを意味する。

このような、劣駆動ロボットを障害物の存在する環境で制御するためには、その運動学的性質を考慮した動作計画を行う必要がある。自律飛行船のように真横に動くことが出来ない移動ロボットのモデルとして、４輪自動車モデルがある。４輪自動車モデルの運動学的拘束条件は、以下の式（１）で表現できる。

Ｘ，Ｙはロボットの水平面内位置、ψは方位角、ｖ_ｘｂは前進速度、σはハンドル角度、Ｌはホイールベースの長さである。なお、式（１）において、記号’は時間微分を表す。つまり、Ｘ’はＸ方向の速度、Ｙ’はＹ方向の速度、ψ’は角速度を表す。以下、角速度を旋回速度と云う。この条件式を出発点として解析を行い、４輪自動車型ロボットのような劣駆動移動ロボットの障害物回避アルゴリズムを作成するのが従来の方法である。従来の手法では、まず、（１）式を使って、ロボットがたどるべき目標軌道を算出し、その軌道をロボットに追従させるのが一般的である。

なお、優先日において未公開の先行技術文献情報として非特許文献４、５、６を示す。
T. Yamasaki and N. Goto: "identification of Blimp Dynamics by Flight Tests", Transactions of JSASS, Vol.43, pp.195-205, 2003. 中村仁彦、「非ホロノミックロボットシステム第２回幾何学的な非ホロノミック拘束の下での運動計画」、日本ロボット学会誌 Vol.11 No.5,pp.655〜662,1993 川野洋、「未知不均一潮流中での航行を考慮した劣駆動水中ロボットの動作計画と制御」,JSAI2005,人工知能学会（第１９回）,1D1-04,2005年 H. Kawano, "Method for applying Reinforcement Learning to Motion Planning and Control of Under-actuated Underwater Vehicle in Unknown Non-uniform Sea flow", Proceedings of 2005 IEEE/RSJ international Conference on Intelligent Robots and Systems, pp.146-152, August 2005. H. Kawano, "Tree Dimensional Obstacle Avoidance of Autonomous Blimp Flying in Unknown Disturbance", Proceedings of 2006 IEEE/RSJ international Conference on Intelligent Robots and Systems, pp.123-130, October 2005. 川野洋、「未知風外乱中を航行する自律飛行船の三次元障害物回避」、ロボティクス・メカトロニクス講演会２００６（ROBOMEC 2006 in WASEDA）講演予稿集、2P2-C07、２００６年５月

しかし、（１）式においては、行動主体の位置座標を用いて目標軌道を規定しており、任意環境において未知の強い風外乱などの流体外乱があったときに、自律飛行船などの自律移動ロボットのアクチュエータ力では風などの流体に対抗しきれず、自律移動ロボットが目標軌道を大きく外れて移動してしまい、動作計画が破綻してしまう可能性があった。

本発明によれば、目標速度計算手段が、マルコフ状態遷移モデルの行動から、目標旋回速度及び機軸方向の速度（以下、サージ速度とする）を各状態ごとに計算する。変位量計算手段が、上記目標旋回速度とサージ速度を用いて、各行動単位時間における変位量（位置の変位量、方位角の変位量、旋回速度の変位量）をそれぞれ計算する。状態遷移確率計算手段が、マルコフ状態遷移モデルのある状態における、その状態を構成する変数の数と同じ次元を持つ格子を上記変化量だけ平行移動させ、その他の格子との共通部分の体積に比例した確率を状態遷移確率として求める。動作計画手段が、上記状態遷移確率を用いてマルコフ決定過程における動作計画法に基づき、方策及び価値関数を計算する。

また、好ましくは、目標速度の変化が自律飛行船などの自律移動ロボットの最大加速度を超えないよう設定する。

風外乱などの流体外乱が存在する中でも自律飛行船などの自律移動ロボットが追従可能な動作計画を行うことができる。

これから説明する本発明の実施形態では、自律行動主体（自律移動ロボット）の具体例として自律飛行船を例に採り、まず、劣駆動自律飛行船の動作計画方法について説明し、その後、この動作計画方法を用いた劣駆動自律飛行船の制御方法について説明する。
《劣駆動自律飛行船の動作計画方法》
理論的背景
劣駆動自律飛行船の動作計画方法について説明する前に、前提知識となるマルコフ状態遷移モデル及びマルコフ状態遷移モデルを用いた動作計画法について説明する。
環境を以下のようにモデル化したものが、マルコフ状態遷移モデルである（強化学習〔Reinforcement Learning〕におけるマルコフ決定過程〔Markov decision Process〕）。環境のとりうる離散的な状態の集合をＳ＝｛ｓ_１，ｓ_２，…，ｓ_ｎ｝、行動主体が取り得る行動の集合をＡ＝｛ａ_１，ａ_２，…ａ_ｌ｝と表す。環境中のある状態ｓ∈Ｓにおいて、行動主体がある行動ａ∈Ａを実行すると、環境は確率的に状態ｓ’∈Ｓへ遷移する。その遷移確率を

Ｐ^ａ _ｓｓ’＝Ｐｒ｛ｓ_ｔ＋１＝ｓ’｜ｓ_ｔ＝ｓ，ａ_ｔ＝ａ｝

により表す。このとき環境から行動主体へ報酬ｒが確率的に与えられるが、その期待値を

Ｒ^ａ _ｓｓ’＝Ｅ｛ｒ_ｔ｜ｓ_ｔ＝ｓ，ａ_ｔ＝ａ，ｓ_ｔ＋１＝ｓ’｝

とする。行動主体の各時刻における意志決定は方策関数

π（ｓ，ａ）＝Ｐｒ｛ａ_ｔ＝ａ｜ｓ_ｔ＝ｓ｝

によって表される。π（ｓ，ａ）は、全状態ｓ，全行動ａにおいて定義される。方策関数π（ｓ，ａ）は、単に方策πとも呼ばれる。
なお、状態ｓ’に附されている記号’は、状態ｓとの識別を図るための記号である。既述のとおり、時間微分を表す記号として記号’を用いているが、記号’が附された対象がマルコフモデルの状態であるか否かで記号’の意味を容易に識別できるので、以降の説明でもこの記法に従うとする。

ある時間ステップｔで実行した行動が、その後の報酬獲得にどの程度貢献したのかを評価するため、その後得られる報酬の時系列を考える。報酬の時系列評価は価値と呼ばれる。行動主体の目標は、価値を最大化すること、あるいはそのような方策を求めることである。価値は、時間の経過とともに報酬を割引率γ（０≦γ＜１）で割引いて合計される。すなわち、ある時刻ｔにおける状態ｓにおいて、ある行動ａを実行したときの価値関数Ｖ^π（ｓ）は、以下のように定義される。Ｅ_πは期待値を求める関数である。

ここでは価値関数として方策πの下での状態ｓの価値である状態価値関数Ｖ^π（ｓ）を採用したが、方策πの下で状態ｓにおいて行動ａを採ることの価値である行動価値関数Ｑ^π（ｓ，ａ）を採用することもできる。

行動主体の目標は、最適な方策を求めること、つまり任意の状態ｓについて価値関数（上記の例では状態価値関数Ｖ^π（ｓ）である。）が他の方策を採った場合よりも劣るものではない方策を求めることである。この方策の探求は、Ｂｅｌｌｍａｎ方程式で表され、すべての状態ｓ、行動ａ、遷移先の状態ｓ’の組み合わせについてのＰ^ａ _ｓｓ’とＲ^ａ _ｓｓ’の値が定まっていれば、ダイナミックプログラミング（Dynamic Programming）法により、最適な価値関数Ｖ^π（ｓ）及び方策πを計算することができる（例えば、三上貞芳、皆川雅章共訳、R.S.Sutton、A.G.Barto 原著「強化学習」森北出版、1998、pp.94-118参照）。ダイナミックプログラミング法の処理は、周知技術であるため説明は省略する。
この実施形態では、行動主体は、図８に例示される劣駆動自律飛行船１（以下、自律飛行船とする）である。自律飛行船１は、舵２、主推進器３、上下方向推進器４、ゴンドラ５、風速差計測部６、位置計測部７を有する。この自律飛行船１は、真横方向に直接移動することができない。すなわち、搭載アクチュエータである舵２、主推進器３、上下方向推進器４が制御可能な運動自由度よりも、自律飛行船の運動自由度が高いので、この自律飛行船１は劣駆動ロボットである。

自律飛行船１が航行する空間はマルコフ遷移状態モデルにより離散的にモデル化されており、その状態ｓは、自律飛行船１の水平面内位置のＸ座標，Ｙ座標，方位角ψ，旋回速度ψ’の４つのパラメータ・軸から構成される。各軸は、自律飛行船に搭載可能なセンサーの精度を考慮して離散化されている。
各状態ｓにおいて、自律飛行船１は、自律飛行船の速度を行動として選択することができる。例えば、自律飛行船は、各状態ｓにおいて、機軸方向の速度ｖ_ｘｗτ（ｔ）と旋回速度ψ^’ _τ（ｔ）の組み合わせを、行動ａとして選択することができる。換言すれば、行動ａ∈Ａは、行動内容に対応付けられたラベルとして定義されるものである。例えば行動内容が機軸方向速度の維持ないし変更であれば、その機軸方向速度の値に応じて行動ａ∈Ａが対応付けられており、行動ａはスカラー値（一次元ベクトル）を表す。また、例えば行動内容が機軸方向速度の維持ないし変更と旋回速度の維持ないし変更との組み合わせであれば、その機軸方向速度の値と旋回速度の値の組み合わせに応じて行動ａ∈Ａが対応付けられており、行動ａは二次元ベクトルを表す。

遷移先の状態ｓ’への遷移確率Ｐ^ａ _ｓｓ’は、行動ａの選択により定まった自律飛行船の速度、想定される風速等を考慮して決定される。遷移確率Ｐ^ａ _ｓｓ’の求め方の詳細については後述する。
遷移先の状態ｓ’が到達地点を含む場合には、例えば、その時の報酬Ｒ^ａ _ｓｓ’を１とする。遷移先の状態ｓ’が後述するように障害物により進入不可能である場合には、その時の報酬Ｒ^ａ _ｓｓ’を−１とする。その他の場合には、報酬Ｒ^ａ _ｓｓ’を０に設定する。この｛１，０，−１｝の何れかの報酬を与えるという決定方法は一例に過ぎず、到達点を含む場合の報酬＞その他の場合の報酬＞障害物である場合の報酬という関係が成り立っている限り、報酬の値はどのような値でも良い。

この実施形態では、後述のとおり実際の試行錯誤行動による学習の替わりに、オフラインの状況下で、状態ｓ、行動ａ、遷移先の状態ｓ’のすべての組み合わせについてのＰ^ａ _ｓｓ’とＲ^ａ _ｓｓ’の値を計算し、ダイナミックプログラミング法により、最適な、価値関数Ｖ^π（ｓ）及び方策πを計算する。
オンラインの状況下で、実際に吹いている風が想定される風と同じ場合には、自律飛行船は、方策πに従って行動すれば、到達地点に到達することができる。
以上が、マルコフ状態遷移モデル及びマルコフ状態遷移モデルを用いた動作計画法についての概要である。

装置構成例
以下、図１と図２を参照して、自律飛行船の動作計画方法を実現するための装置の機能構成例及びその処理例について説明する。図１は、自律飛行船の動作計画装置の機能構成例を示す図である。図２は、自律飛行船の動作計画方法の処理例を示す図である。
自律飛行船の動作計画装置は、最大加速度設定部１０１、目標速度計算部１０２、想定風速値入力部１０３、変位量計算部１０４、状態遷移確率計算部１０５、地形モデル保存部１０６、傾斜角差計算部１０７、登坂角度計算部１０８、報酬決定部１０９、動作計画部１１０、価値関数データベース１１１から構成される。水平面内における定高度航行をするための動作計画を行う場合には、後述するように、傾斜角差計算部１０７、登坂角度計算部１０８を省略することができる。
［全体の流れ］
ステップ１〜ステップ３において、状態遷移確率Ｐ^ａ _ｓｓ’を求める。ステップ４〜ステップ６において、報酬Ｒ^ａ _ｓｓ’を求める。ステップ７において、上記状態遷移確率Ｐ^ａ _ｓｓ’と上記報酬Ｒ^ａ _ｓｓ’に基づいて、方策πと価値関数Ｖ^π（ｓ）を計算する。

以下、各ステップについて説明する。
［ステップ１］
目標速度計算部１０２が、マルコフ状態遷移モデルの各状態ｓにおいてある行動ａを取ったときの目標速度を決定する。この実施例では、自律飛行船目標速度は、対空気機体座標に基づいて、かつ、飛行船の最大加速度を考慮して設定される。また、目標速度は、例えば、劣駆動自律飛行船の旋回速度ψ^’ _τ（ｔ）と飛行船の機軸方向の速度ｖ_ｘｗτ（ｔ）（以下、サージ速度とする）である。

例えば、目標速度計算部１０２は、最大加速度設定部１０１において予め設定された自律飛行船１の旋回加速度αを読み出し、各行動ａについて、下記の式（２）に従って自律飛行船１の旋回速度ψ^’ _τ（ｔ）とサージ速度ｖ_ｘｗτ（ｔ）を自律飛行船１の目標速度として定め、変位量計算部１０４に出力する。

ここで、ψ^’ _τ（ｔ）は自律飛行船１の目標旋回速度、ｂはマルコフ状態遷移モデルの各状態ｓにおける行動ａに対応する値、αは自律飛行船１の旋回加速度、ｔは各行動ａの開始時からの経過時間、ψ^’ _τ０は各状態ｓの開始時における飛行船の旋回速度、ｖ_ｘｗτ（ｔ）は自律飛行船１の目標対空気機体速度（以下、目標サージ速度とする）、ｖ_ｘ０は各状態ｓの開始時における飛行船のサージ速度である。式（２）では処理の簡略化の場合として、ｖ_ｘ０を正の一定値として、ｖ_ｘｗτ（ｔ）が不変とした場合を示している。ここで、αは、自律飛行船の最大加速度を超えないように設定される。また、この実施例では、計算量を少なくするためにｖ_ｘｗτ（ｔ）が不変として扱ったが、より精度の高い動作計画を行うためにｖ_ｘｗτ（ｔ）が行動ａを反映した値をとることができるようにしても良い。

この場合、各行動ａについて、下記の式に従って自律飛行船１の旋回速度ψ^’ _τ（ｔ）とサージ速度ｖ_ｘｗτ（ｔ）を自律飛行船１の目標速度として定めるようにすればよい。（ｂ_１，ｂ_２）はマルコフ状態遷移モデルの各状態ｓにおける行動ａに対応する二次元ベクトル、βは予め定めた機軸方向の加速度であり、自律飛行船の最大加速度を超えないように設定される。式（２）はｂ_２＝０の場合に相当する。

この実施例では、説明の簡略化のために、行動ａに対するｂの値が−１，０，１の何れかの値を取るとし、行動ａに対するｂの値が１の場合には、上記式（２）に従い、自律飛行船の旋回速度ψ’は一定加速度αで加速され、行動ａに対するｂの値が０の場合には、自律飛行船の旋回速度ψ’は維持され、行動ａに対するｂの値が−１の場合には、自律飛行船の旋回速度ψ’は一定加速度αで減速されるものとする。
例えば、時刻０の時の状態において行動として１を選択し、時刻Ｔの状態において行動として０を選択し、時刻２Ｔの時の状態において行動１、時刻３Ｔの時の状態において行動１、時刻４Ｔの時の状態において行動０、時刻５Ｔの時の状態において行動−１、時刻６Ｔの時の状態において行動−１、時刻７Ｔの時の状態において１を選択した場合には、自律飛行船の旋回速度ψ’は、図９に示すように変化する。

なお、この行動ａに対するｂの値の例は一例であることに注意する。すなわち、ａに対するｂの値は、−１０，０，１０の値を取っても良いし、−１，―０．５，０，０．５，１の５つの値等を取っても良い。さらには、各行動時間中に自律飛行船の速度・加速度が変わるような行動を選択することができるようにしても良い。
このように、目標軌道や対地世界座標に基づく目標速度ではなく、対空気機体座標に基づく目標速度の形で、目標となる行動を自律飛行船１に与えることにより、未知風の外乱等により自律飛行船の水平面内の位置がずれた場合であっても、動作計画が破綻しないというメリットがある。すなわち、もし、目標軌道や対地世界座標で目標速度を設定した場合、任意環境において未知の強い風外乱があったときに、自律飛行船のアクチュエータ力では風に対抗しきれず、目標軌道又は対地世界座標で表現された目標速度を大きく外れて航行してしまう可能性があった。本発明では、この実施形態から明らかなように、上記のように、対空気機体座標で目標速度を記述し、自律飛行船１がそれを追従することで、風による自律飛行船１の変位への影響を動作計画の段階で考慮しやすくすることができる。つまり、風外乱による影響が方位角変位には現れにくく、自律飛行船１の位置変化の誤差にのみ現れるようにすることができるのである。

また、自律飛行船は、その機体比重を空気と同じにしなければならないために、その運動のイナーシャ（inertia）が高く、運動が風による影響を受けやすいという性質があり、舵の切り角に対する旋回速度のステップ応答は遅く、舵を切って即、旋回速度が希望の値になることが望めないことがある。しかし、上記の式（２）により、自律飛行船１の加速度制限値を考慮した目標速度の設定をすることができるため、追従可能な動作計画を行うことができるのである。

［ステップ２］
変位量計算部１０４が、状態ｓにある自律飛行船１が、想定される風速ｆ_ｘ、ｆ_ｙの下において（想定風速ｆ_ｘ、ｆ_ｙは想定風速値入力部１０３から入力される。）、各行動ａに従って航行した場合、自律飛行船の世界座標系における水平面内位置のＸ座標，Ｙ座標，方位角ψ，旋回速度ψ’がそれぞれどれくらい変位するのかを計算する。これらの変位を求めることにより、後述するように、ステップ３において、状態ｓにいる自律飛行船が、行動ａを選択した場合に、次に、どの状態ｓ’にどのくらいの確率で遷移するのかを計算することができるのである。
自律飛行船１の水平面内位置のＸ座標の変位量をＤ_Ｘ（ψ_０，ａ）、Ｙ座標の変位量をＤ_Ｙ（ψ_０，ａ）、方位角ψの変位量をＤ_ψ（ψ_０，ａ）、旋回速度ψ’の変位量をＤ_ψ’（ψ_０，ａ）とすると、それぞれの変位量は、次式にように与えられる（図３を参照のこと）。この式が示すように、気流の影響は線形重ね合わせによって評価される。なお、下記式を用いずに、Ｄ_Ｘ（ψ_０，ａ）、Ｄ_Ｙ（ψ_０，ａ）、Ｄ_ψ（ψ_０，ａ）、Ｄ_ψ’（ψ_０，ａ）の値を例えば想定気体流速の下で風洞実験等を行うことで直接計測してもよい。

ここで、ψ_０は各状態ｓの開始時の方位角、Ｔは状態ｓから次の状態ｓ’に遷移するまでの時間（以下、行動単位時間とする）、ｆ_ｘは想定される風の世界座標系におけるＸ軸方向の成分、ｆ_ｙは想定される風の世界座標系におけるＹ軸方向の成分である。なお、方位角ψの変位量Ｄ_ψ（ψ_０，ａ）と、旋回速度ψ’の変位量Ｄ_ψ’（ψ_０，ａ）については、旋回速度ψ’の制御を行うことになるため、風の影響による補正は行わない。行動単位時間は例えば１５秒とすることができる。
変位量計算部１０４は、目標速度計算部が出力した各時刻ｔにおける自律飛行船の旋回速度ψ’_τとサージ速度ｖ_ｘｗτ、想定風速値入力部で入力されたｆ_ｘとｆ_ｙを用いて、自律飛行船の水平面内位置のＸ座標の変位量Ｄ_Ｘ（ψ_０，ａ）、Ｙ座標の変位量Ｄ_Ｙ（ψ_０，ａ）、方位角ψの変位量Ｄ_ψ（ψ_０，ａ）、旋回速度ψ’の変位量Ｄ_ψ’（ψ_０，ａ）を上記式に基づいてそれぞれ計算して、その計算結果を状態遷移確率計算部１０５に出力する。

［ステップ３］
状態遷移確率計算部１０５は、自律飛行船１の水平面内位置のＸ座標の変位量Ｄ_Ｘ（ψ_０，ａ）、Ｙ座標の変位量Ｄ_Ｙ（ψ_０，ａ）、方位角ψの変位量Ｄ_ψ（ψ_０，ａ）、旋回速度ψ’の変位量Ｄ_ψ’（ψ_０，ａ）に基づいて、状態遷移確率Ｐ^ａ _ｓｓ’を計算する。すなわち、これらの変位量を用いて、すべての状態ｓと状態ｓ’と行動ａの組み合わせについて、状態ｓにいる自律飛行船が行動ａを選択した場合に、状態ｓ’へ遷移する確率を計算する。

まず、状態ｓが、自律飛行船１の水平面内位置のＸ座標，Ｙ座標，方位角ψ，旋回速度ψ’の４つの軸から構成される４次元の格子で示されるとし、その格子をＲ（ｓ）と定義する（図４を参照のこと）。そして、その格子Ｒ（ｓ）を、上記各変位量から構成される変位量ベクトル（Ｄ_Ｘ（ψ_０，ａ），Ｄ_Ｙ（ψ_０，ａ），Ｄ_ψ（ψ_０，ａ），Ｄ_ψ’（ψ_０，ａ））で、平行移動したものをＲ_ｔ（ｓ）と定義する。
ここで、自律飛行船１が状態ｓにあるときは、自律飛行船１は、その状態ｓを表わす４次元の格子Ｒ（ｓ）の各点の何れかに、等しい確率で存在するものと仮定する。この仮定の下では、状態遷移確率Ｐ^ａ _ｓｓ’は、Ｒ_ｔ（ｓ）と各Ｒ（ｓ’）の重なった部分の体積に比例してそれぞれ求めることができる。ここで、Ｒ（ｓ’）は、Ｒ_ｔ（ｓ）と重なった格子である。すなわち、Ｒ（ｓ’）は、状態ｓにおいてある行動ａを取ったときの遷移先の候補の状態ｓ’に対応した４次元の格子である。Ｒ_ｔ（ｓ）は最大で８つのＲ（ｓ’）と重なる可能性がある。

状態遷移確率Ｐ^ａ _ｓｓ’は、Ｒ_ｔ（ｓ）とあるＲ（ｓ’）の重なった部分の体積をＶ_０（ｓ，ｓ’，ａ）、Ｒ_ｔ（ｓ）とすべてのＲ（ｓ’）との重なった部分の体積をΣ_ｓ’Ｖ_０（ｓ，ｓ’，ａ）とすると、次式により求めることができる。

このように状態遷移確率Ｐ^ａ _ｓｓ’を計算することにより、最大８つの遷移先の状態ｓ’についてのみ０でない状態遷移確率Ｐ^ａ _ｓｓ’を与え、他のすべての状態ｓ’については０の状態遷移確率Ｐ^ａ _ｓｓ’を与えることになるため、後述するダイナミックプログラミング（ＤＰ）法による計算量を削減することができる。

［ステップ４］
傾斜角差計算手段１０７が、地形モデル保存部１０６に保存された地形モデルを参照して、状態ｓにおける地形の傾斜角θ_{ｓｔｅｅｐ}（ｓ）と、その状態においてある行動ａを取ったときの遷移先の状態ｓ’における地形の傾斜角θ_{ｓｔｅｅｐ}（ｓ’）の差の絶対値ｄθ_{ｓｔｅｅｐ}（ｓ’，ｓ）を求める。計算されたｄθ_{ｓｔｅｅｐ}（ｓ’，ｓ）は、報酬決定部１０９に出力される。
すなわち、状態間の傾斜角差ｄθ_{ｓｔｅｅｐ}（ｓ’，ｓ）は下記の式により定義される（図５を参照のこと）。

地形モデルは、位置（Ｘ，Ｙ）と方位角のすべての組み合わせについての傾斜角のデータと、障害物の位置が登録されているデータベースである。自律飛行船の動作計画を行う前に、実際に自律飛行船を航行させる予定の地形についての地形モデルを予め取得し、地形モデル保存部１０６に格納しておく必要がある。
なお、ステップ４と後述するステップ５は、自律飛行船が３次元障害物上を定高度航行する場合の動作計画において必要なステップであり、自律飛行船が水平面を定高度航行する場合には、省略することができる。

［ステップ５］
登坂角度計算部１０８が、ある状態ｓから別の状態ｓ’に遷移するときの自律飛行船の登坂角度変化最大量ｄθ_ｍａｘ（ｓ，ｓ’）を計算する。計算された自律飛行船の登坂角度変化最大量ｄθ_ｍａｘ（ｓ，ｓ’）は、報酬決定部１０９に出力される。
ｖ_ｚ（ｓ）を状態ｓにおけるピッチ角の変化速度、ａ_ｈを自律飛行船のピッチ角変化の加速度の最大値、ｆ_ｘｂを風の機軸方向の対機体速度とし、登坂角度は十分に小さく、上下方向には風は吹かないものとすると、自律飛行船の登坂角度変化最大量ｄθ_ｍａｘ（ｓ，ｓ’）は、以下のように定義される。登坂角度変化最大量ｄθ_ｍａｘ（ｓ，ｓ’）は、自律飛行船１が一回の行動で、どれだけ登坂角度を変化させることができるかということを表す。このような物理量を考慮する理由は、自律飛行船１はイナーシャが大きく、登坂角度を急激に変更することができないからである。換言すれば、地形の傾斜角の変化に対する自律飛行船１の行動を、自律飛行船１の登坂角度変化最大量によって評価するのである（次のステップ６を参照のこと。）。

［ステップ６］
報酬決定部１０９が、状態ｓ、行動ａ、遷移先の状態ｓ’の各組み合わせについて、それぞれ、自律飛行船の登坂角度変化最大量ｄθ_ｍａｘ（ｓ，ｓ’）と状態間の傾斜角差ｄθ_{ｓｔｅｅｐ}（ｓ’，ｓ）の大小関係を調べて、報酬を決定する。
具体的には、報酬決定部１０９は、状態間の傾斜角差ｄθ_{ｓｔｅｅｐ}（ｓ’，ｓ）の方が大きい場合には、その状態ｓ、行動ａ、遷移先の状態ｓ’各組み合わせについての報酬Ｒ^ａ _ｓｓ’を−１に設定する。状態間の傾斜角差ｄθ_{ｓｔｅｅｐ}（ｓ’，ｓ）の方が大きい場合には、自律飛行船１が、その遷移先の状態ｓ’に移行することは不可能であり、かかる遷移先の状態ｓは障害物とみなすことができるためである。

また、報酬決定部１０９は、遷移先の状態ｓ’が到達点を含む場合には報酬Ｒ^ａ _ｓｓ’を１に設定し、その他の場合には報酬Ｒ^ａ _ｓｓ’を０に設定する。
なお、ステップ４とステップ５を省略する場合には、報酬決定部１０９は、ｄθ_ｍａｘ（ｓ，ｓ’）と状態間の傾斜角差ｄθ_{ｓｔｅｅｐ}（ｓ’，ｓ）の比較をしないで、報酬を決定する。具体的には、報酬決定部１０９は、地形モデル保存部１０６に保存された地形データを参照して、遷移先の状態ｓ’が到達点を含む場合には報酬Ｒ^ａ _ｓｓ’を１に設定し、遷移先の状態ｓ’が障害物を含む場合には報酬Ｒ^ａ _ｓｓ’を−１に設定し、その他の場合には報酬Ｒ^ａ _ｓｓ’を０に設定する。
また、先に述べたように、この｛１，０，−１｝の何れかの報酬を与えるという決定方法は一例に過ぎず、到達点を含む場合の報酬＞その他の場合の報酬＞障害物である場合の報酬という関係が成り立っている限り、報酬の値はどのような値でも良い。

［ステップ７］
動作計画部１１０は、状態遷移確率計算部１０５が計算した状態遷移確率Ｐ^ａ _ｓｓ’と、報酬決定部１０９が計算した報酬Ｒ^ａ _ｓｓ’を用いて、ダイナミックプログラミング法により、価値関数Ｖ^π（ｓ）及び方策πを計算し、これを価値関数データベース１１１に格納する。

先に述べたように、すべての状態ｓ、行動ａ、遷移先の状態ｓ’の組み合わせについてのＰ^ａ _ｓｓ’とＲ^ａ _ｓｓ’の値がそれぞれ定まっていれば、ダイナミックプログラミング法により、価値関数Ｖ^π（ｓ）及び方策πを計算することができる。
以上が、自律飛行船の動作計画法の説明である。

想定される風が、実際に吹いている風と同じであるときは、自律飛行船１は、各状態ｓにおいて、方策πに従った行動ａを選択するように制御されることにより、到達点に到達することができる。しかし、想定される風が、実際に吹いている風と異なる場合には、方策πにそのまま従うことはできない。かかる場合には、上記価値関数Ｖ^π（ｓ）を用いて、かつ、想定される風と実際に吹いている風の差を考慮して、自律飛行船１の動作を制御する必要がある。以下では、本願発明の２つ目の柱である、劣駆動自律飛行船の動作計画法を用いた劣駆動自律飛行船制御方法の発明について説明する。

《劣駆動自律飛行船の動作計画方法を用いた劣駆動自律飛行船制御方法》
理論的背景
動作計画においては、想定される風の風向と風速は一定であった。しかし、想定される風と実際に吹いている風は通常異なる場合が多い。この場合には、自律飛行船の航行中に、この風の差の影響をリアルタイムで考慮する必要がある。そのためには、まず、未知の風により、自律飛行船の位置がどの程度ずれたのかを推定する必要がある。ここで、自律飛行船の旋回速度ψ’は制御の対象であり、方位角ψは制御の対象となる旋回速度ψ’により定めるため、旋回速度ψ’と方位角ψは、未知の風の影響を受けないものとする。

想定される風と実際に吹いている風の風速のＸ軸方向の差をｄｆ_ｘ、Ｙ軸方向の差をｄｆ_ｙと定義する。ｄｆ_ｘとｄｆ_ｙは、対地世界座標に基づいて表現される。このとき、自律飛行船の位置の変位量は、下式のように示される。

ここで、Ｄ_Ｘａ（ψ_０，ａ）は風速差ｄｆ_ｘを考慮したときの自律飛行船のＸ軸方向の変位量、Ｄ_Ｙａ（ψ_０，ａ）は風速差ｄｆ_ｙを考慮したときの自律飛行船のＹ軸方向の変位量である。
これらの変位量Ｄ_Ｘａ（ψ_０，ａ），Ｄ_Ｙａ（ψ_０，ａ）を用いることにより、状態ｓにある自律飛行船がある行動ａを取ったときの予想される遷移先の状態ｓ_ｅの位置Ｘ_ｅ（ｓ，ａ），Ｙ_ｅ（ｓ，ａ）、方位角ψ_ｅ（ｓ，ａ）、旋回速度ψ’_ｅ（ｓ，ａ）は、下式のように示される。

ここで、Ｘ（ｓ），Ｙ（ｓ）は自律飛行船が状態ｓにいるときの位置、ψ_０（ｓ）は自律飛行船が状態ｓにいるときの方位角、ψ’_０（ｓ）は自律飛行船が状態ｓにいるときの旋回速度である。
上記式（４）により、未知の風の影響下において、状態ｓにいる自律飛行船がある行動ａを取ったときに遷移すると予想される状態ｓ_ｅが求まる。ある状態ｓにおいて取り得るすべての行動ａについて、遷移すると予想される状態ｓ_ｅの価値関数値Ｖ^π（ｓ_ｅ）を求め、各行動ａごとに決まる価値関数値Ｖ^π（ｓ_ｅ）の大小関係を比べる。このとき、価値関数値Ｖ^π（ｓ_ｅ）を最大にする行動ａが、状態ｓにおける最適な行動となる。すなわち、各状態ｓにおいて、上述の計算を逐次行い、その行動ａを選択することにより、未知の風が存在する状況においても、自律飛行船は到達地点に到達することができるのである。

装置構成例
図６、図７を参照して、劣駆動自律飛行船の制御方法を実現するための装置（以下、自律飛行船の制御装置とする）構成例・処理例について説明する。図６は、自律飛行船の制御装置の機能構成例を示した図である。図７は、自律飛行船の制御方法例を示した図である。
自律飛行船の制御装置は、風速差計測部６、位置計測部７、遷移先予測部２０３、価値関数値計算部２０４、動作選択部２０５、フィードバック制御部２０６から構成される。

［ステップ１］
風速差計測部６が、各行動単位時間毎に、動作計画時に予測した風速ｆ_ｘ，ｆ_ｙと、実際に吹いている風の風速の実測値ｆ_ｘａ，ｆ_ｙａの差ｄｆ_ｘ，ｄｆ_ｙを計測する。ここで、ｄｆ_ｘ＝ｆ_ｘ−ｆ_ｘａ，ｄｆ_ｙ＝ｆ_ｙ−ｆ_ｙａである。計測された風速差ｄｆ_ｘ，ｄｆ_ｙは、遷移先予測部２０３に出力される。

［ステップ２］
位置計測部７が、各行動単位時間毎に、自律飛行船の位置Ｘ，Ｙ、方位角ψ、旋回速度ψ’を計測する。計測結果は、遷移先予測部２０３に出力される。

［ステップ３］
遷移先予測部２０３が、風速差計測部６が出力した風速差ｄｆ_ｘ，ｄｆ_ｙと、位置計測部７が出力した自律飛行船の位置Ｘ，Ｙ、方位角ψ、旋回速度ψ’を用いて、状態ｓにいる自律飛行船が、各行動ａを取った場合に、次にどの状態に遷移するのかを予測し、その予測される遷移先の状態ｓ_ｅをそれぞれ求める。各行動ａごとに求められた予想される遷移先の状態ｓ_ｅは、価値関数値計算部２０４に出力される。
具体的には、遷移先予測部２０３はまず、ある行動ａについて、上記式（３）を用いて、風速差ｄｆ_ｘを考慮したときの自律飛行船のＸ軸方向の変位量Ｄ_Ｘａ（ψ_０，ａ）、風速差ｄｆ_ｙを考慮したときの自律飛行船のＹ軸方向の変位量Ｄ_Ｙａ（ψ_０，ａ）をそれぞれ求める。その後、上記式（４）を用いて、その行動ａを取ったときの予想遷移先状態ｓ_ｅを求める。これを、すべての行動ａについて行い、各行動ａごとにそれぞれ予想される遷移先の状態ｓ_ｅを求める。各行動ａごとに求められた予想される遷移先の状態ｓ_ｅは、価値関数値計算部２０４に出力される。

［ステップ４］
価値関数値計算部２０４が、価値関数データベース１１１を参照して、各行動ａごとに予想される遷移先の状態ｓ_eにおける価値関数値Ｖ^π（ｓ_ｅ）をそれぞれ計算する。計算された各行動aごとの価値関数値Ｖ^π（ｓ_ｅ）は、動作選択部２０５に出力される。

［ステップ５］
動作選択部２０５が、価値関数値計算部２０４が計算した各行動ａごとの価値関数値Ｖ^π（ｓ_ｅ）の大小関係を比較して、価値関数値Ｖ^π（ｓ_ｅ）を最大にする行動ａを選択する。そして、その行動により決定される目標速度を式（２）から再計算する。再計算された目標速度は、フィードバック制御部２０６に出力される。

［ステップ６］
フィードバック制御部２０６は、再計算された目標速度を維持することができるように、主推進器力、舵角度を調整する。
以上が、劣駆動自律飛行船の動作計画法を用いた劣駆動自律飛行船制御方法の説明である。

≪変形例等≫
以上の説明では、自律行動主体である自律移動ロボットの具体例として自律飛行船を例に挙げて説明した。しかし、自律移動ロボットの具体例として自律飛行船に限らず、例えば水中無人探査機のような自律水中ロボットなども例示できる。
自律水中ロボットは、その潜航深度を機体の浮力を使って保持する原理を利用するため、その機体比重を機体周囲の液体（例えば自律水中ロボットの活動場所が海であれば海水である。）の比重と同じにする必要があり、そのために、機体が周囲を流れる液体から受ける流体力が、機体に搭載されたプロペラなどの推進手段の力と比較して無視できない大きさになってしまい、その動作計画に困難が生じる。また、機体に搭載可能な推進手段の数、重量にも大きな制約があり、自律水中ロボットは劣駆動ロボットである場合が多い。さらに、自律水中ロボットの運動は、イナーシャが高く、一般にその最大加速度は低い。自律水中ロボットは、これらの点で自律飛行船と同様の自律移動ロボットであり、自律水中ロボットに対して本発明の動作計画方法や制御方法を好ましく適用できる。
なお、自律水中ロボットの場合には、自律飛行船の場合としての用語、例えば「体空気機体座標」、「空気」、「風」、「風速」などを「体水機体座標」、「流体」、「海流」、「流速」などに適宜に呼びかえればよい。
本発明では、自律移動ロボットには自律飛行船や自律水中ロボットの他に格別の限定はないが、自律移動ロボットが、その行動環境の影響、特に「流れ」の影響を受けやすいものである場合に、本発明の有効性が顕著になる。このことは、既述の変位量計算部１０４が、変位量の算出にあたり、想定される風速（流速）を考慮していることなどからも明らかであろう。

なお、≪劣駆動自律飛行船の動作計画方法≫の項目で説明した動作計画方法は、その技術事項から自明なとおり、自律移動ロボットが劣駆動自律移動ロボットであることを必須事項としない。同様に、≪劣駆動自律飛行船の動作計画方法を用いた劣駆動自律飛行船制御方法≫の項目で説明した制御方法は、その技術事項から自明なとおり、自律移動ロボットが劣駆動自律移動ロボットであることを必須事項としない。ただし、本発明において自律移動ロボットが劣駆動自律移動ロボットである場合は、劣駆動自律移動ロボットが非劣駆動自律移動ロボットに比べて制御可能な運動自由度数が低く追従可能な動作計画の策定や追従制御が困難となることに鑑みて、本発明の有効性が顕著になる。つまり、既述のとおり、劣駆動の自律移動ロボットに対して追従可能性の高い行動計画等を提供できる点で、本発明によって齎される有利な効果がいっそう明確になる。

ところで、上述の動作計画方法では、地形モデルとともに想定流速ｆ_ｘ、ｆ_ｙを用いた。この想定流速を精度良く推定できれば、自律移動ロボットの動作計画を精度の良いものとすることができる。しかし、流速推定のために、詳細な数値流体力学的シミュレーションを自律移動ロボットの任務行動ごとに行なうことは、計算コストや時間コストの面から必ずしも望ましいものではない。また、自律移動ロボットの任務環境の流速分布が、想定される均一な流速分布と異なる場合（実際には異なる場合がほとんどである。）、動作計画の精度は現実の環境との対比で必ずしも良好なものではない。
そこで、簡易でありながら現実の流速分布をできるだけ反映した流速推定の手法を示す。

図１２は、海流の主な方向（主流方向）に沿った海底地形の断面での潮流速度分布をシミュレーションした結果を示している。この潮流速度分布から、潮流は、海底面の高度が極大となる場所で主流とほぼ同じ速さとなり、その極大箇所の下流側で当該極大箇所よりも高度の低いところでは、潮流速度がほぼ０になっているのがわかる。ここでは海流の速度分布として示したが、このような速度分布は流体自体の種類よりむしろレイノルズ数などに関係するものであり、実際の自律移動ロボットの動作計画では、海水や淡水などの別、さらには媒質が液体と気体との別に係らず、概ね、流速は、高度が極大となる場所で主流とほぼ同じとなり、その極大箇所の下流の極大箇所より高度の低いところでは、流速がほぼ０になるとして扱うことができる。

このことから、次の要領で流速推定を行う。
〈１〉主流方向に沿った地形モデルの断面で、この断面をマルコフ状態空間の離散化に対応して複数の領域（例えば正方格子状）に分割し、地形表面（地面あるいは海底面）の高度が極大となる領域（以下、極大領域という。）を検出する。これは、地形モデルに登録された高度の主流方向の変化、つまり、高度増加から高度減少に転じる領域として検出でき、あるいは、登録された傾斜角から算出される高度の主流方向の変化から検出することができる。ここでは検出された極大領域をＰｍ０，Ｐｍ１，・・・，Ｐｍｎとする。なお、「地形表面の高度が極大となる領域（極大領域）」とは、地形モデルの断面で地形表面の高度が極大となる位置を含む領域である。
〈２〉各極大領域Ｐｍ０，Ｐｍ１，・・・，Ｐｍｎについて、極大領域Ｐｍｉ（ｉ＝０，１，・・・，ｎ）の上流側に、当該極大領域Ｐｍｉの高度よりも高い、あるいは当該極大領域Ｐｍｉの高度以上の、極大領域が存在する場合には、当該極大領域Ｐｍｉを極大領域としての指定から除外する、つまり当該極大領域Ｐｍｉを極大領域の集合Ｐｍ０，Ｐｍ１，・・・，Ｐｍｎから除外するという補正を行う。例えば、ｉ＝５についてのみ、極大領域Ｐｍ５の上流側に、当該極大領域Ｐｍ５の高度よりも高度の高い極大領域が存在する場合であれば、領域Ｐｍ５は極大領域としての指定を外され、領域Ｐｍ０，Ｐｍ１，・・・，Ｐｍ４，Ｐｍ６，・・・，Ｐｍｎが極大領域となる。ここで、一般的に領域は高低差を有する範囲であるところ、「領域の高度」は、例えば当該領域のうち高度が最も高い部分の高度として定義することも、あるいは逆に最も低い部分の高度として定義することも、もしくは両者の平均値として定義することが可能である。
〈３〉ステップ〈２〉で得られた各極大領域について、各極大領域の下流側で、かつ、当該極大領域の高度以下あるいは未満の領域〔但し、ここで意味のある領域は自律移動ロボットが可動な領域であることに留意しなければならない。〕の主流方向の流速を０とする。
〈４〉その他の領域では、主流方向の流速を主流速度と同じとする。

上記ステップ〈２〉の処理は、ステップ〈３〉の処理で流速を０に設定される領域の重複を避けるための処理であるから、省略可能である。この場合、ステップ〈３〉の処理は、ステップ〈１〉で得られた各極大領域に対して、上述の処理（流速を０に設定する。）を行なう。

上述の流速推定手法であれば、簡便な推定手法でありながら、現実の流速分布を大まかに反映することができる。なお、断面に平行でない方向の速度成分は０とすればよい。

以上の流速推定手法を、図１３〜図１５に示して説明する。
［ステップ１］
極大領域検出部３０１が、地形モデル保存部１０６から読み込んだ地形モデルを用いて、主流方向に沿った地形モデルの断面で地形表面の高度が極大となる領域を検出する。主流方向に沿った地形モデルの断面〔図１３（ａ）参照〕は、マルコフ状態空間の離散化に対応して複数の領域に分割される〔図１３（ｂ）参照〕。図１３（ｂ）では、主流方向に沿った地形モデルの断面を格子状に分割した例を示している。以下、各領域を指示するにあたり、図１３（ｂ）の枠外に示したアラビア数字とアルファベットとの組み合わせで指示する。ここでは検出された極大領域をＰｍ０，Ｐｍ１，Ｐｍ２とする。つまり、領域（６，ｃ）、（７，ｆ）、（４，ｉ）である。

［ステップ２］
つぎに、極大領域補正部３０２が、上記ステップ１で検出された極大領域Ｐｍ０，Ｐｍ１，Ｐｍ２について、各極大領域Ｐｍｉ（ｉ＝０，１，２）の上流側に、当該極大領域Ｐｍｉの高度よりも高い、あるいは当該極大領域Ｐｍｉの高度以上の、極大領域が存在する場合に、当該極大領域Ｐｍｉを極大領域としての指定から除外する補正を行う。図１３（ｂ）に示す例では、ｉ＝１についてのみ、極大領域Ｐｍ１の上流側に、この極大領域Ｐｍ１よりも高度の高い極大領域（Ｐｍ０）が存在するから、領域Ｐｍ１は極大領域としての指定を外され、領域Ｐｍ０，Ｐｍ２が極大領域となる。なお、このステップ２の処理は必須ではない。ただし、この例では、「領域の高度」を当該領域のうち高度が最も高い部分の高度として定義した。

［ステップ３］
想定流速設定部３０３が、上記ステップ２で得られた各極大領域Ｐｍ０，Ｐｍ２〔ステップ２を省略した場合は上記ステップ１で得られた各極大領域Ｐｍ０，Ｐｍ１，Ｐｍ２である。〕について、各極大領域の下流側で、かつ、当該極大領域の高度以下あるいは未満の領域の流速を０に設定する。図１３（ｂ）に示す例では、例えば図１３（ｃ）に示す網掛け領域が流速０に設定される領域である。ただし、この例では、「極大領域の高度」をステップ２と同じ定義とし、「極大領域の高度以下の領域」を流速０に設定するとした。つまり、領域（６，ｄ）、・・・、（６，ｈ）、（７，ｄ）、・・・、（７，ｈ）、（８，ｆ）、（８，ｇ）、（４，ｊ）、・・・、（４，ｏ）、（５，ｊ）、・・・、（５，ｏ）、（６，ｊ）、・・・、（６，ｏ）、（７，ｋ）、・・・、（７，ｏ）、（８，ｌ）、・・・、（８，ｏ）、（９，ｏ）の各領域が流速０に設定される。また、想定流速設定部３０３は、その他の領域では、流速を主流速度と同じに設定する。設定された流速は、例えば想定風速値入力部１０３の入力となる。

なお、例えば領域（６，ｉ）、（９，ｇ）、（９，ｋ）などは、「上記ステップ２で得られた各極大領域Ｐｍ０，Ｐｍ２について、各極大領域の下流側で、かつ、当該極大領域より高度の低い領域」に相当するようにも思われるが、この領域は地形表面下の地中であるから、そもそも流速の存在しない領域である。一方、領域（６，ｈ）、（７，ｋ）などは、領域中に一部であるが自律移動ロボットが行動できる領域を含み、また流速を想定できるから、この例では想定流速を０に設定している。

上記自律移動ロボットの動作計画法動作を実現するための装置及び上記自律移動ロボットの制御方法を実現するための装置における処理機能は、コンピュータによって実現することができる。この場合、これらの装置がそれぞれ有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、これらの装置における各処理機能が、図１０又は図１１に示すように、コンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、これらの装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

以上の各実施形態の他、本発明である自律移動ロボットの動作計画方法、自律移動ロボットの動作計画方法を利用した自律移動ロボットの制御方法、自律移動ロボットの動作計画装置、自律移動ロボットの動作計画プログラム及びその記録媒体は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

本発明の実施形態における劣駆動自律飛行船の動作計画装置の機能構成を例示した図。本発明の実施形態における劣駆動自律飛行船の動作計画方法の処理を例示した図。本発明の実施形態における劣駆動自律飛行船の水平面内の位置を表した図。本発明の実施形態における状態遷移確率の計算の説明を補助するための図。本発明の実施形態における状態ｓと遷移先の状態ｓ’の傾斜角差を表した図。本発明の実施形態における劣駆動自律飛行船の制御装置の機能構成を例示した図。本発明の実施形態における劣駆動自律飛行船の制御方法を例示した図。本発明の実施形態における劣駆動自律飛行船を例示した図。本発明の実施形態における劣駆動自律飛行船に与えられる目標旋回速度を例示した図。本発明の実施形態における劣駆動自律飛行船の動作計画装置を、コンピュータにより実行するときの機能構成を例示した図。本発明による劣駆動自律飛行船の制御装置を、コンピュータにより実行するときの機能構成を例示した図。海流の主流方向に沿った海底地形の断面での潮流速度分布をシミュレーションした結果を示す図。（ａ）主流方向に沿った地形モデルの断面図。（ｂ）図１３（ａ）に示す断面を複数の領域に分割して、地形が極大変化する領域を検出することを説明する図。（ｃ）各極大領域の下流側で、かつ、当該極大領域より高度の低い領域の流速を０に設定することを説明する図。流速設定を行なう機能構成を例示した図。流速設定を行なう処理フロー。

Claims

自律移動ロボットの動作計画方法において、
目標速度計算手段が、マルコフ状態遷移モデルの行動から、目標旋回速度及び機軸方向の速度（以下、サージ速度とする）を各状態ごとに計算する目標速度計算過程と、
変位量計算手段が、上記目標旋回速度とサージ速度を用いて、各行動単位時間における変位量（位置の変位量、方位角の変位量、旋回速度の変位量）をそれぞれ計算する変位量計算過程と、
状態遷移確率計算手段が、マルコフ状態遷移モデルのある状態における、その状態を構成する変数の数と同じ次元を持つ格子を上記変化量だけ平行移動させ、その他の格子との共通部分の体積に比例した確率を状態遷移確率として求める状態遷移確率計算過程と、
動作計画手段が、上記状態遷移確率を用いてマルコフ決定過程における動作計画法に基づき、方策及び価値関数を計算する動作計画過程と、
を有する自律移動ロボットの動作計画方法。
請求項１記載の自律移動ロボットの動作計画方法において、
上記目標速度計算過程において、上記目標旋回速度、又はこれとサージ速度、の時間微分が、上記自律移動ロボットの最大加速度を超えないように設定されていることを特徴とする自律移動ロボットの動作計画方法。
請求項１又は２記載の自律移動ロボットの動作計画方法において、
上記目標旋回速度又はこれとサージ速度が、機体座標における対流体目標速度であることを特徴とする自律移動ロボットの動作計画方法。
請求項１〜３の何れかに記載の自律移動ロボットの動作計画方法において、
上記目標速度計算過程におけるサージ速度が一定値であることを特徴とする自律移動ロボットの動作計画方法。
請求項１〜４の何れかに記載の自律移動ロボットの動作計画方法において、
傾斜角差計算手段が、地形モデルを参照して、上記マルコフ状態遷移モデルのある状態における地形の傾斜角と、その状態においてある行動を選択した後の遷移状態における地形の傾斜角との差の絶対値を計算する傾斜角差計算過程と、
登坂角度計算手段が、上記ある状態から上記遷移状態に遷移するときの、上記自律移動ロボットの登坂角度変化最大量を計算する登坂角度計算過程と、
報酬決定手段が、上記傾斜角の差の絶対値と上記自律移動ロボットの登坂角度変化最大量とを比較して、上記傾斜角の差の絶対値が大きければ、上記ある状態において上記行動を選択したときの報酬を低く設定する報酬決定過程と、
を更に有し、
上記動作計画過程は、更に、上記報酬決定過程により求められた報酬に基づいて、方策及び価値関数を計算する過程である、
ことを特徴とする自律移動ロボットの動作計画方法。
請求項１〜５の何れかに記載の自律移動ロボットの動作計画方法において、
上記変位量計算過程は、自律移動ロボットの行動環境として想定される流速（以下、環境想定下流速という。）の下において、上記変位量をそれぞれ計算する過程である、
ことを特徴とする自律移動ロボットの動作計画方法。
請求項６に記載の自律移動ロボットの動作計画方法において、
極大領域検出手段が、地形モデルを参照して、自律移動ロボットの行動環境として想定される流速の主流方向に沿った地形モデルの断面で、この断面を複数の領域に分割し、地形表面の高度が極大となる領域を検出する極大領域検出過程と、
想定流速設定手段が、上記極大領域検出過程で得られた極大領域ごとに、当該極大領域の下流側で、かつ、当該極大領域の高度以下あるいは未満の領域における主流方向の流速を０とし、その他の領域では、主流方向の流速を主流速度と同じに設定する想定流速設定過程と、
を更に有し、
上記変位量計算過程は、上記想定流速設定過程で設定された流速を上記環境想定下流速として、上記変位量をそれぞれ計算する過程である、
ことを特徴とする自律移動ロボットの動作計画方法。
請求項１〜７の何れかに記載の自律移動ロボットの動作計画方法において、
上記自律移動ロボットは、劣駆動自律飛行船である
ことを特徴とする自律移動ロボットの動作計画方法。
請求項１〜８の何れかに記載の自律移動ロボットの動作計画方法で決まった動作計画に基づき、自律移動ロボットを制御する自律移動ロボットの制御方法であって、
流速差計測手段が、動作計画時に予測した流速と実測値との差（以下、流速差という。）を計測する流速差計測過程と、
位置計測手段が、自律移動ロボットの位置、方位角、旋回速度をそれぞれ求める位置計測過程と、
遷移先予測手段が、上記流速差、上記位置、上記方位角、上記旋回速度を用いて、遷移先の状態を各行動について予測する遷移先予測過程と、
価値関数値計算手段が、各行動ごとの、遷移先の状態の価値関数の値を計算する価値関数値計算過程と、
動作選択手段が、上記各行動ごとに求まった価値関数の値を比較して、これらの価値関数の値を最大にする行動を決定する動作選択過程と、
を有することを特徴とする自律移動ロボットの制御方法。
請求項９に記載の自律移動ロボットの制御方法において、
上記自律移動ロボットは、劣駆動自律飛行船である
ことを特徴とする自律移動ロボットの制御方法。
自律移動ロボットの動作計画装置において、
マルコフ状態遷移モデルの行動から、目標旋回速度及び機軸方向の速度（以下、サージ速度とする）を各状態ごとに計算する目標速度計算手段と、
上記目標旋回速度とサージ速度を用いて、各行動単位時間における変位量（位置の変位量、方位角の変位量、旋回速度の変位量）をそれぞれ計算する変位量計算手段と、
マルコフ状態遷移モデルのある状態における、その状態を構成する変数の数と同じ次元を持つ格子を上記変化量だけ平行移動させ、その他の格子との共通部分の体積に比例した確率を状態遷移確率として求める状態遷移確率計算手段と、
上記状態遷移確率を用いてマルコフ決定過程における動作計画法に基づき、方策及び価値関数を計算する動作計画手段と、
を備えることを特徴とする自律移動ロボットの動作計画装置。
請求項１１に記載の自律移動ロボットの動作計画装置において、
上記自律移動ロボットは、劣駆動自律飛行船である
ことを特徴とする自律移動ロボットの動作計画装置。
請求項１〜８の何れかに記載の自律移動ロボットの動作計画方法の各過程をコンピュータに実行させるための自律移動ロボットの動作計画プログラム。
請求項９又は１０に記載の自律移動ロボットの制御方法の各過程をコンピュータに実行させるための自律移動ロボットの制御プログラム。
請求項１３に記載の自律移動ロボットの動作計画プログラムを記録したコンピュータ読み取り可能な記録媒体。