JP6706223B2

JP6706223B2 - 移動体制御方法、移動体制御装置、及びプログラム

Info

Publication number: JP6706223B2
Application number: JP2017103409A
Authority: JP
Inventors: 后宏水谷; 吉田　学; 学吉田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-05-25
Filing date: 2017-05-25
Publication date: 2020-06-03
Anticipated expiration: 2037-05-25
Also published as: JP2018198031A

Description

本開示は、移動体の動作を制御する技術に関する。

移動体の動作を制御する技術として、障害物を回避するように移動体を操縦する研究がなされている。

Ｒ．Ｓ．ＳｕｔｔｏｎａｎｄＡ．Ｇ．Ｂａｒｔｏ，Ｉｎｔｒｏｄｕｃｔｉｏｎｔｏｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ，ＭＩＴＰｒｅｓｓＣａｍｂｒｉｄｇｅ，１９９８，ｖｏｌ．１３５．Ｖ．Ｍｎｉｈ，Ｋ．Ｋａｖｕｋｃｕｏｇｌｕ，Ｄ．Ｓｉｌｖｅｒ，Ａ．Ａ．Ｒｕｓｕ，Ｊ．Ｖｅｎｅｓｓ，Ｍ．Ｇ．Ｂｅｌｌｅｍａｒｅ，Ａ．Ｇｒａｖｅｓ，Ｍ．Ｒｉｅｄｍｉｌｌｅｒ，Ａ．Ｋ．Ｆｉｄｊｅｌａｎｄ，Ｇ．Ｏｓｔｒｏｖｓｋｉｅｔａｌ．， "Ｈｕｍａｎ−ｌｅｖｅｌｃｏｎｔｒｏｌｔｈｒｏｕｇｈｄｅｅｐｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ"，Ｎａｔｕｒｅ，ｖｏｌ．５１８，ｎｏ．７５４０，ｐｐ．５２９−５３３，２０１５．Ｈ．ＶａｎＨａｓｓｅｌｔ，Ａ．Ｇｕｅｚ，ａｎｄＤ．Ｓｉｌｖｅｒ， "Ｄｅｅｐｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇｗｉｔｈｄｏｕｂｌｅｑ−ｌｅａｒｎｉｎｇ"，ｉｎＡＡＡＩ，ｐｐ．２０９４−２１００，２０１６．

しかし、移動体の回避すべき対象は障害物だけではない。物理的に移動体が「通過可能」ではあるが、ペナルティが与えられるような対象も回避すべき対象といえる。例えば、シューティングゲームにおける減点対象区間や、自動車の運転における交通規則も回避すべき対象といえる。以下、障害物とともに、このような回避すべき対象を「減点対象」と記載する。従来、このような減点対象を回避する研究はなされていない。

さらに、従来と同様に減点対象の回避時に移動体の速度をなるべく下げないことも求められる。そこで、本発明は、自律的に減点対象を回避でき、減点対象の回避時に移動体の速度低下を防止できる移動体制御方法、移動体制御装置、及びプログラムを提供することを目的とする。

上記目的を達成するために、本発明に係る移動体制御方法及び装置は、障害物だけではなくペナルティが与えられるエリアや法規則をも含む減点対象を回避するために、移動体と法規制との関係性も数値化（距離に変換）して特徴量ベクトルに含ませ、移動体の速度、制御指針による減点対象回避の可否、並びに距離の総和からなる報酬値を利用して強化学習を行い、新たな制御指針を算出することとした。

具体的には、本発明に係る移動体制御方法は、
移動体の位置及び前記移動体に対する複数の減点対象を取得する状態把握手順と、
前記移動体の位置から前記移動体の現在の速度を算出し、前記移動体と前記減点対象との関係を前記減点対象ごとに数値化し、現在の前記速度及び数値化した前記関係の特徴量ベクトルを取得する特徴量抽出手順と、
前記特徴量ベクトルに対して、現在の前記速度、数値化した前記関係、及び前記移動体に加減速と方向転換の少なくとも一つをさせる制御指針を行った結果を含む報酬値を用いて強化学習を行い、新たな制御指針を算出して前記移動体の制御を行う学習制御手順と、
を行う。

また、本発明に係る移動体制御装置は、
移動体の位置及び前記移動体に対する複数の減点対象を取得する状態把握部と、
前記移動体の位置から前記移動体の現在の速度を算出し、前記移動体と前記減点対象との関係を前記減点対象ごとに数値化し、現在の前記速度及び数値化した前記関係の特徴量ベクトルを取得する特徴量抽出部と、
前記特徴量ベクトルに対して、現在の前記速度、数値化した前記関係、及び前記移動体に加減速と方向転換の少なくとも一つをさせる制御指針を行った結果を含む報酬値を用いて強化学習を行い、新たな制御指針を算出して前記移動体の制御を行う学習制御部と、
を備える。

本発明に係る移動体制御方法及び装置は、減点対象を考慮して移動体の制御指針を強化学習にて求める。そして、報酬値に移動体の速度をパラメータとして加えたので、移動体の減点対象の回避時になるべく速度を下げないような制御が可能となった。従って、本発明は、自律的に減点対象を回避でき、減点対象の回避時に移動体の速度低下を防止できる移動体制御方法及び移動体制御装置を提供することができる。

本発明に係る移動体制御方法及び移動体制御装置は、前記特徴量ベクトルが前記減点対象の軌跡を含むことを特徴とする。減点対象が動的に動く場合に対応できる。

本発明に係るプログラムは、前記移動体制御方法を実行させるためのプログラムである。本発明に係る移動体制御方法及び移動体制御装置は、コンピュータとプログラムによっても実現でき、プログラムを記録媒体に記録することも、ネットワークを通して提供することも可能である。

本発明は、自律的に減点対象を回避でき、減点対象の回避時に移動体の速度低下を防止できる移動体制御方法、移動体制御装置、及びプログラムを提供することができる。

本発明に係る移動体制御方法を説明するフローチャートである。本発明に係る移動体制御方法で使用する移動体の特徴量ベクトルを説明する図である。本発明に係る移動体制御方法を行った結果を説明する図である。本発明に係る移動体制御装置を説明する図である。

添付の図面を参照して本発明の実施形態を説明する。以下に説明する実施形態は本発明の実施例であり、本発明は、以下の実施形態に制限されるものではない。なお、本明細書及び図面において符号が同じ構成要素は、相互に同一のものを示すものとする。

図４は、本実施形態の移動体制御装置を説明するブロック図である。本移動体制御装置は、
移動体の位置及び前記移動体に対する複数の減点対象を取得する状態把握部１１と、
前記移動体の位置から前記移動体の現在の速度を算出し、前記移動体と前記減点対象との関係を前記減点対象ごとに数値化し、現在の前記速度及び数値化した前記関係の特徴量ベクトルを取得する特徴量抽出部１２と、
前記特徴量ベクトルに対して、現在の前記速度、数値化した前記関係、及び前記移動体に加減速と方向転換の少なくとも一つをさせる制御指針を行った結果を含む報酬値を用いて強化学習を行い、新たな制御指針を算出して前記移動体の制御を行う学習制御部１３と、
を備える。

図１は、本実施形態の移動体制御方法を説明するフローチャートである。本移動体制御方法は、
状態把握部１１が、移動体の位置及び前記移動体に対する複数の減点対象を取得する状態把握手順Ｓ１１と、
特徴量抽出部１２が、前記移動体の位置から前記移動体の現在の速度を算出し、前記移動体と前記減点対象との関係を前記減点対象ごとに数値化し、現在の前記速度及び数値化した前記関係の特徴量ベクトルを取得する特徴量抽出手順Ｓ１２と、
学習制御部１３が、前記特徴量ベクトルに対して、現在の前記速度、数値化した前記関係、及び前記移動体に加減速と方向転換の少なくとも一つをさせる制御指針を行った結果を含む報酬値を用いて強化学習を行い、新たな制御指針を算出して前記移動体の制御を行う学習制御手順Ｓ１３と、
を行う。

強化学習とは、状態、行動及び報酬の値を環境に応じて設定し、設定した全ての状態にて報酬の累積和を最大化する行動を算出する方法であり、障害物回避等の技術に応用されている。本移動体制御装置が行う減点対象回避制御は、状態把握部１１、特徴量抽出部１２、及び学習制御部１３の３つのモジュールを用いて達成される。

状態把握部１１は、現在の移動体の位置等の情報を取得し、特徴量抽出部１２は、当該情報の空間特徴量を算出する部分である。学習制御部１３は、得られた特徴量をもとに、制御指針（例えば、加減速の程度、旋回等）を強化学習にて求め、実行する部分である。

〔状態把握部〕
状態把握部１１は、位置情報の取得等を既存の技術によって得る。例えば、状態把握部１１は、移動体自身の位置や速度、及び移動体の前方の減点対象を移動体に取り付けられたセンサー、ＧＰＳ情報及び予め入力された情報（地図やルール（例：進入禁止区域等の情報））から得ることができる。

〔特徴量抽出部〕
特徴量抽出部１２は、状態把握部１１からの情報に基づき、移動体の現在の速度（履歴）ｖと、３６０度方向に対する各角度方向（θ_１， θ_２，．．．， θ_ｎ）にある減点対象との距離（ｄ（θ_ｉ）、ｉ＝１〜ｎ）とを特徴量として検出する。各距離は、任意の定数より大きいものを１、小さいものを０として［０，１］に正規化する。ここで、１を超える場合は１とみなし、０を下回るものは０とみなす。なお、進入禁止区域等のルールについては、当該区域までの距離を用いる。また、時間によって変動するルール（例：時間指定の進入禁止）については、距離の次元だけでなく、時間の次元を含めた多次元空間を加味し、進入禁止になるまでの時空間距離を特徴量に利用する。特徴量（速度ｖと距離ｄ（θ_ｉ））のベクトルを学習制御部１３に伝達する。図２は特徴量を説明する図である。

なお、減点対象が動的に動く場合は、その軌跡“ｈｉｓｔｏｒｉｅｓ”も特徴量ベクトルに含むこととし、減点対象以外の動作物“ｅｔｃ”に関しても同様に、特徴量ベクトルに含むものとする。以下に、特徴量ベクトル表記の一例を示す。

〔学習制御部〕
学習制御部１３は、得られた特徴量ベクトルに対して、減点対象を回避するための最適な制御指針を決定するために、強化学習を用いる。強化学習では、現在（時刻ｔ）、観測している特徴量ベクトルｓ_ｔに対して、制御指針ａ_ｔを実行した際に得られる数２の報酬値を用いて、ｓ_ｔにおける制御指針ａの価値Ｑ（ｓ_ｔ，ａ_ｔ）を数３のように更新する。

α（０≦α≦１）は学習率を示し、γ（０≦γ≦１）は割引率を示している。αが大きい場合には最新の報酬を重視し、αが１の場合には、過去の報酬を全く考慮しない。また、γは遷移先の状態に対する制御評価値が現在の制御評価値に与える影響を表し、γが０の時は遷移先の状態ｓ_ｔ＋１に対する制御評価値が現在の状態ｓ_ｔの制御評価値に依存しない。

この更新式は、Ｑ学習（例えば、非特許文献１を参照。）と呼ばれており、上記の更新を再帰的に行うことで、最も大きい報酬値を得ることのできる制御の評価値Ｑ（ｓ，ａ）を理論上、最大にすることが可能とされる。

次に、減点対象を速度を保ちつつ回避するための報酬関数は、移動体の加速動作と移動体の回避動作の結果Ｂ（ａ_ｔ）、現在の状態ｓ_ｔにおける、各角度における減点対象までの距離を含む任意の関数（ｆ）を用いて構成されるものとする。

Ｂ（ａ_ｔ）は、数５の３つの値域をとる値であり、図３にその概要を示す。

減点対象を速度を保ちつつ回避するための報酬関数は、移動体の加速動作と移動体の回避動作の結果Ｂ（ｓ_ｔ）、減点対象までの距離を加味することで、減点対象の回避精度を向上させることが可能となる。その効果は実験によって確認できた。なお、特徴量の数や値域によりＱ（ｓ_ｔ，ａ_ｔ）が膨大になる場合がある。この場合、深層強化学習（例えば、非特許文献２、３を参照。）を用いることで計算時間を短縮することが可能になる。

本発明に係る移動体制御方法及び装置は、コンピュータによって制御可能な移動体を制御し、センサーやカメラ等にて減点対象（障害物、障害区間、制限区間）を認識し、移動体の動きを止めずして回避運動を行うことができる。

本発明は、外部から操作可能な小型飛行機や車等の自律制御に応用することが可能である。

１１：状態把握部
１２：特徴量抽出部
１３：学習制御部

Claims

移動体の位置及び前記移動体に対する複数の減点対象を取得する状態把握手順と、
前記移動体の位置から前記移動体の現在の速度を算出し、前記移動体と前記減点対象との関係を前記減点対象ごとに数値化し、現在の前記速度及び数値化した前記関係の特徴量ベクトルを取得する特徴量抽出手順と、
前記特徴量ベクトルに対して、現在の前記速度、数値化した前記関係、及び前記移動体に加減速と方向転換の少なくとも一つをさせる制御指針を行った結果を含む報酬値を用いて強化学習を行い、新たな制御指針を算出して前記移動体の制御を行う学習制御手順と、
を行う移動体制御方法。
前記特徴量ベクトルが前記減点対象の軌跡を含むことを特徴とする請求項１に記載の移動体制御方法。
移動体の位置及び前記移動体に対する複数の減点対象を取得する状態把握部と、
前記移動体の位置から前記移動体の現在の速度を算出し、前記移動体と前記減点対象との関係を前記減点対象ごとに数値化し、現在の前記速度及び数値化した前記関係の特徴量ベクトルを取得する特徴量抽出部と、
前記特徴量ベクトルに対して、現在の前記速度、数値化した前記関係、及び前記移動体に加減速と方向転換の少なくとも一つをさせる制御指針を行った結果を含む報酬値を用いて強化学習を行い、新たな制御指針を算出して前記移動体の制御を行う学習制御部と、
を備える移動体制御装置。
前記特徴量ベクトルが前記減点対象の軌跡を含むことを特徴とする請求項３に記載の移動体制御装置。
請求項１又は２に記載の移動体制御方法を実行させるためのプログラム。