JP6839067B2

JP6839067B2 - 移動体制御方法及び移動体制御装置

Info

Publication number: JP6839067B2
Application number: JP2017224130A
Authority: JP
Inventors: 后宏水谷; 吉田　学; 学吉田; 崇洋秦; 社家　一平; 一平社家
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-11-22
Filing date: 2017-11-22
Publication date: 2021-03-03
Anticipated expiration: 2037-11-22
Also published as: JP2019096012A

Description

本開示は、移動体の動作を制御する技術に関する。

移動体の動作を制御する技術として、障害物を回避するように移動体を操縦する研究がなされている。

Ｕ．Ｓ．ｏｆＪａｐａｎ， "Ａｍｉｓ：Ａｄｖａｎｃｅｄｍｏｂｉｌｅｉｎｆｏｒｍａｔｉｏｎｓｙｓｔｅｍｓ"，ｈｔｔｐ：／／ｗｗｗ．ｕｔｍｓ．ｏｒ．ｊｐ／ｅｎｇｌｉｓｈ／ｓｙｓｔｅｍ／ａｍｉｓ．ｈｔｍｌ．ＶＩＣＳ，"Ｂｅａｃｏｎａｎｄｆｍｂｒｏａｄｃａｓｔｉｎｇ"，ｈｔｔｐｓ：／／ｗｗｗ．ｖｉｃｓ．ｏｒ．ｊｐ／ｅｎ／ｖｉｃｓ／ｂｅａｃｏｎ．ｈｔｍｌ．ＨＯＮＤＡ， "Ｈｏｎｄａｓｅｎｓｉｎｇｔｅｃｈｎｏｌｏｇｙ"，ｈｔｔｐ：／／ｗｗｗ．ｈｏｎｄａ．ｃｏ．ｊｐ／ｈｏｎｄａｓｅｎｓｉｎｇ／．Ｗ．Ｌｉｕ，Ｊ．Ｌｉｕ，Ｊ．Ｐｅｎｇ，ａｎｄＺ．Ｚｈｕ， "Ｃｏｏｐｅｒａｔｉｖｅｍｕｌｔｉ−ａｇｅｎｔｔｒａｆｆｉｃｓｉｇｎａｌｃｏｎｔｒｏｌｓｙｓｔｅｍｕｓｉｎｇｆａｓｔｇｒａｄｉｅｎｔ−ｄｅｓｃｅｎｔｆｕｎｃｔｉｏｎａｐｐｒｏｘｉｍａｔｉｏｎｆｏｒｖ２ｉｎｅｔｗｏｒｋｓ"，ｉｎＰｒｏｃ．ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｍｕｎｉｃａｔｉｏｎｓ（ＩＣＣ），２０１４，ｐｐ．２５６２−２５６７．Ｗ．Ｌｕ，Ｙ．Ｚｈａｎｇ，ａｎｄＹ．Ｘｉｅ，"Ａｍｕｌｔｉ−ａｇｅｎｔａｄａｐｔｉｖｅｔｒａｆｆｉｃｓｉｇｎａｌｃｏｎｔｒｏｌｓｙｓｔｅｍｕｓｉｎｇｓｗａｒｍｉｎｔｅｌｌｉｇｅｎｃｅａｎｄｎｅｕｒｏ−ｆｕｚｚｙｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ"，ｉｎＰｒｏｃ．ＩＥＥＥＦｏｒｕｍｏｎＩｎｔｅｇｒａｔｅｄａｎｄＳｕｓｔａｉｎａｂｌｅＴｒａｎｓｐｏｒｔａｔｉｏｎＳｙｓｔｅｍ（ＦＩＳＴＳ），２０１１，ｐｐ．２３３−２３８．ＴＯＹＯＴＡ，"Ｔｏｙｏｔａｔｏｂｏｏｓｔｉｎｖｅｓｔｍｅｎｔｉｎａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅｂｙｓｔｒｅｎｇｔｈｅｎｉｎｇｒｅｌａｔｉｏｎｓｈｉｐｗｉｔｈｐｒｅｆｅｒｒｅｄｎｅｔｗｏｒｋｓｉｎｃ"．ｈｔｔｐ：／／ｎｅｗｓｒｏｏｍ．ｔｏｙｏｔａ．ｃｏ．ｊｐ／ｅｎ／ｄｅｔａｉｌ／１０６７９７２２／．Ｒ．Ｓ．ＳｕｔｔｏｎａｎｄＡ．Ｇ．Ｂａｒｔｏ，Ｉｎｔｒｏｄｕｃｔｉｏｎｔｏｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ．ＭＩＴＰｒｅｓｓＣａｍｂｒｉｄｇｅ，１９９８，ｖｏｌ．１３５．Ｖ．Ｍｎｉｈ，Ｋ．Ｋａｖｕｋｃｕｏｇｌｕ，Ｄ．Ｓｉｌｖｅｒ，Ａ．Ａ．Ｒｕｓｕ，Ｊ．Ｖｅｎｅｓｓ，Ｍ．Ｇ．Ｂｅｌｌｅｍａｒｅ，Ａ．Ｇｒａｖｅｓ，Ｍ．Ｒｉｅｄｍｉｌｌｅｒ，Ａ．Ｋ．Ｆｉｄｊｅｌａｎｄ，Ｇ．Ｏｓｔｒｏｖｓｋｉｅｔａｌ．， "Ｈｕｍａｎ−ｌｅｖｅｌｃｏｎｔｒｏｌｔｈｒｏｕｇｈｄｅｅｐｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ"，Ｎａｔｕｒｅ，ｖｏｌ．５１８，ｎｏ．７５４０，ｐｐ．５２９−５３３，２０１５．Ｈ．ＶａｎＨａｓｓｅｌｔ，Ａ．Ｇｕｅｚ，ａｎｄＤ．Ｓｉｌｖｅｒ， "Ｄｅｅｐｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇｗｉｔｈｄｏｕｂｌｅｑ−ｌｅａｒｎｉｎｇ"．ｉｎＡＡＡＩ，２０１６，ｐｐ．２０９４−２１００．向井正和，青木博，川邊武俊，"信号機情報を利用した混合整数計画法によるモデル予測型省燃費走行制御"，計測自動制御学会論文集，ｖｏｌ．５１，ｎｏ．１２，ｐｐ．８６６−８７２，２０１５．Ｖ．ＮａｉｒａｎｄＧ．Ｅ．Ｈｉｎｔｏｎ， "Ｒｅｃｔｉｆｉｅｄｌｉｎｅａｒｕｎｉｔｓｉｍｐｒｏｖｅｒｅｓｔｒｉｃｔｅｄｂｏｌｔｚｍａｎｎｍａｃｈｉｎｅｓ"，ｉｎＰｒｏｃ．ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ（ＩＣＭＬ），２０１０，ｐｐ．８０７−８１４．Ｓ．Ａｄａｍ，Ｌ．Ｂｕｓｏｎｉｕ，ａｎｄＲ．Ｂａｂｕｓｋａ，"Ｅｘｐｅｒｉｅｎｃｅｒｅｐｌａｙｆｏｒｒｅａｌｔｉｍｅｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇｃｏｎｔｒｏｌ"，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＳｙｓｔｅｍｓ，Ｍａｎ，ａｎｄＣｙｂｅｒｎｅｔｉｃｓ，ＰａｒｔＣ（ＡｐｐｌｉｃａｔｉｏｎｓａｎｄＲｅｖｉｅｗｓ），ｖｏｌ．４２，ｎｏ．２，ｐｐ．２０１−２１２，２０１２．

近年、信号情報の取得に関して、近年の技術開発により路側に設置された高度化光ビーコンを用いて交通管制センターから路線信号情報（進行方向にある信号までの距離情報、交差点に設置された信号機の赤信号の残時間情報等）を自動車に提供できるようになったため、急速に運転支援の自動化の実現性が高まるようになった（例えば非特許文献１、２を参照）。これらの技術を前提に一般道路における運転支援を検討する場合、信号の状態を取得したうえで、信号状態と周りの他車の挙動を加味し、目的地まで早く到着できるような運転支援技術が必要となると考えられる。

信号状態を加味した運転支援技術について、赤信号の回避・待ち時間の削減を目指した技術が提案されており、１つ先の信号状態から赤信号による停車を避けるために加減速調整を行う方法（例えば、非特許文献３を参照。）や、信号自体がランプの間隔を調整する方法が提案されている（例えば、非特許文献４、５を参照。）。他車の挙動から安全に運転する技術も多数存在しており、近年では、深層学習手法を用いて障害物や他車の状況を検知し、回避行動を自動的に行う技術が提案されている（例えば、非特許文献６を参照。）。

信号状態を加味する運転支援技術は、直近の信号のみを加味しており、その先の信号状態を加味しているわけではないので、目的地までの赤信号による停車時間や目的地までの時間等を短縮できるわけではない。周りの環境変化を加味した既存の運転支援技術は、障害物（他車の動き）に対する回避行動が可能だが、信号の状態等を同時に考慮する運転支援技術は存在しない。

そこで、本発明は、信号状態と障害物の状況を同時に考慮し、目的地までの時間等を短縮できる移動体制御方法及び移動体制御装置を提供することを目的とする。

上記目的を達成するために、本発明に係る移動体制御方法は、カメラ等で認識した移動体の位置、移動体の前後方との車の距離、隣の車線における前後方の車との距離、及び光ビーコンから得られた信号のランプ周期等の状態を把握し、当該状態から強化学習で用いる特徴量ベクトルを算出し、強化学習により現時点における特徴量ベクトルと制御指針から得られる報酬値を用いて制御指針を算出することとした。

具体的には、本発明に係る移動体制御方法は、
移動体の位置、前記移動体に対する複数の停止指令が出されるまでの発報時間、前記移動体とそれぞれの前記停止指令までの距離、及び他の移動体との距離を取得する状態把握手順と、
前記移動体の位置から前記移動体の現在の速度を、及び前記発報時間と前記停止指令までの距離とから前記停止指令の数の時空間距離を算出し、現在の前記速度、前記時空間距離及び前記他の移動体との距離で構成される特徴量ベクトルを取得する特徴量抽出手順と、
前記特徴量ベクトルに対する、前記移動体に加減速と方向転換の少なくとも一つをさせる制御指針を行った結果得られる、前記停止指令の回避及び前記他の移動体との接触の回避を表す報酬値を用いて強化学習を行い、新たな制御指針を算出して前記移動体の制御を行う学習制御手順と、
を行う。

また、本発明に係る移動体制御装置は、
移動体の位置、前記移動体に対する複数の停止指令が出されるまでの発報時間、前記移動体とそれぞれの前記停止指令までの距離、及び他の移動体との距離を取得する状態把握部と、
前記移動体の位置から前記移動体の現在の速度を、及び前記発報時間と前記停止指令までの距離とから前記停止指令の数の時空間距離を算出し、現在の前記速度、前記時空間距離及び前記他の移動体との距離で構成される特徴量ベクトルを取得する特徴量抽出部と、
前記特徴量ベクトルに対する、前記移動体に加減速と方向転換の少なくとも一つをさせる制御指針を行った結果得られる、前記停止指令の回避及び前記他の移動体との接触の回避を表す報酬値を用いて強化学習を行い、新たな制御指針を算出して前記移動体の制御を行う学習制御部と、
を備える。

周囲の車との距離と目的地までの信号の状況（赤信号のタイミング）を特徴量ベクトルに含め、自車の加減速についての制御指針を導き出すので、自車の速度を調整して停止時間を短縮することができる。従って、本発明は、信号状態と障害物の状況を同時に考慮し、目的地までの時間等を短縮できる移動体制御方法及び移動体制御装置を提供することができる。

本発明は、信号状態と障害物の状況を同時に考慮し、目的地までの時間等を短縮できる移動体制御方法及び移動体制御装置を提供することができる。

本発明に係る移動体制御方法を説明するフローチャートである。本発明に係る移動体制御方法で使用する移動体の特徴量ベクトルを説明する図である。本発明に係る移動体制御方法で判断する報酬関数のうち、信号状態に対する車の加速の結果を説明する図である。本発明に係る移動体制御装置を説明する図である。

添付の図面を参照して本発明の実施形態を説明する。以下に説明する実施形態は本発明の実施例であり、本発明は、以下の実施形態に制限されるものではない。なお、本明細書及び図面において符号が同じ構成要素は、相互に同一のものを示すものとする。

強化学習とは、状態・行動・報酬の値を環境に応じて設定し、設定した全ての状態にて報酬の累積和を最大化する行動を算出する方法であり、障害物回避等の技術に応用されている。本願で対象とする、信号情報と他車の挙動を加味した運転支援技術は、３つのモジュールを用いて達成されており、それらは、状態把握部１１、特徴量抽出部１２及び学習制御部１３である（図１を参照。）。

図１の移動体制御装置３０１は、
移動体の位置、前記移動体に対する複数の停止指令が出されるまでの発報時間、前記移動体とそれぞれの前記停止指令までの距離、及び他の移動体との距離を取得する状態把握部１１と、
前記移動体の位置から前記移動体の現在の速度を、及び前記発報時間と前記停止指令までの距離とから前記停止指令の数の時空間距離を算出し、現在の前記速度、前記時空間距離及び前記他の移動体との距離で構成される特徴量ベクトルを取得する特徴量抽出部１２と、
前記特徴量ベクトルに対する、前記移動体に加減速と方向転換の少なくとも一つをさせる制御指針を行った結果得られる、前記停止指令の回避及び前記他の移動体との接触の回避を表す報酬値を用いて強化学習を行い、新たな制御指針を算出して前記移動体の制御を行う学習制御部１３と、
を備える。

図１は、本実施形態の移動体制御方法を説明するフローチャートである。本移動体制御方法は、
状態把握部１１が、移動体の位置、前記移動体に対する複数の停止指令が出されるまでの発報時間、前記移動体とそれぞれの前記停止指令までの距離、及び他の移動体との距離を取得するＳ１１と、
特徴量抽出部１２が、前記移動体の位置から前記移動体の現在の速度を、及び前記発報時間と前記停止指令までの距離とから前記停止指令の数の時空間距離を算出し、現在の前記速度、前記時空間距離及び前記他の移動体との距離で構成される特徴量ベクトルを取得する特徴量抽出手順Ｓ１２と、
学習制御部１３が、前記特徴量ベクトルに対する、前記移動体に加減速と方向転換の少なくとも一つをさせる制御指針を行った結果得られる、前記停止指令の回避及び前記他の移動体との接触の回避を表す報酬値を用いて強化学習を行い、新たな制御指針を算出して前記移動体の制御を行う学習制御手順Ｓ１３と、
を行う。

［状態把握部］
状態把握部１１は、現在の移動体の位置、光ビーコンから得られた信号のランプ周期、移動体の前後方との車の距離、両隣の車線における前後方の車との距離を取得できるものとする。なお、取得方法については、車載センサー・カメラ等を用いることができる。

［特徴量抽出部］
特徴量抽出部１２は、状態把握部１１から得られた情報から、強化学習で用いる特徴量ベクトルを作成して学習制御部１３に渡す。数１は当該特徴量ベクトルｓ_ｔの例である。

ここで、ｖは移動体の現在の速度（履歴）、（ｄｔ_１、ｄｔ_２、・・・、ｄｔ_ｎ）は得られた複数の信号情報から各信号の赤信号（停止指令）になるまでの時間と赤信号までの距離を加味したｎ個の時空間距離、（ｄｆ_１、ｄｆ_２、ｄｆ_３）は現在の車線と両隣の車線の前方の車までの距離、（ｄｂ_１、ｄｂ_２、ｄｂ_３）は現在の車線と両隣の車線の後方の車までの距離である。なお、特徴量ベクトルの各距離は、任意の定数との除算によって［０，１］に正規化し、除算結果が１を超える場合は１とみなす。

図２は、時空間距離の概要を説明する図である。横軸は時間、縦軸は目的地への進行方向を表す。ここに各信号の位置と赤信号のタイミングを記載し、自車から赤信号までの距離と時間を含むベクトルが時空間距離となる。図２において、破線は赤信号を回避して走行する理想経路（制御された移動体の経路）を示す。

このような時空間距離を利用することで、直近の赤信号だけでなく、いくつもの先の赤信号の回避を目的とすることが可能となることが実験によってわかっている。また、他車との距離については、他車の距離の遷移履歴を用いることも可能とする。なお、車線数が２以下の場合、存在しない車線における前後方の車までの距離を０とする。

［学習制御部］
学習制御部１３は、得られた特徴量ベクトルに対して、図２で示す赤信号区間を避けつつ、他車との衝突を回避するための最適な制御指針（例えば、加減速の程度、車線変更等）を決定し、実行する。この制御指針により信号状態と他車の挙動を加味した運転支援が達成できる。学習制御部１３は強化学習を用いる。強化学習では、現在（時刻ｔ）、観測している特徴量ベクトルｓ_ｔに対して、制御指針ａ_ｔを実行した際に得られる数２の報酬値を用いて、ｓ_ｔにおける制御指針ａの価値Ｑ（ｓ_ｔ，ａ_ｔ）を数３のように更新する。

α（０≦α≦１）は学習率を示し、γ（０≦γ≦１）は割引率を示している。αが大きい場合には最新の報酬を重視し、αが１の場合には、過去の報酬を全く考慮しない。また、γは遷移先の状態に対する制御評価値が現在の制御評価値に与える影響を表し、γが０の時は遷移先の状態ｓ_ｔ＋１に対する制御評価値が現在の状態ｓ_ｔの制御評価値に依存しない。

この更新式は、Ｑ学習（例えば、非特許文献７を参照。）と呼ばれており、上記の更新を再帰的に行うことで、最も大きい報酬値を得ることのできる制御の評価値Ｑ（ｓ、ａ）を理論上、最大にすることが可能とされる。

次に，赤信号や他車との接触を回避するための報酬関数は、信号状態に対する車の加速の結果Ｂ（ａ_ｔ）、現在の状態ｓ_ｔにおける時空間距離の総和Ｔ、加速による他車との衝突判定Ｃ（ａ_ｔ）、及び現在の車線と両隣の車線の前後方の車までの距離の総和Ｄを用いて，以下のように表現する。

なお、各パラメータは次の通りである。
総和Ｔは、数５の通りである。

結果Ｂ（ａ_ｔ）は、下記の３つの値域をとる値であり、図３にその概要を示す。

衝突判定Ｃ（ａ_ｔ）は下記の二つの値を取る。

総和Ｄは、数８の通りである。

上記で定義した特徴量ベクトルと報酬関数を用いた強化学習は、実験により、赤信号と他車の回避を行うとともに高い速度で運転できることを確認できた。なお、特徴量の数や値域によりＱ（ｓ_ｔ、ａ_ｔ）が膨大になる場合がある。この場合、深層強化学習（例えば、非特許文献８、９を参照。）を用いることで計算時間を短縮することが可能になる（例えば、非特許文献１０−１２を参照。）。

１１：状態把握部
１２：特徴量抽出部
１３：学習制御部

Claims

対象とする自移動体の位置、目的地までの経路上における複数の道路交通用信号機がそれぞれ移動体に対する停止信号を発報するまでの発報時間、前記自移動体からそれぞれの前記道路交通用信号機までの距離、及び前記自移動体と他の移動体との距離を取得する状態把握手順と、
複数の前記道路交通用信号機のそれぞれについて、前記発報時間と前記道路交通用信号機までの距離とを含む時空間距離ベクトルを算出し、前記自移動体の現在の速度、前記時空間距離ベクトル、及び前記他の移動体との距離で構成される特徴量ベクトルを取得する特徴量抽出手順と、
前記特徴量ベクトルに対する、前記自移動体に加減速と方向転換の少なくとも一つをさせる制御指針を行った結果得られる、停止信号を発報中の前記道路交通用信号機の回避及び前記他の移動体との接触の回避を表す報酬値を用いて強化学習を行い、新たな制御指針を算出して前記自移動体の制御を行う学習制御手順と、
を行う移動体制御方法。
対象とする自移動体の位置、目的地までの経路上における複数の道路交通用信号機がそれぞれ移動体に対する停止信号を発報するまでの発報時間、前記自移動体からそれぞれの前記道路交通用信号機までの距離、及び前記自移動体と他の移動体との距離を取得する状態把握部と、
複数の前記道路交通用信号機のそれぞれについて、前記発報時間と前記道路交通用信号機までの距離とを含む時空間距離ベクトルを算出し、前記自移動体の現在の速度、前記時空間距離ベクトル、及び前記他の移動体との距離で構成される特徴量ベクトルを取得する特徴量抽出部と、
前記特徴量ベクトルに対する、前記自移動体に加減速と方向転換の少なくとも一つをさせる制御指針を行った結果得られる、停止信号を発報中の前記道路交通用信号機の回避及び前記他の移動体との接触の回避を表す報酬値を用いて強化学習を行い、新たな制御指針を算出して前記自移動体の制御を行う学習制御部と、
を備える移動体制御装置。