JP6839067B2 - 移動体制御方法及び移動体制御装置 - Google Patents

移動体制御方法及び移動体制御装置 Download PDF

Info

Publication number
JP6839067B2
JP6839067B2 JP2017224130A JP2017224130A JP6839067B2 JP 6839067 B2 JP6839067 B2 JP 6839067B2 JP 2017224130 A JP2017224130 A JP 2017224130A JP 2017224130 A JP2017224130 A JP 2017224130A JP 6839067 B2 JP6839067 B2 JP 6839067B2
Authority
JP
Japan
Prior art keywords
moving body
distance
self
road traffic
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017224130A
Other languages
English (en)
Other versions
JP2019096012A (ja
Inventor
后宏 水谷
后宏 水谷
吉田 学
学 吉田
崇洋 秦
崇洋 秦
社家 一平
一平 社家
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017224130A priority Critical patent/JP6839067B2/ja
Publication of JP2019096012A publication Critical patent/JP2019096012A/ja
Application granted granted Critical
Publication of JP6839067B2 publication Critical patent/JP6839067B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Traffic Control Systems (AREA)

Description

本開示は、移動体の動作を制御する技術に関する。
移動体の動作を制御する技術として、障害物を回避するように移動体を操縦する研究がなされている。
U.S.of Japan, "Amis: Advanced mobile information systems", http://www.utms.or.jp/english/system/amis.html. VICS,"Beacon and fm broadcasting", https://www.vics.or.jp/en/ vics/beacon.html. HONDA, "Honda sensing technology", http://www.honda.co.jp/ hondasensing/. W.Liu, J.Liu, J.Peng,and Z.Zhu, "Cooperative multi−agent traffic signal control system using fast gradient−descent function approximation for v2i networks", in Proc. IEEE International Conference on Communications(ICC),2014, pp.2562−2567. W.Lu, Y.Zhang,and Y.Xie,"A multi−agent adaptive traffic signal control system using swarm intelligence and neuro−fuzzy reinforcement learning", in Proc. IEEE Forum on Integrated and Sustainable Transportation System(FISTS),2011, pp.233−238. TOYOTA,"Toyota to boost investment in artificial intelligence by strengthening relationship with preferred networks inc". http://newsroom.toyota.co.jp/en/detail/10679722/. R.S.Sutton and A.G.Barto, Introduction to reinforcement learning. MIT Press Cambridge,1998, vol. 135. V.Mnih, K.Kavukcuoglu, D.Silver, A.A.Rusu, J.Veness, M.G.Bellemare, A.Graves, M.Riedmiller, A.K.Fidjeland, G.Ostrovski et al., "Human−level control through deep reinforcement learning", Nature, vol.518, no.7540, pp.529−533,2015. H.Van Hasselt, A.Guez, and D.Silver, "Deep reinforcement learning with double q−learning". in AAAI,2016, pp.2094−2100. 向井正和,青木博,川邊武俊,"信号機情報を利用した混合整数計画法によるモデル予測型省燃費走行制御", 計測自動制御学会論文集,vol.51, no.12, pp.866−872,2015. V.Nair and G.E.Hinton, "Rectified linear units improve restricted boltzmann machines", in Proc.International Conference on Machine Learning(ICML),2010, pp.807−814. S.Adam, L.Busoniu, and R.Babuska,"Experience replay for realtime reinforcement learning control", IEEE Transactions on Systems, Man, and Cybernetics, Part C(Applications and Reviews),vol.42, no.2, pp.201−212,2012.
近年、信号情報の取得に関して、近年の技術開発により路側に設置された高度化光ビーコンを用いて交通管制センターから路線信号情報(進行方向にある信号までの距離情報、交差点に設置された信号機の赤信号の残時間情報等)を自動車に提供できるようになったため、急速に運転支援の自動化の実現性が高まるようになった(例えば非特許文献1、2を参照)。これらの技術を前提に一般道路における運転支援を検討する場合、信号の状態を取得したうえで、信号状態と周りの他車の挙動を加味し、目的地まで早く到着できるような運転支援技術が必要となると考えられる。
信号状態を加味した運転支援技術について、赤信号の回避・待ち時間の削減を目指した技術が提案されており、1つ先の信号状態から赤信号による停車を避けるために加減速調整を行う方法(例えば、非特許文献3を参照。)や、信号自体がランプの間隔を調整する方法が提案されている(例えば、非特許文献4、5を参照。)。他車の挙動から安全に運転する技術も多数存在しており、近年では、深層学習手法を用いて障害物や他車の状況を検知し、回避行動を自動的に行う技術が提案されている(例えば、非特許文献6を参照。)。
信号状態を加味する運転支援技術は、直近の信号のみを加味しており、その先の信号状態を加味しているわけではないので、目的地までの赤信号による停車時間や目的地までの時間等を短縮できるわけではない。周りの環境変化を加味した既存の運転支援技術は、障害物(他車の動き)に対する回避行動が可能だが、信号の状態等を同時に考慮する運転支援技術は存在しない。
そこで、本発明は、信号状態と障害物の状況を同時に考慮し、目的地までの時間等を短縮できる移動体制御方法及び移動体制御装置を提供することを目的とする。
上記目的を達成するために、本発明に係る移動体制御方法は、カメラ等で認識した移動体の位置、移動体の前後方との車の距離、隣の車線における前後方の車との距離、及び光ビーコンから得られた信号のランプ周期等の状態を把握し、当該状態から強化学習で用いる特徴量ベクトルを算出し、強化学習により現時点における特徴量ベクトルと制御指針から得られる報酬値を用いて制御指針を算出することとした。
具体的には、本発明に係る移動体制御方法は、
移動体の位置、前記移動体に対する複数の停止指令が出されるまでの発報時間、前記移動体とそれぞれの前記停止指令までの距離、及び他の移動体との距離を取得する状態把握手順と、
前記移動体の位置から前記移動体の現在の速度を、及び前記発報時間と前記停止指令までの距離とから前記停止指令の数の時空間距離を算出し、現在の前記速度、前記時空間距離及び前記他の移動体との距離で構成される特徴量ベクトルを取得する特徴量抽出手順と、
前記特徴量ベクトルに対する、前記移動体に加減速と方向転換の少なくとも一つをさせる制御指針を行った結果得られる、前記停止指令の回避及び前記他の移動体との接触の回避を表す報酬値を用いて強化学習を行い、新たな制御指針を算出して前記移動体の制御を行う学習制御手順と、
を行う。
また、本発明に係る移動体制御装置は、
移動体の位置、前記移動体に対する複数の停止指令が出されるまでの発報時間、前記移動体とそれぞれの前記停止指令までの距離、及び他の移動体との距離を取得する状態把握部と、
前記移動体の位置から前記移動体の現在の速度を、及び前記発報時間と前記停止指令までの距離とから前記停止指令の数の時空間距離を算出し、現在の前記速度、前記時空間距離及び前記他の移動体との距離で構成される特徴量ベクトルを取得する特徴量抽出部と、
前記特徴量ベクトルに対する、前記移動体に加減速と方向転換の少なくとも一つをさせる制御指針を行った結果得られる、前記停止指令の回避及び前記他の移動体との接触の回避を表す報酬値を用いて強化学習を行い、新たな制御指針を算出して前記移動体の制御を行う学習制御部と、
を備える。
周囲の車との距離と目的地までの信号の状況(赤信号のタイミング)を特徴量ベクトルに含め、自車の加減速についての制御指針を導き出すので、自車の速度を調整して停止時間を短縮することができる。従って、本発明は、信号状態と障害物の状況を同時に考慮し、目的地までの時間等を短縮できる移動体制御方法及び移動体制御装置を提供することができる。
本発明は、信号状態と障害物の状況を同時に考慮し、目的地までの時間等を短縮できる移動体制御方法及び移動体制御装置を提供することができる。
本発明に係る移動体制御方法を説明するフローチャートである。 本発明に係る移動体制御方法で使用する移動体の特徴量ベクトルを説明する図である。 本発明に係る移動体制御方法で判断する報酬関数のうち、信号状態に対する車の加速の結果を説明する図である。 本発明に係る移動体制御装置を説明する図である。
添付の図面を参照して本発明の実施形態を説明する。以下に説明する実施形態は本発明の実施例であり、本発明は、以下の実施形態に制限されるものではない。なお、本明細書及び図面において符号が同じ構成要素は、相互に同一のものを示すものとする。
強化学習とは、状態・行動・報酬の値を環境に応じて設定し、設定した全ての状態にて報酬の累積和を最大化する行動を算出する方法であり、障害物回避等の技術に応用されている。本願で対象とする、信号情報と他車の挙動を加味した運転支援技術は、3つのモジュールを用いて達成されており、それらは、状態把握部11、特徴量抽出部12及び学習制御部13である(図1を参照。)。
図1の移動体制御装置301は、
移動体の位置、前記移動体に対する複数の停止指令が出されるまでの発報時間、前記移動体とそれぞれの前記停止指令までの距離、及び他の移動体との距離を取得する状態把握部11と、
前記移動体の位置から前記移動体の現在の速度を、及び前記発報時間と前記停止指令までの距離とから前記停止指令の数の時空間距離を算出し、現在の前記速度、前記時空間距離及び前記他の移動体との距離で構成される特徴量ベクトルを取得する特徴量抽出部12と、
前記特徴量ベクトルに対する、前記移動体に加減速と方向転換の少なくとも一つをさせる制御指針を行った結果得られる、前記停止指令の回避及び前記他の移動体との接触の回避を表す報酬値を用いて強化学習を行い、新たな制御指針を算出して前記移動体の制御を行う学習制御部13と、
を備える。
図1は、本実施形態の移動体制御方法を説明するフローチャートである。本移動体制御方法は、
状態把握部11が、移動体の位置、前記移動体に対する複数の停止指令が出されるまでの発報時間、前記移動体とそれぞれの前記停止指令までの距離、及び他の移動体との距離を取得するS11と、
特徴量抽出部12が、前記移動体の位置から前記移動体の現在の速度を、及び前記発報時間と前記停止指令までの距離とから前記停止指令の数の時空間距離を算出し、現在の前記速度、前記時空間距離及び前記他の移動体との距離で構成される特徴量ベクトルを取得する特徴量抽出手順S12と、
学習制御部13が、前記特徴量ベクトルに対する、前記移動体に加減速と方向転換の少なくとも一つをさせる制御指針を行った結果得られる、前記停止指令の回避及び前記他の移動体との接触の回避を表す報酬値を用いて強化学習を行い、新たな制御指針を算出して前記移動体の制御を行う学習制御手順S13と、
を行う。
[状態把握部]
状態把握部11は、現在の移動体の位置、光ビーコンから得られた信号のランプ周期、移動体の前後方との車の距離、両隣の車線における前後方の車との距離を取得できるものとする。なお、取得方法については、車載センサー・カメラ等を用いることができる。
[特徴量抽出部]
特徴量抽出部12は、状態把握部11から得られた情報から、強化学習で用いる特徴量ベクトルを作成して学習制御部13に渡す。数1は当該特徴量ベクトルsの例である。
Figure 0006839067
ここで、vは移動体の現在の速度(履歴)、(dt、dt、・・・、dt)は得られた複数の信号情報から各信号の赤信号(停止指令)になるまでの時間と赤信号までの距離を加味したn個の時空間距離、(df、df、df)は現在の車線と両隣の車線の前方の車までの距離、(db、db、db)は現在の車線と両隣の車線の後方の車までの距離である。なお、特徴量ベクトルの各距離は、任意の定数との除算によって[0,1]に正規化し、除算結果が1を超える場合は1とみなす。
図2は、時空間距離の概要を説明する図である。横軸は時間、縦軸は目的地への進行方向を表す。ここに各信号の位置と赤信号のタイミングを記載し、自車から赤信号までの距離と時間を含むベクトルが時空間距離となる。図2において、破線は赤信号を回避して走行する理想経路(制御された移動体の経路)を示す。
このような時空間距離を利用することで、直近の赤信号だけでなく、いくつもの先の赤信号の回避を目的とすることが可能となることが実験によってわかっている。また、他車との距離については、他車の距離の遷移履歴を用いることも可能とする。なお、車線数が2以下の場合、存在しない車線における前後方の車までの距離を0とする。
[学習制御部]
学習制御部13は、得られた特徴量ベクトルに対して、図2で示す赤信号区間を避けつつ、他車との衝突を回避するための最適な制御指針(例えば、加減速の程度、車線変更等)を決定し、実行する。この制御指針により信号状態と他車の挙動を加味した運転支援が達成できる。学習制御部13は強化学習を用いる。強化学習では、現在(時刻t)、観測している特徴量ベクトルsに対して、制御指針aを実行した際に得られる数2の報酬値を用いて、sにおける制御指針aの価値Q(s,a)を数3のように更新する。
Figure 0006839067
Figure 0006839067
α(0≦α≦1)は学習率を示し、γ(0≦γ≦1)は割引率を示している。αが大きい場合には最新の報酬を重視し、αが1の場合には、過去の報酬を全く考慮しない。また、γは遷移先の状態に対する制御評価値が現在の制御評価値に与える影響を表し、γが0の時は遷移先の状態st+1に対する制御評価値が現在の状態sの制御評価値に依存しない。
この更新式は、Q学習(例えば、非特許文献7を参照。)と呼ばれており、上記の更新を再帰的に行うことで、最も大きい報酬値を得ることのできる制御の評価値Q(s、a)を理論上、最大にすることが可能とされる。
次に,赤信号や他車との接触を回避するための報酬関数は、信号状態に対する車の加速の結果B(a)、現在の状態sにおける時空間距離の総和T、加速による他車との衝突判定C(a)、及び現在の車線と両隣の車線の前後方の車までの距離の総和Dを用いて,以下のように表現する。
Figure 0006839067
なお、各パラメータは次の通りである。
総和Tは、数5の通りである。
Figure 0006839067
結果B(a)は、下記の3つの値域をとる値であり、図3にその概要を示す。
Figure 0006839067
衝突判定C(a)は下記の二つの値を取る。
Figure 0006839067
総和Dは、数8の通りである。
Figure 0006839067
上記で定義した特徴量ベクトルと報酬関数を用いた強化学習は、実験により、赤信号と他車の回避を行うとともに高い速度で運転できることを確認できた。なお、特徴量の数や値域によりQ(s、a)が膨大になる場合がある。この場合、深層強化学習(例えば、非特許文献8、9を参照。)を用いることで計算時間を短縮することが可能になる(例えば、非特許文献10−12を参照。)。
11:状態把握部
12:特徴量抽出部
13:学習制御部

Claims (2)

  1. 対象とする自移動体の位置、目的地までの経路上における複数の道路交通用信号機がそれぞれ移動体に対する停止信号を発報するまでの発報時間、前記移動体からそれぞれの前記道路交通用信号機までの距離、及び前記自移動体と他の移動体との距離を取得する状態把握手順と、
    複数の前記道路交通用信号機のそれぞれについて、前記発報時間と前記道路交通用信号機までの距離とを含む時空間距離ベクトルを算出し、前記自移動体の現在速度、前記時空間距離ベクトル、及び前記他の移動体との距離で構成される特徴量ベクトルを取得する特徴量抽出手順と、
    前記特徴量ベクトルに対する、前記移動体に加減速と方向転換の少なくとも一つをさせる制御指針を行った結果得られる、停止信号を発報中の前記道路交通用信号機の回避及び前記他の移動体との接触の回避を表す報酬値を用いて強化学習を行い、新たな制御指針を算出して前記移動体の制御を行う学習制御手順と、
    を行う移動体制御方法。
  2. 対象とする自移動体の位置、目的地までの経路上における複数の道路交通用信号機がそれぞれ移動体に対する停止信号を発報するまでの発報時間、前記移動体からそれぞれの前記道路交通用信号機までの距離、及び前記自移動体と他の移動体との距離を取得する状態把握部と、
    複数の前記道路交通用信号機のそれぞれについて、前記発報時間と前記道路交通用信号機までの距離とを含む時空間距離ベクトルを算出し、前記自移動体の現在速度、前記時空間距離ベクトル、及び前記他の移動体との距離で構成される特徴量ベクトルを取得する特徴量抽出部と、
    前記特徴量ベクトルに対する、前記移動体に加減速と方向転換の少なくとも一つをさせる制御指針を行った結果得られる、停止信号を発報中の前記道路交通用信号機の回避及び前記他の移動体との接触の回避を表す報酬値を用いて強化学習を行い、新たな制御指針を算出して前記移動体の制御を行う学習制御部と、
    を備える移動体制御装置。
JP2017224130A 2017-11-22 2017-11-22 移動体制御方法及び移動体制御装置 Active JP6839067B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017224130A JP6839067B2 (ja) 2017-11-22 2017-11-22 移動体制御方法及び移動体制御装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017224130A JP6839067B2 (ja) 2017-11-22 2017-11-22 移動体制御方法及び移動体制御装置

Publications (2)

Publication Number Publication Date
JP2019096012A JP2019096012A (ja) 2019-06-20
JP6839067B2 true JP6839067B2 (ja) 2021-03-03

Family

ID=66971762

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017224130A Active JP6839067B2 (ja) 2017-11-22 2017-11-22 移動体制御方法及び移動体制御装置

Country Status (1)

Country Link
JP (1) JP6839067B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110554707B (zh) * 2019-10-17 2022-09-30 陕西师范大学 一种飞行器姿态控制回路的q学习自动调参方法
JP7400371B2 (ja) * 2019-11-13 2023-12-19 オムロン株式会社 ロボット制御モデル学習方法、ロボット制御モデル学習装置、ロボット制御モデル学習プログラム、ロボット制御方法、ロボット制御装置、ロボット制御プログラム、及びロボット
WO2023132092A1 (ja) * 2022-01-05 2023-07-13 日立Astemo株式会社 車両制御システム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10254505A (ja) * 1997-03-14 1998-09-25 Toyota Motor Corp 自動制御装置
JP2009181187A (ja) * 2008-01-29 2009-08-13 Toyota Central R&D Labs Inc 行動モデル作成装置及びプログラム
US8478500B1 (en) * 2009-09-01 2013-07-02 Clemson University System and method for utilizing traffic signal information for improving fuel economy and reducing trip time
JP5445371B2 (ja) * 2010-07-15 2014-03-19 株式会社デンソー 運転支援車載装置及び路車間通信システム
JP5893481B2 (ja) * 2012-04-04 2016-03-23 株式会社 ミックウェア ナビゲーション装置、ナビゲーション方法、およびプログラム

Also Published As

Publication number Publication date
JP2019096012A (ja) 2019-06-20

Similar Documents

Publication Publication Date Title
US11567514B2 (en) Autonomous and user controlled vehicle summon to a target
US10023230B2 (en) Drive assist device, and drive assist method
US10782683B2 (en) Vehicle control device
CN110050301B (zh) 车辆控制装置
US9415775B2 (en) Drive assist apparatus, and drive assist method
WO2022057630A1 (zh) 数据处理方法、装置、设备以及存储介质
CN103935361B (zh) 用于自主的车道变换、经过和超越行为的有效数据流算法
EP3696789B1 (en) Driving control method and driving control apparatus
JP6839067B2 (ja) 移動体制御方法及び移動体制御装置
JPWO2018029758A1 (ja) 自動運転車両の制御方法及び制御装置
US11247677B2 (en) Vehicle control device for maintaining inter-vehicle spacing including during merging
JP7293635B2 (ja) 自動運転システム
WO2020157533A1 (ja) 車両の走行制御方法及び走行制御装置
JP2018025977A (ja) 自動運転システム
EP3895947A1 (en) Parking control method and parking control device
JP7196766B2 (ja) 運転支援システム
CN110678372A (zh) 车辆控制装置
CN110654380B (zh) 用于控制车辆的方法和装置
CN111788616A (zh) 用于运行至少一个自动化车辆的方法
JP2909106B2 (ja) 移動車の走行制御装置
JP6253175B2 (ja) 車両の外部環境認識装置
CN112236352A (zh) 用于确定车辆的经更新的轨迹的方法
CN105711568B (zh) 车辆控制方法和装置
JP7393260B2 (ja) 推定装置
CN112644485A (zh) 自主车辆的控制

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191211

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200923

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201006

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210209

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210212

R150 Certificate of patent or registration of utility model

Ref document number: 6839067

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150