JP7258077B2 - 他車両行動予測装置 - Google Patents

他車両行動予測装置 Download PDF

Info

Publication number
JP7258077B2
JP7258077B2 JP2021081366A JP2021081366A JP7258077B2 JP 7258077 B2 JP7258077 B2 JP 7258077B2 JP 2021081366 A JP2021081366 A JP 2021081366A JP 2021081366 A JP2021081366 A JP 2021081366A JP 7258077 B2 JP7258077 B2 JP 7258077B2
Authority
JP
Japan
Prior art keywords
vehicle
behavior prediction
information
prediction model
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021081366A
Other languages
English (en)
Other versions
JP2022175160A (ja
Inventor
貴之 井對
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2021081366A priority Critical patent/JP7258077B2/ja
Publication of JP2022175160A publication Critical patent/JP2022175160A/ja
Application granted granted Critical
Publication of JP7258077B2 publication Critical patent/JP7258077B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本願は、他車両行動予測装置に関するものである。
他車両との衝突を回避するため、他車両の行動を予測する技術が提案されている。従来の他車両行動予測技術では、予測対象の車両が隣接レーンの流れに対する「所定の相対的動作」を行ったことを検知することにより、予測対象車両が自車両のレーンへの横移動を開始する前に予測対象車両の行動を予測している(例えば、特許文献1参照)。特許文献1に開示されている他車両行動予測では、上記「所定の相対的動作」を様々な状況について定めている。
また、他車両の行動予測では、機械学習により行動予測モデルを生成する方法もある。従来の行動予測モデル学習装置では、収集した他車両の走行データを用いて、教師あり学習により行動予測モデルを生成する手法を適用している(例えば、非特許文献1参照)。
特開2019-153039号公報
しかしながら、上記のような手法の他車両行動予測において、車両走行速度および車両密度等に対して頑健な他車両行動予測を行う場合、設計コストが増大するおそれがある。特許文献1に記載の技術の場合、「所定の相対的動作」を様々な状況について定めることは、通常、設計段階で人手により実施される。このような場合、複雑な条件分岐を伴う下でのパラメータの調整などのために、設計コストが増大するおそれがある。
また、非特許文献1のように、教師あり学習により行動予測モデルを生成する場合は、他車両の走行データを大量に収集する必要があるため、データ収集に伴うコストが大きく、設計コストが増大するおそれがある。
本願は、上記のような課題を解決するための技術を開示するものであり、設計コストの増大を防ぎつつ、頑健な他車両行動予測を行うことを可能にする他車両行動予測装置を得ることを目的とする。
本願に開示される他車両行動予測装置は、予測対象の他車両の周辺の地図情報と、予測対象の他車両の位置、速度、および加速度を少なくとも含む認知情報とを取得して、地図情報と認知情報とを組み合わせて車両周辺情報を生成する車両周辺情報生成部と、強化学習により学習済みであり、車両周辺情報から、予測対象の他車両の行動予測結果を出力する行動予測モデルを格納する行動予測モデル格納部と、行動予測モデル格納部から行動予測モデルを読み出し、読み出した行動予測モデルに車両周辺情報生成部が生成した車両周辺情報を入力して、予測対象の他車両の行動予測結果を行動予測モデルに出力させる他車両行動予測部とを備え、行動予測モデルは、強化学習において、行動予測対象の車両の平均速度、および行動予測対象の車両が他の車両または障害物と衝突する可能性に基づいて報酬を計算されており、報酬のうちの正の報酬は、平均速度が予め定められた速度以下の場合は、平均速度に対して単調増加する関数によって計算され、平均速度が予め定められた速度よりも大きい場合は、平均速度に対して単調減少する関数によって計算されるものである。
本願に開示される他車両行動予測装置によれば、設計コストの増大を防ぎつつ、頑健な他車両行動予測を行うことができる。

実施の形態1における他車両行動予測装置を示すブロック図である。 実施の形態1における他車両行動予測装置および行動予測モデル学習装置のハードウェア構成の例を示す図である。 実施の形態1における他車両行動予測装置の動作を示すフロー図である。 実施の形態1における行動予測モデル学習装置を示すブロック図である。 実施の形態1に係る強化学習を説明する図である。 実施の形態1に係る学習部を示すブロック図である。 実施の形態1に係る強化学習における報酬の例を示す図である。 実施の形態1における行動予測モデル学習装置の動作を示すフロー図である。
実施の形態1.
実施の形態1を図1から図8に基づいて説明する。図1は、実施の形態1における他車両行動予測装置を示すブロック図である。他車両行動予測装置10は、行動予測モデル学習装置50によって生成された行動予測モデルMを用いて予測対象の他車両(以下、対象他車両)の行動予測を行うものであり、外部から入力される地図情報X1rおよび認知情報X2rに基づいて、他車両の行動予測に用いられる自車両周辺情報Xrを生成する自車両周辺情報生成部11、すなわち車両周辺情報生成部と、行動予測モデル学習装置50で生成された行動予測モデルMを格納する行動予測モデル格納部12と、自車両周辺情報Xrおよび行動予測モデルMを用いて、対象他車両の行動予測を行う他車両行動予測部13と、他車両行動予測部13による行動予測の結果に基づいて、自車両の制御量を演算する車両制御部14とを備えている。なお、対象他車両としては、例えば、自車両が走行するレーンとは隣接するレーンを走行する他車両であって、自車両が走行するレーンに割り込みを行う可能性がある車両などが考えられる。どのような他車両を予測対象とするかは、ユーザが任意に設定可能である。
地図情報X1rは、対象他車両の周辺の地図情報を含むとともに、自車両が走行中の道路およびその道路の周辺に関する地図情報、自車両が走行中の道路のレーンの総数、および自車両が走行しているレーンの番号を含む。なお、ここでの地図情報とは、例えば、自車両の自動運転に使用される地図情報であり、例えばダイナミックマップが該当する。ダイナミックマップは、静的情報と、準静的情報と、準動的情報と、動的情報とからなる。ダイナミックマップの静的情報は、3次元の基盤的地図データである。ダイナミックマップの静的情報は、路面情報、車線情報、および3次元構造物などを含む、地物を示す3次元位置座標または線形ベクトルデータから構成される。準静的情報、準動的情報、および動的情報は、時々刻々と変化する動的データである。準静的情報、準動的情報、および動的情報は、位置参照基盤を基に静的情報に重畳されるデータである。準静的情報は、交通規制情報、道路工事情報、および広域気象情報などを含む。準動的情報は、事故情報、渋滞情報、および狭域気象情報などを含む。動的情報は、ITS情報(周辺車両、歩行者、および信号の情報など)を含む。なお、ダイナミックマップデータは、自車両内部の車載ストレージ(図示無し)に記憶されたものを取得してもよいし、路側機または外部サーバーから取得してもよい。なお、地図情報X1rが少なくとも含む必要がある情報は対象他車両の周辺の地図情報であり、その他の情報は必須ではない。
認知情報X2rは、例えば、自車両に備えられたカメラ、LiDAR(Light Detection And Ranging)、ミリ波レーダ、および超音波ソナーなどの車載センサから得られる自車両の周辺環境の情報であり、少なくとも、自車両の周辺にある他車両の位置、速度、および加速度を示す情報を含んでいる。
自車両周辺情報生成部11は、上述した地図情報X1rおよび認知情報X2rを取得し、取得した地図情報X1rと認知情報X2rとを組み合わせて、自車両に対する他車両(対象他車両を含む)の相対位置および相対速度などをベクトルで表現した情報を自車両周辺情報Xr、すなわち車両周辺情報として生成する。自車両周辺情報生成部11は、生成した自車両情報Xrを他車両行動予測部13に出力する。なお、自車両周辺情報Xrには、自車両の位置、ヨー角、速度、加速度、制御量(例えば、スロットル、ブレーキ、ステアリング)など、自車両の状態を示す情報が含まれていてもよい。
なお、認知情報X2rは、現時刻のものに限定せず、過去時刻のものを含んでいてもよい。また、認知情報X2rは、自車両の車載センサから取得した情報に限定しない。すなわち、上述した認知情報X2rに相当する情報が路側機または他車両の車載センサなどによって取得されている場合、路側機または他車両の車載センサなどによって取得された、認知情報X2rに相当する情報を路車間通信または車々間通信によって取得し、これらの情報に基づいて間接的に得られる情報も認知情報X2rに含まれる。「自車両の周辺にある他車両の位置」を例に説明すると、当該他車両の位置が路側機により取得されている場合、路側機が取得した当該他車両の位置を路車間通信により取得し、当該路側機と自車両の位置関係を反映させることで認知情報X2r(自車両からの当該他車両の位置)とすることができる。このように、路側機または他車両の車載センサなどによって取得される情報に基づく認知情報X2rを用いることにより、自車両からは見えない位置、および自車両の車載センサでは検知できない位置にある他車両についての情報も認知情報X2rに含めて取得することができ、行動予測に用いる自車両周辺情報Xrの情報量が充実化する。このため、対象他車両の行動予測の精度が向上する。
行動予測モデル格納部12に格納されている行動予測モデルMは、予測対象の車両およびその周辺の状態を示す情報から、予測対象の車両の行動予測結果を出力する行動予測モデルであり、行動予測対象の車両が、衝突可能性を低く保ちつつ、できるだけ適した速度(例えば、法定速度により近い速度)で走行するという観点で、様々な走行シーンにおいてとるであろう行動を予測するように、強化学習により生成された学習済の行動予測モデルである。他車両行動予測部13は、行動予測モデルMを行動予測モデル格納部12から読み出し、自車両周辺情報Xrを入力データとして行動予測モデルMに入力して、予測対象とする他車両(この場合は対象他車両)の行動を予測する。この際、自車両周辺情報Xrに含まれていない対象他車両の情報(図1において「対象他車両情報」としている)があれば、他車両行動予測部13は、必要に応じて対象他車両情報も行動予測モデルMに入力する。他車両行動予測部13は、行動予測モデルMを用いて得られる行動予測の結果を行動予測結果Yとして車両制御部14に出力する。このように、他車両行動予測部13は、自車両周辺情報Xrを入力データとして対象他車両の行動予測を行うので、他車両行動予測部13は、自車両周辺情報Xrに対応する走行シーンに応じて、対象他車両の行動を予測することとなる。他車両行動予測部13が出力する行動予測結果Yは、例えば、加速、減速、左レーンに移動、右レーンに移動、現状維持の5種の行動選択肢から、最適と判断される行動を一つ選択した結果となる。行動予測モデルMの生成方法については後述する。
他車両行動予測部13は、対象他車両の位置情報に基づいて、自車両周辺情報Xrの補正を行う機能を有している。より具体的には、自車両周辺情報Xrにおける障害物などの座標情報を、対象他車両の位置が原点になるように座標変換する。この場合、座標変換後の自車両周辺情報Xrを入力データとして行動予測モデルMに入力する。ただし、この変換処理は必須ではなく、例えば、自車両の位置を原点とした上で、対象他車両の行動予測を行う構成としてもよい。
車両制御部14は、行動予測結果Yに基づき、自車両の行動判断、経路計画、車両制御などを含む一連の車両制御処理を行い、得られた結果を自車両の制御量として出力することで、自車両の車両制御を実施する。車両制御部14による具体的な制御内容として、例えば、対象他車両が自車両の前方に割り込みする可能性が高いことを行動予測結果Yが示す場合に、自車両の速度を低減するなどの行動判断を行い、この判断に対応する制御量(自車両の減速制御量)をEPS(Electric Power Steering)モータに出力することなどがある。なお、実施の形態1では「制御量」としているが、車両制御部14の出力は、数量的なものに限定されず、オン・オフ指令などであってもよい。
なお、自車両周辺情報取得部11、行動予測モデル格納部12、他車両行動予測部13、車両制御部14は、必ずしも自車両の内部に配置する必要はなく、これらの機能部の一部を路側機または外部のサーバーに配置してもよい。自車両の内部と外部に配置された機能部との通信は、ネットワークを介して通信または路車間通信により実現される。
上述した、他車両行動予測装置10の各機能部を実現するハードウェア構成について説明する。図2は、実施の形態1における他車両行動予測装置および行動予測モデル学習装置のハードウェア構成の例を示す図である。ここでは他車両行動予測装置10について説明するが、ハードウェア構成については行動予測モデル学習装置50についても同様なので、図2ではまとめて記載している。他車両行動予測装置10は、主に、プロセッサ91と、主記憶装置としてもメモリ92および補助記憶装置93から構成される。プロセッサ91は、例えばCPU(Central Processing Unit)、ASIC(Application Specific Integrated Circuit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)などで構成される。メモリ92はランダムアクセスメモリ等の揮発性記憶装置で構成され、補助記憶装置93はフラッシュメモリ等の不揮発性記憶装置またはハードディスクなどで構成される。補助記憶装置93には、プロセッサ91が実行する所定のプログラムが記憶されており、プロセッサ91は、このプログラムを適宜読み出して実行し、各種演算処理を行う。この際、補助記憶装置93からメモリ92に上記所定のプログラムが一時的に保存され、プロセッサ91はメモリ92からプログラムを読み出す。図1に示した各機能部による演算処理は、上記のようにプロセッサ91が所定のプログラムを実行することで実現される。プロセッサ91による演算処理の結果は、メモリ92に一旦記憶され、実行された演算処理の目的に応じて補助記憶装置93に記憶される。
また、他車両行動予測装置10は、地図情報X1rおよび認知情報X2rの入力など、外部からの各種入力を受け付ける入力回路94と、制御量などの出力を外部に行うための出力回路95を備えている。
次に、他車両行動予測装置10の動作について説明する。なお、ここでは行動予測モデルMは生成済みであるとする。図3は、実施の形態1における他車両行動予測装置の動作を示すフロー図である。
まず、自車両周辺情報生成部11は、車載ストレージ等から地図情報X1rを取得するとともに、車載センサ等から認知情報X2rを取得する(ステップST001)。
次に、自車両周辺情報生成部11は、ステップST001で取得した地図情報X1rと認知情報X2rとを組み合わせ、自車両周辺情報Xrを生成する(ステップST002)。自車両周辺情報生成部11は、生成した自車両周辺情報Xrを他車両行動予測部13に出力する。
次に、他車両行動予測部13は、行動予測モデル格納部12から行動予測モデルMを読み込む(ステップST003)。また他車両行動予測部13は、読み出した行動予測モデルMに対し、自車両周辺情報Xrを入力データとして入力する(ステップST004)。これにより、行動予測モデルMによって対象他車両の行動予測が行われる。また、他車両行動予測部13は、必要に応じて対象他車両情報も行動予測モデルMに入力する。
次に、他車両行動予測部13は、対象他車両の行動予測結果Yとして、行動予測モデルMの出力を取得する(ステップST005)。他車両行動予測部13は、行動予測結果Yを車両制御部14に出力する。
次に、車両制御部14は、行動予測結果Yに基づいて自車両の車両制御処理を行い、得られた結果を自車両の制御量として出力することで、自車両の車両制御を実施する(ステップST006)。
次に、行動予測モデル学習装置50および行動予測モデルMの生成方法について説明する。図4は、実施の形態1における行動予測モデル学習装置を示すブロック図であり、図5は、実施の形態1に係る強化学習を説明する図である。行動予測モデル学習装置50は、様々な走行シーンを再生可能なシミュレータ(図示無し)を有するシミュレーション再生部51と、上記シミュレータが生成するシミュレーション空間における地図情報X1vと認知情報X2vとを組み合わせて自車両周辺情報Xvを生成する自車両周辺情報生成部52、すなわち車両周辺情報生成部と、行動予測モデルMを学習させる学習部53とを備えている。シミュレーション再生部51は、シミュレーション空間内の環境に基づく地図情報X1vおよび認知情報X2vを自車両周辺情報生成部52に出力するとともに、所定の基準に基づいて定められる報酬Rを学習部53に出力する。学習部53は、行動指示Aをシミュレーション再生部51に出力する。地図情報X1vおよび認知情報X2vは、上述した地図情報X1rおよび認知情報X2rに含まれる情報と同種の情報であるが、地図情報X1rおよび認知情報X2rが現実空間の情報であるのに対し、地図情報X1vおよび認知情報X2vは、上記シミュレータが生成するシミュレーション空間内の環境に基づく情報である点が異なる。すなわち、上記シミュレーション空間は、地図情報X1vおよび認知情報X2vを取得可能な空間である。
なお、実施の形態1における強化学習のためのシミュレーションにおいては、シミュレータとなるコンピュータによって生成される仮想空間をシミュレーション空間としている。しかしながら、シミュレーションを行う空間が現実空間であってもよい。例えば、実際の車両を用いた実証実験、またはトイカーを用いた簡易実験などで同様のシミュレーションを行い、実施の形態1と同じ強化学習を行ってもよい。
行動予測モデル学習装置50は、強化学習により行動予測モデルMを学習させる。強化学習は、ある環境内のエージェントが、現在の環境との相互作用から学習して目標を達成する問題を扱うものである。エージェントは、環境に対して継続的に行動を実行し、その行動の応答として環境から新しい状態と報酬が与えられる。エージェントは、行動の実行と、新しい状態および報酬の受領を繰り返し、報酬を最も多く得ることができる行動方針を学習する。
具体的には、図5に示すように、初期状態(時刻t0)において、AI学習側からシミュレータにアクション(図5ではactionと記載)が送られ、シミュレータは、この行動指示をエージェントに与える。エージェントは、シミュレータが生成したシミュレーション空間内で、行動指示に従って行動を実行する。エージェントの行動によりシミュレーション空間内の環境は変化する。シミュレータ側で1step経過したとき(時刻t1)、シミュレータは、変化後の新しい環境と、所定の基準に基づいて決定される報酬をステート(図5ではstateと記載)としてAI学習側に送る。AI学習側は、シミュレータから与えられた新しい環境と報酬に基づき、次のステップの行動指示を決定してシミュレータ側に送る。図中、Δtは、AI学習がシミュレータからの応答を受信してから次のステップの行動指示を送るまでにかかる時間である。このように、シミュレータとAI学習との間で行動指示と応答を繰り返す中で、エージェントは、報酬を最も多く得ることができる行動方針を学習していくこととなる。
図4と図5の対応を説明する。図5のシミュレータは、シミュレーション再生部51に対応している。シミュレーション再生部51において、シミュレーション空間内のエージェントは、「自車両に見立てた対象他車両」である。すなわち、行動予測の予測対象は対象他車両であるが、シミュレーションのエージェントとしては自車両のように扱う。これにより、シミュレーションを通じて自車両の地図情報X1v、認知情報X2v、および自車両周辺情報Xvを得ることで、対象他車両の周辺情報を得ることができる。自車両周辺情報Xvは、見かけ上は自車両の周辺情報であるため、説明でも「自車両周辺情報」と記載しているが、内容的には対象他車両の車両周辺情報となっている。図5のAI学習は、学習部53に対応する。また、図5のアクションは行動指示Aに対応しており、図5のステートに含まれる環境は、地図情報X1v、認知情報X2v、および自車両周辺情報Xvに対応しており、報酬は報酬Rに対応する。
すなわち、シミュレーション再生部51は、様々な走行シーンを再生可能なシミュレータを用いて、シミュレーション空間内の自車両(実際は、自車両に見立てた対象他車両)が、与えられた行動指示に基づいて行動する場合の走行シーンをシミュレーションにより再生する。まず時刻t0において、シミュレーション空間内の対象他車両に行動指示Aが与えられる。行動指示Aの具体例は、加速、減速、左レーンに移動、右レーンに移動、現状維持、などがある。シミュレーション再生部51は、時刻を次のステップに進める。この間に、対象他車両の行動により、シミュレーション空間内の環境が変化する。シミュレーション再生部51は、次のステップ(時刻t1)における地図情報X1vおよび認知情報X2vを自車両周辺情報生成部52に出力する。なお、ここでの地図情報X1vおよび認知情報X2vは、対象他車両の地図情報および認知情報である。シミュレーション空間内の対象他車両による地図情報X1vおよび認知情報X2vの取得は、現実空間内の自車両による地図情報X1rおよび認知情報X2rの取得と同様に行われる。
自車両周辺情報生成部52は、シミュレーション再生部51から取得した地図情報X1vと認知情報X2vとを組み合わせ、自車両周辺情報Xvを生成する。この自車両周辺情報Xvは、内容的には対象他車両の車両周辺情報である。
また、シミュレーション再生部51は、対象他車両への行動指示Aに対し、所定の基準に基づいて報酬Rを決定し、報酬Rを学習部53に出力する。
学習部53は、自車両周辺情報生成部52から取得した自車両周辺情報Xvおよびシミュレーション再生部51から取得した報酬Rを用いて、次の行動指示Aを決定し、時刻t1+Δtにおいて次の行動指示Aをシミュレーション再生部51に出力して、次の行動指示Aを対象他車両に与える。シミュレーション再生部51は、さらに次のステップ(時刻t2)における地図情報X1vおよび認知情報X2vを自車両周辺情報生成部52に出力するとともに、報酬Rを計算して学習部53に出力する。以降も同様のことを繰り返す。
学習部53による行動指示Aの決定について説明する。図6は、実施の形態1に係る学習部を示すブロック図である。学習部53は、強化学習の手法により、自車両周辺情報Xvおよび報酬Rに基づいて行動予測モデルMを更新し、更新後の行動予測モデルMを行動予測モデル格納部12に出力する関数更新部531と、行動指示Aをシミュレーション再生部51に出力する行動指示部532とを備えている。
強化学習の代表的な手法として、Q学習(Q-learning)およびTD学習(TD-learning)が知られている。実施の形態1の関数更新部531はQ学習の手法を用いるため、以下ではQ学習について説明する。ただし、TD学習の手法を用いてもよい。はQ学習の場合、行動価値関数Q(s,a)の一般的な更新式は以下の式(1)で表される。
Figure 0007258077000001
式(1)において、sは時刻tにおける環境の状態を表し、aは時刻tにおける行動を表す。行動aにより、状態はst+1に変わる。rt+1はその状態の変化によってもらえる報酬(報酬R)を表し、γは割引率を表し、αは学習係数を表す。なお、γは0<γ≦1、αは0<α≦1の範囲とする。実施の形態1では、時刻tにおける行動指示Aが行動a、時刻tにおける自車両周辺情報Xvが状態sとなり、時刻tの状態s(自車両周辺情報Xv)おける最良の行動a(行動指示A)を学習する。ここで、「最良の行動a」とは、「累積報酬が最も高くなる行動a」である。rt+1は、時刻t+1における環境および行動によって与えられる報酬Rである。
関数更新部531は、学習中の行動予測モデルMについて、式(1)に従って、行動価値関数Qを更新する。これにより、行動予測モデルMも更新される。関数更新部531は、更新後の行動予測モデルMを行動予測モデル格納部12に格納する。行動指示部532は、更新後の行動価値関数Qに基づいて次の行動指示Aを決定し、シミュレーション再生部51に出力する。
式(1)で表される更新式は、時刻t+1において最もQ値を高くする行動aの行動価値Qが、時刻tにおいて実行された行動aの行動価値Qよりも大きければ、行動価値Qを大きくし、逆の場合は、行動価値Qを小さくする。換言すれば、時刻tにおける行動aの行動価値Qを、時刻t+1における最良の行動価値に近づけるように、行動価値関数Q(s,a)を更新する。それにより、ある環境における最良の行動価値が、それ以前の環境における行動価値に順次伝播していくようになる。
報酬Rについて説明する。図7は、実施の形態1に係る強化学習における報酬の例を示す図である。報酬Rは、対象他車両が、衝突可能性を低く保ちつつ、できるだけ法定速度に近い速度で走行するように設計される。図7に示すように、対象他車両の平均速度vが許容範囲内(予め定められた範囲の範囲内)である場合は、正の報酬R_v(=R_v(v))が与えられる。逆に、対象他車両の平均速度vが許容範囲外(予め定められた範囲の範囲外)である場合は、負の報酬R_oを与える。また、対象他車両から他車等の障害物までの距離が予め定められた閾値Do_th以下である場合、または、対象他車両から壁までの距離が予め定められた閾値Dw_th以下である場合、それぞれ衝突可能性を低く保つことできていないと判断し、それぞれ負の報酬R_d、R_wを与える。また、他車両(対象他車両から見た他車両)に急ブレーキを踏ませる場合も同様に、衝突可能性を低く保つことできていないと判断し、負の報酬R_bを与える。なお、実施の形態1では、上記「許容範囲」の範囲内に法定速度を含むように設定している。ただし、これは法定速度を最適速度と設定しているためであるので、法定速度とは別の速度を最適速度に設定する場合は、その速度を含むように「許容範囲」を設定すればよい。
正の報酬R_vは、対象他車両の平均速度vに依存する。対象他車両の平均速度vができるだけ法定速度に近くなるようにするためには、平均速度vが法定速度以下の場合は正の報酬R_vを平均速度vに対して単調増加させ、平均速度vが法定速度より大きい場合は正の報酬R_vを平均速度vに対して単調減少させるとよい。例えば、正の報酬R_vは、平均速度vに対する単調増加関数f(v)、および平均速度vに対する単調減少関数g(v)を用いて、以下の式(2)、式(3)にように設計することが考えられる。
R_v=R_v(v)=f(v) (v≦法定速度)・・(2)
R_v=R_v(v)=g(v) (v>法定速度)・・(3)
なお、f(v)、g(v)は、平均速度vに対し、それぞれ単調増加、単調減少する関数であればよく、1次関数、2次関数、指数関数等、関数の種類は問わない。
上記したようなそれぞれの状況に対する報酬を用い、報酬Rは、一例として以下の式(4)で表すことができる。
R=R_v+R_o+R_d+R_b・・(4)
式(4)のように報酬Rを設計すれば、環境の変化に応じた報酬Rが学習指針として行動予測モデルMに与えられるため、実施の形態1のような強化学習では教師データを必要としない。なお、式(4)ではR_v(v)などの各報酬を単純に加算して報酬Rを求めているが、各報酬に重みづけを行った上で加算することにより報酬Rを求めてもよい。上述した報酬Rの計算は、シミュレーション再生部51で行われる。
次に、行動予測モデル学習装置50の動作について説明する。図8は、実施の形態1における行動予測モデル学習装置の動作を示すフロー図である。
まず、学習部53の行動指示部532は、シミュレーション再生部51に対して行動指示Aを出力する。この行動指示Aはシミュレーション空間内のエージェントである、「自車両に見立てた対象他車両」に与えられる(ステップST101)。行動指示Aの具体例は上述したとおりである。
次に、シミュレーション再生部51は、行動指示Aに基づいて、報酬Rを計算する(ステップST102)。より具体的には、シミュレーション再生部51は、行動指示Aに応じて1stepの走行シミュレーションを行い、1step経過後(次時刻)の環境における報酬Rを計算する。報酬Rの計算方法は上述したとおりである。シミュレーション再生部51は、報酬Rを学習部53の関数更新部531に出力する。
次に、シミュレーション再生部51は、次時刻における自車両周辺の地図情報X1vおよび認知情報X2vを出力する(ステップST103)。自車両周辺情報生成部52は、シミュレーション再生部51が出力した地図情報X1vおよび認知情報X2vを取得する。
次に、自車両周辺情報生成部52は、シミュレーション再生部51から取得した地図情報X1vと認知情報X2vとを組み合わせ、自車両周辺情報Xvを生成する(ステップST104)。自車両周辺情報生成部52は、生成した自車両周辺情報Xvを学習部53の関数更新部531に出力する。
次に、関数更新部531は、自車両周辺情報Xおよび報酬Rに基づき、強化学習により行動予測モデルMおよび行動価値関数Qを更新する(ステップST105)。関数更新部531は、更新後の行動予測モデルMを行動予測モデル格納部12に格納する。
学習部53は、強化学習を終了するか否かを判定し(ステップST106)、終了する場合は処理を終了する。強化学習を終了しない場合、ステップST101に戻り、行動指示部532は、シミュレーション再生部51に対して現時刻の行動指示Aを出力する。
強化学習を終了するか否かの判断は、例えば、ステップST101からステップ106までの処理が行われた回数が、予め定められた回数以上であるか否かを判定することにより行えばよい。
実施の形態1によれば、設計コストの増大を防ぎつつ、頑健な他車両行動予測を行うことができる。より具体的には、予測対象の他車両の周辺の地図情報および予測対象の他車両の状態を含む自車両周辺情報を生成し、強化学習により学習済みであり、上記自車両周辺情報から予測対象の他車両の行動予測結果を出力する行動予測モデルに、生成された自車両周辺情報を入力することにより予測対象の他車両の行動を予測する。このため、設計段階で人手によって様々な状況に対してルールを定める必要はない。また、教師あり学習のように多量のデータを収集する必要もない。このため、設計コストの増大を防ぎつつ、頑健な他車両行動予測を行うことができるのである。
また、実施の形態1の行動予測モデルの学習においては、行動予測対象の車両の平均速度、および行動予測対象の車両が他の車両などと衝突する可能性を基準として、強化学習に用いる報酬を計算している。このため、隣接レーンの前方を他車両が低速走行していて、かつ、自車両のレーンの前方が空いている状況で、自車両の前方に上記他車両が割り込むような場合において、他車両の車両挙動変化を検知するよりも早く割り込み動作を予測することができ、従来よりも確実に衝突を回避しつつ、例えば法定速度により近い速度など、より適した速度で走行することが可能となる。
本願は、例示的な実施の形態が記載されているが、実施の形態に記載された様々な特徴、態様、及び機能は特定の実施の形態の適用に限られるのではなく、単独で、または様々な組み合わせで実施の形態に適用可能である。
従って、例示されていない無数の変形例が、本願に開示される技術の範囲内において想定される。例えば、少なくとも1つの構成要素を変形する場合、追加する場合または省略する場合が含まれるものとする。
10 他車両行動予測装置、11 自車両周辺情報生成部、12 行動予測モデル格納部、13 他車両行動予測部、14 車両制御部、50 行動予測モデル学習装置、51 シミュレーション再生部、52 自車両周辺情報生成部、53 学習部、531 関数更新部、532 行動指示部、A 行動指示、M 行動予測モデル、R 報酬、Xr、Xv 自車両周辺情報、X1r、X1v 地図情報、X2r、X2v 認知情報、Y 行動予測結果

Claims (1)

  1. 予測対象の他車両の周辺の地図情報と、前記予測対象の他車両の位置、速度、および加速度を少なくとも含む認知情報とを取得して、前記地図情報と前記認知情報とを組み合わせて車両周辺情報を生成する車両周辺情報生成部と、
    強化学習により学習済みであり、前記車両周辺情報から、前記予測対象の他車両の行動予測結果を出力する行動予測モデルを格納する行動予測モデル格納部と、
    前記行動予測モデル格納部から前記行動予測モデルを読み出し、読み出した前記行動予測モデルに前記車両周辺情報生成部が生成した前記車両周辺情報を入力して、前記予測対象の他車両の行動予測結果を前記行動予測モデルに出力させる他車両行動予測部とを備え、
    前記行動予測モデルは、前記強化学習において、行動予測対象の車両の平均速度、および前記行動予測対象の車両が他の車両または障害物と衝突する可能性に基づいて報酬を計算されており、前記報酬のうちの正の報酬は、
    前記平均速度が予め定められた速度以下の場合は、前記平均速度に対して単調増加する関数によって計算され、前記平均速度が前記予め定められた速度よりも大きい場合は、前記平均速度に対して単調減少する関数によって計算されることを特徴とする他車両行動予測装置。
JP2021081366A 2021-05-13 2021-05-13 他車両行動予測装置 Active JP7258077B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021081366A JP7258077B2 (ja) 2021-05-13 2021-05-13 他車両行動予測装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021081366A JP7258077B2 (ja) 2021-05-13 2021-05-13 他車両行動予測装置

Publications (2)

Publication Number Publication Date
JP2022175160A JP2022175160A (ja) 2022-11-25
JP7258077B2 true JP7258077B2 (ja) 2023-04-14

Family

ID=84145623

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021081366A Active JP7258077B2 (ja) 2021-05-13 2021-05-13 他車両行動予測装置

Country Status (1)

Country Link
JP (1) JP7258077B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116091894B (zh) * 2023-03-03 2023-07-14 小米汽车科技有限公司 模型训练方法、车辆控制方法、装置、设备、车辆及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009037561A (ja) 2007-08-03 2009-02-19 Toyota Motor Corp 走行計画生成装置
WO2018110305A1 (ja) 2016-12-14 2018-06-21 ソニー株式会社 情報処理装置及び情報処理方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009037561A (ja) 2007-08-03 2009-02-19 Toyota Motor Corp 走行計画生成装置
WO2018110305A1 (ja) 2016-12-14 2018-06-21 ソニー株式会社 情報処理装置及び情報処理方法

Also Published As

Publication number Publication date
JP2022175160A (ja) 2022-11-25

Similar Documents

Publication Publication Date Title
JP6917878B2 (ja) 移動体挙動予測装置
CN110834644B (zh) 一种车辆控制方法、装置、待控制车辆及存储介质
US11945434B2 (en) Delay decision making for autonomous driving vehicles in response to obstacles based on confidence level and distance
KR102325028B1 (ko) 강화 학습에 기초하여 협업 주행에서 다중 에이전트 센서 퓨전을 수행하는 방법 및 장치
US10824153B2 (en) Cost design for path selection in autonomous driving technology
CN112888612A (zh) 自动驾驶车辆规划
US11851081B2 (en) Predictability-based autonomous vehicle trajectory assessments
JP6838241B2 (ja) 移動体挙動予測装置
CN112149487A (zh) 一种用于自动驾驶的用于训练神经网络对象检测模型的用于确定锚框的方法
US11860634B2 (en) Lane-attention: predicting vehicles' moving trajectories by learning their attention over lanes
CN114435351A (zh) 用于基于神经网络的自动驾驶的系统和方法
CN114987498B (zh) 自动驾驶车辆的拟人化轨迹规划方法、装置、车辆及介质
US20220227391A1 (en) Systems and methods for scenario dependent trajectory scoring
JPWO2020044512A1 (ja) 車載装置、情報処理方法及び情報処理プログラム
JP7258077B2 (ja) 他車両行動予測装置
JP7347252B2 (ja) 車両行動評価装置、車両行動評価方法、および車両行動評価プログラム
US11878712B2 (en) Trajectory planning with obstacle avoidance for autonomous driving vehicles
CN115907250A (zh) 用于调整自主驾驶车辆的运动规划器的基于学习的评论器
WO2022065021A1 (ja) 自動運転装置
US11724717B2 (en) Implementation of dynamic cost function of self-driving vehicles
US20210262819A1 (en) A mixed regular and open-space trajectory planning method for autonomous driving vehicle
US11663913B2 (en) Neural network with lane aggregation for lane selection prediction of moving objects during autonomous driving
JP7400911B1 (ja) 自動運転装置
US20240157944A1 (en) Reinforcement learning for autonomous lane change
CN113137974B (zh) 智能车及其路径规划方法、装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210513

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220802

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220901

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230307

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230404

R151 Written notification of patent or utility model registration

Ref document number: 7258077

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151