JP2022107296A - 車両制御装置、車両制御方法、およびプログラム - Google Patents

車両制御装置、車両制御方法、およびプログラム Download PDF

Info

Publication number
JP2022107296A
JP2022107296A JP2021002159A JP2021002159A JP2022107296A JP 2022107296 A JP2022107296 A JP 2022107296A JP 2021002159 A JP2021002159 A JP 2021002159A JP 2021002159 A JP2021002159 A JP 2021002159A JP 2022107296 A JP2022107296 A JP 2022107296A
Authority
JP
Japan
Prior art keywords
state value
vehicle
time point
state
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021002159A
Other languages
English (en)
Inventor
建 後藤
Ken Goto
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2021002159A priority Critical patent/JP2022107296A/ja
Publication of JP2022107296A publication Critical patent/JP2022107296A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Control Of Driving Devices And Active Controlling Of Vehicle (AREA)
  • Traffic Control Systems (AREA)

Abstract

【課題】将来の状態を考慮した速度制御を行う際に、適切な制約を設定することで好適な解を得ること。【解決手段】状態空間において複数の時点間に生じる行動量を複数の候補の中から選択することで定義される複数の状態パスのそれぞれについて、状態価値を算出する状態価値算出部と、状態価値の高い状態パスに従って車両の将来の速度推移を決定する速度決定部と、を備え、状態価値算出部は、開始時点から目標時点までの間の各時点について、一以上の評価対象量に基づく報酬関数値を算出し、報酬関数値を時系列に合計することで前記状態価値を算出するものであり、複数の要素のうち二以上の要素を軸とする複数の部分空間のうち一部または全部に設定される、状態価値を低下させる第1領域と、報酬関数値を低下させる第2領域とに従って状態価値を算出する、車両制御装置。【選択図】図2

Description

本発明は、車両制御装置、車両制御方法、およびプログラムに関する。
従来、車両を自動的に(Automatedly)制御する技術(自動運転)について実用化が進められている。自動運転における各種の制御を、現在時点の環境に基づくフィードバック制御だけでなく、将来の状態を考慮したモデリングによって行うことについて研究がなされている。特許文献1、2には、マルコフ決定過程を用いたモデリングによって自動運転の行動計画を生成することについて記載されている。
特表2020-510570号公報 国際公開第2019/167457号
車両の速度制御には考慮すべき要素が種々存在し、適切な制約を設定しなければ誤った解が導出される場合がある。また、不要な試行錯誤が発生して処理負荷が過大となることも懸念される。
本発明は、このような事情を考慮してなされたものであり、将来の状態を考慮した速度制御を行う際に、適切な制約を設定することで好適な解を得ることができる車両制御装置、車両制御方法、およびプログラムを提供することを目的の一つとする。
この発明に係る車両制御装置、車両制御方法、およびプログラムは、以下の構成を採用した。
(1):この発明の一態様に係る車両制御装置は、時間を含み、車両の移動に関連する複数の要素を軸とする状態空間において、開始時点から目標時点までの間の複数の時点間に生じる行動量を複数の候補の中から選択することで定義される、前記開始時点から前記目標時点までの間の複数の状態パスのそれぞれについて、状態価値を算出する状態価値算出部と、前記状態価値の高い状態パスに従って前記車両の将来の速度推移を決定する速度決定部と、を備え、前記状態価値算出部は、開始時点から目標時点までの間の各時点について、一以上の評価対象量に基づく報酬関数値を算出し、前記報酬関数値を時系列に合計することで前記状態価値を算出するものであり、前記複数の要素のうち二以上の要素を軸とする複数の部分空間のうち一部または全部に設定される、前記状態価値を低下させる第1領域と、前記報酬関数値を低下させる第2領域とに従って前記状態価値を算出する。
(2):上記(1)の態様において、前記複数の要素は、時間、前記車両の進行方向に関する位置、速度、および加速度のうち一部または全部を含むものである。
(3):上記(1)または(2)の態様において、前記行動量は、ジャークであるものである。
(4):上記(1)から(3)のいずれかの態様において、前記一以上の評価対象量は、前記車両の速度、加速度、およびジャークを含むものである。
(5):上記(1)から(4)のいずれかの態様において、前記車両の周辺状況を認識する認識部を更に備え、前記状態価値算出部は、前記車両の周辺状況に基づいて、前記複数の部分空間のうち一部または全部に、前記第1領域と前記第2領域とのうち一方または双方を設定するものである。
(6):上記(5)の態様において、前記状態価値算出部は、前記車両の周辺状況に静的目標物が含まれる場合、位置と速度とを軸とする部分空間に前記第1領域と前記第2領域とを設定するものである。
(7):上記(5)または(6)の態様において、前記状態価値算出部は、前記車両の周辺状況に動的目標物が含まれる場合、位置と時間とを軸とする部分空間に前記第1領域と前記第2領域とを設定するものである。
(8):上記(5)から(7)のいずれかの態様において、前記状態価値算出部は、前記第1領域と前記第2領域とを互いに隣接させて設定するものである。
(9):本発明の他の態様に係る車両制御方法は、車両制御装置が、時間を含み、車両の移動に関連する複数の要素を軸とする状態空間において、開始時点から目標時点までの間の複数の時点間に生じる行動量を複数の候補の中から選択することで定義される、前記開始時点から前記目標時点までの間の複数の状態パスのそれぞれについて、状態価値を算出し、前記状態価値の高い状態パスに従って前記車両の将来の速度推移を決定し、前記状態価値を算出する際に、開始時点から目標時点までの間の各時点について、一以上の評価対象量に基づく報酬関数値を算出し、前記報酬関数値を時系列に合計することで前記状態価値を算出し、前記複数の要素のうち二以上の要素を軸とする複数の部分空間のうち一部または全部に設定される、前記状態価値を低下させる第1領域と、前記報酬関数値を低下させる第2領域とに従って前記状態価値を算出するものである。
(10):本発明の他の態様に係るプログラムは、コンピュータに、時間を含み、車両の移動に関連する複数の要素を軸とする状態空間において、開始時点から目標時点までの間の複数の時点間に生じる行動量を複数の候補の中から選択することで定義される、前記開始時点から前記目標時点までの間の複数の状態パスのそれぞれについて、状態価値を算出させ、前記状態価値の高い状態パスに従って前記車両の将来の速度推移を決定させるプログラムであって、前記状態価値を算出させる際に、開始時点から目標時点までの間の各時点について、一以上の評価対象量に基づく報酬関数値を算出し、前記報酬関数値を時系列に合計することで前記状態価値を算出させ、前記複数の要素のうち二以上の要素を軸とする複数の部分空間のうち一部または全部に設定される、前記状態価値を低下させる第1領域と、前記報酬関数値を低下させる第2領域とに従って前記状態価値を算出させるものである。
上記(1)~(10)の態様によれば、将来の状態を考慮した速度制御を行う際に、適切な制約を設定することで好適な解を得ることができる。
実施形態に係る車両制御装置を利用した車両システム1の構成図である。 第1制御部120および第2制御部160の機能構成図である。 状態パスの定義について説明するための図である。 部分空間制約マップ146の第1例を示す図である。 部分空間制約マップ146の第2例を示す図である。 状態価値算出部142および速度決定部144により実行される処理の流れの一例を示すフローチャートである。
以下、図面を参照し、本発明の車両制御装置、車両制御方法、およびプログラムの実施形態について説明する。
[全体構成]
図1は、実施形態に係る車両制御装置を利用した車両システム1の構成図である。車両システム1が搭載される車両は、例えば、二輪や三輪、四輪等の車両であり、その駆動源は、ディーゼルエンジンやガソリンエンジンなどの内燃機関、電動機、或いはこれらの組み合わせである。電動機は、内燃機関に連結された発電機による発電電力、或いは二次電池や燃料電池の放電電力を使用して動作する。
車両システム1は、例えば、カメラ10と、レーダ装置12と、LIDAR(Light Detection and Ranging)14と、物体認識装置16と、通信装置20と、HMI(Human Machine Interface)30と、車両センサ40と、ナビゲーション装置50と、MPU(Map Positioning Unit)60と、運転操作子80と、自動運転制御装置100と、走行駆動力出力装置200と、ブレーキ装置210と、ステアリング装置220とを備える。これらの装置や機器は、CAN(Controller Area Network)通信線等の多重通信線やシリアル通信線、無線通信網等によって互いに接続される。なお、図1に示す構成はあくまで一例であり、構成の一部が省略されてもよいし、更に別の構成が追加されてもよい。
カメラ10は、例えば、CCD(Charge Coupled Device)やCMOS(Complementary Metal Oxide Semiconductor)等の固体撮像素子を利用したデジタルカメラである。カメラ10は、車両システム1が搭載される車両(以下、自車両M)の任意の箇所に取り付けられる。前方を撮像する場合、カメラ10は、フロントウインドシールド上部やルームミラー裏面等に取り付けられる。カメラ10は、例えば、周期的に繰り返し自車両Mの周辺を撮像する。カメラ10は、ステレオカメラであってもよい。
レーダ装置12は、自車両Mの周辺にミリ波などの電波を放射すると共に、物体によって反射された電波(反射波)を検出して少なくとも物体の位置(距離および方位)を検出する。レーダ装置12は、自車両Mの任意の箇所に取り付けられる。レーダ装置12は、FM-CW(Frequency Modulated Continuous Wave)方式によって物体の位置および速度を検出してもよい。
LIDAR14は、自車両Mの周辺に光(或いは光に近い波長の電磁波)を照射し、散乱光を測定する。LIDAR14は、発光から受光までの時間に基づいて、対象までの距離を検出する。照射される光は、例えば、パルス状のレーザー光である。LIDAR14は、自車両Mの任意の箇所に取り付けられる。
物体認識装置16は、カメラ10、レーダ装置12、およびLIDAR14のうち一部または全部による検出結果に対してセンサフュージョン処理を行って、物体の位置、種類、速度などを認識する。物体認識装置16は、認識結果を自動運転制御装置100に出力する。物体認識装置16は、カメラ10、レーダ装置12、およびLIDAR14の検出結果をそのまま自動運転制御装置100に出力してよい。車両システム1から物体認識装置16が省略されてもよい。
通信装置20は、例えば、セルラー網やWi-Fi網、Bluetooth(登録商標)、DSRC(Dedicated Short Range Communication)などを利用して、自車両Mの周辺に存在する他車両と通信し、或いは無線基地局を介して各種サーバ装置と通信する。
HMI30は、自車両Mの乗員に対して各種情報を提示すると共に、乗員による入力操作を受け付ける。HMI30は、各種表示装置、スピーカ、ブザー、タッチパネル、スイッチ、キーなどを含む。
車両センサ40は、自車両Mの速度を検出する車速センサ、加速度を検出する加速度センサ、鉛直軸回りの角速度を検出するヨーレートセンサ、自車両Mの向きを検出する方位センサ等を含む。
ナビゲーション装置50は、例えば、GNSS(Global Navigation Satellite System)受信機51と、ナビHMI52と、経路決定部53とを備える。ナビゲーション装置50は、HDD(Hard Disk Drive)やフラッシュメモリなどの記憶装置に第1地図情報54を保持している。GNSS受信機51は、GNSS衛星から受信した信号に基づいて、自車両Mの位置を特定する。自車両Mの位置は、車両センサ40の出力を利用したINS(Inertial Navigation System)によって特定または補完されてもよい。ナビHMI52は、表示装置、スピーカ、タッチパネル、キーなどを含む。ナビHMI52は、前述したHMI30と一部または全部が共通化されてもよい。経路決定部53は、例えば、GNSS受信機51により特定された自車両Mの位置(或いは入力された任意の位置)から、ナビHMI52を用いて乗員により入力された目的地までの経路(以下、地図上経路)を、第1地図情報54を参照して決定する。第1地図情報54は、例えば、道路を示すリンクと、リンクによって接続されたノードとによって道路形状が表現された情報である。第1地図情報54は、道路の曲率やPOI(Point Of Interest)情報などを含んでもよい。地図上経路は、MPU60に出力される。ナビゲーション装置50は、地図上経路に基づいて、ナビHMI52を用いた経路案内を行ってもよい。ナビゲーション装置50は、例えば、乗員の保有するスマートフォンやタブレット端末等の端末装置の機能によって実現されてもよい。ナビゲーション装置50は、通信装置20を介してナビゲーションサーバに現在位置と目的地を送信し、ナビゲーションサーバから地図上経路と同等の経路を取得してもよい。
MPU60は、例えば、推奨車線決定部61を含み、HDDやフラッシュメモリなどの記憶装置に第2地図情報62を保持している。推奨車線決定部61は、ナビゲーション装置50から提供された地図上経路を複数のブロックに分割し(例えば、車両進行方向に関して100[m]毎に分割し)、第2地図情報62を参照してブロックごとに推奨車線を決定する。推奨車線決定部61は、左から何番目の車線を走行するといった決定を行う。推奨車線決定部61は、地図上経路に分岐箇所が存在する場合、自車両Mが、分岐先に進行するための合理的な経路を走行できるように、推奨車線を決定する。
第2地図情報62は、第1地図情報54よりも高精度な地図情報である。第2地図情報62は、例えば、車線の中央の情報あるいは車線の境界の情報等を含んでいる。また、第2地図情報62には、道路情報、交通規制情報、住所情報(住所・郵便番号)、施設情報、電話番号情報などが含まれてよい。第2地図情報62は、通信装置20が他装置と通信することにより、随時、アップデートされてよい。
運転操作子80は、例えば、アクセルペダル、ブレーキペダル、シフトレバー、ステアリングホイール、異形ステア、ジョイスティックその他の操作子を含む。運転操作子80には、操作量あるいは操作の有無を検出するセンサが取り付けられており、その検出結果は、自動運転制御装置100、もしくは、走行駆動力出力装置200、ブレーキ装置210、およびステアリング装置220のうち一部または全部に出力される。
自動運転制御装置100は、例えば、第1制御部120と、第2制御部160とを備える。第1制御部120と第2制御部160は、それぞれ、例えば、CPU(Central Processing Unit)などのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。また、これらの構成要素のうち一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)などのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予め自動運転制御装置100のHDDやフラッシュメモリなどの記憶装置(非一過性の記憶媒体を備える記憶装置)に格納されていてもよいし、DVDやCD-ROMなどの着脱可能な記憶媒体に格納されており、記憶媒体(非一過性の記憶媒体)がドライブ装置に装着されることで自動運転制御装置100のHDDやフラッシュメモリにインストールされてもよい。自動運転制御装置100は「車両制御装置」の一例であり、行動計画生成部140と第2制御部160を合わせたものが「運転制御部」の一例である。
図2は、第1制御部120および第2制御部160の機能構成図である。第1制御部120は、例えば、認識部130と、行動計画生成部140とを備える。行動計画生成部140は、状態価値算出部142と、速度決定部144とを備える。状態価値算出部142は、状態パス定義部142Aと、算出部142Bとを備える。行動計画生成部140が参照可能なメモリ領域には、一以上の部分空間制約マップ146が格納されている。状態価値算出部142、速度決定部144、および部分空間制約マップ146の内容については後述する。
第1制御部120は、例えば、AI(Artificial Intelligence;人工知能)による機能と、予め与えられたモデルによる機能とを並行して実現する。例えば、「交差点を認識する」機能は、ディープラーニング等による交差点の認識と、予め与えられた条件(パターンマッチング可能な信号、道路標示などがある)に基づく認識とが並行して実行され、双方に対してスコア付けして総合的に評価することで実現されてよい。これによって、自動運転の信頼性が担保される。
認識部130は、カメラ10、レーダ装置12、およびLIDAR14から物体認識装置16を介して入力された情報に基づいて、自車両Mの周辺にある物体の位置、および速度、加速度等の状態を認識する。物体の位置は、例えば、自車両Mの代表点(重心や駆動軸中心など)を原点とした絶対座標上の位置として認識され、制御に使用される。物体の位置は、その物体の重心やコーナー等の代表点で表されてもよいし、表現された領域で表されてもよい。物体の「状態」とは、物体の加速度やジャーク、あるいは「行動状態」(例えば車線変更をしている、またはしようとしているか否か)を含んでもよい。
また、認識部130は、例えば、自車両Mが走行している車線(走行車線)を認識する。例えば、認識部130は、第2地図情報62から得られる道路区画線のパターン(例えば実線と破線の配列)と、カメラ10によって撮像された画像から認識される自車両Mの周辺の道路区画線のパターンとを比較することで、走行車線を認識する。なお、認識部130は、道路区画線に限らず、道路区画線や路肩、縁石、中央分離帯、ガードレールなどを含む走路境界(道路境界)を認識することで、走行車線を認識してもよい。この認識において、ナビゲーション装置50から取得される自車両Mの位置やINSによる処理結果が加味されてもよい。また、認識部130は、一時停止線、障害物、赤信号、料金所、その他の道路事象を認識する。
認識部130は、走行車線を認識する際に、走行車線に対する自車両Mの位置や姿勢を認識する。認識部130は、例えば、自車両Mの基準点の車線中央からの乖離、および自車両Mの進行方向の車線中央を連ねた線に対してなす角度を、走行車線に対する自車両Mの相対位置および姿勢として認識してもよい。これに代えて、認識部130は、走行車線のいずれかの側端部(道路区画線または道路境界)に対する自車両Mの基準点の位置などを、走行車線に対する自車両Mの相対位置として認識してもよい。
行動計画生成部140は、原則的には推奨車線決定部61により決定された推奨車線を走行し、更に、自車両Mの周辺状況に対応できるように、自車両Mが自動的に(運転者の操作に依らずに)将来走行する目標軌道を生成する。目標軌道は、例えば、速度要素を含んでいる。例えば、目標軌道は、自車両Mの到達すべき地点(軌道点)を順に並べたものとして表現される。軌道点は、道なり距離で所定の走行距離(例えば数[m]程度)ごとの自車両Mの到達すべき地点であり、それとは別に、所定のサンプリング時間(例えば0コンマ数[sec]程度)ごとの目標速度および目標加速度が、目標軌道の一部として生成される。また、軌道点は、所定のサンプリング時間ごとの、そのサンプリング時刻における自車両Mの到達すべき位置であってもよい。この場合、目標速度や目標加速度の情報は軌道点の間隔で表現される。
行動計画生成部140は、目標軌道を生成するにあたり、自動運転のイベントを設定してよい。自動運転のイベントには、定速走行イベント、低速追従走行イベント、車線変更イベント、分岐イベント、合流イベント、テイクオーバーイベントなどがある。行動計画生成部140は、起動させたイベントに応じた目標軌道を生成する。
第2制御部160は、行動計画生成部140によって生成された目標軌道を、予定の時刻通りに自車両Mが通過するように、走行駆動力出力装置200、ブレーキ装置210、およびステアリング装置220を制御する。
図2に戻り、第2制御部160は、例えば、取得部162と、速度制御部164と、操舵制御部166とを備える。取得部162は、行動計画生成部140により生成された目標軌道(軌道点)の情報を取得し、メモリ(不図示)に記憶させる。速度制御部164は、メモリに記憶された目標軌道に付随する速度要素に基づいて、走行駆動力出力装置200またはブレーキ装置210を制御する。操舵制御部166は、メモリに記憶された目標軌道の曲がり具合に応じて、ステアリング装置220を制御する。速度制御部164および操舵制御部166の処理は、例えば、フィードフォワード制御とフィードバック制御との組み合わせにより実現される。一例として、操舵制御部166は、自車両Mの前方の道路の曲率に応じたフィードフォワード制御と、目標軌道からの乖離に基づくフィードバック制御とを組み合わせて実行する。
走行駆動力出力装置200は、車両が走行するための走行駆動力(トルク)を駆動輪に出力する。走行駆動力出力装置200は、例えば、内燃機関、電動機、および変速機などの組み合わせと、これらを制御するECU(Electronic Control Unit)とを備える。ECUは、第2制御部160から入力される情報、或いは運転操作子80から入力される情報に従って、上記の構成を制御する。
ブレーキ装置210は、例えば、ブレーキキャリパーと、ブレーキキャリパーに油圧を伝達するシリンダと、シリンダに油圧を発生させる電動モータと、ブレーキECUとを備える。ブレーキECUは、第2制御部160から入力される情報、或いは運転操作子80から入力される情報に従って電動モータを制御し、制動操作に応じたブレーキトルクが各車輪に出力されるようにする。ブレーキ装置210は、運転操作子80に含まれるブレーキペダルの操作によって発生させた油圧を、マスターシリンダを介してシリンダに伝達する機構をバックアップとして備えてよい。なお、ブレーキ装置210は、上記説明した構成に限らず、第2制御部160から入力される情報に従ってアクチュエータを制御して、マスターシリンダの油圧をシリンダに伝達する電子制御式油圧ブレーキ装置であってもよい。
ステアリング装置220は、例えば、ステアリングECUと、電動モータとを備える。電動モータは、例えば、ラックアンドピニオン機構に力を作用させて転舵輪の向きを変更する。ステアリングECUは、第2制御部160から入力される情報、或いは運転操作子80から入力される情報に従って、電動モータを駆動し、転舵輪の向きを変更させる。
[状態価値に基づく速度制御]
以下、状態価値算出部142と速度決定部144による速度制御について説明する。状態価値算出部142と速度決定部144は、動的計画法、より具体的にはマルコフ決定過程を用いて自車両Mの将来の速度推移(以下、速度プロファイル)を決定する。
状態価値算出部142の状態パス定義部142Aは、車両の移動に関連する複数の要素であって、時間を含む複数の要素を軸とする状態空間において、開始時点から目標時点までの間の複数の時点間に生じる行動量を複数の候補の中から選択することで状態パスを定義する。「開始時点」とは、例えば現時点である(制御遅れを考慮して微小時間後の時点でもよい)。「複数の要素」は、例えば、{時間、進行方向(道路長手方向)に関する位置、速度、加速度}である。時間以外の要素が複数の要素から除外されてもよいし、別の要素が複数の要素に追加されてもよい。以下、各要素が具体的な値をとることで決定されるものを「状態」と称する。「行動量」は、速度に関する物理量であればよく、例えばジャーク(躍度)である。この処理において、時間は所定幅(例えば1[sec])刻みで進行する。図3は、状態パスの定義について説明するための図である。状態パス定義部142Aは、例えば、開始時点から目標時点までの間の複数の時点間(1[sec]経過するごと)に生じるジャークの候補を例えば(0.5)、(0.3)、(0.1)、(0)、(-0.1)、(-0.3)、(-0.5)のように複数個用意し、その時点間でジャークの候補から選択した一つのジャークで定ジャーク走行した場合の次の時点の状態を算出する。状態パス定義部142Aは、これを時点が進行するのに応じて波及的に実行し、目標時点(例えば開始時点の数[sec]後~十数[sec]後)まで行う。図中、SPは状態パスのうち一つを表している。状態パスとは、開始時点から順に辿れる状態を、各時点で一つずつ選択することで決定される、一連の状態をいう。ジャークの候補がk個用意され、開始時点から目標時点までの時間がh[sec]であるとすると、kのh乗の状態パスが生成される。
算出部142Bは、状態パスごとに、開始時点から目標時点までの間の各時点について、一以上の評価対象量に基づく報酬関数値を算出する。評価対象量は、車両の移動に関連する物理量であり、例えば、速度、加速度、およびジャークを含む。報酬関数値を算出するための報酬関数f(i,t)は、例えば式(1)で表される。式中、iは状態パスの識別情報であり、tは時点である。報酬関数f(i,t)は、例えば、原則的に、速度が高いほど高い値を返し、加速度の絶対値が高いほど低い値を返し、ジャークの絶対値が高いほど低い値を返す関数である。速度が高く、加速度やジャークが低いということは、自車両Mが不要な加減速をせずに走行できているということを表すので、報酬関数f(i,t)は、そのような場合に高い値(良好であることを示す値)を返すように定義されている。また、報酬関数f(i,t)が出力する値の最小値は、ゼロになるように設定されている。
報酬関数=f(i,t){速度,加速度,ジャーク} …(1)
そして、算出部142Bは、報酬関数値を時系列に合計することで、状態パスiごとの状態価値SV(i)を算出する。状態価値は、例えば式(2)で表される。
SV(i)=Σt=0 f(i,t) …(2)
上記の計算において、算出部142Bは、認識部130の認識結果に基づいて部分空間制約マップ146を設定し、それを反映させて報酬関数値や状態価値を求める。部分空間制約マップ146は、複数の「要素」のうち二以上の要素を軸とする複数の部分空間のうち一部または全部に設定されるものである。算出部142Bは、部分空間制約マップ146に、状態価値SV(i)を低下させる(例えばゼロにする)禁止領域(第1領域)と、報酬関数値を低下させる(例えばゼロにする)非推奨領域(第2領域)とのうち一方または双方を設定する。
図4は、部分空間制約マップ146の第1例を示す図である。この部分空間制約マップ146(1)は、静的目標物に対する制約を規定したものであり、位置と速度を軸とした平面で定義されている。図中、A1は禁止領域であり、A2は非推奨領域である。また、V1は法定速度などの制限速度であり、X1は「その位置で停止する(速度をゼロにする)べき位置」である。例えば、信号機の手前の停止線の位置などがX1として設定される。算出部142Bは、位置と速度を軸とした平面において速度がV1以上の領域を禁止領域A1に設定する。また、算出部142Bは、想定される最大限の減速をしても位置X1で停止できない領域を禁止領域A1に設定する。また、算出部142Bは、禁止領域A1以外の領域において禁止領域A1に近い境界部の領域を、非推奨領域A2に設定する。つまり、禁止領域A1と非推奨領域は隣接している。これらを統合すると、図4に示す部分空間制約マップ146(1)となる。禁止領域A1の境界線である直線部A1aの傾きは、自動運転として許容される最大の減速度に基づいている。非推奨領域A2の境界線である直線部A2aの傾きは、自動運転として推奨される程度の減速度(最大の減速度よりも絶対値が小さい)に基づいている。
図5は、部分空間制約マップ146の第2例を示す図である。この部分空間制約マップ146(2)は、動的目標物に対する制約を規定したものであり、時間と位置を軸とした平面で定義されている。部分空間制約マップ146(2)が生成されるのは、自車両Mが前走車両に追従して走行する場面である。前走車両とは、自車両Mと同じ車線上において、自車両Mの直前(間に車両が存在しないことを意味する)を自車両Mと同じ方向に走行する車両である。算出部142Bは、前走車両の将来の位置を定速モデル、定加速度モデル、定ジャークモデル、カルマンフィルタ等で予測した上で、将来の前走車両の占める領域にマージン領域を加えた領域を禁止領域A1に、禁止領域A1の境界線A1bから、境界線A1bを目標車間距離TDだけ平行移動させた線までの領域を非推奨領域A2に設定する。
算出部142Bは、図4および図5で例示した場面ごとに、道路事象(停止線、車両などの交通参加者、信号の状態)に応じてどのように禁止領域A1や非推奨領域A2を定義するかを決定するためのテーブル情報を保有しており、行動計画生成部140が起動するイベントに応じてテーブル情報から禁止領域A1や非推奨領域A2の定義規則を取得し、禁止領域A1や非推奨領域A2を定義する。
算出部142Bは、禁止領域A1を一度でも通る状態パスiについて、状態価値SV(i)をゼロ(最低値)に固定する。また、算出部142Bは、非推奨領域A2に存在する状態(i,t)について、その状態に関する報酬関数f(i,t)をゼロにする。これによって状態価値SV(i)も低下するが、状態価値SV(i)がゼロになる訳では無く、非推奨領域A2に状態(i,t)が存在する状態パスiが選択される可能性もある。なお、部分空間制約マップ146は、平面で定義されるのに限らず、三次元以上の空間で定義されてもよい。
速度決定部144は、部分空間制約マップ146を反映させて計算した状態価値SV(i)の高い状態パスの各時点におけるジャークに従って、自車両Mの将来の速度を決定する。これによって、無駄な加減速が抑制されると共に、場面に応じた禁止領域A1を通らず、非推奨領域A2をなるべく通らないような速度プロファイルが決定される。
図6は、状態価値算出部142および速度決定部144により実行される処理の流れの一例を示すフローチャートである。まず、状態価値算出部142は、認識部130から自車両Mの周辺状況を取得し(ステップS100)、周辺状況に応じた部分空間制約マップ146を生成する(ステップS102)。
次に、状態価値算出部142は、前述した手法で複数の状態パスを生成し(ステップS104)、状態パスごとに、部分空間制約マップ146に従って報酬関数f(i,t)を算出し、次いで状態価値SV(i)を算出する(ステップS106)。そして、速度決定部144が、状態価値SV(i)の高い状態パスの各時点におけるジャークに従って、自車両Mの速度プロファイルを決定する(ステップS108)。
以上説明した実施形態によれば、将来の状態を考慮した速度制御を行う際に、適切な制約を設定することで好適な解を得ることができる。
上記説明した実施形態は、以下のように表現することができる。
プログラムを記憶した記憶装置と、
ハードウェアプロセッサと、を備え、
前記ハードウェアプロセッサが前記記憶装置に記憶されたプログラムを実行することにより、
時間を含み、車両の移動に関連する複数の要素を軸とする状態空間において、開始時点から目標時点までの間の複数の時点間に生じる行動量を複数の候補の中から選択することで定義される、前記開始時点から前記目標時点までの間の複数の状態パスのそれぞれについて、状態価値を算出し、
前記状態価値の高い状態パスに従って前記車両の将来の速度推移を決定し、
前記状態価値を算出する際に、
開始時点から目標時点までの間の各時点について、一以上の評価対象量に基づく報酬関数値を算出し、前記報酬関数値を時系列に合計することで前記状態価値を算出し、
前記複数の要素のうち二以上の要素を軸とする複数の部分空間のうち一部または全部に設定される、前記状態価値を低下させる第1領域と、前記報酬関数値を低下させる第2領域とに従って前記状態価値を算出する、
ように構成されている、車両制御装置。
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
100 自動運転制御装置
130 認識部
140 行動計画生成部
142 状態価値算出部
142A 状態パス定義部
142B 算出部
144 速度決定部
146 部分空間制約マップ

Claims (10)

  1. 時間を含み、車両の移動に関連する複数の要素を軸とする状態空間において、開始時点から目標時点までの間の複数の時点間に生じる行動量を複数の候補の中から選択することで定義される、前記開始時点から前記目標時点までの間の複数の状態パスのそれぞれについて、状態価値を算出する状態価値算出部と、
    前記状態価値の高い状態パスに従って前記車両の将来の速度推移を決定する速度決定部と、
    を備え、
    前記状態価値算出部は、
    開始時点から目標時点までの間の各時点について、一以上の評価対象量に基づく報酬関数値を算出し、前記報酬関数値を時系列に合計することで前記状態価値を算出するものであり、
    前記複数の要素のうち二以上の要素を軸とする複数の部分空間のうち一部または全部に設定される、前記状態価値を低下させる第1領域と、前記報酬関数値を低下させる第2領域とに従って前記状態価値を算出する、
    車両制御装置。
  2. 前記複数の要素は、時間、前記車両の進行方向に関する位置、速度、および加速度のうち一部または全部を含む、
    請求項1記載の車両制御装置。
  3. 前記行動量は、ジャークである、
    請求項1または2記載の車両制御装置。
  4. 前記一以上の評価対象量は、前記車両の速度、加速度、およびジャークを含む、
    請求項1から3のうちいずれか1項記載の車両制御装置。
  5. 前記車両の周辺状況を認識する認識部を更に備え、
    前記状態価値算出部は、前記車両の周辺状況に基づいて、前記複数の部分空間のうち一部または全部に、前記第1領域と前記第2領域とのうち一方または双方を設定する、
    請求項1から4のうちいずれか1項記載の車両制御装置。
  6. 前記状態価値算出部は、前記車両の周辺状況に静的目標物が含まれる場合、位置と速度とを軸とする部分空間に前記第1領域と前記第2領域とを設定する、
    請求項5記載の車両制御装置。
  7. 前記状態価値算出部は、前記車両の周辺状況に動的目標物が含まれる場合、位置と時間とを軸とする部分空間に前記第1領域と前記第2領域とを設定する、
    請求項5または6記載の車両制御装置。
  8. 前記状態価値算出部は、前記第1領域と前記第2領域とを互いに隣接させて設定する、
    請求項5から7のうちいずれか1項記載の車両制御装置。
  9. 車両制御装置が、
    時間を含み、車両の移動に関連する複数の要素を軸とする状態空間において、開始時点から目標時点までの間の複数の時点間に生じる行動量を複数の候補の中から選択することで定義される、前記開始時点から前記目標時点までの間の複数の状態パスのそれぞれについて、状態価値を算出し、
    前記状態価値の高い状態パスに従って前記車両の将来の速度推移を決定し、
    前記状態価値を算出する際に、
    開始時点から目標時点までの間の各時点について、一以上の評価対象量に基づく報酬関数値を算出し、前記報酬関数値を時系列に合計することで前記状態価値を算出し、
    前記複数の要素のうち二以上の要素を軸とする複数の部分空間のうち一部または全部に設定される、前記状態価値を低下させる第1領域と、前記報酬関数値を低下させる第2領域とに従って前記状態価値を算出する、
    車両制御方法。
  10. コンピュータに、
    時間を含み、車両の移動に関連する複数の要素を軸とする状態空間において、開始時点から目標時点までの間の複数の時点間に生じる行動量を複数の候補の中から選択することで定義される、前記開始時点から前記目標時点までの間の複数の状態パスのそれぞれについて、状態価値を算出させ、
    前記状態価値の高い状態パスに従って前記車両の将来の速度推移を決定させるプログラムであって、
    前記状態価値を算出させる際に、
    開始時点から目標時点までの間の各時点について、一以上の評価対象量に基づく報酬関数値を算出し、前記報酬関数値を時系列に合計することで前記状態価値を算出させ、
    前記複数の要素のうち二以上の要素を軸とする複数の部分空間のうち一部または全部に設定される、前記状態価値を低下させる第1領域と、前記報酬関数値を低下させる第2領域とに従って前記状態価値を算出させる、
    プログラム。
JP2021002159A 2021-01-08 2021-01-08 車両制御装置、車両制御方法、およびプログラム Pending JP2022107296A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021002159A JP2022107296A (ja) 2021-01-08 2021-01-08 車両制御装置、車両制御方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021002159A JP2022107296A (ja) 2021-01-08 2021-01-08 車両制御装置、車両制御方法、およびプログラム

Publications (1)

Publication Number Publication Date
JP2022107296A true JP2022107296A (ja) 2022-07-21

Family

ID=82457551

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021002159A Pending JP2022107296A (ja) 2021-01-08 2021-01-08 車両制御装置、車両制御方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP2022107296A (ja)

Similar Documents

Publication Publication Date Title
CN110874642B (zh) 学习装置、学习方法及存储介质
JP6710710B2 (ja) 車両制御装置、車両制御方法、およびプログラム
CN113460077A (zh) 移动体控制装置、移动体控制方法及存储介质
JP2020158048A (ja) 車両制御装置、車両制御方法、およびプログラム
JP6892887B2 (ja) 車両制御装置及び車両
JP2020147139A (ja) 車両制御装置、車両制御方法、およびプログラム
JP7444680B2 (ja) 移動体制御装置、移動体制御方法、およびプログラム
CN110871811A (zh) 学习装置、模拟系统、学习方法及存储介质
JP2021068016A (ja) 車両制御装置、車両制御方法、およびプログラム
JP7406432B2 (ja) 移動体制御装置、移動体制御方法、およびプログラム
JP2020185946A (ja) 車両制御装置、車両制御方法、およびプログラム
US20210300350A1 (en) Vehicle control device, vehicle control method, and storing medium
JP2021068014A (ja) 車両制御装置、車両制御方法、およびプログラム
JP6648384B2 (ja) 車両制御装置、車両制御方法、およびプログラム
JP7225185B2 (ja) 車両制御装置、車両制御方法、およびプログラム
JP2022071393A (ja) 車両制御装置、車両制御方法、およびプログラム
JP2022142863A (ja) 移動体制御装置、移動体制御方法、およびプログラム
JP2022014172A (ja) 処理装置、処理方法、およびプログラム
CN113492845A (zh) 车辆控制装置、车辆控制方法及存储介质
JP2022107296A (ja) 車両制御装置、車両制御方法、およびプログラム
JP2021160533A (ja) 車両制御装置、車両制御方法、及びプログラム
JP2021160399A (ja) 車両制御装置、車両制御方法、およびプログラム
JP7448400B2 (ja) 移動体制御装置、移動体制御方法、およびプログラム
JP7061148B2 (ja) 車両制御装置、車両制御方法、およびプログラム
US20240182024A1 (en) Vehicle control device, vehicle control method, and storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231128