JP2022545755A - 混合自律車両隊列の直接および間接制御 - Google Patents

混合自律車両隊列の直接および間接制御 Download PDF

Info

Publication number
JP2022545755A
JP2022545755A JP2022538567A JP2022538567A JP2022545755A JP 2022545755 A JP2022545755 A JP 2022545755A JP 2022538567 A JP2022538567 A JP 2022538567A JP 2022538567 A JP2022538567 A JP 2022538567A JP 2022545755 A JP2022545755 A JP 2022545755A
Authority
JP
Japan
Prior art keywords
vehicle
target
interval
vehicles
drive interval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022538567A
Other languages
English (en)
Other versions
JP7282271B2 (ja
Inventor
カラビック,ウロス
チュー,ティエンシュー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2022545755A publication Critical patent/JP2022545755A/ja
Application granted granted Critical
Publication of JP7282271B2 publication Critical patent/JP7282271B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0287Control of position or course in two dimensions specially adapted to land vehicles involving a plurality of land vehicles, e.g. fleet or convoy travelling
    • G05D1/0291Fleet control
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0287Control of position or course in two dimensions specially adapted to land vehicles involving a plurality of land vehicles, e.g. fleet or convoy travelling
    • G05D1/0291Fleet control
    • G05D1/0293Convoy travelling
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/0011Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot associated with a remote control arrangement
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/0088Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/22Platooning, i.e. convoy of communicating vehicles

Abstract

混合自律車両の直接および間接制御のためのシステムは、同一方向に走行する混合自律車両のグループの交通状態を受信し、混合自律車両のグループは、隊列の形成に自発的に参加する制御車両と、少なくとも1つの非制御車両とを含み、交通状態は、グループ内の各車両の状態を示し、交通状態を、交通状態を混合自律車両のための目標運転間隔に変換するように訓練されたパラメータ化された関数の中に与えることにより、目標運転間隔を生成し、目標運転間隔を、目標運転間隔を混合自律車両の目標速度にマッピングするように構成された運転間隔ベースのモデルに与えることにより、目標速度を生成する。システムは、目標運転間隔と目標速度とのうちの一方または組み合わせに基づいて、制御コマンドを決定し、制御車両に送信する。

Description

本発明は、概して交通制御に関し、より具体的には、制御車両と非制御車両とを含む車両の隊列の制御に関する。
交通渋滞は、世界中の多くの場所における、失われた時間、環境上の脅威、および無駄な燃料消費を含む損失を伴う、重大な問題である。米国において、交通渋滞の損失は、1人当たり年間何百ドルと推定される可能性がある。そのため、交通渋滞を低減するおよび/またはその他何らかの交通目標を改善する必要がある。
これらの問題の解決に寄与する可能性があるものとして、複数の車両をいわゆる「車両隊列」の中で互いに近づけて運転できるようにすることが挙げられる。通常、「車両隊列」という用語は、一単位として運転される、車間距離が短い複数の車両を意味する。車間距離を短くすると、より多くの車両が道路を使用できるようになり、ブレーキをかけることが少なくなるので、個々の車両の消費エネルギーが減少する。車両隊列内の車両は、車両の速度の自動制御と車両の方向の自動制御とのうちの少なくとも一方を用いて運転される。
現代の多くの車両は、ドライバーが車両を運転し易くなるようにするために、クルーズコントロールシステムも備えている。この場合、所望の速度は、ドライバーが、たとえばダッシュボードのレギュレータによって設定することができ、その後、車両内のクルーズコントロールシステムが、コントロールシステムに働きかけて、コントロールシステムが所望の速度を保つために必要に応じて車両を加速し車両にブレーキをかけるようにする。車両が自動ギアチェンジシステムを備えている場合、車両が所望の速度を維持できるように、車両を運転しているギアを変更する。
たとえば、連結アダプティブクルーズコントロール(CACC:connected adapted cruise control)は、安定性、強固さ、および最適性を保証する速度制御を計算するために、複数の車両がそれぞれの位置を互いに伝えて中央システムに伝える、自律レーンキープの一形態である。CACCを備えた車両は、CACCを備えた他の車両とともに、隊列を形成することができる。しかしながら、交通にはCACCを備えた車両と備えていない車両とが含まれる場合がある。たとえすべての車両がCACCを備えていたとしても、一部の車両オペレータがCACCを作動させずにマニュアルで運転する場合がある。車両隊列の制御における重大な問題は、マニュアル操作の車両が隊列に加わって隊列を乱す場合に生じる非効率性である。マニュアル操作の車両を隊列から外すために隊列ができることはほとんどなく、その理由は、マニュアル操作車両の制御および/またはモデル化の難しさにある。
たとえば、ある方法は、隊列制御の一様性を保証するために隊列をいくつかの隊列に分割する。例としてUS6356820を参照されたい。しかしながら、このように分割すると、制御方法が二重になり、異なる隊列の車両間の距離が増し、結局は交通渋滞の増加につながり得る。もう1つの方法は、各隊列の一様性を保証するために隊列の車両を制御する。例としてUS2012/0123658を参照されたい。しかしながら、これらの方法をマニュアル操作車両に課すのは難しい。
発明の概要
いくつかの実施形態の目的は、混合車両隊列を制御するためのシステムおよび方法を提供することである。本明細書で使用される、このような混合車両隊列は、制御車両と非制御車両とを含む。制御車両の例は、自発的に隊列を形成する自律車両および半自律車両を含む。たとえば、制御車両は、隊列を形成するおよび/または維持するために、制御車両のアクチュエータに対するモーションコマンドを決定するように構成された、連結アダプティブクルーズコントロール(CACC)を使用することができる。非制御車両の例は、自発的に隊列を形成しない自律車両および半自律車両、ならびにマニュアル操作車両、すなわち人間のドライバーが操作する車両を含む。
いくつかの実施形態のもう1つの目的は、隊列を形成する非制御車両の間接制御を提供することである。いくつかの実施形態は、隊列を形成する制御車両の移動は、当該隊列内の非制御車両の移動に間接的に影響を与える可能性がある、という認識に基づいている。たとえば、制御車両の速度を下げると、後続の非制御車両の速度も強制的に下げることになる。同様に、制御車両の速度を上げると、後続の非制御車両のドライバーを、空いたスペースで加速するよう促すことになり得る。このようにして、制御車両の直接制御を利用して、非制御車両の、自主的に課される制御を促すことにより、制御車両と非制御車両とを含む混合車両で隊列を形成できるようにすることができる。このような、非制御車両の自主的に課される制御を促すことを、本明細書では間接制御と呼ぶ。
一方、このような間接制御は信頼できないものである。実際、制御車両の加速は、非制御車両の加速を強制しない場合がある。それどころか、このような加速により、他のドライバーが危険を感じて自身の車両を不必要に減速させてしまう場合がある。しかしながら、いくつかの実施形態は、以下で示す少なくとも2つの条件が満たされた場合、制御車両の直接制御を、混合車両隊列における間接制御に対して効率良く使用できるという、実験による証拠に裏付けられた認識に、基づいている。
上記2つの条件のうちの第1の条件は、直接制御を強制する手段に関連する。いくつかの実施形態は、混合車両隊列を効率良く制御するためには、混合車両隊列内の制御車両の直接制御の手段が、非制御車両の自主的に課される間接制御の手段と同等でなければならない、という認識に基づいている。いくつかの実施形態は、自主的に課される間接制御の手段は車間距離である、という認識に基づいている。実際、ドライバーは、安全を維持するために、交通の現在の速度で安全であると感じる距離を保つ。
そのため、いくつかの実施形態は、直接制御と間接制御とを統一するために、制御車両の直接制御を、制御車両の動きに制約を課すことによって提供し、この制約は、隊列内の2つの車両間の最大運転間隔(headway)と、隊列内の各車両の最大速度とのうちの一方または組み合わせを含む。このような直接制御は、たとえば、自主的に課される間接制御とは基本的に異なるであろう車両のアクチュエータに対する直接コマンドと、対比させることができる。加えて、車両の運転間隔および/または速度に対する制約は、制御車両がその従来のシステムをモーションコントロールに使用することを可能にする。たとえば、いくつかの実施形態において、制御車両は、上記制約を受ける自律車両のアクチュエータに対するモーションコマンドを決定するように構成された自律車両である。
上記2つの条件のうちの第2の条件は、直接制御を強制する手段の計算に関連する。いくつかの実施形態は、効率的な間接制御のためには、隊列内の車両の運転間隔および/または速度に対する制約を、混合車両隊列内のすべての車両に潜在的に共通するまたは少なくとも関連する性能測定基準(performance metric)の最適化を用いて決定する必要がある、という認識に基づいている。加えて、このような性能測定基準は、混合車両のすべてが制御された態様で隊列の形成に自発的に参加しかつ参加することが可能である、という仮定の下で決定しなければならない。
しかしながら、このような隊列を形成する混合自動車両に対する直接および間接コントローラは、設計するのが難しい。このようなコントローラの設計には2つのアプローチがある、すなわち、学習ベース(learning-based)のコントローラまたはラーナー(learner)と、解決ベース(solving-based)のコントローラまたはソルバー(solver)とがある。ラーナーおよびソルバーはいずれも入力を出力にマッピングする。しかしながら、ラーナーは、マッピングをデータまたは経験から導き出すのに対し、ソルバーは、マッピングを所与の入力ごとにモデルから導き出す。しかしながら、この場合、上記アプローチは双方ともに、他律的な混合自動車両の挙動モデルが未知であるので、最適ではなく、ラーナーは、非制御車両の散発的な挙動が原因で安定した制御に収束しない場合がある。
いくつかの実施形態は、深層強化学習(DRL:deep reinforcement learning)のような強化学習は、混合自動車両の隊列の直接および間接制御のために導き出されたいくつかの実施形態の原理に従って修正することができる、という認識に基づいている。具体的には、いくつかの実施形態は、環境を変えるアクションを生成するのではなく、DRLコントローラのようなパラメータ化された関数を訓練することにより、報酬として隊列形成を強制する目標運転間隔を生成する。このようにして、ラーナーを、混合自動車両の未知の力学に適合させることができる。
たとえば、いくつかの実施形態は、目標運転間隔を、混合自律車両の目標速度にマッピングする、たとえば最終的に車両のアクションにマッピングするように構成された、運転間隔ベースのモデルを使用する。運転間隔ベースのモデルは、運転間隔を制御パラメータとして使用できるようにし、制御パラメータを、隊列を形成するのに使用できる車両のアクションに関連付ける。言い換えると、運転間隔ベースのモデルは、他律的な車両、より一般的には非制御車両の未知の挙動を学習することを可能にする。車両の挙動の、具体例としての運転間隔ベースのモデルは、最適速度モデル(OVM:optimal velocity model)である。OVMは、車両の運転間隔を、安全な走行速度に関連付ける。その他の同様のモデルが存在し、これらのモデルは、異なる実施形態が同様に使用できるものである。
したがって、一実施形態は、混合自律車両の直接および間接制御のためのシステムを開示し、システムは、同一方向に走行する混合自律車両のグループの交通状態を受信するように構成された受信機を備え、混合自律車両のグループは、隊列の形成に自発的に参加する制御車両と、少なくとも1つの非制御車両とを含み、交通状態は、グループ内の各車両の状態を示し、さらにメモリを備え、メモリは、交通状態を混合自律車両のための目標運転間隔に変換するように訓練された、パラメータ化された関数を格納し、目標運転間隔を混合自律車両の目標速度にマッピングするように構成された、運転間隔ベースのモデルを格納するように、構成され、さらにプロセッサを備え、プロセッサは、交通状態をパラメータ化された関数の中に与えることにより、目標運転間隔を生成し、目標運転間隔を運転間隔ベースのモデルに与えることにより、目標速度を生成し、制御車両に対する制御コマンドを、目標運転間隔と目標速度とのうちの一方または組み合わせに基づいて決定するように、構成され、さらに、制御コマンドを、混合自律車両のグループの中の制御車両に送信するように構成された送信機を備える。
別の実施形態は、混合自律車両の直接および間接制御のための方法を開示し、方法は、方法を実現する格納された命令と結合されたプロセッサを使用し、命令は、プロセッサによって実行されると方法のステップを実行し、方法は、同一方向に走行する混合自律車両のグループの交通状態を受信するステップを含み、混合自律車両のグループは、隊列の形成に自発的に参加する制御車両と、少なくとも1つの非制御車両とを含み、交通状態は、グループ内の各車両の状態を示し、方法はさらに、交通状態を、交通状態を混合自律車両のための目標運転間隔に変換するように訓練されたパラメータ化された関数の中に与えることにより、目標運転間隔を生成するステップと、目標運転間隔を、目標運転間隔を混合自律車両の目標速度にマッピングするように構成された運転間隔ベースのモデルに与えることにより、目標速度を生成するステップと、制御車両に対する制御コマンドを、目標運転間隔と目標速度とのうちの一方または組み合わせに基づいて決定するステップと、制御コマンドを、混合自律車両のグループの中の制御車両に送信するステップとを含む。
もう1つの実施形態は、方法を実施するためにプロセッサが実行可能なプログラムが実現された非一時的なコンピュータ読取可能な記憶媒体を開示する。この方法は、同一方向に走行する混合自律車両のグループの交通状態を受信するステップを含み、混合自律車両のグループは、隊列の形成に自発的に参加する制御車両と、少なくとも1つの非制御車両とを含み、交通状態は、グループ内の各車両の状態を示し、さらに、交通状態を、交通状態を混合自律車両のための目標運転間隔に変換するように訓練されたパラメータ化された関数の中に与えることにより、目標運転間隔を生成するステップと、目標運転間隔を、目標運転間隔を混合自律車両の目標速度にマッピングするように構成された運転間隔ベースのモデルに与えることにより、目標速度を生成するステップと、制御車両に対する制御コマンドを、目標運転間隔と目標速度とのうちの一方または組み合わせに基づいて決定するステップと、制御コマンドを、混合自律車両のグループの中の制御車両に送信するステップとを含む。
いくつかの実施形態に係る、隊列を形成する混合自律車両の制御の概略図を示す。 いくつかの実施形態に係る、運転間隔ベースのモデルを用いて拡張された学習ベースのコントローラの一般的なワークフローを示す図である。 いくつかの実施形態に係る、隊列形成の直接および間接制御の大まかな全体像を提供する概略図を示す。 いくつかの実施形態に係る、拡張された強化学習コントローラの訓練の概略図を示す。 一実施形態に係る、図3Aの学習に対する入力および出力を示す図である。 いくつかの実施形態に係る、モデルフリーのおよび拡張された強化学習の収束を比較するグラフを示す図である。 いくつかの実施形態に係る、混合自律車両の直接および間接制御のためのシステムのブロック図を示す。 いくつかの実施形態に係る、直接的にまたは間接的に制御される車両の概略図を示す。 いくつかの実施形態に従い決定された制御されたコマンドを受信するコントローラと車両のその他のコントローラとの間のやり取りの概略図を示す。
システム概要
本開示は、一車線内でともに走行する車両の集団である隊列を形成することが意図された車両の混合自律グループに関する。一部の車両は自律的に動作し隊列を自発的に形成するのに対し、一部の車両は隊列を自発的に形成しないおよび/または人間のオペレータによって操作されるので、このグループの自律特性は混合特性である。たとえば、一実施形態は、共有コントローラによって制御されて隊列全体としてより適切な動作を実現する自律車両のサブグループに関する。
図1Aは、いくつかの実施形態に係る、隊列を形成する混合自律車両の制御の概略図を示す。いくつかの実施形態に従うと、混合自律車両のグループは、隊列の形成に自発的に参加する、制御車両と、少なくとも1つの非制御車両とを含む。コントローラ102は、制御されている自律車両を、たとえば車両103および104を、制御コマンドをこれらの制御車両に送信することによって直接的に制御する。また、コントローラ102は、隊列に自発的に参加しない自律車両105および人間によって操作される車両106のような、非制御車両を、間接的に制御する。具体的には、コントローラ102は、制御車両を、混合自律車両の交通状態に基づいて、制御車両の直接制御が非制御車両の間接制御も提供するように、制御する。
自律性の種類が異なる車両を制御するために、いくつかの実施形態は、すべての車両間で共有される制御パラメータを使用し、制御車両を、このパラメータに基づいて、他の車両についてこのパラメータを追跡しながら、直接的に制御する。そのため、いくつかの実施形態の認識は、車両は、自律車両であろうと人間が操作する車両であろうと、結局はその挙動を、長く続く道路の一車線内で、所望の速度および運転間隔、すなわち前方車両までの距離に従って、制御する、という認識である。より具体的には、車両の隊列は、所望の速度をすべての車両間で共有するが、運転間隔は、車両の種類、車載コントローラおよび自律特性に基づいて変化する可能性がある。
たとえば、いくつかの実施形態は、以下で示す少なくとも2つの条件が満たされた場合、制御車両の直接制御を、混合車両隊列における間接制御に対して効率良く使用できるという、実験による証拠に裏付けられた認識に、基づいている。上記2つの条件のうちの第1の条件は、直接制御を強制する手段に関連する。いくつかの実施形態は、混合車両隊列を効率良く制御するためには、混合車両隊列内の制御車両の直接制御の手段が、非制御車両の自主的に課される間接制御の手段と同等でなければならない、という認識に基づいている。いくつかの実施形態は、自主的に課される間接制御の手段は車間距離である、という認識に基づいている。実際、ドライバーは、安全を維持するために、交通の現在の速度で安全であると感じる距離を保つ。
上記2つの条件のうちの第2の条件は、直接制御を強制する手段の計算に関連する。いくつかの実施形態は、効率的な間接制御のためには、隊列内の車両の運転間隔を、混合車両隊列内のすべての車両に潜在的に共通するまたは少なくとも関連する性能測定基準の最適化を用いて決定する必要がある、という認識に基づいている。加えて、このような性能測定基準は、混合車両のすべてが制御された態様で隊列の形成に自発的に参加しかつ参加することが可能である、という仮定の下で決定しなければならない。
しかしながら、このような隊列を形成する混合自動車両に対する直接および間接コントローラは、設計するのが難しい。このようなコントローラの設計には2つのアプローチがある、すなわち、学習ベースのコントローラまたはラーナーと、解決ベースのコントローラまたはソルバーとがある。ラーナーおよびソルバーはいずれも入力を出力にマッピングする。しかしながら、ラーナーは、マッピングをデータまたは経験から導き出すのに対し、ソルバーは、マッピングを所与の入力ごとにモデルから導き出す。しかしながら、この場合、上記アプローチは双方ともに、他律的な混合自動車両の挙動モデルが未知であるので、最適ではなく、ラーナーは、非制御車両の散発的な挙動が原因で安定した制御に収束しない場合がある。
たとえば、学習ベースの制御は、2種類のラーナーから、すなわち深層ラーナーおよび深層強化ラーナーから、導き出すことができる。深層学習(DL:deep learning)および深層強化学習(DRL)の双方において、訓練は、結果として、ディープニューラルネットワークと複数の調整可能なパラメータとによって与えられる、固定された構造を有するパラメータ化された関数となる。DLとDRLとの違いは、訓練中の関数の学習方法にある。深層学習は、訓練セット内の入力と目標出力とに依存する誤差関数を最小にすることによってパラメータが学習される教師あり方法である。一方、深層強化学習は、誤差関数が状態の値とそれらの状態に続くものとに依存する、経験から学習する教師なし方法である。DLおよびDRLの双方において、訓練は、パラメータベクトルが勾配の方向にステップを取ることで増分修正される確率的勾配降下法により、誤差関数を最小にすることで、実行することができる。同様の最適化アルゴリズムが、パラメータ化された関数がポリシーを表すポリシーベースのDRLで使用される。
いくつかの実施形態は、DRLのような強化学習は、混合自動車両の隊列の直接および間接制御のために導き出されたいくつかの実施形態の原理に従って修正することができる、という認識に基づいている。具体的には、いくつかの実施形態は、環境を変えるアクションを生成するのではなく、DRLコントローラのようなパラメータ化された関数を訓練することにより、報酬として隊列形成を強制する目標運転間隔を生成する。このようにして、ラーナーを、混合自動車両の未知の力学に適合させることができる。
たとえば、いくつかの実施形態は、目標運転間隔を、混合自律車両の目標速度にマッピングする、たとえば最終的に車両のアクションにマッピングするように構成された、運転間隔ベースのモデルを使用する。運転間隔ベースのモデルは、運転間隔を制御パラメータとして使用できるようにし、制御パラメータを、隊列を形成するのに使用できる車両のアクションに関連付ける。言い換えると、運転間隔ベースのモデルは、他律的な車両、より一般的には非制御車両の未知の挙動を学習することを可能にする。車両の挙動の、具体例としての運転間隔ベースのモデルは、最適速度モデル(OVM)である。OVMは、車両の運転間隔を、安全な走行速度に関連付ける。その他の同様のモデルが存在し、これらのモデルは、異なる実施形態が同様に使用できるものである。たとえば、いくつかの実施形態は、異なる最適速度関数(OVF:optimal velocity function)、全速度差モデル(FVDM:full-velocity difference model)、インテリジェントドライバーモデル(IDM:intelligent driver model)、その変形などを用いる、OVMの変形を使用する。
たとえば、一実施形態において、使用される特定の学習ベースの制御方式は、拡張された深層強化学習(DRL)である。DRLは、オンライン最適化を解決することにより、同時に、システムの挙動を学習し、同じシステムを制御することを学習する。一般的に、DRLは、モデルフリーのもの、または、モデルの使用によって拡張されたものとすることができる。モデルがなければ、DRLコントローラの挙動は不規則になる可能性がある、というのも、最適化は、より大きなパラメータセットに対する最適化の必要性に起因するより一層の局所的最適化の存在が原因で、収束の難しさに直面する場合があるからである。実際、モデルフリーのDRLと拡張されたDRLとを比較する独自の実験は、モデルフリーのDRLは安定制御に収束できないことがほとんどであるがモデルベースバージョンはそれがさほど困難ではないことを、示している。
図1Bは、いくつかの実施形態に係る、運転間隔ベースのモデルを用いて拡張された学習ベースのコントローラの一般的なワークフローを示す。運転間隔ベースのモデル150は、隊列内の車両の挙動158を制御する(156)ように訓練された学習ベースのコントローラ154の設計において不可欠な部分として車両の挙動を表すために使用される。モデル150には、設計の選択肢として、実際の車両の挙動158が通知され(160)、連結されている車両は直接的に制御され、連結されていない車両は間接的に制御されるようにする。
Figure 2022545755000002
Figure 2022545755000003
Figure 2022545755000004
Figure 2022545755000005
図2は、いくつかの実施形態に係る、隊列形成の直接および間接制御の大まかな全体像を提供する概略図を示す。制御車両は、コントローラに接続され、その状態203を中央コントローラ201に伝達する。コントローラ201が収集した交通状態は、混合自動車両の、現在の運転間隔、現在の速度、および現在の加速度を含み得る。いくつかの実装形態において、混合自動車両は、すべての非制御車両を、隊列内の、隣接する制御車両から予め定められた範囲207の中に、含む。制御車両に加えて、いくつかの非制御車両も、コントローラ201に接続されて(205)その状態を与える。
隊列内の車両の制御は、一般的に、協調型アダプティブクルーズコントロール(CACC:cooperative adaptive cruise control)と呼ばれている。CACCは、制御車両のみからなるグループに対して設計することができる。通常の制御方法は隊列内の車両の一部が非協調的であり得るケースを考慮しないので、いくつかの実施形態は、新たな方法であるがなおも自律車両の通常の隊列形成の性能を実現することを目指す方法を、開発する。CACCには2つの目的があり、それらは、プラント安定性およびストリング安定性である。隊列は、すべての車両が同じ一定の速度に近付く場合、プラント安定性を有し、速度の乱れが隊列全体で減じられる場合、ストリング安定性を有する。
Figure 2022545755000006
いくつかの実施形態において、コスト関数はさらに修正される、というのも、安定性のみが隊列制御において考慮すべきことではないからである。特に、考慮すべき重要なことは、車両が互いに衝突しないことである。そのため、いくつかの実施形態において、コスト関数を、コストに対するペナルティ項を含むように修正する。
Figure 2022545755000007
Figure 2022545755000008
Figure 2022545755000009
Figure 2022545755000010
Figure 2022545755000011
Figure 2022545755000012
図3Aは、いくつかの実施形態に係る、拡張された強化学習コントローラの訓練の概略図を示す。拡張されたDRLのような拡張された強化学習(RL)において、拡張されたRLコントローラ350は、その環境310と、離散時間ステップでやり取りする。各時間tにおいて、RLコントローラは、環境310内の交通状態330の観察320と、報酬340とを受信する。最終的に、拡張されたRLコントローラ350を用いることにより、利用できるアクションのセットからアクション360を選択し、続いてこのアクションが、環境内の交通状態を変えるために、制御コマンドとして環境に送信される。アクションは、できる限り多くの報酬を収集するために選択され、報酬は、隊列形成を促進するために決定される。
しかしながら、モデルフリーRLとは違って、拡張されたRLコントローラは、アクションを出力するように訓練されるのではなく、隊列を形成する混合自動車両の直接および間接制御の原理に従って目標運転間隔を出力するように訓練される。そのため、拡張されたRLが生成した目標運転間隔はさらに運転間隔ベースのモデル370に与えられて、制御マシンに対するアクションを指定する制御コマンドを生成する。混合自動隊列形成をさらに促進するために、混合自動車両のすべてに対して状態330が求められ、報酬340も求められる。このようにして、拡張されたRLコントローラは、混合自律車両のグループの交通状態を、当該グループ内の混合自律車両のアクションを改善する目標運転間隔に変換するように、訓練され、一方、アクションは、運転間隔ベースのモデルに従い目標運転間隔によって定められる。実際、拡張されたRLコントローラは、隊列形成において混合自律車両を制御することを可能にする。
異なる実施形態が異なる方法を使用することで、RLコントローラを形成するパラメータ化された関数を訓練する。たとえば、いくつかの実施形態において、パラメータ化された関数を、深層決定論的ポリシー勾配法、アドバンテージアクタークリティック法、近接ポリシー最適化法、深層Qネットワーク法、またはモンテカルロポリシー勾配法のうちの1つを用いて訓練する。
Figure 2022545755000013
いくつかの実施形態において、入力は直接測定されて報告される。一般的に、測定値は、推定アルゴリズムを通して送られることで信号内のノイズをフィルタリングで取り除く必要がある。その他の実施形態において、最適速度モデルのようなモデルを使用するモデルベースのアプローチを用いることにより、運転間隔および速度の知識を用いて加速度を求めることができる。
Figure 2022545755000014
図4は、いくつかの実施形態に係る、モデルフリーのおよび拡張された強化学習の収束を比較するグラフを示す。図4は、広範な調整を伴わない単純なディープニューラルネットワークが申し分のない性能を有することを立証する実験結果を示しており、拡張された強化学習がこの用途に非常に適していることを強く示唆している。拡張された最適制御の学習は、収束を高速で制御し(401)、一方、同一の学習方法を使用するモデルフリーの方法は、収束しない(402)。
コントローラをシステムに適用する際、コントローラは、埋め込まれたコンピュータを用いてデジタルで実装される。そのため、コントローラの実装は、典型的には離散時間の実装を用いて行われる。連続時間設計から離散時間設計への変換の手順は標準的なものであり、それを行うことが可能な各種の手順が存在する。特に、これを実験においてゼロ次ホールド法を用いて行った。
Figure 2022545755000015

具体例としての実施形態
図5は、いくつかの実施形態に係る、混合自律車両の直接および間接制御のためのシステム500のブロック図を示す。システム500は、システム500をその他のマシンおよびデバイスに接続する複数のインターフェイスを有し得る。ネットワークインターフェイスコントローラ(NIC:network interface controller)550は受信機を含み、受信機は、システム500を、システム500を混合自動車両に接続するネットワーク590に、バス506を通して接続することにより、同一方向に走行する混合自律車両のグループの交通状態を受信するように適合させたものであり、混合自律車両のグループは、隊列の形成に自発的に参加する制御車両と、少なくとも1つの非制御車両とを含み、交通状態は、グループ内の各車両および制御車両の状態を示す。たとえば、一実施形態において、交通状態は、混合自動車両の現在の運転間隔、現在の速度、および現在の加速度を含む。いくつかの実施形態において、混合自動車両は、隊列内の隣接する制御車両から予め定められた範囲の中の、すべての非制御車両を含む。
また、NIC550は、制御車両に制御コマンドをネットワーク590を介して送信するように適合させた送信機を含む。そのために、システム500は、混合自律車両のグループの中の制御車両にネットワーク590を通して制御コマンド575を与えるように構成された出力インターフェイス、たとえば制御インターフェイス570を含む。このようにして、システム500を、混合自動車両と直接的または間接的に無線通信するリモートサーバ上に配置することができる。
また、システム500は、その他の種類の入出力インターフェイスを含み得る。たとえば、システム500は、マンマシンインターフェイス510を含み得る。マンマシンインターフェイス510は、コントローラ500を、キーボード511およびポインティングデバイス512に接続することができ、ポインティングデバイス512は、とりわけ、マウス、トラックボール、タッチパッド、ジョイスティック、ポインティングスティック、スタイラス、またはタッチスクリーンを含み得る。
システム500は、格納されている命令を実行するように構成されたプロセッサ520と、プロセッサが実行可能な命令を格納するメモリ540とを含む。プロセッサ520は、シングルコアプロセッサ、マルチコアプロセッサ、コンピューティングクラスタ、または任意の数のその他の構成であってもよい。メモリ540は、ランダムアクセスメモリ(RAM)、読出専用メモリ(ROM)、フラッシュメモリ、または任意のその他の適切なメモリマシンを含み得る。プロセッサ520は、バス506を通して1つ以上の入出力デバイスに接続することができる。
プロセッサ520は、命令と命令によって使用される処理データとを格納するメモリストレージ530に作動的に接続される。ストレージ530は、メモリ540の一部を形成することができる、またはメモリ540に作動的に接続することができる。たとえば、メモリは、交通状態を混合自律車両のための目標運転間隔に変換するように訓練されたパラメータ化された関数531を格納するように、かつ、目標運転間隔を混合自律車両の目標速度にマッピングするように構成された運転間隔ベースのモデル533を格納するように構成することができる。
プロセッサ520は、非制御車両も間接的に制御する、制御車両に対する制御コマンドを決定するように構成されている。そのために、プロセッサは、制御発生器532の実行により、交通状態をパラメータ化された関数の中に与えることで目標運転間隔を生成し、目標運転間隔を運転間隔ベースのモデルに与えることで目標速度を生成し、制御車両に対する制御コマンドを、目標運転間隔と目標速度とのうちの一方または組み合わせに基づいて生成するように、構成されている。
いくつかの実施形態において、パラメータ化された関数531は、混合自律車両のグループの交通状態を、このグループ内の混合自律車両のアクションを改善する目標運転間隔に変換するように訓練された、深層強化学習(DRL)コントローラであり、上記アクションは、運転間隔ベースのモデルに従い目標運転間隔によって定められる。たとえば、先に述べたように、目標運転間隔は、アクションが隊列形成の移動のコストの価値関数を改善するように、決定される。価値関数の例は、計画時間区間にわたる混合自動車両の移動のコストの合計の負の値を含む。
いくつかの実施形態において、コストは、隊列形成を促す複数項のコスト関数である。たとえば、いくつかの実施形態において、移動のコストは、隊列のストリング安定性に関連付けられる成分、隊列のプラント安定性に関連付けられる成分、および、停止運転間隔に対する目標運転間隔の近接度にペナルティを課すペナルティ項を含む。
各種実施形態において、DRLコントローラは、運転間隔ベースのモデルを用いて拡張されたモデルベースのDRLであり、オンライン最適化を解決することにより、同時に、交通状態を有する交通システムの挙動を学習するとともに、隊列を形成するために交通システムを制御することを学習し、交通システムの挙動が、DRLコントローラが生成した目標運転間隔によって定められるように、かつ、交通システムの制御が、運転間隔ベースのモデルに従い目標運転間隔から決定された混合自動車両の加速度によって定められるようにする。
いくつかの実施形態において、運転間隔ベースのモデルは、目標運転間隔を車両の速度にマッピングする最適速度モデル(OVM)であり、DRLコントローラは、OVMによって拡張されたDRLである。OVMは、目標運転間隔を車両の速度にマッピングする。いくつかの実施形態において、システム500は、制御車両の目標速度を、OVMに従い目標運転間隔から決定するように、かつ、制御車両に対する制御コマンドを、制御車両の対応する目標速度を含めるように形成するように、構成されている。
たとえば、OVMのような運転間隔ベースのモデルは、混合自動車両の現在の運転間隔、停止運転間隔、および前進運転間隔を、混合自動車両の目標速度に関連付ける。パラメータ化された関数によって決定される目標運転間隔は、前進運転間隔であり、システム500は、混合自動車両に対する制御されたコマンドの目標速度を、運転間隔ベースのモデルに従い、決定された前進運転間隔と予め定められた固定停止運転間隔とを用いて決定する。
図6Aは、いくつかの実施形態に係る、直接的にまたは間接的に制御される車両601の概略図を示す。本明細書で使用される車両601は、乗用車、バス、またはローバーのような、任意の種類の車輪付き車両とすることができる。また、車両601は、自律車両または半自律車両とすることができる。たとえば、いくつかの実施形態は、車両601の動きを制御する。動きの例は、車両601のステアリングシステム603が制御する車両の横方向の動きを含む。一実施形態において、ステアリングシステム603は、システム500と通信するコントローラ602によって制御される。これに加えてまたはこれに代えて、ステアリングシステム603は、車両601のドライバーによる制御が可能である。
また、車両は、コントローラ602によりまたは車両601の他の構成要素により制御可能なエンジン606を含み得る。また、車両は、周囲環境を検知するための1つ以上のセンサ604を含み得る。センサ604の例は、距離レンジファインダー、レーダー、ライダ、およびカメラを含む。また、車両601は、その現在の動き量および内部ステータスを検知する1つ以上のセンサ605を含み得る。センサ605の例は、グローバルポジショニングシステム(GPS)、加速度計、慣性計測装置、ジャイロスコープ、シャフト回転センサ、トルクセンサ、たわみセンサ、圧力センサ、および流量センサである。センサは情報をコントローラ602に提供する。車両は、有線または無線通信チャネルを通してコントローラ602の通信機能を可能にするトランシーバ606を備えていてもよい。
図6Bは、いくつかの実施形態に係る、システム500から制御されたコマンドを受信するコントローラ602と車両601のコントローラ600との間のやり取りの概略図を示す。たとえば、いくつかの実施形態において、車両601のコントローラ600は、車両600の回転および加速度を制御する、ステアリングコントローラ610およびブレーキ/スロットルコントローラ620である。このような場合、コントローラ602は、車両の状態を制御するために、コントローラ610および620に対する制御入力を出力する。また、コントローラ600は、ハイレベルコントローラを、たとえば予測コントローラ602の制御入力をさらに処理するレーンキープアシストコントローラ630を含み得る。いずれの場合も、コントローラ600は、車両の動きを制御するために、予測コントローラ602の出力をマッピングし使用して、車両のハンドルおよび/またはブレーキのような、車両の少なくとも1つのアクチュエータを制御する。車両マシンの状態xは、位置、方位、および前進/横速度を含み得るものであり、制御入力uは、横/前進加速度、ステアリング角度、およびエンジン/ブレーキトルクを含み得る。このシステムに対する状態制約は、レーンキープ制約と障害物回避制約とを含み得る。制御入力制約は、ステアリング角度制約と加速度制約とを含み得る。収集されるデータは、位置、方位、および速度プロファイル、加速度、トルク、および/またはステアリング角度を含み得る。
本発明の上記実施形態は、非常に多くのやり方のうちのいずれかのやり方で実現することができる。たとえば、実施形態は、ハードウェア、ソフトウェア、またはその組み合わせを用いて実現してもよい。ソフトウェアで実現する場合、ソフトウェアコードは、任意の適切なプロセッサ上で、または、1つのコンピュータに設けられていても複数のコンピュータに分散されていてもよいプロセッサの集合体上で、実行することができる。このようなプロセッサは、1つ以上のプロセッサが集積回路構成要素内にある集積回路として実現されてもよい。とはいえ、プロセッサは、任意の適切なフォーマットの回路を用いて実現されてもよい。
また、本明細書で概要を述べた各種方法またはプロセスは、さまざまなオペレーティングシステムまたはプラットフォームのうちのいずれか1つを採用した1つ以上のプロセッサ上で実行可能なソフトウェアとして符号化されてもよい。加えて、このようなソフトウェアは、複数の適切なプログラミング言語および/またはプログラミングもしくはスクリプトツールのうちのいずれかを用いて記述されてもよく、また、フレームワークもしくは仮想マシン上で実行される、実行可能な機械言語コードまたは中間符号としてコンパイルされてもよい。典型的に、プログラムモジュールの機能は、各種実施形態において所望される通りに組み合わせても分散させてもよい。
また、本発明の実施形態は方法として実施されてもよく、その一例が提供されている。この方法の一部として実行される動作の順序は任意の適切なやり方で決定されてもよい。したがって、実施形態は、例示されている順序と異なる順序で動作が実行されるように構成されてもよく、これは、いくつかの動作を、例示の実施形態では一連の動作として示されているが、同時に実行することを含み得る。
本発明を、好ましい実施形態の例によって説明してきたが、本発明の精神および範囲の中でその他さまざまな適合化および修正が可能であることが理解されるはずである。したがって、添付の請求項の目的は、本発明の真の精神および範囲に含まれるこのような変形および修正すべてをカバーすることである。
しかしながら、このような隊列を形成する混合自律車両に対する直接および間接コントローラは、設計するのが難しい。このようなコントローラの設計には2つのアプローチがある、すなわち、学習ベース(learning-based)のコントローラまたはラーナー(learner)と、解決ベース(solving-based)のコントローラまたはソルバー(solver)とがある。ラーナーおよびソルバーはいずれも入力を出力にマッピングする。しかしながら、ラーナーは、マッピングをデータまたは経験から導き出すのに対し、ソルバーは、マッピングを所与の入力ごとにモデルから導き出す。しかしながら、この場合、上記アプローチは双方ともに、他律的な混合自律車両の挙動モデルが未知であるので、最適ではなく、ラーナーは、非制御車両の散発的な挙動が原因で安定した制御に収束しない場合がある。
いくつかの実施形態は、深層強化学習(DRL:deep reinforcement learning)のような強化学習は、混合自律車両の隊列の直接および間接制御のために導き出されたいくつかの実施形態の原理に従って修正することができる、という認識に基づいている。具体的には、いくつかの実施形態は、環境を変えるアクションを生成するのではなく、DRLコントローラのようなパラメータ化された関数を訓練することにより、報酬として隊列形成を強制する目標運転間隔を生成する。このようにして、ラーナーを、混合自律車両の未知の力学に適合させることができる。
したがって、一実施形態は、混合自律車両の直接および間接制御のためのシステムを開示し、システムは、同一方向に走行する混合自律車両のグループの交通状態を受信するように構成された受信機を備え、混合自律車両のグループは、隊列の形成に自発的に参加する制御車両と、少なくとも1つの非制御車両とを含み、交通状態は、混合自律車両の現在の運転間隔、現在の速度、および現在の加速度を含む、グループ内の各車両の状態を示し、さらにメモリを備え、メモリは、交通状態を混合自律車両のための目標運転間隔に変換するように訓練された、パラメータ化された関数を格納し、目標運転間隔を混合自律車両の目標速度にマッピングするように構成された、運転間隔ベースのモデルを格納するように、構成され、さらにプロセッサを備え、プロセッサは、交通状態をパラメータ化された関数の中に与えることにより、目標運転間隔を生成するように構成され、パラメータ化された関数は深層強化学習(DRL)コントローラであり、DRLコントローラは、混合自律車両のグループの交通状態を、混合自律車両のアクションを改善する目標運転間隔に変換するように訓練され、アクションは、運転間隔ベースのモデルに従い目標運転間隔によって定められ、目標運転間隔は、アクションが隊列の形成の移動のコストの価値関数を改善するように、決定され、価値関数は、計画時間区間にわたる混合自律車両の移動のコストの合計の負の値であり、移動のコストは、隊列のストリング安定性に関連付けられる成分、隊列のプラント安定性に関連付けられる成分、および、停止運転間隔に対する目標運転間隔の近接度にペナルティを課すペナルティ項を含み、プロセッサはさらに、目標運転間隔を運転間隔ベースのモデルに与えることにより、目標速度を生成し、制御車両に対する制御コマンドを、目標運転間隔と目標速度とのうちの一方または組み合わせに基づいて決定するように、構成され、さらに、制御コマンドを、混合自律車両のグループの中の制御車両に送信するように構成された送信機を備え、制御車両は、これらのコマンドによって制御されるように配置される。
別の実施形態は、混合自律車両の直接および間接制御のための方法を開示し、方法は、方法を実現する格納された命令と結合されたプロセッサを使用し、命令は、プロセッサによって実行されると方法のステップを実行し、方法は、同一方向に走行する混合自律車両のグループの交通状態を受信するステップを含み、混合自律車両のグループは、隊列の形成に自発的に参加する制御車両と、少なくとも1つの非制御車両とを含み、交通状態は、混合自律車両の現在の運転間隔、現在の速度、および現在の加速度を含む、グループ内の各車両の状態を示し、方法はさらに、交通状態を、交通状態を混合自律車両のための目標運転間隔に変換するように訓練されたパラメータ化された関数の中に与えることにより、目標運転間隔を生成するステップを含み、パラメータ化された関数は深層強化学習(DRL)コントローラであり、DRLコントローラは、混合自律車両のグループの交通状態を、混合自律車両のアクションを改善する目標運転間隔に変換するように訓練され、アクションは、運転間隔ベースのモデルに従い目標運転間隔によって定められ、目標運転間隔は、アクションが隊列の形成の移動のコストの価値関数を改善するように、決定され、価値関数は、計画時間区間にわたる混合自律車両の移動のコストの合計の負の値であり、移動のコストは、隊列のストリング安定性に関連付けられる成分、隊列のプラント安定性に関連付けられる成分、および、停止運転間隔に対する目標運転間隔の近接度にペナルティを課すペナルティ項を含み、方法はさらに、目標運転間隔を、目標運転間隔を混合自律車両の目標速度にマッピングするように構成された運転間隔ベースのモデルに与えることにより、目標速度を生成するステップと、制御車両に対する制御コマンドを、目標運転間隔と目標速度とのうちの一方または組み合わせに基づいて決定するステップと、制御コマンドを、混合自律車両のグループの中の制御車両に送信するステップとを含み、制御車両は、これらのコマンドによって制御されるように配置される
もう1つの実施形態は、方法を実施するためにプロセッサが実行可能なプログラムが実現された非一時的なコンピュータ読取可能な記憶媒体を開示する。この方法は、同一方向に走行する混合自律車両のグループの交通状態を受信するステップを含み、混合自律車両のグループは、隊列の形成に自発的に参加する制御車両と、少なくとも1つの非制御車両とを含み、交通状態は、混合自律車両の現在の運転間隔、現在の速度、および現在の加速度を含む、グループ内の各車両の状態を示し、さらに、交通状態を、交通状態を混合自律車両のための目標運転間隔に変換するように訓練されたパラメータ化された関数の中に与えることにより、目標運転間隔を生成するステップを含み、パラメータ化された関数は深層強化学習(DRL)コントローラであり、DRLコントローラは、混合自律車両のグループの交通状態を、混合自律車両のアクションを改善する目標運転間隔に変換するように訓練され、アクションは、運転間隔ベースのモデルに従い目標運転間隔によって定められ、目標運転間隔は、アクションが隊列の形成の移動のコストの価値関数を改善するように、決定され、価値関数は、計画時間区間にわたる混合自律車両の移動のコストの合計の負の値であり、移動のコストは、隊列のストリング安定性に関連付けられる成分、隊列のプラント安定性に関連付けられる成分、および、停止運転間隔に対する目標運転間隔の近接度にペナルティを課すペナルティ項を含み、方法はさらに、目標運転間隔を、目標運転間隔を混合自律車両の目標速度にマッピングするように構成された運転間隔ベースのモデルに与えることにより、目標速度を生成するステップと、制御車両に対する制御コマンドを、目標運転間隔と目標速度とのうちの一方または組み合わせに基づいて決定するステップと、制御コマンドを、混合自律車両のグループの中の制御車両に送信するステップとを含み、制御車両は、これらのコマンドによって制御されるように配置される
いくつかの実施形態に係る、隊列を形成する混合自律車両の制御の概略図を示す。 いくつかの実施形態に係る、運転間隔ベースのモデルを用いて拡張された学習ベースのコントローラの一般的なワークフローを示す図である。 いくつかの実施形態に係る、隊列形成の直接および間接制御の大まかな全体像を提供する概略図を示す。 いくつかの実施形態に係る、拡張された強化学習コントローラの訓練の概略図を示す。 一実施形態に係る、図3Aの学習に対する入力および出力を示す図である。 いくつかの実施形態に係る、モデルフリーのおよび拡張された強化学習の収束を比較するグラフを示す図である。 いくつかの実施形態に係る、混合自律車両の直接および間接制御のためのシステムのブロック図を示す。 いくつかの実施形態に係る、直接的にまたは間接的に制御される車両の概略図を示す。 いくつかの実施形態に従い決定された制御コマンドを受信するコントローラと車両のその他のコントローラとの間のやり取りの概略図を示す。
しかしながら、このような隊列を形成する混合自律車両に対する直接および間接コントローラは、設計するのが難しい。このようなコントローラの設計には2つのアプローチがある、すなわち、学習ベースのコントローラまたはラーナーと、解決ベースのコントローラまたはソルバーとがある。ラーナーおよびソルバーはいずれも入力を出力にマッピングする。しかしながら、ラーナーは、マッピングをデータまたは経験から導き出すのに対し、ソルバーは、マッピングを所与の入力ごとにモデルから導き出す。しかしながら、この場合、上記アプローチは双方ともに、他律的な混合自律車両の挙動モデルが未知であるので、最適ではなく、ラーナーは、非制御車両の散発的な挙動が原因で安定した制御に収束しない場合がある。
いくつかの実施形態は、DRLのような強化学習は、混合自律車両の隊列の直接および間接制御のために導き出されたいくつかの実施形態の原理に従って修正することができる、という認識に基づいている。具体的には、いくつかの実施形態は、環境を変えるアクションを生成するのではなく、DRLコントローラのようなパラメータ化された関数を訓練することにより、報酬として隊列形成を強制する目標運転間隔を生成する。このようにして、ラーナーを、混合自律車両の未知の力学に適合させることができる。
Figure 2022545755000025

図2は、いくつかの実施形態に係る、隊列形成の直接および間接制御の大まかな全体像を提供する概略図を示す。制御車両は、コントローラに接続され、その状態203を中央コントローラ201に伝達する。コントローラ201が収集した交通状態は、混合自律車両の、現在の運転間隔、現在の速度、および現在の加速度を含み得る。いくつかの実装形態において、混合自律車両は、すべての非制御車両を、隊列内の、隣接する制御車両から予め定められた範囲207の中に、含む。制御車両に加えて、いくつかの非制御車両も、コントローラ201に接続されて(205)その状態を与える。
Figure 2022545755000026

しかしながら、モデルフリーRLとは違って、拡張されたRLコントローラは、アクションを出力するように訓練されるのではなく、隊列を形成する混合自律車両の直接および間接制御の原理に従って目標運転間隔を出力するように訓練される。そのため、拡張されたRLが生成した目標運転間隔はさらに運転間隔ベースのモデル370に与えられて、制御マシンに対するアクションを指定する制御コマンドを生成する。混合自律隊列形成をさらに促進するために、混合自律車両のすべてに対して状態330が求められ、報酬340も求められる。このようにして、拡張されたRLコントローラは、混合自律車両のグループの交通状態を、当該グループ内の混合自律車両のアクションを改善する目標運転間隔に変換するように、訓練され、一方、アクションは、運転間隔ベースのモデルに従い目標運転間隔によって定められる。実際、拡張されたRLコントローラは、隊列形成において混合自律車両を制御することを可能にする。
図5は、いくつかの実施形態に係る、混合自律車両の直接および間接制御のためのシステム500のブロック図を示す。システム500は、システム500をその他のマシンおよびデバイスに接続する複数のインターフェイスを有し得る。ネットワークインターフェイスコントローラ(NIC:network interface controller)550は受信機を含み、受信機は、システム500を、システム500を混合自律車両に接続するネットワーク590に、バス506を通して接続することにより、同一方向に走行する混合自律車両のグループの交通状態を受信するように適合させたものであり、混合自律車両のグループは、隊列の形成に自発的に参加する制御車両と、少なくとも1つの非制御車両とを含み、交通状態は、グループ内の各車両および制御車両の状態を示す。たとえば、一実施形態において、交通状態は、混合自律車両の現在の運転間隔、現在の速度、および現在の加速度を含む。いくつかの実施形態において、混合自律車両は、隊列内の隣接する制御車両から予め定められた範囲の中の、すべての非制御車両を含む。
また、NIC550は、制御車両に制御コマンドをネットワーク590を介して送信するように適合させた送信機を含む。そのために、システム500は、混合自律車両のグループの中の制御車両にネットワーク590を通して制御コマンド575を与えるように構成された出力インターフェイス、たとえば制御インターフェイス570を含む。このようにして、システム500を、混合自律車両と直接的または間接的に無線通信するリモートサーバ上に配置することができる。
いくつかの実施形態において、パラメータ化された関数531は、混合自律車両のグループの交通状態を、このグループ内の混合自律車両のアクションを改善する目標運転間隔に変換するように訓練された、深層強化学習(DRL)コントローラであり、上記アクションは、運転間隔ベースのモデルに従い目標運転間隔によって定められる。たとえば、先に述べたように、目標運転間隔は、アクションが隊列形成の移動のコストの価値関数を改善するように、決定される。価値関数の例は、計画時間区間にわたる混合自律車両の移動のコストの合計の負の値を含む。
各種実施形態において、DRLコントローラは、運転間隔ベースのモデルを用いて拡張されたモデルベースのDRLであり、オンライン最適化を解決することにより、同時に、交通状態を有する交通システムの挙動を学習するとともに、隊列を形成するために交通システムを制御することを学習し、交通システムの挙動が、DRLコントローラが生成した目標運転間隔によって定められるように、かつ、交通システムの制御が、運転間隔ベースのモデルに従い目標運転間隔から決定された混合自律車両の加速度によって定められるようにする。
たとえば、OVMのような運転間隔ベースのモデルは、混合自律車両の現在の運転間隔、停止運転間隔、および前進運転間隔を、混合自律車両の目標速度に関連付ける。パラメータ化された関数によって決定される目標運転間隔は、前進運転間隔であり、システム500は、混合自律車両に対する制御コマンドの目標速度を、運転間隔ベースのモデルに従い、決定された前進運転間隔と予め定められた固定停止運転間隔とを用いて決定する。
図6Bは、いくつかの実施形態に係る、システム500から制御コマンドを受信するコントローラ602と車両601のコントローラ600との間のやり取りの概略図を示す。たとえば、いくつかの実施形態において、車両601のコントローラ600は、車両600の回転および加速度を制御する、ステアリングコントローラ610およびブレーキ/スロットルコントローラ620である。このような場合、コントローラ602は、車両の状態を制御するために、コントローラ610および620に対する制御入力を出力する。また、コントローラ600は、ハイレベルコントローラを、たとえば予測コントローラ602の制御入力をさらに処理するレーンキープアシストコントローラ630を含み得る。いずれの場合も、コントローラ600は、車両の動きを制御するために、予測コントローラ602の出力をマッピングし使用して、車両のハンドルおよび/またはブレーキのような、車両の少なくとも1つのアクチュエータを制御する。車両マシンの状態xは、位置、方位、および前進/横速度を含み得るものであり、制御入力uは、横/前進加速度、ステアリング角度、およびエンジン/ブレーキトルクを含み得る。このシステムに対する状態制約は、レーンキープ制約と障害物回避制約とを含み得る。制御入力制約は、ステアリング角度制約と加速度制約とを含み得る。収集されるデータは、位置、方位、および速度プロファイル、加速度、トルク、および/またはステアリング角度を含み得る。

Claims (15)

  1. 混合自律車両の直接および間接制御のためのシステムであって、前記システムは、
    同一方向に走行する混合自律車両のグループの交通状態を受信するように構成された受信機を備え、前記混合自律車両のグループは、隊列の形成に自発的に参加する制御車両と、少なくとも1つの非制御車両とを含み、前記交通状態は、前記グループ内の各車両の状態を示し、前記システムはさらに、
    メモリを備え、前記メモリは、
    前記交通状態を前記混合自律車両のための目標運転間隔に変換するように訓練された、パラメータ化された関数を格納し、
    前記目標運転間隔を前記混合自律車両の目標速度にマッピングするように構成された、運転間隔ベースのモデルを格納するように、構成され、前記システムはさらに、
    プロセッサを備え、前記プロセッサは、
    前記交通状態を前記パラメータ化された関数の中に与えることにより、前記目標運転間隔を生成し、
    前記目標運転間隔を前記運転間隔ベースのモデルに与えることにより、前記目標速度を生成し、
    前記制御車両に対する制御コマンドを、前記目標運転間隔と前記目標速度とのうちの一方または組み合わせに基づいて決定するように、構成され、前記システムはさらに、
    前記制御コマンドを、前記混合自律車両のグループの中の前記制御車両に送信するように構成された送信機を備える、システム。
  2. 前記パラメータ化された関数は、前記混合自律車両のグループの前記交通状態を、前記グループ内の前記混合自律車両のアクションを改善する前記目標運転間隔に変換するように訓練された、深層強化学習(DRL)コントローラであり、前記アクションは、前記運転間隔ベースのモデルに従い前記目標運転間隔によって定められる、請求項1に記載のシステム。
  3. 前記目標運転間隔は、前記アクションが前記隊列の形成の移動のコストの価値関数を改善するように、決定される、請求項2に記載のシステム。
  4. 前記価値関数は、計画時間区間にわたる前記混合自動車両の前記移動の前記コストの合計の負の値である、請求項3に記載のシステム。
  5. 前記移動の前記コストは、前記隊列のストリング安定性に関連付けられる成分、前記隊列のプラント安定性に関連付けられる成分、および、停止運転間隔に対する前記目標運転間隔の近接度にペナルティを課すペナルティ項を含む、請求項4に記載のシステム。
  6. 前記DRLコントローラは、前記運転間隔ベースのモデルを用いて拡張されたモデルベースのDRLであり、オンライン最適化を解決することにより、同時に、前記交通状態を有する交通システムの挙動を学習するとともに、前記隊列を形成するために前記交通システムを制御することを学習し、前記交通システムの前記挙動が、前記DRLコントローラが生成した前記目標運転間隔によって定められるように、かつ、前記交通システムの前記制御が、前記運転間隔ベースのモデルに従い前記目標運転間隔から決定された混合自動車両の加速度によって定められるようにする、請求項2に記載のシステム。
  7. 前記運転間隔ベースのモデルは、前記目標運転間隔を前記車両の速度にマッピングする最適速度モデル(OVM)であり、前記DRLコントローラは、OVMによって拡張されたDRLである、請求項2に記載のシステム。
  8. 前記運転間隔ベースのモデルは、前記目標運転間隔を前記車両の目標速度にマッピングする最適速度モデル(OVM)であり、前記プロセッサは、前記制御車両の前記目標速度を、前記OVMに従い前記目標運転間隔から決定するように、かつ、前記制御車両に対する前記制御コマンドを、前記制御車両の対応する前記目標速度を含めるように形成するように、構成されている、請求項1に記載のシステム。
  9. 前記交通状態は、前記混合自動車両の現在の運転間隔、現在の速度、および現在の加速度を含む、請求項8に記載のシステム。
  10. 前記混合自動車両は、前記隊列内の隣接する制御車両から予め定められた範囲の中の、すべての非制御車両を含む、請求項9に記載のシステム。
  11. 前記運転間隔ベースのモデルは、前記混合自動車両の現在の運転間隔、停止運転間隔、および前進運転間隔を、前記混合自動車両の目標速度に関連付け、前記パラメータ化された関数によって決定される前記目標運転間隔は、前記前進運転間隔であり、前記プロセッサは、前記混合自動車両に対する前記制御されたコマンドの前記目標速度を、前記運転間隔ベースのモデルに従い、前記決定された前進運転間隔と予め定められた固定停止運転間隔とを用いて決定する、請求項1に記載のシステム。
  12. 前記パラメータ化された関数は、深層決定論的ポリシー勾配法、アドバンテージアクタークリティック法、近接ポリシー最適化法、深層Qネットワーク法、またはモンテカルロポリシー勾配法を用いて訓練される、請求項1に記載のシステム。
  13. 前記システムは、前記混合自動車両と直接的または間接的に無線通信するリモートサーバ上に配置される、請求項1に記載のシステム。
  14. 混合自律車両の直接および間接制御のための方法であって、前記方法は、前記方法を実現する格納された命令と結合されたプロセッサを使用し、前記命令は、前記プロセッサによって実行されると前記方法のステップを実行し、前記方法は、
    同一方向に走行する混合自律車両のグループの交通状態を受信するステップを含み、前記混合自律車両のグループは、隊列の形成に自発的に参加する制御車両と、少なくとも1つの非制御車両とを含み、前記交通状態は、前記グループ内の各車両の状態を示し、前記方法はさらに、
    前記交通状態を、前記交通状態を前記混合自律車両のための目標運転間隔に変換するように訓練されたパラメータ化された関数の中に与えることにより、前記目標運転間隔を生成するステップと、
    前記目標運転間隔を、前記目標運転間隔を前記混合自律車両の目標速度にマッピングするように構成された運転間隔ベースのモデルに与えることにより、前記目標速度を生成するステップと、
    前記制御車両に対する制御コマンドを、前記目標運転間隔と前記目標速度とのうちの一方または組み合わせに基づいて決定するステップと、
    前記制御コマンドを、前記混合自律車両のグループの中の前記制御車両に送信するステップとを含む、方法。
  15. 方法を実施するためにプロセッサが実行可能なプログラムが実現された非一時的なコンピュータ読取可能な記憶媒体であって、前記方法は、
    同一方向に走行する混合自律車両のグループの交通状態を受信するステップを含み、前記混合自律車両のグループは、隊列の形成に自発的に参加する制御車両と、少なくとも1つの非制御車両とを含み、前記交通状態は、前記グループ内の各車両の状態を示し、前記方法はさらに、
    前記交通状態を、前記交通状態を前記混合自律車両のための目標運転間隔に変換するように訓練されたパラメータ化された関数の中に与えることにより、前記目標運転間隔を生成するステップと、
    前記目標運転間隔を、前記目標運転間隔を前記混合自律車両の目標速度にマッピングするように構成された運転間隔ベースのモデルに与えることにより、前記目標速度を生成するステップと、
    前記制御車両に対する制御コマンドを、前記目標運転間隔と前記目標速度とのうちの一方または組み合わせに基づいて決定するステップと、
    前記制御コマンドを、前記混合自律車両のグループの中の前記制御車両に送信するステップとを含む、非一時的なコンピュータ読取可能な記憶媒体。
JP2022538567A 2019-10-17 2020-09-29 混合自律車両隊列の直接および間接制御 Active JP7282271B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/655,633 2019-10-17
US16/655,633 US11209834B2 (en) 2019-10-17 2019-10-17 Direct and indirect control of mixed-automata vehicle platoon
PCT/JP2020/037929 WO2021075320A1 (en) 2019-10-17 2020-09-29 Direct and indirect control of mixed- automata vehicle platoon

Publications (2)

Publication Number Publication Date
JP2022545755A true JP2022545755A (ja) 2022-10-28
JP7282271B2 JP7282271B2 (ja) 2023-05-26

Family

ID=73198393

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022538567A Active JP7282271B2 (ja) 2019-10-17 2020-09-29 混合自律車両隊列の直接および間接制御

Country Status (5)

Country Link
US (1) US11209834B2 (ja)
EP (1) EP3891572B1 (ja)
JP (1) JP7282271B2 (ja)
CN (1) CN114761895A (ja)
WO (1) WO2021075320A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113255998B (zh) * 2021-05-25 2022-06-03 北京理工大学 基于多智能体强化学习的高速道路无人驾驶车辆编队方法
CN113781788B (zh) * 2021-11-15 2022-02-15 长沙理工大学 基于稳定性与安全性的自动驾驶车辆管理方法
CN114103969B (zh) * 2021-12-28 2024-03-12 西南大学 车速确定方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008110620A (ja) * 2006-10-27 2008-05-15 Toyota Motor Corp 車両走行制御装置
DE102008026686A1 (de) * 2008-06-04 2009-12-10 Andreas Glindemann Elektronische Deichsel
JP2015022419A (ja) * 2013-07-17 2015-02-02 日産自動車株式会社 隊列走行制御装置、隊列走行制御方法

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10024739A1 (de) 1999-05-21 2000-12-07 Honda Motor Co Ltd Kolonnenfahr-Steuervorrichtung
US20080249667A1 (en) * 2007-04-09 2008-10-09 Microsoft Corporation Learning and reasoning to enhance energy efficiency in transportation systems
US8478642B2 (en) * 2008-10-20 2013-07-02 Carnegie Mellon University System, method and device for predicting navigational decision-making behavior
US8768597B2 (en) 2009-07-28 2014-07-01 Toyota Jidosha Kabushiki Kaisha Vehicle control device, vehicle control method, and vehicle control system
US9367797B2 (en) * 2012-02-08 2016-06-14 Jason Frank Hunzinger Methods and apparatus for spiking neural computation
US10134278B1 (en) * 2016-01-22 2018-11-20 State Farm Mutual Automobile Insurance Company Autonomous vehicle application
WO2019046651A2 (en) * 2017-08-30 2019-03-07 Inpher, Inc. EVALUATION OF REAL-VALUE FUNCTION PRESERVING HIGH PRECISION CONFIDENTIALITY
US10989554B2 (en) * 2018-08-24 2021-04-27 Honda Motor Co., Ltd. System and method for emotion navigation routing
US10892858B2 (en) * 2018-09-28 2021-01-12 At&T Intellectual Property I, L.P. Chain broadcasting in vehicle-to-everything (V2X) communications
US11313950B2 (en) * 2019-01-15 2022-04-26 Image Sensing Systems, Inc. Machine learning based highway radar vehicle classification across multiple lanes and speeds
US10996639B2 (en) * 2019-03-11 2021-05-04 Mitsubishi Electric Research Laboratories, Inc. Model predictive control of systems with continuous and discrete elements of operations
US20200342766A1 (en) * 2019-04-24 2020-10-29 Cisco Technology, Inc. Dynamic platoon management
US11256611B2 (en) * 2019-05-29 2022-02-22 Toyota Research Institute, Inc. Simulation-based technique to synthesize controllers that satisfy signal temporal logic specifications
US11429115B2 (en) * 2019-06-27 2022-08-30 Baidu Usa Llc Vehicle-platoons implementation under autonomous driving system designed for single vehicle
US11222542B2 (en) * 2019-08-22 2022-01-11 Qualcomm Incorporated Planning and control framework with communication messaging
US11267482B2 (en) * 2019-10-11 2022-03-08 International Business Machines Corporation Mitigating risk behaviors

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008110620A (ja) * 2006-10-27 2008-05-15 Toyota Motor Corp 車両走行制御装置
DE102008026686A1 (de) * 2008-06-04 2009-12-10 Andreas Glindemann Elektronische Deichsel
JP2015022419A (ja) * 2013-07-17 2015-02-02 日産自動車株式会社 隊列走行制御装置、隊列走行制御方法

Also Published As

Publication number Publication date
WO2021075320A1 (en) 2021-04-22
EP3891572A1 (en) 2021-10-13
US11209834B2 (en) 2021-12-28
CN114761895A (zh) 2022-07-15
US20210116935A1 (en) 2021-04-22
JP7282271B2 (ja) 2023-05-26
EP3891572B1 (en) 2022-05-04

Similar Documents

Publication Publication Date Title
CN112292646B (zh) 车辆的控制系统、用于控制车辆的方法和非暂时性计算机可读存储器
JP7282271B2 (ja) 混合自律車両隊列の直接および間接制御
CN112389427B (zh) 车辆轨迹优化方法、装置、电子设备和存储介质
US9568915B1 (en) System and method for controlling autonomous or semi-autonomous vehicle
JP7345676B2 (ja) 自動または半自動運転車両の適応制御
Li et al. Real-time trajectory planning for autonomous urban driving: Framework, algorithms, and verifications
US20190377352A1 (en) Method and system for assisting an operator of an ego-vehicle in controlling the ego-vehicle by determining a future behavior and an associated trajectory for the ego-vehicle
US20200278686A1 (en) Iterative Feedback Motion Planning
JP6610891B2 (ja) 列車の移動を制御する方法およびシステム
EP3819181A1 (en) Vehicle control system
CN111833597A (zh) 具有规划控制的交通情形中的自主决策
US20220155732A9 (en) System and Method of Efficient, Continuous, and Safe Learning Using First Principles and Constraints
CN111679660A (zh) 一种融合类人驾驶行为的无人驾驶深度强化学习方法
CN113661106A (zh) 基于模型的预测控制确定车辆致动器的输入变量
US20220355792A1 (en) Method and device for trajectory planning for a vehicle
CN115600482A (zh) 机器控制
CN113635900A (zh) 一种预测巡航过程中基于能量管理的换道决策控制方法
JP6599817B2 (ja) 演算装置、演算方法およびプログラム
CN117198082B (zh) 基于双层优化的车辆匝道汇入决策方法及系统
US20240116511A1 (en) Multi-policy lane change assistance for vehicle
Gao et al. Adaptive Model Predictive Control for Intelligent Vehicle Trajectory Tracking Considering Road Curvature
Li et al. V2X assisted co‐design of motion planning and control for connected automated vehicle
CN117873052A (zh) 具有实时函数逼近器的自动驾驶车辆的轨迹规划系统
CN117842092A (zh) 确保自动车辆存在避开移动障碍机动动作的轨迹规划系统

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220218

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220218

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230418

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230516

R150 Certificate of patent or registration of utility model

Ref document number: 7282271

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150