JP2021514882A - 自律走行のためのシステムおよび方法 - Google Patents

自律走行のためのシステムおよび方法 Download PDF

Info

Publication number
JP2021514882A
JP2021514882A JP2018567861A JP2018567861A JP2021514882A JP 2021514882 A JP2021514882 A JP 2021514882A JP 2018567861 A JP2018567861 A JP 2018567861A JP 2018567861 A JP2018567861 A JP 2018567861A JP 2021514882 A JP2021514882 A JP 2021514882A
Authority
JP
Japan
Prior art keywords
sample
vehicle
preliminary
control signal
updated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018567861A
Other languages
English (en)
Inventor
ウェイ ルオ
ウェイ ルオ
Original Assignee
ベイジン・ボイジャー・テクノロジー・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベイジン・ボイジャー・テクノロジー・カンパニー・リミテッド filed Critical ベイジン・ボイジャー・テクノロジー・カンパニー・リミテッド
Publication of JP2021514882A publication Critical patent/JP2021514882A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0214Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0219Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory ensuring the processing of the whole working surface

Landscapes

  • Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Traffic Control Systems (AREA)
  • Control Of Driving Devices And Active Controlling Of Vehicle (AREA)

Abstract

本開示は、自律走行のためのシステムおよび方法に関する。システムは、車両と関連付けられる走行情報を取得することと、車両の状態を決定することと、トレーニングされた制御モデルを使用することによって、走行情報および車両の状態に基づいて、1つまたは複数の候補制御信号、および、1つまたは複数の候補制御信号に対応する1つまたは複数の評価値を決定することと、1つまたは複数の評価値に基づいて、1つまたは複数の候補制御信号からターゲット制御信号を選択することと、車両の制御構成要素にターゲット制御信号を送信することとを行うことができる。【選択図】図4

Description

関連出願の相互参照
本出願は、2018年12月18日に提出された中国特許出願第201811547279.X号に対する優先権を主張し、その内容全体が参照により本明細書に組み込まれる。
本開示は、概して自律走行のためのシステムおよび方法に関し、詳細には、自律走行において制御信号を決定するためのシステムおよび方法に関する。
マイクロエレクトロニクスおよびロボット技術の発展によって、自律走行の探究は今日、急速に発展している。自律走行システムにとって、自律走行システムの車両と関連付けられる走行情報(例えば、出発地、規定の目的地、道路状態)に基づいて適切な制御信号(例えば、加速装置制御信号)を決定することが重要である。一般的に、自律走行システムは、例えば、走行情報を取得すること、走行情報に基づいて走行動作を決定すること、走行動作に基づいて走行経路を計画すること、走行経路に基づいて制御信号を決定することなどの、一連の動作を実施することによって、制御信号を決定する。しかしながら、制御信号をより直接的に決定することができるとすれば、自律走行システムの効率を大幅に向上させることができる。それゆえ、車両と関連付けられる走行情報に基づいて、制御信号を直接的に決定するためのシステムおよび方法を提供し、それによって、自律走行システムの性能を向上させることが望ましい。
本開示の一態様は、自律走行のためのシステムに関する。システムは、命令のセットを含む少なくとも1つの記憶媒体と、少なくとも1つの記憶媒体と通信する少なくとも1つのプロセッサとを含むことができる。命令のセットを実行するとき、少なくとも1つのプロセッサは、システムに、以下の動作のうちの1つまたは複数を実施させるように指令され得る。システムは、車両と関連付けられる走行情報を取得することができる。システムは、車両の状態を決定することができる。システムは、トレーニングされた制御モデルを使用することによって、走行情報および車両の状態に基づいて、1つまたは複数の候補制御信号、および、1つまたは複数の候補制御信号に対応する1つまたは複数の評価値を決定することができる。システムは、1つまたは複数の評価値に基づいて、1つまたは複数の候補制御信号からターゲット制御信号を選択することができる。システムは、車両の制御構成要素にターゲット制御信号を送信することができる。
いくつかの実施形態において、車両と関連付けられる走行情報は、車両の第1の所定の範囲内の知覚情報および/または車両の第1の所定の範囲内のマップ情報を含むことができる。
いくつかの実施形態において、知覚情報は、道路状態情報および/または障害物情報を含むことができる。
いくつかの実施形態において、車両の状態は、車両の速度、車両の加速度、および/または、車両のステアリング・ホイール角度を含むことができる。
いくつかの実施形態において、トレーニングされた制御モデルは、トレーニング・プロセスによって決定することができる。トレーニング・プロセスは、予備制御モデルを取得することと、予備サンプル走行情報を取得することであって、予備サンプル走行情報は、サンプル車両の第2の所定の範囲内の予備サンプル知覚情報、および、サンプル車両の第2の所定の範囲内の予備サンプルマップ情報を含む、予備サンプル走行情報を取得することと、サンプル車両の予備サンプル状態を取得することと、予備サンプル走行情報、サンプル車両の予備サンプル状態、および予備制御モデルに基づいて、予備サンプル制御信号を決定することと、予備サンプル制御信号に対応する予備報酬値に基づいて、予備制御モデルと関連付けられる予備サンプル評価値を決定することであって、予備報酬値は、予備サンプル制御信号と関連付けられる衝突条件、予備サンプル制御信号と関連付けられる車線条件、または、予備サンプル制御信号と関連付けられる停止条件のうちの少なくとも1つと関連付けられる、予備サンプル評価値を決定することと、予備サンプル評価値が既定の条件を満たすか否かを決定することと、予備サンプル評価値が既定の条件を満たすという決定に応答して、予備制御モデルをトレーニングされた制御モデルとして指定することとを含む。
いくつかの実施形態において、トレーニング・プロセスは、予備サンプル評価値が既定の条件を満たさないという決定に応答して、更新されたサンプル評価値が既定の条件を満たすまで、予備制御モデルを更新するために1回または複数回の反復を実施することをさらに含むことができる。1回または複数回の反復の各々は、前の反復における報酬値に基づいて、更新された制御モデルを決定することと、更新されたサンプル走行情報を取得することと、前の反復におけるサンプル制御信号、および、前の反復におけるサンプル車両のサンプル状態に基づいて、サンプル車両の更新されたサンプル状態を推定することと、更新されたサンプル走行情報、サンプル車両の更新されたサンプル状態、および更新された制御モデルに基づいて、更新されたサンプル制御信号を決定することと、更新されたサンプル制御信号および前の反復におけるサンプル評価値に対応する更新された報酬値に基づいて、更新された制御モデルと関連付けられる更新されたサンプル評価値を決定することと、更新されたサンプル評価値が既定の条件を満たすか否かを決定することとを含むことができる。
いくつかの実施形態において、トレーニングされた制御モデルは、深層決定的方策勾配(DDPG:Deep Deterministic Policy Gradient)ネットワーク・モデルを含むことができる。
いくつかの実施形態において、システムは、所定のルールに従って、1つまたは複数の評価値に基づいて、1つまたは複数の候補制御信号からターゲット制御信号を選択することができる。
本開示の別の態様は、コンピューティング・デバイス上で実施される方法に関する。コンピューティング・デバイスは、少なくとも1つのプロセッサと、少なくとも1つの記憶媒体と、ネットワークに接続されている通信プラットフォームとを含むことができる。方法は、車両と関連付けられる走行情報を取得することと、車両の状態を決定することと、トレーニングされた制御モデルを使用することによって、走行情報および車両の状態に基づいて、1つまたは複数の候補制御信号、および、1つまたは複数の候補制御信号に対応する1つまたは複数の評価値を決定することと、1つまたは複数の評価値に基づいて、1つまたは複数の候補制御信号からターゲット制御信号を選択することと、車両の制御構成要素にターゲット制御信号を送信することとを含むことができる。
いくつかの実施形態において、車両と関連付けられる走行情報は、車両の第1の所定の範囲内の知覚情報および/または車両の第1の所定の範囲内のマップ情報を含むことができる。
いくつかの実施形態において、知覚情報は、道路状態情報および/または障害物情報を含むことができる。
いくつかの実施形態において、車両の状態は、車両の速度、車両の加速度、および/または、車両のステアリング・ホイール角度を含むことができる。
いくつかの実施形態において、トレーニングされた制御モデルは、トレーニング・プロセスによって決定することができる。トレーニング・プロセスは、予備制御モデルを取得することと、予備サンプル走行情報を取得することであって、予備サンプル走行情報は、サンプル車両の第2の所定の範囲内の予備サンプル知覚情報、および、サンプル車両の第2の所定の範囲内の予備サンプルマップ情報を含む、予備サンプル走行情報を取得することと、サンプル車両の予備サンプル状態を取得することと、予備サンプル走行情報、サンプル車両の予備サンプル状態、および予備制御モデルに基づいて、予備サンプル制御信号を決定することと、予備サンプル制御信号に対応する予備報酬値に基づいて、予備制御モデルと関連付けられる予備サンプル評価値を決定することであって、予備報酬値は、予備サンプル制御信号と関連付けられる衝突条件、予備サンプル制御信号と関連付けられる車線条件、または、予備サンプル制御信号と関連付けられる停止条件のうちの少なくとも1つと関連付けられる、予備サンプル評価値を決定することと、予備サンプル評価値が既定の条件を満たすか否かを決定することと、予備サンプル評価値が既定の条件を満たすという決定に応答して、予備制御モデルをトレーニングされた制御モデルとして指定することとを含む。
いくつかの実施形態において、トレーニング・プロセスは、予備サンプル評価値が既定の条件を満たさないという決定に応答して、更新されたサンプル評価値が既定の条件を満たすまで、予備制御モデルを更新するために1回または複数回の反復を実施することをさらに含むことができる。1回または複数回の反復の各々は、前の反復における報酬値に基づいて、更新された制御モデルを決定することと、更新されたサンプル走行情報を取得することと、前の反復におけるサンプル制御信号、および、前の反復におけるサンプル車両のサンプル状態に基づいて、サンプル車両の更新されたサンプル状態を推定することと、更新されたサンプル走行情報、サンプル車両の更新されたサンプル状態、および更新された制御モデルに基づいて、更新されたサンプル制御信号を決定することと、前の反復における更新されたサンプル制御信号およびサンプル評価値に対応する更新された報酬値に基づいて、更新された制御モデルと関連付けられる更新されたサンプル評価値を決定することと、更新されたサンプル評価値が既定の条件を満たすか否かを決定することとを含むことができる。
いくつかの実施形態において、トレーニングされた制御モデルは、深層決定的方策勾配(DDPG)ネットワーク・モデルを含むことができる。
いくつかの実施形態において、1つまたは複数の評価値に基づいて、1つまたは複数の候補制御信号からターゲット制御信号を選択することは、所定のルールに従って、1つまたは複数の評価値に基づいて、1つまたは複数の候補制御信号からターゲット制御信号を選択することをさらに含むことができる。
本開示のさらなる態様は、自律走行のために構成されている車両に関する。車両は、検出構成要素と、計画構成要素と、制御構成要素とを含むことができる。計画構成要素は、車両と関連付けられる走行情報を取得することと、車両の状態を決定することと、トレーニングされた制御モデルを使用することによって、走行情報および車両の状態に基づいて、1つまたは複数の候補制御信号、および、1つまたは複数の候補制御信号に対応する1つまたは複数の評価値を決定することと、1つまたは複数の評価値に基づいて、1つまたは複数の候補制御信号からターゲット制御信号を選択することと、車両の制御構成要素にターゲット制御信号を送信することとを行うように構成することができる。
いくつかの実施形態において、車両と関連付けられる走行情報は、車両の第1の所定の範囲内の知覚情報および/または車両の第1の所定の範囲内のマップ情報を含むことができる。
いくつかの実施形態において、知覚情報は、道路状態情報および/または障害物情報を含むことができる。
いくつかの実施形態において、車両の状態は、車両の速度、車両の加速度、および/または、車両のステアリング・ホイール角度を含むことができる。
いくつかの実施形態において、トレーニングされた制御モデルは、トレーニング・プロセスによって決定することができる。トレーニング・プロセスは、予備制御モデルを取得することと、予備サンプル走行情報を取得することであって、予備サンプル走行情報は、サンプル車両の第2の所定の範囲内の予備サンプル知覚情報、および、サンプル車両の第2の所定の範囲内の予備サンプルマップ情報を含む、予備サンプル走行情報を取得することと、サンプル車両の予備サンプル状態を取得することと、予備サンプル走行情報、サンプル車両の予備サンプル状態、および予備制御モデルに基づいて、予備サンプル制御信号を決定することと、予備サンプル制御信号に対応する予備報酬値に基づいて、予備制御モデルと関連付けられる予備サンプル評価値を決定することであって、予備報酬値は、予備サンプル制御信号と関連付けられる衝突条件、予備サンプル制御信号と関連付けられる車線条件、または、予備サンプル制御信号と関連付けられる停止条件のうちの少なくとも1つと関連付けられる、予備サンプル評価値を決定することと、予備サンプル評価値が既定の条件を満たすか否かを決定することと、予備サンプル評価値が既定の条件を満たすという決定に応答して、予備制御モデルをトレーニングされた制御モデルとして指定することとを含む。
いくつかの実施形態において、トレーニング・プロセスは、予備サンプル評価値が既定の条件を満たさないという決定に応答して、更新されたサンプル評価値が既定の条件を満たすまで、予備制御モデルを更新するために1回または複数回の反復を実施することをさらに含むことができる。1回または複数回の反復の各々は、前の反復における報酬値に基づいて、更新された制御モデルを決定することと、更新されたサンプル走行情報を取得することと、前の反復におけるサンプル制御信号、および、前の反復におけるサンプル車両のサンプル状態に基づいて、サンプル車両の更新されたサンプル状態を推定することと、更新されたサンプル走行情報、サンプル車両の更新されたサンプル状態、および更新された制御モデルに基づいて、更新されたサンプル制御信号を決定することと、前の反復における更新されたサンプル制御信号およびサンプル評価値に対応する更新された報酬値に基づいて、更新された制御モデルと関連付けられる更新されたサンプル評価値を決定することと、更新されたサンプル評価値が既定の条件を満たすか否かを決定することとを含むことができる。
いくつかの実施形態において、トレーニングされた制御モデルは、深層決定的方策勾配(DDPG)ネットワーク・モデルを含むことができる。
いくつかの実施形態において、計画構成要素は、所定のルールに従って、1つまたは複数の評価値に基づいて、1つまたは複数の候補制御信号からターゲット制御信号を選択するようにさらに構成することができる。
追加の特徴は、部分的には、後続する説明に記載され、部分的には、以下および添付の図面の検討を受けて当業者に明らかになるか、または、実施例の生成または動作によって学習することができる。本開示の特徴は、下記に論じられている詳細な例に記載されている方法、手段、および組合せの様々な態様を実践または使用することによって実現し、達成することができる。
本開示は、例示的な実施形態に関してさらに説明される。図面を参照しながら、これらの例示的な実施形態を詳細に説明する。これらの実施形態は非限定的な例示的な実施形態であり、同様の参照番号は、図面のいくつかのビュー全体を通じて同様の構造を表す。
本開示のいくつかの実施形態による例示的な自律走行システムを示す概略図である。 本開示のいくつかの実施形態による例示的な自律走行システムの例示的なハードウェアおよび/またはソフトウェア構成要素を示す概略図である。 本開示のいくつかの実施形態による例示的な処理エンジンを示すブロック図である。 本開示のいくつかの実施形態による、ターゲット制御信号を決定するための例示的なプロセスを示すフローチャートである。 本開示のいくつかの実施形態による、トレーニングされた制御モデルを決定するための例示的なプロセスを示すフローチャートである。 本開示のいくつかの実施形態による、トレーニングされた制御モデルを決定するための例示的なプロセスを示すフローチャートである。 本開示のいくつかの実施形態による、深層決定的方策勾配(DDPG)ネットワーク・モデルをトレーニングするための例示的なプロセスを示す概略図である。
以下の説明は、当業者が、本開示を作成および使用することを可能にするために提示され、特定の用途およびその要件のコンテキストにおいて提供される。開示される実施形態に対する様々な改変が、当業者には容易に認識され、本明細書において定義される一般的な原理は、本開示の主旨または範囲から逸脱することなく他の実施形態および用途に適用されることができる。したがって、本開示は本明細書に示されている実施形態に限定されず、特許請求項の範囲に一致する最も広い範囲に合致するものである。
本明細書において使用される用語は特定の例示的な実施形態を説明することのみを目的とするものであり、限定であるようには意図されない。本明細書において使用される場合、単数形「1つの」(“a”、“an”)および「その」(“the”)は、別途文脈が明確に指示していない限り、複数形も含むように意図され得る。用語「備える」(“comprise”、“comprises”)および/または「備えている」(“comprising”)、「含む」(“include”、“includes”)および/または「含んでいる」(“including”)は、本開示において使用されている場合、記載されている特徴、整数、ステップ、動作、要素、および/または構成要素が存在することを指定するが、1つまたは複数の他の特徴、整数、ステップ、動作、要素、および/または構成要素、および/またはそのグループが存在することまたは追加されることを除外するものではないことがさらに理解されよう。
これらのおよび他の特徴、および本開示の特性、ならびに、構造の関連する要素および部品の組合せの動作および機能の方法および製造の経済性は、添付の図面を参照しながら以下の説明を検討することを受けて、より明らかになり得る。これらのすべてが、本開示の部分を形成する。しかしながら、図面は例示および説明のみを目的としたものであり、本開示の範囲を限定するようには意図されていないことは、明確に理解されたい。図面は原寸に比例しないことを理解されたい。
本開示において使用されているフローチャートは、本開示のいくつかの実施形態に従ってシステムが実施する動作を示す。フローチャートの動作は順序を変えて実施することができることは、明確に理解されたい。逆に、動作は、逆順で、または同時に実施することができる。その上、1つまたは複数の他の動作をフローチャートに追加することができる。1つまたは複数の他の動作はフローチャートから削除することができる。
その上、本開示において開示されているシステムおよび方法は、主に地上の輸送システムに関して説明されているが、これは1つの例示的な実施形態に過ぎないことは理解されたい。本開示のシステムおよび方法は、任意の他の種類の輸送システムに適用することができる。例えば、本開示のシステムおよび方法は、海洋、航空宇宙など、または任意のそれらの組合せを含む異なる環境の輸送システムに適用することができる。輸送システムの車両は、自動車、バス、列車、地下鉄、船舶、航空機、宇宙船、熱気球など、またはそれらの任意の組合せを含むことができる。
本開示において使用される測位技術は、全地球測位システム(GPS)、グローバル・ナビゲーション衛星システム(GLONASS)、コンパス・ナビゲーション・システム(COMPASS)、Galileo測位システム、準天頂衛星システム(QZSS)、ワイヤレス・フィデリティ(WiFi)測位技術など、またはそれらの任意の組合せに基づくことができる。上記の測位システムのうちの1つまたは複数は、本開示においては交換可能に使用することができる。
本開示の一態様は、自律走行において制御信号を決定するためのシステムおよび方法に関する。本開示のいくつかのシステムおよび方法によれば、プロセッサは、車両と関連付けられる走行情報(例えば、道路状態情報、障害物情報、マップ情報)を取得し、車両の状態(例えば、速度、加速度、ステアリング・ホイール角度)を決定し、トレーニングされた制御モデル(例えば、深層決定的方策勾配(DDPG)ネットワーク・モデル)を使用することによって、走行情報および車両の状態に基づいて、1つまたは複数の候補制御信号、および、1つまたは複数の候補制御信号に対応する1つまたは複数の評価値を決定し、1つまたは複数の評価値に基づいて1つまたは複数の候補制御信号からターゲット制御信号を選択することができる。さらに、プロセッサは、車両の制御構成要素にターゲット制御信号を送信することができる。本開示のシステムおよび方法によれば、制御信号は、トレーニングされたモデルに基づいて直接的に決定することができ、これによって、自律走行システムの効率を向上させることができる。
図1は、本開示のいくつかの実施形態による例示的な自律走行システムを示す概略図である。いくつかの実施形態において、自律走行システム100は、サーバ110と、ネットワーク120と、車両130と、ストレージ140とを含むことができる。
いくつかの実施形態において、サーバ110は、単一のサーバであってもよく、または、サーバ・グループであってもよい。サーバ・グループは、集中型であってもよく、または、分散型であってもよい(例えば、サーバ110は分散型システムであってもよい)。いくつかの実施形態において、サーバ110は、ローカルであってもよく、または、リモートであってもよい。例えば、サーバ110は、ネットワーク120を介して、車両130および/またはストレージ140に記憶されている情報および/またはデータにアクセスすることができる。別の例として、サーバ110は、記憶されている情報および/またはデータにアクセスするために、車両130および/またはストレージ140に直接的に接続されてもよい。いくつかの実施形態において、サーバ110は、クラウド・プラットフォームまたは内蔵コンピュータ上で実装されてもよい。例としてのみ、クラウド・プラットフォームは、プライベート・クラウド、公衆クラウド、ハイブリッド・クラウド、コミュニティ・クラウド、分散型クラウド、インタークラウド、マルチクラウドなど、またはそれらの任意の組合せを含んでもよい。いくつかの実施形態において、サーバ110は、本開示の図2に示す1つまたは複数の構成要素を含むコンピューティング・デバイス200上で実装することができる。
いくつかの実施形態において、サーバ110は、処理エンジン112を含んでもよい。処理エンジン112は、本開示に記載されている1つまたは複数の機能を実施するために、走行情報および/または車両130の状態と関連付けられる情報および/またはデータを処理することができる。例えば、処理エンジン112は、車両130と関連付けられる走行情報(例えば、道路状態情報、障害物情報)および/または車両130の状態(例えば、現在の位置、現在の速度)を取得することができる。処理エンジン112は、走行情報および/または車両130の状態に基づいて、制御信号を決定することができる。すなわち、処理エンジン112は、車両130の計画構成要素として構成することができる。いくつかの実施形態において、処理エンジン112は、1つまたは複数の処理エンジン(例えば、シングルコア処理エンジンまたはマルチコア・プロセッサ)を含んでもよい。例としてのみ、処理エンジン112は、中央処理ユニット(CPU)、特定用途向け集積回路(ASIC)、特定用途向け命令セット・プロセッサ(ASIP)、グラフィックス処理ユニット(GPU)、物理演算ユニット(PPU:physics processing unit)、デジタル信号プロセッサ(DSP)、フィールド・プログラマブル・ゲート・アレイ(FPGA)、プログラム可能論理デバイス(PLD)、コントローラ、マイクロコントローラ・ユニット、縮小命令セット・コンピュータ(RISC)、マイクロプロセッサなど、またはそれらの任意の組合せを含んでもよい。
いくつかの実施形態において、サーバ110は、自律走行システム100の1つまたは複数の構成要素(例えば、車両130、ストレージ140)と通信するために、ネットワーク120に接続することができる。いくつかの実施形態において、サーバ110は、自律走行システム100の1つまたは複数の構成要素(例えば、車両130、ストレージ140)と直接的に接続されてもよく、または、それらの構成要素と通信してもよい。いくつかの実施形態において、サーバ110は、車両130内に統合されてもよい。例えば、サーバ110は、車両130内に設置されたコンピューティング・デバイス(例えば、内蔵コンピュータ)であってもよい。
ネットワーク120は、情報および/またはデータの交換を促進することができる。いくつかの実施形態において、自律走行システム100の1つまたは複数の構成要素(例えば、サーバ110、車両130、またはストレージ140)は、情報および/またはデータを、ネットワーク120を介して自律走行システム100の他の構成要素に送信することができる。例えば、サーバ110は、ネットワーク120を介して、車両130と関連付けられる走行情報および/または車両130の状態を取得することができる。いくつかの実施形態において、ネットワーク120は、任意のタイプの有線またはワイヤレス・ネットワーク、またはそれらの組合せであってもよい。例としてのみ、ネットワーク120は、ケーブル・ネットワーク、ワイヤライン・ネットワーク、光ファイバー・ネットワーク、遠隔通信ネットワーク、イントラネット、インターネット、ローカル・エリア・ネットワーク(LAN)、ワイド・エリア・ネットワーク(WAN)、ワイヤレス・ローカル・エリア・ネットワーク(WLAN)、メトロポリタン・エリア・ネットワーク(MAN)、公衆電話網(PSTN)、Bluetooth(登録商標)ネットワーク、ZigBeeネットワーク、またはそれらの任意の組合せを含んでもよい。いくつかの実施形態において、ネットワーク120は、1つまたは複数のネットワーク・アクセス・ポイントを含むことができる。例えば、ネットワーク120は、有線またはワイヤレス・ネットワーク・アクセス・ポイントを含むことができ、それを通じて、自律走行システム100の1つまたは複数の構成要素を、データおよび/または情報を交換するためにネットワーク120に接続することができる。
車両130は、任意のタイプの自律車両であってもよい。自律車両は、環境情報を検知し、人間が操作することなくナビゲートすることが可能であり得る。車両130は、従来の車両の構造を含んでもよい。例えば、車両130は、車両130の動作を制御するように構成されている複数の制御構成要素を含んでもよい。複数の制御構成要素は、ステアリング・デバイス(例えば、ステアリング・ホイール)、ブレーキデバイス(例えば、ブレーキペダル)、および加速装置を含んでもよい。ステアリング・デバイスは、車両130の進行方向(heading)および/または方向(direction)を調整するように構成することができる。ブレーキデバイスは、車両130を停止するためのブレーキ動作を実施するように構成することができる。加速装置は、車両130の速度および/または加速度を制御するように構成することができる。
また、車両130は、車両130と関連付けられる走行情報を検出するように構成されている複数の検出ユニットを含むこともできる。複数の検出ユニットは、カメラ、全地球測位システム(GPS)モジュール、加速度センサー(例えば、圧電センサー)、速度センサー(例えば、ホール・センサー)、距離センサー(例えば、レーダー、LIDAR、赤外線センサー)、ステアリング角度センサー(例えば、傾斜センサー)、牽引関連センサー(例えば、力センサー)などを含んでもよい。いくつかの実施形態において、車両130と関連付けられる走行情報は、車両130の一定範囲内の知覚情報(例えば、道路状態情報、障害物情報)、車両130の一定範囲内のマップ情報などを含んでもよい。
ストレージ140は、データおよび/または命令を記憶することができる。いくつかの実施形態において、ストレージ140は、複数の検出ユニットによって獲得される走行情報および/または車両130の状態のような、車両130から取得されるデータを記憶することができる。いくつかの実施形態において、ストレージ140は、本開示に記載されている例示的な方法を実施するためにサーバ110が実行または使用することができるデータおよび/または命令を記憶することができる。いくつかの実施形態において、ストレージ140は、大容量ストレージ、リムーバブル・ストレージ、揮発性読取りおよび書込みメモリ、読取り専用メモリ(ROM)など、またはそれらの任意の組合せを含んでもよい。例示的な大容量ストレージは、磁気ディスク、光ディスク、ソリッドステート・ドライブなどを含んでもよい。例示的なリムーバブル・ストレージは、フラッシュ・ドライブ、フロッピー・ディスク、光ディスク、メモリ・カード、ジップ・ディスク、磁気テープなどを含んでもよい。例示的な揮発性読取りおよび書込みメモリは、ランダム・アクセス・メモリ(RAM)を含んでもよい。例示的なRAMは、ダイナミックRAM(DRAM)、ダブル・データ・レート同期ダイナミックRAM(DDR SDRAM)、スタティックRAM(SRAM)、サイリスタRAM(T−RAM)、およびゼロキャパシタRAM(Z−RAM)などを含んでもよい。例示的なROMは、マスクROM(MROM)、プログラマブルROM(PROM)、消去可能プログラマブルROM(PEROM)、電気的消去可能プログラマブルROM(EEPROM)、コンパクト・ディスクROM(CD−ROM)、およびデジタル多用途ディスクROMなどを含んでもよい。いくつかの実施形態において、ストレージ140は、クラウド・プラットフォーム上で実装されてもよい。例としてのみ、クラウド・プラットフォームは、プライベート・クラウド、公衆クラウド、ハイブリッド・クラウド、コミュニティ・クラウド、分散型クラウド、インタークラウド、マルチクラウドなど、またはそれらの任意の組合せを含んでもよい。
いくつかの実施形態において、ストレージ140は、自律走行システム100の1つまたは複数の構成要素(例えば、サーバ110、車両130)と通信するために、ネットワーク120に接続することができる。自律走行システム100の1つまたは複数の構成要素は、ネットワーク120を介して、ストレージ140内に記憶されているデータまたは命令にアクセスすることができる。いくつかの実施形態において、ストレージ140は、自律走行システム100の1つまたは複数の構成要素(例えば、サーバ110、車両130)と直接的に接続されてもよく、または、それらの構成要素と通信してもよい。いくつかの実施形態において、ストレージ140は、サーバ110の一部分であってもよい。いくつかの実施形態において、ストレージ140は、車両130内に統合されてもよい。
自律走行システム100は、例示のみを目的として与えられており、本開示の範囲を限定するようには意図されていないことに留意されたい。当業者であれば、本開示の教示の下で複数の変形形態または修正形態を作成することができる。例えば、自律走行システム100は、データベース、情報源などをさらに含んでもよい。別の例として、自律走行システム100は、同様のまたは異なる機能を実現するために、他のデバイス上で実装されてもよい。しかしながら、それらの変形形態および修正形態は、本開示の範囲内から逸脱しない。
図2は、本開示のいくつかの実施形態による例示的な自律走行システムの例示的なハードウェアおよび/またはソフトウェア構成要素を示す概略図である。いくつかの実施形態において、サーバ110は、コンピューティング・デバイス200上で実装されてもよい。例えば、処理エンジン112は、コンピューティング・デバイス200上で実装され、本開示において開示されている処理エンジン112の機能を実施するように構成することができる。
コンピューティング・デバイス200は、本開示の自律走行システム100の任意の構成要素を実装するために使用することができる。例えば、自律走行システム100の処理エンジン112は、コンピューティング・デバイス200上で、そのハードウェア、ソフトウェアプログラム、ファームウェア、またはそれらの組合せを介して実装されてもよい。便宜上、1つのみのそのようなコンピュータが示されているが、本明細書に記載されているような自律走行システム100に関連するコンピュータ機能は、処理負荷を分散させるために、複数の同様のプラットフォーム上で分散的に実施されてもよい。
コンピューティング・デバイス200は、例えば、データ通信を容易にするために、それに接続されているネットワーク(例えば、ネットワーク120)に、および、当該ネットワークから接続されている通信(COMM)ポート250を含むことができる。コンピューティング・デバイス200はまた、プログラム命令を実行するための、1つまたは複数のプロセッサ(例えば、論理回路)の形態の、プロセッサ(例えば、プロセッサ220)をも含むことができる。例えば、プロセッサは、インターフェース回路および処理回路をその中に含むことができる。インターフェース回路は、バス210から電子信号を受信するように構成することができ、電子信号は、処理回路が処理するために、構造化されたデータおよび/または命令を符号化する。処理回路は、論理計算を実行し、その後、電子信号として符号化される結論、結果、および/または命令を決定することができる。その後、インターフェース回路は、バス210を介して、処理回路から電子信号を送出することができる。
コンピューティング・デバイス200は、コンピューティング・デバイス200によって処理および/または送信されるべき様々なデータ・ファイルを記憶するために、例えば、ディスク270、および読出し専用メモリ(ROM)230、またはランダム・アクセス・メモリ(RAM)240など、種々の形態のプログラム・ストレージおよびデータ・ストレージをさらに含むことができる。コンピューティング・デバイス200はまた、ROM230、RAM240、および/または他のタイプの非一時的ストレージ媒体内に記憶されている、プロセッサ220によって実行されるべきプログラム命令をも含むことができる。本開示の方法および/またはプロセスは、プログラム命令として実施することができる。コンピューティング・デバイス200はまた、コンピューティング・デバイス200と、その中の他の構成要素との間の入出力をサポートする、I/O構成要素260をも含む。コンピューティング・デバイス200はまた、ネットワーク通信を介してプログラミングおよびデータを受信することもできる。
例示のみのために、1つのみのプロセッサがコンピューティング・デバイス200内に記載されている。しかしながら、また、本開示のコンピューティング・デバイス200は、複数のプロセッサを含んでもよく、したがって、本開示に記載されているような1つのプロセッサによって実施される動作はまた、複数のプロセッサによって共同でまたは別個に実施されてもよいことに留意されたい。例えば、コンピューティング・デバイス200のプロセッサは、動作Aと動作Bの両方を実行する。別の例の場合、動作Aおよび動作Bはまた、コンピューティング・デバイス200内で、2つの異なるプロセッサによって共同でまたは別個に実施されてもよい(例えば、第1のプロセッサが動作Aを実行し、かつ、第2のプロセッサが動作Bを実行し、または、第1のプロセッサおよび第2のプロセッサが共同で動作AおよびBを実行する)。
図3は、本開示のいくつかの実施形態による例示的な処理エンジンを示すブロック図である。処理エンジン112は、取得モジュール310と、状態決定モジュール320と、候補制御信号決定モジュール330と、ターゲット制御信号決定モジュール340と、送信モジュール350とトレーニング・モジュール360とを含むことができる。
取得モジュール310は、車両(例えば、車両130)と関連付けられる走行情報を取得するように構成することができる。取得モジュール310は、車両の検出ユニット(例えば、カメラ、レーダー)、本開示の他の箇所において開示されているストレージ・デバイス(例えば、ストレージ140)、または、外部リソース(例えば、交通案内プラットフォーム、ニュース・プラットフォーム)から走行情報を取得することができる。取得モジュール310は、一定の時間間隔(例えば、0.01秒、0.02秒、0.05秒)に従って、リアル・タイムに、または実質的にリアル・タイムに走行情報を取得することができる。走行情報のさらなる詳細は、本開示の他の箇所(例えば、図4およびその説明)に見出すことができる。
状態決定モジュール320は、車両の状態を決定するように構成することができる。状態決定モジュール320は、一定の時間間隔(例えば、0.01秒、0.02秒、0.05秒など)に従って、リアル・タイムに、または実質的にリアル・タイムに車両の状態を決定することができる。車両の状態のさらなる詳細は、本開示の他の箇所(例えば、図4およびその説明)に見出すことができる。
候補制御信号決定モジュール330は、トレーニングされた制御モデルを使用することによって、走行情報および車両の状態に基づいて、1つまたは複数の候補制御信号、および、1つまたは複数の候補制御信号に対応する1つまたは複数の評価値を決定するように構成することができる。
ターゲット制御信号決定モジュール340は、1つまたは複数の候補制御信号に対応する1つまたは複数の評価値に基づいて、1つまたは複数の候補制御信号からターゲット制御信号を選択するようにさらに構成することができる。いくつかの実施形態において、ターゲット制御信号決定モジュール340は、1つまたは複数の候補制御信号に対応する1つまたは複数の評価値から最も高い評価値を識別し、最も高い評価値に対応する候補制御信号を、ターゲット制御信号として選択することができる。いくつかの実施形態において、ターゲット制御信号決定モジュール340は、所定のルールに従って、1つまたは複数の候補制御信号からターゲット制御信号を選択することができる。
送信モジュール350は、車両の1つまたは複数の制御構成要素にターゲット制御信号を送信するように構成することができる。例えば、送信モジュール350は、車両の走行方向を調整するようにステアリング・デバイスに指令するために、ステアリング・デバイスにターゲット制御信号を送信することができる。別の例として、送信モジュール350は、車両の走行速度を調整するようにブレーキデバイスおよび/または加速装置に指令するために、ブレーキデバイスおよび/または加速装置にターゲット制御信号を送信することができる。
トレーニング・モジュール360は、サンプル車両と関連付けられるサンプル走行情報およびサンプル車両のサンプル状態に基づいて、トレーニングされた制御モデル(例えば、トレーニングされたDDPGネットワーク・モデル)を決定するように構成することができる。トレーニングされた制御モデルの決定のさらなる詳細は、本開示の他の箇所(例えば、図5〜図7およびその説明)に見出すことができる。
処理エンジン112内のモジュールは、ワイヤード接続またはワイヤレス接続を介して、互いに接続され、または、互いと通信することができる。ワイヤード接続は、メタル・ケーブル、光ケーブル、ハイブリッド・ケーブルなど、またはそれらの任意の組合せを含んでもよい。ワイヤレス接続は、ローカル・エリア・ネットワーク(LAN)、ワイド・エリア・ネットワーク(WAN)、Bluetooth(登録商標)、ZigBee、ニア・フィールド通信(NFC)など、またはそれらの任意の組合せを含んでもよい。上記モジュールのうちの2つ以上は、単一のモジュールに組み合わされてもよく、それらのモジュールのうちのいずれか1つは、2つ以上のユニットに分割されてもよい。例えば、取得モジュール310および状態決定モジュール320は、車両と関連付けられる走行情報と車両の状態の両方を取得することができる単一のモジュールとして組み合わされてもよい。別の例として、候補制御信号決定モジュール330およびターゲット制御信号決定モジュール340は、1つまたは複数の候補制御信号とターゲット制御信号の両方を決定することができる単一のモジュールとして組み合わせることができる。さらなる例として、処理エンジン112は、車両と関連付けられる情報および/またはデータ(例えば、車両と関連付けられる走行情報、車両の状態)を記憶するために使用されるストレージ・モジュール(図示せず)を含んでもよい。またさらなる例として、トレーニング・モジュール360は、不要であってもよく、トレーニングされた制御モデルは、本開示の他の箇所において開示されているもののような、ストレージ・デバイス(例えば、ストレージ140)から取得されてもよい。
図4は、本開示のいくつかの実施形態による、ターゲット制御信号を決定するための例示的なプロセスを示すフローチャートである。プロセス400は、自律車両システム100によって実行することができる。例えば、プロセス400は、ストレージROM230またはRAM240内に記憶されている命令のセットとして実施されてもよい。プロセッサ220および/または図3のモジュールは、命令のセットを実行することができ、命令を実行するとき、プロセッサ220および/またはモジュールは、プロセス400を実施するように構成することができる。下記に提示される、図示されているプロセスの動作は、例示的であるように意図されている。いくつかの実施形態において、プロセス400は、記載されていない1つまたは複数の追加の動作を伴って、かつ/または、記載されている動作のうちの1つまたは複数を伴わずに、達成されてもよい。加えて、図4に示されており、下記に説明されるプロセス400の動作の順序は、限定であるようには意図されていない。
410において、処理エンジン112(例えば、取得モジュール310)(例えば、プロセッサ220のインターフェース回路)は、車両(例えば、車両130)と関連付けられる走行情報を取得することができる。処理エンジン112は、車両の検出ユニット(例えば、カメラ、レーダー)、本開示の他の箇所において開示されているストレージ・デバイス(例えば、ストレージ140)、または、外部リソース(例えば、交通案内プラットフォーム、ニュース・プラットフォーム)から走行情報を取得することができる。処理エンジン112は、一定の時間間隔(例えば、0.01秒、0.02秒、0.05秒)に従って、リアル・タイムに、または実質的にリアル・タイムに走行情報を取得することができる。
いくつかの実施形態において、車両と関連付けられる走行情報は、車両の第1の所定の範囲内の知覚情報、車両の第1の所定の範囲内のマップ情報など、またはそれらの任意の組合せを含むことができる。第1の所定の範囲は、自律走行システム100のデフォルト設定であってもよく、または、種々の状況下で調整可能であってもよい。例えば、第1の所定の範囲は、車両の現在の位置を中心とする領域(例えば、円、長方形、正方形、三角形、多角形)であってもよい。
いくつかの実施形態において、処理エンジン112は、車両の検出ユニット(例えば、カメラ、レーダー)から知覚情報を取得することができる。知覚情報は、道路状態情報、障害物情報など、またはそれらの任意の組合せを含んでもよい。道路状態情報は、道路幅、道路超、道路タイプ(例えば、高速道路、環状道路、脇道、高架道路、一方通行路、両面交通道路)、車線情報、交通標識(例えば、道路インジケータ)、交通信号情報、歩行者横断情報など、またはそれらの任意の組合せを含んでもよい。障害物情報は、障害物のタイプ(例えば、車両、歩行者、動物、建造物、樹木、道路上の防塞)、障害物の位置、障害物のサイズ、障害物の速度、車両の現在の位置と障害物の位置との間の距離など、またはそれらの任意の組合せを含んでもよい。
いくつかの実施形態において、処理エンジン112は、本開示の他の箇所において開示されているもののような、ストレージ・デバイス(例えば、ストレージ140)からマップ情報を取得することができる。本明細書において使用されている場合、いくつかの実施形態において、マップ情報は、道路状態情報の高精度表現を示す、高精度マップ(例えば、HDマップ)に含まれる情報であってもよい。
420において、処理エンジン112(例えば、状態決定モジュール320)(例えば、プロセッサ220の処理回路)は、車両の状態を決定することができる。処理エンジン112は、一定の時間間隔(例えば、0.01秒、0.02秒、0.05秒など)に従って、リアル・タイムに、または実質的にリアル・タイムに車両の状態を決定することができる。
いくつかの実施形態において、車両の状態は、車両の現在の位置、車両の速度(例えば、瞬間速度、所定の期間内の平均速度)、車両の加速度(例えば、瞬間加速度、所定の期間内の平均加速度)、車両のステアリング・ホイールの角度など、またはそれらの任意の組合せを含んでもよい。本明細書において使用される場合、「速度」は、「大きさ」の情報および/または「方向」の情報を含む。例えば、車両の速度は、速度の大きさが70km/hであり、速度の方向が水平方向から30°の角度を有する方向であることを示す、「70km/h、30°」として表現することができる。同様に、「加速度」も、「大きさ」の情報および/または「方向」の情報を含む。いくつかの実施形態において、車両の状態は、残りの電力、残りのガソリン量、オイル温度、ガス圧力、タイヤ空気圧などをさらに含んでもよい。
いくつかの実施形態において、処理エンジン112は、車両の検出ユニットから車両の状態を取得することができる。例えば、処理エンジン112は、加速度センサーから車両の加速度を取得することができる。別の例として、処理エンジン112は、ステアリング角度センサーから、車両の瞬間転向角を反映する、ステアリング・ホイールの角度を取得することができる。
430において、処理エンジン112(例えば、候補制御信号決定モジュール330)(例えば、プロセッサ220の処理回路)は、トレーニングされた制御モデルを使用することによって、走行情報および車両の状態に基づいて、1つまたは複数の候補制御信号、および、1つまたは複数の候補制御信号に対応する1つまたは複数の評価値を決定することができる。本明細書において使用される場合、特定の制御信号に対応する評価値は、車両の走行プロセスに対する特定の制御信号と関連付けられる包括報酬(「予測報酬」としても参照される)を示す値を指す。
いくつかの実施形態において、制御信号は、車両の動作を制御するように構成されている命令を参照し得る。いくつかの実施形態において、制御信号は、複数の制御パラメータ(例えば、加速装置またはブレーキデバイスと関連付けられる制御パラメータ、ステアリング制御パラメータ)を含むことができる。例えば、制御信号は、S(X,Y)として表現することができ、Xは加速装置またはブレーキデバイスと関連付けられる制御パラメータ(例えば、開度)を指し、Yはステアリング制御パラメータ(例えば、ステアリング・ホイール角度)を指す。本明細書において使用される場合、「開度」について、正の値は、加速装置動作を示し、負の値はブレーキ動作を示し、「ステアリング・ホイール角度」について、正の値は「右転向」を表し、負の値は「左転向」を示す。
いくつかの実施形態において、処理エンジン112は、トレーニング・モジュール360、または、本開示の他の箇所において開示されているストレージ・デバイス(例えば、ストレージ140)からトレーニングされた制御モデルを取得することができる。いくつかの実施形態において、トレーニングされた制御モデルは、深層決定的方策勾配(DDPG)ネットワーク・モデルを含むことができる。DDPGネットワーク・モデルは、連続信号問題と関連付けられる機械学習において使用される強化学習モデルであり得る。トレーニングされた制御モデルによって、通常の多要因分析プロセスにおける意志決定の特定の態様を回避することができ、車両の動作を制御するための信号を直接的に決定することが可能になる。トレーニングされた制御モデルのさらなる詳細は、本開示の他の箇所(例えば、図5〜図7およびその説明)に見出すことができる。
処理エンジン112(例えば、候補制御信号決定モジュール330)(例えば、プロセッサ220の処理回路)は、トレーニングされた制御モデルを使用することによって、すべてにトレーニングされた制御モデルが関与する、種々の手法を用いて、1つまたは複数の候補制御信号、および、1つまたは複数の評価値を決定することができる。いくつかの実施形態において、いずれの制御信号が候補制御信号になり得るかに関する制限はない。いくつかの実施形態において、処理エンジン112は、前置フィルタ手法(pre−filter approach)を使用して候補制御信号を決定してもよく、すなわち、トレーニングされた制御モデルを経なくなる前に、かつ、候補制御信号になる機会がなくなる前に、特定の制御信号を回避することができる。例えば、本開示のシステムおよび方法は、懸案の車両の基本仕様に対応するフィルタを含むことができる。そのような仕様は、限定ではないが、最大スピード、最大加速度、最大ブレーキ力、(特定のスピードにおける)最大転向角などのようなパラメータを含んでもよい。フィルタは、特定のパラメータしきい値(例えば、最大スピードの75%、最大加速度の75%、最大ブレーキ力の75%、または最大転向角の75%)を超える制御信号が候補信号にならないように、実施することができる。そのようなパラメータはまた、車両の特定の年式およびモデル、車両のマイレージ、および/または、車両の状態の所定の包括的評価に基づいて調整することもできる。制御信号に対する前置フィルタの手法によって、危険なおよび/または制限に違反するタイプの制御信号を回避することができ、トレーニングされた制御モデルが取り扱う必要があるデータが少なくなり、車両の敏速でよりリアル・タイムの制御が可能になる。この手法に加えて、いくつかの実施形態において、条件が満たされる場合、特に、安全性の危機に瀕しており、かつ、すべての候補制御信号が満足な評価値を提供することができるとは限らないときに、前置フィルタを抑制または回避することができる。
440において、処理エンジン112(例えば、ターゲット制御信号決定モジュール340)(例えば、プロセッサ220の処理回路)は、1つまたは複数の評価値に基づいて1つまたは複数の候補制御信号からターゲット制御信号を選択することができる。
いくつかの実施形態において、処理エンジン112は、1つまたは複数の候補制御信号に対応する1つまたは複数の評価値から最も高い評価値を識別し、最も高い評価値に対応する候補制御信号を、ターゲット制御信号として選択することができる。
いくつかの実施形態において、処理エンジン112は、1つまたは複数の所定のルールに従って、1つまたは複数の候補制御信号からターゲット制御信号を選択することができる。所定のルールは、自律走行システム100のデフォルト設定であってもよく、または、種々の状況下で調整可能であってもよい。例えば、処理エンジン112が2つの候補制御信号S(X,Y)およびS(X,Y)を決定すると仮定することができ、ここで、Xの絶対値はXの絶対値よりも小さく、Yの絶対値はYの絶対値よりも小さい。この状況において、処理エンジン112は、候補制御信号S(X,Y)をターゲット制御信号として選択することができる。
処理エンジン112(例えば、ターゲット制御信号決定モジュール340)(例えば、プロセッサ220の処理回路)は、マルチステップ・プロセスによってターゲット制御信号を選択することができる。例えば、いくつかの実施形態において、処理エンジン112は、第1のステップの評価値を使用して候補制御信号を低減し、その後、特定の所定のルールを使用して選択を完了することができる。別の例として、いくつかの実施形態において、処理エンジン112は、特定の所定のルールを使用していくつかの候補制御信号を除去し、その後、評価値に基づいて、候補制御信号をターゲット制御信号として選択することができる。いくつかの状況において、後者の手法は、「概ね」満足な結果を提示するが、また、ある視点からは長期的なおよび/または修復不可能な損失を伴う一定の損傷または結果をも引き起こす候補制御信号が選択されることを防止することができる。
450において、処理エンジン112(例えば、送信モジュール350)(例えば、プロセッサ220のインターフェース回路)は、車両の1つまたは複数の制御構成要素にターゲット制御信号を送信することができる。例えば、処理エンジン112は、車両の走行方向を調整するようにステアリング・デバイスに指令するために、ステアリング・デバイスにターゲット制御信号を送信することができる。別の例として、処理エンジン112は、車両の走行速度を調整するようにブレーキデバイスおよび/または加速装置に指令するために、ブレーキデバイスおよび/または加速装置にターゲット制御信号を送信することができる。
上記の説明は、例示のみを目的として与えられており、本開示の範囲を限定するようには意図されていないことに留意されたい。当業者であれば、本開示の教示の下で複数の変形形態および修正形態を作成することができる。しかしながら、それらの変形形態および修正形態は、本開示の範囲内から逸脱しない。例えば、1つまたは複数の他の任意選択的な動作(例えば、記憶動作)が、プロセス400の他の箇所において追加されてもよい。記憶動作において、処理エンジン112は、車両と関連付けられる情報および/またはデータ(例えば、車両と関連付けられる走行情報、車両の状態、候補制御信号)を、本開示の他の箇所において開示されているストレージ(例えば、ストレージ140)内に記憶することができる。別の例として、動作410および動作420が同時に実施されてもよい。
図5は、本開示のいくつかの実施形態による、トレーニングされた制御モデルを決定するための例示的なプロセスを示すフローチャートである。プロセス500は、自律車両システム100によって実行することができる。例えば、プロセス500は、ストレージROM230またはRAM240内に記憶されている命令のセットとして実施されてもよい。プロセッサ220および/またはトレーニング・モジュール360は、命令のセットを実行することができ、命令を実行するとき、プロセッサ220および/またはトレーニング・モジュール360は、プロセス500を実施するように構成することができる。下記に提示される、図示されているプロセスの動作は、例示的であるように意図されている。いくつかの実施形態において、プロセス500は、記載されていない1つまたは複数の追加の動作を伴って、かつ/または、記載されている動作のうちの1つまたは複数を伴わずに、達成されてもよい。加えて、図5に示されており、下記に説明されるプロセス500の動作の順序は、限定であるようには意図されていない。
510において、処理エンジン112(例えば、トレーニング・モジュール360)(例えば、プロセッサ220のインターフェース回路)は、予備制御モデル(例えば、予備深層決定的方策勾配(DDPG)ネットワーク・モデル)を取得することができる。処理エンジン112は、ネットワーク120を介して、本明細書の他の箇所において開示されているストレージ・デバイス(例えば、ストレージ140)および/または外部データ・ソース(図示せず)から予備制御モデルを取得することができる。予備制御モデルは、自律走行システム100のデフォルト設定であってもよく、または、種々の状況下で調整可能であってもよい1つもしくは複数の予備パラメータを含んでもよい。
520において、処理エンジン112(例えば、トレーニング・モジュール360)(例えば、プロセッサ220の処理回路)は、サンプル車両と関連付けられる予備サンプル走行情報を取得することができる。いくつかの実施形態において、サンプル車両は、車両130と類似の特徴(例えば、車両タイプ、車両モデル、車両年式、車両重量、エンジン出力)を有する。
動作410に関連して説明したように、サンプル車両と関連付けられる予備サンプル走行情報は、サンプル車両の第2の所定の範囲内の予備サンプル知覚情報、サンプル車両の第2の所定の範囲内の予備サンプルマップ情報など、またはそれらの任意の組合せを含むことができる。いくつかの実施形態において、第2の所定の範囲は、動作410に関連して説明した第1の所定の範囲と同じであってもよく、または、異なってもよい。予備サンプル知覚情報は、予備サンプル道路状態情報、予備サンプル障害物情報など、またはそれらの任意の組合せを含んでもよい。いくつかの実施形態において、サンプル車両と関連付けられる予備サンプル走行情報は、自律走行システム100のデフォルト設定であってもよく、または、種々の状況下で調整可能であってもよい。
530において、処理エンジン112(例えば、トレーニング・モジュール360)(例えば、プロセッサ220の処理回路)は、サンプル車両の予備サンプル状態を取得することができる。
動作420に関連して説明したように、サンプル車両の予備サンプル状態は、サンプル車両の予備サンプル速度(例えば、予備サンプル瞬間速度、所定の期間内の予備サンプル平均速度)、サンプル車両の予備サンプル加速度(例えば、予備サンプル瞬間加速度、所定の期間内の予備サンプル平均加速度)、サンプル車両の予備サンプルステアリング・ホイールの角度など、またはそれらの任意の組合せを含んでもよい。いくつかの実施形態において、サンプル車両の予備サンプル状態は、予備サンプル残り電力、予備サンプル残りガソリン量、予備サンプルオイル温度、予備サンプルガス圧力、予備サンプルタイヤ空気圧などをさらに含んでもよい。いくつかの実施形態において、サンプル車両の予備状態は、自律走行システム100のデフォルト設定であってもよく、または、種々の状況下で調整可能であってもよい。
540において、処理エンジン112(例えば、トレーニング・モジュール360)(例えば、プロセッサ220の処理回路)は、予備サンプル走行情報、サンプル車両の予備サンプル状態、および予備制御モデルに基づいて、予備サンプル制御信号を決定することができる。いくつかの実施形態において、処理エンジン112は、予備制御モデルに含まれる予備actorニューラル・ネットワーク(preliminary actor neural network)に基づいて、予備サンプル制御信号を決定することができる。動作430に関連して説明したように、予備サンプル制御信号は、複数の制御パラメータ(例えば、加速装置またはブレーキデバイスと関連付けられる制御パラメータ、ステアリング制御パラメータ)を含むことができる。例えば、予備サンプル走行情報が、サンプル車両の正面に障害物が存在することを示すと仮定し、処理エンジン112が、予備制御モデルに従ってサンプル車両を減速させるために予備サンプル制御信号を決定することができる。
550において、処理エンジン112(例えば、トレーニング・モジュール360)(例えば、プロセッサ220の処理回路)は、予備サンプル制御信号に対応する予備報酬値に基づいて、予備制御モデルと関連付けられる予備サンプル評価値を決定することができる。いくつかの実施形態において、処理エンジン112は、予備制御モデルに含まれる予備criticニューラル・ネットワーク(preliminary critic neural network)に基づいて、予備サンプル制御信号に対応する予備サンプル評価値を決定することができる。本明細書において使用される場合、特定のサンプル制御信号を一例に挙げると、特定のサンプル制御信号に対応する報酬値は、サンプル車両の走行プロセスに対する特定のサンプル制御信号の寄与を評価するために使用されるパラメータとすることができる。また、特定の反復における特定の制御信号を一例に挙げると、特定のサンプル制御信号に対応する評価値は、特定の反復までのサンプル車両の走行プロセスに対する特定の制御信号と関連付けられる包括報酬(「予測報酬」としても参照される)を示す値とすることができる。
いくつかの実施形態において、予備報酬値は、予備サンプル制御信号と関連付けられる衝突条件、予備サンプル制御信号と関連付けられる車線条件、予備サンプル制御信号と関連付けられる停止条件など、またはそれらの任意の組合せと関連付けることができる。
例えば、処理エンジン112は、予備サンプル制御信号の下でサンプル車両と障害物(サンプル車両に最も近い障害物を参照する)との間の距離(「障害物距離」としても参照される)を決定し、その距離に基づいて予備サンプル制御信号に対応する予備報酬値を決定することができる。いくつかの実施形態において、処理エンジン112は、特定の範囲(例えば、0〜1)を規定し、サンプル車両と障害物との間の距離をその特定の範囲にマッピングし、対応するマッピング値を、予備サンプル制御信号に対応する予備報酬値として指定することができる。例えば、サンプル車両と障害物との間の距離が第1の距離しきい値(例えば、0.5m)よりも長いと仮定し、処理エンジン112が、予備サンプル制御信号に対応する予備報酬値が1であると決定することができ、一方、サンプル車両と障害物との間の距離が第2の距離しきい値(例えば、0.01m)よりも小さい(または、サンプル車両が障害物と衝突する)と仮定し、処理エンジン112が、予備サンプル制御信号に対応する予備報酬値が0であると決定することができる。したがって、サンプル車両と障害物との間の距離が長いほど、予備サンプル制御信号に対応する予備報酬値は高くなり得る。第1の距離しきい値および/または第2の距離しきい値は、自律走行システム100のデフォルト設定であってもよく、または、種々の状況下で調整可能であってもよい。
別の例として、処理エンジン112は、予備サンプル制御信号の下で、サンプル車両と、サンプル車両が位置する車線の中心線との間の距離(「車線距離」としても参照される)を決定し、その距離に基づいて予備サンプル制御信号に対応する予備報酬値を決定することができる。同様に、処理エンジン112はまた、特定の範囲(例えば、0〜1)を規定し、サンプル車両と車線の中心線との間の距離をその特定の範囲にマッピングし、対応するマッピング値を、予備サンプル制御信号に対応する予備報酬値として指定することができる。例えば、サンプル車両と車線の中心線との間の距離が第3の距離しきい値(例えば、0.5m)よりも長いと仮定し、処理エンジン112が、予備サンプル制御信号に対応する予備報酬値が1であると決定することができ、一方、サンプル車両と車線の中心線との間の距離が第4の距離しきい値(例えば、0.01m)よりも小さいと仮定し、処理エンジン112が、予備サンプル制御信号に対応する予備報酬値が0であると決定することができる。したがって、サンプル車両と車線の中心線との間の距離が長いほど、予備サンプル制御信号に対応する予備報酬値は高くなり得る。第3の距離しきい値および/または第4の距離しきい値は、自律走行システム100のデフォルト設定であってもよく、または、種々の状況下で調整可能であってもよい。
さらなる例として、処理エンジン112は、予備サンプル制御信号の下で、サンプル車両が停止条件(例えば、赤色交通信号灯、歩道)を満たすか否かを決定することができる。予備サンプル制御信号の下で、サンプル車両が停止条件を満たすという決定に応答して、処理エンジン112は、予備サンプル制御信号に対応する予備報酬値を、1として決定することができる。予備サンプル制御信号の下で、サンプル車両が停止条件を満たさないという決定に応答して、処理エンジン112は、予備サンプル制御信号に対応する予備報酬値を、0として決定することができる。
いくつかの実施形態において、処理エンジン112は、上述した予備報酬値(「候補予備報酬値」としても参照され得る)に基づいて包括報酬値を決定することができる。例えば、処理エンジン112は、候補予備報酬値の合計を包括報酬値として決定することができる。別の例として、処理エンジン112は、候補予備報酬値の平均(または加重平均)を包括報酬値として決定することができる。
いくつかの実施形態において、処理エンジン112は、下記の式(1)による行動−効用関数(action−utility function)(Q関数としても参照される)に基づいて、予備制御モデルと関連付けられる予備サンプル評価値を決定することができる。
Q’(s,a)=Q(s,a)+α(ri,t+λQ(s,a)) (1)
式中、aはi番目の反復におけるサンプル制御信号を指し、sはi番目の反復におけるサンプル車両のサンプル状態を指し、Q’(s,a)は、i番目の反復における制御モデルと関連付けられるサンプル評価値を指し、Q(s,a)は、前の反復における制御モデルと関連付けられるサンプル評価値を指し(1番目の反復においてはデフォルト値とすることができる)、Q*(s,a)は、i番目の反復に対応する制御モデルと関連付けられる最適サンプル評価値を指し、αは、学習率を指し、ri,tは、i番目の反復におけるサンプル制御信号に対応する報酬値を指し、λは、割引率(例えば、0〜1内の値)を指す。いくつかの実施形態において、学習率および/または割引率は、自律走行システム100のデフォルト設定であってもよく、または、種々の状況下で調整可能であってもよい。いくつかの実施形態において、i番目の反復に対応する最適サンプル評価値は、複数の前の反復において決定されている複数のサンプル評価値に基づいて決定することができる。例えば、最適評価値は、複数の前の反復において決定されている複数のサンプル評価値の平均であってもよい。別の例として、最適評価値は、複数の前の反復において決定されている複数のサンプル評価値の間で最も高いサンプル評価値であってもよい。
560において、処理エンジン112(例えば、トレーニング・モジュール360)(例えば、プロセッサ220の処理回路)は、予備サンプル評価値が既定の条件を満たすか否かを決定することができる。
いくつかの実施形態において、処理エンジン112は、予備サンプル評価値が第1のしきい値よりも高いか否かを決定することができる。予備サンプル評価値が第1のしきい値よりも高いという決定に応答して、処理エンジン112は、予備サンプル評価値が既定の条件を満たすと決定することができる。予備サンプル評価値が第1のしきい値以下である決定に応答して、処理エンジン112は、予備サンプル評価値が既定の条件を満たさないと決定することができる。
いくつかの実施形態において、処理エンジン112は、反復の計数(number count)が第2のしきい値よりも高いか否かを決定することができる。反復の計数が第2のしきい値よりも高いという決定に応答して、処理エンジン112は、予備サンプル評価値が既定の条件を満たすと決定することができる。反復の計数が第2のしきい値以下である決定に応答して、処理エンジン112は、予備サンプル評価値が既定の条件を満たさないと決定することができる。第1のしきい値および/または第2のしきい値は、自律走行システム100のデフォルト設定であってもよく、または、種々の状況下で調整可能であってもよい。
いくつかの実施形態において、処理エンジン112は、予備制御モデルの損失関数を決定し、予備サンプル評価値に基づいて損失関数の値を決定することができる。さらに、処理エンジン112は、損失関数の値が損失しきい値よりも低いか否かを決定することができる。損失関数の値が損失しきい値よりも低いという決定に応答して、処理エンジン112は、予備サンプル評価値が既定の条件を満たすと決定することができる。損失関数の値が損失しきい値以上であるという決定に応答して、処理エンジン112は、予備サンプル評価値が既定の条件を満たさないと決定することができる。
予備サンプル評価値が既定の条件を満たすという決定に応答して、570において、処理エンジン112(例えば、トレーニング・モジュール360)(例えば、プロセッサ220の処理回路)は、予備制御モデルをトレーニングされた制御モデルとして指定することができる。
予備サンプル評価値が既定の条件を満たさないという決定に応答して、処理エンジン112(例えば、トレーニング・モジュール360)(例えば、プロセッサ220の処理回路)は、プロセス500を動作580まで実行して、更新されたサンプル評価値が既定の条件を満たすまで、予備制御モデルを更新するために1回または複数回の反復を実施することができる。例示的な反復を、下記図6において説明する。
610において、処理エンジン112(例えば、トレーニング・モジュール360)(例えば、プロセッサ220の処理回路)は、前の反復における報酬値に基づいて、更新された制御モデルを決定することができる。
いくつかの実施形態において、処理エンジン112は、前の反復における制御モデルの1つまたは複数のパラメータ(例えば、予備制御モデルの1つまたは複数の予備パラメータ)を更新することによって、更新された制御モデルを決定することができ、更新された1つまたは複数のパラメータの下で、報酬値および/またはサンプル評価値は増大され得る。
620において、処理エンジン112(例えば、トレーニング・モジュール360)(例えば、プロセッサ220の処理回路)は、サンプル車両と関連付けられる更新されたサンプル走行情報を取得することができる。
630において、処理エンジン112(例えば、トレーニング・モジュール360)(例えば、プロセッサ220の処理回路)は、前の反復におけるサンプル制御信号、および、前の反復におけるサンプル車両のサンプル状態に基づいて、サンプル車両の更新されたサンプル状態を推定することができる。
いくつかの実施形態において、処理エンジン112は、シミュレーション・モデルに従って、前の反復におけるサンプル制御信号、および、前の反復におけるサンプル車両のサンプル状態に基づいて、サンプル車両の更新されたサンプル状態を推定することができる。いくつかの実施形態において、シミュレーション・モデルは、サンプル車両の1つまたは複数の特徴(例えば、車両タイプ、車両重量、車両モデル、車両年式、エンジン出力、ブレーキ効率)、道路状態情報、障害物情報、マップ情報など、またはそれらの任意の組合せによって構成することができる。処理エンジン112は、シミュレーション・モデルに基づいてサンプル車両の動作をシミュレートし、シミュレーション結果に基づいてサンプル車両の更新されたサンプル状態を決定することができる。
640において、処理エンジン112(例えば、トレーニング・モジュール360)(例えば、プロセッサ220の処理回路)は、更新されたサンプル走行情報、サンプル車両の更新されたサンプル状態、および更新された制御モデルに基づいて、更新されたサンプル制御信号を決定することができる。例えば、処理エンジン112は、更新されたサンプル走行情報およびサンプル車両の更新されたサンプル状態を、更新された制御モデルに入力することができる。処理エンジン112は、更新された制御モデルの出力に基づいて、更新されたサンプル制御信号を決定することができる。
650において、処理エンジン112(例えば、トレーニング・モジュール360)(例えば、プロセッサ220の処理回路)は、更新されたサンプル制御信号に対応する更新された報酬値、および、前の反復におけるサンプル評価値に基づいて、更新された制御モデルと関連付けられる更新されたサンプル評価値を決定することができる。例えば、処理エンジン112は、式(1)に従って、更新されたサンプル評価値を決定することができる。
660において、動作560に関連して説明したように、処理エンジン112(例えば、トレーニング・モジュール360)(例えば、プロセッサ220の処理回路)は、更新されたサンプル評価値が既定の条件を満たすか否かを決定することができる。
いくつかの実施形態において、処理エンジン112はまた、更新された制御モデルが収束するか否かを決定することもできる。例えば、処理エンジン112は、更新されたサンプル評価値と、前の反復におけるサンプル評価値との間の差分値が、差分しきい値未満であるか否かを決定することができる。差分値が差分しきい値未満であるという決定に応答して、処理エンジン112は、更新された制御モデルが収束すると決定することができ、したがって、処理エンジン112は、更新されたサンプル評価値が既定の条件を満たすと決定することができる。差分値が差分しきい値以上である決定に応答して、処理エンジン112は、更新されたサンプル評価値が既定の条件を満たさないと決定することができる。
更新されたサンプル評価値が既定の条件を満たすという決定に応答して、670において、処理エンジン112は、更新された制御モデルをトレーニングされた制御モデルとして指定することができる。
更新されたサンプル評価値が既定の条件を満たさないという決定に応答して、処理エンジン112は、プロセス600を動作610まで戻るように実行して、更新されたサンプル評価値が既定の条件を満たすまで、更新された制御モデルを更新する(すなわち、次の反復を開始する)ことができる。
いくつかの実施形態において、サンプル制御信号に対応する報酬値は、サンプル制御信号の下で、サンプル車両の他の特徴(例えば、速度、加速度)と関連付けられてもよい。いくつかの実施形態において、処理エンジン112は、様々な種類の報酬値を規定し、様々な種類の報酬値に基づいて、様々な種類の制御モデルを決定することができる。実際的適用例において、ユーザは、特定の要件に従って特定の制御モデルを選択することができる。
上記の説明は、例示のみを目的として与えられており、本開示の範囲を限定するようには意図されていないことに留意されたい。当業者であれば、本開示の教示の下で複数の変形形態および修正形態を作成することができる。しかしながら、それらの変形形態および修正形態は、本開示の範囲内から逸脱しない。例えば、1つまたは複数の他の任意選択的な動作(例えば、記憶動作)が、プロセス500および/またはプロセス600の他の箇所において追加されてもよい。記憶動作において、処理エンジン112は、サンプル車両と関連付けられる情報および/またはデータ(例えば、サンプル走行情報、サンプル車両のサンプル状態)を、本開示の他の箇所において開示されているストレージ(例えば、ストレージ140)内に記憶することができる。別の例として、動作520および動作530が同時に実施されてもよい。さらなる例として、動作620および動作630が同時に実施されてもよい。
図7は、本開示のいくつかの実施形態による、深層決定的方策勾配(DDPG)ネットワーク・モデルをトレーニングするための例示的なプロセスを示す概略図である。
図7に示すように、DDPGネットワーク・モデルは、actorニューラル・ネットワーク(actor neural network)およびcriticニューラル・ネットワーク(critic neural network)を含み、「環境」は、サンプル車両が配置されているシナリオを指し、本発明においては、「環境」は地上交通シナリオであると仮定することができる。本開示によれば、トレーニング・プロセスが、1回または複数回の反復を含むことが分かり、ここでは一例としてi番目の反復が説明される。具体的には、処理エンジン112は、時点tにおけるサンプル車両のサンプル状態s(例えば、位置、速度)を決定することができる。処理エンジン112は、i番目の反復において、actorニューラル・ネットワークに従ってサンプル車両の状態sに基づいて(サンプル走行情報は、ここでは便宜上省略する)、サンプル車両の時点tに対応するサンプル制御信号aを決定することができる。さらに、処理エンジン112は、サンプル制御信号aに対応する報酬値rを決定することができ、同時にまたは引き続いて、処理エンジン112は、criticニューラル・ネットワークに従って、サンプル制御信号aに対応する深層決定的方策勾配(DDPG)ネットワーク・モデルと関連付けられるサンプル評価値Q’(s,a)を決定することができる。処理エンジン112は、動作560に関連して説明したように、サンプル評価値Q’(s,a)が既定の条件を満たすか否かを決定することができる。サンプル評価値Q’(s,a)が既定の条件を満たすという決定に応答して、670において、処理エンジン112は、i番目の反復におけるDDPGネットワーク・モデルを最終的なトレーニングされたDDPGモデルとして指定することができる。サンプル評価値Q’(s,a)が既定の条件を満たさないという決定に応答して、670において、処理エンジン112は、更新されたサンプル評価値が既定の条件を満たすまで、次の反復を開始することができる。
このように、基本概念を説明したが、むしろ、当業者には、この詳細な開示を読んだ後、上記の詳細な開示が例としてのみ提示されるように意図されており、限定ではないことが明らかであり得る。本明細書において明示的には述べられていないが、様々な改変、改善、および修正が行われ得、当業者向けに意図される。これらの改変、改善、および修正は本開示によって示唆されるように意図されており、本開示の例示的な実施形態の主旨および範囲内にある。
その上、特定の用語が、本開示の実施形態を説明するために使用されている。本明細書において、「1つの実施形態」、「一実施形態」、および/または「いくつかの実施形態」という用語は、その実施形態と関連して説明されている特定の特徴、構造、または特性が、本発明の少なくとも1つの実施形態に含まれることを意味する。それゆえ、本明細書の様々な部分において「一実施形態」または「1つの実施形態」または「代替的な実施形態」が2回以上参照されている場合、これらは必ずしもすべてが同じ実施形態を参照しているとは限らないことが強調されるものであり、そのように理解されるべきである。さらに、特定の特徴、構造、または特性は、本開示の1つまたは複数の実施形態において、適切であるように組み合わせることができる。
さらに、当業者には理解されるように、本開示の諸態様は、本明細書において、任意の新規のかつ有用なプロセス、機械、製造物、もしくは組成物、またはその任意の新規のかつ有用な改善を含む、複数の特許可能なクラスまたはコンテキストのいずれかにおいて例示および記載され得る。したがって、本開示の諸態様は、本明細書においてはすべて包括的に「ユニット」、「モジュール」または「システム」として参照される場合がある、全体がハードウェアの実装形態、全体がソフトウェアの実装形態(ファームウェア、常駐ソフトウェア、マイクロコードなどを含む)、または、ソフトウェアとハードウェアとを組み合わせた実装形態の形態を取り得る。さらに、本開示の諸態様は、コンピュータ可読プログラム・コードを具現化される任意の1つまたは複数のコンピュータ可読媒体内で具現化されるコンピュータプログラム製品の形態を取り得る。
コンピュータ可読信号媒体は、コンピュータ可読プログラム・コードを具現化されている、例えばベースバンド内かまたは搬送波の一部としての伝搬されるデータ信号を含むことができる。そのような伝搬される信号は、電磁、光学など、またはそれらの任意の適切な組合せを含む、様々な形態のいずれかをとることができる。コンピュータ可読信号媒体は、コンピュータ可読記憶媒体ではなく、命令実行システム、装置、またはデバイスによって、またはそれらと関連して使用するためのプログラムを通信、伝搬、または伝送することができる任意のコンピュータ可読媒体であってもよい。コンピュータ可読信号媒体上に具現化されるプログラム・コードは、無線、有線、光ファイバ・ケーブル、RFなど、または上記の任意の適切な組合せを含む、任意の適切な媒体を使用して伝送することができる。
本発明の諸態様のための動作を実行するためのコンピュータ・プログラム・コードは、Java(登録商標)、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Pythonなどのようなオブジェクト指向プログラミング言語、および、「C」プログラミング言語、Visual Basic、Fortran 2103、Perl、COBOL 2102、PHP、ABAPなどのような従来的な手続き型プログラミング言語、Python、RubyおよびGroovyのようなまたは同様のプログラミング言語のような動的プログラミング言語、または他のプログラミング言語を含む、1つまたは複数のプログラミング言語の任意の組合せで書くことができる。プログラム・コードは、その全体をユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、独立型ソフトウェア・パッケージとして、部分的にユーザのコンピュータ上でかつ部分的にリモート・コンピュータ上で、またはその全体をリモート・コンピュータもしくはサーバ上で実行することができる。後者のシナリオにおいて、リモート・コンピュータが、ユーザのローカル・エリア・ネットワーク(LAN)または広域ネットワーク(WAN)を含む任意のタイプのネットワークを通じてユーザのコンピュータに接続されてもよく、あるいは、接続は、外部コンピュータに対して(例えば、インターネット・サービス・プロバイダを使用してインターネットを通じて)もしくはクラウド・コンピューティング環境において行われてもよく、または、サービスとしてのソフトウェア(SaaS)のようなサービスとして提供されてもよい。
さらに、処理要素もしくはシーケンスの記載されている順序、または、数字、文字、もしくは他の表記の使用は、それゆえ、特許請求されているプロセスおよび方法を、特許請求項の範囲において指定され得る場合を除いて、任意の順序に限定するようには意図されていない。上記の開示は、様々な例を通じて、本開示の様々な有用な実施形態であると現在考えられているものを論じているが、そのような詳細は、その目的のためのみのものであること、および、添付の特許請求の範囲は開示される実施形態に限定されず、逆に、開示される実施形態の主旨および範囲内にある修正および均等な構成を包含するように意図されていることは理解されたい。例えば、上述の様々な構成要素の実装形態はハードウェア・デバイスにおいて具現化することができるが、ソフトウェアのみのソリューション、例えば、既存のサーバまたはモバイル・デバイス上へのインストールとして実装されてもよい。
同様に、実施形態の上記の説明において、様々な特徴が、様々な本発明の実施形態のうちの1つまたは複数の理解を助ける本開示の簡素化の目的で、単一の実施形態、図面、またはその説明にグループ化されていることがあることは理解されたい。しかしながら、この開示方法は、特許請求されている主題が、各請求項に明示的に記載されているよりも多くの特徴を必要とするという意図を反映するものとして解釈されるべきではない。むしろ、本発明の実施形態は、単一の上記の開示される実施形態のすべての特徴未満に存する。
いくつかの実施形態において、本出願の特定の実施形態を説明および特許請求するために使用されている量または特性を表す数は、場合によっては「約」、「おおよそ」または「実質的に」という用語によって修飾されているものとして理解されるべきである。例えば、「約」、「おおよそ」または「実質的に」は、別途記載しない限り、それが説明する値の±20%の変動を示し得る。したがって、いくつかの実施形態において、本明細書書面および添付の特許請求の範囲において記載されている数値パラメータは、特定の実施形態によって取得されようとする所望の特性に応じて変化し得る近似である。いくつかの実施形態において、数値パラメータは、報告されている有効数値の数に照らして、かつ、通常の丸め技法を適用することによって解釈されるべきである。本出願のいくつかの実施形態の広い範囲を記載している数値範囲およびパラメータは近似であるにもかかわらず、特定の例において記載されている数値は可能な限り正確に報告されている。
本明細書において参照されている特許、特許出願、特許出願公開、および、記事、書籍、仕様書、刊行物、文書、物品などのような他の資料は、それと関連付けられる任意の出願経過、本出願と一致しないもしくは矛盾するそのいずれか、または、現時点もしくは後に本明細書と関連付けられる特許請求項の最も広い範囲に関して限定効果を有し得るそのいずれかを除いて、本明細書においてこの参照によってその全体が本明細書に組み込まれる。例として、本明細書において組み込まれている資料のいずれかと関連付けられる用語の記載、定義、および/または使用と、本明細書と関連付けられる用語の記載、定義、および/または使用との間に何らかの不一致または矛盾がある場合、本明細書における用語の記載、定義、および/または使用が有効であるものとする。
終わりに、本明細書において開示されている本出願の実施形態は、本出願の実施形態の原理の例示であることは理解されたい。利用され得る他の修正は、本出願の範囲内にあり得る。したがって、限定ではなく例として、本出願の実施形態の代替構成が、本明細書における教示に従って利用されてもよい。したがって、本出願の実施形態は、正確に図示および記載されているものに限定されない。

Claims (24)

  1. 自律走行のためのシステムであって、
    命令のセットを含む少なくとも1つの記憶媒体と、
    前記少なくとも1つの記憶媒体と通信する少なくとも1つのプロセッサと
    を備え、
    前記命令のセットを実行するとき、前記少なくとも1つのプロセッサは、前記システムに、
    車両と関連付けられる走行情報を取得するステップと、
    前記車両の状態を決定するステップと、
    トレーニングされた制御モデルを使用することによって、前記走行情報および前記車両の前記状態に基づいて、1つまたは複数の候補制御信号、および、前記1つまたは複数の候補制御信号に対応する1つまたは複数の評価値を決定するステップと、
    前記1つまたは複数の評価値に基づいて、前記1つまたは複数の候補制御信号からターゲット制御信号を選択するステップと、
    前記車両の制御構成要素に前記ターゲット制御信号を送信するステップと
    を行わせるように指令される、自律走行のためのシステム。
  2. 前記車両と関連付けられる前記走行情報は、前記車両の第1の所定の範囲内の知覚情報および前記車両の前記第1の所定の範囲内のマップ情報を含む、請求項1に記載のシステム。
  3. 前記知覚情報は、道路状態情報および障害物情報を含む、請求項2に記載のシステム。
  4. 前記車両の前記状態は、前記車両の速度、前記車両の加速度、および、前記車両のステアリング・ホイール角度を含む、請求項1〜3のいずれか一項に記載のシステム。
  5. 前記トレーニングされた制御モデルは、トレーニング・プロセスによって決定され、
    前記トレーニング・プロセスは、
    予備制御モデルを取得するステップと、
    予備サンプル走行情報を取得するステップであって、前記予備サンプル走行情報は、サンプル車両の第2の所定の範囲内の予備サンプル知覚情報、および、前記サンプル車両の前記第2の所定の範囲内の予備サンプルマップ情報を含む、予備サンプル走行情報を取得するステップと、
    前記サンプル車両の予備サンプル状態を取得するステップと、
    前記予備サンプル走行情報、前記サンプル車両の前記予備サンプル状態、および前記予備制御モデルに基づいて、予備サンプル制御信号を決定するステップと、
    前記予備サンプル制御信号に対応する予備報酬値に基づいて、前記予備制御モデルと関連付けられる予備サンプル評価値を決定するステップであって、前記予備報酬値は、前記予備サンプル制御信号と関連付けられる衝突条件、前記予備サンプル制御信号と関連付けられる車線条件、または、前記予備サンプル制御信号と関連付けられる停止条件のうちの少なくとも1つと関連付けられる、予備サンプル評価値を決定するステップと、
    前記予備サンプル評価値が既定の条件を満たすか否かを決定するステップと、
    前記予備サンプル評価値が前記既定の条件を満たすという前記決定に応答して、前記予備制御モデルを前記トレーニングされた制御モデルとして指定するステップと
    を含む、請求項1〜4のいずれか一項に記載のシステム。
  6. 前記トレーニング・プロセスは、
    前記予備サンプル評価値が前記既定の条件を満たさないという決定に応答して、更新されたサンプル評価値が前記既定の条件を満たすまで、前記予備制御モデルを更新するために1回または複数回の反復を実施するステップをさらに含み、前記1回または複数回の反復の各々は、
    前の反復における報酬値に基づいて、更新された制御モデルを決定するステップと、
    更新されたサンプル走行情報を取得するステップと、
    前記前の反復におけるサンプル制御信号、および、前記前の反復における前記サンプル車両のサンプル状態に基づいて、前記サンプル車両の更新されたサンプル状態を推定するステップと、
    前記更新されたサンプル走行情報、前記サンプル車両の前記更新されたサンプル状態、および前記更新された制御モデルに基づいて、更新されたサンプル制御信号を決定するステップと、
    前記更新されたサンプル制御信号および前記前の反復におけるサンプル評価値に対応する更新された報酬値に基づいて、前記更新された制御モデルと関連付けられる更新されたサンプル評価値を決定するステップと、
    前記更新されたサンプル評価値が前記既定の条件を満たすか否かを決定するステップと
    をさらに含む、請求項5に記載のシステム。
  7. 前記トレーニングされた制御モデルは、深層決定的方策勾配(DDPG)ネットワーク・モデルを含む、請求項1〜6のいずれか一項に記載のシステム。
  8. 前記1つまたは複数の評価値に基づいて、前記1つまたは複数の候補制御信号から前記ターゲット制御信号を選択するために、前記少なくとも1つのプロセッサは、前記システムに、
    所定のルールに従って、前記1つまたは複数の評価値に基づいて、前記1つまたは複数の候補制御信号から前記ターゲット制御信号を選択させるように指令される、請求項1〜7のいずれか一項に記載のシステム。
  9. 少なくとも1つのプロセッサと、少なくとも1つの記憶媒体と、ネットワークに接続されている通信プラットフォームとを有するコンピューティング・デバイス上で実施される方法であって、
    車両と関連付けられる走行情報を取得するステップと、
    前記車両の状態を決定するステップと、
    トレーニングされた制御モデルを使用することによって、前記走行情報および前記車両の前記状態に基づいて、1つまたは複数の候補制御信号、および、前記1つまたは複数の候補制御信号に対応する1つまたは複数の評価値を決定するステップと、
    前記1つまたは複数の評価値に基づいて、前記1つまたは複数の候補制御信号からターゲット制御信号を選択するステップと、
    前記車両の制御構成要素に前記ターゲット制御信号を送信するステップと
    を含む、方法。
  10. 前記車両と関連付けられる前記走行情報は、前記車両の第1の所定の範囲内の知覚情報および前記車両の前記第1の所定の範囲内のマップ情報を含む、請求項9に記載の方法。
  11. 前記知覚情報は、道路状態情報および障害物情報を含む、請求項10に記載の方法。
  12. 前記車両の前記状態は、前記車両の速度、前記車両の加速度、および、前記車両のステアリング・ホイール角度を含む、請求項9〜11のいずれか一項に記載の方法。
  13. 前記トレーニングされた制御モデルは、トレーニング・プロセスによって決定され、前記トレーニング・プロセスは、
    予備制御モデルを取得するステップと、
    予備サンプル走行情報を取得するステップであって、前記予備サンプル走行情報は、サンプル車両の第2の所定の範囲内の予備サンプル知覚情報、および、前記サンプル車両の前記第2の所定の範囲内の予備サンプルマップ情報を含む、予備サンプル走行情報を取得するステップと、
    前記サンプル車両の予備サンプル状態を取得するステップと、
    前記予備サンプル走行情報、前記サンプル車両の前記予備サンプル状態、および前記予備制御モデルに基づいて、予備サンプル制御信号を決定するステップと、
    前記予備サンプル制御信号に対応する予備報酬値に基づいて、前記予備制御モデルと関連付けられる予備サンプル評価値を決定するステップであって、前記予備報酬値は、前記予備サンプル制御信号と関連付けられる衝突条件、前記予備サンプル制御信号と関連付けられる車線条件、または、前記予備サンプル制御信号と関連付けられる停止条件のうちの少なくとも1つと関連付けられる、予備サンプル評価値を決定するステップと、
    前記予備サンプル評価値が既定の条件を満たすか否かを決定するステップと、
    前記予備サンプル評価値が前記既定の条件を満たすという前記決定に応答して、前記予備制御モデルを前記トレーニングされた制御モデルとして指定するステップと
    を含む、請求項9〜12のいずれか一項に記載の方法。
  14. 前記トレーニング・プロセスは、
    前記予備サンプル評価値が前記既定の条件を満たさないという決定に応答して、更新されたサンプル評価値が前記既定の条件を満たすまで、前記予備制御モデルを更新するために1回または複数回の反復を実施するステップをさらに含み、前記1回または複数回の反復の各々は、
    前の反復における報酬値に基づいて、更新された制御モデルを決定するステップと、
    更新されたサンプル走行情報を取得するステップと、
    前記前の反復におけるサンプル制御信号、および、前記前の反復における前記サンプル車両のサンプル状態に基づいて、前記サンプル車両の更新されたサンプル状態を推定するステップと、
    前記更新されたサンプル走行情報、前記サンプル車両の前記更新されたサンプル状態、および前記更新された制御モデルに基づいて、更新されたサンプル制御信号を決定するステップと、
    前記更新されたサンプル制御信号および前記前の反復におけるサンプル評価値に対応する更新された報酬値に基づいて、前記更新された制御モデルと関連付けられる更新されたサンプル評価値を決定するステップと、
    前記更新されたサンプル評価値が前記既定の条件を満たすか否かを決定するステップと
    をさらに含む、請求項13に記載の方法。
  15. 前記トレーニングされた制御モデルは、深層決定的方策勾配(DDPG)ネットワーク・モデルを含む、請求項9〜14のいずれか一項に記載の方法。
  16. 前記1つまたは複数の評価値に基づいて、前記1つまたは複数の候補制御信号から前記ターゲット制御信号を選択するステップは、
    所定のルールに従って、前記1つまたは複数の評価値に基づいて、前記1つまたは複数の候補制御信号から前記ターゲット制御信号を選択するステップをさらに含む、請求項9〜15のいずれか一項に記載の方法。
  17. 自律走行のために構成されている車両であって、
    検出構成要素と、計画構成要素と、制御構成要素とを備え、前記計画構成要素は、
    前記車両と関連付けられる走行情報を取得するステップと、
    前記車両の状態を決定するステップと、
    トレーニングされた制御モデルを使用することによって、前記走行情報および前記車両の前記状態に基づいて、1つまたは複数の候補制御信号、および、前記1つまたは複数の候補制御信号に対応する1つまたは複数の評価値を決定するステップと、
    前記1つまたは複数の評価値に基づいて、前記1つまたは複数の候補制御信号からターゲット制御信号を選択するステップと、
    前記車両の制御構成要素に前記ターゲット制御信号を送信するステップと
    を行うように構成されている、自律走行のために構成されている車両。
  18. 前記車両と関連付けられる前記走行情報は、前記車両の第1の所定の範囲内の知覚情報および前記車両の前記第1の所定の範囲内のマップ情報を含む、請求項17に記載の車両。
  19. 前記知覚情報は、道路状態情報および障害物情報を含む、請求項18に記載の車両。
  20. 前記車両の前記状態は、前記車両の速度、前記車両の加速度、および、前記車両のステアリング・ホイール角度を含む、請求項17〜19のいずれか一項に記載の車両。
  21. 前記トレーニングされた制御モデルは、トレーニング・プロセスによって決定され、前記トレーニング・プロセスは、
    予備制御モデルを取得するステップと、
    予備サンプル走行情報を取得するステップであって、前記予備サンプル走行情報は、サンプル車両の第2の所定の範囲内の予備サンプル知覚情報、および、前記サンプル車両の前記第2の所定の範囲内の予備サンプルマップ情報を含む、予備サンプル走行情報を取得するステップと、
    前記サンプル車両の予備サンプル状態を取得するステップと、
    前記予備サンプル走行情報、前記サンプル車両の前記予備サンプル状態、および前記予備制御モデルに基づいて、予備サンプル制御信号を決定するステップと、
    前記予備サンプル制御信号に対応する予備報酬値に基づいて、前記予備制御モデルと関連付けられる予備サンプル評価値を決定するステップであって、前記予備報酬値は、前記予備サンプル制御信号と関連付けられる衝突条件、前記予備サンプル制御信号と関連付けられる車線条件、または、前記予備サンプル制御信号と関連付けられる停止条件のうちの少なくとも1つと関連付けられる、予備サンプル評価値を決定するステップと、
    前記予備サンプル評価値が既定の条件を満たすか否かを決定するステップと、
    前記予備サンプル評価値が前記既定の条件を満たすという前記決定に応答して、前記予備制御モデルを前記トレーニングされた制御モデルとして指定するステップと
    を含む、請求項17〜20のいずれか一項に記載の車両。
  22. 前記トレーニング・プロセスは、
    前記予備サンプル評価値が前記既定の条件を満たさないという決定に応答して、更新されたサンプル評価値が前記既定の条件を満たすまで、前記予備制御モデルを更新するために1回または複数回の反復を実施するステップをさらに含み、前記1回または複数回の反復の各々は、
    前の反復における報酬値に基づいて、更新された制御モデルを決定するステップと、
    更新されたサンプル走行情報を取得するステップと、
    前記前の反復におけるサンプル制御信号、および、前記前の反復における前記サンプル車両のサンプル状態に基づいて、前記サンプル車両の更新されたサンプル状態を推定するステップと、
    前記更新されたサンプル走行情報、前記サンプル車両の前記更新されたサンプル状態、および前記更新された制御モデルに基づいて、更新されたサンプル制御信号を決定するステップと、
    前記更新されたサンプル制御信号および前記前の反復におけるサンプル評価値に対応する更新された報酬値に基づいて、前記更新された制御モデルと関連付けられる更新されたサンプル評価値を決定するステップと、
    前記更新されたサンプル評価値が前記既定の条件を満たすか否かを決定するステップと
    をさらに含む、請求項21に記載の車両。
  23. 前記トレーニングされた制御モデルは、深層決定的方策勾配(DDPG)ネットワーク・モデルを含む、請求項17〜22のいずれか一項に記載の車両。
  24. 前記1つまたは複数の評価値に基づいて、前記1つまたは複数の候補制御信号から前記ターゲット制御信号を選択するために、前記計画構成要素は、
    所定のルールに従って、前記1つまたは複数の評価値に基づいて、前記1つまたは複数の候補制御信号から前記ターゲット制御信号を選択するように構成されている、請求項17〜23のいずれか一項に記載の車両。
JP2018567861A 2018-12-18 2018-12-19 自律走行のためのシステムおよび方法 Pending JP2021514882A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201811547279.X 2018-12-18
CN201811547279.XA CN111338333B (zh) 2018-12-18 2018-12-18 用于自动驾驶的系统和方法
PCT/CN2018/122097 WO2020124437A1 (en) 2018-12-18 2018-12-19 Systems and methods for autonomous driving

Publications (1)

Publication Number Publication Date
JP2021514882A true JP2021514882A (ja) 2021-06-17

Family

ID=71102386

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018567861A Pending JP2021514882A (ja) 2018-12-18 2018-12-19 自律走行のためのシステムおよび方法

Country Status (8)

Country Link
EP (1) EP3688540B1 (ja)
JP (1) JP2021514882A (ja)
CN (1) CN111338333B (ja)
AU (1) AU2018286585B2 (ja)
CA (1) CA3028692C (ja)
SG (1) SG11201811625UA (ja)
TW (1) TWI706238B (ja)
WO (1) WO2020124437A1 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11403948B2 (en) 2020-02-26 2022-08-02 Compal Electronics, Inc. Warning device of vehicle and warning method thereof
CN111724598B (zh) * 2020-06-29 2022-04-05 北京百度网讯科技有限公司 用于自动驾驶规划路径的方法、装置、设备以及存储介质
CN112269385B (zh) * 2020-10-23 2021-09-07 北京理工大学 云端无人车动力学控制系统和方法
CN112606805B (zh) * 2020-12-17 2021-12-14 东风汽车集团有限公司 一种车辆自动紧急制动系统aeb的控制方法
CN112627277A (zh) * 2021-01-15 2021-04-09 南通皋标建筑劳务有限公司 一种挖掘机自动行走方法
CN112627276A (zh) * 2021-01-15 2021-04-09 南通皋标建筑劳务有限公司 一种挖掘机
CN112945234B (zh) * 2021-01-25 2021-10-12 中国人民解放军63963部队 一种基于健康状态的野外条件下路径规划方法
CN113053223A (zh) * 2021-02-25 2021-06-29 深圳市讯方技术股份有限公司 自动驾驶的实验教学方法、车辆模型及其系统
CN113238970B (zh) * 2021-07-08 2021-10-22 腾讯科技(深圳)有限公司 自动驾驶模型的训练方法、评测方法、控制方法及装置
CN113625718B (zh) * 2021-08-12 2023-07-21 上汽大众汽车有限公司 车辆的行驶路径规划方法
CN114578834B (zh) * 2022-05-09 2022-07-26 北京大学 基于目标分层双感知域的强化学习的无人车路径规划方法
CN115456392B (zh) * 2022-09-06 2023-09-05 长安大学 一种高速多车多驾驶行为冲突协同决策方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108227710A (zh) * 2017-12-29 2018-06-29 商汤集团有限公司 自动驾驶控制方法和装置、电子设备、程序和介质

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012088635A1 (zh) * 2010-12-30 2012-07-05 中国科学院自动化研究所 车辆自适应巡航控制系统及方法
CN203204384U (zh) * 2012-11-29 2013-09-18 四川泛华电器有限责任公司 汽车智能电器控制系统的自适应搜索智能学习控制系统
GB201305067D0 (en) * 2013-03-19 2013-05-01 Massive Analytic Ltd Apparatus for controlling a land vehicle which is self-driving or partially self-driving
CN103777631B (zh) * 2013-12-16 2017-01-18 北京交控科技股份有限公司 一种自动驾驶的控制系统及方法
US11250335B2 (en) * 2015-10-26 2022-02-15 NetraDyne, Inc. Joint processing for embedded data inference
US9632502B1 (en) * 2015-11-04 2017-04-25 Zoox, Inc. Machine-learning systems and techniques to optimize teleoperation and/or planner decisions
CN105318888B (zh) * 2015-12-07 2018-08-14 北京航空航天大学 基于无人机感知的无人驾驶车辆路径规划方法
EP3400419A2 (en) * 2016-01-05 2018-11-14 Mobileye Vision Technologies Ltd. Trained navigational system with imposed constraints
JP6380422B2 (ja) * 2016-02-05 2018-08-29 トヨタ自動車株式会社 自動運転システム
US9791857B2 (en) * 2016-03-10 2017-10-17 Toyota Motor Engineering & Manufacturing North America, Inc. System and method for monitoring and alerting vehicle occupant to operating efficiencies of autonomous driving assistance systems
ES2833674T3 (es) * 2016-06-08 2021-06-15 Uisee Tech Beijing Ltd Método y aparato de planificación de velocidad y aparato de cálculo para la conducción automática de un vehículo
CN106080590B (zh) * 2016-06-12 2018-04-03 百度在线网络技术(北京)有限公司 车辆控制方法和装置以及决策模型的获取方法和装置
EP3559600A2 (en) * 2016-12-23 2019-10-30 Mobileye Vision Technologies Ltd. Navigational system with imposed liability constraints
CN206564616U (zh) * 2017-01-24 2017-10-17 华南理工大学 面向互联网的智能化电动汽车平台架构
JP6969756B2 (ja) * 2017-02-10 2021-11-24 ニッサン ノース アメリカ,インク 自律走行車の動作管理制御
KR20180094725A (ko) * 2017-02-16 2018-08-24 삼성전자주식회사 자율 주행을 위한 차량 제어 방법, 차량 제어 장치 및 자율 주행을 위한 학습 방법
US10816973B2 (en) * 2017-06-02 2020-10-27 Baidu Usa Llc Utilizing rule-based and model-based decision systems for autonomous driving control
CN108196535B (zh) * 2017-12-12 2021-09-07 清华大学苏州汽车研究院(吴江) 基于增强学习和多传感器融合的自动驾驶系统
CN108216233B (zh) * 2017-12-28 2019-10-15 北京经纬恒润科技有限公司 一种自适应巡航系统控制参数的标定方法及装置
US10836379B2 (en) * 2018-03-23 2020-11-17 Sf Motors, Inc. Multi-network-based path generation for vehicle parking
US11511745B2 (en) * 2018-04-27 2022-11-29 Huawei Technologies Co., Ltd. Method and system for adaptively controlling object spacing
CN108803321B (zh) * 2018-05-30 2020-07-10 清华大学 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
CN108657189B (zh) * 2018-06-22 2024-02-23 南京航空航天大学 基于bp神经网络和安全距离移线工况自动驾驶转向系统及其控制方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108227710A (zh) * 2017-12-29 2018-06-29 商汤集团有限公司 自动驾驶控制方法和装置、电子设备、程序和介质

Also Published As

Publication number Publication date
EP3688540B1 (en) 2021-05-26
CN111338333A (zh) 2020-06-26
CA3028692C (en) 2021-04-27
CN111338333B (zh) 2021-08-31
AU2018286585A1 (en) 2020-07-02
EP3688540A1 (en) 2020-08-05
TW202024829A (zh) 2020-07-01
WO2020124437A1 (en) 2020-06-25
AU2018286585B2 (en) 2020-10-22
CA3028692A1 (en) 2020-06-18
TWI706238B (zh) 2020-10-01
EP3688540A4 (en) 2020-08-05
SG11201811625UA (en) 2020-07-29

Similar Documents

Publication Publication Date Title
JP2021514882A (ja) 自律走行のためのシステムおよび方法
CA3028645C (en) Systems and methods for determining driving action in autonomous driving
AU2020104467A4 (en) Systems and methods for path determination
US11669097B2 (en) Systems and methods for autonomous driving
JP2021514883A (ja) 自律走行における走行経路を決定するためのシステムおよび方法
WO2020124440A1 (en) Systems and methods for processing traffic objects
US20200193808A1 (en) Systems and methods for processing traffic objects
US20200191586A1 (en) Systems and methods for determining driving path in autonomous driving

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190412

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190412

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20200311

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210511

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220106