JP2024510880A

JP2024510880A - ジオフェンス運転ポリシを取得するためのシミュレーションベースの方法及びデータセンタ

Info

Publication number: JP2024510880A
Application number: JP2023549869A
Authority: JP
Inventors: コエベルレ、ヤン; サバティニ、ステファノ; ツィスコウ、ディズミトリー
Original assignee: ホアウェイ・テクノロジーズ・カンパニー・リミテッド
Priority date: 2021-09-10
Filing date: 2021-09-10
Publication date: 2024-03-12
Also published as: EP4278340A1; MX2023011958A; KR20230146076A; WO2023036430A1; US20240132088A1; CA3210127A1; CN117980972A

Abstract

本開示は、目標位置における自律走行車両の目標運転ポリシを更新する方法を提供し、本方法は、前記車両によって、前記目標位置において車両運転データを取得する段階；前記車両によって、取得した前記車両運転データ、及び前記目標位置のための現在の目標運転ポリシをデータセンタに伝送する段階；更新済み目標運転ポリシを取得するために、前記データセンタによって、前記車両運転データを使用して前記目標位置についての交通シミュレーションを実行する段階；及び前記データセンタによって、前記更新済み目標運転ポリシを前記車両に伝送する段階を備える。

Description

本開示は、自律走行車両のための運転ポリシを提供するための方法に関する。

先行技術において、自律走行車両の安全性を改善するために、シミュレーションが利用されてきた。そのようなシミュレーションは、オンライン又はオフラインのいずれかの方式で実行され得る。

現実世界の運転ポリシの安全性及び信頼度を改善するために、オンラインの解決手段が提案された。例えば、シミュレーションは、自律走行車両運転ポリシに対して挑戦するために、現実の運転実験中のシーンに仮想オブジェクトをリアルタイムで挿入することによって実行され得る。これにより、現実の車両が仮想のものと衝突した場合でさえも、リスクのない環境下で作業することができる。しかしながら、仮想車両はハードコーディングされた規則に基づいて判断を行うため、仮想車両とのインタラクションは限定的である。更に、現実のシーンにおける他の車両は仮想のものとインタラクトすることができず、これは実験全体を偏らせることになる。結果として、仮想車両でのオンラインテストは、複数の現実の運転者に対処することができず、これにより、安全性評価のために利用可能なシナリオの余地が限定される。

結論として、仮想エージェントでのオンラインテストは、エージェントとのインタラクションを安全に改善するために使用することができず、むしろ、失敗事例を明らかにするのに適している。

以前の他の手法は、運転ポリシの安全性をテストして改善するために、オフラインの交通シミュレーションを既に使用している。

先行技術からの例は、現実世界において自動運転車両によって収集された記録されたデータ（以下ではログとも称される）に基づくシミュレーションを使用する。シミュレーションは、記録されたデータに基づいて初期化されるが、ログのうちのいくつかのエージェントは、完全に異なる環境で別個に学習したシミュレーションされたエージェントと交換される。シミュレーション中、元のものとは異なるように行動するように設計された、シミュレーションされたエージェントに関して、自律走行車両運転ポリシがどのようにして反応するかを分析することが目的である。

このプロセスにより、シナリオのわずかな摂動に関して運転ポリシがどれほど堅固であるかを確認することができる。しかしながら、シミュレーションされたものは何らかの単純な安全性規則によって単にログを再生するため、交通からの元のエージェントはシミュレーションされたものと現実的にインタラクトすることはできない。結果として、シミュレーションされたエージェントはログとは異なるように行動し、転じて、記録されたエージェントの行動が新しい摂動された状況について現実的ではなくなるため、シミュレーションが進むにつれて、それは現実的ではなくなっていく。

結論として、シミュレーションされたエージェントの置換でのログに基づくシミュレーションは、目標運転ポリシとの十分に現実的なインタラクションを提供することができず、これにより、自律走行車両運転ポリシの改善の可能性が限定される。

更に、運転ポリシを具体的な位置、とりわけ、多くの他の車両、及び／又は交通エージェント間の多くの異なるタイプのインタラクションを伴い得る特定の位置に適応させる必要があり、そのため、例えば、特定の円形交差点への進入、通行、及び退出など、そのような位置特有の状況に対処することができる自律走行車両のための特別な運転ポリシが必要とされる。

上記を考慮して、本願の基礎となる目的は、現実的かつインタラクティブな交通発生器を使用して、１つ又は複数の具体的な目標地理的位置に対して自律走行車両運転ポリシを大規模に訓練することを可能にする手順を提供することである。

前述及び他の目的は、独立請求項の主題によって実現される。従属請求項、明細書及び図からは更なる実装形態が明らかになる。

第１の態様によれば、目標位置における自律走行車両の目標運転ポリシを更新する方法が提供され、前記方法は、前記車両によって、前記目標位置において車両運転データを取得する段階；前記車両によって、取得した前記車両運転データ、及び前記目標位置のための現在の目標運転ポリシをデータセンタに伝送する段階；更新済み目標運転ポリシを取得するために、前記データセンタによって、前記車両運転データを使用して前記目標位置についての交通シミュレーションを実行する段階；及び前記データセンタによって、前記更新済み目標運転ポリシを前記車両に伝送する段階を備える、方法。

自律走行車両は、具体的な位置（目標位置）において車両運転データを取得する。これらのデータは、センサ及び／又はカメラを使用することによって取得され得る。そのような記録された車両運転データは、目標位置のオフラインシミュレーションを実行するデータセンタに伝送される。交通シミュレーションは、例えば、記録されたデータに既に含まれている交通エージェントに加えて、シミュレーションシナリオに含まれるシミュレーションされた交通エージェントを使用することによって、現在の目標運転ポリシを訓練し、この交通パラメータは変動／摂動され得る。目標運転ポリシは、その特徴（すなわち、例えば初期位置、目的、生成時間）が運転ポリシに対して挑戦するような方法で摂動されている、１つ又は複数の記録された運転シナリオから生成された複数の運転シナリオのシミュレーションにおいて訓練され得る。シミュレーション段階の後、現在の目標運転ポリシは、シミュレーション結果に基づいて更新され、更新済み目標運転ポリシは自律走行車両に転送される。それに応じて、目標運転ポリシは、目標位置において取得された車両運転データを使用することによって、具体的な目標位置について改善される。したがって、車両が次に目標位置を通るとき、更新済み（改善済み）の目標運転ポリシを適用することができる。エージェント（交通エージェント）は、例えば他の車両又は手順を指し得る。

一実装形態によれば、前記目標位置において車両運転データを取得する前記段階、取得した前記車両運転データを前記データセンタに伝送する前記段階、更新済み目標運転ポリシを取得するために前記車両運転データを使用して前記目標位置についての交通シミュレーションを実行する前記段階、及び前記更新済み目標運転ポリシを前記車両に伝送する前記段階が１回又は複数回繰り返される。例えば、十分なセキュリティ及び／又は信頼度測定値（スコア／メトリック）に達するまで、必要な限り、プロセス全体が繰り返されてよい。

この方法で、例えば次に車両が目標位置を通り過ぎるときに更なる車両運転データ（現実のデータ）を取得することによって、及び、更なる車両運転データを使用してデータセンタにおいて交通シミュレータによって更なるシミュレーションを実行することによって、少ない現実のデータ及び比較的多くのシミュレーションデータを用いてオフラインの様式で目標運転ポリシを漸進的に更新することができる。目標運転ポリシをこのように更に訓練し、自律運転のセキュリティを改善するために最適化することができる。

一実装形態によれば、本方法は、一般運転データ及び一般交通ポリシを取得する段階；及び前記一般運転データ及び前記車両運転データを使用して、前記一般交通ポリシを前記目標位置に適応させる段階を更に備えてよい。

初期の一般交通シミュレータは、一般運転データ及び一般交通ポリシを用いて実装され得る。目標位置における車両運転データを使用することにより、シミュレーション、とりわけ、他の交通エージェントとの車両のインタラクションのシミュレーションを通じて目標位置での目標運転ポリシに対して挑戦することによって、目標位置からの（現実の）車両運転データに基づく一般交通シミュレータの微調整を実行することができる。一例として、現実の運転シナリオが収集されてよく（ログデータ）、シナリオ生成器は、現在の交通ポリシに対して挑戦するような方法でそれらから１０００個の新しいシナリオを生成してよい。例えば衝突率などの、失敗率を最大化する運転シナリオ摂動のシーケンスが発見され得る。失敗は、安全性スコア及び／又は信頼度スコアが閾値に劣ることによって特徴付けられ得る。換言すれば、交通ポリシの安全性及び／又は信頼度スコアを最小化するシナリオ運転摂動のシーケンスが取得され得る。それに応じて、生成されたシナリオに対する運転ポリシの失敗率を最大化することによって、最適なシナリオ摂動が発見され得る。そのような摂動が最も挑戦的であり、そのため、学習効果を最適化する。交通ポリシは、それらの新しいシナリオ上にロールアウトされて更に更新され得る。

一度交通シミュレータが微調整されると、それは、車両運転データからの現実のシナリオ、及び、例えば、挑戦的シナリオ生成器によって生成されたシミュレーションされた（挑戦的な）シナリオに基づいて莫大な数の合成運転シナリオ上でのインタラクションのシミュレーションを通じて目標運転ポリシを改善するために使用され得る。目標運転ポリシは、更新済みの交通を与えられた目標ポリシの失敗率を最大化する（代替的は、安全性及び又は信頼度スコアを最小化する）ような方法で、記録されたシナリオから生成された新しい運転シナリオ上で訓練され得る。交通が失敗（衝突など）の要因である場合、以前の段階が繰り返され、そうでなければ、それは、目標運転ポリシが、新しい運転シナリオにおけるその失敗（例えば、衝突）の要因であったことを意味し、この経験は、目標ポリシを微調整するために使用され得る。運転シナリオは、生成された新しい運転シナリオのシーケンスにおける衝突率を最大化するような方法で、元の現実の記録された運転シナリオに適用された有界摂動のシーケンスに基づいて生成され得る。Ｓ_０が現実のシナリオである場合、（Ｓ_１，...．．Ｓ_Ｎ）は、Ｓ_０のわずかな増分摂動を伴う、生成されたシナリオのシーケンス、すなわち、
、
などであり得る。
ｃ（Ｓ，Π）がシナリオＳ上でのポリシΠの失敗のインジケータを示すと仮定すると、
を最大化することが好ましく、ここで、Ｎは、摂動のシーケンスの長さを示す。摂動は、マップ上の初期位置、ゴール位置（行き先）、エージェント生成時間の変更、又は、交通参加者のリスクの回避性を制御する比率の変更のいずれかである。

一実装形態によれば、前記目標位置についての交通シミュレーションを実行する前記段階は、適応された前記一般交通ポリシに基づいてよい。

これは、適応（微調整）された一般交通ポリシを、その後、更なるシミュレーション段階をより正確に実行するために使用することができるという利点を有する。

一実装形態によれば、前記更新済み目標運転ポリシは、目標運転ポリシパラメータの更新済みセットを含んでよい。

目標運転ポリシは、更新済み目標運転ポリシが１つ又は複数の更新済み目標運転ポリシパラメータによって規定され得るように、目標運転ポリシパラメータによって説明され得る。とりわけ、更新済みパラメータのみが車両に伝送され得る。

一実装形態によれば、交通シミュレーションを実行する前記段階は、前記現在の目標運転ポリシを訓練して、信頼度測定値及び／又は安全性測定値を改善する段階を有してよい。

安全性測定値（安全性メトリック）は、平均ジャーク率、隣接する車両との平均最低距離、路外運転率、又は衝突までの時間のうちの少なくとも１つに基づいて決定され得る。信頼度測定値（信頼度メトリック）は、専門家の運転シナリオと比較した、行き先に到達するまでの平均時間、停止して過ごした平均時間、又は平均縦速度のうちの少なくとも１つに基づいて推定され得る。

一実装形態によれば、本方法は、前記車両運転データから取得した初期交通シナリオを修正することによって異なる交通シナリオを生成する段階を更に備えてよく、前記目標位置についての前記交通シミュレーションは、生成された前記異なる交通シナリオを用いて実行される。例えば、シナリオ生成器は、現実の記録された運転シナリオの初期セット、Πで示される挑戦されるべき交通ポリシのセット、及び具体的に挑戦されることが意図されていない交通ポリシのセットを受信し得る。初期運転シナリオは、
が最大となるように、新しい運転シナリオのシーケンス（前に説明したように、Ｓ_１，...，Ｓ_Ｎ）を生成することによって摂動され得る。ｃ（Ｓ_ｉ，Π）は、安全性及び信頼度メトリックに基づいて失敗を定量化することに留意されたい。実際、Ｓ_ｉ上でポリシΠをシミュレーションすると、ポリシΠについてのこのシナリオにおける安全性メトリック及び信頼度メトリックが取得され得る。Πは単に目標ポリシ（以下で更に説明されるパイプラインの最終段階）であってよく、又は、Πは交通ポリシ（パイプラインの第２の段階）であってもよいことに留意されたい。

これは、車両運転データから取得した交通シナリオを修正することによってシミュレーションされる挑戦的なシナリオの生成を規定する。

一実装形態によれば、前記初期交通シナリオを修正する前記段階は、（ａ）前記交通シナリオにおけるエージェントの数を増加させること；（ｂ）前記交通シナリオにおけるエージェントの速度を修正すること；（ｃ）前記交通シナリオにおけるエージェントの初期位置及び／又は方向を修正すること；及び（ｄ）前記交通シナリオにおけるエージェントの軌道を修正することのうちの少なくとも１つを有してよい。

これは、挑戦的なシナリオの生成のための可能な具体的な方法を提供する。とりわけ、追加の／新しい交通エージェントが挿入され得る。更に、又は代替的に、例えば、車両運転データからのエージェントの測定された速度、又は挿入されたエージェントの速度の周りに摂動を含めることによって、交通エージェントの速度を変更することができ、とりわけ、現在の値の周りの摂動によって、交通シナリオにおけるエージェントの初期位置及び／又は方向を変更することができ、及び／又は、交通エージェントの軌道／経路を変更、具体的には摂動させることができる。より具体的には、行き先を変更することができ、ルート決定はポリシによって内部でなされ得る。更に、リスクの回避性の比率など、交通ポリシの行動のいくつかの特徴が制御され得る。

一実装形態によれば、目標位置は、地理的に限定されたエリアのマップデータによって説明され得る。

目標位置は、有界マップによって説明されてよく、とりわけ、道路ネットワーク構造をシミュレーションに使用することができる。これらのマップデータはまた、交通標識を含んでよく、これは、マップデータにおいて予め規定され得るか、又は、車両運転データから挿入され得る（例えば、車両のカメラによる識別）。車両運転データにおける車両の位置は、位置決定モジュール、例えばＧＰＳモジュールから取得されてよく、この位置はマップデータに関連し得る。

一実装形態によれば、前記目標位置における車両運転データは、１つ又は複数の更なる車両から更に取得されてよい。

この実装形態において、車両のフリートのうちの他の車両は、その後にシミュレーションのために使用され得る車両運転データの提供に参加し得る。これにより、安全性及び／又は信頼度に関するシミュレーション結果が改善され、目標運転ポリシを更新する時間が低減される。

第２の態様によれば、目標位置における車両運転データ及び前記目標位置の現在の目標運転ポリシを車両から受信するように構成された受信手段；更新済み目標運転ポリシを取得するために、前記車両運転データを使用して前記目標位置についての交通シミュレーションを実行するように構成された処理回路；及び前記更新済み目標運転ポリシを前記車両に伝送するように構成された伝送手段を備える、データセンタが提供される。

第２の態様及びその実装形態のいずれか１つによるデータセンタの利点及び更なる詳細は、第１の態様及びその実装形態による方法に関して上で説明したものに対応する。これを考慮して、ここで、及び以下では、上記の説明を参照する。

一実装形態によれば、前記処理回路は、一般運転データ及び前記車両運転データを使用して、一般交通ポリシを前記目標位置に適応させるように更に構成されてよい。

一実装形態によれば、前記処理回路は、適応された前記一般交通ポリシに基づいて、前記目標位置についての交通シミュレーションを実行するように更に構成されてよい。

一実装形態によれば、前記処理回路は、前記現在の目標運転ポリシを訓練して、信頼度測定値及び／又は安全性測定値を改善するように更に構成されてよい。

一実装形態によれば、前記処理回路は、前記車両運転データから取得した初期交通シナリオを修正することによって異なる交通シナリオを生成し；生成された前記異なる交通シナリオを用いて前記目標位置についての前記交通シミュレーションを実行するように更に構成されてよい。異なる交通シナリオの生成、すなわち、挑戦的シナリオ生成器をどのように使用するかの更なる詳細に関して、実装形態に関して上記の説明、及び以下の実施形態の詳細な説明を参照する。

一実装形態によれば、前記処理回路は：（ａ）前記交通シナリオにおけるエージェントの数を増加させること；（ｂ）前記交通シナリオにおけるエージェントの速度を修正すること；（ｃ）前記交通シナリオにおけるエージェントの初期位置及び／又は方向を修正すること；及び（ｄ）前記交通シナリオにおけるエージェントの軌道を修正することのうちの少なくとも１つによって前記初期交通シナリオを修正するように構成されてよい。

一実装形態によれば、前記受信手段は、前記目標位置における車両運転データを１つ又は複数の更なる車両から受信するように更に構成されてよい。

第３の態様によれば、システムが提供され、前記システムは、目標位置における車両運転データを取得するように構成され、取得した前記車両運転データ及び前記目標位置の現在の目標運転ポリシをデータセンタに伝送するように構成された車両を備え、第２の態様又はその実装形態のいずれか１つによるデータセンタを備える。

一実装形態によれば、前記システムは、前記目標位置において車両運転データを取得する前記段階、取得した前記車両運転データを前記データセンタに伝送する前記段階、更新済み目標運転ポリシを取得するために前記車両運転データを使用して前記目標位置についての交通シミュレーションを実行する前記段階、及び前記更新済み目標運転ポリシを前記車両に伝送する前記段階を繰り返し実行するように構成されている。

第４の態様によれば、コンピュータプログラム製品が提供され、前記コンピュータプログラム製品は、コンピュータ上で実行されると、第１の態様又はその実装形態のいずれか１つによる方法の前記段階を実行するためのコンピュータ可読命令を備える。

１つ又は複数の実施形態の詳細は、添付図面及び以下の説明に記載されている。他の特徴、目的、及び利点は、明細書、図面、及び特許請求の範囲から明らかになるであろう。

以下では、添付の図及び図面を参照して本開示の実施形態がより詳細に説明される。

一実施形態による、目標位置における自律走行車両の目標運転ポリシを更新する方法を示す。

一実施形態による、自律走行車両及びデータセンタを含むシステムを示す。

一実施形態による方法を示す。

図１は、一実施形態による、目標位置における自律走行車両の目標運転ポリシを更新する方法を示す。方法は、
１１０：車両によって、目標位置において車両運転データを取得する段階；
１２０：車両によって、取得した車両運転データ、及び目標位置のための現在の目標運転ポリシをデータセンタに伝送する段階；
１３０：更新済み目標運転ポリシを取得するために、データセンタによって、車両運転データを使用して目標位置についての交通シミュレーションを実行する段階；及び
１４０：データセンタによって、更新済み目標運転ポリシを車両に伝送する段階を備える。

自律走行車両は、目標位置において車両運転データを取得する。これらのデータは、センサ及び／又はカメラを使用することによって取得され得る。取得した車両運転データは、目標位置についてのオフラインシミュレーションを実行するデータセンタに伝送される。これらの交通シミュレーションは、車両運転データに既に含まれている交通エージェントに加えて、シミュレーションシナリオに含まれるシミュレーションされた交通エージェントを使用することによって、及び／又は、速度などのエージェントの交通パラメータを修正することによって、目標運転ポリシを訓練する。それに応じて、初期シナリオが摂動され、既に上記で詳述されたように、例えば、１０００個の新しいシナリオがそれから生成される。シミュレーションの後、目標運転ポリシは、シミュレーション結果に基づいて更新され、更新済み目標運転ポリシは、次に目標位置を通って運転するときに車両が更新済み目標運転ポリシを適用することができるように、自律走行車両に転送される。

図２は、一実施形態による、自律走行車両及びデータセンタを含むシステムを示す。

システム２００は、車両２１０及びデータセンタ２５０を有する。データセンタ２００は、目標位置における車両運転データ及び目標位置の現在の目標運転ポリシを車両２１０から受信するように構成された受信手段２５１；更新済み目標運転ポリシを取得するために、車両運転データを使用して目標位置についての交通シミュレーションを実行するように構成された処理回路２５５；及び更新済み目標運転ポリシを車両２１０に伝送するように構成された伝送手段２５２を備える。

本開示の更なる詳細は、以下で図３から６を参照しながら説明される。

本開示は、他のものの中でも、目標地理的エリアに対する最小のデータ収集により自律走行車両運転ポリシの安全性及び信頼度を改善することができるかという技術的問題を解決し、これは、自動運転車両の大規模な展開における主要な関心事項である。

実際、自律走行車両の基本的な一般運転ポリシは、あらゆる状況において安全であるように設計されており、未見の場所に晒されると過度に用心深くなることが期待されている。自律走行車両を、少なくとも人間の運転者と同じ程度に効率的となるように顧客の具体的な使用例に適応させるために、目標ポリシは、具体的なユーザ位置に微調整されなければならない。自律走行車両運転の企業は、その力学が発展する様々な位置において多数の顧客を有し得るため、利益を得るためにはこの目標ポリシの微調整を自動的に行う必要がある。

本開示は、最小のデータ収集及び最小の人間による介入によりその場で微調整される、現実的かつ堅固な交通シミュレーションのおかげで、オフラインの様式で目標地理的エリア上の運転ポリシの安全性及び信頼度を自動的に改善するための問題に取り組む。

本開示は、現実的な交通生成器の使用により具体的な目標地理的位置上で自律走行車両運転ポリシを大規模に訓練することを可能にする具体的な手順に基づく。

一般プロセス：自動運転経験の改善
実践において、本方法は、（目標位置において）限定的なデータのみをその場で収集した後に、自律走行車両のエンドユーザが、目的の具体的な目標位置（例えば、自宅から職場への日々の通勤）上で運転の信頼度及び安全性の急な改善を経験することを可能にする。

ここで、図３における現実の用途のためにオフラインの訓練パイプラインをどのように使用できるかを説明する。ユーザのアクティビティに応じて具体的な位置に展開された複数の自動運転車両（ＳｅｌｆＤｒｉｖｉｎｇＶｅｈｉｃｌｅ：ＳＤＶ）２１０、２２０、２３０を検討する。それらの車両の各々は、手動又は自動運転モードのいずれかで、走行中に毎日、ログ（車両運転データ）を収集している。それらのログは、遠隔でデータセンタに送信され得る（例えば、夜間に）。

データセンタにおいて、具体的な目標位置における莫大な量のシミュレーションが実行され、ここで、自律運転ポリシは非常に多様な状況を経験し得る。自律運転ポリシは、シミュレーションにおいて収集されたこの莫大な量の経験を使用して訓練及び改善される。

一度シミュレーションにおいて自律運転ポリシの信頼度及び安全性における明確な改善が測定されると、遠隔通信を通して、更新済み自律走行車両運転ポリシが車両２１０、２２０、２３０へと戻されるように自動的に送信される。次の走行中、車両（例えば、自動車）は、更新済み運転ポリシに従って運転することができ、ユーザは、以前に見られた位置を再訪する場合に改善を経験することになり、又は、新しい位置に遭遇した場合には経験を収集し続ける場合がある。

本開示の重要な部分は、シミュレーションプロセスにある。莫大な量のシミュレーションは、以前の研究におけるようにハードコーディングされた規則により駆動されるのではなく、現実的かつインタラクティブな交通が、大量のデータを使用して学習され、目的の具体的な位置上で微調整される。

そのようなアーキテクチャの主要な利点は：
・目標位置における、最小のデータ収集及び人間のサポートでの自動的な自律走行車両運転ポリシの更新
・定量的な安全性評価のための交通シミュレータでの大規模なインタラクション
・大規模なデータ及び具体的な目標位置に対する微調整を活用することによって実行されるため、シミュレーションは現実的かつ効率的である
現実的な交通シミュレーションを学習するプロセスは、図４に示されるように３つの段階に分けられ得る。
・一般的な、現実的な交通の学習
・目標となる地理的位置における交通の微調整
・学習した交通とインタラクトする、目標位置における自律走行車両運転ポリシの学習

これらの段階について更に、以下で詳細に説明する。
１）一般的な、現実的かつ堅固な交通学習
この第１の段階の主な概念は、自律運転の企業により（フリート又はクラウドソースデータの収集を通じて）利用可能である莫大な量のデータを活用して、一般的な現実的交通を学習することである。

図５に示されるように、運転デモンストレーションのデータセットを与えられると、マルチエージェント敵対的生成模倣学習ＭＡＩＲＬ（ｍｕｌｔｉａｇｅｎｔｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｉｍｉｔａｔｉｏｎｌｅａｒｎｉｎｇ）に基づいて、運転ポリシのプールを、それらのそれぞれの報酬関数と共に学習する［参考文献Ｓｏｎｇｅｔａｌ，２０１８に記載のとおり］。マルチエージェント学習により、利用可能な位置における収集された現実のクラウドソースデータに基づいて生成された多数の状況におけるエージェント間のインタラクションを学習することが可能になる。このプロセスの終わりに、利用可能な位置における現実的な運転行動を再現する交通ポリシが取得される。
２）目標位置における交通の微調整
この段階の目的は、段階１において学習された一般的な交通を、自律走行車両ユーザの主要な目標となるいくつかのジオフェンス位置（境界により限定されている位置）において微調整することである。

具体的な地理的位置において交通ポリシを微調整するために、以下の手順が適用される。

まず、目標位置において、手動で、又は自動運転モードのいずれかで、現実の車両を用いて少数の運転デモンストレーションの収集が実行される。これは、自律運転の企業によって、又は、日常生活において自身の車両を使用する間に、この手順を実行するユーザにより直接行うことができる。ログはその後、データセンタに送信され、交通の微調整フェーズを直接トリガする。段階１とは対照的に、この位置において少数のデモンストレーションのみが必要とされる。

交通微調整フェーズの間、段階１で学習した一般交通を目標位置に適応させるために、ＰＵ－ＧＡＩＬ［Ｐｏｓｉｔｉｖｅ－ＵｎｌａｂｅｌｅｄＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＩｍｉｔａｔｉｏｎＬｅａｒｎｉｎｇ、陽性・ラベル無し敵対的生成模倣学習、参考文献Ｘｕｅｔａｌ，２０１９を参照されたい］が使用され得る。ＰＵ－ＧＡＩＬは、エリアにおける少数の収集された現実の運転デモンストレーション及び目標地理的エリアにおける合成で生成された運転シミュレーションの両方を活用して、交通ポリシを適応させることを可能にする。

少数のデモンストレーションが収集され、次いで、それらの新しい生成されたシナリオにおける現在の交通ポリシの失敗率を最大化するような方法で、それらの初期シナリオから挑戦的なシナリオが生成される。合成シナリオ上で生成されるシミュレーションのロールアウトは、ＰＵ－ＧＡＩＬ手順に基づいて交通ポリシを更新するために使用され得る。上記のように、ＰＵ－ＧＡＩＬの公式により、それらの種類の状況において学習することが可能となるため、目標位置における多くの専門家データが必要とされない。

このフェーズの終わりに、交通は目標位置において安全にインタラクトすることができる。
３）目標ポリシの微調整
第３の段階は、図６に示されるように、目標位置における実際の自律走行車両運転ポリシを学習することからなる。

これは、自律走行車両を、シミュレーションにおける学習した交通とインタラクトさせることによって行われる。

このプロセスにより、それらはシミュレーションされているため、自律モードにおいて明示的に記録又はテストされる必要のない大量で多様な運転状況を使用することを運転システムが学習することが可能となる。

シミュレーションが規則ベースの様式で行われていた以前の作業とは対照的に、段階２において具体的な目標位置上でデータを学習及び微調整しているため、ここで交通は、現実的な様式でシミュレーションされる。

再びここで、実際の微調整された交通を与えられた目標ポリシの挑戦的なシナリオを生成するために、シナリオ生成器が使用される。一度合成シナリオのセット上の失敗率が十分に高くなると、それらの経験は、運転ポリシを更新するために使用される。

この段階の後、ポリシ更新は、遠隔通信を通じて現実の車両に戻されるように送信され、顧客の運転者は、次の走行中に改善を実験することができる。

車両２１０、２０２、２３０は、遠隔通信及びセンサを備えた自動運転車両（ＳＤＶ）である。データセンタは、ＳＤＶと通院するための通信インタフェースを有する。

データセンタにおいて使用されるアルゴリズムは、目標位置のＨＤマップ及び運転デモンストレーションのデータセット、ＧＮＳＳ（ｇｌｏｂａｌｎａｖｉｇａｔｉｏｎｓａｔｅｌｌｉｔｅｓｙｓｔｅｍ、全地球測位システム）及びＩＭＵ（ＩｎｅｒｔｉａｌＭｅａｓｕｒｉｎｇＵｎｉｔ、慣性測定装置）、及び／又は、目標車両データ収集のためのＨＤマップベースのローカライズ能力を有するビジョンを必要とする。

システムを訓練するためのデータベースは、複数の位置においてＨＤマップと整合された運転デモンストレーションの大規模なデータベースを必要とし得る。

システムは、その場での最小のデータ収集を用いて目標地理的位置における自律運転ポリシの信頼度及び安全性を改善するために使用され得る。

本開示による方法は、ユーザによって現実の車両における自動運転モードで使用される、
で示される目標運転ポリシの安全性及び信頼度を改善する主な訓練手順に基づく。まず、上で詳述された訓練及びパイプラインに関連するいくつかの表記及び用語を紹介し、次いで、上で詳述された３つの主な段階の詳細な説明に移る。

訓練手順は、運転シミュレーションを生成するために使用される運転シミュレータに基づく。運転シミュレータは、運転シナリオＳ及び運転ポリシのセットΠ_θを用いて初期化される。運転シナリオＳ＝（Ｒ，Ｔ，Ｈ）は、具体的な地理的エリアにおける有界道路ネットワークの記載、Ｒ上に規定される交通フローＴ、及びシミュレーション限界Ｈの組み合わせとして規定される。シミュレーション限界は、シミュレータが新しいシナリオにリセットされる前のシミュレーション段階の最大数を決定する。交通フローは、特定の頻度で運転シーンにエージェントを入力する。追加的に、生み出された各エージェントに対してその初期物理構成、その行き先、そのタイプ（すなわち、自動車、自転車、歩行者）、及びその関連する運転ポリシπ_θ∈Π_θを与える。各エージェントは、各シミュレーション段階において、確率分布πθ（ａ｜ｏ，ｒ）に従って、追従すべき経路ｒ上で調整されたアクションａをシーンoのエゴ観察と関連付けるニューラルネットワークとして実装された、π_θで示される運転ポリシによって動画化される。経路は、Ｒ及び行き先に基づいてシミュレータによって自動的に提供される。エゴ観察は、各エージェントの視点ｋからシミュレータにより生成され、主に、意味層、すなわち、ＨＤマップ、及びシーンのコンテキストについての意味情報、すなわち、前の隣接する車両、斜線通路のポリラインなどまでの距離で構成されている。アクションは、少なくともシミュレーション段階全体の間に追従すべき理想的な軌道の高次の説明からなる。エージェント、すなわち、自動車、トラック、歩行者などの物理的制約を満たすために、各アクションは、より低次のコントローラによる制御のシーケンスへと変換されることに留意されたい。シナリオＳ＝（Ｒ，Ｔ，Ｈ）に基づく運転シミュレーションにより、時間範囲［０，Ｈ］の間に入力された全てのエージェントの単一のエージェント軌道で構成されたマルチエージェント軌道Γが生成される。単一のエージェント軌道
は、主として、エゴエージェント観察、及び、各シミュレーション段階において所与の時間長Ｔでサンプリングされたアクションのシーケンスである。我々は、交通ポリシを、現実の自動運転車両を制御する目標運転ポリシ
に対して、運転シナリオの交通フローにより入力されたエージェントを動画化するために学習されたポリシのセット
と呼ぶ。いくつかの交通エージェントが同じ運転ポリシモデルによって制御され得ることに留意されたい。追加的に、我々は、運転シナリオ
及び、シナリオ時間拡張中に
に入力された、各専門家エージェントの軌道を含む関連するマルチエージェント専門家軌道
で構成された対
のセットとして、大規模なデータセットから得られる専門家運転デモンストレーション
を導入する。それらの道路ネットワーク
により表される目標位置における目標ポリシ
を改善するために、目標位置において漸進的に収集した、
で示される少数のユーザデモンストレーションを活用する。

段階１：一般的な現実的かつ堅固な交通学習
第１の段階は、マルチエージェント敵対的模倣学習ＭＡＩＲＬ［Ｓｏｎｇｅｔａｌ２０１８］によって、それらの報酬関数ｒ_ｉと共に、運転デモンストレーション
から交通ポリシ
を学習することからなる。ＭＡＩＲＬアルゴリズムは、以下の最適化問題を解決する。
ここで、Ψは正規化項である。
の各交通ポリシ
は、ｏ_ｔ及びアクションａ_ｔの各観察対を、エージェントがどれほど現実的かつ安全に行動するかを示す現実の値にマッピングする、その関連する報酬関数
を有することに留意されたい。最適化問題は、ＰＰＯ、ＳＡＣ、ＴＤ３、Ｄ４ＰＧのようなポリシ更新方法を用いて、ディスクリミネータ
を最適化すること、及びポリシ
を最適化することを交互に行うことによって解決される［Ｏｒｓｉｎｉｅｔａｌ２０２１を参照されたい］。報酬関数は、［Ｆｕｅｔａｌ，２０１８］に詳述されるように、
を用いてディスクリミネータから導出される。多様な挙動を取得するために、相互情報正規化Ψを使用することができる［Ｌｉｅｔａｌ，２０１７］。ドメイン知識を施行することは、無関係のアクション及び状態を罰則化する相補的損失［Ｂｈａｔｔａｃｈａｒｙｙａｅｔａｌ，２０１９］のおかげ、又は、タスク関連特徴の活用に対する制約［Ｚｏｌｎａｅｔａｌ，２０１９；Ｗａｎｇｅｔａｌ，２０２１］のおかげで可能である。［Ｊｅｏｎｅｔａｌ，２０２１］に詳述されるように、所与の状態で全てのエージェントのアクションを整合させるために、個々の
の代わりに中央化したクリティックＤ_{ｃｅｎｔｒａｌｉｚｅｄ}を使用するおかげで、エージェントの暗示的な整合が可能である。これは、あるエージェントが道を譲って別のエージェントを道が進む必要がある交差点のように、エージェントが交渉する必要があるときに特に興味深い。このプロセスの終わりに、一般的な現実的かつ堅固な交通ポリシ
が取得される。

段階２：目標位置における交通の微調整
一度交通ポリシ
がデモンストレーションＤ_ｅから訓練されると、第２の段階は、Ｄ_ｕｓｅｒにおいてユーザによって遭遇されるものを越えた様々な状況で交通エージェントが目標位置において安全にインタラクトできるように、目標地理的位置において交通ポリシを微調整することからなる。目標位置
においてユーザによって収集された少数のユーザデモンストレーション
を活用して、シナリオ生成器は、交通ポリシがそれについて訓練される、交通ポリシΠ_θのためのますます挑戦的なシナリオ
を生成する。
であるため、交通ポリシが、専門家参照軌道
を授けられたシナリオ
に対する軌道を生成した以前の段階と比較して、交通ポリシによって生成された合成デモンストレーション
は、関連する現実の専門家デモンストレーションを有しない。結果として、我々は、追加のセクションにおいて詳述されるＰＵＧＡＩＬ［Ｘｕｅｔａｌ，２０１９］の手順に基づいて、
のラベル無し軌道、並びにＤ_ｕｓｅｒにおける少数のラベル付き軌道を活用するために、交通ポリシの訓練方法を適応させる。

交通の微調整のための例示的な概略コードをアルゴリズム１として以下に示す。
段階３：目標ポリシの微調整
一度交通ポリシΠ_θが目標位置において微調整されると、我々は、目標位置における交通との大規模なインタラクションを通じて目標ポリシを微調整することができる。ユーザデモンストレーションＤ_ｕｓｅｒのシナリオからシナリオ生成器により、目標ポリシ
のためのますます挑戦的なシナリオが生成される。挑戦的なシナリオにおいて交通とインタラクトする目標ポリシ
によって生成されたデモンストレーションＤ_{ｔｒｉａｌｓ}は、Ｔｒａｉｎ_{ｔａｒｇｅｔ}で示される目標ポリシ自体の訓練方法に基づいて、αで示される目標ポリシパラメータを更新するために使用される。交通が失敗の要因である場合には、依然として、交通デモンストレーションを利用して、段階２に基づいて交通を微調整し、そこから目標ポリシの訓練を再開することが可能であることに留意されたい。

目標ポリシの微調整の例示的な概略コードをアルゴリズム２として以下に示す。
以下では、個々の段階に関する追加の情報が提供される。

ＰＵＧＡＩＬ訓練手順
交通ポリシ
を微調整するために、ＰＵＧＡＩＬ訓練手順は、現実のユーザによって、その走行中に目標位置において収集された少数のデモンストレーションＤ_ｕｓｅｒ、及び挑戦的なシナリオにおける交通ポリシによって生成された合成デモンストレーションＤ^{ｓｙｎｔｈｅｔｉｃ}を活用する。Ｄ_ｕｓｅｒのサイズは、Ｄ^{ｓｙｎｔｈｅｔｉｃ}よりもはるかに小さいことに留意されたい。Ｄ^{ｓｙｎｔｈｅｔｉｃ}におけるシナリオは、関連する専門家軌道を有しないため、Ｄ^{ｓｙｎｔｈｅｔｉｃ}∪Ｄ^ｕｓｅｒに対してＭＡＩＲＬアルゴリズムを直接適用することは不十分なパフォーマンスをもたらし、これは、データセットのバランスが非常に悪いからである。

追加的、グラウンドトルースが欠損しているため、交通ポリシが、陰性ラベル（ｎｅｇａｔｉｖｅｌａｂｅｌｓ）を割り当てることによって新しい合成シナリオにおける現実的な移行（ｏ_ｔ，ａ_ｔ，ｏ_ｔ＋１）を全く生成できないとアプリオリに見なすことは、ＭＡＩＲＬ段階の後にそれらが導き出されることが既に期待されているので、また、それらの状況において人間の運転者がどのように行動するであろうかを我々は知らないので、不公平である。したがって、元の問題が、陽性のラベル無し学習の問題として再度明確になり、ここで、主な相違点は、交通エージェントの軌道が、専門家及び見習い（ａｐｐｒｅｎｔｉｃｅ）のデモンストレーションが混合したものとして見なされることである。実際には、元の問題のディスクリミネータの目的は以下のように表される。

ここで、［Ｘｕｅｔａｌ，２０１９］によれば、ηは、以前の陽性クラスを表し、β＞０である。陽性ラベルＤ^ｕｓｅｒのセットが依然としてラベル無しのＤ^{ｓｙｎｔｈｅｔｉｃ}よりも小さいため、我々は、現実の及び合成のシナリオの比率に応じて、以前の陽性クラスηを調整して、不均衡を緩和する。この新しい目的のために、我々は、以前のようにディスクリミネータ及びポリシの更新を交互に行い、複数の段階の後に、目標位置上に構築された様々なシナリオにおいて安全にインタラクトする微調整された目標ポリシ
を取得する。

安全性及び信頼度のスコア
運転ポリシのセット
が、運転シナリオのセット
に対して運転安全である及び信頼できるかどうかを評価するために、シミュレーションにおいて生成された各エピソードにおける交通エージェント又は目標ポリシの安全性及び信頼度スコアを計算する。最終スコアは、［Ｓｈａｌｅｖ－Ｓｈｗａｒｔｚｅｔａｌ，２０１７］によって提案される運転軌道の具体的な態様に各々が基づく、個々のスコアの加重和である。
・安全性メトリック：運転ポリシの安全性は、衝突率、交通規則違反、最小安全距離、ジャーク率、路外運転率、中央線に対する横方向のシフトのようないくつかの基準に基づいて、運転シナリオのセットにおいて推定され得る。
・信頼度メトリック：運転ポリシの信頼度は、一度エージェントがより信頼できるようになると低減されることが期待される、モールまでの時間、又は、エージェントがより信頼できるようになると低減されることも期待される衝突までの時間のようなプロキシメトリックを用いて推定され得る。
挑戦的なシナリオの生成
目標地理的位置において様々な挑戦的なシナリオを生成して、第２フェーズ中に交通ポリシΠ_θ、又は第３フェーズ中に目標ポリシ
のいずれかを訓練するために、シナリオ生成器モジュールを導入する。シナリオ生成器は、目標位置においてユーザによって漸進的に収集されたＤ_ｕｓｅｒのシナリオを種として活用して、新しいシナリオを生成することに留意されたい。実際、これにより、一般的な状況から、非常にまれな状況までのシナリオのセットを、選択したカバレッジで一貫して多様化させることが可能となる。運転シナリオは、関連する交通フローに基づいて、パラメータの有限のリストによって特徴付けられ得ることに留意されたい。交通フローは、特定の頻度でエージェントを生成する交通ノードのセットで構成された交通フローグラフに基づく。生成された各エージェントは、その独自の初期物理構成、すなわち、運転ポリシに応じた初期位置、速度、行き先、運転ポリシ、及び運転スタイルを有する。それらの全てのパラメータは、交通の調和を維持する（すなわち、２つのエージェントが同じ位置及び同じ時間に生み出されない）特定の単純な制約下で摂動され得る。シナリオ生成器は、そこにおいて運転ポリシΠが低い安全性及び信頼度スコアを有するシナリオがもたらされる、有界摂動の最小シーケンスを求める。ここで、運転ポリシΠは、交通ポリシΠ_θ又は目標ポリシ
を表し得る。探索中、運転ポリシの訓練可能な重みは固定されている。我々は、生成されたシナリオのシーケンスに対する、平均累積安全性及び信頼度スコア
を最小化するπ_{ｐｅｒｔｕｒｂａｔｉｏｎ}で示されるシナリオ摂動ポリシを学習するために、強化学習ベースの手順を使用する。Ｐで示される有限数の摂動のみが各トライアルに適用され得ることに留意されたい。我々は、以下の形態（Ｓ，δ，ｓｃｏｒｅ（Π，Ｓ'），Ｓ'）の移行を格納するリプレイバッファＢを用いて、π_{ｐｅｒｔｕｒｂａｔｉｏｎ}を学習するために、ＤＱＮ［Ｍｎｉｈｅｔａｌ，２０１３を参照されたい］のようなオフポリシ方法を使用する。ここで、Ｓは現在のシナリオ、δは適用されるべき摂動、Ｓ'は摂動の後に結果として得られるシナリオ、ｓｃｏｒｅ（Π，Ｓ'）は、シナリオＳ'に対する運転ポリシΠの安全性及び信頼度スコアである。

挑戦的なシナリオの生成のための例示的な概略コードをアルゴリズム３として以下に示す。
参考文献：
・［Ｂｈａｔｔａｃｈａｒｙｙａｅｔａｌ２０１９］ＭｏｄｅｌｉｎｇＨｕｍａｎＤｒｉｖｉｎｇＢｅｈａｖｉｏｒｔｈｒｏｕｇｈＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＩｍｉｔａｔｉｏｎＬｅａｒｎｉｎｇＲａｕｎａｋＢｈａｔｔａｃｈａｒｙｙａ，ＢｌａｋｅＷｕｌｆｅＤｅｒｅｋＰｈｉｌｌｉｐｓ，ＡｌｅｘＫｕｅｆｌｅｒ，ＪｅｒｅｍｙＭｏｒｔｏｎＲａｎｓａｌｕＳｅｎａｎａｙａｋｅＭｙｋｅｌＫｏｃｈｅｎｄｅｒｆｅｒ２０１９
・［Ｗａｎｇｅｔａｌ２０２１］ＤｅｃｉｓｉｏｎＭａｋｉｎｇｆｏｒＡｕｔｏｎｏｍｏｕｓＤｒｉｖｉｎｇｖｉａＡｕｇｍｅｎｔｅｄＡｄｖｅｒｓａｒｉａｌＩｎｖｅｒｓｅＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇＰｉｎＷａｎｇ，ＤａｐｅｎｇＬｉｕ，ＪｉａｙｕＣｈｅｎ，ＨａｎｈａｎＬｉ，Ｃｈｉｎｇ－ＹａｏＣｈａｎ２０２１
・［Ｊｅｏｎｅｔａｌ２０２１］ＳｃａｌａｂｌｅａｎｄＳａｍｐｌｅ－ＥｆｆｉｃｉｅｎｔＭｕｌｔｉ－ＡｇｅｎｔＩｍｉｔａｔｉｏｎＬｅａｒｎｉｎｇＷｏｎｓｅｏｋＪｅｏｎ，ＰａｕｌＢａｒｄｅ，ＪｏｅｌｌｅＰｉｎｅａｕ，ＤｅｒｅｋＮｏｗｒｏｕｚｅｚａｈｒａｉ２０２１
・［Ｚｏｌｎａｅｔａｌ２０１９］Ｔａｓｋ－ＲｅｌｅｖａｎｔＡｄｖｅｒｓａｒｉａｌＩｍｉｔａｔｉｏｎＬｅａｒｎｉｎｇＫｏｎｒａｄＺｏｌｎａ，ＳｃｏｔｔＲｅｅｄ，ＡｌｅｘａｎｄｅｒＮｏｖｉｋｏｖ，ＳｅｒｇｉｏＧｏｍｅｚＣｏｌｍｅｎａｒｅｊｏ，ＤａｖｉｄＢｕｄｄｅｎ，ＳｅｒｋａｎＣａｂｉ，ＭｉｓｈａＤｅｎｉｌ，ＮａｎｄｏｄｅＦｒｅｉｔａｓ，ＺｉｙｕＷａｎｇ２０１９
・［Ｘｕｅｔａｌ２０１９］ＰｏｓｉｔｉｖｅｕｎｌａｂｅｌｅｄｒｅｗａｒｄｌｅａｒｎｉｎｇＤａｎｆｅｉＸｕ，ＭｉｓｈａＤｅｎｉｌ２０１９
・［Ｓｏｎｇｅｔａｌ２０１８］Ｍｕｌｔｉ－ＡｇｅｎｔＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＩｍｉｔａｔｉｏｎＬｅａｒｎｉｎｇＪｉａｍｉｎｇＳｏｎｇ，ＨｏｎｇｙｕＲｅｎ，ＤｏｒｓａＳａｄｉｇｈ，ＳｔｅｆａｎｏＥｒｍｏｎ２０１８
・［Ｌｉｅｔａｌ２０１７］ＩｎｆｏＧＡＩＬ：ＩｎｔｅｒｐｒｅｔａｂｌｅＩｍｉｔａｔｉｏｎＬｅａｒｎｉｎｇｆｒｏｍＶｉｓｕａｌＤｅｍｏｎｓｔｒａｔｉｏｎｓＹｕｎｚｈｕＬｉ，ＪｉａｍｉｎｇＳｏｎｇ，ＳｔｅｆａｎｏＥｒｍｏｎ２０１７
・［Ｆｕｅｔａｌ２０１８］ＬｅａｒｎｉｎｇｒｏｂｕｓｔｒｅｗａｒｄｓｗｉｔｈａｄｖｅｒｓａｒｉａｌｉｎｖｅｒｓｅｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇＪｕｓｔｉｎＦｕ，ＫａｔｉｅＬｕｏ，ＳｅｒｇｅｙＬｅｖｉｎｅ２０１７
・［Ｏｒｓｉｎｉｅｔａｌ２０２１］ＷｈａｔＭａｔｔｅｒｓｆｏｒＡｄｖｅｒｓａｒｉａｌＩｍｉｔａｔｉｏｎＬｅａｒｎｉｎｇ？ＭａｎｕＯｒｓｉｎｉ，ＡｎｔｏｎＲａｉｃｈｕｋ，ＬｅｏｎａｒｄＨｕｓｓｅｎｏｔ，ＤａｍｉｅｎＶｉｎｃｅｎｔ，ＲｏｂｅｒｔＤａｄａｓｈｉ，ＳｅｒｔａｎＧｉｒｇｉｎ，ＭａｔｔｈｉｅｕＧｅｉｓｔ，ＯｌｉｖｉｅｒＢａｃｈｅｍ，ＯｌｉｖｉｅｒＰｉｅｔｑｕｉｎ，ＭａｒｃｉｎＡｎｄｒｙｃｈｏｗｉｃｚ２０２１
・［Ｍｎｉｈｅｔａｌ２０１３］ＰｌａｙｉｎｇＡｔａｒｉｗｉｔｈＤｅｅｐＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇＶｏｌｏｄｙｍｙｒＭｎｉｈ，ＫｏｒａｙＫａｖｕｋｃｕｏｇｌｕ，ＤａｖｉｄＳｉｌｖｅｒ，ＡｌｅｘＧｒａｖｅｓ，ＩｏａｎｎｉｓＡｎｔｏｎｏｇｌｏｕ，ＤａａｎＷｉｅｒｓｔｒａ，ＭａｒｔｉｎＲｉｅｄｍｉｌｌｅｒ２０１３
・［Ｓｈａｌｅｖ－Ｓｈｗａｒｔｚｅｔａｌ２０１７］ＯｎａＦｏｒｍａｌＭｏｄｅｌｏｆＳａｆｅａｎｄＳｃａｌａｂｌｅＳｅｌｆ－ｄｒｉｖｉｎｇＣａｒｓＳｈａｉＳｈａｌｅｖ－Ｓｈｗａｒｔｚ，ＳｈａｋｅｄＳｈａｍｍａｈ，ＡｍｎｏｎＳｈａｓｈｕａＭｏｂｉｌｅｙｅ，２０１７

Claims

目標位置における車両の目標運転ポリシを更新する方法であって、
前記車両によって、前記目標位置において車両運転データを取得する段階；
前記車両によって、取得した前記車両運転データ、及び前記目標位置のための現在の目標運転ポリシをデータセンタに伝送する段階；
更新済み目標運転ポリシを取得するために、前記データセンタによって、前記車両運転データを使用して前記目標位置についての交通シミュレーションを実行する段階；及び
前記データセンタによって、前記更新済み目標運転ポリシを前記車両に伝送する段階
を備える、方法。
前記目標位置において車両運転データを取得する前記段階、取得した前記車両運転データを前記データセンタに伝送する前記段階、更新済み目標運転ポリシを取得するために前記車両運転データを使用して前記目標位置についての交通シミュレーションを実行する前記段階、及び前記更新済み目標運転ポリシを前記車両に伝送する前記段階が１回又は複数回繰り返される、請求項１に記載の方法。
一般運転データ及び一般交通ポリシを取得する段階；及び
前記一般運転データ及び前記車両運転データを使用して、前記一般交通ポリシを前記目標位置に適応させる段階
を更に含む、請求項１又は２に記載の方法。
前記目標位置についての交通シミュレーションを実行する前記段階が、適応された前記一般交通ポリシに基づく、請求項３に記載の方法。
前記更新済み目標運転ポリシが、目標運転ポリシパラメータの更新済みセットを有する、請求項１から４のいずれか一項に記載の方法。
交通シミュレーションを実行する段階が、前記現在の目標運転ポリシを訓練して、信頼度測定値及び／又は安全性測定値を改善する段階を有する、請求項１から５のいずれか一項に記載の方法。
前記車両運転データから取得した初期交通シナリオを修正することによって異なる交通シナリオを生成する段階を更に備え、
前記目標位置についての前記交通シミュレーションは、生成された前記異なる交通シナリオを用いて実行される
請求項１から６のいずれか一項に記載の方法。
前記初期交通シナリオの修正が：
前記交通シナリオにおけるエージェントの数を増加させること；
前記交通シナリオにおけるエージェントの速度を修正すること；
前記交通シナリオにおけるエージェントの初期位置及び／又は方向を修正すること；及び
前記交通シナリオにおけるエージェントの軌道を修正すること
のうちの少なくとも１つを有する、請求項７に記載の方法。
前記目標位置は、地理的に限定されたエリアのマップデータによって説明される、請求項１から８のいずれか一項に記載の方法。
前記目標位置における車両運転データが、１つ又は複数の更なる車両から更に取得される、請求項１から９のいずれか一項に記載の方法。
目標位置における車両運転データ及び前記目標位置の現在の目標運転ポリシを車両から受信するように構成された受信手段；
更新済み目標運転ポリシを取得するために、前記車両運転データを使用して前記目標位置についての交通シミュレーションを実行するように構成された処理回路；及び
前記更新済み目標運転ポリシを前記車両に伝送するように構成された伝送手段
を備える、データセンタ。
前記処理回路が、一般運転データ及び前記車両運転データを使用して、一般交通ポリシを前記目標位置に適応させるように更に構成されている、請求項１１に記載のデータセンタ。
前記処理回路が、一般運転データ及び前記車両運転データを使用して前記目標位置に適応された一般交通ポリシに基づいて、前記目標位置についての交通シミュレーションを実行するように更に構成されている、請求項１１又は１２に記載のデータセンタ。
前記更新済み目標運転ポリシが、目標運転ポリシパラメータの更新済みセットを有する、請求項１１から１３のいずれか一項に記載のデータセンタ。
前記処理回路が、前記現在の目標運転ポリシを訓練して、信頼度測定値及び／又は安全性測定値を改善するように更に構成されている、請求項１１から１４のいずれか一項に記載のデータセンタ。
前記処理回路が、前記車両運転データから取得した初期交通シナリオを修正することによって異なる交通シナリオを生成し；生成された前記異なる交通シナリオを用いて前記目標位置についての前記交通シミュレーションを実行するように更に構成されている、請求項１１から１５のいずれか一項に記載のデータセンタ。
前記処理回路が：
前記交通シナリオにおけるエージェントの数を増加させること；
前記交通シナリオにおけるエージェントの速度を修正すること；
前記交通シナリオにおけるエージェントの初期位置及び／又は方向を修正すること；及び
前記交通シナリオにおけるエージェントの軌道を修正すること
のうちの少なくとも１つによって前記初期交通シナリオを修正するように構成されている、請求項１６に記載のデータセンタ。
前記目標位置は、地理的に限定されたエリアのマップデータによって説明される、請求項１１から１７のいずれか一項に記載のデータセンタ。
前記受信手段が、前記目標位置における車両運転データを１つ又は複数の更なる車両から受信するように更に構成されている、請求項１１から１８のいずれか一項に記載のデータセンタ。
目標位置における車両運転データを取得するように構成され、かつ、取得した前記車両運転データ及び前記目標位置の現在の目標運転ポリシをデータセンタに伝送するように構成された車両；及び
請求項１１から１９のいずれか一項に記載のデータセンタ
を備える、システム。
前記目標位置において車両運転データを取得する段階、取得した前記車両運転データを前記データセンタに伝送する段階、更新済み目標運転ポリシを取得するために前記車両運転データを使用して前記目標位置についての交通シミュレーションを実行する段階、及び前記更新済み目標運転ポリシを前記車両に伝送する段階を繰り返し実行するように構成された、請求項２０に記載のシステム。
コンピュータに、請求項１から１０のいずれか一項に記載の方法を実行させるためのコンピュータプログラム。