JP7455851B2

JP7455851B2 - 自律型車両の計画および予測

Info

Publication number: JP7455851B2
Application number: JP2021546461A
Authority: JP
Inventors: スブラマニアン、ラマムーシー; サイモン、ライアンズ; スベト、ペンコフ; モーリス、アントネッロ
Original assignee: Five AI Ltd
Current assignee: Five AI Ltd
Priority date: 2018-10-16
Filing date: 2019-10-16
Publication date: 2024-03-26
Anticipated expiration: 2039-10-16
Also published as: US11900797B2; WO2020079066A4; US20210380142A1; US20210370980A1; US20210339772A1; JP2022516383A; CN112888612A; KR20210061461A; WO2020079074A2; EP3837633A2; CN112868022A; EP3863904A2; WO2020079069A2; JP2023175055A; WO2020079069A3; JP2022516382A; IL282277A; WO2020079066A1; IL282278A; KR20210074366A

Description

本開示は、自律型車両（ＡＶ）の計画の基礎として使用することができる予測方法に関する。

自律型車両は、自動運転車両としても知られるが、自身の外部環境を監視するためのセンサシステムと、それらのセンサを使用して自動的に運転における決定を実行および履行することができる制御システムとを有する車両を指す。これは、とくには、センサシステムからの入力に基づいて車両の速度および進行方向を自動的に調整する能力を含む。完全自律型車両または「運転者なし」車両は、人間の運転者からのいかなる入力も必要とせずに動作するための充分な意思決定能力を有する。しかしながら、本明細書で使用されるとき、自律型車両という用語は、自律的な意思決定能力がより限定的であり、したがって人間の運転者からの或る程度の監督を依然として必要とする半自律型車両にも適用される。

遭遇する運転シナリオを安全かつ効果的に切り抜けるために、自律型車両のプランナは、他の車両／エージェントの予想される挙動を考慮に入れたやり方で計画を行うことができる必要がある。

本発明の第１の態様は、コンピュータによって実施され、外部アクターの軌道を予測する方法であって、
コンピュータにおいて、外部アクターの検出および追跡のためのセンサ入力を受信するステップと、
前記センサ入力にオブジェクト追跡を適用して前記外部アクターを追跡することにより、一時間区間における前記外部アクターの観測されたトレースを決定するステップと、
前記外部アクターについて一式の利用可能な目標を決定するステップと、
前記利用可能な目標の各々について、予想軌道モデルを決定するステップと、
前記外部アクターの前記観測されたトレースを、前記利用可能な目標の各々についての前記予想軌道モデルと比較して、該目標の尤度を決定するステップと
を含む方法を提供する。

外部アクターは、外部の車両、または歩行者、サイクリスト、などの別の外部のアクターであってよい。以下の例において、外部アクターは外部の車両であるが、関連の説明が他の形態の外部アクターにも等しく当てはまることを、理解できるであろう。

いくつかの実施形態において、本方法は、自律型の自車両において実施されてよく、この自律型車両のプランナが、前記利用可能な目標のうちの少なくとも１つの前記尤度に応じて自律的な運転の決定を行い、前記センサ入力は、この自律型車両のセンサシステムを使用して取得される。

前記予想軌道モデルは、前記目標に関する単一の予測される軌道または前記目標に関する予測される軌道の分布であってよい。

前記予想軌道モデルは、一式の予測される軌道のうちの各々の予側される軌道Ｔについての条件付き確率ｐ（Ｔ│Ｇ_ｉ）を含む分布であってよく、該目標の前記尤度ｐ（Ｇ_ｉ│τ）を、前記観測されたトレースτに鑑みて少なくとも１つの予側される軌道の確率ｐ（Ｔ│τ）を推定するために使用することができる。

前記予想軌道モデルを、各々の目標について、該目標の所望の目標位置に基づいて決定することができる。

前記予想軌道モデルを、各々の目標について生成モデルを実行することによって決定することができ、前記生成挙動モデルは、現実世界の運転挙動の例に基づいて軌道を生成するように訓練されている。

前記モデルは、本方法が適用される対象の運転領域に特有であってよい。

前記予想軌道モデルを、各目標について該目標の１つ以上のパラメータおよび前記外部エージェントの１つ以上のパラメータに基づいて定められる予測軌道の空間をサンプリングするようにサンプリングアルゴリズムを適用することによって決定することができる。

前記一式の利用可能な目標を、前記外部エージェントに関するマップデータに基づいて決定することができる。

前記予想軌道モデルを、自車両の挙動に対する他のアクターの応答をモデル化するために１つ以上の自車両パラメータに基づいて決定することができる。

前記観測されたトレースを、前記目標についての最良利用可能軌道モデルを予測するために使用することができ、前記比較は、前記最良利用可能軌道モデルを前記予想軌道モデルと比較することを含む。

前記観測されたトレースを、前記外部アクターの現在の操縦および／または将来の操縦を予測するために使用することができ、前記予測された現在または将来の操縦を、前記最良利用可能軌道モデルを決定するために使用することができる。

複数の操縦からなるシーケンスを、少なくとも１つの目標について決定することができ、前記最良利用可能軌道モデルを、該目標について、前記複数の操縦にそれぞれ関する部分軌道モデルに基づいて決定することができる。

各々の部分軌道モデルは、１つ以上の目標運動値を含むことができ、前記最良利用可能軌道モデルの将来部分の１つ以上の運動値を、前記目標運動値に運動平滑化を適用することによって決定することができる。

各目標についての前記予想軌道モデル及び前記最良利用可能モデルは、該目標についての単一の予想軌道であってよい。

各操縦についての前記部分軌道モデルは、該操縦についての最も可能性の高い部分軌道であってよい。

定められたコスト関数を、各目標についての前記予想軌道モデルおよび前記最良利用可能軌道モデルの両方に適用して、これらの軌道モデルのそれぞれのコストを決定することができ、前記比較は、これらのコストを比較することを含む。

前記コスト関数は、運転時間の短縮に報いる一方で、不安全な軌道を不利とすることができる。

前記コスト関数は、快適性の欠如も不利とすることができる。

本発明の第２の態様は、コンピュータによって実施され、外部アクターの軌道を予測する方法であって、
コンピュータにおいて、外部アクターの検出および追跡のためのセンサ入力を受信するステップと、
前記センサ入力にオブジェクト追跡を適用して前記外部アクターを追跡することにより、一時間区間における前記外部アクターの観測されたトレースを決定するステップと、
前記外部アクターについて一式の可能な操縦を決定するステップと、
前記可能な操縦の各々について、予想軌道モデルを決定するステップと、
前記外部アクターの前記観測されたトレースを、前記利用可能な操縦の各々についての前記予想軌道モデルと比較して、該操縦の尤度を決定するステップと
を含む方法を提供する。

本方法は、自律型車両において実施されてよく、この自律型車両のプランナが、前記利用可能な操縦のうちの少なくとも１つの前記尤度に応じて自律的な運転の決定を行うことができる。

前記予想軌道モデルは、前記操縦に関する単一の予測される軌道または前記操縦に関する予測される軌道の分布であってよい。

前記観測されたトレースを、前記予測される軌道の分布のうちの最も可能性の高い軌道と比較することができる。

別の態様は、本明細書のいずれかの方法を実施するように構成された予測コンポーネントと、前記予測コンポーネントの出力を使用して自律型の運転の決定を行うように構成されたプランナと、を備える自律型車両コンピュータシステムを提供する。

前記予測コンポーネントを、第１の態様の方法またはそのいずれかの実施形態を実施することで、外部エージェントについての目標の予測をもたらし、第２の態様の方法またはそのいずれかの実施形態を実施することで、外部エージェントについての操縦の予測をもたらすように構成することができる。

前記操縦の予測を、前記目標の予測を行うために使用することができる。

自律型車両が、前記自律型車両コンピュータシステムと、前記プランナに結合し、前記プランナによって生成される制御信号に応答する駆動機構とを備えることができる。

本発明の別の態様は、上述のステップと、ＡＶプランナが前記目標のうちの少なくとも１つの前記決定された尤度に基づいてＡＶの動作を制御するための制御信号を生成するステップとを含むＡＶ計画方法を含む。

いくつかの実施形態において、各目標に関する前記予想軌道モデルは、この目標に関する予測される軌道またはこの目標に関する予測される軌道の分布を含むことができる。

各目標についての前記分布Ｇ_ｉは、一式の予測される軌道のうちの各々の予測される軌道Ｔについての条件付き確率ｐ（Ｔ│Ｇ_ｉ）を含むことができ、該目標の前記尤度ｐ（Ｇ_ｉ│τ）を、前記観測されたトレースτに鑑みて少なくとも１つの予測される軌道の確率ｐ（Ｔ│τ）を推定するために使用することができる。

前記制御信号を、前記少なくとも１つの目標の前記決定された尤度およびこの目標についての前記予想軌道モデルに基づいて生成することができる。

前記予想軌道モデルを、（例えば、前記時間区間の始まり、すなわち時刻ｔにおける）前記外部エージェントの１つ以上の初期パラメータに基づいて、前記観測されたトレースとの比較のために決定することができる。前記予想軌道モデルを、（例えば、前記時間区間の終わり、すなわち時刻ｔ＋ΔＴにおける）前記外部エージェントの１つ以上の更新されたパラメータに基づいて前記制御信号を生成するために更新することができる。

前記外部エージェントの前記パラメータは、観測されたパラメータ、すなわちセンサ入力から導出されたパラメータであってよい。

前記外部エージェントの前記１つ以上のパラメータは、（適用可能な時刻における）前記外部エージェントの位置を含むことができる。

前記予想軌道モデルを、前記目標の１つ以上のパラメータに基づいて決定することができる。

前記目標の前記１つ以上のパラメータは、例えば、到達すべき所望の位置を含むことができる。すなわち、各目標を、それぞれの所望の位置によってパラメータ化することができる。

前記予想軌道モデルを、各目標についてコンピュータシステムにおいて生成モデルを実行することによって決定することができる。前記生成モデルを、前記外部エージェントの上述の１つ以上の観測されたパラメータおよび前記目標の上述の１つ以上のパラメータに基づいて実行することができる。

前記予想軌道モデルを、各目標についてこの目標の前記１つ以上のパラメータおよび前記外部エージェントの前記１つ以上のパラメータに基づいて定められる予測経路の空間をサンプリングするようにサンプリングアルゴリズムを適用することによって決定することができる。

前記サンプリングアルゴリズムは、１つ以上のランダム化入力パラメータに基づいて前記探索空間をランダムにサンプリングして予測経路分布を決定するランダム化サンプリングアルゴリズムであってよい。

例えば、前記サンプリングアルゴリズムは、高速拡張ランダムツリー（ＲＲＴ）であってよい。

前記生成モデルは、現実世界の運転挙動の例で訓練された機械学習（ＭＬ）モデルであってよい。そのような例を、１つ以上の運転領域を監視することによって取得された現実世界の運転挙動データから抽出することができる。

例えば、前記生成モデルは、現実世界の目標実行の例に基づいて予想軌道モデルを生成するように訓練されていてよいニューラルネットワークまたは他の機械学習（ＭＬ）モデルを含むことができる。

別の例として、前記生成モデルは、空間マルコフモデルなど、本方法が適用される対象の運転領域について予め決定されたモデルであってもよい。前記モデルを、前記運転領域において観測された現実世界の運転挙動に基づいて予め決定しておくことができる。

前記生成されたモデルを、最初に前記外部エージェントの前記初期パラメータに基づいて実行して、前記観測されたトレースとの比較のための前記予想軌道モデルを決定し、その後に前記制御信号を生成するために前記外部エージェントの前記更新されたパラメータに基づいて再び実行することができる。

本方法は、前記目標のうちの少なくとも１つの目標の前記決定された尤度および該目標について決定された前記（更新された）予想軌道モデルに基づいて、前記時間区間の後の前記外部エージェントの少なくとも１つの予測される軌道を決定するステップを含むことができる。

前記時間区間の後の前記少なくとも１つの予測される軌道の尤度を、前記目標の前記尤度および前記（更新された）予想軌道モデルに基づいて決定することができる。

前記制御信号を、前記少なくとも１つの予測される軌道に基づいて生成することができる。

前記一式の利用可能な（仮定された）目標を、前記外部エージェントに関するマップデータに基づいて決定することができる。

前記１つ以上の目標パラメータも、前記外部エージェントに関するマップデータに基づいて決定することができる。

前記マップデータを、少なくとも部分的に、前記センサ入力から導出することができる。

前記予想軌道モデルを、前記ＡＶセンサ信号から導出された前記外部エージェントの１つ以上の観測されたパラメータに生成挙動モデルを適用することによって計算することができる。

前記生成挙動モデルは、１つ以上の自車両パラメータにも（本計画方法によって制御される自車両への前記他のアクターの応答をモデル化するために）適用されてよく、さらには／あるいは（前記アクターの環境への応答をモデル化するために道路レイアウト／他の運転環境パラメータなどの）前記運転シナリオの１つ以上のパラメータにも適用されてよい。

本方法は、前記目標のうちの少なくとも１つの目標についての前記予想軌道モデルおよびこの目標の決定された尤度に基づいて、前記外部アクターの少なくとも１つの予測される軌道を決定するステップを含むことができる。

前記予想軌道モデルを、（例えば、前記時間区間における前記外部アクターの実際の挙動を考慮すべく）前記生成挙動モデルが適用される対象のパラメータの変化を考慮するために更新することができる。

本発明のさらなる態様は、本明細書に開示の方法ステップのいずれかを実行するように構成された実行ハードウェアを備えるコンピュータシステム、および実行されたときに方法ステップのいずれかを実施するように構成された実行可能命令を含むコンピュータプログラムを提供する。

またさらなる態様は、本明細書に開示の方法ステップのいずれかを実施するように構成されたコンピュータシステムに具現化された自律型車両（ＡＶ）プランナ、ならびにこの自律型車両プランナと、この自律型車両プランナに結合し、このＡＶプランナによって生成された制御信号に応答する駆動機構とを備える自律型車両を提供する。

本発明をよりよく理解するため、および本発明の実施形態をどのように実施することができるのかを示すために、以下の図を参照する。

自律型車両コンピュータシステムに実装される機能コンポーネントを示す概略の機能ブロック図を示している。自律型車両の操縦計画に使用することができるゲームツリーの一例を示している。一例による逆計画の特定の原理を示している。一例による逆計画の特定の原理を示している。一例による逆計画の特定の原理を示している。典型的な逆計画法のフローチャートを示している。ＣＣＴＶによって監視される領域における通常の運転挙動をモデル化する空間マルコフモデルの一例を示している。

以下、本発明の典型的な実施形態を詳しく説明する。最初に、本発明へのいくつかの有用な文脈を説明する。

図１が、ＡＶ（自車両）の車載コンピュータシステムＡ１に具現化された特定の機能コンポーネント、すなわちデータ処理コンポーネントＡ２、予測コンポーネントＡ４、およびＡＶプランナＡ６のきわめて概略的な機能ブロック図を示している。

データ処理コンポーネントＡ２は、ＡＶの車載センサシステムＡ８からセンサデータを受信する。車載センサシステムＡ８は、さまざまな形態をとることができるが、一般に、例えば画像取込装置（カメラ）、ライダーユニットなど、衛星測位センサ（ＧＰＳなど）、運動センサ（加速度計、ジャイロスコープ、など）など、周囲環境ならびにＡＶおよびその環境内の他のアクター（車両、歩行者、など）の状態についての詳細な情報を抽出することができる豊富なセンサデータを全体としてもたらすさまざまなセンサを備える。

しかしながら、本技術が、ＡＶ自体の車載光学センサ（画像取込装置、ライダー、など）を使用して取得された画像データなどの使用に限定されないことに、注意すべきである。これに代え、あるいはこれに加えて、本方法は、例えばＣＣＴＶ画像など、ＡＶの近傍の外部の画像取込ユニットによって取得された外部取得センサデータの使用にも適用可能である。その場合、本方法の実施に使用されるセンサ入力の少なくとも一部は、ＡＶによって、１つ以上の無線通信リンクを介して、外部のセンサデータソースから受信されてよい。

データ処理システムＡ２は、センサデータを処理し、センサデータからそのような情報を抽出する。これは、一般に、さまざまな形態の機械学習（ＭＬ）／人工知能（ＡＩ）処理を含む。本文脈に関連するデータ処理システムＡ２の機能は、位置特定（ブロックＡ１０）、オブジェクト検出（ブロックＡ１２）、およびオブジェクト追跡（ブロックＡ１４）を含む。

位置特定は、周囲環境および周囲環境中のＡＶの位置の認識を提供するために実行される。この目的のために、視覚的およびマップに基づく位置特定など、さまざまな位置特定技術を使用することができる。例として、参照によってその全体が本明細書に組み込まれる「車両の位置特定（ＶｅｈｉｃｌｅＬｏｃａｌｉｚａｔｉｏｎ）」という名称の英国特許出願第１８１２６５８．１号明細書が参照される。これは、視覚的検出と所定のマップデータとの組み合わせを使用する適切な位置特定方法を開示している。セグメント化が、周囲の道路構造を検出するために視覚的（画像）データに適用され、周囲の道路構造は、基準のマップフレームにおいて周囲環境の道路および／または他の構造に対するＡＶの正確かつロバストな位置推定を決定するために、ＨＤ（高精細度）マップなどの所定のマップデータと照合され、ＡＶの位置推定は、視覚的およびマップデータをマージすることにより、視覚的検出とマップに基づく推論との組み合わせを通じて決定される。位置推定を決定するために、構造の照合から決定された個々の位置推定が、粒子フィルタリングなどを使用して他の位置推定（ＧＰＳなど）と組み合わせられ、個々の位置推定の精度の変動に対してロバストな基準のマップフレームにおけるＡＶの正確な位置推定がもたらされる。マップ上のＡＶの位置が正確に決定されると、視覚的に検出された道路構造が、所定のマップデータとマージされ、ライブマップの形態の車両の現在および過去の周囲環境の包括的な表現、ならびに基準のマップフレーム内のＡＶの位置の正確かつロバストな推定がもたらされる。本文脈における「マップデータ」という用語は、視覚的（または、他のセンサに基づく）検出を所定のマップデータとマージすることによって導出されるライブマップのマップデータを含むが、所定のマップデータまたは視覚的／センサ検出のみから導出されたマップデータも含む。

オブジェクト検出は、車両、歩行者、および他の外部アクターなど、それらの挙動に対してＡＶが安全に応答できる必要がある環境内の外部オブジェクトの検出および位置特定のために、センサデータに適用される。これは、例えば、３Ｄ境界ボックス検出の形態を備えることができ、環境内のオブジェクトの位置、向き、およびサイズ、ならびに／あるいは自車両に対するオブジェクトの位置、向き、およびサイズが推定される。これは、例えば、ＲＧＢＤ（赤、緑、青、深度）、ＬｉＤＡＲポイントクラウド、などの（３Ｄ）画像データに適用することができる。これにより、そのような外部アクターの位置および他の物理的特性をマップ上で決定することが可能になる。

オブジェクト追跡は、環境内の検出されたオブジェクトの任意の運動を追跡するために使用される。結果は、オブジェクト追跡によって時間に対して決定される各々のオブジェクトの観測されたトレース（τ）である。観測されたトレースτは、移動するオブジェクトの履歴であり、移動するオブジェクトの経路を時間に対して捕捉し、さまざまな時点におけるオブジェクトの履歴の速度、加速度、などの他の情報も捕捉することができる。

オブジェクト検出およびオブジェクト追跡を併せて使用することにより、ＡＶの周囲の決定されたマップ上で外部アクターを包括的に位置特定および追跡することが可能になる。

オブジェクト検出およびオブジェクト追跡は、それ自体は周知であり、さまざまな公衆にとって利用可能な技術水準のモデルを使用して本文脈において実行することが可能である。

位置特定、オブジェクト検出、およびオブジェクト追跡の組み合わせにより、データ処理コンポーネントＡ２は、自車両の周囲環境、その環境内の任意の外部アクターの現在の状態（検出可能な範囲において、位置、進行方向、速度、など）、ならびにＡＶにとって追跡可能であったそのようなアクターの履歴トレースの包括的な表現をもたらす。これは、リアルタイムで継続的に更新され、最新の位置および環境の認識を提供する。

予測コンポーネントＡ４は、この情報を予測分析の基礎として使用し、ＡＶの近傍の外部アクターの将来の挙動に関する予測を行う。適切な予測方法の例が、以下で説明される。

少なくとも１つの確率論的予測を、外部アクターについて決定することができる。これは、例えば、エージェントの可能な操縦の分布Ｐ（Ｍ│τ）および／または可能な目標の分布Ｐ（Ｇ│Ｏ）であってよい（下記を参照）。

Ｏという表記は、一式の観測値を意味する。観測値Ｏは、観測されたトレースτ自体（Ｏ＝τ）であってよいが、Ｏは必ずしもこの点に関して限定されない。例えば、一実施態様において、観測値Ｏは、エージェントの操縦Ｍ_ｊを含み、その場合、Ｐ（Ｇ│Ｍ_ｊ）という表記を（観測値Ｏはさらなるパラメータを含む可能性があるため、おそらくは略記として）使用することができる（操縦をトレースτから推論できることにも留意されたい）。

ＡＶプランナＡ６は、自車両の周囲環境およびこの周囲環境内の外部エージェントに関する抽出された情報を、予測コンポーネントＡ４によってもたらされる挙動の予測と共に、ＡＶ計画のための基礎として使用する。すなわち、予測コンポーネントＡ４による予測分析は、データ処理コンポーネントによってセンサデータから抽出された情報の上に予測情報の層を追加し、これがＡＶプランナＡ６によってＡＶ計画の決定のための基礎として使用される。これは、一般に、階層的計画プロセスの一部であり、ＡＶプランナＡ６は、さまざまな高レベルの決定を行い、次いで高レベルの決定を実施するために必要なますます低いレベルの決定を行う。最終的な結果は、一連のリアルタイムの低レベルのアクションの決定である。これらの決定を実施するために、ＡＶプランナＡ６は、車両の速度および進行方向を（例えば、操舵、制動、加速、変速、などによって）制御するために、ＡＶの駆動機構Ａ１６に少なくとも部分的に入力される制御信号を生成する。また、シグナリングなどの二次的なアクションを実行するための制御信号も生成される。

ここで、本発明の実施形態を、あくまでも例として説明する。

逆計画
定められた目標を安全かつ効果的に実行するために自車両が行うべき操縦、アクション、などのシーケンスの決定などのＡＶ計画の決定においてＡＶプランナＡ６を支援するために、逆プランナＡ５は、本文脈においてエージェントと呼ばれることもある近傍の外部アクターの動きを予測する。逆プランナＡ５は、上述の文脈において適用され得る生成挙動モデルの一例である。

外部アクターの現在の操縦に関する確率論的予測を行うために、逆計画を、操縦レベルにおいて実施することができる。例えば、逆プランナＡ５は、トレースτを含む（または、トレースτから導出される）一式の関連の観測値のセットに鑑みて、「車線維持」、「車線変更」、などの一式の利用可能な操縦Ｍにおける確率分布Ｐ（Ｍ│τ）を予測することができる。操縦レベルにおける逆計画は、（確率論的な）操縦検出の一形態である。

これに代え、あるいはこれに加えて、逆計画は、外部アクターの現在の目標に関する確率論的予測を行うために、目標レベルにおいて実施されてもよい。例えば、逆プランナＡ５は、一式の利用可能な目標Ｇにおける確率分布Ｐ（Ｇ│Ｏ）を予測することができる。例えば、左折を伴う運転シナリオにおいて、目標は、適切な目標位置として捕捉された「左折」目標または「直進継続」目標（すなわち、現在の道路上に留まり、左折をしない）であってよい。目標レベルにおける逆計画は、（確率論的な）目標認識の一形態である。

目標認識および操縦検出は、典型的には、異なる時間尺度で動作する。目標認識は、一般に、操縦検出と比べて、未来へとより長い時間期間を考慮する。例えば、操縦予測が、未来へと数秒（例えば、５ｓ程度）に目を向けることができる一方で、目標認識は、（状況に応じて）これよりもさらに先に目を向けることができる。したがって、目標認識は、一般に、操縦認識よりも長い軌道（すなわち、さらに将来への軌道）を考慮する。

目標を、例えば、自車両がマップ上の現在位置から到達しようと試みているマップ上の（すなわち、基準のマップフレーム内の）所望の位置（基準点）として捕捉することができ、所望の位置は、遭遇した道路レイアウトに関連して定義される。例えば、所望の位置は、特定の合流点、車線レイアウト、ランドアバウト出口、などに関連して定義されてよい。周囲の道路レイアウトおよび任意の外部アクターに鑑み、所望の位置に到達することによってその目標を成功裏に実行するために車両がとることができるさまざまな経路／アクションが存在すると考えられる。また、自車両がそのようにすることを妨げる自車両アクションも存在すると考えられ、例えば、初期アクションのシーケンスの選択が良好でないと、目標を実行し続けると不安全になりかねない場合に外部アクターの挙動に起因して車両が望ましくないランドアバウト出口を取らざるを得なくなり、あるいは他のかたちで目標を中断する結果となり得る。外部アクターの挙動に関する信頼できる予測を計画に組み込むことは、ＡＶプランナＡ６による安全かつ効果的な計画に役立ち、目標の中断の発生を最小限に抑える。

目標レベルにおいて実施される場合、逆計画は、各々の外部エージェントについてさまざまな可能な目標を仮定し、次いで、エージェントが各々の目標をどのように達成することができるかについての軌道、および各々の軌道をたどる可能性を生成する。根底にある仮定は、各々の外部エージェントが生成モデルを使用して予測することができるやり方で行為することである。

本文脈における逆計画は、ＡＶ予測コンポーネントＡ４によって実施され得る特定の種類の予測方法を指す。すなわち、逆計画法は、外部アクター、とりわけ他の車両の挙動を、外部アクターが予測可能な様相で計画すると仮定することによって予測する特定の方法である。

「逆計画」という用語は、外部アクターが自身の決定を予測可能なやり方で計画するというこの根底にある仮定を指す。より形式的には、仮定することができる生成モデルによって他の車両が計画および実行を行うことが想定される。

ここで、逆計画法を、本方法のフローチャートを示す図２を参照して説明する。これは、目標レベルにおける逆計画を考慮するが、根底にある原理は、操縦レベルにおける逆計画にも等しく当てはまる。本方法のステップは、充分に最新の予測がＡＶプランナＡ６に常に利用可能であるように、逆プランナＡ５によってリアルタイムまたは疑似リアルタイムで繰り返し実行される。本方法は、データ処理システムＡ２によってもたらされる情報、すなわち、周囲の環境／道路レイアウト、環境内の任意の他のアクターの位置／状態、およびオブジェクト追跡を通じて観測されるそれらのアクターのトレースに関する情報を利用する。

以下のステップは、検討中の１つ以上の外部アクター（車両、歩行者、サイクリスト、など）の各々について実行され、それらのアクターは、以下の例ではＡＶ以外の車両である。

ステップＳＢ２において、対象の他の車両について、仮定された目標の組が決定される。他の車両は、これらの目標のうちの１つを現在実行していると仮定される。仮定された目標の適切な組を決定するために、他の車両の近傍の道路レイアウトなど、運転の文脈が決定される。

外部エージェントの目標は、一般に、マップに基づいて仮定される。例えば、マップ上に示された道路合流点、ランドアバウト、または他の道路レイアウト（運転の文脈）の近傍の外部車両の組に鑑みて、適切な目標を、（エージェントの観測された過去の挙動を考慮することなく）道路レイアウトのみから仮定することができる。一例として、他の車両が現在、近くに交差点がない複数車線を走行しているとすると、仮定された目標のセットは、「車線を維持する」及び「車線を変更する」で構成されていてもよい。もう一つの異なる例として、左折合流点の近傍の外部エージェントの組において、仮定される目標は、左折および直進の継続であってよい。示されるように、そのような目標は、マップ上の適切な基準点を参照して定められる。

しかしながら、目標は、さまざまなやり方で仮定されてよい。例えば、観測された過去の挙動（時刻ｔに先立って観測されたトレースなど）を、外部エージェントの目標を仮定する際に考慮することができ、あるいはマップに基づく推論と過去の挙動に基づく推論との組み合わせを使用して、目標を仮定してもよい。

利用可能な目標を仮定するために過去の挙動が使用されない場合でも、過去の挙動が、それにもかかわらず、それらの目標の各々の可能性を決定するために使用されることに留意されたい（下記を参照）。

仮定された目標の組を決定すると、それらの目標の各々について、以下のステップが実行される。

ステップＳＢ４において、対象の仮定された目標について、予想軌道モデルが決定される。予想軌道モデルは、他の車両の将来の挙動を、その車両がその特定の目標を実行しているという仮定に基づいて、シミュレートするモデルである。とくには、予想軌道モデルは、他の車両が、所与の期間Δｔ（時刻ｔから時刻ｔ＋Δｔまで）において、その期間においてその目標を実行していると仮定して、特定の経路（軌道）をとる可能性がどれだけ高いかを示す。示されるように、車両が実行している目標は、マップに基づいて終点によってパラメータ化され得る。例えば、目標が（例えば、左折するのではなく）直進である場合、終点は、同じ車線内の車両の前方の例えば４０ｍなどの所定の距離の道路上の点であってよい。あるいは、例えば複数車線のシナリオにおいて、目標位置は、特定のレーンを指定せずに前方の道路に沿った或る程度の距離であり得る（さらなる詳細については、以下を参照）。

予想軌道モデルは、単に所与の目標のための（単一の）予測経路であってよいが、この例では、対象の目標のための予測経路分布の形態をとる。予測経路分布は、この例では、時刻ｔにおける外部車両の位置ｒ_ｔに鑑みて、対象の目標のためのｎ個の予測経路の離散セットを合成することによって、各々の目標についてもたらされ、少なくとも時間区間Δｔにおける予測経路分布をもたらす。

例として、図３Ａが、特定の外部車両について予測された目標Ｇ１およびＧ２のそれぞれのための予測経路のそれぞれの組Ｐ_Ｇ１、Ｐ_Ｇ２を示している。目標Ｇ_１、Ｇ_２は、マップ上の点または領域であってよい基準のマップフレーム内の基準位置Ｒ_１、Ｒ_２に対してそれぞれ定義される。時刻ｔにおける外部車両の位置ｒ_ｔおよび各目標の基準点Ｒ_１、Ｒ_２に鑑みて、予測経路セットＰ_Ｇ１、Ｐ_Ｇ２は、それぞれ目標Ｇ_１、Ｇ_２について合成される。

この例では、各目標は単に単一の基準点／領域に関して定義されているが、理解されるように、目標は、例えば状況に応じて複数の基準点を参照して、他のやり方で定義することが可能である。一般に、目標は、１つ以上の目標パラメータの組によって定義され、１つ以上の目標パラメータは、一般に、自動運転の文脈における基準のマップフレームにおいて定義される。基準のマップフレーム内の基準位置は、目標パラメータの一例であり、そのような基準位置に関するすべての説明は、他の種類の目標パラメータにも等しく当てはまる。

左折の例に続いて、他の車両が「直進」目標を実行した場合に取ることができると予測される経路である「直進」目標のための１組の経路が生成され、他の車両が「左折」目標を実行した場合に取ることができると予測される経路である「左折」目標のための別の１組の経路が生成される。

生成モデルを使用して、これらの経路を合成することができる。根底にある仮定は、他の車両がこのモデルを使用して計画および実行することである。そのモデルは、（他の車両が自車両と同じやり方で計画すると仮定して）ＡＶプランナＡ６自体に対応することができるが、ＡＶ自身のプランナとは違ってもよい。

例えば、経路を、高速探索ランダムツリー（ＲＲＴ）モデルを使用して各目標について合成することができる。図３Ａの例に従って、各目標Ｇ_１、Ｇ_２について、予測経路の空間（探索空間）が、その目標の基準位置（それぞれＲ_１、Ｒ_２）および外部車両の現在位置ｒ_０に基づいて定義される。次いで、ｎ個の経路の組、およびそれらの経路の各々の尤度を決定するために、探索空間が（ランダム化された入力パラメータに基づいて）ランダムにサンプリングされる。各目標についてｎ個の経路をシミュレートするために、ＲＲＴの関連パラメータは、探索空間のｎ個の適切にバイアスされたランダム探索を実行するために、ｎ回ランダム化される。

例として、参照によってその全体が本明細書に組み込まれる「安全な移動の計画のための衝突確率の効率的な計算（Ｅｆｆｉｃｉｅｎｔｃｏｍｐｕｔａｔｉｏｎｏｆｃｏｌｌｉｓｉｏｎｐｒｏｂａｂｉｌｉｔｉｅｓｆｏｒｓａｆｅｍｏｔｉｏｎｐｌａｎｎｉｎｇ）」という名称の英国特許出願第１８０３２９２．０号明細書が、逆計画を実施するために本文脈において使用することができるＲＲＴモデルを開示している。所与の軌道に沿った衝突の確率的リスクが計算され、安全性によって候補軌道を順位付けするために使用される。これは、対象の目標を実行するために外部車両がより安全な経路をとる可能性が高いという仮定に基づいて、各々のサンプリングされた経路の尤度をもたらす。すなわち、経路の確率を、安全性への仮定された関係に基づいて決定することができる。サンプリングされた経路およびそれらの確率は、軌道モデルの一例である。

しかしながら、これは適切な生成モデルの一例にすぎず、生成されたモデルの他の形態も使用することができる。代替の軌道モデルの例が、後述される。

そのような一例は、観測されたトレースおよび実行されるべき目標に鑑みて経路予測モデル（例えば、予測経路または予測経路の分布）を出力するように訓練されたニューラルネットワークに基づくモデルである。ネットワークは、現実世界の運転挙動の例に基づいて訓練される。例えば、ニューラルネットワークを、都市運転環境において取得されたＣＣＴＶ（閉回路テレビ）データの大規模なコーパスから抽出された例に基づいて訓練することができる。

別の例は、充分な時間期間にわたって運転領域を監視することによって特定の運転領域について予め決定され得る空間マルコフモデル（または、同様のモデル）である（上記を参照）。

一般に、逆プランナＡ５は、異なる仮定された目標に関して推論することができる任意のモデルであってよい。

ステップＳＢ６において、時間期間Δｔ（すなわち、時刻ｔとｔ＋Δｔとの間）にわたって実際に観測された他の車両のトレースが、その時間期間Δｔの対象の目標に関する経路の分布と照合され、その目標の尤度が決定される。

例として、図３Ｂが、時刻ｔとｔ＋Δｔとの間の対象の車両の実際に観測されたトレースτを示している。実際のトレースτを目標Ｇ_１、Ｇ_２の各々についての予測経路分布（図３Ａ）と照合することによって、各々の目標Ｇ_１、Ｇ_２の尤度を、時間区間Δｔについて確率的に決定することができる。これは、ソフトマッチングの形態であってよい。目標尤度を、外部車両の観測されたトレースτに鑑みて、仮定された各目標Ｇ_ｉの条件付き確率、すなわちｐ（Ｇ_ｉ│τ）として捕捉することができ、これは、観測されたトレースτに鑑みて外部車両が時間区間Δｔにおいてその目標Ｇ_ｉを実行していた推定確率である。

換言すると、逆プランナＡ５は、仮定された目標の各々について、他の車両が時間区間Δｔにおいてその目標を実行していたと仮定して、他の車両がその時間期間において取ることができた一式の可能な経路およびそれらの経路の各々の尤度（すなわち、他の車両がその目標を実行していた場合に時間区間Δｔにおいて何を行ったと考えられるか）を予測するために使用される。次いで、これが、その時間期間における他の車両の実際のトレース（すなわち、他の車両が実際に何を行ったか）と比較され、時間期間Δｔの各目標の尤度が決定される。

図３Ｃを参照すると、今や観測されたトレースτに鑑みて各目標の尤度が既知であるため、観測されたトレースτに鑑みた時刻ｔ＋Δｔの後の任意の所与の予測経路（軌道）Ｔの（絶対）尤度を、例えば

と決定することができ、ここで、ｐ（Ｇ_ｉ│τ）は、上述のように定義され、時刻ｔ＋Δｔにおける目標Ｇ_ｉの経路分布に鑑みてエージェントが経路Ｔをとる推定確率である。なお、表記「Δｔ」と「ΔＴ」とは本明細書において同等である。また、軌道を表すために使用される数学的表記（小文字または大文字のギリシャ文字「タウ」、すなわちτ、Τ）と、時間を表すために使用される表記（小文字または大文字のラテン「ティー」、すなわちｔ、Ｔ）との間の区別にも留意されたい。

軌道は、単純な空間経路であってよいが、説明は、運動情報（速力／速度情報、加速度、など）を取り入れる軌道にも等しく当てはまる。後者の場合、２つの軌道が同じ空間経路に対応する（あるいは、軌道の少なくともそれぞれの一部分が同じ空間経路に対応する）場合もあるが、それにもかかわらず、それらは、例えば異なる速度情報に関連付けられている（例えば、一方が、実質的に同じ空間経路に沿って移動しているが、少なくとも空間経路に沿ったいくつかの地点において速度がより遅い車両に対応する）がゆえに、異なる軌道であり得る。例えば、軌道は、関連の速度あるいは空間経路のそれぞれの地点または部分に関連付けられた一式の速度と組み合わせられた空間経路の形態をとることができる。拡張は、関連の加速度値などをさらに取り入れることができる。

図には示されていないが、ｐ（Ｔ│Ｇ_ｉ）を決定するための時刻ｔ＋Δｔにおける経路分布は、それ自体は、例えば、上述のように目標Ｇ_ｉについて時刻ｔ＋Δｔにおいて逆プランナＡ５を、新たに決定された時刻ｔ＋Δｔにおける外部エージェントの位置ｒ_ｔ＋Δｔで再実行することにより、予想軌道モデルを相応に更新することによって決定することができる。目標パラメータは、逆プランナＡ５を再実行する目的で、この時点において更新されても、更新されなくてもよい。データ駆動挙動モデルが使用される場合、同様に、挙動モデルを、予想軌道モデルを更新するために、その時点で再実行することができる。

上述のステップは、おそらくはリアルタイムで、時間につれて繰り返し実行される。目標への到達から或る程度遠い外部エージェントについては、異なる目標への経路分布が最初は類似しており、これが仮定された目標の組における確率の分布に反映されるため、どの目標を実行しているかを最初は明確に決定することができない可能性がある。経路分布が発散するにつれて、確率分布は、一般に、経路分布の発散につれて特定の目標に向かって傾き始める。

操縦の逆計画
上記は、目標の逆計画を考慮している。示されるように、逆計画を、操縦レベルにおいて、仮定された操縦Ｍの組について実施することもできる。

例えば、他の車両が現時点において近くに分岐点のない複数車線の道路を走行している場合、仮定された操縦Ｍの組は、「車線維持」および「車線変更」で構成され得る。その場合、他の車両が「車線維持」操縦を現時点において実行している場合に取ることができると予測される経路である「車線維持」操縦のための１組の経路が生成され、他の車両が「車線変更」操縦を実行している場合に取ることができると予測される経路である「車線変更」操縦のための別の１組の経路が生成される。上述の説明は、操縦レベルの逆計画に、仮定された目標Ｇの組の代わりに仮定された操縦Ｍの組を用いて、等しく当てはまる。

操縦レベルの逆計画に関して、外部エージェントの観測されたトレースτを使用して、可能な操縦Ｍの組の各々の操縦Ｍ_ｊ∈Ｍの確率を推定することができる。各々の操縦Ｍ_ｊ∈Ｍについて、図３Ａのように、予測軌道モデルが時刻ｔについて決定される。予測軌道モデルは、単一の軌道または軌道分布であり得る。次いで、実際の観測されたトレースτを各々の操縦Ｍ_ｊの軌道モデル（図３Ｂのような）と比較することによって、その操縦の確率Ｐ（Ｍ_ｊ│τ）を、観測されたトレースτがその操縦Ｍ_ｊの軌道モデルにどの程度一致するかに基づいて推定することができる。上述のように、これは、ソフトマッチングの形態であってよい。

以下の例では、計算を単純にするために、各々の操縦Ｍ_ｊは、逆計画の目的に関して単一の軌道にマッピングされる。軌道分布に関連する操縦の場合、分布のうちの最頻の軌道または最も可能性の高い軌道を、逆計画の目的のために採用することができる。その場合、単一の軌道Ｔ_ｊが存在すると仮定され、したがって
Ｐ（Ｔ_ｊ│Ｍ_ｊ）＝１
であり、他のすべての軌道の確率は、０であると仮定される。

上記で使用された表記法は、所与の操縦Ｍ_ｊに関連する軌道Ｔ_ｊと、所与の目標Ｇ_ｉに関して評価された軌道Ｔとを区別する。

目標Ｇ_ｉに到達するために、外部エージェントは、例えば（Ｍ_ｊ、Ｍ_ｋ、・・・）などの操縦のシーケンスを実行することができる。その場合、全体的な目標軌道（すなわち、目標Ｇ_ｉに到達すること）は、個々の操縦Ｍ_ｉ、Ｍ_ｊに関連する操縦軌道の組み合わせとして決定され得る。例えば、以下で説明される実施態様では、目標軌道は、操縦軌道を組み合わせ、それに速度平滑化を適用することによって決定される。この理由で、操縦Ｍ_ｉに関連付けられた（または、関連して評価された）軌道Ｔ_ｉは、「部分軌道」と呼ばれる場合があり、目標に関連付けられた（または、関連して評価された）軌道Ｔは、「完全軌道」と呼ばれる場合がある。

特定の目標Ｇ_ｉまでの複数の軌道が考慮される場合、表記Ｔ^（ｎ）を、Ｔの代わりに、目標Ｇ_ｉまでのｎ番目の軌道を指して使用することができる。

部分軌道と操縦との間の「１対１」の関係というこの上述の単純化の仮定は、より少ない計算負荷で許容可能な性能をもたらすことが明らかになっている。しかしながら、軌道と操縦との間の「１対１」の関係というこの単純化の仮定を行わない代案の実施態様が、それにもかかわらず実行可能である。この単純化の仮定がない場合、より一般的なベイズ静止関係

が成り立ち、ここで、ｐ（Ｔ_ｋ│Ｍ_ｊ）∈［０，１］が、操縦Ｍ_ｌに鑑みた部分軌道Ｔ_ｊの確率である。その場合、最頻／最も可能性の高い部分軌道を仮定するのではなく、代わりに部分軌道をｐ（Ｔ_ｊ│Ｍ_ｌ）からサンプリングすることができ、最頻／最も可能性の高い部分軌道に関する本明細書のすべての説明は、その場合のサンプリングされた軌道に等しく当てはまる。

逆計画－典型的な実施態様
さらなる例示として、ここで、目標認識のための逆計画の典型的な実施態様をさらに詳細に説明する。これは、目標レベルで逆計画を使用して、少なくとも１つの外部エージェントの一式の利用可能な目標Ｇの確率分布Ｐ（Ｇ│Ｏ））を予測し、すなわち利用可能な目標の各々について、エージェントが現時点においてその目標を実施している推定確率を予測する。

さらに、記載された実施態様は、確率論的操縦検出を使用して、外部エージェントの観測されたトレースτに鑑みて一式の可能な操縦Ｍの分布Ｐ（Ｍ│τ）を予測し、すなわち可能な操縦の各々について、エージェントが現時点においてその操縦を実行している推定確率を予測する。操縦予測は、後述されるように、目標予測に供給される。操縦検出を、例えば、操縦レベルで逆計画を使用して実施することができる。

換言すると、説明した実施態様は、操縦レベルおよび目標レベルの両方で推論する。

目標認識
目標認識は、エージェントの過去のアクションの観測および他の文脈上の情報に鑑みて、エージェント（以下の例ではターゲット車両であるが、上述したように別の形態のアクターであってもよい外部アクター）のエージェント目標を推論するプロセスである。

本文脈において、目標は、典型的には、高速道路／ジャンクション上のさまざまな出口点あるいは異なる車線など、逆プランナＡ２４が推論する車両の目標の目標位置を指定する。別のエージェントの目標を知ることにより、仮定された目標に関連するエージェントの挙動について予測を行うことができるため、計画プロセスに情報を提供することができる。

目標認識を使用すると、ＡＶシステムの「説明可能性」も増す。説明可能性とは、その決定を人間に説明するシステムの能力を指す。目標推論プロセス（さまざまな時点において自車両が他の車両の目標と信じたもの）を記録することにより、決定のトレースおよびデバッグのための解釈可能な情報を提供することができる。

目標は、決定論的または確率論的に推論され得る。以下の例において、目標は、一式の関連の観測値Ｏに鑑みて確率論的に推論され、すなわち目標事後Ｐ（Ｇ│Ｏ）が、有限の一式の利用可能な目標Ｇについて推定され、Ｐ（Ｇ_ｉ│Ｏ）は、観測値Ｏに鑑みて外部エージェントが目標Ｇ_ｉ∈Ｇを有する確率である。

ＭＣＴＳの文脈において、目標は、ツリーが上述の意味でロールアウトされるときに外部アクターの将来の軌道に関する合理的な予測を行うために、確率的に推論される。

操縦および目標
最初に、利用可能な目標および操縦を決定するための典型的なスキームが説明される。この説明は、後述される逆計画の特定の実施態様への関連の文脈を提供する。しかしながら、説明は、これに関して限定されず、逆計画／目標認識の代案の実施態様および目標認識を使用しない実施態様（例えば、より高いレベルの目標認識を伴わないデータ駆動の挙動モデルを使用する上述の例）を含むＭＣＴＳの他の実施態様にも、等しく当てはまる。

マルチポリシーベースライン
「マルチポリシー法」が、ベースラインとして使用される。マルチポリシー法の根底にある仮定は、自車両を含むすべての車両（または、より一般的には、外部アクター）が、車線維持、車線変更、方向転換、などの有限数の操縦のうちの１つをいつでも実行していることである。そのような操縦は、本明細書において、「操縦ポリシー」と呼ばれることもある（操縦ポリシー、すなわち、有限の一式の操縦のうちの操縦と、選択された操縦ポリシーを実行するために使用され得るアクションポリシーとの間の区別に注意されたい；本明細書において操縦について英国式／米国式の綴りが互換的に使用されることにも注意されたい）。

「ターゲット」アクターは、その挙動が予測されている外部アクターを意味する。予測を、１つまたは複数のターゲット車両（または、他のアクター）について行うことができ、上述の一連の仮定が、各々のターゲットアクターに適用される。先行の段落における操縦ポリシーの例は、実際には「閉ループ」であり、すなわちセンサフィードバックを考慮に入れて、速度および先行車両（先行車両はターゲット車両が追従している車両である）までの距離を自動的に変更する。しかしながら、以下で説明されるように、逆計画の目的のために、それらを、計算効率の向上という利点を有し、逆プランナＡ２４の性能に大きな影響を与えることがない「開ループ」操縦としてモデル化することができる。以下の例において、ターゲット車両および先行車両は自動車であるが、説明は、あらゆる形態のアクター（車両、歩行者、サイクリスト、など）に等しく当てはまる。同様に、この例は、自律型の自動車（自車）を考慮しているが、説明は、任意の形態の自律型車両に当てはまる。

操縦検出は、上述したやり方で操縦レベルでの逆計画を実施することができる。

別の例として、予測コンポーネントＡ４の分離している操縦検出器１１０２は、ベイズ変化点検出を実施することができる。この方法は、ターゲット車両の観測された低レベルの軌道を操縦のシーケンスへとセグメント化するために使用され、最新のセグメントが、自動車の現時点において実行されている操縦の予測として使用される。この予測を使用して、いくつかの前方軌道が、自車に利用可能な各々の操縦についてシミュレートされ、最良の評価を有する操縦が、実行のために選択される。これは、次に、以下の例の目標レベルの逆計画に反映される。

ベイズ変化点検出は、それ自体は公知であり、システムの根底にある隠れ状態の変化の確率論的検出を指す。本文脈において、特定の時刻における外部アクターの隠れ状態は、その時点において実行中の操縦ポリシーとして定義される。この隠れ状態は、直接的に観測することは不可能であり、したがって、この例においては観測されるトレースである隠れ状態が引き起こす観測値を通じて、推論される必要がある。これにより、現時点における各々の利用可能な操縦の確率、すなわち外部アクターが現時点においてその操縦を実行している確率を、推定することができる。

例えば、隠れマルコフモデル（ＨＭＭ）を使用し、操縦をＨＭＭの隠れ状態として表すことができ、観測されたトレースは、ＨＭＭの状態遷移から生じるものとしてモデル化される。

以下で説明されるように、計画プロセスを大幅に単純化するために、操縦ポリシーの比較的小さな組を定義することが可能である。操縦ポリシーは、速度および距離などの低レベルの計画を包含するように定義されるため、そのような小さな組を定義することが可能である。同様に、他の車両がこれらの同じポリシーのうちの１つを実行していると仮定されるため、それらの現在の操縦を、低レベルの軌道に鑑みて効率的に推論することができる。

このマルチポリシー法自体は、他の車両の現在の操縦を予測するだけであり、それらの将来の操縦を予測しようとはしないという点で、近視眼的である。逆計画は、後述されるように将来のアクションを予測するためにこの方法に基づいて構築される。

操縦
基本操縦
操縦は、計画および予測に使用される基本アクションを表す。以下の「基本」（基本的な）操縦が、この例において考慮される。

・車線維持
・左右の車線変更
・右左折（進行方向に最も近い車線へと向かう）
・停止／警戒
記載された技術を、他の操縦またはさらなる操縦へと拡張できることを、理解できるであろう。

各々の基本操縦は、それぞれに関する特定の適用可能性および終了条件を有する。操縦は、所与の状態において、その状態が操縦の適用可能性条件を満たす場合に限り、利用可能である。例えば、左への車線変更は、車両の左側に車線があり、その車線に車両のための充分な空きスペースがある場合にのみ可能である。さらに、適用可能性条件は、交通規則をエンコードすることもできる。状態が終了条件を満たす場合、操縦は終了する。車線変更の操縦の場合、これは、ひとたび車両がその車線に達し、車線方向に整列した場合である。

操縦の開始と終了との間で、操縦は、自車が辿るべき基準経路および経路における目標速度を指定する。本文脈において、軌道が、ペア（静的基準経路，目標速度）と定義される。すなわち、静的基準経路に関の一連の目標速度を加えたものとして定義される（上記を参照）。

しかしながら、一般に、操縦には複数の軌道が関連付けられる。例えば、予測の文脈において、操縦に軌道分布、すなわち各々が指定された確率（すなわち、外部アクターが、現時点においてその操縦を実行していると仮定して、その軌道を辿る確率）を有している軌道の組を関連付けることができる。

車線維持および警戒などのいくつかの操縦は、自然な終了条件を持たない。そのような操縦の場合、終了条件がパラメータとして指定される。「マクロアクション」（下記を参照）が、文脈情報に基づいてこれらのパラメータを自動的に設定する。

警戒の操縦は、マクロアクションで使用される停止操縦の変種である。警戒は、車両を減速させ、パラメータとして与えられた指定された場所へと移動し続ける。その場所において、操縦は、終了条件が満たされたならば終了し、そうでない場合には、車両を完全に停止させ、次いで終了条件が満たされた場合に終了する。終了条件は、（パラメータとして与えられる）指定された車線における接近交通をチェックするために使用される。車線が指定されていない場合、終了条件は常に真である。これにより、接近交通が存在する可能性があるときに安全かつ円滑な進入／脱出を計画することができる。

出口左右マクロのみを警戒する特別な場合として、接近車両が停止し、少なくとも制御された車両が向きを変える操縦を完了させるために必要な時間にわたって停止したままであると予測される場合、強制終了が可能にされる。これにより、後述されるシナリオ３のような特別な場合が可能になる。

基本操縦のいくつかは、追加のパラメータを有し、あるいは向きを変える操縦などのきわめて特定の場所でのみ可能であるため、マクロアクション内でのみ使用される。

以下の例は、２種類の基本操縦を使用し、すなわち逆計画（予測）、より一般的には図１の目標認識コンポーネントＡ２４による目標認識のための開ループ操縦、およびＡＶのプランナＡ６におけるＭＣＴＳ自己計画のための閉ループ操縦を使用する。これらは、以下の箇所で詳述される。

閉ループ操縦
基本操縦は、センサからのフィードバックを使用する場合、閉ループである。これは、操縦におけるさまざまな程度の自動化をカバーし得る。ここで、各々の閉ループ操縦は、車両の速度および先行車両までの距離を自動的に制御する（アダプティブクルーズコントロール（ＡＣＣ）の一形態）と仮定される。また、各々の操縦は、自動的に緊急ブレーキを開始できると仮定される。

システムは、操縦の具体的な実施態様について不可知であり、本質的に操縦を「ブラックボックス」機能と見なす。これは柔軟性の利点を有し、さまざまな表現を単刀直入に組み込むことを可能にする。可能な実施態様として、以下が挙げられる。

・有限状態機械または任意のプログラミング論理を使用するハードコードされたヒューリスティック
・運動学的自転車モデルによって定義された運動プリミティブを使用する格子経路プランナ
・制約最適化プランナ
上記リストの計画方法を、それらを閉ループにするために、状態変化後に繰り返し呼び出すことができる。

開ループ操縦
閉ループ操縦とは対照的に、開ループ操縦は、センサフィードバックを使用しない。開ループ操縦は、基準経路（または、経路についての分布）を指定し、これらの経路をフィードバックで修正することを試みない。これにより、操縦のより単純かつ計算コストの低い実装が可能になる。

やはり、システムは、開ループ操縦の表現について不可知である。

開ループ操縦を実施する簡単であるが効果的な方法は、道路のトポロジから抽出された一式の点に多項式関数を適合させる。目標速度を、一定または他の時系列に設定することができる。これは、軌道の分布ではなく、むしろ１つの軌道を計算し、これは、多くの実際の文脈において充分であることが明らかになっている。

別の実施態様は、収集された運転軌道へとガウス過程またはニューラルネットワークなどの上述の種類の挙動モデルを使用する。この軌道データは、さまざまなやり方で生成され得る。

・シミュレーションにおいて、さまざまな状況下で、対応する閉ループ操縦を使用する。

・ＡＶプラットフォームで生成された実際の運転データから。

・認識された操縦へとセグメント化される実際のＣＣＴＶデータから。例として、図１３が、時間につれてＣＣＴＶ映像において観測された軌道へとフィットさせたガウス軌道モデル１２０２の例を示している。

警戒の操縦において使用される「接近交通がなくなるまで待つ」などの条件は、条件が真であると予測されるまで（例えば、交通がなくなると予測されるまで待つ）指定された時間にわたって待つことによって、開ループ操縦において実現することができる。

目標速度および速度平滑化
上述したように、この例において、軌道は、一連の目標速度と組み合わせられた静的経路として定義される。

目標速度は、基本操縦の内部で設定される。一般原則として、車両が特定の領域において特定の速度（例えば、速度制限）で走行しようとすると（例えば）仮定することができる。この目標は、前方に速度の遅い車が存在する場合（この場合、その車の速度が新たな目標である）や、走行経路の曲率などのために必要である場合に減らされる。

開ループ車線維持の場合、目標速度は、
ｍｉｎ（制限速度、存在するのであれば前方の車の速度）
に設定される。

その単純さゆえに、この方法は、安価に計算することができるが、衝突する他の車両の予測軌道をもたらす可能性がある。例えば、下記のシナリオ１において、トラックが制限速度で直進を続ける（前方に車両が存在しないため）と予測され、制限速度での車両２による追い越し（追い越しのうちの車線維持部分における）も想定される。車両２の逆計画が実際にはトラックについて一定の速度を仮定したため、車両２の予測軌道およびトラックの予測軌道が衝突する可能性がある。しかしながら、この場合、および他の多くの場合に、この不一致は自車のプランナＡ６にとって問題を引き起こさないことが明らかになっており、この単純な方法の予測出力を使用して、安全かつ効果的な計画決定を依然として行うことができる。

湾曲した軌道（例えば、旋回および車線変更）を生成する基本操縦において、目標速度は、局所的な曲率に基づき、ヒューリスティックを使用して設定される。この関数が、以下に示され、ここでｖ_{ｔａｒｇｅｔ}が目標速度であり、ψは点曲率である。他の項は、適切な値に設定された定数である。

ｖ_{ｔａｒｇｅｔ＝ｍａｘ}（ｖ_ｍｉｎ，ｖ_ｍａｘ－ｃψ）
点曲率は、以下の式によって与えられ、ここでｘおよびｙはデカルト座標である。ｘおよびｙの導関数は、有限差を使用して車両の目標経路から推定される。

速度平滑化
速度は基本操縦の内部で設定されるため、２つの後続の操縦が、速度の急激な変化を有する可能性がある。典型的な例は、車線維持に続く旋回操縦である。

この影響を補償するために、異なる操縦にまたがる結果としての全体の軌道を速度について平滑化して、制御および現実性を改善することができる。所与の軌道における目標速度を最適化する速度平滑化関数が使用される。速度平滑化は、予測（逆計画）およびＭＣＴＳ自己計画の両方に使用される。

速度平滑化は、与えられた経路に沿った軌動における最適化問題として定式化される。長手方向位置における点の集合

およびそれらのそれぞれの目標速度

を仮定し、連続的かつ微分可能な関数κ：ｘ→ｖがフィットされる。次いで、タイムホライズンＴ_Ｈ（これは、例えば、目標速度を使用して推定することができる）、２つの時点間の経過時間Δｔ、および他の最適化パラメータ（例えば、最大速度ｖ_ｍａｘおよび加速度α_ｍａｘ）を考慮して、平滑化問題は次のように定義される。

Ｎ＝［Ｔ_Ｈ／Δｔ］
この問題の解から、空間的に再サンプリングを使用して、

において実際に達成可能な値を得ることができる。最後の達成可能な位置は、ｘ_Ｎによって与えられる。

の場合、この解のみから再サンプリングが可能である。

あるいは、ｘ_Ｎから開始して同様の問題を解くことができ、この手順を、条件が達成されるまで繰り返すことができる。

また、問題の拡張として、加速度などの軌道に関連する他のパラメータをモデル化し、そのようなパラメータに制約を課すことも可能である。

速度平滑化は、完全な停止を表す入力軌道の速度ゼロを尊重すべきである。これを達成する単純なやり方は、軌道を停止事象（速度ゼロ）によって分離されたセグメントに分割し、各セグメントに平滑化関数を適用することである。

マクロアクション
本明細書において「マクロアクション」と呼ばれる特別な種類の操縦は、２つの重要なやり方、すなわち共通の操縦シーケンスを指定すること、およびコンテキスト情報（通常は、道路レイアウト）に基づいて基本操縦の自由パラメータを自動的に設定することで、プランナを楽にする。

この例では、以下のマクロアクションが使用される（括弧内に操縦パラメータが示されている）。

・車線を継続：シーケンス＜車線維持（可視の車線の終わり、すなわち車線の終わりまで）＞を指定する。

・左右の脱出：シーケンス＜車線維持（曲がる地点／その付近まで）、警戒（接近交通がなくなる／安全な距離になるまで）、左折／右折＞を指定する。出口点は、自車の目標に対応する出口点となるように自動的に設定され、マクロアクションがより早い出口点をスキップすることを可能にする（これは、ランドアバウトで特に有用である）。

・交差道路：シーケンス＜車線維持（道路横断／その付近まで）、警戒（交差道路からの接近交通がなくなる／安全な距離になるまで）、車線維持（道路横断後まで）＞を指定する。

・追い越し：シーケンス＜右車線変更、車線追従（自車が他車を過ぎるまで）左車線変更＞を指定する。

マクロアクションの適用可能性の条件は、マクロアクションにおける第１の操縦の適用可能性の条件、および場合によっては追加条件によって与えられる。例えば、＜左脱出＞の追加条件は、車が進行方向における最も右側の車線にあり、かつ目的とする出口点が車の前方の同じ車線にあることである。＜交差道路＞の追加条件は、自車が別の車に道を譲らなければならない道路交差が存在することである（後述のシナリオ３を参照）。マクロアクションの終了条件は、マクロアクションにおける最後の操縦によって与えられる。

マクロアクションは、単一のマクロアクションで所与の目標を充分に達成できるため、計画および予測プロセスを大幅に高速化することができる。例えば、後述のシナリオ２において、自車の目標がＧ３である場合、単一のマクロアクション＜右脱出＞ですでに目標を達成できると考えられる。また、マクロアクションは、本来であれば明示的に計画される（例えば、車線維持などの操縦のオープン終了条件を設定する）必要がある操縦間の切り替え点を自動的に処理するがゆえに、有用である。

この研究において使用されるマクロアクションは、分解可能なアクションの階層を定義せず、単にアクションのシーケンスを柔軟なやり方で定義する。マクロアクションは、計画探索空間に暗黙的に含まれる。

上述したように、以下で説明される特定の典型的なＭＣＴＳプロセスに関して、マクロアクションにおけるすべての基本操縦は、閉ループであり、逆計画の場合、すべての基本操縦は開ループである。

目標および目標生成
自車の目標
自車の目標は、ルート計画に基づいて生成される。ルートプランナ（Ａ２５、図１）が、注釈付き道路マップ（車線方向、交通標識、などが注釈付けされている）および開始／終了位置を入力として取得する。ルートプランナは、自車が走行しなければならない道路セグメントおよび方向のシーケンスを指定する開始位置から終了位置までのルートを計算する。このルートが、プランナＡ６に渡され、以下のように自車の目標を生成するために使用される。

概念的には、プランナＡ６は、以下に示されるシナリオ写真と同様に、自車を中心とするビュー領域（例えば、正方形または円形あるいは任意の適切な形状）にてマップを「ズームイン」する。このビュー領域は、自車と共に継続的に移動する。任意の時点において、自車の目標は、（車が現在の道路から接続道路へと乗り換える必要がある）ルートにおける次の出口点によって与えられ、ルートにおける次の出口点がまだ見えていない場合には、現在の車線の可視端によって与えられる。例えば、後述のシナリオ１において、次の出口点は見えないため、目標はＧ１である。後述のシナリオ２においては、出口点が見えるようになり、新たま目標はＧ３になる。

他車の目標
別の車の目標は、例えば、自車のビュー領域によって境界付けられ、その車にとって可能な出口点およびその車の方向の道路の可視端として定義され得る。ヒューリスティック目標生成関数が、道路レイアウトおよび交通規則に関する情報（例えば、ＳＤＬロードグラフを使用する）を使用して、所与のビュー領域内の車の一式の可能な目標を列挙するために使用される。多数の目標（例えば、多数の出口点）が存在する場合に計算時間を短縮するために、関数は、自動車の出口点目標を、自動車の前方の同じ車線上にすでに２つのより早い出口点が存在する場合に、無視することができる。

「私の前方にいてほしい」など、他の種類の目標を指定することもできる。そのような目標を、環境内の自動車の現在の構成に基づいて動的に追加および削除することができる。以下のシナリオの説明は、目標の例を示す。

目標認識
この典型的な実施態様において、目標認識は、図４を参照して以下で説明されるように、「コストペナルティ」に基づいて実行される。

本文脈における「計画」は、目標に到達するために選択された１つ以上の基本操縦のシーケンスを意味する。場合によっては、そのような基本操縦のシーケンスを、マクロアクションによって定義することができる。マクロアクションまたは複数の基本操縦の他のシーケンスにおいて、各々の基本操縦は、部分軌道に関連付けられ、部分軌道が速度平滑化を使用して組み合わせられ、目標に到達するための完全な軌道を決定する。

図４が、コストペナルティに基づいて、有限の一式の利用可能な目標から、外部アクターの目標を確率論的に推論する方法の概略フローチャートを示している。図４の右側は、下記の２つの利用可能な目標を有するシナリオに適用されるステップの説明のための例を示している。

１．Ｇ_１－現在の道路を進み続ける。可視道路の端部の目標位置として（より一般的には、現在の道路上の自動車の前方の基準点として）定義される。

２．Ｇ_２－右折出口を選択する。出口位置に関して定義される。

観測された車の一式の可能な目標と、車によって実行された過去の基本操縦のシーケンスとに鑑みて、逆計画のプロセスを使用して、目標の事後分布を計算することができる。この方法は、観測値Ｏのシーケンス（例えば、上述の例における観測されたトレースτ_ｎなど）、目標の事前分布Ｐ（Ｇ）、および尤度関数Ｌ（Ｏ│Ｇ）に鑑みて、可能な目標Ｇのベイズ事後値Ｐ（Ｇ│Ｏ）～Ｌ（Ｏ│Ｇ）Ｐ（Ｇ）を計算する。

表記Ｐ（Ｏ│Ｇ）およびＬ（Ｏ│Ｇ）は、同等であり、目標Ｇに鑑みた観測値Ｏの条件付き確率を意味する。「Ｌ」という表記は、これらの確率が統計的な意味での尤度であるという事実に一致して使用される（なお、本開示において、尤度という用語が、必ずしもこの特定の統計的な意味ではなく、通常の意味ですでに使用されていることに注意されたい；意味は文脈において明らかであろう）。

目標は、目標位置に関して定義され、Ｇ_ｉという表記は、その領域の目標位置を表すために使用され得る。目標位置Ｇ_ｉは、空間内の点であってよいが、領域であっても、道路に沿った特定の距離に対応してもよく、例えば、目標位置を道路に垂直な線として定義することができ、その場合、自動車を、ひとたび（道路内の横位置に関係なく）その線に到達したならば目標に到達したと称することができる。

所与の目標Ｇ_ｉ∈Ｇについての尤度Ｌ（Ｏ│Ｇ_ｉ）は、２つの計画のそれぞれのコストの間の差（コストペナルティ）として定義される。

１．車の（時刻ｔにおける）初期位置ｒ_ｔから目標位置Ｇ_ｉまでの最適な計画、すなわち時刻ｔの後の車のいかなる観測された挙動にもかかわらずｒ_ｔからＧ_ｉに至る最適な計画。これを、基本操縦、マクロアクション、またはマクロアクション以外の複数の基本操縦のシーケンスとして実行することができる。複数の基本操縦によって、それらに関連する部分軌道を組み合わせて、初期位置ｒ_ｔから目標Ｇ_ｉに到達するための最適な全体の軌道がもたらされる（時刻ｔの後の車の実際の観測された挙動に関係なく）。

２．「最良の利用可能な」計画－これは、時刻ｔと時刻ｔ＋Δｔとの間の車の任意の観測された挙動に鑑みたｒ_ｔから目標位置Ｇ_ｉまでの最適な計画、すなわち、この計画が後続の時間区間ΔＴにおいて実際に観測された挙動に一致しなければならないという追加の制約のもとでのｒ_ｔからＧ_ｉに到達するための最良の計画として定義される。換言すると、計画が観測Ｏを尊重するような車の初期位置ｒ_ｔから目標Ｇ_ｉまでの最適な計画として定義される。これは、車が目標を達成するために最適な計画を実行する可能性がより高いが、ある程度の逸脱は許容することを仮定している。これも、基本操縦、マクロアクション、またはマクロアクション以外の複数の基本操縦のシーケンスとして実行することができる。複数の基本操縦によって、それらに関連する部分軌道を組み合わせて、初期位置ｒ_ｔから目標Ｇ_ｉに到達するｔからｔ＋Δｔまでの区間の車の実際の観測された挙動も考慮した「最良の利用可能な」全体の軌道がもたらされる。最良の利用可能な軌道は、実際の観測された軌道に一致する区間［ｔ，ｔ＋Δｔ］についての観測された部分と、後続の時間区間についての将来部分とを有し、将来部分は、最良の利用可能な全体の軌道に関連する全体的なコスト（すなわち、観測された部分および将来部分の両方の全コスト）を最小にするように選択される。

これは、（複数の操縦に関連する複数の部分軌道に基づくことができる）目標に到達するための全体の経路を考慮するため、目標認識の一形態である。

全体の軌道に割り当てられるコストは、後述するようにさまざまな要因を考慮に入れることができる。これは、運転時間（目標への到達により長い時間がかかる軌道は不利に）、安全性（不安全な軌道は不利に）、および快適性（例えば、ジャークが過度な軌道は不利に）を含む。

車の初期位置ｒ_ｔは、例えば、車の第１の観測された位置であってよい。合理的な手法は、自車のセンサ範囲によって定められる過去の観測の移動ウィンドウを使用して初期位置ｒ_ｔを定義することである。

図４のステップ１００４において、各々の目標Ｇ_１、Ｇ_２について最適な計画（上記１）が計算される。ひとたび計算されると、これにより、例えばＡ＊探索を使用して、各々の目標Ｇ_１、Ｇ_２について最適な軌道を決定することができる（詳細については以下を参照）。最適な軌道を計算した後に、最適な軌道に関連する全コストを計算することができる（やはり後述）。最適な軌道は、完全な軌道であり、すなわち初期位置ｒ_ｔから問題の目標に到達するための軌道である。

図４の例では、軌道は、時間的に等間隔の軌道に沿った点によって示され、したがって等間隔の点は一定の速度を意味し、点間の距離の増加（または、減少）は加速（または、減速）を意味する。白丸は、最適な軌道点を表すために使用される。したがって、目標Ｇ_１について、最適な軌道は一定速度で道路に沿って続く直線経路である一方で、目標Ｇ_２について、最適な軌道は、車が出口のための転回点に近づくにつれて徐々に減速することを、見てとることができる。

ステップ１００６において、各々の目標Ｇ_１、Ｇ_２について、最良の利用可能な計画（上記２）が計算される。示されるように、これらは、時刻ｔ（車が初期位置ｒ_ｔにあったとき）と現在の時刻ｔ＋Δｔとの間の実際の観測値Ｏを考慮に入れる。これらの観測値Ｏは、黒丸を使用して図４に表されている観測された低レベルのトレースτを含むことができる。

その文脈において、観測値Ｏは、これに代え、あるいはこれに加えて、自動車の現在の操縦を含むことができ、すなわち、各々の目標の確率を、自動車が現時点において実行している操縦に応じて推定することができる。それらは、過去に観測された操縦をさらに含むことができる。

図４には明示的には示されていないが、上述したように、確率論的操縦検出が、自動車の可能な現在の操縦の確率分布を予測するために適用される。したがって、現在の操縦を確定的に知ることはできず、可能な現在の操縦の分布Ｐ（Ｍ│τ）に関して確率論的に知ることのみが可能である。これは、最初にｐ（Ｍ│τ）から現在の操縦Ｍ_ｊをサンプリングし、次いでこの現在の操縦Ｍ_ｊについての目標確率分布ｐ（Ｇ│Ｏ）（すなわち、Ｍ_ｊを含む観測値Ｏを有する）からサンプリングすることによって対処することができる。

最良の利用可能な計画から、最良の利用可能な軌道を決定することができ（詳細については以下を参照）、これにより、最良の利用可能な軌道の全体コストを決定することができる（やはり後述）。これも、初期位置ｒ_ｔから目標位置Ｇ_ｉまでの完全な軌道であるという意味で、完全な軌道である。最良の利用可能な軌道は、実際の観測された軌道（すなわち、図４の黒丸）に一致する時刻ｔとｔ＋Δｔとの間の観測された部分を有し、斜線入りの円を使用して図４に表されるｔ＋Δｔの後の時間の将来部分をさらに含む。

図示の例において、目標Ｇ_１の最良の利用可能な軌道の観測された部分（黒丸）および将来部分（斜線入りの円）の両方が、この目標Ｇ_１の最適な軌道（白丸）に適度に良好に一致することを、見て取ることができる。したがって、目標Ｇ_１のコストペナルティ（最適な軌道のコストと最良の利用可能な軌道のコストとの間の差）は比較的小さい。

しかしながら、目標Ｇ_２については、車が最適な軌道によって必要とされる程度まで時間ｔ＋Δｔまでに失敗しているため、観測された軌道（黒丸）が、最適な軌道（白丸）からかなり大きく逸脱する。この不一致は、それ自体は大きなコストペナルティを必ずしも引き起こさない（実装の詳細に依存しても、しなくてもよい）。しかしながら、観測された挙動の結果として、最良の利用可能な軌道の将来部分（すなわち、時刻ｔ＋Δｔの後の部分）が、コスト関数によって不利にされる急制動を必然的に含まなければならない（自動車の現在位置からＧ_２までの最低コストの経路が、自動車の状況に鑑みて急制動を含まなければならないという事実を反映する）ことを、見て取ることができる。最適軌道のコストとのこの不一致は、目標Ｇ_２に関するより高いコストペナルティを意味する。

ステップ１００８において、各々の目標Ｇ_１、Ｇ_２について、目標尤度Ｌ（Ｏ│Ｇ）が、コストペナルティ、すなわちその目標についてのステップ１００４で計算された最適な計画のコストとステップ１００６で計算された最良の利用可能な計画のコストとの間の差に関して計算される。これにより、目標尤度および目標事前値に基づいて目標事後Ｐ（Ｇ│Ｏ）を計算することができる（ステップ１０１０）。

事前Ｐ（Ｇ）を、特定の目標の「固有の」確率に関する知識をエンコードするために使用することができる。例えば、図４のシナリオにおいて、右折出口を選択する車が比較的まれにしかないことが観測され、これをＰ（Ｇ_２）＜Ｐ（Ｇ_１）によって事前としてエンコードすることができる。これは、Ｇ_２に有利になるように目標Ｇ_１を効果的にバイアスする。この事前知識のないシナリオの場合、各々の目標を、特定の車の個々の挙動の観測が存在しない場合に、同じ確率、すなわちＰ（Ｇ_１）＝Ｐ（Ｇ_２）と単純に仮定することができる。

上記では、目標が与えられると、車の初期位置ｒ_ｔに鑑みてその目標のための最適な計画を決定することができ、後続の時間区間Δｔにおける観測に鑑みてその目標のための最良の利用可能な計画を決定することができると仮定している。さらに、最適な（または、最良の利用可能な）計画に鑑みて、最適な（または、最良の利用可能な）軌道を決定することができると仮定する。このやり方で目標を軌道への計画にマッピングするための１つの機構は、以下で説明されるように、Ａ＊探索を使用する。

確率論的計画認識アルゴリズム
Ａ＊検索
「Ａ＊探索」は、マクロアクションを含む開ループ操縦について実行される。操縦は、それらの適用可能性条件に基づいてフィルタリングされる。基本操縦が軌道の分布を指定する場合、適切な単一の軌道を、例えば最頻または最も可能性の高い軌道として選択することができる。

Ａ＊探索は、ノードおよびエッジの重み付きグラフに関して定式化された既知の方法である。本文脈においては、（開始ノードによって表される）所与の位置から指定された目標Ｇ_ｉに到達するための最適な計画を見つけることを目的とする。グラフのノードは、操縦（基本操縦またはマクロアクション）を表し、目的は、比較的低コストで目標に到達するノードのシーケンス（したがって、シーケンス操縦）を発見することである。各々のノードｎについて、「それまでのコスト」ｇ（ｎ）が、開始ノードからノードｎまでのコストとして定義され、ヒューリスティック関数ｈ（ｎ）が、ｎから目標までのコストの推定をもたらす。探索は、開始ノードで始まり、各ノードにおいて、
ｆ（ｎ）＝ｇ（ｎ）＋ｈ（ｎ）
として定義される最低ノードコストを有する次のノードへとシーケンスを延ばす。

環境内の他のすべての車両が定速モデルを使用するという単純化された仮定を使用することができる。

初期位置ｒ_ｔから目標Ｇ_ｉまでの最適軌道を発見する目的で、探索は、時刻ｔおよび位置ｒ_ｔで実行された車による操縦から始まる。時間区間Δｔにおける観測値Ｏに鑑みた自動車の現在位置ｒ_ｔ＋Δｔから目標までの最良の利用可能な軌道を発見する目的で、探索は、検出された現在の操縦および現在位置ｒ_ｔ＋Δｔから始まる。

上述の操縦検出方法を、操縦を検出するために使用することができる。これが、一般に、可能な現在の操縦の確率分布をもたらすことに留意されたい。逆計画は、予測されたすべての現在の操縦について行われるべきであり、これは、これらが目標よりも異なる事後をもたらす可能性があるためである。したがって、可能な現在の操縦の各々は、それ自体の目標事後を生成する。計算効率のために、ｎ個の最も可能性の高い現在の操縦のみが考慮され、他のあらゆる操縦は無視され、ここで、ｎは適切に設定することができる方法パラメータである。

現在位置（現在の探索ノード）に到達するまでのコストｇ（ｎ）を、基本操縦によって指定された経路および速度に基づいて、現在位置までの推定運転時間として定義することができる。

目標までの残りコストを推定するためのコストヒューリスティックｈ（ｎ）は、制限速度での直線による現在位置から目標位置までの運転時間によって与えられる。探索を効果的に案内するために、ｈ（ｎ）は、探索を案内するために最小残りコストの推定値を提供するだけでよいことに、留意されたい。したがって、ここでは、性能に影響を与えることなく、比較的粗い仮定を行うことができる。

最適な計画を発見した後に、完全な軌道が、計画内の操縦を横切って生成される。次いで、速度平滑化が完全な軌道に適用され、完全なコスト関数が計算（後述のコスト関数の箇所を参照）されて、計画の最終コストが求められる。この最後のステップ（平滑化の適用および完全なコスト関数）により、下記の制動の例のように、速度に基づいて追加の「手がかり」を得ることが可能になる。

速度平滑化は、すでに観測された軌道のいずれの部分にも適用されない。そうでなければ、速度平滑化の効果は、特定の目標を示唆する証拠を洗い流すことであり得る（図１０の例の文脈におけるさらなる詳細については、以下を参照）。

自動車が操縦（例えば、車線変更）の途中である場合を考慮するために、自動車の現在実行されている操縦は、将来へのさらなる計画の前に完了することができるように認識される必要がある。

探索空間を縮小するために、基本的な方向転換および警戒の操縦を、これらがマクロアクションの外部では使用されないため、探索空間から除去することができる。車線維持の操縦は、その終了条件がデフォルト値として何らかの固定長に設定されている場合、マクロアクションの外部の基本操縦として依然として有用であり得る。

本例は、逆計画において外部アクター間の衝突をチェックしない。これは、可能であるが、プロセス全体をより高価にする。さらに、他の車両の一定の速度などのいくつかの単純化の仮定ゆえに、衝突が必然的に発生する状況が存在し得る。以下で詳述されるマルチエージェントＭＣＴＳ法は、このような衝突チェックを処理することができる。

あるいは、プロセスを、逆計画の一部として起こり得る衝突について推論するように拡張することができる。

Ａ＊探索に関連して上述した仮定は、計算効率と性能との間の良好なバランスを提供することが明らかになっている。当然ながら、非等速モデルなど、さまざまな仮定セットが使用されてよいことを、理解できるであろう。別の例として、上記は、操縦に関連する最も可能性の高い軌道のみを考慮することによって、本質的に探索問題を決定論的問題に変える。しかしながら、これは、完全な軌道の分布または切り詰められた軌道の分布に基づく確率論的探索にも同様に拡張することができる。すなわち、上記は単一軌道の形態の完全／部分軌道モデルを考慮しているが、本技術は、完全／部分軌道分布にも適用することができる。

マルチスレッディングを使用し、各々の目標Ｇについて独立したスレッドを使用することにより、プロセスを高速化することができる。自動車が独立した目標を有するという追加の仮定により、自動車ごとに１つのプロセス／スレッドを使用することによって、さらなる並列化を達成することができる。

制動
制動は、上述の方法においては制動は別個の操縦として認識されないが、本方法は、依然として目標の尤度において制動を考慮することができる。

一例として、図１０に示され、上述されたシナリオを考える。自動車の初期位置からＧ２への最適な計画は、右脱出のマクロアクションによって与えられる。速度平滑化を適用した後に、結果は、車が転回点に到達するまで継続的に減速する軌道である。この最適軌道のコストは、Ｃ２で表される。

自動車が、車線に従い、転回点へと途中まで近付き、Ｇ２の最適軌道と同様に減速することが観察されると仮定する。したがって、Ｇ２までの軌道が競合する場合、これはＣ２と同様のコストを伴う軌道をもたらす。他方で、初期状態からＧ１への最適な軌道は、そのような制動を伴わず、（時間の差および場合によってはジャークに起因する）著しいコスト差をもたらす。したがって、Ｇ２の事後確率は増加する一方で、Ｇ１の確率は減少する。

（ちなみに、上述のように、速度平滑化は、軌道のうちのすでに観測された部分には適用されないことに留意されたい。この背後にある推論は、この例において明らかである。すなわち、速度平滑化が軌道全体に適用された場合、平滑化は、すでに観測された車線維持の操縦の部分の速度も減少させると考えられる。これにより、制動がもはやそれほど突然ではなくなるため、コストペナルティがより小さくなると考えられる。換言すると、軌道が最初の観察位置からの最適軌道により類似すると考えられる。したがって、平滑化は、過去の軌道を変更不可能な定数として扱うことが適切である。）
ここで、自動車が車線を維持するが、減速するのではなく一定の速度で観測されると仮定する。この軌道がＧ２まで続くと、突然の制動が必要になり、Ｃ２よりもはるかにコストが高くなる。他方で、目標Ｇ１まで軌道を継続する（車線に留まる）ことは、本質的に初期状態からＧ１の最適な計画である。したがって、Ｇ２は事後確率が低下し、Ｇ１は増加する。

最後に、自動車が車線を維持し、展開点の近くで突然に減速することが観測されると仮定する。この突然の制動は、初期状態からのいずれの最適軌道にもないため、Ｇ２およびＧ１の両方に著しいコストペナルティを引き起こす。したがって、両方の目標のコストが増加し、２つの目標の相対確率の変化は小さくなる。

目標からの軌道の予測
所与の目標に対する車の可能な軌道および関連の確率を予測するために、逆計画に使用されるものと同じＡ＊探索法を使用することができる。最適な計画を発見した後にＡ＊を終了するのではなく、代わりに固定時間予算が課され、アルゴリズムは、計画の組を関連のコストと共に計算することを許可される（おそらくは、いくつかの固定数までの計画について）。Ａ＊探索が目標に到達するノードを発見すると、対応する計画が計画の組に追加される。軌道は、計画内の操縦によって与えられる部分軌道を接続することによって計画から生成される。

計画から抽出された軌道の分布を、ソフトマックス分布（軌道モデル）を使用して

と計算することができ、ここで、Ｔ^（ｎ）は目標までのｎ番目の完全な軌道であり、Ｃ_mは軌道のコスト（平滑化後の全体コスト）であり、β_ｎは軌道Ｔ^（ｎ）のスケーリング係数である（上述したように、表記Ｔ^（ｎ）は、所与の操縦Ｍ_ｊの部分軌道Ｔ_ｊと区別するために、目標までのｎ番目の完全な軌道に使用される）。これは、最適により近い軌道がより可能性が高いという仮定をエンコードする。スケーリング係数を使用して、観測データに基づいて特定の軌道の重みを減らすことができ、すなわち軌道予測モデルを関連する例で訓練することができる。あるいは、一定のスケーリング係数（例えば、１という値）を使用することもできる。

上記のソフトマックス軌道モデルを、ＲＲＴを介して取得された軌道モデルの代替として使用することができる。

逆計画と同様に、そのような軌道の組は、ｎ個の最も可能性が高い現在の操縦などの何らかの部分集合に焦点を合わせて、各々の予測された現在の操縦について生成される。Ａ＊は、現在の操縦の完了後に始まり、最終軌道は、現在の操縦の残りを含む。

これは、単一の最適軌道ではなく、さまざまなもっともらしく思われる軌道を予測し、これは、複数の軌道が（ほぼ）最小コストを達成するが、自車両の部分において異なる挙動を必要とする可能性がある異なる予測をもたらす状況が存在するため、有益である。

ハードウェアレベルにおいて、ＡＶの車載コンピュータシステムＡ１は、上記の機能を実行するためのアルゴリズムを実行することができる実行ハードウェアを備える。実行ハードウェアは、汎用または専用の実行ハードウェア、あるいはそれらの任意の組み合わせであってよいが、一般に、これらに限られるわけではないがアクセラレータ（例えば、ＧＰＵ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）または他のプログラマブルなハードウェア、ならびに／あるいは特定用途向け集積回路（ＡＳＩＣ）などの専用ハードウェアと連携して動作することができる中央処理装置（ＣＰＵ）などの１つ以上のプロセッサを備える。高度で複雑なＭＬ／ＡＩモデルを使用することが多い複雑なデータ処理動作を、安全かつ信頼できる動作を保証するための充分な精度および速度で（多くの場合、リアルタイムで）実行する必要があることから、車載コンピュータシステムは、おそらくは該当のモデルおよびアルゴリズムを実装するようにあつらえられた専用のコンピュータハードウェアによって高度に洗練されてよい。とくにはＡＩの分野における革新の進行の速度に鑑みて、ハードウェアレベルおよび機能／ソフトウェアレベルの両方におけるＡＶ車載コンピュータシステムＡ１のアーキテクチャが、多くの形態をとることができることが理解されよう。本明細書において、データ処理コンポーネントＡ２、予測コンポーネントＡ４、およびＡＶプランナＡ６などのコンピュータシステムにおいて具現化される機能コンポーネントなどは、コンピュータシステムによって実現される特定の機能、すなわち状況に適したコンピュータシステムの何らかの汎用および／または専用ハードウェア（の組み合わせ）によって実行される機能の高レベル表現である。

Claims

コンピュータによって実施され、外部アクターの目標を確率的に予測する方法であって、
コンピュータにおいて、前記外部アクターの検出および追跡のためのセンサ入力を受信するステップと、
前記センサ入力にオブジェクト追跡を適用して前記外部アクターを追跡することにより、一時間区間である時刻tから時刻t + Δtまでにおける前記外部アクターの観測されたトレースを決定するステップと、
マップに基づいて、前記外部アクターについて一式の利用可能な目標であって、それぞれの目標が前記マップ上の目標位置により定義される目標を決定するステップと、
前記利用可能な目標の各々について、前記一時間区間である時刻tから時刻t + Δtまでにおける予想軌道モデルを、時刻tにおける前記外部アクターの位置及び前記マップ上の利用可能な目標の前記目標位置に基づいて生成するステップと、
前記外部アクターの前記観測されたトレースを、前記利用可能な目標の各々についての前記予想軌道モデルと比較して、該目標の尤度を決定するステップと、
を含む方法であって、
自律型の自車両において実施され、該自律型の自車両のプランナが、前記利用可能な目標のうちの少なくとも１つの前記尤度に応じて自律的な運転の決定を行い、前記センサ入力は、該自律型の自車両のセンサシステムを使用して取得される、
方法。
前記予想軌道モデルは、前記目標に関する単一の予測される軌道または前記目標に関する予測される軌道の分布である、請求項１に記載の方法。
前記予想軌道モデルは、一式の予測される軌道のうちの各々の予側される軌道Ｔについての条件付き確率ｐ（Ｔ│Ｇ_ｉ）を含む分布であり、該目標の前記尤度ｐ（Ｇ_ｉ│τ）は、前記観測されたトレースτに鑑みて少なくとも１つの予側される軌道の確率ｐ（Ｔ│τ）を推定するために使用される、請求項２に記載の方法。
前記予想軌道モデルは、各々の目標について生成挙動モデルを実行することによって決定され、前記生成挙動モデルは、現実世界の運転挙動の例に基づいて軌道を生成するように訓練されている、請求項１～３のいずれか一項に記載の方法。
前記予想軌道モデル及び前記生成挙動モデルは、当該方法が適用される対象の運転領域に特有である、請求項４に記載の方法。
前記予想軌道モデルは、各目標について該目標の１つ以上のパラメータおよび前記外部アクターの１つ以上のパラメータに基づいて定められる予測軌道の空間をサンプリングするようにサンプリングアルゴリズムを適用することによって決定される、請求項１～５のいずれか一項に記載の方法。
前記観測されたトレースは、前記目標についての最良利用可能軌道モデルを予測するために使用され、前記比較は、前記最良利用可能軌道モデルを前記予想軌道モデルと比較することを含む、請求項１～６のいずれか一項に記載の方法。
前記観測されたトレースは、前記外部アクターの現在の操縦および／または将来の操縦を予測するために使用され、前記予測された現在または将来の操縦は、前記最良利用可能軌道モデルを決定するために使用される、請求項７に記載の方法。
複数の操縦からなるシーケンスが、少なくとも１つの目標について決定され、前記最良利用可能軌道モデルは、該目標について、前記複数の操縦にそれぞれ関する部分軌道モデルに基づいて決定される、請求項８に記載の方法。
各々の部分軌道モデルは、１つ以上の目標運動値を含み、前記最良利用可能軌道モデルの将来部分の１つ以上の運動値が、前記目標運動値に運動平滑化を適用することによって決定される、請求項９に記載の方法。
各目標についての前記予想軌道モデルは、該目標についての単一の予想軌道であり、各目標についての前記最良利用可能軌道モデルは、単一の最良利用可能軌道である、請求項７～１０のいずれか一項に記載の方法。
各操縦についての前記部分軌道モデルは、該操縦についての最も可能性の高い部分軌道である、請求項９に従属する請求項１１に記載の方法。
定められたコスト関数が、各目標についての前記予想軌道モデルおよび前記最良利用可能軌道モデルの両方に適用されて、前記予想軌道モデルおよび前記最良利用可能軌道モデルのそれぞれのコストが決定され、前記比較は、それぞれのコストを比較することを含む、請求項７～１２のいずれか一項に記載の方法。
前記コスト関数は、運転時間の短縮に報いる一方で、不安全な軌道を不利に扱う、請求項１３に記載の方法。
前記コスト関数は、快適性の欠如も不利に扱う、請求項１４に記載の方法。
前記目標のうちの少なくとも１つについての前記時間区間の後の前記外部アクターの少なくとも１つの予想される軌道と、前記目標の前記尤度に基づく前記予想される軌道の確率とを決定するステップを含む、請求項１～１５のいずれか一項に記載の方法。
前記時間区間の前記予想軌道モデルは、前記時間区間の始まりにおける前記外部アクターの位置に基づいて決定され、前記少なくとも１つの予測される軌道は、前記時間区間の終わりにおける前記外部アクターの位置に基づいて決定される、請求項１６に記載の方法。
前記少なくとも１つの予測される軌道は、前記目標について該目標の１つ以上のパラメータおよび前記時間区間の終わりにおける前記外部アクターの位置に基づいて定義される予測される軌道の空間をサンプリングするためのサンプリングアルゴリズムを適用することによって決定される、請求項１７に記載の方法。
コンピュータによって実施され、外部アクターの操縦を確率的に予測する方法であって、
コンピュータにおいて、外部アクターの検出および追跡のためのセンサ入力を受信するステップと、
前記センサ入力にオブジェクト追跡を適用して前記外部アクターを追跡することにより、一時間区間である時刻tから時刻t + Δtにおける前記外部アクターの観測されたトレースを決定するステップと、
マップに基づいて、前記外部アクターについて一式の利用可能な操縦であって、それぞれの操縦が前記マップ上の操縦位置により定義される操縦を決定するステップと、
前記利用可能な操縦の各々について、前記一時間区間である時刻tから時刻t + Δtまでにおける予想軌道モデルを、時刻tにおける前記外部アクターの位置及び前記マップ上の利用可能な操縦の前記操縦位置に基づいて生成するステップと、
前記外部アクターの前記観測されたトレースを、前記利用可能な操縦の各々についての前記予想軌道モデルと比較して、該操縦の尤度を決定するステップと
を含む方法。
自律型車両において実施され、該自律型車両のプランナが、前記利用可能な操縦のうちの少なくとも１つの前記尤度に応じて自律的な運転の決定を行う、請求項１９に記載の方法。
前記予想軌道モデルは、前記操縦に関する単一の予測される軌道または前記操縦に関する予測される軌道の分布である、請求項１９または請求項２０に記載の方法。
前記観測されたトレースは、前記予測される軌道の分布のうちの最も可能性の高い軌道と比較される、請求項２１に記載の方法。
前記操縦のうちの少なくとも１つについての前記時間区間の後の前記外部アクターの少なくとも１つの予測される軌道と、前記操縦の前記尤度に基づく前記予測される軌道の確率とを決定するステップ
を含む、請求項１９～２２のいずれか一項に記載の方法。
前記時間区間の前記予想軌道モデルは、前記時間区間の始まりにおける前記外部アクターの位置に基づいて決定され、前記少なくとも１つの予測される軌道は、前記時間区間の終わりにおける前記外部アクターの位置に基づいて決定される、請求項２３に記載の方法。
前記少なくとも１つの予測される軌道は、前記操縦について該操縦の１つ以上のパラメータおよび前記時間区間の終わりにおける前記外部アクターの位置に基づいて定義される予測される軌道の空間をサンプリングするためのサンプリングアルゴリズムを適用することによって決定される、請求項２４に記載の方法。
請求項１～２５のいずれか一項に記載の方法を実行するように構成された実行ハードウェアを備えるコンピュータシステム。
実行されたときに請求項１～２５のいずれか一項に記載の方法を実施するように構成された実行可能命令を含んでいるコンピュータプログラム。
請求項１～２７のいずれか一項に記載の方法を実施するように構成された予測コンポーネントと、
前記予測コンポーネントの出力を使用して自律型の運転の決定を行うように構成されたプランナと
を備える自律型車両コンピュータシステム。
前記予測コンポーネントは、請求項１～１９のいずれか一項に記載の方法を実施することで、外部アクターについての目標の予測をもたらし、請求項２０～２３のいずれか一項に記載の方法を実施することで、該外部アクターについての操縦の予測をもたらすように構成されている、請求項２８に記載の自律型車両コンピュータシステム。
前記操縦の予測は、前記目標の予測を行うために使用される、請求項２９に記載の自律型車両コンピュータシステム。
請求項２８～３０のいずれか一項に記載の自律型車両コンピュータシステムと、前記プランナに結合し、前記プランナによって生成される制御信号に応答する駆動機構と、を備える自律型車両。