JP2023175055A

JP2023175055A - 自律型車両の計画

Info

Publication number: JP2023175055A
Application number: JP2023133680A
Authority: JP
Inventors: スブラマニアン、ラマムーシー; Ramamoorthy Subramanian; ミハイ、ドブレ; Dobre Mihai; ロベルト、アントリン; Antolin Roberto; ステファノ、アルブレヒト; Albrecht Stefano; サイモン、ライアンズ; Lyons Simon; スベト、ペンコフ; Penkov Svet; モーリス、アントネッロ; Antonello Morris; フランシスコ、アイラス; Eiras Francisco
Original assignee: Five AI Ltd
Current assignee: Five AI Ltd
Priority date: 2018-10-16
Filing date: 2023-08-18
Publication date: 2023-12-11
Also published as: WO2020079069A3; WO2020079074A3; IL282278A; US20210339772A1; WO2020079074A2; CN112868022A; CN112888612A; KR20210061461A; US20210370980A1; IL282277A; US11900797B2; JP2022516383A; CN112840350A; WO2020079066A1; JP2022516382A; EP3864574A1; WO2020079066A4; KR20210074366A; EP3863904A2; US20210380142A1

Abstract

【課題】遭遇した運転シナリオにおいて実行すべき操縦の適切なシーケンスを決定することができるように、予想される他の車両／エージェントの挙動を考慮しつつ、推論することを可能にする推論フレームワークを提供する【解決手段】自律型車両（ＡＶ）計画方法が、センサ入力を受信するステップと、センサ入力を処理し遭遇した運転シナリオを決定するステップと、ツリー探索アルゴリズムを実行して、構築されたゲームツリーを通る経路に対応するシーケンスを決定するステップと、シーケンスを実行するためのＡＶ制御信号を生成するステップとを含んでおり、ゲームツリーは、遭遇した運転シナリオの予想される状態を表す複数のノードを有し、各々の子ノードは、（ｉ）候補ＡＶ操縦、および（ｉｉ）遭遇した運転シナリオ内の少なくとも１つの外部エージェントの予想される挙動に基づいて、親ノードの運転シナリオの状態を更新することによって決定される。【選択図】図１

Description

本開示は、自律型車両（ＡＶ）の操縦計画に関する。

自律型車両は、自動運転車両としても知られるが、自身の外部環境を監視するためのセンサシステムと、それらのセンサを使用して自動的に運転における決定を実行および履行することができる制御システムとを有する車両を指す。これは、とくには、センサシステムからの入力に基づいて車両の速度および進行方向を自動的に調整する能力を含む。完全自律型車両または「運転者なし」車両は、人間の運転者からのいかなる入力も必要とせずに動作するための充分な意思決定能力を有する。しかしながら、本明細書で使用されるとき、自律型車両という用語は、自律的な意思決定能力がより限定的であり、したがって人間の運転者からの或る程度の監督を依然として必要とする半自律型車両にも適用される。

遭遇した運転のシナリオを安全かつ効果的に切り抜けるために、自律型車両プランナが、遭遇するシナリオにおいて実行すべき操縦のシーケンスを計画することができる必要がある。本発明は、コンピュータによって実現されるＡＶプランナが、遭遇した運転シナリオにおいて実行すべき操縦（自車両操縦）の適切なシーケンスを決定することができるように、そのシナリオにおける操縦のさまざまなシーケンスについて生じ得る効果を、予想される他の車両／エージェントの挙動を考慮しつつ、推論することを可能にする推論フレームワークを提供する。

本発明のいくつかの態様は、
自律型車両（ＡＶ）に関するセンサ信号（入力）を受信するステップと、
前記センサ入力を処理し、遭遇した運転シナリオを決定するステップと、
ＡＶプランナにおいて、ツリー探索アルゴリズムを実行して、構築されたゲームツリーを通る経路に対応するＡＶ操縦のシーケンスを決定するステップと、
前記決定されたＡＶ操縦のシーケンスを実行するためのＡＶ制御信号を生成するステップと
を含んでおり、
前記ゲームツリーは、前記遭遇した運転シナリオの予想される状態を表す複数のノードを有し、各々の子ノードの前記予想される運転シナリオの状態は、（ｉ）候補ＡＶ操縦、および（ｉｉ）前記遭遇した運転シナリオ内の少なくとも１つの外部エージェント（アクター）の予想される挙動に基づいて、親ノードの運転シナリオの状態を更新することによって決定される、自律型車両（ＡＶ）計画方法に関する。

前記外部エージェントの前記予想される挙動は、前記センサ信号から導出された前記外部エージェントの１つ以上の観測されたパラメータに生成挙動モデルを適用することによってシミュレートされる。

前記生成挙動モデルは、１つ以上の自車両パラメータにも（本計画方法を実施し、あるいは本計画方法によって制御される自車両への前記他のアクターの応答をモデル化するために）適用されてよく、さらには／あるいは（前記アクターの環境への応答をモデル化するために道路レイアウト／他の運転環境パラメータなどの）前記運転シナリオの１つ以上のパラメータにも適用されてよい。

本発明の第１の態様において、前記生成挙動モデルは、観測された現実世界の運転挙動の例に基づいて訓練された機械学習（ＭＬ）モデルである。

すなわち、第１の態様は、
自律型車両（ＡＶ）に関するセンサ入力を受信するステップと、
前記ＡＶセンサ入力を処理し、遭遇した運転シナリオを決定するステップと、
ＡＶプランナにおいて、ツリー探索アルゴリズムを実行して、構築されたゲームツリーを通る経路に対応するＡＶ操縦のシーケンスを決定するステップと、
前記決定されたＡＶ操縦のシーケンスを実行するためのＡＶ制御信号を生成するステップと
を含んでおり、
前記ゲームツリーは、前記遭遇した運転シナリオの予想される状態を表す複数のノードを有し、各々の子ノードの前記予想される運転シナリオの状態は、（ｉ）候補ＡＶ操縦、および（ｉｉ）前記遭遇した運転シナリオ内の少なくとも１つの外部エージェントの予想される挙動に基づいて、親ノードの運転シナリオの状態を更新することによって決定され、
前記外部エージェントの前記予想される挙動は、前記センサ入力から導出された前記外部エージェントの１つ以上の観測されたパラメータに生成挙動モデルを適用することによってシミュレートされ、前記生成挙動モデルは、観測された現実世界の運転挙動の例に基づいて訓練された機械学習（ＭＬ）モデルである、自律型車両（ＡＶ）計画方法を提供する。

いくつかの実施形態において、オブジェクト追跡が、前記外部エージェントの観測されたトレースを決定するために前記センサ入力に適用されてよく、前記外部エージェントの前記予想される挙動は、前記観測されたトレースに基づいてシミュレートされてよい。

前記生成モデルの訓練に使用される前記観測された現実世界の運転挙動の例のうちの少なくともいつかは、閉回路テレビジョンデータから抽出されていてよい。

前記生成挙動モデルは、訓練されたニューラルネットワークを含むことができる。

前記外部エージェントの前記予想される挙動は、前記遭遇した運転シナリオの運転領域について学習した空間マルコフモデルの学習済みの占有および／または遷移確率を使用してシミュレートされ得る。

前記ツリー探索アルゴリズムは、確率論的ツリー探索アルゴリズムであってよい。

前記ツリー探索アルゴリズムは、モンテカルロツリー探索（ＭＣＴＳ）アルゴリズムであってよい。

前記運転シナリオは、定められたシナリオ記述言語に従って一式の運転シナリオパラメータを前記センサ入力から抽出することによって決定され得る。

前記生成挙動モデルは、１つ以上の自車両パラメータおよび／または前記運転シナリオの１つ以上のパラメータにも適用される。

本発明の第２の態様において、前記生成挙動モデルは、前記予想される挙動をシミュレートするために前記１つ以上の観測されたパラメータに逆計画法を適用する逆プランナの形態をとる。

すなわち、第２の態様は、
自律型車両（ＡＶ）に関するセンサ入力を受信するステップと、
前記センサ入力を処理し、遭遇した運転シナリオを決定するステップと、
ＡＶプランナにおいて、ツリー探索アルゴリズムを実行して、構築されたゲームツリーを通る経路に対応するＡＶ操縦のシーケンスを決定するステップと、
前記決定されたＡＶ操縦のシーケンスを実行するためのＡＶ制御信号を生成するステップと
を含んでおり、
前記ゲームツリーは、前記遭遇した運転シナリオの予想される状態を表す複数のノードを有し、各々の子ノードの前記予想される運転シナリオの状態は、（ｉ）候補ＡＶ操縦、および（ｉｉ）前記遭遇した運転シナリオ内の少なくとも１つの外部エージェントの予想される挙動に基づいて、親ノードの運転シナリオの状態を更新することによって決定され、
前記外部エージェントの前記予想される挙動は、前記センサ入力から導出された前記外部アクターの１つ以上の観測されたパラメータに逆計画法を適用することによってシミュレートされる、自律型車両（ＡＶ）計画方法を提供する。

逆計画法は、前記遭遇した運転シナリオにおける前記外部アクターの一式の利用可能な目標を決定するステップと、前記一式の利用可能な目標に関して確率論的または決定論的目標認識を適用することで、前記予想される挙動をシミュレートするステップとを含むことができる。決定論的目標認識は、利用可能な目標のうちの外部アクターによって実施されている目標を識別することを意味する。確率的目標認識は、利用可能な目標のうちの少なくとも１つについて、外部エージェントがその目標を実施している確率（例えば、外部アクターが各目標を実施している確率である各目標の確率）を推定することを意味する。

オブジェクト追跡を、前記遭遇した運転シナリオ内の少なくとも１つの外部アクターを追跡することによって、一時間区間における前記外部アクターの観測されたトレースを決定するために、前記センサ入力に適用することができる。

前記逆計画法は、
前記遭遇した運転シナリオ内の前記外部アクターの一式の利用可能な目標を決定するステップと、
前記利用可能な目標の各々について、予想軌道モデルを決定するステップと、
前記外部アクターの前記観測されたトレースを、前記利用可能な目標の各々についての前記予想軌道モデルと比較し、該目標の尤度を決定するステップと、
前記目標のうちの少なくとも１つの目標の前記決定された尤度を使用して、前記外部アクターの前記予想される挙動をシミュレートするステップと
を含むことができる。

前記少なくとも１つの目標の前記決定された尤度を使用して前記外部アクターの前記予想される挙動をシミュレートするステップは、前記少なくとも１つの目標についての前記予想軌道モデルおよび該目標の前記決定された尤度に基づいて、前記外部アクターの少なくとも１つの予測される軌道を計算することを含むことができる。

各目標についての前記予想軌道モデルは、該目標に関する予測される軌道の分布であってよい。

各目標についての前記分布Ｇ_ｉは、一式の予測される軌道のうちの各々の予測される軌道Ｔについての条件付き確率ｐ（Ｔ│Ｇ_ｉ）を含むことができ、該目標の前記尤度ｐ（Ｇ_ｉ│τ）は、前記観測されたトレースτに鑑みて少なくとも１つの予測される軌道の確率ｐ（Ｔ│τ）を推定するために使用される。

前記観測されたトレースを、前記目標についての最良利用可能軌道モデルを予測するために使用することができ、前記比較は、前記最良利用可能軌道モデルを前記予想軌道モデルと比較することを含む。

前記観測されたトレースを、前記外部アクターの現在の操縦および／または将来の操縦を予測するために使用することができ、前記予測された現在または将来の操縦を、前記最良利用可能軌道モデルを決定するために使用することができる。

複数の操縦からなるシーケンスを、少なくとも１つの目標について決定することができ、前記最良利用可能軌道モデルを、該目標について、前記複数の操縦にそれぞれ関する部分軌道モデルに基づいて決定することができる。

各々の部分軌道モデルは、１つ以上の目標運動値を含むことができ、前記最良利用可能軌道モデルの将来部分の１つ以上の運動値を、前記目標運動値に運動平滑化を適用することによって決定することができる。

各目標についての前記予想軌道モデルは、該目標についての単一の予想軌道であってよい。

各目標についての前記最良利用可能軌道モデルは、単一の最良利用可能軌道であってよい。

各操縦についての前記部分軌道モデルは、該操縦についての最も可能性の高い部分軌道であってよい。

定められたコスト関数を、各目標についての前記予想軌道モデルおよび前記最良利用可能軌道モデルの両方に適用して、これらの軌道モデルのそれぞれのコストを決定することができ、前記比較は、これらのコストを比較することを含む。

前記コスト関数は、運転時間の短縮に報いる一方で、不安全な軌道を不利とすることができる。

前記コスト関数は、快適性の欠如も不利とすることができる。

前記外部エージェントの前記予想される挙動を、前記一式の利用可能な目標からこれらの目標の前記決定された尤度に基づいて目標をサンプリングすることによってシミュレートすることができる。

さまざまな目標分布を、さまざまな操縦または操縦シーケンスについて決定でき、前記外部エージェントの前記予想される挙動を、一式の可能な操縦から前記操縦分布に基づいて操縦または操縦シーケンスをサンプリングし、次いで該操縦または操縦シーケンスについて決定された前記目標分布に基づいて前記一式の利用可能な目標から前記目標をサンプリングすることによってシミュレートすることができる。

前記操縦分布を、前記可能な操縦の各々について、予想軌道モデルを決定することと、前記外部アクターの前記観測されたトレースを、前記可能な操縦の各々についての前記予想軌道モデルと比較して、該操縦の尤度を決定することとを含む前記操縦レベルにおける逆計画を使用して決定することができる。

前記探索アルゴリズムは、異なるサンプリングされた目標で複数の構築されたゲームツリーについて複数回実行されてよく、ＡＶ操縦の前記シーケンスは、前記ＡＶプランナによって、前記複数の構築されたゲームツリー内の経路の統計分析に基づいて決定されてよい。

オブジェクト追跡を、前記遭遇した運転シナリオ内の少なくとも１つの外部アクターを追跡することによって、一時間区間における前記外部アクターの観測されたトレースを決定するために、前記センサ入力に適用することができ、
前記逆計画法は、
前記遭遇した運転シナリオ内の前記外部アクターの一式の可能な操縦を決定するステップと、
前記可能な操縦の各々について、予想軌道モデルを決定するステップと、
前記外部アクターの前記観測されたトレースを、前記可能な操縦の各々についての前記予想軌道モデルと比較し、該操縦の尤度を決定するステップと、
前記操縦のうちの少なくとも１つの操縦の前記決定された尤度を使用して、前記外部アクターの前記予想される挙動をシミュレートするステップと
を含むことができる。

各操縦についての前記予想軌道モデルは、該操縦に関する単一の軌道であってよい。

各操縦についての前記予想軌道モデルは、該操縦に関する予測される軌道の分布であってよい。

本発明の第３の態様は、
自律型車両（ＡＶ）に関するセンサ入力を受信するステップと、
前記センサ入力を処理し、遭遇した運転シナリオを決定するステップと、
ＡＶプランナにおいて、ツリー探索アルゴリズムを実行して、構築されたゲームツリーを通る経路に対応するＡＶ操縦のシーケンスを決定するステップと、
前記決定されたＡＶ操縦のシーケンスを実行するためのＡＶ制御信号を生成するステップと
を含んでおり、
前記ゲームツリーは、前記遭遇した運転シナリオの予想される状態を表す複数のノードを有し、各々の子ノードの前記予想される運転シナリオの状態は、（ｉ）候補ＡＶ操縦、および（ｉｉ）前記遭遇した運転シナリオ内の少なくとも１つの外部エージェントの予想される挙動に基づいて、親ノードの運転シナリオの状態を更新することによって決定され、
前記外部エージェントの前記予想される挙動は、前記センサ入力から導出された前記外部アクターの１つ以上の観測されたパラメータに目標認識を適用することによってシミュレートされる、自律型車両（ＡＶ）計画方法を提供する。

前記目標認識は、一式の利用可能な目標のうちの各々の目標について、
前記１つ以上の観測されたパラメータに基づく該目標についての最良利用可能軌道モデル、および
該目標についての最適軌道モデル
を計算することを含むことができる。

前記目標認識は、確率論的であってよく、目標分布を、各目標について前記最良利用可能軌道モデルを前記最適軌道モデルと比較することによって決定することができる。

定められたコスト関数を、各目標についての前記予想軌道モデルおよび前記最良利用可能軌道モデルの両方に適用して、これらの軌道モデルのそれぞれのコストを決定することができ、これらの軌道モデルを、それらのコストを比較することによって比較することができる。

複数の目標分布を、複数の可能な操縦または操縦シーケンスについて決定することができる。

前記予想される挙動を、前記目標分布に基づいて前記一式の利用可能な目標からサンプリングされる目標に基づいてシミュレートすることができる。

前記予想される挙動を、前記外部エージェントについて決定された操縦分布に基づいて、前記可能な操縦から少なくとも１つの操縦をサンプリングし、次いで該サンプリングされた操縦について決定された前記目標分布から前記目標をサンプリングすることによってシミュレートすることができる。

前記ツリー探索アルゴリズムは、異なるサンプリングされた目標で複数の構築されたゲームツリーについて複数回実行されてよく、ＡＶ操縦の前記シーケンスは、前記ＡＶプランナによって、前記複数の構築されたゲームツリー内の経路の統計分析に基づいて決定されてよい。

前記目標認識を、目標認識決定ツリーを使用して実行してもよい。

本発明の別の態様は、自律型車両を設定する方法を提供し、この方法は、
訓練システムにおいて、１つ以上の運転領域から取得された現実世界の運転挙動データを受信するステップと、
前記現実世界の運転挙動を処理し、生成モデルの訓練に使用するための現実世界の運転挙動の例を抽出するステップと、
前記抽出された運転挙動の例を使用して、外部エージェントの前記挙動を該外部エージェントの１つ以上の観測されたパラメータに基づいて予測するように生成挙動モデルを訓練するステップと、
前記訓練された生成挙動モデルを自律型車両の電子ストレージに格納するステップと
を含み、
前記自律型車両は、前記生成挙動モデルを使用して本明細書に開示されるいずれかの態様の方法またはそのいずれかの実施形態を実施するように構成された自律型車両プランナを備える。

前記センサ入力は、ＡＶセンサシステムから受信したセンサ入力を含むことができる。これに加え、あるいはこれに代えて、前記センサ入力は、通信リンクを介して受信される外部で取得されたセンサ入力を含むことができる。

本発明の別の態様は、
自律型車両（ＡＶ）に関するセンサ入力を受信するステップと、
前記ＡＶセンサ入力を処理し、遭遇した運転シナリオを決定するステップと、
ＡＶプランナにおいて、ツリー探索アルゴリズムを実行して、構築されたゲームツリーを通る経路に対応するＡＶ操縦のシーケンスを決定するステップと、
前記決定されたＡＶ操縦のシーケンスを実行するためのＡＶ制御信号を生成するステップと
を含んでおり、
前記ゲームツリーは、前記遭遇した運転シナリオの予想される状態を表す複数のノードを有し、各々の子ノードの前記予想される運転シナリオの状態は、（ｉ）候補ＡＶ操縦、および（ｉｉ）前記遭遇した運転シナリオ内の少なくとも１つの外部エージェントの予想される挙動に基づいて、親ノードの運転シナリオの状態を更新することによって決定される、自律型車両（ＡＶ）計画方法を提供する。

上述の特徴のいずれも、その実施形態において実施することができる。

本発明のさらなる態様は、本明細書に開示の方法ステップのいずれかを実行するように構成された実行ハードウェアを備えるコンピュータシステム、および実行されたときに方法ステップのいずれかを実施するように構成された実行可能命令を含むコンピュータプログラムを提供する。

またさらなる態様は、本明細書に開示の方法ステップのいずれかを実施するように構成されたコンピュータシステムに具現化された自律型車両（ＡＶ）プランナ、ならびにこの自律型車両プランナと、この自律型車両プランナに結合し、このＡＶプランナによって生成された制御信号に応答する駆動機構とを備える自律型車両を提供する。

本発明をよりよく理解するため、および本発明の実施形態をどのように実施することができるのかを示すために、以下の図を参照する。

自律型車両コンピュータシステムに実装される機能コンポーネントを示す概略の機能ブロック図を示している。自律型車両の操縦計画に使用することができる典型的なゲームツリーを示している。ゲームツリーから実行すべき操縦のシーケンスを選択するために使用することができるツリー探索アルゴリズムのフローチャートを示している。生成挙動モデルを訓練するための訓練システムの概略の機能ブロック図を示している。シミュレータに実装された本技術の例を示している。シミュレータに実装された本技術の例を示している。シミュレータに実装された本技術の例を示している。逆計画法のフローチャートを示している。一例による逆計画の特定の原理を示している。一例による逆計画の特定の原理を示している。一例による逆計画の特定の原理を示している。２つの可能な操縦に基づくツリー探索の例を示している。３つ以上の操縦に基づくツリー探索の例を示している。典型的な逆計画法のフローチャートを示している。別の目標認識方法の決定ツリーを示している。逆計画からの予測を組み込んだ操縦計画方法の概略の機能ブロック図を示している。ＣＣＴＶデータから学習した軌道モデルの一例を示している。本明細書の技術を実施することができる典型的なシナリオを示している。本明細書の技術を実施することができる典型的なシナリオを示している。本明細書の技術を実施することができる典型的なシナリオを示している。他のエージェントに関する確率論的予測が適用されるモンテカルロツリー探索の特定の原理を実証するための高レベルのフロー図を示している。ＣＣＴＶによって監視される領域における通常の運転挙動をモデル化する空間マルコフモデルの一例を示している。

以下、本発明の典型的な実施形態を詳しく説明する。最初に、本発明へのいくつかの有用な文脈を説明する。

図１が、ＡＶ（自車両）の車載コンピュータシステムＡ１に具現化された特定の機能コンポーネント、すなわちデータ処理コンポーネントＡ２、予測コンポーネントＡ４、およびＡＶプランナＡ６のきわめて概略的な機能ブロック図を示している。

データ処理コンポーネントＡ２は、ＡＶの車載センサシステムＡ８からセンサデータを受信する。車載センサシステムＡ８は、さまざまな形態をとることができるが、一般に、例えば画像取込装置（カメラ）、ライダーユニットなど、衛星測位センサ（ＧＰＳなど）、運動センサ（加速度計、ジャイロスコープ、など）など、周囲環境ならびにＡＶおよびその環境内の他のアクター（車両、歩行者、など）の状態についての詳細な情報を抽出することができる豊富なセンサデータを全体としてもたらすさまざまなセンサを備える。

しかしながら、本技術が、ＡＶ自体の車載光学センサ（画像取込装置、ライダー、など）を使用して取得された画像データなどの使用に限定されないことに、注意すべきである。これに代え、あるいはこれに加えて、本方法は、例えばＣＣＴＶ画像など、ＡＶの近傍の外部の画像取込ユニットによって取得された外部取得センサデータの使用にも適用可能である。その場合、本方法の実施に使用されるセンサ入力の少なくとも一部は、ＡＶによって、１つ以上の無線通信リンクを介して、外部のセンサデータソースから受信されてよい。

データ処理システムＡ２は、センサデータを処理し、センサデータからそのような情報を抽出する。これは、一般に、さまざまな形態の機械学習（ＭＬ）／人工知能（ＡＩ）処理を含む。本文脈に関連するデータ処理システムＡ２の機能は、位置特定（ブロックＡ１０）、オブジェクト検出（ブロックＡ１２）、およびオブジェクト追跡（ブロックＡ１４）を含む。

位置特定は、周囲環境および周囲環境中のＡＶの位置の認識を提供するために実行される。この目的のために、視覚的およびマップに基づく位置特定など、さまざまな位置特定技術を使用することができる。例として、参照によってその全体が本明細書に組み込まれる「車両の位置特定（ＶｅｈｉｃｌｅＬｏｃａｌｉｚａｔｉｏｎ）」という名称の英国特許出願第１８１２６５８．１号明細書が参照される。これは、視覚的検出と所定のマップデータとの組み合わせを使用する適切な位置特定方法を開示している。セグメント化が、周囲の道路構造を検出するために視覚的（画像）データに適用され、周囲の道路構造は、基準のマップフレームにおいて周囲環境の道路および／または他の構造に対するＡＶの正確かつロバストな位置推定を決定するために、ＨＤ（高精細度）マップなどの所定のマップデータと照合され、ＡＶの位置推定は、視覚的およびマップデータをマージすることにより、視覚的検出とマップに基づく推論との組み合わせを通じて決定される。位置推定を決定するために、構造の照合から決定された個々の位置推定が、粒子フィルタリングなどを使用して他の位置推定（ＧＰＳなど）と組み合わせられ、個々の位置推定の精度の変動に対してロバストな基準のマップフレームにおけるＡＶの正確な位置推定がもたらされる。マップ上のＡＶの位置が正確に決定されると、視覚的に検出された道路構造が、所定のマップデータとマージされ、ライブマップの形態の車両の現在および過去の周囲環境の包括的な表現、ならびに基準のマップフレーム内のＡＶの位置の正確かつロバストな推定がもたらされる。本文脈における「マップデータ」という用語は、視覚的（または、他のセンサに基づく）検出を所定のマップデータとマージすることによって導出されるライブマップのマップデータを含むが、所定のマップデータまたは視覚的／センサ検出のみから導出されたマップデータも含む。

オブジェクト検出は、車両、歩行者、および他の外部アクターなど、それらの挙動に対してＡＶが安全に応答できる必要がある環境内の外部オブジェクトの検出および位置特定のために、センサデータに適用される。これは、例えば、３Ｄ境界ボックス検出の形態を備えることができ、環境内のオブジェクトの位置、向き、およびサイズ、ならびに／あるいは自車両に対するオブジェクトの位置、向き、およびサイズが推定される。これは、例えば、ＲＧＢＤ（赤、緑、青、深度）、ＬｉＤＡＲポイントクラウド、などの（３Ｄ）画像データに適用することができる。これにより、そのような外部アクターの位置および他の物理的特性をマップ上で決定することが可能になる。

オブジェクト追跡は、環境内の検出されたオブジェクトの任意の運動を追跡するために使用される。結果は、オブジェクト追跡によって時間に対して決定される各々のオブジェクトの観測されたトレース（τ）である。観測されたトレースτは、移動するオブジェクトの履歴であり、移動するオブジェクトの経路を時間に対して捕捉し、さまざまな時点におけるオブジェクトの履歴の速度、加速度、などの他の情報も捕捉することができる。

オブジェクト検出およびオブジェクト追跡を併せて使用することにより、ＡＶの周囲の決定されたマップ上で外部アクターを包括的に位置特定および追跡することが可能になる。

オブジェクト検出およびオブジェクト追跡は、それ自体は周知であり、さまざまな公衆にとって利用可能な技術水準のモデルを使用して本文脈において実行することが可能である。

位置特定、オブジェクト検出、およびオブジェクト追跡の組み合わせにより、データ処理コンポーネントＡ２は、自車両の周囲環境、その環境内の任意の外部アクターの現在の状態（検出可能な範囲において、位置、進行方向、速度、など）、ならびにＡＶにとって追跡可能であったそのようなアクターの履歴トレースの包括的な表現をもたらす。これは、リアルタイムで継続的に更新され、最新の位置および環境の認識を提供する。

予測コンポーネントＡ４は、この情報を予測分析の基礎として使用し、ＡＶの近傍の外部アクターの将来の挙動に関する予測を行う。適切な予測方法の例が、以下で説明される。

ＡＶプランナＡ６は、自車両の周囲環境およびこの周囲環境内の外部エージェントに関する抽出された情報を、予測コンポーネントＡ４によってもたらされる挙動の予測と共に、ＡＶ計画のための基礎として使用する。すなわち、予測コンポーネントＡ４による予測分析は、データ処理コンポーネントによってセンサデータから抽出された情報の上に予測情報の層を追加し、これがＡＶプランナＡ６によってＡＶ計画の決定のための基礎として使用される。これは、一般に、階層的計画プロセスの一部であり、ＡＶプランナＡ６は、さまざまな高レベルの決定を行い、次いで高レベルの決定を実施するために必要なますます低いレベルの決定を行う。最終的な結果は、一連のリアルタイムの低レベルのアクションの決定である。これらの決定を実施するために、ＡＶプランナＡ６は、車両の速度および進行方向を（例えば、操舵、制動、加速、変速、などによって）制御するために、ＡＶの駆動機構Ａ１６に少なくとも部分的に入力される制御信号を生成する。また、シグナリングなどの二次的なアクションを実行するための制御信号も生成される。

シナリオ抽出コンポーネントＡ３は、データ処理コンポーネントＡ２の出力を使用して、自車両について遭遇した運転シナリオを決定する。決定された運転シナリオは、取得されたセンサデータから抽出され、簡潔であるが、リアルなシミュレーションのための基礎として使用されるように充分に詳細であるＡＶが遭遇した現実世界のシナリオの表現を提供する運転シナリオパラメータを含む。これは、そのようなシミュレーションのための基礎として使用することができる構造化シナリオ記述言語で定式化される。公式のシナリオ記述言語におけるシナリオ記述の例が、付録Ａに提示されている。

シミュレータＡ５が、遭遇した運転シナリオのパラメータを受信し、それらのパラメータに基づいてシミュレーションを実行することができる。これらは、遭遇した運転シナリオにおいて何が生じ得るかについて、さまざまな仮定のもとでのシミュレーションである。これらのシミュレーションは、ＡＶ計画のための基礎として使用され、ＡＶ計画において、ＡＶプランナＡ６は、定められた目標を遂行する（すなわち、マップ上の特定の場所に到達するなどの所望の結果を達成する）ために、遭遇した運転シナリオにおいて行われるべき操縦の全体的に最適なシーケンスを決定する目的で、複数のシミュレーションを実行する。以下で説明される例において、シミュレーションは、ＡＶプランナＡ６の操縦選択コンポーネントＡ７によって実行されるモンテカルロツリー探索（ＭＣＴＳ）の一部として実行される。

予測コンポーネントＡ４の機能は、シミュレーションの一部として実行される予測される外部エージェントの挙動をモデル化することである。すなわち、予測される挙動を操縦計画の基礎となるシミュレーションに組み込むことができるように、遭遇した運転シナリオにおける任意の外部アクターの挙動を予測するための外部エージェント挙動モデルを実行することである。

操縦計画
自車両が走行しているとき、定められた目標を実行するためにどの操縦を実行するかを計画しなければならない。示されるように、これを、決定プロセスのためのヒューリスティック探索アルゴリズムであるモンテカルロツリー探索を使用して達成することができる。モンテカルロツリー探索は、「オンライン」推論プロセスであり、すなわち、リアルタイムで実際の運転の決定を行うためにＡＶプランナＡ６によって実行される。

ＭＣＴＳは、ゲームツリーに適用される。ゲームツリーは、ゲーム理論に由来するデータ構造であり、意味のあるスコア付けが可能な種々の考えられる結果の系統的分析を介して合理的な意思決定のためのフレームワークを提供する。完全に構築されたゲームツリーは、有限数の考えられる「ムーブ」で「ゲーム」のすべての考えられる結果をキャプチャし、ゲームという用語は、数学的な意味で、意思決定エージェント間の戦略的相互作用（ムーブ）の形式モデルを意味して使用される。ツリー探索アルゴリズムを、定められた報酬（スコア）関数に関して（全体的に）最適であるムーブのシーケンス（ゲームツリーを通る特定の経路に対応する）を決定する目的で、ゲームツリーに適用することができる。

ＭＣＴＳは、ゲームツリーを探索するための効率的な確率論的ツリー探索アルゴリズムである。ゲームツリーは、さまざまな経路が探索されるときに動的に構築される。ＭＣＴＳの利点は、ゲームツリーを通るすべての可能な経路を完全に探索する必要なく、漸近的に正しい近似を提供できることであり、すなわち、ムーブのすべての可能なシーケンスを考慮する必要はなく、したがってゲームツリーを完全に構築する必要はないことを意味する。その場合、ＭＣＴＳは、ムーブの真の全体的に最適なシーケンスが発見されることを保証しないが、アルゴリズムは、妥当な時間および計算リソースに鑑みて充分に最適化された解に収束する。

本文脈において、順序付けられた操縦の個別のセットに、本目的のための固有のシーケンスとして取り扱われるバリエーションが存在し得ることに留意されたい。例えば、時間ｔ０とｔ１との間の「車線維持」およびｔ１とｔ２との間の「車線変更」を、車線維持から車線変更への変化が異なるそれぞれの時間に発生するため、時間ｔ０とｔ１’（ｔ１とは異なる）との間の「車線維持」およびｔ１’とｔ２との間の車線変更のための操縦の異なるシーケンスと見なすことができる。

本文脈において、ムーブは、運転の操縦である。自車両が切り抜ける必要がある実際の運転シナリオに遭遇すると、ＭＣＴＳは、遭遇した運転シナリオ内の任意の外部エージェント（他の車両、歩行者、など）の予測される挙動を考慮して、遭遇した運転シナリオにおけるさまざまな自車両の操縦（すなわち、自車両のＡＶプランナＡ６が取り得る操縦）のさまざまな生じ得る結果について体系的に推論する手段として適用される。これは、上述のように取得されたセンサデータに基づいて遭遇した運転シナリオをパラメータ化し、抽出された運転シナリオパラメータおよび予測コンポーネントＡ４によってモデル化された外部エージェントの挙動に基づいてシミュレータＡ５でさまざまなシミュレーションを実行することによって達成される。

ＭＣＴＳなどの確率論的ツリー探索アルゴリズムを使用することにより、リアルタイムのＡＶ意思決定の一部として、大きなゲームツリーであっても、操縦の充分に最適なシーケンスを見つけることが可能になる。本文脈において、シナリオに多数のエージェントが存在する可能性があるため、ゲームツリーは大きくなる可能性がある。

これらのシミュレーションの結果は、ゲームツリーを通るさまざまな可能な経路にスコアを付ける目的で、定められた報酬関数を評価するために使用され、これが、報酬関数に関して全体的に最適な経路に向かってＭＣＴＳの実行を駆動する。

典型的なゲームツリーＤ００が、図２に示されている。

ゲームツリーＤ００は、遭遇した運転シナリオの現在の状態ｓ_０（便宜上、時刻ｔ＝０と定義される）を表すルートノードＤ０２を有する。これは、遭遇した運転シナリオ内の自車両の実際の現在の状態および任意の外部エージェントの現在の状態（位置、速度、加速度、など）を、それらの周囲に対し、とくには周囲の道路レイアウト／構造に対して捕捉する。

ＭＣＴＤ００のさらなるノードは、将来のさまざまな時点における自車両の挙動に関するさまざまな仮定の下での運転シナリオの予想される（すなわち、予測される将来の）状態を表す。ＭＣＴＤ００の構造は、ＡＶプランナＡ６が、自車両が操縦の所与のシーケンスを実行した場合に運転シナリオにおいて何が生じ得るかを推論することを可能にする。

このような推論を容易にするために、ＭＣＴＤ００は、以下のように構成される。

可能な操縦は、モンテカルロツリーＤ００のエッジによって表される。自車両について可能な操縦は、自車両の現在の状態ｓ_０および実行されるべき定められた目標に鑑みて仮定される。

ルートノードＤ０２以外の各ノードは、他のノード（親）の子であり、運転シナリオの予想される状態を表す。予想される状態は、以下で説明されるように、特定の一式の関連する仮定の下でシミュレータＡ５において実行される遭遇した運転シナリオのシミュレーションに基づいて、そのようなノードごとに決定される。

エッジが、各々の親ノードからそのそれぞれの子ノードまで示されている。親子ノードの各ペアの間のエッジは、（時刻ｔにおける）親ノードによって表される運転シナリオの状態に鑑みて、ＡＶプランナＡ６がとることができる対応する操縦を表し、子ノードは、この操縦が区間Δｔにわたって実行される場合の（時刻ｔ＋Δｔにおける）運転シナリオの予想される状態を表す。

各々の子ノードの予想される運転シナリオ状態は、親ノードによって表される運転シナリオ状態を、運転シナリオの適切なシミュレーションに基づいて更新することによって決定される。運転シナリオシミュレーションは、以下に基づいて実行され、すなわち、抽出された運転シナリオ記述パラメータ、親状態（これは、例えば、シミュレーションの開始状態として使用され得る）、親ノードと子ノードとの間の対応する運転（その実行は、時刻ｔとｔ＋Δｔとの間でシミュレートされる）、および予測コンポーネントＡ４によってモデル化された時刻ｔとｔ＋Δｔとの間のシミュレートされた外部エージェントの挙動に基づいて実行される。

区間ΔＴにおける自車両による対応する操縦の実行は、親ノードによって表される運転シナリオの状態、その時間区間Δｔにおける外部エージェントの挙動、および実行される操縦に鑑みて、ＡＶプランナＡ６が現実の世界において取るであろうアクションをシミュレートまたは「ロールアウト」することによってシミュレートされる。

自車両による操縦の実行は、特定の状態に鑑みた当該操縦の実行に関して学習または他の様態で決定された「アクションポリシー」を使用してシミュレートすることができる。さらに、アクションポリシーは、現実世界においてその操縦を実行するための基礎としてＡＶプランナＡ６によって使用される。アクションポリシーは、例えば、強化学習（ＲＬ）によって「オフライン」で学習することができる。例として、参照によってその全体が本明細書に組み込まれる「自律型車両の操縦（ＡｕｔｏｎｏｍｏｕｓＶｅｈｉｃｌｅＭａｎｏｅｕｖｒｅｓ）」という名称の英国特許出願第１８１６８５２．６号明細書が参照される。これは、観測された運転挙動データから訓練シナリオが決定される操縦学習のためのフレームワークを開示している。

示されているように、外部エージェント挙動は、予測コンポーネントＡ４の外部エージェント挙動モデルを実行することによってシミュレートされる。適切な挙動シミュレーションモデルの例は、後述される。

例として、図２は、ルートノードＤ０２からルートノードの３つの直接の子ノード（それぞれＤ０６ａ～ｃとラベル付けされている）までのエッジＤ０４ａ～ｃを示している。これらのエッジＤ０４ａ～ｃの各々は、これらの延伸元のノード（この例では、ルートノードＤ０２）の運転シナリオの状態ｓ_０に鑑みて実行され得るさまざまな操縦を表す。これらの子ノードの各々は、状態ｓ_０から開始して、それぞれの操縦が自車両によって実行された場合に予測される運転シナリオの後続の状態（それぞれ、ｓ_１Ａ、ｓ_１Ｂ、ｓ_１Ｃ）を表す。

例えば、エッジＤ０４ａ～ｃは、親状態ｓ_０に対する複数車線運転シナリオにおける「車線維持」、「左車線変更」、および「右車線変更」にそれぞれ対応することができる。状態ｓ_０において、自車両は現在の車線にあり、車線維持の操縦は、適用可能な時間区間Δｔにわたって現在の車線に留まるように実行され、左および右車線変更は、それぞれ現在の車線の左および右の車線への移動を試みるように実行される。状態ｓ_１Ａ、ｓ_１Ｂ、ｓ_１Ｃは、関連の時間区間における外部エージェントの挙動を考慮しつつ、関連の操縦に従って親状態ｓ_０を進行させることによって得られる。

適用可能であり得る他の典型的な操縦として、（例えば、ラウンドアバウトを切り抜けるときの）減速、維持、および脱出が挙げられる。

理解されるように、ツリーのさらに下方のノードの運転シナリオ状態は、それらのそれぞれの親状態から開始して、全く同じやり方で得られる。

特定のノードは、終了（終端）ノードであり、すなわち図２のノードＤ０８およびＤ１０などの子ノードを持たないノードである。これらは「終了状態」を表し、広義には、自車両が定められた目標を首尾よく実行した時点（成功）、または定められた目標に失敗したと判定される時点のいずれかに対応する。失敗は、状況に応じてさまざまなやり方で定義することができるが、例として、自車両が目標の中断を強いられること、車両の進行が不充分であると判定されること、および車両の衝突または安全上の理由での他の失敗が挙げられる。状況に応じて、ルートノードＤ０２から開始して、操縦または操縦のシーケンスが、終端ノードに到達するために必要とされ得る。

随意により、最終目標を、２つ以上の中間目標に分割してもよく、これは、最終目標が遠すぎる場合に適切であり得る。この文脈において、各々の中間目標を、中間目標の終了状態（しかしながら、必ずしも最終目標の終了状態ではない）を表す終端ノードを有する中間目標自体のゲームツリーに基づいて実行することができる。

ゲームツリーＤ００は、ゲームツリーＤ００を通るすべての可能な経路が最終的に有限数のムーブの後に終端ノードで終了するという点で、有限ツリーである。

考慮される各々の終端ノードに、その終端ノードが表す結果の望ましさを示す報酬関数に基づくスコア（報酬）が割り当てられる。これは、それぞれ成功および失敗の２つのスコアを有する単純なバイナリ方式であってよく、あるいは必要に応じて、より豊富なスコアリング機構を適用することができる。例えば、成功の結果は、より短い時間で達成される場合や、状況において適切である任意の基準に基づいてより望ましい場合に、より高いスコアを有することができる。ゲームツリーを通る各々の可能な経路に割り当てられるスコアは、単にその終端ノードに割り当てられるスコアである。

報酬は、必ずしも終端状態においてのみ与えられるとは限らない。考慮される各々の経路に、その経路が表す結果の望ましさを示す報酬関数に基づくスコア（報酬）が割り当てられる。これは、それぞれ成功および失敗の２つのスコアを有する単純なバイナリ方式であってよく、あるいは必要に応じて、より豊富なスコアリング機構を適用することができる。例えば、成功の結果は、より短い時間で達成される場合や、状況において適切である任意の基準に基づいてより望ましい場合に、より高いスコアを有することができる。

本例では、ゲームは、各々のエッジが自車両による操縦に対応するという点で、シングルプレイヤモデルである。外部エージェントの挙動は、適用可能な親ノードから適用可能な子ノードへの移動において発生する状態変化の一部として捕捉される。この方法は、他のエージェントが行う可能性があることをロールアウトするが、そのロールアウトに、自車両について仮定されるアクションに他のエージェントがどのように応答する可能性があるかを組み込んでいない（しかしながら、どちらも除外されない）。すなわち、生成挙動は、自車両ならびに周囲（例えば道路レイアウトなどの運転の文脈）に対する外部アクターの応答をモデル化することができるが、より単純なモデルで許容可能な結果を達成することができるため、外部アクターによる高レベルの意思決定をモデル化することは要件ではない。しかしながら、本技術は、外部アクターによる高レベル計画（逆計画など）のモデルを組み込むように拡張することが可能である。

可能な（すなわち、現実的に達成可能である）操縦のみを仮定することができる。例えば、車両が（親状態に対応する）Ｔ字路に対する特定の場所にある場合、停止、左折、および右折の３つの可能な操縦があり得るが、直進を続けることは選択肢でない。

別の例として、複数車線の道路において、利用可能な操縦は、車線維持および車線変更であってよい。ＭＣＴＳは、車線変更の操縦を安全に開始することができるまで車両が車線維持の操縦を維持するように、これらの操縦を順序付けるために使用される。

モデルは、車両が現実世界においてどのように挙動することができるかに関する理解のレベルを組み込むことができる。例えば、車両の１つの制限は、その場で回転することができないことであることが知られている。したがって、不可能な車両の挙動を必要とする操縦は、仮定されない。

ゲームツリーＤ００を通る最適な経路を識別する１つのやり方は、すべての可能な終了ノードのスコアを評価し、最高のスコアを有する経路を選択することである。しかしながら、実際には、これは、とくにはリアルタイムでは実現不可能であり得る。

そのような状況においては、妥当な量の計算リソースを使用して、妥当な時間で、少なくとも充分に最適に近い経路を見つけることができるＭＣＴＳなどの確率論的ツリー探索を使用することができる。

図８が、所与の目標に対して可能な操縦が２つしか存在しない場合に使用され得るＭＣＴ８００の単純な例を示している。例えば、目標は、側道から特定の方向の交通流に合流することであってよい。この例において、ＡＶは、道路に合流するために左折する必要がある。両方の道路が単一の車線である場合、ＡＶが実施することができる２つの可能な操縦は、停止または左折である。これにより、車両がいつ「停止」から左折に変化するかに応じて、例えば（停止、停止、曲がる、曲がる、・・・）対（停止、停止、停止、曲がる、・・・）など、複数の可能な操縦シーケンスが生じる。

ＡＶの現在の状態ｓ_０は、ＡＶが合流点に近づいているときの状態である。これは、時刻ｔ_０におけるルートノード８０２によって表される。ＡＶは、合流点において停止しても、道路へと左折してもよい。これらの２つの可能な操縦は、それぞれエッジ８０４ａおよび８０４ｂによって表される。

主要道路に合流するという目標を達成するために、ＡＶは、左折する操縦、すなわちエッジ８０４ｂを実施しなければならない。しかしながら、これは、いつでも実施することができる。ＭＣＴ８００は、５つの時間区間Δｔの各々の後のＡＶの予測される状態を示しているが、より多くの時間区間またはより少数の時間区間が考慮されてもよいことを、理解できるであろう。状態が判定される時間区間は、図８のＭＣＴにおいては同じであるとして示されているが、各々の反復の時間区間が違ってもよいことを、理解できるであろう。

ＡＶは、状態ｓ_０で開始する。すぐに主要道路へと左折することを選択した場合、エッジ８０４ｂに従い、予測される状態は、子ノード８０６ｂによって表されるｓ_１Ｂである。ＡＶが主要道路に合流したため、これは終端ノードである。状態ｓ_１ＢがＡＶにとって安全な状態である場合、終端ノード８０６ｂは成功である。しかしながら、例えばＡＶが外部エージェントに衝突し、あるいは接近したなど、状態ｓ_１Ｂが安全でない場合、終端ノード８０６ｂは失敗である。

あるいは、ｔ_０において、ＡＶは、エッジ８０４ａに従う停止の操縦を実施することができる。したがって、結果として得られる予測される状態ｓ_１Ａは、主要道路との合流点において停止したＡＶに対応する。次いで、ＡＶは、時刻ｔ_０＋Δｔにおいて、エッジ８０８ｂを選択して左折の操縦を実施するか、あるいはエッジ８０８ａを選択して停止したままでいるかを、決定しなければならない。

この場合も、結果として、ＡＶが主要道路上に位置することに対応する状態ｓ_２Ｂを有する１つの終端ノード８１０ｂと、ＡＶが主要道路に合流していないがゆえに終端ノードではない１つの子ノード８１０ａとがもたらされる。

これが、さらなる時間ステップごとに繰り返され、経路は、ＡＶが主要道路に合流したことに対応する状態で終了する。これらの状態のうちのいくつかが失敗である一方で、他のいくつかは成功である。次いで、最適な経路が、構築されたＭＣＴから発見される。

図９が、２車線の道路からランドアバウトに接近するＡＶの典型的なＭＣＴを示している。図５Ａ～図５Ｃが、そのようなシナリオを示している（下記を参照）。

目標は、ＡＶがランドアバウトに合流することである。初期状態ｓ_０は、左車線においてランドアバウトに接近するＡＶを含む。ＡＶは、停止、車線維持、および右への車線変更という３つの可能な操縦を実行することができる。これらの３つの操縦は、それぞれエッジ９０４ａ、９０４ｂ、９０４ｃによって表される。結果として生じる状態ｓ_１Ａ、ｓ_１Ｂ、およびｓ_１Ｃは、ランドアバウトとの合流点において停止するＡＶ、現在の車線にてランドアバウトに合流するＡＶ、または道路の右車線に車線変更するＡＶにそれぞれ対応する。

ＡＶがエッジ９０４ｂを辿る場合、結果としての状態ｓ_１Ｂは、終端ノード９０６ｂである。これは、ＡＶがランドアバウトに合流したためである。終端ノード９０６ｂは、成功したノードであっても、成功したノードでなくてもよい。

ＡＶがエッジ９０４ｃを辿って右への移動を実施する場合、ＡＶは、道路の右車線に進入する。次いで、ＡＶは、前進を続けるエッジ９０８ｂの選択肢、または停止するエッジ９０８ａの選択肢を有する。前進を続けることによって、ＡＶはランドアバウトに合流し、したがって経路は終端ノード９１０ｂで終了する。しかしながら、ＡＶが停止した場合、ＡＶは、次の時間区間において、停止の操縦または車線維持の操縦（すなわち、右車線においてラウンドアバウトに合流する）のいずれかを実施することができる。

ＡＶは、エッジ９０４ａを辿り、現在の状態ｓ_０から停止の操縦を実施する場合、３つの操縦、すなわち停止、車線維持、および右への移動のいずれかを再び実施する選択肢を有する。

車線維持の操縦が実施されるたびに、ＡＶがランドアバウトに合流したため、終端ノードが生成される。右への移動の操縦が実施されると、次の反復においては右への移動の操縦を実施することができないため、子ノードの数は１つ減少する。停止の操縦が実施された場合、３つの操縦のすべてが可能なままである。ＭＣＴを、このやり方で、すべての可能な経路について構築することができる。ひとたびＭＣＴが構築されると、最適な経路が発見される。

上述したように、必ずしもＭＣＴが完全に構築されなくても、充分に最適な解を見つけることは可能である。

図３が、図２のゲームツリーＤ００について実行され得る典型的なＭＣＴＳアルゴリズムのフローチャートを示している。ＭＣＴＳ法は、それ自体は知られているため、関連するステップは、本文脈におけるＭＣＴＳの適用を実証するために簡単に説明されているにすぎない。

ＭＣＴＳは、考慮対象の終端ノードからの報酬の「逆伝播」の形態と考えることができる確率論的計算に基づいて反復的に動作する（これが、ニューラルネットワークにおける逆伝播に使用されるチェーンルールとは異なる確率論的計算であることに留意されたい）。

ゲームツリーＤ００は、ＭＣＴＳが実行されるときに動的に構築され、実際には部分的にしか構築されない可能性が高い。ノードが、新たな状態に遭遇するたびに追加され、その状態から車両が実行することができる可能な操縦が仮定される。これが、終端ノードに到達するまで続けられる。

各々の反復は、最初にルートノードＤ０２の選択（ステップＥ０）から開始して、既存のツリーを縦走することによって始まる。選択されたノードは、訪問済みとしてマークされ（Ｅ２）、ルートノードから終端ノードまでゲームツリーＤ００を通る単一の経路が、試行される（Ｅ４）。これは、終端ノードに到達するまで、上述したように、（ルートノードの状態から出発して）運転シナリオの状態の連続的な変化を決定するためにシミュレーションを実行することを意味する。展開はランダム化され、すなわち操縦がランダムに選択され、新たなノードがツリーに追加される。新たなノードが終端でない場合、終端ノードへのロールアウトがシミュレートされる。また、ロールアウトもランダム化され、すなわち葉ノードから出発して、そこから終端ノードへと進むために操縦がランダムに選択される。次いで、反復は、上述のようにスコア付けされ、そのスコアに関する情報が、訪問済みのノードを介して逆伝播される（Ｅ６）。次に、未訪問のノードが選択され（Ｅ８）、新たに選択されたノードでプロセスがステップＥ２から繰り返される。

各々の反復は、最初にルートノードＤ０２の選択（Ｅ０）から出発して、以前に訪問されたことがないノードを「訪問」することによって始まることができる。選択されたノードは、訪問済みとしてマークされ（Ｅ２）、選択されたノードから終端ノードまでゲームツリーＤ００を通る単一の経路が拡張される（Ｅ４）。これは、終端ノードに到達するまで、上述したように、（選択されたノードの状態から出発して）運転シナリオの状態の連続的な変化を決定するためにシミュレーションを実行することを意味する。経路の拡張は、ランダム化され、すなわち現在の選択されたノードから出発して、そこから終端ノードへと進むために操縦がランダムに選択される。次いで、終端ノードは、上述のようにスコア付けされ、そのスコアに関する情報が、拡張された経路を通って逆伝播される（Ｅ６）（注：拡張された経路に沿ったノードは、訪問済みとしてマークされない）。次に、未訪問のノードが選択され（Ｅ８）、新たに選択されたノードでプロセスがステップＥ２から繰り返される。未訪問のノードは、これまでにゲームツリーを通って逆伝播されたスコア情報に基づいて、ノードの選択をより有望な結果に向かって（時間につれて）バイアスさせる一方で、単なる局所最適への望ましくない収束のリスクを軽減するように充分な探索のレベルを依然として奨励するやり方で、選択される。

プロセスは、終了するまで反復的に繰り返される（Ｅ１０）。これは、例えば、特定の時間制限に達した場合や、特定の回数の反復が実行された場合などであってよい。ＭＣＴＳの利点は、いつでも終了できることであるが、より長く実行されるほど、平均して全体的に最適な解に近くなる。

終了すると、ＡＶプランナＡ６は、拡張された経路のうちの最も有望であると判定された１つを選択し、遭遇した現実世界の運転シナリオにおいて対応する操縦のシーケンスを実行するようにＡＶを制御するための制御信号を生成する（Ｅ１２）。

最も有望な経路は、最大のスコアを有する経路であってよい。しかしながら、スコア以外の情報も考慮に入れることができる（下記を参照）。

ＡＶが遭遇する実際の運転シナリオにおいて、典型的には、道路レイアウトは不変かつ既知であるが、シナリオ内の他の車両／アクターは動的である。したがって、時間につれてＭＣＴＳ手順が実行されるときに新たなアクターが検出される可能性がある。進行中のＭＣＴＳ手順の最中に新たなアクターが検出されると、構築された既存のノードおよびエッジを含む構築されたゲームツリーの構造は保持される。しかしながら、新たに検出されたエージェントのシミュレーションによる挙動を考慮に入れて報酬関数を再計算するために、既存のゲームツリーにおいてシミュレーションが再実行される。

図５Ａは、シミュレータにおけるランドアバウト運転シナリオに適用されるＭＣＴＳプロセスの一例を示している。自車両は、参照番号５００で示されており、ランドアバウト上の他の車両５０２の存在下で、ランドアバウトシナリオにおいて安全に計画する必要がある。これは、「減速」、「車線維持」、および「右車線変更」（右への変更）という操縦の充分に最適なシーケンスを選択することによって行われる。

図５Ｂは、さまざまな操縦シーケンスがＭＣＴＳによってどのように評価されるかを示している。

図５Ｃは、ランドアバウトに進入するための操縦シーケンスを選択および実行する自車両５００を示している。次いで、プロセスは、ランドアバウトを脱出するための操縦シーケンスの決定および実行を繰り返す。

後述されるように、ＭＣＴＳを、他のエージェントの挙動に関する確率論的予測によって実施することができる。例えば、以下では、確率論的操縦検出および確率論的目標認識の両方を考慮する。確率論的予測において、関連する１つ以上の分布が、決定論的予測または予測のセット（サンプル）を効果的に取得するために、プロセスの開始時にサンプリングされる。次いで、ＭＣＴＳは、確率論的予測からサンプリングされたさまざまな決定論的予測で繰り返される。

図１５が、確率論的予測で実施されるＭＴＣＳの高レベルのフローチャートを示している。

ステップ１５０２において、外部アクターについて少なくとも１つの確率論的予測が決定される。これは、例えば、エージェントの可能な操縦の分布Ｐ（Ｍ│τ）および／または可能な目標の分布Ｐ（Ｇ│Ｏ）であってよい（下記を参照）。

Ｏという表記は、一式の観測値を意味する。観測値Ｏは、観測されたトレースτ自体（Ｏ＝τ）であってよいが、Ｏは必ずしもこの点に関して限定されない。例えば、一実施態様において、観測値Ｏは、エージェントの操縦Ｍ_ｊを含み、その場合、Ｐ（Ｇ│Ｍ_ｊ）という表記を（観測値Ｏはさらなるパラメータを含む可能性があるため、おそらくは略記として）使用することができる（操縦をトレースτから推論できることにも留意されたい）。

ステップ１５０４において、一式の決定論的予測を取得するために、ステップ１５０４の分布がサンプリングされる。例えば、Ｐ（Ｍ│τ）をサンプリングして、実際の現在の操縦Ｍ_ｊを選択することができ、かつ／またはＰ（Ｇ│Ｏ）をサンプリングして、統計的にロバストな方法で実際の現在の目標を選択することができる（より可能性の高い目標、操縦、などが選択される可能性が高くなるように）。

ステップ１５０６において、上述したように、ＭＣＴＳプロセス全体が実行される。これは、ツリーを探索するためにＭＣＴＳプロセス内で実行される反復ステップと区別するために、ＭＣＴＳプロセスの「超反復」としての反復であってよい。

ＭＣＴＳの複数の超反復は、例えば同じ目標／操縦分布Ｐ（Ｇ│Ｏ）／Ｐ（Ｍ│τ）からステップ１５０４でサンプリングされたさまざまな目標／操縦など、確率論的予測のさまざまなサンプリングで繰り返される。すなわち、超反復ごとにステップ１５０４において確率論的予測が再サンプリングされる。この繰り返しは、例えば時間制限への到達または特定の回数の超反復の実行などの一式の停止条件が満たされる（１５０８）まで実行されるように示されている。

ＭＣＴＳプロセスの超反復のすべてが完了すると、自車両のための最も有望な操縦シーケンスを選択するために、ステップ１５１０において、すべての結果の統計分析が適用される。

全体の結果のステップ１５１０における統計分析は、ＭＣＴＳの各々の超反復で決定されたスコアを考慮する。しかしながら、所与の操縦シーケンスに関連する「信頼度」など、他の情報も考慮に入れることができる。信頼度は、操縦シーケンスがシミュレーションによってどの程度まで試験されたかを反映する。例えば、特定の操縦シーケンスが、或るＭＣＴＳ超反復において高いスコアであったが、他の超反復において試験されていない可能性がある。その場合、このシーケンスは、高いスコアを有するが、信頼性が低く、したがってスコアはより低いが、信頼性がより高く、すなわちより広く試験された操縦シーケンスを支持して、無視することができる。

外部エージェント挙動シミュレーション
ゲームツリーＤ００が構築されるにつれての運転シナリオ状態の変化を判定するために、外部アクターの将来の動きを予測する必要がある。上述したように、そのような外部エージェントの挙動は、この目的のために、予測コンポーネントＡ４によってモデル化される。

この文脈において、さまざまな形態の生成モデルを使用することができる。

好適なモデルの一例は、「逆プランナ」である。例として、参照によってその全体が本明細書に組み込まれる「自律型車両の計画および予測（ＡｕｔｏｎｏｍｏｕｓＶｅｈｉｃｌｅＰｌａｎｎｉｎｇａｎｄＰｒｅｄｉｃｔｉｏｎ）」という名称の英国特許出願第１８１６８５０．０号明細書が参照される。これは、外部エージェントの挙動をシミュレートするために本文脈において使用することができる逆プランナを開示している。逆計画は、以下で説明される。

エージェントは、必ずしも同じ方法を使用するとは限らないが、車両と同じレベルで計画すると仮定することができる。

予測の目的で車両および外部エージェントによって共有されると仮定される知識は、マップである。

操縦計画のためのＭＣＴＳを目標認識と組み合わせることができる特定の機構のさらなる詳細は、逆計画の説明の後で後述される。

逆計画コンポーネントＡ２４が、図１において予測コンポーネントＡ４の一部を形成するように示されている。逆計画コンポーネントＡ２４（逆プランナ）は、後述される「逆計画」を実現する。

これに加え、あるいはこれに代えて、生成モデルが、ＣＣＴＶ（閉回路テレビ）映像などの現実の運転挙動データを使用してエージェントの将来の動きを予測するように訓練されてもよい。

そのような一例は、ｔ_０に先立つ短い時間期間の外部エージェントの観測されたトレースなどのオブザーバパラメータを使用して、エージェントがどのように動く可能性が高いかを予測するニューラルネットワークに基づくモデル（または、他の訓練可能な関数近似器）である。これは確率論的モデルであってもよいし、決定論的であってもよい。そのようなモデルを、適切に訓練されたときに訓練用の例から一般化するそのようなモデルの能力を活用して、モデルが以前に遭遇したことのない運転の文脈（未知の道路レイアウトなど）における現実的な挙動を生成するために使用することができる。

別の例は、例えばＣＣＴＶ映像に基づいて、既知の運転領域の直接的観測を通じて導出されるその運転領域のモデルである。例えば、都市の運転の文脈において、複雑な／混雑しているジャンクション、ラウンドアバウト、などの困難な運転領域のためのモデルを構築することができる。そのようなモデルの１つは、空間マルコフモデルであり、このモデルにおいては、運転領域がグリッドセルに分割され、グリッドセルの占有確率および／またはグリッドセル間の遷移確率が長期観察を通じて決定され、これを、外部エージェントの挙動をその観測されたパラメータに基づいて予測するために使用することができる。

これらは、訓練された挙動生成モデルの例である。

図４を参照すると、生成モデルＦ０６を、訓練コンピュータシステムＦ００においてオフラインで外部エージェントの挙動をシミュレートするように訓練することができる。ＣＣＴＶデータなどの現実世界の運転挙動データＦ０１が、訓練システムの挙動抽出コンポーネントＦ０２で受信され、挙動抽出コンポーネントＦ０２は、データを処理して、訓練に使用するための運転挙動の例を抽出する。訓練コンポーネントＦ０４が、これらの例を使用して、上述したように、観測されたパラメータ（観測されたトレースなど）に基づいて外部車両の挙動をシミュレートするように生成モデルＦ０６を訓練する。訓練コンポーネントＦ０４および挙動抽出コンポーネントＦ０２は、訓練システムＦ００の１つ以上のプロセッサ（図示せず）上で実行される訓練システムＦ００の機能コンポーネントである。このように生成モデルＦ０６が訓練されると、それを自律型車両の車載コンピュータシステムＡ１の電子ストレージに転送することによってＡＶに組み込むことができ、予測コンポーネントＡ４による上述の機能の実行が可能になる。

逆計画
定められた目標を安全かつ効果的に実行するために自車両が行うべき操縦、アクション、などのシーケンスの決定などのＡＶ計画の決定においてＡＶプランナＡ６を支援するために、逆プランナＡ２４は、本文脈においてエージェントと呼ばれることもある近傍の外部アクターの動きを予測する。逆プランナＡ２４は、上述の文脈において適用され得る生成挙動モデルの一例である。

外部アクターの現在の操縦に関する確率論的予測を行うために、逆計画を、操縦レベルにおいて実施することができる。例えば、逆プランナＡ２４は、トレースτを含む（または、トレースτから導出される）一式の関連の観測値のセットに鑑みて、「車線維持」、「車線変更」、などの一式の利用可能な操縦Ｍにおける確率分布Ｐ（Ｍ│τ）を予測することができる。操縦レベルにおける逆計画は、（確率論的な）操縦検出の一形態である。

これに代え、あるいはこれに加えて、逆計画は、外部アクターの現在の目標に関する確率論的予測を行うために、目標レベルにおいて実施されてもよい。例えば、逆プランナＡ２４は、一式の利用可能な目標Ｇにおける確率分布Ｐ（Ｇ│Ｏ）を予測することができる。例えば、左折を伴う運転シナリオにおいて、目標は、適切な目標位置として捕捉された「左折」目標または「直進継続」目標（すなわち、現在の道路上に留まり、左折をしない）であってよい。目標レベルにおける逆計画は、（確率論的な）目標認識の一形態である。

目標認識および操縦検出は、典型的には、異なる時間尺度で動作する。目標認識は、一般に、操縦検出と比べて、未来へとより長い時間期間を考慮する。例えば、操縦予測が、未来へと数秒（例えば、５ｓ程度）に目を向けることができる一方で、目標認識は、（状況に応じて）これよりもさらに先に目を向けることができる。したがって、目標認識は、一般に、操縦認識よりも長い軌道（すなわち、さらに将来への軌道）を考慮する。

目標を、例えば、自車両がマップ上の現在位置から到達しようと試みているマップ上の（すなわち、基準のマップフレーム内の）所望の位置（基準点）として捕捉することができ、所望の位置は、遭遇した道路レイアウトに関連して定義される。例えば、所望の位置は、特定の合流点、車線レイアウト、ランドアバウト出口、などに関連して定義されてよい。周囲の道路レイアウトおよび任意の外部アクターに鑑み、所望の位置に到達することによってその目標を成功裏に実行するために車両がとることができるさまざまな経路／アクションが存在すると考えられる。また、自車両がそのようにすることを妨げる自車両アクションも存在すると考えられ、例えば、初期アクションのシーケンスの選択が良好でないと、目標を実行し続けると不安全になりかねない場合に外部アクターの挙動に起因して車両が望ましくないランドアバウト出口を取らざるを得なくなり、あるいは他のかたちで目標を中断する結果となり得る。外部アクターの挙動に関する信頼できる予測を計画に組み込むことは、ＡＶプランナＡ６による安全かつ効果的な計画に役立ち、目標の中断の発生を最小限に抑える。

目標レベルにおいて実施される場合、逆計画は、各々の外部エージェントについてさまざまな可能な目標を仮定し、次いで、エージェントが各々の目標をどのように達成することができるかについての軌道、および各々の軌道をたどる可能性を生成する。根底にある仮定は、各々の外部エージェントが生成モデルを使用して予測することができるやり方で行為することである。

本文脈における逆計画は、ＡＶ予測コンポーネントＡ４によって実施され得る特定の種類の予測方法を指す。すなわち、逆計画法は、外部アクター、とりわけ他の車両の挙動を、外部アクターが予測可能な様相で計画すると仮定することによって予測する特定の方法である。

「逆計画」という用語は、外部アクターが自身の決定を予測可能なやり方で計画するというこの根底にある仮定を指す。より形式的には、仮定することができる生成モデルによって他の車両が計画および実行を行うことが想定される。

ここで、逆計画法を、本方法のフローチャートを示す図６を参照して説明する。これは、目標レベルにおける逆計画を考慮するが、根底にある原理は、操縦レベルにおける逆計画にも等しく当てはまる。本方法のステップは、充分に最新の予測がＡＶプランナＡ６に常に利用可能であるように、逆プランナＡ２４によってリアルタイムまたは疑似リアルタイムで繰り返し実行される。本方法は、データ処理システムＡ２によってもたらされる情報、すなわち、周囲の環境／道路レイアウト、環境内の任意の他のアクターの位置／状態、およびオブジェクト追跡を通じて観測されるそれらのアクターのトレースに関する情報を利用する。

以下のステップは、検討中の１つ以上の外部アクター（車両、歩行者、サイクリスト、など）の各々について実行され、それらのアクターは、以下の例ではＡＶ以外の車両である。

ステップＳＢ２（図６）において、対象の他の車両について、仮定された目標の組が決定される。他の車両は、これらの目標のうちの１つを現在実行していると仮定される。仮定された目標の適切な組を決定するために、他の車両の近傍の道路レイアウトなど、運転の文脈が決定される。

外部エージェントの目標は、一般に、マップに基づいて仮定される。例えば、マップ上に示された道路合流点、ランドアバウト、または他の道路レイアウト（運転の文脈）の近傍の外部車両の組に鑑みて、適切な目標を、（エージェントの観測された過去の挙動を考慮することなく）道路レイアウトのみから仮定することができる。一例として、左折合流点の近傍の外部エージェントの組において、仮定される目標は、左折および直進の継続であってよい。示されるように、そのような目標は、マップ上の適切な目標位置（例えば、基準点）を参照して定められる。

しかしながら、利用可能な目標は、さまざまなやり方で仮定されてよい。例えば、観測された過去の挙動（時刻ｔに先立って観測されたトレースなど）を、外部エージェントの目標を仮定する際に考慮することができ、あるいはマップに基づく推論と過去の挙動に基づく推論との組み合わせを使用して、目標を仮定してもよい。

利用可能な目標を仮定するために過去の挙動が使用されない場合でも、過去の挙動が、それにもかかわらず、それらの目標の各々の可能性を決定するために使用されることに留意されたい（Ｐ（Ｇ│Ｏ））はエージェントの挙動の観測値Ｏに依存するため）。

仮定された目標の組を決定すると、それらの目標の各々について、以下のステップが実行される。

ステップＳＢ４において、対象の仮定された目標について、予想軌道モデルが決定される。予想軌道モデルは、他の車両の将来の挙動を、その車両がその特定の目標を実行しているという仮定に基づいて、シミュレートするモデルである。とくには、予想軌道モデルは、他の車両が、所与の期間Δｔ（時刻ｔから時刻ｔ＋Δｔまで）において、その期間においてその目標を実行していると仮定して、特定の経路（軌道）をとる可能性がどれだけ高いかを示す。示されるように、車両が実行している目標は、マップに基づいて終点によってパラメータ化され得る。例えば、目標が（例えば、左折するのではなく）直進である場合、終点は、同じ車線内の車両の前方の例えば４０ｍなどの所定の距離の道路上の点であってよい。あるいは、例えば複数車線のシナリオにおいて、目標位置は、特定のレーンを指定せずに前方の道路に沿った或る程度の距離であり得る（さらなる詳細については、以下を参照）。

予想軌道モデルは、単に所与の目標のための（単一の）予測経路であってよいが、この例では、対象の目標のための予測経路分布の形態をとる。予測経路分布は、この例では、時刻ｔにおける外部車両の位置ｒ_ｔに鑑みて、対象の目標のためのｎ個の予測経路の離散セットを合成することによって、各々の目標についてもたらされ、少なくとも時間区間Δｔにおける予測経路分布をもたらす。

例として、図７Ａが、特定の外部車両について予測された目標Ｇ１およびＧ２のそれぞれのための予測経路のそれぞれの組Ｐ_Ｇ１、Ｐ_Ｇ２を示している。目標Ｇ_１、Ｇ_２は、マップ上の点または領域であってよい基準のマップフレーム内の基準位置Ｒ_１、Ｒ_２に対してそれぞれ定義される。時刻ｔにおける外部車両の位置ｒ_ｔおよび各目標の基準点Ｒ_１、Ｒ_２に鑑みて、予測経路セットＰ_Ｇ１、Ｐ_Ｇ２は、それぞれ目標Ｇ_１、Ｇ_２について合成される。

この例では、各目標は単に単一の基準点／領域に関して定義されているが、理解されるように、目標は、例えば状況に応じて複数の基準点を参照して、他のやり方で定義することが可能である。一般に、目標は、１つ以上の目標パラメータの組によって定義され、１つ以上の目標パラメータは、一般に、自動運転の文脈における基準のマップフレームにおいて定義される。基準のマップフレーム内の基準位置は、目標パラメータの一例であり、そのような基準位置に関するすべての説明は、他の種類の目標パラメータにも等しく当てはまる。

左折の例に続いて、他の車両が「直進」目標を実行した場合に取ることができると予測される経路である「直進」目標のための１組の経路が生成され、他の車両が「左折」目標を実行した場合に取ることができると予測される経路である「左折」目標のための別の１組の経路が生成される。

生成モデルを使用して、これらの経路を合成することができる。根底にある仮定は、他の車両がこのモデルを使用して計画および実行することである。そのモデルは、（他の車両が自車両と同じやり方で計画すると仮定して）ＡＶプランナＡ６自体に対応することができるが、ＡＶ自身のプランナとは違ってもよい。

例えば、経路を、高速探索ランダムツリー（ＲＲＴ）モデルを使用して各目標について合成することができる。図７Ａの例に従って、各目標Ｇ_１、Ｇ_２について、予測経路の空間（探索空間）が、その目標の基準位置（それぞれＲ_１、Ｒ_２）および外部車両の現在位置ｒ_０に基づいて定義される。次いで、ｎ個の経路の組、およびそれらの経路の各々の尤度を決定するために、探索空間が（ランダム化された入力パラメータに基づいて）ランダムにサンプリングされる。各目標についてｎ個の経路をシミュレートするために、ＲＲＴの関連パラメータは、探索空間のｎ個の適切にバイアスされたランダム探索を実行するために、ｎ回ランダム化される。

例として、参照によってその全体が本明細書に組み込まれる「安全な移動の計画のための衝突確率の効率的な計算（Ｅｆｆｉｃｉｅｎｔｃｏｍｐｕｔａｔｉｏｎｏｆｃｏｌｌｉｓｉｏｎｐｒｏｂａｂｉｌｉｔｉｅｓｆｏｒｓａｆｅｍｏｔｉｏｎｐｌａｎｎｉｎｇ）」という名称の英国特許出願第１８０３２９２．０号明細書が、逆計画を実施するために本文脈において使用することができるＲＲＴモデルを開示している。所与の軌道に沿った衝突の確率的リスクが計算され、安全性によって候補軌道を順位付けするために使用される。これは、対象の目標を実行するために外部車両がより安全な経路をとる可能性が高いという仮定に基づいて、各々のサンプリングされた経路の尤度をもたらす。すなわち、経路の確率を、安全性への仮定された関係に基づいて決定することができる。サンプリングされた経路およびそれらの確率は、軌道モデルの一例である。

しかしながら、これは適切な生成モデルの一例にすぎず、生成されたモデルの他の形態も使用することができる。代替の軌道モデルの例が、後述される。

そのような一例は、観測されたトレースおよび実行されるべき目標に鑑みて経路予測モデル（例えば、予測経路または予測経路の分布）を出力するように訓練されたニューラルネットワークに基づくモデルである。ネットワークは、現実世界の運転挙動の例に基づいて訓練される。例えば、ニューラルネットワークを、都市運転環境において取得されたＣＣＴＶ（閉回路テレビ）データの大規模なコーパスから抽出された例に基づいて訓練することができる。

別の例は、充分な時間期間にわたって運転領域を監視することによって特定の運転領域について予め決定され得る空間マルコフモデル（または、同様のモデル）である（上記を参照）。

一般に、逆プランナＡ２４は、異なる仮定された目標に関して推論することができる任意のモデルであってよい。

ステップＳＢ６において、時間期間Δｔ（すなわち、時刻ｔとｔ＋Δｔとの間）にわたって実際に観測された他の車両のトレースが、その時間期間Δｔの対象の目標に関する経路の分布と照合され、その目標の尤度が決定される。

例として、図７Ｂが、時刻ｔとｔ＋Δｔとの間の対象の車両の実際に観測されたトレースτを示している。実際のトレースτを目標Ｇ_１、Ｇ_２の各々についての予測経路分布（図７Ａ）と照合することによって、各々の目標Ｇ_１、Ｇ_２の尤度を、時間区間Δｔについて確率的に決定することができる。これは、ソフトマッチングの形態であってよい。目標尤度を、外部車両の観測されたトレースτに鑑みて、仮定された各目標Ｇ_ｉの条件付き確率、すなわちｐ（Ｇ_ｉ│τ）として捕捉することができ、これは、観測されたトレースτに鑑みて外部車両が時間区間Δｔにおいてその目標Ｇ_ｉを実行していた推定確率である。

換言すると、逆プランナＡ２４は、仮定された目標の各々について、他の車両が時間区間Δｔにおいてその目標を実行していたと仮定して、他の車両がその時間期間において取ることができた一式の可能な経路およびそれらの経路の各々の尤度（すなわち、他の車両がその目標を実行していた場合に時間区間Δｔにおいて何を行ったと考えられるか）を予測するために使用される。次いで、これが、その時間期間における他の車両の実際のトレース（すなわち、他の車両が実際に何を行ったか）と比較され、時間期間Δｔの各目標の尤度が決定される。

図７Ｃを参照すると、今や観測されたトレースτに鑑みて各目標の尤度が既知であるため、観測されたトレースτに鑑みた時刻ｔ＋Δｔの後の任意の所与の予測経路（軌道）Ｔの（絶対）尤度を、例えば

と決定することができ、ここで、ｐ（Ｇ_ｉ│τ）は、上述のように定義され、時刻ｔ＋Δｔにおける目標Ｇ_ｉの経路分布に鑑みてエージェントが経路Ｔをとる推定確率である。なお、表記「Δｔ」と「ΔＴ」とは本明細書において同等である。また、軌道を表すために使用される数学的表記（小文字または大文字のギリシャ文字「タウ」、すなわちτ、Τ）と、時間を表すために使用される表記（小文字または大文字のラテン「ティー」、すなわちｔ、Ｔ）との間の区別にも留意されたい。

軌道は、単純な空間経路であってよいが、説明は、運動情報（速力／速度情報、加速度、など）を取り入れる軌道にも等しく当てはまる。後者の場合、２つの軌道が同じ空間経路に対応する（あるいは、軌道の少なくともそれぞれの一部分が同じ空間経路に対応する）場合もあるが、それにもかかわらず、それらは、例えば異なる速度情報に関連付けられている（例えば、一方が、実質的に同じ空間経路に沿って移動しているが、少なくとも空間経路に沿ったいくつかの地点において速度がより遅い車両に対応する）がゆえに、異なる軌道であり得る。例えば、軌道は、関連の速度あるいは空間経路のそれぞれの地点または部分に関連付けられた一式の速度と組み合わせられた空間経路の形態をとることができる。拡張は、関連の加速度値などをさらに取り入れることができる。

図には示されていないが、ｐ（Ｔ│Ｇ_ｉ）を決定するための時刻ｔ＋Δｔにおける経路分布は、それ自体は、例えば、上述のように目標Ｇ_ｉについて時刻ｔ＋Δｔにおいて逆プランナＡ２４を、新たに決定された時刻ｔ＋Δｔにおける外部エージェントの位置ｒ_ｔ＋Δｔで再実行することにより、予想軌道モデルを相応に更新することによって決定することができる。目標パラメータは、逆プランナＡ２４を再実行する目的で、この時点において更新されても、更新されなくてもよい。データ駆動挙動モデルが使用される場合、同様に、挙動モデルを、予想軌道モデルを更新するために、その時点で再実行することができる。

上述のステップは、おそらくはリアルタイムで、時間につれて繰り返し実行される。目標への到達から或る程度遠い外部エージェントについては、異なる目標への経路分布が最初は類似しており、これが仮定された目標の組における確率の分布に反映されるため、どの目標を実行しているかを最初は明確に決定することができない可能性がある。経路分布が発散するにつれて、確率分布は、一般に、経路分布の発散につれて特定の目標に向かって傾き始める。

操縦の逆計画
上記は、目標の逆計画を考慮している。示されるように、逆計画を、操縦レベルにおいて、仮定された操縦Ｍの組について実施することもできる。

例えば、他の車両が現時点において近くに分岐点のない複数車線の道路を走行している場合、仮定された操縦Ｍの組は、「車線維持」および「車線変更」で構成され得る。その場合、他の車両が「車線維持」操縦を現時点において実行している場合に取ることができると予測される経路である「車線維持」操縦のための１組の経路が生成され、他の車両が「車線変更」操縦を実行している場合に取ることができると予測される経路である「車線変更」操縦のための別の１組の経路が生成される。上述の説明は、操縦レベルの逆計画に、仮定された目標Ｇの組の代わりに仮定された操縦Ｍの組を用いて、等しく当てはまる。

操縦レベルの逆計画に関して、外部エージェントの観測されたトレースτを使用して、可能な操縦Ｍの組の各々の操縦Ｍ_ｊ∈Ｍの確率を推定することができる。各々の操縦Ｍ_ｊ∈Ｍについて、図７Ａのように、予測軌道モデルが時刻ｔについて決定される。予測軌道モデルは、単一の軌道または軌道分布であり得る。次いで、実際の観測されたトレースτを各々の操縦Ｍ_ｊの軌道モデル（図７Ｂのような）と比較することによって、その操縦の確率Ｐ（Ｍ_ｊ│τ）を、観測されたトレースτがその操縦Ｍ_ｊの軌道モデルにどの程度一致するかに基づいて推定することができる。上述のように、これは、ソフトマッチングの形態であってよい。

以下の例では、計算を単純にするために、各々の操縦Ｍ_ｊは、逆計画の目的に関して単一の軌道にマッピングされる。軌道分布に関連する操縦の場合、分布のうちの最頻の軌道または最も可能性の高い軌道を、逆計画の目的のために採用することができる。その場合、単一の軌道Ｔ_ｊが存在すると仮定され、したがって
Ｐ（Ｔ_ｊ│Ｍ_ｊ）＝１
であり、他のすべての軌道の確率は、０であると仮定される。

上記で使用された表記法は、所与の操縦Ｍ_ｊに関連する軌道Ｔ_ｊと、所与の目標Ｇ_ｉに関して評価された軌道Ｔとを区別する。

目標Ｇ_ｉに到達するために、外部エージェントは、例えば（Ｍ_ｊ、Ｍ_ｋ、・・・）などの操縦のシーケンスを実行することができる。その場合、全体的な目標軌道（すなわち、目標Ｇ_ｉに到達すること）は、個々の操縦Ｍ_ｉ、Ｍ_ｊに関連する操縦軌道の組み合わせとして決定され得る。例えば、以下で説明される実施態様では、目標軌道は、操縦軌道を組み合わせ、それに速度平滑化を適用することによって決定される。この理由で、操縦Ｍ_ｉに関連付けられた（または、関連して評価された）軌道Ｔ_ｉは、「部分軌道」と呼ばれる場合があり、目標に関連付けられた（または、関連して評価された）軌道Ｔは、「完全軌道」と呼ばれる場合がある。

特定の目標Ｇ_ｉまでの複数の軌道が考慮される場合、表記Ｔ^（ｎ）を、Ｔの代わりに、目標Ｇ_ｉまでのｎ番目の軌道を指して使用することができる。

部分軌道と操縦との間の「１対１」の関係というこの上述の単純化の仮定は、より少ない計算負荷で許容可能な性能をもたらすことが明らかになっている。しかしながら、軌道と操縦との間の「１対１」の関係というこの単純化の仮定を行わない代案の実施態様が、それにもかかわらず実行可能である。この単純化の仮定がない場合、より一般的なベイズ静止関係

が成り立ち、ここで、ｐ（Ｔ_ｋ│Ｍ_ｊ）∈［０，１］が、操縦Ｍ_ｌに鑑みた部分軌道Ｔ_ｊの確率である。その場合、最頻／最も可能性の高い部分軌道を仮定するのではなく、代わりに部分軌道をｐ（Ｔ_ｊ│Ｍ_ｌ）からサンプリングすることができ、最頻／最も可能性の高い部分軌道に関する本明細書のすべての説明は、その場合のサンプリングされた軌道に等しく当てはまる。

逆計画－典型的な実施態様
さらなる例示として、ここで、目標認識のための逆計画の典型的な実施態様をさらに詳細に説明する。これは、目標レベルで逆計画を使用して、少なくとも１つの外部エージェントの一式の利用可能な目標Ｇの確率分布Ｐ（Ｇ│Ｏ））を予測し、すなわち利用可能な目標の各々について、エージェントが現時点においてその目標を実施している推定確率を予測する。

さらに、記載された実施態様は、確率論的操縦検出を使用して、外部エージェントの観測されたトレースτに鑑みて一式の可能な操縦Ｍの分布Ｐ（Ｍ│τ）を予測し、すなわち可能な操縦の各々について、エージェントが現時点においてその操縦を実行している推定確率を予測する。操縦予測は、後述されるように、目標予測に供給される。操縦検出を、例えば、操縦レベルで逆計画を使用して実施することができる。

換言すると、説明した実施態様は、操縦レベルおよび目標レベルの両方で推論する。

目標認識
目標認識は、エージェントの過去のアクションの観測および他の文脈上の情報に鑑みて、エージェント（以下の例ではターゲット車両であるが、上述したように別の形態のアクターであってもよい外部アクター）のエージェント目標を推論するプロセスである。

本文脈において、目標は、典型的には、高速道路／ジャンクション上のさまざまな出口点あるいは異なる車線など、逆プランナＡ２４が推論する車両の目標の目標位置を指定する。別のエージェントの目標を知ることにより、仮定された目標に関連するエージェントの挙動について予測を行うことができるため、計画プロセスに情報を提供することができる。

目標認識を使用すると、ＡＶシステムの「説明可能性」も増す。説明可能性とは、その決定を人間に説明するシステムの能力を指す。目標推論プロセス（さまざまな時点において自車両が他の車両の目標と信じたもの）を記録することにより、決定のトレースおよびデバッグのための解釈可能な情報を提供することができる。

目標は、決定論的または確率論的に推論され得る。以下の例において、目標は、一式の関連の観測値Ｏに鑑みて確率論的に推論され、すなわち目標事後Ｐ（Ｇ│Ｏ）が、有限の一式の利用可能な目標Ｇについて推定され、Ｐ（Ｇ_ｉ│Ｏ）は、観測値Ｏに鑑みて外部エージェントが目標Ｇ_ｉ∈Ｇを有する確率である。

ＭＣＴＳの文脈において、目標は、ツリーが上述の意味でロールアウトされるときに外部アクターの将来の軌道に関する合理的な予測を行うために、確率的に推論される。

操縦および目標
最初に、利用可能な目標および操縦を決定するための典型的なスキームが説明される。この説明は、後述される逆計画の特定の実施態様への関連の文脈を提供する。しかしながら、説明は、これに関して限定されず、逆計画／目標認識の代案の実施態様および目標認識を使用しない実施態様（例えば、より高いレベルの目標認識を伴わないデータ駆動の挙動モデルを使用する上述の例）を含むＭＣＴＳの他の実施態様にも、等しく当てはまる。

マルチポリシーベースライン
「マルチポリシー法」が、ベースラインとして使用される。マルチポリシー法の根底にある仮定は、自車両を含むすべての車両（または、より一般的には、外部アクター）が、車線維持、車線変更、方向転換、などの有限数の操縦のうちの１つをいつでも実行していることである。そのような操縦は、本明細書において、「操縦ポリシー」と呼ばれることもある（操縦ポリシー、すなわち、有限の一式の操縦のうちの操縦と、選択された操縦ポリシーを実行するために使用され得るアクションポリシーとの間の区別に注意されたい；本明細書において操縦について英国式／米国式の綴りが互換的に使用されることにも注意されたい）。

「ターゲット」アクターは、その挙動が予測されている外部アクターを意味する。予測を、１つまたは複数のターゲット車両（または、他のアクター）について行うことができ、上述の一連の仮定が、各々のターゲットアクターに適用される。先行の段落における操縦ポリシーの例は、実際には「閉ループ」であり、すなわちセンサフィードバックを考慮に入れて、速度および先行車両（先行車両はターゲット車両が追従している車両である）までの距離を自動的に変更する。しかしながら、以下で説明されるように、逆計画の目的のために、それらを、計算効率の向上という利点を有し、逆プランナＡ２４の性能に大きな影響を与えることがない「開ループ」操縦としてモデル化することができる。以下の例において、ターゲット車両および先行車両は自動車であるが、説明は、あらゆる形態のアクター（車両、歩行者、サイクリスト、など）に等しく当てはまる。同様に、この例は、自律型の自動車（自車）を考慮しているが、説明は、任意の形態の自律型車両に当てはまる。

以下で詳しく説明される図１２が、予測コンポーネントＡ４の一部として操縦検出器１１０２を示している。

一例として、操縦検出器１１０２は、上述したやり方で操縦レベルでの逆計画を実施することができる。

別の例として、操縦検出器１１０２は、ベイズ変化点検出法を実施することができる。この方法は、ターゲット車両の観測された低レベルの軌道を操縦のシーケンスへとセグメント化するために使用され、最新のセグメントが、自動車の現時点において実行されている操縦の予測として使用される。この予測を使用して、いくつかの前方軌道が、自車に利用可能な各々の操縦についてシミュレートされ、最良の評価を有する操縦が、実行のために選択される。

ベイズ変化点検出は、それ自体は公知であり、システムの根底にある隠れ状態の変化の確率論的検出を指す。本文脈において、特定の時刻における外部アクターの隠れ状態は、その時点において実行中の操縦ポリシーとして定義される。この隠れ状態は、直接的に観測することは不可能であり、したがって、この例においては観測されるトレースである隠れ状態が引き起こす観測値を通じて、推論される必要がある。これにより、現時点における各々の利用可能な操縦の確率、すなわち外部アクターが現時点においてその操縦を実行している確率を、推定することができる。

例えば、隠れマルコフモデル（ＨＭＭ）を使用し、操縦をＨＭＭの隠れ状態として表すことができ、観測されたトレースは、ＨＭＭの状態遷移から生じるものとしてモデル化される。

以下で説明されるように、計画プロセスを大幅に単純化するために、操縦ポリシーの比較的小さな組を定義することが可能である。操縦ポリシーは、速度および距離などの低レベルの計画を包含するように定義されるため、そのような小さな組を定義することが可能である。同様に、他の車両がこれらの同じポリシーのうちの１つを実行していると仮定されるため、それらの現在の操縦を、低レベルの軌道に鑑みて効率的に推論することができる。

このマルチポリシー法自体は、他の車両の現在の操縦を予測するだけであり、それらの将来の操縦を予測しようとはしないという点で、近視眼的である。逆計画は、後述されるように将来のアクションを予測するためにこの方法に基づいて構築される。

操縦
基本操縦
操縦は、計画および予測に使用される基本アクションを表す。以下の「基本」（基本的な）操縦が、この例において考慮される。

・車線維持
・左右の車線変更
・右左折（進行方向に最も近い車線へと向かう）
・停止／警戒
記載された技術を、他の操縦またはさらなる操縦へと拡張できることを、理解できるであろう。

各々の基本操縦は、それぞれに関する特定の適用可能性および終了条件を有する。操縦は、所与の状態において、その状態が操縦の適用可能性条件を満たす場合に限り、利用可能である。例えば、左への車線変更は、車両の左側に車線があり、その車線に車両のための充分な空きスペースがある場合にのみ可能である。さらに、適用可能性条件は、交通規則をエンコードすることもできる。状態が終了条件を満たす場合、操縦は終了する。車線変更の操縦の場合、これは、ひとたび車両がその車線に達し、車線方向に整列した場合である。

操縦の開始と終了との間で、操縦は、自車が辿るべき基準経路および経路における目標速度を指定する。本文脈において、軌道が、ペア（静的基準経路，目標速度）と定義される。すなわち、静的基準経路に関の一連の目標速度を加えたものとして定義される（上記を参照）。

しかしながら、一般に、操縦には複数の軌道が関連付けられる。例えば、予測の文脈において、操縦に軌道分布、すなわち各々が指定された確率（すなわち、外部アクターが、現時点においてその操縦を実行していると仮定して、その軌道を辿る確率）を有している軌道の組を関連付けることができる。

車線維持および警戒などのいくつかの操縦は、自然な終了条件を持たない。そのような操縦の場合、終了条件がパラメータとして指定される。「マクロアクション」（下記を参照）が、文脈情報に基づいてこれらのパラメータを自動的に設定する。

警戒の操縦は、マクロアクションで使用される停止操縦の変種である。警戒は、車両を減速させ、パラメータとして与えられた指定された場所へと移動し続ける。その場所において、操縦は、終了条件が満たされたならば終了し、そうでない場合には、車両を完全に停止させ、次いで終了条件が満たされた場合に終了する。終了条件は、（パラメータとして与えられる）指定された車線における接近交通をチェックするために使用される。車線が指定されていない場合、終了条件は常に真である。これにより、接近交通が存在する可能性があるときに安全かつ円滑な進入／脱出を計画することができる。

出口左右マクロのみを警戒する特別な場合として、接近車両が停止し、少なくとも制御された車両が向きを変える操縦を完了させるために必要な時間にわたって停止したままであると予測される場合、強制終了が可能にされる。これにより、後述されるシナリオ３のような特別な場合が可能になる。

基本操縦のいくつかは、追加のパラメータを有し、あるいは向きを変える操縦などのきわめて特定の場所でのみ可能であるため、マクロアクション内でのみ使用される。

以下の例は、２種類の基本操縦を使用し、すなわち逆計画（予測）、より一般的には図１の目標認識コンポーネントＡ２４による目標認識のための開ループ操縦、およびＡＶのプランナＡ６におけるＭＣＴＳ自己計画のための閉ループ操縦を使用する。これらは、以下の箇所で詳述される。

閉ループ操縦
基本操縦は、センサからのフィードバックを使用する場合、閉ループである。これは、操縦におけるさまざまな程度の自動化をカバーし得る。ここで、各々の閉ループ操縦は、車両の速度および先行車両までの距離を自動的に制御する（アダプティブクルーズコントロール（ＡＣＣ）の一形態）と仮定される。また、各々の操縦は、自動的に緊急ブレーキを開始できると仮定される。

システムは、操縦の具体的な実施態様について不可知であり、本質的に操縦を「ブラックボックス」機能と見なす。これは柔軟性の利点を有し、さまざまな表現を単刀直入に組み込むことを可能にする。可能な実施態様として、以下が挙げられる。

・有限状態機械または任意のプログラミング論理を使用するハードコードされたヒューリスティック
・運動学的自転車モデルによって定義された運動プリミティブを使用する格子経路プランナ
・制約最適化プランナ
上記リストの計画方法を、それらを閉ループにするために、状態変化後に繰り返し呼び出すことができる。

開ループ操縦
閉ループ操縦とは対照的に、開ループ操縦は、センサフィードバックを使用しない。開ループ操縦は、基準経路（または、経路についての分布）を指定し、これらの経路をフィードバックで修正することを試みない。これにより、操縦のより単純かつ計算コストの低い実装が可能になる。

やはり、システムは、開ループ操縦の表現について不可知である。

開ループ操縦を実施する簡単であるが効果的な方法は、道路のトポロジから抽出された一式の点に多項式関数を適合させる。目標速度を、一定または他の時系列に設定することができる。これは、軌道の分布ではなく、むしろ１つの軌道を計算し、これは、多くの実際の文脈において充分であることが明らかになっている。

別の実施態様は、収集された運転軌道へとガウス過程またはニューラルネットワークなどの上述の種類の挙動モデルを使用する。この軌道データは、さまざまなやり方で生成され得る。

・シミュレーションにおいて、さまざまな状況下で、対応する閉ループ操縦を使用する。

・ＡＶプラットフォームで生成された実際の運転データから。

・認識された操縦へとセグメント化される実際のＣＣＴＶデータから。例として、図１３が、時間につれてＣＣＴＶ映像において観測された軌道へとフィットさせたガウス軌道モデル１２０２の例を示している。

警戒の操縦において使用される「接近交通がなくなるまで待つ」などの条件は、条件が真であると予測されるまで（例えば、交通がなくなると予測されるまで待つ）指定された時間にわたって待つことによって、開ループ操縦において実現することができる。

目標速度および速度平滑化
上述したように、この例において、軌道は、一連の目標速度と組み合わせられた静的経路として定義される。

目標速度は、基本操縦の内部で設定される。一般原則として、車両が特定の領域において特定の速度（例えば、速度制限）で走行しようとすると（例えば）仮定することができる。この目標は、前方に速度の遅い車が存在する場合（この場合、その車の速度が新たな目標である）や、走行経路の曲率などのために必要である場合に減らされる。

開ループ車線維持の場合、目標速度は、
ｍｉｎ（制限速度、存在するのであれば前方の車の速度）
に設定される。

その単純さゆえに、この方法は、安価に計算することができるが、衝突する他の車両の予測軌道をもたらす可能性がある。例えば、下記のシナリオ１において、トラックが制限速度で直進を続ける（前方に車両が存在しないため）と予測され、制限速度での車両２による追い越し（追い越しのうちの車線維持部分における）も想定される。車両２の逆計画が実際にはトラックについて一定の速度を仮定したため、車両２の予測軌道およびトラックの予測軌道が衝突する可能性がある。しかしながら、この場合、および他の多くの場合に、この不一致は自車のプランナＡ６にとって問題を引き起こさないことが明らかになっており、この単純な方法の予測出力を使用して、安全かつ効果的な計画決定を依然として行うことができる。

湾曲した軌道（例えば、旋回および車線変更）を生成する基本操縦において、目標速度は、局所的な曲率に基づき、ヒューリスティックを使用して設定される。この関数が、以下に示され、ここでｖ_{ｔａｒｇｅｔ}が目標速度であり、ψは点曲率である。他の項は、適切な値に設定された定数である。

ｖ_{ｔａｒｇｅｔ＝ｍａｘ}（ｖ_ｍｉｎ，ｖ_ｍａｘ－ｃψ）点曲率は、以下の式によって与えられ、ここでｘおよびｙはデカルト座標である。ｘおよびｙの導関数は、有限差を使用して車両の目標経路から推定される。

速度平滑化
速度は基本操縦の内部で設定されるため、２つの後続の操縦が、速度の急激な変化を有する可能性がある。典型的な例は、車線維持に続く旋回操縦である。

この影響を補償するために、異なる操縦にまたがる結果としての全体の軌道を速度について平滑化して、制御および現実性を改善することができる。所与の軌道における目標速度を最適化する速度平滑化関数が使用される。速度平滑化は、予測（逆計画）およびＭＣＴＳ自己計画の両方に使用される。

速度平滑化は、与えられた経路に沿った軌動における最適化問題として定式化される。長手方向位置における点の集合

およびそれらのそれぞれの目標速度

を仮定し、連続的かつ微分可能な関数κ：ｘ→ｖがフィットされる。次いで、タイムホライズンＴ_Ｈ（これは、例えば、目標速度を使用して推定することができる）、２つの時点間の経過時間Δｔ、および他の最適化パラメータ（例えば、最大速度ｖ_ｍａｘおよび加速度α_ｍａｘ）を考慮して、平滑化問題は次のように定義される。

Ｎ＝［Ｔ_Ｈ／Δｔ］
この問題の解から、空間的に再サンプリングを使用して、

において実際に達成可能な値を得ることができる。最後の達成可能な位置は、ｘ_Ｎによって与えられる。

の場合、この解のみから再サンプリングが可能である。

あるいは、ｘ_Ｎから開始して同様の問題を解くことができ、この手順を、条件が達成されるまで繰り返すことができる。

また、問題の拡張として、加速度などの軌道に関連する他のパラメータをモデル化し、そのようなパラメータに制約を課すことも可能である。

速度平滑化は、完全な停止を表す入力軌道の速度ゼロを尊重すべきである。これを達成する単純なやり方は、軌道を停止事象（速度ゼロ）によって分離されたセグメントに分割し、各セグメントに平滑化関数を適用することである。

マクロアクション
本明細書において「マクロアクション」と呼ばれる特別な種類の操縦は、２つの重要なやり方、すなわち共通の操縦シーケンスを指定すること、およびコンテキスト情報（通常は、道路レイアウト）に基づいて基本操縦の自由パラメータを自動的に設定することで、プランナを楽にする。

この例では、以下のマクロアクションが使用される（括弧内に操縦パラメータが示されている）。

・車線を継続：シーケンス＜車線維持（可視の車線の終わり、すなわち車線の終わりまで）＞を指定する。

・左右の脱出：シーケンス＜車線維持（曲がる地点／その付近まで）、警戒（接近交通がなくなる／安全な距離になるまで）、左折／右折＞を指定する。出口点は、自車の目標に対応する出口点となるように自動的に設定され、マクロアクションがより早い出口点をスキップすることを可能にする（これは、ランドアバウトで特に有用である）。

・交差道路：シーケンス＜車線維持（道路横断／その付近まで）、警戒（交差道路からの接近交通がなくなる／安全な距離になるまで）、車線維持（道路横断後まで）＞を指定する。

・追い越し：シーケンス＜右車線変更、車線追従（自車が他車を過ぎるまで）左車線変更＞を指定する。

マクロアクションの適用可能性の条件は、マクロアクションにおける第１の操縦の適用可能性の条件、および場合によっては追加条件によって与えられる。例えば、＜左脱出＞の追加条件は、車が進行方向における最も右側の車線にあり、かつ目的とする出口点が車の前方の同じ車線にあることである。＜交差道路＞の追加条件は、自車が別の車に道を譲らなければならない道路交差が存在することである（後述のシナリオ３を参照）。マクロアクションの終了条件は、マクロアクションにおける最後の操縦によって与えられる。

マクロアクションは、単一のマクロアクションで所与の目標を充分に達成できるため、計画および予測プロセスを大幅に高速化することができる。例えば、後述のシナリオ２において、自車の目標がＧ３である場合、単一のマクロアクション＜右脱出＞ですでに目標を達成できると考えられる。また、マクロアクションは、本来であれば明示的に計画される（例えば、車線維持などの操縦のオープン終了条件を設定する）必要がある操縦間の切り替え点を自動的に処理するがゆえに、有用である。

この研究において使用されるマクロアクションは、分解可能なアクションの階層を定義せず、単にアクションのシーケンスを柔軟なやり方で定義する。マクロアクションは、計画探索空間に暗黙的に含まれる。

上述したように、以下で説明される特定の典型的なＭＣＴＳプロセスに関して、マクロアクションにおけるすべての基本操縦は、閉ループであり、逆計画の場合、すべての基本操縦は開ループである。

目標および目標生成
自車の目標
自車の目標は、ルート計画に基づいて生成される。ルートプランナ（Ａ２５、図１）が、注釈付き道路マップ（車線方向、交通標識、などが注釈付けされている）および開始／終了位置を入力として取得する。ルートプランナは、自車が走行しなければならない道路セグメントおよび方向のシーケンスを指定する開始位置から終了位置までのルートを計算する。このルートが、プランナＡ６に渡され、以下のように自車の目標を生成するために使用される。

概念的には、プランナＡ６は、以下に示されるシナリオ写真と同様に、自車を中心とするビュー領域（例えば、正方形または円形あるいは任意の適切な形状）にてマップを「ズームイン」する。このビュー領域は、自車と共に継続的に移動する。任意の時点において、自車の目標は、（車が現在の道路から接続道路へと乗り換える必要がある）ルートにおける次の出口点によって与えられ、ルートにおける次の出口点がまだ見えていない場合には、現在の車線の可視端によって与えられる。例えば、後述のシナリオ１において、次の出口点は見えないため、目標はＧ１である。後述のシナリオ２においては、出口点が見えるようになり、新たま目標はＧ３になる。

他車の目標
別の車の目標は、例えば、自車のビュー領域によって境界付けられ、その車にとって可能な出口点およびその車の方向の道路の可視端として定義され得る。ヒューリスティック目標生成関数が、道路レイアウトおよび交通規則に関する情報（例えば、ＳＤＬロードグラフを使用する）を使用して、所与のビュー領域内の車の一式の可能な目標を列挙するために使用される。多数の目標（例えば、多数の出口点）が存在する場合に計算時間を短縮するために、関数は、自動車の出口点目標を、自動車の前方の同じ車線上にすでに２つのより早い出口点が存在する場合に、無視することができる。

「私の前方にいてほしい」など、他の種類の目標を指定することもできる。そのような目標を、環境内の自動車の現在の構成に基づいて動的に追加および削除することができる。以下のシナリオの説明は、目標の例を示す。

目標認識
この典型的な実施態様において、目標認識は、図１０を参照して以下で説明されるように、「コストペナルティ」に基づいて実行される。

本文脈における「計画」は、目標に到達するために選択された１つ以上の基本操縦のシーケンスを意味する。場合によっては、そのような基本操縦のシーケンスを、マクロアクションによって定義することができる。マクロアクションまたは複数の基本操縦の他のシーケンスにおいて、各々の基本操縦は、部分軌道に関連付けられ、部分軌道が速度平滑化を使用して組み合わせられ、目標に到達するための完全な軌道を決定する。

図１０が、コストペナルティに基づいて、有限の一式の利用可能な目標から、外部アクターの目標を確率論的に推論する方法の概略フローチャートを示している。図１０の右側は、下記の２つの利用可能な目標を有するシナリオに適用されるステップの説明のための例を示している。

１．Ｇ_１－現在の道路を進み続ける。可視道路の端部の目標位置として（より一般的には、現在の道路上の自動車の前方の基準点として）定義される。

２．Ｇ_２－右折出口を選択する。出口位置に関して定義される。

観測された車の一式の可能な目標と、車によって実行された過去の基本操縦のシーケンスとに鑑みて、逆計画のプロセスを使用して、目標の事後分布を計算することができる。この方法は、観測値Ｏのシーケンス（例えば、上述の例における観測されたトレースτ_ｎなど）、目標の事前分布Ｐ（Ｇ）、および尤度関数Ｌ（Ｏ│Ｇ）に鑑みて、可能な目標Ｇのベイズ事後値Ｐ（Ｇ│Ｏ）～Ｌ（Ｏ│Ｇ）Ｐ（Ｇ）を計算する。

表記Ｐ（Ｏ│Ｇ）およびＬ（Ｏ│Ｇ）は、同等であり、目標Ｇに鑑みた観測値Ｏの条件付き確率を意味する。「Ｌ」という表記は、これらの確率が統計的な意味での尤度であるという事実に一致して使用される（なお、本開示において、尤度という用語が、必ずしもこの特定の統計的な意味ではなく、通常の意味ですでに使用されていることに注意されたい；意味は文脈において明らかであろう）。

目標は、目標位置に関して定義され、Ｇ_ｉという表記は、その領域の目標位置を表すために使用され得る。目標位置Ｇ_ｉは、空間内の点であってよいが、領域であっても、道路に沿った特定の距離に対応してもよく、例えば、目標位置を道路に垂直な線として定義することができ、その場合、自動車を、ひとたび（道路内の横位置に関係なく）その線に到達したならば目標に到達したと称することができる。

所与の目標Ｇ_ｉ∈Ｇについての尤度Ｌ（Ｏ│Ｇ_ｉ）は、２つの計画のそれぞれのコストの間の差（コストペナルティ）として定義される。

１．車の（時刻ｔにおける）初期位置ｒ_ｔから目標位置Ｇ_ｉまでの最適な計画、すなわち時刻ｔの後の車のいかなる観測された挙動にもかかわらずｒ_ｔからＧ_ｉに至る最適な計画。これを、基本操縦、マクロアクション、またはマクロアクション以外の複数の基本操縦のシーケンスとして実行することができる。複数の基本操縦によって、それらに関連する部分軌道を組み合わせて、初期位置ｒ_ｔから目標Ｇ_ｉに到達するための最適な全体の軌道がもたらされる（時刻ｔの後の車の実際の観測された挙動に関係なく）。

２．「最良の利用可能な」計画－これは、時刻ｔと時刻ｔ＋Δｔとの間の車の任意の観測された挙動に鑑みたｒ_ｔから目標位置Ｇ_ｉまでの最適な計画、すなわち、この計画が後続の時間区間ΔＴにおいて実際に観測された挙動に一致しなければならないという追加の制約のもとでのｒ_ｔからＧ_ｉに到達するための最良の計画として定義される。換言すると、計画が観測Ｏを尊重するような車の初期位置ｒ_ｔから目標Ｇ_ｉまでの最適な計画として定義される。これは、車が目標を達成するために最適な計画を実行する可能性がより高いが、ある程度の逸脱は許容することを仮定している。これも、基本操縦、マクロアクション、またはマクロアクション以外の複数の基本操縦のシーケンスとして実行することができる。複数の基本操縦によって、それらに関連する部分軌道を組み合わせて、初期位置ｒ_ｔから目標Ｇ_ｉに到達するｔからｔ＋Δｔまでの区間の車の実際の観測された挙動も考慮した「最良の利用可能な」全体の軌道がもたらされる。最良の利用可能な軌道は、実際の観測された軌道に一致する区間［ｔ，ｔ＋Δｔ］についての観測された部分と、後続の時間区間についての将来部分とを有し、将来部分は、最良の利用可能な全体の軌道に関連する全体的なコスト（すなわち、観測された部分および将来部分の両方の全コスト）を最小にするように選択される。

これは、（複数の操縦に関連する複数の部分軌道に基づくことができる）目標に到達するための全体の経路を考慮するため、目標認識の一形態である。

全体の軌道に割り当てられるコストは、後述するようにさまざまな要因を考慮に入れることができる。これは、運転時間（目標への到達により長い時間がかかる軌道は不利に）、安全性（不安全な軌道は不利に）、および快適性（例えば、ジャークが過度な軌道は不利に）を含む。

車の初期位置ｒ_ｔは、例えば、車の第１の観測された位置であってよい。合理的な手法は、自車のセンサ範囲によって定められる過去の観測の移動ウィンドウを使用して初期位置ｒ_ｔを定義することである。

図１０のステップ１００４において、各々の目標Ｇ_１、Ｇ_２について最適な計画（上記１）が計算される。ひとたび計算されると、これにより、例えばＡ＊探索を使用して、各々の目標Ｇ_１、Ｇ_２について最適な軌道を決定することができる（詳細については以下を参照）。最適な軌道を計算した後に、最適な軌道に関連する全コストを計算することができる（やはり後述）。最適な軌道は、完全な軌道であり、すなわち初期位置ｒ_ｔから問題の目標に到達するための軌道である。

図１０の例では、軌道は、時間的に等間隔の軌道に沿った点によって示され、したがって等間隔の点は一定の速度を意味し、点間の距離の増加（または、減少）は加速（または、減速）を意味する。白丸は、最適な軌道点を表すために使用される。したがって、目標Ｇ_１について、最適な軌道は一定速度で道路に沿って続く直線経路である一方で、目標Ｇ_２について、最適な軌道は、車が出口のための転回点に近づくにつれて徐々に減速することを、見てとることができる。

ステップ１００６において、各々の目標Ｇ_１、Ｇ_２について、最良の利用可能な計画（上記２）が計算される。示されるように、これらは、時刻ｔ（車が初期位置ｒ_ｔにあったとき）と現在の時刻ｔ＋Δｔとの間の実際の観測値Ｏを考慮に入れる。これらの観測値Ｏは、黒丸を使用して図１０に表されている観測された低レベルのトレースτを含むことができる。

その文脈において、観測値Ｏは、これに代え、あるいはこれに加えて、自動車の現在の操縦を含むことができ、すなわち、各々の目標の確率を、自動車が現時点において実行している操縦に応じて推定することができる。それらは、過去に観測された操縦をさらに含むことができる。

図１０には明示的には示されていないが、上述したように、確率論的操縦検出が、自動車の可能な現在の操縦の確率分布を予測するために適用される。したがって、現在の操縦を確定的に知ることはできず、可能な現在の操縦の分布Ｐ（Ｍ│τ）に関して確率論的に知ることのみが可能である。これは、最初にｐ（Ｍ│τ）から現在の操縦Ｍ_ｊをサンプリングし、次いでこの現在の操縦Ｍ_ｊについての目標確率分布ｐ（Ｇ│Ｏ）（すなわち、Ｍ_ｊを含む観測値Ｏを有する）からサンプリングすることによって対処することができる。

最良の利用可能な計画から、最良の利用可能な軌道を決定することができ（詳細については以下を参照）、これにより、最良の利用可能な軌道の全体コストを決定することができる（やはり後述）。これも、初期位置ｒ_ｔから目標位置Ｇ_ｉまでの完全な軌道であるという意味で、完全な軌道である。最良の利用可能な軌道は、実際の観測された軌道（すなわち、図１０の黒丸）に一致する時刻ｔとｔ＋Δｔとの間の観測された部分を有し、斜線入りの円を使用して図１０に表されるｔ＋Δｔの後の時間の将来部分をさらに含む。

図示の例において、目標Ｇ_１の最良の利用可能な軌道の観測された部分（黒丸）および将来部分（斜線入りの円）の両方が、この目標Ｇ_１の最適な軌道（白丸）に適度に良好に一致することを、見て取ることができる。したがって、目標Ｇ_１のコストペナルティ（最適な軌道のコストと最良の利用可能な軌道のコストとの間の差）は比較的小さい。

しかしながら、目標Ｇ_２については、車が最適な軌道によって必要とされる程度まで時間ｔ＋Δｔまでに失敗しているため、観測された軌道（黒丸）が、最適な軌道（白丸）からかなり大きく逸脱する。この不一致は、それ自体は大きなコストペナルティを必ずしも引き起こさない（実装の詳細に依存しても、しなくてもよい）。しかしながら、観測された挙動の結果として、最良の利用可能な軌道の将来部分（すなわち、時刻ｔ＋Δｔの後の部分）が、コスト関数によって不利にされる急制動を必然的に含まなければならない（自動車の現在位置からＧ_２までの最低コストの経路が、自動車の状況に鑑みて急制動を含まなければならないという事実を反映する）ことを、見て取ることができる。最適軌道のコストとのこの不一致は、目標Ｇ_２に関するより高いコストペナルティを意味する。

ステップ１００８において、各々の目標Ｇ_１、Ｇ_２について、目標尤度Ｌ（Ｏ│Ｇ）が、コストペナルティ、すなわちその目標についてのステップ１００４で計算された最適な計画のコストとステップ１００６で計算された最良の利用可能な計画のコストとの間の差に関して計算される。これにより、目標尤度および目標事前値に基づいて目標事後Ｐ（Ｇ│Ｏ）を計算することができる（ステップ１０１０）。

事前Ｐ（Ｇ）を、特定の目標の「固有の」確率に関する知識をエンコードするために使用することができる。例えば、図１０のシナリオにおいて、右折出口を選択する車が比較的まれにしかないことが観測され、これをＰ（Ｇ_２）＜Ｐ（Ｇ_１）によって事前としてエンコードすることができる。これは、Ｇ_２に有利になるように目標Ｇ_１を効果的にバイアスする。この事前知識のないシナリオの場合、各々の目標を、特定の車の個々の挙動の観測が存在しない場合に、同じ確率、すなわちＰ（Ｇ_１）＝Ｐ（Ｇ_２）と単純に仮定することができる。

上記では、目標が与えられると、車の初期位置ｒ_ｔに鑑みてその目標のための最適な計画を決定することができ、後続の時間区間Δｔにおける観測に鑑みてその目標のための最良の利用可能な計画を決定することができると仮定している。さらに、最適な（または、最良の利用可能な）計画に鑑みて、最適な（または、最良の利用可能な）軌道を決定することができると仮定する。このやり方で目標を軌道への計画にマッピングするための１つの機構は、以下で説明されるように、Ａ＊探索を使用する。

確率論的計画認識アルゴリズム
Ａ＊検索
「Ａ＊探索」は、マクロアクションを含む開ループ操縦について実行される。操縦は、それらの適用可能性条件に基づいてフィルタリングされる。基本操縦が軌道の分布を指定する場合、適切な単一の軌道を、例えば最頻または最も可能性の高い軌道として選択することができる。

Ａ＊探索は、ノードおよびエッジの重み付きグラフに関して定式化された既知の方法である。本文脈においては、（開始ノードによって表される）所与の位置から指定された目標Ｇ_ｉに到達するための最適な計画を見つけることを目的とする。グラフのノードは、操縦（基本操縦またはマクロアクション）を表し、目的は、比較的低コストで目標に到達するノードのシーケンス（したがって、シーケンス操縦）を発見することである。各々のノードｎについて、「それまでのコスト」ｇ（ｎ）が、開始ノードからノードｎまでのコストとして定義され、ヒューリスティック関数ｈ（ｎ）が、ｎから目標までのコストの推定をもたらす。探索は、開始ノードで始まり、各ノードにおいて、
ｆ（ｎ）＝ｇ（ｎ）＋ｈ（ｎ）
として定義される最低ノードコストを有する次のノードへとシーケンスを延ばす。

環境内の他のすべての車両が定速モデルを使用するという単純化された仮定を使用することができる。

初期位置ｒ_ｔから目標Ｇ_ｉまでの最適軌道を発見する目的で、探索は、時刻ｔおよび位置ｒ_ｔで実行された車による操縦から始まる。時間区間Δｔにおける観測値Ｏに鑑みた自動車の現在位置ｒ_ｔ＋Δｔから目標までの最良の利用可能な軌道を発見する目的で、探索は、検出された現在の操縦および現在位置ｒ_ｔ＋Δｔから始まる。

上述の操縦検出方法を、操縦を検出するために使用することができる。これが、一般に、可能な現在の操縦の確率分布をもたらすことに留意されたい。逆計画は、予測されたすべての現在の操縦について行われるべきであり、これは、これらが目標よりも異なる事後をもたらす可能性があるためである。したがって、可能な現在の操縦の各々は、それ自体の目標事後を生成する。計算効率のために、ｎ個の最も可能性の高い現在の操縦のみが考慮され、他のあらゆる操縦は無視され、ここで、ｎは適切に設定することができる方法パラメータである。

現在位置（現在の探索ノード）に到達するまでのコストｇ（ｎ）を、基本操縦によって指定された経路および速度に基づいて、現在位置までの推定運転時間として定義することができる。

目標までの残りコストを推定するためのコストヒューリスティックｈ（ｎ）は、制限速度での直線による現在位置から目標位置までの運転時間によって与えられる。探索を効果的に案内するために、ｈ（ｎ）は、探索を案内するために最小残りコストの推定値を提供するだけでよいことに、留意されたい。したがって、ここでは、性能に影響を与えることなく、比較的粗い仮定を行うことができる。

最適な計画を発見した後に、完全な軌道が、計画内の操縦を横切って生成される。次いで、速度平滑化が完全な軌道に適用され、完全なコスト関数が計算（後述のコスト関数の箇所を参照）されて、計画の最終コストが求められる。この最後のステップ（平滑化の適用および完全なコスト関数）により、下記の制動の例のように、速度に基づいて追加の「手がかり」を得ることが可能になる。

速度平滑化は、すでに観測された軌道のいずれの部分にも適用されない。そうでなければ、速度平滑化の効果は、特定の目標を示唆する証拠を洗い流すことであり得る（図１０の例の文脈におけるさらなる詳細については、以下を参照）。

自動車が操縦（例えば、車線変更）の途中である場合を考慮するために、自動車の現在実行されている操縦は、将来へのさらなる計画の前に完了することができるように認識される必要がある。

探索空間を縮小するために、基本的な方向転換および警戒の操縦を、これらがマクロアクションの外部では使用されないため、探索空間から除去することができる。車線維持の操縦は、その終了条件がデフォルト値として何らかの固定長に設定されている場合、マクロアクションの外部の基本操縦として依然として有用であり得る。

本例は、逆計画において外部アクター間の衝突をチェックしない。これは、可能であるが、プロセス全体をより高価にする。さらに、他の車両の一定の速度などのいくつかの単純化の仮定ゆえに、衝突が必然的に発生する状況が存在し得る。以下で詳述されるマルチエージェントＭＣＴＳ法は、このような衝突チェックを処理することができる。

あるいは、プロセスを、逆計画の一部として起こり得る衝突について推論するように拡張することができる。

Ａ＊探索に関連して上述した仮定は、計算効率と性能との間の良好なバランスを提供することが明らかになっている。当然ながら、非等速モデルなど、さまざまな仮定セットが使用されてよいことを、理解できるであろう。別の例として、上記は、操縦に関連する最も可能性の高い軌道のみを考慮することによって、本質的に探索問題を決定論的問題に変える。しかしながら、これは、完全な軌道の分布または切り詰められた軌道の分布に基づく確率論的探索にも同様に拡張することができる。すなわち、上記は単一軌道の形態の完全／部分軌道モデルを考慮しているが、本技術は、完全／部分軌道分布にも適用することができる。

マルチスレッディングを使用し、各々の目標Ｇについて独立したスレッドを使用することにより、プロセスを高速化することができる。自動車が独立した目標を有するという追加の仮定により、自動車ごとに１つのプロセス／スレッドを使用することによって、さらなる並列化を達成することができる。

制動
制動は、上述の方法においては制動は別個の操縦として認識されないが、本方法は、依然として目標の尤度において制動を考慮することができる。

一例として、図１０に示され、上述されたシナリオを考える。自動車の初期位置からＧ２への最適な計画は、右脱出のマクロアクションによって与えられる。速度平滑化を適用した後に、結果は、車が転回点に到達するまで継続的に減速する軌道である。この最適軌道のコストは、Ｃ２で表される。

自動車が、車線に従い、転回点へと途中まで近付き、Ｇ２の最適軌道と同様に減速することが観察されると仮定する。したがって、Ｇ２までの軌道が競合する場合、これはＣ２と同様のコストを伴う軌道をもたらす。他方で、初期状態からＧ１への最適な軌道は、そのような制動を伴わず、（時間の差および場合によってはジャークに起因する）著しいコスト差をもたらす。したがって、Ｇ２の事後確率は増加する一方で、Ｇ１の確率は減少する。

（ちなみに、上述のように、速度平滑化は、軌道のうちのすでに観測された部分には適用されないことに留意されたい。この背後にある推論は、この例において明らかである。すなわち、速度平滑化が軌道全体に適用された場合、平滑化は、すでに観測された車線維持の操縦の部分の速度も減少させると考えられる。これにより、制動がもはやそれほど突然ではなくなるため、コストペナルティがより小さくなると考えられる。換言すると、軌道が最初の観察位置からの最適軌道により類似すると考えられる。したがって、平滑化は、過去の軌道を変更不可能な定数として扱うことが適切である。）
ここで、自動車が車線を維持するが、減速するのではなく一定の速度で観測されると仮定する。この軌道がＧ２まで続くと、突然の制動が必要になり、Ｃ２よりもはるかにコストが高くなる。他方で、目標Ｇ１まで軌道を継続する（車線に留まる）ことは、本質的に初期状態からＧ１の最適な計画である。したがって、Ｇ２は事後確率が低下し、Ｇ１は増加する。

最後に、自動車が車線を維持し、展開点の近くで突然に減速することが観測されると仮定する。この突然の制動は、初期状態からのいずれの最適軌道にもないため、Ｇ２およびＧ１の両方に著しいコストペナルティを引き起こす。したがって、両方の目標のコストが増加し、２つの目標の相対確率の変化は小さくなる。

目標ツリーによる目標認識
逆計画法の代案として、決定ツリーを使用して目標検出を実施することができる。

目標認識のための決定ツリーの例が、図１１に示されている。

目標の組Ｇが与えられると、目標の事後分布が、ベイズの法則を使用して、Ｐ（Ｇ│Ｏ）～Ｌ（Ｏ│Ｇ）Ｐ（Ｇ）と計算される。目標Ｇの尤度Ｌ（Ｏ│Ｇ）は、Ｇと一緒に生成することができるＧが関連付けられたツリーによって計算される。ツリーは、目標の尤度を示すための範囲［０，１］内の正規化されたスコアを計算し、０はその目標についていかなる支持もないことを示す。

典型的な数を使用するシナリオ２（右脱出）における目標Ｇ２の典型的なツリーが、右側に示されている。ツリーは、以下を含むいくつかの条件をテストする。

・車が目標のための正しい車線にあるかどうか
・車が正しい方向を示しているかどうか
・出口点が車にとって次の順番である（すなわち、同じ車線上に車により近い他の出口点が存在しない）かどうか
・車が減速しているかどうか
各々の分岐において、ツリーは条件をテストし、スコア（１で始まる）を範囲［０，１］内の何らかの係数で乗算し、ツリーの終端ノードで最終スコアを得る。異なる分岐は、異なる条件をテストすることができ、分岐に与えられる係数は、テスト条件の重要性の相違を反映するために相違してよい。係数の乗算に対する代案は、ツリーの分岐に沿って係数を加算し、終端ノードの深さによって正規化することである。

ツリーを使用するこの方法は、２つの主な利点を有し、すなわちツリーは安価に評価することができ、ツリーは人間による解釈が容易である（説明可能性の向上）。

決定ツリーを、Ｃ４．５などのアルゴリズムまたは回帰ツリー学習のためのアルゴリズムを使用して、（例えば、シミュレーションまたはＣＣＴＶからの）現実世界の運転挙動データまたはシミュレートされた運転挙動データに基づいて構築することができる。例えば、バイナリ特徴（テスト条件）の集合を指定することができ、次いで、ツリー学習アルゴリズムは、特定の目標について記録されたグラウンドトゥルースデータに鑑みて、特徴および部分スコアの最適な部分集合を発見する。

目標からの軌道の予測
所与の目標に対する車の可能な軌道および関連の確率を予測するために、逆計画に使用されるものと同じＡ＊探索法を使用することができる。最適な計画を発見した後にＡ＊を終了するのではなく、代わりに固定時間予算が課され、アルゴリズムは、計画の組を関連のコストと共に計算することを許可される（おそらくは、いくつかの固定数までの計画について）。Ａ＊探索が目標に到達するノードを発見すると、対応する計画が計画の組に追加される。軌道は、計画内の操縦によって与えられる部分軌道を接続することによって計画から生成される。

計画から抽出された軌道の分布を、ソフトマックス分布（軌道モデル）を使用して

と計算することができ、ここで、Ｔ^（ｎ）は目標までのｎ番目の完全な軌道であり、Ｃ_ｎは軌道Ｔ^（ｎ）のコスト（平滑化後の全体コスト）であり、β_ｎは軌道Ｔ^（ｎ）のスケーリング係数である（上述したように、表記Ｔ^（ｎ）は、所与の操縦Ｍ_ｊの部分軌道Ｔ_ｊと区別するために、目標までのｎ番目の完全な軌道に使用される）。これは、最適により近い軌道がより可能性が高いという仮定をエンコードする。スケーリング係数を使用して、観測データに基づいて特定の軌道の重みを減らすことができ、すなわち軌道予測モデルを関連する例で訓練することができる。あるいは、一定のスケーリング係数（例えば、１という値）を使用することもできる。

上記のソフトマックス軌道モデルを、ＲＲＴを介して取得された軌道モデルの代替として使用することができる。

逆計画と同様に、そのような軌道の組は、ｎ個の最も可能性が高い現在の操縦などの何らかの部分集合に焦点を合わせて、各々の予測された現在の操縦について生成される。Ａ＊は、現在の操縦の完了後に始まり、最終軌道は、現在の操縦の残りを含む。

これは、単一の最適軌道ではなく、さまざまなもっともらしく思われる軌道を予測し、これは、複数の軌道が（ほぼ）最小コストを達成するが、自車両の部分において異なる挙動を必要とする可能性がある異なる予測をもたらす状況が存在するため、有益である。

目標認識とＭＣＴＳとの統合
次に、目標認識を上記のＭＣＴＳ操縦計画プロセスと統合するための具体的な機構を説明する。この組み合わせは、一般的な相互作用認識操縦プランナを提供する。

現在の操縦および目標のサンプリング
図１２が、逆計画の結果をＭＣＴＳのロールアウトの一部として適用することができる機構の概略図を示している。これは、上述の図１５に関連して上述した原理を適用し、ＭＣＴＳは、他のエージェントに関する確率論的予測の異なるサンプリングで複数回実行される。

操縦検出器１１０２は、上述したやり方で対象アクターの現在の操縦の確率分布を検出する。各々の操縦Ｍ_ｉ∈Ｍ（Ｍは利用可能な操縦の有限集合である）について、これは、観測された低レベルのトレースτに鑑みた対象アクターがその操縦を現時点において実施している確率、すなわちＰ（Ｍ│τ）をもたらす。

各ＭＣＴＳの超反復は、以下のように始まる。他の各車両について：
１．一式の予測された現在の操縦およびそれらの確率から、現在の操縦をサンプリングする。すなわち、Ｐ（Ｍ│τ）に基づいて現在の操縦Ｍ_ｊをサンプリングする（ブロック１１０４、図１２）。

２．サンプリングされた現在の操縦に対応する目標後方Ｐ（Ｇ│Ｏ））から目標をサンプリングする。すなわち、サンプリングされた現在の操縦Ｍ_ｊ（観測Ｏの一部を形成すると考えることができる）で上述の逆計画のステップを適用する。

これらのサンプル、すなわちサンプリングされた現在の操縦Ｍ_ｊおよびサンプリングされた目標Ｇ_ｉは、ＭＣＴＳプロセスの超反復の全体にわたって使用される。上記のステップ１および２は、各ＭＣＴＳ超反復反復の開始時に実行され、その超反復におけるツリーのすべてのノード（ルートノートから末端ノードまで）に適用される。

図１２において、短縮表記Ｐ（Ｇ│Ｍ_ｉ）およびＰ（Ｇ│Ｍ_ｋ）が、現在の操縦Ｍ_ｉおよびＭ_ｊのそれぞれに鑑みた目標事後を指して使用され、観測値Ｏが、単に現在の操縦よりも広範囲（例えば、以前の操縦のシーケンスを包含する）であり得ることに留意されたい。この表記を使用して、上記のステップ１で操縦Ｍ_ｉがサンプリングされる場合、ステップ２で目標事後Ｐ（Ｇ│Ｍ_ｉ）がサンプリングされる一方で、Ｍ_ｊがサンプリングされる場合、目標事後Ｐ（Ｇ│Ｍ_ｋ）が使用される。

組み合わせられた事後からのサンプリングは、一貫性のないロールアウトを防止する。例えば、自動車が２つの可能な目標および２つの予測される現在の操縦を等しい確率で有する状況を考える。第１の操縦のための目標事後が、すべての確率を第１の目標に置く一方で、第２の操縦のための目標事後は、すべての確率を第２の目標に置く。したがって、組み合わせられた目標事後は、両方の目標に等しい確率を置く（対照的に、組み合わせられた目標事後から目標をサンプリングし、次いで現在の操縦をサンプリングする場合、サンプリングされた目標への軌道が存在しない現在の操縦に行き着く可能性がある（例えば、第１の操縦から第２の目標への経路が存在しない））。

軌道サンプリングによる単一エージェントＭＣＴＳ
他の各車のサンプリングされた現在の操縦および目標に鑑みて、それらの運動軌道が、予測された軌道および確率の関連する組からサンプリングされる。これらの軌道は、ロールアウトに沿った各車の動きを予測するために使用される。

自己計画は、現在の状態において適用可能なマクロアクションを含む閉ループ操縦の組にわたって行われる。多くの場合、自車の目標を達成するには、単一のマクロアクションで充分であり得る。目的は、計画時に可能な限り早くそのようなマクロアクションを見つけることである。単純な手法は、マクロアクションが常に最初に試行されるように操縦の組を順序付けることであり、あるいは、所与の目標に対して、その目標を通常達成するマクロアクションを返す「最良の第１の推測」関数を提供することができる。マクロアクションが現時点において適用可能でない場合（例えば、自車が中央車線にあるときの左脱出）、理想的には、プランナはそれを適用可能にするやり方を迅速に見つけるべきである（例えば、最初に基本の左車線変更の操縦を使用し、次いで左脱出のためのマクロアクションを使用する）。

自車両のための操縦を選択した後に、環境は、操縦の終了まで前方にシミュレートされる。これは、自車両と同じ時点までの他の車両の軌道の前方シミュレーション、ならびに環境内の任意の他のモデル化されたプロセスを含む。衝突チェッカが、前方シミュレーションの最中に自車両が他の車両のいずれかと衝突するかどうかをチェックするために適用される。衝突が存在する場合、探索ツリー内のその分岐は直ちに「切断」される（すなわち、もはや調査されない）。

ＭＣＴＳは、以下の箇所で定義されるコスト関数を使用する。ＭＣＴＳが目標を達成する計画のみを生成することを保証するために、コスト関数は、ロールアウトが目標に到達した場合にのみ適用される。より正確には、コスト関数は、速度平滑化を適用した後に、ロールアウトにおける操縦によって生成された軌道に適用される。次いで、平滑化された軌道の結果としてのコストが、探索ツリーに伝播される。したがって、ＭＣＴＳは、目標を達成する実現可能な計画のみを探索し、その中で最良の計画を探索する。

マクロアクションの使用は、成功した計画が典型的には１～５つの操縦（マクロアクションを含む）を含むことを意味する。したがって、探索を高速化するために、ＭＣＴＳ探索を深さ５でカット（終了）することができる。

目標認識を伴う単一エージェントＭＣＴＳの擬似コードアルゴリズムが、付録Ｂに提示される。

速度向上
可能な速度向上として、以下が挙げられる。

・例えばロールアウトの生成および統計の更新に複数のスレッドを使用するなど、ＭＣＴＳにおいてさまざまな程度のマルチスレッドを使用することが可能であり得る。

・計画品質の低下という犠牲にて、閉ループ操縦ではなく開ループ操縦について計画することにより、計算コストを低減できる。ＭＣＴＳ計画後に実行される操縦は、常に閉ループである。

コスト関数
コスト関数が、運転軌道のコストを定量化するために、逆計画およびＭＣＴＳに使用される。軌道Ｔは、車両が辿るべき基準経路と、経路に沿った目標速度のシーケンスとで構成される。コスト関数は、軌道を入力として、実数値コストＣ（Ｔ）を返す。コスト関数は、任意の所与の軌道を評価するために安価であるべきであり、計算コストの増加は最大でＯ（│Ｔ│）であるべきである。

コストは、例えば、いくつかのコスト要因の加重（線形）和として定義されてよい。これらには、以下が含まれる。

・時間：車が軌道を完了するのにどれくらいの時間を要するか？（注意：これは、目標速度にも依存するため、基準経路の長さと同じではない）。

・曲率：起動がどの程度「湾曲」しているか？曲率が小さくなるにつれ、コストは指数関数的に高くなるはずである。角速度を代用として使用することができる。

・速度変化：速度が軌道に沿ってどの程度変化するか？変化率が大きい（例えば、突然の減速）と、コストは指数関数的に高くなるはずである。

・「安全性」：安全性の代用として、指数関数的に高くなる「コスト係数」を、軌道における任意の他の車両までの最小距離の関数として計算することができる（距離しきい値を超える車両は無視される）。すなわち、最小距離が小さくなるにつれてコストが指数関数的に増加する。

これらのコスト要因のほとんどは、軌道を通って時間的に前に進み、古い／新しい位置ベクトルおよび目標速度に基づいていくつかの単純な計算を行うことによって、反復的に計算することができる。コスト要因の重み付けを、経験的試験に基づいて調整する必要があるであろう。

正規化
さまざまなコスト要因の比較可能性を確保するために、すべてのコスト要因を同じ範囲［０，１］に正規化することが有用である。また、重みが負ではなく、合計が１になるように、重み付けを正規化する役に立つ。まとめて、これらの正規化ステップは、Ｃ（Ｔ）が［０，１］にあることを保証し、これは、コストが［０，１］の範囲にあるというＵＣＢ／ＵＣＴにおける仮定を満たす。

コスト要因が最小／最大関数（例えば、最大ヨーレート、他車までの最小距離）として定義される場合、正規化をより容易に達成することができる。

代替のより安価な手法は、コストを軌道ではなく操縦に関連付けることである。例えば、計画のコストを、計画内の基本操縦の数として定義する。これは、操縦によって生成された軌道に変動がなく、あるいはほとんどない場合（例えば、常に同じポリスプラインに従う車線変更）に、適切な手法であり得る。しかしながら、操縦が軌道の束を生成する場合や、軌道が車両の構成などの動的な態様に依存する可能性がある場合（例えば、近接車両の後方での車線変更と、それほど近接していない車両の後方での車線変更）に、同じ操縦であっても状況に応じて著しく異なる軌道をもたらす可能性があるため、操縦に固定のコストを割り当てることは適切でない可能性がある。

典型的なシナリオ
ここで、３つの典型的なシナリオを説明して、目標の概念を示し、目標認識が自車の決定をどのように知らせることができるかを強調する。さらに、これらのシナリオは、提案された方法のいくつかの境界線の状況を示す。３つのシナリオは、それぞれ図１４Ａ～図１４Ｃに表されている。

シナリオ１：遅いトラックを追い越す車両（図１４Ａ）
車両２が、低速で移動しているトラック１の後方を走行している。Ｇ１で示されている車両２の１つの目標位置が示されている。このシナリオにおいて、車両２がトラックを追い越すために自車の車線へと移動して来る可能性がある。

近視眼的なベースラインだけでは、車両２について車線維持の操縦にほとんど／すべての事後確率を置くことになり、将来の操縦について推論しないがゆえに、車線変更が差し迫っている可能性を予測できない。

車両２が自車と同様のコスト関数（すなわち、時間因子を含む）を使用すると仮定し、車両２についてＧ１を達成するための逆計画を行うことで、本方法は、車両２の車線変更の操縦およびその後の制限速度での車線維持を予測することができる。車両２が自車から充分に離れている場合、この予測は、おそらくは自車の反応を生じさせない。しかしながら、（図中のように）車両２が自車に近い場合、自車は、減速して車両２までの距離を保つことを決定することができる。

シナリオ２：出口へと車線変更する車両（図１４Ｂ）
他の車両の２つの可能な目標Ｇ１およびＧ２が、道路レイアウトに基づいて生成される。車両２についてはＧ１／Ｇ２の両方が可能であるが、車両３についてはＧ１のみが可能である。

車両２が右車線変更を行っていることが観測される。車両２および可能な目標の各々についての逆計画に基づき、車線変更はＧ２を示唆している可能性が高い。車線変更後に、Ｇ２の最適な計画は、減速（速度平滑化による）を伴う車線維持およびその後の右折を定めている。このシーケンスを考慮し、自車両の目標がＧ１であると仮定すると、ＭＣＴＳプランナは、車両２の減速が（自車両の減速も強いるがゆえに）自車両の目的関数にとってあまりにも不利であると認識でき、したがって車両２の車線変更の完了後に左に車線変更することを決定することができる。

近視眼的なベースラインは、車両２が右車線に車線変更していることだけは認識できるが、その後の減速を予測することができない。ベースラインは、それでもおそらくは車線変更を実行するが、それは、減速がすでに進行してからに限られる。

シナリオ３：待機中の車両の前方を移動する（図１４Ｃ）
他車の４つの可能な目標が、道路レイアウトに基づいて示されている。自車は、交差点で待機している。

車両３の減速は観測されず、Ｇ２の可能性が最も高いことを示している（しかしながら、強い制動という犠牲を伴うが、Ｇ３／Ｇ４も依然として可能である）。

車両２は図示の位置で停止しており、Ｇ３に到達するための計画に一致している：車両３が接近中であり、一定の速度を使用しているため、車両２は停止し、車両３の通過を待ち、その後にＧ３へと右折しなければならない。対照的に、図示の位置での停止は、Ｇ１またはＧ４のいずれも示唆していない（Ｇ２は車両２にとって有効な目標ではない）。

推論された目標および計画のこの集まりに鑑み、自車は、車両２が車両３の通過を待っている間に道路へと安全に左折することができると認識することができる。

近視眼的なベースラインは、車両２の停止の操縦を認識するが、その後の操縦を予測することができない。

データ駆動型挙動モデル
上述したように、現実的なシミュレーションを提供するために、アクターの学習された挙動をＭＣＴＳシミュレーションにおいて使用することができる。そのような生成挙動モデルを、逆計画と組み合わせて使用、または逆計画の代替として使用することができ、すなわち、学習された生成挙動モデルは、逆計画を実施することなく使用することが可能である（例えば、１つ以上の軌道を、目標、操縦、などを推論する必要なく、学習済みモデルを使用して単純に生成することが可能である）。上述したように、そのようなモデルの例は、空間マルコフモデルおよびニューラルネットワークを含む。

例えば、生成挙動モデルは、監視されている運転領域内の複数の空間領域に基づく空間マルコフモデル（ＳＭＭ）であってよく、各空間領域に関連する推定占有確率および複数の空間領域ペアの各々に関連する推定遷移確率のうちの少なくとも１つが計算される。

空間領域は、監視されている運転領域に重ねられたグリッドのセルであってよい。これは、手動で注釈付けされても、あるいは（例えば）マップから決定されてもよい監視されている運転領域内の道路構造および／または他の構造を考慮に入れることができる。

表記ｐ_ｉは、空間領域ｉの推定占有確率を意味し、ｐ_ｉ，ｊは、空間領域ｉから空間領域ｊへの遷移の推定確率を意味する。ＳＭＭを用いて、ｐ（Ｔ│Ｍｏｄｅｌ）を、モデルＭｏｄｅｌに鑑みて運転経路（軌動）Ｔが通過する一連のグリッドセル（または、他の空間領域）に関連する占有確率および／または遷移確率に基づいて決定することができる。

運転挙動データは、画像データおよび／または運動センサデータなどの任意の形態のセンサデータを含むことができる。データは、任意の適切なやり方で収集可能であるが、ＣＣＴＶ（閉回路テレビ）システムが、とりわけ良好なＣＣＴＶカバレッジを有する都市環境において、運転挙動データを収集するきわめて便利な手段を提供する。例えば、本開示は、複雑な運転の文脈（例えば、複雑なラウンドアバウト、多車線合流点、見通しの悪い曲がり角、など）からのＣＣＴＶが運転挙動データの豊富な供給源を提供すると理解する。

以下の例では、ＣＣＴＶ画像データなどの現実の運転挙動データが、訓練用のモデルの生成および運転中のアクターの挙動の予測の両方に使用される。

現実のデータを、或る時間期間にわたって一定の領域について収集することができる。データ収集の期間は、例えば、その領域を通る交通の動きの正確な表現を生成しようと試みるために、２４時間であってよい。位置は、合流点など、小さくてよい。データ収集の可能性を最大にするために、通過する交通の量が多い領域を選択することができる。

道路レイアウト（運転の文脈）に関するデータが収集される。これは、ＨＤ（高精細）マップなどのマップからのものであってもよく、あるいはＣＣＴＶ映像から収集され、手動または自動のいずれかで入力されてもよい。例えば、ＣＣＴＶ映像に手動で注釈を付けることができる。

収集されたデータ内のアクターの位置および動きに関する情報が、収集されたデータから抽出され、通常の運転挙動の空間マルコフ（状態遷移）モデル（ＳＭＭ）を構築するために使用される。状態遷移モデルは、通常の挙動の単純化された表現を提供するために使用することができる離散セル近似モデルである。これを達成するために、ＣＣＴＶ映像に取り込まれた位置にグリッドを適用することができる。このグリッドは、セル当たり５～１０ｃｍの範囲であってよい。

次いで、各々のグリッドセル内のエージェントの挙動を、対象の時間期間にわたって分析することができる。この分析において抽出される情報は、例えば、収集されたデータの時間期間における各々のグリッド要素の占有の頻度、および各々の要素からその周囲の要素への時間期間中に行われた遷移の回数を含むことができる。次いで、この情報を使用して、占有確率推定値ｐ_ｉを各々のグリッドセルに割り当て、遷移確率推定値ｐ_ｉ，ｊをグリッドセルｉ、ｊの各ペアに割り当てることができる。

例として、図１６が、ＣＣＴＶカメラの視野内の道路レイアウトについて決定されたＳＭＭを示している。この場合の道路レイアウトは、固定グリッドが重ね合わせられた比較的複雑な合流点の一部である。グリッドの２つのセルが、一例として、参照符号ｉおよびｊで示され、現実世界の交通の観測を通じて決定された占有確率ｐ_ｉおよびｐ_ｊを有する。セルｉとｊとの間の遷移確率ｐ_ｉ，ｊは、アクターがセルｉからセルｊに直接移動する確率であり、やはり観測を通じて決定される。

理解されるように、上記の説明は、予想される車両挙動をモデル化するための適切なモデルのいくつかの例のみを考慮している。適切なモデルの他の例は、マルコフ決定プロセスモデルおよびデータに対する報酬を含む。この場合、訓練が、マルコフ決定プロセスモデルをフィッティングしてデータに報酬を与えることによって実行される。

ハードウェアレベルにおいて、ＡＶの車載コンピュータシステムＡ１は、上記の機能を実行するためのアルゴリズムを実行することができる実行ハードウェアを備える。実行ハードウェアは、汎用または専用の実行ハードウェア、あるいはそれらの任意の組み合わせであってよいが、一般に、これらに限られるわけではないがアクセラレータ（例えば、ＧＰＵ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）または他のプログラマブルなハードウェア、ならびに／あるいは特定用途向け集積回路（ＡＳＩＣ）などの専用ハードウェアと連携して動作することができる中央処理装置（ＣＰＵ）などの１つ以上のプロセッサを備える。高度で複雑なＭＬ／ＡＩモデルを使用することが多い複雑なデータ処理動作を、安全かつ信頼できる動作を保証するための充分な精度および速度で（多くの場合、リアルタイムで）実行する必要があることから、車載コンピュータシステムは、おそらくは該当のモデルおよびアルゴリズムを実装するようにあつらえられた専用のコンピュータハードウェアによって高度に洗練されてよい。とくにはＡＩの分野における革新の進行の速度に鑑みて、ハードウェアレベルおよび機能／ソフトウェアレベルの両方におけるＡＶ車載コンピュータシステムＡ１のアーキテクチャが、多くの形態をとることができることが理解されよう。本明細書において、データ処理コンポーネントＡ２、予測コンポーネントＡ４、およびＡＶプランナＡ６などのコンピュータシステムにおいて具現化される機能コンポーネントなどは、コンピュータシステムによって実現される特定の機能、すなわち状況に適したコンピュータシステムの何らかの汎用および／または専用ハードウェア（の組み合わせ）によって実行される機能の高レベル表現である。

添付Ａ－シナリオ記述例
{
"road-layout" : [
{
"lanes" : [
{"index" : -1, "width" : 3.65, "left" : "double", "right" : "double"}
],
"midline" : [
[25.0, 30.0],
[26.46, 33.53],
[30.0, 35.0],
[33.53, 33.53],
[35.0, 30.0],
[33.53, 26.46],
[30.0, 25.0],
[26.46, 26.46],
[25.0, 30.0]
]
},
{
"lanes" : [
{"index" : -1, "width" : 3.65, "left" : "double", "right" : "double"},
{"index" : 1, "width" : 3.65, "left" : "double", "right" : "double"}
],
"midline" : [
[30.0, 26.0],
[30.0, 25.0],
[30.0, 20.0],
[30.0, 15.0],
[30.0, 10.0],
[30.0, 5.0]
]
},
{
"lanes" : [
{"index" : -2, "width" : 3.65, "left" : "double", "right" : "double"},
{"index" : -1, "width" : 3.65, "left" : "double", "right" : "double"}
],
"midline" : [
[26.0, 30.0],
[25.0, 30.0],
[20.0, 30.0],
[15.0, 30.0],
[10.0, 30.0],
[5.0, 30.0]
]
},
{
"lanes" : [
{"index" : 1, "width" : 3.65, "left" : "double", "right" : "double"}
],
"midline" : [
[34.0, 30.0],
[35.0, 30.0],
[40.0, 30.0],
[45.0, 30.0],
[50.0, 30.0],
[55.0, 30.0]
]
},
{
"lanes" : [
{"index" : -1, "width" : 3.65, "left" : "double", "right" : "double"}
],
"midline" : [
[30.0, 34.0],
[30.0, 35.0],
[30.0, 40.0],
[30.0, 45.0],
[30.0, 50.0],
[30.0, 55.0]
]
}
]
}
添付Ｂ

Claims

自律型車両（ＡＶ）に関するセンサ入力（ＡＶセンサ入力）を受信するステップと、
前記ＡＶセンサ入力を処理し、遭遇した運転シナリオを決定するステップと、
ＡＶプランナにおいて、ツリー探索アルゴリズムを実行して、構築されたゲームツリーを通る経路に対応するＡＶ操縦のシーケンスを決定するステップと、
前記決定されたＡＶ操縦のシーケンスを実行するためのＡＶ制御信号を生成するステップと
を含んでおり、
前記ゲームツリーは、前記遭遇した運転シナリオの予想される状態を表す複数のノードを有し、各々の子ノードの前記予想される運転シナリオの状態は、（ｉ）候補ＡＶ操縦、および（ｉｉ）前記遭遇した運転シナリオ内の少なくとも１つの外部エージェントの予想される挙動に基づいて、親ノードの運転シナリオの状態を更新することによって決定され、
前記外部エージェントの前記予想される挙動は、前記センサ入力から導出された前記外部エージェントの１つ以上の観測されたパラメータに生成挙動モデルを適用することによってシミュレートされ、前記生成挙動モデルは、観測された現実世界の運転挙動の例に基づいて訓練された機械学習（ＭＬ）モデルである、
自律型車両計画方法。
オブジェクト追跡が、前記外部エージェントの観測されたトレースを決定するために前記センサ入力に適用され、前記外部エージェントの前記予想される挙動は、前記観測されたトレースに基づいてシミュレートされる、請求項１に記載の自律型車両計画方法。
前記生成挙動モデルの訓練に使用される前記観測された現実世界の運転挙動の例のうちの少なくともいつかは、閉回路テレビジョンデータから抽出されている、請求項１または２に記載の自律型車両計画方法。
前記生成挙動モデルは、訓練されたニューラルネットワークを含む、請求項１～３のいずれか一項に記載の自律型車両計画方法。
前記外部エージェントの前記予想される挙動は、前記遭遇した運転シナリオの運転領域について学習した空間マルコフモデルの学習済みの占有および／または遷移確率を使用してシミュレートされる、請求項１～３のいずれか一項に記載の自律型車両計画方法。
前記ツリー探索アルゴリズムは、確率論的ツリー探索アルゴリズムである、請求項１～５のいずれか一項に記載の自律型車両計画方法。
前記ツリー探索アルゴリズムは、モンテカルロツリー探索（ＭＣＴＳ）アルゴリズムである、請求項６に記載の自律型車両計画方法。
前記運転シナリオは、定められたシナリオ記述言語に従って一式の運転シナリオパラメータを前記センサ入力から抽出することによって決定される、請求項１～７のいずれか一項に記載の自律型車両計画方法。
前記生成挙動モデルは、１つ以上の自車両パラメータおよび／または前記運転シナリオの１つ以上のパラメータにも適用される、請求項２または請求項２に従属するいずれかの請求項に記載の自律型車両計画方法。
自律型車両（ＡＶ）に関するセンサ入力を受信するステップと、
前記センサ入力を処理し、遭遇した運転シナリオを決定するステップと、
ＡＶプランナにおいて、ツリー探索アルゴリズムを実行して、構築されたゲームツリーを通る経路に対応するＡＶ操縦のシーケンスを決定するステップと、
前記決定されたＡＶ操縦のシーケンスを実行するためのＡＶ制御信号を生成するステップと
を含んでおり、
前記ゲームツリーは、前記遭遇した運転シナリオの予想される状態を表す複数のノードを有し、各々の子ノードの前記予想される運転シナリオの状態は、（ｉ）候補ＡＶ操縦、および（ｉｉ）前記遭遇した運転シナリオ内の少なくとも１つの外部エージェントの予想される挙動に基づいて、親ノードの運転シナリオの状態を更新することによって決定され、
前記外部エージェントの前記予想される挙動は、前記センサ入力から導出された前記外部アクターの１つ以上の観測されたパラメータに逆計画法を適用することによってシミュレートされる、
自律型車両（ＡＶ）計画方法。
オブジェクト追跡が、前記遭遇した運転シナリオ内の少なくとも１つの外部アクターを追跡することによって、一時間区間における前記外部アクターの観測されたトレースを決定するために、前記センサ入力に適用され、
前記逆計画法は、
前記遭遇した運転シナリオ内の前記外部アクターの一式の利用可能な目標を決定するステップと、
前記利用可能な目標の各々について、予想軌道モデルを決定するステップと、
前記外部アクターの前記観測されたトレースを、前記利用可能な目標の各々についての前記予想軌道モデルと比較し、該目標の尤度を決定するステップと、
前記目標のうちの少なくとも１つの目標の前記決定された尤度を使用して、前記外部アクターの前記予想される挙動をシミュレートするステップと
を含む、請求項１０に記載の方法。
前記少なくとも１つの目標の前記決定された尤度を使用して前記外部アクターの前記予想される挙動をシミュレートするステップは、前記少なくとも１つの目標についての前記予想軌道モデルおよび該目標の前記決定された尤度に基づいて、前記外部アクターの少なくとも１つの予測される軌道を計算することを含む、請求項１１に記載の方法。
各目標についての前記予想軌道モデルは、該目標に関する予測される軌道の分布である、請求項１０～１２のいずれか一項に記載の方法。
各目標についての前記分布Ｇ_ｉは、一式の予測される軌道のうちの各々の予測される軌道Ｔについての条件付き確率ｐ（Ｔ│Ｇ_ｉ）を含み、該目標の前記尤度ｐ（Ｇ_ｉ│τ）は、前記観測されたトレースτに鑑みて少なくとも１つの予測される軌道の確率ｐ（Ｔ│τ）を推定するために使用される、請求項１３に記載の方法。
前記観測されたトレースは、前記目標についての最良利用可能軌道モデルを予測するために使用され、前記比較は、前記最良利用可能軌道モデルを前記予想軌道モデルと比較することを含む、請求項１１～１４のいずれか一項に記載の方法。
前記観測されたトレースは、前記外部アクターの現在の操縦および／または将来の操縦を予測するために使用され、前記予測された現在または将来の操縦は、前記最良利用可能軌道モデルを決定するために使用される、請求項１１または１５に記載の方法。
複数の操縦からなるシーケンスが、少なくとも１つの目標について決定され、前記最良利用可能軌道モデルは、該目標について、前記複数の操縦にそれぞれ関する部分軌道モデルに基づいて決定される、請求項１６に記載の方法。
各々の部分軌道モデルは、１つ以上の目標運動値を含み、前記最良利用可能軌道モデルの将来部分の１つ以上の運動値が、前記目標運動値に運動平滑化を適用することによって決定される、請求項１７に記載の方法。
各目標についての前記予想軌道モデルは、該目標についての単一の予想軌道である、請求項１１、１２、または１５～１８のいずれか一項に記載の方法。
各目標についての前記最良利用可能軌道モデルは、単一の最良利用可能軌道である、請求項１５または請求項１５に従属するいずれかの請求項に記載の方法。
各操縦についての前記部分軌道モデルは、該操縦についての最も可能性の高い部分軌道である、請求項１７に従属する場合の請求項２０に記載の方法。
定められたコスト関数が、各目標についての前記予想軌道モデルおよび前記最良利用可能軌道モデルの両方に適用されて、該軌道モデルのそれぞれのコストが決定され、前記比較は、該コストを比較することを含む、請求項１５～２１のいずれか一項に記載の方法。
前記コスト関数は、運転時間の短縮に報いる一方で、不安全な軌道を不利に扱う、請求項２２に記載の方法。
前記コスト関数は、快適性の欠如も不利に扱う、請求項２３に記載の方法。
前記外部エージェントの前記予想される挙動は、前記一式の利用可能な目標から該目標の前記決定された尤度に基づいて目標をサンプリングすることによってシミュレートされる、請求項１１～２４のいずれか一項に記載の方法。
さまざまな目標分布が、さまざまな操縦または操縦シーケンスについて決定され、前記外部エージェントの前記予想される挙動は、一式の可能な操縦から前記操縦分布に基づいて操縦または操縦シーケンスをサンプリングし、次いで該操縦または操縦シーケンスについて決定された前記目標分布に基づいて前記一式の利用可能な目標から前記目標をサンプリングすることによってシミュレートされる、請求項２５に記載の方法。
前記操縦分布は、
前記可能な操縦の各々について、予想軌道モデルを決定すること、および
前記外部アクターの前記観測されたトレースを、前記可能な操縦の各々についての前記予想軌道モデルと比較して、該操縦の尤度を決定すること
を含む前記操縦レベルにおける逆計画を使用して決定される、請求項２５または２６に記載の方法。
前記ツリー探索アルゴリズムは、異なるサンプリングされた目標で複数の構築されたゲームツリーについて複数回実行され、ＡＶ操縦の前記シーケンスは、前記ＡＶプランナによって、前記複数の構築されたゲームツリー内の経路の統計分析に基づいて決定される、請求項２５～２７のいずれか一項に記載の方法。
オブジェクト追跡が、前記遭遇した運転シナリオ内の少なくとも１つの外部アクターを追跡することによって、一時間区間における前記外部アクターの観測されたトレースを決定するために、前記センサ入力に適用され、
前記逆計画法は、
前記遭遇した運転シナリオ内の前記外部アクターの一式の可能な操縦を決定するステップと、
前記可能な操縦の各々について、予想軌道モデルを決定するステップと、
前記外部アクターの前記観測されたトレースを、前記可能な操縦の各々についての前記予想軌道モデルと比較し、該操縦の尤度を決定するステップと、
前記操縦のうちの少なくとも１つの操縦の前記決定された尤度を使用して、前記外部アクターの前記予想される挙動をシミュレートするステップと
を含む、請求項１０に記載の方法。
各操縦についての前記予想軌道モデルは、該操縦に関する単一の軌道である、請求項２９に記載の方法。
各操縦についての前記予想軌道モデルは、該操縦に関する予測される軌道の分布である、請求項２９または３０に記載の方法。
自律型車両（ＡＶ）に関するセンサ入力を受信するステップと、
前記センサ入力を処理し、遭遇した運転シナリオを決定するステップと、
ＡＶプランナにおいて、ツリー探索アルゴリズムを実行して、構築されたゲームツリーを通る経路に対応するＡＶ操縦のシーケンスを決定するステップと、
前記決定されたＡＶ操縦のシーケンスを実行するためのＡＶ制御信号を生成するステップと
を含んでおり、
前記ゲームツリーは、前記遭遇した運転シナリオの予想される状態を表す複数のノードを有し、各々の子ノードの前記予想される運転シナリオの状態は、（ｉ）候補ＡＶ操縦、および（ｉｉ）前記遭遇した運転シナリオ内の少なくとも１つの外部エージェントの予想される挙動に基づいて、親ノードの運転シナリオの状態を更新することによって決定され、
前記外部エージェントの前記予想される挙動は、前記センサ入力から導出された前記外部アクターの１つ以上の観測されたパラメータに目標認識を適用することによってシミュレートされる、
予測された自律型車両（ＡＶ）計画方法。
前記目標認識は、一式の利用可能な目標のうちの各々の目標について、
前記１つ以上の観測されたパラメータに基づく該目標についての最良利用可能軌道モデル、および
該目標についての最適軌道モデル
を計算することを含む、請求項３２に記載の方法。
前記目標認識は、確率論的であり、目標分布が、各目標について前記最良利用可能軌道モデルを前記最適軌道モデルと比較することによって決定される、請求項３３に記載の方法。
定められたコスト関数が、各目標についての前記予想軌道モデルおよび前記最良利用可能軌道モデルの両方に適用されて、該軌道モデルのそれぞれのコストが決定され、該軌道モデルは、該軌道モデルのコストを比較することによって比較される、請求項３４に記載の方法。
複数の目標分布が、複数の可能な操縦または操縦シーケンスについて決定される、請求項３４または３５に記載の方法。
前記予想される挙動は、前記目標分布に基づいて前記一式の利用可能な目標からサンプリングされる目標に基づいてシミュレートされる、請求項３４～３６のいずれか一項に記載の方法。
前記予想される挙動は、前記外部エージェントについて決定された操縦分布に基づいて、前記可能な操縦から少なくとも１つの操縦をサンプリングし、次いで該サンプリングされた操縦について決定された前記目標分布から前記目標をサンプリングすることによってシミュレートされる、請求項３６に従属する請求項３７に記載の方法。
前記ツリー探索アルゴリズムは、異なるサンプリングされた目標で複数の構築されたゲームツリーについて複数回実行され、ＡＶ操縦の前記シーケンスは、前記ＡＶプランナによって、前記複数の構築されたゲームツリー内の経路の統計分析に基づいて決定される、請求項３７または３８に記載の方法。
前記目標認識は、目標認識決定ツリーを使用して実行される、請求項３２に記載の方法。
自律型車両を設定する方法であって、
訓練システムにおいて、１つ以上の運転領域から取得された現実世界の運転挙動データを受信するステップと、
前記現実世界の運転挙動を処理し、生成モデルの訓練に使用するための現実世界の運転挙動の例を抽出するステップと、
前記抽出された運転挙動の例を使用して、外部エージェントの前記挙動を該外部エージェントの１つ以上の観測されたパラメータに基づいて予測するように生成挙動モデルを訓練するステップと、
前記訓練された生成挙動モデルを自律型車両の電子ストレージに格納するステップと
を含んでおり、
前記自律型車両は、前記生成挙動モデルを使用して請求項１～４０のいずれか一項に記載のステップを実施するように構成された自律型車両プランナを備えている、方法。
請求項１～４１のいずれか一項に記載の方法のステップを実行するように構成された実行ハードウェアを備えるコンピュータシステム。
実行されたときに請求項１～４０のいずれか一項に記載の方法を実施するように構成された実行可能命令を含んでいるコンピュータプログラム。
請求項１～４０のいずれか一項に記載の方法を実施するように構成された自律型車両（ＡＶ）プランナ。
請求項４４に記載の自律型車両プランナと、前記自律型車両プランナに結合し、該ＡＶプランナによって生成される制御信号に応答する駆動機構と、を備える自律型車両。