JP2024507975A

JP2024507975A - 移動ロボットのための予測および計画

Info

Publication number: JP2024507975A
Application number: JP2023552134A
Authority: JP
Inventors: アンソニー、クニッテル
Original assignee: Five AI Ltd
Current assignee: Five AI Ltd
Priority date: 2021-02-26
Filing date: 2022-02-25
Publication date: 2024-02-21
Also published as: EP4298003A1; US20240116544A1; CN116917184A; GB202102789D0; WO2022180237A1; IL304806A; KR20230162931A

Abstract

シナリオ内の１つまたは複数のアクタ・エージェントの行動を予測する方法は、シナリオ内の自己エージェントによって実施される。複数のエージェント・モデルが使用されて、候補将来の組を生成し、各候補将来がアクタ・エージェントの予想される行動を提供する。重み付け関数が各候補将来に適用されて、シナリオにおけるその関連性を示す。候補将来の群は、示された関連性に基づいて各アクタ・エージェントについて選択され、複数のエージェント・モデルが、乗り物の場面から推測可能である合理的な目標指向の挙動を表す第１のモデル、および乗り物の場面から推測可能ではない代替の挙動を表す少なくとも１つの第２のモデルを含む。

Description

本開示は、自律車両および他の移動ロボットのための計画ならびに予測に関する。

新たな技術は、それら自体によって都市道路を走行することができる自律車両（ＡＶ：ａｕｔｏｎｏｍｏｕｓｖｅｈｉｃｌｅ）である。そのような車両は、人々や他の車両の間で複雑な操縦を実行する必要があるだけでなく、しばしば、環境内でそれらのエージェントと衝突することなどの有害事象が起きる確率に対して厳重な制約を保証しながら、複雑な操縦を行わなければならない。自動運転車としても知られている自律車両は、その外部環境を監視するためのセンサ・システムと、それらのセンサを使用して自動的に運転決定を行い、実施することが可能な制御システムとを有する車両を指す。これは特に、センサ・システムからの認知入力に基づいて、自動的に車両の速度および進行方向を適合させる能力を含む。完全自律車両、または「運転者なしの」車両は、十分な意思決定能力を有して、人間の運転者からの入力が何もなくとも動作できる。しかしながら、本明細書で使用される「自律車両」という用語は、自律性の意思決定能力がより限定されており、したがって、依然として人間の運転者からのある程度の監督を要求する半自律車両にも適用する。例えば、内外の工業地帯で輸送品を運搬するための他の移動ロボットが開発されている。そのような移動ロボットは、人々が乗っておらず、ＵＡＶ（ｕｎｍａｎｎｅｄａｕｔｏｎｏｍｏｕｓｖｅｈｉｃｌｅ：無人自律車両）と呼ばれる移動ロボットの部類に属するであろう。また、自律空中移動ロボット（ドローン）も開発されている。

そのようなＡＶまたは移動ロボットが直面している中核の問題は、環境内の他のエージェントの挙動を予測することであり、その結果、自律車両によってとられる考えられる行動（自己行動）が評価されることができる。これは、自己行動が、他の車両についての予測を考慮して計画されることを可能にする。

「ＡｕｔｏｎｏｍｏｕｓＶｅｈｉｃｌｅＰｌａｎｎｉｎｇａｎｄＰｒｅｄｉｃｔｉｏｎ」という名称の公報ＷＯ２０２００７９０６６は、「インバースプランニング」に基づいた予測の形態を記載している。インバースプランニングとは、エージェントが予測可能な方式でその決定を計画すると仮定する予測方法の部類を指す。インバースプランニングは、関連する観測結果に基づいてエージェントの現在の操縦／挙動を推測するために、考えられる操縦または挙動にわたって実行されることができる（操縦検出の形態）。またインバースプランニングは、エージェントの考えられる目標を推測するために、考えられる目標にわたって実行されることもできる（目標認識の形態）。

発明者は、ＷＯ２０２００７９０６６に記載されている手法は、推測することが可能なエージェントの目標の性質に限界を有すると認識している。

本発明の態様は、ＷＯ２０２００７９０６６に記載されているような合理的な目標指向の挙動だけでなく、多数のタイプのエージェント挙動を包含するエージェント挙動の予測を実行するための方法を提供することによって、これらの限界に対処する。本発明の態様は、現実の運転者が実際に従う場合がある挙動の範囲を含む多様な範囲のエージェント挙動がモデル化されることを可能にする。そのような挙動は、合理的な目標指向の挙動を超えて広がり、運転者の誤りおよび非合理的な挙動を含んでもよい。

本発明の１つの態様によれば、シナリオ内の自己エージェントによって実施される、シナリオ内の１つまたは複数のアクタ・エージェントの行動を予測する方法において、
各アクタ・エージェントについて複数のエージェント・モデルを使用して候補将来の組を生成することであって、各候補将来がアクタ・エージェントの予想される行動を提供する、生成することと、
各候補将来に重み付け関数を適用して、シナリオにおけるその関連性を示すことと、
各アクタ・エージェントについて示された関連性に基づいて候補将来の群を選択することとを備え、複数のエージェント・モデルが、乗り物の場面から推測可能である合理的な目標指向の挙動を表す第１のモデル、および乗り物の場面から推測可能ではない代替の挙動を表す少なくとも１つの第２のモデルを備える、方法が提供される。

いくつかの実施形態では、各候補将来を生成するステップが、予測時間ステップにおいて各予想される行動を提供する自己エージェントの予測構成要素によって行われる。候補将来は、自己エージェントの計画器に伝送されてもよい。予測時間ステップは、候補将来が生成される現在の時間の先の所定の時間であってもよい。候補将来は、所与の時間窓において生成されてもよい。

他の実施形態では、候補将来は、共同計画器／予測探査方法によって生成される。

いくつかの実施形態では、エージェント・モデルを使用して候補将来を生成するステップは、各エージェント・モデルに、シナリオ内のすべてのアクタ・エージェントの現在の状態を支給することを備える。

いくつかの実施形態では、シナリオ内の１つまたは複数のアクタ・エージェントの履歴は、候補将来を生成することの前に、各エージェント・モデルに支給される。

現在のシナリオのセンサ派生データは、候補将来を生成することの前に、各エージェント・モデルに支給されてもよい。データは、自己エージェントを構成するＡＶに搭載されているセンサ・システムから派生してもよい。

少なくとも１つの第２のモデルは、
シナリオについての不適切または不正確な情報に基づく合理的な目標指向の挙動を表すエージェント・モデル・タイプと、
アクタ・エージェントの予想外の行動を表すエージェント・モデル・タイプと、
既知または観測された運転者の誤りをモデル化するエージェント・モデル・タイプと
のうちの１つまたは複数から選択される。

いくつかの実施形態では、各候補将来は、アクタ・エージェントについての１つまたは複数の軌道として定義される。他の実施形態では、各候補将来は、ラスタ確率密度関数として定義される。

候補将来を選択するステップは、事象が起きる見込みを示す確率点数と、自己エージェントの得られる結末に対する重要性を示す重要性因子とのうちの少なくとも１つを使用することを備えてもよい。

候補将来がアクタ・エージェントによって実施される見込みを示す確率点数と、自己エージェントの候補将来に対する重要性を示す重要性因子とのうちの少なくとも１つを使用すること。

別の態様では、本発明は、１つまたは複数のハードウェア・プロセッサと、１つまたは複数のハードウェア・プロセッサによって実行されると上記で定義された方法を実施するコンピュータ実行可能命令を記憶するコンピュータ・メモリとを備えるコンピュータ装置を提供する。

別の態様では、本発明は、コンピュータ・メモリに記憶されたコンピュータ実行可能命令を備えるコンピュータ・プログラム製品であって、コンピュータ実行可能命令が、上記で定義された方法を実施するように１つまたは複数のハードウェア・プロセッサによって実行可能である、コンピュータ・プログラム製品を提供する。

コンピュータ装置は、自律車両の車載コンピュータ・システムに具現化されてもよく、自律車両が、シナリオの環境と環境内のアクタ・エージェントの状態とについての情報を備えるデータを取得するための車載センサ・システムを含む。

コンピュータ装置は、シナリオの環境の表示を提供するために、位置特定と、対象物検出と、対象物追跡とのうちの少なくとも１つを実施するように構成されているデータ処理構成要素を備えてもよい。

別の態様では、本開示は、乗り物の場面内のアクタ車両エージェントの行動を予測するためのコンピュータ実施挙動モデルを訓練する方法において、挙動モデルが、乗り物の場面内で起きる非常に低い確率の事象を認識するように構成されており、方法が、
コンピュータ実施機械学習システムに入力訓練データを付与することであって、訓練データが、そのような非常に低い確率の事象が収集されたデータのデータセットの唯一の供給源である状況で収集されたデータセットから供給される、付与することを備え、コンピュータ実施機械学習システムが、分類器として構成されており、それによって、訓練されたモデルが、乗り物の場面内のそのような非常に低い確率の事象を認識する、方法を提供する。

本開示は、別の態様では、１つまたは複数のハードウェア・プロセッサと、１つまたは複数のハードウェア・プロセッサによって実行されると前述の方法を実施するコンピュータ実行可能命令を記憶するコンピュータ・メモリとを備えるコンピュータ装置をさらに提供する。

本開示は、別の態様では、コンピュータ・メモリに記憶されたコンピュータ実行可能命令を備えるコンピュータ・プログラム製品であって、コンピュータ実行可能命令が、前述の方法を実施するように１つまたは複数のハードウェア・プロセッサによって実行可能である、コンピュータ・プログラム製品をさらに提供する。

本発明をより良く理解するため、および本発明がどのように実行に移される場合があるかを示すために、ここで例として添付図面への参照がなされる。

ＡＶに搭載されているコンピュータ・システムの概略機能図である。車線変更双方向シナリオを示す図である。

本開示は、自己エージェントがその操縦を予測し計画するように要求される双方向シナリオにおいて、エージェント挙動の予測を実行する方法およびシステムに関する。本開示は、双方向シナリオにおける将来の状態の推定を生成するために、合理的な目標指向の挙動と、間違いなどの理想的ではない挙動との両方を含む多数のタイプのエージェント挙動に基づく双方向予測を必要とする。双方向予測は、場面内の各々のエージェントの将来の地点または軌道を各々含むいくつもの予想される将来の状態の予測、ならびに各状態が起きる場合がある確率の推定を必要とする。これらの予測的な将来の状態は、例えばエージェントが自己車両に対してどのように反応するかを考慮することによって、将来の状態に存在する各々のエージェントを一貫して予測することを必要とする。

ここで、図１への参照がなされ、図１は、ＡＶランタイム・スタックの一部としての自律車両（自己車両ＥＶ：ｅｇｏｖｅｈｉｃｌｅ）の車載コンピュータ・システム１００において具現化される特定の機能構成要素の概略機能ブロック図を示している。これらの構成要素は、データ処理構成要素１０２と、予測構成要素１０４と、計画構成要素（ＡＶ計画器）１０６とを備える。コンピュータ・システム１００は、１つまたは複数のハードウェア・プロセッサと、この１つまたは複数のハードウェア・プロセッサによって実行されると機能構成要素の機能を実施するコンピュータ実行可能命令を記憶するコンピュータ・メモリとを有するコンピュータ装置を備える。コンピュータ実行可能命令は、記憶された命令または伝送可能な命令の形態で、一時的または非一時的コンピュータ・プログラム製品に提供されてもよい。

データ処理構成要素１０２は、ＡＶ上の車載センサ・システム１０８からセンサ・データを受信する。車載センサ・システム１０８は、異なる形態をとることができるが、概して、画像取得装置（カメラ）、ＬＩＤＡＲユニット等、衛星測位センサ（ＧＰＳ等）、モーション・センサ（加速度計、ジャイロスコープ等）などの様々なセンサを備え、これらは共同で、周囲環境と、その環境内でのＡＶおよび他のアクタ（車両、歩行者等）の状態とについての詳細な情報を抽出することができる豊富なセンサ・データを提供する。

図１では、アクタ車両（ＡＶ）１、ＡＶ２、ＡＶ３とそれぞれ名付けられた３つのアクタ例が示されている。

なお、本技法は、ＡＶ自体の車載光学センサ（画像取得装置、ＬＩＤＡＲ等）を使用した画像データおよび同様のデータの取得を使用することに限定されない。本方法は代替的または追加的に、例えばそのＡＶの近傍にある外部の画像取得ユニットによって取得されたＣＣＴＶ画像等の、外部から取得されたセンサ・データを使用して適用されることができる。その場合、センサ入力の少なくとも一部は、外部のセンサ・データ源から１つまたは複数の無線通信リンクを介して、ＡＶに受信されてもよい。

データ処理構成要素１０２は、センサ・データから情報を抽出するために、センサ・データを処理する。機能構成要素の組は、場面とその場面内のアクタとについての包括的な情報を記録することを担っている。これらの機能構成要素は、位置特定ブロック１１０と、対象物検出ブロック１１２と、対象物追跡ブロック１１４とを備える。

位置特定は、周囲環境とその内部でのＡＶの位置とを知らせるように実行される。視覚的な位置特定および地図ベースの位置特定を含む様々な位置特定技法が、異議を唱えるために使用されてもよい。例として、その全体を参照によって本明細書に引用される「ＶｅｈｉｃｌｅＬｏｃａｌｉｓａｔｉｏｎ」という名称の英国特許出願第１８１２６５８．１号への参照がなされる。これは、視覚的検出と所定の地図データとの組合せを使用する、適切な位置特定方法を開示している。周囲の道路構造を検出するように視覚的（画像）データに区分化が適用されて、次いでこれは、基準の地図枠におけるＡＶ位置の正確で堅固な推定を決定するために、道路および／または周囲環境の他の構造に関して、高解像度地図などの所定の地図化されたデータと整合され、次いでこれは、視覚的データと地図データとを併合することにより、視覚的検出と地図ベースの推測との組合せを介して決定される。位置推定を決定するために、構造整合により決定される個別の位置推定が、粒子ろ過（ｐａｒｔｉｃｌｅｆｉｌｔｅｒｉｎｇ）または同様のものを使用した他の位置推定（ＧＰＳなど）と組み合わされて、基準の地図枠におけるＡＶについての正確な位置推定を提供し、この推定は、個別の位置推定の正確さにおける変動に対して堅固である。地図上でＡＶ位置を正確に決定すると、視覚的に検出された道路構造は所定の地図データと併合されて、現在および履歴の車両の周囲環境の広範囲表示をライブ地図の形態で提供し、基準の地図枠におけるＡＶ位置の正確で堅固な推定を提供する。本文脈における「地図データ」という用語は、視覚的な（または他のセンサ・ベースの）検出を所定の地図データと併合することによって派生したライブ地図の地図データを含むが、同様に、所定の地図データ、または視覚的／センサ検出のみから派生した地図データも含む。

対象物検出は、車両、歩行者、およびＡＶが安全に反応できなければならない挙動を有する他の外部アクタなど、環境内の外部アクタを検出し位置特定するために、センサ・データに適用される。これは例えば、環境内でのおよび／または自己車両に対する対象物の位置、方向付け、または大きさが推定される３Ｄ境界ボックス検出の形態を備えてもよい。これは、例えばＲＧＢＤ（ｒｅｄｇｒｅｅｎｂｌｕｅｄｅｐｔｈ、赤緑青深度）、ＬＩＤＡＲ、ポイント・クラウド等などの、３Ｄ画像データに適用されることができる。これは、そのような外部アクタの位置および他の物理的性質が、地図上で決定されることを可能にする。

対象物追跡は、環境内で検出された対象物の任意の動きを追跡するために使用される。その結果は、対象物追跡を使用して時間の経過につれて決定された各アクタの観測痕跡である。観測痕跡の一巡は、移動する対象物の履歴であり、時間の経過につれて移動する対象物の経路を取得し、同様に、時間内に異なる点において、対象物の履歴の速度、加速等などの他の情報も取得してもよい。

エージェントの履歴を保持するエージェント履歴構成要素１１３が提供される。各エージェントは、自己車両が場面内でそのエージェントを識別した際の識別子を有し、エージェント履歴表１１３内でその履歴と関連付けられている。

本発明の実施形態による双方向予測システムは、エージェント・モデルＡＭａ、ＡＭｂ、ＡＭｃ…の組を備え、これらの各々は、すべてのエージェントの現在の状態と、エージェントの履歴と、現在のシナリオの入力の詳細とを取り込み、所与のエージェントについての将来の行動の予測的な組を生成する。

データ処理構成要素１０２によって実施される位置特定、対象物検出、および対象物追跡は、自己車両の周囲環境と、その環境内での任意の外部アクタの現在の状態と、ＡＶが追跡することができたそのようなアクタの履歴痕跡との広範囲表示を提供する。これは、最新の位置および環境を知らせるように、リアルタイムで連続して更新される。

述べたように、この情報は、所与のエージェントについての将来の行動の予測された組を生成するために、エージェント・モデルに提供される。

予測構成要素１０４は、この情報を予測解析のための根拠として使用し、予測解析において、ＡＶの近傍における外部アクタの将来の挙動についての予測を作成する。予測構成要素１０４は、コンピュータ・システム１００内でコンピュータ装置の１つまたは複数のハードウェア・プロセッサによって実行されるとそのような予測を作成するための方法を実施するコンピュータ実行可能命令を備える。コンピュータ実行可能命令は、記憶された命令または伝送可能な命令の形態で、一時的または非一時的コンピュータ・プログラム製品に提供されてもよい。

予測を作成するために、予測構成要素は将来探査システムＦＥＳ１０５を使用し、この将来探査システムＦＥＳ１０５は、エージェント・モデルを使用して、所与の状態における各エージェントについての考えられる将来を発見し、考えられる将来の状態とそれらの状態による行動との選択的探査を実行し、そして場面内のエージェントの将来の状態からなる予測将来の組を生成する。

世界とその中のエージェントとの現在の観測された状態から、予測が５秒先などの所与の時間窓について必要とされる場合、予測の生成は、例えば最も確からしいとみなされる将来の組を選択することによって考えられる将来のすべてから縮小された組を選択すること、または特定のモデルのエージェント挙動とのそれらの一貫性を必要とする。いくつかの実施形態では、自己車両にとって良好な決定を生成するために重要である将来が選択されてもよい。例えば、いくつかの将来は、より低い確率であるかもしれないが、衝突事故、または自己運転者もしくは他の運転者の単なる不便さにつながるものであり、これらも同様に考慮されるであろう。

１つの実施形態では、ＡＶ計画構成要素１０６（本明細書ではＡＶ計画器と呼ばれることもある）は、自己の周囲環境とその中の外部エージェントとについての抽出された情報を、ＡＶ計画のための根拠としての予測構成要素１０４によって提供された挙動予測と共に使用する。すなわち、予測構成要素１０４による予測解析が、データ処理構成要素によってセンサ・データから抽出された情報の最上部に、予測された情報の層を追加し、次いでこれは、ＡＶ計画構成要素１０６によってＡＶ計画決定のための根拠として使用される。他の実施形態では、計画および予測は、将来の経路の共同探査において共に行われてもよいことに留意されたい。計画構成要素１０６は、コンピュータ実行可能命令を備え、このコンピュータ実行可能命令は、コンピュータ・システム１００のコンピュータ装置の１つまたは複数のハードウェア・プロセッサによって実行されると、計画方法を実施する。コンピュータ実行可能命令は、記憶された命令または伝送可能な命令の形態で、一時的または非一時的コンピュータ・プログラム製品に提供されてもよい。

システムは階層的な計画工程を実施し、ここでは、ＡＶ計画構成要素１０６が、様々な高いレベルの決定を作成し、次第に、より高いレベルの決定の実施が必要であるより低いレベルの決定を作成する。例えば、本明細書でさらに記載するように、ＡＶ計画器は、特定のアクタに起因する特定の目標を推測し、次に、それらの目標に関連した特定の経路を決定してもよい。より低いレベルの決定は、それらの経路を鑑みてとられるべき行動に基づいてもよい。最終結果は、一連のリアルタイムの低レベル行動決定である。それらの決定を実施するために、ＡＶ計画構成要素１０６は、ＡＶの挙動を制御するため少なくとも部分的にはＡＶの運転機構１１６に入力される制御信号を生成する。例えばこれは、操舵、制動、加速、ギア変更等を制御してもよい。制御信号はまた、合図を出すことなどの二次的な行動を実行するように生成されてもよい。

考えられる有害挙動の範囲は非常に幅広いものとなり得、別のエージェントの観測に失敗することなどの比較的一般的な挙動から、エージェントが自己車両の地点に操舵または加速してくることなどの非常に稀な行動までの範囲であり得る。有害挙動の専門家システムは、考えられる挙動の組と確率の推定との両方を含む必要がある。確率が０に近いことを暗示する稀な事象は、低確率で符号化されても、モデルから除外されてもよい。このようにして、有害エージェント挙動の専門家システムは確率モデルの形態となり、推定がデータから生成され確率予測に基づく計画システムと統合されることを必要とする。

確率モデルの出力を符号化することは、システムの選出された表示および選出された計画システムの要件に基づいて確立される。１つの考えられる候補の符号化およびインターフェースは、所与の時間窓に対して、場面内の各エージェントの軌道を各々含んでおりかつ確率推定と関連付けられている将来の組を提供することであってもよい。これは、予測システムおよび計画システムが適正に独立しているときに適切であることができる低い帯域幅の符号化であり、少量のデータが使用されて、システム間での符号化交換（ｅｎｃｏｄｉｎｇｅｘｃｈａｎｇｅ）を生成する。この手法の変形例は、より多くの情報を提供する各エージェントについてのラスタ確率密度地図として、各将来を符号化することである。

上記で述べたように、見込みのある挙動を決定する１つの様式は、共同将来探査である。これは、強固に結合された方法であり、予測システムによって行われる将来の探査が、計画器により提供される将来の重要性によって探査する将来の選出が通知されるように、計画システムと並列に動作する。提示される自己軌道は、計画器によって行われる将来の探査と並列に展開される場合があり、予測が起こっているときに、時間の経過につれて発達する場合がある。計画器は、どの将来を探査するかを、確率または重要性（および潜在的に他のパラメータ）に基づいて選出し、予測構成要素１０４が、各状態について、場面内の各エージェントがとる場合がある行動の分布を推定する。本開示では、予測構成要素の役割は、状態（および以前の状態の履歴）を鑑みて、場面内の各エージェントについての行動または操縦の確率分布を推定することである。

計画が修正されると情報は将来について派生し、すなわち、特定の共同将来状態が関連性のあるままで残ってもよい一方で、他の状態はあまり関連性がないので、各変更は、追加の将来状態が探査および評価されなければならないことを暗示する。予測についての効率的な表示により、相互作用に参加しているエージェントのみが評価を要求することができ、一方で独立したエージェントの予測は保存されてもよい。予測的構成要素１０４は計画器と連動して、運転する区域における外部アクタの挙動を予測するために、エージェント・モデルＡＭａ、ＡＭｂ、…を使用する。すべての考えられる将来のうちの縮小された組が選択される様式は、計画構成要素１０６とＡＶスタックにおける正常な計画とついての暗示を有する。これがどのように実行される場合があるのか、および将来の縮小された組を使用した構成要素の目的は、特定の実施形態において評価されるべき考慮事項である。

エージェント・モデルは、異なるタイプであってもよい。本明細書で論じられるように、本システムのねらいは、合理的な挙動でなくてもよい多様な範囲の挙動をモデル化することである。本明細書で定義されるように、合理モデルは、合理的に選出された目標に向かって最適な経路に沿って移動する。ＡＶは、必ずしも最適な経路に沿っては移動しない他の挙動を示してもよく、言い換えれば、これらの挙動は、ＡＶがとる経路およびＡＶが移動する速度においていくらかの変動性を有してもよい。別の分類の挙動は、衝突回避である。エージェントは、最適な選出を作成するために必要とされるその場面のすべての態様について完全に通知されている状況で、衝突を回避するために合理的なステップをとってもよい。しかしながら、エージェントは不完全な挙動を示す場合がある。エージェントは、衝突を回避するために合理的なステップをとってもよいが、認知の不良等により完全には通知されていない場合がある。計画失敗／認知失敗または任意の他の理由により、エージェントは、衝突を回避するように全く行動しない場合がある。

いくつかの実施形態では、これらの挙動は、観測された挙動からモデル化されてもよい。

第１のタイプのエージェント・モデルは、いわゆる合理モデルである。合理モデルによれば、場面内のすべてのエージェントが、合理的に行動すると仮定される。すなわち、エージェントが具体的な目標に向かって最適な経路に沿って移動すると仮定される。エージェントは、通知された合理的な根拠に対して衝突を回避するように行動することになる。合理モデル・タイプを使用した予測手法は、所与の計画モデルに基づいて軌道を予測し、非合理的な挙動、またはエージェントによって間違えられた観測結果に基づく挙動などの他の行動を考慮しない。結果としてこのタイプのモデルは、たとえ不利な可能性が自己車両の行動を誘導するのに極めて重大である場合があっても、それらの不利な可能性を含まない予測将来の組を生成する。仮に自己計画がそのようなモデルのみを使用して生成されたとすると、自己計画は、他のエージェントが自己車両のための道を作ることになると仮定した過度に楽観的なものになる場合がある。そのような合理タイプ・モデルの１つの例は、我々の先の出願ＰＣＴ／ＥＰ２０２０／０６１２３２に記載されており、この内容は、その全体を参照によって本明細書に引用される。

第２のタイプのエージェント・モデルは、別のエージェントの存在を観測していないなどの不正確な情報に基づく合理的な行動を収容することであってもよい。例えばそのようなモデルは、環境が限定された認知のうちの１つであるとセンサによって決定された場合に、有用である場合がある。これは、天候不良または不完全なセンサなどの外部環境条件によるものである。

第３のタイプのモデルは、未知の目標に向かった動き、または状況を鑑みて予想外である動きなど、予想外または非合理的な行動であってもよい。例えば、明らかに直線の経路に追従しているエージェントが、私道に向かって曲がり、あるいは地図または環境自体からは理にかなって推測されることができないようにＵターンする可能性がある。そのような行動を認識するための１つの考えられる方法は、後ほど記述される。

特定の不完全な挙動は、モデルを生成するための専門的なデータセットを使用することによって、以下で説明されるようにモデル化される可能性がある。例えば、不適切な場面の知らせを伴う衝突回避の挙動のモデルまたは全く衝突を回避しないことが、事故記録から抽出される可能性がある。

将来探査システム１０５は、モデルのうちの１つまたは複数によって与えられた将来の選択的な探査を実行し、計画および予測のための根拠として使用されることができる情報価値のある将来の組を選出する。候補将来のツリーが構築され、その枝は、計画システムおよび予測システムによってどの将来が選択されるべきかを決定するために探査される。例えば、システムはモンテカルロ・ツリー探索を使用することができる。

各時間ステップにおいて、モデルＡＭａ、ＡＭｂ…のうちの１つを各々動作させることは、場面内の各エージェントについての行動の組を提示する。これらは、考えられる将来の枝分かれしたツリーを構築するために使用される。

所与の状態に続く後続の将来の組は、各エージェント・モデルに使用される表示に依存する。各モデルは、特定の表示に従って定義される提示された（候補）行動の組を生成する。例えば、軌道の組として、またはシステムの性質に応じてラスタ確率密度関数として、定義される場合がある。いくつかの実施形態では、考えられる将来の探査は、各候補の枝の関連性を示すために重み付け関数を要求する場合がある。重み付けに影響することができるいくつかの因子は、その将来が起きる予想確率と、その将来の重要性とを含む。別個の計画および予測を用いる実施形態では、重要性は、計画からのフィードバックによって推測され、例えば計画器は、着目される自己の経路、および将来状態の重要性の重み付けを示すことができ、探査する関連した将来を通知することができる。

共同探査手法下では、計画器はどの将来状態を探査するかを選出する。重要性は、状態の帰結に関連しており、（不便さのような他の因子が含まれていてもよいが）危険性と関連付けられていてもよい。確率は低いが衝突の危険性が高い状態は重要だとみなされる。

管理されるべき候補将来は、点数を使用して決定される。点数は、例えば上記で述べられた確率および重要性の因子を使用した、任意の適した基準に基づいてもよい。

計画構成要素１０６は、起きる事象の確率と得られる結末の重要性とを比較する動作を実行する場合がある。予測について各将来の着目される値を決定するために使用される点数は、同類の測定を使用する場合があるが、いくつかの周囲状況では、予測システムは、計画器からの重要性フィードバックに基づく点数を使用してもよい。

重要性測定は、いくつもの異なる様式で提供されてもよい。計画器がどのように重要性測定を生成するかの１つの例は、候補将来の導入が自己車両の現在の選出された計画を改変するか否かに基づいている。

どの候補将来が調査されるべきであるかに影響する場合がある別の因子は、どの将来が自己車両の着目される選出された１つまたは複数の経路に関連しているかに基づいている。考えられる将来を制約するように自己の軌道を選出することは、考えられる将来に条件を置くこととみなされる。他の例では、双方向予測は、いくつもの考えられる自己経路に基づいて動作してもよく、または決まった自己経路に基づいて将来を予測することの代わりに、計画器と反復的に動作してもよい。反復的に動作することは、例えば具体的な経路の将来を評価し、次いでその経路を修正した後に追加の将来を再評価することによって、起こる可能性がある。

論じられたように、いくつかの実施形態では、候補自己軌道と将来予測との共同探査が使用される。

双方向予測システムにおいて生じる１つの論点は、エージェントが場面内の自己行動と他のエージェントとに有利に反応するという仮定を含む過度に楽観的な予測につながることを回避するために、考えられる有害事象を予測に含むことの必要性である。この問題は、他のエージェントによる間違いまたは非協力的な挙動などの有害事象を含む有害エージェント挙動をモデル化することによって、取り除かれまたは改善されることができる。

１つの手法は、運転体験の大量のデータを収集することであり、このデータは、有害事象の例を含み、これらの挙動の確率モデルを生成するために使用されることができる。しかしながら、有害事象は珍しいので、効果的に有害事象を識別するためには大規模なデータセットが必要とされるであろう。大きなデータセットが使用されたとしても、事例間で一般化することが難しいので、１つのシナリオにおいて珍しい事象が観測された場合、その事象が他のシナリオで起こるとみなされるべき見込みの程度は明確ではない。異なる状態で起きる事象に確率値が割り当てられる様式は、確率モデルの特性に依存してもよく、したがって、正しい確率推定であるかもしれないものは、よく定義されない場合がある。これは、具体的な困難を生じる可能性がある。例えば事象が、１Ｅ－４（１０の－４乗）の確率、または１Ｅ－７（１０の－７乗）の確率で起きると予測される場合がある。これらの確率評価は両方とも、入手可能なデータに基づいて理にかなって評価されている場合がある。例えば、これらの２つの推定を生成した２つのモデルは、観測データで試験された場合に同一の全体的な正確性を有するが、珍しい事象の予測に対しては異なる確率推定を割り当てる場合がある。これらの推定が後続の処理において数値的に使用されるとき、それらは、そこから非常に異なった結末をもたらす可能性があり、例えば１つのシステムは、理にかなった見込みである事象を無視する場合がある一方、別のシステムは、そのような事象を回避しまたはそれに対して補償するステップをとる場合がある。

これらの困難を克服する１つの手法は、エージェントが他のエージェントの観測に失敗し、または衝突を回避するためにふさわしく反応しないなどの、有害行動を含むエージェント挙動のモデルを明示的に定義することである。そのような専門家システムは、これらの間違いが起こる場合がある様式を手動で定義することによって構築されてもよい。いくつかの有害事象は、他のエージェントを観測せずにエージェント計画を生成するなど、観測された情報を制約することによって再現されてもよい。他の実施形態では、例えば、無作為にでも特定の周囲状況に基づいてでも、過剰な加速または遅延した制動を符号化することにより、所与のエージェント状態または計画された軌道に対する有限状態の機械動作などの異なる様式で、行動が定義される可能性がある。そのような専門家システムの使用は、
最小の経費で追加開発を可能にし、適正に少量である開発でかなり良好な挙動を可能にする場合があること、
無作為に採取された運転体験の大規模なデータセットの収集を要求しないこと、
システム中の知識が、徐々に拡張および改善されることができ、知識ベースを造るように専門化された情報源を利用することができること
などのいくつもの利点を有する。

それにもかかわらず、有害エージェント挙動を取得するための専門家システムを生成する主な難題は、効果的に領域を対象にする十分な挙動を識別することができるようになることであり、対象範囲の程度を検証することができるようになることである。追加の難題は、十分に信頼性のある挙動の範囲を対象にする実施を生成することと、正確な確率推定を割り当てることとができるようになることである。

本発明のいくつかの実施形態によれば、モデルは、保険会社で見つけられる場合があるような事故報告のデータセットなどの運転における有害事象に注目した訓練データセットを使用することによって、そのような有害事象の専門化された知識を使用して訓練される。この種のデータは、運転体験のロング・テール（すなわち珍しい事象）の詳細に注目し、非常に大量の運転体験に基づいて収集され、例えば、自動車保険会社によって管理されているデータセットは、そのような保険を保持している運転者の集合体験から、数百万時間の運転体験より効果的に収集されている場合がある。そのようなデータセットを組み込むことは、データに存在するバイアスの考慮を要求する場合があるが、それにもかかわらず、そのようなデータ源は、モデルを訓練するため、および開発されたモデルがどの程度よく有害事象の領域を対象にするかを検証するために、有用に活用されることができる。

ここで、本明細書で記載される多エージェント・モデルを活用する考えられる実施が記載される。

現在の位置から選出された目的地まで進行する自律車両については、道路配置の既知の決まった制約と道路上の他の車両との両方を考慮して、ルートをどのように走行するかを決定しなければならない。これは、より高いレベルの決定が、より高いレベルの決定を安全かつ効果的に実施することを必要とされる徐々にきめの細かい決定に、次第に分解される階層的な意思決定を必要とする。

例として、旅程は一連の目標に分解されてもよく、目標は操縦の系列を実行することによって到達され、これは、行動を実施することによって実現される。

これらの用語は、本技法の記載された実施形態の文脈において、以下のように使用されている。

目標は、車両が現在の地点または状態から到達しようとしている地点などの、計画の高いレベルの態様である。これは、例えば高速自動車道路の出口、環状交差点の出口、または車両の先の設定距離における車線の点であってもよい。目標は、車両の最終的な目的地、車両のために選出されたルート、車両がある環境等に基づいて決定されてもよい。

車両は、所定の操縦または（より見込みのある）そのような操縦の時系列を実行することによって、定義された目標に到達してもよい。操縦のいくつかの例は、右折、左折、停止、車線変更、追い越し、および車線追従（正しい車線に留まること）を含む。車両が実行することのできる車両にとって現在利用可能な操縦は、その即時の環境に依存する。例えばＴ字路では、車両は直進し続けることはできないが、左に曲がり、右に曲がり、または停止することができる。

例えば、車線追従操縦が選択されると、ＡＶを正しい車線内で安全な速度かつ前のいずれの車両からも安全な距離で保つこと、追い越し操縦が選択されると、前の車両の追い越しを見越して必要とされる予備行動なら何でもとり、追い越しをするのが安全であるときには追い越しをするのに必要とされる行動なら何でもとること等、任意の所与の時間において、単一の現在の操縦が選択され、ＡＶは、その操縦が選択されている限りの間、その操縦を実行するために必要とされる行動なら何でもとる。選択された現在の操縦を鑑みて、その操縦を実行するためにどの行動がとられるべきかを車両に通知する方針が実施される。行動は、例えば、操舵を時計回りに５度曲げること、または加速装置の圧力を１０％だけ増加させることを含む場合がある低いレベルの制御動作である。とる行動は、現在の地点と現在の速度とを含めた車両自体の状態、ならびに道路配置と環境内の他の車両またはエージェントの挙動とを含めた車両の環境を両方とも考慮することによって決定されてもよい。「シナリオ」という用語は、いくつもの他の車両／エージェントが特定の挙動を示している特定の環境を記載するために使用されてもよい。

所与のシナリオで所与の操縦を実行するための行動についての方針は、強化学習または他の形態のＭＬ訓練を使用して、オフラインで学習されてもよい。

目標、行動としての操縦の与えられた例は網羅的なものではなく、車両がある事態に適するように、他のものが定義されてもよいことが理解されよう。

特定の実施形態では、モデルは、観測されている現在の事態を説明するのに役立つことができる。例えば、モデルは、運転者が行う場合がある最も見込みのある４つの行動があることを推定してもよく、運転者が実際に行ったことが観測されると、モデルはそれを説明するのに役立つことができる。例えば、モデルは、ＡＶが特定の行動をとることが観測される場合に、運転者が曲がって減速しているので運転者は右折に向かわされているようだ、とその意味を解釈することになる。

図２は、星型Ｓ１、Ｓ２が対応する目標を表す車線変更の双方向シナリオを示している。図２では、各目標に向かっている各エージェントの経路のいくつかの例が示されている。各エージェント／目標の対についての多数の経路が図示されており、この場合では、自転車の運動学モデル下で理にかなって検討された最初期／最新の経路、および中央にある１つの経路を表している。例えば、エージェント車両ＡＶ１を検討されたい。最初期の理にかなった経路はＰ１Ｅと名付けられており、最新の理にかなった経路はＰ１Ｌと名付けられている。中央の経路はＰ１Ｍと名付けられている。同様に、エージェント車両ＡＶ２については、その車両用の経路の組がＰ２ｅ、Ｐ２ｍ、Ｐ２ｌｌと名付けられている。エージェント車両ＡＶ３についてもそれに準じている。エージェント車両ＡＶ１は、説明のために自己車両とみなされてもよい。自己車両ＡＶ１は、エージェント車両ＡＶ２の挙動の予想値に基づいて経路を計画する課題を有する。自己車両ＡＶ１は、合理的な目標ベースのモデルを使用して、エージェント車両ＡＶ２が、経路Ｐ２ｅ…Ｐ２ｌのうちのいずれかの上にあってもよい理にかなった追い越し操縦を実行するであろうと計画するであろう。自己車両は、既知のように快適かつ安全な基準に従って適宜計画するであろう。

しかしながら、数少ない場合では、エージェント車両ＡＶ２が合理的には動作しない場合がある。例えば、エージェント車両ＡＶ２は、点線マークのＰｒ上に示されるように、突然ハンドルを右に切り減速する場合がある。

逆に、エージェント車両ＡＶ２は、合理的に行動するが、前方の車両ＡＶ３を見ていないような認知の不良の条件にある場合がある。その場合、エージェント車両ＡＶ２は、追い越し操縦へと全く移らず、代わりに危険な衝突を潜在的に引き起こす場合がある。自己車両ＡＶ１は、このことが考えられる結末であるかもしれないという、特定の不測の事態を伴って計画する課題を有する。すなわち、自己車両が計画する場合がある経路の組には、合理的な経路の組と、次いで、確率的な重み付けを伴って含まれることができる稀な経路の組とがあってもよい。

Claims

シナリオ内の自己エージェントによって実施される、前記シナリオ内の１つまたは複数のアクタ・エージェントの行動を予測する方法であって、
各アクタ・エージェントについて複数のエージェント・モデルを使用して候補将来の組を生成することであって、各候補将来が前記アクタ・エージェントの予想される行動を提供する、生成することと、
各候補将来に重み付け関数を適用して、前記シナリオにおけるその関連性を示すことと、
各アクタ・エージェントについて前記示された関連性に基づいて候補将来の群を選択することとを備え、前記複数のエージェント・モデルが、前記乗り物の場面から推測可能である合理的な目標指向の挙動を表す第１のモデル、および前記乗り物の場面から推測可能ではない代替の挙動を表す少なくとも１つの第２のモデルを備える、方法。
各候補将来を生成する前記ステップが、予測時間ステップにおいて各予想される行動を提供する前記自己エージェントの予測構成要素によって行われる、請求項１に記載の方法。
前記候補将来を前記自己エージェントの計画器に伝送することを備える請求項１または２に記載の方法。
前記候補将来が、共同計画器／予測探査方法によって生成される、請求項１または２に記載の方法。
前記エージェント・モデルを使用して前記候補将来を生成する前記ステップが、各エージェント・モデルに、前記シナリオ内のすべてのアクタ・エージェントの現在の状態を支給することを備える、請求項１から４のいずれか一項に記載の方法。
前記候補将来を生成することの前に、各エージェント・モデルに、前記シナリオ内の１つまたは複数のアクタ・エージェントの履歴を支給することを備える請求項１から５のいずれか一項に記載の方法。
前記候補将来を生成することの前に、各エージェント・モデルに、前記現在のシナリオのセンサ派生データを支給することを備える請求項１から６のいずれか一項に記載の方法。
前記予測時間ステップが、前記候補将来が生成される現在の時間の先の所定の時間である、請求項２または請求項２に従属する場合の請求項３から７のいずれか一項に記載の方法。
前記候補将来を生成する前記ステップが、所与の時間窓において前記候補将来を生成することを備える、請求項１から８のいずれか一項に記載の方法。
前記少なくとも１つの第２のモデルが、
前記シナリオについての不適切または不正確な情報に基づく合理的な目標指向の挙動を表すエージェント・モデル・タイプと、
アクタ・エージェントの予想外の行動を表すエージェント・モデル・タイプと、
既知または観測された運転者の誤りをモデル化するエージェント・モデル・タイプと
のうちの１つまたは複数から選択される、請求項１から９のいずれか一項に記載の方法。
各候補将来が、前記アクタ・エージェントについての１つまたは複数の軌道として定義される、請求項１から１０のいずれか一項に記載の方法。
各候補将来が、ラスタ確率密度関数として定義される、請求項１から１０のいずれか一項に記載の方法。
候補将来を選択する前記ステップが、事象が起きる見込みを示す確率点数と、前記自己エージェントの得られる結末に対する重要性を示す重要性因子とのうちの少なくとも１つを使用することを備える、請求項１から１２のいずれか一項に記載の方法。
１つまたは複数のハードウェア・プロセッサと、前記１つまたは複数のハードウェア・プロセッサによって実行されると請求項１から１３のいずれか一項に記載の方法を実施するコンピュータ実行可能命令を記憶するコンピュータ・メモリとを備えるコンピュータ装置。
コンピュータ・メモリに記憶されたコンピュータ実行可能命令を備えるコンピュータ・プログラム製品であって、前記コンピュータ実行可能命令が、請求項１から１３のいずれか一項に記載の方法を実施するように１つまたは複数のハードウェア・プロセッサによって実行可能である、コンピュータ・プログラム製品。
自律車両の車載コンピュータ・システムに具現化される場合の請求項１４に記載のコンピュータ装置であって、前記自律車両が、前記シナリオの環境と前記環境内の前記アクタ・エージェントの状態とについての情報を備えるデータを取得するための車載センサ・システムを含む、コンピュータ装置。
前記シナリオの環境の表示を提供するために、位置特定と、対象物検出と、対象物追跡とのうちの少なくとも１つを実施するように構成されているデータ処理構成要素を備える請求項１６に記載のコンピュータ装置。
乗り物の場面内のアクタ車両エージェントの行動を予測するためのコンピュータ実施挙動モデルを訓練する方法において、前記挙動モデルが、前記乗り物の場面内で起きる非常に低い確率の事象を認識するように構成されており、前記方法が、
コンピュータ実施機械学習システムに入力訓練データを付与することであって、前記訓練データが、そのような非常に低い確率の事象が収集されたデータのデータセットの唯一の供給源である状況で収集された前記データセットから供給される、付与することを備え、前記コンピュータ実施機械学習システムが、分類器として構成されており、それによって、前記訓練されたモデルが、前記乗り物の場面内のそのような非常に低い確率の事象を認識する、方法。
１つまたは複数のハードウェア・プロセッサと、前記１つまたは複数のハードウェア・プロセッサによって実行されると請求項１８に記載の方法を実施するコンピュータ実行可能命令を記憶するコンピュータ・メモリとを備えるコンピュータ装置。
コンピュータ・メモリに記憶されたコンピュータ実行可能命令を備えるコンピュータ・プログラム製品であって、前記コンピュータ実行可能命令が、請求項１８に記載の方法を実施するように１つまたは複数のハードウェア・プロセッサによって実行可能である、コンピュータ・プログラム製品。