JP2023529239A

JP2023529239A - マルチモーダルエゴセントリック将来予測のためのコンピュータ実装方法

Info

Publication number: JP2023529239A
Application number: JP2023516846A
Authority: JP
Inventors: マカンジオザーマ; エツギュンツィツェク; ブロークストーマス; ブチッキオケビン; アバドフレデリク; ベンダハンレミ
Original assignee: イムラヨーロッパソシエテパアクシオンスシンプリフィエ
Priority date: 2020-05-29
Filing date: 2021-05-28
Publication date: 2023-07-07
Also published as: EP4158529A1; WO2021239997A1; EP3916626A1; US20230154198A1

Abstract

カメラを装備した自動車両（ＡＶ）又は先進運転者支援システム（ＡＤＡＳ）の運転環境におけるマルチモーダルエゴセントリック将来予測のためのコンピュータ実装方法であって、訓練された到達可能性事前確率ディープニューラルネットワーク（ＲＰＮ）と、訓練された到達可能性転移ディープニューラルネットワーク（ＲＴＮ）と、訓練された将来位置特定ディープニューラルネットワーク（ＦＬＮ）及び／又は訓練された将来出現予測ディープニューラルネットワーク（ＥＰＮ）、とを含む方法。

Description

本開示は、カメラを装備した自動車両（ＡＶ）又は先進運転者支援システム（ＡＤＡＳ）の運転環境におけるマルチモーダルエゴセントリック将来予測及び／又は将来出現のためのコンピュータ実装方法に関する。

このような方法は、カメラを使用して周囲を認識及び解釈するために、人間の運転者、先進運転者支援システム、又は自動車両を支援する分野で特に役立つ。

移動中の車両を考慮して、将来の動力学、特に他の車両及び歩行者の将来の位置を予測する問題は、（１）単一のカメラでのエゴセントリックな視野による部分的視認性、及び車両のエゴモーションによる大きな視野変化、（２）将来の状態の分布のマルチモダリティなどの重要な課題を引き起こす。

「ＲｉｓｋｙＲｅｇｉｏｎＬｏｃａｌｉｚａｔｉｏｎＷｉｔｈＰｏｉｎｔＳｕｐｅｒｖｉｓｉｏｎ」と題された刊行物（ｈｔｔｐ：／／ｏｐｅｎａｃｃｅｓｓ．ｔｈｅｃｖｆ．ｃｏｍ／ｃｏｎｔｅｎｔＩＣＣＶ２０１７ｗｏｒｋｓｈｏｐｓ／ｗ３／ｈｔｍｌ／ＫｏｚｕｋａＲｉｓｋｙＲｅｇｉｏｎＬｏｃａｌｉｚａｔｉｏｎＩＣＣＶ２０１７ｐａｐｅｒ．ｈｔｍｌ）で、提示された研究は、画像から潜在的なリスクを有する領域を検出するための方法を提案しており、この領域は歩行者が最も出現しやすいエリアを意味する。ここでの目的は、セマンティックマップからの先験的知識を使用してピクセル間のリスクのペアの順序関係の自動生成から緻密なリスクマップを構築することであり、それにより、歩行者が障害物の後ろから飛び出すリスクを評価して、歩行者によって間もなく占有される可能性が高いピクセルを発見することができる。この方法は歩行者のみに限定されており、このソリューションは、コーナーを曲がるときに訓練サンプルがないために悪い結果をもたらす。データの欠如のため、この方法は、突然現れる歩行者の軌道を予測しない。彼らは、この予測をリスクレベル予測に組み込むことを試みた。したがって、彼らの方法は、将来の軌道の代わりに、突然現れる歩行者が現れる可能性のあるエリアのみを予測する。

「Ｓｅｔ－ＢａｓｅｄＰｒｅｄｉｃｔｉｏｎｏｆＰｅｄｅｓｔｒｉａｎｉｎＵｒｂａｎＥｎｖｉｒｏｎｍｅｎｔｓＣｏｎｓｉｄｅｒｉｎｇＦｏｒｍａｌｉｚｅｄＴｒａｆｆｉｃＲｕｌｅｓ」と題された刊行物（ｈｔｔｐｓ：／／ｗｗｗ．ｒｅｓｅａｒｃｈｇａｔｅ．ｎｅｔ／ｐｕｂｌｉｃａｔｉｏｎ／３２７６９０８５９Ｓｅｔ－ＢａｓｅｄＰｒｅｄｉｃｔｉｏｎｏｆＰｅｄｅｓｔｒｉａｎｓｉｎＵｒｂａｎＥｎｖｉｒｏｎｍｅｎｔｓＣｏｎｓｉｄｅｒｉｎｇＦｏｒｍａｌｉｚｅｄＴｒａｆｆｉｃＲｕｌｅｓ）で、提示された研究は、歩行者のセットベース予測、すなわち、到達可能性分析を使用して歩行者の非決定論的モデルの全ての可能な将来状態を含む有界領域の予測についてのアプローチを提案している。それらは、歩行者の到達可能な占有の厳密な過剰近似を得るために、歩行者の動力学、コンテキスト情報、及び交通規則を組み込む。また、それらの制約は、歩行者が交通規則を無視することが多いという事実に自動的に適応して、それを予測に含める。この方法は歩行者のみに限定され、固定されたトップビュー画像のみに基づいており、シーンのエゴモーション及び進展を扱っていない。

「Ｃｏｎｔｅｘｔ－ＡｗａｒｅＳｙｎｔｈｅｓｉｓａｎｄＰｌａｃｅｍｅｎｔｏｆＯｂｊｅｃｔＩｎｓｔａｎｃｅｓ」と題された刊行物（ｈｔｔｐｓ：／／ｐａｐｅｒｓ．ｎｉｐｓ．ｃｃ／ｐａｐｅｒ／８２４０－ｃｏｎｔｅｘｔ－ａｗａｒｅ－ｓｖｎｔｈｅｓｉｓ－ａｎｄ－ｐｌａｃｅｍｅｎｔ－ｏｆ－ｏｂｉｅｃｔ－ｉｎｓｔａｎｃｅｓ．ｐｄｆ）で、提示された研究は、指定されたクラスのオブジェクトインスタンスマスクを画像のセマンティックラベルマップに挿入するタスクのためのエンドツーエンド訓練可能ニューラルネットワークを提案している。このネットワークは、２つの生成モジュールからなり、一方は、挿入されたオブジェクトマスクがどこにあるべきか（すなわち、位置及びスケール）を判定し、他方は、オブジェクトマスク形状（及び姿勢）がどのように見えるべきかを判定する。２つのモジュールは、空間変換ネットワークを介して互いに接続され、一緒に訓練される。この方法は、現在の時間でのみオブジェクトの出現を推定し、将来の位置特定予測のためにそのような情報を使用しない。

「ＯｖｅｒｃｏｍｉｎｇＬｉｍｉｔａｔｉｏｎｓｏｆＭｉｘｔｕｒｅＤｅｎｓｉｔｙＮｅｔｗｏｒｋｓ：ＡｓａｍｐｌｉｎｇａｎｄｆｉｔｔｉｎｇｆｒａｍｅｗｏｒｋｆｏｒＭｕｌｔｉｍｏｄａｌＦｕｔｕｒｅＰｒｅｄｉｃｔｉｏｎ」と題された刊行物（ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ｐｄｆ／１９０６．０３６３１．ｐｄｆ）で、提示された研究は、ｗｉｎｎｅｒ－ｔａｋｅｓ－ａｌｌｌｏｓｓ（勝者独り勝ち）による将来のいくつかのサンプルの予測と、サンプルの複数モードへの反復グループ化とを含むアプローチを提案する。この研究は、提案された戦略ＥｖｏｌｖｉｎｇＷｉｎｅｒ－Ｔａｋｅｓ－Ａｌｌ（進化型勝者独り勝ち）に基づくネットワークアーキテクチャを提案する。この方法は、固定カメラによるトップビュー画像に基づいており、第１の段階で、必要とされるエゴモーション補償を伴うフロントビューを考慮していない。この方法は、まだ見えていないオブジェクトの将来の出現を予測せず、観測可能なオブジェクトの将来の位置特定予測のみを行う。

「ＦｏｒｅｃａｓｔｉｎｇＨａｎｄｓａｎｄＯｂｊｅｃｔｓｉｎＦｕｔｕｒｅＦｒａｍｅｓ」と題された刊行物（ｈｔｔｐ：／／ｏｐｅｎａｃｃｅｓｓ．ｔｈｅｃｖｆ．ｃｏｍ／ｃｏｎｔｅｎｔＥＣＣＶＷ２０１８／ｐａｐｅｒｓ／１１１３１／ＦａｎＦｏｒｅｃａｓｔｉｎｇＨａｎｄｓａｎｄＯｂｊｅｃｔｓｉｎＦｕｔｕｒｅＦｒａｍｅｓＥＣＣＶＷ２０１８ｐａｐｅｒ．ｐｄｆ）で、提示された研究は、完全畳み込み将来表現回帰ネットワークを使用して、人間の手及びオブジェクトを明示的に予測するアプローチを提案している。検出モデルに基づくこの方法は、シーンの特徴表現を符号化し、次に、この符号化された特徴表現の経時的な進展を予測し、最後に、検出モデルを再利用してこの特徴表現を復号し、それにより、この将来のシーンにおける所与のオブジェクトの検出を行う。したがって、彼らは、現在のオブジェクト検出特徴を将来に転移することを提案し、このようにして、観測されたオブジェクトと新規のオブジェクトの両方を予想する。そうすることによって、彼らはシーンを完全に符号化し、将来の新規のオブジェクトを検出するために符号化された特徴表現のこの転移を使用し、それらのシーン符号化は特定のＩＤなしに背景から分離された個々のオブジェクトについての情報を含むため、将来の位置特定予測のために既に識別されたオブジェクトの追跡はない。また、この将来の位置特定／出現予測は、検出モデルに基づいているので、マルチモダリティなしに所与のオブジェクトを出力するだけである。最後に、個々のオブジェクトのこの将来の位置特定／出現予測は、将来のシーンの符号化特徴表現を用いて取得された将来のシーン全体の完全な知識を用いてしか行うことができない。この方法は、特定のクラスだけでなく、全てのオブジェクトの将来の位置を予測する。

ＥＰ３０４８０２３Ａ１において、本開示は、自車両を運転する際に運転者を支援する方法を提案している。環境の表現は、複数の表現セグメントとして取得されたセンサデータから生成され、各セグメントが環境の限定エリアに対応する。次いで、通行オブジェクトについての将来及び／又は過去の移動挙動が推定され、所与のエリアについて特性情報が推測され、この特性情報は、自車両の好ましい経路を定義するために使用される。本開示では、新規のオブジェクトの将来の出現を予測していない。本発明は、他の車が関与する道路における自車の経路を予測するために、トップビュー画像における車線変更予測の車のみに限定される。本発明は、多数のセンサ（３Ｄセンサ）を使用して、全ての情報をマッピングし、他の車の将来の軌道を予測する。

ＵＳ９２４８８３４Ｂ１では、本開示は、環境を記述するマップ情報を使用してオブジェクトに対する可能なアクションのセットを生成することによって、車両の環境内のオブジェクトを検出し、それに応答する方法を提案している。次いで、可能なアクションのセットに基づいて、オブジェクトの可能な将来の軌道のセットを生成することができる。本開示では、新規のオブジェクトの将来の出現を予測していない。本開示は、オブジェクトの将来の軌道を予測するための環境の非常に詳細なマップに基づく。

本発明は、様々な先行技術の上記の欠点に対処することを目的とし、より具体的には、統一されたフレームワークにおけるマルチモーダルエゴセントリック将来の位置特定及び／又は将来の出現予測のための信頼できる方法を提案することを目的とする。

本開示の第１の態様は、カメラを装備した自動車両（ＡＶ）又は先進運転者支援システム（ＡＤＡＳ）の運転環境におけるマルチモーダルエゴセントリック将来予測のためのコンピュータ実装方法であって、訓練された到達可能性事前確率ディープニューラルネットワーク（ＲＰＮ）と、訓練された到達可能性転移ディープニューラルネットワーク（ＲＴＮ）と、訓練された将来位置特定ディープニューラルネットワーク（ＦＬＮ）及び／又は訓練された将来出現予測ディープニューラルネットワーク（ＥＰＮ）、とを含み、この方法は、所与の時間ステップ（ｔ）で、カメラのエゴセントリックビジョンを通じて、運転環境からの画像を観測するステップと、観測された画像内の静的要素のセマンティックマップを取得するステップと、ＲＰＮを用いて、静的要素のセマンティックマップから所与のクラスの動的対象オブジェクトの到達可能性事前確率（ＲＰ）を推定するステップと、ＲＴＮを用いて、到達可能性マップ（ＲＭ）の形態で、カメラの計画されたエゴモーションを考慮して将来の時間ステップ（ｔ＋Δｔ）にＲＰを転移するステップと、ＦＬＮを用いて、運転環境の過去及び現在の観測（ｔ－δｔからｔ）及びＲＭによって条件付けられた動的対象オブジェクトの将来の位置のマルチモーダル分布を予測するステップ、及び／又は、ＥＰＮを用いて、運転環境の過去及び現在の観測（ｔ－δｔからｔ）及びＲＭによって条件付けられた運転環境における新規の動的対象オブジェクトの将来の出現を予測するステップと、有する推論モードを含む。

かかる方法は、シーンに関する事前定義された仮定又はマップからの知識なしに、将来のマルチモダリティを考慮することによって、エゴセントリック視野内の動的オブジェクト（例えば、通行オブジェクト）の将来の位置を予測する。それは、自視野に対処するために、環境のいかなる事前知識も伴わずに、複雑及び／又は高価な３Ｄセンサ、レーダ、ＬＩＤＡＲ等の代わりに、単一カメラ（例えば、ＲＧＢカメラ）しか必要としない。到達可能性事前確率及びマルチ仮説学習は、モード崩壊を克服し、追跡されるオブジェクトの将来の位置のマルチモーダル予測を改善するのに役立つ。それはまた、見えないデータセットへの有望なゼロショット転移を実証する。この方法は、自動車から取得されたフロントビュー画像に対する将来予測を改善するための到達可能性事前確率を使用することによって、シーンの進展の問題に取り組み、エゴモーション及び将来のシーンを補償する。本方法は、任意のクラスの移動オブジェクト（歩行者、自動車、自転車、オートバイなど）であり得る所与のクラスの将来のオブジェクトについてアクセス可能なエリアの現在位置から取得された知識のみを使用する。このように、我々は、将来のシーン表現を完全に符号化せず、過去から取得された知識を使用して、時間連続性を入力として取り入れて将来の位置特定（又は出現）を定義し、これはよりロバストで誤りが発生しにくい方法である。また、到達可能性マップは、所与のクラスのみに基づいており、各クラスは、特定のオブジェクトの将来の位置特定を制御するための自身の到達可能性マップを有する。移動対象オブジェクトの将来予測に加えて、又はその代わりに、本方法は、まだ見えていないオブジェクトのための将来の出現予測モジュールも提供する。到達可能性事前確率は、将来の位置について推定され、オブジェクトの将来の位置又は新規のオブジェクトの出現の予測を改善するために使用される。

有利な実施形態によれば、静的要素のセマンティックマップを取得するステップは、以下のサブステップ：観測された画像から運転環境のセマンティックマップを計算するステップと、運転環境のセマンティックマップをインペインティングして動的オブジェクトを除去するステップと、を含み、ＲＰを推定するステップでは、除去された動的オブジェクトがグラウンドトゥルースとして使用される。

到達可能性事前確率ネットワークは、オブジェクトのクラス（例えば、車両）とシーンセマンティクス（例えば、道路、歩道など）との間の関係を学習すべきであるので、訓練サンプルから全ての動的オブジェクトを除去する。これはインペインティングによって達成される。セマンティックマップ上のインペインティングは、アーティファクトを少なくするため、到達可能性事前確率はセマンティックマップに基づく。

有利な実施形態によれば、ＦＬＮを用いた予測ステップは、各動的対象オブジェクトの過去及び現在のマスク（ｔ－δｔからｔ）を考慮する。

有利な実施形態によれば、ＲＰＮは、時間ステップ（ｔ）における所与のクラスの動的対象オブジェクトの潜在的な位置特定のためのバウンディングボックス仮説を到達可能性事前確率（ＲＰ）の形態で出力し、ＲＴＮは、将来の時間ステップ（ｔ＋Δｔ）における所与のクラスの動的対象オブジェクトの潜在的な位置特定のためのバウンディングボックス仮説を到達可能性マップ（ＲＭ）の形態で出力する。

バウンディングボックスは、異なるタイプの通行オブジェクトを追跡するために使用され、エゴモーションを推定するために、ＲＧＢ画像のみからエゴモーションを計算する標準的な方法を使用する。

有利な実施形態によれば、ＥＰＮを用いた予測ステップは、動的対象オブジェクトのクラスを考慮する。

有利な実施形態によれば、ＥＰＮは、ＦＬＮ予測と統合されたフレームワークにおいて、運転環境における新規の動的対象オブジェクトの将来の出現を予測する。

本方法は、到達可能性マップの有無にかかわらず、将来の位置特定及び将来の出現のための統一されたフレームワークを提案する。このようにして、本方法は、以前に取得された将来の環境知識なしに将来の出現を予測することができる。本方法は、見えているオブジェクトの将来の位置特定又は新規のオブジェクトの出現のいずれかを予測することができる。

有利な実施形態によれば、本方法は、推論モードの前に、訓練サンプルを用いてＲＰＮを訓練して、到達可能性事前確率（ＲＰ）の形態で所与のクラスの動的対象オブジェクトの潜在的な位置特定のための複数のバウンディングボックス仮説を生成することによって、所与のクラスの動的対象オブジェクトとセマンティックマップの静的要素との間の関係を学習するステップと、訓練サンプル、静的要素のセマンティックマップ、及び計画されたエゴモーションが与えられると、ＲＰを将来の時間ステップ（ｔ＋Δｔ）に転移することによってＲＴＮを訓練し、将来の時間ステップ（ｔ＋Δｔ）における所与のクラスの動的対象オブジェクトの潜在的な位置特定のための複数のバウンディングボックス仮説を到達可能性マップ（ＲＭ）の形態で生成するステップと、を有する訓練モードを含む。

有利な実施形態によれば、ＲＰＮ訓練は、インペインティング方法を用いて訓練サンプルのセマンティックマップから動的オブジェクトの全てのクラスを除去するステップと、除去された動的対象オブジェクトをＲＰを定義するためのグラウンドトゥルースサンプルとして使用するステップと、を更に含む。

有利な実施形態によれば、ＲＴＮ訓練は、訓練バッチごとに、フォワードパスのためにＲＰＮ及びＲＴＮの両方を渡し、勾配を逆伝搬するときに、ＲＰＮの重みを修正しながらＲＴＮのみを渡すステップと、将来の時間ステップ（ｔ＋Δｔ）におけるサンプルの静的要素のセマンティックマップ上でＲＰＮを実行することによって、自己監視方式でグラウンドトゥルースを取得するステップと、を更に含む。

有利な実施形態によれば、訓練モードは、ＦＬＮを訓練して、訓練サンプルについて、動的対象オブジェクトの過去及び現在のマスク（ｔ－δｔ－ｔ）を考慮して、動的対象オブジェクトの将来のバウンディングボックスのマルチモーダル分布を予測するステップと、訓練バッチごとに、フォワードパスのためにＲＰＮ、ＲＴＮ、及びＦＬＮを渡し、勾配を逆伝搬するとき、ＲＰＮ及びＲＴＮの重みを修正しながら、ＦＬＮのみを渡すステップと、を更に含む。

有利な実施形態によれば、訓練モードは、ＥＰＮを訓練して、訓練サンプルについて、動的対象オブジェクトの過去及び現在のマスクを考慮せずに、動的対象オブジェクトの出現の将来のバウンディングボックスのマルチモーダル分布を予測するステップと、訓練バッチごとに、フォワードパスのためにＲＰＮ、ＲＴＮ、及びＥＰＮを渡し、勾配を逆伝搬するとき、ＲＰＮ及びＲＴＮの重みを修正しながら、ＥＰＮのみを渡すステップと、を更に含む。

有利な実施形態によれば、ＦＬＮ訓練及びＥＰＮ訓練は、統一されたフレームワークにおいて実行される。

有利な実施形態によれば、ＲＰＮ、ＲＴＮ、ＦＬＮ又はＥＰＮ訓練は、ＥｖｏｌｖｉｎｇＷｉｎｅｒ－Ｔａｋｅｓ－ＡＩＩ（ＥＷＴＡ）方式を用いて複数のバウンディングボックス仮説を生成するステップを更に含む。

ＥＴＷＡを使用する方法は、より具体的には、フロントビュー画像シーンに対処するように設計され、フロントビュー画像における将来の予測の質を大幅に改善する。

本開示の第２の態様は、カメラを装備して、人間の運転者が車両を運転するのを支援するため、又は先進運転者支援システムを支援するため、又は自動運転システムを支援するためのコンピュータ実装方法に関し、本方法が、カメラのエゴセントリックビジョンを通じて、車両が運転されている間の運転環境の画像を観測するステップと、観測された画像からマルチモダリティ画像を取得し、過去及び現在の観測に基づいて動的対象オブジェクトの過去及び現在の軌道を抽出するステップと、マルチモダリティ画像並びに過去及び現在の軌道を、第１の態様によるコンピュータ実装方法に供給するステップと、移動対象オブジェクトの複数の予測された将来の軌道及び／又は新規の移動対象オブジェクトの将来の出現を、運転者の注意に向けて表示するステップ、又は先進運転者支援システム又は自動運転システムに、移動対象オブジェクトの複数の予測された将来の軌道及び／又は新規の移動対象オブジェクトの将来の出現を提供するステップと、を含む。

本開示の他の特徴及び利点は、添付の図面によって示される、本開示の特定の非制限的な実施例の以下の詳細な説明からより明確に現れるであろう。
本開示の好ましい一実施形態による全体的な将来の位置特定フレームワークの概要を示す。既存のデータセットから取得され、本開示の将来予測方法によって処理される運転環境の例を示す。本開示の将来位置特定ネットワーク及び／又は出現予測ネットワークによって処理された運転環境を示す。

図１は、本開示の好ましい一実施形態による全体的な将来位置特定フレームワークの概要を示す。同図は、以下の３つの主要なモジュールからなる将来の位置特定タスクのためのフレームワークのパイプラインを示す：（１）オブジェクトクラスのメンバーがセマンティックマップにおいてどこに位置し得るかの事前確率を学習する到達可能性事前確率ネットワーク（ＲＰＮ）、（２）計画されたエゴモーションを考慮して現在の時間ステップから将来の時間ステップへ到達可能性事前確率を転移する到達可能性転移ネットワーク（ＲＴＮ）、及び（３）オブジェクトの過去及び現在の観測を条件とし、ＲＴＮからの一般解に基づいてその将来位置のマルチモーダル分布を予測することを学習する将来位置特定ネットワーク（ＦＬＮ）。出現予測ネットワークは、見えているオブジェクトの将来を予測するのではなく、見えていないオブジェクトが将来のシーンのどこに出現し得るかを予測する。出現予測は、同じ最初の２つのモジュールを共有し、過去のオブジェクト軌道に関する条件を落とす第３のネットワークにおいてのみ異なる。我々は、それを出現予測ネットワーク（ＥＰＮ）と呼ぶ。ＥＰＮの目的は、クラスのオブジェクトが将来出現するマルチモーダル分布を学習することである。

ＥＰＮは、３つの段階（ａ）、（ｂ）及び（ｃ）並びに第４の段階（ｄ）に分割することができ、これらの段階を以下に記載する。段階（ｄ）は図１に示されていない。

第１の段階（ａ）は、到達可能性事前確率ネットワーク（ＲＰＮ）に関する。ＲＰＮは、複数のバウンディングボックス仮説を生成することによって、所与のクラスＩＤのオブジェクト（例えば、歩行者、自転車、車などの移動オブジェクト）とセマンティックマップの静的要素との間の関係を学習する。言い換えれば、ＲＰＮは、現在の時間における到達可能性バウンディングボックス仮説を予測する。ＲＰＮ入力は、時間ｔにおける静的環境、すなわち、観測された画像内の静的要素と、追跡されるべき移動対象オブジェクトの少なくとも所与のクラスとのセマンティックマップである。ＲＰＮは、所与のクラスの潜在的な位置特定のためのバウンディングボックス仮説、いわゆる到達可能性事前確率（ＲＰ）を出力する。

この第１段階（ａ）の核心は、到達可能性事前確率（ＲＰ）、すなわち、将来の予測のための現在の時間での到達可能性マップ、すなわち、所与のクラスのオブジェクトが位置し得るエリアに対応する将来画像におけるバウンディングボックスを作成することである。このＲＰは、ＲＰＮを用いて現在の時間（時間ステップｔ）で計算される。到達可能性事前確率の使用は、環境に基づく予測の注意に焦点を当て、モード崩壊／忘却を克服し、ダイバーシティを高めるのに役立つ。

第２の段階（ｂ）は、到達可能性転移ネットワーク（ＲＴＮ）に関する。ＲＴＮは、観測された画像、そのセマンティック、及び計画されたエゴモーションが与えられると、到達可能性事前確率を将来に転移する。このネットワークを訓練するためのグラウンドトゥルースは、将来の静的セマンティックマップ上でＲＰＮを実行することによって自己監視方式で取得される。ＲＴＮ入力は、時間ｔにおける画像、時間ｔにおける静的環境のセマンティックマップ、時間ｔから時間ｔ＋Δｔまでの計画されたエゴモーション、及びＲＰの形態のＲＰＮ出力（すなわち、バウンディングボックス仮説）である。ＲＴＮは、時間ｔ＋Δｔにおける所与のクラスの潜在的な位置特定のためのバウンディングボックス仮説、いわゆる到達可能性マップ（ＲＭ）を出力する。

このＲＰは、次に、将来の期間ｔ＋Δｔにおける到達可能性マップ（ＲＭ）を生成するために、ＲＴＮを用いて将来の期間（時間ステップｔ＋Δｔ）において予測される。ＲＴＮは、段階（ａ）における現在時間の生成された到達可能性事前確率マップと、シーン及び自身の軌道の何らかの情報とを入力として取得するディープニューラルネットワークを使用して、将来の到達可能性マップ（すなわち、時間ステップｔ＋Δｔにおける）を予測する。

第３の段階（ｃ）は、将来位置特定ネットワーク（ＦＬＮ）に関する。ＦＬＮは、（サンプルの形態で複数のバウンディングボックスを生成するための）サンプリングネットワーク、次いで、サンプルをガウス混合モデルに適合させるための適合ネットワークを通じて、対象オブジェクトの将来のバウンディングボックスのマルチモーダル分布をもたらす。これは、緑色のバウンディングボックスとして示される混合成分の平均で将来の画像上にオーバーレイされたヒートマップとして示される。ＦＬＮ入力は、時間ｔ－δｔから時間ｔまでの過去の画像、時間ｔ－δｔから時間ｔまでの動的環境の過去のセマンティックマップ、時間ｔ－δｔから時間ｔまでの対象オブジェクトの過去のマスク、時間ｔから時間ｔ＋Δｔまでのエゴモーション、及びＲＭの形態のＲＴＮ出力（すなわち、時間ｔ＋Δｔにおけるバウンディングボックス仮説）である。ＦＬＮは、時間ｔ＋Δｔにおける所与の対象オブジェクトの位置特定のためのバウンディングボックス仮説を、時間ｔ＋Δｔにおける所与の対象オブジェクトの将来の位置特定のガウス混合分布とともに出力する。動的環境のセマンティックマップは、環境内で検出された動的オブジェクトのセマンティックマップに対応する。マスクは、ニューラルネットワークにおける画像セグメンテーションのために一般的に使用される（例えば、ｈｔｔｐｓ：／／ｖｉｓｏ．ａｉ／ｄｅｅｐ－ｌｅａｒｎｉｎｇ／ｍａｓｋ－ｒ－ｃｎｎ／）。

次いで、ＲＴＮから受信された将来の到達可能性マップ（ＲＭ）が、ＦＬＮと組み合わされたときに将来の予測の品質を改善するために使用される。到達可能性マップを用いて取得されたこの知識は、ＦＬＮの予測を大幅に改善し、これは、過去及び現在の観測を条件とし、以前に計算された到達可能性マップによって制約されるように実施される。

図１に示されていない第４の段階（ｄ）は、出現予測ネットワーク（ＥＰＮ）に関する。ＥＰＮは、入力に対象オブジェクトのマスクがないことを除いて、ＦＬＮと同一である。ＥＰＮの目的は、将来の新規のオブジェクトの出現、すなわち、シーンに存在しないオブジェクトの将来の出現を予測することである。段階（ｄ）は、移動対象オブジェクトの将来の位置特定を予測し、新規のオブジェクトの出現を予測するように段階（ｃ）に追加するか、又は出現予測モードのみになるように段階（ｃ）に置き換えることができる。

ＦＬＮの同じアーキテクチャに基づいて、ＥＰＮは、過去のオブジェクトマスクで将来の予測を制約しないことによって、新規のクラスの出現を予測する。ここでも、到達可能性マップは、出現予測の質を大幅に改善する。

図２は、既存のデータセットから取得され、本開示の将来予測方法によって処理される運転環境に関する例を示す。

左側に画像が示され、右側にセマンティック領域が示されている。明確にするために、両方のバウンディングボックス仮説が追加されている。一番上には、ＲＰＮについて、現在の時間ステップにおけるクラスカーについての到達可能性事前確率が示されている。中央には、ＲＴＮについて、将来に転移される前の到達可能性事前確率が示されている。一番下には、ＦＬＮについて、特定のインスタンスを更に条件とする最終的な将来の位置特定が示されている。ネットワーク（ＲＰＮ、ＲＴＮ、ＦＬＮ）のいずれも、（時間ｔ＋Δｔにおいて）将来画像又はそのセマンティックマップにアクセスできないことに留意されたい。

図３は、本開示の将来位置特定ネットワーク及び／又は出現予測ネットワークによって処理された運転環境を示す。それは、シーンにおける歩行者の潜在的な位置に対応する到達可能性事前確率を作成する。この事前確率の知識を使用して、次に、歩行者の将来の位置特定又は新規の歩行者の出現の予測を改善することができる。

（段階（ａ＋ｂ）に対応する）上側では、到達可能性事前確率（白い長方形）が、歩行者がシーン内のどこにいる可能性があるかという一般的な質問に回答する。（段階（ｃ）に対応する）左側では、通りを横断する特定の歩行者の将来の位置特定（緑色の長方形）が、過去及び現在の観測に関する解を条件とすることによって、到達可能性事前確率から解を絞り込む。真の将来は紫色のボックスとして示されている。（段階（ｄ）に対応する）右側では、出現予測（緑色の長方形）が、どこで歩行者が将来突然出現する可能性があるかを示し、シーンの現在の観測に関する解を条件とすることによって、到達可能性事前確率から解を絞り込む。

訓練モード
訓練モード自体は、順次行われる３つの異なる訓練段階に分解される。第４の段階は、出現予測のために追加することができる。

段階Ａ－最初に、インペインティング方法を使用して訓練サンプルの（画像から計算される）セマンティックマップから全ての動的クラスを除去することによって、到達可能性事前確率ネットワーク（ＲＰＮ）を訓練する。静的セマンティックセグメンテーションは、ネットワークへの入力であり、クラスｃの除去されたオブジェクトは、到達可能性のグラウンドトゥルースサンプルである。複数の仮説を生成するネットワークは、ＥｖｏｌｖｉｎｇＷｉｎｅｒ－Ｔａｋｅｓ－ＡＩＩ方式を使用して訓練される。

段階Ｂ－次に、ＲＰＮを修正しながら、到達可能性転移ネットワーク（ＲＴＮ）を訓練する、すなわち、訓練バッチごとに、フォワードパスのために２つのネットワークＲＰＮ及びＲＴＮを渡すが、勾配を逆伝搬するときには、ＲＴＮについてのみそれを行い、よって、ＲＰＮの重みを修正する。このネットワークを訓練するためのグラウンドトゥルースは、将来の静的セマンティックマップ上でＲＰＮを実行することによって自己監視方式で取得される。

段階Ｃ．最後に、ＲＰＮ及びＲＴＮの両方を修正しながら、将来位置特定ネットワークを訓練する、すなわち、訓練バッチごとに、フォワードパスのために３つのネットワークＲＰＮ、ＲＴＮ、及びＦＬＮを渡すが、勾配を逆伝搬するときには、ＦＬＮについてのみそれを行い、よって、ＲＰＮ及びＲＴＮの重みを修正する。ネットワークは、ＲＰＮのようなＥｖｏｌｖｉｎｇＷｉｎｅｒＴａｋｅｓＡｌｌを用いて訓練される。

段階Ｄ－この最後のステップを単に置き換えることによって、出現予測ネットワークを訓練するために同じ方法を使用する。

推論モード
推論時に、入力軌道が観測され、その複数の可能な将来を予測したい場合、図１に示すように、（既に見えているオブジェクトについての）将来位置特定システムのための推論モードは、３つの異なる段階に分解される。第４の段階は、出現予測のために追加することができる。

段階Ａ－最初に、所与の環境において観測されたオブジェクトについて、このオブジェクトのクラスに関連付けられた到達可能性マップを計算する。これは、対応する静的セマンティックマップ（全ての静的クラスのセマンティックマップ、したがって環境要素のみで、歩行者及び車などの移動要素はインペインティング方法によって除去される）を有するシーン内の所与のオブジェクトバウンディングボックスについて、システムが、そのようなクラスオブジェクトの潜在的な位置特定のための複数のバウンディングボックス仮説を生成することによって、あるクラスのオブジェクトとセマンティックマップの静的要素との間の関係を学習することができることを意味する。

段階Ｂ－次いで、これらの複数のバウンディングボックス仮説が生成されると、到達可能性転移ネットワークは、計画されたエゴモーションを考慮に入れることによって、この到達可能性事前確率を現在の時間ステップから将来の時間ステップに転移する。現在の時間における到達可能性のバウンディングボックス、時間ｔから時間ｔ＋Δｔまでの計画されたエゴモーション、時間ｔにおける静的環境のセマンティックマップが入力として与えられると、システムは、将来における到達可能性のバウンディングボックスを生成することができる。

段階Ｃ－最後に、オブジェクトの過去及び現在の観測が与えられると、将来位置特定ネットワークは、（複数のバウンディングボックス、すなわち、サンプルを生成するための）サンプリングネットワーク、次いで、サンプルをガウス混合モデル（緑色バウンディングボックスとして示される混合成分の手段を用いて将来像上にオーバーレイされたヒートマップとして示される）に適合させるための適合ネットワークを通して、ＲＴＮの一般解に基づいて、その将来位置のマルチモーダル分布を予測することを学習する。

段階Ｄ－将来のオブジェクトの出現予測は、同じＡ及びＢステップを用いて同じ手順に従うが、Ｃステップのみが、入力中に対象オブジェクトマスクを欠くことを除いて、将来位置特定ネットワークと同一である出現予測ネットワークによって置き換えられる。

当業者に明らかな様々な修正及び／又は改善は、添付の特許請求の範囲によって定義される本開示の範囲から逸脱することなく、本開示に記載される本発明の異なる実施形態にもたらされ得ることが理解される。

Claims

カメラを装備した自動車両（ＡＶ）又は先進運転者支援システム（ＡＤＡＳ）の運転環境におけるマルチモーダルエゴセントリック将来予測のためのコンピュータ実装方法であって、訓練された到達可能性事前確率ディープニューラルネットワーク（ＲＰＮ）と、訓練された到達可能性転移ディープニューラルネットワーク（ＲＴＮ）と、訓練された将来位置特定ディープニューラルネットワーク（ＦＬＮ）及び／又は訓練された将来出現予測ディープニューラルネットワーク（ＥＰＮ）、とを含み、前記方法が、
－所与の時間ステップ（ｔ）で、前記カメラのエゴセントリックビジョンを通じて、前記運転環境からの画像を観測するステップと、
－前記観測された画像内の静的要素のセマンティックマップを
前記観測された画像から前記運転環境のセマンティックマップを計算するステップと、
前記運転環境の前記セマンティックマップをインペインティングして、動的オブジェクトを除去するステップと、
によって取得するステップと、
－前記ＲＰＮを用いて、前記静的要素の前記セマンティックマップから所与のクラスの動的対象オブジェクトの潜在的な位置特定のためのバウンディングボックス仮説、いわゆる到達可能性事前確率（ＲＰ）を推定するステップと、
－前記ＲＴＮを用いて、時間ｔ＋Δｔにおける前記所与のクラスの潜在的な位置特定のためのバウンディングボックス仮説、いわゆる到達可能性マップ（ＲＭ）の形態で、前記カメラの時間ｔから時間ｔ＋Δｔまでの計画されたエゴモーションを考慮した将来の時間ステップ（ｔ＋Δｔ）に前記ＲＰを転移するステップと、及び
－前記ＦＬＮを用いて、前記運転環境の過去及び現在の観測（ｔ－δｔからｔ）及び前記ＲＭによって条件付けられた前記動的対象オブジェクトの将来の位置のマルチモーダル分布を予測するステップ、及び／又は、
－前記ＥＰＮを用いて、前記運転環境の過去及び現在の観測（ｔ－δｔからｔ）及び前記ＲＭによって条件付けられた前記運転環境における新規の動的対象オブジェクトの将来の出現を予測するステップと、
を有する推論モードを含む、コンピュータ実装方法。
前記ＲＰを推定するステップのために、前記除去された動的オブジェクトがグラウンドトゥルースとして使用される、請求項１に記載のコンピュータ実装方法。
前記ＦＬＮを用いた予測ステップが、各動的対象オブジェクトの過去及び現在のマスク（ｔ－δｔからｔ）を考慮に入れる、請求項１又は２に記載のコンピュータ実装方法。
前記ＲＰＮが、前記時間ステップ（ｔ）における前記所与のクラスの前記動的対象オブジェクトの潜在的な位置特定のためのバウンディングボックス仮説を前記到達可能性事前確率（ＲＰ）の形態で出力し、前記ＲＴＮが、前記将来の時間ステップ（ｔ＋Δｔ）における前記所与のクラスの前記動的対象オブジェクトの潜在的な位置特定のためのバウンディングボックス仮説を前記到達可能性マップ（ＲＭ）の形態で出力する、請求項１～３のいずれか一項に記載のコンピュータ実装方法。
前記ＥＰＮを用いた前記予測ステップが、前記動的対象オブジェクトのクラスを考慮に入れる、請求項１～４のいずれか一項に記載のコンピュータ実装方法。
前記ＥＰＮが、前記ＦＬＮ予測と統合されたフレームワークにおいて、前記運転環境における新規の動的対象オブジェクトの将来の出現を予測する、請求項１～５のいずれか一項に記載のコンピュータ実装方法。
前記方法が、前記推論モードの前に、
－訓練サンプルを用いて前記ＲＰＮを訓練して、到達可能性事前確率（ＲＰ）の形態で所与のクラスの動的対象オブジェクトの潜在的な位置特定のための複数のバウンディングボックス仮説を生成することによって、前記所与のクラスの動的対象オブジェクトとセマンティックマップの静的要素との間の関係を学習するステップと、
－前記訓練サンプル、前記静的要素の前記セマンティックマップ、及び前記計画されたエゴモーションが与えられると、前記ＲＰを将来の時間ステップ（（ｔ＋Ａｔ）に転移することによって前記ＲＴＮを訓練し、前記将来の時間ステップ（ｔ＋Δｔ）における前記所与のクラスの動的対象オブジェクトの潜在的な位置特定のための複数のバウンディングボックス仮説を前記到達可能性マップ（ＲＭ）の形態で生成するステップと、を有する訓練モードを含む、請求項１～６のいずれか一項に記載のコンピュータ実装方法。
前記ＲＰＮ訓練が、
－インペインティング方法を用いて訓練サンプルの前記セマンティックマップから動的オブジェクトの全てのクラスを除去するステップと、
ー前記ＲＰを定義するためのグラウンドトゥルースサンプルとして、除去された動的対象オブジェクトを使用するステップと、を更に含む、請求項７に記載のコンピュータ実装方法。
前記ＲＴＮ訓練が、
－訓練バッチごとに、フォワードパスのためにＲＰＮ及びＲＴＮの両方を渡し、前記勾配を逆伝搬するとき、前記ＲＰＮの重みを修正しながら、前記ＲＴＮのみを渡すステップと、
－前記将来の時間ステップ（ｔ＋Δｔ）における前記サンプルの静的要素の前記セマンティックマップ上で前記ＲＰＮを実行することによって、自己監視方式で前記グラウンドトゥルースを取得するステップと、を更に含む、請求項７又は８に記載のコンピュータ実装方法。
前記訓練モードが、
－前記ＦＬＮを訓練して、前記訓練サンプルについて、前記動的対象オブジェクトの過去及び現在のマスク（ｔ－δｔ－ｔ）を考慮して、前記動的対象オブジェクトの前記将来のバウンディングボックスのマルチモーダル分布を予測するステップと、
－訓練バッチごとに、フォワードパスのために前記ＲＰＮ、ＲＴＮ、及びＦＬＮを渡し、勾配を逆伝搬するとき、前記ＲＰＮ及びＲＴＮの重みを修正しながら、前記ＦＬＮのみを渡すステップと、を更に含む、請求項７～９のいずれか一項に記載のコンピュータ実装方法。
前記訓練モードが、
－前記ＥＰＮを訓練して、前記訓練サンプルについて、前記動的対象オブジェクトの過去及び現在のマスクを考慮することなく、前記動的対象オブジェクトの出現の前記将来のバウンディングボックスのマルチモーダル分布を予測するステップと、
－訓練バッチごとに、フォワードパスのために前記ＲＰＮ、ＲＴＮ、及びＥＰＮを渡し、勾配を逆伝搬するとき、前記ＲＰＮ及びＲＴＮの重みを修正しながら、前記ＥＰＮのみを渡すステップと、を更に含む、請求項７～１０のいずれか一項に記載のコンピュータ実装方法。
前記ＦＬＮ訓練及び前記ＥＰＮ訓練が、統一されたフレームワークにおいて実行される、請求項１０又は１１に記載のコンピュータ実装方法。
前記ＲＰＮ、ＲＴＮ、ＦＬＮ、又はＥＰＮ訓練が、
ＥｖｏｌｖｉｎｇＷｉｎｅｒ－Ｔａｋｅｓ－ＡＩＩ（ＥＷＴＡ）方式を使用して、前記複数のバウンディングボックス仮説を生成するステップを更に含む、請求項７～１２のいずれか一項に記載のコンピュータ実装方法。
カメラを装備して、人間の運転者が車両を運転するのを支援するため、又は先進運転者支援システムを支援するため、又は自動運転システムを支援するためのコンピュータ実装方法であって、前記方法が、
－前記カメラのエゴセントリックビジョンを通じて、前記車両が運転されている間の運転環境の画像を観測するステップと、
－前記観測された画像からマルチモダリティ画像を取得し、過去及び現在の観測に基づいて動的対象オブジェクトの過去及び現在の軌道を抽出するステップと、
－前記マルチモダリティ画像並びに前記過去及び現在の軌道を、請求項１～６のいずれか一項に記載のコンピュータ実装方法に供給するステップと、
－移動対象オブジェクトの複数の予測された将来の軌道及び／又は新規の移動対象オブジェクトの将来の出現を、運転者の注意に向けて表示するステップ、又は
－前記先進運転者支援システム又は自動運転システムに、移動対象オブジェクトの前記複数の予測された将来の軌道及び／又は新規の移動対象オブジェクトの将来の出現を提供するステップと、を含む、コンピュータ実装方法。