JP2022051700A

JP2022051700A - 画像補完用のシステム

Info

Publication number: JP2022051700A
Application number: JP2021151473A
Authority: JP
Inventors: アブルーウィム; Abbeloos Wim; オスメゾリガブリエル; Othmezouri Gabriel; マリーシャン; Liqian Ma; ゲオルゴリススタマティオス; Georgoulis Stamatios; ファンホールルク; Van Gool Luc
Original assignee: Katholieke Universiteit Leuven; Eidgenoessische Technische Hochschule Zurich ETHZ; Toyota Motor Corp
Current assignee: Katholieke Universiteit Leuven; Eidgenoessische Technische Hochschule Zurich ETHZ; Toyota Motor Corp
Priority date: 2020-09-22
Filing date: 2021-09-16
Publication date: 2022-04-01
Anticipated expiration: 2041-09-16
Also published as: EP3971821A1; JP7281754B2; CN114257759B; US20220092746A1; CN114257759A

Abstract

【課題】画像補完用のシステムを提供する。【解決手段】画像補完用のシステム１００は、第１視野を有する過去フレーム及び現在フレームを受け取るように、且つ、受け取った過去フレームのそれぞれに１つずつ、座標マップの組を生成する座標生成モジュール１０２と、入力として、過去フレーム、現在フレーム及び座標マップを受け取るように、且つ、前記入力に基づいて第２視野を有する現在フレームを合成するように構成されたフレーム統合モジュール１０４と、を有する。【選択図】図１

Description

本開示は、画像補完用のシステムに関する。

インテリジェントな機械知覚の遂行においては、自律型自動車及びロボットなどのシステムに、その直近の可視視野（ＦｏＶ：Ｆｉｅｌｄ－ｏｆ－Ｖｉｅｗ）を超えたシーンコンテンツの認識を付与する必要がある。これには、例えば、ワイド(wider)ＦｏＶにおいて現在のシーンを推定するために過去のナロー(narrow)ＦｏＶフレームからの情報を活用するべく、過去の情報から更なるＦｏＶ情報を予測するように、これらのシステムをトレーニング及び構成するステップを伴っている。

本出願の発明者らが知る限りにおいては、ナローＦｏＶからワイドＦｏＶへのＦｏＶの外挿は、従来技術においては、まったく対処されていない。この問題の解決に伴って、いくつかの課題が想定されうる。第１に、入力されるナローＦｏＶフレームと出力されるワイドＦｏＶフレームの間には、大きな画像サイズの不一致が存在しうる。この不一致は、ビデオ出力における十分な時間的一貫性を実現しつつ、橋絡しなければならない。第２に、ワイドＦｏＶフレーム内の特定のエリアが、大幅に変化している場合があり、或いは、場合によっては、過去のナローＦｏＶフレームの任意のものにおいて、まったく出現していない場合もある。従って、多数の詳細をワイドＦｏＶフレーム内において幻視化する必要がある。そして、第３に、ナローＦｏＶフレーム内に含まれている情報とワイドＦｏＶグランドトゥルース(ground truth)の間には、曖昧さが存在しうる。フレーム領域に応じて変化しうるこの曖昧さは、予測トレーニングプロセスをミスリードしうる。

当技術分野における関係する問題は、ビデオに基づいた画像合成のエリアにおいて見出すことができる。例えば、ビデオのインペインティング（ｉｎｐａｉｎｔｉｎｇ）は、ナローＦｏＶフレーム内において、可視ピクセルを条件として、失われたピクセルを幻視化する(hallucinate)ことを狙いとしている。同様に、将来のビデオ予測は、すべてがナローＦｏＶ内にある状態において、過去及び現在のフレームを条件として、将来フレームを幻視化することに合焦している。

ビデオの外挿は、一般に、ＦｏＶを拡張するべく、隣接するナローＦｏＶフレームの観察されているピクセルをブレンドするために、２Ｄ又は３Ｄ形状に基づいた画像ワーピング及びスティッチング技法(image warping and stitching techniques)を採用している。但し、ビデオの外挿は、ナローＦｏＶ内において観察されていないピクセルの問題に対処してはいない。

新しいビュー合成（Ｎｏｖｅｌｖｉｅｗｓｙｎｔｈｅｓｉｓ）は、観察されているピクセルをブレンドする、のみならず、主にディスオクルージョン(dis-occlusion)のためにいくつかの失われたピクセルを幻視化することにより、異なる視点から所与の物体又はシーンの画像を生成することを狙いとしている。この技法は、特にビデオシーンに適用された際に、良好な結果を生成するべく、高精度のマルチビュー形状に大きく依存している。

本開示は、画像補完用のシステムを提供しており、システムは、
第１過去フレーム及び第１現在フレームを受け取るように、且つ、受け取られた第１過去フレーム及び第１現在フレームのそれぞれごとに１つずつ、座標マップの組を生成するように、構成された座標生成モジュールであって、第１過去フレーム及び第１現在フレームは、第１視野（ＦｏＶ）を有し、第１過去フレームに対応する座標マップは、第１現在フレームの座標系に対する第１過去フレームの空間マッピングを提供している、モジュールと、
入力として、第１過去フレーム、第１現在フレーム、及び座標マップを受け取るように、且つ、前記入力に基づいて第２ＦｏＶを有する第２現在フレームを合成するように、構成されたフレーム統合モジュールと、
を含む。

実施形態によれば、第１及び第２ＦｏＶは、等しいものであってもよく、或いは、異なっていてもよい。

一実施形態において、第２ＦｏＶは、第１ＦｏＶよりも大きい。例えば、第２ＦｏＶは、第１ＦｏＶよりも、ピクセルを単位として、大きな幅及び／又は長さを有することができる。

用途に応じて、第１ＦｏＶは、「ナローＦｏＶ」と見なすことができると共に、第２ＦｏＶは、「ワイドＦｏＶ」と見なすことができる。

一実施形態において、第１ＦｏＶ及び第２ＦｏＶは、初期化時点において、システムのパラメータとして規定することができる。

従って、座標マップを通じて、座標生成モジュールは、過去のフレーム内に含まれている情報が第１現在フレームの座標系に伝播することを可能にしている。これは、過去フレームからの情報が、第１現在フレームからの情報と組み合わせられることを許容している。具体的には、フレーム統合モジュールは、その最終的な組合せのために過去フレームからの情報を適切にワーピングするべく座標マップを使用している。

一実施形態において、座標生成モジュールは、
第１過去フレームを受け取るように、且つ、受け取られた第１過去フレームのそれぞれごとに深さマップを生成するように、構成された深さネットワークと、
受け取られた第１過去フレーム及び第１現在フレームから形成された時間隣接フレームのフレームペアを受け取るように、且つ、受け取られたフレームペアのそれぞれごとに相対カメラポーズを生成するように、構成されたポーズネットワークと、
深さネットワーク及びポーズネットワークの出力に基づいて座標マップの組を生成するように構成された座標計算モジュールと、
を含む。

所与のフレームの深さマップは、フレーム内のすべてのピクセルについて、カメラとピクセルによって表されている物体の間の距離の推定値を通知している。

時間隣接フレーム（Ｉ_t-i，Ｉ_t-i+1）に対応する相対カメラポーズ（ｐ_t-i）は、、時点（ｔ－ｊ）から時点（ｔ－ｊ＋１）までのカメラ位置の相対回転及び平行運動の推定値を表している。

一実施形態において、座標計算モジュールは、それぞれの第１過去フレームごとに、第１現在フレームから過去フレームへの剛性フローを算出するように、且つ、算出された剛性フローに基づいて第１過去フレーム用の座標マップを算出するように、構成することができる。第１現在フレームから第１過去フレームへの剛性フローは、第１現在フレームを第１過去フレームにワーピングするべく第１現在フレームのピクセルに適用されることになる個々のピクセル変位を通知している。

一実施形態において、フレーム統合モジュールは、座標生成モジュールによって生成された座標マップの組を使用することにより、受け取られた第１過去フレーム内に含まれている情報を第１現在フレームの座標系に伝播させるように構成することができる。

一実施形態において、フレーム統合モジュールは、
第１過去フレーム及び第１現在フレームのそれぞれに基づいて複数の特徴マップを生成するように構成されたエンコーダと、
第１過去フレーム及び第１現在フレームのそれぞれごとに、前記それぞれのフレームごとに複数のワーピングされた特徴マップを生成するべく、前記それぞれのフレームと関連する個々の座標マップを使用することにより、前記それぞれのフレームと関連する複数の特徴マップをワーピングするように構成されたワーピングモジュールと、
統合された特徴マップの組を生成するべく、第１過去フレーム及び第１現在フレームのすべてにわたって、生成されたワーピング済みの特徴マップを統合するように構成されたアテンションに基づいた特徴統合（ＡＦＡ：Ａｔｔｅｎｔｉｏｎ－ｂａｓｅｄＦｅａｔｕｒｅＡｇｇｒｅｇａｔｉｏｎ）モジュールと、
を含む。

一実施形態において、ＡＦＡモジュールは、統合において、第１過去フレーム及び第１現在フレームのそれぞれのフレームごとに、第１現在フレームとの関係におけるフレームのタイミングに基づいてフレームの領域固有の特徴を強調するように構成することができる。

一実施形態において、ＡＦＡモジュールは、（第１過去フレーム及び第１現在フレームの）古いフレームについては、フレームの中心から離れたフレーム領域（例えば、中心から既定の距離超の領域）を強調するように、且つ、新しいフレームについては、フレームの中心の近傍のフレーム領域（例えば、中心から既定の距離未満の領域）を強調するように、構成することができる。このような統合方式の背後の洞察は、中心から遠いフレーム領域は、最近のフレーム内よりも、古いフレーム内において、既に観察されている可能性が大きく、且つ、相対的に小さな深さ／ポーズエラーを有する、というものである。対照的に、フレームの中心近傍のフレーム領域は、古いフレームよりも最近のフレーム内において、既に観察されている、且つ、相対的に小さな深さ／ポーズエラーを有する、可能性が高い。従って、深さ／ポーズエラーに対する安定性が改善されている。

一実施形態において、ＡＦＡモジュールは、第１過去フレーム及び第１現在フレームのそれぞれのフレームごとに、
前記それぞれのフレームと関連するワーピングされた特徴マップのそれぞれごとに、個々のフレームの観点における空間アテンションマップ(attention map)を生成するように、且つ、
個々の特徴マップを生成するべく、前記それぞれのフレームと関連するワーピングされた特徴マップのそれぞれを個々の空間アテンションマップによって乗算するように、
構成することができる。

一実施形態において、ＡＦＡモジュールは、統合された特徴マップの組を生成するべく、第１過去フレーム及び第１現在フレームのすべてにわたって、生成された個々の特徴マップを合計するように更に構成することができる。

一実施形態において、フレーム統合モジュールは、統合された特徴マップの組に基づいて第２ＦｏＶを有する第２現在フレームを生成するように構成されたＵネットモジュールを更に含むことができる。

一実施形態において、Ｕネットモジュールは、
統合された特徴マップの組を受け取るように、且つ、第１現在フレームの視野の外側に含まれる第２現在フレームの領域をアウトペインティングするように、構成されたコンテキスト正規化サブモジュールと、
コンテキスト正規化サブモジュールによって出力された特徴マップを受け取るように、且つ、第１現在フレームの視野内に含まれる遮蔽された又は観察されていない（第１過去及び／又は第１現在フレーム内の）領域をインペインティングするべくコンテキスト正規化サブモジュールによって出力された前記特徴マップを処理するように、構成されたデコーダサブモジュールと、
デコーダサブモジュールによって出力された特徴マップを受け取るように、且つ、デコーダサブモジュールによって出力された前記特徴マップを空間的に統合するように、構成されたゲート付き自己アテンション（ＧＳＡ：ＧａｔｅｄＳｅｌｆ－Ａｔｔｅｎｔｉｏｎ）サブモジュールと、
を含むことができる。

一実施形態において、ＧＳＡサブモジュールは、フレーム内の特徴ベクトル（或いは、ピクセル）の空間的場所に基づいて特徴ベクトル当たりに（即ち、ピクセル当たりに）動的に生成された重みに基づいてデコーダサブモジュールによって出力された特徴マップを空間的に統合するように構成することができる。

一実施形態において、第２ＦｏＶを有する推定されたフレームとその第２ＦｏＶと関連するグランドトゥルースの間の曖昧さレベルは、第２ＦｏＶフレーム内の領域の間において変化しうる（即ち、曖昧さレベルと場所の間に相関が存在している）。従って、場所に基づいて動的に生成された重みに基づいた特徴マップの統合は、特徴統合が、統合されている特徴ベクトルの曖昧さレベルに基づいて動的に適合されることを許容している。従って、曖昧さの影響が低減され、これにより、特徴統合性能が改善される。

一実施形態において、提案されているシステムは、第２現在フレームと関連する不確定性マップを生成するように構成された幻視化不確定性モジュールを含むことができる。

第２現在フレームと関連する不確定性マップを生成することにより、幻視化不確定性モジュールは、第２現在フレームのそれぞれのピクセルごとに幻視化不確定性を解釈するためのメカニズムを提供している。これは、画像補完システムを使用するシステムが、画像補完システムによって生成された任意の更なるＦｏＶ情報を相対的に良好に処理することを支援することができる。このようなシステムは、いくつかの例を挙げれば、自己運転自動車、自律型ロボット、及びＶＲ／ＡＲシステムなどの意思決定システムであってよい。

トレーニングの際に、不確定性マップは、監督不一致を低減するべく、損失関数を空間的に重み付けするように使用することができる（監督不一致は、予測結果とグランドトゥルースの間の不一致であり、予測結果が視覚的に受け入れ可能でありうるにも拘わらず、空間的な変位が、監督不一致が大きくなることをもたらし、これにより、トレーニングの収束問題を生成しうる）。具体的には、不確定性マップによる損失関数の重み付けは、高度な幻視化不確定性による損失関数値に対するピクセルの影響を減衰させ、且つ、トレーニングの目的の調節を支援している。

一実施形態において、幻視化不確定性モジュールは、幻視化不確定性を組み込んだ損失関数を極小化するべく、不確定性マップを生成するように構成することができる。

一実施形態において、幻視化不確定性モジュールは、高い幻視化不確定性を有することになる第２現在フレームの領域及び低い幻視化不確定性を有することになるものの予測に基づいて不確定性マップを生成するように構成することができる。

一実施形態において、深さネットワーク及びフレーム統合モジュールによって受け取られた第１過去フレームの一部分は、フレーム統合モジュールによって生成された、且つ、第１過去フレームの前記部分に対応する、（第２ＦｏＶを有する）第２過去フレームによって置換することができる。これは、生成されたワイドＦｏＶフレームのビデオ内の時間的一貫性（即ち、色及び構造ジッタ）の改善を支援している。

一実施形態において、第２過去フレームは、それぞれ、フレーム統合モジュールに提供する前に、幻視化不確定性モジュールによって生成された個々の不確定性マップと連結することができる。従って、不確定性マップは、フレーム統合モジュールの入力にコンフィデンス信号を導入するべく、使用されており、コンフィデンス信号は、第２過去フレームのそれぞれごとに推定コンフィデンスレベルを反映している。これは、システムが、推定された第２過去フレーム当たりにピクセル当たりの幻視化不確定性を表現することを許容している。

一実施形態において、上述の特徴の任意のものは、コンピュータプログラムの命令として実装することができる。従って、本開示は、プロセッサによって実行された際に、プロセッサが、上述の画像補完用のシステムを実装するようにする命令を含むコンピュータプログラムを提供している。

コンピュータプログラムは、任意のプログラミング言語を使用することが可能であり、且つ、ソースコード、オブジェクトコード、部分的にコンパイルされたコードなどのソースコードとオブジェクトコードの中間のコード、或いは、任意のその他の望ましい形態の形態を有することができる。

コンピュータプログラムは、コンピュータ可読媒体上において記録することができる。従って、本開示は、上述のコンピュータプログラムをその上部において記録したコンピュータ可読媒体をも対象としている。コンピュータ可読媒体は、コンピュータプログラムを保存する能力を有する任意のエンティティ又は装置であってよい。

本開示の更なる特徴及び利点については、以下の添付の図面を参照する、限定ではなく、例示のみを目的として付与されている、その特定の実施形態に関する以下の説明から明らかとなろう。

一実施形態による例示用の画像補完システムを示す図である。図１のシステムの例示用のコンピュータ実装形態を示す図である。一実施形態による例示用の座標生成モジュールを示す図である。一実施形態による例示用のフレーム統合モジュールを示す図である。一実施形態によるフレーム統合モジュールにおいて使用される例示用のアテンションに基づいた特徴統合（ＡＦＡ）モジュールを示す図である。一実施形態によるフレーム統合モジュールにおいて使用される例示用のＵネットを示す図である。例示用のナローＦｏＶフレームを示す図である。一実施形態による図７Ａの例示用のナローＦｏＶフレームに基づいて生成された例示用のアテンションマップを示す図である。ワイドＦｏＶグランドトゥルースとの関係における推定ワイドＦｏＶフレーム内の曖昧さを示す一例である。

図１は、本開示の一実施形態による画像補完用の例示用のシステム１００を示している。例示用のシステム１００は、本開示の実施形態の、限定ではなく、例示を目的として提供されている。

図１に示されているように、例示用のシステム１００は、座標生成モジュール１０２及びフレーム統合モジュール１０４を含む２ステージリカレントフレームワークに基づいている。また、幻視化不確定性モジュール１０６も、提供することができる。

座標生成モジュール１０２は、第１過去フレーム１０８及び第１現在フレーム１１６を受け取るように、且つ、受け取られた第１過去フレーム当たりに１つずつ、座標マップ１１０の組を生成するように、構成されている。第１過去フレームに対応する座標マップは、第１現在フレームに対する第１過去フレームの空間マッピングを提供している。一実施形態において、第１過去フレーム１０８及び第１現在フレーム１１６は、第１ＦｏＶ（例えば、２０８×１２８ピクセル）を有する。

フレーム統合モジュール１０４は、第１過去フレーム１０８及び第１現在フレーム１１６のみならず、座標マップ１１０をも、モジュール１０２から受け取るように構成されている。フレーム統合モジュール１０４は、受け取られた入力に基づいて第２現在フレーム１１２を合成するように構成されている。一実施形態において、第２現在フレーム１１２は、第２ＦｏＶを有する。

第２ＦｏＶは、第１ＦｏＶと等しいものであってもよく、或いは、異なっていてもよい。一実施形態において、第２ＦｏＶは、第１ＦｏＶよりも大きい。例えば、第２ＦｏＶは、ピクセルを単位として、第１ＦｏＶよりも大きな幅及び／又は長さを有することができる。例えば、第１ＦｏＶが２０８×１２８ピクセルである場合に、第２ＦｏＶは、４１６×１２８ピクセルであってよい。

一実施形態において、生成された（第２ＦｏＶを有する）第２フレーム内の時間的一貫性を改善するべく、モジュール１０２及び１０４に入力される第１過去フレームの一部分は、フレーム統合モジュール１０４によって生成されたその対応する第２フレームによって置換することができる。

フレーム統合モジュール１０４は、座標マップ１１０を使用することにより、過去フレーム（第１過去フレームと、任意選択により、第２過去フレームをも含む）に含まれている情報を第１現在フレームの座標系に伝播させるように構成することができる。

一実施形態において、フレーム統合モジュール１０４は、それぞれの入力フレームに基づいて複数の特徴マップを生成するように構成することができる。特徴マップは、マルチスケール特徴マップであってよい。

フレーム統合モジュール１０４は、過去フレームと関連する複数の特徴をワーピングさせるべく、所与の過去フレームに対応する座標マップ１１０を使用することができる。第１現在フレームの場合には、これが正しい座標系内に既に存在していることに伴って、ワーピングは不要であり、且つ、ワーピングされた特徴マップは、オリジナルの特徴マップに対応している。

この後に、フレーム統合モジュール１０４は、統合された特徴マップを生成するべく、すべてのフレームに跨ってワーピングされた特徴マップを統合するように構成することができる。一実施形態において、ワーピングされた特徴マップの統合は、アテンションに基づいた特徴統合方式を使用している。アテンションに基づいた特徴統合方式は、深さ／ポーズエラー（即ち、座標マップにおけるエラー）により、且つ、フレーム一貫性により、生成される課題に対処するべく、フレームの間において有用な特徴を選択するべく学習するようにトレーニングされている。これは、特徴レベルにおけるマルチフレーム情報の融合を改善している。

フレーム統合モジュール１０４は、統合された特徴マップに基づいて第２現在フレーム１１２を生成するように構成することができる。

一実施形態において、フレーム統合モジュール１０４は、第１ＦｏＶの外側に含まれる領域をアウトペインティング（外挿）するべく、コンテキスト正規化に基づいた技法を使用することができる。

一実施形態において、フレーム統合モジュール１０４は、第１ＦｏＶ内に含まれる遮蔽された又は観察されていない領域をインペインティング（補完）するべくゲート付き畳み込み技法を使用することができる。

一実施形態において、フレーム統合モジュール１０４は、システムが異なる曖昧さレベルを有する観察に対して適合可能となることを許容するべく、ゲート付き自己アテンション（ＧＳＡ）メカニズムを実装することができる。ＧＳＡメカニズムは、ローカル情報（曖昧さが領域の間において異なっている）に従って動的に生成される重みに基づいて特徴マップを空間的に統合するように構成することができる。

一実施形態において、フレーム統合モジュール１０４は、不確定性メカニズムを実装することができる。具体的には、幻視化不確実性モジュール１０６は、第２現在フレーム１１２と関連する不確定性マップ１１４を生成するべく提供することができる。不確定性マップは、それぞれのピクセルにおける幻視化不確定性を解釈するべく機能している。トレーニングの際に、不確定性マップは、監督不一致を低減するべく損失関数を空間的に重み付けするように使用することができる（監督不一致は、予測結果とグランドトゥルースの間の不一致であり、空間的な変位が、予測結果が視覚的に受け入れ可能でありうるにも拘わらず、監督不一致が大きくなるようにしており、これにより、トレーニングの収束問題を生成しうる）。具体的には、不確定性マップによる損失関数の重み付けは、高度な幻視化不確定性による損失関数値に対するピクセルの影響を減衰させ、且つ、トレーニングの目的の調節を支援している。

一実施形態において、システム１００は、図２に示されているコンピュータシステム２００などのコンピュータシステム上において実装することができる。具体的には、システム１００と、そのモジュール及びメカニズムの任意のものと、は、コンピュータシステム２００のプロセッサ２０２によって実行された際に、プロセッサ２０２が、本明細書において記述されているシステム１００の方法又は機能を実行するようにする命令を含むコンピュータプログラムとして実装することができる。一実施形態において、コンピュータプログラムは、コンピュータシステム２００のコンピュータ可読媒体２０４上において記録することができる。

以下、図３～図８を参照し、システム１００の詳細な動作を提示する。

一般性を失うことなしに、システム１００については、第２ＦｏＶが（幅及び／又は長さの観点において）第１ＦｏＶよりも大きい特定の実施形態について説明することとする。例えば、第１ＦｏＶは、２０８×１２８ピクセルであってよく、且つ、第２ＦｏＶは、４１６×１２８ピクセルであってよい。従って、わかりやすさを目的として、第１ＦｏＶは、「ナローＦｏＶ」と呼称することとし、且つ、第２ＦｏＶは、「ワイドＦｏＶ」と呼称することとする。本明細書における教示に基づいて当業者には理解されるであろうように、実施形態は、この特定の実施形態によって限定されるものではない。

提示の簡潔性を目的として、システム１００の動作については、現在のワイドＦｏＶフレームＯ_tを生成するための現在のナローＦｏＶフレームＩ_tの処理の観点から説明する。従って、システム１００は、ＦｏＶ外挿システムとして見なすことができる。但し、上述のように、システム１００は、ＦｏＶ外挿に限定されるものではない。

図３は、一実施形態による例示用の座標生成モジュール３００を示している。例示用の座標生成モジュール３００は、本開示の実施形態の、限定ではなく、例示を目的として提供されている。例示用の座標生成モジュール３００は、座標生成モジュール１０２の一実施形態であってよい。

図３に示されているように、座標生成モジュール３００は、深さネットワーク３０２と、ポーズネットワーク３０４と、座標計算モジュール３０６と、を含む。

深さネットワーク３０２は、複数の過去フレームを受け取るように構成されている。過去フレームは、ナローＦｏＶフレーム及び過去のワイドＦｏＶフレームを含みうる。例示を目的として、以下の説明においては、深さネットワーク３０２がｋ個のフレームを受け取るものと仮定されている。ｋ個のフレームは、（ｋ－ｊ）個の過去ナローＦｏＶフレーム（図３において、Ｉ_t-k，．．．，Ｉ_t-j-1と表記されている）と、ｊ個の過去ワイドＦｏＶフレーム（図３において、Ｏ_t-j，．．．，Ｏ_t-1と表記されている）と、を含むことができる。一実施形態において、ｋは、５に等しくてもよく、且つ、ｊは、１～５であってよい。

過去フレームは、例えば、ＲＧＢフレーム、深さフレーム、又はセマンティックセグメント化フレームであってよい。フレームは、同一のカメラソースから、或いは、異なるカメラソースから、導出することができると共に、同一のカメラ基準に変換することができる。

深さネットワーク３０２は、受け取られたｋ個のフレームのそれぞれごとに深さマップｄを生成している。一実施形態において、深さネットワーク３０２は、過去ナローＦｏＶフレームＩ_t-k，．．．，Ｉ_t-j-1に個々に対応する深さマップｄ_t-k，．．．，ｄ_t-j-1を生成し、且つ、過去ワイドＦｏＶフレームＯ_t-j，．．．、Ｏ_t-1に個々に対応する深さマップｄ_t-j，．．．，ｄ_t-1を生成している。

所与のフレームの深さマップは、フレーム内のすべてのピクセルについて、カメラとピクセルによって表されたオブジェクトの間の距離の推定値を通知している。

ピクセル深さ推定については、当業者に周知であり、且つ、本明細書においては、その説明を省略することとする。一実施形態において、深さネットワーク３０２は、「ＣｌeｍｅｎｔＧｏｄａｒｄ，ＯｉｓｉｎＭａｃＡｏｄｈａ，ＭｉｃｈａｅｌＦｉｒｍａｎ，ＧａｂｒｉｅｌＢｒｏｓｔｏｗ，Ｄｉｇｇｉｎｇｉｎｔｏｓｅｌｆ－ｓｕｐｅｒｖｉｓｅｄｍｏｎｏｃｕｌａｒｄｅｐｔｈｅｓｔｉｍａｔｉｏｎ，ａｒＸｉｖ：１８０６．０１２６０，ｉｎＩＣＣＶ，２０１９」に詳述されている完全畳み込み型のＵネットとして実装することができる。具体的には、深さネットワーク３０２は、周知のＶＧＧ１６ＢＮエンコーダと、いくつかの畳み込み層のデコーダと、を含みうる。入力は、ＲＧＢ画像フレーム（３チャネル）であってよく、且つ、出力は、同一分解能の深さマップ（１チャネル）である。

ポーズネットワーク３０４は、ナローＦｏＶフレームのｋ個のペアを入力として受取り、且つ、ｋ個のフレームペアのそれぞれごとに相対的なカメラポーズを生成している。一実施形態において、ｋ個のフレームペアは、フレームペア（Ｉ_t-k，Ｉ_t-k+1），．．．，（Ｉ_t-1，Ｉ_t）、即ち、時間ｔにわたる隣接するフレームペアである、（現在）ナローＦｏＶフレーム及びｋ－１個の過去ナローＦｏＶフレーム、を含む。結果的に得られる相対的なカメラポーズは、ｐ_t-k，．．．，ｐ_t-1と表記されている。

隣接するナローＦｏＶフレーム（Ｉ_t-i，Ｉ_t-i+1）に対応する相対的カメラポーズｐ_t-iは、時点（ｔ－ｊ）から時点（ｔ－ｊ＋１）へのカメラ位置の相対回転及び平行運動の推定値を表している。

相対カメラポーズ推定については、当業者には、周知であり、本明細書においては、その説明を省略することとする。一実施形態において、ポーズネットワーク３０４は、「ＣｌeｍｅｎｔＧｏｄａｒｄ，ＯｉｓｉｎＭａｃＡｏｄｈａ，ＭｉｃｈａｅｌＦｉｒｍａｎ，ＧａｂｒｉｅｌＢｒｏｓｔｏｗ，Ｄｉｇｇｉｎｇｉｎｔｏｓｅｌｆ－ｓｕｐｅｒｖｉｓｅｄｍｏｎｏｃｕｌａｒｄｅｐｔｈｅｓｔｉｍａｔｉｏｎ，ａｒＸｉｖ：１８０６．０１２６０，ｉｎＩＣＣＶ，２０１９」において詳述されているように実装することができる。具体的には、ポーズネットワーク３０４は、ＲＧＢ画像のペア（３＋３チャネル）を入力として受け取る、且つ、６チャネルベクトルを出力として生成する、ＲｅｓＮｅｔ１８エンコーダを含むことができる。

座標計算モジュール３０６は、深さネットワーク３０２及びポーズネットワーク３０４の出力に基づいてｋ個の座標マップ３０８を算出するように構成されている。一実施形態において、（ｋ－ｊ）個の過去ナローＦｏＶフレーム（Ｉ_t-k，．．．，Ｉ_t-j-t）に個々に対応する（ｋ－ｊ）個のマップ（ｅ_t-k，．．．，ｅ_t-j+1）及びｊ個の過去ワイドＦｏＶフレーム（Ｏ_t-j，．．．，Ｏ_t-1）に個々に対応するｊ個のマップ（ｅ_t-j，．．．，ｅ_t-1）が算出されている。

過去（ナロー又はワイドＦｏＶ）フレームに対応する座標マップは、現在ナローＦｏＶフレームＩ_tに対する過去フレームの空間的なマッピングを提供している。換言すれば、座標マップは、過去フレームのそれぞれのピクセルごとに、現在のフレームＩ_t内のその対応する座標を通知している。

一実施形態においては、次式に従って、過去フレームＩ_i又はＯ_i（ｉ＝ｔ－ｋ，．．．，ｔ－１）用の座標マップが、まず、現在フレームＩ_tから過去フレームへの剛性フロー行列を算出することにより、取得されており、

ここで、Ｋは、カメラの内部行列を表記し、

は、過去フレームＩ_iから現在フレームへの相対的なカメラポーズを表記し、

は、現在フレームＩ_i内のピクセルの同次（又は、射影）座標の行列を表し、且つ、

は、位置

の深さ値を表している。

現在フレームＩ_tから過去フレームへの剛性フローは、現在フレームＩ_tを過去フレームにワーピングさせるべく、現在フレームＩ_tのピクセルに適用されることになる個々のピクセル変位を通知している。

次いで、算出された剛性フローを使用することにより、現在フレームＩ_tを過去フレームに空間的にマッチングする座標マップ

を演算することができる。座標マップ

は、剛性フローを一般的な２Ｄグリッド（２チャネル）（例えば、値［［［１，１，１］，［２，２，２］，［３，３，３］］，［［１，２，３］，［１，２，３］，［１，２，３］］］を有する３×３の２Ｄグリッド）に加算することにより、取得することができる。最後に、座標マップ

は、座標マップ

を取得するべく逆転され、これは、過去フレームを現在フレームＩ_tに空間的にマッチングさせている。座標マップ

を取得するための座標マップ

の逆転の際に、現在フレームＩ_tのピクセル（ｘ０、ｙ０）が、座標マップ

内の過去フレームのピクセル（ｕ０、ｖ０）に空間的にマッチングしている場合には、過去フレームのピクセル（ｕ０、ｖ０）は、座標マップ

内において現在フレームＩ_tのピクセル（ｘ０、ｙ０）に空間的にマッチングすることになる。

図４は、一実施形態による例示用のフレーム統合モジュール４００を示している。例示用のフレーム統合モジュール４００は、本開示の実施形態の、限定ではなく、例示を目的として提供されている。例示用のフレーム統合モジュール４００は、フレーム統合モジュール１０４の一実施形態であってよい。

図４に示されているように、例示用のフレーム統合モジュール４００は、エンコーダ４０２と、ワーピングモジュール４０４と、アテンションに基づいた特徴統合（ＡＦＡ）モジュール４０６と、Ｕネットモジュール４０８と、を含む。

エンコーダ４０２は、入力として、ｋ＋１個のフレームを受け取るように構成されている。初期化の際に、ｋ＋１個のフレームは、ｋ個の過去ナローＦｏＶフレーム（即ち、Ｉ_t-1，．．．，Ｉ_t-k）に、且つ、過去ナローＦｏＶフレームＩ_tに、対応している。ｊ回の反復の後に、時間的コヒーレンシーを改善するべく、過去ナローフレーム｛Ｉ_t-i｝ｉ＝１，．．．，ｊに対応する入力が、以前の出力｛Ｏ_t-i｝ｉ＝１，．．．，ｊ及びその関連する不確定性マップ｛Ｕ_t-j｝ｉ＝１，．．．，ｊにより、置換されている（Ｏ_t-j及びＵ_t-jは、チャネルごとに、互いに連結することができる）。わかりやすさを目的として、図４は、Ｊ回の反復が発生した後のエンコーダ入力を示している。

エンコーダ４０２は、それぞれの受け取られた入力フレームに基づいて複数（Ｎ）の特徴マップ４１０を生成するように構成されている。一実施形態において、複数の特徴マップ４１０は、マルチスケール特徴マップであってよい（即ち、異なる空間的スケール又はサイズを有する）。一実施形態において、Ｎは、３に等しくてもよいが、更に大きな数を使用することもできる。

一実施形態において、エンコーダ４０２は、入力フレームに基づいて第１特徴マップを生成するように構成された第１畳み込み層を含むことができる。第１特徴マップは、サイズＨ×Ｗ×Ｃのテンソルであってもよく、この場合に、Ｈは、フレームの高さであり、Ｗは、フレームの幅であり、且つ、Ｃは、チャネルの数である。例えば、Ｃは、１２８に等しくてもよい。第１特徴マップは、「レベル０」特徴マップと呼称することができる。

また、エンコーダ４０２は、第１特徴マップを受け取るように、且つ、第１特徴マップに基づいて中間第２特徴マップを生成するように、構成された第２畳み込み層を含むことができる。中間第２特徴マップは、サイズＨ１×Ｗ１×Ｃであってもよく、この場合に、Ｈ１及びＷ１の少なくとも１つは、それぞれ、Ｈ及びＷよりも小さい。次いで、中間第２特徴マップが、サイズＨ１×Ｗ１×Ｃの第２特徴マップを生成するべく、同一サイズ（即ち、Ｈ１×Ｗ１×Ｃ）の第１特徴マップのダウンサイジングされたバージョンに加算されている。第２特徴マップは、「レベル１」特徴マップと呼称することができる。

上述のプロセスは、サイズＨ２×Ｗ２×Ｃの第３特徴マップを取得するべく、第２特徴マップとの関係において反復されてもよく、この場合に、Ｈ２及びＷ２の少なくとも一つは、それぞれ、Ｈ及びＷよりも小さい。第３特徴マップは、「レベル２」特徴マップと呼称することができる。

次いで、ｋ＋１個の入力フレームのそれぞれごとに生成された特徴マップ４１０が、ワーピングモジュール４０４に提供されている。

これに加えて、ワーピングモジュール４０４は、座標計算モジュール３０６からｋ個の座標マップ３０８を受け取っている。上述のように、ｋ個の座標マップ３０８は、（ｋ－ｊ）個の過去ナローＦｏＶフレーム（Ｉ_t-k，．．．，Ｉ_t-j-1）にそれぞれ対応する（ｋ－ｊ）個のマップ（ｅ_t-k，．．．，ｅ_t-j+1）と、ｊ個の過去ワイドＦｏＶフレーム（Ｏ_t-j，．．．，Ｏ_t-1）にそれぞれ対応するｊ個のマップ（ｅ_t-j，．．．，ｅ_t-1）と、を含む。

一実施形態において、過去フレームのそれぞれ（即ち、（ｋ－ｊ）個の過去ナローＦｏＶフレーム（Ｉ_t-k，．．．、Ｉ_t-j-1）及びｊ個の過去ワイドＦｏＶフレーム（Ｏ_t-j，．．．，Ｏ_t-1）のそれぞれ）ごとに、ワーピングモジュール４０４は、フレームと関連する特徴マップ４１０を現在ナローＦｏＶフレームＩ_tに伝播させるべく、フレームに対応する個々の座標マップを使用するように構成することができる。特徴マップ４１０の伝播は、フレームの複数のワーピングされた特徴マップ４１２を生成するべく、座標マップに従って、特徴マップ４１０をワーピングさせている。

一実施形態において、ワーピングモジュール４０４は、座標マップ３０８に基づいてマルチスケール特徴マップ４１０を伝播させるべく、「Ｊａｄｅｒｂｅｒｇ，Ｍａｘ，ＫａｒｅｎＳｉｍｏｎｙａｎ，ａｎｄＡｎｄｒｅｗＺｉｓｓｅｒｍａｎ， “Ｓｐａｔｉａｌｔｒａｎｓｆｏｒｍｅｒｎｅｔｗｏｒｋｓ，” ＩｎＮＩＰＳ．２０１５」において詳述されているバイリニアサンプリングを使用している。

現在ナローＦｏＶフレームＩ_tに対応する特徴マップ４１０は、ワーピングモジュール４０４によってワーピングされておらず、その理由は、これらが、現在フレームの座標系内において既に存在しているからであることに留意されたい。従って、特徴マップ４１２は、現在ナローＦｏＶフレームＩ_tの特徴マップ４１０と同一である。

ワーピングされた特徴マップ４１２（これは、例えば、レベル０、１、及び２などの異なるレベルであってよい）は、次いで、ＡＦＡモジュール４０６に提供され、これは、統合された特徴マップ４１４を生成するべく、ｋ＋１個のフレームのすべてにわたって、ワーピングされた特徴マップ４１２を統合するように構成されている。ナローＦｏＶフレームから結果的に得られたワーピング済みの特徴マップは、ワイドＦｏＶフレームから結果的に得られたワーピング済みの特徴マップと同一のサイズを有するように、ゼロによって充填することができる。

一実施形態においては、ＡＦＡモジュール４０６が、図５に示されているように、実装されてもよく、図５は、本開示の一実施形態による例示用のＡＦＡモジュール５００を示している。例示用のＡＦＡモジュール５００は、実施形態の、限定ではなく、例示を目的として提供されている。

図５に示されているように、例示用のＡＦＡモジュール５００は、ｋ＋１個のフレームの所与のフレームに対応するワーピングされた特徴マップ４１２（例えば、レベル０、１、及び２）を受け取るようにそれぞれが構成された複数のチャネルを含む。

それぞれのチャネル内において、個々のフレームのワーピングされた特徴マップ４１２は、それぞれ、個々のフレームの観点における空間アテンションマップ５０６を生成するべく、ソフトマックス正規化モジュール５０４によって後続される畳み込み層５０２内に供給されている。一実施形態においては、レベル０空間アテンションマップ、レベル１空間アテンションマップ、及びレベル２空間アテンションマップが生成されている。例示を目的として、図７Ｂは、図７Ａに示されている例示用のナローＦｏＶフレームのシーケンスに対応する例示用のレベル０アテンションマップを示している。

次いで、ワーピングされた特徴マップ４１２のそれぞれは、個々の特徴マップ５０８を生成するべく、その個々の空間アテンションマップ５０６によって乗算されている。従って、それぞれのフレームごとに、複数の特徴マップ５０８（例えば、レベル０、レベル１、及びレベル２）が取得されている。

上述の空間アテンションマップの使用は、その他のフレームとの間の後続の統合のためにそれぞれのフレームの特定の特徴に合焦する又は選択することを許容している。一実施形態において、空間アテンションマップ５０６は、ｋ＋１個のフレームの古いフレーム（例えば、フレームｔ－ｋ～ｔ－ｊ－１）について、フレームの中心から遠いフレーム領域（例えば、中心から既定の距離超である領域）を強調するように、且つ、ｋ＋１個のフレームの新しいフレーム（例えば、フレームｔ－ｊ～ｔ）について、フレームの中心近傍のフレーム領域（例えば、中心から既定の距離未満の領域）を強調するように、構成されている。

次いで、結果的に得られた特徴マップ５０８が、統合された特徴マップ４１４を生成するべく、すべてのフレームに跨って合計されている。一実施形態において、これは、すべてのフレームに跨って、すべてのレベル０特徴マップ５０８を１つに、すべてのレベル１特徴マップ５０８を１つに、且つ、すべてのレベル２特徴マップ５０８を１つに、合計するステップを含む。

図４を再度参照すれば、統合された特徴マップ４１４は、次いで、Ｕネットモジュール４０８に提供されている。Ｕネットモジュール４０８は、統合された特徴マップ４１４に基づいて現在ワイドＦｏＶフレームＯ_tを合成するように構成されている。これに加えて、一実施形態において、Ｕネットモジュール４０８は、ワイドＦｏＶフレームＯ_tと関連する不確定性マップＵ_tをも出力している。不特定性マップは、それぞれのピクセルにおいて幻視化不確定性を解釈（説明）するべく、且つ、監督曖昧さを低減することによって学習をガイドするべく、機能している。

一実施形態において、Ｕネットモジュール４０８は、例えば、ナローＦｏＶ内に含まれる遮蔽された又は観察されていない領域をインペインティング（補完）する、且つ／又は、ナローＦｏＶの外側に含まれる領域をアウトペインティング（外挿）する、ことにより、失われた領域を幻視化するためのメカニズムを実装している。画像のインペインティング及びアウトペインティングは、当技術分野においては、既知の技法である。具体的には、画像インペインティングは、ワーピングを通じて失われたピクセルを幻視化すること又は隣接（空間又は時間次元）する可視ピクセルを条件として失われたピクセルを生成することを狙いとしている。画像のアウトペインティングは、ＦｏＶを拡張するために、隣接するナローＦｏＶフレームの観察されたピクセルをブレンドするべく、通常、２Ｄ又は３Ｄ形状に基づいたワーピング及びスティッチング技法を採用している。

任意選択により、Ｕネットモジュール４０８は、ゲート付き自己アテンション（ＧＳＡ）メカニズムを含むことができる。ＧＳＡメカニズム用のモチベーションは、通常、推定されたワイドＦｏＶフレームとワイドＦｏＶグランドトゥルースの間の曖昧さレベルが、ワイドＦｏＶフレーム内の１つの領域から別のものに変化しうる、という点にある。例えば、図８に示されているように、ワイドＦｏＶフレーム内のピクセルは、（ａ）曖昧さが存在していない、現在フレーム内の観察されたナローＦｏＶピクセル（例えば、フレームの領域８０２）、（ｂ）曖昧さが小さい、正確な伝播を有する過去フレームからの伝播されたピクセル（例えば、領域８０６ａ及び８０６ｂ）、（ｃ）中間曖昧さレベルを特徴とする、ノイジーな伝播を有する過去フレームからの伝播されたピクセル（例えば、領域８０８ａ及び８０８ｂ）、並びに、（ｄ）曖昧さのレベルが高い、観察されていない領域に対応するピクセル（例えば、領域８０４）、という４つのカテゴリに粗く分割することができる。更に後述するように、ＧＳＡメカニズムは、モデルが、異なる曖昧さレベルを有する観察に適合可能であることを保証するように構成されている。

一実施形態において、Ｕネットモジュール４０８は、図６に示されているように実装されていてもよく、図６は、本開示の一実施形態による例示用のＵネットモジュール６００を示している。例示用のＵネットモジュール６００は、例示を目的としてのみ、提供されており、且つ、実施形態の限定ではない。

図６に示されているように、Ｕネットモジュール６００は、ボトルネックモジュール６０４と、デコーダモジュール６１８と、を含む。

一実施形態において、ボトルネックモジュール６０４は、複数の連続層６０４－１、．．．、６０４－６を含む。層６０４－１、．．．、６０４－６は、それぞれ、残留遅延畳み込み層として実装することができる。このような層は、式ｙ＝ｘ＋ｃｏｎｖ（ｘ）によって記述することが可能であり、ここで、ｙは、層出力であり、ｘは、層入力であり、且つ、ｃｏｎｖ（ｘ）は、入力ｘの遅延畳み込みを表記している。

一実施形態において、デコーダモジュール６１８は、コンテキスト正規化サブモジュール６０８と、デコーダサブモジュール６１０と、ゲート付き自己アテンション（ＧＳＡ）サブモジュール６１２と、アップサンプリングモジュール６１４と、を含む。

コンテキスト正規化サブモジュール６０８は、ナローＦｏＶの外側に含まれる領域をアウトペインティング（外挿）するように構成することができる。

一実施形態において、サブモジュール６０８は、複数のコンテキスト正規化層６０８－１、６０８－２、及び６０８－３を有する。一実施形態において、正規化層６０８－１、６０８－２、及び６０８－３は、それぞれ、「Ｙ．Ｗａｎｇ，Ｘ．Ｔａｏ，Ｘ．ＳｈｅｎａｎｄＪ．Ｊｉａ， “Ｗｉｄｅ－ＣｏｎｔｅｘｔＳｅｍａｎｔｉｃＩｍａｇｅＥｘｔｒａｐｏｌａｔｉｏｎ，” ｉｎ２０１９ＩＥＥＥ／ＣＶＦＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ），ＬｏｎｇＢｅａｃｈ，ＣＡ，ＵＳＡ，２０１９ｐｐ．１３９９－１４０８」において記述されているように実装することができる。従って、層６０８－１、６０８－２、及び６０８－３は、平均及びバリアンスを観察された領域特徴から観察されていない領域特徴に転送するように構成することができる。

但し、マスクが入力において付与されているＷａｎｇ他におけるものとは異なり、過去フレームを伝播させた後に観察されていない領域を通知する統合されたマスクを使用することができる。従って、大量のワイドビュー情報が過去のフレーム内において観察されており、且つ、この情報は、幻視化されるのではなく、現在ワイドＦｏＶフレーム内に単純に伝播されうることを認識することができる。

デコーダサブモジュール６１０は、ナローＦｏＶ内に含まれている遮蔽された又は観察されていない領域をインペインティング（完了）するように構成することができる。

一実施形態において、サブモジュール６１０は、複数のデコーダ層６１０－１、６１０－２、６１０－３、及び６１０－４を含む。デコーダ層６１０－１、６１０－２、６１０－３、及び６１０－４は、それぞれ、「ＪｉａｈｕｉＹｕ，ＺｈｅＬｉｎ，ＪｉｍｅｉＹａｎｇ，ＸｉａｏｈｕｉＳｈｅｎ，ＸｉｎＬｕ，ＴｈｏｍａｓＳ．Ｈｕａｎｇ， “Ｆｒｅｅ－ｆｏｒｍｉｍａｇｅｉｎｐａｉｎｔｉｎｇｗｉｔｈｇａｔｅｄｃｏｎｖｏｌｕｔｉｏｎ，” ｉｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥ／ＣＶＦＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ（ＩＣＣＶ），２０１９，ｐｐ．４４７１－４４８０」において記述されているように、ゲート付き畳み込み層として実装することができる。

ＧＳＡサブモジュール６１２は、自己アテンションを伴う特徴統合を実行するように構成することができる。具体的には、（近傍の場所からの特徴を組み合わせるべく）固定された事前トレーニング済みの重みの畳み込みカーネルを使用して特徴統合を実行する従来の畳み込み演算子とは異なり、サブモジュール６１２は、特徴ベクトルの場所に基づいて特徴ベクトル当たりに（即ち、ピクセル当たりに）カーネル重みを動的に生成するように構成することができる。一実施形態においては、曖昧さが、（図８との関係において上述したように）場所と直接的に相関していることに伴って、カーネル重みを統合されている特徴ベクトルの曖昧さレベルに基づいて特徴ベクトル当たりに動的に適合させることができる。従って、曖昧さの影響が低減され、これにより、特徴統合性能が改善されている。

一実施形態において、ＧＳＡサブモジュール６１２は、複数のＧＳＡ層６１２－１、６１２－２、及び６１２－３を含む。ＧＳＡ層６１２－１、６１２－２、及び６１２－３は、それぞれ、「ＨｅｎｇｓｈｕａｎｇＺｈａｏ，ＪｉａｙａＪｉａ，ａｎｄＶｌａｄｌｅｎＫｏｌｔｕｎ， “Ｅｘｐｌｏｒｉｎｇｓｅｌｆ－ａｔｔｅｎｔｉｏｎｆｏｒｉｍａｇｅｒｅｃｏｇｎｉｔｉｏｎ， ” ＩｎＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ），２０２０」に記述されているように、パッチの観点における自己アテンションブロックとして実装することができる。具体的には、パッチの観点における自己アテンションブロックは、以下の式によって記述することが可能であり、

ここで、

であり、

は、新しい統合された特徴を表記しており、

は、統合フットプリント（例えば、３×３又は７×７ピクセル）を表記しており、

は、統合フットプリント内の特徴ベクトルのパッチに対応するテンソルを表記しており、

は、テンソル

内の場所ｊにおけるアテンションベクトル（即ち、重みベクトル）を表しており、且つ、これは、テンソル

内の特徴ベクトル

に空間的に対応しており、

は、特徴ベクトル

を生成する関数であり、且つ、

は、ハダマード積である。

関数

及び

は、それぞれ、１つの畳み込み層を介して実装されたマッピングである。関数

は、パッチ

からの特徴ベクトル

を組み合わせており、且つ、連結演算を使用して実装することができる。

一実施形態において、トレーニングの際の消失する勾配の影響を低減するべく、自己アテンションブロックが残留構造によってラッピングされてもよく：ｚ＝Ｃｏｎｖ_r（ｙ）＋ｘ、ここで、Ｃｏｎｖ_rは、残留畳み込み層を表記しており、ｙは、自己アテンションブロックの出力であり、且つ、ｘは、自己アテンションブロックの入力である。

別の実施形態において、自己アテンションは、次式によって規定された高度な曖昧さを有する領域を取り扱うべくゲート処理メカニズムを更に含んでいてもよく、

この場合に、Ｃｏｎｖ_g及びＣｏｎｖ_aは、ゲート処理畳み込み層及びアテンション畳み込み層を表記している。ゲート処理メカニズムは、情報がネットワーク内において流れる１つ又は複数の経路を制御している。具体的には、一実施形態において、ゲート処理メカニズムは、特定レベル超の曖昧さを有する特徴ベクトルのみが、ネットワークを通じて流れることを許容するように、且つ／又は、特定レベル超の曖昧さを有する特徴ベクトルの流れを制限するように、構成することができる。従って、画像品質を改善することができる。

一実施形態において、ボトルネックモジュール６０４は、入力として、第１層６０４－１を介して、統合された特徴マップ６０２－１を受け取るように、且つ、変更された統合された特徴マップ６０６を生成するように、構成することができる。特徴マップ６０２－１は、サイズ（Ｈ／４×Ｗ／４×Ｃ）のレベル２の統合された特徴マップであってよく、この場合に、Ｈは、フレームの高さであり、Ｗは、フレームの幅であり、且つ、Ｃは、チャネルの数である。特徴マップ６０６は、特徴マップ６０２－１と同一のサイズを有することができる。

コンテキスト正規化層６０８－１、６０８－２、及び６０８－３は、個々の統合された特徴マップ６０２－１、６０２－２、及び６０２－３を受け取るように構成されている。統合された特徴マップ６０２－１、６０２－２，及び６０２－３は、それぞれ、レベル２、レベル１、及びレベル０の統合された特徴マップに対応しうる。一例として、特徴マップ６０２－１は、サイズ（Ｈ／４×Ｗ／４×Ｃ）を有していてもよく、特徴マップ６０２－２は、サイズ（Ｈ／２×Ｗ／２×Ｃ）を有していてもよく、且つ、特徴マップ６０２－３は、（Ｈ×Ｗ×Ｃ）を有していてもよく、この場合に、Ｈは、フレームの高さであり、Ｗは、フレームの幅であり、且つ、Ｃは、チャネルの数である。

一実施形態において、コンテキスト正規化層６０８－１、６０８－２、及び６０８－３は、それぞれ、デコーダ層６１０－１、６１０－２、及び６１０－３に供給するように構成されており、これらのデコーダ層は、それぞれ、ＧＳＡ層６１２－１、６１２－２、及び６１２－３に供給するように構成されている。

コンテキスト正規化層６０８－１、６０８－２、及び６０８－３の個々の出力を受け取るのと同時に、デコーダ層６１０－１、６１０－２、及び６１０－３は、入力として、それぞれ、ボトルネックモジュール６０４の出力６０６、ＧＳＡ層６１２－１の出力（アップサンプリングモジュール６１４－１によってアップサンプリングされたもの）及びＧＳＡ層６１２－２の出力（アップサンプリングモジュール６１４－２によってアップサンプリングされたもの）を更に受け取っている。例えば、デコーダ層６１０－１、６１０－２、及び６１０－３の組み合わせられた入力は、サイズ（Ｈ’×Ｗ’×２Ｃ）を有していてもよく、且つ、層の出力は、サイズ（Ｈ’×Ｗ’×２Ｃ）を有していてもよく、ここで、層６１０－１、６１０－２、及び６１０－３について、それぞれ、Ｈ’＝Ｈ／４、Ｈ／２、及びＨであり、それぞれ、Ｗ’＝Ｗ／４、Ｗ／２、及びＷである。

デコーダ層６１０－４は、ＧＳＡ層６１２－３の出力を入力として受け取り、且つ、現在ワイドＦｏＶフレームＯ_tを有する出力６１６を生成している。

図１を再度参照すれば、上述のように、一実施形態において、システム１００は、幻視化不確定性モジュール１０６を含むことができる。具体的には、幻視化不確定モジュール１０６は、生成されたワイドＦｏＶフレーム１１２と関連する不確定性マップ１１４を生成するべく提供することができる。不確定性マップは、ワイドＦｏＶフレームのそれぞれのピクセルにおいて幻視化不確定性を解釈するべく機能している。

これに加えて、不確定性マップは、高度な幻視化不確定性による損失関数値に対するピクセルの影響を減衰させ、これにより、監督不一致を低減し、且つ、トレーニング収束をスピードアップさせることにより、トレーニングの目的を調節するべく使用することもできる。

一実施形態において、幻視化不確定性モジュール１０６は、高い幻視化不確定性を有することになるワイドＦｏＶフレームの領域及び低い幻視化不確定性を有することになるものの予測に基づいて不確定性を生成するようにトレーニングすることができる。生成された不確定性マップは、ワイドＦｏＶフレームのピクセル当たりの推定された幻視化不確定性を割り当てることにより、この予測を反映している。

一実施形態において、幻視化不確定性モジュール１０６は、幻視化不確定性を組み込んだ損失関数を極小化するべく、不確定性マップ１１４を生成するようにトレーニングすることができる。

一実施形態において、幻視化不確定性を組み込んだ損失関数は、ピクセルレベル再構築Ｌ１損失関数である。

一実施形態において、幻視化不確定性を組み込んだ損失関数は、次式によって付与されており、

ここで、Ｏ_tは、現在ワイドＦｏＶフレームであり、Ｗ_tは、グランドトゥルースワイドＦｏＶフレームであり、Ｕ_tは、Ｏ_tと関連する予測された不確定性マップであり、Ｍ_viewは、ナロービュー外の領域用のマスクであり、且つ、

は、要素の観点における乗算を表記している。損失関数は、ピクセルごとに演算され、且つ、次いで、すべてのピクセルにわたって平均化されている。

上述の式によれば、

によって付与されるナローＦｏＶ領域は、不確定性マップＵ_tによって重み付けされていないことに留意されたい。この理由は、この領域が、ナローＦｏＶフレーム内において観察されているピクセルに対応しているからである。最も右のＵ_t項は、損失勾配の安定化を支援する正則化項である。

一実施形態において、不確定性Ｕ_tを相対的に解釈可能なものにするべく、且つ、トレーニングプロセスを更に安定化させるべく、Ｕ_tが、シグモイド関数を使用して範囲（０、１）内において制約されている。

これに加えて、図４に示されているように、予め生成された不確定性マップ｛Ｕ_t-i｝ｉ＝1．．．ｊは、コンフィデンス信号として機能するべく現在の入力において使用することもできる。一実施形態において、これは、過去の不確定性マップを個々の過去の推定されたワイドＦｏＶフレームと連結することにより、実行されている。

以上、特定の具体的な実施形態を参照し、本発明について説明したが、本発明は、特定の実施形態の詳細によって限定されるものではないことを理解されたい。添付の請求項の範囲内において、上述の実施形態において、多数の変更、変形、及び修正を実施することができる。

Claims

画像補完用のシステムであって、
第１過去フレーム及び第１現在フレームを受け取るように、且つ、前記受け取られた第１過去フレームのそれぞれごとに１つずつ、座標マップの組を生成するように、構成された座標生成モジュールであって、前記第１過去フレーム及び前記第１現在フレームは、第１視野を有し、第１過去フレームに対応する前記座標マップは、前記第１現在フレームの座標系に対する前記第１過去フレームの空間的なマッピングを提供している、座標生成モジュールと、
入力として、前記第１過去フレーム、前記第１現在フレーム、及び前記座標マップを受け取るように、且つ、前記入力に基づいて、第２視野を有する第２現在フレームを合成するように、構成されたフレーム統合モジュールと、
を有する、システム。
前記座標生成モジュールは、
前記第１過去フレームを受け取るように、且つ、前記受け取られた第１過去フレームのそれぞれごとに深さマップを生成するように、構成された深さネットワークと、
前記受け取られた第１過去フレーム及び前記第１現在フレームから形成された時間隣接フレームのフレームペアを受け取るように、且つ、前記受け取られたフレームペアのそれぞれごとに相対的カメラポーズを生成するように、構成されたポーズネットワークと、
前記深さネットワーク及び前記ポーズネットワークの出力に基づいて前記座標マップの組を生成するように構成された座標計算モジュールと、
を有する、請求項１に記載のシステム。
前記フレーム統合モジュールは、前記座標生成モジュールによって生成された前記座標マップの組を使用することにより、前記受け取られた第１過去フレーム内に含まれている情報を前記第１現在フレームの前記座標系に伝播させるように構成されている、請求項１又は２に記載のシステム。
前記フレーム統合モジュールは、
前記第１過去フレーム及び前記第１現在フレームのそれぞれのフレームに基づいて複数の特徴マップを生成するように構成されたエンコーダと、
前記第１過去フレーム及び前記第１現在フレームのそれぞれのフレームごとに、前記それぞれのフレームの複数のワーピングされた特徴マップを生成するべく、前記それぞれのフレームと関連する個々の座標マップを使用することにより、前記それぞれのフレームと関連する前記複数の特徴マップをワーピングさせるように構成されたワーピングモジュールと、
前記第１過去フレーム及び前記第１現在フレームのすべてにわたって、統合された特徴マップの組を生成するべく、前記生成されたワーピングされた特徴マップを統合するように構成されたアテンションに基づいた特徴統合モジュールと、
を有する、請求項１から３のいずれか１項に記載のシステム。
前記アテンションに基づいた特徴統合モジュールは、前記統合において、前記第１過去フレーム及び前記第１現在フレームのそれぞれのフレームごとに、前記第１現在フレームとの関係における前記フレームのタイミングに基づいて、前記フレームの領域固有の特徴を強調するように構成されている、請求項４に記載のシステム。
前記アテンションに基づいた特徴統合モジュールは、前記第１過去フレーム及び前記第１現在フレームのそれぞれのフレームごとに、
前記それぞれのフレームと関連する前記ワーピングされた特徴マップのそれぞれごとに、個々のフレームの観点における空間的なアテンションマップを生成するように、且つ、
個々の特徴マップを生成するべく、前記それぞれのフレームと関連する前記ワーピングされた特徴マップのそれぞれを前記個々の空間的なアテンションマップによって乗算するように、
構成されている、請求項４又は５に記載のシステム。
前記アテンションに基づいた特徴統合モジュールは、前記統合された特徴マップの組を生成するべく、前記第１過去フレーム及び前記第１現在フレームのすべてにわたって、前記生成された個々の特徴マップを合計するように更に構成されている、請求項６に記載のシステム。
前記フレーム統合モジュールは、前記統合された特徴マップの組に基づいて前記第２現在フレームを生成するように構成されたＵネットモジュールを更に有し、前記Ｕネットモジュールは、
前記統合された特徴マップの組を受け取るように、且つ、前記第１現在フレームの視野の外側に含まれる前記第２現在フレームの領域をアウトペインティングするように、構成されたコンテキスト正規化サブモジュールと、
前記コンテキスト正規化サブモジュールによって出力された特徴マップを受け取るように、且つ、前記第１現在フレームの視野内に含まれる遮蔽された又は観察されていない領域をインペインティングするべく前記コンテキスト正規化サブモジュールによって出力された前記特徴マップを処理するように、構成されたデコーダサブモジュールと、
前記デコーダサブモジュールによって出力された特徴マップを受け取るように、且つ、前記デコーダサブモジュールによって出力された前記特徴マップを空間的に統合するように、構成されたゲート付き自己アテンションサブモジュールと、
を有する、請求項４から７のいずれか１項に記載のシステム。
前記ゲート付き自己アテンションサブモジュールは、特徴ベクトルの空間的な場所に基づいて特徴ベクトル当たりに動的に生成された重みに基づいて前記デコーダサブモジュールによって出力された前記特徴マップを空間的に統合するように構成されている、請求項８に記載のシステム。
前記第２現在フレームと関連する不確定性マップを生成するように構成された幻視化不確定性モジュールを有する、請求項１から９のいずれか１項に記載のシステム。
前記幻視化不確定性モジュールは、幻視化不確定性を組み込んだ損失関数を極小化するべく前記不確定性マップを生成するように構成されている、請求項１０に記載のシステム。
前記幻視化不確定性モジュールは、高い幻視化不確定性を有することになる前記第２現在フレームの領域及び低い幻視化不確定性を有することになるものの予測に基づいて前記不確定性マップを生成するように構成されている、請求項１０に記載のシステム。
深さネットワーク及び前記フレーム統合モジュールによって受け取られた前記第１過去フレームの一部分は、前記フレーム統合モジュールによって生成された前記第２視野を有する、且つ、前記第１過去フレームの部分に対応する、第２過去フレームによって置換されている、請求項１から１２のいずれか１項に記載のシステム。
前記第２過去フレームは、それぞれ、前記第２過去フレームを前記フレーム統合モジュールに提供する前に、幻視化不確定性モジュールによって生成された個々の不確定性マップと連結されている、請求項１３に記載のシステム。
前記第２視野は、前記第１視野と等しいか又はこれを上回っている、請求項１から１４のいずれか１項に記載のシステム。