JP2024507887A

JP2024507887A - 暗黙的な放射輝度関数を使用した色および赤外線３次元再構成

Info

Publication number: JP2024507887A
Application number: JP2023550681A
Authority: JP
Inventors: マーティン・ブルアラ，リカルド
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2021-02-24
Filing date: 2021-02-24
Publication date: 2024-02-21
Also published as: US20240087214A1; EP4298607A1; KR20230146649A; CN116670708A; WO2022182421A1

Abstract

画像は、シーンのニューラル放射輝度場（ＮｅＲＦ）体積表示に基づいてレンダリングされ、ＮｅＲＦ表示は、ビデオデータの捕捉されたフレームに基づき、各フレームは、シーンのカラー画像、広視野ＩＲ画像、および複数の深度ＩＲ画像を含む。各深度ＩＲ画像は、シーンが異なるパターンのＩＲ光点によって照明されるときに捕捉され、パターンによる照明が異なる時間に起こる。ＮｅＲＦ表示は、位置と観察方向との間で、シーン内の各位置における色および光学密度へのマッピングをもたらし、各位置における色および光学密度により、新たな視点からシーンを観察することが可能になり、ＮｅＲＦ表示は、位置と観察方向との間で、新たな視点からそれぞれの異なるパターンのＩＲ光点ごとにＩＲ値へのマッピングをもたらす。

Description

分野
実施形態は、３次元（３Ｄ）ビデオの捕捉およびレンダリングに関する。実施形態は、ニューラル放射輝度場（ＮｅＲＦ）を使用して表示用の画像を再レンダリングする際に用いるニューラルネットワークモデルをトレーニングすることにさらに関する。

背景
拡張現実（ＡＲ）および仮想現実（ＶＲ）の台頭により、性能捕捉リグ（例えば、カメラリグおよびビデオリグ）を使用した３Ｄコンテンツ（例えば、人間、キャラクター、俳優、動物、および／または同様のもの）の高品質表示に対する需要が生じている。最近、リアルタイム性能捕捉システムにより、（オフラインマルチビュー性能捕捉システムに加えて）テレプレゼンス、拡張ビデオ、およびライブ性能ブロードキャスティングの新たな使用例が可能になり、その多くは、観察者の位置と視点とに応じて、コンピュータで生成されたシーンのビューを適応的に提供する。

コンピュータグラフィックオブジェクトをレンダリングするように構成される一部のコンピュータは、複数の既存のビューが与えられると、指定されたビューでオブジェクトをレンダリングすることができる。例えば、そのようなコンピュータグラフィックオブジェクトを含むシーンについてカメラから捕捉された幾つかの深度画像とカラー画像とが与えられると、異なる視点からのシーンの新たなビューを合成することとなり得る。シーンは、物理的な色および深度センサを使用してビューが捕捉される実際のシーン、またはラスタライゼーションなどのレンダリングアルゴリズムを使用してビューが捕捉される合成シーンのいずれかである。実際のシーンの場合、飛行時間センサ、構造化光ベースのセンサ、ステレオまたはマルチビューステレオアルゴリズムなど、多くの深度センシングテクノロジーが存在する。そのような技術は、受動的または能動的な照明パターンを伴う可視センサまたは赤外線センサを含む場合があり、パターンは時間的に変化し得る。

既存の性能捕捉システムは、歪んだジオメトリ、貧弱なテクスチャリング、および不正確な照明、不十分に分解されたエッジ、不正確な色の幾つかの組み合わせを含む、１つ以上の技術的問題に見舞われる可能性があり、したがって、ＡＲアプリケーションおよびＶＲアプリケーションで必要とされる品質レベルに到達することが困難になる可能性がある。これらの技術的な問題により、最終的なユーザエクスペリエンスが望ましくないものになる可能性がある。

概要
少なくとも１つの態様において、方法は、シーンのニューラル放射輝度場（ＮｅＲＦ）体積表示に基づいてレンダリングされた画像を受信するステップを含み、シーンのＮｅＲＦ表示がビデオデータの捕捉されたフレームに基づき、各捕捉されたフレームは、シーンのカラー画像、シーンが広視野ＩＲ光源によって照明されるときに捕捉されたシーンの広視野ＩＲ画像、およびシーンの複数の深度ＩＲ画像を含む。シーンが異なるパターンのＩＲ光点によって照明されるときに深度ＩＲ画像のそれぞれが捕捉され、異なるパターンのＩＲ光点による照明が異なる時間に起こる。ＮｅＲＦ表示は、位置と観察方向との間で、シーン内の各位置における色および光学密度へのマッピングをもたらし、シーン内の各位置における色および光学密度により、新たな視点からシーンを観察することが可能になり、ＮｅＲＦ表示は、位置と観察方向との間で、新たな視点からそれぞれの異なるパターンのＩＲ光点ごとにＩＲ値へのマッピングをもたらす。受信された画像から強化された画像を生成するための合成関数が規定され、また、ニューラルネットワークによって生成された予測画像とトレーニング中にグランドトゥルースカメラによって捕捉されたグランドトゥルース画像との間の損失関数を最小化することに基づいてトレーニングされたニューラルネットワークを使用して合成関数が計算される。

実現例、以下の特徴のうちの１つ以上を単独でまたは相互に任意に組み合わせて含むことができる。

方法は、画像を受信するステップの前に、体積捕捉システムを使用してシーンの３Ｄモデルを捕捉するステップと、ＮｅＲＦ体積表示に基づいて画像をレンダリングするステップとをさらに含むことができる。

グランドトゥルースカメラおよび体積捕捉システムをいずれもトレーニング中にビューに向けることができ、グランドトゥルースカメラが体積捕捉システムよりも高品質の画像を生成することができる。

シーンのＮｅＲＦ表示は、シーンに対する複数の観察位置および観察方向について、シーンの位置固有および視点固有の色、ＩＲ、および密度画像データを生成するように構成され得る。

位置固有および視点固有のＩＲ画像データは、それぞれの異なるパターンのＩＲ光点ごとに広視野ＩＲ画像データおよびパターン化されたＩＲ画像データを含むことができる。

損失関数は、ニューラルネットワークにおける層の活性化にマッピングされたセグメント化されたグランドトゥルース画像と、ニューラルネットワークにおける層の活性化にマッピングされたセグメント化された予測画像との間の再構成差分に基づく再構成損失を含むことができ、セグメント化されたグランドトゥルース画像が背景ピクセルを除去するためにグランドトゥルースセグメンテーションマスクによってセグメント化され、セグメント化された予測画像が背景ピクセルを除去するために予測セグメンテーションマスクによってセグメント化され、予測セグメンテーションマスクは、フレームに関して捕捉された可視光情報とフレームに関して捕捉されたＩＲ光との両方の組み合わせに基づいて予測される。

再構成差分は、最大エラーを上回るまたは最小エラーを下回るピクセルにおける再構成差分の重み付けを下げるように再重み付けされる顕著性となり得る。

損失関数は、グランドトゥルースセグメンテーションマスクと予測セグメンテーションマスクとの間のマスク差分に基づくマスク損失を含むことができ、予測セグメンテーションマスクは、フレームに関して捕捉された可視光情報とフレームに関して捕捉されたＩＲ光との両方の組み合わせに基づいて予測される。

予測画像は、画像の予測ステレオ対のうちの一方となることができ、損失関数は、画像の予測ステレオ対間のステレオ差分に基づくステレオ損失を含むことができる。

ニューラルネットワークが完全畳み込みモデルに基づくことができる。
ニューラルネットワークを使用して合成関数を計算するステップは、左眼視点における合成関数を計算するステップと、右眼視点における合成関数を計算するステップとを含むことができる。

ニューラルネットワークを使用して合成関数を計算するステップをリアルタイムで実行することができる。

フレームにおけるシーンのカラー画像は、モザイク解除されたカラーチャネルを含むことができる。

フレームにおけるシーンのカラー画像は、３つの独立したデモザイク解除されないカラーチャネルを含むことができ、シーンのＮｅＲＦ表示の基礎となるビデオデータの捕捉されたフレームは、３つの独立した、デモザイク解除されないカラーチャネルを含む。

他の一般的な態様において、性能捕捉システムは、捕捉された３Ｄモデルの少なくとも１つの視点から再構成される少なくとも１つの画像をレンダリングするように構成される体積捕捉システムであって、少なくとも１つの画像が不完全性を含む、体積捕捉システムと、体積捕捉システムから少なくとも１つの画像を受信するとともに、少なくとも１つの受信された画像の不完全性が低減された少なくとも１つの強化画像をリアルタイムで生成するように構成されるレンダリングシステムとを含む。レンダリングシステムは、使用前のトレーニングによって少なくとも１つの強化画像を生成するように構成されるニューラルネットワークを含み、トレーニングは、トレーニング中にニューラルネットワークによって生成される予測画像と、トレーニング中に体積捕捉システムと調整された少なくとも１つのグランドトゥルースカメラによって捕捉される対応するグランドトゥルース画像との間の損失関数を最小化することを含み、損失関数の最小化は、ビデオデータの捕捉されたフレームに基づき、各捕捉されたフレームは、シーンのカラー画像、シーンが広視野ＩＲ光源によって照射されるときに捕捉されるシーンの広視野ＩＲ画像、およびシーンの複数の深度ＩＲ画像を含み、シーンが異なるパターンのＩＲ光点によって照射されるときに深度ＩＲ画像のそれぞれが捕捉される。

例示的な実施形態は、本明細書で与えられる以下の詳細な説明および添付図面からより完全に理解されるようになり、この場合、同様の要素が同様の参照番号で表わされ、これらは、例示のみを目的として与えられており、したがって例示的な実施形態を限定するものではない。

少なくとも１つの例示的な実施形態に係る性能捕捉システムのブロック図である。少なくとも１つの例示的な実施形態に係るレンダリングシステムのブロック図を示す。少なくとも１つの例示的な実施形態に係る３Ｄコンテンツシステムの一例のブロック図である。少なくとも１つの例示的な実施形態に係る３Ｄビデオのフレームをレンダリングするための方法を示す図である。少なくとも１つの例示的な実施形態に係る３Ｄビデオのフレームをレンダリングするための方法を示す図である。少なくとも１つの例示的な実施形態に係る学習モジュールシステムのブロック図である。少なくとも１つの例示的な実施形態に係るニューラル再レンダリングモジュールのブロック図である。スパース性制約を伴わない畳み込みニューラルネットワークの層を示す図である。スパース性制約を伴う畳み込みニューラルネットワークの層を示す図である。少なくとも１つの例示的な実施形態に係る低品質画像から視覚的に強化された再レンダリング画像を生成する深層学習技術を示す図である。少なくとも１つの例示的な実施形態に係る低品質画像から視覚的に強化された再レンダリング画像を生成する深層学習技術を示す図である。低品質画像の例を示す図である。少なくとも１つの例示的な実施形態に係る畳み込みニューラルネットワークモデルの例示的なトレーニングデータを示す図である。少なくとも１つの例示的な実施形態に係る再構成損失を示す図である。少なくとも１つの例示的な実施形態に係るマスク損失を示す図である。少なくとも１つの例示的な実施形態に係るヘッド損失を示す図である。少なくとも１つの例示的な実施形態に係るステレオ損失を示す図である。少なくとも１つの例示的な実施形態に係る時間的損失を示す図である。少なくとも１つの例示的な実施形態に係る顕著性損失を示す図である。少なくとも１つの例示的な実施形態に係るコンピュータデバイスおよびモバイルコンピュータデバイスの一例を示す。少なくとも１つの例示的な実施形態に係る立体視ディスプレイでコンテンツを提供する例示的な出力画像のブロック図である。本明細書に記載の技術を実装するプロセス１３００の概略フローチャートである。

これらの図は、特定の例示的な実施形態で利用される方法、構造、および／または材料の一般的な特徴を示し、以下に提供される書面による説明を補足することを意図していることに留意すべきである。しかしながら、これらの図面は縮尺通りではなく、所与の実施形態の正確な構造特性または性能特性を正確に反映していない場合があり、例示的な実施形態に包含される値または特性の範囲を定義または制限するものとして解釈されるべきではない。例えば、層、領域、および／または構造要素の相対的な厚さおよび位置は、明確にするために縮小または誇張されている場合がある。様々な図面における類似または同一の参照番号の使用は、類似または同一の要素または特徴の存在を示すことを意図している。

実施形態の詳細な説明
例示的な実施形態は、様々な修正および代替形態を含むことができるが、それらの実施形態は、例として図面に示され、本明細書で詳細に説明される。しかしながら、例示的な実施形態を開示された特定の形態に限定する意図はなく、逆に、例示的な実施形態は、特許請求の範囲内に含まれる全ての修正、等価物、および代替物を網羅するものであることを理解すべきである。図面の説明全体を通じて、同様の番号は同様の要素を指す。

既存のビューからシーンの新しいビューを合成する従来のアプローチは、ニューラル放射輝度場（ＮｅＲＦ）を使用する。このアプローチでは、静的シーンは、空間内の各点（ｘ，ｙ，ｚ）で各方向（θ，φ）に放射される放射輝度と、（ｘ，ｙ，ｚ）を通過する光線によって蓄積される放射輝度の量を制御する差分不透明度のように作用する各点の密度とを出力する連続５次元関数として表わすことができる。このアプローチは、単一の５Ｄ座標（ｘ，ｙ，ｚ，θ，φ）から単一の体積密度とビュー依存のＲＧＢカラーに回帰することによって５次元関数を表示するために、畳み込み層を伴わないディープ完全接続ニューラルネットワーク（ＭＬＰ）を最適化する。

この５次元関数、すなわちＮｅＲＦをレンダリングするために、１）シーンを通してカメラ光線を行進させて、サンプリングされた３Ｄ点のセットを生成し、２）それらの点およびそれらの対応する２Ｄ観察方向をニューラルネットワークへの入力として使用して、色および密度の出力セットを生成し、３）古典的な体積レンダリング技術を使用して、それらの色および密度を２Ｄ画像に蓄積することができる。このプロセスは必然的に微分可能であるため、勾配降下法を使用して、観察された各画像と表示からレンダリングされた対応するビューとの間のエラーを最小化することによってＮｅＲＦを最適化できる。複数のビューにわたってこのエラーを最小化すると、実際の基礎となるシーンコンテンツを含む場所に高い体積密度と正確な色とを割り当てることで、ネットワークがシーンの一貫したモデルを予測することが促進される。

ＮｅＲＦは連続的な体積表示である。それは、３Ｄ位置ｘ＝（ｘ，ｙ，ｚ）および観察方向ｄ＝（φ，θ）をＲＧＢカラーｃ＝（ｒ，ｇ，ｂ）および密度σにマッピングする関数Ｆ:（ｘ，ｄ）→（ｃ，σ）である。体積レンダリング技術と組み合わせると、ＮｅＲＦは写真のようにリアルな品質でシーンを表わすことができる。このため、ＮｅＲＦは、写真のようにリアルな人間捕捉の問題に取り組むために構築される。

ＮｅＲＦは非常に成功しているが、人間がいるシーンを本物のような画質で表わそうとすると、幾つかの不完全性が生じる可能性がある。例えば、シーンの特徴が、歪んだジオメトリ、貧弱なテクスチャリング、不正確な照明、不十分に分解されたエッジ、不正確な色などでレンダリングされる可能性がある。

これらの制限に対処するために、機械学習技術およびモデルを使用して、ＮｅＲＦの性能を向上させることができる。例えば、高品質のトレーニングデータを生成して使用し、ＮｅＲＦに基づいて低品質の画像から高品質の画像のレンダリングを改善するために使用される機械学習モデルをトレーニングすることができる。幾つかの実装形態では、トレーニングデータは、シーンのカラー（例えば、ＲＧＢ）画像に加えて、シーンの広視野赤外線画像、およびシーン内のオブジェクトに重ねられた複数の異なる赤外線パターンに基づくテクスチャデータを含むことができる。赤外広視野画像と赤外テクスチャデータは、シーンのＮｅＲＦを生成する機械学習モデルで使用できる。

性能捕捉リグ（すなわち、性能捕捉システム）は、被写体（例えば、人）およびその動きを３次元（３Ｄ）で捕捉するために使用され得る。性能捕捉リグは、３Ｄモデル（例えば、ＮｅＲＦ）を生成し、（場合によっては）ビューの体積再構成を使用して３Ｄ体積再構成（すなわち、画像）をレンダリングするために必要なデータを捕捉するように構成された体積捕捉システムを含むことができる。アクティブステレオカメラ、タイムオブフライト（ＴＯＦ）システム、ライダーシステム、パッシブステレオカメラなどを含む（ただしこれらに限定されない）、様々な体積捕捉システムを実装することができる。幾つかの実装形態では、単一の体積捕捉システムが使用され得るが、他の実施形態では、複数の体積捕捉システムが（例えば、調整された捕捉において）使用され得る。

体積再構成は、画像のビデオストリームを（例えば、リアルタイムで）レンダリングすることができ、左眼視点および右眼視点に対応する別個の画像をレンダリングすることができる。左眼視点および右眼視点の２Ｄ画像は、ステレオディスプレイに表示されてもよい。ステレオディスプレイは、ヘッドトラッキングステレオディスプレイであってもよい。拡張現実（ＡＲ）メガネディスプレイ、仮想現実（ＶＲ）ヘッドセットディスプレイ、自動ステレオディスプレイ（例えば、ヘッドトラッキング自動ステレオディスプレイ）を含む（ただしこれらに限定されない）、様々なステレオディスプレイが実装され得る。幾つかの実装形態では、ステレオディスプレイは、第１の場所にいる人の非常に現実的なレンダリングを第２の場所にいる人に提示できるテレプレゼンスシステムで使用され得る。

レンダリングされた２Ｄ画像および／またはステレオディスプレイ上のそれらの表示には、不完全性（すなわちアーチファクト）が存在する可能性がある。アーチファクトには、強度ノイズ、低解像度のテクスチャ、オフカラーなどのグラフィックアーチファクトが含まれる場合がある。アーチファクトには、一貫性のない左右のビューなどのステレオアーチファクトがさらに含まれる場合がある。アーチファクトは、性能捕捉リグに関連する制限／問題によるものである可能性がある。例えば、複雑さやコストの制約により、性能捕捉リグで収集できるデータが制限される場合がある。また、アーチファクトは、３Ｄ画像をレンダリングできるようにするための深度情報の収集と送信に関連する制限／問題が原因である可能性がある。さらに、アーチファクトは、ネットワーク上のデータ転送に関連する制限（帯域幅など）が原因である可能性がある。本開示は、アーチファクトの発生源に関係なく、アーチファクトを低減または除去するシステムおよび方法について説明する。したがって、開示されたシステムおよび方法は、いかなる特定の性能捕捉システムまたはステレオディスプレイにも限定されない。

想定し得る一実装形態では、既存の性能捕捉システムに関連する技術的問題により、穴、ノイズ、低解像度のテクスチャ、およびカラーアーチファクトを含む３Ｄ体積再構成画像が生じる可能性がある。これらの技術的問題により、ＶＲおよびＡＲアプリケーションにおけるユーザエクスペリエンスが望ましくないものになる可能性がある。

前述の技術的問題に対する技術的解決策は、リアルタイムで体積ビデオを強化する機械学習を実装する。幾何学的な非剛体再構成パイプラインを深層学習と組み合わせて、より高品質の画像を生成できる。開示されたシステムは、視覚的に顕著な領域（例えば、人間の顔）に焦点を合わせ、背景が正確に画定されている背景などの無関係な情報を破棄することができ、シーンから収集された可視光（色）情報および赤外（ＩＲ）光情報を含むマルチスペクトル情報を使用して、高品質の画像を生成することができる。説明されている解決策は、最適なユーザエクスペリエンスを実現するために左右のビューが一貫している必要があるＶＲおよびＡＲアプリケーションでの実装に関して、時間的に安定したレンダリングを生成できる。

技術的解決策は、リアルタイムで近似の幾何学形状およびテクスチャを取得するためのリアルタイム性能捕捉（すなわち、画像および／またはビデオ捕捉）を含むことができる。そのようなシステムの最終的な２Ｄレンダリング出力は、幾何学的アーチファクト、貧弱なテクスチャリング、および不正確な照明により低品質になる可能性がある。したがって、実装例では深層学習を使用して最終レンダリングを強化し、リアルタイムで高品質の結果を達成できる。例えば、ディファードシェーディングディープバッファおよび／またはマルチビュー性能捕捉システムからの最終的な２Ｄレンダリング画像を入力として受け取り、そのような画像をリアルタイムで強化することを学習して、最終的な高品質の再レンダリングを生成するディープラーニングアーキテクチャ（図７Ａおよび７Ｂを参照）を使用することができる。このアプローチはニューラル再レンダリングと呼ばれる。

本明細書では、ニューラル再レンダリング技術について説明する。ニューラル再レンダリング技術を使用する技術的な利点には、画像に穴、ノイズ、低解像度のテクスチャ、色のアーチファクトが含まれる性能捕捉システムからの低品質の出力をリアルタイムで強化する方法を学習できることが含まれる。低品質画像の幾つかの例を図８に示す。さらに、ユーザを残りの背景から分離するバイナリセグメンテーションマスクを予測できる。ニューラル再レンダリング技術を使用する技術的な利点には、学習段階で低解像度の入力画像から高解像度の出力レンダリングへのマッピングをネットワークに学習させ、その後、ライブ性能捕捉システムからの低解像度画像（強化された画像など）を使用することにより、そのようなディープアーキテクチャに必要な全体の帯域幅と計算量を削減する方法も含まれる。

ニューラル再レンダリング技術を使用する技術的な利点には、意味情報を使用して顔上に高品質の結果を生成できる特殊な損失関数も含まれる。外れ値の影響を軽減するには、最も関連性の高い領域の損失に焦点を当てる顕著性の再重み付けスキームを使用できる。損失関数はＶＲおよびＡＲヘッドセットのために設計されており、その目標は同じオブジェクトの２つの一貫したビューを予測することである。ニューラル再レンダリング技術を使用する技術的な利点には、連続して再構築されたフレーム間の一貫性を強化することにより、時間的に安定した再レンダリングが可能になることも含まれる。

図１は、少なくとも１つの例示的な実施形態に係る性能捕捉システム（すなわち、捕捉システム）のブロック図を示す。図１に示されるように、捕捉システム１００は、ウィットネスカメラを伴う３Ｄカメラリグ１１０、エンコーダ１２０、デコーダ１３０、レンダリングモジュール１４０および学習モジュール１５０を含む。ウィットネスカメラを伴うカメラリグ１１０は、ビデオデータ５として３Ｄビデオを捕捉するために使用される第１のカメラセットと、少なくとも１つの観点から、グランドトゥルース画像データ３０として高品質（例えば、第１のカメラセットと比較して）画像を捕捉するために使用される少なくとも１つのウィットネスカメラを含む。カメラリグはまた、例えば深度および／またはテクスチャ情報を決定するため、および／または背景からシーン内のオブジェクトまたは被写体を区別するために使用され得る赤外線（ＩＲ）を捕捉するための赤外線センサを含むこともできる。グランドトゥルース画像データ３０は、３Ｄビデオに関連付けられたフレームまたは画像と比較して、より詳細な画像（例えば、より高い精細度、より高い解像度、より高いピクセル数、より多くの／より優れた深度情報の追加など）および／または画質を改善するための捕捉後処理を含む画像であり得る。グランドトゥルース画像データ３０は、グランドトゥルース画像（のセット）、画像のラベル、画像セグメンテーション情報、画像および／またはセグメント分類情報、位置情報などを含むことができる。グランドトゥルース画像データ３０は、ニューラルネットワークモデルをトレーニングするために学習モジュール１５０によって使用される。グランドトゥルース画像データ３０の各画像は、ビデオデータ５の対応するフレームを有することができる。

エンコーダ１２０は、第１のカメラセットによって捕捉された３Ｄビデオを圧縮するように構成することができる。エンコーダ１２０は、ビデオデータ５を受信し、標準的な圧縮技術を使用して圧縮ビデオデータ１０を生成するように構成することができる。デコーダ１３０は、圧縮ビデオデータ１０を受信し、標準圧縮技術の逆を使用して再構成ビデオデータ１５を生成するように構成することができる。図１に示す一点鎖線は、代替実装形態において、エンコーダ１２０およびデコーダ１３０をバイパスすることができ、ビデオデータ５をレンダリングモジュール１４０に直接入力できることを示している。これにより、捕捉システム１００によって使用される処理リソースを削減することができる。しかしながら、学習モジュール１５０は、トレーニングプロセスにおける圧縮および解凍によって導入されるエラーを含まなくてもよい。

レンダリングモジュール１４０は、再構成されたビデオデータ１５（またはビデオデータ５）に基づいて左眼ビュー２０および右眼ビュー２５を生成するように構成される。左眼ビュー２０は、ヘッドマウントディスプレイ（ＨＭＤ）の左眼ディスプレイ上に表示される画像であり得る。右眼ビュー２５は、ＨＭＤの右眼ディスプレイ上に表示される画像であり得る。レンダリングは、デジタル画像を生成するために、再構成されたビデオデータ１５（またはビデオデータ５）に関連付けられたシーンの３Ｄモデル（例えば、シーンのＮｅＲＦ）を処理することを含むことができる。３Ｄモデルは、例えば、シェーディング情報、照明情報、テクスチャ情報、幾何学情報などを含むことができる。レンダリングは、グラフィカルプロセッシングユニット（ＧＰＵ）によるレンダリングアルゴリズムを実装することを含むことができる。したがって、レンダリングは３ＤモデルをＧＰＵに渡すことを含むことができる。

学習モジュール１５０は、可視波長範囲およびＩＲ波長範囲を含み得る異なる波長範囲で捕捉された画像を含み得る、１つ以上の低品質画像に基づいて高品質画像を生成するようにニューラルネットワークまたはモデルをトレーニングするように構成され得る。例示的な実装形態では、画像は、ニューラルネットワークまたはモデルを使用して、左眼ビュー２０（または右眼ビュー２５）に基づいて反復的に予測される。その後、予測画像の各反復は、損失関数が最小になるまで（または閾値未満になるまで）、損失関数を使用して、グランドトゥルース画像データ３０から選択された対応する画像と比較される。学習モジュール１５０については、以下でより詳細に説明する。

図２Ａは、少なくとも１つの例示的な実施形態に係るレンダリングシステムのブロック図を示す。図２Ａに示すように、レンダリングシステム２００は、デコーダ１３０、レンダリングモジュール１４０、およびニューラル再レンダリングモジュール２１０を含む。図２Ａに示されるように、圧縮ビデオデータ１０は、デコーダ１３０によって解凍されて、再構成されたビデオデータ１５が生成される。その後、レンダリングモジュール１４０が、再構成されたビデオデータ１５に基づいて左眼ビュー２０および右眼ビュー２５を生成する。

ニューラル再レンダリングモジュール２１０は、左眼ビュー２０に基づいて再レンダリングされた左眼ビュー３５を生成し、右眼ビュー２５に基づいて再レンダリングされた右眼ビュー４０を生成するように構成される。ニューラル再レンダリングモジュール２１０は、学習モジュール１５０によってトレーニングされたニューラルネットワークまたはモデルを使用して、再レンダリングされた左眼ビュー３５を左眼ビュー２０のより高品質の表示として生成するように構成される。ニューラル再レンダリングモジュール２１０は、学習モジュール１５０によってトレーニングされたニューラルネットワークまたはモデルを使用して、右眼ビュー２５のより高品質な表示として再レンダリングされた右眼ビュー４０を生成するように構成される。ニューラル再レンダリングモジュール２１０については、以下でより詳細に説明する。

図１に示す捕捉システム１００は、強化されたビデオレンダリング技術の第１段階（または段階１）となることができ、図２Ａに示すレンダリングシステム２００は、強化されたビデオレンダリング技術の第２段階（または段階２）となり得る。図３Ａ（段階１）および図３Ｂ（段階２）は、少なくとも１つの例示的な実施形態に係る３Ｄビデオのフレームをレンダリングする方法を示す。図３Ａおよび図３Ｂに関して説明したステップは、装置および／またはサービス（例えば、クラウドコンピューティングサービス）に関連付けられたメモリに格納され、装置および／またはサービスに関連付けられた少なくとも１つのプロセッサによって実行されるソフトウェアコードの実行によって行なわれ得る。しかしながら、専用プロセッサとして実現されるシステムなどの代替実施形態も考えられる。以下に説明するステップはプロセッサによって実行されるものとして説明されているが、各ステップは必ずしも同じプロセッサによって実行される必要はない。換言すれば、少なくとも１つのプロセッサは、図３Ａおよび図３Ｂに関して以下に説明するステップを実行することができる。

図２Ｂは、少なくとも１つの例示的な実施形態に係る３Ｄコンテンツシステムの一例のブロック図を示す。３Ｄコンテンツシステム２０１は、複数の人が使用することができる。ここで、３Ｄコンテンツシステム２０１は、第１の人２０２および第２の人２０４によって使用されている。例えば、第１の人２０２および第２の人２０４は、３Ｄテレプレゼンスセッションに参加するために３Ｄコンテンツシステム２０１を使用している。そのような例では、３Ｄコンテンツシステム２０１は、人２０２，２０４の各々が互いの非常に現実的で視覚的に一致した表示を見ることができるようにし、それによって、物理的にお互いに存在しているのと同様に、彼らが互いに対話することを容易にする。

人２０２，２０４の各々は、対応する３Ｄポッドを有することができる。ここで、第１の人２０２はポッド２０６を有し、第２の人２０４はポッド２０８を有する。ポッド２０６および２０８は、３Ｄ表示用の画像の捕捉、画像情報の処理および提示、および音声情報の処理および提示を含むがこれらに限定されない、３Ｄコンテンツに関連する機能を提供することができる。ポッド２０６および／または２０８は、１つのユニットとして統合されたプロセッサおよび感知デバイスの集合を含むことができる。

３Ｄコンテンツシステム２０１は、１つ以上の３Ｄディスプレイを含むことができる。ここで、３Ｄディスプレイ２１０がポッド２０６に提供され、３Ｄディスプレイ２１２がポッド２０８に提供される。３Ｄディスプレイ２１０および／または２１２は、複数のタイプの３Ｄディスプレイ技術のいずれかを使用して、それぞれの観察者（ここでは、例えば人２０２または２０４）に立体視を提供することができる。幾つかの実装形態では、３Ｄディスプレイ２１０および／または２１２は、スタンドアロンユニット（例えば、自立型または壁に吊り下げられたユニット）を含むことができる。幾つかの実装形態では、３Ｄディスプレイ２１０および／または２１２は、ウェアラブル技術（例えば、ヘッドマウントディスプレイ）を含むことができる。幾つかの実施形態では、３Ｄディスプレイ２１０および／または２１２は自動立体ディスプレイアセンブリを含むことができる。

３Ｄコンテンツシステム２０１は、１つ以上のネットワークに接続することができる。ここで、ネットワーク２１４は、ポッド２０６およびポッド２０８に接続される。ネットワーク２１４は、２つの例を挙げると、公的に利用可能なネットワーク（例えば、インターネット）またはプライベートネットワークであり得る。ネットワーク２１４は、有線、無線、またはその２つの組み合わせであり得る。ネットワーク２１４は、１つ以上のサーバ（図示せず）を含むが、これに限定されない、１つ以上の他のデバイスもしくはシステムを含むか、またはそれらを利用することができる。

ポッド２０６および／または２０８は、３Ｄ情報の捕捉、処理、送信もしくは受信、および／または３Ｄコンテンツのプレゼンテーションに関連する複数の構成要素を含むことができる。ポッド２０６および２０８は、可視光および／またはＩＲ光でシーンの対象物（例えば、第１および第２の人２０２、２０４）を照明するための１つ以上の照明源と、３Ｄプレゼンテーションに含まれる画像を生成するために画像コンテンツを捕捉するためのカメラとを含むことができる。幾つかの実装形態では、照明源は、回折光学素子（ＤＯＥ）を通して光り、撮像されるべきシーンを照明するＩＲレーザ光点のパターンを生成するＩＲレーザを含むことができる。ＩＲレーザ光点のパターンは、シーンの可視画像が捕捉されるフレームレートと同期した周期で周期的に生成することができるため、ＩＲレーザ光点のパターンのＩＲ画像は、シーンのカラー画像を取得してから１／２０秒以内に取得することができる。ＩＲレーザ光点を使用して、捕捉された画像からシーン内の深度情報を決定して割り当てることができる。幾つかの実装形態では、レーザ光点の複数の異なる（例えば、非縮退）パターンを生成し、シーンを照明するために使用することができ、異なるパターンのそれぞれは、シーンの可視画像が捕捉されるフレームレートと同期した周期で周期的に生成され、その結果、ＩＲレーザ光点の異なるパターンのそれぞれのＩＲ画像が、シーンのカラー画像を取得してから１／２０秒以内に取得され得る。複数のパターンを使用すると、複数のパターンからのより豊富な情報を使用して、シーン内のオブジェクトのより適切な深度データを生成できる。

また、シーンは、広角にわたってほぼ均一なＩＲ光強度を提供する１つ以上のＩＲ照明源からの広視野の非パターン化ＩＲ光で照明することができ、シーンのＩＲ画像を取得することができる。１つ以上の照明源からの広視野の非パターン化ＩＲ光は、シーンの可視画像が捕捉されるフレームレートと同期した周期で周期的に生成することができ、シーンが広視野の非パターン化ＩＲ光で照明されている間にシーンのＩＲ画像（すなわち、「ガイド」画像）を捕捉することができ、その結果、シーンの広視野ＩＲ画像は、シーンのカラー画像を取得してから１／２０秒以内に取得することができる。被写体２０２、２０４の画像が捕捉される環境は、ＩＲ光に対して高い反射率を有する背景２４０、２４２を含むことができ、その結果、被写体２０２、２０４のＩＲ画像を使用して、捕捉された画像内の被写体のエッジを背景から区別することができる。背景２４０、２４２は、ＩＲ光の反射率が高い材料を含む布地材料を含むことができる。例えば、布地は、布地に織り込まれた金属材料（例えば、金属繊維）を含むことができる。別の例では、布地材料の繊維は、例えば、金属酸化物、セラミック材料、または無機材料を含み得るＩＲ反射顔料（ＩＲＰ）でコーティングされてもよい。

ここで、ポッド２０６はカメラ２１６および２１８を含み、カメラ２１６および２１８のそれぞれは、可視色およびＩＲ波長を含む１つ以上の波長範囲の光を検出することができる。例えば、カメラ２１６および／または２１８は、本質的にポッド２０６のハウジング内に配置され、それぞれのカメラ２１６および／または２１８の対物レンズまたはレンズがハウジング内の１つ以上の開口部を介して画像コンテンツを捕捉することができる。幾つかの実装形態では、カメラ２１６および／または２１８は、（例えば、ポッド２０６への有線および／または無線接続を備えた）スタンドアロンデバイスの形態など、ハウジングから分離することができる。カメラ２１６および２１８は、人２０２の（ここでの）十分に代表的なビューを捕捉するように位置決めおよび／または方向付けることができる。カメラ２１６および２１８は、人２０２に対する３Ｄディスプレイ２１０のビューを遮らないことが好ましいが、カメラ２１６および２１８の配置は一般に任意に選択することができる。例えば、カメラ２１６および２１８のうちの１つは人２０２の顔の上のどこかに配置することができ、もう１つは顔の下のどこかに配置することができる。例えば、カメラ２１６および２１８のうちの一方を人２０２の顔の右側のどこかに配置し、他方を顔の左側のどこかに配置することができる。ポッド２０８は、同様の方法で、例えばカメラ２２０および２２２を含むことができる。

可視光を検出するカメラ２２０および２２２は、光センサセンサアレイおよびカラーフィルタを含むことができ、センサの個々のピクセルが光の異なる波長を検出できるようにする。例えば、各ピクセルは、光の赤（Ｒ）、緑（Ｇ）、および青（Ｂ）の波長を検出するためのサブピクセルを含む。ピクセルのサブピクセルによって検出された光信号は、モザイク解除プロセスを通じて処理され、ピクセルに色を割り当てることができます。幾つかの実装形態では、サブピクセルによって検出された光信号は、独立したＲ、Ｇ、およびＢチャネルデータを、パイプニューラル再レンダリングモジュール２１０を介して１つのポッド２０６から別のポッド２０８に送信する前に、モザイク解除プロセスを通じて処理されない。むしろ、独立したＲ、Ｇ、およびＢチャネルデータは、受信ポッドでニューラル再レンダリングモジュール２１０によって処理されて、表示される画像を生成する。

ポッド２０６および／または２０８は、３Ｄプレゼンテーションで使用される深度データを捕捉するための１つ以上の深度センサを含むことができる。そのような深度センサ（例えば、ＩＲ感知カメラ）は、ポッド２０６および／または２０８によって捕捉されたシーンを特徴付けて３Ｄディスプレイ上に正確に表示するために使用される３Ｄコンテンツシステム２０１の深度捕捉構成要素の一部と考えることができる。また、システムは観察者の頭の位置と方向を追跡できるため、観察者の現在の視点に対応する外観で３Ｄプレゼンテーションをレンダリングできる。ここで、ポッド２０６は深度センサ２２４を含む。同様に、ポッド２０８は深度センサ２２４を含むことができる。深度データを生成するために、複数の種類の深度センシングまたは深度捕捉のいずれかを使用することができる。幾つかの実装形態では、支援付きステレオ深度捕捉が実行される。シーンは、深度センサ２２４に含まれるレーザおよびＤＯＥによって生成できるＩＲ光点のパターンを使用して照明することができ、２台のそれぞれのカメラ間でステレオマッチングを実行することができる。ここで、深度センサ２２４は、例示として、ＩＲビーム２２８Ａおよび２２８を使用して動作し、ビーム２２８Ａおよび２２８は、点のパターンを生成する複数のビームを表わす。ビーム２２８Ａおよび２２８Ｂは、場合に応じて、ポッド２０６から、３Ｄ捕捉されているシーン内の構造物または他のオブジェクト（例えば、人２０２）に向かって、および／またはそのような構造物／オブジェクトからポッド２０６内の対応する検出器に進むことができる。検出された信号を処理して、シーンの一部または全体に対応する深度データを生成することができる。したがって、ビーム２２８Ａ－Ｂは、３Ｄ表示の目的でシーンを特徴付けるために３Ｄコンテンツシステム２０１が依存する信号に関連すると考えることができる。例えば、ビーム２２８Ａ－Ｂは、ＩＲ信号を含むことができる。同様に、ポッド２０８は、一例として、ビーム２３０Ａ－Ｂを使用して動作することができる。

深度データは、深度センサ（例えば、深度センサ２２４）とシーン内のオブジェクトとの間の距離を反映するシーンに関する情報を含むか、またはそれに基づくことができる。深度データは、シーン内のオブジェクトに対応する画像内のコンテンツについて、オブジェクトまでの距離（または深度）を反映する。例えば、カメラと深度センサの間の空間的関係を知ることができ、カメラからの画像を深度センサからの信号と相関させて画像の深度データを生成するために使用することができる。

幾つかの実装形態では、深度捕捉は、構造化光またはコード化光に基づくアプローチを含むことができる。例えば、ＩＲ光のパターン（例えば、ドットのパターンまたは縞模様のパターン）を比較的高いフレームレートでシーン上に分配することができる。例えば、光信号が時間的に互いに十分に近く、人やオブジェクトが動いている場合でも、連続する信号間でシーンが大幅に変化すると予想されない場合、フレームレートが高いと考えられる。シーン内のオブジェクトに投影される結果のパターンは、深度センサ内のＩＲ感知カメラによって検出でき、検出されたパターンは、１つ以上の点でシーンの幾何学形状を決定するために（例えば、三角測量またはその他の技術を使用して）処理できる。

幾つかの実装形態では、ポッド２０６，２０８のカメラによって捕捉されたシーンのビデオデータのカラー画像フレームごとに、例えば人２０２，２０４を含むシーンのビデオデータを捕捉するとき、そのシーンの少なくとも１つの対応する広視野ＩＲ画像を捕捉することができ、複数の深度ＩＲ画像を捕捉することができ、複数の深度ＩＲ画像のそれぞれは、シーン上の異なるパターンのＩＲ点のＩＲ画像を捕捉する。その後、捕捉されたビデオデータを使用して、ビデオデータのフレームごとに機械学習モデルをトレーニングできる。次いで、トレーニングされたモデルを使用して、低品質ビデオデータのそれぞれのフレームごとに捕捉されたシーンのカラー画像、広視野ＩＲ画像、および複数の深度ＩＲ画像に基づいて、ビデオデータの低品質フレームからビデオデータの強化品質フレームを生成することができる。

３Ｄコンテンツシステム２０１によって捕捉された画像は、処理され、その後、３Ｄプレゼンテーションとして表示され得る。ここで、３Ｄ画像２０４’は、３Ｄディスプレイ２１０上に提示される。したがって、人２０２は、３Ｄ画像２０４’を、人２０２から遠隔にいる可能性がある人２０４の３Ｄ表示として認識することができる。３Ｄ画像２０２’は、３Ｄディスプレイ２１２上に提示される。そのため、人２０４は、３Ｄ画像２０２’を人２０２の３Ｄ表示として認識することができる。３次元情報処理の例を以下に説明する。

３Ｄコンテンツシステム２０１は、参加者（例えば、人２０２および２０４）が互いにおよび／または他者と音声通信を行なうことができるようにし得る。幾つかの実装形態では、ポッド２０６は、スピーカおよびマイクロフォン（図示せず）を含む。例えば、ポッド２０８は同様にスピーカおよびマイクロフォンを含むことができる。したがって、３Ｄコンテンツシステム２０１は、人２０２および２０４が互いにおよび／または他の人と３Ｄテレプレゼンスセッションに参加することができるようにし得る。

図３Ａは、ビデオ画像を生成するために機械学習モデルをトレーニングするプロセスの概略フローチャートである。図３Ａに示されるように、ステップＳ３０５において、少なくとも１つのウィットネスカメラを含むカメラリグを使用して、第１の３次元（３Ｄ）ビデオの複数のフレームが捕捉される。３Ｄビデオデータのフレームの捕捉には、シーンの少なくとも１つのカラー画像の捕捉、シーンが広視野ＩＲ光源によって照明されるときのシーンの少なくとも１つのＩＲ画像の捕捉、およびシーンの複数のＩＲ画像の捕捉が含まれ、シーンが異なるパターンのＩＲ光点によって照明されるときに各ＩＲ画像が捕捉される。幾つかの実装形態では、シーンの捕捉されたカラー画像は、モザイク解除された画像であってもよい。幾つかの実装形態では、シーンの捕捉されたカラー画像は、画像の各ピクセルに対する少なくとも３つの独立したカラーチャネル（例えば、赤、緑、および青）の生データ（すなわち、モザイク解除されていない）を含むことができる。例えば、カメラリグ（例えば、ウィットネスカメラ１１０を備えた３Ｄカメラリグ）は、３Ｄビデオ（例えば、可視画像データおよびＩＲ画像データ）を捕捉するために使用される第１のカメラセットと、（例えば、第１のカメラセットと比較して）高品質の画像（例えば、グランドトゥルース画像データ３０）を捕捉するために使用される少なくとも１つのウィットネスカメラとを含むことができる。第１の３Ｄビデオの複数のフレームは、第１のカメラセットによって捕捉されたビデオデータであり得る。

ステップＳ３１０では、少なくとも１つのウィットネスカメラを使用して、第１の３Ｄビデオの複数のフレームのそれぞれについて少なくとも１つの２次元（２Ｄ）グランドトゥルース画像が捕捉される。例えば、少なくとも１つの２Ｄグランドトゥルース画像は、少なくとも１つのウィットネスカメラによって捕捉された高品質画像であり得る。少なくとも１つの２Ｄグランドトゥルース画像は、第１の３Ｄビデオの複数のフレームのうちの対応するフレームと実質的に同じ瞬間に捕捉され得る。

ステップＳ３１５では、第１の３Ｄビデオの複数のフレームのうちの少なくとも１つが圧縮される。例えば、第１の３Ｄビデオの複数のフレームのうちの少なくとも１つは、標準的な圧縮技術を使用して圧縮される。ステップＳ３２０において、第１の３Ｄビデオの複数のフレームのうちの少なくとも１つのフレームが解凍される。例えば、第１の３Ｄビデオの複数のフレームのうちの少なくとも１つは、標準圧縮技術に対応する標準解凍技術を使用して解凍される。

ステップＳ３２５では、少なくとも１つの第１の２Ｄ左眼ビュー画像が解凍されたフレームに基づいてレンダリングされ、少なくとも１つの第１の２Ｄ右眼ビュー画像が解凍されたフレームに基づいてレンダリングされる。例えば、解凍された第１の３Ｄビデオ（例えば、再構成されたビデオデータ１５）のフレームに対応するシーンの３ＤモデルがＧＰＵに通信される。ＧＰＵは、シーンの３Ｄモデルに基づいてデジタル画像（例えば、左眼ビュー２０および右眼ビュー２５）を生成し、デジタル画像を第１の２Ｄ左眼ビューおよび第１の２Ｄ右眼ビューとして返すことができる。

ステップＳ３３０では、ヘッドマウントディスプレイ（ＨＭＤ）の左眼ビューのモデルが、レンダリングされた第１の２Ｄ左眼ビュー画像および対応する２Ｄグランドトゥルース画像に基づいてトレーニングされ、ＨＭＤの右眼ビューのモデルが、レンダリングされた第１の２Ｄ右眼ビュー画像および対応する２Ｄグランドトゥルース画像に基づいてトレーニングされる。このモデルは、可視チャネル内の情報だけでなく、ＩＲチャネル内の情報に基づく（例えば、広視野およびパターン化されたＩＲ照明の下で捕捉されたシーンの画像に基づく）。例えば、画像は、ニューラルネットワークまたはモデルを使用して、第１の２Ｄ左眼ビューに基づいて反復的に予測される。その後、損失関数が最小化される（または閾値を下回る）まで、損失関数を使用して、予測画像の各反復が対応する２Ｄグランドトゥルース画像と比較される。さらに、ニューラルネットワークまたはモデルを使用して、第１の２Ｄ右眼ビューに基づいて画像が繰り返し予測される。その後、損失関数が最小化される（または閾値を下回る）まで、損失関数を使用して、予測画像の各反復が対応する２Ｄグランドトゥルース画像と比較される。

図３Ｂは、圧縮画像データおよびトレーニングされた機械学習モデルに基づいて画像を生成およびレンダリングするプロセスの概略フローチャートである。圧縮画像データおよびモデルは、可視チャネル内の情報だけでなく、ＩＲチャネル内の情報に基づく（例えば、広視野およびパターン化されたＩＲ照明の下で捕捉されたシーンの画像に基づく）。図３Ｂに示されるように、ステップＳ３３５において、第２の３Ｄビデオに対応する圧縮ビデオデータが受信される。例えば、３Ｄカメラリグを使用して捕捉されたビデオデータは、リモートデバイスで（例えば、遠隔地にあるコンピューティングデバイスによって）第２の３Ｄビデオとして捕捉され、圧縮され、通信される。この圧縮された第２の３Ｄビデオはローカルデバイスによって受信される。第２の３Ｄビデオは第１の３Ｄビデオとは異なり得る。

ステップＳ３４０では、第２の３Ｄビデオに対応するビデオデータが解凍される。例えば、第２の３Ｄビデオ（例えば、圧縮ビデオデータ１０）は、リモートデバイスによって使用される標準圧縮技術に対応する標準解凍技術を使用して解凍される。

ステップＳ３４５において、第２の３Ｄビデオのフレームが選択される。例えば、解凍された第２の３Ｄビデオの次のフレームを、第２の３Ｄビデオを再生するＨＭＤ上に表示するために選択することができる。これに代えてまたは加えて、第２の３Ｄビデオの再生には、ビデオフレームのバッファまたはキューを利用できる。したがって、第２の３Ｄビデオのフレームを選択することは、バッファリングまたはキューイング技術（例えば、ＦＩＦＯ、ＬＩＦＯなど）に基づいてキューからフレームを選択することを含むことができる。

ステップＳ３５０では、第２の２Ｄ左眼ビュー画像が選択されたフレームに基づいてレンダリングされ、第２の２Ｄ右眼ビュー画像が選択されたフレームに基づいてレンダリングされる。例えば、解凍された第２の３Ｄビデオ（例えば、再構成されたビデオデータ１５）のフレームに対応するシーンの３ＤモデルがＧＰＵに通信される。ＧＰＵは、シーンの３Ｄモデルに基づいてデジタル画像（例えば、左眼ビュー２０および右眼ビュー２５）を生成し、デジタル画像を第２の２Ｄ左眼ビューおよび第２の２Ｄ右眼ビューとして返すことができる。

ステップＳ３５５において、第２の２Ｄ左眼ビュー画像は、畳み込みニューラルネットワークアーキテクチャおよびＨＭＤの左眼ビュー用のトレーニングされたモデルを使用して再レンダリングされ、第２の２Ｄ右眼ビュー画像は、畳み込みニューラルネットワークアーキテクチャおよびＨＭＤの右眼ビュー用のトレーニングされたモデルを使用して再レンダリングされる。例えば、段階１でトレーニングされたニューラルネットワークまたはモデルは、第２の２Ｄ左眼ビュー（例えば、左眼ビュー２０）のより高品質な表示として、再レンダリングされた第２の２Ｄ左眼ビュー（例えば、再レンダリングされた左眼ビュー３５）を生成するために使用され得る。段階１でトレーニングされたニューラルネットワークまたはモデルは、第２の２Ｄ右眼ビュー（例えば、右眼ビュー２５）のより高品質な表示として、再レンダリングされた第２の２Ｄ右眼ビュー（例えば、再レンダリングされた右眼ビュー３５）を生成するために使用され得る。その後、ステップＳ３６０において、再レンダリングされた第２の２Ｄ左眼ビュー画像および再レンダリングされた第２の２Ｄ右眼ビュー画像が、ＨＭＤの少なくとも１つのディスプレイに表示される。

図４は、少なくとも１つの例示的な実施形態に係る学習モジュールシステムのブロック図を示す。学習モジュール１５０は、少なくとも１つのコンピューティングデバイスであるか、またはそれを含むことができ、本明細書で説明される方法を実行するように構成された事実上任意のコンピューティングデバイスを表すことができる。したがって、学習モジュール１５０は、本明細書で説明される技術、またはその異なるバージョンまたは将来のバージョンを実装するために利用できる様々な構成要素を含むことができる。一例として、学習モジュール１５０は、少なくとも１つのプロセッサ４０５、および少なくとも１つのメモリ４１０（例えば、非一時的なコンピュータ可読媒体）を含むものとして示される。

図４に示されるように、学習モジュール１５０は、少なくとも１つのプロセッサ４０５および少なくとも１つのメモリ４１０を含む。少なくとも１つのプロセッサ４０５および少なくとも１つのメモリ４１０は、バス４１５を介して通信可能に結合される。少なくとも１つのプロセッサ４０５は、少なくとも１つのメモリ４１０に記憶された命令を実行するために利用されてもよく、それによって、本明細書に記載される様々な特徴および機能、または追加もしくは代替の特徴および機能を実装することができる。少なくとも１つのプロセッサ４０５および少なくとも１つのメモリ４１０は、他の様々な目的に利用することができる。特に、少なくとも１つのメモリ４１０は、本明細書で説明されるモジュールのいずれか１つを実装するために使用され得る、様々なタイプのメモリおよび関連ハードウェアおよびソフトウェアの一例を表すことができる。

少なくとも１つのメモリ４１０は、学習モジュールシステム１５０に関連するデータおよび／または情報を記憶するように構成され得る。例えば、少なくとも１つのメモリ４１０は、モデル４２０、複数の係数４２５、および複数の損失関数４３０を記憶するように構成され得る。少なくとも１つのメモリ４１０は、メトリクスモジュール４３５および列挙モジュール４５０をさらに含む。メトリクスモジュール４３５は、複数のエラー定義４４０およびエラー計算機４４５を含む。

例示的な実装形態では、少なくとも１つのメモリ４１０は、少なくとも１つのプロセッサ４０５によって実行されるときに少なくとも１つのプロセッサ４０５に複数の係数４２５のうちの１つ以上を選択させて通信させるコードセグメントを記憶するように構成され得る。さらに、少なくとも１つのメモリ４１０は、少なくとも１つのプロセッサ４０５によって実行されるときに少なくとも１つのプロセッサ４０５に学習モジュール１５０システムによって使用される情報を受信させて、新しい係数４２５を生成するおよび／または既存の係数４２５を更新するコードセグメントを記憶するように構成され得る。少なくとも１つのメモリ４１０は、少なくとも１つのプロセッサ４０５によって実行されるときに、少なくとも１つのプロセッサ４０５に、学習モジュール１５０によって使用される情報を受信させて新しいモデル４２０を生成するおよび／または既存のモデル４２０を更新するコードセグメントを記憶するように構成され得る。

モデル４２０は、少なくとも１つのニューラルネットワークモデルを表わす。ニューラルネットワークモデルは、ニューラルネットワークの動作、動作の流れ、および／または動作間の相互接続を定義できる。例えば、演算には、正規化、パディング、畳み込み、丸めなどを含めることができる。モデルは動作を定義することもできる。例えば、畳み込みは、フィルタの数Ｃ、空間範囲（またはフィルタサイズ）Ｋ×Ｋ、およびストライドＳによって定義できる。畳み込みは正方形である必要はない。例えば、空間範囲はＫ×Ｌにすることができる。畳み込みニューラルネットワークのコンテキスト（図６Ａおよび図６Ｂ参照）では、畳み込みニューラルネットワーク内の各ニューロンはフィルタを表わすことができる。したがって、層ごとに８つのニューロンを持つ畳み込みニューラルネットワークは、１つ（１）の層を使用する８個のフィルタ、２つ（２）の層を使用する１６個のフィルタ、３つ（３）の層を使用する２４個のフィルタ...８つの層を使用する６４個のフィルタ...１６層を使用する１２８個のフィルタなどを有することができる。畳み込みニューラルネットワークでは、１つの層が任意の数のニューロンを有することができる。

畳み込みニューラルネットワークは、異なる数のニューロンを有する層を有することができる。Ｋ×Ｋ空間範囲（またはフィルタサイズ）には、Ｋ列とＫ（またはＬ）行を含めることができる。Ｋ×Ｋ空間範囲は、２×２、３×３、４×４、５×５、（Ｋ×Ｌ）２×４となり得る。畳み込みは、ピクセル上のＫ×Ｋ空間範囲の中心を定めることと、空間範囲内の全てのピクセルを畳み込み、空間範囲内の全てのピクセルの畳み込みの全て（例えば、合計）に基づいてピクセルの新しい値を生成することを含む。次に、空間範囲がストライドに基づいて新しいピクセルに移動され、新しいピクセルに対して畳み込みが繰り返される。例えば、ストライドは１または２で、ストライドが１の場合は次のピクセルに移動し、ストライドが２の場合はピクセルをスキップする。

係数４２５は、ニューラルネットワークを使用および／またはトレーニングするためにモデル４２０および／または損失関数４３０のうちの１つ以上で使用できる変数値を表わす。モデル４２０、係数４２５および損失関数の一意の組み合わせにより、ニューラルネットワークおよび一意のニューラルネットワークをトレーニングする方法を定義することができる。例えば、モデル４２０のモデルは、２つの畳み込み演算とその２つの間の相互接続を含むように定義することができる。係数４２５は、各畳み込みの空間範囲（例えば、２×４、２×２など）およびストライド（例えば、１、２など）を定義する対応するエントリを含むことができる。さらに、損失関数４３０は、モデルをトレーニングするための損失関数および損失の閾値（例えば、最小、最大、最小変化、最大変化など）を定義する対応するエントリを含むことができる。

メトリクスモジュール４３５は、複数のエラー定義４４０およびエラー計算機４４５を含む。エラー定義は、例えば、エラーおよびエラーの閾値（例えば、最小、最大、最小変化、最大変化など）を計算するために使用される関数またはアルゴリズムを含むことができる。エラー計算機４４５は、アルゴリズムを使用して、２つの画像間のピクセルごとの差分に基づいて２つの画像間のエラーを計算するように構成することができる。エラーの種類としては、測光エラー、ピーク信号対雑音比（ＰＳＮＲ）、構造類似性（ＳＳＩＭ）、マルチスケールＳＳＩＭ（ＭＳ－ＳＳＩＭ）、平均二乗エラー、知覚エラー等が挙げられる。列挙モジュール４５０は、１つ以上の係数４２５を反復するように構成することができる。

例示的な実装形態では、係数のうちの１つは、係数の残りを一定に保持しながら、列挙モジュール４５０によってモデル４２０のうちの１つに対して変更される。各反復中（例えば、左眼ビューをトレーニングするための反復）、プロセッサ４０５は、入力としてビュー（例えば、左眼ビュー２０）を有するモデルを使用して画像を予測し、損失関数が最小化されるまで、および／または損失の変化が最小化されるまで、（おそらくグランドトゥルース画像データ３０を使用して）損失を計算する。次に、エラー計算機４４５は、予測画像とグランドトゥルース画像データ３０の対応する画像との間のエラーを計算する。エラーが許容できない場合（例えば、閾値よりも大きい、または前の反復と比較した閾値変化よりも大きい）、別の係数が列挙モジュール４５０によって変更される。例示的な実装形態では、２つ以上の損失関数が最適化され得る。この実装形態では、列挙モジュール４５０は、２つ以上の損失関数から選択するように構成することができる。

例示的な実装形態によれば、体積再構成（例えば、再構成されたビデオデータ１５）からレンダリングされた画像Ｉ（例えば、左眼ビュー２０および右眼ビュー２５）から、Ｉ_ｅとして示されるＩの拡張バージョンを生成または計算することができる。ＩとＩ_ｅとの間の変換機能は、テレプレゼンス、ＶＲ、またはＡＲアプリケーションをターゲットにできる。したがって、次の原則を考慮する必要がある。すなわち、ａ）ユーザは通常、顔などの顕著な特徴に重点を置くため、それらの領域のアーチファクトには大きなペナルティを課す必要があり、ｂ）ステレオで見る場合、ネットワークの出力はユーザの不快感を防ぐために左右の対間で一貫している必要があり、ｃ）ＶＲアプリケーションでは、レンダリングが仮想世界に合成されるため、正確なセグメンテーションマスクが必要である。さらに、強化された画像は時間的に一貫している必要がある。予測画像Ｉ_ｐｒｅｄおよび前景ピクセルを示すセグメンテーションマスクＭ_ｐｒｅｄを生成するために使用される合成関数Ｆ（Ｉ）は、

として定義でき、ここで、

は要素ごとの積であり、Ｉ_ｅ内の背景ピクセルはゼロに設定される。
トレーニング時に、身体部分意味セグメンテーションアルゴリズムを使用して、図９（セグメンテーション）に示すように、ウィットネスカメラによって捕捉されたグランドトゥルース画像Ｉ_ｇｔの意味セグメンテーションであるＩ_ｓｅｇを生成することができる。被写体のセグメンテーション境界を改善するには、ペアワイズＣＲＦを使用してこのアルゴリズムの予測を洗練することができる。この意味セグメンテーションは、ＡＲ／ＶＲレンダリングに役立つ。

Ｆ（Ｉ）を計算するニューラルネットワークのトレーニングは、損失関数を最適化するためにニューラルネットワークをトレーニングすることを含むことができる。
Ｌ＝ｗ_１Ｌ_ｒｅｃ＋ｗ_２Ｌ_ｍａｓｋ＋ｗ_３Ｌ_ｈｅａｄ＋ｗ_４Ｌ_{ｔｅｍｐｏｒａｌ}＋ｗ_１Ｌ_{ｓｔｅｒｅｏ} …（１）
ここで、重みｗ_ｉは、全ての損失が同様の寄与を提供できるように経験的に選択される。

画像領域で標準的なｌ_２またはｌ_１損失を使用する代わりに、ｌ_１損失は、画像データベース（例えば、ＩｍａｇｅＮｅｔ）上でトレーニングされた１６層ネットワーク（例えば、ＶＧＧ１６）の特徴空間で計算することができる。損失は、ｃｏｎｖ１からｃｏｎｖ５層の活性化のｌ－１距離として計算できる。これにより、トレーニング中にＧＡＮアーキテクチャを採用するオーバーヘッドがなく、敵対的生成ネットワーク（ＧＡＮ）損失を使用した場合と非常に同等の結果が得られる。再構成損失Ｌ_ｒｅｃは次のように計算できる。

ここで、Ｍ_ｇｔ＝（Ｉ_ｓｅｇ≠背景）は、背景ピクセルをオフにするバイナリセグメンテーションマスクであり（図９を参照）、Ｍ_ｐｒｅｄは、予測されたバイナリセグメンテーションマスクであり、ＶＧＧ_ｉ（・）は、画像をＶＧＧのｃｏｎｖ－ｉ層の活性化にマッピングし、｜｜・｜｜_＊は、このセクションで後ほど定義される「顕著性再重み付け」ｌ_１ノルムである。予測バイナリセグメンテーションマスクＭ_ｐｒｅｄは、フレームに対して捕捉された可視光情報とフレームに対して捕捉されたＩＲ光の両方の組み合わせに基づいて予測できる。人のＩＲ信号と高いＩＲ反射率を持つ背景の間の高いコントラストを使用して、背景と人を区別し、セグメンテーションマスクを定義できる。色の収束を高速化するために、主な再構成損失の１／１０に寄与するように重み付けされるＩ_ｇｔとＩ_ｐｒｅｄの間のｌ_１ノルムとして定義されるＬ_ｒｅｃに第２項を追加できる。再構成損失の一例を図１０Ａに示す。

マスク損失Ｌ_ｍａｓｋにより、モデルは正確な前景マスクＭ_ｐｒｅｄを予測することができる。これは、二項分類タスクとみなすことができる。前景ピクセルには値ｙ^＋＝１が割り当てられ、背景ピクセルにはｙ^－＝０が使用される。最終的な損失は次のように定義できる。
Ｌ_ｍａｓｋ＝｜｜Ｍ_ｇｔ－Ｍ_ｐｒｅｄ｜｜_＊ …（３）
ここで、｜｜・｜｜_＊は顕著性を再重み付けしたｌ_１損失である。ロジスティック損失などの他の分類損失も考慮できる。ただし、非常に似た結果が得られる可能性がある。マスク損失の一例を図１０Ｂに示す。

ヘッド損失Ｌ_ｈｅａｄは、ニューラルネットワークを頭部に集中させて、顔の全体的な鮮明さを改善することができる。ボディ損失と同様に、１６層ネットワーク（ＶＧＧ１６など）を使用して特徴空間の損失を計算できる。特に、クロップＩ^Ｃは、Ｉ_ｓｅｇのセグメンテーションラベルによって与えられ、５１２×５１２ピクセルにサイズ変更されるように、先頭ピクセルの周囲でクロップされたパッチとして画像Ｉに対して定義できる。損失は次のように計算できる。

ヘッド損失の一例を図１０Ｃに示す。
時間的損失Ｌ_{ｔｅｍｐｏｒａｌ}を使用して、２つの連続するフレーム間のちらつきの量を最小限に抑えることができる。フレームＩ^ｔとＩ^ｔ－１との間の時間的損失を使用することができる。Ｉ^ｔとＩ^ｔ－１との差を最小限に抑えると、時間的に不鮮明な結果が生成される。したがって、予測シーケンスの時間勾配、つまり

をグランドトゥルースシーケンスの時間勾配、つまり

と一致させようとする損失を使用できる。損失は次のように計算できる。

計算された時間的損失の例を図１０Ｅに示す。
ステレオ損失Ｌ_{ｓｔｅｒｅｏ}は、ニューラルネットワークが左眼および右眼のビューに適用される場合、ＶＲおよびＡＲアプリケーション用に設計することができる。この場合、両目の不一致により深度の知覚が制限され、ユーザに不快感を与える可能性がある。したがって、出力ステレオ画像の自己監視一貫性を保証する損失を使用できる。体積再構成のステレオ対をレンダリングし、各目の画像をニューラルネットワークへの入力として使用でき、この場合、左の画像Ｉ^Ｌはグランドトゥルースカメラの視点と一致し、右の画像Ｉ^Ｒはｘ座標に沿ったオフセット距離（例えば、６５ｍｍ）でレンダリングされる。次に、右の予測

が、メッシュの（既知の）ジオメトリを使用して左の視点にワープされ、左の予測

と比較される。ワープオペレータＩ_ｗａｒｐは、４ピクセルの双線形補間と固定ワープ座標を使用する空間トランスフォーマネットワーク（ＳＴＮ）を使用して定義できる。損失は次のように計算できる。

ステレオ損失の一例を図１０Ｄに示す。
モデルをトレーニングするときの上記の損失の計算は、シーンの取り込まれたカラー画像データ、シーンの取り込まれた広視野ＩＲ画像データ、およびシーン内のオブジェクト上のＩＲ光のパターンの取り込まれた画像に基づく深度データに基づくことができる。これら全てのチャネルを使用してモデルをトレーニングすると、モデルの性能とモデルによって生成される画像の精度が向上する。例えば、２つの隣接するピクセルが異なる色および／またはアルベド値および異なる深度値を有する場合、それらのピクセルは異なる特徴を表わすとみなされるため、ほとんどまたはまったくペナルティがピクセルに適用されない可能性がある。ただし、２つの隣接するピクセルの色とアルベド値は非常に似ているが、深度値が異なる場合は、異なる深度値の平均を両方のピクセルに割り当てることができる。したがって、モデルをトレーニングして適用するときに、シーンの捕捉されたカラー画像データ、シーンの捕捉された広視野ＩＲ画像データ、およびシーン内のオブジェクト上のＩＲ光のパターンの捕捉された画像に基づく深度データの全てを考慮すると、画像内のエッジと滑らかな表面を区別してレンダリングする能力を強化できる。

上記の損失は、（マスクされたピクセルを除く）画像内の全てのピクセルから寄与を受ける。ただし、セグメンテーションマスクに不完全性があると、ネットワークが重要でない領域に偏ってしまう可能性がある。損失が最も高いピクセルは外れ値である可能性がある（例えば、セグメンテーションマスクの境界の隣）。これらの外れ値ピクセルは、全体の損失を支配する可能性がある（図１０Ｆを参照）。したがって、これらの外れ値ピクセルを損失から除外するために重み付けを下げると同時に、再構成が容易なピクセル（滑らかでテクスチャのない領域など）の重み付けを下げることが望ましい場合がある。これを行なうには、サイズＷ×Ｈ×Ｃの残差画像ｘが与えられた場合、ｙをｘのチャネルに沿ったピクセルごとのｌ_１ノルムとして設定し、最小および最大パーセンタイルｐ_ｍｉｎおよびｐ_ｍａｘをｙの値に対して定義できる。残差ｙの顕著性再重み付け行列のピクセルのｐ構成要素は、次のように定義できる。

ここで、Γ（ｉ，ｙ）はｙの値のセット全体からｉ番目のパーセンタイルを抽出し、ｐ_ｍｉｎ、ｐ_ｍａｘ、α_ｉは経験的に選択され、当面のタスクに依存する。

Ｌ_ｒｅｑおよびＬ_ｈｅａｄに関して計算される残差ｙの各ピクセルに対する重みとしてのこの顕著性は、次のように定義できる。

ここで、

は要素ごとの積である。
シグモイドと逆シグモイドの積によって定義されるγ_ｐ（ｙ）の連続定式化も使用することができる。再重み付け関数に関する勾配は計算されない。したがって、ＳＧＤが機能するために再重み付け関数が連続している必要はない。顕著性再重み付けの効果を図１０Ｆに示す。顕著性の再重み付けが使用されない場合、再構成エラーは被写体の境界に沿って発生する。逆に、提案された外れ値除去技術を適用すると、ネットワークは実際の被写体の再構成に集中するようになる。最後に、顕著性の再重み付けの副産物として、意味セグメンテーションアルゴリズムで得られたものと比較した場合に、よりクリーンな前景マスクを予測できる。顕著性の再重み付けスキームは、再構成、マスク、およびヘッド損失にのみ適用できる。

図５は、少なくとも１つの例示的な実施形態によるニューラル再レンダリングモジュールのブロック図を示す。ニューラル再レンダリングモジュール２１０は、少なくとも１つのコンピューティングデバイスであるか、またはそれを含むことができ、本明細書で説明される方法を実行するように構成された事実上任意のコンピューティングデバイスを表わすことができる。したがって、ニューラル再レンダリングモジュール２１０は、本明細書で説明される技術、またはその異なるバージョンまたは将来のバージョンを実装するために利用できる様々な構成要素を含むことができる。一例として、ニューラル再レンダリングモジュール２１０は、少なくとも１つのプロセッサ５０５および少なくとも１つのメモリ５１０（例えば、非一時的なコンピュータ可読媒体）を含むものとして示される。

図５に示すように、ニューラル再レンダリングモジュールは、少なくとも１つのプロセッサ５０５および少なくとも１つのメモリ４１０を含む。少なくとも１つのプロセッサ５０５および少なくとも１つのメモリ５１０は、バス５１５を介して通信可能に結合される。少なくとも１つのプロセッサ５０５は、少なくとも１つのメモリ５１０に格納された命令を実行するために利用されてもよく、それによって、本明細書に記載される様々な特徴および機能、または追加もしくは代替の特徴および機能を実装することができる。少なくとも１つのプロセッサ５０５および少なくとも１つのメモリ５１０は、他の様々な目的に利用することができる。特に、少なくとも１つのメモリ５１０は、本明細書で説明されるモジュールのいずれか１つを実装するために使用され得る、様々なタイプのメモリおよび関連ハードウェアおよびソフトウェアの一例を表わすことができる。

少なくとも１つのメモリ５１０は、ニューラル再レンダリングモジュール２１０に関連するデータおよび／または情報を記憶するように構成され得る。例えば、少なくとも１つのメモリ５１０は、モデル４２０、複数の係数４２５、およびニューラルネットワーク５２０を記憶するように構成され得る。例示的な実装形態では、少なくとも１つのメモリ５１０は、少なくとも１つのプロセッサ５０５によって実行されるときに、少なくとも１つのプロセッサ５０５に、モデル４２０のうちの１つおよび／または複数の係数４２５のうちの１つ以上を選択させる、コードセグメントを記憶するように構成され得る。

ニューラルネットワーク５２０は、複数の演算（例えば、畳み込み５３０－１～５３０－９）を含むことができる。複数の動作、相互接続、および複数の動作間のデータフローは、モデル４２０から選択されるモデルであり得る。ニューラルネットワークで示されるモデル（動作、相互接続、およびデータフローとして）は実装例である。したがって、他のモデルを使用して、本明細書で説明するように画像を強化することができる。

図５に示される実装例では、ニューラルネットワーク５２０の動作は、畳み込み５３０－１、５３０－２、５３０－３、５３０－４、５３０－５、５３０－６、５３０－７、５３０－８および５３０－９、畳み込み５３５、および畳み込み５４０－１、５４０－２、５４０－３、５４０－４、５４０－５、５４０－６、５４０－７、５４０－８、５４０－９を含む。任意選択で（破線で示すように）、ニューラルネットワーク５２０の動作は、パッド５２５、クリップ５４５、および超解像度５５０を含むことができる。パッド５２５は、入力画像を大きくする必要がある場合に、画像の境界で入力画像にピクセルをパディングまたは追加するように構成することができる。パディングには、画像の境界に隣接するピクセルの使用（ミラーパディングなど）が含まれる場合がある。パディングには、Ｒ＝０、Ｇ＝０、Ｂ＝０の値を持つ多数のピクセルを追加することが含まれる（例えば、ゼロパディング）。クリップ５４５は、２５５から２５５を超えるＲ、Ｇ、Ｂの任意の値、および０から０未満の任意の値をクリップするように構成することができる。クリップ５４５は、カラーシステムの最大／最小に基づいて他のカラーシステム（例えば、ＹＵＶ）に対してクリップするように構成することができる。

超解像度５５０は、結果の画像（例えば、×２、×４、×６など）をアップスケールすることと、ニューラルネットワークをフィルタとしてアップスケールされた画像に適用して、比較的低品質のアップスケールされた画像から高品質の画像を生成することとを含むことができる。例示的な実装形態では、フィルタは、複数のトレーニングされたフィルタから各ピクセルに選択的に適用される。

図５に示される実装例では、ニューラルネットワーク５２０は、Ｕ－ＮＥＴのようなアーキテクチャを使用する。このモデルは、ＧＰＵアーキテクチャ上で２Ｄ画像からの視点合成をリアルタイムで実装できる。実装例では、完全な畳み込みモデル（例えば、最大プーリング演算子なし）が使用される。さらに、この実装では、バイリニアアップサンプリングと畳み込みを使用して、チェッカーボードアーチファクトを最小限に抑えたり、排除したりできる。

図示されるように、ニューラルネットワーク５２０アーキテクチャは１８個の層を含む。９つ（９）の層はエンコード／圧縮／縮小／ダウンサンプリングに使用され、９つ（９）の層はデコード／解凍／拡張／アップサンプリングに使用される。例えば、畳み込み５３０－１、５３０－２、５３０－３、５３０－４、５３０－５、５３０－６、５３０－７、５３０－８、および５３０－９はエンコードに使用され、畳み込み５４０－１、５４０－２、５４０－３、５４０－４、５４０－５、５４０－６、５４０－７、５４０－８、５４０－９はデコードに使用される。畳み込み５３５がボトルネックとして使用される可能性がある。ボトルネックは、Ｋ×Ｋフィルタの入力チャネルの数を減らすように構成された１×１畳み込み層である可能性がある。ニューラルネットワーク５２０のアーキテクチャは、エンコーダブロックとデコーダブロックとの間のスキップ接続を含むことができる。例えば、スキップ接続は、畳み込み５３０－１と畳み込み５４０－９、畳み込み５３０－３と畳み込み５４０－７、畳み込み５３０－５と畳み込み５４０－５、および畳み込み５３０－７と畳み込み５４０－３の間で示される。

例示的な実装形態では、エンコーダは、Ｎ_ｉｎｉｔフィルタを伴う３×３畳み込みで構成された畳み込み５３０－１で始まり、その後、畳み込み５３０－２、５３０－３、５３０－４、および５３０－５を含む一連のダウンサンプリングブロックが続く。畳み込み５３０－２、５３０－３、５３０－４、５３０－５、５３０－６、および５３０－７（i∈{１，２，３，４}）には、それぞれＮ_ｉフィルタを伴う２つの畳み込み層を含めることができる。第１の層５３０－２、５３０－４、および５３０－６は、フィルタサイズ４×４、ストライド２、およびパディング１を持つことができるが、第２の層５３０－３、５３０－５、および５３０－７は、フィルタサイズ３×３およびストライド１を持つことができる。したがって、各畳み込みは、ストライド畳み込みにより入力のサイズを２分の１に減らすことができる。最後に、２次元性を保持する畳み込み５３０－８および５３０－９が実行される。畳み込みの出力は、ＲｅＬＵ活性化関数を通過できる。実装例では、Ｎ_ｉｎｉｔ＝３２およびＮ_ｉ＝Ｇ^ｉ・Ｎ_ｉｎｉｔに設定する。ここで、Ｇは各ダウンサンプリングブロック後のフィルタサイズの増加係数である。

デコーダは、ダウンサンプリングブロックを反映するが逆であるアップサンプリングブロック５４０－３、５４０－４、５４０－５、５４０－６、５４０－７、５４０－８、および５４０－９を含む。そのような各ブロックi∈{４，３，２，１}は２つの畳み込み層から成る。第１の層５４０－３、５４０－５、および５４０－７は、入力を双線形にアップサンプリングし、Ｎ_ｉフィルタで畳み込みを実行し、スキップ接続を利用して出力をそのミラーリングされた符号化層の出力と連結する。第２の層５４０－４、５４０－６、および５４０－８は、サイズ３×３の２Ｎ_ｉフィルタを使用して畳み込みを実行する。最終ネットワーク出力は、４つのフィルタを備えた最終畳み込み５４０－９によって生成され、その出力はＲｅＬＵ活性化関数を通過して、再構成された画像および前景の被写体の単一チャネルのバイナリマスクを生成する。ＶＲおよびＡＲヘッドセットのステレオ画像を生成するには、同じニューラルネットワーク（重みを共有）を使用して、左右のビューの両方を強化する。最終出力は、改良されたステレオ出力対である。ニューラルネットワーク５２０に関連するデータ（例えば、フィルタサイズ、ストライド、重み、Ｎ_ｉｎｉｔ、Ｎ_ｉ、Ｇ^ｉなど）は、モデル４２０および係数４２５に格納することができる。

図４に戻ると、ニューラルネットワーク５２０のアーキテクチャに関連付けられたモデルは、上で説明したようにトレーニングすることができる。ニューラルネットワークは、収束するまで（例えば、損失が一貫して低下しなくなる点まで）、Ａｄａｍアルゴリズムと重み減衰アルゴリズムを使用してトレーニングできる。

５１２×５１２から９６０×８９６の範囲の画像のランダムな切り出しをトレーニングに使用した。これらの画像は、入力と出力の対の元の解像度から切り取ることができる。特に、ランダムクロップにはサンプルの７５％にヘッドピクセルが含まれる可能性があり、ヘッド損失が計算される。そうしないと、ネットワークが入力パッチでヘッド損失を完全に認識できない可能性があるため、ヘッド損失が無効になる可能性がある。これにより、体の他の部分を無視せずに、顔に高品質の結果を得ることができる。ネットワークの重みに対する標準的なｌ－２正則化とともにランダムクロップを使用することは、過剰適合を防ぐのに十分である可能性がある。高解像度のウィットネスカメラを使用すると、出力は入力サイズの２倍になる可能性がある。

顕著性の再重み付けのパーセンタイル範囲は、結果に影響を与えることなく、不完全なマスク境界および他の外れ値の寄与を除去するように経験的に設定することができる。ｐ_ｍａｘ＝９８の場合、範囲［２５，７５］のｐ_ｍｉｎ値を許容できる。特に、再構成損失についてはｐ_ｍｉｎ＝５０、ヘッド損失についてはｐ_ｍｉｎ＝２５、α１＝α２＝１．１に設定してもよい。

図６Ａは、スパース性制約のない畳み込みニューラルネットワークの層を示す。図６Ｂは、スパース性制約を有する畳み込みニューラルネットワークの層を示す。層状ニューラルネットワークの実装例が、３つの層６０５、６１０、６１５を有するように図６Ａに示される。各層６０５、６１０、６１５は複数のニューロン６２０から形成することができる。図６Ａに示す実装にはスパース性制約は適用されていない。したがって、各層６０５、６１０、６１５の全てのニューロン６２０は、任意の隣接する層６０５、６１０、６１５の全てのニューロン６２０にネットワーク接続される。図６Ａに示すニューラルネットワークは、ニューロン６２０および層６０５、６１０、６１５の数が少ないため、計算的に複雑ではない。しかしながら、図６Ａのニューラルネットワークの構成は、ネットワークのサイズが拡大するにつれて計算の複雑さが大きくなり、接続の密度により非線形的に拡大するため、より大きなネットワークサイズ（例えば、ニューロン／層間の接続）に容易にスケールアップできない可能性がある。

ニューラルネットワークが比較的高い次元数の入力に作用するようにスケールアップされる場合、各層６０５、６１０、６１５の全てのニューロン６２０が１つ以上の隣接する層６０５、６１０、６１５の全てのニューロン６２０にネットワーク接続されると、計算が複雑になる可能性がある。初期のスパース性条件を使用して、ニューラルネットワークの計算の複雑さを下げることができる。例えば、ニューラルネットワークが最適化プロセスとして機能している場合、ニューロンおよび／または層間の接続数を制限することで、ニューラルネットワークアプローチが画像などの高次元データを処理できるようにする。

少なくとも一実施形態に係るスパース性制約を伴うニューラルネットワークの一例が図６Ｂに示される。図６Ｂに示すニューラルネットワークは、各ニューロン６２０が隣接する層６２５、６３０、６３５内の少数のニューロン６２０にのみ接続されるように構成され、したがって、完全に接続されておらず、例えば画像の強調処理として、より高次元のデータとともに機能するように拡張できるニューラルネットワークを作成する。完全にネットワーク化されたニューラルネットワークと比較して接続数が少ないため、ニューロン間の接続数を実質的に線形に拡張できる。

或いは、幾つかの実施形態では、完全に接続されているか、または完全に接続されていないが、図６Ｂに関連して説明したものとは異なる特定の構成であるニューラルネットワークを使用することができる。

さらに、幾つかの実施形態では、完全に接続されていないニューラルネットワークである畳み込みニューラルネットワークが使用され、したがって完全に接続されたニューラルネットワークよりも複雑さが少ない。畳み込みニューラルネットワークでは、プーリングまたは最大プーリングを利用して、ニューラルネットワークを流れるデータの次元（したがって複雑さ）を削減することもできるため、必要な計算レベルを削減できる。

図１１は、本明細書で説明される技術とともに使用され得るコンピュータデバイス１１００およびモバイルコンピュータデバイス１１５０の一例を示す。コンピューティングデバイス１１００は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表わすことを意図している。コンピューティングデバイス１１５０は、携帯情報端末、携帯電話、スマートフォン、および他の同様のコンピューティングデバイスなど、様々な形態のモバイルデバイスを表わすことを意図されている。ここに示される構成要素、それらの接続と関係、およびそれらの機能は、例示のみを目的としており、本文書で説明および／または請求される発明の実装を限定することを意図するものではない。

コンピューティングデバイス１１００は、プロセッサ１１０２、メモリ１１０４、記憶デバイス１１０６、メモリ１１０４および高速拡張ポート１１１０に接続する高速インタフェース１１０８、および低速バス１１１４および記憶デバイス１１０６に接続する低速インタフェース１１１２を含む。構成要素１１０２、１１０４、１１０６、１１０８、１１１０、および１１１２のそれぞれは、様々なバスを使用して相互接続されており、共通のマザーボード上に、または必要に応じて他の方法で取り付けることができる。プロセッサ１１０２は、高速インタフェース１１０８に結合されたディスプレイ１１１６などの外部入出力装置上にＧＵＩ用のグラフィック情報を表示するために、メモリ１１０４または記憶デバイス１１０６に格納された命令を含む、コンピューティングデバイス１１００内で実行するための命令を処理することができる。他の実装形態では、複数のメモリおよび複数の種類のメモリとともに、必要に応じて、複数のプロセッサおよび／または複数のバスが使用され得る。また、複数のコンピューティングデバイス１１００が接続されてもよく、各デバイスは必要な動作の一部を提供する（例えば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして）。

メモリ１１０４は、コンピューティングデバイス１１００内に情報を格納する。一実装形態では、メモリ１１０４は、１つ以上の揮発性メモリユニットである。別の実装形態では、メモリ１１０４は１つ以上の不揮発性メモリユニットである。メモリ１１０４は、磁気ディスクまたは光ディスクなどの別の形態のコンピュータ可読媒体であってもよい。

記憶デバイス１１０６は、コンピューティングデバイス１１００に大容量ストレージを提供することができる。一実装形態では、記憶デバイス１１０６は、フロッピーディスクデバイス、ハードディスクデバイス、光ディスクデバイス、もしくはテープデバイス、フラッシュメモリもしくは他の同様のソリッドステートメモリデバイス、またはストレージエリアネットワークもしくは他の構成内のデバイスを含むデバイスのアレイなどのコンピュータ可読媒体であるか、またはそれらを含んでよい。コンピュータプログラムプロダクトは、情報担体に具体的に組み込むことができる。コンピュータプログラムプロダクトには、実行時に上記のような１つ以上の方法を実行する命令も含まれ得る。情報担体は、メモリ１１０４、記憶デバイス１１０６、またはプロセッサ１１０２上のメモリなどのコンピュータまたは機械可読媒体である。

高速コントローラ１１０８は、コンピューティングデバイス１１００の帯域幅を大量に消費する動作を管理し、一方、低速コントローラ１１１２は、帯域幅をあまり消費しない動作を管理する。このような機能の割り当ては一例に過ぎない。一実装形態では、高速コントローラ１１０８は、メモリ１１０４、ディスプレイ１１１６（例えば、グラフィックプロセッサまたはアクセラレータを介して）、および様々な拡張カード（図示せず）を受け入れることができる高速拡張ポート１１１０に結合される。この実装形態において、低速コントローラ１１１２は、記憶デバイス１１０６および低速拡張ポート１１１４に結合される。様々な通信ポート（例えば、ＵＳＢ、Ｂｌｕｅｔｏｏｔｈ、イーサネット、無線イーサネット）を含み得る低速拡張ポートは、例えばネットワークアダプタを介して、キーボード、ポインティングデバイス、スキャナなどの１つ以上の入出力デバイス、またはスイッチもしくはルータなどのネットワーキングデバイスに結合され得る。

コンピューティングデバイス１１００は、図に示すように、多くの異なる形式で実装することができる。例えば、コンピューティングデバイスは、標準サーバ１１２０として実装されてもよいし、そのようなサーバのグループ内で複数回実装されてもよい。また、コンピューティングデバイスをラックサーバシステム１１２４の一部として実装することもできる。さらに、コンピューティングデバイスをラップトップコンピュータ１１２２などのパーソナルコンピュータに実装することもできる。或いは、コンピューティングデバイス１１００の構成要素を、デバイス１１５０などのモバイルデバイス（図示せず）内の他の構成要素と組み合わせることができる。そのようなデバイスのそれぞれは、１つ以上のコンピューティングデバイス１１００、１１５０を含むことができ、システム全体が、互いに通信する複数のコンピューティングデバイス１１００、１１５０で構成され得る。

コンピューティングデバイス１１５０は、他の構成要素の中でも特に、プロセッサ１１５２、メモリ１１６４、ディスプレイ１１５４などの入出力デバイス、通信インタフェース１１６６、およびトランシーバ１１６８を含む。デバイス１１５０には、追加のストレージを提供するために、マイクロドライブまたは他のデバイスなどの記憶デバイスも設けられ得る。構成要素１１５０、１１５２、１１６４、１１５４、１１６６、および１１６８のそれぞれは、様々なバスを使用して相互接続され、構成要素の幾つかは共通のマザーボード上に、または必要に応じて他の方法で実装され得る。

プロセッサ１１５２は、メモリ１１６４に格納された命令を含む、コンピューティングデバイス１１５０内の命令を実行することができる。プロセッサは、別個の複数のアナログおよびデジタルプロセッサを含むチップのチップセットとして実装され得る。プロセッサは、例えば、ユーザインタフェース、デバイス１１５０によって実行されるアプリケーション、およびデバイス１１５０による無線通信の制御など、デバイス１１５０の他の構成要素の調整を行なうことができる。

プロセッサ１１５２は、ディスプレイ１１５４に結合された制御インタフェース１１５８およびディスプレイインタフェース１１５６を介してユーザと通信することができる。ディスプレイ１１５４は、例えば、ＴＦＴＬＣＤ（薄膜トランジスタ液晶ディスプレイ）またはＯＬＥＤ（有機発光ダイオード）ディスプレイ、または他の適切なディスプレイ技術であってもよい。ディスプレイインタフェース１１５６は、ディスプレイ１１５４を駆動してグラフィック情報および他の情報をユーザに提示するための適切な回路を備えることができる。制御インタフェース１１５８は、ユーザからコマンドを受信し、プロセッサ１１５２に送信するためにそれらを変換することができる。さらに、デバイス１１５０と他のデバイスとの近距離通信を可能にするために、プロセッサ１１５２と通信する外部インタフェース１１６２を設けることができる。外部インタフェース１１６２は、例えば、幾つかの実装形態では有線通信をもたらすことができ、他の実装形態では無線通信をもたらすことができ、複数のインタフェースを使用することもできる。

メモリ１１６４は、コンピューティングデバイス１１５０内に情報を格納する。メモリ１１６４は、１つまたは複数のコンピュータ可読媒体、１つまたは複数の揮発性メモリユニット、または１つまたは複数の不揮発性メモリユニットのうちの１つ以上として実装することができる。拡張メモリ１１７４を設けることもでき、該拡張メモリを拡張インタフェース１１７２を介してデバイス１１５０に接続することができ、拡張インタフェース１１７２は、例えば、ＳＩＭＭ（シングルインラインメモリモジュール）カードインタフェースを含み得る。そのような拡張メモリ１１７４は、デバイス１１５０に追加の記憶スペースを提供することができ、またはデバイス１１５０にアプリケーションまたは他の情報を記憶することもできる。具体的には、拡張メモリ１１７４は、前述のプロセスを実行または補足するための命令を含むことができ、安全な情報も含むことができる。したがって、例えば、拡張メモリ１１７４は、デバイス１１５０のセキュリティモジュールとして提供されてもよく、デバイス１１５０の安全な使用を可能にする命令でプログラムされ得る。さらに、安全なアプリケーションは、識別情報をＳＩＭＭカード上にハッキング不可能な態様で配置するなど、追加情報とともに、ＳＩＭＭカードを介して提供され得る。

メモリには、例えば、以下に説明するように、フラッシュメモリおよび／またはＮＶＲＡＭメモリが含まれてもよい。一実装形態では、コンピュータプログラムプロダクトは情報担体に具体的に組み込まれる。コンピュータプログラムプロダクトには、実行時に上記のような１つ以上の方法を実行する命令が含まれる。情報担体は、例えばトランシーバ１１６８または外部インタフェース１１６２を介して受信され得る、メモリ１１６４、拡張メモリ１１７４、またはプロセッサ１１５２上のメモリなどのコンピュータまたは機械可読媒体である。

デバイス１１５０は、通信インタフェース１１６６を介して無線通信することができ、通信インタフェース１１６６は、必要に応じてデジタル信号処理回路を含み得る。通信インタフェース１１６６は、とりわけ、ＧＳＭ音声通話、ＳＭＳ、ＥＭＳ、またはＭＭＳメッセージング、ＣＤＭＡ、ＴＤＭＡ、ＰＤＣ、ＷＣＤＭＡ（登録商標）、ＣＤＭＡ２０００、またはＧＰＲＳなどの様々なモードまたはプロトコルの下での通信を提供し得る。このような通信は、例えば、無線周波数トランシーバ１１６８を介して行なわれ得る。さらに、Ｂｌｕｅｔｏｏｔｈ、Ｗｉ－Ｆｉ、または他のそのようなトランシーバ（図示せず）を使用するなどの短距離通信が行なわれ得る。さらに、ＧＰＳ（全地球測位システム）受信機モジュール１１７０は、追加のナビゲーションおよび位置関連の無線データをデバイス１１５０に提供することができ、このデータは、デバイス１１５０上で実行されるアプリケーションによって適宜使用され得る。

デバイス１１５０は、オーディオコーデック１１６０を使用して音声通信することもでき、オーディオコーデック１１６０は、ユーザから話された情報を受信し、それを使用可能なデジタル情報に変換することができる。オーディオコーデック１１６０は、同様に、例えばデバイス１１５０のハンドセット内のスピーカなどを介して、ユーザに対して可聴音を生成することができる。そのような音は、音声通話からの音を含むことができ、録音された音（例えば、音声メッセージ、音楽ファイルなど）を含むことができ、また、デバイス１１５０上で動作するアプリケーションによって生成される音を含むこともできる。

コンピューティングデバイス１１５０は、図に示すように、多くの異なる形式で実装することができる。例えば、コンピューティングデバイスは、携帯電話１１８０として実装されてもよい。また、コンピューティングデバイスは、スマートフォン１１８２、携帯情報端末、または他の同様のモバイルデバイスの一部として実装されてもよい。

上記の説明では、ヘッドマウントディスプレイ（ＨＭＤ）デバイスにアクセスしてそのようなコンテンツを適切に視聴し、対話することを含む、従来の３次元（３Ｄ）コンテンツを体験することについて説明しているが、説明された技術は、２Ｄディスプレイ（例えば、１つ以上の２Ｄディスプレイ上に表示される左ビューおよび／または右ビュー）、モバイルＡＲ、および３ＤＴＶへのレンダリングにも使用することができる。さらに、ＨＭＤデバイスの使用は、ユーザにとって継続的に装着し続けるのが面倒になる可能性がある。したがって、ユーザは、自動立体ディスプレイを利用して、ＨＭＤデバイス（例えば、眼鏡やヘッドギア）を使用することなく、３Ｄ知覚によるユーザエクスペリエンスにアクセスすることができる。自動立体ディスプレイは、光学構成要素を使用して、同じ平面上の様々な画像の３Ｄ効果を実現し、そのような画像を多数の視点から提供して３Ｄ空間の錯覚を生み出す。

自動立体ディスプレイは、ヘッドマウントディスプレイ（ＨＭＤ）デバイスの使用を必要とせずに、現実世界の物理的オブジェクトの３次元（３Ｄ）光学特性に近似した画像を提供することができる。一般に、自動立体ディスプレイには、ディスプレイに関連付けられた多数の異なる表示領域に画像をリダイレクトするためのフラットパネルディスプレイ、レンチキュラーレンズ（例えば、マイクロレンズアレイ）、および／または視差バリアが含まれる。

自動立体ディスプレイの幾つかの例では、そのようなディスプレイによって提供される画像コンテンツの３Ｄビューを提供する単一の場所が存在する場合がある。ユーザは１つの場所に座って、適切な視差、歪みの少ないリアルな３Ｄ画像を体験できる。ユーザが別の物理的位置に移動する（または頭の位置や視線の位置を変更する）と、画像コンテンツの現実性が低下し、２Ｄ、および／または歪んで見え始める可能性がある。本明細書で説明されるシステムおよび方法は、ディスプレイから投影される画像コンテンツを再構成して、ユーザが動き回ることを保証しながらも、適切な視差、低い歪み率、およびリアルな３Ｄ画像をリアルタイムで体験できるようにすることができる。したがって、本明細書で説明されるシステムおよび方法は、ユーザがディスプレイを見ている間に生じるユーザの動きに関係なく、３Ｄ画像コンテンツを維持し、ユーザに提供するという利点を与える。

図１２は、少なくとも１つの例示的な実施形態に係る、立体ディスプレイでコンテンツを提供する例示的な出力画像のブロック図を示す。例示的な実装形態では、コンテンツは、出力画像１２０５を取得するために、左画像１２０４Ａを右画像１２０４Ｂとインターリーブすることによって表示され得る。図１２に示される自動立体ディスプレイアセンブリ１２０２は、レンズ１２０６のレンチキュラーアレイに結合された（例えば、接着された）高解像度ディスプレイパネル１２０７を少なくとも含む、組み立てられたディスプレイを表わす。さらに、アセンブリ１２０２は、レンズのレンチキュラーアレイと高解像度ディスプレイパネル１２０７との間に配置された１つ以上のガラススペーサ１２０８を含み得る。ディスプレイアセンブリ１２０２の動作中、レンズ１２０６のアレイ（例えば、マイクロレンズアレイ）およびガラススペーサ１２０８は、特定の観察条件において、観察光線１２１０によって示されるように、ユーザの左眼が画像に関連付けられたピクセルの第１のサブセットを見るのに対し、ユーザの右眼は観察光線１２１２によって示されるように、相互に排他的なピクセルの第２のサブセットを見るように設計され得る。

マスクは、左眼と右眼のそれぞれについて計算および生成され得る。マスク１２００は、目ごとに異なっていてもよい。例えば、マスク１２００Ａは左眼について計算され得る一方、マスク１２００Ｂは右眼について計算され得る。幾つかの実装形態では、マスク１２００Ａは、マスク１２００Ｂのシフトされたバージョンであってもよい。本明細書に記載の実施形態と一致して、自動立体ディスプレイアセンブリ１２０２は、複数のマイクロレンズを含むメガネのないレンチキュラーの３次元ディスプレイであってもよい。幾つかの実装形態では、アレイ１２０６は、マイクロレンズアレイ内のマイクロレンズを含むことができる。幾つかの実装形態では、３Ｄ画像は、第１の画像の一部（例えば、第１のピクセルのセット）を、少なくとも１つのマイクロレンズを通して第１の方向で（例えば、ユーザの左眼に）投影し、第２の画像の一部（例えば、第２のピクセルのセット）を、少なくとも１つの他のマイクロレンズを通して第２の方向で（例えば、ユーザの右眼に）投影することによって生成され得る。第２の画像は、第１の画像と同様であってもよいが、第２の画像は、視差をシミュレートするために第１の画像からシフトされてもよく、それによって自動立体ディスプレイアセンブリ１２０２を見ているユーザに対して３Ｄ立体画像をシミュレートすることができる。

図１３は、本明細書に記載の技術を実装するプロセス１３００の概略フローチャートである。図１３に示すように、ステップ１３０２において、シーンのニューラル放射輝度場（ＮｅＲＦ）体積表示に基づいてレンダリングされた画像が受信される。ここで、シーンのＮｅＲＦ表示は、ビデオデータの捕捉されたフレームに基づいており、各捕捉されたフレームは、シーンのカラー画像、シーンが広視野ＩＲ光源によって照明されるときに捕捉されたシーンの広視野ＩＲ画像、およびシーンの複数の深度ＩＲ画像を含む。各深度ＩＲ画像は、シーンが異なるパターンのＩＲ光点によって照明されるときに捕捉され、異なるパターンのＩＲ光点による照明が異なる時間に起こる。ＮｅＲＦ表示は、位置と観察方向との間で、シーン内の各位置における色および光学密度へのマッピングをもたらし、シーン内の各位置での色および光学密度により、新たな視点からシーンを観察することが可能になり、また、ＮｅＲＦ表示は、位置および観察方向との間で、新たな視点からそれぞれの異なるパターンのＩＲ光点ごとにＩＲ値へのマッピングをもたらす。ステップ１３０４では、受信画像から強化画像を生成するための合成関数が定義される。ステップ１３０６において、合成関数は、ニューラルネットワークによって生成された予測画像とトレーニング中にグランドトゥルースカメラによって捕捉されたグランドトゥルース画像との間の損失関数を最小化することに基づいてトレーニングされたニューラルネットワークを使用して計算される。

本明細書で説明されるシステムおよび技術の様々な実装は、デジタル電子回路、集積回路、特別に設計されたＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組み合わせにおいて実現され得る。これらの様々な実装には、ストレージシステム、少なくとも１つの入力デバイス、および少なくとも１つの出力デバイスからデータおよび命令を受信し、またそれらにデータおよび命令を送信するように結合された、専用または汎用であり得る少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上で実行可能および／または解釈可能な１つ以上のコンピュータプログラムでの実装が含まれ得る。本明細書で説明されるシステムおよび技術の様々な実装は、本明細書では、ソフトウェアおよびハードウェアの態様を組み合わせることができる回路、モジュール、ブロック、またはシステムとして実現および／または一般的にそれらと呼ばれることができる。例えば、モジュールは、プロセッサ（例えば、シリコン基板、ＧａＡｓ基板などの上に形成されたプロセッサ）または何らかの他のプログラム可能なデータ処理装置上で実行される機能／動作／コンピュータプログラム命令を含み得る。

上記の例示的な実施形態の幾つかは、フローチャートとして示されるプロセスまたは方法として説明される。フローチャートでは動作を逐次的なプロセスとして説明しているが、動作の多くは並行して、一斉に、または同時に実行できる。さらに、動作の順序は並べ替えられてもよい。プロセスは、動作が完了すると終了するが、図には含まれていない追加のステップがある場合もある。プロセスは、メソッド、関数、プロシージャ、サブルーチン、サブプログラムなどに対応する場合がある。

上で議論された方法は、その一部がフローチャートによって示されており、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、またはそれらの任意の組み合わせによって実装され得る。ソフトウェア、ファームウェア、ミドルウェア、またはマイクロコードで実装される場合、必要なタスクを実行するためのプログラムコードまたはコードセグメントは、記憶媒体などの機械またはコンピュータ可読媒体に記憶され得る。プロセッサは必要なタスクを実行できる。

本明細書に開示される特定の構造および機能の詳細は、例示的な実施形態を説明する目的で単に代表的なものである。しかしながら、例示的な実施形態は、多くの代替形態で具現化されてもよく、本明細書に記載された実施形態のみに限定されるものとして解釈されるべきではない。

本明細書では、第１、第２などの用語を様々な要素を説明するために使用することができるが、これらの要素はこれらの用語によって限定されるべきではないことが理解され得る。これらの用語は、ある要素を別の要素と区別するためにのみ使用される。例えば、例示的な実施形態の範囲から逸脱することなく、第１の要素を第２の要素と称することができ、同様に、第２の要素を第１の要素と称することができる。本明細書で使用される場合、「および／または」という用語は、関連する列挙された項目の１つ以上の任意のおよび全ての組み合わせを含む。

要素が別の要素に接続または結合されていると言及される場合、他の要素に直接接続または結合することができ、或いは介在要素が存在してもよいことが理解され得る。対照的に、要素が別の要素に直接接続または直接結合されていると言及される場合、介在する要素は存在しない。要素間の関係を説明するために使用される他の単語も同様に解釈される必要がある（例えば、要素間と要素間に直接、隣接要素と直接隣接する要素など）。

本明細書で使用される用語は、特定の実施形態を説明することだけを目的としており、例示的な実施形態を限定することを意図したものではない。本明細書で使用される場合、単数形である１つの（ａ）、１つの（ａｎ）、およびその（ｔｈｅ）は、文脈上明らかに別段の指示がない限り、複数形も含むものとする。さらに、本明細書で使用される場合、「備える、備えている、含む、および／または含んでいる」という用語は、記載された特徴、整数、ステップ、動作、要素および／または構成要素の存在を特定するが、１つ以上の他の特徴、整数、ステップ、動作、要素、構成要素および／またはそれらのグループの存在または追加を排除するものではないことが理解され得る。

また、幾つかの代替実装形態では、記載された機能／動作が、図に記載された順序から外れて発生する可能性があることにも留意すべきである。例えば、連続して表示される２つの図は、実際には同時に実行されることもあれば、関係する機能／動作に応じて逆の順序で実行されることもある。

特に定義しない限り、本明細書で使用される全ての用語（技術用語および科学用語を含む）は、例示的な実施形態が属する当業者によって一般に理解されるのと同じ意味を有する。さらに、用語、例えば一般に使用される辞書で定義される用語は、関連技術の文脈におけるそれらの意味と一致する意味を有するものとして解釈されるべきであり、本明細書で明示的にそのように定義されない限り、理想化された意味または過度に形式的な意味で解釈されないことが理解され得る。

上記の例示的な実施形態の一部および対応する詳細な説明は、ソフトウェア、またはコンピュータメモリ内のデータビットに対する演算のアルゴリズムおよび記号表示の観点から提示されている。これらの説明および表現は、当業者がその研究の内容を他の当業者に効果的に伝えるためのものである。ここで使用されている用語や一般的に使用されているアルゴリズムは、望ましい結果に至る、一貫した一連のステップであると考えられる。これらのステップは、物理量の物理的動作を必要とするステップである。通常、必ずしもそうではないが、これらの量は、保存、転送、結合、比較、その他の操作が可能な光、電気、または磁気信号の形をとる。主に一般的な使用上の理由から、これらの信号をビット、値、要素、記号、文字、用語、数字などと呼ぶと便利な場合がある。

上記の例示的な実施形態では、プログラムモジュールまたは機能プロセスとして実装され得る動きおよび動作の記号表示（例えば、フローチャートの形を成す）への言及は、特定のタスクを実行するか特定の抽象データ型を実装して既存の構造要素で既存のハードウェアを使用して記述および／または実装され得るルーチン、プログラム、オブジェクト、構成要素、データ構造などを含む。そのような既存のハードウェアには、１つ以上の中央処理装置（ＣＰＵ）、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）コンピュータなどが含まれる場合がある。

しかし、これらの用語および同様の用語は全て、適切な物理量に関連付けられており、これらの量に適用される便宜的なラベルにすぎないことに留意すべきである。特に別段の記載がない限り、または議論から明らかなように、処理または計算、または表示などの計算または決定などの用語は、コンピュータシステムのレジスタおよびメモリ内で物理量、電子量として表されるデータを、操作して、コンピュータシステムのメモリまたはレジスタ内または他のそのような情報記憶デバイス、送信デバイス、または表示デバイス内の物理量として同様に表される他のデータに変換する、コンピュータシステムまたは同様の電子計算装置の動作およびプロセスを指す。

また、例示的実施形態のソフトウェア実装態様は、通常、何らかの形式の非一時的プログラム記憶媒体上に符号化されるか、またはある種の伝送媒体上で実装されることにも留意されたい。プログラム記憶媒体は、磁気（例えば、フロッピーディスクまたはハードドライブ）または光学（例えば、コンパクトディスクリードオンリーメモリ、またはＣＤＲＯＭ）であってもよく、読み取り専用またはランダムアクセスであってもよい。同様に、伝送媒体は、ツイスト対線、同軸ケーブル、光ファイバ、または当技術分野で知られている他の適切な伝送媒体であってもよい。例示的な実施形態は、任意の所与の実装形態のこれらの態様によって限定されない。

最後に、添付の特許請求の範囲は、本明細書に記載される特徴の特定の組み合わせを記載するが、本開示の範囲は、以下に特許請求される特定の組み合わせに限定されず、その特定の組み合わせが現時点で添付の特許請求の範囲に具体的に列挙されているかどうかに関係なく、本明細書に開示される特徴または実施形態の任意の組み合わせを包含するように拡張されることにも留意すべきである。

Claims

シーンのニューラル放射輝度場（ＮｅＲＦ）体積表示に基づいてレンダリングされた画像を受信するステップであって、前記シーンの前記ＮｅＲＦ表示がビデオデータの捕捉されたフレームに基づき、各捕捉されたフレームが、前記シーンのカラー画像、前記シーンが広視野ＩＲ光源によって照明されるときに捕捉された前記シーンの広視野ＩＲ画像、および前記シーンの複数の深度ＩＲ画像を含み、前記シーンが異なるパターンのＩＲ光点によって照明されるときに前記深度ＩＲ画像の各々が捕捉され、前記異なるパターンのＩＲ光点による照明が異なる時間に起こり、前記ＮｅＲＦ表示が、位置と観察方向との間で、前記シーン内の各位置における色および光学密度へのマッピングをもたらし、前記シーン内の各位置における色および光学密度により、新たな視点から前記シーンを観察することが可能になり、前記ＮｅＲＦ表示が、位置と観察方向との間で、新たな視点からそれぞれの前記異なるパターンのＩＲ光点ごとにＩＲ値へのマッピングをもたらす、ステップと、
前記受信された画像から強化された画像を生成するための合成関数を規定するステップと、
ニューラルネットワークによって生成された予測画像とトレーニング中にグランドトゥルースカメラによって捕捉されたグランドトゥルース画像との間の損失関数を最小化することに基づいてトレーニングされたニューラルネットワークを使用して前記合成関数を計算するステップと、
を含む方法。
前記画像を受信する前記ステップの前に、
体積捕捉システムを使用してシーンの３Ｄモデルを捕捉するステップと、
前記ＮｅＲＦ体積表示に基づいて前記画像をレンダリングするステップと、
をさらに含む、請求項１に記載の方法。
前記グランドトゥルースカメラおよび前記体積捕捉システムがいずれもトレーニング中にビューに向けられ、前記グランドトゥルースカメラが前記体積捕捉システムよりも高品質の画像を生成する、請求項２に記載の方法。
前記シーンの前記ＮｅＲＦ表示は、前記シーンに対する複数の観察位置および観察方向について、前記シーンの位置固有および視点固有の色、ＩＲ、および密度画像データを生成するように構成される、請求項１～請求項３のいずれか一項に記載の方法。
前記位置固有および視点固有のＩＲ画像データは、それぞれの前記異なるパターンのＩＲ光点ごとに広視野ＩＲ画像データおよびパターン化されたＩＲ画像データを含む、請求項４に記載の方法。
前記損失関数は、ニューラルネットワークにおける層の活性化にマッピングされたセグメント化されたグランドトゥルース画像と、ニューラルネットワークにおける層の活性化にマッピングされたセグメント化された予測画像との間の再構成差分に基づく再構成損失を含み、前記セグメント化されたグランドトゥルース画像が背景ピクセルを除去するためにグランドトゥルースセグメンテーションマスクによってセグメント化され、前記セグメント化された予測画像が背景ピクセルを除去するために予測セグメンテーションマスクによってセグメント化され、前記予測セグメンテーションマスクは、フレームに関して捕捉された可視光情報とフレームに関して捕捉されたＩＲ光との両方の組み合わせに基づいて予測される、請求項１～請求項５のいずれか一項に記載の方法。
前記再構成差分は、最大エラーを上回るまたは最小エラーを下回るピクセルにおける再構成差分の重み付けを下げるように再重み付けされる顕著性である、請求項６に記載の方法。
前記損失関数は、グランドトゥルースセグメンテーションマスクと予測セグメンテーションマスクとの間のマスク差分に基づくマスク損失を含み、前記予測セグメンテーションマスクは、フレームに関して捕捉された可視光情報とフレームに関して捕捉されたＩＲ光との両方の組み合わせに基づいて予測される、先行する請求項のいずれか一項に記載の方法。
前記予測画像は、画像の予測ステレオ対のうちの一方であり、前記損失関数は、前記画像の予測ステレオ対間のステレオ差分に基づくステレオ損失を含む、請求項１～請求項８のいずれか一項に記載の方法。
前記ニューラルネットワークが完全畳み込みモデルに基づく、先行する請求項のいずれか一項に記載の方法。
ニューラルネットワークを使用して前記合成関数を計算する前記ステップは、
左眼視点における前記合成関数を計算するステップと、
右眼視点における前記合成関数を計算するステップと、
を含む、先行する請求項のいずれか一項に記載の方法。
ニューラルネットワークを使用して前記合成関数を計算する前記ステップがリアルタイムで実行される、先行する請求項のいずれか一項に記載の方法。
フレームにおける前記シーンの前記カラー画像は、モザイク解除されたカラーチャネルを含む、先行する請求項のいずれか一項に記載の方法。
フレームにおける前記シーンの前記カラー画像は、３つの独立したデモザイク解除されないカラーチャネルを含み、前記シーンの前記ＮｅＲＦ表示の基礎となるビデオデータの捕捉されたフレームは、前記３つの独立したデモザイク解除されないカラーチャネルを含む、請求項１～請求項１２のいずれか一項に記載の方法。
捕捉された３Ｄモデルの少なくとも１つの視点から再構成される少なくとも１つの画像をレンダリングするように構成される体積捕捉システムであって、前記少なくとも１つの画像が不完全性を含む、体積捕捉システムと、
前記体積捕捉システムから前記少なくとも１つの画像を受信するとともに、前記少なくとも１つの受信された画像の不完全性が低減された少なくとも１つの強化画像をリアルタイムで生成するように構成されるレンダリングシステムであって、前記レンダリングシステムが、使用前のトレーニングによって前記少なくとも１つの強化画像を生成するように構成されるニューラルネットワークを含み、前記トレーニングが、トレーニング中に前記ニューラルネットワークによって生成される予測画像と、トレーニング中に前記体積捕捉システムと調整された少なくとも１つのグランドトゥルースカメラによって捕捉される対応するグランドトゥルース画像との間の損失関数を最小化することを含み、前記損失関数の最小化が、ビデオデータの捕捉されたフレームに基づき、各捕捉されたフレームが、シーンのカラー画像、前記シーンが広視野ＩＲ光源によって照射されるときに捕捉される前記シーンの広視野ＩＲ画像、および前記シーンの複数の深度ＩＲ画像を含み、前記シーンが異なるパターンのＩＲ光点によって照射されるときに前記深度ＩＲ画像の各々が捕捉される、レンダリングシステムと、
を備える性能捕捉システム。
前記少なくとも１つのグランドトゥルースカメラは、トレーニング中は前記性能捕捉システムに含まれ、そうでない場合は前記性能捕捉システムに含まれない、請求項１５に記載の性能捕捉システム。
前記体積捕捉システムは、単一のビューに向けられた単一のアクティブステレオカメラを含み、トレーニング中に、前記単一のビューに向けられた単一のグランドトゥルースカメラを含む、請求項１５または請求項１６に記載の性能捕捉システム。
前記体積捕捉システムは、複数のビューに向けられた複数のアクティブステレオカメラを含み、トレーニング中に、前記複数のビューに向けられた複数のグランドトゥルースカメラを含む、請求項１５または請求項１６に記載の性能捕捉システム。
前記性能捕捉システムは、前記少なくとも１つの強化画像のうちの１つを左眼ビューとして表示し、前記少なくとも１つの強化画像のうちの１つを右眼ビューとして表示するように構成されるステレオディスプレイを含む、請求項１５または請求項１６に記載の性能捕捉システム。
前記性能捕捉システムがテレプレゼンス通信ノードを含む、請求項１９に記載の性能捕捉システム。
前記ステレオディスプレイが拡張現実（ＡＲ）ヘッドセットに含まれる、請求項１９に記載の性能捕捉システム。
前記ステレオディスプレイがヘッドトラッキング自動ステレオディスプレイである、請求項１９に記載の性能捕捉システム。