JP2024507887A - 暗黙的な放射輝度関数を使用した色および赤外線3次元再構成 - Google Patents

暗黙的な放射輝度関数を使用した色および赤外線3次元再構成 Download PDF

Info

Publication number
JP2024507887A
JP2024507887A JP2023550681A JP2023550681A JP2024507887A JP 2024507887 A JP2024507887 A JP 2024507887A JP 2023550681 A JP2023550681 A JP 2023550681A JP 2023550681 A JP2023550681 A JP 2023550681A JP 2024507887 A JP2024507887 A JP 2024507887A
Authority
JP
Japan
Prior art keywords
image
scene
captured
images
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023550681A
Other languages
English (en)
Inventor
マーティン・ブルアラ,リカルド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2024507887A publication Critical patent/JP2024507887A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • G06T15/205Image-based rendering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4015Image demosaicing, e.g. colour filter arrays [CFA] or Bayer patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/275Image signal generators from 3D object models, e.g. computer-generated stereoscopic image signals
    • H04N13/279Image signal generators from 3D object models, e.g. computer-generated stereoscopic image signals the virtual viewpoint locations being selected by the viewers or determined by tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/332Displays for viewing with the aid of special glasses or head-mounted displays [HMD]
    • H04N13/344Displays for viewing with the aid of special glasses or head-mounted displays [HMD] with head-mounted left-right displays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/398Synchronisation thereof; Control thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/10Cameras or camera modules comprising electronic image sensors; Control thereof for generating image signals from different wavelengths
    • H04N23/11Cameras or camera modules comprising electronic image sensors; Control thereof for generating image signals from different wavelengths for generating image signals from visible and infrared light wavelengths
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Image Processing (AREA)
  • Processing Or Creating Images (AREA)
  • Image Generation (AREA)

Abstract

画像は、シーンのニューラル放射輝度場(NeRF)体積表示に基づいてレンダリングされ、NeRF表示は、ビデオデータの捕捉されたフレームに基づき、各フレームは、シーンのカラー画像、広視野IR画像、および複数の深度IR画像を含む。各深度IR画像は、シーンが異なるパターンのIR光点によって照明されるときに捕捉され、パターンによる照明が異なる時間に起こる。NeRF表示は、位置と観察方向との間で、シーン内の各位置における色および光学密度へのマッピングをもたらし、各位置における色および光学密度により、新たな視点からシーンを観察することが可能になり、NeRF表示は、位置と観察方向との間で、新たな視点からそれぞれの異なるパターンのIR光点ごとにIR値へのマッピングをもたらす。

Description

分野
実施形態は、3次元(3D)ビデオの捕捉およびレンダリングに関する。実施形態は、ニューラル放射輝度場(NeRF)を使用して表示用の画像を再レンダリングする際に用いるニューラルネットワークモデルをトレーニングすることにさらに関する。
背景
拡張現実(AR)および仮想現実(VR)の台頭により、性能捕捉リグ(例えば、カメラリグおよびビデオリグ)を使用した3Dコンテンツ(例えば、人間、キャラクター、俳優、動物、および/または同様のもの)の高品質表示に対する需要が生じている。最近、リアルタイム性能捕捉システムにより、(オフラインマルチビュー性能捕捉システムに加えて)テレプレゼンス、拡張ビデオ、およびライブ性能ブロードキャスティングの新たな使用例が可能になり、その多くは、観察者の位置と視点とに応じて、コンピュータで生成されたシーンのビューを適応的に提供する。
コンピュータグラフィックオブジェクトをレンダリングするように構成される一部のコンピュータは、複数の既存のビューが与えられると、指定されたビューでオブジェクトをレンダリングすることができる。例えば、そのようなコンピュータグラフィックオブジェクトを含むシーンについてカメラから捕捉された幾つかの深度画像とカラー画像とが与えられると、異なる視点からのシーンの新たなビューを合成することとなり得る。シーンは、物理的な色および深度センサを使用してビューが捕捉される実際のシーン、またはラスタライゼーションなどのレンダリングアルゴリズムを使用してビューが捕捉される合成シーンのいずれかである。実際のシーンの場合、飛行時間センサ、構造化光ベースのセンサ、ステレオまたはマルチビューステレオアルゴリズムなど、多くの深度センシングテクノロジーが存在する。そのような技術は、受動的または能動的な照明パターンを伴う可視センサまたは赤外線センサを含む場合があり、パターンは時間的に変化し得る。
既存の性能捕捉システムは、歪んだジオメトリ、貧弱なテクスチャリング、および不正確な照明、不十分に分解されたエッジ、不正確な色の幾つかの組み合わせを含む、1つ以上の技術的問題に見舞われる可能性があり、したがって、ARアプリケーションおよびVRアプリケーションで必要とされる品質レベルに到達することが困難になる可能性がある。これらの技術的な問題により、最終的なユーザエクスペリエンスが望ましくないものになる可能性がある。
概要
少なくとも1つの態様において、方法は、シーンのニューラル放射輝度場(NeRF)体積表示に基づいてレンダリングされた画像を受信するステップを含み、シーンのNeRF表示がビデオデータの捕捉されたフレームに基づき、各捕捉されたフレームは、シーンのカラー画像、シーンが広視野IR光源によって照明されるときに捕捉されたシーンの広視野IR画像、およびシーンの複数の深度IR画像を含む。シーンが異なるパターンのIR光点によって照明されるときに深度IR画像のそれぞれが捕捉され、異なるパターンのIR光点による照明が異なる時間に起こる。NeRF表示は、位置と観察方向との間で、シーン内の各位置における色および光学密度へのマッピングをもたらし、シーン内の各位置における色および光学密度により、新たな視点からシーンを観察することが可能になり、NeRF表示は、位置と観察方向との間で、新たな視点からそれぞれの異なるパターンのIR光点ごとにIR値へのマッピングをもたらす。受信された画像から強化された画像を生成するための合成関数が規定され、また、ニューラルネットワークによって生成された予測画像とトレーニング中にグランドトゥルースカメラによって捕捉されたグランドトゥルース画像との間の損失関数を最小化することに基づいてトレーニングされたニューラルネットワークを使用して合成関数が計算される。
実現例、以下の特徴のうちの1つ以上を単独でまたは相互に任意に組み合わせて含むことができる。
方法は、画像を受信するステップの前に、体積捕捉システムを使用してシーンの3Dモデルを捕捉するステップと、NeRF体積表示に基づいて画像をレンダリングするステップとをさらに含むことができる。
グランドトゥルースカメラおよび体積捕捉システムをいずれもトレーニング中にビューに向けることができ、グランドトゥルースカメラが体積捕捉システムよりも高品質の画像を生成することができる。
シーンのNeRF表示は、シーンに対する複数の観察位置および観察方向について、シーンの位置固有および視点固有の色、IR、および密度画像データを生成するように構成され得る。
位置固有および視点固有のIR画像データは、それぞれの異なるパターンのIR光点ごとに広視野IR画像データおよびパターン化されたIR画像データを含むことができる。
損失関数は、ニューラルネットワークにおける層の活性化にマッピングされたセグメント化されたグランドトゥルース画像と、ニューラルネットワークにおける層の活性化にマッピングされたセグメント化された予測画像との間の再構成差分に基づく再構成損失を含むことができ、セグメント化されたグランドトゥルース画像が背景ピクセルを除去するためにグランドトゥルースセグメンテーションマスクによってセグメント化され、セグメント化された予測画像が背景ピクセルを除去するために予測セグメンテーションマスクによってセグメント化され、予測セグメンテーションマスクは、フレームに関して捕捉された可視光情報とフレームに関して捕捉されたIR光との両方の組み合わせに基づいて予測される。
再構成差分は、最大エラーを上回るまたは最小エラーを下回るピクセルにおける再構成差分の重み付けを下げるように再重み付けされる顕著性となり得る。
損失関数は、グランドトゥルースセグメンテーションマスクと予測セグメンテーションマスクとの間のマスク差分に基づくマスク損失を含むことができ、予測セグメンテーションマスクは、フレームに関して捕捉された可視光情報とフレームに関して捕捉されたIR光との両方の組み合わせに基づいて予測される。
予測画像は、画像の予測ステレオ対のうちの一方となることができ、損失関数は、画像の予測ステレオ対間のステレオ差分に基づくステレオ損失を含むことができる。
ニューラルネットワークが完全畳み込みモデルに基づくことができる。
ニューラルネットワークを使用して合成関数を計算するステップは、左眼視点における合成関数を計算するステップと、右眼視点における合成関数を計算するステップとを含むことができる。
ニューラルネットワークを使用して合成関数を計算するステップをリアルタイムで実行することができる。
フレームにおけるシーンのカラー画像は、モザイク解除されたカラーチャネルを含むことができる。
フレームにおけるシーンのカラー画像は、3つの独立したデモザイク解除されないカラーチャネルを含むことができ、シーンのNeRF表示の基礎となるビデオデータの捕捉されたフレームは、3つの独立した、デモザイク解除されないカラーチャネルを含む。
他の一般的な態様において、性能捕捉システムは、捕捉された3Dモデルの少なくとも1つの視点から再構成される少なくとも1つの画像をレンダリングするように構成される体積捕捉システムであって、少なくとも1つの画像が不完全性を含む、体積捕捉システムと、体積捕捉システムから少なくとも1つの画像を受信するとともに、少なくとも1つの受信された画像の不完全性が低減された少なくとも1つの強化画像をリアルタイムで生成するように構成されるレンダリングシステムとを含む。レンダリングシステムは、使用前のトレーニングによって少なくとも1つの強化画像を生成するように構成されるニューラルネットワークを含み、トレーニングは、トレーニング中にニューラルネットワークによって生成される予測画像と、トレーニング中に体積捕捉システムと調整された少なくとも1つのグランドトゥルースカメラによって捕捉される対応するグランドトゥルース画像との間の損失関数を最小化することを含み、損失関数の最小化は、ビデオデータの捕捉されたフレームに基づき、各捕捉されたフレームは、シーンのカラー画像、シーンが広視野IR光源によって照射されるときに捕捉されるシーンの広視野IR画像、およびシーンの複数の深度IR画像を含み、シーンが異なるパターンのIR光点によって照射されるときに深度IR画像のそれぞれが捕捉される。
例示的な実施形態は、本明細書で与えられる以下の詳細な説明および添付図面からより完全に理解されるようになり、この場合、同様の要素が同様の参照番号で表わされ、これらは、例示のみを目的として与えられており、したがって例示的な実施形態を限定するものではない。
少なくとも1つの例示的な実施形態に係る性能捕捉システムのブロック図である。 少なくとも1つの例示的な実施形態に係るレンダリングシステムのブロック図を示す。 少なくとも1つの例示的な実施形態に係る3Dコンテンツシステムの一例のブロック図である。 少なくとも1つの例示的な実施形態に係る3Dビデオのフレームをレンダリングするための方法を示す図である。 少なくとも1つの例示的な実施形態に係る3Dビデオのフレームをレンダリングするための方法を示す図である。 少なくとも1つの例示的な実施形態に係る学習モジュールシステムのブロック図である。 少なくとも1つの例示的な実施形態に係るニューラル再レンダリングモジュールのブロック図である。 スパース性制約を伴わない畳み込みニューラルネットワークの層を示す図である。 スパース性制約を伴う畳み込みニューラルネットワークの層を示す図である。 少なくとも1つの例示的な実施形態に係る低品質画像から視覚的に強化された再レンダリング画像を生成する深層学習技術を示す図である。 少なくとも1つの例示的な実施形態に係る低品質画像から視覚的に強化された再レンダリング画像を生成する深層学習技術を示す図である。 低品質画像の例を示す図である。 少なくとも1つの例示的な実施形態に係る畳み込みニューラルネットワークモデルの例示的なトレーニングデータを示す図である。 少なくとも1つの例示的な実施形態に係る再構成損失を示す図である。 少なくとも1つの例示的な実施形態に係るマスク損失を示す図である。 少なくとも1つの例示的な実施形態に係るヘッド損失を示す図である。 少なくとも1つの例示的な実施形態に係るステレオ損失を示す図である。 少なくとも1つの例示的な実施形態に係る時間的損失を示す図である。 少なくとも1つの例示的な実施形態に係る顕著性損失を示す図である。 少なくとも1つの例示的な実施形態に係るコンピュータデバイスおよびモバイルコンピュータデバイスの一例を示す。 少なくとも1つの例示的な実施形態に係る立体視ディスプレイでコンテンツを提供する例示的な出力画像のブロック図である。 本明細書に記載の技術を実装するプロセス1300の概略フローチャートである。
これらの図は、特定の例示的な実施形態で利用される方法、構造、および/または材料の一般的な特徴を示し、以下に提供される書面による説明を補足することを意図していることに留意すべきである。しかしながら、これらの図面は縮尺通りではなく、所与の実施形態の正確な構造特性または性能特性を正確に反映していない場合があり、例示的な実施形態に包含される値または特性の範囲を定義または制限するものとして解釈されるべきではない。例えば、層、領域、および/または構造要素の相対的な厚さおよび位置は、明確にするために縮小または誇張されている場合がある。様々な図面における類似または同一の参照番号の使用は、類似または同一の要素または特徴の存在を示すことを意図している。
実施形態の詳細な説明
例示的な実施形態は、様々な修正および代替形態を含むことができるが、それらの実施形態は、例として図面に示され、本明細書で詳細に説明される。しかしながら、例示的な実施形態を開示された特定の形態に限定する意図はなく、逆に、例示的な実施形態は、特許請求の範囲内に含まれる全ての修正、等価物、および代替物を網羅するものであることを理解すべきである。図面の説明全体を通じて、同様の番号は同様の要素を指す。
既存のビューからシーンの新しいビューを合成する従来のアプローチは、ニューラル放射輝度場(NeRF)を使用する。このアプローチでは、静的シーンは、空間内の各点(x,y,z)で各方向(θ,φ)に放射される放射輝度と、(x,y,z)を通過する光線によって蓄積される放射輝度の量を制御する差分不透明度のように作用する各点の密度とを出力する連続5次元関数として表わすことができる。このアプローチは、単一の5D座標(x,y,z,θ,φ)から単一の体積密度とビュー依存のRGBカラーに回帰することによって5次元関数を表示するために、畳み込み層を伴わないディープ完全接続ニューラルネットワーク(MLP)を最適化する。
この5次元関数、すなわちNeRFをレンダリングするために、1)シーンを通してカメラ光線を行進させて、サンプリングされた3D点のセットを生成し、2)それらの点およびそれらの対応する2D観察方向をニューラルネットワークへの入力として使用して、色および密度の出力セットを生成し、3)古典的な体積レンダリング技術を使用して、それらの色および密度を2D画像に蓄積することができる。このプロセスは必然的に微分可能であるため、勾配降下法を使用して、観察された各画像と表示からレンダリングされた対応するビューとの間のエラーを最小化することによってNeRFを最適化できる。複数のビューにわたってこのエラーを最小化すると、実際の基礎となるシーンコンテンツを含む場所に高い体積密度と正確な色とを割り当てることで、ネットワークがシーンの一貫したモデルを予測することが促進される。
NeRFは連続的な体積表示である。それは、3D位置x=(x,y,z)および観察方向d=(φ,θ)をRGBカラーc=(r,g,b)および密度σにマッピングする関数F:(x,d)→(c,σ)である。体積レンダリング技術と組み合わせると、NeRFは写真のようにリアルな品質でシーンを表わすことができる。このため、NeRFは、写真のようにリアルな人間捕捉の問題に取り組むために構築される。
NeRFは非常に成功しているが、人間がいるシーンを本物のような画質で表わそうとすると、幾つかの不完全性が生じる可能性がある。例えば、シーンの特徴が、歪んだジオメトリ、貧弱なテクスチャリング、不正確な照明、不十分に分解されたエッジ、不正確な色などでレンダリングされる可能性がある。
これらの制限に対処するために、機械学習技術およびモデルを使用して、NeRFの性能を向上させることができる。例えば、高品質のトレーニングデータを生成して使用し、NeRFに基づいて低品質の画像から高品質の画像のレンダリングを改善するために使用される機械学習モデルをトレーニングすることができる。幾つかの実装形態では、トレーニングデータは、シーンのカラー(例えば、RGB)画像に加えて、シーンの広視野赤外線画像、およびシーン内のオブジェクトに重ねられた複数の異なる赤外線パターンに基づくテクスチャデータを含むことができる。赤外広視野画像と赤外テクスチャデータは、シーンのNeRFを生成する機械学習モデルで使用できる。
性能捕捉リグ(すなわち、性能捕捉システム)は、被写体(例えば、人)およびその動きを3次元(3D)で捕捉するために使用され得る。性能捕捉リグは、3Dモデル(例えば、NeRF)を生成し、(場合によっては)ビューの体積再構成を使用して3D体積再構成(すなわち、画像)をレンダリングするために必要なデータを捕捉するように構成された体積捕捉システムを含むことができる。アクティブステレオカメラ、タイムオブフライト(TOF)システム、ライダーシステム、パッシブステレオカメラなどを含む(ただしこれらに限定されない)、様々な体積捕捉システムを実装することができる。幾つかの実装形態では、単一の体積捕捉システムが使用され得るが、他の実施形態では、複数の体積捕捉システムが(例えば、調整された捕捉において)使用され得る。
体積再構成は、画像のビデオストリームを(例えば、リアルタイムで)レンダリングすることができ、左眼視点および右眼視点に対応する別個の画像をレンダリングすることができる。左眼視点および右眼視点の2D画像は、ステレオディスプレイに表示されてもよい。ステレオディスプレイは、ヘッドトラッキングステレオディスプレイであってもよい。拡張現実(AR)メガネディスプレイ、仮想現実(VR)ヘッドセットディスプレイ、自動ステレオディスプレイ(例えば、ヘッドトラッキング自動ステレオディスプレイ)を含む(ただしこれらに限定されない)、様々なステレオディスプレイが実装され得る。幾つかの実装形態では、ステレオディスプレイは、第1の場所にいる人の非常に現実的なレンダリングを第2の場所にいる人に提示できるテレプレゼンスシステムで使用され得る。
レンダリングされた2D画像および/またはステレオディスプレイ上のそれらの表示には、不完全性(すなわちアーチファクト)が存在する可能性がある。アーチファクトには、強度ノイズ、低解像度のテクスチャ、オフカラーなどのグラフィックアーチファクトが含まれる場合がある。アーチファクトには、一貫性のない左右のビューなどのステレオアーチファクトがさらに含まれる場合がある。アーチファクトは、性能捕捉リグに関連する制限/問題によるものである可能性がある。例えば、複雑さやコストの制約により、性能捕捉リグで収集できるデータが制限される場合がある。また、アーチファクトは、3D画像をレンダリングできるようにするための深度情報の収集と送信に関連する制限/問題が原因である可能性がある。さらに、アーチファクトは、ネットワーク上のデータ転送に関連する制限(帯域幅など)が原因である可能性がある。本開示は、アーチファクトの発生源に関係なく、アーチファクトを低減または除去するシステムおよび方法について説明する。したがって、開示されたシステムおよび方法は、いかなる特定の性能捕捉システムまたはステレオディスプレイにも限定されない。
想定し得る一実装形態では、既存の性能捕捉システムに関連する技術的問題により、穴、ノイズ、低解像度のテクスチャ、およびカラーアーチファクトを含む3D体積再構成画像が生じる可能性がある。これらの技術的問題により、VRおよびARアプリケーションにおけるユーザエクスペリエンスが望ましくないものになる可能性がある。
前述の技術的問題に対する技術的解決策は、リアルタイムで体積ビデオを強化する機械学習を実装する。幾何学的な非剛体再構成パイプラインを深層学習と組み合わせて、より高品質の画像を生成できる。開示されたシステムは、視覚的に顕著な領域(例えば、人間の顔)に焦点を合わせ、背景が正確に画定されている背景などの無関係な情報を破棄することができ、シーンから収集された可視光(色)情報および赤外(IR)光情報を含むマルチスペクトル情報を使用して、高品質の画像を生成することができる。説明されている解決策は、最適なユーザエクスペリエンスを実現するために左右のビューが一貫している必要があるVRおよびARアプリケーションでの実装に関して、時間的に安定したレンダリングを生成できる。
技術的解決策は、リアルタイムで近似の幾何学形状およびテクスチャを取得するためのリアルタイム性能捕捉(すなわち、画像および/またはビデオ捕捉)を含むことができる。そのようなシステムの最終的な2Dレンダリング出力は、幾何学的アーチファクト、貧弱なテクスチャリング、および不正確な照明により低品質になる可能性がある。したがって、実装例では深層学習を使用して最終レンダリングを強化し、リアルタイムで高品質の結果を達成できる。例えば、ディファードシェーディングディープバッファおよび/またはマルチビュー性能捕捉システムからの最終的な2Dレンダリング画像を入力として受け取り、そのような画像をリアルタイムで強化することを学習して、最終的な高品質の再レンダリングを生成するディープラーニングアーキテクチャ(図7Aおよび7Bを参照)を使用することができる。このアプローチはニューラル再レンダリングと呼ばれる。
本明細書では、ニューラル再レンダリング技術について説明する。ニューラル再レンダリング技術を使用する技術的な利点には、画像に穴、ノイズ、低解像度のテクスチャ、色のアーチファクトが含まれる性能捕捉システムからの低品質の出力をリアルタイムで強化する方法を学習できることが含まれる。低品質画像の幾つかの例を図8に示す。さらに、ユーザを残りの背景から分離するバイナリセグメンテーションマスクを予測できる。ニューラル再レンダリング技術を使用する技術的な利点には、学習段階で低解像度の入力画像から高解像度の出力レンダリングへのマッピングをネットワークに学習させ、その後、ライブ性能捕捉システムからの低解像度画像(強化された画像など)を使用することにより、そのようなディープアーキテクチャに必要な全体の帯域幅と計算量を削減する方法も含まれる。
ニューラル再レンダリング技術を使用する技術的な利点には、意味情報を使用して顔上に高品質の結果を生成できる特殊な損失関数も含まれる。外れ値の影響を軽減するには、最も関連性の高い領域の損失に焦点を当てる顕著性の再重み付けスキームを使用できる。損失関数はVRおよびARヘッドセットのために設計されており、その目標は同じオブジェクトの2つの一貫したビューを予測することである。ニューラル再レンダリング技術を使用する技術的な利点には、連続して再構築されたフレーム間の一貫性を強化することにより、時間的に安定した再レンダリングが可能になることも含まれる。
図1は、少なくとも1つの例示的な実施形態に係る性能捕捉システム(すなわち、捕捉システム)のブロック図を示す。図1に示されるように、捕捉システム100は、ウィットネスカメラを伴う3Dカメラリグ110、エンコーダ120、デコーダ130、レンダリングモジュール140および学習モジュール150を含む。ウィットネスカメラを伴うカメラリグ110は、ビデオデータ5として3Dビデオを捕捉するために使用される第1のカメラセットと、少なくとも1つの観点から、グランドトゥルース画像データ30として高品質(例えば、第1のカメラセットと比較して)画像を捕捉するために使用される少なくとも1つのウィットネスカメラを含む。カメラリグはまた、例えば深度および/またはテクスチャ情報を決定するため、および/または背景からシーン内のオブジェクトまたは被写体を区別するために使用され得る赤外線(IR)を捕捉するための赤外線センサを含むこともできる。グランドトゥルース画像データ30は、3Dビデオに関連付けられたフレームまたは画像と比較して、より詳細な画像(例えば、より高い精細度、より高い解像度、より高いピクセル数、より多くの/より優れた深度情報の追加など)および/または画質を改善するための捕捉後処理を含む画像であり得る。グランドトゥルース画像データ30は、グランドトゥルース画像(のセット)、画像のラベル、画像セグメンテーション情報、画像および/またはセグメント分類情報、位置情報などを含むことができる。グランドトゥルース画像データ30は、ニューラルネットワークモデルをトレーニングするために学習モジュール150によって使用される。グランドトゥルース画像データ30の各画像は、ビデオデータ5の対応するフレームを有することができる。
エンコーダ120は、第1のカメラセットによって捕捉された3Dビデオを圧縮するように構成することができる。エンコーダ120は、ビデオデータ5を受信し、標準的な圧縮技術を使用して圧縮ビデオデータ10を生成するように構成することができる。デコーダ130は、圧縮ビデオデータ10を受信し、標準圧縮技術の逆を使用して再構成ビデオデータ15を生成するように構成することができる。図1に示す一点鎖線は、代替実装形態において、エンコーダ120およびデコーダ130をバイパスすることができ、ビデオデータ5をレンダリングモジュール140に直接入力できることを示している。これにより、捕捉システム100によって使用される処理リソースを削減することができる。しかしながら、学習モジュール150は、トレーニングプロセスにおける圧縮および解凍によって導入されるエラーを含まなくてもよい。
レンダリングモジュール140は、再構成されたビデオデータ15(またはビデオデータ5)に基づいて左眼ビュー20および右眼ビュー25を生成するように構成される。左眼ビュー20は、ヘッドマウントディスプレイ(HMD)の左眼ディスプレイ上に表示される画像であり得る。右眼ビュー25は、HMDの右眼ディスプレイ上に表示される画像であり得る。レンダリングは、デジタル画像を生成するために、再構成されたビデオデータ15(またはビデオデータ5)に関連付けられたシーンの3Dモデル(例えば、シーンのNeRF)を処理することを含むことができる。3Dモデルは、例えば、シェーディング情報、照明情報、テクスチャ情報、幾何学情報などを含むことができる。レンダリングは、グラフィカルプロセッシングユニット(GPU)によるレンダリングアルゴリズムを実装することを含むことができる。したがって、レンダリングは3DモデルをGPUに渡すことを含むことができる。
学習モジュール150は、可視波長範囲およびIR波長範囲を含み得る異なる波長範囲で捕捉された画像を含み得る、1つ以上の低品質画像に基づいて高品質画像を生成するようにニューラルネットワークまたはモデルをトレーニングするように構成され得る。例示的な実装形態では、画像は、ニューラルネットワークまたはモデルを使用して、左眼ビュー20(または右眼ビュー25)に基づいて反復的に予測される。その後、予測画像の各反復は、損失関数が最小になるまで(または閾値未満になるまで)、損失関数を使用して、グランドトゥルース画像データ30から選択された対応する画像と比較される。学習モジュール150については、以下でより詳細に説明する。
図2Aは、少なくとも1つの例示的な実施形態に係るレンダリングシステムのブロック図を示す。図2Aに示すように、レンダリングシステム200は、デコーダ130、レンダリングモジュール140、およびニューラル再レンダリングモジュール210を含む。図2Aに示されるように、圧縮ビデオデータ10は、デコーダ130によって解凍されて、再構成されたビデオデータ15が生成される。その後、レンダリングモジュール140が、再構成されたビデオデータ15に基づいて左眼ビュー20および右眼ビュー25を生成する。
ニューラル再レンダリングモジュール210は、左眼ビュー20に基づいて再レンダリングされた左眼ビュー35を生成し、右眼ビュー25に基づいて再レンダリングされた右眼ビュー40を生成するように構成される。ニューラル再レンダリングモジュール210は、学習モジュール150によってトレーニングされたニューラルネットワークまたはモデルを使用して、再レンダリングされた左眼ビュー35を左眼ビュー20のより高品質の表示として生成するように構成される。ニューラル再レンダリングモジュール210は、学習モジュール150によってトレーニングされたニューラルネットワークまたはモデルを使用して、右眼ビュー25のより高品質な表示として再レンダリングされた右眼ビュー40を生成するように構成される。ニューラル再レンダリングモジュール210については、以下でより詳細に説明する。
図1に示す捕捉システム100は、強化されたビデオレンダリング技術の第1段階(または段階1)となることができ、図2Aに示すレンダリングシステム200は、強化されたビデオレンダリング技術の第2段階(または段階2)となり得る。図3A(段階1)および図3B(段階2)は、少なくとも1つの例示的な実施形態に係る3Dビデオのフレームをレンダリングする方法を示す。図3Aおよび図3Bに関して説明したステップは、装置および/またはサービス(例えば、クラウドコンピューティングサービス)に関連付けられたメモリに格納され、装置および/またはサービスに関連付けられた少なくとも1つのプロセッサによって実行されるソフトウェアコードの実行によって行なわれ得る。しかしながら、専用プロセッサとして実現されるシステムなどの代替実施形態も考えられる。以下に説明するステップはプロセッサによって実行されるものとして説明されているが、各ステップは必ずしも同じプロセッサによって実行される必要はない。換言すれば、少なくとも1つのプロセッサは、図3Aおよび図3Bに関して以下に説明するステップを実行することができる。
図2Bは、少なくとも1つの例示的な実施形態に係る3Dコンテンツシステムの一例のブロック図を示す。3Dコンテンツシステム201は、複数の人が使用することができる。ここで、3Dコンテンツシステム201は、第1の人202および第2の人204によって使用されている。例えば、第1の人202および第2の人204は、3Dテレプレゼンスセッションに参加するために3Dコンテンツシステム201を使用している。そのような例では、3Dコンテンツシステム201は、人202,204の各々が互いの非常に現実的で視覚的に一致した表示を見ることができるようにし、それによって、物理的にお互いに存在しているのと同様に、彼らが互いに対話することを容易にする。
人202,204の各々は、対応する3Dポッドを有することができる。ここで、第1の人202はポッド206を有し、第2の人204はポッド208を有する。ポッド206および208は、3D表示用の画像の捕捉、画像情報の処理および提示、および音声情報の処理および提示を含むがこれらに限定されない、3Dコンテンツに関連する機能を提供することができる。ポッド206および/または208は、1つのユニットとして統合されたプロセッサおよび感知デバイスの集合を含むことができる。
3Dコンテンツシステム201は、1つ以上の3Dディスプレイを含むことができる。ここで、3Dディスプレイ210がポッド206に提供され、3Dディスプレイ212がポッド208に提供される。3Dディスプレイ210および/または212は、複数のタイプの3Dディスプレイ技術のいずれかを使用して、それぞれの観察者(ここでは、例えば人202または204)に立体視を提供することができる。幾つかの実装形態では、3Dディスプレイ210および/または212は、スタンドアロンユニット(例えば、自立型または壁に吊り下げられたユニット)を含むことができる。幾つかの実装形態では、3Dディスプレイ210および/または212は、ウェアラブル技術(例えば、ヘッドマウントディスプレイ)を含むことができる。幾つかの実施形態では、3Dディスプレイ210および/または212は自動立体ディスプレイアセンブリを含むことができる。
3Dコンテンツシステム201は、1つ以上のネットワークに接続することができる。ここで、ネットワーク214は、ポッド206およびポッド208に接続される。ネットワーク214は、2つの例を挙げると、公的に利用可能なネットワーク(例えば、インターネット)またはプライベートネットワークであり得る。ネットワーク214は、有線、無線、またはその2つの組み合わせであり得る。ネットワーク214は、1つ以上のサーバ(図示せず)を含むが、これに限定されない、1つ以上の他のデバイスもしくはシステムを含むか、またはそれらを利用することができる。
ポッド206および/または208は、3D情報の捕捉、処理、送信もしくは受信、および/または3Dコンテンツのプレゼンテーションに関連する複数の構成要素を含むことができる。ポッド206および208は、可視光および/またはIR光でシーンの対象物(例えば、第1および第2の人202、204)を照明するための1つ以上の照明源と、3Dプレゼンテーションに含まれる画像を生成するために画像コンテンツを捕捉するためのカメラとを含むことができる。幾つかの実装形態では、照明源は、回折光学素子(DOE)を通して光り、撮像されるべきシーンを照明するIRレーザ光点のパターンを生成するIRレーザを含むことができる。IRレーザ光点のパターンは、シーンの可視画像が捕捉されるフレームレートと同期した周期で周期的に生成することができるため、IRレーザ光点のパターンのIR画像は、シーンのカラー画像を取得してから1/20秒以内に取得することができる。IRレーザ光点を使用して、捕捉された画像からシーン内の深度情報を決定して割り当てることができる。幾つかの実装形態では、レーザ光点の複数の異なる(例えば、非縮退)パターンを生成し、シーンを照明するために使用することができ、異なるパターンのそれぞれは、シーンの可視画像が捕捉されるフレームレートと同期した周期で周期的に生成され、その結果、IRレーザ光点の異なるパターンのそれぞれのIR画像が、シーンのカラー画像を取得してから1/20秒以内に取得され得る。複数のパターンを使用すると、複数のパターンからのより豊富な情報を使用して、シーン内のオブジェクトのより適切な深度データを生成できる。
また、シーンは、広角にわたってほぼ均一なIR光強度を提供する1つ以上のIR照明源からの広視野の非パターン化IR光で照明することができ、シーンのIR画像を取得することができる。1つ以上の照明源からの広視野の非パターン化IR光は、シーンの可視画像が捕捉されるフレームレートと同期した周期で周期的に生成することができ、シーンが広視野の非パターン化IR光で照明されている間にシーンのIR画像(すなわち、「ガイド」画像)を捕捉することができ、その結果、シーンの広視野IR画像は、シーンのカラー画像を取得してから1/20秒以内に取得することができる。被写体202、204の画像が捕捉される環境は、IR光に対して高い反射率を有する背景240、242を含むことができ、その結果、被写体202、204のIR画像を使用して、捕捉された画像内の被写体のエッジを背景から区別することができる。背景240、242は、IR光の反射率が高い材料を含む布地材料を含むことができる。例えば、布地は、布地に織り込まれた金属材料(例えば、金属繊維)を含むことができる。別の例では、布地材料の繊維は、例えば、金属酸化物、セラミック材料、または無機材料を含み得るIR反射顔料(IRP)でコーティングされてもよい。
ここで、ポッド206はカメラ216および218を含み、カメラ216および218のそれぞれは、可視色およびIR波長を含む1つ以上の波長範囲の光を検出することができる。例えば、カメラ216および/または218は、本質的にポッド206のハウジング内に配置され、それぞれのカメラ216および/または218の対物レンズまたはレンズがハウジング内の1つ以上の開口部を介して画像コンテンツを捕捉することができる。幾つかの実装形態では、カメラ216および/または218は、(例えば、ポッド206への有線および/または無線接続を備えた)スタンドアロンデバイスの形態など、ハウジングから分離することができる。カメラ216および218は、人202の(ここでの)十分に代表的なビューを捕捉するように位置決めおよび/または方向付けることができる。カメラ216および218は、人202に対する3Dディスプレイ210のビューを遮らないことが好ましいが、カメラ216および218の配置は一般に任意に選択することができる。例えば、カメラ216および218のうちの1つは人202の顔の上のどこかに配置することができ、もう1つは顔の下のどこかに配置することができる。例えば、カメラ216および218のうちの一方を人202の顔の右側のどこかに配置し、他方を顔の左側のどこかに配置することができる。ポッド208は、同様の方法で、例えばカメラ220および222を含むことができる。
可視光を検出するカメラ220および222は、光センサセンサアレイおよびカラーフィルタを含むことができ、センサの個々のピクセルが光の異なる波長を検出できるようにする。例えば、各ピクセルは、光の赤(R)、緑(G)、および青(B)の波長を検出するためのサブピクセルを含む。ピクセルのサブピクセルによって検出された光信号は、モザイク解除プロセスを通じて処理され、ピクセルに色を割り当てることができます。幾つかの実装形態では、サブピクセルによって検出された光信号は、独立したR、G、およびBチャネルデータを、パイプニューラル再レンダリングモジュール210を介して1つのポッド206から別のポッド208に送信する前に、モザイク解除プロセスを通じて処理されない。むしろ、独立したR、G、およびBチャネルデータは、受信ポッドでニューラル再レンダリングモジュール210によって処理されて、表示される画像を生成する。
ポッド206および/または208は、3Dプレゼンテーションで使用される深度データを捕捉するための1つ以上の深度センサを含むことができる。そのような深度センサ(例えば、IR感知カメラ)は、ポッド206および/または208によって捕捉されたシーンを特徴付けて3Dディスプレイ上に正確に表示するために使用される3Dコンテンツシステム201の深度捕捉構成要素の一部と考えることができる。また、システムは観察者の頭の位置と方向を追跡できるため、観察者の現在の視点に対応する外観で3Dプレゼンテーションをレンダリングできる。ここで、ポッド206は深度センサ224を含む。同様に、ポッド208は深度センサ224を含むことができる。深度データを生成するために、複数の種類の深度センシングまたは深度捕捉のいずれかを使用することができる。幾つかの実装形態では、支援付きステレオ深度捕捉が実行される。シーンは、深度センサ224に含まれるレーザおよびDOEによって生成できるIR光点のパターンを使用して照明することができ、2台のそれぞれのカメラ間でステレオマッチングを実行することができる。ここで、深度センサ224は、例示として、IRビーム228Aおよび228を使用して動作し、ビーム228Aおよび228は、点のパターンを生成する複数のビームを表わす。ビーム228Aおよび228Bは、場合に応じて、ポッド206から、3D捕捉されているシーン内の構造物または他のオブジェクト(例えば、人202)に向かって、および/またはそのような構造物/オブジェクトからポッド206内の対応する検出器に進むことができる。検出された信号を処理して、シーンの一部または全体に対応する深度データを生成することができる。したがって、ビーム228A-Bは、3D表示の目的でシーンを特徴付けるために3Dコンテンツシステム201が依存する信号に関連すると考えることができる。例えば、ビーム228A-Bは、IR信号を含むことができる。同様に、ポッド208は、一例として、ビーム230A-Bを使用して動作することができる。
深度データは、深度センサ(例えば、深度センサ224)とシーン内のオブジェクトとの間の距離を反映するシーンに関する情報を含むか、またはそれに基づくことができる。深度データは、シーン内のオブジェクトに対応する画像内のコンテンツについて、オブジェクトまでの距離(または深度)を反映する。例えば、カメラと深度センサの間の空間的関係を知ることができ、カメラからの画像を深度センサからの信号と相関させて画像の深度データを生成するために使用することができる。
幾つかの実装形態では、深度捕捉は、構造化光またはコード化光に基づくアプローチを含むことができる。例えば、IR光のパターン(例えば、ドットのパターンまたは縞模様のパターン)を比較的高いフレームレートでシーン上に分配することができる。例えば、光信号が時間的に互いに十分に近く、人やオブジェクトが動いている場合でも、連続する信号間でシーンが大幅に変化すると予想されない場合、フレームレートが高いと考えられる。シーン内のオブジェクトに投影される結果のパターンは、深度センサ内のIR感知カメラによって検出でき、検出されたパターンは、1つ以上の点でシーンの幾何学形状を決定するために(例えば、三角測量またはその他の技術を使用して)処理できる。
幾つかの実装形態では、ポッド206,208のカメラによって捕捉されたシーンのビデオデータのカラー画像フレームごとに、例えば人202,204を含むシーンのビデオデータを捕捉するとき、そのシーンの少なくとも1つの対応する広視野IR画像を捕捉することができ、複数の深度IR画像を捕捉することができ、複数の深度IR画像のそれぞれは、シーン上の異なるパターンのIR点のIR画像を捕捉する。その後、捕捉されたビデオデータを使用して、ビデオデータのフレームごとに機械学習モデルをトレーニングできる。次いで、トレーニングされたモデルを使用して、低品質ビデオデータのそれぞれのフレームごとに捕捉されたシーンのカラー画像、広視野IR画像、および複数の深度IR画像に基づいて、ビデオデータの低品質フレームからビデオデータの強化品質フレームを生成することができる。
3Dコンテンツシステム201によって捕捉された画像は、処理され、その後、3Dプレゼンテーションとして表示され得る。ここで、3D画像204’は、3Dディスプレイ210上に提示される。したがって、人202は、3D画像204’を、人202から遠隔にいる可能性がある人204の3D表示として認識することができる。3D画像202’は、3Dディスプレイ212上に提示される。そのため、人204は、3D画像202’を人202の3D表示として認識することができる。3次元情報処理の例を以下に説明する。
3Dコンテンツシステム201は、参加者(例えば、人202および204)が互いにおよび/または他者と音声通信を行なうことができるようにし得る。幾つかの実装形態では、ポッド206は、スピーカおよびマイクロフォン(図示せず)を含む。例えば、ポッド208は同様にスピーカおよびマイクロフォンを含むことができる。したがって、3Dコンテンツシステム201は、人202および204が互いにおよび/または他の人と3Dテレプレゼンスセッションに参加することができるようにし得る。
図3Aは、ビデオ画像を生成するために機械学習モデルをトレーニングするプロセスの概略フローチャートである。図3Aに示されるように、ステップS305において、少なくとも1つのウィットネスカメラを含むカメラリグを使用して、第1の3次元(3D)ビデオの複数のフレームが捕捉される。3Dビデオデータのフレームの捕捉には、シーンの少なくとも1つのカラー画像の捕捉、シーンが広視野IR光源によって照明されるときのシーンの少なくとも1つのIR画像の捕捉、およびシーンの複数のIR画像の捕捉が含まれ、シーンが異なるパターンのIR光点によって照明されるときに各IR画像が捕捉される。幾つかの実装形態では、シーンの捕捉されたカラー画像は、モザイク解除された画像であってもよい。幾つかの実装形態では、シーンの捕捉されたカラー画像は、画像の各ピクセルに対する少なくとも3つの独立したカラーチャネル(例えば、赤、緑、および青)の生データ(すなわち、モザイク解除されていない)を含むことができる。例えば、カメラリグ(例えば、ウィットネスカメラ110を備えた3Dカメラリグ)は、3Dビデオ(例えば、可視画像データおよびIR画像データ)を捕捉するために使用される第1のカメラセットと、(例えば、第1のカメラセットと比較して)高品質の画像(例えば、グランドトゥルース画像データ30)を捕捉するために使用される少なくとも1つのウィットネスカメラとを含むことができる。第1の3Dビデオの複数のフレームは、第1のカメラセットによって捕捉されたビデオデータであり得る。
ステップS310では、少なくとも1つのウィットネスカメラを使用して、第1の3Dビデオの複数のフレームのそれぞれについて少なくとも1つの2次元(2D)グランドトゥルース画像が捕捉される。例えば、少なくとも1つの2Dグランドトゥルース画像は、少なくとも1つのウィットネスカメラによって捕捉された高品質画像であり得る。少なくとも1つの2Dグランドトゥルース画像は、第1の3Dビデオの複数のフレームのうちの対応するフレームと実質的に同じ瞬間に捕捉され得る。
ステップS315では、第1の3Dビデオの複数のフレームのうちの少なくとも1つが圧縮される。例えば、第1の3Dビデオの複数のフレームのうちの少なくとも1つは、標準的な圧縮技術を使用して圧縮される。ステップS320において、第1の3Dビデオの複数のフレームのうちの少なくとも1つのフレームが解凍される。例えば、第1の3Dビデオの複数のフレームのうちの少なくとも1つは、標準圧縮技術に対応する標準解凍技術を使用して解凍される。
ステップS325では、少なくとも1つの第1の2D左眼ビュー画像が解凍されたフレームに基づいてレンダリングされ、少なくとも1つの第1の2D右眼ビュー画像が解凍されたフレームに基づいてレンダリングされる。例えば、解凍された第1の3Dビデオ(例えば、再構成されたビデオデータ15)のフレームに対応するシーンの3DモデルがGPUに通信される。GPUは、シーンの3Dモデルに基づいてデジタル画像(例えば、左眼ビュー20および右眼ビュー25)を生成し、デジタル画像を第1の2D左眼ビューおよび第1の2D右眼ビューとして返すことができる。
ステップS330では、ヘッドマウントディスプレイ(HMD)の左眼ビューのモデルが、レンダリングされた第1の2D左眼ビュー画像および対応する2Dグランドトゥルース画像に基づいてトレーニングされ、HMDの右眼ビューのモデルが、レンダリングされた第1の2D右眼ビュー画像および対応する2Dグランドトゥルース画像に基づいてトレーニングされる。このモデルは、可視チャネル内の情報だけでなく、IRチャネル内の情報に基づく(例えば、広視野およびパターン化されたIR照明の下で捕捉されたシーンの画像に基づく)。例えば、画像は、ニューラルネットワークまたはモデルを使用して、第1の2D左眼ビューに基づいて反復的に予測される。その後、損失関数が最小化される(または閾値を下回る)まで、損失関数を使用して、予測画像の各反復が対応する2Dグランドトゥルース画像と比較される。さらに、ニューラルネットワークまたはモデルを使用して、第1の2D右眼ビューに基づいて画像が繰り返し予測される。その後、損失関数が最小化される(または閾値を下回る)まで、損失関数を使用して、予測画像の各反復が対応する2Dグランドトゥルース画像と比較される。
図3Bは、圧縮画像データおよびトレーニングされた機械学習モデルに基づいて画像を生成およびレンダリングするプロセスの概略フローチャートである。圧縮画像データおよびモデルは、可視チャネル内の情報だけでなく、IRチャネル内の情報に基づく(例えば、広視野およびパターン化されたIR照明の下で捕捉されたシーンの画像に基づく)。図3Bに示されるように、ステップS335において、第2の3Dビデオに対応する圧縮ビデオデータが受信される。例えば、3Dカメラリグを使用して捕捉されたビデオデータは、リモートデバイスで(例えば、遠隔地にあるコンピューティングデバイスによって)第2の3Dビデオとして捕捉され、圧縮され、通信される。この圧縮された第2の3Dビデオはローカルデバイスによって受信される。第2の3Dビデオは第1の3Dビデオとは異なり得る。
ステップS340では、第2の3Dビデオに対応するビデオデータが解凍される。例えば、第2の3Dビデオ(例えば、圧縮ビデオデータ10)は、リモートデバイスによって使用される標準圧縮技術に対応する標準解凍技術を使用して解凍される。
ステップS345において、第2の3Dビデオのフレームが選択される。例えば、解凍された第2の3Dビデオの次のフレームを、第2の3Dビデオを再生するHMD上に表示するために選択することができる。これに代えてまたは加えて、第2の3Dビデオの再生には、ビデオフレームのバッファまたはキューを利用できる。したがって、第2の3Dビデオのフレームを選択することは、バッファリングまたはキューイング技術(例えば、FIFO、LIFOなど)に基づいてキューからフレームを選択することを含むことができる。
ステップS350では、第2の2D左眼ビュー画像が選択されたフレームに基づいてレンダリングされ、第2の2D右眼ビュー画像が選択されたフレームに基づいてレンダリングされる。例えば、解凍された第2の3Dビデオ(例えば、再構成されたビデオデータ15)のフレームに対応するシーンの3DモデルがGPUに通信される。GPUは、シーンの3Dモデルに基づいてデジタル画像(例えば、左眼ビュー20および右眼ビュー25)を生成し、デジタル画像を第2の2D左眼ビューおよび第2の2D右眼ビューとして返すことができる。
ステップS355において、第2の2D左眼ビュー画像は、畳み込みニューラルネットワークアーキテクチャおよびHMDの左眼ビュー用のトレーニングされたモデルを使用して再レンダリングされ、第2の2D右眼ビュー画像は、畳み込みニューラルネットワークアーキテクチャおよびHMDの右眼ビュー用のトレーニングされたモデルを使用して再レンダリングされる。例えば、段階1でトレーニングされたニューラルネットワークまたはモデルは、第2の2D左眼ビュー(例えば、左眼ビュー20)のより高品質な表示として、再レンダリングされた第2の2D左眼ビュー(例えば、再レンダリングされた左眼ビュー35)を生成するために使用され得る。段階1でトレーニングされたニューラルネットワークまたはモデルは、第2の2D右眼ビュー(例えば、右眼ビュー25)のより高品質な表示として、再レンダリングされた第2の2D右眼ビュー(例えば、再レンダリングされた右眼ビュー35)を生成するために使用され得る。その後、ステップS360において、再レンダリングされた第2の2D左眼ビュー画像および再レンダリングされた第2の2D右眼ビュー画像が、HMDの少なくとも1つのディスプレイに表示される。
図4は、少なくとも1つの例示的な実施形態に係る学習モジュールシステムのブロック図を示す。学習モジュール150は、少なくとも1つのコンピューティングデバイスであるか、またはそれを含むことができ、本明細書で説明される方法を実行するように構成された事実上任意のコンピューティングデバイスを表すことができる。したがって、学習モジュール150は、本明細書で説明される技術、またはその異なるバージョンまたは将来のバージョンを実装するために利用できる様々な構成要素を含むことができる。一例として、学習モジュール150は、少なくとも1つのプロセッサ405、および少なくとも1つのメモリ410(例えば、非一時的なコンピュータ可読媒体)を含むものとして示される。
図4に示されるように、学習モジュール150は、少なくとも1つのプロセッサ405および少なくとも1つのメモリ410を含む。少なくとも1つのプロセッサ405および少なくとも1つのメモリ410は、バス415を介して通信可能に結合される。少なくとも1つのプロセッサ405は、少なくとも1つのメモリ410に記憶された命令を実行するために利用されてもよく、それによって、本明細書に記載される様々な特徴および機能、または追加もしくは代替の特徴および機能を実装することができる。少なくとも1つのプロセッサ405および少なくとも1つのメモリ410は、他の様々な目的に利用することができる。特に、少なくとも1つのメモリ410は、本明細書で説明されるモジュールのいずれか1つを実装するために使用され得る、様々なタイプのメモリおよび関連ハードウェアおよびソフトウェアの一例を表すことができる。
少なくとも1つのメモリ410は、学習モジュールシステム150に関連するデータおよび/または情報を記憶するように構成され得る。例えば、少なくとも1つのメモリ410は、モデル420、複数の係数425、および複数の損失関数430を記憶するように構成され得る。少なくとも1つのメモリ410は、メトリクスモジュール435および列挙モジュール450をさらに含む。メトリクスモジュール435は、複数のエラー定義440およびエラー計算機445を含む。
例示的な実装形態では、少なくとも1つのメモリ410は、少なくとも1つのプロセッサ405によって実行されるときに少なくとも1つのプロセッサ405に複数の係数425のうちの1つ以上を選択させて通信させるコードセグメントを記憶するように構成され得る。さらに、少なくとも1つのメモリ410は、少なくとも1つのプロセッサ405によって実行されるときに少なくとも1つのプロセッサ405に学習モジュール150システムによって使用される情報を受信させて、新しい係数425を生成するおよび/または既存の係数425を更新するコードセグメントを記憶するように構成され得る。少なくとも1つのメモリ410は、少なくとも1つのプロセッサ405によって実行されるときに、少なくとも1つのプロセッサ405に、学習モジュール150によって使用される情報を受信させて新しいモデル420を生成するおよび/または既存のモデル420を更新するコードセグメントを記憶するように構成され得る。
モデル420は、少なくとも1つのニューラルネットワークモデルを表わす。ニューラルネットワークモデルは、ニューラルネットワークの動作、動作の流れ、および/または動作間の相互接続を定義できる。例えば、演算には、正規化、パディング、畳み込み、丸めなどを含めることができる。モデルは動作を定義することもできる。例えば、畳み込みは、フィルタの数C、空間範囲(またはフィルタサイズ)K×K、およびストライドSによって定義できる。畳み込みは正方形である必要はない。例えば、空間範囲はK×Lにすることができる。畳み込みニューラルネットワークのコンテキスト(図6Aおよび図6B参照)では、畳み込みニューラルネットワーク内の各ニューロンはフィルタを表わすことができる。したがって、層ごとに8つのニューロンを持つ畳み込みニューラルネットワークは、1つ(1)の層を使用する8個のフィルタ、2つ(2)の層を使用する16個のフィルタ、3つ(3)の層を使用する24個のフィルタ...8つの層を使用する64個のフィルタ...16層を使用する128個のフィルタなどを有することができる。畳み込みニューラルネットワークでは、1つの層が任意の数のニューロンを有することができる。
畳み込みニューラルネットワークは、異なる数のニューロンを有する層を有することができる。K×K空間範囲(またはフィルタサイズ)には、K列とK(またはL)行を含めることができる。K×K空間範囲は、2×2、3×3、4×4、5×5、(K×L)2×4となり得る。畳み込みは、ピクセル上のK×K空間範囲の中心を定めることと、空間範囲内の全てのピクセルを畳み込み、空間範囲内の全てのピクセルの畳み込みの全て(例えば、合計)に基づいてピクセルの新しい値を生成することを含む。次に、空間範囲がストライドに基づいて新しいピクセルに移動され、新しいピクセルに対して畳み込みが繰り返される。例えば、ストライドは1または2で、ストライドが1の場合は次のピクセルに移動し、ストライドが2の場合はピクセルをスキップする。
係数425は、ニューラルネットワークを使用および/またはトレーニングするためにモデル420および/または損失関数430のうちの1つ以上で使用できる変数値を表わす。モデル420、係数425および損失関数の一意の組み合わせにより、ニューラルネットワークおよび一意のニューラルネットワークをトレーニングする方法を定義することができる。例えば、モデル420のモデルは、2つの畳み込み演算とその2つの間の相互接続を含むように定義することができる。係数425は、各畳み込みの空間範囲(例えば、2×4、2×2など)およびストライド(例えば、1、2など)を定義する対応するエントリを含むことができる。さらに、損失関数430は、モデルをトレーニングするための損失関数および損失の閾値(例えば、最小、最大、最小変化、最大変化など)を定義する対応するエントリを含むことができる。
メトリクスモジュール435は、複数のエラー定義440およびエラー計算機445を含む。エラー定義は、例えば、エラーおよびエラーの閾値(例えば、最小、最大、最小変化、最大変化など)を計算するために使用される関数またはアルゴリズムを含むことができる。エラー計算機445は、アルゴリズムを使用して、2つの画像間のピクセルごとの差分に基づいて2つの画像間のエラーを計算するように構成することができる。エラーの種類としては、測光エラー、ピーク信号対雑音比(PSNR)、構造類似性(SSIM)、マルチスケールSSIM(MS-SSIM)、平均二乗エラー、知覚エラー等が挙げられる。列挙モジュール450は、1つ以上の係数425を反復するように構成することができる。
例示的な実装形態では、係数のうちの1つは、係数の残りを一定に保持しながら、列挙モジュール450によってモデル420のうちの1つに対して変更される。各反復中(例えば、左眼ビューをトレーニングするための反復)、プロセッサ405は、入力としてビュー(例えば、左眼ビュー20)を有するモデルを使用して画像を予測し、損失関数が最小化されるまで、および/または損失の変化が最小化されるまで、(おそらくグランドトゥルース画像データ30を使用して)損失を計算する。次に、エラー計算機445は、予測画像とグランドトゥルース画像データ30の対応する画像との間のエラーを計算する。エラーが許容できない場合(例えば、閾値よりも大きい、または前の反復と比較した閾値変化よりも大きい)、別の係数が列挙モジュール450によって変更される。例示的な実装形態では、2つ以上の損失関数が最適化され得る。この実装形態では、列挙モジュール450は、2つ以上の損失関数から選択するように構成することができる。
例示的な実装形態によれば、体積再構成(例えば、再構成されたビデオデータ15)からレンダリングされた画像I(例えば、左眼ビュー20および右眼ビュー25)から、Iとして示されるIの拡張バージョンを生成または計算することができる。IとIとの間の変換機能は、テレプレゼンス、VR、またはARアプリケーションをターゲットにできる。したがって、次の原則を考慮する必要がある。すなわち、a)ユーザは通常、顔などの顕著な特徴に重点を置くため、それらの領域のアーチファクトには大きなペナルティを課す必要があり、b)ステレオで見る場合、ネットワークの出力はユーザの不快感を防ぐために左右の対間で一貫している必要があり、c)VRアプリケーションでは、レンダリングが仮想世界に合成されるため、正確なセグメンテーションマスクが必要である。さらに、強化された画像は時間的に一貫している必要がある。予測画像Ipredおよび前景ピクセルを示すセグメンテーションマスクMpredを生成するために使用される合成関数F(I)は、
Figure 2024507887000002
として定義でき、ここで、
Figure 2024507887000003
は要素ごとの積であり、I内の背景ピクセルはゼロに設定される。
トレーニング時に、身体部分意味セグメンテーションアルゴリズムを使用して、図9(セグメンテーション)に示すように、ウィットネスカメラによって捕捉されたグランドトゥルース画像Igtの意味セグメンテーションであるIsegを生成することができる。被写体のセグメンテーション境界を改善するには、ペアワイズCRFを使用してこのアルゴリズムの予測を洗練することができる。この意味セグメンテーションは、AR/VRレンダリングに役立つ。
F(I)を計算するニューラルネットワークのトレーニングは、損失関数を最適化するためにニューラルネットワークをトレーニングすることを含むことができる。
L=wrec+wmask+whead+wtemporal+wstereo …(1)
ここで、重みwは、全ての損失が同様の寄与を提供できるように経験的に選択される。
画像領域で標準的なlまたはl損失を使用する代わりに、l損失は、画像データベース(例えば、ImageNet)上でトレーニングされた16層ネットワーク(例えば、VGG16)の特徴空間で計算することができる。損失は、conv1からconv5層の活性化のl-1距離として計算できる。これにより、トレーニング中にGANアーキテクチャを採用するオーバーヘッドがなく、敵対的生成ネットワーク(GAN)損失を使用した場合と非常に同等の結果が得られる。再構成損失Lrecは次のように計算できる。
Figure 2024507887000004
ここで、Mgt=(Iseg≠背景)は、背景ピクセルをオフにするバイナリセグメンテーションマスクであり(図9を参照)、Mpredは、予測されたバイナリセグメンテーションマスクであり、VGG(・)は、画像をVGGのconv-i層の活性化にマッピングし、||・||は、このセクションで後ほど定義される「顕著性再重み付け」lノルムである。予測バイナリセグメンテーションマスクMpredは、フレームに対して捕捉された可視光情報とフレームに対して捕捉されたIR光の両方の組み合わせに基づいて予測できる。人のIR信号と高いIR反射率を持つ背景の間の高いコントラストを使用して、背景と人を区別し、セグメンテーションマスクを定義できる。色の収束を高速化するために、主な再構成損失の1/10に寄与するように重み付けされるIgtとIpredの間のlノルムとして定義されるLrecに第2項を追加できる。再構成損失の一例を図10Aに示す。
マスク損失Lmaskにより、モデルは正確な前景マスクMpredを予測することができる。これは、二項分類タスクとみなすことができる。前景ピクセルには値y=1が割り当てられ、背景ピクセルにはy=0が使用される。最終的な損失は次のように定義できる。
mask=||Mgt-Mpred|| …(3)
ここで、||・||は顕著性を再重み付けしたl損失である。ロジスティック損失などの他の分類損失も考慮できる。ただし、非常に似た結果が得られる可能性がある。マスク損失の一例を図10Bに示す。
ヘッド損失Lheadは、ニューラルネットワークを頭部に集中させて、顔の全体的な鮮明さを改善することができる。ボディ損失と同様に、16層ネットワーク(VGG16など)を使用して特徴空間の損失を計算できる。特に、クロップIは、Isegのセグメンテーションラベルによって与えられ、512×512ピクセルにサイズ変更されるように、先頭ピクセルの周囲でクロップされたパッチとして画像Iに対して定義できる。損失は次のように計算できる。
Figure 2024507887000005
ヘッド損失の一例を図10Cに示す。
時間的損失Ltemporalを使用して、2つの連続するフレーム間のちらつきの量を最小限に抑えることができる。フレームIとIt-1との間の時間的損失を使用することができる。IとIt-1との差を最小限に抑えると、時間的に不鮮明な結果が生成される。したがって、予測シーケンスの時間勾配、つまり
Figure 2024507887000006
をグランドトゥルースシーケンスの時間勾配、つまり
Figure 2024507887000007
と一致させようとする損失を使用できる。損失は次のように計算できる。
Figure 2024507887000008
計算された時間的損失の例を図10Eに示す。
ステレオ損失Lstereoは、ニューラルネットワークが左眼および右眼のビューに適用される場合、VRおよびARアプリケーション用に設計することができる。この場合、両目の不一致により深度の知覚が制限され、ユーザに不快感を与える可能性がある。したがって、出力ステレオ画像の自己監視一貫性を保証する損失を使用できる。体積再構成のステレオ対をレンダリングし、各目の画像をニューラルネットワークへの入力として使用でき、この場合、左の画像Iはグランドトゥルースカメラの視点と一致し、右の画像Iはx座標に沿ったオフセット距離(例えば、65mm)でレンダリングされる。次に、右の予測
Figure 2024507887000009
が、メッシュの(既知の)ジオメトリを使用して左の視点にワープされ、左の予測
Figure 2024507887000010
と比較される。ワープオペレータIwarpは、4ピクセルの双線形補間と固定ワープ座標を使用する空間トランスフォーマネットワーク(STN)を使用して定義できる。損失は次のように計算できる。
Figure 2024507887000011
ステレオ損失の一例を図10Dに示す。
モデルをトレーニングするときの上記の損失の計算は、シーンの取り込まれたカラー画像データ、シーンの取り込まれた広視野IR画像データ、およびシーン内のオブジェクト上のIR光のパターンの取り込まれた画像に基づく深度データに基づくことができる。これら全てのチャネルを使用してモデルをトレーニングすると、モデルの性能とモデルによって生成される画像の精度が向上する。例えば、2つの隣接するピクセルが異なる色および/またはアルベド値および異なる深度値を有する場合、それらのピクセルは異なる特徴を表わすとみなされるため、ほとんどまたはまったくペナルティがピクセルに適用されない可能性がある。ただし、2つの隣接するピクセルの色とアルベド値は非常に似ているが、深度値が異なる場合は、異なる深度値の平均を両方のピクセルに割り当てることができる。したがって、モデルをトレーニングして適用するときに、シーンの捕捉されたカラー画像データ、シーンの捕捉された広視野IR画像データ、およびシーン内のオブジェクト上のIR光のパターンの捕捉された画像に基づく深度データの全てを考慮すると、画像内のエッジと滑らかな表面を区別してレンダリングする能力を強化できる。
上記の損失は、(マスクされたピクセルを除く)画像内の全てのピクセルから寄与を受ける。ただし、セグメンテーションマスクに不完全性があると、ネットワークが重要でない領域に偏ってしまう可能性がある。損失が最も高いピクセルは外れ値である可能性がある(例えば、セグメンテーションマスクの境界の隣)。これらの外れ値ピクセルは、全体の損失を支配する可能性がある(図10Fを参照)。したがって、これらの外れ値ピクセルを損失から除外するために重み付けを下げると同時に、再構成が容易なピクセル(滑らかでテクスチャのない領域など)の重み付けを下げることが望ましい場合がある。これを行なうには、サイズW×H×Cの残差画像xが与えられた場合、yをxのチャネルに沿ったピクセルごとのlノルムとして設定し、最小および最大パーセンタイルpminおよびpmaxをyの値に対して定義できる。残差yの顕著性再重み付け行列のピクセルのp構成要素は、次のように定義できる。
Figure 2024507887000012
ここで、Γ(i,y)はyの値のセット全体からi番目のパーセンタイルを抽出し、pmin、pmax、αは経験的に選択され、当面のタスクに依存する。
reqおよびLheadに関して計算される残差yの各ピクセルに対する重みとしてのこの顕著性は、次のように定義できる。
Figure 2024507887000013
ここで、
Figure 2024507887000014
は要素ごとの積である。
シグモイドと逆シグモイドの積によって定義されるγ(y)の連続定式化も使用することができる。再重み付け関数に関する勾配は計算されない。したがって、SGDが機能するために再重み付け関数が連続している必要はない。顕著性再重み付けの効果を図10Fに示す。顕著性の再重み付けが使用されない場合、再構成エラーは被写体の境界に沿って発生する。逆に、提案された外れ値除去技術を適用すると、ネットワークは実際の被写体の再構成に集中するようになる。最後に、顕著性の再重み付けの副産物として、意味セグメンテーションアルゴリズムで得られたものと比較した場合に、よりクリーンな前景マスクを予測できる。顕著性の再重み付けスキームは、再構成、マスク、およびヘッド損失にのみ適用できる。
図5は、少なくとも1つの例示的な実施形態によるニューラル再レンダリングモジュールのブロック図を示す。ニューラル再レンダリングモジュール210は、少なくとも1つのコンピューティングデバイスであるか、またはそれを含むことができ、本明細書で説明される方法を実行するように構成された事実上任意のコンピューティングデバイスを表わすことができる。したがって、ニューラル再レンダリングモジュール210は、本明細書で説明される技術、またはその異なるバージョンまたは将来のバージョンを実装するために利用できる様々な構成要素を含むことができる。一例として、ニューラル再レンダリングモジュール210は、少なくとも1つのプロセッサ505および少なくとも1つのメモリ510(例えば、非一時的なコンピュータ可読媒体)を含むものとして示される。
図5に示すように、ニューラル再レンダリングモジュールは、少なくとも1つのプロセッサ505および少なくとも1つのメモリ410を含む。少なくとも1つのプロセッサ505および少なくとも1つのメモリ510は、バス515を介して通信可能に結合される。少なくとも1つのプロセッサ505は、少なくとも1つのメモリ510に格納された命令を実行するために利用されてもよく、それによって、本明細書に記載される様々な特徴および機能、または追加もしくは代替の特徴および機能を実装することができる。少なくとも1つのプロセッサ505および少なくとも1つのメモリ510は、他の様々な目的に利用することができる。特に、少なくとも1つのメモリ510は、本明細書で説明されるモジュールのいずれか1つを実装するために使用され得る、様々なタイプのメモリおよび関連ハードウェアおよびソフトウェアの一例を表わすことができる。
少なくとも1つのメモリ510は、ニューラル再レンダリングモジュール210に関連するデータおよび/または情報を記憶するように構成され得る。例えば、少なくとも1つのメモリ510は、モデル420、複数の係数425、およびニューラルネットワーク520を記憶するように構成され得る。例示的な実装形態では、少なくとも1つのメモリ510は、少なくとも1つのプロセッサ505によって実行されるときに、少なくとも1つのプロセッサ505に、モデル420のうちの1つおよび/または複数の係数425のうちの1つ以上を選択させる、コードセグメントを記憶するように構成され得る。
ニューラルネットワーク520は、複数の演算(例えば、畳み込み530-1~530-9)を含むことができる。複数の動作、相互接続、および複数の動作間のデータフローは、モデル420から選択されるモデルであり得る。ニューラルネットワークで示されるモデル(動作、相互接続、およびデータフローとして)は実装例である。したがって、他のモデルを使用して、本明細書で説明するように画像を強化することができる。
図5に示される実装例では、ニューラルネットワーク520の動作は、畳み込み530-1、530-2、530-3、530-4、530-5、530-6、530-7、530-8および530-9、畳み込み535、および畳み込み540-1、540-2、540-3、540-4、540-5、540-6、540-7、540-8、540-9を含む。任意選択で(破線で示すように)、ニューラルネットワーク520の動作は、パッド525、クリップ545、および超解像度550を含むことができる。パッド525は、入力画像を大きくする必要がある場合に、画像の境界で入力画像にピクセルをパディングまたは追加するように構成することができる。パディングには、画像の境界に隣接するピクセルの使用(ミラーパディングなど)が含まれる場合がある。パディングには、R=0、G=0、B=0の値を持つ多数のピクセルを追加することが含まれる(例えば、ゼロパディング)。クリップ545は、255から255を超えるR、G、Bの任意の値、および0から0未満の任意の値をクリップするように構成することができる。クリップ545は、カラーシステムの最大/最小に基づいて他のカラーシステム(例えば、YUV)に対してクリップするように構成することができる。
超解像度550は、結果の画像(例えば、×2、×4、×6など)をアップスケールすることと、ニューラルネットワークをフィルタとしてアップスケールされた画像に適用して、比較的低品質のアップスケールされた画像から高品質の画像を生成することとを含むことができる。例示的な実装形態では、フィルタは、複数のトレーニングされたフィルタから各ピクセルに選択的に適用される。
図5に示される実装例では、ニューラルネットワーク520は、U-NETのようなアーキテクチャを使用する。このモデルは、GPUアーキテクチャ上で2D画像からの視点合成をリアルタイムで実装できる。実装例では、完全な畳み込みモデル(例えば、最大プーリング演算子なし)が使用される。さらに、この実装では、バイリニアアップサンプリングと畳み込みを使用して、チェッカーボードアーチファクトを最小限に抑えたり、排除したりできる。
図示されるように、ニューラルネットワーク520アーキテクチャは18個の層を含む。9つ(9)の層はエンコード/圧縮/縮小/ダウンサンプリングに使用され、9つ(9)の層はデコード/解凍/拡張/アップサンプリングに使用される。例えば、畳み込み530-1、530-2、530-3、530-4、530-5、530-6、530-7、530-8、および530-9はエンコードに使用され、畳み込み540-1、540-2、540-3、540-4、540-5、540-6、540-7、540-8、540-9はデコードに使用される。畳み込み535がボトルネックとして使用される可能性がある。ボトルネックは、K×Kフィルタの入力チャネルの数を減らすように構成された1×1畳み込み層である可能性がある。ニューラルネットワーク520のアーキテクチャは、エンコーダブロックとデコーダブロックとの間のスキップ接続を含むことができる。例えば、スキップ接続は、畳み込み530-1と畳み込み540-9、畳み込み530-3と畳み込み540-7、畳み込み530-5と畳み込み540-5、および畳み込み530-7と畳み込み540-3の間で示される。
例示的な実装形態では、エンコーダは、Ninitフィルタを伴う3×3畳み込みで構成された畳み込み530-1で始まり、その後、畳み込み530-2、530-3、530-4、および530-5を含む一連のダウンサンプリングブロックが続く。畳み込み530-2、530-3、530-4、530-5、530-6、および530-7(i∈{1,2,3,4})には、それぞれNフィルタを伴う2つの畳み込み層を含めることができる。第1の層530-2、530-4、および530-6は、フィルタサイズ4×4、ストライド2、およびパディング1を持つことができるが、第2の層530-3、530-5、および530-7は、フィルタサイズ3×3およびストライド1を持つことができる。したがって、各畳み込みは、ストライド畳み込みにより入力のサイズを2分の1に減らすことができる。最後に、2次元性を保持する畳み込み530-8および530-9が実行される。畳み込みの出力は、ReLU活性化関数を通過できる。実装例では、Ninit=32およびN=G・Ninitに設定する。ここで、Gは各ダウンサンプリングブロック後のフィルタサイズの増加係数である。
デコーダは、ダウンサンプリングブロックを反映するが逆であるアップサンプリングブロック540-3、540-4、540-5、540-6、540-7、540-8、および540-9を含む。そのような各ブロックi∈{4,3,2,1}は2つの畳み込み層から成る。第1の層540-3、540-5、および540-7は、入力を双線形にアップサンプリングし、Nフィルタで畳み込みを実行し、スキップ接続を利用して出力をそのミラーリングされた符号化層の出力と連結する。第2の層540-4、540-6、および540-8は、サイズ3×3の2Nフィルタを使用して畳み込みを実行する。最終ネットワーク出力は、4つのフィルタを備えた最終畳み込み540-9によって生成され、その出力はReLU活性化関数を通過して、再構成された画像および前景の被写体の単一チャネルのバイナリマスクを生成する。VRおよびARヘッドセットのステレオ画像を生成するには、同じニューラルネットワーク(重みを共有)を使用して、左右のビューの両方を強化する。最終出力は、改良されたステレオ出力対である。ニューラルネットワーク520に関連するデータ(例えば、フィルタサイズ、ストライド、重み、Ninit、N、Gなど)は、モデル420および係数425に格納することができる。
図4に戻ると、ニューラルネットワーク520のアーキテクチャに関連付けられたモデルは、上で説明したようにトレーニングすることができる。ニューラルネットワークは、収束するまで(例えば、損失が一貫して低下しなくなる点まで)、Adamアルゴリズムと重み減衰アルゴリズムを使用してトレーニングできる。
512×512から960×896の範囲の画像のランダムな切り出しをトレーニングに使用した。これらの画像は、入力と出力の対の元の解像度から切り取ることができる。特に、ランダムクロップにはサンプルの75%にヘッドピクセルが含まれる可能性があり、ヘッド損失が計算される。そうしないと、ネットワークが入力パッチでヘッド損失を完全に認識できない可能性があるため、ヘッド損失が無効になる可能性がある。これにより、体の他の部分を無視せずに、顔に高品質の結果を得ることができる。ネットワークの重みに対する標準的なl-2正則化とともにランダムクロップを使用することは、過剰適合を防ぐのに十分である可能性がある。高解像度のウィットネスカメラを使用すると、出力は入力サイズの2倍になる可能性がある。
顕著性の再重み付けのパーセンタイル範囲は、結果に影響を与えることなく、不完全なマスク境界および他の外れ値の寄与を除去するように経験的に設定することができる。pmax=98の場合、範囲[25,75]のpmin値を許容できる。特に、再構成損失についてはpmin=50、ヘッド損失についてはpmin=25、α1=α2=1.1に設定してもよい。
図6Aは、スパース性制約のない畳み込みニューラルネットワークの層を示す。図6Bは、スパース性制約を有する畳み込みニューラルネットワークの層を示す。層状ニューラルネットワークの実装例が、3つの層605、610、615を有するように図6Aに示される。各層605、610、615は複数のニューロン620から形成することができる。図6Aに示す実装にはスパース性制約は適用されていない。したがって、各層605、610、615の全てのニューロン620は、任意の隣接する層605、610、615の全てのニューロン620にネットワーク接続される。図6Aに示すニューラルネットワークは、ニューロン620および層605、610、615の数が少ないため、計算的に複雑ではない。しかしながら、図6Aのニューラルネットワークの構成は、ネットワークのサイズが拡大するにつれて計算の複雑さが大きくなり、接続の密度により非線形的に拡大するため、より大きなネットワークサイズ(例えば、ニューロン/層間の接続)に容易にスケールアップできない可能性がある。
ニューラルネットワークが比較的高い次元数の入力に作用するようにスケールアップされる場合、各層605、610、615の全てのニューロン620が1つ以上の隣接する層605、610、615の全てのニューロン620にネットワーク接続されると、計算が複雑になる可能性がある。初期のスパース性条件を使用して、ニューラルネットワークの計算の複雑さを下げることができる。例えば、ニューラルネットワークが最適化プロセスとして機能している場合、ニューロンおよび/または層間の接続数を制限することで、ニューラルネットワークアプローチが画像などの高次元データを処理できるようにする。
少なくとも一実施形態に係るスパース性制約を伴うニューラルネットワークの一例が図6Bに示される。図6Bに示すニューラルネットワークは、各ニューロン620が隣接する層625、630、635内の少数のニューロン620にのみ接続されるように構成され、したがって、完全に接続されておらず、例えば画像の強調処理として、より高次元のデータとともに機能するように拡張できるニューラルネットワークを作成する。完全にネットワーク化されたニューラルネットワークと比較して接続数が少ないため、ニューロン間の接続数を実質的に線形に拡張できる。
或いは、幾つかの実施形態では、完全に接続されているか、または完全に接続されていないが、図6Bに関連して説明したものとは異なる特定の構成であるニューラルネットワークを使用することができる。
さらに、幾つかの実施形態では、完全に接続されていないニューラルネットワークである畳み込みニューラルネットワークが使用され、したがって完全に接続されたニューラルネットワークよりも複雑さが少ない。畳み込みニューラルネットワークでは、プーリングまたは最大プーリングを利用して、ニューラルネットワークを流れるデータの次元(したがって複雑さ)を削減することもできるため、必要な計算レベルを削減できる。
図11は、本明細書で説明される技術とともに使用され得るコンピュータデバイス1100およびモバイルコンピュータデバイス1150の一例を示す。コンピューティングデバイス1100は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表わすことを意図している。コンピューティングデバイス1150は、携帯情報端末、携帯電話、スマートフォン、および他の同様のコンピューティングデバイスなど、様々な形態のモバイルデバイスを表わすことを意図されている。ここに示される構成要素、それらの接続と関係、およびそれらの機能は、例示のみを目的としており、本文書で説明および/または請求される発明の実装を限定することを意図するものではない。
コンピューティングデバイス1100は、プロセッサ1102、メモリ1104、記憶デバイス1106、メモリ1104および高速拡張ポート1110に接続する高速インタフェース1108、および低速バス1114および記憶デバイス1106に接続する低速インタフェース1112を含む。構成要素1102、1104、1106、1108、1110、および1112のそれぞれは、様々なバスを使用して相互接続されており、共通のマザーボード上に、または必要に応じて他の方法で取り付けることができる。プロセッサ1102は、高速インタフェース1108に結合されたディスプレイ1116などの外部入出力装置上にGUI用のグラフィック情報を表示するために、メモリ1104または記憶デバイス1106に格納された命令を含む、コンピューティングデバイス1100内で実行するための命令を処理することができる。他の実装形態では、複数のメモリおよび複数の種類のメモリとともに、必要に応じて、複数のプロセッサおよび/または複数のバスが使用され得る。また、複数のコンピューティングデバイス1100が接続されてもよく、各デバイスは必要な動作の一部を提供する(例えば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして)。
メモリ1104は、コンピューティングデバイス1100内に情報を格納する。一実装形態では、メモリ1104は、1つ以上の揮発性メモリユニットである。別の実装形態では、メモリ1104は1つ以上の不揮発性メモリユニットである。メモリ1104は、磁気ディスクまたは光ディスクなどの別の形態のコンピュータ可読媒体であってもよい。
記憶デバイス1106は、コンピューティングデバイス1100に大容量ストレージを提供することができる。一実装形態では、記憶デバイス1106は、フロッピーディスクデバイス、ハードディスクデバイス、光ディスクデバイス、もしくはテープデバイス、フラッシュメモリもしくは他の同様のソリッドステートメモリデバイス、またはストレージエリアネットワークもしくは他の構成内のデバイスを含むデバイスのアレイなどのコンピュータ可読媒体であるか、またはそれらを含んでよい。コンピュータプログラムプロダクトは、情報担体に具体的に組み込むことができる。コンピュータプログラムプロダクトには、実行時に上記のような1つ以上の方法を実行する命令も含まれ得る。情報担体は、メモリ1104、記憶デバイス1106、またはプロセッサ1102上のメモリなどのコンピュータまたは機械可読媒体である。
高速コントローラ1108は、コンピューティングデバイス1100の帯域幅を大量に消費する動作を管理し、一方、低速コントローラ1112は、帯域幅をあまり消費しない動作を管理する。このような機能の割り当ては一例に過ぎない。一実装形態では、高速コントローラ1108は、メモリ1104、ディスプレイ1116(例えば、グラフィックプロセッサまたはアクセラレータを介して)、および様々な拡張カード(図示せず)を受け入れることができる高速拡張ポート1110に結合される。この実装形態において、低速コントローラ1112は、記憶デバイス1106および低速拡張ポート1114に結合される。様々な通信ポート(例えば、USB、Bluetooth、イーサネット、無線イーサネット)を含み得る低速拡張ポートは、例えばネットワークアダプタを介して、キーボード、ポインティングデバイス、スキャナなどの1つ以上の入出力デバイス、またはスイッチもしくはルータなどのネットワーキングデバイスに結合され得る。
コンピューティングデバイス1100は、図に示すように、多くの異なる形式で実装することができる。例えば、コンピューティングデバイスは、標準サーバ1120として実装されてもよいし、そのようなサーバのグループ内で複数回実装されてもよい。また、コンピューティングデバイスをラックサーバシステム1124の一部として実装することもできる。さらに、コンピューティングデバイスをラップトップコンピュータ1122などのパーソナルコンピュータに実装することもできる。或いは、コンピューティングデバイス1100の構成要素を、デバイス1150などのモバイルデバイス(図示せず)内の他の構成要素と組み合わせることができる。そのようなデバイスのそれぞれは、1つ以上のコンピューティングデバイス1100、1150を含むことができ、システム全体が、互いに通信する複数のコンピューティングデバイス1100、1150で構成され得る。
コンピューティングデバイス1150は、他の構成要素の中でも特に、プロセッサ1152、メモリ1164、ディスプレイ1154などの入出力デバイス、通信インタフェース1166、およびトランシーバ1168を含む。デバイス1150には、追加のストレージを提供するために、マイクロドライブまたは他のデバイスなどの記憶デバイスも設けられ得る。構成要素1150、1152、1164、1154、1166、および1168のそれぞれは、様々なバスを使用して相互接続され、構成要素の幾つかは共通のマザーボード上に、または必要に応じて他の方法で実装され得る。
プロセッサ1152は、メモリ1164に格納された命令を含む、コンピューティングデバイス1150内の命令を実行することができる。プロセッサは、別個の複数のアナログおよびデジタルプロセッサを含むチップのチップセットとして実装され得る。プロセッサは、例えば、ユーザインタフェース、デバイス1150によって実行されるアプリケーション、およびデバイス1150による無線通信の制御など、デバイス1150の他の構成要素の調整を行なうことができる。
プロセッサ1152は、ディスプレイ1154に結合された制御インタフェース1158およびディスプレイインタフェース1156を介してユーザと通信することができる。ディスプレイ1154は、例えば、TFTLCD(薄膜トランジスタ液晶ディスプレイ)またはOLED(有機発光ダイオード)ディスプレイ、または他の適切なディスプレイ技術であってもよい。ディスプレイインタフェース1156は、ディスプレイ1154を駆動してグラフィック情報および他の情報をユーザに提示するための適切な回路を備えることができる。制御インタフェース1158は、ユーザからコマンドを受信し、プロセッサ1152に送信するためにそれらを変換することができる。さらに、デバイス1150と他のデバイスとの近距離通信を可能にするために、プロセッサ1152と通信する外部インタフェース1162を設けることができる。外部インタフェース1162は、例えば、幾つかの実装形態では有線通信をもたらすことができ、他の実装形態では無線通信をもたらすことができ、複数のインタフェースを使用することもできる。
メモリ1164は、コンピューティングデバイス1150内に情報を格納する。メモリ1164は、1つまたは複数のコンピュータ可読媒体、1つまたは複数の揮発性メモリユニット、または1つまたは複数の不揮発性メモリユニットのうちの1つ以上として実装することができる。拡張メモリ1174を設けることもでき、該拡張メモリを拡張インタフェース1172を介してデバイス1150に接続することができ、拡張インタフェース1172は、例えば、SIMM(シングルインラインメモリモジュール)カードインタフェースを含み得る。そのような拡張メモリ1174は、デバイス1150に追加の記憶スペースを提供することができ、またはデバイス1150にアプリケーションまたは他の情報を記憶することもできる。具体的には、拡張メモリ1174は、前述のプロセスを実行または補足するための命令を含むことができ、安全な情報も含むことができる。したがって、例えば、拡張メモリ1174は、デバイス1150のセキュリティモジュールとして提供されてもよく、デバイス1150の安全な使用を可能にする命令でプログラムされ得る。さらに、安全なアプリケーションは、識別情報をSIMMカード上にハッキング不可能な態様で配置するなど、追加情報とともに、SIMMカードを介して提供され得る。
メモリには、例えば、以下に説明するように、フラッシュメモリおよび/またはNVRAMメモリが含まれてもよい。一実装形態では、コンピュータプログラムプロダクトは情報担体に具体的に組み込まれる。コンピュータプログラムプロダクトには、実行時に上記のような1つ以上の方法を実行する命令が含まれる。情報担体は、例えばトランシーバ1168または外部インタフェース1162を介して受信され得る、メモリ1164、拡張メモリ1174、またはプロセッサ1152上のメモリなどのコンピュータまたは機械可読媒体である。
デバイス1150は、通信インタフェース1166を介して無線通信することができ、通信インタフェース1166は、必要に応じてデジタル信号処理回路を含み得る。通信インタフェース1166は、とりわけ、GSM音声通話、SMS、EMS、またはMMSメッセージング、CDMA、TDMA、PDC、WCDMA(登録商標)、CDMA2000、またはGPRSなどの様々なモードまたはプロトコルの下での通信を提供し得る。このような通信は、例えば、無線周波数トランシーバ1168を介して行なわれ得る。さらに、Bluetooth、Wi-Fi、または他のそのようなトランシーバ(図示せず)を使用するなどの短距離通信が行なわれ得る。さらに、GPS(全地球測位システム)受信機モジュール1170は、追加のナビゲーションおよび位置関連の無線データをデバイス1150に提供することができ、このデータは、デバイス1150上で実行されるアプリケーションによって適宜使用され得る。
デバイス1150は、オーディオコーデック1160を使用して音声通信することもでき、オーディオコーデック1160は、ユーザから話された情報を受信し、それを使用可能なデジタル情報に変換することができる。オーディオコーデック1160は、同様に、例えばデバイス1150のハンドセット内のスピーカなどを介して、ユーザに対して可聴音を生成することができる。そのような音は、音声通話からの音を含むことができ、録音された音(例えば、音声メッセージ、音楽ファイルなど)を含むことができ、また、デバイス1150上で動作するアプリケーションによって生成される音を含むこともできる。
コンピューティングデバイス1150は、図に示すように、多くの異なる形式で実装することができる。例えば、コンピューティングデバイスは、携帯電話1180として実装されてもよい。また、コンピューティングデバイスは、スマートフォン1182、携帯情報端末、または他の同様のモバイルデバイスの一部として実装されてもよい。
上記の説明では、ヘッドマウントディスプレイ(HMD)デバイスにアクセスしてそのようなコンテンツを適切に視聴し、対話することを含む、従来の3次元(3D)コンテンツを体験することについて説明しているが、説明された技術は、2Dディスプレイ(例えば、1つ以上の2Dディスプレイ上に表示される左ビューおよび/または右ビュー)、モバイルAR、および3DTVへのレンダリングにも使用することができる。さらに、HMDデバイスの使用は、ユーザにとって継続的に装着し続けるのが面倒になる可能性がある。したがって、ユーザは、自動立体ディスプレイを利用して、HMDデバイス(例えば、眼鏡やヘッドギア)を使用することなく、3D知覚によるユーザエクスペリエンスにアクセスすることができる。自動立体ディスプレイは、光学構成要素を使用して、同じ平面上の様々な画像の3D効果を実現し、そのような画像を多数の視点から提供して3D空間の錯覚を生み出す。
自動立体ディスプレイは、ヘッドマウントディスプレイ(HMD)デバイスの使用を必要とせずに、現実世界の物理的オブジェクトの3次元(3D)光学特性に近似した画像を提供することができる。一般に、自動立体ディスプレイには、ディスプレイに関連付けられた多数の異なる表示領域に画像をリダイレクトするためのフラットパネルディスプレイ、レンチキュラーレンズ(例えば、マイクロレンズアレイ)、および/または視差バリアが含まれる。
自動立体ディスプレイの幾つかの例では、そのようなディスプレイによって提供される画像コンテンツの3Dビューを提供する単一の場所が存在する場合がある。ユーザは1つの場所に座って、適切な視差、歪みの少ないリアルな3D画像を体験できる。ユーザが別の物理的位置に移動する(または頭の位置や視線の位置を変更する)と、画像コンテンツの現実性が低下し、2D、および/または歪んで見え始める可能性がある。本明細書で説明されるシステムおよび方法は、ディスプレイから投影される画像コンテンツを再構成して、ユーザが動き回ることを保証しながらも、適切な視差、低い歪み率、およびリアルな3D画像をリアルタイムで体験できるようにすることができる。したがって、本明細書で説明されるシステムおよび方法は、ユーザがディスプレイを見ている間に生じるユーザの動きに関係なく、3D画像コンテンツを維持し、ユーザに提供するという利点を与える。
図12は、少なくとも1つの例示的な実施形態に係る、立体ディスプレイでコンテンツを提供する例示的な出力画像のブロック図を示す。例示的な実装形態では、コンテンツは、出力画像1205を取得するために、左画像1204Aを右画像1204Bとインターリーブすることによって表示され得る。図12に示される自動立体ディスプレイアセンブリ1202は、レンズ1206のレンチキュラーアレイに結合された(例えば、接着された)高解像度ディスプレイパネル1207を少なくとも含む、組み立てられたディスプレイを表わす。さらに、アセンブリ1202は、レンズのレンチキュラーアレイと高解像度ディスプレイパネル1207との間に配置された1つ以上のガラススペーサ1208を含み得る。ディスプレイアセンブリ1202の動作中、レンズ1206のアレイ(例えば、マイクロレンズアレイ)およびガラススペーサ1208は、特定の観察条件において、観察光線1210によって示されるように、ユーザの左眼が画像に関連付けられたピクセルの第1のサブセットを見るのに対し、ユーザの右眼は観察光線1212によって示されるように、相互に排他的なピクセルの第2のサブセットを見るように設計され得る。
マスクは、左眼と右眼のそれぞれについて計算および生成され得る。マスク1200は、目ごとに異なっていてもよい。例えば、マスク1200Aは左眼について計算され得る一方、マスク1200Bは右眼について計算され得る。幾つかの実装形態では、マスク1200Aは、マスク1200Bのシフトされたバージョンであってもよい。本明細書に記載の実施形態と一致して、自動立体ディスプレイアセンブリ1202は、複数のマイクロレンズを含むメガネのないレンチキュラーの3次元ディスプレイであってもよい。幾つかの実装形態では、アレイ1206は、マイクロレンズアレイ内のマイクロレンズを含むことができる。幾つかの実装形態では、3D画像は、第1の画像の一部(例えば、第1のピクセルのセット)を、少なくとも1つのマイクロレンズを通して第1の方向で(例えば、ユーザの左眼に)投影し、第2の画像の一部(例えば、第2のピクセルのセット)を、少なくとも1つの他のマイクロレンズを通して第2の方向で(例えば、ユーザの右眼に)投影することによって生成され得る。第2の画像は、第1の画像と同様であってもよいが、第2の画像は、視差をシミュレートするために第1の画像からシフトされてもよく、それによって自動立体ディスプレイアセンブリ1202を見ているユーザに対して3D立体画像をシミュレートすることができる。
図13は、本明細書に記載の技術を実装するプロセス1300の概略フローチャートである。図13に示すように、ステップ1302において、シーンのニューラル放射輝度場(NeRF)体積表示に基づいてレンダリングされた画像が受信される。ここで、シーンのNeRF表示は、ビデオデータの捕捉されたフレームに基づいており、各捕捉されたフレームは、シーンのカラー画像、シーンが広視野IR光源によって照明されるときに捕捉されたシーンの広視野IR画像、およびシーンの複数の深度IR画像を含む。各深度IR画像は、シーンが異なるパターンのIR光点によって照明されるときに捕捉され、異なるパターンのIR光点による照明が異なる時間に起こる。NeRF表示は、位置と観察方向との間で、シーン内の各位置における色および光学密度へのマッピングをもたらし、シーン内の各位置での色および光学密度により、新たな視点からシーンを観察することが可能になり、また、NeRF表示は、位置および観察方向との間で、新たな視点からそれぞれの異なるパターンのIR光点ごとにIR値へのマッピングをもたらす。ステップ1304では、受信画像から強化画像を生成するための合成関数が定義される。ステップ1306において、合成関数は、ニューラルネットワークによって生成された予測画像とトレーニング中にグランドトゥルースカメラによって捕捉されたグランドトゥルース画像との間の損失関数を最小化することに基づいてトレーニングされたニューラルネットワークを使用して計算される。
本明細書で説明されるシステムおよび技術の様々な実装は、デジタル電子回路、集積回路、特別に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせにおいて実現され得る。これらの様々な実装には、ストレージシステム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスからデータおよび命令を受信し、またそれらにデータおよび命令を送信するように結合された、専用または汎用であり得る少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行可能および/または解釈可能な1つ以上のコンピュータプログラムでの実装が含まれ得る。本明細書で説明されるシステムおよび技術の様々な実装は、本明細書では、ソフトウェアおよびハードウェアの態様を組み合わせることができる回路、モジュール、ブロック、またはシステムとして実現および/または一般的にそれらと呼ばれることができる。例えば、モジュールは、プロセッサ(例えば、シリコン基板、GaAs基板などの上に形成されたプロセッサ)または何らかの他のプログラム可能なデータ処理装置上で実行される機能/動作/コンピュータプログラム命令を含み得る。
上記の例示的な実施形態の幾つかは、フローチャートとして示されるプロセスまたは方法として説明される。フローチャートでは動作を逐次的なプロセスとして説明しているが、動作の多くは並行して、一斉に、または同時に実行できる。さらに、動作の順序は並べ替えられてもよい。プロセスは、動作が完了すると終了するが、図には含まれていない追加のステップがある場合もある。プロセスは、メソッド、関数、プロシージャ、サブルーチン、サブプログラムなどに対応する場合がある。
上で議論された方法は、その一部がフローチャートによって示されており、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、またはそれらの任意の組み合わせによって実装され得る。ソフトウェア、ファームウェア、ミドルウェア、またはマイクロコードで実装される場合、必要なタスクを実行するためのプログラムコードまたはコードセグメントは、記憶媒体などの機械またはコンピュータ可読媒体に記憶され得る。プロセッサは必要なタスクを実行できる。
本明細書に開示される特定の構造および機能の詳細は、例示的な実施形態を説明する目的で単に代表的なものである。しかしながら、例示的な実施形態は、多くの代替形態で具現化されてもよく、本明細書に記載された実施形態のみに限定されるものとして解釈されるべきではない。
本明細書では、第1、第2などの用語を様々な要素を説明するために使用することができるが、これらの要素はこれらの用語によって限定されるべきではないことが理解され得る。これらの用語は、ある要素を別の要素と区別するためにのみ使用される。例えば、例示的な実施形態の範囲から逸脱することなく、第1の要素を第2の要素と称することができ、同様に、第2の要素を第1の要素と称することができる。本明細書で使用される場合、「および/または」という用語は、関連する列挙された項目の1つ以上の任意のおよび全ての組み合わせを含む。
要素が別の要素に接続または結合されていると言及される場合、他の要素に直接接続または結合することができ、或いは介在要素が存在してもよいことが理解され得る。対照的に、要素が別の要素に直接接続または直接結合されていると言及される場合、介在する要素は存在しない。要素間の関係を説明するために使用される他の単語も同様に解釈される必要がある(例えば、要素間と要素間に直接、隣接要素と直接隣接する要素など)。
本明細書で使用される用語は、特定の実施形態を説明することだけを目的としており、例示的な実施形態を限定することを意図したものではない。本明細書で使用される場合、単数形である1つの(a)、1つの(an)、およびその(the)は、文脈上明らかに別段の指示がない限り、複数形も含むものとする。さらに、本明細書で使用される場合、「備える、備えている、含む、および/または含んでいる」という用語は、記載された特徴、整数、ステップ、動作、要素および/または構成要素の存在を特定するが、1つ以上の他の特徴、整数、ステップ、動作、要素、構成要素および/またはそれらのグループの存在または追加を排除するものではないことが理解され得る。
また、幾つかの代替実装形態では、記載された機能/動作が、図に記載された順序から外れて発生する可能性があることにも留意すべきである。例えば、連続して表示される2つの図は、実際には同時に実行されることもあれば、関係する機能/動作に応じて逆の順序で実行されることもある。
特に定義しない限り、本明細書で使用される全ての用語(技術用語および科学用語を含む)は、例示的な実施形態が属する当業者によって一般に理解されるのと同じ意味を有する。さらに、用語、例えば一般に使用される辞書で定義される用語は、関連技術の文脈におけるそれらの意味と一致する意味を有するものとして解釈されるべきであり、本明細書で明示的にそのように定義されない限り、理想化された意味または過度に形式的な意味で解釈されないことが理解され得る。
上記の例示的な実施形態の一部および対応する詳細な説明は、ソフトウェア、またはコンピュータメモリ内のデータビットに対する演算のアルゴリズムおよび記号表示の観点から提示されている。これらの説明および表現は、当業者がその研究の内容を他の当業者に効果的に伝えるためのものである。ここで使用されている用語や一般的に使用されているアルゴリズムは、望ましい結果に至る、一貫した一連のステップであると考えられる。これらのステップは、物理量の物理的動作を必要とするステップである。通常、必ずしもそうではないが、これらの量は、保存、転送、結合、比較、その他の操作が可能な光、電気、または磁気信号の形をとる。主に一般的な使用上の理由から、これらの信号をビット、値、要素、記号、文字、用語、数字などと呼ぶと便利な場合がある。
上記の例示的な実施形態では、プログラムモジュールまたは機能プロセスとして実装され得る動きおよび動作の記号表示(例えば、フローチャートの形を成す)への言及は、特定のタスクを実行するか特定の抽象データ型を実装して既存の構造要素で既存のハードウェアを使用して記述および/または実装され得るルーチン、プログラム、オブジェクト、構成要素、データ構造などを含む。そのような既存のハードウェアには、1つ以上の中央処理装置(CPU)、デジタル信号プロセッサ(DSP)、特定用途向け集積回路、フィールドプログラマブルゲートアレイ(FPGA)コンピュータなどが含まれる場合がある。
しかし、これらの用語および同様の用語は全て、適切な物理量に関連付けられており、これらの量に適用される便宜的なラベルにすぎないことに留意すべきである。特に別段の記載がない限り、または議論から明らかなように、処理または計算、または表示などの計算または決定などの用語は、コンピュータシステムのレジスタおよびメモリ内で物理量、電子量として表されるデータを、操作して、コンピュータシステムのメモリまたはレジスタ内または他のそのような情報記憶デバイス、送信デバイス、または表示デバイス内の物理量として同様に表される他のデータに変換する、コンピュータシステムまたは同様の電子計算装置の動作およびプロセスを指す。
また、例示的実施形態のソフトウェア実装態様は、通常、何らかの形式の非一時的プログラム記憶媒体上に符号化されるか、またはある種の伝送媒体上で実装されることにも留意されたい。プログラム記憶媒体は、磁気(例えば、フロッピーディスクまたはハードドライブ)または光学(例えば、コンパクトディスクリードオンリーメモリ、またはCDROM)であってもよく、読み取り専用またはランダムアクセスであってもよい。同様に、伝送媒体は、ツイスト対線、同軸ケーブル、光ファイバ、または当技術分野で知られている他の適切な伝送媒体であってもよい。例示的な実施形態は、任意の所与の実装形態のこれらの態様によって限定されない。
最後に、添付の特許請求の範囲は、本明細書に記載される特徴の特定の組み合わせを記載するが、本開示の範囲は、以下に特許請求される特定の組み合わせに限定されず、その特定の組み合わせが現時点で添付の特許請求の範囲に具体的に列挙されているかどうかに関係なく、本明細書に開示される特徴または実施形態の任意の組み合わせを包含するように拡張されることにも留意すべきである。

Claims (22)

  1. シーンのニューラル放射輝度場(NeRF)体積表示に基づいてレンダリングされた画像を受信するステップであって、前記シーンの前記NeRF表示がビデオデータの捕捉されたフレームに基づき、各捕捉されたフレームが、前記シーンのカラー画像、前記シーンが広視野IR光源によって照明されるときに捕捉された前記シーンの広視野IR画像、および前記シーンの複数の深度IR画像を含み、前記シーンが異なるパターンのIR光点によって照明されるときに前記深度IR画像の各々が捕捉され、前記異なるパターンのIR光点による照明が異なる時間に起こり、前記NeRF表示が、位置と観察方向との間で、前記シーン内の各位置における色および光学密度へのマッピングをもたらし、前記シーン内の各位置における色および光学密度により、新たな視点から前記シーンを観察することが可能になり、前記NeRF表示が、位置と観察方向との間で、新たな視点からそれぞれの前記異なるパターンのIR光点ごとにIR値へのマッピングをもたらす、ステップと、
    前記受信された画像から強化された画像を生成するための合成関数を規定するステップと、
    ニューラルネットワークによって生成された予測画像とトレーニング中にグランドトゥルースカメラによって捕捉されたグランドトゥルース画像との間の損失関数を最小化することに基づいてトレーニングされたニューラルネットワークを使用して前記合成関数を計算するステップと、
    を含む方法。
  2. 前記画像を受信する前記ステップの前に、
    体積捕捉システムを使用してシーンの3Dモデルを捕捉するステップと、
    前記NeRF体積表示に基づいて前記画像をレンダリングするステップと、
    をさらに含む、請求項1に記載の方法。
  3. 前記グランドトゥルースカメラおよび前記体積捕捉システムがいずれもトレーニング中にビューに向けられ、前記グランドトゥルースカメラが前記体積捕捉システムよりも高品質の画像を生成する、請求項2に記載の方法。
  4. 前記シーンの前記NeRF表示は、前記シーンに対する複数の観察位置および観察方向について、前記シーンの位置固有および視点固有の色、IR、および密度画像データを生成するように構成される、請求項1~請求項3のいずれか一項に記載の方法。
  5. 前記位置固有および視点固有のIR画像データは、それぞれの前記異なるパターンのIR光点ごとに広視野IR画像データおよびパターン化されたIR画像データを含む、請求項4に記載の方法。
  6. 前記損失関数は、ニューラルネットワークにおける層の活性化にマッピングされたセグメント化されたグランドトゥルース画像と、ニューラルネットワークにおける層の活性化にマッピングされたセグメント化された予測画像との間の再構成差分に基づく再構成損失を含み、前記セグメント化されたグランドトゥルース画像が背景ピクセルを除去するためにグランドトゥルースセグメンテーションマスクによってセグメント化され、前記セグメント化された予測画像が背景ピクセルを除去するために予測セグメンテーションマスクによってセグメント化され、前記予測セグメンテーションマスクは、フレームに関して捕捉された可視光情報とフレームに関して捕捉されたIR光との両方の組み合わせに基づいて予測される、請求項1~請求項5のいずれか一項に記載の方法。
  7. 前記再構成差分は、最大エラーを上回るまたは最小エラーを下回るピクセルにおける再構成差分の重み付けを下げるように再重み付けされる顕著性である、請求項6に記載の方法。
  8. 前記損失関数は、グランドトゥルースセグメンテーションマスクと予測セグメンテーションマスクとの間のマスク差分に基づくマスク損失を含み、前記予測セグメンテーションマスクは、フレームに関して捕捉された可視光情報とフレームに関して捕捉されたIR光との両方の組み合わせに基づいて予測される、先行する請求項のいずれか一項に記載の方法。
  9. 前記予測画像は、画像の予測ステレオ対のうちの一方であり、前記損失関数は、前記画像の予測ステレオ対間のステレオ差分に基づくステレオ損失を含む、請求項1~請求項8のいずれか一項に記載の方法。
  10. 前記ニューラルネットワークが完全畳み込みモデルに基づく、先行する請求項のいずれか一項に記載の方法。
  11. ニューラルネットワークを使用して前記合成関数を計算する前記ステップは、
    左眼視点における前記合成関数を計算するステップと、
    右眼視点における前記合成関数を計算するステップと、
    を含む、先行する請求項のいずれか一項に記載の方法。
  12. ニューラルネットワークを使用して前記合成関数を計算する前記ステップがリアルタイムで実行される、先行する請求項のいずれか一項に記載の方法。
  13. フレームにおける前記シーンの前記カラー画像は、モザイク解除されたカラーチャネルを含む、先行する請求項のいずれか一項に記載の方法。
  14. フレームにおける前記シーンの前記カラー画像は、3つの独立したデモザイク解除されないカラーチャネルを含み、前記シーンの前記NeRF表示の基礎となるビデオデータの捕捉されたフレームは、前記3つの独立したデモザイク解除されないカラーチャネルを含む、請求項1~請求項12のいずれか一項に記載の方法。
  15. 捕捉された3Dモデルの少なくとも1つの視点から再構成される少なくとも1つの画像をレンダリングするように構成される体積捕捉システムであって、前記少なくとも1つの画像が不完全性を含む、体積捕捉システムと、
    前記体積捕捉システムから前記少なくとも1つの画像を受信するとともに、前記少なくとも1つの受信された画像の不完全性が低減された少なくとも1つの強化画像をリアルタイムで生成するように構成されるレンダリングシステムであって、前記レンダリングシステムが、使用前のトレーニングによって前記少なくとも1つの強化画像を生成するように構成されるニューラルネットワークを含み、前記トレーニングが、トレーニング中に前記ニューラルネットワークによって生成される予測画像と、トレーニング中に前記体積捕捉システムと調整された少なくとも1つのグランドトゥルースカメラによって捕捉される対応するグランドトゥルース画像との間の損失関数を最小化することを含み、前記損失関数の最小化が、ビデオデータの捕捉されたフレームに基づき、各捕捉されたフレームが、シーンのカラー画像、前記シーンが広視野IR光源によって照射されるときに捕捉される前記シーンの広視野IR画像、および前記シーンの複数の深度IR画像を含み、前記シーンが異なるパターンのIR光点によって照射されるときに前記深度IR画像の各々が捕捉される、レンダリングシステムと、
    を備える性能捕捉システム。
  16. 前記少なくとも1つのグランドトゥルースカメラは、トレーニング中は前記性能捕捉システムに含まれ、そうでない場合は前記性能捕捉システムに含まれない、請求項15に記載の性能捕捉システム。
  17. 前記体積捕捉システムは、単一のビューに向けられた単一のアクティブステレオカメラを含み、トレーニング中に、前記単一のビューに向けられた単一のグランドトゥルースカメラを含む、請求項15または請求項16に記載の性能捕捉システム。
  18. 前記体積捕捉システムは、複数のビューに向けられた複数のアクティブステレオカメラを含み、トレーニング中に、前記複数のビューに向けられた複数のグランドトゥルースカメラを含む、請求項15または請求項16に記載の性能捕捉システム。
  19. 前記性能捕捉システムは、前記少なくとも1つの強化画像のうちの1つを左眼ビューとして表示し、前記少なくとも1つの強化画像のうちの1つを右眼ビューとして表示するように構成されるステレオディスプレイを含む、請求項15または請求項16に記載の性能捕捉システム。
  20. 前記性能捕捉システムがテレプレゼンス通信ノードを含む、請求項19に記載の性能捕捉システム。
  21. 前記ステレオディスプレイが拡張現実(AR)ヘッドセットに含まれる、請求項19に記載の性能捕捉システム。
  22. 前記ステレオディスプレイがヘッドトラッキング自動ステレオディスプレイである、請求項19に記載の性能捕捉システム。
JP2023550681A 2021-02-24 2021-02-24 暗黙的な放射輝度関数を使用した色および赤外線3次元再構成 Pending JP2024507887A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2021/070188 WO2022182421A1 (en) 2021-02-24 2021-02-24 Color and infra-red three-dimensional reconstruction using implicit radiance function

Publications (1)

Publication Number Publication Date
JP2024507887A true JP2024507887A (ja) 2024-02-21

Family

ID=74867704

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023550681A Pending JP2024507887A (ja) 2021-02-24 2021-02-24 暗黙的な放射輝度関数を使用した色および赤外線3次元再構成

Country Status (6)

Country Link
US (1) US20240087214A1 (ja)
EP (1) EP4298607A1 (ja)
JP (1) JP2024507887A (ja)
KR (1) KR20230146649A (ja)
CN (1) CN116670708A (ja)
WO (1) WO2022182421A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024073214A1 (en) * 2022-09-27 2024-04-04 Dolby Laboratories Licensing Corporation Neural segmentation fields for representing three-dimensional scenes
CN115631418B (zh) * 2022-11-18 2023-05-16 北京百度网讯科技有限公司 图像处理方法及装置、神经辐射场的训练方法
KR102648938B1 (ko) * 2023-02-15 2024-03-19 고려대학교 산학협력단 기하학적 일관성을 이용한 소수 샷 신경 방사장 기반 3차원 이미지 재구성 방법 및 장치
CN116152323B (zh) * 2023-04-18 2023-09-08 荣耀终端有限公司 深度估计方法、单目深度估计模型生成方法和电子设备
CN117456097B (zh) * 2023-10-30 2024-05-14 南通海赛未来数字科技有限公司 一种三维模型构建方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020117657A1 (en) * 2018-12-03 2020-06-11 Google Llc Enhancing performance capture with real-time neural rendering

Also Published As

Publication number Publication date
US20240087214A1 (en) 2024-03-14
EP4298607A1 (en) 2024-01-03
KR20230146649A (ko) 2023-10-19
CN116670708A (zh) 2023-08-29
WO2022182421A1 (en) 2022-09-01

Similar Documents

Publication Publication Date Title
US20220014723A1 (en) Enhancing performance capture with real-time neural rendering
Attal et al. MatryODShka: Real-time 6DoF video view synthesis using multi-sphere images
JP2024507887A (ja) 暗黙的な放射輝度関数を使用した色および赤外線3次元再構成
Wu et al. Light field image processing: An overview
US10726560B2 (en) Real-time mobile device capture and generation of art-styled AR/VR content
JP7386888B2 (ja) 画面上の話者のフューショット合成
US11710287B2 (en) Generative latent textured proxies for object category modeling
US20130321396A1 (en) Multi-input free viewpoint video processing pipeline
CN110381268B (zh) 生成视频的方法,装置,存储介质及电子设备
KR102612529B1 (ko) 신규 뷰 합성을 위한 신경 블렌딩
US20230316810A1 (en) Three-dimensional (3d) facial feature tracking for autostereoscopic telepresence systems
Zhou et al. Single-view view synthesis with self-rectified pseudo-stereo
WO2022231582A1 (en) Photo relighting and background replacement based on machine learning models
Mühlhausen et al. Immersive Free‐Viewpoint Panorama Rendering from Omnidirectional Stereo Video
CN117274066B (zh) 一种图像合成模型、方法、设备及存储介质
CN112634139B (zh) 光场超分辨成像方法、装置及设备
Lin Neural 3D Representations for View Synthesis with Sparse Input Views
Ishikawa et al. Reconstructing Continuous Light Field from Single Coded Image
Chen et al. Jump-NERF: An Approach to Removing Glare and Pseudo Shadows Caused by Glass in Architectural Spaces
WO2024107872A1 (en) Real-time view synthesis
CN117956130A (zh) 视频处理方法、装置、设备、系统及可读取存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231023

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231023