JP2023549821A - 変形可能なニューラル放射輝度場 - Google Patents

変形可能なニューラル放射輝度場 Download PDF

Info

Publication number
JP2023549821A
JP2023549821A JP2023528508A JP2023528508A JP2023549821A JP 2023549821 A JP2023549821 A JP 2023549821A JP 2023528508 A JP2023528508 A JP 2023528508A JP 2023528508 A JP2023528508 A JP 2023528508A JP 2023549821 A JP2023549821 A JP 2023549821A
Authority
JP
Japan
Prior art keywords
frame
nerf
deformation
scene
viewing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023528508A
Other languages
English (en)
Inventor
マーティン・ブルアラ,リカルド
パク,クンホン
シンハ,ウトカルシュ
ブアジズ,ソフィアン
ゴールドマン,ダニエル
バロン,ジョナサン・ティルトン
ザイツ,スティーブン・マックスウェル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2023549821A publication Critical patent/JP2023549821A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • G06T15/205Image-based rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/50Lighting effects
    • G06T15/506Illumination models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/04Texture mapping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/50Lighting effects
    • G06T15/55Radiosity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Graphics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Processing Or Creating Images (AREA)
  • Image Generation (AREA)

Abstract

ニューラル放射輝度場(neural radiance field:NeRF)を用いる画像合成の技術は、非剛体変形シーンにおいて対象が経験する動きの変形モデルを生成することを含む。例えば、画像合成システムがNeRFを用いる場合、当該システムは、対象の複数の姿勢をトレーニングデータのための入力として取込む。従来のNeRFとは異なり、技術的解決策は、まず、観察フレームにおいて様々な視点から対象の位置を表現する。次いで、技術的解決策は、変形モデル、すなわち、観察フレームと被験者の動きが考慮されているカノニカルフレームとの間のマッピングを導出することを含む。このマッピングは、多層パーセプトロン(multilayer perceptron:MLP)を用いて決定される各姿勢についての潜在変形符号を用いて達成される。NeRFは、次いで、別のMLPを用いて、カノニカルフレーム内の位置および投射光線方向から導出される。次いで、対象についての新しい姿勢がNeRFを用いて導出されてもよい。

Description

関連出願の参照
本願は、2020年11月16日に出願され「変形可能なニューラル放射輝度場(DEFORMABLE NEURAL RADIANCE FIELDS)」と題された米国仮特許出願第63/198,841号の非仮出願でありその優先権を主張するものであって、その内容全体が引用により援用されている。
技術分野
本明細書は、ニューラル放射輝度場(neural radiance field:NeRF)を用いる画像合成に関する。
背景
コンピュータグラフィックオブジェクトをレンダリングするように構成されたコンピュータの中には、複数の既存のビューを前提として、指定されたビューでオブジェクトをレンダリングすることができるものもある。例えば、そのようなコンピュータグラフィックオブジェクトを含むシーンに関するカメラからキャプチャされたいくつかの深度画像およびカラー画像の場合、異なる視点から見たシーンの新しいビューを合成することが目標となり得る。当該シーンは、物理的な色センサおよび深度センサを用いてビューがキャプチャされる現実的なシーンであってもよく、または、ラスター化等のレンダリングアルゴリズムを用いてビューがキャプチャされる合成シーンであってもよい。現実的なシーンの場合、飛行時間型センサ、構造化光ベースのセンサ、およびステレオまたはマルチビューステレオアルゴリズム等の多くの深度感知技術が存在する。このような技術は、パターンが時間に応じて変化し得る受動的または能動的な照明パターンを用いる可視センサまたは赤外線センサを含み得る。
概要
概略的な一局面では、方法は、複数の画像を表わす画像データを取得するステップを含み得る。当該複数の画像の各々は、観察フレーム内のシーンの画像を含み、当該シーンは、それぞれの視点から見た非剛体変形オブジェクトを含む。当該方法はまた、画像データに基づいて変形モデルを生成するステップを含み得る。当該変形モデルは、当該画像データが生成されていた間に当該非剛体変形オブジェクトが行なった動きを記述し、当該変形モデルは、当該観察フレーム内の位置とカノニカルフレーム内の位置との間のマッピングによって表わされる。当該方法はさらに、カノニカルフレーム内の位置を通る投射光線の位置および視野方向に基づいて、変形可能なニューラル放射輝度場(deformable neural radiance field:D-NeRF)を生成するステップを含み得る。当該D-NeRFは、当該位置と視野方向との間のマッピングを、当該観察フレーム内の各位置における色および光学密度に提供する。当該観察フレーム内の各位置における色および光学密度は、新しい視点から当該非剛体変形オブジェクトを見ることを可能にする。
別の概略的な局面では、コンピュータプログラム製品は、非一時的な記憶媒体を備え、当該コンピュータプログラム製品は、コンピューティングデバイスの処理回路によって実行されると当該処理回路に方法を実行させる符号を含む。当該方法は、複数の画像を表わす画像データを取得するステップを含み得る。当該複数の画像の各々は、観察フレーム内のシーンの画像を含み、当該シーンは、それぞれの視点から見た非剛体変形オブジェクトを含む。当該方法はまた、当該画像データに基づいて変形モデルを生成するステップを含み得る。当該変形モデルは、当該画像データが生成されていた間に当該非剛体変形オブジェクトが行なった動きを記述し、当該変形モデルは、当該観察フレーム内の位置とカノニカルフレーム内の位置との間のマッピングによって表わされる。当該方法はさらに、当該カノニカルフレーム内の当該位置を通る投射光線の位置および視野方向に基づいて、変形可能なニューラル放射輝度場(D-NeRF)を生成するステップを含み得る。当該D-NeRFは、当該位置と視野方向との間のマッピングを、当該観察フレーム内の各位置における色および光学密度に提供する。当該観察フレーム内の各位置における当該色および光学密度は、新しい視点から当該非剛体変形オブジェクトを見ることを可能にする。
別の概略的な局面では、電子装置は、メモリと、当該メモリに結合された制御回路とを備える。当該制御回路は、複数の画像を表わす画像データを取得するように構成され得る。当該複数の画像の各々は、観察フレーム内のシーンの画像を含み、当該シーンは、それぞれの視点から見た非剛体変形オブジェクトを含む。当該制御回路はまた、当該画像データに基づいて変形モデルを生成するように構成され得る。当該変形モデルは、当該画像データが生成されていた間に当該非剛体変形オブジェクトが行なった動きを記述し、当該変形モデルは、当該観察フレーム内の位置とカノニカルフレーム内の位置との間のマッピングによって表わされる。当該制御回路はさらに、当該カノニカルフレーム内の当該位置を通る投射光線の位置および視野方向に基づいて、変形可能なニューラル放射輝度場(D-NeRF)を生成するように構成され得る。当該D-NeRFは、当該位置と視野方向との間のマッピングを、当該観察フレーム内の各位置における色および光学密度に提供する。当該観察フレーム内の各位置における当該色および光学密度は、新しい視点から当該非剛体変形オブジェクトを見ることを可能にする。
1つ以上の実現例の詳細は、添付の図面および以下の説明に記載されている。他の特徴は、以下の説明および添付の図面ならびに添付の特許請求の範囲から明らかになるだろう。
本明細書に記載の技術的解決策を実現するための例示的な電子環境を示す図である。 図1に示す電子環境内で変形可能なニューラル放射輝度場を生成するための例示的なシステムアーキテクチャを示す図である。 図1に示す電子環境内で技術的解決策を実行する例示的な方法を示すフローチャートである。 観察フレームにおける対象である人の例示的な姿勢を示す図である。 カノニカルフレームにおける対象である人の例示的な姿勢を示す図である。 弾性正則化を伴わないキーフレーム(上)と弾性正則化を伴うキーフレーム(下)との間の例示的な補間を示す図である。 本明細書に記載の回路とともに使用され得るコンピュータデバイスおよびモバイルコンピュータデバイスの例を示す図である。
詳細な説明
シーンの新しいビューを合成するための従来の手法はニューラル放射輝度場(NeRF)を採用する。この手法では、空間内の各点(x,y,z)において各方向(θ,ψ)に放射される放射輝度を出力する連続的な5次元関数として静的シーンと、(x,y,z)を通過する光線によってどれくらいの放射輝度が蓄積されるかを制御する微分不透過率のように作用する各点ごとの密度とが表わされる。この手法は、しばしば多層パーセプトロン(multilayer perceptron:MLP)と称される畳み込み層なしの全結合型のディープニューラルネットワークを最適化して、単一の5D座標(x,y,z,θ,ψ)から単一の体積密度およびビュー依存型RGB色に回帰させることによって5次元関数を表わす。
この5次元関数またはNeRFをレンダリングするために、1)カメラ光線をシーン内に進ませて3Dの点からなるサンプリングセットを生成すること、2)これらの点およびそれらの対応する2D視野方向をニューラルネットワークへの入力として用いて、色および密度の出力セットを生成すること、3)従来のボリュームレンダリング技術を用いて、これらの色および密度を2D画像に蓄積することができる。このプロセスは自然に区別可能であるので、各観察画像と我々の表現からレンダリングされた対応するビューとの間の誤差を最小限に抑えることによってNeRFを最適化するために勾配降下を用いることができる。複数のビューにわたってこの誤差を最小限に抑えることにより、ネットワークが、真の基礎となるシーンコンテンツを含む位置に高い体積密度および正確な色を割当てることによってシーンのコヒーレントモデルを予測することが促進される。
NeRFは、一般に、剛体の無生物オブジェクトを含むシーンにおいてビューを合成するのに優れている。対照的に、NeRFは、人々(より一般的には、動く傾向がある非剛体オブジェクト)を含むシーンにおいてビューを合成するのにはさほど優れていない。手持ち式カメラを用いて人々をモデル化する場合に技術的問題が生じる。この技術的問題は、1)非剛体であり、完全に静止したままでいることができないこと、2)ほとんどの再構築方法において用いられる前提に違反する毛髪、眼鏡およびイヤリング等の厄介な材料、といった理由により困難なものとなる。例えば、携帯電話カメラで自分の写真(すなわち、自撮り写真)を撮る人のビューを合成するためにNeRFが用いられる場合、合成されたビューは、非剛体および厄介な材料に対処することができないNeRFによってもたらされる不正確さから生じるアーチファクトを含む可能性がある。
上述の技術的問題を解決するための従来の手法とは異なり、上述の技術的問題に対する技術的解決策は、対象が動きによってどのように歪められるかを定義する非剛体変形シーンにおいて対象が経験する動きの変形モデルを生成することを含む。例えば、画像合成システムがNeRFを用いる場合、当該システムは、対象の複数の姿勢をトレーニングデータのための入力として取込む。従来のNeRFとは異なり、当該技術的解決策は、まず、観察フレームにおける様々な視点からの対象の位置を表現する。次いで、技術的解決策は、変形モデル、すなわち、観察フレームと対象の動きが考慮されているカノニカルフレームとの間のマッピング、を導出することを含む。このマッピングは、多層パーセプトロン(MLP)を用いて決定される姿勢ごとの潜在変形符号を用いて達成される。NeRFは、次いで、別のMLPを用いて、カノニカルフレーム内の位置および投射光線方向から導出される。次いで、対象についての新しい姿勢がNeRFを用いて導出され得る。
上述の技術的解決策の技術的利点は、当該技術的解決策が、対象の動きを考慮しないためにもたらされるアーチファクトなしで新しいシーンの合成ビューを正確に予測することである。
いくつかの実現例では、変形モデルは、フレームごとの潜在符号に条件付けられており、潜在符号はフレーム内のシーンの状態を符号化する。
いくつかの実現例では、変形モデルは、回転と、当該回転に対応する回動点と、並進とを含む。いくつかの実現例では、回転は純粋な対数四元数として符号化される。いくつかの実現例では、変形モデルは、(i)位置と回動点との間の差異に対する類似性変換と、(ii)回動点と、(iii)並進との合計を含む。
いくつかの実現例では、変形モデルは、ニューラルネットワーク内の多層パーセプトロン(MLP)を含む。いくつかの実現例では、MLPについての弾性損失関数成分は、変形モデルを表わす行列のノルムに基づく。いくつかの実現例では、行列は、観察フレーム内の位置に対する変形モデルのヤコビアンである。いくつかの実現例では、弾性損失関数成分は、変形モデルを表わす行列の特異値分解に基づく。いくつかの実現例では、弾性損失関数成分は、特異値分解に起因する特異値行列の対数に基づく。いくつかの実現例では、弾性損失関数成分は、ロバスト弾性損失関数を生成するために有理関数で構成される。
いくつかの実現例では、背景損失関数成分は、シーン内の点を、動きについてのペナルティを有する静的点として指定することを要する。いくつかの実現例では、背景損失関数成分は、静的点と、変形モデルに従ったカノニカルフレームに対する観察フレーム内の静的点のマッピングとの間の差に基づく。いくつかの実現例では、変形モデルを生成するステップは、位置の周期関数を生成するために、シーン内の位置座標に位置符号化を適用するステップを含み、当該周期関数は、MLPのためのトレーニング反復とともに増加する周波数を有する。いくつかの実現例では、位置符号化の周期関数には、トレーニング反復が特定の周波数を含むかどうかを示す重みを乗じる。
NeRFは連続的な体積表現である。これは、
Figure 2023549821000002
である。NeRFは、ボリュームレンダリング技術と組合わせることで、写真のような現実感のある品質を有するシーンを表わすことができる。この理由から、NeRFは、写真のように写実的に人をキャプチャする際の問題に対処するように構築される。
NeRFトレーニング手順は、3Dシーンを前提として、2つの異なるカメラからの2本の交差する光線が同じ色をもたらすはずであるという事実に依拠する。鏡面反射および透過を無視すると、この仮定は、静的構造を有するすべてのシーンに当てはまる。残念なことに、人々は静止したままでいる能力を持たないことが分かっている。これは以下のように検証され得る。完全に静止したままで自撮り映像を撮影しようとすると、自分の視線が自然にカメラに追従し、静止していると思われている部分でさえも背景に対して動いていることが分かるだろう。
このような制限があることを理解すれば、NeRFは、非剛体変形シーンの再構築を可能にするように拡張される。これは、NeRFを通じて光線を直接投射する代わりに、シーンのカノニカルテンプレートとして用いられる。このテンプレートはシーンの相対的な構造および外観を含み、レンダリングは当該テンプレートの非剛体変換バージョンを用いるだろう。他に、テンプレートおよびフレームごとの変形をモデル化し得るものもあるが、この変形は、それぞれメッシュ点およびボクセルグリッド上で定義される一方で、MLPを用いて連続関数としてモデル化される。
観察からカノニカルへの変形は、あらゆるフレームi∈{1,…,n]に対して採用され、ここでnは観察されたフレームの数である。これは、全ての観察空間座標xをカノニカル空間座標x′にマッピングするマッピングT:x→x′を定義する。実際には、変形場は、フレームごとに学習された潜在符号ωに条件付けられる単一のMLP T:(x,ω)→x′を用いて全ての時間ステップについてモデル化される。フレーム毎の潜在符号は、そのフレームにおけるシーンの状態をモデル化する。カノニカル空間放射輝度場Fおよび観察・カノニカル間マッピングTを前提とすると、観察空間放射輝度場は、
Figure 2023549821000003
として評価することができる。レンダリングの際、光線およびサンプル点は単純に観察フレーム内に投射され、次いで、サンプリングされた点をテンプレート上の点にマッピングするために変形場が用いられる。
図1は、上述の改善された技術が実現され得る例示的な電子環境100を示す図である。図1に示すように、例示的な電子環境100はコンピュータ120を含む。
コンピュータ120は、ネットワークインターフェイス122、1つ以上の処理ユニット124、およびメモリ126を含む。ネットワークインターフェイス122は、例えば、ネットワークから受信した電子信号および/または光信号をコンピュータ120が使用できる電子形式に変換するためのイーサネット(登録商標)アダプタ等を含む。処理ユニット124のセットは、1つ以上の処理チップおよび/またはアセンブリを含む。メモリ126は、揮発性メモリ(例えば、RAM)と、1つ以上のROM、ディスクドライブ、ソリッドステートドライブ等の不揮発性メモリとをともに含む。処理ユニット124のセットおよびメモリ126は共に、本明細書に記載するような様々な方法および機能を実行するように構成および配置された制御回路を形成する。
いくつかの実施形態では、コンピュータ120の構成要素のうちの1つ以上は、メモリ126に格納された命令を処理するように構成されたプロセッサ(たとえば、処理ユニット124)を含み得る。図1に示すような命令の例として、画像取得マネージャ130、変形モデルマネージャ140、およびテンプレートNeRFマネージャ150が含まれる。さらに、メモリ126は、図1に示すように、このようなデータを用いる各マネージャに関して説明した各種データを格納するように構成されている。
画像取得マネージャ130は、変形モデルマネージャ140に入力すべき画像データ132を取得するように構成される。いくつかの実現例では、画像取得マネージャ130は、ネットワークインターフェイス122を介して、すなわち、ネットワークを介して、画像データ132を受信する。いくつかの実現例では、画像取得マネージャ130は、ローカルストレージ(例えば、ディスクドライブ、フラッシュドライブ、SSD等)から画像データ132を受信する。
画像データ132は、シーン134(1)、134(2)、…、134(N)の複数の画像を表わす。例えば、ユーザは、携帯電話カメラを用いて様々な視点136(1)、136(2)、…、136(N)から自身の画像、すなわち「自撮り写真」、を記録することによって画像134(1)、134(2)、…、134(N)を生成してもよい。
手持ち式カメラで人々をモデル化することは、1)完全に静止したままでいることができない非剛性と、2)ほとんどの再構築方法において用いられる仮定に違反している毛髪、眼鏡、およびイヤリング等の厄介な材料との両方が原因で、特に困難である。非剛体変形シーンをモデル化するために、NeRFは、追加の成分を導入することによって一般化され得る。追加の成分とは、観察の基準系における3D点を歪ませてカノニカルモデルの基準系にする観察ごとの変形場によって補足される全ての観察のためのテンプレートとしての役割を果たすカノニカルNeRFモデルである。
変形モデルマネージャ140は、シーンの観察空間内の座標とNeRFモデルが適用されているカノニカル空間内の座標との間のマッピングをもたらす変形モデルを生成するように構成される。この目的のために、変形モデルマネージャ140は、観察フレーム位置データ141および潜在変形符号データ142を生成するように構成される。
観察フレームデータ141は、観察フレームにおける点の座標、すなわち画像134(1)、134(2)、…、134(N)の座標フレームを表わす。例えば、観察フレームデータ141は、画像データ132が生成された空間の広がり範囲を表わす体積内の点xを表してもよい。観察フレームは図2において視覚化され得る。
図2は、変形可能なニューラル放射輝度場を生成するための例示的なシステムアーキテクチャ200を示す図である。図2は、観察フレーム220を3次元体積内の点の集合として示す。図2はまた、光線212が向けられるカメラ視点210を示す。
潜在変形符号データ142は、図2に記号ωで表わされる潜在変形符号を表わす。各画像134(1)、…、134(N)は、それ自体の潜在変形符号に関連付けられている。シーンの画像に関連付けられた画像ごとの潜在変形符号は、その画像におけるシーンの状態をモデル化する。いくつかの実現例では、画像ごとの潜在変形符号が学習される。画像ごとの潜在変形符号の各々が有する次元数は少なく、いくつかの実現例では、各潜在変形符号は8次元を有する。
変形モデルマネージャ140はまた、観察フレームデータ141と潜在変形符号データ142とに基づいて変形モデルを生成するように構成される。いくつかの実現例では、変形モデルはニューラルネットワークを用いて導出される。いくつかの実現例では、ニューラルネットワークは畳み込み層を含まない。図2に示すように、変形モデルは、多層パーセプトロン(MLP)230を用いて導出される。図1に示すように、変形モデルは、変形場MLPデータ143を用いて導出される。
変形場MLPデータ143は、変形場MLPを定義する値を表わす。本明細書に記載の技術的解決策の文脈における例示的な変形場MLPは6つの層(1つの入力、1つの出力、および4つの隠れ層)を有する。この例では、隠れ層のサイズ(すなわち、ノードの数)は128であり、第4の層にスキップ接続があり、Softplusアクティブ化関数log(1+e)がある。変形場MLPデータ143はさらに、損失関数データ144および粗密データ145を含む。
変形モデルは、最適化をより困難にする可能性のある曖昧さを加える。例えば、後方に移動するオブジェクトは、サイズが縮小するオブジェクトと視覚的に同等であり、その間に非常に多くの分解能を伴う。これらの曖昧さは、最適化に対する制約が不足するという問題をもたらし、結果として、非現実的な変形およびアーチファクトをもたらす。したがって、より妥当な解決策をもたらす先行技術が導入される。
損失関数データ144は、トレーニング反復ごとに変形場MLP(すなわち、図2のMLP230)のノードの値を決定するために用いられる損失関数成分を表わす。図2に示すように、MLP230についての損失関数成分は弾性損失データ144(1)および背景損失データ144(2)を含む。
弾性損失データ144(1)は、変形モデルを決定するのに用いられる弾性損失関数の値を表わす。剛体運動からの局所的変形のずれを測定する弾性エネルギを用いて非剛体変形をモデル化することは、幾何学的処理および物理的シミュレーションにおいては一般的である。このようなエネルギは、非剛体シーンおよびオブジェクトの再構築および追跡のために広く用いられてきた。したがって、弾性エネルギは、このような手法のための好適な候補である。弾性エネルギは、離散化表面、例えばメッシュ、に最もよく用いられてきたが、変形モデルに含まれる連続変形場の状況において同様の概念を適用することができる。
一定の潜在符号ωの場合、連続変形場Tは、
Figure 2023549821000004
への非線形マッピングである。それでも、このような非線形マッピングは行列表現で近似化され得る。
いくつかの実現例では、非線形マッピングも微分可能である。この場合、
Figure 2023549821000005
は、その点における変換の好適な線形近似化を表わす。したがって、変形モデルの局所的挙動は、Tのヤコビアンにより制御可能である。離散化表面を用いる他の手法とは異なり、この連続的/微分可能な定式化により、変形場MLPの自動微分を経てこのマッピングのヤコビアンを直接計算することが可能になることに留意されたい。
剛体変換からのヤコビアンJの偏差にペナルティを課すためのいくつかの方法がある。ヤコビアンJ=UΣVの特異値分解を考慮すると、複数の手法は、最も近い回転からの偏差に
Figure 2023549821000006
としてペナルティを科す。式中、R=VUであり、・はフロベニウスノルムである。いくつかの実現例では、弾性損失成分は、Jの特異値に基づいており、弾性損失成分は、アイデンティティIからの特異値行列Σの偏差の尺度を含む。特異値の対数は、同じ因子の伸縮に等しい重みを与え、より適切に機能することが分かった。したがって、ゼロからの対数特異値の偏差から導出される点xにおける弾性損失成分には以下のようにペナルティが課される。
Figure 2023549821000007
式中、logは行列対数を表わす。
いくつかの実現例では、弾性損失成分は、よりロバストな損失関数に再マッピングされる。例えば、人は大部分が剛性であるが、局所的な剛体についての我々の前提を崩す可能性のあるいくつかの動き、例えば、局所的に皮膚を伸ばしたり縮めたりする顔の表情がある。上記で定義した弾性エネルギは、次いで、ロバスト損失成分を用いて再マッピングされ得る。
Figure 2023549821000008
式中、ρ(・)は、ハイパーパラメータc=0.03で実現されるGeman-McClureのロバスト誤差関数であり、wは重みである。複数の点にわたり、正味のロバスト損失成分Lelastic-rはそれらの複数の点の各々におけるロバスト損失成分の加重平均である。ロバスト損失成分は、引数の値が大きい場合に損失の勾配をゼロにまで小さくして、トレーニング中の外れ値の影響を低減させる。
背景損失データ144(2)は、変形モデルを決定するために用いられる背景損失関数の値を表わす。変形場Tは制約されておらず、したがって、全てが自由に動き回ることができる。いくつかの実現例では、背景が動くのを防ぐ正則化項が追加される。静的であることが分かっているシーン内の3次元点のセットを前提として、これらの点におけるいずれの変形にもペナルティを課すことができる。例えば、多視点画像からの3次元形状復元(structure from motion)を用いてカメラを位置合わせすることにより、少なくともいくつかの観察セットにわたって剛性に挙動する3D特徴点のセットを生成する。これらの静的3D点{x…,x]を前提とすると、動きには、
Figure 2023549821000009
としてペナルティが科される。背景点が動かないようにすることに加えて、この正則化はまた、観察座標フレームをカノニカル座標フレームに位置合わせするという利点を有する。
粗密データ145は粗密変形正則化を表わす。NeRFアーキテクチャのコア成分は位置符号化である。同様の概念が変形場MLPのために採用され、
Figure 2023549821000010
ハイパーパラメータmは、マッピングにおいて用いられる周波数帯の数(したがって最高周波数)を制御する。これは、ネットワークの滑らかさを制御することが分かっている。mの値が高ければ高いほど、より高い周波数詳細をモデル化することが可能となるが、結果として、3D構造としてNeRF過剰適合とモデル化画像ノイズとをもたらす可能性がある。
変形場と共にNeRFを共同で最適化することによって、極小値をもたらす傾向のある最適化問題が生じることが観察される。トレーニングの初期では、NeRFも変形場も意味のある情報を含まない。mに対して大きい値を用いる場合、これは、変形場が不完全なNeRFテンプレートに過剰適合し得ることを意味する。例えば、対象が頭部を横向きに回転させる場合、大きいmを用いるネットワークは、多くの場合、頭部を前方位置に維持したままで、NeRFのビュー方向成分を用いて外観の変化を符号化することを選択するだろう。一方で、mに対して小さい値を用いる場合、ネットワークは、顔の表情または動いている髪の束等の高周波数詳細を必要とする変形をモデル化することができないだろう。
NeRFにおいて用いられる位置符号化が、NeRFのMLPのニューラルタンジェントカーネル(neural tangent kernel:NTK)に関して簡便な解釈を有することが判明した。結果として、mがその補間カーネルの調整可能な「帯域幅」を制御する静止補間カーネルが得られる。周波数の数が小さい場合、データの過小適合をもたらす広いカーネルをもたらす一方で、周波数の数が大きい場合、データの過剰適合をもたらす狭いカーネルをもたらす。これを考慮して、位置符号化の周波数帯に窓掛けするパラメータαを導入することによってNTKの帯域幅を円滑にアニーリングする方法が提案されている。重みは、位置符号化の周波数帯jごとに、
Figure 2023549821000011
として定義され、ここで、パラメータα∈[0,m]を線形アニーリングすることは、一部が切取られた不完全なHann窓を周波数帯にわたってスライドさせるものとして解釈され得る(ここで、左側は1に固定され、右側は0に固定される)。次いで、位置符号化は、
Figure 2023549821000012
であり、式中、tは現在のトレーニング反復であり、Nは、αがいつ周波数mの最大数に達するべきであるかについてのハイパーパラメータである。
Figure 2023549821000013
これらの線に沿って、変形場MLPデータ143はSE(3)変換データ146も含む。SE(3)変換データ146は、MLPにおいて符号化されて上述されたような変換場を表わす。SE(3)変換データ146は、回転qを表わす回転データ147と、回動点sを表わす回動点データ148と、並進tを表わす並進データとを含む。いくつかの実現例では、回転データ147、回動点データ148および並進データ149は四元数形式で表わされる。いくつかの実現例では、回転データ147、回動点データ148、および並進データ149は、別の形式、たとえば行列形式で表わされる。
テンプレートNeRFマネージャ150は、
Figure 2023549821000014
の5次元表現を生成するように構成される。いくつかの実現例では、画像ごとに外観符号Ψが提供されて、色出力を変調し、入力フレーム間の外観変化、例えば、露出およびホワイトバランス、を処理する。図2に示すように、カノニカルフレーム240が視覚化される。観察フレーム220内の光線212に沿った点は、変形場MLP230を用いてカノニカルフレーム240内の曲線242に沿った点にマッピングされている。各位置および光線/カメラ視点は、NeRF MLP250により外観符号とともに色および密度にマッピングされる。
図1に示すように、テンプレートNeRFマネージャ150は、カノニカルフレーム位置データ151、方向データ152、潜在外観符号データ153、およびテンプレートNeRF MLPデータ154を生成して、色データ162および密度データ163を含む出力データ160を出力するように構成される。カノニカルフレーム位置データ152は、変形場MLP(例えば、図2のMLP230)を用いて観察フレームからマッピングされたカノニカルフレーム内の位置を表わす。方向データ152は、カノニカルフレーム内の各点を通る光線またはカメラ角度または方向余弦を表わす。潜在外観符号データ153は画像ごとの潜在外観符号を表わす。
テンプレートNeRF MLPデータ154は、NeRF MLPを定義する値を表わす。本明細書に記載の技術的解決策の文脈における例示的なNeRF MLPは6つの層(1つの入力、1つの出力、および4つの隠れ層)を有する。この例では、隠れ層のサイズ(すなわち、ノードの数)は128であり、第4の層においてスキップ接続があり、ReLUアクティブ化関数がある。変形場MLPデータ154はさらに、色損失関数データ155および粗密データ156を含む。
色損失関数データ155は、以下のように定義される色損失関数の値を表わす。最適化反復ごとに、カメラ光線のバッチは、データセット内の全ピクセルのセットからランダムにサンプリングされ、次いで、粗ネットワークからのNのサンプルおよび密ネットワークからのN+Nのサンプルを照会するための階層サンプリングが続けて行なわれる。ボリュームレンダリング手順は、サンプルの両方のセットから各光線の色をレンダリングするために用いられる。色損失は、粗いレンダリングおよび密なレンダリングの両方についての、レンダリングされたピクセル色と真のピクセル色との間の総二乗誤差である。
Figure 2023549821000015
粗密データ156は、粗密データ145と同様の粗密変形正則化を表わす。しかしながら、NeRF MLPの場合、正弦および余弦は重み付けされない。
弾性損失関数に戻って、変形場Tは空き空間内での自由な挙動が可能である。なぜなら、背景に対して相対的に移動する対象が空間内のどこかで非剛体変形を必要とするからである。したがって、いくつかの実現例では、弾性損失関数は、以下のように、各点において、レンダリングされたビューへの寄与分だけ重み付けされる。
5次元ニューラル放射輝度場は、空間内の任意の点における体積密度および指向性放射輝度としてシーンを表わす。シーンを通過するいずれの光線の色も、従来のボリュームレンダリングからの原理を用いてレンダリングされる。
Figure 2023549821000016
関数T(t)は、tからtまでの光線に沿った累積透過率、すなわち光線が他の粒子に衝突することなくtからtまで進む確率、を示す。我々の連続的なニューラル放射輝度場からのビューをレンダリングすることにより、所望の仮想カメラの各ピクセルを通じてトレースされるカメラ光線に対するこの積分C(r)を推定することが必要となる。
この連続積分は、求積法を用いて数値的に推定される。典型的には離散化されたボクセルグリッドをレンダリングするために用いられる決定論的求積法は、固定された離散的な位置のセットにおいてMLPが照会され得るだけであるので、我々の表現の分解能を実質的に制限してしまうだろう。代わりに、我々は層別のサンプリング手法を用いる。この場合、[t,t]を等間隔に配置されたM個のビンに仕切り、次いで、各ビン内から均等にランダムに1つのサンプルを引出す。
Figure 2023549821000017
積分を推定するためにサンプルの離散セットが用いられるが、層別サンプリングにより連続シーンの表現が可能となる。なぜなら、層別サンプリングにより、結果として、MLPが最適化の過程にわたって連続する位置で評価されることとなるからである。我々は、これらのサンプルを用いて以下のようにC(r)を推定する。
Figure 2023549821000018
各カメラ光線に沿ったM個のクエリ点においてニューラル放射輝度場ネットワークを密に評価するレンダリング戦略は非効率的であり、レンダリングされた画像に寄与しない自由空間および閉塞領域が依然として繰返しサンプリングされる。したがって、単一のネットワークを用いてシーンを表わす代わりに、一方が「粗」であり他方が「密」である2つのネットワークが同時に最適化される。第1に、N位置のセットが、層別サンプリングを用いてサンプリングされ、式(13)、(14)、(15)に記載するように、これらの位置における「粗」いネットワークを評価する。この「粗」いネットワークの出力を前提として、各光線に沿って、点についてより情報量の多いサンプリングがもたらされる。この場合、サンプルは体積の関連部分に偏っている。このために、まず、アルファ合成色が、式(14)において、
Figure 2023549821000019
出力データ160は、NeRF MLP(すなわち、図2のMLP250)の出力を表わす。出力データ160は、色データ162および密度データ164を含む。上述した(例えば、式(11))ように、色データ162は位置および光線角度に依存する一方で、密度データ164は光線角度のみに依存する。色データ162および密度データ164から、任意の視点からのシーンのビューが得られる可能性もある。
図2に示すシステム200はユニットとして最適化されてもよく、すなわち、MLP230およびMLP250は上述した損失成分の和である単一損失関数で識別されてもよい。
Figure 2023549821000020
式中、λおよびμは重みである。いくつかの実現例では、λ=μ=10-3である。
図3は、変形可能なNeRFを生成する例示的な方法300を示すフローチャートである。方法300は、コンピュータ120のメモリ126内に存在するとともに処理ユニット124のセットによって実行される、図1に関連付けて説明されるソフトウェア構成によって実行されてもよく、または、コンピュータ120とは異なる(例えば、コンピュータ120から遠隔にある)コンピューティングデバイスのメモリ内に存在するソフトウェア構成によって実行されてもよい。
310において、画像取得マネージャ130は、複数の画像(例えば、画像134(1)、…、134(N))を表わす画像データ(例えば、画像データ132)を取得し、複数の画像の各々は、観察フレーム内のシーンの画像(例えば、観察フレーム位置データ141)を含み、シーンは、それぞれの視点(例えば、視点136(1)、…、136(N))から見た非剛体変形オブジェクトを含む。
320において、変形モデルマネージャ140は、画像データに基づいて変形モデル(例えば、変形場MLPデータ143)を生成し、変形モデルは、画像データが生成されていた間に非剛体変形オブジェクトが行なった動きを記述し、変形モデルは、観察フレーム内の位置とカノニカルフレーム内の位置との間のマッピング(例えば、カノニカルフレーム位置データ151)によって表わされる。
330において、テンプレートNeRFマネージャ150は、カノニカルフレーム内の位置を通る投射光線の位置および視野方向に基づいて、変形可能なニューラル放射輝度場(D-NeRF)を生成し、D-NeRFは、位置と観察方向との間のマッピングを、観察フレーム内の各位置における色(例えば、色データ162)および光学密度(例えば、密度データ164)に提供し、観察フレーム内の各位置における色および光学密度は、新しい視点からの非剛体変形オブジェクトを見ることを可能にする。
対象に対する変形場の影響が図4A、図4B、および図4Cに示される。図4Aは、観察フレームにおける対象である人の例示的な姿勢400を示す図である。図4Bは、カノニカルフレームにおける対象である人の例示的な姿勢450を示す図である。図4Aおよび図4Bの両方において、対象は、前方向および左方向における正投影図を示す挿入図とともに示される。図4A(観察フレーム)では、観察モデルとカノニカルモデルとの間で右方から左方への変位および前方から後方への変位があり、これら変位がこの観察のために変形場によってモデル化されることに留意されたい。
図4Cは、弾性正則化を伴わない(白抜きされた)キーフレーム(上)と弾性正則化を伴う(白抜きされた)キーフレーム(下)との間の例示的な補間470を示す図である。図4Cは、観察変形符号を線形補間することによって弾性正則化が無い状態で合成された新しい図と弾性正則化がある状態で合成された新しい図とを示す。弾性正則化がない場合、中間状態は歪みを示し、例えば、顔の特徴間の間隔が元の画像から変化している。
図5は、本明細書に記載の技術とともに使用され得る、汎用コンピュータデバイス500および汎用モバイルコンピュータデバイス550の例を示す。
図5に示すように、コンピューティングデバイス500は、様々な形態のデジタルコンピュータ、例えば、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータ等を表わすことが意図されている。コンピューティングデバイス550は、様々な形態のモバイルデバイス、例えば、携帯情報端末、セルラー電話、スマートフォン、および他の同様のコンピューティングデバイス等を表わすことが意図されている。本明細書に示される構成要素、それらの接続および関係、ならびにそれらの機能は、例示的なものにすぎず、本明細書にて説明および/または主張される本発明の実現例を限定することを意味するものではない。
コンピューティングデバイス500は、プロセッサ502と、メモリ504と、ストレージデバイス506と、メモリ504および高速拡張ポート510に接続する高速インターフェイス508と、低速バス514およびストレージデバイス506に接続する低速インターフェイス512とを含む。構成要素502、504、506、508、510、および512の各々は、様々なバスを用いて相互接続され、共通のマザーボード上に、または他の態様で適宜、実装され得る。プロセッサ502は、高速インターフェイス508に結合されたディスプレイ516等の外部入出力デバイス上にGUIに関するグラフィカル情報を表示するために、メモリ504またはストレージデバイス506に格納された命令を含む、コンピューティングデバイス500内で実行すべき命令を処理することができる。他の実現例では、複数のプロセッサおよび/または複数のバスが、複数のメモリおよび複数のタイプのメモリとともに適宜用いられ得る。また、複数のコンピューティングデバイス500が接続されてもよく、各デバイスは、(例えば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして)必要な動作の部分を提供する。
メモリ504は、コンピューティングデバイス500内に情報を格納する。一実現例では、メモリ504は1つ以上の揮発性メモリユニットである。別の実現例では、メモリ504は1つ以上の不揮発性メモリユニットである。メモリ504はまた、磁気ディスクまたは光ディスク等の別の形態のコンピュータ可読媒体であり得る。
ストレージデバイス506は、コンピューティングデバイス500に大容量ストレージを提供することができる。一実現例では、ストレージデバイス506は、コンピュータ可読媒体、例えば、フロッピー(登録商標)ディスクデバイス、ハードディスクデバイス、光ディスクデバイス、もしくはテープデバイス等、または、フラッシュメモリもしくは他の同様のソリッドステートメモリデバイス、または、ストレージエリアネットワークもしくは他の構成内のデバイスを含むデバイスのアレイであり得るか、またはそれらを含み得る。コンピュータプログラム製品は、情報担体において有形に具現化することができる。コンピュータプログラム製品はまた、実行されると、上述したもの等の1つ以上の方法を実行する命令を含み得る。情報担体は、メモリ504、ストレージデバイス506、またはプロセッサ502上のメモリ等のコンピュータ可読媒体または機械可読媒体である。
高速コントローラ508は、コンピューティングデバイス500のための帯域幅集約型動作を管理し、低速コントローラ512は、より低い帯域幅集約型動作を管理する。このような機能の割当ては一例に過ぎない。一実現例では、高速コントローラ508は、(例えば、グラフィックスプロセッサまたはアクセラレータを介して)メモリ504、ディスプレイ516に結合されるとともに、様々な拡張カード(図示せず)を受入れ得る高速拡張ポート510に結合される。この実現例では、低速コントローラ512は、ストレージデバイス506および低速拡張ポート514に結合される。様々な通信ポート(例えば、USB、Bluetooth(登録商標)、イーサネット(登録商標)、無線イーサネット(登録商標))を含み得る低速拡張ポートは、例えばネットワークアダプタを介して、キーボード、ポインティングデバイス、スキャナ、またはスイッチもしくはルータ等のネットワーキングデバイス等の1つ以上の入出力デバイスに結合され得る。
コンピューティングデバイス500は、図に示すように、いくつかの様々な形態で実現され得る。コンピューティングデバイス500は、例えば、標準サーバ520として、またはそのようなサーバのグループ内で複数回実現され得る。また、コンピューティングデバイス500は、ラックサーバシステム524の一部として実現されてもよい。加えて、コンピューティングデバイス500はラップトップコンピュータ522等のパーソナルコンピュータにおいて実現され得る。代替的には、コンピューティングデバイス500からの構成要素は、デバイス550等のモバイルデバイス(図示せず)内の他の構成要素と組合わされてもよい。このようなデバイスの各々は、コンピューティングデバイス500、550のうちの1つ以上を含み得るとともに、システム全体は、互いに通信する複数のコンピューティングデバイス500、550から構成され得る。
コンピューティングデバイス550は、他の構成要素の中でも特に、プロセッサ552と、メモリ564と、ディスプレイ554等の入出力デバイスと、通信インターフェイス566と、トランシーバ568とを含む。デバイス550はまた、追加のストレージを提供するために、マイクロドライブまたは他のデバイス等のストレージデバイスを備え得る。構成要素550、552、564、554、566、および568の各々は様々なバスを用いて相互接続されるとともに、当該構成要素のうちのいくつかは、共通のマザーボード上に、または、他の態様で適宜、実装され得る。
プロセッサ552は、メモリ564に格納された命令を含む命令を、コンピューティングデバイス450内で実行することができる。プロセッサは、別個の複数のアナログプロセッサおよびデジタルプロセッサを含むチップのチップセットとして実装されてもよい。プロセッサは、例えば、ユーザインターフェイスの制御、デバイス550によって実行されるアプリケーション、およびデバイス550による無線通信等の、デバイス550の他の構成要素の連携を提供し得る。
プロセッサ552は、ディスプレイ554に結合された制御インターフェイス558およびディスプレイインターフェイス556を介してユーザと通信してもよい。ディスプレイ554は、例えば、薄膜トランジスタ液晶ディスプレイ(Thin-Film-Transistor Liquid Crystal Display:TFT LCD)または有機発光ダイオード(Organic Light Emitting Diode:OLED)ディスプレイ、または他の適切なディスプレイ技術であってもよい。ディスプレイインターフェイス556は、グラフィカル情報および他の情報をユーザに提示するようにディスプレイ554を駆動するための適切な回路を備え得る。制御インターフェイス558は、ユーザからコマンドを受信し得るとともに、当該コマンドを変換してプロセッサ552に提示し得る。加えて、デバイス550と他のデバイスとの近距離通信を可能にするために、プロセッサ552と通信する外部インターフェイス562を設けてもよい。外部インターフェイス562は、例えば、いくつかの実現例では有線通信を提供してもよく、または他の実現例では無線通信を提供してもよく、複数のインターフェイスが用いられてもよい。
メモリ564は、コンピューティングデバイス550内に情報を格納する。メモリ564は、1つもしくは複数のコンピュータ可読媒体、1つもしくは複数の揮発性メモリユニット、または1つもしくは複数の不揮発性メモリユニットのうちの1つ以上として実現され得る。拡張メモリ574が設けられてよく、例えば、シングルインラインメモリモジュール(Single In Line Memory Module:SIMM)カードインターフェイスを含み得る拡張インターフェイス572を介してデバイス550に接続され得る。このような拡張メモリ574は、デバイス550のための追加のストレージ空間を提供し得るか、または、デバイス550のためのアプリケーションまたは他の情報を格納し得る。具体的には、拡張メモリ574は、上述したプロセスを実行または補足するための命令を含み得るとともに、セキュリティ保護された情報も含み得る。したがって、例えば、拡張メモリ574は、デバイス550のためのセキュリティモジュールとして設けられてもよく、デバイス550の安全な使用を可能にする命令でプログラムされてもよい。加えて、ハッキング不可能な態様でSIMMカード上に識別情報を配置するなどして、追加の情報とともに、セキュリティ保護されたアプリケーションがSIMMカードを介して提供され得る。
メモリは、以下に説明するように、例えば、フラッシュメモリおよび/またはNVRAMメモリを含み得る。一実現例では、コンピュータプログラム製品は情報担体において有形に具現化される。コンピュータプログラム製品は、実行されると、上述の方法等の1つ以上の方法を実行する命令を含む。情報担体は、メモリ564、拡張メモリ574、またはプロセッサ552上のメモリ等のコンピュータ可読媒体または機械可読媒体であり、例えば、トランシーバ568または外部インターフェイス562を介して受信され得る。
デバイス550は、必要に応じてデジタル信号処理回路を含み得る通信インターフェイス566を介して無線で通信し得る。通信インターフェイス566は、とりわけ、GSM(登録商標)音声通話、SMS、EMS、またはMMSメッセージング、CDMA、TDMA、PDC、WCDMA(登録商標)、CDMA2000、またはGPRS等の様々なモードまたはプロトコル下での通信を提供し得る。このような通信は、例えば、無線周波数トランシーバ568を通じて行なわれてもよい。加えて、Bluetooth(登録商標)、WiFi、または他のこのようなトランシーバ(図示せず)等を用いて短距離通信が行われてもよい。加えて、全地球測位システム(Global Positioning System:GPS)受信機モジュール570は、デバイス550上で実行されるアプリケーションによって適宜使用され得る追加のナビゲーション関連および位置関連の無線データをデバイス550に提供し得る。
デバイス550はまた、音声コーデック560を用いて音声認識可能に通信してもよく、これは、ユーザからの発話情報を受信して、使用可能なデジタル情報に変換し得る。音声コーデック560は、同様に、例えばデバイス550のハンドセット内のスピーカ等を通じて、ユーザのために可聴音を生成し得る。そのような音は、音声電話通話からの音を含んでもよく、録音された音(例えば、音声メッセージ、音楽ファイル等)を含んでもよく、デバイス550上で動作するアプリケーションによって生成される音を含んでもよい。
コンピューティングデバイス550は、図に示すように、いくつかの異なる形態で実現され得る。例えば、コンピューティングデバイス550は携帯電話580として実現されてもよい。コンピューティングデバイス550はまた、スマートフォン582、携帯情報端末、または他の同様のモバイルデバイスの一部として実現されてもよい。
本明細書に記載のシステムおよび技術の種々の実現例は、デジタル電子回路、集積回路、特別に設計された特定用途向け集積回路(application specific integrated circuit:ASIC)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組合わせで実現することができる。これらの様々な実現例は、ストレージシステム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスから/へのデータおよび命令の受信および送信を行なうように結合された、専用または汎用であり得る少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行可能および/または解釈可能である1つ以上のコンピュータプログラムでの実現例を含み得る。
(プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとしても公知である)これらのコンピュータプログラムは、プログラマブルプロセッサのための機械命令を含むとともに、高水準手続き型および/もしくはオブジェクト指向型のプログラミング言語で、ならびに/またはアセンブリ/機械言語で実現され得る。「機械可読媒体」、「コンピュータ可読媒体」という語は、本明細書で用いられる場合、機械可読信号として機械命令を受信する機械可読媒体を含む、機械命令および/またはデータをプログラマブルプロセッサに提供するために用いられる任意のコンピュータプログラム製品、装置、および/またはデバイス(例えば、磁気ディスク、光ディスク、メモリ、プログラマブル論理デバイス(Programmable Logic Device:PLD))を指す。「機械可読信号」という語は、機械命令および/またはデータをプログラマブルプロセッサに提供するために用いられる任意の信号を指す。
ユーザとの対話を提供するために、本明細書に記載のシステムおよび技術は、情報をユーザに表示するためのディスプレイデバイス(例えば、陰極線管(cathode ray tube:CRT)または液晶ディスプレイ(liquid crystal display:LCD)モニタ)と、入力をコンピュータに与えるためにユーザが使用することができるキーボードおよびポインティングデバイス(例えば、マウスまたはトラックボール)とを有するコンピュータ上で実現することができる。他の種類のデバイスを用いてユーザとの対話を行なうことができ、例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバックまたは触覚フィードバック)であり得るとともに、ユーザからの入力は、音響入力、音声入力または触覚入力を含む任意の形態で受信することができる。
本明細書に記載のシステムおよび技術は、バックエンド構成要素を(例えば、データサーバとして)含むか、または、ミドルウェア構成要素(例えば、アプリケーションサーバ)を含むか、または、フロントエンド構成要素(例えば、本明細書に記載のシステムおよび技術の実現例とユーザが対話することを可能にするグラフィカルユーザインターフェイスもしくはウェブブラウザを有するクライアントコンピュータ)を含むか、または、そのようなバックエンド構成要素、ミドルウェア構成要素、もしくはフロントエンド構成要素の任意の組合わせを含むコンピューティングシステムにおいて実現することができる。システムの構成要素は、デジタルデータ通信(例えば、通信ネットワーク)の任意の形態または媒体によって相互接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(local area network:LAN)、ワイドエリアネットワーク(wide area network:WAN)、およびインターネットを含む。
コンピューティングシステムはクライアントおよびサーバを含み得る。クライアントおよびサーバは、概して、互いに遠隔にあり、典型的には通信ネットワークを通して互いに対話する。クライアントとサーバとの関係は、それぞれのコンピュータ上で実行されるとともに互いに対してクライアント・サーバ関係を有するコンピュータプログラムによって生じるものである。
図1に戻ると、いくつかの実現例では、メモリ126は、ランダムアクセスメモリ、ディスクドライブメモリ、フラッシュメモリ等の任意のタイプのメモリであり得る。いくつかの実現例では、メモリ126は、圧縮コンピュータ120の構成要素に関連付けられた複数のメモリ構成要素(例えば、複数のRAMコンポーネントまたはディスクドライブメモリ)として実装され得る。いくつかの実現例では、メモリ126はデータベースメモリであり得る。いくつかの実現例では、メモリ126は、非ローカルメモリであり得るかまたは非ローカルメモリを含み得る。たとえば、メモリ126は、複数のデバイス(図示せず)によって共有されるメモリであり得るか、または当該メモリを含み得る。いくつかの実現例では、メモリ126は、ネットワーク内のサーバデバイス(図示せず)に関連付けられ得るとともに、圧縮コンピュータ120の構成要素のために機能するように構成され得る。
圧縮コンピュータ120の構成要素(たとえば、モジュール、処理ユニット124)は、ハードウェア、ソフトウェア、ファームウェア、オペレーティングシステム、ランタイムライブラリ等の1つ以上のタイプを含み得る1つ以上のプラットフォーム(例えば、1つ以上の類似のプラットフォームまたは異なるプラットフォーム)に基づいて動作するように構成することができる。いくつかの実現例では、圧縮コンピュータ120の構成要素は、デバイスのクラスタ(たとえば、サーバファーム)内で動作するように構成され得る。このような実現例では、圧縮コンピュータ120の構成要素の機能および処理は、デバイスのクラスタのうちのいくつかのデバイスに分散され得る。
コンピュータ120の構成要素は、属性を処理するように構成された任意のタイプのハードウェアおよび/またはソフトウェアであり得るか、またはそれらを含み得る。いくつかの実現例では、図1におけるコンピュータ120の構成要素に示される構成要素のうちの1つ以上の部分は、ハードウェアベースのモジュール(例えば、デジタル信号プロセッサ(digital signal processor:DSP)、フィールドプログラマブルゲートアレイ(field programmable gate Array:FPGA)、メモリ)、ファームウェアモジュール、および/またはソフトウェアベースのモジュール(例えば、コンピュータコードのモジュール、コンピュータにおいて実行可能なコンピュータ可読命令のセット)であり得るか、またはそれらを含み得る。たとえば、いくつかの実現例では、コンピュータ120の構成要素のうちの1つ以上の部分は、少なくとも1つのプロセッサ(図示せず)による実行のために構成されたソフトウェアモジュールであり得るかまたはそれを含み得る。いくつかの実現例では、構成要素の機能は、図1に示すものとは異なるモジュールおよび/または異なる構成要素に含まれ得る。
図示していないが、いくつかの実現例では、コンピュータ120の構成要素(またはその部分)は、たとえば、データセンタ(たとえば、クラウドコンピューティング環境)、コンピュータシステム、1つ以上のサーバ/ホストデバイス等の内部で動作するように構成され得る。いくつかの実現例では、コンピュータ120の構成要素(またはその部分)は、ネットワーク内で動作するように構成され得る。したがって、コンピュータ120の構成要素(またはその部分)は、1つ以上のデバイスおよび/または1つ以上のサーバデバイスを含み得る、様々なタイプのネットワーク環境内で機能するように構成することができる。たとえば、ネットワークは、ローカルエリアネットワーク(local area network:LAN)、ワイドエリアネットワーク(wide area network:WAN)などであり得るか、またはそれらを含み得る。ネットワークは、ワイヤレスネットワークであり得るか、もしくはそれを含み得、および/または、たとえば、ゲートウェイデバイス、ブリッジ、スイッチ等を用いて実装されるワイヤレスネットワークであり得るか、もしくはそれを含み得る。ネットワークは、1つ以上のセグメントを含み得、および/またはインターネットプロトコル(IP)および/またはプロプライエタリプロトコル等の様々なプロトコルに基づく部分を有し得る。ネットワークはインターネットの少なくとも一部を含み得る。
いくつかの実施形態では、コンピュータ120の構成要素のうちの1つ以上は、メモリに格納された命令を処理するように構成されたプロセッサであり得るかまたはそれを含み得る。例えば、深度画像マネージャ130(および/またはその一部)、視点マネージャ140(および/またはその一部)、光線投射マネージャ150(および/またはその一部)、SDVマネージャ160(および/またはその一部)、集約マネージャ170(および/またはその一部)、求根マネージャ180(および/またはその一部)、ならびに深度画像生成マネージャ190(および/またはその一部)は、1つ以上の機能を実現するためのプロセスに関連する命令を実行するように構成されたプロセッサとメモリとの組合せであり得る。
多数の実施形態を説明してきたが、本明細書の精神および範囲から逸脱することなく、種々の変更が行なわれ得ることが理解されるだろう。
また、ある要素が別の要素上にあるか、別の要素に接続されるか、別の要素に電気的に接続されるか、別の要素に結合されるか、または別の要素に電気的に結合されるものとして言及される場合、当該要素は、直接、他の要素上にあってもよく、他の要素に接続されてもよく、もしくは他の要素に結合されてもよく、または、1つ以上の介在要素が存在してもよいことも理解されるであろう。対照的に、ある要素が別の要素上に直接存在するか、別の要素に直接接続されるか、または別の要素に直接結合されるものとして言及される場合、介在要素は存在しない。直接上にあるか、直接接続されるか、または直接結合されるという表現は、詳細な説明全体を通じて用いられない可能性もあるが、直接上にあるか、直接接続されるか、または直接結合されるものとして示される要素はそのようなものとして言及され得る。本願の特許請求の範囲は、本明細書に記載されるかまたは図に示される例示的な関係を記載するように補正されてもよい。
説明される実現例のいくつかの特徴が本明細書に記載されるように例示されているが、当業者には、多くの修正例、代替例、変更例、および同等例が思い浮かぶであろう。したがって、添付の特許請求の範囲が実現例の範囲に収まるようにこのようなすべての修正例および変更例を包含するよう意図されていることを理解されたい。これらは、限定ではなく例としてのみ提示されたものであり、形態および詳細の様々な変更がなされ得ることを理解されたい。本明細書に記載の装置および/または方法のいずれかの部分が、相互排他的な組合わせを除いて、任意の組合わせで組合わされてもよい。本明細書に記載の実現例は、記載された様々な実現例の機能、構成要素および/または特徴の様々な組合せおよび/または部分的組合せを含み得る。
加えて、図に示される論理フローは、所望の結果を達成するために、示される特定の順序または連続した順序を必要とするものではない。加えて、他のステップが設けられてもよく、または、説明したフローからステップが排除されてもよく、他の構成要素が、説明したシステムに追加されてもよく、またはそこから除去されてもよい。したがって、他の実施形態は添付の特許請求の範囲内にある。

Claims (20)

  1. 方法であって、
    複数の画像を表わす画像データを取得するステップを含み、前記複数の画像の各々は、観察フレーム内のシーンの画像を含み、前記シーンは、それぞれの視点から見た非剛体変形オブジェクトを含み、前記方法はさらに、
    前記画像データに基づいて変形モデルを生成するステップを含み、前記変形モデルは、前記画像データが生成されていた間に前記非剛体変形オブジェクトによって行われた動きを記述し、前記変形モデルは、前記観察フレーム内の位置とカノニカルフレーム内の位置との間のマッピングによって表わされ、前記方法はさらに、
    前記カノニカルフレーム内の前記位置を通る投射光線の位置および視野方向に基づいて、変形可能なニューラル放射輝度場(deformable neural radiance field:D-NeRF)を生成するステップを含み、前記D-NeRFは、前記位置と視野方向との間のマッピングを前記観察フレーム内の各位置における色および光学密度に提供し、前記観察フレーム内の各位置における前記色および光学密度は、新しい視点から前記非剛体変形オブジェクトを見ることを可能にする、方法。
  2. 前記変形モデルは、フレーム内の前記シーンの状態を符号化する、フレームごとの潜在符号に条件付けられている、請求項1に記載の方法。
  3. 前記変形モデルは、回転と、前記回転に対応する回動点と、並進とを含む、請求項1に記載の方法。
  4. 前記回転は純粋な対数四元数として符号化される、請求項3に記載の方法。
  5. 前記変形モデルは、(i)位置と前記回動点との間の差に対する類似性変換と、(ii)前記回動点と、(iii)前記並進との合計を含む、請求項3に記載の方法。
  6. 前記変形モデルは、ニューラルネットワーク内の多層パーセプトロン(multilayer perceptron:MLP)を含む、請求項1に記載の方法。
  7. 前記MLPについての弾性損失関数成分は、前記変形モデルを表わす行列のノルムに基づく、請求項6に記載の方法。
  8. 前記行列は、前記観察フレーム内の前記位置に対する前記変形モデルのヤコビアンである、請求項7に記載の方法。
  9. 前記弾性損失関数成分は、前記変形モデルを表わす前記行列の特異値分解に基づく、請求項7に記載の方法。
  10. 前記弾性損失関数成分は、前記特異値分解から得られる特異値行列の対数に基づく、請求項9に記載の方法。
  11. 前記弾性損失関数成分は、ロバスト弾性損失関数を生成するために有理関数で構成される、請求項7に記載の方法。
  12. 背景損失関数成分は、前記シーン内の点を、動きに関するペナルティを有する静的点として指定することを含む、請求項6に記載の方法。
  13. 前記背景損失関数成分は、静的点と、前記変形モデルに従った前記カノニカルフレームへの前記観察フレーム内の前記静的点のマッピングとの間の差に基づく、請求項12に記載の方法。
  14. 前記変形モデルを生成するステップは、位置の周期関数を生成するために前記シーン内の位置座標に位置符号化を適用するステップを含み、前記周期関数は、前記MLPのためのトレーニング反復とともに増加する周波数を有する、請求項6に記載の方法。
  15. 前記位置符号化の前記周期関数に、トレーニング反復が特定の周波数を含むかどうかを示す重みを乗じる、請求項14に記載の方法。
  16. 非一時的な記憶媒体を備えるコンピュータプログラム製品であって、前記コンピュータプログラム製品は符号を含み、前記符号は、コンピューティングデバイスの処理回路によって実行されると、前記処理回路に方法を実行させ、前記方法は、
    複数の画像を表わす画像データを取得するステップを含み、前記複数の画像の各々は、観察フレーム内のシーンの画像を含み、前記シーンは、それぞれの視点から見た非剛体変形オブジェクトを含み、前記方法はさらに、
    前記画像データに基づいて変形モデルを生成するステップを含み、前記変形モデルは、前記画像データが生成されていた間に前記非剛体変形オブジェクトによって行われた動きを記述し、前記変形モデルは、前記観察フレーム内の位置とカノニカルフレーム内の位置との間のマッピングによって表わされ、前記方法はさらに、
    前記カノニカルフレーム内の前記位置を通る投射光線の位置および視野方向に基づいて、変形可能なニューラル放射輝度場(D-NeRF)を生成するステップを含み、前記D-NeRFは、前記位置と前記視野方向との間のマッピングを前記観察フレーム内の各位置における色および光学密度に提供し、前記観察フレーム内の各位置における前記色および光学密度は、新しい視点から前記非剛体変形オブジェクトを見ることを可能にする、コンピュータプログラム製品。
  17. 前記変形モデルは、ニューラルネットワーク内の多層パーセプトロン(MLP)を含む、請求項16に記載のコンピュータプログラム製品。
  18. 前記MLPについての弾性損失関数成分は、前記変形モデルを表わす行列のノルムに基づく、請求項17に記載のコンピュータプログラム製品。
  19. 前記行列は、前記観察フレーム内の前記位置に対する前記変形モデルのヤコビアンである、請求項18に記載のコンピュータプログラム製品。
  20. 電子装置であって、
    メモリと、
    前記メモリに結合された制御回路とを含み、前記制御回路は、
    複数の画像を表わす画像データを取得するように構成され、前記複数の画像の各々は、観察フレーム内のシーンの画像を含み、前記シーンは、それぞれの視点から見た非剛体変形オブジェクトを含み、前記制御回路はさらに、
    前記画像データに基づいて変形モデルを生成するように構成され、前記変形モデルは、前記画像データが生成されていた間に前記非剛体変形オブジェクトによって行われた動きを記述し、前記変形モデルは、前記観察フレーム内の位置とカノニカルフレーム内の位置との間のマッピングによって表わされ、前記制御回路はさらに、
    前記カノニカルフレーム内の前記位置を通る投射光線の位置および視野方向に基づいて、変形可能なニューラル放射輝度場(D-NeRF)を生成するように構成され、前記D-NeRFは、前記位置と前記視野方向との間のマッピングを前記観察フレーム内の各位置における色および光学密度に提供し、前記観察フレーム内の各位置における前記色および光学密度は、新しい視点から前記非剛体変形オブジェクトを見ることを可能にする、電子装置。
JP2023528508A 2020-11-16 2021-01-14 変形可能なニューラル放射輝度場 Pending JP2023549821A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063198841P 2020-11-16 2020-11-16
US63/198,841 2020-11-16
PCT/US2021/070032 WO2022104299A1 (en) 2020-11-16 2021-01-14 Deformable neural radiance fields

Publications (1)

Publication Number Publication Date
JP2023549821A true JP2023549821A (ja) 2023-11-29

Family

ID=74587158

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023528508A Pending JP2023549821A (ja) 2020-11-16 2021-01-14 変形可能なニューラル放射輝度場

Country Status (6)

Country Link
US (1) US20240005590A1 (ja)
EP (1) EP4244819A1 (ja)
JP (1) JP2023549821A (ja)
KR (1) KR20230062864A (ja)
CN (1) CN116324895A (ja)
WO (1) WO2022104299A1 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220239844A1 (en) * 2021-01-27 2022-07-28 Facebook Technologies, Llc Neural 3D Video Synthesis
US20220292781A1 (en) * 2021-03-10 2022-09-15 Apple Inc. Generative scene networks
CN114663603B (zh) * 2022-05-24 2022-09-02 成都索贝数码科技股份有限公司 一种基于神经辐射场的静态对象三维网格模型生成方法
US20230410425A1 (en) * 2022-05-26 2023-12-21 Soul Vision Creations Private Limited Real-time rendering of image content generated using implicit rendering
CN114758081A (zh) * 2022-06-15 2022-07-15 之江实验室 基于神经辐射场的行人重识别三维数据集构建方法和装置
CN115082639B (zh) * 2022-06-15 2023-06-27 北京百度网讯科技有限公司 图像生成方法、装置、电子设备和存储介质
CN114863037B (zh) 2022-07-06 2022-10-11 杭州像衍科技有限公司 基于单手机的人体三维建模数据采集与重建方法及系统
CN115272575B (zh) * 2022-07-28 2024-03-29 中国电信股份有限公司 图像生成方法及装置、存储介质和电子设备
CN115359170B (zh) * 2022-10-19 2023-03-03 北京百度网讯科技有限公司 场景数据的生成方法、装置、电子设备和存储介质
CN116309983B (zh) * 2023-01-09 2024-04-09 北京百度网讯科技有限公司 虚拟人物模型的训练方法、生成方法、装置和电子设备
CN116129030B (zh) * 2023-04-18 2023-07-04 湖南马栏山视频先进技术研究院有限公司 一种基于神经辐射场的场景物体融合方法及装置
CN116168137B (zh) * 2023-04-21 2023-07-11 湖南马栏山视频先进技术研究院有限公司 一种基于神经辐射场的新视角合成方法、装置及存储器
CN117853645B (zh) * 2024-03-04 2024-05-28 安徽大学 基于跨视图捆绑交叉感知神经辐射场的图像渲染方法
CN117934727B (zh) * 2024-03-21 2024-06-14 中国科学技术大学 镜面物体的三维重建方法、装置、设备和存储介质

Also Published As

Publication number Publication date
EP4244819A1 (en) 2023-09-20
CN116324895A (zh) 2023-06-23
US20240005590A1 (en) 2024-01-04
WO2022104299A1 (en) 2022-05-19
KR20230062864A (ko) 2023-05-09

Similar Documents

Publication Publication Date Title
JP2023549821A (ja) 変形可能なニューラル放射輝度場
Xie et al. Neural fields in visual computing and beyond
US11900256B2 (en) Deep learning system
US11941831B2 (en) Depth estimation
US9747668B2 (en) Reconstruction of articulated objects from a moving camera
US10818071B1 (en) Image-based geometric fusion of multiple depth images using ray casting
CN109684969B (zh) 凝视位置估计方法、计算机设备及存储介质
US11961266B2 (en) Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture
US11989846B2 (en) Mixture of volumetric primitives for efficient neural rendering
US7995059B1 (en) Mid-field and far-field irradiance approximation
WO2023015409A1 (zh) 物体姿态的检测方法、装置、计算机设备和存储介质
CN117557714A (zh) 三维重建方法、电子设备及可读存储介质
US20220392179A1 (en) Appearance-driven automatic three-dimensional modeling
EP4292059A1 (en) Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture
US20220375164A1 (en) Method and apparatus for three dimensional reconstruction, electronic device and storage medium
Tosi et al. How nerfs and 3d gaussian splatting are reshaping slam: a survey
US20230298243A1 (en) 3d digital avatar generation from a single or few portrait images
US10861174B2 (en) Selective 3D registration
CN116248920A (zh) 虚拟角色直播处理方法、装置及系统
CN109166176A (zh) 三维人脸图像的生成方法与装置
US20240013497A1 (en) Learning Articulated Shape Reconstruction from Imagery
CN116797713A (zh) 一种三维重建方法和终端设备
US20240233146A1 (en) Image processing using neural networks, with image registration
US20240257443A1 (en) Scene reconstruction from monocular video
Wang et al. A New Era of Indoor Scene Reconstruction: A Survey

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230804

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230804