JP2023549821A

JP2023549821A - 変形可能なニューラル放射輝度場

Info

Publication number: JP2023549821A
Application number: JP2023528508A
Authority: JP
Inventors: マーティン・ブルアラ，リカルド; パク，クンホン; シンハ，ウトカルシュ; ブアジズ，ソフィアン; ゴールドマン，ダニエル; バロン，ジョナサン・ティルトン; ザイツ，スティーブン・マックスウェル
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2020-11-16
Filing date: 2021-01-14
Publication date: 2023-11-29
Also published as: EP4244819A1; CN116324895A; US20240005590A1; WO2022104299A1; KR20230062864A

Abstract

ニューラル放射輝度場（neural radiance field：ＮｅＲＦ）を用いる画像合成の技術は、非剛体変形シーンにおいて対象が経験する動きの変形モデルを生成することを含む。例えば、画像合成システムがＮｅＲＦを用いる場合、当該システムは、対象の複数の姿勢をトレーニングデータのための入力として取込む。従来のＮｅＲＦとは異なり、技術的解決策は、まず、観察フレームにおいて様々な視点から対象の位置を表現する。次いで、技術的解決策は、変形モデル、すなわち、観察フレームと被験者の動きが考慮されているカノニカルフレームとの間のマッピングを導出することを含む。このマッピングは、多層パーセプトロン（multilayer perceptron：ＭＬＰ）を用いて決定される各姿勢についての潜在変形符号を用いて達成される。ＮｅＲＦは、次いで、別のＭＬＰを用いて、カノニカルフレーム内の位置および投射光線方向から導出される。次いで、対象についての新しい姿勢がＮｅＲＦを用いて導出されてもよい。

Description

関連出願の参照
本願は、２０２０年１１月１６日に出願され「変形可能なニューラル放射輝度場（DEFORMABLE NEURAL RADIANCE FIELDS）」と題された米国仮特許出願第６３／１９８，８４１号の非仮出願でありその優先権を主張するものであって、その内容全体が引用により援用されている。

技術分野
本明細書は、ニューラル放射輝度場（neural radiance field：ＮｅＲＦ）を用いる画像合成に関する。

背景
コンピュータグラフィックオブジェクトをレンダリングするように構成されたコンピュータの中には、複数の既存のビューを前提として、指定されたビューでオブジェクトをレンダリングすることができるものもある。例えば、そのようなコンピュータグラフィックオブジェクトを含むシーンに関するカメラからキャプチャされたいくつかの深度画像およびカラー画像の場合、異なる視点から見たシーンの新しいビューを合成することが目標となり得る。当該シーンは、物理的な色センサおよび深度センサを用いてビューがキャプチャされる現実的なシーンであってもよく、または、ラスター化等のレンダリングアルゴリズムを用いてビューがキャプチャされる合成シーンであってもよい。現実的なシーンの場合、飛行時間型センサ、構造化光ベースのセンサ、およびステレオまたはマルチビューステレオアルゴリズム等の多くの深度感知技術が存在する。このような技術は、パターンが時間に応じて変化し得る受動的または能動的な照明パターンを用いる可視センサまたは赤外線センサを含み得る。

概要
概略的な一局面では、方法は、複数の画像を表わす画像データを取得するステップを含み得る。当該複数の画像の各々は、観察フレーム内のシーンの画像を含み、当該シーンは、それぞれの視点から見た非剛体変形オブジェクトを含む。当該方法はまた、画像データに基づいて変形モデルを生成するステップを含み得る。当該変形モデルは、当該画像データが生成されていた間に当該非剛体変形オブジェクトが行なった動きを記述し、当該変形モデルは、当該観察フレーム内の位置とカノニカルフレーム内の位置との間のマッピングによって表わされる。当該方法はさらに、カノニカルフレーム内の位置を通る投射光線の位置および視野方向に基づいて、変形可能なニューラル放射輝度場（deformable neural radiance field：Ｄ－ＮｅＲＦ）を生成するステップを含み得る。当該Ｄ－ＮｅＲＦは、当該位置と視野方向との間のマッピングを、当該観察フレーム内の各位置における色および光学密度に提供する。当該観察フレーム内の各位置における色および光学密度は、新しい視点から当該非剛体変形オブジェクトを見ることを可能にする。

別の概略的な局面では、コンピュータプログラム製品は、非一時的な記憶媒体を備え、当該コンピュータプログラム製品は、コンピューティングデバイスの処理回路によって実行されると当該処理回路に方法を実行させる符号を含む。当該方法は、複数の画像を表わす画像データを取得するステップを含み得る。当該複数の画像の各々は、観察フレーム内のシーンの画像を含み、当該シーンは、それぞれの視点から見た非剛体変形オブジェクトを含む。当該方法はまた、当該画像データに基づいて変形モデルを生成するステップを含み得る。当該変形モデルは、当該画像データが生成されていた間に当該非剛体変形オブジェクトが行なった動きを記述し、当該変形モデルは、当該観察フレーム内の位置とカノニカルフレーム内の位置との間のマッピングによって表わされる。当該方法はさらに、当該カノニカルフレーム内の当該位置を通る投射光線の位置および視野方向に基づいて、変形可能なニューラル放射輝度場（Ｄ－ＮｅＲＦ）を生成するステップを含み得る。当該Ｄ－ＮｅＲＦは、当該位置と視野方向との間のマッピングを、当該観察フレーム内の各位置における色および光学密度に提供する。当該観察フレーム内の各位置における当該色および光学密度は、新しい視点から当該非剛体変形オブジェクトを見ることを可能にする。

別の概略的な局面では、電子装置は、メモリと、当該メモリに結合された制御回路とを備える。当該制御回路は、複数の画像を表わす画像データを取得するように構成され得る。当該複数の画像の各々は、観察フレーム内のシーンの画像を含み、当該シーンは、それぞれの視点から見た非剛体変形オブジェクトを含む。当該制御回路はまた、当該画像データに基づいて変形モデルを生成するように構成され得る。当該変形モデルは、当該画像データが生成されていた間に当該非剛体変形オブジェクトが行なった動きを記述し、当該変形モデルは、当該観察フレーム内の位置とカノニカルフレーム内の位置との間のマッピングによって表わされる。当該制御回路はさらに、当該カノニカルフレーム内の当該位置を通る投射光線の位置および視野方向に基づいて、変形可能なニューラル放射輝度場（Ｄ－ＮｅＲＦ）を生成するように構成され得る。当該Ｄ－ＮｅＲＦは、当該位置と視野方向との間のマッピングを、当該観察フレーム内の各位置における色および光学密度に提供する。当該観察フレーム内の各位置における当該色および光学密度は、新しい視点から当該非剛体変形オブジェクトを見ることを可能にする。

１つ以上の実現例の詳細は、添付の図面および以下の説明に記載されている。他の特徴は、以下の説明および添付の図面ならびに添付の特許請求の範囲から明らかになるだろう。

本明細書に記載の技術的解決策を実現するための例示的な電子環境を示す図である。図１に示す電子環境内で変形可能なニューラル放射輝度場を生成するための例示的なシステムアーキテクチャを示す図である。図１に示す電子環境内で技術的解決策を実行する例示的な方法を示すフローチャートである。観察フレームにおける対象である人の例示的な姿勢を示す図である。カノニカルフレームにおける対象である人の例示的な姿勢を示す図である。弾性正則化を伴わないキーフレーム（上）と弾性正則化を伴うキーフレーム（下）との間の例示的な補間を示す図である。本明細書に記載の回路とともに使用され得るコンピュータデバイスおよびモバイルコンピュータデバイスの例を示す図である。

詳細な説明
シーンの新しいビューを合成するための従来の手法はニューラル放射輝度場（ＮｅＲＦ）を採用する。この手法では、空間内の各点（ｘ，ｙ，ｚ）において各方向（θ，ψ）に放射される放射輝度を出力する連続的な５次元関数として静的シーンと、（ｘ，ｙ，ｚ）を通過する光線によってどれくらいの放射輝度が蓄積されるかを制御する微分不透過率のように作用する各点ごとの密度とが表わされる。この手法は、しばしば多層パーセプトロン（multilayer perceptron：ＭＬＰ）と称される畳み込み層なしの全結合型のディープニューラルネットワークを最適化して、単一の５Ｄ座標（ｘ，ｙ，ｚ，θ，ψ）から単一の体積密度およびビュー依存型ＲＧＢ色に回帰させることによって５次元関数を表わす。

この５次元関数またはＮｅＲＦをレンダリングするために、１）カメラ光線をシーン内に進ませて３Ｄの点からなるサンプリングセットを生成すること、２）これらの点およびそれらの対応する２Ｄ視野方向をニューラルネットワークへの入力として用いて、色および密度の出力セットを生成すること、３）従来のボリュームレンダリング技術を用いて、これらの色および密度を２Ｄ画像に蓄積することができる。このプロセスは自然に区別可能であるので、各観察画像と我々の表現からレンダリングされた対応するビューとの間の誤差を最小限に抑えることによってＮｅＲＦを最適化するために勾配降下を用いることができる。複数のビューにわたってこの誤差を最小限に抑えることにより、ネットワークが、真の基礎となるシーンコンテンツを含む位置に高い体積密度および正確な色を割当てることによってシーンのコヒーレントモデルを予測することが促進される。

ＮｅＲＦは、一般に、剛体の無生物オブジェクトを含むシーンにおいてビューを合成するのに優れている。対照的に、ＮｅＲＦは、人々（より一般的には、動く傾向がある非剛体オブジェクト）を含むシーンにおいてビューを合成するのにはさほど優れていない。手持ち式カメラを用いて人々をモデル化する場合に技術的問題が生じる。この技術的問題は、１）非剛体であり、完全に静止したままでいることができないこと、２）ほとんどの再構築方法において用いられる前提に違反する毛髪、眼鏡およびイヤリング等の厄介な材料、といった理由により困難なものとなる。例えば、携帯電話カメラで自分の写真（すなわち、自撮り写真）を撮る人のビューを合成するためにＮｅＲＦが用いられる場合、合成されたビューは、非剛体および厄介な材料に対処することができないＮｅＲＦによってもたらされる不正確さから生じるアーチファクトを含む可能性がある。

上述の技術的問題を解決するための従来の手法とは異なり、上述の技術的問題に対する技術的解決策は、対象が動きによってどのように歪められるかを定義する非剛体変形シーンにおいて対象が経験する動きの変形モデルを生成することを含む。例えば、画像合成システムがＮｅＲＦを用いる場合、当該システムは、対象の複数の姿勢をトレーニングデータのための入力として取込む。従来のＮｅＲＦとは異なり、当該技術的解決策は、まず、観察フレームにおける様々な視点からの対象の位置を表現する。次いで、技術的解決策は、変形モデル、すなわち、観察フレームと対象の動きが考慮されているカノニカルフレームとの間のマッピング、を導出することを含む。このマッピングは、多層パーセプトロン（ＭＬＰ）を用いて決定される姿勢ごとの潜在変形符号を用いて達成される。ＮｅＲＦは、次いで、別のＭＬＰを用いて、カノニカルフレーム内の位置および投射光線方向から導出される。次いで、対象についての新しい姿勢がＮｅＲＦを用いて導出され得る。

上述の技術的解決策の技術的利点は、当該技術的解決策が、対象の動きを考慮しないためにもたらされるアーチファクトなしで新しいシーンの合成ビューを正確に予測することである。

いくつかの実現例では、変形モデルは、フレームごとの潜在符号に条件付けられており、潜在符号はフレーム内のシーンの状態を符号化する。

いくつかの実現例では、変形モデルは、回転と、当該回転に対応する回動点と、並進とを含む。いくつかの実現例では、回転は純粋な対数四元数として符号化される。いくつかの実現例では、変形モデルは、（ｉ）位置と回動点との間の差異に対する類似性変換と、（ｉｉ）回動点と、（ｉｉｉ）並進との合計を含む。

いくつかの実現例では、変形モデルは、ニューラルネットワーク内の多層パーセプトロン（ＭＬＰ）を含む。いくつかの実現例では、ＭＬＰについての弾性損失関数成分は、変形モデルを表わす行列のノルムに基づく。いくつかの実現例では、行列は、観察フレーム内の位置に対する変形モデルのヤコビアンである。いくつかの実現例では、弾性損失関数成分は、変形モデルを表わす行列の特異値分解に基づく。いくつかの実現例では、弾性損失関数成分は、特異値分解に起因する特異値行列の対数に基づく。いくつかの実現例では、弾性損失関数成分は、ロバスト弾性損失関数を生成するために有理関数で構成される。

いくつかの実現例では、背景損失関数成分は、シーン内の点を、動きについてのペナルティを有する静的点として指定することを要する。いくつかの実現例では、背景損失関数成分は、静的点と、変形モデルに従ったカノニカルフレームに対する観察フレーム内の静的点のマッピングとの間の差に基づく。いくつかの実現例では、変形モデルを生成するステップは、位置の周期関数を生成するために、シーン内の位置座標に位置符号化を適用するステップを含み、当該周期関数は、ＭＬＰのためのトレーニング反復とともに増加する周波数を有する。いくつかの実現例では、位置符号化の周期関数には、トレーニング反復が特定の周波数を含むかどうかを示す重みを乗じる。

ＮｅＲＦは連続的な体積表現である。これは、

である。ＮｅＲＦは、ボリュームレンダリング技術と組合わせることで、写真のような現実感のある品質を有するシーンを表わすことができる。この理由から、ＮｅＲＦは、写真のように写実的に人をキャプチャする際の問題に対処するように構築される。

ＮｅＲＦトレーニング手順は、３Ｄシーンを前提として、２つの異なるカメラからの２本の交差する光線が同じ色をもたらすはずであるという事実に依拠する。鏡面反射および透過を無視すると、この仮定は、静的構造を有するすべてのシーンに当てはまる。残念なことに、人々は静止したままでいる能力を持たないことが分かっている。これは以下のように検証され得る。完全に静止したままで自撮り映像を撮影しようとすると、自分の視線が自然にカメラに追従し、静止していると思われている部分でさえも背景に対して動いていることが分かるだろう。

このような制限があることを理解すれば、ＮｅＲＦは、非剛体変形シーンの再構築を可能にするように拡張される。これは、ＮｅＲＦを通じて光線を直接投射する代わりに、シーンのカノニカルテンプレートとして用いられる。このテンプレートはシーンの相対的な構造および外観を含み、レンダリングは当該テンプレートの非剛体変換バージョンを用いるだろう。他に、テンプレートおよびフレームごとの変形をモデル化し得るものもあるが、この変形は、それぞれメッシュ点およびボクセルグリッド上で定義される一方で、ＭＬＰを用いて連続関数としてモデル化される。

観察からカノニカルへの変形は、あらゆるフレームｉ∈｛１,…,ｎ］に対して採用され、ここでｎは観察されたフレームの数である。これは、全ての観察空間座標ｘをカノニカル空間座標ｘ′にマッピングするマッピングＴ_ｉ：ｘ→ｘ′を定義する。実際には、変形場は、フレームごとに学習された潜在符号ω_ｉに条件付けられる単一のＭＬＰＴ：（ｘ,ω_ｉ）→ｘ′を用いて全ての時間ステップについてモデル化される。フレーム毎の潜在符号は、そのフレームにおけるシーンの状態をモデル化する。カノニカル空間放射輝度場Ｆおよび観察・カノニカル間マッピングＴを前提とすると、観察空間放射輝度場は、

として評価することができる。レンダリングの際、光線およびサンプル点は単純に観察フレーム内に投射され、次いで、サンプリングされた点をテンプレート上の点にマッピングするために変形場が用いられる。

図１は、上述の改善された技術が実現され得る例示的な電子環境１００を示す図である。図１に示すように、例示的な電子環境１００はコンピュータ１２０を含む。

コンピュータ１２０は、ネットワークインターフェイス１２２、１つ以上の処理ユニット１２４、およびメモリ１２６を含む。ネットワークインターフェイス１２２は、例えば、ネットワークから受信した電子信号および／または光信号をコンピュータ１２０が使用できる電子形式に変換するためのイーサネット（登録商標）アダプタ等を含む。処理ユニット１２４のセットは、１つ以上の処理チップおよび／またはアセンブリを含む。メモリ１２６は、揮発性メモリ（例えば、ＲＡＭ）と、１つ以上のＲＯＭ、ディスクドライブ、ソリッドステートドライブ等の不揮発性メモリとをともに含む。処理ユニット１２４のセットおよびメモリ１２６は共に、本明細書に記載するような様々な方法および機能を実行するように構成および配置された制御回路を形成する。

いくつかの実施形態では、コンピュータ１２０の構成要素のうちの１つ以上は、メモリ１２６に格納された命令を処理するように構成されたプロセッサ（たとえば、処理ユニット１２４）を含み得る。図１に示すような命令の例として、画像取得マネージャ１３０、変形モデルマネージャ１４０、およびテンプレートＮｅＲＦマネージャ１５０が含まれる。さらに、メモリ１２６は、図１に示すように、このようなデータを用いる各マネージャに関して説明した各種データを格納するように構成されている。

画像取得マネージャ１３０は、変形モデルマネージャ１４０に入力すべき画像データ１３２を取得するように構成される。いくつかの実現例では、画像取得マネージャ１３０は、ネットワークインターフェイス１２２を介して、すなわち、ネットワークを介して、画像データ１３２を受信する。いくつかの実現例では、画像取得マネージャ１３０は、ローカルストレージ（例えば、ディスクドライブ、フラッシュドライブ、ＳＳＤ等）から画像データ１３２を受信する。

画像データ１３２は、シーン１３４（１）、１３４（２）、…、１３４（Ｎ）の複数の画像を表わす。例えば、ユーザは、携帯電話カメラを用いて様々な視点１３６（１）、１３６（２）、…、１３６（Ｎ）から自身の画像、すなわち「自撮り写真」、を記録することによって画像１３４（１）、１３４（２）、…、１３４（Ｎ）を生成してもよい。

手持ち式カメラで人々をモデル化することは、１）完全に静止したままでいることができない非剛性と、２）ほとんどの再構築方法において用いられる仮定に違反している毛髪、眼鏡、およびイヤリング等の厄介な材料との両方が原因で、特に困難である。非剛体変形シーンをモデル化するために、ＮｅＲＦは、追加の成分を導入することによって一般化され得る。追加の成分とは、観察の基準系における３Ｄ点を歪ませてカノニカルモデルの基準系にする観察ごとの変形場によって補足される全ての観察のためのテンプレートとしての役割を果たすカノニカルＮｅＲＦモデルである。

変形モデルマネージャ１４０は、シーンの観察空間内の座標とＮｅＲＦモデルが適用されているカノニカル空間内の座標との間のマッピングをもたらす変形モデルを生成するように構成される。この目的のために、変形モデルマネージャ１４０は、観察フレーム位置データ１４１および潜在変形符号データ１４２を生成するように構成される。

観察フレームデータ１４１は、観察フレームにおける点の座標、すなわち画像１３４（１）、１３４（２）、…、１３４（Ｎ）の座標フレームを表わす。例えば、観察フレームデータ１４１は、画像データ１３２が生成された空間の広がり範囲を表わす体積内の点ｘを表してもよい。観察フレームは図２において視覚化され得る。

図２は、変形可能なニューラル放射輝度場を生成するための例示的なシステムアーキテクチャ２００を示す図である。図２は、観察フレーム２２０を３次元体積内の点の集合として示す。図２はまた、光線２１２が向けられるカメラ視点２１０を示す。

潜在変形符号データ１４２は、図２に記号ωで表わされる潜在変形符号を表わす。各画像１３４（１）、…、１３４（Ｎ）は、それ自体の潜在変形符号に関連付けられている。シーンの画像に関連付けられた画像ごとの潜在変形符号は、その画像におけるシーンの状態をモデル化する。いくつかの実現例では、画像ごとの潜在変形符号が学習される。画像ごとの潜在変形符号の各々が有する次元数は少なく、いくつかの実現例では、各潜在変形符号は８次元を有する。

変形モデルマネージャ１４０はまた、観察フレームデータ１４１と潜在変形符号データ１４２とに基づいて変形モデルを生成するように構成される。いくつかの実現例では、変形モデルはニューラルネットワークを用いて導出される。いくつかの実現例では、ニューラルネットワークは畳み込み層を含まない。図２に示すように、変形モデルは、多層パーセプトロン（ＭＬＰ）２３０を用いて導出される。図１に示すように、変形モデルは、変形場ＭＬＰデータ１４３を用いて導出される。

変形場ＭＬＰデータ１４３は、変形場ＭＬＰを定義する値を表わす。本明細書に記載の技術的解決策の文脈における例示的な変形場ＭＬＰは６つの層（１つの入力、１つの出力、および４つの隠れ層）を有する。この例では、隠れ層のサイズ（すなわち、ノードの数）は１２８であり、第４の層にスキップ接続があり、Softplusアクティブ化関数ｌｏｇ（１＋ｅ^ｘ）がある。変形場ＭＬＰデータ１４３はさらに、損失関数データ１４４および粗密データ１４５を含む。

変形モデルは、最適化をより困難にする可能性のある曖昧さを加える。例えば、後方に移動するオブジェクトは、サイズが縮小するオブジェクトと視覚的に同等であり、その間に非常に多くの分解能を伴う。これらの曖昧さは、最適化に対する制約が不足するという問題をもたらし、結果として、非現実的な変形およびアーチファクトをもたらす。したがって、より妥当な解決策をもたらす先行技術が導入される。

損失関数データ１４４は、トレーニング反復ごとに変形場ＭＬＰ（すなわち、図２のＭＬＰ２３０）のノードの値を決定するために用いられる損失関数成分を表わす。図２に示すように、ＭＬＰ２３０についての損失関数成分は弾性損失データ１４４（１）および背景損失データ１４４（２）を含む。

弾性損失データ１４４（１）は、変形モデルを決定するのに用いられる弾性損失関数の値を表わす。剛体運動からの局所的変形のずれを測定する弾性エネルギを用いて非剛体変形をモデル化することは、幾何学的処理および物理的シミュレーションにおいては一般的である。このようなエネルギは、非剛体シーンおよびオブジェクトの再構築および追跡のために広く用いられてきた。したがって、弾性エネルギは、このような手法のための好適な候補である。弾性エネルギは、離散化表面、例えばメッシュ、に最もよく用いられてきたが、変形モデルに含まれる連続変形場の状況において同様の概念を適用することができる。

一定の潜在符号ω_ｉの場合、連続変形場Ｔは、

への非線形マッピングである。それでも、このような非線形マッピングは行列表現で近似化され得る。

いくつかの実現例では、非線形マッピングも微分可能である。この場合、

は、その点における変換の好適な線形近似化を表わす。したがって、変形モデルの局所的挙動は、Ｔのヤコビアンにより制御可能である。離散化表面を用いる他の手法とは異なり、この連続的／微分可能な定式化により、変形場ＭＬＰの自動微分を経てこのマッピングのヤコビアンを直接計算することが可能になることに留意されたい。

剛体変換からのヤコビアンＪ_Ｔの偏差にペナルティを課すためのいくつかの方法がある。ヤコビアンＪ_Ｔ＝ＵΣＶ^Ｔの特異値分解を考慮すると、複数の手法は、最も近い回転からの偏差に

としてペナルティを科す。式中、Ｒ＝ＶＵ^Ｔであり、・_Ｆはフロベニウスノルムである。いくつかの実現例では、弾性損失成分は、Ｊ_Ｔの特異値に基づいており、弾性損失成分は、アイデンティティＩからの特異値行列Σの偏差の尺度を含む。特異値の対数は、同じ因子の伸縮に等しい重みを与え、より適切に機能することが分かった。したがって、ゼロからの対数特異値の偏差から導出される点ｘ_ｉにおける弾性損失成分には以下のようにペナルティが課される。

式中、ｌｏｇは行列対数を表わす。
いくつかの実現例では、弾性損失成分は、よりロバストな損失関数に再マッピングされる。例えば、人は大部分が剛性であるが、局所的な剛体についての我々の前提を崩す可能性のあるいくつかの動き、例えば、局所的に皮膚を伸ばしたり縮めたりする顔の表情がある。上記で定義した弾性エネルギは、次いで、ロバスト損失成分を用いて再マッピングされ得る。

式中、ρ（・）は、ハイパーパラメータｃ＝０．０３で実現されるGeman-McClureのロバスト誤差関数であり、ｗ_ｉは重みである。複数の点にわたり、正味のロバスト損失成分Ｌ_{ｅｌａｓｔｉｃ－ｒ}はそれらの複数の点の各々におけるロバスト損失成分の加重平均である。ロバスト損失成分は、引数の値が大きい場合に損失の勾配をゼロにまで小さくして、トレーニング中の外れ値の影響を低減させる。

背景損失データ１４４（２）は、変形モデルを決定するために用いられる背景損失関数の値を表わす。変形場Ｔは制約されておらず、したがって、全てが自由に動き回ることができる。いくつかの実現例では、背景が動くのを防ぐ正則化項が追加される。静的であることが分かっているシーン内の３次元点のセットを前提として、これらの点におけるいずれの変形にもペナルティを課すことができる。例えば、多視点画像からの3次元形状復元（structure from motion）を用いてカメラを位置合わせすることにより、少なくともいくつかの観察セットにわたって剛性に挙動する３Ｄ特徴点のセットを生成する。これらの静的３Ｄ点｛ｘ_１…,ｘ_Ｋ］を前提とすると、動きには、

としてペナルティが科される。背景点が動かないようにすることに加えて、この正則化はまた、観察座標フレームをカノニカル座標フレームに位置合わせするという利点を有する。

粗密データ１４５は粗密変形正則化を表わす。ＮｅＲＦアーキテクチャのコア成分は位置符号化である。同様の概念が変形場ＭＬＰのために採用され、

ハイパーパラメータｍは、マッピングにおいて用いられる周波数帯の数（したがって最高周波数）を制御する。これは、ネットワークの滑らかさを制御することが分かっている。ｍの値が高ければ高いほど、より高い周波数詳細をモデル化することが可能となるが、結果として、３Ｄ構造としてＮｅＲＦ過剰適合とモデル化画像ノイズとをもたらす可能性がある。

変形場と共にＮｅＲＦを共同で最適化することによって、極小値をもたらす傾向のある最適化問題が生じることが観察される。トレーニングの初期では、ＮｅＲＦも変形場も意味のある情報を含まない。ｍに対して大きい値を用いる場合、これは、変形場が不完全なＮｅＲＦテンプレートに過剰適合し得ることを意味する。例えば、対象が頭部を横向きに回転させる場合、大きいｍを用いるネットワークは、多くの場合、頭部を前方位置に維持したままで、ＮｅＲＦのビュー方向成分を用いて外観の変化を符号化することを選択するだろう。一方で、ｍに対して小さい値を用いる場合、ネットワークは、顔の表情または動いている髪の束等の高周波数詳細を必要とする変形をモデル化することができないだろう。

ＮｅＲＦにおいて用いられる位置符号化が、ＮｅＲＦのＭＬＰのニューラルタンジェントカーネル（neural tangent kernel：ＮＴＫ）に関して簡便な解釈を有することが判明した。結果として、ｍがその補間カーネルの調整可能な「帯域幅」を制御する静止補間カーネルが得られる。周波数の数が小さい場合、データの過小適合をもたらす広いカーネルをもたらす一方で、周波数の数が大きい場合、データの過剰適合をもたらす狭いカーネルをもたらす。これを考慮して、位置符号化の周波数帯に窓掛けするパラメータαを導入することによってＮＴＫの帯域幅を円滑にアニーリングする方法が提案されている。重みは、位置符号化の周波数帯ｊごとに、

として定義され、ここで、パラメータα∈［０，ｍ］を線形アニーリングすることは、一部が切取られた不完全なＨａｎｎ窓を周波数帯にわたってスライドさせるものとして解釈され得る（ここで、左側は１に固定され、右側は０に固定される）。次いで、位置符号化は、

であり、式中、ｔは現在のトレーニング反復であり、Ｎは、αがいつ周波数ｍの最大数に達するべきであるかについてのハイパーパラメータである。

これらの線に沿って、変形場ＭＬＰデータ１４３はＳＥ（３）変換データ１４６も含む。ＳＥ（３）変換データ１４６は、ＭＬＰにおいて符号化されて上述されたような変換場を表わす。ＳＥ（３）変換データ１４６は、回転ｑを表わす回転データ１４７と、回動点ｓを表わす回動点データ１４８と、並進ｔを表わす並進データとを含む。いくつかの実現例では、回転データ１４７、回動点データ１４８および並進データ１４９は四元数形式で表わされる。いくつかの実現例では、回転データ１４７、回動点データ１４８、および並進データ１４９は、別の形式、たとえば行列形式で表わされる。

テンプレートＮｅＲＦマネージャ１５０は、

の５次元表現を生成するように構成される。いくつかの実現例では、画像ごとに外観符号Ψ_ｉが提供されて、色出力を変調し、入力フレーム間の外観変化、例えば、露出およびホワイトバランス、を処理する。図２に示すように、カノニカルフレーム２４０が視覚化される。観察フレーム２２０内の光線２１２に沿った点は、変形場ＭＬＰ２３０を用いてカノニカルフレーム２４０内の曲線２４２に沿った点にマッピングされている。各位置および光線／カメラ視点は、ＮｅＲＦＭＬＰ２５０により外観符号とともに色および密度にマッピングされる。

図１に示すように、テンプレートＮｅＲＦマネージャ１５０は、カノニカルフレーム位置データ１５１、方向データ１５２、潜在外観符号データ１５３、およびテンプレートＮｅＲＦＭＬＰデータ１５４を生成して、色データ１６２および密度データ１６３を含む出力データ１６０を出力するように構成される。カノニカルフレーム位置データ１５２は、変形場ＭＬＰ（例えば、図２のＭＬＰ２３０）を用いて観察フレームからマッピングされたカノニカルフレーム内の位置を表わす。方向データ１５２は、カノニカルフレーム内の各点を通る光線またはカメラ角度または方向余弦を表わす。潜在外観符号データ１５３は画像ごとの潜在外観符号を表わす。

テンプレートＮｅＲＦＭＬＰデータ１５４は、ＮｅＲＦＭＬＰを定義する値を表わす。本明細書に記載の技術的解決策の文脈における例示的なＮｅＲＦＭＬＰは６つの層（１つの入力、１つの出力、および４つの隠れ層）を有する。この例では、隠れ層のサイズ（すなわち、ノードの数）は１２８であり、第４の層においてスキップ接続があり、ＲｅＬＵアクティブ化関数がある。変形場ＭＬＰデータ１５４はさらに、色損失関数データ１５５および粗密データ１５６を含む。

色損失関数データ１５５は、以下のように定義される色損失関数の値を表わす。最適化反復ごとに、カメラ光線のバッチは、データセット内の全ピクセルのセットからランダムにサンプリングされ、次いで、粗ネットワークからのＮ_ｃのサンプルおよび密ネットワークからのＮ_ｃ＋Ｎ_ｆのサンプルを照会するための階層サンプリングが続けて行なわれる。ボリュームレンダリング手順は、サンプルの両方のセットから各光線の色をレンダリングするために用いられる。色損失は、粗いレンダリングおよび密なレンダリングの両方についての、レンダリングされたピクセル色と真のピクセル色との間の総二乗誤差である。

粗密データ１５６は、粗密データ１４５と同様の粗密変形正則化を表わす。しかしながら、ＮｅＲＦＭＬＰの場合、正弦および余弦は重み付けされない。

弾性損失関数に戻って、変形場Ｔは空き空間内での自由な挙動が可能である。なぜなら、背景に対して相対的に移動する対象が空間内のどこかで非剛体変形を必要とするからである。したがって、いくつかの実現例では、弾性損失関数は、以下のように、各点において、レンダリングされたビューへの寄与分だけ重み付けされる。

５次元ニューラル放射輝度場は、空間内の任意の点における体積密度および指向性放射輝度としてシーンを表わす。シーンを通過するいずれの光線の色も、従来のボリュームレンダリングからの原理を用いてレンダリングされる。

関数Ｔ（ｔ）は、ｔ_ｎからｔまでの光線に沿った累積透過率、すなわち光線が他の粒子に衝突することなくｔ_ｎからｔまで進む確率、を示す。我々の連続的なニューラル放射輝度場からのビューをレンダリングすることにより、所望の仮想カメラの各ピクセルを通じてトレースされるカメラ光線に対するこの積分Ｃ（ｒ）を推定することが必要となる。

この連続積分は、求積法を用いて数値的に推定される。典型的には離散化されたボクセルグリッドをレンダリングするために用いられる決定論的求積法は、固定された離散的な位置のセットにおいてＭＬＰが照会され得るだけであるので、我々の表現の分解能を実質的に制限してしまうだろう。代わりに、我々は層別のサンプリング手法を用いる。この場合、［ｔ_ｎ，ｔ_ｆ］を等間隔に配置されたＭ個のビンに仕切り、次いで、各ビン内から均等にランダムに１つのサンプルを引出す。

積分を推定するためにサンプルの離散セットが用いられるが、層別サンプリングにより連続シーンの表現が可能となる。なぜなら、層別サンプリングにより、結果として、ＭＬＰが最適化の過程にわたって連続する位置で評価されることとなるからである。我々は、これらのサンプルを用いて以下のようにＣ（ｒ）を推定する。

各カメラ光線に沿ったＭ個のクエリ点においてニューラル放射輝度場ネットワークを密に評価するレンダリング戦略は非効率的であり、レンダリングされた画像に寄与しない自由空間および閉塞領域が依然として繰返しサンプリングされる。したがって、単一のネットワークを用いてシーンを表わす代わりに、一方が「粗」であり他方が「密」である２つのネットワークが同時に最適化される。第１に、Ｎ_ｃ位置のセットが、層別サンプリングを用いてサンプリングされ、式（１３）、（１４）、（１５）に記載するように、これらの位置における「粗」いネットワークを評価する。この「粗」いネットワークの出力を前提として、各光線に沿って、点についてより情報量の多いサンプリングがもたらされる。この場合、サンプルは体積の関連部分に偏っている。このために、まず、アルファ合成色が、式（１４）において、

出力データ１６０は、ＮｅＲＦＭＬＰ（すなわち、図２のＭＬＰ２５０）の出力を表わす。出力データ１６０は、色データ１６２および密度データ１６４を含む。上述した（例えば、式（１１））ように、色データ１６２は位置および光線角度に依存する一方で、密度データ１６４は光線角度のみに依存する。色データ１６２および密度データ１６４から、任意の視点からのシーンのビューが得られる可能性もある。

図２に示すシステム２００はユニットとして最適化されてもよく、すなわち、ＭＬＰ２３０およびＭＬＰ２５０は上述した損失成分の和である単一損失関数で識別されてもよい。

式中、λおよびμは重みである。いくつかの実現例では、λ＝μ＝１０^－３である。
図３は、変形可能なＮｅＲＦを生成する例示的な方法３００を示すフローチャートである。方法３００は、コンピュータ１２０のメモリ１２６内に存在するとともに処理ユニット１２４のセットによって実行される、図１に関連付けて説明されるソフトウェア構成によって実行されてもよく、または、コンピュータ１２０とは異なる（例えば、コンピュータ１２０から遠隔にある）コンピューティングデバイスのメモリ内に存在するソフトウェア構成によって実行されてもよい。

３１０において、画像取得マネージャ１３０は、複数の画像（例えば、画像１３４（１）、…、１３４（Ｎ））を表わす画像データ（例えば、画像データ１３２）を取得し、複数の画像の各々は、観察フレーム内のシーンの画像（例えば、観察フレーム位置データ１４１）を含み、シーンは、それぞれの視点（例えば、視点１３６（１）、…、１３６（Ｎ））から見た非剛体変形オブジェクトを含む。

３２０において、変形モデルマネージャ１４０は、画像データに基づいて変形モデル（例えば、変形場ＭＬＰデータ１４３）を生成し、変形モデルは、画像データが生成されていた間に非剛体変形オブジェクトが行なった動きを記述し、変形モデルは、観察フレーム内の位置とカノニカルフレーム内の位置との間のマッピング（例えば、カノニカルフレーム位置データ１５１）によって表わされる。

３３０において、テンプレートＮｅＲＦマネージャ１５０は、カノニカルフレーム内の位置を通る投射光線の位置および視野方向に基づいて、変形可能なニューラル放射輝度場（Ｄ－ＮｅＲＦ）を生成し、Ｄ－ＮｅＲＦは、位置と観察方向との間のマッピングを、観察フレーム内の各位置における色（例えば、色データ１６２）および光学密度（例えば、密度データ１６４）に提供し、観察フレーム内の各位置における色および光学密度は、新しい視点からの非剛体変形オブジェクトを見ることを可能にする。

対象に対する変形場の影響が図４Ａ、図４Ｂ、および図４Ｃに示される。図４Ａは、観察フレームにおける対象である人の例示的な姿勢４００を示す図である。図４Ｂは、カノニカルフレームにおける対象である人の例示的な姿勢４５０を示す図である。図４Ａおよび図４Ｂの両方において、対象は、前方向および左方向における正投影図を示す挿入図とともに示される。図４Ａ（観察フレーム）では、観察モデルとカノニカルモデルとの間で右方から左方への変位および前方から後方への変位があり、これら変位がこの観察のために変形場によってモデル化されることに留意されたい。

図４Ｃは、弾性正則化を伴わない（白抜きされた）キーフレーム（上）と弾性正則化を伴う（白抜きされた）キーフレーム（下）との間の例示的な補間４７０を示す図である。図４Ｃは、観察変形符号を線形補間することによって弾性正則化が無い状態で合成された新しい図と弾性正則化がある状態で合成された新しい図とを示す。弾性正則化がない場合、中間状態は歪みを示し、例えば、顔の特徴間の間隔が元の画像から変化している。

図５は、本明細書に記載の技術とともに使用され得る、汎用コンピュータデバイス５００および汎用モバイルコンピュータデバイス５５０の例を示す。

図５に示すように、コンピューティングデバイス５００は、様々な形態のデジタルコンピュータ、例えば、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータ等を表わすことが意図されている。コンピューティングデバイス５５０は、様々な形態のモバイルデバイス、例えば、携帯情報端末、セルラー電話、スマートフォン、および他の同様のコンピューティングデバイス等を表わすことが意図されている。本明細書に示される構成要素、それらの接続および関係、ならびにそれらの機能は、例示的なものにすぎず、本明細書にて説明および／または主張される本発明の実現例を限定することを意味するものではない。

コンピューティングデバイス５００は、プロセッサ５０２と、メモリ５０４と、ストレージデバイス５０６と、メモリ５０４および高速拡張ポート５１０に接続する高速インターフェイス５０８と、低速バス５１４およびストレージデバイス５０６に接続する低速インターフェイス５１２とを含む。構成要素５０２、５０４、５０６、５０８、５１０、および５１２の各々は、様々なバスを用いて相互接続され、共通のマザーボード上に、または他の態様で適宜、実装され得る。プロセッサ５０２は、高速インターフェイス５０８に結合されたディスプレイ５１６等の外部入出力デバイス上にＧＵＩに関するグラフィカル情報を表示するために、メモリ５０４またはストレージデバイス５０６に格納された命令を含む、コンピューティングデバイス５００内で実行すべき命令を処理することができる。他の実現例では、複数のプロセッサおよび／または複数のバスが、複数のメモリおよび複数のタイプのメモリとともに適宜用いられ得る。また、複数のコンピューティングデバイス５００が接続されてもよく、各デバイスは、（例えば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして）必要な動作の部分を提供する。

メモリ５０４は、コンピューティングデバイス５００内に情報を格納する。一実現例では、メモリ５０４は１つ以上の揮発性メモリユニットである。別の実現例では、メモリ５０４は１つ以上の不揮発性メモリユニットである。メモリ５０４はまた、磁気ディスクまたは光ディスク等の別の形態のコンピュータ可読媒体であり得る。

ストレージデバイス５０６は、コンピューティングデバイス５００に大容量ストレージを提供することができる。一実現例では、ストレージデバイス５０６は、コンピュータ可読媒体、例えば、フロッピー（登録商標）ディスクデバイス、ハードディスクデバイス、光ディスクデバイス、もしくはテープデバイス等、または、フラッシュメモリもしくは他の同様のソリッドステートメモリデバイス、または、ストレージエリアネットワークもしくは他の構成内のデバイスを含むデバイスのアレイであり得るか、またはそれらを含み得る。コンピュータプログラム製品は、情報担体において有形に具現化することができる。コンピュータプログラム製品はまた、実行されると、上述したもの等の１つ以上の方法を実行する命令を含み得る。情報担体は、メモリ５０４、ストレージデバイス５０６、またはプロセッサ５０２上のメモリ等のコンピュータ可読媒体または機械可読媒体である。

高速コントローラ５０８は、コンピューティングデバイス５００のための帯域幅集約型動作を管理し、低速コントローラ５１２は、より低い帯域幅集約型動作を管理する。このような機能の割当ては一例に過ぎない。一実現例では、高速コントローラ５０８は、（例えば、グラフィックスプロセッサまたはアクセラレータを介して）メモリ５０４、ディスプレイ５１６に結合されるとともに、様々な拡張カード（図示せず）を受入れ得る高速拡張ポート５１０に結合される。この実現例では、低速コントローラ５１２は、ストレージデバイス５０６および低速拡張ポート５１４に結合される。様々な通信ポート（例えば、ＵＳＢ、Bluetooth（登録商標）、イーサネット（登録商標）、無線イーサネット（登録商標））を含み得る低速拡張ポートは、例えばネットワークアダプタを介して、キーボード、ポインティングデバイス、スキャナ、またはスイッチもしくはルータ等のネットワーキングデバイス等の１つ以上の入出力デバイスに結合され得る。

コンピューティングデバイス５００は、図に示すように、いくつかの様々な形態で実現され得る。コンピューティングデバイス５００は、例えば、標準サーバ５２０として、またはそのようなサーバのグループ内で複数回実現され得る。また、コンピューティングデバイス５００は、ラックサーバシステム５２４の一部として実現されてもよい。加えて、コンピューティングデバイス５００はラップトップコンピュータ５２２等のパーソナルコンピュータにおいて実現され得る。代替的には、コンピューティングデバイス５００からの構成要素は、デバイス５５０等のモバイルデバイス（図示せず）内の他の構成要素と組合わされてもよい。このようなデバイスの各々は、コンピューティングデバイス５００、５５０のうちの１つ以上を含み得るとともに、システム全体は、互いに通信する複数のコンピューティングデバイス５００、５５０から構成され得る。

コンピューティングデバイス５５０は、他の構成要素の中でも特に、プロセッサ５５２と、メモリ５６４と、ディスプレイ５５４等の入出力デバイスと、通信インターフェイス５６６と、トランシーバ５６８とを含む。デバイス５５０はまた、追加のストレージを提供するために、マイクロドライブまたは他のデバイス等のストレージデバイスを備え得る。構成要素５５０、５５２、５６４、５５４、５６６、および５６８の各々は様々なバスを用いて相互接続されるとともに、当該構成要素のうちのいくつかは、共通のマザーボード上に、または、他の態様で適宜、実装され得る。

プロセッサ５５２は、メモリ５６４に格納された命令を含む命令を、コンピューティングデバイス４５０内で実行することができる。プロセッサは、別個の複数のアナログプロセッサおよびデジタルプロセッサを含むチップのチップセットとして実装されてもよい。プロセッサは、例えば、ユーザインターフェイスの制御、デバイス５５０によって実行されるアプリケーション、およびデバイス５５０による無線通信等の、デバイス５５０の他の構成要素の連携を提供し得る。

プロセッサ５５２は、ディスプレイ５５４に結合された制御インターフェイス５５８およびディスプレイインターフェイス５５６を介してユーザと通信してもよい。ディスプレイ５５４は、例えば、薄膜トランジスタ液晶ディスプレイ（Thin-Film-Transistor Liquid Crystal Displaｙ：ＴＦＴＬＣＤ）または有機発光ダイオード（Organic Light Emitting Diode：ＯＬＥＤ）ディスプレイ、または他の適切なディスプレイ技術であってもよい。ディスプレイインターフェイス５５６は、グラフィカル情報および他の情報をユーザに提示するようにディスプレイ５５４を駆動するための適切な回路を備え得る。制御インターフェイス５５８は、ユーザからコマンドを受信し得るとともに、当該コマンドを変換してプロセッサ５５２に提示し得る。加えて、デバイス５５０と他のデバイスとの近距離通信を可能にするために、プロセッサ５５２と通信する外部インターフェイス５６２を設けてもよい。外部インターフェイス５６２は、例えば、いくつかの実現例では有線通信を提供してもよく、または他の実現例では無線通信を提供してもよく、複数のインターフェイスが用いられてもよい。

メモリ５６４は、コンピューティングデバイス５５０内に情報を格納する。メモリ５６４は、１つもしくは複数のコンピュータ可読媒体、１つもしくは複数の揮発性メモリユニット、または１つもしくは複数の不揮発性メモリユニットのうちの１つ以上として実現され得る。拡張メモリ５７４が設けられてよく、例えば、シングルインラインメモリモジュール（Single In Line Memory Module：ＳＩＭＭ）カードインターフェイスを含み得る拡張インターフェイス５７２を介してデバイス５５０に接続され得る。このような拡張メモリ５７４は、デバイス５５０のための追加のストレージ空間を提供し得るか、または、デバイス５５０のためのアプリケーションまたは他の情報を格納し得る。具体的には、拡張メモリ５７４は、上述したプロセスを実行または補足するための命令を含み得るとともに、セキュリティ保護された情報も含み得る。したがって、例えば、拡張メモリ５７４は、デバイス５５０のためのセキュリティモジュールとして設けられてもよく、デバイス５５０の安全な使用を可能にする命令でプログラムされてもよい。加えて、ハッキング不可能な態様でＳＩＭＭカード上に識別情報を配置するなどして、追加の情報とともに、セキュリティ保護されたアプリケーションがＳＩＭＭカードを介して提供され得る。

メモリは、以下に説明するように、例えば、フラッシュメモリおよび／またはＮＶＲＡＭメモリを含み得る。一実現例では、コンピュータプログラム製品は情報担体において有形に具現化される。コンピュータプログラム製品は、実行されると、上述の方法等の１つ以上の方法を実行する命令を含む。情報担体は、メモリ５６４、拡張メモリ５７４、またはプロセッサ５５２上のメモリ等のコンピュータ可読媒体または機械可読媒体であり、例えば、トランシーバ５６８または外部インターフェイス５６２を介して受信され得る。

デバイス５５０は、必要に応じてデジタル信号処理回路を含み得る通信インターフェイス５６６を介して無線で通信し得る。通信インターフェイス５６６は、とりわけ、ＧＳＭ（登録商標）音声通話、ＳＭＳ、ＥＭＳ、またはＭＭＳメッセージング、ＣＤＭＡ、ＴＤＭＡ、ＰＤＣ、ＷＣＤＭＡ（登録商標）、ＣＤＭＡ２０００、またはＧＰＲＳ等の様々なモードまたはプロトコル下での通信を提供し得る。このような通信は、例えば、無線周波数トランシーバ５６８を通じて行なわれてもよい。加えて、Bluetooth（登録商標）、ＷｉＦｉ、または他のこのようなトランシーバ（図示せず）等を用いて短距離通信が行われてもよい。加えて、全地球測位システム（Global Positioning System：ＧＰＳ）受信機モジュール５７０は、デバイス５５０上で実行されるアプリケーションによって適宜使用され得る追加のナビゲーション関連および位置関連の無線データをデバイス５５０に提供し得る。

デバイス５５０はまた、音声コーデック５６０を用いて音声認識可能に通信してもよく、これは、ユーザからの発話情報を受信して、使用可能なデジタル情報に変換し得る。音声コーデック５６０は、同様に、例えばデバイス５５０のハンドセット内のスピーカ等を通じて、ユーザのために可聴音を生成し得る。そのような音は、音声電話通話からの音を含んでもよく、録音された音（例えば、音声メッセージ、音楽ファイル等）を含んでもよく、デバイス５５０上で動作するアプリケーションによって生成される音を含んでもよい。

コンピューティングデバイス５５０は、図に示すように、いくつかの異なる形態で実現され得る。例えば、コンピューティングデバイス５５０は携帯電話５８０として実現されてもよい。コンピューティングデバイス５５０はまた、スマートフォン５８２、携帯情報端末、または他の同様のモバイルデバイスの一部として実現されてもよい。

本明細書に記載のシステムおよび技術の種々の実現例は、デジタル電子回路、集積回路、特別に設計された特定用途向け集積回路（application specific integrated circuit：ＡＳＩＣ）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組合わせで実現することができる。これらの様々な実現例は、ストレージシステム、少なくとも１つの入力デバイス、および少なくとも１つの出力デバイスから／へのデータおよび命令の受信および送信を行なうように結合された、専用または汎用であり得る少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上で実行可能および／または解釈可能である１つ以上のコンピュータプログラムでの実現例を含み得る。

（プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとしても公知である）これらのコンピュータプログラムは、プログラマブルプロセッサのための機械命令を含むとともに、高水準手続き型および／もしくはオブジェクト指向型のプログラミング言語で、ならびに／またはアセンブリ／機械言語で実現され得る。「機械可読媒体」、「コンピュータ可読媒体」という語は、本明細書で用いられる場合、機械可読信号として機械命令を受信する機械可読媒体を含む、機械命令および／またはデータをプログラマブルプロセッサに提供するために用いられる任意のコンピュータプログラム製品、装置、および／またはデバイス（例えば、磁気ディスク、光ディスク、メモリ、プログラマブル論理デバイス（Programmable Logic Device：ＰＬＤ））を指す。「機械可読信号」という語は、機械命令および／またはデータをプログラマブルプロセッサに提供するために用いられる任意の信号を指す。

ユーザとの対話を提供するために、本明細書に記載のシステムおよび技術は、情報をユーザに表示するためのディスプレイデバイス（例えば、陰極線管（cathode ray tube：ＣＲＴ）または液晶ディスプレイ（liquid crystal display：ＬＣＤ）モニタ）と、入力をコンピュータに与えるためにユーザが使用することができるキーボードおよびポインティングデバイス（例えば、マウスまたはトラックボール）とを有するコンピュータ上で実現することができる。他の種類のデバイスを用いてユーザとの対話を行なうことができ、例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック（例えば、視覚フィードバック、聴覚フィードバックまたは触覚フィードバック）であり得るとともに、ユーザからの入力は、音響入力、音声入力または触覚入力を含む任意の形態で受信することができる。

本明細書に記載のシステムおよび技術は、バックエンド構成要素を（例えば、データサーバとして）含むか、または、ミドルウェア構成要素（例えば、アプリケーションサーバ）を含むか、または、フロントエンド構成要素（例えば、本明細書に記載のシステムおよび技術の実現例とユーザが対話することを可能にするグラフィカルユーザインターフェイスもしくはウェブブラウザを有するクライアントコンピュータ）を含むか、または、そのようなバックエンド構成要素、ミドルウェア構成要素、もしくはフロントエンド構成要素の任意の組合わせを含むコンピューティングシステムにおいて実現することができる。システムの構成要素は、デジタルデータ通信（例えば、通信ネットワーク）の任意の形態または媒体によって相互接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（local area network：ＬＡＮ）、ワイドエリアネットワーク（wide area network：ＷＡＮ）、およびインターネットを含む。

コンピューティングシステムはクライアントおよびサーバを含み得る。クライアントおよびサーバは、概して、互いに遠隔にあり、典型的には通信ネットワークを通して互いに対話する。クライアントとサーバとの関係は、それぞれのコンピュータ上で実行されるとともに互いに対してクライアント・サーバ関係を有するコンピュータプログラムによって生じるものである。

図１に戻ると、いくつかの実現例では、メモリ１２６は、ランダムアクセスメモリ、ディスクドライブメモリ、フラッシュメモリ等の任意のタイプのメモリであり得る。いくつかの実現例では、メモリ１２６は、圧縮コンピュータ１２０の構成要素に関連付けられた複数のメモリ構成要素（例えば、複数のＲＡＭコンポーネントまたはディスクドライブメモリ）として実装され得る。いくつかの実現例では、メモリ１２６はデータベースメモリであり得る。いくつかの実現例では、メモリ１２６は、非ローカルメモリであり得るかまたは非ローカルメモリを含み得る。たとえば、メモリ１２６は、複数のデバイス（図示せず）によって共有されるメモリであり得るか、または当該メモリを含み得る。いくつかの実現例では、メモリ１２６は、ネットワーク内のサーバデバイス（図示せず）に関連付けられ得るとともに、圧縮コンピュータ１２０の構成要素のために機能するように構成され得る。

圧縮コンピュータ１２０の構成要素（たとえば、モジュール、処理ユニット１２４）は、ハードウェア、ソフトウェア、ファームウェア、オペレーティングシステム、ランタイムライブラリ等の１つ以上のタイプを含み得る１つ以上のプラットフォーム（例えば、１つ以上の類似のプラットフォームまたは異なるプラットフォーム）に基づいて動作するように構成することができる。いくつかの実現例では、圧縮コンピュータ１２０の構成要素は、デバイスのクラスタ（たとえば、サーバファーム）内で動作するように構成され得る。このような実現例では、圧縮コンピュータ１２０の構成要素の機能および処理は、デバイスのクラスタのうちのいくつかのデバイスに分散され得る。

コンピュータ１２０の構成要素は、属性を処理するように構成された任意のタイプのハードウェアおよび／またはソフトウェアであり得るか、またはそれらを含み得る。いくつかの実現例では、図１におけるコンピュータ１２０の構成要素に示される構成要素のうちの１つ以上の部分は、ハードウェアベースのモジュール（例えば、デジタル信号プロセッサ（digital signal processor：ＤＳＰ）、フィールドプログラマブルゲートアレイ（field programmable gate Array：ＦＰＧＡ）、メモリ）、ファームウェアモジュール、および／またはソフトウェアベースのモジュール（例えば、コンピュータコードのモジュール、コンピュータにおいて実行可能なコンピュータ可読命令のセット）であり得るか、またはそれらを含み得る。たとえば、いくつかの実現例では、コンピュータ１２０の構成要素のうちの１つ以上の部分は、少なくとも１つのプロセッサ（図示せず）による実行のために構成されたソフトウェアモジュールであり得るかまたはそれを含み得る。いくつかの実現例では、構成要素の機能は、図１に示すものとは異なるモジュールおよび／または異なる構成要素に含まれ得る。

図示していないが、いくつかの実現例では、コンピュータ１２０の構成要素（またはその部分）は、たとえば、データセンタ（たとえば、クラウドコンピューティング環境）、コンピュータシステム、１つ以上のサーバ／ホストデバイス等の内部で動作するように構成され得る。いくつかの実現例では、コンピュータ１２０の構成要素（またはその部分）は、ネットワーク内で動作するように構成され得る。したがって、コンピュータ１２０の構成要素（またはその部分）は、１つ以上のデバイスおよび／または１つ以上のサーバデバイスを含み得る、様々なタイプのネットワーク環境内で機能するように構成することができる。たとえば、ネットワークは、ローカルエリアネットワーク（local area network：ＬＡＮ）、ワイドエリアネットワーク（wide area network：ＷＡＮ）などであり得るか、またはそれらを含み得る。ネットワークは、ワイヤレスネットワークであり得るか、もしくはそれを含み得、および／または、たとえば、ゲートウェイデバイス、ブリッジ、スイッチ等を用いて実装されるワイヤレスネットワークであり得るか、もしくはそれを含み得る。ネットワークは、１つ以上のセグメントを含み得、および／またはインターネットプロトコル（ＩＰ）および／またはプロプライエタリプロトコル等の様々なプロトコルに基づく部分を有し得る。ネットワークはインターネットの少なくとも一部を含み得る。

いくつかの実施形態では、コンピュータ１２０の構成要素のうちの１つ以上は、メモリに格納された命令を処理するように構成されたプロセッサであり得るかまたはそれを含み得る。例えば、深度画像マネージャ１３０（および／またはその一部）、視点マネージャ１４０（および／またはその一部）、光線投射マネージャ１５０（および／またはその一部）、ＳＤＶマネージャ１６０（および／またはその一部）、集約マネージャ１７０（および／またはその一部）、求根マネージャ１８０（および／またはその一部）、ならびに深度画像生成マネージャ１９０（および／またはその一部）は、１つ以上の機能を実現するためのプロセスに関連する命令を実行するように構成されたプロセッサとメモリとの組合せであり得る。

多数の実施形態を説明してきたが、本明細書の精神および範囲から逸脱することなく、種々の変更が行なわれ得ることが理解されるだろう。

また、ある要素が別の要素上にあるか、別の要素に接続されるか、別の要素に電気的に接続されるか、別の要素に結合されるか、または別の要素に電気的に結合されるものとして言及される場合、当該要素は、直接、他の要素上にあってもよく、他の要素に接続されてもよく、もしくは他の要素に結合されてもよく、または、１つ以上の介在要素が存在してもよいことも理解されるであろう。対照的に、ある要素が別の要素上に直接存在するか、別の要素に直接接続されるか、または別の要素に直接結合されるものとして言及される場合、介在要素は存在しない。直接上にあるか、直接接続されるか、または直接結合されるという表現は、詳細な説明全体を通じて用いられない可能性もあるが、直接上にあるか、直接接続されるか、または直接結合されるものとして示される要素はそのようなものとして言及され得る。本願の特許請求の範囲は、本明細書に記載されるかまたは図に示される例示的な関係を記載するように補正されてもよい。

説明される実現例のいくつかの特徴が本明細書に記載されるように例示されているが、当業者には、多くの修正例、代替例、変更例、および同等例が思い浮かぶであろう。したがって、添付の特許請求の範囲が実現例の範囲に収まるようにこのようなすべての修正例および変更例を包含するよう意図されていることを理解されたい。これらは、限定ではなく例としてのみ提示されたものであり、形態および詳細の様々な変更がなされ得ることを理解されたい。本明細書に記載の装置および／または方法のいずれかの部分が、相互排他的な組合わせを除いて、任意の組合わせで組合わされてもよい。本明細書に記載の実現例は、記載された様々な実現例の機能、構成要素および／または特徴の様々な組合せおよび／または部分的組合せを含み得る。

加えて、図に示される論理フローは、所望の結果を達成するために、示される特定の順序または連続した順序を必要とするものではない。加えて、他のステップが設けられてもよく、または、説明したフローからステップが排除されてもよく、他の構成要素が、説明したシステムに追加されてもよく、またはそこから除去されてもよい。したがって、他の実施形態は添付の特許請求の範囲内にある。

Claims

方法であって、
複数の画像を表わす画像データを取得するステップを含み、前記複数の画像の各々は、観察フレーム内のシーンの画像を含み、前記シーンは、それぞれの視点から見た非剛体変形オブジェクトを含み、前記方法はさらに、
前記画像データに基づいて変形モデルを生成するステップを含み、前記変形モデルは、前記画像データが生成されていた間に前記非剛体変形オブジェクトによって行われた動きを記述し、前記変形モデルは、前記観察フレーム内の位置とカノニカルフレーム内の位置との間のマッピングによって表わされ、前記方法はさらに、
前記カノニカルフレーム内の前記位置を通る投射光線の位置および視野方向に基づいて、変形可能なニューラル放射輝度場（deformable neural radiance field：Ｄ－ＮｅＲＦ）を生成するステップを含み、前記Ｄ－ＮｅＲＦは、前記位置と視野方向との間のマッピングを前記観察フレーム内の各位置における色および光学密度に提供し、前記観察フレーム内の各位置における前記色および光学密度は、新しい視点から前記非剛体変形オブジェクトを見ることを可能にする、方法。
前記変形モデルは、フレーム内の前記シーンの状態を符号化する、フレームごとの潜在符号に条件付けられている、請求項１に記載の方法。
前記変形モデルは、回転と、前記回転に対応する回動点と、並進とを含む、請求項１に記載の方法。
前記回転は純粋な対数四元数として符号化される、請求項３に記載の方法。
前記変形モデルは、（ｉ）位置と前記回動点との間の差に対する類似性変換と、（ｉｉ）前記回動点と、（ｉｉｉ）前記並進との合計を含む、請求項３に記載の方法。
前記変形モデルは、ニューラルネットワーク内の多層パーセプトロン（multilayer perceptron：ＭＬＰ)を含む、請求項１に記載の方法。
前記ＭＬＰについての弾性損失関数成分は、前記変形モデルを表わす行列のノルムに基づく、請求項６に記載の方法。
前記行列は、前記観察フレーム内の前記位置に対する前記変形モデルのヤコビアンである、請求項７に記載の方法。
前記弾性損失関数成分は、前記変形モデルを表わす前記行列の特異値分解に基づく、請求項７に記載の方法。
前記弾性損失関数成分は、前記特異値分解から得られる特異値行列の対数に基づく、請求項９に記載の方法。
前記弾性損失関数成分は、ロバスト弾性損失関数を生成するために有理関数で構成される、請求項７に記載の方法。
背景損失関数成分は、前記シーン内の点を、動きに関するペナルティを有する静的点として指定することを含む、請求項６に記載の方法。
前記背景損失関数成分は、静的点と、前記変形モデルに従った前記カノニカルフレームへの前記観察フレーム内の前記静的点のマッピングとの間の差に基づく、請求項１２に記載の方法。
前記変形モデルを生成するステップは、位置の周期関数を生成するために前記シーン内の位置座標に位置符号化を適用するステップを含み、前記周期関数は、前記ＭＬＰのためのトレーニング反復とともに増加する周波数を有する、請求項６に記載の方法。
前記位置符号化の前記周期関数に、トレーニング反復が特定の周波数を含むかどうかを示す重みを乗じる、請求項１４に記載の方法。
非一時的な記憶媒体を備えるコンピュータプログラム製品であって、前記コンピュータプログラム製品は符号を含み、前記符号は、コンピューティングデバイスの処理回路によって実行されると、前記処理回路に方法を実行させ、前記方法は、
複数の画像を表わす画像データを取得するステップを含み、前記複数の画像の各々は、観察フレーム内のシーンの画像を含み、前記シーンは、それぞれの視点から見た非剛体変形オブジェクトを含み、前記方法はさらに、
前記画像データに基づいて変形モデルを生成するステップを含み、前記変形モデルは、前記画像データが生成されていた間に前記非剛体変形オブジェクトによって行われた動きを記述し、前記変形モデルは、前記観察フレーム内の位置とカノニカルフレーム内の位置との間のマッピングによって表わされ、前記方法はさらに、
前記カノニカルフレーム内の前記位置を通る投射光線の位置および視野方向に基づいて、変形可能なニューラル放射輝度場（Ｄ－ＮｅＲＦ）を生成するステップを含み、前記Ｄ－ＮｅＲＦは、前記位置と前記視野方向との間のマッピングを前記観察フレーム内の各位置における色および光学密度に提供し、前記観察フレーム内の各位置における前記色および光学密度は、新しい視点から前記非剛体変形オブジェクトを見ることを可能にする、コンピュータプログラム製品。
前記変形モデルは、ニューラルネットワーク内の多層パーセプトロン（ＭＬＰ）を含む、請求項１６に記載のコンピュータプログラム製品。
前記ＭＬＰについての弾性損失関数成分は、前記変形モデルを表わす行列のノルムに基づく、請求項１７に記載のコンピュータプログラム製品。
前記行列は、前記観察フレーム内の前記位置に対する前記変形モデルのヤコビアンである、請求項１８に記載のコンピュータプログラム製品。
電子装置であって、
メモリと、
前記メモリに結合された制御回路とを含み、前記制御回路は、
複数の画像を表わす画像データを取得するように構成され、前記複数の画像の各々は、観察フレーム内のシーンの画像を含み、前記シーンは、それぞれの視点から見た非剛体変形オブジェクトを含み、前記制御回路はさらに、
前記画像データに基づいて変形モデルを生成するように構成され、前記変形モデルは、前記画像データが生成されていた間に前記非剛体変形オブジェクトによって行われた動きを記述し、前記変形モデルは、前記観察フレーム内の位置とカノニカルフレーム内の位置との間のマッピングによって表わされ、前記制御回路はさらに、
前記カノニカルフレーム内の前記位置を通る投射光線の位置および視野方向に基づいて、変形可能なニューラル放射輝度場（Ｄ－ＮｅＲＦ）を生成するように構成され、前記Ｄ－ＮｅＲＦは、前記位置と前記視野方向との間のマッピングを前記観察フレーム内の各位置における色および光学密度に提供し、前記観察フレーム内の各位置における前記色および光学密度は、新しい視点から前記非剛体変形オブジェクトを見ることを可能にする、電子装置。