JP2023553259A

JP2023553259A - ダークフラッシュノーマルカメラ

Info

Publication number: JP2023553259A
Application number: JP2023527409A
Authority: JP
Inventors: ローレンス，ジェイソン; アチャール，スプリート; シア，ジーハオ
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2020-11-09
Filing date: 2021-11-09
Publication date: 2023-12-21
Also published as: WO2022099322A1; WO2022099227A1; US20230319424A1; KR20220063763A; CN114830627A; TWI834085B; US20230088801A1; EP4241238A1; JP2023503761A; EP4022886A1; TW202240273A; KR20230079401A; JP7304484B2

Abstract

不十分に照明される画像から表面法線および反射率を推定する技術は、画像の再照明を実行するためのアルベドマップおよび表面法線マップを決定するために、対象のセットのうちのある対象のＲＧＢ画像に加えて、近赤外線（ＮＩＲ）放射で照明された画像を使用することを含み、画像は、ＲＧＢ画像がキャプチャされたのと本質的に同じ視点から、ＮＩＲ放射線でキャプチャされる。いくつかの実現例では、予測エンジンは、入力として、単一のＲＧＢ画像および単一のＮＩＲ画像を取り込み、対象から表面法線および反射率を推定する。

Description

関連出願の参照
本出願は、２０２０年１１月９日提出の「A DARK FLASH NORMAL CAMERA」と題される米国仮特許出願６３／１９８，７３６の非仮特許出願であり、その優先権を主張し、その内容は、参照によりその全体がここに組み込まれる。本出願はまた、２０２０年１１月１６日提出の「A DARK FLASH NORMAL CAMERA」と題される米国仮特許出願６３／１９８，８３６の非仮特許出願であり、その優先権を主張し、その内容は、参照によりその全体がここに組み込まれる。

技術分野
本説明は、例えば、モバイル写真撮影およびビデオ撮影用途において、不十分な照明状態で撮影された画像の再照明を実行することに関する。

背景
いくつかのモバイル写真撮影およびビデオ撮影は、しばしば、低品質画像をもたらし、下流画像処理およびコンピュータビジョンアルゴリズムの性能を劣化させる、不十分な非制御照明下で行われる。環境内の可視照明を制御すること、またはそれをフラッシュで補うことは、困難すぎるか、または実用的であるには混乱しすぎていることが多い。

概要
ここで説明する実現例は、利用可能な可視スペクトル照明を単一の近赤外線光源およびカメラで補うことによって、低品質の照明条件で人々（顔および胴体）を示すシーンの高品質の法線マップおよびアルベドマップ、すなわちいわゆるダークフラッシュ（dark flash）画像を推定することに関する。ここにおける実現例は、入力として、任意の可視照明下でキャプチャされた単色画像と、同じ視点において、制御されたＮＩＲ照明下でキャプチャされた単一のダークフラッシュ画像とを取り込み、シーンの法線マップおよびアルベドマップを計算する。顔のグラウンドトゥルース法線マップをキャプチャすることは困難であるため、ここにおける実現例は、複数のノイズのある源、具体的にはステレオおよび測光シェーディングキューからの情報を組み合わせる新規なトレーニング技術を含む。実現例の性能は、ある範囲の対象および照明条件にわたって評価される。

１つの一般的な局面では、ある方法は、複数のカラー（ＲＧＢ）画像および複数の近赤外線（ＮＩＲ）画像を表す画像トレーニングデータを受信することを含むことができ、複数のＲＧＢ画像の各々は可視スペクトル照明源でキャプチャされ、複数のＮＩＲ画像の各々はＮＩＲ照明源でキャプチャされ、複数のＲＧＢ画像および複数のＮＩＲ画像はそれぞれ複数のＲＧＢ画像のサブセットおよび複数のＮＩＲ画像のサブセット含み、複数のＲＧＢ画像の各サブセットおよび複数のＮＩＲ画像の各サブセットは、複数の照明条件を通した姿勢における対象のセットのそれぞれの対象の画像を含む。本方法はまた、画像トレーニングデータに基づいて予測エンジンを生成することを含み得、予測エンジンは、ユーザの単一のＲＧＢ画像およびユーザの単一のＮＩＲ画像から、ユーザの推定される表面法線マップおよびユーザの推定される反射率マップを生成するよう構成され、ユーザの単一のＲＧＢ画像およびユーザの単一のＮＩＲ画像は、閾値時間期間未満の時間期間内に、閾値視点未満だけ異なる視点からキャプチャされる。

別の一般的な局面では、コンピュータプログラム製品は、非一時的記憶媒体を備え、コンピュータプログラム製品は、コンピューティングデバイスの処理回路によって実行されるとその処理回路にある方法を実行させるコードを含む。本方法は、複数のカラー（ＲＧＢ）画像および複数の近赤外線（ＮＩＲ）画像を表す画像トレーニングデータを受信することを含むことができ、複数のＲＧＢ画像の各々は可視スペクトル照明源でキャプチャされ、複数のＮＩＲ画像の各々はＮＩＲ照明源でキャプチャされ、複数のＲＧＢ画像および複数のＮＩＲ画像はそれぞれ複数のＲＧＢ画像のサブセットおよび複数のＮＩＲ画像のサブセット含み、複数のＲＧＢ画像の各サブセットおよび複数のＮＩＲ画像の各サブセットは、複数の照明条件を通した姿勢における対象のセットのそれぞれの対象の画像を含む。本方法はまた、画像トレーニングデータに基づいて予測エンジンを生成することを含み得、予測エンジンは、ユーザの単一のＲＧＢ画像およびユーザの単一のＮＩＲ画像から、ユーザの推定される表面法線マップおよびユーザの推定される反射率マップを生成するよう構成され、ユーザの単一のＲＧＢ画像およびユーザの単一のＮＩＲ画像は、閾値時間期間未満の時間期間内に、閾値視点未満だけ異なる視点からキャプチャされる。

別の一般的な局面では、ある電子装置は、メモリと、メモリに結合される制御回路とを備える。制御回路は、複数のカラー（ＲＧＢ）画像および複数の近赤外線（ＮＩＲ）画像を表す画像トレーニングデータを受信するよう構成され得、複数のＲＧＢ画像の各々は可視スペクトル照明源でキャプチャされ、複数のＮＩＲ画像の各々はＮＩＲ照明源でキャプチャされ、複数のＲＧＢ画像および複数のＮＩＲ画像はそれぞれ複数のＲＧＢ画像のサブセットおよび複数のＮＩＲ画像のサブセット含み、複数のＲＧＢ画像の各サブセットおよび複数のＮＩＲ画像の各サブセットは、複数の照明条件を通した姿勢における対象のセットのそれぞれの対象の画像を含む。制御回路はまた、画像トレーニングデータに基づいて予測エンジンを生成するよう構成され得、予測エンジンは、ユーザの単一のＲＧＢ画像およびユーザの単一のＮＩＲ画像から、ユーザの推定される表面法線マップおよびユーザの推定される反射率マップを生成するよう構成され、ユーザの単一のＲＧＢ画像およびユーザの単一のＮＩＲ画像は、閾値時間期間未満の時間期間内に、閾値視点未満だけ異なる視点からキャプチャされる。

１つ以上の実現例の詳細が、添付の図面および以下の説明に記載される。他の特徴は、記載および図面、ならびに特許請求の範囲から明らかになるであろう。

ここで説明する改善された技術が実現されてもよい例示的な電子環境を示す図である。画像において表面法線および反射率を推定するよう構成される例示的な予測エンジンを示す図である。予測エンジンをトレーニングするためのＲＧＢ画像およびＮＩＲ画像を生成するための例示的なシステムを示す図である。ＲＧＢ画像に加えてＮＩＲ画像を使用することの、角度誤差に対する、例示的な効果を示すプロット図である。ＲＧＢ画像に加えてＮＩＲ画像を使用することの、角度誤差に対する、例示的な効果を示すプロット図である。ＲＧＢ画像に加えてＮＩＲ画像を使用することの、角度誤差に対する、例示的な効果を示すプロット図である。開示される実現例による、画像において表面法線および反射率を推定するための例示的な方法を示すフローチャート図である。説明される技術を実現するために使用され得るコンピュータデバイスおよびモバイルコンピュータデバイスの一例を示す図である。説明される技術を実現するために使用され得る分散コンピュータデバイスの一例を示す図である。

詳細な説明
不良照明画像を再照明するためのいくつかの従来の手法は、カラー画像に対して「シェーディングからの形状」演算を実行することを含み、これは、画像におけるシェーディングの段階的な変化から形状を回復する。不良照明画像を再照明するための他の従来の手法は、画像を反射率画像とシェーディング画像との積として因数分解する固有画像分解技術を含む。

不良照明画像を再照明する上述の従来の手法に関する技術的問題は、そのような手法が、画像再照明に使用される画像において表面の面法線およびアルベドのマップを推定するのに適していないことである。例えば、画像再照明を決定するためにこれらの技術のいずれかを使用することは、表面法線マップおよびアルベドマップを推定するのに効果的に扱いにくい問題をもたらし得る。これらの技術は、グラウンドトゥルース反射率マップの利用可能性で、より扱いやすくされ得るが、そのようなグラウンドトゥルースマップは、多くのモバイル写真撮影状況において利用可能ではない場合がある。

ここで説明される実現例によれば、上記の技術的問題に対する技術的解決策は、画像の再照明を実行するためのアルベドマップおよび表面法線マップを決定するために、対象のセットのうちのある対象のＲＧＢ画像に加えて、近赤外線（ＮＩＲ）放射で照明された画像を使用することを含み、画像は、ＲＧＢ画像がキャプチャされたのと本質的に同じ視点から、ＮＩＲ放射線でキャプチャされる。いくつかの実現例では、予測エンジンは、入力として、単一のＲＧＢ画像および単一のＮＩＲ画像を取り込み、対象から表面法線および反射率を推定する。いくつかの実現例では、反射率は、アルベド成分と鏡面成分とを含む。

いくつかの実現例では、改善された技術は、複数のカラー（ＲＧＢ）画像および複数の近赤外線（ＮＩＲ）画像を表す画像トレーニングデータを受信することを含み、複数のＲＧＢ画像の各々は白色光照明源でキャプチャされ、複数のＮＩＲ画像の各々はＮＩＲ照明源でキャプチャされ、複数のＲＧＢ画像および複数のＮＩＲ画像はそれぞれ複数のＲＧＢ画像のサブセットおよび複数のＮＩＲ画像のサブセット含み、複数のＲＧＢ画像の各サブセットおよび複数のＮＩＲ画像の各サブセットは、複数の照明条件を通した姿勢における対象のセットのうちのそれぞれの対象の画像を含み、改善された技術はさらに、画像トレーニングデータに基づいて予測エンジンを生成することを含み、予測エンジンは、ユーザの単一のＲＧＢ画像およびユーザの単一のＮＩＲ画像から、ユーザの推定される表面法線マップおよびユーザの推定される反射率マップを生成するよう構成され、ユーザの単一のＲＧＢ画像およびユーザの単一のＮＩＲ画像は、本質的に同一の視点から同時にキャプチャされる。

いくつかの実現例では、改善された技術は、予測エンジンを生成する前に、対象のセットの各々に対して、複数のＲＧＢ画像の対応するサブセットのＲＧＢ画像に対してセマンティックセグメンテーション演算を実行して、その対象のためのラベル画像を生成することを含み、ラベル画像は、ＲＧＢ画像の複数のピクセルの各々がカテゴリ化される指定された数のクラスを有し、当該対象のラベル画像は、画像トレーニングデータに含まれる。

いくつかの実現例では、ユーザの単一のＲＧＢ画像およびユーザの単一のＮＩＲ画像は、本質的に同時にキャプチャされる。いくつかの実現例では、このシナリオでは、画像キャプチャで使用されるＲＧＢ照明は、ＲＧＢ照明源によって生成される必要はなく、任意の照明を用いて生成されることができる。

いくつかの実現例では、複数のＲＧＢ画像の各サブセットおよび複数のＮＩＲ画像の各サブセットは、画像キャプチャ構成を使用してキャプチャされ、画像キャプチャ構成は、それぞれ、複数のＲＧＢ源と、複数のＮＩＲ照明源と、ＲＧＢおよびＮＩＲ照明検出器とを含み、複数の併置されたＲＧＢおよびＮＩＲ照明源は、ＲＧＢおよびＮＩＲ照明検出器を取り囲む幾何学的パターンで配置される。いくつかの実現例では、複数のＲＧＢ源および複数のＮＩＲ照明源は、ＲＧＢおよびＮＩＲ照明検出器を囲む矩形の角に配置される。いくつかの実現例では、複数の照明条件の各々は、複数のＲＧＢ照明源のうちの１つと、照明を生成する、複数のＮＩＲ照明源のうちの１つと、複数のＲＧＢ照明源のうちの他のすべてと、照明を生成しない、複数のＮＩＲ照明源のうちの他のすべてとを含む。いくつかの実現例では、ＲＧＢおよびＮＩＲ照明検出器は、第１のＮＩＲカメラと、第２のＮＩＲカメラと、ＲＧＢカメラとを含み、第１のＮＩＲカメラおよびＲＧＢカメラは、指定された位置ずれ閾値未満の量だけ位置ずれしている。いくつかの実現例では、画像キャプチャ構成はさらに、ドットスペックルパターンを対象上に投影するよう構成されるＮＩＲドットプロジェクタを含み、ドットスペックルパターンは、複数のＮＩＲ照明源のうちのあるＮＩＲ照明源によって照射される照明と、時間的にインターリーブされる。

いくつかの実現例では、予測エンジンは、第１の分岐および第２の分岐を含み、第１の分岐は、表面法線マップを生成するよう構成され、第２の分岐は、予測される反射率マップを出力するよう構成される。いくつかの実現例では、予測エンジンは、スキップレベル接続を伴うｕｎｅｔエンコーダ－デコーダアーキテクチャを有するニューラルネットワークを含み、ｕｎｅｔエンコーダ－デコーダアーキテクチャはエンコーダおよびデコーダを含み、エンコーダはブロックのセットを含み、ブロックのセットの各々は畳み込み層のセットおよびＲｅＬＵ活性化層のセットを含み、デコーダは、第１の分岐において、表面法線マップを、および第２の分岐において、予測される反射率マップを、出力するよう構成される。いくつかの実現例では、予測エンジンを生成することは、複数の照明条件のうちのある照明条件下での推定される表面法線マップおよび推定される反射率マップからのレンダリングに基づいて測光損失を生成することを含む。いくつかの実現例では、推定される反射率マップは、拡散成分および鏡面成分を含み、測光損失を生成することは、ランバート反射モデルを使用して、推定される反射率マップの拡散成分を生成することと、ブリン・フォンの双方向反射率分布関数（ＢＲＤＦ）を使用して、推定される反射率マップの鏡面成分を生成することとを含む。いくつかの実現例では、測光損失を生成することは、ステレオ深度マップと、複数のＲＧＢ画像のうちのあるＲＧＢ画像を生成する際に使用される光源の位置とに基づいて、バイナリシャドウマップを生成することと、推定される反射率マップに基づいて、観測される強度マップを生成することと、測光損失として、バイナリシャドウマップと、観測される強度マップとＲＢＧ画像との差とのアダマール積を生成することとを含む。いくつかの実現例では、改善された技術は、さらに、ステレオ深度マップを取得することと、ステレオ深度マップに対して平滑化演算を実行して、平滑化されたステレオ深度マップを生成することと、推定される表面法線マップおよび平滑化されたステレオ深度マップの勾配に基づいてステレオ損失を生成することとを含む。いくつかの実現例では、ステレオ損失を生成することは、Ｌ１ベクトル損失として、推定される表面法線マップと平滑化されたステレオ深度マップの勾配との間の差のＬ１ノルムを生成することと、角度損失として、推定される表面法線マップと平滑化されたステレオ深度マップの勾配との内積を生成することと、ステレオ損失として、Ｌ１ベクトル損失と角度損失との差を生成することとを含む。

開示される実現例の技術的利点は、改善された技術の適用が、従来の手法とは異なり、画像再照明において使用されるアルベドマップおよび表面法線マップを決定するのに扱いやすい問題をもたらすことである。そのようなマップを生成する問題を扱いやすい問題に低減することは、画像が不良照明条件下で撮影されるときに、上述の画像再照明問題に対するロバストな解決策を提供する。

さらに、このロバストな解決策は、従来の可視スペクトル照明に加えてＮＩＲ照明を使用する新規な予測エンジンのため、利用可能なグラウンドトルースがないときに、提供される。多くのモバイルデバイスは、可視スペクトル照明およびＮＩＲ照明の両方を使用して写真を撮る能力を有し、これらは同じ向きから撮られることに留意されたい。加えて、そのような可視スペクトル照明された画像およびＮＩＲ照明された画像は、本質的に同時に取得されてもよい。

図１は、上述の技術的解決策が実現されてもよい例示的な電子環境１００を示す図である。コンピュータ１２０は、画像データから表面法線および反射率を推定するよう構成される予測エンジンをトレーニングならびに動作させるように構成される。

コンピュータ１２０は、ネットワークインターフェース１２２、１つ以上の処理ユニット１２４、およびメモリ１２６を含む。ネットワークインターフェース１２２は、例えば、ネットワークから受信した電子および／または光信号をコンピュータ１２０による使用のための電子形式に変換するためのイーサネット（登録商標）アダプタ、トークンリングアダプタなどを含む。処理ユニットのセット１２４は、１つ以上の処理チップおよび／またはアセンブリを含む。メモリ１２６は、揮発性メモリ（例えば、ＲＡＭ）と、１つ以上のＲＯＭ、ディスクドライブ、ソリッドステートドライブ等の不揮発性メモリとの両方を含む。処理ユニット１２４のセットおよびメモリ１２６は共に、ここで説明されるような様々な方法および機能を実行するように構成ならびに配置される制御回路を形成する。

いくつかの実現例では、コンピュータ１２０の構成要素のうちの１つ以上は、メモリ１２６に記憶される命令を処理するよう構成されるプロセッサ（たとえば、処理ユニット１２４）であり得るか、またはそれを含み得る。図１に示されるようなそのような命令の例は、画像取得マネージャ１３０、セマンティックセグメンテーションマネージャ１４０、および予測エンジンマネージャ１５０を含む。さらに、図１に示されるように、メモリ１２６は、様々なデータを記憶するよう構成され、それは、そのようなデータを使用するそれぞれのマネージャに関して記述される。

画像取得マネージャ１３０は、画像トレーニングデータ１３１を受信するよう構成される。いくつかの実現例では、画像取得マネージャ１３０は、ネットワークインターフェース１２２を介して、すなわち、ディスプレイデバイス１７０からネットワーク（ネットワーク１９０など）を介して画像トレーニングデータ１３１を受信する。いくつかの実現例では、画像取得マネージャ１３０は、ローカルストレージ（例えば、ディスクドライブ、フラッシュドライブ、ＳＳＤなど）から画像トレーニングデータ１３１を受信する。

いくつかの実現例では、画像取得マネージャ１３０はさらに、画像トレーニングデータ１３１から顔画像をクロッピングおよびサイズ変更して、ポートレートを標準サイズで生成するよう構成される。各対象の顔がほぼ同じ位置にあるように画像を標準サイズにクロッピングし、サイズ変更することによって、予測画像のトレーニングがよりロバストになる。

画像トレーニングデータ１３１は、照明条件の異なる顔画像のセットを同じ姿勢で表したものである。異なる照明条件は、光の種類（例えば、可視スペクトル／ＲＧＢおよびＮＩＲ）ならびに対象に対する光の位置を含む。そのような条件下での画像の例示的な取得は、図３に関してより詳細に論じられる。いくつかの実現例では、ＲＧＢ色チャネルは、他の色チャネル、たとえば、ＹＵＶ、Ｙ’ＵＶ、ＹＣｂＣｒ、Ｙ’ＩＱによって置き換えられてもよい。

図１に示すように、画像トレーニングデータ１３１は、複数のＲＧＢ画像１３２（１）、．．．、１３２（Ｍ）を含み、Ｍは、画像トレーニングデータ１３１におけるＲＧＢ画像の数である。各ＲＧＢ画像、例えば、画像１３２（１）は、ピクセル当たりの強度および／または色を示すピクセルデータ１３３（１）を含む。

図１にも示すように、画像トレーニングデータ１３１は、複数のＮＩＲ画像１３４（１）．．．１３４（Ｎ）を含み、Ｍは、画像トレーニングデータ１３１におけるＮＩＲ画像の数である。各ＮＩＲ画像、例えば画像１３４（１）は、ピクセル当たりの強度を示すピクセルデータ１３５（１）を含む。いくつかの実現例では、Ｎ＝Ｍである。

いくつかの実現例では、画像トレーニングデータ１３１は、ＮＩＲリング光画像１３６を含む。いくつかの実現例では、ＮＩＲリング光画像１３６は、ＮＩＲ検出器（たとえば、カメラ）を取り囲むＮＩＲリング光源を使用して撮影される。この撮影された画像は、画像１３１（１．．Ｍ）で使用されたのと同じ姿勢である。いくつかの実現例では、ＮＩＲリング光画像１３６は、ＮＩＲ検出器を囲んでいないが、どちらかといえばＮＩＲ検出器に近接している、すなわち、側方に離れているＮＩＲ光源を使用して撮影される。そのような実現例では、ＮＩＲリング光は、リング以外の形状、すなわち、小さい円盤形、正方形などを有してもよい。

いくつかの実現例では、画像トレーニングデータ１３１は、光源から人の表面までの距離のセットとして人の画像を表す光源深度マップ１３８を含む。そのような深度画像１３８は、ＲＢＧ画像１３１（１．．Ｍ）および／またはＮＩＲ画像１３３（Ｉ．．Ｎ）と本質的に同時に、かつ同じ姿勢で撮影されてもよい。いくつかの実現例では、光源深度マップ１３８は、ＲＧＢ画像が取得されるときにステレオドットプロジェクタを使用して取得されるステレオ深度マップであり、さらなる詳細は、図３で論じられる。

セマンティックセグメンテーションマネージャ１４０は、ＲＧＢ画像１３２（１．．Ｍ）のうちの少なくとも１つに対してセマンティックセグメンテーション演算を実行して、セマンティックセグメンテーションデータ１４２を生成するよう構成される。いくつかの実現例では、セマティックセグメンテーション演算は、畳み込み隠れ層および出力セグメンテーション層を伴うニューラルネットワークを使用することを伴う。いくつかの実現例では、セマティックセグメンテーション演算は、入力の空間分解能がダウンサンプリングされるエンコーダ／デコーダ構造を使用し、クラス間の区別において非常に効率的であるよう学習される低分解能特徴マッピングを開発することを含み、次いで、特徴表現は、全分解能セグメンテーションマップにアップサンプリングされてもよい。

セマンティックセグメンテーションデータ１４２は、指定された数のクラスへの画像のセマンティックセグメンテーション、すなわちセグメンテーションマップ１４４を表す。そのようなセグメンテーションマップ１４４は、エンジンが画像形状および反射率を決定するのを助けるための、予測エンジンへの補助入力として使用されてもよい。いくつかの実現例では、セグメンテーションは６クラスセグメンテーションであり、すなわち、各セグメンテーションマップ中に６クラスのピクセルがある。

予測エンジントレーニングマネージャ１５０は、予測エンジンが予測エンジンデータ１５３を生成するよう構成されることを表し、予測エンジンデータ１５３は、予測エンジンマネージャ１５０によって生成されたデータが、可視スペクトルおよびＮＩＲ照明で照明される画像の表面法線マップおよび反射率マップを生成することを表す。いくつかの実現例では、予測エンジンマネージャ１５０は、画像トレーニングデータ１３１に対してトレーニング演算を実行するとともに、可視スペクトル／ＲＧＢ画像およびＮＩＲ画像から表面法線マップおよび反射率マップを生成することに関連する量の損失を最小限に抑えるように調整された損失関数を実施するよう構成される。図１に示すように、予測エンジンマネージャは、エンコーダ１５１およびデコーダ１５２を含む。

いくつかの実現例では、予測エンジンは、スキップレベル接続を伴うｕｎｅｔエンコーダ－デコーダアーキテクチャを有するニューラルネットワークを含み、ｕｎｅｔエンコーダ－デコーダアーキテクチャは、エンコーダ１５１およびデコーダ１５２を含む。そのような実現例では、エンコーダ１５１はブロックのセットを含み、ブロックのセットの各々は畳み込み層のセットおよびＲｅＬＵ活性化層のセットを含む。

エンコーダ１５１は、画像トレーニングデータ１３１を入力として取り込み、デコーダ１５２に入力される全結合層のパラメトリック値を生成するよう構成される。デコーダ１５２は、エンコーダ１５１によって生成されたパラメトリック値を入力として受け取り、予測エンジンデータ１５３を生成するよう構成される。たとえば、エンコーダ１５１は、ＲＧＢ画像１３２（１．．Ｍ）、ＮＩＲ画像１３４（１．．Ｎ）、セマティックセグメンテーションデータ１４２、および光源深度マップ１３８を取り込み、推定される表面法線（たとえば、推定される法線データ１５６）を生成するためにデコーダ１５２によって使用される中間量を生成する。この場合のコスト関数は、例えば、推定される法線データ１５６と、例えば、同じ対象のステレオ画像を使用して、別の方法で得られる同じ対象および姿勢の表面法線との間の差を反映する。ステレオ撮像に関するさらなる詳細は、図３に関して説明される。

予測エンジンマネージャ１５０によって表される予測エンジンは、ＲＧＢ画像およびＮＩＲ画像から対象の推定される表面法線だけでなく、それらの画像から対象の推定される反射率マップも生成するよう構成されている。表面法線および反射率マップの両方のこの推定を行うために、デコーダ１５２は、表面法線マップをジオメトリ分岐において、および反射率マップを反射率分岐において、出力するよう構成される。

予測エンジンデータ１５３は、可視スペクトルおよびＮＩＲ照明で照明された画像の表面法線マップおよび反射率マップを生成するよう予測エンジンマネージャ１５０によって生成されるデータを表す。図１に示すように、予測エンジンデータ１５３は、ジオメトリ分岐データ１５４と、反射率分岐データ１５５と、レンダリングデータ１６１とを含む。

ジオメトリ分岐データ１５４は、ＲＧＢ画像およびＮＩＲ画像において対象の表面法線を推定することに関連するデータを含む。デコーダ１５２は、表面法線を表す推定される法線データ１５６を、ベクトルマップ、すなわち対象として分類される各ピクセルにおける３次元ベクトルとして、対象の表面に関連付けられるピクセル上に出力するよう構成される。

しかしながら、予測エンジンのトレーニングにおいて、推定される法線データ１５６は、予測エンジントレーニングの１つの構成要素にすぎない。トレーニングを行うためには、損失関数が必要である。この場合、損失関数は、推定される法線データ１５６と参照データとの両方を用いて定義される。図１に示すように、参照データは、ステレオ法線データ１５７を含み、いくつかの実現例では、ステレオ法線データ１５７は、光源深度マップ１３８を含むかまたは光源深度マップ１３８である。予測エンジンマネージャ１５０は、推定される法線データ１５６およびステレオ法線データ１５７に基づいてステレオ損失データ１５８を生成するよう構成される。

反射率分岐データ１５５は、人物の画像の表面から反射率成分データを推定することに関するデータを含む。例えば、反射率は、アルベド成分および鏡面反射率成分を含み得る。アルベドは、拡散反射率、すなわち、表面によって受け取られる放射束密度に対する、表面によって放出される拡散放射束の比として定義され；これは、表面によって反射される鏡面放射束とは対照的である。したがって、図１に示すように、反射率分岐データ１５５は、推定されるアルベドデータ１５９と推定される鏡面反射率データ１６０とを含む。

予測エンジンは、反射率分岐データ１５５を使用して、予測エンジンをトレーニングするための損失の別の成分、すなわち測光損失を推定する。予測エンジンによる測光損失の推定は、推定されるアルベドデータ１５９および推定される鏡面反射率データ１６０によって表される反射率成分マップにレンダリングモデルを適用して、画像の拡散および鏡面画像層を生成することによって行われ、それは、加算されると、対象の、推定される画像をもたらす。測光損失は、推定される画像と入力される画像１３２（１．．Ｍ）または１３４（１．．Ｎ）の１つとの差として定義される。測光損失およびステレオ損失を最適化することによって、予測エンジンは、既知の点照明下で撮影されたシーンの画像にその出力を接続する画像形成モデルとして機能する。

したがって、レンダリングデータ１６１は、デコーダ１５２の出力を既知の照明条件下で撮影された画像に接続する放射測定反射率モデルを表す照明モデルデータ１６２を含む。例えば、特定の単位長光ベクトルｌ、視野ベクトルｖ、表面法線ｎ、４チャネル（ＲＧＢＮＩＲ）アルベドα、スカラー鏡面強度ρ、および鏡面指数ｍに対する入射光に対する反射光の比を以下のように与える反射率関数ｆが導入される：

点光によるピクセルでの観測される強度は、以下により与えられ、

ここで、Ｌは光強度である。反射強度は、式（１）中のパラメータのすべてを推定するのに各ピクセルにおいて充分な一意の光方向から観測されない。いくつかの実現例では、この問題に対処するために、鏡面指数は、人間の皮膚の以前の測定および我々自身の観測に基づいて、ｍ＝３０であるように指定され、ｎ、α、およびρのみを推定する。幾何学的量ｌおよびｖ、ならびに光強度Ｌは、較正手順によって決定される。

予測エンジンのトレーニングを監督するためにグラウンドトゥルース法線または反射率データに依存するのではなく、上述のステレオ損失データ１５８および測光損失データ１６５が組み合わされる。

ステレオ損失データ１５８によって表されるステレオ損失は、Ｌ１ベクトル損失と角度損失とを以下のように結合する：

測光損失データ１６５によって表される測光損失は、式（２）に従ってレンダリングされたＲＧＢ画像１３２（１．．Ｍ）および／またはＮＩＲ画像１３４（１．．Ｎ）の各々と、対応する照明条件に対する予測エンジンの出力との間で、以下のように計算される：

区分的定数変化を促進する事前分布をアルベドマップに適用してもよく、

この事前分布は、セマンティックセグメンテーションマップ１４４において衣服、身体、または腕として分類されるピクセルに適用されてもよい。

総損失関数は、上記の損失項の加重和であり、

ユーザデバイス１２０の構成要素（たとえば、モジュール、処理ユニット１２４）は、１つ以上のタイプのハードウェア、ソフトウェア、ファームウェア、オペレーティングシステム、ランタイムライブラリなどを含み得る１つ以上のプラットフォーム（例えば、１つ以上の類似または異なるプラットフォーム）に基づいて動作するよう構成され得る。いくつかの実現例では、コンピュータ１２０の構成要素は、デバイスのクラスタ（たとえば、サーバファーム）内で動作するよう構成され得る。そのような実現例では、コンピュータ１２０の構成要素の機能および処理は、デバイスのクラスタのいくつかのデバイスに分散され得る。

コンピュータ１２０の構成要素は、属性を処理するよう構成される任意のタイプのハードウェアおよび／またはソフトウェアであり得るか、またはそれらを含み得る。いくつかの実現例では、図１のコンピュータ１２０の構成要素に示される構成要素の１つ以上の部分は、ハードウェアベースのモジュール（例えば、デジタル信号プロセッサ（ＤＳＰ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、メモリ）、ファームウェアモジュール、および／もしくはソフトウェアベースのモジュール（例えば、コンピュータコードのモジュール、コンピュータで実行することができるコンピュータ可読命令のセット）であり得るか、またはそれらを含み得る。たとえば、いくつかの実現例では、コンピュータ１２０の構成要素の１つ以上の部分は、少なくとも１つのプロセッサ（図示せず）による実行のために構成されたソフトウェアモジュールであり得るか、またはそれを含み得る。いくつかの実現例では、構成要素の機能は、２つの構成要素として示される機能を単一の構成要素に組み合わせることを含む、図１に示すものとは異なるモジュールおよび／または異なる構成要素に含まれ得る。

図示されていないが、いくつかの実現例では、コンピュータ１２０の構成要素（またはその部分）は、たとえば、データセンタ（たとえば、クラウドコンピューティング環境）、コンピュータシステム、１つ以上のサーバ／ホストデバイスなど内で動作するよう構成され得る。いくつかの実現例では、コンピュータ１２０の構成要素（またはその部分）は、ネットワーク内で動作するよう構成され得る。したがって、コンピュータ１２０の構成要素（またはその部分）は、１つ以上のデバイスおよび／または１つ以上のサーバデバイスを含み得る、種々のタイプのネットワーク環境内で機能するように構成され得る。たとえば、ネットワークは、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）などであり得るか、またはそれらを含み得る。ネットワークは、たとえば、ゲートウェイデバイス、ブリッジ、スイッチなどを使用して実現されるワイヤレスネットワークおよび／またはワイヤレスネットワークであり得るか、またはそれを含み得る。ネットワークは、1つ以上のセグメントを含むことができ、ならびに/またはインターネットプロトコル(IP)および/もしくはプロプライエタリプロトコルなどの様々なプロトコルに基づく部分を有することができる。ネットワークは、インターネットの少なくとも一部を含み得る。

いくつかの実現例では、コンピュータ１２０の構成要素のうちの１つ以上は、メモリに記憶された命令を処理するよう構成されるプロセッサであり得るか、またはそれを含み得る。たとえば、画像取得マネージャ１３０（および／またはその一部）ならびに予測画像トレーニングマネージャ１４０（および／またはその一部）は、１つ以上の機能を実現するためのプロセスに関連する命令を実行するよう構成されるプロセッサとメモリとの組合せであり得る。

いくつかの実現例では、メモリ１２６は、ランダムアクセスメモリ、ディスクドライブメモリ、フラッシュメモリなどの任意のタイプのメモリであり得る。いくつかの実現例では、メモリ１２６は、ＶＲサーバコンピュータ１２０の構成要素に関連付けられる複数のメモリ構成要素（例えば、複数のＲＡＭコンポーネントまたはディスクドライブメモリ）として実現され得る。いくつかの実現例では、メモリ１２６はデータベースメモリであり得る。いくつかの実現例では、メモリ１２６は、非ローカルメモリであり得るか、または非ローカルメモリを含み得る。たとえば、メモリ１２６は、複数のデバイス（図示せず）によって共有されるメモリであり得るか、またはそれを含み得る。いくつかの実現例では、メモリ１２６は、ネットワーク内のサーバデバイス（図示せず）に関連付けられ、コンピュータ１２０の構成要素に応対するよう構成され得る。図１に示すように、メモリ１２６は、画像トレーニングデータ１３１、セマンティックセグメンテーションデータ１３６、および予測エンジンデータ１５３を含む様々なデータを記憶するよう構成される。

図２は、画像において表面法線および反射率を推定するよう構成される例示的な予測エンジン２００を示す図である。図２に示すように、予測エンジン２００は、エンコーダ２２０と、デコーダ２２２と、ジオメトリ分岐２３０と、反射率分岐２３２と、レンダラ２６０とを含む。図２に示される予測エンジン２００は、スキップ接続を有する標準ＵＮｅｔである。

エンコーダ２２０は、単一のＲＢＧ画像２１０（ａ）および単一のＮＩＲ画像２１０（ｂ）、ならびに図１に関して説明したようにセマンティックセグメンテーションマップ１４４から生成されるラベル画像２１０（ｃ）を入力として受け入れる。いくつかの実現例では、ＲＧＢ画像２１０（ａ）およびＮＩＲ画像２１０（ｂ）は、本質的に同時に撮影される。例えば、携帯電話カメラは、同時にユーザによって起動される可視スペクトル照明源（すなわち、カメラフラッシュ）およびＮＩＲ源（携帯電話上の異なるフラッシュ）の両方を有してもよい。したがって、画像／マップ２１０（ａ，ｂ，ｃ）は、同じ姿勢のユーザを表す。

エンコーダ２２０およびデコーダ２２２は各々５つのブロックからなり、各ブロックは３つの畳み込み層を有する。ボトルネックは２５６個のチャネルを有する。図２に示すように、デコーダ２２２の出力は、２つの分岐、すなわちジオメトリ分岐２３０および反射率分岐２３２に供給される。

ジオメトリ分岐２３０および反射率分岐２３２の両方は、３２個のチャネルおよび１つの最終出力層を伴う３つの畳み込み層を有する。

トレーニング中、予測エンジン２００は、ステレオ損失を生成するために、予測される法線２４０および観測される法線２４２を使用する。観測される法線２４２は、画像２１０（ａ、ｂ、ｃ）とともに入力され、トレーニングデータとともに取得されるステレオ深度マップから取得されてもよい。

トレーニング中、予測エンジン２００は、拡散層２７０、鏡面層２７２、シャドウマップ２８０（すなわち、式（４）中のＳ_ｊ）、およびトレーニングの一部として予測エンジン２００に入力される一回一光（one-light-at-a-time）（ＯＬＡＴ）画像２８４を使用して、測光損失を生成する。予測エンジン２００は、ＯＬＡＴ２８４を生成する際に使用される光の位置２５０と、レンダラ２６０における拡散および鏡面光レンダリングモデル（例えば式（１））とに基づいて、層２７０および２７２を生成する。予測エンジン２００は、光位置２５０およびレンダラ２６０を、予測される法線２４０、拡散アルベドマップ２４２、および鏡面強度マップ２４４に適用して、拡散層２７０および鏡面層２７２を生成する。拡散層２７０と鏡面層２７２との和は、レンダリングされた画像２８２を生成し、これは、ＯＬＡＴ２８４およびシャドウマップ２８０とともに、測光損失を生成する。

図３は、予測エンジンをトレーニングするためにＲＧＢ画像およびＮＩＲ画像を生成するための例示的なシステム３００を示す図である。システム３００は、複数のＮＩＲ照明源３１０（１，２，３，４）と、複数のＲＧＢ源３２０（１，２，３，４）と、画像キャプチャ構成３３０とを含む。

図３に示すように、複数のＮＩＲ照明源３１０（１，２，３，４）および複数のＲＧＢ源３２０（１，２，３，４）は、画像キャプチャ構成３３０が中心にある矩形の角に配置される。いくつかの構成では、ＮＩＲ照明源の数は、ＲＧＢ源の数とは異なる。いくつかの実現例では、ＮＩＲ照明源およびＲＧＢ源は、異なる幾何学的パターンで、例えば、多角形の頂点で、円または楕円で、線に沿ってなど、で配列される。

画像キャプチャ構成３３０は、図３に示すように、ＮＩＲ検出器（例えば、カメラ）の対３３２（１，２）と、ＮＩＲ検出器３３２（１）を取り囲むＮＩＲリング光３３６と、ＲＧＢ検出器３３４とを含む。いくつかの実現例では、ＮＩＲリング光３３６は、ＮＩＲ検出器３３２（１）の近傍の別の位置に配置されてもよい。いくつかの実現例では、ＮＩＲリング光３３６は、異なる形状、たとえば円板状のＮＩＲ照明源と置換されてもよい。いくつかの実現例では、画像キャプチャ構成３３０はまた、一連のドットを対象上に投影してステレオ法線を生成するよう構成される、ＮＩＲステレオドットプロジェクタの対を含む。

理想的には、ＲＧＢ画像およびＮＩＲ画像は、対象のトレーニング画像がすべて同じ姿勢を有するように、同時に同じ視点から撮影される。それにもかかわらず、光源は、ともに正確にタイミングを合わせられないか、または併置されない場合があるため、画像が撮られる時間およびそれらの視点にわずかな差異が存在し得る。時間差は、いくつかの実現例では、時間閾値よりも小さい。いくつかの実現例では、時間閾値は、ビデオ中の単一のフレームに対応する（例えば、６０ｆｐｓでは１／６０秒、２４ｆｐｓでは１／２４秒）。

例として、ＲＧＢ検出器３３４は、１５０ｆｐｓで動作する２．８ＭＰＮＩＲカメラのステレオ対とともに６６．６７ｆｐｓで動作する７．０ＭＰＲＧＢカメラであってもよい。ＲＧＢカメラおよびＮＩＲカメラの１つは、プレートビームスプリッタおよび光トラップを使用して併置される。この例のＲＧＢカメラおよびＮＩＲカメラは、線形測光応答を有し、画像のすべては、各次元において２倍ダウンサンプリングされてもよく；９６０×７６８の分解能で顔をカバーする中央クロップがとられてもよい。可視スペクトル（ＲＧＢ）照明は、対象から約１．１ｍに位置するカメラを取り囲む約１．５ｍ×０．８ｍ（幅×高さ）の矩形の角に配置された４つの広角ＬＥＤスポットライトによって提供されてもよい。ＮＩＲ照明は、可視光の各々に１つずつ隣接する５つのＮＩＲスポットライトと、「ダークフラッシュ」入力を生成するよう基準ＮＩＲカメラの近くに位置するフラッシュＬＥＤライトとによって提供されてもよい。これらのＮＩＲ光源は、ステレオマッチングを支援するためにＮＩＲドットスペックルパターンを放出するプロジェクタと時間的にインターリーブされる。いつでも１つの可視光源および１つのＮＩＲ光源のみがアクティブであることを確実にするよう、マイクロコントローラがライトおよびカメラをトリガすることを調整してもよい。すべての光源は、位置および強度について較正され、幾何学的に点光源として扱われてもよい。式（２）中の光強度項Ｌはこれらの較正された色を考慮する。ＮＩＲ光源および可視光光源は併置されず、したがって、わずかに異なるＬの値が式（２）においてそれら２つの条件の間使用されることに留意されたい。

図４Ａ、図４Ｂ、および図４Ｃは、それぞれ曲線のプロット４００，４３０，および４６０であり、これらは、単一のＲＧＢ画像のみを取得するよう修正された予測エンジンのベースラインに対する、平均角度誤差（すなわち、式（３）中の

に対する、ＲＧＢ画像に加えてＮＩＲ画像を使用することの例示的な効果を示す。露光過度レベル（４００）、色温度差（４３０）、およびノイズレベル（４６０）に対する曲線はすべて、ＲＧＢのみを使用すると次第に大きい誤差を示すが、ＲＧＢおよびＮＩＲは、露光レベル、色温度差、およびノイズレベルが増加するにつれて顕著な安定性を示す。

図５は、上述の改善された技術に従って表面法線および反射率推定を介して再照明を生成する例示的な方法５００を示すフローチャートである。方法５００は、コンピュータ１２０のメモリ１２６内に常駐し、処理ユニット１２４のセットによって実行される、図１に関連して説明されるソフトウェア構成によって実行されてもよい。

５０２において、画像取得マネージャ１３０は、複数のカラー（ＲＧＢ）画像（例えば、画像１３２（１．．Ｍ））および複数の近赤外線（ＮＩＲ）画像（例えば、画像１３４（１．．Ｎ））を表す画像トレーニングデータ（例えば、画像トレーニングデータ１３１）を受信し、複数のＲＧＢ画像の各々は、可視スペクトル照明源（例えば、ＲＧＢ源３３４）を用いてキャプチャされ、複数のＮＩＲ画像の各々は、ＮＩＲ照明源（例えば、ＮＩＲ照明源３３２（１，２））を用いてキャプチャされ、複数のＲＧＢ画像および複数のＮＩＲ画像は、それぞれ、複数のＲＧＢ画像のサブセットおよび複数のＮＩＲ画像のサブセットを含み、複数のＲＢＧ画像の各サブセットおよび複数のＮＩＲ画像の各サブセットは、複数の照明条件を通した姿勢における対象のセットのそれぞれの対象の画像を含む。

５０４において、予測エンジンマネージャ１５０は、画像トレーニングデータに基づいて予測エンジン（例えば、予測エンジンデータ１５３）を生成し、予測エンジンは、ユーザの単一のＲＧＢ画像およびユーザの単一のＮＩＲ画像から、ユーザの推定される表面法線マップ（例えば、推定される法線データ１５６）およびユーザの推定される反射率マップ（例えば、推定されるアルベドデータ１５９および／または鏡面反射率データ１６０）を生成するよう構成され、ユーザの単一のＲＧＢ画像およびユーザの単一のＮＩＲ画像は、閾値時間期間未満の時間期間内に、閾値視点未満だけ異なる視点からキャプチャされる。

いくつかの実現例では、閾値時間期間は、１００ミリ秒未満、１０ミリ秒未満、１ミリ秒未満、またはそれより短い時間期間である。いくつかの実現例では、閾値視点は、ユーザの任意の軸の周囲で１０度未満、５度未満、２度未満、１度未満、０．５度未満、またはそれより小さい回転である。

いくつかの実現例では、上記の予測エンジンはステレオ精緻化（refinement）適用例に適用されてもよい。ステレオ法は、粗い幾何学的形状を測定するのに優れているが、微細スケールの表面詳細を回復するのに苦労することが多い。これは、典型的には測光手法を用いて推定される正確な高分解能法線に従ってステレオ深度を精緻化することによって克服することができる。ＮＩＲ時空間ステレオアルゴリズムによって生成される深度測定値を精緻化するための本発明者らの方法によって生成される法線は、ステレオ深度を平滑化するための標準バイラテラルフィルタを使用することと比較されてもよい。ここに記載される改善された技術によって生成される法線は、はるかに高品質の再構成、最も顕著には口、鼻、および眼の周りの再構成、ならびに皮膚における小じわおよびしわのより良好な回復をもたらす。

いくつかの実現例では、上記で説明した予測エンジンは、たとえば、顔の陰影部分を明るくするために仮想フィルライトを追加することによって、ポートレートにおける照明を改善するための照明調整に適用されてもよい。本発明者らの方法によって推定される法線マップおよび反射率マップを使用して、陰影領域の視野内に位置する仮想点光の寄与をレンダリングしてもよく、これらのマップは、元のＲＧＢ画像と組み合わせられてもよい。予測エンジンによって提供されるモデルは、信頼できる効果を可能にし、鼻唇のひだおよび鼻の先端に沿って現実的な鏡面ハイライトをもたらしさえする。

図６は、本明細書で説明される技術とともに使用されてもよい、汎用コンピュータデバイス６００および汎用モバイルコンピュータデバイス６５０の例を示す。コンピュータデバイス６００は、図１および図２のコンピュータ１２０の構成の一例である。

図６に示すように、コンピューティングデバイス６００は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータなど、様々な形態のデジタルコンピュータを表すことが意図されている。コンピューティングデバイス６５０は、携帯情報端末、セルラー電話、スマートフォン、および他の同様のコンピューティングデバイスなど、様々な形態のモバイルデバイスを表すよう意図される。本明細書に示された構成要素、それらの接続および関係、ならびにそれらの機能は、例示的なものにすぎず、本文書に記載および／または特許請求される本発明の実現例を限定するものではない。

コンピューティングデバイス６００は、プロセッサ６０２と、メモリ６０４と、ストレージデバイス６０６と、メモリ６０４および高速拡張ポート６１０に接続する高速インターフェイス６０８と、低速バス６１４およびストレージデバイス６０６に接続する低速インターフェイス６１２とを含む。構成要素６０２，６０４，６０６，６０８，６１０，および６１２の各々は、様々なバスを使用して相互接続され、共通のマザーボード上に、または必要に応じて他の方法で実装されてもよい。プロセッサ６０２は、高速インターフェイス６０８に結合されたディスプレイ６１６などの外部入力／出力装置上にＧＵＩのためのグラフィカル情報を表示するために、メモリ６０４またはストレージデバイス６０６に記憶された命令を含む、コンピューティングデバイス６００内で実行するための命令を処理することができる。他の実現例では、複数のプロセッサおよび／または複数のバスが、必要に応じて、複数のメモリおよびメモリのタイプとともに用いられてもよい。また、複数のコンピューティングデバイス６００が接続されてもよく、各デバイスは、（たとえば、サーババンクとして、ブレードサーバのグループとして、またはマルチプロセッサシステムとして）必要な動作の部分を提供する。

メモリ６０４は、コンピューティングデバイス６００内に情報を記憶する。一実現例では、メモリ６０４は、１つ以上の揮発性メモリユニットである。別の実現例では、メモリ６０４は、１つ以上の不揮発性メモリユニットである。メモリ６０４はまた、磁気ディスクまたは光ディスクなどの別の形態のコンピュータ可読媒体であってもよい。

ストレージデバイス６０６は、コンピューティングデバイス６００のための大容量ストレージを提供することができる。一実現例では、ストレージデバイス６０６は、フロッピー（登録商標）ディスク装置、ハードディスク装置、光ディスク装置、もしくはテープ装置、フラッシュメモリもしくは他の類似の固体メモリ装置、もしくはストレージエリアネットワーク内もしくは他の構成における装置を含む装置のアレイなどの、コンピュータ可読媒体であるかまたはそれを含んでもよい。コンピュータプログラム製品は、情報担体において有形に具現化することができる。コンピュータプログラム製品はまた、実行されると、上記で説明したものなどの１つ以上の方法を実行する命令を含んでもよい。情報担体は、メモリ６０４、ストレージデバイス６０６、またはプロセッサ６０２上のメモリなどのコンピュータ可読媒体または機械可読媒体である。

高速コントローラ６０８は、コンピューティングデバイス５００のための帯域幅集約型動作を管理し、低速コントローラ６１２は、より低い帯域幅集約型動作を管理する。このような機能の割り当ては例示に過ぎない。一実現例では、高速コントローラ６０８は、（例えば、グラフィックスプロセッサまたはアクセラレータを介して）メモリ６０４、ディスプレイ６１６に、および様々な拡張カード（図示せず）を受け入れてもよい高速拡張ポート６１０に、結合される。この実現例では、低速コントローラ６１２は、ストレージデバイス５０６および低速拡張ポート６１４に結合される。低速拡張ポートは、様々な通信ポート（たとえば、ＵＳＢ、Bluetooth（登録商標）、イーサネット（登録商標）、無線イーサネット（登録商標））を含んでもよく、キーボード、ポインティングデバイス、スキャナ、またはスイッチもしくはルータなどのネットワーキングデバイスなどの１つ以上の入力／出力装置に、たとえばネットワークアダプタを介して結合されてもよい。

コンピューティングデバイス６００は、図に示されるように、いくつかの異なる形態で実現されてもよい。例えば、標準サーバ６２０として、またはそのようなサーバのグループにおいて複数回実現されてもよい。それはまた、ラックサーバシステム６２４の一部として実現されてもよい。加えて、それは、ラップトップコンピュータ６２２などのパーソナルコンピュータにおいて実現されてもよい。代替として、コンピューティングデバイス６００からの構成要素は、デバイス６５０等のモバイルデバイス（図示せず）内の他の構成要素と組み合わせられてもよい。そのようなデバイスの各々は、コンピューティングデバイス６００、６５０のうちの１つ以上を含んでもよく、システム全体が、互いに通信する複数のコンピューティングデバイス６００、６５０から構成されてもよい。

本明細書に記載のシステムおよび技術のさまざまな実現例は、デジタル電子回路、集積回路、特別に設計されたＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組合せで実現され得る。これらの様々な実現例は、ストレージシステム、少なくとも１つの入力装置、および少なくとも１つの出力装置からデータおよび命令を受信し、ストレージシステム、少なくとも１つの入力装置、および少なくとも１つの出力装置にデータおよび命令を送信するように結合された、専用であっても汎用であってもよい少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上で実行可能および／または解釈可能である１つ以上のコンピュータプログラムにおける実現例を含むことができる。

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとしても知られる）は、プログラマブルプロセッサのための機械命令を含み、高水準手続き型および／もしくはオブジェクト指向プログラミング言語で、ならびに／またはアセンブリ／機械言語で実現され得る。本明細書で使用されるとき、「機械可読媒体」「コンピュータ可読媒体」という用語は、機械命令を機械可読信号として受信する機械可読媒体を含む、機械命令および／もしくはデータをプログラマブルプロセッサに提供するよう使用される任意のコンピュータプログラム製品、装置ならびに／またはデバイス（例えば、磁気ディスク、光ディスク、メモリ、プログラマブル論理デバイス（ＰＬＤ））を指す。「機械可読信号」という用語は、機械命令および／またはデータをプログラマブルプロセッサに提供するために用いられる任意の信号を指す。

ユーザとの対話を提供するために、ここに記載されるシステムおよび技術は、（たとえばＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニタといった）ユーザに対して情報を表示するためのディスプレイデバイスと、（たとえばマウスまたはトラックボールといった）ユーザがコンピュータに入力を提供可能であるキーボードおよびポインティングデバイスとを有するコンピュータ上で実現され得る。他の種類のデバイスを用いて、ユーザとの対話を提供することもでき、たとえば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック（たとえば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であり得、ユーザからの入力は、音響入力、音声入力、または触覚入力を含む、任意の形態で受信することができる。

本明細書で説明されるシステムおよび技術は、（たとえばデータサーバとして）バックエンドコンポーネントを含む計算システムにおいて実現され得るか、（たとえばアプリケーションサーバといった）ミドルウェアコンポーネントを含む計算システムにおいて実現され得るか、（たとえば本明細書で説明されるシステムおよび技術の実現例とユーザが対話することが可能であるグラフィカルユーザーインターフェイスもしくはウェブブラウザを有するクライアントコンピュータといった）フロントエンドコンポーネントを含む計算システムにおいて実現され得るか、またはそのようなバックエンドコンポーネント、ミドルウェアコンポーネントもしくはフロントエンドコンポーネントの任意の組合せを含む計算システムにおいて実現され得る。システムのコンポーネントは、デジタルデータ通信の任意の形態または媒体（例えば、通信ネットワーク）によって相互接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（「ＬＡＮ」）、ワイドエリアネットワーク（「ＷＡＮ」）、およびインターネットを含む。

コンピューティングシステムは、クライアントおよびサーバを含むことができる。クライアントとサーバとは概して互いから遠隔にあり、典型的には通信ネットワークを通じて対話する。クライアントとサーバとの関係は、それぞれのコンピュータ上で実行されるとともに互いに対してクライアント－サーバ関係を有するコンピュータプログラムによって生ずる。

いくつかの実現例について説明した。それにもかかわらず、明細書の精神および範囲から逸脱することなく、様々な修正がなされ得ることが理解されるであろう。

ある要素が他の要素の上にある、他の要素に接続されている、他の要素に電気的に接続されている、他の要素に結合されている、または他の要素に電気的に結合されていると称される場合、それは他の要素の直接上にある、他の要素に直接接続される、もしくは他の要素に直接結合されてもよく、または１つ以上の介在要素が存在してもよいことも理解される。対照的に、ある要素が他の要素の直接上にある、他の要素に直接接続されている、または他の要素に直接結合されていると称される場合、介在する要素は存在しない。詳細な説明全体を通して、直接上にある、直接接続されている、または直接結合されているという表現は使用されない場合があるが、直接上にある、直接接続されている、または直接結合されていると図示されている要素は、そのように称され得る。本願の請求項は、明細書に記載されているかまたは図面に示されている例示的な関係を記載するよう補正される場合がある。

記載された実現例の特定の特徴が本明細書に記載されているように示されているが、当業者には多くの修正、置換、変更および均等物がここで思い浮かぶであろう。したがって、特許請求の範囲は、実現例の範囲内にあるすべてのそのような修正および変更を包含するように意図されていることを理解されたい。これらは、限定ではなく例としてのみ提示されており、形態および詳細の様々な変更が行われ得ることを理解されたい。本明細書で説明される装置および／または方法の任意の部分を、相互排他的組み合わせを除く任意の組み合わせで組み合わせてもよい。本明細書で説明される実現例は、説明される異なる実現例の機能、構成要素および／または特徴の様々な組合せおよび／または部分的組合せを含むことができる。

加えて、図面において示される論理フローは、望ましい結果を達成するために、示された特定の順序または連続する順序を必要としない。加えて、説明されたフローから、他のステップが与えられてもよく、またはステップが削除されてもよく、他の構成要素が、説明されたシステムに追加されてもよく、またはそこから削除されてもよい。したがって、他の実現例は特許請求の範囲内にある。

Claims

方法であって、
複数のカラー画像および複数の近赤外線（ＮＩＲ）画像を表す画像トレーニングデータを受信することを含み、前記複数のカラー画像の各々は可視スペクトル照明源でキャプチャされ、前記複数のＮＩＲ画像の各々はＮＩＲ照明源でキャプチャされ、前記方法はさらに、
前記画像トレーニングデータに基づいて予測エンジンを生成することを含み、前記予測エンジンは、ユーザのカラー画像および前記ユーザのＮＩＲ画像から、前記ユーザの推定される表面法線マップおよび前記ユーザの推定される反射率マップを生成するよう構成され、前記ユーザの前記カラー画像および前記ユーザの前記ＮＩＲ画像は、閾値時間期間未満の時間期間内に、閾値視点未満だけ異なる視点からキャプチャされる、方法。
前記複数のカラー画像および前記複数のＮＩＲ画像は、それぞれ、前記複数のカラー画像のサブセットおよび前記複数のＮＩＲ画像のサブセットを含み、前記複数のカラー画像の各サブセットおよび前記複数のＮＩＲ画像の各サブセットは、複数の照明条件を介する姿勢における対象のセットのそれぞれの対象の画像を含み、
前記方法はさらに、
前記予測エンジンを生成する前に、前記対象のセットの各々に対して、前記複数のカラー画像の対応するサブセットのカラー画像に対してセマンティックセグメンテーション演算を実行して、その対象に対するラベル画像を生成し、前記ラベル画像は、前記カラー画像の複数のピクセルの各々がカテゴリ化される指定された数のクラスを有し、当該対象の前記ラベル画像は、前記画像トレーニングデータに含まれる、請求項１に記載の方法。
前記複数のカラー画像の各サブセットおよび前記複数のＮＩＲ画像の各サブセットは、画像キャプチャ構成を使用してキャプチャされ、前記画像キャプチャ構成は、それぞれ、複数の色源、複数のＮＩＲ照明源、ならびに色検出器およびＮＩＲ照明検出器を含み、前記複数の色源および前記複数のＮＩＲ照明源は、前記色検出器および前記ＮＩＲ照明検出器を取り囲む幾何学的パターンで配置される、請求項２に記載の方法。
前記複数の色源および前記複数のＮＩＲ照明源は、前記色検出器および前記ＮＩＲ照明検出器を囲む矩形の角に配置される、請求項３に記載の方法。
前記複数の照明条件の各々は、前記複数の色照明源のうちの１つと、照明を生成する、前記複数のＮＩＲ照明源のうちの１つと、前記複数の色照明源のうちの他のすべてと、照明を生成しない、前記複数のＮＩＲ照明源のうちの他のすべてとを含む、請求項３に記載の方法。
前記色検出器および前記ＮＩＲ照明検出器は、第１のＮＩＲカメラと、第２のＮＩＲカメラと、色カメラとを含み、前記第１のＮＩＲカメラおよび前記色カメラは、指定された位置ずれ閾値未満の量だけ位置ずれしている、請求項３に記載の方法。
前記画像キャプチャ構成は、さらに、前記対象にドットスペックルパターンを投影するよう構成されるＮＩＲドットプロジェクタを含み、前記ドットスペックルパターンは、前記複数のＮＩＲ照明源のうちのあるＮＩＲ照明源によって照射される照明と、時間的にインターリーブされる、請求項３に記載の方法。
前記ユーザの前記カラー画像および前記ユーザの前記ＮＩＲ画像は、本質的に同時にキャプチャされる、請求項１に記載の方法。
前記予測エンジンは、第１の分岐および第２の分岐を含み、前記第１の分岐は、表面法線マップを生成するよう構成され、前記第２の分岐は、予測される反射率マップを出力するよう構成される、請求項１に記載の方法。
前記予測エンジンは、スキップレベル接続を伴うｕｎｅｔエンコーダ－デコーダアーキテクチャを有するニューラルネットワークを含み、前記ｕｎｅｔエンコーダ－デコーダアーキテクチャは、エンコーダおよびデコーダを含み、前記エンコーダは、ブロックのセットを含み、前記ブロックのセットの各々は、畳み込み層のセットおよびＲｅＬＵ活性化層のセットを含み、前記デコーダは、前記第１の分岐において、表面法線マップを、および前記第２の分岐において、予測される反射率マップを、出力するよう構成される、請求項９に記載の方法。
前記予測エンジンを生成することは、
ステレオ損失および測光損失を使用して前記予測エンジンに対するトレーニング演算を監督することを含む、請求項９に記載の方法。
前記予測エンジンを生成することは、さらに、
前記複数の照明条件のうちのある照明条件下での前記推定される表面法線マップおよび前記推定される反射率マップからのレンダリングに基づいて前記測光損失を生成することを含む、請求項１１に記載の方法。
前記推定される反射率マップは、拡散成分と鏡面成分とを含み、
前記測光損失を生成することは、
ランバート反射モデルを使用して、前記推定される反射率マップの拡散成分を生成することと、
ブリン・フォンの双方向反射率分布関数（ＢＲＤＦ）を使用して、前記推定される反射率マップの鏡面成分を生成することとを含む、請求項１２に記載の方法。
前記測光損失を生成することは、
ステレオ深度マップと、前記複数のカラー画像のうちのあるカラー画像を生成する際に使用される光源の位置とに基づいて、バイナリシャドウマップを生成することと、
前記推定される反射率マップに基づいて、観測される強度マップを生成することと、
前記測光損失として、前記バイナリシャドウマップと、前記観測される強度マップと前記カラー画像との差とのアダマール積を生成することとを含む、請求項１２に記載の方法。
ステレオ深度マップを取得することと、
前記ステレオ深度マップに対して平滑化演算を実行して、平滑化されたステレオ深度マップを生成することと、
前記推定される表面法線マップおよび前記平滑化されたステレオ深度マップの勾配に基づいてステレオ損失を生成することとをさらに含む、請求項１２に記載の方法。
前記ステレオ損失を生成することは、
Ｌ１ベクトル損失として、前記推定される表面法線マップと前記平滑化されたステレオ深度マップの前記勾配との間の差のＬ１ノルムを生成することと、
角度損失として、前記推定される表面法線マップと前記平滑化されたステレオ深度マップの前記勾配との内積を生成することと、
前記ステレオ損失として、前記Ｌ１ベクトル損失と前記角度損失との差を生成することとを含む、請求項１５に記載の方法。
前記予測エンジンを使用して、前記ユーザの前記カラー画像および前記ユーザの前記ＮＩＲ画像から、前記ユーザの前記推定される表面法線マップおよび前記ユーザの前記推定される反射率マップを生成することをさらに含む、請求項１に記載の方法。
前記ユーザの前記カラー画像は単一のカラー画像であり、前記ユーザの前記ＮＩＲ画像は単一のＮＩＲ画像である、請求項１８に記載の方法。
非一時的記憶媒体を備えるコンピュータプログラム製品であって、前記コンピュータプログラム製品は、処理回路によって実行されると、前記処理回路に方法を実行させるコードを含み、前記方法は、
複数のカラー画像および複数の近赤外線（ＮＩＲ）画像を表す画像トレーニングデータを受信することを含み、前記複数のカラー画像の各々は可視スペクトル照明源でキャプチャされ、前記複数のＮＩＲ画像の各々はＮＩＲ照明源でキャプチャされ、前記方法はさらに、
前記画像トレーニングデータに基づいて予測エンジンを生成することを含み、前記予測エンジンは、ユーザの単一のカラー画像および前記ユーザの単一のＮＩＲ画像から、前記ユーザの推定される表面法線マップおよび前記ユーザの推定される反射率マップを生成するよう構成され、前記ユーザの前記単一のカラー画像および前記ユーザの前記単一のＮＩＲ画像は、閾値時間期間未満の時間期間内に、閾値視点未満だけ異なる視点からキャプチャされる、コンピュータプログラム製品。
装置であって、
メモリと、
前記メモリに結合される制御回路とを備え、前記制御回路は、
複数のカラー画像および複数の近赤外線（ＮＩＲ）画像を表す画像トレーニングデータを受信するよう構成され、前記複数のカラー画像の各々は可視スペクトル照明源でキャプチャされ、前記複数のＮＩＲ画像の各々はＮＩＲ照明源でキャプチャされ、前記制御回路はさらに、
前記画像トレーニングデータに基づいて予測エンジンを生成するよう構成され、前記予測エンジンは、ユーザのカラー画像および前記ユーザのＮＩＲ画像から、前記ユーザの推定される表面法線マップおよび前記ユーザの推定される反射率マップを生成するよう構成され、前記ユーザの前記カラーＲＧＢ画像および前記ユーザの前記ＮＩＲ画像は、閾値時間期間未満の時間期間内に、閾値視点未満だけ異なる視点からキャプチャされる、装置。