JP7296138B2

JP7296138B2 - 深度イメージングを最適化するための方法およびシステム

Info

Publication number: JP7296138B2
Application number: JP2020561658A
Authority: JP
Inventors: ネオキルズクトゥラコス，キリアコス; パルサミルデーガン，セイエド; チェン，ウェンチェン
Original assignee: University of Toronto
Current assignee: University of Toronto
Priority date: 2018-05-03
Filing date: 2019-05-03
Publication date: 2023-06-22
Anticipated expiration: 2039-05-03
Also published as: CA3098526A1; WO2019210431A1; US20210241475A1; US20220230336A1; JP2021524908A; US11341665B2

Description

以下は一般に画像処理に関し、より詳細には、深度イメージングを最適化するための方法およびシステムに関する。

自然なユーザーインタフェースから自動運転車および３Ｄプリンタまで、世界を３次元（３Ｄ）で捕捉し、それをリアルタイムで、正確かつ確実に行うためのセンサーに対する必要性が高まり続けている。ＲＧＢ－Ｄカメラと呼ばれる、特定のタイプのカメラが３Ｄ画像の入力源を提供する。一般に、ＲＧＢ－Ｄカメラは、撮像されている物体を能動的に照射するために何らかの形の投影された構造化光パターンまたは複数のパターンに頼る。

高速で正確な構造化光イメージングがますます人気になっている。既に、高画素数の最新のスマートフォンおよびホームシアタープロジェクタは、論理上１００ミクロン以下の３Ｄ精度を可能にする。同様の進歩は、安価な連続波ＴｏＦセンサー、プログラマブルレーザー、および空間変調器がますます入手しやすくなるにつれて、飛行時間型（ＴｏＦ）イメージングの領域でも起こっている。残念ながら、これら全ての装置の普及にもかかわらず、所与の構造化光イメージングシステムにおいて最適な性能を達成することは依然として重要な課題である。

一態様では、深度イメージングを最適化するためのコンピュータ実装方法が提供され、本方法は、制御ベクトルの初期セットによって決定された照射パターンで１つ以上の場面を照射すること、場面が照射パターンの少なくとも１つで照射されている間に場面の各々の１つ以上の画像を捕捉すること、再構成パラメータを用いて捕捉された画像から場面を再構成すること、再構成誤差および再構成誤差の勾配を制御ベクトルおよび再構成パラメータに関して推定すること、再構成誤差が所定の誤差条件に到達するまで：再構成誤差を低減するために制御ベクトルのセットおよび再構成パラメータのセットの少なくとも１つを更新することにより制御ベクトルの現在のセットおよび再構成パラメータの現在のセットを決定すること、制御ベクトルの現在のセットによって決定された照射パターンで１つ以上の場面を照射すること、場面が照射パターンの少なくとも１つで照射されている間に場面の各々の１つ以上の画像を捕捉すること、現在の再構成パラメータを使用して１つ以上の捕捉された画像から場面を再構成すること、ならびに更新された再構成誤差および再構成誤差の更新された勾配を現在の制御ベクトルおよび現在の再構成パラメータに関して推定すること、を反復して実行すること、ならびに現在の制御ベクトルおよび現在の再構成パラメータの少なくとも１つを出力すること、を含む。

本方法の特定の事例では、再構成誤差を推定することは、深度誤差をグラウンドトゥルースに関してペナルティ化する関数を評価することを含み、再構成誤差を反復して低減することは確率的勾配降下法および導関数を使用しない最適化の少なくとも１つを実行することを含む。

別の事例では、初期制御ベクトルは、既存の制御ベクトル、ランダム制御ベクトル、または低コントラストのランダム制御ベクトルの少なくとも１つを含む。

さらに別の事例では、制御ベクトルのセットを更新することは、照射パターンの周波数成分、照射パターンの振幅、および照射パターンの総エネルギー消費の少なくとも１つを含むユーザー定義制約を組み込むことも含む。

さらに別の事例では、１つ以上の場面は計算的に生成されて３Ｄ空間の選択されたサブセット内に存在するように制限され、１つ以上の場面を照射パターンで照射することは計算シミュレーションを含み、１つ以上の画像を捕捉することは画像形成を計算的にシミュレートすることを含み、かつ再構成誤差の勾配を推定することは画像形成モデルに基づき導関数を決定することを含む。

さらに別の事例では、１つ以上の場面は少なくとも１つの表面を含み、１つ以上の場面を照射パターンで照射することは光照射を含み、１つ以上の画像を捕捉することは１つ以上の画像を光学的に捕捉することを含み、かつ再構成誤差の勾配を推定することは画像ヤコビアンを制御ベクトルに関して光学的に推定することを含む。

さらに別の事例では、１つ以上の場面は、直接表面反射、表面下散乱、または表面相互反射の少なくとも１つを示すランダムにテクスチャ化された表面を含む。

さらに別の事例では、制御ベクトルは離散化された時間的に変化する照射パターンおよび離散化された時間的に変化する画素復調関数の少なくとも１つを含む。

別の態様では、深度イメージングを最適化するためのシステムが提供され、本システムは、データストレージと通信する１つ以上のプロセッサを含み、１つ以上のプロセッサは、制御ベクトルの初期セットによって決定された照射パターンで１つ以上の場面を直接照射する照射モジュール、場面が照射パターンの少なくとも１つで照射されている間に場面の各々の１つ以上の捕捉された画像を受信する捕捉モジュール、再構成モジュールであって、再構成パラメータを用いて捕捉された画像から場面を再構成し、再構成誤差および再構成誤差の勾配を制御ベクトルおよび再構成パラメータに関して推定して、再構成誤差が所定の誤差条件に到達するまで：再構成誤差を低減するために制御ベクトルのセットおよび再構成パラメータのセットの少なくとも１つを更新することにより制御ベクトルの現在のセットおよび再構成パラメータの現在のセットを決定すること、制御ベクトルの現在のセットによって決定された照射パターンで１つ以上の場面を照射すること、場面が照射パターンの少なくとも１つで照射されている間に場面の各々の１つ以上の画像を捕捉すること、現在の再構成パラメータを使用して１つ以上の捕捉された画像から場面を再構成すること、ならびに更新された再構成誤差および再構成誤差の更新された勾配を現在の制御ベクトルおよび現在の再構成パラメータに関して推定すること、を反復して実行する、再構成モジュール、ならびに現在の制御ベクトルおよび現在の再構成パラメータの少なくとも１つを出力する出力インタフェース、を実行するように構成可能である。

別の態様では、場面の深度画像を生成するためのコンピュータ実装方法が提供され、本方法は、場面を１つ以上の照射パターンで照射することであって、各パターンは複数の離散化要素を含み、各要素の強度は符号ベクトルによって決定されること、場面が照射されている間に場面の１つ以上の画像を捕捉すること、各画素に対して、捕捉された画像の各々に対する画素で記録された少なくとも１つの強度を含む観測ベクトルを生成すること、各画素に対して、ゼロ平均正規化相互相関（ＺＮＣＣ）を最大化することによりそれぞれの観測ベクトルと最も対応する符号ベクトルを決定すること、各画素に対して、最も対応する符号ベクトルから深度値を決定すること、およびその深度値を深度画像として出力すること、を含む。

本方法の特定の事例では、各観測ベクトルは隣接する画像画素の強度を包含し、かつ各符号ベクトルは隣接する離散化強度を包含する。

別の事例では、本方法は、訓練された人工ニューラルネットワークを使用して各観測ベクトルをさらに高次元の特徴ベクトルに変換すること、および訓練された人工ニューラルネットワークを使用して各符号ベクトルをさらに高次元の特徴ベクトルに変換することをさらに含み、それぞれの観測ベクトルと最も対応する符号ベクトルを決定することは、変換されたそれぞれの観測ベクトルと変換された符号ベクトルとの間のＺＮＣＣを最大化することを含む。

さらに別の事例では、各照射パターンは、捕捉された画像とは異なる視点から場面に投影される離散化された２次元パターンであり、パターン内の各要素は投影された画素であり、かつ最も対応する符号ベクトルから深度値を決定することは三角測量を含む。

さらに別の事例では、各照射パターンは複数の波長帯を含み、各画素における観測ベクトルは、それぞれの画素に対する各波長帯の生またはデモザイク処理された強度を含む。

さらに別の事例では、各照射パターンの離散化要素は、光源の強度を変調する離散化された時間的に変化するパターンを含み、パターン内の各要素は、飛行時間型遅延および符号ベクトルと関連付けられ、かつ最も対応する符号ベクトルから深度値を決定することは光の速度を掛けることを含む。

これらおよび他の態様は本明細書で企図されて説明される。前述の概要は、活発なリップシンク（ｌｉｐｓｙｎｃｈｒｏｎｉｚａｔｉｏｎ）のためのシステムおよび方法の代表的な態様を示して熟練した読者が以下の詳細な説明を理解するのを支援することが理解されるであろう。

実施形態の理解は図面を参照するとさらに深まるであろう。

物体の投影パターン、最適行列、および深度マップの例示的な図を示す。プロジェクタ・カメラシステムが調整されていると仮定される表示幾何形状の図である。Ｋ個の画像にわたる単一のエピポーラ線に対する画像形成の生成モデルの図を示す。エピポーラ面の上面図の幾何学図である。他の全ての要素の３Ｄ光線がカメラの後ろで交差するのでＴが下三角である幾何学図である。非ゼロ要素の幾何学図制限である。ＺＮＣＣ対ネイティブ復号の図を示す。最適符号の空間を示す。定量的評価を示すプロットを例示する。定性的比較の図である。本明細書で説明するシステムの一実施形態の例示的なセットアップを示す。本明細書で説明する実施形態に従った例示的な符号行列を示す。本明細書で説明する実施形態に従った例示的な観測行列を示す。各画素に中心がある３画素近傍を使用して復号するためのシステムの実施形態の略図例を示す。ニューラルネット復号のためのシステムの実施形態の略図例を示す。一実施形態に従い、深度イメージングを最適化するためのシステムのブロック図である。一実施形態に従い、深度イメージングを最適化するための方法の流れ図である。図１４のシステムに従った構造化光の実験例に対するセットアップおよび実験結果を示す。図１４のシステムに従った光学的自動調整の実装例を示す。図１４のシステムと互換性がある装置および関数の例を示す。グレースケールおよびＲＧＢ構造化光システムを最適化するために使用される訓練場面の例を示す。それぞれ図１９Ａおよび図１９Ｂに対するグラウンドトゥルース対応マップを示す。一般的なプロジェクタ・カメラシステムにおける画像形成の一例を示す。４パターンのシーケンスが、ｍａｘ－ＺＮＣＣ３－ＮＮを再構成関数として用い、ε＝０のε精度を誤差関数とする自動調整を通してどのように発展するかを示す実験例を示す。同じ自動調整された４パターンのシーケンスの、他の符号化方法と対照した再構成結果を示す。再構成の性能を高めるために間接光のある調整パターンを示す視差マップの例を示す。実験例における、３つの異なるシステム上で最適化されたパターンおよび様々な光学的に自動調整されたパターンに対する周波数成分の平均の大きさ（ＤＦＴ）のグラフを示す。実験例に対する、訓練精度および検証精度の進展を示す。実験例に対する、パターンの２つのシーケンスを最適化するために使用される光学的自動調整フレームワークを示す。構造化光三角測量深度イメージングの略図例である。連続波飛行時間型深度イメージングの略図例である。別の実施形態に従い、深度イメージングを最適化するための方法の流れ図である。

ここで実施形態が図面を参照して説明される。説明を簡潔かつ明確にするために、適当であると考えられる場合、参照数字は、対応するか、または類似の要素を示すために、図面間で繰り返され得る。加えて、多数の特定の詳細は、本明細書で説明する実施形態の完全な理解を提供するために記載される。しかし、当業者には、本明細書で説明する実施形態はこれら特定の詳細なしでも実施され得ることが理解されよう。他の例では、周知の方法、手順および構成要素は、本明細書で説明する実施形態を曖昧にしないために、詳細には説明されていない。また、記述は、本明細書で説明する実施形態の範囲を制限するものと見なされるべきではない。

本記述を通して使用される様々な用語は、文脈で特に断らない限り、以下のように読まれて理解され得る：「または」は、「および／または」と書かれているかのように、全体を通して包括的に使用され、単数形の冠詞および代名詞は全体を通してそれらの複数形を含み、逆の場合も同じであり、同様に、性の区別のある代名詞は、本明細書で説明する何かを一方の性による使用、実装、性能などに制限していると理解されないように、それらの対応する代名詞を含み、「例示的」は「事例的」または「例となる」として理解すべきであり、必ずしも他の実施形態より「好ましい」とは限らない。用語に対するさらなる定義が本明細書に記載され得、これらは、本記述を読んで理解されるように、それらの用語の事前および後続の例に適用され得る。

命令を実行する、本明細書で例示されている任意のモジュール、ユニット、構成要素、サーバー、コンピュータ、端末、エンジンまたは装置は、例えば、磁気ディスク、光ディスク、もしくはテープなどの、記憶媒体、コンピュータ記憶媒体、もしくはデータ記憶装置（取外し可能および／または固定型）などのコンピュータ可読媒体を含むか、またはそうでなければアクセスを有し得る。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータなど、情報を格納するための任意の方法または技術で実装された、揮発性および不揮発性、取外し可能および固定型媒体を含み得る。コンピュータ記憶媒体の例は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリもしくは他のメモリ技術、ＣＤ－ＲＯＭ、デジタル多用途ディスク（ＤＶＤ）もしくは他の光学式記憶、磁気カセット、磁気テープ、磁気ディスク記憶もしくは他の磁気記憶装置、または所望の情報を格納するために使用でき、アプリケーション、モジュール、もしくは両方によってアクセスできる任意の他の媒体を含む。任意のかかるコンピュータ記憶媒体は装置の一部であり得るか、またはそれにアクセス可能もしくは接続可能であり得る。さらに、文脈で別段の明確な指示がない限り、本明細書に示された任意のプロセッサまたはコントローラは、単一のプロセッサとして、または複数のプロセッサとして実装され得る。複数のプロセッサは、配列または分散され得、本明細書で言及される任意の処理機能は、たとえ単一のプロセッサが例示されていても、１つまたは複数のプロセッサによって実行され得る。本明細書で説明する任意の方法、アプリケーションまたはモジュールは、かかるコンピュータ可読媒体によって格納もしくは保持されて、１つ以上のプロセッサによって実行され得るコンピュータ可読／実行可能命令を使用して実装され得る。

一般に、構造化光は、３次元（３Ｄ）再構成アルゴリズムと一緒に使用して、撮像されたアイテムまたは場面の３Ｄ再構成に達することができる所定の照射パターンを適用する。本発明人は、他のアプローチよりも優れた性能を有していて、機械学習ベースの最適化を使用する、照射パターンを好都合に決定している。

一般に、本発明人は、所与のパターンの性能が正確なイメージングシステムハードウェア（すなわち、プロジェクタの選択およびカメラの選択）に依存し得ると判断している。本実施形態は、好都合に、特定のハードウェアに対して微調整されるパターンを自動的に学習することを可能にし、いくつかの事例では他のアプローチに比べて桁違いにまで高い精度をもたらす。パターンの生成に加えて、本実施形態はかかるパターンの「復号」、すなわち、例えば、捕捉された画像の正確な３Ｄ幾何形状への変換、も提供する。

それに応じて、本実施形態は、高い３Ｄ測定精度を生じるように最適化される構造化光パターンを自動的に生成するための機械学習ベースの最適化アプローチを提供する。本実施形態は、２つ以上の画像にわたる特定の画素で観測された強度を３Ｄ距離測定（例えば、「深度」）に変換するための「復号」アルゴリズムも提供する。本実施形態は、特定のハードウェアシステム、またはさらに高い３Ｄ精度に対してさえカスタマイズされる構造化光パターンを自動的に生成できる機械学習ベースの最適化アプローチも提供する。本実施形態は、画素強度を３Ｄ測定に変えるための（ａ）考えられる最良のパターンおよび（ｂ）考えられる最良の「復号」アルゴリズムを一緒に決定する機械学習ベースの最適化アプローチも提供する。

一例として、本実施形態は、静止場面のアクティブステレオ三角測量のための構造化光パターンのシーケンスを自動的に生成するという問題に対処できる。事前に決定されたパターンおよびそれらに結び付けられた再構成アルゴリズムを使用する他のアプローチとは異なり、本明細書で説明する実施形態は、一例として、ある仕様、すなわち、パターン数、プロジェクタ・カメラ配置、ワークスペース制約、空間周波数成分、および同様のもの、に応答してオンザフライでパターンを生成できる。パターンシーケンスは、未知の場面に対する仕様下で予期される対応誤差率を最小限にするために具体的に最適化でき、画素ごとの視差推定のためのシーケンスに依存しないアルゴリズムに結合できる。これを達成するために、本明細書で説明する実施形態は、最尤フレームワーク内で最適化するのが比較的容易な目的関数を導出するために使用できる。最適化パラメータを最小限にすることにより、パターンシーケンスの自動発見が生成できる。例えば、本発明人は、かかるシーケンスをラップトップ上で３分以内に生成したが、それは、他の三角測量技術よりも性能が優れていると判断された。

構造化光三角測量に対して、投影パターンの選択は一般に、有用性に大きな影響を及ぼす。長年にわたり、その分野では、新しいタイプの投影パターン、およびそれらに対して調整された新しい視覚アルゴリズムに起因して、性能、堅牢性、３Ｄ精度、速度および多用途性における著しい増強が見られる。かかる進展の根底は、使用すべき最適パターンは何であるか、およびそれらが作成する画像をどのアルゴリズムが処理すべきであるかという問題である。この問題は２０年以上前に提起されたが、答えは一般に解決困難であると考えられた。一般に、パターン設計は主に、実際的な考慮事項、および多くの分野（例えば、通信、符号化理論、整数論、数値解析、および同様のもの）から借用された直感的概念によって推進されている。

本実施形態は、構造化光に対して最適なパターンを決定するためのアプローチを提供する。本実施形態の適用では、一連のパターンを１つずつ、静止場面に投影し、カメラを使用して三角測量により画素ごとの深度を推定するためのアプローチが示されている。第１の原理から始まって、予期される誤ったステレオ対応数を定量化するパターンシーケンスの空間に関する目的関数が導出され、次いでそれが最小限にされる。

一例では、本実施形態を使用した最適化は、入力としてプロジェクタの解像度および所望の数の投影パターンを取る。これらのパラメータに加えて、本実施形態は、特定のシステム（例えば、図１を参照）を使用する３Ｄ精度に対して正確に最適化されるパターンを生成できる。例えば、特定のシステムに対して、プロジェクタおよびカメラの特定の配置、３Ｄスキャニング量の形状および次元、イメージングシステム全体の雑音特性およびピーク信号対雑音比、プロジェクタレンズのデフォーカス特性、パターンの空間周波数に関する所望の上限、ならびに任意の未知の場面幾何形状を考慮に入れる。従って、他のアプローチとは対照的に、本実施形態は、画一的なパターンシーケンスに対する閉形式または「コードブック」を提供せず、むしろ、場面に依存しないパターンシーケンスをオンザフライで対話形式に近い速度で生成する方法が提供され、そのためにパターンおよび関連付けられた再構成アルゴリズムが最高の性能のために容易かつ自動的に適合できるようになる。このパラダイムは構造化光アラカルト（ｓｔｒｕｃｔｕｒｅｄｌｉｇｈｔａｌａｃａｒｔｅ）と呼ばれる。

本開示の実施形態では、投影パターンとは無関係にステレオ対応を決定するために最尤復号アプローチが使用できる。このアプローチは、パターン固有のデコーダと計算的に競合力があるだけでなく、パターン最適化問題自体も扱いやすくする。このように、パターンシーケンスが引き起こし得る予期される誤差を定量化する方法を与えることにより、本実施形態は、数値的に最適化できるシーケンスに関する目的関数をもたらす。

好都合に、本実施形態は、構造化光イメージングをアルゴリズム設計（例えば、パターンの作成、位相のアンラップ、対応の計算、プロジェクタデフォーカスへの対処に対する）の問題から問題特定（パターンはいくつか、どの可動範囲か、イメージングシステムは何か、など）の１つに変えることができる。同様に好都合に、本実施形態は、厄介な事例、つまり、少ないパターン数、幾何学的に複雑な場面、低信号対雑音比、および同様のもの、に関して他の符号化方式をしのぐことができるパターンシーケンスの発見を実証することができる。同様に好都合に、本実施形態は、周波数成分に関して制約のない間接光に堅牢性を与えることができるイメージングシステムの出現を提供して、パターン最適化に対して新たに獲得された自由度を与え、このより大きな設計空間は本アプローチで自動的に探索できる。同様に好都合に、本実施形態は、（１）正確というよりも、近似の対応を回復するように設計されたシーケンス、および（２）既に組み込まれている自由空間およびステレオ幾何形状に関する情報を用いて設計されたシーケンス、を含む、固有の特性をもつパターンシーケンスの新しいファミリーを生み出す定式化を提供できる。これは、幾何学的な場面制約を、信頼性の低い３Ｄデータを後処理することによってそれらを強化するのではなく、パターン自体を用いて、さらなる信頼性のために光領域へ直接符号化する。

一般に、構造化光三角測量は２つの根本的な問題、すなわち（１）どのパターンを場面に投影すべきか、および（２）場面の捕捉された画像からプロジェクタ・カメラのステレオ対応をどのように決定するか、に対処する必要がある。一般に、投影パターンの「良好な」セットは、エピポーラ線上の画素に対する１次元位置符号化問題を解決することと考えることができる。逆に言えば、カメラ画素のステレオ対応を決定することは一般に、位置復号問題と考えることができる。

符号行列を決定するために、Ｋ投影パターンのセットが、エピポーラ線上の各画素ｐに対するＫ次元符号ベクトルｃ_ｐに暗黙に割り当てることができる（図２の例を参照）。ｃ_ｐの要素は、個々のパターン内の画素の強度であり、それらは非二値にでき、各符号ベクトルが可能な限り弁別的になるように選択されるべきである。これは、Ｋが減少するにつれ（すなわち、より低次元のベクトルは弁別的ではない）、かつ画素数が増加するにつれて（すなわち、区別すべき多くのベクトルがある）、行うのがより困難になる。エピポーラ線の符号ベクトルは符号行列Ｃで表される。この行列はＮ画素のエピポーラ線に対してＫ×Ｎのサイズを有する。

位置復号に関して、カメラ画素ｑが考慮される。その画素で観測されたＫ強度は、Ｋ次元観測ベクトルｏ_ｑを定義する。このベクトルおよび符号行列Ｃを所与として、位置復号の目標は、その対応するプロジェクタ画素ｐ^＊を推測することである。観測は測定雑音によって破損されるため、また観測ベクトルと符号ベクトルとの間の関係は一般的な場面に対して非常に非自明であり得るため、これは困難な問題であり得る。プロジェクタ画素ｐ^＊は最尤（ＭＬ）問題として定式化できる：

式中、Ｐｒ（ｏ_ｑ｜ｃ_ｐ）は画素ｑの符号ベクトルの真のステレオ対応がＣの列ｐである尤度である。この定式化は、精神において、ベイズ（Ｂａｙｅｓｉａｎ）飛行時間型深度推定に何となく近い可能性があるが、画像形成モデルおよび復号手順は非常に異なる。推測されたｐ^＊対応は、真の対応ｐと一致することもあれば、一致しないこともあることに留意されたい（図２の例を参照）。

位置符号化に関して、符号行列Ｃは復号誤差を最小限にするように選択できる。所与のプロジェクタ・カメラシステムおよび特定の場面に対して、この誤差は、デコーダ（本実施形態の機械学習デコーダなど）によって生成された誤った対応を数えることによって定量化される：

式中、Ｍａｔｃｈ（ｑ）は画像画素ｑの真のステレオ対応であり、εは小さい対応誤差を容認する許容閾値であり、１（）は指標関数であり、総和はエピポーラ線上の全部の画素にわたる。所与の場面およびイメージングシステムに対して式（３）中の誤差関数を評価することは、最適化、すなわち、式（２）中の復号問題を解決することを必要とすることに留意されたい。

最適な位置符号化は、誤った対応の予期される数を最小限にする符号行列

を見つける問題として定式化できる：

式中、

は尤もらしい場面および撮像条件のユーザー指定領域に関する期待を示す。

は許容値εに対する最適な符号行列と呼ばれる。

本実施形態は、計算するのが効率的な式（４）中の入れ子になった最適化問題を解くために使用でき、イメージングシステム特有の情報およびユーザー制約を利用できる。一実施形態では、その問題は、尤もらしいエピポーラ輸送行列の空間における最適化として位置付けられる。本実施形態は従って、低雑音設定においてほぼ最適な構造化光再構成のために相関ベースの機械学習（ＭＬ）デコーダを使用できる。このデコーダを使用すると、本実施形態は、ｓｏｆｔｍａｘベースの近似を式（４）の目的関数に提供し、それを最小限にしてステレオミスマッチの予期される数を最小限にするパターンを得る。

形式的分析を簡略化するために、全ての光輸送はエピポーラであると想定できる。具体的には、観測ベクトルは対応するエピポーラ線上の符号ベクトルにだけ依存すると想定される。この条件は、大域的光輸送、プロジェクタの焦点ぼけおよびカメラの焦点ぼけがごくわずかである場合、従来の方式で取得された画像に当てはまる。それは、場面の内容にかかわらず、厳しい大域的光輸送の存在下でさえ、エピポーラのみのイメージングシステムによって捕捉された全ての画像にも当てはまる。

エピポーラのみのイメージングを保持し、本システムがラジオメトリックに較正されている場合、符号ベクトルと観測ベクトルとの間の関係は、以下によって与えられる（図３の例を参照）：

式中、Ｏ_１、．．．、Ｏ_Ｍは、エピポーラ線上の全ての画素の観測ベクトルであり、ａ_１、．．．、ａ_Ｍは、周囲照明のこれらの画素への寄与であり、１は全て１の列ベクトルであり、行列ｅは観測雑音であり、ＴはＮ×Ｍエピポーラ輸送行列である。この行列の要素Ｔ［ｐ，ｑ］は、直接表面反射、大域的輸送、およびプロジェクタまたはカメラの焦点ぼけによりプロジェクタ画素ｐからカメラ画素ｑへ輸送された全光束を記述する。観測行列Ｏの一例が図１１に示されている。

式（５）のエピポーラのみのモデルは、場面の幾何形状および反射率ならびに場面の撮像条件を符号化する。その結果として、式（４）の位置符号化目的関数における期待値は、尤もらしいエピポーラ輸送行列Ｔ、周囲ベクトルａ、および雑音行列ｅに関する期待値として最適に表現されることになる。

尤もらしい行列Ｔの空間に関して、たとえＮ×Ｍ行列の空間が極めて大規模であっても、構造化光イメージングに関連する行列ははるかに小さい空間に属する。これは、間接光と関連付けられたＴの要素が一般に、直接要素よりもはるかに小さい大きさしか有していないからであり、従って無視できる。これはその結果として、尤度および期待値を計算するのを非常に効率的にする。具体的には、本実施形態は、以下の３つのファミリーに対してＭＬ復号および最適符号化を検討する：
（Ａ）直接のみのＴ、制約なし：Ｔの非ゼロ要素は直接表面反射を表し、各カメラ画素は最大で１つのプロジェクタ画素からの光を受光する。その結果として、Ｔの各列は最大で１つの非ゼロ要素を含むことになる。その上、その要素の位置は真のステレオ対応と考えることができる。観測ベクトルは従って、雑音のあるスケーリングおよびシフトされた符号ベクトルである：

式中、ベクトルｅ_ｑは雑音を示す。Ｔの各列内の非ゼロ要素の位置は、集合｛１，．．．，Ｎ｝からランダムに得られ、その値Ｔ［ｐ，ｑ］は、［０，１］に関して一様な互いに独立で同一の分布に従う（ｉ．ｉ．ｄ）ランダム変数であると推定される。これはＴの非ゼロ要素の位置および大きさに関して完全に非依存（ａｇｎｏｓｔｉｃ）となる。
（Ｂ）幾何的制約のある直接のみのＴ：前述のファミリーは幾何学的に尤もらしくないステレオ対応を排除するように制限される。これらは、その関連付けられた３Ｄ光線が像平面の後ろまたはユーザー指定の可動範囲の外側のいずれかで交差する（図４Ａの例を参照）Ｔの要素である。これらの無効な要素は、二値指標行列Ｇで指定される（図４Ｂおよび図４Ｃの例を参照）。この行列を所与として、Ｔの各列内の非ゼロ要素の位置はその列の有効な要素から一様に得られると想定できる。図４Ｂは、他の全ての要素の３Ｄ光線がカメラの後ろで交差するので、Ｔが下三角である幾何学図を示す。図４Ｃは、Ｔの非ゼロ要素が可動範囲（例えば、（ａ）の黒い四角）を知ることによってどのようにさらにもっと制限されるかの幾何学図を示し、プロジェクタ（緑）およびカメラ（青）からのその深度範囲（赤）およびその角度範囲は、その交差が全ての有効な対応を含むＴ内の領域を画定する。
（Ｃ）プロジェクタの焦点ぼけのある直接のみのＴ：前述の２つのファミリーはプロジェクタの焦点ぼけをモデル化しない。いくつかの事例では、これは、いくつかの点を照射し得る焦点ぼけした投影パターンの正しいモデル化を防ぐことができるだけでなく、そのデフォーカスキュー（ｄｅｆｏｃｕｓｃｕｅ）において得られる豊富な形状情報も無視し得る。カメラ画素は複数のプロジェクタ画素からの光を受光し得るので、観測ベクトルは符号ベクトルの雑音のあるスケーリングおよびシフトされた混合物である：

式中、Ｔはファミリー（Ａ）または（Ｂ）からの直接のみの輸送行列である。式（７）中の係数

はデフォーカスカーネルの主要因である。このカーネルは深度に依存し、従って、各行列要素Ｔ［ｐ，ｑ］は係数の異なる集合と関連付けられる。係数自体はプロジェクタを較正することによって計算できる。式（７）は、場面の輸送行列を、そのｉ番目の行が

である新しい行列Ｔ´になるように設定することにより、式（５）のエピポーラ画像形成モデルに従うようにすることができる。

観測雑音および周囲ベクトルに関して、ＭＬ位置デコーダの最適性は一般に、信号に依存せず正規分布している雑音に依存する。他方、位置エンコーダは、そのパラメータが既知である限り、センサー雑音の任意のモデルに適合できる。いくつかの事例では、周囲ベクトルａの要素は、［０，ａ_ｍａｘ］にわたる一様分布に従うと想定でき、ここでａ_ｍａｘは最大画素強度の割合として表現される周辺光の最大寄与である。

一例では、符号行列Ｃを前提とし、エピポーラのみの画像形成モデルに従う、観測ベクトルｏ_ｑが与えられる。タスクは、符号行列の内容に制約を課さないこの問題に対する汎用解を求めることにより画素ｑのステレオ対応を識別することであり、それは、ＭＰＳもしくはＸＯＲ符号などの、先験的に定義された符号ベクトルを含み得るか、または最適化を通して自動的に計算される一般行列であり得る。

前述を解決するために、本実施形態は、ｏ_ｑと符号ベクトルとの間のゼロ平均正規化相互相関（ＺＮＣＣ）を決定して、それを最大化するものを選択できる。このアプローチは、雑音がゼロになるにつれ、かつ個々の符号ベクトルの差異が同じになるにつれて、最適になる。

復号に関して、観測ベクトルおよび符号ベクトルが式（６）に従って関連する場合：

式中、

ｖはＮ符号ベクトルの差異の分散であり：

ｍｅａｎ（）およびｖａｒ（）は符号ベクトルの要素にわたり、σは雑音標準偏差であり、Ｐｒ（ｏ_ｑ｜ｃ_ｐ）は周辺寄与およびＴ［ｐ，ｑ］の値を除外することによって定義される：

ここでＺＮＣＣデコーダは次のように定義される：

焦点ぼけした復号（ｄｅｆｏｃｕｓｅｄｄｅｃｏｄｉｎｇ）に関して、観測ベクトルおよび符号ベクトルが式（７）に従って関連する場合：

ここでＮ×Ｎ行列Ｔ^ｑは全ての考えられる対応画素ｐに対してカメラ画素ｑにおけるデフォーカスカーネルを保持する、すなわち、

ＺＮＣＣデコーダの準最適性は少なくとも２つの理由で好都合である。第１に、特定の符号に対してぴったり合った復号アルゴリズムを設計することによって得られる精度優位性は潜在的にないことを示唆している（例えば、図５を参照）。第２に、式（４）の入れ子になった位置符号化最適化を従来の非線形最適化に変換することを可能にする。これは、本明細書で説明するように、最適化された符号行列の自動生成への扉を開く。

図５は、ＺＮＣＣ対ネイティブ復号の図である。左側では、最大周波数ＦのＫ個のＭＰＳパターンが既知の平面標的に投影され、本実施形態のＺＮＣＣデコーダおよびＭＰＳを使用するものを使用して対応誤差を計算する。右側では、それらの２進補数と一緒に投影された、１０のＧｒａｙ符号および１０のＸＯＲ－０４符号に対する類似の比較である。２値化技術が「ネイティブ」復号に対して使用される。これらの符号は周波数境界がないので、それらは画像ＰＳＮＲに対してプロットされる。いずれにしても、ＺＮＣＣ復号は少なくとも同様の結果をもたらす。

本アプローチは、式（３）中の関数Ｅｒｒｏｒ（）に対して連続近似を発展させることによって開始できる。この関数は、所与の符号行列Ｃが特定の場面および撮像条件、すなわち、特定の輸送行列Ｔ、観測雑音ｅ、および周囲ベクトルａ、に適用される場合に生じる復号誤差をカウントする。行列Ｃに関する位置符号化目的関数を評価するために、Ｓ個の適正なサンプルがＴ、ｅおよびａに関して引き出される：

いくつかの事例では、誤差の復号のためにｓｏｆｔｍａｘ近似が使用できる。最適なデコーダがカメラ画素ｑをプロジェクタ画素ｐにマッチさせたか否かを知らせる２値変数を考える。この変数は、以下の式（１５）～（１７）を使用して３つのステップ内の連続関数によって近似できる。式（１５）は、プロジェクタ画素ｐがｑにマッチするために、ｐの符号ベクトルの尤度は他の全てよりも大きい必要があると述べる。次いで式（１６）が続き、尤度のＺＮＣＣスコアとの置換を可能にする。最後に、式（１７）はｓｏｆｔｍａｘ比率で指標変数を近似する、すなわち、スカラーμが無限大に近づくにつれて、比率は、画素ｐのＺＮＣＣスコアが最大の場合に１になり、そうでなければ０になる傾向がある：

エピポーラ線上の全ての正しいマッチをカウントするために、ｓｏｆｔｍａｘ比率が全ての画素ｑの真のステレオマッチにおいて評価でき、次いでそれらの合計が計算される。式（１８）中の表記法を使用すると：

最後に、許容パラメータεを組み込んでステレオ対応における小さい誤差を容認する：

場面および撮像条件のサンプリングのために、その幾何的制約が行列Ｇである直接のみの行列が構築される。まず、有効なステレオ対応がＧに従い各カメラ画素にランダムに割り当てられた；このようにして、いくつかの事例では、行列Ｇによって決定された、３Ｄ空間の特定のサブセット内に存在するように制限されるように、対応が生成できる。これは、Ｔの各列内の単一の非ゼロ要素の位置を指定する（例えば、図３を参照）。次いで、ランダム値をそれらの要素の各々に独立して割り当てることができる。結果は、有効な直接のみの輸送行列、すなわち、前述のファミリー（Ｂ）からのサンプルである。プロジェクタの焦点ぼけおよび幾何的制約を吸収するファミリー（Ｃ）サンプルＴ´を構築するために、直接のみの行列ＴがＧに従って構築され、次いで深度に依存するデフォーカスカーネルを組み込む。

図３は、Ｋ個の画像にわたる単一のエピポーラ線に対する画像形成の生成モデル例の図である。行列Ｏの各列は観測ベクトルであり、各行はエピポーラ線上の全ての画素にわたる単一の画像からの観測を収集する。全ての行は同じ入力画像と関連付けられ、全ての列は同じカメラ画素ｑと関連付けられる。灰色の列および行は同じプロジェクタ画素ｐと関連付けられる。

最適化のために、Ａｄａｍオプティマイザを使用して、式（１３）中の目的関数に関して確率的勾配降下法を、例えば、０．０１の固定学習率で、実行する。いくつかの事例では、ユーザー指定のパラメータは、（１）プロジェクタ画素数Ｎ、（２）カメラ画素数Ｍ、（３）投影パターン数Ｋ、（４）所望の許容パラメータε、および（５）幾何的制約行列Ｇ、であり得る。最適化の結果は符号行列

である。

一例では、最適化は、式（１３）の目的関数を定義するために、ランダムなＫ×Ｎ符号行列Ｃで初期され、反復１で合計Ｓ＝５００のサンプル（Ｔ，ｅ，ａ）を取り出す。これらのサンプルは「検証セット」として機能し、所定の誤差条件が達成されるまで（例えば、誤差が閾値を下回るまで、誤差が最小限にされるまで、または収束まで）固定のままである。勾配計算のために、反復ごとに２つの新しいランダムに取り出されたサンプルを含むミニバッチが使用される。一例では、最適化はおよそ２５０反復（６パターン行列に対して８コア２．３ＧＨｚラップトップ上で１５２秒）で収束する。サンプル数の増加は

の質（すなわち、他のランダムに生成された場面および撮像条件に関する復号誤差の数）にあまり影響を及ぼさなかったことが分かった。対照的に、ｓｏｆｔｍａｘ乗数μの値が相当な影響を及ぼしていることが分かった、すなわち、μ＜３００に対して、質における大幅な低下があるが、その値を超えてそれを増加させてもほとんど効果がない。この例では、μ＝３００が示された全ての結果に対して使用された。

周波数が制限された投影パターンに対して、多くの構造化光技術は、ユーザー指定された閾値Ｆ程度の空間周波数での投影パターンの使用を推奨する。これは、最適な符号行列に関する追加の設計制約と考えることができる。明示的にそれを強制するために、本実施形態は、各反復で計算された符号行列を、制約を満足している行列の空間に投影することができる。

先進的なセンサー雑音モデル化のため、ＺＮＣＣデコーダは一般に、付加的ガウス雑音に対して最適であるが、式（１３）中の目的関数は任意のセンサー雑音モデルを取り込むことができ、例えば、サンプルは単に、カメラの雑音分布からのｅの取り出しである。本発明人は、これは最適化された符号の現実世界での性能を著しく改善できると判断した。

最適な符号行列を生成するために、本実施形態の実験例では、図６は、オプティマイザによって生成されたいくつかの符号行列を示す。符号は、ユーザー指定に応答して有意に適応する非常に多様な構造を示すことが検査により明らかである。周波数成分を増加させると（行２）、より弁別的なベクトルに起因して、ほとんど構造のない混同行列を生じる。興味深いことに、より低いピーク信号対雑音比（ＰＳＮＲ）条件に適応された符号は、より粗い構造の混同行列を持つ。しかし、それらの行列の現実世界での性能における相当な差は観測されなかった。図６の行３は、幾何的制約に対する符号の適応を示す。具体的には、無限遠平面上の点だけがＤｅｃｏｄｅ（ｑ）＝ｑをもつことができ、より近い３Ｄ点に対して、カメラ画素はその右側のプロジェクタ画素にマッチできるだけである（図４ｂ）。制約のないＴに対する符号行列（行３の２番目のボックス）を下三角Ｔのそれ（行４の最初の列）と比較すると、混同行列内での著しい再構築が見られ、最適化は、符号の弁別性を有効な３Ｄ点をもたらすそれらの符号ベクトルにだけ効果的に「フォーカス」する。他方、正確な対応ではなく、近似を計算する符号行列は、それらの混同行列内により粗い構造を示す（行４）。

図６の実例図に対して、
・行１：パターンの最大空間周波数がＦ＝４に設定されて、画像ＰＳＮＲが我々の撮像条件（フレーム率＝５０Ｈｚ、カメラゲイン＝１、既知の読み出し雑音、フルインターバルに及ぶ画素強度［０，１］）に対して最大に設定される。次いで、異なる数のパターンおよび他の制約のない６０８画素プロジェクタに対して最適な符号行列が計算される。
・行２：次いでＫ＝４が選択され、他の全てを上のように固定して、最大空間周波数上の異なる限界（ｂｏｕｎｄ）に対して、最適な行列が計算される。
・行３：周波数が８に設定され、この場合もやはり他の全てを上のように固定して、画素ＰＳＮＲの異なる値（すなわち、最大画像強度が次第に小さくなる）に対して最適な行列が計算される。
・行４および５：同じアプローチが、視差に関する異なる下限（すなわち、最大場面深度が次第に制限される）、および対応誤差における異なる許容に対して続く。

本明細書で説明する実験例では、画像は、ＬｅｎｓａｔｉｏｎＦ／１．６レンズ（モデルＣＶＭ０４１１）を装着した、ＩＤＳによって供給された１２８０×１０２４モノクロカメラ（モデルＩＤＳＵＩ－３２４０ＣＰ－Ｍ）を用いて５０Ｈｚおよび８ビットで捕捉された。パターン投影のために、ＫｅｙｎｏｔｅＰｈｏｔｏｎｉｃｓによる１００ルーメンＤＬＰプロジェクタ（モデルＬＣ３０００）が６０８×６８４のネイティブ解像度で、赤のＬＥＤだけをオンにして使用された。ガンマ補正が無効にされて、システムの線形放射応答によって検証され、センサーの光子伝達曲線を測定した。これは、標的上の各画素に対して独立してＰＳＮＲの正確な測定を得るのを可能にした。画素雑音の３つの異なるモデルが位置符号化最適化に対して実験された：（１）付加的ガウス、（２）付加的読み出し雑音のあるポアソンショット雑音、および（３）付加的読み出し雑音のある指数関数的雑音（ｅｘｐｏｎｅｎｔｉａｌｎｏｉｓｅ）。

グラウンドトゥルースに対して、有界の周波数のランダムな雑音パターンが白い紙に印刷されて、ステレオペアから６０ｃｍ離れた平面標的上に置かれた（例えば、図７の下行、３番目の列を参照）。「グラウンドトゥルース」視差マップを取得するために２つの異なるパターンシーケンスが使用された：すなわち、１６０の従来の位相シフトされたパターンおよび２０のＸＯＲパターン（補数コードを含む）。最大画像強度が白い投影パターン（すなわち、最も明るい画素における高ＰＳＮＲ領域）に対して２００になり、標的上のレンズにフォーカスされるように絞りが調整された。画素の９７％に対して、２つのマップにおいて視差は同一であり、残りは±１の視差だけ異なっていた。従って、これらのマップに対して９７％を上回る正確さは重要ではない。符号行列の全ては、指数関数的＋読み出し雑音モデルを用いてこれらの高ＰＳＮＲ条件に対して最適化された。

定量的評価のために、最も困難な事例にフォーカスした：すなわち、ごく少数のパターンおよび低ＰＳＮＲ。低ＰＳＮＲ性能を評価するために、白い投影パターン下で最も明るい画素強度が６０になるように絞りを小さくし、その対応がグラウンドトゥルースのε内である画素をカウントする。図７の例は、全ての符号に対して同じＺＮＣＣデコーダを使用して、最適化された符号行列をＭＰＳおよびＥＰＳのそれらと比較する。これらの結果からいくつかの観測を行うことができる。第１に、符号行列は、示された全ての事例においてＭＰＳおよびＥＰＳよりも性能が優れている。第２に、符号は、より高い空間周波数においてＥＰＳおよびＭＰＳよりも著しく性能が良い。これは、それらの符号化方式が高周波数パターンを生成するように特別に設計されているという事実にもかかわらず、である。カメラの絞りはこれらの実験では小さかった（すなわち、大きな被写界深度）ので、高周波数におけるＭＰＳおよびＥＰＳの性能低下は、カメラの焦点ぼけで説明できないことも注目する価値がある。第３に、幾何的制約は、少ないパターン数において全ての符号に対する大きな性能の利点を持つ。しかし、ゲインは、本実施形態の符号に対して厳密に最適化されているので、本実施形態の符号に対してより高い。第４に、幾何的に制約されて、小さい誤差許容に対して最適化されている符号行列はほとんどの周波数に対して低い二乗平均平方根誤差（ＲＭＳＥ）を生じる傾向がある。

図７の上の行、および下の行の最初の２つの列において、各データ点は、同じパターンシーケンスでの３つの独立した取得を表す。エラーバーは、それらの実行における正しい対応の最小および最大の割合を示す。上の行ではｑ＝０が最適化のために使用され、下の行ではｑ＝１が使用された。実線は、符号最適化および復号に幾何的制約が課されない場合の結果を示す。破線は、深度が制約された幾何行列Ｇが使用される場合に何が起こるかを示す。ＥＰＳおよびＭＰＳに対して、制約は復号のためにのみ使用される、すなわち、それはＺＮＣＣスコアを最大限にするものに対して有効な対応の中で検索される。他方、符号は、その制約に対して最適化され、同様にそれで復号される。図７の下の行はＲＭＳＥプロットを示す。

いくつかの物体の再構成のための実験例の定性的結果が図１（４つのパターンを使用）および図８（５および６のパターンを使用）に示されている。図１における比較は、幾何的に制約された符号を計算することは結果の質、および定量比較において観測される傾向にも明らかな影響を及ぼすことを示す。図８では、暗い場面の再構成、ならびに有意な間接光のある場面が特別に選択されて、低ＰＳＮＲ条件および一般的な光輸送下で性能を比較した。深度マップはＥＰＳおよびＭＰＳよりも著しく少ない外れ値を有し、深度不連続によってあまり影響されないことが観測された。その上、間接光に対して特別に最適化されていないにもかかわらず、そこでも良好な深度マップが取得される。

図８は定性的比較を示す。左側の場面に対して、同じＺＮＣＣデコーダおよび同じ三角形幾何行列Ｇで、３つのアプローチを使用して深度マップを取得した。各アプローチに対して、範囲内のいくつかの最大周波数に対して場面が再構成され、各アプローチの最良実行周波数に対する深度マップが示されている。図８の一番上の行には、暗く、ニス塗装を施して彫刻された木製トランクの５つのパターンでの再構成が示されている。図８の中央の行には、６つのパターンを使用するイメージングの以前のアプローチを使用した有意な間接輸送（ボウル、ろうそく、および凸状楔（ｃｏｎｖｅｘｗｅｄｇｅ））のある場面の再構成が示されている。図８の下の行は、もっと多くのパターンで取得された深度マップを、前述の深度マップの断面および視差誤差のヒストグラムと一緒に示している。参考のため、正確に同じパターンでエピポーラのみのイメージングを使用して取得された深度マップの断面、ならびにエピポーラのみのイメージングを使用して周波数１６～３１の１６０シフトされた余弦パターンで取得された「グラウンドトゥルース」深度マップも含まれる。

図１の一番上は、プロジェクタの行に沿って投影された１Ｄ画像である投影パターンを示す。それらのシーケンスは符号行列（例えば、図１０に示されるような）を定義し、その列は画素位置を符号化する。最適な符号行列を使用してステレオ対応を計算するためのフレームワークがオンザフライで生成される。これらの行列は、個々の行列の列があまり弁別的でない場合に生じるステレオ誤差の予期される数を最小限にする。図１の中央は、異なる数の投影パターン、画像の信号対雑音比、空間周波数成分（上で示されたサンプルパターン）など、に対して、最適な行列の全空間が存在することを示す。図１の一番下は、左側に示された物体の深度マップを計算するために２つの自動生成された４パターンシーケンスが使用されることを示す。両方とも、境界ボックス制約無し（中央）および有り（右側）で、ステレオ誤差に対する１画素許容に対して最適化される。

好都合に、本明細書で説明する実施形態は、位置符号化目的関数で、極めて単純な１層ニューラルネットワークとして見ることができる。

本明細書で説明する実施形態は、場面から反射された光の強度を捕捉してその場面の正確な３Ｄモデルを作成するためにパターンのセットを備えたプロジェクタおよびカメラを使用して３次元（３Ｄ）イメージングを提供する方法およびシステムを提供する。

一般に、プロジェクタによって投影された点または画素とカメラによって捕捉された点または画素との間の対応を判断するために三角測量の原理が使用される。このようにして、本システムは、プロジェクタ上の全ての点のカメラ上の点との対応を近似的に判断する必要がある。

この対応を判断するために、異なるパターンを場面に投影し、反射された光をカメラで捕捉するプロセスが反復される。各画素に対して、カメラは、各それぞれ投影されたパターンに対する強度を測定することにより異なる強度を感知して、投影された画素の強度が何であるかを知る。典型的には、画素の対応は非常に多くの光のパターンを投影することによって判断できる。しかし、これは、時間もしくはエネルギーがあまりない場合、パターンが素早く投影される必要がある場合（移動物体に対してなど）、または撮像が屋外で行われて、非常に明るいパターンを投影するのに多くのエネルギーを費やすのが望ましくない場合には問題であり得る。

本明細書で説明する実施形態は好都合に、比較的少ない数のパターン、例えば、２０パターン、および比較的少量のエネルギーで対応を判断することにより、場面の良好な幾何形状の判断を得るために使用できる。

本明細書で説明する実施形態は、特定のシステム配置および設定に対してカスタム設計されるパターンを設計するために使用できる。例えば、カメラがどこに位置付けられていて、プロジェクタがどこに位置付けられているかが分かっている場合。この事例では、そのシステムに対して最適化する調整されたパターンが非常に迅速に、例えば、２～３分の間に、決定できる。本明細書で説明する実施形態は、特に、信号に対して多くの雑音がある微光条件に対して、雑音に対して比較的堅牢な方法で幾何形状を判断するために使用できる。

追加として、本明細書で説明する実施形態は、生成されているパターンとは無関係な対応アルゴリズムを生成するために使用できる。従って、本明細書で提示するアルゴリズムは、単純で一般的な画素対応を提供し、どのパターンが使用されるかに関係なく使用できる。従って、いくつかの事例では、対応アルゴリズムは、任意のパターンに対する幾何形状を捕捉することにより、任意の構造化光システムをもっと正確にできる。

本明細書では、使用されるプロジェクタおよびカメラ、ならびにそれらそれぞれの設定に関係なく、対応を判断するための方法およびシステムも提供される。カメラおよびプロジェクタに関する情報が既知であると仮定する代わりに、本実施形態の方法はシステムがカメラおよびプロジェクタのかかる特性を発見するのを可能にする。

本方法およびシステムの実施形態は、ニューラルネットワークを使用して最適な投影パターンを学習し、以前のアプローチを一般化して精度を著しく改善する。

本実施形態の方法では、既知の幾何形状の物体が場面内に配置されて、プロジェクタがそれに投影し、カメラがそれに反射した光を受光する。特定の事例では、物体は、その面の１つがプロジェクタとカメラとの間に向けられた平面ボードである。特定の事例では、この平面ボードは、それに付着されたパターン（テクスチャ）、例えば、ランダムなグレースケール画像、を有する。

この例では、平面ボードの幾何形状は容易に知ることができるので、平面ボードが使用される。テクスチャは、特定の点の局部近傍がどのように見えるかに関係なく、本システムに対応を解決させ得るので、使用される。

例示的な事例では、カメラによって受信された画像上の各画素に対する対応するプロジェクタ画素との対応を判断することは、その画素の近傍、例えば、典型的には３画素幅×３画素高さ、を考慮することによって行うことができる。この例では、投影されたパターンは、１画素幅で高さが３画素以上の分離された１次元の細片（列）である。いくつかの事例では、各列は同じ強度を持つことができる。

この例では、ニューラルネットワークを訓練するために、多くのパターンが既知の平面ボード上に平面ボード上のほとんどまたは全部の点まで投影され、いくつかの事例では、所望の精度に応じて、３０、５０、または１００のパターンが投影される。これら全ての投影されたパターンを用いると、結果として生じる捕捉された訓練データセットは恐らくかなり良好な幾何形状を与えることが予期できる。次いで本システムは平面の表面を捕捉された訓練データセットに当てはめる。次いで各画素に対して、本システムは既知の幾何形状の物体を捕捉された訓練データセットに当てはめるので、本システムはどの捕捉された画素が各投影された画素に概ね対応するかを知ることができる。それは既知の平面ボードであるので、たとえ少しの外れ値があっても、本システムはそれをグラウンドトゥルースとして使用できる。

本システムは「Ｋ」のパターンを既知の幾何形状の場面に投影して潜在的に数千の訓練サンプル（画像列ごとに１つ）をもたらすことができる。本システムは次いで、場面の画像を捕捉して、例えば、列の１５％をランダムにサンプリングできる。勾配は：

を使用して決定され、式中、

はサンプルにおいて評価される。

このように、投影パターンｋの画素ｑにおける小さな強度変化がカメラ画素ｐの強度にどのように影響を及ぼすかを測定する。本システムは従って、現在の反復内でパターンｋを投影して、画像を捕捉する。本システムは次いで、小さい値を画素ｑに加算することによってパターンを変更できる。変更されたパターンが投影されて新しい画像が捕捉される。前述の勾配がそれらの差から決定される。

このようにして、符号化方式がリアルタイムで生成されて、実際の捕捉セッションの特定のセットアップおよび信号対雑音比に対して最適化される。

ニューラルネットワークの精度を判断するために、本システムは、例えば、４つの予め決められたパターンを平面ボード上に投影できる。そのパターンは、カメラの画素によって捕捉され、ニューラルネットワークを通過して、対応が出力される。この対応は、平面の表面に対して何が予期されるかに関してそれが正しいことを確実にするために確認できる。この確認は、グラウンドトゥルースに対して最適化できる損失関数を生成できる。このようにして、本システムは、その幾何形状が正確に捕捉されていると確信できる。

精度が評価される場合、本システムは、どれくらいの割合の画素が完全に正しい対応を得るかを判断するか、または画素を一緒に照合する際にニューラルネットワークがどのくらい良好に性能を発揮するかを見るための領域を決定する。例えば、

は、いくつが完全に正確かの測定であり、

は、離れた画素が１つ以内でいくつが正確かの測定であり、

は、離れた画素が２つ以内でいくつが正確かの測定であり、以下同様に続く。

前述の例では、４つのパターンが使用されて、ニューラルネットワークへの入力として捕捉できる。捕捉された画素の３×３行列、および４つの異なるパターンを用いると、全ての投影パターンにわたる局部近傍を記述する全部で３６の画素、従って、３６次元ベクトルがある。この３６次元ベクトルは、例えば、５０次元の畳み込み層を有するニューラルネットワークを通過できる。本システムは次いで、投影された画素に対して同じことを行う。この例では、３画素高さの列、および４つの異なるパターンは、１２画素次元ベクトルを生成する。このベクトルは、５０次元の畳み込み層を通される。

この例では、画素は、前述の出力をゼロ平均正規化相互相関（ＺＮＣＣ）に通すことによって照合できる。この出力は次いで、どの近傍が最も可能性の高い対応を提供するかを判断するためにｓｏｆｔｍａｘに通される。このようにして、ニューラルネットワークは画素間の最も可能性が高い対応の重みを学習できる。実験では、これは高い精度、例えば、７０％以上の精度、を与える。

好都合に、本明細書で説明する実施形態は、ランダムパターン、ならびに未知の特性のカメラおよびプロジェクタで開始して、画素対応自体を学習できる。従って、たとえ異なるタイプのカメラおよびプロジェクタが同じ構造化光パターンを用いてさえ異なって動作しても、本システムが、指定の機器を使用する必要なく、深度および幾何形状を判断するのを可能にする。これは、ユーザーが必要に応じて異なる機器またはパターンをスワップアウトするのを可能にする。

追加として、従来のシステムは典型的には、グレースケールカメラおよびプロジェクタを使用する。本実施形態では、本システムはカラーパターンおよびカラーのカメラを使用でき、それは恐らく少ないパターンを使用すること、従って比較的良好な性能を有することを意味し得る。

いくつかの事例では、本システムを訓練するために既知の訓練物体の材料を使用することは、ユーザーが最終的にその材料をもつ物体のクラスをスキャンしようとする場合、それは一層良好な性能を提供できるので、有用であり得る。

図９は、本明細書で説明するシステムの一実施形態の例示的なセットアップを示す。プロジェクタは縞パターンを物体（ウサギ）上に投影する。投影された各画素は、ほぼ同一のエピポーラ面内でカメラ上の画素によって受信される。このようにして、本システムは、各カメラ画素ｐのステレオ対応を見つけるために能動的な照射下で１以上の画像を捕捉できる。

本実施形態のシステムは従って、（ほとんど）何でも、迅速に、低電源で、（所与のシステムに対して）高精度で、かつ比較的高い空間密度で、再構成することができる。追加として、本システムは、いかなる較正もしくは新しいプログラミング、または事前の訓練データなしで、これらの機能を新しいイメージングシステムに対して一般化することが可能であり得る。

いくつかの事例では、本システムは、後処理、例えば、クリッピング、局所的クリーンアップ、大域的最適化、または同様のものなど、を使用できる。

図１２は、各画素に中心がある３画素近傍を使用して復号するためのシステムの実施形態の略図例を示す。

図１３は、ニューラルネット復号のためのシステムの実施形態の略図例を示す。

本開示の実施形態では、本発明人は、構造化光イメージングシステムの最適な性能のための光学的自動調整を開発した。光学的自動調整は、少なくとも、（１）静止場面のマルチショット深度取得のために使用する最適な照射、および（２）捕捉されたショットから場面の深度マップへの最適なマッピング、をオンザフライで学習できる最適化を可能にする。例えば、本発明人により本実施形態を使用して実行された実験例を示す図１６を参照されたい。図１６の上の行には、スマートフォンで捕捉された最適な構造化光の例が示されている。ランダムに着色されたボードをＯｐｔｏｍａ４ＫプロジェクタおよびＨｕａｗｅｉＰ９フォン（左上隅）の前に位置付け、それらを５つのカラーストライプパターン（中央上）に対して自動調整し、それらを使用して新しい場面（右上の挿入）を再構成した。図１６の中央および下の行には、低性能プロジェクタでの最適な構造化光が示されている。ＬＧＰＨ５５０プロジェクタおよびモノクロＩＤＳ－ＵＩ３２４０ＣＰカメラが、本明細書で説明するボードを用いて４つのグレースケールパターンに対して自動調整され、次いで場面を再構成した。色分けされた視差マップが４つの異なる方法で取得された：つまり、本実施形態（「我々のもの」）に従って自動調整されたパターンを用いて、最適化されたアルゴリズムを生の画像に適用した；他の３つのアプローチでは各々に対する最良性能パラメータ設定で、画像を線形化した。各深度マップには、ゼロ誤差画素の割合と一緒に、ゼロ視差誤差の画素だけが示される。

本実施形態では、光学的自動調整は、それが最適化しているシステムをリアルタイムで制御し、それで画像を捕捉することによって処理できる。いくつかの事例では、要求される最適化に対する入力はショット数だけであり、任意選択のペナルティ関数が各画素の深度誤差に適用される。いくつかの事例では、光学的自動調整の本実施形態は完全に自動であり、手動での初期化、パラメータ調整、システム較正、または事前の訓練データを必要としない。いくつかの事例では、光学的自動調整の本実施形態は、手近にあるシステムに対して予期される再構成誤差の厳密に導出された推定値を最小限にできる。いくつかの事例では、光学的自動調整の本実施形態は、対象のシステムまたは場面に対する正確な画像形成モデルを有することなく、この目標を最適化できる。

光学的自動調整の本実施形態のいくつかの事例では、最適化における最も困難な計算、例えば、システムの正確なモデルに依存する導関数を計算することなど、は、光領域で実行でき、それは実証可能な計算効率を提供する。好都合に、光学的自動調整の本実施形態は、イメージングシステムを、現実的な雑音および光学的不完全性の全てを含めて、それ自体、完全な（または完全に近い）「エンド・ツー・エンドモデル」として扱うことができる。例えば、図１７を参照すると、光学的自動調整の一実施形態の実装例が示されている。弁別可能イメージングシステムは、システムがそれらの挙動を光領域内で区別することにより、すなわち、それらの制御ベクトルを反復して調整し、画像を取得して、画像差を計算することにより、それらの挙動を「調べる（ｐｒｏｂｅ）」のを可能にする。図に示すように、プロジェクタ・カメラシステムは、投影パターンが制御ベクトルの役割を果たす弁別可能システムの一例である。プログラマブル源およびセンサーの多くの他の組合せは、本明細書で説明するように、この特性を持つことができる。

本開示は、一実施形態では、一部は数値的に、一部は光領域において実行する最適化アプローチを提供する。光学的自動調整は、Ｋ個の照射のランダムセットから始まり、それらを使用して実際の場面を照射し、実際の画像を捕捉して予期される再構成誤差の勾配を推定し、確率的勾配降下法（ＳＧＤ）に従ってその照射を更新する。いくつかの事例では、システムの光源は、それらの照射に対して少しの調整を可能にするのに十分に柔軟であり得、その場面のより高精度（であるが依然として雑音のある）の深度マップを反復して取得するするために独立した機構が利用可能である。

以前のアプローチおよび技術は一般に、システムの非常に正確なモデルまたは広範な訓練データを必要とし、他方、本実施形態はどちらも必要としない可能性がある。さらに、本実施形態は好都合に、「困難な」数値計算を「容易な」光学的なものと置き換える。さらに、光学的自動調整は、いくつかの事例では、小規模のニューラルネットワークを問題固有の損失で、雑音ラベルおよび雑音勾配、ならびに光領域内で一部、実装された訓練およびデータ増強方式を用いて、訓練できる。

好都合に、光学的自動調整の本実施形態は、グレースケールから、カラー、符号化イメージングまで、多くのタイプのシステムの最適化のための共通の計算フレームワークを可能にして、モダリティに関係なく最適化を可能にする。好都合に、光学的自動調整の本実施形態は、高精度の構造化光イメージング（カラーおよびラジオメトリック較正、デフォーカスモデリング、ならびに同様のもの）に対して必要な較正ステップの多くを取り除く。好都合に、光学的自動調整の本実施形態は、他のアプローチによって使用されるよりも遥かに高周波数のパターンを生成する。これは、構造化光に有用な空間周波数の帯域幅ははるかに広く、活用される場合に精度向上をもたらし得ることを示唆する。

ここで図１４を参照すると、一実施形態に従い、場面の深度イメージングを最適化するためのシステム１００が示されている。当業者によって理解されるように、いくつかの事例では、システム１００のいくつかの構成要素は、別個のハードウェア実装上で実行できる。他の事例では、システム１００のいくつかの構成要素は、ローカルまたはリモートに分散され得る１つ以上の汎用プロセッサ上で実装できる。

図１４は、システム１００の一実施形態の様々な物理的および論理的構成要素を示す。図のように、システム１００は、いくつかの物理的および論理的構成要素を有しており、１つ以上のプロセッサ１０２、データ記憶１０４．出力インタフェース１０６、入力インタフェース１１０、照射モジュール１０８、捕捉モジュール１０９、最適化モジュール１１２、再構成モジュール１１４、および構成要素が相互に通信するのを可能にするローカルバス１１８を含む。一実施形態では、モジュールは１つ以上のプロセッサ１０２上で実行できる。他の実施形態では、モジュールは特定のハードウェア内で、または専用プロセッサによって実装できる。いくつかの事例では、モジュールは、組み合わせるか、もっと多くのモジュールに分割するか、またはリモートシステム上で実装することができる。

出力インタフェース１０６は、本明細書で説明するように、別の電子装置またはコンピューティング装置がデータを送信するか、またはシステム１００からの出力を受信するのを可能にする。いくつかの実施形態では、出力インタフェース１０６はユーザーが、例えば、ディスプレイまたはモニターを介して、かかる出力を見るのを可能にする。いくつかの事例では、システム１００からの出力はまた、データ記憶１０４内に格納できる。入力インタフェース１１０は、単独で、または出力インタフェース１０６と共に、照射モジュール１０８および／または捕捉モジュール１０９からの指示を受けて、システム１００の内部または外部であり得る、画像センサー１３０およびプロジェクタ１４０などの、ある装置と通信できる。画像センサー１３０は、任意の適切な画像取得装置、例えば、可視スペクトルカメラ、赤外線カメラ、スマートフォンカメラ、画素単位符号化撮像カメラ、または同様のものにできる。プロジェクタ１４０は、照射を、任意の適切なスペクトルで、場面に投影するための任意の適切な装置、例えば、デジタルマイクロミラーデバイス（ＤＭＤ）ベースのプロジェクタ、レーザーベースのプロジェクタ、シリコン上液晶（ＬｉｑｕｉｄＣｒｙｓｔａｌＴｅｃｈｎｏｌｏｇｙｏｎＳｉｌｉｃｏｎ）（ＬＣｏＳ）ベースのプロジェクタ、および同様のものにできる。プロジェクタ１４０は、本明細書で説明するように、あるレベルの粒度または時空間解像度を有する。

プロジェクタ１４０は、構造化光を場面に投影し、画像形成を、極めてきめの細かい、ほぼ連続した方法で、制御するために使用できる。いくつかの事例では、プロジェクタ１４０は、場面の照射を、単一のプロジェクタ画素の個々の濃度の解像度で調整できる。いくつかの事例では、プロジェクタ１４０は、位相または偏光に対して同様に行うことができる空間光変調器を含むことができる。いくつかの事例では、プロジェクタ１４０は、レーザーの時間波形をサブマイクロ秒スケールでスムーズに制御できるプログラマブルレーザードライバーを含むことができる。いくつかの事例では、プロジェクタ１４０は、符号化露光または補正機能を備えたセンサーを含むことができ、それらの時空間応答を画素およびマイクロ秒スケールで調整できる。

システム１００は、照射および感知のきめの細かい制御のためにプロジェクタ１４０を使用するプログラマブルイメージングシステムを最適化するために使用できる。例えば、システム１００は、弁別可能イメージングシステムを近似できる。一般に、弁別可能イメージングシステムは、それらの設定に対する少しの調整が、それらが出力する画像に対して小さくて、予測可能な変更を生じ得る特性を有する（図１７に例示されるような）。

本実施形態では、イメージングシステムは次の２つの条件が保持される場合、弁別可能であると考えられる：
１）その源、センサーおよび光学系の挙動が露光時中に、連続値を取る、制御ベクトルと呼ばれる、単一のＮ次元ベクトルによって決定される、および
２）静止場面Ｓに対して、システムの制御ベクトルに関する画像の方向導関数、すなわち、

が、制御ベクトルｃ、調整ａに対してうまく定義され、式中、ｉｍｇ（ｃ，Ｓ）は無雑音画像である。

好都合に、弁別可能イメージングシステムは、光学的自動調整の可能性を開き、それらの挙動を光領域弁別（ｏｐｔｉｃａｌ－ｄｏｍａｉｎｄｉｆｆｅｒｅｎｔｉａｔｉｏｎ）によりリアルタイムで反復して調整して、所与のタスクにおける性能を最適化する。

深度イメージングのために、再構成モジュール１１２は最適化に対するソリューションを決定する。決定では、次を使用する：
・制御ベクトルｃに応答して、雑音のある強度画像ｉを出力する弁別可能イメージングシステム、
・制御ベクトルｃ_１，．．．，ｃ_ｋで取得された一連のｋ≧１の画像から深度マップｄを推定する弁別可能再構成関数

ここでθは追加の調節可能なパラメータ（本明細書で参照される「再構成パラメータ」を含む）のベクトルである、および
・推定された深度マップとグラウンドトゥルース深度マップｇとの間の差をペナルティ化する誤差関数ｅｒｒ（）。

最適化モジュール１１２は、予期される再構成誤差を最小限にするパラメータを決定することにより最適化に対するソリューションを決定する：

尤もらしい場面の雑音および空間に関して期待値をとる。

図１５は、一実施形態に従い、場面の深度イメージングを最適化するための方法２００を示す。

ブロック２０２で、照射モジュール１０８はプロジェクタ１４０に照射の初期セットで場面を照射するように指示する。ブロック２０４で、捕捉モジュール１０９は画像センサー１３０と通信して、照射中に場面の画像を捕捉する。ブロック２０６で、最適化モジュール１１２は、再構成誤差の勾配を推定する。ブロック２０８で、再構成モジュール１１４は再構成を判断し、再構成は、再構成誤差が最小になるまで反復して実行することを含み、ブロック２１０で、最適化モジュール１１２は、再構成誤差の勾配を最小限にすることによって照射を更新し、ブロック２１２で、照射モジュール１０８は、プロジェクタ１４０に更新された照射で場面を照射するように指示し、ブロック２１４で、捕捉モジュール１０９は画像センサー１３０と通信して、照射中に場面の更新された画像を捕捉し、ブロック２１６で、再構成モジュール１１４は再構成深度マップを推定し、ブロック２１８で、最適化モジュール１１２は、再構成誤差の更新された勾配を推定する。ブロック２２０で、出力インタフェースは再構成を出力する。

いくつかの事例では、照射の初期セットはランダムに選択できる。いくつかの事例では、最適化モジュール１１２は、照射のセットの各々に対して制御ベクトルをさらに決定し、制御ベクトルは照射のためのパターンを含む。さらなる事例では、再構成モジュール１１４は、捕捉された各画像に対する深度マップを推定するための弁別可能再構成関数をさらに決定し、弁別可能再構成関数はそれぞれの制御ベクトルを含む。さらなる事例では、再構成誤差の勾配を推定することは、推定された再構成深度マップとグラウンドトゥルース深度マップとの間の差をペナルティ化することを含む。さらなる事例では、グラウンドトゥルース深度マップは、ランダムにテクスチャ化された表面を使用して決定される。さらなる事例では、再構成誤差の勾配を最小限にすることは、訓練可能な確率的勾配降下法（ＳＧＤ）を使用して再構成誤差を最小限にする制御ベクトルを決定することを含む。さらなる事例では、再構成誤差の勾配は、制御ベクトルを含む画像ヤコビアンおよびそれぞれの捕捉された画像内の画素を使用して判断される。さらなる事例では、再構成深度マップを推定することは、画像ヤコビアンを使用して方向導関数を決定することを含む。

さらなる事例では、再構成を判断することはステレオ対応を判断することをさらに含み：捕捉された画像の画素の近傍において観測された強度を特徴ベクトルとして扱うこと、捕捉された画素強度を、場面で投影された構造化光パターンの線形セグメントにおける強度のベクトルと比較すること；および訓練された人工ニューラルネットワークを使用して、ゼロ平均正規化相互相関（ＺＮＣＣ）スコアに従って最も類似している構造化光パターンの部分に最も類似している捕捉された画像の部分を選択すること、を含む。

本実施形態では、画像および深度マップの両方はＭ個の画素の行ベクトルとして表されると仮定される。光源、センサー、再構成関数および誤差関数の異なる組合せは、システム最適化問題の異なるインスタンスをもたらす（図１８に例示されるとおり）。相関飛行時間（ＴｏＦ）システムは、例えば、Ｋ≧３の場面の画像を捕捉し、ベクトルｃ_１、．．．、ｃ_ｋは、それらの関連付けられたレーザー変調および画素復調関数を制御する。他方、深度を計算するためにＫ個の画像に依存するアクティブ三角測量システムでは、制御ベクトルは投影パターンであり得る（図１７に例示されるとおり）。両方の事例では、再構成関数は、各画素におけるＫ個の観測を深度（またはステレオ視差）値にマップするために使用できる。また、両方の事例では、再構成関数は、本明細書でθとして定義されて説明される、調節可能な再構成パラメータのセットによって制御できる。

図１８は、本実施形態と互換性がある装置および関数の例を示す。誤差関数は画素単位誤差ペナルティの合計であるので、画素単位ペナルティρ（）に対するいくつかのオプション例が示されており、各々、最適化されたシステムに対して指定される深度イメージング挙動をもたらす。

画像形成プロセスに対する完全な順モデルがある仮想事例では、（１）システムの光源、光学系、およびセンサー、（２）撮像すべき場面、ならびに（３）それらの間の光輸送、に対する完全なモデルがあろう。この事例では、最適化技法、例えば、確率的勾配降下法（ＳＧＤ）は、システム最適化目標の最小化を数値的に可能にする。合計によってそれを近似することにより、それは、現実的な雑音に対して、および適正に引き出された合成訓練場面の大規模なセットに対して、再構成誤差を評価する。次いで、その勾配が、未知のθ、ｃ_１、．．．、ｃ_ｋに関して評価されて、それを（局所的に）最小限にするためにＳＧＤが適用できる。

誤差関数中の第１の期待値を合計で置き換えると、次が提供される：

式中、ｄ^ｔ、ｇ^ｔは、それぞれ、ｔ番目の訓練場面Ｓ^ｔの再構成された形状およびグラウンドトゥルース形状であり、ｘｅｒｒ（）はその予期される再構成誤差である。

実際には、イメージングシステムおよびその雑音特性に関して、それらを正確に再現するために十分な情報がないか、または画像形成順モデルが複雑もしくは費用がかかりすぎてシミュレートできない可能性がある。本実施形態の弁別可能イメージングシステムは、システム１００が、困難な勾配計算を光領域内で直接実装することによりこれらの技術的な限界を克服するのを可能にできる。

一実施形態では、予期される誤差のθおよびｃ_１、．．．、ｃ_ｋに関して勾配を評価するためにＳＧＤが使用でき：
簡潔にするために評価の点が省略され、^Ｔは行列転置を示す。前述の式中の全ての個々の項のうち、１つだけがシステムおよび場面の正確なモデルに依存する：画像ヤコビアンＪ（ｃ，Ｓ）。

システム１００は、Ｎ個の要素の制御ベクトルに応答してＭ個の画素の画像を捕捉でき、Ｊ（ｃ，Ｓ）はＮ×Ｍ行列である。このようにして、この行列の要素［ｎ，ｍ］は、
制御ベクトルの要素ｎがごくわずかだけ調整される場合、画像画素ｍの強度がどのように変化するかをシステムに伝える。そのため、それは行列ベクトル積によってシステムの方向画像導関数に関連付けられる：

従って、差分イメージングシステムおよび場面Ｓの両方への物理的アクセスを有すると、システム１００は、システムまたは場面のいかなる計算モデルも必ずしも要求することなく、前述の行列の個々の列を計算できるということになる。システム１００は、プロジェクタ・カメラシステムを用いた図１７の例に示すように、行列ベクトル積の離散バージョンを光領域内で実装する必要があるだけである。例えば、次の「光学的サブルーチン（ｏｐｔｉｃａｌｓｕｂｒｏｕｔｉｎｅ）」がシステムによって続けられ得る：

前述の光学的サブルーチンは、システムおよび場面モデルに依存する、数値的なＳＧＤを、「自由な」光学的アプローチに変えるのを可能にする。かかるアプローチを考慮して、システム１００は、システムおよび場面のモデル化を必要とする画像捕捉操作を置き換えることができる。

他の事例では、他の最適化アプローチおよび／またはアルゴリズムが使用できる；例えば、導関数に依存しないもの（導関数を使用しない最適化アルゴリズムと呼ばれる）が、必ずしもその導関数およびヤコビアンを推定することを要求することなく、再構成誤差を最適化するために使用できる。かかるアプローチの一例は、粒子群最適化（ＰＳＯ）であり、それは、以前の反復内で評価された目的関数の履歴に基づいて各反復内の最適化パラメータを更新する。しかし、このタイプのアプローチは、収束率に関してＳＧＤほど効率的ではない可能性がある。

光領域ＳＧＤの実際の実装は、いくつかの技術的課題に直面し得る、例えば：（１）現実世界の訓練物体の大規模なセットを撮像することが客観的に困難である、（２）閉じた式は一般に、その勾配、画像ヤコビアンを評価するために、場面の予期される再構成誤差に対して導き出される必要がある、および（３）一般に、総当たりで取得するには大きすぎる。システム１００は、本明細書で説明するようなこれらの技術的課題に、例えば、三角測量ベースのシステムに対するシステム最適化問題の構造を利用することによって対処する。

以下の表１では、左側は数値的ＳＧＤアプローチのステップを概説し、結果として生じる光領域ＳＧＤのステップが右側に示されており、ボックスでそれらの差を概説している。

前述のアプローチの両方で、最適化は最適化パラメータ（すなわち、制御ベクトルおよび再構成パラメータ）の初期化で始まる。初期化パラメータの選択は最適化に顕著な影響を及ぼし得る。例えば、本実施形態では、次の３つのタイプの初期化が使用できる：１）制御ベクトルおよび再構成パラメータの全部をランダム値で初期化する、２）定数を加算したダウンスケールされたランダム値（低コントラストのランダム値となる）で最適化パラメータを初期化する、および３）制御ベクトルを、以前に、または文献の一部として使用されたものなどの、所定の関数で初期化する。既存のパラメータで開始すると、より迅速で良好な収束となる。例えば、構造化光３Ｄイメージングシステム（制御ベクトルが照射パターンを指す場合）の事例では、パラメータは、正弦波パターン、Ｍｉｃｒｏ－Ｐｈａｓｅシフトパターン、Ｇｒａｙ符号、または同様のもので、初期化できる。例えば、飛行時間型３Ｄイメージングシステム（制御ベクトルが変調および復調信号を指す場合）の事例では、初期化は、正弦波パターン、パルスの訓練、ステップ関数、ハミルトン関数、または同様のものに設定できる。

いくつかの事例では、数値的および光学的ＳＧＤの両方で、ユーザーは最適化された制御ベクトルに対して制約のセットを定義できる。これらの制約は潜在的に任意のユーザー定義関数を指すことができるが、本実施形態に関して次の３つの特定の制約が企図される：１）制御ベクトルの周波数成分、２）制御ベクトルの最大振幅、および３）制御ベクトルによって引き起こされる総エネルギー消費。例えば、構造化光３ＤイメージングおよびＴｏＦイメージングの事例では、制御ベクトルは照射パターンを指し得、システムは実際には、投影パターンの振幅および周波数成分、ならびにそれらの総エネルギー消費に制約を課すことができる。

再構成モジュール１１４は、構造化光三角測量（図１７に例示されるとおり）のためにプロジェクタ・カメラシステムを最適化する問題に対処できる。この設定では、ｃ_１、．．．、ｃ_ｋは、連続して場面に投影された１Ｄパターンを表し、再構成モジュール１１４は、全てのカメラ画素とは無関係に、そのステレオ対応をプロジェクタ平面上で決定する。この操作は、画素対列（ｐｉｘｅｌ－ｔｏ－ｃｏｌｕｍｎ）対応マップｄを決定することに相当すると見なすことができ、ここでｄ［ｍ］は、カメラ画素ｍのステレオ対応を含むプロジェクタ列である（図１８に例示されるとおり）。再構成モジュール１１４は従って、ｄにおける誤差を最小限にするようにシステムを最適化できる。画素対列対応マップは一般に、システムのエピポーラ幾何形状、放射状歪みまたはユークリッド較正の知識を要求しない。結果として、光学的自動調整は、この情報なしでさえ、システム１００によって実行できる。

一例では、物体が、そのグラウンドトゥルース対応マップｇが分かっている画像センサー１３０の前に置かれると仮定する。原理上は、各カメラ画素の列対応が他の全てとは無関係に推定される必要があるので、各画素は再構成タスクの別個のインスタンスと考えることができる。これらのインスタンス間の相関を減らすために、再構成モジュール１１４は訓練のためにランダムにテクスチャ化された表面を使用できる。これは、再構成モジュール１１４が、各カメラ行をランダムにテクスチャ化された点の異なる「訓練場面」として扱うのを可能にする（一例が図１９Ａに示されている）。

本発明人によって実施された実験では、図１９Ａおよび図１９Ｂは、グレースケール（図１９Ａ）およびＲＧＢ（図１９Ｂ）構造化光システムを最適化するために使用される訓練場面の例を、それらそれぞれのカメラから見えるように示す。１５０行のランダムに選択されたサブセットが光学的ＳＧＤのミニバッチ（図１９Ａにおける水平線）を定義する。一般に、これらの場面は、完全に平面でも完全に一様でもないので、従来の「較正物体」として考えるべきではなく、それらの幾何形状および外観の正確な事前知識は必要としない。図１９Ｃおよび図１９Ｄは、はるかに高精度の独立したアプローチを使用して５０のＳＧＤ反復ごとにオンラインで再計算された、それぞれ図１９Ａおよび図１９Ｂに対するグラウンドトゥルース対応マップを示す。

類似のアプローチでは、表面下散乱、表面相互反射または間接光の他の形式を示す異なるランダムにテクスチャ化された表面が、訓練場面として使用できる。かかる訓練場面は、間接光での場面の再構成のためにパターンを特別に最適化するための光学的自動調整フレームワークをもたらし得る。本発明人によって実施された実験では、図２３は、間接光を示す訓練場面の一例を示す。図２３に示される結果は、間接光のある場面に関する訓練は、間接光のある他の場面を再構成するために最適化されたパターンの性能を高めることができることを示す。

一実施形態では、システム１００はプロジェクタ１４０および画像センサー１３０を、それぞれ２つの非線形「ブラックボックス」関数ｐｒｏｊ（）およびｃａｍ（）として扱うことができる。これらは、装置非線形性ならびにパターンおよび画像の内部低水準処理（例えば、非線形コントラスト強調、カラー処理、デモザイク処理、雑音除去、または同様のもの）を吸収する。一般的なプロジェクタ・カメラシステムにおける画像形成の一例が図２０に示されている。プロジェクタ関数ｐｒｏｊ（）はデジタル数字の制御ベクトルを出射輝度値（ｏｕｔｇｏｉｎｇｒａｄｉａｎｃｅｖａｌｕｅ）のベクトルにマッピングする。同様に、カメラ関数ｃａｍ（）は、センサー照度値（ｉｒｒａｄｉａｎｃｅｖａｌｕｅ）のベクトルを処理された画像を保持しているベクトルにマッピングする。好都合に、光領域ＳＧＤはいずれの関数も知ることなく、エンドツーエンド最適化を可能にする。

プロジェクタ１４０と画像センサー１３０との間で、光伝播は線形であり、従って、輸送行列Ｔ（Ｓ）によってモデル化できる。いくつかの事例では、この行列は未知であり、一般に、場面の形状および材料特性、ならびにシステムの光学系に依存する。従って、画像およびそのヤコビアンは次によって与えられることになる：

ここで雑音は信号依存の成分を含み得、ｉｒｒは画像センサーの１３０の画素上に入射する照度のベクトルを示す。従って、システム１００は、間接光がない場合に光学的自動調整を使用して、その固有の非線形性、光学的不完全性、および雑音特性をそれに吸収させ得る。

一実施形態では、線形システムおよび低信号非依存雑音に対して、対応は、次により、最尤意味において最適になるように決定できる：（１）画素ｍで観測された強度ｉ_１［ｍ］、．．．、ｉ_Ｋ［ｍ］をＫ次元「特徴ベクトル」として扱うこと、（２）それを、各プロジェクタ列における強度のベクトルと比較すること、および（３）ゼロ平均正規化相互相関（ＺＮＣＣ）スコアに従って最も類似している列を選択すること：

ここで２つのベクトルｖ_１、ｖ_２に対して、それらのＺＮＣＣスコアはｖ_１－ｍｅａｎ（ｖ_１）およびｖ_２－ｍｅａｎ（ｖ_２）の正規化相互相関である。

再構成モジュール１１４は前述のアプローチを３つの方法で一般化できる。第１に、特徴ベクトルを拡張してそれらの３×１近傍、すなわち、各画像内の強度ｉ_ｋ［ｍ－１］、ｉ_ｋ［ｍ＋１］および各パターン内のｃ_ｋ［ｎ－１］、ｃ_ｋ［ｎ＋１］を含めることによる。これは、とても小さい画像近傍内に存在し得る強度相関を利用するのを可能にする：

ここで、ｆ_ｍ、ｆ_ｎは、これらの強度を収集するベクトルである。第２に、再構成モジュール１１４はプロジェクタの応答曲線を、所定の数の線形セグメント、例えば、３２のセグメント、から成る未知の単調なスカラー関数ｇ（）としてモデル化できる。これは、学習可能な構成要素を再構成関数に導入し、その３２次元パラメータベクトルは、ｃ_１、．．．ｃ_ｋと共に、光学的ＳＧＤによって最適化できる。第３に、再構成モジュール１１４は、近傍相関をより良く利用するために第２の学習可能な構成要素を追加でき、スカラー応答ｇ（）単独だけでは捕捉できない雑音およびシステム非線形性を吸収する。一実施形態では、この学習可能な構成要素は、それぞれカメラおよびプロジェクタ用の２つの残余ニューラルネットワーク（ＲｅｓＮｅｔ）ブロックを含むことができるが；任意の適切な機械学習パラダイムが使用できる。

式中、

および

は、次元３Ｋ×３Ｋの２つの完全に結合された層およびその間に正規化線形ユニット（ＲｅＬＵ）をもつニューラルネットである。従って、この実施形態では、再構成関数内、および従ってベクトル内、の学習可能なパラメータの総数は、３６Ｋ^２＋３２である。

線形プロジェクタ・カメラシステムおよび低信号非依存雑音に対して、１行の予期される誤差に対する厳密な近似が、その画素のＺＮＣＣスコアベクトルから取得できる：

式中、・はドット積を示し、τはｓｏｆｔｍａｘ温度であり、ｚ_ｍは上述され、ｉｎｄｅｘはそのｉ番目の要素がそのインデックスｉに等しいベクトルであり、ｅｒｒ（）は本明細書で定義される。厳密に言えば、行固有の予期される誤差に対するこの近似は、ＺＮＣＣ３およびＺＮＣＣ３－ＮＮ類似性または一般的な非線形システムには適用されない可能性がある。それにもかかわらず、本発明人は、それが実際には非常に効果的であることが分かったので、それを光学的ＳＧＤ目標で使用する。

本実施形態における画像ヤコビアンは非常に大規模であり得るが、それは一般に、非常にスパースでもある。これは、ヤコビアンのいくつかの行を「並行して」光領域サブルーチンの１回だけの呼出しから取得するのを可能にする。具体的には、Ｎ／Ｌ均等間隔の非ゼロ要素をもつ調整ベクトルが、その画素がヤコビアンのＮ／Ｌ行の合計である画像を生成する。従って、Ｌがこれらの行内での非ゼロ要素間の重なりを回避するのに十分に大きい場合、行は正確に回復できることになる。

一実施形態では、光学的自動調整のための対応のより区別できるセットを生成するために、再構成モジュール１１４は、数反復ごとにパターンを画素のランダム数だけ環状にシフトできる。パターンを効果的にシフトすることは、場面の異なるバッチに対する訓練につながり、ＳＧＤ誤差に対してさらに正確な近似を提供できる。その上、環状シフトを用いると、最適化中に捕捉された画素は、プロジェクタの全視野をカバーすることを要求しない。従って、それは、カメラ画像のより小さい領域を見ることにより、最適化を速めるのに役立ち得る。

最適化されたパターンは他の撮像条件に対してうまく一般化するが、システム１００は、最良の性能を得るために特定の所望の撮像シナリオ下でシステムを最適化できる。注目すべき一例は、低ＳＮＲ領域（激しい雑音の存在、場面上の制限された照度、および同様のものに起因した）である。しかし、かかる場面で計算されたヤコビアンは、雑音によって影響を及ぼされ得、それ故、非常に低照度の場面において直接に、システムの自動調整を防ぐ。小さい雑音は最適化がより堅牢になるのに役立ち得るが、極端な雑音で学習することは非常に困難であり得る。かかる事例では、データ増強が、訓練のために使用する低照度条件においてあまり雑音のない場面サンプルを合成的に生成するために使用できる。このようにして、捕捉された画像（複数の行から成る）だけでなく、その画像のダウンスケールされた（すなわち、より暗い）バージョンも、更新を評価するために各反復において使用される。このアプローチは、さらに変化する場面を最適化に対して合成的に導入するとも見ることができる。本発明人の実験例は、このアプローチは低ＳＮＲ条件に対して最適化されたパターンの一般化に顕著な影響を及ぼすことを示す。

多くの構造化光技術は、特定の周波数をその構成成分として選択することを要求する。例えば、ＺＮＣＣ最適化されたパターンは一般に、その周波数成分に対する上限に依存するか、またはマルチ位相シフト（ＭＰＳ）は一般に、ユーザーがその構成する正弦波パターンの主周波数を選択することを必要とする。これらの技術に対して周波数を選択すると、それらの性能に多大な影響を与えることができる。最適な周波数の選択は場面およびイメージングシステムに依存し、退屈なタスクであり得る。しかし、好都合に、本実施形態は、ユーザーからの周波数の入力を要求しない。このようにして、パターンは、システムの特定の特性に応答して、それらの周波数成分を自動的に更新できる。

例示的な事例では、ＳＧＤオプティマイザは、ＲＭＳｐｒｏｐニューラルネットワークオプティマイザを使用して、Ｔｅｎｓｏｒｆｌｏｗをフレームワークとして選択できる。パターンは、小さい均一な雑音を追加した定数行列で初期化できる。学習率は、例えば、０．００１に設定でき、それを、例えば、５００反復ごとに、半分に減衰させる。ステップサイズは、例えば、ボードに関する訓練のためにＬ＝７および間接光での物体に関する訓練のためにＬ＝２３。本発明人は、ヤコビアンは後続の２つの反復において極めてわずかしか変化しないことに気付いている。それ故、最適化の速度を上げるために、いくつかの事例では、ヤコビアンは、例えば、各１５反復で推定でき、同じヤコビアンを使用してそのスパンにおける勾配全体を評価できる。いくつかの事例では、ランダムな循環シフトが１５反復ごとにパターンに適用できる。例示的な事例では、システムを自動調整するためのカメラ行数が全行数の１５％に経験的に設定できる。場面は微振動を感知できるので、システム１００は、例えば、３０のＺＮＣＣ最適化されたパターンを投影することにより、その堅牢性を確実にするために５０反復ごとにグラウンドトゥルースを捕捉できる。我々は、グラウンドトゥルース測定の我々の選択を、１６０の従来の位相シフトされたパターンの投影とそれを比較することによって検証した。実験例では、制限された量の間接光のある全ての場面（訓練ボードを含む）に対して、正確な対応マッチは画素の９７％を上回ることができ、残りの３％は１つの画素が離れている。この実験では、最適化は、標準的な消費者レベルのプロジェクタおよびカメラを用いて４パターンを自動調整するのに１時間かからず、１０００反復未満で収束することが分かった。

一例では、本発明人は、光学的に最適化された一連のパターン、および異なる撮像条件に対するそれらの一般化の性能を測定した。この実験例では、本明細書で説明する、光学的自動調整フレームワークは、非線形の消費者レベルのプロジェクタ（ＬＧ－ＰＨ５５０）および線形カメラ（ＩＤＳ－ＵＩ３２４０ＣＰ）から成る、特定の３Ｄイメージングシステムに対して、グレースケールパターンの最適化されたシーケンスを生成するためである。全てのパターンは、訓練物体としてテクスチャ化されたボード（図２０の左側に例示されているとおり）で最適化された。

図２１は、４パターンのシーケンスが、ｍａｘ－ＺＮＣＣ３－ＮＮを再構成関数として用い、かつε＝０のε精度を誤差関数とする自動調整を通してどのように発展するかを示す実験例を示す。この実験例では、パターンは、訓練ボードに関して最適化されたが、それは、様々なアルベド、材料、および配向を有する、サンプルテスト場面に対してうまく一般化する。反復が進むにつれて、パターンは自動的に自身を調整して、その訓練ボードに対してグラウンドトゥルースにさらに近い視差マップを出力し、同じ傾向がテスト場面に当てはまる。

表２は、図１６（下の行）に示される場面に対してであるが、異なる露光下での、他の符号化方式（Ｋ＝４）との完全な定量比較を示す。各パターンの連続に対して、実験例では、異なる再構成関数下で性能を評価し、それらの対応が完全に正しい画素の割合を示す。結果は、ｍａｘ－ＺＮＣＣ３－ＮＮで光学的自動調整されたパターンは、たとえそれらのネイティブのデコーダではない強化された再構成関数を用いてでも、他の符号化方式よりも優れていることを示唆する。さらに、場面の広範囲にわたるアルベドおよび配向を考慮すると、結果は、ボードに関する訓練は他の場面に対して一般化可能にするのに十分であることを示す。

表２は、最良の最大周波数（それぞれ、１６および３２）が選択されたＭＰＳおよびＺＮＣＣを示す。ｍａｘ－ＺＮＣＣ３－ＮＮのために、ニューラルネットワークは各パターンに対して個々に訓練された。プロジェクタは非線形であるので、他の技術を評価するために、システム１００は較正を通して線形化された。いくつかの事例では、光学的パターンは、その周波数成分に対していかなる較正も指定も行うことなく、ネイティブシステム上で実行する。

図２２は、同じ自動調整された４パターンの連続（図２１に示されて、表２で強調されている）の再構成結果を、ｍａｘ－ＺＮＣＣ３によって再構成された、他の符号化方法と対照して示す。カメラの絞りは、低ＳＮＲ領域において異なる方法の性能を示すように特別に設定される。視差マップは、その推定された視差がグラウンドトゥルースと正確に同じである画素だけを示すようにフィルタ処理される。グラウンドトゥルースは、１６０の高周波数位相シフトされた余弦パターンを投影することによって獲得される。本実施形態の、光学的に最適化されたパターンは、他の符号化方法（同様にｍａｘ－ＺＮＣＣ３再構成関数によって強化される）よりも優れてことが分かった。結果は、一般的な光学的自動調整パターンは他の幾何形状および材料に対して一般化できるだけでなく、低ＳＮＲ条件においても良好に実行できることを示す。

図２２は、４つのパターンを非常に暗い場面に投影することによって取得される視差マップの例を示す。中央および右の列は、フィルタ処理された（主画像）視差マップおよび生の（重ね合わせた）視差マップを示す。場面画像をもっと良く見せるために、生のカメラ画像が、ガンマ関数を適用する（生の画像が場面画像と重ね合わされる）ことによって明るくされる。他の技術を再構成するために、ｍａｘ－ＺＮＣＣ３が使用されたが、本実施形態のパターンはｍａｘ－ＺＮＣＣ３－ＮＮに対して最適化された。正しい視差をもつ画素の割合は上の各視差マップに示されている。

実験例では、一般的な光学的自動調整されたパターンは、多種多様な物体および撮像条件（例えば、異なる形状および材料、低ＳＮＲ条件、および同様のもの）で、うまく機能することが分かった。いくつかの事例では、システム、物体または撮像条件に関する事前知識が存在する場合、システム１００は所望のセットアップに対してパターンを調整できる。例えば、間接光のある他の場面を再構成するためにシステムを特別に最適化するために、光学的自動調整が間接光を用いて物体に関して実行できる。図２３は、間接光の有り無しで訓練された、光学的自動調整されたパターン（Ｋ＝４、ε＝３で最適化されて、ｍａｘ－ＺＮＣＣ３－ＮＮによって再構成された）の性能を比較する例である。この例では、パターンは、間接光で特別に最適化されて、同様の挙動での場面の再構成において顕著な精度ゲイン（ａｃｃｕｒａｃｙｇａｉｎ）を示す。

図２３は、同量の間接光を示す他の場面の再構成において性能を増強できる間接光でパターンを調整することを示す視差マップの例を示す。視差マップの精度をより良く可視化するために、各々に対して、グラウンドトゥルースに対するその誤差マップも重ね合わされる。

別の実験例として、図２４では、光学的に自動調整されたパターンが特定のイメージングシステムと共に、本実施形態に従い、他のシステム上でどのように動作するかを調査する。これらの実験例では、構造化光三角測量をシミュレートするために、２つの異なるカメラ・プロジェクタのペア、および、Ｍｉｔｓｕｂａ－ＣＬと呼ばれる、計算光輸送レンダラも用いて、実験を実行した。全てのパターンシーケンスは、再構成関数としてｍａｘ－ＺＮＣＣ３－ＮＮを用いてＫ＝４でε＝０に対して最適化される。定量的結果および最適化されたパターンの周波数成分も、調整されたパターンは訓練システムに対して特別に最適化されたことを示す。これらのパターンは、それらが訓練されたシステムの特定の特性に応答して異なって調整された。

図２４の上は、実験例において、３つの異なるシステム上で最適化されて、他のシステム上でテストされたパターンを示す。プロジェクタ・カメラのペアはＬＧ（ＰＨ５５０）－ＡＶＴ（１９２０）およびＰＩＣＯ－ＩＤＳ（３２４０）であり、レンダラはＭｉｔｓｕｂａ－ＣＬＴである。全てのシステムに対する訓練物体はランダムなテクスチャをもつボードであり、サンプル場面上でテストされた。数は、完全に正しい視差をもつ画素の割合を示す。図２４の下は、実験例で、非常に異なった挙動を示す、異なる光学的自動調整されたパターンに対する周波数成分の平均の大きさ（ＤＦＴ）を示す。

本実施形態の光学的自動調整フレームワークの能力を調査するために、最適化アプローチが全く異なるシステムに適用された。第１に、図１６に示されるように、カラーパターンが、プロジェクタおよび携帯電話を使用するアクティブ三角測量に対して最適化された（Ｋ＝５、ε＝１、ｍａｘ－ＺＮＣＣ３－ＮＮ）。第２に、同じアプローチをレンダラに適用し、シミュレーション環境（制限された数のレンダリングサンプルに起因して異なる雑音分布を有する）においてかかるアプローチの適用可能性を評価し、データセットに関する自動調整されたパターンの一般化も調査した。異なる符号化下での形状モデルの再構成例が図２５に示されている。それは、ボードに関する訓練が広範な形状に対してうまく一般化できることも示す。第３に、本発明人は、４つの投影パターンを、２－ＢｕｃｋｅｔＣａｍｅｒａ（画素単位符号化撮像カメラ）に基づく単写３Ｄイメージングシステムに対して最適化した。図２６は、本実施形態で、自動調整されたパターンの性能の例（Ｌ１－ノルムおよびε＝１で最適化）を、ハミルトン符号化と比較する。

図２５は、実験例に対して、一連のパターンを調整するための最適化（Ｋ＝４、ε＝０、およびｍａｘ－ＺＮＣＣ３－ＮＮを再構成関数として用いて）全体を通した、３０の異なる形状モデル（赤）にわたる訓練精度および検証精度の進展を示す。形状モデルは、ＭｏｄｅｌＮｅｔと呼ばれる、公開されているデータセットの６つの異なるクラスから選択された。破線は、同じデータセットに関する他の符号化方式の性能を示す。結果が示唆するように、本実施形態に従った、ボードのような単純な物体を使用する光学的自動調整は、オーバーフィットを引き起こすようには見えない。

図２６は、実験例に対して、１つはＬ１－ノルムで、他方はε＝１での、パターンの２つのシーケンス（Ｋ＝４、ｍａｘ－ＺＮＣＣ３－ＮＮ）を最適化するために使用される光学的自動調整フレームワークを示す。結果は、ＺＮＣＣおよびハミルトン符号化方式とも比較される。主画像は、グラウンドトゥルースに対する視差の誤差マップであり、重ね合わされた画像は生の視差マップである。

本実施形態の光学的自動調整フレームワークは、少なくとも、アクティブ３Ｄ三角測量に対して最適な照射パターンを学習するためのアプローチを提供する。そのパターンは、特定の物体に関して学習され得るが、様々な形状、材料、および撮像条件に対して一般化可能であることが示される。このようにして、光学的自動調整フレームワークは、構造化光システムの最適化において非常に効果的であり得るだけでなく、画像形成モデルが明らかでない可能性がある計算イメージングにおける他の逆問題にも適用できる。

別の実施形態では、本明細書で説明する再構成および／または最適化アプローチは、飛行時間型３Ｄイメージングに対して使用できる。特定の事例では、連続波飛行時間（Ｃ－ＴｏＦ）カメラの使用は３Ｄイメージングに対する異なるアプローチを提示でき、この場合、変調光源（例えば、変調されたレーザー光源）を含むプロジェクタ１４０は、複数の周期的な光信号（変調信号と呼ばれる）を場面に放出する。この事例では、変調信号は場面を照射するための時間的に変化する照射パターンを定義する。画像センサー１３０は、各放出された信号に対して対応する露光プロファイル（変調信号と呼ばれる）をもつ、完全なサイクル中に受光された光を捕捉する。再構成モジュール１１４は、変調および復調関数の各ペアに対して捕捉モジュール１０９によって捕捉された観測を使用して各画素における場面深度を推定できる。図２７Ａに示される例では、構造化光三角測量に対して、符号化は一般に、プロジェクタ画素にわたる空間領域内で生じ、各カメラ画素における深度は対応するプロジェクタ画素を判断することによって推定される。対照的に、図２７Ｂの例に示されるように、ＴｏＦイメージングに対して、符号化は一般に、時間的領域内で生じる。この事例では、変調関数は光源画素によって放出され、復調関数は画像センサー画素に対する露光を制御する。

特定の事例では、一般性を失うことなく、画像形成モデルを定式化するために、プロジェクタおよび画像センサーは連結されると仮定できる。Ｃ－ＴｏＦイメージングシステムに対する画像形成モデルは次のように定式化でき：

式中、ｏ_ｑは画素ｑにおける観測のベクトルを示し、ｂ_ｑは画素ｑにおけるアルベドを指し、ａ_ｑは捕捉された画像内の画素ｑに対する周辺光であり、ｅ_ｑは観測における雑音のベクトルである。さらに、ｄ（ｑ）は画素ｑにおける深度を指定する。Ｆ（ｄ（ｑ））は、信号の各ペアに対するシフトされた変調信号（深度ｄに対応する）と復調関数との間の相互相関から成るベクトルを示し：

式中、Ｆ_ｉ（ｄ）はベクトルＦ（ｄ（ｑ））のｉ番目の要素を示し、Ｄ_ｉ（ｔ）およびＭ_ｉ（ｔ）は、それぞれ、復調および変調関数のｉ番目のペアを示し、ｃは光の速度を指す。前述の定式化はＦ（ｄ）を深度ｄに対応する符号ベクトルとして扱う。

本明細書で説明するように、構造化光三角測量と同様の方法で、システム１００は、深度推定における最良の性能を達成するために最適な変調および復調関数を決定することにより、変調・復調信号の各ペアに対応する捕捉された画像を使用して深度を推定するための最適な性能を達成できる。

一実施形態では、システム１００は、深度の範囲を離散化することによって、ＴｏＦ復号問題を離散問題に変換し、実際の場面の深度を含む深度ビン（ｄｅｐｔｈｂｉｎ）を決定する。次いで、復号は、構造化光三角測量のために本明細書で説明する深度を決定でき：各深度ビンにおける観測および相互相関符号・ベクトルのセットを所与として、どの深度ビンが尤度関数を最大化するかを判断する。本明細書で説明するＺＮＣＣデコーダは、対応する符号・ベクトルを検出するための最適化を決定し、その結果として各画素に対する深度を推定するために使用できる。より詳細には、深度は

として推定でき、ここでｐは各ビンのインデックスであり、ｄ_ｉは深度のｉ番目のビンの中心を指し、Ｎは、離散化のレベルを指定する深度ビンの数である。

本明細書で説明するように、構造化光三角測量と同様の方法で、表１に提示された光領域ＳＧＤおよび数値的ＳＧＤは、離散化された変調および復調信号の各ペア（図２７Ｂに示すとおり）を指す、制御ベクトルを最適化するために使用できる。

図２８は、一実施形態に従い、本明細書で説明するアプローチを使用して、場面の深度イメージングを最適化するための方法３００を示す。ブロック３０２で、照射モジュール１０８は、制御ベクトルの初期セットによって決定された照射パターンで１つ以上の場面を照射する。ブロック３０４で、捕捉モジュール１０９は、場面が照射パターンの少なくとも１つで照射されている間に場面の各々の１つ以上の画像を捕捉する。ブロック３０６で、再構成モジュール１１４は、再構成パラメータを用いて捕捉された画像から場面を再構成する。ブロック３０８で、再構成モジュール１１４は、再構成誤差および再構成誤差の勾配を制御ベクトルおよび再構成パラメータに関して推定する。ブロック３１０～３１８は、再構成誤差が所定の誤差条件に到達するまで反復して実行される。ブロック３１０で、再構成モジュール１１４は、再構成誤差を低減するために制御ベクトルのセットおよび再構成パラメータのセットの少なくとも１つを更新することにより制御ベクトルの現在のセットおよび再構成パラメータの現在のセットを決定する。ブロック３１２で、照射モジュール１０８は、制御ベクトルの現在のセットによって決定された照射パターンで１つ以上の場面を照射する。ブロック３１４で、捕捉モジュール１０９は、場面が照射パターンの少なくとも１つで照射されている間に場面の各々の１つ以上の画像を捕捉する。ブロック３１６で、再構成モジュール１１４は現在の再構成パラメータを使用して１つ以上の捕捉された画像から場面を再構成する。ブロック３１８で、再構成モジュール１１４は、更新された再構成誤差および再構成誤差の更新された勾配を現在の制御ベクトルおよび現在の再構成パラメータに関して推定する。ブロック３２０で、出力インタフェース１０６は、現在の制御ベクトルおよび現在の再構成パラメータの少なくとも１つを出力する。

本開示の実施形態は制御ベクトルおよび投影パターンの最適化を説明するが、最適化技術は他の適切な用途、例えば、エネルギー使用の最適化、に適用可能であり得ることが理解される。

本発明はある特定の実施形態を参照して説明されているが、その様々な修正は、本明細書に添付のクレームで概説されているとおり、本発明の精神および範囲から逸脱することなく、当業者には明らかであろう。上で列挙された全ての参照の開示全体が参照により本明細書に組み込まれる。

Claims

深度イメージングを最適化するためのコンピュータ実装方法であって、前記方法は、
制御ベクトルの初期セットによって決定された照射パターンで１つ以上の場面を照射することと、
前記場面が前記照射パターンの少なくとも１つで照射されている間に前記場面の各々の１つ以上の画像を捕捉することと、
再構成パラメータを用いて前記場面を前記捕捉された画像から再構成することと、
前記再構成誤差および前記再構成誤差の勾配を前記制御ベクトルおよび前記再構成パラメータに関して推定することと、
前記再構成誤差が所定の誤差条件に到達するまで、
前記再構成誤差を低減するために、制御ベクトルの現在のセットおよび再構成パラメータの現在のセットを、制御ベクトルの前記セットおよび再構成パラメータの前記セットの少なくとも１つを更新することにより決定することと、
制御ベクトルの前記現在のセットによって決定された前記照射パターンで前記１つ以上の場面を照射することと、
前記場面が前記照射パターンの少なくとも１つで照射されている間に前記場面の各々の１つ以上の画像を捕捉することと、
前記現在の再構成パラメータを使用して前記１つ以上の捕捉された画像から前記場面を再構成することと、
更新された再構成誤差および前記再構成誤差の更新された勾配を前記現在の制御ベクトルおよび前記現在の再構成パラメータに関して推定することと
を反復して実行することと、
前記現在の制御ベクトルおよび前記現在の再構成パラメータの少なくとも１つを出力することと
を含む、コンピュータ実装方法。
前記再構成誤差を推定することは、深度誤差をグラウンドトゥルースに関してペナルティ化する関数を評価することを含み、かつ前記再構成誤差を反復して低減することは確率的勾配降下法および導関数を使用しない最適化の少なくとも１つを実行することを含む、請求項１に記載の方法。
前記初期制御ベクトルは、既存の制御ベクトル、ランダム制御ベクトル、または低コントラストのランダム制御ベクトルの少なくとも１つを含む、請求項１に記載の方法。
制御ベクトルの前記セットを更新することは、前記照射パターンの周波数成分、前記照射パターンの振幅、および前記照射パターンの総エネルギー消費の少なくとも１つを含むユーザー定義制約を組み込むことも含む、請求項１に記載の方法。
前記１つ以上の場面は計算的に生成されて３Ｄ空間の選択されたサブセット内に存在するように制限され、前記１つ以上の場面を前記照射パターンで照射することは計算シミュレーションを含み、前記１つ以上の画像を捕捉することは画像形成を計算的にシミュレートすることを含み、かつ前記再構成誤差の前記勾配を推定することは画像形成モデルに基づき導関数を決定することを含む、請求項１に記載の方法。
前記１つ以上の場面は少なくとも１つの表面を含み、前記１つ以上の場面を前記照射パターンで照射することは光照射を含み、前記１つ以上の画像を捕捉することは前記１つ以上の画像を光学的に捕捉することを含み、かつ前記再構成誤差の前記勾配を推定することは画像ヤコビアンを前記制御ベクトルに関して光学的に推定することを含む、請求項１に記載の方法。
前記１つ以上の場面は、直接表面反射、表面下散乱、または表面相互反射の少なくとも１つを示すランダムにテクスチャ化された表面を含む、請求項６に記載の方法。
前記制御ベクトルは離散化された時間的に変化する照射パターンおよび離散化された時間的に変化する画素復調関数の少なくとも１つを含む、請求項１に記載の方法。
深度イメージングを最適化するためのシステムであって、前記システムは、データストレージと通信する１つ以上のプロセッサを含み、前記１つ以上のプロセッサは、
制御ベクトルの初期セットによって決定された照射パターンで１つ以上の場面を直接照射する照射モジュールと、
前記場面が前記照射パターンの少なくとも１つで照射されている間に前記場面の各々の１つ以上の捕捉された画像を受信する捕捉モジュールと、
再構成モジュールであって、
再構成パラメータを用いて前記捕捉された画像から前記場面を再構成することと、
前記再構成誤差および前記再構成誤差の勾配を前記制御ベクトルおよび前記再構成パラメータに関して推定することと、
前記再構成誤差が所定の誤差条件に到達するまで、
前記再構成誤差を低減するために、制御ベクトルの現在のセットおよび再構成パラメータの現在のセットを、制御ベクトルの前記セットおよび再構成パラメータの前記セットの少なくとも１つを更新することにより決定することと、
制御ベクトルの前記現在のセットによって決定された前記照射パターンで前記１つ以上の場面を照射することと、
前記場面が前記照射パターンの少なくとも１つで照射されている間に前記場面の各々の１つ以上の画像を捕捉することと、
前記現在の再構成パラメータを使用して前記１つ以上の捕捉された画像から前記場面を再構成することと、
更新された再構成誤差および前記再構成誤差の更新された勾配を前記現在の制御ベクトルおよび前記現在の再構成パラメータに関して推定することと
を反復して実行することと
を行う再構成モジュールと、
前記更新された制御ベクトルおよび前記更新された再構成パラメータの少なくとも１つを出力する出力インタフェースと
を実行するように構成可能である、深度イメージングを最適化するためのシステム。
前記再構成誤差を推定することは、深度誤差をグラウンドトゥルースに関してペナルティ化する関数を評価することを含み、かつ前記再構成誤差を反復して低減することは確率的勾配降下法および導関数を使用しない最適化の少なくとも１つを実行することを含む、請求項９に記載のシステム。
前記初期制御ベクトルは、既存の制御ベクトル、ランダム制御ベクトル、または低コントラストのランダム制御ベクトルの少なくとも１つを含む、請求項９に記載のシステム。
制御ベクトルの前記セットを更新することは、前記照射パターンの周波数成分、前記照射パターンの振幅、および前記照射パターンの総エネルギー消費の少なくとも１つを含むユーザー定義制約を組み込むことも含む、請求項９に記載のシステム。
前記１つ以上の場面は計算的に生成されて３Ｄ空間の選択されたサブセット内に存在するように制限され、前記１つ以上の場面を前記照射パターンで照射することは計算シミュレーションを含み、前記１つ以上の画像を捕捉することは画像形成を計算的にシミュレートすることを含み、かつ前記再構成誤差の前記勾配を推定することは画像形成モデルに基づき導関数を決定することを含む、請求項９に記載のシステム。
前記１つ以上の場面は少なくとも１つの表面を含み、前記１つ以上の場面を前記照射パターンで照射することは光照射を含み、前記１つ以上の画像を捕捉することは前記１つ以上の画像を光学的に捕捉することを含み、かつ前記再構成誤差の前記勾配を推定することは画像ヤコビアンを前記制御ベクトルに関して光学的に推定することを含む、請求項９に記載のシステム。