JP2023550928A

JP2023550928A - 深度測定のための訓練データセット生成

Info

Publication number: JP2023550928A
Application number: JP2023530265A
Authority: JP
Inventors: ジョンファリー; ガレスホワイト; アンティミリコスキ; エドワードセオドアウィンター
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2020-11-23
Filing date: 2021-11-23
Publication date: 2023-12-06
Also published as: US11475631B2; CN115428018A; US20220165027A1; WO2022107111A1; EP4229551A1

Abstract

訓練データセットを生成するためのシステムを提供する。システムは、第１の物体の第１の画像及び第１の物体に関連する第１の深度値を第１の視点から取り込むように深度センサを制御する。システムは、深度センサに関連するハンドヘルド装置から、３Ｄ空間におけるハンドヘルド装置と深度センサの動きに基づいて追跡情報を受け取る。システムは、受け取った追跡情報に基づいて、第１の物体に対応するグラフィック情報を生成する。グラフィック情報は、第２の視点からの第１の物体を含む。システムは、グラフィック情報に基づいて、第１の物体に関連する第２の深度値を計算する。システムは、第１の画像と第１の深度値との第１の組み合わせ、及びグラフィック情報に対応する第２の画像と第２の深度値との第２の組み合わせを含む訓練データセットをニューラルネットワークモデルのために生成する。【選択図】なし

Description

〔関連出願との相互参照／引用による組み入れ〕
なし

本開示の様々な実施形態は、ニューラルネットワークモデルのためのデータセット生成に関する。具体的には、本開示の様々な実施形態は、深度測定用ニューラルネットワークモデルのための訓練データセットの生成のためのシステム及び方法に関する。

従来、深度推定にはレンジイメージングアプリケーション（ｒａｎｇｅｉｍａｇｉｎｇａｐｐｌｉｃａｔｉｏｎｓ）が使用される。レンジイメージングアプリケーションは、（飛行時間（ＴｏＦ）センサなどの）様々なタイプの深度センサを利用して、実際の環境内に存在する物体の深度推定を行うことができる。一般に、レンジイメージングアプリケーションによって採用される深度センサは高価であり、実装が構造的に困難な場合がある。従って、実際の環境内に存在する異なる物体の深度値を大量に収集するために大量の深度センサを配置する（或いは、数多くの位置又は視点から物体の深度値を取り込む）ことは複雑でコストのかかるタスクとなり得る。

当業者には、説明したシステムと、本出願の残り部分において図面を参照しながら示す本開示のいくつかの態様とを比較することにより、従来の慣習的な手法の限界及び不利点が明らかになるであろう。

実質的に少なくとも１つの図に関連して図示及び／又は説明し、特許請求の範囲にさらに完全に示すような、深度測定用訓練データセットの生成のためのシステム及び方法を提供する。

全体を通じて同じ要素を同じ参照符号によって示す添付図面を参照しながら本開示の以下の詳細な説明を検討することにより、本開示のこれらの及びその他の特徴及び利点を理解することができる。

本開示の実施形態による、深度測定用訓練データセットの生成のための例示的なネットワーク環境の図である。本開示の実施形態による、深度測定用訓練データセットの生成のためのシステムのブロック図である。本開示の実施形態による、深度測定用訓練データセットの生成のための第１の画像の取り込みを示す例示的なシナリオである。本開示の実施形態による、深度測定用訓練データセットの生成のための例示的な動作のシーケンス図を図４Ｂと共に示す図である。本開示の実施形態による、深度測定用訓練データセットの生成のための例示的な動作のシーケンス図を図４Ａと共に示す図である。本開示の実施形態による、深度測定用訓練データセットの生成のための例示的な方法を示すフローチャートである。

開示する深度測定用訓練データセットの生成のためのシステム及び方法では、後述する実装を見出すことができる。本開示の例示的な態様は、１又は２以上の第１の物体の第１の画像を第１の視点から取り込むように（飛行時間（ＴｏＦ）センサなどの）深度センサを制御するよう構成されたシステムを提供する。１又は２以上の第１の物体の例としては、以下に限定するわけではないが、（人間などの）生物又は（家具、電子器具又はインフラストラクチャのような非生物エンティティなどの）無生物を挙げることができる。第１の画像は、１又は２以上の第１の物体のうちの（椅子などの）第１の物体に関連することができる。第１の画像は、１又は２以上の第１の物体の（赤色、緑色、青色（ＲＧＢ）情報などの）色情報を含むことができる。第１の視点は、例えば深度センサに対する（椅子などの）第１の物体の正面ビューとすることができる。システムは、１又は２以上の第１の物体に関連する第１の深度値を（正面ビューなどの）第１の視点から取り込むようにさらに深度センサを制御することができる。第１の深度値は、深度センサと、１又は２以上の第１の物体の表面（すなわち、第１の視点から見える表面）上の１又は２以上の地点との間の深度情報又は距離を示すことができる。

システムは、３次元（３Ｄ）空間におけるハンドヘルド装置及び深度センサの動きに基づいてハンドヘルド装置（例えば、仮想現実装置）から追跡情報をさらに受け取ることができる。ハンドヘルド装置は、深度センサに接続（或いは接合又は統合）することができる。例えば、最初の画像の取り込み後に、ハンドヘルド装置及び深度センサの動きに基づいて３Ｄ空間内で深度センサの位置及び配向が変化することがある。従って、追跡情報は、３Ｄ空間における深度センサの位置情報又は配向情報を示すことができる。システムは、受け取った追跡情報（すなわち、深度センサの動き）に基づいて、１又は２以上の第１の物体に対応するグラフィック情報（例えば、限定するわけではないが、点群データ、画像、ビデオ、又は３Ｄメッシュ）をさらに生成することができる。ある実施形態によれば、システムは、グラフィック情報を生成するための３Ｄグラフィックスエンジン（例えば、アニメーションエンジン又はアニメーションアプリケーション）を含むことができる。グラフィック情報は、第１の視点とは異なる１又は２以上の（限定するわけではないが、側面ビュー、上面ビュー、背面ビューなどの）第２の視点からの１又は２以上の（椅子などの）第１の物体を含み、又はこれらに対応することができる。１又は２以上の第１の物体の第２の視点は、３Ｄ空間におけるハンドヘルド装置及び深度センサの動きに基づくことができる。従って、開示するシステムによるグラフィック情報の生成は、（深度センサによって第１の画像内に取り込まれた１又は２以上の第１の物体などの）現実世界の情報から（１又は２以上の第１の物体に関連する、第１の画像が取り込まれた第１の視点とは異なる第２の視点から生成されたグラフィック情報などの）仮想情報への変換を可能にすることができる。

システムは、１又は２以上の第２の視点から生成されたグラフィック情報に基づいて、１又は２以上の第１の物体に関連する１又は２以上の第２の深度値をさらに計算することができる。１又は２以上の第２の深度値は、深度センサと、１又は２以上の第２の視点からの１又は２以上の第１の物体との間の（距離情報などの）深度情報を含むことができる。システムは、生成されたグラフィック情報に基づいて１又は２以上の第１の物体に関連する１又は２以上の第２の深度値を計算するために、（３Ｄグラフィックスエンジンなどにおける）仮想環境でのグラフィック情報の生成及び描写をさらに可能にすることができる。従って、開示するシステムは、従来の深度センサによって計算される深度値に比べて時間効率に優れた、グラフィック情報からの１又は２以上の第２の深度値の計算を可能にすることができる。

いくつかの実施形態では、システムが、グラフィック情報に対応する１又は２以上の第２の画像を生成することができる。１又は２以上の第２の視点からの１又は２以上の第１の物体に関する１又は２以上の第２の画像は、システムによって（又はシステムの３Ｄグラフィックスエンジンによって）生成された合成データと呼ぶことができる。１又は２以上の第１の物体（すなわち、実物体）に関連する合成データの生成は、実際の環境において利用可能な大量の物体の（第１の画像などの）実データを深度センサによって取り込むことに比べて安価であることができる。従って、システムは、限られたリアルワールドデータ（すなわち、深度センサによって第１の視点から取り込まれた実物体の第１の画像）からの合成データ（すなわち、異なる視点から生成された物体のグラフィック情報又は画像）の生成を可能にすることができる。例えば、システム（すなわち、３Ｄグラフィックスエンジン）は、海中に存在する難破船（すなわち、物体）に関連する合成データ（すなわちグラフィック情報）の生成を、異なる視点から繰り返し難破船をスキャンする（すなわち、深度センサを使用する）ことなく３Ｄグラフィックスエンジンにおける難破船の３Ｄ再現によって可能にすることができる。

さらに、システムは、第１の画像（すなわち、第１の視点から取り込まれた物体の実際の画像）と第１の深度値（すなわち、実際の深度値）との第１の組み合わせを含むとともに、物体のグラフィック情報に対応する１又は２以上の第２の画像（すなわち、３Ｄグラフィックスエンジンによって異なる視点から生成される画像）と１又は２以上の第２の深度値（すなわち、物体に関するグラフィック情報から計算される深度値）との第２の組み合わせをさらに含む訓練データセットをニューラルネットワークモデルのために生成することができる。別の実施形態では、開示するシステムが、第１の深度値に基づいて第３の画像を生成し、１又は２以上の第２の深度値に基づいて１又は２以上の第４の画像を生成して、第１の画像と第３の画像との第１の組み合わせ（すなわち、実データ）を含むとともに、第２の画像と第４の画像との第２の組み合わせ（すなわち、仮想データ）をさらに含むことができる訓練データセットをさらに生成することができる。従って、システムによって生成される訓練データセットは、ニューラルネットワークモデルの訓練に使用できる安価に生成された合成データを含むことができる。生成された訓練データセットに基づいて訓練されたニューラルネットワークモデルは、ニューラルネットワークモデルへの入力として提供される（２次元（２Ｄ）情報を有する画像などの）画像からの深度値の自動予測に利用することができる。

図１は、本開示の実施形態による、深度測定用訓練データセットを生成するための例示的なネットワーク環境の図である。図１にはネットワーク環境１００のブロック図を示す。ネットワーク環境１００はシステム１０２を含むことができる。システム１０２は、３次元（３Ｄ）グラフィックスエンジン１０４を含むことができる。ネットワーク環境１００は、深度センサ１０６及びハンドヘルド装置１０８をさらに含むことができる。ネットワーク環境１００は、第１のシーン１１０をさらに含むことができる。第１のシーン１１０は、１又は２以上の第１の物体１１２を含むことができる。１又は２以上の第１の物体１１２は、第１の物体１１２Ａ、第２の物体１１２Ｂ及び第Ｎの物体１１２Ｎを含むことができる。ネットワーク環境１００は、第１の入力／出力（Ｉ／Ｏ）装置１１４をさらに含むことができる。システム１０２は、第１のシーン１１０内又は異なるシーン内に存在する１又は２以上の第１の物体１１２についてシステム１０２が生成した訓練データセット１１６をさらに含むことができる。さらに、ネットワーク環境１００は、システム１０２、深度センサ１０６及びハンドヘルド装置１０８が通信できるようにする通信ネットワーク１１８を含むことができる。

システム１０２は、深度センサ１０６から１又は２以上の第１の物体１１２の第１の画像、及び１又は２以上の第１の物体１１２に関連する第１の深度値を受け取るように構成できる好適なロジック、回路及びインターフェイスを含むことができる。システム１０２は、グラフィック情報をさらに生成し、１又は２以上の第１の物体１１２に関連する１又は２以上の第２の深度値を計算することができる。システム１０２は、第１の画像と第１の深度値との第１の組み合わせ、及びグラフィック情報に対応する１又は２以上の第２の画像と１又は２以上の第２の深度値との第２の組み合わせを含むことができる訓練データセット１１６をニューラルネットワークモデルのために生成するようにさらに構成することができる。システム１０２の例としては、以下に限定するわけではないが、アニメーションシステム、コンピュータ装置、ラップトップ、メインフレームマシン、サーバ、コンピュータワークステーション、スマートフォン、セルラーフォン、携帯電話機、ゲーム装置及び／又は消費者電子（ＣＥ）装置を挙げることができる。

３Ｄグラフィックスエンジン１０４は、システム１０２が受け取った追跡情報に基づいて、１又は２以上の第２の視点からの１又は２以上の第１の物体１１２に対応するグラフィック情報を生成するように構成できる好適なロジック、回路、インターフェイス及び／又はコードを含むことができる。３Ｄグラフィックスエンジン１０４は、１又は２以上の第１の物体１１２に関連する生成されたグラフィック情報をレンダリングするように（第１のＩ／Ｏ装置１１４などに含まれる）ディスプレイ装置をさらに制御することができる。３Ｄグラフィックスエンジン１０４は、（ｐｙｔｈｏｎスクリプトジェネレータなどの）スクリプトジェネレータを利用してグラフィック情報を生成することができる。いくつかの実施形態では、３Ｄグラフィックスエンジン１０４が、深度センサ１０６によって第１の視点から取り込まれた１又は２以上の第１の物体１１２の第１の画像をレンダリングし、レンダリングされた第１の画像に関する１又は２以上のユーザ入力を第１のＩ／Ｏ装置１１４を介して受け取って、異なる視点からの１又は２以上の第１の物体１１２のグラフィック情報を生成するようにディスプレイ装置を制御することができる。１又は２以上の第１の物体１１２のグラフィック情報は、以下に限定するわけではないが、回転した物体、サイズ変更した物体、位置変更した物体、点群データ、ビデオ情報、ボクセル情報、又は３Ｄメッシュを含むことができる。３Ｄグラフィックスエンジン１０４の例としては、以下に限定するわけではないが、３Ｄコンピュータグラフィックスエンジン、３Ｄ作成アプリケーション、３Ｄモデリング又はシミュレーションアプリケーション、３Ｄアニメーションエンジン、又はビデオ編集アプリケーションを挙げることができる。

深度センサ１０６は、１又は２以上の第１の物体１１２の第１の画像を取り込むように構成できる好適なロジック、回路及びインターフェイスを含むことができる。深度センサ１０６は、第１の物体１１２Ａなどの１又は２以上の第１の物体１１２に関連する第１の深度値を取り込むようにさらに構成することができる。第１の深度値は、深度センサ１０６と第１の物体１１２Ａの表面上の１又は２以上の地点との間の距離を示すことができる。深度センサ１０６の例としては、以下に限定するわけではないが、飛行時間（ＴｏＦ）センサ、光検出及び測距（ＬｉＤＡＲ）センサ、立体画像センサ、又は構造化光センサを挙げることができる。

ハンドヘルド装置１０８は、３Ｄ空間におけるハンドヘルド装置１０８及び深度センサ１０６の動きに基づいて深度センサ１０６に関連する追跡情報を生成するように構成できる好適なロジック、回路及びインターフェイスを含むことができる。ハンドヘルド装置１０８は、（図３に示す）ユーザが保持又は装着することができ、深度センサ１０６と一体化することができる。ハンドヘルド装置１０８は、追跡情報（すなわち、３Ｄ空間における位置又は配向）を生成する１又は２以上のセンサを含むことができる。ハンドヘルド装置１０８の例としては、以下に限定するわけではないが、仮想現実装置、拡張現実装置、又は複合現実装置を挙げることができる。いくつかの実施形態では、ハンドヘルド装置１０８を、３Ｄ空間におけるハンドヘルド装置１０８の位置又は配向を検出するセンサと統合されたいずれかのコンピュータ装置とすることができる。センサとしては、以下に限定するわけではないが、慣性測定装置（ＩＭＵ）センサ、加速度計、ジャイロスコープ、又は動き感知装置を挙げることができる。

第１のシーン１１０は、建物の部屋、公園などのオープンスペースエリア、海洋シーンなどの水中シーン、などの実際の環境を含むことができ、又はこれらに関連することができる。第１のシーン１１０は、第１の物体１１２Ａ、第２の物体１１２Ｂ及び第Ｎの物体１１２Ｎなどの１又は２以上の第１の物体１１２を含むことができる。１又は２以上の第１の物体１１２の例としては、以下に限定するわけではないが、（人間、動物などの）生物又は（家具、電子ガジェット、インフラ、輸送物体又は装飾物体などの）無生物を挙げることができる。

第１の入力／出力（Ｉ／Ｏ）装置１１４は、ユーザから入力を受け取り、受け取った入力に基づいて出力を提供するように構成できる好適なロジック、回路及びインターフェイスを含むことができる。第１のＩ／Ｏ装置１１４は、（図３に示す）ユーザから入力を受け取って、１又は２以上の第１の物体１１２に対応するグラフィック情報を生成するように構成することができる。さらに、第１のＩ／Ｏ装置１１４は、深度センサ１０６によって取り込まれた第１の画像を表示し、或いは１又は２以上の第１の物体１１２に関連する計算された１又は２以上の第２の深度値又は第４の画像を表示することができる。様々な入力及び出力装置を含むことができる第１のＩ／Ｏ装置１１４は、システム１０２又は３Ｄグラフィックスエンジン１０４と通信するように構成することができる。第１のＩ／Ｏ装置１１４の例としては、以下に限定するわけではないが、タッチ画面、キーボード、マウス、ジョイスティック、マイク、又はディスプレイ装置を挙げることができる。図１にはシステム１０２から分離された第１のＩ／Ｏ装置１１４を示しているが、本開示はこのように限定されるものではない。従って、いくつかの実施形態では、本開示の範囲から逸脱することなく、第１のＩ／Ｏ装置１１４を図２に示すようにシステム１０２の３Ｄグラフィックスエンジン１０４に統合することができる。

訓練データセット１１６は、ニューラルネットワークモデルが２Ｄ画像から深度値を予測するために利用できる画像ベースのデータセットとすることができる。訓練データセット１１６は、（第１のペア画像の組などの）第１のペアデータセットの組を含むことができる。第１のペア画像の組は、第１の物体１１２Ａの色情報を含むことができる第１の画像と、第１の物体１１２Ａの深度情報（すなわち、第１の深度値）を含み又はこれに対応することができる、対応する第３の画像とを含むことができる。訓練データセット１１６は、（第１の非ペア画像の組などの）第１の非ペアデータセットの組をさらに含むことができる。第１の非ペア画像の組は、３Ｄグラフィックスエンジン１０４によって異なる視点から生成された第１の物体１１２Ａのグラフィック情報（すなわち、第２の画像）と、異なる視点からの第１の物体１１２Ａの深度情報（すなわち、第２の深度値）を含み又はこれに対応することができる第４の画像とを含むことができる。従って、ニューラルネットワークモデルは、第１のペア画像の組と第１の非ペア画像の組とを含むことができる生成された訓練データセット１１６に基づいて訓練することができる。

通信ネットワーク１１８は、システム１０２、深度センサ１０６及びハンドヘルド装置１０８が互いに通信できるようにする通信媒体を含むことができる。通信ネットワーク１１８は、有線接続又は無線接続の一方とすることができる。
通信ネットワーク１１８の例としては、以下に限定するわけではないが、インターネット、クラウドネットワーク、ワイヤレスフィデリティ（Ｗｉ－Ｆｉ）ネットワーク、パーソナルエリアネットワーク（ＰＡＮ）、ローカルエリアネットワーク（ＬＡＮ）、又はメトロポリタンエリアネットワーク（ＭＡＮ）を挙げることができる。ネットワーク環境１００内の様々な装置は、様々な有線及び無線通信プロトコルに従って通信ネットワーク１１８に接続するように構成することができる。このような有線及び無線通信プロトコルの例としては、以下に限定するわけではないが、伝送制御プロトコル及びインターネットプロトコル（ＴＣＰ／ＩＰ）、ユーザデータグラムプロトコル（ＵＤＰ）、ハイパーテキスト転送プロトコル（ＨＴＴＰ）、ファイル転送プロトコル（ＦＴＰ）、ＺｉｇＢｅｅ、ＥＤＧＥ、ＩＥＥＥ８０２．１１、ライトフィデリティ（Ｌｉ－Ｆｉ）、８０２．１６、ＩＥＥＥ８０２．１１ｓ、ＩＥＥＥ８０２．１１ｇ、マルチホップ通信、無線アクセスポイント（ＡＰ）、装置間通信、セルラー通信プロトコル及びＢｌｕｅｔｏｏｔｈ（ＢＴ）通信プロトコルのうちの少なくとも１つを挙げることができる。

動作中、システム１０２は、第１のシーン１１０内に存在する１又は２以上の第１の物体１１２の第１の画像を第１の視点から取り込むとともに１又は２以上の第１の物体１１２に関連する第１の深度値を取り込むように深度センサ１０６を制御するよう構成することができる。第１のシーン１１０は、１又は２以上の第１の物体１１２と、１又は２以上の第１の物体１１２の周囲の壁などの周囲環境とを描写することができる。第１の画像は、１又は２以上の第１の物体１１２の色情報を含むことができる。第１の視点は、例えば１又は２以上の第１の物体１１２のうちの第１の物体１１２Ａの正面ビューとすることができる。ある実施形態によれば、１又は２以上の第１の物体１１２に関連する第１の深度値は、深度センサ１０６と、第１の視点から取り込まれた１又は２以上の第１の物体１１２の表面上の第１の複数の地点との間の深度情報（すなわち、距離）を示すことができる。第１の画像を取り込むための深度センサ１０６の制御、及び１又は２以上の第１の物体１１２に関連する第１の深度値の詳細については、例えば図４Ａにさらに示す。

システム１０２は、３Ｄ空間におけるハンドヘルド装置１０８及び深度センサ１０６の動きに基づいて、深度センサ１０６に関連するハンドヘルド装置１０８から追跡情報をさらに受け取ることができる。追跡情報は、３Ｄ空間における深度センサ１０６の位置情報（Ｘ軸、Ｙ軸、Ｚ軸情報）又は配向情報を示すことができる。深度センサ１０６の位置情報又は配向情報は、３Ｄ空間における深度センサ１０６の位置及び配向の変化に基づいて変化することができる。追跡情報の受信の詳細については、例えば図４Ａにさらに示す。

システム１０２は、受け取った追跡情報に基づいて、１又は２以上の第１の物体１１２に対応するグラフィック情報をさらに生成することができる。いくつかの実施形態では、システム１０２が、第１のＩ／Ｏ装置１１４から受け取った１又は２以上のユーザ入力に基づいて、１又は２以上の第１の物体１１２に対応するグラフィック情報を生成することができる。グラフィック情報は、以下に限定するわけではないが、１又は２以上の第２の画像、点群データ、ボクセルセット、３次元（３Ｄ）メッシュ、ビデオ情報、ＬＡＳ（ＬＡＳｅｒ）フォーマットデータ、又は専用フォーマットデータを含むことができる。ある実施形態によれば、システム１０２に含まれる３Ｄグラフィックスエンジン１０４は、１又は２以上の第１の物体１１２に対応するグラフィック情報を生成するように構成することができる。グラフィック情報は、第１の視点とは異なる１又は２以上の第２の視点からの１又は２以上の第１の物体１１２を含み又はこれに対応することができる。１又は２以上の第２の視点は、例えば１又は２以上の第１の物体１１２の正面ビュー、側面ビュー、背面ビュー、上面ビュー、回転ビュー又は平行移動ビューを含むことができる。システムは、グラフィック情報に対応する１又は２以上の第２の画像をさらに生成することができる。グラフィック情報の生成の詳細については、例えば図４Ａにさらに示す。

システム１０２は、１又は２以上の第２の視点からの１又は２以上の第１の物体１１２について生成されたグラフィック情報に基づいて、１又は２以上の第１の物体１１２に関連する１又は２以上の第２の深度値を計算するようにさらに構成することができる。ある実施形態によれば、１又は２以上の第２の深度値は、深度センサ１０６と、１又は２以上の第２の視点から取り込まれた１又は２以上の第１の物体１１２の表面上の第２の複数の地点との間の深度情報（すなわち、距離）を示すことができる。１又は２以上の第２の深度値の計算の詳細については、例えば図４Ｂにさらに示す。システム１０２は、第１の画像と第１の深度値との第１の組み合わせ、及びグラフィック情報に対応する１又は２以上の第２の画像と１又は２以上の第２の深度値との第２の組み合わせを含むことができる訓練データセット１１６をニューラルネットワークモデルのためにさらに生成することができる。訓練データセット１１６の生成の詳細については、例えば図４Ｂにさらに示す。

図２は、本開示の実施形態による、深度測定用訓練データセットを生成するシステムのブロック図である。図２の説明は、図１の要素に関連して行う。図２にはシステム１０２のブロック図２００を示す。システム１０２は、プロセッサ２０２及びメモリ２０４を含むことができる。メモリ２０４は、訓練データセット１１６及びニューラルネットワークモデル２０４Ａをさらに含むことができる。システム１０２は、３Ｄグラフィックスエンジン１０４、第１のＩ／Ｏ装置１１４、及びネットワークインターフェイス２０６をさらに含むことができる。

プロセッサ２０２は、メモリ２０４に記憶された命令セットを実行するように構成できる好適なロジック、回路及びインターフェイスを含むことができる。プロセッサ２０２は、システム１０２によって実行される異なる動作に関連するプログラム命令を実行するように構成することができる。例えば、動作の一部としては、第１の視点からの１又は２以上の第１の物体１１２の第１の画像を取り込むように深度センサ１０６を制御すること、ハンドヘルド装置１０８から追跡情報を受け取ること、１又は２以上の第２の視点からの１又は２以上の第１の物体１１２に対応するグラフィック情報を生成すること、及び１又は２以上の第１の物体１１２に関連する１又は２以上の第２の深度値を計算すること、を挙げることができる。プロセッサ２０２は、ニューラルネットワークモデル２０４Ａの訓練のための訓練データセット１１６を生成するようにさらに構成することができる。プロセッサ２０２は、当業で周知の複数のプロセッサ技術に基づいて実装することができる。プロセッサ技術の例としては、以下に限定するわけではないが、中央処理装置（ＣＰＵ）、Ｘ８６ベースのプロセッサ、縮小命令セットコンピューティング（ＲＩＳＣ）プロセッサ、特定用途向け集積回路（ＡＳＩＣ）プロセッサ、複合命令セットコンピューティング（ＣＩＳＣ）プロセッサ、グラフィカルプロセッシングユニット（ＧＰＵ）及びその他のプロセッサを挙げることができる。

メモリ２０４は、プロセッサ２０２によって実行される１又は２以上の命令を記憶するように構成できる好適なロジック、回路及びインターフェイスを含むことができる。メモリ２０４は、訓練データセット１１６及びニューラルネットワークモデル２０４Ａを記憶するように構成することができる。メモリ２０４は、以下に限定するわけではないが、第１の画像、第１の深度値、第１の深度値に関連する第３の画像、追跡情報、１又は２以上の第１の物体１１２に対応するグラフィック情報、１又は２以上の第２の深度値、及び１又は２以上の第２の深度値に関連する１又は２以上の第４の画像を記憶するようにさらに構成することができる。メモリ２０４の実装例としては、以下に限定するわけではないが、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、電気的に消去可能なプログラマブルリードオンリーメモリ（ＥＥＰＲＯＭ）、ハードディスクドライブ（ＨＤＤ）、固体ドライブ（ＳＳＤ）、ＣＰＵキャッシュ、及び／又はセキュアデジタル（ＳＤ）カードを挙げることができる。

ニューラルネットワークモデル２０４Ａは、複数の層状に配置された人工ニューロンをノードとする計算ネットワーク又はシステムとすることができる。ニューラルネットワークモデル２０４Ａの複数の層は、入力層、１又は２以上の隠れ層、及び出力層を含むことができる。複数の層の各層は、１又は２以上のノード（又は人工ニューロン）を含むことができる。入力層の全てのノードの出力は、（単複の）隠れ層の少なくとも１つのノードに結合することができる。同様に、各隠れ層の入力は、ニューラルネットワークモデル２０４Ａの他の層の少なくとも１つのノードの出力に結合することができる。各隠れ層の出力は、ニューラルネットワークモデル２０４Ａの他の層の少なくとも１つのノードの入力に結合することができる。最終層の（単複の）ノードは、少なくとも１つの隠れ層から入力を受け取って結果を出力することができる。層の数及び各層のノード数は、ニューラルネットワークモデル２０４Ａのハイパーパラメータから決定することができる。このようなハイパーパラメータは、訓練データセットに基づくニューラルネットワークモデル２０４Ａの訓練前又は訓練中に設定することができる。

ニューラルネットワークモデル２０４Ａの各ノードは、ネットワークの訓練中に調整できるパラメータセットを有する数学関数（例えば、シグモイド関数又は正規化線形ユニット（ｒｅｃｔｉｆｉｅｄｌｉｎｅａｒｕｎｉｔ））に対応することができる。パラメータセットは、例えば重みパラメータ及び正則化パラメータなどを含むことができる。各ノードは、ニューラルネットワークモデル２０４Ａの他の（単複の）層（例えば、前の（単複の）層）のノードからの１又は２以上の入力に基づいて、数学関数を使用して出力を計算することができる。ニューラルネットワークモデル２０４Ａのノードの全部又は一部は、同じ又は異なる数学関数に対応することができる。

ニューラルネットワークモデル２０４Ａの訓練では、（訓練データセット１１６からの）所与の入力のための最終層の出力がニューラルネットワークモデル２０４Ａの損失関数に基づく正しい結果に一致するかどうかに基づいて、ニューラルネットワークモデル１０４の各ノードの１又は２以上のパラメータを更新することができる。上記プロセスは、損失関数の最小値を達成して訓練エラーを最小化できるまで同じ又は異なる入力について繰り返すことができる。当業では、勾配降下法、確率的勾配降下法、バッチ勾配降下法、勾配ブースト法及びメタヒューリスティック法などの複数の訓練法が知られている。

ニューラルネットワークモデル２０４Ａは、例えばシステム１０２などの処理装置によって実行されるソフトウェアプログラム、ソフトウェアプログラムのコード、ライブラリ、アプリケーション、スクリプト、或いはその他のロジック又は命令などの電子データを含むことができる。ニューラルネットワークモデル２０４Ａは、プロセッサ２０２などのコンピュータ装置が（新たな画像又はコンピュータ生成画像（ＣＧＩ）入力などの）提供された入力に基づいて深度情報を予測する１又は２以上の動作を実行することを可能にするように構成されたコード及びルーチンを含むことができる。これに加えて又はこれに代えて、ニューラルネットワークモデル２０４Ａは、プロセッサ、（例えば、１又は２以上の演算を実行し又は実行を制御する）マイクロプロセッサ、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、又は特定用途向け集積回路（ＡＳＩＣ）を含むハードウェアを使用して実装することもできる。或いは、いくつかの実施形態では、ハードウェアとソフトウェアとの組み合わせを使用してニューラルネットワークモデル２０４Ａを実装することもできる。

ニューラルネットワークモデル２０４Ａの例としては、以下に限定するわけではないが、ディープニューラルネットワーク（ＤＮＮ）、畳み込みニューラルネットワーク（ＣＮＮ）、再帰型ニューラルネットワーク（ＲＮＮ）、ＣＮＮ－再帰型ニューラルネットワーク（ＣＮＮ－ＲＮＮ）、Ｒ－ＣＮＮ、ＦａｓｔＲ－ＣＮＮ、ＦａｓｔｅｒＲ－ＣＮＮ、人工ニューラルネットワーク（ＡＮＮ）、（ＹｏｕＯｎｌｙＬｏｏｋＯｎｃｅ）ＹＯＬＯネットワーク、長・短期記憶（ＬＳＴＭ）ネットワークベースのＲＮＮ、ＣＮＮ＋ＡＮＮ、ＬＳＴＭ＋ＡＮＮ、ゲート付き再帰型ユニット（ＧＲＵ）ベースのＲＮＮ、全結合ニューラルネットワーク、ＣｏｎｎｅｃｔｉｏｎｉｓｔＴｅｍｐｏｒａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ（ＣＴＣ）ベースのＲＮＮ、ディープベイズニューラルネットワーク、敵対的生成ネットワーク（ＧＡＮ）、及び／又はこれらのネットワークの組み合わせを挙げることができる。いくつかの実施形態では、ニューラルネットワークモデル２０４Ａが、データフローグラフを用いた数値計算法を含むことができる。いくつかの実施形態では、ニューラルネットワークモデル２０４Ａが、複数のディープニューラルネットワーク（ＤＮＮ）のハイブリッドアーキテクチャに基づくことができる。いくつかの実施形態では、ニューラルネットワークモデル２０４Ａを人工知能（ＡＩ）エンジンとすることができる。

ネットワークインターフェイス２０６は、通信ネットワーク１１８を介したシステム１０２、深度センサ１０６及びハンドヘルド装置１０８間の通信を容易にするように構成できる好適なロジック、回路及びインターフェイスを含むことができる。ネットワークインターフェイス２０６は、システム１０２と通信ネットワーク１１８との有線又は無線通信を支援する様々な既知の技術を使用して実装することができる。ネットワークインターフェイス２０６は、以下に限定するわけではないが、アンテナ、無線周波数（ＲＦ）トランシーバ、１又は２以上の増幅器、チューナ、１又は２以上の発振器、デジタルシグナルプロセッサ、コーダ－デコーダ（ＣＯＤＥＣ）チップセット、加入者ＩＤモジュール（ＳＩＭ）カード、又はローカルバッファ回路を含むことができる。ネットワークインターフェイス２０６は、インターネット、イントラネットなどのネットワーク、又はセルラー電話ネットワーク、無線ローカルエリアネットワーク（ＬＡＮ）、及びメトロポリタンエリアネットワーク（ＭＡＮ）などの無線ネットワークと無線通信を介して通信するように構成することができる。無線通信は、グローバルシステムフォーモバイルコミュニケーション（ＧＳＭ）、拡張データＧＳＭ環境（ＥＤＧＥ）、広帯域符号分割多元接続（Ｗ－ＣＤＭＡ）、ロングタームエボリューション（ＬＴＥ）、符号分割多元接続（ＣＤＭＡ）、時分割多元接続（ＴＤＭＡ）、Ｂｌｕｅｔｏｏｔｈ、（ＩＥＥＥ８０２．１１ａ、ＩＥＥＥ８０２．１１ｂ、ＩＥＥＥ８０２．１１ｇ又はＩＥＥＥ８０２．１１ｎなどの）ワイヤレスフィデリティ（ＷｉＦｉ）、ボイスオーバーインターネットプロトコル（ＶｏＩＰ）、ライトフィデリティ（Ｌｉ－Ｆｉ）、又はワールドワイド・インターオペラビリティ・フォー・マイクロウェーブ・アクセス（Ｗｉ－ＭＡＸ）、電子メール用プロトコル、インスタントメッセージ、及びショートメッセージサービス（ＳＭＳ）などの複数の通信規格、プロトコル及び技術のうちの１つ又は２つ以上を使用するように構成することができる。

図３は、本開示の実施形態による、深度測定用訓練データセットの生成のための第１の画像の取り込みを示す例示的なシナリオである。図３の説明は、図１及び図２の要素に関連して行う。図３には例示的なシナリオ３００を示す。例示的なシナリオ３００は、（椅子などの）第１の物体３０２、ユーザ３０４、ハンドヘルド装置３０６、深度センサ３０８、３Ｄグラフィックスエンジン１０４（又は第１のＩ／Ｏ装置１１４の一部）に関連するディスプレイ装置３１０を含むことができる。ディスプレイ装置３１０は、深度センサ３０８によって取り込まれた第１の画像３１２を表示することができる。開示するシステム１０２のディスプレイ装置３１０及び３Ｄグラフィックスエンジン１０４は、通信ネットワーク１１８を介して深度センサ３０８及びハンドヘルド装置３０６に通信可能に結合することができる。

図３に示すように、ユーザ３０４は、深度センサ３０８を介して１又は２以上の第１の物体１１２のうちの第１の物体３０２を取り込むことができる。例えば、深度センサ３０８によって第１の視点から第１の物体３０２の（正面ビューなどの）第１の画像３１２を取り込むことができる。図３に示すように、深度センサ３０８及び（仮想現実装置とすることができる）ハンドヘルド装置３０６は統合することができる。いくつかの実施形態では、システム１０２のプロセッサ２０２を、第１の物体３０２の第１の画像を取り込むとともに、深度センサ３０８と第１の物体３０２の表面（すなわち、第１の視点から見える表面）上の第１の複数の地点との間の距離を（例えば、特定のセンチメートル、インチ、フィート、ヤード又はメートル単位で）示すことができる１又は２以上の第１の深度値を取り込むように深度センサ３０８を制御するよう構成することができる。プロセッサ２０２は、第１の画像及び１又は２以上の第１の深度値を取り込むように深度センサ３０８を制御するための命令又はコマンドを送信することができる。いくつかの実施形態では、深度センサ３０８又はハンドヘルド装置３０６が、第１の物体３０２に関連する第１の画像及び１又は２以上の第１の深度値を取り込むように深度センサ３０８を制御するユーザ入力をユーザ３０４から直接受け取ることができる。ある実施形態では、プロセッサ２０２を、第１の物体３０２の第１の画像３１２、及び第１の画像３１２に関連する対応する第１の深度値を深度センサ３０８から受け取るように構成することができる。

ある実施形態では、ユーザ３０４が深度センサ３０８及びハンドヘルド装置３０６を３Ｄ空間（すなわち、実空間）内で動かすことができる。ハンドヘルド装置３０６は、例えば３Ｄ空間における深度センサ３０８及びハンドヘルド装置３０６の動きに基づいて深度センサ３０８の位置情報（ＸＹＺ情報）及び配向情報を取り込むことができる。ハンドヘルド装置３０６は、３Ｄ空間におけるハンドヘルド装置３０６の位置情報及び配向情報を含むことができる追跡情報を生成するようにさらに構成することができる。プロセッサ２０２は、ハンドヘルド装置３０６から追跡情報を受け取って、第１の物体３０２に対応するグラフィック情報を生成するようにさらに構成することができる。グラフィック情報の生成の詳細については、例えば図４Ａ～図４Ｂにさらに示す。

グラフィック情報は、第１の物体３０２の第１の画像３１２が取り込まれた第１の視点とは異なることができる１又は２以上の第２の視点からの第１の物体３０２を含み又はこれに対応することができる。例えば、１又は２以上の第２の視点は、側面ビュー、平面ビュー又は上面ビューからの第１の物体３０２を含み又はこれに対応することができる。１又は２以上の第２の視点及びグラフィック情報の詳細については、例えば図４Ａにさらに示す。いくつかの実施形態では、プロセッサ２０２が、ディスプレイ装置３１０上に表示された第１の画像３１２（すなわち、第１の物体３０２に対応する画像）を修正するための１又は２以上のユーザ入力をユーザ３０４から（すなわち、第１のＩ／Ｏ装置１１４を介して）受け取ることができる。プロセッサ２０２は、受け取った１又は２以上のユーザ入力に基づいてグラフィック情報をさらに生成することができる。例えば、ユーザ３０４は、第１のＩ／Ｏ装置１１４を介して、３Ｄグラフィックスエンジン１０４において第１の物体３０２の側面ビューを取得するように第１の画像３１２を回転させるためのユーザ入力を提供することができる。別の例では、ユーザ３０４が、３Ｄグラフィックスエンジン１０４において第１の物体３０２の拡大ビューを取得するように第１の画像３１２にズームインするためのユーザ入力を提供することができる。いくつかの実施形態では、３Ｄグラフィックスエンジン１０４が、第１の画像３１２を回転させ又はズームインして異なる視点からのグラフィック情報をさらに生成するようにディスプレイ装置３１０及び第１のＩ／Ｏ装置１１４を制御することができる。

プロセッサ２０２は、生成されたグラフィック情報に基づいて、第１の物体３０２に関連する１又は２以上の第２の深度値を計算するようにさらに構成することができる。例えば、プロセッサ２０２は、３Ｄグラフィックスエンジン１０４によって生成された第１の物体３０２の側面ビュー及び第１の物体３０２の拡大ビューに関連する深度値を計算するように構成することができる。従って、深度センサ３０８から第１の物体３０２に関連する（第１の画像３１２などの）１つの画像を受け取ることで、異なる視点からの第１の物体３０２の深度情報を含むことができる（グラフィック情報及び１又は２以上の第２の深度値に対応する１又は２以上の第２の画像などの）合成データを生成することができる。深度センサ３０８によって第１の視点から取り込まれた第１の物体３０２の第１の画像３１２は実データと呼ぶことができ、第１の物体３０２について異なる視点から仮想的に生成された合成データ（すなわち、システム１０２又は３Ｄグラフィックスエンジン１０４によって生成された合成データ）は、様々な視点からの第１の物体３０２に関する仮想データと呼ぶことができる。仮想データは、特定のバリエーション（すなわち、グラフィック情報を生成する視点を修正することなど）を伴って実データを厳密に模倣することができる。プロセッサ２０２は、例えば図４Ａ～図４Ｂで説明するように、異なる物体についてのこのような実データ及び仮想データを含むことができる訓練データセット１１６を生成するようにさらに構成することができる。なお、（椅子などの）第１の物体３０２の第１の画像３１２の取り込み、深度センサ３０８及びハンドヘルド装置３０６は、図３に一例として示すものにすぎない。シナリオ３００は、本開示の範囲から逸脱することなく、異なるタイプの物体、深度センサ及びハンドヘルド装置を含むこともできる。

図４Ａ～図４Ｂに、本開示の実施形態による、深度測定用訓練データセットを生成するための例示的な動作のシーケンス図を集合的に示す。図４Ａ～図４Ｂの説明は、図１、図２及び図３の要素に関連して行う。図４Ａ～図４Ｂには、４０２～４１８の一連の動作を示すシーケンス図４００を示す。これらの一連の動作は、図１のシステム１０２の様々なコンポーネント又は図２のプロセッサ２０２によって実行することができる。

４０２において、第１の画像４０２Ａ及び第１の深度値を取り込むことができる。ある実施形態によれば、プロセッサ２０２は、第１の視点から１又は２以上の第１の物体１１２のうちの第１の物体３０２の第１の画像４０２Ａを取り込むように深度センサ３０８を制御するよう構成することができる。プロセッサ２０２は、第１の物体３０２に関連する第１の深度値を取り込むように深度センサ３０８をさらに制御することができる。ある実施形態によれば、深度センサ３０８は、以下に限定するわけではないが、飛行時間（ＴｏＦ）センサ、光検出及び測距（ＬｉＤＡＲ）センサ、立体画像センサ、又は構造化光センサとすることができる。ＴｏＦセンサは、赤外光源を利用して第１の物体３０２に関連する第１の深度値を取り込むことができる。ＬｉＤＡＲセンサは、レーザ光源を利用して第１の物体３０２に関連する第１の深度値を取り込むことができる。さらに、立体画像センサは、２つの撮像装置（図示せず）を利用して第１の深度値を取り込むことができる。構造化光センサは、第１の物体３０２上に投影された光パターンを利用して第１の深度値を取り込むことができる。

第１の画像４０２Ａは、第１の物体３０２の色情報を含むことができる。例えば、第１の画像４０２Ａは、第１の物体３０２の（赤色－緑色－青色（ＲＧＢ）情報などの）実際の色などの色情報を含むことができる。ある実施形態によれば、第１の深度値は、深度センサ３０８と、１又は２以上の第１の物体１１２のうちの第１の物体３０２の表面上の第１の複数の地点との間の深度情報又は距離を示すことができる。例えば、第１の物体３０２の表面上の第１の複数の地点は、第１の視点からの深度センサ３０８の視野内に存在できる第１の物体３０２の表面上の地点を含むことができる。１つの例では、深度センサ３０８の視野内に位置することができる表面が、第１の視点から見える第１の物体３０２の表面を含むことができる。第１の深度値は、第１の物体３０２の表面上の第１の複数の地点の各々と深度センサ３０８との間の距離に関連することができる。例えば、第１の物体３０２は、垂直な背もたれ部分、肘掛け部分及び水平な座面部分を含むことができる椅子とすることができる。深度センサ３０８は、第１の画像４０２Ａ及び対応する第１の深度値を、垂直な背もたれ部分に比べて水平な座面部分の方が距離的に深度センサ３０８に近くなるように第１の視点から取り込むことができる。従って、第１の深度値は、椅子の垂直な背もたれ部分、肘掛け部分及び水平な座面部分上の第１の複数の地点の各々から深度センサ３０８までの距離値を示すことができる。

４０４において、第３の画像４０４Ａを生成することができる。ある実施形態によれば、プロセッサ２０２は、第１の物体３０２に関連する第１の深度値に対応する第３の画像４０４Ａを生成するように構成することができる。プロセッサ２０２は、深度センサ３０８から第１のテキストフォーマットの第１の深度値を受け取ることができる。例えば、第１のテキストフォーマットは、限定するわけではないが、セミコロン区切り値（「．ＳＫＶ」）ファイルフォーマットとすることができる。プロセッサ２０２は、第１のテキストフォーマットの第１の深度値を第２のテキストフォーマットにさらに変換することができる。例えば、第２のテキストフォーマットは、限定するわけではないが、カンマ区切り値（「．ＣＳＶ」）ファイルフォーマットとすることができる。プロセッサ２０２は、第２のテキストフォーマットに基づいて第１の深度値に対応する第３の画像４０４Ａをさらに生成することができる。いくつかの実施形態では、第３の画像４０４Ａを、第２のテキストフォーマットへの変換を伴わずに第１の深度値の第１のテキストフォーマットに基づいて生成することができる。第３の画像４０４Ａは、例えば（以下に限定するわけではないが）、ポータブルネットワークグラフィックス（ＰＮＧ）フォーマット、写真専門家合同委員会（ｊｐｅｇ）フォーマット、グラフィックスインターチェンジフォーマット（ＧＩＦ）フォーマット、ビットマップイメージファイルフォーマット、又はタグドイメージファイルフォーマット（ＴＩＦＦ）などの異なるフォーマットとすることができる。

ある実施形態によれば、生成された第３の画像４０４Ａは、第１の物体３０２の表面上の第１の複数の地点に関連する異なる第１の深度値を表す異なる色（すなわち、ＲＧＢ）を含むことができる。例示的な実施形態では、深度センサ３０８との距離が最も近いと考えられる第１の物体３０２の表面上の地点は、第３の画像４０４Ａ内の対応する画素を表す最も暗い色調の青色を含むことができ、距離が最も遠いと考えられる地点は、第３の画像４０４Ａ内の対応する画素を表す最も明るい色調の青色又は（赤色などの）異なる色を含むことができる。この青色などの色は、深度センサ３０８と第１の物体３０２の表面上の第１の複数の地点との間の距離が増加するにつれて、生成された第３の画像４０４Ａ内でグラデーションの形で変化（例えば、強度が減少）することができる。なお、第３の画像４０４Ａ内の異なる深度値を示す異なる色調の青色はほんの一例にすぎない。第３の画像４０４Ａは、本開示の範囲から逸脱することなく、深度センサ３０８によって取り込まれた第１の物体の第１の深度値を示す異なる色又は他の様々な色の色調を含むことができる。

ある実施形態では、深度センサ３０８によって取り込まれた第１の物体３０２に関連する（図１の第１のシーン１１０などの）背景が、第３の画像４０４Ａ内の赤色などの別の色を含むことができる。従って、第３の画像４０４Ａは、深度センサ３０８によって取り込まれた第１の物体３０２の第１の深度情報（又は第１の深度値）を示すことができる。換言すれば、第３の画像４０４Ａは、第１の物体３０２が存在し得る第１のシーン１１０に関連する深度情報をさらに示すことができる。従って、開示するシステム１０２は、深度センサ３０８によって取り込まれた物体（すなわち、現実世界に存在する物体）の深度情報を（第３の画像などの）画像として表すことができる。

４０６において、第１の画像４０２Ａをフィルタ処理することができる。ある実施形態によれば、プロセッサ２０２は、深度センサ３０８によって取り込まれた１又は２以上の第１の物体１１２のうちの第１の物体３０２の第１の画像４０２Ａをフィルタ処理するように構成することができる。フィルタ処理は、第１の画像４０２Ａ内の第１の物体３０２に関連するいずれかの冗長な又は不要な情報を除去するためなど、第１の画像４０２Ａを清浄化するために実行することができる。例えば、第１の画像４０２Ａの背景をぼやけさせることができる。別の例では、第１の物体３０２の特定のビュー又は部分を取得するために第１の物体３０２にズームインし、従って第１の画像４０２Ａの他の部分をフィルタ除去することができる。プロセッサ２０２又は３Ｄグラフィックスエンジン１０４は、フィルタ処理された第１の画像４０２Ａを利用して、例えば４１２において説明するようにグラフィック情報を生成することができる。

４０８において、追跡情報を受け取ることができる。ある実施形態によれば、プロセッサ２０２は、３Ｄ空間におけるハンドヘルド装置３０６及び深度センサ３０８の動きに基づいて、深度センサ３０８に関連するハンドヘルド装置３０６から追跡情報を受け取るように構成することができる。ユーザ３０４は、第１の画像４０２Ａ及び第１の物体３０２に関連する第１の深度値を取り込むために、３Ｄ空間内（すなわち、図３に示す第１の物体３０２の周囲）でハンドヘルド装置３０６及び深度センサ３０８を動かすことができる。例えば、第１の物体３０２を取り込むために、３Ｄ空間内で深度センサ３０８を近くに又は遠くに動かすことができる。さらに、第１の画像セット（図示せず）を取り込むために、深度センサ３０８を第１の物体３０２に対して上向き方向又は下向き方向に動かすこともできる。深度センサ３０８に接続又は統合されたハンドヘルド装置３０６は、３Ｄ空間における深度センサ３０８の動きを追跡して追跡情報を生成することができる。

追跡情報は、３Ｄ空間における深度センサ３０８の位置情報（ＸＹＺ情報）又は配向情報（異なるＸＹ方向への回転度）を含むことができる。例えば、位置情報は、（ＸＹＺ座標などの）直交座標系で示される３Ｄ空間内の深度センサ３０８の正確な位置を含むことができる。配向情報は、３Ｄ空間内の基準軸に対する深度センサ３０８の回転角を含むことができる。例えば、深度センサ３０８は、第１の画像４０２Ａを取り込んでいる間、３Ｄ空間内の基準軸に対して０度の角度にあることができる。別の例では、深度センサ３０８が、第１の画像４０２Ａを取り込んでいる間、３Ｄ空間内の基準軸に対して３０度の角度であることができる。

４１０において、１又は２以上のユーザ入力を受け取ることができる。ある実施形態によれば、プロセッサ２０２は、第１の視点から取り込まれた第１の画像４０２Ａを修正するための１又は２以上のユーザ入力をユーザ３０４から受け取るようにさらに構成することができる。例示的なシナリオでは、生成された第１の画像４０２Ａを、システム１０２又は３Ｄグラフィックスエンジン１０４に関連するディスプレイ装置３１０上に表示することができる。表示された第１の画像４０２Ａは、ユーザ３０４から受け取った１又は２以上のユーザ入力に基づいて修正することができる。例えば、ユーザ３０４は、第１の視点以外の異なる視点からの第１の物体３０２の画像を取得するために、第１のＩ／Ｏ装置１１４を介して第１の画像４０２Ａ内の第１の物体３０２を一定の角度に回転させることができる。１又は２以上のユーザ入力は、システム１０２の第１のＩ／Ｏ装置１１４を介してユーザ３０４から受け取ることができる。別の例では、深度センサ３０８によって最初に第１の画像４０２Ａを取り込むことができた第１の視点とは異なる視点からの第１の物体３０２の別の画像を取得するために、第１の物体３０２の表示された第１の画像４０２Ａをディスプレイ装置３１０上の１つの位置から別の位置に移動させることができる。

４１２において、グラフィック情報を生成することができる。ある実施形態によれば、プロセッサ２０２は、受け取った追跡情報に基づいて、（１又は２以上の第１の物体１１２のうちの）第１の物体３０２の第１の画像４０２Ａに対応するグラフィック情報を生成するように構成することができる。いくつかの実施形態では、グラフィック情報を、第１のＩ／Ｏ装置１１４を介してユーザ３０４から受け取られた１又は２以上のユーザ入力に基づいて第１の画像４０２Ａから生成することができる（すなわち、４０６においてフィルタ処理することができる）。グラフィック情報は、第１の視点とは異なることができる１又は２以上の第２の視点からの第１の物体３０２を含み又はこれに対応することができる。

ある実施形態によれば、システム１０２は、受け取られた追跡情報及び／又は第１のＩ／Ｏ装置１１４から受け取られた１又は２以上のユーザ入力に基づいて１又は２以上の第２の視点からの１又は２以上の第１の物体１１２のうちの第１の物体３０２に対応するグラフィック情報を生成するように構成できる３Ｄグラフィックスエンジン１０４をさらに含むことができる。生成されたグラフィック情報は、システム１０２に関連するディスプレイ装置３１０上に表示することができる。従って、３Ｄグラフィックスエンジン１０４は、（図３に示すように）実際の環境内で深度センサ３０８によって直接取り込まれていない異なる視点からの第１の物体３０２のグラフィック情報の生成を可能にすることができる。

ある実施形態によれば、グラフィック情報が、以下に限定するわけではないが、１又は２以上の第２の画像、点群データ、ボクセルセット、３次元（３Ｄ）メッシュ、ビデオ情報、ＬＡＳ（ＬＡＳｅｒ）フォーマットデータ、又は専用フォーマットデータを含むことができる。１又は２以上の第２の画像は、１又は２以上の第２の視点からの第１の物体３０２の色情報を含むことができる画像に対応することができる。例えば、グラフィック情報は、第１のグラフィック情報４１２Ａ、第２のグラフィック情報４１２Ｂ、第３のグラフィック情報４１２Ｃ、及び第４のグラフィック情報４１２Ｄを含むことができる。第１のグラフィック情報４１２Ａは、第１の視点とは異なることができる第２の視点からの第１の物体３０２の１又は２以上の第２の画像のうちの画像に対応することができる。例えば、第１のグラフィック情報４１２Ａは、第１の物体３０２の第１の画像４０２Ａを水平方向に反転させたバージョンを示すことができる。第２のグラフィック情報４１２Ｂは、第１の視点及び第２の視点とは異なる第３の視点（すなわち、１又は２以上の第２の視点のうちの第３の視点）からの１又は２以上の第２の画像のうちの画像に対応することができる。例えば、図４Ａに示すように、第２のグラフィック情報４１２Ｂは、第１の物体３０２の第１の画像４０２Ａを回転させてサイズ変更したバージョンを示すことができる。従って、システム１０２の３Ｄグラフィックスエンジン１０４は、受け取られた追跡情報及び／又は第１のＩ／Ｏ装置１１４を介してユーザ３０４から受け取られた１又は２以上のユーザ入力に基づいて、第１の物体３０２に対応する（１又は２以上の第２の画像などの）複数の画像を生成することができる。例えば、３Ｄグラフィックスエンジン１０４は、第１の画像４０２Ａ（すなわち、深度センサ３０８によって１つの視点から取り込まれた画像）の視点を変更（例えば、回転、サイズ変更、並進又は移動）するためのユーザ入力をディスプレイ装置３１０上で受け取って１又は２以上の第２の画像を生成することができる。別の例では、３Ｄグラフィックスエンジン１０４が、第１の物体３０２の周囲の３Ｄ空間におけるハンドヘルド装置３０６の動きに基づき、ハンドヘルド装置３０６の追跡情報（すなわち、位置情報及び／又は配向情報）に基づいて視点を変更し、第１の物体３０２の１又は２以上の第２の画像（すなわち、側面ビューを示す第１のグラフィック情報４１２Ａなど）を生成することができる。

ある実施形態では、第３のグラフィック情報４１２Ｃが、第１の物体３０２に関連する点群データに対応することができる。点群データの各点は、第１の物体３０２の表面の地点を表すことができる。第４のグラフィック情報４１２Ｄは、第１の物体３０２に関連する３Ｄメッシュに対応することができる。第１の物体３０２の３Ｄメッシュは、システム１０２の３Ｄグラフィックスエンジン１０４によって生成された第１の物体３０２の３Ｄモデルを表すことができる。従って、図４Ａに一例として示すように、生成されたグラフィック情報は、実際の環境内で深度センサ３０８によって最初に第１の画像４０２Ａが取り込まれた第１の視点とは異なる１又は２以上の第２の視点からの第１の物体３０２の表現を含むことができる。生成されたグラフィック情報は、システム１０２によって生成された第１の物体３０２に関連する合成データ（又は仮想データ）を表すことができる。いくつかの実施形態では、プロセッサ２０２が、第１の物体３０２の（実世界の周囲環境などの）第１のシーン１１０を描写するように３Ｄグラフィックスエンジン１０４をさらに制御することができる。第１の物体３０２の実世界の周囲環境は、深度センサ３０８及びハンドヘルド装置３０６（例えば、仮想現実装置）によって取り込むことができる。３Ｄグラフィックスエンジン１０４は、（仮想周囲環境などの）異なるシーンにおける第１の物体３０２の第１の画像４０２Ａの配置に基づいてグラフィック情報をさらに生成することができる。

４１４において、１又は２以上の第２の深度値を計算することができる。ある実施形態によれば、プロセッサ２０２は、１又は２以上の第２の視点から（４１２において）生成されたグラフィック情報に基づいて、１又は２以上の第１の物体１１２のうちの第１の物体３０２に関連する１又は２以上の第２の深度値を計算するように構成することができる。いくつかの実施形態では、１又は２以上の第２の深度値の各々が、深度センサ３０８と、生成された１又は２以上の第２の画像（又はグラフィック情報）における１又は２以上の第２の視点から取り込まれた第１の物体３０２の表面上の第２の複数の地点との間の深度情報を示すことができる。１又は２以上の第２の深度値は、グラフィック情報における第１の物体３０２の表面上の第２の複数の地点の各々と深度センサ３０８との間の距離に関連することができる。

ある実施形態によれば、プロセッサ２０２は、第１の時間インスタンス（ｔｉｍｅｉｎｓｔａｎｃｅ）において、ハンドヘルド装置３０６からの追跡情報において深度センサ３０８の第１の位置情報又は第１の配向情報の少なくとも一方を受け取るように構成することができる。深度センサ３０８の第１の位置情報又は第１の配向情報は、第１の時間インスタンスにおける３Ｄ空間内の深度センサ３０８の初期又は基準位置及び／又は（例えば、直交座標系に関する）配向に対応することができる。例えば、第１の時間インスタンスは、深度センサ３０８から第１の画像４０２Ａ及び第１の物体３０２の第１の深度値を取り込んだ時間インスタンスに関連することができる（すなわち、４０２及び図３において説明したような時間インスタンス）。従って、第１の位置情報及び／又は第１の配向情報は、第１の物体３０２の第１の画像４０２Ａの取り込み時におけるハンドヘルド装置３０６又は深度センサ３０８の基準位置及び／又は配向を示すことができる。

プロセッサ２０２は、第２の時間インスタンスにおいて、ハンドヘルド装置３０６からの追跡情報において第２の位置情報又は第２の配向情報の少なくとも一方を受け取るようにさらに構成することができる。第２の時間インスタンスは、３Ｄ空間におけるハンドヘルド装置３０６及び深度センサ３０８の動きの時間インスタンスとすることも、或いはディスプレイ装置３１０上に表示された第１の物体３０２を修正（すなわち、回転、再サイズ、並進又は移動）するためのユーザ入力を第１のＩ／Ｏ装置１１４を介して受け取った時間インスタンスとすることもできる。従って、プロセッサ２０２は、第２の時間インスタンスにおいてハンドヘルド装置３０６の位置／配向の変化を識別し、及び／又は表示された物体を修正するユーザ入力の変化を識別することができる。

ある実施形態によれば、プロセッサ２０２又は３Ｄグラフィックスエンジン１０４は、第１の時間インスタンスにおける第１の位置情報又は第１の配向情報（すなわち、基準位置／配向）、及び第２の時間インスタンスにおける第２の位置情報又は第２の配向情報に基づいて、１又は２以上の第１の物体１１２のうちの第１の物体３０２に関連する１又は２以上の第２の深度値を計算するようにさらに構成することができる。従って、１又は２以上の第２の深度値は、深度センサ３０８の基準位置／配向からの３Ｄ空間における深度センサ３０８の位置及び／又は配向の変化（すなわち、（４０２において）第１の物体３０２の第１の深度値が取り込まれた第１の時間インスタンスにおいて追跡された位置及び／又は配向の変化）に基づいて計算することができる。従って、第１の視点とは異なる１又は２以上の第２の視点からのグラフィック情報及び第２の深度値を生成するために追跡情報の変化を同期させることができる。３Ｄグラフィックスエンジン１０４による異なる視点（例えば、側面ビュー又は背面ビュー）からのグラフィック情報（すなわち、第２の画像）及び第２の深度値の生成は、深度センサ３０８とは異なる仮想センサからの第１の物体３０２の取り込みと呼ぶことができる。ハンドヘルド装置３０６による３Ｄ空間における深度センサ３０８の位置情報及び／又は配向情報の変化の検出は、１又は２以上の第２の視点から見た仮想センサと第１の物体３０２の表面上の第２の複数の地点の各地点との間の距離（すなわち、第２の深度値）を正確に提供することができる。

別の実施形態では、プロセッサ２０２が、グラフィック情報を（すなわち、４１２において説明したように）生成するために、ディスプレイ装置３１０上に表示された第１の画像４０２Ａに関する１又は２以上のユーザ入力を受け取ることができる。プロセッサ２０２は、第１の画像４０２Ａの取り込み中に計算された第１の深度値に基づくとともに、第１の画像４０２Ａに対して１又は２以上のユーザ入力として行われた修正にさらに基づいて、１又は２以上の第２の深度値をさらに計算することができる。例えば、プロセッサ又は３Ｄグラフィックスエンジン１０４は、ディスプレイ装置３１０上の第１の物体３０２の表示された第１の画像４０２Ａを回転させるように提供されたユーザ入力を利用して、元々の第１の深度値及び回転入力（すなわち、度数）に基づいて第２の深度値を計算することができる。

ある実施形態によれば、プロセッサ２０２は、深度センサ３０８によって取り込まれた第１の画像４０２Ａから背景情報を抽出するようにさらに構成することができる。背景情報は、（第１のシーン１１０などの）第１の物体３０２の周囲環境に関連する情報を含むことができる。第１のシーン１１０の背景情報は、限定するわけではないが、背景物体又は（複数の物体を含む）背景シーンを含むことができる。プロセッサ２０２は、第２の深度値を計算するために、第１の画像４０２Ａと共に背景情報をシステム１０２の３Ｄグラフィックスエンジン１０４に提供することができる。

プロセッサ２０２又は３Ｄグラフィックスエンジン１０４は、背景情報に基づいて、第１の物体３０２に関連する１又は２以上の第２の深度値を計算することができる。深度センサ３０８が移動する（すなわち、追跡情報によって追跡された）又は第１の物体３０２が移動する（すなわち、ユーザ入力に基づく）いくつかの状況では、背景情報が変化しないことができる。このような第１の物体３０２の背景が動かない場合、プロセッサ２０２は、第１の深度値と、追跡情報及び／又はユーザ入力の変化とに基づいて第２の深度値を計算することができる。一方で、背景情報に何らかの変化があった場合、プロセッサ２０２は、第１の物体３０２と背景物体又はシーンとの間の距離を決定することができる。いくつかの実施形態では、プロセッサ２０２又は３Ｄグラフィックスエンジン１０４が、ディスプレイ装置３１０上に表示された背景内の、背景の変化又は第１の物体３０２と背景物体又はシーンとの間の距離の変化を引き起こす可能性がある第１の物体３０２の位置を変更する１又は２以上のユーザ入力をユーザ３０４からさらに受け取ることができる。プロセッサ２０２は、受け取った追跡情報、表示された第１の物体３０２を修正するためのユーザ入力、及び／又は背景情報に基づいて、第１の物体３０２に関連する１又は２以上の第２の深度値をさらに計算することができる。

４１６において、１又は２以上の第４の画像を生成することができる。ある実施形態によれば、プロセッサ２０２は、１又は２以上の第１の物体１１２のうちの第１の物体３０２に関連する計算された１又は２以上の第２の深度値に対応する１又は２以上の第４の画像を生成するように構成することができる。１又は２以上の第２の深度値からの１又は２以上の第４の画像の生成は、例えば図４Ａの４０４において説明したような第１の深度値からの第３の画像４０４Ａの生成と同様とすることができる。いくつかの実施形態では、生成された１又は２以上の第４の画像が、第１の物体３０２の表面上の第２の複数の地点に関連する１又は２以上の第２の深度値の異なる深度値を表す異なる色（すなわち、ＲＧＢ）を含むことができる。第３の画像４０４Ａと同様に、１又は２以上の第４の画像も、例えば（以下に限定するわけではないが）、ポータブルネットワークグラフィックス（ＰＮＧ）フォーマット、写真専門家合同委員会（ｊｐｅｇ）フォーマット、グラフィックスインターチェンジフォーマット（ＧＩＦ）フォーマット、ビットマップイメージファイルフォーマット、又はタグドイメージファイルフォーマット（ＴＩＦＦ）などの異なるフォーマットとすることができる。

図４Ｂに示すように、１又は２以上の第４の画像は、（画像４１６Ａ、画像４１６Ｂ、画像４１６Ｃ及び画像４１６Ｄなどの）画像４１６Ａ～４１６Ｄの組とすることができる。画像４１６Ａ～４１６Ｄの組の各々は、異なる深度値（すなわち、４１４で計算された第２の深度値）を表す異なる色を含むことができる。例えば、生成された１又は２以上の第４の画像内では、３Ｄグラフィックスエンジン１０４に関連する仮想センサと第１の物体３０２の表面上の第２の複数の地点との間の距離が増加するにつれて、青色の色調などの色がグラデーションの形で変化（例えば、減少）することができる。図４Ａ～図４Ｂに示すように、画像４１６Ａは、第１のグラフィック情報４１２Ａに対応する深度値を示すことができ、画像４１６Ｂは、第２のグラフィック情報４１２Ｂに対応する深度値を示すことができる。同様に、画像４１６Ｃは、第３のグラフィック情報４１２Ｃに対応する深度値を示すことができ、画像４１６Ｄは、第４のグラフィック情報４１２Ｄに対応する深度値を示すことができる。ある実施形態では、画像４１６Ａ～４１６Ｄの組が、深度センサ３０８によって実際の環境内の１つの視点から取り込まれた第１の画像４０２Ａ（すなわち、実データ）についての、（３Ｄグラフィックスエンジン１０４を含む）開示するシステム１０２によって様々な視点から生成された仮想画像又は仮想データに対応することができる。

４１８において、訓練データセット４２０を生成することができる。ある実施形態によれば、プロセッサ２０２は、ニューラルネットワークモデル２０４Ａを訓練するための訓練データセット１１６を生成するように構成することができる。訓練データセット４２０は、第１の画像４０２Ａ（すなわち、４０２において深度センサ３０８によって取り込まれた画像）と第３の画像４０４Ａ（すなわち、４０４において第１の深度値から生成された画像）との第１の組み合わせを含むことができる。訓練データセット４２０は、グラフィック情報に対応する１又は２以上の第２の画像（すなわち、４１２において３Ｄグラフィックスエンジン１０４によって生成された画像）と１又は２以上の第２の深度値に対応する１又は２以上の第４の画像（すなわち、４１６において生成された画像）との第２の組み合わせをさらに含むことができる。図４Ｂには、開示するシステム１０２によって生成された訓練データセット４２０を示す。

訓練データセット４２０は、第１の画像４０２Ａと第３の画像４０４Ａとの第１の組み合わせとすることができる第１の画像セット４２０Ａを含むことができる。第１の画像セット４２０Ａは、ニューラルネットワークモデル２０４Ａを訓練できるペア画像セットとすることができる。例えば、ニューラルネットワークモデル２０４Ａは、第１の画像４０２Ａ（すなわち、実際の環境内で深度センサ３０８によって取り込まれた画像）と、第１の深度値（すなわち、第１の画像４０２Ａの取り込み中に深度センサ３０８によって取り込まれた深度値）のために生成された第３の画像４０４Ａとの間の関係又はマッピングに基づいて訓練することができる。ある実施形態では、ニューラルネットワークモデル２０４Ａを、第１の画像４０２Ａ（すなわち、実際の環境内で深度センサ３０８によって取り込まれた画像）と第１の深度値（すなわち、第１の画像４０２Ａの取り込み中に深度センサ３０８によって取り込まれた深度値）との間の関係又はマッピングに基づいて訓練することができる。ニューラルネットワークモデル２０４Ａは、第１の画像４０２Ａ又は第１の画像４０２Ａと同様の特徴を有する新たな画像を訓練済みニューラルネットワークモデル２０４Ａへの入力として提供した時に第１の深度値を予測するように訓練することができる。

訓練データセット４２０は、（図４Ｂに示すような）第２の画像セット４２０Ｂ、第３の画像セット４２０Ｃ、第４の画像セット４２０Ｄ及び第５の画像セット４２０Ｅを第２の組み合わせとしてさらに含むことができる。第２の画像セット４２０Ｂは、第１のグラフィック情報４１２Ａと、第１のグラフィック情報４１２Ａに対応する深度値を示すことができる画像４１６Ａとを含むことができる。第３の画像セット４２０Ｃは、第２のグラフィック情報４１２Ｂと、第２のグラフィック情報４１２Ｂに対応する深度値を示すことができる画像４１６Ｂとを含むことができる。第４の画像セット４２０Ｄは、第３のグラフィック情報４１２Ｃと、第３のグラフィック情報４１２Ｃに対応する深度値を示すことができる画像４１６Ｃとを含むことができる。第５の画像セット４２０Ｅは、第４のグラフィック情報４１２Ｄと、第４のグラフィック情報４１２Ｄに対応する深度値を示すことができる画像４１６Ｄとを含むことができる。ある実施形態では、第２の画像セット４２０Ｂ、第３の画像セット４２０Ｃ、第４の画像セット４２０Ｄ及び第５の画像セット４２０Ｅが、システム１０２の３Ｄグラフィックスエンジン１０４によって生成されたグラフィック情報に対応する１又は２以上の第２の画像と１又は２以上の第２の深度値に対応する１又は２以上の第４の画像との各組み合わせに対応することができる。いくつかの実施形態では、第２の画像セット４２０Ｂ、第３の画像セット４２０Ｃ、第４の画像セット４２０Ｄ及び第５の画像セット４２０Ｅを、システム１０２が実データ（すなわち、実際の環境内で深度センサ３０８によって取り込まれた第１の画像４０２Ａ）に基づいて１又は２以上の第２の画像（又はグラフィック情報）の各々を合成的又は仮想的に生成できるような非ペア画像セットと呼ぶことができる。このような開示するシステム１０２によって生成される非ペア画像（すなわち、仮想データ）は、異なる視点から見た同じ物体について生成されるので、実データを厳密に模倣することができる。従って、開示するシステム１０２は、深度センサ３０８によって１つの視点から異なる物体について取り込まれた第１の画像の各々について、例えば異なる視点からの同じ物体のための数多くの複数の第２の画像（又はグラフィック情報）を生成することができる。システム１０２は、異なる物体の第１の画像及び対応する第１の深度値（すなわち、第３の画像４０４Ａ）をさらに含むとともに、ニューラルネットワークモデル２０４Ａを訓練するための大規模訓練データセットとして、異なる視点からの物体の複数の第２の画像及び対応する第２の深度値（すなわち、第４の画像）を含むことができる。訓練済みニューラルネットワークモデル２０４Ａは、訓練済みニューラルネットワークモデル２０４Ａに入力された（コンピュータ生成画像（ＣＧＩ）などの）画像の深度値を（深度センサを必要とすることなく）予測するために利用することができる。従って、訓練済みニューラルネットワークモデル２０４Ａを利用して、深度センサにリアルタイムで依拠するのではなく入力画像に基づいて深度情報を提供又は予測することができる。開示する（３Ｄグラフィックスエンジン１０４を含む）システム１０２によって提供される数多くの第２の画像（すなわち、グラフィック情報）は、訓練済みニューラルネットワークモデル２０４Ａの予測精度を高める大規模訓練データセットを提供することができる。さらに、実際の環境において大規模深度値データセットを取り込むために異なる場所又は視点に深度センサ３０８（又は同様の高価な深度センサ）を配置することが不要となり得るので、訓練データセットを増やすために様々な視点（すなわち、４１２において説明した様々な視点）からのグラフィック情報を生成することは安価であることができる。

例示的なシナリオでは、ニューラルネットワークモデル２０４Ａに訓練データセット４２０を提供することができる。訓練データセット４２０の第１の画像４０２Ａ、第１のグラフィック情報４１２Ａ、第２のグラフィック情報４１２Ｂ、第３のグラフィック情報４１２Ｃ及び第４のグラフィック情報４１２Ｄの各々は、ニューラルネットワークモデル２０４Ａへの入力とみなされるようにニューラルネットワークモデル２０４Ａに提供することができる。訓練データセット４２０の第３の画像４０４Ａ、画像４１６Ａ、画像４１６Ｂ、画像４１６Ｃ及び画像４１６Ｄの各々（すなわち、全ての画像は特定の物体の対応する深度値を示す）は、ニューラルネットワークモデル２０４Ａの訓練のための対応する出力（すなわち、各それぞれの入力画像のための出力）とみなされるように提供することができる。ニューラルネットワークモデル２０４Ａは、各入力画像と出力画像（すなわち、深度値に関連する画像）との間の関係又はマッピングを確立するように訓練することができる。いくつかの実施形態では、ニューラルネットワークモデル２０４Ａを、第１の画像３１２と第１の深度値との第１の組み合わせを含むとともに、異なる物体の（グラフィック情報に対応する）１又は２以上の第２の画像と１又は２以上の第２の深度値との第２の組み合わせをさらに含むことができる訓練データセットに基づいて訓練することができる。訓練済みニューラルネットワークモデル２０４Ａは、訓練済みニューラルネットワークモデル２０４Ａに提供された入力画像（すなわち、ニューラルネットワークモデル２０４Ａの訓練元である第１の画像３１２、又は第２の画像のうちの１つに類似する入力画像）の深度値（すなわち、第１の深度値、又は第２の深度値のうちの１つ）を自動的に予測することができる。

図４００については、４０２、４０４、４０６、４０８、４１０、４１２、４１４、４１６及び４１８などの離散的動作として示しているが、いくつかの実施形態では、開示する実施形態の本質を損なうことなく、このような離散的動作を特定の実装に応じてさらなる動作にさらに分割し、より少ない動作に組み合わせ、又は削除することもできる。

図５は、本開示の実施形態による、深度測定用訓練データセットの生成のための例示的な方法を示すフローチャートである。図５の説明は、図１、図２、図３、図４Ａ及び図４Ｂの要素に関連して行う。図５にはフローチャート５００を示す。フローチャート５００の例示的な方法は、例えば図１のシステム１０２又は図２のプロセッサ２０２などのいずれかのコンピュータシステムによって実行することができる。フローチャート５００の例示的な方法は、５０２から開始して５０４に進むことができる。

５０４において、深度センサ１０６を、１又は２以上の第１の物体１１２の第１の画像３１２、及び１又は２以上の第１の物体１１２に関連する第１の深度値を第１の視点から取り込むように制御することができる。ある実施形態によれば、プロセッサ２０２は、１又は２以上の第１の物体１１２の第１の画像、及び１又は２以上の第１の物体１１２に関連する第１の深度値を第１の視点から取り込むように深度センサ１０６を制御するよう構成することができる。第１の画像３１２は、１又は２以上の第１の物体１１２の色情報（すなわち、ＲＧＢ）を含むことができる。１又は２以上の第１の物体１１２の第１の画像３１２、及び１又は２以上の第１の物体１１２に関連する第１の深度値を（第１の視点から）取り込むように深度センサ１０６を制御することについては、例えば図４Ａ～図４Ｂの４０２において説明している。

５０６において、１又は２以上の第１の物体１１２に関連する第１の深度値に対応する第３の画像４０４Ａを生成することができる。ある実施形態によれば、プロセッサ２０２は、例えば図４Ａ～図４Ｂの４０４で説明したように、第１の深度値に対応する第３の画像４０４Ａを生成するように構成することができる。

５０８において、３Ｄ空間におけるハンドヘルド装置１０８及び深度センサ１０６の動きに基づいて、深度センサ１０６に関連するハンドヘルド装置１０８から追跡情報を受け取ることができる。ある実施形態によれば、プロセッサ２０２は、３Ｄ空間におけるハンドヘルド装置１０８及び深度センサ１０６の動きに基づいて、深度センサ１０６に関連するハンドヘルド装置１０８から追跡情報を受け取るように構成することができる。追跡情報は、３Ｄ空間における深度センサ１０６の位置情報又は配向情報の少なくとも一方を示すことができる。追跡情報の受信については、例えば図４Ａ～図４Ｂの４０８において説明している。制御は５１２に進むことができる。

５１０において、第１の視点から取り込まれた第１の画像を修正するための１又は２以上のユーザ入力を受け取ることができる。ある実施形態によれば、プロセッサ２０２は、例えば図４Ａ～図４Ｂの４１０において説明したように、第１の画像４０２Ａを修正するための１又は２以上のユーザ入力を第１のＩ／Ｏ装置１１４を介して受け取るように構成することができる。

５１２において、受け取った追跡情報及び／又は受け取った１又は２以上のユーザ入力に基づいて、１又は２以上の第１の物体１１２に対応するグラフィック情報を生成することができる。ある実施形態によれば、プロセッサ２０２は、例えば図４Ａ～図４Ｂの４１２において説明したように、受け取った追跡情報及び／又は受け取った１又は２以上のユーザ入力に基づいて、１又は２以上の第１の物体１１２に対応するグラフィック情報を生成するように構成することができる。

５１４において、１又は２以上の第２の視点から生成されたグラフィック情報に基づいて、１又は２以上の第１の物体１１２に関連する１又は２以上の第２の深度値を計算することができる。ある実施形態によれば、プロセッサ２０２は、１又は２以上の第２の視点から生成されたグラフィック情報に基づいて、１又は２以上の第１の物体１１２に関連する１又は２以上の第２の深度値を計算するように構成することができる。１又は２以上の第２の深度値の計算については、例えば図４Ａ～図４Ｂの４１４において説明している。

５１６において、計算された１又は２以上の第２の深度値（すなわち、１又は２以上の第１の物体１１２に関連する第２の深度値）に対応する１又は２以上の第４の画像を生成することができる。ある実施形態によれば、プロセッサ２０２は、１又は２以上の第１の物体１１２に関連する計算された１又は２以上の第２の深度値に対応する１又は２以上の第４の画像を生成するように構成することができる。１又は２以上の第４の画像の生成については、例えば図４Ａ～図４Ｂの４１６において説明している。

５１８において、訓練データセット１１６を生成することができる。ある実施形態によれば、プロセッサ２０２は、第１の画像３１２と第１の深度値に対応する第３の画像４０４Ａとの第１の組み合わせを含むとともに（グラフィック情報に対応する）１又は２以上の第２の画像と１又は２以上の第２の深度値に対応する１又は２以上の第４の画像との第２の組み合わせを含むことができる訓練データセット１１６をニューラルネットワークモデル２０４Ａのために生成するように構成することができる。訓練データセット１１６の生成については、例えば図４Ａ～図４Ｂの４１８において説明している。制御は終了に進むことができる。

フローチャート５００には、５０４、５０６、５０８、５１０、５１２、５１４、５１６及び５１８などの離散的な動作を示しているが、本開示はこのように限定されるものではない。従って、いくつかの実施形態では、開示する実施形態の本質を損なうことなく、このような離散的動作を特定の実装に応じてさらなる動作にさらに分割し、より少ない動作に組み合わせ、又は削除することができる。

本開示の様々な実施形態は、機械及び／又はコンピュータ（例えば、システム１０２）が実行できる命令を記憶した非一時的コンピュータ可読媒体及び／又は記憶媒体を提供することができる。これらの命令は、（１又は２以上の第１の物体１１２などの）１又は２以上の第１の物体の（第１の画像３１２などの）第１の画像及び１又は２以上の第１の物体１１２に関連する第１の深度値を第１の視点から取り込むように（深度センサ１０６などの）深度センサを制御することを含む動作を機械及び／又はコンピュータ（例えば、システム１０２）に実行させることができる。第１の画像３１２は、１又は２以上の第１の物体１１２の色情報を含むことができる。動作は、３次元（３Ｄ）空間におけるハンドヘルド装置１０８及び深度センサ１０６の動きに基づいて、深度センサ１０６に関連する（ハンドヘルド装置１０８などの）ハンドヘルド装置から追跡情報を受け取ることをさらに含むことができる。追跡情報は、３Ｄ空間における深度センサ１０６の位置情報又は配向情報の少なくとも一方を示すことができる。動作は、受け取った追跡情報に基づいて、１又は２以上の第１の物体１１２に対応するグラフィック情報を生成することをさらに含むことができる。グラフィック情報は、第１の視点とは異なる１又は２以上の第２の視点からの１又は２以上の第１の物体１１２を含むことができる。動作は、１又は２以上の第２の視点から生成されたグラフィック情報に基づいて、１又は２以上の第１の物体１１２に関連する１又は２以上の第２の深度値を計算することをさらに含むことができる。動作は、第１の画像３１２と第１の深度値との第１の組み合わせ、及びグラフィック情報に対応する１又は２以上の第２の画像と１又は２以上の第２の深度値との第２の組み合わせを含むことができる（訓練データセット１１６などの）訓練データセットを（ニューラルネットワークモデル２０４Ａなどの）ニューラルネットワークモデルのために生成することをさらに含むことができる。

本開示の例示的な態様は、（プロセッサ２０２などの）プロセッサを含むことができる（システム１０２などの）システムを含むことができる。プロセッサ２０２は、（１又は２以上の第１の物体１１２などの）１又は２以上の第１の物体の（第１の画像３１２などの）第１の画像、及び１又は２以上の第１の物体１１２に関連する第１の深度値を第１の視点から取り込むように（深度センサ１０６などの）深度センサを制御するよう構成することができる。第１の画像３１２は、１又は２以上の第１の物体１１２の色情報を含むことができる。プロセッサ２０２は、３次元（３Ｄ）空間におけるハンドヘルド装置１０８及び深度センサ１０６の動きに基づいて、深度センサ１０６に関連する（ハンドヘルド装置１０８などの）ハンドヘルド装置から追跡情報を受け取るようにさらに構成することができる。追跡情報は、３Ｄ空間における深度センサ１０６の位置情報又は配向情報の少なくとも一方を示すことができる。プロセッサ２０２は、受け取った追跡情報に基づいて、１又は２以上の第１の物体１１２に対応するグラフィック情報を生成するようにさらに構成することができる。グラフィック情報は、第１の視点とは異なる１又は２以上の第２の視点からの１又は２以上の第１の物体１１２を含むことができる。プロセッサ２０２は、１又は２以上の第２の視点から生成されたグラフィック情報に基づいて、１又は２以上の第１の物体１１２に関連する１又は２以上の第２の深度値を計算するようにさらに構成することができる。プロセッサ２０２は、第１の画像３１２と第１の深度値との第１の組み合わせを含むとともに、グラフィック情報に対応する１又は２以上の第２の画像と１又は２以上の第２の深度値との第２の組み合わせを含むことができる（訓練データセット１１６などの）訓練データセットを（ニューラルネットワークモデル２０４Ａなどの）ニューラルネットワークモデルのために生成するようにさらに構成することができる。

ある実施形態によれば、グラフィック情報は、１又は２以上の第２の画像、点群データ、ボクセルセット、３次元（３Ｄ）メッシュ、ビデオ情報、ＬＡＳ（ＬＡＳｅｒ）フォーマットデータ、又は専用フォーマットデータのうちの少なくとも１つに対応することができる。

ある実施形態によれば、プロセッサ２０２は、深度センサ１０６から第１のテキストフォーマットの第１の深度値を受け取るようにさらに構成することができる。プロセッサ２０２は、第１のテキストフォーマットの第１の深度値を第２のテキストフォーマットにさらに変換することができる。プロセッサ２０２は、第２のテキストフォーマットに基づいて、第１の深度値に対応する第３の画像４０４Ａを生成することができる。

ある実施形態によれば、プロセッサ２０２は、１又は２以上の第１の物体１１２の各々に関連する第１の深度値に対応する第３の画像４０４Ａを生成するようにさらに構成することができる。プロセッサ２０２は、１又は２以上の第１の物体１１２に関連する計算された１又は２以上の第２の深度値に対応する１又は２以上の第４の画像をさらに生成することができる。プロセッサ２０２は、第１の画像３１２と第１の深度値に対応する第３の画像４０４Ａとの第１の組み合わせを含むとともに、グラフィック情報に対応する１又は２以上の第２の画像と１又は２以上の第２の深度値に対応する１又は２以上の第４の画像との第２の組み合わせを含むことができる訓練データセット１１６をニューラルネットワークモデル２０４Ａのためにさらに生成することができる。

ある実施形態によれば、生成された第３の画像４０４Ａ及び１又は２以上の第４の画像の各々は、１又は２以上の第１の物体１１２の各々に関連するそれぞれの第１の深度値及び１又は２以上の第２の深度値の異なる深度値を表す異なる色を含むことができる。

ある実施形態によれば、第１の深度値は、深度センサ１０６と、第１の視点から取り込まれた１又は２以上の第１の物体１１２の表面上の第１の複数の地点との間の深度情報を示すことができる。さらに、１又は２以上の第２の深度値の各々は、深度センサ１０６と、生成された１又は２以上の第２の画像内の１又は２以上の第２の視点から取り込まれた１又は２以上の第１の物体１１２の表面上の第２の複数の地点との間の深度情報を示すことができる。

ある実施形態によれば、深度センサ１０６は、飛行時間（ＴｏＦ）センサ、光検出及び測距（ＬｉＤＡＲ）センサ、立体画像センサ、又は構造化光センサのうちの１つとすることができる。

ある実施形態によれば、プロセッサ２０２は、第１の時間インスタンスにおいて、ハンドヘルド装置１０８からの追跡情報において深度センサ１０６の第１の位置情報又は第１の配向情報のうちの少なくとも一方を受け取るようにさらに構成することができる。プロセッサ２０２は、第２の時間インスタンスにおいて、ハンドヘルド装置１０８からの追跡情報において深度センサ１０６の第２の位置情報又は第２の配向情報の少なくとも一方をさらに受け取ることができる。プロセッサ２０２は、第１の時間インスタンスにおいて受け取られた追跡情報に含まれる第１の位置情報又は第１の配向情報の少なくとも一方と、第２の時間インスタンスにおいて受け取られた追跡情報に含まれる第２の位置情報又は第２の配向情報の少なくとも一方とに基づいて、１又は２以上の第１の物体１１２に関連する１又は２以上の第２の深度値をさらに計算することができる。

ある実施形態によれば、プロセッサ２０２は、深度センサ１０６によって取り込まれた第１の画像３１２から背景情報を抽出するようにさらに構成することができる。プロセッサ２０２は、受け取られた追跡情報及び抽出された背景情報に基づいて、１又は２以上の第１の物体１１２に関連する１又は２以上の第２の深度値をさらに計算することができる。

ある実施形態によれば、システム１０２は、３Ｄグラフィックスエンジン１０４をさらに含むことができる。３Ｄグラフィックスエンジン１０４は、受け取った追跡情報に基づいて、１又は２以上の第２の視点からの１又は２以上の第１の物体１１２に対応するグラフィック情報を生成するように構成することができる。

ある実施形態によれば、プロセッサ２０２は、第１の視点から取り込まれた第１の画像３１２を修正するための１又は２以上のユーザ入力を受け取るように構成することができる。プロセッサ２０２は、受け取った１又は２以上のユーザ入力に基づいて、１又は２以上の第２の視点からの１又は２以上の第１の物体１１２に対応するグラフィック情報をさらに生成することができる。

ある実施形態によれば、プロセッサ２０２は、深度センサ１０６によって取り込まれた１又は２以上の第１の物体１１２の第１の画像３１２をフィルタ処理するようにさらに構成することができる。プロセッサ２０２は、１又は２以上の第１の物体１１２のフィルタ処理された第１の画像３１２及び受け取った追跡情報に基づいて、１又は２以上の第１の物体１１２に対応するグラフィック情報をさらに生成することができる。

本開示は、ハードウェアで実現することも、又はハードウェアとソフトウェアとの組み合わせで実現することもできる。本開示は、少なくとも１つのコンピュータシステム内で集中方式で実現することも、又は異なる要素を複数の相互接続されたコンピュータシステムにわたって分散できる分散方式で実現することもできる。本明細書で説明した方法を実行するように適合されたコンピュータシステム又はその他の装置が適することができる。ハードウェアとソフトウェアとの組み合わせは、ロードされて実行された時に本明細書で説明した方法を実行するようにコンピュータシステムを制御することができるコンピュータプログラムを含む汎用コンピュータシステムとすることができる。本開示は、他の機能も実行する集積回路の一部を含むハードウェアで実現することができる。

本開示は、本明細書で説明した方法の実装を可能にする全ての特徴を含み、コンピュータシステムにロードされた時にこれらの方法を実行できるコンピュータプログラム製品に組み込むこともできる。本文脈におけるコンピュータプログラムとは、情報処理能力を有するシステムに特定の機能を直接的に、或いはａ）別の言語、コード又は表記法への変換、ｂ）異なる内容形態での複製、のいずれか又は両方を行った後に実行させるように意図された命令セットの、あらゆる言語、コード又は表記法におけるあらゆる表現を意味する。

いくつかの実施形態を参照しながら本開示を説明したが、当業者であれば、本開示の範囲から逸脱することなく様々な変更を行うことができ、同等物を代用することもできると理解するであろう。また、本開示の範囲から逸脱することなく、特定の状況又は内容を本開示の教示に適合させるように多くの修正を行うこともできる。従って、本開示は、開示した特定の実施形態に限定されるものではなく、添付の特許請求の範囲内に収まる全ての実施形態を含むように意図される。

Claims

１又は２以上の第１の物体の色情報を含む、前記１又は２以上の第１の物体の第１の画像と、前記１又は２以上の第１の物体に関連する第１の深度値とを第１の視点から取り込むように深度センサを制御し、
前記深度センサに関連するハンドヘルド装置から、３次元（３Ｄ）空間における前記ハンドヘルド装置及び前記深度センサの動きに基づいて、前記３Ｄ空間における前記深度センサの位置情報又は配向情報の少なくとも一方を示す追跡情報を受け取り、
前記受け取った追跡情報に基づいて、前記１又は２以上の第１の物体に対応する、前記第１の視点とは異なる１又は２以上の第２の視点からの前記１又は２以上の第１の物体を含むグラフィック情報を生成し、
前記１又は２以上の第２の視点から生成された前記グラフィック情報に基づいて、前記１又は２以上の第１の物体に関連する１又は２以上の第２の深度値を計算し、
前記第１の画像と前記第１の深度値との第１の組み合わせを含むとともに、前記グラフィック情報に対応する１又は２以上の第２の画像と前記１又は２以上の第２の深度値との第２の組み合わせを含む訓練データセットをニューラルネットワークモデルのために生成する、
ように構成されたプロセッサを備えることを特徴とするシステム。
前記生成されたグラフィック情報は、前記１又は２以上の第２の画像、点群データ、ボクセルセット、３次元（３Ｄ）メッシュ、ビデオ情報、ＬＡＳ（ＬＡＳｅｒ）フォーマットデータ、又は専用フォーマットデータのうちの少なくとも１つに対応する、
請求項１に記載のシステム。
前記プロセッサは、
前記深度センサから第１のテキストフォーマットの前記第１の深度値を受け取り、
前記第１のテキストフォーマットの前記第１の深度値を第２のテキストフォーマットに変換し、
前記第２のテキストフォーマットに基づいて、前記第１の深度値に対応する第３の画像を生成する、
ようにさらに構成される、請求項１に記載のシステム。
前記プロセッサは、
前記１又は２以上の第１の物体の各々に関連する前記第１の深度値に対応する第３の画像を生成し、
前記１又は２以上の第１の物体に関連する前記計算された１又は２以上の第２の深度値に対応する１又は２以上の第４の画像を生成し、
前記第１の画像と前記第１の深度値に対応する前記第３の画像との第１の組み合わせを含むとともに、前記グラフィック情報に対応する前記１又は２以上の第２の画像と前記１又は２以上の第２の深度値に対応する前記１又は２以上の第４の画像との第２の組み合わせを含む前記訓練データセットを前記ニューラルネットワークモデルのために生成する、
ようにさらに構成される、請求項１に記載のシステム。
前記生成された第３の画像及び前記１又は２以上の第４の画像の各々は、前記１又は２以上の第１の物体の各々に関連する前記それぞれの第１の深度値及び前記１又は２以上の第２の深度値の異なる深度値を表す異なる色を含む、
請求項４に記載のシステム。
前記第１の深度値は、前記深度センサと、前記第１の視点から取り込まれた前記１又は２以上の第１の物体の表面上の第１の複数の地点との間の深度情報を示し、前記１又は２以上の第２の深度値の各々は、前記生成されたグラフィック情報における、前記深度センサと、前記１又は２以上の第２の視点から取り込まれた前記１又は２以上の第１の物体の前記表面上の第２の複数の地点との間の深度情報を示す、
請求項１に記載のシステム。
前記深度センサは、飛行時間（ＴｏＦ）センサ、光検出及び測距（ＬｉＤＡＲ）センサ、立体画像センサ、又は構造化光センサのうちの１つである、
請求項１に記載のシステム。
前記プロセッサは、
第１の時間インスタンスにおいて、前記深度センサの第１の位置情報又は第１の配向情報の少なくとも一方を前記ハンドヘルド装置からの前記追跡情報において受け取り、
第２の時間インスタンスにおいて、前記深度センサの第２の位置情報又は第２の配向情報の少なくとも一方を前記ハンドヘルド装置からの前記追跡情報において受け取り、
前記第１の時間インスタンスにおいて受け取られた前記追跡情報に含まれる前記第１の位置情報又は前記第１の配向情報の前記少なくとも一方、及び前記第２の時間インスタンスにおいて受け取られた前記追跡情報に含まれる前記第２の位置情報又は前記第２の配向情報の前記少なくとも一方に基づいて、前記１又は２以上の第１の物体に関連する前記１又は２以上の第２の深度値を計算する、
ように構成される、請求項１に記載のシステム。
前記プロセッサは、
前記深度センサによって取り込まれた前記第１の画像から背景情報を抽出し、
前記受け取られた追跡情報及び前記抽出された背景情報に基づいて、前記１又は２以上の第１の物体に関連する前記１又は２以上の第２の深度値を計算する、
ようにさらに構成される、請求項８に記載のシステム。
前記受け取られた追跡情報に基づいて前記１又は２以上の第２の視点からの前記１又は２以上の第１の物体に対応するグラフィック情報を生成するように構成された３次元（３Ｄ）グラフィックスエンジンをさらに備える、
請求項１に記載のシステム。
前記プロセッサは、
前記第１の視点から取り込まれた前記第１の画像を修正するための１又は２以上のユーザ入力を受け取り、
前記受け取った１又は２以上のユーザ入力に基づいて、前記１又は２以上の第２の視点からの前記１又は２以上の第１の物体に対応する前記グラフィック情報を生成する、
ようにさらに構成される、請求項１に記載のシステム。
前記プロセッサは、
前記深度センサによって取り込まれた前記１又は２以上の第１の物体の前記第１の画像をフィルタ処理し、
前記１又は２以上の第１の物体の前記フィルタ処理された第１の画像と、前記受け取られた追跡情報とに基づいて、前記１又は２以上の第１の物体に対応する前記グラフィック情報を生成する、
ようにさらに構成される、請求項１に記載のシステム。
システムにおいて、
１又は２以上の第１の物体の色情報を含む、前記１又は２以上の第１の物体の第１の画像と、前記１又は２以上の第１の物体に関連する第１の深度値とを第１の視点から取り込むように深度センサを制御することと、
前記深度センサに関連するハンドヘルド装置から、３次元（３Ｄ）空間における前記ハンドヘルド装置及び前記深度センサの動きに基づいて、前記３Ｄ空間における前記深度センサの位置情報又は配向情報の少なくとも一方を示す追跡情報を受け取ることと、
前記受け取った追跡情報に基づいて、前記１又は２以上の第１の物体に対応する、前記第１の視点とは異なる１又は２以上の第２の視点からの前記１又は２以上の第１の物体を含むグラフィック情報を生成することと、
前記１又は２以上の第２の視点から生成された前記グラフィック情報に基づいて、前記１又は２以上の第１の物体に関連する１又は２以上の第２の深度値を計算することと、
前記第１の画像と前記第１の深度値との第１の組み合わせを含むとともに、前記グラフィック情報に対応する１又は２以上の第２の画像と前記１又は２以上の第２の深度値との第２の組み合わせを含む訓練データセットをニューラルネットワークモデルのために生成することと、
を含むことを特徴とする方法。
前記深度センサから第１のテキストフォーマットの前記第１の深度値を受け取ることと、
前記第１のテキストフォーマットの前記第１の深度値を第２のテキストフォーマットに変換することと、
前記第２のテキストフォーマットに基づいて、前記第１の深度値に対応する第３の画像を生成することと、
をさらに含む、請求項１３に記載の方法。
前記１又は２以上の第１の物体の各々に関連する前記第１の深度値に対応する第３の画像を生成することと、
前記１又は２以上の第１の物体に関連する前記計算された１又は２以上の第２の深度値に対応する１又は２以上の第４の画像を生成することと、
前記第１の画像と前記第１の深度値に対応する前記第３の画像との第１の組み合わせを含むとともに、前記グラフィック情報に対応する前記１又は２以上の第２の画像と前記１又は２以上の第２の深度値に対応する前記１又は２以上の第４の画像との第２の組み合わせを含む前記訓練データセットを前記ニューラルネットワークモデルのために生成することと、
を含む、請求項１３に記載の方法。
前記第１の深度値は、前記深度センサと、前記第１の視点から取り込まれた前記１又は２以上の第１の物体の表面上の第１の複数の地点との間の深度情報を示し、前記１又は２以上の第２の深度値の各々は、前記生成された１又は２以上の第２の画像における、前記深度センサと、前記１又は２以上の第２の視点から取り込まれた前記１又は２以上の第１の物体の前記表面上の第２の複数の地点との間の深度情報を示す、
請求項１３に記載の方法。
第１の時間インスタンスにおいて、前記深度センサの第１の位置情報又は第１の配向情報の少なくとも一方を前記ハンドヘルド装置からの前記追跡情報において受け取ることと、
第２の時間インスタンスにおいて、前記深度センサの第２の位置情報又は第２の配向情報の少なくとも一方を前記ハンドヘルド装置からの前記追跡情報において受け取ることと、
前記第１の時間インスタンスにおいて受け取られた前記追跡情報に含まれる前記第１の位置情報又は前記第１の配向情報の前記少なくとも一方、及び前記第２の時間インスタンスにおいて受け取られた前記追跡情報に含まれる前記第２の位置情報又は前記第２の配向情報の前記少なくとも一方に基づいて、前記１又は２以上の第１の物体に関連する前記１又は２以上の第２の深度値を計算することと、
をさらに含む、請求項１３に記載の方法。
前記深度センサによって取り込まれた前記第１の画像から背景情報を抽出することと、
前記受け取られた追跡情報及び前記抽出された背景情報に基づいて、前記１又は２以上の第１の物体に関連する前記１又は２以上の第２の深度値を計算することと、
をさらに含む、請求項１３に記載の方法。
前記第１の視点から取り込まれた前記第１の画像を修正するための１又は２以上のユーザ入力を受け取ることと、
前記受け取った１又は２以上のユーザ入力に基づいて、前記１又は２以上の第２の視点からの前記１又は２以上の第１の物体に対応する前記グラフィック情報を生成することと、
を含む、請求項１３に記載の方法。
コンピュータ実装命令を記憶した非一時的コンピュータ可読媒体であって、前記コンピュータ実装命令は、システムによって実行された時に、
１又は２以上の第１の物体の色情報を含む、前記１又は２以上の第１の物体の第１の画像と、前記１又は２以上の第１の物体に関連する第１の深度値とを第１の視点から取り込むように深度センサを制御することと、
前記深度センサに関連するハンドヘルド装置から、３次元（３Ｄ）空間における前記ハンドヘルド装置及び前記深度センサの動きに基づいて、前記３Ｄ空間における前記深度センサの位置情報又は配向情報の少なくとも一方を示す追跡情報を受け取ることと、
前記受け取った追跡情報に基づいて、前記１又は２以上の第１の物体に対応する、前記第１の視点とは異なる１又は２以上の第２の視点からの前記１又は２以上の第１の物体を含むグラフィック情報を生成することと、
前記１又は２以上の第２の視点から生成された前記グラフィック情報に基づいて、前記１又は２以上の第１の物体に関連する１又は２以上の第２の深度値を計算することと、
前記第１の画像と前記第１の深度値との第１の組み合わせを含むとともに、前記グラフィック情報に対応する１又は２以上の第２の画像と前記１又は２以上の第２の深度値との第２の組み合わせを含む訓練データセットをニューラルネットワークモデルのために生成することと、
を含む動作を前記システムに実行させる、ことを特徴とするコンピュータ可読媒体。