JP2023550926A

JP2023550926A - ニューラルネットワークモデルベースの深度推定

Info

Publication number: JP2023550926A
Application number: JP2023530263A
Authority: JP
Inventors: ジョンファリー; ガレスホワイト; アンティミリコスキ; エドワードセオドアウィンター
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2020-11-23
Filing date: 2021-11-23
Publication date: 2023-12-06
Anticipated expiration: 2041-11-23
Also published as: WO2022107112A1; EP4229596A1; CN115443483A; US20220164973A1; US11488317B2; JP7459452B2

Abstract

１又は２以上の第１の物体に関連する第１のグラフィック情報と対応する第１の複数の深度画像との間の関連性を示す訓練データセットに基づいて訓練されたニューラルネットワークモデルを記憶するシステムを提供する。システムは、１又は２以上の第１の物体に対応する第２のグラフィック情報を受け取る。システムは、受け取った第２のグラフィック情報に訓練済みニューラルネットワークモデルをさらに適用する。システムは、受け取った第２のグラフィック情報に対する訓練済みニューラルネットワークモデルの適用に基づいて、第１の複数の深度画像から第１の深度画像を予測する。システムは、予測された第１の深度画像から第１の深度情報を抽出する。第１の深度情報は、第２のグラフィック情報によって示される１又は２以上の第１の物体に対応する。【選択図】なし

Description

〔関連出願との相互参照／引用による組み入れ〕
なし

本開示の様々な実施形態は、ニューラルネットワークモデルに関する。具体的には、本開示の様々な実施形態は、ニューラルネットワークモデルベースの深度推定のためのシステム及び方法に関する。

従来、深度推定にはレンジイメージングアプリケーション（ｒａｎｇｅｉｍａｇｉｎｇａｐｐｌｉｃａｔｉｏｎｓ）が使用される。レンジイメージングアプリケーションは、（飛行時間（ＴｏＦ）センサ、光検出及び測距（ＬｉＤＡＲ）センサ、又は構造化光（ｓｔｒｕｃｔｕｒｅｄｌｉｇｈｔ）センサなどの）様々なタイプの深度センサを利用して、実際の環境内に存在する物体の深度推定を行うことができる。深度センサは、実際の環境内に存在する物体の１又は２以上の画像を異なる視点から取り込むことができる。深度センサによって取り込まれた画像を処理して深度情報を取得することは複雑なタスクとなり得る。さらに、レンジイメージングアプリケーションによって採用される深度センサは高価であり、容易に入手できず、実装が構造的に困難な場合もある。

当業者には、説明したシステムと、本出願の残り部分において図面を参照しながら示す本開示のいくつかの態様とを比較することにより、従来の慣習的な手法の限界及び不利点が明らかになるであろう。

実質的に少なくとも１つの図に関連して図示及び／又は説明し、特許請求の範囲にさらに完全に示すような、ニューラルネットワークモデルベースの深度推定のためのシステム及び方法を提供する。

全体を通じて同じ要素を同じ参照符号によって示す添付図面を参照しながら本開示の以下の詳細な説明を検討することにより、本開示のこれらの及びその他の特徴及び利点を理解することができる。

本開示の実施形態による、ニューラルネットワークモデルベースの深度推定のための例示的なネットワーク環境の図である。本開示の実施形態による、ニューラルネットワークモデルベースの深度測定のためのシステムのブロック図である。本開示の実施形態による、ニューラルネットワークモデルベースの深度推定のための例示的な動作のシーケンス図である。本開示の実施形態による、訓練済みニューラルネットワークモデルの深度推定における性能をチェックする例示的な動作のためのシーケンス図である。本開示の実施形態による、ニューラルネットワークモデルベースの深度推定のための例示的な方法を示すフローチャートである。

開示するニューラルネットワークモデルベースの深度推定のためのシステム及び方法では、後述する実装を見出すことができる。本開示の例示的な態様は、ニューラルネットワークモデルを訓練するように構成されたシステムを提供する。ニューラルネットワークモデルは、訓練データセットに基づいて訓練することができる。訓練データセットは、１又は２以上の第１の物体（例えば、インフラ、家具、人間、その他の生物及び無生物）に関連する第１のグラフィック情報及び対応する第１の複数の深度画像を含むことができる。第１のグラフィック情報の例としては、以下に限定するわけではないが、１又は２以上の第１の物体に関連する画像、点群データ、ボクセル情報、又はコンピュータ生成画像（ＣＧＩ）情報を挙げることができる。第１の複数の深度画像は、第１のグラフィック情報に示される１又は２以上の第１の物体の深度情報を含むことができる。

ニューラルネットワークモデルは、１又は２以上の第１の物体の深度推定のために、第１のグラフィック情報と対応する第１の複数の深度画像との間の対応性を学習するように訓練することができる。従って、開示するシステムは、訓練済みニューラルネットワークモデルへのグラフィック情報の（すなわち、画像、点群データ又はボクセルセットなどの１又は２以上のフォーマットでの）入力に基づいて１又は２以上の第１の物体に関連する（飛行時間（ＴＯＦ）画像などの）深度画像を出力するように構成できるニューラルネットワークモデルを訓練することができる。

開示するシステムには訓練済みニューラルネットワークモデルを記憶することができる。システムは、１又は２以上の第１の物体に対応することができる第２のグラフィック情報（例えば、新たなグラフィック情報）をさらに受け取ることができる。例えば、第２のグラフィック情報は、（椅子などの）１又は２以上の第１の物体に関連する画像とすることができる。なお、第２のグラフィック情報は、訓練データセットの第１のグラフィック情報と同じ（又は実質的に同じ）であることも、或いはニューラルネットワークモデルを訓練できる第１のグラフィック情報とは異なる情報であることもできる。

システムは、受け取った第２のグラフィック情報にニューラルネットワークモデルをさらに適用することができる。訓練済みニューラルネットワークモデルは、受け取った第２のグラフィック情報に訓練データセットの第１の複数の深度画像を対応付けることができる。システムは、受け取った第２のグラフィック情報に対するニューラルネットワークモデルの適用に基づいて、訓練済みニューラルネットワークモデルを第１の複数の深度画像から第１の深度画像を予測するようにさらに制御することができる。システムは、予測された第１の深度画像から第１の深度情報をさらに抽出することができる。第１の深度情報は、第２のグラフィック情報に示される１又は２以上の第１の物体の深度情報を含むことができる。

従って、開示するシステムは、訓練済みニューラルネットワークモデルの使用によって１又は２以上の第１の物体に関連する深度情報の予測を可能にすることができる。従って、第２のグラフィック情報に示される物体に関連する深度情報を決定するために、高価であって実装が構造的に困難な場合がある飛行時間（ＴｏＦ）センサなどの深度センサを使用する必要性を排除することができる。さらに、開示するシステムは、深度センサによって直接実行される深度情報の取り込みと比べて安価で計算効率の高い深度情報の予測を提供することができる。さらに、システムは、ニューラルネットワークモデル（すなわち、様々な物体及びその様々な視点の大規模訓練データセットに基づいて訓練されたニューラルネットワークモデル）を利用して、従来の深度センサに比べて時間効率の良い深度情報の予測を行うことができる。

図１は、本開示の実施形態による、ニューラルネットワークモデルベースの深度推定のための例示的なネットワーク環境の図である。図１にはネットワーク環境１００のブロック図を示す。ネットワーク環境１００はシステム１０２を含むことができる。システム１０２はニューラルネットワークモデル１０４を含むことができる。ニューラルネットワークモデル１０４は、第１のグラフィック情報１０４Ａと第１の複数の深度画像１０４Ｂとの間の関連性を含むことができる訓練データセットに基づいて訓練することができる。ネットワーク環境１００は、第２のグラフィック情報１０６及び第１の深度画像１０８をさらに含むことができる。ネットワーク環境１００は、ユーザ装置１１０及び通信ネットワーク１１２をさらに含むことができる。

システム１０２は、１又は２以上の第１の物体に関連する第１のグラフィック情報１０４Ａと対応する第１の複数の深度画像１０４Ｂとの間の関連性を示すことができる訓練データセットに基づいてニューラルネットワークモデル１０４を訓練するように構成できる好適なロジック、回路、インターフェイス及び／又はコードを含むことができる。システム１０２は、第１の複数の深度画像１０４Ｂから第１の深度画像１０８を予測するようにさらに構成することができる。システム１０２は、１又は２以上の第１の物体に関連する予測された第１の深度画像１０８から第１の深度情報をさらに抽出することができる。システム１０２の例としては、以下に限定するわけではないが、アニメーションシステム、コンピュータグラフィックスエンジン、コンピュータ装置、ラップトップ、メインフレームマシン、サーバ、コンピュータワークステーション、スマートフォン、セルラーフォン、携帯電話機、ゲーム装置及び／又は消費者電子（ＣＥ）装置を挙げることができる。

ニューラルネットワークモデル１０４は、複数の層状に配置された人工ニューロンをノードとする計算ネットワーク又はシステムとすることができる。ニューラルネットワークモデル１０４の複数の層は、入力層、１又は２以上の隠れ層、及び出力層を含むことができる。複数の層の各層は、１又は２以上のノード（又は人工ニューロン）を含むことができる。入力層の全てのノードの出力は、（単複の）隠れ層の少なくとも１つのノードに結合することができる。同様に、各隠れ層の入力は、ニューラルネットワーク１０４の他の層の少なくとも１つのノードの出力に結合することができる。各隠れ層の出力は、ニューラルネットワークモデル１０４の他の層の少なくとも１つのノードの入力に結合することができる。最終層の（単複の）ノードは、少なくとも１つの隠れ層から入力を受け取って結果を出力することができる。層の数及び各層のノード数は、ニューラルネットワークモデル１０４のハイパーパラメータから決定することができる。このようなハイパーパラメータは、訓練データセットに基づくニューラルネットワークモデル１０４の訓練前又は訓練中に設定することができる。

ニューラルネットワークモデル１０４の各ノードは、ネットワークの訓練中に調整できるパラメータセットを有する数学関数（例えば、シグモイド関数又は正規化線形ユニット（ｒｅｃｔｉｆｉｅｄｌｉｎｅａｒｕｎｉｔ））に対応することができる。パラメータセットは、例えば重みパラメータ及び正則化パラメータなどを含むことができる。各ノードは、ニューラルネットワークモデル１０４の他の（単複の）層（例えば、前の（単複の）層）のノードからの１又は２以上の入力に基づいて、数学関数を使用して出力を計算することができる。ニューラルネットワークモデル１０４のノードの全部又は一部は、同じ又は異なる数学関数に対応することができる。

ニューラルネットワークモデル１０４の訓練では、（訓練データセットからの）所与の入力のための最終層の出力がニューラルネットワークモデル１０４の損失関数に基づく正しい結果に一致するかどうかに基づいて、ニューラルネットワークモデル１０４の各ノードの１又は２以上のパラメータを更新することができる。上記プロセスは、損失関数の最小値を達成して訓練エラーを最小化できるまで同じ又は異なる入力について繰り返すことができる。当業では、勾配降下法、確率的勾配降下法、バッチ勾配降下法、勾配ブースト法及びメタヒューリスティック法などの複数の訓練法が知られている。

ニューラルネットワークモデル１０４は、例えばシステム１０２などの処理装置によって実行されるソフトウェアプログラム、ソフトウェアプログラムのコード、ライブラリ、アプリケーション、スクリプト、或いはその他のロジック又は命令などの電子データを含むことができる。ニューラルネットワークモデル１０４は、システム１０２などのコンピュータ装置が（第２のグラフィック情報１０６などの）提供された入力に基づいて深度情報を予測する１又は２以上の動作を実行することを可能にするように構成されたコード及びルーチンを含むことができる。これに加えて又はこれに代えて、ニューラルネットワークモデル１０４は、プロセッサ、（例えば、１又は２以上の演算を実行し又は実行を制御する）マイクロプロセッサ、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、又は特定用途向け集積回路（ＡＳＩＣ）を含むハードウェアを使用して実装することもできる。或いは、いくつかの実施形態では、ハードウェアとソフトウェアとの組み合わせを使用してニューラルネットワークモデル１０４を実装することもできる。

ニューラルネットワークモデル１０４の例としては、以下に限定するわけではないが、画像間変換モデル、ディープニューラルネットワーク（ＤＮＮ）、畳み込みニューラルネットワーク（ＣＮＮ）、再帰型ニューラルネットワーク（ＲＮＮ）、ＣＮＮ－再帰型ニューラルネットワーク（ＣＮＮ－ＲＮＮ）、Ｒ－ＣＮＮ、ＦａｓｔＲ－ＣＮＮ、ＦａｓｔｅｒＲ－ＣＮＮ、人工ニューラルネットワーク（ＡＮＮ）、（ＹｏｕＯｎｌｙＬｏｏｋＯｎｃｅ）ＹＯＬＯネットワーク、長・短期記憶（ＬＳＴＭ）ネットワークベースのＲＮＮ、ＣＮＮ＋ＡＮＮ、ＬＳＴＭ＋ＡＮＮ、ゲート付き再帰型ユニット（ＧＲＵ）ベースのＲＮＮ、全結合ニューラルネットワーク、ＣｏｎｎｅｃｔｉｏｎｉｓｔＴｅｍｐｏｒａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ（ＣＴＣ）ベースのＲＮＮ、ディープベイズニューラルネットワーク、敵対的生成ネットワーク（ＧＡＮ）、及び／又はこれらのネットワークの組み合わせを挙げることができる。いくつかの実施形態では、ニューラルネットワークモデル１０４が、データフローグラフを用いた数値計算法を含むことができる。いくつかの実施形態では、ニューラルネットワークモデル１０４が、複数のディープニューラルネットワーク（ＤＮＮ）のハイブリッドアーキテクチャに基づくことができる。いくつかの実施形態では、ニューラルネットワークモデル２０４Ａを人工知能（ＡＩ）エンジンとすることができる。

第２のグラフィック情報１０６は、１又は２以上の第１の物体のうちの（椅子などの）物体を含み又はこれに対応することができ、１又は２以上の視点から取り込み又は生成することができる。ある実施形態によれば、第２のグラフィック情報１０６は、１又は２以上の第１の物体のうちの物体に関連する１又は２以上の画像、点群データ、ボクセルセット、３次元（３Ｄ）メッシュ、ビデオ情報、ＬＡＳ（ＬＡＳｅｒ）フォーマットデータ又は専用フォーマットデータに対応することができる。例えば、第２のグラフィック情報１０６は、３次元（３Ｄ）カメラ又はステレオカメラ又は３次元（３Ｄ）グラフィックエンジンから受け取ることができる。第２のグラフィック情報は、第１の深度画像１０８を予測又は出力するために訓練済みニューラルネットワークモデル１０４に入力することができる。第１の深度画像１０８は、第２のグラフィック情報１０６に含まれる１又は２以上の第１の物体のうちの物体に関連する深度情報を含むことができる。ある実施形態によれば、第１の深度画像１０８は、第２のグラフィック情報１０６内の物体の視点と同じ視点からの物体の深度情報を含むことができる。

ユーザ装置１１０は、第１の深度画像１０８の予測のためにニューラルネットワークモデル１０４に第２のグラフィック情報１０６を提供するように構成できる好適なロジック、回路及びインターフェイスを含むことができる。ユーザ装置１１０は、予測された第１の深度画像１０８をニューラルネットワークモデル１０４から受け取るようにさらに構成することができる。ユーザ装置１１０の例としては、以下に限定するわけではないが、カメラ装置、アニメーションエンジン、コンピュータ装置、スマートフォン、セルラーフォン、携帯電話機、ゲーム装置、メインフレーム機、サーバ、コンピュータワークステーション、及び／又は消費者電子（ＣＥ）装置を挙げることができる。いくつかの実施形態では、入力された第２のグラフィック情報１０６に基づく第１の深度画像１０８の予測のために、訓練済みニューラルネットワークモデル１０４をユーザ装置１１０にインストール又は配備することができる。

通信ネットワーク１１２は、システム１０２とユーザ装置１１０とが互いに通信できるようにする通信媒体を含むことができる。通信ネットワーク１１２は、有線接続又は無線接続の一方とすることができる。通信ネットワーク１１２の例としては、以下に限定するわけではないが、インターネット、クラウドネットワーク、ワイヤレスフィデリティ（Ｗｉ－Ｆｉ）ネットワーク、パーソナルエリアネットワーク（ＰＡＮ）、ローカルエリアネットワーク（ＬＡＮ）、又はメトロポリタンエリアネットワーク（ＭＡＮ）を挙げることができる。ネットワーク環境１００内の様々な装置は、様々な有線及び無線通信プロトコルに従って通信ネットワーク１１２に接続するように構成することができる。このような有線及び無線通信プロトコルの例としては、以下に限定するわけではないが、伝送制御プロトコル及びインターネットプロトコル（ＴＣＰ／ＩＰ）、ユーザデータグラムプロトコル（ＵＤＰ）、ハイパーテキスト転送プロトコル（ＨＴＴＰ）、ファイル転送プロトコル（ＦＴＰ）、ＺｉｇＢｅｅ、ＥＤＧＥ、ＩＥＥＥ８０２．１１、ライトフィデリティ（Ｌｉ－Ｆｉ）、８０２．１６、ＩＥＥＥ８０２．１１ｓ、ＩＥＥＥ８０２．１１ｇ、マルチホップ通信、無線アクセスポイント（ＡＰ）、装置間通信、セルラー通信プロトコル及びＢｌｕｅｔｏｏｔｈ（ＢＴ）通信プロトコルのうちの少なくとも１つを挙げることができる。

動作中、システム１０２は、１又は２以上の第１の物体に関連する第１のグラフィック情報１０４Ａと対応する第１の複数の深度画像１０４Ｂとの間の関連性を示すことができる訓練データセットに基づいて訓練されたニューラルネットワークモデル１０４を記憶するように構成することができる。ニューラルネットワークモデル１０４は、１又は２以上の第１の物体に関連する深度情報を予測するために第１のグラフィック情報１０４Ａに第１の複数の深度画像１０４Ｂを対応付けるように訓練することができる。ニューラルネットワークモデル１０４の訓練の詳細については、例えば図３にさらに示す。システム１０２は、１又は２以上の第１の物体に対応することができる第２のグラフィック情報１０６をさらに受け取ることができる。システム１０２は、第２のグラフィック情報１０６を受け取って、第２のグラフィック情報１０６に示される１又は２以上の第１の物体に関連する深度情報を抽出することができる。第２のグラフィック情報１０６の詳細については、例えば図３にさらに示す。

システム１０２は、受け取った第２のグラフィック情報１０６に訓練済みニューラルネットワークモデル１０４を適用するようにさらに構成することができる。訓練済みニューラルネットワークモデル１０４は、第２のグラフィック情報１０６に示される１又は２以上の第１の物体に関連する深度情報を予測するために、受け取った第２のグラフィック情報１０６に第１のグラフィック情報１０４Ａと訓練データセットの第１の複数の深度画像１０４Ｂとの間の関連性を対応付けることができる。第２のグラフィック情報１０６に対する訓練済みニューラルネットワークモデル１０４の適用の詳細については、例えば図３にさらに示す。

システム１０２は、受け取った第２のグラフィック情報１０６に対する訓練済みニューラルネットワークモデル１０４の適用に基づいて第１の複数の深度画像１０４Ｂから第１の深度画像１０８（例えば、飛行時間（ＴＯＦ）画像）をさらに予測することができる。例えば、訓練済みニューラルネットワークモデル１０４は、（画像などの）第２のグラフィック情報１０６から第１の深度画像１０８を予測するように構成できる画像間変換モデルとすることができる。第１の深度画像１０８を予測するように訓練済みニューラルネットワークモデル１０４を制御する詳細については、例えば図３にさらに示す。

システム１０２は、予測された第１の深度画像１０８から第１の深度情報（例えば、距離情報又はＸＹＺ情報）をさらに抽出することができる。第１の深度情報は、第２のグラフィック情報１０６に示される１又は２以上の第１の物体に対応することができる。ある実施形態によれば、第１の深度画像１０８は、１又は２以上の第１の物体に関連する異なる深度値に関する異なる色情報を含むことができる。第１のグラフィック情報１０４Ａの抽出の詳細については、例えば図３にさらに示す。

ある実施形態によれば、システム１０２は、受け取った第２のグラフィック情報１０６に対応するグラウンドトゥルース画像を受け取るようにさらに構成することができる。グラウンドトゥルース画像は、第２のグラフィック情報１０６に示される１又は２以上の第１の物体に関連する深度情報を示すことができる。システムは、グラウンドトゥルース画像とニューラルネットワークモデルによって予測された第１の深度画像とを比較して第１の予測スコアを生成することができる。第１の予測スコアの生成の詳細については、例えば図４にさらに示す。ある実施形態によれば、システムは、第１の予測スコアが閾値スコア以上であるとの判定に基づいて、予測された第１の深度画像１０８から第１の深度情報を抽出するようにさらに構成することができる。第１の予測スコアの判定の詳細については、例えば図４にさらに示す。

図２は、本開示の実施形態による、ニューラルネットワークモデルベースの深度推定のためのシステムのブロック図である。図２の説明は図１の要素に関連して行う。図２にはシステム１０２のブロック図２００を示す。システム１０２は、プロセッサ２０２及びメモリ２０４を含むことができる。メモリ２０４は、ニューラルネットワークモデル１０４をさらに含むことができる。システム１０２は、入力／出力（Ｉ／Ｏ）装置２０６、３次元（３Ｄ）グラフィックスエンジン２０８、及びネットワークインターフェイス２１０をさらに含むことができる。

プロセッサ２０２は、メモリ２０４に記憶された命令セットを実行するように構成できる好適なロジック、回路及びインターフェイスを含むことができる。プロセッサ２０２は、システム１０２によって実行される異なる動作に関連するプログラム命令を実行するように構成することができる。例えば、動作の一部は、第１の深度画像１０８を予測するようにニューラルネットワークモデル１０４を訓練することを含むことができる。プロセッサ２０２は、第１の深度画像１０８を予測し、予測された第１の深度画像１０８から第１の深度情報を抽出するようにさらに構成することができる。プロセッサ２０２は、当業で周知の多くのプロセッサ技術に基づいて実装することができる。プロセッサ技術の例としては、以下に限定するわけではないが、中央処理装置（ＣＰＵ）、Ｘ８６ベースのプロセッサ、縮小命令セットコンピューティング（ＲＩＳＣ）プロセッサ、特定用途向け集積回路（ＡＳＩＣ）プロセッサ、複合命令セットコンピューティング（ＣＩＳＣ）プロセッサ、グラフィカルプロセッシングユニット（ＧＰＵ）及びその他のプロセッサを挙げることができる。

メモリ２０４は、プロセッサ２０２によって実行される１又は２以上の命令を記憶するように構成できる好適なロジック、回路、インターフェイス及び／又はコードを含むことができる。メモリ２０４は、訓練データセット及びニューラルネットワークモデル１０４を記憶するように構成することができる。メモリ２０４は、以下に限定するわけではないが、第２のグラフィック情報１０６、第１の深度画像１０８及び１又は２以上のグラウンドトゥルース画像を記憶するようにさらに構成することができる。メモリ２０４の実装例としては、以下に限定するわけではないが、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、電気的に消去可能なプログラマブルリードオンリーメモリ（ＥＥＰＲＯＭ）、ハードディスクドライブ（ＨＤＤ）、固体ドライブ（ＳＳＤ）、ＣＰＵキャッシュ、及び／又はセキュアデジタル（ＳＤ）カードを挙げることができる。

Ｉ／Ｏ装置２０６は、ユーザから入力を受け取り、受け取った入力に基づいて出力を提供するように構成できる好適なロジック、回路及びインターフェイスを含むことができる。Ｉ／Ｏ装置２０６は、第２のグラフィック情報１０６を入力として受け取るように構成することができる。Ｉ／Ｏ装置２０６は、第１の深度画像１０８及び抽出された第１の深度情報をさらに表示することができる。様々な入力及び出力装置を含むことができるＩ／Ｏ装置２０６は、システム１０２、３Ｄグラフィックスエンジン２０８又はユーザ装置１１０と通信するように構成することができる。Ｉ／Ｏ装置２０６の例としては、以下に限定するわけではないが、タッチ画面、キーボード、マウス、ジョイスティック、マイク、又はディスプレイ装置を挙げることができる。

３Ｄグラフィックスエンジン２０８は、異なる視点（例えば、異なる角度又は位置）からの１又は２以上の第１の物体に対応する（第１のグラフィック情報１０４Ａ及び第２のグラフィック情報１０６などの）グラフィック情報を生成するように構成できる好適なロジック、回路、インターフェイス及び／又はコードを含むことができる。３Ｄグラフィックスエンジン２０８は、１又は２以上の第１の物体に関連する生成されたグラフィック情報（例えば、画像、３Ｄメッシュ、ボクセル情報又は点群データ）をレンダリングするように（Ｉ／Ｏ装置２０６などに含まれる）ディスプレイ装置をさらに制御することができる。３Ｄグラフィックスエンジン２０８は、（ｐｙｔｈｏｎスクリプトジェネレータなどの）スクリプトジェネレータを利用してグラフィック情報を生成又は修正することができる。例えば、３Ｄグラフィックスエンジン２０８は、（ＴｏＦセンサなどの）深度センサ又はステレオカメラによって第１の視点から取り込まれた１又は２以上の第１の物体の第１の画像をレンダリングするようにディスプレイ装置を制御することができる。３Ｄグラフィックスエンジン２０８は、Ｉ／Ｏ装置２０６を介して、異なる視点からの１又は２以上の第１の物体のレンダリングされた第１の画像を修正する（すなわち、第１のグラフィック情報１０４Ａを生成する）ための１又は２以上のユーザ入力をさらに受け取ることができる。１又は２以上の第１の物体の第１のグラフィック情報１０４Ａは、以下に限定するわけではないが、（回転した物体、サイズ変更された物体、再配置された物体などに関する）画像、点群データ、ビデオ情報、ボクセル情報、又は３Ｄメッシュを含むことができる。３Ｄグラフィックスエンジン２０８の例としては、以下に限定するわけではないが、３Ｄコンピュータグラフィックスエンジン、３Ｄ作成アプリケーション、３Ｄモデリング又はシミュレーションアプリケーション、３Ｄアニメーションエンジン、又はビデオ編集アプリケーションを挙げることができる。図２にはシステム１０２に統合された３Ｄグラフィックスエンジン２０８を示しているが、本開示はこのように限定されるものではない。従って、いくつかの実施形態では、本開示の範囲から逸脱することなく３Ｄグラフィックスエンジン２０８をシステム１０２から分離することもできる。

ネットワークインターフェイス２１０は、通信ネットワーク１１２を介したシステム１０２とユーザ装置１１０との間の通信を容易にするように構成できる好適なロジック、回路及びインターフェイスを含むことができる。ネットワークインターフェイス２１０は、システム１０２と通信ネットワーク１１２との有線又は無線通信を支援する様々な既知の技術を使用して実装することができる。ネットワークインターフェイス２１０は、以下に限定するわけではないが、アンテナ、無線周波数（ＲＦ）トランシーバ、１又は２以上の増幅器、チューナ、１又は２以上の発振器、デジタルシグナルプロセッサ、コーダ－デコーダ（ＣＯＤＥＣ）チップセット、加入者ＩＤモジュール（ＳＩＭ）カード、又はローカルバッファ回路を含むことができる。ネットワークインターフェイス２１０は、インターネット、イントラネットなどのネットワーク、又はセルラー電話ネットワーク、無線ローカルエリアネットワーク（ＬＡＮ）、及びメトロポリタンエリアネットワーク（ＭＡＮ）などの無線ネットワークと無線通信を介して通信するように構成することができる。無線通信は、グローバルシステムフォーモバイルコミュニケーション（ＧＳＭ）、拡張データＧＳＭ環境（ＥＤＧＥ）、広帯域符号分割多元接続（Ｗ－ＣＤＭＡ）、ロングタームエボリューション（ＬＴＥ）、符号分割多元接続（ＣＤＭＡ）、時分割多元接続（ＴＤＭＡ）、Ｂｌｕｅｔｏｏｔｈ、（ＩＥＥＥ８０２．１１ａ、ＩＥＥＥ８０２．１１ｂ、ＩＥＥＥ８０２．１１ｇ又はＩＥＥＥ８０２．１１ｎなどの）ワイヤレスフィデリティ（ＷｉＦｉ）、ボイスオーバーインターネットプロトコル（ＶｏＩＰ）、ライトフィデリティ（Ｌｉ－Ｆｉ）、又はワールドワイド・インターオペラビリティ・フォー・マイクロウェーブ・アクセス（Ｗｉ－ＭＡＸ）、電子メール用プロトコル、インスタントメッセージ、及びショートメッセージサービス（ＳＭＳ）などの複数の通信規格、プロトコル及び技術のうちの１つ又は２つ以上を使用するように構成することができる。

図３は、本開示の実施形態による、ニューラルネットワークモデルベースの深度推定のための例示的な動作のシーケンス図である。図３の説明は、図１及び図２の要素に関連して行う。図３には、３０４～３１２の一連の動作を示すシーケンス図３００を示す。一連の動作は、図１のシステム１０２又は図２のプロセッサ２０２の様々なコンポーネントによって実行することができる。

３０４において、ニューラルネットワークモデル１０４をメモリ２０４に記憶することができる。ある実施形態によれば、システム１０２のプロセッサ２０２がニューラルネットワークモデル１０４を訓練することができる。ニューラルネットワークモデル１０４は、１又は２以上の第１の物体に関連する第１のグラフィック情報１０４Ａと対応する第１の複数の深度画像１０４Ｂとの間の関連性を示すことができる訓練データセット３０２に基づいて訓練することができる。ある実施形態によれば、第１のグラフィック情報１０４Ａは、以下に限定するわけではないが、１又は２以上の画像、点群データ、ボクセルセット、３次元（３Ｄ）メッシュ、ビデオ情報、ＬＡＳ（ＬＡＳｅｒ）フォーマットデータ、又は専有フォーマットデータのうちの少なくとも１つに対応することができる。第１のグラフィック情報１０４Ａは、（限定するわけではないが、正面ビュー、側面ビュー、上面ビュー、背面ビュー、回転ビュー、傾斜ビューなどの）１又は２以上の視点からの（生物又は図３に示す椅子のような無生物などの）１又は２以上の第１の物体を含み、又はこのような第１の物体に対応することができる。

例示的なシナリオでは、訓練データセット３０２が、第１の画像３０２Ａなどの第１のグラフィック情報１０４Ａと、第２の画像３０２Ｂなどの対応する深度画像とを含むことができる。換言すれば、訓練データセット３０２は、第１の画像３０２Ａと第２の画像３０２Ｂとの間の関連性又は対応性を含むことができる。訓練データセット３０２は、第３の画像３０２Ｃなどの第１のグラフィック情報１０４Ａと、第４の画像３０２Ｄなどの対応する深度画像とをさらに含むことができる。換言すれば、訓練データセット３０２は、第３の画像３０２Ｃと第４の画像３０２Ｄとの間の関連性又は対応性を含むことができる。訓練データセット３０２は、点群データ３０２Ｅなどの第１のグラフィック情報１０４Ａと、第５の画像３０２Ｆなどの対応する深度画像とをさらに含むことができる。換言すれば、訓練データセット３０２は、点群データ３０２Ｅと第５の画像３０２Ｆとの間の関連性又は対応性を含むことができる。訓練データセット３０２は、３次元（３Ｄ）メッシュ３０２Ｇなどの第１のグラフィック情報１０４Ａと、第６の画像３０２Ｈなどの対応する深度画像とをさらに含むことができる。換言すれば、訓練データセット３０２は、３Ｄメッシュ３０２Ｇと第６の画像３０２Ｈとの間の関連性又は対応性を含むことができる。

ある実施形態によれば、第１のグラフィック情報１０４Ａは、異なる視点からの１又は２以上の第１の物体の色情報を含むことができる。例えば、（第１の画像３０２Ａ又は第３の画像３０２Ｃなどの）第１のグラフィック情報１０４Ａは、（椅子などの）１又は２以上の第１の物体の（赤色、緑色、青色（ＲＧＢ）情報などの）色情報を含むことができる。第１のグラフィック情報１０４Ａは、限定するわけではないが側面ビュー及び正面ビューなどの異なる視点から椅子などの物体を描写できる（例えば、ポータブルネットワークグラフィックス（ＰＮＧ）フォーマットでの）１又は２以上の画像を含むことができる。さらに、第１のグラフィック情報１０４Ａは、椅子などの物体に関連する（点群データ３０２Ｅなどの）点群データを含むことができる。第１のグラフィック情報１０４Ａは、椅子に関連する（３Ｄメッシュ３０２Ｇなどの）３Ｄメッシュをさらに含むことができる。１又は２以上の物体に関する第１のグラフィック情報１０４Ａは、訓練データセット３０２の作成前又は作成時に３Ｄグラフィックエンジン２０８によって生成又は修正することができる。３Ｄグラフィックスエンジン２０８によって実行される修正は、以下に限定するわけではないが、回転、サイズ変更、移動又は並進を含むことができる。いくつかの実施形態では、１又は２以上の物体に関する第１のグラフィック情報１０４Ａを、訓練データセット３０２の作成前に深度センサ（図示せず）から取り込むことができる。第１のグラフィック情報１０４Ａは、深度センサの異なる視点（すなわち、正面、側面、底面、上面又は特定の角度からのビュー）、或いは深度センサが先行して取り込むことができる第１のグラフィック情報１０４Ａの修正時に３Ｄグラフィックエンジン２０８によって作成される視点からの（椅子などの）１又は２以上の物体を描写することができる。３Ｄグラフィックスエンジン２０８によって作成された物体の視点は、３Ｄグラフィックスエンジン２０８の仮想イメージングセンサからの物体のキャプチャと呼ぶことができる。

ある実施形態によれば、（図３に示す）第２の画像３０２Ｂ、第４の画像３０２Ｄ、第５の画像３０２Ｆ及び第６の画像３０２Ｈは、ニューラルネットワークモデル１０４を訓練できる第１の複数の深度画像１０４Ｂと呼ぶことができる。第１の複数の深度画像１０４Ｂは、（図示していないＴｏＦセンサなどの）深度センサ、又は（３次元（３Ｄ）グラフィックスエンジン２０８などの）３Ｄグラフィックスエンジンの仮想イメージングセンサの少なくとも一方の異なる視点からの１又は２以上の物体の深度情報を示すことができる。深度センサ又は３Ｄグラフィックスエンジン２０８は、ニューラルネットワークモデル１０４を訓練する訓練データセットを生成するために利用することができる。しかしながら、開示するシステム１０２は、実際の深度センサを使用することなく、訓練済みニューラルネットワークモデル１０４を使用して１又は２以上の物体（すなわち、第２のグラフィック情報に示される物体）の深度情報又は深度値を予測することもできる。深度情報は、例えば深度センサ又は仮想イメージングセンサと（椅子などの）物体との間の距離情報に対応することができる。なお、開示するシステム１０２による１又は２以上の第１の物体の深度推定では、実際の深度センサの使用を排除することができる。

ある実施形態によれば、（ＴＯＦ画像などの）第１の複数の深度画像１０４Ｂの各々は、１又は２以上の第１の物体に関連する異なる深度値に関する異なる色を示す画素を含むことができる。例えば、深度値は、（椅子などの）物体の可視表面上の各地点と深度センサ又は仮想イメージングセンサとの間の距離に関連することができる。ある例では、第１の複数の深度画像１０４Ｂの各々が、椅子の表面上の深度センサに近い地点の第１の深度値が椅子の表面上の深度センサから離れた地点の第２の深度値とは異なる値を有することができるような深度マップを示すことができる。いくつかの実施形態では、物体と深度センサとの間の距離の増加と共に（ＲＧＢ値のような）色値が次第に減少するように深度値を１又は２以上の色によって示すことができる。例えば、特定の視点から物体を取り込んだ時に、近くの地点は物体の可視表面上の離れた地点と比べて暗い色又は陰を有することができる。

従って、訓練データセット３０２は、第１の画像３０２Ａ、第３の画像３０２Ｃ、点群データ３０２Ｅ及び３Ｄメッシュ３０２Ｇなどの第１のグラフィック情報１０４Ａを含むことができる。対応する第１の複数の深度画像１０４Ｂは、それぞれが対応する第１のグラフィック情報１０４Ａに関連付け又は対応付けされた第２の画像３０２Ｂ、第４の画像３０２Ｄ、第５の画像３０２Ｆ及び第６の画像３０２Ｈを含むことができる。第２の画像３０２Ｂは、第１の画像３０２Ａに示される（椅子などの）物体の深度情報を含むことができる。第４の画像３０２Ｄは、第３の画像３０２Ｃに示される物体（すなわち、椅子）の深度情報を含むことができる。同様に、第５の画像３０２Ｆは、点群データ３０２Ｅに示される物体（すなわち、椅子）の深度情報を含むことができる。さらに、第６の画像３０２Ｈは、３Ｄメッシュ３０２Ｇに示される物体（すなわち、椅子）の深度情報を含むことができる。第１のグラフィック情報１０４Ａ及び対応する第１の複数の深度画像１０４Ｂは、例えば対データ、不対データ、又は対データと不対データとの組み合わせとすることができる。プロセッサ２０２は、１又は２以上の第１の物体の深度情報の予測のために第１のグラフィック情報１０４Ａを第１の複数の深度画像１０４Ｂのうちの対応する深度画像に対応付けるように訓練データセット３０２に基づいてニューラルネットワークモデル１０４を訓練するように構成することができる。なお、図３の訓練データセット３０２は一例として示すものにすぎない。訓練データセット３０２は、本開示の範囲から逸脱することなく、異なるタイプの物体又は物体を含むシーンに関する第１のグラフィック情報１０４Ａと第１の複数の深度画像１０４Ｂとの間の対応関係を含むことができる。

３０６において、１又は２以上の第１の物体に対応することができる第２のグラフィック情報３０６Ａを受け取ることができる。ある実施形態によれば、プロセッサ２０２は、（椅子などの）１又は２以上の第１の物体に対応することができる第２のグラフィック情報３０６Ａを受け取るように構成することができる。第２のグラフィック情報３０６Ａは、訓練データセット３０２に含まれていない可能性がある（新たな画像などの）新たな情報とすることができる。第２のグラフィック情報３０６Ａは、第２のグラフィック情報３０６Ａに示される（椅子などの）１又は２以上の第１の物体に関連する深度情報を予測するためにユーザ装置１１０から受け取ることができる。第２のグラフィック情報３０６Ａは、（メモリ２０４などの）メモリ、又はサーバ（図示せず）のデータベースから受け取ることもできる。

ある実施形態によれば、第２のグラフィック情報３０６Ａは、１又は２以上の画像、点群データ、ボクセルセット、３Ｄメッシュ、ビデオ情報、ＬＡＳフォーマットデータ又は専用フォーマットデータのうちの少なくとも１つに対応することができる。ある例では、第２のグラフィック情報３０６Ａが、第３の画像３０２Ｃなどの第１のグラフィック情報１０４Ａに正確に又は実質的に類似することができる。換言すれば、第２のグラフィック情報３０６Ａは、（第３の画像３０２Ｃなどの）第１のグラフィック情報１０４Ａに示されるものと同じ視点からの（椅子などの）物体を描写することができる。いくつかの実施形態では、第２のグラフィック情報３０６Ａが、第１のグラフィック情報１０４Ａと異なる又は同じであることができる異なる視点から又は（点群データ又はＬＡＳフォーマットデータなどの）異なるフォーマットデータで１又は２以上の第１の物体を描写することができる。プロセッサ２０２は、受け取った第２のグラフィック情報３０６Ａを訓練済みニューラルネットワークモデル１０４にさらに入力することができる。

３０８において、受け取った第２のグラフィック情報３０６Ａに訓練済みニューラルネットワークモデル１０４を適用することができる。ある実施形態によれば、プロセッサ２０２は、受け取った第２のグラフィック情報３０６Ａに訓練済みニューラルネットワークモデル１０４を適用するように構成することができる。例えば、訓練済みニューラルネットワークモデル１０４は、（ＲＧＢ領域内の画像とすることができる）第２のグラフィック情報３０６Ａを入力として受け取り、受け取った第２のグラフィック情報３０６Ａを別の領域（例えば、深度情報を有する画像）に変換するような画像間変換モデルとすることができる。受け取った第２のグラフィック情報３０６Ａに対するニューラルネットワークモデル１０４の適用では、ニューラルネットワークモデル１０４が、受け取った第２のグラフィック情報３０６Ａの１又は２以上の特徴と、ニューラルネットワークモデル１０４を訓練する第１のグラフィック情報１０４Ａの各々の１又は２以上の特徴とを比較することができる。比較される特徴は、第１のグラフィック情報１０４Ａ及び第２のグラフィック情報３０６Ａによって示される１又は２以上の物体に関連することができる。この比較に基づいて、ニューラルネットワークモデル１０４又はプロセッサ２０２は、関連する特徴が受け取った第２のグラフィック情報３０６Ａの特徴と実質的に一致する（訓練データセット３０２内の）第１のグラフィック情報１０４Ａを決定することができる。

３１０において、受け取った第２のグラフィック情報３０６Ａに対する訓練済みニューラルネットワークモデル１０４の適用に基づいて、第１の複数の深度画像１０４Ｂから第１の深度画像３１０Ａを予測することができる。ある実施形態によれば、プロセッサ２０２は、受け取った第２のグラフィック情報３０６Ａに対する訓練済みニューラルネットワークモデル１０４の適用に基づいて、第１の複数の深度画像１０４Ｂから第１の深度画像３１０Ａを予測するように構成することができる。訓練済みニューラルネットワークモデル１０４は、訓練済みニューラルネットワークモデル１０４に入力された第２のグラフィック情報３０６Ａに対応する第１の深度画像３１０Ａを予測することができる。プロセッサ２０２は、第２のグラフィック情報３０６Ａに対応する予測された第１の深度画像３１０Ａを受け取ることができる。例えば、訓練済みニューラルネットワークモデル１０４は、第２のグラフィック情報３０６Ａ（すなわち、特定の視点からの椅子の物体を示す第２のグラフィック情報３０６Ａ）が訓練データセット３０２に含まれる第３の画像３０２Ｃと実質的に一致すると判定し、従って訓練済みニューラルネットワークモデル１０４内の第３の画像３０２Ｃに関連する第４の画像３０２Ｄを（第１の深度画像３１０Ａとして）決定又は予測することができる。

ある実施形態によれば、予測された第１の深度画像３１０Ａは、受け取った第２のグラフィック情報３０６Ａに示される１又は２以上の第１の物体の深度情報を示すことができる。予測された（ＴＯＦ画像などの）第１の深度画像３１０Ａは、（椅子などの）１又は２以上の第１の物体に関連する異なる深度値に関する異なる色を含むことができる。例えば、図３に示すように、第１の深度画像３１０Ａにおける椅子の表面上の地点の色合いは、特定の視点からの椅子の表面上の地点の距離が増加するとともに次第に減少することができる。例示的なシナリオでは、図３に示すように第２のグラフィック情報３０６Ａが訓練データセット３０２の第３の画像３０２Ｃに類似している場合、第１の深度画像３１０Ａが第４の画像３０２Ｄに類似することができる。従って、訓練済みニューラルネットワークモデル１０４は、訓練済みニューラルネットワークモデル１０４に入力された第２のグラフィック情報３０６Ａ（すなわち、コンピュータ生成画像（ＣＧＩ））の情報に基づいて異なる深度画像（又はＴＯＦ画像）を予測することができる。

３１２において、予測された第１の深度画像３１０Ａから第１の深度情報を抽出することができる。ある実施形態によれば、プロセッサ２０２は、予測された第１の深度画像３１０Ａから第１の深度情報を抽出するように構成することができる。第１の深度情報は、第２のグラフィック情報３０６Ａによって示される１又は２以上の第１の物体に対応することができる。第１の深度情報は、例えば（第２のグラフィック情報３０６Ａが生成された又は取り込まれた視点などの）特定の視点から第２のグラフィック情報３０６Ａに示される物体（すなわち、椅子）の表面の各地点の距離情報（距離値又はＸＹＺ情報）を含むことができる。いくつかの実施形態では、第１の深度情報を、各深度値を数値によって表すことができるようなテキストフォーマットデータ（例えば、「．ＳＫＶ」ファイルフォーマット又は「．ＣＳＶ」ファイルフォーマット）とすることができる。例示的なシナリオでは、物体（すなわち、第１の深度画像３１０Ａ内の椅子）の表面上のより近くにあると知覚できる地点が、第１の深度画像３１０Ａ内の物体（すなわち、椅子）の表面上のより遠くにあると知覚できる点に比べて低い数値を示す深度値を有することができる。従って、開示するシステム１０２は、予測された第１の深度画像３１０Ａ内の１又は２以上の物体の表面の各地点に（距離値又はＸＹＺ値などに対応する）深度値を割り当てることができる。

従って、本開示のシステム１０２は、実際の深度センサを使用することなく、（第２のグラフィック情報３０６Ａなどの）グラフィック情報に基づく（第１の深度情報などの）深度情報の予測を可能にすることができる。訓練済みニューラルネットワークモデル１０４による第１の深度画像３１０Ａの予測は、従来の深度センサによる深度情報の決定に比べて計算的に高度であるとともに時間効率に優れることができる。さらに、システム１０２では、読み取り可能なフォーマットで深度情報を決定するために追加のハードウェア装置が必要となり得る従来の深度センサに比べて、深度推定のためのハードウェア要件を大幅に低減することができる。

シーケンス図３００については、３０４、３０６、３０８、３１０及び３１２などの離散的動作として示しているが、いくつかの実施形態では、開示する実施形態の本質を損なうことなく、このような離散的動作を特定の実装に応じてさらなる動作にさらに分割し、より少ない動作に組み合わせ、又は削除することもできる。

図４は、本開示の実施形態による、訓練済みニューラルネットワークモデルの深度推定における性能をチェックする例示的な動作のシーケンス図である。図４の説明は、図１、図２及び図３の要素に関連して行う。図４には、４０２～４１２の一連の動作を示すシーケンス図４００を示す。一連の動作は、図１のシステム１０２又は図２のプロセッサ２０２の様々なコンポーネントによって実行することができる。

４０２において、第２のグラフィック情報３０６Ａに対応するグラウンドトゥルース画像４０２Ａを受け取ることができる。ある実施形態によれば、プロセッサ２０２は、受け取られた第２のグラフィック情報３０６Ａに対応するグラウンドトゥルース画像４０２Ａを受け取るように構成することができる。グラウンドトゥルース画像４０２Ａは、第２のグラフィック情報３０６Ａに示される１又は２以上の第１の物体に関連する深度情報を示すことができる。

いくつかの実施形態では、プロセッサ２０２を、（３Ｄグラフィックスエンジン２０８などの）３Ｄグラフィックスエンジンからグラウンドトゥルース画像４０２Ａを受け取るように構成することができる。グラウンドトゥルース画像４０２Ａは、第２のグラフィック情報３０６Ａに示される１又は２以上の第１の物体に対応する正確な深度値を有する深度画像とすることができる。例えば、グラウンドトゥルース画像４０２Ａは、メモリ２０４から受け取ることができる。１又は２以上の実施形態では、グラウンドトゥルース画像４０２Ａを、（３Ｄグラフィックスエンジン２０８又は深度センサが生成できる）第４の画像３０２Ｄなどの、第１のグラフィック情報１０４Ａからの画像又はその他のフォーマットデータのうちの１つとすることができる。

４０４において、受け取ったグラウンドトゥルース画像４０２Ａと、ニューラルネットワークモデル１０４によって予測された第１の深度画像３１０Ａとを比較することができる。ある実施形態によれば、プロセッサ２０２は、受け取ったグラウンドトゥルース画像４０２Ａと、第１の複数の深度画像１０４Ｂからニューラルネットワークモデル１０４によって予測された第１の深度画像３１０Ａとを比較するように構成することができる。いくつかの実施形態では、受け取ったグラウンドトゥルース画像４０２Ａの各画素と第１の深度画像３１０Ａの各画素とを比較して、受け取ったグラウンドトゥルース画像４０２Ａと第１の深度画像３１０Ａとの間の類似度を決定することができる。

４０６において、受け取られたグラウンドトゥルース画像４０２Ａと、訓練済みニューラルネットワークモデル１０４によって予測された第１の深度画像３１０Ａとの比較に基づいて、第１の予測スコアを生成することができる。ある実施形態によれば、プロセッサ２０２は、受け取ったグラウンドトゥルース画像４０２Ａと訓練済みニューラルネットワークモデル１０４によって予測された第１の深度画像３１０Ａとの比較に基づいて第１の予測スコア（例えば、「０」～「１」）を生成するように構成することができる。第１の予測スコアは、（第１の深度画像３１０Ａなどの）深度画像の予測における訓練済みニューラルネットワークモデル１０４の性能を示すことができる。

いくつかの実施形態では、プロセッサ２０２を、構造的類似度指数尺度（ｓｔｒｕｃｔｕｒａｌｓｉｍｉｌａｒｉｔｙｉｎｄｅｘｍｅａｓｕｒｅ）に基づいて第１の予測スコアを生成するようにさらに構成することができる。構造的類似度指数尺度は、「０」～「１」の範囲内で定めることができる。例えば、受け取ったグラウンドトゥルース画像４０２Ａと予測された第１の深度画像３１０Ａとが正確に類似している場合、プロセッサ２０２は、構造的類似度指数尺度に基づく第１の予測スコアを「１」として生成することができる。別の例では、受け取ったグラウンドトゥルース画像４０２Ａと予測された第１の深度画像３１０Ａとが互いに最小の類似度を有する場合、プロセッサ２０２は、構造的類似度指数尺度に基づく第１の予測スコアを「０」として生成することができる。従って、「１」の値に近い第１の予測スコアは、訓練済みニューラルネットワークモデル１０４によって予測された第１の深度画像３１０Ａが、「０」の値に近い第１の予測スコアと比べて正確であり得ることを示すことができる。従って、「１」の値に近い第１の予測スコアは、第１の深度画像３１０Ａの予測における訓練済みニューラルネットワークモデル１０４の性能がより良好であることを示すことができる。

４０８において、生成された第１の予測スコアが閾値スコア以上であるかどうかを判定する。ある実施形態によれば、プロセッサ２０２は、生成された第１の予測スコアが閾値スコア以上であるかどうかを判定するように構成することができる。閾値スコアは、訓練済みニューラルネットワークモデル１０４の最小性能パラメータを示すことができる。例えば、閾値スコアは「０．９」とすることができる。従って、プロセッサ２０２は、第１の予測スコアが「０．９」の閾値スコア以上であれば、訓練済みニューラルネットワークモデル１０４からの（第１の深度画像３１０Ａなどの）深度画像の予測が十分なものであることを示すと判定することができる。

４１０において、第１の予測スコアが閾値スコア以上であるとの判定に基づいて、予測された第１の深度画像３１０Ａから第１の深度情報を抽出することができる。ある実施形態によれば、プロセッサ２０２は、第１の予測スコアが閾値スコア以上であるとの判定に基づいて、予測された第１の深度画像３１０Ａから第１の深度情報を抽出するように構成することができる。例えば、第１の予測スコアは「０．９４」とすることができる。従って、プロセッサ２０２は、予測された第１の深度画像３１０Ａから第１の深度情報を抽出することができる。予測された第１の深度画像３１０Ａから第１の深度情報を抽出する詳細については、例えば図３の３１２において説明している。

４１２において、第１の予測スコアが閾値スコア未満であるとの判定に基づいて、ニューラルネットワークモデル１０４を再訓練することができる。ある実施形態によれば、プロセッサ２０２は、第１の予測スコアが所定の閾値スコア未満であるとの判定に基づいてニューラルネットワークモデル１０４を再訓練するように構成することができる。例えば、第１の深度画像３１０Ａの予測のための第１の予測スコアが「０．９」の閾値スコア未満である場合、ニューラルネットワークモデル１０４を再訓練することができる。従って、本開示のシステム１０２は、ニューラルネットワークモデル１０４に入力されたグラフィック情報に関連する正確な深度画像の予測におけるニューラルネットワークモデル１０４の性能を強化するために、ニューラルネットワークモデル１０４の再訓練を可能にすることができる。

シーケンス図４００については、４０２、４０４、４０６、４０８、４１０及び４１２などの離散的動作として示しているが、いくつかの実施形態では、開示する実施形態の本質を損なうことなく、このような離散的動作を特定の実装に応じてさらなる動作にさらに分割し、より少ない動作に組み合わせ、又は削除することもできる。

図５は、本開示の実施形態による、ニューラルネットワークモデルベースの深度推定のための例示的な方法を示すフローチャートである。図５の説明は、図１、図２、図３及び図４の要素に関連して行う。図５にはフローチャート５００を示す。フローチャート５００の例示的な方法は、例えば図１のシステム１０２又は図２のプロセッサ２０２などのいずれかのコンピュータシステムによって実行することができる。フローチャート５００の例示的な方法は、５０２から開始して５０４に進むことができる。

５０４において、ニューラルネットワークモデル１０４をメモリ２０４に記憶することができる。ある実施形態によれば、メモリ２０４は、ニューラルネットワークモデル１０４を記憶するように構成することができる。ニューラルネットワークモデル１０４は、１又は２以上の第１の物体に関連する第１のグラフィック情報１０４Ａと対応する第１の複数の深度画像１０４Ｂとの間の関連性を示すことができる（訓練データセット３０２などの）訓練データセットに基づいて訓練することができる。プロセッサ２０２は、第１の深度画像１０８を予測するようにニューラルネットワークモデル１０４を訓練するよう構成することができる。ニューラルネットワークモデル１０４のメモリ２０４への記憶及びニューラルネットワークモデル１０４の訓練については、例えば図３の３０４において説明している。

５０６において、第２のグラフィック情報１０６を受け取ることができる。ある実施形態によれば、プロセッサ２０２は、１又は２以上の第１の物体に対応することができる第２のグラフィック情報１０６を受け取るように構成することができる。第２のグラフィック情報１０６は、例えば１又は２以上の画像、点群データ、ボクセルセット、３Ｄメッシュ、ビデオ情報、ＬＡＳ（ＬＡＳｅｒ）フォーマットデータ、専用フォーマットデータ、又はコンピュータ生成画像（ＣＧＩ）情報とすることができる。第２のグラフィック情報１０６の受信については、例えば図３の３０６において説明している。

５０８において、第２のグラフィック情報１０６に訓練済みニューラルネットワークモデル１０４を適用することができる。ある実施形態によれば、プロセッサ２０２は、第２のグラフィック情報１０６に訓練済みニューラルネットワークモデル１０４を適用するように構成することができる。ニューラルネットワークモデル１０４は、第１の深度画像１０８を予測するために第２のグラフィック情報１０６に適用することができる。第２のグラフィック情報１０６に対するニューラルネットワークモデル１０４の適用については、例えば図３の３０８において説明している。

５１０において、第１の複数の深度画像１０４Ｂから第１の深度画像１０８を予測することができる。ある実施形態によれば、プロセッサ２０２は、第２のグラフィック情報１０６に対する訓練済みニューラルネットワークモデル１０４の適用に基づいて第１の複数の深度画像１０４Ｂから（飛行時間（ＴＯＦ）画像などの）第１の深度画像１０８を予測するように構成することができる。訓練済みニューラルネットワークモデル１０４の適用に基づいて第１の複数の深度画像１０４Ｂから第１の深度画像１０８を予測することについては、例えば図３の３１０において説明している。

５１２において、予測された第１の深度画像１０８から第１の深度情報を抽出することができる。ある実施形態によれば、プロセッサ２０２は、予測された第１の深度画像１０８から第１の深度情報（すなわち、距離情報）を抽出するように構成することができる。第１の深度情報は、第２のグラフィック情報１０６によって示される１又は２以上の第１の物体に対応することができる。予測された第１の深度画像１０８からの第１の深度情報の抽出については、例えば図３の３１２において説明している。制御は終了に進むことができる。

フローチャート５００には、５０４、５０６、５０８、５１０及び５１２などの離散的な動作を示しているが、本開示はこのように限定されるものではない。従って、いくつかの実施形態では、開示する実施形態の本質を損なうことなく、このような離散的動作を特定の実装に応じてさらなる動作にさらに分割し、より少ない動作に組み合わせ、又は削除することができる。

本開示の様々な実施形態は、機械及び／又はコンピュータ（例えば、システム１０２）が実行できる命令を記憶した非一時的コンピュータ可読媒体及び／又は記憶媒体を提供することができる。これらの命令は、（ニューラルネットワークモデル１０４などの）ニューラルネットワークモデルを記憶することを含む動作を機械及び／又はコンピュータ（例えば、システム１０２）に実行させることができる。ニューラルネットワークモデル１０４は、１又は２以上の第１の物体に関連する第１のグラフィック情報１０４Ａと対応する（第１の複数の深度画像１０４Ｂなどの）第１の複数の深度画像との間の関連性を示すことができる（訓練データセット３０２などの）訓練データセットに基づいて訓練することができる。動作は、１又は２以上の第１の物体に対応することができる（第２のグラフィック情報１０６などの）第２のグラフィック情報を受け取ることをさらに含むことができる。動作は、受け取った第２のグラフィック情報１０６に訓練済みニューラルネットワークモデル１０４を適用することをさらに含むことができる。動作は、受け取った第２のグラフィック情報１０６に対する訓練済みニューラルネットワークモデル１０４の適用に基づいて、第１の複数の深度画像１０４Ｂから（第１の深度画像１０８などの）第１の深度画像を予測することをさらに含むことができる。動作は、予測された第１の深度画像１０８から第１の深度情報を抽出することをさらに含むことができる。第１の深度情報は、第２のグラフィック情報１０６によって示される１又は２以上の第１の物体に対応することができる。

本開示の例示的な態様は、（プロセッサ２０２などの）プロセッサを含むことができる（システム１０２などの）システムを含むことができる。システム１０２は、（ニューラルネットワークモデル１０４などの）ニューラルネットワークモデルを記憶するように構成されたメモリをさらに含むことができる。ニューラルネットワークモデル１０４は、１又は２以上の第１の物体に関連する第１のグラフィック情報１０４Ａと対応する第１の複数の深度画像１０４Ｂとの間の関連性を示すことができる（訓練データセット３０２などの）訓練データセットに基づいて訓練することができる。プロセッサ２０２は、１又は２以上の第１の物体に対応することができる（第２のグラフィック情報１０６などの）第２のグラフィック情報を受け取るようにさらに構成することができる。プロセッサ２０２は、受け取った第２のグラフィック情報１０６に訓練済みニューラルネットワークモデル１０４を適用するようにさらに構成することができる。プロセッサ２０２は、受け取った第２のグラフィック情報１０６に対する訓練済みニューラルネットワークモデル１０４の適用に基づいて、第１の複数の深度画像１０４Ｂから（第１の深度画像１０８などの）第１の深度画像を予測するようにさらに構成することができる。プロセッサ２０２は、予測された第１の深度画像１０８から第１の深度情報を抽出するようにさらに構成することができる。第１の深度情報は、第２のグラフィック情報１０６によって示される１又は２以上の第１の物体に対応することができる。

ある実施形態によれば、第１のグラフィック情報１０４Ａは、異なる視点からの１又は２以上の第１の物体の色情報を含むことができる。ある実施形態によれば、第１の複数の深度画像１０４Ｂは、（３次元（３Ｄ）グラフィックスエンジン２０８などの）３Ｄグラフィックスエンジンの深度センサ又は仮想イメージングセンサの少なくとも一方の異なる視点からの１又は２以上の第１の物体の深度情報を示すことができる。

ある実施形態によれば、第１の複数の深度画像１０４Ｂの各々は、１又は２以上の第１の物体に関連する異なる深度値に関する異なる色を含むことができる。ある実施形態によれば、第１のグラフィック情報１０４Ａ及び第２のグラフィック情報１０６は、１又は２以上の画像、点群データ、ボクセルセット、３次元（３Ｄ）メッシュ、ビデオ情報、ＬＡＳ（ＬＡＳｅｒ）フォーマットデータ又は専用フォーマットデータのうちの少なくとも１つに対応することができる。

ある実施形態によれば、プロセッサ２０２は、受け取った第２のグラフィック情報１０６に対応する（グラウンドトゥルース画像４０２Ａなどの）グラウンドトゥルース画像を受け取るようにさらに構成することができる。グラウンドトゥルース画像４０２Ａは、第２のグラフィック情報１０６に示される１又は２以上の第１の物体に関連する深度情報を示すことができる。プロセッサ２０２は、受け取ったグラウンドトゥルース画像４０２Ａと、ニューラルネットワークモデル１０４によって第１の複数の深度画像１０４Ｂから予測された第１の深度画像１０８とをさらに比較することができる。プロセッサ２０２は、受け取ったグラウンドトゥルース画像４０２Ａと、訓練済みニューラルネットワークモデル１０４によって予測された第１の深度画像１０８との比較に基づいて、第１の予測スコアをさらに生成することができる。ある実施形態によれば、プロセッサ２０２は、第１の予測スコアが閾値スコア以上であるとの判定に基づいて、予測された第１の深度画像１０８から第１の深度情報を抽出するようにさらに構成することができる。ある実施形態によれば、プロセッサ２０２は、構造的類似度指数尺度に基づいて第１の予測スコアを生成するように構成することができる。ある実施形態によれば、プロセッサ２０２は、３Ｄグラフィックスエンジン２０８からグラウンドトゥルース画像４０２Ａを受け取るように構成することができる。

本開示は、ハードウェアで実現することも、又はハードウェアとソフトウェアとの組み合わせで実現することもできる。本開示は、少なくとも１つのコンピュータシステム内で集中方式で実現することも、又は異なる要素を複数の相互接続されたコンピュータシステムにわたって分散できる分散方式で実現することもできる。本明細書で説明した方法を実行するように適合されたコンピュータシステム又はその他の装置が適することができる。ハードウェアとソフトウェアとの組み合わせは、ロードされて実行された時に本明細書で説明した方法を実行するようにコンピュータシステムを制御することができるコンピュータプログラムを含む汎用コンピュータシステムとすることができる。本開示は、他の機能も実行する集積回路の一部を含むハードウェアで実現することができる。

本開示は、本明細書で説明した方法の実装を可能にする全ての特徴を含み、コンピュータシステムにロードされた時にこれらの方法を実行できるコンピュータプログラム製品に組み込むこともできる。本文脈におけるコンピュータプログラムとは、情報処理能力を有するシステムに特定の機能を直接的に、或いはａ）別の言語、コード又は表記法への変換、ｂ）異なる内容形態での複製、のいずれか又は両方を行った後に実行させるように意図された命令セットの、あらゆる言語、コード又は表記法におけるあらゆる表現を意味する。

いくつかの実施形態を参照しながら本開示を説明したが、当業者であれば、本開示の範囲から逸脱することなく様々な変更を行うことができ、同等物を代用することもできると理解するであろう。また、本開示の範囲から逸脱することなく、特定の状況又は内容を本開示の教示に適合させるように多くの修正を行うこともできる。従って、本開示は、開示した特定の実施形態に限定されるものではなく、添付の特許請求の範囲内に収まる全ての実施形態を含むように意図される。

Claims

１又は２以上の第１の物体に関連する第１のグラフィック情報と対応する第１の複数の深度画像との間の関連性を示す訓練データセットに基づいて訓練された訓練済みニューラルネットワークモデルを記憶するように構成されたメモリと、
前記１又は２以上の第１の物体に対応する第２のグラフィック情報を受け取り、
前記受け取った第２のグラフィック情報に前記訓練済みニューラルネットワークモデルを適用し、
前記受け取った第２のグラフィック情報に対する前記訓練済みニューラルネットワークモデルの前記適用に基づいて、前記第１の複数の深度画像から第１の深度画像を予測し、
前記予測された第１の深度画像から、前記第２のグラフィック情報によって示される前記１又は２以上の第１の物体に対応する第１の深度情報を抽出する、
ように構成されたプロセッサと、
を備えることを特徴とするシステム。
前記第１のグラフィック情報は、異なる視点からの前記１又は２以上の第１の物体の色情報を含む、
請求項１に記載のシステム。
前記第１の複数の深度画像は、３次元（３Ｄ）グラフィックスエンジンの深度センサ又は仮想イメージングセンサの少なくとも一方の異なる視点からの前記１又は２以上の第１の物体の深度情報を示す、
請求項１に記載のシステム。
前記第１の複数の深度画像の各々は、前記１又は２以上の第１の物体に関連する異なる深度値に関する異なる色を含む、
請求項１に記載のシステム。
前記第１のグラフィック情報及び前記第２のグラフィック情報は、１又は２以上の画像、点群データ、ボクセルセット、３次元（３Ｄ）メッシュ、ビデオ情報、ＬＡＳ（ＬＡＳｅｒ）フォーマットデータ、又は専用フォーマットデータのうちの少なくとも１つに対応する、
請求項１に記載のシステム。
前記プロセッサは、
前記受け取った第２のグラフィック情報に示される前記１又は２以上の第１の物体に関連する深度情報を示す、前記第２のグラフィック情報に対応するグラウンドトゥルース画像を受け取り、
前記受け取ったグラウンドトゥルース画像と、前記訓練済みニューラルネットワークモデルによって前記第１の複数の深度画像から予測された前記第１の深度画像とを比較し、
前記受け取ったグラウンドトゥルース画像と前記訓練済みニューラルネットワークモデルによって予測された前記第１の深度画像との比較に基づいて第１の予測スコアを生成する、
ようにさらに構成される、請求項１に記載のシステム。
前記プロセッサは、前記生成された第１の予測スコアが閾値スコア以上であるとの判定に基づいて、前記予測された第１の深度画像から前記第１の深度情報を抽出するようにさらに構成される、
請求項６に記載のシステム。
前記プロセッサは、構造的類似度指数尺度に基づいて前記第１の予測スコアを生成するようにさらに構成される、
請求項６に記載のシステム。
前記プロセッサは、前記グラウンドトゥルース画像を３次元（３Ｄ）グラフィックスエンジンから受け取るように構成される、
請求項６に記載のシステム。
システムにおいて、
１又は２以上の第１の物体に関連する第１のグラフィック情報と対応する第１の複数の深度画像との間の関連性を示す訓練データセットに基づいて訓練された訓練済みニューラルネットワークモデルを記憶することと、
前記１又は２以上の第１の物体に対応する第２のグラフィック情報を受け取ることと、
前記受け取った第２のグラフィック情報に前記訓練済みニューラルネットワークモデルを適用することと、
前記受け取った第２のグラフィック情報に対する前記訓練済みニューラルネットワークモデルの前記適用に基づいて、前記第１の複数の深度画像から第１の深度画像を予測することと、
前記予測された第１の深度画像から、前記第２のグラフィック情報によって示される前記１又は２以上の第１の物体に対応する第１の深度情報を抽出することと、
を含むことを特徴とする方法。
前記第１のグラフィック情報は、異なる視点からの前記１又は２以上の第１の物体の色情報を含む、
請求項１０に記載の方法。
前記第１の複数の深度画像は、３次元（３Ｄ）グラフィックスエンジンの深度センサ又は仮想イメージングセンサの少なくとも一方の異なる視点からの前記１又は２以上の第１の物体の深度情報を示す、
請求項１０に記載の方法。
前記第１の複数の深度画像の各々は、前記１又は２以上の第１の物体に関連する異なる深度値に関する異なる色を含む、
請求項１０に記載の方法。
前記第１のグラフィック情報及び前記第２のグラフィック情報は、１又は２以上の画像、点群データ、ボクセルセット、３次元（３Ｄ）メッシュ、ビデオ情報、ＬＡＳ（ＬＡＳｅｒ）フォーマットデータ、又は専用フォーマットデータのうちの少なくとも１つに対応する、
請求項１１に記載の方法。
前記受け取った第２のグラフィック情報に示される前記１又は２以上の第１の物体に関連する深度情報を示す、前記第２のグラフィック情報に対応するグラウンドトゥルース画像を受け取ることと、
前記受け取ったグラウンドトゥルース画像と、前記訓練済みニューラルネットワークモデルによって前記第１の複数の深度画像から予測された前記第１の深度画像とを比較することと、
前記受け取ったグラウンドトゥルース画像と前記訓練済みニューラルネットワークモデルによって予測された前記第１の深度画像との比較に基づいて第１の予測スコアを生成することと、
を含む、請求項１０に記載の方法。
前記生成された第１の予測スコアが閾値スコア以上であるとの判定に基づいて、前記予測された第１の深度画像から前記第１の深度情報を抽出することをさらに含む、
請求項１５に記載の方法。
前記生成された第１の予測スコアは、構造的類似度指数尺度に基づく、
請求項１５に記載の方法。
コンピュータ実装命令を記憶した非一時的コンピュータ可読媒体であって、前記コンピュータ実装命令は、システムによって実行された時に、
１又は２以上の第１の物体に関連する第１のグラフィック情報と対応する第１の複数の深度画像との間の関連性を示す訓練データセットに基づいて訓練された訓練済みニューラルネットワークモデルを記憶することと、
前記１又は２以上の第１の物体に対応する第２のグラフィック情報を受け取ることと、
前記受け取った第２のグラフィック情報に前記訓練済みニューラルネットワークモデルを適用することと、
前記受け取った第２のグラフィック情報に対する前記訓練済みニューラルネットワークモデルの前記適用に基づいて、前記第１の複数の深度画像から第１の深度画像を予測することと、
前記予測された第１の深度画像から、前記第２のグラフィック情報によって示される前記１又は２以上の第１の物体に対応する第１の深度情報を抽出することと、
を含む動作を前記システムに実行させる、ことを特徴とするコンピュータ可読媒体。
前記第１のグラフィック情報及び前記第２のグラフィック情報は、１又は２以上の画像、点群データ、ボクセルセット、３次元（３Ｄ）メッシュ、ビデオ情報、ＬＡＳ（ＬＡＳｅｒ）フォーマットデータ、又は専用フォーマットデータのうちの少なくとも１つに対応する、
請求項１８に記載のコンピュータ可読媒体。
前記第１の複数の深度画像の各々は、前記１又は２以上の第１の物体に関連する異なる深度値に関する異なる色を含む、
請求項１８に記載のコンピュータ可読媒体。