JP7329612B2

JP7329612B2 - オブジェクトカテゴリモデリングのための生成潜在テクスチャプロキシ

Info

Publication number: JP7329612B2
Application number: JP2021553141A
Authority: JP
Inventors: マーティン・ブルアラ，リカルド; ゴールドマン，ダニエル; ブアジズ，ソフィアン; パーンデー，ロイット; ブラウン，マシュー
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2020-06-30
Filing date: 2020-08-04
Publication date: 2023-08-18
Anticipated expiration: 2040-08-04
Also published as: US11710287B2; KR20220004008A; EP3959688B1; US20220051485A1; WO2022005523A1; EP3959688A1; JP2022542207A; CN114175097A

Description

関連出願の相互参照
本出願は、２０２０年６月３０日に出願された、「GENERATIVE LATENT TEXTURED PROXIES FOR OBJECT CATEGORY MODELING（オブジェクトカテゴリモデリングのための生成潜在テクスチャプロキシ）」と題された米国仮特許出願第６２／７０５，５００号の利益を主張し、その全体が本明細書において参照によって援用される。

技術分野
本明細書は一般に、ディスプレイに提示するためにコンテンツを生成する際に用いられる方法、デバイス、およびアルゴリズムに関する。

背景
生成モデルは、訓練データと一致するデータを生成するために用いられるマシン学習モデルの一種である。生成モデルは、データセットに含まれる訓練データに類似したデータを生成するために、データセットのモデルを学習可能である。たとえば、生成モデルは、データセットの特徴ＸおよびラベルＹの確率分布ｐ（Ｘ，Ｙ）を求めるように訓練されてもよい。生成モデルを実行するようにプログラムされたコンピュータシステムに、ラベルＹが設けられてもよい。これに応じて、コンピュータシステムは、ラベルＹに一致する特徴または特徴Ｘのセットを生成してもよい。

概要
１つ以上のコンピュータのシステムは、動作中にシステムにアクションを行わせるシステムにインストールされるソフトウェア、ファームウェア、ハードウェア、またはこれらの組合わせを有することによって、特定の動作またはアクションを行うように構成可能である。１つ以上のコンピュータプログラムは、データ処理装置によって実行されると装置にアクションを行わせる命令を含むことによって、特定の動作またはアクションを行うように構成可能である。

ある一般的な態様では、少なくとも１つの処理デバイスを用いて、画像コンテンツ内のオブジェクトと関連付けられたポーズを受信することと、オブジェクトの複数の３次元（３Ｄ）プロキシジオメトリを生成することと、複数の３Ｄプロキシジオメトリに基づいて、オブジェクトを表す複数の異なる形状および外観を規定するオブジェクトの複数のニューラルテクスチャを生成することと、積層形態で提供される複数のニューラルテクスチャを、ニューラルレンダラーに提供することと、複数のニューラルテクスチャに基づいて、カラー画像と、オブジェクトの少なくとも一部の不透明度を表すアルファマスクとを、ニューラルレンダラーから受信することと、ポーズ、カラー画像、およびアルファマスクに基づいて、合成画像を生成することを少なくとも含む動作を行うためのシステムおよび方法について説明される。

これらおよび他の態様は、以下のうちの１つ以上を単独で、または組合わせて含み得る。たとえば、方法は、オブジェクトと関連付けられたポーズに少なくとも部分的に基づいて、対象視点に対して潜在テクスチャをレンダリングすることをさらに含んでもよく、複数の３Ｄプロキシジオメトリの各々は、オブジェクトの少なくとも一部の粗い幾何学的近似値と、粗い幾何学的近似値にマッピングされたオブジェクトの潜在テクスチャとを含む。いくつかの実現例では、複数のニューラルテクスチャは、画像コンテンツにおいて取込まれたオブジェクトの隠れた部分を再構成するように構成され、隠れた部分は、ニューラルレンダラーが、オブジェクトの透明層と、オブジェクトの透明層の背後の面とを生成することを可能にするニューラルテクスチャの積層形態に基づいて再構成される。

いくつかの実現例では、複数の３Ｄプロキシジオメトリの各々は、画像コンテンツ内のオブジェクトと関連付けられた表面光フィールドを符号化し、表面光フィールドは、オブジェクトと関連付けられた正反射を含む。いくつかの実現例では、複数のニューラルテクスチャは、少なくとも部分的にポーズに基づき、ニューラルテクスチャは、オブジェクトのカテゴリを識別することと、オブジェクトの識別されたカテゴリに基づいて、特徴マップを生成することと、特徴マップをニューラルネットワークに提供することと、識別されたカテゴリの各インスタンスと関連付けられた潜在コードと、ポーズと関連付けられたビューとに基づいて、ニューラルテクスチャを生成することとによって生成される。いくつかの実現例では、オブジェクトの少なくとも一部は透明材料である。いくつかの実現例では、オブジェクトの少なくとも一部は反射材料である。

いくつかの実現例では、画像コンテンツは、少なくともユーザを含むテレプレゼンス画像データを含み、オブジェクトは、眼鏡を含む。いくつかの実現例では、ニューラルレンダラーは、生成モデルを用いて、識別されたカテゴリ内の見えないオブジェクトインスタンスを再構成し、再構成は、オブジェクトの４つ未満の取込まれたビューに基づく。いくつかの実現例では、合成画像は、生成潜在最適化（Generative Latent Optimization：ＧＬＯ）フレームワークおよび知覚再構成の損失を用いて生成される。

説明される技術の実現例は、コンピュータアクセス可能媒体上のハードウェア、方法もしくはプロセス、またはコンピュータソフトウェアを含み得る。１つ以上の実現例の詳細について、添付の図面および以下の説明に記載する。他の特徴は、説明および図面から、ならびに請求項から明らかとなろう。

本開示を通して説明する実現例に係る、表示デバイスにコンテンツを表示するための３Ｄコンテンツシステムの例を示すブロック図である。本開示を通して説明する実現例に係る、表示デバイスにおけるレンダリングについてコンテンツをモデリングするためのシステムの例を示すブロック図である。本開示を通して説明する実現例に係る、良好に境界をつけられた幾何学的変化を有するオブジェクトのカテゴリのための平面プロキシの例を示す図である。本開示を通して説明する実現例に係る、生成潜在最適化フレームワークによって訓練されるネットワークアーキテクチャの例を示すブロック図である。本開示を通して説明する実現例に係る、画像コンテンツのシミュレーションの例を示す図である。本開示を通して説明する実現例に係る、画像コンテンツの取込みの例を示す図である。本開示を通して説明する実現例に係る、画像コンテンツの抽出の例を示す図である。本開示を通して説明する実現例に係る、本明細書で説明するモデルがフィットする場所に基づく画像の例を示す図である。本開示を通して説明する実現例に係る、本明細書で説明するモデルを用いたバーチャル試着アプリケーションの例を示す図である。本開示を通して説明する実現例に係る、本明細書で説明するモデルを用いたバーチャル試着アプリケーションの例を示す図である。本開示を通して説明する実現例に係る、本明細書で説明するモデルを用いたバーチャル試着アプリケーションの例を示す図である。本開示を通して説明する実現例に係る、３Ｄプロキシジオメトリモデルに基づく合成画像を生成するためのプロセスの一例を示すフローチャート図である。本明細書で説明する技術と使用可能なコンピュータデバイスおよびモバイルコンピュータデバイスの例を示す図である。

さまざまな図面における同様の参照符号は、同様の要素を示す。
詳細な説明
３Ｄオブジェクトの正確なモデリングおよび表現は、オブジェクトが透明な表面、反射面、および／または薄い構造などの特徴を示す場合は困難なことがある。本明細書で説明するシステムおよび技術は、３Ｄプロキシジオメトリ（たとえば、テクスチャプロキシ）を用いて、そのような特徴を有する３Ｄオブジェクトをモデリングして、２Ｄスクリーンまたはオートステレオスコピックディスプレイ（たとえば、３Ｄディスプレイ）上の３Ｄオブジェクトの正確なレンダリングを可能にする方法を提供し得る。いくつかの実現例では、３Ｄプロキシジオメトリは、画像コンテンツ内のオブジェクトを構成する形状の幾何学的補間に基づく。

この文献は一般に、３Ｄオブジェクトを描く正確な画像をレンダリングするために、オブジェクトのカテゴリの形状および外観をモデリングすることに関する例について説明する。いくつかの実現例では、本明細書で説明するモデルは、たとえば、多方向テレビ会議で用いられる３Ｄディスプレイのスクリーンに、カメラが取込んだオブジェクトを、リアルな３Ｄ状でシミュレートするために用いることが可能である。いくつかの実現例では、オブジェクトは、３Ｄ生成されたシーン内で仮想または拡張コンテンツを提供するために合成によって生成されたオブジェクトでもよい。いくつかの実現例では、オブジェクトは、２Ｄまたは３Ｄシーンのためにランダムネスおよび／または臨場感を生成するように、合成によって修正されてもよい。たとえば、本明細書で説明するモデルは、複雑な形状および外観で構成されるオブジェクトを生成および表示するために使用可能であり、これらのうちの一部は、３Ｄ状で描くことが従来困難な場合もあった、透明特性、反射特性、複雑なジオメトリ、および／または他の構造特性を含み得る。

一例として、透明材料および／または反射材料は３Ｄ状で再構成およびレンダリングが難しいため、従来の表示システムは、３Ｄでの表示用に取込まれた、ユーザが身につけている複雑なオブジェクト（たとえば、眼鏡、宝石、反射する服装など）を正確にレンダリングできない場合がある。本明細書で説明するシステムおよび技術は、３Ｄディスプレイでリアルなオブジェクト描写を提供する正確な３Ｄ表現でオブジェクトを描くために、オブジェクト（たとえば、眼鏡、宝石、反射する服装、および／またはユーザに関係のないオブジェクトなど）の特定の物理的、ライティング、およびシェーディング態様の１つ以上のモデルを生成可能である。動作中、本明細書で説明するシステムは、オブジェクトが３Ｄディスプレイでのレンダリングのために取込まれると、リアルタイムにそのようなモデリングを行い得る。いくつかの実現例では、本明細書で説明するシステムは、ユーザが３Ｄディスプレイの使用中にオブジェクトと共におよび／またはその近くで移動する（すなわち、オブジェクトを身につけている、またはこれと対話している）間に、そのようなモデリングおよびレンダリングを行い得る。いくつかの実現例では、本明細書で説明するシステムは、自動車の部品、塗面、透明のオブジェクト、液体を保持するオブジェクトなどを含むがこれらに限定されない他のカテゴリのオブジェクトに対して、そのようなモデリングを行い得る。そのようなオブジェクトは、本明細書で説明するモデリングおよび技術を用いて、３Ｄでリアルに見えるようにレンダリング可能である。

いくつかの実現例では、本明細書で説明するシステムおよび技術は、３Ｄプロキシジオメトリを生成するための近似形状を用いた、オブジェクトのカテゴリの一般的な形状および外観を表現するようにモデルを生成する。本明細書で用いるように、３Ｄプロキシジオメトリ（テクスチャプロキシ）は、オブジェクトのセットの粗いジオメトリ近似値と、それぞれのオブジェクトジオメトリにマッピングされたオブジェクトのうちの１つ以上の潜在テクスチャとの両方を表す。粗いジオメトリおよびマッピングされた潜在テクスチャは、オブジェクトのカテゴリにおける１つ以上のオブジェクトの画像を生成するために用いられてもよい。たとえば、本明細書で説明するシステムおよび技術は、潜在テクスチャを対象視点にレンダリングし、ニューラルレンダリングネットワーク（たとえば、微分ディファード（differential deferred）レンダリングニューラルネットワーク）にアクセスして対象画像をディスプレイに生成することによって、３Ｄテレプレゼンス表示のためのオブジェクトを生成可能である。そのような潜在テクスチャを学習するために、本明細書で説明するシステムは、ニューラルテクスチャの低次元潜在空間と、共有ディファードニューラルレンダリングネットワークとを学習可能である。潜在空間は、オブジェクトの種別のすべてのインスタンスを包含し、オブジェクトのインスタンスの補間を可能にし、かつ、わずかな視点からオブジェクトのインスタンスの再構成を実現する。

プロキシのテクスチャを生成するために、本明細書で説明するシステムおよび技術は、種別レベル外観および幾何学的補間を用いて、共同潜在空間を学習する。たとえば、オブジェクトがイヤリングの場合、材料の反射性（たとえば、ゴールド、シルバー、プラスチック、樹脂など）、イヤリング形状などを含む特定のデータセットを選択してもよい。プロキシは、対応するニューラルテクスチャで独立してラスター化され、ニューラルネットワーク（たとえば、Ｕ－Ｎｅｔ）を用いて合成されて、写真のようにリアルな画像およびアルファチャネル（たとえば、地図、マスクなど）を出力として生成してもよい。３Ｄプロキシジオメトリを用いて、わずかな視点のセット（たとえば、４枚未満の入力画像）から複雑なオブジェクトを再構成してもよい。

いくつかの実現例では、本明細書で説明するシステムおよび技術は、ディスプレイにアクセスするユーザの動きを検出することに応じて、３Ｄディスプレイ上にレンダリングするためにカメラによって取込まれる画像コンテンツをどのように表示するかについて評価してもよい。たとえば、ユーザ（またはユーザの頭もしくは目）が左または右に動く場合、本明細書で説明するシステムおよび技術は、そのような動きを検出して、画像取込み内の特定のオブジェクトをモデリングして、３Ｄディスプレイのユーザのためにオブジェクトの３Ｄ深度、正確な視差、および３Ｄの知覚を提供する態様でオブジェクト（たとえば、画像コンテンツ、ユーザなど）をどのように表示するかを判断可能である。これに加えて、本明細書で説明するシステムおよび技術は、たとえば、他の３Ｄディスプレイ上のオブジェクトを眺めている他のユーザのために、オブジェクトの同じ３Ｄの深度、視差、および知覚を提供するために使用可能である。

図１は、本開示を通して説明する実現例に係る、立体表示デバイスにおいてコンテンツを表示するための３Ｄコンテンツシステム１００の例を示すブロック図である。３Ｄコンテンツシステム１００は、たとえば、３Ｄ（たとえば、テレプレゼンスセッション）でテレビ会議通信を行うために、複数のユーザによって使用可能である。一般に、図１のシステムは、テレビ会議セッション内の３Ｄオブジェクト（たとえば、眼鏡、宝石など）を描写する正確な画像をレンダリングするために、本明細書で説明するシステムおよび技術を用いて、テレビ会議中にユーザのビデオおよび／または画像を取込み、かつ、３Ｄオブジェクトの形状および外観のモデリングを行うことができる。システム１００は、本明細書で説明するモデルの使用から恩恵を受けてもよい。なぜなら、そのようなモデルによって、たとえばビデオ会議内における、複雑な形状および外観で構成されるオブジェクトを生成および表示可能であり、これらのうちの一部は、従来は３Ｄ状での描写が困難な場合もあった透明特性、反射特性、複雑なジオメトリ、および／または他の構造特性を含み得るからである。

図１に示すように、３Ｄコンテンツシステム１００は、第１のユーザ１０２および第２のユーザ１０４によって用いられている。たとえば、ユーザ１０２および１０４は、３Ｄテレプレゼンスセッションに参加するために３Ｄコンテンツシステム１００を使用している。そのような例では、３Ｄコンテンツシステム１００によって、ユーザ１０２および１０４の各々は、高度にリアルかつ視覚的に矛盾のない相手の表示を見ることができ、それによって、ユーザが互いに物理的に出席している場合と同様に対話することが容易になる。

各ユーザ１０２、１０４は、対応する３Ｄシステムを有し得る。ここで、ユーザ１０２は３Ｄシステム１０６を有し、ユーザ１０４は３Ｄシステム１０８を有する。３Ｄシステム１０６、１０８は、３Ｄ表示のための画像の取込み、画像情報の処理および提示、ならびにオーディオ情報の処理および提示を含むがこれらに限定されない、３Ｄコンテンツに関する機能性を提供可能である。３Ｄシステム１０６および／または３Ｄシステム１０８は、１つのユニットとして一体化された検知デバイスの集合を構成し得る。３Ｄシステム１０６および／または３Ｄシステム１０８は、図２、図４、および図９を参照して説明するコンポーネントの一部またはすべてを含み得る。

３Ｄコンテンツシステム１００は、１つ以上の２Ｄまたは３Ｄディスプレイを含み得る。ここで、３Ｄディスプレイ１１０は３Ｄシステム１０６のために設けられ、３Ｄディスプレイ１１２は３Ｄシステム１０８のために設けられる。３Ｄディスプレイ１１０、１１２は、それぞれの視聴者（ここでは、たとえばユーザ１０２またはユーザ１０４）のためにオートステレオスコピックビューを提供する複数種類の３Ｄディスプレイ技術のうちのいずれかを用い得る。いくつかの実現例では、３Ｄディスプレイ１１０、１１２は、スダントアロンユニット（たとえば、自立しているまたは壁に掛けられている）でもよい。いくつかの実現例では、３Ｄディスプレイ１１０、１１２は、ウェアラブル技術（たとえば、コントローラ、ヘッドマウントディスプレイなど）へのアクセスを含み得る、または有し得る。いくつかの実現例では、ディスプレイ１１０、１１２は、図７Ａ～図７Ｃに示すような２Ｄディスプレイでもよい。

一般に、ディスプレイ１１０、１１２などの３Ｄディスプレイは、ヘッドマウントディスプレイ（ＨＭＤ）デバイスを用いることなく、実世界における物理的なオブジェクトの３Ｄ光学特性を近似するイメージを提供し得る。一般に、本明細書で説明するディスプレイは、ディスプレイと関連付けられた多数の異なる視聴領域に画像を向け直すために、フラットパネルディスプレイ、レンチキュラーレンズ（たとえば、マイクロレンズアレイ）、および／または視差バリアを含む。

いくつかの実現例では、ディスプレイ１１０、１１２は、高解像度で眼鏡不要のレンチキュラー３次元ディスプレイを含み得る。たとえば、ディスプレイ１１０、１１２は、ディスプレイのマイクロレンズに結合（たとえば、接着）されたガラススペーサを有する複数のレンズ（たとえば、マイクロレンズ）を含むマイクロレンズアレイ（図示せず）を含み得る。マイクロレンズは、選択された視聴位置から、ディスプレイのユーザの左目が画素の第１のセットを眺めることができる一方でユーザの右目が画素の第２のセットを眺めることができるように、設計されてもよい（たとえば、画素の第２のセットは、画素の第１のセットに対して互いに排他的である）。

３Ｄディスプレイのいくつかの例では、そのようなディスプレイによって提供される画像コンテンツ（たとえば、ユーザ、オブジェクトなど）の３Ｄビューを提供する１つの場所があり得る。ユーザは、視差が適切で、歪みがほとんどなく、かつリアルな３Ｄ画像を体験するための１つの場所に着席可能である。ユーザが異なる物理的な場所に移動すると（または、頭の位置または目の凝視位置を変更すると）、画像コンテンツ（たとえば、ユーザ、ユーザが装着しているオブジェクト、および／または他のオブジェクト）が、よりリアルでなく、２Ｄで、および／または歪んで現れ始め得る場合がある。本明細書で説明するシステムおよび技術は、ユーザが動き回ることができるが、依然として、適切な視差を有し、歪みが低レートで、かつリアルな３Ｄ画像をリアルタイムに体験できることを確実にするために、ディスプレイから投影される画像コンテンツを再構成してもよい。そのため、本明細書で説明するシステムおよび技術には、ユーザが３Ｄディスプレイを視聴している間に発生するユーザの動きにかかわらず、３Ｄ画像コンテンツおよびオブジェクトを維持し、かつ、ユーザに提供して表示するという利点がある。

図１に示すように、３Ｄコンテンツシステム１００は、１つ以上のネットワークに接続可能である。ここで、ネットワーク１１４は３Ｄシステム１０６に、および３Ｄシステム１０８に接続されている。ネットワーク１１４は、公開されているネットワーク（たとえば、インターネット）またはプライベートネットワークでもよいが、これら２つは例にすぎない。ネットワーク１１４は有線、または無線、またはこれら２つの組合わせでもよい。ネットワーク１１４は、１つ以上のサーバ（図示せず）を含むがこれらに限定されない１つもしくは複数の他のデバイスまたはシステムを含み得る、または利用し得る。

３Ｄシステム１０６、１０８は、３Ｄ情報の取込み、処理、送信もしくは受信、および／または３Ｄコンテンツの提示に関する複数のコンポーネントを含み得る。３Ｄシステム１０６、１０８は、３Ｄの提示に含まれる画像のために画像コンテンツを取込むための１つ以上のカメラを含み得る。ここで、３Ｄシステム１０６は、カメラ１１６および１１８を含む。たとえば、カメラ１１６および／またはカメラ１１８は基本的に、それぞれのカメラ１１６および／または１１８の対物レンズが筐体内の１つ以上の開口部を経由して画像コンテンツを取込むように、３Ｄシステム１０６の筐体内に配設可能である。いくつかの実現例では、カメラ１１６および／または１１８は、スタンドアロンデバイス（たとえば、３Ｄシステム１０６に有線およびまたは無線接続している）の形状などの筐体と分離されていてもよい。カメラ１１６および１１８は、ユーザ（たとえば、ユーザ１０２）を十分表すビューを取込めるように位置決めおよび／または方向付けされてもよい。カメラ１１６および１１８が一般にユーザ１０２のための３Ｄディスプレイ１１０のビューを遮らない状態で、カメラ１１６および１１８の配置を適宜選択可能である。たとえば、カメラ１１６、１１８のうちの一方は、ユーザ１０２の顔の上方のどこかに位置決め可能である一方で、他方は、顔の下方のどこかに位置決め可能である。たとえば、カメラ１１６、１１８のうちの一方は、ユーザ１０２の顔の右側のどこかに位置決め可能である一方で、他方は、顔の左側のどこかに位置決め可能である。３Ｄシステム１０８は同様に、たとえば、カメラ１２０および１２２を含み得る。さらに別のカメラも可能である。たとえば、第３のカメラをディスプレイ１１０の近くまたは背後に配置してもよい。

３Ｄシステム１０６、１０８は、３Ｄの提示で用いられる深度データを取込む１つ以上の深度センサを含み得る。そのような深度センサは、３Ｄディスプレイ上にシーンを正確に表すために、３Ｄシステム１０６および／または１０８によって取込まれるシーンを特徴付けるために用いられる３Ｄコンテンツシステム１００における、深度取込みコンポーネントの一部であるとみなし得る。これに加えて、システムは、３Ｄの提示を視聴者の現在の視点に対応する外観でレンダリング可能になるように、視聴者の頭の位置および方向を追跡可能である。ここで、３Ｄシステム１０６は深度センサ１２４を含む。同様に、３Ｄシステム１０８は深度センサ１２６を含み得る。複数の種類の深度検知または深度取込みのいずれかを、深度データを生成するために使用可能である。いくつかの実現例では、支援型ステレオ深度取込みが行われる。たとえば、シーンはドット照明を用いて照射可能であり、ステレオマッチングを２つのそれぞれのカメラの間で行うことが可能である。この照射は、選択された波長または波長幅の波を用いて行うことが可能である。たとえば、赤外（ＩＲ）線を使用可能である。いくつかの実現例では、たとえば、深度センサは、２Ｄデバイス上でビューを生成するときに用いられなくてもよい。深度データは、シーン内の深度センサ（たとえば、深度センサ１２４）とオブジェクトとの間の距離を反映したシーンに関する情報を含み得る、またはこれに基づき得る。深度データは、シーン内のオブジェクトに対応する画像内のコンテンツについて、オブジェクトの距離（または深度）を反映する。たとえば、カメラ（複数可）と深度センサとの間の空間的な関係が知られており、カメラ（複数可）からの画像を深度センサからの信号と関係づけて、画像のための深度データを生成可能である。

３Ｄコンテンツシステム１００によって取込まれた画像は処理され、その後、３Ｄの提示として表示可能である。図１の例に示すように、オブジェクト（眼鏡１０４’’）を有する３Ｄ画像１０４’が、３Ｄディスプレイ１１０に提示される。これによって、ユーザ１０２は、ユーザ１０２から離れている場合もあるユーザ１０４の３Ｄ表現として、３Ｄ画像１０４’および眼鏡１０４’’を認識可能である。３Ｄ画像１０２’が、３Ｄディスプレイ１１２に提示される。これによって、ユーザ１０４は、ユーザ１０２の３Ｄ表現として３Ｄ画像１０２’を認識可能である。

３Ｄコンテンツシステム１００は、参加者（たとえば、ユーザ１０２、１０４）を、互いの、および／または他のユーザとのオーディオ通信に参加させることができる。いくつかの実現例では、３Ｄシステム１０６は、スピーカおよびマイク（図示せず）を備える。たとえば、３Ｄシステム１０８は同様に、スピーカおよびマイクを備え得る。そのため、３Ｄコンテンツシステム１００は、ユーザ１０２および１０４を、互いのおよび／または他のユーザとの３Ｄテレプレゼンスセッションに参加させることができる。

図２は、本開示を通して説明する実現例に係る、３Ｄ表示デバイスにおけるレンダリングについてコンテンツをモデリングするためのシステム２００の例を示すブロック図である。システム２００は、本明細書で説明する１つ以上の実現例として機能し得る、もしくはこれらに含まれ得る、および／または、本明細書で説明する３Ｄ処理、モデリング、または提示のうちの１つ以上の例の動作（複数可）を行うために使用可能である。全体的なシステム２００および／またはその個々のコンポーネントのうちの１つ以上は、本明細書で説明する１つ以上の例に従って実現可能である。

システム２００は、１つ以上の３Ｄシステム２０２を備える。図示された例では、３Ｄシステム２０２Ａ、２０２Ｂ～２０２Ｎが示されており、ここで、インデックスＮは任意の数を表す。３Ｄシステム２０２は、３Ｄの提示のための視覚および聴覚情報の取込み、ならびに処理のための３Ｄ情報の転送を提供し得る。そのような３Ｄ情報は、シーンの画像、シーンに関する深度データ、およびシーンからの音声を含み得る。たとえば、３Ｄシステム２０２は、３Ｄシステム１０６および３Ｄディスプレイ１１０（図１）として機能し得る、またはこれらに含まれ得る。

システム２００は、カメラ２０４として示されるような複数のカメラを含み得る。共通のデジタルカメラで用いられる種類の画像センサなどの任意の種類の光検知技術を、画像を取込むために使用可能である。カメラ２０４は、同じ種類でも異なる種類でもよい。カメラの場所は、たとえば３Ｄシステム１０６などの３Ｄシステム上の任意の場所内でもよい。

システム２０２Ａは、深度センサ２０６を備える。いくつかの実現例では、深度センサ２０６は、ＩＲ信号をシーンに伝搬させ、応答信号を検出することによって動作する。たとえば、深度センサ２０６は、ビーム１２８Ａ～Ｂおよび／もしくは１３０Ａ～Ｂを生成ならびに／または検出可能である。

システム２０２Ａはまた、少なくとも１つのマイク２０８とスピーカ２１０とを備える。たとえば、これらは、ユーザが装着するヘッドマウントディスプレイに一体化可能である。いくつかの実現例では、マイク２０８およびスピーカ２１０は、３Ｄシステム１０６の一部でもよく、ヘッドマウントディスプレイの一部でなくてもよい。

システム２０２はさらに、立体的な態様で３Ｄ画像を提示可能な３Ｄディスプレイ２１２を備える。いくつかの実現例では、３Ｄディスプレイ２１２はスタンドアローンディスプレイでもよく、いくつかの他の実現例では、３Ｄディスプレイ２１２は、３Ｄの提示を体験するためにユーザが装着するように構成されたヘッドマウントディスプレイユニットに含まれてもよい。いくつかの実現例では、３Ｄディスプレイ２１２は、視差バリア技術を用いて動作する。たとえば、視差バリアは、スクリーンと視聴者との間に配設される実質的に不透明の材料（たとえば、不透明膜）の平行な垂直ストライプを含み得る。視聴者のそれぞれの目の間の視差によって、スクリーンの異なる部分（たとえば、異なる画素）が、左目および右目によってそれぞれ眺められる。いくつかの実現例では、３Ｄディスプレイ２１２は、レンチキュラーレンズを用いて動作する。たとえば、交互の列のレンズをスクリーンの前方に配設可能であり、これらの列はそれぞれ、スクリーンから視聴者の左目および右目に光を向ける。

システム２００は、データの処理、データのモデリング、データの調整、および／またはデータの送信という特定のタスクを行い得る。サーバ２１４および／またはそのコンポーネントは、図９を参照して説明するコンポーネントの一部または全てを含み得る。

サーバ２１４は、１つ以上の態様で３Ｄ情報のレンダリングを担い得る３Ｄコンテンツジェネレータ２１６を含む。これは、（たとえば、３Ｄシステム２０２Ａからの）３Ｄコンテンツの受信、３Ｄコンテンツの処理、および／または（処理された）３Ｄコンテンツの他の参加者への（たとえば、３Ｄシステム２０２のうちの他方への）転送を含み得る。

３Ｄコンテンツジェネレータ２１６によって行われる機能のいくつかの態様は、シェーダ２１８によって行われるために実現可能である。シェーダ２１８は、画像の特定の部分についてシェーディングを施すこと、および、シェーディングが与えられた、または与えられる予定の画像に関連する他のサービスを行うことを担い得る。たとえば、シェーダ２１８は、他の態様では３Ｄシステム（複数可）２０２によって生成され得る複数のアーティファクトを打消すまたは隠すために利用可能である。

シェーディングとは、画像内のオブジェクトの色、表面、および／または多角形を含むがこれに限定さない、画像コンテンツの外観を規定する１つ以上のパラメータを指す。いくつかの実現例では、画像コンテンツの１つ以上の部分が視聴者に見える態様を変えるために、シェーディングをこれらの画像コンテンツ部分（複数可）に適用可能である、または、これらの部分について調節可能である。たとえば、シェーディングは、画像コンテンツ部分（複数可）を、たとえばより暗く、より明るく、透明にするために施す／調節することが可能である。

３Ｄコンテンツジェネレータ２１６は、深度処理コンポーネント２２０を含み得る。いくつかの実現例では、深度処理コンポーネント２２０は、画像コンテンツと関連付けられた１つ以上の深度値に基づいて、および１つ以上の受信入力（たとえば、コンテンツモデル入力）に基づいて、当該コンテンツに対してシェーディング（たとえば、より暗く、より明るく、透明に）を施すことが可能である。

３Ｄコンテンツジェネレータ２１６は、角度処理コンポーネント２２２を含み得る。いくつかの実現例では、角度処理コンポーネント２２２は、画像コンテンツを取込むカメラに対するコンテンツの向き（たとえば、角度）に基づいて、画像コンテンツにシェーディングを施すことが可能である。たとえば、所定閾値角度より大きな角度でカメラ角度から離れるように向かい合うコンテンツに対して、シェーディングを施すことが可能である。これによって、角度処理コンポーネント２２２は、表面がカメラから離れると、明るさが低減し次第に暗くなるようにできるが、これはほんの一例である。

３Ｄコンテンツジェネレータ２１６は、レンダラーモジュール２２４を含む。レンダラーモジュール２２４は、コンテンツを１つ以上の３Ｄシステム（複数可）２０２にレンダリングしてもよい。たとえば、レンダラーモジュール２２４は、たとえばシステム２０２に表示され得る出力／合成画像をレンダリングしてもよい。

図２に示すように、サーバ２１４はまた、１つ以上の態様で３Ｄ情報のモデリングを担当し得る３Ｄコンテンツモデラー２３０を含む。これは、（たとえば、３Ｄシステム２０２Ａからの）３Ｄコンテンツの受信、３Ｄコンテンツの処理、および／または（処理された）３Ｄコンテンツの他の参加者への（たとえば、３Ｄシステム２０２の他方への）転送を含み得る。３Ｄコンテンツモデラー２３０は、以下でより詳細に説明するように、アーキテクチャ４００を用いてオブジェクトをモデリングしてもよい。

ポーズ２３２は、取込まれたコンテンツ（たとえば、オブジェクト、シーンなど）と関連付けられたポーズを表してもよい。いくつかの実現例では、ポーズ２３２は、システム１００および／または２００と関連付けられた追跡システム（図示せず）によって、検出および／または他の態様では判定可能である。そのような追跡システムは、ユーザのすべてまたは一部の位置を追跡するために、センサ、カメラ、検出器、および／またはマーカーを含んでもよい。いくつかの実現例では、追跡システムは、室内のユーザの位置を追跡してもよい。いくつかの実現例では、追跡システムは、ユーザの目の位置を追跡してもよい。いくつかの実現例では、追跡システムは、ユーザの頭の位置を追跡してもよい。

いくつかの実現例では、追跡システムは、適切な深度および視差を有する画像を表示するために、たとえば、表示デバイス２１２に対するユーザの位置（またはユーザの目もしくは頭の位置）を追跡し得る。いくつかの実現例では、ユーザと関連付けられた頭の位置は、たとえばマイクロレンズ（図示せず）を介して、表示デバイス２１２のユーザに画像を同時に投影するための方向として検出および使用されてもよい。

カテゴリ２３４は、特定のオブジェクト２３６についての分類を表してもよい。たとえば、カテゴリ２３４は眼鏡でもよく、オブジェクトは、青い眼鏡、透明の眼鏡、丸い眼鏡などでもよい。任意のカテゴリおよびオブジェクトは、本明細書で説明するモデルによって表現されてもよい。カテゴリ２３４は、オブジェクト２３６上の生成モデルを訓練する基準として用いられてもよい。いくつかの実現例では、カテゴリ２３４は、同じカテゴリの複数のオブジェクトについてのグラウンドトゥルースポーズ、色空間画像、およびマスクのセットへのアクセスを許可する異なる視点の下で、合成的に３Ｄオブジェクトカテゴリのレンダリングを行うために使用可能なデータセットを表してもよい。

３次元（３Ｄ）プロキシジオメトリ２３８は、オブジェクトのセットの（粗い）幾何学近似値と、それぞれのオブジェクトジオメトリにマッピングされたオブジェクトのうちの１つ以上の潜在テクスチャ２３９との両方を表す。粗いジオメトリとマッピングされた潜在テクスチャ２３９とは、オブジェクトのカテゴリ内の１つ以上のオブジェクトの画像を生成するために使用されてもよい。たとえば、本明細書で説明するシステムおよび技術によって、潜在テクスチャ２３９を対象視点にレンダリングし、ニューラルレンダリングネットワーク（たとえば、微分ディファードレンダリングニューラルネットワーク）にアクセスして対象画像をディスプレイに生成することによって、３Ｄテレプレゼンス表示のためにオブジェクトを生成可能である。そのような潜在テクスチャ２３９を学習するために、本明細書で説明するシステムは、ニューラルテクスチャの低次元潜在空間および共有ディファードニューラルレンダリングネットワークを学習可能である。潜在空間は、オブジェクトの種別のすべてのインスタンスを包含し、オブジェクトのインスタンスの補間を可能にして、わずかな視点からのオブジェクトのインスタンスの再構成を実現し得る。

ニューラルテクスチャ２４４は、画像取込みプロセスの一部として訓練される、学習された特徴マップ２４０を現す。たとえば、オブジェクトが取込まれると、このオブジェクトのための特徴マップ２４０および３Ｄプロキシジオメトリ２３８を用いて、ニューラルテクスチャ２４４が生成されてもよい。動作中、システム２００は、特定のオブジェクト（シーン）のための３Ｄプロキシジオメトリ２３８の上のマップとして、当該オブジェクトのためのニューラルテクスチャ２４４を生成し、格納してもよい。たとえば、識別されたカテゴリの各々のインスタンスと関連付けられた潜在コードと、ポーズと関連付けられたビューとに基づいて、ニューラルテクスチャが生成されてもよい。

幾何学的近似値２４６は、オブジェクトジオメトリのために形状ベースのプロキシを表してもよい。幾何学的近似値２４６は、メッシュベースの、形状ベースの（たとえば、三角形、長斜方形、正方形など）、自由形式バージョンのオブジェクトでもよい。

ニューラルレンダラー２５０は、たとえば、ニューラルネットワークを用いてレンダリングを行うオブジェクトおよび／またはシーンの中間表現を生成してもよい。ニューラルテクスチャ２４４は、ニューラルレンダラー２５０と共に動作するニューラルネットワーク２４２など、５層Ｕ－Ｎｅｔと共に、テクスチャマップ（たとえば、特徴マップ２４０）上の特徴を共同で学習するために用いられてもよい。ニューラルレンダラー２５０は、たとえば、オブジェクト特有の重畳ネットワークを用いて真の外観（たとえば、グラウンドトゥルース）と拡散再投影との間の差をモデリングすることによって、ビューに依存する効果を組込むことが可能である。そのような効果は、シーンの知識に基づいて予測することが困難な場合があるため、リアルな出力をレンダリングするためにＧＡＮベースの損失機能を用いてもよい。

ＲＧＢカラーチャネル２５２（たとえば、カラー画像）は、３つの出力チャネルを表す。たとえば、３つの出力チャネルは、すなわち、カラー画像を表す赤色チャネル、緑色チャネル、および青色チャネル（たとえば、ＲＧＢ）を含んでもよい。いくつかの実現例では、色チャネル２５２は、特定の画像のためにレンダリングされる色を示すＹＵＶマップでもよい。いくつかの実現例では、カラーチャネル２５２はＣＩＥマップでもよい。いくつかの実現例では、カラーチャネル２５２はＩＴＰマップでもよい。

アルファ（α）２５４は、オブジェクト内の任意の数の画素について、特定の画素色が重ねられると他の画素と合成される態様を表す出力チャネル（たとえば、マスク）を表す。いくつかの実現例では、アルファ２５４は、オブジェクトの透明レベル（たとえば、半透明、不透明など）を規定するマスクを表す。

上述の例示的なコンポーネントは、ここでは、ネットワーク２６０（図１のネットワーク１１４に類似または同一でもよい）によって３Ｄシステム２０２のうちの１つまたは複数と通信可能なサーバ２１４内で実現されると説明される。いくつかの実現例では、３Ｄコンテンツジェネレータ２１６および／またはそのコンポーネントは、３Ｄシステム２０２の一部またはすべてにおいて、代わりにまたはさらに実現可能である。たとえば、上述のモデリングおよび／または処理は、３Ｄ情報を１つ以上の受信システムに転送する前に３Ｄ情報を発信するシステムによって行うことが可能である。他の例として、発信システムによって、画像、モデリングデータ、深度データおよび／または対応する情報を、上述の処理を行うことが可能な１つ以上の受信システムに転送可能である。これらのアプローチの組合わせを用いることができる。

このように、システム２００は、カメラ（たとえば、カメラ２０４）、深度センサ（たとえば、深度センサ２０６）、およびメモリに格納された命令を実行するプロセッサを有する３Ｄコンテンツジェネレータ（たとえば、３Ｄコンテンツジェネレータ２１６）を含むシステムの例である。そのような命令は、プロセッサに、３Ｄ情報に含まれる深度データを（たとえば、深度処理コンポーネント２２０によって）用いて、３Ｄ情報に含まれるシーンの画像内の画像コンテンツを識別させることが可能である。画像コンテンツは、基準を満たす深度値と関連付けられていると識別可能である。プロセッサは、たとえば正確に合成画像２５６を描写するために３Ｄコンテンツジェネレータ２１６に提供され得る３Ｄコンテンツモデラー２３０によって生成されるモデルを適用することによって、修正された３Ｄ情報を生成可能である。

合成画像２５６は、ユーザの頭の追跡された位置に少なくとも部分的に基づいて、ディスプレイ（たとえば、ディスプレイ２１２）にアクセスしているユーザと関連付けられた両方の目のための正しい視差および視聴構成を有する特定のオブジェクト２３６の３Ｄ立体画像を表す。合成画像２５６の少なくとも一部は、たとえば、ユーザがディスプレイを眺めつつ頭の位置を動かす度に、システム２００を用いて、３Ｄコンテンツモデラー２３０からの出力に基づいて求められてもよい。いくつかの実現例では、合成画像２５６は、オブジェクト２３６および他のオブジェクト、ユーザ、またはオブジェクト２３６を取込んでいるビュー内の画像コンテンツを表す。

いくつかの実現例では、システム２０２および２１４のプロセッサ（図示せず）は、グラフィックス・プロセッシング・ユニット（ＧＰＵ）を含んでもよい（または、これと通信してもよい）。動作中、プロセッサは、メモリ、ストレージ、および他のプロセッサ（たとえば、ＣＰＵ）を含み得る、（またはこれらにアクセスし得る）。グラフィックスおよび画像生成を容易にするために、プロセッサは、ＧＰＵと通信して、画像を表示デバイス（たとえば、表示デバイス２１２）に表示し得る。ＣＰＵおよびＧＰＵは、ＰＣＩ、ＡＧＰまたはＰＣＩ－Ｅｘｐｒｅｓｓなどの高速バスを通して接続されてもよい。ＧＰＵは、ＨＤＭＩ（登録商標）、ＤＶＩ、またはディスプレイポートなどの他の高速インターフェイスを通して、ディスプレイに接続されてもよい。一般に、ＧＰＵは、画素形状で画素コンテンツをレンダリングしてもよい。表示デバイス２１２は、ＧＰＵから画像コンテンツを受信し、画像コンテンツをディスプレイスクリーンに表示してもよい。

図３は、本開示を通して説明する実現例に係る、良好に境界を付けられた幾何学的変化を有するオブジェクトのカテゴリについての平面プロキシの例を示す図である。たとえば、平面プロキシ３０２が眼鏡３００の左側として示されている。平面プロキシ３０２は、眼鏡３００の左側をモデリングした平面ビルボードを表す。同様に、平面プロキシ３０４が眼鏡の中央部分（たとえば、前側部分）を表すように示され、平面プロキシ３０６が、眼鏡３００の右側を表す。眼鏡３００は、オブジェクトの例を表す。他のオブジェクトおよびそのようなオブジェクトを表す平面プロキシ形状は、３Ｄコンテンツの生成およびレンダリングのために、本明細書で説明するシステムおよび技術によって用いられてもよい。たとえば、他のプロキシは、箱、円柱、球体、三角形などを含み得るが、これらに限定されない。

平面プロキシは、複雑なジオメトリの代替として用いられてもよい、テクスチャマッピングされたオブジェクト（またはオブジェクトの一部）を表し得る。ジオメトリプロキシの操作およびレンダリングは、対応する詳細なジオメトリの操作およびレンダリングと比べてコンピュータ集約型ではないため、平面プロキシの表現は、ビューを再構成するためにより単純な形状を提供してもよい。平面プロキシの表現は、そのようなビューを生成するために用いられてもよい。平面プロキシを用いることによって、たとえば、眼鏡、車、雲、木、および草などのきわめて複雑な外観を有するオブジェクトの操作、再構成、および／またはレンダリングを行おうとする場合に計算コストが低くなるという利点をもたらし得る。同様に、高性能なグラフィックス・プロセッシング・ユニットを使用すると、リアルタイムゲームエンジンは、より低い詳細度でジオメトリに置き換わるようにマップを生成する３Ｄプロキシジオメトリを用いて、距離と共にスワップインおよびスワップアウト可能な複数の詳細度を有するそのようなプロキシ（たとえば、幾何学的表現）を用いることが可能である。

動作中、システム２００は、抽出されたアルファマスクを用いて、オブジェクトごとにバウンディングボックス（たとえば、粗い視覚ハル）を計算することによって、平面プロキシ３０２～３０４を生成してもよい。一般に、アルファマスクは、オブジェクトにおける任意の数の画素について、特定の画素色が重ねられると他の画素と合成される態様を表す。システム２００はその後、眼鏡の画像内の対象領域を特定し得る。対象領域は、頭の座標を用いて特定されてもよい。システム２００はその後、対応する正射影から眺めたときの面に確率的に一致する平面を抽出してもよい。この例では、プロキシ３０２～３０４を生成するために用いられる平面は、眼鏡の３つの側を描写する右側のビュー、中央のビュー、および左側のビューである。

一般に、システム２００は、ニューラルネットワークに入力される訓練データとして用いることが可能な任意の数の画像について、平面プロキシを生成してもよい。ニューラルネットワークは、たとえばカメラが取込んだ特定のオブジェクト（たとえば、眼鏡）を正確に表示する態様を判断してもよい。それゆえ、ニューラルネットワークに入力される訓練データとして用いられる各眼鏡は、固有のプロキシジオメトリと関連付けられてもよい。いくつかの実現例では、訓練時間に、システム２００は画像内のオブジェクトのポーズを検出してもよい。いくつかの実現例では、システム２００は、画像のデータセットをオブジェクトと組合わせ、検出されたポーズを用いてポーズに基づく視点からオブジェクトをシミュレートすることによって、特定のオブジェクトのビューを生成してもよい。

いくつかの実現例では、システム２００は、眼鏡の潜在空間を構築し、眼鏡の潜在空間をたとえばＮＮ２４２に送り、その後、ＮＮ２４２は眼鏡のためにテクスチャマップを生成してもよい。いくつかの実現例では、システム２００は、訓練データの中から平面プロキシのインスタンスの数を減らして、残りの平面プロキシを用いてニューラルネットワークのためのカテゴリレベルモデルを訓練しつつ、少ないショットの再構成を実行してもよい。たとえば、眼鏡画像を表す残りの平面プロキシを用いて、ニューラルネットワーク２４２のために眼鏡カテゴリ（たとえば、カテゴリ２３４）を訓練可能である。

オブジェクトの任意の数のカテゴリを、ＮＮ２４２と用いるために訓練可能である。たとえば、システム２００は、車、本物の植物、および／または、薄い、反射する、透明の、および／または他の態様では３Ｄでモデリングおよびレンダリングを正確に行うことが困難な他のカテゴリのオブジェクトを用いて、潜在的な３Ｄプロキシジオメトリを訓練可能である。たとえば、システム２００は、多数の車オブジェクトのサンプリングに基づいて、自由形状３Ｄプロキシジオメトリおよび／または幾何学メッシュを用いて、車をモデリングしてもよい。

他の例では、ｘ線フィルム、カメラのネガ、または２Ｄもしくは３Ｄビデオで表示するために裏から照らし出すことが可能な他のフィルムなどの薄いオブジェクトを取込むことが可能である。本明細書で説明するシステムおよび技術は、フィルム（たとえば、ｘ線など）を２Ｄまたは３Ｄビデオを眺めているユーザに正確に伝達できるように、フィルム内の画像コンテンツを正確に描写および／または修正するために平面プロキシを採用してもよい。

図４は、本開示を通して説明する実現例に係る、生成潜在最適化フレームワークによって訓練されるネットワークアーキテクチャ４００の例を示すブロック図である。一般に、アーキテクチャ４００は、オブジェクトのさまざまな形状および外観を生成可能な生成モデルを用いて、ニューラルテクスチャをパラメーター化するために３ＤプロキシジオメトリＰを用いるシステム２００を使用する例である。モデリングされるオブジェクトの例として眼鏡を用いる例が示されている。しかしながら、３Ｄ画像コンテンツのモデリングおよび生成を行うために、アーキテクチャ４００において任意のオブジェクトまたはオブジェクトカテゴリが代用され使用されてもよい。

図４に示すように、オブジェクトの集合が、ｚ_ｉ∈Ｒ^ｎとしてオブジェクトインスタンスｉごとに潜在コードを表すマップ（ｚ）４０２として生成される。潜在空間のマップ（ｚ）４０２は、８次元（８Ｄ）マップでもよい。マップ４０２は、アーキテクチャ４００を用いて最適化される乱数値を含み得る。

アーキテクチャ４００の（たとえば、システム２００を用いた）動作中、マップ（ｚ）４０２は、ニューラルテクスチャ４０６、ニューラルテクスチャ４０８、およびニューラルテクスチャ４１０として本例で示される複数のニューラルテクスチャ２４４を生成するために、多層パーセプトロン（ＭＬＰ）ニューラルネットワーク４０４（たとえば、ＮＮ２４２）に提供される。ニューラルテクスチャ４０６～４１０は、マップ（ｚ）４０２内に示される特定のオブジェクトについてジオメトリおよび／またはテクスチャのある部分を画定する、メッシュの部分を表してもよい。

ＭＬＰＮＮ４０４（たとえば、ＮＮ２４２）は、８Ｄマップ内に表す要素をより高い次元の空間（たとえば、５１２次元）に上げてもよい。アーキテクチャ４００は、取込まれた画像（たとえば、取込まれた画像から生成されたプロキシのポーズ）と関連付けられたポーズ４１２を用いて、ニューラルテクスチャ４０６～４０８、サンプル４１４、４１６、および４１８、ならびに対応する深度４２０、４２２、４２４に加えて、対応する標準的な視点４２６、４２８、および４３０を生成する。

特定の種別のオブジェクトの集合を想定して、システム２００は、インスタンスｉごとの潜在コードを、ｚ_ｉ∈Ｒ^ｎと定義する。本明細書で説明する、アーキテクチャ４００によって用いられるモデルが、Ｋ個のプロキシ{Ｐ_ｉ,₁・・・，Ｐ_ｉ，Ｋ}のセットを含む粗いジオメトリ（すなわち、Ｕ－Ｖ座標を有する三角形メッシュ）を生成および使用し得る。たとえば、アーキテクチャ４００は、ニューラルテクスチャ４０６～４０８を生成するために、２Ｄ画像を３Ｄプロキシモデル面に投射してもよい。Ｕ－Ｖ座標は、２Ｄテクスチャの軸を示す。これらのプロキシは、種別内のオブジェクトの集合のいずれかまたはすべての実際のジオメトリのバージョンを表すように機能する。アーキテクチャ４００は、オブジェクトのインスタンスごと、および表現される３Ｄプロキシジオメトリごとに、ニューラルテクスチャＴ_ｉ，ｊ＝Ｇｅｎ_ｊ（ｗ_ｉ）を計算（たとえば、生成）可能であり、ここで、ｗ_ｉ＝ＭＬＰ（ｚ_ｉ）は、ＭＬＰＮＮ４０４を用いた潜在コードｚ_ｉの非線形再パラメーター化である。

画像ジェネレータＡ、ＢおよびＣ（たとえば、Ｇｅｎ（．））は、たとえば、ニューラルテクスチャ４０６～４１０を用いて特徴マップを生成するために、入力として潜在コード（たとえば、マップ（ｚ）４０２）を受信するデコーダを表してもよい。出力ビューをレンダリングするために、アーキテクチャ４００は、深度、標準およびＵＶ座標を含む各プロキシから、ディファードシェーディングバッファをラスター化してもよい。アーキテクチャ４００はその後、たとえば、プロキシごとにシェーディングバッファＵ－Ｖ座標（図示せず）を用いて、対応するニューラルテクスチャ（複数可）４０６、４０８、および４１０をサンプリングしてもよい。サンプリングの結果が、４１４、４１６、および４１８で示される。

アーキテクチャ４００は、ニューラルレンダラー２５０（たとえば、Ｕ－Ｎｅｔ）への入力として、シェーディングバッファのコンテンツを用いてもよい。ニューラルレンダラー２５０は、４つの出力チャネルを生成してもよい。たとえば、ニューラルレンダラー２５０は、３つの出力チャネル（すなわち、赤色チャネル、緑色チャネル、および青色チャネル）を表す色空間／カラーチャネル２５２を生成してもよい。いくつかの実現例では、カラーチャネル２５２は、画像においてレンダリングされる色を示すカラー画像（たとえば、マッピング）でもよい。第４の出力チャネルは、２つの画素が互いに重ねられると各画素がオブジェクト内に示される他の画素と合成されるべき態様を特定する特定のオブジェクトのためのマスクを表すアルファチャネル２５４でもよい。一例では、アルファチャネル（たとえば、マスク）は、眼鏡の不透明度を表してもよい。すなわち、アルファマスクは、オブジェクトの特定のジオメトリまたは面の半透明度を表してもよい。

いくつかの実現例では、複数のニューラルテクスチャは、画像コンテンツ内に取込まれたオブジェクトの隠れた部分を再構成するように構成される。たとえば、眼鏡４０６のビューにおいて、眼鏡のフロントビューが眼鏡のつるを隠すため、このつるの一部は隠れていてもよい。隠れた部分（たとえば、つる）は、ニューラルレンダラーが、オブジェクトの透明層とオブジェクトの透明層の背後の面とを生成することを可能にするニューラルテクスチャ（たとえば、互いの）積層形態に基づいて再構成されてもよい。

いくつかの実現例では、低アルファ値を有する画素内の色が、ＮＮ４０４（たとえば、ＮＮ２４２）をぼやかし得る、画像の抽出されたマットにおいて特に目立ちやすいため、アルファチャネル２５４（マスク）によって明度が事前に逓倍されもよい。カラーチャネル２５２およびアルファチャネル２５４は合成されて、合成画像２５６を生成しレンダリングしてもよい。

いくつかの実現例では、Ｌ１損失を、カラーチャネル２５２とアルファチャネル２５４との両方のために、アーキテクチャ４００によって算出可能である。いくつかの実現例では、Ｌ１損失を、アーキテクチャ４００によって算出してもよい。いくつかの実現例では、ＶＧＧ損失を、生成された合成画像２５６における任意の知覚損失を補償するために、合成画像２５６について算出してもよい。

動作中、アーキテクチャ４００は、粗いプロキシ面（たとえば、３Ｄプロキシジオメトリ２３８）のセットに加えて、ビューに依存するニューラルテクスチャ２４４を用いた形状、アルベド、およびビューに依存する効果を用いてジオメトリ構造を符号化するために、プロキシジオメトリ原則を用いる。ニューラルテクスチャ２４４は、さまざまな形状および外観を生成可能な生成モデルを用いてパラメーター化される。

たとえば、アーキテクチャ４００は、システム２００によって生成される３Ｄプロキシジオメトリ２３８のためにニューラルテクスチャ２４４を生成してもよい。３Ｄプロキシジオメトリ２３８は一般に、オブジェクトと関連付けられたジオメトリおよび／またはテクスチャを表すメッシュの部分を含む。特定の３Ｄプロキシジオメトリのポーズ４１２を用いて、アーキテクチャ４００は、特定の視点からオブジェクトのバージョンをレンダリングしてもよい。たとえば、標準４２６、４２８および４３０は、オブジェクトを表す平面として生成される。深度マップ４２０、４２２および４２４も、オブジェクトの画素ごとに生成されてもよい。くわえて、サンプルプロキシ４１４、４１６および４１８は、３Ｄプロキシジオメトリ内のマップ（たとえば、特徴マップ２４０）として用いて、サンプリングおよびレンダリングを行うジオメトリの特定の部分を検索するために、生成されてもよい。

要素４１０～４３０を生成すると、アーキテクチャ４００は、画像を積層して９つのチャネルを生成してもよく、次に、後にディファードシェーディングバッファに連結可能なオブジェクトの多数のビューを生成してもよい。ディファードシェーディングバッファの出力は、色空間画像２５２およびアルファマスクを生成するニューラルレンダラー２５０に提供されてもよい。

いくつかの実現例では、アーキテクチャ４００は、Ｌ１およびＶＧＧ知覚再構成損失を用いて端末相互間でＮＮ４０４を訓練するために、生成潜在最適化（ＧＬＯ）フレームワークを用いる。いくつかの実現例では、Ｌ１損失は、事前に逓倍された色空間チャネル値、事前に逓倍されたアルファチャネル、および中間色の灰色の背景の上の合成に対して再構成される。いくつかの実現例では、知覚損失は、たとえば、画像のセット上で事前に訓練されたＶＧＧの第２の層および第５の層を用いて、合成画像２５６に適用されてもよい。いくつかの実現例では、種別ごとの潜在コード（たとえば、マップ（ｚ）４０２）はランダムに初期化され、１ｅ^－５の学習レートで最適化される。ニューラルテクスチャ２４４（たとえば、４０６、４０８、および４１０）は、９つのチャネルのニューラルテクスチャを含んでもよい。いくつかの実現例では、マップ（ｚ）４０２は、８次元で表現されてもよく、（ｗ）は５１２次元で表現されてもよい。画像結果（たとえば、合成画像２５６）が、たとえば眼鏡の５１２×５１２解像度で生成されてもよい。他のオブジェクトについて、他の解像度を用いることが可能である。

図５Ａ～図５Ｃは、本開示を通して説明する実現例に係る、画像コンテンツのシミュレーション、取込み、および抽出の例を示す。図５Ａは、画像（たとえば、ユーザが装着している眼鏡５０６の画像５０４）が取込まれる装置５０２の例を示す。装置５０２は眼鏡オブジェクトを取込むために示されているが、他のオブジェクトカテゴリを取込むために、かつ、そのような取込まれたコンテンツを用いてニューラルネットワークを訓練し、オブジェクトカテゴリについてモデルを生成するために、他の装置を構築および使用可能である。装置５０２は、カメラを表し、かつ、カメラのジオメトリに加えて測光モデルパラメータを計算するために、白い背景とＣａｌｉｂｕキャリブレーション構成とを用いて、ユーザをシミュレートするマネキンの頭を表す。

図５Ｂは、装置５０２を用いた画像取込みを表す。ここで、複数のポーズ４１２およびオブジェクト（たとえば、眼鏡５０６）を表すために、４枚の画像５０８、５１０、５１２および５１４が取込まれる。示されるオブジェクトが眼鏡ではなく車の場合、車の複数の画像がこのステップのために取込まれてもよい。

図５Ｃは、可能なバージョンの眼鏡を表す４枚の画像５１６、５１８、５２０および５２２を表す。たとえば、アーキテクチャ４００は、前景アルファマットおよび色の値を求めるために、画像５０８～５１４を用いてもよい。いくつかの実現例では、眼鏡のソフトシャドウ（たとえば、シャドウ５２４）がマットアルゴリズムに残ってもよい。この例では、潜在変換ＭＬＰ４０４は、４層の２５６個の特徴を有し、レンダリングＵ－Ｎｅｔ（たとえば、ニューラルレンダラー２５０）は、各々２つの重畳（合計で２０個の重畳）を有する５つのダウンサンプリングおよびアップサンプリングブロックを含む。

図６は、本開示を通して説明する実現例に係る、本明細書で説明するモデルがフィットする場所に基づく、画像の例を示す。一般に、システム２００は、オブジェクトのさまざまな取込まれた入力画像を受信し得る。この例では、入力画像は眼鏡（たとえば、眼鏡６０２、眼鏡６０４、および眼鏡６０６）の３枚の画像を含む。補間されたバージョンの眼鏡は、潜在コード（ｚ）６０８の例、潜在コード（ｚ）６０８の非線形潜在再パラメーター化を表す画像（ｗ）６１０、グラウンドトゥルース画像６１２、画像のニューラルテクスチャ６１４の例、および組合わされたバージョンの画像を表す合成画像６１６によって示される。

図６は、本開示を通して説明する実現例に係る、グラウンドトゥルース画像コンテンツと比較した、本明細書で説明するシステムによって行われるビュー補間の例を示す。ＧＬＯモデルについて一般に上述しているが、変分オートエンコーダ（ＶＡＥ）モデルまたはゲームセオリー（ＧＴ）モデルを含むがこれらに限定されない他のビュー補間モデルが用いられてもよい。

入力の特定の角度が提供されるが、眼鏡の他の角度がわずかなショット再構成を用いて補間されてもよい。たとえば、眼鏡の左側角度ビューが入力として設けられてもよいが、システム２００は、入力ビューを微調整し、かつ、ニューラルテクスチャを用いて他の視点を再構成することによって、右側角度からビューを再構成してもよい。眼鏡のブリッジで取込まれた、ビューに依存する効果も、入力画像に取込まれないない場合であっても再構成されてもよい。

システム２００は、オブジェクトの潜在空間における補間を可能にする生成モデルを用いて、３Ｄモーフィング可能なモデルに類似した形状および外観の変形可能なモデルを効果的に構築し得る。たとえば、システム２００は、眼鏡オブジェクト６０４のプロキシジオメトリが一定に保たれる一方で潜在コード（ｚ）６０８が線形補間されて画像（ｗ）６１０を生成するような補間を生成してもよい。差は、モデルがフィットしている場所によって決まり得る。テクスチャは一致しないものの、眼鏡オブジェクト６０４の形状は、画像（ｗ）６１０でリアルに示され、すべてのネットワークパラメータが微調整されると全体的な再構成が改善される。

システム２００はテクスチャのパラメーター化された空間を用いるため、このシステムは、入力ビューを再生する右側潜在コード（ｚ）を見つけることによって、特定のインスタンスを再構成可能である。これはたとえば、どちらか一方のエンコーダによって、または再構成損失に対する勾配降下の使用による最適化によって、行うことが可能である。そうではなく、いくつかの実現例では、システム２００は、変換された潜在空間（ｗ）の最適化、ニューラルテクスチャ空間の最適化、またはすべてのネットワークパラメータの最適化（すなわち、ニューラルネットワーク全体の微調整）を含むがこれに限定されない、ニューラルネットワークの中間パラメータの最適化を行うことが可能である。

それゆえ、対応するポーズ{ｐ₁・・・ｐ_ｋ}およびプロキシジオメトリ{Ｐ_ｉ，１・・・Ｐ_ｉ，Ｋ}を有するビュー{I₁・・・Ｉ_ｋ}のセットを考慮して、システム２００は新しい潜在コード（ｚ）を規定してもよく、以下の最適化として再構成プロセスを設定してもよい。

ここで、Ｎｅｔ（）は、潜在コード（ｚ）、ポーズ（ｐ）、および最適化される中間ネットワークパラメータ（θ）によってパラメーター化される図４の終端間ネットワークアーキテクチャである。いくつかの実現例では、プロキシ入力を積層することによって、眼鏡のつるはフロントプロキシによって遮られるが、そのようなビューは、システム２００およびアーキテクチャ４００を用いて正確に再生可能である。

図７Ａ～図７Ｃは、本開示を通して説明する実現例に係る、本明細書で説明するモデルを用いたバーチャル試着アプリケーションの例を示す。システム２００およびアーキテクチャ４００によって用いられる生成モデルによって、オブジェクトの仮想的な試着を体験可能である。示された例では、ユーザ７００は、特定の眼鏡を装着しているユーザ７００のビデオ／画像取込み中に移動可能な状態で、異なる眼鏡７０２、７０４および７０６をそれぞれ試着している。

眼鏡の学習された潜在空間（システム２００および／またはアーキテクチャ４００によって行われる）によって、ユーザは、入力された潜在コードを修正することによって、眼鏡の外観および形状を修正できる。ビデオ画像スナップショット７０８、７１０および７１２の例は、システム２００が、ユーザが眼鏡を装着してない近距離でユーザ７００のビデオを処理する結果を示す。ユーザ７００の頭のポーズが、たとえば、テレプレゼンスデバイス１０６の追跡システムによって追跡される。テクスチャプロキシを、（たとえば、図５Ａに示すような）参照装置のヘッドフレームに配設可能である。システム２００は次に、ニューラルプロキシのレンダリングを行って、カラー画像および眼鏡の層を表すアルファマスクの生成が可能であり、その後、そのような層をフレーム上に合成してもよい。

つまり、本明細書で説明するシステムおよび技術は、オブジェクトの形状および外観を共同でモデリングするためのコンパクトな表現を提供する。システムは、粗いプロキシジオメトリおよび生成潜在テクスチャを用いる。システムは、オブジェクトの集合を共同でモデリングすることによって、３枚という少ない入力画像を用いて高品質の見えないインスタンスを再構成するために、見えるインスタンス間で潜在補間を行ってもよいと示す。システムは、公知の３Ｄプロキシジオメトリおよびポーズを想定してもよい。

図８は、本開示を通して説明する実現例に係る、３Ｄプロキシジオメトリモデルに基づいて合成画像を生成するためのプロセス８００の一例を示すフローチャートである。つまり、プロセス８００は、生成モデルを有する３Ｄプロキシジオメトリを用いて３Ｄオブジェクト画像の正確な表現を生成する例を提供してもよい。プロセス８００は、少なくとも１つの処理デバイスと、実行されると処理デバイスに、請求項に記載する複数の動作およびコンピュータ実現可能なステップを行わせる命令を格納したメモリとを用いてもよい。一般に、システム１００、２００、および／またはアーキテクチャ４００は、プロセス８００の説明で用いられてもよい。システム１００、２００、およびアーキテクチャ４００の各々は、いくつかの実現例では、１つのシステムを表してもよい。

ブロック８０２において、プロセス８００は、画像コンテンツ内のオブジェクトと関連付けられたポーズを受信することを含む。いくつかの実現例では、このポーズは、オブジェクトおよび／またはポーズの画像コンテンツからの検出に基づいて、検索および／または受信されてもよい。たとえば、プロセス８００は、オブジェクトと関連付けられた１つ以上の視覚キューを検出してもよい。視覚キューは、特定のオブジェクト検出をトリガし得る。たとえば、視覚キューは、システム２００が格納されたカテゴリ２３４および／またはオブジェクト２３６との一致を判断する、カメラによって取込まれた透明特性、反射特性、複雑なジオメトリ、および／または他の構造的な特性を含み得るが、これらに限定されない。いくつかの実現例では、ポーズはたとえば、カメラによって取込まれている個人によって眼鏡が装着されると、評価されてもよい。ポーズは、ユーザの顔がどこにあるかについての知識を提供可能であり、そのため、眼鏡の検出は、顔のある場所と相互に関連している。いくつかの実現例では、プロセス８００は、タスクが再レンダリングされたバリエーションのオブジェクトを有するシーンに既にあるオブジェクトを取替えることである推論時間に、オブジェクトを検出してもよい。

たとえば、オブジェクトは眼鏡１０４’’でもよい（図１）。眼鏡１０４’’は、たとえば、ユーザ１０４がユーザ１０２とテレビ会議している場合、システム１０８と関連付けられたカメラによって取込まれてもよい。ここでは、眼鏡１０４’’の従来の取込みは反射面および／または透明な面に基づいて正確に現れない場合もあるため、カメラは眼鏡１０４’’を検出してもよく、システム２００を用いて眼鏡１０４’’のリアルなビューを生成してもよい。すなわち、画像および／またはビデオに取込まれたオブジェクトは透明材料および／または反射材料で構成されるオブジェクト材料の少なくとも一部を含んでもよいため、プロセス８００は、システム２００および／またはアーキテクチャ４００を用いて、オブジェクト（眼鏡１０４’’）の任意の表現を修正して、たとえば、確実にオブジェクトを正確にレンダリングしてユーザ１０２に表示してもよい。

この例では、画像コンテンツは、少なくともユーザ（たとえば、画像１０４’内のユーザ）を含むテレプレゼンス画像データ（たとえば、１１０に示すような）を含んでもよく、オブジェクトは、眼鏡１０４’’を含む。しかしながら、他の例は、たとえば、反射面、透明な面、および／またはビデオにおいて再レンダリングが困難な面を有する他のオブジェクトを有する画像コンテンツを含み得る。いくつかの実現例では、オブジェクトは、反射特性を有する車の一部を含む。車の一部は、たとえば、３Ｄディスプレイ内で車の一部のビューを再レンダリングする場合に、反射してもよく、正確に現れなくてもよい。いくつかの実現例では、オブジェクトは、画像に取込まれた任意のオブジェクトの一部を含む。したがって、プロセス８００は、生成モデル、カテゴリレベルオブジェクトモデリング技術、および／または本明細書で説明する他の技術を用いて、エラーを修正し、コンテンツの一部をレンダリングしてもよい。

ブロック８０４において、プロセス８００は、オブジェクトの複数の３次元（３Ｄ）プロキシジオメトリ２３８を生成することを含む。たとえば、３Ｄコンテンツモデラー２３０は、標準プロキシジオメトリ（４２６、４２８および４３０）、深度マップ（たとえば、４２０、４２２、４２４）、ならびにサンプルバージョンのプロキシ（たとえば、４１４、４１６および４１８）を表し得る眼鏡１０４’’の３Ｄプロキシジオメトリ４１４～４３０を生成してもよい。サンプルプロキシ４１４、４１６および４１８は、眼鏡１０４’’の特定の特徴のジオメトリおよびテクスチャサンプリングのアトラス（たとえば、特徴マップ２４０）を表してもよい。いくつかの実現例では、複数の３Ｄプロキシジオメトリの各々は、オブジェクト（たとえば、眼鏡１０４’’）の少なくとも一部の粗い幾何学的近似値と、平面３０２、３０４および３０６と表してもよい粗い幾何学的近似値（たとえば、幾何学的近似値２４６）にマッピングされたオブジェクト（たとえば、眼鏡１０４’’）の潜在テクスチャ２３９とを含む。

いくつかの実現例では、複数の３Ｄテクスチャプロキシは、画像コンテンツ内のオブジェクトと関連付けられた表面光フィールドを符号化する。表面光フィールドはたとえば、オブジェクトと関連付けられた正反射、または特定のプロキシ面から離れた他のジオメトリ反射を含んでもよい（たとえば、レンズ反射、屈折など）。

ブロック８０６において、プロセス８００は、複数の３Ｄプロキシジオメトリ２３８に基づいて、オブジェクト（たとえば、眼鏡１０４’’）の複数のニューラルテクスチャ２４４を生成することを含む。ここで、ニューラルテクスチャ２４４は、オブジェクトを表す複数の異なる形状および外観を規定する。ニューラルテクスチャ２４４は、画像取込みプロセスの一部として訓練された、学習された特徴マップ２４０の少なくとも一部を表す。たとえば、眼鏡オブジェクト１０４’’がカメラによって取込まれると、ニューラルテクスチャ２４４が、このオブジェクトのための特徴マップ２４０および３Ｄプロキシジオメトリを用いて生成されてもよい。動作中、システム２００は、特定のオブジェクト（シーン）のための３Ｄプロキシジオメトリ２３８の上のマップとして、このオブジェクトのためのニューラルテクスチャ２４４の生成および格納を行ってもよい。

ブロック８０８において、プロセス８００は、積層形態で提供される複数のニューラルテクスチャ２４４を、ニューラルレンダラー２５０に提供することを含む。たとえば、システム２００は、ニューラルレンダラー２５０（たとえば、Ｕ－Ｎｅｔ）への入力として、シェーディングバッファ（図示せず）のコンテンツを用いてもよい。

動作中、ニューラルレンダラー２５０は、複数のニューラルテクスチャの入力を用いて、たとえば、ニューラルネットワークを用いてレンダリングを行うオブジェクトおよび／またはシーンの中間表現を生成してもよい。ニューラルテクスチャ２４４は、ニューラルレンダラー２５０と動作しているニューラルネットワーク２４２など、５層Ｕ－Ｎｅｔと共にテクスチャマップ（たとえば、特徴マップ２４０）について特徴を共同で学習するために用いられてもよい。ニューラルレンダラー２５０は、たとえば、真の外観（たとえば、グラウンドトゥルース）と、オブジェクト固有の重畳ネットワークを有する拡散再投影との間の差をモデリングすることによって、ビューに依存する効果を組込んでもよい。そのような効果は、シーンの知識に基づいて予測することが難しい場合があり、そのため、ＧＡＮベースの損失機能が、リアルな出力のレンダリングに用いられてもよい。

いくつかの実現例では、オブジェクト（たとえば、眼鏡１０４’’）は、ポーズ（たとえば、ポーズ４１２）と関連付けられる。たとえば、ポーズは、オリジナルのシーンの取込み角度でもよく、システム２００およびプロセス８００が生成しようとしている合成画像についての出力の所望角度でもよい。そのような例では、複数のニューラルテクスチャは、少なくとも部分的にポーズに基づく。いくつかの実現例では、ニューラルテクスチャは、オブジェクト（たとえば、眼鏡）のカテゴリを識別し、オブジェクトの識別されたカテゴリに基づいて特徴マップを生成することによって生成される（たとえば、ニューラルテクスチャ２４４は、積層画像４１４～４３０に変えられる）。特徴マップは、ニューラルネットワーク２４２（これは、ニューラルレンダラー／Ｕ－ネット２５０の一部でもよい）に提供されてもよい。ニューラルテクスチャ２４４は、ポーズ４１２と関連付けられたビューに基づく特徴マップ２４０を用いて生成されてもよい。いくつかの実現例では、ニューラルテクスチャは、識別されたカテゴリの各インスタンスと関連付けられた潜在コードと、ポーズと関連付けられたビューとに基づいて生成されてもよい。

いくつかの実現例では、ニューラルレンダラーは、生成モデルを用いて、識別されたカテゴリ内の見えないオブジェクトインスタンスを再構成し、再構成は、オブジェクト（たとえば、眼鏡１０４’’）の４つ未満の取込まれたビュー（たとえば、ニューラルテクスチャ４０６、４０８および４１０によって示される３つのビュー）に基づいてもよい。

ブロック８１０において、プロセス８００は、複数のニューラルテクスチャに基づいて、カラー画像２５２と、オブジェクト（眼鏡１０４’’）の少なくとも一部の不透明度を表すアルファマスク２５４とを、ニューラルレンダラーから受信することを含む。たとえば、ニューラルレンダラー２５０は、４つの出力チャネルを生成してもよい。すなわち、ニューラルレンダラー２５０は、３つの出力チャネル（つまり、赤色チャネル、緑色チャネル、および青色チャネル）を表す色空間カラーチャネル２５２を生成してもよい。いくつかの実現例では、カラー画像２５２は、特定の画像についてどの色のレンダリングを行うかを示す色空間マップを表してもよい。第４の出力チャネルはアルファマスク２５４でもよく、アルファマスク２５４は、２つの画素が互いに重ねられると各画素をオブジェクトに示される他の画素とどのように合成すべきかを特定する特定のオブジェクトについてのチャネルを表す。一例では、アルファマスク２５４は、眼鏡の不透明度を表してもよい。一般に、アルファマスク２５４は、オブジェクトの特定のジオメトリまたは面の半透明度を表してもよい。一般に、プロセス８００は、ポーズおよび視点を用いてニューラルテクスチャを最終的な画像座標にラスター化してもよく、たとえば、ニューラルレンダラーを用いて、これらのテクスチャ２５２／２５４を合成画像２５６の最終的な画像座標空間に処理してもよい。

ブロック８１２において、プロセス８００は、カラー画像２５２およびアルファマスク２５６に基づいて、合成画像２５６を生成することを含む。たとえば、プロセス８００は、潜在テクスチャ２３９を（たとえば、システム１０８のカメラによって取込まれた）対象視点にレンダリングしてもよい。対象視点は、オブジェクト（眼鏡１０４’’）と関連付けられたポーズ４１２に少なくとも部分的に基づいてもよい。いくつかの実現例では、３Ｄテクスチャプロキシジオメトリは、オブジェクトの少なくとも一部の粗い幾何学的近似値と、粗い幾何学的近似値にマッピングされたオブジェクトの潜在テクスチャとを含む。プロセス８００の例では眼鏡について説明されているが、そうではなく、任意の数のオブジェクトが代用され、プロセス８００の技術を用いてレンダリングされてもよい。

図９は、説明された技術と用い得るコンピュータデバイス９００およびモバイルコンピュータデバイス９５０の例を示す。コンピューティングデバイス９００は、プロセッサ９０２、メモリ９０４、記憶装置９０６、メモリ９０４および高速拡張ポート９１０に接続している高速インターフェイス９０８、ならびに、低速バス９１４および記憶装置９０６に接続している低速インターフェイス９１２を含み得る。コンポーネント９０２、９０４、９０６、９０８、９１０および９１２は、さまざまなバスを用いて相互接続され、共通のマザーボードに、または適宜他の態様で搭載可能である。プロセッサ９０２は、コンピュータデバイス９００内で実行するための命令を処理可能であり、これらの命令は、高速インターフェイス９０８に結合されたディスプレイ９１６などの、外部入出力デバイス上のＧＵＩのためのグラフィック情報を表示するために、メモリ９０４または記憶装置９０６に格納された命令を含む。いくつかの実施形態では、複数のメモリおよび複数の種類のメモリと共に、複数のプロセッサおよび／または複数のバスを適宜用いることができる。これに加えて、複数のコンピューティングデバイス９００は、必要な動作（たとえば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステム）の一部を提供する各デバイスと接続可能である。

メモリ９０４は、コンピューティングデバイス９００内に情報を格納する。ある実施形態では、メモリ９０４は、１つ以上の揮発性メモリである。他の実施形態では、メモリ９０４は、１つ以上の不揮発性メモリユニットである。メモリ９０４はまた、磁気または光学ディスクなどの他の形式コンピュータ読取可能媒体でもよい。

記憶装置９０６は、コンピューティングデバイス９００のために大容量記憶を提供可能である。ある実現例では、記憶装置９０６はコンピュータ読取可能媒体でもよい、またはコンピュータ読取可能媒体を含んでもよい。記憶装置９０６は、フロッピー（登録商標）ディスクデバイス、ハードディスクデバイス、光ディスクデバイス、またはテープデバイス、フラッシュメモリもしくは他の同様のソリッドステートメモリデバイス、または、ストレージエリアネットワークもしくは他の構成におけるデバイスを含むデバイスのアレイであってもよい。コンピュータプログラム製品を、情報担体において有形に具現化してもよい。また、コンピュータプログラム製品は、実行されると上述のような１つ以上の方法を実行する命令を含み得る。情報担体は、メモリ９０４、記憶装置９０６、またはプロセッサ９０２上のメモリなどのコンピュータ読取可能媒体またはマシン読取可能媒体である。

高速コントローラ９０８は、コンピューティングデバイス９００のための帯域幅集中型の動作を管理する一方で、低速コントローラ９１２は、より低帯域幅集中型の動作を管理する。このような機能の割当ては例示に過ぎない。ある実現例では、高速コントローラ９０８は、メモリ９０４、ディスプレイ９１６に（たとえば、グラフィックスプロセッサまたはアクセラレータを介して）結合されるとともに、さまざまな拡張カード（図示せず）を受付け得る高速拡張ポート９１０に結合される。低速コントローラ９１２は、記憶装置９０６および低速拡張ポート９１４に結合され得る。さまざまな通信ポート（たとえば、ＵＳＢ、ブルートゥース（登録商標）、イーサネット（登録商標）、無線イーサネット）を含み得る低速拡張ポートは、キーボード、ポインティングデバイス、スキャナなどの１つ以上の入出力デバイスに、または、スイッチもしくはルータなどのネットワーキングデバイスに、たとえばネットワークアダプタを介して結合されてもよい。

コンピューティングデバイス９００は、図に示すように多くの異なる形態で実現されてもよい。たとえば、標準サーバ９２０として、またはそのようなサーバのグループで複数回実現されてもよい。また、ラックサーバシステム９２４の一部として実現されてもよい。さらに、ラップトップコンピュータ９２２などのパーソナルコンピュータにおいて実現されてもよい。または、コンピューティングデバイス９００からのコンポーネントは、デバイス９５０など、モバイルデバイス（図示せず）における他のコンポーネントと組合わされてもよい。そのようなデバイスの各々は、コンピューティングデバイス９００、９５０のうちの１つ以上を含んでもよく、システム全体は、互いに通信する複数のコンピューティングデバイス９００、９５０で形成されてもよい。

コンピューティングデバイス９５０は、いくつかあるコンポーネントの中で特に、プロセッサ９５２と、メモリ９６４と、ディスプレイ９５４などの入出力デバイスと、通信インターフェイス９６６と、トランシーバ９６８とを含む。デバイス９５０には、さらに他のストレージを提供するために、マイクロドライブまたは他のデバイスなどの記憶装置が設けられてもよい。コンポーネント９５０、９５２、９６４、９５４、９６６および９６８の各々は、さまざまなバスを用いて相互接続されており、共通のマザーボード上にまたは他の態様で適宜搭載されてもよい。

プロセッサ９５２は、メモリ９６４に格納された命令を含む、コンピューティングデバイス９５０内の命令を実行可能である。プロセッサは、別々の複数のアナログおよびデジタルプロセッサを含むチップのチップセットとして実現されてもよい。プロセッサはたとえば、ユーザインターフェイスの制御、デバイス９５０によって実行されるアプリケーション、およびデバイス９５０による無線通信など、デバイス９５０の他のコンポーネントの協調を提供してもよい。

プロセッサ９５２は、ディスプレイ９５４に結合された制御インターフェイス９５８および表示インターフェイス９５６を介して、ユーザと通信してもよい。ディスプレイ９５４はたとえば、ＴＦＴＬＣＤ（薄膜トランジスタ液晶表示装置）またはＯＬＥＤ（有機発光ダイオード）ディスプレイ、または他の任意の表示技術でもよい。表示インターフェイス９５６は、ディスプレイ９５４を駆動してグラフィカルなおよび他の情報をユーザに提示するための任意の回路構成を含み得る。制御インターフェイス９５８は、ユーザからのコマンドを受信し、プロセッサ９５２に送信するために変換してもよい。くわえて、外部インターフェイス９６２は、デバイス９５０の他のデバイスとの近接領域通信を可能にするように、プロセッサ９５２と通信してもよい。外部インターフェイス９６２は、たとえば、有線通信または無線通信を提供してもよく、他の実施形態では、複数のインターフェイスが用いられてもよい。

メモリ９６４は、コンピューティングデバイス９５０内の情報を格納する。メモリ９６４は、１つ以上のコンピュータ読取可能媒体、１つ以上の揮発性メモリユニット、または１つ以上の不揮発性メモリユニットのうちの１つ以上として実現され得る。拡張メモリ９８４もデバイス９５０に提供され、たとえばＳＩＭＭ（シングル・インライン・メモリ・モジュール）カードインターフェイスを含み得る拡張インターフェイス９７２を介して接続されてもよい。そのような拡張メモリ９８４は、デバイス９５０のための追加の記憶空間を提供してもよい、または、デバイス９５０のためのアプリケーションまたは他の情報も格納してもよい。具体的には、拡張メモリ９８４は上述のプロセスを実行または補足するための命令を含んでもよく、セキュアな情報も含んでもよい。このため、拡張メモリ９８４はたとえば、デバイス９５０のためのセキュリティモジュールであってもよく、デバイス９５０のセキュアな使用を可能にする命令を用いてプログラムされてもよい。くわえて、識別情報をハッキング不可能な態様でＳＩＭＭカード上に載せるなどして、セキュアなアプリケーションが追加情報とともにＳＩＭＭカードを介して提供されてもよい。

メモリは、以下に説明するように、たとえばフラッシュメモリおよび／またはＮＶＲＡＭメモリを含んでもよい。ある実施形態では、コンピュータプログラム製品が情報担体において有形に具体化される。コンピュータプログラム製品は、実行されると上述のような１つ以上の方法を行う命令を含む。情報担体は、たとえばトランシーバ９６８または外部インターフェイス９６２を介して受信され得る、メモリ９６４、拡張メモリ９８４、またはプロセッサ９５２上のメモリといった、コンピュータまたはマシン読取可能媒体である。

デバイス９５０は、必要に応じてデジタル信号処理回路を含み得る通信インターフェイス９６６を介して無線通信してもよい。通信インターフェイス９６６は、とりわけ、ＧＳＭ（登録商標）音声通話、ＳＭＳ、ＥＭＳまたはＭＭＳメッセージング、ＣＤＭＡ、ＴＤＭＡ、ＰＤＣ、ＷＣＤＭＡ（登録商標）、ＣＤＭＡ２０００、またはＧＰＲＳといった、さまざまなモードまたはプロトコル下で通信を提供してもよい。そのような通信は、たとえば無線周波数トランシーバ９６８を介して発生してもよい。くわえて、ブルートゥース、Ｗｉ－Ｆｉ、または他のそのようなトランシーバ（図示せず）を使用するなどして、短距離通信が発生してもよい。くわえて、ＧＰＳ（全地球測位システム）レシーバモジュール９８０が、ナビゲーションおよび位置に関連する追加の無線データをデバイス９５０に提供してもよく、当該データは、デバイス９５０上で実行されるアプリケーションによって適宜使用されてもよい。

デバイス９５０はまた、ユーザから口頭情報を受信してそれを使用可能なデジタル情報に変換し得る音声コーデック９６０を用いて、可聴的に通信してもよい。音声コーデック９６０も同様に、たとえばデバイス９５０のハンドセットにおいて、スピーカなどを介してユーザのために可聴音を生成してもよい。そのような音は、音声電話からの音を含んでもよい、録音された音（たとえば、音声メッセージ、音楽ファイルなど）を含んでもよい、または、デバイス９５０上で動作するアプリケーションによって生成された音を含んでもよい。

コンピューティングデバイス９５０は、図に示すように多くの異なる形態で実現されてもよい。たとえば、携帯電話９８０として実現されてもよい。また、スマートフォン９８２、携帯情報端末、または他の同様のモバイルデバイスの一部として実現されてもよい。

ここで説明するシステムおよび技術のさまざまな実現例は、デジタル電子回路、集積回路、特別に設計されたＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはこれらの組合せで実現され得る。これらのさまざまな実現例は、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上で実行可能および／または解釈可能である１つ以上のコンピュータプログラムにおける実現例を含んでもよく、当該プロセッサは専用であっても汎用であってもよく、ストレージシステム、少なくとも１つの入力デバイス、および少なくとも１つの出力デバイスとの間でデータおよび命令を送受信するように結合されてもよい。

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとしても知られる）はプログラマブルプロセッサのためのマシン命令を含んでおり、高レベルの手続き型および／またはオブジェクト指向型プログラミング言語で、および／またはアセンブリ／マシン言語で実現され得る。本明細書で使用される「マシン読取可能媒体」、「コンピュータ読取可能媒体」という用語は、マシン命令および／またはデータをプログラマブルプロセッサに提供するために使用される任意のコンピュータプログラム製品、装置、および／またはデバイス（たとえば、磁気ディスク、光学ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を指しており、マシン命令をマシン読取可能信号として受信するマシン読取可能媒体を含む。「マシン読取可能信号」という用語は、マシン命令および／またはデータをプログラマブルプロセッサに提供するために使用される任意の信号を指す。

ユーザとの対話を提供するために、ここで説明するシステムおよび技術は、情報をユーザに表示するための表示デバイス（たとえば、ＣＲＴ（ブラウン管）またはＬＣＤ（液晶ディスプレイ）モニタ）と、ユーザがコンピュータに入力を提供するために使用し得るキーボードおよびポインティングデバイス（たとえば、マウスまたはトラックボール）とを有するコンピュータ上で実現され得る。他の種類のデバイスも、同様にユーザとの対話を提供するために使用され得る。たとえば、ユーザに提供されるフィードバックは、任意の形態の知覚フィードバック（たとえば視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であってもよく、ユーザからの入力は、音響入力、音声入力、または触覚入力を含む任意の形態で受信されてもよい。

ここで説明するシステムおよび技術は、バックエンドコンポーネント（たとえば、データサーバ）を含む、もしくは、ミドルウェアコンポーネント（たとえば、アプリケーションサーバ）を含む、もしくは、フロントエンドコンポーネント（たとえば、ここで説明するシステムおよび技術の実施形態とユーザが対話できるようにするグラフィカルユーザインターフェイスまたはウェブブラウザを有するクライアントコンピュータ）を含む、もしくは、そのようなバックエンドコンポーネント、ミドルウェアコンポーネント、またはフロントエンドコンポーネントの任意の組合せを含む、コンピューティングシステムで実現され得る。システムのコンポーネントは、デジタルデータ通信の任意の形態または媒体（たとえば、通信ネットワーク）によって相互接続され得る。通信ネットワークの例は、ローカルエリアネットワーク（「ＬＡＮ」）、ワイドエリアネットワーク（「ＷＡＮ」）、およびインターネットを含む。

コンピューティングシステムは、クライアントとサーバとを含み得る。クライアントとサーバとは一般に互いから離れており、典型的には通信ネットワークを介して対話する。クライアントとサーバとの関係は、コンピュータプログラムがそれぞれのコンピュータ上で実行され、かつ、互いにクライアント－サーバ関係を有することによって生じる。

いくつかの実施形態では、図９に示すコンピューティングデバイスは、仮想現実ヘッドセット（ＶＲヘッドセット／ＨＭＤデバイス９９０）とインターフェイス接続するセンサを含み得る。たとえば、図９に示すコンピューティングデバイス９５０または他のコンピューティングデバイスに含まれる１つ以上のセンサが、ＶＲヘッドセット９９０に入力を提供可能である、または概して、ＶＲ空間に入力を提供可能である。センサは、タッチスクリーン、加速度計、ジャイロスコープ、圧力センサ、バイオメトリックセンサ、温度センサ、湿度センサ、および周囲光センサを含み得るものの、これらに限定されない。コンピューティングデバイス９５０はこれらのセンサを用いて、ＶＲ空間におけるコンピューティングデバイスの絶対位置および／または検出された回転を判断することができ、それは次にＶＲ空間への入力として使用され得る。たとえば、コンピューティングデバイス９５０は、コントローラ、レーザポインタ、キーボード、武器などといった仮想オブジェクトとして、ＶＲ空間に組込まれてもよい。ＶＲ空間に組込まれた際のユーザによるコンピューティングデバイス／仮想オブジェクトの位置決めによって、ユーザは、ＶＲ空間において仮想オブジェクトを特定の態様で見るようにコンピューティングデバイスを位置決めすることができる。

いくつかの実施形態では、コンピューティングデバイス９５０に含まれるか、またはそれに接続される１つ以上の入力デバイスが、ＶＲ空間への入力として使用され得る。入力デバイスは、タッチスクリーン、キーボード、１つ以上のボタン、トラックパッド、タッチパッド、ポインティングデバイス、マウス、トラックボール、ジョイスティック、カメラ、マイク、入力機能性を有するイヤホンまたはイヤバッド、ゲーミングコントローラ、または他の接続可能な入力デバイスを含み得るものの、これらに限定されない。コンピューティングデバイスがＶＲ空間に組込まれる際にコンピューティングデバイス９５０に含まれる入力デバイスと対話するユーザは、特定のアクションがＶＲ空間で生じるようにすることができる。

いくつかの実施形態では、コンピューティングデバイス９５０に含まれる１つ以上の出力デバイスは、ＶＲ空間においてＶＲヘッドセット９９０のユーザに出力および／またはフィードバックを提供することができる。出力およびフィードバックは、視覚的、触覚的、または音声的であり得る。出力および／またはフィードバックは、振動、１つ以上のライトもしくはストロボを明滅および／または点滅させること、警報を鳴らすこと、チャイムを鳴らすこと、曲をかけること、ならびに音声ファイルを再生することを含み得るものの、これらに限定されない。出力デバイスは、振動モータ、振動コイル、圧電装置、静電装置、発光ダイオード（ＬＥＤ）、ストロボ、およびスピーカを含み得るものの、これらに限定されない。

いくつかの実施形態では、コンピューティングデバイス９５０は、ＶＲシステムを生成するためにＶＲヘッドセット９９０内に設けられてもよい。ＶＲヘッドセット９９０は、ＶＲヘッドセット９９０内の任意の位置にあるスマートフォン９８２など、コンピューティングデバイス９５０を設けることを可能にする１つ以上の位置決め要素を含み得る。そのような実施形態では、スマートフォン９８２の表示は、ＶＲ空間または仮想環境を表す立体画像のレンダリングが可能である。

いくつかの実施形態では、コンピューティングデバイス９５０は、コンピュータにより生成される３Ｄ環境において別のオブジェクトとして現れてもよい。ユーザによるコンピューティングデバイス９５０との対話（たとえば、タッチスクリーンを回転させること、振動させること、タッチスクリーンに触れること、タッチスクリーンを横切って指でスワイプすること）は、ＶＲ空間におけるオブジェクトとの対話として解釈され得る。単に一例として、コンピューティングデバイスはレーザポインタでもよい。そのような例では、コンピューティングデバイス９５０は、コンピュータにより生成される３Ｄ環境において仮想レーザポインタとして現れる。ユーザがコンピューティングデバイス９５０を操作すると、ＶＲ空間におけるユーザはレーザポインタの動きを見る。ユーザは、コンピューティングデバイス９５０またはＶＲヘッドセット９９０上のＶＲ環境においてコンピューティングデバイス９５０との対話からのフィードバックを受信する。

いくつかの実施形態では、コンピューティングデバイス９５０はタッチスクリーンを含んでもよい。たとえば、ユーザは、タッチスクリーン上で起こることをＶＲ空間において起こることで模倣することができる特定の態様で、タッチスクリーンと対話することができる。たとえば、ユーザは、タッチスクリーン上に表示されるコンテンツをズームするためにピンチする動きを使用してもよい。タッチスクリーン上でのこのピンチする動きにより、ＶＲ空間において提供される情報のズームが可能である。別の例では、コンピューティングデバイスは、コンピュータにより生成される３Ｄ環境において仮想の本としてレンダリングされてもよい。ＶＲ空間では、本のページはＶＲ空間で表示可能であり、タッチスクリーンを横切るユーザの指のスワイプは仮想の本のページをめくるおよび／またはフリップすることとして解釈され得る。各ページがめくられるおよび／またはフリップされると、ページコンテンツの変化が見えることに加えて、ユーザには、本のページをめくる音といった音声フィードバックが提供されてもよい。

いくつかの実施形態では、コンピューティングデバイスに加えて、１つ以上の入力デバイス（たとえばマウス、キーボード）が、コンピュータにより生成される３Ｄ環境においてレンダリング可能である。レンダリングされた入力デバイス（たとえばレンダリングされたマウス、レンダリングされたキーボード）は、ＶＲ空間においてオブジェクトを制御するためにＶＲ空間においてレンダリングされるように使用可能である。

コンピューティングデバイス９００は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータを含むもののこれらに限定されない、さまざまな形態のデジタルコンピュータを表わすように意図されている。コンピューティングデバイス９５０は、携帯情報端末、携帯電話、スマートフォン、および他の同様のコンピューティングデバイスといった、さまざまな形態のモバイルデバイスを表わすと意図されている。ここに示すコンポーネント、これらの接続および関係、ならびにこれらの機能は単なる例示として意図されており、開示された実施形態を限定するように意図されてはいない。

さらに、図面に示されるロジックフローは、望ましい結果を得るために、図示される特定の順番または順序を必要としない。さらに、他のステップを設けてもよく、または、上述のフローからステップを削除してもよく、説明したシステムに対して他のコンポーネントを追加または削除してもよい。したがって、他の実施形態は以下の請求項の範囲内である。

Claims

少なくとも１つの処理デバイスを用いて動作を行う、コンピュータによって実現される方法であって、前記動作は、
画像コンテンツ内のオブジェクトと関連付けられたポーズを受信することと、
前記オブジェクトの複数の３次元（３Ｄ）プロキシジオメトリを生成することとを含み、前記複数の３Ｄプロキシジオメトリは、前記オブジェクトの形状に基づき、さらに、
前記複数の３Ｄプロキシジオメトリに基づいて、前記オブジェクトの複数のニューラルテクスチャを生成することを含み、前記複数のニューラルテクスチャは、前記オブジェクトを表す複数の異なる形状および外観を規定し、さらに、
積層形態で提供される前記複数のニューラルテクスチャを、ニューラルレンダラーに提供することと、
前記複数のニューラルテクスチャに基づいて、カラー画像と、前記オブジェクトの少なくとも一部の不透明度を表すアルファマスクとを、前記ニューラルレンダラーから受信することと、
前記カラー画像、および前記アルファマスクに基づいて、合成画像を生成することとを含み、
前記複数のニューラルテクスチャは、前記画像コンテンツにおいて取込まれた前記オブジェクトの隠れた部分を再構成するように構成される、方法。
前記オブジェクトと関連付けられた前記ポーズに少なくとも部分的に基づいて、対象視点に対して潜在テクスチャをレンダリングすることをさらに含み、前記複数の３Ｄプロキシジオメトリの各々は、前記オブジェクトの少なくとも一部の粗い幾何学的近似値と、前記粗い幾何学的近似値にマッピングされた前記オブジェクトの前記潜在テクスチャとを含む、請求項１に記載の方法。
前記隠れた部分は、前記ニューラルレンダラーが、前記オブジェクトの透明層と、前記オブジェクトの前記透明層の背後の面とを生成することを可能にする前記ニューラルテクスチャの前記積層形態に基づいて再構成される、請求項１または請求項２に記載の方法。
前記複数の３Ｄプロキシジオメトリの各々は、前記画像コンテンツ内の前記オブジェクトと関連付けられた表面光フィールドを符号化し、前記表面光フィールドは、前記オブジェクトと関連付けられた正反射を含む、請求項１～請求項３のいずれか１項に記載の方法。
少なくとも１つの処理デバイスを用いて動作を行う、コンピュータによって実現される方法であって、前記動作は、
画像コンテンツ内のオブジェクトと関連付けられたポーズを受信することと、
前記オブジェクトの複数の３次元（３Ｄ）プロキシジオメトリを生成することとを含み、前記複数の３Ｄプロキシジオメトリは、前記オブジェクトの形状に基づき、さらに、
前記複数の３Ｄプロキシジオメトリに基づいて、前記オブジェクトの複数のニューラルテクスチャを生成することを含み、前記複数のニューラルテクスチャは、前記オブジェクトを表す複数の異なる形状および外観を規定し、さらに、
積層形態で提供される前記複数のニューラルテクスチャを、ニューラルレンダラーに提供することと、
前記複数のニューラルテクスチャに基づいて、カラー画像と、前記オブジェクトの少なくとも一部の不透明度を表すアルファマスクとを、前記ニューラルレンダラーから受信することと、
前記カラー画像、および前記アルファマスクに基づいて、合成画像を生成することとを含み、
前記複数のニューラルテクスチャは、少なくとも部分的に前記ポーズに基づき、前記ニューラルテクスチャは、
前記オブジェクトのカテゴリを識別することと、
前記オブジェクトの識別された前記カテゴリに基づいて、特徴マップを生成することと、
前記特徴マップをニューラルネットワークに提供することと、
識別された前記カテゴリの各インスタンスと関連付けられた潜在コードと、
前記ポーズと関連付けられたビューとに基づいて、前記ニューラルテクスチャを生成することとによって生成される、方法。
前記オブジェクトの少なくとも一部は透明材料である、請求項１～請求項５のいずれか１項に記載の方法。
前記オブジェクトの少なくとも一部は反射材料である、請求項１～請求項５のいずれか１項に記載の方法。
前記画像コンテンツは、少なくともユーザを含むテレプレゼンス画像データを含み、
前記オブジェクトは眼鏡を含む、請求項１～請求項７のいずれか１項に記載の方法。
システムであって、
少なくとも１つの処理デバイスと、
実行されると前記システムに動作を行わせる命令を格納したメモリとを備え、前記動作は、
画像コンテンツ内のオブジェクトと関連付けられたポーズを受信することと、
前記オブジェクトの複数の３次元（３Ｄ）プロキシジオメトリを生成することとを含み、前記複数の３Ｄプロキシジオメトリは、前記オブジェクトの形状に基づき、さらに、
前記複数の３Ｄプロキシジオメトリに基づいて、前記オブジェクトの複数のニューラルテクスチャを生成することを含み、前記複数のニューラルテクスチャは、前記オブジェクトを表す複数の異なる形状および外観を規定し、さらに、
積層形態で提供される前記複数のニューラルテクスチャを、ニューラルレンダラーに提供することと、
前記複数のニューラルテクスチャに基づいて、カラー画像と、
前記オブジェクトの少なくとも一部の不透明度を表すアルファマスクとを、前記ニューラルレンダラーから受信することと、
前記カラー画像と前記アルファマスクとに基づいて、合成画像を生成することとを含み、
前記複数のニューラルテクスチャは、前記画像コンテンツにおいて取込まれた前記オブジェクトの隠れた部分を再構成するように構成される、システム。
前記オブジェクトと関連付けられた前記ポーズに少なくとも部分的に基づいて、対象視点に対して潜在テクスチャをレンダリングすることをさらに含み、前記複数の３Ｄプロキシジオメトリの各々は、前記オブジェクトの少なくとも一部の粗い幾何学的近似値と、
前記粗い幾何学的近似値にマッピングされた前記オブジェクトの前記潜在テクスチャとを含む、請求項９に記載のシステム。
前記複数の３Ｄプロキシジオメトリの各々は、前記画像コンテンツ内の前記オブジェクトと関連付けられた表面光フィールドを符号化し、前記表面光フィールドは、前記オブジェクトと関連付けられた正反射を含む、請求項９または請求項１０に記載のシステム。
システムであって、
少なくとも１つの処理デバイスと、
実行されると前記システムに動作を行わせる命令を格納したメモリとを備え、前記動作は、
画像コンテンツ内のオブジェクトと関連付けられたポーズを受信することと、
前記オブジェクトの複数の３次元（３Ｄ）プロキシジオメトリを生成することとを含み、前記複数の３Ｄプロキシジオメトリは、前記オブジェクトの形状に基づき、さらに、
前記複数の３Ｄプロキシジオメトリに基づいて、前記オブジェクトの複数のニューラルテクスチャを生成することを含み、前記複数のニューラルテクスチャは、前記オブジェクトを表す複数の異なる形状および外観を規定し、さらに、
積層形態で提供される前記複数のニューラルテクスチャを、ニューラルレンダラーに提供することと、
前記複数のニューラルテクスチャに基づいて、カラー画像と、
前記オブジェクトの少なくとも一部の不透明度を表すアルファマスクとを、前記ニューラルレンダラーから受信することと、
前記カラー画像と前記アルファマスクとに基づいて、合成画像を生成することとを含み、
前記複数のニューラルテクスチャは、少なくとも部分的に前記ポーズに基づき、前記ニューラルテクスチャは、
前記オブジェクトのカテゴリを識別することと、
前記オブジェクトの識別された前記カテゴリに基づいて、特徴マップを生成することと、
前記特徴マップをニューラルネットワークに提供することと、
識別された前記カテゴリの各インスタンスと関連付けられた潜在コードと、
前記ポーズと関連付けられたビューとに基づいて、前記ニューラルテクスチャを生成することとによって生成される、システム。
前記ニューラルレンダラーは、生成モデルを使用して、識別された前記カテゴリ内の見えないオブジェクトインスタンスを再構成し、前記再構成は、前記オブジェクトの４つ未満の取込まれたビューに基づく、請求項１２に記載のシステム。
前記複数の３Ｄプロキシジオメトリは、前記画像コンテンツ内の前記オブジェクトを構成する形状の幾何学的補間に基づく、請求項９～請求項１３のいずれか１項に記載のシステム。
命令を含むプログラムであって、前記命令は、プロセッサによって実行されると、
コンピューティングデバイスに、
画像コンテンツ内のオブジェクトと関連付けられたポーズを受信することと、
前記オブジェクトの複数の３次元（３Ｄ）プロキシジオメトリを生成することとを行わせ、前記複数の３Ｄプロキシジオメトリは、前記オブジェクトの形状に基づき、さらに、
前記複数の３Ｄプロキシジオメトリに基づいて、前記オブジェクトの複数のニューラルテクスチャを生成することを行わせ、前記複数のニューラルテクスチャは、前記オブジェクトを表す複数の異なる形状および外観を規定し、さらに、
積層形態で提供される前記複数のニューラルテクスチャを、ニューラルレンダラーに提供することと、
前記複数のニューラルテクスチャに基づいて、カラー画像と、前記オブジェクトの少なくとも一部の不透明度を表すアルファマスクとを、前記ニューラルレンダラーから受信することと、
前記カラー画像と前記アルファマスクとに基づいて、合成画像を生成することとを行わせ、
前記複数のニューラルテクスチャは、前記画像コンテンツにおいて取込まれた前記オブジェクトの隠れた部分を再構成するように構成される、プログラム。
前記オブジェクトと関連付けられた前記ポーズに少なくとも部分的に基づいて、対象視点に対して潜在テクスチャをレンダリングすることをさらに含み、前記複数の３Ｄプロキシジオメトリの各々は、前記オブジェクトの少なくとも一部の粗い幾何学的近似値と、前記粗い幾何学的近似値にマッピングされた前記オブジェクトの前記潜在テクスチャとを含む、請求項１５に記載のプログラム。
前記隠れた部分は、前記ニューラルレンダラーが、前記オブジェクトの透明層と、前記オブジェクトの前記透明層の背後の面とを生成することを可能にする前記ニューラルテクスチャの前記積層形態に基づいて再構成される、請求項１５または請求項１６に記載のプログラム。
命令を含むプログラムであって、前記命令は、プロセッサによって実行されると、
コンピューティングデバイスに、
画像コンテンツ内のオブジェクトと関連付けられたポーズを受信することと、
前記オブジェクトの複数の３次元（３Ｄ）プロキシジオメトリを生成することとを行わせ、前記複数の３Ｄプロキシジオメトリは、前記オブジェクトの形状に基づき、さらに、
前記複数の３Ｄプロキシジオメトリに基づいて、前記オブジェクトの複数のニューラルテクスチャを生成することを行わせ、前記複数のニューラルテクスチャは、前記オブジェクトを表す複数の異なる形状および外観を規定し、さらに、
積層形態で提供される前記複数のニューラルテクスチャを、ニューラルレンダラーに提供することと、
前記複数のニューラルテクスチャに基づいて、カラー画像と、前記オブジェクトの少なくとも一部の不透明度を表すアルファマスクとを、前記ニューラルレンダラーから受信することと、
前記カラー画像と前記アルファマスクとに基づいて、合成画像を生成することとを行わせ、
前記複数のニューラルテクスチャは、少なくとも部分的に前記ポーズに基づき、前記ニューラルテクスチャは、
前記オブジェクトのカテゴリを識別することと、
前記オブジェクトの識別された前記カテゴリに基づいて、特徴マップを生成することと、
前記特徴マップをニューラルネットワークに提供することと、
識別された前記カテゴリの各インスタンスと関連付けられた潜在コードと、
前記ポーズと関連付けられたビューとに基づいて、前記ニューラルテクスチャを生成することとによって生成される、プログラム。
前記オブジェクトの少なくとも一部は透明材料である、請求項１５～請求項１８のいずれか１項に記載のプログラム。
前記オブジェクトの少なくとも一部は反射材料である、請求項１５～請求項１８のいずれか１項に記載のプログラム。
前記画像コンテンツは、少なくともユーザを含むテレプレゼンス画像データを含み、
前記オブジェクトは眼鏡を含む、請求項１５～請求項２０のいずれか１項に記載のプログラム。
前記合成画像は、生成潜在最適化（ＧＬＯ）フレームワークおよび知覚再構成損失を用いて生成される、請求項１５～請求項２１のいずれか１項に記載のプログラム。