JP7386888B2

JP7386888B2 - 画面上の話者のフューショット合成

Info

Publication number: JP7386888B2
Application number: JP2021558681A
Authority: JP
Inventors: マーティン・ブルアラ，リカルド; メシャリー，ムスタファ; ゴールドマン，ダニエル; パーンデー，ロイット・クマール; ブアジズ，ソフィアン; リー，コー
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2020-10-08
Filing date: 2020-10-28
Publication date: 2023-11-27
Anticipated expiration: 2040-10-28
Also published as: KR20220047719A; CN114631127A; JP2023513980A; WO2022076020A1; US20220130111A1; EP4007992A1

Description

関連出願への相互参照
本出願は、２０２０年１０月８日に出願された、「画面上の話者のフューショット合成（FEW-SHOT SYNTHESIS OF TALKING HEADS」という名称を有する米国仮出願番号第６３／１９８，２８７号の利益を主張しており、その開示は、その全文が参照により本明細書において援用される。

技術分野
本記載は一般に、提示のためのコンテンツを合成する際に使用される方法、デバイス、およびアルゴリズムに関する。

背景
ディープインバースレンダリング（deep inverse rendering）は一般に、空間的に変動する外観を有する潜在埋込空間における外観パラメータの最適化を含む。ディープインバースレンダリングは、対象の外観をモデリングするためのニューラルネットワークの使用を含み得る。このようなニューラルネットワークを用いて、潜在埋込空間が学習され得る。潜在空間は、低次元対象表現が得られる空間を表し得る。このような空間を埋め込むことは、低次元データがオリジナルのより高次元の画像空間にマッピングされる態様を表す。

概要
１つ以上のコンピュータのシステムは、動作において、システムにアクションを行わせるソフトウェア、ファームウェア、ハードウェア、または、それらの組み合わせがシステムにインストールされていることによって、特定の動作またはアクションを実行するように構成され得る。１つ以上のコンピュータプログラムは、データ処理装置によって実行されると、当該装置にアクションを実行させる命令を含むことによって、特定の動作またはアクションを実行するように構成され得る。

１つの一般的な局面では、動作を実行するよう、少なくとも１つの処理デバイスを有する画像処理システムを利用するためのシステムおよび方法が記載される。当該動作は、ユーザの複数の入力画像を受信することと、複数の入力画像から抽出された特徴の第１のセットと、複数の入力画像から抽出された特徴の第２のセットとに基づいて、３次元メッシュプロキシを生成することとを含む。３次元メッシュプロキシは、顔メッシュプロキシおよび平面プロキシを含んでもよい。上記方法はさらに、３次元メッシュプロキシおよび複数の入力画像に基づいて、ニューラルテクスチャを生成することを含んでもよい。随意に、上記方法は、３次元メッシュプロキシおよびニューラルテクスチャに少なくとも部分的に基づいて、ユーザの表現を生成することを含む。上記方法はさらに、３次元メッシュプロキシから、ニューラルテクスチャの少なくとも１つの部分をサンプリングすることを含んでもよい。上記方法は、サンプリングされた少なくとも１つの部分をニューラルレンダラ（neural renderer）に提供することに応答して、画像処理システムによって以前にキャプチャされなかった（見られていない）ユーザの合成画像をニューラルレンダラから受信することを含んでもよい。

これらおよび他の局面は、以下のうちの１つ以上を単独または組み合わせで含み得る。いくつかの局面によれば、本明細書において請求される方法、システム、およびコンピュータ読取可能媒体は、以下の特徴のうちの１つ以上（たとえばすべて）（またはそれらの任意の組み合わせ）を含んでもよい。

いくつかの実現例では、抽出された特徴の第１のセットは、ユーザの顔を表す特徴を含み、抽出された特徴の第２のセットは、ユーザの髪および胴体の部分を表す特徴を含む。いくつかの実現例では、ニューラルテクスチャは、複数の入力画像を使用して生成される学習済ニューラルテクスチャであり、複数の入力画像は、ユーザの４つ未満のキャプチャされた画像フレームを含む。

いくつかの実現例では、ニューラルテクスチャを生成することは、各入力画像について潜在表現を生成することと、各入力画像について生成された表現をベクトルに集約することと、テクスチャジェネレータネットワークにベクトルを提供することと、テクスチャジェネレータネットワークから、ユーザを表すニューラルテクスチャを受信することとを含む。いくつかの実現例では、ニューラルテクスチャを生成することは、入力画像に関連付けられる深度画像およびＵＶマップに基づいて、抽出された特徴の第１のセットおよび特徴の第２のセットを、ジオメトリを意識した特徴空間に投射することを含み、当該投射することは、複数の入力画像のマッチされた解像度を有する画像のセットを生成することを含む。ニューラルテクスチャを生成することはさらに、各入力画像についてテクスチャを生成するよう、画像のセットをＵＶ空間にワーピングすることと、各テクスチャについて、対応する入力画像における可視性メトリックを示すテクスチャ空間における各点についてのスコアマップを生成することと、各入力画像についてアテンションウエイトを生成するよう、各スコアマップにソフトマックス演算を適用することと、アテンションウエイトに従って決定される加重平均に従ってテクスチャを集約することとを含んでもよい。

いくつかの実現例では、ユーザの生成された表現は、ニューラルテクスチャにおいて表される各表面点ごとの外観を表し、上記方法は、ユーザの外観に関する高周波のディテールを表すよう、表面点ごとに外観記述子を格納することをさらに含む。いくつかの実現例では、合成画像は、ビデオ会議のための修正された視点によりユーザを示すように生成され、修正された視点は、ビデオ会議を提供するシステムに関連付けられるカメラデバイスを見つめるユーザのビューをシミュレートする。

記載される技術の実現例は、ハードウェア、方法もしくはプロセス、または、コンピュータがアクセス可能な媒体上のコンピュータソフトウェアを含んでもよい。１つ以上の実現例のディテールが、添付の図面および以下の説明において記載される。当該説明および図面ならびに請求の範囲から、他の特徴が明らかになるであろう。

本開示の全体にわたって記載される実現例に従った、ディスプレイデバイス上に合成コンテンツを表示するための例示的な３Ｄコンテンツシステムを示すブロック図である。本開示の全体にわたって記載される実現例に従った、ディスプレイ上でレンダリングするためのコンテンツを合成するための例示的なシステムのブロック図である。本開示の全体にわたって記載される実現例に従った、顔メッシュプロキシと平面プロキシとを組み合わせることによって生成される強化メッシュプロキシの例を示す図である。本開示の全体にわたって記載される実現例に従った、顔メッシュプロキシと平面プロキシとを組み合わせることによって生成される強化メッシュプロキシの例を示す図である。本開示の全体にわたって記載される実現例に従った、ディスプレイ上でレンダリングするための合成コンテンツを生成するための例示的なアーキテクチャのブロック図である。本開示の全体にわたって記載される実現例に従った、集約された潜在テクスチャ技術からニューラルテクスチャを生成するための例示的なアーキテクチャのブロック図である。本開示の全体にわたって記載される実現例に従った、インバースレンダリング技術を使用してニューラルテクスチャを生成するための例示的なアーキテクチャのブロック図である。本開示の全体にわたって記載される実現例に従った、３Ｄプロキシジオメトリモデルに基づいてニューラルテクスチャを使用して合成コンテンツを生成するプロセスの一例を図示するフローチャートである。本明細書において記載される技術とともに使用され得るコンピュータデバイスおよびモバイルコンピュータデバイスの例を示す図である。

さまざまな図面における同様の参照符号は、同様の要素を示す。
詳細な説明
一般に、本文書は、画像コンテンツの新規な（たとえば、見られていない）ビューをモデリングすることに関係する例を記載する。たとえば、本文書は、相対的に少ない入力画像を使用して画面上の話者（talking heads）（たとえば、ユーザの頭および／または胴体）の新規なビューをモデリングすることに関する例を含む。画面上の話者は一般に、頭、首および／または胴体の１つ以上の部分を有するビューを含み得る。本明細書において使用されるように、新規な（たとえば、見られていない）ビューは、カメラでキャプチャされた画像コンテンツおよび／またはビデオコンテンツの１つ以上のフレームに基づいて解釈（たとえば、合成、補間、モデリングなど）された画像コンテンツおよび／またはビデオコンテンツを含んでもよい。カメラでキャプチャされた画像コンテンツおよび／またはビデオコンテンツの解釈は、たとえば、キャプチャされた画像コンテンツおよび／またはビデオコンテンツの見られていないバージョンおよびビュー（たとえば、ポーズ、表情、角度など）を作成するよう、本明細書において記載される技術と組み合わせて使用されてもよい。

ユーザの頭および／または体（たとえば胴体）のビューを生成するためのフューショットの新規なビュー合成を実行することは、ユーザの高品質の３次元（３Ｄ）のビューが利用可能でない場合、困難であり得る。本明細書において記載されるシステムおよび技術は、少ない画像を入力として使用して新規な胴体のビューの高品質の画像コンテンツ（たとえば、画像および／またはビデオ）を生成する方法を提供し得る。いくつかの実現例では、２次元（２Ｄ）または３Ｄディスプレイの画面上で３Ｄの頭および／または胴体の見られていないビューの正確なレンダリングを可能にするために、３Ｄ特徴をモデリングするよう、上記の少ない画像が、１つ以上の３Ｄプロキシ平面および１つ以上のニューラルテクスチャと組み合わせて使用され得る。いくつかの実現例では、ニューラルテクスチャは、集約された潜在テクスチャ技術（aggregated latent texture techniques）に基づく。いくつかの実現例では、ニューラルテクスチャは、インバースレンダリング技術（inverse rendering techniques）に基づく。本明細書において使用されるように、フューショット（few-shot）の用語は、少ない例から新しい概念を理解するよう機械学習が実行されるフューショット機械学習技術（few-shot machine learning techniques）の使用を表す。

いくつかの実現例では、本明細書において記載されるニューラルテクスチャは、ニューラルテクスチャによって表されるユーザのスピーチおよび／または表現のビデオシーケンスを合成する目的のために、見られていないビューを生成するために使用され得る。たとえば、ニューラルテクスチャは、１つ以上の画像（たとえば、フレーム、ビデオなど）に基づいてフォトリアリスティックな頭（および／または胴体）の画像を生成するよう、使用され得る。いくつかの実現例では、ニューラルテクスチャは、グラフィックスを学習済コンポーネントと組み合わせることによって画像を合成し得るディファードニューラルレンダリング技術（deferred neural rendering techniques）（たとえば、ディープニューラルネットワーク）を使用して生成され得る。

本明細書において使用されるように、ニューラルテクスチャは、画像キャプチャプロセスの部分として学習される１つ以上の学習済特徴マップを表す。たとえば、対象がキャプチャされると、特徴マップを生成するよう、対象の特徴を対象についての３Ｄプロキシジオメトリにマッピングすることによって、ニューラルテクスチャが生成され得る。いくつかの実現例では、対象についてのニューラルテクスチャは、対象のビューおよびキャプチャポーズに関連付けられる潜在コード（latent code）に基づいて生成され得る。いくつかの実現例では、ニューラルテクスチャは、３Ｄメッシュの上の１つ以上の２Ｄマップに格納される。そのようなニューラルテクスチャは、たとえば、シーンのキャプチャ中に学習される最適化された特徴マップのセットを含み得る。いくつかの実現例では、ニューラルテクスチャは、たとえば、ディファードニューラルレンダラによって解釈され得る、キャプチャされた対象の表面外観の高レベルの記述（high-level description）を符号化し得る。

いくつかの実現例では、たとえば、マルチウェイ２Ｄまたは３Ｄビデオ会議において使用される２Ｄまたは３Ｄディスプレイの画面上での表示のために正確かつ現実的であるように見える画像を合成するよう、本明細書において記載される技術が使用され得る。たとえば、胴体および顔の正確かつ現実的なビュー（たとえば、画像コンテンツ、ビデオコンテンツ）を生成し、表示するよう、本明細書において記載される技術およびモデルが使用され得る。これらのビューは、従来、３Ｄの態様で示すことが困難であり得る、見られていないビューを含む。従来のシステムは典型的に、胴体部分について新規なビューを合成しない。たとえば、髪、首および肩は、明確に規定された構造を欠き得、したがって、従来のシステムではプロキシジオメトリによって表されないことがある。本明細書において記載されるシステムおよび方法は、プロキシジオメトリの品質の低下に対して堅牢であるニューラルテクスチャを保証するよう、顔領域と顔領域の外側の領域とをモデリングする利点を提供する。特に、本明細書において記載されるシステムおよび方法は、顔領域の外側の頭領域のための粗い（coarse）ジオメトリックプロキシとして、単一の平面を有する顔メッシュを強化する。

いくつかの実現例では、本明細書において記載される技術は、映画、ビデオ、短い映画、ゲームコンテンツ、または、本明細書において記載されるフューショット再構築技術から利益を受け得るユーザの胴体もしくは顔を含む他のフォーマットにおけるエンターテインメント目的のために使用され得る。たとえば、本明細書において記載されるフューショット再構築技術は、画像および／またはビデオコンテンツにおいてレンダリングされるキャラクタを動かすための胴体、顔、および髪コンテンツを生成するために使用され得る。

いくつかの実現例では、本明細書において記載される技術は、本明細書において記載されるフューショット再構築技術を使用して、対象を認識し、対象を再作成し、および／または、そのような対象から合成画像を生成するよう、画像処理を実行し得るバーチャルアシスタントデバイスまたは他のインテリジェントエージェントによって使用され得る。

いくつかの実現例では、本明細書において記載される技術は、ユーザのフューショットの新規なビュー合成のためにディープインバースレンダリング方法を使用する。当該技術は、ソース画像におけるユーザの視覚的な同一性を保存し得る。当該技術は、たとえば、３Ｄメッシュプロキシおよび（たとえば学習済）ニューラルテクスチャを含むユーザの表現を利用し得る。たとえば、メッシュプロキシは、多角形（たとえば三角形）メッシュであってもよく、または、当該多角形メッシュを含んでもよい。特に、本明細書において記載される技術は、任意のポーズおよび表情を有するユーザの１つ以上のフレームを含む入力画像を受信する。受信された入力画像は、ユーザの各フレームについて潜在表現を計算するために使用され、各フレームは、特定のテクスチャ空間上でインバースレンダリングを使用してサンプリングされる。潜在表現は、従来の画像生成システムよりも改善されてより完全なテクスチャを生成するために、入力されたビューからの情報を融合するように学習するアテンションメカニズムを使用して、テクスチャ空間においてさらに集約されてもよい。本明細書において記載される技術は、次いで、顔メッシュアルゴリズムを使用して、ニューラルレンダラ（neural renderer）を使用して再処理され得るテクスチャをサンプリングすることによって、新規かつ見られていないビュー／画像フレームを生成し得る。本明細書において記載される技術は、正確なユーザの胴体の再構築を達成しつつ、ユーザを識別する視覚的特徴を保存するという利点を提供する。

従来のシステムは、入力を符号化し、当該入力を単一の潜在ベクトルに集約することによって、フューショットビュー合成を実行し得る。そのような潜在ベクトルは、対象の形状、同一性および外観を単一のベクトルに組み合わせる。表面点ごとの外観は典型的には、そのような潜在ベクトルに圧縮されるので、特定の視覚的同一性に固有の情報および高周波の画像ディテール（high frequency image details）を表し再構築する能力は、情報が過度に集約され、単一の潜在ベクトルから分離および解析できないので、可能でない場合がある。本明細書において記載されるシステムおよび方法は、対象（たとえば、頭、胴体、ユーザなど）の表現を、３Ｄメッシュプロキシおよび学習済ニューラルテクスチャに織り込む。さらに、当該システムおよび方法は、ニューラルテクスチャを使用して、各表面点ごとの対象外観を表す。ニューラルテクスチャを使用して表面点ごとに外観記述子を格納することは、高周波の画像ディテールと、増加した量の同一性に敏感な情報とを表す方法を提供する。

さらに、本明細書において記載されるシステムおよび方法は、顔メッシュアルゴリズムを利用して、ユーザの頭および／または胴体構造の残部を表すよう粗いジオメトリプロキシと組み合わせて、ユーザの顔についてのジオメトリック表現を規定する。いくつかの実現例では、粗いジオメトリプロキシは、髪、１つ以上の肩、首などを表す少なくとも１つの平面を含む。

図１は、本開示の全体にわたって記載される実現例に従った、立体ディスプレイデバイスにおいてコンテンツを表示するための例示的な３Ｄコンテンツシステム１００を示すブロック図である。３Ｄコンテンツシステム１００は、たとえば、３Ｄでビデオ会議通信（たとえば、テレプレゼンスセッション）を行うよう、複数のユーザによって使用され得る。一般に、図１のシステムは、ビデオ会議セッション内のユーザの顔部分および／または胴体部分を示す正確な画像をレンダリングするために、２Ｄまたは３Ｄビデオ会議中にユーザのビデオおよび／または画像をキャプチャするよう使用され得、かつ、ユーザの顔部分および／または胴体部分の形状および外観をモデリングするよう、本明細書において記載されるシステムおよび技術を使用し得る。

本明細書において記載される技術は、たとえば、ビデオ会議においてユーザを正確に表すが、実際のキャプチャされた画像フレームについての計算された潜在表現であり得るビデオ会議内でのポーズ、表情、およびユーザ画像部分を生成および表示し得るので、システム１００はそのような技術の使用から恩恵を受け得る。計算された潜在表現は、たとえば、システム１００を介して２Ｄおよび／または３Ｄの態様で別のユーザに対して表示され得るユーザの正確なテクスチャおよび画像を生成するよう、本明細書において記載される技術とともに使用され得る。

図１に示されるように、３Ｄコンテンツシステム１００は、第１のユーザ１０２および第２のユーザ１０４によって使用されている。たとえば、ユーザ１０２および１０４は、３Ｄテレプレゼンスセッションに参加するために３Ｄコンテンツシステム１００を使用している。そのような例では、３Ｄコンテンツシステム１００は、ユーザ１０２および１０４の各々が、他のユーザの非常に現実的かつ視覚的に一致する表現を見ることを可能にし得、これにより、ユーザ同士が、互いに物理的に存在しているのと同様の態様でインタラクションすることを容易にする。

各ユーザ１０２，１０４は、対応する３Ｄシステムを有し得る。ここで、ユーザ１０２は３Ｄシステム１０６を有し、ユーザ１０４は３Ｄシステム１０８を有する。３Ｄシステム１０６，１０８は、３Ｄコンテンツに関する機能を提供し得、当該機能は、３Ｄ表示のための画像をキャプチャすることと、画像情報を処理および提示することと、音声情報を処理および提示することとを含むが、これらに限定されない。３Ｄシステム１０６および／または３Ｄシステム１０８は、１つのユニットとして統合される感知デバイスの集合を構成し得る。３Ｄシステム１０６および／または３Ｄシステム１０８は、図２～図６および図８を参照して記載されるいくつかまたはすべてのコンポーネントを含み得る。

３Ｄコンテンツシステム１００は、１つ以上の２Ｄまたは３Ｄディスプレイを含み得る。ここで、３Ｄディスプレイ１１０は３Ｄシステム１０６のために設けられており、３Ｄディスプレイ１１２は３Ｄシステム１０８のために設けられている。３Ｄディスプレイ１１０，１１２は、複数のタイプの３Ｄディスプレイ技術のいずれかを使用して、それぞれのビューア（viewer）（ここでは、たとえば、ユーザ１０２またはユーザ１０４）のためにオートステレオスコピックビュー（autostereoscopic view）を提供し得る。いくつかの実現例では、３Ｄディスプレイ１１０，１１２は、スタンドアロンのユニット（たとえば、自己支持または壁掛け）であり得る。いくつかの実現例では、３Ｄディスプレイ１１０，１１２は、ウェアラブル技術（たとえば、コントローラ、ヘッドマウントディスプレイなど）を含み得るか、または、当該ウェアラブル技術へのアクセスを有し得る。いくつかの実現例では、ディスプレイ１１０，１１２は、２Ｄディスプレイであってもよい。

一般に、ディスプレイ１１０，１１２などのディスプレイは、ヘッドマウントディスプレイ（ＨＭＤ: head-mounted display）デバイスを使用することなく、現実世界における物理的対象の３Ｄ光学特性に近似する画像を提供し得る。一般に、本明細書において記載されるディスプレイは、ディスプレイに関連付けられる多くの異なるビューイング領域に画像をリダイレクトするよう、フラットパネルディスプレイ、レンチキュラレンズ（たとえば、マイクロレンズアレイ）、および／または、視差バリアを含む。

いくつかの実現例では、ディスプレイ１１０，１１２は、高解像度で眼鏡のないレンチキュラ３Ｄディスプレイを含み得る。たとえば、ディスプレイ１１０，１１２は、ディスプレイのマイクロレンズに連結（たとえば、結合）されるグラススペーサを有する複数のレンズ（たとえば、マイクロレンズ）を含むマイクロレンズアレイ（図示せず）を含み得る。マイクロレンズは、選択されたビューイング位置から、ディスプレイのユーザの左目がピクセルの第１のセットを見ることができ、ユーザの右目がピクセルの第２のセットを見ることができるように設計され得る（たとえば、ピクセルの第２のセットは、ピクセルの第１のセットに対して相互排他的である）。

いくつかの例示的なディスプレイでは、そのようなディスプレイによって提供される画像コンテンツ（たとえば、ユーザ、対象など）の３Ｄビューを提供する単一の位置が存在し得る。ユーザは、適切な視差、最小の歪み、および現実的な３Ｄ画像を経験するよう、単一の位置に着座し得る。ユーザが異なる物理的位置に移動する（または頭の位置もしくは視線位置を変化させる）場合、画像コンテンツ（たとえば、ユーザ、ユーザによって着用される対象、および／または、他の対象）は、あまり現実的でなくなり、２Ｄとなり、および／または、歪んだように見え始め得る。本明細書において記載されるシステムおよび技術は、ユーザが動き回ることがあっても適切な視差、歪みの低いレート、および、現実的な３Ｄ画像をリアルタイムで経験することを確実にするために、ディスプレイから投射される画像コンテンツを再構築し得る。したがって、本明細書において記載されるシステムおよび技術は、ユーザが３Ｄディスプレイを見ている間に発生する如何なるユーザの動きに関わらず、ユーザへの表示のための３Ｄ画像コンテンツおよび対象を維持および提供する利点を提供する。

図１に示されるように、３Ｄコンテンツシステム１００は、１つ以上のネットワークに接続され得る。ここで、ネットワーク１１４は、３Ｄシステム１０６および３Ｄシステム１０８に接続される。ネットワーク１１４は、２つの例を挙げると、公に利用可能なネットワーク（たとえば、インターネット）またはプライベートネットワークであり得る。ネットワーク１１４は、有線、無線、またはこれら２つの組み合わせであり得る。ネットワーク１１４は、１つ以上のサーバ（図示せず）を含むがこれらに限定されない１つ以上の他のデバイスまたはシステムを含み得るか、または、当該１つ以上の他のデバイスまたはシステムを使用し得る。

３Ｄシステム１０６，１０８は、３Ｄ情報のキャプチャ、処理、送信もしくは受信、および／または、３Ｄコンテンツの提示に関する複数のコンポーネントを含み得る。３Ｄシステム１０６，１０８は、３Ｄ提示に含まれるべき画像のための画像コンテンツをキャプチャするための１つ以上のカメラを含み得る。ここで、３Ｄシステム１０６は、カメラ１１６および１１８を含む。たとえば、カメラ１１６および／またはカメラ１１８は、それぞれのカメラ１１６および／または１１８の対物レンズまたはレンズが、ハウジング内の１つ以上の開口部を経由して画像コンテンツをキャプチャするように、３Ｄシステム１０６のハウジング内に本質的に配置され得る。いくつかの実現例では、カメラ１１６および／または１１８は、ハウジングとは別体であり得、たとえば、（たとえば、３Ｄシステム１０６への有線および／または無線接続を有する）スタンドアロンデバイスの形態である。カメラ１１６および１１８は、ユーザ（たとえば、ユーザ１０２）の十分に代表的なビューをキャプチャするように位置決めおよび／または方位決めされ得る。カメラ１１６および１１８は一般に、ユーザ１０２のための３Ｄディスプレイ１１０のビューを不明瞭にしないが、カメラ１１６および１１８の配置は、任意に選択され得る。たとえば、カメラ１１６，１１８の一方は、ユーザ１０２の顔の上方のどこかに位置決めされ得、他方は、顔の下方のどこかに位置決めされ得る。たとえば、カメラ１１６，１１８の一方は、ユーザ１０２の顔の右のどこかに位置決めされ得、他方は、顔の左のどこかに位置決めされ得る。３Ｄシステム１０８は、同様の態様で、たとえば、カメラ１２０および１２２を含み得る。付加的なカメラも可能である。たとえば、第３のカメラが、ディスプレイ１１０の近くまたは後ろに配置され得る。

いくつかの実現例では、３Ｄシステム１０６，１０８は、３Ｄ提示において使用される深度データをキャプチャするよう、１つ以上の深度センサを含み得る。そのような深度センサは、３Ｄディスプレイ上でシーンを正しく表すために、３Ｄシステム１０６および／または１０８によってキャプチャされるシーンを特徴付けるために使用される、３Ｄコンテンツシステム１００における深度キャプチャコンポーネントの部分と考えられ得る。さらに、システムは、３Ｄ提示がビューアの現在の視点に対応する外観でレンダリングされ得るように、ビューアの頭の位置および方位をトラッキングし得る。ここで、３Ｄシステム１０６は、深度センサ１２４を含む。同様の態様で、３Ｄシステム１０８は、深度センサ１２６を含み得る。複数のタイプの深度感知または深度キャプチャのいずれかが、深度データを生成するために使用され得る。

いくつかの実現例では、補助ステレオ深度キャプチャ（assisted-stereo depth capture）が実行される。シーンは、たとえば光のドットを用いて照明され得、２つのそれぞれのカメラ間でステレオマッチングが行われ得る。この照明は、選択された波長または波長範囲の波を使用して行われ得る。たとえば、赤外線（ＩＲ）光が用いられ得る。いくつかの実現例では、深度センサは、たとえば、２Ｄデバイス上でビューを生成する際に利用されない場合がある。深度データは、深度センサ（たとえば、深度センサ１２４）とシーン内の対象との間の距離を反映するシーンに関する任意の情報を含み得るか、または、当該情報に基づき得る。深度データは、シーン内の対象に対応する画像内のコンテンツについて、対象までの距離（または深度）を反映する。たとえば、カメラと深度センサとの間の空間関係は、既知であり得、画像について深度データを生成するよう、カメラからの画像を深度センサからの信号と相関させるために使用され得る。

３Ｄコンテンツシステム１００によってキャプチャされた画像は、処理され、その後、３Ｄ提示として表示され得る。図１の例に示されるように、顔１０４′と胴体と髪１０４″との３Ｄ画像は、３Ｄディスプレイ１１０上に提示される。したがって、ユーザ１０２は、ユーザ１０２から遠隔に位置し得るユーザ１０４の３Ｄ表現として、３Ｄ画像１０４′と胴体と髪１０４″とを知覚し得る。３Ｄ画像１０２′と胴体と髪１０２″とは、３Ｄディスプレイ１１２上に提示される。したがって、ユーザ１０４は、ユーザ１０２の３Ｄ表現として３Ｄ画像１０２′を知覚し得る。

３Ｄコンテンツシステム１００は、参加者（たとえばユーザ１０２，１０４）が、互いのおよび／または他者との音声通信に参加することを可能にする。いくつかの実現例では、３Ｄシステム１０６は、スピーカおよびマイクロフォン（図示せず）を含む。たとえば、３Ｄシステム１０８は、同様にスピーカおよびマイクロフォンを含み得る。したがって、３Ｄコンテンツシステム１００は、ユーザ１０２および１０４が、互いのおよび／または他者との３Ｄテレプレゼンスセッションに参加することを可能にし得る。一般に、本明細書において記載されるシステムおよび技術は、システム１００のユーザ間で表示のための画像コンテンツおよび／またはビデオコンテンツを生成するよう、システム１００とともに機能し得る。

テレプレゼンスシステム１００に表示されるべき画像コンテンツを生成することは、任意の数のニューラルテクスチャ１３４と、メッシュプロキシジオメトリ１３６であり得る１つ以上のプロキシジオメトリとの使用を含み得る。ここで使用されるように、メッシュプロキシジオメトリは、特定のメッシュジオメトリにマッピングされた２つ以上のビュー依存テクスチャを表す。たとえば、メッシュプロキシジオメトリ１３６は、たとえば、平面プロキシジオメトリと組み合わされる顔プロキシジオメトリといった、複数の組み合わされたプロキシジオメトリを表し得る。動作において、システム１００は、システム２００にアクセスし、および／または、そうでなければ利用して、入力画像から特徴を抽出し、当該特徴および１つ以上のプロキシジオメトリを使用して１つ以上のニューラルテクスチャ１３４を生成し、ニューラルテクスチャ１３４およびメッシュプロキシジオメトリ１３６に基づいて１つ以上の新規なビューを合成し得る。

図２は、本開示の全体にわたって記載される実現例に従った、レンダリングのためにコンテンツを合成するための例示的なシステム２００のブロック図である。システム２００は、本明細書において記載される１つ以上の実現例として機能するか、もしくは、当該実現例に含まれ得、および／または、本明細書において記載される画像コンテンツの合成、処理、モデリング、もしくは提示の１つ以上の例の動作を実行するために使用され得る。全体のシステム２００および／またはその個々のコンポーネントのうちの１つ以上は、本明細書において記載される１つ以上の例に従って実現され得る。

システム２００は、１つ以上の３Ｄシステム２０２を含み得る。示される例では、３Ｄシステム２０２Ａ，２０２Ｂ～２０２Ｎが示されており、指数Ｎは任意の数を示す。３Ｄシステム２０２は、２Ｄまたは３Ｄ提示のための視覚および音声情報のキャプチャを提供し、処理のために当該２Ｄまたは３Ｄ情報を転送し得る。そのような情報は、シーンの画像、シーンに関する深度データ、および、シーンからの音声を含み得る。たとえば、２Ｄ／３Ｄシステム２０２は、システム１０６および２Ｄ／３Ｄディスプレイ１１０（図１）として機能するか、または、それらに含まれ得る。

システム２００は、カメラ２０４によって示されるように、複数のカメラを含み得る。画像をキャプチャするために、一般的なデジタルカメラにおいて使用されるタイプの画像センサといった任意のタイプの光感知技術が使用され得る。カメラ２０４は、同じタイプまたは異なるタイプであり得る。カメラ位置は、たとえば、システム１０６のような３Ｄシステム上の任意の位置に配置され得る。

システム２０２Ａは、深度センサ２０６を含む。いくつかの実現例では、深度センサ２０６は、シーン上にＩＲ信号を伝搬し、応答信号を検出することによって動作する。たとえば、深度センサ２０６は、ビーム１２８Ａ－Ｂおよび／または１３０Ａ－Ｂを生成および／または検出し得る。いくつかの実現例では、深度センサ２０６は、たとえば、深度感知を利用しない２Ｄビデオ会議アプリケーションにおける随意のコンポーネントである。システム２０２Ａはさらに、少なくとも１つのマイクロフォン２０８およびスピーカ２１０を含む。いくつかの実現例では、マイクロフォン２０８およびスピーカ２１０は、システム１０６の部分であり得る。

システム２０２は、３Ｄ画像を提示し得る３Ｄディスプレイ２１２をさらに含む。いくつかの実現例では、３Ｄディスプレイ２１２は、スタンドアロンディスプレイであり得、いくつかの他の実現例では、３Ｄディスプレイ２１２であり得る。いくつかの実現例では、３Ｄディスプレイ２１２は、視差バリア技術を使用して動作する。たとえば、視差バリアは、画面とビューアとの間に配置される本質的に不透明な材料（たとえば、不透明なフィルム）の平行な垂直ストライプを含み得る。ビューアのそれぞれの目の間の視差により、画面の異なる部分（たとえば、異なるピクセル）が、それぞれの左右の目によって見られる。いくつかの実現例では、３Ｄディスプレイ２１２はレンチキュラレンズを使用して動作する。たとえば、交互のレンズの行が画面の前に配置され得、当該行は、それぞれ画面からの光をビューアの左目および右目に向けて照準を合わせる。

システム２００は、データ処理、データモデリング、データコーディネーションおよび／またはデータ送信のあるタスクを実行し得るサーバ２１４を含み得る。サーバ２１４および／またはそのコンポーネントは、図８を参照して記載されるいくつかまたはすべてのコンポーネントを含み得る。

サーバ２１４は、１つ以上の態様で２Ｄおよび／または３Ｄ情報を生成することを担い得るテクスチャジェネレータ２１６を含む。これは、（たとえば、３Ｄシステム２０２Ａから）画像コンテンツを受信すること、画像コンテンツを処理すること、および／または、（処理された）画像コンテンツを別の参加者（たとえば、３Ｄシステム２０２のうちの別のもの）に転送することを含み得る。

テクスチャジェネレータ２１６は、本開示の全体にわたって記載される実現例に従って、生成型潜在最適化フレームワーク（generative latent optimization framework）によって学習され得る。一般に、テクスチャジェネレータ２１６は、対象（たとえば、ユーザ、被写体、表情、特徴など）のさまざまな形状および外観を生成し得る生成型モデルを使用してニューラルテクスチャをパラメータ化するよう、２つ以上の３Ｄプロキシジオメトリを使用し得る。

動作において、テクスチャジェネレータ２１６は、特徴のマップ（たとえば、特徴マップ２３８）を生成することによって対象を表し得る。特徴マップ２３８は、各対象インスタンスｉについて潜在コードをｚ_ｉ∈Ｒ^ｎとして表し得る。潜在空間の特徴マップ２３８は、８次元（８Ｄ）マップであり得る。特徴マップ２３８は、たとえば、システム２００を使用して最適化されるランダム値を含み得る。

特徴マップ２３８は、ある数のニューラルテクスチャ１３４を生成するよう、１つ以上のニューラルネットワーク２４４に提供され得る。ニューラルテクスチャ１３４は、特徴マップ２３８において表される特定の対象についてのジオメトリおよび／またはテクスチャの何らかの部分を規定するメッシュの部分を表し得る。

テクスチャジェネレータ２１６は、Ｋ個のプロキシ｛Ｐ_ｉ，１，．．．，Ｐ_ｉ，Ｋ｝のセット（すなわち、ＵＶ座標を有する三角形メッシュ）を含む粗いジオメトリを使用し得る。たとえば、アーキテクチャ４００は、ニューラルテクスチャ１３４を生成するために、２Ｄ画像を３Ｄプロキシモデル表面に投射し得る。ＵＶ座標は、２Ｄテクスチャの軸を示す。プロキシは、クラス内の対象の集合のいずれかまたは全部の実際のジオメトリのバージョンを表すように機能する。

動作において、システム２００は、粗いプロキシ表面（たとえば、メッシュプロキシジオメトリ１３６）のセットを使用してジオメトリック構造を符号化し、かつ、ビュー依存ニューラルテクスチャ１３４を使用して形状、アルベド（albedo）、およびビュー依存効果を符号化するよう、プロキシジオメトリ原理を使用する。

図２に示されるように、テクスチャジェネレータ２１６は、テクスチャプロセッサ／アグリゲータ２１８と、テクスチャインペインタ（texture in-painter）２２０と、ニューラルテクスチャジェネレータ２２２と、画像ワープエンジン２２４と、特徴抽出器２２６とを含む。テクスチャプロセッサ／アグリゲータ２１８は、ニューラルネットワーク２４４のエンベッダネットワーク（embedder network）２４５のようなフューショットエンベッダネットワークを使用してニューラルテクスチャを生成するように構成される。エンベッダネットワークは、画像潜在表現（たとえば、画像潜在ベクトル２３０）に加えて、画像ごとのテクスチャ潜在ベクトル２２８を生成するように使用され得る。次いで、ｋ個のショットのテクスチャ潜在性（または、ｋ個のショットのテクスチャ潜在ベクトル）が、テクスチャプロセッサアグリゲータ２１８によって集約され得る。次いで、集約されたテクスチャ潜在性（または、集約されたテクスチャ潜在ベクトル）は、ターゲット被写体（たとえば、ユーザ画像）についてのニューラルテクスチャ１３４を得るよう、テクスチャジェネレータネットワーク（たとえば、ジェネレータネットワーク２４７）に提供され得る。テクスチャ潜在ベクトル２２８および画像潜在ベクトル２３０は、たとえば、テクスチャジェネレータ２１６が、集約された潜在性を含まない方法を使用してニューラルテクスチャを生成する場合、各要素がシステム２００において随意であり得ることを示すよう、点線の形態で示されている。

いくつかの実現例では、システム２００は、特定のコンテンツ（たとえば、対象、特徴、画像フレームなど）の潜在空間を構築し得、そのようなコンテンツの潜在空間を、たとえば、ニューラルネットワーク２４４にフィードし得、ニューラルネットワーク２４４は、次いで、各特定のコンテンツタイプについてテクスチャマップ２４０を生成し得る。いくつかの実現例では、システム２００は、学習データから平面プロキシのインスタンスの数を低減し、フューショット再構築を実行する一方で、特定の対象の残部のプロキシを使用して、ニューラルネットワークのためのカテゴリレベルモデルを学習させ得る。たとえば、残部のプロキシは、ニューラルネットワーク２４４について髪カテゴリを学習させるために使用され得るヘアスタイル画像を表し得る。そのようなカテゴリは、特定のユーザ画像上の髪の新しいビューをシミュレートするよう使用され得る。

たとえば、いくつかの実現例では、テクスチャプロセッサ／アグリゲータ２１８は、集約されたテクスチャ潜在性を使用しなくてもよいが、その代わりに、ニューラルテクスチャを生成するようＵＶマップ２３２およびメッシュプロキシジオメトリ１３６を使用してインバースレンダリングを使用し得る。ＵＶマップ２３２は、特定のメッシュプロキシに含まれる可視コンテンツを表し得る。可視コンテンツは、テクスチャ座標に従って１つ以上のＵＶマップ２３２を生成するよう使用され得る。ＵＶマップ２３２は、たとえば、画像の特定のセットにおける特徴の（特徴マップ２３８への）抽出を調整するよう、特徴抽出器２２６に提供され得る。ＵＶマップ２３２によって、システム２００は、ニューラルネットワーク２４４が画像内に表される特定の画像および／または特徴に関する関連データを得ることを可能にすることを可能にし得る。

いくつかの実現例では、テクスチャプロセッサ／アグリゲータ２１８は、特定のユーザ特徴を考慮するユーザの表現（たとえば、テクスチャ潜在ベクトル２２８および／または画像潜在ベクトル２３０に格納される潜在表現）を生成し得る。たとえば、アグリゲータ２１８は、入力画像（たとえば、任意のポーズおよび表情の人の複数のフレーム）を取得し、各入力フレームについて潜在表現（たとえば、テクスチャ潜在ベクトル２２８）を計算し得る。画像は、テクスチャ空間上でインバースレンダリングを使用して生成されたユーザの表現（たとえば、テクスチャ潜在ベクトル２２８および／または画像潜在ベクトル２３０）を使用してサンプリングされ得る。潜在表現は、改善されてより完全なニューラルテクスチャ１３４を作り出すよう、入力ビューからの情報を融合するように学習するアテンションメカニズムを使用して、テクスチャ空間においてさらに集約され得る。新規なフレーム（たとえば、合成ビュー２５０）を生成するために、ニューラルテクスチャ１３４は、潜在表現（たとえば、ユーザの生成された表現）を使用してメッシュプロキシジオメトリ１３６からサンプリングされ、ニューラルレンダラ２４８を使用して再処理される。

システム２００は、少なくとも１つのニューラルネットワーク２４４を含むか、または、当該ニューラルネットワーク２４４へのアクセスを有する。示されるように、ニューラルネットワーク２４４は、少なくともエンベッダネットワーク２４５およびジェネレータネットワーク２４７を含む。エンベッダネットワーク２４５は、１つ以上の畳み込み層およびダウンサンプリング層を含む。ジェネレータネットワーク２４７は、１つ以上の畳み込み層およびアップサンプリング層を含む。

テクスチャインペインタ２２０は、特定の欠けているコンテンツ部分を取り囲む画素の局所近傍に基づいて、特定のテクスチャから欠けている可能性があるコンテンツを生成し得る。いくつかの実現例では、テクスチャインペインタ２２０は、垂直軸の周りで対称であるテクスチャの大きな部分に基づいて機能し得、したがって、テクスチャの一方の半分からの欠けている部分は、テクスチャの他方の半分の対応する値から近似され得る。システム２００は、集約されたニューラルテクスチャを、ニューラルテクスチャの水平反転バージョンと連結し得る。ニューラルテクスチャの連結バージョンは、最終的な対称的なニューラルテクスチャを生成するよう、テクスチャインペインタ２２０に提供され得る。

ニューラルテクスチャジェネレータ２２２は、ニューラルテクスチャ１３４を生成し得る。ニューラルテクスチャ１３４は、画像キャプチャプロセスの部分として学習された学習済特徴マップ２３８を表す。たとえば、対象がキャプチャされると、ニューラルテクスチャは、その対象について特徴マップ２３８および１つ以上の３Ｄプロキシジオメトリ１３６を使用して生成され得る。動作において、システム２００は、特定の対象（またはシーン）についてのニューラルテクスチャ１３４を生成し、その対象についての１つ以上の３Ｄプロキシジオメトリ１３６の上にマップとして格納し得る。たとえば、ニューラルテクスチャは、識別されたカテゴリの各インスタンスに関連付けられる潜在コードと、ポーズに関連付けられるビューとに基づいて生成され得る。

可視性スコア２３６は、キャプチャされた対象の特定のピクセルまたは特徴の可視性を表し得る。各可視性スコア２３６は、画像のどの部分（たとえば、ピクセル、特徴など）が入力画像の特定のビューにおいて可視であるかを示すニューラルテクスチャの各々について単一のスカラー値を表し得る。たとえば、ユーザの顔の最も左側がユーザの入力画像において見えない場合、ユーザの顔の最も左側を表すピクセルについての可視性スコア２３６は、低く重みを付けられ得る一方、入力画像において良好に見られ得るおよび／またはキャプチャされる他のエリアは、高く重みを付けられ得る。

画像ワープエンジン２２４は、入力画像空間（たとえば、特徴空間）からの画像をテクスチャ空間にワーピングする。たとえば、特定の入力画像は、（テクスチャ空間において）ニューラルテクスチャを生成するようにＵＶ空間にワーピングされる。

特徴抽出部２２６は、各画素について特徴を生成するよう画像を解析するＵ－ｎｅｔニューラルネットワークである。特徴抽出器２２０は、特徴マップ２３８およびテクスチャマップ２４０を生成するよう、そのような特徴を使用し得る。

サンプラ２４６は、任意の新規なビューのために特定のメッシュプロキシジオメトリからサンプリングする２Ｄサンプラを表し得る。サンプリングされたテクスチャは、次いで、ニューラルレンダラ２４８に提供される。

ニューラルレンダラ２４８は、たとえば、レンダリングするようニューラルネットワーク２４４を利用する対象（たとえば、ユーザ）および／またはシーンの中間表現を生成し得る。ニューラルテクスチャ１３４は、ニューラルレンダラ２４８とともに動作するニューラルネットワーク２４４のようなＵ－Ｎｅｔとともに、テクスチャマップ（たとえばテクスチャマップ２４０）上の特徴を一緒に学習するために使用され得る。ニューラルレンダラ２４８は、たとえば、対象固有の畳み込みネットワークにより、真の外観（たとえば、グラウンドトゥルース）と汎性再投射（diffuse reprojection）との間の差をモデリングすることによって、ビュー依存効果を組み込んでもよい。そのような効果は、シーンの知見に基づいて予測することが困難であり得、したがって、現実的な出力をレンダリングするためにＧＡＮベースの損失関数が使用され得る。

動作において、サーバ２１４は、入力画像２４２を取得または受信し得る。テクスチャジェネレータ２１６は、１つ以上のニューラルネットワーク２４４を使用して入力画像２４２を処理し得る。サーバ２１４は、合成ビュー２５０を生成するために、テクスチャジェネレータ２１６、サンプラ２４６、および、ニューラルレンダラ２４８を利用し得る。

システム２００およびシステム２００内のニューラルネットワーク２４４は、以下の式［１］に従って、再構築損失（Ｌ_ＣＮＴ: reconstruction losses）、同一性保存損失（Ｌ_ＩＤ: identity preservation loss）、および敵対的損失（Ｌ_ＡＤＶ: adversarial losses）の混合を使用してエンドツーエンドで学習され得る。

グラウンドトゥルース値ターゲット画像Ｉ_ｔと予測

との間の再構築エラーは、Ｌ１損失と知覚損失との混合を使用して、予め学習されたＶＧＧ１６ネットワークと予め学習された顔アルゴリズムメッシュネットワークに基づいて、以下の式［２］に従って計算される。

システム２００は、被写体の微調整を実行し得る。たとえば、テスト時において、見られていないテスト被写体にフューショット再構築が適用され得る。いくつかの実現例では、フューショットの数は、固定される必要はなく、異なるテスト被写体間で変動し得る。ターゲット被写体のフューショットフレームのセットが与えられると、システム２００は、ターゲット被写体をフィッティングするように、ニューラルネットワーク２４４またはシステム２００内の他のネットワークのシンプルな微調整を実行し得る。微調整は、システム２００のモジュールの任意のサブセットに適用され得る。たとえば、テクスチャジェネレータ２１６（Ｇ^ｔｅｘとして表される）、ニューラルレンダラ２４８（Ｒとして表される）、およびディスクリミネータ（discriminator）Ｄ（図示せず）に微調整が適用され得る。さらに、システムは、特定のターゲット被写体の潜在表現を直接的に最適化することによってネットワーク重みを微調整し得る。たとえば、システム２００は、予測されたニューラルテクスチャを自由変数として扱い、ニューラルレンダラ２４８と一緒にニューラルネットワークを最適化し、これにより、ターゲット被写体をより良好にフィッティングし得る。ニューラルテクスチャを可視化することは、微調整段階の間に付加される高周波のディテールを示し得るので、ニューラルテクスチャを最適化することは、潜在ベクトル表現を最適化することよりも解釈可能であるという利点を提供し得る。

ここで、上記の例示的なコンポーネントは、ネットワーク２６０（図１におけるネットワーク１１４と同様または同一であり得る）を介して３Ｄシステム２０２のうちの１つ以上と通信し得るサーバ２１４において実現されるものとして記載される。いくつかの実現例では、テクスチャジェネレータ２１６および／またはそのコンポーネントは、その代わりにまたはそれに加えて、３Ｄシステム２０２のいくつかまたはすべてにおいて実現され得る。たとえば、上述のモデリングおよび／または処理は、３Ｄ情報を１つ以上の受信システムに転送する前に、３Ｄ情報を送出するシステムによって実行され得る。別の例として、送出システムは、画像、モデリングデータ、深度データ、および／または、対応する情報を、上述の処理を実行し得る１つ以上の受信システムに転送し得、受信システムは上記の処理を実行し得る。これらのアプローチの組み合わせが使用され得る。

システム２００は、カメラ（たとえば、カメラ２０４）、深度センサ（たとえば、深度センサ２０６）、および、メモリに格納される命令を実行するプロセッサを有する３Ｄコンテンツジェネレータ（たとえば、テクスチャジェネレータ２１６）を含むシステムの例である。そのような命令は、プロセッサに、（たとえば、深度処理コンポーネントによって）３Ｄ情報に含まれる深度データを使用して、３Ｄ情報に含まれるシーンの画像内の画像コンテンツを識別させ得る。プロセッサは、たとえば、合成ビュー２５０を適切に示すようテクスチャジェネレータ２１６に提供され得るニューラルテクスチャ１３４をサンプリングすることによって、修正された３Ｄ情報を生成し得る。

合成ビュー２５０は、本明細書に記載されるように、強化された顔メッシュに少なくとも部分的に基づいてディスプレイ（たとえば、ディスプレイ２１２）にアクセスするユーザに関連付けられる両眼についての適切な視差およびビューイング構成によって、特定の対象の３Ｄ立体画像（たとえば、ユーザ画像４１２，５１２，６１０）を表す。合成ビュー２５０の少なくとも部分は、たとえば、ユーザがディスプレイを見ながら頭の位置を動かすたびに、システム２００を使用して、ニューラルネットワーク２４４からの出力に基づいて決定され得る。いくつかの実現例では、合成ビュー２５０は、ユーザの顔と、ユーザの顔を取り囲むとともにユーザの顔をキャプチャするビュー内のユーザの他の特徴とを表す。

いくつかの実現例では、システム２０２および２１４のプロセッサ（図示せず）は、グラフィックスプロセッシングユニット（ＧＰＵ: graphics processing unit）を含み得る（または当該グラフィックスプロセッシングユニットと通信し得る）。動作において、プロセッサは、メモリ、ストレージ、および他のプロセッサ（たとえば、ＣＰＵ）を含み得る（またはこれらへのアクセスを有し得る）。グラフィックスおよび画像生成を促進するために、プロセッサは、ディスプレイデバイス（たとえば、ディスプレイデバイス２１２）上に画像を表示するよう、ＧＰＵと通信し得る。ＣＰＵおよびＧＰＵは、ＰＣＩ、ＡＧＰまたはＰＣＩ－Ｅｘｐｒｅｓｓといった高速バスを通じて接続され得る。ＧＰＵは、ＨＤＭＩ（登録商標）、ＤＶＩ、またはディスプレイポートといった別の高速インターフェイスを通じてディスプレイに接続され得る。一般に、ＧＰＵは、画像コンテンツをピクセルの形態でレンダリングし得る。ディスプレイデバイス２１２は、ＧＰＵから画像コンテンツを受信し、画像コンテンツをディスプレイ画面上に表示し得る。

図３Ａは、本開示の全体にわたって記載される実現例に従った、粗いジオメトリックプロキシとして、強化顔メッシュプロキシおよび平面プロキシを組み合わせることから生成される強化メッシュプロキシ３００の例のブロック図である。強化メッシュプロキシ３００は、ユーザに関連付けられる顔の特徴、髪の特徴および／または胴体の特徴を含むがこれらに限定されないユーザの画像および／またはビデオコンテンツを合成するために使用され得る。

強化メッシュプロキシ３００は、２つ以上のプロキシジオメトリ表現を組み合わせることによって生成され得る。たとえば、強化メッシュプロキシ３００は、３Ｄ強化顔メッシュプロキシ３０２を使用して決定されるユーザの顔の表現を、この例ではユーザの髪および／またはユーザ胴体の部分（たとえば、顔メッシュプロキシ３０２に含まれないユーザの頭／胴部分の残部）を表す平面プロキシ３０４と組み合わせることによって生成され得る。たとえば、顔メッシュアルゴリズムは、ユーザの頭および胴体の画像の正確な合成を生成するよう、単一の平面ジオメトリックプロキシと組み合わされ得る。顔メッシュプロキシ３０２および平面プロキシ３０４は、たとえば、図１に示されるように、メッシュプロキシジオメトリ１３６として表され得る。

顔メッシュプロキシ３０２は、入力画像内の可視コンテンツに対応するテクスチャ座標を表し得る。たとえば、可視コンテンツは、プロキシ３０２の顔部分を含み得るが、プロキシ３０２の顔部分を取り囲むバックグラウンドを含み得ない。可視コンテンツは、テクスチャ座標に従ってＵＶマップ（たとえばＵＶマップ２３２）を生成するために使用され得る。ＵＶマップ２３２は、たとえば、画像の特定のセットにおける特徴の抽出を調整するために、特徴抽出器２２６に提供され得る。ＵＶマップ２３２によって、システム２００は、ニューラルネットワーク２４４が画像内に表される特定の画像および／または特徴に関する関連データを得ることを可能にすることを可能にし得る。

顔メッシュは、画像が与えられると、所定のトポロジーが顔を表す予め規定された頂点のセットの３Ｄ位置を表す一連の係数を出力する畳み込みニューラルネットワークを使用して生成され得る。３Ｄ位置は、入力画像の空間座標と整列するような位置であり、その一方、深度寸法は、任意であってよく、または、メトリック単位であってもよい。

平面プロキシ３０４は、（たとえば、平面に対して垂直なビューにおける）ユーザの顔と、周囲のエリア（たとえば、髪、胴体など）を含むように配置された平面として示されている。平面プロキシ３０４は、ユーザの頭をモデリングする平面ビルボード（planar billboard）を表す。そのようなコンテンツを表す他の対象および平面プロキシ形状は、３Ｄコンテンツを生成およびレンダリングするよう、本明細書において記載されるシステムおよび技術によって利用され得る。たとえば、他のプロキシは、ボックス、円筒、球、三角形などを含んでもよいが、これらに限定されない。

平面プロキシは、複雑なジオメトリの代替として使用され得るテクスチャマッピングされた対象（または対象の部分）を表し得る。ジオメトリックプロキシを操作およびレンダリングすることは、対応する詳細なジオメトリを操作およびレンダリングすることよりも計算的に集中的ではないので、平面プロキシ表現は、ビューを再構築するためのよりシンプルな形状を提供し得る。平面プロキシ表現は、そのようなビューを生成するよう使用され得る。平面プロキシの使用は、単にいくつかの例を挙げると、眼鏡、車、雲、木、および草のような非常に複雑な外観を有する対象を操作、再構築、および／またはレンダリングしようとする際に、低い計算コストの利点を提供し得る。同様に、強力なグラフィックスプロセッシングユニットの利用可能性により、リアルタイムゲームエンジンが提供され、これらのリアルタイムゲームエンジンは、より低いレベルのディテールのジオメトリを取って代わるようマップを生成するために、３Ｄプロキシジオメトリを使用して、距離によりスワップインおよびアウトされ得る複数のレベルのディテールを有するそのようなプロキシ（たとえば、ジオメトリック表現）を使用し得る。

動作において、システム２００は、たとえば、抽出されたアルファマスクを使用して、頭部分についてバウンディングボックス（bounding box）（たとえば、粗い視覚的外殻（coarse visual hull））を計算することによって、平面プロキシ３０４を生成し得る。一般に、アルファマスクは、頭部分における任意の数のピクセルについて、オーバーレイされる際に、特定のピクセルの色が他のピクセルとどのようにマージされるべきかを表す。次いで、システム２００は、ユーザの頭の画像内の対象領域を特定し得る。対象領域は、たとえば、頭の座標を用いて特定され得る。次いで、システム２００は、対応する正射影から見た際に表面と確率的にマッチする平面を抽出し得る。

一般に、システム２００は、ニューラルネットワーク（たとえば、ニューラルネットワーク２４４）に入力される学習データとして使用され得る任意の数の画像についての平面プロキシを生成し得る。ニューラルネットワークは、たとえば、カメラによってキャプチャされた特定の対象（たとえば、頭部分、顔部分など）を適切にどのように表示するかを決定し得る。いくつかの実現例では、システム２００は、たとえば、特定の頭部分を含む画像のデータセットを集め、かつ、検出されたポーズを使用して、当該ポーズに基づく視点から頭部分をシミュレートすることによって、頭部分のビューを生成し得る。

強化メッシュプロキシ３００は、顔とユーザの頭に関連付けられる他の頭特徴との正確な表現および再現性を保証するために使用され得る。たとえば、合成画像において顔エリアの外側の領域を含むために、強化メッシュプロキシ３００は、合成画像の品質の低下に対して堅牢なニューラルテクスチャを生成するよう使用され得る。そのようなニューラルテクスチャは、新しい画像コンテンツを合成するために、３Ｄ変換を表すデータと、画像パースペクティブを表すデータと、学習されたレンダリング技術とを組み合わせることによって生成され得る。

図３Ｂは、本開示の全体にわたって記載される実現例に従った、強化メッシュプロキシを生成するために使用される例示的な入力を示す。たとえば、入力画像３２０が取得され得る。入力画像３２０は、たとえば、ターゲット被写体（たとえば、ユーザ）を表し得る。入力画像は、ある数のテクスチャマップを生成するために使用され得る。テクスチャマップは、ユーザの２Ｄ画像および３Ｄ画像を表し得る。テクスチャマップは、ＵＶ空間において、３Ｄモデルを生成するために２Ｄ画像表現を使用しており、「Ｕ」および「Ｖ」は２Ｄテクスチャ軸を表す。テクスチャマップは、システム２００によって使用され得、たとえば、３Ｄで表面上に関数をマッピングし得る。関数ドメインは、１Ｄ、２Ｄ、または３Ｄであり得、数学的関数（たとえば、配列）として表され得る。テクスチャ空間は、対象空間（たとえば、ｘ、ｙおよびｚ座標空間）にマッピングされ得るＵＶ空間によって規定され得る。システム２００はさらに、新しいテクスチャ座標を予測するよう、テクスチャマップを使用し得る。

たとえば、システム２００は、顔メッシュプロキシ３０２を生成するために使用され得る顔メッシュテクスチャマップ３２２を生成し得る。同様に、システム２００は、平面プロキシ３０４を生成するために使用され得る頭プロキシＵテクスチャマップ３２４を生成し得る。システム２００によって生成されるテクスチャマップは、ニューラルテクスチャを生成するために使用され得る。たとえば、システム２００は、ユーザ３２０の顔を表すニューラルテクスチャ３２６を生成するよう、顔メッシュプロキシ３０２および顔メッシュテクスチャマップ３２２を使用し得る。同様に、システム２００は、ユーザ３２０の頭の残部（たとえば、髪、胴体など）を表すニューラルテクスチャ３２８を生成するよう、平面プロキシ３０４および頭プロキシテクスチャマップ３２４を使用し得る。したがって、システム２００は、顔メッシュテクスチャ３２６を頭プロキシテクスチャ３２８と組み合わせることによって、ユーザのための学習済ニューラルテクスチャを生成し得る。一般に、学習済ニューラルテクスチャでは、各表面点ごとの外観が表される。表面点ごとに外観記述子（appearance descriptor）を格納することは、高い周波のディテールおよび正確な同一性に敏感な情報を表すという利点を提供する。

図４は、本開示の全体にわたって記載される実現例に従った、レンダリングのための合成コンテンツを生成するための例示的なアーキテクチャ４００のブロック図である。アーキテクチャ４００は、ある数の入力画像４０２（たとえば、入力されたフューショット）を含み、当該入力画像４０２は、わずか３つの入力画像であり得る。アーキテクチャ４００はさらに、ニューラルテクスチャ４０６を生成するようニューラルテクスチャジェネレータ４０４を含む。アーキテクチャ４００はさらに、入力画像４０２に示されるユーザの合成ビュー４１２を生成するためにニューラルテクスチャジェネレータと組み合わせて使用され得る、２Ｄサンプリングモジュール４０８と、ニューラルレンダラ４１０とを含む。たとえば、ニューラルレンダラ４１０は、ニューラルネットワークを含むおよび／または使用するレンダラである。

動作において、ターゲット被写体（たとえば、ユーザ）のフューショット画像（たとえば、入力画像４０２）が与えられると、システム２００は、入力画像４０２においてユーザの新規なビュー合成を実行し得る。たとえば、システム２００は、ニューラルテクスチャジェネレータ４０４を使用して入力画像４０２を処理し、処理された画像を集約して、強化メッシュプロキシ３００と、ターゲット被写体（たとえば、入力画像４０２のユーザ）についての学習済ニューラルテクスチャ４０６とを構築し得る。次いで、システム２００は、プロキシジオメトリから学習済ニューラルテクスチャ４０６をサンプリングし、（たとえば、サンプリングモジュール４０８によって実行される）サンプリングされた点をニューラルレンダラネットワーク（たとえば、ニューラルレンダラ４１０）に入力し得、ニューラルレンダラネットワークは次いで、入力画像４０２においてユーザのターゲットビューを合成し得る。

システム２００は、入力画像４０２においてターゲット被写体についてニューラルテクスチャ４０６を生成するようエンコーダデコーダアーキテクチャを含む第１のアーキテクチャ５００を使用してアーキテクチャ４００を実現し得る。代替的には、システム２００は、入力画像４０２におけるターゲット被写体についてニューラルテクスチャ４０６を生成するためにインバースレンダリング技術を使用する第２のアーキテクチャ６００を使用してアーキテクチャ４００を実現し得る。

図５は、本開示の全体にわたって記載される実現例に従った、集約された潜在テクスチャ技術を使用してニューラルテクスチャを生成するための例示的なアーキテクチャ５００のブロック図である。ニューラルテクスチャ（たとえば、ニューラルテクスチャ５１０）は、たとえば、ニューラルテクスチャジェネレータ２２２を使用してニューラルネットワーク２４４から学習され得る。システム２００のテクスチャジェネレータ２１６は、たとえば、図５のコンポーネントによって生成されるサンプリングされたニューラルテクスチャを使用してアーキテクチャ４００を実行するように調整され得る。テクスチャジェネレータ２１６は、画像内の疎な２Ｄランドマークをサンプリングする従来のシステムではなく、サンプリングされたニューラルテクスチャ（たとえば、ニューラルテクスチャ５１０）上で調整され得る画像合成ネットワークを表し得る。

サンプリングされたニューラルテクスチャを生成するために、システム２００は、入力画像５０２（ここでは、画像｛Ｉ_１、Ｉ_２．．．Ｉ_ｋ｝として示される）を取得し得る。入力画像５０２は、カメラデバイスによってキャプチャされたユーザのある数のビュー（たとえば、ポーズ）を含み得る。入力ビューは、エンベッダネットワーク２４５のようなエンベッダネットワークに提供され得る。エンベッダネットワーク２４５は、一般的にポーズ独立情報を格納する埋め込みベクトル５０６（ここでは｛ｚ_１，ｚ_２．．．ｚ_ｋ｝として示される）に、入力画像５０２（たとえば、顔、胴体、またはユーザの部分の任意の組み合わせ）をマッピングするネットワークを表し得る。いくつかの実現例では、システム２００は、エンベッダネットワーク２４５に空間入力５０４を提供し得る。たとえば、空間入力５０４は、図３Ａのプロキシジオメトリ（たとえば３Ｄ強化顔メッシュプロキシ３０２および平面プロキシ３０４）として表され得る。３Ｄ強化顔メッシュプロキシ３０２のプロキシジオメトリは、空間入力５０４を作り出すよう、平面プロキシ３０４と組み合わされる。

埋め込みベクトル５０６は、たとえば、アグリゲータ２１８を使用して集約され得る。集約ベクトル５０６の結果は、集約ベクトル５０８（ここではｚとして示される）であり得る。集約ベクトル５０８は、テクスチャジェネレータネットワーク２４７に提供され得る。テクスチャジェネレータネットワーク２４７は、たとえば、ニューラルテクスチャ５１０を生成するよう、集約された埋め込みベクトルをマッピングし得るネットワークを表す。出力されたニューラルテクスチャ５１０は、新規な合成ビュー５１２を生成するために（システム２００のコンポーネントを使用して）アーキテクチャ４００とともに使用され得る。

動作において、ニューラルテクスチャ５１０は、画像ごとのテクスチャ潜在ベクトル

を生成するように（フューショット）エンベッダネットワーク２４５（Ｅ）を構成することによって生成され得る。システム２００は、ｉ∈｛１．．．ｋ｝についてｋショットテクスチャ

として画像潜在性を表し得る。次いで、ｋショットテクスチャ潜在性（ベクトル５０６として示される）は、以下の式［３］に示されるように、平均化方程式を使用して集約される。

式中、集約されたテクスチャ潜在性（ベクトル５０８として示される）は次いで、（テクスチャ）ジェネレータネットワーク２４７（たとえば、Ｇ^ｔｅｘ）に提供され、（テクスチャ）ジェネレータネットワーク２４７は、ターゲット被写体についてニューラルテクスチャ５１０（たとえば、Ｔ）Ｔ＝Ｇ^ｔｅｘｚ^ｔｅｘを出力する。

図６は、本開示の全体にわたって記載される実現例に従った、インバースレンダリング技術を使用してニューラルテクスチャ（たとえば、ニューラルテクスチャ６０２）を生成するための例示的なアーキテクチャ６００のブロック図である。インバースレンダリング技術は、任意の数のサブ処理モジュールを含み得る。以下の例では、少なくとも３つのサブ処理モジュールが使用される。第１のサブ処理モジュールは、特徴抽出器ネットワーク２２６を含み得る。第２のサブ処理モジュールは、画像ワープエンジン２２４を含み得る。第３のサブ処理モジュールは、テクスチャプロセッサ／アグリゲータ２１８を含み得る。

被写体（たとえば、ユーザ）のフューショットの画像が与えられると、システム２００は、ユーザについて対応するニューラルテクスチャを構築するためにインバースレンダリング技術を実行し得る。本明細書において記載されるインバースレンダリング技術は、ユーザの画像（たとえば、ユーザの頭、首、髪、胴体など）に関してシーンの物理的属性（たとえば、反射率、ジオメトリ、照明など）の推定を実行することを含み得る。アーキテクチャ６００の例示的な動作では、特徴抽出器ネットワークＦ（．；φ）２２６は、入力画像（たとえば、赤緑青（ＲＧＢ: Red Green Blue）フレーム

を受信し得、当該入力画像はここでは、対応する深度画像

およびＵＶマップ

により強化された画像６０３（すなわち、Ｉ_１，Ｉ_２．．．Ｉ_ｋ）として示される。
特徴抽出器ネットワーク２２６は、ｋ個のショット入力の各々を入力画像ｘ_{１．．．ｋ}と同じ解像度のジオメトリを意識した（geometry-aware）特徴空間に投射し得る。

次に、投射された画像は、入力画像ごとにニューラルテクスチャｙ_ｉ∈Ｒ^ｄ（たとえばテクスチャ１３４）を生成するよう、ＵＶ空間にワーピングされる。テクスチャプロセッサネットワークＰ（．；ω）は、各ニューラルテクスチャｙ_ｉ（たとえば、テクスチャ１３４）を後処理し、さらに、エクストラスコアマップＳ_ｉを出力する。エクストラスコアマップＳ_ｉにおいて、以下の式［５］によって示されるように、テクスチャ空間における各点でのスコアは、対応する入力画像におけるその可視性（たとえば、可視性スコア２３６）を示す。

たとえば、特徴抽出器２２６は、１つ以上の特徴マップ２３８を生成し得、当該１つ以上の特徴マップ２３８は、複数の特徴マップ２３８（図６に示される）として表される。特徴マップ２３８は、特徴空間における入力画像の特徴を表す。たとえば、各入力画像６０３について、特徴マップ２３８は、画像の抽出された特徴を使用して生成され得る。

各特徴マップ２３８は、たとえば、ある数のテクスチャマップ２４０を生成するよう、画像ワープエンジン２２４を使用してワーピングされ得る。たとえば、３つの入力画像がシステム２００に提供される場合、特徴抽出器２２６は、各入力画像６０３につき１つずつ、３つの特徴マップを抽出し得る。画像ワープエンジン２２４は、図６に示されるように、３つの特徴マップ２３８の各々をテクスチャマップ２４０にワーピングし得、その結果、３つのテクスチャマップが得られる。

次に、テクスチャプロセッサ／アグリゲータ２１８を使用するニューラルテクスチャジェネレータ２２２は、点ごとのアテンションウエイトマップ６０８｛Ａ_１．．．Ａ_ｋ｝を得るよう、ｋ個の可視性スコア２３６（たとえば、マップ）にソフトマックス（soft-max）を適用し得る。ｋ個のニューラルテクスチャは、以下の式［６］によって示されるように、テクスチャ空間において集約される、アテンションウエイトおよび可視性スコアを有する集約されたｋ個のニューラルテクスチャを表すよう、予測されたアテンションウエイトに基づき加重平均として集約される。

集約されたテクスチャ

は、入力ビューのいずれにおいても見えなかった欠けている部分を含み得る。テクスチャの欠けている部分は、それらの決定された局所近傍に基づいて、インペイントされ得る。代替的には、テクスチャの欠けている部分は、テクスチャの大部分が垂直軸周りで対称であり、一方の半分からの欠けている部分が他方の半分の対応する値から近似され得ると仮定することによって、インペイントされ得る。したがって、テクスチャインペインタ２２０は、集約されたニューラルテクスチャを、集約されたニューラルテクスチャの水平反転バージョン（たとえば、９０度の回転）と連結し得る。テクスチャの連結されたバージョンは、最終的なニューラルテクスチャ６０２を出力し得るテクスチャインペインタネットワーク

（たとえばテクスチャインペインタ２２０）に提供され得る。以下の式［７］は、テクスチャの連結されたバージョンを表す。

式中、｜はチャンネル方向（channel-wise）の連結を示し、ｈｏｒ＿ｆｌｉｐは垂直軸周りの水平反転（たとえば９０度の回転）を示す。

ニューラルテクスチャ６０２は、ニューラルネットワーク上で学習される学習済特徴マップを表す。この例では、ニューラルテクスチャは、２Ｄまたは３Ｄメッシュプロキシ上にオーバーレイされる１つ以上のマップを含む。ニューラルテクスチャ６０２の部分６０４は、顔メッシュプロキシ（たとえば、３０２）を使用して生成されるテクスチャを表し、部分６０６は、髪および／または胴体部分をキャプチャするよう平面プロキシ（たとえば３０４）を使用して生成されるテクスチャを表す。部分６０４における３つの画像は、入力画像６０３の特徴点の第１のセットの３つのＲＧＢカラー画像を有する９チャンネルテクスチャを表し得る。部分６０６における３つの画像は、入力画像６０３の特徴点の第２の異なるセットの３つのＲＧＢカラー画像を有する９チャンネルテクスチャを表し得る。さらに、可視性スコア２３６（たとえば、マップ）は、ニューラルテクスチャ６０２によって表されるテクスチャについての情報のさらに別のチャンネルとして使用され得る。

予測されたニューラルテクスチャＴ（たとえば、ニューラルテクスチャ６０２）の生成が完了すると、システム２００は、サンプラ２４６を使用して、図３Ａに示される強化メッシュプロキシジオメトリ３００のようなメッシュプロキシジオメトリからニューラルテクスチャ６０２をサンプリングし得る。ここで、強化メッシュプロキシジオメトリ３００は、顔メッシュプロキシジオメトリ３０２および平面プロキシジオメトリ３０４の使用を含む。強化メッシュプロキシジオメトリ３００は、任意の新規なビューのためにサンプリングされ得る。得られたサンプリングされたテクスチャは、以下の式［８］に示されるように、ビュー６１０を合成し得るニューラルレンダラ２４８（たとえば、ニューラルレンダラネットワークＲ（．；θ））に提供され得る。

ニューラルレンダラネットワークＲ２４８は、ニューラルテクスチャ６０２の低次元のポイントごとの記述子を使用して、ユーザのターゲットジオメトリおよび外観を回復し得る。

図７は、本開示の全体にわたって記載される実現例に従った、３Ｄプロキシジオメトリモデルに基づいてニューラルテクスチャを使用して合成コンテンツを生成するためのプロセス７００の一例を示すフローチャートである。要するに、プロセス８００は、たとえば、ユーザの見られていない２Ｄ画像および３Ｄ画像のフューショットの新規なビューを生成するようメッシュアルゴリズムとともに３Ｄプロキシジオメトリを使用する例を提供し得る。

プロセス７００は、少なくとも１つの処理デバイスと、命令を格納するメモリとを有する画像処理システムを利用し得、当該命令は、実行されると、処理デバイスに請求の範囲に記載される複数の動作およびコンピュータによって実現されるステップを実行させる。一般に、システム１００，２００、ならびに／または、アーキテクチャ４００、５００および／もしくは６００は、プロセス７００の記述および実行において使用され得る。システム１００，２００ならびにアーキテクチャ４００、５００および／または６００の各々は、いくつかの実現例では、単一のシステムを表し得る。

一般に、プロセス７００は、ターゲット被写体のフューショット画像を取得または抽出し、新規なビュー合成を実行するよう、本明細書において説明されるシステムおよびアルゴリズムを利用し得る。たとえば、プロセス７００は、ターゲット被写体について学習済ニューラルテクスチャとともに３Ｄメッシュプロキシを構築するよう、フューショットの入力を処理および集約することを含み得る。新規なビューを合成するために、学習済テクスチャは、プロキシジオメトリからサンプリングされ得、ターゲットビューを合成するニューラルレンダラネットワークに渡され得る。いくつかの実現例では、ターゲット被写体についてニューラルテクスチャを生成するために、エンコーダデコーダアーキテクチャが使用され得る。いくつかの実現例では、ニューラルテクスチャを生成するためにインバースレンダリング技術が使用され得る。

ブロック７０２において、プロセス７００は、ユーザを表す複数の入力画像（たとえば、入力ショット４０２）を受信することを含む。たとえば、サーバ２１６は、ユーザ１０４の画像を、リアルタイムで、または、以前のビデオ会議アクティビティおよび／もしくは他の画像キャプチャアクティビティから受信、取得および／またはキャプチャし得る。入力画像は、ユーザの顔、特徴、髪、首、または他の胴体部分などを含み得る。一般に、そのような入力画像は、プロセス７００内で４つ未満の画像が使用されるフューショット画像であり得る。いくつかの実現例では、プロセス７００のステップを実行するために、３つの入力画像が使用される。いくつかの実現例では、プロセス７００のステップを実行するために、単一の画像が使用され得る。

ブロック７０４において、プロセス７００は、複数の入力画像２４２から抽出された（たとえば、特徴マップ２３８に格納された）特徴の第１のセットに基づいて、３Ｄメッシュプロキシ（たとえば、強化メッシュプロキシ３００）を生成することを含む。たとえば、テクスチャジェネレータ２１６は、ユーザの顔を表す特徴の第１のセットを使用して特徴マップ２３８を生成し得る。特徴の第１のセットは、顔メッシュプロキシ３０２のような顔メッシュの部分を含み得る。３Ｄメッシュプロキシ３００はさらに、複数の入力画像２４２から抽出された（たとえば、特徴マップ２３８に格納された）特徴の第２のセットに基づいて生成され得る。特徴の第２のセットは、ユーザの髪および／または胴体の部分を表す特徴を含み得る。特徴の第２のセットは、平面プロキシ３０４のような平面プロキシから抽出され得る。

ブロック７０６において、プロセス７００は、３Ｄメッシュプロキシおよび複数の入力画像に基づいてニューラルテクスチャ（たとえば、ニューラルテクスチャ４０６）を生成することを含む。たとえば、ジェネレータ４０４またはニューラルテクスチャジェネレータ２２２のようなニューラルテクスチャジェネレータは、ユーザの３Ｄメッシュプロキシ４０６を生成するために、平面プロキシ３０４（マップ３２４）と組み合わせて顔メッシュプロキシ３０２（マップ３２２に示される）を使用し得る。３Ｄメッシュプロキシ４０６は、顔メッシュテクスチャ３２６を表す部分３２６と、頭プロキシテクスチャ３２８（すなわち、平面プロキシ）を表す部分とを含み得る。

ブロック７０８において、プロセス７００は、ユーザの表現を生成することを含む。ユーザの表現は、３Ｄメッシュプロキシおよびニューラルテクスチャに少なくとも部分的に基づき得る。たとえば、テクスチャプロセッサアグリゲータ２１８は、メッシュプロキシジオメトリを生成し、ニューラルテクスチャジェネレータ２２２は、ニューラルテクスチャを生成し得る。したがって、システム２００は、ユーザの顔を表す特徴の第１のセットと、ユーザの髪および胴体部分を表す抽出された特徴の第２のセットとを生成し得、これらは両方ともメッシュプロキシおよび学習済ニューラルテクスチャに基づき得る。一般に、ユーザの表現は、ニューラルテクスチャ１３４において表される各表面点ごとの外観を表す。そのような外観は、ニューラルテクスチャのいくつかの位置では見え、他の位置では見えない場合がある。したがって、ニューラルテクスチャをサンプリングする際、またはそうでなければ、ニューラルテクスチャにアクセスする際に、可視性スコア２３６が使用され得る。いくつかの実現例では、システム２００は、ユーザの外観に関する高周波なディテールを表すよう、または、皮膚に対する鏡のような強調のようなユーザの外観のビュー依存効果を表すよう、表面点ごとに外観記述子を格納し得る。

ブロック７１０において、プロセス７００は、３Ｄメッシュプロキシ３００からニューラルテクスチャの少なくとも１つの部分をサンプリングすることを含む。たとえば、サンプラ２４６は、ニューラルテクスチャの２Ｄサンプリングを実行し得る。すなわち、サンプラ２４６は、（組み合わされた３Ｄメッシュプロキシ３００として表される）プロキシジオメトリからニューラルテクスチャ４０６をサンプリングし得る。いくつかの実現例では、予測されたニューラルテクスチャは、任意の新規なビューのためにメッシュプロキシからサンプリングされる。いくつかの実現例では、サンプラ２４６は、ニューラルテクスチャからサンプリングするよう、ＵＶマップ２３２を使用し得る２Ｄサンプラを表す。いくつかの実現例では、ニューラルテクスチャ４０６は、ユーザの４つ未満のキャプチャされた画像フレームを含み得る、複数の入力画像４０２から生成およびサンプリングされる学習済ニューラルテクスチャである。

ブロック７１２において、プロセス７００は、少なくとも１つのサンプリングされた部分をニューラルレンダラ２４８のようなニューラルレンダラに提供することを含む。これに応答して、システム２００は、ニューラルレンダラ２４８から、画像処理システムによって以前に見られていないユーザの合成画像（たとえば、合成ビュー２５０、合成ビュー４１２など）を受信し得る。たとえば、合成画像は、画像処理システムによってまだ記録されていないビュー（たとえば、まだ記録されていない角度でおよび／もしくはユーザが頭を把持した状態でユーザを見ること、ならびに／または、まだ記録されていない方向で見ること）を含み得る。合成ビュー２５０は、たとえば、デバイス１１０または１１２上でのレンダリングのためにトリガされ得る。

いくつかの実現例では、合成画像は、ビデオ会議のための修正された視点（すなわち、リモートユーザの視線方向に対する）によりユーザを示すように生成される。したがって、修正された視点は、ビデオ会議上で互いを見ている２人のユーザが、直接的なアイコンタクトを保持しているかのように互いに見えることを可能にし得る。たとえば、ユーザの合成ビューは、入力画像におけるユーザの同様のポーズであり得るが、ビデオ会議を提供するシステムに関連付けられるカメラデバイスを見つめるユーザのビューをシミュレートするように視点が修正される。そのような修正は、システム２００がビデオ会議システムにアクセスする２人のユーザ間のアイコンタクトの発生を提供し得るので、ビデオ会議システムの両方のユーザについて存在感を提供し得る。

いくつかの実現例では、ニューラルテクスチャを生成することは、図５において図示および説明されるように、集約された潜在性のユーザを含む。たとえば、テクスチャプロセッサ／アグリゲータ２１８は、各入力画像２４２，５０２（たとえば、画像フレーム）について潜在表現を生成し得る。各入力画像について生成された潜在表現（たとえば、ｋ個のショットのテクスチャ潜在性）は、平均化技術を使用してベクトル５０８に集約され得る。ベクトル５０８は、たとえば、テクスチャジェネレータネットワーク２４７に提供され得る。ユーザを表すニューラルテクスチャ５１０は、テクスチャジェネレータネットワーク２４７から受信され得る。ニューラルテクスチャ５１０は、合成ビュー５１２を生成するよう使用され得る。

いくつかの実現例では、ニューラルテクスチャを生成することは、図６において図示および説明されるように、インバースレンダリングアルゴリズムを使用することを含む。たとえば、入力画像は、特徴抽出器ネットワーク２２６に提供され得、特徴抽出器ネットワーク２２６は、対応する深度画像およびＵＶマップ２３２により画像６０３を強化するように、少なくとも特徴の第１のセットおよび第２のセットを抽出し得る。次いで、システム２００は、（深度センサ２０６によってキャプチャされた）深度画像および入力画像６０３に関連付けられるＵＶマップ２３２に基づいて、抽出された特徴の第１のセットおよび特徴の第２のセットを、ジオメトリを意識した特徴空間に投射し得る。投射することは、複数の入力画像６０３のマッチされた解像度を有する画像のセットを生成することを含み得る。たとえば、システム２００は、各ｋ個のショットの入力を入力画像６０３と同じ解像度のジオメトリを意識した特徴抽出器に投射し得る。たとえば、システム２００は、ｋ個のニューラルテクスチャ１３４によって示されるように、画像のセットをＵＶ空間にワープして、各入力画像６０３についてテクスチャを生成し得る（図６）。

次に、テクスチャプロセッサおよびアグリゲータ２１８は、各テクスチャについて、対応する入力画像における可視性メトリックを示すテクスチャ空間内の各点についてのスコアマップ（たとえば、可視性スコア２３６）を生成し得る。いくつかの実現例では、可視性スコア２３６（たとえば、スコアマップ）は、各画像のニューラルテクスチャを処理することによって生成される。テクスチャ空間における各点での可視性スコア２３６は、対応する入力画像におけるその可視性を示す。

システム２００は、各入力画像についてアテンションウエイトを生成するよう、各スコアマップ（たとえば、可視性スコア２３６）にソフトマックス演算を適用し得る。テクスチャは、次いで、アテンションウエイトに従って決定される加重平均に従って集約され得る。いくつかの実現例では、入力画像６０３のいずれにおいても見えない場合がある欠けている部分を生成するために、追加のステップがテクスチャインペインタ２２０によって実行され得る。テクスチャインペインタ２２０によって実行されるディテールは、図２を参照して上で記載されている。

図８は、上記の技術とともに用いられ得るコンピュータデバイス８００およびモバイルコンピュータデバイス８５０の例を示す。コンピューティングデバイス８００は、プロセッサ８０２、メモリ８０４、記憶装置８０６、メモリ８０４および高速拡張ポート８１０に接続している高速インターフェイス８０８、ならびに低速バス８１４および記憶装置８０６に接続している低速インターフェイス８１２を含み得る。コンポーネント８０２，８０４，８０６，８０８，８１０および８１２はさまざまなバスを用いて相互に接続されており、共通のマザーボード上にまたは他の態様で適宜搭載され得る。プロセッサ８０２は、コンピューティングデバイス８００内で実行される命令を処理可能であり、この命令には、ＧＵＩのためのグラフィック情報を高速インターフェイス８０８に結合されているディスプレイ８１６などの外部入出力デバイス上に表示するためにメモリ８０４内または記憶装置８０６上に記憶されている命令が含まれる。いくつかの実施形態では、複数のプロセッサおよび／または複数のバスが、複数のメモリおよび複数種類のメモリとともに必要に応じて用いられ得る。さらに、複数のコンピューティングデバイス８００が接続され得、各デバイスは（たとえばサーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして）必要な動作の一部を提供する。

メモリ８０４は情報をコンピューティングデバイス８００内に記憶する。一実施形態では、メモリ８０４は１つまたは複数の揮発性メモリユニットである。別の実施形態では、メモリ８０４は１つまたは複数の不揮発性メモリユニットである。また、メモリ８０４は、磁気ディスクまたは光ディスクといった別の形態のコンピュータ読取可能媒体であってもよい。

記憶装置８０６は、コンピューティングデバイス８００に大容量記憶を提供し得る。一実施形態では、記憶装置８０６は、フロッピー（登録商標）ディスクデバイス、ハードディスクデバイス、光ディスクデバイス、またはテープデバイス、フラッシュメモリもしくは他の同様のソリッドステートメモリデバイス、またはストレージエリアネットワークもしくは他のコンフィギュレーションにおけるデバイスを含む多数のデバイスといった、コンピュータ読取可能媒体であり得、または当該コンピュータ読取可能媒体を含み得る。コンピュータプログラムプロダクトが情報媒体内に有形に具体化され得る。また、コンピュータプログラムプロダクトは、実行されると、本明細書において記載される方法のような、１つ以上の方法を実行する命令を含み得る。情報媒体は、メモリ８０４、記憶装置８０６、またはプロセッサ８０２上のメモリといった、コンピュータ読取可能媒体または機械読取可能媒体である。

高速コントローラ８０８はコンピューティングデバイス８００のための帯域幅集約的な動作を管理するのに対して、低速コントローラ８１２はより低い帯域幅集約的な動作を管理する。そのような機能の割当ては例示に過ぎない。一実施形態では、高速コントローラ８０８はメモリ８０４に結合され、ディスプレイ８１６に（たとえばグラフィックスプロセッサまたはアクセラレータを介して）結合され、かつ、さまざまな拡張カード（図示せず）を受付け得る高速拡張ポート８１０に結合される。低速コントローラ８１２は、記憶装置８０６および低速拡張ポート８１４に結合され得る。さまざまな通信ポート（たとえばＵＳＢ、ブルートゥース（登録商標）、イーサネット（登録商標）、無線イーサネット）を含み得る低速拡張ポートは、キーボード、ポインティングデバイス、スキャナ、またはスイッチもしくはルータといったネットワーキングデバイスなどの１つ以上の入出力デバイスに、たとえばネットワークアダプタを介して結合され得る。

コンピューティングデバイス８００は、図に示すように多数の異なる形態で実現され得る。たとえば、コンピューティングデバイス８００は標準的なサーバ８２０として、またはそのようなサーバのグループ内で複数回実現され得る。また、コンピューティングデバイス８００はラックサーバシステム８２４の一部として実現されてもよい。さらに、コンピューティングデバイス８００はラップトップコンピュータ８２２などのパーソナルコンピュータにおいて実現され得る。あるいは、コンピューティングデバイス８００からのコンポーネントは、デバイス８５０などのモバイルデバイス（図示せず）内の他のコンポーネントと組合されてもよい。そのようなデバイスの各々がコンピューティングデバイス８００，８５０の１つ以上を含んでいてもよく、システム全体が、互いに通信する複数のコンピューティングデバイス８００，８５０で構成されてもよい。

コンピューティングデバイス８５０は、数あるコンポーネントの中でも特に、プロセッサ８５２、メモリ８６４、ディスプレイ８５４などの入出力デバイス、通信インターフェイス８６６、およびトランシーバ８６８を含む。また、デバイス８５０には、マイクロドライブまたは他のデバイスなどの記憶装置が提供されて付加的なストレージが提供されてもよい。コンポーネント８５０，８５２，８６４，８５４，８６６，および８６８の各々はさまざまなバスを用いて相互に接続されており、当該コンポーネントのいくつかは共通のマザーボード上にまたは他の態様で適宜搭載され得る。

プロセッサ８５２は、メモリ８６４に記憶されている命令を含む、コンピューティングデバイス８５０内の命令を実行可能である。プロセッサは、別個の複数のアナログおよびデジタルプロセッサを含むチップのチップセットとして実現されてもよい。プロセッサは、たとえば、ユーザインターフェイス、デバイス８５０が実行するアプリケーション、およびデバイス８５０による無線通信の制御といった、デバイス８５０の他のコンポーネントの協調を提供し得る。

プロセッサ８５２は、ディスプレイ８５４に結合された制御インターフェイス８５８およびディスプレイインターフェイス８５６を介してユーザと通信し得る。ディスプレイ８５４は、たとえば、ＴＦＴＬＣＤ（薄膜トランジスタ液晶ディスプレイ）もしくはＯＬＥＤ（有機発光ダイオード）ディスプレイ、または他の適切なディスプレイ技術であり得る。ディスプレイインターフェイス８５６は、ディスプレイ８５４を駆動してグラフィックおよび他の情報をユーザに提示するための適切な回路を含み得る。制御インターフェイス８５８はユーザからコマンドを受信し、当該コマンドをプロセッサ８５２に提出するために変換し得る。さらに、外部インターフェイス８６２が、デバイス８５０と他のデバイスとの近接エリア通信を可能にするために、プロセッサ８５２と通信してもよい。外部インターフェイス８６２は、たとえば有線または無線通信を提供し得、いくつかの実施形態では、複数のインターフェイスが使用され得る。

メモリ８６４は情報をコンピューティングデバイス８５０内に記憶する。メモリ８６４は、１つもしくは複数のコンピュータ読取可能媒体、１つもしくは複数の揮発性メモリユニット、または１つもしくは複数の不揮発性メモリユニットの１つ以上として実現され得る。さらに、拡張メモリ８８４が提供され、たとえばＳＩＭＭ（Single In Line Memory Module）カードインターフェイスを含み得る拡張インターフェイス８８２を介してデバイス８５０に接続されてもよい。このような拡張メモリ８８４はデバイス８５０に余分のストレージスペースを提供し得るか、またはデバイス８５０のためのアプリケーションもしくは他の情報をさらに記憶し得る。具体的には、拡張メモリ８８４は上述のプロセスを実行または補足するための命令を含み得、さらにセキュア情報を含み得る。ゆえに、たとえば、拡張メモリ８８４はデバイス８５０のためのセキュリティモジュールであり得、デバイス８５０のセキュアな使用を許可する命令でプログラムされ得る。さらに、ハッキング不可能なようにＳＩＭＭカード上に識別情報を置くといったように、セキュアなアプリケーションが付加的な情報とともにＳＩＭＭカードを介して提供されてもよい。

メモリは、以下に記載のように、たとえばフラッシュメモリおよび／またはＮＶＲＡＭメモリを含み得る。一実施形態では、コンピュータプログラムプロダクトが情報媒体内に有形に具体化される。コンピュータプログラムプロダクトは、実行されると上述のような１つ以上の方法を実行する命令を含む。情報媒体は、メモリ８６４、拡張メモリ８８４、またはプロセッサ８５２上のメモリといった、コンピュータ読取可能媒体または機械読取可能媒体であり、これは、たとえばトランシーバ８６８または外部インターフェイス８６２上で受信され得る。

デバイス８５０は、必要に応じてデジタル信号処理回路を含み得る通信インターフェイス８６６を介して無線通信し得る。通信インターフェイス８６６は、とりわけ、ＧＳＭ（登録商標）音声通話、ＳＭＳ、ＥＭＳ、またはＭＭＳメッセージング、ＣＤＭＡ、ＴＤＭＡ、ＰＤＣ、ＷＣＤＭＡ（登録商標）、ＣＤＭＡ２０００、またはＧＰＲＳといった、さまざまなモードまたはプロトコル下の通信を提供し得る。そのような通信は、たとえば無線周波数トランシーバ８６８を介して起こり得る。さらに、ブルートゥース、Ｗｉ－Ｆｉ、または他のそのようなトランシーバ（図示せず）を用いるなどして、短距離通信が起こり得る。さらに、ＧＰＳ（全地球測位システム）レシーバモジュール８８０が付加的なナビゲーション関連および位置関連の無線データをデバイス８５０に提供し得、当該データはデバイス８５０上で実行されるアプリケーションによって適宜用いられ得る。

また、デバイス８５０は、ユーザから口頭情報を受信して当該情報を使用可能なデジタル情報に変換し得る音声コーデック８６０を用いて可聴的に通信し得る。音声コーデック８６０も同様に、たとえばデバイス８５０のハンドセット内で、スピーカを介すなどしてユーザに可聴音を生成し得る。そのような音は音声電話からの音を含み得、録音された音（たとえば音声メッセージ、音楽ファイル等）を含み得、さらに、デバイス８５０上で実行されるアプリケーションが生成する音を含み得る。

コンピューティングデバイス８５０は、図に示すように多数の異なる形態で実現され得る。たとえば、コンピューティングデバイス８５０はセルラー電話８８０として実現され得る。また、コンピューティングデバイス８５０は、スマートフォン８８２、携帯情報端末、または他の同様のモバイルデバイスの一部として実現され得る。

本明細書に記載のシステムおよび技術のさまざまな実現例は、デジタル電子回路、集積回路、特別に設計されたＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組合せで実現され得る。これらのさまざまな実現例は、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上で実行可能および／または解釈可能な１つ以上のコンピュータプログラムにおける実現例を含んでいてもよく、当該プロセッサは専用であっても汎用であってもよく、ストレージシステム、少なくとも１つの入力デバイス、および少なくとも１つの出力デバイスからデータおよび命令を受信するように、かつこれらにデータおよび命令を送信するように結合されている。

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとしても公知）はプログラマブルプロセッサのための機械命令を含んでおり、高レベル手続きおよび／もしくはオブジェクト指向プログラミング言語で、ならびに／またはアセンブリ／マシン言語で実現され得る。本明細書において使用するように、「機械読取可能媒体」、「コンピュータ読取可能媒体」という用語は、機械命令および／またはデータをプログラマブルプロセッサに提供するために用いられる任意のコンピュータプログラムプロダクト、装置および／またはデバイス（たとえば磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を指し、機械命令を機械読取可能信号として受信する機械読取可能媒体を含む。「機械読取可能信号」という用語は、機械命令および／またはデータをプログラマブルプロセッサに提供するために用いられる任意の信号を指す。

ユーザとの対話を提供するために、本明細書に記載のシステムおよび技術は、情報をユーザに表示するためのディスプレイデバイス（たとえばＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニタ）と、ユーザが入力をコンピュータに提供するキーボードおよびポインティングデバイス（たとえばマウスまたはトラックボール）とを有するコンピュータ上で実現され得る。他の種類のデバイスを用いてユーザとの対話を提供することもでき、たとえば、ユーザに提供されるフィードバックは任意の形態の感覚フィードバック（たとえば視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であり得、ユーザからの入力は、音響、スピーチ、または触覚入力を含む任意の形態で受信され得る。

本明細書に記載のシステムおよび技術は、バックエンドコンポーネントを（たとえばデータサーバとして）含むコンピューティングシステムにおいて実現され得るか、または、ミドルウェアコンポーネントを（たとえばアプリケーションサーバとして）含むコンピューティングシステムにおいて実現され得るか、または、フロントエンドコンポーネント（たとえば、ユーザが上記のシステムおよび技術の実施形態と対話する際に使用可能なグラフィカルユーザインターフェイスもしくはウェブブラウザを有するクライアントコンピュータ）を含むコンピューティングシステムにおいて実現され得るか、または、そのようなバックエンド、ミドルウェア、もしくはフロントエンドコンポーネントの任意の組合せを含むコンピューティングシステムにおいて実現され得る。システムのコンポーネントは、任意の形態または媒体のデジタルデータ通信（たとえば通信ネットワーク）によって相互に接続され得る。通信ネットワークの例として、ローカルエリアネットワーク（「ＬＡＮ」）、ワイドエリアネットワーク（「ＷＡＮ」）、およびインターネットが挙げられる。

コンピューティングシステムはクライアントおよびサーバを含み得る。クライアントおよびサーバは一般に互いにリモートであり、典型的に通信ネットワークを介して対話する。クライアントとサーバの関係は、それぞれのコンピュータ上で実行され、互いにクライアント－サーバ関係を有するコンピュータプログラムによって生じる。

いくつかの実施形態では、図８に示されるコンピューティングデバイスは、バーチャルリアリティヘッドセット（ＶＲヘッドセット／ＨＭＤデバイス８９０）とインターフェイス接続するセンサを含み得る。たとえば、図８に示されるコンピューティングデバイス８５０または他のコンピューティングデバイスに含まれる１つ以上のセンサは、ＶＲヘッドセット８９０に入力を提供し得、または、一般に入力をＶＲ空間に提供し得る。センサは、タッチ画面、加速度計、ジャイロスコープ、圧力センサ、バイオメトリックセンサ、温度センサ、湿度センサ、および、環境光センサを含み得るが、これらに限定されない。コンピューティングデバイス８５０は、ＶＲ空間への入力として使用され得る、ＶＲ空間におけるコンピューティングデバイスの絶対位置および／または検出された回転を決定するよう、これらのセンサを使用し得る。たとえば、コンピューティングデバイス８５０は、コントローラ、レーザポインタ、キーボード、兵器などのバーチャルオブジェクトとしてＶＲ空間に組み込まれ得る。ＶＲ空間に組み込まれた場合のユーザによるコンピューティングデバイス／バーチャルオブジェクトの位置決めによって、ユーザは、ＶＲ空間においてある態様でバーチャルオブジェクトを見るようにコンピューティングデバイスを位置決めすることが可能になり得る。

いくつかの実施形態では、コンピューティングデバイス８５０に含まれるかまたはコンピューティングデバイス８５０に接続する１つ以上の入力デバイスが、ＶＲ空間への入力として使用され得る。入力デバイスは、タッチ画面、キーボード、１つ以上のボタン、トラックパッド、タッチパッド、ポインティングデバイス、マウス、トラックボール、ジョイスティック、カメラ、マイクロフォン、入力機能を有するイヤホンもしくはバッド、ゲーミングコントローラ、または、他の接続可能な入力デバイスを含み得るが、これらに限定されない。コンピューティングデバイスがＶＲ空間に組み込まれる際にコンピューティングデバイス８５０に含まれる入力デバイスとインタラクションするユーザは、ＶＲ空間において特定のアクションを生じさせ得る。

いくつかの実施形態では、コンピューティングデバイス８５０に含まれる１つ以上の出力デバイスは、ＶＲ空間においてＶＲヘッドセット８９０のユーザに出力および／またはフィードバックを提供し得る。出力およびフィードバックは、視覚的、触覚的、または音声であり得る。出力および／またはフィードバックは、ＶＲ空間またはバーチャル環境のレンダリングと、振動と、１つ以上のライトもしくはストロボのオンおよびオフまたは点滅および／もしくはフラッシュと、アラームの発音と、チャイムが鳴ることと、楽曲の演奏と、音声ファイルの再生とを含み得るが、これらに限定されない。出力デバイスは、振動モータ、振動コイル、圧電デバイス、静電デバイス、発光ダイオード（ＬＥＤ）、ストロボ、およびスピーカを含み得るが、これらに限定されない。

いくつかの実施形態では、コンピューティングデバイス８５０は、ＶＲシステムを作り出すためにＶＲヘッドセット８９０内に配置され得る。ＶＲヘッドセット８９０は、スマートフォン８８２などのコンピューティングデバイス８５０をＶＲヘッドセット８９０内の適切な位置に配置することを可能にする１つ以上の位置決め要素を含み得る。そのような実施形態では、スマートフォン８８２のディスプレイは、ＶＲ空間またはバーチャル環境を表す立体画像をレンダリングし得る。

いくつかの実施形態では、コンピューティングデバイス８５０は、コンピュータが生成する３Ｄ環境において別の対象として現れてもよい。ユーザによるコンピューティングデバイス８５０とのインタラクション（たとえば、回転すること、振ること、タッチ画面に触れること、タッチ画面にわたって指をスワイプすること）は、ＶＲ空間内の対象とのインタラクションと解釈され得る。単なる一例として、コンピューティングデバイスはレーザポインタであり得る。そのような例では、コンピューティングデバイス８５０は、コンピュータが生成した３Ｄ環境においてバーチャルレーザポインタとして現れる。ユーザがコンピューティングデバイス８５０を操作すると、ＶＲ空間内のユーザは、レーザポインタの動きを見る。ユーザは、コンピューティングデバイス８５０またはＶＲヘッドセット８９０上のＶＲ環境において、コンピューティングデバイス８５０とのインタラクションからのフィードバックを受信する。

いくつかの実施形態では、コンピューティングデバイス８５０は、タッチ画面を含み得る。たとえば、ユーザは、タッチ画面上で起こるものをＶＲ空間内で起こるものにより模倣し得る特定の態様でタッチ画面とインタラクションし得る。たとえば、ユーザは、タッチ画面に表示されたコンテンツをズームするために、ピンチタイプの動きを使用し得る。タッチ画面上でのこのピンチタイプの動きによって、ＶＲ空間において提供される情報がズームされ得る。別の例では、コンピューティングデバイスは、コンピュータが生成した３Ｄ環境においてバーチャルブックとしてレンダリングされてもよい。ＶＲ空間では、ブックのページがＶＲ空間に表示され得、タッチ画面にわたるユーザの指のスワイプは、バーチャルブックのページをめくること／反転させることと解釈され得る。各ページがめくられ／反転されると、ページの内容の変化を見ることに加えて、ユーザには、ブック内のページをめくる音などの音声フィードバックが与えられ得る。

いくつかの実施形態では、コンピューティングデバイス（たとえば、マウス、キーボード）に加えて、１つ以上の入力デバイスが、コンピュータが生成した３Ｄ環境においてレンダリングされ得る。レンダリングされた入力デバイス（たとえば、レンダリングされたマウス、レンダリングされたキーボード）は、ＶＲ空間における対象を制御するためにＶＲ空間においてレンダリングされたものとして使用され得る。

コンピューティングデバイス８００は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータといった、さまざまな形態のデジタルコンピュータを表わすことを意図している。コンピューティングデバイス８５０は、携帯情報端末、セルラー電話、スマートフォン、および他の同様のコンピューティングデバイスといった、さまざまな形態のモバイルデバイスを表わすことを意図している。ここに示すコンポーネント、それらの接続および関係、ならびにそれらの機能は例示であることが意図されているに過ぎず、開示される実施形態を限定することを意図していない。

また、図面に示す論理フローは、所望の結果を達成するために、示されている特定の順序、または起こる順序を必要としない。また、記載のフローとは他のステップが提供されてもよく、または当該フローからステップが除去されてもよく、記載のシステムに他のコンポーネントが追加されてもよく、または当該システムからコンポーネントが除去されてもよい。したがって、他の実施形態も以下の請求項の範囲内にある。

Claims

動作を実行するよう、少なくとも１つの処理デバイスを有する画像処理システムを利用する、コンピュータによって実現される方法であって、
前記動作は、
ユーザの複数の入力画像を受信することと、
前記複数の入力画像から抽出された特徴の第１のセットと、前記複数の入力画像から抽出された特徴の第２のセットとに基づいて、３次元メッシュプロキシを生成することとを含み、前記３次元メッシュプロキシは、顔メッシュプロキシおよび平面プロキシを含み、
前記動作はさらに、
前記３次元メッシュプロキシおよび前記複数の入力画像に基づいて、ニューラルテクスチャを生成することと、
前記３次元メッシュプロキシおよび前記ニューラルテクスチャに少なくとも部分的に基づいて、前記ユーザの表現を生成することと、
前記ユーザの前記表現を使用して、前記３次元メッシュプロキシから、前記ニューラルテクスチャの少なくとも１つの部分をサンプリングすることと、
サンプリングされた前記少なくとも１つの部分をニューラルレンダラに提供することに応答して、前記画像処理システムによって以前に見られていない前記ユーザの合成画像を前記ニューラルレンダラから受信することとを含む、方法。
抽出された特徴の前記第１のセットは、前記ユーザの顔を表す特徴を含み、
抽出された特徴の前記第２のセットは、前記ユーザの髪および胴体の部分を表す特徴を含む、請求項１に記載の方法。
前記ニューラルテクスチャは、前記複数の入力画像を使用して生成される学習済ニューラルテクスチャであり、前記複数の入力画像は、前記ユーザの４つ未満のキャプチャされた画像フレームを含む、請求項１または２に記載の方法。
前記ニューラルテクスチャを生成することは、
各入力画像について潜在表現を生成することと、
各入力画像について生成された前記表現をベクトルに集約することと、
テクスチャジェネレータネットワークに前記ベクトルを提供することと、
前記テクスチャジェネレータネットワークから、前記ユーザを表す前記ニューラルテクスチャを受信することとを含む、請求項１～３のいずれか１項に記載の方法。
前記ニューラルテクスチャを生成することは、
前記入力画像に関連付けられる深度画像およびＵＶマップに基づいて、抽出された特徴の前記第１のセットおよび特徴の前記第２のセットを、ジオメトリを意識した特徴空間に投射することを含み、前記投射することは、前記複数の入力画像のマッチされた解像度を有する画像のセットを生成することを含み、
前記ニューラルテクスチャを生成することは、
各入力画像についてテクスチャを生成するよう、画像の前記セットをＵＶ空間にワーピングすることと、
各テクスチャについて、対応する入力画像における可視性メトリックを示すテクスチャ空間における各点についてのスコアマップを生成することと、
各入力画像についてアテンションウエイトを生成するよう、各スコアマップにソフトマックス演算を適用することと、
前記アテンションウエイトに従って決定される加重平均に従って前記テクスチャを集約することとを含む、請求項１～４のいずれか１項に記載の方法。
前記ユーザの生成された前記表現は、前記ニューラルテクスチャにおいて表される各表面点ごとの外観を表し、
前記方法は、前記ユーザの外観に関する高周波のディテールを表すよう、表面点ごとに外観記述子を格納することをさらに含む、請求項１～５のいずれか１項に記載の方法。
前記合成画像は、ビデオ会議のための修正された視線方向により前記ユーザを示すように生成され、前記修正された視線方向は、前記ビデオ会議を提供するシステムに関連付けられるカメラデバイスを見つめるユーザのビューをシミュレートする、請求項１～６のいずれか１項に記載の方法。
画像処理システムであって、
少なくとも１つの処理デバイスと、
実行されると、前記システムに動作を実行させる命令を格納するメモリとを含み、
前記動作は、
ユーザの複数の入力画像を受信することと、
前記複数の入力画像から抽出された特徴の第１のセットと、前記複数の入力画像から抽出された特徴の第２のセットとに基づいて、３次元メッシュプロキシを生成することとを含み、前記３次元メッシュプロキシは、顔メッシュプロキシおよび平面プロキシを含み、
前記動作はさらに、
前記３次元メッシュプロキシおよび前記複数の入力画像に基づいて、ニューラルテクスチャを生成することと、
前記３次元メッシュプロキシおよび前記ニューラルテクスチャに少なくとも部分的に基づいて、前記ユーザの表現を生成することと、
前記ユーザの前記表現を使用して、前記３次元メッシュプロキシから、前記ニューラルテクスチャの少なくとも１つの部分をサンプリングすることと、
サンプリングされた前記少なくとも１つの部分をニューラルレンダラに提供することに応答して、前記画像処理システムによって以前に見られていない前記ユーザの合成画像を前記ニューラルレンダラから受信することとを含む、画像処理システム。
抽出された特徴の前記第１のセットは、前記ユーザの顔を表す特徴を含み、
抽出された特徴の前記第２のセットは、前記ユーザの髪および胴体の部分を表す特徴を含む、請求項８に記載のシステム。
前記ニューラルテクスチャは、前記複数の入力画像を使用して生成される学習済ニューラルテクスチャであり、前記複数の入力画像は、前記ユーザの４つ未満のキャプチャされた画像フレームを含む、請求項８または９に記載のシステム。
前記ニューラルテクスチャを生成することは、
各入力画像について潜在表現を生成することと、
各入力画像について生成された前記表現をベクトルに集約することと、
テクスチャジェネレータネットワークに前記ベクトルを提供することと、
前記テクスチャジェネレータネットワークから、前記ユーザを表す前記ニューラルテクスチャを受信することとを含む、請求項８～１０のいずれか１項に記載のシステム。
前記ニューラルテクスチャを生成することは、
前記入力画像に関連付けられる深度画像およびＵＶマップに基づいて、抽出された特徴の前記第１のセットおよび特徴の前記第２のセットを、ジオメトリを意識した特徴空間に投射することを含み、前記投射することは、前記複数の入力画像のマッチされた解像度を有する画像のセットを生成することを含み、
前記ニューラルテクスチャを生成することは、
各入力画像についてテクスチャを生成するよう、画像の前記セットをＵＶ空間にワーピングすることと、
各テクスチャについて、対応する入力画像における可視性メトリックを示すテクスチャ空間における各点についてのスコアマップを生成することと、
各入力画像についてアテンションウエイトを生成するよう、各スコアマップにソフトマックス演算を適用することと、
前記アテンションウエイトに従って決定される加重平均に従って前記テクスチャを集約することとを含む、請求項８～１１のいずれか１項に記載のシステム。
前記合成画像は、ビデオ会議のための修正された視線方向により前記ユーザを示すように生成され、前記修正された視線方向は、前記ビデオ会議を提供するシステムに関連付けられるカメラデバイスを見つめるユーザのビューをシミュレートする、請求項８～１２のいずれか１項に記載のシステム。
命令を有するプログラムであって、前記命令は、プロセッサによって実行されると、コンピューティングデバイスに、
ユーザの複数の入力画像を受信することと、
前記複数の入力画像から抽出された特徴の第１のセットと、前記複数の入力画像から抽出された特徴の第２のセットとに基づいて、３次元メッシュプロキシを生成することとを行わせ、前記３次元メッシュプロキシは、顔メッシュプロキシおよび平面プロキシを含み、
前記命令はさらに、
前記３次元メッシュプロキシおよび前記複数の入力画像に基づいて、ニューラルテクスチャを生成することと、
前記３次元メッシュプロキシおよび前記ニューラルテクスチャに少なくとも部分的に基づいて、前記ユーザの表現を生成することと、
前記ユーザの前記表現を使用して、前記３次元メッシュプロキシから、前記ニューラルテクスチャの少なくとも１つの部分をサンプリングすることと、
サンプリングされた前記少なくとも１つの部分をニューラルレンダラに提供することと、
前記ユーザの合成画像を前記ニューラルレンダラから受信することとを行わせ、前記ユーザの前記合成画像は、前記ユーザの以前に見られていないビューを表す、プログラム。
抽出された特徴の前記第１のセットは、前記ユーザの顔を表す特徴を含み、
抽出された特徴の前記第２のセットは、前記ユーザの髪および胴体の部分を表す特徴を含む、請求項１４に記載のプログラム。
前記ニューラルテクスチャは、前記複数の入力画像を使用して生成される学習済ニューラルテクスチャであり、前記複数の入力画像は、前記ユーザの４つ未満のキャプチャされた画像フレームを含む、請求項１４または１５に記載のプログラム。
前記ニューラルテクスチャを生成することは、
各入力画像について潜在表現を生成することと、
各入力画像について生成された前記表現をベクトルに集約することと、
テクスチャジェネレータネットワークに前記ベクトルを提供することと、
前記テクスチャジェネレータネットワークから、前記ユーザを表す前記ニューラルテクスチャを受信することとを含む、請求項１４～１６のいずれか１項に記載のプログラム。
前記ニューラルテクスチャを生成することは、
前記入力画像に関連付けられる深度画像およびＵＶマップに基づいて、抽出された特徴の前記第１のセットおよび特徴の前記第２のセットを、ジオメトリを意識した特徴空間に投射することを含み、前記投射することは、前記複数の入力画像のマッチされた解像度を有する画像のセットを生成することを含み、
前記ニューラルテクスチャを生成することは、
各入力画像についてテクスチャを生成するよう、画像の前記セットをＵＶ空間にワーピングすることと、
各テクスチャについて、対応する入力画像における可視性メトリックを示すテクスチャ空間における各点についてのスコアマップを生成することと、
各入力画像についてアテンションウエイトを生成するよう、各スコアマップにソフトマックス演算を適用することと、
前記アテンションウエイトに従って決定される加重平均に従って前記テクスチャを集約することとを含む、請求項１４～１７のいずれか１項に記載のプログラム。
前記ユーザの生成された前記表現は、前記ニューラルテクスチャにおいて表される各表面点ごとの外観を表し、
前記命令は、前記ユーザの外観に関する高周波のディテールを表すよう、表面点ごとに外観記述子を格納することをさらに含む、請求項１４～１８のいずれか１項に記載のプログラム。
前記合成画像は、ビデオ会議のための修正された視線方向により前記ユーザを示すように生成され、前記修正された視線方向は、前記ビデオ会議を提供するシステムに関連付けられるカメラデバイスを見つめるユーザのビューをシミュレートする、請求項１４～１９のいずれか１項に記載のプログラム。