JP2024503596A

JP2024503596A - イメージ・ソースからのボリュメトリック・ビデオ

Info

Publication number: JP2024503596A
Application number: JP2023539970A
Authority: JP
Inventors: カガルリツキー，フセヴォロド; ケイナン，シャーリー; グリーン，アミール; バルーク，ヤイル; レブ，ロイ; バーンボイム，マイケル; タミール，マイケル
Original assignee: ユーム．コムリミテッド
Priority date: 2021-01-11
Filing date: 2022-01-11
Publication date: 2024-01-26
Also published as: WO2022149148A1; EP4275179A1; CA3204613A1; US20230050535A1

Abstract

１以上の生きた対象物を含む１以上の２Ｄイメージからの前記１以上の生きた対象物を含む１以上の３Ｄモデルを生成する方法は、１以上の２Ｄイメージをジオメトリ・ニューラル・ネットワークへ入力する工程、１以上の３Ｄモデルと前記１以上の２Ｄイメージとをテクスチャ・ニューラル・ネットワークへ入力する工程、２Ｄイメージをジオメトリ／テクスチャ・ニューラル・ネットワークへ入力する工程、前記１以上の２Ｄイメージから潜在空間表現を生成する工程、２Ｄイメージをテクスチャ・ニューラル・ネットワークへ入力する工程、３Ｄテクスチャ表現を生成する工程、潜在空間表現から３Ｄ対象物を生成する工程、１つの３Ｄ対象物と１つの３Ｄテクスチャ表現とを組み合わせてテクスチャ付き３Ｄ対象物とする工程、２Ｄイメージから潜在空間表現を生成する工程、潜在空間表現をジオメトリ／テクスチャ・ニューラル・ネットワークへ入力する工程、潜在空間表現からテクスチャ付き３Ｄモデルを生成する工程を含む。

Description

本発明は、一般的には、少なくとも１つの生きている対象物が含まれている少なくとも１つの２Ｄイメージから、その少なくとも１つの生きている対象物の１以上の３Ｄモデルを生成するシステムおよび方法と関連する。１以上の３Ｄモデルは、変更および増強することができる。結果として得られた１以上の３Ｄモデルは、少なくとも１つの２Ｄ表示イメージへと変換することができ、出力された２Ｄイメージ（１以上）の視点は、入力された２Ｄイメージ（１以上）の視点とは異なり得る。

米国特許第ＵＳ８３８４７１４号は、人物のデジタル表現を作り出すための様々な方法、装置、および記憶媒体を開示する。コンピュータ実装される１つのそのような方法によると、人物のボリュメトリック表現とその人物のイメージとが互いに関連付けされる。基準点が見つけられるが、それらの基準点は、人物の２つの時間的に異なるイメージのぞれぞれで共通であり、それらの基準点は、２つのイメージの間での人物の動きを表す。ボリュメトリック・デフォーメーションが、基準点と人物のデジタル表現の相関との関数として、人物のデジタル表現へ適用される。きめ細かいデフォーメーションが、粗い／ボリュメトリックのデフォーメーションの関数として、適用される。適用されたデフォーメーションに応じて、人物の更新されたデジタル表現が生成される。

しかしながら、ＵＳ８３８４７１４は、３Ｄ（ボリュメトリック）イメージを生成するために複数のカメラを用いることを開示している。

米国特許出願公開第ＵＳ２０１５／０１７８９８８号は、対象物または存在物の写実的３Ｄ再構築モデルを生成する方法を教示し、前記方法は、
ａ）対象物または存在物の一連のイメージを周囲の複数のカメラからキャプチャすることと、
ｂ）前記のキャプチャした一連のイメージから、前記の対象物または存在物のメッシュを生成することと、
ｃ）前記の対象物または存在物の前記のキャプチャした一連のイメージから得られた情報を用いて、テクスチャ・アトラスを作ることと、
ｄ）前記の生成されたメッシュを、重要部位の高精度のメッシュに従って変形させることと、
ｅ）多関節スケルトン・モデルを用い、そのスケルトン・モデルの複数の頂点へボーン・ウエイト（bone weight）を割り当てることにより、前記メッシュのリギングを行うことと
を含み、前記方法は、前記の３Ｄモデルを発音モデル（articulation model）として生成することを含み、これは、完全に自動のフレームワークでのアニメーションを可能とする意味情報を更に用いる。

しかしながら、ＵＳ２０１５／０１７８９８８は、複数の入力用２Ｄイメージを必要とする。

米国特許第ＵＳ９３１７９５４号は、適応モデルを用いたフェイシャル・パフォーマンス・キャプチャの技術を教示する。例えば、コンピュータ実装される方法は、対象物の３次元スキャン映像を取得することと、３次元スキャン映像を用いてブレンド・シェイプのセットを含むカスタマイズしたデジタル・モデルを生成することとを含むことができ、ブレンド・シェイプのセットにおける１以上のブレンド・シェイプのそれぞれは、対象物の特徴の少なくとも一部を表す。この方法は、対象物のビデオ・データと深度データとを含む入力データを受け取ることと、セットのブレンド・シェイプの１以上のものを用いて入力データのフィッティングを行うことにより、対象物の体の変形を追跡することと、１以上の適応型主成分分析（adaptive principal component analysis）形状を用いて、入力データへの、精緻化した線形モデルのフィッティングを行うこととを、更に含むことができる。

しかしながら、ＵＳ９３１７９５４は、初期のイメージ（１以上）が３Ｄイメージである方法を教示している。

米国特許第ＵＳ１０７９６４８０号は、ユーザの個人化した３Ｄ頭部モデルのイメージ・ファイルを生成する方法を開示し、この方法は、（ｉ）ユーザの顔の少なくとも１つの２Ｄイメージを取得するステップと、（ｉｉ）ユーザの顔の少なくとも１つの２Ｄイメージに基づいて、自動化された顔の２Ｄランドマーク認識を行うステップと、（ｉｉｉ）シェイプ・プライア（shape prior）を用いて３Ｄの顔ジオメトリ再構築を提供するステップと、（ｉｖ）３Ｄの顔ジオメトリ再構築に関してのテクスチャ・マップの生成および補間を提供して、ユーザの個人化した３Ｄ頭部モデルを生成するステップと、（ｖ）ユーザの個人化した３Ｄ頭部モデルのイメージ・ファイルを生成するステップとを含む。関連するシステムおよびコンピュータ・プログラム製品も開示されている。

しかしながら、ＵＳ１０７９６４８０は、自動的に測定した顔の特徴を正確な顔へと変換するために、「シェイプ・プライア」、即ち、所定のエスニシティ特有の顔および体の形状を、必要とする。更に、受け入れ可能な体の３Ｄモデルを生成するために、手動での介入や複数のイメージが必要とされる。

従って、１つの２Ｄイメージから、手動での介入無しで、少なくとも１つの変更可能および増強可能な３Ｄモデルを生成するシステムを提供することが必要とされているが、長く放置されている。

本発明の目的は、少なくとも１つの生きている対象物が含まれている少なくとも１つの２Ｄイメージから、その少なくとも１つの生きている対象物の１以上の変更可能および増強可能な３Ｄモデルを生成するシステムおよび方法を提供することである。

発明および発明の実際のインプリメンテーションをより良く理解できるように、ここで、限定するためのものではない単なる例として、添付の図面を参照して複数の実施形態について説明する。

図１は、入力された２Ｄイメージを３Ｄモデルへと変換し、圧縮した３Ｄモデルを端末装置へ送る方法を概略的に示す。図２は、２Ｄイメージを３Ｄモデルへと変換する方法の実施形態を概略的に示す。図３ａ、３ｂ、および３ｃは、入力された２Ｄイメージを３Ｄモデルへと変換し、圧縮した３Ｄモデルを端末装置へ送る方法を概略的に示す。図３ａ、３ｂ、および３ｃは、入力された２Ｄイメージを３Ｄモデルへと変換し、圧縮した３Ｄモデルを端末装置へ送る方法を概略的に示す。図３ａ、３ｂ、および３ｃは、入力された２Ｄイメージを３Ｄモデルへと変換し、圧縮した３Ｄモデルを端末装置へ送る方法を概略的に示す。

下記の説明は、本発明の全ての重要な部分に沿って、何れの当業者も前記の発明を使用できるようにするために提供しており、この発明を実施するための発明者が考える最適の態様を記載している。しかしながら、当業者には、様々な変更が残されていることは明らかであり、その理由は、本発明の包括的な本質は、２Ｄイメージから変更可能および増強可能な３Ｄモデルを生成する手段および方法を提供することと、具体的に定義しているからである。

ここでは、「イメージ」という用語は、イメージング・デバイスによりキャプチャされる１つの画像を示す。高座の位置からキャプチャしたダンスする二人の光景は、イメージの例を構成するが、この例は限定のためのものではない。黒い背景で顔のみを示すようにした顔の眺めは、イメージの例を構成するが、この例は限定のためのものではない。

ここでは、「一連のイメージ」という用語は、１つより多くのイメージを示し、その一連における各イメージとその次のイメージとは関連がある。一連のイメージは、典型的には、ビデオまたはフィルムの少なくとも一部を形成する。

ここでは、「対象物」という用語は、元のイメージにおいて可視である個別のものを示す。

ここでは、「モデル」という用語は、ソフトウェアにより生成された対象物を表したものを示す。限定を目的とせずここで用いる例として、人は対象物を構成する。ビデオ・イメージにキャプチャされている人もまた、対象物を構成する。ソフトウェアへ入力されて、それにより操作可能とされた人は、モデルを構成する。ソフトウェアから出力される人の３Ｄ表現もまた、モデルを構成する。

モデルは、標準的な２Ｄイメージを撮ることができる任意のデバイスから、１つの３Ｄモデルまたは一連の３Ｄモデル（ボリュメトリック・ビデオ）を作り出すことを、可能とする。

ボリュメトリック・ビデオは、この目的のために生成されたビデオ、古いビデオ、写真、およびこれらの任意の組み合わせから、生成することができる。例えば、既に死亡している人の写真や、子供のときの人の写真から、１以上の３Ｄモデルを構築することができる。別の例では、３Ｄモデル、一連の３Ｄモデル、またはボリュメトリック・ビデオは、コンサートや歴史に残る出来事などのような、フィルムにとらえられたイベントから生成することができる。別の例は、古い映画を「撮り直し」して、それにより、その映画のボリュメトリック・ビデオを生成することである。

方法のステップ：

１．１つのイメージまたは一連のイメージを取得する。

２．イメージ（１以上）をリモート・デバイス（好ましくは、クラウド内にある）へアップロードする。これは、計算能力が限定されているデバイスがアプリケーションを実行することを可能とするが、その理由は、リモートで、より強力なデバイス（１以上）で、分析が行われるからである。

３．３Ｄモデルを生成する。可能なオプションは下記のとおりである。
ａ．イメージ（１以上）を、３Ｄモデルを出力するジオメトリ・ニューラル・ネットワークへ入力し、次に、その結果を、そのモデルに対してのテクスチャを生成るすニューラル・ネットワークへ渡す。
ｂ．イメージ（１以上）を、３Ｄモデルの生成と、そのモデルのテクスチャの生成との双方を扱うニューラル・ネットワークへ入力する。
ｃ．幾つかの実施形態において、そのモデルを潜在空間（latent space）表現へと変換するオプションのステップを実行する。これは、ジオメトリ・ニューラル・ネットワークへの入力前に、またはジオメトリ・ニューラル・ネットワークまたはジオメトリ／テクスチャ・ニューラル・ネットワークからの出力後に、実行することができる。

４．幾つかの実施形態において、３Ｄモデルに対して又は潜在空間表現においての何れかで、３Ｄモデルのジオメトリ、テクスチャ、または双方に対する変更を行うことができる。限定のためのものではない例としての変更は、美化、アクセサリの付加、色の強調、色の変更、衣類の変更、衣類の付加、髪型の変更、髪の付加、およびこれらの任意の組み合わせ、身体的特徴の変更である。

５．増強や変更がなされた又はなされていない３Ｄモデルは、圧縮されて、レンダリングを行う端末装置へ送られる。幾つかの実施形態では、増強や変更がなされた又はなされていない潜在空間表現を、圧縮して、レンダリングを行う端末装置へ送ることができる。幾つかの実施形態では、増強や変更がなされた又はなされていない潜在空間表現が、圧縮されずに、レンダリングを行う端末装置へ送られるが、その理由は、潜在空間表現が既に圧縮されているからである。
ａ．幾つかの実施形態では、圧縮は３Ｄモデルに対して行われ、圧縮された３Ｄモデルは端末装置へ送られる。
ｂ．幾つかの実施形態では、潜在空間表現から３Ｄモデルへの変換は、端末装置で行われる。潜在空間表現の圧縮が行われる場合、それは端末装置への送信の前に行われる。

６．端末装置では、３Ｄモデルが、仮想カメラの視点から、２Ｄへとレンダリングされる。仮想カメラの視点は、元の入力の視点と同じである必要はない。限定するためのものではない例として、端末装置は、コンピュータ、モバイル・フォン、拡張現実ビューアー、または仮想現実（ＶＲ）ビューアーであり得る。ＡＲビューアーは、コンピュータ、モバイル・フォン、ヘッドアップ・ディスプレイ、ヘッドセット、ゴーグル、眼鏡、またはこれらの任意の組み合わせであり得る。ＶＲビューアーは、電話機、ヘッドセット、ヘルメット、ゴーグル、眼鏡、またはヘッドマウント式ディスプレイであり得る。端末装置での出力は、１つの２Ｄイメージ、一連の２Ｄイメージ、複数の２Ｄイメージ、１つの３Ｄモデル、一連の３Ｄモデル、および複数の３Ｄモデルであり得る。

７．レンダリングされたイメージは、ＡＲまたはＶＲの中に入れることができる。ＶＲである場合、イメージは、選択された３Ｄ環境においてレンダリングされる。

上記のものの何れかに関してのオプションの前処理段はセグメンテーション段を含み、これは、前景を背景から分離し、また、幾つかの実施形態では、１以上の対象物を背景から分離することができ、その１以上の対象物は、格納可能であり、更に分析可能であり、また、（望まれる場合は）背景および選択されていない対象物から離して操作可能である。セグメンテーション段は、セグメンテーション・ニューラル・ネットワークにより実装される。

好適には、ステップ（３）とステップ（４）との何れかで、元のイメージ（１以上）では見えなかった何れかの部分を生成することにより、３Ｄモデルを完成させる。

潜在空間表現を用いる実施形態に関しては、潜在空間を表すためにＮ数のフロート・ベクトル（float vector）が用いられる。幾つかの実施形態では、Ｎは１２８であるが、Ｎは、３０から１０^６の範囲であり得る。潜在空間ベクトルを受け取って３Ｄ表現を出力するジオメトリＮＮは「陰関数」型であり、そこでは、潜在空間ベクトルと点［ｘ，ｙ，ｚ］のセットとを受け取り、各点（ｘ_ｉ，ｙ_ｉ，ｚ_ｉ）に関して、その点が体の内側にあるか体の外側にあるかを記述するブール値を出力し、従って、３Ｄの体を記述する点のクラウドを生成する。

幾つかの実施形態では、陰関数の出力は、各点（ｘ_ｉ，ｙ_ｉ，ｚ_ｉ）に関して、色値（color value）と、その点が体の内側にあるか体の外側にあるかを記述するブール値とを含む。

幾つかの実施形態では、各点（ｘ_ｉ，ｙ_ｉ，ｚ_ｉ）に関して、ＮＮは、点が３Ｄモデルの内側か外側かについてと、色値とを返す。

限定するためではないが、色値は、ＣＩＥ、ＲＧＢ、ＹＵＶ、ＨＳＬ、ＨＳＶ、ＣＭＹＫ、ＣＩＥＬＵＶ、ＣＩＥＵＶＷ、およびＣＩＥＬＡＢとすることができる。

別の方法は、入力したテクスチャを３Ｄモデルへ投影し、陰関数を用いて、元の２Ｄイメージでは見えていなかった３Ｄモデルの複数の部分を生成することである。

幾つかの実施形態では、訓練セット（１以上）を用いてジオメトリック・ニューラル・ネットワーク（１以上）を訓練して、「正確」なテクスチャおよびジオメトリを３Ｄモデル（１以上）へ加えられるようにする。元のイメージ（１以上）は２Ｄなので、３Ｄモデルの一部は元の２Ｄイメージ（１以上）では見ることができず、従って、訓練セットにより、ジオメトリック・ニューラル・ネットワーク（１以上）は、欠落した部分を妥当に推定したものを３Ｄモデルへ付加することにより３Ｄモデルを完成させる方法を、学習する。そのような実施形態では、訓練されたＮＮは、本来は見えない部分（１以上）を、訓練セットから決定された、予想される欠落したテクスチャ（およびジオメトリ）を平均したもので満たす。限定するためのものではない例では、入力イメージは、バスケットボール・ジャージーを着た人の前面を示す。背面は見ることができず、その人のジャージーの背中側に付された番号が何であるかを伝える方法はない。訓練セットは、多くの様々な番号が付されたジャージーの背面を含むものであり得、従って、平均された出力から得られる「正確」な３Ｄモデルは、背面に番号の無いジャージーを含むものであろう。同様に、様々なジャージーでは、しわの位置が異なり得るので、ジャージーの背面はしわの無いものとなるであろう。

好適な実施形態では、１以上の敵対的生成ネットワーク（ＧＡＮ）を用いて、「正確」なモデルに代えて「現実的」なモデルを作成する。１以上のＧＡＮに代えて又はそれに加えて、１以上の変分エンコーダを用いることができる。ＧＡＮでは、「生成ネットワーク」および「識別ネットワーク」という２つの型のネットワークが用いられる。生成ネットワークは、入力を作り出してそれを識別ネットワークへ供給し、識別ネットワークは、受け取った入力が本物か否かを判定する。識別ネットワークが本物（「現実的入力（realistic input）」）であると判断した入力は、生成ネットワークへフィードバックすることができ、次に、生成ネットワークは、その現実的入力を、生成ネットワークが後に生成する入力のインスタンスを改善するために、用いることができる。

ＧＡＮを訓練するために、「正解（ground truth）」入力および生成ネットワーク入力という２つの型の入力が用いられ、正解入力とは、外部の観察者が本物と考えるものである。バスケットボール・プレーヤーの多くの方向からの写真から生成されたそのバスケットボール・プレーヤーの３Ｄモデルは、正解入力の例であるが、この例は限定のためのものではない。限定のための例ではないが、「バスケットボール・プレーヤー訓練セット」は、２０００年から２０２０年の間のニューヨーク・ニックスの全プレーヤーを含むことができる。限定のためではない別の例としての「バスケットボール・プレーヤー訓練セット」は、２０００年から２０２０年の間の全てのＮＢＡプレーヤーのランダムなサンプルであり得る。

正解入力および生成ネットワーク入力は識別ネットワークへ供給され、識別ネットワークは、受け取った入力が正解か否かを判定する。識別ネットワーク入力については、その識別ネットワーク入力が現実的であったか否か、ということがトレーナー（trainer）により検査される。これは、識別ネットワーク出力、ブールの生成ネットワーク入力／正解入力と比較される。識別ネットワークを「だました」生成ネットワーク入力は、次に、生成ネットワークの将来の性能を向上させるために、生成ネットワークへフィードバックさせることができる。ＧＡＮは、その識別ネットワーク出力が５０％の割合で正しいときには、訓練されたと考えられる。

全ての場合において、システムは、先入的知識が無くて元の対象物のジオメトリおよびテクスチャをよく知らないユーザが、現実的なテクスチャとされた３Ｄモデルまたは結果として得られた出力イメージ（１以上）が元の対象物を正確に再生している、と思い込むような十分に現実的なモデルを生成するように構成される。

ジオメトリおよびテクスチャは、対象物の元のイメージ（１以上）では見えなかった部分に対して生成される。限定するためのものではない例として、元の対象物が人の上半身の正面の２Ｄイメージであった場合、出力される３Ｄモデルは、その人の脚および足を含むものであり得、また、頭の後ろ側および元のイメージにおいて見える横側の一部を含めてのヘアスタイル含むものであり得る。

ジオメトリ・ニューラル・ネットワークおよびテクスチャ・ニューラル・ネットワークを用いる、またはジオメトリ・テクスチャ組み合わせ型ニューラル・ネットワークを用いる実施形態では、潜在空間表現を用いない。

ジオメトリ・ニューラル・ネットワークを用いる幾つかの実施形態では、テクスチャは生成されず、従って、テクスチャ・ニューラル・ネットワークは不要である。

幾つかの実施形態では、陰関数は、２Ｄイメージから直接的に生成される。幾つかの実施形態では、陰関数は、潜在空間表現から生成される。各点（ｘ_ｉ，ｙ_ｉ，ｚ_ｉ）に関して、ニューラル・ネットワークの出力は、その点が体の内側か外側かということと、その点と関連する色とである。

図１は、処理（１０００）の実施形態を示す。単一のイメージ、複数の２Ｄイメージ、または一連の２Ｄイメージであり得る初期の２Ｄイメージ（１以上）（１００５）が、クラウド（１０１０）へアップロードされる。幾つかのバージョンでは、イメージ（１以上）は、潜在空間表現（１０２０）を生成するニューラル・ネットワークへアップロードされ、その潜在空間表現は、ジオメトリ（１０２５）を生成するためにニューラル・ネットワークへ渡される。幾つかのバージョンでは、イメージ（１以上）は、ジオメトリ（１０２５）を生成するようにニューラル・ネットワークへ直接的にアップロードされる。次に、２Ｄイメージ（１以上）が３Ｄへと変換され、テクスチャが付加される（１０３０）。３Ｄモデル（１以上）（またはイメージの潜在空間表現）に対しての変更を行うことができる（図には示していない）。次に、結果として得られたテクスチャを付加された３Ｄモデル（１以上）（またはイメージの潜在空間表現）は、圧縮され（１０３５）、表示のために端末装置（１０４０）へ送られる。典型的には、端末装置は、表示のために、３Ｄモデル（１以上）を１以上の２Ｄ表現にしたものを生成する。しかしながら、表示は３Ｄホログラムとすることもできる。

図２は、方法（１１００）の実施形態のフローチャートを示す。１以上のイメージまたは一連のイメージが取得される（１１０５）。イメージ（１以上）は、新たなもの（システムによりキャプチャ）または古いもの（システムにより取得）であり得る。イメージ（１以上）は、クラウドへアップロードされ（１１１０）、１以上のボリュメトリック・イメージまたは１以上のボリュメトリック・モデルへと変換され、（１１１５）、それによりボリュメトリック・ビデオまたはボリュメトリック・モデルが生成される。この時点で、望まれる場合には、上述のように、１以上のモデルまたはイメージ（１以上）内の１以上の対象物の変更を行うことができる（１１２０）。結果として得られたモデル（１以上）またはイメージ（１以上）は、次に、上述のように、圧縮され（１１２５）、端末装置へ送られ（１１３０）、そこにおいて、１以上の２Ｄモデルまたは２Ｄイメージ、または一連の２Ｄモデルまたは２Ｄイメージへとレンダリングされる（１１３５）。結果的に得られた、レンダリングされ出力されたモデルまたはイメージ（１以上）は、１以上の異なる視点からの１以上の２Ｄイメージ、ＡＲ表示、ＶＲ表示、およびこれらの任意の組み合わせであり得る。

図３Ａ－Ｃは、テクスチャを付加された３Ｄモデルを生成する方法の例としての実施形態を示す。

図３Ａは、ジオメトリおよびテクスチャを生成するために異なるニューラル・ネットワークが用いられる方法（１２００）を概略的に示す。２Ｄイメージ（１以上）（１２０５）が、ジオメトリ・ニューラル・ネットワーク（１２１０）とテクスチャ・ニューラル・ネットワーク（１２１５）とへ入力される。ジオメトリの抽出（１２１０）とテクスチャの抽出（１２１５）とは、示されているように並列に、または順に（示されていない）、行うことができる。次に、ジオメトリ（１２１０）とテクスチャ（１２１５）とを組み合わせて、それにより３Ｄ（ボリュメトリック）ビデオを生成することができる（１２２５）。

図３Ｂは、ジオメトリとテクスチャとの双方を生成するために同じニューラル・ネットワークが用いられる方法（１３００）を概略的に示す。２Ｄイメージ（１以上）（１３０２）がニューラル・ネットワーク（１３０５）へ入力され、このニューラル・ネットワークは、初期のイメージ（１以上）からジオメトリとテクスチャとの双方を決定することができる。そのジオメトリおよびテクスチャから、３Ｄ（ボリュメトリック）ビデオを生成することができる（１３２５）。

図３Ｃは、ジオメトリとテクスチャとが潜在空間表現を介して生成される方法（１４００）を概略的に示す。２Ｄイメージ（１以上）（１４０５）が、潜在空間表現へと変換され（１４１０）、次に、３Ｄ表現が生成される（１４１５）。３Ｄ（ボリュメトリック）ビデオは、クラウドまたは端末装置において、３Ｄ表現（１４１５）から生成することができる（示していない）。

例１
ダンスしている人のビデオが生成されている。ダンスしている人の一連の３Ｄモデルがビデオから生成される。ダンスしている人の一連の３Ｄモデルは、次に、予め定めた３Ｄ環境の中へはめ込まれ、例えば、ソーシャル・メディアで公表される。結果として生じたものは、３Ｄ環境内の３Ｄのダンサーが含まれる３Ｄで、ＶＲまたはＡＲで、見ることができ、また、仮想カメラの視点から２Ｄで見ることができ、その仮想カメラの視点は、予め定めた形で、またはユーザに制御される形で、またはそれらの任意の組み合わせの形で動く。

限定のためのものではない例として、元のビデオは、ムーンウォークを行っている人を含み得る。結果的に得られたボリュメトリック・ビデオは、次に、マイケル・ジャクソンのスリラーを含む予め準備した３Ｄ環境へ、はめ込むことができる。

例２
ウェディングの写真やウェディングのビデオを、新婦と新郎との３Ｄホログラムに変換することができる。ＶＲを用いてこれを表示する場合、ユーザは、結婚式の仮想の来客とすることができる。

ＡＲでは、ユーザは、例えば、ユーザのリビング・ルームでウェディング・ダンスをしている新郎新婦を見ることができる。

例３
ビデオや映画に収められた歴史的イベントを３Ｄホログラムに変換することができる。歴史的イベントがＶＲまたはＡＲで表示される場合、ユーザは、聴衆の一部として、また、おそらくはステージから、レッド・ツェッペリンのコンサートへ「参加する」こと、オペラを「観覧する」こと、ケネディの「イッヒ・ビン・アイン・ベルリーナー」演説や他の他のイベントを「見る」ことができる。

同様に、ＶＲでは、人は、映画のキャラクタと「なる」ことができ、俳優やセットに囲まれ、また、ＡＲでは、ユーザの家や他の場所で映画の最後まで演じることができる。

例４
スポーツ・カメラ・イメージを、ホログラムに変換し、そして、限定のためではない例としては、誰が視線を有していたかや、審判がどこを見ていたかや、ボールが内側にあったか外側にあったかや、オフサイドであったかや、或る選手から別の選手への反則行為があったかなどについての試合後の分析に用いることができる。更に、質問を行うことができ、質問は、審判は審判の立っている位置から攻撃を見ることができたか、審判がどこから見ていたか、何れの審判が攻撃を見ることができたか（見たはずであろうか）などである。

セキュリティ・カメラもまた、３Ｄホログラムに変換することができる。そのようなホログラムは、泥棒を特定すること（限定のためではない例としては、容疑者のボディー・ランゲージが泥棒のものと同じであるか）や、セキュリティの欠陥（何れの警備員が侵入者を見ることができたか又は見ていたはずであるかや、侵入者がカメラの死角に隠れていたか）を特定することを支援するために、用いることができる。

例５
ユーザは、ユーザ自身を３Ｄビデオ・ゲームへ「挿入する」ことができる。

幾つかの実施形態では、ユーザは、少なくとも１つのビデオを作るが、そのビデオの中で、ユーザは、ゲームにおける少なくとも１つの予め定められた動き、例えば、限定ではないが、蹴る、殴る、走る、掘る、登る、および下るなどを行う。ビデオ（１以上）は、３Ｄへと変換され、それらの３Ｄシークエンスを用いるビデオ・ゲームへ挿入される。ユーザがそのゲームを行うとき、ユーザは、ユーザ自身をゲーム・キャラクタとして見ることになり、コマンドにより３Ｄシークエンスを実行させる。

他の実施形態では、ユーザは、好適には、ユーザの体の全体の単一のイメージを撮ることができる。このイメージは３Ｄへと変換され、自動リギングを用いることによりその単一のイメージが操作されて１以上の３Ｄモデル・シークエンスが生成され、それにより、ゲームにおける少なくとも１つの予め定められた動きが生成される。それらのシークエンス（１以上）は、それらの３Ｄシークエンスを用いるビデオ・ゲームへ挿入される。ユーザがそのゲームを行うとき、ユーザは、ユーザ自身をゲーム・キャラクタとして見ることになり、コマンドにより３Ｄシークエンスを実行させる。

例６
３Ｄモデル（１以上）の物理的特徴を変更することができる。限定のためではない例として、チェストのサイズを変更すること、バストのサイズや形を変更すること、モデルの筋肉を変更すること、モデルの性別を変更すること、年格好を変更すること、モデルがアニメ映画キャラクタのように見えるようにすること、モデルが外国人のように見えるようにすること、モデルが動物のように見えるようにすること、およびそれらを任意に組み合わせることが、可能である。

限定のためではない例では、人の耳、眉毛、および肌の色を変更することができ、その人をバルカン人のようにすることができ、そのバルカン人をスター・トレックの一連のシーンへ挿入することができる。

限定のためではない別の例では、ウェイト・リフティングを行っている人のビデオ撮影を行うことができ、それの３Ｄモデルを２回変更することができ、一回は、その人が筋骨たくましいようにして、容易に重りを上げているようにし、また、一回は、その人がひ弱であるようにして、かなりの困難を伴って重りを上げているようにする。

限定のためではない別の例では、水着の女性のイメージを変更して、ツイッギー（細身のモデル）としての彼女が、ジェーン・マンスフィールド（曲線美の女優）としての彼女自身と遊歩道を歩くようにすることができる。

限定のためではない更に別の例では、女性のモデルを、そのヘア・スタイル、衣装、および体型を変更することにより、彼女はルイ１４世の宮廷の子供として１８世紀の邸宅を出て、彼女はナポレオン時代の１４歳のイギリス人女性へと変身し、次に、彼女の十代後半にはビクトリア朝中期のメキシコ人へと変身し、次に、彼女の二十代前半には第一次世界大戦の看護師へと変身し、彼女の二十代後半にはロシア人の「現代娘」へと変身し、彼女の三十代前半には第二次世界大戦のアメリカ人のパイロットへと変身し、以下同様に続き、最後に、彼女の四十代前半には２２世紀の宇宙船に船長として所属する、といったように変えることができる。

Claims

少なくとも１つの生きている対象物が含まれる少なくとも１つの２Ｄイメージからの前記少なくとも１つの生きている対象物が含まれる少なくとも１つの３Ｄモデルを生成する方法であって、
少なくとも１つの２Ｄイメージを得るステップと、
以下のステップのセットのうちの少なくとも１つを実行するステップであって、
セット１は、
前記少なくとも１つの２Ｄイメージを、少なくとも１つの３Ｄモデルを前記少なくとも１つの２Ｄイメージから生成するジオメトリ・ニューラル・ネットワークへ、入力するステップと、
前記少なくとも１つの３Ｄモデルと前記少なくとも１つの２Ｄイメージとを、テクスチャが付加された少なくとも１つの３Ｄモデルを前記少なくとも１つの３Ｄモデルから生成するテクスチャ・ニューラル・ネットワークへ、入力するステップと
であり、
セット２は、
前記少なくとも１つの２Ｄイメージを、テクスチャが付加された少なくとも１つの３Ｄモデルを前記少なくとも１つの２Ｄイメージから生成するジオメトリ／テクスチャ・ニューラル・ネットワークへ、入力するステップ
であり、
セット３は、
前記少なくとも１つの２Ｄイメージから少なくとも１つの潜在空間表現を生成するステップと、
前記少なくとも１つの２Ｄイメージをテクスチャ・ニューラル・ネットワークへ入力し、少なくとも１つの３Ｄテクスチャ表現を生成するステップと、
前記少なくとも１つの潜在空間表現から少なくとも１つの３Ｄ対象物を生成するステップと、
前記少なくとも１つの３Ｄ対象物と前記少なくとも１つの３Ｄテクスチャ表現とを組み合わせて、テクスチャが付加された少なくとも１つの３Ｄ対象物を生成するステップと
であり、
セット４は、
前記少なくとも１つの２Ｄイメージから少なくとも１つの潜在空間表現を生成するステップと、
前記少なくとも１つの潜在空間表現を、テクスチャが付加された少なくとも１つの３Ｄモデルを前記少なくとも１つの潜在空間表現から生成するジオメトリ／テクスチャ・ニューラル・ネットワークへ、入力するステップと
である、ステップと
を含み、それにより、前記少なくとも１つの２Ｄイメージからの前記少なくとも１つの生きている対象物を含むものでありテクスチャが付加されている前記少なくとも１つの３Ｄモデルを生成する
方法。
請求項１に記載の方法であって、前記少なくとも１つの２Ｄイメージをクラウドへアップロードするステップと、前記セット１、前記セット２、前記セット３、および前記セット４を含むグループから選択された少なくとも１つのステップを行うステップと、テクスチャが付加された前記少なくとも１つの３Ｄモデルを、レンダリングを行う端末装置へダウンロードするステップとを更に含む方法。
請求項１に記載の方法であって、テクスチャが付加された前記少なくとも１つの３Ｄモデルを予め準備した環境へはめ込むステップを更に含む方法。
請求項１に記載の方法であって、少なくとも１つの敵対的生成ネットワーク（ＧＡＮ）を提供するステップを更に含む方法。
請求項４に記載の方法であって、前記ジオメトリ・ニューラル・ネットワークと、前記テクスチャ・ニューラル・ネットワークと、前記ジオメトリ／テクスチャ・ニューラル・ネットワークと、前記ジオメトリ・ニューラル・ネットワークおよび前記テクスチャ・ニューラル・ネットワークの双方とを含むグループの１つのメンバーについて、前記少なくとも１つのＧＡＮの一部としての訓練を行うステップを更に含む方法。
請求項４に記載の方法であって、前記ＧＡＮが、前記少なくとも１つの２Ｄイメージでは見えない前記少なくとも１つの３Ｄモデルの各部に関して、前記少なくとも１つの３Ｄモデルの現実的な完成形を生成するステップを更に含む方法。
請求項１に記載の方法であって、セグメンテーション・ニューラル・ネットワークにより実装されるセグメンテーション段を提供するステップを更に含む方法。
請求項７に記載の方法であって、前記セグメンテーション・ニューラル・ネットワークを介して、前記少なくとも１つのイメージの前景を前記少なくとも１つのイメージの背景から分離するステップを更に含む方法。
請求項７に記載の方法であって、前記セグメンテーション段が前記少なくとも１つの生きている対象物を前記背景から分離するステップを更に含む方法。
請求項９に記載の方法であって、前記セグメンテーション段が前記前景と前記少なくとも１つの生きている対象物とのうちの少なくとも１つを格納するステップを更に含む方法。
請求項１に記載の方法であって、テクスチャが付加された前記少なくとも１つの３Ｄモデルを美化するステップと、テクスチャが付加された前記少なくとも１つの３Ｄモデルへ少なくとも１つのアクセサリを付加するステップと、テクスチャが付加された前記少なくとも１つの３Ｄモデルの少なくとも一部の少なくとも１つの色を強めるステップと、テクスチャが付加された前記少なくとも１つの３Ｄモデルの少なくとも一部の少なくとも１つの色を変更するステップと、テクスチャが付加された前記少なくとも１つの３Ｄモデルの衣装の少なくとも一品の少なくとも一部を変更するステップと、テクスチャが付加された前記少なくとも１つの３Ｄモデルのヘアスタイルの少なくとも一部を変更するステップと、テクスチャが付加された前記少なくとも１つの３Ｄモデルの少なくとも一部の少なくとも１つのテクスチャを変更するステップと、テクスチャが付加された前記少なくとも１つの３Ｄモデル少なくとも１つの物理的特徴を変更するステップとのうちの少なくとも１つのステップを更に含む方法。
請求項１に記載の方法であって、テクスチャが付加された前記少なくとも１つの３Ｄモデルを圧縮して、圧縮された少なくとも１つの３Ｄモデルを生成するステップと、圧縮された前記少なくとも１つの３Ｄモデルを、レンダリングを行う前記端末装置へ入力するステップと、レンダリングを行う前記端末装置が、圧縮された前記少なくとも１つの３Ｄモデルから、少なくとも１つの２Ｄ出力イメージを生成するステップとを更に含む方法。
請求項１２に記載の方法であって、仮想カメラの視点から前記少なくとも１つの２Ｄ出力イメージを生成するステップを更に含む方法。
請求項１３に記載の方法であって、コンピュータ、モバイル・フォン、人工現実装置、仮想現実装置、およびこれらの任意の組み合わせを含むグループから、レンダリングを行う前記端末装置を選択するステップを更に含む方法。
請求項１３に記載の方法であって、前記少なくとも１つの２Ｄ出力イメージは人工現実イメージである、方法。
請求項１３に記載の方法であって、前記少なくとも１つの２Ｄ出力イメージは、仮想現実環境におけるイメージの生成のために構成され、予め定められた３Ｄ環境へはめ込まれる、方法。
請求項１に記載の方法であって、前記少なくとも１つの潜在空間表現を圧縮して、圧縮された少なくとも１つの潜在空間表現を生成するステップと、前記少なくとも１つの潜在空間表現を、レンダリングを行う前記端末装置へ入力するステップと、レンダリングを行う前記端末装置が、少なくとも１つの３Ｄモデルを前記少なくとも１つの潜在空間表現から生成するステップとを更に含む方法。
請求項１に記載の方法であって、前記少なくとも１つの潜在空間表現を、レンダリングを行う前記端末装置へ入力するステップと、レンダリングを行う前記端末装置が、少なくとも１つの３Ｄモデルを前記少なくとも１つの潜在空間表現から生成するステップとを更に含む方法。
請求項１４に記載の方法であって、前記少なくとも１つの３Ｄモデルから少なくとも１つの２Ｄ出力イメージを生成するステップを更に含む方法。
請求項１９に記載の方法であって、仮想カメラの視点から前記少なくとも１つの２Ｄ出力イメージを生成するステップを更に含む方法。
請求項１９に記載の方法であって、コンピュータ、モバイル・フォン、人工現実装置、仮想現実装置、およびこれらの任意の組み合わせを含むグループから、レンダリングを行う前記端末装置を選択するステップを更に含む方法。
請求項１９に記載の方法であって、前記少なくとも１つの２Ｄ出力イメージは人工現実イメージである、方法。
請求項１４に記載の方法であって、前記少なくとも１つの２Ｄ出力イメージは、仮想現実環境におけるイメージの生成のために構成され、予め定められた３Ｄ環境へはめ込まれる、方法。
実行されると、少なくとも１つの生きている対象物が含まれる少なくとも１つの２Ｄイメージからの前記少なくとも１つの生きている対象物が含まれる少なくとも１つの３Ｄモデルを生成するように構成された実行可能パッケージであって、ソフトウェアを含み、
前記ソフトウェアは、
少なくとも１つの２Ｄイメージを得ることと、
以下のステップのセットのうちの少なくとも１つのセットを実行することであって、
セット１は、
前記少なくとも１つの２Ｄイメージを、少なくとも１つの３Ｄモデルを前記少なくとも１つの２Ｄイメージから生成するジオメトリ・ニューラル・ネットワークへ、入力するステップと、
前記少なくとも１つの３Ｄモデルと前記少なくとも１つの２Ｄイメージとを、テクスチャが付加された少なくとも１つの３Ｄモデルを前記少なくとも１つの３Ｄモデルから生成するテクスチャ・ニューラル・ネットワークへ、入力するステップと
であり、
セット２は、
前記少なくとも１つの２Ｄイメージを、テクスチャが付加された少なくとも１つの３Ｄモデルを前記少なくとも１つの２Ｄイメージから生成するジオメトリ／テクスチャ・ニューラル・ネットワークへ、入力するステップ
であり、
セット３は、
前記少なくとも１つの２Ｄイメージから少なくとも１つの潜在空間表現を生成するステップと、
前記少なくとも１つの２Ｄイメージをテクスチャ・ニューラル・ネットワークへ入力し、少なくとも１つの３Ｄテクスチャ表現を生成するステップと、
前記少なくとも１つの潜在空間表現から少なくとも１つの３Ｄ対象物を生成するステップと、
前記少なくとも１つの３Ｄ対象物と前記少なくとも１つの３Ｄテクスチャ表現とを組み合わせて、テクスチャが付加された少なくとも１つの３Ｄ対象物を生成するステップと
であり、
セット４は、
前記少なくとも１つの２Ｄイメージから少なくとも１つの潜在空間表現を生成するステップと、
前記少なくとも１つの潜在空間表現を、テクスチャが付加された少なくとも１つの３Ｄモデルを前記少なくとも１つの潜在空間表現から生成するジオメトリ／テクスチャ・ニューラル・ネットワークへ、入力するステップと
であることと、
を実行するよう構成され、
前記生きている対象物を含む、テクスチャが付加されている前記少なくとも１つの３Ｄモデルが、前記少なくとも１つの２Ｄイメージから生成される、
実行可能パッケージ。
請求項２４に記載の実行可能パッケージであって、前記少なくとも１つの２Ｄイメージをクラウドへアップロードする機能と、前記セット１、前記セット２、前記セット３、および前記セット４を含むグループから選択された少なくとも１つのステップを行う機能と、テクスチャが付加された前記少なくとも１つの３Ｄモデルを、レンダリングを行う端末装置へダウンロードする機能とのうちの少なくとも１つの機能を実行させるように構成されたソフトウェアを更に含む実行可能パッケージ。
請求項２４に記載の実行可能パッケージであって、テクスチャが付加された前記少なくとも１つの３Ｄモデルを予め準備した環境へはめ込む機能を行わせるように構成されたソフトウェアを更に含む実行可能パッケージ。
請求項２４に記載の実行可能パッケージであって、前記ソフトウェアは少なくとも１つの敵対的生成ネットワーク（ＧＡＮ）を更に含む、実行可能パッケージ。
請求項２７に記載の実行可能パッケージであって、前記ジオメトリ・ニューラル・ネットワークと、前記テクスチャ・ニューラル・ネットワークと、前記ジオメトリ／テクスチャ・ニューラル・ネットワークと、前記ジオメトリ・ニューラル・ネットワークおよび前記テクスチャ・ニューラル・ネットワークの双方とを含むグループの１つのメンバーについて、前記少なくとも１つのＧＡＮの一部としての訓練を行う機能を実行させるように構成されたソフトウェアを更に含む実行可能パッケージ。
請求項２７に記載の実行可能パッケージであって、前記ＧＡＮが、前記少なくとも１つの２Ｄイメージでは見えない前記少なくとも１つの３Ｄモデルの各部に関して、前記少なくとも１つの３Ｄモデルの現実的な完成形を生成するようにさせる機能を実行させるように構成されたソフトウェアを更に含む実行可能パッケージ。
請求項２４に記載の実行可能パッケージであって、セグメンテーション・ニューラル・ネットワークにより実装されるセグメンテーション段を提供するように構成されたソフトウェアを更に含む実行可能パッケージ。
請求項３０に記載の実行可能パッケージであって、前記セグメンテーション・ニューラル・ネットワークを介して、前記少なくとも１つのイメージの前景を前記少なくとも１つのイメージの背景から分離するように構成されたソフトウェアを更に含む実行可能パッケージ。
請求項３０に記載の実行可能パッケージであって、前記セグメンテーション段において前記少なくとも１つの生きている対象物を前記背景から分離するように構成されたソフトウェアを更に含む実行可能パッケージ。
請求項３２に記載の実行可能パッケージであって、前記セグメンテーション段において前記前景と前記少なくとも１つの生きている対象物とのうちの少なくとも１つを格納するように構成されたソフトウェアを更に含む実行可能パッケージ。
請求項２４に記載の実行可能パッケージであって、テクスチャが付加された前記少なくとも１つの３Ｄモデルを美化する機能と、テクスチャが付加された前記少なくとも１つの３Ｄモデルへ少なくとも１つのアクセサリを付加する機能と、テクスチャが付加された前記少なくとも１つの３Ｄモデルの少なくとも一部の少なくとも１つの色を強める機能と、テクスチャが付加された前記少なくとも１つの３Ｄモデルの少なくとも一部の少なくとも１つの色を変更する機能と、テクスチャが付加された前記少なくとも１つの３Ｄモデルの衣装の少なくとも一品の少なくとも一部を変更する機能と、テクスチャが付加された前記少なくとも１つの３Ｄモデルのヘアスタイルの少なくとも一部を変更する機能と、テクスチャが付加された前記少なくとも１つの３Ｄモデルの少なくとも一部の少なくとも１つのテクスチャを変更する機能と、テクスチャが付加された前記少なくとも１つの３Ｄモデル少なくとも１つの物理的特徴を変更する機能とのうちの少なくとも１つの機能を実行させるように構成されたソフトウェアを更に含む実行可能パッケージ。
請求項２４に記載の実行可能パッケージであって、テクスチャが付加された前記少なくとも１つの３Ｄモデルを圧縮して、圧縮された少なくとも１つの３Ｄモデルを生成する機能と、圧縮された前記少なくとも１つの３Ｄモデルを、レンダリングを行う前記端末装置へ入力する機能と、レンダリングを行う前記端末装置に、少なくとも１つの２Ｄ出力を生成させる機能とを実行させるように構成されたソフトウェアを更に含む実行可能パッケージ。
請求項３５に記載の実行可能パッケージであって、前記少なくとも１つの２Ｄ出力イメージは仮想カメラの視点から生成される、実行可能パッケージ。
請求項３６に記載の実行可能パッケージであって、コンピュータ、モバイル・フォン、人工現実装置、仮想現実装置、およびこれらの任意の組み合わせを含むグループから、レンダリングを行う前記端末装置が選択される、実行可能パッケージ。
請求項３６に記載の実行可能パッケージであって、前記少なくとも１つの２Ｄ出力イメージは人工現実イメージである、実行可能パッケージ。
請求項３６に記載の実行可能パッケージであって、前記少なくとも１つの２Ｄ出力イメージは、仮想現実環境におけるイメージの生成のために構成され、予め定められた３Ｄ環境へはめ込まれる、実行可能パッケージ。
請求項２４に記載の実行可能パッケージであって、前記少なくとも１つの潜在空間表現を圧縮して、圧縮された少なくとも１つの潜在空間表現を生成する機能と、前記少なくとも１つの潜在空間表現を、レンダリングを行う前記端末装置へ入力する機能と、レンダリングを行う前記端末装置に、少なくとも１つの３Ｄモデルを前記少なくとも１つの潜在空間表現から生成させる機能とを実行させるように構成されたソフトウェアを更に含む実行可能パッケージ。
請求項２４に記載の実行可能パッケージであって、前記少なくとも１つの潜在空間表現を、レンダリングを行う前記端末装置へ入力する機能と、レンダリングを行う前記端末装置に、少なくとも１つの３Ｄモデルを前記少なくとも１つの潜在空間表現から生成させる機能とを実行させるように構成されたソフトウェアを更に含む実行可能パッケージ。
請求項４１に記載の実行可能パッケージであって、少なくとも１つの２Ｄ出力イメージが前記少なくとも１つの３Ｄモデルから生成される、実行可能パッケージ。
請求項４１に記載の実行可能パッケージであって、前記少なくとも１つの２Ｄ出力イメージは仮想カメラの視点からのものである、実行可能パッケージ。
請求項４１に記載の実行可能パッケージであって、コンピュータ、モバイル・フォン、人工現実装置、仮想現実装置、およびこれらの任意の組み合わせを含むグループから、レンダリングを行う前記端末装置が選択される、実行可能パッケージ。
請求項４１に記載の実行可能パッケージであって、前記少なくとも１つの２Ｄ出力イメージは人工現実イメージである、実行可能パッケージ。
請求項４１に記載の実行可能パッケージであって、前記少なくとも１つの２Ｄ出力イメージは、仮想現実環境におけるイメージの生成のために構成され、予め定められた３Ｄ環境へはめ込まれる、実行可能パッケージ。