JP7403534B2

JP7403534B2 - 人間の３ｄ再構成を生成するための方法とシステム

Info

Publication number: JP7403534B2
Application number: JP2021510696A
Authority: JP
Inventors: カッペロ、ファビオ; ジョンウィリアムズ、ナイジェル; グプタ、ラジーブ
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2018-09-12
Filing date: 2019-09-04
Publication date: 2023-12-22
Anticipated expiration: 2039-09-04
Also published as: GB2583687A; WO2020053551A1; GB201814835D0; GB2583687B; JP2021536613A; US20210256776A1; EP3850588A1; US11941772B2

Description

本開示は、３Ｄで人間を再構成するための方法およびシステムに関する。

人間を３次元でグラフィカルに表現することが望ましいアプリケーションは数多くある。一例では、これは、ビデオゲームでプレーヤーのアバターを生成することを含むことができる。アバターの物理的外観は、プレーヤーの実際の物理的外観、現実世界に対応する。プレーヤーとアバターとの類似性は、ゲーム内でのプレーヤーの存在感を向上させるとともに、プレーヤーとの個人的なつながりを提供し得る。

たとえば、プレーヤーが友人とリモートでプレイしているマルチプレーヤービデオゲームでは、友人のアバターと友人の実際の物理的な外観との類似性は、両方のプレーヤーが物理的に存在しているように感じさせるように機能し得る。これは特に、たとえば、両方のプレーヤーが仮想現実で表されているプレーヤーの動きと表情とともに仮想現実で表されている場合に当てはまる。仮想現実アプリケーションは、ユーザが現実の外の世界から完全に切り離されているため、反社会的であると批判されることがよくある。

人間を３Ｄで再構成するための現在の方法は、点群を形成するためのカラー及びデプス画像のキャプチャを含む。点群は、人間を表すメッシュを生成するために使用され、それに表面テクスチャが追加される。点群の生成は多くの細部を保持する一方で、キャプチャされたカラー及びデプス画像において遮られた人間の部分によってカラー及び／又はデプスの情報が欠落している場合などに問題が発生し得る。

３Ｄで人間を再構成するための他の既知の方法は、変形可能なモデルフィッティングの使用を含む。これらの方法では、人間の一般的な形状を表すパラメータ化されたモデルが、キャプチャされたカラー画像内の人間に対応するようにモーフィング（morph）される。典型的には、これは、キャプチャされたカラー画像内の複数の特徴点を識別し、識別された特徴点に基づいてモデルをモーフィングすることを含む。しかしながら、これらの方法では、例えば、髪の毛や衣服によって遮られた人間の任意の部分は変形可能なモデルを使用して表現することができないため、細部が失われる。

本発明は、これらの問題を低減することを目的とする。

本明細書に開示される第１の態様によれば、請求項１に記載の方法が提供される。

本明細書に開示される第２の態様によれば、請求項１２に記載のシステムが提供される。

本開示の理解を支援し、実施形態がどのように実施され得るかを示すために、以下の添付の図面を例として参照する。

人間の対象の点群の例を概略的に示す図である。人間の対象の３Ｄ再構成を生成するためのフローチャートを示す。差し引き操作後の、人間の対象の点群の例を概略的に示す図である。人間の対象を表す調整されたパラメトリックモデルの例を概略的に示す図である。複数の項目の３Ｄ表現と組み合わされた再構成された人間の対象の例を概略的に示す図である。本開示に係るシステムの例を概略的に示す図である。

図１は、各々の視点からの点群１００の例を概略的に示す。

図１では、点群の対象は、正面から見た人間１０２に対応する。図１において、点群は、人間１０２が実線の輪郭を有するように見えるように十分な密度であることが理解されよう。他の例では、点群はまばらである場合があり、したがって、明確なエッジのない複数の別個の点として現れる。

図１では、人間は顔１０４を有し、その少なくとも一部は髪１０６によって遮られていることが分かる。人間の体はまた、少なくとも部分的に衣服１０８によって遮られているように示されている。腕１１０および脚１１２などの人間の身体の他の部分は、衣服によって遮られていないものとして示されている。図１では、マグカップ１１４を保持している右手（人間の対象の視点から）が示されている。

図１では、カラー及びデプスの情報（及びそのため点群内のそれぞれの点）が欠落している領域１１６が存在することが分かる。この情報は、人間の対象をキャプチャした少なくとも１つのカラー及びデプス画像でこれらの部分が遮られているために欠落している可能性がある。このオクルージョンは、カラー及びデプス画像をキャプチャするために使用されるカメラの位置及び向きの結果として発生した可能性がある。例えば、カメラの高さが人間に対して低くなるにつれて、人間の脚のより少ない部分がドレス１０８によって遮られる。それぞれの異なるカメラアングルからより多くの画像をキャプチャすることによってこれを修正することは、人間の３Ｄ表現を再構成しようとする開発者またはエンジニアにとってやや厄介なプロセスになり得る。場合によっては、点群が生成されるまで、これらの部分のカラー情報が欠落していることが明らかでないことさえある。

次に、遮られた部分を含む対象の再構成（reconstruction）を生成する方法を、図２に関連して説明することになる。

この方法の第１のステップＳ２０１において、場面の少なくとも１つのカラー画像および対応するデプス画像がそれぞれの視点について取得される。少なくとも１つのカラー画像および対応するデプス画像は、それぞれカラーカメラおよびデプスカメラによってキャプチャされ得る。いくつかの例では、これらのカメラは、例えば、マイクロソフトキネクト（登録商標）デバイスなどの単一のデバイスに含まれ得る。カラーカメラ及びデプスカメラによってキャプチャされた画像は、たとえばＲＧＢ－Ｄ画像に対応し得る。好ましい例では、それぞれのカラーカメラおよびデプスカメラによってキャプチャされた場面の部分の間に実質的な重複がある。場合によっては、カラー画像は、デプス画像でキャプチャされた場面の範囲に一致するようにトリミングされることがある（またはその逆もある）。

いくつかの実施形態では、別個のデプスカメラがなくてもよく、カラーカメラが立体画像をキャプチャするように構成されてもよい。次に、この立体画像からデプス画像が取得され得る。立体画像からデプス画像を生成するための技術は、当技術分野で知られており（例えば、三角測量を使用する）、本明細書でさらに説明する必要はない。

ソニー（登録商標）のプレイステーション４（登録商標）などのデバイスは、このような接続されたカメラから、またはオプションで以前にキャプチャした１つまたは複数の同じカメラ若しくは電話などの別のデバイスからの画像などの別のソースから、この少なくとも１つのカラー画像に対応するデプス画像、または（適切な処理によってデプス画像が取得され得る）ステレオ画像を取得する。

場面は、少なくとも１つのカラー及びデプス画像の対象を形成する人間の対象を含む。人間の対象は、図１で前に示した人間の対象に対応し得る。一般に、人間の対象は、取得したカラー及びデプス画像で少なくとも部分的に遮られることが予想される。このオクルージョンは、人間が持っているアイテム、人間が着ている衣服や宝飾品、ユーザの顔や体上の髪、ユーザとカメラとの間に位置付けられた場面における家具などに対応する場合があります。カラー及びデプスの情報が得られていない人間の体（および顔）の部分があるという意味で、人間は遮られていると言える。

好ましい実施形態では、場面の複数のカラー及びデプス画像が取得され、各カラー及びデプス画像のペアは、異なるそれぞれの視点に対して取得される。より多くのカラー及びデプス画像を取得する（例えば、キャプチャする）ことが望ましい。これは、より多くのカラー及びデプス情報が対象を３Ｄでグラフィカルに再構成する際に使用可能であることを意味するからである。一般に、対象の３６０度をカバーする３つまたは４つのカラー及びデプス画像を取得すると、本手法で使用するのに十分な量のカラー及びデプスの情報が得られる。これらのカラー及びデプス画像は、対象の周りを移動し、異なるそれぞれの位置で対象のカラー及びデプス画像をキャプチャすることによって取得され得る。

ステップＳ２０２で、対象の遮られていない部分に対応する少なくとも１つのカラー画像内の領域が識別される。人間の対象を遮る１つまたは複数のアイテムに対応する領域も識別され得る。この場合も、これらのアイテムは、人間の対象の髪の毛、人間対象が保持または携帯しているアイテム、場面に存在する家具などに対応し得る。画像の様々な領域は、画像セグメンテーション（image segmentation）を使用して識別され得る。

画像セグメンテーションは、深層学習を使用して実行され得る。一例では、畳み込みまたは完全畳み込みニューラルネットワーク（ＣＮＮまたはＦＣＮＮ）などのニューラルネットワークは、人間に対応するカラー画像内の領域を識別するように訓練され得る。ニューラルネットワークは、人間に対応する領域がラベル付けされたカラー画像で訓練され得る。いくつかの例では、ニューラルネットワークは、人間の対象を遮る１つまたは複数のアイテムに対応する少なくとも１つのカラー画像内の領域を識別するように訓練されている場合もある。この場合も、ニューラルネットワークは、人間の対象に対応する領域がラベル付けされるとともに、人間の対象を遮る１つまたは複数のアイテムもラベル付けされる（すなわち、教師あり学習）カラー画像で訓練され得る。いずれの場合も、十分に訓練されると、ニューラルネットワークを使用して画像セグメンテーションを実行し得る。画像セグメンテーションを実行する既知のディープネットワークの例には、「AlexNet」、「VGG-16」、「GoogLeNet」、「ResNet」などがある。

他の例では、画像セグメンテーションは、クラスタリング分析を使用して実行され得る。例えば、K-meansアルゴリズムを使用して、人間の対象に対応する少なくとも１つのカラー画像内の領域、および人間の対象を遮る１つまたは複数のアイテムに対応する領域を識別することができる。これらのそれぞれの領域は、例えば、色の相対的な均一性（relative homogeneity）に基づいて識別され得る。画像セグメンテーションを実行するための他の方法もまた、非限定的な例として、テンプレートマッチングなどのように、本方法で使用され得る。

複数のカラー画像がキャプチャされる実施形態では、画像セグメンテーションは、キャプチャされたカラー画像の全てではないにしても、少なくともいくつかに対して実行され得る。カラー画像（または複数の画像）の異なる領域をセグメント化する理由は、以下でさらに説明するステップから明らかになるであろう。

画像セグメンテーションはまた、背景に対応する、すなわち人間の対象ではないカラー及びデプス画像内の領域を識別するために使用され得る。これらの領域は、場面の点群を生成する前に削除され得る。これにより、後で必要になる点群の処理量が減る可能性がある。他の実施形態では、点群が生成された後（後述する減算ステップの一部として）、背景に対応する領域が削除され得る。

ステップＳ２０３において、場面の点群（人間の対象を含む）は、少なくとも１つのカラー画像および対応するデプス画像を使用している。点群は、カラー及びデプス画像に逆投影（inverse projection）を適用することによって生成され得る。ここでの「逆（inverse）」という用語は、２Ｄカラーおよびデプス画像の点（つまりピクセル）の３Ｄ座標系の点へのマッピングを表す（一方で、従来、カメラマトリックスは３Ｄ現実世界の点を２Ｄ画像平面に変換するために使用される）。

逆投影は、カラー及びデプス画像のカラー及びデプスのピクセル値、およびカラー及びデプスのカメラの外因性及び内因性のパラメータを使用して決定され得る。ＲＧＢ－Ｄ画像から点群を生成するための技術は、当技術分野で一般に知られており、これらのいずれかを本開示で使用することができる。デプスカメラが使用されていない場合（前述のとおり）、逆投影は、カラーカメラのパラメータを使用して決定されることができ、この場合、立体画像をキャプチャするように構成されるであろう。

複数のカラー及びデプス画像のペアがキャプチャされた場合、つまりそれぞれの異なる視点からキャプチャされた場合、逆マッピングを使用して、各画像の各ピクセルが共通の３Ｄ座標系の点にマッピングされる。場合によっては、場面内の同じ点が、カラー画像及びデプス画像の異なる視点から複数回キャプチャされることがある。したがって、逆投影を適用する前に、点群内の対応する点が特定のカラー及びデプスのピクセルのセットに既に存在するかどうかを確認することが望ましい場合がある。点群に既存の点がある場合、マッピングは、点群に既存の点がないカラー及びデプスのピクセルのみに制限される場合がある。

ステップＳ２０４において、人間の対象を遮る１つまたは複数のアイテムに対応すると識別された点は点群からディスカウントされる（discount）。点のディスカウントは、点群から点を差し引くこと（subtract）、または人間の対象に対応する点群内の点とは異なるものとして点を識別することを含み得る。これらの点は、例えば、人間の対象が保持している物体、人間の対象が着用している装飾品、人間の対象の髪などに対応し得る。これらの点は、前述の画像セグメンテーションを使用して識別され得る。

ディスカウント後に点群に残る可能性のある点の例を図３に示す（正面から）。図３に見られるように、顔から髪の毛３０４、腕１１０、手、下肢１１２、および対象の衣服１０８を差し引いたものに対応する対象の部分のみが、点群内の点によって表される。

いくつかの例では、衣服のいくつかは、人間の対象の輪郭に寄与していないと識別される場合がある。例えば、トップス３０８Ａおよびスカート３０８Ｂは別個の領域として識別され、スカートは人間対象の体の全体的な形状に対応しないものとして識別され得る。このような場合、スカート３０８Ｂに対応する点は、点群から削除され得る。（たとえば、よりタイトにフィットしている）トップス３０８Ａに対応する点は、人間の対象の体格を表すものとして保持され得る。他の例では、対象の体を遮っていると識別された全ての点が点群から削除され得る。これらの例では、対象の体の露出部分に対応する点のみが保持されるであろう。

任意選択で、ユーザは、例えば、図３に見られるものと同様のセグメント化された方法で示されるときに、ユーザがアイテムを承認または不承認することを可能にすることによって、衣類のアイテムが自分の体格を表すかどうかを指定することができる。さらに任意選択で、人間の対象の体格から閾値を超えて逸脱するように識別されたアイテムは、そのような承認／選択から除外され得る。

また、ユーザのモデルの生成に関連付けられたデータは、ユーザのアカウントに関連付けられ得るため、服を着たモデルの全部または一部が自分の体格を表すことをユーザが示すとき、これは、ユーザにとって現在の最良のデータとして保存され得ることも理解されよう。これは、より体にフィットする、または体型にぴったり合う衣服に対応する点群がより緩い衣服に基づく点群よりも同じユーザについてより小さい見かけの体積を占有することに基づいて、自動的に行うこともできる。したがって、ユーザの服を着た体の一部の見かけの体積を以前に保存された表現と比較し、現在の体積が小さい場合（キャプチャ時の条件などによるスケーリングが正規化された後）、保存されたデータが置き換えられ得る。

場合によっては、差し引きの結果として、人間の対象の点群にギャップが生じることがある。たとえば、点群が例えばマグカップを持っているかまたは帽子をかぶっている人間の対象を含む場合、これらの点の削除は、対象の一部が物体（マグカップの場合は手、帽子の場合は頭の頂部など）によって遮られた「穴」を発生することになる。このような場合、これらの穴はデプス補完法（depth completion method）を使用して埋められ得る。これは、点群の既知の部分の間の表面（たとえば、点の層）を補間する（interpolating）、および／または男性または女性のベースラインモデルの一部またはすべてを使用する、それをスケーリングする、又はモデルパラメータを調整して既知の点とモデルの表面との間の距離を最小化し、モデルの一部を点群の対応する欠落領域にマッピングするという形をとることがある。代替的には、または加えて、本明細書に記載の技法に従って生成されたユーザのモデルを、この段階でより洗練されたモデルを反復するためのベースラインモデルとして使用することができる。一例では、デプス補完法（depth completion method）は、バイラテラルフィルタリングを含み得る。追加または代替の例では、デプス補完は、参照により本明細書に組み込まれる参照により本明細書に組み込まれるY．Zhang、T．Funkhouser、石川宏、プリンストン大学、1－11ページの「単一ＲＧＢ－Ｄ画像のディープデプス補完」で概説されているように、ディープネットワークを使用してキャプチャされたカラーおよびデプス画像の表面法線とオクルージョン境界を識別することを含み得る。

ステップＳ２０５において、点群の遮られていない部分に対応する点群の領域は、パラメトリックモデルの１つまたは複数のパラメータを調整するために使用される。パラメトリックモデルは、一般的な人間の３Ｄパラメータ化された形状を定義する。パラメータは、モデルをモーフィングして、所望の人間の対象により密接に対応するように調整され得る。

１つまたは複数のパラメータの調整は、ディスカウント後の点群の処理に基づくことができる。処理は、例えば、人間の対象を一意に識別する点群から複数の特徴点を抽出し、モデルが抽出された特徴点を示すように、パラメトリックモデルの１つまたは複数のパラメータを調整することを含み得る。抽出された特徴点は、例えば、人間の対象の目、鼻、口、顎の（３Ｄにおける）相対的な位置、およびユーザの肘、膝、手首などの関節の相対的な位置を含み得る。

図１に関連して前述したように、オクルージョンのためにカラー及びデプスの情報が欠落している対象の部分が存在する場合がある。これらの部分は、カラー及びデプス画像がキャプチャされたそれぞれの視点の結果として遮られる場合がある。たとえば、図１では、カラー及びデプス画像がキャプチャされた相対的な高さの結果として、対象の脚のギャップ（領域１１６の欠落）が発生する可能性があることが示された。これらの種類のオクルージョンは、たとえば、人間の対象を遮っていると（目で）容易に識別できる人間の対象の髪や衣服と比較して、予測するのが難しい場合がある。場合によっては、そのようなオクルージョンが、カラー及びデプス画像、またはそこから生成された点群を確認した後にのみ発生したことが明らかになることがある。

調整されたパラメトリックモデルは、対象の完全な３Ｄ表現を提供する。図１の脚の上部など、以前に遮られていた部分は、代わりにパラメトリックモデルを使用して推定され得る。これは、たとえば、元の点群から抽出された対象の膝、足首、腰などの相対的な場所を考慮する一方でこれらの部分を表し得る。つまり、調整されたパラメトリックモデルは、少なくとも１つのカラー及びデプス画像で遮られた対象の部分の少なくとも一部（すべてではないにしても）に対応する点群内の点の推定値を提供する。調整されたパラメトリックモデルは、対象の体（顔を含む）を表すテクスチャのないメッシュになり得る。このようなテクスチャのないメッシュ４０２の例を図４に示す。

上記のように、任意選択で、パラメトリックモデルを繰り返し使用して、対象の部分的な点群のギャップを埋めることができ、それによって点群、続いてパラメトリックモデルを改良することができる。

場合によっては、調整されたパラメトリックモデルは、衣服によって遮られた人体の領域に関する精度を欠く可能性がある。これは、パラメトリックモデルを調整する前に、これらの領域が点群から差し引かれた結果である可能性があり、これらの領域に対応するようにパラメトリックモデルをモーフィングするためのデータがほとんど使用可能ではなかったことを意味する。代替的には、衣服に対応する点を使用してパラメトリックモデルを調整したため、この精度の欠如が発生する可能性があり、したがって、人体の形状は、衣服の形状を使用して推定され、人間の対象の体の形状を表していない可能性がある。いずれの場合も、以下に説明するように、人間の対象の髪、衣服、装飾品などを個別に再構成し、人間の対象の再構成と組み合わせることができるため、この精度の欠如は実際の問題を引き起こすことはない。

ステップＳ２０６で、（調整されたパラメトリックモデルから生じる）人間の対象のテクスチャ化されていないメッシュがテクスチャ化される。これは、たとえば、人間の対象の肌に対応すると識別されたカラー画像の領域からボディテクスチャマップを生成することを含み得る。衣服に対応すると識別された領域については、インペインティング（in-painting）操作が実行され得る。インペインティング操作は、衣服で遮られた領域での人間の対象の皮膚のカラーの値の推定に対応し得る。人間の対象の皮膚及び衣服に対応する領域は、前述のセグメンテーションを使用して識別され得る。生成されると、ボディテクスチャマップは、テクスチャのないメッシュの表面に適用され得る。

インペインティングは、衣服が始まる境界に近い、対象の体のピクセル値に基づいて実行され得る。場合によっては、インペインティングは、単に、人間の対象の平均的な肌の色調を推定することと、衣服によって遮られたテクスチャのないメッシュの領域を対応する色で塗りつぶすことを含み得る。一般的に、人体のこれらの部分は衣服で覆われることが予想されるため、細部及びカラーの観点で信じられないほど正確である必要はない。

ステップＳ２０７で、人間の対象の３Ｄ再構成は、１つまたは複数のアイテムの３Ｄ表現と組み合わされる。１つまたは複数のアイテムは、人間の対象のテクスチャメッシュ表現に別個のメッシュとして追加され得る。代替的には、１つまたは複数のアイテムは点として追加され得る。点は、人間の対象の点群に追加され得る（この場合、調整されたパラメトリックモデルを表す）。３Ｄ表現は、人間の対象を遮っていると識別された１つまたは複数のアイテムのものであり得る。代替的には、３Ｄ表現は異なるアイテムのものであり得る。いずれの場合も、これらのアイテムは、たとえば、衣類、装飾品、持ち物、髪の毛などを含み得る。

３Ｄ表現が人体を遮っていると識別されたアイテムのものである場合、このアイテムの３Ｄ表現は、そのアイテムに対応すると識別されたカラー及びデプス情報を使用して生成され得る（得られたカラー及びデプス画像において）。これは、たとえば、このアイテムに対応する点群からディスカウントされた点を識別し、これらの点からアイテムを表すメッシュを生成することを含み得る。次に、対応するカラー画像のカラー情報を使用して、このメッシュに適用するためのテクスチャを生成することができる。このようにして、カラーおよびデプス画像を取得するユーザにアイテムが現れたのと実質的に同じ形状およびカラーを有するように、遮っているアイテムを３Ｄで再構成することができる。人間の３Ｄ再構成を生成する前に点群からこれらの点（遮っているアイテムに対応）を差し引くことは役立ち得る。その結果、これらのアイテムを考慮に入れて３Ｄ再構成が生成されないようになる。これは、たとえば、３Ｄ再構成がそのアイテムに対応する形状を既に持っていなくても、３Ｄ表現を３Ｄ再構成の上にオーバーレイできることを意味する。いくつかの例では、３Ｄ表現は、カラー及びデプス画像のキャプチャ中に人間の対象が着ていた衣服のものであり得る。前に説明したように、衣服に対応する領域は、セグメンテーションを介してカラー画像で識別され得る。これらの領域に関連付けられたカラー及びデプスの情報は、衣服の３Ｄ再構成を生成するために使用され得る。次に、衣服の再構成は、テクスチャメッシュの上にオーバーレイされ得る。それにより、（前述の理由により）精度が不足している可能性のあるテクスチャメッシュの任意の部分を隠すことができる。これらの実施形態では、衣服の３Ｄ表現を生成するために、元のカラー及びデプスの情報が保持され得る。場合によっては、衣類の少なくとも一部（またはより一般的にはアイテム）のカラー及びデプス情報が欠落している可能性があるため、これらの部分のカラー及びデプス情報は、既存のカラー及びデプス情報を使用して推定する必要があり得る。

いくつかの例では、人間の対象が手の込んだ衣服を着ている場合があり、これを３Ｄで再構成する試みは計算コストがかかり過ぎるであろう。このような場合、人間の対象の衣服は、「革のジャケット」または「長袖のドレス」などの特定の種類の衣服に対応するものとして識別される場合がある。その衣服の事前に決定された３Ｄ表現は、人間の対象の３Ｄ再構成との組み合わせのために選択され得る。場合によっては、この事前に決定された３Ｄ表現は、例えば、対象のカラー画像で検出された衣服の色と一致するように適合され得る。

いくつかの例では、人間の対象の再構成は、カラー及びデプス画像のキャプチャプロセス中に人間の対象が着ていた衣服とは異なる衣服の３Ｄ表現と組み合わせられ得る。これは、たとえば、自分自身の３Ｄ再構成を表示している人が、別の衣服でどのように見えるかを確認したい場合に望ましい場合がある。この衣服は、視聴者が購入することに興味を持っている衣服、または単に例えば人間の対象を表現するビデオゲームに関連する衣服に対応し得る。この衣服の３Ｄ表現は、ユーザが自分自身のテクスチャメッシュ表現をインポート（または生成）できるアプリケーションまたはビデオゲームを通じて利用できるようにされ得る。つまり、この衣服の３Ｄ表現は、人間の対象の３Ｄ再構成を生成する前に、アプリまたはビデオゲームの開発者によって生成され得る。

追加または代替の例では、カラー及びデプス画像のキャプチャ中に人間の対象が保持していた任意のオブジェクトも３Ｄで再構成され得る。図１に示す例では、これは、マグカップの３Ｄ表現を生成することと、マグカップを保持するようにテクスチャメッシュ表現をモーフィングすることとを含み得る。より単純な例では、マグカップは、３Ｄ表現が既に存在する複数の所定のオブジェクトのうちの１つに対応するものとして識別され得る。したがって、人間の対象の３Ｄ再構成は、検出されたオブジェクトの対応する既存の３Ｄ表現と組み合わせられ得る。

さらに別の例では、アプリケーションまたはビデオゲームは、３Ｄ表現が存在する複数の所定のアイテムをユーザに提供することができ、ユーザは、自分自身の再構成により、３Ｄで表現されるこれらの１つまたは複数を選択することができる場合がある。

人間の対象の髪の毛は、カラー及びデプス画像から取得したカラー及びデプスの情報を使用して再構成するのが非常に難しい場合がある。代わりに、テクスチャストリップが髪の毛を生成するために使用され得る。テクスチャストリップは、少なくとも１つのカラー画像で検出された人間の髪の毛のカラーおよび形状に対応するように選択され、（例えば、ゲームアーティストによって）人間の対象の３Ｄ再構成の頭部に適用され得る。代替的には、ユーザは、自分自身の３Ｄ再構成と組み合わせるために、ヘアスタイルの事前に決定された３Ｄ表現を選択するか、又は独自の表現を作成することができる。髪の毛を（グラフィカルに）３Ｄで表現するための方法は当技術分野で知られており、これらのいずれも本方法で使用することができる。

いくつかの例では、例えばネックレスなどのアイテムは、元のカラー及びデプスの情報を使用して、３Ｄで再構成するには小さすぎるか又は薄すぎると識別される場合がある。これらの場合、アイテムに関連付けられた事前に決定された３Ｄ表現を使用するか（たとえば、より太いチェーン、ブローチ、またはラフ（ruff））、又はアイテムを再構成プロセスから単純に省略できる。

一方、ユーザがそれらの前にビデオゲームコントローラなどのアイテムを持っている可能性が非常に高く、それによって少なくとも部分的に手や胴体（または他の体の部分）が塞がれる。任意選択で、ビデオゲームコントローラは、ビデオゲームコントローラに関連付けられた事前に決定された３Ｄ表現に置き換えられ得る。これは、コントローラ自体の適切な複製、またはコントローラがゲーム内で概念的に表すオブジェクト（剣、電話、銃、操舵ハンドルなど）であり得る。

ステップＳ２０８で、人間の対象の３Ｄ再構成および１つまたは複数のアイテムの３Ｄ表現は、表示のためにレンダリングされる。この例を図５に示す。ここでは、人間の対象５０２の３Ｄ再構成が、サイズ、形状、および外観において図１に示す表現に対応していることがわかる。しかしながら、図５では、人間の対象の脚の上部が失われなくなったことがわかる。さらに、図４に示されているテクスチャのないメッシュと比較して、人間の対象は、カラーおよびデプス画像でキャプチャされたものに対応する髪と衣服で示される。図５では、髪５０６、衣服５０８、およびマグカップ５１４は、人間の対象の３Ｄ再構成に適用された３Ｄ表現に対応している。

いくつかの実施形態では、（例えば、テクスチャメッシュの形態における）人間の対象の３Ｄ再構成は、ゲームコンソールに格納される。代替的には、またはそれに加えて、テクスチャメッシュは、オンライン、例えばサーバで保存されることができ、インターネットなどの通信ネットワークを介してゲームコンソールで利用可能にされ得る。次に、人間の対象の３Ｄ再構成は、ゲームコンソールで実行されている特定のビデオゲームまたはアプリケーションにインポートされることができ、そのアプリケーションまたはゲームで人間の対象のアバターを生成（およびその後にレンダリング）するために使用される。ここで、ゲームコンソールという用語は、アプリケーションまたはゲームプログラムを実行することができ、ゲームプログラムの実行専用のデバイスに限定される必要のないデバイスを指す場合がある。

ビデオゲームまたはアプリケーションは、複数の異なる３Ｄオブジェクトを提供することができ、これらは、次に、人間の対象の再構成と組み合わせられ得る。一例では、これは、例えば、プレーヤーの３Ｄ再構成に追加できる鎧及び武器を含むことができる。他の例では、カラー及びデプス画像のキャプチャプロセス中に人間の対象が着ていた衣服などの３Ｄ表現も保存され、プレーヤーのアバターの一部としてアプリケーションまたはビデオゲームにインポートされ得る。

任意選択で、人間の対象の再構成は、人間以外のアバター（たとえば、ユーザの特徴が平均モデルからどのように逸脱するかをマッピングして、人間以外のアバターの平均モデルからの逸脱を促進し、ユーザに類似性を与える）、または外観や服装が大幅に異なる人間のアバターにマッピングされ得る。この場合、ユーザの衣服、髪の毛、またはその他のアイテムが事前に決定された３Ｄ表現に置き換えられると、前述のように、この表現は対象のアバターの外観で保持され得る。したがって、例えば、ユーザがネックレスを着用している場合、これは、対象のアバターに応じて、ドッグタグ、鉄の首輪、メダリオン、ラフ、胸のタトゥーまたは他のアイテムと置き換えられ得る。一方、ネックレスを着用していない場合、そのようなオプションのアイテムは、対象のアバターに含まれない場合がある。

同様に、任意選択で、Ｔシャツ、フルスリーブシャツ、ショーツ、ズボン、スカート、靴下、靴、時計、ブレスレット、ヘアバンド、およびイヤリングなどの他のアイテムは、識別可能であり、対象のアバターに対して適切な異なる関連表現を有することができる。このように、ユーザは、アバターがユーザ自身の直接の類似性を意図していない場合や、衣服やその他のアイテムの直接の類似性を維持することを意図していない場合でも、服装によってアバターの外観に影響を与えることができる。したがって、たとえば、Ｔシャツとショートパンツは軽い鎧に対応し、セーターとズボンは騎士の重い鎧に対応し、ユーザはゲームでのそれぞれの鎧の選択と同様の物理的な結果を感じるようになる。

いくつかの例では、プレーヤーの顔の表情および手足の動きは、ビデオゲームまたはアプリケーションのプレイ中または使用中に追跡され得る。これらの動きと表現の変化は、テクスチャメッシュ表現にマッピングされ、プレーヤーの実際の動きに対応するように表現をモーフィングするために使用され得る。これは、ビデオゲームまたはアプリケーション内の「存在感」を改善するのに役立つ場合がある。

図６は、前述の方法を実行するためのシステム６００の例を示す。このシステムは、入力部６０２、画像プロセッサ６０４、点群生成部６０６、減算部６０８、モーフィング部６１０、および画像生成部６１２を備える。

入力部６０２は、場面の少なくとも１つのカラー画像および対応するデプス画像を取得するように構成される。前述のように、少なくとも１つのカラー画像およびデプス画像は、それぞれのカラーおよびデプスカメラによってキャプチャされ得る。このような場合、これらの画像は、カラーカメラおよびデプスカメラから入力部で受信され得る。代替的には、少なくとも１つのデプス画像は、立体画像から取得され得る。図６では、カラー画像及び対応するデプス画像が、入力部へのそれぞれの入力ＲＧＢおよびＤとして示される。場面の少なくとも１つのカラーおよび対応するデプス画像は、１つまたは複数のアイテムによって少なくとも部分的に遮られている人間の対象を含む。

少なくとも１つのカラー画像は、画像プロセッサ６０４への入力として提供される。画像プロセッサ６０４は、人間の対象の遮られていない部分に対応する少なくとも１つのカラー画像内のそれぞれの領域を識別するように構成される。画像プロセッサ６０４はまた、人間の対象および任意の例えば人間の対象の背景にある壁又は表面などの背景領域を遮る１つまたは複数のアイテムに対応する少なくとも１つのカラー画像内の領域を識別するように構成され得る。

画像プロセッサ６０４は、画像内の他のピクセルから人間の対象に対応するピクセルをセグメント化するように訓練されたニューラルネットワークに少なくとも１つのカラー画像を入力するように構成され得る。追加的または代替的に、画像プロセッサ６０４は、前述のように、クラスター分析を使用して画像セグメンテーションを実行するように構成され得る。

少なくとも１つのカラー画像およびデプス画像は、点群生成部６０６への入力として提供される。点群生成部６０６は、少なくとも１つのカラー及びデプス画像に含まれるカラーピクセルおよびデプスピクセルから点群を生成するように構成される。ステップＳ２０３（図２）に関連して前述したように、これは、逆投影を決定することと、少なくとも１つのカラー及びデプス画像のカラー及びデプスピクセルに逆投影を適用することとを含み得る。

生成された点群は、ディスカウント部６０８への入力として提供され得る。ディスカウント部６０８は、人間の対象を遮っていると識別された１つまたは複数のアイテムに対応する点群内の点を識別するように構成される。いくつかの例では、ディスカウント部６０８は、これらの点を点群から除去する（すなわち、それらを差し引く）ように構成される。１つまたは複数のアイテム点に対応する点は、画像プロセッサ６０４で実行される識別に基づいて識別され得る。例えば、画像プロセッサ６０４によって識別されたピクセルの領域と点群内の対応する点との間のマッピングが知られ得る。このマッピングを使用して、１つまたは複数の遮っているアイテムに対応する点を識別する（および任意選択で削除する）ことができる。画像プロセッサ６０４は、識別された（すなわち、互いにセグメント化された）少なくとも１つのカラー画像内のそれぞれの領域の表示をディスカウント部６０８に提供するように構成され得る。ディスカウント部６０８はまた、背景領域に対応すると識別された点を除去するように構成され得る。この場合も、これは、画像プロセッサ６０４によるそれらの領域の識別に基づくことができる。

前に説明したように、人間の対象に対応する点群の部分である程度のデプス補完を実行することが望ましいが、デプス情報が欠落している場合がある。前述のデプス補完のいずれかは、例えば、デプス補完部（図示せず）によって使用され得る。デプス補完部は、人間の対象に対応する点群を受け取り、その上でデプス補完を実行するように構成され得る。

人間の対象の遮られていない部分に対応する点群内の点は、モーフィング部６１０に提供される。すなわち、１つまたは複数のアイテムに対応すると識別された点は、モーフィング部６１０に提供される点からディスカウントされる。モーフィング部６１０に提供される点は、人間の対象を遮る１つまたは複数のアイテムに対応すると識別された点を差し引いた後、点群に残っている点に対応し得る。モーフィング部６１０は、人間の対象の遮られていない部分に対応する点群内の点に基づいて、パラメトリックモデルの１つまたは複数のパラメータを調整するように構成される。ステップＳ２０５（図２）に関連して前述したように、パラメトリックモデルは、人間のパラメータ化された形状を定義することができる。人間の形状を定義するパラメータは、対象の体の形状（顔や顔の特徴を含む）により密接に対応するようにモデルをモーフィングするように調整され得る。モーフィング部６１０は、人間の対象の遮られていない部分に対応すると識別された点群内の点から、人間の対象の１つまたは複数の主要な特徴点を識別または抽出するように動作可能であり得る。次に、モーフィング部は、これらを使用してパラメトリックモデルのパラメータを調整し得る。

（少なくとも１つのカラー及びデプス画像において人間の対象により密接に対応するようにモーフィングされた人間の一般的な表現に対応する）調整されたパラメトリックモデルが画像生成部６１２に提供される。画像生成部６１２は、調整されたパラメトリックモデルを使用して、人間の対象の３Ｄ再構成を生成するように構成される。

前に説明したように（図２のステップＳ２０６に関連して）、人間の対象の３Ｄ再構成は、更なるテクスチャリングを必要とするテクスチャリングされていないメッシュに対応し得る。いくつかの例では、システムは、テクスチャリングされていないメッシュに適用するためのテクスチャマップを生成するように構成されたテクスチャマップ生成部（図示せず）をさらに含み得る。テクスチャマップ生成部は、入力部６０２で受信された少なくとも１つのカラー画像に含まれるカラー情報を使用してテクスチャマップを生成するように構成され得る。テクスチャマップは、図２に関連して前述した任意の方法で生成され得る。画像生成部６１２は、生成されたテクスチャマップを画像生成部６１２によって生成された３Ｄ再構成に適用するように構成され得る。

画像生成部６１２は、少なくとも１つのカラー及びデプス画像を受信し、画像プロセッサによって識別された１つまたは複数のアイテムの３Ｄ表現を生成し、それらのアイテムの３Ｄ表現を生成するようにさらに構成され得る。いくつかの例では、１つまたは複数のアイテムの３Ｄ表現は、ディスカウント部６０８によって点群からディスカウントされた点を使用して生成され得る。３Ｄ表現は、カラー及びデプス画像からそれらが有するように検出されたおおよその形状および色を有する１つまたは複数のアイテムを表すことができる。図６では、これは、画像生成部６１２で入力として受信される少なくとも１つのカラー及びデプス画像で示される。

場合によっては、識別されたアイテムの少なくとも一部のカラー及びデプスの情報が不完全である可能性があるため、インペインティング操作が必要になり得る。たとえば、人間の対象の衣服のカラー及びデプスの情報をキャプチャできない部分があったため、これらの部分を埋めるために既存のカラー及びデプスの情報を使用する必要があり得る。画像生成部６１２は、例えば、このインペインティングを実行するように構成され得る。

画像生成部６１２は、１つまたは複数のアイテムの３Ｄ表現を人間の対象の３Ｄ再構成と組み合わせるように構成され得る。これは、人間の対象の３Ｄ再構成に、３Ｄで表される１つまたは複数のアイテムを着用または保持させることに対応し得る。次に、３Ｄ再構成と３Ｄ表現とのその後の組み合わせが、表示装置での表示のために出力され得る。３Ｄ再構成と３Ｄ表現の組み合わせは、コンピューティングデバイスで実行されているアプリケーションまたはビデオゲーム（前述のように）における人間の対象を表すアバターとして表示され得る。

前述のように、人間の対象の３Ｄ再構成は、最初にキャプチャされたカラー及びデプス画像には存在しなかった１つまたは複数のアイテムと組み合わせられ得る。したがって、いくつかの実施形態では、画像生成部６１２は、これらの３Ｄ表現を別々に（例えば、アプリケーションまたはビデオゲームから）受信し、これらのアイテムを着用および／または保持している人間の対象の３Ｄ再構成を出力するように構成され得る。図６では、これらの３Ｄ表現は、画像生成部６１２の入力として示されるより細かく破線の矢印によって表されている。

本明細書に記載の技術は、必要に応じて、ハードウェア、ソフトウェア、またはその２つの組み合わせで実装することができる。実施形態の１つまたは複数の特徴を実施するためにソフトウェア制御のデータ処理装置が使用される場合、そのようなソフトウェア、およびそのようなソフトウェアが提供される非一時的な機械可読記憶媒体などの記憶媒体または伝達媒体は、本開示の実施形態としても考慮される。

本明細書に記載の例は、本発明の実施形態の例示的な例として理解されるべきである。さらなる実施形態および例が想定される。任意の１つの例または実施形態に関連して説明される任意の特徴は、単独で、または他の特徴と組み合わせて使用され得る。さらに、任意の１つの例または実施形態に関連して説明される任意の特徴はまた、他の任意の例または実施形態の１つまたは複数の特徴、または他の任意の実施例または実施形態の任意の組み合わせと組み合わせて使用され得る。さらに、本明細書に記載されていない同等物および改変もまた、特許請求の範囲で定義される本発明の範囲内で使用され得る。

Claims

人間の三次元（３Ｄ）再構成を生成する方法であって、前記方法は、
場面の少なくとも１つのカラー画像および対応するデプス画像を取得するステップであって、前記少なくとも１つのカラー画像および対応するデプス画像は、１つまたは複数のアイテムによって少なくとも部分的に遮られている人体を含む、ステップと、
前記少なくとも１つのカラー画像において、前記人体の遮られていない部分に対応する領域を識別するステップと、
前記場面の前記少なくとも１つのカラー画像および対応するデプス画像に基づいて場面の点群を生成するステップであって、前記点群は、前記少なくとも１つのカラー画像において、前記人体の前記遮られていない部分に対応するように識別された領域に対応する領域を含む、ステップと、
前記人体の前記遮られていない部分に対応する点群の領域に基づいてパラメトリックモデルの１つまたは複数のパラメータを調整するステップであって、前記調整されたパラメトリックモデルは、前記人体の前記少なくとも部分的に遮られた部分に対応する点群内の点の推定値を提供し、前記パラメトリックモデルは、人間の３Ｄパラメータ化された形状を定義し、前記１つまたは複数のパラメータを調整するステップは、前記パラメトリックモデルが前記人体により密接に対応するようにモーフィングされるようにする、ステップと、
前記調整されたパラメトリックモデルに基づいて前記人体の３Ｄ再構成を生成するステップと、
を含む、方法。
前記少なくとも１つのカラー画像において、前記人体を遮っている１つまたは複数のアイテムに対応する領域を識別するステップと、
前記点群から、前記人体を遮っていると識別された前記１つまたは複数のアイテムに対応する点をディスカウントするステップと、
を含む、請求項１に記載の方法。
前記カラー画像において識別される前記１つまたは複数のアイテムは、
i. 前記人体によって着用されている衣服と、
ii. 前記人体によって保持されているオブジェクトと、
iii. 前記人体の顔及び／又は体上の髪の毛と、
のうちの少なくとも１つに対応する、請求項２に記載の方法。
前記識別されたアイテムの少なくとも１つの３Ｄ表現を生成するステップと、
前記少なくとも１つの識別されたアイテムの前記３Ｄ表現を前記人体の前記３Ｄ再構成と組み合わせるステップと、
を含む、請求項２又は３に記載の方法。
前記少なくとも１つの識別されたアイテムの前記３Ｄ表現は、前記点群からディスカウントされた前記点の少なくともいくつかを使用して生成される、請求項４に記載の方法。
前記少なくとも１つの識別されたアイテムの前記３Ｄ表現を生成するステップは、
前記少なくとも１つの識別されたアイテムに関連付けられた事前に決定された３Ｄ表現を識別するステップと、
前記人体の前記３Ｄ再構成と組み合わせるための前記事前に決定された３Ｄ表現を選択するステップと、
を含む、請求項４に記載の方法。
表示のために、前記人体の前記３Ｄ再構成と、前記少なくとも１つのアイテムに関連付けられた前記３Ｄ表現との組み合わせをレンダリングするステップを含む、請求項４から６のいずれかに記載の方法。
前記人体を遮っていると識別された前記１つまたは複数のアイテムに対応する前記点をディスカウントした後、前記人体の少なくともいくつかに関するデプス情報を推定するステップを含む、請求項２から７のいずれかに記載の方法。
前記人体の前記３Ｄ再構成は、前記人体のテクスチャ化されていないメッシュ表現を含み、
前記方法は、
前記人体の前記遮られていない部分に対応すると識別された前記少なくとも１つのカラー画像内の領域に基づいて、前記人体のテクスチャマップを生成するステップと、
前記生成されたテクスチャマップを前記人体の前記３Ｄ再構成に適用するステップと、
を含む、請求項１から８のいずれか１項に記載の方法。
前記カラー画像において前記人体および１つまたは複数のアイテムを識別するステップは、
i. 前記人体の画像のセグメンテーションを実行するように訓練されたニューラルネットワークに前記カラー画像を入力するステップと、
ii. 前記少なくとも１つのカラー画像でクラスター分析を実行するステップと、
のうちの少なくとも１つを含む、請求項１から９のいずれか１項に記載の方法。
コンピュータ上で実行されると、前記コンピュータに請求項１から１０のいずれか１項の方法を実装させる、コンピュータ実装命令を含むコンピュータプログラム。
人間の三次元再構成を生成するためのシステムであって、前記システムは、
場面の少なくとも１つのカラー画像および対応するデプス画像を取得するように構成された入力部であって、前記少なくとも１つのカラー画像および対応するデプス画像は、１つまたは複数のアイテムによって少なくとも部分的に遮られた人体を含む、入力部と、
前記少なくとも１つのカラー画像において、前記人体の遮られていない部分に対応する個々の領域を識別するように動作可能な画像プロセッサと、
前記少なくとも１つのカラー画像および対応するデプス画像を受信し、それに基づいて、前記場面の点群を生成する点群生成部であって、前記点群は、前記少なくとも１つのカラー画像において、前記人体の前記遮られていない部分に対応すると識別された領域に対応する領域を含む、点群生成部と、
前記人体の前記遮られていない部分に対応する前記点群の領域に基づいてパラメトリックモデルの１つまたは複数のパラメータを調整するように構成されたモーフィング部であって、前記パラメトリックモデルは、人体の３Ｄパラメータ化された形状を定義し、前記調整されたパラメトリックモデルは、前記人体の前記少なくとも部分的に遮られた部分に対応する前記点群内の点の推定値を提供する、モーフィング部と、
前記調整されたパラメトリックモデルに基づいて、前記人体の３Ｄ再構成を生成するように動作可能な画像生成部と、
を含む、システム。
前記人体を遮っている前記１つまたは複数のアイテムに対応する前記点群内の点を識別し、前記識別された点を前記点群からディスカウントするように構成されたディスカウント部を含み、
前記画像生成部は、前記点群からディスカウントされた前記点の少なくともいくつかに基づいて、前記人体を遮っていると識別された前記１つまたは複数のアイテムの３Ｄ表現を生成するように構成される、請求項１２に記載のシステム。
前記画像生成部は、前記１つまたは複数のアイテムの前記３Ｄ表現を前記人体の前記３Ｄ再構成と組み合わせるように構成され、
前記画像生成部は、表示のために前記１つまたは複数のアイテムの前記３Ｄ表現および前記人体の前記３Ｄ再構成を出力するように構成される、請求項１３に記載のシステム。
前記人体の前記３Ｄ再構成に適用するためのテクスチャマップを生成するように動作可能なテクスチャマップ生成部であって、前記テクスチャマップは、前記少なくとも１つのカラー画像において前記人体の前記遮られていない部分に対応すると識別された前記領域に基づいて生成される、テクスチャマップ生成部を含む、請求項１２から１４のいずれかに記載のシステム。
前記画像生成部は、前記人体の前記３Ｄ再構成と組み合わせるために、複数の事前に定められた３Ｄ表現のうちの１つを選択するように構成される、請求項１２から１４のいずれかに記載のシステム。
前記画像プロセッサは、人体に対応するピクセルを人体の画像内の他のピクセルからセグメント化するように訓練されたニューラルネットワークに前記少なくとも１つのカラー画像を入力するように構成される、請求項１２から１６のいずれかに記載のシステム。