JP2023518908A

JP2023518908A - ラベル付き入力を使用してメッシュ精度を向上させる技法

Info

Publication number: JP2023518908A
Application number: JP2022559501A
Authority: JP
Inventors: タミール，マイケル; タルモン，ギラッド; カガルリツキー，フセヴォロド; ケイナン，シャーリー; ドレズナー，デヴィッド; バルーク，ヤイル; バーンボイム，マイケル
Original assignee: ユーム．コムリミテッド
Priority date: 2020-03-30
Filing date: 2021-03-10
Publication date: 2023-05-08
Also published as: WO2021198817A1; EP4128050A1; US11574443B2; US20210304495A1; CA3184408A1

Abstract

セマンティック・データを使用して、オブジェクトの三次元（３Ｄ）表現を改良する方法およびシステム。この方法は、撮影エリアにおいてキャプチャされたビデオに応答して生成された入力データを受信するステップと、入力データにおける領域毎に少なくとも１つのパラメータを設定するステップと、少なくとも１つのパラメータと、入力データと関連付けられたセマンティック・データとに部分的に基づいて、３Ｄ表現を生成するステップとを含む。【選択図】図１

Description

関連出願に対する相互引用
[001] 本願は、２０２０年３月３０日に出願された米国仮特許出願第６３／００１，７８３号の権利を主張する。この出願をここで引用したことにより、その内容が本願にも含まれるものとする。

技術分野
[002] 本願は、一般的には、自由視点ビデオの捕捉、記録、ストリーミング、および表示に関し、特に、自由視点ビデオにおける３Ｄモデルの生成に関する。

従来技術

[0003] コンピュータ・システム内におけるオブジェクト(object)の三次元表現は、成長分野であり、美術、科学、技術、およびその他の分野に多数の用途がある。一般に、３Ｄ表現とは、空間および時間におけるオブジェクトの記述を意味し、例えば、人の動きに対応する一連のメッシュを使用することによって、動く人間(human being)を記述する。３Ｄ表現は、医学において仮想モデルを生成するとき、ビデオ・ゲームのために環境および仮想リソースを提供するとき、ＶＲおよびＡＲ環境ならびに他の用途において説得力のあるフィルム、アニメーション、および芸術的レンダリングを作成するときに有用である。現在の３Ｄ表現生成システムは、システム・リソース、用途の制約、および他の要因によって制限され、作成できる表現の範囲および品質が限られる場合がある。

[004] ３Ｄ表現のドメインでは、３Ｄモデリングとは、生成されたモデルへのテクスチャおよびアニメーション・シーケンスの適用ではなく、オブジェクトの形状を形成するプロセスを指す。３Ｄモデルは、ソリッド・モデルまたはシェル・モデルとして生成することができ、各々、一意の態様(aspect)を所有する。ソリッド・モデリングでは、オブジェクトの表面およびボリュームが定められ、医療用目的ならびに工学的設計およびシミュレーションに適した３Ｄモデルを生成する。シェル・モデルは、オブジェクトのボリュームを表すことなく、このオブジェクトの表面を表す。シェル・モデルは、デジタル映画制作またはビデオ・ゲーム設計におけるように、アニメーションにおいて適用することができる。

[005] ソリッドまたはシェルのいずれかのような３Ｄ表現の形成に加えて、３Ｄモデルを生成する複数の技法が存在する。これらの技法は、各々、特有の利点および欠点があり、これらを適用すると、モデル・クリエータに設計の柔軟性を提供し、特定の重要な特徴を、他の特徴に対して強調することを可能にする。普及しているモデリング技法には、ポリゴン・モデリング、曲線モデリング、およびデジタル・スカルプティングが含まれる。

[006] ポリゴン・モデリングは、３Ｄ空間における点を接続してポリゴンのメッシュを形成することによって、３Ｄモデルの作成を可能にする。ポリゴン・モデリングは、モデルを生成および操作することができる速度および柔軟性のために、人気がある。しかしながら、ポリゴン・モデリングは、湾曲面の表現というような、特定の点において限界がある。有限数の角がある多角形(angular polygon)を使用するのでは、湾曲面を近似することが難しいのはもっともである。

[007] 加えて、曲線モデリングは、加重点を使用して、湾曲面の表現を可能にする。一連の点に関して曲線を定めることによって、ポリゴン・モデリングを用いずに、表面のジオメトリ(geometry)をモデリングすることができる。曲線モデリングは、曲線を定める点に対する重み値の割り当てを基本とし、重み値が大きな点程、点に近い曲線の経路を描く。曲線モデリングは、湾曲表現を表すことができるが、ポリゴン・モデリングの利点、即ち、モデル生成(generation)における速度および柔軟性に欠ける。

[008] デジタル・スカルプティングも３Ｄモデルを生成するために使用することができる。デジタル・スカルプティング・プラットフォームは、仮想素材が一塊の粘土、金属、または他の材料であるかのように操作することによって、ユーザが３Ｄモデルを生成することを可能にする。

[009] 普及している３Ｄモデリング技法は、一般に、特定の欠点を共有する。３Ｄモデリングは、特定の技法を用いると、他の技法を用いるよりも効率を高めることができるが、３Ｄモデルを生成し、モデルの動き(motion)をマッピングするプロセスはリソース集約的になるおそれがある。３Ｄモデリング・タスクは、大量の記憶空間および処理パワーを必要とするとして差し支えない。更に、３Ｄモデリング・タスクは、モデリング・システムが利用可能なものを越えてリソースを必要とする場合があり、処理リソースの不足を補償するために、処理時間延長の必要性が生ずる。処理時間延長が必要な場合、３Ｄモデリングは、ライブまたは低遅延ビデオの作成には適さず、ライブ・ビデオのような特定の用途では、好ましいツールとしての３Ｄモデリングの使用が妨げられるおそれがある。

[0010] 最近開発された３Ｄモデリングの用途には、自由視点ビデオ（ＦＶＶ：Free Viewpoint Video）の作成における、モデル生成の使用が含まれる。ＦＶＶは、１台以上のカメラからのビデオ・フィードを組み合わせて、キャプチャした場面を仮想化する技法であり、使用されたカメラによって供給される視野角以外でも、視聴者が視野角を選択することを可能にする。ＦＶＶの生成は、１台以上のカメラによってキャプチャされたビデオに基づいて、場面における人間の俳優あるいは他のパーツ(part)またはオブジェクトのモデルを作成し、カメラによってキャプチャされた動き(movement)に基づいて、生成したモデルを使用して場面をレンダリングし、本来の実機カメラ(physical camera)によってキャプチャされたのではない角度からの場面のモデル・バージョンを見るように位置付けられた仮想カメラを、視聴者に追加させることによって、行うことができる。ＦＶＶは、スポーツ放送のような用途において有用であると言って差し支えなく、仮想カメラの追加によって、従前からのカメラでは近づくことができない種々の角度から、ファンが試合を見ることが可能になる。更に、仮想カメラをスポーツ放送に追加することによって、レフリーが、審議対象のプレー(contested play)を複数の角度から検討することが可能になり、試合を総合的に放送するために必要な実機カメラ、および付随するハードウェアの台数削減が可能になるのはもっともである。スポーツ放送に加えて、ＦＶＶは、演劇およびコンサートのような放送のために複数の視点を生成するときに有用であり、更に自動車の設計および安全性検査、モーション・キャプチャ、ならびに他の同様の用途におけるような、移動体(moving bodies)の分析にも有用であるとして差し支えない。

[0011] ＦＶＶシステムは、１台または複数のカメラによってキャプチャされた場面に基づいて３Ｄモデルを作成するために、３Ｄモデリング・システムを含むモデル生成技術を基本とする。３ＤモデリングはＦＶＶの作成に必須であるので、ＦＶＶシステムは、３Ｄモデリング・システムの限界によって制約を受けるおそれがある。更に、キャプチャされた場面は、複数の移動体、複雑な動き、豊富な視覚情報、および他の複雑な要素を含むこともあるので、キャプチャした場面を、視聴者が仮想カメラを置くことができる３Ｄ表現に変換するには大量のストレージを必要とし、更にＦＶＶ適用の他の面にも大量のストレージを必要とする場合があるので、大量の処理パワーを必要とするおそれがある。加えて、ＦＶＶの用途には、視聴者がライブまたはほぼリアル・タイムで受信することを望むビデオも含まれる場合もあるので、システムがＦＶＶ生成の処理要求に応じられなくなることによって、キャプチャと放送との間に大量の遅延が加わることは、視聴者および放送局にとって容認できないのはもっともである。これらの課題は、３Ｄモデリング・システムのために追加の処理リソースを供給することによって対処できるが、法外な費用がかかるおそれがある。または、モデル、メッシュ、テクスチャ、またはモデリングおよび放送タスクの他の面の品質を低下させて、所与の３Ｄモデリング・タスクに必要な処理負荷を削減することによっても、これらの課題に対処することができる。処理負荷を削減することによる３Ｄモデリングの効率向上によって、３Ｄモデリングされた場面のライブまたはほぼリアル・タイムの放送が可能になるであろうが、３Ｄモデリング・システムに対する現行の改良では、３Ｄモデリングを使用するライブまたはほぼリアル・タイムのＦＶＶ作成を可能にするには不十分である。

[0012] 以上で注目した３Ｄモデリング技法は、スタジオ用途またはライブ放送のために自由視点ビデオをレンダリングするという現在の要望には対処できない。ここで注記した課題に取り組むために構成されたシステムがあれば、このような用途のために自由視点ビデオのレンダリングに備える(provide for)ことができ、殆どの視点からの高品質ビデオのレンダリングを可能にするという利点が得られよう。

[0013] したがって、以上で注目した欠陥を克服する解決策を提供することができれば、有利であろう。

[0014] 以下に、本開示の様々な実施形態例の摘要を記す。この摘要は、このような実施形態の基本的な理解が得られるように、読者の便宜を図るために設けられるのであり、本開示の範囲を完全に定めるのではない。この摘要は、考えられる全ての実施形態の広範な全体像ではなく、全ての実施形態の主要な要素または肝要な要素を識別することを意図するのではなく、任意のまたは全ての態様の範囲を明確に定めることを意図するのでもない。その唯一の目的は、以下に示す更に詳細な説明に対する序文として、簡略化した形態で、１つ以上の実施形態のいくつかの概念を紹介することである。便宜上、「ある実施形態」(some embodiments)または「特定の実施形態」(certain embodiments)という用語は、本明細書では、本開示の１つの実施形態または複数の実施形態に言及するために使用されてもよいものとする。

[0015] 本明細書において開示する特定の実施形態は、セマンティック・データを使用してオブジェクトの三次元（３Ｄ）表現を改良する方法を含む。この方法は、撮影エリアにおいてキャプチャされたビデオに応答して生成された入力データを受信するステップと、入力データにおける領域毎に少なくとも１つのパラメータを設定するステップと、少なくとも１つのパラメータおよび入力データと関連付けられたセマンティック・データに部分的に基づいて、３Ｄ表現を生成するステップとを含む。

[0016] 本明細書において開示する特定の実施形態は、撮影エリアにおいてキャプチャされたビデオに応答して生成された入力データを受信するシステムを含む。このシステムは、処理回路と、メモリとを備える。メモリは、命令を収容し、この命令が処理回路によって実行されると、撮影エリアにおいてキャプチャされたビデオに応答して生成された入力データを受信し、入力データにおける領域毎に少なくとも１つのパラメータを設定し、少なくとも１つのパラメータおよび入力データと関連付けられたセマンティック・データに部分的に基づいて、３Ｄ表現を生成するように、システムを構成する。

[0017] 本明細書において開示する主題を特定的に指摘し、本明細書の最後において特許請求の範囲において明確に特許請求する。開示する実施形態の以上で述べた、およびその他の目的、特徴、ならびに利点は、添付図面と合わせて以下の詳細な説明を検討することから明らかになるであろう。

実施形態にしたがって、３Ｄ表現を作成する方法を示すフローチャートである。実施形態にしたがって、データ点群からのメッシュ生成に、３Ｄ表現作成プロセスを適用する場合を示すフローチャートである。実施形態にしたがって、点群からのモデル構築および組み合わせに、３Ｄ表現作成プロセスを適用する場合を示すフローチャートである。実施形態にしたがって、セマンティック情報を使用して、リジッド・パーツの幾何学的安定性を経時的に改良するプロセスを示すフローチャートである。実施形態にしたがって、１組の入力データからメッシュを作成するプロセスを示すフローチャートである。実施形態にしたがって、取得した入力データを表すモデルを生成し、続いてパラメータ化圧縮プロセスを使用して、このモデルを圧縮するプロセスを示すフローチャートである。実施形態にしたがって、セマンティック方法を使用して、モデルにおける非リジッド・パーツのプロパティを判定し、これらのパーツを安定化するプロセスを示すフローチャートである。種々の開示する実施形態による、深度カメラを含む、ＦＶＶレンダリング・システムの構成例を示す模式図である。図９は、実施形態によるＦＶＶジェネレータの模式図である。

[0027] 本明細書において開示する実施形態は、本明細書における革新的な教示の多くの有利な使用の例に過ぎないことを注記するのは重要である。一般に、本願の明細書において行う言説は、必ずしも種々の特許請求する実施形態のいずれも限定しない。更に、ある言説は、ある発明の特徴には該当するが、他のものには該当しない場合もある。一般に、特に明記しないかぎり、単数の要素が複数であってもそしてその逆でもよく、一般性を失うことはない。図面において、同様の番号は、様々な図を通して、同様の部分を指す。

[0028] 図１は、実施形態にしたがって、３Ｄ表現を作成する方法を示すフローチャート例１００である。Ｓ１１０において、入力データを受信する。受信入力データは、例えばそして限定ではなく、１つ以上の画像、１つ以上の点群、画素、またはボクセル、あるいは他の同様の入力データでもよい。入力データは、一体化されたカメラまたはセンサの場合のように、直接キャプチャを含むがこれには限定されない手段によって受信することができ、例えばそして限定ではなく、Ｗｉ－Ｆｉ、Ｂｌｕｅｔｏｏｔｈ、および他の同様のプロトコルのようなプロトコルによるワイヤレス・データ転送、例えばそして限定ではなく、イーサネット、ＵＳＢ、および他の同様のプロトコルのような、有線プロトコルによるワイヤレス・データ転送によって受信することができ、または例えばそして限定ではなく、ＣＤ、ＤＶＤ、ディスク・ドライブ、ＳＤカード、および他の同様の媒体のような物理媒体の転送によって、受信することができる。

[0029] 取得される入力データは、通常、入力データを求める要求に対する応答として能動的に受信することができ、または特定の入力データに対して入力データ・アップロードを受け入れる場合のように、受動的に受信することができ、または受動および能動受信の任意の組み合わせによって受信することができる。受信される入力データは、限定ではなく、カメラ、センサ、データベース、サーバ、ユーザ・デバイス、コンピュータ、および他の同様のソースを含むソースから受信することができる。実施形態例では、入力データは、スタジオ、会場(venue)、競技場(arena)等においてキャプチャされるビデオである。図８において論ずるようにデプロイされた１組のカメラを使用して、ビデオをキャプチャしてもよい。

[0030] Ｓ１２０において、Ｓ１１０において取得した入力データにラベルを付ける。実施形態では、入力データの一部にラベルを付けるのでもよく、そして代替実施形態では、入力データの全てにラベルを付ける。実施形態では、入力データが画像を含む場合、一例としてそして限定ではなく、頭部、手、脚部、シャツ、および他の同様のラベルというようなラベルを使用して、画像内にあるエリアにラベルを付けることができる。実施形態では、ラベルは、限定ではなく、深層学習、およびその異形を含む技法によって生成することができる。異形には、一例としてそして限定ではなく、教師あり深層学習、教師なし深層学習、および他の同様の技法等がある。入力データが点群、画素、またはボクセルである場合、個々の点、画素、またはボクセル、あるいはこれらの点、画素、またはボクセルが存在するクラウド、エリア、またはボリュームにラベルを付けてもよい。

[0031] Ｓ１３０において、入力データ領域毎のラベルにしたがって、メッシュ・パラメータを設定する。Ｓ１１０において入力データを取得し、続いてＳ１２０において取得した入力データにラベルを付ける場合、ラベル付けした各領域に種々の方法を適用することができる。実施形態では、ラベル付けした領域に適用される方法、方法が計算に含むパラメータ値は、方法実行の最終目的、方法を構成するプロセス、ラベル付けした領域のコンテンツ、近隣領域のコンテンツ、および他の同様の要因を含むがこれらに限定されない要因にしたがって、修正することができる。メッシュ・パラメータは、生成されたメッシュの密度を決定するためのパラメータを含むことができ、顔領域におけるメッシュ密度を高めるため、および／または脚部領域におけるメッシュをもっと滑らかにするために調節することができる。

[0032] Ｓ１４０において、入力データ領域毎に、設定したパラメータを組み込むプロセスを起動する(activate)。実施形態では、Ｓ１４０において起動するプロセスはＳ１３０において設定した１つ以上のパラメータを含んでもよい。Ｓ１４０において起動するプロセスは、実行のプロセス、実行の結果、またはこれら２つの組み合わせが変化することもある。Ｓ１４０において起動するアルゴリズムの１つ以上は、特定のラベル付けした領域への適用に合わせて設計すること、個別に作成すること、またそうでなければ適応させることもできる。

[0033] 実施形態では、起動した１つまたは複数のプロセスは、結果を生成することを意図するのでもよく、そしてこれらのプロセスが結果を生成してもよい。結果とは、限定ではなく、メッシュの生成、メッシュ化されないパーツ(un-meshed part)の分析、テクスチャまたは照明(lighting)の適用、任意の他の同様の結果、更にはこれらの任意の組み合わせを含む。実施形態では、Ｓ１４０におけるプロセスが、Ｓ１３０において設定したメッシュ・パラメータを用いるプロセスまたは用いないプロセスの起動を含んでもよく、ラベル付けした入力データ領域、ラベル付けしない入力データ領域、およびこれらの任意の組み合わせまたは部分集合を対象とするアルゴリズムの起動を含んでもよい。

[0034] 図２は、実施形態にしたがって、データ点群からのメッシュ生成に、３Ｄ表現作成プロセスを適用する場合を示すフローチャート例２００である。Ｓ２１０において、点群を取得する。この実施形態例では、取得する点群は、先の図１におけるＳ１１０に関して説明した方法の内いずれによって取得してもよい。取得する点群は、画素、ボクセル、点群、またはこれらの任意の組み合わせでもよい。取得した点群は、構造、オブジェクト、映像(picture)、他の同様のエンティティ、およびこれらの任意の組み合わせまたは部分集合を表すこともできる。

[0035] Ｓ２２０において、Ｓ２１０において取得した点群内にあるボリュームにラベルを付ける。この実施形態例では、点群は１つ以上の人間の身体の表現を含んでもよい。この実施形態では、可能なラベルは、耳、目、顔、脚部、および他の同様のラベルを含んでもよいが、これらに限定されるのではない。点群内にあるボリュームのラベル付けは、先の図１におけるステップＳ１２０に関して説明した方法、プロセス、および特徴を含んでもよい。

[0036] Ｓ２３０において、所与のラベル付けしたボリュームが、例えば、人間の身体の内、顔であるか否か判定する。所与のラベル付けしたボリュームが顔であるか否かの判定は、後続の処理に関連がある。実施形態では、所与のラベル付けしたボリュームが顔であるか否かの判定が、後続のステップにおいて適切なメッシュ密度を決定付ける場合もある。所与のラベル付けしたボリュームが顔であるか否かの判定は、限定ではなく、Ｓ２２０においてボリュームに割り当てられたラベル、Ｓ２２０において割り当てられたラベルに対する信頼度、隣接するボリュームに割り当てられたラベル、他の同様の要因、およびこれらの任意の組み合わせを含む要因に依存してもよい。

[0037] Ｓ２４０において、Ｓ２３０におけるラベル付けしたボリュームが顔であるという判定に基づいて、メッシュ密度を設定する。実施形態では、Ｓ２３０において、所与のボリュームが顔であると判定された場合、高いメッシュ密度を指定するようにメッシュ密度を調節してもよい。あるいは、Ｓ２３０において、所与のボリュームが顔でないと判定された場合、低いメッシュ密度を指定するようにメッシュ密度を調節してもよい。メッシュ密度を設定するパラメータを調節するとき、上記のように、データ・ラベルに基づいてアルゴリズム・パラメータを調節する包括的プロセスを説明する図１のステップＳ１３０を参照するとよい。

[0038] Ｓ２５０において、メッシュを作成する。作成したメッシュは、１つ以上のボリュームを含み、異なるラベルを有するボリューム、ラベルが付けられていないボリューム、およびこれらの任意の組み合わせがあってもよい。メッシュは、可変パラメータ、静止パラメータ、またはこれら２つの組み合わせを含んでもよいプロセスにしたがって、作成することができる。実施形態では、可変パラメータを含むメッシュにしたがってメッシュを作成することもでき、可変パラメータは、Ｓ２３０において行われたラベル付け判定にしたがって、Ｓ２４０において設定される。Ｓ２５０におけるメッシュの作成は、図１におけるＳ１４０に関して先に説明したプロセス、エレメント、または他の特徴を含んでもよい。

[0039] 図３は、実施形態にしたがって、点群からのモデル構築および組み合わせに、３Ｄ表現作成プロセスを適用する場合を示すフローチャート例３００である。Ｓ３１０において、点群を取得する。実施形態では、Ｓ３１０における点群の取得は、先に説明した図２のＳ２１０において、点群を取得するために採用されたものと同様に、または全く同一に行われてもよい。更に、Ｓ３１０における点群の取得は、図１のＳ１１０に関して先に説明した、入力データ取得のプロセス、方法、または他の態様を含んでもよい。

[0040] Ｓ３２０において、点群内にあるボリュームにラベルを付ける。実施形態では、Ｓ３２０における点群のラベル付けは、先に説明した図２のＳ２２０において点群にラベルを付けるために採用したのと同様に、または全く同一に行われてもよい。更に、Ｓ３２０における点群のラベル付けは、図１のＳ１２０に関して先に説明した、入力データのラベル付けのプロセス、方法、または他の態様を含んでもよい。腕、脚部、目、顔などのような特徴の検出は、限定ではなく、二次元画像、点群、三次元画像、および他の同様のデータ集合を含むデータ集合における特徴の検出を含んでもよい。

[0041] Ｓ３３０において、所与のボリューム（または領域）が目を含むか否か判定する。実施形態では、Ｓ３３０における判定は、一例としてそして限定ではなく、顔、脚部、耳等のような、他の特徴に関するのでもよい。ボリュームが目を含むか否かの判定は、限定ではなく、Ｓ３２０においてボリュームに割り当てられたラベルがあればそのラベル、Ｓ３２０において割り当てられたラベルに対する信頼度、隣接するボリュームに割り当てられたラベル、他の同様の要因、およびこれらの任意の組み合わせを含む要因の分析を含んでもよい。実施形態では、Ｓ３３０において、所与のボリュームが目を含まないと判定された場合、Ｓ３４０においてメッシュを構築することができる。あるいは、実施形態では、Ｓ３３０において、所与のボリュームが目を含むと判定された場合、Ｓ３５０において既定のモデルを目に使用することができる。

[0042] Ｓ３４０において、所与のボリュームが目を含まないとＳ３３０において判定された場合、所与のボリュームにメッシュを構築することができる。Ｓ３４０において構築されるメッシュは、複数のボリューム、複数のラベル、およびこれらの任意の組み合わせを含んでもよく、含まれるボリュームおよびラベルは、Ｓ３３０において目であると判定されていない。実施形態では、Ｓ３４０におけるメッシュ生成は、図１のＳ１４０に関して先に説明した、プロセス、特徴、および他のエレメントを含んでもよい。

[0043] Ｓ３５０において、所与のボリュームが目を含むとＳ３３０において判定された場合、既定のモデルを目に適用する。実施形態では、この既定のモデルは、例えばそして限定ではなく、耳、脚部、顔等のような、目以外の身体パーツに関するのでもよい。既定のモデルは、具体的なモデリング・タスクに先立って生成されてもよく、一般的な今後の適用のために生成されてもよく、またはフローチャート３００において説明したプロセスとは別々に展開された別のモデルから抽出されてもよい。既定のモデルは、ユーザ・デバイス上にローカルに格納されてもよく、リモート・サーバまたはクラウド・サーバもしくはコンピュータ上にホストされてもよく、あるいはＵＳＢデバイス、ＣＤまたはＤＶＤ、および他の同様の媒体というような、リムーバブル媒体上に格納されてもよい。

[0044] 尚、ステップＳ３４０およびＳ３５０は、図示の目的上このように付番されたのであり、並び替えても、一般性を失うことは全くなく、記載の範囲から逸脱することもないことを指摘するとよいであろう。Ｓ３４０およびＳ３５０のいずれもＳ３３０よりも前に実行されなければ、そしてＳ３４０およびＳ３５０の双方がＳ３６０よりも前に実行されるのであれば、Ｓ３４０およびＳ３５０は、同時を含んで、どのような順序で現れてもよい。実施形態では、目を含むボリュームがない場合、フローチャート３００において説明する方法は、Ｓ３３０からＳ３４０に、そして直接Ｓ３６０に進むことができる。代替実施形態では、全てのボリュームが目を含む場合、フローチャート３００において説明する方法は、Ｓ３４０を通らずに、Ｓ３３０からＳ３５０に進み、直接Ｓ３６０に進むことができる。

[0045] Ｓ３６０において、ボリュームを組み合わせて、統一メッシュ(unified mesh)を作成する。一実施形態では、少なくとも１つのメッシュがＳ３５０において適用されるまたはＳ３４０において生成される場合、１つ以上のアクセスまたは生成されたメッシュを組み合わせて、Ｓ３１０において取得したデータ点群によって記述されるボリュームを表す１つのメッシュにすることもできる。実施形態では、統一メッシュは、ラベル、特徴、または複合メッシュを作成するために組み合わされたボリュームを区別する他の特徴を含むことができる。統一メッシュは、アクセスまたは生成されたメッシュの一部または全てを含んでもよい。

[0046] 図４は、実施形態にしたがって、セマンティック情報を使用して、リジッド・パーツの幾何学的安定性を経時的に改良するプロセスを示すフローチャート例４００である。フローチャート４００に示すプロセスは、セマンティック・データを使用して時間ドメインにおいてメッシュを「スムージング」することによってメッシュ品質を向上させる場合にも、当てはまるとしてよい。

[0047] Ｓ４１０において、入力データを取得する。Ｓ４１０における入力データ取得は、図１のＳ１１０に関して先に説明した、入力データ取得のプロセス、方法、または他の態様を含んでもよく、更にＳ４１０における入力データ取得は、図１のＳ１１０に関して先に説明した、入力データ取得と同様または全く同一であってもよい。

[0048] Ｓ４２０において、入力データにラベルを付ける。Ｓ４２０における入力データのラベル付けは、先に図１のＳ１２０に関して説明したのと同様または全く同一の方法によって実行されてもよい。更に、Ｓ４２０において、ラベル付けおよび今後の処理(operation)を改良するために、セマンティック・データを適用することができる。Ｓ４２０におけるセマンティック・データの適用は、経時的に変化するシーケンスにおける三次元ボディ・パーツの検出を含むことができる。尚、ラベル付けはセマンティック情報であると見なされ、例えばそして限定ではなく、「腕はリジッドである」(arm is rigid)および「髪の毛はリジッドではない」(hair is not rigid)というような記述情報もセマンティックであると見なされることは注記してしかるべきである。

[0049] Ｓ４３０において、所与のパーツがリジッドであるか否かについて判定する。所与のパーツがリジッドであるか否かの判定は、限定ではなく、Ｓ４２０において適用したデータ・ラベル、Ｓ４２０において適用したデータ・ラベルと関連付けられた信頼度、隣接するパーツに適用されたラベル、セマンティック・データ、他の同様の情報、およびこれらの任意の組み合わせを含む要因に依存してもよい。パーツがリジッドでないと判定された場合、当該パーツに対する分析を終了してもよく、Ｓ４３０において同じ入力データからの後続のラベル付きパーツに対する分析を開始することができ、またはS４１０において新たな入力データに対する分析を開始することもできる。点がリジッドであると判定された場合、S４４０において分析を継続することができる。

[0050] S４４０において、リジッド・パーツを追跡する。実施形態では、S４４０において、複数のリジッド・パーツを追跡することができる。リジッド・パーツの追跡は、既知の時ジッド・パーツを、それよりも大きい１組のパーツから分離することを含んでもよい。更に、リジッド・パーツの追跡は、時間系列にわたるリジッド・パーツにおける動き(movement)、変形、またはその他の変化を追跡することを含んでもよい。追跡データは、ＲＡMまたは他の短期メモリにというように、一時的に格納することができ、あるいは一例としてそして限定ではなく、ハード・ドライブ、ＵＳＢドライブ、ＣＤまたはＤＶＤ、リモートまたはクラウド・ベース・ストレージ、他の同様の記憶媒体、およびこれらの任意の組み合わせというような、固定記憶媒体に永続的または半永続的に格納することもできる。

[0051] Ｓ４５０において、ノイズを低減するために追跡データを使用する。パーツのサブセグメントをリジッド体(rigid body)として扱うことによって、ノイズを低減するために追跡データを使用することができる。追跡データをノイズ低減に適用する例として、時間系列にわたって追跡データから作成された、各パーツの平均モデルを、元のメッシュの後続の変形に適用することによって、系列にわたる安定性を高めることができる。

[0052] 図５は、実施形態にしたがって、１組の入力データからメッシュを作成するプロセスを示すフローチャート例５００である。ここでは、人間のブレンドシェイプ・フィッティング・プロセス(blendshape fitting process)およびセマンティック方法の一種を使用して、メッシュを作成する。

[0053] Ｓ５１０において、入力データを取得する。Ｓ５１０における入力データ取得は、図１のＳ１１０に関して先に説明した、入力データ取得のプロセス、方法、またはその他の態様を含んでもよく、更に図１のＳ１１０に関して先に説明した、入力データ取得と同様または全く同一であってもよい。取得する入力データは、写真、ビデオ、点群、他の入力データ、またはこれらの任意の組み合わせであってもよい。

[0054] Ｓ５２０において、入力データにラベルをつける。５２０における入力データのラベル付けは、先に図１のＳ１２０に関して説明したのと同様または全く同一の方法によって実行してもよい。更に、Ｓ５２０におけるラベル付けにセマンティック・データを適用すると、一例としてそして限定ではなく、関節、顔の特徴、および同様のセマンティック・ランドマーク(semantic landmark)というような、既知のセマンティック・ランドマークのラベル付けに対応する(provide for)こともできる。実施形態では、ブレンドシェイプ・プロセスを含むがこれに限定されない技法によって、ラベルを生成してもよい。

[0055] Ｓ５３０において、ラベル付けした入力データを汎用人間モデル(generic human model)に当てはめる。実施形態では、汎用人間モデルは、ブレンドシェイプ・モデル、三次元モーフィング・モデル、または他の同様のモデルでもよい。ラベル付けした入力データを汎用人間モデルに当てはめるには、セマンティック・ランドマークの位置に従って、汎用人間モデルを１つ以上のラベル付けしたデータ点と相関付けることによって行えばよい。

[0056] Ｓ５４０において、メッシュ・アルゴリズムを適用する。メッシュ・アルゴリズムは、Ｓ５１０において取得した入力データ、Ｓ５２０においてラベル付けした入力データ、他のデータ、およびこれらの任意の組み合わせに基づいてメッシュを生成するために、適用することができる。使用するメッシュ・アルゴリズムは、先に説明したアルゴリズムと同様であってもよく、可変パラメータ化メッシュ・アルゴリズム、静止パラメータ・メッシュ・アルゴリズム、またはこれら２つの組み合わせの適用を含んでもよい。

[0057] Ｓ５５０において、メッシュを作成する。メッシュは、先に説明した方法にしたがって作成することができる。実施形態では、メッシュの作成は、Ｓ５３０において当てはめたモデルをＳ５１０において取得しメッシュ生成に使用したデータと融合する(merge)ことによって、メッシュ品質を向上させメッシュ生成を補助することを含んでもよい。

[0058] 図６は、実施形態にしたがって、取得した入力データを表すモデルを生成し、続いて、パラメータ化圧縮プロセスを使用して、このモデルを圧縮するプロセスを示すフローチャート例６００である。図６に示すプロセスは、パラメータ化圧縮プロセスの調節および適用に対応する(allow for)。実施形態では、Ｓ６１０およびＳ６２０は、それぞれ、先に図１において示したステップＳ１１０およびＳ１２０と同様にまたは全く同一に実行し、先に説明したように、ステップＳ１１０およびＳ１２０の結果と同様または全く同一の結果を得ることができる。尚、ステップＳ６１０およびＳ６２０は、実施形態によれば、図１に示したステップの内、ステップＳ６１０およびＳ６２０の実行に対する例として役割を果たすいずれのステップにも独立して、実行することを指摘するとよいであろう。

[0059] Ｓ６３０において、圧縮パラメータを調節する。Ｓ６３０において調節する圧縮パラメータは、圧縮プロセスの適用を調整する(tune)ために適用することができ、圧縮プロセスは、メッシュの作成または他のアルゴリズムの起動の後に行われる。Ｓ６３０において調節する圧縮パラメータは、所望の圧縮結果が得られるようにまたは特定の圧縮プロセスに対処するように、調節することができる。

[0060] 実施形態では、領域に基づいて圧縮パラメータを調節する。Ｓ６３０において、高品質のテクスチャ情報を保存する顔のような、セマンティック上重要な領域における幾何学的情報を保存し、腕または脚部のような、重要性が低い領域程圧縮されたテクスチャによる荒いメッシュが得られるようにすることによって、圧縮の間幾何学的品質およびテクスチャ品質を保存する圧縮となるように、圧縮プロセス・パラメータを設定することができる。

[0061] Ｓ６４０において、圧縮プロセスを適用する。実施形態では、圧縮プロセスは、三次元表現における詳細度を低下させることによって、種々のセマンティック領域について詳細度を判定するためにセマンティック情報を適用することによって、他の同様の技法によって、またはこれらの任意の組み合わせによって、ファイル・サイズの縮小を達成することができる。更に、実施形態では、ファイル・サイズの縮小は、モデルの異なる領域に適用されたテクスチャに対して可変圧縮度(varying degrees of compression)を適用することによって達成することもできる。このような可変テクスチャ圧縮の適用例として、顔および腕の識別、ならびに顔の詳細は腕の詳細よりも重要であることを指定するポリシーを適用して、顔に適用するテクスチャよりも大きな度合いで、腕に適用するテクスチャを圧縮することもできる。適用する圧縮プロセスをパラメータ化することができ、Ｓ６３０において調節した圧縮アルゴリズム・パラメータを含んでもよい。

[0062] 図７は、実施形態にしたがって、セマンティック方法を使用して、モデルにおける非リジッド・パーツのプロパティを判定し、これらのパーツを安定化するプロセスを示すフローチャート例７００である。実施形態では、近隣に非リジッド・エリアを有することが分かっているセマンティック特徴の検出、近隣の非リジッド・エリアのプロパティの検出、およびそれに続く、非リジッド・エリアを安定化するための、検出したプロパティの適用によって、非リジッド・パーツのモデリングにおける改良に対応することができる。

[0063] 実施形態例では、フローチャート７００に図示するように、Ｓ７１０およびＳ７２０は、先に図示した図１のステップＳ１１０およびＳ１２０と対応する。Ｓ７１０およびＳ７２０は、同様または全く同一の方法の適用により、それぞれ、ステップＳ１１０およびＳ１２０と同様または全く同一の結果を得ることができる。更に、Ｓ７１０および７２０の実行は、図２～図６に示した方法のプロセス、エレメント、または他の態様を含んでもよく、同様または全く同一のプロセスによって、同様または全く同一の結果が得られる。

[0064] Ｓ７３０において、ボディ・パーツを識別する。Ｓ７３０におけるボディ・パーツの識別は、限定ではなく、Ｓ７２０において割り当てたラベル、Ｓ７２０において割り当てたラベルに対応する信頼度、近隣パーツ、他の同様の要因、およびこれらの任意の組み合わせを含む要因の分析を含んでもよい。更に、Ｓ７３０におけるボディ・パーツの識別は、エリア識別、位置、および他の関係するセマンティック情報に関するセマンティック情報の検討も含んでもよい。

[0065] Ｓ７４０において、所与のパーツが何らかの既知の非リジッドな近隣(non-rigid neighbors)を有するか否かについて判定する。所与のパーツが何らかの既知の非リジッドな近隣を有するか否かの判定は、経時的な(with time)非リジッド・ボディ・パーツの幾何学的安定性の改良に対応することができる。この判定は、セマンティック情報、パーツ・ラベル、パーツ・ラベル信頼度、既知の近隣、他の同様の要因、およびこれらの任意の組み合わせを考慮するとよい。Ｓ７４０において、パーツが既知の非リジッドな近隣を有さないと判定された場合、図７に示す非リジッド・パーツのモデリングの実行は、終了することができる。Ｓ７４０において、パーツが既知の非リジッドな近隣を有すると判定された場合、実行はステップＳ７５０に進むことができる。

[0066] Ｓ７５０において、非リジッド・パーツのプロパティを追跡する。非リジッド・パーツは、例えば、髪の毛を含んでもよい。Ｓ７４０において、パーツが既知の非リジッドな近隣を有すると判定された場合、Ｓ７４０において識別された非リジッドな近隣、およびこれらのプロパティを、Ｓ７５０において追跡する。非リジッド・ボディ・パーツのプロパティは、色、形状等を含むことができる。例えば、顔を追跡すると、髪の毛によって覆われていることがわかる。髪の毛は金髪であることを推論し、そして顔から離れている髪の毛の領域を識別することによって、カメラからは、髪の毛によって顔が覆い隠される領域ができるため、カメラには顔が見えないと推測することもできる。

[0067] 非リジッド・パーツの追跡は、限定ではなく、パーツ端および中間点を追跡する方法、移動方向および変位を追跡する方法、他の同様の技法、およびこれらの任意の組み合わせを含む方法によって行ってもよい。

[0068] Ｓ７６０において、非リジッド・パーツのプロパティを識別することができる。非リジッド・パーツのプロパティは、Ｓ７５０において展開したパーツ追跡データの分析、続いて展開した移動モデルの分析、他の同様の分析、およびこれらの任意の組み合わせによって識別してもよい。識別される非リジッド・パーツのプロパティは、限定ではなく、パーツ重量、パーツの寸法、パーツの柔軟性および剛性、他の同様のプロパティ、およびこれらの任意の組み合わせを含むことができる。

[0069] Ｓ７７０において、追跡データを適用する。追跡データは、Ｓ７５０において追跡した移動およびプロパティの分析、続いて展開された移動モデルの分析、Ｓ７６０において識別したパーツ・プロパティの分析、他の同様の要因の分析、またはこれらの任意の組み合わせを含んでもよいが、これらに限定されるのではない。追跡データは、Ｓ７６０において識別した非リジッド・パーツのプロパティに基づいて、非リジッド・パーツについてのモデルを作成することによって、ノイズを低減するために適用することができ、続いて、作成したモデルを適用することによって、同様および全く同一の非リジッドな特徴の今後のモデリングを改良することができる。加えて、一例としてそして限定ではなく、追跡から収集したデータを使用して、被追跡パーツの幾何学的形状を再生する(refine)ことによって経時的にスムージングすることによって、メッシュおよび時間干渉性を改良するために、追跡データを使用することもできる。

[0070] 図８は、種々の開示した実施形態による、深度カメラを含むＦＶＶレンダリング・システムの構成例を示す模式図の一例８００である。模式図８００は、深度カメラ８１０－１から８１０－ｎまでを示す。ここで、「ｎ」は２以上の整数である（以下、単に簡略化のために、個々に深度カメラ８１０と呼び、更に集合的に深度カメラ８１０と呼ぶ）。更に、模式図８００はプロジェクタ８２０－１および８２０－ｍを含む。ここで、「ｍ」は２以上の整数である（以後、単に簡略化のために、個々にプロジェクタ８２０と呼び、更に集合的にプロジェクタ８２０と呼ぶ）。これらは、撮影エリア８４０において生ずるアクティビティに基づいてビデオをキャプチャするためにデプロイされている。深度カメラ８１０によってキャプチャされた画像は、ＦＶＶの作成のために、ＦＶＶジェネレータ８３０に供給される。実施形態例では、１つの深度カメラのみを利用して、ＦＶＶを生成することができる。撮影エリア８４０は、スタジオ、会場、競技場（例えば、スポーツの競技場）等を含むことができる。

[0071] 撮影エリア８４０は、例えば、放送スタジオまたはインターネット・スタジオでもよく、ここで、放映する番組、インターネットを通じて配信する番組、ムービーを作成するために利用される番組、あるいは拡張現実または仮想現実アプリケーションのために利用される番組が記録される。つまり、開示した実施形態は、カメラを動かすことなく、クロマキー処理を行うことなく、または双方を行うことなく、ＦＶＶのスタジオ制作を可能にする。プロジェクタ８２０の各々は、撮影エリア８４０に近接してデプロイされる。閾値距離は、例えば、プロジェクタ８２０によって放出される光の種類および強度、深度カメラ８１０の構成、または双方に応じて、変化させることができる。デプロイされる深度カメラ８１０の種類は、深度カメラ８１０から撮影または記録される場面までの最大要求距離に基づく。種々の例について以下に論ずる。

[0072] この例および非限定的な構成では、２台の深度カメラ８１０を利用するが、１台の深度カメラ８１０を利用してもよく、またはもっと多くの深度カメラ８１０を利用してもよい。他の実施形態では、３台の深度カメラ８１０を利用する。深度カメラ８１０によってキャプチャした画像は、撮影エリアおよびその中にあるオブジェクトの３Ｄモデルをレンダリングするために利用され、こうすることによって、例えば、ディレクタまたは他のユーザの裁量にしたがって配置することができる「仮想カメラ」の視点からのＦＶＶの作成を可能にする。各仮想カメラは、撮影エリア８４０からの視点(perspective)、撮影エリア８４０への視点、またはその周囲の視点を表し、撮影エリア８４０内で行われるアクティビティをキャプチャする視座(viewpoint)（即ち、位置および姿勢）と関連付けることもできる。したがって、２台から１６台までの深度カメラ８１０からの映像(footage)を利用して、事実上無限数の仮想カメラに対応することができる。

[0073] 各深度カメラ８１０は、ＲＧＢカメラと１対の白黒（Ｂ／Ｗ）カメラを含んでもよい。実施形態では、１つ以上のプロジェクタ８２０は、深度カメラ８１０から離れてデプロイされる。

[0074] 各プロジェクタ８２０は、対象エリアに関する局所的特徴を生成し、点クラウドの計算のために実行される空間相関処理(spatial correlation operation)を容易にするために利用される。即ち、局所的特徴とは、撮影エリア内にあるオブジェクトの表面に投影される既知のパターンとすることができる。このために、各プロジェクタ８２０は、撮影エリア内にあるオブジェクト上に不可視光を投射するように構成される。実施形態例では、プロジェクタ８２０の光源は、レーザ（目安全メカニズムを有する、または目安全距離で動作する）、発光ダイオード（ＬＥＤ）、または標準的なプロジェクタ・ランプでもよいが、これらに限定されるのではない。投射された光は、オブジェクトから反射され、深度カメラ８１０に含まれるＢ／Ｗカメラによってキャプチャされることにより、その上にある点クラウドの判定を可能にする。

[0075] 構成によっては、プロジェクタ８２０の形式、台数、または双方、したがって、深度カメラ８１０のＢ／Ｗカメラと共に使用されるフィルタが、撮影場所次第で異なるのはもっともである。

[0076] ある実施態様では、プロジェクタ８２０の各々が、アイ・セーフ・レーザ(eye safe laser)またはＬＥＤ光源を含んでもよい。実施形態では、１．５～２ミクロンスペクトル帯域において放射光線を放出するレーザを使用する。このようなレーザは、人間の目には安全であり、このため、スタジオ内にいる人間に危害を加えることなく、パターンを投射するために、遙かに高い放射強度を使用することができる。したがって、スタジオからのプロジェクタ８２０および深度カメラ８１０の距離を広げることができる。このような実施態様では、深度カメラ８１０は、このようなスペクトル帯域に感応する１対のカメラ（Ｂ／Ｗカメラの代わりに）、例えば、この波長に適合するレンズを有するＩｎＧａＡｓカメラを含む。更に、ある実施態様では、他の深度カメラ８１０を使用する自動チューニングを利用して、各深度カメラ８１０によってキャプチャする必要がある視野のサイズを縮小することもできる。

[0077] 他のある実施態様では、各プロジェクタ８２０は分散放射光源を利用する。可視または近赤外線スペクトルにおける分散光源の使用により、プロジェクタ８２０から離れて位置する人間の目に対する最小許容エネルギを高める。つまり、このようなプロジェクタ８２０は、目安全距離を広げ、光源強度を高め、したがって、不適切な品質の低下を招くことなく、深度カメラ８１０の範囲を広げ、即ち、各深度カメラ８１０とスタジオの遠端との間の距離を広げることを可能にする。一例として、このような距離は２０メートルまでとするとよい。一例では、分散光源は、分散光源構成とした、ＬＥＤのアレイである。

[0078] 開示する実施形態の更に他の実施態様では、撮影エリア８４０に近接して（例えば、閾値距離以内）に、更に、対象領域（ＲＯＩ）追跡モジュール（ＲＯＩトラッカ）も配置する。この実施態様では、各深度カメラ８１０がＬＩＤＡＲスキャナを含む。ＲＯＩトラッカは、撮影エリア８４０の撮影エリア内において瞬時的ＲＯＩを動的に追跡するように構成される。

[0079] 尚、図８に示す実施態様例は非限定的であること、そして他の台数の深度カメラ８１０、プロジェクタ８２０、ＲＯＩトラッカ、またはこれらの組み合わせも、開示する実施形態と矛盾なく、等しく利用できることは注記してしかるべきである。更に、ＦＶＶジェネレータ８３０は、離れて配置してもよく、ＷＡＮ、インターネット等のような、しかしこれらに限定されない、ネットワークを通じて、深度カメラ８１０と通信することもできる。更に他の実施形態では、ＦＶＶジェネレータ８３０によって実行されるような処理は、種々の深度カメラ８１０の内任意のものまたは全ての間で分散することもできる。

[0080] 図９は、実施形態によるＦＶＶジェネレータ８３０の模式図例である。ＦＶＶジェネレータ８３０は、メモリ９２０、ストレージ９３０、およびネットワーク・インターフェース９４０に結合された処理回路９１０を含む。他の実施形態では、ＦＶＶジェネレータ８３０のコンポーネントを、バス９５０を通じて、通信可能に接続することもできる。

[0081] 処理回路９１０は、１つ以上のハードウェア・ロジック・コンポーネントおよび回路として実現することができる。例えば、そして限定ではなく、使用することができるハードウェア・ロジック・コンポーネントの例示的な種類には、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、特定用途集積回路（ＡＳＩＣ）、特定用途標準製品（ＡＳＳＰ）、システム・オン・チップ・システム（ＳＯＣ）、汎用マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ（ＤＳＰ）等、あるいは計算または他の情報操作を実行することができる任意の他のハードウェア・ロジック・コンポーネントが含まれる。

[0082] メモリ９２０は、揮発性（例えば、ＲＡＭ等）、不揮発性（例えば、ＲＯＭ、フラッシュ・メモリ等）、またはこれらの組み合わせでもよい。１つの構成では、本明細書において開示した１つ以上の実施形態を実現するためのコンピュータ読み取り可能命令をストレージ９３０に格納することもできる。

[0083] 他の実施形態では、メモリ９２０はソフトウェアを格納するように構成される。ソフトウェアとは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、またはその他と呼ばれようとも、あらゆる型式の命令をも意味するように広く解釈されてしかるべきである。命令は、コードを含んでもよい（例えば、ソース・コード・フォーマット、二進コード・フォーマット、実行可能コード・フォーマット、または任意の他の適したコード・フォーマット）。命令は、処理回路９１０によって実行されると、本明細書において説明した種々のプロセスを実行するように、処理回路９１０を構成する。

[0084] ストレージ９３０は、磁気ストレージ、光ストレージ等でもよく、例えば、フラッシュ・メモリまたは他のメモリ技術、ＣＤ－ＲＯＭ、デジタル・バーサタイル・ディスク（ＤＶＤ）、あるいは所望の情報を格納するために使用することができる任意の他の媒体として、実現することができる。

[0085] ネットワーク・インターフェース９４０は、深度カメラから入力を受信する、ＦＶＶレンダを表示のために送る等というような目的のために、ＦＶＶジェネレータが、深度カメラ８１０、１つ以上のユーザ・デバイス、記録されたＦＶＶコンテンツをホストする１つ以上のサーバ、またはこれらの組み合わせと通信することを可能にする。

[0086] 尚、本明細書において説明した実施形態は、図９に示す具体的なアーキテクチャに限定されるのではなく、開示した実施形態の範囲から逸脱することなく、他のアーキテクチャも等しく使用できることは理解されてしかるべきである。本明細書において開示した種々の実施形態は、ハードウェア、ファームウェア、ソフトウェア、またはこれらの任意の組み合わせとして実装することができる。更に、ソフトウェアは、アプリケーション・プログラムとして実装され、複数の部分からなる、あるいは特定のデバイスおよび／またはデバイスの組み合わせからなるプログラム記憶ユニットまたはコンピュータ読み取り可能媒体上に有形に具体化されることが好ましい。アプリケーション・プログラムは、アップロードされ、任意の適したアーキテクチャを備えるマシーン(machine)によって実行することができる。好ましくは、このマシーンは、１つ以上の中央処理ユニット（「ＣＰＵ」）、メモリ、および入力／出力インターフェースのようなハードウェアを有するコンピュータ・プラットフォーム上に実装される。また、コンピュータ・プラットフォームは、オペレーティング・システムおよびマイクロ命令コードも含むことができる。本明細書において説明した種々のプロセスおよび機能は、マイクロ命令コードの一部、またはアプリケーション・プログラムの一部、またはこれらの組み合わせのいずれでもよく、このようなコンピュータまたはプロセッサが明示的に示されているか否かには関係なく、ＣＰＵによって実行することができる。加えて、追加のデータ記憶ユニットおよび印刷ユニットのような、種々の他の周辺ユニットも、コンピュータ・プラットフォームに接続することができる。更に、非一時的コンピュータ読み取り可能媒体とは、一時的伝搬信号を除く、任意のコンピュータ読み取り可能媒体である。

[0087] 本明細書に記載した全ての例および条件付き言語(conditional language)は、開示した実施形態の原理、および当技術分野を発展させるために発明者によって寄稿された概念を、読者が理解するのを補助するという教育的目的を意図しており、このような具体的に記載された例および条件に限定されないものとして解釈されなければならない。更に、開示した実施形態の原理、態様、および実施形態、ならびにその具体的な例を記載する本明細書における全ての文章(statement)は、その構造的および機能的均等物双方を包含することを意図している。加えて、このような均等物は、現在知られている均等物および今後開発される均等物の双方、即ち、構造に関係なく、開発され同じ機能を実行するあらゆるエレメントを含むことを意図している。

[0088] 尚、「第１」、「第２」等のような指定を使用して本明細書においてエレメントに言及するときはいつも、通常、これらのエレメントの分量も順序も限定するのではないことは理解されてしかるべきである。むしろ、これらの指定は、本明細書では、２つ以上のエレメントまたはエレメントの実例(instance)間で区別する便利な方法として、全体的に使用される。つまり、第１および第２エレメントに言及するとき、２つのエレメントのみがそこで採用されなければならないことも、何らかの方法で第１エレメントが第２エレメントに先立たなければならないことも意味するのではない。また、特に明記しない限り、１組のエレメントは１つ以上のエレメントを含む。

[0089] 本明細書において使用する場合、品目の列挙の前に位置する「少なくとも１つの」という語句は、列挙した項目のいずれかを個別に利用できること、または列挙した項目の内２つ以上の任意の組み合わせを利用できること意味する。例えば、システムが「Ａ、Ｂ、およびＣの内少なくとも１つ」を含むと記載された場合、このシステムは、Ａのみ、Ｂのみ、Ｃのみ、２つのＡ、２つのＢ、２つのＣ、３つのＡ、ＡおよびＢの組み合わせ、ＢおよびＣの組み合わせ、ＡおよびＣの組み合わせ、Ａ、Ｂ、およびＣの組み合わせ、２つのＡおよびＣの組み合わせ、Ａ、３つのＢ、および２つのＣの組み合わせ等を含むことができる。

Claims

セマンティック・データを使用して、オブジェクトの三次元（３Ｄ）表現を改良する方法であって、
撮影エリアにおいてキャプチャされたビデオに応答して生成された入力データを受信するステップと、
前記入力データにおける領域毎に少なくとも１つのパラメータを設定するステップと、
前記少なくとも１つのパラメータと、前記入力データと関連付けられたセマンティック・データとに部分的に基づいて、３Ｄ表現を生成するステップと、
を含む、方法。
請求項１記載の方法であって、更に、
深層学習方法、およびブレンドシェイプ・プロセスの内少なくとも１つを使用して、前記入力データの少なくとも一部にラベルを付けるステップを含む、方法。
請求項１記載の方法において、前記少なくとも１つのパラメータが、メッシュ・パラメータであり、前記メッシュ・パラメータが、生成されるメッシュのメッシュ密度を含む、方法。
請求項３記載の方法であって、更に、
前記ラベル付けした入力データにおける領域が、顔としてラベル付けされたか否か判定するステップと、
前記入力データにおける領域が顔として判定されたとき、前記入力データにおいて顔でないと判定された領域と比較して、高いメッシュ密度で、前記領域のメッシュを生成するステップと、
を含む、方法。
請求項１記載の方法であって、更に、前記ラベル付けした入力データをメッシュ化するステップを含み、前記メッシュ化するステップが、更に、
１つ以上の領域に対して、それらのそれぞれのラベルに基づいて、メッシュ・プロセスを選択するステップと、
前記１つ以上の領域に作成されたメッシュを統一することによって、統一メッシュを作成するステップと、
を含む、方法。
請求項５記載の方法において、前記１つ以上の領域が、少なくとも目または耳としてラベル付けされる、方法。
請求項１記載の方法であって、更に、
メッシュを生成するためにヒューマン・ブレンドシェープ・フィッティング法を適用して、領域のメッシュを生成するステップを含む、方法。
請求項１記載の方法であって、更に、
前記入力データにおける領域がリジッド・ボディ・パーツとしてラベル付けされたか否か、セマンティック・データに基づいて判定するステップと、
リジッド・ボディ・パーツであると判定された各領域を追跡するステップと、
を含む、方法。
請求項８記載の方法において、領域において少なくとも１つのパーツを追跡するステップが、更に、
時間系列にわたって、前記リジッド・ボディ・パーツにおいて少なくとも移動、変形、または他の変化を追跡するステップを含む、方法。
請求項１記載の方法であって、更に、
前記ラベル付けした入力データにおける領域が、非リジッド・ボディ・パーツとしてラベル付けされたか否か、セマンティック・データに基づいて、判定するステップと、
非リジッド・ボディ・パーツであると判定された各領域を追跡するステップと、
を含む、方法。
請求項１０記載の方法であって、更に、
メッシュ作成を改良するために、識別された各非リジッド・ボディ・パーツの少なくとも１つのプロパティを判定するステップを含む、方法。
請求項１記載の方法であって、更に、
少なくとも、識別した各領域の重要性に基づいて、１組の圧縮パラメータを決定するステップと、
前記１組の決定した圧縮パラメータに基づいて、前記生成したメッシュに圧縮プロセスを適用するステップと、
を含む、方法。
処理回路に、請求項１記載の方法を実行させるための命令が格納されている非一時的コンピュータ読み取り可能媒体。
撮影エリアにおいてキャプチャされたビデオに応答して生成された入力データを受信するシステムであって、
処理回路と、
メモリと、
を備え、前記メモリが命令を収容し、前記命令が前記処理回路によって実行されると、
前記システムに、
撮影エリアにおいてキャプチャされたビデオに応答して生成された入力データを受信させ、
前記入力データにおける領域毎に少なくとも１つのパラメータを設定させ、
前記少なくとも１つのパラメータと、前記入力データと関連付けられたセマンティック・データとに部分的に基づいて、３Ｄ表現を生成させる、システム。
請求項１４記載のシステムにおいて、前記システムが、更に、
深層学習方法、およびブレンドシェイプ・プロセスの内少なくとも１つを使用して、前記入力データの少なくとも一部にラベルを付ける、
ように構成される、システム。
請求項１４記載のシステムにおいて、前記少なくとも１つのパラメータが、メッシュ・パラメータであり、前記メッシュ・パラメータが、生成されるメッシュのメッシュ密度を含む、システム。
請求項１６記載のシステムであって、前記システムが、更に、
前記ラベル付けした入力データにおける領域が、顔としてラベル付けされたか否か判定し、
前記入力データにおける領域が顔として判定されたとき、前記入力データにおいて顔でないと判定された領域と比較して、高いメッシュ密度で、前記領域のメッシュを生成する、
ように構成される、システム。
請求項１４記載のシステムにおいて、前記システムが、更に、
１つ以上の領域に対して、それらのそれぞれのラベルに基づいて、メッシュ・プロセスを選択し、
前記１つ以上の領域に作成されたメッシュを統一することによって、統一メッシュを作成する、
ことによって、前記ラベル付けした入力データをメッシュ化するように構成される、システム。
請求項１８記載のシステムにおいて、前記１つ以上の領域が、少なくとも目または耳としてラベル付けされる、システム。
請求項１４記載のシステムにおいて、前記システムが、更に、
メッシュを生成するためにヒューマン・ブレンドシェープ・フィッティング法を適用して、領域のメッシュを生成するように構成される、システム。
請求項１４記載のシステムにおいて、前記システムが、更に、
前記入力データにおける領域がリジッド・ボディ・パーツとしてラベル付けされたか否か、セマンティック・データに基づいて判定し、
リジッド・ボディ・パーツであると判定された各領域を追跡する、
ように構成される、システム。
請求項２１記載のシステムにおいて、前記システムが、更に、
時間系列にわたって、前記リジッド・ボディ・パーツにおいて少なくとも移動、変形、または他の変化を追跡する、
ように構成される、システム。
請求項１４記載のシステムにおいて、前記システムが、更に、
前記ラベル付けした入力データにおける領域が、非リジッド・ボディ・パーツとしてラベル付けされたか否か、セマンティック・データに基づいて判定し、
非リジッド・ボディ・パーツであると判定された各領域を追跡する、
ように構成される、システム。
請求項２３記載のシステムにおいて、前記システムが、更に、
メッシュ作成を改良するために、識別された各非リジッド・ボディ・パーツの少なくとも１つのプロパティを判定する、
ように構成される、システム。
請求項１４記載のシステムにおいて、前記システムが、更に、
少なくとも、識別した各領域の重要性に基づいて、１組の圧縮パラメータを決定し、
前記１組の決定した圧縮パラメータに基づいて、前記生成したメッシュに圧縮プロセスを適用する、
ように構成される、システム。