JP7235215B2

JP7235215B2 - 写真－ビデオベースの時空間ボリュメトリックキャプチャシステム

Info

Publication number: JP7235215B2
Application number: JP2021534140A
Authority: JP
Inventors: ケンジタシロ; チュエン－チェンリー; チンジャン
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2018-12-20
Filing date: 2019-12-20
Publication date: 2023-03-08
Anticipated expiration: 2039-12-20
Also published as: EP3881525A4; US20220044478A1; US11816795B2; WO2020132631A1; CN113475053A; KR102577966B1; EP3881525A1; KR20210087512A; JP2022514246A

Description

〔関連出願との相互参照〕
本出願は、２０１８年１２月２０日に出願された「アルベド対応の仮想人間デジタル化、３ＤＣＧモデリング及び自然再現映像のための時間効率の良いビデオベースの顔及び身体キャプチャシステム（ＴＩＭＥＥＦＦＩＣＩＥＮＴＶＩＤＥＯ－ＢＡＳＥＤＦＡＣＥＡＮＤＢＯＤＹＣＡＰＴＵＲＥＳＹＳＴＥＭＦＯＲＡＬＢＥＤＯ－ＲＥＡＤＹＶＩＲＴＵＡＬＨＵＭＡＮＤＩＧＩＴＩＺＡＴＩＯＮ，３ＤＣＧＭＯＤＥＬＩＮＧＡＮＤＮＡＴＵＲＡＬＲＥＥＮＡＣＴＭＥＮＴ）」という名称の米国仮特許出願第６２／７８２，８６２号の米国特許法第１１９条に基づく優先権を主張するものであり、この文献は全体が全ての目的で引用により本明細書に組み入れられる。

本発明は、娯楽産業のための３次元コンピュータビジョン及びグラフィックスに関する。具体的には、本発明は、映画、ＴＶ、音楽及びゲームコンテンツ生成のために３次元コンピュータビジョン及びグラフィックスを取得して処理することに関する。

映画／ＴＶ業界では、物理的キャストが製作費の大部分である。さらに、物理的キャストの使用時には、負傷／事故による製作遅延のリスク、並びに移動のための複雑な手配及び調整の必要性がある。最近の傾向では、仮想製作物のためのデジタルヒューマンキャストの使用増加が示されている。デジタルキャストは、実際のキャストに危険なスタントアクションを行わせることなく人間能力を超えたスーパーヒーローアクションを可能にする。しかしながら、このようなＶＦＸは高コストで時間が掛かり、高予算の続編映画又はＴＶ番組にしか余裕がない。

ゲーム業界では、リアルなゲームプレイユーザ体験の追求が続いている。過去１０年間で、ゲーム製作費は１０倍増加した。２０２０年には、平均的なＡＡＡゲームの製作費は、映画予算と同様の推定２億５０００万ドルに達する予定である。リアルなゲームプレイユーザ体験の最も大きな課題は、妥当な時間／コスト予算内でリアルなゲームキャラクタを製作することである。仮想人間製作は非常に手動的であり、時間が掛かり、高価である。一例として、１キャラクタ当たり８万ドル～１５万ドルのコストが掛かり、複数のキャラクタでは容易に数百万ドルに上ってしまう。

ＣＧアートワークをゼロから手作りするのではなく、マルチビューカメラ３Ｄ／４Ｄスキャナによってリアルなデジタル人間モデルを効率的に製作することが最近の傾向である。カメラ取り込みベースの人間デジタル化（ｃａｍｅｒａｃａｐｔｕｒｅｄｂａｓｅｄｈｕｍａｎｄｉｇｉｔｉｚａｔｉｏｎ）のための様々な３Ｄスキャナスタジオ（３Ｌａｔｅｒａｌ、Ａｖａｔｔａ、ＴＥＮ２４、ＰｉｘｅｌＬｉｇｈｔＥｆｆｅｃｔ、Ｅｉｓｋｏ）及び４Ｄスキャナスタジオ（４ＤＶｉｅｗｓ、Ｍｉｃｒｏｓｏｆｔ、８ｉ、ＤＧｅｎｅ）が世界規模で存在する。

写真ベースの３Ｄスキャナスタジオは、複数の高解像度写真カメラ配列から成る。３Ｄスキャナスタジオは、自然な表面動特性を取り込むことができないので、通常はアニメーションのために手動ＣＧ作業を必要とする。ビデオベースの４Ｄスキャナ（４Ｄ＝３Ｄ＋時間）スタジオは、複数の高フレームレートマシンビジョンカメラ配列から成る。４Ｄスキャナスタジオは、自然な表面動特性を取り込むが、ビデオカメラの解像度によって忠実度が制限される。

写真－ビデオベースの時空間ボリュメトリックキャプチャシステムは、初期化時の単一の静的テンプレートモデル（例えば、Ａ又はＴポーズ）ではなくさらに低いフレームレートで人間の動特性を取り込む時間的に疎な一連の高解像度の３Ｄスキャンされたキーフレームから、４Ｄスキャンされたビデオデータの解像度を時間的にアップサンプリングすることよって、２つの別個の３Ｄ及び４Ｄスキャナシステムを必要とせずに高フレームレートかつ高解像度の４Ｄ動的人間ビデオをより効率的に生成し、手動ＣＧ作業の必要性を低減する。また、トリガを利用することによって、低解像度マルチビュービデオが一般に高フレームレートで取り込まれるが、ビデオと同時に低フレームレートではあるが高解像度マルチビュー写真カメラが取り込まれるようにビデオ取得が最適化される。低フレームレートで同時にトリガされる写真カメラ及びビデオカメラの両方を使用して再構成された高解像度の３Ｄスキャンモデルとしてキーフレームが定められる。

１つの態様では、方法が、１又は２以上の写真カメラ及び１又は２以上のビデオカメラを使用してコンテンツを取り込むステップと、装置を使用して、１又は２以上の写真カメラ及び１又は２以上のビデオカメラをトリガして１又は２以上のキーフレームを取得するステップと、装置を使用して、取り込まれたコンテンツ及び１又は２以上のキーフレームに基づいて１又は２以上のモデルを生成するステップとを含む。コンテンツを取り込むステップは、顔表情及び／又は身体動作を取り込むステップを含む。トリガするステップは、トリガタイミングを利用して１又は２以上の写真カメラ及び１又は２以上のビデオカメラへのトリガを同時に生成するステップを含む。１又は２以上の写真カメラのトリガタイミングは周期的トリガリングを含む。１又は２以上の写真カメラのトリガタイミングは、人間の観察者を利用して特定の顔表情及び／又は身体表現を検出することを含む。１又は２以上の写真カメラのトリガタイミングは、装置、１又は２以上の写真カメラ、及び／又は１又は２以上のビデオカメラによって特定の顔表情又は身体表現を自動的に検出することを含む。１又は２以上のモデルは、長い動作シーケンスにおける高解像度の表面動特性を復元するために、１又は２以上の写真カメラ及び１又は２以上のビデオカメラの両方によって取り込まれた複数のキーフレームにおける３Ｄスキャンされた高解像度のテンプレートを使用することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの４Ｄスキャンされたボリュメトリックシーケンス（ｖｏｌｕｍｅｔｒｉｃｓｅｑｕｅｎｃｅ）に対して、メッシュ追跡ベースの時間形状超解像（ｍｅｓｈ－ｔｒａｃｋｉｎｇｂａｓｅｄｔｅｍｐｏｒａｌｓｈａｐｅｓｕｐｅｒ－ｒｅｓｏｌｕｔｉｏｎ）を実行するために使用される。１又は２以上のモデルは、複数のキーフレームにおける高解像度及び低解像度ＵＶテクスチャペアを訓練することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの４Ｄスキャンされたボリュメトリックシーケンスに対して、機械学習ベースの時間テクスチャ超解像を実行するために使用され、各キーフレームにおいて、写真カメラの画像データを使用して高解像度ＵＶテクスチャマップが生成される一方で、ビデオカメラの画像データを使用して低解像度ＵＶテクスチャマップが生成され、より高い訓練効率のために高解像度及び低解像度ＵＶテクスチャスチャペア間にテクスチャが配置されるように同じメッシュトポロジが使用される。方法は、顔表情及び身体動作を含むコンテンツ及び１又は２以上のモデルを使用してコンピュータグラフィックスを生成するステップをさらに含み、コンピュータグラフィックスを生成するステップは、コンテンツのキーフレーム及びコンテンツの非キーフレームを利用してキーフレーム間で遷移するステップを含む。

別の態様では、装置が、１又は２以上の写真カメラ及び１又は２以上のビデオカメラにトリガ信号が送信されるトリガリングを実行して１又は２以上のキーフレームを取得し、１又は２以上の写真カメラ及び１又は２以上のビデオカメラから取り込まれた１又は２以上のキーフレーム及びコンテンツに基づいて１又は２以上のモデルを生成するためのアプリケーションを記憶する非一時的メモリと、メモリに結合されて、アプリケーションを処理するように構成されたプロセッサとを備える。トリガリングは、トリガタイミングを利用して、１又は２以上の写真カメラ及び１又は２以上のビデオカメラへのトリガを同時に生成することを含む。１又は２以上の写真カメラのトリガタイミングは周期的トリガリングを含む。１又は２以上の写真カメラのトリガタイミングは、人間の観察者を利用して特定の顔表情及び／又は身体表現を検出することを含む。１又は２以上の写真カメラのトリガタイミングは、装置、１又は２以上の写真カメラ、及び／又は１又は２以上のビデオカメラによって特定の顔表情又は身体表現を自動的に検出することを含む。１又は２以上のモデルは、長い動作シーケンスにおける高解像度の表面動特性を復元するために、１又は２以上の写真カメラ及び１又は２以上のビデオカメラの両方によって取り込まれた複数のキーフレームにおける高解像度の３Ｄスキャンされたテンプレートを使用することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの４Ｄスキャンされたボリュメトリックシーケンスに対して、メッシュ追跡ベースの時間形状超解像を実行するために使用される。１又は２以上のモデルは、複数のキーフレームにおける高解像度及び低解像度ＵＶテクスチャペアを訓練することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの４Ｄスキャンされたボリュメトリックシーケンスに対して、機械学習ベースの時間テクスチャ超解像を実行するために使用され、各キーフレームにおいて、写真カメラの画像データを使用して高解像度ＵＶテクスチャマップが生成される一方で、ビデオカメラの画像データを使用して低解像度ＵＶテクスチャマップが生成され、より高い訓練効率のために高解像度及び低解像度ＵＶテクスチャスチャペア間にテクスチャが配置されるように同じメッシュトポロジが使用される。アプリケーションは、顔表情及び身体動作を含むコンテンツ及び１又は２以上のモデルを使用してコンピュータグラフィックスを生成するようにさらに構成され、コンピュータグラフィックスを生成することは、コンテンツのキーフレーム及びコンテンツの非キーフレームを利用してキーフレーム間で遷移することを含む。

別の態様では、システムが、被写体の画像コンテンツを取り込むように構成された第１の装置の組と、被写体のビデオコンテンツを取り込むように構成された第２の装置の組と、コンピュータ装置とを備え、コンピュータ装置は、トリガリングを実行して、画像コンテンツ及びビデオコンテンツに基づく１又は２以上のキーフレームを取得し、画像コンテンツ及びビデオコンテンツ及び１又は２以上のキーフレームに基づいて１又は２以上のモデルを生成するように構成される。コンテンツを取り込むことは、顔表情及び／又は身体動作を取り込むことを含む。トリガリングは、トリガタイミングを利用して、１又は２以上の写真カメラ及び１又は２以上のビデオカメラへのトリガを同時に生成することを含む。１又は２以上の写真カメラのトリガタイミングは周期的トリガリングを含む。１又は２以上の写真カメラのトリガタイミングは、人間の観察者を利用して特定の顔表情及び／又は身体表現を検出することを含む。１又は２以上の写真カメラのトリガタイミングは、コンピュータ装置、第１の装置の組、及び／又は第２の装置の組によって特定の顔表情又は身体表現を自動的に検出することを含む。１又は２以上のモデルは、長い動作シーケンスにおける高解像度の表面動特性を復元するために、１又は２以上の写真カメラ及び１又は２以上のビデオカメラの両方によって取り込まれた複数のキーフレームにおける高解像度の３Ｄスキャンされたテンプレートを使用することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの４Ｄスキャンされたボリュメトリックシーケンスに対して、メッシュ追跡ベースの時間形状超解像を実行するために使用される。１又は２以上のモデルは、複数のキーフレームにおける高解像度及び低解像度ＵＶテクスチャペアを訓練することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの４Ｄスキャンされたボリュメトリックシーケンスに対して、機械学習ベースの時間テクスチャ超解像を実行するために使用され、各キーフレームにおいて、写真カメラの画像データを使用して高解像度ＵＶテクスチャマップが生成される一方で、ビデオカメラの画像データを使用して低解像度ＵＶテクスチャマップが生成され、より高い訓練効率のために高解像度及び低解像度ＵＶテクスチャスチャペア間にテクスチャが配置されるように同じメッシュトポロジが使用される。コンピュータ装置は、顔表情及び身体動作を含む画像コンテンツ及びビデオコンテンツ及び１又は２以上のモデルを使用してコンピュータグラフィックスを生成するようにさらに構成され、コンピュータグラフィックスを生成することは、コンテンツのキーフレーム及びコンテンツの非キーフレームを利用してキーフレーム間で遷移することを含む。

いくつかの実施形態による顔キャプチャシステム及び身体キャプチャシステムの図である。いくつかの実施形態によるトリガリング機構の図である。いくつかの実施形態によるメッシュ追跡の図である。いくつかの実施形態によるメッシュ追跡ベースの時間形状超解像の図である。いくつかの実施形態による機械学習ベースのテクスチャ超解像の図である。いくつかの実施形態による、時間効率の良いビデオベースのフレームレートキャプチャシステムの実装方法のフローチャートである。いくつかの実施形態による、写真－ビデオベースの時空間ボリュメトリックキャプチャシステムを実装するように構成された例示的なコンピュータ装置のブロック図である。

時間効率が高いにもかかわらずフォトリアリスティックな３Ｄ顔及び身体キャプチャシステムが必要である。上述したように、１つの課題は、時間の掛かる写真画像ベースの３Ｄキャプチャシステム、及び結果として得られるモデル化とアニメーションとのパイプラインである。通常、被写体は、例えばカメラ及び様々な光の方向にわたって被写体の不自然な顔／身体表現を強要する様々な条件下でのスイーピング中に、顔の表情（又は身体のポーズ）毎に静止した状態を保つ。被写体は、様々な（例えば、＞１０の）顔表情又は身体ポーズにわたってこれを繰り返す。通常、最先端の顔取り込み光段階（ｆａｃｅｃａｐｔｕｒｅｌｉｇｈｔｓｔａｇｅ）は、顔の表情毎に～２０分の取り込み時間を必要とする。全てのデータが取り込まれると、ＣＧアニメータが静的モデルを表情毎に整理して再メッシュし、アニメーションのためのＦＡＣＳ（顔面動作符号化システム（ＦａｃｅＡｃｔｉｏｎＣｏｄｉｎｇＳｙｓｔｅｍ））ベースの動的アニメーション可能モデルを作成する。表情間の遷移は３Ｄスキャナによって取り込まれないので、通常、ＣＧアニメータは詳細な表面動特性を手動で手作りし、通常はこのワークフローに数ヶ月掛かる。４Ｄスキャナは、アニメータの参照として使用されることが多いが、マシンビジョンビデオベースの４Ｄスキャナの解像度の限界に起因して、通常はＦＡＣＳモデリングパイプラインで使用することができない。

図１は、いくつかの実施形態による顔キャプチャシステム及び身体キャプチャシステムの図である。１又は２以上の写真カメラ１００が画像を取得する。１又は２以上の写真カメラ１００は、マルチビュー高解像度（例えば、４２メガピクセル）写真カメラ（例えば、ＤＳＬＲカメラ）とすることができるが、通常はフレームレートが制限される（例えば、２ｆｐｓ）。１又は２以上のビデオカメラ１２０がビデオ情報を取得する。１又は２以上のビデオカメラは、マルチビュー高フレームレートマシンビジョンカメラ（例えば、６０ｆｐｓ）とすることができるが、解像度が制限される（例えば、８メガピクセル）。例えば、１又は２以上の写真カメラ１００及び１又は２以上のビデオカメラ１０２は人物の画像及びビデオを取得し、ビデオは様々な顔の表情及び身体の動きを含む。

写真カメラ及びビデオ（マシンビジョン）カメラへのトリガを同時に生成するためにトリガ機構１０４が実装される。トリガ機構１０４は、１又は２以上の写真カメラ１００、１又は２以上のビデオカメラ１０２及び／又は１又は２以上のコンピュータ装置１０６に記憶されたアプリケーションなどにいずれかの方法で実装することができる。トリガ機構１０４が１又は２以上のコンピュータ装置１０６によって制御されるいくつかの実施形態では、トリガ機構１０４が、ビデオカメラのトリガ速度の方が高く維持された状態でマルチビュー写真カメラ１００及びビデオカメラ１０２に同時にトリガを送信する（例えば、写真カメラでは２ｆｐｓ、ビデオカメラでは６０ｆｐｓ）。

いくつかの実施形態では、写真カメラ及びビデオカメラが両方同時にトリガされた時のフレームとしてキーフレームが定められ、従って高解像度の３Ｄテンプレートモデルが再構成される。他のフレームは、解像度の低いビデオカメラのみがトリガされた時の非キーフレームとして定められ、従って再構成される４Ｄモデルは、高解像度の３Ｄテンプレートキーフレームを使用してアップサンプリングされる。

写真カメラのトリガタイミングは、１）周期的（例えば、２ｆｐｓ）：ビデオベースの低解像度の４Ｄスキャンされたボリュメトリックシーケンス（例えば、６０ｆｐｓ）を高解像度の３Ｄスキャンされたキーフレーム間でアップサンプリングするため、２）半自動：人間の観察者が特定の顔表情又は身体表現を検出する場合、及び３）自動：コンピュータ装置、１又は２以上の写真カメラ、及び／又は１又は２以上のビデオカメラによって（例えば、テンプレートマッチング、又は表現を検出するための他のいずれかの機構を使用して）特定の顔表情又は身体表現が検出される場合、という３つの使用事例を含む。

１又は２以上のコンピュータ装置１０６は、取り込み処理を開始して、１又は２以上の写真カメラ１００及び１又は２以上のビデオカメラ１０２から一連の画像／ビデオを取得する。画像／ビデオ情報は、１又は２以上のコンピュータ装置１０６において受け取られ、及び／又はこれらの１又は２以上のコンピュータ装置１０６に送信され、ここでビデオ情報が処理される。例えば、１又は２以上のコンピュータ装置１０６は、ビデオ情報を処理してＣＧコンテンツを生成する（例えば、モデリングを実行する）。

システムは、長い動作シーケンスにおける高解像度の表面動特性を復元するために、複数の高解像度の３Ｄスキャンされたテンプレートキーフレームモデルを使用して、写真カメラ１００及びビデオカメラ１０２の両方によって取り込まれた複数のキーフレームにおける高解像度の３Ｄテンプレートを使用することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの４Ｄスキャンされたボリュメトリックシーケンスに対して、メッシュ追跡ベースの時間形状超解像（アップサンプリング）を実行することができる。システムは、複数のキーフレームにおいて同時にトリガされて取り込まれた高解像度及び低解像度ＵＶテクスチャペア（マルチビュー写真カメラ１００からの高解像度テクスチャ及びマルチビュービデオカメラ１０２からの低解像度テクスチャ）を訓練することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの４Ｄスキャンされたボリュメトリックシーケンスに対して、機械学習ベースの時間テクスチャ超解像（アップサンプリング）を実行することもできる。

図２は、いくつかの実施形態によるトリガリング機構の図である。上述したように、キーフレーム２００は、写真カメラ及びビデオカメラが両方同時にトリガされた時のものであり、従って高解像度の３Ｄテンプレートモデルが再構成される。非キーフレーム２０２は、低解像度のビデオカメラのみがトリガされた時のものであり、従って再構成された４Ｄモデルは精緻化のためにアップサンプリングされる。非キーフレームは、１）メッシュ追跡ベースの時間形状超解像、及び２）機械学習ベースの時間テクスチャ超解像、を適用することによってキーフレームを使用して時間的にアップサンプリングされるように意図された低解像度のボリュメトリックシーケンスを含む。

キーフレームでは、高解像度の３Ｄテンプレートモデルが再構成される。高解像度の形状再構成は、マルチビュー写真カメラ及びマシンビジョンカメラの両方を使用して実現される。機械学習ベースのテクスチャ超解像のための訓練データセットとして、高解像度及び低解像度ＵＶテクスチャペアが使用される。

写真カメラのトリガタイミングは、以下の３つの使用事例を含む。
周期的（例えば、２ｆｐｓ）：ビデオベースの低解像度のボリュメトリックシーケンス（例えば、６０ｆｐｓ）をキーフレーム間でアップサンプリングするため、
半自動：人間の観察者が特定の顔表情又は身体表現を検出する場合、
自動：特定の顔表情又は身体表現が検出される場合。

図３は、いくつかの実施形態によるメッシュ追跡の図である。メッシュ追跡は、時間内に一貫してメッシュトポロジを位置合わせすることを伴う。

図４は、いくつかの実施形態によるメッシュ追跡ベースの時間形状超解像の図である。

図４の左側には、単一のテンプレートベースの動作取り込みを示す。詳細な表面動特性のロバストなアップサンプリングは存在しない。３Ｄスキャン及び４Ｄスキャンという２つの異なる段階が存在する。

図４の右側には、詳細な表面動特性にロバストに適合するマルチキーフレームベースの形状超解像を示す。シーケンス内では、４Ｄスキャナが複数の３Ｄテンプレートと組み合わさっている。

図５は、いくつかの実施形態による機械学習ベースのテクスチャ超解像の図である。

図５の左側には、単一のテンプレートベースの動作取り込みを示す。追跡されたメッシュに基づく単一のテンプレートからの一定のテクスチャが存在する。

図５の右側には、テクスチャ変更に適合してシーケンス内で複数のキーフレームテクスチャ訓練データセットを使用する機械学習ベースのテクスチャ超解像を示す。

図６は、いくつかの実施形態による、写真－ビデオベースの時空間ボリュメトリックキャプチャシステムの実装方法のフローチャートである。ステップ６００において、１又は２以上のビデオカメラ及び１又は２以上の写真カメラを使用して、顔表情及び身体動作を含むコンテンツ（例えば、画像／ビデオコンテンツ）を取り込む。ステップ６０２において、トリガリングを実行して１又は２以上のキーフレームを取得する。トリガリングは、写真カメラ及びビデオカメラに対して同時にトリガを生成することを含む。写真カメラのトリガタイミングは、１）周期的（例えば、２ｆｐｓ）：低解像度のビデオベースの４Ｄスキャンされたボリュメトリックシーケンス（例えば、６０ｆｐｓ）をキーフレームの高解像度の３Ｄスキャンされたテンプレートモデル間でアップサンプリングするため、２）半自動：人間の観察者が特定の顔表情又は身体表現を検出する場合、及び３）自動：コンピュータ装置によって（例えば、テンプレートマッチング、機械学習、及び／又は表現を検出するための他のいずれかの機構を使用して）特定の顔表情又は身体表現が検出される場合、という３つの使用事例を含む。ステップ６０４において、取得されたビデオを使用してコンテンツを生成する。例えば、取得されたコンテンツを使用して、映画又はその他のビデオ内にＣＧアバターを配置することができる。コンテンツの生成は、複数の高解像度テンプレートモデルを生成することを含むことができる。システムは、長い動作シーケンスにおける高解像度の表面動特性を復元するために、複数の高解像度テンプレートモデルを使用して、写真カメラ及びビデオカメラの両方によって取り込まれた複数のキーフレームにおける高解像度のテンプレートを使用することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの４Ｄスキャンされたボリュメトリックシーケンスに対して、メッシュ追跡ベースの時間形状超解像（アップサンプリング）を実行することができる。システムは、複数のキーフレームにおいて同時にトリガされて取り込まれた高解像度及び低解像度ＵＶテクスチャペア（マルチビュー写真カメラからの高解像度テクスチャ及びマルチビュービデオカメラからの低解像度テクスチャ）を訓練することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースのボリュメトリックシーケンスに対して、機械学習ベースの時間テクスチャ超解像（アップサンプリング）を実行することもできる。いくつかの実施形態では、これよりも少ない又はさらなるステップが実行される。いくつかの実施形態では、ステップの順序が変更される。

図７は、いくつかの実施形態による、写真－ビデオベースの時空間ボリュメトリックキャプチャシステムを実装するように構成された例示的なコンピュータ装置のブロック図である。コンピュータ装置７００は、３Ｄコンテンツを含む画像及びビデオなどの情報の取得、記憶、計算、処理、通信及び／又は表示のために使用することができる。コンピュータ装置７００は、時間効率の良いビデオベースのフレームレートキャプチャシステムの態様のいずれかを実装することができる。一般に、コンピュータ装置７００を実装するのに適したハードウェア構造は、ネットワークインターフェイス７０２、メモリ７０４、プロセッサ７０６、Ｉ／Ｏ装置７０８、バス７１０及び記憶装置７１２を含む。プロセッサの選択は、十分な速度の好適なプロセッサが選択される限り重要ではない。メモリ７０４は、当業で周知のいずれかの従来のコンピュータメモリとすることができる。記憶装置７１２は、ハードドライブ、ＣＤＲＯＭ、ＣＤＲＷ、ＤＶＤ、ＤＶＤＲＷ、高精細ディスク／ドライブ、ウルトラＨＤドライブ、フラッシュメモリカード、又はその他のいずれかの記憶装置を含むことができる。コンピュータ装置７００は、１又は２以上のネットワークインターフェイス７０２を含むことができる。ネットワークインターフェイスの例としては、イーサネット又は他のタイプのＬＡＮに接続されたネットワークカードが挙げられる。（単複の）Ｉ／Ｏ装置７０８は、キーボード、マウス、モニタ、画面、プリンタ、モデム、タッチ画面、ボタンインターフェイス及びその他の装置のうちの１つ又は２つ以上を含むことができる。記憶装置７１２及びメモリ７０４には、写真－ビデオベースの時空間ボリュメトリックキャプチャシステムを実装するために使用される写真－ビデオベースの時空間ボリュメトリックキャプチャアプリケーション７３０が記憶されて、アプリケーションが通常処理されるように処理される可能性が高い。コンピュータ装置７００には、図７に示すものよりも多くの又は少ないコンポーネントを含めることもできる。いくつかの実施形態では、写真－ビデオベースの時空間ボリュメトリックキャプチャハードウェア７２０が含まれる。図７のコンピュータ装置７００は、写真－ビデオベースの時空間ボリュメトリックキャプチャシステムのためのアプリケーション７３０及びハードウェア７２０を含むが、写真－ビデオベースの時空間ボリュメトリックキャプチャシステムは、ハードウェア、ファームウェア、ソフトウェア、又はこれらのいずれかの組み合わせでコンピュータ装置上に実装することもできる。例えば、いくつかの実施形態では、写真－ビデオベースの時空間ボリュメトリックキャプチャアプリケーション７３０がメモリにプログラムされ、プロセッサを使用して実行される。別の例として、いくつかの実施形態では、写真－ビデオベースの時空間ボリュメトリックキャプチャハードウェア７２０が、写真－ビデオベースの時空間ボリュメトリックキャプチャシステムを実装するように特別に設計されたゲートを含むプログラムされたハードウェアロジックである。

いくつかの実施形態では、（単複の）写真－ビデオベースの時空間ボリュメトリックキャプチャアプリケーション７３０が、複数のアプリケーション及び／又はモジュールを含む。いくつかの実施形態では、モジュールが１又は２以上のサブモジュールも含む。いくつかの実施形態では、これよりも少ない又はさらなるモジュールを含めることもできる。

いくつかの実施形態では、写真－ビデオベースの時空間ボリュメトリックキャプチャハードウェア７２０が、レンズ、イメージセンサ及び／又は他のいずれかのカメラコンポーネントなどのカメラコンポーネントを含む。

好適なコンピュータ装置の例としては、パーソナルコンピュータ、ラップトップコンピュータ、コンピュータワークステーション、サーバ、メインフレームコンピュータ、ハンドヘルドコンピュータ、携帯情報端末、セルラ／携帯電話機、スマート家電、ゲーム機、デジタルカメラ、デジタルカムコーダ、カメラ付き電話機、スマートホン、ポータブル音楽プレーヤ、タブレットコンピュータ、モバイル装置、ビデオプレーヤ、ビデオディスクライタ／プレーヤ（ＤＶＤライタ／プレーヤ、高精細ディスクライタ／プレーヤ、超高精細ディスクライタ／プレーヤなど）、テレビ、家庭用エンターテイメントシステム、拡張現実装置、仮想現実装置、スマートジュエリ（例えば、スマートウォッチ）、車両（例えば、自動走行車両）、又はその他のいずれかの好適なコンピュータ装置が挙げられる。

本明細書で説明した写真－ビデオベースの時空間ボリュメトリックキャプチャシステムを利用するには、装置がトリガリングを使用して画像及びビデオコンテンツを取り込んでビデオコンテンツを取得する。写真－ビデオベースの時空間ボリュメトリックキャプチャシステムは、ユーザの支援を伴って、又はユーザの関与を伴わずに自動的に実行することができる。写真－ビデオベースの時空間ボリュメトリックシステムを実行するために、あらゆる数のカメラを利用することができる。

動作中、写真－ビデオベースの時空間ボリュメトリックキャプチャシステムは、写真画像及びビデオを同時に取得して、写真カメラ及びビデオカメラの両方を使用して再構成された高解像度の３Ｄスキャンされたキーフレームテンプレートモデルから低解像度の４Ｄされたスキャンビデオをアップサンプリングすることによって、高フレームレートかつ高解像度の４Ｄスキャンされた人間の動的ボリュメトリックビデオを生成する。写真－ビデオベースの時空間ボリュメトリックキャプチャシステムは、オフライン形状及びテクスチャ超解像のためにシーケンス内で複数の高解像度テンプレートモデルを生成する。システムは、複数のキーフレーム高解像度テンプレートモデルを使用して、長い動作シーケンスにおける高解像度の表面動特性を復元するためのメッシュ追跡ベースの時間形状超解像を可能にする。典型的な動作キャプチャシステムは、単一のテンプレート（例えば、Ａポーズ）から表面動特性（例えば、衣服）を復元するという限られた能力を有する。本明細書で説明するシステムは、高解像度及び低解像度ＵＶテクスチャペアの複数のキーフレームデータセットを訓練のために提供することができる。

動的４Ｄ人間の顔及び身体デジタル化のための写真－ビデオベースの時空間ボリュメトリックキャプチャシステムのいくつかの実施形態
１．１又は２以上の写真カメラ及び１又は２以上のビデオカメラを使用してコンテンツを取り込むステップと、装置を使用して、１又は２以上の写真カメラ及び１又は２以上のビデオカメラをトリガして１又は２以上のキーフレームを取得するステップと、装置を使用して、取り込まれたコンテンツ及び１又は２以上のキーフレームに基づいて１又は２以上のモデルを生成するステップと、を含む方法。

２．コンテンツを取り込むステップは、顔表情及び／又は身体動作を取り込むステップを含む、条項１に記載の方法。

３．トリガするステップは、トリガタイミングを利用して１又は２以上の写真カメラ及び１又は２以上のビデオカメラへのトリガを同時に生成するステップを含む、条項１に記載の方法。

４．１又は２以上の写真カメラのトリガタイミングは、周期的トリガリングを含む、条項３に記載の方法。

５．１又は２以上の写真カメラのトリガタイミングは、人間の観察者を利用して特定の顔表情及び／又は身体表現を検出することを含む、条項３に記載の方法。

６．１又は２以上の写真カメラのトリガタイミングは、装置、１又は２以上の写真カメラ、及び／又は１又は２以上のビデオカメラによって特定の顔表情又は身体表現を自動的に検出することを含む、条項３に記載の方法。

７．１又は２以上のモデルは、長い動作シーケンスにおける高解像度の表面動特性を復元するために、１又は２以上の写真カメラ及び１又は２以上のビデオカメラの両方によって取り込まれた複数のキーフレームにおける３Ｄスキャンされた高解像度のテンプレートを使用することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの４Ｄスキャンされたボリュメトリックシーケンスに対して、メッシュ追跡ベースの時間形状超解像を実行するために使用される、条項１に記載の方法。

８．１又は２以上のモデルは、複数のキーフレームにおける高解像度及び低解像度ＵＶテクスチャペアを訓練することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの４Ｄスキャンされたボリュメトリックシーケンスに対して、機械学習ベースの時間テクスチャ超解像を実行するために使用され、各キーフレームにおいて、写真カメラの画像データを使用して高解像度ＵＶテクスチャマップが生成される一方で、ビデオカメラの画像データを使用して低解像度ＵＶテクスチャマップが生成され、より高い訓練効率のために高解像度及び低解像度ＵＶテクスチャスチャペア間にテクスチャが配置されるように同じメッシュトポロジが使用される、条項１に記載の方法。

９．顔表情及び身体動作を含むコンテンツ及び１又は２以上のモデルを使用してコンピュータグラフィックスを生成するステップをさらに含み、コンピュータグラフィックスを生成するステップは、コンテンツのキーフレーム及びコンテンツの非キーフレームを利用してキーフレーム間で遷移するステップを含む、条項１に記載の方法。

１０．１又は２以上の写真カメラ及び１又は２以上のビデオカメラにトリガ信号が送信されるトリガリングを実行して１又は２以上のキーフレームを取得し、１又は２以上の写真カメラ及び１又は２以上のビデオカメラから取り込まれた１又は２以上のキーフレーム及びコンテンツに基づいて１又は２以上のモデルを生成する、ためのアプリケーションを記憶する非一時的メモリと、メモリに結合されて、アプリケーションを処理するように構成されたプロセッサと、を備える装置。

１１．トリガリングは、トリガタイミングを利用して、１又は２以上の写真カメラ及び１又は２以上のビデオカメラへのトリガを同時に生成することを含む、条項１０に記載の装置。

１２．１又は２以上の写真カメラのトリガタイミングは、周期的トリガリングを含む、条項１１に記載の装置。

１３．１又は２以上の写真カメラのトリガタイミングは、人間の観察者を利用して特定の顔表情及び／又は身体表現を検出することを含む、条項１１に記載の装置。

１４．１又は２以上の写真カメラのトリガタイミングは、装置、１又は２以上の写真カメラ、及び／又は１又は２以上のビデオカメラによって特定の顔表情又は身体表現を自動的に検出することを含む、条項１１に記載の装置。

１５．１又は２以上のモデルは、長い動作シーケンスにおける高解像度の表面動特性を復元するために、１又は２以上の写真カメラ及び１又は２以上のビデオカメラの両方によって取り込まれた複数のキーフレームにおける高解像度の３Ｄスキャンされたテンプレートを使用することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの４Ｄスキャンされたボリュメトリックシーケンスに対して、メッシュ追跡ベースの時間形状超解像を実行するために使用される、条項１０に記載の装置。

１６．１又は２以上のモデルは、複数のキーフレームにおける高解像度及び低解像度ＵＶテクスチャペアを訓練することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの４Ｄスキャンされたボリュメトリックシーケンスに対して、機械学習ベースの時間テクスチャ超解像を実行するために使用され、各キーフレームにおいて、写真カメラの画像データを使用して高解像度ＵＶテクスチャマップが生成される一方で、ビデオカメラの画像データを使用して低解像度ＵＶテクスチャマップが生成され、より高い訓練効率のために高解像度及び低解像度ＵＶテクスチャスチャペア間にテクスチャが配置されるように同じメッシュトポロジが使用される、条項１０に記載の装置。

１７．アプリケーションは、顔表情及び身体動作を含むコンテンツ及び１又は２以上のモデルを使用してコンピュータグラフィックスを生成するようにさらに構成され、コンピュータグラフィックスを生成することは、コンテンツのキーフレーム及びコンテンツの非キーフレームを利用してキーフレーム間で遷移することを含む、条項１０に記載の装置。

１８．被写体の画像コンテンツを取り込むように構成された第１の装置の組と、被写体のビデオコンテンツを取り込むように構成された第２の装置の組と、コンピュータ装置と、を備え、コンピュータ装置は、トリガリングを実行して、画像コンテンツ及びビデオコンテンツに基づく１又は２以上のキーフレームを取得し、画像コンテンツ及びビデオコンテンツ及び１又は２以上のキーフレームに基づいて１又は２以上のモデルを生成する、ように構成される、システム。

１９．コンテンツを取り込むことは、顔表情及び／又は身体動作を取り込むことを含む、条項１８に記載のシステム。

２０．トリガリングは、トリガタイミングを利用して、１又は２以上の写真カメラ及び１又は２以上のビデオカメラへのトリガを同時に生成することを含む、条項１８に記載のシステム。

２１．１又は２以上の写真カメラのトリガタイミングは、周期的トリガリングを含む、条項２０に記載のシステム。

２２．１又は２以上の写真カメラのトリガタイミングは、人間の観察者を利用して特定の顔表情及び／又は身体表現を検出することを含む、条項２０に記載のシステム。

２３．１又は２以上の写真カメラのトリガタイミングは、コンピュータ装置、第１の装置の組、及び／又は第２の装置の組によって特定の顔表情又は身体表現を自動的に検出することを含む、条項２０に記載のシステム。

２４．１又は２以上のモデルは、長い動作シーケンスにおける高解像度の表面動特性を復元するために、１又は２以上の写真カメラ及び１又は２以上のビデオカメラの両方によって取り込まれた複数のキーフレームにおける高解像度の３Ｄスキャンされたテンプレートを使用することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの４Ｄスキャンされたボリュメトリックシーケンスに対して、メッシュ追跡ベースの時間形状超解像を実行するために使用される、条項１８に記載のシステム。

２５．１又は２以上のモデルは、複数のキーフレームにおける高解像度及び低解像度ＵＶテクスチャペアを訓練することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの４Ｄスキャンされたボリュメトリックシーケンスに対して、機械学習ベースの時間テクスチャ超解像を実行するために使用され、各キーフレームにおいて、写真カメラの画像データを使用して高解像度ＵＶテクスチャマップが生成される一方で、ビデオカメラの画像データを使用して低解像度ＵＶテクスチャマップが生成され、より高い訓練効率のために高解像度及び低解像度ＵＶテクスチャスチャペア間にテクスチャが配置されるように同じメッシュトポロジが使用される、条項１８に記載のシステム。

２６．コンピュータ装置は、顔表情及び身体動作を含む画像コンテンツ及びビデオコンテンツ及び１又は２以上のモデルを使用してコンピュータグラフィックスを生成するようにさらに構成され、コンピュータグラフィックスを生成することは、コンテンツのキーフレーム及びコンテンツの非キーフレームを利用してキーフレーム間で遷移することを含む、条項１８に記載のシステム。

１００写真カメラ
１０２ビデオカメラ
１０４トリガ機構
１０６コンピュータ装置

Claims

１又は２以上の写真カメラ及び１又は２以上のビデオカメラを使用してコンテンツを取り込むステップと、
装置を使用して、前記１又は２以上の写真カメラ及び前記１又は２以上のビデオカメラをトリガして１又は２以上のキーフレームを取得するステップと、
前記装置を使用して、前記取り込まれたコンテンツ及び前記１又は２以上のキーフレームに基づいて１又は２以上のモデルを生成するステップと、
を含み、
前記コンテンツを取り込むステップは、動的顔表情及び／又は動的身体動作を取り込み、
トリガするステップは、トリガタイミングを利用して前記１又は２以上の写真カメラ及び前記１又は２以上のビデオカメラへのトリガを同時に生成し、
前記１又は２以上のモデルは、長い動作シーケンスにおける高解像度の表面動特性を復元するために、前記１又は２以上の写真カメラ及び前記１又は２以上のビデオカメラの両方によって取り込まれた複数のキーフレームにおける３Ｄスキャンされた高解像度のテンプレートを使用することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの４Ｄスキャンされたボリュメトリックシーケンスに対して、メッシュ追跡ベースの時間形状超解像を実行するために使用されるか、又は、
前記１又は２以上のモデルは、複数のキーフレームにおける高解像度及び低解像度ＵＶテクスチャペアを訓練することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの４Ｄスキャンされたボリュメトリックシーケンスに対して、機械学習ベースの時間テクスチャ超解像を実行するために使用され、各キーフレームにおいて、写真カメラの画像データを使用して高解像度ＵＶテクスチャマップが生成される一方で、ビデオカメラの画像データを使用して低解像度ＵＶテクスチャマップが生成され、より高い訓練効率のために高解像度及び低解像度ＵＶテクスチャスチャペア間にテクスチャが配置されるように同じメッシュトポロジが使用される、
ことを特徴とする方法。
前記１又は２以上の写真カメラのトリガタイミングは、周期的トリガリングを含む、
請求項１に記載の方法。
前記１又は２以上の写真カメラのトリガタイミングは、人間の観察者を利用して特定の顔表情及び／又は身体表現を検出することを含む、
請求項１に記載の方法。
前記１又は２以上の写真カメラのトリガタイミングは、前記装置、前記１又は２以上の写真カメラ、及び／又は前記１又は２以上のビデオカメラによって特定の顔表情又は身体表現を自動的に検出することを含む、
請求項１に記載の方法。
前記顔表情及び身体動作を含む前記コンテンツ及び前記１又は２以上のモデルを使用してコンピュータグラフィックスを生成するステップをさらに含み、前記コンピュータグラフィックスを生成するステップは、前記コンテンツのキーフレーム及び前記コンテンツの非キーフレームを利用して前記キーフレーム間で遷移するステップを含む、
請求項１に記載の方法。
１又は２以上の写真カメラ及び１又は２以上のビデオカメラにトリガ信号が送信されるトリガリングを実行して１又は２以上のキーフレームを取得し、
前記１又は２以上の写真カメラ及び前記１又は２以上のビデオカメラから取り込まれた前記１又は２以上のキーフレーム及びコンテンツに基づいて１又は２以上のモデルを生成する、
ためのアプリケーションを記憶する非一時的メモリと、
前記メモリに結合されて、前記アプリケーションを処理するように構成されたプロセッサと、
を備え、
トリガリングは、トリガタイミングを利用して、前記１又は２以上の写真カメラ及び前記１又は２以上のビデオカメラへのトリガを同時に生成し、
前記１又は２以上のモデルは、長い動作シーケンスにおける高解像度の表面動特性を復元するために、前記１又は２以上の写真カメラ及び前記１又は２以上のビデオカメラの両方によって取り込まれた複数のキーフレームにおける高解像度の３Ｄスキャンされたテンプレートを使用することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの４Ｄスキャンされたボリュメトリックシーケンスに対して、メッシュ追跡ベースの時間形状超解像を実行するために使用されるか、又は、
前記１又は２以上のモデルは、複数のキーフレームにおける高解像度及び低解像度ＵＶテクスチャペアを訓練することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの４Ｄスキャンされたボリュメトリックシーケンスに対して、機械学習ベースの時間テクスチャ超解像を実行するために使用され、各キーフレームにおいて、写真カメラの画像データを使用して高解像度ＵＶテクスチャマップが生成される一方で、ビデオカメラの画像データを使用して低解像度ＵＶテクスチャマップが生成され、より高い訓練効率のために高解像度及び低解像度ＵＶテクスチャスチャペア間にテクスチャが配置されるように同じメッシュトポロジが使用される、
ことを特徴とする装置。
前記１又は２以上の写真カメラのトリガタイミングは、周期的トリガリングを含む、
請求項６に記載の装置。
前記１又は２以上の写真カメラのトリガタイミングは、人間の観察者を利用して特定の顔表情及び／又は身体表現を検出することを含む、
請求項６に記載の装置。
前記１又は２以上の写真カメラのトリガタイミングは、前記装置、前記１又は２以上の写真カメラ、及び／又は前記１又は２以上のビデオカメラによって特定の顔表情又は身体表現を自動的に検出することを含む、
請求項６に記載の装置。
被写体の画像コンテンツを取り込むように構成された第１の装置の組と、
前記被写体のビデオコンテンツを取り込むように構成された第２の装置の組と、
コンピュータ装置と、
を備え、前記コンピュータ装置は、
トリガリングを実行して、前記画像コンテンツ及び前記ビデオコンテンツに基づく１又は２以上のキーフレームを取得し、
前記画像コンテンツ及び前記ビデオコンテンツ及び前記１又は２以上のキーフレームに基づいて１又は２以上のモデルを生成する、
ように構成され、
画像コンテンツ又はビデオコンテンツを取り込むことは、顔表情及び／又は身体動作を取り込むことを含み、
トリガリングは、トリガタイミングを利用して、１又は２以上の写真カメラ及び１又は２以上のビデオカメラへのトリガを同時に生成し、
前記１又は２以上のモデルは、長い動作シーケンスにおける高解像度の表面動特性を復元するために、前記１又は２以上の写真カメラ及び前記１又は２以上のビデオカメラの両方によって取り込まれた複数のキーフレームにおける高解像度の３Ｄスキャンされたテンプレートを使用することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの４Ｄスキャンされたボリュメトリックシーケンスに対して、メッシュ追跡ベースの時間形状超解像を実行するために使用されるか、又は、
前記１又は２以上のモデルは、複数のキーフレームにおける高解像度及び低解像度ＵＶテクスチャペアを訓練することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの４Ｄスキャンされたボリュメトリックシーケンスに対して、機械学習ベースの時間テクスチャ超解像を実行するために使用され、各キーフレームにおいて、写真カメラの画像データを使用して高解像度ＵＶテクスチャマップが生成される一方で、ビデオカメラの画像データを使用して低解像度ＵＶテクスチャマップが生成され、より高い訓練効率のために高解像度及び低解像度ＵＶテクスチャスチャペア間にテクスチャが配置されるように同じメッシュトポロジが使用される、
ことを特徴とするシステム。
前記１又は２以上の写真カメラのトリガタイミングは、周期的トリガリングを含む、
請求項１０に記載のシステム。
前記１又は２以上の写真カメラのトリガタイミングは、人間の観察者を利用して特定の顔表情及び／又は身体表現を検出することを含む、
請求項１０に記載のシステム。
前記１又は２以上の写真カメラのトリガタイミングは、前記コンピュータ装置、前記第１の装置の組、及び／又は前記第２の装置の組によって特定の顔表情又は身体表現を自動的に検出することを含む、
請求項１０に記載のシステム。
前記コンピュータ装置は、顔表情及び身体動作を含む前記画像コンテンツ及び前記ビデオコンテンツ及び前記１又は２以上のモデルを使用してコンピュータグラフィックスを生成するようにさらに構成され、前記コンピュータグラフィックスを生成することは、画像コンテンツ又はビデオコンテンツのキーフレーム及び画像コンテンツ又はビデオコンテンツの非キーフレームを利用して前記キーフレーム間で遷移することを含む、
請求項１０に記載のシステム。