JP7235215B2 - 写真-ビデオベースの時空間ボリュメトリックキャプチャシステム - Google Patents

写真-ビデオベースの時空間ボリュメトリックキャプチャシステム Download PDF

Info

Publication number
JP7235215B2
JP7235215B2 JP2021534140A JP2021534140A JP7235215B2 JP 7235215 B2 JP7235215 B2 JP 7235215B2 JP 2021534140 A JP2021534140 A JP 2021534140A JP 2021534140 A JP2021534140 A JP 2021534140A JP 7235215 B2 JP7235215 B2 JP 7235215B2
Authority
JP
Japan
Prior art keywords
resolution
video
cameras
keyframes
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021534140A
Other languages
English (en)
Other versions
JP2022514246A (ja
Inventor
ケンジ タシロ
チュエン-チェン リー
チン ジャン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JP2022514246A publication Critical patent/JP2022514246A/ja
Application granted granted Critical
Publication of JP7235215B2 publication Critical patent/JP7235215B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/20Finite element generation, e.g. wire-frame surface description, tesselation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/04Texture mapping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
    • G06T5/73
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • G06T7/596Depth or shape recovery from multiple images from stereo images from three or more stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/243Image signal generators using stereoscopic image cameras using three or more 2D image sensors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • H04N23/611Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/90Arrangement of cameras or camera modules, e.g. multiple cameras in TV studios or sports stadiums
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/95Computational photography systems, e.g. light-field imaging systems
    • H04N23/951Computational photography systems, e.g. light-field imaging systems by using two or more images to influence resolution, frame rate or aspect ratio
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/2224Studio circuitry; Studio devices; Studio equipment related to virtual studio applications
    • H04N5/2226Determination of depth image, e.g. for foreground/background separation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/2625Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects for obtaining an image which is composed of images from a temporal image sequence, e.g. for a stroboscopic effect
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Graphics (AREA)
  • General Engineering & Computer Science (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Geometry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)
  • Image Generation (AREA)
  • Studio Devices (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)

Description

〔関連出願との相互参照〕
本出願は、2018年12月20日に出願された「アルベド対応の仮想人間デジタル化、3D CGモデリング及び自然再現映像のための時間効率の良いビデオベースの顔及び身体キャプチャシステム(TIME EFFICIENT VIDEO-BASED FACE AND BODY CAPTURE SYSTEM FOR ALBEDO-READY VIRTUAL HUMAN DIGITIZATION, 3D CG MODELING AND NATURAL REENACTMENT)」という名称の米国仮特許出願第62/782,862号の米国特許法第119条に基づく優先権を主張するものであり、この文献は全体が全ての目的で引用により本明細書に組み入れられる。
本発明は、娯楽産業のための3次元コンピュータビジョン及びグラフィックスに関する。具体的には、本発明は、映画、TV、音楽及びゲームコンテンツ生成のために3次元コンピュータビジョン及びグラフィックスを取得して処理することに関する。
映画/TV業界では、物理的キャストが製作費の大部分である。さらに、物理的キャストの使用時には、負傷/事故による製作遅延のリスク、並びに移動のための複雑な手配及び調整の必要性がある。最近の傾向では、仮想製作物のためのデジタルヒューマンキャストの使用増加が示されている。デジタルキャストは、実際のキャストに危険なスタントアクションを行わせることなく人間能力を超えたスーパーヒーローアクションを可能にする。しかしながら、このようなVFXは高コストで時間が掛かり、高予算の続編映画又はTV番組にしか余裕がない。
ゲーム業界では、リアルなゲームプレイユーザ体験の追求が続いている。過去10年間で、ゲーム製作費は10倍増加した。2020年には、平均的なAAAゲームの製作費は、映画予算と同様の推定2億5000万ドルに達する予定である。リアルなゲームプレイユーザ体験の最も大きな課題は、妥当な時間/コスト予算内でリアルなゲームキャラクタを製作することである。仮想人間製作は非常に手動的であり、時間が掛かり、高価である。一例として、1キャラクタ当たり8万ドル~15万ドルのコストが掛かり、複数のキャラクタでは容易に数百万ドルに上ってしまう。
CGアートワークをゼロから手作りするのではなく、マルチビューカメラ3D/4Dスキャナによってリアルなデジタル人間モデルを効率的に製作することが最近の傾向である。カメラ取り込みベースの人間デジタル化(camera captured based human digitization)のための様々な3Dスキャナスタジオ(3Lateral、Avatta、TEN24、Pixel Light Effect、Eisko)及び4Dスキャナスタジオ(4DViews、Microsoft、8i、DGene)が世界規模で存在する。
写真ベースの3Dスキャナスタジオは、複数の高解像度写真カメラ配列から成る。3Dスキャナスタジオは、自然な表面動特性を取り込むことができないので、通常はアニメーションのために手動CG作業を必要とする。ビデオベースの4Dスキャナ(4D=3D+時間)スタジオは、複数の高フレームレートマシンビジョンカメラ配列から成る。4Dスキャナスタジオは、自然な表面動特性を取り込むが、ビデオカメラの解像度によって忠実度が制限される。
写真-ビデオベースの時空間ボリュメトリックキャプチャシステムは、初期化時の単一の静的テンプレートモデル(例えば、A又はTポーズ)ではなくさらに低いフレームレートで人間の動特性を取り込む時間的に疎な一連の高解像度の3Dスキャンされたキーフレームから、4Dスキャンされたビデオデータの解像度を時間的にアップサンプリングすることよって、2つの別個の3D及び4Dスキャナシステムを必要とせずに高フレームレートかつ高解像度の4D動的人間ビデオをより効率的に生成し、手動CG作業の必要性を低減する。また、トリガを利用することによって、低解像度マルチビュービデオが一般に高フレームレートで取り込まれるが、ビデオと同時に低フレームレートではあるが高解像度マルチビュー写真カメラが取り込まれるようにビデオ取得が最適化される。低フレームレートで同時にトリガされる写真カメラ及びビデオカメラの両方を使用して再構成された高解像度の3Dスキャンモデルとしてキーフレームが定められる。
1つの態様では、方法が、1又は2以上の写真カメラ及び1又は2以上のビデオカメラを使用してコンテンツを取り込むステップと、装置を使用して、1又は2以上の写真カメラ及び1又は2以上のビデオカメラをトリガして1又は2以上のキーフレームを取得するステップと、装置を使用して、取り込まれたコンテンツ及び1又は2以上のキーフレームに基づいて1又は2以上のモデルを生成するステップとを含む。コンテンツを取り込むステップは、顔表情及び/又は身体動作を取り込むステップを含む。トリガするステップは、トリガタイミングを利用して1又は2以上の写真カメラ及び1又は2以上のビデオカメラへのトリガを同時に生成するステップを含む。1又は2以上の写真カメラのトリガタイミングは周期的トリガリングを含む。1又は2以上の写真カメラのトリガタイミングは、人間の観察者を利用して特定の顔表情及び/又は身体表現を検出することを含む。1又は2以上の写真カメラのトリガタイミングは、装置、1又は2以上の写真カメラ、及び/又は1又は2以上のビデオカメラによって特定の顔表情又は身体表現を自動的に検出することを含む。1又は2以上のモデルは、長い動作シーケンスにおける高解像度の表面動特性を復元するために、1又は2以上の写真カメラ及び1又は2以上のビデオカメラの両方によって取り込まれた複数のキーフレームにおける3Dスキャンされた高解像度のテンプレートを使用することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの4Dスキャンされたボリュメトリックシーケンス(volumetric sequence)に対して、メッシュ追跡ベースの時間形状超解像(mesh-tracking based temporal shape super-resolution)を実行するために使用される。1又は2以上のモデルは、複数のキーフレームにおける高解像度及び低解像度UVテクスチャペアを訓練することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの4Dスキャンされたボリュメトリックシーケンスに対して、機械学習ベースの時間テクスチャ超解像を実行するために使用され、各キーフレームにおいて、写真カメラの画像データを使用して高解像度UVテクスチャマップが生成される一方で、ビデオカメラの画像データを使用して低解像度UVテクスチャマップが生成され、より高い訓練効率のために高解像度及び低解像度UVテクスチャスチャペア間にテクスチャが配置されるように同じメッシュトポロジが使用される。方法は、顔表情及び身体動作を含むコンテンツ及び1又は2以上のモデルを使用してコンピュータグラフィックスを生成するステップをさらに含み、コンピュータグラフィックスを生成するステップは、コンテンツのキーフレーム及びコンテンツの非キーフレームを利用してキーフレーム間で遷移するステップを含む。
別の態様では、装置が、1又は2以上の写真カメラ及び1又は2以上のビデオカメラにトリガ信号が送信されるトリガリングを実行して1又は2以上のキーフレームを取得し、1又は2以上の写真カメラ及び1又は2以上のビデオカメラから取り込まれた1又は2以上のキーフレーム及びコンテンツに基づいて1又は2以上のモデルを生成するためのアプリケーションを記憶する非一時的メモリと、メモリに結合されて、アプリケーションを処理するように構成されたプロセッサとを備える。トリガリングは、トリガタイミングを利用して、1又は2以上の写真カメラ及び1又は2以上のビデオカメラへのトリガを同時に生成することを含む。1又は2以上の写真カメラのトリガタイミングは周期的トリガリングを含む。1又は2以上の写真カメラのトリガタイミングは、人間の観察者を利用して特定の顔表情及び/又は身体表現を検出することを含む。1又は2以上の写真カメラのトリガタイミングは、装置、1又は2以上の写真カメラ、及び/又は1又は2以上のビデオカメラによって特定の顔表情又は身体表現を自動的に検出することを含む。1又は2以上のモデルは、長い動作シーケンスにおける高解像度の表面動特性を復元するために、1又は2以上の写真カメラ及び1又は2以上のビデオカメラの両方によって取り込まれた複数のキーフレームにおける高解像度の3Dスキャンされたテンプレートを使用することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの4Dスキャンされたボリュメトリックシーケンスに対して、メッシュ追跡ベースの時間形状超解像を実行するために使用される。1又は2以上のモデルは、複数のキーフレームにおける高解像度及び低解像度UVテクスチャペアを訓練することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの4Dスキャンされたボリュメトリックシーケンスに対して、機械学習ベースの時間テクスチャ超解像を実行するために使用され、各キーフレームにおいて、写真カメラの画像データを使用して高解像度UVテクスチャマップが生成される一方で、ビデオカメラの画像データを使用して低解像度UVテクスチャマップが生成され、より高い訓練効率のために高解像度及び低解像度UVテクスチャスチャペア間にテクスチャが配置されるように同じメッシュトポロジが使用される。アプリケーションは、顔表情及び身体動作を含むコンテンツ及び1又は2以上のモデルを使用してコンピュータグラフィックスを生成するようにさらに構成され、コンピュータグラフィックスを生成することは、コンテンツのキーフレーム及びコンテンツの非キーフレームを利用してキーフレーム間で遷移することを含む。
別の態様では、システムが、被写体の画像コンテンツを取り込むように構成された第1の装置の組と、被写体のビデオコンテンツを取り込むように構成された第2の装置の組と、コンピュータ装置とを備え、コンピュータ装置は、トリガリングを実行して、画像コンテンツ及びビデオコンテンツに基づく1又は2以上のキーフレームを取得し、画像コンテンツ及びビデオコンテンツ及び1又は2以上のキーフレームに基づいて1又は2以上のモデルを生成するように構成される。コンテンツを取り込むことは、顔表情及び/又は身体動作を取り込むことを含む。トリガリングは、トリガタイミングを利用して、1又は2以上の写真カメラ及び1又は2以上のビデオカメラへのトリガを同時に生成することを含む。1又は2以上の写真カメラのトリガタイミングは周期的トリガリングを含む。1又は2以上の写真カメラのトリガタイミングは、人間の観察者を利用して特定の顔表情及び/又は身体表現を検出することを含む。1又は2以上の写真カメラのトリガタイミングは、コンピュータ装置、第1の装置の組、及び/又は第2の装置の組によって特定の顔表情又は身体表現を自動的に検出することを含む。1又は2以上のモデルは、長い動作シーケンスにおける高解像度の表面動特性を復元するために、1又は2以上の写真カメラ及び1又は2以上のビデオカメラの両方によって取り込まれた複数のキーフレームにおける高解像度の3Dスキャンされたテンプレートを使用することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの4Dスキャンされたボリュメトリックシーケンスに対して、メッシュ追跡ベースの時間形状超解像を実行するために使用される。1又は2以上のモデルは、複数のキーフレームにおける高解像度及び低解像度UVテクスチャペアを訓練することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの4Dスキャンされたボリュメトリックシーケンスに対して、機械学習ベースの時間テクスチャ超解像を実行するために使用され、各キーフレームにおいて、写真カメラの画像データを使用して高解像度UVテクスチャマップが生成される一方で、ビデオカメラの画像データを使用して低解像度UVテクスチャマップが生成され、より高い訓練効率のために高解像度及び低解像度UVテクスチャスチャペア間にテクスチャが配置されるように同じメッシュトポロジが使用される。コンピュータ装置は、顔表情及び身体動作を含む画像コンテンツ及びビデオコンテンツ及び1又は2以上のモデルを使用してコンピュータグラフィックスを生成するようにさらに構成され、コンピュータグラフィックスを生成することは、コンテンツのキーフレーム及びコンテンツの非キーフレームを利用してキーフレーム間で遷移することを含む。
いくつかの実施形態による顔キャプチャシステム及び身体キャプチャシステムの図である。 いくつかの実施形態によるトリガリング機構の図である。 いくつかの実施形態によるメッシュ追跡の図である。 いくつかの実施形態によるメッシュ追跡ベースの時間形状超解像の図である。 いくつかの実施形態による機械学習ベースのテクスチャ超解像の図である。 いくつかの実施形態による、時間効率の良いビデオベースのフレームレートキャプチャシステムの実装方法のフローチャートである。 いくつかの実施形態による、写真-ビデオベースの時空間ボリュメトリックキャプチャシステムを実装するように構成された例示的なコンピュータ装置のブロック図である。
時間効率が高いにもかかわらずフォトリアリスティックな3D顔及び身体キャプチャシステムが必要である。上述したように、1つの課題は、時間の掛かる写真画像ベースの3Dキャプチャシステム、及び結果として得られるモデル化とアニメーションとのパイプラインである。通常、被写体は、例えばカメラ及び様々な光の方向にわたって被写体の不自然な顔/身体表現を強要する様々な条件下でのスイーピング中に、顔の表情(又は身体のポーズ)毎に静止した状態を保つ。被写体は、様々な(例えば、>10の)顔表情又は身体ポーズにわたってこれを繰り返す。通常、最先端の顔取り込み光段階(face capture light stage)は、顔の表情毎に~20分の取り込み時間を必要とする。全てのデータが取り込まれると、CGアニメータが静的モデルを表情毎に整理して再メッシュし、アニメーションのためのFACS(顔面動作符号化システム(Face Action Coding System))ベースの動的アニメーション可能モデルを作成する。表情間の遷移は3Dスキャナによって取り込まれないので、通常、CGアニメータは詳細な表面動特性を手動で手作りし、通常はこのワークフローに数ヶ月掛かる。4Dスキャナは、アニメータの参照として使用されることが多いが、マシンビジョンビデオベースの4Dスキャナの解像度の限界に起因して、通常はFACSモデリングパイプラインで使用することができない。
図1は、いくつかの実施形態による顔キャプチャシステム及び身体キャプチャシステムの図である。1又は2以上の写真カメラ100が画像を取得する。1又は2以上の写真カメラ100は、マルチビュー高解像度(例えば、42メガピクセル)写真カメラ(例えば、DSLRカメラ)とすることができるが、通常はフレームレートが制限される(例えば、2fps)。1又は2以上のビデオカメラ120がビデオ情報を取得する。1又は2以上のビデオカメラは、マルチビュー高フレームレートマシンビジョンカメラ(例えば、60fps)とすることができるが、解像度が制限される(例えば、8メガピクセル)。例えば、1又は2以上の写真カメラ100及び1又は2以上のビデオカメラ102は人物の画像及びビデオを取得し、ビデオは様々な顔の表情及び身体の動きを含む。
写真カメラ及びビデオ(マシンビジョン)カメラへのトリガを同時に生成するためにトリガ機構104が実装される。トリガ機構104は、1又は2以上の写真カメラ100、1又は2以上のビデオカメラ102及び/又は1又は2以上のコンピュータ装置106に記憶されたアプリケーションなどにいずれかの方法で実装することができる。トリガ機構104が1又は2以上のコンピュータ装置106によって制御されるいくつかの実施形態では、トリガ機構104が、ビデオカメラのトリガ速度の方が高く維持された状態でマルチビュー写真カメラ100及びビデオカメラ102に同時にトリガを送信する(例えば、写真カメラでは2fps、ビデオカメラでは60fps)。
いくつかの実施形態では、写真カメラ及びビデオカメラが両方同時にトリガされた時のフレームとしてキーフレームが定められ、従って高解像度の3Dテンプレートモデルが再構成される。他のフレームは、解像度の低いビデオカメラのみがトリガされた時の非キーフレームとして定められ、従って再構成される4Dモデルは、高解像度の3Dテンプレートキーフレームを使用してアップサンプリングされる。
写真カメラのトリガタイミングは、1)周期的(例えば、2fps):ビデオベースの低解像度の4Dスキャンされたボリュメトリックシーケンス(例えば、60fps)を高解像度の3Dスキャンされたキーフレーム間でアップサンプリングするため、2)半自動:人間の観察者が特定の顔表情又は身体表現を検出する場合、及び3)自動:コンピュータ装置、1又は2以上の写真カメラ、及び/又は1又は2以上のビデオカメラによって(例えば、テンプレートマッチング、又は表現を検出するための他のいずれかの機構を使用して)特定の顔表情又は身体表現が検出される場合、という3つの使用事例を含む。
1又は2以上のコンピュータ装置106は、取り込み処理を開始して、1又は2以上の写真カメラ100及び1又は2以上のビデオカメラ102から一連の画像/ビデオを取得する。画像/ビデオ情報は、1又は2以上のコンピュータ装置106において受け取られ、及び/又はこれらの1又は2以上のコンピュータ装置106に送信され、ここでビデオ情報が処理される。例えば、1又は2以上のコンピュータ装置106は、ビデオ情報を処理してCGコンテンツを生成する(例えば、モデリングを実行する)。
システムは、長い動作シーケンスにおける高解像度の表面動特性を復元するために、複数の高解像度の3Dスキャンされたテンプレートキーフレームモデルを使用して、写真カメラ100及びビデオカメラ102の両方によって取り込まれた複数のキーフレームにおける高解像度の3Dテンプレートを使用することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの4Dスキャンされたボリュメトリックシーケンスに対して、メッシュ追跡ベースの時間形状超解像(アップサンプリング)を実行することができる。システムは、複数のキーフレームにおいて同時にトリガされて取り込まれた高解像度及び低解像度UVテクスチャペア(マルチビュー写真カメラ100からの高解像度テクスチャ及びマルチビュービデオカメラ102からの低解像度テクスチャ)を訓練することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの4Dスキャンされたボリュメトリックシーケンスに対して、機械学習ベースの時間テクスチャ超解像(アップサンプリング)を実行することもできる。
図2は、いくつかの実施形態によるトリガリング機構の図である。上述したように、キーフレーム200は、写真カメラ及びビデオカメラが両方同時にトリガされた時のものであり、従って高解像度の3Dテンプレートモデルが再構成される。非キーフレーム202は、低解像度のビデオカメラのみがトリガされた時のものであり、従って再構成された4Dモデルは精緻化のためにアップサンプリングされる。非キーフレームは、1)メッシュ追跡ベースの時間形状超解像、及び2)機械学習ベースの時間テクスチャ超解像、を適用することによってキーフレームを使用して時間的にアップサンプリングされるように意図された低解像度のボリュメトリックシーケンスを含む。
キーフレームでは、高解像度の3Dテンプレートモデルが再構成される。高解像度の形状再構成は、マルチビュー写真カメラ及びマシンビジョンカメラの両方を使用して実現される。機械学習ベースのテクスチャ超解像のための訓練データセットとして、高解像度及び低解像度UVテクスチャペアが使用される。
写真カメラのトリガタイミングは、以下の3つの使用事例を含む。
周期的(例えば、2fps):ビデオベースの低解像度のボリュメトリックシーケンス(例えば、60fps)をキーフレーム間でアップサンプリングするため、
半自動:人間の観察者が特定の顔表情又は身体表現を検出する場合、
自動:特定の顔表情又は身体表現が検出される場合。
図3は、いくつかの実施形態によるメッシュ追跡の図である。メッシュ追跡は、時間内に一貫してメッシュトポロジを位置合わせすることを伴う。
図4は、いくつかの実施形態によるメッシュ追跡ベースの時間形状超解像の図である。
図4の左側には、単一のテンプレートベースの動作取り込みを示す。詳細な表面動特性のロバストなアップサンプリングは存在しない。3Dスキャン及び4Dスキャンという2つの異なる段階が存在する。
図4の右側には、詳細な表面動特性にロバストに適合するマルチキーフレームベースの形状超解像を示す。シーケンス内では、4Dスキャナが複数の3Dテンプレートと組み合わさっている。
図5は、いくつかの実施形態による機械学習ベースのテクスチャ超解像の図である。
図5の左側には、単一のテンプレートベースの動作取り込みを示す。追跡されたメッシュに基づく単一のテンプレートからの一定のテクスチャが存在する。
図5の右側には、テクスチャ変更に適合してシーケンス内で複数のキーフレームテクスチャ訓練データセットを使用する機械学習ベースのテクスチャ超解像を示す。
図6は、いくつかの実施形態による、写真-ビデオベースの時空間ボリュメトリックキャプチャシステムの実装方法のフローチャートである。ステップ600において、1又は2以上のビデオカメラ及び1又は2以上の写真カメラを使用して、顔表情及び身体動作を含むコンテンツ(例えば、画像/ビデオコンテンツ)を取り込む。ステップ602において、トリガリングを実行して1又は2以上のキーフレームを取得する。トリガリングは、写真カメラ及びビデオカメラに対して同時にトリガを生成することを含む。写真カメラのトリガタイミングは、1)周期的(例えば、2fps):低解像度のビデオベースの4Dスキャンされたボリュメトリックシーケンス(例えば、60fps)をキーフレームの高解像度の3Dスキャンされたテンプレートモデル間でアップサンプリングするため、2)半自動:人間の観察者が特定の顔表情又は身体表現を検出する場合、及び3)自動:コンピュータ装置によって(例えば、テンプレートマッチング、機械学習、及び/又は表現を検出するための他のいずれかの機構を使用して)特定の顔表情又は身体表現が検出される場合、という3つの使用事例を含む。ステップ604において、取得されたビデオを使用してコンテンツを生成する。例えば、取得されたコンテンツを使用して、映画又はその他のビデオ内にCGアバターを配置することができる。コンテンツの生成は、複数の高解像度テンプレートモデルを生成することを含むことができる。システムは、長い動作シーケンスにおける高解像度の表面動特性を復元するために、複数の高解像度テンプレートモデルを使用して、写真カメラ及びビデオカメラの両方によって取り込まれた複数のキーフレームにおける高解像度のテンプレートを使用することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの4Dスキャンされたボリュメトリックシーケンスに対して、メッシュ追跡ベースの時間形状超解像(アップサンプリング)を実行することができる。システムは、複数のキーフレームにおいて同時にトリガされて取り込まれた高解像度及び低解像度UVテクスチャペア(マルチビュー写真カメラからの高解像度テクスチャ及びマルチビュービデオカメラからの低解像度テクスチャ)を訓練することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースのボリュメトリックシーケンスに対して、機械学習ベースの時間テクスチャ超解像(アップサンプリング)を実行することもできる。いくつかの実施形態では、これよりも少ない又はさらなるステップが実行される。いくつかの実施形態では、ステップの順序が変更される。
図7は、いくつかの実施形態による、写真-ビデオベースの時空間ボリュメトリックキャプチャシステムを実装するように構成された例示的なコンピュータ装置のブロック図である。コンピュータ装置700は、3Dコンテンツを含む画像及びビデオなどの情報の取得、記憶、計算、処理、通信及び/又は表示のために使用することができる。コンピュータ装置700は、時間効率の良いビデオベースのフレームレートキャプチャシステムの態様のいずれかを実装することができる。一般に、コンピュータ装置700を実装するのに適したハードウェア構造は、ネットワークインターフェイス702、メモリ704、プロセッサ706、I/O装置708、バス710及び記憶装置712を含む。プロセッサの選択は、十分な速度の好適なプロセッサが選択される限り重要ではない。メモリ704は、当業で周知のいずれかの従来のコンピュータメモリとすることができる。記憶装置712は、ハードドライブ、CDROM、CDRW、DVD、DVDRW、高精細ディスク/ドライブ、ウルトラHDドライブ、フラッシュメモリカード、又はその他のいずれかの記憶装置を含むことができる。コンピュータ装置700は、1又は2以上のネットワークインターフェイス702を含むことができる。ネットワークインターフェイスの例としては、イーサネット又は他のタイプのLANに接続されたネットワークカードが挙げられる。(単複の)I/O装置708は、キーボード、マウス、モニタ、画面、プリンタ、モデム、タッチ画面、ボタンインターフェイス及びその他の装置のうちの1つ又は2つ以上を含むことができる。記憶装置712及びメモリ704には、写真-ビデオベースの時空間ボリュメトリックキャプチャシステムを実装するために使用される写真-ビデオベースの時空間ボリュメトリックキャプチャアプリケーション730が記憶されて、アプリケーションが通常処理されるように処理される可能性が高い。コンピュータ装置700には、図7に示すものよりも多くの又は少ないコンポーネントを含めることもできる。いくつかの実施形態では、写真-ビデオベースの時空間ボリュメトリックキャプチャハードウェア720が含まれる。図7のコンピュータ装置700は、写真-ビデオベースの時空間ボリュメトリックキャプチャシステムのためのアプリケーション730及びハードウェア720を含むが、写真-ビデオベースの時空間ボリュメトリックキャプチャシステムは、ハードウェア、ファームウェア、ソフトウェア、又はこれらのいずれかの組み合わせでコンピュータ装置上に実装することもできる。例えば、いくつかの実施形態では、写真-ビデオベースの時空間ボリュメトリックキャプチャアプリケーション730がメモリにプログラムされ、プロセッサを使用して実行される。別の例として、いくつかの実施形態では、写真-ビデオベースの時空間ボリュメトリックキャプチャハードウェア720が、写真-ビデオベースの時空間ボリュメトリックキャプチャシステムを実装するように特別に設計されたゲートを含むプログラムされたハードウェアロジックである。
いくつかの実施形態では、(単複の)写真-ビデオベースの時空間ボリュメトリックキャプチャアプリケーション730が、複数のアプリケーション及び/又はモジュールを含む。いくつかの実施形態では、モジュールが1又は2以上のサブモジュールも含む。いくつかの実施形態では、これよりも少ない又はさらなるモジュールを含めることもできる。
いくつかの実施形態では、写真-ビデオベースの時空間ボリュメトリックキャプチャハードウェア720が、レンズ、イメージセンサ及び/又は他のいずれかのカメラコンポーネントなどのカメラコンポーネントを含む。
好適なコンピュータ装置の例としては、パーソナルコンピュータ、ラップトップコンピュータ、コンピュータワークステーション、サーバ、メインフレームコンピュータ、ハンドヘルドコンピュータ、携帯情報端末、セルラ/携帯電話機、スマート家電、ゲーム機、デジタルカメラ、デジタルカムコーダ、カメラ付き電話機、スマートホン、ポータブル音楽プレーヤ、タブレットコンピュータ、モバイル装置、ビデオプレーヤ、ビデオディスクライタ/プレーヤ(DVDライタ/プレーヤ、高精細ディスクライタ/プレーヤ、超高精細ディスクライタ/プレーヤなど)、テレビ、家庭用エンターテイメントシステム、拡張現実装置、仮想現実装置、スマートジュエリ(例えば、スマートウォッチ)、車両(例えば、自動走行車両)、又はその他のいずれかの好適なコンピュータ装置が挙げられる。
本明細書で説明した写真-ビデオベースの時空間ボリュメトリックキャプチャシステムを利用するには、装置がトリガリングを使用して画像及びビデオコンテンツを取り込んでビデオコンテンツを取得する。写真-ビデオベースの時空間ボリュメトリックキャプチャシステムは、ユーザの支援を伴って、又はユーザの関与を伴わずに自動的に実行することができる。写真-ビデオベースの時空間ボリュメトリックシステムを実行するために、あらゆる数のカメラを利用することができる。
動作中、写真-ビデオベースの時空間ボリュメトリックキャプチャシステムは、写真画像及びビデオを同時に取得して、写真カメラ及びビデオカメラの両方を使用して再構成された高解像度の3Dスキャンされたキーフレームテンプレートモデルから低解像度の4Dされたスキャンビデオをアップサンプリングすることによって、高フレームレートかつ高解像度の4Dスキャンされた人間の動的ボリュメトリックビデオを生成する。写真-ビデオベースの時空間ボリュメトリックキャプチャシステムは、オフライン形状及びテクスチャ超解像のためにシーケンス内で複数の高解像度テンプレートモデルを生成する。システムは、複数のキーフレーム高解像度テンプレートモデルを使用して、長い動作シーケンスにおける高解像度の表面動特性を復元するためのメッシュ追跡ベースの時間形状超解像を可能にする。典型的な動作キャプチャシステムは、単一のテンプレート(例えば、Aポーズ)から表面動特性(例えば、衣服)を復元するという限られた能力を有する。本明細書で説明するシステムは、高解像度及び低解像度UVテクスチャペアの複数のキーフレームデータセットを訓練のために提供することができる。
動的4D人間の顔及び身体デジタル化のための写真-ビデオベースの時空間ボリュメトリックキャプチャシステムのいくつかの実施形態
1.1又は2以上の写真カメラ及び1又は2以上のビデオカメラを使用してコンテンツを取り込むステップと、装置を使用して、1又は2以上の写真カメラ及び1又は2以上のビデオカメラをトリガして1又は2以上のキーフレームを取得するステップと、装置を使用して、取り込まれたコンテンツ及び1又は2以上のキーフレームに基づいて1又は2以上のモデルを生成するステップと、を含む方法。
2.コンテンツを取り込むステップは、顔表情及び/又は身体動作を取り込むステップを含む、条項1に記載の方法。
3.トリガするステップは、トリガタイミングを利用して1又は2以上の写真カメラ及び1又は2以上のビデオカメラへのトリガを同時に生成するステップを含む、条項1に記載の方法。
4.1又は2以上の写真カメラのトリガタイミングは、周期的トリガリングを含む、条項3に記載の方法。
5.1又は2以上の写真カメラのトリガタイミングは、人間の観察者を利用して特定の顔表情及び/又は身体表現を検出することを含む、条項3に記載の方法。
6.1又は2以上の写真カメラのトリガタイミングは、装置、1又は2以上の写真カメラ、及び/又は1又は2以上のビデオカメラによって特定の顔表情又は身体表現を自動的に検出することを含む、条項3に記載の方法。
7.1又は2以上のモデルは、長い動作シーケンスにおける高解像度の表面動特性を復元するために、1又は2以上の写真カメラ及び1又は2以上のビデオカメラの両方によって取り込まれた複数のキーフレームにおける3Dスキャンされた高解像度のテンプレートを使用することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの4Dスキャンされたボリュメトリックシーケンスに対して、メッシュ追跡ベースの時間形状超解像を実行するために使用される、条項1に記載の方法。
8.1又は2以上のモデルは、複数のキーフレームにおける高解像度及び低解像度UVテクスチャペアを訓練することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの4Dスキャンされたボリュメトリックシーケンスに対して、機械学習ベースの時間テクスチャ超解像を実行するために使用され、各キーフレームにおいて、写真カメラの画像データを使用して高解像度UVテクスチャマップが生成される一方で、ビデオカメラの画像データを使用して低解像度UVテクスチャマップが生成され、より高い訓練効率のために高解像度及び低解像度UVテクスチャスチャペア間にテクスチャが配置されるように同じメッシュトポロジが使用される、条項1に記載の方法。
9.顔表情及び身体動作を含むコンテンツ及び1又は2以上のモデルを使用してコンピュータグラフィックスを生成するステップをさらに含み、コンピュータグラフィックスを生成するステップは、コンテンツのキーフレーム及びコンテンツの非キーフレームを利用してキーフレーム間で遷移するステップを含む、条項1に記載の方法。
10.1又は2以上の写真カメラ及び1又は2以上のビデオカメラにトリガ信号が送信されるトリガリングを実行して1又は2以上のキーフレームを取得し、1又は2以上の写真カメラ及び1又は2以上のビデオカメラから取り込まれた1又は2以上のキーフレーム及びコンテンツに基づいて1又は2以上のモデルを生成する、ためのアプリケーションを記憶する非一時的メモリと、メモリに結合されて、アプリケーションを処理するように構成されたプロセッサと、を備える装置。
11.トリガリングは、トリガタイミングを利用して、1又は2以上の写真カメラ及び1又は2以上のビデオカメラへのトリガを同時に生成することを含む、条項10に記載の装置。
12.1又は2以上の写真カメラのトリガタイミングは、周期的トリガリングを含む、条項11に記載の装置。
13.1又は2以上の写真カメラのトリガタイミングは、人間の観察者を利用して特定の顔表情及び/又は身体表現を検出することを含む、条項11に記載の装置。
14.1又は2以上の写真カメラのトリガタイミングは、装置、1又は2以上の写真カメラ、及び/又は1又は2以上のビデオカメラによって特定の顔表情又は身体表現を自動的に検出することを含む、条項11に記載の装置。
15.1又は2以上のモデルは、長い動作シーケンスにおける高解像度の表面動特性を復元するために、1又は2以上の写真カメラ及び1又は2以上のビデオカメラの両方によって取り込まれた複数のキーフレームにおける高解像度の3Dスキャンされたテンプレートを使用することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの4Dスキャンされたボリュメトリックシーケンスに対して、メッシュ追跡ベースの時間形状超解像を実行するために使用される、条項10に記載の装置。
16.1又は2以上のモデルは、複数のキーフレームにおける高解像度及び低解像度UVテクスチャペアを訓練することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの4Dスキャンされたボリュメトリックシーケンスに対して、機械学習ベースの時間テクスチャ超解像を実行するために使用され、各キーフレームにおいて、写真カメラの画像データを使用して高解像度UVテクスチャマップが生成される一方で、ビデオカメラの画像データを使用して低解像度UVテクスチャマップが生成され、より高い訓練効率のために高解像度及び低解像度UVテクスチャスチャペア間にテクスチャが配置されるように同じメッシュトポロジが使用される、条項10に記載の装置。
17.アプリケーションは、顔表情及び身体動作を含むコンテンツ及び1又は2以上のモデルを使用してコンピュータグラフィックスを生成するようにさらに構成され、コンピュータグラフィックスを生成することは、コンテンツのキーフレーム及びコンテンツの非キーフレームを利用してキーフレーム間で遷移することを含む、条項10に記載の装置。
18.被写体の画像コンテンツを取り込むように構成された第1の装置の組と、被写体のビデオコンテンツを取り込むように構成された第2の装置の組と、コンピュータ装置と、を備え、コンピュータ装置は、トリガリングを実行して、画像コンテンツ及びビデオコンテンツに基づく1又は2以上のキーフレームを取得し、画像コンテンツ及びビデオコンテンツ及び1又は2以上のキーフレームに基づいて1又は2以上のモデルを生成する、ように構成される、システム。
19.コンテンツを取り込むことは、顔表情及び/又は身体動作を取り込むことを含む、条項18に記載のシステム。
20.トリガリングは、トリガタイミングを利用して、1又は2以上の写真カメラ及び1又は2以上のビデオカメラへのトリガを同時に生成することを含む、条項18に記載のシステム。
21.1又は2以上の写真カメラのトリガタイミングは、周期的トリガリングを含む、条項20に記載のシステム。
22.1又は2以上の写真カメラのトリガタイミングは、人間の観察者を利用して特定の顔表情及び/又は身体表現を検出することを含む、条項20に記載のシステム。
23.1又は2以上の写真カメラのトリガタイミングは、コンピュータ装置、第1の装置の組、及び/又は第2の装置の組によって特定の顔表情又は身体表現を自動的に検出することを含む、条項20に記載のシステム。
24.1又は2以上のモデルは、長い動作シーケンスにおける高解像度の表面動特性を復元するために、1又は2以上の写真カメラ及び1又は2以上のビデオカメラの両方によって取り込まれた複数のキーフレームにおける高解像度の3Dスキャンされたテンプレートを使用することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの4Dスキャンされたボリュメトリックシーケンスに対して、メッシュ追跡ベースの時間形状超解像を実行するために使用される、条項18に記載のシステム。
25.1又は2以上のモデルは、複数のキーフレームにおける高解像度及び低解像度UVテクスチャペアを訓練することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの4Dスキャンされたボリュメトリックシーケンスに対して、機械学習ベースの時間テクスチャ超解像を実行するために使用され、各キーフレームにおいて、写真カメラの画像データを使用して高解像度UVテクスチャマップが生成される一方で、ビデオカメラの画像データを使用して低解像度UVテクスチャマップが生成され、より高い訓練効率のために高解像度及び低解像度UVテクスチャスチャペア間にテクスチャが配置されるように同じメッシュトポロジが使用される、条項18に記載のシステム。
26.コンピュータ装置は、顔表情及び身体動作を含む画像コンテンツ及びビデオコンテンツ及び1又は2以上のモデルを使用してコンピュータグラフィックスを生成するようにさらに構成され、コンピュータグラフィックスを生成することは、コンテンツのキーフレーム及びコンテンツの非キーフレームを利用してキーフレーム間で遷移することを含む、条項18に記載のシステム。
100 写真カメラ
102 ビデオカメラ
104 トリガ機構
106 コンピュータ装置

Claims (14)

  1. 1又は2以上の写真カメラ及び1又は2以上のビデオカメラを使用してコンテンツを取り込むステップと、
    装置を使用して、前記1又は2以上の写真カメラ及び前記1又は2以上のビデオカメラをトリガして1又は2以上のキーフレームを取得するステップと、
    前記装置を使用して、前記取り込まれたコンテンツ及び前記1又は2以上のキーフレームに基づいて1又は2以上のモデルを生成するステップと、
    を含み、
    前記コンテンツを取り込むステップは、動的顔表情及び/又は動的身体動作を取り込み、
    トリガするステップは、トリガタイミングを利用して前記1又は2以上の写真カメラ及び前記1又は2以上のビデオカメラへのトリガを同時に生成し、
    前記1又は2以上のモデルは、長い動作シーケンスにおける高解像度の表面動特性を復元するために、前記1又は2以上の写真カメラ及び前記1又は2以上のビデオカメラの両方によって取り込まれた複数のキーフレームにおける3Dスキャンされた高解像度のテンプレートを使用することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの4Dスキャンされたボリュメトリックシーケンスに対して、メッシュ追跡ベースの時間形状超解像を実行するために使用されるか、又は、
    前記1又は2以上のモデルは、複数のキーフレームにおける高解像度及び低解像度UVテクスチャペアを訓練することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの4Dスキャンされたボリュメトリックシーケンスに対して、機械学習ベースの時間テクスチャ超解像を実行するために使用され、各キーフレームにおいて、写真カメラの画像データを使用して高解像度UVテクスチャマップが生成される一方で、ビデオカメラの画像データを使用して低解像度UVテクスチャマップが生成され、より高い訓練効率のために高解像度及び低解像度UVテクスチャスチャペア間にテクスチャが配置されるように同じメッシュトポロジが使用される、
    ことを特徴とする方法。
  2. 前記1又は2以上の写真カメラのトリガタイミングは、周期的トリガリングを含む、
    請求項1に記載の方法。
  3. 前記1又は2以上の写真カメラのトリガタイミングは、人間の観察者を利用して特定の顔表情及び/又は身体表現を検出することを含む、
    請求項1に記載の方法。
  4. 前記1又は2以上の写真カメラのトリガタイミングは、前記装置、前記1又は2以上の写真カメラ、及び/又は前記1又は2以上のビデオカメラによって特定の顔表情又は身体表現を自動的に検出することを含む、
    請求項1に記載の方法。
  5. 前記顔表情及び身体動作を含む前記コンテンツ及び前記1又は2以上のモデルを使用してコンピュータグラフィックスを生成するステップをさらに含み、前記コンピュータグラフィックスを生成するステップは、前記コンテンツのキーフレーム及び前記コンテンツの非キーフレームを利用して前記キーフレーム間で遷移するステップを含む、
    請求項1に記載の方法。
  6. 1又は2以上の写真カメラ及び1又は2以上のビデオカメラにトリガ信号が送信されるトリガリングを実行して1又は2以上のキーフレームを取得し、
    前記1又は2以上の写真カメラ及び前記1又は2以上のビデオカメラから取り込まれた前記1又は2以上のキーフレーム及びコンテンツに基づいて1又は2以上のモデルを生成する、
    ためのアプリケーションを記憶する非一時的メモリと、
    前記メモリに結合されて、前記アプリケーションを処理するように構成されたプロセッサと、
    を備え、
    トリガリングは、トリガタイミングを利用して、前記1又は2以上の写真カメラ及び前記1又は2以上のビデオカメラへのトリガを同時に生成し、
    前記1又は2以上のモデルは、長い動作シーケンスにおける高解像度の表面動特性を復元するために、前記1又は2以上の写真カメラ及び前記1又は2以上のビデオカメラの両方によって取り込まれた複数のキーフレームにおける高解像度の3Dスキャンされたテンプレートを使用することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの4Dスキャンされたボリュメトリックシーケンスに対して、メッシュ追跡ベースの時間形状超解像を実行するために使用されるか、又は、
    前記1又は2以上のモデルは、複数のキーフレームにおける高解像度及び低解像度UVテクスチャペアを訓練することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの4Dスキャンされたボリュメトリックシーケンスに対して、機械学習ベースの時間テクスチャ超解像を実行するために使用され、各キーフレームにおいて、写真カメラの画像データを使用して高解像度UVテクスチャマップが生成される一方で、ビデオカメラの画像データを使用して低解像度UVテクスチャマップが生成され、より高い訓練効率のために高解像度及び低解像度UVテクスチャスチャペア間にテクスチャが配置されるように同じメッシュトポロジが使用される、
    ことを特徴とする装置。
  7. 前記1又は2以上の写真カメラのトリガタイミングは、周期的トリガリングを含む、
    請求項6に記載の装置。
  8. 前記1又は2以上の写真カメラのトリガタイミングは、人間の観察者を利用して特定の顔表情及び/又は身体表現を検出することを含む、
    請求項6に記載の装置。
  9. 前記1又は2以上の写真カメラのトリガタイミングは、前記装置、前記1又は2以上の写真カメラ、及び/又は前記1又は2以上のビデオカメラによって特定の顔表情又は身体表現を自動的に検出することを含む、
    請求項6に記載の装置。
  10. 被写体の画像コンテンツを取り込むように構成された第1の装置の組と、
    前記被写体のビデオコンテンツを取り込むように構成された第2の装置の組と、
    コンピュータ装置と、
    を備え、前記コンピュータ装置は、
    トリガリングを実行して、前記画像コンテンツ及び前記ビデオコンテンツに基づく1又は2以上のキーフレームを取得し、
    前記画像コンテンツ及び前記ビデオコンテンツ及び前記1又は2以上のキーフレームに基づいて1又は2以上のモデルを生成する、
    ように構成され、
    画像コンテンツ又はビデオコンテンツを取り込むことは、顔表情及び/又は身体動作を取り込むことを含み、
    トリガリングは、トリガタイミングを利用して、1又は2以上の写真カメラ及び1又は2以上のビデオカメラへのトリガを同時に生成し、
    前記1又は2以上のモデルは、長い動作シーケンスにおける高解像度の表面動特性を復元するために、前記1又は2以上の写真カメラ及び前記1又は2以上のビデオカメラの両方によって取り込まれた複数のキーフレームにおける高解像度の3Dスキャンされたテンプレートを使用することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの4Dスキャンされたボリュメトリックシーケンスに対して、メッシュ追跡ベースの時間形状超解像を実行するために使用されるか、又は、
    前記1又は2以上のモデルは、複数のキーフレームにおける高解像度及び低解像度UVテクスチャペアを訓練することによって精緻化された、低解像度ではあるが高フレームレートのビデオベースの4Dスキャンされたボリュメトリックシーケンスに対して、機械学習ベースの時間テクスチャ超解像を実行するために使用され、各キーフレームにおいて、写真カメラの画像データを使用して高解像度UVテクスチャマップが生成される一方で、ビデオカメラの画像データを使用して低解像度UVテクスチャマップが生成され、より高い訓練効率のために高解像度及び低解像度UVテクスチャスチャペア間にテクスチャが配置されるように同じメッシュトポロジが使用される、
    ことを特徴とするシステム。
  11. 前記1又は2以上の写真カメラのトリガタイミングは、周期的トリガリングを含む、
    請求項10に記載のシステム。
  12. 前記1又は2以上の写真カメラのトリガタイミングは、人間の観察者を利用して特定の顔表情及び/又は身体表現を検出することを含む、
    請求項10に記載のシステム。
  13. 前記1又は2以上の写真カメラのトリガタイミングは、前記コンピュータ装置、前記第1の装置の組、及び/又は前記第2の装置の組によって特定の顔表情又は身体表現を自動的に検出することを含む、
    請求項10に記載のシステム。
  14. 前記コンピュータ装置は、顔表情及び身体動作を含む前記画像コンテンツ及び前記ビデオコンテンツ及び前記1又は2以上のモデルを使用してコンピュータグラフィックスを生成するようにさらに構成され、前記コンピュータグラフィックスを生成することは、画像コンテンツ又はビデオコンテンツのキーフレーム及び画像コンテンツ又はビデオコンテンツの非キーフレームを利用して前記キーフレーム間で遷移することを含む、
    請求項10に記載のシステム。
JP2021534140A 2018-12-20 2019-12-20 写真-ビデオベースの時空間ボリュメトリックキャプチャシステム Active JP7235215B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862782862P 2018-12-20 2018-12-20
US62/782,862 2018-12-20
PCT/US2019/068151 WO2020132631A1 (en) 2018-12-20 2019-12-20 Photo-video based spatial-temporal volumetric capture system

Publications (2)

Publication Number Publication Date
JP2022514246A JP2022514246A (ja) 2022-02-10
JP7235215B2 true JP7235215B2 (ja) 2023-03-08

Family

ID=71102034

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021534140A Active JP7235215B2 (ja) 2018-12-20 2019-12-20 写真-ビデオベースの時空間ボリュメトリックキャプチャシステム

Country Status (6)

Country Link
US (1) US11816795B2 (ja)
EP (1) EP3881525A4 (ja)
JP (1) JP7235215B2 (ja)
KR (1) KR102577966B1 (ja)
CN (1) CN113475053A (ja)
WO (1) WO2020132631A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210358193A1 (en) * 2020-05-12 2021-11-18 True Meeting Inc. Generating an image from a certain viewpoint of a 3d object using a compact 3d model of the 3d object
US11405544B2 (en) * 2020-10-09 2022-08-02 Sony Group Corporation Programmable rig control for three-dimensional (3D) reconstruction
EP4278605A4 (en) * 2021-01-15 2024-02-21 Zte Corp MULTI-TRACK BASED IMMERSIVE MEDIA PLAYBACK
EP4292052A1 (en) * 2021-04-01 2023-12-20 Sony Group Corporation Automatic blending of human facial expression and full-body poses for dynamic digital human model creation using integrated photo-video volumetric capture system and mesh-tracking
US20220319114A1 (en) * 2021-04-01 2022-10-06 Sony Group Corporation Automatic blending of human facial expression and full-body poses for dynamic digital human model creation using integrated photo-video volumetric capture system and mesh-tracking
US11770494B1 (en) * 2021-06-14 2023-09-26 Jeremy Cowart Photography, Inc. Apparatus, systems, and methods for providing a lightograph

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007102478A (ja) 2005-10-04 2007-04-19 Toshiba Corp 画像処理装置、画像処理方法、及び半導体集積回路
US20160140733A1 (en) 2014-11-13 2016-05-19 Futurewei Technologies, Inc. Method and systems for multi-view high-speed motion capture

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6807290B2 (en) 2000-03-09 2004-10-19 Microsoft Corporation Rapid computer modeling of faces for animation
US7986339B2 (en) 2003-06-12 2011-07-26 Redflex Traffic Systems Pty Ltd Automated traffic violation monitoring and reporting system with combined video and still-image data
US7218774B2 (en) * 2003-08-08 2007-05-15 Microsoft Corp. System and method for modeling three dimensional objects from a single image
US7292257B2 (en) * 2004-06-28 2007-11-06 Microsoft Corporation Interactive viewpoint video system and process
EP1907076B1 (en) 2005-07-12 2008-11-05 Dartfish SA A method for analyzing the motion of a person during an activity
US7705889B2 (en) * 2007-06-15 2010-04-27 Sony Corporation Shutter time compensation
US8466913B2 (en) * 2007-11-16 2013-06-18 Sportvision, Inc. User interface for accessing virtual viewpoint animations
US9036898B1 (en) * 2011-01-18 2015-05-19 Disney Enterprises, Inc. High-quality passive performance capture using anchor frames
US9251565B2 (en) * 2011-02-03 2016-02-02 Massachusetts Institute Of Technology Hyper-resolution imaging
US8831919B2 (en) * 2011-08-19 2014-09-09 Disney Enterprises, Inc. Physics-inspired up sampling for cloth simulation
US20130215113A1 (en) * 2012-02-21 2013-08-22 Mixamo, Inc. Systems and methods for animating the faces of 3d characters using images of human faces
US9143670B1 (en) * 2012-07-20 2015-09-22 COPsync, Inc. Video capture system including two independent image sensors
US9928406B2 (en) * 2012-10-01 2018-03-27 The Regents Of The University Of California Unified face representation for individual recognition in surveillance videos and vehicle logo super-resolution system
WO2015142334A1 (en) * 2014-03-20 2015-09-24 Hewlett-Packard Development Company, L.P. Identifying electronic components for augmented reality
WO2016003529A2 (en) 2014-04-23 2016-01-07 University Of Southern California Rapid avatar capture and simulation using commodity depth sensors
US9672416B2 (en) * 2014-04-29 2017-06-06 Microsoft Technology Licensing, Llc Facial expression tracking
US20150332464A1 (en) * 2014-05-19 2015-11-19 Occipital, Inc. Methods for automatic registration of 3d image data
KR102184272B1 (ko) * 2014-06-25 2020-11-30 엘지전자 주식회사 글래스 타입 단말기 및 이의 제어방법
US20180005015A1 (en) * 2016-07-01 2018-01-04 Vangogh Imaging, Inc. Sparse simultaneous localization and matching with unified tracking
WO2018128996A1 (en) 2017-01-03 2018-07-12 Clipo, Inc. System and method for facilitating dynamic avatar based on real-time facial expression detection
WO2018193311A1 (en) * 2017-04-18 2018-10-25 Hushchyn Yury Dynamic real-time generation of three-dimensional avatar models of users based on live visual input of users' appearance and computer systems and computer-implemented methods directed to thereof
US11694072B2 (en) * 2017-05-19 2023-07-04 Nvidia Corporation Machine learning technique for automatic modeling of multiple-valued outputs
US10762640B2 (en) * 2017-05-22 2020-09-01 Creavision Technologies, Ltd. Systems and methods for user detection, identification, and localization within a defined space
AU2018337654A1 (en) * 2017-09-19 2020-04-09 Daniel Glasner Method and apparatus for determining health status
US10621695B2 (en) * 2017-10-31 2020-04-14 Disney Enterprises, Inc. Video super-resolution using an artificial neural network
CN109949255B (zh) * 2017-12-20 2023-07-28 华为技术有限公司 图像重建方法及设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007102478A (ja) 2005-10-04 2007-04-19 Toshiba Corp 画像処理装置、画像処理方法、及び半導体集積回路
US20160140733A1 (en) 2014-11-13 2016-05-19 Futurewei Technologies, Inc. Method and systems for multi-view high-speed motion capture

Also Published As

Publication number Publication date
EP3881525A4 (en) 2021-12-15
US20220044478A1 (en) 2022-02-10
US11816795B2 (en) 2023-11-14
WO2020132631A1 (en) 2020-06-25
CN113475053A (zh) 2021-10-01
KR102577966B1 (ko) 2023-09-15
EP3881525A1 (en) 2021-09-22
KR20210087512A (ko) 2021-07-12
JP2022514246A (ja) 2022-02-10

Similar Documents

Publication Publication Date Title
JP7235215B2 (ja) 写真-ビデオベースの時空間ボリュメトリックキャプチャシステム
Lin et al. Real-time high-resolution background matting
Patwardhan et al. Video inpainting under constrained camera motion
Chen et al. Puppeteergan: Arbitrary portrait animation with semantic-aware appearance transformation
US11501118B2 (en) Digital model repair system and method
KR20130016318A (ko) 비디오 시퀀스에 기록되는 실제 엔티티에 대한 실시간 크로핑 방법
JP7446566B2 (ja) ボリュメトリックキャプチャ及びメッシュ追跡ベースの機械学習
US10453244B2 (en) Multi-layer UV map based texture rendering for free-running FVV applications
US20230027234A1 (en) Multi-view neural human rendering
JP6730695B2 (ja) 特徴追跡及びモデル登録により三次元多視点を再構成するための方法。
Eisert et al. Volumetric video–acquisition, interaction, streaming and rendering
Tan et al. FaceCollage: A rapidly deployable system for real-time head reconstruction for on-the-go 3D telepresence
Wu et al. Performance Capture of High‐Speed Motion Using Staggered Multi‐View Recording
Su et al. View synthesis from multi-view RGB data using multilayered representation and volumetric estimation
Shapovalov et al. Replay: Multi-modal Multi-view Acted Videos for Casual Holography
RU2782543C1 (ru) Способ и устройство для детектирования линии взгляда, способ и устройство для обработки видеоданных, устройство и носитель данных
Xie et al. DRSM: efficient neural 4d decomposition for dynamic reconstruction in stationary monocular cameras
Lin Neural 3D Representations for View Synthesis with Sparse Input Views
JP2007102571A (ja) 動画生成装置、動画生成方法、及びプログラム
CHAN et al. Real-Time Radiance Fields for Single-Image Portrait View Synthesis
KR20230116902A (ko) 통합 사진-비디오 볼류메트릭 캡처 시스템 및 메시-트래킹을 사용하여 동적인 디지털 인간 모델 생성을 위한 인간 얼굴 표정 및 전신 포즈들의 자동 블렌딩
Wang et al. Bringing Telepresence to Every Desk
Bhowmik et al. I1. 3: Invited Paper: Immersive Applications based on Depth‐Imaging and 3D‐Sensing Technology
JP2020127150A (ja) システム、画像処理装置、画像処理方法、及びプログラム
CN114202651A (zh) 一种增强感兴趣区域的图像超分方法、系统及介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210614

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220520

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220622

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220822

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230105

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230125

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230207

R151 Written notification of patent or utility model registration

Ref document number: 7235215

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151