JP2023518908A - ラベル付き入力を使用してメッシュ精度を向上させる技法 - Google Patents

ラベル付き入力を使用してメッシュ精度を向上させる技法 Download PDF

Info

Publication number
JP2023518908A
JP2023518908A JP2022559501A JP2022559501A JP2023518908A JP 2023518908 A JP2023518908 A JP 2023518908A JP 2022559501 A JP2022559501 A JP 2022559501A JP 2022559501 A JP2022559501 A JP 2022559501A JP 2023518908 A JP2023518908 A JP 2023518908A
Authority
JP
Japan
Prior art keywords
mesh
input data
region
labeled
rigid body
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022559501A
Other languages
English (en)
Inventor
タミール,マイケル
タルモン,ギラッド
カガルリツキー,フセヴォロド
ケイナン,シャーリー
ドレズナー,デヴィッド
バルーク,ヤイル
バーンボイム,マイケル
Original Assignee
ユーム.コム リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ユーム.コム リミテッド filed Critical ユーム.コム リミテッド
Publication of JP2023518908A publication Critical patent/JP2023518908A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/20Finite element generation, e.g. wire-frame surface description, tesselation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/647Three-dimensional objects by matching two-dimensional images to three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/166Detection; Localisation; Normalisation using acquisition arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • H04N13/117Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation the virtual viewpoint locations being selected by the viewers or determined by viewer tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/254Image signal generators using stereoscopic image cameras in combination with electromagnetic radiation sources for illuminating objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/271Image signal generators wherein the generated image signals comprise depth maps or disparity maps
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/282Image signal generators for generating image signals corresponding to three or more geometrical viewpoints, e.g. multi-view systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Electromagnetism (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)
  • Image Generation (AREA)

Abstract

セマンティック・データを使用して、オブジェクトの三次元(3D)表現を改良する方法およびシステム。この方法は、撮影エリアにおいてキャプチャされたビデオに応答して生成された入力データを受信するステップと、入力データにおける領域毎に少なくとも1つのパラメータを設定するステップと、少なくとも1つのパラメータと、入力データと関連付けられたセマンティック・データとに部分的に基づいて、3D表現を生成するステップとを含む。【選択図】図1

Description

関連出願に対する相互引用
[001] 本願は、2020年3月30日に出願された米国仮特許出願第63/001,783号の権利を主張する。この出願をここで引用したことにより、その内容が本願にも含まれるものとする。
技術分野
[002] 本願は、一般的には、自由視点ビデオの捕捉、記録、ストリーミング、および表示に関し、特に、自由視点ビデオにおける3Dモデルの生成に関する。
従来技術
[0003] コンピュータ・システム内におけるオブジェクト(object)の三次元表現は、成長分野であり、美術、科学、技術、およびその他の分野に多数の用途がある。一般に、3D表現とは、空間および時間におけるオブジェクトの記述を意味し、例えば、人の動きに対応する一連のメッシュを使用することによって、動く人間(human being)を記述する。3D表現は、医学において仮想モデルを生成するとき、ビデオ・ゲームのために環境および仮想リソースを提供するとき、VRおよびAR環境ならびに他の用途において説得力のあるフィルム、アニメーション、および芸術的レンダリングを作成するときに有用である。現在の3D表現生成システムは、システム・リソース、用途の制約、および他の要因によって制限され、作成できる表現の範囲および品質が限られる場合がある。
[004] 3D表現のドメインでは、3Dモデリングとは、生成されたモデルへのテクスチャおよびアニメーション・シーケンスの適用ではなく、オブジェクトの形状を形成するプロセスを指す。3Dモデルは、ソリッド・モデルまたはシェル・モデルとして生成することができ、各々、一意の態様(aspect)を所有する。ソリッド・モデリングでは、オブジェクトの表面およびボリュームが定められ、医療用目的ならびに工学的設計およびシミュレーションに適した3Dモデルを生成する。シェル・モデルは、オブジェクトのボリュームを表すことなく、このオブジェクトの表面を表す。シェル・モデルは、デジタル映画制作またはビデオ・ゲーム設計におけるように、アニメーションにおいて適用することができる。
[005] ソリッドまたはシェルのいずれかのような3D表現の形成に加えて、3Dモデルを生成する複数の技法が存在する。これらの技法は、各々、特有の利点および欠点があり、これらを適用すると、モデル・クリエータに設計の柔軟性を提供し、特定の重要な特徴を、他の特徴に対して強調することを可能にする。普及しているモデリング技法には、ポリゴン・モデリング、曲線モデリング、およびデジタル・スカルプティングが含まれる。
[006] ポリゴン・モデリングは、3D空間における点を接続してポリゴンのメッシュを形成することによって、3Dモデルの作成を可能にする。ポリゴン・モデリングは、モデルを生成および操作することができる速度および柔軟性のために、人気がある。しかしながら、ポリゴン・モデリングは、湾曲面の表現というような、特定の点において限界がある。有限数の角がある多角形(angular polygon)を使用するのでは、湾曲面を近似することが難しいのはもっともである。
[007] 加えて、曲線モデリングは、加重点を使用して、湾曲面の表現を可能にする。一連の点に関して曲線を定めることによって、ポリゴン・モデリングを用いずに、表面のジオメトリ(geometry)をモデリングすることができる。曲線モデリングは、曲線を定める点に対する重み値の割り当てを基本とし、重み値が大きな点程、点に近い曲線の経路を描く。曲線モデリングは、湾曲表現を表すことができるが、ポリゴン・モデリングの利点、即ち、モデル生成(generation)における速度および柔軟性に欠ける。
[008] デジタル・スカルプティングも3Dモデルを生成するために使用することができる。デジタル・スカルプティング・プラットフォームは、仮想素材が一塊の粘土、金属、または他の材料であるかのように操作することによって、ユーザが3Dモデルを生成することを可能にする。
[009] 普及している3Dモデリング技法は、一般に、特定の欠点を共有する。3Dモデリングは、特定の技法を用いると、他の技法を用いるよりも効率を高めることができるが、3Dモデルを生成し、モデルの動き(motion)をマッピングするプロセスはリソース集約的になるおそれがある。3Dモデリング・タスクは、大量の記憶空間および処理パワーを必要とするとして差し支えない。更に、3Dモデリング・タスクは、モデリング・システムが利用可能なものを越えてリソースを必要とする場合があり、処理リソースの不足を補償するために、処理時間延長の必要性が生ずる。処理時間延長が必要な場合、3Dモデリングは、ライブまたは低遅延ビデオの作成には適さず、ライブ・ビデオのような特定の用途では、好ましいツールとしての3Dモデリングの使用が妨げられるおそれがある。
[0010] 最近開発された3Dモデリングの用途には、自由視点ビデオ(FVV:Free Viewpoint Video)の作成における、モデル生成の使用が含まれる。FVVは、1台以上のカメラからのビデオ・フィードを組み合わせて、キャプチャした場面を仮想化する技法であり、使用されたカメラによって供給される視野角以外でも、視聴者が視野角を選択することを可能にする。FVVの生成は、1台以上のカメラによってキャプチャされたビデオに基づいて、場面における人間の俳優あるいは他のパーツ(part)またはオブジェクトのモデルを作成し、カメラによってキャプチャされた動き(movement)に基づいて、生成したモデルを使用して場面をレンダリングし、本来の実機カメラ(physical camera)によってキャプチャされたのではない角度からの場面のモデル・バージョンを見るように位置付けられた仮想カメラを、視聴者に追加させることによって、行うことができる。FVVは、スポーツ放送のような用途において有用であると言って差し支えなく、仮想カメラの追加によって、従前からのカメラでは近づくことができない種々の角度から、ファンが試合を見ることが可能になる。更に、仮想カメラをスポーツ放送に追加することによって、レフリーが、審議対象のプレー(contested play)を複数の角度から検討することが可能になり、試合を総合的に放送するために必要な実機カメラ、および付随するハードウェアの台数削減が可能になるのはもっともである。スポーツ放送に加えて、FVVは、演劇およびコンサートのような放送のために複数の視点を生成するときに有用であり、更に自動車の設計および安全性検査、モーション・キャプチャ、ならびに他の同様の用途におけるような、移動体(moving bodies)の分析にも有用であるとして差し支えない。
[0011] FVVシステムは、1台または複数のカメラによってキャプチャされた場面に基づいて3Dモデルを作成するために、3Dモデリング・システムを含むモデル生成技術を基本とする。3DモデリングはFVVの作成に必須であるので、FVVシステムは、3Dモデリング・システムの限界によって制約を受けるおそれがある。更に、キャプチャされた場面は、複数の移動体、複雑な動き、豊富な視覚情報、および他の複雑な要素を含むこともあるので、キャプチャした場面を、視聴者が仮想カメラを置くことができる3D表現に変換するには大量のストレージを必要とし、更にFVV適用の他の面にも大量のストレージを必要とする場合があるので、大量の処理パワーを必要とするおそれがある。加えて、FVVの用途には、視聴者がライブまたはほぼリアル・タイムで受信することを望むビデオも含まれる場合もあるので、システムがFVV生成の処理要求に応じられなくなることによって、キャプチャと放送との間に大量の遅延が加わることは、視聴者および放送局にとって容認できないのはもっともである。これらの課題は、3Dモデリング・システムのために追加の処理リソースを供給することによって対処できるが、法外な費用がかかるおそれがある。または、モデル、メッシュ、テクスチャ、またはモデリングおよび放送タスクの他の面の品質を低下させて、所与の3Dモデリング・タスクに必要な処理負荷を削減することによっても、これらの課題に対処することができる。処理負荷を削減することによる3Dモデリングの効率向上によって、3Dモデリングされた場面のライブまたはほぼリアル・タイムの放送が可能になるであろうが、3Dモデリング・システムに対する現行の改良では、3Dモデリングを使用するライブまたはほぼリアル・タイムのFVV作成を可能にするには不十分である。
[0012] 以上で注目した3Dモデリング技法は、スタジオ用途またはライブ放送のために自由視点ビデオをレンダリングするという現在の要望には対処できない。ここで注記した課題に取り組むために構成されたシステムがあれば、このような用途のために自由視点ビデオのレンダリングに備える(provide for)ことができ、殆どの視点からの高品質ビデオのレンダリングを可能にするという利点が得られよう。
[0013] したがって、以上で注目した欠陥を克服する解決策を提供することができれば、有利であろう。
[0014] 以下に、本開示の様々な実施形態例の摘要を記す。この摘要は、このような実施形態の基本的な理解が得られるように、読者の便宜を図るために設けられるのであり、本開示の範囲を完全に定めるのではない。この摘要は、考えられる全ての実施形態の広範な全体像ではなく、全ての実施形態の主要な要素または肝要な要素を識別することを意図するのではなく、任意のまたは全ての態様の範囲を明確に定めることを意図するのでもない。その唯一の目的は、以下に示す更に詳細な説明に対する序文として、簡略化した形態で、1つ以上の実施形態のいくつかの概念を紹介することである。便宜上、「ある実施形態」(some embodiments)または「特定の実施形態」(certain embodiments)という用語は、本明細書では、本開示の1つの実施形態または複数の実施形態に言及するために使用されてもよいものとする。
[0015] 本明細書において開示する特定の実施形態は、セマンティック・データを使用してオブジェクトの三次元(3D)表現を改良する方法を含む。この方法は、撮影エリアにおいてキャプチャされたビデオに応答して生成された入力データを受信するステップと、入力データにおける領域毎に少なくとも1つのパラメータを設定するステップと、少なくとも1つのパラメータおよび入力データと関連付けられたセマンティック・データに部分的に基づいて、3D表現を生成するステップとを含む。
[0016] 本明細書において開示する特定の実施形態は、撮影エリアにおいてキャプチャされたビデオに応答して生成された入力データを受信するシステムを含む。このシステムは、処理回路と、メモリとを備える。メモリは、命令を収容し、この命令が処理回路によって実行されると、撮影エリアにおいてキャプチャされたビデオに応答して生成された入力データを受信し、入力データにおける領域毎に少なくとも1つのパラメータを設定し、少なくとも1つのパラメータおよび入力データと関連付けられたセマンティック・データに部分的に基づいて、3D表現を生成するように、システムを構成する。
[0017] 本明細書において開示する主題を特定的に指摘し、本明細書の最後において特許請求の範囲において明確に特許請求する。開示する実施形態の以上で述べた、およびその他の目的、特徴、ならびに利点は、添付図面と合わせて以下の詳細な説明を検討することから明らかになるであろう。
実施形態にしたがって、3D表現を作成する方法を示すフローチャートである。 実施形態にしたがって、データ点群からのメッシュ生成に、3D表現作成プロセスを適用する場合を示すフローチャートである。 実施形態にしたがって、点群からのモデル構築および組み合わせに、3D表現作成プロセスを適用する場合を示すフローチャートである。 実施形態にしたがって、セマンティック情報を使用して、リジッド・パーツの幾何学的安定性を経時的に改良するプロセスを示すフローチャートである。 実施形態にしたがって、1組の入力データからメッシュを作成するプロセスを示すフローチャートである。 実施形態にしたがって、取得した入力データを表すモデルを生成し、続いてパラメータ化圧縮プロセスを使用して、このモデルを圧縮するプロセスを示すフローチャートである。 実施形態にしたがって、セマンティック方法を使用して、モデルにおける非リジッド・パーツのプロパティを判定し、これらのパーツを安定化するプロセスを示すフローチャートである。 種々の開示する実施形態による、深度カメラを含む、FVVレンダリング・システムの構成例を示す模式図である。 図9は、実施形態によるFVVジェネレータの模式図である。
[0027] 本明細書において開示する実施形態は、本明細書における革新的な教示の多くの有利な使用の例に過ぎないことを注記するのは重要である。一般に、本願の明細書において行う言説は、必ずしも種々の特許請求する実施形態のいずれも限定しない。更に、ある言説は、ある発明の特徴には該当するが、他のものには該当しない場合もある。一般に、特に明記しないかぎり、単数の要素が複数であってもそしてその逆でもよく、一般性を失うことはない。図面において、同様の番号は、様々な図を通して、同様の部分を指す。
[0028] 図1は、実施形態にしたがって、3D表現を作成する方法を示すフローチャート例100である。S110において、入力データを受信する。受信入力データは、例えばそして限定ではなく、1つ以上の画像、1つ以上の点群、画素、またはボクセル、あるいは他の同様の入力データでもよい。入力データは、一体化されたカメラまたはセンサの場合のように、直接キャプチャを含むがこれには限定されない手段によって受信することができ、例えばそして限定ではなく、Wi-Fi、Bluetooth、および他の同様のプロトコルのようなプロトコルによるワイヤレス・データ転送、例えばそして限定ではなく、イーサネット、USB、および他の同様のプロトコルのような、有線プロトコルによるワイヤレス・データ転送によって受信することができ、または例えばそして限定ではなく、CD、DVD、ディスク・ドライブ、SDカード、および他の同様の媒体のような物理媒体の転送によって、受信することができる。
[0029] 取得される入力データは、通常、入力データを求める要求に対する応答として能動的に受信することができ、または特定の入力データに対して入力データ・アップロードを受け入れる場合のように、受動的に受信することができ、または受動および能動受信の任意の組み合わせによって受信することができる。受信される入力データは、限定ではなく、カメラ、センサ、データベース、サーバ、ユーザ・デバイス、コンピュータ、および他の同様のソースを含むソースから受信することができる。実施形態例では、入力データは、スタジオ、会場(venue)、競技場(arena)等においてキャプチャされるビデオである。図8において論ずるようにデプロイされた1組のカメラを使用して、ビデオをキャプチャしてもよい。
[0030] S120において、S110において取得した入力データにラベルを付ける。 実施形態では、入力データの一部にラベルを付けるのでもよく、そして代替実施形態では、入力データの全てにラベルを付ける。実施形態では、入力データが画像を含む場合、一例としてそして限定ではなく、頭部、手、脚部、シャツ、および他の同様のラベルというようなラベルを使用して、画像内にあるエリアにラベルを付けることができる。実施形態では、ラベルは、限定ではなく、深層学習、およびその異形を含む技法によって生成することができる。異形には、一例としてそして限定ではなく、教師あり深層学習、教師なし深層学習、および他の同様の技法等がある。入力データが点群、画素、またはボクセルである場合、個々の点、画素、またはボクセル、あるいはこれらの点、画素、またはボクセルが存在するクラウド、エリア、またはボリュームにラベルを付けてもよい。
[0031] S130において、入力データ領域毎のラベルにしたがって、メッシュ・パラメータを設定する。S110において入力データを取得し、続いてS120において取得した入力データにラベルを付ける場合、ラベル付けした各領域に種々の方法を適用することができる。実施形態では、ラベル付けした領域に適用される方法、方法が計算に含むパラメータ値は、方法実行の最終目的、方法を構成するプロセス、ラベル付けした領域のコンテンツ、近隣領域のコンテンツ、および他の同様の要因を含むがこれらに限定されない要因にしたがって、修正することができる。メッシュ・パラメータは、生成されたメッシュの密度を決定するためのパラメータを含むことができ、顔領域におけるメッシュ密度を高めるため、および/または脚部領域におけるメッシュをもっと滑らかにするために調節することができる。
[0032] S140において、入力データ領域毎に、設定したパラメータを組み込むプロセスを起動する(activate)。実施形態では、S140において起動するプロセスはS130において設定した1つ以上のパラメータを含んでもよい。S140において起動するプロセスは、実行のプロセス、実行の結果、またはこれら2つの組み合わせが変化することもある。S140において起動するアルゴリズムの1つ以上は、特定のラベル付けした領域への適用に合わせて設計すること、個別に作成すること、またそうでなければ適応させることもできる。
[0033] 実施形態では、起動した1つまたは複数のプロセスは、結果を生成することを意図するのでもよく、そしてこれらのプロセスが結果を生成してもよい。結果とは、限定ではなく、メッシュの生成、メッシュ化されないパーツ(un-meshed part)の分析、テクスチャまたは照明(lighting)の適用、任意の他の同様の結果、更にはこれらの任意の組み合わせを含む。実施形態では、S140におけるプロセスが、S130において設定したメッシュ・パラメータを用いるプロセスまたは用いないプロセスの起動を含んでもよく、ラベル付けした入力データ領域、ラベル付けしない入力データ領域、およびこれらの任意の組み合わせまたは部分集合を対象とするアルゴリズムの起動を含んでもよい。
[0034] 図2は、実施形態にしたがって、データ点群からのメッシュ生成に、3D表現作成プロセスを適用する場合を示すフローチャート例200である。S210において、点群を取得する。この実施形態例では、取得する点群は、先の図1におけるS110に関して説明した方法の内いずれによって取得してもよい。取得する点群は、画素、ボクセル、点群、またはこれらの任意の組み合わせでもよい。取得した点群は、構造、オブジェクト、映像(picture)、他の同様のエンティティ、およびこれらの任意の組み合わせまたは部分集合を表すこともできる。
[0035] S220において、S210において取得した点群内にあるボリュームにラベルを付ける。この実施形態例では、点群は1つ以上の人間の身体の表現を含んでもよい。この実施形態では、可能なラベルは、耳、目、顔、脚部、および他の同様のラベルを含んでもよいが、これらに限定されるのではない。点群内にあるボリュームのラベル付けは、先の図1におけるステップS120に関して説明した方法、プロセス、および特徴を含んでもよい。
[0036] S230において、所与のラベル付けしたボリュームが、例えば、人間の身体の内、顔であるか否か判定する。所与のラベル付けしたボリュームが顔であるか否かの判定は、後続の処理に関連がある。実施形態では、所与のラベル付けしたボリュームが顔であるか否かの判定が、後続のステップにおいて適切なメッシュ密度を決定付ける場合もある。所与のラベル付けしたボリュームが顔であるか否かの判定は、限定ではなく、S220においてボリュームに割り当てられたラベル、S220において割り当てられたラベルに対する信頼度、隣接するボリュームに割り当てられたラベル、他の同様の要因、およびこれらの任意の組み合わせを含む要因に依存してもよい。
[0037] S240において、S230におけるラベル付けしたボリュームが顔であるという判定に基づいて、メッシュ密度を設定する。実施形態では、S230において、所与のボリュームが顔であると判定された場合、高いメッシュ密度を指定するようにメッシュ密度を調節してもよい。あるいは、S230において、所与のボリュームが顔でないと判定された場合、低いメッシュ密度を指定するようにメッシュ密度を調節してもよい。メッシュ密度を設定するパラメータを調節するとき、上記のように、データ・ラベルに基づいてアルゴリズム・パラメータを調節する包括的プロセスを説明する図1のステップS130を参照するとよい。
[0038] S250において、メッシュを作成する。作成したメッシュは、1つ以上のボリュームを含み、異なるラベルを有するボリューム、ラベルが付けられていないボリューム、およびこれらの任意の組み合わせがあってもよい。メッシュは、可変パラメータ、静止パラメータ、またはこれら2つの組み合わせを含んでもよいプロセスにしたがって、作成することができる。実施形態では、可変パラメータを含むメッシュにしたがってメッシュを作成することもでき、可変パラメータは、S230において行われたラベル付け判定にしたがって、S240において設定される。S250におけるメッシュの作成は、図1におけるS140に関して先に説明したプロセス、エレメント、または他の特徴を含んでもよい。
[0039] 図3は、実施形態にしたがって、点群からのモデル構築および組み合わせに、3D表現作成プロセスを適用する場合を示すフローチャート例300である。S310において、点群を取得する。実施形態では、S310における点群の取得は、先に説明した図2のS210において、点群を取得するために採用されたものと同様に、または全く同一に行われてもよい。更に、S310における点群の取得は、図1のS110に関して先に説明した、入力データ取得のプロセス、方法、または他の態様を含んでもよい。
[0040] S320において、点群内にあるボリュームにラベルを付ける。実施形態では、S320における点群のラベル付けは、先に説明した図2のS220において点群にラベルを付けるために採用したのと同様に、または全く同一に行われてもよい。更に、S320における点群のラベル付けは、図1のS120に関して先に説明した、入力データのラベル付けのプロセス、方法、または他の態様を含んでもよい。腕、脚部、目、顔などのような特徴の検出は、限定ではなく、二次元画像、点群、三次元画像、および他の同様のデータ集合を含むデータ集合における特徴の検出を含んでもよい。
[0041] S330において、所与のボリューム(または領域)が目を含むか否か判定する。実施形態では、S330における判定は、一例としてそして限定ではなく、顔、脚部、耳等のような、他の特徴に関するのでもよい。ボリュームが目を含むか否かの判定は、限定ではなく、S320においてボリュームに割り当てられたラベルがあればそのラベル、S320において割り当てられたラベルに対する信頼度、隣接するボリュームに割り当てられたラベル、他の同様の要因、およびこれらの任意の組み合わせを含む要因の分析を含んでもよい。実施形態では、S330において、所与のボリュームが目を含まないと判定された場合、S340においてメッシュを構築することができる。あるいは、実施形態では、S330において、所与のボリュームが目を含むと判定された場合、S350において既定のモデルを目に使用することができる。
[0042] S340において、所与のボリュームが目を含まないとS330において判定された場合、所与のボリュームにメッシュを構築することができる。S340において構築されるメッシュは、複数のボリューム、複数のラベル、およびこれらの任意の組み合わせを含んでもよく、含まれるボリュームおよびラベルは、S330において目であると判定されていない。実施形態では、S340におけるメッシュ生成は、図1のS140に関して先に説明した、プロセス、特徴、および他のエレメントを含んでもよい。
[0043] S350において、所与のボリュームが目を含むとS330において判定された場合、既定のモデルを目に適用する。実施形態では、この既定のモデルは、例えばそして限定ではなく、耳、脚部、顔等のような、目以外の身体パーツに関するのでもよい。既定のモデルは、具体的なモデリング・タスクに先立って生成されてもよく、一般的な今後の適用のために生成されてもよく、またはフローチャート300において説明したプロセスとは別々に展開された別のモデルから抽出されてもよい。既定のモデルは、ユーザ・デバイス上にローカルに格納されてもよく、リモート・サーバまたはクラウド・サーバもしくはコンピュータ上にホストされてもよく、あるいはUSBデバイス、CDまたはDVD、および他の同様の媒体というような、リムーバブル媒体上に格納されてもよい。
[0044] 尚、ステップS340およびS350は、図示の目的上このように付番されたのであり、並び替えても、一般性を失うことは全くなく、記載の範囲から逸脱することもないことを指摘するとよいであろう。S340およびS350のいずれもS330よりも前に実行されなければ、そしてS340およびS350の双方がS360よりも前に実行されるのであれば、S340およびS350は、同時を含んで、どのような順序で現れてもよい。実施形態では、目を含むボリュームがない場合、フローチャート300において説明する方法は、S330からS340に、そして直接S360に進むことができる。代替実施形態では、全てのボリュームが目を含む場合、フローチャート300において説明する方法は、S340を通らずに、S330からS350に進み、直接S360に進むことができる。
[0045] S360において、ボリュームを組み合わせて、統一メッシュ(unified mesh)を作成する。一実施形態では、少なくとも1つのメッシュがS350において適用されるまたはS340において生成される場合、1つ以上のアクセスまたは生成されたメッシュを組み合わせて、S310において取得したデータ点群によって記述されるボリュームを表す1つのメッシュにすることもできる。実施形態では、統一メッシュは、ラベル、特徴、または複合メッシュを作成するために組み合わされたボリュームを区別する他の特徴を含むことができる。統一メッシュは、アクセスまたは生成されたメッシュの一部または全てを含んでもよい。
[0046] 図4は、実施形態にしたがって、セマンティック情報を使用して、リジッド・パーツの幾何学的安定性を経時的に改良するプロセスを示すフローチャート例400である。フローチャート400に示すプロセスは、セマンティック・データを使用して時間ドメインにおいてメッシュを「スムージング」することによってメッシュ品質を向上させる場合にも、当てはまるとしてよい。
[0047] S410において、入力データを取得する。S410における入力データ取得は、図1のS110に関して先に説明した、入力データ取得のプロセス、方法、または他の態様を含んでもよく、更にS410における入力データ取得は、図1のS110に関して先に説明した、入力データ取得と同様または全く同一であってもよい。
[0048] S420において、入力データにラベルを付ける。S420における入力データのラベル付けは、先に図1のS120に関して説明したのと同様または全く同一の方法によって実行されてもよい。更に、S420において、ラベル付けおよび今後の処理(operation)を改良するために、セマンティック・データを適用することができる。S420におけるセマンティック・データの適用は、経時的に変化するシーケンスにおける三次元ボディ・パーツの検出を含むことができる。尚、ラベル付けはセマンティック情報であると見なされ、例えばそして限定ではなく、「腕はリジッドである」(arm is rigid)および「髪の毛はリジッドではない」(hair is not rigid)というような記述情報もセマンティックであると見なされることは注記してしかるべきである。
[0049] S430において、所与のパーツがリジッドであるか否かについて判定する。所与のパーツがリジッドであるか否かの判定は、限定ではなく、S420において適用したデータ・ラベル、S420において適用したデータ・ラベルと関連付けられた信頼度、隣接するパーツに適用されたラベル、セマンティック・データ、他の同様の情報、およびこれらの任意の組み合わせを含む要因に依存してもよい。パーツがリジッドでないと判定された場合、当該パーツに対する分析を終了してもよく、S430において同じ入力データからの後続のラベル付きパーツに対する分析を開始することができ、またはS410において新たな入力データに対する分析を開始することもできる。点がリジッドであると判定された場合、S440において分析を継続することができる。
[0050] S440において、リジッド・パーツを追跡する。実施形態では、S440において、複数のリジッド・パーツを追跡することができる。リジッド・パーツの追跡は、既知の時ジッド・パーツを、それよりも大きい1組のパーツから分離することを含んでもよい。更に、リジッド・パーツの追跡は、時間系列にわたるリジッド・パーツにおける動き(movement)、変形、またはその他の変化を追跡することを含んでもよい。追跡データは、RAMまたは他の短期メモリにというように、一時的に格納することができ、あるいは一例としてそして限定ではなく、ハード・ドライブ、USBドライブ、CDまたはDVD、リモートまたはクラウド・ベース・ストレージ、他の同様の記憶媒体、およびこれらの任意の組み合わせというような、固定記憶媒体に永続的または半永続的に格納することもできる。
[0051] S450において、ノイズを低減するために追跡データを使用する。パーツのサブセグメントをリジッド体(rigid body)として扱うことによって、ノイズを低減するために追跡データを使用することができる。追跡データをノイズ低減に適用する例として、時間系列にわたって追跡データから作成された、各パーツの平均モデルを、元のメッシュの後続の変形に適用することによって、系列にわたる安定性を高めることができる。
[0052] 図5は、実施形態にしたがって、1組の入力データからメッシュを作成するプロセスを示すフローチャート例500である。ここでは、人間のブレンドシェイプ・フィッティング・プロセス(blendshape fitting process)およびセマンティック方法の一種を使用して、メッシュを作成する。
[0053] S510において、入力データを取得する。S510における入力データ取得は、図1のS110に関して先に説明した、入力データ取得のプロセス、方法、またはその他の態様を含んでもよく、更に図1のS110に関して先に説明した、入力データ取得と同様または全く同一であってもよい。取得する入力データは、写真、ビデオ、点群、他の入力データ、またはこれらの任意の組み合わせであってもよい。
[0054] S520において、入力データにラベルをつける。520における入力データのラベル付けは、先に図1のS120に関して説明したのと同様または全く同一の方法によって実行してもよい。更に、S520におけるラベル付けにセマンティック・データを適用すると、一例としてそして限定ではなく、関節、顔の特徴、および同様のセマンティック・ランドマーク(semantic landmark)というような、既知のセマンティック・ランドマークのラベル付けに対応する(provide for)こともできる。実施形態では、ブレンドシェイプ・プロセスを含むがこれに限定されない技法によって、ラベルを生成してもよい。
[0055] S530において、ラベル付けした入力データを汎用人間モデル(generic human model)に当てはめる。実施形態では、汎用人間モデルは、ブレンドシェイプ・モデル、三次元モーフィング・モデル、または他の同様のモデルでもよい。ラベル付けした入力データを汎用人間モデルに当てはめるには、セマンティック・ランドマークの位置に従って、汎用人間モデルを1つ以上のラベル付けしたデータ点と相関付けることによって行えばよい。
[0056] S540において、メッシュ・アルゴリズムを適用する。メッシュ・アルゴリズムは、S510において取得した入力データ、S520においてラベル付けした入力データ、他のデータ、およびこれらの任意の組み合わせに基づいてメッシュを生成するために、適用することができる。使用するメッシュ・アルゴリズムは、先に説明したアルゴリズムと同様であってもよく、可変パラメータ化メッシュ・アルゴリズム、静止パラメータ・メッシュ・アルゴリズム、またはこれら2つの組み合わせの適用を含んでもよい。
[0057] S550において、メッシュを作成する。メッシュは、先に説明した方法にしたがって作成することができる。実施形態では、メッシュの作成は、S530において当てはめたモデルをS510において取得しメッシュ生成に使用したデータと融合する(merge)ことによって、メッシュ品質を向上させメッシュ生成を補助することを含んでもよい。
[0058] 図6は、実施形態にしたがって、取得した入力データを表すモデルを生成し、続いて、パラメータ化圧縮プロセスを使用して、このモデルを圧縮するプロセスを示すフローチャート例600である。図6に示すプロセスは、パラメータ化圧縮プロセスの調節および適用に対応する(allow for)。実施形態では、S610およびS620は、それぞれ、先に図1において示したステップS110およびS120と同様にまたは全く同一に実行し、先に説明したように、ステップS110およびS120の結果と同様または全く同一の結果を得ることができる。尚、ステップS610およびS620は、実施形態によれば、図1に示したステップの内、ステップS610およびS620の実行に対する例として役割を果たすいずれのステップにも独立して、実行することを指摘するとよいであろう。
[0059] S630において、圧縮パラメータを調節する。S630において調節する圧縮パラメータは、圧縮プロセスの適用を調整する(tune)ために適用することができ、圧縮プロセスは、メッシュの作成または他のアルゴリズムの起動の後に行われる。S630において調節する圧縮パラメータは、所望の圧縮結果が得られるようにまたは特定の圧縮プロセスに対処するように、調節することができる。
[0060] 実施形態では、領域に基づいて圧縮パラメータを調節する。S630において、高品質のテクスチャ情報を保存する顔のような、セマンティック上重要な領域における幾何学的情報を保存し、腕または脚部のような、重要性が低い領域程圧縮されたテクスチャによる荒いメッシュが得られるようにすることによって、圧縮の間幾何学的品質およびテクスチャ品質を保存する圧縮となるように、圧縮プロセス・パラメータを設定することができる。
[0061] S640において、圧縮プロセスを適用する。実施形態では、圧縮プロセスは、三次元表現における詳細度を低下させることによって、種々のセマンティック領域について詳細度を判定するためにセマンティック情報を適用することによって、他の同様の技法によって、またはこれらの任意の組み合わせによって、ファイル・サイズの縮小を達成することができる。更に、実施形態では、ファイル・サイズの縮小は、モデルの異なる領域に適用されたテクスチャに対して可変圧縮度(varying degrees of compression)を適用することによって達成することもできる。このような可変テクスチャ圧縮の適用例として、顔および腕の識別、ならびに顔の詳細は腕の詳細よりも重要であることを指定するポリシーを適用して、顔に適用するテクスチャよりも大きな度合いで、腕に適用するテクスチャを圧縮することもできる。適用する圧縮プロセスをパラメータ化することができ、S630において調節した圧縮アルゴリズム・パラメータを含んでもよい。
[0062] 図7は、実施形態にしたがって、セマンティック方法を使用して、モデルにおける非リジッド・パーツのプロパティを判定し、これらのパーツを安定化するプロセスを示すフローチャート例700である。実施形態では、近隣に非リジッド・エリアを有することが分かっているセマンティック特徴の検出、近隣の非リジッド・エリアのプロパティの検出、およびそれに続く、非リジッド・エリアを安定化するための、検出したプロパティの適用によって、非リジッド・パーツのモデリングにおける改良に対応することができる。
[0063] 実施形態例では、フローチャート700に図示するように、S710およびS720は、先に図示した図1のステップS110およびS120と対応する。S710およびS720は、同様または全く同一の方法の適用により、それぞれ、ステップS110およびS120と同様または全く同一の結果を得ることができる。更に、S710および720の実行は、図2~図6に示した方法のプロセス、エレメント、または他の態様を含んでもよく、同様または全く同一のプロセスによって、同様または全く同一の結果が得られる。
[0064] S730において、ボディ・パーツを識別する。S730におけるボディ・パーツの識別は、限定ではなく、S720において割り当てたラベル、S720において割り当てたラベルに対応する信頼度、近隣パーツ、他の同様の要因、およびこれらの任意の組み合わせを含む要因の分析を含んでもよい。更に、S730におけるボディ・パーツの識別は、エリア識別、位置、および他の関係するセマンティック情報に関するセマンティック情報の検討も含んでもよい。
[0065] S740において、所与のパーツが何らかの既知の非リジッドな近隣(non-rigid neighbors)を有するか否かについて判定する。所与のパーツが何らかの既知の非リジッドな近隣を有するか否かの判定は、経時的な(with time)非リジッド・ボディ・パーツの幾何学的安定性の改良に対応することができる。この判定は、セマンティック情報、パーツ・ラベル、パーツ・ラベル信頼度、既知の近隣、他の同様の要因、およびこれらの任意の組み合わせを考慮するとよい。S740において、パーツが既知の非リジッドな近隣を有さないと判定された場合、図7に示す非リジッド・パーツのモデリングの実行は、終了することができる。S740において、パーツが既知の非リジッドな近隣を有すると判定された場合、実行はステップS750に進むことができる。
[0066] S750において、非リジッド・パーツのプロパティを追跡する。非リジッド・パーツは、例えば、髪の毛を含んでもよい。S740において、パーツが既知の非リジッドな近隣を有すると判定された場合、S740において識別された非リジッドな近隣、およびこれらのプロパティを、S750において追跡する。非リジッド・ボディ・パーツのプロパティは、色、形状等を含むことができる。例えば、顔を追跡すると、髪の毛によって覆われていることがわかる。髪の毛は金髪であることを推論し、そして顔から離れている髪の毛の領域を識別することによって、カメラからは、髪の毛によって顔が覆い隠される領域ができるため、カメラには顔が見えないと推測することもできる。
[0067] 非リジッド・パーツの追跡は、限定ではなく、パーツ端および中間点を追跡する方法、移動方向および変位を追跡する方法、他の同様の技法、およびこれらの任意の組み合わせを含む方法によって行ってもよい。
[0068] S760において、非リジッド・パーツのプロパティを識別することができる。非リジッド・パーツのプロパティは、S750において展開したパーツ追跡データの分析、続いて展開した移動モデルの分析、他の同様の分析、およびこれらの任意の組み合わせによって識別してもよい。識別される非リジッド・パーツのプロパティは、限定ではなく、パーツ重量、パーツの寸法、パーツの柔軟性および剛性、他の同様のプロパティ、およびこれらの任意の組み合わせを含むことができる。
[0069] S770において、追跡データを適用する。追跡データは、S750において追跡した移動およびプロパティの分析、続いて展開された移動モデルの分析、S760において識別したパーツ・プロパティの分析、他の同様の要因の分析、またはこれらの任意の組み合わせを含んでもよいが、これらに限定されるのではない。追跡データは、S760において識別した非リジッド・パーツのプロパティに基づいて、非リジッド・パーツについてのモデルを作成することによって、ノイズを低減するために適用することができ、続いて、作成したモデルを適用することによって、同様および全く同一の非リジッドな特徴の今後のモデリングを改良することができる。加えて、一例としてそして限定ではなく、追跡から収集したデータを使用して、被追跡パーツの幾何学的形状を再生する(refine)ことによって経時的にスムージングすることによって、メッシュおよび時間干渉性を改良するために、追跡データを使用することもできる。
[0070] 図8は、種々の開示した実施形態による、深度カメラを含むFVVレンダリング・システムの構成例を示す模式図の一例800である。模式図800は、深度カメラ810-1から810-nまでを示す。ここで、「n」は2以上の整数である(以下、単に簡略化のために、個々に深度カメラ810と呼び、更に集合的に深度カメラ810と呼ぶ)。更に、模式図800はプロジェクタ820-1および820-mを含む。ここで、「m」は2以上の整数である(以後、単に簡略化のために、個々にプロジェクタ820と呼び、更に集合的にプロジェクタ820と呼ぶ)。これらは、撮影エリア840において生ずるアクティビティに基づいてビデオをキャプチャするためにデプロイされている。深度カメラ810によってキャプチャされた画像は、FVVの作成のために、FVVジェネレータ830に供給される。実施形態例では、1つの深度カメラのみを利用して、FVVを生成することができる。撮影エリア840は、スタジオ、会場、競技場(例えば、スポーツの競技場)等を含むことができる。
[0071] 撮影エリア840は、例えば、放送スタジオまたはインターネット・スタジオでもよく、ここで、放映する番組、インターネットを通じて配信する番組、ムービーを作成するために利用される番組、あるいは拡張現実または仮想現実アプリケーションのために利用される番組が記録される。つまり、開示した実施形態は、カメラを動かすことなく、クロマキー処理を行うことなく、または双方を行うことなく、FVVのスタジオ制作を可能にする。プロジェクタ820の各々は、撮影エリア840に近接してデプロイされる。閾値距離は、例えば、プロジェクタ820によって放出される光の種類および強度、深度カメラ810の構成、または双方に応じて、変化させることができる。デプロイされる深度カメラ810の種類は、深度カメラ810から撮影または記録される場面までの最大要求距離に基づく。種々の例について以下に論ずる。
[0072] この例および非限定的な構成では、2台の深度カメラ810を利用するが、1台の深度カメラ810を利用してもよく、またはもっと多くの深度カメラ810を利用してもよい。他の実施形態では、3台の深度カメラ810を利用する。深度カメラ810によってキャプチャした画像は、撮影エリアおよびその中にあるオブジェクトの3Dモデルをレンダリングするために利用され、こうすることによって、例えば、ディレクタまたは他のユーザの裁量にしたがって配置することができる「仮想カメラ」の視点からのFVVの作成を可能にする。各仮想カメラは、撮影エリア840からの視点(perspective)、撮影エリア840への視点、またはその周囲の視点を表し、撮影エリア840内で行われるアクティビティをキャプチャする視座(viewpoint)(即ち、位置および姿勢)と関連付けることもできる。したがって、2台から16台までの深度カメラ810からの映像(footage)を利用して、事実上無限数の仮想カメラに対応することができる。
[0073] 各深度カメラ810は、RGBカメラと1対の白黒(B/W)カメラを含んでもよい。実施形態では、1つ以上のプロジェクタ820は、深度カメラ810から離れてデプロイされる。
[0074] 各プロジェクタ820は、対象エリアに関する局所的特徴を生成し、点クラウドの計算のために実行される空間相関処理(spatial correlation operation)を容易にするために利用される。即ち、局所的特徴とは、撮影エリア内にあるオブジェクトの表面に投影される既知のパターンとすることができる。このために、各プロジェクタ820は、撮影エリア内にあるオブジェクト上に不可視光を投射するように構成される。実施形態例では、プロジェクタ820の光源は、レーザ(目安全メカニズムを有する、または目安全距離で動作する)、発光ダイオード(LED)、または標準的なプロジェクタ・ランプでもよいが、これらに限定されるのではない。投射された光は、オブジェクトから反射され、深度カメラ810に含まれるB/Wカメラによってキャプチャされることにより、その上にある点クラウドの判定を可能にする。
[0075] 構成によっては、プロジェクタ820の形式、台数、または双方、したがって、深度カメラ810のB/Wカメラと共に使用されるフィルタが、撮影場所次第で異なるのはもっともである。
[0076] ある実施態様では、プロジェクタ820の各々が、アイ・セーフ・レーザ(eye safe laser)またはLED光源を含んでもよい。実施形態では、1.5~2ミクロンスペクトル帯域において放射光線を放出するレーザを使用する。このようなレーザは、人間の目には安全であり、このため、スタジオ内にいる人間に危害を加えることなく、パターンを投射するために、遙かに高い放射強度を使用することができる。したがって、スタジオからのプロジェクタ820および深度カメラ810の距離を広げることができる。このような実施態様では、深度カメラ810は、このようなスペクトル帯域に感応する1対のカメラ(B/Wカメラの代わりに)、例えば、この波長に適合するレンズを有するInGaAsカメラを含む。更に、ある実施態様では、他の深度カメラ810を使用する自動チューニングを利用して、各深度カメラ810によってキャプチャする必要がある視野のサイズを縮小することもできる。
[0077] 他のある実施態様では、各プロジェクタ820は分散放射光源を利用する。可視または近赤外線スペクトルにおける分散光源の使用により、プロジェクタ820から離れて位置する人間の目に対する最小許容エネルギを高める。つまり、このようなプロジェクタ820は、目安全距離を広げ、光源強度を高め、したがって、不適切な品質の低下を招くことなく、深度カメラ810の範囲を広げ、即ち、各深度カメラ810とスタジオの遠端との間の距離を広げることを可能にする。一例として、このような距離は20メートルまでとするとよい。一例では、分散光源は、分散光源構成とした、LEDのアレイである。
[0078] 開示する実施形態の更に他の実施態様では、撮影エリア840に近接して(例えば、閾値距離以内)に、更に、対象領域(ROI)追跡モジュール(ROIトラッカ)も配置する。この実施態様では、各深度カメラ810がLIDARスキャナを含む。ROIトラッカは、撮影エリア840の撮影エリア内において瞬時的ROIを動的に追跡するように構成される。
[0079] 尚、図8に示す実施態様例は非限定的であること、そして他の台数の深度カメラ810、プロジェクタ820、ROIトラッカ、またはこれらの組み合わせも、開示する実施形態と矛盾なく、等しく利用できることは注記してしかるべきである。更に、FVVジェネレータ830は、離れて配置してもよく、WAN、インターネット等のような、しかしこれらに限定されない、ネットワークを通じて、深度カメラ810と通信することもできる。更に他の実施形態では、FVVジェネレータ830によって実行されるような処理は、種々の深度カメラ810の内任意のものまたは全ての間で分散することもできる。
[0080] 図9は、実施形態によるFVVジェネレータ830の模式図例である。FVVジェネレータ830は、メモリ920、ストレージ930、およびネットワーク・インターフェース940に結合された処理回路910を含む。他の実施形態では、FVVジェネレータ830のコンポーネントを、バス950を通じて、通信可能に接続することもできる。
[0081] 処理回路910は、1つ以上のハードウェア・ロジック・コンポーネントおよび回路として実現することができる。例えば、そして限定ではなく、使用することができるハードウェア・ロジック・コンポーネントの例示的な種類には、フィールド・プログラマブル・ゲート・アレイ(FPGA)、特定用途集積回路(ASIC)、特定用途標準製品(ASSP)、システム・オン・チップ・システム(SOC)、汎用マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ(DSP)等、あるいは計算または他の情報操作を実行することができる任意の他のハードウェア・ロジック・コンポーネントが含まれる。
[0082] メモリ920は、揮発性(例えば、RAM等)、不揮発性(例えば、ROM、フラッシュ・メモリ等)、またはこれらの組み合わせでもよい。1つの構成では、本明細書において開示した1つ以上の実施形態を実現するためのコンピュータ読み取り可能命令をストレージ930に格納することもできる。
[0083] 他の実施形態では、メモリ920はソフトウェアを格納するように構成される。ソフトウェアとは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、またはその他と呼ばれようとも、あらゆる型式の命令をも意味するように広く解釈されてしかるべきである。命令は、コードを含んでもよい(例えば、ソース・コード・フォーマット、二進コード・フォーマット、実行可能コード・フォーマット、または任意の他の適したコード・フォーマット)。命令は、処理回路910によって実行されると、本明細書において説明した種々のプロセスを実行するように、処理回路910を構成する。
[0084] ストレージ930は、磁気ストレージ、光ストレージ等でもよく、例えば、フラッシュ・メモリまたは他のメモリ技術、CD-ROM、デジタル・バーサタイル・ディスク(DVD)、あるいは所望の情報を格納するために使用することができる任意の他の媒体として、実現することができる。
[0085] ネットワーク・インターフェース940は、深度カメラから入力を受信する、FVVレンダを表示のために送る等というような目的のために、FVVジェネレータが、深度カメラ810、1つ以上のユーザ・デバイス、記録されたFVVコンテンツをホストする1つ以上のサーバ、またはこれらの組み合わせと通信することを可能にする。
[0086] 尚、本明細書において説明した実施形態は、図9に示す具体的なアーキテクチャに限定されるのではなく、開示した実施形態の範囲から逸脱することなく、他のアーキテクチャも等しく使用できることは理解されてしかるべきである。本明細書において開示した種々の実施形態は、ハードウェア、ファームウェア、ソフトウェア、またはこれらの任意の組み合わせとして実装することができる。更に、ソフトウェアは、アプリケーション・プログラムとして実装され、複数の部分からなる、あるいは特定のデバイスおよび/またはデバイスの組み合わせからなるプログラム記憶ユニットまたはコンピュータ読み取り可能媒体上に有形に具体化されることが好ましい。アプリケーション・プログラムは、アップロードされ、任意の適したアーキテクチャを備えるマシーン(machine)によって実行することができる。好ましくは、このマシーンは、1つ以上の中央処理ユニット(「CPU」)、メモリ、および入力/出力インターフェースのようなハードウェアを有するコンピュータ・プラットフォーム上に実装される。また、コンピュータ・プラットフォームは、オペレーティング・システムおよびマイクロ命令コードも含むことができる。本明細書において説明した種々のプロセスおよび機能は、マイクロ命令コードの一部、またはアプリケーション・プログラムの一部、またはこれらの組み合わせのいずれでもよく、このようなコンピュータまたはプロセッサが明示的に示されているか否かには関係なく、CPUによって実行することができる。加えて、追加のデータ記憶ユニットおよび印刷ユニットのような、種々の他の周辺ユニットも、コンピュータ・プラットフォームに接続することができる。更に、非一時的コンピュータ読み取り可能媒体とは、一時的伝搬信号を除く、任意のコンピュータ読み取り可能媒体である。
[0087] 本明細書に記載した全ての例および条件付き言語(conditional language)は、開示した実施形態の原理、および当技術分野を発展させるために発明者によって寄稿された概念を、読者が理解するのを補助するという教育的目的を意図しており、このような具体的に記載された例および条件に限定されないものとして解釈されなければならない。更に、開示した実施形態の原理、態様、および実施形態、ならびにその具体的な例を記載する本明細書における全ての文章(statement)は、その構造的および機能的均等物双方を包含することを意図している。加えて、このような均等物は、現在知られている均等物および今後開発される均等物の双方、即ち、構造に関係なく、開発され同じ機能を実行するあらゆるエレメントを含むことを意図している。
[0088] 尚、「第1」、「第2」等のような指定を使用して本明細書においてエレメントに言及するときはいつも、通常、これらのエレメントの分量も順序も限定するのではないことは理解されてしかるべきである。むしろ、これらの指定は、本明細書では、2つ以上のエレメントまたはエレメントの実例(instance)間で区別する便利な方法として、全体的に使用される。つまり、第1および第2エレメントに言及するとき、2つのエレメントのみがそこで採用されなければならないことも、何らかの方法で第1エレメントが第2エレメントに先立たなければならないことも意味するのではない。また、特に明記しない限り、1組のエレメントは1つ以上のエレメントを含む。
[0089] 本明細書において使用する場合、品目の列挙の前に位置する「少なくとも1つの」という語句は、列挙した項目のいずれかを個別に利用できること、または列挙した項目の内2つ以上の任意の組み合わせを利用できること意味する。例えば、システムが「A、B、およびCの内少なくとも1つ」を含むと記載された場合、このシステムは、Aのみ、Bのみ、Cのみ、2つのA、2つのB、2つのC、3つのA、AおよびBの組み合わせ、BおよびCの組み合わせ、AおよびCの組み合わせ、A、B、およびCの組み合わせ、2つのAおよびCの組み合わせ、A、3つのB、および2つのCの組み合わせ等を含むことができる。

Claims (25)

  1. セマンティック・データを使用して、オブジェクトの三次元(3D)表現を改良する方法であって、
    撮影エリアにおいてキャプチャされたビデオに応答して生成された入力データを受信するステップと、
    前記入力データにおける領域毎に少なくとも1つのパラメータを設定するステップと、
    前記少なくとも1つのパラメータと、前記入力データと関連付けられたセマンティック・データとに部分的に基づいて、3D表現を生成するステップと、
    を含む、方法。
  2. 請求項1記載の方法であって、更に、
    深層学習方法、およびブレンドシェイプ・プロセスの内少なくとも1つを使用して、前記入力データの少なくとも一部にラベルを付けるステップを含む、方法。
  3. 請求項1記載の方法において、前記少なくとも1つのパラメータが、メッシュ・パラメータであり、前記メッシュ・パラメータが、生成されるメッシュのメッシュ密度を含む、方法。
  4. 請求項3記載の方法であって、更に、
    前記ラベル付けした入力データにおける領域が、顔としてラベル付けされたか否か判定するステップと、
    前記入力データにおける領域が顔として判定されたとき、前記入力データにおいて顔でないと判定された領域と比較して、高いメッシュ密度で、前記領域のメッシュを生成するステップと、
    を含む、方法。
  5. 請求項1記載の方法であって、更に、前記ラベル付けした入力データをメッシュ化するステップを含み、前記メッシュ化するステップが、更に、
    1つ以上の領域に対して、それらのそれぞれのラベルに基づいて、メッシュ・プロセスを選択するステップと、
    前記1つ以上の領域に作成されたメッシュを統一することによって、統一メッシュを作成するステップと、
    を含む、方法。
  6. 請求項5記載の方法において、前記1つ以上の領域が、少なくとも目または耳としてラベル付けされる、方法。
  7. 請求項1記載の方法であって、更に、
    メッシュを生成するためにヒューマン・ブレンドシェープ・フィッティング法を適用して、領域のメッシュを生成するステップを含む、方法。
  8. 請求項1記載の方法であって、更に、
    前記入力データにおける領域がリジッド・ボディ・パーツとしてラベル付けされたか否か、セマンティック・データに基づいて判定するステップと、
    リジッド・ボディ・パーツであると判定された各領域を追跡するステップと、
    を含む、方法。
  9. 請求項8記載の方法において、領域において少なくとも1つのパーツを追跡するステップが、更に、
    時間系列にわたって、前記リジッド・ボディ・パーツにおいて少なくとも移動、変形、または他の変化を追跡するステップを含む、方法。
  10. 請求項1記載の方法であって、更に、
    前記ラベル付けした入力データにおける領域が、非リジッド・ボディ・パーツとしてラベル付けされたか否か、セマンティック・データに基づいて、判定するステップと、
    非リジッド・ボディ・パーツであると判定された各領域を追跡するステップと、
    を含む、方法。
  11. 請求項10記載の方法であって、更に、
    メッシュ作成を改良するために、識別された各非リジッド・ボディ・パーツの少なくとも1つのプロパティを判定するステップを含む、方法。
  12. 請求項1記載の方法であって、更に、
    少なくとも、識別した各領域の重要性に基づいて、1組の圧縮パラメータを決定するステップと、
    前記1組の決定した圧縮パラメータに基づいて、前記生成したメッシュに圧縮プロセスを適用するステップと、
    を含む、方法。
  13. 処理回路に、請求項1記載の方法を実行させるための命令が格納されている非一時的コンピュータ読み取り可能媒体。
  14. 撮影エリアにおいてキャプチャされたビデオに応答して生成された入力データを受信するシステムであって、
    処理回路と、
    メモリと、
    を備え、前記メモリが命令を収容し、前記命令が前記処理回路によって実行されると、
    前記システムに、
    撮影エリアにおいてキャプチャされたビデオに応答して生成された入力データを受信させ、
    前記入力データにおける領域毎に少なくとも1つのパラメータを設定させ、
    前記少なくとも1つのパラメータと、前記入力データと関連付けられたセマンティック・データとに部分的に基づいて、3D表現を生成させる、システム。
  15. 請求項14記載のシステムにおいて、前記システムが、更に、
    深層学習方法、およびブレンドシェイプ・プロセスの内少なくとも1つを使用して、前記入力データの少なくとも一部にラベルを付ける、
    ように構成される、システム。
  16. 請求項14記載のシステムにおいて、前記少なくとも1つのパラメータが、メッシュ・パラメータであり、前記メッシュ・パラメータが、生成されるメッシュのメッシュ密度を含む、システム。
  17. 請求項16記載のシステムであって、前記システムが、更に、
    前記ラベル付けした入力データにおける領域が、顔としてラベル付けされたか否か判定し、
    前記入力データにおける領域が顔として判定されたとき、前記入力データにおいて顔でないと判定された領域と比較して、高いメッシュ密度で、前記領域のメッシュを生成する、
    ように構成される、システム。
  18. 請求項14記載のシステムにおいて、前記システムが、更に、
    1つ以上の領域に対して、それらのそれぞれのラベルに基づいて、メッシュ・プロセスを選択し、
    前記1つ以上の領域に作成されたメッシュを統一することによって、統一メッシュを作成する、
    ことによって、前記ラベル付けした入力データをメッシュ化するように構成される、システム。
  19. 請求項18記載のシステムにおいて、前記1つ以上の領域が、少なくとも目または耳としてラベル付けされる、システム。
  20. 請求項14記載のシステムにおいて、前記システムが、更に、
    メッシュを生成するためにヒューマン・ブレンドシェープ・フィッティング法を適用して、領域のメッシュを生成するように構成される、システム。
  21. 請求項14記載のシステムにおいて、前記システムが、更に、
    前記入力データにおける領域がリジッド・ボディ・パーツとしてラベル付けされたか否か、セマンティック・データに基づいて判定し、
    リジッド・ボディ・パーツであると判定された各領域を追跡する、
    ように構成される、システム。
  22. 請求項21記載のシステムにおいて、前記システムが、更に、
    時間系列にわたって、前記リジッド・ボディ・パーツにおいて少なくとも移動、変形、または他の変化を追跡する、
    ように構成される、システム。
  23. 請求項14記載のシステムにおいて、前記システムが、更に、
    前記ラベル付けした入力データにおける領域が、非リジッド・ボディ・パーツとしてラベル付けされたか否か、セマンティック・データに基づいて判定し、
    非リジッド・ボディ・パーツであると判定された各領域を追跡する、
    ように構成される、システム。
  24. 請求項23記載のシステムにおいて、前記システムが、更に、
    メッシュ作成を改良するために、識別された各非リジッド・ボディ・パーツの少なくとも1つのプロパティを判定する、
    ように構成される、システム。
  25. 請求項14記載のシステムにおいて、前記システムが、更に、
    少なくとも、識別した各領域の重要性に基づいて、1組の圧縮パラメータを決定し、
    前記1組の決定した圧縮パラメータに基づいて、前記生成したメッシュに圧縮プロセスを適用する、
    ように構成される、システム。
JP2022559501A 2020-03-30 2021-03-10 ラベル付き入力を使用してメッシュ精度を向上させる技法 Pending JP2023518908A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063001783P 2020-03-30 2020-03-30
US63/001,783 2020-03-30
PCT/IB2021/052001 WO2021198817A1 (en) 2020-03-30 2021-03-10 Techniques for improving mesh accuracy using labeled inputs

Publications (1)

Publication Number Publication Date
JP2023518908A true JP2023518908A (ja) 2023-05-08

Family

ID=77856410

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022559501A Pending JP2023518908A (ja) 2020-03-30 2021-03-10 ラベル付き入力を使用してメッシュ精度を向上させる技法

Country Status (5)

Country Link
US (1) US11574443B2 (ja)
EP (1) EP4128050A1 (ja)
JP (1) JP2023518908A (ja)
CA (1) CA3184408A1 (ja)
WO (1) WO2021198817A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113658309B (zh) * 2021-08-25 2023-08-01 北京百度网讯科技有限公司 三维重建方法、装置、设备以及存储介质
WO2023101510A1 (ko) * 2021-12-02 2023-06-08 엘지전자 주식회사 포인트 클라우드 데이터 송신 장치, 포인트 클라우드 데이터 송신 방법, 포인트 클라우드 데이터 수신 장치 및 포인트 클라우드 데이터 수신 방법

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002032741A (ja) * 2000-07-13 2002-01-31 Sony Corp 3次元画像生成システムおよび3次元画像生成方法、並びにプログラム提供媒体
JP2004288180A (ja) * 2003-03-19 2004-10-14 Mitsubishi Electric Research Laboratories Inc 較正された画像の組からシーンの3次元モデルを構築する方法
JP2010522469A (ja) * 2007-03-23 2010-07-01 トムソン ライセンシング 2d−to−3d変換のための2d画像の領域分類のシステム及び方法
JP2013070267A (ja) * 2011-09-22 2013-04-18 Toshiba Corp 立体画像変換装置、立体画像出力装置および立体画像変換方法
JP2014191375A (ja) * 2013-03-26 2014-10-06 Mitsubishi Electric Corp 情報表示装置
WO2019123729A1 (ja) * 2017-12-19 2019-06-27 株式会社ソニー・インタラクティブエンタテインメント 画像処理装置、画像処理方法、およびプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150178988A1 (en) * 2012-05-22 2015-06-25 Telefonica, S.A. Method and a system for generating a realistic 3d reconstruction model for an object or being
US9378576B2 (en) 2013-06-07 2016-06-28 Faceshift Ag Online modeling for real-time facial animation
GB2554633B (en) * 2016-06-24 2020-01-22 Imperial College Sci Tech & Medicine Detecting objects in video data
US10825227B2 (en) * 2018-04-03 2020-11-03 Sri International Artificial intelligence for generating structured descriptions of scenes

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002032741A (ja) * 2000-07-13 2002-01-31 Sony Corp 3次元画像生成システムおよび3次元画像生成方法、並びにプログラム提供媒体
JP2004288180A (ja) * 2003-03-19 2004-10-14 Mitsubishi Electric Research Laboratories Inc 較正された画像の組からシーンの3次元モデルを構築する方法
JP2010522469A (ja) * 2007-03-23 2010-07-01 トムソン ライセンシング 2d−to−3d変換のための2d画像の領域分類のシステム及び方法
JP2013070267A (ja) * 2011-09-22 2013-04-18 Toshiba Corp 立体画像変換装置、立体画像出力装置および立体画像変換方法
JP2014191375A (ja) * 2013-03-26 2014-10-06 Mitsubishi Electric Corp 情報表示装置
WO2019123729A1 (ja) * 2017-12-19 2019-06-27 株式会社ソニー・インタラクティブエンタテインメント 画像処理装置、画像処理方法、およびプログラム

Also Published As

Publication number Publication date
WO2021198817A1 (en) 2021-10-07
EP4128050A1 (en) 2023-02-08
US11574443B2 (en) 2023-02-07
US20210304495A1 (en) 2021-09-30
CA3184408A1 (en) 2021-10-07

Similar Documents

Publication Publication Date Title
CN107851178B (zh) 基于多个表面模型的混合三维场景重构
CN112189335B (zh) 用于低功率移动平台的cmos辅助内向外动态视觉传感器跟踪
US10368047B2 (en) Six-degree of freedom video playback of a single monoscopic 360-degree video
US10896072B2 (en) Systems and methods for motion correction in synthetic images
KR102524422B1 (ko) 객체 모델링 및 움직임 방법 및 장치, 그리고 기기
US9826216B1 (en) Systems and methods for compact space-time stereo three-dimensional depth sensing
US9456131B2 (en) Video processing systems and methods
JP2021192250A (ja) 単眼カメラを用いたリアルタイム3d捕捉およびライブフィードバックのための方法およびシステム
US20140300758A1 (en) Video processing systems and methods
US20130321586A1 (en) Cloud based free viewpoint video streaming
US20130335535A1 (en) Digital 3d camera using periodic illumination
Li et al. Diminished reality using appearance and 3D geometry of internet photo collections
WO2019031259A1 (ja) 画像処理装置および方法
US11574443B2 (en) Techniques for improving mesh accuracy using labeled inputs
KR102294806B1 (ko) 온 디바이스 얼굴 라이트필드 합성 방법 및 장치
JP2016537901A (ja) ライトフィールド処理方法
US20150373320A1 (en) Visual cognition system
US20230154101A1 (en) Techniques for multi-view neural object modeling
CN111862278A (zh) 一种动画获得方法、装置、电子设备及存储介质
Rasmuson et al. A low-cost, practical acquisition and rendering pipeline for real-time free-viewpoint video communication
Freer et al. Novel-view synthesis of human tourist photos
Fechteler et al. Articulated 3D model tracking with on-the-fly texturing
TW202036369A (zh) 影像處理裝置及其方法
Hasegawa et al. Distortion-Aware Self-Supervised 360 {\deg} Depth Estimation from A Single Equirectangular Projection Image
Haque et al. Gaussian-Hermite moment-based depth estimation from single still image for stereo vision

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221207

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221207

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20221207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230421

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230720

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230921

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20231204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240402

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20240410

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240611