JP2024510230A - 顔表情、身体ポーズ形状及び衣服パフォーマンスキャプチャのための暗黙的微分可能レンダラーを用いたマルチビューニューラル人間予測 - Google Patents

顔表情、身体ポーズ形状及び衣服パフォーマンスキャプチャのための暗黙的微分可能レンダラーを用いたマルチビューニューラル人間予測 Download PDF

Info

Publication number
JP2024510230A
JP2024510230A JP2023556536A JP2023556536A JP2024510230A JP 2024510230 A JP2024510230 A JP 2024510230A JP 2023556536 A JP2023556536 A JP 2023556536A JP 2023556536 A JP2023556536 A JP 2023556536A JP 2024510230 A JP2024510230 A JP 2024510230A
Authority
JP
Japan
Prior art keywords
human
image
neural network
view
mesh
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023556536A
Other languages
English (en)
Inventor
チン ジャン
ハンユェン シャオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US17/701,991 external-priority patent/US11961266B2/en
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JP2024510230A publication Critical patent/JP2024510230A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/20Finite element generation, e.g. wire-frame surface description, tesselation
    • G06T17/205Re-meshing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/422Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/467Encoded features or binary features, e.g. local binary patterns [LBP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/16Cloth

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Graphics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Geometry (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)
  • Image Processing (AREA)

Abstract

ニューラルヒューマンパフォーマンスキャプチャフレームワーク(MVS-PERF)が、校正されたマルチビュー画像セットから、人物の骨格、体形及び衣服の変位、並びに外観を取り込む。MVS-PERFは、単眼人体メッシュ復元(monocular human mesh recovery)において絶対位置を予測する曖昧さに対処し、NeRFからのボリューム表現をアニメーションに適したパフォーマンスキャプチャに仲介する。MVS-PERFは、マルチビュー画像から特徴マップを抽出して特徴量に融合するモジュール、特徴量を裸の人間パラメータベクトルに回帰して、骨格ポーズ、体形及び表情を含むSMPL-Xスキンタイト人体メッシュ(SMPL-X skin-tight body mesh)を生成するモジュール、ニューラル放射場及び変形場を活用し、微分可能レンダリングを使用して衣服を裸体上の変位として推測するモジュールという3つのモジュールを含む。SMPL-Xスキンタイト人体メッシュ頂点に補間された変位ベクトルを加算することによって、着衣姿の人体メッシュを取得する。取得された輝度場は、入力された被写体のフリービューボリューメトリックレンダリング(free-view volumetric rendering)に使用される。【選択図】 図1

Description

〔関連出願との相互参照〕
本出願は、2021年11月16日に出願された「顔表情、身体ポーズ形状及び衣服パフォーマンスキャプチャのための暗黙的微分可能レンダラーを用いたマルチビューニューラル人間予測(MULTIVIEW NEURAL HUMAN PREDICTION USING IMPLICIT DIFFERENTIABLE RENDER FOR FACIAL EXPRESSION, BODY POSE SHAPE AND CLOTHES PERFORMANCE CAPTURE)」という名称の米国仮特許出願シリアル番号第63/279,916号、及び2021年3月31日に出願された「顔表情、身体ポーズ形状及び衣服変位のための暗黙的微分可能レンダラーを用いたマルチビューニューラル人間予測(MULTIVIEW NEURAL HUMAN PREDICTION USING IMPLICIT DIFFERENTIABLE RENDER FOR FACIAL EXPRESSION, BODY POSE SHAPE AND CLOTHES DISPLACEMENT)」という名称の米国仮特許出願シリアル番号第63/168,467号の米国特許法第119条に基づく優先権の利益を主張するものであり、これらの両文献はその全体が全ての目的で引用により本明細書に組み入れる。
本発明は、娯楽産業のための3次元コンピュータビジョン及びグラフィックスに関する。具体的には、本発明は、映画、TV、音楽及びゲームコンテンツ制作のための3次元コンピュータビジョン及びグラフィックスを取得して処理することに関する。
例えばFacebook FrankMocapなどの従来のシステムは、単一画像から裸体の形状及びポーズのみを予測する。このようなシステムは、衣服表面を予測することができない。このようなシステムは2D画像変換法であり、マルチビュー入力に対処することができない。
暗黙的パーツネットワーク(Implicit Part Network)は、スキャン又は再構成された点群から身体及び衣服の両方を予測するが、3Dスキャンを必要とし、入力としてのRGB画像にも、顔表情及び外観にも対処することができない。また、暗黙的パーツネットワークは、ボクセルを身体又は衣服として識別するラベルのみを予測した後に人間事前モデル(human prior model)を明示的にフィットさせ、低速である。Neural Body及びAnimatable NeRFは、ニューラル輝度場(Neural Radiance Field:NeRF)を使用して、顔表情を含まない衣服人体(clothes human body)を予測する。しかしながら、これらは低解像度に制限される高密度の潜在コードボリューム(dense latent code volume)の作成を必要とし、従って人体形状が粗くなってしまう。また、これらは、メッシュ頂点の対応関係を含まないボリュメトリックな人体モデルしか復元することができない。
マルチビューニューラル人間予測(Multiview neural human prediction)が、カメラ校正を与えられたマルチビュー画像セットから、骨格、体形、並びに衣服の変位及び外観を含む3D人間モデルを予測することを含む。
1つの態様では、ニューラルネットワークが、異なるビューからの単一画像又は複数画像であることができる入力画像セットを受け取って、層状3D人間モデル(layered 3D human model)を予測する。画像セットは、N×w×h×cのサイズの4Dテンソルを含み、ここで、Nはビューの数であり、wは画像の幅であり、hは画像の高さであり、cは画像のチャネルである。画像セットのためのカメラ情報は既知である。出力モデルは、内側から外側に向かって、予測されたポーズの骨格、顔表情を含む予測された形状の裸の3D身体(例えば、ブレンドシェイプ(blendshapes)及び関節回転によってパラメータ化されたSMPL-Xモデル)、及び入力画像から推測される衣服変位及び外観RGB色の3D場という3つの層を含む。裸の3D人体メッシュを衣服変位場(clothes displacement field)に従って変形させることによって着衣姿の人体メッシュ(clothed body mesh)が取得される。
別の態様では、ニューラルネットワークが、入力画像セットを特徴に符号化するマルチビューステレオ3D畳み込みニューラルネットワーク(MVS-3DCNN)、特徴を人間パラメータに回帰させる人間メッシュ復元多層パーセプトロン(human mesh recovery multilayer perceptron:HMR MLP)、及びMVS-3DCNNを微調整してクエリ3D光線(3D位置及び方向)をRGBカラー及び衣服-身体変位に復号するニューラル輝度場多層パーセプトロン(neural radiance field multilayer perceptron:NeRF MLP)という3つのサブネットワークで構成される。
別の態様では、テスト/推論モードにおいて、層状3D人間モデルの予測が、訓練データ内のカメラのビュー範囲内で、明示的な数値最適化を伴わずに、小さな入力セットについて、装置に依存せず、完全に自動であり、リアルタイムである。訓練済みニューラルネットワークを用いて予測する際には、MVS-3DCNNが、マルチビュー画像セットを入力として受け取り、正面ビューを基準ビューとして選択し、特徴量を抽出する。HMR MLPは、全ての特徴量を人間のポーズ、形状、顔表情パラメータに回帰させる。SMPL-Xモデルは、パラメータに従って人間の裸体メッシュを生成する。その後、裸体メッシュは、バウンディングボックス内の占有フィールドに変換される。訓練済みNeRF MLPは、ビューの各中心からの光線方向に関連する身体メッシュの近くのいずれかの3D点について、RGBカラーと、裸体の表面を示す3D変位ベクトルとを生成する。カメラビュー(入力ビューと同じビュー、又はいずれかの新規ビュー)の全ての画素から放たれる全ての光線を問い合わせることにより、着衣姿の人体の外観をRGB画像としてレンダリングすることができる。サンプリングされた点から3D変位ベクトルを使用して裸体を変形させることにより、SMPL-Xモデルと同じ頂点対応のSMPL-X+Dなどの着衣姿の人体メッシュを取得することができる。
別の態様では、ニューラルネットワークの訓練が、教師あり及び自己教師ありという2つの事例を含む。教師ありの事例では、例えばH36Mデータセットなどの、既知の人間パラメータを有するラベル付きデータセットが与えられる。グランドトゥルース(GT)のパラメータ及び形状を、CNN回帰されたパラメータ及び形状と比較する。その差分を形状損失として計算する。一方で、入力画像セット内のサンプリングされた画素から光線を投じ、NeRF MLPが光線をレンダリングして、パラメータを裸体の密度及び3D衣服変位の関数である色及び密度に回帰させる。色損失は、サンプリングされた画素色とレンダリングされた色との差分の合計によって計算される。一方で、モーションキャプチャデータセットなどの、GT人間パラメータが未知である既存のデータセットでは、自己教師あり/自己改善訓練(self-improving training)が利用される。各訓練反復では、MVS 3DCNNからパラメータを回帰させた後に、これらをSMPLifyXなどの最適化ベースの人間予測アルゴリズムに送り、明示的数値最適化法(explicit numerical optimization approaches)によって最適化する。最適化されたパラメータは、CNN回帰されたパラメータと比較されて形状損失になる。残りのステップは教師あり訓練と同じであるが、自己改善訓練は教師ありの事例よりも多くのエポック及び長い時間を要する。全体的なニューラルネットワークの訓練は、形状損失及び色損失の両方を最小化するAdamなどの並列最適化アルゴリズムによって実行され、最適化されたネットワークの重みが出力される。
いくつかの実施形態によるニューラル人間予測のフローチャートを示す図である。 いくつかの実施形態による、全てのネットワークMVS 3DCNN、HMR MLP及びNeRF MLPの重みが既知である、テンソル表記によって表される前方予測のワークフローを示す図である。 いくつかの実施形態による、スーパービジョンを使用してネットワークを訓練するワークフローを示す図である。 いくつかの実施形態による、自己改善戦略においてネットワークを訓練するワークフローを示す図である。 いくつかの実施形態による、各ビューのMVS 3DCNNのNeRF MLPへのアライメントを示す図である。
ニューラル人間予測が、画像セット(単一の画像又はマルチビュー画像)から骨格のポーズ、体形、並びに衣服の変位及び外観を含む3D人間モデルを予測することを含む。ニューラル人間予測の実施形態は、ニューラルネットワークの使用方法について説明する。マルチビューニューラル人間予測は、単一画像ベースのモーションキャプチャ(mocap)及び人間リフティング(human lifting)を品質及びロバスト性において上回り、メモリコストの高いまばらな点群を入力として受け取って低速で実行する暗黙的パーツネットワークなどの身体衣服予測ネットワークのアーキテクチャを単純化し、3Dボリューム全体を符号化するNeural Bodyなどの潜在コードベースのネットワークの解像度制限を回避する。
図1は、いくつかの実施形態によるニューラル人間予測のフローチャートである。ステップ100において、被写体の周囲で撮影された写真セットなどの、入力画像セットI、単一画像、又はマルチビュー画像を入力として取得する。入力Iは、N×w×h×cのサイズの4Dテンソルとして表され、Nはビューの数であり、w、h、cはそれぞれ画像幅、画像高さ及び画像チャンネルである。カメラは既に校正済みであり、従ってカメラ情報(例えば、カメラパラメータ)は全て既知である。画像前処理として、Detectron2及びimage Grab-Cutなどの既存の手法を使用して被写体のバウンディングボックス及び前景マスクを抽出する。画像はバウンディングボックスによって切り取られ、同じアスペクト比でw×hのサイズにズームされる。画像境界は黒で塗りつぶされる。
ニューラルネットワーク(MVS-PERF)102は、入力画像セットを特徴に符号化するマルチビューステレオ3D畳み込みニューラルネットワーク(MVS-3DCNN)104、特徴を人間パラメータに回帰させる人間メッシュ復元多層パーセプトロン(HMR MLP)106、及びMVS-3DCNNを微調整してクエリ3D光線(3D位置及び方向)をRGBカラー及び衣服-身体変位に復号するニューラル輝度場多層パーセプトロン(NeRF MLP)108という3つのコンポーネントで構成される。
ステップ104において、深層2D CNNが各ビューから画像特徴を抽出する。各畳み込み層の後には、最後の層を除いてバッチ正規化(BN)層及び整流化線形ユニット(rectified linear unit:ReLU)が続く。2つのダウンサンプリング層も配置される。2D CNNの出力は、w/4×h/4×32のサイズの特徴マップである。
その後、あるビューを基準ビューとして選択し、その視錐台(view frustum)を透視投影及び近遠面(near far planes)に従って被写体の作業空間全体をカバーするように設定する。この錐台を、近い面及び遠い面の両方に平行なd個の深度面によって近くから遠くにサンプリングする。全ての特徴マップを各深度面に変換してブレンドする。i=1、2、...、Nであるいずれかのビューiについて、(1をインデックスとする)基準ビューに対する3×3のホモグラフィ画像ワーピング行列(homography image warping matrix)が以下の数式によって与えられる。
Figure 2024510230000002
ここで、K,[R,t]はカメラの固有パラメータ及び外部パラメータを表し、zは深度面から基準ビューのカメラ中心までの距離であり、nは深度面の法線方向である。
全ての画像が深度面にワープされた後に、全ての特徴の分散
Figure 2024510230000003
によって座標(u,v,z)におけるコストを決定する。
Figure 2024510230000004
は、全てのビューの平均特徴値である。
コストボリュームのサイズは、d×w/4×h/4である。
ステップ106において、人間メッシュ復元多層パーセプトロン(HMR MLP)が、フラット化層(flatten layer)及びドロップアウト層(dropout layer)によって分離された3層の線形回帰を含む。HMR MLPは、MVS 3DCNNからの特徴量を人体パラメータθreg114に回帰させる。
人体パラメータθregは、SMPL-Xなどの人体パラメトリックモデルを3D裸体メッシュ202に操作することができる。通常、SMPL-X表現θregは、骨格ポーズ(各関節の3次元回転角)、身長及び体重などの体形を制御するボディブレンドシェイプパラメータ、並びに顔表情を制御するフェイシャルブレンドシェイプパラメータを含む。θregは、ブレンドシェイプパラメータを使用してTポーズメッシュを構築し、これを線形スキニングモデルの骨格ポーズによってポーズメッシュに変形させる。
一方では、ステップ108において、コストボリュームがニューラル輝度場(NeRF)などの微分可能なレンダリングMLPに送られる。NeRF MLPは、3D位置x及び方向φによって表されるクエリ光線を4チャンネルカラーRGBσにマッピングする関数Mとしてc(x、φ)=M(x、φ、f;Γ)のように定式化される。fは、錐台MVS 3DCNN104のコストボリュームからNeRFボリュームへの特徴マップであり、Γは、NeRF MLPネットワークの重みであり、σは、3Dポイントがメッシュ内に存在する場合の確率の占有密度を表す。裸体の占有密度場σbは、錐台104のメッシュ202(図2)を変換することによって直接取得することができる。また、着衣姿の身体の密度場σは、3次元変位ベクトル場Dと特徴量マップfとの関数:σ(D、f)として表すことができる。3次元変位ベクトル場D116は、着衣姿の身体表面204上の点が裸体表面上の点とどのように関連しているかを表す。NeRF MLPを訓練すると、変位ベクトル場Dも最適化される。
図2は、いくつかの実施形態による、全てのネットワークMVS 3DCNN、HMR MLP及びNeRF MLPの重みが訓練されて固定された、テンソル表記によって表される前方予測のワークフローである。透視投影画像からの画素の全ての光線200を問い合わせることによって、外観画像112がレンダリングされる。いくつかの実施形態では、3D人間予測110が実装される。人体の近くのサンプリングされた点を問い合わせることによって、変位フィールドD116が取得される。着衣姿の出力メッシュがテンプレートと同じトポロジーを有する人間パフォーマンスキャプチャタスクでは、各頂点に補間変位ベクトル(interpolated displacement vector)を追加することによって、裸体メッシュVb202を着衣姿の身体メッシュVc204に変形することができる。
図3は、いくつかの実施形態による、スーパービジョンを用いてネットワークを訓練するワークフローである。Human3.6Mなどの教師あり訓練データセットは、画像入力I100だけでなく、グランドトゥルース人間パラメータθgt300及び裸体メッシュVb、gt302も含み、通常、これらはセンサ又は既存の手法によって取得される。この事例では、予測される裸体とグランドトゥルースとの差分を合計することによって、形状損失304が直接取得される。
Figure 2024510230000005

Figure 2024510230000006
ここで、Jは裸体の関節であり、Πは各カメラビューの3D点の透視投影を表す。ネットワークを効果的に訓練するために、各訓練ステップでは、全てのビューがMVS 3DCNNの基準ビューとして順番に選択される。
一方で、典型的には画像顕著性(image saliency)に比例する不均一なサンプリング戦略を使用して、入力画像セット100から光線306がサンプリングされる。高顕著性領域では多くの光線がサンプリングされ、平坦領域又は背景領域からは少ない光線がサンプリングされる。これらの光線は、MVS 3DCNN104からの特徴マップと共にNeRF MLP106に送られ、NeRF MLP106がサンプルの外観RGBσ色308をレンダリングする。入力画像内のサンプリングされた色とレンダリングされた色308との全ての差分を合計することによって色損失310が計算される。
Adamなどの並列化された確率的最適化アルゴリズム(parallelized stochastic optimization algorithm)を適用して、形状損失及び色損失の両方を最小化することによって全てのネットワークMVS 3DCNN、HMR MLP、NeRF MLPの重みを訓練する。
図4は、いくつかの実施形態による、自己改善戦略においてネットワークを訓練するワークフローである。この事例では、訓練データセットが、注釈又は人間グランドトゥルースパラメータを含まない人間画像のみを提供する。入力セット100内の各画像について、回帰されたパラメータθreg114を初期推測として選択することにより、SMPLifyXアルゴリズムなどの最適化ベースの予測400を適用する。最適化ベースの予測は、最初に各画像上の人間の2Dキーポイントを検出し、非線形最適化を適用して3D人間にフィットさせる。
これらの2Dキーポイントに(θopt402によってパラメータ化された)メッシュVb,opt404を適用する。
Figure 2024510230000007
ここで、Kは、キーポイントの検出された2D位置を示し、合計は全ての対応するキーポイント及び全てのビューを引き継ぐ。
非線形最小二乗最適化は数値的に遅く、フィッティング精度は初期推測θregに依存するが、信頼度は高い。十分なフィッティングの反復後には、θoptがグランドトゥルースに近くなる。従って、自己改善訓練ワークフローは、以下に要約するようにθoptをグランドトゥルースに向けて効率的に改善することができる。
自己改善訓練ワークフロー:
以下を実行
MVS-3DCNNからθregを計算し、入力IからHMR MLPを計算
θregを初期推測、Iを入力として、SMPLifyXからθoptを計算
Iから光線をサンプリングし、NeRF MLPからサンプリングされた色cを計算
ShapeLoss及びColorLossを計算
ShapeLoss及びColorLossを最小化することによってMVS 3DCNN、HMR MLP及びNeRF MLPのネットワークの重みを更新
全ての訓練データについて重みが収束するまで反復
図5に、いくつかの実施形態による、各ビューのMVS 3DCNNのNeRF MLPへのアライメントを示す。
動作時には、例えばゲームスタジオにおけるマーカーレスモーションキャプチャ、又は人間3D表面再構成RGBカメラセットアップなどの、商業的及び/又は個人的マーカーレスパフォーマンスキャプチャ用途においてニューラル人間予測を直接適用することができる。マルチビューニューラル人間予測の実施形態の他の用途は、いずれかの拡張と組み合わせることができるリアルタイムバックボーン技術として、例えば深度センシングの入力、3Dモデリング、又は新規アニメーションを作成するための出力の使用を組み合わせることができる。マルチビューニューラル人間予測は、ゲーム用途、VR/AR用途、及びいずれかのリアルタイムヒューマンインタラクション用途において適用することもできる。マルチビューニューラル人間予測は、使用するハードウェア(例えば、GPUプロセッサの速度及びGPUメモリのサイズ)に応じて、予測のために少量のビューを処理する際にはリアルタイムとし、より多くのビュー(例えば、20)の場合には近リアルタイム処理及び予測を実装することができる。
本明細書で説明した方法は、いずれかのコンピュータ装置上に実装することができる。好適なコンピュータ装置の例としては、パーソナルコンピュータ、ラップトップコンピュータ、コンピュータワークステーション、サーバ、メインフレームコンピュータ、ハンドヘルドコンピュータ、携帯情報端末、セルラ/携帯電話機、スマート家電、ゲーム機、デジタルカメラ、デジタルカムコーダ、カメラ付き電話機、スマートホン、ポータブル音楽プレーヤ、タブレットコンピュータ、モバイル装置、ビデオプレーヤ、ビデオディスクライタ/プレーヤ(DVDライタ/プレーヤ、高精細ディスクライタ/プレーヤ、超高精細ディスクライタ/プレーヤなど)、テレビ、家庭用エンターテイメントシステム、拡張現実装置、仮想現実装置、スマートジュエリ(例えば、スマートウォッチ)、車両(例えば、自動走行車両)、又はその他のいずれかの好適なコンピュータ装置が挙げられる。
顔表情、身体ポーズ形状及び衣服パフォーマンスキャプチャのための暗黙的微分可能レンダラーを用いたマルチビューニューラル人間予測のいくつかの実施形態
1.装置の非一時的なものにプログラムされた方法であって、
画像セットを入力として取得することと、
ニューラルネットワークを使用して画像セットを処理することと、
を含み、処理は、
画像セットを1又は2以上の特徴に符号化することと、
特徴を人間パラメータに回帰させることと、
ニューラルネットワークを微調整することと、
クエリ3D光線を、画像セットに基づくRGBカラー及び衣服-身体変位に復号することと、
を含む、方法。
2.画像セットは、サイズN×w×h×cの4Dテンソルを含み、ここで、Nはビューの数、wは画像の幅、hは画像の高さ、cは画像のチャネルである、条項1の方法。
3.ニューラルネットワークは、画像セットから正面ビューを基準ビューとして選択し、特徴量を抽出する、条項1の方法。
4.ニューラルネットワークは、全ての特徴量を人間のポーズ、形状、表情パラメータに回帰させる、条項3の方法。
5.ニューラルネットワークは、パラメータに従って人間の裸体メッシュを生成する、条項4の方法。
6.裸体メッシュは、バウンディングボックス内の占有フィールドに変換される、条項5の方法。
7.ニューラルネットワークは、ビューの各中心からの光線方向に関連する身体メッシュの近くのいずれかの3D点について、RGBカラーと、裸体の表面を示す3D変位ベクトルとを生成する、条項6の方法。
8.カメラビューの全ての画素から放たれる全ての光線を問い合わせることにより、着衣姿の人体の外観がRGB画像としてレンダリングされ、サンプリングされた点から3D変位ベクトルを使用して裸体を変形させることにより、着衣姿の身体メッシュが取得される、条項7の方法。
9.ニューラルネットワークは、教師ありモード又は自己教師ありモードで実装される、条項1の方法。
10.アプリケーションを記憶するように構成された非一時的メモリと、
アプリケーションを処理するように構成されたプロセッサと、
を備えた装置であって、アプリケーションは、
画像セットを入力として取得し、
ニューラルネットワークを使用して画像セットを処理する、ように構成され、処理は、
画像セットを1又は2以上の特徴に符号化することと、
特徴を人間パラメータに回帰させることと、
ニューラルネットワークを微調整することと、
クエリ3D光線を、画像セットに基づくRGBカラー及び衣服-身体変位に復号することと、
を含む、装置。
11.画像セットは、サイズN×w×h×cの4Dテンソルを含み、ここで、Nはビューの数、wは画像の幅、hは画像の高さ、cは画像のチャネルである、条項10の装置。
12.ニューラルネットワークは、画像セットから正面ビューを基準ビューとして選択し、特徴量を抽出する、条項10の装置。
13.ニューラルネットワークは、全ての特徴量を人間のポーズ、形状、表情パラメータに回帰させる、条項12の装置。
14.ニューラルネットワークは、パラメータに従って人間の裸体メッシュを生成する、条項13の装置。
15.裸体メッシュは、バウンディングボックス内の占有フィールドに変換される、条項14の装置。
16.ニューラルネットワークは、ビューの各中心からの光線方向に関連する身体メッシュの近くのいずれかの3D点について、RGBカラーと、裸体の表面を示す3D変位ベクトルとを生成する、条項15の装置。
17.カメラビューの全ての画素から放たれる全ての光線を問い合わせることにより、着衣姿の人体の外観がRGB画像としてレンダリングされ、サンプリングされた点から3D変位ベクトルを使用して裸体を変形させることにより、着衣姿の身体メッシュが取得される、条項16の装置。
18.ニューラルネットワークは、教師ありモード又は自己教師ありモードで実装される、条項10の装置。
19.アプリケーションを記憶するように構成された非一時的メモリと、
アプリケーションを処理するように構成されたプロセッサと、
を備えた装置であって、アプリケーションは、
入力画像を特徴に符号化するように構成されたマルチビューステレオ3D畳み込みニューラルネットワーク(MVS-3DCNN)と、
特徴を人間パラメータに回帰させるように構成された人間メッシュ復元多層パーセプトロン(HMR MLP)と、
MVS-3DCNNを微調整するように構成され、クエリ3D光線(3D位置及び方向)をRGBカラー及び衣服-身体変位に復号するニューラル輝度場多層パーセプトロン(NeRF MLP)と、
を含む、装置。
20.画像セットは、サイズN×w×h×cの4Dテンソルを含み、ここで、Nはビューの数、wは画像の幅、hは画像の高さ、cは画像のチャネルである、条項19の装置。
21.MVS-3DCNNは、画像セットから正面ビューを基準ビューとして選択し、特徴量を抽出する、条項20の装置。
22.HMR MLPは、全ての特徴量を人間のポーズ、形状、表情パラメータに回帰させる、条項21の装置。
23.パラメータに従って人間の裸体メッシュを生成するように構成されたモデルをさらに備える、条項22の装置。
24.裸体メッシュは、バウンディングボックス内の占有フィールドに変換される、条項23の装置。
25.NeRF MLPは、ビューの各中心からの光線方向に関連する身体メッシュの近くのいずれかの3D点について、RGBカラーと、裸体の表面を示す3D変位ベクトルとを生成する、条項24の装置。
26.カメラビューの全ての画素から放たれる全ての光線を問い合わせることにより、着衣姿の人体の外観がRGB画像としてレンダリングされ、サンプリングされた点から3D変位ベクトルを使用して裸体を変形させることにより、着衣姿の身体メッシュが取得される、条項25の装置。
本発明の構成及び動作の原理を容易に理解できるように、詳細を含む特定の実施形態に関して本発明を説明した。本明細書におけるこのような特定の実施形態及びこれらの実施形態の詳細についての言及は、本明細書に添付する特許請求の範囲を限定することを意図したものではない。当業者には、特許請求の範囲によって定められる本発明の趣旨及び範囲から逸脱することなく、例示のために選択した実施形態において他の様々な修正を行えることが容易に明らかになるであろう。
100 画像入力I
102 ニューラルネットワーク(MVS-PERF)
104 マルチビューステレオ3D畳み込みニューラルネットワーク(MVS-3DCNN)
106 人間メッシュ復元多層パーセプトロン(HMR MLP)
108 ニューラル輝度場多層パーセプトロン(NeRF MLP)
110 3D人間予測
112 外観画像
114 人体パラメータθreg
116 3次元変位ベクトル場D

Claims (26)

  1. 装置の非一時的なものにプログラムされた方法であって、
    画像セットを入力として取得することと、
    ニューラルネットワークを使用して前記画像セットを処理することと、
    を含み、前記処理は、
    前記画像セットを1又は2以上の特徴に符号化することと、
    前記特徴を人間パラメータに回帰させることと、
    前記ニューラルネットワークを微調整することと、
    クエリ3D光線を、前記画像セットに基づくRGBカラー及び衣服-身体変位に復号することと、
    を含む、
    ことを特徴とする方法。
  2. 前記画像セットは、サイズN×w×h×cの4Dテンソルを含み、ここで、Nはビューの数、wは画像の幅、hは画像の高さ、cは画像のチャネルである、
    請求項1に記載の方法。
  3. 前記ニューラルネットワークは、前記画像セットから正面ビューを基準ビューとして選択し、特徴量を抽出する、
    請求項1に記載の方法。
  4. 前記ニューラルネットワークは、全ての特徴量を人間のポーズ、形状、表情パラメータに回帰させる、
    請求項3に記載の方法。
  5. 前記ニューラルネットワークは、前記パラメータに従って人間の裸体メッシュを生成する、
    請求項4に記載の方法。
  6. 前記裸体メッシュは、バウンディングボックス内の占有フィールドに変換される、
    請求項5に記載の方法。
  7. 前記ニューラルネットワークは、ビューの各中心からの光線方向に関連する身体メッシュの近くのいずれかの3D点について、前記RGBカラーと、裸体の表面を示す3D変位ベクトルとを生成する、
    請求項6に記載の方法。
  8. カメラビューの全ての画素から放たれる全ての光線を問い合わせることにより、着衣姿の人体の外観がRGB画像としてレンダリングされ、サンプリングされた点から前記3D変位ベクトルを使用して裸体を変形させることにより、着衣姿の身体メッシュが取得される、
    請求項7に記載の方法。
  9. 前記ニューラルネットワークは、教師ありモード又は自己教師ありモードで実装される、
    請求項1に記載の方法。
  10. アプリケーションを記憶するように構成された非一時的メモリと、
    前記アプリケーションを処理するように構成されたプロセッサと、
    を備えた装置であって、前記アプリケーションは、
    画像セットを入力として取得し、
    ニューラルネットワークを使用して前記画像セットを処理する、
    ように構成され、前記処理は、
    前記画像セットを1又は2以上の特徴に符号化することと、
    前記特徴を人間パラメータに回帰させることと、
    前記ニューラルネットワークを微調整することと、
    クエリ3D光線を、前記画像セットに基づくRGBカラー及び衣服-身体変位に復号することと、
    を含む、
    ことを特徴とする装置。
  11. 前記画像セットは、サイズN×w×h×cの4Dテンソルを含み、ここで、Nはビューの数、wは画像の幅、hは画像の高さ、cは画像のチャネルである、
    請求項10に記載の装置。
  12. 前記ニューラルネットワークは、前記画像セットから正面ビューを基準ビューとして選択し、特徴量を抽出する、
    請求項10に記載の装置。
  13. 前記ニューラルネットワークは、全ての特徴量を人間のポーズ、形状、表情パラメータに回帰させる、
    請求項12に記載の装置。
  14. 前記ニューラルネットワークは、前記パラメータに従って人間の裸体メッシュを生成する、
    請求項13に記載の装置。
  15. 前記裸体メッシュは、バウンディングボックス内の占有フィールドに変換される、
    請求項14に記載の装置。
  16. 前記ニューラルネットワークは、ビューの各中心からの光線方向に関連する身体メッシュの近くのいずれかの3D点について、前記RGBカラーと、裸体の表面を示す3D変位ベクトルとを生成する、
    請求項15に記載の装置。
  17. カメラビューの全ての画素から放たれる全ての光線を問い合わせることにより、着衣姿の人体の外観がRGB画像としてレンダリングされ、サンプリングされた点から前記3D変位ベクトルを使用して裸体を変形させることにより、着衣姿の身体メッシュが取得される、
    請求項16に記載の装置。
  18. 前記ニューラルネットワークは、教師ありモード又は自己教師ありモードで実装される、
    請求項10に記載の装置。
  19. アプリケーションを記憶するように構成された非一時的メモリと、
    前記アプリケーションを処理するように構成されたプロセッサと、
    を備えた装置であって、前記アプリケーションは、
    入力画像を特徴に符号化するように構成されたマルチビューステレオ3D畳み込みニューラルネットワーク(MVS-3DCNN)と、
    前記特徴を人間パラメータに回帰させるように構成された人間メッシュ復元多層パーセプトロン(HMR MLP)と、
    前記MVS-3DCNNを微調整するように構成され、クエリ3D光線(3D位置及び方向)をRGBカラー及び衣服-身体変位に復号するニューラル輝度場多層パーセプトロン(NeRF MLP)と、
    を含む、
    ことを特徴とする装置。
  20. 前記画像セットは、サイズN×w×h×cの4Dテンソルを含み、ここで、Nはビューの数、wは画像の幅、hは画像の高さ、cは画像のチャネルである、
    請求項19に記載の装置。
  21. 前記MVS-3DCNNは、前記画像セットから正面ビューを基準ビューとして選択し、特徴量を抽出する、
    請求項20に記載の装置。
  22. 前記HMR MLPは、全ての特徴量を人間のポーズ、形状、表情パラメータに回帰させる、
    請求項21に記載の装置。
  23. 前記パラメータに従って人間の裸体メッシュを生成するように構成されたモデルをさらに備える、
    請求項22に記載の装置。
  24. 前記裸体メッシュは、バウンディングボックス内の占有フィールドに変換される、
    請求項23に記載の装置。
  25. 前記NeRF MLPは、ビューの各中心からの光線方向に関連する身体メッシュの近くのいずれかの3D点について、前記RGBカラーと、裸体の表面を示す3D変位ベクトルとを生成する、
    請求項24に記載の装置。
  26. カメラビューの全ての画素から放たれる全ての光線を問い合わせることにより、着衣姿の人体の外観がRGB画像としてレンダリングされ、サンプリングされた点から前記3D変位ベクトルを使用して裸体を変形させることにより、着衣姿の身体メッシュが取得される、
    請求項25に記載の装置。
JP2023556536A 2021-03-31 2022-03-31 顔表情、身体ポーズ形状及び衣服パフォーマンスキャプチャのための暗黙的微分可能レンダラーを用いたマルチビューニューラル人間予測 Pending JP2024510230A (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US202163168467P 2021-03-31 2021-03-31
US63/168,467 2021-03-31
US202163279916P 2021-11-16 2021-11-16
US63/279,916 2021-11-16
US17/701,991 US11961266B2 (en) 2021-03-31 2022-03-23 Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture
US17/701,991 2022-03-23
PCT/IB2022/053034 WO2022208440A1 (en) 2021-03-31 2022-03-31 Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture

Publications (1)

Publication Number Publication Date
JP2024510230A true JP2024510230A (ja) 2024-03-06

Family

ID=81328451

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023556536A Pending JP2024510230A (ja) 2021-03-31 2022-03-31 顔表情、身体ポーズ形状及び衣服パフォーマンスキャプチャのための暗黙的微分可能レンダラーを用いたマルチビューニューラル人間予測

Country Status (5)

Country Link
EP (1) EP4292059A1 (ja)
JP (1) JP2024510230A (ja)
KR (1) KR20230150867A (ja)
CN (1) CN116134491A (ja)
WO (1) WO2022208440A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116824092B (zh) * 2023-08-28 2023-12-19 深圳星坊科技有限公司 三维模型生成方法、装置、计算机设备和存储介质
CN117238420A (zh) * 2023-11-14 2023-12-15 太原理工大学 一种极薄带力学性能预测方法及装置

Also Published As

Publication number Publication date
KR20230150867A (ko) 2023-10-31
CN116134491A (zh) 2023-05-16
EP4292059A1 (en) 2023-12-20
WO2022208440A1 (en) 2022-10-06

Similar Documents

Publication Publication Date Title
Li et al. Monocular real-time volumetric performance capture
CN108154550B (zh) 基于rgbd相机的人脸实时三维重建方法
Cao et al. 3D shape regression for real-time facial animation
US11941831B2 (en) Depth estimation
CN108876814B (zh) 一种生成姿态流图像的方法
CN111783582A (zh) 一种基于深度学习的无监督单目深度估计算法
JP2024510230A (ja) 顔表情、身体ポーズ形状及び衣服パフォーマンスキャプチャのための暗黙的微分可能レンダラーを用いたマルチビューニューラル人間予測
CN113421328B (zh) 一种三维人体虚拟化重建方法及装置
US11961266B2 (en) Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture
CN113689578A (zh) 一种人体数据集生成方法及装置
Kang et al. Competitive learning of facial fitting and synthesis using uv energy
CN114996814A (zh) 一种基于深度学习与三维重建的家具设计系统
CN115951784A (zh) 一种基于双神经辐射场的穿衣人体运动捕捉和生成方法
CN113362457A (zh) 一种基于散斑结构光的立体视觉测量方法及系统
Rabby et al. Beyondpixels: A comprehensive review of the evolution of neural radiance fields
CN116681839B (zh) 一种基于改进NeRF的实景三维目标重建与单体化方法
Correia et al. 3D reconstruction of human bodies from single-view and multi-view images: A systematic review
CN114049678B (zh) 一种基于深度学习的面部动作捕捉方法及系统
US20230104702A1 (en) Transformer-based shape models
CN115482368A (zh) 一种利用语义图进行三维场景编辑的方法
Li et al. Point-based neural scene rendering for street views
Yunus et al. Recent Trends in 3D Reconstruction of General Non‐Rigid Scenes
Kim et al. Development of 3D body shape creation methodology for obesity information and body shape management for tracking body condition check: body type in their 20s and 30s
US20230126829A1 (en) Point-based modeling of human clothing
WO2023132261A1 (ja) 情報処理システム、情報処理方法および情報処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230913