JP2024510230A

JP2024510230A - 顔表情、身体ポーズ形状及び衣服パフォーマンスキャプチャのための暗黙的微分可能レンダラーを用いたマルチビューニューラル人間予測

Info

Publication number: JP2024510230A
Application number: JP2023556536A
Authority: JP
Inventors: チンジャン; ハンユェンシャオ
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2021-03-31
Filing date: 2022-03-31
Publication date: 2024-03-06
Also published as: EP4292059A1; WO2022208440A1; KR20230150867A; CN116134491A

Abstract

ニューラルヒューマンパフォーマンスキャプチャフレームワーク（ＭＶＳ－ＰＥＲＦ）が、校正されたマルチビュー画像セットから、人物の骨格、体形及び衣服の変位、並びに外観を取り込む。ＭＶＳ－ＰＥＲＦは、単眼人体メッシュ復元（ｍｏｎｏｃｕｌａｒｈｕｍａｎｍｅｓｈｒｅｃｏｖｅｒｙ）において絶対位置を予測する曖昧さに対処し、ＮｅＲＦからのボリューム表現をアニメーションに適したパフォーマンスキャプチャに仲介する。ＭＶＳ－ＰＥＲＦは、マルチビュー画像から特徴マップを抽出して特徴量に融合するモジュール、特徴量を裸の人間パラメータベクトルに回帰して、骨格ポーズ、体形及び表情を含むＳＭＰＬ－Ｘスキンタイト人体メッシュ（ＳＭＰＬ－Ｘｓｋｉｎ－ｔｉｇｈｔｂｏｄｙｍｅｓｈ）を生成するモジュール、ニューラル放射場及び変形場を活用し、微分可能レンダリングを使用して衣服を裸体上の変位として推測するモジュールという３つのモジュールを含む。ＳＭＰＬ－Ｘスキンタイト人体メッシュ頂点に補間された変位ベクトルを加算することによって、着衣姿の人体メッシュを取得する。取得された輝度場は、入力された被写体のフリービューボリューメトリックレンダリング（ｆｒｅｅ－ｖｉｅｗｖｏｌｕｍｅｔｒｉｃｒｅｎｄｅｒｉｎｇ）に使用される。【選択図】図１

Description

〔関連出願との相互参照〕
本出願は、２０２１年１１月１６日に出願された「顔表情、身体ポーズ形状及び衣服パフォーマンスキャプチャのための暗黙的微分可能レンダラーを用いたマルチビューニューラル人間予測（ＭＵＬＴＩＶＩＥＷＮＥＵＲＡＬＨＵＭＡＮＰＲＥＤＩＣＴＩＯＮＵＳＩＮＧＩＭＰＬＩＣＩＴＤＩＦＦＥＲＥＮＴＩＡＢＬＥＲＥＮＤＥＲＦＯＲＦＡＣＩＡＬＥＸＰＲＥＳＳＩＯＮ，ＢＯＤＹＰＯＳＥＳＨＡＰＥＡＮＤＣＬＯＴＨＥＳＰＥＲＦＯＲＭＡＮＣＥＣＡＰＴＵＲＥ）」という名称の米国仮特許出願シリアル番号第６３／２７９，９１６号、及び２０２１年３月３１日に出願された「顔表情、身体ポーズ形状及び衣服変位のための暗黙的微分可能レンダラーを用いたマルチビューニューラル人間予測（ＭＵＬＴＩＶＩＥＷＮＥＵＲＡＬＨＵＭＡＮＰＲＥＤＩＣＴＩＯＮＵＳＩＮＧＩＭＰＬＩＣＩＴＤＩＦＦＥＲＥＮＴＩＡＢＬＥＲＥＮＤＥＲＦＯＲＦＡＣＩＡＬＥＸＰＲＥＳＳＩＯＮ，ＢＯＤＹＰＯＳＥＳＨＡＰＥＡＮＤＣＬＯＴＨＥＳＤＩＳＰＬＡＣＥＭＥＮＴ）」という名称の米国仮特許出願シリアル番号第６３／１６８，４６７号の米国特許法第１１９条に基づく優先権の利益を主張するものであり、これらの両文献はその全体が全ての目的で引用により本明細書に組み入れる。

本発明は、娯楽産業のための３次元コンピュータビジョン及びグラフィックスに関する。具体的には、本発明は、映画、ＴＶ、音楽及びゲームコンテンツ制作のための３次元コンピュータビジョン及びグラフィックスを取得して処理することに関する。

例えばＦａｃｅｂｏｏｋＦｒａｎｋＭｏｃａｐなどの従来のシステムは、単一画像から裸体の形状及びポーズのみを予測する。このようなシステムは、衣服表面を予測することができない。このようなシステムは２Ｄ画像変換法であり、マルチビュー入力に対処することができない。

暗黙的パーツネットワーク（ＩｍｐｌｉｃｉｔＰａｒｔＮｅｔｗｏｒｋ）は、スキャン又は再構成された点群から身体及び衣服の両方を予測するが、３Ｄスキャンを必要とし、入力としてのＲＧＢ画像にも、顔表情及び外観にも対処することができない。また、暗黙的パーツネットワークは、ボクセルを身体又は衣服として識別するラベルのみを予測した後に人間事前モデル（ｈｕｍａｎｐｒｉｏｒｍｏｄｅｌ）を明示的にフィットさせ、低速である。ＮｅｕｒａｌＢｏｄｙ及びＡｎｉｍａｔａｂｌｅＮｅＲＦは、ニューラル輝度場（ＮｅｕｒａｌＲａｄｉａｎｃｅＦｉｅｌｄ：ＮｅＲＦ）を使用して、顔表情を含まない衣服人体（ｃｌｏｔｈｅｓｈｕｍａｎｂｏｄｙ）を予測する。しかしながら、これらは低解像度に制限される高密度の潜在コードボリューム（ｄｅｎｓｅｌａｔｅｎｔｃｏｄｅｖｏｌｕｍｅ）の作成を必要とし、従って人体形状が粗くなってしまう。また、これらは、メッシュ頂点の対応関係を含まないボリュメトリックな人体モデルしか復元することができない。

マルチビューニューラル人間予測（Ｍｕｌｔｉｖｉｅｗｎｅｕｒａｌｈｕｍａｎｐｒｅｄｉｃｔｉｏｎ）が、カメラ校正を与えられたマルチビュー画像セットから、骨格、体形、並びに衣服の変位及び外観を含む３Ｄ人間モデルを予測することを含む。

１つの態様では、ニューラルネットワークが、異なるビューからの単一画像又は複数画像であることができる入力画像セットを受け取って、層状３Ｄ人間モデル（ｌａｙｅｒｅｄ３Ｄｈｕｍａｎｍｏｄｅｌ）を予測する。画像セットは、Ｎ×ｗ×ｈ×ｃのサイズの４Ｄテンソルを含み、ここで、Ｎはビューの数であり、ｗは画像の幅であり、ｈは画像の高さであり、ｃは画像のチャネルである。画像セットのためのカメラ情報は既知である。出力モデルは、内側から外側に向かって、予測されたポーズの骨格、顔表情を含む予測された形状の裸の３Ｄ身体（例えば、ブレンドシェイプ（ｂｌｅｎｄｓｈａｐｅｓ）及び関節回転によってパラメータ化されたＳＭＰＬ－Ｘモデル）、及び入力画像から推測される衣服変位及び外観ＲＧＢ色の３Ｄ場という３つの層を含む。裸の３Ｄ人体メッシュを衣服変位場（ｃｌｏｔｈｅｓｄｉｓｐｌａｃｅｍｅｎｔｆｉｅｌｄ）に従って変形させることによって着衣姿の人体メッシュ（ｃｌｏｔｈｅｄｂｏｄｙｍｅｓｈ）が取得される。

別の態様では、ニューラルネットワークが、入力画像セットを特徴に符号化するマルチビューステレオ３Ｄ畳み込みニューラルネットワーク（ＭＶＳ－３ＤＣＮＮ）、特徴を人間パラメータに回帰させる人間メッシュ復元多層パーセプトロン（ｈｕｍａｎｍｅｓｈｒｅｃｏｖｅｒｙｍｕｌｔｉｌａｙｅｒｐｅｒｃｅｐｔｒｏｎ：ＨＭＲＭＬＰ）、及びＭＶＳ－３ＤＣＮＮを微調整してクエリ３Ｄ光線（３Ｄ位置及び方向）をＲＧＢカラー及び衣服－身体変位に復号するニューラル輝度場多層パーセプトロン（ｎｅｕｒａｌｒａｄｉａｎｃｅｆｉｅｌｄｍｕｌｔｉｌａｙｅｒｐｅｒｃｅｐｔｒｏｎ：ＮｅＲＦＭＬＰ）という３つのサブネットワークで構成される。

別の態様では、テスト／推論モードにおいて、層状３Ｄ人間モデルの予測が、訓練データ内のカメラのビュー範囲内で、明示的な数値最適化を伴わずに、小さな入力セットについて、装置に依存せず、完全に自動であり、リアルタイムである。訓練済みニューラルネットワークを用いて予測する際には、ＭＶＳ－３ＤＣＮＮが、マルチビュー画像セットを入力として受け取り、正面ビューを基準ビューとして選択し、特徴量を抽出する。ＨＭＲＭＬＰは、全ての特徴量を人間のポーズ、形状、顔表情パラメータに回帰させる。ＳＭＰＬ－Ｘモデルは、パラメータに従って人間の裸体メッシュを生成する。その後、裸体メッシュは、バウンディングボックス内の占有フィールドに変換される。訓練済みＮｅＲＦＭＬＰは、ビューの各中心からの光線方向に関連する身体メッシュの近くのいずれかの３Ｄ点について、ＲＧＢカラーと、裸体の表面を示す３Ｄ変位ベクトルとを生成する。カメラビュー（入力ビューと同じビュー、又はいずれかの新規ビュー）の全ての画素から放たれる全ての光線を問い合わせることにより、着衣姿の人体の外観をＲＧＢ画像としてレンダリングすることができる。サンプリングされた点から３Ｄ変位ベクトルを使用して裸体を変形させることにより、ＳＭＰＬ－Ｘモデルと同じ頂点対応のＳＭＰＬ－Ｘ＋Ｄなどの着衣姿の人体メッシュを取得することができる。

別の態様では、ニューラルネットワークの訓練が、教師あり及び自己教師ありという２つの事例を含む。教師ありの事例では、例えばＨ３６Ｍデータセットなどの、既知の人間パラメータを有するラベル付きデータセットが与えられる。グランドトゥルース（ＧＴ）のパラメータ及び形状を、ＣＮＮ回帰されたパラメータ及び形状と比較する。その差分を形状損失として計算する。一方で、入力画像セット内のサンプリングされた画素から光線を投じ、ＮｅＲＦＭＬＰが光線をレンダリングして、パラメータを裸体の密度及び３Ｄ衣服変位の関数である色及び密度に回帰させる。色損失は、サンプリングされた画素色とレンダリングされた色との差分の合計によって計算される。一方で、モーションキャプチャデータセットなどの、ＧＴ人間パラメータが未知である既存のデータセットでは、自己教師あり／自己改善訓練（ｓｅｌｆ－ｉｍｐｒｏｖｉｎｇｔｒａｉｎｉｎｇ）が利用される。各訓練反復では、ＭＶＳ３ＤＣＮＮからパラメータを回帰させた後に、これらをＳＭＰＬｉｆｙＸなどの最適化ベースの人間予測アルゴリズムに送り、明示的数値最適化法（ｅｘｐｌｉｃｉｔｎｕｍｅｒｉｃａｌｏｐｔｉｍｉｚａｔｉｏｎａｐｐｒｏａｃｈｅｓ）によって最適化する。最適化されたパラメータは、ＣＮＮ回帰されたパラメータと比較されて形状損失になる。残りのステップは教師あり訓練と同じであるが、自己改善訓練は教師ありの事例よりも多くのエポック及び長い時間を要する。全体的なニューラルネットワークの訓練は、形状損失及び色損失の両方を最小化するＡｄａｍなどの並列最適化アルゴリズムによって実行され、最適化されたネットワークの重みが出力される。

いくつかの実施形態によるニューラル人間予測のフローチャートを示す図である。いくつかの実施形態による、全てのネットワークＭＶＳ３ＤＣＮＮ、ＨＭＲＭＬＰ及びＮｅＲＦＭＬＰの重みが既知である、テンソル表記によって表される前方予測のワークフローを示す図である。いくつかの実施形態による、スーパービジョンを使用してネットワークを訓練するワークフローを示す図である。いくつかの実施形態による、自己改善戦略においてネットワークを訓練するワークフローを示す図である。いくつかの実施形態による、各ビューのＭＶＳ３ＤＣＮＮのＮｅＲＦＭＬＰへのアライメントを示す図である。

ニューラル人間予測が、画像セット（単一の画像又はマルチビュー画像）から骨格のポーズ、体形、並びに衣服の変位及び外観を含む３Ｄ人間モデルを予測することを含む。ニューラル人間予測の実施形態は、ニューラルネットワークの使用方法について説明する。マルチビューニューラル人間予測は、単一画像ベースのモーションキャプチャ（ｍｏｃａｐ）及び人間リフティング（ｈｕｍａｎｌｉｆｔｉｎｇ）を品質及びロバスト性において上回り、メモリコストの高いまばらな点群を入力として受け取って低速で実行する暗黙的パーツネットワークなどの身体衣服予測ネットワークのアーキテクチャを単純化し、３Ｄボリューム全体を符号化するＮｅｕｒａｌＢｏｄｙなどの潜在コードベースのネットワークの解像度制限を回避する。

図１は、いくつかの実施形態によるニューラル人間予測のフローチャートである。ステップ１００において、被写体の周囲で撮影された写真セットなどの、入力画像セットＩ、単一画像、又はマルチビュー画像を入力として取得する。入力Ｉは、Ｎ×ｗ×ｈ×ｃのサイズの４Ｄテンソルとして表され、Ｎはビューの数であり、ｗ、ｈ、ｃはそれぞれ画像幅、画像高さ及び画像チャンネルである。カメラは既に校正済みであり、従ってカメラ情報（例えば、カメラパラメータ）は全て既知である。画像前処理として、Ｄｅｔｅｃｔｒｏｎ２及びｉｍａｇｅＧｒａｂ－Ｃｕｔなどの既存の手法を使用して被写体のバウンディングボックス及び前景マスクを抽出する。画像はバウンディングボックスによって切り取られ、同じアスペクト比でｗ×ｈのサイズにズームされる。画像境界は黒で塗りつぶされる。

ニューラルネットワーク（ＭＶＳ－ＰＥＲＦ）１０２は、入力画像セットを特徴に符号化するマルチビューステレオ３Ｄ畳み込みニューラルネットワーク（ＭＶＳ－３ＤＣＮＮ）１０４、特徴を人間パラメータに回帰させる人間メッシュ復元多層パーセプトロン（ＨＭＲＭＬＰ）１０６、及びＭＶＳ－３ＤＣＮＮを微調整してクエリ３Ｄ光線（３Ｄ位置及び方向）をＲＧＢカラー及び衣服－身体変位に復号するニューラル輝度場多層パーセプトロン（ＮｅＲＦＭＬＰ）１０８という３つのコンポーネントで構成される。

ステップ１０４において、深層２ＤＣＮＮが各ビューから画像特徴を抽出する。各畳み込み層の後には、最後の層を除いてバッチ正規化（ＢＮ）層及び整流化線形ユニット（ｒｅｃｔｉｆｉｅｄｌｉｎｅａｒｕｎｉｔ：ＲｅＬＵ）が続く。２つのダウンサンプリング層も配置される。２ＤＣＮＮの出力は、ｗ／４×ｈ／４×３２のサイズの特徴マップである。

その後、あるビューを基準ビューとして選択し、その視錐台（ｖｉｅｗｆｒｕｓｔｕｍ）を透視投影及び近遠面（ｎｅａｒｆａｒｐｌａｎｅｓ）に従って被写体の作業空間全体をカバーするように設定する。この錐台を、近い面及び遠い面の両方に平行なｄ個の深度面によって近くから遠くにサンプリングする。全ての特徴マップを各深度面に変換してブレンドする。ｉ＝１、２、．．．、Ｎであるいずれかのビューｉについて、（１をインデックスとする）基準ビューに対する３×３のホモグラフィ画像ワーピング行列（ｈｏｍｏｇｒａｐｈｙｉｍａｇｅｗａｒｐｉｎｇｍａｔｒｉｘ）が以下の数式によって与えられる。

ここで、Ｋ，［Ｒ，ｔ］はカメラの固有パラメータ及び外部パラメータを表し、ｚは深度面から基準ビューのカメラ中心までの距離であり、ｎは深度面の法線方向である。

全ての画像が深度面にワープされた後に、全ての特徴の分散

によって座標（ｕ，ｖ，ｚ）におけるコストを決定する。

は、全てのビューの平均特徴値である。
コストボリュームのサイズは、ｄ×ｗ／４×ｈ／４である。

ステップ１０６において、人間メッシュ復元多層パーセプトロン（ＨＭＲＭＬＰ）が、フラット化層（ｆｌａｔｔｅｎｌａｙｅｒ）及びドロップアウト層（ｄｒｏｐｏｕｔｌａｙｅｒ）によって分離された３層の線形回帰を含む。ＨＭＲＭＬＰは、ＭＶＳ３ＤＣＮＮからの特徴量を人体パラメータθ_reg１１４に回帰させる。

人体パラメータθ_regは、ＳＭＰＬ－Ｘなどの人体パラメトリックモデルを３Ｄ裸体メッシュ２０２に操作することができる。通常、ＳＭＰＬ－Ｘ表現θ_regは、骨格ポーズ（各関節の３次元回転角）、身長及び体重などの体形を制御するボディブレンドシェイプパラメータ、並びに顔表情を制御するフェイシャルブレンドシェイプパラメータを含む。θ_regは、ブレンドシェイプパラメータを使用してＴポーズメッシュを構築し、これを線形スキニングモデルの骨格ポーズによってポーズメッシュに変形させる。

一方では、ステップ１０８において、コストボリュームがニューラル輝度場（ＮｅＲＦ）などの微分可能なレンダリングＭＬＰに送られる。ＮｅＲＦＭＬＰは、３Ｄ位置ｘ及び方向φによって表されるクエリ光線を４チャンネルカラーＲＧＢσにマッピングする関数Ｍとしてｃ（ｘ、φ）＝Ｍ（ｘ、φ、ｆ；Γ）のように定式化される。ｆは、錐台ＭＶＳ３ＤＣＮＮ１０４のコストボリュームからＮｅＲＦボリュームへの特徴マップであり、Γは、ＮｅＲＦＭＬＰネットワークの重みであり、σは、３Ｄポイントがメッシュ内に存在する場合の確率の占有密度を表す。裸体の占有密度場σｂは、錐台１０４のメッシュ２０２（図２）を変換することによって直接取得することができる。また、着衣姿の身体の密度場σは、３次元変位ベクトル場Ｄと特徴量マップｆとの関数：σ（Ｄ、ｆ）として表すことができる。３次元変位ベクトル場Ｄ１１６は、着衣姿の身体表面２０４上の点が裸体表面上の点とどのように関連しているかを表す。ＮｅＲＦＭＬＰを訓練すると、変位ベクトル場Ｄも最適化される。

図２は、いくつかの実施形態による、全てのネットワークＭＶＳ３ＤＣＮＮ、ＨＭＲＭＬＰ及びＮｅＲＦＭＬＰの重みが訓練されて固定された、テンソル表記によって表される前方予測のワークフローである。透視投影画像からの画素の全ての光線２００を問い合わせることによって、外観画像１１２がレンダリングされる。いくつかの実施形態では、３Ｄ人間予測１１０が実装される。人体の近くのサンプリングされた点を問い合わせることによって、変位フィールドＤ１１６が取得される。着衣姿の出力メッシュがテンプレートと同じトポロジーを有する人間パフォーマンスキャプチャタスクでは、各頂点に補間変位ベクトル（ｉｎｔｅｒｐｏｌａｔｅｄｄｉｓｐｌａｃｅｍｅｎｔｖｅｃｔｏｒ）を追加することによって、裸体メッシュＶ_b２０２を着衣姿の身体メッシュＶ_c２０４に変形することができる。

図３は、いくつかの実施形態による、スーパービジョンを用いてネットワークを訓練するワークフローである。Ｈｕｍａｎ３．６Ｍなどの教師あり訓練データセットは、画像入力Ｉ１００だけでなく、グランドトゥルース人間パラメータθ_gt３００及び裸体メッシュＶ_b、gt３０２も含み、通常、これらはセンサ又は既存の手法によって取得される。この事例では、予測される裸体とグランドトゥルースとの差分を合計することによって、形状損失３０４が直接取得される。

ここで、Ｊは裸体の関節であり、Πは各カメラビューの３Ｄ点の透視投影を表す。ネットワークを効果的に訓練するために、各訓練ステップでは、全てのビューがＭＶＳ３ＤＣＮＮの基準ビューとして順番に選択される。

一方で、典型的には画像顕著性（ｉｍａｇｅｓａｌｉｅｎｃｙ）に比例する不均一なサンプリング戦略を使用して、入力画像セット１００から光線３０６がサンプリングされる。高顕著性領域では多くの光線がサンプリングされ、平坦領域又は背景領域からは少ない光線がサンプリングされる。これらの光線は、ＭＶＳ３ＤＣＮＮ１０４からの特徴マップと共にＮｅＲＦＭＬＰ１０６に送られ、ＮｅＲＦＭＬＰ１０６がサンプルの外観ＲＧＢσ色３０８をレンダリングする。入力画像内のサンプリングされた色とレンダリングされた色３０８との全ての差分を合計することによって色損失３１０が計算される。

Ａｄａｍなどの並列化された確率的最適化アルゴリズム（ｐａｒａｌｌｅｌｉｚｅｄｓｔｏｃｈａｓｔｉｃｏｐｔｉｍｉｚａｔｉｏｎａｌｇｏｒｉｔｈｍ）を適用して、形状損失及び色損失の両方を最小化することによって全てのネットワークＭＶＳ３ＤＣＮＮ、ＨＭＲＭＬＰ、ＮｅＲＦＭＬＰの重みを訓練する。

図４は、いくつかの実施形態による、自己改善戦略においてネットワークを訓練するワークフローである。この事例では、訓練データセットが、注釈又は人間グランドトゥルースパラメータを含まない人間画像のみを提供する。入力セット１００内の各画像について、回帰されたパラメータθ_reg１１４を初期推測として選択することにより、ＳＭＰＬｉｆｙＸアルゴリズムなどの最適化ベースの予測４００を適用する。最適化ベースの予測は、最初に各画像上の人間の２Ｄキーポイントを検出し、非線形最適化を適用して３Ｄ人間にフィットさせる。
これらの２Ｄキーポイントに（θ_opt４０２によってパラメータ化された）メッシュＶ_b,opt４０４を適用する。

ここで、Ｋは、キーポイントの検出された２Ｄ位置を示し、合計は全ての対応するキーポイント及び全てのビューを引き継ぐ。

非線形最小二乗最適化は数値的に遅く、フィッティング精度は初期推測θ_regに依存するが、信頼度は高い。十分なフィッティングの反復後には、θ_optがグランドトゥルースに近くなる。従って、自己改善訓練ワークフローは、以下に要約するようにθ_optをグランドトゥルースに向けて効率的に改善することができる。
自己改善訓練ワークフロー：
以下を実行
ＭＶＳ－３ＤＣＮＮからθ_regを計算し、入力ＩからＨＭＲＭＬＰを計算
θ_regを初期推測、Ｉを入力として、ＳＭＰＬｉｆｙＸからθ_optを計算
Ｉから光線をサンプリングし、ＮｅＲＦＭＬＰからサンプリングされた色ｃを計算
ＳｈａｐｅＬｏｓｓ及びＣｏｌｏｒＬｏｓｓを計算
ＳｈａｐｅＬｏｓｓ及びＣｏｌｏｒＬｏｓｓを最小化することによってＭＶＳ３ＤＣＮＮ、ＨＭＲＭＬＰ及びＮｅＲＦＭＬＰのネットワークの重みを更新
全ての訓練データについて重みが収束するまで反復

図５に、いくつかの実施形態による、各ビューのＭＶＳ３ＤＣＮＮのＮｅＲＦＭＬＰへのアライメントを示す。

動作時には、例えばゲームスタジオにおけるマーカーレスモーションキャプチャ、又は人間３Ｄ表面再構成ＲＧＢカメラセットアップなどの、商業的及び／又は個人的マーカーレスパフォーマンスキャプチャ用途においてニューラル人間予測を直接適用することができる。マルチビューニューラル人間予測の実施形態の他の用途は、いずれかの拡張と組み合わせることができるリアルタイムバックボーン技術として、例えば深度センシングの入力、３Ｄモデリング、又は新規アニメーションを作成するための出力の使用を組み合わせることができる。マルチビューニューラル人間予測は、ゲーム用途、ＶＲ／ＡＲ用途、及びいずれかのリアルタイムヒューマンインタラクション用途において適用することもできる。マルチビューニューラル人間予測は、使用するハードウェア（例えば、ＧＰＵプロセッサの速度及びＧＰＵメモリのサイズ）に応じて、予測のために少量のビューを処理する際にはリアルタイムとし、より多くのビュー（例えば、２０）の場合には近リアルタイム処理及び予測を実装することができる。

本明細書で説明した方法は、いずれかのコンピュータ装置上に実装することができる。好適なコンピュータ装置の例としては、パーソナルコンピュータ、ラップトップコンピュータ、コンピュータワークステーション、サーバ、メインフレームコンピュータ、ハンドヘルドコンピュータ、携帯情報端末、セルラ／携帯電話機、スマート家電、ゲーム機、デジタルカメラ、デジタルカムコーダ、カメラ付き電話機、スマートホン、ポータブル音楽プレーヤ、タブレットコンピュータ、モバイル装置、ビデオプレーヤ、ビデオディスクライタ／プレーヤ（ＤＶＤライタ／プレーヤ、高精細ディスクライタ／プレーヤ、超高精細ディスクライタ／プレーヤなど）、テレビ、家庭用エンターテイメントシステム、拡張現実装置、仮想現実装置、スマートジュエリ（例えば、スマートウォッチ）、車両（例えば、自動走行車両）、又はその他のいずれかの好適なコンピュータ装置が挙げられる。

顔表情、身体ポーズ形状及び衣服パフォーマンスキャプチャのための暗黙的微分可能レンダラーを用いたマルチビューニューラル人間予測のいくつかの実施形態
１．装置の非一時的なものにプログラムされた方法であって、
画像セットを入力として取得することと、
ニューラルネットワークを使用して画像セットを処理することと、
を含み、処理は、
画像セットを１又は２以上の特徴に符号化することと、
特徴を人間パラメータに回帰させることと、
ニューラルネットワークを微調整することと、
クエリ３Ｄ光線を、画像セットに基づくＲＧＢカラー及び衣服－身体変位に復号することと、
を含む、方法。

２．画像セットは、サイズＮ×ｗ×ｈ×ｃの４Ｄテンソルを含み、ここで、Ｎはビューの数、ｗは画像の幅、ｈは画像の高さ、ｃは画像のチャネルである、条項１の方法。

３．ニューラルネットワークは、画像セットから正面ビューを基準ビューとして選択し、特徴量を抽出する、条項１の方法。

４．ニューラルネットワークは、全ての特徴量を人間のポーズ、形状、表情パラメータに回帰させる、条項３の方法。

５．ニューラルネットワークは、パラメータに従って人間の裸体メッシュを生成する、条項４の方法。

６．裸体メッシュは、バウンディングボックス内の占有フィールドに変換される、条項５の方法。

７．ニューラルネットワークは、ビューの各中心からの光線方向に関連する身体メッシュの近くのいずれかの３Ｄ点について、ＲＧＢカラーと、裸体の表面を示す３Ｄ変位ベクトルとを生成する、条項６の方法。

８．カメラビューの全ての画素から放たれる全ての光線を問い合わせることにより、着衣姿の人体の外観がＲＧＢ画像としてレンダリングされ、サンプリングされた点から３Ｄ変位ベクトルを使用して裸体を変形させることにより、着衣姿の身体メッシュが取得される、条項７の方法。

９．ニューラルネットワークは、教師ありモード又は自己教師ありモードで実装される、条項１の方法。

１０．アプリケーションを記憶するように構成された非一時的メモリと、
アプリケーションを処理するように構成されたプロセッサと、
を備えた装置であって、アプリケーションは、
画像セットを入力として取得し、
ニューラルネットワークを使用して画像セットを処理する、ように構成され、処理は、
画像セットを１又は２以上の特徴に符号化することと、
特徴を人間パラメータに回帰させることと、
ニューラルネットワークを微調整することと、
クエリ３Ｄ光線を、画像セットに基づくＲＧＢカラー及び衣服－身体変位に復号することと、
を含む、装置。

１１．画像セットは、サイズＮ×ｗ×ｈ×ｃの４Ｄテンソルを含み、ここで、Ｎはビューの数、ｗは画像の幅、ｈは画像の高さ、ｃは画像のチャネルである、条項１０の装置。

１２．ニューラルネットワークは、画像セットから正面ビューを基準ビューとして選択し、特徴量を抽出する、条項１０の装置。

１３．ニューラルネットワークは、全ての特徴量を人間のポーズ、形状、表情パラメータに回帰させる、条項１２の装置。

１４．ニューラルネットワークは、パラメータに従って人間の裸体メッシュを生成する、条項１３の装置。

１５．裸体メッシュは、バウンディングボックス内の占有フィールドに変換される、条項１４の装置。

１６．ニューラルネットワークは、ビューの各中心からの光線方向に関連する身体メッシュの近くのいずれかの３Ｄ点について、ＲＧＢカラーと、裸体の表面を示す３Ｄ変位ベクトルとを生成する、条項１５の装置。

１７．カメラビューの全ての画素から放たれる全ての光線を問い合わせることにより、着衣姿の人体の外観がＲＧＢ画像としてレンダリングされ、サンプリングされた点から３Ｄ変位ベクトルを使用して裸体を変形させることにより、着衣姿の身体メッシュが取得される、条項１６の装置。

１８．ニューラルネットワークは、教師ありモード又は自己教師ありモードで実装される、条項１０の装置。

１９．アプリケーションを記憶するように構成された非一時的メモリと、
アプリケーションを処理するように構成されたプロセッサと、
を備えた装置であって、アプリケーションは、
入力画像を特徴に符号化するように構成されたマルチビューステレオ３Ｄ畳み込みニューラルネットワーク（ＭＶＳ－３ＤＣＮＮ）と、
特徴を人間パラメータに回帰させるように構成された人間メッシュ復元多層パーセプトロン（ＨＭＲＭＬＰ）と、
ＭＶＳ－３ＤＣＮＮを微調整するように構成され、クエリ３Ｄ光線（３Ｄ位置及び方向）をＲＧＢカラー及び衣服－身体変位に復号するニューラル輝度場多層パーセプトロン（ＮｅＲＦＭＬＰ）と、
を含む、装置。

２０．画像セットは、サイズＮ×ｗ×ｈ×ｃの４Ｄテンソルを含み、ここで、Ｎはビューの数、ｗは画像の幅、ｈは画像の高さ、ｃは画像のチャネルである、条項１９の装置。

２１．ＭＶＳ－３ＤＣＮＮは、画像セットから正面ビューを基準ビューとして選択し、特徴量を抽出する、条項２０の装置。

２２．ＨＭＲＭＬＰは、全ての特徴量を人間のポーズ、形状、表情パラメータに回帰させる、条項２１の装置。

２３．パラメータに従って人間の裸体メッシュを生成するように構成されたモデルをさらに備える、条項２２の装置。

２４．裸体メッシュは、バウンディングボックス内の占有フィールドに変換される、条項２３の装置。

２５．ＮｅＲＦＭＬＰは、ビューの各中心からの光線方向に関連する身体メッシュの近くのいずれかの３Ｄ点について、ＲＧＢカラーと、裸体の表面を示す３Ｄ変位ベクトルとを生成する、条項２４の装置。

２６．カメラビューの全ての画素から放たれる全ての光線を問い合わせることにより、着衣姿の人体の外観がＲＧＢ画像としてレンダリングされ、サンプリングされた点から３Ｄ変位ベクトルを使用して裸体を変形させることにより、着衣姿の身体メッシュが取得される、条項２５の装置。

本発明の構成及び動作の原理を容易に理解できるように、詳細を含む特定の実施形態に関して本発明を説明した。本明細書におけるこのような特定の実施形態及びこれらの実施形態の詳細についての言及は、本明細書に添付する特許請求の範囲を限定することを意図したものではない。当業者には、特許請求の範囲によって定められる本発明の趣旨及び範囲から逸脱することなく、例示のために選択した実施形態において他の様々な修正を行えることが容易に明らかになるであろう。

１００画像入力Ｉ
１０２ニューラルネットワーク（ＭＶＳ－ＰＥＲＦ）
１０４マルチビューステレオ３Ｄ畳み込みニューラルネットワーク（ＭＶＳ－３ＤＣＮＮ）
１０６人間メッシュ復元多層パーセプトロン（ＨＭＲＭＬＰ）
１０８ニューラル輝度場多層パーセプトロン（ＮｅＲＦＭＬＰ）
１１０３Ｄ人間予測
１１２外観画像
１１４人体パラメータθ_reg
１１６３次元変位ベクトル場Ｄ

Claims

装置の非一時的なものにプログラムされた方法であって、
画像セットを入力として取得することと、
ニューラルネットワークを使用して前記画像セットを処理することと、
を含み、前記処理は、
前記画像セットを１又は２以上の特徴に符号化することと、
前記特徴を人間パラメータに回帰させることと、
前記ニューラルネットワークを微調整することと、
クエリ３Ｄ光線を、前記画像セットに基づくＲＧＢカラー及び衣服－身体変位に復号することと、
を含む、
ことを特徴とする方法。
前記画像セットは、サイズＮ×ｗ×ｈ×ｃの４Ｄテンソルを含み、ここで、Ｎはビューの数、ｗは画像の幅、ｈは画像の高さ、ｃは画像のチャネルである、
請求項１に記載の方法。
前記ニューラルネットワークは、前記画像セットから正面ビューを基準ビューとして選択し、特徴量を抽出する、
請求項１に記載の方法。
前記ニューラルネットワークは、全ての特徴量を人間のポーズ、形状、表情パラメータに回帰させる、
請求項３に記載の方法。
前記ニューラルネットワークは、前記パラメータに従って人間の裸体メッシュを生成する、
請求項４に記載の方法。
前記裸体メッシュは、バウンディングボックス内の占有フィールドに変換される、
請求項５に記載の方法。
前記ニューラルネットワークは、ビューの各中心からの光線方向に関連する身体メッシュの近くのいずれかの３Ｄ点について、前記ＲＧＢカラーと、裸体の表面を示す３Ｄ変位ベクトルとを生成する、
請求項６に記載の方法。
カメラビューの全ての画素から放たれる全ての光線を問い合わせることにより、着衣姿の人体の外観がＲＧＢ画像としてレンダリングされ、サンプリングされた点から前記３Ｄ変位ベクトルを使用して裸体を変形させることにより、着衣姿の身体メッシュが取得される、
請求項７に記載の方法。
前記ニューラルネットワークは、教師ありモード又は自己教師ありモードで実装される、
請求項１に記載の方法。
アプリケーションを記憶するように構成された非一時的メモリと、
前記アプリケーションを処理するように構成されたプロセッサと、
を備えた装置であって、前記アプリケーションは、
画像セットを入力として取得し、
ニューラルネットワークを使用して前記画像セットを処理する、
ように構成され、前記処理は、
前記画像セットを１又は２以上の特徴に符号化することと、
前記特徴を人間パラメータに回帰させることと、
前記ニューラルネットワークを微調整することと、
クエリ３Ｄ光線を、前記画像セットに基づくＲＧＢカラー及び衣服－身体変位に復号することと、
を含む、
ことを特徴とする装置。
前記画像セットは、サイズＮ×ｗ×ｈ×ｃの４Ｄテンソルを含み、ここで、Ｎはビューの数、ｗは画像の幅、ｈは画像の高さ、ｃは画像のチャネルである、
請求項１０に記載の装置。
前記ニューラルネットワークは、前記画像セットから正面ビューを基準ビューとして選択し、特徴量を抽出する、
請求項１０に記載の装置。
前記ニューラルネットワークは、全ての特徴量を人間のポーズ、形状、表情パラメータに回帰させる、
請求項１２に記載の装置。
前記ニューラルネットワークは、前記パラメータに従って人間の裸体メッシュを生成する、
請求項１３に記載の装置。
前記裸体メッシュは、バウンディングボックス内の占有フィールドに変換される、
請求項１４に記載の装置。
前記ニューラルネットワークは、ビューの各中心からの光線方向に関連する身体メッシュの近くのいずれかの３Ｄ点について、前記ＲＧＢカラーと、裸体の表面を示す３Ｄ変位ベクトルとを生成する、
請求項１５に記載の装置。
カメラビューの全ての画素から放たれる全ての光線を問い合わせることにより、着衣姿の人体の外観がＲＧＢ画像としてレンダリングされ、サンプリングされた点から前記３Ｄ変位ベクトルを使用して裸体を変形させることにより、着衣姿の身体メッシュが取得される、
請求項１６に記載の装置。
前記ニューラルネットワークは、教師ありモード又は自己教師ありモードで実装される、
請求項１０に記載の装置。
アプリケーションを記憶するように構成された非一時的メモリと、
前記アプリケーションを処理するように構成されたプロセッサと、
を備えた装置であって、前記アプリケーションは、
入力画像を特徴に符号化するように構成されたマルチビューステレオ３Ｄ畳み込みニューラルネットワーク（ＭＶＳ－３ＤＣＮＮ）と、
前記特徴を人間パラメータに回帰させるように構成された人間メッシュ復元多層パーセプトロン（ＨＭＲＭＬＰ）と、
前記ＭＶＳ－３ＤＣＮＮを微調整するように構成され、クエリ３Ｄ光線（３Ｄ位置及び方向）をＲＧＢカラー及び衣服－身体変位に復号するニューラル輝度場多層パーセプトロン（ＮｅＲＦＭＬＰ）と、
を含む、
ことを特徴とする装置。
前記画像セットは、サイズＮ×ｗ×ｈ×ｃの４Ｄテンソルを含み、ここで、Ｎはビューの数、ｗは画像の幅、ｈは画像の高さ、ｃは画像のチャネルである、
請求項１９に記載の装置。
前記ＭＶＳ－３ＤＣＮＮは、前記画像セットから正面ビューを基準ビューとして選択し、特徴量を抽出する、
請求項２０に記載の装置。
前記ＨＭＲＭＬＰは、全ての特徴量を人間のポーズ、形状、表情パラメータに回帰させる、
請求項２１に記載の装置。
前記パラメータに従って人間の裸体メッシュを生成するように構成されたモデルをさらに備える、
請求項２２に記載の装置。
前記裸体メッシュは、バウンディングボックス内の占有フィールドに変換される、
請求項２３に記載の装置。
前記ＮｅＲＦＭＬＰは、ビューの各中心からの光線方向に関連する身体メッシュの近くのいずれかの３Ｄ点について、前記ＲＧＢカラーと、裸体の表面を示す３Ｄ変位ベクトルとを生成する、
請求項２４に記載の装置。
カメラビューの全ての画素から放たれる全ての光線を問い合わせることにより、着衣姿の人体の外観がＲＧＢ画像としてレンダリングされ、サンプリングされた点から前記３Ｄ変位ベクトルを使用して裸体を変形させることにより、着衣姿の身体メッシュが取得される、
請求項２５に記載の装置。