JP2023526566A

JP2023526566A - 高速で深い顔面変形

Info

Publication number: JP2023526566A
Application number: JP2023513265A
Authority: JP
Inventors: スティーヴンダブリューベイリー; ダルトンオーメンズ; ポールディロレンツォ; ジェイムズオブライエン
Original assignee: ドリームワークスアニメーションリミテッドライアビリティカンパニー
Priority date: 2020-05-08
Filing date: 2021-04-29
Publication date: 2023-06-21
Also published as: EP4147209A1; US11875458B2; KR20230009440A; US20220262073A1; CN115943436A; US20210350621A1; CA3176920A1; WO2021225868A1; US11348314B2

Abstract

少なくとも１つの実施形態によれば、顔モデルのメッシュ変形を生成する方法は、第１の複数のニューラルネットワークトレーニングモデルを適用することにより第１の複数の変形マップを生成するステップと、第１の複数の変形マップに基づいて第１の複数の頂点オフセットを抽出するステップと、第１の複数の頂点オフセットを顔モデルのニュートラルメッシュに適用して、顔モデルのメッシュ変形を生成するステップと、を含む。【選択図】図３

Description

（関連出願に対する相互参照）
本出願は、２０２０年１０月７日に出願された米国出願第１７／０６５，４２３号及び２０２０年５月８日に出願された米国仮特許出願第６３／０２２，３９８号の優先権を主張し、これらの全ての内容は、その全体が引用により本明細書に組み込まれる。

コンピュータアニメーション及び他のコンピュータモデリングアプリケーションは、オブジェクト又はキャラクタの２次元（２Ｄ）又は３次元（３Ｄ）モデルと、これらの対応するプログラムされた又はキーフレーム化された動きとを組み合わせるものである。これらのモデルは、３次元座標系における幾何学的な頂点、面、及び辺から構成されている。コンピュータアニメーションの１つの形態は、３Ｄモデルをスケルトンに近似した変換階層に付加して、オブジェクト又はキャラクタの動きを表すことを含む。スケルトンは、オブジェクト又はキャラクタの境界を表すサーフェスメッシュで囲まれている。３Ｄ表面メッシュは、高い解像度を有し、メッシュの表面を構成する様々なサイズのポリゴン又は面を含むことができ、表面メッシュは、所望の結果を得るためにアニメーター又は他のオペレータによって要求されるように成形及び変形することができる。

フィルム品質のキャラクタリグと、リアルタイム用途で設計されたリグを比較すると、メッシュ変形(mesh deformations)の品質に明らかな差異がある。リアルタイムリグは、計算機資源によって制約され、パフォーマンスとリアリズムをトレードされることが多い。フィルム品質のリグにはこのような制限がなく、キャラクターリガーは、リアルな変形を実現するために必要なだけリグを複雑にする可能性がある。

具体的には、ビデオゲーム及びバーチャルリアリティなどのインタラクティブなアプリケーション用のキャラクタリグに含まれるディテールのレベルは、計算上の制約によって制限される（例えば、モバイルデバイスは、コンピュータサーバのネットワークよりも処理能力が低い場合がある）。このタイプのリグは、リアルタイムで実行する必要があり、従って、過度の遅延なしにユーザのインタラクティブ性をサポートするレートで評価できる必要がある。この制限のために、キャラクタリグは、高いレベルのリアリズムに欠けることが多い。一方、フィルム品質のキャラクタリグは、計算上の制約によって制限されず、そのメッシュの変形は、よりリアルに見えることができる。

フィルム品質のリグは、より大きな計算能力を必要とするため、フィルム品質のキャラクタリグは、インタラクティブなアプリケーション向けではない。リグ評価の最適化と並列処理に多大な労力を費やすと、単一のフィルム品質リグが、ハイエンドのハードウェアでリアルタイムに動作可能にすることができる。インタラクティブアプリケーションのリアリズムを向上させるためには、これらの高品質なリグを使用することが望ましいが、計算量の多いリグをインタラクティブアプリケーションに直接プラグインすることは、インタラクティブなリアルタイム要件に起因して、現実的ではない。

従って、既存のシステム及び方法は、リアルタイムアプリケーションで使用するためのフィルム品質のリグのためのメッシュ変形に必要な計算を低減する解決策を提供することができない。従って、リアルタイムアプリケーションで使用するためのフィルム品質のリグ（又は近フィルム品質のリグ）に対するメッシュ変形を決定することが有利である。

更に、フィルム品質のキャラクタは通常、非常に複雑で表現力豊かな顔面変形(facial deformation)を表示す。キャラクタの顔面変形をアニメーション化するのに使用される基礎となるリグは、計算コストが高いことが多く、インタラクティブなレートでメッシュを変形させるためにハイエンドのハードウェアを必要とする。

本開示の態様は、キャラクタの顔（又は頭部）のためのリグに向けられる。例えば、少なくとも１つの実施形態による、複雑なフィルム品質の顔面リグ(complex film-quality facial rigs)のためのディープラーニングベースの近似方法が開示される。開示された方法は、変形評価時間を大幅に低減させ、逆運動学(inverse kinematics)と共に使用するための微分可能モデル(differentiable model)を提供する。少なくとも１つの実施形態によれば、本方法は、キャラクタの顔のメッシュ変形を近似するために畳み込みニューラルネットワーク（ＣＮＮ）を使用する。

本開示の実施形態は、キャラクタの顔面リグ(character facial rigs)のメッシュ変形を近似するためのシステム及び方法を含む。本開示の実施形態は、フィルム品質のキャラクタリグの元の変形計算と比較して、評価時間の大幅な短縮につながる。本開示の様々な実施形態は、フィルム品質リグがリアルタイムのインタラクティブアプリケーションで近似できるように十分に計算を圧縮するキャラクタ顔面リグのための計算コストの低い近似を学習するデータ駆動型の手法を含む。

少なくとも１つの実施形態によれば、顔モデル(facial model)のメッシュ変形を生成するための方法は、第１の複数のニューラルネットワークトレーニングモデル(neural network-trained models)を適用することにより第１の複数の変形マップ(deformation maps)を生成するステップと、第１の複数の変形マップに基づいて第１の複数の頂点オフセット(vertex offsets)を抽出するステップと、顔モデルのメッシュ変形を生成するために第１の複数の頂点オフセットを顔モデルのニュートラルメッシュに適用するステップとを含む。

少なくとも別の実施形態によれば、顔モデルのメッシュ変形を生成するためのシステムは、１又は２以上のコントローラを含む。１又は２以上のコントローラは、第１の複数のニューラルネットワークトレーニングモデルを適用することにより第１の複数の変形マップを生成し、第１の複数の変形マップに基づいて第１の複数の頂点オフセットを抽出し、第１の複数の頂点オフセットを顔モデルのニュートラルメッシュに適用して顔モデルのメッシュ変形を生成するように構成されている。

少なくとも別の実施形態によれば、機械可読な非一時的媒体は、顔モデルのメッシュ変形を生成するための機械実行可能命令を格納している。上記命令は、第１の複数のニューラルネットワークトレーニングモデルを適用することによって、第１の複数の変形マップを生成するステップと、第１の複数の変形マップに基づいて、第１の複数の頂点オフセットを抽出するステップと、第１の複数の頂点オフセットを顔モデルのニュートラルメッシュに適用して、顔モデルのメッシュ変形を生成するステップとを含む。

少なくとも別の実施形態によれば、顔モデルの変形の近似を生成する方法は、第１の複数の頂点を第１のネットワークに提供して第１のリグパラメータポーズを生成するステップと、第２の複数の頂点を第２のネットワークに提供して第２のリグパラメータポーズを生成するステップと、リグパラメータポーズ及び第２のリグパラメータポーズを処理して合成リグパラメータポーズ(composite rig parameter pose)を生成するステップであって、合成リグパラメータポーズが顔モデルの変形の近似に対応する、ステップとを含む。

本開示の上記及び他の態様並びに特徴は、添付図面を参照しながら、以下の実施形態に関する説明を考慮するとより明らかになるであろう。

キャラクタモデルのメッシュを示す図である。キャラクタモデルのメッシュを示す図である。本開示の実施形態に従って近似された変形を含む顔メッシュ変形のサイドバイサイド比較を示す図である。少なくとも１つの実施形態による近似モデルの図である。１又は２以上の実施形態による粗い近似モデルのニューラルネットワークの一例を示す図である。１又は２以上の実施形態による微細近似モデルのニューラルネットワークの一例を示す図である。少なくとも１つの実施形態による剛体近似の一例を示す図である。トレーニングデータからの例示的なポーズを示す図である。少なくとも１つの実施形態による逆運動学（ＩＫ）モデルの図である。少なくとも１つの実施形態による粗いモデリングの間に使用されるメッシュセグメントの例を示す図である。少なくとも１つの実施形態による微細モデリングの間に使用されるメッシュセグメントの例を示す図である。皺を含むキャラクタのポーズに対する近似変形を示す図である。正規誤差を可視化したサイドバイサイド比較を示す図である。幾つかの例示的な制御点構成に対するグランドトゥルースメッシュと近似変形のサイドバイサイドの比較を示す図である。録画からのフレームと、入力から結果として得られる変形メッシュを示す図である。粗い近似モデルの１つのメッシュセグメントを異なるトポロジーを有する新しいメッシュ上に転送する一例を示す図である。本開示の少なくとも１つの実施形態による方法を示すフローチャートである。本開示の少なくとも１つの実施形態による方法を示すフローチャートである。本開示の１つの実施形態に従って実装されたシステムの図である。本開示の１つの実施形態に従って実装された装置の図である。

以下の詳細な説明において、本明細書の一部を構成し、本発明の特定の実施形態を例示的に示す添付図面について参照する場合がある。他の実施形態を利用することができ、本発明の範囲から逸脱することなく構造的、電気的、及び手続き的な変更を行うことができることは、本技術分野の当業者によって理解されるであろう。可能な限り、同じ要素を示すために図面全体を通じて同じ参照符号が使用される。

本開示は、３Ｄアニメーションアプリケーションの関連で提示されるが、これに限定されず、２Ｄ又は３Ｄ座標系内の幾何学的モデルの変形、並びに幾何学的モデルの生産及び修正を伴う様々なインタラクティブ幾何学的モデリングアプリケーション（限定ではないが、リギング、アニメーション、建築、自動車デザイン、コンシューマー製品デザイン、仮想現実アプリケーション、拡張現実アプリケーション、ゲーム開発、視覚効果、３Ｄプリントなどを含む）における、本明細書に記載のシステム、メディア、及び方法の他の実装が企図される。本開示における、３Ｄモデル又は３Ｄ空間内の幾何学的モデル又はその構成要素へのいかなる言及も、２Ｄモデル及び２Ｄ空間に適用可能なものとして本開示を含むことが理解されるであろう。

本開示において、用語「キャラクタ」、「オブジェクト」、又は「モデル」は、キャラクタ、風景、無生物物体、又は他の何れかの仮想、モデル化、及び／又はアニメーション化されたエンティティなどの、エンティティの一部又は全ての何れかの適切なコンピュータ表現又は幾何モデルを含むことができる。オブジェクトは、例えば、２Ｄ又は３Ｄ座標系における幾何学的な頂点、エッジ、及び／又は面から構成することができる。

「点(point)」、「頂点(vertex)」、「エッジ」、又は「構成要素(component)」は、限定ではないが、２Ｄ又は３Ｄモデルの頂点、点、エッジ、及び面を含む、Ｄモデルの形状、動き、外観、及び／又は絶対的もしくは相対位置を決定するのに用いられる要素のセットの１つを含むことができる。点、頂点、エッジ、又は面のうちの１つに関する本開示の何れかの説明は、当業者によって理解されるように、適切な場合には、点、頂点、エッジ、又は面のうちの他のものにも同様に及び／又は類似的に適用されることが理解され、本開示内で別のものを上回って１つの用語を用いることは、使用される用語のみに限定するものとは見なされない。

背景として、ほとんどのキャラクタリグは、モーションシステムと変形システムで設計される。モーションシステムは、あるポーズのリグパラメータをボーン及びジョイントから構成されるスケルトンにマッピングする役割を担っている。次に、変形システムは、入力ポーズに対するキャラクタの最終メッシュにスケルトンをマッピングする。図１Ａは、リグに構成することができる静止ポーズ、すなわち、この場合「Ｔ」ポーズの３Ｄキャラクタ１００の一例を示している。リグは、アーティスト又は他のオペレータによる制御及びアーティキュレーションを可能にするポイントを提供するスケルトンボーン及びジョイントを含むことができる。

図１Ｂは、図１Ａに描かれた３Ｄキャラクタに対応するキャラクタメッシュ１０１の点、すなわち頂点の一例を示す図である。図１Ｂに示すように、メッシュの隣接する頂点は、多くの場合、グループ化され、スケルトンの同じボーンに割り当てられることになる。更に、より多くの頂点１０２、すなわちメッシュのより広い領域をカバーする頂点は、アーティキュレーションのディテールが少ないスケルトンの大きなボーン（例えば腕及び脚の大きな骨）に割り当てることができ、一方、より少ない頂点１０３、すなわちメッシュのより小さな領域をカバーする頂点は、アーティキュレーションのディテールが多い小さなボーン、例えば手首、手、及び指の小さなボーンに割り当てることができる。

フィルム品質のキャラクタは、通常、非常に複雑で表現力豊かな顔面変形を示す。キャラクタの顔（又はより一般的にはキャラクタの頭部）の変形をアニメーション化するのに使用される基礎となるリグは、多くの場合、計算コストが高く、インタラクティブレートでメッシュを変形させるためにハイエンドのハードウェアを必要とする。少なくとも１つの実施形態に従って本明細書に開示されるのは、キャラクタの顔のメッシュ変形を近似するためのニューラルネットワークを使用する方法である。少なくとも１つの特定の実施形態によれば、このようなニューラルネットワークの１又は２以上は、畳み込みニューラルネットワーク（ＣＮＮ）とすることができる（又は、これを含むことができる）。テストされたモデルについて、近似は、元のリグに対して高レベルの忠実度を維持しながら、元の顔のリグよりも最大で１７倍速く実行することができる。

また、少なくとも１つの実施形態によれば、細かい皮膚の皺などの高周波の変形を処理する近似への拡張も開示される。オリジナルのアニメーションリグの実装は、専用ライブラリの広範なセットに依存し、社内開発環境の外でインストールするのが困難になるが、開示される実施形態による近似は、広く利用可能で且つ容易に配備されるＴｅｎｓｏｒＦｌｏｗ（テンソルフロー）ライブラリに依存することができる。より適度なハードウェア及び広範囲のコンピューティング環境での高フレームレート評価を可能にすることに加えて、大きな速度の向上はまた、アニメーションリグ上でのインタラクティブな逆運動学も可能にする。手法及びその適用性は、インタラクティブなキャラクターポージング及びリアルタイムの顔面パフォーマンスキャプチャを通じて実証されることになる。

ビデオゲーム及び他のリアルタイムアプリケーションのためのキャラクタ顔面リグは、多くの場合、ボーン又はブレンドシェイプのセットによって制御される。これらのリギングは、迅速に計算できるが、一般的には、速度のために細かいディテールを犠牲にしている。このようなリアルタイムリグで微妙な差異の変形を表現することは困難であり、多くの場合、基礎となるリグに加えて計算レイヤーを追加する必要がある。メッシュ変形におけるディテールレベルを高めるためにこのように追加されるものとして、ポーズ空間変形及びリンクルマップが挙げられる。しかしながら、これらの改善にもかかわらず、フィルム品質の顔面リグのディテールレベルは、リアルタイムリグと比較すると、明らかに優れている。フィルム品質の顔面リグがより洗練されたメッシュ変形を含む主な理由は、同じリアルタイム要件によって制約されないことに起因する。

フィルム用の顔面リグは、リアルで表情豊かなメッシュ変形を作成するために、相当量の計算を必要とする。これらの顔面リグは、ハイエンドマシンで評価した場合、１０～３０ＦＰＳ（ｆｒａｍｅｓｐｅｒｓｅｃｏｎｄ：フレーム／秒）のレートで動作する可能性があり、コンシューマーレベルのデバイスでは、もっと遅く動作することになる。更に、アニメスタジオのような事業体は、通常、社内のリギングソフトウェアを開発し、この上でキャラクタを開発している。このようなリグは、カスタムアニメーションエンジンに限定されており、社内のソフトウェア以外で使用するためにキャラクタを移植することは、困難で時間がかかる可能性がある。このため、フィルム品質のキャラクタは、計算量の制限及び移植性に起因して、設計されるフィルム以外で使用されることはほとんどない。

フィルム品質のキャラクタリグのボディ変形を近似する方法が提案されている。しかしながら、その方法では、基礎となるスケルトンを用いて変形を近似している。ボディリグとは異なり、顔面リグは、変形近似に利用できる広範囲なスケルトン構造を有していない。例えば、鼻、目、又は口の周りの領域に対応するものなどの顔の特徴は、利用できる広範なスケルトン構造を有していない場合がある。

本開示の態様は、この制限に対処することに向けられる。例えば、少なくとも１つの実施形態によれば、顔メッシュの変形を近似するための方法が開示される。近似は、皮膚、口内部、歯、及び他の構造を含む、顔メッシュの変形を正確に計算する。近似は、顔メッシュに見られる変形の種類を利用するために、ニューラルネットワークを使用することができる。例えば、ＣＮＮは、採用され得るニューラルネットワークの一種である。しかしながら、他のタイプのニューラルネットワークが使用することができることが理解される。本方法は、第１の近似（例えば、粗い近似）、追加の近似（例えば、微細近似）、及び更に別の近似（例えば、メッシュの剛性成分に対する近似）の３つの別々の部分で変形を計算することができる。この方法は、テストされたプロダクションリグよりも最大１７倍速く実行しながら、メッシュの高周波のディテールを保持することができる（図２参照）。

図２は、少なくとも１つの実施形態による粗い近似を使用（図２（ｃ）参照）、少なくとも１つの実施形態による微細近似を使用（図２（ｂ）参照）、並びに線形ブレンドスキニング（ＬＢＳ）により生成された近似を使用（図２（ｄ）参照）した、それぞれの顔メッシュ変形のサイドバイサイド比較を示している。ＬＢＳのような技術は、各頂点に適用されるスケルトンのボーン変換の加重和として、静止ポーズからのメッシュの変形を計算する。しかしながら、これらの変形は、「キャンディラッパー(candy wrapper)」問題として知られるボリュームロスの影響を受ける可能性があり、例えば、皮膚の滑り、筋肉の膨らみ、布の皺など、これらの技術では実現できない特定の変形が存在する。

図２（ａ）は、無制限の（又は広範な）時間資源が与えられた高性能計算ハードウェアを利用してフルメッシュ関数を計算することによって達成される最終変形を示し、この議論の目的のために、「元の変形関数(original deformation function)」又は「グランドトゥルース」変形(“ground truth” deformation)と呼ばれる場合がある。図２（ａ）の「グランドトゥルース」変形と比較して、第２の行に示される最も顕著な違いは、メッシュの鼻領域の周りで観察することができる。

前述のように、少なくとも１つの実施形態による近似モデルは、オープンソースの機械学習ライブラリであるＴｅｎｓｏｒＦｌｏｗで実装することができ、これにより、顔面リグは、キャラクタをオーサリングするのに使用される元のリギングソフトウェアの独自の制限を超えることができ、モデルをより多様なデバイス及びアプリケーション上に展開することができる。更に、リグ近似は、追加の手間なしで、ＣＰＵとＧＰＵの両方でより容易に評価することができる。本明細書に開示されるモデルは、ニューラルネットワークベースとすることができるので、対応する近似は、完全微分可能である。この特性（又は態様）の有用性は、逆運動学ベースのポージングアプリケーション及び顔面パフォーマンスキャプチャシステムを開発することによって実証される。

アニメーションのキャラクタのための顔面変形システム(facial deformation systems)は、その方法と複雑さにおいて大きく異なる。多くの場合、顔モデルは、複数の変形方法を組み合わせて最終的な結果を得ている。このような状況下において、変形を計算する最も単純で高速な方法の１つは、基礎となるスケルトンに基づくものである。スケルトン部分空間変形（ＳＳＤ）は、線形ブレンドスキニング（ＬＢＳ）とも呼ばれ、その単純さと速度に起因して人気がある。キャンディラッパー効果を含む、ＳＳＤのよく知られた欠点があることに起因して、マルチウェイトエンベロープ及びデュアルクォータニオンスキニングなどの改良が研究されており、これにより評価速度に顕著な影響を与えることなく品質を向上させる。このクラスの手法は、キャラクタの身体の基本変形システムとして用いられることが多いが、キャラクタの顔をリギングする他の方法と組み合わせられることが多い。顔面変形システムとしてより一般的な手法は、アーティストが作成した顔の表情のセットを線形的に組み合わせるブレンドシェイプである。この手法もまた、評価が早いが、フィルム品質のキャラクタリグには、それ自体では限界があり、アニメーションのフレームごとに数百のブレンドシェイプをキーイングする必要がある。顔モデルを構築する別の手法は、よりリアルでリアルなポーズの生成を容易にするために、物理ベースの変形による。複雑な顔モデルでは、これらの技術及び他の技術を全て組み合わせることができるが、これは一般的に高コスト及び低評価速度という結果を招く。

リアルタイムアプリケーションでは、あまり大きな計算コストを生じさせることなく、ディテールを保持する顔変形モデルを構築することが必要とすることができる。１つの手法は、ＳＳｄを用いてベース変形を計算し、モデルを学習してベースの上に適用される皺のような高忠実度の非線形なディテールを計算するハイブリッド手法でポーズ空間変形を利用する。物理ベースの変形を効率的に計算するために、１つの手法は、プロダクション品質のキャラクタリグでリアルタイムの結果に対してリグ空間物理を改良する。これらの手法は、その上に構築されるシステムに対して、高いパフォーマンスを達成するのに十分とすることができる。しかしながら、本開示の少なくとも１つの態様は、複雑なキャラクタリグを最適化する必要なく、低電力ハードウェア上で変形モデルを計算するのが遅い可能性がある、既存の高品質リグのための効率的な表現を見出すことに向けられている。

例示的なポーズのセットが与えられた既存の変形モデルを近似するために、様々な手法が存在する。これらの手法の多くは、変形関数のより計算効率の良い表現を構築することを目的としている。スキニング分解法の１つは、例示的なポーズのセットが与えられたときに、スケルトン部分空間変形モデルに対するボーン変換及びスキンウェイトを求めている。同様に、別の手法もまた、変形のＳＳＤ表現を見つけているが、その後のアニメーションが容易になるようにスケルトン階層で編成されている。別の手法は、制御点によるアニメーション化を行うために、例示的なデータからＳＳＤを介してスキニングメッシュを学習する。先に説明した理由により、ボーンベースの変形システムは、顔面変形を表現するのに最適な方法ではない。従って、このような方法だけでは、本明細書で検討される少なくとも幾つかの態様に関して適切ではない。

球－メッシュ(Sphere-Meshes)は、メッシュアニメーションをアニメーション化された球のセットに分解し、これはアニメーションのために後でキーフレーム化することができる。この手法はまた、微細なディテールを表現することが困難であることに起因して、高品質のキャラクタアニメーションには不向きである。また、顔面アニメーションに特異的に標的とした別の手法では、例示的なポーズからブレンドシェイプのような新しいパラメトリックリグモデルを学習する。別の手法は、リグの外観が記録された俳優の外観に密接に一致するように統計的なモデルに基づいた顔面リグを作成する。これらの方法は全て、元のリグに存在するものとは異なる制御を有する完全に新しいリグ表現を学習する。本開示の少なくとも１つの態様は、既存の顔面リグを近似し、アーティストが制御パラメータを再学習する必要がないように、同じ制御を維持することに向けられている。

既存のリグ関数を近似しようとする過去の研究は、多くの場合、基礎となるブレンドシェイプモデル又は基礎となるスケルトン構造を仮定しているが、少なくとも１つの実施形態によれば、出願人らの方法は、顔面リグに関してこのような強い仮定をしない。ＥｉｇｅｎＳｋｉｎは、例示的なメッシュから構築された誤差最適なポーズ依存変位ベースを介してＧＰＵ上で高忠実度の非線形変形を効率的に計算する。この手法は、所与のリグの基礎となるＳＳＤ表現を仮定し、これをその計算で使用する。１つの手法では、既存のＳＳＤリグからジョイントを追加した拡張ＳＳＤスキニングモデルを学習する。１つの手法では、基礎となるスケルトンを仮定し、その上に微細なディテール非線形変位が重ね合わされるベースとして、スケルトンの変形を使用する。少なくとも１つの実施形態によれば、変形モデルは、スケルトン系の仮定を必要とせず（又は他の方法で利用せず）学習され、これは、複雑な顔面リグに適切である。

リアルタイムでの顔面リグの逆運動学（ＩＫ）をサポートするために、制約のセットが与えられたキャラクタのポーズを計算するために、リグ関数の効率的且つ正確な逆数が必要とすることができる。コンピュータアニメーション及びロボット工学では、逆運動学は、運動学的連鎖（例えば、ロボットマニピュレータ又はアニメーションキャラクタのスケルトン）の終端を、連鎖の始端に対して所与の位置及び向きに配置するのに必要な可変ジョイントパラメータを計算する数学的プロセスを指す。このようなジョイントパラメータに基づいて、チェーンの端部（例えば、キャラクタ又はロボットの手）の位置と向きは、通常、三角関数の公式を複数回適用して直接計算することができる。このプロセスを順運動学と呼ぶ。しかしながら、一般に、逆の操作（すなわち、逆運動学）は、より困難とすることができる。

逆運動学はまた、世界の中の物体の動きを、その動きのフィルム、又はその動きをしているカメラによって見た世界のフィルムなど、他の何れかのデータから復元するのに使用される。例えば、人間の俳優の撮影された動きをアニメーションのキャラクタによって複製される場合に生じる。

顔面リグの複雑さに起因して、ＩＫ問題に対する従来の解決策は、微分可能なリグ関数が必要となるため、フィルム品質の顔モデルに容易に適用できない。ランドマークからブレンドシェイプパラメータを計算する研究がある。しかしながら、本開示の態様は、任意のブラックボックスリグ関数の反転を可能にすることを求めることに向けられている。

この問題に対する解決策が検討されてきた。１つの手法は、反復最適化手法を利用するが、しかしながら、この手法は、ポーズ空間変形リグの反転を最適化するように設計されているため、完全にリグを無視するわけではない。また、別の手法では、２つの非線形手法を用いて、ブラックボックス化したリグ関数の反転に成功した。ガウス過程回帰及びフィードフォワードニューラルネットワークである。これに対して、本開示の少なくとも１つの態様は、ディープラーニング法を使用して元のリグ関数を近似することに向けられている。ニューラルネットワークに起因して、リグ関数の勾配は、リグ近似を通じて推定することができ、その後、逆リグ関数を推定するのに使用することができる。

深層畳み込み法は、データ駆動型メッシュ回帰問題のために開発されてきた。これらの手法は、顔の復元及び顔面アニメーションから布のシミュレーションに至るまで、深層ニューラルネットワークのパワー及び柔軟性を活用したものである。ＣＮＮをメッシュに適用する１つの方法は、メッシュ畳み込み演算を定義することに基づく。１つの手法では、グラフ畳み込みオートエンコーダを導入し、別の手法では同様のアイデアで３Ｄの顔を生成している。ＭｅｓｈＣＮＮは、三角形メッシュに対して特化した畳み込み演算及びプーリング演算を定義している。本開示の少なくとも１つの態様は、効率の向上を中心としているため、このようなメッシュ畳み込みを使用すると、この点で計算量が多すぎることになる。従来のＣＮＮは、２Ｄ画像及び特徴マップ上で動作する。これらのモデルを用いて３Ｄ変形を再構成するためには、特徴マップ空間と頂点位置との間にマッピングを作成する必要がある。１つの手法は、メッシュを小さな局所エリアの周りにパラメータ化することにより、畳み込みを適用する。１つの手法は、球面ドメインにメッシュを投影し、この投影を「切り取る」ことによってＣＮＮを適用する。他の手法では、テクスチャ座標（又はＵＶ座標）を用いて、頂点位置を２Ｄ空間にマッピングする。このようにして、ネットワークは、２次元の特徴マップを予測することを学習するが、３次元座標を表現する。畳み込みニューラルネットワークは、頂点位置の空間コヒーレンスが変換空間において保持されることに起因して成功を収めている。他の手法では、透視投影又はスキャンからＵＶマップを生成している。出願人らの手法の少なくとも一態様は、完全なキャラクタリグを想定しているので、本明細書に開示される様々な実施形態は、アーティストによって作成されたＵＶマップ（又はＵＶ座標）を使用して、２Ｄ特徴空間から頂点位置を計算する。

ここで、本開示の様々な実施形態の特徴についてより詳細に説明する。

ポリゴンメッシュを有するキャラクタの顔面リグが与えられると、｜Ｖ｜＝ｎ個の頂点を有するメッシュにおける頂点座標の集合をＶとする。ｐがキャラクタのリグパラメータを表し、パラメータを変形メッシュにマッピングするリグ関数をＶ＝ｒ（ｐ）とする。本開示の少なくとも１つの実施形態は、このリグ関数ｒ（ｐ）を近似することに向けられている。

少なくとも１つの実施形態によれば、近似の方法は、顔メッシュのアーティストが作成したテクスチャ座標

を利用する。近似は、入力リグパラメータが与えられて変形マップを生成する、ＣＮＮに依存することができる。

少なくとも１つの実施形態によれば、変形マップは、情報の３つのチャンネルを有する構成物（例えば、３Ｄ画像）である。説明の目的のために、変形マップは、３チャンネルの色情報を有するカラー画像と同様であると考えることが有益とすることができる。例えば、特定のピクセルについて、このようなカラー画像は、赤色色情報、緑色色情報、及び青色色情報を有することができる。同様に、少なくとも１つの実施形態によれば、変形マップは、特定の頂点について、ｘ座標情報、ｙ座標情報、及びｚ座標情報を有する。ｘ座標情報、ｙ座標情報及びｚ座標情報は、変形マップに対応する３Ｄ画像における頂点の位置に関するものである。

このように、変形マップは、複数のピクセル（例えば、３Ｄ画像の各ピクセル）の各々について、ｘ座標情報、ｙ座標情報、ｚ座標情報を保持する。メッシュの頂点に関して、特定の頂点の位置は、変形マップ内の何れかの特定のピクセルの位置と必ずしも一致しない可能性がある。従って、少なくとも１つの実施形態によれば、変形マップに基づいて頂点の位置を決定するために、その頂点に対応するテクスチャ座標を使用することができる。一例として、特定の頂点のテクスチャ座標を用いて、変形マップをサンプリングして、特定のピクセル（例えば、隣接するピクセル）を識別することができる。例えば、テクスチャ座標に基づいて、特定の頂点が、変形マップの２つの特定のピクセルのそれぞれの位置の間（例えば、中間の位置）に位置すると決定することができる。頂点の位置を決定するために、変形マップにおけるピクセル情報の加重和（例えば、２つのピクセルのｘ座標情報の加重和、２つのピクセルのｙ座標情報の加重和、２つのピクセルのｚ座標情報の加重和）を用いて、メッシュにおける頂点の位置に対するオフセットを決定することができる。

従って、変形マップは、メッシュ内の頂点位置を近似するために、テクスチャ座標でサンプリングされる。顔面リグの多くのパラメータは、メッシュの局所領域を変形させ、リグパラメータはメッシュに対する局所演算として見ることができる。設計上、ＣＮＮは、特徴マップに対して局所的な計算を行う。メッシュの局所的な情報がテクスチャ座標に保存されていると仮定すると、ＣＮＮはリグ関数を近似するのに最適な方法である可能性がある。

少なくとも１つの実施形態によれば、顔モデルの近似メッシュ変形を生成する方法は、粗い近似と微細な近似の２つの段階を含む（図３参照）。図３は、少なくとも１つの実施形態による近似モデルの図である。リグパラメータ３０２は、１又は２以上のメッシュセグメントの各々について変形マップを生成するニューラルネットワーク（例えば、畳み込みニューラルネットワーク）への入力として使用される。例えば、リグパラメータ３０２の１又は２以上は、変形マップ３０６を生成する１又は２以上の粗い近似モデル(coarse approximation models)３０４の畳み込みネットワークに入力される。別の例として、リグパラメータ３０２の１又は２以上は、変形マップ３２６を生成する微細近似モデル３２４における畳み込みネットワークに入力される。一態様において、リグパラメータ３０２は、モデルそのものではなく、モデルに影響を与えて変形マップを生成するのに使用される入力である。例えば、リグパラメータ３０２は、唇、眉毛、鼻などにおける動きを制御するための入力を含むことができる。

変形マップの各々について、テクスチャ座標空間における各頂点位置で変形マップの補間(interpolation)を行うことにより、頂点オフセットを抽出することができる。例えば、バイリニア補間(bilinear interpolation)を採用することができる。少なくとも１つの実施形態によれば、粗い近似モデル３０４によって生成された変形マップ３０６の各々に関して、頂点オフセットは、テクスチャ座標空間内の各頂点位置における変形マップのバイリニア補間を行うことによって抽出される。先に説明したように、特定の頂点は、変形マップ（例えば、変形マップ３０６の１つ）の２つのピクセルのそれぞれの位置の間（例えば、中間の位置）に位置することができる。頂点の位置を決定するために、変形マップ３６０のピクセル情報の加重和を使用することができる。例えば、２つのピクセルのｘ座標情報の平均、２つのピクセルのｙ座標情報の平均、及び２つのピクセルのｚ座標情報の平均は、メッシュ内の頂点位置のオフセットを決定するのに使用することができる。

加算器３１０において、抽出されたオフセットがメッシュ３１２の中立ポーズの頂点に加えられ、所望の変形に到達する。

バイリニア補間は、頂点オフセットを抽出するために採用され得る補間の形態の一例であるに過ぎない。他の形式の補間（例えば、キュービック補間）が採用され得ることは理解される。

粗い近似モデル３０４は、メッシュ３１２全体に対して動作することができる。対応する実行時間を短縮するために（例えば、粗い近似モデルがより速く実行されるように）、粗い近似モデル３０４は、低解像度の変形マップ（例えば、比較的低い解像度によって特徴付けられる変形マップ３０６）を出力する複数のＣＮＮを含む。その結果、変形の高周波のディテールが失われる可能性がある。

ディテールにおけるこのような損失に対処するために、少なくとも１つの特定の実施形態によれば、近似されたメッシュ変形は、微細近似モデル３２４を更に含む。微細近似モデル３２４は、より高い解像度の変形マップ（例えば、変形マップ３０６の解像度よりも高い解像度によって特徴付けられる変形マップ３２６）を出力するＣＮＮを含む。以下により詳細に説明するように、変形マップ３２６は、メッシュ３１２の全ての領域よりも少ない領域に適用される。例えば、変形マップ３２６は、メッシュ３１２の選択された領域のみに適用することができる。

例えば、微細近似モデル３２４によって生成された変形マップ３２６の各々に関して、テクスチャ座標空間における各頂点位置で変形マップの補間を実行することによって、頂点オフセットが抽出される。一般に、変形マップ３２６の構造は、変形マップ３０６を参照して先に説明した構造と同様とすることができる。同様に、変形マップ３２６に基づく頂点オフセットの抽出は、変形マップ３０６を参照して先に説明したものと同様とすることができる。また、変形マップ３０６を参照して先に説明したように、補間は、バイリニア、キュービック、又は他の適切な形式の補間とすることができる。この点に関して、多くても、全アクティブ頂点の特定のサブセット３０８を使用することができる。加算器３１４では、抽出されたオフセットが加算器３１０の出力に加えられる。加算器３１４の出力において、変形メッシュ３１６の頂点が提供される。

従って、微細近似モデル３２４は、メッシュ３１２の頂点の緻密領域のみに着目して、これらの高周波の変形を近似することができる。モデルの効率を更に向上させるために、少なくとも１つの更なる実施形態によれば、リグ関数内で剛体回転及び並進のみを受けるメッシュのセグメントが識別される。このような識別されたセグメントは、より複雑なＣＮＮ近似（例えば、粗い近似モデル３０４のＣＮＮベースの近似及び微細近似モデル３２４のＣＮＮベースの近似）の代わりに、より速い剛体近似で近似することができる。

図３は、粗い近似モデル３０４及び微細モデル３２４を含む近似モデルを示しているが、近似モデルは両方を含む必要はないことが理解される。例として、少なくとも１つの実施形態によれば、近似モデルは、１又は２以上の粗い近似モデル３０４を含むが、微細モデル３２４に類似するモデルを含まない。

ここで、粗い近似モデル３０４について、少なくとも１つの実施形態を参照してより詳細に説明する。顔メッシュ（例えば、図３のメッシュ３１２）は、複数のセグメントに分割することができ、これは、アーティストが作成した顔面リグによく見られることである。メッシュの各頂点は、１つのメッシュセグメントに割り当てられる。このように、各頂点は、１つのメッシュセグメントに割り当てられる。ｍは、メッシュセグメントの総数を示し、Ｖ_k及びＵ_kは、それぞれ、特定のメッシュセグメントｋに対する頂点位置の集合及びテクスチャ座標の集合を示す。本明細書では、複数のメッシュセグメントを有するメッシュを参照して特徴を説明するが、粗い近似モデル３０４は、セグメント化されていない顔面リグ上で動作することもできることは理解される。この状況では、ｍは１に等しく、メッシュ全体の全ての頂点は、ただ１つのセグメントに割り当てられることになる。

粗い近似モデル３０４は、最初に変形マップ３０６を生成することによって変形メッシュを計算することができ、ここで、１つの変形マップ３０６は、顔面リグ内の各メッシュセグメントに対して生成される。その後、頂点位置は、マップに基づいて計算することができる。メッシュセグメントｋについて、対応する関数Ｉ_k＝ｆ（ｐ；θ_k）は、リグパラメータｐ（例えば、リグパラメータ３０２）を所与として、メッシュセグメントについて変形マップを計算する。関数ｆは、複数の緻密層(dense layers)及び畳み込み層(convolutional layers)からなるニューラルネットワーク（例えば、ＣＮＮ）とすることができ、ニューラルネットワークは、θ_k（図３参照）によってパラメータ化することができ、ここでθ_kは、メッシュセグメントｋに対する最適モデルパラメータを表す。

図４Ａは、少なくとも１つの実施形態による粗い近似モデルのニューラルネットワークの一例を示す図である。図４Ａを参照すると、ニューラルネットワークは、緻密層４０２－１及び４０２－２と、畳み込み層４０４－１、４０４－２、４０４－３及び４０４－４とを含む。畳み込み層４０４－１、４０４－２及び４０４－３は３ｘ３カーネル(3x3 kernels)を使用し、最後の畳み込み層（畳み込み層４０４－４）は１ｘ１カーネルを使用する。最後の畳み込み層以外の全ての層は、リーキーなＲｅＬＵ活性化関数を使用し、最後の層には活性化関数は適用されない。非緻密層は全て画像平面において正方形である。

アップサンプリング(upsampling)は、最近傍補間によって達成することができる（図３参照）。頂点オフセットΔ_kは、テクスチャ座標Ｕ_kにてＩ_kによって計算された変形マップをサンプリングすることによって計算される。サンプリングは、△_k＝ｇ（Ｉ_k；Ｕ_k）と表され、頂点オフセットを出力（又は生成）する。各頂点は、単一のメッシュセグメントに割り当てられるので、フルメッシュの頂点オフセットは、△＝∪_{k∈{1,...,m}}△_kであるように、各セグメントに対するオフセットを連結することによって得ることができる。図３を引き続き参照すると、粗い近似は、メッシュ３１２の中立ポーズの頂点に頂点オフセットを加える（例えば、加算器３１０で）ことによって、メッシュの最終頂点位置を計算する。

近似モデルが与えられると、最適なモデルパラメータθｋを見つけるために、損失関数が定義される。少なくとも１つの実施形態によれば、近似された頂点位置における不正確さと、メッシュ上の顔面法線における不正確さの両方をペナルティとする損失関数が提案される。ターゲットメッシュＶ、及び近似された頂点オフセット△が与えられると、損失関数は、式（１）において以下のように定義することができる。

ここで、α_nは、ユーザが手動で調整することができるスケーリングファクターである。実験データに基づいて、α_n＝５のスケーリングファクターがうまく機能すると決定された。

式（１）の損失関数において、ｎ_iはメッシュＶにおける面ｉの法線を示し、

は頂点位置Ｖ⁰＋△とメッシュトポロジーにおける合計ｆ個の面を有する近似メッシュにおける面ｉの法線を示している。Ｌ１ロスは、より鮮明な特徴を生成する理由からＬ２ロスの代わりに使用される。リグパラメータ（例えば、図３のリグパラメータ３０２）から頂点オフセットの端部から端部へのマッピングは、中間変形マップの監視を必要とせずに学習される。更に、少なくとも１つの実施形態によれば、テクスチャ座標は、最適化されない。その代わりに、アーティストが作成した座標が信頼される。

粗い近似に関して、特定のメッシュのためのメッシュセグメントの例は、図８を参照して、後でより詳細に説明する。

粗い近似モデルは、別々のメッシュセグメント上で動作するので、モデルは、特定のメッシュセグメント間の境界及び／又は継ぎ目にわたって不連続性を生成する可能性がある。この潜在的な問題に対処する（例えば、最小化する）ために、誤差関数（例えば、式（１）の損失関数）は、不正確な面法線に強いペナルティを科し、メッシュセグメント境界に沿って滑らかな（又はよりスムーズな）結果を促すことができる。法線誤差にペナルティを与えることはまた、視覚的に邪魔又は気が散らす可能性のある低振幅、高周波の誤差を抑制する。

少なくとも１つの実施形態によれば、モデルのトレーニングを支援するために、各ネットワークは、リグパラメータのサブセット（例えば、リグパラメータのサブセット３０２）のみを備えることができる。サブセットは、近似されているメッシュセグメント内の何れかの頂点を変形させることができるリグパラメータ全てを含む。他の全てのリグパラメータ（例えば、出力に影響を与えない入力）は、ネットワークに入力されるパラメータから除外される。その結果、ネットワークは、どのパラメータを無視すべきかを学習する必要がなく、出力に影響を及ぼさない入力によって提供される（又は関連する）ノイズによって悪影響を受けることを回避することになる。

粗い近似モデルでは、計算の複雑さを低減するために、変形マップＩｋの解像度を意図的に小さく（又は比較的低く）維持している。しかしながら、テクスチャ座標空間において、メッシュの緻密領域の頂点は、小さな変形マップにおいて１ピクセル未満の間隔で離れて配置される（又は間隔をあける）ことができる。このような頂点に、肌の皺のような高周波の変形が生じた場合、粗い近似モデルでは、この変形を正確に再現できない可能性が高い。このような状況におけるボトルネックは、ＣＮＮによって出力されるマップ（例えば、粗い近似モデル３０４によって出力されるマップ３０６）の解像度である。この制限に対処するために、少なくとも１つの実施形態によれば、メッシュの特定の領域（例えば、頂点の緻密領域）に独占的に焦点を合わせるための微細モデル（例えば、微細近似モデル３２４）が提案される。

ここで、微細近似モデル３２４について、少なくとも１つの実施形態を参照してより詳細に説明する。

最初に、近似における大きな（又はより大きな）誤差の領域に対応する頂点のセットが識別される。微細モデルのための頂点選択については、後でより詳細に説明する。次いで、識別された各セットは、新しいメッシュセグメントとして定義される。このような新しいメッシュセグメント内の各頂点について、テクスチャ座標は、微細変形マップ（例えば、微細近似モデル３２４によって生成されたマップ３２６）の最大解像度を満たすようにスケーリングされる。粗い近似モデルと同様に、どの頂点も複数のメッシュセグメント（例えば、微細近似の目的のために定義される複数の新しいメッシュセグメント）に割り当てられることはない。

更に、メッシュ（例えば、図３のメッシュ３１２）の全ての頂点が、微細段階を参照して新しいメッシュセグメントに割り当てられるわけではない。例えば、高い近似誤差を有するメッシュの領域に位置する頂点のみが、新しいメッシュセグメントに割り当てられる。

図４Ｂは、少なくとも１つの実施形態による微細近似モデルのニューラルネットワークの一例を示す図である。図４Ｂを参照すると、ニューラルネットワークは、緻密層４１２－１及び４１２－２と、畳み込み層４１４－１、４１４－２、４１４－３、４１４－４、４１４－５及び４１４－６と、を含む。畳み込み層４１４－１、４１４－２、４１４－３、４１４－４、４１４－５は３ｘ３カーネルを使用し、最後の畳み込み層（畳み込み層４１４－６）は１ｘ１カーネルを使用している。最後の畳み込み層以外の全ての層はリークＲｅＬＵ活性化関数を使用し、最後の層には活性化関数は適用されない。非緻密層は全て画像平面上で正方形である。

ｍ′は微細段階における新しいメッシュセグメントの数を示し、Ｕ_k′は特定の新しいセグメントｋ′のための新しいテクスチャ座標を示す。粗い近似モデルに関して先に使用した表記法と同様に、新しいメッシュセグメントｋ′に対する微細近似モデルのサンプリングは、δ_k′＝ｇ（ｆ（ｐ；θ_k′ ^r）；Ｕ_k′′）と表すことができ、θ_k′ ^rは、新しいメッシュセグメントｋ′に対する最適モデルパラメータを示している。出力δ_k′は、新しいメッシュセグメントｋ′に関するメッシュ（例えば、図３のメッシュ３１２）内の頂点位置と粗いモデルの出力との間の残差を近似している。新しいメッシュセグメントの何れにも含まれない頂点については、微細近似はゼロに等しいと見なしてもよく、この微細近似のセットは、δ_m′+1＝０として定義することができる。粗い近似モデル（△として表記）においてフルメッシュについて得られた頂点オフセットと同様に、δは、出力の結合セットδ_k′を表すために使用することができる。微細モデル３２４は、粗い近似モデルを参照して先に説明したものと同じ（又は同様の）損失関数を使用してトレーニングことができ（式１参照）、ここで損失はＬ（Ｖ，△＋δ）として評価される。

微細近似に関して、特定のメッシュのための新しいメッシュセグメントの例は、図９を参照して後でより詳細に説明する。

少なくとも１つの実施形態によれば、微細モデルは、粗いモデルによって生成される変形マップに対してより高い解像度を特徴として備える変形マップを生成する。代替的に、メッシュ全体にわたってより高い解像度の微細モデルのみを適用し、粗い近似の使用を見送ることによって、全体の近似を実行することができる。しかしながら、メッシュ全体にわたって微細モデルを適用することは、解像度のグローバルな増加のため、及び微細モデルがより深いネットワークを使用するため（例えば、図４Ｂに例示される微細モデルにおけるより多くの畳み込みネットワークを参照）、はるかに高い計算コストになるであろう。

次に、微細モデルのための頂点選択について、少なくとも１つの実施形態を参照してより詳細に説明する。

微細化(refinement)に使用される頂点セットを識別するために、粗い変形マップの解像度及び各メッシュセグメントのテクスチャ座標を所与として、各頂点の最小近似誤差を推定することができる。次に、各頂点の近似誤差の推定値で重み付けを行い、テクスチャ座標のクラスタリングを行う。各クラスタに近い頂点は、微細モデルの対応するメッシュセグメントとなる。一方、クラスタセントロイドから遠い（又は遠い）位置にある頂点は、微細ステージから省かれる。

最小の近似誤差は、最初に頂点位置をテクスチャ座標を通して変形マップにマッピングし、次に頂点位置を生成するために座標で変形マップをサンプリングすることによって推定することができる（サンプリングされた頂点位置）。マップは、テクスチャ座標からピクセル座標の値を補間することにより、線形カーネルを有するポリハーモニック補間によって計算することができる。頂点位置は、変形マップからバイリニア補間によって計算される。ｖｉは元の頂点位置を表し、

は変形マップからサンプリングされた頂点位置を表すことができる。ｎ個のサンプル集合Ｖｉ＝｛ｖ_i ¹，ｖ_i ²，．．．，ｖⁿ _i）に対して、近似誤差は以下の式（２）で表されるように推定することができる。

次に、ｋ－ｍｅａｎｓクラスタリングは、対応する近似誤差ｅ_iで重み付けした各頂点でテクスチャ座標に対して行う。クラスタ数は、エルボー法(elbow method)で決定することができる。ここで、各頂点は、ユーザが指定した距離まで最も近いクラスタセントロイドに割り当てられる。実施された実験では、頂点は、元のテクスチャ座標空間の幅の１／４の長さを有する正方形内に割り当てられ、クラスタ平均を中心にされた。この手法は、テストされたキャラクタに対してうまく機能した。粗い近似と同様に、これらの新しいメッシュセグメントに含まれる何れかの頂点を変形させることができるリグパラメータのセットを計算することができる。各微細モデルには、それらの特定の入力パラメータのみを提供することができる。

次に、計算量の少ない剛体近似の特徴について、少なくとも１つの実施形態を参照して説明する。

キャラクタの顔において、個々の歯のような剛体的に動くメッシュのセクションが存在することができ、ここで、所定の歯の頂点は、単一のユニットとして一緒に動くと考えることができる。テストしたキャラクタでは、各歯を個別のセグメントとしてモデル化した。リグにおける各歯の変形は、回転及び並進として表せるので、各歯のＣＮＮモデルで線形変換を近似すると、不要な計算が発生することになる。その代わりに、図５に示されるように、近似されたメッシュの近くの頂点から線形変換を計算することによって、剛体移動を推定することができる。

図５は、少なくとも１つの実施形態による剛体近似の一例を示す図である。三角形５０２は、剛体メッシュセグメント(rigid mesh segment)、例えば、後で提示される式（３）によって識別される剛体メッシュセグメントを表す。線５０４は、非線形に変形したメッシュセグメントを表し、線５０４上のドットは、表面上の頂点を表す。特に、ドット５０６は、例の大きなセットにわたって三角形５０２の剛体変換に最もよく一致する式（４）により識別される頂点のセットを表す。変形ポーズにおける非線形セグメント５０４上の頂点の位置と同様に、静止ポーズが与えられると、変換Ｒ、ｔは、ドット５０６によって表される頂点から計算される。

次に、変形されたポーズにおけるその位置を計算するために、三角形５０２に変換が適用される。各剛体メッシュセグメントは、ＣＮＮモデルによって近似された頂点の部分集合に割り当てられる。次いで、これらの剛体セグメントの運動は、ＣＮＮ近似から頂点の対応するサブセットの運動を最もよく説明する剛体変換を解くことによって推定される。少なくとも１つの実施形態によれば、計算が近似の結果に依存するため、剛体変換は、粗い近似及び微細近似が評価された後に計算される。

メッシュの剛体変換セグメントを特定するために、顔面リグの作者によって提供される全てのｋ個のメッシュセグメントが考慮される。次に、ｎ個のメッシュ変形例Ｖ＝｛Ｖ¹，Ｖ²，．．．，Ｖⁿ｝の集合を収集する。メッシュが静止ポーズＶ⁰であるとき、頂点位置Ｖ_k ⁰をＶ_k ⁱに剛体変換する際の近似誤差は、以下の式（３）で表されるように計算される。

式（３）は、サンプルｉのメッシュセグメントｋに剛体回転Ｒ_k ⁱと並進ｔⁱ _kを適用したときの頂点位置の差を示す。サンプル間の誤差

が平均化される。次いで、ｅ_k＜τとなるような剛体変換したメッシュセグメントを特定することができる。実施した実験では、τ＝０．３ｍｍという値を用いた。

Ｖ_r ⁱは、試料ｉの剛体変換したメッシュセグメント（すなわち、ｅ_r＜τ）を表することができる。Ｒ_r ⁱ及びｔⁱ _rは、式（３）の最小化器(minimizers)を表することができる。Ｐは、剛体変換されたセグメントに含まれないメッシュの頂点インデックスの集合を示すことができる。各頂点ｊ∈Ｐについて、全てのサンプルｉにわたる変換Ｒ_r ⁱ，ｔⁱ _rの下での近似誤差は、以下の式（４）を用いて計算される。

剛体メッシュセグメントｒに対して、Ｖ_δ ⁰とＶⁱ _δは、｜Ｖ_δ ⁰｜＝ｃとなる最小の近似誤差∈_r,jを有する頂点の集合を示すことができる。実施した実験では、ｃ＝１０という値が選ばれた。メッシュＶ′_Pの非線形変形された頂点が与えられると、剛体メッシュセグメントｒの頂点位置は、Ｖ_r′＝Ｖ_r ⁰Ｒ′_δ＋ｔ′_δとして近似することができ、Ｒ′_δ及びｔ′_δは頂点位置Ｖ′_δに対する式（３）の最小化因子となる。

ここで、粗い近似モデル及び微細な近似モデルの実装を、少なくとも１つの実施形態を参照してより詳細に説明する。

粗い近似及び精緻化段階のためのそれぞれのモデルｆ（ｐ；θ_k）及びｆ（ｐ；θ_k′ ^r）の全ては、畳み込み層に続く一連の緻密層を有する深いニューラルネットワークとして実装することができる。図４Ａ及び４Ｂは、それぞれ、粗い近似モデルのニューラルネットワークの一例と、微細近似モデルのニューラルネットワークの一例とを示している。ネットワークは、２つの段階にわたってトレーニングされる。第１段階では、式（１）で表される損失Ｌ（Ｖ，Δ）を最小化するように粗い近似に対応するパラメータθｋがトレーニングされる。これらのモデルは、Ａｄａｍｏｐｔｉｍｉｚｅｒでトレーニングされる（ＤｉｅｄｅｒｉｋＫｉｎｇｍａａｎｄＪｉｍｍｙＢａ．２０１４Ａｄａｍ：ＡＭｅｔｈｏｄｆｏｒＳｔｏｃｈａｓｔｉｃＯｐｔｉｍｉｚａｔｉｏｎ。ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＬｅａｒｎｉｎｇＲｅｐｒｅｓｅｎｔａｔｉｏｎｓ（１２２０１４）を参照））を用いて、著者らが提案する運動量パラメータを用い、バッチサイズを８とする。学習率を１０^-3として最適化を開始する。モデルが収束した後、学習率は１０^-4に下げられる。再び収束した後、学習率を１０^-5に下げ、もう一度収束するまで実行する。粗い近似からのパラメータθ_kが完全に最適化されると、これらは一定に保たれ、第２段階で、微細モデルパラメータθ_k′ ^rが損失Ｌ（Ｖ、Δ＋δ）を伴って最適化される。微細モデルの最適化には、同じ（又は類似の）ハイパーパラメータとトレーニングスケジュールが使用される。

近似モデルのトレーニングにより、剛体メッシュセグメント（式（３）参照）及び各剛体メッシュセグメントに割り当てられた頂点の集合（式（４）参照）は、元のリグ関数を用いて計算される。モデル評価時に、粗いモデルと微細モデルが評価された後に、剛体変換が計算される。近似された頂点位置は、回転行列と並進ベクトルを計算するのに使用され、これらは、結果として近似されたメッシュ変形を作成するために剛性メッシュセグメントに適用される。

少なくとも１つの実施形態による顔面近似モデルをトレーニングするために、大規模なトレーニングデータセットが必要とされる場合がある。トレーニングデータは、リグパラメータｐとリグ関数Ｖ＝ｒ（ｐ）によって出力される変形メッシュの頂点位置のペア（ｐ、Ｖ）からなる。トレーニングデータを生成するために、既存のアニメーションは、乗法性ノイズで増強することができ、アニメーションデータに見られる共通のポーズがトレーニングデータに過剰に反映されることを防ぐために、データバランシングを適用することができる。

Ａは、トレーニングアニメーションからのポーズのセットを示すことができ、ｍは、各ポーズにおけるリグパラメータの数を示すことができる。トレーニングセットは、以下の式（５）に基づいて表記することができる。

ここで、ｕ∈Ｒ_mは、各成分が［０．２５，３．０］の範囲内で一様にランダムに描かれた乱数値のベクトルを示し、ｐはポーズの集合Ａから一様にランダムに描かれたものである。演算

はベクトルの成分ごとの乗算を表す。実験では、｜Ｔ｜＝５０，０００個のサンプルをトレーニングセットとして生成した。図６は、トレーニングデータＴからのポーズ例を示す図である。

トレーニングセットが生成された後、データのバランスが取られる。トレーニングデータは、既存のアニメーションから生成することができ、中立的な表情などの特定の表情が、データ中の他のポーズよりも頻繁に出現する可能性がある。このデータセットを用いてトレーニングされたモデルは、頻繁に発生する表情に過剰に適合する場合があり、他のタイプの表情を近似するときにパフォーマンスが低下する可能性がある。少なくとも１つの実施形態によれば、トレーニングの例は、ビンにソートされ、ビンを一様にランダムにピッキングし、次にビン内のサンプルを一様にランダムにピッキングすることによって、ランダムサンプルが描かれる。

データをビンに分割するために、口、目、鼻などの主要な顔の特徴の周りのランドマーク頂点の小さなセットは、手動でラベル付けすることができる。例えば、今回の実験では、各キャラクタに対して、おおよそ２０～３０個の目印となる点を手動で特定した。各ポーズｐⁱ∈Ｔに対して、変形メッシュのランドマーク頂点Ｖ_l ⁱの位置が収集された。このランドマーク位置の集合｛Ｖ_l ¹，Ｖ_l ²，．．．，Ｖ_l ^|T|｝を１次元空間に射影するために主成分分析（ＰＣＡ）が用いられる。この１次元空間は、投影されたデータの範囲に沿って、同じ長さの区間に分割される。次いで、サンプルはその区間に沿ってビンに分類される。トレーニング用のサンプルを抽出する際には、一様にランダムにビンを選択し、そのビンから一様にランダムにサンプルを選択する。実施した実験では、データを１６ビンに分割した。

制作用の顔キャラクタリグは、通常、リグパラメータ∂Ｖ／∂ｐに対する頂点位置の勾配を計算することが難しく、非常に時間がかかるような方法で構築されている。少なくとも実施形態によって本明細書に記載される近似モデルを使用すると、勾配の推定が可能になり、ディープラーニングライブラリにおいて一般的な機能である自動微分によって問題にならない可能性がある。この勾配の１つの有用な用途は、逆運動学においてであり、リグパラメータは、ユーザが指定した制御点位置に一致するようにメッシュを最適に変形させるように推定される。

逆運動学の一般的な解決策は、これを反復最適化問題として定式化する。これらのタイプの解決策は、最適なリグパラメータに収束する前に、複数の勾配評価を必要とする。近似モデルを使用して∂Ｖ／∂ｐを推定することができるが、反復最適化方法のためにモデルを介して複数回勾配を計算することは、リアルタイムで実行するにはあまりにも多くの計算を必要とする。代わりに、少なくとも１つの実施形態によれば、フィードフォワードニューラルネットワークが開示される。フィードフォワードニューラルネットワークは、ＩＫ制御点を入力として取り、対応するリグパラメータを出力する。トレーニング中、ネットワークは、近似勾配を利用するが、新しい入力で評価する際に∂Ｖ／∂ｐを必要としない。その結果、フィードフォワードネットワークは、より容易にリアルタイムで所望のリグパラメータを計算することができる。

次に、フィードフォワードニューラルネットワークのモデルについて、少なくとも１つの実施形態を参照して説明する。

Ｃは、ＩＫ制御点に対応する頂点のインデックスの集合を示すことができ、ｒ_C（ｐ）：Ｒ^m→Ｒ^|C|×3は、リグパラメータｐを頂点の部分集合Ｖ_Cに写像するリグ関数を示すことができる。その結果、逆運動学問題は、以下の式（６）で表すことができる。

ここで、

はユーザから提供された目標制御点を表す。ｒｉｇ関数ｒは微分できないという仮定に起因して、

と表記され、ｒｉｇ関数を近似値に置き換える。更に、最小化問題を反復アルゴリズムで解く代わりに、フィードフォワードネットワークｆ_IK：Ｒ^|C|×3→Ｒ^mを導入し、固定長の計算で最小化問題を近似し、以下となる。

ここで、θ_IKはトレーニングを必要とするネットワーク・パラメータを表す。モデルは、制御点及び頂点Ｖ_Cの特定のセットでトレーニングされ、頂点の何れかの異なるセットに対して新しいネットワークをトレーニングする必要がある場合がある。

モデルのトレーニングに使用される損失関数は、変形したメッシュが制御点に密接に一致することを保証するためのポイントマッチング成分と、不自然なポーズを作り出す大きなリグパラメータを避けるための正則化成分の両方を含んでいる。この損失は、以下の式（８）で表される。

ここで、λ_reg∈Ｒはユーザ定義の正則化重みを表す。点マッチング損失（式（９）参照）は、推定されたポーズによって生成された点と、対応する制御点との間の距離を計算する。

正則化成分は、以下の式（１０）で表されるように、大きなパラメータ値にペナルティを与えるものである。

ここで、ｐ⁰はキャラクタのニュートラル表現、ｓ∈Ｒ^mは各リグパラメータの個別スケーリング値を表す。リグパラメータｉについて、スケールは、ｓ_i＝１／（ｐ_i,max－ｐ_i,min）で与えられ、ここでｐ_i,maxとｐ_i,minはそれぞれ、アニメーションデータＡにおけるリグパラメータｉの最大値と最小値である。各パラメータを別々にスケーリングすることで、各パラメータの値域の違いに関わらず、正則化が均等に適用される。更に、Ｌ１正則化損失を用いて、推定ポーズ(estimated pose)ｐのスパース性を促している。

理想的なＩＫ近似モデルｆ_IKは、特定のリグパラメータと制御点との間の誤った相関を学習しないようにする。例えば、ユーザがキャラクタの左目上の制御点を調整する場合、近似モデルは、口の周りの領域に関連するリグパラメータを変更することを避けるべきである。少なくとも１つの実施形態によれば、この特性は、ＩＫ近似モデルを複数のネットワークの組み合わせとして設計することによって達成される。制御点は、顔の領域に基づいて別々の集合に分割される。例えば、キャラクタの右目上の点の全てが１つのサブセットを定義し、口上の点の全てが別のサブセットを定義する。これらの点は、手動で分割することができる。

例えば、制御点はｋ個のサブセットに分割することができ、Ｃ_jは特定のサブセットｊ内の制御点を示すことができる。少なくとも１つの実施形態によれば、ＩＫ近似モデルは、合計で、ｋ個の別々のフィードフォワードネットワークで構成される。ネットワークｊへの入力は、制御点

の対応するサブセットであり、出力は、制御点に対応する頂点の何れかを変形させることができるリグパラメータのセットである。リグパラメータは、複数のモデルで推定することができる。この場合、最終的な推定値は、出力の平均値とすることができる。複数のネットワークによって予測されたリグパラメータの最終的な値を計算するために、より洗練された方法が使用され得ることが理解される。

しかしながら、実施された様々な実験で使用されたリグでは、値の平均化がうまく機能した。キャラクタの顔については、リグパラメータのごく一部がＩＫモデル間で共有することができる。共有されるパラメータに関して、これらのほとんど全ては、頭全体をつぶす又は伸ばすなど、顔の大きなスケール変形を制御する。これらの制御は、メッシュの全領域にわたって大きな変形を引き起こすので、メッシュの小さな部分の制御点に対してトレーニングされたＩＫモデルは、一般的に、この種のグローバルな変形に対するパラメータ値で合意することになる。従って、これらのパラメータを平均化するだけで、妥当な結果を得ることができる。

少なくとも１つの実施形態によれば、ＩＫ近似モデルの各ネットワークは、最初の２つの層における２５６のノードと最終層における｜Ｒ_j｜ノードとを有する３つの緻密層からなることができ、ここでＲ_jはＩＫモデルｊによって推定されるリグパラメータのセットを示す。リーキーＲｅＬＵ活性化関数は、第１層と第２層の後に適用される。また、最終層の出力には活性化が適用されず、リグパラメータを何れかの値で出力できるようになる。

図７は、少なくとも１つの実施形態によるＩＫモデルの図である。制御点７０２は、不連続なサブセットに分割され、別々の緻密なニューラルネットワークに提供される。例えば、制御点は、サブセット７０４－１（目領域に対応）、サブセット７０４－２（反対側の目領域に対応）及びサブセット７０４－３（鼻と口の領域に対応）に分割される。サブセット７０４－１の制御点は、緻密なニューラルネットワーク７０６－１に入力される。同様に、サブセット７０４－２の制御点は、緻密なニューラルネットワーク７０６－２に入力され、サブセット７０４－３の制御点は、緻密なニューラルネットワーク７０６－３に入力される。

ネットワーク７０６－１、７０６－２、７０６－３の各々は、ポーズのそれぞれのサブセットを出力する。例えば、ネットワーク７０６－１は、ポーズのサブセット７０８－１を出力する。同様に、ネットワーク７０６－２は、ポーズのサブセット７０８－２を出力し、ネットワーク７０６－３は、ポーズのサブセット７０８－３を出力する。出力からの有効値（出力サブセット７０８－１、７０８－２、７０８－３からの）は、最終的な平均化リグパラメータポーズ７１０を生成するために一緒に平均化される。顔面近似モデルと同様に、ＩＫモデルは、前述した同じトレーニングスケジュール及びバランスのとれたデータセットを使用して、Ａｄａｍで最適化することができる。

説明したように、ＩＫモデルは、リグ機能を通じて計算された変形メッシュからの制御点を使用してトレーニングされる。従って、トレーニングデータは、適切なリグパラメータと正確に一致させることができる制御点の例のみを含むことができる。しかしながら、ＩＫモデルの評価時に、ユーザが制御点を設定して、リグが制御点に正確にマッチングできない場合がある。このようなケースを考慮し、トレーニング中に制御点にノイズを追加することができる。トレーニングサンプルが

であるとき、新しいサンプルは、あるユーザ定義δ＞０に対して、

として計算される。この新しいデータ点は、各制御点の位置に一様にランダムなノイズを加えることによって作成することができる。実験データに基づくと、δ＝４ｍｍが妥当な結果をもたらすことが観察された。ＩＫモデルはこの新しいデータＶＣでトレーニングされるが、モデルトレーニングの他の全ての態様は同一（又は類似）のままであった。

次に、１又は２以上の実施形態による方法によって生成される結果をより詳細に説明する。

近似の１又は２以上の方法は、例えば、コンピュータアニメーションの映画制作で使用されるフィルム品質の顔面リグで動作する。リグは、自由形状成形システムと曲線ベースのポーズ補間システムとの組み合わせを通じて変形することができる。変形させるためのシステムは、対応するキャラクタのアートディレクション可能な顔面リギングを容易にするために、メッシュの粗いものから細かいものまでの制御のために層状にすることができる。リグは、顔面変形を計算するのに使用されるノードベースの計算グラフ－例えば、１０，０００以上のノードを有する計算グラフ－として実装することができる。ノードは、基本的な算術演算子及びスプライン補間など、様々な機能を実装している。リグシステムはまた、何れかのコードを実行することができるカスタムのノードをサポートする。

４つの顔面リグの例を参照しながら、結果を説明する。これらのリグのうち３つは、ヒカップ(Hiccup)、ヴァルカ(Valka)、トゥースレス(Toothless)に対して、長編「ハウ・トゥ・トレイン・ユア・ドラゴン：ザ・ハイドレッド・ワールド（ＨｏｗｔｏＴｒａｉｎＹｏｕｒＤｒａｇｏｎ：ＴｈｅＨｉｄｄｅｎＷｏｒｌｄ）」で使用された独自の顔面リグである。４つ目の顔面リグ例は、ＣＧＴａｒｉａｎＡｎｉｍａｔｉｏｎａｎｄＶＦＸＯｎｌｉｎｅＳｃｈｏｏｌで公開されている、公的に利用可能なオープンソースのキャラクタ、Ｒａｙからの顔面リグである。

近似の１又は２以上の方法の結果は、線形ブレンドスキニング（ＬＢＳ）近似及び本明細書に開示される近似モデルの緻密なフィードフォワードバージョンの結果に対して比較される。これらの比較に基づいて、開示される方法の１又は２以上は、ＬＢＳ近似において失われる高周波のディテールを保持しており、１又は２以上の開示される方法は、４つの例示的な顔面リグのうちの３つについて、緻密なバージョンによって生成される結果よりも正確である結果を生じることを観測することができる。更に、ＬＢＳ近似とは異なり、１又は２以上の開示されたモデルは、リグパラメータから変形メッシュへのマッピングを保持し、これは、元のリグ関数へのアクセスを必要とせずに新規のアニメーションを近似することを可能にする。

表１は、４つの例示的な顔面リグ上でトレーニングされた各モデルの統計値を示す。モデルは、キャラクタの髪又は眼球を近似するのに使用されなかった。しかしながら、モデルは、歯と同様に口の内部を近似するのに使用された。

表１

図８は、ヒカップ、ヴァルカ、及びトゥースレスの顔モデルのメッシュセグメントの例（例えば、粗いモデリングの際に使用されるメッシュセグメント）を示し、図９は、近似の微細段階（例えば、微細されたモデリング）の際に使用されるメッシュセグメントの例を示す図である。

より詳細には、実施例の１つのセットによれば、図８（ａ）はヒカップの顔モデルに対する粗いメッシュセグメント(coarse mesh segments)を示し、図８（ｂ）はヴァルカの顔モデルに対する粗いメッシュセグメントを示し、図８（ｃ）はトゥースの顔モデルに対する粗いメッシュセグメントを示している。各粗いメッシュセグメントは、同じ濃淡の連続した領域として表現される。例えば、図８（ａ）には、領域８０２、８０４－１、８０４－２、８０６、８０８が示されている。領域８０２は、ヒカップの顔のうち最も大きな領域に対応する。領域８０６は、ヒカップの口の内部に対応し、領域８０８は、ヒカップの頭皮に対応する。領域８０４－１及び８０４－２は、ヒカップの耳に対応する。

他の例として、図８（ｂ）は、領域８１２、８１４－１、８１４－２、８１６、及び８１８を示す図である。領域８０２は、ヴァルカの顔のうち最も大きな領域に対応する。領域８１６は、ヴァルカの口の内部に対応し、領域８１８は、ヴァルカの頭皮に対応する。領域８１４－１及び８１４－２は、ヴァルカの耳に対応する。

同様に、図８（ｃ）は、トゥースレスの顔モデルについて、粗い近似のためのセグメントに対応する領域を示す図である。

前述したように、図９は、近似の微細段階に使用されるメッシュセグメントの例を示している。図９に関して、実線パターンを用いて陰影付けされているように示されている領域は、微細モデルにおいて使用されていないセグメントを示す。

より詳細には、実施例の１つのセットによれば、図９（ａ）は、ヒカップの顔モデルに対する微細メッシュセグメント(refined mesh segments)を示し、図９（ｂ）は、ヴァルカの顔モデルに対する微細メッシュセグメントを示し、図９（ｃ）は、トゥースの顔モデルに対する微細メッシュセグメントを示している。各微細メッシュセグメントは、同じ濃淡の連続した領域として表現される。例えば、図９（ａ）は、領域９０２、９０４、９０６、及び９０８を示し、これらの各領域は、図８（ａ）の領域８０２に関する部分領域である。領域９０４は、ヒカップの額の領域に対応する。領域９０２は、第１の目の領域に対応し、領域９０６は、反対の目の領域に対応する。領域９０８は、ヒカップの鼻及び口の周辺領域に対応する。図８（ａ）に関して、実線パターンを用いて図示されている領域は、微細モデルにおいて未使用である（例えば、それ以上解析されない）セグメントに対応する。

別の例として、図９（ｂ）は、領域９１２、９１６及び９１８を示し、その各々は、図８（ｂ）の領域８１２に関する部分領域である。領域９１２は、第１の眼球領域に対応し、領域９１６は、隣接する眼球領域に対応する。領域９１８は、ヴァルカの鼻及び口の周辺の領域に対応する。図８（ｂ）に関して、実線パターンを用いて図示される領域は、微細モデルにおいて未使用である（例えば、それ以上解析されない）セグメントに対応する。

同様に、図９（ｃ）は、粗い近似のためのセグメントに対応するトゥースレスの顔モデルの領域を示している。

表１に記載された結果に戻って参照すると、緻密バージョン(dense version)は、開示された近似の方法よりも迅速に実行され、ある場合には、アーティストが作成したアニメーションを近似する際に、開示された方法よりも正確である。しかしながら、緻密な近似の高速化は、より多くの（例えば、より多数の）モデルパラメータを犠牲にするものであり、表１に見られるように、より高いメモリ記憶コストにつながる。緻密モデルが失敗すると、図１１のヒカップとヴァルカの顔メッシュに見られるように、変形したメッシュに目に見える望ましくないアーチファクトが発生する。これらのアーチファクトは、メッシュの表面上の高周波ノイズとして現れ、緻密な近似が各頂点の各成分を独立した出力としてモデル化することによって引き起こされるものである。対照的に、１つ又は実施形態による近似の方法は、ＣＮＮの使用を通じてメッシュ内の局所近傍をモデル化し、近似における不正確さは、緻密な近似におけるように高周波ノイズとして現れる可能性がより低い。更に、開示された近似の方法は、全てのキャラクタについて逆運動学を通じて生成されたポーズに関して、緻密な近似よりも正確である。

開示された近似方法の精度を、ＬＢＳモデル及び畳み込み層の代わりに完全接続層を有する密なフィードフォワードネットワークの精度と比較した。ＬＢＳの重みとボーンの変換は、ＬｅとＤｅｎｇの方法（ＢｉｎｈＨｕｙＬｅａｎｄＺｈｉｇａｎｇＤｅｎｇ，ＳｍｏｏｔｈＳｋｉｎｎｉｎｇＤｅｃｏｍｐｏｓｉｔｉｏｎｗｉｔｈＲｉｇｉｄＢｏｎｅｓ．ＡＣＭＴｒａｎｓ．Ｇｒａｐｈ．３１，６，Ａｒｔｉｃｌｅ１９９（Ｎｏｖ．２０１２））を用いた。また、各メッシュセグメントに対して、緻密モデルをトレーニングし、頂点のオフセットを近似させるとともに、個別のネットワークをトレーニングした。各モデルには各々２５６ノードの２つの隠れ層が含まれ、最後の出力層はメッシュセグメントの各頂点のオフセットを生成した。この緻密なネットワークは、変形マップの解像度による制約を受けなかったので、追加の微細モデルはトレーニングしなかった。しかしながら、剛体セグメントは、前述した剛体近似手法を用いて変形させた。この緻密モデルは、ＳｔｅｐｈｅｎＷ．Ｂａｉｌｅｙ，ＤａｖｅＯｔｔｅ，ＰａｕｌＤｉｌｏｒｅｎｚｏ，ａｎｄＪａｍｅｓＦ．Ｏ′Ｂｒｉｅｎ。２０１８。ＦａｓｔａｎｄＤｅｅｐＤｅｆｏｒｍａｔｉｏｎＡｐｐｒｏｘｉｍａｔｉｏｎｓ。ＡＣＭＴｒａｎｓ。Ｇｒａｐｈ。３７，４，Ａｒｔｉｃｌｅ１１９（Ｊｕｌｙ２０１８）によって説明された手法に最も近いものである。この方法に関して、緻密モデルの主な違いは、緻密なニューラルネットワークを適用する前に、顔のメッシュがボーンのセットによって線形変形されないということである。

各キャラクタについて、リグについて利用可能な全てのアニメーションを収集し、データを９０％／１０％でそれぞれトレーニングデータとテストデータに無作為に分割した。トレーニングデータは、式（５）に従ってトレーニングセットのポーズのみを使用して生成することができる。Ｒａｙのリグの場合、既存の顔アニメーションを利用することができない。このため、各ポーズのリグパラメータを、ユーザが指定した値の範囲をカバーする一様分布から独立にサンプリングして、トレーニングデータ及びテストセットを作成した。このランダムサンプリング法は、他のキャラクタリグのメッシュ変形がより複雑なため、その近似モデルをトレーニングする際には機能しない。本明細書で開示される近似モデル及び緻密モデルをトレーニングするために、各キャラクタについて５０，０００個のサンプルを生成した。ＬＢＳモデルでは、１６，２４，及び３２のボーンをメッシュにフィットさせ、各頂点に８つの非ゼロ重みを有するようにした。また、頂点の重みを推定するために、１，０００個のサンプルを生成した。また、メモリと計算機の制約から、より少ないトレーニング例を使用した。

ヒカップ、ヴァルカ、トゥースレスのテストセットは、テストデータからトレーニングで使用されなかったユニークなポーズを全て取り出すことにより構築される。表２では、頂点位置誤差（単位：ｍｍ）と顔面法線誤差（単位：度）の両方を測定した。頂点位置誤差は、テストセット全体の近似頂点位置と目標頂点位置の距離の平均値である。
顔面法線誤差は、メッシュ内の近似顔面法線と目標顔面法線との間の角度である。
具体的には

ここで、ｎ_iはグランドトゥルースメッシュにおける顔ｉの法線、ｎ′_iは合計ｆ個の顔を持つ近似メッシュにおける顔ｉの法線であることを示す。

表２

表２に示す結果によれば、ほとんどの近似が平均してサブミリメータ精度を達成している。しかしながら、平均的な頂点位置の誤差は、近似の細かいスケールのディテールの精度を示す良い指標ではない。図２は、皺を含むトゥースレスのポーズに対する近似変形を示し、図１０は、皺を含むヒカップのポーズに対する近似変形を示している。また、図１０（ａ）は、比較のため、ヒカップのメッシュに額の皺があるグランドトゥルースを示している。図１０（ｂ）及び１０（ｃ）は、それぞれ、１又は２以上の開示された実施形態による額の皺の微細な近似及び粗い近似に基づく近似された変形を示す図である。図１０（ｄ）は、ＬＢＳ近似に基づく近似変形を説明する図である。

表２に示すように、緻密な近似は、ヒカップ、ヴァルカ、及びＲａｙについて最小の法線誤差を生成する。しかしながら、トゥースレスでは緻密モデルが最も小さい誤差を生成している。このように誤差が小さいことは、粗い近似及びＬＢＳ近似と比較して、微細な近似及び緻密な近似は、変形したメッシュの微細なディテールを再現できることを示している。図１１は、正規誤差を可視化したサイドバイサイド比較を示す図である。図１１は、オリジナルのリグ関数を介して評価されたグランドトゥルースメッシュとリグ近似法の差異を視覚的に示す図である。各近似の右半分のヒートマップは、近似上の法線ベクトルとグランドトゥルースメッシュ上の対応する法線との間の角度を視覚化したものである。角度の誤差は小さいほど好ましい。

本明細書に開示された近似モデルは、ＴｅｎｓｏｒＦｌｏｗを使用してＰｙｔｈｏｎで実装された。これらの実行時間は、ＣＰＵとＧＰＵの両方を使用するハイエンドマシンとコンシューマー品質のラップトップの両方で評価された。ハイエンドマシンでは、２．６０ＧＨｚで動作する２８スレッドのＩｎｔｅｌＸｅｏｎＥ５－２６９７ｖ３プロセッサと、ＮＶＩＤＩＡＱｕａｄｒｏＫ５２００ＧＰＵが使用された。ノートパソコンには、２．８０ＧＨｚで動作する８スレッドのＩｎｔｅｌＣｏｒｅｉ７－７７００ＨＱプロセッサとＮＶＩＤＩＡＧｅＦｏｒｃｅＧＴＸ１０６０を使用した。剛体セグメントの回転は、式（３）をＳＶＤで最小化することにより計算した。ＧＰＵで完全近似を評価する場合、ＴｅｎｓｏｒＦｌｏｗのＧＰＵ上でのＳＶＤの実装が遅いため、この最小化問題はＣＰＵで解かれた。モデルのトレーニング時間は、オリジナルのリグ評価エンジンによるトレーニングデータの生成に２～４時間、その後、粗い近似モデルのトレーニングに２～３時間、微細近似モデルのトレーニングに２～３時間という構成であった。

本明細書に開示された近似モデルのタイミングを、ヒカップ、ヴァルカ、及びトゥースレスのオリジナルのリグ評価ソフトウェアと比較した。これらの３つのキャラクタのリグは、マルチスレッドのリグ評価エンジンであるＬｉｂｅｅ用に設計されたものである。キャラクタアーティストは、これらのリグをエンジン上でできるだけ高速に実行できるように最適化した。様々な実施形態を参照して本明細書に開示された方法とは異なり、ＬｉｂｅｅはＣＰＵ上でのみキャラクタリグを評価することができる。表３は、ＣＰＵとＧＰＵの両方で実行されるＬｉｂｅｅと本明細書に開示された方法を使用した評価時間を示している。開示されたモデルは、単一のポーズに関する１，０００回の評価にわたる平均実行時間を取ることによって計時した。

表３は、ハイエンドマシンとコンシューマー品質のマシン(consumer-quality machine)の両方における平均評価時間をミリ秒単位で示したものである。粗い近似は、粗いモデルと剛体変換を評価することで、時間が短縮される。完全近似は、粗いモデル、微細モデル、剛体変換を評価することで、時間を計測している。また、ニューラルネットワークはＧＰＵで評価し、剛体コンポーネントは常にＣＰＵで評価することを明記している。

表３

表３に示す結果から、本明細書で開示す近似モデルは、オリジナルのリグ評価エンジンに比べて５～１７倍の速度で動作することがわかる。ハイエンド機の場合、モデルが単一のポーズで評価され、且つ畳み込みが低解像度の特徴マップ上で動作するため、ＧＰＵでは近似がより遅く実行される。このように、ＧＰＵを十分に活用できていないため、性能が低下していることがわかる。更に、コンシューマー品質マシンのＧｅＦｏｒｃｅＧＰＵは、ハイエンドデスクトップのＱｕａｄｒｏＧＰＵよりも近似モデルを高速に評価していることがわかる。この差は、Ｑｕａｄｒｏのクロック速度がＧｅＦｏｒｃｅＧＰＵに比べて遅いことに起因していると考えられる。

少なくとも１つの実施形態による本明細書に開示される近似方法は、リグパラメータを変形メッシュにマッピングする微分可能なモデルを提供し、これはＩＫアプリケーションに使用することができる。このような近似方法の使用のデモンストレーションは、次に、インタラクティブポージングアプリケーション及び顔面ランドマークベースのパフォーマンスキャプチャシステムを参照して説明される。

最初に、インタラクティブポージングアプリケーションについて、より詳細に説明する。

リアルタイムのポージングアプリケーションが開発され、ここではユーザが制御点の疎のセットを操作し、様々な実施形態を参照して先に開示されたＩＫモデルが、制御点に一致するようにメッシュを変形させるリグパラメータを計算する。ユーザは、画面上でポイントをドラッグし、メッシュはインタラクティブに更新される。制御点は、２Ｄ画像座標としてシステムに提供される。ＩＫモデルは、メッシュを画像平面に投影することで点に一致するようにトレーニングされ、式（９）の点損失項を画像座標の距離で表現する。メッシュは、カメラをＺ軸に向けた正投影により画像平面に投影される。従って、画像座標上の距離は、頂点位置のＸ座標とＹ座標のみで計算することができる。

ＩＫモデルのトレーニングは、近似モデルのトレーニングに使用したのと同じ拡張データセットから生成されたメッシュで行われる。元のリグ関数からメッシュを生成する時間を除くと、トレーニングには１～２時間かかっている。

開示された近似の方法を、緻密なニューラルネットワークの手法と比較した。リグ近似ｒ-（ｐ）として粗い方法と微細な方法の両方を用いてＩＫモデルをトレーニングさせた。実施した実験において、Ｈｉｃｃｕｐ、Ｖａｌｋａ、及びＲａｙの緻密なモデルからの勾配でトレーニングされたＩＫモデルでは、緻密近似が露骨な視覚的アーチファクトを伴う非常に不正確な変形を生成するポーズを生成する。Ｔｏｏｔｈのリグについては、緻密な近似法から得られる勾配を用いてトレーニングしたＩＫモデルから生成したポーズを使用して、緻密モデルを評価した。このモデルを評価するために、ユーザが生成した２５個の制御点構成を収集した。これらの制御点構成は、元のリグと正確に一致する保証はない。次に、ＩＫモデルは、制御点に対するリグパラメータを計算する。最後に、近似法を使用してメッシュを生成し、同じリグパラメータで評価したオリジナルのリグ関数を使用して、グランドトゥルースメッシュを生成する。近似したメッシュとグランドトゥルースメッシュの頂点間距離誤差とフェース間法線誤差を測定した。トゥースレスについては、近似モデルに、その勾配でトレーニングさせたＩＫモデルから生成したポーズを与えている。ヒカップ、ヴァルカ、及びＲａｙについては、近似モデルと緻密モデルの両方が、本明細書に開示された方法から勾配に対してトレーニングされたＩＫモデルから生成されたポーズを供給される。

表４に見られるように、本明細書に開示される方法は、ＩＫモデルによって出力されたリグパラメータ上で評価されたグランドトゥルースメッシュとより密接に一致する。表４は、ｍｍと度で測定されたポージング誤差を示す。トゥースレスについては、ＩＫモデルは対応する近似からの勾配を使用してトレーニングされる。ヒカップ、ヴァルカ、及びＲａｙについては、ＩＫモデルは、１又は２以上の実施形態による方法からの勾配を用いてトレーニングされ、本明細書に記載される手法及び密な方法の両方についてのリグパラメータを生成する。

表４

図１２は、幾つかの制御点配置の例について、グランドトゥルースメッシュと近似変形を並べて比較したものである。ＩＫモデルを通じて計算されたリグパラメータによって変形されたメッシュの比較が示されている。ドット１２０２は、ＩＫに提供された制御点を表す。

ヒカップ、ヴァルカ、及びトゥースレスについて、開示された近似と緻密な近似との間の精度のより大きな差は、ＩＫモデルによって出力されたポーズの種類によって説明することができる。ＩＫモデルは教師なし設定でトレーニングされ、モデルによって出力されるポーズの分布は、トレーニングデータからのポーズの分布と正確に一致しない。そのため、ＩＫモデルが出力するポーズの中には、元のトレーニングデータとは異なるポーズもある。これらのポーズでより高い精度が得られたことは、開示された近似モデルが緻密モデルよりも新しいポーズに汎化することを示唆している。Ｒａｙの結果は、この結論を更に支持するものである。ＲａｙのＣＮＮモデルと緻密モデルの両方は、一様にランダムにサンプリングされたポーズでトレーニングされる。ＩＫモデルによって出力されるどのポーズも、この分布のどこかに含まれることになる。この結果からわかるように、ＲａｙのＣＮＮと緻密モデルの平均近似誤差は、一様にランダムなポーズの集合（表２参照）及びＩＫモデルによって出力されたポーズの集合（表４参照）で評価した場合、どちらも同程度であることがわかる。

次に、顔面ランドマークを用いたパフォーマンスキャプチャシステムについて、より詳細に説明する。

リアルタイム単眼顔パフォーマンスキャプチャシステムは、ビデオ録画をアニメーションシーケンスにマッピングするための微分可能なリグに依存している。ある文献では、単眼顔面トラッキングにおける現在の手法のサーベイを提供している。俳優の外見とアニメーションのキャラクタの外見は一致しないため、開発したシステムでは、顔のランドマーク点の疎なセットを追跡することでキャラクタをアニメーション化する。俳優の顔のランドマークを追跡するために、Ｚｈｅｎ－ＨｕａＦｅｎｇ，ＪｏｓｅｆＫｉｔｔｌｅｒ，ＭｕｈａｍｍａｄＡｗａｉｓ，ＰａｔｒｉｋＨｕｂｅｒ，ａｎｄＸｉａｏｊｕｎＷｕ，ＷｉｎｇＬｏｓｓｆｏｒＲｏｂｕｓｔＦａｃｉａｌＬａｎｄｍａｒｋＬｏｃａｌｉｓａｔｉｏｎｗｉｔｈＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ．２０１８ＩＥＥＥ／ＣＶＦＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（２０１７），２２３５－２２４５に記載されている方法の実装を使用した。このモデルは、その手法で説明したのと同じデータセットでトレーニングされた。開発された顔追跡システムでは、データセットから６８個のランドマーク点のうち５４個が使用された。顔モデル上の対応する点は、手動で識別した。

メッシュをアニメーション化するために、録画で検出されたランドマークの動きを追跡し、ＩＫモデルを使用して、新しいランドマーク構成に一致するために必要なリグパラメータを推定した。俳優の顔のプロポーションは、アニメーションのキャラクタと異なる可能性があるため、俳優の表情と俳優のニュートラルポーズとの差を追跡した。そして、この差分をＩＫモデルの制御点に適用する。具体的には、ニュートラルな表情の俳優の画像上で検出されたランドマーク点をｌ０とし、現在の俳優の表情における検出ランドマーク点の座標をｌとする。そして、ＩＫモデルに与えられる制御点ｃは、ニュートラルな表情におけるメッシュの制御点位置をｃ０とすると、ｃ＝ｃ０＋ｌ－ｌ０として計算される。図１３は、録画からのフレームと、入力から得られる変形メッシュを示す図である。図１３では、開発された顔面パフォーマンスキャプチャの一例を示している。入力画像上で顔のランドマークが検出される。このランドマーク情報はＩＫモデルに渡され、ＩＫモデルがリグパラメータ値を計算する。そして、リグパラメータは、開示された近似モデルに渡され、変形されたターゲットメッシュを生成する。

少なくとも１つの実施形態による本明細書に開示される方法は、フィルム品質の顔面リグの高速（又はより高速）且つ正確（又はより正確）な近似を提供する。このような近似に基づいて、ボーンベースの近似がこのようにすることができない場合、細粒のメッシュ変形のディテールを保存することができる。更に、開示される方法は、微分可能なリグ近似を提供することができ、これは、キャラクタリグのための広範な潜在的な新規アプリケーションを可能にする。例として、リアルタイムＩＫベースのポージング方法と、ＩＫソルバーの上に構築されたパフォーマンス顔面キャプチャシステムとが記載された。更に、一度モデルがトレーニングされると、メッシュの変形を評価するために元のリグ関数を必要としなくなる可能性がある。近似は、オープンソースの機械学習ライブラリを用いて実装することができるので、モデルは、顔面リグを構築するために最初に使用された複雑な又は専用ソフトウェアを必要とせずに、多くの異なるシステム上でより容易に分散及び配備することができる。従って、本明細書に開示される近似モデルは、元のリギングソフトウェアに依存することなく顔面リグを共有することができる共通の形式を提供する。更に、近似モデルパラメータは、モデルが共有されるときに、キャラクタを作成するのに使用される基礎的なリギング技術が隠されるように、リグの難読化の一形態と見なすことができる。

従って、本明細書に開示される方法は、顔面リグが構築されたアプリケーション及び／又はメソッドに不可知とすることができる。例えば、特定のリグは、Ｍａｙａリグとすることができるし、特定のスタジオ又は企業にとって独占的であるアプリケーションで構築されたリグとすることができる。本明細書に開示される近似モデルによれば、顔面リグをオリジナルのリギングソフトウェアに依存することなく共有できるような、共通フォーマットが提供される。ここで、共通フォーマットは、モデルが何れかの特定のリグ上でトレーニングされるときに得られるモデルパラメータを含むことができる。このように、顔面リグを近似する共通フォーマットを異なるデジタルコンテンツ作成（ＤＣＣ）アプリケーション及び／又はツール間でより容易に移動及び／又は共有することができるような、相互運用性レベルを達成することができる。

少なくとも１つの実施形態による本明細書に開示される方法は、畳み込み層に基づいて構築されるので、モデルは、必ずしも単一のメッシュトポロジーに制限されない。あるメッシュでトレーニングされた近似モデルは、トレーニング中に見られない新規のメッシュを変形させることができる。新しいメッシュにおける顔の特徴のテクスチャ座標が元のメッシュのテクスチャ座標と一致する限り、近似リグは新しい顔のメッシュに転送することができる。この場合、近似モデルは同じ入力リグパラメータセットを使用して変形マップを出力する。新しいメッシュのための頂点オフセットは、新しいメッシュに対応する新しいテクスチャ座標で変形マップをサンプリングすることによって計算される。図１４は、粗い近似モデルの１つのメッシュセグメントを、異なるトポロジーを有する新しいメッシュ上に転送する例を示す。この例では、テクスチャ座標を元のメッシュの座標に手動で位置合わせする。例えば、図１４は、異なるトポロジーを有する新しいメッシュに転送されたヒカップの剛体近似を示す。粗い近似からの単一のメッシュセグメントが、右の新しいメッシュに適用される。右の顔のメッシュは、自由に利用できるＭａｔｈｉｌｄａＲｉｇのものである。

少なくとも１つの実施形態による近似方法は、ワールド座標系における頂点のオフセットを出力する。その結果、メッシュの顔のプロポーションが元のモデルと大きく異なる場合、新しいメッシュに適用される変形は望ましくないように見えるかもしれない。近似モデルによって出力されるオフセットの異なるパラメータ化は、この問題を軽減するのに役立ち、本明細書に開示される方法が、近似をあるリグから著しく異なる比率を有する顔のメッシュに転送することを可能にすることができる。

本明細書に記載される実施例では、頂点法線は、別々に計算され、近似モデルの一部として考慮されない。しかしながら、特定のリアルタイムアプリケーションでは、変形されたメッシュから法線を再計算することは、計算時間を節約するために回避される。開示された手法では、頂点法線を近似する実験は行われませんでしたが、この手法は法線を近似するために容易に拡張することが可能である。変形マップの３つのチャンネルを出力する代わりに、ネットワークは法線方向に対して追加のチャンネルを出力することができ、正確な法線ベクトルを出力するためにモデルをトレーニングするために追加の損失項を含めることができる。中間的な特徴マップの解像度が低いため、この手法は、頂点又は顔の法線を近似するためにのみ適切であろう。法線マップ又はアンビエントオクルージョンマップのような他の高解像度マップは、他の手段を使用して作成する必要がある可能性がある。

少なくとも１つの実施形態では、変形マップから頂点オフセットに補間するために、各キャラクタリグに提供されるテクスチャ座標が使用された。これらの座標は、テクスチャをメッシュ表面にマッピングするためにうまく機能するが、本明細書に開示される実施形態による近似方法にはうまく適合しない可能性がある。例えば、キャラクタの口の上唇と下唇のテクスチャ座標は、互いに近接している可能性がある。下唇の頂点は、口が開いたときに上唇から遠く離れて移動することができる。テクスチャ座標が十分に近い場合、両方の唇の頂点は変形マップの同じピクセルに位置する可能性がある。その場合、口が開いたときに唇がくっついたように見えるので、不正確な変形になる。このような問題を回避するために、既存のテクスチャ座標に依存するのではなく、この近似タスクのために特別に新しい変形マップ座標を生成することができる。

図１５は、少なくとも１つの実施形態による顔モデルのメッシュ変形を生成するための方法１５００のフローチャートである。

ブロック１５０２において、第１の複数の変形マップは、第１の複数のニューラルネットワークトレーニングモデルを適用することによって生成される。

少なくとも更なる実施形態において、第１の複数のニューラルネットワークトレーニングモデルの各々は、畳み込みニューラルネットワーク（ＣＮＮ）モデルを含む。

例えば、図３を参照すると、変形マップ３０６は、粗い近似モデル３０４を適用することによって生成される。粗い近似モデル３０４の各々は、ＣＮＮモデルを含むことができる。

ブロック１５０４において、第１の複数の頂点オフセットは、第１の複数の変形マップに基づいて抽出される。

少なくとも更なる実施形態において、第１の複数の頂点オフセットを抽出するステップは、複数の頂点位置で第１の複数の変形マップのうちの少なくとも１つの変形マップの補間を実行するステップを含む。補間は、バイリニア補間又はキュービック補間を含むことができる。

例えば、図３を参照すると、変形マップ３０６に基づいて頂点オフセットが抽出される。抽出は、１又は２以上の頂点位置（例えば、ＵＶ座標）において、変形マップ３０６の少なくとも１つの補間を実行することを含むことができる。実行される補間は、バイリニア補間又はキュービック補間とすることができる。

ブロック１５０６において、第１の複数の頂点オフセットは、顔モデルのメッシュ変形を生成するために顔モデルのニュートラルメッシュに適用される。

少なくとも更なる実施形態において、第１の複数の頂点オフセットを顔モデルのニュートラルメッシュに適用するステップは、第１の複数の頂点オフセットをニュートラルメッシュの複数の頂点の値に追加するステップを含む。

例えば、図３を参照すると、頂点オフセットは、顔モデルのニュートラルメッシュ３１２に適用され、近似メッシュ変形３１６を生成する。頂点オフセットは、メッシュ３１２のニュートラルポーズの頂点に頂点オフセットを加える（例えば、加算器３１０で）ことによって適用することができる。

少なくとも更なる実施形態では、ブロック１５０８において、第２の複数の変形マップが、第２の複数のニューラルネットワークトレーニングモデルを適用することによって生成され、第２の複数の変形マップは、第１の複数の変形マップよりも大きい解像度を有する。

例えば、図３を参照すると、変形マップ３２６は、微細近似モデル３２４を適用することによって生成される。変形マップ３２６は、変形マップ３０６よりも大きい解像度を有する。

少なくとも更なる実施形態では、ブロック１５１０において、第２の複数の頂点オフセットが、第２の複数の変形マップに基づいて抽出される。

例えば、図３を参照すると、頂点オフセットは、変形マップ３２６に基づいて抽出される。抽出は、１又は２以上の頂点位置（例えば、ＵＶ座標）において変形マップ３２６の少なくとも１つの補間を実行することを含むことができる。実行される補間は、バイリニア補間又はキュービック補間とすることができる。

少なくとも更なる実施形態では、ブロック１５１２において、第２の複数の頂点オフセットは、顔モデルのニュートラルメッシュに適用され、顔モデルのメッシュ変形を生成する。

更に更なる実施形態では、第１の複数の頂点オフセットをニュートラルメッシュの全ての頂点の値に適用することによって、第１の複数の頂点オフセットがニュートラルメッシュに適用される。第２の複数の頂点オフセットは、メッシュ変形を生成するために、第２の複数の頂点オフセットをニュートラルメッシュの頂点の最大でも部分集合の値に適用することによって、ニュートラルメッシュに適用される。中立メッシュの頂点のサブセットは、特定の閾値以上である近似誤差のレベルを示す中立メッシュの１又は２以上の領域に対応することができる。

例えば、図３を参照すると、（変形マップ３２６に基づいて抽出された）頂点オフセットは、近似メッシュ変形３１６を生成するために顔モデルのニュートラルメッシュ３１２に適用される。

頂点オフセット（変形マップ３０６に基づいて抽出される）は、中性メッシュ３１２の全ての頂点の値にこれらの頂点オフセットを適用することによって、中性メッシュ３１２に適用することができる。頂点オフセット（変形マップ３２６に基づいて抽出される）は、近似メッシュ変形３１６を生成するために、これらの頂点オフセットを中立メッシュ３１２の頂点の最大でも部分集合の値に適用することによって、中立メッシュ３１２に適用することができる。中立メッシュ３１２の頂点のサブセットは、特定の閾値以上である近似誤差のレベルを示す中立メッシュの１又は２以上の領域に対応することができる。

少なくとも更なる実施形態において、第１の複数の頂点オフセットは、第１の複数の頂点オフセットを中立メッシュの複数の頂点の値に追加して、複数の中間頂点値(intermediary vertex values)を生成することによって、顔モデルの中立メッシュに適用される。第２の複数の頂点オフセットは、複数の中間頂点値の最大でもサブセットに第２の複数の頂点オフセットを追加することによってニュートラルメッシュに適用され、メッシュ変形を生成する。

例えば、図３を参照すると、（変形マップ３０６に基づいて抽出された）頂点オフセットは、複数の中間頂点値（例えば、加算器３１０の出力を参照）を生成するために、中性メッシュの複数の頂点の値に頂点オフセットを加算（例えば、加算器３１０で）することによって中性メッシュ３１２に適用される。頂点オフセット（変形マップ３２６に基づいて抽出される）は、近似メッシュ変形３１６を生成するために、複数の中間頂点値の最大でもサブセットに頂点オフセットを加える（例えば、加算器３１４で）ことによって、中立メッシュ３１２に適用される。

少なくとも更なる実施形態では、ブロック１５１４において、第１の複数の変形マップ及び第２の複数の変形マップに基づいて、変形中に剛体的に動く顔モデルの１又は２以上の剛体メッシュセグメントが識別される。１又は２以上の剛体メッシュセグメントの各々の別個の近似が実行される。

１又は２以上の剛体メッシュセグメントの各々の別個の近似を実行するステップは、剛体メッシュセグメントの頂点に対して剛体回転及び並進を実行するステップを含むことができる。

例えば、図５を参照すると、三角形５０２に対応する剛体メッシュセグメントが識別される。三角形５０２に対応するメッシュセグメントの別個の近似が実行される。図５を参照して、ライン５０４のドット５０６に対する剛体回転及び平行移動を実行することができる。

図１６は、少なくとも１つの実施形態による顔モデルの変形の近似を生成するための方法１６００のフローチャートである。

少なくとも更なる実施形態によれば、ブロック１６０２において、第１の複数の頂点及び第２の複数の頂点の手動定義が受け取られる。

例えば、図７を参照すると、制御点７０２の定義（サブセット７０４－１及びサブセット７０４－２を含む）が、ユーザから受け取られる。

第１の複数の頂点は、第１の複数の逆運動学（ＩＫ）制御点を含むことができ、第２の複数の頂点は、第２の複数のＩＫ制御点を含むことができる。

第１の複数のＩＫ制御点は、顔モデルの第１の領域に対応することができ、第２の複数のＩＫ制御点は、第１の領域に関して不連続である顔モデルの第２の領域に対応することができる。

例えば、図７を参照すると、サブセット７０４－１は、顔モデルの第１の目（例えば、右目）に対応する第１の領域に対応する第１の複数の逆ＩＫ制御点を含む。サブセット７０４－２は、顔モデルの第２の目（例えば、左目）に対応する第２の領域に対応する第２の複数の逆ＩＫ制御点を含む。

ブロック１６０４において、第１の複数の頂点は、第１のリグパラメータポーズを生成するために第１のネットワークに提供される。第１のネットワークは、第１の緻密なニューラルネットワークモデルを含むことができる。第１の緻密なニューラルネットワークモデルは、第１の複数の畳み込み層を含むことができる。

例えば、図７を参照すると、サブセット７０４－１の制御点は、サブセット７０８－１を生成するために、緻密なニューラルネットワーク７０６－１に入力される。

ブロック１６０６において、第２の複数の頂点は、第２のネットワークに提供され、第２のリグパラメータポーズを生成する。第２のネットワークは、第２の緻密なニューラルネットワークモデルを含むことができる。第２の緻密なニューラルネットワークモデルは、第２の複数の畳み込み層を含むことができる。

例えば、図７を参照すると、サブセット７０４－２の制御点は、サブセット７０８－２を生成するために、緻密なニューラルネットワーク７０６－２に入力される。

ブロック１６０８において、第１のリグパラメータポーズ及び第２のリグパラメータポーズは、合成リグパラメータポーズを生成するために処理される。合成リグパラメータポーズは、顔モデルの変形の近似に対応する。

第１のリグパラメータポーズ及び第２のリグパラメータポーズを処理するステップは、第１のリグパラメータポーズ及び第２のリグパラメータポーズの１又は２以上の平均値を生成するステップを含むことができる。

例えば、図７を参照すると、出力からの有効値（出力サブセット７０８－１、７０８－２を含む）は、最終的な平均化リグパラメータポーズ７１０を生成するために全体として平均化される。

本開示の実施形態を利用することにより、変形の正確な近似は、はるかに多くの時間及びコンピューティングリソースを必要とする元の変形関数と比較して、著しく少ない量のコンピューティングリソースを用いて、著しく少ない時間で達成することができる。本開示の実施形態は、特に、他の既知の変形技術と比較して、グランドトゥルース変形結果と比較した場合、より少ないコンピューティング時間ではるかに正確な結果を達成する。

ここで図１７を参照すると、本開示の様々な実施形態を実装又は組み込むことができる、コンピュータグラフィックス画像（ＣＧＩ）及びコンピュータ支援アニメーションを作成するためのシステム６００の簡略化されたブロック図が示されている。システム６００は、１又は２以上の端末６０１を含むことができる。１又は２以上の端末６０１は、ＣＧＩを設計し、コンピュータ支援アニメーションを支援するために構成されたハードウェア要素及びソフトウェア要素を含むことができる。端末６０１は、コンピュータハードウェア及び／又はソフトウェアに対応する、単一のコンピューティングデバイス又は１又は２以上のコンピューティングデバイスのセットとして実装することができる。

端末６０１の例は、デスクトップコンピュータ、ラップトップコンピュータ、ワークステーションコンピュータ、メインフレーム、クラスタコンピューティングシステム、クラウドコンピューティング端末、組み込みコンピューティングデバイス、コンピュータグラフィックスデバイス、ゲームデバイス及びコンソール、ビデオメディア再生デバイス、プログラマブルプロセッサを有する消費電子デバイス、又は同様のものとすることができる。１又は２以上の端末６０１は、プリプロダクション、モデリング、設計、作成、編集、シミュレーション、アニメーション、レンダリング、ポストプロダクション、仕上げ、出版などを含む制作プロセスの様々な段階で利用され、画像、画像シーケンス、動画、ビデオ、オーディオ、又はＣＧＩ及びアニメーションに関連する関連効果に関連するかもしくはこれらを含む記録物、コンピュータファイル、有形材料などを生成することができる。

システム６００の一例において、ユーザ６０２は、１又は２以上の端末６０１を利用して、端末６０１に関連するディスプレイ上に表示されるコンピュータ生成インタフェース内のオブジェクトを設計、作成、又は修正することができる。

端末は、オブジェクトライブラリ６０３、オブジェクトモデリングユニット６０４、オブジェクトリギングユニット６０５、オブジェクトアニメーションユニット６０６、オブジェクトレンダリングユニット６０７、及びオブジェクト照明ユニット６０８を含むシステム及びユニットを実装し、含み、又は他の方法で動作可能に通信することができる。オブジェクトライブラリ６０３は、ＣＧＩ及びアニメーションプロセスにおいてオブジェクトの３Ｄモデルを設計、作成、及び修正するために１又は２以上の端末６０１によってアクセス、要求、取得、及び／又は使用されるオブジェクトに関連する情報を格納及びアクセスするために構成されたソフトウェア及び／又はハードウェア要素を含むことができる。

オブジェクトモデリングユニット６０４は、ＣＧＩ及びアニメーションプロセス中にユーザ６０２、又は他の端末オペレータによって指示された所望の外観を取るために３Ｄモデルを彫刻及び設計するために、１又は２以上の端末６０１によってアクセス、要求、取得、及び／又は使用されるソフトウェア及び／又はハードウェア要素及び情報を含むことができる。

オブジェクトリギングユニット６０５は、３Ｄモデルの様々な要素のジョイント点及び動作範囲を定義するために、３Ｄモデルのコンポーネントを設計、作成、又は修正するために１又は２以上の端末６０１によってアクセス、要求、取得、及び／又は使用されるソフトウェア及び／又はハードウェア要素及び情報を含むことができる。

オブジェクトアニメーションユニット６０６は、アニメーションパス、キューなどを指定すること、又は３Ｄモデルのアニメーション動作のためのキーフレーム又は中間フレームを生成することなど、アニメーション中に時間経過とともに３Ｄモデルの様々な要素の動作及び位置を指定することを含む、３Ｄモデルのアニメーションアスペクトを設計、作成、又は修正するために１又は２以上の端末６０１によってアクセス、要求、取得、及び／又は使用するソフトウェア要素及び／又はハードウェア要素並びに情報を含むことができる。

オブジェクトレンダリングユニット６０７は、テクスチャ、色、リギング、制御などを含む１又は２以上のコンピュータ生成オブジェクトの１又は２以上の画像を生成することを含む、アニメーション３Ｄモデルの最終外観を設計、作成、又は修正するために１又は２以上の端末６０１によってアクセス、要求、取得、及び／又は使用されるソフトウェア及び／又はハードウェア要素及び情報を含むことができる。

オブジェクト照明ユニット６０８は、照明源、シェーディング、反射、屈折、テクスチャ、色などを定義することを含む、３Ｄモデル及びアニメーションシーンの照明態様を設計、作成、又は修正するために１又は複数の端末６０１によってアクセス、要求、取得、及び使用されるソフトウェア及び／又はハードウェア要素及び情報を含むことができる。

１又は２以上の端末６０１は、１又は２以上のデータストア（例えば、データベース、インデックス、ファイル、又は他のデータ構造）と動作的に通信していてもよい１又は２以上のサーバコンピュータと通信していてもよい。１又は２以上のサーバコンピュータは、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）（例えば、インターネット）、電話網、衛星又は無線通信ネットワーク、又はこれら又は同様のネットワークの幾つかの組み合わせを含むデータ通信ネットワークに接続することができる。

選択された実施形態において、１又は２以上のサーバコンピュータは、オブジェクトライブラリ６０３、オブジェクトモデリングユニット６０４、オブジェクトリギングユニット６０５、オブジェクトアニメーションユニット６０６、オブジェクトレンダリングユニット６０７、オブジェクト照明ユニット６０８などを含むアニメーションシステムの一つ以上のプロセス、システム、又はユニットを実装することができる。１又は２以上の端末６０１、１又は２以上のサーバコンピュータ、又はシステム６００の他の何れかの態様は、本開示の操作を表示、実行、実行、指示、レビュー、及び／又は選択するための表示されたインタフェースを含む、情報を表示すように構成されたディスプレイと関連又は結合することができる。

図１８を参照すると、例示的なコンピュータ１７００の例図が提供される。１又は２以上の端末６００又は１又は２以上のサーバコンピュータなど、図１７で上述したシステム６００の態様の１又は２以上は、このようなコンピュータ１７００として構成することができ、又はこのようなコンピュータを含むことができる。選択された実施形態では、コンピュータ１７００は、バス１７０３（又は複数のバス）又は他の通信機構、プロセッサ１７０１、メインメモリ１７０４、読み取り専用メモリ（ＲＯＭ）１７０５、１又は２以上の追加のストレージデバイス１７０６、及び／又は通信インタフェース１７０２、又はこのようなもの、又はその部分的組み合わせを含むことができる。本明細書に記載される実施形態は、１又は２以上の特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、デジタル信号処理デバイス（ＤＳＰＤ）、プログラマブル論理デバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、又は本明細書に記載の機能を果たすように設計された他の電子ユニット内、もしくはその選択的な組み合わせで実施することができる。全ての実施形態において、本明細書に記載される様々な構成要素は、単一の構成要素として実装することができ、又は代替的に、様々な別々の構成要素で実装することができる。

複数のこのようなバス又は機構を含むバス１７０３又は他の通信機構は、コンピュータ１７００内の情報の通信をサポートすることができる。プロセッサ１７０１は、バス１７０３に接続され、情報を処理することができる。選択された実施形態では、プロセッサ１７０１は、特定のタスクを定義する機械可読ソフトウェアコードを実行することによって、本明細書に開示された特徴及び態様に従って特定のタスクを実行するように構成された特殊又は専用のマイクロプロセッサとすることができる。メインメモリ１７０４（例えば、ランダムアクセスメモリ－ＲＡＭ－又は他の動的記憶装置）は、バス１７０３に接続され、プロセッサ１７０１によって実行される情報及び命令を記憶することができる。また、メインメモリ１７０４は、当該命令の実行中に一時的な変数又は他の中間情報を格納することができる。

ＲＯＭ１７０５又は他の静的記憶装置は、バス１７０３に接続され、プロセッサ１７０１のための静的な情報及び命令を記憶することができる。また、バス１７０３に追加の記憶装置１７０６（例えば、磁気ディスク、光ディスク、メモリカード等）が接続することができる。主記憶装置１７０４、ＲＯＭ１７０５、及び追加の記憶装置１７０６は、情報、命令、又はこれらの幾つかの組み合わせ、例えば、プロセッサ１７０１によって実行されると、コンピュータ１７００に本明細書に記載する方法の１又は複数の動作を実行させる命令を保持する非一時的コンピュータ可読媒体を含むことができる。通信インタフェース１７０２も、バス１７０３に接続することができる。通信インタフェース１７０２は、コンピュータ１７００と１又は２以上の外部デバイス（例えば、コンピューティング環境内に含まれる他のデバイス）との間の双方向データ通信を提供又はサポートすることができる。

選択された実施形態では、コンピュータ１７００は、ディスプレイ１７０７に（例えば、バスを介して）接続することができる。ディスプレイ１７０７は、コンピュータ１７００のユーザに情報を伝達するために、何れかの適切な機構を使用することができる。例えば、ディスプレイ１７０７は、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、プロジェクタ、又は他のディスプレイ装置を含み、又は利用して、視覚ディスプレイでコンピュータ１７００のユーザに情報を提示すことができる。１又は２以上の入力デバイス１７０８（例えば、英数字キーボード、マウス、マイク、スタイラスペン）は、情報及びコマンドをコンピュータ１７００に通信するためにバス１７０３に接続することができる。選択された実施形態では、１つの入力デバイス１７０８は、コンピュータ１７００によって提供され、ディスプレイ１７０７によって表示される様々なオブジェクト、ファイル、プログラムなどの選択及び実行を可能にするために、カーソルの位置決めに対する制御を提供又はサポートすることができる。

コンピュータ１７００は、１又は２以上のビデオファイルを送信、受信、デコード、表示、又は同様のことを行うために使用することができる。選択された実施形態では、このような送信、受信、デコード、及び表示は、プロセッサ１７０１がメインメモリ１７０４に含まれる１又は２以上の命令の１又は２以上のシーケンスを実行することに応答していてもよい。このような命令は、別の非一時的なコンピュータ可読媒体（例えば、記憶装置）からメインメモリ１７０４に読み込まれてもよい。

メインメモリ１７０４に含まれる命令のシーケンスの実行は、プロセッサ１７０１に、本明細書に記載される手順又はステップのうちの１つ又は複数を実行させることができる。選択された実施形態では、マルチプロセッシング配置における１又は２以上のプロセッサも、メインメモリ１７０４に含まれる命令のシーケンスを実行するために採用することができる。代替的に、又はそれに加えて、ファームウェアが、ソフトウェア命令の代わりに、又はソフトウェア命令に関連して使用され、本明細書に開示される特徴及び態様に従った手順又はステップを実施することができる。従って、本明細書に開示された特徴及び態様に従った実施形態は、ハードウェア回路及びソフトウェアの何れかの特定の組み合わせに限定されない場合がある。

非一時的なコンピュータ可読媒体は、プロセッサ１７０１による実行のための命令の保持に参加する、又はコンピュータによる処理のためのデータを格納する何れかの媒体を指すことができ、一時的な伝播信号が唯一の例外である、全てのコンピュータ可読媒体を含む。このような非一時的なコンピュータ可読媒体は、不揮発性媒体、揮発性媒体、及び一時記憶媒体（例えば、キャッシュメモリ）を含むことができるが、これらに限定されない。不揮発性媒体は、追加記憶装置のような光ディスク又は磁気ディスクを含むことができる。揮発性メディアは、メインメモリなどのダイナミックメモリを含むことができる。非一時的コンピュータ可読媒体の一般的な形態は、例えば、ハードディスク、フロッピーディスク、磁気テープ、又は他の何れかの磁気媒体、ＣＤ－ＲＯＭ、ＤＶＤ、Ｂｌｕ－ｒａｙ（登録商標）又は他の光学媒体、ＲＡＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＦＬＡＳＨ（登録商標）－ＥＰＲＯＭ、他の何れかのメモリカード、チップ、又はカートリッジ、又はコンピュータが可読な他の何れかのメモリ媒体を含むことができる。

選択された実施形態では、通信インタフェース１７０２は、ネットワークリンクへの、又はネットワークリンクを介した外部、双方向データ通信を提供又はサポートすることができる。例えば、通信インタフェース１７０２は、データ通信ネットワーク接続を提供する無線ネットワークインタフェースコントローラ又はセルラー無線機とすることができる。或いは、通信インタフェース１７０２は、互換性のあるＬＡＮへのデータ通信接続を提供するローカルエリアネットワーク（ＬＡＮ）カードで構成することができる。何れかのこのような実施形態において、通信インタフェース１７０２は、情報を伝達する電気信号、電磁信号、又は光信号を送受信することができる。

ネットワークリンクは、１又は２以上のネットワークを介して、他のデータ装置（例えば、システム６００に示されるような１又は２以上の端末６０１）へのデータ通信を提供することができる。例えば、ネットワークリンクは、ホストコンピュータのローカルネットワークを介して、又はインターネットサービスプロバイダ（ＩＳＰ）によって運営されるデータ装置への接続を提供することができる。ＩＳＰは、順番に、インターネットを通じてデータ通信サービスを提供することができる。従って、コンピュータ１７００は、１又は２以上のネットワーク、ネットワークリンク、及び通信インタフェース１７０２を介して、プログラムコードを含むコマンド、データ、又はこれらの組み合わせを送受信することができる。従って、コンピュータ１７００は、リモートサーバ、又はその幾つかの組み合わせとインタフェース又は他の方法で通信することができる。

本明細書で論じた様々な装置、モジュール、端末などは、上述したように、コンピュータ可読媒体から読み取られた機械命令からなるソフトウェアの実行によってコンピュータ上で実装することができる。特定の実施形態では、幾つかのハードウェアの態様は、単一のコンピュータを使用して実装することができ、他の実施形態では、複数のコンピュータ、入出力システム及びハードウェアが、システムを実装するのに使用することができる。

ソフトウェア実装(software implementation)の場合、本明細書に記載の特定の実施形態は、各々が本明細書に記載の機能及び操作の１又は２以上を実行する、手続き及び関数などの別々のソフトウェアモジュールで実装することができる。ソフトウェアコードは、何れかの適切なプログラミング言語で書かれたソフトウェアアプリケーションで実装することができ、メモリに格納され、コントローラ又はプロセッサによって実行されることができる。

上記の説明した実施形態及び特徴は、単に例示的なものであり、本発明を限定するものと解釈するべきではない。本発明の教示は、他のタイプの装置及びプロセスに容易に適用することができる。このような実施形態の記載は、例証を意図しており、特許請求の範囲を限定するものではない。多くの代替形態、修正形態、及び変形形態が当業者に明らかであろう。

３０２リグパラメータ
３０４粗い近似モデル
３０６変形マップ
３０８サブセット
３１０加算器
３１２メッシュ
３１４加算器
３１６変形メッシュ
３２４微細近似モデル
３２６変形マップ

Claims

顔モデルのメッシュ変形を生成するための方法であって、
第１の複数のニューラルネットワークトレーニングモデルを適用することにより、第１の複数の変形マップを生成するステップと、
前記第１の複数の変形マップに基づいて、第１の複数の頂点オフセットを抽出するステップと、
前記顔モデルのメッシュ変形を生成するために、前記第１の複数の頂点オフセットを前記顔モデルのニュートラルメッシュに適用するステップと、
を含む、方法。
前記第１の複数の頂点オフセットを抽出するステップは、前記第１の複数の変形マップのうちの少なくとも１つの変形マップの補間を複数の頂点位置で実行するステップを含む、請求項１に記載の方法。
前記補間は、バイリニア補間又はキュービック補間を含む、請求項２に記載の方法。
前記第１の複数の頂点オフセットを前記顔モデルのニュートラルメッシュに適用するステップは、前記第１の複数の頂点オフセットを前記ニュートラルメッシュの複数の頂点の値に追加するステップを含む、請求項１に記載の方法。
前記第１の複数のニューラルネットワークトレーニングモデルの各々は、畳み込みニューラルネットワーク（ＣＮＮ）モデルを含む、請求項１に記載の方法。
第２の複数のニューラルネットワークトレーニングモデルを適用することにより第２の複数の変形マップを生成するステップであって、前記第２の複数の変形マップは、前記第１の複数の変形マップよりも大きい解像度を有する、ステップと、
前記第２の複数の変形マップに基づいて、第２の複数の頂点オフセットを抽出するステップと、
前記顔モデルのメッシュ変形を生成するために、前記第２の複数の頂点オフセットを前記顔モデルのニュートラルメッシュに適用するステップと、
を更に含む、請求項１に記載の方法。
前記第１の複数の頂点オフセットを前記ニュートラルメッシュに適用するステップは、前記第１の複数の頂点オフセットを前記ニュートラルメッシュの全ての頂点の値に適用するステップを含み、
前記第２の複数の頂点オフセットを前記ニュートラルメッシュに適用するステップは、前記メッシュ変形を生成するために前記第２の複数の頂点オフセットを前記ニュートラルメッシュの頂点の最大でもサブセットの値に適用するステップを含む、請求項６に記載の方法。
前記ニュートラルメッシュの頂点のサブセットは、特定の閾値を超える近似誤差のレベルを示す前記ニュートラルメッシュの１又は２以上の領域に対応する、請求項７に記載の方法。
前記第１の複数の頂点オフセットを前記顔モデルのニュートラルメッシュに適用するステップは、複数の中間頂点値を生成するために前記第１の複数の頂点オフセットを前記ニュートラルメッシュの複数の頂点の値に追加するステップを含み、
前記第２の複数の頂点オフセットを前記ニュートラルメッシュに適用するステップは、前記メッシュ変形を生成するために前記第２の複数の頂点オフセットを前記複数の中間頂点値の最大でもサブセットに追加するステップを含む、請求項６に記載の方法。
前記第１の複数の変形マップ及び前記第２の複数の変形マップに基づいて、変形中に剛体的に移動する前記顔モデルの１又は２以上の剛体メッシュセグメントを識別するステップと、
前記１又は２以上の剛体メッシュセグメントの各々の別個の近似を実行するステップと、
を更に含む、請求項６に記載の方法。
前記１又は２以上の剛体メッシュセグメントの各々の別個の近似を実行するステップは、前記剛体メッシュセグメントの頂点に対して剛体回転及び並進を実行するステップを含む、請求項１０に記載の方法。
顔モデルのメッシュ変形を生成するためのシステムであって、
第１の複数のニューラルネットワークトレーニングモデルを適用することによって、第１の複数の変形マップを生成し、
前記第１の複数の変形マップに基づいて、第１の複数の頂点オフセットを抽出し、
前記顔モデルのメッシュ変形を生成するために、前記第１の複数の頂点オフセットを前記顔モデルのニュートラルメッシュに適用する、
ように構成された１又は２以上のコントローラを備える、
システム。
前記１又は２以上のコントローラは、複数の頂点位置で前記第１の複数の変形マップのうちの少なくとも１つの変形マップの補間を実行することによって、前記第１の複数の頂点オフセットを抽出するように更に構成される、請求項１２に記載のシステム。
前記補間は、バイリニア補間又はキュービック補間を含む、請求項１３に記載のシステム。
前記１又は２以上のコントローラは、前記第１の複数の頂点オフセットを前記ニュートラルメッシュの複数の頂点の値に加えることによって、前記顔モデルのニュートラルメッシュに前記第１の複数の頂点オフセットを適用するように更に構成される、請求項１２に記載のシステム。
前記第１の複数のニューラルネットワークトレーニングモデルの各々は、畳み込みニューラルネットワーク（ＣＮＮ）モデルを含む、請求項１２に記載のシステム。
前記１又は２以上のコントローラは、
第２の複数のニューラルネットワークトレーニングモデルを適用することによって第２の複数の変形マップを生成するように更に構成され、前記第２の複数の変形マップは、前記第１の複数の変形マップよりも大きい解像度を有し、
前記１又は２以上のコントローラは、
前記第２の複数の変形マップに基づいて、第２の複数の頂点オフセットを抽出し、
前記顔モデルのメッシュ変形を生成するために、前記第２の複数の頂点オフセットを前記顔モデルのニュートラルメッシュに適用する、
ように更に構成される、請求項１２に記載のシステム。
前記１又は２以上のコントローラは、前記第１の複数の頂点オフセットを前記ニュートラルメッシュの全ての頂点の値に適用することによって、前記ニュートラルメッシュに前記第１の複数の頂点オフセットを適用するように更に構成され、
前記１又は２以上のコントローラは、前記メッシュ変形を生成するために、前記第２の複数の頂点オフセットを前記ニュートラルメッシュの頂点の最大でもサブセットの値に適用することによって、前記ニュートラルメッシュに前記第２の複数の頂点オフセットを適用するように更に構成される、
請求項１７に記載のシステム。
前記ニュートラルメッシュの頂点のサブセットは、特定の閾値を上回る近似誤差のレベルを示す前記ニュートラルメッシュの１又は２以上の領域に対応する、請求項１８に記載のシステム。
顔モデルのメッシュ変形を生成するための機械実行可能命令を格納した機械可読な非一時的媒体であって、
前記命令は、
第１の複数のニューラルネットワークトレーニングモデルを適用することによって、第１の複数の変形マップを生成することと、
前記第１の複数の変形マップに基づいて、第１の複数の頂点オフセットを抽出することと、
前記顔モデルのメッシュ変形を生成するために、前記第１の複数の頂点オフセットを前記顔モデルのニュートラルメッシュに適用することと、
を含む、機械可読な非一時的媒体。