JP2023545200A

JP2023545200A - パラメータ推定モデルの訓練方法、パラメータ推定モデルの訓練装置、デバイスおよび記憶媒体

Info

Publication number: JP2023545200A
Application number: JP2023523272A
Authority: JP
Inventors: 小▲偉▼ ▲張▼; ▲鍾▼元胡; 更代 ▲劉▼
Original assignee: ビゴテクノロジーピーティーイー．リミテッド
Priority date: 2020-11-03
Filing date: 2021-10-22
Publication date: 2023-10-26
Also published as: EP4207079A1; WO2022095721A1; CN112529999A

Abstract

パラメータ推定モデルの訓練方法、パラメータ推定モデルの訓練装置、デバイスおよび記憶媒体を開示する。当該パラメータ推定モデルの訓練方法は、顔画像訓練セットにおける各訓練サンプルを予め構築されたニューラルネットワークモデルに入力し、３次元顔再構築に指定された再構築パラメータを推定し、再構築パラメータを予め構築された３次元モーファブルモデルに入力することにより、訓練サンプルに対応する３次元顔を再構築することと、３次元顔と訓練サンプルとの間の複数の２次元監視情報における複数の損失関数を計算し、各損失関数に対応する重みを調整することと、各損失関数および各損失関数に対応する重みに基づいてフィッティング損失関数を生成し、フィッティング損失関数を用いてニューラルネットワークモデルを逆補正することにより、訓練後のパラメータ推定モデルを得ることと、を含む。

Description

本出願は、２０２０年１１月０３日に中国特許庁に提出された出願番号２０２０１１２１１２５５.４の中国特許出願の優先権を主張し、その全ての内容は参照により本出願に援用する。

本出願は、画像処理技術の分野に関し、例えばパラメータ推定モデルの訓練方法、パラメータ推定モデルの訓練装置、デバイスおよび記憶媒体に関するものである。

動画技術の発展に伴い、顔画像表示のニーズがある顔アニメーション、顔認識や拡張現実（ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ、ＡＲ）などのエンターテインメントアプリケーションにおいてリアルな顔モデルの作成に対するニーズもますます高まっている。リアルな３次元顔モデルの作成は、非常に困難な作業であり、１枚以上の２次元顔画像または深度画像に対して、対応する３次元顔を再構築する必要があり、顔形状、色、照明、頭部の回転角度などの様々な３次元情報を含むようにする。

３次元顔の再構築方法では、通常、まず大量の顔の３次元スキャンデータを収集し、次に、当該３次元スキャンデータを用いて対応する３次元モーファブルモデル（３ＤＭｏｒｐｈａｂｌｅＭｏｄｅｌ、３ＤＭＭ）を構築し、このとき、当該３次元モーファブルモデルには、標準顔の平均顔形状、顔のアイデンティティ変化を表す主成分基底、および顔の表情変化を表す主成分基底が含まれ、次に、現在再構築されるべき２次元顔画像に基づいて２組の主成分基底に対応する再構築パラメータを推定し、当該再構築パラメータに基づいて２組の主成分基底を対応して調整することによって、当該平均顔形状に対して対応する変形を行い、これにより、対応する３次元顔を再構築する。

主成分基底に対応する再構築パラメータの推定には通常２つの方法がある。１つは、直接に２次元顔画像における特徴点の画素値を３次元顔の変形の監視情報として主成分基底に対応する再構築パラメータを推定する方法であるが、２次元画像から３次元再構築までは病的な問題であるため、特徴点の画素値のみを監視情報として、再構築パラメータの推定の正確性を保証することはできない。もう１つの方法は、現在再構築されるべき多視点２次元顔画像または深度情報を入力として利用して主成分基底に対応する再構築パラメータを推定することであるが、この方法では複数の顔画像を収集する必要があり、さらに特殊なセンサで深度画像を収集する必要があり、再構築シーンが制限され、再構築パラメータの収集要件が多すぎて、３次元顔再構築の作業が煩雑になってしまう。

本出願は、パラメータ推定モデルの訓練方法、パラメータ推定モデルの訓練装置、デバイスおよび記憶媒体を提供し、３次元顔再構築時に対応する再構築パラメータを推定するために用いられるパラメータ推定モデルの訓練方法を最適化し、３次元顔再構築時に用いられる再構築パラメータの推定の正確性を高め、３次元顔再構築の正確性を保証した上で、３次元顔再構築の作業複雑性を低減する。

本出願は、顔画像訓練セットにおける各訓練サンプルを予め構築されたニューラルネットワークモデルに入力し、３次元顔再構築に指定された再構築パラメータを推定し、前記再構築パラメータを予め構築された３次元モーファブルモデルに入力することにより、前記訓練サンプルに対応する３次元顔を再構築することと、
前記３次元顔と前記訓練サンプルとの間の複数の２次元監視情報における複数の損失関数を計算し、各損失関数に対応する重みを調整することと、
各損失関数および各損失関数に対応する重みに基づいてフィッティング損失関数を生成し、前記フィッティング損失関数を用いて前記ニューラルネットワークモデルを逆補正することにより、訓練後のパラメータ推定モデルを得ることと、
を含む、
パラメータ推定モデルの訓練方法に関する。

本出願は、顔画像訓練セットにおける各訓練サンプルを予め構築されたニューラルネットワークモデルに入力し、３次元顔再構築に指定された再構築パラメータを推定し、前記再構築パラメータを予め構築された３次元モーファブルモデルに入力することにより、前記訓練サンプルに対応する３次元顔を再構築するように構成される３次元再構築モジュールと、
前記３次元顔と前記訓練サンプルとの間の複数の２次元監視情報における複数の損失関数を計算し、各損失関数に対応する重みを調整するように構成される損失関数計算モジュールと、
各損失関数および各損失関数に対応する重みに基づいてフィッティング損失関数を生成し、前記フィッティング損失関数を用いて前記ニューラルネットワークモデルを逆補正することにより、訓練後のパラメータ推定モデルを得るように構成されるモデル訓練モジュールと、
を含む、
パラメータ推定モデルの訓練装置に関する。

本出願は、１つ以上のプロセッサと、
１つ以上のプログラムを記憶するように構成される記憶装置と、
を含み、
前記１つ以上のプログラムが前記１つ以上のプロセッサによって実行されるとき、前記１つ以上のプロセッサが上記したパラメータ推定モデルの訓練方法を実現する、
コンピュータデバイスに関する。

本出願は、コンピュータプログラムが記憶され、当該プログラムがプロセッサによって実行されるとき、上記したパラメータ推定モデルの訓練方法を実現するコンピュータ可読記憶媒体に関する。

本出願の実施例１によるパラメータ推定モデルの訓練方法のフローチャートである。本出願の実施例１によるパラメータ推定モデルの訓練プロセスの原理概略図である。本出願の実施例１による方法における３次元顔再構築プロセスの原理概略図である。本出願の実施例２によるパラメータ推定モデルの訓練方法のフローチャートである。本出願の実施例２による３次元顔再構築のための３次元モーファブルモデルの構造概略図である。本出願の実施例３によるパラメータ推定モデルの訓練方法のフローチャートである。本出願の実施例３によるパラメータ推定モデルの訓練プロセスの原理概略図である。本出願の実施例３によるキー特徴点を動的に選択する概略図である。本出願の実施例３によるキー特徴点の分布概略図である。本出願の実施例４によるパラメータ推定モデルの訓練装置の構造概略図である。本出願の実施例５によるコンピュータデバイスの構造概略図である。

以下、図面と実施例を参照して本出願を説明する。本明細書で説明される具体的な実施例は、本出願を説明するためにのみ使用される。説明を容易にするために、図面には本出願に関連するもののみが示されている。

実施例１
図１Ａは、本出願の実施例１によるパラメータ推定モデルの訓練方法のフローチャートであり、本実施例は、対応する再構築パラメータを推定する必要がある３次元顔再構築のいずれかの場合に適用可能である。本実施例によるパラメータ推定モデルの訓練方法は、本出願の実施例によるパラメータ推定モデルの訓練装置によって実行されてもよく、当該装置は、ソフトウェアおよび/またはハードウェアによって実現されることができ、本方法を実行するコンピュータデバイスに統合される。

図１を参照すると、当該方法は、以下のステップを含み得る。

Ｓ１１０では、顔画像訓練セットにおける各訓練サンプルを予め構築されたニューラルネットワークモデルに入力し、３次元顔再構築に指定された再構築パラメータを推定し、再構築パラメータを予め構築された３次元モーファブルモデルに入力することにより、訓練サンプルに対応する３次元顔を再構築する。

顔アニメーション、顔認識、拡張現実、及び顔の美肌補正などのシーンでは３次元顔再構築技術を応用する必要があり、３次元顔再構築とは、２次元顔画像を再構築する３次元幾何形状（ｓｈａｐｅ）、アルベド（ａｌｂｅｄｏ）、照明情報、頭部の回転角度などの複数の３次元情報を指し、ここで、３次元幾何形状は、１組の３次元空間における頂点から構成することができ、各頂点は、いずれも対応する３次元座標（ｘ、ｙ、ｚ）によって一意に確定されることができる。３次元顔再構築に対して、主に対応する３次元モーファブルモデルを予め構築し、当該３次元モーファブルモデルを用いて任意の２次元顔画像に対して３次元顔の形状と外見のモデリングを行い、任意の顔形状を１つの標準顔と１組の顔の形状変化及び表情変化を表す主成分ベクトルの線形結合の和として表すことができることを提案し、主成分ベクトルの異なる線形結合の形で、当該標準顔の平均顔形状に対して対応する変形及び顔表情の調整を行い、これにより、対応する３次元顔を再構築する。

本実施例では３次元顔再構築に指定された再構築パラメータとは、当該３次元モーファブルモデルが平均顔形状に対して変形及び顔表情の調整を行う際に、参照した主成分ベクトルの線形結合の形を表すことができる複数のパラメータ、及び３次元顔の迫真効果に影響するパラメータを指し、例えば、光照射パラメータ、顔位置、姿勢などが挙げられる。当該再構築パラメータにより、対応する変形及び顔の表情変化を行うように平均顔形状を制御することができ、これにより、対応する３次元顔を生成し、３次元顔における光照射状況や姿勢角度などの詳細な展示を改善することができる。以上から分かるように、再構築されるべき２次元顔画像に対する当該再構築パラメータの推定の正確性は、当該２次元顔画像の再構築に対応する３次元顔のリアルさに直接に影響することができ、したがって、再構築された３次元顔をよりリアルにするためには、再構築されるべき２次元顔画像から３次元顔再構築に指定された複数の再構築パラメータを正確に推定することが要求される。本実施例における再構築パラメータは、顔の形状変化を表す変形パラメータ、顔の表情変化を表す表情パラメータ、顔アルベド変化を表すアルベドパラメータ、顔の光照射変化を表す光照射パラメータ、顔の移動を表す位置パラメータおよび顔頭部の姿勢を表す回転パラメータなどを含み得る。ここで、当該アルベドパラメータには、再構築されるべき２次元顔画像の赤－緑－青（ＲｅｄＧｒｅｅｎＢｌｕｅ、ＲＧＢ）の色情報が含まれる。

選択肢の一つとして、任意の再構築されるべき２次元顔画像に対して３次元顔再構築に指定された複数の再構築パラメータを正確に推定することができるようにするために、本実施例では、ニューラルネットワークモデルを初歩的に構築し、この後、大量の顔画像サンプルを介して、当該ニューラルネットワークモデルに対してパラメータ推定訓練を行うことにより、３次元顔再構築に指定された再構築パラメータを正確に推定できるパラメータ推定モデルを訓練し、ここで、当該ニューラルネットワークモデルは、畳み込みニューラルネットワークを採用する。当該ニューラルネットワークモデルに対してパラメータ推定訓練を行う際に、まず対応する顔画像訓練セットを構築し、当該顔画像訓練セットには、当該ニューラルネットワークモデルの訓練サンプルとして、異なる出所と異なるタイプの顔画像が大量含まれている。図１Ｂに示されたように、顔画像訓練セットにおける各訓練サンプルを予め構築されたニューラルネットワークモデルに絶えず入力し、この後、当該ニューラルネットワークモデルによって、入力された訓練サンプルにおける顔特徴と標準顔の顔特徴を比較して分析し、標準顔から当該訓練サンプルにおける顔に変換する際に必要な複数の操作パラメータを判断することで、当該訓練サンプルが３次元顔再構築を行う際に必要な再構築パラメータの値を推定する。この場合、本実施例では、３次元モーファブルモデルが当該再構築パラメータを用いて当該訓練サンプルに対して３次元顔再構築を行なった後に再構築された３次元顔のリアルさを分析することにより、推定された再構築パラメータの正確性を判断することができる。

したがって、ニューラルネットワークモデルによって当該訓練サンプルが３次元顔再構築を行う際に用いられる再構築パラメータを推定した後、当該再構築パラメータを予め構築された３次元モーファブルモデルに入力し、当該３次元モーファブルモデルが当該再構築パラメータを用いて定義された標準顔に対して対応する変形、表情変化とアルベド変化を行い、かつ対応する３次元詳細展示情報を対応して調整することにより、当該訓練サンプルに対応する３次元顔を再構築し、この後、当該訓練サンプルと再構築された３次元顔との類似性を比較することで、再構築された３次元顔のリアルさを分析することができる。

Ｓ１２０では、３次元顔と訓練サンプルとの間の複数の２次元監視情報における複数の損失関数を計算し、各損失関数に対応する重みを調整する。

選択肢の一つとして、訓練サンプルにおける顔に対する再構築された３次元顔のリアルさを分析するために、本実施例では、対応する損失関数を予め設定し、当該損失関数によって、再構築された３次元顔と訓練サンプルとの類似度を比較する。本実施例における複数の２次元監視情報は、複数の２次元監視情報により、複数の監視次元における再構築された３次元顔と訓練サンプルとの類似性をより全面的に判断することができることを示し、複数の２次元監視情報における損失関数を設定することで、３次元顔の再構築誤差をできるだけ全面的に避けることができる。例示的に、本実施例では、複数の２次元監視情報における損失関数は、画像画素損失関数、キーポイント損失関数、アイデンティティ特徴損失関数、アルベドペナルティ関数、および前記３次元顔再構築に指定された再構築パラメータにおける目標再構築パラメータに対応する正則化項を含み得る。

訓練サンプルに対応する３次元顔が再構築された後、現在設定された複数の２次元監視情報における損失関数により、再構築された３次元顔と当該訓練サンプルとの間の各監視情報が存在する次元における再構築誤差、すなわち損失関数の値を計算することができ、さらに複数の損失関数の値に基づいて、再構築された３次元顔の各監視情報におけるリアルさを分析し、これにより、訓練後のニューラルネットワークモデルの各監視情報における推定の正確性を判断し、さらに、次の訓練時の推定能力を高めるように、各損失関数に対応する重みを対応して調整する。

例示的に、本実施例では、画像画素損失関数、キーポイント損失関数、アイデンティティ特徴損失関数、アルベドペナルティ関数、及び３次元顔再構築に指定された再構築パラメータにおける目標再構築パラメータに対応する正則化項をそれぞれ計算することにより、３次元顔再構築時の画像画素、キーポイント、アイデンティティ特徴、アルベド及び複数の再構築パラメータに対する現在の訓練プロセスの正確な再構築能力を明確に判断し、再構築能力に応じて複数の損失関数の重みを対応して調整し、訓練を継続し、これにより、３次元顔再構築時の再構築パラメータの推定能力を絶えず向上させる。

また、再構築された３次元顔が３次元顔画像のみを含む可能性があり、訓練サンプルには、顔画像に加えて、非顔画像の背景画面も表示されるので、３次元顔と訓練サンプルとの間の損失計算の正確性を保証するために、図１Ｂに示されたように、本実施例では、３次元顔と訓練サンプルとの間の複数の２次元監視情報における複数の損失関数を計算することの前に、微分可能レンダラーを使用して３次元顔をレンダリングすることにより、レンダリング後の３次元顔を用いてパラメータ推定モデルを訓練することも含むことができる。

微分可能レンダラーを使用して３次元顔をレンダリングすることで、レンダリング後の３次元顔のテクスチャと画面を訓練サンプルにより近づけることができ、この後、レンダリング後の３次元顔を使用してパラメータ推定モデルをより正確に訓練することができる。

Ｓ１３０では、各損失関数および各損失関数に対応する重みに基づいてフィッティング損失関数を生成し、フィッティング損失関数を用いてニューラルネットワークモデルを逆補正することにより、訓練後のパラメータ推定モデルを得る。

３次元顔と訓練サンプルとの間の複数の２次元監視情報における複数の損失関数を計算し、各損失関数に対応する重みを調整した後、各損失関数に対応する重みを利用して複数の２次元監視情報における複数の損失関数を統合することにより、対応するフィッティング損失関数を生成し、当該フィッティング損失関数をニューラルネットワークモデルの訓練プロセス全体の損失関数とし、次に、当該フィッティング損失関数を利用して訓練プロセス全体に従って逆伝播することにより、当該ニューラルネットワークモデルにおけるネットワークパラメータを修正し、そして、上記ステップに従って修正後のニューラルネットワークモデルを用いて、次の訓練サンプルによる３次元顔再構築時の再構築パラメータの推定を継続することにより、当該訓練プロセスを継続して実行し、当該ニューラルネットワークモデルを絶えず逆補正し、さらに最終的に訓練を完了したニューラルネットワークモデルを訓練後のパラメータ推定モデルとし、本実施例におけるフィッティング損失関数は、３次元顔を再構築する前に追加の３次元顔情報を参照することなく、複数の監視情報における２次元顔情報を利用するだけで、当該ニューラルネットワークモデルを絶えず逆補正し、訓練後のパラメータ推定モデルを得ることができ、これにより、３次元顔再構築において対応する再構築パラメータを推定するために用いられるパラメータ推定モデルの訓練方法を最適化し、複数の２次元監視情報における損失関数によってパラメータ推定モデルを訓練することで、訓練プロセスにおいて参照情報を更に全面的にして、３次元顔再構築時に用いられる再構築パラメータの推定の正確性を高める。

例えば、複数の２次元監視情報における損失関数が、それぞれ画像画素損失関数L_photometric、キーポイント損失関数L_landmark、アイデンティティ特徴損失関数L_perception、アルベドペナルティ関数L_box、及び３次元顔再構築に指定された再構築パラメータにおける目標再構築パラメータ（顔の形状変化を表す主成分ベクトルの調整パラメータα、顔の表情変化を表す主成分ベクトルの調整パラメータδ、顔アルベド変化を表す主成分ベクトルの調整パラメータβ及び光照射パラメータγ）に対応する正則化項であると、本実施例におけるフィッティング損失関数は以下のようになり、即ち、
ここで、λ_pは画像画素損失関数に対応する重みであり、λ_lはキーポイント損失関数に対応する重みであり、λ_idはアイデンティティ特徴損失関数に対応する重みであり、λ_bはアルベドペナルティ関数に対応する重みであり、λ_α、λ_β、λ_δ、及びλ_γは、それぞれ３次元顔再構築に指定された複数の再構築パラメータにおける目標再構築パラメータに対応する正則化項に対応する重みである。

訓練後のパラメータ推定モデルを得る場合、当該パラメータ推定モデルにより、任意の再構築されるべき２次元顔画像に対して３次元顔再構築を行う時の再構築パラメータを正確に推定することができるため、本実施例では、フィッティング損失関数を用いてニューラルネットワークモデルを逆補正し、訓練後のパラメータ推定モデルを得ることの後、再構築されるべき２次元顔画像をパラメータ推定モデルに入力し、３次元顔再構築に指定された再構築パラメータを推定し、再構築パラメータを予め構築された３次元モーファブルモデルに入力することにより、２次元顔画像に対応する３次元顔を再構築することをさらに含み得る。

再構築されるべき２次元顔画像の撮影サイズがそれぞれ異なるため、３次元顔再構築の正確性を保証するため、図１Ｃに示されたように、本実施例では、まず再構築されるべき２次元顔画像に対して顔検出を行うことにより、顔領域を含む２次元顔画像を切り抜き、そして、３次元顔再構築時の再構築パラメータの推定に対するパラメータ推定モデルの画像要件を満たすために、対応するサイズ（例えば２２４*２２４ピクセル）になるように切り抜きされた２次元顔画像をスケーリングし、さらに前処理された２次元顔画像を当該パラメータ推定モデルに入力し、当該パラメータ推定モデルによって、当該２次元顔画像が３次元顔再構築を行う際に必要な複数の再構築パラメータを正確に推定し、さらに当該再構築パラメータを予め構築された３次元モーファブルモデルに入力し、当該３次元モーファブルモデルは当該再構築パラメータを利用して定義された標準顔に対して対応する変形及び表情変化などを行い、対応する３次元詳細展示情報を調整し、これにより、当該２次元顔画像に対応する３次元顔を再構築し、再構築されるべき顔画像の３次元モーファブルモデルにおける変形プロセスをより正確にし、３次元顔再構築の正確性を保証し、３次元顔再構築プロセスに追加の情報機器を配置する必要がなくなり、３次元顔再構築の作業複雑性を低減する。

本実施例による技術案では、３次元顔再構築時に特に使用される複数の再構築パラメータに対して、対応するニューラルネットワークモデルを予め構築し、顔画像訓練セットにおける各訓練サンプルを当該ニューラルネットワークモデルに入力することにより、当該訓練サンプルが３次元顔再構築時に必要な再構築パラメータを推定し、当該再構築パラメータを予め構築された３次元モーファブルモデルに入力し、当該訓練サンプルに対応する３次元顔を再構築し、３次元顔と訓練サンプルとの間の複数の２次元監視情報における複数の損失関数を計算し、各損失関数に対応する重みを調整することによって、当該ニューラルネットワークモデルの訓練時のフィッティング損失関数を生成することができ、当該フィッティング損失関数は、３次元顔を再構築する前に追加の３次元顔情報を参照することなく、複数の監視情報における２次元顔情報を利用するだけで、当該ニューラルネットワークモデルを絶えず逆補正し、訓練後のパラメータ推定モデルを得ることができ、これにより、３次元顔再構築において対応する再構築パラメータを推定するために用いられるパラメータ推定モデルの訓練方法を最適化し、複数の２次元監視情報における損失関数によってパラメータ推定モデルを訓練することで、訓練プロセスにおいて参照情報を更に全面的にして、３次元顔再構築時に用いられる再構築パラメータの推定の正確性を高める。同時に、この後に訓練後のパラメータ推定モデルを用いて３次元顔再構築時の再構築パラメータを推定し、再構築されるべき顔画像の３次元モーファブルモデルにおける変形プロセスをより正確にし、３次元顔再構築の正確性を保証し、３次元顔再構築プロセスに追加の情報機器を配置する必要がなくなり、３次元顔再構築の作業複雑性を低減する。

実施例２
図２Ａは、本出願の実施例２によるパラメータ推定モデルの訓練方法のフローチャートであり、図２Ｂは、本出願の実施例２による３次元顔再構築のための３次元モーファブルモデルの構造概略図である。本実施例は、上記実施例を踏まえて説明するものである。

本実施例における３次元モーファブルモデルは、デュアル主成分分析（ＰｒｉｎｃｉｐａｌＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ、ＰＣＡ）モデルと単ＰＣＡモデルで構成され、図２Ｂに示されたように、当該デュアルＰＣＡモデルは、主に３次元顔再構築プロセスにおける顔外形及び表情の変化をモデリングするために使用され、当該単ＰＣＡモデルは、主に３次元顔再構築プロセスにおける顔アルベドの変化をモデリングするために使用される。

本実施例におけるデュアルＰＣＡモデルには、３次元平均顔、顔の形変化を表す第１の主成分基底および顔の表情変化を表す第２の主成分基底が定義され、
と表すことができ、
はデュアルＰＣＡモデルには定義された３次元平均顔であり、I_baseは顔の形変化を表す第１の主成分基底であり、E_baseは顔の表情変化を表す第２の主成分基底であり、αは再構築されるべき顔画像に対して３次元顔再構築を行う際に推定する必要がある第１の主成分基底の変化を示すための顔アイデンティティパラメータであり、δは、再構築されるべき顔画像に対して３次元顔再構築を行う際に推定する必要がある第２の主成分基底の変化を示すための顔表情パラメータである。

本実施例における単ＰＣＡモデルには、顔平均アルベド及び顔アルベド変化を表す第３の主成分基底が定義され、
と表すことができ、
は単ＰＣＡモデルには定義された顔平均アルベドであり、T_base
は単ＰＣＡモデルには顔アルベド変化を表す第３の主成分基底であり、βは再構築されるべき顔画像に対して３次元顔再構築を行う際に推定する必要がある第３の主成分基底の変化を示すためのアルベドパラメータであり、当該アルベドパラメータには、顔画像における複数の頂点のＲＧＢ色情報が含まれ、３次元顔再構築時の色再構築を実現する。

また、３次元顔再構築時の３次元詳細特徴を保証するために、顔の光照射変化を表す光照射パラメータγ、顔の移動を表す位置パラメータt、及び顔頭部の姿勢を表す回転パラメータpも定義されることができる。ここで、本実施例では、対応する光照射パラメータγを推定するために、球面調和照明を用いて３次元シーンにおける照明に近くする。

したがって、３次元顔を正確に再構築するために、本実施例では３次元顔再構築に指定された再構築パラメータを(α、δ、β、γ、ｔ、ｐ)とすることができる。

選択肢の一つとして、３次元顔再構築の正確性を保証するために、本実施例のデュアルＰＣＡモデルにおける顔の形変化を表す第１の主成分基底の数量を８０、顔の表情変化を表す第２の主成分基底の数を３０、単ＰＣＡモデルにおける顔アルベド変化を表す第３の主成分基底の数を７９、Ｒ、Ｇ、Ｂ３つのカラーチャンネルのそれぞれ９つのカラーパラメータを含む光照射パラメータの数を２７に設定することができて、位置パラメータと回転パラメータの数はそれぞれ３であり、本実施例による主成分基底及び光照射パラメータの数は、一例であり、対応する再構築要件に応じて設定することができ、本実施例ではこれについて限定しない。

図２Ａに示されたように、本実施例では、主にデュアルＰＣＡモデルと単ＰＣＡモデルで構成された３次元モーファブルモデルを用いて３次元顔再構築を行う再構築プロセスについて詳細に説明する。

選択肢の一つとして、図２Ａに示されたように、本実施例は、以下のステップを含み得る。

Ｓ２１０では、多次元データソースにおいて光照射が均一な３次元顔スキャンデータを収集し、３次元顔スキャンデータに対して変形分析、表情変化分析およびアルベド分析を行うことにより、３次元平均顔、顔平均アルベド、第１の主成分基底、第２の主成分基底および第３の主成分基底を得る。

選択肢の一つとして、３次元顔再構築のリアルさに影響を与える主成分基底を正確に判断するために、本実施例では、まず３次元（３－Ｄｉｍｅｎｓｉｏｎ、３Ｄ）スキャン技術を採用して大量の異なる人種、年齢、性別、肌色と表情などの多次元データソースにおいて光照射が均一な顔情報をスキャンすることにより、多次元データソースにおいて光照射が均一な３次元顔スキャンデータを収集し、この後、大量の３次元顔スキャンデータに対して対応する変形分析、表情変化分析とアルベド分析をそれぞれ行うことにより、対応する３次元平均顔及び顔平均アルベド、並びに顔の形変化を表す第１の主成分基底、顔の表情変化を表す第２の主成分基底及び顔アルベド変化を表す第３の主成分基底を得て、この後対応する３次元モーファブルモデルを構築して、顔画像に対して正確な３次元再構築を行う。

Ｓ２２０では、顔画像訓練セットにおける各訓練サンプルを予め構築されたニューラルネットワークモデルに入力し、３次元顔再構築に指定された再構築パラメータを推定する。

Ｓ２３０では、第１の主成分基底および第２の主成分基底にそれぞれ合致する再構築パラメータをデュアルＰＣＡモデルに入力し、３次元平均顔を変形することにより、３次元変形顔を得る。

選択肢の一つとして、訓練サンプルが３次元顔再構築を行う時の複数の再構築パラメータを推定した後、当該複数の再構築パラメータを３次元モーファブルモデルに入力して、３次元平均顔を変形し、この場合、当該３次元モーファブルモデルは、デュアルＰＣＡモデルと単ＰＣＡモデルで構成され、異なるＰＣＡモデルは異なる再構築機能を持っているが、デュアルＰＣＡモデルは、主に３次元顔再構築プロセスにおける顔外形及び表情の変化をモデリングするために使用され、当該単ＰＣＡモデルは、主に３次元顔再構築プロセスにおける顔アルベドの変化をモデリングするために使用され、したがって、デュアルＰＣＡモデルと単ＰＣＡモデルを順次に使用してサンプルを訓練して３次元顔再構築を行う。

まず推定された再構築パラメータから、デュアルＰＣＡモデルには定義された第１の主成分基底と第２の主成分基底にそれぞれ合致する再構築パラメータを選別し、さらに選別された再構築パラメータを当該デュアルＰＣＡモデルに入力し、上記デュアルＰＣＡモデルのモデル表現関数により、定義された３次元平均顔に対して対応する外形変化と表情変化を行うことで、対応する３次元変形顔を得て、この後、単ＰＣＡモデルを用いて当該３次元変形顔に対してアルベドの変化を続け、対応する３次元顔を再構築する。

Ｓ２４０では、３次元変形顔および第３の主成分基底に合致する再構築パラメータを単ＰＣＡモデルに入力し、顔平均アルベドに基づいて３次元変形顔に対してアルベド修正を行うことにより、再構築後の３次元顔を得る。

選択肢の一つとして、デュアルＰＣＡモデルによって対応する３次元変形顔を得た後、推定された再構築パラメータから、単ＰＣＡモデルには定義された第３の主成分基底に合致する再構築パラメータを再度選別し、この後当該３次元変形顔および第３の主成分基底に合致する再構築パラメータの両方を単ＰＣＡモデルに入力し、上記単ＰＣＡモデルのモデル表現関数を用いて、顔■准アルベドに基づいて、当該３次元変形顔に対してアルベド修正を行うことにより、再構築後の３次元顔を得る。

また、３次元顔の３次元詳細特徴を保証するために、３次元モーファブルモデルには定義された光照射パラメータ、位置パラメータ、及び回転パラメータを用いて当該３次元顔を最適化することもできる。

Ｓ２５０では、３次元顔と訓練サンプルとの間の複数の２次元監視情報における複数の損失関数を計算し、各損失関数に対応する重みを調整する。

Ｓ２６０では、各損失関数および各損失関数に対応する重みに基づいてフィッティング損失関数を生成し、フィッティング損失関数を用いてニューラルネットワークモデルを逆補正することにより、訓練後のパラメータ推定モデルを得る。

本実施例による技術案では、パラメータ推定モデルの訓練プロセスにおいて、デュアルＰＣＡモデルを用いて３次元モーファブルモデルを構築することにより、３次元顔再構築の正確性を保証し、さらに再構築後の３次元顔と訓練サンプルとの間の複数の２次元監視情報における損失を可能な限り再構築パラメータの推定ミスに反映させ、複数の２次元監視情報における損失関数によってパラメータ推定モデルを訓練することにより、訓練プロセスにおける参照情報をより全面的かつ正確にし、３次元顔再構築時に用いられる再構築パラメータの推定の正確性を高める。

実施例３
図３Ａは、本出願の実施例３によるパラメータ推定モデルの訓練方法のフローチャートであり、図３Ｂは、本出願の実施例３によるパラメータ推定モデルの訓練プロセスの原理概略図である。本実施例は、上記実施例を踏まえて説明するものである。図３Ａに示されたように、本実施例では、複数の２次元監視情報における損失関数は、画像画素損失関数、キーポイント損失関数、アイデンティティ特徴損失関数、アルベドペナルティ関数および３次元顔再構築に指定された再構築パラメータにおける目標再構築パラメータに対応する正則化項を含み得て、本実施例では、主に訓練プロセスにおいてパラメータ推定モデルが参照する複数の２次元監視情報における損失関数の設定方法について説明する。

選択肢の一つとして、図３Ａに示されたように、本実施例は、以下のステップを含み得る。

Ｓ３０１では、顔画像訓練セットにおける各訓練サンプルを予め構築されたニューラルネットワークモデルに入力し、３次元顔再構築に指定された再構築パラメータを推定し、再構築パラメータを予め構築された３次元モーファブルモデルに入力することにより、訓練サンプルに対応する３次元顔を再構築する。

Ｓ３０２では、訓練サンプルから皮膚マスクを分割する。

選択肢の一つとして、マスクは、画素値０と１からなるバイナリイメージであり、本実施例では、画像画素損失関数を設定する際に、訓練プロセスにおける画像画素損失の正確性を保証するために、訓練サンプルに皮■マスクを適用することにより、訓練サンプルにおける顔皮膚領域の画素値をすべて１に設定し、非顔皮膚領域の画素値をすべて０に設定することができ、したがって、皮膚分割アルゴリズムを用いて訓練サンプルから対応する顔皮膚領域を正確に分割し、非顔皮膚領域内の画素特徴による３次元顔再構築への干渉を避けることができる。

Ｓ３０３では、皮膚マスクに基づいて、３次元顔と訓練サンプルにおいて顔皮膚領域内にある同一画素点の画素誤差を計算することにより、対応する画像画素損失関数を得る。

選択肢の一つとして、訓練サンプルから皮膚マスクを分割した後、再構築された３次元顔と訓練サンプルから同じ画素位置の画素点を見つけることができ、次に、分割された皮膚マスクに基づいて、各同一画素点が顔皮膚領域内にあるかどうかを正確に判断することができ、３次元顔と訓練サンプルにおいて顔皮膚領域内にある各画素点の画素誤差を計算することにより、顔皮膚領域内における３次元顔と訓練サンプルの全体の画素誤差を分析し、画像画素損失関数を得て、当該画像画素損失関数は、再構築前後の顔皮膚領域内の画素誤差のみを比較し、非顔皮膚領域の画素影■を遮蔽し、推定された再構築パラメータにおける顔アイデンティティ特徴とアルベド情報をより正確にする。

例示的に、本実施例における画像画素損失関数は、以下のようになり、即ち、
、ここで、
はｉ番目の訓練サンプルにおける画素点（ｊ、ｋ）の画素値であり、
はｉ番目の訓練サンプルに対して再構築された３次元顔における画素点（ｊ、ｋ）の画素値であり、M_jkは皮膚マスクにおける画素点（ｊ、ｋ）の画素値であり、皮膚マスクにおいて顔皮膚領域内にある画素点のM_jkは１であり、そうでなければ０である。

Ｓ３０４では、訓練サンプルからプリセット位置におけるキー特徴点を抽出し、各キー特徴点の可視性を確定する。

選択肢の一つとして、再構築された３次元顔におけるキー特徴点と訓練サンプルにおけるキー特徴点が１対１で対応することを保証するために、本実施例では、訓練プロセスにおけるキーポイント損失関数を設定する際、Ｌａｎｄｍａｒｋアルゴリズムを用いて訓練サンプルから出複数の顔領域内のプリセット位置におけるキー特徴点を抽出することができ、例えば、顔輪郭の１７個のキー特徴点、左右の眉の５つのキー特徴点、左右の目の６つのキー特徴点、鼻の９つのキー特徴点、口の２０個のキー特徴点を抽出する。例示的に、本実施例では、図３Ｄに示されたように、合計６８のキー特徴点を採用することができる。異なる訓練サンプルにおいて顔頭部の姿勢が異なるため、いくつかのプリセット位置におけるキー特徴点が見えない可能性があるので、訓練サンプルから複数のプリセット位置におけるキー特徴点を抽出した後、各キー特徴点が見えるかどうかを判断する必要があり、この後、様々な頭部姿勢における訓練サンプルの再構築を実現するために、目に見えるキー特徴点の再構築の状況に対する損失判断のみが必要となる。

Ｓ３０５では、３次元顔と訓練サンプルとの間の各目に見えるキー特徴点の位置再構築誤差を計算することにより、キーポイント損失関数を得る。

選択肢の一つとして、複数の目に見えるキー特徴点を確定した後、再構築された３次元顔と訓練サンプルにおける各目に見えるキー特徴点の画素位置が一致するかどうかを分析することにより、再構築前後の各目に見えるキー特徴点の位置再構築誤差を計算し、対応するキーポイント損失関数を得る。訓練サンプルにおいて頭部の回転角度が大きい顔について、対応するキーポイント再構築損失を計算するために、目に見える半分のキー特徴点を選択する必要があり、目に見えないキー特徴点は、キーポイント再構築の損失計算に関与しない。

また、訓練プロセスにおいて、再構築後の３次元顔と訓練サンプルにおける頭部姿勢が異なることがあるので、３次元顔と訓練サンプルにおける同一画素点の対応を保証するために、本実施例では、再構築後の３次元顔においてキー特徴点を動的に選択する方法を採用することにより、訓練サンプルにおける複数の目に見えるキー特徴点に合致する頂点を確定する。例示的に、３次元顔における頭部姿勢に基づいて、３次元顔から各目に見えるキー特徴点に合致する３次元メッシュ頂点を動的に選択し、３次元顔における当該３次元メッシュ頂点の位置情報を当該目に見えるキー特徴点の再構築位置として、３次元顔と訓練サンプルとの間の当該目に見えるキー特徴点の位置再構築誤差を計算する。

まず、再構築された３次元顔における頭部移動位置や回転角度などの頭部姿勢を分析し、次に、当該３次元顔における頭部姿勢および各目に見えるキー特徴点に代表される顔部位に基づいて、当該３次元顔から各目に見えるキー特徴点に合致する３次元メッシュ頂点を働的に選択し、図３Ｃに示されたように、３次元顔における当該３次元メッシュ頂点の位置情報を、当該目に見えるキー特徴点の再構築位置とし、上記のように３次元顔における各目に見えるキー特徴点の再構築位置を計算し、この後、３次元顔と訓練サンプルとの間の各目に見えるキー特徴点の位置再構築誤差を計算する。

例示的に、本実施例におけるキーポイント損失関数は、以下のようになり、即ち、

、ここで、
はｉ番目の訓練サンプルにおけるｊ番目のキー特徴点の位置座標であり、
はｉ番目の訓練サンプルに対して再構築された３次元顔におけるｊ番目のキー特徴点の位置座標であり、v_ijはｊ番目のキー特徴点の可視性であり、目に見えるキー特徴点の値は１であり、目に見えない特徴点の値は０であり、w_jはｊ番目のキー特徴点の損失関数における重みであり、異なる顔部位（例えば目、口、輪郭点など）に対してそれぞれ異なる重みを採用し、これらの重みはw_jの大きさを調整することによって制御される。

Ｓ３０６では、訓練サンプルと再構築後の３次元顔のそれぞれを予め構築された顔認識モデルに入力することにより、訓練サンプルに対応する第１のアイデンティティ特徴、および３次元顔に対応する第２のアイデンティティ特徴を得る。

選択肢の一つとして、アイデンティティ特徴損失関数について、実質的には再構築前後のアイデンティティ特徴が変化するかどうかを分析するものであり、したがって、本実施例では、アイデンティティ特徴認識に対して、対応する顔識別モデルを予め構築し、当該顔認識モデルによって再構築前後のアイデンティティ特徴を抽出することができる。図３Ｂに示されたように、まず訓練サンプルと再構築後の３次元顔のそれぞれを当該顔認識モデルに入力し、当該顔認識モデルによって訓練サンプルと３次元顔における顔特徴を分析することにより、訓練サンプルに対応する第１のアイデンティティ特徴および３次元顔に対応する第２のアイデンティティ特徴を確定し、この後、再構築前後のアイデンティティ特徴に誤差があるかどうかを判断する。

また、訓練サンプルにおける顔頭部の姿勢には、訓練サンプルにおける顔領域の一部が見えない回転角度が存在する可能性があり、単一の角度で抽出されたアイデンティティ特徴には一定のミスが存在する可能性があるので、第１のアイデンティティ特徴の正確性を保証するために、本実施例では、以下のようなステップを用いて訓練サンプルに対応する第１のアイデンティティ特徴を計算することもでき、即ち、マルチアングルで撮影された、訓練サンプルと同じ顔を有する複数の顔画像を収集し、複数の顔画像のそれぞれを予め構築された３次元モーファブルモデルに入力し、各顔画像に対応するアイデンティティサブ特徴を抽出するステップ、及び抽出された複数のアイデンティティサブ特徴を統合することにより、訓練サンプルに対応する第１のアイデンティティ特徴を得るステップである。

訓練サンプルにおける顔を分析し、マルチアングルで当該訓練サンプルと同じ顔を有する複数の顔画像を撮影し、そして、マルチアングルで撮影された顔画像のそれぞれを当該３次元モーファブルモデルに入力し、当該３次元モーファブルモデルにおける顔の形変化を表す第１の主成分基底によって、複数の顔画像に対してアイデンティティ特徴の抽出を行うことにより、各顔画像に対応するアイデンティティサブ特徴を得て、この時点で、複数のアイデンティティサブ特徴に対して特徴統合を行い、当該訓練サンプルに対応する第１のアイデンティティ特徴を得て、当該第１のアイデンティティ特徴の全面性と正確性を保証する。

Ｓ３０７では、第１のアイデンティティ特徴と第２のアイデンティティ特徴との類似度に基づいて、アイデンティティ特徴損失関数を計算する。

選択肢の一つとして、訓練サンプルに対応する第１のアイデンティティ特徴および３次元顔に対応する第２のアイデンティティ特徴を得た後、再構築前後のアイデンティティ特徴に誤差があるかどうかを分析するために、まず第１のアイデンティティ特徴と第２のアイデンティティ特徴との類似性を判断し、さらに当該類似性に基づいて対応するアイデンティティ特徴損失関数を計算する。

例示的に、本実施例におけるアイデンティティ特徴損失関数は、以下のようになり、即ち、
、ここで、
はｉ番目の訓練サンプルに対応する第１のアイデンティティ特徴であり、
はｉ番目の訓練サンプルに対して再構築された３次元顔に対応する第２のアイデンティティ特徴である。

Ｓ３０８では、３次元顔における各頂点のアルベドを計算する。

選択肢の一つとして、本実施例では、訓練サンプルにおける複数の画素点の色および反射光強度などの情報を検出することにより、複数の画素点のアルベドを算出することができ、この後、再構築後の３次元顔における各頂点と訓練サンプルにおける複数の画素点との位置マッチングの状況に応じて、再構築された３次元顔における各頂点のアルベドを設定し、再構築前後の顔アルベドの一致性を保証することができる。

Ｓ３０９では、３次元顔における複数の頂点のアルベドとプリセットアルベド区間とに基づいて、アルベドペナルティ関数を計算する。

選択肢の一つとして、再構築後に３次元顔における頂点のアルベドが暗すぎず、明るすぎないようにするために、本実施例では３次元顔における頂点のアルベドを調整し、本実施例では、合理的なプリセットアルベド区間を予め設定し、本実施例におけるプリセットアルベド区間を、再構築後の３次元顔における複数の頂点のアルベドがすべて当該プリセットアルベド区間内に収まるように［０.０５、０.９５］とすることができ、したがって、３次元顔における各頂点のアルベドが当該プリセットアルベド区間内にあるかどうかを分析することにより、対応するアルベドペナルティ関数を計算することができ、訓練プロセスにおいて再構築後の３次元顔のアルベドを絶えず最適化する。

例示的に、本実施例におけるアルベドペナルティ関数は、
になり、ここで、T^i,jはｉ番目の訓練サンプルにおけるｊ番目の画素点のアルベドであり、
はｉ番目の訓練サンプルに対して再構築された３次元顔におけるｊ番目の画素点のアルベドである。

本実施例におけるＳ３０２およびＳ３０３は、画像画素損失関数の計算ステップであり、Ｓ３０４およびＳ３０５は、キーポイント損失関数の計算ステップであり、Ｓ３０６およびＳ３０７は、アイデンティティ特徴損失関数の計算ステップであり、Ｓ３０８およびＳ３０９は、アルベドペナルティ関数の計算ステップであり、本実施例では、画像画素損失関数、キーポイント損失関数、アイデンティティ特徴損失関数およびアルベドペナルティ関数に対応する計算ステップは、同時に実行されてもよいし、順次に実行されてもよく、これについて限定しない。

Ｓ３１０では、各損失関数に対応する重みを調整する。

Ｓ３１１では、各損失関数および各損失関数に対応する重みに基づいてフィッティング損失関数を生成し、フィッティング損失関数を用いてニューラルネットワークモデルを逆補正することにより、訓練後のパラメータ推定モデルを得る。

本実施例による技術案では、訓練サンプルには、皮膚マスクとキー特徴点を動的に選択する方法を採用して、複数の２次元監視情報における複数の損失関数のうちの個別の損失関数を最適化することにより、パラメータ推定モデルの訓練の正確性を保証し、複数の２次元監視情報における損失関数によってパラメータ推定モデルを訓練することで、訓練プロセスにおいて参照情報を更に全面的にして、３次元顔再構築時に用いられる再構築パラメータの推定の正確性を高める。

実施例４
図４は、本出願の実施例４によるパラメータ推定モデルの訓練装置の構造概略図であり、図４に示されたように、当該装置は、
顔画像訓練セットにおける各訓練サンプルを予め構築されたニューラルネットワークモデルに入力し、３次元顔再構築に指定された再構築パラメータを推定し、前記再構築パラメータを予め構築された３次元モーファブルモデルに入力することにより、前記訓練サンプルに対応する３次元顔を再構築するように構成される３次元再構築モジュール４１０と、前記３次元顔と前記訓練サンプルとの間の複数の２次元監視情報における複数の損失関数を計算し、各損失関数に対応する重みを調整するように構成される損失関数計算モジュール４２０と、各損失関数および各損失関数に対応する重みに基づいてフィッティング損失関数を生成し、前記フィッティング損失関数を用いて前記ニューラルネットワークモデルを逆補正することにより、訓練後のパラメータ推定モデルを得るように構成されるモデル訓練モジュール４３０と、を含み得る。

本実施例によるパラメータ推定モデルの訓練装置は、上記のいずれかの実施例によるパラメータ推定モデルの訓練方法にも適用可能であり、対応する機能及び効果を有する。

実施例５
図５は、本出願の実施例５によるコンピュータデバイスの構造概略図であり、図５に示されたように、当該デバイスは、プロセッサ５０、記憶装置５１及び通信装置５２を含む。デバイスに含まれたプロセッサ５０の数は、１つ以上であってもよく、図５では１つのプロセッサ５０を例にする。デバイスに含まれたプロセッサ５０、記憶装置５１及び通信装置５２は、バス又は他の方法で接続されることができ、図５ではバスによる接続を例にする。

本実施例によるコンピュータデバイスは、上記のいずれかの実施例によるパラメータ推定モデルの訓練方法を実行するように構成されてもよく、対応する機能及び効果を有する。

実施例６
本出願の実施例６では、コンピュータ可読記憶媒体をさらに提供し、コンピュータプログラムが記憶され、当該プログラムがプロセッサによって実行されるとき、上記のいずれかの実施例によるパラメータ推定モデルの訓練方法を実現することができる。当該方法は、
顔画像訓練セットにおける各訓練サンプルを予め構築されたニューラルネットワークモデルに入力し、３次元顔再構築に指定された再構築パラメータを推定し、前記再構築パラメータを予め構築された３次元モーファブルモデルに入力することにより、前記訓練サンプルに対応する３次元顔を再構築することと、前記３次元顔と前記訓練サンプルとの間の複数の２次元監視情報における複数の損失関数を計算し、各損失関数に対応する重みを調整することと、各損失関数および各損失関数に対応する重みに基づいてフィッティング損失関数を生成し、前記フィッティング損失関数を用いて前記ニューラルネットワークモデルを逆補正することにより、訓練後のパラメータ推定モデルを得ることと、を含み得る。

本出願の実施例では、コンピュータ実行可能命令を含む記憶媒体をさらに提供し、コンピュータ実行可能命令は、上述した方法における動作だけでなく、本出願のいずれかの実施例によるパラメータ推定モデルの訓練方法における関連動作を実行することができる。

コンピュータ可読記憶媒体は、非一時的な記憶媒体であってもよい。

以上の実施形態に関する説明により、本出願はソフトウェアおよび必要な汎用ハードウェアによって実現されることができ、ハードウェアによって実現されることもできる。本出願の技術案は、本質的にはソフトウェア製品として具現化することができ、当該コンピュータソフトウェア製品は、コンピュータのフロッピーディスク、読み取り専用メモリ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＲＯＭ）、ランダム・アクセス・メモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭ）、フラッシュ（ＦＬＡＳＨ）、ハードディスクまたは光ディスクなどのコンピュータ可読記憶媒体に記憶されることができ、１台のコンピュータデバイス（パーソナルコンピュータ、サーバ、またはネットワークデバイスなどであってもよい）に、本出願の実施例に記載された方法を実行させるための複数の命令を含む。

上記パラメータ推定モデルの訓練装置の実施例では、含まれる複数のユニット及びモジュールは、機能論理に従って区分されたものであるが、上記の区分に限定されるものではなく、対応する機能を実現できればよい。なお、複数の機能ユニットの名称は、相互の区別を容易にするためのものであり、本出願の保護範囲を限定するものではない。

Claims

顔画像訓練セットにおける各訓練サンプルを予め構築されたニューラルネットワークモデルに入力し、３次元顔再構築に指定された再構築パラメータを推定し、前記再構築パラメータを予め構築された３次元モーファブルモデルに入力することにより、前記訓練サンプルに対応する３次元顔を再構築することと、
前記３次元顔と前記訓練サンプルとの間の複数の２次元監視情報における複数の損失関数を計算し、各損失関数に対応する重みを調整することと、
各損失関数および各損失関数に対応する重みに基づいてフィッティング損失関数を生成し、前記フィッティング損失関数を用いて前記ニューラルネットワークモデルを逆補正することにより、訓練後のパラメータ推定モデルを得ることと、
を含む、
パラメータ推定モデルの訓練方法。
前記複数の２次元監視情報における複数の損失関数は、画像画素損失関数、キーポイント損失関数、アイデンティティ特徴損失関数、アルベドペナルティ関数、および前記３次元顔再構築に指定された再構築パラメータにおける目標再構築パラメータに対応する正則化項を含む請求項１に記載の方法。
前記３次元顔と前記訓練サンプルとの間の画像画素損失関数を計算する場合、
前記訓練サンプルから皮膚マスクを分割することをさらに含み、
前記３次元顔と前記訓練サンプルとの間の画像画素損失関数を計算することは、
前記皮膚マスクに基づいて、前記３次元顔と前記訓練サンプルにおいて顔皮膚領域内にある同一画素点の画素誤差を計算することにより、前記画像画素損失関数を得ることを含む、
請求項２に記載の方法。
前記３次元顔と前記訓練サンプルとの間のキーポイント損失関数を計算する場合、
前記訓練サンプルからプリセット位置における複数のキー特徴点を抽出し、各キー特徴点の可視性を確定することと、
前記複数のキー特徴点の可視性に基づいて複数の目に見えるキー特徴点を確定することと、
をさらに含み、
前記３次元顔と前記訓練サンプルとの間のキーポイント損失関数を計算することは、
前記３次元顔と前記訓練サンプルとの間の各目に見えるキー特徴点の位置再構築誤差を計算することにより、前記キーポイント損失関数を得ることを含む、
請求項２に記載の方法。
前記３次元顔と前記訓練サンプルとの間の各目に見えるキー特徴点の位置再構築誤差を計算することの前に、
前記３次元顔における頭部姿勢に基づいて、前記３次元顔から各目に見えるキー特徴点に合致する３次元メッシュ頂点を動的に選択し、前記３次元メッシュ頂点の前記３次元顔における位置情報を前記目に見えるキー特徴点の再構築位置とすることにより、前記３次元顔と前記訓練サンプルとの間の前記目に見えるキー特徴点の位置再構築誤差を計算することをさらに含む、
請求項４に記載の方法。
前記３次元顔と前記訓練サンプルとの間のアイデンティティ特徴損失関数を計算する場合、
前記訓練サンプルと再構築後の３次元顔のそれぞれを予め構築された顔認識モデルに入力することにより、前記訓練サンプルに対応する第１のアイデンティティ特徴、および前記３次元顔に対応する第２のアイデンティティ特徴を得ることをさらに含み、
前記３次元顔と前記訓練サンプルとの間のアイデンティティ特徴損失関数を計算することは、
前記第１のアイデンティティ特徴と前記第２のアイデンティティ特徴との類似度に基づいて、前記アイデンティティ特徴損失関数を計算することを含む、
請求項２に記載の方法。
前記訓練サンプルに対応する第１のアイデンティティ特徴は、さらに、
マルチアングルで撮影された、前記訓練サンプルと同じ顔を有する複数の顔画像を収集し、前記複数の顔画像のそれぞれを予め構築された３次元モーファブルモデルに入力し、各顔画像に対応するアイデンティティサブ特徴を抽出するステップと、
抽出された複数のアイデンティティサブ特徴を統合することにより、前記訓練サンプルに対応する第１のアイデンティティ特徴を得るステップと、
を用いて計算される、
請求項６に記載の方法。
前記３次元顔のアルベドペナルティ関数を計算する場合、
前記３次元顔における複数の頂点のそれぞれのアルベドを計算することをさらに含み、
前記３次元顔のアルベドペナルティ関数を計算することは、
前記３次元顔における複数の頂点のアルベドとプリセットアルベド区間とに基づいて、前記アルベドペナルティ関数を計算することを含む、
請求項２に記載の方法。
前記３次元モーファブルモデルは、デュアル主成分分析ＰＣＡモデルと単ＰＣＡモデルで構成され、前記デュアルＰＣＡモデルには、３次元平均顔、顔の形変化を表す第１の主成分基底および顔の表情変化を表す第２の主成分基底が定義され、
前記単ＰＣＡモデルには、顔平均アルベド及び顔アルベド変化を表す第３の主成分基底が定義され、
前記再構築パラメータを予め構築された３次元モーファブルモデルに入力することにより、前記各訓練サンプルに対応する３次元顔を再構築することは、
前記第１の主成分基底および前記第２の主成分基底にそれぞれ合致する再構築パラメータを前記デュアルＰＣＡモデルに入力し、前記３次元平均顔を変形することにより、３次元変形顔を得ることと、
前記３次元変形顔および前記第３の主成分基底に合致する再構築パラメータを前記単ＰＣＡモデルに入力し、前記顔平均アルベドに基づいて前記３次元変形顔に対してアルベド修正を行うことにより、再構築後の３次元顔を得ることと、
を含む、
請求項１に記載の方法。
前記再構築パラメータを予め構築された３次元モーファブルモデルに入力することにより、前記訓練サンプルに対応する３次元顔を再構築することの前に、
多次元データソースにおいて光照射が均一な３次元顔スキャンデータを収集し、前記３次元顔スキャンデータに対して変形分析、表情変化分析およびアルベド分析を行うことにより、前記３次元平均顔、前記顔平均アルベド、前記第１の主成分基底、前記第２の主成分基底および前記第３の主成分基底を得ることをさらに含む、
請求項９に記載の方法。
前記３次元モーファブルモデルには、顔の光照射変化を表す光照射パラメータ、顔の移動を表す位置パラメータおよび顔頭部の姿勢を表す回転パラメータも定義されている請求項９に記載の方法。
前記３次元顔と前記訓練サンプルとの間の複数の２次元監視情報における複数の損失関数を計算することの前に、
微分可能レンダラーを使用して前記３次元顔をレンダリングすることにより、レンダリング後の３次元顔を用いて前記パラメータ推定モデルを訓練することをさらに含む、
請求項１から１１のいずれか１項に記載の方法。
前記フィッティング損失関数を用いて前記ニューラルネットワークモデルを逆補正することにより、訓練後のパラメータ推定モデルを得ることの後、
再構築されるべき２次元顔画像を前記パラメータ推定モデルに入力し、３次元顔再構築に指定された再構築パラメータを推定し、前記再構築パラメータを予め構築された３次元モーファブルモデルに入力することにより、前記２次元顔画像に対応する３次元顔を再構築することをさらに含む、
請求項１から１１のいずれか１項に記載の方法。
顔画像訓練セットにおける各訓練サンプルを予め構築されたニューラルネットワークモデルに入力し、３次元顔再構築に指定された再構築パラメータを推定し、前記再構築パラメータを予め構築された３次元モーファブルモデルに入力することにより、前記訓練サンプルに対応する３次元顔を再構築するように構成される３次元再構築モジュールと、
前記３次元顔と前記訓練サンプルとの間の複数の２次元監視情報における複数の損失関数を計算し、各損失関数に対応する重みを調整するように構成される損失関数計算モジュールと、
各損失関数および各損失関数に対応する重みに基づいてフィッティング損失関数を生成し、前記フィッティング損失関数を用いて前記ニューラルネットワークモデルを逆補正することにより、訓練後のパラメータ推定モデルを得るように構成されるモデル訓練モジュールと、
を含む、
パラメータ推定モデルの訓練装置。
少なくとも１つのプロセッサと、
少なくとも１つのプログラムを記憶するように構成される記憶装置と、
を含み、
前記少なくとも１つのプログラムが前記少なくとも１つのプロセッサによって実行されるとき、前記少なくとも１つのプロセッサが請求項１から１３のいずれか１項に記載のパラメータ推定モデルの訓練方法を実現するコンピュータデバイス。
コンピュータプログラムが記憶され、ここで、前記プログラムがプロセッサによって実行されるとき、請求項１から１３のいずれか１項に記載のパラメータ推定モデルの訓練方法を実現するコンピュータ可読記憶媒体。