JP2024004444A

JP2024004444A - ３次元顔再構成モデルトレーニング、３次元顔イメージ生成方法及び装置

Info

Publication number: JP2024004444A
Application number: JP2023029589A
Authority: JP
Inventors: 王迪; Di Wang; 陳睿智; Ruizhi Chen; 趙晨; Chen Zhao; 劉経拓; Jingtuo Liu; 丁二鋭; Errui Ding; 呉甜; Tian Wu; 王海峰; Haifeng Wang
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-06-28
Filing date: 2023-02-28
Publication date: 2024-01-16
Also published as: CN114842123B; US20230419592A1; CN114842123A; KR20240002898A

Abstract

【課題】本開示は、３次元顔再構成モデルトレーニング、３次元顔イメージ生成方法及び装置を提供する。【解決手段】具体的な実現態様は、取得したサンプル顔画像を３次元顔再構成モデルに入力し、座標変換パラメータ及びサンプル顔画像における顔パラメータを得て、取得したサンプル顔画像の顔パラメータ及びスタイル化顔図に応じて、サンプル顔画像の３次元スタイル化顔イメージを決定し、座標変換パラメータに基づいて、サンプル顔画像の３次元スタイル化顔イメージをカメラ座標系に変換して、変換後の３次元スタイル化顔イメージに対してレンダリングを行い、レンダリング図を得て、レンダリング図及びサンプル顔画像のスタイル化顔図に応じて、３次元顔再構成モデルに対してトレーニングを行う。【選択図】図１

Description

本開示は、人工知能の技術分野に関し、特に、拡張現実、仮想現実、コンピュータビジョン及びディープラーニングなどの技術分野に関し、メタバースなどのシーンに応用可能であり、具体的には、３次元顔再構成モデルトレーニング、３次元顔イメージ生成方法及び装置に関する。

人工知能技術の持続的な発展に伴い、３次元顔再構成技術が台頭してきている。２次元顔画像に比べて、３次元顔イメージは、より豊かな個性化特徴を持ち、重要な研究意義及び応用見通しがある。多様化する人々のニーズを満たすために、異スタイルの３次元顔再構成が提案されている。異スタイルのシーンにおいて、如何に３次元顔再構成を低コストで精確に実現するかは、極めて重要になっている。

本開示は、３次元顔再構成モデルトレーニング、３次元顔イメージ生成方法及び装置を提供する。

本開示の一側面によれば、
サンプル顔画像、及び前記サンプル顔画像のスタイル化顔図を取得することと、
前記サンプル顔画像を３次元顔再構成モデルに入力し、座標変換パラメータ及び前記サンプル顔画像における顔パラメータを得ることと、
前記サンプル顔画像における顔パラメータ及びスタイル化顔図に応じて、前記サンプル顔画像の３次元スタイル化顔イメージを決定することと、
前記座標変換パラメータに基づいて、前記サンプル顔画像の３次元スタイル化顔イメージをカメラ座標系に変換して、変換後の３次元スタイル化顔イメージに対してレンダリングを行い、レンダリング図を得ることと、
前記レンダリング図及び前記サンプル顔画像のスタイル化顔図に応じて、前記３次元顔再構成モデルに対してトレーニングを行うことと、を含む３次元顔再構成モデルトレーニング方法を提供する。

本開示の他の側面によれば、
目標顔画像、及び前記目標顔画像のスタイル化顔図を取得することと、
前記目標顔画像を３次元顔再構成モデルに入力し、前記目標顔画像における顔パラメータを得て、ここで、前記３次元顔再構成モデルは本開示の実施例のいずれかに記載の３次元顔再構成モデルトレーニング方法に基づいてトレーニングして得られることと、
前記目標顔画像における顔パラメータ及びスタイル化顔図に応じて、前記目標顔画像の３次元スタイル化顔イメージを決定することと、含む３次元顔イメージ生成方法を提供する。

本開示の他の側面によれば、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信接続されたメモリとを含み、
前記メモリには、前記少なくとも１つのプロセッサにより実行可能な命令が記憶されており、前記命令は、前記少なくとも１つのプロセッサが本開示のいずれかの実施例に記載の３次元顔再構成モデルトレーニング方法、もしくは３次元顔イメージ生成方法を実行可能であるように、前記少なくとも１つのプロセッサにより実行される、電子機器を提供する。

本開示の他の側面によれば、コンピュータ命令が記憶された非一時的コンピュータ可読記憶媒体を提供し、ここで、前記コンピュータ命令は、コンピュータに本開示のいずれかの実施例に記載の３次元顔再構成モデルトレーニング方法、もしくは３次元顔イメージ生成方法を実行させることに用いられる。

本開示の技術によれば、３次元スタイル化顔イメージを精確に構築することができる。

本部分で説明された内容は、本開示の実施例の核心的又は重要な特徴を特定することを意図するものではなく、本開示の範囲を限定することに用いられるものでもないことを理解すべきである。本開示の他の特徴は、以下の明細書によって理解しやすくなる。

図面は、本態様をよりよく理解するために使用され、本開示を限定するものではない。

本開示の実施例に係る１つの３次元顔再構成モデルトレーニング方法のフローチャートである。本開示の実施例に係る他の３次元顔再構成モデルトレーニング方法のフローチャートである。本開示の実施例に係る１つのスタイル化顔図を取得する過程の模式図である。本開示の実施例に係る更なる３次元顔再構成モデルトレーニング方法のフローチャートである。本開示の実施例に係るさらに他の３次元顔再構成モデルトレーニング方法のフローチャートである。本開示の実施例に係る１つの３次元顔再構成モデルのトレーニング過程の模式図である。本開示の実施例に係る１つの３次元顔イメージ生成方法のフローチャートである。本開示の実施例に係る他の３次元顔イメージ生成方法のフローチャートである。本開示の実施例に係る更なる３次元顔イメージ生成方法のフローチャートである。本開示の実施例に係る１つの３次元顔再構成モデルトレーニング装置の構造模式図である。本開示の実施例に係る１つの３次元顔イメージ生成装置の構造模式図である。本開示の実施例の３次元顔再構成モデルトレーニング又は３次元顔イメージ生成方法を実現するための電子機器のブロック図である。

以下、図面を参照しながら、本開示の例示的な実施例について説明する。理解を容易にするために、ここには本開示の実施例の様々な詳細が含まれるが、これらは例示的なものに過ぎないとみなされるべきである。したがって、当業者であれば、本明細書に説明される実施例は、本開示の範囲及び精神から逸脱することなく、様々な変更及び修正が可能であることを認識すべきである。同様に、明確化及び簡潔化のために、以下の説明では公知の機能及び構造に対する説明は省略する。

なお、本開示の技術態様において、関連するサンプル顔画像、目標顔画像及びスタイル化顔図などの収集、記憶、使用、加工、伝送、提供及び開示などの処理は、いずれも関連する法律及び法規の規定に合致し、且つ公序良俗に反しない。

図１は、本開示の実施例に係る１つの３次元顔再構成モデルトレーニング方法のフローチャートである。本実施例は、如何に３次元顔再構成モデルに対してトレーニングを行うかという場合に適用される。該方法は、３次元顔再構成モデルトレーニング装置により実行可能であり、該装置は、ソフトウェア及び／又はハードウェアの方式を採用して実現可能であり、且つ３次元顔再構成モデルのトレーニング機能を担う電子機器、例えばサーバに集積可能である。図１に示すように、本実施例の３次元顔再構成モデルトレーニング方法は、以下を含んでもよい。

Ｓ１０１において、サンプル顔画像、及びサンプル顔画像のスタイル化顔図を取得する。

本実施例において、サンプル顔画像とは、顔を含む画像である。スタイル化顔図とは、サンプル顔図に対応する異スタイルの顔画像、例えばアニメスタイルの顔図などである。

具体的には、サンプル顔画像のスタイル化顔図を取得するために、インターネットなどからサンプル顔画像を取得し、サンプル顔画像に対して異スタイル化処理を行うことができる。好ましくは、異スタイル化生成モデルに基づいて、サンプル顔画像に対して異スタイル化処理を行ってもよい。

Ｓ１０２において、サンプル顔画像を３次元顔再構成モデルに入力し、座標変換パラメータ及びサンプル顔画像における顔パラメータを得る。

本実施例において、３次元顔再構成モデルは即ち、３次元顔イメージに必要なパラメータを回帰再構成するなどのタスクを実行するためのモデルであり、好ましくは、本実施例における３次元顔再構成モデルは好適に、残差ネットワークｒｅｓｎｅｔであってもよい。

座標変換パラメータとは、３次元顔イメージをカメラ座標系に変換する変換パラメータであり、平行移動変換パラメータ及び拡縮変換パラメータを含んでもよいし、さらに、回転変換パラメータを含んでもよい。サンプル顔画像における顔パラメータとは即ち、３次元顔イメージの幾何パラメータであり、顔形状パラメータを含んでもよく、さらに、サンプル顔画像における顔パラメータは、顔表情パラメータも含んでもよい。

好ましくは、サンプル顔画像を３次元顔再構成モデルに入力し、モデル処理を経て、座標変換パラメータ及びサンプル顔画像の顔パラメータを得てもよい。

Ｓ１０３において、サンプル顔画像の顔パラメータ及びスタイル化顔図に応じて、サンプル顔画像の３次元スタイル化顔イメージを決定する。

本実施例において、３次元スタイル化顔イメージとは、３次元の異スタイルの顔アバターである。

好ましくは、３次元スタイル化顔イメージの生成論理に基づいて、サンプル顔画像の顔パラメータ及びスタイル化顔図に応じて、サンプル顔画像の３次元スタイル化顔イメージを生成する。例えば、サンプル顔画像の顔パラメータ及びスタイル化顔図を、予めトレーニング済みの３次元スタイル化モデルに入力し、該３次元スタイル化モデルによりサンプル顔画像の３次元スタイル化顔イメージを出力することができる。

Ｓ１０４において、座標変換パラメータに基づいて、サンプル顔画像の３次元スタイル化顔イメージをカメラ座標系に変換して、変換後の３次元スタイル化顔イメージに対してレンダリングを行い、レンダリング図を得る。

本実施例において、カメラ座標系は、３次元スタイル化顔イメージが所在する座標系と異なり、微分可能レンダラーが所在する座標系である。レンダリング図とは、３次元スタイル化顔イメージがカメラ座標系内に投影された２次元画像である。

好ましくは、平行移動変換パラメータ、拡縮変換パラメータ及び回転変換パラメータに基づいて、サンプル顔画像の３次元スタイル化顔イメージをカメラ座標系に変換して、予め設定済みのカメラ視野角を採用し、微分可能レンダラーにおけるパラメータに対して調整を行って、変換後の３次元スタイル化顔イメージを微分可能レンダラーに入力し、変換後の３次元スタイル化顔イメージに対してレンダリングを行い、レンダリング図を得てもよい。

Ｓ１０５において、レンダリング図及びサンプル顔画像のスタイル化顔図に応じて、３次元顔再構成モデルに対してトレーニングを行う。

好ましくは、予め設定された損失関数に基づいて、レンダリング図及びサンプル顔画像のスタイル化顔図に応じて、トレーニング損失を決定し、その後、トレーニング損失に応じて３次元顔再構成モデルに対してトレーニングを行い、絶えず３次元顔再構成モデルにおけるネットワークパラメータを最適化してもよい。具体的には、本実施例は、上記方法に基づいて３次元顔再構成モデルに対して複数回の反復トレーニングを、予め設定されたトレーニング停止条件に達するまで行い、そして、３次元顔再構成モデルのネットワークパラメータの調整を停止し、トレーニングを経た３次元顔再構成モデルを得ることができる。トレーニング停止条件は、トレーニング回数が予め設定された回数に達すること、もしくはトレーニング損失が収束することなどを含んでもよい。

本開示の実施例に係る技術態様は、取得したサンプル顔画像を３次元顔再構成モデルに入力することで、座標変換パラメータ及びサンプル顔画像における顔パラメータを得て、サンプル顔画像の顔パラメータ及び取得したサンプル顔画像のスタイル化顔図に応じて、サンプル顔画像の３次元スタイル化顔イメージを決定し、その後、座標変換パラメータに基づいて、サンプル顔画像の３次元スタイル化顔イメージをカメラ座標系に変換して、変換後の３次元スタイル化顔イメージに対してレンダリングを行い、レンダリング図を得て、さらに、レンダリング図及びサンプル顔画像のスタイル化顔図に応じて、３次元顔再構成モデルに対してトレーニングを行う。上記技術態様は、異スタイルの３次元顔再構成のシーンにおいて、顔キーポイントのマーキングを行う必要がなく、サンプル顔画像及びスタイル化顔図によれば、３次元顔再構成モデルをトレーニングすることができ、サンプルのマーキングコストを低減する。さらに、異スタイルのシーンにおいて、本態様によってトレーニングされた３次元顔再構成モデルに基づいて、３次元顔の構築に必要なデータを精確に取得することができ、これにより、３次元スタイル化顔イメージを精確に構築することができる。

上記実施例を基に、本開示の１つの好ましい形態として、レンダリング図及びサンプル顔画像のスタイル化顔図に応じて、３次元顔再構成モデルに対してトレーニングを行うことはさらに、サンプル顔画像のスタイル化顔図からスタイル化顔領域を抽出し、レンダリング図の背景色に応じて、スタイル化顔領域の背景色に対して調整を行い、レンダリング図及び調整後のスタイル化顔領域に応じて、画像対照損失を決定し、画像対照損失に応じて、３次元顔再構成モデルに対してトレーニングを行うものであってもよい。

具体的には、画像分割アルゴリズムに基づいて、スタイル化顔領域が抽出されるようにサンプル顔画像のスタイル化顔図に対して分割処理を行い、その後、スタイル化顔領域の背景色をレンダリング図の背景色に調整することができる。さらに、予め設定済みの損失関数に基づいて、レンダリング図及び調整後のスタイル化顔領域に応じて、画像対照損失を決定し、もしくは、レンダリング図と調整後のスタイル化顔領域との間の類似度を決定し、類似度を画像対照損失とすることができる。最後に、画像対照損失に応じて、３次元顔再構成モデルに対してトレーニングを行う。

スタイル化顔領域の背景色を、レンダリング図の背景色と一致するように調整することで、背景の干渉を解消し、決定した画像対照損失をより精確にし、これにより、３次元顔再構成モデルがより精確且つ有効的にトレーニングされることを可能にすることを理解できる。

図２Ａは、本開示の実施例に係る他の３次元顔再構成モデルトレーニング方法のフローチャートである。図２Ｂは、本開示の実施例に係る１つのスタイル化顔図を取得する過程の模式図である。本実施例は上記実施例を基に、「サンプル顔画像のスタイル化顔図を取得する」ことに対してさらに最適化し、１つの好ましい実施態様を提供する。図２Ａ及び２Ｂに示すものを参照し、本実施例の３次元顔再構成モデルトレーニング方法は、以下を含んでもよい。

Ｓ２０１において、サンプル顔画像を取得する。

Ｓ２０２において、スタイル化エンコーダネットワークからスタイル化特徴を抽出する。

本実施例において、スタイル化エンコーダネットワークは、スタイル化モデルにおけるエンコーダネットワークであってもよく、好ましくは、スタイル化モデルは、スタイル化エンコーダネットワークとスタイル化デコーダネットワークとで構築され、スタイル化モデルに対するトレーニング段階において、１枚の顔画像を入力し、該スタイル化モデルが該１枚の顔画像に対応するスタイル化顔図を出力し、さらに、スタイル化モデルのトレーニングが済んだ後に、スタイル化エンコーダネットワークは、固定のスタイル化特徴を出力することができる。スタイル化特徴とは、特定のスタイルを有する特徴である。

さらに、スタイル化エンコーダネットワーク及びスタイル化デコーダネットワークは、畳み込みニューラルネットワークであってもよく、またさらに、本実施例におけるスタイル化エンコーダネットワークは、１８個の畳み込み層を含む畳み込みニューラルネットワークであってもよく、ここで、各畳み込み層は１つの１＊５１２の特徴ベクトルを出力することができ、つまり、スタイル化エンコーダネットワークから抽出したスタイル化特徴は１つの１８＊（１＊５１２）の特徴ベクトルであってもよい。

Ｓ２０３において、サンプル顔画像を顔復元エンコーダネットワークに入力し、サンプル顔画像の顔特徴を得る。

本実施例において、顔復元エンコーダネットワークは、顔復元モデルにおけるエンコーダネットワークであってもよく、好ましくは、顔復元モデルは、顔復元エンコーダネットワークと顔復元デコーダネットワークとで構成され、１枚の顔画像を顔復元モデルに入力し、該顔復元モデルが入力された顔画像に極めて類似する顔画像を出力する。

さらに、顔復元エンコーダネットワークとは、顔画像の顔特徴を抽出するためのエンコーダネットワークである。顔特徴とは、リアルな顔における固有の特徴であり、顔形状、五官、肌色、あざ及び瘢痕などの特徴を含んでもよいが、これらに限定されない。

さらに、顔復元エンコーダネットワーク及び顔復元デコーダネットワークは、畳み込みニューラルネットワークであってもよく、またさらに、本実施例における顔復元エンコーダネットワークは、１８個の畳み込み層を含む畳み込みニューラルネットワークであってもよく、ここで、各畳み込み層は１つの１＊５１２の特徴ベクトルを出力することができ、つまり、顔復元エンコーダネットワークから抽出した顔特徴は１つの１８＊（１＊５１２）の特徴ベクトルであってもよい。

具体的には、サンプル顔画像を復元エンコーダネットワークに入力し、ネットワークの処理を経て、サンプル顔画像の顔特徴を得ることができる。

Ｓ２０４において、スタイル図生成ネットワークに基づいて、スタイル化特徴及びサンプル顔画像の顔特徴に応じて、サンプル顔画像のスタイル化顔図を生成する。

本実施例において、スタイル図生成ネットワークとは、スタイル化顔図を生成するデコーダネットワークであり、好ましくは、スタイル図生成ネットワークの初期入力は、１つのランダム値であってもよく、スタイル化特徴及びサンプル顔画像の顔特徴は、スタイル図生成ネットワークにおける各層に作用することができ、具体的には、スタイル化特徴及び顔特徴を同じ層が出力した特徴ベクトルに位置させ、スタイル図生成ネットワークにおける対応する層に共同で作用させ、例えばスタイル化特徴を３番目の層が出力した特徴ベクトルに位置させて顔特徴を３番目の層が出力した特徴ベクトルに位置させ、スタイル図生成ネットワークにおける３番目の層に共同で作用させる。

さらに、スタイル化特徴及び顔特徴のスタイル図生成ネットワークにおける各層での重み付けを調整することで、スタイル化顔図のスタイル化程度を制御することができる。

例示的に、本実施例におけるスタイル図生成ネットワークは、１８個の畳み込み層を含む畳み込みニューラルネットワークであってもよく、ここで、１～７層はスタイル化特徴に注目し、８～１８層はサンプル顔画像のリアルな顔の情報により注目している。つまり、１～７層で、スタイル化特徴の重み付け比率が顔特徴よりも高く構成されれば、最終的に取得するスタイル化顔図は、入力された顔図と大きく異なり、８～１８層で、顔特徴の重み付け比率がスタイル化特徴よりも高く構成されれば、最終的に取得するスタイル化顔図は、入力された顔画像により似ていることになる。

具体的には、スタイル化特徴及びサンプル顔画像の顔特徴をスタイル図生成ネットワークに入力し、ネットワークの処理を経て、サンプル顔画像のスタイル化顔図を得ることができる。

Ｓ２０５において、サンプル顔画像を３次元顔再構成モデルに入力し、座標変換パラメータ及びサンプル顔画像における顔パラメータを得る。

ここで、サンプル顔画像における顔パラメータは少なくとも、顔形状パラメータを含む。

Ｓ２０６において、サンプル顔画像の顔パラメータ及びスタイル化顔図に応じて、サンプル顔画像の３次元スタイル化顔イメージを決定する。

Ｓ２０７において、座標変換パラメータに基づいて、サンプル顔画像の３次元スタイル化顔イメージをカメラ座標系に変換して、変換後の３次元スタイル化顔イメージに対してレンダリングを行い、レンダリング図を得る。

Ｓ２０８において、レンダリング図及びサンプル顔画像のスタイル化顔図に応じて、３次元顔再構成モデルに対してトレーニングを行う。

本開示の実施例に係る技術態様は、スタイル化エンコーダネットワークからスタイル化特徴を抽出するとともに、取得したサンプル顔画像を顔復元エンコーダネットワークに入力することで、サンプル顔画像の顔特徴を得て、スタイル図生成ネットワークに基づいて、スタイル化特徴及びサンプル顔画像の顔特徴に応じて、サンプル顔画像のスタイル化顔図を生成し、その後、サンプル顔画像を３次元顔再構成モデルに入力し、座標変換パラメータ及びサンプル顔画像における顔パラメータを得て、サンプル顔画像の顔パラメータ及びスタイル化顔図に応じて、サンプル顔画像の３次元スタイル化顔イメージを決定し、さらに、座標変換パラメータに基づいて、サンプル顔画像の３次元スタイル化顔イメージをカメラ座標系に変換して、変換後の３次元スタイル化顔イメージに対してレンダリングを行い、レンダリング図を得て、最後に、レンダリング図及びサンプル顔画像のスタイル化顔図に応じて、３次元顔再構成モデルに対してトレーニングを行う。上記技術態様は、スタイル図生成ネットワークによりサンプル顔画像のスタイル化顔図を決定することで、サンプル顔画像のスタイル化顔図のスタイル化程度を制御可能にすることができる。

例示的に、上記実施例を基に、サンプル顔画像の顔パラメータ及びスタイル化顔図に応じて、サンプル顔画像の３次元スタイル化顔イメージを得る１つの好ましい形態は、サンプル顔画像における顔パラメータに基づいて、サンプル顔画像の３次元顔イメージを構築し、サンプル顔画像のスタイル化顔図に応じて、サンプル顔画像の３次元顔イメージに対して処理を行い、サンプル顔画像の３次元スタイル化顔イメージを得るものである。

本実施例において、３次元顔イメージとは、顔の３次元アバターである。

好ましくは、サンプル顔画像における顔パラメータに基づいて、サンプル顔画像の３次元顔イメージを構築する１つの好ましい形態は、サンプル顔画像における顔パラメータの顔形状パラメータを、予め定義された形状ベース（即ち、３次元特徴ベクトル）に線形加算して、サンプル顔画像の３次元顔イメージを得るものである。

サンプル顔画像における顔パラメータに基づいて、サンプル顔画像の３次元顔イメージを構築する別の好ましい形態は、サンプル顔画像における顔パラメータの顔形状パラメータ及び顔表情パラメータを、予め定義済みの形状表情ベースに線形加算して、サンプル顔画像の３次元顔イメージを得るものである。

サンプル顔画像の３次元顔イメージが取得された後に、サンプル顔画像の３次元顔イメージにサンプル顔画像のスタイル化顔図を表示させることができ、即ち、サンプル顔画像の３次元スタイル化顔イメージを得ることができる。

本態様は、３次元スタイル化顔イメージを構築する好ましい形態を提供し、後続のモデルのトレーニングのためにデータのサポートを提供することを理解できる。

図３は、本開示の実施例に係る更なる３次元顔再構成モデルトレーニング方法のフローチャートである。本実施例は上記実施例を基に、「サンプル顔画像のスタイル化顔図に応じて、サンプル顔画像の３次元顔イメージに対して処理を行い、サンプル顔画像の３次元スタイル化顔イメージを得る」ことに対してさらに最適化し、１つの好ましい実施態様を提供する。図３に示すように、本実施例の３次元顔再構成モデルトレーニング方法は、以下を含んでもよい。

Ｓ３０１において、サンプル顔画像、及びサンプル顔画像のスタイル化顔図を取得する。

Ｓ３０２において、サンプル顔画像を３次元顔再構成モデルに入力し、座標変換パラメータ及びサンプル顔画像における顔パラメータを得る。

Ｓ３０３において、サンプル顔画像における顔パラメータに基づいて、サンプル顔画像の３次元顔イメージを構築する。

Ｓ３０４において、サンプル顔画像のスタイル化顔図に対してテクスチャ展開を行い、初期テクスチャマップを得る。

本実施例において、テクスチャマップとは、２次元座標系における画像であり、具体的にテクスチャ座標（即ち、ＵＶ）における画像であってもよい。初期テクスチャマップとは、初期に得られた後処理を経ていないテクスチャマップである。

具体的には、設定されたテクスチャ展開論理に基づいて、サンプル顔画像のスタイル化顔図に対してテクスチャ展開を行い、初期テクスチャマップを得ることができる。

Ｓ３０５において、マップ回帰ネットワークに基づいて、初期テクスチャマップに対して遮蔽除去処理、ハイライト除去処理又は顔位置姿勢調整処理のうちの少なくとも１項を行い、目標テクスチャマップを得る。

本実施例において、マップ回帰ネットワークは予めトレーニング済みの、初期テクスチャマップに対して処理を行うための畳み込みニューラルネットワークであってもよい。目標テクスチャマップとは、処理を経た後のテクスチャマップである。

具体的には、初期テクスチャマップをマップ回帰ネットワークに入力し、初期テクスチャマップに対して処理、例えば遮蔽除去処理、ハイライト除去処理又は顔位置姿勢調整処理のうちの少なくとも１項を行い、目標テクスチャマップを得ることができる。

Ｓ３０６において、目標テクスチャマップに応じて、サンプル顔画像の３次元顔イメージに対して処理を行い、サンプル顔画像の３次元スタイル化顔イメージを得る。

具体的には、３次元顔イメージとテクスチャ座標マップ（即ち、ＵＶマップ）との間のマッピング関係に基づいて、目標テクスチャマップにおける画素点の色値（例えばＲＧＢ値）を、サンプル顔画像の３次元顔イメージにおける対応する頂点に与えて、サンプル顔画像の３次元スタイル化顔イメージを得ることができる。目標テクスチャマップをサンプル顔画像の３次元顔イメージに被覆し、サンプル顔画像の３次元スタイル化顔イメージを得ると理解されてもよい。

Ｓ３０７において、座標変換パラメータに基づいて、サンプル顔画像の３次元スタイル化顔イメージをカメラ座標系に変換して、変換後の３次元スタイル化顔イメージに対してレンダリングを行い、レンダリング図を得る。

Ｓ３０８において、レンダリング図及びサンプル顔画像のスタイル化顔図に応じて、３次元顔再構成モデルに対してトレーニングを行う。

本開示の実施例に係る技術態様は、取得したサンプル顔画像を３次元顔再構成モデルに入力することで、座標変換パラメータ及びサンプル顔画像における顔パラメータを得て、サンプル顔画像における顔パラメータに基づいて、サンプル顔画像の３次元顔イメージを構築し、その後、取得したサンプル顔画像のスタイル化顔図に対してテクスチャ展開を行い、初期テクスチャマップを得て、マップ回帰ネットワークに基づいて、初期テクスチャマップに対して遮蔽除去処理、ハイライト除去処理又は顔位置姿勢調整処理のうちの少なくとも１項を行い、目標テクスチャマップを得て、目標テクスチャマップに応じて、サンプル顔画像の３次元顔イメージに対して処理を行い、サンプル顔画像の３次元スタイル化顔イメージを得て、さらに、座標変換パラメータに基づいて、サンプル顔画像の３次元スタイル化顔イメージをカメラ座標系に変換して、変換後の３次元スタイル化顔イメージに対してレンダリングを行い、レンダリング図を得て、最後に、レンダリング図及びサンプル顔画像のスタイル化顔図に応じて、３次元顔再構成モデルに対してトレーニングを行う。上記技術態様は、マップ回帰ネットワークにより初期テクスチャマップに対して処理を行うことで、遮蔽、ハイライトもしくは顔位置姿勢ずれによる３次元スタイル化顔イメージを決定する時への干渉を避け、決定された３次元スタイル化顔イメージをより精確にする。

上記実施例を基に、本開示の１つの好ましい形態として、レンダリング図及びサンプル顔画像のスタイル化顔図に応じて、３次元顔再構成モデルに対してトレーニングを行うことはさらに、レンダリング図及びサンプル顔画像のスタイル化顔図に応じて、３次元顔再構成モデル及びマップ回帰ネットワークに対して合同トレーニングを行うものであってもよい。

具体的には、設定された損失関数に基づいて、レンダリング図及びサンプル顔画像のスタイル化顔図に応じて、トレーニング損失を決定し、その後、トレーニング損失に基づいて３次元顔再構成モデル及びマップ回帰ネットワークに対して合同トレーニングを行い、絶えず３次元顔再構成モデルのパラメータ、及びマップ回帰ネットワークのパラメータを最適化することができる。

３次元顔再構成モデル及びマップ回帰ネットワークに対して合同トレーニングを行い、絶えずマップ回帰ネットワーク及び３次元顔再構成モデルを最適化することで、３次元顔再構成モデルの精度をより高くすることを理解できる。

図４Ａは、本開示の実施例に係るさらに他の３次元顔再構成モデルトレーニング方法のフローチャートである。図４Ｂは、本開示の実施例に係る１つの３次元顔再構成モデルのトレーニング過程の模式図である。本実施例は上記実施例を基に、それぞれ「サンプル顔画像を３次元顔再構成モデルに入力し、座標変換パラメータ及びサンプル顔画像における顔パラメータを得る」ことと「座標変換パラメータに基づいて、サンプル顔画像の３次元スタイル化顔イメージをカメラ座標系に変換して、変換後の３次元スタイル化顔イメージに対してレンダリングを行い、レンダリング図を得る」ことに対してさらに最適化し、１つの好ましい実施態様を提供する。図４Ａ及び４Ｂに示すものを参照し、本実施例の３次元顔再構成モデルトレーニング方法は、以下を含んでもよい。

Ｓ４０１において、サンプル顔画像、及びサンプル顔画像のスタイル化顔図を取得する。

Ｓ４０２において、サンプル顔画像を３次元顔再構成モデルに入力し、オイラー角、座標変換パラメータのうちの平行移動変換パラメータ、拡縮変換パラメータ、及びサンプル顔画像における顔パラメータを得る。

本実施例において、オイラー角は即ち、人の頭の向き角度である。

具体的には、座標変換パラメータが回転パラメータを含まない場合に、サンプル顔画像を３次元顔再構成モデルに入力し、モデル処理を経て、オイラー角、座標変換パラメータのうちの平行移動変換パラメータ、拡縮変換パラメータ、及びサンプル顔画像における顔パラメータを得ることができる。

Ｓ４０３において、サンプル顔画像における顔パラメータ及びスタイル化顔図に応じて、サンプル顔画像の３次元スタイル化顔イメージを決定する。

Ｓ４０４において、平行移動変換パラメータ及び拡縮変換パラメータに基づいて、サンプル顔画像の３次元スタイル化顔イメージをカメラ座標系にアフィン変換する。

具体的には、平行移動変換パラメータ及び拡縮変換パラメータに基づいて、サンプル顔画像の３次元スタイル化顔イメージをカメラ座標系にアフィン変換することができる。

Ｓ４０５において、カメラ視野角及びオイラー角に基づいて、アフィン変換後の３次元スタイル化顔イメージに対してレンダリングを行い、レンダリング図を得る。

具体的には、カメラ視野角及びオイラー角を採用して微分可能レンダラーにおけるパラメータに対して調整を行い、その後、アフィン変換後の３次元スタイル化顔イメージを微分可能レンダラーに入力してレンダリングを行い、レンダリング図を得てもよい。

Ｓ４０６において、レンダリング図及びサンプル顔画像のスタイル化顔図に応じて、３次元顔再構成モデルに対してトレーニングを行う。

具体的には、予め設定された損失関数に基づいて、レンダリング図及びサンプル顔画像のスタイル化顔図に応じて、トレーニング損失を決定し、その後、トレーニング損失に応じて３次元顔再構成モデルに対してトレーニングを行い、絶えず３次元顔再構成モデルにおけるネットワークパラメータを最適化してもよい。

本開示の実施例に係る技術態様は、取得したサンプル顔画像を３次元顔再構成モデルに入力することで、オイラー角、座標変換パラメータのうちの平行移動変換パラメータ、拡縮変換パラメータ、及びサンプル顔画像における顔パラメータを得て、サンプル顔画像における顔パラメータ及び取得したサンプル顔画像のスタイル化顔図に基づいて、サンプル顔画像の３次元スタイル化顔イメージを決定し、さらに、平行移動変換パラメータ及び拡縮変換パラメータに基づいて、サンプル顔画像の３次元スタイル化顔イメージをカメラ座標系にアフィン変換し、カメラ視野角及びオイラー角に基づいて、アフィン変換後の３次元スタイル化顔イメージに対してレンダリングを行い、レンダリング図を得て、最後に、レンダリング図及びサンプル顔画像のスタイル化顔図に応じて、３次元顔再構成モデルに対してトレーニングを行う。上記技術態様は、カメラ変換パラメータが回転パラメータを含まない場合に、さらに、３次元顔再構成モデルにより、オイラー角を得ることができ、これにより、レンダリング図をより精確に決定することができる。

図５は、本開示の実施例に係る１つの３次元顔イメージ生成方法のフローチャートである。本実施例は、如何に３次元顔イメージを生成するかという場合に適用される。該方法は、３次元顔イメージ生成装置により実行可能であり、該装置は、ソフトウェア及び／又はハードウェアの方式を採用して実現可能であり、且つ３次元顔イメージ生成機能を担う電子機器、例えばサーバに集積可能である。図５に示すように、本実施例の３次元顔イメージ生成方法は、以下を含んでもよい。

Ｓ５０１において、目標顔画像、及び目標顔画像のスタイル化顔図を取得する。

本実施例において、目標顔画像とは、３次元スタイル化を行う必要がある顔画像である。

具体的には、ヒューマンコンピュータインタラクションインターフェイス、特定のアプリ、もしくはアプレットにより、目標顔画像を取得し、目標顔画像に対して異スタイル化処理を行って、目標顔画像のスタイル化顔図を取得することができる。好ましくは、異スタイル生成モデルに基づいて、目標顔画像に対して異スタイル化処理を行ってもよい。

Ｓ５０２において、目標顔画像を３次元顔再構成モデルに入力し、目標顔画像における顔パラメータを得る。

本実施例において、３次元顔再構成モデルは、上記のいずれかの実施例に係る３次元顔再構成モデルトレーニング方法に基づいてレーニングして得られる。目標顔画像における顔パラメータとは即ち、目標顔画像における顔の３次元顔イメージの再構成に必要な幾何パラメータであり、顔形状パラメータを含んでもよく、さらに、目標顔画像における顔パラメータは、顔表情パラメータも含む。

好ましくは、目標顔画像を３次元顔再構成モデルに入力し、モデル処理を経て、目標顔画像における顔パラメータを得てもよい。

Ｓ５０３において、目標顔画像における顔パラメータ及びスタイル化顔図に応じて、目標顔画像の３次元スタイル化顔イメージを決定する。

好ましくは、３次元スタイル化顔イメージの生成論理に基づいて、目標顔画像の顔パラメータ及びスタイル化顔図に応じて、目標顔画像の３次元スタイル化顔イメージを生成する。例えば、目標顔画像の顔パラメータ及びスタイル化顔図を、予めトレーニング済みの３次元スタイル化モデルに入力し、該３次元スタイル化モデルにより目標顔画像の３次元スタイル化顔イメージを出力することができる。

本開示の実施例に係る技術態様は、取得した目標顔画像を３次元顔再構成モデルに入力することで、目標顔画像における顔パラメータを得て、その後、目標顔画像における顔パラメータ及び取得した目標顔画像のスタイル化顔図に応じて、目標顔画像の３次元スタイル化顔イメージを決定する。上記技術態様は、異スタイルのシーンにおいて、３次元顔再構成モデルにより、３次元スタイル化顔イメージを精確に構築することができる。

図６は、本開示の実施例に係る他の３次元顔イメージ生成方法のフローチャートである。本実施例は上記実施例を基に、「目標顔画像のスタイル化顔図を取得する」ことに対してさらに最適化し、１つの好ましい実施態様を提供する。図６に示すように、本実施例の３次元顔イメージ生成方法は、以下を含んでもよい。

Ｓ６０１において、目標顔画像を取得する。

Ｓ６０２において、スタイル化エンコーダネットワークからスタイル化特徴を抽出する。

本実施例において、スタイル化エンコーダネットワークは、スタイル化モデルにおけるエンコーダネットワークであってもよく、好ましくは、スタイル化モデルは、スタイル化エンコーダネットワークとスタイル化デコーダネットワークとで構築され、スタイル化モデルに対するトレーニング段階において、１枚の顔画像を入力し、該スタイル化モデルが該１枚の顔画像に対応するスタイル化顔図を出力し、さらに、スタイル化モデルのトレーニングが済んだ後に、スタイル化エンコーダネットワークが、固定のスタイル化特徴を出力することができる。スタイル化特徴とは、特定のスタイルを有する特徴である。

Ｓ６０３において、目標顔画像を顔復元エンコーダネットワークに入力し、目標顔画像の顔特徴を得る。

具体的には、目標顔画像を復元エンコーダネットワークに入力し、ネットワークの処理を経て、目標顔画像の顔特徴を得ることができる。

Ｓ６０４において、スタイル図生成ネットワークに基づいて、スタイル化特徴及び目標顔画像の顔特徴に応じて、目標顔画像のスタイル化顔図を生成する。

本実施例において、スタイル図生成ネットワークとは、スタイル化顔図を生成するデコーダネットワークであり、好ましくは、スタイル図生成ネットワークの初期入力は、１つのランダム値であってもよく、スタイル化特徴及び目標顔画像の顔特徴は、スタイル図生成ネットワークにおける各層に作用することができ、具体的には、スタイル化特徴及び顔特徴を同じ層が出力した特徴ベクトルに位置させ、スタイル図生成ネットワークにおける対応する層に共同で作用させ、例えばスタイル化特徴を３番目の層が出力した特徴ベクトルに位置させて顔特徴を３番目の層が出力した特徴ベクトルに位置させ、スタイル図生成ネットワークにおける３番目の層に共同で作用させる。

例示的に、スタイル図生成ネットワークは、１８個の畳み込み層を含む畳み込みニューラルネットワークであってもよく、ここで、１～７層はスタイル化特徴に注目しており、８～１８層は目標顔画像のリアルな顔の情報により注目している。つまり、１～７層で、スタイル化特徴の重み付け比率が顔特徴よりも高く構成されれば、最終的に取得するスタイル化顔図は、入力された顔図と大きく異なり、８～１８層で、顔特徴の重み付け比率がスタイル化特徴よりも高く構成されれば、最終的に取得するスタイル化顔図は、入力された顔画像により似ていることになる。

具体的には、スタイル化特徴及び目標顔画像の顔特徴をスタイル図生成ネットワークに入力し、ネットワークの処理を経て、目標顔画像のスタイル化顔図を得ることができる。

Ｓ６０５において、目標顔画像を３次元顔再構成モデルに入力し、目標顔画像における顔パラメータを得る。

Ｓ６０６において、目標顔画像における顔パラメータ及びスタイル化顔図に応じて、目標顔画像の３次元スタイル化顔イメージを決定する。

本開示の実施例に係る技術態様は、スタイル化エンコーダネットワークからスタイル化特徴を抽出し、目標顔画像を顔復元エンコーダネットワークに入力することで、目標顔画像の顔特徴を得て、スタイル図生成ネットワークに基づいて、スタイル化特徴及び目標顔画像の顔特徴に応じて、目標顔画像のスタイル化顔図を生成し、その後、目標顔画像を３次元顔再構成モデルに入力し、目標顔画像における顔パラメータを得て、さらに、目標顔画像における顔パラメータ及びスタイル化顔図に応じて、目標顔画像の３次元スタイル化顔イメージを決定する。上記技術態様は、スタイル図生成ネットワークにより目標顔画像のスタイル化顔図を決定することで、目標顔画像のスタイル化顔図のスタイル化程度を制御可能にすることができる。

例示的に、上記実施例を基に、目標顔画像の顔パラメータ及びスタイル化顔図に応じて、目標顔画像の３次元スタイル化顔イメージを得る１つの好ましい形態は、目標顔画像における顔パラメータに基づいて、目標顔画像の３次元顔イメージを構築し、目標顔画像のスタイル化顔図に応じて、目標顔画像の３次元顔イメージに対して処理を行い、目標顔画像の３次元スタイル化顔イメージを得るものである。

好ましくは、目標顔画像における顔パラメータに基づいて、目標顔画像の３次元顔イメージを構築する１つの好ましい形態は、目標顔画像における顔パラメータの顔形状パラメータを、予め定義された形状ベース（即ち、３次元特徴ベクトル）に線形加算して、目標顔画像の３次元顔イメージを得るものである。

目標顔画像における顔パラメータに基づいて、目標顔画像の３次元顔イメージを構築する別の好ましい形態は、目標顔画像における顔パラメータの顔形状パラメータ及び顔表情パラメータを、予め定義済みの形状表情ベースに線形加算して、目標顔画像の３次元顔イメージを得るものである。

目標顔画像の３次元顔イメージが取得された後に、目標顔画像の３次元顔イメージに目標顔画像のスタイル化顔図を表示させることができ、そうすれば、目標顔画像の３次元スタイル化顔イメージを得ることができる。

本態様は、３次元スタイル化顔イメージを構築する好ましい形態を提供し、後続の３次元顔イメージの生成のためにデータのサポートを提供するということを理解できる。

図７は、本開示の実施例に係る更なる３次元顔イメージ生成方法のフローチャートである。本実施例は上記実施例を基に、「目標顔画像のスタイル化顔図に応じて、目標顔画像の３次元顔イメージに対して処理を行い、目標顔画像の３次元スタイル化顔イメージを得る」ことに対してさらに最適化し、１つの好ましい実施態様を提供する。図７に示すように、本実施例の３次元顔イメージ生成方法は、以下を含んでもよい。

Ｓ７０１において、目標顔画像、及び目標顔画像のスタイル化顔図を取得する。

Ｓ７０２において、目標顔画像を３次元顔再構成モデルに入力し、目標顔画像における顔パラメータを得る。

Ｓ７０３において、目標顔画像における顔パラメータに基づいて、目標顔画像の３次元顔イメージを構築する。

Ｓ７０４において、目標顔画像のスタイル化顔図に対してテクスチャ展開を行い、処理待ちのテクスチャマップを得る。

本実施例において、テクスチャマップとは、２次元座標系における画像であり、具体的にテクスチャ座標（即ち、ＵＶ）における画像であってもよい。

具体的には、設定されたテクスチャ展開論理に基づいて、目標顔画像のスタイル化顔図に対してテクスチャ展開を行い、処理待ちのテクスチャマップを得ることができる。

Ｓ７０５において、マップ回帰ネットワークに基づいて、処理待ちのテクスチャマップに対して遮蔽除去処理、ハイライト除去処理又は顔位置姿勢調整処理のうちの少なくとも１項を行い、処理を経たテクスチャマップを得る。

本実施例において、マップ回帰ネットワークとは予めトレーニング済みの、処理待ちのテクスチャマップに対して処理を行うことに使用可能な畳み込みニューラルネットワークであってもよい。

具体的には、処理待ちのテクスチャマップをマップ回帰ネットワークに入力し、ネットワークの処理、例えば遮蔽除去処理、ハイライト除去処理又は顔位置姿勢調整処理のうちの少なくとも１項を経て、処理を経たテクスチャマップを得る。

Ｓ７０６において、処理を経たテクスチャマップに応じて、目標顔画像の３次元顔イメージに対して処理を行い、目標顔画像の３次元スタイル化顔イメージを得る。

具体的には、３次元顔イメージとＵＶマップとの間のマッピング関係に基づいて、処理を経たテクスチャマップにおける画素点のＲＧＢ値を、目標顔画像の３次元顔イメージにおける対応する頂点に与えて、目標顔画像の３次元スタイル化顔イメージを得る。処理を経たテクスチャマップを目標顔画像の３次元顔イメージに被覆し、目標顔画像の３次元スタイル化顔イメージを得ると理解されてもよい。

本開示の実施例に係る技術態様は、取得した目標顔画像を３次元顔再構成モデルに入力することで、目標顔画像における顔パラメータを得て、その後、目標顔画像のスタイル化顔図に対してテクスチャ展開を行い、処理待ちのテクスチャマップを得て、マップ回帰ネットワークに基づいて、処理待ちのテクスチャマップに対して遮蔽除去処理、ハイライト除去処理又は顔位置姿勢調整処理のうちの少なくとも１項を行い、処理を経たテクスチャマップを得て、さらに、処理を経たテクスチャマップに応じて、目標顔画像の３次元顔イメージに対して処理を行い、目標顔画像の３次元スタイル化顔イメージを得る。上記技術態様は、テクスチャマップを導入して目標顔画像の３次元スタイル化顔イメージを得ることで、３次元スタイル化顔イメージをより正確にすることができ、さらに、マップ回帰ネットワークにより初期テクスチャマップに対して処理を行うことで、遮蔽、ハイライトもしくは顔位置姿勢ずれによる３次元スタイル化顔イメージを決定する時への干渉を避ける。

図８は、本開示の実施例に係る１つの３次元顔再構成モデルトレーニング装置の構造模式図である。本実施例は、如何に３次元顔再構成モデルに対してトレーニングを行うかという場合に適用される。該装置は、ソフトウェア及び／又はハードウェアの方式を採用して実現可能であり、且つ３次元顔再構成モデルのトレーニング機能を担う電子機器、例えばサーバに集積可能である。図８に示すように、本実施例の３次元顔再構成モデルトレーニング装置８００は、
サンプル顔画像、及びサンプル顔画像のスタイル化顔図を取得するためのサンプル画像取得モジュール８０１と、
サンプル顔画像を３次元顔再構成モデルに入力し、座標変換パラメータ及びサンプル顔画像における顔パラメータを得るためのサンプル顔パラメータ決定モジュール８０２と、
サンプル顔画像における顔パラメータ及びスタイル化顔図に応じて、サンプル顔画像の３次元スタイル化顔イメージを決定するためのサンプルスタイル化顔イメージ決定モジュール８０３と、
座標変換パラメータに基づいて、サンプル顔画像の３次元スタイル化顔イメージをカメラ座標系に変換して、変換後の３次元スタイル化顔イメージに対してレンダリングを行い、レンダリング図を得るためのレンダリング図決定モジュール８０４と、
レンダリング図及びサンプル顔画像のスタイル化顔図に応じて、３次元顔再構成モデルに対してトレーニングを行うための顔再構成モデルトレーニングモジュール８０５と、を含んでもよい。

本開示の実施例に係る技術態様は、取得したサンプル顔画像を３次元顔再構成モデルに入力することで、座標変換パラメータ及びサンプル顔画像における顔パラメータを得て、サンプル顔画像における顔パラメータ及び取得したサンプル顔画像のスタイル化顔図に応じて、サンプル顔画像の３次元スタイル化顔イメージを決定し、その後、座標変換パラメータに基づいて、サンプル顔画像の３次元スタイル化顔イメージをカメラ座標系に変換して、変換後の３次元スタイル化顔イメージに対してレンダリングを行い、レンダリング図を得て、さらに、レンダリング図及びサンプル顔画像のスタイル化顔図に応じて、３次元顔再構成モデルに対してトレーニングを行う。上記技術態様は、異スタイルの３次元顔再構成のシーンにおいて、顔キーポイントのマーキングを行う必要がなく、サンプル顔画像及びスタイル化顔図によれば、３次元顔再構成モデルをトレーニングすることができ、サンプルのマーキングコストを低減する。さらに、異スタイルのシーンにおいて、本態様によってトレーニングされた３次元顔再構成モデルに基づいて、３次元顔の構築に必要なデータを精確に取得することができ、これにより、３次元スタイル化顔イメージを精確に構築することができる。

さらに、サンプル画像取得モジュール８０１は具体的に、
スタイル化エンコーダネットワークからスタイル化特徴を抽出し、
サンプル顔画像を顔復元エンコーダネットワークに入力し、サンプル顔画像の顔特徴を得て、
スタイル図生成ネットワークに基づいて、スタイル化特徴及びサンプル顔画像の顔特徴に応じて、サンプル顔画像のスタイル化顔図を生成することに用いられる。

さらに、サンプルスタイル化顔イメージ決定モジュール８０３は、
サンプル顔画像における顔パラメータに基づいて、サンプル顔画像の３次元顔イメージを構築するためのサンプル３次元顔イメージ決定ユニットと、
サンプル顔画像のスタイル化顔図に応じて、サンプル顔画像の３次元顔イメージに対して処理を行い、サンプル顔画像の３次元スタイル化顔イメージを得るためのサンプルスタイル化顔イメージ決定ユニットと、を含む。

さらに、サンプルスタイル化顔イメージ決定ユニットは具体的に、
サンプル顔画像のスタイル化顔図に対してテクスチャ展開を行い、初期テクスチャマップを得て、
マップ回帰ネットワークに基づいて、初期テクスチャマップに対して遮蔽除去処理、ハイライト除去処理又は顔位置姿勢調整処理のうちの少なくとも１項を行い、目標テクスチャマップを得て、
目標テクスチャマップに応じて、サンプル顔画像の３次元顔イメージに対して処理を行い、サンプル顔画像の３次元スタイル化顔イメージを得ることに用いられる。

さらに、顔再構成モデルトレーニングモジュール８０５は具体的に、
レンダリング図及びサンプル顔画像のスタイル化顔図に応じて、３次元顔再構成モデル及びマップ回帰ネットワークに対して合同トレーニングを行うことに用いられる。

さらに、顔再構成モデルトレーニングモジュール８０５は具体的に、
サンプル顔画像のスタイル化顔図からスタイル化顔領域を抽出し、
レンダリング図の背景色に応じて、スタイル化顔領域の背景色に対して調整を行い、
レンダリング図及び調整後のスタイル化顔領域に応じて、画像対照損失を決定し、
画像対照損失に応じて、３次元顔再構成モデルに対してトレーニングを行うことにさらに用いられる。

さらに、サンプル顔パラメータ決定モジュール８０２は具体的に、
サンプル顔画像を３次元顔再構成モデルに入力し、オイラー角、座標変換パラメータのうちの平行移動変換パラメータ、拡縮変換パラメータ、及びサンプル顔画像における顔パラメータを得ることに用いられ、
対応して、レンダリング図決定モジュール８０４は具体的に、
平行移動変換パラメータ及び拡縮変換パラメータに基づいて、サンプル顔画像の３次元スタイル化顔イメージをカメラ座標系にアフィン変換し、
カメラ視野角及びオイラー角に基づいて、アフィン変換後の３次元スタイル化顔イメージに対してレンダリングを行い、レンダリング図を得ることに用いられる。

さらに、サンプル顔画像における顔パラメータは、顔形状パラメータを含む。

図９は、本開示の実施例に係る１つの３次元顔イメージ生成装置の構造模式図である。本実施例は、如何に３次元顔イメージを生成するかという場合に適用される。該装置は、ソフトウェア及び／又はハードウェアの方式を採用して実現可能であり、且つ３次元顔イメージ生成機能を担う電子機器、例えばサーバに集積可能である。図９に示すように、本実施例の３次元顔イメージ生成装置９００は、
目標顔画像、及び目標顔画像のスタイル化顔図を取得するための目標画像取得モジュール９０１と、
目標顔画像を３次元顔再構成モデルに入力し、目標顔画像における顔パラメータを得て、ここで、３次元顔再構成モデルは、上記のいずれかの実施例に係る３次元顔再構成モデルトレーニング方法に基づいてレーニングして得られるための目標顔パラメータ決定モジュール９０２と、
目標顔画像における顔パラメータ及びスタイル化顔図に応じて、目標顔画像の３次元スタイル化顔イメージを決定するための目標スタイル化顔イメージ決定モジュール９０３と、を含んでもよい。

本開示の実施例に係る技術態様は、取得した目標顔画像を３次元顔再構成モデルに入力することで、目標顔画像における顔パラメータを得て、その後、目標顔画像における顔パラメータ及び取得した目標顔画像のスタイル化顔図に基づいて、目標顔画像の３次元スタイル化顔イメージを決定する。上記技術態様は、異スタイルのシーンにおいて、３次元顔再構成モデルにより、３次元スタイル化顔イメージを精確に構築することができる。

さらに、目標画像取得モジュール９０１は具体的に、
スタイル化エンコーダネットワークからスタイル化特徴を抽出し、
目標顔画像を顔復元エンコーダネットワークに入力し、目標顔画像の顔特徴を得て、
スタイル図生成ネットワークに基づいて、スタイル化特徴及び目標顔画像の顔特徴に応じて、目標顔画像のスタイル化顔図を生成することに用いられる。

さらに、目標スタイル化顔イメージ決定モジュール９０３は、
サンプル顔画像における顔パラメータに基づいて、サンプル顔画像の３次元顔イメージを構築するための目標３次元顔イメージ決定ユニットと、
サンプル顔画像のスタイル化顔図に応じて、サンプル顔画像の３次元顔イメージに対して処理を行い、サンプル顔画像の３次元スタイル化顔イメージを得るための目標スタイル化顔イメージ決定ユニットと、を含む。

さらに、目標スタイル化顔イメージ決定ユニットは具体的に、
目標顔画像のスタイル化顔図に対してテクスチャ展開を行い、処理待ちのテクスチャマップを得て、
マップ回帰ネットワークに基づいて、処理待ちのテクスチャマップに対して遮蔽除去処理、ハイライト除去処理又は顔位置姿勢調整処理のうちの少なくとも１項を行い、処理を経たテクスチャマップを得て、
処理を経たテクスチャマップに応じて、目標顔画像の３次元顔イメージに対して処理を行い、目標顔画像の３次元スタイル化顔イメージを得ることに用いられる。

さらに、目標顔画像における顔パラメータは、顔形状パラメータを含む。

本開示の実施例によれば、本開示は、電子機器、可読記憶媒体及びコンピュータプログラムをさらに提供する。

図１０は、本開示の実施例の３次元顔再構成モデルトレーニング又は３次元顔イメージ生成方法を実現するための電子機器のブロック図である。図１０には、本開示の実施例を実施するために使用可能で例示的な電子機器１０００の模式的なブロック図が示されている。電子機器は、様々な形式のデジタルコンピュータ、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータを表すように意図される。電子機器は、様々な形式の移動装置、例えば、パーソナルデジタル処理、セルラーフォン、スマートフォン、ウェアラブルデバイス及び他の類似的なコンピューティング装置をさらに表すことができる。本明細書に示す部品、これらの接続と関係、及びこれらの機能は例示的なものに過ぎず、本明細書における説明及び／又は要求された本開示の実現を限定することは意図されない。

図１０に示すように、電子機器１０００は、リードオンリーメモリ（ＲＯＭ：ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１００２に記憶されたコンピュータプログラム又は記憶ユニット１００８からランダムアクセスメモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１００３にロードされたコンピュータプログラムによって、様々な適切な動作及び処理を実行可能な計算ユニット１００１を備える。ＲＡＭ１００３には、電子機器１０００の操作に必要となる様々なプログラム及びデータも記憶可能である。計算ユニット１００１、ＲＯＭ１００２及びＲＡＭ１００３はバス１００４によって互いに接続される。入出力（Ｉ／Ｏ：ｉｎｐｕｔ／ｏｕｔｐｕｔ）インターフェース１００５もバス１００４に接続される。

Ｉ／Ｏインターフェース１００５には、例えばキーボード、マウス等の入力ユニット１００６と、例えば様々なタイプのディスプレイ、スピーカ等の出力ユニット１００７と、例えば磁気ディスク、光ディスク等の記憶ユニット１００８と、例えばネットワークカード、モデム、無線通信送受信機等の通信ユニット１００９と、を備える電子機器１０００における複数の部品が接続される。通信ユニット１００９は、電子機器１０００が例えばインターネットのコンピュータネットワーク及び／又は様々な電気通信ネットワークを介して、他のデバイスと情報／データを交換することを可能にする。

計算ユニット１００１は、様々な、処理及び計算能力を有する汎用及び／又は専用処理構成要素であってもよい。計算ユニット１００１のいくつかの例には、中央処理ユニット（ＣＰＵ）、グラフィック処理ユニット（ＧＰＵ）、様々な専用の人工知能（ＡＩ）計算チップ、様々な、機械学習モデルのアルゴリズムを実行する計算ユニット、デジタルシグナルプロセッサ（ＤＳＰ）、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が含まれるが、これらに限定されない。計算ユニット１００１は、上記に説明された各方法及び処理、例えば３次元顔再構成モデルトレーニング又は３次元顔イメージ生成方法を実行する。例えば、いくつかの実施例において、３次元顔再構成モデルトレーニング又は３次元顔イメージ生成方法は、コンピュータソフトウェアプログラムとして実現可能であり、これは機械可読媒体、例えば記憶ユニット１００８に有形的に含まれる。いくつかの実施例において、コンピュータプログラムは、一部又は全部がＲＯＭ１００２及び／又は通信ユニット１００９を介して電子機器１０００にロード及び／又はインストールされることができる。コンピュータプログラムがＲＡＭ１００３にロードされて計算ユニット１００１によって実行されると、上記した３次元顔再構成モデルトレーニング又は３次元顔イメージ生成方法の１つ又は複数のステップを実行可能である。或いは、他の実施例において、計算ユニット１００１は、他の任意の適切な方式によって（例えば、ファームウェアによって）、３次元顔再構成モデルトレーニング又は３次元顔イメージ生成方法を実行するように構成される。

本明細書において、上記したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特殊用途向け汎用品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータのハードウェア、ファームウェア、ソフトウェア、及び／又はこれらの組合せで実現可能である。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムで実施されることを含んでもよく、該１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び／又は解釈されることができ、該プログラマブルプロセッサは、メモリシステム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信して、データ及び命令を該メモリシステム、該少なくとも１つの入力装置、及び該少なくとも１つの出力装置に伝送することができる専用又は汎用プログラマブルプロセッサであってもよい。

本開示の方法を実施するためのプログラムコードは、１つ又は複数のプログラミング言語の任意の組合せを採用して書かれてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供可能であり、これにより、プログラムコードがプロセッサ又はコントローラによって実行されると、フローチャート及び／又はブロック図で規定された機能／操作が実施される。プログラムコードは、完全に機器で実行されても、部分的に機器で実行されてもよく、独立ソフトウェアパッケージとして、部分的に機器で実行され且つ部分的にリモート機器で実行され、又は、完全にリモート機器又はサーバで実行されてもよい。

本開示のコンテキストにおいて、機械可読媒体は、命令実行システム、装置又は機器に使用され、又は命令実行システム、装置又は機器と組み合わせて使用されるプログラムを含むか又は記憶することができる有形的な媒体であってもよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体には、電子的なもの、磁気的なもの、光学的なもの、電磁的なもの、赤外線的なもの、又は半導体システム、装置又は機器、又は上記の内容の任意の適切な組合せが含まれてもよいが、これらに限定されない。機械可読記憶媒体のより具体的な例示は、１つ又は複数のラインによる電気的な接続、可搬型コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、可搬型コンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光メモリデバイス、磁気メモリデバイス、又は上記の内容の任意の適切な組合せを含む。

ユーザとのインタラクションを提供するために、ここで説明されるシステム及び技術はコンピュータで実施されることができ、該コンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニター）、及びキーボードやポインティング装置（例えば、マウス又はトラックボール）を有し、ユーザは、該キーボードや該ポインティング装置によって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供することに使用可能であり、例えば、ユーザに提供されるフィードバックは、任意の形式の感覚フィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、且つ、ユーザからの入力を任意の形式（音入力、音声入力又は触感入力を含む）で受信することができる。

ここで説明されるシステム及び技術は、バックグランドコンポーネントを含むコンピューティングシステム（例えば、データサーバとして）、又は、ミドルウェアコンポーネントを含むコンピューティングシステム（アプリケーションサーバなど）、または、フロントエンドコンポーネントを含むコンピューティングシステム（図形式のユーザインターフェースやネットワークブラウザを有するユーザコンピュータであり、ユーザは、該図形式のユーザインターフェースや該ネットワークブラウザを通じてここで説明されるシステム及び技術の実施形態とイントラクションをすることができる）、又はこのようなバックグランドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組合せを含むコンピューティングシステムにおいて実施されてもよい。システムのコンポーネントは、任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によって互いに接続されてもよい。通信ネットワークの例示は、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）及びインターネットを含む。

コンピュータシステムは、クライアント端末及びサーバを含んでもよい。クライアント端末及びサーバは一般的に、互いに離れており、且つ通常、通信ネットワークを介してイントラクションをしている。相応するコンピュータでの実行、及び、互いにクライアント端末・サーバという関係を有するコンピュータプログラムにより、クライアント端末とサーバとの関係を築き上げる。サーバは、クラウドサーバであってもよいし、分散型システムのサーバ、又はブロックチェーンと組み合わせられたサーバであってもよい。

人工知能は、コンピュータに人間のある思考過程及びインテリジェント行為（例えば、学習、推論、思考、計画など）をシミュレートさせることを研究する学科であり、ハードウェアレベルの技術もソフトウェアレベルの技術もある。人工知能ハードウェア技術は一般的に、センサ、専用人工知能チップ、クラウドコンピューティング、分散型ストレージ、ビッグデータ処理などの技術を含み、人工知能ソフトウェア技術は主に、コンピュータビジョン技術、音声認識技術、自然言語処理技術及び機械学習／ディープラーニング、ビッグデータ処理技術、知識グラフ技術などのいくつかの方向を含む。

クラウドコンピューティング（ｃｌｏｕｄｃｏｍｐｕｔｉｎｇ）とは、ネットワークを介して弾性的で拡張可能な共用する物理又は仮想的なリソースプールにアクセスして、ニーズに応じて、セルフサービスの方式でリソースに対して配備及び管理を行うことができる技術体系であり、リソースはサーバ、オペレーティングシステム、ネットワーク、ソフトウェア、アプリケーション及びストレージデバイスなどを含んでもよい。クラウドコンピューティング技術により、人工知能、ブロックチェーンなどの技術の応用、モデルのトレーニングのために効率がよい強いデータ処理能力を提供することができる。

上記に示した様々な形式のフローを使用し、ステップを並べ替えたり、追加したり、削除したりすることができることを理解すべきである。例えば、本開示に記載の各ステップは、本開示に開示された技術案の所望の結果が実現できれば、並行して実行されてよいし、順次実行されてもよいし、異なる順序で実行されてもよく、本明細書において、ここでは限定されない。

上記の具体的な実施形態は、本願の保護範囲を限定するものではない。当業者であれば、設計要求や他の要素に基づいて様々な修正、組み合わせ、サブ組み合わせ及び置換が可能であることを理解すべきである。任意の、本開示の精神及び原則内で行われる修正、均等な置換及び改良などは、いずれも本開示の保護範囲に含まれるべきである。

Claims

サンプル顔画像、及び前記サンプル顔画像のスタイル化顔図を取得することと、
前記サンプル顔画像を３次元顔再構成モデルに入力し、座標変換パラメータ及び前記サンプル顔画像における顔パラメータを得ることと、
前記サンプル顔画像の顔パラメータ及びスタイル化顔図に応じて、前記サンプル顔画像の３次元スタイル化顔イメージを決定することと、
前記座標変換パラメータに基づいて、前記サンプル顔画像の３次元スタイル化顔イメージをカメラ座標系に変換して、変換後の３次元スタイル化顔イメージに対してレンダリングを行い、レンダリング図を得ることと、
前記レンダリング図及び前記サンプル顔画像のスタイル化顔図に応じて、前記３次元顔再構成モデルに対してトレーニングを行うことと、を含む、
ことを特徴とする３次元顔再構成モデルトレーニング方法。
前記サンプル顔画像のスタイル化顔図を取得することは、
スタイル化エンコーダネットワークからスタイル化特徴を抽出することと、
前記サンプル顔画像を顔復元エンコーダネットワークに入力し、前記サンプル顔画像の顔特徴を得ることと、
スタイル図生成ネットワークに基づいて、前記スタイル化特徴及び前記サンプル顔画像の顔特徴に応じて、前記サンプル顔画像のスタイル化顔図を生成することと、を含む、
ことを特徴とする請求項１に記載の３次元顔再構成モデルトレーニング方法。
前記した、前記サンプル顔画像の顔パラメータ及びスタイル化顔図に応じて、前記サンプル顔画像の３次元スタイル化顔イメージを決定することは、
前記サンプル顔画像における顔パラメータに基づいて、前記サンプル顔画像の３次元顔イメージを構築することと、
前記サンプル顔画像のスタイル化顔図に応じて、前記サンプル顔画像の３次元顔イメージに対して処理を行い、前記サンプル顔画像の３次元スタイル化顔イメージを得ることと、を含む、
ことを特徴とする請求項１に記載の３次元顔再構成モデルトレーニング方法。
前記した、前記サンプル顔画像のスタイル化顔図に応じて、前記サンプル顔画像の３次元顔イメージに対して処理を行い、前記サンプル顔画像の３次元スタイル化顔イメージを得ることは、
前記サンプル顔画像のスタイル化顔図に対してテクスチャ展開を行い、初期テクスチャマップを得ることと、
マップ回帰ネットワークに基づいて、前記初期テクスチャマップに対して遮蔽除去処理、ハイライト除去処理又は顔位置姿勢調整処理のうちの少なくとも１項を行い、目標テクスチャマップを得ることと、
前記目標テクスチャマップに応じて、前記サンプル顔画像の３次元顔イメージに対して処理を行い、前記サンプル顔画像の３次元スタイル化顔イメージを得ることと、を含む、
ことを特徴とする請求項３に記載の３次元顔再構成モデルトレーニング方法。
前記した、前記レンダリング図及び前記サンプル顔画像のスタイル化顔図に応じて、前記３次元顔再構成モデルに対してトレーニングを行うことは、
前記レンダリング図及び前記サンプル顔画像のスタイル化顔図に応じて、前記３次元顔再構成モデル及び前記マップ回帰ネットワークに対して合同トレーニングを行うこと、を含む、
ことを特徴とする請求項４に記載の３次元顔再構成モデルトレーニング方法。
前記した、前記レンダリング図及び前記サンプル顔画像のスタイル化顔図に応じて、前記３次元顔再構成モデルに対してトレーニングを行うことは、
前記サンプル顔画像のスタイル化顔図からスタイル化顔領域を抽出することと、
前記レンダリング図の背景色に応じて、前記スタイル化顔領域の背景色に対して調整を行うことと、
前記レンダリング図及び調整後のスタイル化顔領域に応じて、画像対照損失を決定することと、
前記画像対照損失に応じて、前記３次元顔再構成モデルに対してトレーニングを行うことと、を含む、
ことを特徴とする請求項１に記載の３次元顔再構成モデルトレーニング方法。
前記した、前記サンプル顔画像を３次元顔再構成モデルに入力し、座標変換パラメータ及び前記サンプル顔画像における顔パラメータを得ることは、
前記サンプル顔画像を３次元顔再構成モデルに入力し、オイラー角、座標変換パラメータのうちの平行移動変換パラメータ、拡縮変換パラメータ、及び前記サンプル顔画像における顔パラメータを得ること、を含み、
対応して、前記した、前記座標変換パラメータに基づいて、前記サンプル顔画像の３次元スタイル化顔イメージをカメラ座標系に変換して、変換後の３次元スタイル化顔イメージに対してレンダリングを行い、レンダリング図を得ることは、
前記平行移動変換パラメータ及び拡縮変換パラメータに基づいて、前記サンプル顔画像の３次元スタイル化顔イメージをカメラ座標系にアフィン変換することと、
カメラ視野角及び前記オイラー角に基づいて、アフィン変換後の３次元スタイル化顔イメージに対してレンダリングを行い、レンダリング図を得ることと、を含む、
ことを特徴とする請求項１に記載の３次元顔再構成モデルトレーニング方法。
前記サンプル顔画像における顔パラメータは、顔形状パラメータを含む、
ことを特徴とする請求項１～７のいずれか１項に記載の３次元顔再構成モデルトレーニング方法。
目標顔画像、及び前記目標顔画像のスタイル化顔図を取得することと、
前記目標顔画像を３次元顔再構成モデルに入力し、前記目標顔画像における顔パラメータを得て、前記３次元顔再構成モデルが請求項１～８のいずれか１項に記載の３次元顔再構成モデルトレーニング方法に基づいてトレーニングして得られることと、
前記目標顔画像の顔パラメータ及びスタイル化顔図に応じて、前記目標顔画像の３次元スタイル化顔イメージを決定することと、を含む、
ことを特徴とする３次元顔イメージ生成方法。
前記目標顔画像のスタイル化顔図を取得することは、
スタイル化エンコーダネットワークからスタイル化特徴を抽出することと、
前記目標顔画像を顔復元エンコーダネットワークに入力し、前記目標顔画像の顔特徴を得ることと、
スタイル図生成ネットワークに基づいて、前記スタイル化特徴及び前記目標顔画像の顔特徴に応じて、前記目標顔画像のスタイル化顔図を生成することと、を含む、
ことを特徴とする請求項９に記載の３次元顔イメージ生成方法。
前記した、前記目標顔画像の顔パラメータ及びスタイル化顔図に応じて、前記目標顔画像の３次元スタイル化顔イメージを決定することは、
前記目標顔画像における顔パラメータに基づいて、前記目標顔画像の３次元顔イメージを構築することと、
前記目標顔画像のスタイル化顔図に応じて、前記目標顔画像の３次元顔イメージに対して処理を行い、前記目標顔画像の３次元スタイル化顔イメージを得ることと、を含む、
ことを特徴とする請求項９に記載の３次元顔イメージ生成方法。
前記した、前記目標顔画像のスタイル化顔図に応じて、前記目標顔画像の３次元顔イメージに対して処理を行い、前記目標顔画像の３次元スタイル化顔イメージを得ることは、
前記目標顔画像のスタイル化顔図に対してテクスチャ展開を行い、処理待ちのテクスチャマップを得ることと、
マップ回帰ネットワークに基づいて、前記処理待ちのテクスチャマップに対して遮蔽除去処理、ハイライト除去処理又は顔位置姿勢調整処理のうちの少なくとも１項を行い、処理を経たテクスチャマップを得ることと、
処理を経た前記テクスチャマップに応じて、前記目標顔画像の３次元顔イメージに対して処理を行い、前記目標顔画像の３次元スタイル化顔イメージを得ることと、を含む、
ことを特徴とする請求項１１に記載の３次元顔イメージ生成方法。
前記目標顔画像における顔パラメータは、顔形状パラメータを含む、
ことを特徴とする請求項９～１２のいずれか１項に記載の３次元顔イメージ生成方法。
サンプル顔画像、及び前記サンプル顔画像のスタイル化顔図を取得するためのサンプル画像取得モジュールと、
前記サンプル顔画像を３次元顔再構成モデルに入力し、座標変換パラメータ及び前記サンプル顔画像における顔パラメータを得るためのサンプル顔パラメータ決定モジュールと、
前記サンプル顔画像における顔パラメータ及びスタイル化顔図に応じて、前記サンプル顔画像の３次元スタイル化顔イメージを決定するためのサンプルスタイル化顔イメージ決定モジュールと、
前記座標変換パラメータに基づいて、前記サンプル顔画像の３次元スタイル化顔イメージをカメラ座標系に変換して、変換後の３次元スタイル化顔イメージに対してレンダリングを行い、レンダリング図を得るためのレンダリング図決定モジュールと、
前記レンダリング図及び前記サンプル顔画像のスタイル化顔図に応じて、前記３次元顔再構成モデルに対してトレーニングを行うための顔再構成モデルトレーニングモジュールと、を含む、
ことを特徴とする３次元顔再構成モデルトレーニング装置。
前記サンプル画像取得モジュールは具体的に、
スタイル化エンコーダネットワークからスタイル化特徴を抽出し、
前記サンプル顔画像を顔復元エンコーダネットワークに入力し、前記サンプル顔画像の顔特徴を得て、
スタイル図生成ネットワークに基づいて、前記スタイル化特徴及び前記サンプル顔画像の顔特徴に応じて、前記サンプル顔画像のスタイル化顔図を生成することに用いられる、
ことを特徴とする請求項１４に記載の３次元顔再構成モデルトレーニング装置。
前記サンプルスタイル化顔イメージ決定モジュールは、
前記サンプル顔画像における顔パラメータに基づいて、前記サンプル顔画像の３次元顔イメージを構築するためのサンプル３次元顔イメージ決定ユニットと、
前記サンプル顔画像のスタイル化顔図に応じて、前記サンプル顔画像の３次元顔イメージに対して処理を行い、前記サンプル顔画像の３次元スタイル化顔イメージを得るためのサンプルスタイル化顔イメージ決定ユニットと、を含む、
ことを特徴とする請求項１４に記載の３次元顔再構成モデルトレーニング装置。
前記サンプルスタイル化顔イメージ決定ユニットは具体的に、
前記サンプル顔画像のスタイル化顔図に対してテクスチャ展開を行い、初期テクスチャマップを得て、
マップ回帰ネットワークに基づいて、前記初期テクスチャマップに対して遮蔽除去処理、ハイライト除去処理又は顔位置姿勢調整処理のうちの少なくとも１項を行い、目標テクスチャマップを得て、
前記目標テクスチャマップに応じて、前記サンプル顔画像の３次元顔イメージに対して処理を行い、前記サンプル顔画像の３次元スタイル化顔イメージを得ることに用いられる、
ことを特徴とする請求項１６に記載の３次元顔再構成モデルトレーニング装置。
前記顔再構成モデルトレーニングモジュールは具体的に、
前記レンダリング図及び前記サンプル顔画像のスタイル化顔図に応じて、前記３次元顔再構成モデル及び前記マップ回帰ネットワークに対して合同トレーニングを行うことに用いられる、
ことを特徴とする請求項１７に記載の３次元顔再構成モデルトレーニング装置。
前記顔再構成モデルトレーニングモジュールは具体的に、
前記サンプル顔画像のスタイル化顔図からスタイル化顔領域を抽出し、
前記レンダリング図の背景色に応じて、前記スタイル化顔領域の背景色に対して調整を行い、
前記レンダリング図及び調整後のスタイル化顔領域に応じて、画像対照損失を決定し、
前記画像対照損失に応じて、前記３次元顔再構成モデルに対してトレーニングを行うことにさらに用いられる、
ことを特徴とする請求項１４に記載の３次元顔再構成モデルトレーニング装置。
前記サンプル顔パラメータ決定モジュールは具体的に、
前記サンプル顔画像を３次元顔再構成モデルに入力し、オイラー角、座標変換パラメータのうちの平行移動変換パラメータ、拡縮変換パラメータ、及び前記サンプル顔画像における顔パラメータを得ることに用いられ、
対応して、前記レンダリング図決定モジュールは具体的に、
前記平行移動変換パラメータ及び拡縮変換パラメータに基づいて、前記サンプル顔画像の３次元スタイル化顔イメージをカメラ座標系にアフィン変換し、
カメラ視野角及び前記オイラー角に基づいて、アフィン変換後の３次元スタイル化顔イメージに対してレンダリングを行い、レンダリング図を得ることに用いられる、
ことを特徴とする請求項１４に記載の３次元顔再構成モデルトレーニング装置。
前記サンプル顔画像における顔パラメータは、顔形状パラメータを含む、
ことを特徴とする請求項１４～２０のいずれか１項に記載の３次元顔再構成モデルトレーニング装置。
目標顔画像、及び前記目標顔画像のスタイル化顔図を取得するための目標画像取得モジュールと、
前記目標顔画像を３次元顔再構成モデルに入力し、前記目標顔画像における顔パラメータを得て、前記３次元顔再構成モデルが請求項１～８のいずれか１項に記載の３次元顔再構成モデルトレーニング方法に基づいてトレーニングして得られるための目標顔パラメータ決定モジュールと、
前記目標顔画像における顔パラメータ及びスタイル化顔図に応じて、前記目標顔画像の３次元スタイル化顔イメージを決定するための目標スタイル化顔イメージ決定モジュールと、を含む、
ことを特徴とする３次元顔イメージ生成装置。
前記目標画像取得モジュールは具体的に、
スタイル化エンコーダネットワークからスタイル化特徴を抽出し、
前記目標顔画像を顔復元エンコーダネットワークに入力し、前記目標顔画像の顔特徴を得て、
スタイル図生成ネットワークに基づいて、前記スタイル化特徴及び前記目標顔画像の顔特徴に応じて、前記目標顔画像のスタイル化顔図を生成することに用いられる、
ことを特徴とする請求項２２に記載の３次元顔イメージ生成装置。
前記目標スタイル化顔イメージ決定モジュールは、
前記目標顔画像における顔パラメータに基づいて、前記目標顔画像の３次元顔イメージを構築するための目標３次元顔イメージ決定ユニットと、
前記目標顔画像のスタイル化顔図に応じて、前記目標顔画像の３次元顔イメージに対して処理を行い、前記目標顔画像の３次元スタイル化顔イメージを得るための目標スタイル化顔イメージ決定ユニットと、を含む、
ことを特徴とする請求項２２に記載の３次元顔イメージ生成装置。
前記目標スタイル化顔イメージ決定ユニットは具体的に、
前記目標顔画像のスタイル化顔図に対してテクスチャ展開を行い、処理待ちのテクスチャマップを得て、
マップ回帰ネットワークに基づいて、前記処理待ちのテクスチャマップに対して遮蔽除去処理、ハイライト除去処理又は顔位置姿勢調整処理のうちの少なくとも１項を行い、処理を経たテクスチャマップを得て、
処理を経た前記テクスチャマップに応じて、前記目標顔画像の３次元顔イメージに対して処理を行い、前記目標顔画像の３次元スタイル化顔イメージを得ることに用いられる、
ことを特徴とする請求項２４に記載の３次元顔イメージ生成装置。
前記目標顔画像における顔パラメータは、顔形状パラメータを含む、
ことを特徴とする請求項２２～２５のいずれか１項に記載の３次元顔イメージ生成装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信接続されたメモリとを含み、
前記メモリには、前記少なくとも１つのプロセッサにより実行可能な命令が記憶されており、前記命令は、前記少なくとも１つのプロセッサが請求項１～８のいずれか１項に記載の３次元顔再構成モデルトレーニング方法、もしくは請求項９～１３のいずれか１項に記載の３次元顔イメージ生成方法を実行可能であるように、前記少なくとも１つのプロセッサにより実行される、
ことを特徴とする電子機器。
コンピュータ命令が記憶された非一時的コンピュータ可読記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項１～８のいずれか１項に記載の３次元顔再構成モデルトレーニング方法、もしくは請求項９～１３のいずれか１項に記載の３次元顔イメージ生成方法を実行させることに用いられる、
ことを特徴とする非一時的コンピュータ可読記憶媒体。
プロセッサにより実行されると、請求項１～８のいずれか１項に記載の３次元顔再構成モデルトレーニング方法、もしくは請求項９～１３のいずれか１項に記載の３次元顔イメージ生成方法を実現する、
ことを特徴とするコンピュータプログラム。