JP7142162B2

JP7142162B2 - 姿勢変動３ｄ顔面属性生成

Info

Publication number: JP7142162B2
Application number: JP2021522071A
Authority: JP
Inventors: シアンユ、; フェン－ユチャン、; マンモハンチャンドラカー、
Original assignee: NEC Laboratories America Inc
Current assignee: NEC Laboratories America Inc
Priority date: 2018-11-13
Filing date: 2019-11-06
Publication date: 2022-09-26
Anticipated expiration: 2039-11-06
Also published as: DE112019005672T5; WO2020101960A1; US10991145B2; US20200151940A1; JP2022505657A

Description

関連出願情報
本出願は、２０１８年１１月１３日に出願された米国仮特許出願第６２／７６０，１３５号および２０１９年１１月４日に出願された米国実用特許出願第１６／６７３，２５６号の優先権を主張し、その全体が参照により本明細書に組み込まれる。

本発明は、顔認識に関し、より詳細には、姿勢変動３Ｄ顔属性生成に関する。
関連技術の説明

顔を認識することは、姿勢分散のために、煩わしいタスクとなり得る。したがって、姿勢変動３Ｄ顔属性を生成する方法が必要とされている。

本発明の一態様によれば、姿勢変動３Ｄ顔属性生成のためのシステムが提供される。システムは、顔の単一の入力画像から３Ｄ形状のための空間位置マップとカメラ視点マトリクスとを直接生成するためのハードウェアプロセッサベースの３Ｄ回帰ネットワークを具備し、さらに、前記空間位置マップと前記カメラ視点マトリクスとに基づいて、前記単一の入力画像の部分的テクスチャマップをレンダリングするためのレンダリング層を具備する第１のステージとを含む。システムはさらに、３Ｄ属性生成ＧＡＮ(３ＤＡ－ＧＡＮ）と積層されたテクスチャ完了敵対的生成ネットワーク（ＴＣ－ＧＡＮ）を含むハードウェアプロセッサベースの２工程積層敵対的生成ネットワーク（ＧＡＮ）を有する第２のステージを含む。ＴＣ－ＧＡＮは、前記部分的テクスチャマップと前記空間位置マップとに基づいて完全なテクスチャマップを形成するために前記部分的テクスチャマップを完了するためのものである。３ＤＡ－ＧＡＮは、前記完全なテクスチャマップと前記空間位置マップとに基づいて前記単一の入力画像のための目標顔属性を生成するためのものである。

本発明の別の態様によれば、姿勢変動３Ｄ顔属性生成のためのコンピュータで実施する方法が提供される。この方法は、３Ｄ回帰ネットワークを使ったハードウェアプロセッサによって、顔の単一の入力画像から３Ｄ形状のための空間位置マップとカメラ視点マトリクスとを直接生成することを含む。さらにこの方法は、レンダリング層を使ったハードウェアプロセッサによって、前記空間位置マップと前記カメラ視点マトリクスとに基づいて、前記単一の入力画像の部分的テクスチャマップをレンダリングすることを含む。また、この方法は、テクスチャ完了敵対的生成ネットワーク（ＴＣ－ＧＡＮ）を使ったハードウェアプロセッサによって、前記部分的テクスチャマップと前記空間位置マップとに基づいて完全なテクスチャマップを形成するために前記部分的テクスチャマップを完了することを含む。また、この方法は、３Ｄ属性生成ＧＡＮ(３ＤＡ－ＧＡＮ）を使ったハードウェアプロセッサによって、前記完全なテクスチャマップと前記空間位置マップとに基づいて前記単一の入力画像のための目標顔属性を生成することを含む。

本発明のさらに別の態様によれば、姿勢変動３Ｄ顔属性生成のためのコンピュータプログラム製品が提供される。コンピュータプログラム製品はそれとともに実施されるプログラム命令を有する非一時的なコンピュータ可読記憶媒体を含む。コンピュータ命令は方法を前記コンピュータによって実行可能である。その方法は、３Ｄ回帰ネットワークを使ったハードウェアプロセッサによって、顔の単一の入力画像から３Ｄ形状のための空間位置マップとカメラ視点マトリクスとを直接生成することを含む。さらに方法は、レンダリング層を使ったハードウェアプロセッサによって、前記空間位置マップと前記カメラ視点マトリクスとに基づいて、前記単一の入力画像の部分的テクスチャマップをレンダリングすることを含む。また、方法は、テクスチャ完了敵対的生成ネットワーク（ＴＣ－ＧＡＮ）を使ったハードウェアプロセッサによって、前記部分的テクスチャマップと前記空間位置マップとに基づいて完全なテクスチャマップを形成するために前記部分的テクスチャマップを完了することを含む。また、方法は、３Ｄ属性生成ＧＡＮ(３ＤＡ－ＧＡＮ）を使ったハードウェアプロセッサによって、前記完全なテクスチャマップと前記空間位置マップとに基づいて前記単一の入力画像のための目標顔属性を生成することを含む。

これらおよび他の特徴および利点は、添付の図面に関連して読まれるべき、その例示的な実施形態の以下の詳細な説明から明らかになるであろう。

本開示は、以下の図面を参照して、好ましい実施形態の以下の説明において詳細を提供する。

本発明の一実施形態による例示的な処理システムを示すブロック図である。

本発明の一実施形態による、姿勢変動３Ｄ顔属性生成のための例示的なシステムを示すブロック図である。

本発明の一実施形態による、姿勢変動３Ｄ顔属性生成のための例示的な方法を示すフロー図である。

本発明の実施形態は、姿勢変動３Ｄ顔属性生成を対象とする。

本発明の実施形態は、野生の状況から姿勢変動顔画像の顔属性を生成することを目的とする。この方法は、従来の２Ｄ画像以外の３Ｄ表現に基づく。フレームワークは、大きな姿勢変動入力に対処することができ、元の入力の上に、ひげ、笑顔、サングラスなどの所望の顔属性を修復することができる。これは、顔認識および顔編集のような多くのアプリケーションのために顔データを増強する重要な方法を提供するため、非常に有用である。もちろん、本発明は、本明細書で提供される本発明の教示に基づいて、他の用途に使用することができる。

一実施形態では、次のようにタスクを２つの主要なステージに解きほぐすことが提案される。第１のステージは、単一の入力画像から３Ｄ形状および弱視点マトリクスを直接達成するための差分レンダリング層を用いた砂時計ベースの深密回帰を含み、姿勢分散によって引き起こされる自己遮蔽による部分的テクスチャ表現をレンダリングするために情報を利用する。第２のステージは、２ステップのスタックされたＧＡＮ（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）を含む。第１のステップは、テクスチャマップを完成させるために第１のステージから得られた３Ｄ形状と部分的テクスチャとの両方を利用するテクスチャ完成ＧＡＮ（ＴＣ－ＧＡＮ）である。第２のステップは、３Ｄ属性生成ＧＡＮ（３ＤＡ－ＧＡＮ）であり、完成した３Ｄテクスチャ表現上にターゲット属性を生成する。第１のステージでは、それぞれＵＶ_posおよびＵＶ_texと呼ばれる３Ｄ点群とテクスチャとの両方にＵＶ表現を適用する。ＵＶ表現は、密な形状情報を提供し、点群からテクスチャへの１対１の対応を構築する。第２のステージでは、ＴＣ－ＧＡＮと３ＤＡ－ＧＡＮは、独立した目的を有する２つの機能的に独立したタスクである。３ＤＡ－ＧＡＮは、ＴＣ－ＧＡＮからの出力を属性生成のための入力として受け取り、したがって、スタック構成を形成する。スタックされた２つのＧＡＮは、完成したテクスチャと新たに生成された属性とが３Ｄ形状相関されるため、入力としてＵＶ_posとＵＶ_texとの両方をとる。

図１は、本発明の一実施形態による例示的な処理システム１００を示すブロック図である。処理システム１００は、１組の処理ユニット（例えば、ＣＰＵ）１０１と、１組のＧＰＵ１０２と、１組の記憶装置１０３と、１組の通信装置１０４と、１組の周辺装置１０５とを含む。ＣＰＵ１０１は、シングルまたはマルチコアＣＰＵとすることができる。ＧＰＵ１０２は、シングルまたはマルチコアＧＰＵとすることができる。１つまたは複数の記憶装置１０３は、キャッシュ、ＲＡＭ、ＲＯＭ、および他のメモリ（フラッシュ、光、磁気など）を含むことができる。通信装置１０４は、無線および／または有線通信装置（例えば、ネットワーク（例えば、ＷＩＦＩなど）アダプタなど）を含むことができる。周辺機器１０５は、表示装置、ユーザ入力装置、プリンタ、撮像装置（例えば、ＲＧＢＤ撮像装置など）、マイクロフォン、スピーカなどを含むことができる。処理システム１００の要素は、１つまたは複数のバスまたはネットワーク（まとめて図参照番号１１０で示す）によって接続される。

一実施形態では、記憶装置１０３は、特別にプログラムされたソフトウェアモジュールを記憶して、コンピュータ処理システムを、本発明の様々な態様を実施するように構成された特別目的のコンピュータに変換することができる。一実施形態では、専用ハードウェア（例えば、特定用途向け集積回路、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）など）を使用して、本発明の様々な態様を実施することができる。

一実施形態では、記憶装置１０３は、３Ｄ回帰ネットワーク１０３Ａ、レンダリング層１０３Ｂ、３Ｄ属性生成ＧＡＮ（３ＤＡＧＡＮ）１０３Ｃ２と積層されたテクスチャ完了ＧＡＮ（ＴＣ－ＧＡＮ）１０３Ｃ１を有する２工程積層敵対的生成ネットワーク（ＧＡＮ）１０３Ｃ、顔認識システム１０３Ｄ、および顔編集システム１０３Ｅのうちの１つまたは複数を実装するためのコードを記憶することができる。本明細書で説明されるこれらおよび他の要素は、記憶装置１０３によって少なくとも部分的に実装することができる。

もちろん、処理システム１００は、当業者によって容易に企図されるように、他の要素（図示せず）を含んでもよく、また、特定の要素を省略してもよい。例えば、当業者によって容易に理解されるように、様々な他の入力装置および／または出力装置を、その特定の実装に応じて、処理システム１００に含めることができる。例えば、様々なタイプの無線および／または有線の入力および／または出力装置を使用することができる。さらに、様々な構成の追加のプロセッサ、コントローラ、メモリなどを利用することもできる。さらに、別の実施形態では、クラウド構成を使用することができる。処理システム１００のこれらおよび他の変形は、本明細書で提供される本発明の教示を与えられれば、当業者によって容易に企図される。

さらに、システム１００の１つまたは複数の要素によって全体的または部分的に実装され得る、本発明に関連する様々な要素およびステップに関して以下で説明される様々な図が理解されるべきである。

本明細書で使用されるように、略して「ハードウェアプロセッササブシステム」または「ハードウェアプロセッサ」という用語は、１つ以上の特定のタスクを実行するために協働するプロセッサ、メモリ、およびソフトウェアの組み合わせを指す。一実施形態では、ハードウェアプロセッササブシステムは、１つまたは複数のデータ処理要素（例えば、論理回路など）を含むことができる。一実施形態では、１つまたは複数のデータ処理要素は、中央処理装置、グラフィックス処理装置、および／または別個のプロセッサもしくはコンピューティング要素ベースの（たとえば、論理ゲートなどの）コントローラに含めることができる。一実施形態では、ハードウェアプロセッササブシステムは、１つ以上のオンボードメモリ（例えば、キャッシュ）を含むことができる。一実施形態では、ハードウェアプロセッササブシステムは、１つ以上の他のメモリ（例えば、ＲＯＭ、ＲＡＭ、ＢＩＯＳ）を含むことができる。一実施形態では、ハードウェアプロセッササブシステムは、１つ以上のソフトウェアアプリケーションを含むことができ、実行することができる。一実施形態では、１つ以上のソフトウェアアプリケーションは、特定の結果を達成するために、オペレーティングシステムおよび／または１つ以上の他のアプリケーションおよび／または特定のコードを含むことができる。ハードウェアプロセッササブシステムのこれらの変形例および他の変形例は、本明細書で提供される本発明の教示を前提として、容易に決定される。

図２は、本発明の一実施形態による、姿勢変動３Ｄ顔属性生成のための例示的なシステム２００を示すブロック図である。

システム２００は、第１のステージ２１０および第２のステージ２５０を含む。

第１のステージ２１０は、顔の単一の入力画像２０１から３Ｄ形状のための空間位置マップ２２１とカメラ視点マトリクス２２２とを直接生成するための３Ｄ回帰ネットワーク２２０を有する。

第１のステージ２１０は、空間位置マップ２２１とカメラ視点マトリクス２２２とに基づいて単一入力画像２０１の部分的テクスチャマップ２３１をレンダリングするためのレンダリング層２３０を更に有する。

第２のステージ２５０は、２つの部分から成るスタックされたＧＡＮ（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）２６０を有する。２部分積層ＧＡＮ２６０は、３Ｄ属性生成ＧＡＮ（３ＤＡ－ＧＡＮ）２８０と共に積層されたテクスチャ完了ＧＡＮ（ＴＣ－ＧＡＮ）２７０を含む。

ＴＣ－ＧＡＮ２７０は、部分的テクスチャマップ２３１と、部分的テクスチャマップの反転バージョン２３１Ａと、空間位置マップ２２１とに基づいて、部分的テクスチャマップ２３１を完成させて、完全なテクスチャマップ２７１を形成するためのものである。

３ＤＡ－ＧＡＮ２８０は、完全なテクスチャマップ２７１と空間位置マップ２２１とに基づいて、単一の入力画像２０１に対する目標顔属性２８１を生成するためのものである。

一実施形態では、エンコーダ２７２とデコーダ２７３とを有するエンコーダ－デコーダ構造が、ＴＣ－ＧＡＮ２７０のバックボーンとして提供される。このような構造は、回帰ネットワーク２２０および３ＤＡ－ＧＡＮ２８０にも存在し得る。非限定的な実施形態では、エンコーダ２７２とデコーダ２７３との両方は、４つのブロックを有する。エンコーダ２７２の各ブロックは、畳み込み層と、それに続くバッチ正規化層と、ＲｅＬＵ層とを含む。同様に、デコーダ２７３の各ブロックは、逆畳み込み層と、それに続くバッチ正規化層と、リーキーＲｅＬＵ層とを含む。図２に示すようにエンコーダ２７２の入力は、部分的テクスチャマップ、反転された部分的テクスチャマップ、および空間位置マップの連結である。エンコーダ２７２のための出力は、２７２から生成される中間特徴である。デコーダ２７３の入力は、エンコーダ２７２からの中間特徴出力であり、デコーダ２７３の出力は、完全なテクスチャマップ２７１である。スキップリンクは、対称的な方法でエンコーダとデコーダとを接続するように設定され、すなわち、エンコーダの最初のブロックは、デコーダの最後のブロックに共有される。スキップリンクは、特に、より低レベルの情報を保存する下位レイヤから、高周波情報を保存する際に重要な役割を果たすことが分かっている。

図３は、本発明の一実施形態による、姿勢変動３Ｄ顔属性生成のための例示的な方法を示すフロー図である。

ブロック３１０では、３Ｄ回帰ネットワークによって、顔の単一の入力画像から３Ｄ形状およびカメラ視点マトリクスのための空間位置マップを直接生成する。一実施形態では、３Ｄ回帰ネットワークは砂時計型回帰関数を使用することができる。

ブロック３２０において、レンダリング層によって、空間位置マップとカメラ視点マトリックスとに基づいて、単一入力画像の部分的テクスチャマップをレンダリングする。一実施形態では、部分的テクスチャマップは、姿勢分散に起因する自己遮蔽に関連することができる。一実施形態では、姿勢分散に起因する自己遮蔽を使用して、単一の入力画像に存在しない顔領域をシミュレートすることができる。

ブロック３３０で、テクスチャ完了敵対的生成ネットワーク（ＴＣ－ＧＡＮ）によって、部分的テクスチャマップが完了し、部分的テクスチャマップおよび空間位置マップに基づいて完全なテクスチャマップが形成される。

ブロック３４０で、３Ｄ属性生成ＧＡＮ（３ＤＡ－ＧＡＮ）によって、完全なテクスチャマップおよび空間位置マップに基づいて、単一の入力画像の目標顔属性を生成する。

ブロック３５０で、目標顔属性に関連して顔編集動作を実行する。

一実施形態では、ブロック３５０は、ブロック３５０Ａを含むことができる。

ブロック３５０Ａにおいて、完全なテクスチャマップおよび目標顔属性から新しい画像を形成する。例えば、完全なテクスチャマップは、きれいな剃毛された男性のものであってもよく、目標顔属性は、完全なテクスチャマップにおいて男性に追加されるひげであってもよい。

ブロック３６０において、完了テクスチャマップおよび目標顔属性（例えば、ブロック３５０Ａによって形成された）から形成された新しい画像と、空間位置マップとに基づいて個人を認識するための顔認識動作を実行する。このようにして、同じ人物の異なる姿勢および異なる顔属性を生成し、その人物を識別するために使用することができる。

このように、本発明は、後者の外観生成をサポートする密な３Ｄ表現を導入する。そして、レンダリングを行い、元の入力から可視的な外観を生成する。さらに、完全に見えるテクスチャマップを達成するために、テクスチャ完了ＧＡＮが提示される。最後に、３Ｄ属性生成ＧＡＮは、３Ｄ位置およびテクスチャ表現に直接作用し、完全に制御された姿勢幾何学を有する属性摂動外観を出力するように提案される。

次に、本発明の一実施形態によるＵＶ位置マップ回帰について説明する。

可視外観を忠実にレンダリングするために、形状およびテクスチャの密な３Ｄ再構成を求める。

３Ｄ点群Ｓ２ＲＮｘ３を仮定すると、Ｎは頂点の数である。各頂点ｓ＝（ｘ、ｙ、ｚ）は、画像空間内の３次元座標からなる。（ｕ、ｖ）は、次のように定義される。

式（１）は、密な点群からＵＶマップへの固有のマッピングを確立する。粒度の異なるＵＶ空間を量子化することにより、画像分解能に対するＵＶ空間の密度を制御できる。本研究では、ＵＶマップを２５６×２５６に量子化し、６５ｋ頂点を保存する。ＵＶ位置マップＵＶ_posは、ＵＶ空間上で定義され、各エントリは、対応する３次元座標（ｘ、ｙ、ｚ）である。ＵＶテクスチャマップＵＶ_texもＵＶ空間上に定義され、各エントリは対応する座標のＲＧＢ色である。

ＵＶ空間定義に基づいて、元の密な点群の代わりにＵＶ_posへの入力から深い回帰を提案する。同時に、弱視点マトリクス

を回帰することによって姿勢推定を行う。深い回帰を非線形関数Φとすると、入力画像Ｉは次のようになる。

式（２）の最初の２つの項は、予測された紫外線マップ

と弱視点マトリクスＷに対する規則的な教師あり損失である。ＵＶ^*、Ｗ^*およびｓ^*は対応するグランドトゥルースとして表される。第３項は、予め定義された顔ランドマークを調べる。ＵＶマップによって予測されるランドマーク座標は、グランドトゥルースにも近くなければならない。実際には、小さなＵＶマップ誤差は小さなランドマーク誤差を保証しないことが分かる。これは、疎なランドマークにマッピングするときに、密な点群がある程度の曖昧さを有するからである。形状回帰をより厳密に制約するために、インデックスベクトル

を導入し、そのエントリは、対応する頂点が選択されている場合は１であり、そうでなければ０である。Φ（Ｉ）は姿勢固有であり、Ｗ^*-1を適用することによってそれを基準姿勢に戻す必要があることに注意されたい。仮にＷ＝［Ｒ｜Ｔ］が回転マトリクス

および並進ベクトルＴ２Ｒ３ｘ１からなるとする。Ｗ^*-1を［Ｒ^*-1｜－Ｔ］とする。第３項を計算するとき、元のΦ（ｉ）を

に再整形する。

次に、本発明の一実施形態によるＵＶテクスチャマップレンダリングについて説明する。姿勢変動顔のＵＶ_texは、部分的に見える外観を有する。これは、姿勢変動に起因する自己遮蔽が、不可視顔領域を生成するためである。元の座標空間において、ｚ－Ｂｕｆｆｅｒｉｎｇアルゴリズムを実行して、各３Ｄ頂点の可視状態をラベル付けする。最大の奥行き情報を有する頂点は可視であり、他の全ての頂点は不可視である。エントリ１が可視を意味し、０が不可視を意味する可視ベクトルＭを仮定する。レンダリングは、特定の座標の色を対応するＵＶ座標に関連付けることによって、ルックアップ操作になる。式（３）のプロセスを次のように定式化する。

ここで、（ｕ，ｖ）は式（１）によって決定される。

次に、本発明の一実施形態によるＵＶテクスチャマップの完成について説明する。

レンダリングからの不完全なＵＶ_texは、不可視領域が人工物を導入するため、属性生成を行うのに十分ではない。フォトリアリスティックな外観回復だけでなく、アイデンティティ保存も可能なテクスチャの完成を目指す。ＵＶ－ＧＡＮは、敵対的ネットワークを適用することによってＵＶテクスチャマップを完成させるための同様のフレームワークを提案する。しかしながら、それはテクスチャ情報のみを考慮する。３ＤＵＶ表現の場合、外観を完成させるには、テクスチャ情報と形状情報との両方を考慮しなければならないと主張した。例えば、元の入力と反転された入力とを組み合わせることは、外観予測のための良好な初期化を提供する。しかし、それは、形状情報を保存するのに十分ではない、形状に対する対称性の制約を適用するだけである。したがって、ＵＶ_pos、ＵＶ_texおよび反転されたＵＶ_texを入力とする。ＴＣ－ＧＡＮのバックボーンとしてエンコーダ－デコーダ構造を設計した。エンコーダとデコーダとの両方に４つのブロックがある。エンコーダの各ブロックは、畳み込み層、それに続くバッチ正規化層およびＲｅＬＵ層を含む。同様に、デコーダの各ブロックは、逆畳み込み層と、それに続くバッチ正規化層と、リーキーＲｅＬＵ層とを含む。スキップリンクは、エンコーダとデコーダとを対称的に接続するように設定され、すなわち、エンコーダの最初のブロックは、デコーダの最後のブロックに共有される。スキップリンクは、特に、より低レベルの情報を保存する下位レイヤから、高周波情報を保存する際に重要な役割を果たすことが分かる。

次に、本発明の一実施形態による再構成モジュールについて説明する。

３Ｄ高密度点群再構成を提案することにより、ラベル付けなしにこのタスクのグランドトゥルースを実際に準備することができる。筆者らは、全ての画素が見える近正面顔画像から出発した。次に、ランダムな角度でこの原画像の頭部姿勢を摂動した。全ての姿勢変動画像は、オリジナル画像である同じ正面グランドトゥルースを共有することに留意されたい。導入されたレンダリングにより、入力に対する不完全なテクスチャマップが得られる。グランドトゥルースが与えられているので、次のように完了を導くために、監視された再構成損失を提案する。

Ｇ_tc（・）は、エンコーダおよびデコーダを含むジェネレータを示す。Ｉは入力を表し、

は反転された入力を表し、Ｉ^*は入力の完全なグランドトゥルースを表す。Ｌ２またはＬ１損失は通常ぼやけた効果をもたらすため、再構成に頼るだけでは、高品質の結果を保証することができない。このように、私たちは世代品質を向上させるために敵対的な訓練を導入する。

次に、本発明の一実施形態による弁別器モジュールについて説明する。

正の試料

およびＧ_tc生成試料としてグランドトゥルース画像が負の試料として与えられると、我々は、以下の目的で弁別器Ｄを訓練する。

次に、本発明の一実施形態による生成器モジュールについて説明する。

敵対的な訓練に続いて、Ｇ_tcはＤをだますことを目的とし、それによって対象をもう一方の方向に押しやる。

次に、本発明の一実施形態に係る平滑化項について説明する。

人工物を除去するために、我々は、以下のように出力の滑らかさを局所的に制約するために、総変動損失を適用することを提案する。

は、出力の勾配である。

は、入力画像のエントリ数であり、出力エントリ数に相当する。アイデンティティを保存するために、ほとんどの作品が行うように、生成された画像からの認識特徴がグランドトゥルース画像からの特徴に近いことを保証するために、顔認識エンジンを導入する必要がある。実際には、式（４）の再構成制約は、このタスクにおけるアイデンティティを保存するのに十分であることが分かる。したがって、ＴＣ－ＧＡＮの全体的な損失は、以下のように要約される。

重みのバランスは、それぞれλ_recon＝１，λ_adv＝０．１，λ_tv＝０．０５として経験的に設定される。

次に、本発明の一実施形態による３Ｄ顔属性生成について説明する。

３Ｄ表現、完成したＵＶ_texとＵＶ_posとを入力として導入した。３Ｄ幾何学的情報を導入することは、属性をより良く合成することができ、すなわち、３Ｄ形状情報を用いて、サングラスが表面として生成されると考えられる。属性コードｐをデータフローに挿入することにより、条件付きＧＡＮフレームワークとしてターゲット属性生成を定式化した。我々は、単に顔の領域を反映し、顔のアイデンティティに相関しない４０の例示的な属性のうちの８つ、すなわち、サングラス（ＳＧ）、開口（ＭＯ）、口紅塗布（ＬＳ）、５時シャドウ（ＳＨ）、笑顔（ＳＭ）、アイバッグ（ＥＢ）、蒼白（ＰＳ）および前髪（ＢＡ）を手動で選択する。したがって、

は、各要素が１つの属性を表し、属性０がない場合と同様に１になる。砂時計はＧ_attrの構造として適用される。エンコーダおよびデコーダは、ＴＣ－ＧＡＮと同様の設定で、それぞれ４つのブロックを有する。属性コードｐは、２つのブロックで畳み込まれ、次に、Ｇ_attrのエンコーダの第３のブロックに連結される。

我々の訓練手順は、２つのフェーズに分けることができる。

（１）再構築。入力ＵＶ_tex、ＵＶ_posおよびグランドトゥルースｐを仮定すると、再構成された

および

は、ｐ内の全く同じ属性で出力される。

（２）属性摂動生成。このステージで、属性を削除する以外の属性を生成するものとして、０から１への反転を考慮して、ｐの時間当たり１つの属性を反転する。入力は依然としてＵＶ_tex、ＵＶ_posおよび摂動されたｐ’であり、そのｐへのハミング距離は正確に１である。出力は摂動された

および

であり、ｐ’内の反転されたビットによって示される新たに生成された属性を示し、ここで他の全ての部分が保存されるべきである。フェーズ（１）をセットアップする目的は、属性ごとの生成を考慮するためであり、同様、非属性関連領域の大部分は同じままであるべきである。最初に再構成を行うことは、この手順に大いに有益であり、一方、フェーズ（２）は、局所摂動のみに焦点を当てることができる。さらに、それは、摂動された属性が、これらの２つのフェーズを対比することによって、新たに生成された属性領域のみを決定することを保証する。

著者らは、機能的に同一の構成要素を抽象化することによって損失設計を導入した。これらの構成要素は、主に２つのフェーズ手順によって共有される。

本発明は、任意の可能な技術的詳細レベルの統合におけるシステム、方法、および／またはコンピュータプログラム製品とすることができる。コンピュータプログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ読み取り可能なプログラム命令を有するコンピュータ読み取り可能な記憶媒体を含み得る。

本明細書において、本発明の「一実施形態」又は「一実施形態」とは、その他の変形例と同様に、その実施形態に関連して説明した特定の特徴、構造、特性等が、本発明の少なくとも一実施形態に含まれることを意味するものであり、「一実施形態において」又は「一実施形態において」の語句の出現、並びに本明細書全体の様々な箇所に出現する他の変形例は、必ずしも全て同一の実施形態を意味するものではない。

以下の「／」、「および／または」、および「少なくとも１つ」、例えば、「Ａ／Ｂ」、「Ａおよび／またはＢ」、および「ＡおよびＢの少なくとも１つ」のいずれかの使用は、第１のリストされた実施例（Ａ）のみの選択、または第２のリストされた実施例（Ｂ）のみの選択、または両方の実施例（ＡおよびＢ）の選択を包含することが意図されることを理解されたい。さらなる例として、「Ａ、Ｂ、および／またはＣ」、および「Ａ、Ｂ、およびＣの少なくとも１つ」の場合、このような句は、第１のリストされた実施例（Ａ）のみの選択、または第２のリストされた実施例（Ｂ）のみの選択、または第３のリストされた実施例（Ｃ）のみの選択、または第１および第２のリストされた実施例（ＡおよびＢ）のみの選択、または第１および第３のリストされた実施例（ＡおよびＣ）のみの選択、または第２および第３のリストされた実施例（ＢおよびＣ）のみの選択、または３つすべての実施例（ＡおよびＢおよびＣ）の選択を包含することを意図する。これは、列挙された項目の数だけ拡張することができる。

上記は、あらゆる点で例示的かつ例示的であるが、限定的ではないと理解されるべきであり、本明細書に開示される本発明の範囲は、詳細な説明からではなく、むしろ特許法によって許容される全範囲に従って解釈されるような特許請求の範囲から決定されるべきである。本明細書に示され、説明された実施形態は、本発明の例示にすぎず、当業者は、本発明の範囲および精神から逸脱することなく、様々な修正を実施することができることを理解されたい。当業者は、本発明の範囲および精神から逸脱することなく、様々な他の特徴の組み合わせを実施することができる。このように、本発明の態様を、特許法によって要求される詳細および特殊性と共に説明してきたが、特許状によって保護されることが請求され、望まれるものは、添付の特許請求の範囲に記載されている。

Claims

姿勢変動３Ｄ顔属性生成のためのシステムであって、
顔の単一の入力画像から３Ｄ形状のための空間位置マップとカメラ視点マトリクスとを直接生成するためのハードウェアプロセッサベースの３Ｄ回帰ネットワークを具備し、さらに、前記空間位置マップと前記カメラ視点マトリクスとに基づいて、前記単一の入力画像の部分的テクスチャマップをレンダリングするためのレンダリング層を具備する第１のステージと、
３Ｄ属性生成ＧＡＮ(３ＤＡ－ＧＡＮ）と積層されたテクスチャ完了敵対的生成ネットワーク（ＴＣ－ＧＡＮ）を有するハードウェアプロセッサベースの２工程積層敵対的生成ネットワーク（ＧＡＮ）を具備し、前記ＴＣ－ＧＡＮは、前記部分的テクスチャマップと前記空間位置マップとに基づいて完全なテクスチャマップを形成するために前記部分的テクスチャマップを完了するためのものであり、前記３ＤＡ－ＧＡＮは、前記完全なテクスチャマップと前記空間位置マップとに基づいて前記単一の入力画像のための目標顔属性を生成するためのものである第２のステージとを含み、
複数の顔特徴の頂点の中からの特定の顔特徴の頂点の使用に関するインデックスベクトルが、回帰形状を制約するために使用されるシステム。
請求項１に記載のシステムにおいて、
前記部分的テクスチャの表現は、姿勢分散に起因する自己遮蔽に関連するシステム。
請求項１に記載のシステムにおいて、
前記姿勢分散に起因する自己遮蔽は、前記単一の入力画像に存在しない顔領域をシミュレートするために使用されるシステム。
請求項１に記載のシステムにおいて、
前記目標顔属性に基づいて、人物を認識するための認識ステージをさらに含むシステム。
請求項１に記載のシステムにおいて、
前記ＴＣ－ＧＡＮは、前記部分的テクスチャマップと前記空間位置マップとを一緒に処理することによって、前記部分的テクスチャマップを完成させて、前記完全なテクスチャマップを形成するシステム。
請求項５に記載のシステムにおいて、
前記ＴＣ－ＧＡＮは、前記部分的テクスチャマップを完成させて、前記部分的テクスチャマップの反転されていないバージョンと反転されたバージョンとを使用して、前記完全なテクスチャマップを形成するシステム。
請求項１に記載のシステムにおいて、
前記完全なテクスチャマップと前記空間位置マップとから画像を合成することをさらに含み、前記画像は前記目標顔属性がレンダリングされた前記顔を有するシステム。
請求項１に記載のシステムにおいて、
前記システムは、顔認識システムであるシステム。
請求項１に記載のシステムにおいて、
前記システムは、顔編集システムであるシステム。
請求項１に記載のシステムにおいて、
前記３Ｄ回帰ネットワークは、砂時計形状の回帰関数を使用するシステム。
請求項１に記載のシステムにおいて、
前記ＴＣ－ＧＡＮおよび前記３ＤＡ－ＧＡＮは、独立した目的を有する機能的に独立したタスクであるシステム。
請求項１に記載のシステムにおいて、
前記目標顔属性を使用して、属性摂動外観を含む画像を生成することをさらに含むシステム。
請求項１２に記載のシステムにおいて、
前記属性摂動外観を含む画像に対して顔認識を実行して、その中の人物を認識することをさらに含むシステム。
請求項１に記載のシステムにおいて、
前記レンダリング層は、奥行き閾値を超える奥行きを有する前記顔特徴の頂点が前記部分的テクスチャマップにおいてレンダリングされ、一方、前記奥行き閾値以下の奥行きを有する前記顔特徴の頂点が、前記部分的テクスチャマップにおいて不可視にされるように、前記部分的テクスチャマップをレンダリングするシステム。
請求項１に記載のシステムにおいて、
前記ＴＣ－ＧＡＮは、畳み込み層と、それに続くバッチ正規化層と、それに続くＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ層とを含むシステム。
請求項１に記載のシステムにおいて、
前記ＴＣ－ＧＡＮは、エンコーダと、前記エンコーダの第１のブロックがデコーダの最後のブロックと接続されるようにスキップリンクによって接続されたデコーダとを有するエンコーダ－デコーダ構造体を有するシステム。
姿勢変動３Ｄ顔属性生成のためのコンピュータで実施する方法であって、
３Ｄ回帰ネットワークを使ったハードウェアプロセッサによって、顔の単一の入力画像から３Ｄ形状のための空間位置マップとカメラ視点マトリクスとを直接生成することと、
レンダリング層を使ったハードウェアプロセッサによって、前記空間位置マップと前記カメラ視点マトリクスとに基づいて、前記単一の入力画像の部分的テクスチャマップをレンダリングすることと、
テクスチャ完了敵対的生成ネットワーク（ＴＣ－ＧＡＮ）を使ったハードウェアプロセッサによって、前記部分的テクスチャマップと前記空間位置マップとに基づいて完全なテクスチャマップを形成するために前記部分的テクスチャマップを完了することと、
３Ｄ属性生成ＧＡＮ(３ＤＡ－ＧＡＮ）を使ったハードウェアプロセッサによって、前記完全なテクスチャマップと前記空間位置マップとに基づいて前記単一の入力画像のための目標顔属性を生成することとを含み、
複数の顔特徴の頂点の中からの特定の顔特徴の頂点の使用に関するインデックスベクトルが、回帰形状を制約するために使用される方法。
請求項１７に記載のコンピュータで実施する方法において、
前記３Ｄ回帰ネットワークおよび前記レンダリング層は、第１のステージを形成し、前記ＴＣ－ＧＡＮおよび前記３ＤＡ－ＧＡＮは、２工程積層ＧＡＮを有する第２のステージを形成するコンピュータで実施する方法。
姿勢変動３Ｄ顔属性生成のためのコンピュータプログラム製品であって、前記コンピュータプログラム製品はそれとともに実施されるプログラム命令を有する非一時的なコンピュータ可読記憶媒体を備え、前記コンピュータ命令は方法を前記コンピュータによって実行可能であり、前記方法は、
３Ｄ回帰ネットワークを使ったハードウェアプロセッサによって、顔の単一の入力画像から３Ｄ形状のための空間位置マップとカメラ視点マトリクスとを直接生成することと、
レンダリング層を使ったハードウェアプロセッサによって、前記空間位置マップと前記カメラ視点マトリクスとに基づいて、前記単一の入力画像の部分的テクスチャマップをレンダリングすることと、
テクスチャ完了敵対的生成ネットワーク（ＴＣ－ＧＡＮ）を使ったハードウェアプロセッサによって、前記部分的テクスチャマップと前記空間位置マップとに基づいて完全なテクスチャマップを形成するために前記部分的テクスチャマップを完了することと、
３Ｄ属性生成ＧＡＮ(３ＤＡ－ＧＡＮ）を使ったハードウェアプロセッサによって、前記完全なテクスチャマップと前記空間位置マップとに基づいて前記単一の入力画像のための目標顔属性を生成することとを含み、
複数の顔特徴の頂点の中からの特定の顔特徴の頂点の使用に関するインデックスベクトルが、回帰形状を制約するために使用されるコンピュータプログラム製品。