JP7462120B2

JP7462120B2 - ２次元（２ｄ）顔画像から色を抽出するための方法、システム及びコンピュータプログラム

Info

Publication number: JP7462120B2
Application number: JP2023537514A
Authority: JP
Inventors: ヤン，ボー; リウ，ソンラン; ワン，ボー
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2021-03-15
Filing date: 2022-02-28
Publication date: 2024-04-04
Anticipated expiration: 2042-02-28
Also published as: JP2024503794A; KR20230085931A; CN116648733A; US20220292774A1; WO2022197429A1; EP4268198A1; EP4268198A4; US11461970B1

Description

関連出願の相互参照
本出願は、２０２１年３月１５日に出願された「METHODS AND SYSTEMS FOR EXTRACTING COLOR FROM FACIAL IMAGE」と題する米国特許出願第１７／２０２，１１６号の継続であり、これに対する優先権を主張し、その全体が参照によって本出願に組み込まれる。

技術分野
本開示は、一般に画像技術に関し、特に画像処理及び頭部／顔のモデル形成方法及びシステムに関する。

多数のセンサ（例えばマルチビューカメラ、深度センサ等）を有する市販の顔キャプチャシステムは、明示的なマーカの有無にかかわらず、人物についての正確な３次元（３Ｄ）顔モデルを取得するために使用される。これらのツールは、多数のセンサから人間の顔のジオメトリとテクスチャ情報をキャプチャし、マルチモーダル情報を一般的な３Ｄ顔モデルに融合する。様々なセンサからのマルチモーダル情報の恩恵を受けて、取得される３Ｄ顔モデルは正確である。しかしながら、これらの市販のシステムは高価であり、生データを処理するために追加のソフトウェアの購入が必要とされる。加えて、これらのシステムは通常、顔キャプチャスタジオにおいて展開され、データを取得するためにはアクター又はボランティアが必要とされ、これは、データ収集プロセスを時間がかかり、かつ更にコストがかかるものにする。要するに、顔キャプチャシステムは、３Ｄ顔データを取得するために高価で時間がかかる。それどころか、今日ではスマートフォン又はカメラが広く利用可能であるので、潜在的に、利用可能な大量のＲＧＢ（赤、緑、青）画像が存在する。ＲＧＢ画像を入力として取って３Ｄ顔モデルを作成することは、大量の画像データからの恩恵を受けることができる。

２次元（２Ｄ）ＲＧＢ画像は、３Ｄ世界を２Ｄ平面に投影したものにすぎない。２Ｄ画像から３Ｄジオメトリを復元することは、再構成プロセスを規則化するための最適化又は学習アルゴリズムを必要とする、不適切な問題である。３Ｄ顔再構成のために、パラメータ化された顔モデル３Ｄモーフィング可能モデル（3D Morphable Model、３ＤＭＭ）ベースの方法が開発され、使用されている。特に、バーゼル顔モデル（Basel Face Model、ＢＦＭ）及びサリー顔モデル（Surrey Face Model、ＳＦＭ）のような顔モデルは、一般的に使用される顔モデルであり、これらは商用ライセンスを必要とする。顔モデルベースの方法は、スキャンされた３Ｄの人間の顔モデルのセット（様々な顔特徴及び表情を示す）をそれらのベースとして取り、３Ｄ顔モデルに基づいて、顔特徴及び表情のパラメータ化された表現を生成する。新しい３Ｄ顔は、パラメータ化に基づいて、ベースの３Ｄ顔モデルの線形の組合せとして表現されることができる。これらの方法の性質のために、ベースとパラメータ空間を形成するために使用される３Ｄ顔モデルは、顔モデルベースの方法の表現力を制限する。加えて、入力顔画像又は２Ｄランドマークからの３ＤＭＭパラメータに適合する最適化プロセスは、顔画像内の詳細な顔特徴を更に犠牲にする。したがって、顔モデルベースの方法は、３Ｄ顔特徴を正確に復元することはできず、ＢＦＭ及びＳＦＭのような顔モデルを使用するために商用ライセンスが必要とされる。

ディープラーニングアルゴリズムの普及に伴い、意味セグメンテーション（semantic segmentation）アルゴリズムが多くの注目を集めている。このようなアルゴリズムは、顔画像内の各ピクセルを、背景、肌、髪、目、鼻及び口のような異なるカテゴリに分けることができる。

意味セグメンテーション方法は、比較的正確な結果を達成することができるが、すべてのピクセルの意味セグメンテーションは非常に複雑な問題であり、これは、しばしば複雑なネットワーク構造を必要とし、高い計算複雑性をもたらすことになる。加えて、意味セグメンテーションネットワークをトレーニングするためには、大量のトレーニングデータをラベル付けする必要があり、意味セグメンテーションは画像全体のピクセルを分ける必要があり、これは、非常に退屈で時間がかかり、コストがかかる。したがって、高い平均色精度は必要としないが、高い効率を必要とするシーンには適していない。

ラプラシアン（Laplacian）及び他の派生演算子（derived operators）を最適化するキーポイント駆動変形（Keypoint-driven deformation）方法は、学界でよく研究されている。重調和変形（Biharmonic deformation）の数式を、Δ^２ｘ’＝０と記すことができる。制約されるキーポイント、すなわち境界条件（boundary conditions）を、ｘ_ｂ’＝ｘ_ｂｃと表すことができる。上記の式において、Δはラプラシアン演算子であり、ｘ’は、未知の変形メッシュ頂点の位置であり、ｘ_ｂｃは、変形後の所与のキーポイントの位置である。双ラプラス（bi-Laplace）方程式の解は各次元で必要とされる。重調和関数は、双ラプラス方程式の解であるが、いわゆる「ラプラシアンエネルギー（Laplacian energy）」の最小化子（minimizers）でもある。

エネルギー最小化の性質はメッシュの平滑化である。前述の最小化子を直接適用する場合、詳細な特徴はすべて平滑化されることになる。そのうえ、キーポイントの位置が変更されないままであるとき、変形されたメッシュは、元のメッシュとまったく同じであることが期待される。これらの考慮事項から、重調和変形の好ましい使用法は、位置以外の頂点の変位（displacement）を解くことである。このようにして、変形された位置を、ｘ’＝ｘ＋ｄと書くことができ、ここで、ｄは各次元の未知の頂点の変位である。当然、重調和変形の式は、ｄ_ｂ＝ｘ_ｂｃ－ｘ_ｂを前提として、Δ^２ｄ＝０となり、ここで、ｄ_ｂは、変形の後のキーポイントの変位である。

ゲーム業界の急速な発展に伴い、カスタマイズされた顔のアバター生成がますます一般的になっている。芸術的なスキルを持たない通常のプレイヤにとって、微妙な変化を示すことができる顔を生成するために制御パラメータを調整することは非常に困難である。

Ｊｕｓｔｉｃｅ顔生成システム（Justice Face Generation System）のようないくつかの既存の顔生成システム及び方法では、顔モデルの予測は、写真内の眉、口、鼻及び他のピクセルのセグメンテーションのような、画像内の２Ｄ情報を予測することである。これらの２Ｄセグメンテーションは、平面外回転及び部分的遮蔽（occlusion）の影響を受けやすく、基本的に正面の顔が必要とされる。加えて、最終ゲームの顔アバターと入力の類似性は顔認識システムによって決定されるので、これは、この方法をリアルスタイルのゲームのみに制限する。ゲームのスタイルが、現実の顔と大きく異なる漫画スタイルの場合、この方法を使用することはできない。

ＭｏｏｎｌｉｇｈｔＢｌａｄｅ（Moonlight Blade Face Generation System）のような、いくつかの他の既存の顔生成システム及び方法では、実際の顔が入力画像から再構成される。この方法はリアルスタイルのゲームに限定され、漫画スタイルのゲームに適用することができない。次に、この方法の出力パラメータは、再構成されたゲームスタイルの顔メッシュであり、その後、メッシュの各部分に対してテンプレートマッチングが実行される。このアプローチは、異なる顔パーツの組合せを制限する。ゲームの顔の全体的な多様性は、事前生成されるテンプレートの数と密接に関連する。口の形状のような特定のパーツのテンプレートの数が少ない場合、異なるバリエーションをほとんど生成しない可能性があり、生成されるフェイスは多様性に欠けることがある。

学習ベースの顔再構成及びキーポイント検出方法は、ゴールドスタンダードとして３Ｄグラウンドトゥルースデータ（ground-truth data）に依拠して、グラウンドトゥルースに可能な限り近く近似するモデルをトレーニングする。したがって、３Ｄグラウンドトゥルースは、学習ベースのアプローチの上限を決定する。顔再構成の精度と望ましいキーポイント検出を保証するために、いくつかの実施形態では、高価な顔キャプチャシステムを使用することなく、２Ｄ顔キーポイント注釈（facial keypoints annotation）を使用して３Ｄ顔モデルのグラウンドトゥルースを生成する。本明細書で開示されるアプローチは、入力画像の詳細な顔特徴を保持する３Ｄグラウンドトゥルース顔モデルを生成し、顔特徴を失う３ＤＭＭベースの方法のような既存の顔モデルの欠点を克服し、また、いくつかの既存の顔モデルベースの方法によって必要とされるＢＦＭ及びＳＦＭ（両方とも商用ライセンスを必要とする）のようなパラメータ化された顔モデルの使用も回避する。

顔キーポイント検出とは別に、いくつかの実施形態では、マルチタスク学習及び転移学習解決策が顔特徴分類タスクのために実装され、その結果、入力顔画像からより多くの情報を抽出することができ、そのような情報はキーポイント情報を補完する。予測された顔特徴とともに、検出された顔キーポイントは、プレイヤの顔アバターを作成するためにコンピュータ又はモバイルゲームにとって価値がある。

いくつかの実施形態では、単一の写真から、肌、眉、瞳、唇、髪及びアイシャドウの平均色を含む人間の顔の各パーツの平均色を抽出するための軽量な方法が本明細書に開示されている。同時に、平均色に基づいてテクスチャマップを自動的に変換するアルゴリズムも使用され、その結果、変換されたテクスチャは依然として元の明るさと色の違いを有するが、メイン色はターゲットの色となる。

コンピュータビジョンと人工知能（ＡＩ）技術の急速な発展により、３Ｄの人間の顔キーポイントのキャプチャ及び再構成は、高い精度レベルを実現している。ますます多くのゲームが、ＡＩ検出を利用してゲームキャラクタをより鮮やかにしている。本明細書に開示される方法及びシステムは、再構成された３Ｄキーポイントに基づいて３Ｄ頭部アバターをカスタマイズする。一般的なキーポイント駆動変形は、任意のメッシュに適用可能である。本明細書で提案される頭部アバターのカスタマイズのプロセスと変形方法は、自動アバター作成及び表情の再発生のようなシナリオにおいてその用途を見つけることができる。

単一の写真に基づいてゲーム内の顔アバターを自動生成するための方法及びシステムが、本明細書において開示される。顔キーポイントの予測、キーポイントの自動処理及びモデルパラメータを予測するためのディープラーニング方法の使用を通して、本明細書で開示されるシステムは、ゲーム内の顔アバターを自動生成し、その顔アバターを、１）写真内の実際の顔の特性を有し、２）ターゲットのゲームスタイルに従うものにすることができる。このシステムを、リアルスタイルのゲームと漫画スタイルのゲームの顔生成に同時に適用することができ、異なるゲームモデルやボーン（bone）定義に従って容易に自動調整することができる。

本出願の第１の側面によると、現実の人物の２次元（２Ｄ）顔画像から顔位置マップを構成する方法は、２Ｄ顔画像から粗い顔位置マップを生成するステップと、粗い顔位置マップに基づいて、２Ｄ顔画像のキーポイントの第１セットを予測するステップと、ユーザ提供されたキーポイント注釈に基づいて、２Ｄ顔画像のキーポイントの第２セットを識別するステップと、２Ｄ顔画像のキーポイントの第１セットとキーポイントの第２セットとの間の差を減少させるように、粗い顔位置マップを更新するステップとを含む。

いくつかの実施形態では、現実の人物の２Ｄ顔画像から顔位置マップを構成する方法は、更新された顔位置マップに基づいて、キーポイントの第３セットをキーポイントの最終的なセットとして抽出するステップを更に含み、キーポイントの第３セットは、顔位置マップ内のキーポイントの第１セットと同じ位置を有する。

いくつかの実施形態では、現実の人物の２Ｄ顔画像から顔位置マップを構成する方法は、更新された顔位置マップに基づいて、現実の人物の３次元（３Ｄ）顔モデルを再構成するステップを更に含む。

本出願の第２の側面によると、被写体（subject）の２次元（２Ｄ）顔画像から色を抽出する方法は、キーポイント予測モデルに基づいて、２Ｄ顔画像内の複数のキーポイントを識別するステップと、識別された複数のキーポイントからの複数のターゲットキーポイントが、標準顔の対応するターゲットキーポイントと位置合わせされるまで、２Ｄ顔画像を回転させるステップと、回転された２Ｄ顔画像内の複数のパーツ（parts）を特定する（locating）ステップであって、各パーツは、識別された複数のキーポイントのそれぞれのサブセットによって定義される、ステップと、２Ｄ顔画像のピクセル値から、キーポイントの対応するサブセットによって定義される複数のパーツの各々の色を抽出するステップと、２Ｄ顔画像内の複数のパーツから抽出された色を使用して、２Ｄ顔画像のそれぞれの顔特徴色に一致する被写体の３次元（３Ｄ）モデルを生成するステップとを含む。

本出願の第３の側面によると、３次元（３Ｄ）頭部変形モデルを生成する方法は、２次元（２Ｄ）顔画像を受け取るステップと、人工知能（ＡＩ）モデルに基づいて、２Ｄ顔画像内のキーポイントの第１セットを識別するステップと、３Ｄ頭部テンプレートモデルのメッシュの複数の頂点に配置されるユーザ提供されたキーポイント注釈のセットに基づいて、キーポイントの第１セットをキーポイントの第２セットにマッピングするステップと、３Ｄ頭部テンプレートモデルのメッシュに変形を実行し、キーポイントの第１セットとキーポイントの第２セットとの間の差を減少させることによって、変形された３Ｄ頭部メッシュモデルを取得するステップと、変形された３Ｄ頭部メッシュモデルにブレンドシェイプ方法を適用して、２Ｄ顔画像に応じてパーソナライズされた頭部モデルを取得するステップとを含む。

本出願の第４の側面によると、現実の人物の２次元（２Ｄ）顔画像を使用してゲーム内のアバターの標準顔をカスタマイズする方法は、２Ｄ顔画像内の現実のキーポイントのセットを識別するステップと、現実のキーポイントのセットを、ゲーム内のアバターに関連付けられるゲームスタイルのキーポイントのセットに変換するステップと、ゲームスタイルのキーポイントのセットをキーポイント・ツー・パラメータ（Ｋ２Ｐ）ニューラルネットワークモデルに適用することによって、ゲーム内のアバターの標準顔の制御パラメータのセットを生成するステップと、制御パラメータのセットに基づいてゲーム内のアバターの標準顔を変形するステップであって、アバターの変形された顔は２Ｄ顔画像の顔特徴を有する、ステップとを含む。

本出願の第５の側面によると、電子機器は、１つ以上の処理ユニットと、メモリと、メモリに記憶された複数のプログラムを含む。プログラムは、１つ以上の処理ユニットによって実行されると、電子機器に上記の１つ以上の方法を実行させる。

本出願の第６の側面によると、非一時的コンピュータ読取可能記憶媒体は、１つ以上の処理ユニットを有する電子機器による実行のために複数のプログラムを記憶する。プログラムは、１つ以上の処理ユニットによって実行されると、電子機器に上記の１つ以上の方法を実行させる。

上記の様々な実施形態を、本明細書に記載される任意の他の実施形態と組み合わせることができる。本明細書に記載される特徴及び利点はすべてを網羅するものではなく、特に、図面、明細書及び特許請求の範囲を考慮すると、多くの追加的な特徴及び利点が当業者には明らかであろう。さらに、本明細書で使用される言語は、主に読みやすさと説明の目的のために選択されたものであり、本発明の主題を描写又は限定するために選択されたものではないことに留意されたい。

本開示をより詳細に理解することができるように、より具体的な説明は、様々な実施形態の特徴を参照することによって行われてよく、その一部は添付図面に図示されている。しかしながら、添付図面は、単に本開示の関連する特徴を例示するだけであり、したがって、説明は他の効果的な特徴を認める可能性があるため、限定とはみなされるべきではない。

本開示のいくつかの実装による、例示的なキーポイント定義を示す図である。

本開示のいくつかの実装による、例示的なキーポイント生成プロセスを示すブロック図である。

本開示のいくつかの実装による、初期の粗い位置マップを変換する例示的なプロセスを示す図である。

本開示のいくつかの実装による、顔エリア全体をカバーしない例示的な変換された位置マップを示す図である。

本開示のいくつかの実装による、顔エリア全体をカバーするように、変換された位置マップを改良する（refining）例示的なプロセスを示す図である。

本開示のいくつかの実装による、位置マップ改良アルゴリズム（position map refinement algorithm）のいくつかの例示的な結果を示す図である。

本開示のいくつかの実装による、初期の粗い位置マップに対する最終位置マップのいくつかの例示的な比較を示す図である。本開示のいくつかの実装による、初期の粗い位置マップに対する最終位置マップのいくつかの例示的な比較を示す図である。

本開示のいくつかの実装による、例示的な眼鏡分類ネットワーク構造を示す図である。

本開示のいくつかの実装による、例示的な女性の毛髪予測ネットワーク構造を示す図である。

本開示のいくつかの実装による、例示的な男性の毛髪予測ネットワーク構造を示す図である。

本開示のいくつかの実装による、いくつかの例示的な眼鏡分類予測結果を示す図である。

本開示のいくつかの実装による、いくつかの例示的な女性の毛髪予測結果を示す図である。

本開示のいくつかの実装による、いくつかの例示的な男性の毛髪予測結果を示す図である。

本開示のいくつかの実装による、現実の人物の２Ｄ顔画像から顔位置マップを構成する例示的なプロセスを示すフローチャートである。

本開示のいくつかの実装による、例示的な色抽出及び調整プロセスを示すフローチャートである。

本開示のいくつかの実装による、例示的な肌色抽出方法を示す図である。

本開示のいくつかの実装による、例示的な眉色抽出方法を示す図である。

本開示のいくつかの実装による、例示的な瞳色抽出方法を示す図である。

本開示のいくつかの実装による、髪色抽出方法で使用される例示的な髪色抽出領域を示す図である。

本開示のいくつかの実装による、髪色抽出領域内の髪ピクセルと肌ピクセルとの間の例示的な分離を示す図である。

本開示のいくつかの実装による、例示的なアイシャドウ色抽出方法を示す図である。

本開示のいくつかの実装による、いくつかの例示的な色相調整結果を示す図である。

本開示のいくつかの実装による、現実の人物の２Ｄ顔画像から色を抽出する例示的なプロセスを示すフローチャートである。

本開示のいくつかの実装による、例示的な頭部アバターの変形及び生成プロセスを示すフローチャートである。

本開示のいくつかの実装による、例示的な頭部テンプレートモデル構成を示す図である。

本開示のいくつかの実装による、リアルスタイルの３Ｄモデルと漫画スタイルの３Ｄモデル上のいくつかの例示的なキーポイントマーキングを示す図である。

本開示のいくつかの実装による、テンプレートモデルレンダリングと、手動でマークされたキーポイントと、ＡＩ検出されたキーポイントとの間の例示的な比較を示す図である。

本開示のいくつかの実装による、例示的な三角形のアフィン変換を示す図である。

本開示のいくつかの実装による、ブレンドシェイププロセス（blendshape process）あり及びなしのいくつかの頭部モデル変形結果の例示的な比較を示す図である。

本開示のいくつかの実装による、異なる重みを有するアフィン変形と重調和変形の例示的な比較を示す図である。

本開示のいくつかの実装による、現実的なテンプレートモデルを使用して、いくつかのランダムに選ばれた女性のピクチャから自動的に生成される、いくつかの例示的な結果を示す図である。

本開示のいくつかの実装による、現実の人物の２Ｄ顔画像から３Ｄ頭部変形モデルを生成する例示的なプロセスを示すフローチャートである。

本開示のいくつかの実装による、例示的なキーポイント処理フローステップを示す図である。

本開示のいくつかの実装による、例示的なキーポイント平滑化プロセスを示す図である。

本開示のいくつかの実装による、例示的なキーポイント・ツー・制御パラメータ（Ｋ２Ｐ）変換プロセスを示すブロック図である。

本開示のいくつかの実装による、モバイルゲームの自動顔生成のいくつかの例示的な結果を示す図である。

本開示のいくつかの実装による、現実の人物の２Ｄ顔画像を使用して、ゲーム内のアバターの標準顔をカスタマイズする例示的なプロセスを示すフローチャートである。

本開示のいくつかの実装による、画像処理装置の例示的なハードウェア構造の概略図である。

一般的な方法によると、図面に示される様々な特徴は、縮尺どおりに描かれていないことがある。したがって、様々な特徴の寸法は、明確性のために、任意に拡大又は縮小されることがある。加えて、図面の一部は、所与のシステム、方法又はデバイスの構成要素のすべてを示していないことがある。最後に、同様の参照番号が、明細書及び図面の全体を通して同様の特徴を示すために使用されることがある。

次に特定の実装が詳細に説明され、その例が添付の図面に図示される。以下の詳細な説明では、本明細書で提示される主題を理解することを助けるために、多数の非限定的な具体的な詳細が説明される。しかしながら、特許請求の範囲から逸脱することなく、様々な代替物が使用されてよく、本主題がこれらの特定の詳細を伴わずに実施されてよいことは、当業者には明らかであろう。例えば当業者には、本明細書において提示された主題を、多くのタイプの電子デバイスにおいて実装することができることが明らかであろう。

本出願の実施形態を詳細に更に説明する前に、本出願の実施形態に関与する名称及び用語を説明するが、本出願の実施形態に関与する名称及び用語は以下の説明を有する。

顔キーポイント：特定の顔のパーツ、例えば目の端（corners of eyes）、顎、鼻先及び口角の形状を決定する、事前定義されたランドマーク。

顔のパーツ：顔の縁（face border）、目、眉、鼻、口及び他のパーツ。

顔の再構成：人間の顔の３Ｄジオメトリ構造と、メッシュモデル、点群又は深度マップを含む一般的に使用される表現を再構成する。

ＲＧＢ画像：赤、緑、青の３チャンネル画像フォーマット。

位置マップ：赤、緑、青のチャンネルを通常の画像フォーマットで使用して、３Ｄの人間の顔の表現である、顔エリアのｘ、ｙ、ｚ座標を記憶する。

顔特徴分類：眼鏡分類あり又は眼鏡分類なしの髪型分類を含む。

畳み込みニューラルネットワーク（ＣＮＮ）：ディープニューラルネットワークのクラスであり、視覚イメージ（visual imagery）の分析に最も一般的に適用される。

ベースネットワーク：特徴抽出器として機能するように１つ又は複数のダウンストリームタスクによって使用されるＣＮＮのようなネットワーク。

ラプラシアン演算子（Laplacian operator）：ユークリッド空間上の関数の勾配の発散によって与えられる微分演算子。

微分可能多様体（Differentiable manifold）：微積分を行うことを可能にするために局所的に線形空間に類似する位相空間のタイプ。

重調和関数（Biharmonic functions）：微分可能多様体において定義される、０に等しい平方ラプラシアン演算子を有する４次微分可能関数。

キーポイント駆動変形（Keypoint-driven deformation）：特定の頂点の位置を変更することによってメッシュを変形する方法のクラス。

重調和変形（Biharmonic deformation）：いくつかの境界条件を有する重調和関数の最適化を用いる変形方法。

アフィン変形（Affine deformation）：メッシュ変形の目的を達成するために三角形のアフィン変換を最適化する、本開示で提案されるキーポイント駆動変形方法。

顔モデル：事前定義されたターゲットゲームにおける標準顔のメッシュ。

ボーン／スライダー：顔モデルを変形する制御パラメータ。

前述のように、入力２Ｄ画像と２Ｄキーポイントの両方を最適化プロセスに供給して３ＤＭＭパラメータを適合させるとしても、最適化は、ベース（すなわち、３Ｄ顔モデルセット）に基づく３Ｄ顔モデルの適合と２Ｄキーポイントの忠実度との間でバランスを取らなければならない。その最適化は、取得される３Ｄ顔モデルが２Ｄ入力キーポイントを無視することにつながり、その結果、２Ｄ入力キーポイントによってもたらされる詳細な顔情報を犠牲にする。既存の３Ｄ顔再構成方法の中で、顔キャプチャ解決策は正確な再構成を生成することができるが、高価で時間がかかり、また、取得されるデータは、顔特徴の限られたバリエーション（限られた数のアクター）を示す。一方、顔モデルベースの方法は、入力として２Ｄ画像又は２Ｄランドマーク注釈を取ることができるが、取得される３Ｄモデルは正確ではない。コンピュータ／モバイルゲームの迅速な開発の要件を満たすためには、望ましい３Ｄモデル精度を生み出すことと、必要とされるコスト及び時間を削減することの両方が必要とされる。これらの要件を満たすために、本明細書で開示される新しい３Ｄグラウンドトゥルース（ground-truth）顔モデル生成アルゴリズムは、２Ｄ画像と、２Ｄキーポイント注釈と、粗い３Ｄ顔モデル（位置マップフォーマット）を入力として取り、２Ｄキーポイントに基づいて粗い３Ｄモデルを変換し、最終的に、詳細な顔特徴が良好に確保される３Ｄ顔モデルを生成する。

顔再構成及びキーポイント予測における重要な問題を解決することの他に、顔特徴分類のためのマルチタスク学習及び転移学習ベースのアプローチも本明細書において開示され、部分的に、顔再構成及びキーポイント予測フレームワークの上に構成される。特に、顔再構成及びキーポイント予測のベースネットワークを再利用して、眼鏡分類（眼鏡あり又は眼鏡なし）はマルチタスク学習を介して達成される。既存の顔再構成及びキーポイント予測フレームワークの上の線形分類器がトレーニングされ、これは、既存のモデルを大幅に再利用し、画像特徴抽出のための別のより大きなネットワークの導入を回避する。加えて、別の共有ベースネットワークが男性と女性の髪型分類に使用される。髪型は、顔キーポイント又は３Ｄ顔モデルを補完する、重要な顔特徴の一種である。ユーザの３Ｄアバターを作成するプロセスでは、髪型及び眼鏡予測を追加することにより、ユーザの顔特徴をより良好に反映し、より良好なパーソナライズ体験を提供することができる。

顔キーポイント予測は、何十年もの間、コンピュータビジョンの研究テーマとなっている。近年の人工知能及びディープラーニングの発展に伴い、畳み込みニューラルネットワーク（ＣＮＮ）が、顔キーポイント予測の進歩を促進している。３Ｄ顔再構成と顔キーポイント検出は、２つの絡み合った問題であり、一方を解決することで他方を単純化することができる。従来の方法は、最初に２Ｄ顔キーポイント検出を解決し、次に、推定された２Ｄ顔キーポイントに基づいて３Ｄ顔モデルを更に推論する。しかしながら、画像内の顔が傾いている（うなずいているか又は首を振っている）とき、特定の顔キーポイントが遮られ、誤った２Ｄ顔キーポイント推定につながり、そのため、誤った２Ｄ顔キーポイントの上に構成する３Ｄ顔モデルは不正確なものとなる。

グラウンドトゥルースのデータは、ディープラーニングベースの方法の上限を決定するので、既存の３Ｄ顔モデルデータセットは数が限られているだけでなく、学術研究のみに利用可能である。一方、顔モデルベースの方法は、ともに商用ライセンスを必要とするバーゼル顔モデル（ＢＦＭ）又はサリー顔モデル（ＳＦＭ）を使用する必要がある。高精度で大量の３Ｄグラウンドトゥルースは、すべての顔再構成又はキーポイント推定モデルをトレーニングする際に最も重要な問題となる。

顔キーポイント予測以外に、顔特徴分類は、ユーザの３Ｄアバター作成の重要な側面である。予測される顔キーポイントでは、ユーザの顔のパーツ（すなわち、目、眉、鼻、口及び顔の輪郭）のスタイル転送のみを行うことができる。しかしながら、ユーザの顔特徴をより良好に反映するためには、ユーザの髪型を一致させることと、入力画像でユーザが眼鏡を装着している場合は一対の眼鏡を追加することは、非常に役立つ。これらの要件に基づいて、男性／女性の髪型予測及び眼鏡予測（あり／なし）を達成するために、マルチタスク学習及び転移学習ベースの顔特徴分類アプローチが開発され、これは、作成された顔アバターをよりパーソナライズしてユーザの体験を向上させる。

いくつかの実施形態では、顔の主要パーツの３次元形状を表すために、図１に示されるようなキーポイント表現が使用される。図１は、本開示のいくつかの実装による、例示的なキーポイント定義を示す図である。キーポイントは、顔の特定の特徴を定義する順番に番号が付けられている。言い換えると、キーポイントのシーケンス番号と顔の特定の位置との間にはマッピング関係がある。例えばシーケンス番号９は、顎の下部に対応し、シーケンス番号２１は鼻の先に対応するなどである。キーポイントは顔の主なパーツの境界、例えば顔の輪郭、目の輪郭及び眉の輪郭等に焦点を当てる。キーポイントが多いほど、予測は難しくなるが、より正確な形状表現になることを意味する。いくつかの実施形態では、図１において、９６個のキーポイントの定義が採用されている。いくつかの実施形態では、ユーザは、キーポイントの特定の定義と数をユーザ自身のニーズに応じて変更することができる。

多くのアルゴリズムは、人間の顔のキーポイントの３次元座標を予測することができる。より良好な性能の方法は、大量のオフライン３Ｄトレーニングデータに基づくディープラーニングアルゴリズムを使用する。しかしながら、いくつかの実施形態では、任意の３次元キーポイント予測アルゴリズムを使用することができる。いくつかの実施形態では、キーポイントの定義は決まっておらず、ユーザは、必要に応じて定義をカスタマイズすることが可能である。

３Ｄグラウンドトゥルース顔モデル生成の問題を解決するために、２ＤのＲＧＢ画像と、２Ｄキーポイント注釈と、粗い位置マップを入力として取る、次の自動アルゴリズムが開発されている。図２は、本開示のいくつかの実装による、例示的なキーポイント生成プロセスを示すブロック図である。例えば顔の２ＤのＲＧＢ画像が入力画像２０２として使用され、２ＤのＲＧＢ画像は、対応する初期の粗い位置マップ２０４を有し、初期の粗い位置マップ内の各ピクセルは、２ＤのＲＧＢ画像内の対応する顔ポイントの空間座標を表す。２Ｄキーポイント注釈２０８は、ユーザ提供されたキーポイントのセットを表し、これは、初期の粗い位置マップ２０４から検出されたキーポイント２０６のセットを修正するために使用される。

図３は、本開示のいくつかの実装による、初期の粗い位置マップを変換する例示的なプロセスを示す図である。

いくつかの実施形態では、３Ｄ再構成方法を使用して、入力顔画像を、顔特徴についての３Ｄ深度情報を含む位置マップに変換する。例えば位置マップは、２５６×２５６のマトリクスアレイを有する２Ｄの３つの色（ＲＧＢ）チャネルマップであってよく、アレイ要素の各々は、顔モデル上の３Ｄ位置を表す座標（ｘ，ｙ，ｚ）を有する。３Ｄ位置座標（ｘ，ｙ，ｚ）は、各アレイ要素について、位置マップ上のＲＧＢピクセル値によって表される。特定の顔特徴は、２Ｄ位置マップ内の固定された２Ｄ位置に配置される。例えば鼻の先を、位置マップ内のＸ＝１２８及びＹ＝１２８の２Ｄアレイ要素の位置によって識別することができる。同様に、顔の上の特定の顔特徴について識別される特定のキーポイントは、２Ｄ位置マップ上の同じアレイ要素の場所に置かれる可能性がある。しかしながら、特定のキーポイントは、位置マップの異なる入力顔画像に応じて異なる３Ｄ位置座標（ｘ，ｙ，ｚ）を有することができる。

いくつかの実施形態では、図２及び図３に示されるように、３Ｄ再構成方法を利用して、入力画像（２０２,３０２）から初期の粗い位置マップ（２０４,３０４）を取得する。次いで、入力２Ｄキーポイント注釈（２０８,３０８）を使用して、初期の位置マップの対応するキーポイント（２０６,３０６）の（ｘ，ｙ）座標を調整し、調整された位置マップ内のキーポイントの調整された（ｘ，ｙ）座標が、注釈付き２Ｄキーポイントと同じになることを保証する。具体的には、最初に、初期の位置マップＰから９６個のキーポイントのセットが取得される。キーポイントインデックスに基づいて、９６個のキーポイントのセットは、Ｋ＝ｋ＿ｉとして参照され、ここで、各ｋ＿ｉは、キーポイントの２Ｄ座標（ｘ，ｙ）であり、ｉ＝０，．．．，９５である。２Ｄキーポイント注釈（２０８,３０８）から、９６個のキーポイントの第２セットＡ＝ａ＿ｉが取得され、これは、２Ｄ（ｘ，ｙ）座標であり、ｉ＝０，．．．，９５である。次に、ＫからＡへの空間変換マッピング（２１０，３１０）が推定され、Ｔ：Ω－＞Ωとして定義され、Ω⊂Ｒ^２である。その後、取得された変換Ｔを初期の位置マップＰに適用して、変換された位置マップＰ'（２１２,３１２）を得る。このようにして、変換された位置マップＰ'（２１２,３１２）は、入力画像（２０２,３０２）内の人物の詳細な顔特徴を保持し、同時に、変換された位置マップＰ'（２１２,３１２）は、妥当な３Ｄ深度情報である。したがって、本明細書で開示される解決策は、３Ｄグラウンドトゥルース情報を生成するために正確かつ実用的な代替解決策を提供し、高価で時間のかかる顔キャプチャシステムの使用を回避する。

いくつかの実施形態では、９６個の顔キーポイントは、顔エリア全体の一部（すなわち、眉の下、顔輪郭の内側）のみをカバーするものであるため、例えば図３では、耳から顎までのキーポイントは下顎に沿っているが、目に見える顔輪郭上にはない。入力画像内の顔が傾いているとき、顔エリア全体は、一緒に接続されるキーポイントの輪郭によってカバーされない。加えて、手動のキーポイント注釈を行うとき、画像内の顔が傾いているかどうかに関係なく、キーポイントは、目に見える顔輪郭に沿ってのみラベル付けされることができる（すなわち、遮られたキーポイントに正確に注釈を付ける方法はない）。その結果、変換された位置マップＰ'（２１２,３１２）では、顔エリアの一部は、変換マッピングＴ（２１０，３１０）が領域内で推定値（estimation）を持たないため、有効な値を持たない。加えて、額エリアは眉の上であるため、Ｔはそのエリア内でも推定値を持たない。これらの問題はすべて、変換された位置マップＰ’（２１２,３１２）が特定のエリア内で有効な値を持たない原因となる。図４は、本開示のいくつかの実装による、顔エリア全体をカバーしない、例示的な変換された位置マップを示す図である。

図４では、上部の円（４０２,４０６）は、額エリアを強調し、右の円（４０４,４０８）は、キーポイントの輪郭が、目に見える顔輪郭よりも小さい領域を示す。

いくつかの実施形態では、上記の問題を解決し、アルゴリズムを、顔画像に一般的に存在する傾けられた顔に対してロバストにするために、図２に示されるような改良プロセス２１４が使用される。変換された位置マップからのキーポイントは、頭のポーズ及び粗い３Ｄ顔モデルに基づいて、目に見える顔輪郭に一致するように顔の輪郭に沿ってシフトされる。その後、顔の輪郭エリア内の欠測値を、取得された位置マップ内に書き入れることができる。しかしながら、額領域内の値はまだ不足している。額領域をカバーするために、画像の四隅にある８つのランドマークを両方のキーポイントセットＫとＡに追加することによって、制御ポイントが拡張される。

図５は、本開示のいくつかの実装による、顔エリア全体をカバーするように、変換された位置マップを改良する例示的なプロセスを示す図である。位置マップ改良処理が図５に示される。

いくつかの実施形態では、最初に、粗い位置マップＰに基づいて頭のポーズを決定し、頭が左又は右に傾いていることを決定し、左又は右を３Ｄ顔モデル空間で定義する（例えば図５に示されるように、顔は左に傾いている。）。顔が左又は右に傾いているという決定に基づいて、顔輪郭の対応する側のキーポイントが調整される。顔輪郭の右側のキーポイントは、１から８までのインデックスを有し、顔輪郭の左側のキーポイントは、１０から１７までのインデックスを有する。左に傾けられた顔を例として使用すると、初期の位置マップＰの２Ｄ投影を計算して、図５に示される画像５０２のような深度マップを得る。左顔輪郭のキーポイントｋ＿ｉ、ｉ＝１０，．．．，１７は、深度マップの境界に達するまで右方向に個々にシフトされる。その後、新しい座標を使用して元のキーポイント位置を置き換える。同様に、顔が右に傾けられるとき、処理されたキーポイントは、ｋ＿ｉ、ｉ＝１，．．．，８によってインデックス付けされ、探索方向は左である。顔輪郭のキーポイントを調整した後、更新されたキーポイントは図５の画像５０４のように視覚化され、位置マップの更新されたカバレッジは図５の画像５０６のように表示される。更新された位置マップは、顔輪郭エリア内のより良好な顔カバレッジを有するが、額エリアには依然として欠測値がある。

いくつかの実施形態では、額エリアをカバーするために、２つのアンカーポイントを、画像領域Ωの各隅において追加のキーポイントｋ＿ｉ、ｉ＝９６，．．．，１０３として追加して、更新されたキーポイントセットＫ'を得る（図５の画像５０８に示されるように）。同じことを手動注釈キーポイントセットａ＿ｉ、ｉ＝９６，．．．，１０３についても行って、更新されたＡ'を得る。更新されたキーポイントセットＫ'及びＡ'を使用して、変換マッピングＴ'を再推定し、次いで、初期の位置マップＰに適用して、（図５の画像５１０に示されるように）顔エリア全体をカバーする最終位置マップＰ''（図２の２１６）を得る。最終キーポイント２１８は、最終位置マップ２１６から導出される。

図６は、本開示のいくつかの実装による、位置マップ改良アルゴリズムのいくつかの例示的な結果を示す図である。６０２は、初期の変換された位置マップの図である。６０４は、顔輪郭を固定した後の更新された位置マップの図である。６０６は、最終位置マップの図である。

図７Ａ及び図７Ｂは、本開示のいくつかの実装による、初期の粗い位置マップに対する最終位置マップのいくつかの例示的な比較を示している。図７Ａの一例では、初期位置マップとそれに関連する３Ｄモデル及びキーポイント７０２内の鼻は、人物の顔特徴（矢印で強調される）を完全には反映することができない不正確なものであるが、本明細書で説明される方法を適用した後、鼻は、最終位置マップとそれに関連する３Ｄモデル及びキーポイント７０４内の画像（矢印で強調される）の画像と良好に位置合わせされる。図７Ｂの２つめの例では、初期位置マップとそれに関連する３Ｄモデル、並びに顔の輪郭、開いている口及び鼻の形状の不一致（矢印で示される）のようなキーポイント７０６に複数の不正確さがある。最終位置マップとそれに関連する３Ｄモデル及びキーポイント７０８では、これらのエラーはすべて修正される（矢印で示される）。

髪型及び眼鏡分類は、顔アバター作成プロセスのモバイルゲームアプリケーションにとって重要である。いくつかの実施形態では、これらの問題を解決するために、マルチタスク学習及び転移学習ベースの解決策が本明細書において実装される。

いくつかの実施形態では、女性の毛髪予測のために４つの異なる分類タスク（頭部）が実装される。分類カテゴリとパラメータを以下に示す：

分類頭部（classification head）１：カーブ

ストレート（０）；カーブ（１）

分類頭部２：長さ

ショート（０）；ロング（１）

分類頭部３：前髪（bang）

前髪なし又はスプリット（０）；左分け（１）；右分け（２）；Ｍ字型（３）；ストレートバング（４）；ナチュラルバング（５）；エアバング（６）

分類頭部４：ブレード（braid、編み）

単一のブレード（０）；２つ以上のブレード（１）；単一の束髪（bun）（２）；２つ以上の束髪（３）；その他（４）。

いくつかの実施形態では、男性の毛髪予測のために３つの異なる分類タスク（頭部）が実装される。分類カテゴリとパラメータを以下に示す：

分類頭部１：とても短い（０）、カール（１）、その他（２）

分類頭部２：前髪なし（０）、スプリットバング（split bang）（１）、ナチュラルバング（２）

分類頭部３：左スプリットバング（０）及び右スプリットバング

いくつかの実施形態では、眼鏡分類はバイナリ分類タスクである。分類パラメータを以下に示す：

眼鏡なし（０）；眼鏡あり（１）。

異なるディープラーニング画像分類モデルの中で、ＩｍａｇｅＮｅｔにおける最先端の精度を達成しているものは、通常、ＥｆｆｉｃｉｅｎｔＮｅｔ、ｎｏｉｓｙｓｔｕｄｅｎｔ、ＦｉｘＲｅｓのような大きなモデルサイズと複雑な構造を有する。特徴抽出器のベースネットワークとしてどのアーキテクチャを使用すべきかを決定するとき、予測精度とモデルサイズの両方のバランスを取らなければならない。実際には、１％の分類精度の向上は、エンドユーザには明白な変化をもたらさない可能性はあるが、モデルサイズは指数関数的に増加する可能性がある。トレーニングされたモデルをクライアント側に展開する必要があるとすると、より小さなベースネットワークは、サーバ側とクライアント側の両方で展開されるように柔軟にすることができる。したがって、例えば異なる分類頭部の転移学習を行うためのベースネットワークとしてＭｏｂｉｌｅＮｅｔＶ２が採用されている。ＭｏｂｉｌｅＮｅｔＶ２アーキテクチャは、入力で拡張表現を使用する従来の残差モデルとは反対に、残差ブロックの入力と出力が薄いボトルネック層である逆残差構造（inverted residual structure）に基づく。ＭｏｂｉｌｅＮｅｔＶ２は、中間拡張層の特徴をフィルタするために軽量の深度方向畳み込み（depthwise convolution）を使用する。

眼鏡分類には、マルチタスク学習アプローチが使用される。キーポイント予測のネットワークをベースネットワークとして再利用し、パラメータを凍結することにより、Ｕ字型ベースのネットワークのボトルネック層において、交差エントロピー損失を伴う特徴ベクトルを使用して、バイナリ分類子をトレーニングする。図８Ａは、本開示のいくつかの実装による、例示的な眼鏡分類ネットワーク構造を示す図である。図８Ｂは、本開示のいくつかの実装による、例示的な女性の毛髪予測ネットワーク構造を示す図である。図８Ｃは、本開示のいくつかの実装による、例示的な男性の毛髪予測ネットワーク構造を示す図である。

図９Ａは、本開示のいくつかの実装による、いくつかの例示的な眼鏡分類予測結果を示す。図９Ｂは、本開示のいくつかの実装による、いくつかの例示的な女性の毛髪予測結果を示す。図９Ｃは、本開示のいくつかの実装による、いくつかの例示的な男性の毛髪予測結果を示す。

図１０は、本開示のいくつかの実装による、現実の人物の２Ｄ顔画像から顔位置マップを構成する例示的なプロセスを示すフローチャート１０００である。現実世界では、異なる人物は異なる顔特性を有し、それにより、同じ顔特性に対応する同じキーポイント（例えば人物の顔の眉の位置）が非常に異なる空間座標を有する可能性がある。顔検出の問題は、３Ｄ顔モデルを生成するために使用される２Ｄ顔画像が、異なる角度で異なる光条件下でキャプチャされるため、より困難なものとなり、この領域の研究はコンピュータビジョンの技術分野で非常に活発なテーマとなっている。本出願では、現実の人物から漫画のキャラクタに及ぶ対象の任意の２Ｄ顔画像からの顔キーポイント検出の効率と精度を向上させるための複数の方法が提案されている。いくつかの実施形態では、同じ顔画像のユーザ提供された顔キーポイントのセットが、コンピュータ実施方法によって最初に検出される顔キーポイントのセットを修正又は改善するための参照として提供される。例えばユーザ提供される顔キーポイントとコンピュータ生成される顔キーポイントの間には、それぞれのシーケンス番号に基づいて１対１のマッピング関係があるため、コンピュータ生成される顔キーポイントの改良は、例えば位置マップ内の対応する空間座標によって測定される、顔キーポイントの２つのセットの間の差を減らす最適化問題として定義される。

顔位置マップを構成するプロセスは、２Ｄ顔画像から粗い顔位置マップを生成するステップ１０１０を含み得る。

プロセスはまた、粗い顔位置マップに基づいて、２Ｄ顔画像内のキーポイントの第１セットを予測するステップ１０２０も含む。

プロセスは更に、ユーザ提供されたキーポイント注釈に基づいて、２Ｄ顔画像内のキーポイントの第２セットを識別するステップ１０３０を含む。

プロセスは更に、２Ｄ顔画像内のキーポイントの第１セットとキーポイントの第２セットとの間の差を減らすように、粗い顔位置マップを更新するステップ１０４０を含む。例えば２Ｄ顔画像のキーポイントの第１セットとキーポイントの第２セットとの間の差を、対応する空間座標に関して減らすことにより、粗い顔の位置マップに基づく２Ｄ顔画像内のキーポイントの第１セットは、より正確であると見なされることが多い、ユーザ提供されるキーポイント注釈に基づく２Ｄ顔画像内のキーポイントの第２セットにより類似するように変更され、顔キーポイントの第１セットの変更は、キーポイントの第１セットが生成される初期の粗い顔位置マップの更新を自動的にトリガする。その後、更新された粗い顔位置マップを使用して、２Ｄ顔画像からキーポイントのより正確なセットを予測することができる。ユーザ提供されるキーポイント注釈に基づく２Ｄ顔画像のキーポイントの第２セットは、手動で行われることを意味しないことに留意されたい。代わりに、ユーザは、注釈を実行するために別のコンピュータ実施方法を採用し得る。いくつかの実施形態では、キーポイントの第２セットの数（例えば１０～２０）は、キーポイントの第１セットの数（例えば９６又はそれ以上）のほんの一部であるが、キーポイントの第２セットがはるかに正確であるという事実は、キーポイントの第１セットの全体的な改善に貢献する。

ある実装では、プロセスは、更新された顔位置マップ／最終位置マップに基づいて、キーポイントの最終セットとしてキーポイントの第３セットを抽出するステップ１０５０を更に含み、キーポイントの第３セットは、顔位置マップ内のキーポイントの第１セットと同じ位置を有する。いくつかの実施形態では、顔位置マップ内のキーポイントの位置は、位置マップ内のアレイ要素の２Ｄ座標によって表される。上記のように、更新された顔位置マップは、ユーザ提供されたキーポイント注釈に基づく２Ｄ顔画像内のキーポイントの第２セットの恩恵を受けており、したがって、キーポイントの第３セットはより正確であり、より正確な顔検出のためのコンピュータビジョン又はより正確な３Ｄ顔モデリングのためのコンピュータグラフィクスのような領域で使用されることができる。

一実装では、ステップ１０５０の代替又は追加として、プロセスは、更新された顔位置マップに基づいて現実の人物の３Ｄ顔モデルを再構成するステップ１０６０を更に含む。一例では、３Ｄ顔モデルは３Ｄ深度モデルである。

追加の実装は、以下の特徴のうちの１つ以上を含んでよい。

いくつかの実施形態では、更新のステップ１０４０は、粗い顔位置マップを、変換された顔位置マップに変換し、変換された顔位置マップを改良することを含んでよい。上記のように、変換された顔位置マップは、初期の粗い顔位置マップよりも入力画像内の人物のより詳細な顔特徴を保持することができ、したがって、変換された顔位置マップに基づく３Ｄ顔モデルはより正確である。

いくつかの実施形態では、変換することは、キーポイントの第１セットとキーポイントの第２セットの差を学習することから、粗い顔位置マップから変換された顔位置マップへの変換マッピングを推定することと、粗い顔位置マップへ変換マッピングを適用することとを含む。

いくつかの実施形態では、改良することは、２Ｄ顔画像が傾いているという決定に従って、顔エリア全体をカバーするように、顔輪郭の遮蔽側にある変換された顔位置マップに対応するキーポイントを調整することを含む。上記のように、異なる２Ｄ顔画像は異なる角度でキャプチャされてよく、この改良するステップは、異なる画像キャプチャ条件によって導入されたバイアス又はエラーを修正し、２Ｄ顔画像のより正確な３Ｄ顔モデルを保持することができる。さらに、変換された顔位置マップは、初期の粗い顔位置マップよりも入力画像内の人物のより詳細な顔特徴を保持することができ、したがって、変換された顔位置マップに基づく３Ｄ顔モデルはより正確である。

いくつかの実施形態では、キーポイントの第１セットは、９６個のキーポイントを含み得る。

いくつかの実施形態では、顔位置マップを構成するプロセスは、顔特徴分類を含み得る。

いくつかの実施形態では、顔特徴分類は、ディープラーニング方法を介して行われる。

いくつかの実施形態では、顔特徴分類は、マルチタスク学習又は転移学習方法を介して行われる。

いくつかの実施形態では、顔特徴分類は、毛髪予測分類を含む。

いくつかの実施形態では、毛髪予測分類は、カーブ、長さ、前髪及びブレードを含み得る複数の分類タスクを有する女性の毛髪予測を含む。

いくつかの実施形態では、毛髪予測分類は、曲線／長さ、前髪及び分け髪（hair split）を含み得る複数の分類タスクを有する男性の毛髪予測を含む。

いくつかの実施形態では、顔特徴分類は眼鏡予測分類を含む。眼鏡予測分類は、眼鏡あり及び眼鏡なしを含み得る、分類タスクを含む。

本明細書で開示される方法及びシステムは、３Ｄグラウンドトゥルース生成のための２Ｄキーポイント注釈に基づいて、正確な３Ｄ顔モデル（すなわち位置マップ）を生成することができる。このアプローチは、ＢＦＭ及びＳＦＭ顔モデルの使用を回避するだけでなく、詳細な顔特徴もより良好に保持し、顔モデルベースの方法によって引き起こされるこれらの重要な特徴の損失を防ぐ。

キーポイントを提供すること以外に、ユーザ入力の顔画像に基づいて顔アバターをパーソナライズするために不可欠な髪型や眼鏡のような補完的な顔特徴を提供するディープラーニングベースの解決策が使用される。

顔特徴分類のための髪型及び眼鏡予測が、本明細書において例として開示されているが、フレームワークはこれらの例示的なタスクに限定されない。フレームワーク及び解決策は、マルチタスク学習と転移学習に基づいており、これは、女性のメイクタイプ分類、男性のひげタイプ分類及びマスク有無の分類のような他の顔特徴を含むようフレームワークを拡張することが容易であることを意味する。フレームワークの設計は、様々なコンピュータ又はモバイルゲームの要件に基づいて、より多くのタスクに拡張するのにより適している。

いくつかの実施形態では、キーポイントに基づく軽量色抽出（light weighted color extraction）方法が本明細書において紹介される。軽量画像処理アルゴリズムは、すべてのピクセルのセグメンテーションなしに迅速にローカルピクセルを推定し、より高い効率をもたらす。

トレーニングプロセスの間、ユーザは、ピクセルレベルのラベルを有する必要なく、目の端、口の境界及び眉のような数個のキーポイントにのみラベル付けをする。

本明細書で開示される軽量色抽出方法を、様々なゲームのためのパーソナライズされた顔生成システムにおいて使用することができる。より自由なパーソナライズされたキャラクタ生成を提供するために、多くのゲームが自由な調整方法を採用し始めている。顔の形状を調整することに加えて、ユーザはまた、様々な色の組合せを選択することもできる。審美的な目的のために、ゲーム内の顔は、実際の顔のテクスチャの代わりに、事前定義されたテクスチャを使用することが多い。本明細書で開示されるこの方法及びシステムは、ユーザが、写真をアップロードすることのみによって顔の各パーツの平均的な色を自動的に抽出することを可能にする。また同時に、システムは、抽出された色に応じてテクスチャを自動的に修正することができ、その結果、パーソナライズされた顔の各パーツは、ユーザ写真の実際の色に近い色に生成され、ユーザ体験を改善する。例えばユーザの肌トーンがほとんどの人々の平均的な肌トーンよりも暗い場合、それに応じてゲーム内のキャラクタの肌トーンも暗くなる。図１１は、本開示のいくつかの実装による、例示的な色の抽出及び調整プロセスを示すフロー図である。

顔の様々なパーツを配置するために、上述の図１に示されるように、顔の主要な特徴パーツについてキーポイントが定義される。上述のアルゴリズムは、キーポイント予測に使用される。意味セグメンテーション方法とは異なり、各ピクセルを分類する必要なく、キーポイントを、画像内で予測するだけであり、その結果、予測及びトレーニングデータのラベル付けのコストが大幅に削減される。これらのキーポイントにより、顔の様々なパーツを大まかに配置することができる。

図１２は、本開示のいくつかの実装による、例示的な肌色抽出方法を示す。画像内の特徴を抽出するために、顔の左側と右側のキーポイント１及び１７が、標準顔の左側と右側の対応するキーポイントに位置合わせされるように、元の画像１２０２の顔エリアを回転させる必要がある。

次に、肌トーンピクセル検査のエリアを決定する。目のキーポイントの下部座標を、検出エリアの上方境界として選択し、鼻の下部キーポイントを検出エリアの下方境界として選択し、左右の境界を顔の境界キーポイントによって決定する。このように、画像１２０６のエリア１２０８内に示されるように、肌色検出エリアが取得される。

このエリア１２０８内の必ずしもすべてのピクセルが肌のピクセルではなく、ピクセルはまた、いくつかのまつ毛、鼻孔、ほうれい線、毛髪等も含み得る。したがって、このエリアのすべてのピクセルのＲ、Ｇ、Ｂ値の中央値が、最終予測平均肌色として選択される。

図１３は、本開示のいくつかの実装による、例示的な眉色抽出方法を示す。眉の平均色のために、最初に、主眉、すなわち、レンズにより近い側にある眉が、ターゲットとして選択される。いくつかの実施形態では、両眉が主眉である場合、両側の眉ピクセルが抽出される。左の眉が主眉であると仮定すると、図１３に示されるように、キーポイント７７、７８、８１及び８２で構成される四辺形エリアが眉ピクセル探索エリアとして選択される。これは、外側に近い眉は細すぎるため、小さなキーポイント誤差の影響が大きくなるからである。内側に近い眉はまばらで肌色と混ざっていることが多いため、中央の眉エリア１３０２が、ピクセルを収集するために選択される。そして、各ピクセルを最初に平均肌色と比較する必要があり、一定の閾値より大きい差を有するピクセルのみが収集されることになる。最後に、肌色と同様に、収集されたピクセルの中央値Ｒ、Ｇ、Ｂ値が最終平均眉色として選択される。

図１４は、本開示のいくつかの実装による、例示的な瞳色抽出方法を示している。眉色抽出と同様に、瞳色を抽出するとき、最初に、レンズに近い主眼の側が選択される。いくつかの実施形態では、両目が主眼である場合、両側のピクセルが一緒に収集される。瞳自体に加えて、目のキーポイントの内側に含まれる囲まれたエリアはまた、まつ毛、白目及び反射（reflections）も含むことがある。これらは、最終ピクセルのほとんどが瞳自体から得られることを保証するために、ピクセル収集のプロセスで可能な限り除去されるべきである。

まつ毛ピクセルを除去するために、目のキーポイントを、ｙ軸（図１４の垂直方向）に沿って一定の距離だけ内側に縮めて、図１４に示されるエリア１４０２を形成する。白目と反射（図１４の円１４０４で示される）を除去するために、このエリア１４０２では、そのようなピクセルが更に除外される。例えばピクセルのＲ、Ｇ、Ｂ値がすべて所定の閾値より大きい場合、そのピクセルは除外される。この方法で収集されたピクセルは、そのほとんどが瞳自体から得られることを保証することができる。同様に、中央値の色が平均瞳色として使用される。

いくつかの実施形態では、唇色抽出のために、下唇エリアのピクセルのみが検出される。上唇は薄いことが多く、キーポイント誤差に比較的敏感であり、また、上唇は色が薄いために唇色をうまく表現できない。したがって、写真を回転させて修正した後、下唇のキーポイントで囲まれたエリア内のすべてのピクセルを収集して、平均的唇色を表す中央値の色を使用する。

図１５は、本開示のいくつかの実装による、髪色抽出方法で使用される例示的な髪色抽出領域を示す。髪色抽出は、以前のパーツよりも難しい。その主な理由は、各人の髪型が独特であり、写真の背景が複雑で多様であることである。したがって、髪のピクセルを特定することは難しい。髪ピクセルを正確に見つける１つの方法では、ニューラルネットワークを使用して画像の髪ピクセルをセグメンテーションする。画像セグメンテーションの注釈コストは非常に高く、ゲームアプリケーションでは非常に高精度の色抽出は必要とされないので、キーポイントの近似予測に基づく方法が使用される。

髪ピクセルを取得するために、まず、検出エリアが決定される。図１５に示されるように、検出エリア１５０２は長方形である。下方境界は、両側にある眉の角（eyebrow corners）であり、高さ（縦線１５０４）は眉の上端から目の下端までの距離１５０６である。左及び右は、一定距離をそれぞれ左右に延長するキーポイント１，１７である。このようにして取得される髪ピクセル検出エリア１５０２が図１５に示される。

図１６は、本開示のいくつかの実装による、髪色抽出領域内の髪ピクセルと肌ピクセルとの間の例示的な分離を示す。一般に、検出エリアは、肌、髪及び背景という３つのタイプのピクセルを含む。いくつかのより複雑なケースでは、ヘッドウェアも含む。検出エリアの左右の範囲は比較的保守的であるため、含まれる髪ピクセルは、ほとんどのケースでは、背景ピクセルよりもはるかに多いと想定される。したがって、主なプロセスは、検出エリアのピクセルを髪又は肌に分けることである。

検出エリアのピクセルの各ラインについて、肌色変化は、例えば明るい色から暗い色へと連続的であることが多く、肌色と髪の接合部には、明らかな変化があることが多い。したがって、各行の中央ピクセルが開始点１６０８として選択され、肌ピクセルが左側及び右側に対して検出される。最初に、比較的保守的な閾値を使用して、より信頼性の高い肌色ピクセルを見つけ、次いで、左右に拡張する。隣接するピクセルの色が比較的近い場合、それは肌色としてもマークされる。このような方法は肌色のグラデーションを考慮しており、比較的正確な結果を取得することができる。図１６に示されるように、髪色抽出領域１６０２内において、１６０４のようなより暗い領域は肌色ピクセルを表し、１６０６のようなより明るい領域は髪色ピクセルを表す。髪色領域内の収集された髪色ピクセルの中央値のＲ、Ｇ、Ｂ値が、最終的な平均髪色として選択される。

図１７は、本開示のいくつかの実装による、例示的なアイシャドウ色抽出方法を示す。アイシャドウ色の抽出は、以前のパーツとは少し異なる。これは、アイシャドウは、存在することも又は存在しないこともあるメイクアップだからである。そのため、アイシャドウ色を抽出するとき、まずアイシャドウが存在するかどうかを判断し、存在する場合、その平均色を抽出する。眉及び瞳の色抽出と同様に、アイシャドウ色抽出は、レンズに近い主眼の部分に対してのみ実行される。

まず、どのピクセルがアイシャドウに属するかを判断する必要がある。アイシャドウのピクセルの検出エリアについて、図１７に示されるように、ライン１７０４及び１７０６の内側のエリア１７０２が使用される。エリア１７０２の左側と右側が、目頭と目尻として定義され、エリアの上側と下側は、眉の下端と目の上端である。このエリア１７０２内の可能なアイシャドウピクセルに加えて、アイシャドウを抽出するときに除外する必要があるまつ毛、眉及び肌も存在することがある。

いくつかの実施形態では、眉の影響を排除するために、検出エリアの上端を更に下に移動させる。まつ毛の影響を低減するために、特定の閾値未満の明るさのピクセルは除外される。アイシャドウを肌色から区別するために、各ピクセルの色相と平均肌色相との間の差をチェックする。差が特定の閾値より大きいときにのみ、そのピクセルは、可能なアイシャドウピクセルとして収集される。ＲＧＢ値の代わりに色相を使用する理由は、平均肌色は主に目の下で収集され、目の上の肌色は明るさの変化が大きい可能性があるためである。色は明るさに敏感ではないため、色は比較的安定している。そのため、ピクセルが肌かどうかを判断するには色相の方が適している。

上記のプロセスを通して、各検出エリア内のピクセルがアイシャドウに属するかどうかを判断することができる。いくつかの実施形態では、アイシャドウが存在しない場合、誤差（error）が発生する可能性があり、いくつかのピクセルが依然としてアイシャドウとして認識される可能性がある。

上記の誤差を低減するために、検出エリアの各列がチェックされる。現在の列のアイシャドウピクセルの数が特定の閾値より大きい場合、現在の列はアイシャドウ列としてマークされる。検出エリアの幅に対するアイシャドウ列の比が特定の閾値より大きい場合、現在の画像内にアイシャドウが存在すると見なされ、収集されたアイシャドウピクセルの中央値の色が最終色として使用される。このように、アイシャドウとして誤って分類された少数のピクセルは、アイシャドウ全体に対して誤った判断を引き起こすことはない。

アートスタイルを考慮すると、ほとんどのゲームは、上記のパーツすべての色を自由に調整することは許容しない。色調整がオープンなパーツについては、定義された色のセットと一致させることのみが許可されることが多い。髪を例に取ると、髪型が、５つの髪色を選択することを許容する場合、リソースパック内の髪型は各髪色に対応するテクスチャ画像を含む。検出中に、髪色予測結果に従って最も近い色のテクスチャ画像を選択する限り、所望の髪レンダリング効果を得ることができる。

いくつかの実施形態では、１つの色テクスチャ画像のみが提供されるとき、検出された任意の色に従って、テクスチャ画像の色を合理的に変更することができる。色変換を容易にするために、一般的に使用されるＲＧＢ色空間表現はＨＳＶ色モデルに変換される。ＨＳＶ色モデルは、色相Ｈ、彩度Ｓ、明度Ｖの３次元で構成される。色相Ｈは、モデル内で３６０度の色範囲として表され、赤は０度、緑は１２０度、青は２４０度である。彩度Ｓは、スペクトル色と白の混合を表す。彩度が高いほど、色は明るくなる。彩度が０に近づくと、色は白に近づく。明度Ｖは色の明るさを表し、値の範囲は黒から白までである。色調整後、テクスチャ画像のＨＳＶ中央値は、予測された色と一致すると予想される。したがって、各ピクセルの色相値計算を次のように表すことができる：Ｈ_ｉ'＝（Ｈ_ｉ＋Ｈ'－Ｈ）％１、ここで、Ｈ_ｉ'及びＨ_ｉは、調整前及び調整後のピクセルｉの色相を表し、Ｈ及びＨ'は、調整前及び調整後のテクスチャ画像の色相の中央値を表す。

端から端まで接続される連続空間である色相とは異なり、彩度と明度には、０と１のような境界特異点がある。色相調整と同様の線形処理方法が使用される場合、初期ピクチャ及び調整されたピクチャの中央値が０又は１に近いとき、多くのピクセル値は、彩度又は明るさが高すぎる又は低すぎることになる。その現象は不自然な色を引き起こす。この問題を解決するために、以下の非線形曲線を使用して、ピクセル調整の前と後に彩度と明度を適合させる。

ｙ＝１／（１＋（１－α）（１－ｘ）／（αｘ））、α∈（０，１）

上記の式において、ｘ及びｙは、それぞれ調整前と調整後の彩度又は明度の値である。唯一未定のパラメータはαであり、これを次のように導出することができる。

α＝１／（１＋ｘ／（１－ｘ）×（１－ｙ）／ｙ）

この式は、αが０から１までの区間に入ることを保証することができる。彩度を例に取ると、初期中央値の彩度Ｓを、入力ピクチャに基づいて簡単に計算することができる。そして、ターゲットの彩度値Ｓ_ｔを、髪色抽出と色空間変換によって得ることができる。したがって、α＝１／（１＋Ｓ／（１－Ｓ）×（１－Ｓ_ｔ）／Ｓ_ｔ）である。デフォルトのテクスチャ画像内の各ピクセルＳ_iについて、次いで、調整された値、以下の式によって計算することができる：Ｓ_i'＝１／（１＋（１－α）（１－Ｓ_i）／（α Ｓ_i））。同じ計算が明度に適用される。

調整されたテクスチャピクチャの表示効果をより実際のピクチャに近づけるために、異なるパーツに対して特別な処理が行われる。例えば髪の低彩度を保つために、Ｓ'＝Ｓ'×Ｖ'＾０．３が設定される。図１８は、本開示のいくつかの実装による、いくつかの例示的な色調整結果を示す。列１８０２は、特定のゲームによって提供されるいくつかのデフォルトのテクスチャピクチャを示し、列１８０４は、同じ行内の対応するデフォルトのテクスチャピクチャから列１８０４の上部に示される実際のピクチャに従って調整された、いくつかのテクスチャピクチャを示し、列１８０６は、同じ行内の対応するデフォルトのテクスチャピクチャから列１８０６の上部に示される実際のピクチャに従って調整された、いくつかのテクスチャピクチャを示す。

図１９は、本開示のいくつかの実装による、現実の人物の２Ｄ顔画像から色を抽出する例示的なプロセスを示すフローチャート１９００である。

現実の人物の２Ｄ顔画像から色を抽出するプロセスは、キーポイント予測モデルに基づいて２Ｄ顔画像内の複数のキーポイントを識別するステップ１９１０を含む。

プロセスはまた、識別された複数のキーポイントからの複数のターゲットキーポイントが、標準顔の対応するターゲットキーポイントと位置合わせされるまで、２Ｄ顔画像を回転させるステップ１９２０も含む。

プロセスは更に、回転された２Ｄ顔画像内の複数のパーツを特定する（locating）ステップ１９３０を含み、各パーツは、識別された複数のキーポイントのそれぞれのサブセットによって定義される。

プロセスは更に、２Ｄ顔画像のピクセル値から、キーポイントの対応するサブセットによって定義される複数のパーツの各々の色を抽出するステップ１９４０を含む。

プロセスは更に、抽出された色を使用して、２Ｄ顔画像のそれぞれの顔特徴色に一致する現実の人物の３Ｄモデルを生成するステップ１９５０を含む。

追加の実装は、以下の特徴のうちの１つ以上を含み得る。

いくつかの実施形態では、識別するステップ１９１０におけるキーポイント予測モデルは、ユーザが手動で注釈を付けたキーポイントからの機械学習に基づいて形成される。

いくつかの実施形態では、回転するステップ１９２０において位置合わせに使用される選択されたキーポイントは、２Ｄ顔画像の対称的な左側と右側に配置される。

いくつかの実施形態では、ステップ１９４０において複数のパーツの各々の平均色を抽出することは、対応するパーツ内のそれぞれの定義されたエリア内のすべてのピクセルのＲ、Ｇ、Ｂ値の中央値を、予測平均色として選択することを含み得る。

いくつかの実施形態では、ステップ１９４０において複数のパーツの各々の平均色を抽出することは、肌パーツ内の肌色抽出のためのエリアを決定することと、肌色抽出のためのエリア内のすべてのピクセルのＲ、Ｇ、Ｂ値の各々の中央値を、肌パーツの予測平均色として選択することとを含み得る。いくつかの実施形態では、肌パーツ内の肌色抽出のためのエリアは、顔の目より下で鼻の下端より上のエリアとして決定される。

いくつかの実施形態では、ステップ１９４０において複数のパーツの各々の平均色を抽出することは、眉パーツ内の眉色抽出を含むことができ、これは、眉が２Ｄ顔画像のビューア（viewer）に近い側にあるという決定に従って、眉をターゲット眉として選択することと、両方の眉が２Ｄ顔画像のビューアに等しく近いという決定に従って、両方の眉をターゲット眉として選択することと、ターゲット眉の中間眉エリア（middle eyebrow area）を抽出することと、中間眉エリア内の各ピクセル値を平均肌色と比較することと、閾値を超える平均肌色とのピクセル値差を有する、中間眉エリア内のピクセルを収集することと、眉色抽出のための収集されたピクセルのＲ、Ｇ、Ｂ値の各々の中央値を、眉パーツの予測平均色として選択することとを含み得る。

いくつかの実施形態では、ステップ１９４０において複数のパーツの各々の平均色を抽出することは、目パーツ内の瞳色抽出を含むことができ、これは、目が２Ｄ顔画像のビューアに近い側にあるという決定に従って、目をターゲット目として選択することと、両方の目が２Ｄ顔画像のビューアが等しく近いという決定に従って、両方の目をターゲット目として選択することと、まつ毛を含まないターゲット目内のエリアを抽出することと、抽出されたエリア内の各ピクセル値を、事前決定された閾値と比較することと、事前決定された閾値を超えるピクセル値差を有する、抽出されたエリア内のピクセルを収集することと、瞳色抽出のための収集されたピクセルのＲ、Ｇ、Ｂ値の各々の中央値を、瞳の予測平均色として選択することとを含み得る。

いくつかの実施形態では、ステップ１９４０において複数のパーツの各々の平均色を抽出することは、唇パーツ内の唇色抽出を含むことができ、これは、下唇のキーポイントによって囲まれたエリア内のすべてのピクセルを収集することと、唇色抽出のための収集されたピクセルのＲ、Ｇ、Ｂ値の各々の中央値を、唇パーツの予測平均色として選択することとを含み得る。

いくつかの実施形態では、ステップ１９４０において複数のパーツの各々の平均色を抽出することは、髪パーツ内の髪色抽出を含むことができ、これは、両側の髪パーツへと伸びる額の部分を含むエリアを識別することと、エリアの中間から左境界及び右境界までの事前決定された閾値を超えるピクセル色変化を決定することと、事前決定された閾値を超えるピクセル色変化に基づいて、エリアを髪エリアと肌エリアに分けることと、エリア内の髪エリアのピクセルのＲ、Ｇ、Ｂ値の各々の中央値を、髪パーツの予測平均色として選択することとを含み得る。

いくつかの実施形態では、両側の髪パーツへと伸びる額の部分を含むエリアは、両眉の角における下方境界と、２Ｄ顔画像の対称的な左側と右側に配置されるキーポイントから外側に一定距離にある左境界及び右境界と、眉の上端から目の下端までの距離の高さとを有する長方形エリアとして識別される。

いくつかの実施形態では、ステップ１９４０において複数のパーツの各々の平均色を抽出することは、アイシャドウパーツ内のアイシャドウ色抽出が含むことができ、これは、２Ｄ顔画像のビューアに近い側に目があるという決定に従って、目をターゲット目として選択することと、両方の目が２Ｄ顔画像のビューアに等しく近いという決定に従って、両方の目をターゲット目として選択することと、ターゲット目に近いアイシャドウパーツ内の中間エリア（middle area）を抽出することと、事前決定された明るさ閾値を超える明るさを有し、かつ平均肌色相値（skin hue value）から、事前決定された閾値を超えるピクセル色相値差を有する、抽出された中間エリア内のピクセルを収集してまつ毛を除外することと、抽出された中間エリア内の１つのピクセル列内の収集されたピクセルの数が閾値を超えているとの決定に従って、そのピクセル列をアイシャドウ列としてラベル付けすることと、抽出された中間エリアの幅に対するアイシャドウ列の比が特定の閾値を超えるとの決定に従って、アイシャドウ色抽出のための収集されたピクセルのＲ、Ｇ、Ｂ値の各々の中央値を、アイシャドウパーツの予測アイシャドウ色として選択することとを含み得る。

いくつかの実施形態では、現実の人物の２Ｄ顔画像から色を抽出するプロセスは更に、テクスチャマップの元の明るさと色の差を保持しながら、平均色に基づいてテクスチャマップを変換することを含むことができ、これは、平均色をＲＧＢ色空間表現からＨＳＶ（色相、彩度、明度（hue，saturation，lightness））色空間表現に変換することと、平均色の中央値ＨＳＶ値とテクスチャマップの中央値ＨＳＶ値ピクセルの差を減らすようにテクスチャマップの色を調整することとを含み得る。

本明細書で開示される方法及びシステムを、キャラクタモデリング及びゲームキャラクタ生成のような異なるシナリオにおける用途で使用することができる。軽量な方法は、モバイルデバイスを含む異なるデバイスに柔軟に適用されることができる。

いくつかの実施形態では、現在のシステム及び方法における顔のキーポイントの定義は、現在の定義に限定されず、各パーツの輪郭を完全に表現することができる限り、他の定義も可能である。加えて、いくつかの実施形態では、スキームで直接返される色は、直接使用されないことがあり、更なる色スクリーニングと制御を実現するために、事前定義された色リストと一致されることがある。

ラプラシアン演算子を最適化する変形方法は、メッシュが微分可能な多様体であることを必要とする。しかしながら、実際には、ゲームアーティストによって作成されたメッシュは、重複した頂点のようなアーチファクトや、多様体の特性を損なう可能性がある保護されていないエッジを含むことが多い。したがって、重調和変形のような方法は、メッシュを注意深くクリーンアップした後でのみ使用することができる。本明細書で提案されるアフィン変形の方法は、ラプラシアン演算子を使用せず、したがって、そのような強い制約はない。

重調和変形によって代表される変形方法のファミリーは、場合によっては、変形能力の不足に悩まされる。ラプラシアン演算子を１回解く調和関数は、低平滑度要件に起因して、平滑化結果を達成することができないことが多い。高次（＞＝３）ラプラシアン演算子を解く多調和関数（Poly-harmonic functions）は、少なくとも６次微分可能であるというそれらの高い要件に起因して、多くのメッシュで失敗する。ほとんどの場合、ラプラシアン演算子を２回解く重調和変形のみが、許容可能な結果をもたらすことが観察される。それでも、チューニングの自由度の欠如のために、その変形は依然として不満足である可能性がある。本明細書で提案されるアフィン変形は、平滑度パラメータを変更することによって微細な変形チューニングを達成することができ、その変形結果の範囲は、重調和変形を使用する場合の範囲をカバーする。

図２０は、本開示のいくつかの実装による、例示的な頭部アバターの変形及び生成プロセスを示すフロー図である。本開示で提案される技術を使用して、スケルトンとバインドすることなく、ヘッドメッシュを適切に変形することができる。したがって、アーティストから要求される負荷が大幅に削減される。本技術は、より良い一般性を得るために異なるスタイルのメッシュに対応する。ゲームアセットの制作では、アーティストは、３ＤＭａｘ又はＭａｙａのようなツールを使用して様々なフォーマットでヘッドモデルを保存することができたが、これらのフォーマットの内部表現はすべてポリゴンメッシュである。ポリゴンメッシュを、純粋な三角形メッシュに簡単に変換することができ、これはテンプレートモデルと呼ばれる。テンプレートモデルごとに、３Ｄキーポイントはテンプレートモデルに手動で１回マークされる。その後、それを、任意の人間の顔ピクチャから検出及び再構成された３Ｄキーポイントに従って、特徴的な頭部アバターに変形するために使用することができる。

図２１は、本開示のいくつかの実装による、例示的な頭部テンプレートモデル構成を示す図である。頭部テンプレートモデル２１０２は、図２１に示されるように、通常、顔２１１０、目２１０４、まつ毛２１０６、歯２１０８及び髪のようなパーツで構成される。スケルトンをバインドすることなく、メッシュ変形は、テンプレートメッシュの接続された構造に依拠する。そのため、テンプレートモデルをこれらの意味的パーツ（sematic parts）に分割する必要があり、顔メッシュを最初に変形する必要がある。顔メッシュの特定のキーポイントを設定して従うことによって、すべての他のパーツを自動的に調整することができる。いくつかの実施形態では、すべてのトポロジー接続されたパーツを検出するために対話型ツールが提供され、ユーザはそれを使用して、更に変形するためにそれらの意味的パーツを便利にエクスポートすることができる。

いくつかの実施形態では、いくつかの検出アルゴリズム又はＡＩモデルを介して、人間の顔の画像キーポイントを取得することができる。メッシュ変形を駆動する目的で、これらのキーポイントをテンプレートモデル上の頂点にマッピングする必要がある。メッシュ接続のランダム性と、３Ｄの人間キーポイントマーキングデータの欠如のために、任意の頭部モデル上の３Ｄキーポイントを自動的に正確にマークすることができるツールはない。したがって、３Ｄモデル上のキーポイントを手動で迅速にマークすることができる対話型ツールが開発されている。図２２は、本開示のいくつかの実装による、２２０２、２２０４のようなリアルスタイルの３Ｄモデルと、２２０６、２２０８のような漫画スタイルの３Ｄモデル上のいくつかの例示的なキーポイントマーキングを示す図である。

マーキングの手順では、３Ｄモデル上のマークされた３Ｄキーポイントの位置は、ピクチャキーポイントと最大限に一致するべきである。キーポイントは３Ｄモデルメッシュの離散的な頂点上にマークされるので、偏差のインポートは避けられない。このような偏差をオフセットするために、１つの方法は、ポーズ処理で適切なルールを定義することである。図２３は、本開示のいくつかの実装による、テンプレートモデルレンダリングと、手動でマークされたキーポイントと、ＡＩ検出されたキーポイントとの間の例示的な比較を示す図である。いくつかの実施形態では、比較的現実的に作られたモデルに対して、キーポイント検出及び再構成アルゴリズムをテンプレートモデル（２３０２）のレンダリングに適用することができ、例えば人工知能による３Ｄキーポイントの結果（２３０６）を、手動でマークしたもの（２３０４）と更に比較することができ、したがって、キーポイントの２つのグループの間の偏差が計算される。人間のピクチャを検出するとき、計算された偏差は、現実の画像内の検出されたキーポイントから減少し、人工マーキングの悪影響が排除されることになる。

本明細書で開示されるアフィン変形の方法は、最終的に線形方程式のシステムを解くキーポイント駆動の数学的モデリングである。本明細書で開示される方法は、検出されたキーポイントを境界条件として使用してテンプレートメッシュを変形する１つのステップを取り、最適化のプロセスで異なる制約を採用する。図２４は、本開示のいくつかの実装による、例示的な三角形のアフィン変換を示す図である。

いくつかの実施形態では、テンプレートメッシュから予測メッシュへの変形は、各三角形のアフィン変換のアセンブリと見なされる。三角形のアフィン変換を、３×３行列Ｔ及び並進ベクトルｄとして定義することができる。図２４に示されるように、アフィン変換後の変形された頂点の位置は、ｖ_ｉ'＝Ｔｖ_ｉ＋ｄ、ｉ∈１．．．４と表記され、ここで、ｖ_１、ｖ_２、ｖ_３は、それぞれ三角形の各頂点を表し、ｖ_４は三角形の法線の方向に導入される余分な点（extra point）であり、式ｖ_４＝ｖ_１＋（ｖ_２－ｖ_１）×（ｖ_３－ｖ_１）／ｓｑｒｔ（｜（ｖ_２－ｖ_１）×（ｖ_３－ｖ_１）｜）を満たす。上記の式では、クロス積の結果は、三角形の辺の長さに比例するように正規化される。ｖ_４を導入する理由は、３つの頂点の座標が、一意のアフィン変換を決定するのに十分でないためである。ｖ_４を導入した後、導出式が取得され：Ｔ＝［ｖ_２'－ｖ’_１ｖ'_３－ｖ’_１ｖ'_４－ｖ’_１］×［ｖ_２－ｖ_１ｖ_３－ｖ_１ｖ_４－ｖ_１］^－１、行列Ｔの非変換部分（non-translation part）が決定される。行列Ｖ＝［ｖ_２－ｖ_１ｖ_３－ｖ_１ｖ_４－ｖ_１］^－１はテンプレートメッシュにのみ依存し、他の変形係数には不変であるため、後に線形システムを構成するためのスパース係数行列として事前に計算することができる。

ここまで、アフィン変換Ｔの数式における非変換部分を示している。最適化の線形システムを構成するために、メッシュの頂点の数がＮであり、三角形の数がＦであると想定すると、以下の４つの制約が考慮される：

キーポイントの位置の制約：Ｅ_ｋ＝Σ_ｉ＝１｜｜ｖ’_ｉ－ｃ’_ｉ｜｜^２、ｃ’_ｉは、メッシュ変形後の検出されたキーポイントの位置を表す。

隣接平滑度（adjacency smoothness）の制約：Ｅ_ｓ＝Σ_ｉ＝１Σ_{ｊ∈ａｇｊ（ｉ）}｜｜Ｔ_ｉ－Ｔ_ｊ｜｜^２これは、隣接する三角形の間のアフィン変換が可能な限り類似しているべきであることを意味する。隣接関係を事前に照会して記憶して、重複した計算を回避し、システムを構成するための性能を向上させることができる。

特性の制約：Ｅ_ｉ＝Σ_ｉ＝１｜｜Ｔ_ｉ－Ｉ｜｜^２、ここで、Ｉは単位行列（identity matrix）を表す。この制約は、アフィン変換が可能な限り変更されないようにすべきであることを意味し、これはテンプレートメッシュの特性を維持するのに役立つ。

元の位置の制約：Ｅ_１＝Σ_ｉ＝１Ｎ｜｜ｖ’Ｉ－ｃ_ｉ｜｜^２、ここで、ｃ_ｉは、変形前のテンプレートメッシュ上の各頂点の位置を表す。

最後の制約は、上記制約の加重和である：ｍｉｎＥ＝ｗ_ｋＥ_ｋ＋ｗ_ｓＥ_ｓ＋ｗ_ｉＥ_ｉ＋ｗ_１Ｅ_１、ここで、重みｗ_ｋ、ｗ_ｓ、ｗ_ｉ、ｗ_１Ｅ_１は、最も強いものから最も弱いものにランク付けされる。上記の制約を使用すると、最終的に線形系を構成することができ、そのサイズは（Ｆ＋Ｎ）×（Ｆ＋Ｎ）であり、重みは、システム内の対応する係数と乗算される。未知のものは、各三角形の余分な点ｖ’_４の他に、変形後の各頂点の座標である。前者の項は有用であるので、ｖ’_４の結果は破棄される。連続変形のプロセスでは、キーポイントの位置の制約を除くすべての制約行列を再利用することができる。アフィン変換は、数千の頂点を有するメッシュに関して、通常のパーソナルコンピュータ及びインテリジェントフォンで３０ｆｐｓのリアルタイム性能を実現することができる。

図２５は、本開示のいくつかの実装による、ブレンドシェイププロセスあり及びなしのいくつかの頭部モデル変形結果の例示的な比較を示す図である。

いくつかの実施形態では、ゲームアバターの頭部モデルを変形するとき、関心領域は通常顔のみである。頭頂部、後側及び首は変更されないままにすべきであり、そうでなければ、頭と、髪又は胴体との間にメッシュが浸透する可能性がある。この問題を回避するために、アフィン変形の結果及びテンプレートメッシュは、ブレンドシェイプの方法で線形補間される。ブレンディングのための重みを、３Ｄモデリングソフトウェアでペイントするか、あるいは重調和変形又はアフィン変形でわずかな変更で計算することができる。例えばキーポイントの重みは１に設定され、一方で、より多くのマーカ（図２５の２５０４の暗い点）が頭部モデルに追加され、それらの重みは０に設定される。いくつかの実施形態では、すべての重みを０から１の範囲に強制的に収めるために、解くプロセスにおいて不等式の制約（inequality constraints）が追加されるが、そうすることは、解くことの複雑性を大幅に増加させることになる。実験を通じて、０より小さいか又は１より大きい重みを切り取ることによって、良好な結果を得ることができる。図２５の２５０４に示されるように、最も暗い色のモデル部分の重みは１ｓであり、色のないモデル部分の重み０ｓである。ブレンド加重レンダリング２５０４では、明るいキーポイントと暗いマーカとの間に自然な遷移が存在する。ブレンドシェイプありの場合、変形後のモデル（図２５の２５０６に示される）の後側は元のモデル（図２５の２５０２に示される）と同じままである。ブレンドシェイプなしの場合、変形後のモデルの後側（図２５の２５０８に示される）は元のモデル（図２５の２５０２に示される）と同じままではない。

いくつかの実施形態では、アフィン変形は、重調和変形の結果をシミュレートすることを含め、制約の重みを操作することによって異なる変形効果を達成することができる。図２６は、本開示のいくつかの実装による、異なる重みを有するアフィン変形と重調和変形の例示的な比較を示す図である。図２６に示されるように、平滑度は、隣接平滑度重みｗ_ｓと特性重みｗ_ｉの比である。暗い点はキーポイントであり、色の濃さは頂点の変形位置とその元の位置との間の変位を表す。すべての変形結果において、１つのキーポイントは変更されないままであり、他のキーポイントは同じ位置に移動する。これは、特性の重みに対して隣接平滑度重みを徐々に増加させると、変形された球の平滑度もそれに応じて増加することを示している。加えて、重調和変形の結果は、平滑度が、１０から１００の間のどこかにあるアフィン変形の結果と一致する可能性がある。これは、アフィン変形が、重調和変形と比べて変形の自由度が高いことを示す。

本明細書で説明されるワークフローを使用すると、ゲームは、頭部アバターのインテリジェント生成の機能を容易に統合することができる。例えば図２７は、本開示のいくつかの実装による、現実的なテンプレートモデルを使用して、いくつかのランダムに選択された女性のピクチャ（図２７には図示せず）から自動的に生成される、いくつかの例示的な結果を示す。すべてのパーソナライズされた頭部アバターは、対応するピクチャのいくつかの特性を反映している。

図２８は、本開示のいくつかの実装による、現実の人物の２Ｄ顔画像から３Ｄ頭部変形モデルを生成する例示的なプロセスを示すフローチャート２８００である。

２Ｄ顔画像から３Ｄ頭部変形モデルを生成するプロセスは、２次元（２Ｄ）顔画像を受け取るステップ２８１０を含む。

プロセスはまた、例えば畳み込みニューラルネットワークのような人工知能（ＡＩ）モデルに基づいて２Ｄ顔画像のキーポイントの第１セットを識別するステップ２８２０も含む。

プロセスは加えて、３Ｄ頭部テンプレートモデルに配置されるユーザ提供のキーポイント注釈のセットに基づいて、キーポイントの第１セットを３Ｄ頭部テンプレートモデルのメッシュの複数の頂点に配置されるキーポイントの第２セットにマッピングするステップ２８３０を含む。

プロセスは加えて、３Ｄ頭部テンプレートモデルのメッシュに対して変形を実行し、キーポイントの第１セットとキーポイントの第２セットとの間の差を減らすことによって、変形された３Ｄ頭部メッシュモデルを取得するステップ２８４０を含む。いくつかの実施形態では、第１セット内のキーポイントと第２セット内のキーポイントとの間に対応が存在する。キーポイントの第２セットをキーポイントの第１セットと同じ空間に投影した後、キーポイントの第１セットとキーポイントの第２セットの各々の間の位置差を測定する関数が生成される。３Ｄ頭部テンプレートモデルのメッシュに対して変形を実行することにより、キーポイントの第１セットとキーポイントの第２セットの各々の間の位置差（例えば位置、隣接平滑度、特性等）を測定する関数が最小化されるとき、空間内のキーポイントの第２セットが最適化される。

プロセスは加えて、変形された３Ｄ頭部メッシュモデルにブレンドシェイプ方法を適用して、２Ｄ顔画像に応じてパーソナライズされた頭部モデルを取得するステップ２８５０を含む。

追加の実装は、以下の特徴のうちの１つ以上を含み得る。

いくつかの実施形態では、マッピングするステップ２８３０は、２Ｄ顔画像上のキーポイントの第１セットを、３Ｄ頭部テンプレートモデルのメッシュ上の複数の頂点に関連付けることと、３Ｄ頭部テンプレートモデルのメッシュ上の複数の頂点上のユーザ提供のキーポイント注釈のセットに基づいて、キーポイントの第２セットを識別することと、顔のそれぞれのキーポイントによって、対応する識別された特徴に基づいて、キーポイントの第１セットとキーポイントの第２セットをマッピングすることとを更に含み得る。

いくつかの実施形態では、キーポイントの第２セットは、以前に計算された偏差を、ユーザ提供されたキーポイント注釈のセットに適用することによって特定される。いくつかの実施形態では、以前に計算された偏差は、３Ｄ頭部テンプレートモデルのＡＩ識別されたキーポイントの以前のセットと、３Ｄ頭部テンプレートモデルのメッシュの複数の頂点に対するユーザ提供されたキーポイント注釈の以前のセットとの間である。

いくつかの実施形態では、変形を実行するステップ２８４０は、キーポイントの第１セットからキーポイントの第２セットへのマッピングを使用することにより、キーポイントの第１セットに関連する変形の境界条件を使用することにより、３Ｄ頭部テンプレートモデルのメッシュを変形された３Ｄ頭部メッシュモデルに変形することを含み得る。

いくつかの実施形態では、変形を実行するステップ２８４０は、キーポイントの位置、隣接平滑度、特性及び元の位置のうちの１つ以上を含む変形最適化のプロセスにおいて、異なる制約を適用することを更に含み得る。

いくつかの実施形態では、変形を実行するステップ２８４０は、キーポイントの位置、隣接平滑度、特性及び元の位置のうちの１つ以上の加重合計である変形のプロセスに制約を適用することを更に含み得る。

いくつかの実施形態では、キーポイントの第１セットを識別するステップ２８２０は、畳み込みニューラルネットワーク（ＣＮＮ）を使用することを含む。

いくつかの実施形態では、変形は、ラプラシアン演算子を用いないアフィン変形を含む。いくつかの実施形態では、アフィン変形は、平滑度パラメータを変更することによって変形チューニングを達成する。

いくつかの実施形態では、スケルトンとバインドすることなく、３Ｄ頭部テンプレートモデルのメッシュを変形することができる。いくつかの実施形態では、顔の変形モデルは、リアルスタイルモデル又は漫画スタイルモデルを含む。

いくつかの実施形態では、ステップ２８５０において、変形された３Ｄ頭部メッシュモデルにブレンドシェイプ方法を適用することは、変形された３Ｄ頭部メッシュモデルのキーポイントに対するそれぞれのブレンド重みを、そのキーポイントの位置に応じて指定することと、異なるブレンド重みを有するキーポイントに異なるレベルの変形を適用することとを含む。

いくつかの実施形態では、ステップ２８５０において、変形された３Ｄ頭部メッシュモデルにブレンドシェイプ方法を適用することは、変形された３Ｄ頭部メッシュモデルの後側を、変形前の３Ｄ頭部テンプレートモデルの元の後側の形状と同じ形状に保つことを意味する。

いくつかの実施形態では、テンプレートモデル上の意味的パーツは、目、まつ毛又は歯に限定されない。眼鏡のような装飾は潜在的に、顔メッシュ上に新しいキーポイントを追加して追跡することによって、適応的に調整されることが可能である。

いくつかの実施形態では、テンプレートモデル上のキーポイントは手動で追加される。いくつかの他の実施形態では、ディープラーニング技術を利用して、異なるテンプレートモデルのキーポイントを自動的に追加することもできる。

いくつかの実施形態では、アフィン変形を解く手順は、いくつかの数値トリックを利用して、その計算性能を更に向上させることができる。

いくつかの実施形態では、本明細書で開示されるシステム及び方法は、以下に列挙されるもののような多くの利点を有する、軽量キーポイントベースの顔アバター生成システムを形成する。

入力画像に対する低い要件。システム及び方法は、顔がカメラに直接向いていることを必要とせず、ある程度の平面内回転、平面外回転及び遮蔽は性能に明らかには影響しない。

リアルゲームと漫画ゲームの両方への適用可能性。本システムは、ゲームスタイルをリアルスタイルに限定せず、漫画スタイルにも同様に適用することができる。

軽量及びカスタマイズ化。本システムの各モジュールは比較的軽量であり、モバイルデバイスに適している。このシステムのモジュールは分離されており、ユーザは、最終顔生成システムを構成するために、異なるゲームスタイルに従って異なる組合せを採用することができる。

いくつかの実施形態では、所与の単一の写真について、主顔が最初に検出され、キーポイント検出が実行される。実際のピクチャでは、顔はカメラに向いていないことがあり、実際の顔は必ずしも常に完全に対称ではない。したがって、元の画像内のキーポイントは、統一された対称的で滑らかなキーポイントのセットを実現するために前処理される。その後、キーポイントは、拡大された目及び薄い顔のようなゲームの特定のスタイルに応じて調整される。スタイル化されたキーポイントを取得した後、スタイル化されたキーポイントは、ゲーム内の顔モデルの制御パラメータ、一般的にはボーンパラメータ又はスライダーパラメータに変換される。

いくつかの実施形態では、実際の顔の視野角がカメラに直接向いていないことがあり、左右非対称及びキーポイント検出エラーのような問題が存在する可能性がある。図２９は、本開示のいくつかの実装による、例示的なキーポイント処理フローステップを示す図である。元の画像２９０４から検出されたキーポイントを直接使用することはできず、一定の処理が必要とされる。ここでは、プロセスは、図２９に示されるように、正規化と、対称化と、平滑化という３つのステップに分けられる。

いくつかの実施形態では、実際の顔キーポイントの予測に基づくゲーム内の標準顔モデルを調整する必要がある。プロセスは、ゲーム内の標準顔モデルと実際の顔のキーポイントが、スケール、位置及び方向に関して位置合わせされることを保証する必要がある。したがって、予測されるキーポイントとゲーム顔モデル上のキーポイントの正規化２９０６は、以下の部分、すなわち、スケールの正規化、平行移動（translation）の正規化及び角度の正規化を含む。

いくつかの実施形態では、元の検出のすべての３次元顔キーポイントは、ｐとして定義され、ここで、i番目のキーポイントは、ｐ_i＝｛ｘ_ｉ，ｙ_ｉ，ｚ_ｉ｝である。例えば正規化された起点（origin）は、キーポイントＮｏ．１とＮｏ．１７（図１のキーポイントの定義を参照）の中間点、すなわちｃ＝（ｐ_１＋ｐ_１７）／２として定義される。スケールについては、起点から１番目のキーポイントと１７番目のキーポイントの間の距離が１に調整され、その結果、スケールと平行移動（translation）によって正規化された３次元キーポイントは、ｐ'＝（ｐ－ｃ）／｜｜ｐ_１－ｃ｜｜である。

いくつかの実施形態では、スケールと平行移動を正規化した後、顔の方向を更に正規化する。図２９の画像２９０２に示されるように、実際の写真の顔は、レンズに直接向いていないことがあり、常に一定のゆがみが存在し、これは３つの座標軸上に存在することがある。ｘ、ｙ及びｚ座標軸に沿った顔の予測された３次元キーポイントは、顔の方向がカメラに向くように順次回転される。ｘに沿って回転させるとき、キーポイント１８と２４（図１のキーポイントの定義を参照）のｚ座標が位置合わせされる、すなわち、鼻梁の最上部の深度を鼻底と同じ深度にして、回転行列Ｒ_Ｘを得る。ｙ軸に沿って回転させるとき、キーポイント１と１７のｚ座標を位置合わせして、回転行列Ｒ_Ｙを得る。ｚ軸に沿って回転させるとき、キーポイント１と１７のｙ座標を位置合わせして、回転行列Ｒ_Ｚを得る。したがって、キーポイントの方向が整列され、正規化されるキーポイントは次のように示される：
Ｐ_ｎｏｒｍ＝Ｒ_Ｚ×Ｒ_Ｙ×Ｒ_Ｘ×Ｐ’

いくつかの実施形態では、正規化されたキーポイントのスケール、位置及び角度は均一になるように調整されているが、得られるキーポイントは完全な顔でないことが多い。例えば鼻梁は、中心にある直線ではなく、顔特徴が対称でないことがある。これは、写真の実際の顔は、表情又はそれ自体の特性に起因して完全に対称ではなく、キーポイントを予測するときに追加の誤差が導入されることになる。実際の顔は対称ではないことがあるが、ゲーム内の顔モデルが対称でない場合、見栄えが悪くなり、ユーザ体験を大幅に低下させる。したがって、２９０８に示されるようなキーポイントの対称性は必要なプロセスである。

キーポイントが正規化されているため、いくつかの実施形態では、単純な対称方法は、すべての左右対称キーポイントのｙ座標とｚ座標を平均化して、元のｙ座標とｚ座標を置き換えることである。この方法はほとんどの場合うまく機能するが、顔がｙ軸方向に大きな角度で回転するとき、性能が犠牲になる。

いくつかの実施形態では、図２９の人間の顔を例にして使用すると、顔が大きな角度で左に偏向されると、眉の一部が見えなくなる。同時に、遠近法により左目は右目より小さくなる。３Ｄキーポイントは遠近関係によって生じる影響を部分的に補償することができるが、キーポイントに対応する３Ｄキーポイントの２Ｄ投影は依然としてピクチャ上に保持される必要がある。したがって、過度に大きな角度の偏向は、３Ｄキーポイントの検出結果において目と眉のサイズに明らかな違いをもたらすことになる。角度によって引き起こされる影響に対処するため、ｙ軸に沿った顔の偏向角度が大きいとき、レンズに近い目と眉を主眼及び主眉として使用し、反対側にコピーして角度の偏向による誤差を小さくする。

いくつかの実施形態では、キーポイントの予測誤差は避けられないため、個々のケースによっては、対称化されたキーポイントは、まだ実際の顔と一致していない可能性がある。実際の顔と顔特徴の形状はかなり異なるため、事前定義されたパラメータ化された曲線を使用して、比較的正確な記述（description）を実現することは困難である。したがって、２９１０に示されるように平滑化するとき、顔の輪郭、目、眉、下唇等の一部のエリアのみを平滑化する。これらのエリアは基本的に、単調で滑らかな状態を維持する、すなわち、ギザギザの状態はない。この場合、ターゲットの曲線は常に、凸曲線又は凹曲線であるべきである。

いくつかの実施形態では、キーポイントが凸曲線（又は凹曲線）の定義を満たすかどうかが、関係する境界について１つずつチェックされる。図３０は、本開示のいくつかの実装による、例示的なキーポイント平滑化プロセス２９１０を示す図である。図３０に示されるように、一般性を失うことなく、ターゲット曲線は凸であるべきである。各キーポイント３００２、３００４、３００６、３００８及び３０１０について、その位置が隣接する左右のキーポイントの線上にあるかどうかがチェックされる。条件が満たされる場合、現在のキーポイントが凸曲線の要件を満たすことを意味する。そうでない場合、現在のキーポイントを、左右のキーポイントを結ぶ線まで移動させる。例えば図３０では、キーポイント３００６は凸曲線の限界を満たしておらず、位置３０１２まで移動される。複数のキーポイントを移動させる場合、曲線は、移動後に凸又は凹であることが保証されないことがある。したがって、いくつかの実施形態では、複数回の平滑化を使用して、比較的滑らかなキーポイント曲線を取得する。

異なるゲームは異なる顔スタイルを有する。いくつかの実施形態では、実際の顔のキーポイントは、ゲームによって必要とされるスタイルに変換する必要がある。リアルスタイルのゲームの顔は似ているが、漫画の顔は大きく異なる。したがって、キーポイントのスタイル化のために統一基準を持つことは難しい。実際に使用されるスタイル化の定義は、特定のゲームスタイルに従って顔の特性を調整するゲームのデザイナーに由来する。

いくつかの実施形態では、ほとんどのゲームが必要とする可能性がある、より一般的な顔調整スキームが実装される。例えば顔の長さの調整、幅の調整、顔特徴等である。様々なゲームアートスタイル、調整レベル、ズーム比等に従って、カスタム補正を行うことができる。同時に、ユーザは、例えば目の形を長方形に変更すること等、任意の特別なスタイル調整方法をカスタマイズすることもできる。システムはあらゆる調整方法をサポートすることができる。

いくつかの実施形態では、スタイル化された顔キーポイントにより、標準的なゲームの顔を変形し、その結果、変形された顔のキーポイントがターゲットのキーポイントの位置に到達する。ほとんどのゲームは、顔を調整するためにボーンやスライダーのような制御パラメータを使用するので、キーポイントをターゲットの位置に移動するために、制御パラメータのセットが必要とされる。

異なるゲームにおけるボーン又はスライダーの定義は異なることがあり、修正の可能性はいつでもあるので、キーポイントからボーンパラメータまでの単純なパラメータ化された関数を直接定義することは現実的ではない。いくつかの実施形態では、機械学習方法を使用して、Ｋ２Ｐ（キーポイント・ツー・パラメータ）ネットワークと呼ばれるニューラルネットワークを介してキーポイントをパラメータに変換する。一般的なパラメータとキーポイントの数は大きくない（一般的に１００未満）ため、いくつかの実施形態では、Ｋ層の完全接続ネットワークが使用される。

図３１は、本開示のいくつかの実装による、例示的なキーポイントから制御パラメータへの（Ｋ２Ｐ）変換プロセスを示すブロック図である。機械学習方法を使用するために、いくつかの実施形態では、最初にボーン又はスライダーパラメータがランダムにサンプリングされてゲームクライアント３１１０に供給され、生成されたゲーム顔でキーポイントが抽出される。このようにして、多くのトレーニングデータを取得することができる（パラメータ３１１２とキーポイント３１１４のペア）。次に、自己教師あり機械学習方法を実装するが、これは２つのステップに分けられる：第１のステップは、ゲームパラメータからキーポイントを生成するプロセスをシミュレートするためにＰ２Ｋ（パラメータ・ツー・キーポイント）ネットワーク３１１６をトレーニングすることである。第２のステップでは、本明細書で説明される方法に従って、多数のラベル付けされていない実際の顔画像３１０２を使用して実際の顔キーポイント３１０４を生成し、次いで多数のスタイル化されたキーポイント３１０６を生成する。これらのラベル付けされていないスタイル化されたキーポイント３１０６は、自己教師あり学習トレーニングデータである。いくつかの実施形態では、キーポイントＫのセットが、学習のためにＫ２Ｐネットワーク３１０８に入力されて出力パラメータＰを得る。これらのキーポイントに対応する理想的なパラメータのグラウンドトゥルースが利用可能でないので、キーポイントＫ'を取得するために、第１のステップでトレーニングされたＰ２Ｋネットワーク３１１６にＰが更に入力される。いくつかの実施形態では、ＫとＫ'の間の平均二乗誤差（ＭＳＥ、Mean Square Error）損失を計算することによって、Ｋ２Ｐネットワーク３１０８を学習することができる。いくつかの実施形態では、第２のステップの間、Ｐ２Ｋネットワーク３１１６はフィックスされて、調整され続けない。Ｐ２Ｋネットワーク３１１６の支援により、ゲームクライアント３１１０のパラメータをキーポイントへと制御するプロセスは、ニューラルネットワークを使用してシミュレートされ、第２のステップにおけるＫ２Ｐネットワーク３１０８の学習の基礎を築く。このようにして、パラメータによって生成された最終的な顔は、生成されたターゲットのスタイル化された顔のキーポイントに近いままになる。

いくつかの実施形態では、同時に、ＫとＫ'の間のＭＳＥ損失を計算するときに、対応する重みを調整することによって、目のキーポイントのような特定のキーポイントへの重みが追加される。キーポイントの定義は事前に定義されており、ゲームクライアントのボーンやスライダーによる影響は受けないので、重みの調整がより容易になる。

いくつかの実施形態において、実際の適用では、モデルの精度を向上させるために、分離することができる部分について、ニューラルネットワークを別個にトレーニングすることができる。例えばいくつかのボーンパラメータが目のエリアのキーポイントにのみ影響を与え、他のパラメータはこのエリアに影響しない場合、これらのパラメータとキーポイントのこの部分は、独立したエリアのセットを形成する。このような領域のグループごとに別個のＫ２Ｐモデル３１０８をトレーニングし、各モデルはより軽量なネットワーク設計を採用することができる。これにより、モデルの精度が更に向上するだけでなく、計算量を低減することもできる。

図３２は、本開示のいくつかの実装による、モバイルゲームの自動顔生成のいくつかの例示的な結果を示す。図３２に示されるように、元の顔画像（３２０２及び３２０６）からゲーム顔アバター画像生成（３２０４及び３２０８）への結果が示されている。いくつかの実施形態では、スタイル化するとき、開いた口は閉じられ、異なるレベルの制限と漫画化が鼻、口、顔形、目及び眉に適用される。最終的に生成された結果は、依然として特定の人間の顔特性を保持し、ゲームスタイルの審美的要件を満たす。

図３３は、本開示のいくつかの実装による、現実の人間の２Ｄ顔画像を使用してゲーム内のアバターの標準顔をカスタマイズする例示的なプロセスを示すフローチャート３３００である。

現実の人間の２Ｄ顔画像を使用してゲーム内のアバターの標準顔をカスタマイズするプロセスは、２Ｄ顔画像内の現実のキーポイントのセットを識別するステップ３３１０を含む。

プロセスはまた、現実のキーポイントのセットを、ゲーム内のアバターに関連付けられるゲームスタイルのキーポイントのセットに変換するステップ３３２０も含む。

プロセスは加えて、キーポイント・ツー・パラメータ（Ｋ２Ｐ）ニューラルネットワークモデルをアバターキーポイントのセットに適用することによって、ゲーム内のアバターの標準顔の顔制御パラメータのセットを生成するステップ３３３０を含み、顔制御パラメータのセットは各々、標準顔の複数の顔特徴のうちの１つに関連する。図３１に関連して上記したように、Ｋ２Ｐネットワーク３１０８は、入力アバターキーポイントのセットに基づいて顔制御パラメータのセットを予測する、ディープラーニングニューラルネットワークモデルであるが、これは、顔制御パラメータのセットがアバターの標準顔に適用されるとき、調整された標準顔のキーポイントが、入力アバターキーポイントのセットと同様のキーポイントのセットを有することができるように、アバターキーポイントの異なるセットは、顔制御パラメータの異なるセットに対応し得るからである。

プロセスは加えて、顔制御パラメータのセットを標準顔に適用することによって、標準顔の複数の顔特徴を調整するステップ３３４０を含む。

追加の実装は、下記の特徴のうちの１つ以上を含み得る。

いくつかの実施形態では、ステップ３３３０において、Ｋ２Ｐニューラルネットワークモデルは、以下によりトレーニングされる：すなわち、現実の人物の複数のトレーニング用２Ｄ顔画像を取得することと；複数のトレーニング用２Ｄ顔画像の各々について、トレーニング用ゲームスタイルのキーポイント又はアバターキーポイントのセットを生成することと；トレーニング用ゲームスタイルのキーポイントの各セットをＫ２Ｐニューラルネットワークモデルに提示して、制御パラメータのセットを取得することと；制御パラメータのセットを、事前トレーニングされたパラメータ・ツー・キーポイント（Ｐ２Ｋ）ニューラルネットワークモデルに提示して、トレーニング用ゲームスタイルのキーポイントのセットに対応する予測されたゲームスタイルのキーポイントのセットを取得することと；トレーニング用ゲームスタイルのキーポイントのセットと、対応する予測されたゲームスタイルのキーポイントのセットとの差を減少させることによって、Ｋ２Ｐニューラルネットワークモデルを更新することと；により、トレーニングされる。図３１に関連して上記したように、Ｋ２Ｐネットワーク３１０８とは対照的に、Ｐ２Ｋネットワーク３１１６は、入力顔制御パラメータのセットに基づいてアバターキーポイントのセットを予測するディープラーニングニューラルネットワークモデルであるが、これは、２つのニューラルネットワークモデルが互いに逆プロセスを実行すると見なされるとき、Ｐ２Ｋネットワーク３１１６に関連付けられる出力アバターキーポイントのセットが、Ｋ２Ｐネットワーク３１０８に関連付けられる入力アバターのキーポイントのセットと一致する必要があるように、顔制御パラメータの異なるセットがアバターキーポイントの異なるセットを生じさせることがあるからである。

いくつかの実施形態では、事前トレーニングされたＰ２Ｋニューラルネットワークモデルは、ゲーム内のアバターに関連付けられるボーン又はスライダーパラメータを含む制御パラメータのセットを受け取り、制御パラメータのセットに従って、ゲーム内のアバターについてゲームスタイルのキーポイントのセットを予測するように構成される。

いくつかの実施形態では、トレーニング用ゲームスタイルのキーポイントのセットと、対応する予測されたゲームスタイルのキーポイントのセットとの間の差は、トレーニング用ゲームスタイルのキーポイントのセットと、対応する予測されたゲームスタイルのキーポイントのセットとの間の平均二乗誤差の合計である。

いくつかの実施形態では、トレーニングされたＫ２Ｐニューラルネットワークモデル及び事前トレーニングされたＰ２Ｋニューラルネットワークモデルはゲームに特有である。

いくつかの実施形態では、２Ｄ顔画像内の現実のキーポイントのセットは、２Ｄ顔画像内の現実の人物の顔特徴に対応する。

いくつかの実施形態では、ゲーム内のアバターの標準顔を、異なる現実の人物の顔画像に従って、ゲームの異なるキャラクタにカスタマイズすることができる。

いくつかの実施形態では、アバターの変形された顔は、現実の人物の漫画スタイルの顔である。いくつかの実施形態では、アバターの変形された顔は、現実の人物のリアルスタイルの顔である。

いくつかの実施形態では、ステップ３３２０において、現実のキーポイントのセットをゲームスタイルのキーポイントのセットに変換することは、現実のキーポイントのセットを正準空間に正規化することと、現実のキーポイントの正規化されたセットを対称化することと、ゲーム内のアバターに関連付けられる所定のスタイルに従って、現実のキーポイントの対称化されたセットを調整することと、を含む。

いくつかの実施形態では、現実のキーポイントのセットを正準空間に正規化することは：現実のキーポイントのセットを正準空間にスケーリングすることと；２Ｄ顔画像内の現実のキーポイントのセットの向きに従って、スケーリングされた現実のキーポイントのセットを回転させることと；を含む。

いくつかの実施形態では、現実のキーポイントのセットをゲームスタイルのキーポイントのセットに変換することは、所定の凸曲線又は凹曲線要件を満たすように、対称化されたキーポイントのセットを平滑化することを更に含む。

いくつかの実施形態では、ゲーム内のアバターに関連付けられる所定のスタイルに従って、現実のキーポイントの対称化されたセットを調整することは、顔の長さの調整、顔の幅の調整、顔特徴の調整、ズームの調整及び目の形の調整のうちの１つ以上を含む。

本明細書で開示されるシステム及び方法を、リアルスタイルと漫画スタイルのゲームの両方のための様々なゲームの自動顔生成システムに適用することができる。本システムは、組み込みが簡単なインタフェースを有し、ユーザ体験を向上させる。

いくつかの実施形態では、本明細書で開示されるシステム及び方法を、様々なゲームの３Ｄ顔アバター生成システムで使用することができ、複雑な手動のチューニングプロセスを自動化して、ユーザ体験を向上させる。ユーザは、自撮りするか又は既存の写真をアップロードすることができる。本システムは、写真の顔から特徴を抽出し、ＡＩ顔生成システムを通してゲームの顔の制御パラメータ（ボーン又はスライダーのような）を自動的に生成することができる。ゲーム側は、これらのパラメータを使用して顔アバターを生成するので、作成された顔はユーザの顔特徴を有する。

いくつかの実施形態では、このシステムは、キーポイント定義、スタイル化方法、スケルトン／スライダーの定義等を含め、異なるゲームに応じて簡単にカスタマイズすることができる。ユーザは、特定のパラメータのみを調整するか、モデルを自動的に再トレーニングするか又はカスタム制御アルゴリズムを追加することを選択することができる。このようにして、本発明を様々なゲームに簡単に展開することができる。

更なる実施形態は、様々な他の実施形態で組み合わされるか別の方法で再配置される、上記の実施形態の様々なサブセットも含む。

ここで、本出願の実施形態の画像処理装置は、添付図面の説明に関連して実装される。画像処理装置は、様々な形式で、例えばサーバ又は端末（例えばデスクトップコンピュータ、ノートブックコンピュータ又はスマートフォン）のような異なるタイプのコンピュータデバイスで実装されてよい。本出願の各実施形態の画像処理装置のハードウェア構成は以下で更に説明される。図３４は、画像処理装置のすべての構造ではなく、単に例示的な構造を示すものであり、図３４に示される部分的又は全体構造は、要件に応じて実装されてよいことが理解され得る。

図３４を参照すると、図３４は、本出願の一実施形態による、画像処理装置の任意のハードウェア構造の概略図であり、実際の適用では、アプリケーションプログラムを実行しているサーバ又は様々な端末に適用されてよい。図３４に示される画像処理装置３４００は、少なくとも１つのプロセッサ３４０１、メモリ３４０２、ユーザインタフェース３４０３及び少なくとも１つのネットワークインタフェース３４０４を含む。画像処理装置３４００内の構成要素は、バスシステム３４０５によって互いに結合される。バス３４０５は、構成要素間の接続及び通信を実装するように構成されていることが理解され得る。バスシステム３４０５は、データバスを含むことに加えて、電力バス、制御バス及びステータス信号バスを更に含んでもよい。しかしながら、明確な説明のために、図３４ではすべてのバスがバスシステム３４０５としてマークされている。

ユーザインタフェース３４０３は、ディスプレイ、キーボード、マウス、トラックボール、クリックホイール、キー、ボタン、タッチパッド、タッチスクリーン等を含み得る。

メモリ３４０２は、揮発性メモリ又は不揮発性メモリであってよく、あるいは揮発性メモリと不揮発性メモリの両方を含んでもよいことが理解され得る。

メモリ３４０２は、本出願の実施形態において、画像処理装置３４００の動作をサポートするために、異なるタイプのデータを記憶するように構成される。データの例には、画像処理装置３４００上で動作を実行するために使用される実行可能プログラム３４０２１及びオペレーティングシステム３４０２２のような任意のコンピュータプログラムが含まれ、本出願の実施形態の画像処理方法を実行するために使用されるプログラムは、実行可能プログラム３４０２１に含まれてよい。

本出願の実施形態で開示される画像処理方法は、プロセッサ３４０１に適用されてもよく、あるいはプロセッサ３４０１によって実行されてもよい。プロセッサ３４０１は、集積回路チップであってよく、信号処理能力を有する。実装プロセスでは、画像処理方法の各ステップは、プロセッサ３４０１内のハードウェアの集積論理回路又はソフトウェア形式の命令を使用することによって完了され得る。前述のプロセッサ３４０１は、汎用プロセッサ、デジタル信号プロセッサ（ＤＳＰ）、別のプログラマブル論理デバイス、個別ゲート（discrete gate）、トランジスタ論理デバイス、個別ハードウェア構成要素等であり得る。プロセッサ３４０１は、本出願の実施形態で提供される方法、ステップ及び論理ブロック図を実装又は実行し得る。汎用プロセッサは、マイクロプロセッサ、任意の従来のプロセッサ等であり得る。本出願の実施形態で提供される方法のステップは、ハードウェア復号プロセッサによって直接実行されてもよく、あるいは復号プロセッサ内でハードウェアとソフトウェアモジュールを組み合わせることによって実行されてもよい。ソフトウェアモジュールは記憶媒体に配置されてよい。記憶媒体はメモリ３４０２内に配置される。プロセッサ３４０１は、メモリ３４０２内の情報を読み出し、該情報をそのハードウェアと組み合わせることによって、本出願の実施形態で提供される画像処理方法のステップを実行する。

いくつかの実施形態では、画像処理及び３Ｄ顔及び頭部形成を、サーバのグループ又はネットワーク上のクラウド上で実現することができる。

１つ以上の例では、説明される機能は、ハードウェア、ソフトウェア、ファームウェア又はそれらの任意の組合せで実装され得る。ソフトウェアで実装される場合、機能は、１つ以上の命令又はコードとして、コンピュータ読取可能媒体上に記憶されるか又はこれを介して転送され、ハードウェアベースの処理ユニットによって実行され得る。コンピュータ読取可能媒体は、データ記憶媒体のような有形の媒体に対応するコンピュータ読取可能記憶媒体、あるいは例えば通信プロトコルに従ってある場所から別の場所へのコンピュータプログラムの転送を容易にする任意の媒体を含む通信媒体を含み得る。このように、コンピュータ読取可能媒体は、一般に、（１）非一時的な有形のコンピュータ読取可能記憶媒体又は（２）信号や搬送波のような通信媒体に対応することがある。データ記憶媒体は、本出願で説明される実装のうちのある実装のために命令、コード及び／又はデータ構造を取り出すために、１つ以上のコンピュータ又は１つ以上のプロセッサによってアクセスすることができる、任意の利用可能な媒体であってよい。コンピュータプログラム製品は、コンピュータ読取可能媒体を含むことがある。

本明細書における実装の説明で使用される用語は、単に特定の実装を説明する目的のためであり、特許請求の範囲を限定するように意図されていない。実装の説明及び添付の特許請求の範囲において使用されるとき、単数形の「a」、「an」及び「the」は、文脈がそうでないことを明確に示さない限り、複数形も含むように意図されている。また、本明細書で使用されるとき、「及び／又は」という用語は、関連する列挙されたアイテムの１つ以上の任意の及びすべての可能な組合せを指し、これを包含することが理解されよう。「備える（comprises）」及び／又は「備えている（comprising）」という用語は、本明細書で使用されるとき、記載される特徴、要素及び／又は構成要素の存在を指定するが、１つ以上の他の特徴、要素、構成要素及び／又はそれらのグループの存在又は追加を妨げるものではないことも更に理解されよう。

また、本明細書において、第１、第２等の用語を使用して様々な要素を説明することがあるが、これらの要素はこれらの用語によって限定されるべきではないことも理解されよう。これらの用語は、ある要素を別の要素と区別するためにのみ使用される。実装の範囲から逸脱することなく、例えば第１電極を第２電極と呼ぶことが可能であり、同様に、第２電極を第１電極と呼ぶことが可能である。第１電極と第２電極は両方とも電極であるが、同じ電極ではない。

本出願の説明は、例示及び説明の目的のために提示されており、開示される形式の発明を網羅するか又はこれに限定するように意図されていない。多くの修正、変形及び代替的実装は、上記の説明及び関連する図面で提示される教示の恩恵を受ける当業者には明らかであろう。実施形態は、発明の原理、実際の適用を最もよく説明し、かつ当業者が様々な実装のために本発明を理解して、考慮される特定の使用に適切であるような様々な修正を伴う基礎となる原理及び様々な実装を最もよく利用することを可能にするために選択され、説明された。したがって、特許請求の範囲は、開示される実装の具体例に限定されず、修正及び他の実装が、添付の特許請求の範囲に含まれるように意図されていることを理解されたい。

Claims

プロセッサによって実行される、被写体の２次元（２Ｄ）顔画像から色を抽出する方法であって、
キーポイント予測モデルに基づいて前記２Ｄ顔画像内の複数のキーポイントを識別するステップと、
前記識別された複数のキーポイントからの複数のターゲットキーポイントが、標準顔の対応するターゲットキーポイントと位置合わせされるまで、前記２Ｄ顔画像を回転させるステップと、
前記回転された２Ｄ顔画像内の複数のパーツを特定するステップであって、各パーツは、前記識別された複数のキーポイントのそれぞれのサブセットによって定義される、ステップと、
前記２Ｄ顔画像のピクセル値から、前記複数のパーツの各々の色を抽出するステップと、
前記抽出された色を使用して、前記２Ｄ顔画像のそれぞれの顔特徴色に一致する前記被写体の３次元（３Ｄ）モデルを生成するステップと、
を含む、方法。
前記キーポイント予測モデルは、ユーザが手動で注釈を付けたキーポイントから機械学習に基づいて形成される、
請求項１に記載の方法。
位置合わせに使用される前記複数のターゲットキーポイントは、前記２Ｄ顔画像の対称的な左側と右側に配置される、
請求項１に記載の方法。
前記複数のパーツの各々の色を抽出するステップは、対応するパーツ内のそれぞれの定義されたエリアのすべてのピクセルのＲ、Ｇ、Ｂ値の各々の中央値を予測平均色として選択するステップを含む、
請求項１に記載の方法。
前記複数のパーツの各々の色を抽出するステップは、肌パーツ内の肌色抽出のためのエリアを決定し、肌色抽出のためのエリアのすべてのピクセルのＲ、Ｇ、Ｂ値の各々の中央値を前記肌パーツの予測平均色として選択するステップを含む、
請求項１に記載の方法。
肌パーツ内の肌色抽出のためのエリアは、顔の目より下であり、鼻の下方端より上のエリアとして決定される、
請求項５に記載の方法。
前記複数のパーツの各々の色を抽出するステップは、眉パーツ内の眉色抽出であって、
一方の眉が前記２Ｄ顔画像のビューアにより近い側にあるという判断に従って、前記眉をターゲット眉として選択するステップと、
両眉が前記２Ｄ顔画像の前記ビューアに等しく近いという判断に従って、前記両眉をターゲット眉として選択するステップと、
前記ターゲット眉の中間眉エリアを抽出するステップと、
前記中間眉エリア内の各ピクセル値を平均肌色と比較するステップと、
前記平均肌色から閾値を超えるピクセル値差を有する、前記中間眉エリア内のピクセルを収集するステップと、
前記収集されたピクセルのＲ、Ｇ、Ｂ値の各々の中央値を、前記眉色抽出のために前記眉パーツの予測平均色として選択するステップと、
を含む、前記眉パーツ内の前記眉色抽出を備える、請求項１に記載の方法。
前記複数のパーツの各々の色を抽出するステップは、目パーツ内の瞳色抽出であって、
一方の目が前記２Ｄ顔画像のビューアにより近い側にあるという判断に従って、前記目をターゲット目として選択するステップと、
両目が前記２Ｄ顔画像の前記ビューアに等しく近いという判断に従って、前記両目をターゲット目として選択するステップと、
前記ターゲット目のまつ毛のないエリアを抽出するステップと、
前記抽出されたエリア内の各ピクセル値を所定の閾値と比較するステップと、
前記所定の閾値を超えるピクセル値を有する、前記抽出されたエリア内のピクセルを収集するステップと、
前記収集されたピクセルのＲ、Ｇ、Ｂ値の各々の中央値を、前記瞳色抽出のために瞳の予測平均色として選択するステップと、
を含む、前記目パーツ内の前記瞳色抽出を備える、
請求項１に記載の方法。
前記複数のパーツの各々の色を抽出するステップは、唇パーツ内の唇色抽出であって、
下唇のキーポイントによって囲われるエリア内のすべてのピクセルを収集するステップと、
前記収集されたピクセルのＲ、Ｇ、Ｂ値の各々の中央値を、前記唇色抽出のために前記唇パーツの予測平均色として選択するステップと、
を含む、前記唇パーツ内の前記唇色抽出を備える、請求項１に記載の方法。
前記複数のパーツの各々の色を抽出するステップは、髪パーツ内の髪色抽出であって、
両側の髪パーツへ伸びる額の部分を含むエリアを識別するステップと、
前記エリア内の中央から左境界及び右境界までの、所定の閾値を超えるピクセル値変化を決定するステップと、
前記所定の閾値を超える前記ピクセル値変化に基づいて、前記エリアを髪エリアと肌エリアに分けるステップと、
前記エリア内の前記髪エリアのピクセルのＲ、Ｇ、Ｂ値の各々の中央値を、前記髪色抽出のための前記髪パーツの予測平均色として選択するステップと、
を含む、前記髪パーツ内の前記髪色抽出を備える、請求項１に記載の方法。
前記髪パーツへ伸びる前記額の部分を含む前記エリアは、両眉の角における下方境界と、前記２Ｄ顔画像の対称的な左側と右側に位置するキーポイントから外側に一定距離にある前記左境界及び前記右境界と、一方の眉の上端から一方の目の下端までの距離の高さとを有する、長方形エリアとして識別される、
請求項１０に記載の方法。
前記複数のパーツの各々の色を抽出するステップは、アイシャドウパーツ内のアイシャドウ色抽出であって、
一方の目が前記２Ｄ顔画像のビューアにより近い側にあるという判断に従って、前記目をターゲット目として選択するステップと、
両目が前記２Ｄ顔画像の前記ビューアに等しく近いという判断に従って、前記両目をターゲット目として選択するステップと、
前記アイシャドウパーツ内の前記ターゲット目に近い中間エリアを抽出するステップと、
まつ毛を除外するように所定の明るさ閾値を超える明るさと、平均肌色相値から所定の閾値を超えるピクセル色相値差と有する、前記抽出された中間エリア内のピクセルを収集するステップと、
前記抽出された中間エリア内の１つのピクセル列の収集されたピクセルの数が閾値より大きいという判断に従って、前記ピクセル列をアイシャドウ列としてラベリングするステップと、
前記抽出された中間エリアの幅に対する前記アイシャドウ列の比が特定の閾値より大きいという判断に従って、前記収集されたピクセルのＲ、Ｇ、Ｂ値の各々の中央値を、前記アイシャドウ色抽出のために前記アイシャドウパーツの予測アイシャドウ色として選択するステップと、
を含む、前記アイシャドウパーツ内の前記アイシャドウ色抽出を備える、請求項１に記載の方法。
前記２Ｄ顔画像の前記ピクセル値から抽出された色に基づいて、前記２Ｄ顔画像のテクスチャマップを、該テクスチャマップの元の明るさと色の違いを保持しながら変換するステップであって、
前記抽出された色をＲＧＢ色空間表現からＨＳＶ（色相、彩度、明度）色空間表現に変換するステップと、
前記抽出された色の中央値ＨＳＶ値と前記テクスチャマップの中央値ＨＳＶ値ピクセルとの差を減少させるように、前記テクスチャマップの色を調整するステップと、
を含む、前記変換するステップを更に含む、
請求項１に記載の方法。
電子機器であって、１つ以上の処理ユニットと、該１つ以上の処理ユニットに結合されるメモリと、該メモリに記憶され、前記１つ以上の処理ユニットによって実行されると、当該電子機器に、請求項１乃至１３のいずれか一項に記載の方法を実行させる複数のプログラムとを備える、電子機器。
１つ以上の処理ユニットを有する電子機器による実行のためのコンピュータプログラムであって、前記１つ以上の処理ユニットによって実行されると、前記電子機器に、請求項１乃至１３のいずれか一項に記載の方法を実行させる、コンピュータプログラム。