JP7364676B2

JP7364676B2 - 条件付きサイクル一貫性を有する生成画像変換のモデルを使用した拡張現実のためのシステムおよび方法

Info

Publication number: JP7364676B2
Application number: JP2021526757A
Authority: JP
Inventors: エルモズニーノ・エリック; マー・ヒー; ケゼル・イリーナ; フォン・エドモンド; レビンシュタイン・アレックス; アーラビ・パラム
Original assignee: Individual
Current assignee: Individual
Priority date: 2018-11-15
Filing date: 2019-11-14
Publication date: 2023-10-18
Anticipated expiration: 2039-11-14
Also published as: CN113728353A; JP2022519003A; US20200160153A1; US11645497B2; WO2020097731A1; EP3881277A1; EP3881277A4

Description

本出願は平成３０年１１月１５日に出願された米国仮出願第６２／７６７，７６９号の国内利益および／または優先権を主張し、その内容は、許容される場合に参照により本明細書に組み込まれる。

本発明は、画像処理に関し、より詳細には、条件付きサイクル一貫性を有する生成画像変換モデル（例えば、ニューラルネットワークモデル）を使用して画像を変換する画像処理によって拡張現実を生成することに関する。

仮想のメイクアップをリアルタイムに行うアプリケーションは、アイデンティティと詳細なリアリズムとを高度に維持しながら、拡張現実における対話型の体験をユーザに提供する。理想的には、ユーザは、メイクアップ製品（例えば、口紅またはアイシャドウ）を実際に試着することなくプレビューすることを望んでいる。更に、仮想の試着は、ユーザの個人的な好みに応じて、製品に関する属性（例えば、色および光沢）を調整する自由をユーザに与える。

このようなアプリケーションの多くは、従来の機械学習またはコンピュータビジョンの技術に依存しており、次の２つのステップ、即ち、一連の回帰フォレストのカスケード又は他の方法に基づいて顔のランドマークを検出するステップ、及び、従来のグラフィック技術と検出されたランドマークを使用して出力画像を生成（レンダリング）するステップを含む。この２つのステップの解決策は非常に高速であり、ほとんどの場合、信頼できる結果を生成するが、いくつかの制限がある。特に、（ｉ）生成されたメイクアップの形は、検出されたランドマークの精度によって制限され、（ｉｉ）仮想メイクアップの色および輝きは、実際の製品の特性、照明の方向や輝度等の推定値に基づいて手動で設計する必要があり、（ｉｉｉ）仮想のメイクアップと元の画像との合成は人間の肌の色に従って注意深く調整する必要がある。

これらの制限および他の理由のために、この解決策は、現実性を維持しつつ大量の製品に容易に対応することができない。新しい製品をサポートするためには、これらのパラメータを、実際の製品に十分に似た描写になるまで調整しなければならない。このプロセスは時間がかかり、不正確であり、従って、製品カタログのサイズが大きくなるにつれて対応が不十分になる。

純粋に教師なしの方法で顔の特徴空間を探索し学習する作業が行われてきた。しかしながら、メイクアップのアプリケーションのタスクは、関連する領域のみが修正されるべきであり、顔の他の部分または属性は、可能な限り同一のままであるべきであるという意味で、より厳密である（アイデンティティを保持する課題）。
＜画像変換＞

具体的な顔の属性を操作することは、画像変換（ｉｍａｇｅ－ｔｏ－ｉｍａｇｅｔｒａｎｓｌａｔｉｏｎ）の課題と見なすことができる。Ｐｉｘ２Ｐｉｘ［１］（参考文献は以下に列挙され、許容される場合、参照により本明細書に組み込まれる）及びＣｙｃｌｅＧＡＮ［２］は、この２つのドメインの課題にＧＡＮを使用して取り組む。前者は、対になった画像のデータセットを利用するが、後者は、２つの対になっていないデータセットから変換モデルを学習することができる。これは、サイクル一貫性損失により、解空間で可能なマッピング関数の数を減らすことができるためである。ＣｙｃｌｅＧＡＮの１つの注目すべき欠点は、それが２つ以上のドメイン間で変換できないことである。ＣｙｃｌｅＧＡＮのアーキテクチャに基づいて、対のＣｙｃｌｅＧＡＮ［３］は、メイクアップなしの写真を参考写真のメイクアップのスタイルに変換し、参考写真をメイクアップなしの写真に変換する際のサイクル一貫性損失の最適化により、メイクアップを生成する課題に対処する。メイクアップのアプリケーションのための生成器は、１）ソースのメイクアップ無しの画像、および２）目的とするメイクアップが適用された参考画像を入力とし、そのアイデンティティを保持しながら、メイクアップが適用されたソース画像を出力する。対のＣｙｃｌｅＧＡＮ及びＣｙｃｌｅＧＡＮにおけるこの方法の主な違いは、メイクアップをすることと、メイクアップを削除することとに対応する２つの生成器の一方がスタイルを転送し、他方がスタイルを削除する非対称な機能であることである。この研究はサイクル一貫性損失を有するＧＡＮが複雑な口紅の特性を学習し、それらを正確に表現できることを明確に実証しているが、参考画像の必要性は現実的な使用事例にとって問題がある。

モデルが仮想の試着機能としてオンラインストアで使用される場合、製品ごとに参考画像が必要になる。さらに、参考画像内の照明およびアイデンティティなどの態様は、口紅の表現に微妙な影響を及ぼし、単一の事例で表示されるものではなく、真の口紅の特性をエンコード（符号化）するモデルの機能を制限する。
＜条件付き画像生成＞

生成モデルの最近の発展は、実世界の高次元のデータ分布をモデル化する課題に取り組んでいる。生成モデルの２つの主な傾向は、敵対的生成ネットワーク［４］と対数尤度に基づく方法（例えば、自己回帰モデル［５］、変分オートエンコーダ［６］、及び、可逆的な生成フロー［７］）である。これらのモデルは、訓練中にラベルを供給することにより、実際のデータの部分分布（ｓｕｂ－ｄｉｓｔｒｉｂｕｔｉｏｎ）を条件とすることができる。この条件付き確率モデルをどのように実施するかについての詳細は、最近の文献では様々である。

条件付きＧＡＮ（ｃＧＡＮ）［８］は、条件付き変数ベクトル→ｅが与えられると、生成器の分布（Ｇｅｎｅｒａｔｏｒｄｉｓｔｒｉｂｕｔｉｏｎ）と対象データ（ｔａｒｇｅｔｄａｔａｄｉｓｔｒｉｂｕｔｉｏｎ）の分布のサブセットとの間の差を最小化する。Ｍｉｒｚａら［９］およびＲｅｅｄら［１０］は、条件ベクトルを識別器（Ｄｉｓｃｒｉｍｉｎａｔｏｒ）の入力または中間畳み込み層間の特徴マップに連結することを試みた。ＳｔａｒＧＡＮ［１１］では、ラベル情報を使用して、識別器内の特徴ベクトルの上に構築された追加の分類器を監視することが検討されている。Ｍｉｙａｔｏら［８］は、識別器中の特徴ベクトルと条件ベクトルとの内積をとる出力射影法の使用を試みた。

典型的には、最近の文献および実験によると、ｃＧＡＮについては識別器および生成器の両方を、最良の性能を発揮するように調整する必要がある。Ｍｉｙａｔｏら［８］（その全体が参照により本明細書に組み込まれる）は、ｃＧＡＮの生成器を条件付けするために、条件付きバッチ正規化（ＣＢＮ）レイヤを使用するという考えをＰｅｒｅｚら［１２］から借用する。

従って、条件付きメイクアップ空間を独自に学習できるエンドツーエンドモデル（ｅｎｄ－ｔｏ－ｅｎｄｍｏｄｅｌ）を有することが望ましい。即ち、メイクアップをしている現実世界の人々の画像および／または映像を訓練することにより、モデルは人物のアイデンティティを保持すると同時に、画像を修正してメイクアップの現実的な表現を生成する方法を学習できる。

ここでは、条件付きサイクル一貫性を有する生成画像変換のモデル、例えば、追加機能を有する修正されたＣｙｃｌｅＧＡＮのアーキテクチャ（例えば、ｃＧＡＮ機能）が開示される。追加された機能は、メイクアップ特性のような拡張現実の画像特性を表す参考見本（ｒｅｆｅｒｅｎｃｅｓｗａｔｃｈｅｓ）をエンコードする条件付き変数ベクトルが与えられた場合に、生成器の分布と対象データの分布のサブセットとの間の差を最小化するために用いられる。より具体的には、生成器を調整するために、畳み込み条件付きバッチ正規化（ＣＣＢＮ）を使用して、効果（例えば、メイクアップ）の特性を表す参考見本画像（ｒｅｆｅｒｅｎｃｅｓｗａｔｃｈｉｍａｇｅｓ）をエンコーディングするベクトルを適用する。

画像に適用される効果に応じて、第１のドメイン空間から第２の連続するドメイン空間に前記画像を変換するコンピューティングデバイスが提供される。このコンピューティングデバイスは、記憶部と、処理部と、を備える。前記記憶部は、前記画像を前記第２の連続するドメイン空間に変換するように構成された、条件付きサイクル一貫性を有する画像変換のモデルを記憶し、前記モデルは、適用される前記効果の物理的特性を連続的に表す複数のエンコーディングを使用した訓練によって条件付け（ｃｏｎｄｉｔｉｏｎｅｄ）され、前記複数のエンコーディングは、適用される前記効果の各々の個別のインスタンス（ｄｉｓｃｒｅｔｅｉｎｓｔａｎｃｅ）からエンコードされ、前記個別のインスタンスは、適用される前記効果がないことを表すインスタンスを含み、前記処理部は、適用される前記効果の所望のインスタンス（ｄｅｓｉｒｅｄｉｎｓｔａｎｃｅ）及び前記画像を受信し、変換された画像を得るために前記所望のインスタンス及び前記画像を前記モデルに提供し、提示用の前記変換された画像を提供する。

適用される前記効果は、メイクアップ効果（例えば、仮想の口紅）、ネイル効果（例えば、マニキュア及びペディキュア効果のような手の指または足の指のネイル効果）、及び、ヘアカラー効果のうちの１つであっても良い。

前記画像は、適用される前記効果がなくても良く、前記第１のドメイン空間は、それぞれ適用される前記効果がない複数の画像によって定義される。

前記モデルは、条件付きサイクル一貫性を有する敵対的生成ネットワーク（ｃｃＧＡＮ）モデルを備えていても良い。

前記モデルは、エンコーダ（Ｅ）によってエンコードされた前記複数のエンコーディングを使用して訓練された生成器（Ｇ）及び識別器（Ｄ）を備えていても良い。

前記生成器（Ｇ）は、前記複数のエンコーディングの各々のエンコーディングに畳み込み条件付きバッチ正規化処理を使用する前記複数のエンコーディングで条件付けされても良い。

前記識別器（Ｄ）は、前記複数のエンコーディングの各々のエンコーディングに出力投影処理を使用する前記複数のエンコーディングで条件付けされても良い。

前記エンコーダは、適用される前記効果の前記インスタンスの各々の前記物理的特性を、適用される効果がないことを表す見本画像を含む、前記インスタンスの各々に関する見本画像からエンコードするように構成されても良い。

前記モデルは、訓練された前記生成器（Ｇ）を備えていても良い。

前記コンピューティングデバイスは、前記複数のエンコーディングを記憶するように構成されたデータストア（例えば、データベースとして構成されても良いデータ記憶装置）に結合されても良く、前記処理ユニットは、適用される前記効果の前記所望のインスタンスに対応する前記複数のエンコーディングのうちの対応する１つを前記モデルに提供するように構成されても良い。前記データストアは、前記モデルに訓練されなかった適用される前記効果の各々のインスタンスに対する１又は複数の非訓練インスタンスエンコーディングを記憶しても良く、前記処理ユニットは、適用される前記効果の前記所望のインスタンスに対応する１又は複数の前記非訓練インスタンスエンコーディングのうちの対応する１つを前記モデルに提供するように構成されても良い。

前記生成器Ｇのパラメータθは、下記の数式１に従って、２つの補完的な方向の敵対的損失と、サイクル一貫性損失とを最小化することによって最適化されても良い。

前記識別器Ｄのパラメータθは、下記の数式２に従って、２つの補完的な方向の前記敵対的損失を最大化することによって最適化されても良い。

前記画像は、自撮り画像または自撮り映像で構成されていても良く、前記自撮り映像の場合には、前記処理ユニットは、前記自撮り映像の画像を変換して、そこに前記効果を適用して、３Ｄの効果、特に３Ｄのメイクアップ効果を生成するように構成される。

前記画像は、前記モデルに提供する前に前記処理部によって前処理されても良い。

前記変換された画像は、前記画像の部位（ｒｅｇｉｏｎ）を構成していても良く、前記処理部は、前記変換された画像を提示用の前記画像に合成するように構成される。

前記コンピューティングデバイスは、処理部が受信する画像をキャプチャするために、カメラを備えていても良いし、カメラに結合されていても良い。前記コンピューティングデバイスは、サーバを備え、前記処理部は、前記サーバと通信しているクライアントデバイスから、前記画像および前記所望のインスタンスを受信するように構成されても良い。

前記記憶装置は、前記所望のインスタンスを定義する所望のインスタンス選択機能をユーザに提供するためのインターフェースの命令を記憶しても良く、前記プロセッサは、前記命令により、前記インターフェースを提供し、入力を受信し、その入力に応じて前記所望のインスタンスを定義するように構成されても良い。前記入力は、以前に前記モデルに訓練されていないカスタム効果を含んでいても良い。前記記憶装置は、所望の前記効果を定義するために使用する以前に計算されたエンコーディングを検索する検索機能の命令を記憶しても良い。前記プロセッサは、前記命令によって、前記入力および検索機能を使用して、所望の前記効果を定義するために前記計算されたエンコーディングから前記カスタム効果に最適なもの見つけるように構成されても良い。前記記憶装置は、所望の前記効果に関する新しいエンコーディングを定義するエンコード機能を提供するための命令を記憶しても良く、前記プロセッサは、前記命令によって、前記入力および前記エンコード機能を使用して、前記カスタム効果のための所望の前記効果を定義するように構成されても良い。

条件付きサイクル一貫性を有する画像変換のモデルを生成するように構成されたコンピューティングデバイスが提供され、前記モデルは、画像に適用される効果に従って、前記画像を第１のドメイン空間から第２の連続するドメイン空間に変換するように構成される。このコンピューティングデバイスは、生成器、識別器、及び、エンコーダを有する前記モデルを記憶する記憶装置と処理部とを備え、前記モデルは、適用される前記効果の物理的特性を連続的に表す前記エンコーダからの複数エンコーディングを使用した訓練を通して前記生成器および前記識別器を条件付けするように構成され、前記複数のエンコーディングは、適用される前記効果の複数の個別のインスタンスからエンコードされ、複数の前記個別のインスタンスは、前記適用される効果がないことを表すインスタンスを含み、前記処理部は、前記訓練データを受信し、前記訓練データをバッチで前記モデルに提供して、訓練された前記モデルを定義する。前記モデルは、条件付きサイクル一貫性を有する敵対的生成ネットワーク（ｃｃＧＡＮ）のモデルで構成されていても良い。

訓練データを受信するために、前記処理部は、効果が適用されていないドメイン空間を構成する前記第１のドメイン空間Ｘから複数の実画像ｘを受信し、各ｘは前記効果が適用されていないことを表し、効果が適用されるドメイン空間を構成する前記第２の連続するドメイン空間Ｙから複数の実画像ｙ_ｊを受信し、各ｙ_ｊは適用された前記効果のインスタンスｊを有し、ｊ=１、２、３、・・・は前記効果の各々の前記個別インスタンスを表し、前記効果の各々の前記個別インスタンスを表す複数の参考画像ｚ_ｊを受信し、適用される前記効果がないことに対応する空白の画像（ｗｈｉｔｅｉｍａｇｅ）ｚ_０を受信するように構成されても良い。前記処理部は、前記生成器（Ｇ）及び識別器（Ｄ）のパラメータθ_Ｇ及びθ_Ｄを開始するように構成されても良い。バッチで前記訓練データを提供するために、前記処理部は、前記訓練データから決定されたバッチ及び前記訓練エポックで、前記エンコーダを使用して、前記生成器（Ｇ）及び前記識別器（Ｄ）のためのエンコーディングＥ（ｚ_ｊ）をエンコードし、前記エンコーダを使用して、前記生成器のためのエンコーディングＥ（ｚ_０）をエンコードし、前記画像ｘ及びエンコーディングＥ（ｚ_ｊ）を生成器（Ｇ）に提供して、前記第２の連続するドメイン空間で偽画像ｙ_{ｊｆａｋｅ}を生成し、前記偽画像ｙ_{ｊｆａｋｅ}とそれに対応する実画像ｙ_ｊとエンコーディングＥ（ｚ_ｊ）とを前記識別器（Ｄ）に提供して出力ｄ_ｊを生成し、前記偽画像ｙ_{ｊｆａｋｅ}及びエンコーディングＥ（ｚ_０）を生成器（Ｇ）に提供してｘ´を出力し、下記の数式３に従って、前記敵対的損失およびサイクル一貫性損失を最小化することによって前記生成器（Ｇ）のパラメータθ_Ｇを最適化し、前記敵対的損失を最大化することによって前記識別器（Ｄ）のパラメータθ_Ｄを最適化するように構成されても良い。

当業者は、同等の方法およびコンピュータプログラム製品の態様も認識することができるであろう。

サイクル一貫性損失を有する条件付きＧＡＮを使用してモデルをトレーニングするためのデータフローを表したものである。実施例によるダウンサンプリング、拡張、及び、残差ブロック層の数の効果を表形式で表したものである。学習されたエンコーディング空間を色次元（０°から３６０°の色相）で補間する様子を表形式で表したものである。学習したエンコーディング空間を湿り度の次元（０から１）で補間する様子を表形式で表したものである。テストセットの合成見本画像を用いて、学習したエンコーディング空間を補間する様子を表形式で表したものである。なお、訓練中には、グラウンドトゥルース画像は使用していない。

本発明の概念は、添付の図面を参照し、本明細書に記載されている特定の実施形態を通して最もよく説明され、同一の符号は全体を通して同一の特徴を指す。本明細書で使用される場合、「発明」という用語は、単に実施形態自体ではなく、以下に記載される実施形態の基礎をなす発明概念を暗示することを意図していることを理解されたい。更に、本発明の一般的な概念は、以下に記載される例示的な実施形態に限定されず、以下の説明は、そのような観点から読まれるべきであることが理解されるべきである。メイクアップ効果として、仮想の口紅に関して主に記載されているが、本明細書の教示は、当業者によって理解されるように、メイクアップ（化粧）、ネイル、及び、ヘアカラー（髪の着色）を含むがこれらに限定されない他の拡張現実の効果に適用されても良い。

近年、サイクル一貫性損失を有する条件付きＧＡＮのような条件付き生成画像変換ネットワークは、ドメイン間の画像変換のタスクに対して顕著な結果を達成した。これらの方法の主な利点は、対になっていないデータについて訓練できることであり、これは、拡張現実の問題を含む多くの問題を助ける。姿勢や照明などの他の全ての変数を同一に保ちながら、一方が口紅のようなメイクアップ効果を有し、他方が有しない２つの現実の画像を得ることは、ほぼ不可能であるか、又は時間および資源が法外に高くなる。言い換えれば、例えば教師付き学習のためのデータのような十分な量の対のグラウンドトゥルースデータを得ることができない。

更なる問題は、適用される効果に関連して考慮できる。例えば、口紅のドメイン（但し、他のドメインでも同様）では、条件付けパラメータ（ｃｏｎｄｉｔｉｏｎｉｎｇｐａｒａｍｅｔｅｒ）を使用して、適用したい様々な口紅を表すことができ、この条件付けパラメータは、サブドメインを指定するものと考えることができる。この条件付けは、単純に口紅製品の個別のワンホット（ｏｎｅ－ｈｏｔ）エンコーディングとして表現することができない。これは、この方法に拡張性がなく、物理的特性の共有された連続した空間に口紅が存在するという事実を利用しないためである。ここでは、簡単な見本画像をエンコーディングすることによって口紅（効果）の物理的特性の表現を作成し、そのエンコーディングを使用して画像変換モデル（例えば、ＧＡＮ）を条件付け（ｃｏｎｄｉｔｉｏｎ）する方法が開示される。この方法は、前記問題を１）固有の口紅のないドメインと、２）連続する口紅のドメインとの間の変換としてフレーム化します。

課題とその背景にある動機付けを説明したので、本文献は以下を開示していることが理解できる。（ｉ）物理的な口紅（効果）の特性によって定義される連続するドメイン空間に画像を変換するモデルの訓練。（ｉｉ）そのモデルは、見本画像などの口紅（効果）に関して必要な全ての情報を含む単純な入力から、これらの物理的特性の表現を自動的に学習する。
＜モデル構造＞

現在、本発明者らは、条件付きサイクル一貫性を有する生成画像変換のモデルを提供するために、いくつかの追加の修正を加えたＣｙｃｌｅＧＡＮのアーキテクチャ［２］を選択する。本発明では、元の２ドメインのアーキテクチャを置き換えるために、条件付けだけでなく、対になった識別器／生成器を１組使用する。このようにして、多次元の連続するエンコーディング空間における３以上の変換の方向に拡張できる。訓練時に見られない任意の口紅を表現（レンダリング）するために、製品の簡単な見本画像をエンコーディングすることによって学習された連続する領域として口紅の空間を表す。上述したように、口紅は物理的効果の一例であり、他の効果が考えられる（例えば、他の顔、他の肌のメイクアップ、ヘアカラー、ネイルの効果など）

また、ｃＧＡＮに導入した出力射影法を用いており、これは、より安定した訓練とより少ないモード崩壊とを示した。

識別器および生成器の両方のモデルのアーキテクチャは、ＣｙｃｌｅＧＡＮ［２］から修正される。ＲｅｓＮｅｔＧｅｎｅｒａｔｏｒと命名された生成器は、エンコーダ－ボトルネック－デコーダ型のアーキテクチャである。ＮＬａｙｅｒＤｉｓｃｒｉｍｉｎａｔｏｒと名付けられた識別器は、通常のエンコーダ型のアーキテクチャである。ネットワークの詳細を以下に列挙する。

条件付けの性能をより向上させるために、出力投射で識別器を条件付けし、条件付きバッチ正規化で生成器を条件付けする。スペクトル正規化を、識別器および生成器の両方における全ての重みに適用する。

図１は、モデル図を表すデータフロー１００を示す。口紅無しの画像ｘ１０２（例えば、メイクアップ無しのドメインからのメイクアップ無しの画像）と、口紅画像ｙ_ｊ１０４（例えば、メイクアップ有のドメインからのメイクアップ画像）が提供される。ここで、ｊは口紅のアイデンティティを示す（例えば、はメイクアップの対象サブドメイン内でｊ=１、２、３、・・・）。それぞれの口紅製品ｊについて、参考見本画像ｚ_ｊ１０６が提供される。

まず、エンコーダ１０８を通して参考画像ｚ_ｊ１０６を供給して、ｅ_ｊＧ=Ｅ_Ｇ（ｚ_ｊ）１１０Ａ及びｅ_ｊＤ=Ｅ_Ｄ（ｚ_ｊ）１１０Ｂを含むｅ_ｊ=Ｅ（ｚ_ｊ）１１０を生成することによって、口紅ｊの表現が生成される。エンコーディング１１０Ａと生成器Ｇ１１２を使用することで、偽の口紅画像ｙ_{ｊｆａｋｅ}１１４=Ｇ（ｘ；ｅ_ｊＧ）が生成される。画像ｙ_{ｊｆａｋｅ}１１４及びｙ_ｊ１０４（即ち、偽および真の口紅画像）は、図１において１１８Ａ及び１１８Ｂの符号が付されたｄ_ｊ１１８=｛ｄ_{ｊｒｅａｌ}，ｄ_{ｊｆａｋｅ}｝を生成するために、識別器Ｄ１１６に渡される。

最後に（図示されていないが）、ｙ_{ｊｆａｋｅ}から口紅を除去するためにサイクル一貫性が適用される。これを行うために、生成器Ｇ１１２は、口紅の無い場合で条件付けされ、これはｚ_０として示される空白の見本をエンコーディングすることで実行され、ｘ´＝Ｇ（ｙ_{ｊｆａｋｅ}；Ｅ_Ｇ（ｚ_０））を生成する。

メイクアップスタイルのエンコーディングｅ_ｊＧ=Ｅ_Ｇ（ｚ_ｊ）１１０Ａは、畳み込み条件付きのバッチ正規化処理を使用して生成器Ｇ１０４を条件付けする。即ち、エンコーダＥの出力は、生成器ネットワークの異なる残差ブロック（ｒｅｓｉｄｕａｌｂｌｏｃｋｓ）におけるＣＢＮの条件付けのために適合されている。これは、与えられたブロックの各ＣＢＮとエンコーダの間に小さな畳み込みネットワークを挿入することによって達成される（全てのブロックが必ずしもＣＢＮによって条件付けされるわけではないが、アブレーションスタディ（ａｂｌａｔｉｏｎｓｔｕｄｉｅｓ）では、１つのブロックのみが条件付けされることが最適ではないことを証明した）。生成器Ｇ１１２を訓練する時に、コードの条件付けを適応させるための最適な重みを取得するために、全てのＣＣＢＮが訓練される。

エンコーディングｅ_ｊＤ=Ｅ_Ｄ（ｚ_ｊ）１１０Ｂは、出力投影処理（ｏｕｔｐｕｔｐｒｏｊｅｃｔｉｏｎｏｐｅｒａｔｉｏｎ）を使用して識別器Ｄ１１６を条件付けする。エンコーダＥ１０８は、畳み込み層と適応アベレージプーリング層とからなる浅いエットワークであり、その出力は、１次元エンコーディング→ｅに再形成される。

生成器Ｇ１１２、識別器Ｄ１１６、及び、エンコーダＥ１０８のそれぞれのモデルアーキテクチャは、ネットワークの詳細に関連する以下の表にも記載される。基準エンコーダは、生成器Ｇ及び識別器Ｄの表にそれぞれ記載されている。

訓練中、下記の数式４に従って、生成器Ｇ１１２のパラメータは、２つの補完的な方向（ｃｏｍｐｌｅｍｅｎｔａｒｙｄｉｒｅｃｔｉｏｎｓ）での敵対的損失とサイクル一貫性損失を最小化することによって最適化される。

ここで、ｐ_ｄａｔａ（ｘ）とｐ_ｄａｔａ（ｙ）は、メイクアップ無しのドメインとメイクアップ有のドメインにおけるパラメトリックデータのそれぞれの分布である。

下記の数式５に従って、識別器Ｄ１１６のパラメータは、２つの補完的な方向における敵対的損失を最大化することによって最適化される。

＜推論時＞

推論中、生成器Ｇ１１２と、その生成器Ｇ１１２に関連するエンコーダＥ１０８（またはそのエンコーディング）のみが使用されるが、訓練中とはわずかに異なる方法で使用される。この手順は、以下のように要約できる。
１．製品カタログの各口紅ｊ及びその見本画像ｚ_ｊについて、そのエンコーディングＥ_ｇ（ｚ_ｊ）を取得し、後の使用のためにデータストア（例えば、データベース）に記憶する。与えられた口紅に対して複数の見本画像を得ることができる場合は、各画像のエンコーディングを平均することによって、より信頼性の高いエンコーディングを推論することができる。
２．与えられた口紅ｊを自撮り画像ｘ上に生成するには、データベースからｊのエンコーディングｅ_ｊＧ=Ｅ_Ｇ（ｚ_ｊ）を取得して生成器Ｇ（ｘ；Ｅ_ｇ（ｚ_ｊ））を実行する。
３．モデルが唇の部分に切り取られた自撮りで訓練されている場合は、生成器の出力を元の自撮り画像の正しい位置に合成し直す。

推測と訓練との主な違いは、口紅カタログ内の製品ごとにエンコーディングを事前に計算できることである。場合によっては、これらのエンコーディングをテストの自撮り上で手動調整し、実際の製品をより良く反映する表現を生成することもできる。これらのエンコーディングは、実際には存在しない口紅を表現するために、多くの方法で変更または組み合わせることができる。ユーザは（例えば、エンコーディングの値を選択するために）数字のスライダを動かすなどしてインターフェースにインプットを提供することにより、独自の口紅（例えば、適用される効果の所望のインスタンスとしてのカスタム効果）をデザインできる。次に、検索機能は、ユーザが作成したもの（例えば、カスタム効果）に密接に一致する実際の製品を見つけることができる（例えば、製品カタログ内のエンコーディングまでの最小のユークリッド距離（Ｅｕｃｌｉｄｅａｎｄｉｓｔａｎｃｅ）を使用して）。次に、この効果のエンコーディングを入力画像（例えば、静止画または動画）と共に生成器に提供して、ユーザが作成したものを仮想的に試すための修正された画像を生成できる。カスタム効果は実行時にエンコードされ、生成器に提供されても良い。従って、プロセッサと、そのプロセッサによって実行された時にコンピューティングデバイスの動作を構成する命令を記憶する記憶装置とを有するコンピューティングデバイスにおいて、記憶装置は、所望のインスタンスを定義するための所望のインスタンス選択機能をユーザに提供するインターフェースの命令を記憶することができる。次に、プロセッサはインターフェースを提供し、入力を受信し、その入力に応じて所望のインスタンスを定義することができる。

入力は、モデルに対して以前に訓練されていないカスタム効果を定義することができる。記憶装置は、所望の効果の定義に使用するための以前に計算されたエンコーディングを検索する検索機能の命令を記憶することができる。プロセッサは、入力および検索機能を使用して、計算されたエンコーディングからカスタム効果に最適なものを見つけて、所望の効果を定義することができる。記憶装置は、所望の効果のための新しいエンコーディングを定義するエンコード機能を提供するための命令を記憶することができる。プロセッサは、入力とエンコード機能を使用して、カスタム効果から目的の効果を定義する。
＜再訓練時＞

いつでも、単に新しい口紅の見本のエンコーディングをデータベース（データストア）に記憶することにより、その新しい口紅を製品カタログに追加できる。前節で述べたように、これは追加の訓練を必要としない。しかしながら、アプリケーションの長期的な保守のためには、モデルの訓練に元々使用されていたものとは大きく異なる物理的特性を有する新しい口紅が追加された場合に、モデルを定期的に再訓練することが好都合な場合がある。

例えば、モデルは元々、通常のフラットな色について訓練されていることがあるため、不均一な特性を有する光沢のある口紅には十分に一般化されないであろう。このケースでは、モデルは、光沢のある口紅の見本と、その光沢のある口紅が様々な人に適用された際の外観の結果とを使用して訓練される必要がある。しかし、実際には、多数の口紅が同じタイプの物理的特性を共有するので、これは一般的なことではないことに留意されたい。

訓練および推論のための処理は、以下の処理のリストに要約され、示されている。
（リスト）

大まかに言えば、訓練動作のために、それぞれの生成器および識別器のパラメータが初期化される。訓練は周知のように、バッチを含むエポックで行われる。訓練インスタンスでは、バッチごとに、効果が適用されていない第１のドメインからの実画像、効果が適用された第２のドメインからの実画像、及び、適用された効果のエンコーディングを含む訓練データを用いて訓練が実行される。また、効果が適用されていないエンコーディング（空白の効果の画像）も使用される。モデルの構成要素（生成器および識別器）は訓練データを処理し、（１又は複数の）損失関数が決定される。生成器および識別器のそれぞれのパラメータは、次の訓練インスタンスの損失関数に応じて調整される。

追加の処理ステップには、メイクアップ製品のデータセット（効果データセット）を収集することを含む。製品、アイデンティティ、及び、環境に大きな相違を有するデータセットは、連続する空間を定義するために好ましい。理想的には、条件付きサイクルＧＡＮのための訓練画像は、様々な背景の下で様々な製品を着用する人々の画像の例である。例えば、追加の処理は、生成物毎に、１０個の見本の参考画像を製品ごとに収集することができる。ここでは、メイクアップのエンコーディング空間をカバーし、同じ空間に属する新しい未知の製品を上手く一般化するために、様々な製品が最も重要な要素である。対照的に、メイクアップをしていない人の画像のバリエーション及び量も、比較的少なくすることができる。モデルは、エンコーダが共同で学習しているメイクアップ製品の物理的表現に基づいて条件付けすることにより、上記の処理の一覧のリストに沿って訓練される。効果をエンコーディングするベクトルは、推論時に見本をエンコーディングするのではなく、推論時にモデルに提供するために記憶装置（例えば、データベース）を含むデータストアに記憶されても良い。このデータストアは、効果のカタログを定義しても良い。

追加の処理は、再訓練の有無にかかわらず、カタログ（データストア）に新しい口紅を追加することができる。サポートされているカタログに新製品を追加するたびにモデルを再訓練しないようにしたいので、モデルが新製品を一般化できる機能は、従来の技術との重要な違いである。いずれにせよ、追加される新製品（特定の効果など）が、モデルが既に訓練している製品と同じ特徴空間に属している場合、カタログへの新製品の追加は非常に簡単である。他の場合（例えば、新製品が異常値であり、モデルが既に訓練している特徴空間の範囲外である場合）、又は必要に応じて、特定の効果を使用してモデルを再訓練することができます。例えば、追加される製品がカタログ内の既存の全ての製品と著しく異なっている場合（例えば、カタログに単一のトーンしか含まれていない場合の光沢のある口紅）、又は多数の新製品がカタログに追加される場合は、モデルは、それらの新製品で微調整され、組み合わされた新しいデータセット全体で再訓練され得る。

提示された画像変換方法のイノベーションは、生成器および識別器が簡単な見本画像から抽出される口紅の物理的特性を生成器および識別器が学習、使用することにより、それら生成器および識別器のタスクを実行することである。その結果、訓練時に見たことのない新しい製品の見本がモデルに提示された場合、そのタスクは変更されず、適切に一般化できるはずである。新製品は製品の物理的特性を抽出することができ、それらの特性が最終的な外観にどのように影響するかを知っているので、新製品が顔に塗られた時にどう見えるかの例を見る必要はない。

この一般化を実現するために、モデルは、人間に適用された場合の口紅の効果および口紅の性質の両方を学習することができるように、訓練中に口紅の種類に十分な変化が見されるように訓練される。例えば、金属光沢のある口紅の例がモデルに示されていなかった場合、金属光沢のある材料を構成する固有の特性を表すことを学習せず、また、生成時にこれらの特性を使用する方法を知りません。一方、金属光沢のある数種類の口紅が示されており、訓練後に新しい色の１つが提示された場合、訓練中に同様の色が示されていれば、その特性をエンコードして正しく生成できる。同様の色の金属光沢のあるタイプの口紅を見る必要はなく、同様の色を有する任意のタイプのリップスティックを見ることで十分であることに留意されたい。

要約すると、訓練に必要な口紅の種類の数は、生成したい口紅の特徴空間の大きさの関数であることがわかる。この値は定量化するのが困難であるが、同じ口紅を使用する環境でのバリエーションよりも、口紅の種類のバリエーションを優先することが最適なデータの収集方法であることを示唆している（即ち、各々が多数の例を有する少数の口紅よりも、各々が少数の例を有する多数の口紅）。
＜実験と結果＞

全ての実験について、口紅を含む画像と口紅を含まない画像のデータセットを使用する。実験およびそれらの解析を簡単にするために、本発明者らは他の種類のメイクアップを考慮しないが、記載された方法は他の種類のメイクアップにも適用され得る。
＜評価指標＞

整合性のとれたグラウンドトゥルース画像がないため、学習された画像変換モデルの評価はしばしば困難であり、タスクの性質に応じて変化する。メイクアップを適用したケースでは、唇の領域が実際に口紅を塗った場合と同じくらい現実的であることが理想的ですが、一方、顔の他の領域での変化は感知できないべきである。

最初に、生成された画像と入力画像との間の差を正規化したデルタ画像（ｄｅｌｔａｉｍａｇｅ）の質を視覚的に検査する。これは、グランドトゥルース画像なしで実行できる。

合成データセットで訓練を評価する場合、整合性のとれたグラウンドトゥルースを得ることはできるが、実際のメイクアップのデータセットで整合性のとれたグラウンドトゥルースを得ることは通常非常に困難である。生成モデルの性能を評価する普遍的な方法は、例ごと（ｅｘａｍｐｌｅ－ｗｉｓｅ）又は点ごと（ｐｏｉｎｔ－ｗｉｓｅ）の比較の代わりに、アラインメントに関係なく、全てのグラウンドトゥルース画像と生成された画像との間の分布の差を比較することである。

評価中のノイズを低減するために、生成された画像とグラウンドトゥルース画像とで唇の領域のみを比較する。生成モデルを評価する一般的な方法には、フレッチェット・インセプション距離（ＦｒｅｃｈｅｔＩｎｃｅｐｔｉｏｎＤｉｓｔａｎｃｅ）（ＦＩＤ）［１５］及びインセプションスコア（ＩｎｃｅｐｔｉｏｎＳｃｏｒｅ）（ＩＳ）［１６］が含まれる。
＜ダウンサンプリング、拡張、層数＞

多段階のダウンサンプリングは、文献においてオブジェクトの分類タスクに対してＣＮＮｓを計算的に実用的にした。しかしながら、詳細な空間情報が必要とされるタスク（例えば、画像の変換や再構成）の場合、この空間の解像度の低下は、モデルの性能に大きな影響を及ぼす可能性がある。逆に、畳み込みの拡張係数を増大させたり、生成器内の多数の残差ブロックを使用したりすることは、空間の解像度を維持することができ、詳細な口紅の分布を正確にモデリングするために使用できる。図２は、これらの３つのハイパーパラメータを変化させることの影響に関するアブレーションスタディを示す。４．１節で述べた評価指標に基づく対応する評価結果を表１に示す。

本発明者らは、「９層、１ダウンサンプル、３２の拡張（ｄｉｌａｔｉｏｎ）」のモデルが最良の性能を発揮することを見出した。しかし、携帯デバイスでのメイクアップのプレビューのようなリアルタイムのアプリケーションでは、その計算とメモリー使用量は実用的な限界を超えている。この場合、残差ブロックの数を２層に減らすことは、性能と計算の間で妥協できる実用的な方法である。
＜合成口紅のデータセットでの連続したエンコーディング＞

概念の実証のために、まず、手作業で設計された５次元（Ｒ、Ｇ、Ｂ、湿り度、艶の詳細）のエンコーディング空間で訓練を試みた。図１とは対照的に、この場合には基準エンコーダは不要である。特定の口紅に対するエンコーディング→ｅは、その口紅の（Ｒ、Ｇ、Ｂ、湿り度、艶の詳細）の属性ベクトルに等しく、一方、口紅無しの領域に対するリバースエンコーディング←ｅは（－１，－１，－１，－１，－１）の定数ベクトルである。

図３及び図４は、訓練中に必ずしも現れないいくつかの等間隔のサンプル点上で、それぞれＲＧＢ次元（色相＝０～３６０°）及び湿り度の次元（湿り度＝０～１）で多次元のエンコーディング空間を補間することによって、テストセットにおける非共有アイデンティティの画像を生成したものです。合成口紅のデータセットをエンコーディングする参考画像

図２は、合成ＲＧＢの見本データセットで訓練されたモデルから生成された画像を示す。このデータセットにおける訓練セットは、以下の処理に従って生成される。

１）一様分布Ｕ（Ｒ、Ｇ、Ｂ）から（Ｒ、Ｇ、Ｂ）の点ｊをサンプリングする。

２）この色とメイクアップ無しの写真ｘを仮想のメイクアップを試着する従来のプログラムに渡し、この色の口紅ｊで合成画像ｙを生成する。

３）ｊに似た色、且つ形状の異なる５つの合成の見本画像を生成する。

４）全てのメイクアップ無しの写真についてステップ１～３を繰り返す。

テストセットには、訓練セット内の全てのアイデンティティが含まれるが、顔の位置または向きが異なる。また、訓練セットに現れない追加のアイデンティティ（図２、３、４、及び、５に示される）も含まれる。参考見本画像は、訓練セットに必ずしも現れない１２個の等間隔の色相補間カラーポイントの一定配列に基づいて生成される。テスト中、モデルは、テストセット内の各画像について、これらの１２個の口紅の各々をテスト画像の上に塗る。
＜計算環境の例＞

上記の方法は、クライアント・サーバモデルのようなシステム又はコンピューティングデバイスに実装することができる。ニューラルネットワークモデルは、アプリケーション（例えば、コンピューティングデバイス上）、又は、ウェブブラウザ（例えば、クライアントデバイスと通信するサーバコンピューティングデバイス（例えば、タブレット、スマートフォン、ラップトップ、デスクトップ、キオスク又は他のフォームファクタのようなユーザデバイス上））を介して提供され、ユーザが自撮り（画像を有する静止画または動画）を撮影し、拡張現実のインターフェースで仮想的にメイクアップを試すことを可能にする。ニューラルネットワークモデルは、クラウドからのサービスとして提供されても良い（例えば、メイクアップ無し画像およびメイクアップの選択を受信し、メイクアップ無しの画像に適用されたメイクアップを示す「修正された」または変換された画像を返す）。

ユーザには、適用するメイクアップを選択または設定するためのインターフェース（例えば、グラフィカル・ユーザ・インターフェース（ＧＵＩ））が提供され、自撮り画像または自撮り映像を撮影し、それにメイクアップ効果が適用された状態を見ることができる。自撮り映像は、リアルタイム又はほぼリアルタイムで効果を適用するように変換されても良い（例えば、変換された映像に現れる３Ｄのメイクアップ効果を提供する）。

それぞれ異なるメイクアップが適用された２つ以上の生成された画像は、ＧＵＩにおける比較のために（例えば、並べて）提示または記憶されても良い。

インターフェースは、（例えば、コンピューティングデバイスのタッチスクリーン上の）ジェスチャ、ポインタ入力、音声入力、文字入力などに応じて起動／呼び出されても良く、コンピューティングデバイスは、それに応じた入出力デバイス及び機能を備えて構成される。

命令（ソフトウエア）は、提供され、その命令がコンピューティングデバイスの処理部によって実行されるときなど、コンピューティングデバイスの動作を構成する（例えば、コンピューティングデバイスの記憶部に記憶する）ために提供されても良い。

一態様では、コンピューティングデバイスは、画像に適用される効果に従って、画像を第１のドメイン空間から第２の連続するドメイン空間に変換する。本コンピューティングデバイスは、画像を第２の連続するドメイン空間に変換するように構成された、条件付きサイクル一貫性を有する敵対的生成ネットワーク（ｃｃＧＡＮ）モデルを記憶する記憶部と、処理部と、を備え、ｃｃＧＡＮモデルは、適用される効果の物理的特性を連続的に表す複数のエンコーディングを使用した訓練によって条件付けされ、複数のエンコーディングは、適用される効果の各々の個別のインスタンスからエンコードされ、その個別のインスタンスは、適用される効果がないことを表すインスタンスを含み、処理部は、適用される効果の所望のインスタンス及び画像を受信し、変換された画像を得るために所望のインスタンス及び画像をモデルに提供し、提示用に変換された画像を提供する。

適用される効果は、メイクアップの効果、例えば、図示または説明されるような仮想の口紅であっても良い。

適用される効果は、ヘアカラーの効果であっても良い。即ち、メイクアップのスタイルの転写に関する提案された方法は、ヘアカラーの転写／ヘアカラーの着色に拡張することができる。ヘアカラーは、同様の方法を使用して、毛髪画像の画素（ピクセル）を修正する目的で同様に適用することができ、生成器Ｇ及び識別器Ｄは、エンコーダＥを介した訓練用のヘアカラー画像を使用して条件付けされる。その訓練用の画像は、効果の個別のインスタンス（即ち、ヘアカラー）を表すが、訓練用の画像は、仮想の口紅の例と同様に、適用される効果のための連続する（サブ）ドメインでの推論で画像変換を可能にするのに十分なデータを提供するようにエンコードされる。訓練は、様々なヘアカラーを有する人物の画像Ｘの集まりを用いて同様の方法で実行され、着色のアプリケーションの対象となるヘアカラーの空間ｊをカバーする。被写体（例：人間）の訓練画像Ｘは、現実的な照明条件下で行われるべきである。訓練画像はまた、アイデンティティを保存する訓練のために十分な数の異なるアイデンティティ（すなわち、異なる人物）を含む。

エンコーダＥを介して適用される訓練用の毛髪の見本（例えば、画像ｚ_ｊ）を定義するために、第１の画像セットから訓練対象の毛髪に関する別の画像セットが収集される。この第２の画像セットは、例えば、色のインスタンスｊのための毛髪の見本が、変化するランダムな照明条件のような厄介な要因で汚染されないように、制御された照明条件下で取得される。サンプルの毛髪画像のパッチは、これらの制御された画像から抽出され、特定のヘアカラーの見本をエンコードするために使用される。訓練中のヘアカラーの全体が色の空間を定義する。メイクアップ製品のエンコーディングと同様に、ヘアカラーの空間をまばらにサンプリングすれば良いが、ユーザにより広い選択肢を与え、要求された色の効果が訓練の事例にマッチしない場合など、連続するドメイン内で補間するためのより正確な結果を与えるために、好ましくは十分な範囲でサンプリングすることが望ましい。推論では、メイクアップの効果と同様に、訓練の過程で見られない毛髪の見本はテストの被写体（ｔｅｓｔｓｕｂｊｅｃｔ）（画像）のヘアカラーを変えるためにエンコードされ、使用される。毛髪無しの効果ｚ_０は、本明細書に記載されるメイクアップの効果と同様に定義されても良い。

コンピューティングデバイス及び方法の態様に加えて、本明細書に記載された方法の態様のいずれかを実行するようにコンピューティングデバイスを構成するための命令が非一時的な記憶装置（例えば、メモリー、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ディスクなど）に格納される、コンピュータプログラム製品の態様が開示されていることを当業者は理解するのであろう。

実際の実施は、本明細書に記載された特徴のいずれか又は全てを含むことができる。これら及び他の態様、特徴、ならびに様々な組み合わせは、方法、装置、システム、機能を実行するための手段、プログラムプロダクト、及び、他の方法で、本明細書で説明される特徴を組み合わせて表され得る。多数の実施形態が記載されているが、本明細書で説明されるプロセスおよび技術的思想及び範囲から逸脱することなく、様々な修正を行うことができることが理解されるだろう。加えて、他のステップが提供されても良く、または記載された方法からステップが排除されても良く、他のコンポーネントが記載されたシステムに対し、追加または除去されても良い。従って、他の態様は特許請求の範囲内にある。

本明細書の記載および特許請求の範囲を通して、単語「含む」および「備える」およびそれらの変形表現は「含むがこれに限定されない」を意味し、他の構成要素、整数またはステップを排除することを意図しない（排除しない）。本明細書全体を通して、文脈が別途必要としない限り、単数は複数を包含する。つまり、本明細書がその状況が他のことを要求していない限り、単数だけでなく複数も意図していると理解されたい。

本発明の特定の態様、実施形態または例に関連して記載される特徴、整数特性、化合物、化学部分または基は、それらと非互換でない限り、任意の他の態様、実施形態または例に適用可能であると理解されるべきである。本明細書に開示された特徴（添付の特許請求の範囲、要約書、及び、図面を含む）の全て、或いはそのように開示された任意の方法または処理のステップの全ては、そのような特徴或いはステップの少なくともいくつかが相互に排他的である組み合わせを除いて、任意の組合せで組み合わせることができる。本発明は、前述の例または実施形態の詳細に限定されない。本発明は、本明細書（添付の特許請求の範囲、要約書、及び、図面を含む）に開示された特徴の任意の新規なもの、または任意の新規な組み合わせ、または開示された任意の手法または処理のステップの任意の新規なもの、又は任意の新規な組み合わせに拡張される。

重要なことに、ニューラルネットワークモデルは、コンピューティングデバイスを一般的なコンピューティングデバイスから、以前には見られなかった特殊なデバイスに変換する。ニューラルネットワークモデルに従って提供される装置、方法、及び、他の態様は、特定の物品を別の状態または物に変換または縮小する（１つのドメイン空間から、効果が追加される第２の連続するドメイン空間に画像を変換する）効果をもたらす。ニューラルネットワークモデルに従って提供されるデバイス、方法、及び、他の態様は、具体的な特徴および／または機能および／または処理を含み、これらのいずれか（又は両方）は、１）当分野で良く理解されている日常的な従来の活動以外のものであるか、又は２）その態様を特定の有益な用途に限定する非従来的なステップを追加する。
＜ネットワークの詳細＞

＜参考文献＞
［１］Ｐ．Ｉｓｏｌａ，Ｊ．－Ｙ．Ｚｈｕ，Ｔ．Ｚｈｏｕ，ａｎｄＡ．Ａ．Ｅｆｒｏｓ，“Ｉｍａｇｅ－ｔｏ－ｉｍａｇｅｔｒａｎｓｌａｔｉｏｎｗｉｔｈｃｏｎｄｉｔｉｏｎａｌａｄｖｅｒｓａｒｉａｌｎｅｔｗｏｒｋｓ，” ｉｎＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，２０１７．
［２］Ｊ．－Ｙ．Ｚｈｕ，Ｔ．Ｐａｒｋ，Ｐ．Ｉｓｏｌａ，ａｎｄＡ．Ａ．Ｅｆｒｏｓ，“Ｕｎｐａｉｒｅｄｉｍａｇｅ－ｔｏ－ｉｍａｇｅｔｒａｎｓｌａｔｉｏｎｕｓｉｎｇｃｙｃｌｅ－ｃｏｎｓｉｓｔｅｎｔａｄｖｅｒｓａｒｉａｌｎｅｔｗｏｒｋｓ，” ｉｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ（ＩＣＣＶ），２０１７ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎ，２０１７．
［３］Ｈ．Ｃｈａｎｇ，Ｊ．Ｌｕ，Ｆ．Ｙｕ，ａｎｄＡ．Ｆｉｎｋｅｌｓｔｅｉｎ，“ＰａｉｒｅｄＣｙｃｌｅＧＡＮ：Ａｓｙｍｍｅｔｒｉｃｓｔｙｌｅｔｒａｎｓｆｅｒｆｏｒａｐｐｌｙｉｎｇａｎｄｒｅｍｏｖｉｎｇｍａｋｅｕｐ，” ｉｎＣＶＰＲ２０１８，Ｊｕｎｅ２０１８．
［４］Ｉ．Ｇｏｏｄｆｅｌｌｏｗ，Ｊ．Ｐｏｕｇｅｔ－Ａｂａｄｉｅ，Ｍ．Ｍｉｒｚａ，Ｂ．Ｘｕ，Ｄ．Ｗａｒｄｅ－Ｆａｒｌｅｙ，Ｓ．Ｏｚａｉｒ，Ａ．Ｃｏｕｒｖｉｌｌｅ，ａｎｄＹ．
Ｂｅｎｇｉｏ，“Ｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｎｅｔｓ，” ｉｎＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ２７（Ｚ．Ｇｈａｈｒａｍａｎｉ，Ｍ．Ｗｅｌｌｉｎｇ，Ｃ．Ｃｏｒｔｅｓ，Ｎ．Ｄ．Ｌａｗｒｅｎｃｅ，ａｎｄＫ．Ｑ．Ｗｅｉｎｂｅｒｇｅｒ，ｅｄｓ．），ｐｐ．２６７２－２６８０，ＣｕｒｒａｎＡｓｓｏｃｉａｔｅｓ，Ｉｎｃ．，２０１４．
［５］Ａ．ｖａｎｄｅｎＯｏｒｄ，Ｎ．Ｋａｌｃｈｂｒｅｎｎｅｒ，ａｎｄＫ．Ｋａｖｕｋｃｕｏｇｌｕ，“Ｐｉｘｅｌｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋｓ，” ＣｏＲＲ，ｖｏｌ．ａｂｓ／１６０１．０６７５９，２０１６．
［６］Ｄ．Ｐ．ＫｉｎｇｍａａｎｄＭ．Ｗｅｌｌｉｎｇ，“Ａｕｔｏ－ＥｎｃｏｄｉｎｇＶａｒｉａｔｉｏｎａｌＢａｙｅｓ，” ＡｒＸｉｖｅ－ｐｒｉｎｔｓ，Ｄｅｃ．２０１３．
［７］Ｄ．Ｐ．ＫｉｎｇｍａａｎｄＰ．Ｄｈａｒｉｗａｌ，“Ｇｌｏｗ：ＧｅｎｅｒａｔｉｖｅＦｌｏｗｗｉｔｈＩｎｖｅｒｔｉｂｌｅｌｘｌＣｏｎｖｏｌｕｔｉｏｎｓ，” ＡｒＸｉｖｅ－ｐｒｉｎｔｓ，Ｊｕｌｙ２０１８．
［８］Ｔ．ＭｉｙａｔｏａｎｄＭ．Ｋｏｙａｍａ，“ｃＧＡＮｓｗｉｔｈｐｒｏｊｅｃｔｉｏｎｄｉｓｃｒｉｍｉｎａｔｏｒ，” ｉｎＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＬｅａｒｎｉｎｇＲｅｐｒｅｓｅｎｔａｔｉｏｎｓ，２０１８．
［９］Ｍ．ＭｉｒｚａａｎｄＳ．Ｏｓｉｎｄｅｒｏ，“Ｃｏｎｄｉｔｉｏｎａｌｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｎｅｔｓ，” ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１４１１．１７８４，２０１４．
［１０］Ｓ．Ｒｅｅｄ，Ｚ．Ａｋａｔａ，Ｘ．Ｙａｎ，Ｌ．Ｌｏｇｅｓｗａｒａｎ，Ｂ．Ｓｃｈｉｅｌｅ，ａｎｄＨ．Ｌｅｅ，“Ｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｔｅｘｔ－ｔｏ－ｉｍａｇｅｓｙｎｔｈｅｓｉｓ，” ｉｎＰｒｏｃｅｅｄｉｎｇｓｏｆＴｈｅ３３ｒｄＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ，２０１６．
［１１］Ｙ．Ｃｈｏｉ，Ｍ．Ｃｈｏｉ，Ｍ．Ｋｉｍ，Ｊ．－Ｗ．Ｈａ，Ｓ．Ｋｉｍ，ａｎｄＪ．Ｃｈｏｏ，“Ｓｔａｒｇａｎ：Ｕｎｉｆｉｅｄｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｎｅｔｗｏｒｋｓｆｏｒｍｕｌｔｉ－ｄｏｍａｉｎｉｍａｇｅ－ｔｏ－ｉｍａｇｅｔｒａｎｓｌａｔｉｏｎ，” ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１７１１．０９０２０，２０１７．
［１２］Ｅ．Ｐｅｒｅｚ，Ｈ．ｄｅＶｒｉｅｓ，Ｆ．Ｓｔｒｕｂ，Ｖ．Ｄｕｍｏｕｌｉｎ，ａｎｄＡ．Ｃ．Ｃｏｕｒｖｉｌｌｅ，“Ｌｅａｒｎｉｎｇｖｉｓｕａｌｒｅａｓｏｎｉｎｇｗｉｔｈｏｕｔｓｔｒｏｎｇｐｒｉｏｒｓ，” ＣｏＲＲ，ｖｏｌ．ａｂｓ／１７０７．０３０１７，２０１７．
［１３］Ｅ．Ｐｅｒｅｚ，Ｈ．ＤｅＶｒｉｅｓ，Ｆ．Ｓｔｒｕｂ，Ｖ．Ｄｕｍｏｕｌｉｎ，ａｎｄＡ．Ｃｏｕｒｖｉｌｌｅ，“ＬｅａｒｎｉｎｇＶｉｓｕａｌＲｅａｓｏｎｉｎｇＷｉｔｈｏｕｔＳｔｒｏｎｇＰｒｉｏｒｓ，” ｉｎＩＣＭＬ２０１７’ｓＭａｃｈｉｎｅＬｅａｒｎｉｎｇｉｎＳｐｅｅｃｈａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇＷｏｒｋｓｈｏｐ，（Ｓｉｄｎｅｙ，Ｆｒａｎｃｅ），Ａｕｇ．２０１７．
［１４］Ｔ．Ｍｉｙａｔｏ，Ｔ．Ｋａｔａｏｋａ，Ｍ．Ｋｏｙａｍａ，ａｎｄＹ．Ｙｏｓｈｉｄａ，“Ｓｐｅｃｔｒａｌｎｏｒｍａｌｉｚａｔｉｏｎｆｏｒｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｎｅｔｗｏｒｋｓ，” ｉｎＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＬｅａｒｎｉｎｇＲｅｐｒｅｓｅｎｔａｔｉｏｎｓ，２０１８．
［１５］Ｍ．Ｈｅｕｓｅｌ，Ｈ．Ｒａｍｓａｕｅｒ，Ｔ．Ｕｎｔｅｒｔｈｉｎｅｒ，Ｂ．Ｎｅｓｓｌｅｒ，Ｇ．Ｋｌａｍｂａｕｅｒ，ａｎｄＳ．Ｈｏｃｈｒｅｉｔｅｒ，“Ｇａｎｓｔｒａｉｎｅｄｂｙａｔｗｏｔｉｍｅ－ｓｃａｌｅｕｐｄａｔｅｒｕｌｅｃｏｎｖｅｒｇｅｔｏａｎａｓｈｅｑｕｉｌｉｂｒｉｕｍ，” ＣｏＲＲ，ｖｏｌ．ａｂｓ／１７０６．０８５００，２０１７．
［１６］Ｔ．Ｓａｌｉｍａｎｓ，Ｉ．Ｊ．Ｇｏｏｄｆｅｌｌｏｗ，Ｗ．Ｚａｒｅｍｂａ，Ｖ．Ｃｈｅｕｎｇ，Ａ．Ｒａｄｆｏｒｄ，ａｎｄＸ．Ｃｈｅｎ，“Ｉｍｐｒｏｖｅｄｔｅｃｈｎｉｑｕｅｓｆｏｒｔｒａｉｎｉｎｇｇａｎｓ，” ＣｏＲＲ，ｖｏｌ．ａｂｓ／１６０６．０３４９８，２０１６．

Claims

画像に適用される効果に応じて、第１のドメイン空間から第２の連続するドメイン空間に前記画像を変換するコンピューティングデバイスであって、記憶部と処理部とを備え、
前記記憶部は、前記画像を前記第２の連続するドメイン空間に変換するように構成された、条件付きサイクル一貫性を有する生成画像変換のモデルを記憶し、
前記モデルは、適用される前記効果の物理的特性を連続的に表す複数のエンコーディングを生成するエンコーダ（Ｅ）と、そのエンコーダ（Ｅ）で生成された前記複数のエンコーディングを使用した訓練によって条件付けされる生成器（Ｇ）と、を備え、
前記エンコーダ（Ｅ）は、適用される前記効果の種類に対応する複数の見本画像から前記複数のエンコーディングをエンコードし、
前記複数の見本画像には、適用される前記効果がないことを表す空白の画像が含まれ、
前記処理部は、前記画像と適用される所望の効果とを前記モデルに提供し、提示用の変換された画像を提供することを特徴とするコンピューティングデバイス。
適用される前記効果が拡張現実の効果を含む、請求項１記載のコンピューティングデバイス。
適用される前記効果が、メイクアップ効果、ネイル効果、及び、ヘアカラー効果のうちの１つを含む、請求項１又は２に記載のコンピューティングデバイス。
前記モデルが、条件付きサイクル一貫性を有する敵対的生成ネットワーク（ｃｃＧＡＮ）のモデルである、請求項１から３のいずれかに記載のコンピューティングデバイス。
前記第１のドメイン空間は、適用される前記効果を含まない複数の前記画像によって定義される、請求項１から４のいずれかに記載のコンピューティングデバイス。
前記モデルは、推論時に前記生成器（Ｇ）を備え、
訓練時に、前記生成器（Ｇ）は、前記複数のエンコーディングを使用して識別器（Ｄ）と共に訓練される、請求項１から５のいずれかに記載のコンピューティングデバイス。
前記生成器（Ｇ）は、前記複数のエンコーディングの各エンコーディングに対し、畳み込み条件付きバッチ正規化処理を使用して条件付けされる、請求項６記載のコンピューティングデバイス。
前記識別器（Ｄ）は、前記複数のエンコーディングの各エンコーディングに対し、出力投影処理を使用して条件付けされる、請求項６又は７に記載のコンピューティングデバイス。
前記コンピューティングデバイスは、前記複数のエンコーディングを記憶する記憶装置を備えるデータストアに接続され、
前記処理部は、前記複数のエンコーディングのうち、前記所望の効果に対応する１つを前記モデルに提供する、請求項６から８のいずれかに記載のコンピューティングデバイス。
前記データストアは、適用される前記効果の種類を尊重するための、前記モデルに訓練されていない１又は複数の非訓練インスタンスエンコーディングを記憶し、
前記処理部は、前記１又は複数の非訓練インスタンスエンコーディングのうち、前記所望の効果に対応する１つを前記モデルに提供するように構成される、請求項９記載のコンピューティングデバイス。
前記生成器（Ｇ）のパラメータθは、下記の数式６に従って、２つの補完的方向における敵対的損失およびサイクル一貫性損失を最小化することによって最適化される、請求項６から１０のいずれかに記載のコンピューティングデバイス。
前記識別器（Ｄ）のパラメータθは、下記の数式７に従って、２つの補完的方向における敵対的損失を最大化することによって最適化される、請求項６から１１のいずれかに記載のコンピューティングデバイス。
前記画像は、自撮り画像または自撮り映像であり、前記自撮り映像の場合、前記処理部は、前記自撮り映像の画像を変換して前記効果を適用し、３Ｄの効果を作成する、請求項１から１２のいずれかに記載のコンピューティングデバイス。
前記変換された画像は、前記画像の部位を構成し、
前記処理部は、前記変換された画像を、提示用の画像に合成する、請求項１から１３のいずれかに記載のコンピューティングデバイス。
前記画像をキャプチャするために、前記コンピューティングデバイスが、カメラを備える、又は、カメラに接続される、請求項１から１４のいずれかに記載のコンピューティングデバイス。
前記コンピューティングデバイスは、サーバを備え、
前記処理部は、前記サーバと通信するクライアントデバイスから前記画像および前記所望の効果を受信する、請求項１から１４のいずれかに記載のコンピューティングデバイス。
前記記憶装置は、前記所望の効果を選択するための選択機能をユーザに提供するためのインターフェースに関する命令を格納し、
前記処理部は、前記インターフェースを提供し、前記選択機能を介して入力を受信し、その入力に応じて前記所望の効果を定義するように構成される、請求項９記載のコンピューティングデバイス。
前記入力は、前記モデルに対して事前に訓練されていないカスタム効果を含む、請求項１７記載のコンピューティングデバイス。
前記記憶装置は、前記所望の効果を定義するために使用する以前に計算されたエンコーディングを検索する検索機能に関する命令を記憶し、
前記処理部は、前記入力および前記検索機能を使用して、前記計算されたエンコーディングから前記カスタム効果に最適なものを探して前記所望の効果を定義するように構成される、請求項１８記載のコンピューティングデバイス。
前記記憶装置は、前記所望の効果に関する新しいエンコーディングを定義するエンコード機能を提供するための命令を記憶し、
前記処理部は、前記入力および前記エンコード機能を使用して、前記カスタム効果のための前記所望の効果を定義するように構成される、請求項１８記載のコンピューティングデバイス。
条件付きサイクル一貫性を有する生成画像変換のモデルを生成するように構成されたコンピューティングデバイスであって、
前記モデルは、画像に適用される効果に従って前記画像を第１のドメイン空間から第２の連続するドメイン空間に変換するように構成され、
前記コンピューティングデバイスは、記憶装置と処理部とを備え、
前記記憶装置は、前記モデルを記憶し、
前記モデルは、適用される前記効果の物理的特性を連続的に表す複数のエンコーディングを生成するエンコーダ（Ｅ）と、そのエンコーダ（Ｅ）で生成された前記複数のエンコーディングを使用した訓練によって条件付けされる生成器（Ｇ）及び識別器（Ｄ）と、を備え、
前記エンコーダ（Ｅ）は、適用される前記効果の種類に対応する複数の見本画像から前記複数のエンコーディングをエンコードし、
前記複数の見本画像には、適用される前記効果がないことを表す空白の画像が含まれ、
前記処理部は、訓練データをバッチで提供して訓練された前記モデルを定義することを特徴とするコンピューティングデバイス。
前記モデルは、条件付きサイクル一貫性を有する敵対的生成ネットワーク（ｃｃＧＡＮ）モデルである、請求項２１記載のコンピューティングデバイス。
前記訓練データを受信するために、前記処理部は、
各々に効果が適用されていない複数の実画像ｘを、効果が適用されていないドメイン空間を構成する前記第１のドメイン空間Ｘから受信し、
効果が適用されたドメイン空間を構成する前記第２の連続するドメイン空間Ｙから複数の実画像ｙ_ｊを受信し、各ｙ_ｊは適用される前記効果のインスタンスｊを有し、ｊ=１、２、３、・・・は前記効果の種類を表し、
前記効果の種類に対応する複数の見本画像ｚ_ｊを受信し、
適用される前記効果がないことに対応する空白の画像ｚ_０を受信し、
処理部は、前記生成器（Ｇ）及び前記識別器（Ｄ）のパラメータθ_Ｇ及びθ_Ｄを開始し、
前記訓練データをバッチで提供するために、前記処理部は、
バッチで、前記訓練データから決定された訓練エポックを繰り返すように構成され、
前記エンコーダ（Ｅ）を使用して前記生成器（Ｇ）及び前記識別器（Ｄ）のためのエンコーディングＥ（ｚ_ｊ）をエンコードし、
前記エンコーダ（Ｅ）を使用して前記生成器（Ｇ）のためのエンコーディングＥ（ｚ_０）をエンコードし、
前記画像ｘ及び前記エンコーディングＥ（ｚ_ｊ）を前記生成器（Ｇ）に提供して、前記第２の連続するドメイン空間Ｙで偽画像ｙ_{ｊｆａｋｅ}を生成し、
前記偽画像ｙ_{ｊｆａｋｅ}及びそれに対応する実画像ｙ_ｊを前記エンコーディングＥ（ｚ_ｊ）と共に前記識別器（Ｄ）に提供して出力ｄ_ｊを生成し、
前記偽画像ｙ_{ｊｆａｋｅ}及び前記エンコーディングＥ（ｚ_０）を前記生成器（Ｇ）に提供してｘ´を出力し、
下記の数式８に従って、敵対的損失およびサイクル一貫性損失を最小化することによって前記生成器（Ｇ）のパラメータθ_Ｇを最適化し、敵対的損失を最大化することによって前記識別器（Ｄ）のパラメータθ_Ｄを最適化する、請求項２１又は２２に記載のコンピューティングデバイス。
適用される前記効果は、拡張現実の効果、好ましくはメイクアップ効果、ネイル効果、及び、ヘアカラー効果のうちの１つを含む、請求項２１から２３のいずれかに記載のコンピューティングデバイス。
前記生成器（Ｇ）は、前記複数のエンコーディングの各エンコーディングに対し、畳み込み条件付きバッチ正規化処理を使用して条件付けされる、請求項２１から２４のいずれかに記載のコンピューティングデバイス。
前記識別器（Ｄ）は、前記複数のエンコーディングの各エンコーディングに対し、出力投影処理を使用して条件付けされる、請求項２１から２５のいずれかに記載のコンピューティングデバイス。
画像に適用される効果に応じて、前記画像を第１のドメイン空間から第２の連続するドメイン空間に変換するコンピュータ実装方法であって、
前記方法は、
適用される所望の効果及び前記画像を受信し、
変換された画像を得るために前記画像および前記所望の効果をモデルに提供し、提示用の前記変換された画像を提供し、
前記モデルは、前記画像を前記第２の連続するドメイン空間に変換するように構成された、条件付きサイクル一貫性を有する生成画像変換のモデルであり、
前記モデルは、適用される前記効果の物理的特性を連続的に表す複数のエンコーディングを生成するエンコーダ（Ｅ）と、そのエンコーダ（Ｅ）で生成された前記複数のエンコーディングを使用した訓練によって条件付けされる生成器（Ｇ）と、を備え、
前記エンコーダ（Ｅ）は、適用される前記効果の種類に対応する複数の見本画像から前記複数のエンコーディングをエンコードし、
前記複数の見本画像には、適用される前記効果がないことを表す空白の画像が含まれることを特徴とする方法。
前記モデルは、条件付きサイクル一貫性を有する敵対的生成ネットワーク（ｃｃＧＡＮ）のモデルから定義される、請求項２７記載の方法。
適用される前記効果が、メイクアップ効果、ネイル効果、及び、ヘアカラー効果のうちの１つを含む、請求項２７又は２８に記載の方法。
前記第１のドメイン空間は、適用される前記効果を含まない複数の前記画像によって定義される、請求項２７から２９のいずれかに記載の方法。
前記モデルは、前記複数のエンコーディングを用いて訓練された識別器（Ｄ）を備える、請求項２７から３０のいずれかに記載の方法。
前記生成器（Ｇ）は、前記複数のエンコーディングの各エンコーディングに対し、畳み込み条件付きバッチ正規化処理を使用して条件付けされる、請求項３１記載の方法。
前記識別器（Ｄ）は、前記複数のエンコーディングの各エンコーディングに対し、出力投影処理を使用して条件付けされる、請求項３１又は３２に記載の方法。
前記複数のエンコーディングを記憶する記憶装置を有するデータストアから、前記複数のエンコーディングのうち、前記所望の効果に対応する１つを検索して前記モデルに提供する、請求項３１から３３のいずれかに記載の方法。
前記データストアは、適用される前記効果の種類を尊重するための、前記モデルに訓練されていない１又は複数の非訓練インスタンスエンコーディングを記憶し、
前記方法は、前記１又は複数の非訓練インスタンスエンコーディングのうち、前記所望の効果に対応する１つをデータベースから検索して前記モデルに提供する、請求項３４記載の方法。
前記生成器（Ｇ）のパラメータθは、下記の数式９に従って、２つの補完的方向における敵対的損失およびサイクル一貫性損失を最小化することによって最適化される、請求項３１から３３のいずれかに記載の方法。
前記識別器（Ｄ）のパラメータθは、下記の数式１０に従って、２つの補完的方向における敵対的損失を最大化することによって最適化される、請求項３１から３６のいずれかに記載の方法。
前記画像を受信するために接続されたカメラを使用して前記画像をキャプチャする、請求項２７から３７のいずれかに記載の方法。
前記画像は、自撮り画像および自撮り映像のうちの１つから構成され、前記自撮り映像の場合、前記方法は、前記自撮り映像の画像を変換して効果を適用し、３Ｄの効果、特に３Ｄのメイクアップ効果を作成する、請求項２７から３８のいずれかに記載の方法。
前記モデルに提供する前に前記画像を前処理する、請求項２７から３９のいずれかに記載の方法。
前記変換された画像は、前記画像の部位を構成し、
前記方法は、前記変換された画像を提示用の画像に合成する、請求項２７から４０のいずれかに記載の方法。
前記所望の効果を選択するための選択機能を含むインターフェースを提供し、前記選択機能を介して入力を受信し、その入力に応じて前記所望の効果を定義する、請求項２７から４１のいずれかに記載の方法。
前記入力は、前記モデルに対して事前に訓練されていないカスタム効果を含む、請求項４２記載の方法。
前記所望の効果を定義するために使用する以前に計算されたエンコーディングを前記入力を使用して検索し、前記計算されたエンコーディングから前記カスタム効果に最適なものを探して前記所望の効果を定義する、請求項４３記載の方法。
前記所望の効果に関する新しいエンコーディングを前記入力に応じて定義するエンコード機能を使用して、前記カスタム効果のための前記所望の効果を定義する、請求項４３記載の方法。
条件付きサイクル一貫性を有する生成画像変換のモデルを生成するためのコンピュータ実装方法であって、
前記モデルは、画像に適用される効果に応じて、前記画像を第１のドメイン空間から第２の連続するドメイン空間に変換するように構成され、
前記方法は、処理部を介して訓練データを受信し、前記訓練データをバッチで前記モデルに提供して訓練された前記モデルを定義し、
前記モデルは、前記処理部に結合された記憶装置に記憶され、
前記モデルは、適用される前記効果の物理的特性を連続的に表す複数のエンコーディングを生成するエンコーダ（Ｅ）と、そのエンコーダ（Ｅ）で生成された前記複数のエンコーディングを使用した訓練によって条件付けされる生成器（Ｇ）及び識別機（Ｄ）と、を備え、
前記エンコーダ（Ｅ）は、適用される前記効果の種類に対応する複数の見本画像から前記複数のエンコーディングをエンコードし、
前記複数の見本画像には、適用される前記効果がないことを表す空白の画像が含まれることを特徴とする方法。
前記モデルは、条件付きサイクル一貫性を有する敵対的生成ネットワーク（ｃｃＧＡＮ）のモデルである、請求項４６記載の方法。
前記訓練データを受信するために、前記方法は、
各々に効果が適用されていない複数の実画像ｘを、効果が適用されていないドメイン空間を構成する前記第１のドメイン空間Ｘから受信し、
効果が適用されたドメイン空間を構成する前記第２の連続するドメイン空間Ｙから複数の実画像ｙ_ｊを受信し、各ｙ_ｊは適用される前記効果のインスタンスｊを有し、ｊ=１、２、３、・・・は前記効果の種類を表し、
前記効果の種類に対応する複数の見本画像ｚ_ｊを受信し、
適用される前記効果がないことに対応する空白の画像ｚ_０を受信し、
前記方法は、前記処理部により、前記生成器（Ｇ）及び前記識別器（Ｄ）のパラメータθ_Ｇ及びθ_Ｄを開始し、
前記訓練データをバッチで提供するために、前記方法は、
バッチで、前記訓練データから決定された訓練エポックを繰り返すように構成され、
前記エンコーダ（Ｅ）を使用して前記生成器（Ｇ）及び前記識別器（Ｄ）のためのエンコーディングＥ（ｚ_ｊ）をエンコードし、
前記エンコーダ（Ｅ）を使用して前記生成器（Ｇ）のためのエンコーディングＥ（ｚ_０）をエンコードし、
前記画像ｘ及び前記エンコーディングＥ（ｚ_ｊ）を前記生成器（Ｇ）に提供して、前記第２の連続するドメイン空間Ｙで偽画像ｙ_{ｊｆａｋｅ}を生成し、
前記偽画像ｙ_{ｊｆａｋｅ}及びそれに対応する実画像ｙ_ｊを前記エンコーディングＥ（ｚ_ｊ）と共に前記識別器（Ｄ）に提供して出力ｄ_ｊを生成し、
前記偽画像ｙ_{ｊｆａｋｅ}及び前記エンコーディングＥ（ｚ_０）を前記生成器（Ｇ）に提供してｘ´を出力し、
下記の数式１１に従って、敵対的損失およびサイクル一貫性損失を最小化することによって前記生成器（Ｇ）のパラメータθ_Ｇを最適化し、敵対的損失を最大化することによって前記識別器（Ｄ）のパラメータθ_Ｄを最適化する、請求項４６又は４７に記載の方法。
適用される前記効果は、拡張現実の効果、好ましくは、メイクアップ効果、ネイル効果、及び、ヘアカラー効果のうちの１つを含む、請求項４６から４８のいずれかに記載の方法。
前記生成器（Ｇ）は、前記複数のエンコーディングの各エンコーディングに対し、畳み込み条件付きバッチ正規化処理を使用して条件付けされる、請求項４６から４９のいずれかに記載の方法。
前記識別器（Ｄ）は、前記複数のエンコーディングの各エンコーディングに対し、出力投影処理を使用して条件付けされる、請求項４６から５０のいずれかに記載の方法。
コンピューティングデバイスの処理部によって実行されると、請求項２７から５１のいずれかに記載の方法を前記コンピューティングデバイスに実行させるプログラムを記憶する記録媒体。