JP7364676B2 - 条件付きサイクル一貫性を有する生成画像変換のモデルを使用した拡張現実のためのシステムおよび方法 - Google Patents

条件付きサイクル一貫性を有する生成画像変換のモデルを使用した拡張現実のためのシステムおよび方法 Download PDF

Info

Publication number
JP7364676B2
JP7364676B2 JP2021526757A JP2021526757A JP7364676B2 JP 7364676 B2 JP7364676 B2 JP 7364676B2 JP 2021526757 A JP2021526757 A JP 2021526757A JP 2021526757 A JP2021526757 A JP 2021526757A JP 7364676 B2 JP7364676 B2 JP 7364676B2
Authority
JP
Japan
Prior art keywords
image
effect
model
encodings
computing device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021526757A
Other languages
English (en)
Other versions
JP2022519003A (ja
Inventor
エルモズニーノ・エリック
マー・ヒー
ケゼル・イリーナ
フォン・エドモンド
レビンシュタイン・アレックス
アーラビ・パラム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Publication of JP2022519003A publication Critical patent/JP2022519003A/ja
Application granted granted Critical
Publication of JP7364676B2 publication Critical patent/JP7364676B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

本出願は平成30年11月15日に出願された米国仮出願第62/767,769号の国内利益および/または優先権を主張し、その内容は、許容される場合に参照により本明細書に組み込まれる。
本発明は、画像処理に関し、より詳細には、条件付きサイクル一貫性を有する生成画像変換モデル(例えば、ニューラルネットワークモデル)を使用して画像を変換する画像処理によって拡張現実を生成することに関する。
仮想のメイクアップをリアルタイムに行うアプリケーションは、アイデンティティと詳細なリアリズムとを高度に維持しながら、拡張現実における対話型の体験をユーザに提供する。理想的には、ユーザは、メイクアップ製品(例えば、口紅またはアイシャドウ)を実際に試着することなくプレビューすることを望んでいる。更に、仮想の試着は、ユーザの個人的な好みに応じて、製品に関する属性(例えば、色および光沢)を調整する自由をユーザに与える。
このようなアプリケーションの多くは、従来の機械学習またはコンピュータビジョンの技術に依存しており、次の2つのステップ、即ち、一連の回帰フォレストのカスケード又は他の方法に基づいて顔のランドマークを検出するステップ、及び、従来のグラフィック技術と検出されたランドマークを使用して出力画像を生成(レンダリング)するステップを含む。この2つのステップの解決策は非常に高速であり、ほとんどの場合、信頼できる結果を生成するが、いくつかの制限がある。特に、(i)生成されたメイクアップの形は、検出されたランドマークの精度によって制限され、(ii)仮想メイクアップの色および輝きは、実際の製品の特性、照明の方向や輝度等の推定値に基づいて手動で設計する必要があり、(iii)仮想のメイクアップと元の画像との合成は人間の肌の色に従って注意深く調整する必要がある。
これらの制限および他の理由のために、この解決策は、現実性を維持しつつ大量の製品に容易に対応することができない。新しい製品をサポートするためには、これらのパラメータを、実際の製品に十分に似た描写になるまで調整しなければならない。このプロセスは時間がかかり、不正確であり、従って、製品カタログのサイズが大きくなるにつれて対応が不十分になる。
純粋に教師なしの方法で顔の特徴空間を探索し学習する作業が行われてきた。しかしながら、メイクアップのアプリケーションのタスクは、関連する領域のみが修正されるべきであり、顔の他の部分または属性は、可能な限り同一のままであるべきであるという意味で、より厳密である(アイデンティティを保持する課題)。
<画像変換>
具体的な顔の属性を操作することは、画像変換(image-to-image translation)の課題と見なすことができる。Pix2Pix[1](参考文献は以下に列挙され、許容される場合、参照により本明細書に組み込まれる)及びCycleGAN[2]は、この2つのドメインの課題にGANを使用して取り組む。前者は、対になった画像のデータセットを利用するが、後者は、2つの対になっていないデータセットから変換モデルを学習することができる。これは、サイクル一貫性損失により、解空間で可能なマッピング関数の数を減らすことができるためである。CycleGANの1つの注目すべき欠点は、それが2つ以上のドメイン間で変換できないことである。CycleGANのアーキテクチャに基づいて、対のCycleGAN[3]は、メイクアップなしの写真を参考写真のメイクアップのスタイルに変換し、参考写真をメイクアップなしの写真に変換する際のサイクル一貫性損失の最適化により、メイクアップを生成する課題に対処する。メイクアップのアプリケーションのための生成器は、1)ソースのメイクアップ無しの画像、および2)目的とするメイクアップが適用された参考画像を入力とし、そのアイデンティティを保持しながら、メイクアップが適用されたソース画像を出力する。対のCycleGAN及びCycleGANにおけるこの方法の主な違いは、メイクアップをすることと、メイクアップを削除することとに対応する2つの生成器の一方がスタイルを転送し、他方がスタイルを削除する非対称な機能であることである。この研究はサイクル一貫性損失を有するGANが複雑な口紅の特性を学習し、それらを正確に表現できることを明確に実証しているが、参考画像の必要性は現実的な使用事例にとって問題がある。
モデルが仮想の試着機能としてオンラインストアで使用される場合、製品ごとに参考画像が必要になる。さらに、参考画像内の照明およびアイデンティティなどの態様は、口紅の表現に微妙な影響を及ぼし、単一の事例で表示されるものではなく、真の口紅の特性をエンコード(符号化)するモデルの機能を制限する。
<条件付き画像生成>
生成モデルの最近の発展は、実世界の高次元のデータ分布をモデル化する課題に取り組んでいる。生成モデルの2つの主な傾向は、敵対的生成ネットワーク[4]と対数尤度に基づく方法(例えば、自己回帰モデル[5]、変分オートエンコーダ[6]、及び、可逆的な生成フロー[7])である。これらのモデルは、訓練中にラベルを供給することにより、実際のデータの部分分布(sub-distribution)を条件とすることができる。この条件付き確率モデルをどのように実施するかについての詳細は、最近の文献では様々である。
条件付きGAN(cGAN)[8]は、条件付き変数ベクトル→eが与えられると、生成器の分布(Generator distribution)と対象データ(target data distribution)の分布のサブセットとの間の差を最小化する。Mirzaら[9]およびReedら[10]は、条件ベクトルを識別器(Discriminator)の入力または中間畳み込み層間の特徴マップに連結することを試みた。StarGAN[11]では、ラベル情報を使用して、識別器内の特徴ベクトルの上に構築された追加の分類器を監視することが検討されている。Miyatoら[8]は、識別器中の特徴ベクトルと条件ベクトルとの内積をとる出力射影法の使用を試みた。
典型的には、最近の文献および実験によると、cGANについては識別器および生成器の両方を、最良の性能を発揮するように調整する必要がある。Miyatoら[8](その全体が参照により本明細書に組み込まれる)は、cGANの生成器を条件付けするために、条件付きバッチ正規化(CBN)レイヤを使用するという考えをPerezら[12]から借用する。
従って、条件付きメイクアップ空間を独自に学習できるエンドツーエンドモデル(end-to-end model)を有することが望ましい。即ち、メイクアップをしている現実世界の人々の画像および/または映像を訓練することにより、モデルは人物のアイデンティティを保持すると同時に、画像を修正してメイクアップの現実的な表現を生成する方法を学習できる。
ここでは、条件付きサイクル一貫性を有する生成画像変換のモデル、例えば、追加機能を有する修正されたCycleGANのアーキテクチャ(例えば、cGAN機能)が開示される。追加された機能は、メイクアップ特性のような拡張現実の画像特性を表す参考見本(reference swatches)をエンコードする条件付き変数ベクトルが与えられた場合に、生成器の分布と対象データの分布のサブセットとの間の差を最小化するために用いられる。より具体的には、生成器を調整するために、畳み込み条件付きバッチ正規化(CCBN)を使用して、効果(例えば、メイクアップ)の特性を表す参考見本画像(reference swatch images)をエンコーディングするベクトルを適用する。
画像に適用される効果に応じて、第1のドメイン空間から第2の連続するドメイン空間に前記画像を変換するコンピューティングデバイスが提供される。このコンピューティングデバイスは、記憶部と、処理部と、を備える。前記記憶部は、前記画像を前記第2の連続するドメイン空間に変換するように構成された、条件付きサイクル一貫性を有する画像変換のモデルを記憶し、前記モデルは、適用される前記効果の物理的特性を連続的に表す複数のエンコーディングを使用した訓練によって条件付け(conditioned)され、前記複数のエンコーディングは、適用される前記効果の各々の個別のインスタンス(discrete instance)からエンコードされ、前記個別のインスタンスは、適用される前記効果がないことを表すインスタンスを含み、前記処理部は、適用される前記効果の所望のインスタンス(desired instance)及び前記画像を受信し、変換された画像を得るために前記所望のインスタンス及び前記画像を前記モデルに提供し、提示用の前記変換された画像を提供する。
適用される前記効果は、メイクアップ効果(例えば、仮想の口紅)、ネイル効果(例えば、マニキュア及びペディキュア効果のような手の指または足の指のネイル効果)、及び、ヘアカラー効果のうちの1つであっても良い。
前記画像は、適用される前記効果がなくても良く、前記第1のドメイン空間は、それぞれ適用される前記効果がない複数の画像によって定義される。
前記モデルは、条件付きサイクル一貫性を有する敵対的生成ネットワーク(ccGAN)モデルを備えていても良い。
前記モデルは、エンコーダ(E)によってエンコードされた前記複数のエンコーディングを使用して訓練された生成器(G)及び識別器(D)を備えていても良い。
前記生成器(G)は、前記複数のエンコーディングの各々のエンコーディングに畳み込み条件付きバッチ正規化処理を使用する前記複数のエンコーディングで条件付けされても良い。
前記識別器(D)は、前記複数のエンコーディングの各々のエンコーディングに出力投影処理を使用する前記複数のエンコーディングで条件付けされても良い。
前記エンコーダは、適用される前記効果の前記インスタンスの各々の前記物理的特性を、適用される効果がないことを表す見本画像を含む、前記インスタンスの各々に関する見本画像からエンコードするように構成されても良い。
前記モデルは、訓練された前記生成器(G)を備えていても良い。
前記コンピューティングデバイスは、前記複数のエンコーディングを記憶するように構成されたデータストア(例えば、データベースとして構成されても良いデータ記憶装置)に結合されても良く、前記処理ユニットは、適用される前記効果の前記所望のインスタンスに対応する前記複数のエンコーディングのうちの対応する1つを前記モデルに提供するように構成されても良い。前記データストアは、前記モデルに訓練されなかった適用される前記効果の各々のインスタンスに対する1又は複数の非訓練インスタンスエンコーディングを記憶しても良く、前記処理ユニットは、適用される前記効果の前記所望のインスタンスに対応する1又は複数の前記非訓練インスタンスエンコーディングのうちの対応する1つを前記モデルに提供するように構成されても良い。
前記生成器Gのパラメータθは、下記の数式1に従って、2つの補完的な方向の敵対的損失と、サイクル一貫性損失とを最小化することによって最適化されても良い。
Figure 0007364676000001
前記識別器Dのパラメータθは、下記の数式2に従って、2つの補完的な方向の前記敵対的損失を最大化することによって最適化されても良い。
Figure 0007364676000002
前記画像は、自撮り画像または自撮り映像で構成されていても良く、前記自撮り映像の場合には、前記処理ユニットは、前記自撮り映像の画像を変換して、そこに前記効果を適用して、3Dの効果、特に3Dのメイクアップ効果を生成するように構成される。
前記画像は、前記モデルに提供する前に前記処理部によって前処理されても良い。
前記変換された画像は、前記画像の部位(region)を構成していても良く、前記処理部は、前記変換された画像を提示用の前記画像に合成するように構成される。
前記コンピューティングデバイスは、処理部が受信する画像をキャプチャするために、カメラを備えていても良いし、カメラに結合されていても良い。前記コンピューティングデバイスは、サーバを備え、前記処理部は、前記サーバと通信しているクライアントデバイスから、前記画像および前記所望のインスタンスを受信するように構成されても良い。
前記記憶装置は、前記所望のインスタンスを定義する所望のインスタンス選択機能をユーザに提供するためのインターフェースの命令を記憶しても良く、前記プロセッサは、前記命令により、前記インターフェースを提供し、入力を受信し、その入力に応じて前記所望のインスタンスを定義するように構成されても良い。前記入力は、以前に前記モデルに訓練されていないカスタム効果を含んでいても良い。前記記憶装置は、所望の前記効果を定義するために使用する以前に計算されたエンコーディングを検索する検索機能の命令を記憶しても良い。前記プロセッサは、前記命令によって、前記入力および検索機能を使用して、所望の前記効果を定義するために前記計算されたエンコーディングから前記カスタム効果に最適なもの見つけるように構成されても良い。前記記憶装置は、所望の前記効果に関する新しいエンコーディングを定義するエンコード機能を提供するための命令を記憶しても良く、前記プロセッサは、前記命令によって、前記入力および前記エンコード機能を使用して、前記カスタム効果のための所望の前記効果を定義するように構成されても良い。
条件付きサイクル一貫性を有する画像変換のモデルを生成するように構成されたコンピューティングデバイスが提供され、前記モデルは、画像に適用される効果に従って、前記画像を第1のドメイン空間から第2の連続するドメイン空間に変換するように構成される。このコンピューティングデバイスは、生成器、識別器、及び、エンコーダを有する前記モデルを記憶する記憶装置と処理部とを備え、前記モデルは、適用される前記効果の物理的特性を連続的に表す前記エンコーダからの複数エンコーディングを使用した訓練を通して前記生成器および前記識別器を条件付けするように構成され、前記複数のエンコーディングは、適用される前記効果の複数の個別のインスタンスからエンコードされ、複数の前記個別のインスタンスは、前記適用される効果がないことを表すインスタンスを含み、前記処理部は、前記訓練データを受信し、前記訓練データをバッチで前記モデルに提供して、訓練された前記モデルを定義する。前記モデルは、条件付きサイクル一貫性を有する敵対的生成ネットワーク(ccGAN)のモデルで構成されていても良い。
訓練データを受信するために、前記処理部は、効果が適用されていないドメイン空間を構成する前記第1のドメイン空間Xから複数の実画像xを受信し、各xは前記効果が適用されていないことを表し、効果が適用されるドメイン空間を構成する前記第2の連続するドメイン空間Yから複数の実画像yを受信し、各yは適用された前記効果のインスタンスjを有し、j=1、2、3、・・・は前記効果の各々の前記個別インスタンスを表し、前記効果の各々の前記個別インスタンスを表す複数の参考画像zを受信し、適用される前記効果がないことに対応する空白の画像(white image)zを受信するように構成されても良い。前記処理部は、前記生成器(G)及び識別器(D)のパラメータθ及びθを開始するように構成されても良い。バッチで前記訓練データを提供するために、前記処理部は、前記訓練データから決定されたバッチ及び前記訓練エポックで、前記エンコーダを使用して、前記生成器(G)及び前記識別器(D)のためのエンコーディングE(z)をエンコードし、前記エンコーダを使用して、前記生成器のためのエンコーディングE(z)をエンコードし、前記画像x及びエンコーディングE(z)を生成器(G)に提供して、前記第2の連続するドメイン空間で偽画像yjfakeを生成し、前記偽画像yjfakeとそれに対応する実画像yとエンコーディングE(z)とを前記識別器(D)に提供して出力dを生成し、前記偽画像yjfake及びエンコーディングE(z)を生成器(G)に提供してx´を出力し、下記の数式3に従って、前記敵対的損失およびサイクル一貫性損失を最小化することによって前記生成器(G)のパラメータθを最適化し、前記敵対的損失を最大化することによって前記識別器(D)のパラメータθを最適化するように構成されても良い。
Figure 0007364676000003
当業者は、同等の方法およびコンピュータプログラム製品の態様も認識することができるであろう。
サイクル一貫性損失を有する条件付きGANを使用してモデルをトレーニングするためのデータフローを表したものである。 実施例によるダウンサンプリング、拡張、及び、残差ブロック層の数の効果を表形式で表したものである。 学習されたエンコーディング空間を色次元(0°から360°の色相)で補間する様子を表形式で表したものである。 学習したエンコーディング空間を湿り度の次元(0から1)で補間する様子を表形式で表したものである。 テストセットの合成見本画像を用いて、学習したエンコーディング空間を補間する様子を表形式で表したものである。なお、訓練中には、グラウンドトゥルース画像は使用していない。
本発明の概念は、添付の図面を参照し、本明細書に記載されている特定の実施形態を通して最もよく説明され、同一の符号は全体を通して同一の特徴を指す。本明細書で使用される場合、「発明」という用語は、単に実施形態自体ではなく、以下に記載される実施形態の基礎をなす発明概念を暗示することを意図していることを理解されたい。更に、本発明の一般的な概念は、以下に記載される例示的な実施形態に限定されず、以下の説明は、そのような観点から読まれるべきであることが理解されるべきである。メイクアップ効果として、仮想の口紅に関して主に記載されているが、本明細書の教示は、当業者によって理解されるように、メイクアップ(化粧)、ネイル、及び、ヘアカラー(髪の着色)を含むがこれらに限定されない他の拡張現実の効果に適用されても良い。
近年、サイクル一貫性損失を有する条件付きGANのような条件付き生成画像変換ネットワークは、ドメイン間の画像変換のタスクに対して顕著な結果を達成した。これらの方法の主な利点は、対になっていないデータについて訓練できることであり、これは、拡張現実の問題を含む多くの問題を助ける。姿勢や照明などの他の全ての変数を同一に保ちながら、一方が口紅のようなメイクアップ効果を有し、他方が有しない2つの現実の画像を得ることは、ほぼ不可能であるか、又は時間および資源が法外に高くなる。言い換えれば、例えば教師付き学習のためのデータのような十分な量の対のグラウンドトゥルースデータを得ることができない。
更なる問題は、適用される効果に関連して考慮できる。例えば、口紅のドメイン(但し、他のドメインでも同様)では、条件付けパラメータ(conditioning parameter)を使用して、適用したい様々な口紅を表すことができ、この条件付けパラメータは、サブドメインを指定するものと考えることができる。この条件付けは、単純に口紅製品の個別のワンホット(one-hot)エンコーディングとして表現することができない。これは、この方法に拡張性がなく、物理的特性の共有された連続した空間に口紅が存在するという事実を利用しないためである。ここでは、簡単な見本画像をエンコーディングすることによって口紅(効果)の物理的特性の表現を作成し、そのエンコーディングを使用して画像変換モデル(例えば、GAN)を条件付け(condition)する方法が開示される。この方法は、前記問題を1)固有の口紅のないドメインと、2)連続する口紅のドメインとの間の変換としてフレーム化します。
課題とその背景にある動機付けを説明したので、本文献は以下を開示していることが理解できる。(i)物理的な口紅(効果)の特性によって定義される連続するドメイン空間に画像を変換するモデルの訓練。(ii)そのモデルは、見本画像などの口紅(効果)に関して必要な全ての情報を含む単純な入力から、これらの物理的特性の表現を自動的に学習する。
<モデル構造>
現在、本発明者らは、条件付きサイクル一貫性を有する生成画像変換のモデルを提供するために、いくつかの追加の修正を加えたCycleGANのアーキテクチャ[2]を選択する。本発明では、元の2ドメインのアーキテクチャを置き換えるために、条件付けだけでなく、対になった識別器/生成器を1組使用する。このようにして、多次元の連続するエンコーディング空間における3以上の変換の方向に拡張できる。訓練時に見られない任意の口紅を表現(レンダリング)するために、製品の簡単な見本画像をエンコーディングすることによって学習された連続する領域として口紅の空間を表す。上述したように、口紅は物理的効果の一例であり、他の効果が考えられる(例えば、他の顔、他の肌のメイクアップ、ヘアカラー、ネイルの効果など)
また、cGANに導入した出力射影法を用いており、これは、より安定した訓練とより少ないモード崩壊とを示した。
識別器および生成器の両方のモデルのアーキテクチャは、CycleGAN[2]から修正される。ResNetGeneratorと命名された生成器は、エンコーダ-ボトルネック-デコーダ型のアーキテクチャである。NLayerDiscriminatorと名付けられた識別器は、通常のエンコーダ型のアーキテクチャである。ネットワークの詳細を以下に列挙する。
条件付けの性能をより向上させるために、出力投射で識別器を条件付けし、条件付きバッチ正規化で生成器を条件付けする。スペクトル正規化を、識別器および生成器の両方における全ての重みに適用する。
図1は、モデル図を表すデータフロー100を示す。口紅無しの画像x102(例えば、メイクアップ無しのドメインからのメイクアップ無しの画像)と、口紅画像y104(例えば、メイクアップ有のドメインからのメイクアップ画像)が提供される。ここで、jは口紅のアイデンティティを示す(例えば、はメイクアップの対象サブドメイン内でj=1、2、3、・・・)。それぞれの口紅製品jについて、参考見本画像z106が提供される。
まず、エンコーダ108を通して参考画像z106を供給して、ejG=E(z)110A及びejD=E(z)110Bを含むe=E(z)110を生成することによって、口紅jの表現が生成される。エンコーディング110Aと生成器G112を使用することで、偽の口紅画像yjfake114=G(x;ejG)が生成される。画像yjfake114及びy104(即ち、偽および真の口紅画像)は、図1において118A及び118Bの符号が付されたd118={djreal,djfake}を生成するために、識別器D116に渡される。
最後に(図示されていないが)、yjfakeから口紅を除去するためにサイクル一貫性が適用される。これを行うために、生成器G112は、口紅の無い場合で条件付けされ、これはzとして示される空白の見本をエンコーディングすることで実行され、x´=G(yjfake;E(z))を生成する。
メイクアップスタイルのエンコーディングejG=E(z)110Aは、畳み込み条件付きのバッチ正規化処理を使用して生成器G104を条件付けする。即ち、エンコーダEの出力は、生成器ネットワークの異なる残差ブロック(residual blocks)におけるCBNの条件付けのために適合されている。これは、与えられたブロックの各CBNとエンコーダの間に小さな畳み込みネットワークを挿入することによって達成される(全てのブロックが必ずしもCBNによって条件付けされるわけではないが、アブレーションスタディ(ablation studies)では、1つのブロックのみが条件付けされることが最適ではないことを証明した)。生成器G112を訓練する時に、コードの条件付けを適応させるための最適な重みを取得するために、全てのCCBNが訓練される。
エンコーディングejD=E(z)110Bは、出力投影処理(output projection operation)を使用して識別器D116を条件付けする。エンコーダE108は、畳み込み層と適応アベレージプーリング層とからなる浅いエットワークであり、その出力は、1次元エンコーディング→eに再形成される。
生成器G112、識別器D116、及び、エンコーダE108のそれぞれのモデルアーキテクチャは、ネットワークの詳細に関連する以下の表にも記載される。基準エンコーダは、生成器G及び識別器Dの表にそれぞれ記載されている。
訓練中、下記の数式4に従って、生成器G112のパラメータは、2つの補完的な方向(complementary directions)での敵対的損失とサイクル一貫性損失を最小化することによって最適化される。
Figure 0007364676000004
ここで、pdata(x)とpdata(y)は、メイクアップ無しのドメインとメイクアップ有のドメインにおけるパラメトリックデータのそれぞれの分布である。
下記の数式5に従って、識別器D116のパラメータは、2つの補完的な方向における敵対的損失を最大化することによって最適化される。
Figure 0007364676000005
<推論時>
推論中、生成器G112と、その生成器G112に関連するエンコーダE108(またはそのエンコーディング)のみが使用されるが、訓練中とはわずかに異なる方法で使用される。この手順は、以下のように要約できる。
1.製品カタログの各口紅j及びその見本画像zについて、そのエンコーディングE(z)を取得し、後の使用のためにデータストア(例えば、データベース)に記憶する。与えられた口紅に対して複数の見本画像を得ることができる場合は、各画像のエンコーディングを平均することによって、より信頼性の高いエンコーディングを推論することができる。
2.与えられた口紅jを自撮り画像x上に生成するには、データベースからjのエンコーディングejG=E(z)を取得して生成器G(x;E(z))を実行する。
3.モデルが唇の部分に切り取られた自撮りで訓練されている場合は、生成器の出力を元の自撮り画像の正しい位置に合成し直す。
推測と訓練との主な違いは、口紅カタログ内の製品ごとにエンコーディングを事前に計算できることである。場合によっては、これらのエンコーディングをテストの自撮り上で手動調整し、実際の製品をより良く反映する表現を生成することもできる。これらのエンコーディングは、実際には存在しない口紅を表現するために、多くの方法で変更または組み合わせることができる。ユーザは(例えば、エンコーディングの値を選択するために)数字のスライダを動かすなどしてインターフェースにインプットを提供することにより、独自の口紅(例えば、適用される効果の所望のインスタンスとしてのカスタム効果)をデザインできる。次に、検索機能は、ユーザが作成したもの(例えば、カスタム効果)に密接に一致する実際の製品を見つけることができる(例えば、製品カタログ内のエンコーディングまでの最小のユークリッド距離(Euclidean distance)を使用して)。次に、この効果のエンコーディングを入力画像(例えば、静止画または動画)と共に生成器に提供して、ユーザが作成したものを仮想的に試すための修正された画像を生成できる。カスタム効果は実行時にエンコードされ、生成器に提供されても良い。従って、プロセッサと、そのプロセッサによって実行された時にコンピューティングデバイスの動作を構成する命令を記憶する記憶装置とを有するコンピューティングデバイスにおいて、記憶装置は、所望のインスタンスを定義するための所望のインスタンス選択機能をユーザに提供するインターフェースの命令を記憶することができる。次に、プロセッサはインターフェースを提供し、入力を受信し、その入力に応じて所望のインスタンスを定義することができる。
入力は、モデルに対して以前に訓練されていないカスタム効果を定義することができる。記憶装置は、所望の効果の定義に使用するための以前に計算されたエンコーディングを検索する検索機能の命令を記憶することができる。プロセッサは、入力および検索機能を使用して、計算されたエンコーディングからカスタム効果に最適なものを見つけて、所望の効果を定義することができる。記憶装置は、所望の効果のための新しいエンコーディングを定義するエンコード機能を提供するための命令を記憶することができる。プロセッサは、入力とエンコード機能を使用して、カスタム効果から目的の効果を定義する。
<再訓練時>
いつでも、単に新しい口紅の見本のエンコーディングをデータベース(データストア)に記憶することにより、その新しい口紅を製品カタログに追加できる。前節で述べたように、これは追加の訓練を必要としない。しかしながら、アプリケーションの長期的な保守のためには、モデルの訓練に元々使用されていたものとは大きく異なる物理的特性を有する新しい口紅が追加された場合に、モデルを定期的に再訓練することが好都合な場合がある。
例えば、モデルは元々、通常のフラットな色について訓練されていることがあるため、不均一な特性を有する光沢のある口紅には十分に一般化されないであろう。このケースでは、モデルは、光沢のある口紅の見本と、その光沢のある口紅が様々な人に適用された際の外観の結果とを使用して訓練される必要がある。しかし、実際には、多数の口紅が同じタイプの物理的特性を共有するので、これは一般的なことではないことに留意されたい。
訓練および推論のための処理は、以下の処理のリストに要約され、示されている。
(リスト)
Figure 0007364676000006
大まかに言えば、訓練動作のために、それぞれの生成器および識別器のパラメータが初期化される。訓練は周知のように、バッチを含むエポックで行われる。訓練インスタンスでは、バッチごとに、効果が適用されていない第1のドメインからの実画像、効果が適用された第2のドメインからの実画像、及び、適用された効果のエンコーディングを含む訓練データを用いて訓練が実行される。また、効果が適用されていないエンコーディング(空白の効果の画像)も使用される。モデルの構成要素(生成器および識別器)は訓練データを処理し、(1又は複数の)損失関数が決定される。生成器および識別器のそれぞれのパラメータは、次の訓練インスタンスの損失関数に応じて調整される。
追加の処理ステップには、メイクアップ製品のデータセット(効果データセット)を収集することを含む。製品、アイデンティティ、及び、環境に大きな相違を有するデータセットは、連続する空間を定義するために好ましい。理想的には、条件付きサイクルGANのための訓練画像は、様々な背景の下で様々な製品を着用する人々の画像の例である。例えば、追加の処理は、生成物毎に、10個の見本の参考画像を製品ごとに収集することができる。ここでは、メイクアップのエンコーディング空間をカバーし、同じ空間に属する新しい未知の製品を上手く一般化するために、様々な製品が最も重要な要素である。対照的に、メイクアップをしていない人の画像のバリエーション及び量も、比較的少なくすることができる。モデルは、エンコーダが共同で学習しているメイクアップ製品の物理的表現に基づいて条件付けすることにより、上記の処理の一覧のリストに沿って訓練される。効果をエンコーディングするベクトルは、推論時に見本をエンコーディングするのではなく、推論時にモデルに提供するために記憶装置(例えば、データベース)を含むデータストアに記憶されても良い。このデータストアは、効果のカタログを定義しても良い。
追加の処理は、再訓練の有無にかかわらず、カタログ(データストア)に新しい口紅を追加することができる。サポートされているカタログに新製品を追加するたびにモデルを再訓練しないようにしたいので、モデルが新製品を一般化できる機能は、従来の技術との重要な違いである。いずれにせよ、追加される新製品(特定の効果など)が、モデルが既に訓練している製品と同じ特徴空間に属している場合、カタログへの新製品の追加は非常に簡単である。他の場合(例えば、新製品が異常値であり、モデルが既に訓練している特徴空間の範囲外である場合)、又は必要に応じて、特定の効果を使用してモデルを再訓練することができます。例えば、追加される製品がカタログ内の既存の全ての製品と著しく異なっている場合(例えば、カタログに単一のトーンしか含まれていない場合の光沢のある口紅)、又は多数の新製品がカタログに追加される場合は、モデルは、それらの新製品で微調整され、組み合わされた新しいデータセット全体で再訓練され得る。
提示された画像変換方法のイノベーションは、生成器および識別器が簡単な見本画像から抽出される口紅の物理的特性を生成器および識別器が学習、使用することにより、それら生成器および識別器のタスクを実行することである。その結果、訓練時に見たことのない新しい製品の見本がモデルに提示された場合、そのタスクは変更されず、適切に一般化できるはずである。新製品は製品の物理的特性を抽出することができ、それらの特性が最終的な外観にどのように影響するかを知っているので、新製品が顔に塗られた時にどう見えるかの例を見る必要はない。
この一般化を実現するために、モデルは、人間に適用された場合の口紅の効果および口紅の性質の両方を学習することができるように、訓練中に口紅の種類に十分な変化が見されるように訓練される。例えば、金属光沢のある口紅の例がモデルに示されていなかった場合、金属光沢のある材料を構成する固有の特性を表すことを学習せず、また、生成時にこれらの特性を使用する方法を知りません。一方、金属光沢のある数種類の口紅が示されており、訓練後に新しい色の1つが提示された場合、訓練中に同様の色が示されていれば、その特性をエンコードして正しく生成できる。同様の色の金属光沢のあるタイプの口紅を見る必要はなく、同様の色を有する任意のタイプのリップスティックを見ることで十分であることに留意されたい。
要約すると、訓練に必要な口紅の種類の数は、生成したい口紅の特徴空間の大きさの関数であることがわかる。この値は定量化するのが困難であるが、同じ口紅を使用する環境でのバリエーションよりも、口紅の種類のバリエーションを優先することが最適なデータの収集方法であることを示唆している(即ち、各々が多数の例を有する少数の口紅よりも、各々が少数の例を有する多数の口紅)。
<実験と結果>
全ての実験について、口紅を含む画像と口紅を含まない画像のデータセットを使用する。実験およびそれらの解析を簡単にするために、本発明者らは他の種類のメイクアップを考慮しないが、記載された方法は他の種類のメイクアップにも適用され得る。
<評価指標>
整合性のとれたグラウンドトゥルース画像がないため、学習された画像変換モデルの評価はしばしば困難であり、タスクの性質に応じて変化する。メイクアップを適用したケースでは、唇の領域が実際に口紅を塗った場合と同じくらい現実的であることが理想的ですが、一方、顔の他の領域での変化は感知できないべきである。
最初に、生成された画像と入力画像との間の差を正規化したデルタ画像(delta image)の質を視覚的に検査する。これは、グランドトゥルース画像なしで実行できる。
合成データセットで訓練を評価する場合、整合性のとれたグラウンドトゥルースを得ることはできるが、実際のメイクアップのデータセットで整合性のとれたグラウンドトゥルースを得ることは通常非常に困難である。生成モデルの性能を評価する普遍的な方法は、例ごと(example-wise)又は点ごと(point-wise)の比較の代わりに、アラインメントに関係なく、全てのグラウンドトゥルース画像と生成された画像との間の分布の差を比較することである。
評価中のノイズを低減するために、生成された画像とグラウンドトゥルース画像とで唇の領域のみを比較する。生成モデルを評価する一般的な方法には、フレッチェット・インセプション距離(Frechet Inception Distance)(FID)[15]及びインセプションスコア(Inception Score)(IS)[16]が含まれる。
<ダウンサンプリング、拡張、層数>
多段階のダウンサンプリングは、文献においてオブジェクトの分類タスクに対してCNNsを計算的に実用的にした。しかしながら、詳細な空間情報が必要とされるタスク(例えば、画像の変換や再構成)の場合、この空間の解像度の低下は、モデルの性能に大きな影響を及ぼす可能性がある。逆に、畳み込みの拡張係数を増大させたり、生成器内の多数の残差ブロックを使用したりすることは、空間の解像度を維持することができ、詳細な口紅の分布を正確にモデリングするために使用できる。図2は、これらの3つのハイパーパラメータを変化させることの影響に関するアブレーションスタディを示す。4.1節で述べた評価指標に基づく対応する評価結果を表1に示す。
Figure 0007364676000007
本発明者らは、「9層、1ダウンサンプル、32の拡張(dilation)」のモデルが最良の性能を発揮することを見出した。しかし、携帯デバイスでのメイクアップのプレビューのようなリアルタイムのアプリケーションでは、その計算とメモリー使用量は実用的な限界を超えている。この場合、残差ブロックの数を2層に減らすことは、性能と計算の間で妥協できる実用的な方法である。
<合成口紅のデータセットでの連続したエンコーディング>
概念の実証のために、まず、手作業で設計された5次元(R、G、B、湿り度、艶の詳細)のエンコーディング空間で訓練を試みた。図1とは対照的に、この場合には基準エンコーダは不要である。特定の口紅に対するエンコーディング→eは、その口紅の(R、G、B、湿り度、艶の詳細)の属性ベクトルに等しく、一方、口紅無しの領域に対するリバースエンコーディング←eは(-1,-1,-1,-1,-1)の定数ベクトルである。
図3及び図4は、訓練中に必ずしも現れないいくつかの等間隔のサンプル点上で、それぞれRGB次元(色相=0~360°)及び湿り度の次元(湿り度=0~1)で多次元のエンコーディング空間を補間することによって、テストセットにおける非共有アイデンティティの画像を生成したものです。合成口紅のデータセットをエンコーディングする参考画像
図2は、合成RGBの見本データセットで訓練されたモデルから生成された画像を示す。このデータセットにおける訓練セットは、以下の処理に従って生成される。
1)一様分布U(R、G、B)から(R、G、B)の点jをサンプリングする。
2)この色とメイクアップ無しの写真xを仮想のメイクアップを試着する従来のプログラムに渡し、この色の口紅jで合成画像yを生成する。
3)jに似た色、且つ形状の異なる5つの合成の見本画像を生成する。
4)全てのメイクアップ無しの写真についてステップ1~3を繰り返す。
テストセットには、訓練セット内の全てのアイデンティティが含まれるが、顔の位置または向きが異なる。また、訓練セットに現れない追加のアイデンティティ(図2、3、4、及び、5に示される)も含まれる。参考見本画像は、訓練セットに必ずしも現れない12個の等間隔の色相補間カラーポイントの一定配列に基づいて生成される。テスト中、モデルは、テストセット内の各画像について、これらの12個の口紅の各々をテスト画像の上に塗る。
<計算環境の例>
上記の方法は、クライアント・サーバモデルのようなシステム又はコンピューティングデバイスに実装することができる。ニューラルネットワークモデルは、アプリケーション(例えば、コンピューティングデバイス上)、又は、ウェブブラウザ(例えば、クライアントデバイスと通信するサーバコンピューティングデバイス(例えば、タブレット、スマートフォン、ラップトップ、デスクトップ、キオスク又は他のフォームファクタのようなユーザデバイス上))を介して提供され、ユーザが自撮り(画像を有する静止画または動画)を撮影し、拡張現実のインターフェースで仮想的にメイクアップを試すことを可能にする。ニューラルネットワークモデルは、クラウドからのサービスとして提供されても良い(例えば、メイクアップ無し画像およびメイクアップの選択を受信し、メイクアップ無しの画像に適用されたメイクアップを示す「修正された」または変換された画像を返す)。
ユーザには、適用するメイクアップを選択または設定するためのインターフェース(例えば、グラフィカル・ユーザ・インターフェース(GUI))が提供され、自撮り画像または自撮り映像を撮影し、それにメイクアップ効果が適用された状態を見ることができる。自撮り映像は、リアルタイム又はほぼリアルタイムで効果を適用するように変換されても良い(例えば、変換された映像に現れる3Dのメイクアップ効果を提供する)。
それぞれ異なるメイクアップが適用された2つ以上の生成された画像は、GUIにおける比較のために(例えば、並べて)提示または記憶されても良い。
インターフェースは、(例えば、コンピューティングデバイスのタッチスクリーン上の)ジェスチャ、ポインタ入力、音声入力、文字入力などに応じて起動/呼び出されても良く、コンピューティングデバイスは、それに応じた入出力デバイス及び機能を備えて構成される。
命令(ソフトウエア)は、提供され、その命令がコンピューティングデバイスの処理部によって実行されるときなど、コンピューティングデバイスの動作を構成する(例えば、コンピューティングデバイスの記憶部に記憶する)ために提供されても良い。
一態様では、コンピューティングデバイスは、画像に適用される効果に従って、画像を第1のドメイン空間から第2の連続するドメイン空間に変換する。本コンピューティングデバイスは、画像を第2の連続するドメイン空間に変換するように構成された、条件付きサイクル一貫性を有する敵対的生成ネットワーク(ccGAN)モデルを記憶する記憶部と、処理部と、を備え、ccGANモデルは、適用される効果の物理的特性を連続的に表す複数のエンコーディングを使用した訓練によって条件付けされ、複数のエンコーディングは、適用される効果の各々の個別のインスタンスからエンコードされ、その個別のインスタンスは、適用される効果がないことを表すインスタンスを含み、処理部は、適用される効果の所望のインスタンス及び画像を受信し、変換された画像を得るために所望のインスタンス及び画像をモデルに提供し、提示用に変換された画像を提供する。
適用される効果は、メイクアップの効果、例えば、図示または説明されるような仮想の口紅であっても良い。
適用される効果は、ヘアカラーの効果であっても良い。即ち、メイクアップのスタイルの転写に関する提案された方法は、ヘアカラーの転写/ヘアカラーの着色に拡張することができる。ヘアカラーは、同様の方法を使用して、毛髪画像の画素(ピクセル)を修正する目的で同様に適用することができ、生成器G及び識別器Dは、エンコーダEを介した訓練用のヘアカラー画像を使用して条件付けされる。その訓練用の画像は、効果の個別のインスタンス(即ち、ヘアカラー)を表すが、訓練用の画像は、仮想の口紅の例と同様に、適用される効果のための連続する(サブ)ドメインでの推論で画像変換を可能にするのに十分なデータを提供するようにエンコードされる。訓練は、様々なヘアカラーを有する人物の画像Xの集まりを用いて同様の方法で実行され、着色のアプリケーションの対象となるヘアカラーの空間jをカバーする。被写体(例:人間)の訓練画像Xは、現実的な照明条件下で行われるべきである。訓練画像はまた、アイデンティティを保存する訓練のために十分な数の異なるアイデンティティ(すなわち、異なる人物)を含む。
エンコーダEを介して適用される訓練用の毛髪の見本(例えば、画像z)を定義するために、第1の画像セットから訓練対象の毛髪に関する別の画像セットが収集される。この第2の画像セットは、例えば、色のインスタンスjのための毛髪の見本が、変化するランダムな照明条件のような厄介な要因で汚染されないように、制御された照明条件下で取得される。サンプルの毛髪画像のパッチは、これらの制御された画像から抽出され、特定のヘアカラーの見本をエンコードするために使用される。訓練中のヘアカラーの全体が色の空間を定義する。メイクアップ製品のエンコーディングと同様に、ヘアカラーの空間をまばらにサンプリングすれば良いが、ユーザにより広い選択肢を与え、要求された色の効果が訓練の事例にマッチしない場合など、連続するドメイン内で補間するためのより正確な結果を与えるために、好ましくは十分な範囲でサンプリングすることが望ましい。推論では、メイクアップの効果と同様に、訓練の過程で見られない毛髪の見本はテストの被写体(test subject)(画像)のヘアカラーを変えるためにエンコードされ、使用される。毛髪無しの効果zは、本明細書に記載されるメイクアップの効果と同様に定義されても良い。
コンピューティングデバイス及び方法の態様に加えて、本明細書に記載された方法の態様のいずれかを実行するようにコンピューティングデバイスを構成するための命令が非一時的な記憶装置(例えば、メモリー、CD-ROM、DVD-ROM、ディスクなど)に格納される、コンピュータプログラム製品の態様が開示されていることを当業者は理解するのであろう。
実際の実施は、本明細書に記載された特徴のいずれか又は全てを含むことができる。これら及び他の態様、特徴、ならびに様々な組み合わせは、方法、装置、システム、機能を実行するための手段、プログラムプロダクト、及び、他の方法で、本明細書で説明される特徴を組み合わせて表され得る。多数の実施形態が記載されているが、本明細書で説明されるプロセスおよび技術的思想及び範囲から逸脱することなく、様々な修正を行うことができることが理解されるだろう。加えて、他のステップが提供されても良く、または記載された方法からステップが排除されても良く、他のコンポーネントが記載されたシステムに対し、追加または除去されても良い。従って、他の態様は特許請求の範囲内にある。
本明細書の記載および特許請求の範囲を通して、単語「含む」および「備える」およびそれらの変形表現は「含むがこれに限定されない」を意味し、他の構成要素、整数またはステップを排除することを意図しない(排除しない)。本明細書全体を通して、文脈が別途必要としない限り、単数は複数を包含する。つまり、本明細書がその状況が他のことを要求していない限り、単数だけでなく複数も意図していると理解されたい。
本発明の特定の態様、実施形態または例に関連して記載される特徴、整数特性、化合物、化学部分または基は、それらと非互換でない限り、任意の他の態様、実施形態または例に適用可能であると理解されるべきである。本明細書に開示された特徴(添付の特許請求の範囲、要約書、及び、図面を含む)の全て、或いはそのように開示された任意の方法または処理のステップの全ては、そのような特徴或いはステップの少なくともいくつかが相互に排他的である組み合わせを除いて、任意の組合せで組み合わせることができる。本発明は、前述の例または実施形態の詳細に限定されない。本発明は、本明細書(添付の特許請求の範囲、要約書、及び、図面を含む)に開示された特徴の任意の新規なもの、または任意の新規な組み合わせ、または開示された任意の手法または処理のステップの任意の新規なもの、又は任意の新規な組み合わせに拡張される。
重要なことに、ニューラルネットワークモデルは、コンピューティングデバイスを一般的なコンピューティングデバイスから、以前には見られなかった特殊なデバイスに変換する。ニューラルネットワークモデルに従って提供される装置、方法、及び、他の態様は、特定の物品を別の状態または物に変換または縮小する(1つのドメイン空間から、効果が追加される第2の連続するドメイン空間に画像を変換する)効果をもたらす。ニューラルネットワークモデルに従って提供されるデバイス、方法、及び、他の態様は、具体的な特徴および/または機能および/または処理を含み、これらのいずれか(又は両方)は、1)当分野で良く理解されている日常的な従来の活動以外のものであるか、又は2)その態様を特定の有益な用途に限定する非従来的なステップを追加する。
<ネットワークの詳細>
Figure 0007364676000008
Figure 0007364676000009
<参考文献>
[1] P. Isola, J.-Y. Zhu, T. Zhou, and A. A. Efros,“Image-to-image translation with conditional adversarial networks,” in Conference on Computer Vision and Pattern Recognition , 2017.
[2] J.-Y. Zhu, T. Park, P. Isola, and A. A. Efros,“Unpaired image-to-image translation using cycle-consistent adversarial networks,” in Computer Vision (ICCV), 2017 IEEE International Conference on, 2017.
[3] H. Chang, J. Lu, F. Yu, and A. Finkelstein,“PairedCycleGAN: Asymmetric style transfer for applying and removing makeup,” in CVPR 2018, June 2018.
[4] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y.
Bengio,“Generative adversarial nets,” in Advances in Neural Information Processing Systems 27 (Z. Ghahramani, M. Welling, C. Cortes, N. D. Lawrence, and K. Q. Weinberger, eds.), pp. 2672-2680, Curran Associates, Inc., 2014.
[5] A. van den Oord, N. Kalchbrenner, and K. Kavukcuoglu,“Pixel recurrent neural networks,” CoRR, vol. abs/1601.06759, 2016.
[6] D. P. Kingma and M. Welling,“Auto-Encoding Variational Bayes,” ArXiv e-prints, Dec. 2013.
[7] D. P. Kingma and P. Dhariwal,“Glow: Generative Flow with Invertible lxl Convolutions,” ArXiv e- prints, July 2018.
[8] T. Miyato and M. Koyama,“cGANs with projection discriminator,” in International Conference on Learning Representations, 2018.
[9] M. Mirza and S. Osindero,“Conditional generative adversarial nets,” arXiv preprint arXiv: 1411.1784, 2014.
[10] S. Reed, Z. Akata, X. Yan, L. Logeswaran, B. Schiele, and H. Lee,“Generative adversarial text-to-image synthesis,” in Proceedings of The 33rd International Conference on Machine Learning, 2016.
[11] Y. Choi, M. Choi, M. Kim, J.-W. Ha, S. Kim, and J. Choo,“Stargan: Unified generative adversarial networks for multi-domain image-to-image translation,” arXiv preprint arXiv: 1711.09020, 2017.
[12] E. Perez, H. de Vries, F. Strub, V. Dumoulin, and A. C. Courville,“Learning visual reasoning without strong priors,” CoRR, vol. abs/ 1707.03017, 2017.
[13] E. Perez, H. De Vries, F. Strub, V. Dumoulin, and A. Courville,“Learning Visual Reasoning Without Strong Priors,” in ICML 2017’s Machine Learning in Speech and Language Processing Workshop, (Sidney, France), Aug. 2017.
[14] T. Miyato, T. Kataoka, M. Koyama, and Y. Yoshida,“Spectral normalization for generative adversarial networks,” in International Conference on Learning Representations, 2018.
[15] M. Heusel, H. Ramsauer, T. Unterthiner, B. Nessler, G. Klambauer, and S. Hochreiter,“Gans trained by a two time-scale update rule converge to a nash equilibrium,” CoRR, vol. abs/1706.08500, 2017.
[16] T. Salimans, I. J. Goodfellow, W. Zaremba, V. Cheung, A. Radford, and X. Chen,“Improved techniques for training gans,” CoRR, vol. abs/1606.03498, 2016.

Claims (52)

  1. 画像に適用される効果に応じて、第1のドメイン空間から第2の連続するドメイン空間に前記画像を変換するコンピューティングデバイスであって、記憶部と処理部とを備え、
    前記記憶部は、前記画像を前記第2の連続するドメイン空間に変換するように構成された、条件付きサイクル一貫性を有する生成画像変換のモデルを記憶し、
    前記モデルは、適用される前記効果の物理的特性を連続的に表す複数のエンコーディングを生成するエンコーダ(E)と、そのエンコーダ(E)で生成された前記複数のエンコーディングを使用した訓練によって条件付けされる生成器(G)と、を備え、
    前記エンコーダ(E)は、適用される前記効果の種類に対応する複数の見本画像から前記複数のエンコーディングをエンコードし、
    前記複数の見本画像には、適用される前記効果がないことを表す空白の画像が含まれ、
    前記処理部は、前記画像と適用される所望の効果とを前記モデルに提供し、提示用の変換された画像を提供することを特徴とするコンピューティングデバイス。
  2. 適用される前記効果が拡張現実の効果を含む、請求項1記載のコンピューティングデバイス。
  3. 適用される前記効果が、メイクアップ効果、ネイル効果、及び、ヘアカラー効果のうちの1つを含む、請求項1又は2に記載のコンピューティングデバイス。
  4. 前記モデルが、条件付きサイクル一貫性を有する敵対的生成ネットワーク(ccGAN)のモデルである、請求項1から3のいずれかに記載のコンピューティングデバイス。
  5. 前記第1のドメイン空間は、適用される前記効果を含まない複数の前記画像によって定義される、請求項1から4のいずれかに記載のコンピューティングデバイス。
  6. 前記モデルは、推論時に前記生成器(G)を備え、
    訓練時に、前記生成器(G)は、前記複数のエンコーディングを使用して識別器(D)と共に訓練される、請求項1から5のいずれかに記載のコンピューティングデバイス。
  7. 前記生成器(G)は、前記複数のエンコーディングの各エンコーディングに対し、畳み込み条件付きバッチ正規化処理を使用して条件付けされる、請求項6記載のコンピューティングデバイス。
  8. 前記識別器(D)は、前記複数のエンコーディングの各エンコーディングに対し、出力投影処理を使用して条件付けされる、請求項6又は7に記載のコンピューティングデバイス。
  9. 前記コンピューティングデバイスは、前記複数のエンコーディングを記憶する記憶装置を備えるデータストアに接続され、
    前記処理部は、前記複数のエンコーディングのうち、前記所望の効果に対応する1つを前記モデルに提供する、請求項6から8のいずれかに記載のコンピューティングデバイス。
  10. 前記データストアは、適用される前記効果の種類を尊重するための、前記モデルに訓練されていない1又は複数の非訓練インスタンスエンコーディングを記憶し、
    前記処理部は、前記1又は複数の非訓練インスタンスエンコーディングのうち、前記所望の効果に対応する1つを前記モデルに提供するように構成される、請求項9記載のコンピューティングデバイス。
  11. 前記生成器(G)のパラメータθは、下記の数式6に従って、2つの補完的方向における敵対的損失およびサイクル一貫性損失を最小化することによって最適化される、請求項6から10のいずれかに記載のコンピューティングデバイス。
    Figure 0007364676000010
  12. 前記識別器(D)のパラメータθは、下記の数式7に従って、2つの補完的方向における敵対的損失を最大化することによって最適化される、請求項6から11のいずれかに記載のコンピューティングデバイス。
    Figure 0007364676000011
  13. 前記画像は、自撮り画像または自撮り映像であり、前記自撮り映像の場合、前記処理部は、前記自撮り映像の画像を変換して前記効果を適用し、3Dの効果を作成する、請求項1から12のいずれかに記載のコンピューティングデバイス。
  14. 前記変換された画像は、前記画像の部位を構成し、
    前記処理部は、前記変換された画像を、提示用の画像に合成する、請求項1から13のいずれかに記載のコンピューティングデバイス。
  15. 前記画像をキャプチャするために、前記コンピューティングデバイスが、カメラを備える、又は、カメラに接続される、請求項1から14のいずれかに記載のコンピューティングデバイス。
  16. 前記コンピューティングデバイスは、サーバを備え、
    前記処理部は、前記サーバと通信するクライアントデバイスから前記画像および前記所望の効果を受信する、請求項1から14のいずれかに記載のコンピューティングデバイス。
  17. 前記記憶装置は、前記所望の効果を選択するための選択機能をユーザに提供するためのインターフェースに関する命令を格納し、
    前記処理部は、前記インターフェースを提供し、前記選択機能を介して入力を受信し、その入力に応じて前記所望の効果を定義するように構成される、請求項9記載のコンピューティングデバイス。
  18. 前記入力は、前記モデルに対して事前に訓練されていないカスタム効果を含む、請求項17記載のコンピューティングデバイス。
  19. 前記記憶装置は、前記所望の効果を定義するために使用する以前に計算されたエンコーディングを検索する検索機能に関する命令を記憶し、
    前記処理部は、前記入力および前記検索機能を使用して、前記計算されたエンコーディングから前記カスタム効果に最適なものを探して前記所望の効果を定義するように構成される、請求項18記載のコンピューティングデバイス。
  20. 前記記憶装置は、前記所望の効果に関する新しいエンコーディングを定義するエンコード機能を提供するための命令を記憶し、
    前記処理部は、前記入力および前記エンコード機能を使用して、前記カスタム効果のための前記所望の効果を定義するように構成される、請求項18記載のコンピューティングデバイス。
  21. 条件付きサイクル一貫性を有する生成画像変換のモデルを生成するように構成されたコンピューティングデバイスであって、
    前記モデルは、画像に適用される効果に従って前記画像を第1のドメイン空間から第2の連続するドメイン空間に変換するように構成され、
    前記コンピューティングデバイスは、記憶装置と処理部とを備え、
    前記記憶装置は、前記モデルを記憶し、
    前記モデルは、適用される前記効果の物理的特性を連続的に表す複数のエンコーディングを生成するエンコーダ(E)と、そのエンコーダ(E)で生成された前記複数のエンコーディングを使用した訓練によって条件付けされる生成器(G)及び識別器(D)と、を備え、
    前記エンコーダ(E)は、適用される前記効果の種類に対応する複数の見本画像から前記複数のエンコーディングをエンコードし、
    前記複数の見本画像には、適用される前記効果がないことを表す空白の画像が含まれ、
    前記処理部は、訓練データをバッチで提供して訓練された前記モデルを定義することを特徴とするコンピューティングデバイス。
  22. 前記モデルは、条件付きサイクル一貫性を有する敵対的生成ネットワーク(ccGAN)モデルである、請求項21記載のコンピューティングデバイス。
  23. 前記訓練データを受信するために、前記処理部は、
    各々に効果が適用されていない複数の実画像xを、効果が適用されていないドメイン空間を構成する前記第1のドメイン空間Xから受信し、
    効果が適用されたドメイン空間を構成する前記第2の連続するドメイン空間Yから複数の実画像yを受信し、各yは適用される前記効果のインスタンスjを有し、j=1、2、3、・・・は前記効果の種類を表し、
    前記効果の種類に対応する複数の見本画像zを受信し、
    適用される前記効果がないことに対応する空白の画像zを受信し、
    処理部は、前記生成器(G)及び前記識別器(D)のパラメータθ及びθを開始し、
    前記訓練データをバッチで提供するために、前記処理部は、
    バッチで、前記訓練データから決定された訓練エポックを繰り返すように構成され、
    前記エンコーダ(E)を使用して前記生成器(G)及び前記識別器(D)のためのエンコーディングE(z)をエンコードし、
    前記エンコーダ(E)を使用して前記生成器(G)のためのエンコーディングE(z)をエンコードし、
    前記画像x及び前記エンコーディングE(z)を前記生成器(G)に提供して、前記第2の連続するドメイン空間Yで偽画像yjfakeを生成し、
    前記偽画像yjfake及びそれに対応する実画像yを前記エンコーディングE(z)と共に前記識別器(D)に提供して出力dを生成し、
    前記偽画像yjfake及び前記エンコーディングE(z)を前記生成器(G)に提供してx´を出力し、
    下記の数式8に従って、敵対的損失およびサイクル一貫性損失を最小化することによって前記生成器(G)のパラメータθを最適化し、敵対的損失を最大化することによって前記識別器(D)のパラメータθを最適化する、請求項21又は22に記載のコンピューティングデバイス。
    Figure 0007364676000012
  24. 適用される前記効果は、拡張現実の効果、好ましくはメイクアップ効果、ネイル効果、及び、ヘアカラー効果のうちの1つを含む、請求項21から23のいずれかに記載のコンピューティングデバイス。
  25. 前記生成器(G)は、前記複数のエンコーディングの各エンコーディングに対し、畳み込み条件付きバッチ正規化処理を使用して条件付けされる、請求項21から24のいずれかに記載のコンピューティングデバイス。
  26. 前記識別器(D)は、前記複数のエンコーディングの各エンコーディングに対し、出力投影処理を使用して条件付けされる、請求項21から25のいずれかに記載のコンピューティングデバイス。
  27. 画像に適用される効果に応じて、前記画像を第1のドメイン空間から第2の連続するドメイン空間に変換するコンピュータ実装方法であって、
    前記方法は、
    適用される所望の効果及び前記画像を受信し、
    変換された画像を得るために前記画像および前記所望の効果をモデルに提供し、提示用の前記変換された画像を提供し、
    前記モデルは、前記画像を前記第2の連続するドメイン空間に変換するように構成された、条件付きサイクル一貫性を有する生成画像変換のモデルであり、
    前記モデルは、適用される前記効果の物理的特性を連続的に表す複数のエンコーディングを生成するエンコーダ(E)と、そのエンコーダ(E)で生成された前記複数のエンコーディングを使用した訓練によって条件付けされる生成器(G)と、を備え、
    前記エンコーダ(E)は、適用される前記効果の種類に対応する複数の見本画像から前記複数のエンコーディングをエンコードし、
    前記複数の見本画像には、適用される前記効果がないことを表す空白の画像が含まれることを特徴とする方法。
  28. 前記モデルは、条件付きサイクル一貫性を有する敵対的生成ネットワーク(ccGAN)のモデルから定義される、請求項27記載の方法。
  29. 適用される前記効果が、メイクアップ効果、ネイル効果、及び、ヘアカラー効果のうちの1つを含む、請求項27又は28に記載の方法。
  30. 前記第1のドメイン空間は、適用される前記効果を含まない複数の前記画像によって定義される、請求項27から29のいずれかに記載の方法。
  31. 前記モデルは、前記複数のエンコーディングを用いて訓練された識別器(D)を備える、請求項27から30のいずれかに記載の方法。
  32. 前記生成器(G)は、前記複数のエンコーディングの各エンコーディングに対し、畳み込み条件付きバッチ正規化処理を使用して条件付けされる、請求項31記載の方法。
  33. 前記識別器(D)は、前記複数のエンコーディングの各エンコーディングに対し、出力投影処理を使用して条件付けされる、請求項31又は32に記載の方法。
  34. 前記複数のエンコーディングを記憶する記憶装置を有するデータストアから、前記複数のエンコーディングのうち、前記所望の効果に対応する1つを検索して前記モデルに提供する、請求項31から33のいずれかに記載の方法。
  35. 前記データストアは、適用される前記効果の種類を尊重するための、前記モデルに訓練されていない1又は複数の非訓練インスタンスエンコーディングを記憶し、
    前記方法は、前記1又は複数の非訓練インスタンスエンコーディングのうち、前記所望の効果に対応する1つをデータベースから検索して前記モデルに提供する、請求項34記載の方法。
  36. 前記生成器(G)のパラメータθは、下記の数式9に従って、2つの補完的方向における敵対的損失およびサイクル一貫性損失を最小化することによって最適化される、請求項31から33のいずれかに記載の方法。
    Figure 0007364676000013
  37. 前記識別器(D)のパラメータθは、下記の数式10に従って、2つの補完的方向における敵対的損失を最大化することによって最適化される、請求項31から36のいずれかに記載の方法。
    Figure 0007364676000014
  38. 前記画像を受信するために接続されたカメラを使用して前記画像をキャプチャする、請求項27から37のいずれかに記載の方法。
  39. 前記画像は、自撮り画像および自撮り映像のうちの1つから構成され、前記自撮り映像の場合、前記方法は、前記自撮り映像の画像を変換して効果を適用し、3Dの効果、特に3Dのメイクアップ効果を作成する、請求項27から38のいずれかに記載の方法。
  40. 前記モデルに提供する前に前記画像を前処理する、請求項27から39のいずれかに記載の方法。
  41. 前記変換された画像は、前記画像の部位を構成し、
    前記方法は、前記変換された画像を提示用の画像に合成する、請求項27から40のいずれかに記載の方法。
  42. 前記所望の効果を選択するための選択機能を含むインターフェースを提供し、前記選択機能を介して入力を受信し、その入力に応じて前記所望の効果を定義する、請求項27から41のいずれかに記載の方法。
  43. 前記入力は、前記モデルに対して事前に訓練されていないカスタム効果を含む、請求項42記載の方法。
  44. 前記所望の効果を定義するために使用する以前に計算されたエンコーディングを前記入力を使用して検索し、前記計算されたエンコーディングから前記カスタム効果に最適なものを探して前記所望の効果を定義する、請求項43記載の方法。
  45. 前記所望の効果に関する新しいエンコーディングを前記入力に応じて定義するエンコード機能を使用して、前記カスタム効果のための前記所望の効果を定義する、請求項43記載の方法。
  46. 条件付きサイクル一貫性を有する生成画像変換のモデルを生成するためのコンピュータ実装方法であって、
    前記モデルは、画像に適用される効果に応じて、前記画像を第1のドメイン空間から第2の連続するドメイン空間に変換するように構成され、
    前記方法は、処理部を介して訓練データを受信し、前記訓練データをバッチで前記モデルに提供して訓練された前記モデルを定義し、
    前記モデルは、前記処理部に結合された記憶装置に記憶され、
    前記モデルは、適用される前記効果の物理的特性を連続的に表す複数のエンコーディングを生成するエンコーダ(E)と、そのエンコーダ(E)で生成された前記複数のエンコーディングを使用した訓練によって条件付けされる生成器(G)及び識別機(D)と、を備え、
    前記エンコーダ(E)は、適用される前記効果の種類に対応する複数の見本画像から前記複数のエンコーディングをエンコードし、
    前記複数の見本画像には、適用される前記効果がないことを表す空白の画像が含まれることを特徴とする方法。
  47. 前記モデルは、条件付きサイクル一貫性を有する敵対的生成ネットワーク(ccGAN)のモデルである、請求項46記載の方法。
  48. 前記訓練データを受信するために、前記方法は、
    各々に効果が適用されていない複数の実画像xを、効果が適用されていないドメイン空間を構成する前記第1のドメイン空間Xから受信し、
    効果が適用されたドメイン空間を構成する前記第2の連続するドメイン空間Yから複数の実画像yを受信し、各yは適用される前記効果のインスタンスjを有し、j=1、2、3、・・・は前記効果の種類を表し、
    前記効果の種類に対応する複数の見本画像zを受信し、
    適用される前記効果がないことに対応する空白の画像zを受信し、
    前記方法は、前記処理部により、前記生成器(G)及び前記識別器(D)のパラメータθ及びθを開始し、
    前記訓練データをバッチで提供するために、前記方法は、
    バッチで、前記訓練データから決定された訓練エポックを繰り返すように構成され、
    前記エンコーダ(E)を使用して前記生成器(G)及び前記識別器(D)のためのエンコーディングE(z)をエンコードし、
    前記エンコーダ(E)を使用して前記生成器(G)のためのエンコーディングE(z)をエンコードし、
    前記画像x及び前記エンコーディングE(z)を前記生成器(G)に提供して、前記第2の連続するドメイン空間Yで偽画像yjfakeを生成し、
    前記偽画像yjfake及びそれに対応する実画像yを前記エンコーディングE(z)と共に前記識別器(D)に提供して出力dを生成し、
    前記偽画像yjfake及び前記エンコーディングE(z)を前記生成器(G)に提供してx´を出力し、
    下記の数式11に従って、敵対的損失およびサイクル一貫性損失を最小化することによって前記生成器(G)のパラメータθを最適化し、敵対的損失を最大化することによって前記識別器(D)のパラメータθを最適化する、請求項46又は47に記載の方法。
    Figure 0007364676000015
  49. 適用される前記効果は、拡張現実の効果、好ましくは、メイクアップ効果、ネイル効果、及び、ヘアカラー効果のうちの1つを含む、請求項46から48のいずれかに記載の方法。
  50. 前記生成器(G)は、前記複数のエンコーディングの各エンコーディングに対し、畳み込み条件付きバッチ正規化処理を使用して条件付けされる、請求項46から49のいずれかに記載の方法。
  51. 前記識別器(D)は、前記複数のエンコーディングの各エンコーディングに対し、出力投影処理を使用して条件付けされる、請求項46から50のいずれかに記載の方法。
  52. コンピューティングデバイスの処理部によって実行されると、請求項27から51のいずれかに記載の方法を前記コンピューティングデバイスに実行させるプログラムを記憶する記録媒体。
JP2021526757A 2018-11-15 2019-11-14 条件付きサイクル一貫性を有する生成画像変換のモデルを使用した拡張現実のためのシステムおよび方法 Active JP7364676B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862767769P 2018-11-15 2018-11-15
US62/767,769 2018-11-15
PCT/CA2019/051624 WO2020097731A1 (en) 2018-11-15 2019-11-14 System and method for augmented reality using conditional cycle-consistent generative image-to-image translation models

Publications (2)

Publication Number Publication Date
JP2022519003A JP2022519003A (ja) 2022-03-18
JP7364676B2 true JP7364676B2 (ja) 2023-10-18

Family

ID=70726432

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021526757A Active JP7364676B2 (ja) 2018-11-15 2019-11-14 条件付きサイクル一貫性を有する生成画像変換のモデルを使用した拡張現実のためのシステムおよび方法

Country Status (5)

Country Link
US (1) US11645497B2 (ja)
EP (1) EP3881277A4 (ja)
JP (1) JP7364676B2 (ja)
CN (1) CN113728353A (ja)
WO (1) WO2020097731A1 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11048980B2 (en) * 2019-04-30 2021-06-29 Agora Lab, Inc. Optimizing supervised generative adversarial networks via latent space regularizations
US11664820B2 (en) * 2019-09-25 2023-05-30 Nokia Technologies Oy Domain adaptation
KR20220157502A (ko) 2020-03-31 2022-11-29 스냅 인코포레이티드 증강 현실 미용 제품 튜토리얼들
CN113870431A (zh) * 2020-06-30 2021-12-31 复旦大学 三维模型动作迁移方法
WO2022003537A1 (en) * 2020-07-02 2022-01-06 Shiseido Company, Limited System and method for image transformation
CN111815534B (zh) * 2020-07-14 2023-12-19 厦门美图之家科技有限公司 实时皮肤妆容迁移方法、装置、电子设备和可读存储介质
IL276478B2 (en) * 2020-08-03 2023-07-01 Inspekto A M V Ltd Adaptive system and method for inspecting photographed objects
WO2022029771A1 (en) * 2020-08-03 2022-02-10 Inspekto A.M.V Ltd Adaptive system and method for inspection of imaged items
CN112115771B (zh) * 2020-08-05 2022-04-01 暨南大学 一种基于星形生成对抗网络的步态图像合成方法
CN112992304B (zh) * 2020-08-24 2023-10-13 湖南数定智能科技有限公司 高分辨率红眼病案例数据生成方法、设备及存储介质
CN112651915B (zh) * 2020-12-25 2023-08-29 百果园技术(新加坡)有限公司 一种人脸图像合成方法、系统、电子设备及存储介质
CN112614070B (zh) * 2020-12-28 2023-05-30 南京信息工程大学 一种基于DefogNet的单幅图像去雾方法
CN112991494B (zh) * 2021-01-28 2023-09-15 腾讯科技(深圳)有限公司 图像生成方法、装置、计算机设备及计算机可读存储介质
CN113643400B (zh) * 2021-08-23 2022-05-24 哈尔滨工业大学(威海) 一种图像生成方法
FR3132370A1 (fr) 2022-01-28 2023-08-04 L'oreal Procédé pour la simulation d’une application d’un produit cosmétique de maquillage sur une surface corporelle
FR3137550A1 (fr) 2022-07-05 2024-01-12 L'oreal Procédé de détermination de paramètres relatifs à la coloration d’une zone corporelle d’un individu
CN116229229A (zh) * 2023-05-11 2023-06-06 青岛科技大学 基于深度学习的多域图像融合方法和系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014167831A1 (ja) 2013-04-08 2014-10-16 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ メイクアップ塗材が塗布された状態を仮想的に再現することができる画像処理装置、画像処理方法、プログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10504004B2 (en) * 2016-09-16 2019-12-10 General Dynamics Mission Systems, Inc. Systems and methods for deep model translation generation
WO2018132721A1 (en) * 2017-01-12 2018-07-19 The Regents Of The University Of Colorado, A Body Corporate Method and system for implementing three-dimensional facial modeling and visual speech synthesis
WO2019090213A1 (en) * 2017-11-03 2019-05-09 Siemens Aktiengesellschaft Segmenting and denoising depth images for recognition applications using generative adversarial neural networks
US20190279075A1 (en) * 2018-03-09 2019-09-12 Nvidia Corporation Multi-modal image translation using neural networks
US10825219B2 (en) * 2018-03-22 2020-11-03 Northeastern University Segmentation guided image generation with adversarial networks
US11170536B2 (en) * 2018-09-21 2021-11-09 Revive Al, Inc. Systems and methods for home improvement visualization

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014167831A1 (ja) 2013-04-08 2014-10-16 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ メイクアップ塗材が塗布された状態を仮想的に再現することができる画像処理装置、画像処理方法、プログラム

Also Published As

Publication number Publication date
CN113728353A (zh) 2021-11-30
JP2022519003A (ja) 2022-03-18
US20200160153A1 (en) 2020-05-21
US11645497B2 (en) 2023-05-09
WO2020097731A1 (en) 2020-05-22
EP3881277A1 (en) 2021-09-22
EP3881277A4 (en) 2022-08-17

Similar Documents

Publication Publication Date Title
JP7364676B2 (ja) 条件付きサイクル一貫性を有する生成画像変換のモデルを使用した拡張現実のためのシステムおよび方法
US10726601B2 (en) System for beauty, cosmetic, and fashion analysis
Cao et al. Carigans: Unpaired photo-to-caricature translation
Chen et al. Beautyglow: On-demand makeup transfer framework with reversible generative network
Rombach et al. Network-to-network translation with conditional invertible neural networks
Wolf et al. Unsupervised creation of parameterized avatars
JP7448652B2 (ja) 教師あり学習のための非ペアデータを使用する画像から画像への変換
Gandhi A method for automatic synthesis of aged human facial images
Zsolnai-Fehér et al. Gaussian material synthesis
Singh et al. Neural style transfer: A critical review
Cadena et al. Diverse feature visualizations reveal invariances in early layers of deep neural networks
JP2023531263A (ja) 画像から画像への変換のための知識蒸留を維持する意味関係
Hoshen et al. Nam: Non-adversarial unsupervised domain mapping
Chai et al. Neural hair rendering
Lee et al. Styleuv: Diverse and high-fidelity uv map generative model
Li et al. Instant3d: Instant text-to-3d generation
WO2022002964A1 (en) High-resolution controllable face aging with spatially-aware conditional gans
Rahman et al. Pacmo: Partner dependent human motion generation in dyadic human activity using neural operators
Kumar et al. DEff-GAN: Diverse Attribute Transfer for Few-Shot Image Synthesis
Xie et al. Consistency preservation and feature entropy regularization for gan based face editing
WO2010010342A1 (en) A system and method for facial recognition
Chen et al. Texture deformation based generative adversarial networks for multi-domain face editing
Shang et al. Attentive conditional channel-recurrent autoencoding for attribute-conditioned face synthesis
De Guevara et al. Cross-modal Latent Space Alignment for Image to Avatar Translation
Chen et al. Homomorphic interpolation network for unpaired image-to-image translation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210519

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211228

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230214

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230512

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230531

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230613

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230907

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230919

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231005

R150 Certificate of patent or registration of utility model

Ref document number: 7364676

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150