JP7373554B2 - クロスドメイン画像変換 - Google Patents

クロスドメイン画像変換 Download PDF

Info

Publication number
JP7373554B2
JP7373554B2 JP2021512501A JP2021512501A JP7373554B2 JP 7373554 B2 JP7373554 B2 JP 7373554B2 JP 2021512501 A JP2021512501 A JP 2021512501A JP 2021512501 A JP2021512501 A JP 2021512501A JP 7373554 B2 JP7373554 B2 JP 7373554B2
Authority
JP
Japan
Prior art keywords
image
geometry
style
domain
transformation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021512501A
Other languages
English (en)
Other versions
JPWO2020091891A5 (ja
JP2022503647A (ja
Inventor
リャオ,ジン
ユァン,ル
カオ,カイディ
Original Assignee
マイクロソフト テクノロジー ライセンシング,エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by マイクロソフト テクノロジー ライセンシング,エルエルシー filed Critical マイクロソフト テクノロジー ライセンシング,エルエルシー
Publication of JP2022503647A publication Critical patent/JP2022503647A/ja
Publication of JPWO2020091891A5 publication Critical patent/JPWO2020091891A5/ja
Application granted granted Critical
Publication of JP7373554B2 publication Critical patent/JP7373554B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/18Image warping, e.g. rearranging pixels individually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Processing Or Creating Images (AREA)

Description

背景
[0001] 画像変換は、原画像を異なるスタイルの画像に変換することを指す。異なる画像の種類を異なる画像ドメインと見なしてよい。例えば、写真、漫画、カリカチュア、油絵、スケッチ、及び水彩画を異なる画像ドメインと見なしてよい。異なるドメイン内の画像において表現されるスタイル及び/又はジオメトリ変形は通常異なっている。
[0002] 現在、クロスドメイン画像変換を可能にする多くの画像変換技術がある。しかし、大部分の画像変換技術は、画像に示されるコンテンツを実質的に保持しつつ、原画像のスタイルを他の所望のスタイルに変換することに注力する。例えば、写真をスケッチスタイルの画像に変換することができるが、画像内の対象の形状は実質的に同じままである。いくつかのケースにおいて、原画像を異なるジオメトリ表現で目標画像に変換する、例えば実際の人物を撮影した写真を誇張して変形されたカリカチュア画像に変換すること又はその逆が望まれる場合、単に写真のスタイルを変換することはカリカチュアの効果を発揮するには不充分であろう。
概要
[0003] 本明細書に記述する主題の実装に従い、クロスドメイン画像変換の一解決策を提供する。当該解決策において、第1の画像ドメインから第2の画像ドメインへのジオメトリ変形用の第1の学習ネットワークは、第1及び第2の画像ドメイン内の画像が異なるスタイルを有し、当該画像内の対象が互いにジオメトリ変形を受けている、第1の画像ドメイン内の第1の画像及び第2の画像ドメイン内の第2の画像に基づいて決定される。第2の画像ドメインから第1の画像ドメインへのジオメトリ変形を第2の画像に対して実行して、第2の画像と同じスタイルを継承する中間画像を生成するか、又は第1の画像ドメインから第2の画像ドメインへのジオメトリ変形を第1の画像に対して実行して、第1の画像と同じスタイルを継承する中間画像を生成する。第1の画像ドメインから第2の画像ドメインへのスタイル変換用の第2の学習ネットワークは、第1の画像と、第2の画像から生成された中間画像とに基づいて、又は第2の画像と、第1の画像から生成された中間画像とに基づいて決定される。当該解決策により、クロスドメイン画像変換を行うための学習ネットワークの処理精度を向上させることができ、複雑さが低下する。
[0004] 本概要は、以下の詳細な説明で詳述する簡素化された形式で一群の概念を紹介すべく提供するものである。本概要は、請求項に記述する主題の主要な特徴又は重要な特徴を識別することは意図しておらず、且つ請求項に記述する主題の範囲を限定すべく用いられることも意図していない。
図面の簡単な説明
[0005]本明細書に記述する主題の各種の実装が可能な計算環境のブロック図を示す。 [0006]本明細書に記述する主題の実装による画像変換モジュールのブロック図を示す。 [0007]本明細書に記述する主題の別の実装による画像変換モジュールのブロック図を示す。 [0008]本明細書に記述する主題の実装による第1の学習ネットワークを訓練するための訓練アーキテクチャのブロック図を示す。 [0009]本明細書に記述する主題の実装による第2の学習ネットワークを訓練するための訓練アーキテクチャのブロック図を示す。 [0010]本明細書に記述する主題の別の実装による第2の学習ネットワークを訓練するための訓練アーキテクチャのブロック図を示す。 [0011]本明細書に記述する主題の実装に従いクロスドメイン画像変換を行う処理のフロー図を示す。 [0012]本明細書に記述する主題の別の実装に従いクロスドメイン画像変換を行う処理のフロー図を示す。 [0013]本明細書に記述する主題の実装に従い学習ネットワークを訓練する処理のフロー図を示す。 [0014]本明細書に記述する主題の別の実装に従い学習ネットワークを訓練する処理のフロー図を示す。
[0015] 図面全体を通じて、同一又は類似参照符号は同一又は類似要素を指す。
詳細な説明
[0016] 本明細書に記述する主題についていくつかの例示的な実装を参照しながら以下に述べる。これらの実装が本明細書に記述する主題に対する当業者の理解を深めて主題をよりうまく実装できるようすることのみを目的として議論されており、主題の範囲を一切限定するものではないことを理解されたい。
[0017] 本明細書で用いる用語「~を含む」及びその変化形を「~を含むがこれに限定されない」開放的な意味で読み取られたい。用語「~に基づく」は「少なくとも部分的に基づく」の意味に解釈されたい。用語「1個の実装」及び「一実装」は「少なくとも1個の実装」の意味に解釈されたい。用語「別の実装」は「少なくとも1個の他の実装」の意味に解釈されたい。用語「第1の」、「第2の」等は異なる又は同一の対象を指す場合がある。他の明示的又は暗示的な定義が以下の記述に含まれていてよい。
[0018] 上述のように、クロスドメイン画像変換は、異なるジオメトリ表現を有する画像ドメイン間の変換を含んでいてよい。典型的な例が、写真からカリカチュア画像への変換又はその逆変換である。カリカチュアは、対象を単純化又は誇張して描画する技術として定義することができる。カリカチュアは通常、スケッチ対象の表面、特に人物の顔をスケッチすることに注力する。カリカチュアは対象のいくつかの部分を誇張して表現することにより、ユーモア又は皮肉の娯楽的効果を実現することを特徴とする。従って、カリカチュアにおける対象のジオメトリは、実物写真等の画像における対象のジオメトリと比較して変形効果を有している。カリカチュアは通常、日常生活で芸術家により描画される。芸術家はカリカチュアを描画する際に特定の対象の顕著な特徴を捉えてこれらの特徴を誇張する能力を有している。
[0019] 他の画像ドメイン内の画像をカリカチュアに変換する自動化画像変換技術を開発する試みがなされてきた。一つの解決策は、ユーザーが画像変形を操作できるようにする変形システムを提供するものである。この種の方法は、ユーザーに専門的知識を要求し、恐らくは経験豊かな芸術家が深く関わる必要があろう。別の解決策では、芸術家がカリカチュアを描画する過程で適用されるいくつかの誇張ルール、例えば、顔面上の鼻、目及び/又は口の強調を決定し、次いでこれらの誇張ルールを適用して原画像をカリカチュアに変換する。しかし、この解決策は(スケッチ又はいくつかの漫画を変換するための)特定の芸術形式に限定され、変換されたカリカチュアの誇張は単に所定のルールに従うに過ぎず、異なる対象を識別する特徴を示すことができない。
[0020] 近年、画像変換において深層学習技術(機械学習としても知られる)の利用が成功している。深層学習に基づく解決策は訓練画像を用いて、ある画像ドメイン内の画像を別の画像ドメイン内の画像に学習モデルが変換できるように学習モデルを訓練する。しかし、カリカチュアドメインに関わる画像変換に深層学習技術を適用することは極めて困難である。
[0021] 第1に、大多数の画像にはペアとなるカリカチュアバージョンが存在しない。例えば、多くの写真に対応するカリカチュア画像は一般に利用できない。各々の写真に対応するカリカチュア版を芸術家が作成するのは長い時間を要して高コストである。従って、教師付き学習方式を用いて学習モデルを訓練するのは困難である。
[0022] 一方、カリカチュア画像を生成するための鍵はジオメトリ誇張及びスタイル変換にある。しかし、多くの学習モデルは通常、画像に示されたコンテンツがほぼ不変のままでスタイル変換に注力する。これは、画像内の対象のジオメトリが顕著には変化しないことを意味する。いくつかの教師無しクロスドメイン画像変換方式が提案されているが、これらは原理的に、ジオメトリ変形とスタイル変換の両方を同時に学習すべく学習モデルを訓練可能にする。しかし、カリカチュアドメインと他の画像ドメインにおける形状とスタイルのギャップが大きいことがこれらの学習モデルにおいて大きな問題となっており、従って学習モデルは常に不満足な結果を出力する。
環境の例
[0023] 本明細書に記述する主題の基本原理及びいくつかの例示的実装について図面を参照しながら以下に述べる。図1に、本明細書に記述する主題の各種の実装が可能な計算装置100のブロック図を示す。図1に示す計算装置100は例示目的に過ぎず、本明細書に記述する主題の機能及び実装の範囲を一切限定するものではない。図1に示すように、計算装置100は汎用計算装置100を含む。計算装置100の要素は、1個以上のプロセッサ又は処理部110、メモリ120、記憶装置130、1個以上の通信部140、1個以上の入力装置150、及び1個以上の出力装置160を含むが、これらに限定されない。
[0024] いくつかの実装において、計算装置100は、計算能力を有する任意のユーザー端末又はサーバ端末として実装されていてよい。サーバ端末は、サーバ、サービスプロバイダが提供する大規模計算装置等であってよい。ユーザー端末は、例えば任意の種類の移動端末、固定端末、又は携帯電話、基地局、装置、機器、マルチ媒体コンピュータ、マルチ媒体タブレット、インターネットノード、通信機器、デスクトップコンピュータ、ラップトップコンピュータ、ノートブックコンピュータ、ネットブックコンピュータ、タブレットコンピュータ、個人通信システム(PCS)機器、個人ナビゲーション機器、携帯情報端末(PDA)、オーディオ/ビデオプレーヤー、デジタルカメラ/ビデオカメラ、測位装置、テレビ受信機、ラジオ放送受信機、Eブック機器、ゲーム機器、又はこれらの装置のアクセサリ及び周辺機器又はこれらの組み合わせを含む可搬端末、又はこれらの任意の組み合わせであってよい。計算装置100が任意の種類のユーザーインターフェース(「ウェアラブル」回路等)に対応可能であると考えられる。
[0025] 処理部110は、物理又は仮想プロセッサであってよく、メモリ120に保存されたプログラムに基づいて各種の処理を実装することができる。マルチプロセッサシステムにおいて、複数の処理部が計算装置100並列処理能力を向上させるべく、コンピュータ実行可能な命令を並列に実行する。処理部110はまた、中央演算処理装置(CPU)、マイクロプロセッサ、コントローラ又はマイクロコントローラと称する場合もある。
[0026] 計算装置100は典型的に、各種のコンピュータ記憶媒体を含む。そのような媒体は、揮発性及び不揮発性媒体、又は着脱可能及び着脱不能媒体を含むがこれらに限定されない、計算装置100からアクセス可能な任意の媒体であってよい。メモリ120は、揮発性メモリ(例:レジスタ、キャッシュ、ランダムアクセスメモリ(RAM))、不揮発メモリ(例:読み出し専用メモリ(ROM)、電気的消去可能プログラム可能読み出し専用メモリ(EEPROM)、又はフラッシュメモリ)、又はこれらの任意の組み合わせであってよい。記憶装置130は任意の着脱可能又は着脱不能媒体であってよく、情報及び/又はデータの保存に利用可能であり、計算装置100からアクセス可能なメモリ、フラッシュメモリドライブ、磁気ディスク又は1個以上の他の媒体等、機械可読媒体を含んでいてよい。
[0027] 計算装置100は更に、追加的な着脱可能/着脱不能、揮発性/不揮発性メモリ媒体を含んでいてよい。図1には示していないが、着脱可能且つ不揮発性光ディスクの読み出し及び/又は書き込みを行う磁気ディスクドライブ、及び着脱可能且つ不揮発性磁気ディスクの読み出し及び/又は書き込みを行う光ディスクドライブを提供することができる。そのような場合、各ドライブは、1個以上のデータ媒体インターフェースを介してバス(図示せず)に接続されていてよい。
[0028] 通信部140は、通信媒体を介して更なる計算装置と通信する。また、計算装置100の要素の機能は、通信接続を介して通信可能な単一の計算クラスタ又は複数の計算機により実装することができる。従って、計算装置100は、1個以上の他のサーバ、ネットワーク化されたパーソナルコンピュータ(PC)又は更なる汎用ネットワークノードとの論理関係を用いてネットワーク化された環境で動作可能である。
[0029] 入力装置150は、マウス、キーボード、トラッキングボール、音声入力装置等、各種の入力装置のうち1個以上であってよい。出力装置160は、ディスプレイ、スピーカー、プリンタ等、各種の出力装置のうち1個以上であってよい。通信部140により、計算装置100は更に記憶装置及びディスプレイ装置等、1個以上の外部装置(図示せず)と通信することができ、必要ならば1個以上の装置によりユーザーが計算装置100と対話できるようになり、又は任意の装置(ネットワークカード、モデム等)により計算装置100が1個以上の他の計算装置と通信可能になる。そのような通信は入出力(I/O)インターフェース(図示せず)を介して実行することができる。
[0030] いくつかの実装において、単一装置との一体化の代替案として、計算装置100のいくつか又は全ての要素はまた、クラウドコンピューティングアーキテクチャで構成されていてよい。クラウドコンピューティングアーキテクチャにおいて、要素は遠隔地に設けられて、協働して本明細書に記述する主題に記述された機能を実装することができる。いくつかの実装において、クラウドコンピューティングは計算、ソフトウェア、データアクセス及びストレージサービスを提供するが、これらのサービスを提供しているシステム又はハードウェア物理的位置又の構成をエンドユーザーが知る必要は無い。各種の実装において、クラウドコンピューティングは適切なプロトコルを用いて(インターネット等の)ワイドエリアネットワークを介してサービスを提供する。例えば、クラウドコンピューティングプロバイダは、ワイドエリアネットワークを介してアプリケーションを提供し、これはウェブブラウザ又は他の任意の計算要素を介してアクセス可能である。クラウドコンピューティングアーキテクチャソフトウェア又は要素及び対応するデータは遠隔位置でサーバに保存されていてよい。クラウドコンピューティング環境における計算リソースは、遠隔データセンタ内の複数箇所に統合又は分散されていてよい。クラウドコンピューティングの基盤は共有データセンタを介してサービスを提供してよいが、ユーザーから見て単一アクセスポイントとして振る舞う。従って、クラウドコンピューティングアーキテクチャを用いて本明細書に記述する要素及び機能を遠隔位置のサービスプロバイダから提供してもよい。代替的に、従来型サーバから提供されても、又は直接或いは間接的にクライアント装置にインストールされてもよい。
[0031] 計算装置100を用いて本明細書に記述する主題の各種の実装におけるクロスドメイン画像変換を実行することができる。従って、以下では計算装置を「画像処理装置100」とも称する。メモリ120は、1個以上のプログラム命令を有する1個以上の画像変換モジュール122を含んでいてよい。これらのモジュールは処理部110により本明細書に記述する各種の実装の機能を実行すべくアクセス且つ実行可能である。
[0032] 画像変換を実行する場合、画像処理装置100は入力装置150を介して原画像102を受信することができる。入力装置150により得られた原画像102は画像変換モジュール122に入力として提供される。画像変換モジュール122は、原画像102に対してクロスドメイン画像変換を実行する。本開示において、画像のスタイル及びジオメトリの両面から変換を実行することが望ましい。そのような画像変換は、他の任意の画像ドメインからカリカチュアドメインへの、又はカリカチュアドメインから他の画像ドメインへの変換に適している。図1の例において、画像変換モジュール122は写真ドメイン内の原画像102をカリカチュアドメインの目標画像104に変換する。出力装置160は、目標画像104を閲覧者に提示するか又は目標画像104を他の装置に送信することができる。
[0033] 図1に示す原画像102及び目標画像104が説明目的に過ぎないことを理解されたい。他の複数の例において、任意の原画像を処理して異なる目標画像をカリカチュア形式で生成することができる。いくつかの実装において、画像変換モジュール122は更に、ジオメトリ誇張効果のない他の目標画像に、原画像をカリカチュア形式で表現するように設計されていてよい。
動作原理
[0034] 本明細書に記述する主題の実装によれば、クロスドメイン画像変換の解決策を提案する。この解決策において、クロスドメイン画像変換は二つのタスク、すなわちジオメトリ変形及びスタイル変換に明示的に分類される。
[0035] 第1の実装において、ジオメトリ変形及びスタイル変換を各々変換したい原画像に対して実行して、二つのタスクの結果に基づいて目標画像が得られる。具体的には、ジオメトリ変形は原画像内の対象の第1のジオメトリを第2のジオメトリに変形する。スタイル変換により、第1のスタイルの原画像が第2のスタイルの中間画像に変換される。次いで、中間画像が第2のジオメトリに基づいて目標画像に変換される。目標画像は第2のスタイルを有し、当該スタイルの対象は変形後に第2のジオメトリを有している。本解決策によれば、クロスドメイン画像変換の複雑な問題がジオメトリ変形及びスタイル変換の二つ並列タスクにより解決される。これにより処理精度を向上させて複雑さを低下させることができる。従って、得られた目標画像はジオメトリ変形及びスタイルの両面から所望の画像ドメインの特徴と極めて良好に合致する。
[0036] 第1の実装におけるジオメトリ変形及びスタイル変換の二つのタスクは、学習ネットワークにより実行することができる。学習ネットワークの決定フェーズにおいて、第1の画像ドメイン及び第2の画像ドメイン内の画像を用いてジオメトリ変形用の第1の学習ネットワークを決定する。スタイル変換用の第2の学習ネットワークを決定すべく、第2の画像ドメインから第1の画像ドメインへのジオメトリ変形を第2のドメイン内の画像に対して実行して、第1の画像ドメインのジオメトリを有し、且つ第2の画像ドメイン内のスタイルを継承する中間画像を生成する。中間画像を第1の画像ドメイン内の画像と共に用いて第2の学習ネットワークを決定する。学習ネットワークを決定する処理中、第2の学習ネットワークがスタイル変換の学習に注力できるように、中間画像の導入によりスタイル変換の学習ネットワークを決定することにより二つの画像ドメイン内の画像間のジオメトリの差異を中和することが可能である。
[0037] 第2の実装において、ジオメトリ変形及びスタイル変換の二つのタスクを実行する場合、変換したい原画像に対してジオメトリ変形を最初に実行し、次いでジオメトリ変形に基づいてスタイル変換を実行して目標画像が得られる。具体的には、ジオメトリ変形は原画像内の対象の第1のジオメトリを第2のジオメトリに変形する。原画像は第2のジオメトリに基づいて変換されて、原画像と同じ第1のスタイルを継承する中間画像が生成される。次いで、中間画像に対してスタイル変換を実行して第1のスタイルの中間画像を第2のスタイルの目標画像に変換する。本解決策によれば、複雑なクロスドメイン画像変換は、ジオメトリ変形及びスタイル変換の二つのタスクにより順次実行される。これにより処理精度を向上させて複雑さを低下させることができる。従って、得られた目標画像は、ジオメトリ変形及びスタイルの両面から所望の画像ドメインの特徴と極めて良好に合致する。
[0038] 順次実行される上述のジオメトリ変形及びスタイル変換タスクはまた、学習ネットワークにより実行されてもよい。学習ネットワークの決定フェーズにおいて、ジオメトリ変形の第1の学習ネットワークは、第1の実装のものと同様に決定される。スタイル変換用の第2の学習ネットワークを決定すべく、第1の画像ドメインから第2の画像ドメインへのジオメトリ変形を第1の画像ドメイン内の画像に対して実行して、第1の画像ドメイン内のスタイルを継承する中間画像が生成される。中間画像を第2の画像ドメイン内の画像と共に用いて第2の学習ネットワークを決定する。学習ネットワークを決定する処理中、中間画像を導入してスタイル変換の学習ネットワークを決定することにより、第2の学習ネットワークがスタイル変換の学習に注力できるように2個の画像ドメイン内の画像間のジオメトリの差異を中和することが可能である。
[0039] 上記においてクロスドメイン画像変換がジオメトリ変形及びスタイル変換の二つの特定のタスクに分割された異なる実装の基本動作原理を記述している。本明細書に記述するような主題の画像変換解決策は、異なるスタイルを有し、且つ互いにジオメトリ変形を施された対象を含む2個の画像ドメイン間の画像変換を実行すべく適合させることができる。そのような画像変換は特に、カリカチュアドメイン内の対象が通常は誇張された形状を用いて表現されているため、他の画像ドメインからカリカチュアドメインへの、又はカリカチュアドメインから他の画像ドメインへの変換に適している。以下の特定の実装において、説明の便宜上、写真ドメインからカリカチュアドメインへの画像変換を説明の一例として用いる。しかし、本明細書に記述する主題の解決策が他の画像ドメインからカリカチュアドメインへの、又はカリカチュアドメインから他の画像ドメインへの画像変換にも適合されていることも理解されたい。
[0040] 本明細書で用いる「カリカチュア」は、誇張されたジオメトリを用いて表現された対象を含む画像であると広義に理解されたい。そのような誇張は、現実世界の対象のジオメトリに対する変形(例:強調/拡大、縮小、移動、回転及び歪曲)である。本明細書で用いるように、画像のスタイルは、色配置、明暗変換、テクスチャ特徴を含む、画像の色、テクスチャ及び明るさ等の外観特徴を指す。画像のスタイルは画像内の対象のジオメトリは含まない。
[0041] 本明細書で用いるように、学習ネットワークは「学習モデル」又は「ニューラルネットワーク」とも称する。用語「学習ネットワーク」、「学習モデル」、「ニューラルネットワーク」、「モデル」及び「ネットワーク」は以下において入れ替え可能に用いられる。一般に、学習ネットワークは、入力を所望の出力にマッピング可能であると理解されてよい。このマッピング能力は、訓練データにより学習ネットワークを訓練することにより得られる。学習ネットワークの訓練処理は、入力を調整して所望のマッピング出力が得られるようにネットワークパラメータを決定することであると理解されてよい。
[0042] 本明細書に記述する主題の特定の実装について記述する前に、ジオメトリ変形に関するクロスドメイン画像変換の期待目標が最初に導入される。カリカチュア生成の合理的な結果とは、カリカチュアに表現された対象が芸術家により創造されたものと同様であることである。カリカチュア画像内の対象は誇張された形状を有するように見えるが、形状の誇張は歪曲ではない。歪曲は対象の真実を完全に否定するものであるが、カリカチュアの誇張された形状は対象の相対的なジオメトリ位置(例:顔の特徴の相対的なジオメトリ位置)を維持しており、所与の対象を他の対象から識別する特徴を強調するに過ぎない。従って、画像変換後に得られたカリカチュアは、原画像内の対象の特徴を維持してカリカチュアのスタイルを視覚的に表現することが期待される。
[0043] 更に、画像変換の別の期待目標は、カリカチュアの生成を多様且つ制御可能にすることである。換言すれば、所与の原画像に対して異なる種類のカリカチュアが生成され、最後の出力結果がユーザーにより、又は他の仕方で制御できることが期待される。更に、上述のように、学習ネットワークを教師付きで訓練するために写真とカリカチュアのペアを取得するのは、コストを考慮すれば困難である。従って、学習ネットワークを訓練するには、画像変換を実行する学習ネットワークの教師無し訓練が、ペアをなさない写真とカリカチュアを用いて可能であることが期待される。
ジオメトリ変形及びスタイル変換の並列実行アーキテクチャ
[0044] 図2Aに、ジオメトリ変形及びスタイル変換が並列に実行される第1の実装による画像変換モジュールのアーキテクチャを示す。当該アーキテクチャは、学習ネットワークに基づいて実装され、図1の計算装置100の画像変換モジュール122に実装することができる。図示するように、画像変換モジュール122は、ジオメトリ変形用の第1の学習ネットワーク210、及びスタイル変換用の第2の学習ネットワーク220を含む。第1の学習ネットワーク210及び第2の学習ネットワーク220は各々のタスクを実行すべき独立に動作可能であって、独立に訓練される。
[0046] 第1の学習ネットワーク210は、入力原画像102に対してジオメトリ変形を実行して原画像102の対象の第1のジオメトリをカリカチュアドメイン内の第2のジオメトリに変形する能力を取得すべく訓練される。原画像102は、例えばユーザーにより入力されてよく、ユーザーが変換したい画像である。実際の写真と比較して、カリカチュアドメイン内の同じ対象のジオメトリは誇張された効果を取得するべく変形されている。第1の学習ネットワーク210は、原画像102のスタイル変換を一切考慮せずに、対象のジオメトリ変形に注力するだけである。
[0047] 画像変換モジュール122は更に、第1の学習ネットワーク210により処理すべく、原画像102の対象のジオメトリ(すなわち第1のジオメトリ)を検出するジオメトリ検出器230を含む。原画像102は、1個以上の対象、例えば人物、人物の顔、動物、植物、及び/又は他の任意の対象を含んでいてよい。図2Aに示すように、原画像102において注目する対象は人物の顔である。しかし、入力原画像は特定のジオメトリを有する他の対象も含んでいてよく、本明細書に記述する主題の解決策はそのような原画像内の対象に対してもジオメトリ変形を実行してよい。ジオメトリ検出器230により検出されたジオメトリは、原画像102の対象(例:原画像102の2次元座標系内の座標点である、線の各ピクセルを表する座標点)の線により表現されていてよい。
[0048] ジオメトリ表現の次元を下げるために、原画像102内で第1のジオメトリを表す線上の点をサンプリングし、サンプリングされた点の座標を用いてジオメトリを表すことが可能である。そのようなサンプリングされた点は、第1のジオメトリ202(図2Aのジオメトリ202内のジオメトリを表す点により示す)を表す目標点(キーポイントとも称する)、例えば顔の目標点であってよい。そのような目標点の個数及び分布は対象の形状及び各部分の相対位置を保持すべく構成されていてよい。目標点の個数は例えば、16、32、又は63であってよい。
[0049] 目標点は2次元座標で表すこともできるが、依然としてデータの方が高次元である。第1の学習ネットワーク210によりそのような入力を直接処理するのはネットワーク構造の複雑さを増大させて計算効率の低下を引き起こす。更に次元を下げるべく、第1のジオメトリ202を表す目標点に対して主成分分析(PCA)を実行して目標点のPCA表現を(例えば、図2Aに示していない他のモジュールにより)決定してよい。第1の学習ネットワーク210は原画像102内の対象の第1のジオメトリを表すPCA表現を入力として受信し、当該PCA表現に対してジオメトリ変形を実行して変形されたPCA表現が得られる。変形されたPCA表現を用いて、第2のジオメトリ204を有する変形された目標点を(例えば、図2Aに示していない他のモジュールにより)決定する。
[0050] PCAは、所与の入力に対してより低い次元の特徴ベクトルを決定して当該入力の主要特徴を表すものである。そのような特徴ベクトルは主成分とも称する。例えば、原画像102内の対象の63個の目標点に対して、主成分分析の後で先頭32個の主成分が選択されてよい。これらの主成分を用いて、入力目標点の大多数(約99.03%)を復元することができる。従って、32個のPCA係数を含む1次元ベクトルにより対象の63個の目標点を表すことができる。
[0051] 次元の削減に加え、PCA表現は第1の学習ネットワーク210の処理中に表面の構造を制約する等、対象のジオメトリを制約するのにも役立ち、特に最上位の学習ネットワーク210の学習(訓練)を容易にすることができる。目標点のPCA表現を用いて、各主成分が変型の方向(例:ポーズ、形状、又はサイズ)を表す対象のジオメトリの埋め込み空間を再構築することができる。当該埋め込み空間の任意のサンプルが対象の基本構造を維持することができる。2次元座標点の位置の自由度が特に訓練中に大きく、対象のジオメトリが維持困難になるため、この構造的制約は2次元座標により表される目標点では殆ど保存されない。
[0052] いくつかの実装において、第1の学習ネットワーク210はまた、原画像102内の対象の第1のジオメトリを第2のジオメトリに変形すべくユーザーが指示した変形の程度に基づいてジオメトリ変形を実行してもよい。変形の程度はユーザーが指示してよい。例えば、ユーザーにより調整可能なパラメータを設定して変形の程度を指示してよい。第2の学習ネットワーク210は、変形の程度に基づいて第1のジオメトリに対する第2のジオメトリの変形を決定してよい。例えば、第1の学習ネットワーク210が第1のジオメトリのある部分を拡大又は縮小する場合、変形の程度は当該部分を拡大又は縮小する幅を制御することができる。
[0053] 第2の学習ネットワーク220は、写真ドメイン内の第1のスタイルの原画像102をカリカチュアドメイン内の第2のスタイルの中間画像212に変換すべく、入力原画像102に対してスタイル変換を実行する能力を学習すべく訓練される。異なる画像ドメイン内のスタイルの種類は異なっていてよい。例えば、カリカチュアのスタイルは、実際の写真と比較して色及びテクスチャを手描きしている。第2の学習ネットワーク220は、原画像102内の対象(群)の形状を保持しながらスタイル変換を実行するだけである。従って、中間画像212のスタイルはカリカチュアに類似しているが、ジオメトリ的には原画像102に類似している。
[0054] スタイル変換実行中に、第2の学習ネットワーク220は原画像102のコンテンツ関連特徴表現を抽出し、第2のスタイルに関連付けられた外観関連特徴表現を決定して、コンテンツ関連特徴表現及び外観関連特徴表現に基づいて中間画像212を決定する。従って、決定された中間画像212は同時に原画像102のコンテンツを第2のスタイルに関連付ける。
[0055] いくつかの実装において、第2の学習ネットワーク220は、所与の原画像をカリカチュアドメイン内の複数の異なるスタイルに変換すべく設計されていてよい。この能力は、以下に詳述するように第2の学習ネットワーク220の訓練処理を通じて学習されてよい。原画像102のスタイルが変換される際に、第2のスタイルに関連付けられていて第2の学習ネットワーク220により決定される外観関連特徴表現が複数の所定の外観関連特徴表現からランダムに選択されてよい。当該複数の外観関連特徴表現は、第2の学習ネットワーク220を訓練すべくカリカチュアドメイン内の複数の画像から決定され、これについて第2の学習ネットワークの訓練処理中に詳述する。第2のスタイルに関連付けられていて選択された外観関連特徴表現は、カリカチュアドメイン内のある画像から抽出された外観関連特徴表現、又は複数の画像から抽出された複数の外観関連特徴表現の組み合わせであってよい。
[0056] 代替的に、第2のスタイルはユーザーにより制御されてもよい。具体的には、第2のスタイルはユーザーが指示(例:学習ネットワーク220の訓練に用いる画像のいくつかのスタイルからユーザーが選択)してよく、又はユーザーが第2のスタイルの基準画像を提供する。第2の学習ネットワーク220はスタイル変換を実行すべく、指示された第2のスタイルと同一又は同様の画像から抽出された外観関連特徴表現を選択しても、又は基準画像から外観関連特徴表現を抽出してもよい。
[0057] 画像変換モジュール122は更に、(目標点により表される)第2のジオメトリ204及び中間画像212に基づいて目標画像104を生成すべく構成された併合モジュール240を含む。併合モジュール240は、変形された第2のジオメトリ204の誘導に従い、目標画像104のスタイルが中間画像212と整合したまま、得られた目標画像104の対象が第2のジオメトリ202と同一又は同様のジオメトリを有するように中間画像212に対して画像変形を実行する。従って、写真ドメインの原画像102からカリカチュアドメインの目標画像104への画像変換が実現される。
[0058] 第1の学習ネットワーク210及び第2の学習ネットワーク220は画像処理に適した深層学習ネットワーク構造として選択されていてよい。いくつかの実装において、第1の学習ネットワーク210及び第2の学習ネットワーク220は、敵対的生成ネットワーク(GAN)に基づいていてよい。そのようなネットワークは特に、異なる画像ドメインのペアをなさない画像に基づく教師無し学習に適している。GANは一連のバリエーションを有していてよい。第1の学習ネットワーク210の学習目標は、各入力原画像に対して、最適なジオメトリ変形を実行してカリカチュアドメイン内の原画像に対応する変形結果が得られることであり、これは1対1画像変換と考えられる。そのような1対1画像変換を実行すべく設計されたGANを用いて第1の学習ネットワーク210を決定してよい。第2の学習ネットワーク210の学習目標は、各入力画像に対して、カリカチュアドメイン内の異なる視覚的スタイルの中間画像を生成する可能性があることであり、これは多対多画像変換と考えられる。そのような多対多画像変換を実現すべく設計されたGANを用いて第2の学習ネットワーク220を決定してよい。
[0059] 本明細書において写真ドメインからカリカチュアドメインへの画像変換を一例として記述しているが、本明細書に記述する主題は、対応する画像ドメイン内の画像が学習ネットワークの訓練に用いられる限り、他の画像ドメインから誇張されたジオメトリ変形を有する画像ドメインへの画像変換にも同様に適用できることを理解されたい。ジオメトリ誇張変形を有する画像ドメイン(カリカチュアドメイン等)から他の画像ドメインへの変換を実行する場合、図2Aの処理フローを逆向きに実行してよい。更に、本明細書で用語「画像」を用いているが、処理対象の画像がビデオフレームであり得ることを理解されたい。すなわち、本明細書に記述する主題の解決策はビデオ内の各フレームの変換にも適用されてよい。
[0060] 図2Aのアーキテクチャにおける第1の学習ネットワーク210及び第2の学習ネットワーク220の訓練について図3及び図4Aを参照しながら各々後述する。
順次ジオメトリ変形及びスタイル変換用のアーキテクチャ
[0061] 図2Bに、ジオメトリ変形及びスタイル変換を順次実行する第2の実装による画像変換モジュール122のアーキテクチャを示す。当該アーキテクチャの要素及び当該アーキテクチャに実装された特定の機能は図2Aに示す実施におけるものと同様である。具体的には、画像変換モジュール122は、ジオメトリ変形用の第1の学習ネットワーク210及びスタイル変換用の第2の学習ネットワーク220を含み、更にジオメトリ検出器230及び併合モジュール240を含んでいてよい。
[0062] 図2Aの実装とは異なり、第1の学習ネットワーク210が原画像102内の対象の第1のジオメトリ202を第2のジオメトリ204に変形すべく原画像102に対してジオメトリ変形を実行した後で、第2のジオメトリ204と原画像102が共に併合モジュール240に入力される。併合モジュール240は第2のジオメトリ204に基づいて原画像102を変換して中間画像242を生成する。併合モジュール240は変形された第2のジオメトリ204の誘導に従い、生成された中間画像104内の対象が第2のジオメトリ202と同一又は同様のジオメトリを有するように原画像102に対して画像変形を実行する。歪曲が原画像102に対して直接実行されるため、中間画像242は原画像102の同じ第1のスタイル(例:実際の写真スタイル)を維持している。
[0063] 中間画像242は、スタイル変換を実行して目標画像104を生成するための第2の学習ネットワーク220への入力である。第2の学習ネットワーク220におけるスタイル変換の特定の動作は、図2Aに関して記述した実装と同様であるため、ここでは詳細事項を省略する。第2の学習ネットワーク220は、カリカチュアドメイン内の(ユーザーがランダムに選択又は指定した)特定のスタイルを中間画像242に適用してよい。スタイル変換だけが実行されるため、第2の学習ネットワーク220から出力された目標画像104内の対象のジオメトリは、中間画像242のジオメトリとほぼ整合したままである。従って、得られた目標画像104のスタイルはカリカチュアと類似していて、ジオメトリの観点からカリカチュアドメイン内のジオメトリ誇張特徴を示している。
[0064] 上述のように、図2Bの要素の機能は図2Aのものと同様である。学習ネットワークに対して、入力を処理する能力が訓練を通じて得られる。図2A、2Bの実装において、第1の学習ネットワーク210を用いて写真ドメイン内の現実の対象のジオメトリをカリカチュアドメイン内の誇張されたジオメトリに変形する。従って、第1の学習ネットワーク210の訓練処理は同一であり、これについて図3を参照しながら以下に詳述する。スタイル変換を実行すべく動作しているが、第2の学習ネットワーク220の入力の種は図2Aと図2Bとで異なる。図2Aの実装において、第2の学習ネットワーク220の学習能力は写真ドメイン内の原画像を処理することであるのに対し、図2Bの実装では、第2の学習ネットワーク220の学習能力はジオメトリ変形後に画像を処理することである。従って、図2Bの第2の学習ネットワーク220を訓練するための訓練データは、図2Aの第2の学習ネットワーク220を訓練するものとは異なる。図2Bで用いる第2の学習ネットワーク220の訓練について、図4Bを参照しながら以下に述べる。
[0067] 訓練に際して、訓練画像が写真ドメイン及びカリカチュアドメインから得られるが、訓練に用いる二つの画像ドメイン内の画像がペアをなしていない、すなわち、所与の第1の画像のいずれも、対応するドメインY内に第2の画像を有している必要は無い。写真及びカリカチュアは既存のデータベースから任意に選択されてよい。いくつかの実装において、本明細書における第1の画像及び第2の画像が同種の対象(例:人物、肖像画、動物等)を有していてよいが、当該対象のジオメトリ特徴及びスタイル特徴は異なる、特に対象のジオメトリ変形の程度が異なる。いくつかの実装において、第1の画像及び第2の画像は同一解像度で同一サイズにサイズ合わせを行うことができる。
[0068] 目標点に基づくジオメトリ表現において、目標点は訓練のため第1の画像及び第2の画像の両方にマーキングされる。従って、目標点は訓練用にこれらの画像から抽出されてよい。全ての可能なオブジェクトのジオメトリを集めるために、いくつかの目標点を通じた対象の平均形状を訓練すべく同様の変換を用いて第1の画像と第2の画像を整列配置させることができる(例:両眼の中央及び口の中央を含む人物の顔の3個の目標点)。
[0069] 上述のように、第1の学習ネットワーク210はGANネットワークに基づいていてよい。GANネットワークは、ドメインXからドメインYへのジオメトリ変形用の第1のサブネットワーク、及びドメインYからドメインXへのジオメトリ変形用の第2のサブネットワークを含む。第1のサブネットワークは第1の学習ネットワーク210に対応している。訓練データがペアをなさないため、変形用のL及びLの目標点もまたペアをなしていない。従って、第1のサブネットワークの決定されたマッピングΦgeo:L→Lは制約下にある。従って、第2のサブネットワークの逆マッピング
Figure 0007373554000004

を更なる制約のために用いてよい。ネットワークの訓練処理は、マッピングを実行するネットワークパラメータ(例えば、学習ネットワークのパラメータ)を決定及び最適化するものである。
[0070] 図3に、GANに基づく実装において第1の学習ネットワーク210を訓練するGAN構造300を示す。GAN構造330はサイクル整合性に基づくGAN構造である。GAN構造330は、複数のサブネットワークを含み、本例では2個の生成器210、304及び2個の識別器320、322である。当該生成器のうち1個は、前方生成器210(
Figure 0007373554000005

と表記)とも称する第1の学習ネットワーク210に対応し、ドメインXからドメインYへのジオメトリ変形(すなわちマッピングΦgeo)のモデル化に用いられる。他方の生成器は、ドメインYからドメインXへの逆ジオメトリ変形(すなわち逆マッピング
Figure 0007373554000006

)をモデル化するための後方生成器304(
Figure 0007373554000007

と表記)である。ここで、前方生成器210をGANの第1のサブネットワークと呼ぶ場合があり、後方生成器304をGANの第2のサブネットワークと呼ぶ場合がある。
[0071] GAN構造300は2本の経路を含む。第1の経路は第1の画像に基づいてネットワークを訓練する図3の上部であり、第2の経路は第2の画像に基づいてネットワークを訓練する図3の下部である。第1の経路において、前方生成器210は、ドメインX内の第1の画像のジオメトリl311に対してドメインXからドメインYへのジオメトリ変形(すなわちマッピングΦgeo)を実行して変形されたジオメトリ
Figure 0007373554000008

313を生成する。変形されたジオメトリ315は
Figure 0007373554000009

のように表すことができる。前方生成器210はPCA表現に基づいて動作することができる。分かりやすいように、変形前後のジオメトリに対応する画像対象も図3に示す。
[0073] 具体的には、前方生成器210は、ジオメトリ311のPCA表現312を入力として、変形されたジオメトリ313のPCA表現314を変形後に出力する。後方生成器304は、変形されたジオメトリ313に対してドメインYからドメインXへの逆ジオメトリ変形(すなわち逆のマッピング
Figure 0007373554000010

)を実行してL内の予測ジオメトリ315
Figure 0007373554000011

を取得する。後方生成器304への入力はPCA表現314であってよく、後方生成器304は予測ジオメトリ315のPCA表現316を出力する。識別器320は、変形されたジオメトリ
Figure 0007373554000012

と正解ジオメトリlが識別可能であるか否かを識別すべき用いられる。正解ジオメトリlはドメインY.からサンプリングされる画像のジオメトリである。当該経路において、予測ジオメトリ
Figure 0007373554000013

は識別器320により前方生成器の結果の判定に用いられるだけでなく、後方生成器304へフィードバックされてもよい。
[0073] 図3下部の第2の経路は、第1の経路と同様の動作を実行するが、ドメインYの第2の画像を入力として用いるため、生成器の順序が調整される。後方生成器304は、第2の画像のジオメトリlに対してドメインYからドメインXへのジオメトリ変形331(すなわち逆マッピング
Figure 0007373554000014

)を実行して変形されたジオメトリ
Figure 0007373554000015

333を生成すべく構成されている。後方生成器304は、ジオメトリ331のPCA表現332を入力として、変形されたジオメトリ333のPCA表現334を変形後に出力することができる。前方生成器210は、PCA表現に基づいて、変形されたジオメトリ333に対してドメインXからドメインYへのジオメトリ変形(すなわちマッピングΦgeo)を実行してL内の予測ジオメトリ
Figure 0007373554000016

315を取得する。前方生成器210への入力はPCA表現334であってよく、前方生成器210は予測ジオメトリ335のPCA表現336を出力する。識別器322を用いて、変形されたジオメトリ
Figure 0007373554000017

と正解ジオメトリlが識別可能か否かを識別する。正解ジオメトリlはドメインXからサンプリングされた画像のジオメトリである。第1及び第2の経路において、前方生成器210及び後方生成器304のパラメータ値は共有される。
[0074] 図3のGAN構造300において、前方生成器210はドメインXからドメインYへのジオメトリ変形をモデル化するため、ジオメトリ変形用の第1の学習ネットワーク210と見なすことができる。
[0075] いくつかの実装において、前方生成器210及び後方生成器304がPAC表現に基づいて動作を実行するため、ネットワーク構造を、複雑な畳み込み層を使用せずに全結合(FC)層(例:ReLu等の活性化関数に対応する処理ノードで形成された)を含むように構成することができる。畳み込み層は一般に、ピクセル毎の画像処理に適していて、より複雑な計算を必要とする。しかし、PCA表現の次元が低いため、単純な全結合層でもネットワーク学習を実現することができる。
[0076] 学習ネットワークの学習処理は、目的関数に基づいてネットワークパラメータを定常的且つ反復的に更新又は最適化するものである。目的関数は、損失関数又はコスト関数として決定されてよい。本明細書において開示する主題の実装に際して、損失関数を例として挙げるが、そのような訓練はコスト関数に基づいて実行されてもよいことを理解されたい。汎用GANネットワークの訓練において、2種類の損失すなわち敵対的損失(
Figure 0007373554000018

と表記)及び双方向サイクル整合性損失(Lcycと表記)を考慮する。
[0077] 敵対的損失は、結果的に得られた変形されたジオメトリがドメインYからサンプリングされたカリカチュア画像のジオメトリと同様であるように、ネットワークパラメータの定常的更新を推奨する。第1の経路に対して敵対的損失は次式のように表われる。
Figure 0007373554000019

敵対的損失に基づいて、前方生成器210は、出力された予測ジオメトリが識別器320により正解ジオメトリから識別できないように更新されてよい。訓練アーキテクチャの第2の経路に対して、敵対的損失(
Figure 0007373554000020

と表記)は、例えば式(1)に列挙するように同様に決定されてよい。
[0078] GANネットワークにおける双方向サイクル整合性損失を用いて、前方マッピングΦgeoと逆マッピング
Figure 0007373554000021

とのサイクル整合性を制約することができる。その原理は、前方生成器210を第1の学習ネットワーク210として用いて第1の画像lに対してジオメトリ変形を実行する場合、逆ジオメトリ304は、変形されたジオメトリを正確に変形して第1の画像lのジオメトリに戻すことができること、すなわち
Figure 0007373554000022

である。同様に、後方での整合性を
Figure 0007373554000023

として定義することができる。従って、双方向サイクル整合性損失は次式のように表すことができる。
Figure 0007373554000024

式(2)において、各方向におけるサイクル整合性損失は二つのベクトル間のLlの差で表すことができる。双方向サイクル整合性損失は更に入力から出力へのマッピングを制約することができる。
[0079] 敵対的損失及び双方向サイクル整合性損失はGANネットワークで頻繁に考慮される二つの損失である。しかし、ジオメトリ変形の学習タスクにおいて、二つの損失に基づく訓練は、変形されたジオメトリが元のジオメトリの顕著な目立つ特徴を捉えてこれらの特徴を誇張できることを保証するのは依然として困難な場合がある。本明細書に記述する主題のいくつかの実装において、入力された第1の画像内の対象のジオメトリと写真ドメイン内におけるそのような種類の対象の平均ジオメトリの差異を維持すべく更なる損失を訓練に導入する。その理由は、特定の対象のジオメトリと、そのような種類の対象の平均ジオメトリとの差異は対象の顕著な目立つ特徴を表し、従ってジオメトリ変形の後で保持又は強調すべきであるからである。例えば、特定の人物の顔の鼻が通常の顔の鼻よりも大きい場合、この顕著な目立つ特徴はカリカチュアドメインへの変形後も維持又は強調すべきである。従って、訓練中に新たに導入された損失は特性損失とも称する(
Figure 0007373554000025

と表記)
[0080] 特性損失
Figure 0007373554000026

はGAN構造300の第1の経路及び第2の経路の両方で考慮されてよい。第1の経路において、特性損失
Figure 0007373554000027

は、入力された第1の画像内ジオメトリ311の対応する画像ドメイン内の平均ジオメトリを除去した結果と、前方生成器210が生成した変形されたジオメトリ313の対応する画像ドメイン内の平均ジオメトリを除去した結果との差異にペナルティを与えることにより考慮してよい。具体的には、訓練用の各々の入力された第1の画像に対して、現在の前方生成器210により変形されたジオメトリ313が生成された後で、第1の画像内のジオメトリ311(lと表記)と、写真ドメインX内の平均ジオメトリ(
Figure 0007373554000028

と表記)との第1の差異が決定され、変形されたジオメトリ313(
Figure 0007373554000029

と表記)と、カリカチュアドメインY内の平均ジオメトリ(
Figure 0007373554000030

と表記)との第2の差異も決定される。特性損失
Figure 0007373554000031

は、第1と第2の差異間の差異を最小化すべく決定されてよい。これは余弦差等、第1と第2の差異間の差異にペナルティを与えることにより決定されてよい。ここで、特性損失
Figure 0007373554000032

は次式のように表すことができる。
Figure 0007373554000033

訓練目標は、写真ドメイン内の対象のジオメトリと平均ジオメトリの差異、及びカリカチュアドメイン内の対象のジオメトリと平均ジオメトリの差異が同一になるように
Figure 0007373554000034

を最小化することである。
[0081] 対称的に、GAN特徴300の第2の経路において、後方における特徴損失(
Figure 0007373554000035

と表記)も決定されてよい。具体的には、訓練用の各々の入力された第2の画像に対して、現在の後方生成器305により変形されたジオメトリ333が生成された後で、第2の画像内のジオメトリ331(lと表記)とカリカチュアドメインY内の平均ジオメトリ(
Figure 0007373554000036

と表記)との第3の差異が決定され、変形されたジオメトリ333(GLY(l)と表記)と写真ドメイン内の平均ジオメトリ(
Figure 0007373554000037

と表記)との第4の差異が更に決定される。逆特性損失
Figure 0007373554000038

は、第3の差異と第4の差異間の差異を最小化すべく決定されてよい。これは余弦差等、第3と第4の差異間の差異にペナルティを与えることにより決定されてよい。逆特性損失
Figure 0007373554000039

は式(3)と同様に定義されていてよい。
[0082] 上述の各種損失を考慮した後で、GAN構造300を訓練する目的関数は以下の損失関数を最適化すべく決定されてよい。
Figure 0007373554000040

当該損失関数は、第1の経路及び第2の経路における、対象のジオメトリの目立つ特徴を維持する特性損失を含む異なる種類の損失を考慮している。式(4)において、パラメータλcyc、λchaは異なる種類の損失をバランスさせるための所定値である。
[0083] 訓練処理中、GAN構造300は写真ドメイン及びカリカチュアドメイン内の複数の第1及び第2の画像を用いて訓練されてよく、第1及び第2の画像の各々が、GAN構造300を通過した後で前方生成器210及び後方生成器304のパラメータ値の更新を促進させることができる。GAN構造300において、前方生成器210及び後方生成器304は合同で訓練される。確率的勾配降下アルゴリズム、順伝播、逆伝播等、各種の機械学習訓練技術を用いてGAN構造を訓練してよい。全損失関数(例:式(4))が収束した後で、訓練された前方生成器210及び後方生成器304が得られる。
[0084] 訓練が完了した後で、前方生成器210及び後方生成器304のパラメータの組を決定することができる。前方生成器210は、写真ドメインXからカリカチュアドメインYへのジオメトリ変形を実行可能な第1の学習ネットワーク210として決定されてよい。GAN構造300の他の部分は、第1の学習ネットワーク210を訓練すべく構成されていて、ネットワークの適用フェーズでは使用されないものと考えてよい。
[0085] 図3における第1の訓練用の画像は図2A、2Bの適用フェーズで使用されたものと同様の写真を有しているように示しているが、訓練フェーズ中、写真ドメイン内で利用可能な任意の既存の写真を取得して訓練を実行できることを理解されたい。訓練目的の第1の画像に求められるのは特定の種類の関心対象を含むことだけである。
[0087] 訓練画像内のジオメトリ差の影響を回避すべく、本明細書に記述する主題の実装における中間のドメインの構築を提案する。図2Aのアーキテクチャで用いた第2の学習ネットワーク220を訓練する場合、訓練用のカリカチュアドメインY内の第2の画像がジオメトリ変形により中間ドメイン(Y’と表記)の中間画像(
Figure 0007373554000042

と表記)に変換される。中間ドメインY’は写真ドメインXとカリカチュアドメインYの間にあり、中間画像はカリカチュアドメインY内の第2の画像と同じスタイルを継承しているが、写真ドメインX内の対象と同様のジオメトリを有している。中間ドメインY’内の中間画像は第2の画像に対してカリカチュアドメインYから写真ドメインXへのジオメトリ変形を実行することにより生成されてよい。いくつかの実装において、ドメインYからドメインXへのそのようなマッピングは、第1の学習ネットワーク210を訓練する際に後方生成器304により学習されてよい。従って、いくつかの実装において、GAN構造300が最初に訓練されてよい。第1の学習ネットワーク210を訓練する場合、後方生成器304はカリカチュアドメインY内の第2の画像を中間ドメインY’の中間画像に変換(すなわち
Figure 0007373554000043

)すべく訓練される。
[0088] 第2の学習ネットワーク220は、写真ドメインXからカリカチュアドメインYへスタイルを変換する能力を取得する写真ドメインX内の第1の画像及び中間ドメインY’の中間画像に基づいて決定されてよい。第2の学習ネットワーク220は、ジオメトリ変形を考慮しない純粋なスタイル画像変換であるドメインXからドメインYへのマッピングを取得する。従って、第2の学習ネットワーク220は、スタイル変換に適した任意の学習ネットワークを利用してよい。実際に、様式化の観点から、ドメインXからドメインY’へのスタイル変換は、ドメインY’内のスタイルがドメインY内のスタイルと整合しているため、ドメインXからドメインYへのスタイル変換と等価である。
[0089] いくつかの実装において、第1の学習ネットワーク210と同様に、第2の学習ネットワーク220もまたGANネットワークに基づいていてよい。いくつかの例において、第2の学習ネットワーク220は、第1の学習ネットワーク210と同様の(図3のような)GAN等のサイクル整合性を有するGANネットワークに基づいていてよい。そのようなGANネットワークは1対1出力しか生成できないであろう。他の実装において、第2の学習ネットワーク220は、多対多マッピングを実装するGANネットワークに基づいていてよく、教師無し学習を実行することができる。現在、多対多マッピングを実装するいくつかの学習ネットワークは、特徴レベルでサイクル整合性を主に考慮するため、画像内の対象のジオメトリを維持することが困難になる。従って、第2の学習ネットワーク220を訓練するいくつかの実装において、第2の学習ネットワーク220の訓練は画像レベルのサイクル整合性を用いて制約される。
[0090] 図4Aに、GANに基づく実装において第2の学習ネットワーク220を訓練するGAN構造400を示す。第2の学習ネットワーク220の訓練は、図3と同様に逆向きの双方向経路を含むサイクル整合性GAN構造に基づいていてよい。しかし、説明の便宜上、ドメインXからドメインY’への第1の経路だけを図4Aに示している。他の方向における第2の経路は、図3の第2の経路と同様に、訓練のために対称に構築されていてよい。ドメインXからドメインY’への方向における第1の経路の処理及び訓練について以下に最初に述べる。
[0091] GAN構造400において、GANの生成器は更にエンコーダ部及びデコーダ部に再分割される。入力画像に対して、2個のエンコーダを用いて各々画像のコンテンツ及びスタイルをモデル化して、入力画像のコンテンツ関連特徴表現及び外観関連特徴表現を抽出する。コンテンツ及びスタイルのそのような分離により、同じコンテンツに異なるスタイルを適用することが可能になるため、異なる出力が得られる。デコーダを用いてエンコーダの逆演算を実行する。そのような構造において、スタイル変換用の第2の学習ネットワーク220は、ドメインX内のエンコーダ及びドメインY’に復号化するデコーダを含む。
[0092] 図示するように、GAN構造400は、ドメインX用のコンテンツエンコーダ410(
Figure 0007373554000044

と表記)を含む前方生成部、スタイルエンコーダ220-1(
Figure 0007373554000045

と表記)及びドメインY’用のデコーダ220-2を含む。スタイルエンコーダ220-1及びデコーダ220-2は第2の学習サブネットワーク220を形成する。GANネットワーク400は更に、ドメインY’用のコンテンツエンコーダ420(
Figure 0007373554000046

と表記)を含む後方生成部、スタイルエンコーダ430(
Figure 0007373554000047

と表記)、及びドメインX.のデコーダ440(R)を含む。
[0093] 各ドメインI(I=X又はY’)に対して、コンテンツ関連特徴表現(C、コンテンツコードとも称し、例えば図4Aに示すドメインXのコンテンツコード403及びドメインY’ のコンテンツコード422である)が、コンテンツエンコーダ
Figure 0007373554000048
Figure 0007373554000050
Figure 0007373554000052

と表記されてよい。各ドメインI(I=X又はY’)に対して、デコーダRは、コンテンツ関連特徴表現及び外観関連特徴表現に基づいて画像を再構築する。すなわちZ=R(C、S)。訓練用の複数の第1の画像及び中間画像から得られたコンテンツライブラリC及びスタイルライブラリSはガウス分布N(0、1)を満たすものと仮定する。
Figure 0007373554000054

を抽出し、スタイルライブラリSY’405から、特定のスタイルに関連付けられた外観関連特徴表現Sy’をランダムに選択する。次いでデコーダ220-2を用いてカリカチュアドメイン内のスタイルの出力画像y’を生成し、y’=RY’(c,sy’)と表記する。コンテンツエンコーダ420、スタイルエンコーダ430、及びデコーダ440も同様に動作する。
[0095] 上述のようなGAN構造400を訓練すべく、損失関数等の対応する目的関数が決定されてよい。本明細書に記述する主題の実装において、GANネットワークの通常の訓練における典型的な損失、例えば図3を参照しながら記述した敵対的損失及びサイクル整合性損失を考慮することができる。
[0096] GAN構造400において、敵対的損失を用いて、中間ドメインY’から選択された正解中間画像と同一になるようデコーダ220-2により生成された結果
Figure 0007373554000055

を制約する。GAN構造400はまた、
Figure 0007373554000056

が正解中間画像と同一であるか否かを識別する識別器432を含んでいてよい。図4Aに示していない後方における第2の経路において、対称な敵対的損失
Figure 0007373554000057

も取得されてよく、DはドメインXの識別子を表す。
[0097] いくつかの実装において、訓練における別の種類の損失は、入力画像が再構築画像に可能な限り類似するように入力画像から抽出されたコンテンツ関連特徴表現及び外観関連特徴表現に基づいて決定される入力画像402と予測画像406との差異にペナルティを与える再構築損失であってよい。入力画像と再構築画像は方向に応じて異なっていてよい。例えば、図4Aに示すようにドメインXからドメインY’への方向における第1の経路において、入力画像はドメインXにあって写真スタイルの画像402であり、予測画像406は、入力画像402のコンテンツ関連特徴表現403及びドメインXに対してスタイルライブラリS401からランダムに選択された外観関連特徴表現に従いドメインXのデコーダ440により再構築される。ドメインY’からドメインXへの方向における対称な第2の経路において、入力画像はドメインY’ にあってカリカチュアスタイルの画像である。再構築画像もまた、入力画像のコンテンツ関連特徴表現及びドメインY’のスタイルライブラリからランダムに選択された外観関連特徴表現に従い同様のデコーダより再構築された画像である。再構築損失は次式のように表すことができる。
Figure 0007373554000058

ここにI=X又はY’である。I=Xのケースにおいて式(5)はドメインXからドメインY’への方向における第1の経路における再構築損失を表し、I=Y’のケースにおいて式(5)はドメインY’からドメインXの方向における第1の経路における再構築損失を表す。
Figure 0007373554000060

と表記、本明細書では第1の予測画像と称する場合もある)。上述のように、デコーダ220-2はドメインY’内でスタイル(カリカチュアドメインYにおけるスタイルと等価)をランダムに選択して変換を実行することにより、第1の予測画像404
Figure 0007373554000061

はカリカチュアドメインのスタイルを有しているが、オブジェクト内のジオメトリは依然として画像402とほぼ同じままである。従って、第1の予測画像404は実際には中間ドメインY’における中間画像の予測である。
[0099] デコーダ220-2の結果は、予測中間画像の外観関連特徴表現422を抽出すべくドメインY’のコンテンツエンコーダ420にフィードバックされる。デコーダ440は、ドメインXに対してスタイルライブラリS401から外観関連特徴表現をランダムに選択して、入力画像402のコンテンツ関連特徴表現422及び選択された外観関連特徴表現に基づいて予測画像408(
Figure 0007373554000062

と表記)を取得する。コンテンツ及びスタイルは共にドメインXからのものであるため、予測画像408は実際には入力画像402の予測である。
[00100] ドメインXからドメインY’への方向におけるサイクル整合性損失を用いて、予測画像408を入力された第1の画像402に常に類似するように制約し、これを次式で表す。
Figure 0007373554000063

式(6)は2個の画像間の差異が差異L2で表されることを示す。多対多マッピングの場合に従来のGANネットワークで用いるサイクル整合性損失とは異なり、本明細書に記述する主題の実装において、サイクル整合性損失は画像レベルの差異、すなわち予測画像と正解入力画像の差異に基づいている。訓練の目標は、そのような差異を可能な限り小さくすることである。式(6)の例において、この差異は2個の画像間の差異L2で表される。無論、画像間の差異の決定に他の方法を用いてもよい。
[00101] いくつかの実装において、ドメインY’からドメインXへの方向における第2の経路上でのサイクル整合性損失も同様に計算することができ、
Figure 0007373554000064

と表記する。サイクル整合性損失の決定は式(6)と同様であってよいが、各々の変換の方向は逆(すなわち式(6)に関わるドメインXからドメインY’への変換はドメインY’からドメインXへの変換を反転したものである)。
[00102] 上述の種類の損失は通常、サイクル整合性及び多対多マッピングを有するGANネットワークからの損失と考えられる。しかし、これらの損失だけでGAN構造400を訓練するのでは、画像のジオメトリ特徴からコンテンツ特徴を完全に分離するようGAN構造400を訓練できない恐れがあり、画像変換後に対象のジオメトリを維持することが困難になる。本明細書に記述する主題いくつかの実装において、GAN構造400の訓練を更に最適化すべく追加的な損失も考慮される。このような損失は、制約エンコーダの入力画像及びデコーダの出力画像をコンテンツ内で不変に維持するために明示的に制約すべく用いる知覚損失と称する。
[00103] 具体的には、図4Aに示すGAN構造400において、訓練用に入力された第1の画像402に対して、コンテンツエンコーダ220-1及びデコーダ220-2を含むサブネットワークを用いて第1の画像402のスタイル変換を実行し、それにより第1の予測画像404(
Figure 0007373554000065

と表記)を取得し、第1の予測画像404のスタイルがドメインY’のスタイルライブラリ405からランダムに選択される。知覚損失は、第1の予測画像404と第1の画像402とのコンテンツの差異を指す。そのような差異は、第1の予測画像404及び第1の画像402から抽出された各々の特徴マップ間の差異、特にコンテンツ関連特徴マップ間の差異に基づいて表すことができる。知覚損失は次式で表すことができる。
Figure 0007373554000066

ここにVGG195_3は(a)は画像aから抽出されたコンテンツ関連特徴マップを表す。式(7)は、特徴マップとL2差異表現との差異を示す。知覚損失
Figure 0007373554000067

はコンテンツエンコーダ220-1及びデコーダ220-2の訓練の制約に主に用いられる。
[00104] ドメインY’から図4Aに示してないドメインXへの方向における第2の経路において、知覚損失(
Figure 0007373554000068

と表記)も同様に決定されてよい。この逆向きの第2の経路において、入力画像はドメインY内の第2の画像から変換された中間画像である。第2の画像は任意の公知のカリカチュアであってよく、第1の画像402に合致するカリカチュアを含んでいてもいなくてもよい。ドメインY’からドメインXへのスタイル変換は、コンテンツエンコーダ420及び別のデコーダ(図4Aに含まれない)により実行される。中間画像は、ドメインY’の任意のスタイル(ドメインYの任意のスタイルと等価)を有していてよい(中間画像が第2の画像と同じくドメインY’に第3のスタイルを有していると仮定して)、且つ変換されるスタイルはドメインXのスタイルライブラリ401からランダムに選択されるスタイル(第4のスタイルと称する)であってよい。知覚損失
Figure 0007373554000069

は、画像402の場合入力中間画像と第2の予測画像の差異に基づいて表されていてよい。両方向における知覚損失
Figure 0007373554000070

及び
Figure 0007373554000071

を用いてコンテンツエンコーダ220-1とデコーダ220-2、及びコンテンツエンコーダ420と別のデコーダを合同で訓練してよい。
[00105] 上述の各種損失を考慮することにより、図4Aに示すGAN構造400及びその対称GAN構造を訓練する目的関数は以下の損失関数を最適化すべく決定されてよい。
Figure 0007373554000072

ここにパラメータλrec、λcyc及びλperは異なる種類の損失を釣り合わせる所定の値である。
[00106] 訓練処理実行中に、GAN構造400及びその対称な構造は、写真ドメイン及び中間ドメイン内の複数の画像を用いて反復的に訓練して内部のパラメータ値を常時更新することができる。訓練処理実行中に、確率的勾配降下、順伝播、逆伝播等、機械学習の各種の訓練技術を用いてGAN構造を訓練することができる。全体的損失関数の収束(例:式(8))に達した後で、訓練されたコンテンツエンコーダ220-1及びデコーダ220-2が得られ、ドメインX内の所与の第1の画像に対してスタイル変換を実行する第2の学習ネットワーク220であると決定される。GAN構造の他の部分は第2の学習ネットワーク220を訓練する目的だけに構成されていて、ネットワークの適用フェーズでは用いられない。
[00107] 図4Aの構造から分かるように、第2の学習ネットワーク220におけるデコーダ220-2は、異なるスタイルに関連付けられた外観関連特徴表現を入力画像の同一コンテンツ関連特徴表現に対して変換を実行すべく選択することにより、異なるスタイルの出力が得られる。デコーダ220-2のこの特性により柔軟なスタイル出力が可能になる。上述のように、アプリケーション実行中に、訓練画像に基づいて得られたスタイルライブラリからランダムに変換するスタイルの選択に加え、又はユーザーから指摘により、ユーザーが特定のスタイルの基準画像を入力することも可能である。基準画像の外観関連特徴表現は追加的なサブネットワークにより抽出されてよく、次いで抽出された外観関連特徴表現がスタイル変換を実行すべくデコーダ220-2に提供される。
スタイル変換用の学習ネットワークの訓練の第2の例
[00108] 図4Aに、図2Aで用いた第2の学習ネットワーク220をどのように訓練するかを示しており、そのような訓練を通じて得られた第2の学習ネットワーク220が元の写真に対してどのようにスタイル変換を実行してカリカチュアスタイルの写真を生成するかを学習することができる。図2Bの実装等、本明細書に記述する主題の他のいくつかの実装において、第2の学習ネットワーク220が変形された元の写真に対してどのようにスタイル変換を実行してカリカチュアスタイルのカリカチュアを生成するかを学習できることが望ましい。
[00109] 第2の学習ネットワーク220は依然として多対多マッピングを実装するGANネットワークに基づいていて、教師無し学習を実行することができる。訓練画像内におけるジオメトリ差異の影響を避けるべく、訓練データを考慮して、写真ドメインXの訓練用の第1の画像がジオメトリ変形により中間ドメイン(X’と表記)の中間画像に変換される。中間ドメインX’は写真ドメインXとカリカチュアドメインYの間にあり、中間画像は写真ドメインX内の第1の画像と同じスタイルを継承しているが、カリカチュアドメインY内の対象と同様のジオメトリを有している。第1の画像に対して写真ドメインXからカリカチュアドメインY’へのジオメトリ変形を実行することにより中間ドメインX’の中間画像が生成されてよい。いくつかの実装において、ドメインYからドメインXへのそのようなマッピングは訓練された第1の学習ネットワーク210により実行されてよい。
[00110] 第2の学習ネットワーク220は、第2の学習ネットワーク220が中間ドメインX’のスタイルからカリカチュアドメインYへのスタイル変換を実行する能力を学習できるよう、中間ドメインX’の中間画像及びカリカチュアドメインYの第2の画像に基づいて訓練される。中間ドメインX’のスタイルは写真ドメインXと同一であるため、写真ドメインXからカリカチュアドメインYへのスタイル変換を実行する第2の学習ネットワーク220と等価である。
[00111] 図4Bは、GANに基づく実装において第2の学習ネットワーク220を訓練するためのGAN構造450を示す。第2の学習ネットワーク220の訓練は、図3及び4Aと同様に、逆向きの双方向経路を含むサイクル整合性GAN構造に基づいていてよい。説明の便宜上、ドメインX’からドメインYへの方向における第1の経路だけを図4Bに示す。他方の方向における第2の経路は図3の第2の経路と同様に訓練のため対称に構築されていてよい。
[00112] 特定の訓練実行中に、GANアーキテクチャ460に含まれる要素及びそれらの構成は図4AのGAN構造400と同様である。しかし、要素を訓練するための入力は異なっている。図示するように、GAN構造450は、ドメインX’用のコンテンツエンコーダ460(
Figure 0007373554000073

と表記)、ドメインY’用のスタイルエンコーダ220-1(
Figure 0007373554000074

と表記)及びデコーダ220-2(Rと表記)を含む前方生成部を含む。スタイルエンコーダ220-1及びデコーダ220-2は第2の学習サブネットワーク220を形成する。GANネットワーク450は更にドメインY用のコンテンツエンコーダ470(
Figure 0007373554000075

と表記)、スタイルエンコーダ480(
Figure 0007373554000076

と表記)、及びドメインX’用のデコーダ490(R)を含む後方生成部を含む。GANネットワーク450は更に識別器482を含んでいてよい。これらの要素は図4Aで同様に配置された要素と同様の仕方で動作する。
[00113] 特定の訓練実行中に、GANアーキテクチャ450に含まれる要素及びそれらの構成は図4AのGANアーキテクチャ400同様である。しかし、要素への入力は、異なる。例えば、図4Bに示す第1の経路において、コンテンツエンコーダ220-1は、コンテンツ関連特徴表現453(ドメインX’のコンテンツコードとも称する)を入力中間ドメインX’の中間画像452から抽出する。複数の中間画像により抽出されたコンテンツコードはコンテンツライブラリを形成する。スタイルエンコーダ460は、外観関連特徴表現(スタイルコードとも称する)を中間画像452から抽出する。複数の中間画像から抽出された外観関連特徴表現はスタイルライブラリ(例:ドメインX’用のスタイルライブラリSX’451)を形成する。デコーダ490は、コンテンツ関連特徴表現453及びスタイルライブラリSX’451から選択された外観関連特徴表現に基づいて画像再構築を実行して予測画像456を取得する。デコーダ220-2は、ドメインY用のスタイルライブラリS455から選択されたコンテンツ関連特徴表現453及び外観関連特徴表現に基づいて画像再構築を実行して再構築画像454(第1の予測画像と称する場合がある)を取得する。
[00114] コンテンツエンコーダ470はコンテンツ関連特徴表現472を再構築画像454から抽出し、デコーダ490はコンテンツ関連特徴表現472及びスタイルライブラリSX’451から選択された外観関連特徴表現に基づいて画像再構築を実行して予測画像458を取得する。スタイルエンコーダ480を用いて外観関連特徴表現(スタイルコードとも称する)を再構築画像454から抽出する。そのような複数の再構築画像から抽出されたスタイルコードはスタイルライブラリ(すなわちドメインY用のスタイルライブラリS455)を形成することができる。
[00115] 上述の要素は異なる訓練画像により訓練されたが、損失関数等、訓練に用いた訓練アルゴリズムは図4Aで用いたものと類似していてよい。訓練で考慮された損失関数は上式(5)(I=X’又はY)におけるような再構築損失を含む。訓練実行中に考慮された損失関数は式(6)におけるドメインYからドメインX’へのサイクル整合性損失、又は逆方向におけるドメインX’からドメインYへのサイクル整合性損失も含んでいてよい。
[00116] また、損失関数は更に知覚損失を含んでいてよい。図4Bのアーキテクチャにおいて、第1の経路における知覚損失は、エンコーダ220-1及びデコーダ220-2によるスタイル変換後の第1の予測画像454と入力中間画像452とのコンテンツの差異を指す。そのような差異は、第1の予測画像404及び第1の画像402から各々から抽出された特徴マップ間の差異、特に式(7)に示すようなコンテンツ関連特徴マップ間の差異に基づいて表されていてよい。訓練処理は常時知覚差違を減少させる。知覚損失が逆向きの第2の経路で考慮される場合、知覚損失はエンコーダ220-1及びデコーダ220-2によるドメインYの第2の画像に対するスタイル変換後の予測画像(以下では第2の予測画像と称する)と、第2の画像とのコンテンツの差異の減少を指す。知覚損失の決定はまた、図4Aのアーキテクチャで考慮された知覚損失に類似しているため、ここでは詳述しない。
[00117] 図4Bのアーキテクチャから分かるように、第2の学習ネットワーク220を形成するデコーダ220-2は、中間画像の同じコンテンツ関連特徴表現に対して変換を実行して、それにより異なるスタイルの出力を取得すべく異なるスタイルに関連付けられた外観関連特徴表現を選択することができる。デコーダ220-2の当該特性は柔軟なスタイル出力を可能にする。上述のように、アプリケーション実行中、訓練画像に基づいて得られたスタイルライブラリから変換用のスタイルをランダムに、又はユーザーからの指示により選択することに加え、ユーザーが特定のスタイルの基準画像を入力することも可能である。基準画像の外観関連特徴表現は追加的なサブネットワークにより抽出されてよく、次いで抽出された外観関連特徴表現はデコーダ220-2に提供されてスタイル変換を実行する。
処理例
[00118] 図5Aは、本明細書に記述するように、主題のいくつかの実装による学習ネットワークを訓練する処理500のフロー図を示す。処理500は、計算装置100又は計算装置100と同様の他の装置或いは装置クラスタにより実行されてよい。
[00119] ブロック510において、第1の画像ドメインから第2の画像ドメインへのジオメトリ変形用の第1の学習ネットワークが、第1のドメイン内の第1の画像及び第2の画像ドメイン内の第2の画像に基づいて決定される。第1及び第2の画像ドメイン内の画像は異なるスタイルを有しており、画像内の対象は互いにジオメトリ変形を受けている。ブロック520において、第2の画像ドメインから第1の画像ドメインへのジオメトリ変形を第2の画像に対して実行して、中間画像が生成され、当該中間画像は第2の画像と同じスタイルを継承している。ブロック530において、第1の画像ドメインから第2の画像ドメインへのスタイル変換用の第2の学習ネットワークが第1の画像及び中間画像に基づいて決定される。
[00120] いくつかの実装において、第1の学習ネットワークを決定することは、第1の画像内の対象のジオメトリの第1の目標点及び第2の画像内の対象のジオメトリの第2の目標点を抽出することと、第1の目標点の第1の主成分分析(PCA)表現及び第2の目標点の第2のPCA表現を決定することと、第1及び第2のPCA表現に基づいて第1の学習ネットワークを決定することとを含む。
[00121] いくつかの実装において、第1の学習ネットワークは第1の敵対的生成ネットワーク(GAN)に基づいており、第1の学習ネットワークを決定することは、第1のGANの第1のサブネットワークを用いて、第1の画像ドメインから第2の画像ドメインへのジオメトリ変形を第1の画像に対して実行して、第1の画像内の対象の第1のジオメトリを第1の変形されたジオメトリに変形することと、第1の平均ジオメトリを第1の画像ドメイン内の複数の画像内の対象のジオメトリの平均とし、第2の平均ジオメトリを第2の画像ドメイン内の複数の画像内の対象のジオメトリの平均として、第1のジオメトリと第1の平均ジオメトリとの第1の差異及び第1の変形されたジオメトリと第2の平均ジオメトリとの第2の差異を決定することと、第1と第2の差異間の差異が減少するように第1のGANで第1のサブネットワークを更新することとを含み、更新された第1のサブネットワークを第1の学習ネットワークとして決定する。
[00122] いくつかの実装において、第1のGANの第1のサブネットワークを更新することは更に、第1のGANの第2のサブネットワークを用いて、第2の画像ドメインから第1の画像ドメインへのジオメトリ変形を第2の画像に対して実行して、第2の画像内の対象の第2のジオメトリを第2の変形されたジオメトリに変形することと、第2のジオメトリと第2の平均ジオメトリとの第3の差異及び第2の変形されたジオメトリと第1の平均ジオメトリとの第4の差異を決定することと、第1のGANの第1及び第2のサブネットワークを、第3と第4の差異間の差異も減少するように共同更新することとを含む。
[00123] いくつかの実装において、第2の画像ドメインから第1の画像ドメインへのジオメトリ変形を実行することは、更新された第2のサブネットワークを用いて第2の画像ドメインから第1の画像ドメインへのジオメトリ変形を実行することを含む。
[00124] いくつかの実装において、第2の学習ネットワークは第2の敵対的生成ネットワーク(GAN)に基づいており、第2の学習ネットワークを決定することが、第2のGANの第1のサブネットワークを用いて、第1の画像ドメインから第2の画像ドメインへのスタイル変換を第1の画像に対して実行して、第1のスタイルの第1の画像を、第2のスタイルであって、第2の画像ドメイン内の複数のスタイルからランダムに選択された、第2のスタイルの第1の予測画像に変換することと、第1の予測画像と第1の画像とのコンテンツの差異が減少するように第2のGANの第1のサブネットワークを更新することとを含み、更新された第1のサブネットワークを第2の学習ネットワークとして決定する。
[00125] いくつかの実装において、第2のGANの第1のサブネットワークを更新することが更に、第2のGANの第2のサブネットワークを用いて、第2の画像ドメインから第1の画像ドメインへのスタイル変換を中間画像に対して実行して、第3のスタイルの中間画像を、第4のスタイルであって、第1の画像ドメイン内の複数のスタイルからランダムに選択された、第4のスタイルの第2の予測画像に変換することと、第2の予測画像と中間画像とのコンテンツの差異が減少するように第2のGANの第1及び第2のサブネットワークを共同更新することとを含む。
[00126] 図5Bに、本明細書に記述するように主題のいくつかの実装に従い学習ネットワークを訓練する処理550のフロー図を示す。処理550は、計算装置100又は計算装置100と同様の他の装置又は装置クラスタにより実行されてよい。
[00127] ブロック560において、第1の画像ドメインから第2の画像ドメインへのジオメトリ変形用の第1の学習ネットワークが、第1の画像ドメイン内の第1の画像及び第2の画像ドメイン内の第2の画像に基づいて決定される。第1及び第2の画像ドメイン内の画像は異なるスタイルを有し、画像内の対象は互いにジオメトリ変形を受けている。ブロック570において、第1の画像ドメインから第2の画像ドメインへのジオメトリ変形を第1の画像に対して実行して、中間画像が生成され、当該中間画像は第1の画像と同じスタイルを継承している。ブロック589において、第1の画像ドメインから第2の画像ドメインへのスタイル変換用の第2の学習ネットワークが中間画像及び第2の画像に基づいて決定される。
[00128] いくつかの実装において、第1の学習ネットワークを決定することは、第1の画像内の対象のジオメトリの第1の目標点及び第2の画像内の対象のジオメトリの第2の目標点を抽出することと、第1の目標点の第1の主成分分析(PCA)表現及び第2の目標点の第2のPCA表現を決定することと、第1及び第2のPCA表現に基づいて第1の学習ネットワークを決定することとを含む。
[00129] いくつかの実装において、第1の学習ネットワークは第1の敵対的生成ネットワーク(GAN)に基づいている。第1の学習ネットワークを決定することは、第1のGANの第1のサブネットワークを用いて、第1の画像ドメインから第2の画像ドメインへのジオメトリ変形を第1の画像に対して実行して、第1の画像内の対象の第1のジオメトリを第1の変形されたジオメトリに変形することと、第1の平均ジオメトリを第1の画像ドメイン内の複数の画像内の対象のジオメトリの平均とし、第2の平均ジオメトリを第2の画像ドメイン内の複数の画像内の対象のジオメトリの平均として、第1のジオメトリと第1の平均ジオメトリとの第1の差異及び第1の変形されたジオメトリと第2の平均ジオメトリとの第2の差異を決定することと、第1と第2の差異間の差異が減少するように第1のGANの第1のサブネットワークを更新することとを含み、更新された第1のサブネットワークを第1の学習ネットワークとして決定する。
[00130] いくつかの実装において、第1のGANの第1のサブネットワークを更新することは、第1のGANの第2のサブネットワークを用いて、第2の画像ドメインから第1の画像ドメインへのジオメトリ変形を第2の画像に対して実行して、第2の画像内の対象の第2のジオメトリを第2の変形されたジオメトリに変形することと、第2のジオメトリと第2の平均ジオメトリとの第3の差異及び第2の変形されたジオメトリと第1の平均ジオメトリとの第4の差異を決定することと、第3と第4の差異間の差異が減少するように第1のGANの第1及び第2のサブネットワークを共同更新することとを含む。
[00131] いくつかの実装において、第2の画像ドメインから第1の画像ドメインへのジオメトリ変形を実行することが、更新された第2のサブネットワークを用いて、第2の画像ドメインから第1の画像ドメインへのジオメトリ変形を実行することを含む。
[00132] いくつかの実装において、第2の学習ネットワークは第2の敵対的生成ネットワーク(GAN)に基づいている。第2の学習ネットワークを決定することは、第2のGANの第1のサブネットワークを用いて、第1の画像ドメインから第2の画像ドメインへのスタイル変換を中間画像に対して実行して、第1のスタイルの中間画像を第2のスタイルであって、第2の画像ドメイン内の複数のスタイルからランダムに選択された、第2のスタイルの第1の予測画像に変換することと、第1の予測画像と第1の画像とのコンテンツの差異が減少するように第2のGANの第1のサブネットワークを更新することとを含み、更新された第1のサブネットワークを第2の学習ネットワークとして決定する。
[00133] いくつかの実装において、第2のGANの第1のサブネットワークを更新することが更に、第2のGANの第2のサブネットワークを用いて、第2の画像ドメインから第1の画像ドメインへのスタイル変換を第2の画像に対して実行して、第3のスタイルの第2の画像を第4のスタイルの第2の予測画像に変換することと、第4のスタイルが第1の画像ドメイン内の複数のスタイルからランダムに選択されることと、第2の予測画像と第2の画像とのコンテンツの差異が減少するように第2のGANの第1及び第2のサブネットワークを共同更新することとを含む。
[00134] 図6Aに、本明細書に記述するように主題のいくつかの実装に従いクロスドメイン画像変換を行う処理600のフロー図を示す。処理600は計算装置100により実行されてよく、例えば計算装置100のメモリ120内の画像変換モジュール122で実行されてよい。
[00135] ブロック610において、原画像に対してジオメトリ変形を実行して原画像内の対象の第1のジオメトリを第2のジオメトリに変形する。ブロック620において、スタイル変換を原画像に対して実行して、第1のスタイルの原画像を第2のスタイルの中間画像に変換する。ブロック630において、中間画像内の対象を第2のジオメトリに基づいて変換して目標画像が生成され、当該目標画像は中間画像と同じ第2のスタイルを継承している。
[00136] いくつかの実装において、ジオメトリ変形を実行することは、第1のジオメトリを表す原画像の目標点を決定することと、当該目標点の主成分分析(PCA)表現を生成することと、当該PCA表現に対してジオメトリ変形を実行することと、変形されたPCA表現に基づいて第2のジオメトリを表す変形された目標点を決定することとを含む。
[00137] いくつかの実装において、ジオメトリ変形を実行することは、対象の変形程度の指標を取得することと、当該変形程度に基づいて第1のジオメトリを第2のジオメトリに変換することとを含む。
[00138] いくつかの実装において、原画像に対してスタイル変換を実行することは、原画像のコンテンツ関連特徴表現を抽出することと、第2のスタイルに関連付けられた外観関連特徴表現を決定することと、コンテンツ関連特徴表現及び外観関連特徴表現に基づいて中間画像を生成することとを含む。
[00139] いくつかの実装において、外観関連特徴表現を決定することが、複数の所定の外観関連特徴表現から当該外観関連特徴表現をランダムに選択すること、又は第2のスタイルに関係する取得指標又は第2のスタイルの基準画像に基づいて外観関連特徴表現を決定することを含む。
[00140] いくつかの実装において、ジオメトリ変形を実行することは、第1の学習ネットワークであって、敵対的生成ネットワーク(GAN)に基づいて決定された、第1の学習ネットワークを用いてジオメトリ変形を実行することを含む。いくつかの実装において、スタイル変換を実行することは、第2の学習ネットワークであって、別の敵対的生成ネットワーク(GAN)に基づいて決定された、第2の学習ネットワークを用いてスタイル変換を実行することを含む。
[00141] 図6Bに、本明細書に記述するように主題のいくつかの実装に従いクロスドメイン画像変換を行う処理650のフロー図を示す。処理650は計算装置100により実行されてよく、例えば計算装置100のメモリ120内の画像変換モジュール122で実行されてよい。
[00142] ブロック660において、原画像に対してジオメトリ変形を実行して原画像内の対象の第1のジオメトリを第2のジオメトリに変形する。ブロック670において、第2のジオメトリに基づいて原画像内の対象が変換されて中間画像が生成され、当該中間画像は原画像と同じ第1のスタイルを継承している。ブロック680において、中間画像に対してスタイル変換を実行して第1のスタイルの中間画像を第2のスタイルの目標画像に変換する。
[00143] いくつかの実装において、ジオメトリ変形を実行することは、第1のジオメトリを表す原画像の目標点を決定することと、当該目標点の主成分分析(PCA)表現を生成することと、当該PCA表現に対してジオメトリ変形を実行することと、変形されたPCA表現に基づいて第2のジオメトリを表す変形された目標点を決定することとを含む。
[00144] いくつかの実装において、ジオメトリ変形を実行することは、対象の変形程度の指標を取得することと、当該変形程度に基づいて第1のジオメトリを第2のジオメトリに変換することとを含む。
[00145] いくつかの実装において、原画像に対してスタイル変換を実行することは、原画像のコンテンツ関連特徴表現を抽出することと、第2のスタイルに関連付けられた外観関連特徴表現を決定することと、コンテンツ関連特徴表現及び外観関連特徴表現に基づいて中間画像を生成することとを含む。
[00146] いくつかの実装において、外観関連特徴表現を決定することは、複数の所定の外観関連特徴表現から当該外観関連特徴表現をランダムに選択すること、又は第2のスタイルに関係する取得指標又は第2のスタイルの基準画像に基づいて外観関連特徴表現を決定することを含む。
[00147] いくつかの実装において、ジオメトリ変形を実行することは、第1の学習ネットワークであって、敵対的生成ネットワーク(GAN)に基づいて決定された、第1の学習ネットワークを用いてジオメトリ変形を実行することを含む。いくつかの実装において、スタイル変換を実行することは、第2の学習ネットワークであって、別の敵対的生成ネットワーク(GAN)に基づいて決定された、第2の学習ネットワークを用いてスタイル変換を実行することを含む。
実装例
[00148] 本明細書に記述する主題のいくつかの実装例を以下に列挙する。
[00149] 一態様において、本明細書に記述する主題はコンピュータ実装方法であって、第1の画像ドメインから第2の画像ドメインへのジオメトリ変形用の第1の学習ネットワークを、第1及び第2の画像ドメイン内の画像が異なるスタイルを有し、当該画像内の対象が互いにジオメトリ変形を受けている、第1の画像ドメイン内の第1の画像及び第2の画像ドメイン内の第2の画像に基づいて決定することと、第2の画像ドメインから第1の画像ドメインへのジオメトリ変形を第2の画像に対して実行して、第2の画像と同じスタイルを継承する中間画像を生成することと、第1の画像及び中間画像に基づいて第1の画像ドメインから第2の画像ドメインへのスタイル変換用の第2の学習ネットワークを決定することとを含む。
[00150] いくつかの実装において、第1の学習ネットワークを決定することは、第1の画像内の対象のジオメトリの第1の目標点及び第2の画像内の対象のジオメトリの第2の目標点を抽出することと、第1の目標点の第1の主成分分析(PCA)表現及び第2の目標点の第2のPCA表現を決定することと、第1及び第2のPCA表現に基づいて第1の学習ネットワークを決定することとを含む。
[00151] いくつかの実装において、第1の学習ネットワークは第1の敵対的生成ネットワーク(GAN)に基づいており、第1の学習ネットワークを決定することは、第1のGANの第1のサブネットワークを用いて、第1の画像ドメインから第2の画像ドメインへのジオメトリ変形を第1の画像に対して実行して、第1の画像内の対象の第1のジオメトリを第1の変形されたジオメトリに変形することと、第1の平均ジオメトリを第1の画像ドメイン内の複数の画像内の対象のジオメトリの平均とし、第2の平均ジオメトリを第2の画像ドメイン内の複数の画像内の対象のジオメトリの平均として、第1のジオメトリと第1の平均ジオメトリとの第1の差異及び第1の変形されたジオメトリと第2の平均ジオメトリとの第2の差異を決定することと、第1と第2の差異間の差異が減少するように第1のGANの第1のサブネットワークを更新することとを含み、更新された第1のサブネットワークを第1の学習ネットワークとして決定する。
[00152] いくつかの実装において、第1のGANの第1のサブネットワークを更新することは更に、第1のGANの第2のサブネットワークを用いて、第2の画像ドメインから第1の画像ドメインへのジオメトリ変形を第2の画像に対して実行して、第2の画像内の対象の第2のジオメトリを第2の変形されたジオメトリに変形することと、第2のジオメトリと第2の平均ジオメトリとの第3の差異及び第2の変形されたジオメトリと第1の平均ジオメトリとの第4の差異を決定することと、第3と第4の差異間の差異も減少するように第1のGANの第1及び第2のサブネットワークを共同更新することとを含む。
[00153] いくつかの実装において、第2の画像ドメインから第1の画像ドメインへのジオメトリ変形を実行することは、更新された第2のサブネットワークを用いて、第2の画像ドメインから第1の画像ドメインへのジオメトリ変形を実行することを含む。
[00154] いくつかの実装において、第2の学習ネットワークは第2の敵対的生成ネットワーク(GAN)に基づいており、第2の学習ネットワークを決定することは、第2のGANの第1のサブネットワークを用いて、第1の画像ドメインから第2の画像ドメインへのスタイル変換を第1の画像に対して実行して、第1のスタイルの第1の画像を第2のスタイルであって、第2の画像ドメイン内の複数のスタイルからランダムに選択された、第2のスタイルの第1の予測画像に変換することと、第1の予測画像と第1の画像とのコンテンツの差異が減少するように第2のGANの第1のサブネットワークを更新することとを含み、更新された第1のサブネットワークを第2の学習ネットワークとして決定する。
[00155] いくつかの実装において、第2のGANの第1のサブネットワークを更新することは更に、第2のGANの第2のサブネットワークを用いて、第2の画像ドメインから第1の画像ドメインへのスタイル変換を中間画像に対して実行して、第3のスタイルの中間画像を第4のスタイルであって、第1の画像ドメイン内の複数のスタイルからランダムに選択された、第4のスタイルの第2の予測画像に変換することと、第2の予測画像と中間画像とのコンテンツの差異が減少するように第2のGANの第1及び第2のサブネットワークを共同更新することとを含む。
[00156] 第2の態様において、本明細書に記述する主題は電子装置を提供する。当該電子装置は、処理部と、当該処理部に結合されていて、当該処理部により実行されたならば、当該装置に以下の動作、すなわち第1の画像ドメインから第2の画像ドメインへのジオメトリ変形用の第1の学習ネットワークを、第1及び第2の画像ドメイン内の画像が異なるスタイルを有し、当該画像内の対象が互いにジオメトリ変形を受けている、第1の画像ドメイン内の第1の画像及び第2の画像ドメイン内の第2の画像に基づいて決定することと、第2の画像ドメインから第1の画像ドメインへのジオメトリ変形を第2の画像に対して実行して、第2の画像と同じスタイルを継承する中間画像を生成することと、第1の画像及び中間画像に基づいて第1の画像ドメインから第2の画像ドメインへのスタイル変換用の第2の学習ネットワークを決定することとを実行させる命令を保存しているメモリを含む。
[00157] いくつかの実装において、第1の学習ネットワークを決定することは、第1の画像内の対象のジオメトリの第1の目標点及び第2の画像内の対象のジオメトリの第2の目標点を抽出することと、第1の目標点の第1の主成分分析(PCA)表現及び第2の目標点の第2のPCA表現を決定することと、第1及び第2のPCA表現に基づいて第1の学習ネットワークを決定することとを含む。
[00158] いくつかの実装において、第1の学習ネットワークは、第1の敵対的生成ネットワーク(GAN)に基づいており、第1の学習ネットワークを決定することは、第1のGANの第1のサブネットワークを用いて、第1の画像ドメインから第2の画像ドメインへのジオメトリ変形を第1の画像に対して実行して、第1の画像内の対象の第1のジオメトリを第1の変形されたジオメトリに変形することと、第1の平均ジオメトリを第1の画像ドメイン内の複数の画像内の対象のジオメトリの平均とし、第2の平均ジオメトリを第2の画像ドメイン内の複数の画像内の対象のジオメトリの平均として、第1のジオメトリと第1の平均ジオメトリとの第1の差異及び第1の変形されたジオメトリと第2の平均ジオメトリとの第2の差異を決定することと、第1と第2の差異間の差異が減少するように第1のGANの第1のサブネットワークを更新することとを含み、更新された第1のサブネットワークを第1の学習ネットワークとして決定する。
[00159] いくつかの実装において、第1のGANの第1のサブネットワークを更新することは更に、第1のGANの第2のサブネットワークを用いて、第2の画像ドメインから第1の画像ドメインへのジオメトリ変形を第2の画像に対して実行して、第2の画像内の対象の第2のジオメトリを第2の変形されたジオメトリに変形することと、第2のジオメトリと第2の平均ジオメトリとの第3の差異及び第2の変形されたジオメトリと第1の平均ジオメトリとの第4の差異を決定することと、第3と第4の差異間の差異も減少するように第1のGANの第1及び第2のサブネットワークを共同更新することとを含む。
[00160] いくつかの実装において、第2の画像ドメインから第1の画像ドメインへのジオメトリ変形を実行することは、更新された第2のサブネットワークを用いて第2の画像ドメインから第1の画像ドメインへのジオメトリ変形を実行することを含む。
[00161] いくつかの実装において、第2の学習ネットワークは第2の敵対的生成ネットワーク(GAN)に基づいており、第2の学習ネットワークを決定することは、第2のGANの第1のサブネットワークを用いて、第1の画像ドメインから第2の画像ドメインへのスタイル変換を第1の画像に対して実行して、第1のスタイルの第1の画像を第2のスタイルであって、第2の画像ドメイン内の複数のスタイルからランダムに選択された、第2のスタイルの第1の予測画像に変換することと、第1の予測画像と第1の画像とのコンテンツの差異が減少するように第2のGANの第1のサブネットワークを更新することとを含み、更新された第1のサブネットワークを第2の学習ネットワークとして決定する。
[00162] いくつかの実装において、第2のGANの第1のサブネットワークを更新することは更に、第2のGANの第2のサブネットワークを用いて、第2の画像ドメインから第1の画像ドメインへのスタイル変換を中間画像に対して実行して、第3のスタイルの中間画像を第4のスタイルであって、第1の画像ドメイン内の複数のスタイルからランダムに選択された、第4のスタイルの第2の予測画像に変換することと、第2の予測画像と中間画像とのコンテンツの差異が減少するように第2のGANの第1及び第2のサブネットワークを共同更新することとを含む。
[00163] 第3の態様において、本明細書に記述する主題は、コンピュータ実装方法を提供する。本方法は、第1の画像ドメインから第2の画像ドメインへのジオメトリ変形用の第1の学習ネットワークを、第1及び第2の画像ドメイン内の画像が異なるスタイルを有し、当該画像内の対象が互いにジオメトリ変形を受けている、第1の画像ドメイン内の第1の画像及び第2の画像ドメイン内の第2の画像に基づいて決定することと、第1の画像ドメインから第2の画像ドメインへのジオメトリ変形を第1の画像に対して実行して、第1の画像と同じスタイルを継承する中間画像を生成することと、中間画像及び第2の画像に基づいて第1の画像ドメインから第2の画像ドメインへのスタイル変換用の第2の学習ネットワークを決定することとを含む。
[00164] いくつかの実装において、第1の学習ネットワークを決定することは、第1の画像内の対象のジオメトリの第1の目標点及び第2の画像内の対象のジオメトリの第2の目標点を抽出することと、第1の目標点の第1の主成分分析(PCA)表現及び第2の目標点の第2のPCA表現を決定することと、第1及び第2のPCA表現に基づいて第1の学習ネットワークを決定することとを含む。
[00165] いくつかの実装において、第1の学習ネットワークは第1の敵対的生成ネットワーク(GAN)に基づいている。第1の学習ネットワークを決定することは、第1のGANの第1のサブネットワークを用いて、第1の画像ドメインから第2の画像ドメインへのジオメトリ変形を第1の画像に対して実行して、第1の画像内の対象の第1のジオメトリを第1の変形されたジオメトリに変形することと、第1の平均ジオメトリを第1の画像ドメイン内の複数の画像内の対象のジオメトリの平均とし、第2の平均ジオメトリを第2の画像ドメイン内の複数の画像内の対象のジオメトリの平均として、第1のジオメトリと第1の平均ジオメトリとの第1の差異及び第1の変形されたジオメトリと第2の平均ジオメトリとの第2の差異を決定することと、第1と第2の差異間の差異が減少するように第1のGANの第1のサブネットワークを更新することとを含み、更新された第1のサブネットワークを第1の学習ネットワークとして決定する。
[00166] いくつかの実装において、第1のGANの第1のサブネットワークを更新することは、第1のGANの第2のサブネットワークを用いて、第2の画像ドメインから第1の画像ドメインへのジオメトリ変形を第2の画像に対して実行して、第2の画像内の対象の第2のジオメトリを第2の変形されたジオメトリに変形することと、第2のジオメトリと第2の平均ジオメトリとの第3の差異及び第2の変形されたジオメトリと第1の平均ジオメトリとの第4の差異を決定することと、第3と第4の差異間の差異が減少するように第1のGANの第1及び第2のサブネットワークを共同更新することとを含む。
[00167] いくつかの実装において、第2の画像ドメインから第1の画像ドメインへのジオメトリ変形を実行することは、更新された第2のサブネットワークを用いて第2の画像ドメインから第1の画像ドメインへのジオメトリ変形を実行することを含む。
[00168] いくつかの実装において、第2の学習ネットワークは、第2の敵対的生成ネットワーク(GAN)に基づいている。第2の学習ネットワークを決定することは、第2のGANの第1のサブネットワークを用いて、第1の画像ドメインから第2の画像ドメインへのスタイル変換を中間画像に対して実行して、第1のスタイルの中間画像を第2のスタイルであって、第2の画像ドメイン内の複数のスタイルからランダムに選択された、第2のスタイルの第1の予測画像に変換することと、第1の予測画像と第1の画像とのコンテンツの差異が減少するように第2のGANの第1のサブネットワークを更新することとを含み、更新された第1のサブネットワークを第2の学習ネットワークとして決定する。
[00169] いくつかの実装において、第2のGANの第1のサブネットワークを更新することは更に、第2のGANの第2のサブネットワークを用いて、第2の画像ドメインから第1の画像ドメインへのスタイル変換を第2の画像に対して実行して、第3のスタイルの第2の画像を第4のスタイルであって、第1の画像ドメイン内の複数のスタイルからランダムに選択された、第4のスタイルの第2の予測画像に変換することと、第2の予測画像と第2の画像とのコンテンツの差異が減少するように第2のGANの第1及び第2のサブネットワークを共同更新することとを含む。
[00170] 第4の態様において、本明細書に記述する主題は電子装置を提供する。当該電子装置は、処理部と、当該処理部に結合されていて、当該処理部により実行されたならば、当該装置に以下の動作、すなわち第1の画像ドメインから第2の画像ドメインへのジオメトリ変形用の第1の学習ネットワークを、第1及び第2の画像ドメイン内の画像が異なるスタイルを有し、当該画像内の対象が互いにジオメトリ変形を受けている、第1の画像ドメイン内の第1の画像及び第2の画像ドメイン内の第2の画像に基づいて決定することと、第1の画像ドメインから第2の画像ドメインへのジオメトリ変形を第1の画像に対して実行して、第1の画像と同じスタイルを継承する中間画像を生成することと、中間画像及び第2の画像に基づいて第1の画像ドメインから第2の画像ドメインへのスタイル変換用の第2の学習ネットワークを決定することとを実行させる命令を保存しているメモリを含む。
[00171] いくつかの実装において、第1の学習ネットワークを決定することは、第1の画像内の対象のジオメトリの第1の目標点及び第2の画像内の対象のジオメトリの第2の目標点を抽出することと、第1の目標点の第1の主成分分析(PCA)表現及び第2の目標点の第2のPCA表現を決定することと、第1及び第2のPCA表現に基づいて第1の学習ネットワークを決定することとを含む。
[00172] いくつかの実装において、第1の学習ネットワークは第1の敵対的生成ネットワーク(GAN)に基づいている。第1の学習ネットワークを決定することは、第1のGANの第1のサブネットワークを用いて、第1の画像ドメインから第2の画像ドメインへのジオメトリ変形を第1の画像に対して実行して、第1の画像内の対象の第1のジオメトリを第1の変形されたジオメトリに変形することと、第1の平均ジオメトリを第1の画像ドメイン内の複数の画像内の対象のジオメトリの平均とし、第2の平均ジオメトリを第2の画像ドメイン内の複数の画像内の対象のジオメトリの平均として、第1のジオメトリと第1の平均ジオメトリとの第1の差異及び第1の変形されたジオメトリと第2の平均ジオメトリとの第2の差異を決定することと、第1と第2の差異間の差異が減少するように第1のGANの第1のサブネットワークを更新することとを含み、更新された第1のサブネットワークを第1の学習ネットワークとして決定する。
[00173] いくつかの実装において、第1のGANの第1のサブネットワークを更新することは、第1のGANの第2のサブネットワークを用いて、第2の画像ドメインから第1の画像ドメインへのジオメトリ変形を第2の画像に対して実行して、第2の画像内の対象の第2のジオメトリを第2の変形されたジオメトリに変形することと、第2のジオメトリと第2の平均ジオメトリとの第3の差異及び第2の変形されたジオメトリと第1の平均ジオメトリとの第4の差異を決定することと、第3と第4の差異間の差異が減少するように第1のGANの第1及び第2のサブネットワークを共同更新することとを含む。
[00174] いくつかの実装において、第2の画像ドメインから第1の画像ドメインへのジオメトリ変形を実行することは、更新された第2のサブネットワークを用いて第2の画像ドメインから第1の画像ドメインへのジオメトリ変形を実行することを含む。
[00175] いくつかの実装において、第2の学習ネットワークは第2の敵対的生成ネットワーク(GAN)に基づいている。第2の学習ネットワークを決定することは、第2のGANの第1のサブネットワークを用いて、第1の画像ドメインから第2の画像ドメインへのスタイル変換を中間画像に対して実行して、第1のスタイルの中間画像を第2のスタイルであって、第2の画像ドメイン内の複数のスタイルからランダムに選択された、第2のスタイルの第1の予測画像に変換することと、第1の予測画像と第1の画像とのコンテンツの差異が減少するように第2のGANの第1のサブネットワークを更新することとを含み、更新された第1のサブネットワークを第2の学習ネットワークとして決定する。
[00176] いくつかの実装において、第2のGANの第1のサブネットワークを更新することは更に、第2のGANの第2のサブネットワークを用いて、第2の画像ドメインから第1の画像ドメインへのスタイル変換を第2の画像に対して実行して、第3のスタイルの第2の画像を第4のスタイルであって、第1の画像ドメイン内の複数のスタイルからランダムに選択された、第4のスタイルの第2の予測画像に変換することと、第2の予測画像と第2の画像とのコンテンツの差異が減少するように第2のGANの第1及び第2のサブネットワークを共同更新することとを含む。
[00177] 第5の態様において、本明細書に記述する主題はコンピュータ実装方法を提供する。本方法は、原画像に対してジオメトリ変形を実行して原画像内の対象の第1のジオメトリを第2のジオメトリに変形することと、原画像に対してスタイル変換を実行して第1のスタイルの原画像を第2のスタイルの中間画像に変換することと、第2のジオメトリに基づいて中間画像内の対象を変換して中間画像と同じ第2のスタイルを継承する目標画像を生成することとを含む。
[00178] いくつかの実装において、ジオメトリ変形を実行することは、第1のジオメトリを表す原画像の目標点を決定することと、当該目標点の主成分分析(PCA)表現を生成することと、当該PCA表現に対してジオメトリ変形を実行することと、変形されたPCA表現に基づいて第2のジオメトリを表す変形された目標点を決定することとを含む。
[00179] いくつかの実装において、ジオメトリ変形を実行することは、対象の変形程度の指標を取得することと、当該変形程度に基づいて第1のジオメトリを第2のジオメトリに変換することとを含む。
[00180] いくつかの実装において、原画像に対してスタイル変換を実行することは、原画像のコンテンツ関連特徴表現を抽出することと、第2のスタイルに関連付けられた外観関連特徴表現を決定することと、コンテンツ関連特徴表現及び外観関連特徴表現に基づいて中間画像を生成することとを含む。
[00181] いくつかの実装において、外観関連特徴表現を決定することは、複数の所定の外観関連特徴表現から当該外観関連特徴表現をランダムに選択すること、又は第2のスタイルに関係する取得指標又は第2のスタイルの基準画像に基づいて外観関連特徴表現を決定することを含む。
[00182] いくつかの実装において、ジオメトリ変形を実行することは、第1の学習ネットワークであって、敵対的生成ネットワーク(GAN)に基づいて決定された、第1の学習ネットワークを用いてジオメトリ変形を実行することを含む。いくつかの実装において、スタイル変換を実行することは、第2の学習ネットワークであって、別の敵対的生成ネットワーク(GAN)に基づいて決定された、第2の学習ネットワークを用いてスタイル変換を実行することを含む。
[00183] 第6の態様において、本明細書に記述する主題は電子装置を提供する。当該電子装置は、処理部と、当該処理部に結合されていて、当該処理部により実行されたならば、当該装置に以下の動作、すなわち原画像に対してジオメトリ変形を実行して原画像内の対象の第1のジオメトリを第2のジオメトリに変形することと、原画像に対してスタイル変換を実行して第1のスタイルの原画像を第2のスタイルの中間画像に変換することと、第2のジオメトリに基づいて中間画像内の対象を変換して中間画像と同じ第2のスタイルを継承する目標画像を生成することとを実行させる命令を保存しているメモリを含む。
[00184] いくつかの実装において、ジオメトリ変形を実行することは、第1のジオメトリを表す原画像の目標点を決定することと、当該目標点の主成分分析(PCA)表現を生成することと、当該PCA表現に対してジオメトリ変形を実行することと、変形されたPCA表現に基づいて第2のジオメトリを表す変形された目標点を決定することとを含む。
[00185] いくつかの実装において、ジオメトリ変形を実行することは、対象の変形程度の指標を取得することと、当該変形程度に基づいて第1のジオメトリを第2のジオメトリに変換することとを含む。
[00186] いくつかの実装において、原画像に対してスタイル変換を実行することは、原画像のコンテンツ関連特徴表現を抽出することと、第2のスタイルに関連付けられた外観関連特徴表現を決定することと、コンテンツ関連特徴表現及び外観関連特徴表現に基づいて中間画像を生成することとを含む。
[00187] いくつかの実装において、外観関連特徴表現を決定することは、複数の所定の外観関連特徴表現から外観関連特徴表現をランダムに選択すること、又は第2のスタイルに関係する取得指標又は第2のスタイルの基準画像に基づいて外観関連特徴表現を決定することを含む。
[00188] いくつかの実装において、ジオメトリ変形を実行することは、第1の学習ネットワークであって、第1の敵対的生成ネットワーク(GAN)に基づいて決定された、第1の学習ネットワークを用いてジオメトリ変形を実行することを含む。いくつかの実装において、スタイル変換を実行することは、第2の学習ネットワークであって、第2のGANネットワークに基づいて決定された、第2の学習ネットワークを用いてスタイル変換を実行することを含む。
[00189] 第7の態様において、本明細書に記述する主題はコンピュータ実装方法を提供する。本方法は、原画像に対してジオメトリ変形を実行して原画像内の対象の第1のジオメトリを第2のジオメトリに変形することと、第2のジオメトリに基づいて原画像内の対象を変換して原画像と同じ第1のスタイルを継承する中間画像を生成することと、中間画像に対してスタイル変換を実行して第1のスタイルの中間画像を第2のスタイルの目標画像に変換することとを含む。
[00190] いくつかの実装において、ジオメトリ変形を実行することは、第1のジオメトリを表す原画像の目標点を決定することと、当該目標点の主成分分析(PCA)表現を生成することと、当該PCA表現に対してジオメトリ変形を実行することと、変形されたPCA表現に基づいて第2のジオメトリを表す変形された目標点を決定することとを含む。
[00191] いくつかの実装において、ジオメトリ変形を実行することは、対象の変形程度の指標を取得することと、当該変形程度に基づいて第1のジオメトリを第2のジオメトリに変換することとを含む。
[00192] いくつかの実装において、原画像に対してスタイル変換を実行することは、原画像のコンテンツ関連特徴表現を抽出することと、第2のスタイルに関連付けられた外観関連特徴表現を決定することと、コンテンツ関連特徴表現及び外観関連特徴表現に基づいて中間画像を生成することとを含む。
[00193] いくつかの実装において、外観関連特徴表現を決定することは、複数の所定の外観関連特徴表現から外観関連特徴表現をランダムに選択すること、又は第2のスタイルに関係する取得指標又は第2のスタイルの基準画像に基づいて外観関連特徴表現を決定することを含む。
[00194] いくつかの実装において、ジオメトリ変形を実行することは、第1の学習ネットワークであって、敵対的生成ネットワーク(GAN)に基づいて決定された、第1の学習ネットワークを用いてジオメトリ変形を実行することを含む。いくつかの実装において、スタイル変換を実行することは、第2の学習ネットワークであって、別の敵対的生成ネットワーク(GAN)に基づいて決定された、第2の学習ネットワークを用いてスタイル変換を実行することを含む。
[00195] 第8の態様において、本明細書に記述する主題は電子装置を提供する。当該電子装置は、処理部と、当該処理部に結合されていて、当該処理部により実行されたならば、当該装置に以下の動作、すなわち原画像に対してジオメトリ変形を実行して原画像内の対象の第1のジオメトリを第2のジオメトリに変形することと、第2のジオメトリに基づいて原画像内の対象を変換して原画像と同じ第1のスタイルを継承する中間画像を生成することと、中間画像に対してスタイル変換を実行して第1のスタイルの中間画像を第2のスタイルの目標画像に変換することとを実行させる命令を保存しているメモリを含む。
[00196] いくつかの実装において、ジオメトリ変形を実行することは、第1のジオメトリを表す原画像の目標点を決定することと、当該目標点の主成分分析(PCA)表現を生成することと、当該PCA表現に対してジオメトリ変形を実行することと、変形されたPCA表現に基づいて第2のジオメトリを表す変形された目標点を決定することとを含む。
[00197] いくつかの実装において、ジオメトリ変形を実行することは、対象の変形程度の指標を取得することと、当該変形程度に基づいて第1のジオメトリを第2のジオメトリに変換することとを含む。
[00198] いくつかの実装において、原画像に対してスタイル変換を実行することは、原画像のコンテンツ関連特徴表現を抽出することと、第2のスタイルに関連付けられた外観関連特徴表現を決定することと、コンテンツ関連特徴表現及び外観関連特徴表現に基づいて中間画像を生成することとを含む。
[00199] いくつかの実装において、外観関連特徴表現を決定することは、複数の所定の外観関連特徴表現から外観関連特徴表現をランダムに選択すること、又は第2のスタイルに関係する取得指標又は第2のスタイルの基準画像に基づいて外観関連特徴表現を決定することを含む。
[00200] いくつかの実装において、ジオメトリ変形を実行することは、第1の学習ネットワークであって、第1の敵対的生成ネットワーク(GAN)に基づいて決定された、第1の学習ネットワークを用いてジオメトリ変形を実行することを含む。いくつかの実装において、スタイル変換を実行することは、第2の学習ネットワークであって、第2のGANネットワークに基づいて決定された、第2の学習ネットワークを用いてスタイル変換を実行することを含む。
[00201] 第10の態様において、本明細書に記述する主題は、非一時的コンピュータ記憶媒体に有形的に保存され、且つ当該装置により実行されたならば、当該装置に上述の態様の任意のものによる方法を実行させる機械実行可能な命令を含むコンピュータプログラム製品を提供する。
[00202] 本明細書に記述する機能は、少なくとも部分的に、1個以上のハードウェア論理要素により実行することができる。例えば、非限定的に、図示する種類の使用可能なハードウェア論理要素は、フィールドプログラム可能ゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップシステム(SOC)、復号プログラム可能論理素子(CPLD)等を含む。
[00203] 本明細書に記述する主題の方法を実行するプログラムコードは、1個以上のプログラミング言語を任意に組み合わせて書かれていてよい。プログラムコードは、汎用コンピュータ、専用コンピュータ、又は他のプログラム可能なデータ処理装置のプロセッサ又はコントローラに提供されて、プログラムコードがプロセッサ又はコントローラにより実行されたならばフロー図及び/又はブロック図で指定された機能/動作を実行させることができる。プログラムコードは、全部又は一部が機械上で実行されても、独立ソフトウェアパッケージとして一部が機械上で、一部がリモートマシン上で、又は全部がリモートマシン又はサーバ上で実行されてもよい。
[00204] 本開示の文脈において、機械可読媒体は、命令実行システム、装置、又は機器により、又はこれらと組み合わせて使用されるプログラムを包含又は保存できる任意の有形媒体であってよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってよい。機械可読媒体は、電子、磁気、光、電磁、赤外線、又は半導体システム、装置、又は機器、或いはこれらの任意の適当な組み合わせを含んでいてよいがこれらに限定されない。機械可読記憶媒体のより具体的な例として、1本以上の導線を有する電気接続、可搬コンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラム可能読み出し専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、可搬コンパクトディスク読み出し専用メモリ(CD-ROM)、光記憶装置、磁気記憶装置、又はこれらの任意の適当な組み合わせが含まれる。
[00205] 更に、動作を特定の順序で記述しているが、これはそのような動作を図示する特定の順序で、又は連続的な順序で実行する必要がある、又は所望の結果を得るために図示する全ての動作を実行する必要があるものと理解すべきでない。特定の状況において、マルチタスキング及び並列処理が有利な場合がある。同様に、いくつかの特定の実装の詳細が上述の議論に含まれているが、これらが本明細書に記述する主題の範囲を限定するものではなく、特定の実装に固有の特徴の記述であると解釈されたい。別々の実装の文脈で記述された特定の特徴が単一の実装を組み合わせて実装されてもよい。むしろ、単一の実装として記述されている各種の特徴を複数の実装に別々に、又は任意の適当な部分的組み合わせとして実装してもよい。
[00206] 上述の主題を構造上の特徴及び/又は方法論的動作に固有な言語で記述してきたが、添付の請求項で指定する主題が必ずしも上述の特定の特徴又は動作に限定される訳ではない点を理解されたい。むしろ、上述の特定の特徴及び動作は、請求項を実施する形式の例として開示されている。

Claims (19)

  1. コンピュータ実装方法であって、
    第1の画像ドメインから第2の画像ドメインへのジオメトリ変形用の第1の学習ネットワークを、前記第1及び第2の画像ドメイン内の画像が異なるスタイルを有し、前記画像内の対象が互いにジオメトリ変形を受けている、前記第1の画像ドメイン内の第1の画像及び前記第2の画像ドメイン内の第2の画像に基づいて決定することと、
    前記第2の画像ドメインから前記第1の画像ドメインへのジオメトリ変形を前記第2の画像に対して実行して、前記第2の画像と同じスタイルを継承する中間画像を生成することと、
    前記第1の画像及び前記中間画像に基づいて前記第1の画像ドメインから前記第2の画像ドメインへのスタイル変換用の第2の学習ネットワークを決定することと、
    を含む方法。
  2. 前記第1の学習ネットワークを決定することが、
    前記第1の画像内の対象のジオメトリの第1の目標点及び前記第2の画像内の対象のジオメトリの第2の目標点を抽出することと、
    前記第1の目標点の第1の主成分分析(PCA)表現及び前記第2の目標点の第2のPCA表現を決定することと、
    前記第1及び第2のPCA表現に基づいて前記第1の学習ネットワークを決定することと、
    を含む、請求項1に記載の方法。
  3. 前記第1の学習ネットワークが第1の敵対的生成ネットワーク(GAN)に基づいており、前記第1の学習ネットワークを決定することが、
    前記第1のGANの第1のサブネットワークを用いて、前記第1の画像ドメインから前記第2の画像ドメインへのジオメトリ変形を前記第1の画像に対して実行して、前記第1の画像内の対象の第1のジオメトリを第1の変形されたジオメトリに変形することと、
    第1の平均ジオメトリを前記第1の画像ドメイン内の複数の画像内の対象のジオメトリの平均とし、第2の平均ジオメトリを前記第2の画像ドメイン内の複数の画像内の対象のジオメトリの平均として、前記第1のジオメトリと前記第1の平均ジオメトリとの第1の差異及び前記第1の変形されたジオメトリと前記第2の平均ジオメトリとの第2の差異を決定することと、
    前記第1と第2の差異間の差異が減少するように前記第1のGANの前記第1のサブネットワークを更新することとを含み、
    前記更新された第1のサブネットワークを前記第1の学習ネットワークとして決定する、請求項1に記載の方法。
  4. 前記第1のGANの前記第1のサブネットワークを更新することが更に、
    前記第1のGANの第2のサブネットワークを用いて、前記第2の画像ドメインから前記第1の画像ドメインへの前記ジオメトリ変形を前記第2の画像に対して実行して、前記第2の画像内の対象の第2のジオメトリを第2の変形されたジオメトリに変形することと、
    前記第2のジオメトリと前記第2の平均ジオメトリとの第3の差異及び前記第2の変形されたジオメトリと前記第1の平均ジオメトリとの第4の差異を決定することと、
    前記第3と第4の差異間の差異も減少するように前記第1のGANの前記第1及び第2のサブネットワークを共同更新することとを含む、請求項3に記載の方法。
  5. 前記第2の画像ドメインから前記第1の画像ドメインへの前記ジオメトリ変形を実行することが、
    前記更新された第2のサブネットワークを用いて、前記第2の画像ドメインから前記第1の画像ドメインへの前記ジオメトリ変形を実行することを含む、請求項4に記載の方法。
  6. 前記第2の学習ネットワークが第2の敵対的生成ネットワーク(GAN)に基づいており、前記第2の学習ネットワークを決定することが、
    前記第2のGANの第1のサブネットワークを用いて、前記第1の画像ドメインから前記第2の画像ドメインへのスタイル変換を前記第1の画像に対して実行して、第1のスタイルの前記第1の画像を、第2のスタイルであって、前記第2の画像ドメイン内の複数のスタイルからランダムに選択された、第2のスタイルの第1の予測画像に変換することと、
    前記第1の予測画像と前記第1の画像とのコンテンツの差異が減少するように前記第2のGANの前記第1のサブネットワークを更新することとを含み、
    前記更新された第1のサブネットワークを前記第2の学習ネットワークとして決定する、請求項1に記載の方法。
  7. 前記第2のGANの前記第1のサブネットワークを更新することが更に、
    前記第2のGANの第2のサブネットワークを用いて、前記第2の画像ドメインから前記第1の画像ドメインへのスタイル変換を前記中間画像に対して実行して、第3のスタイルの前記中間画像を、第4のスタイルであって、前記第1の画像ドメイン内の複数のスタイルからランダムに選択された、第4のスタイルの第2の予測画像に変換することと、
    前記第2の予測画像と前記中間画像とのコンテンツの差異が減少するように前記第2のGANの前記第1及び第2のサブネットワークを共同更新することとを含む、請求項6に記載の方法。
  8. コンピュータ実装方法であって、
    原画像に対してジオメトリ変形を実行して前記原画像内の対象の第1のジオメトリを第2のジオメトリに変形することと、
    前記原画像に対してスタイル変換を実行して第1のスタイルの前記原画像を第2のスタイルの中間画像に変換することと、
    前記第2のジオメトリに基づいて前記中間画像内の対象を変換して前記中間画像と同じ第2のスタイルを継承する目標画像を生成することと、
    を含む方法。
  9. コンピュータ実装方法であって、
    原画像に対してジオメトリ変形を実行して前記原画像内の対象の第1のジオメトリを第2のジオメトリに変形することと、
    前記第2のジオメトリに基づいて前記原画像内の前記対象を変換して前記原画像と同じ第1のスタイルを継承する中間画像を生成することと、
    前記中間画像に対してスタイル変換を実行して前記第1のスタイルの前記中間画像を第2のスタイルの目標画像に変換することと、
    を含む方法。
  10. 前記ジオメトリ変形を実行することが、
    前記第1のジオメトリを表す前記原画像の目標点を決定することと、
    前記目標点の主成分分析(PCA)表現を生成することと、
    前記PCA表現に対して前記ジオメトリ変形を実行することと、
    変形された前記PCA表現に基づいて前記第2のジオメトリを表す変形された目標点を決定することと、
    を含む、請求項に記載の方法。
  11. 前記ジオメトリ変形を実行することが、
    前記対象の変形程度の指標を取得することと、
    前記変形程度に基づいて前記第1のジオメトリを前記第2のジオメトリに変換することと、
    を含む、請求項に記載の方法。
  12. 前記原画像に対してスタイル変換を実行することが、
    前記原画像のコンテンツ関連特徴表現を抽出することと、
    前記第2のスタイルに関連付けられた外観関連特徴表現を決定することと、
    前記コンテンツ関連特徴表現及び前記外観関連特徴表現に基づいて前記中間画像を生成することと、
    を含む、請求項に記載の方法。
  13. 前記外観関連特徴表現を決定することが、
    複数の所定の外観関連特徴表現から前記外観関連特徴表現をランダムに選択すること、又は
    前記第2のスタイルに関係する取得指標又は前記第2のスタイルの基準画像に基づいて前記外観関連特徴表現を決定することを含む、請求項12に記載の方法。
  14. 前記ジオメトリ変形を実行することが、
    第1の学習ネットワークであって、第1の敵対的生成ネットワーク(GAN)に基づいて決定された、第1の学習ネットワークを用いて前記ジオメトリ変形を実行することを含み、又は
    前記スタイル変換を実行することが、第2の学習ネットワークであって、第2のGANネットワークに基づいて決定された、第2の学習ネットワークを用いて前記スタイル変換を実行することを含む、請求項に記載の方法。
  15. 前記ジオメトリ変形を実行することが、
    前記第1のジオメトリを表す前記原画像の目標点を決定することと、
    前記目標点の主成分分析(PCA)表現を生成することと、
    前記PCA表現に対して前記ジオメトリ変形を実行することと、
    変形された前記PCA表現に基づいて前記第2のジオメトリを表す変形された目標点を決定することと、
    を含む、請求項9に記載の方法。
  16. 前記ジオメトリ変形を実行することが、
    前記対象の変形程度の指標を取得することと、
    前記変形程度に基づいて前記第1のジオメトリを前記第2のジオメトリに変換することと、
    を含む、請求項9に記載の方法。
  17. 前記原画像に対してスタイル変換を実行することが、
    前記原画像のコンテンツ関連特徴表現を抽出することと、
    前記第2のスタイルに関連付けられた外観関連特徴表現を決定することと、
    前記コンテンツ関連特徴表現及び前記外観関連特徴表現に基づいて前記中間画像を生成することと、
    を含む、請求項9に記載の方法。
  18. 前記外観関連特徴表現を決定することが、
    複数の所定の外観関連特徴表現から前記外観関連特徴表現をランダムに選択すること、又は
    前記第2のスタイルに関係する取得指標又は前記第2のスタイルの基準画像に基づいて前記外観関連特徴表現を決定することを含む、請求項17に記載の方法。
  19. 前記ジオメトリ変形を実行することが、
    第1の学習ネットワークであって、第1の敵対的生成ネットワーク(GAN)に基づいて決定された、第1の学習ネットワークを用いて前記ジオメトリ変形を実行することを含み、又は
    前記スタイル変換を実行することが、第2の学習ネットワークであって、第2のGANネットワークに基づいて決定された、第2の学習ネットワークを用いて前記スタイル変換を実行することを含む、請求項9に記載の方法。

JP2021512501A 2018-10-31 2019-09-05 クロスドメイン画像変換 Active JP7373554B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201811294026.6A CN111127304B (zh) 2018-10-31 2018-10-31 跨域图像转换
CN201811294026.6 2018-10-31
PCT/US2019/049619 WO2020091891A1 (en) 2018-10-31 2019-09-05 Cross-domain image translation

Publications (3)

Publication Number Publication Date
JP2022503647A JP2022503647A (ja) 2022-01-12
JPWO2020091891A5 JPWO2020091891A5 (ja) 2022-08-18
JP7373554B2 true JP7373554B2 (ja) 2023-11-02

Family

ID=67957460

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021512501A Active JP7373554B2 (ja) 2018-10-31 2019-09-05 クロスドメイン画像変換

Country Status (6)

Country Link
US (1) US11481869B2 (ja)
EP (1) EP3874458A1 (ja)
JP (1) JP7373554B2 (ja)
KR (1) KR102663519B1 (ja)
CN (1) CN111127304B (ja)
WO (1) WO2020091891A1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111127304B (zh) * 2018-10-31 2024-02-20 微软技术许可有限责任公司 跨域图像转换
US20200242736A1 (en) * 2019-01-29 2020-07-30 Nvidia Corporation Method for few-shot unsupervised image-to-image translation
US11556848B2 (en) * 2019-10-21 2023-01-17 International Business Machines Corporation Resolving conflicts between experts' intuition and data-driven artificial intelligence models
US11450008B1 (en) * 2020-02-27 2022-09-20 Amazon Technologies, Inc. Segmentation using attention-weighted loss and discriminative feature learning
US11501107B2 (en) * 2020-05-07 2022-11-15 Adobe Inc. Key-value memory network for predicting time-series metrics of target entities
JP7477864B2 (ja) 2020-05-18 2024-05-02 国立大学法人山梨大学 画像生成方法、プログラム及び画像生成装置
CN111508048B (zh) * 2020-05-22 2023-06-20 南京大学 一种可交互任意形变风格人脸漫画自动生成方法
CN111833238B (zh) * 2020-06-01 2023-07-25 北京百度网讯科技有限公司 图像的翻译方法和装置、图像翻译模型的训练方法和装置
CN111738910A (zh) * 2020-06-12 2020-10-02 北京百度网讯科技有限公司 一种图像处理方法、装置、电子设备和存储介质
US11574500B2 (en) * 2020-09-08 2023-02-07 Samsung Electronics Co., Ltd. Real-time facial landmark detection
US20220122305A1 (en) 2020-10-16 2022-04-21 Adobe Inc. Identity-preserving techniques for generative adversarial network projection
CN112991151B (zh) * 2021-02-09 2022-11-22 北京字跳网络技术有限公司 图像处理方法、图像生成方法、装置、设备和介质
US20240062441A1 (en) * 2021-02-15 2024-02-22 Carnegie Mellon University System and method for photorealistic image synthesis using unsupervised semantic feature disentanglement
US20230070666A1 (en) * 2021-09-03 2023-03-09 Adobe Inc. Neural network for image style translation
US11900519B2 (en) * 2021-11-17 2024-02-13 Adobe Inc. Disentangling latent representations for image reenactment
KR102678473B1 (ko) * 2021-12-28 2024-06-27 포항공과대학교 산학협력단 자동 캐리커처 생성 방법 및 장치
KR102636217B1 (ko) * 2023-04-14 2024-02-14 고려대학교산학협력단 가중 국소변환을 이용한 3차원 데이터 증강 방법 및 이를 위한 장치
KR102636155B1 (ko) * 2023-07-18 2024-02-13 주식회사 젠젠에이아이 콘텐츠 코드를 이용한 이미지 생성 방법 및 시스템

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018092869A1 (ja) 2016-11-21 2018-05-24 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 符号化装置、復号装置、符号化方法及び復号方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7483553B2 (en) 2004-03-29 2009-01-27 Microsoft Corporation Caricature exaggeration
US7660482B2 (en) * 2004-06-23 2010-02-09 Seiko Epson Corporation Method and apparatus for converting a photo to a caricature image
CN102096934B (zh) 2011-01-27 2012-05-23 电子科技大学 一种基于机器学习的人脸卡通画生成方法
US10366306B1 (en) * 2013-09-19 2019-07-30 Amazon Technologies, Inc. Item identification among item variations
US9646195B1 (en) * 2015-11-11 2017-05-09 Adobe Systems Incorporated Facial feature liquifying using face mesh
CN106548208B (zh) 2016-10-28 2019-05-28 杭州米绘科技有限公司 一种照片图像快速智能风格化方法
US10916001B2 (en) * 2016-11-28 2021-02-09 Adobe Inc. Facilitating sketch to painting transformations
US10474929B2 (en) * 2017-04-25 2019-11-12 Nec Corporation Cyclic generative adversarial network for unsupervised cross-domain image generation
US10504267B2 (en) * 2017-06-06 2019-12-10 Adobe Inc. Generating a stylized image or stylized animation by matching semantic features via an appearance guide, a segmentation guide, and/or a temporal guide
US10565757B2 (en) * 2017-06-09 2020-02-18 Adobe Inc. Multimodal style-transfer network for applying style features from multi-resolution style exemplars to input images
US10430455B2 (en) * 2017-06-09 2019-10-01 Adobe Inc. Sketch and style based image retrieval
CN109426858B (zh) * 2017-08-29 2021-04-06 京东方科技集团股份有限公司 神经网络、训练方法、图像处理方法及图像处理装置
US10748314B2 (en) * 2018-02-15 2020-08-18 Microsoft Technology Licensing, Llc Controllable conditional image generation
CN108257195A (zh) * 2018-02-23 2018-07-06 深圳市唯特视科技有限公司 一种基于几何对比生成对抗网络的面部表情合成方法
CN108596024B (zh) * 2018-03-13 2021-05-04 杭州电子科技大学 一种基于人脸结构信息的肖像生成方法
EP3605465B1 (en) * 2018-07-30 2020-12-30 Siemens Healthcare GmbH A method for determining a correspondence between a source image and a reference image
US11430084B2 (en) * 2018-09-05 2022-08-30 Toyota Research Institute, Inc. Systems and methods for saliency-based sampling layer for neural networks
CN111127304B (zh) * 2018-10-31 2024-02-20 微软技术许可有限责任公司 跨域图像转换
KR20200063289A (ko) * 2018-11-16 2020-06-05 삼성전자주식회사 영상 처리 장치 및 그 동작방법
CN113474654A (zh) * 2018-12-04 2021-10-01 伊索普莱克西斯公司 用于鉴定、选择性消融和选择以及收集单细胞的系统、装置和方法
CN112926372B (zh) * 2020-08-22 2023-03-10 清华大学 基于序列变形的场景文字检测方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018092869A1 (ja) 2016-11-21 2018-05-24 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 符号化装置、復号装置、符号化方法及び復号方法

Also Published As

Publication number Publication date
EP3874458A1 (en) 2021-09-08
WO2020091891A1 (en) 2020-05-07
KR102663519B1 (ko) 2024-05-03
CN111127304B (zh) 2024-02-20
US11481869B2 (en) 2022-10-25
KR20210083276A (ko) 2021-07-06
JP2022503647A (ja) 2022-01-12
CN111127304A (zh) 2020-05-08
US20220044352A1 (en) 2022-02-10

Similar Documents

Publication Publication Date Title
JP7373554B2 (ja) クロスドメイン画像変換
US11580395B2 (en) Generative adversarial neural network assisted video reconstruction
US11625613B2 (en) Generative adversarial neural network assisted compression and broadcast
US11620521B2 (en) Smoothing regularization for a generative neural network
WO2018009473A1 (en) Motion capture and character synthesis
US20220222897A1 (en) Portrait editing and synthesis
CN112614213A (zh) 人脸表情确定方法、表情参数确定模型、介质及设备
US20220198731A1 (en) Pixel-aligned volumetric avatars
US20220156987A1 (en) Adaptive convolutions in neural networks
JP2023545052A (ja) 画像処理モデルの訓練方法及び装置、画像処理方法及び装置、電子機器並びにコンピュータプログラム
Sheng et al. A lightweight surface reconstruction method for online 3D scanning point cloud data oriented toward 3D printing
US11605001B2 (en) Weight demodulation for a generative neural network
CN113408694A (zh) 用于生成式神经网络的权重解调
US20230298243A1 (en) 3d digital avatar generation from a single or few portrait images
CN116452715A (zh) 动态人手渲染方法、装置及存储介质
US20230177722A1 (en) Apparatus and method with object posture estimating
CN118096961B (zh) 图像处理方法和装置
CN116385643B (zh) 虚拟形象生成、模型的训练方法、装置及电子设备
US20230377324A1 (en) Multi-domain generative adversarial networks for synthetic data generation
US20240046422A1 (en) Pseudoinverse guidance for data restoration with diffusion models
WO2022140445A1 (en) Pixel-aligned volumetric avatars
Ronkainen Dense tracking of human facial geometry
CN116917947A (zh) 像素对齐的体积化身
CN118196277A (zh) 复制物理环境并生成3d资产用于合成场景生成
CN118175324A (zh) 用于视频生成的多维生成框架

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220808

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220808

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230926

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231023

R150 Certificate of patent or registration of utility model

Ref document number: 7373554

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150