JP2022180519A - 画像処理方法、画像処理モデルのトレーニング方法、装置及び記憶媒体 - Google Patents

画像処理方法、画像処理モデルのトレーニング方法、装置及び記憶媒体 Download PDF

Info

Publication number
JP2022180519A
JP2022180519A JP2022149886A JP2022149886A JP2022180519A JP 2022180519 A JP2022180519 A JP 2022180519A JP 2022149886 A JP2022149886 A JP 2022149886A JP 2022149886 A JP2022149886 A JP 2022149886A JP 2022180519 A JP2022180519 A JP 2022180519A
Authority
JP
Japan
Prior art keywords
image
code
latent code
latent
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022149886A
Other languages
English (en)
Other versions
JP7395686B2 (ja
Inventor
ハンキ グオ,
Hanqi Guo
ツィビン ホン,
Zhibin Hong
ティアンシュ フ,
Tianshu Hu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022180519A publication Critical patent/JP2022180519A/ja
Application granted granted Critical
Publication of JP7395686B2 publication Critical patent/JP7395686B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Processing Or Creating Images (AREA)

Abstract

【課題】画像編集の効果を向上させ、最適化の速度を向上させるために、画像処理方法、画像処理モデルのトレーニング方法、装置及び記憶媒体を提供する。【解決手段】方法は、敵対的生成ネットワークのS空間で編集対象画像をエンコードして、第1の潜在コードを取得する。前記敵対的生成ネットワークは、スタイルベースの敵対的生成ネットワークであり、テキスト記述情報をエンコードして、テキスト画像のテキストコードを取得し、前記S空間で前記テキストコードをマッピングして、第2の潜在コードを取得し、第1の潜在コードおよび第2の潜在コードに対して距離の最適化を行って、距離要件を満たすターゲット潜在コードを取得し、ターゲット潜在コードに基づいてターゲット画像を生成する。画像の一部を編集する場合、編集する必要のない他の部分への影響が少なくなり、最適化の速度を効果的に向上させることができる。【選択図】図2

Description

本願の実施例は、人工知能の分野に関し、さらに、コンピュータービジョン、深層学習などの分野に関し、具体的には、画像処理方法、画像処理モデルのトレーニング方法、装置及び記憶媒体に関する。
画像の編集および処理技術は広く使用されており、従来の編集方法では、目標を達成するために画像に対して複雑な操作を行う必要がある。敵対的生成ネットワーク(Generative Adversarial Network、GAN)は、主にジェネレータとディスクリミネータを含む新しい画像生成技術であり、ジェネレータは、主に実際の画像の分布を学習して、それ自体で生成された画像をよりリアルにしてディスクリミネータをだますために使用される。ディスクリミネータは、受信した画像の真偽を判別する必要がある。時間の経過とともに、ジェネレータとディスクリミネータは絶えずに戦い、最終的に2つのネットワークは動的平衡に達する。
敵対的生成ネットワークと組み合わせた画像処理方法は、画像編集の分野で便利な画像編集方法を提供し、従来の画像編集の単一モードでの複雑な操作の問題を解決する。しかしながら、敵対的生成ネットワークと組み合わせた現在の画像処理方法は、使用効果を改善するためにさらに改善する必要がある。
本願は、画像編集の効果を向上させ、最適化の速度を向上させるために、画像処理方法、画像処理モデルのトレーニング方法、装置及び記憶媒体を提供する。
本願の第1の態様によれば、画像処理方法を提供し、画像編集要求に応答して、前記画像編集要求に基づいて、編集対象画像とターゲット画像特性のテキスト記述情報とを決定するステップと、敵対的生成ネットワークのS空間で前記編集対象画像をエンコードして、第1の潜在コードを取得するステップであって、前記敵対的生成ネットワークはスタイルベースの敵対的生成ネットワークであるステップと、前記テキスト記述情報をエンコードして、対照言語画像事前トレーニング(CLIP)に基づくテキストコードを取得し、前記S空間で前記テキストコードをマッピングして、第2の潜在コードを取得するステップと、前記第1の潜在コードおよび第2の潜在コードに対して距離の最適化を行って、距離要件を満たすターゲット潜在コードを取得するステップと、前記ターゲット潜在コードに基づいてターゲット画像を生成するステップと、を含む。
本願の第2の態様によれば、画像処理モデルのトレーニング方法を提供し、前記画像処理モデルは逆変換エンコーダ、対照言語画像事前トレーニング(CLIP)モデル、潜在コードマッパー、画像再構成エディタ及びスタイルベースの敵対的生成ネットワークのジェネレータを含み、前記方法は、敵対的生成ネットワークのS空間で元の画像によって逆変換エンコーダをトレーニングして、トレーニングされた逆変換エンコーダを取得するステップであって、前記敵対的生成ネットワークはスタイルベースの敵対的生成ネットワークであるステップと、前記トレーニングされた逆変換エンコーダによって、前記S空間で前記元の画像をエンコードして、第3の潜在コードを取得し、前記CLIPモデルの画像エディタを使用して、前記元の画像を第4の潜在コードに変換するステップと、前記第3の潜在コードと前記第4の潜在コードとに基づいて、前記潜在コードマッパーをトレーニングして、トレーニングされた潜在コードマッパーを取得するステップと、前記元の画像とターゲット画像特性のテキスト記述情報とを取得し、前記CLIPモデルのテキストエディタによって、前記テキスト記述情報をエンコードして、テキストコードを取得し、前記トレーニングされた潜在コードマッパーによって、前記S空間で前記テキストコードをマッピングして、第5の潜在コードを取得するステップと、前記第3の潜在コードと前記第5の潜在コードとに基づいて、前記画像再構成エディタをトレーニングして、トレーニングされた画像再構成エディタを取得するステップと、を含む。
本願の第3の態様によれば、画像処理装置を提供し、画像編集要求に応答して、前記画像編集要求に基づいて、編集対象画像とターゲット画像特性のテキスト記述情報とを決定するテキスト取得モジュールと、敵対的生成ネットワークのS空間で前記編集対象画像をエンコードして、第1の潜在コードを取得する第1のエンコードモジュールであって、前記敵対的生成ネットワークはスタイルベースの敵対的生成ネットワークである第1のエンコードモジュールと、前記テキスト記述情報をエンコードして、対照言語画像事前トレーニング(CLIP)のテキストコードを取得し、前記S空間で前記テキストコードをマッピングして、第2の潜在コードを取得する第2のエンコードモジュールと、前記第1の潜在コードおよび第2の潜在コードに対して距離の最適化を行って、距離要件を満たすターゲット潜在コードを取得する最適化モジュールと、前記ターゲット潜在コードに基づいてターゲット画像を生成する生成モジュールと、を備える。
本願の実施例の第4の態様によれば、画像処理モデルのトレーニング装置を提供し、前記画像処理モデルは逆変換エンコーダ、対照言語画像事前トレーニング(CLIP)モデル、潜在コードマッパー、画像再構成エディタ及びスタイルベースの敵対的生成ネットワークのジェネレータを含み、前記装置は、敵対的生成ネットワークのS空間で元の画像によって逆変換エンコーダをトレーニングして、トレーニングされた逆変換エンコーダを取得する第1のトレーニングモジュールであって、前記敵対的生成ネットワークはスタイルベースの敵対的生成ネットワークである第1のトレーニングモジュールと、前記トレーニングされた逆変換エンコーダによって、前記S空間で前記元の画像をエンコードして、第3の潜在コードを取得し、前記CLIPモデルの画像エディタを使用して、前記元の画像を第4の潜在コードに変換する第1の取得モジュールと、前記第3の潜在コードと前記第4の潜在コードとに基づいて、前記潜在コードマッパーをトレーニングして、トレーニングされた潜在コードマッパーを取得する第2のトレーニングモジュールと、前記元の画像とターゲット画像特性のテキスト記述情報とを取得し、前記CLIPモデルのテキストエディタによって、前記テキスト記述情報をエンコードして、テキストコードを取得し、前記トレーニングされた潜在コードマッパーによって、前記S空間で前記テキストコードをマッピングして、第5の潜在コードを取得する第2の取得モジュールと、前記第3の潜在コードと前記第5の潜在コードとに基づいて、前記画像再構成エディタをトレーニングして、トレーニングされた画像再構成エディタを取得する第3のトレーニングモジュールと、を備える。
本願の実施例の第5の態様によれば、電子機器を提供し、少なくとも1つのプロセッサと、該少なくとも1つのプロセッサと通信可能に接続されるメモリと、を備え、前記メモリには、前記少なくとも1つのプロセッサによって実行される命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが第1の態様または第2の態様に記載の方法を実行できるように、前記少なくとも1つのプロセッサによって実行される、
本願の実施例の第6の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、コンピュータに第1の態様または第2の態様に記載の方法を実行させる。
本願の実施例の第7の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムがプロセッサによって実行される場合、第1の態様または第2の態様に記載の方法が実現される。
本願の技術案によれば、画像を編集するときにテキスト記述以外の属性及び特性をよりよく維持し、最適化の速度を向上させる。
なお、この部分に記載の内容は、本開示の実施例の肝心または重要な特徴を特定することを意図しておらず、本開示の範囲を限定することも意図していない。本願の他の特徴は下記の明細書の記載を通して理解しやすくなる。
図面は、本願をより良く理解するためのものであり、本開示を限定するものではない。
StyleGANモデルの動作の原理の概略図である。 本願の実施例に係る画像処理方法の概略フローチャートである。 本願の実施例に係る画像処理モデルのトレーニング方法の概略フローチャートである。 本願の実施例に係るモデルの概略構成図である。 本願の実施例に係る逆変換エンコーダのトレーニング方法の概略図である。 本願の実施例に係る潜在コードマッパーのトレーニング方法の概略図である。 本願の実施例に係る画像処理装置のブロック図である。 本願の実施例に係る画像処理モデルのトレーニング装置のブロック図である。 本願の実施例を実現するための電子機器のブロック図である。
理解を容易にするために、まず本願に含まれる用語を紹介する。
敵対的生成ネットワーク(Generative Adversarial Network、GAN)は、主に、ジェネレータ(generator)とディスクリミネータ(discriminator)との2つの部分で構成される。ジェネレータは、主に実際の画像の分布を学習して、それ自体で生成された画像をよりリアルにしてディスクリミネータをだますために使用される。ディスクリミネータは、受信した画像の真偽を判断する必要がある。プロセス全体で、ジェネレータは生成された画像をよりリアルにするために一生懸命働き、ディスクリミネーターは画像の真偽を識別するために一生懸命働き、時間の経過とともに、ジェネレータとディスクリミネータは絶えずに戦い、最終的に2つのネットワークは動的平衡に達する。
StyleGAN(Style-Based Generative Adversarial Networks、スタイルベースの敵対的生成ネットワーク)及び其S空間エンコードについては、StyleGANは、強力な画像生成機能を備えたモデルである。図1は、StyleGANモデルの動作の原理を示す概略図である。StyleGANは、画像の均一分布をサンプリングしてサンプルzを取得し、8層の完全接続ネットワークを介してW空間の潜在コード(latent
code)wを取得し、wをアフィン変換して、18個の潜在コード{s_{i}}_{i=1}^{18}を取得し、対応する18個のネットワークレイヤーを生成して、画像を生成し、実現プロセスを図1に示す。各潜在コード{s_{i}}_{i=1}^{18}はS空間のサンプルであり、すべての{s_{i}}_{i=1}^{18}が一緒になってS空間を構成する。S空間内の各潜在コードは生成された画像に対応するため、S空間における編集対象画像の対応する潜在コードを編集することにより、画像の編集を実現することができる。
StyleCLIP(Style Contrastive Language-Image
Pre-training、スタイルベースの対照言語画像事前トレーニング)は、主に、CLIP(Contrastive Language-Image Pre-training、対照言語画像事前トレーニング)モデルを使用して、ユーザ入力言語の記述によって潜在コード(latent code)を編集することで、画像を編集するという目的を達成する。
対照言語画像事前トレーニング(CLIP)モデルは、対照学習を通じて4億の画像-テキストペア(image-text pair)でトレーニングされた大規模な事前トレーニングモデルであり、主に、テキストエンコーダと画像エンコーダとの2つの部分で構成され、これらの2つのエンコーダによって生成されたコードをそれぞれcode_text_clipおよびcode_image_clipとして示す。画像のコンテンツがテキスト記述のコンテンツと一致している場合、CLIPモデルによって生成されたcode_text_clipとcode_image_clipの間の距離は非常に近く、そうでない場合は2つの間の距離は非常に遠くなる。
以下、図面と組み合わせて、本願の例示的な実施例を説明し、ここで、本願の実施例の様々な詳細が理解を容易にするために含まれており、それらは単なる例示とみなされるべきである。したがって、当業者は、本願の範囲及び精神から逸脱することなく、本明細書に記載された実施例に対して様々な変更及び修正を行うことができることを認識すべきである。同様に、以下の説明では、明瞭かつ簡明のために公知の機能および構造の説明を省略する。
現在の実施形態は、主にStyleCLIPの方法を使用し、この方法は、StyleGANの編集機能、及びCLIPモデルのテキスト特徴と画像特徴のマッチング機能を使用することで、テキスト記述を使用して画像を編集する。具体的には、2つの実施形態があり、つまり潜在コードの最適化と潜在コードのマッピング方法がある。両方の主な主旨は、編集対象画像の潜在コードを参照として、StyleGANの潜在コード空間で新しい潜在コードを検索し、それを使用して生成された画像は、CLIP空間でテキスト記述のコードに最も近いものになるということである。
現在のStyleCLIPの方法には2つの主な問題があり、即ち、まずは、独立した編集機能がわずかに不十分であるということである。これは主に、画像の特定の部分を変更する場合、テキスト記述に言及されていない部分はその特性が保持されていないため、予期しない変更や欠陥が発生することがある。次は、実行速度が遅いことである。これは主に、テキスト記述ごとに画像を編集する場合、その最適化プロセスでは元の画像データの関与が必要であり、処理時間が長くなるという問題が発生する。
上記の問題を解決するために、本願の実施例は、画像処理方法、装置及び記憶媒体を提供する。StyleGANのS空間で潜在コードの編集を行うことにより、テキスト記述以外の属性及び特性を編集中に適切に維持することができる。画像やテキストに最も近いコードを直接検索することで、最適なエンコードを実現し、最適化の速度を向上させることができる。
図2は本願の実施例に係る画像処理方法のフローチャートである。なお、本願の実施例の画像処理方法は本願の実施例の画像処理装置に適用可能である。この画像処理装置は電子機器に配置することができる。図2に示すように、前記画像処理方法は以下のステップS201~S205を含む。
S201では、画像編集要求に応答して、前記画像編集要求に基づいて、編集対象画像とターゲット画像特性のテキスト記述情報とを決定する。
画像編集要求に応答して、前記編集対象画像に対応するテキスト記述情報を取得し、前記テキスト記述情報に基づいて前記画像を編集する。
S202では、敵対的生成ネットワークのS空間で前記編集対象画像をエンコードして、第1の潜在コードを取得する。ここで、前記敵対的生成ネットワークはスタイルベースの敵対的生成ネットワークである。
本願の実施例では、前記スタイルベースの敵対的生成ネットワークとしては、StyleGAN、またはStyleGAN2、または同じ機能を有する他のネットワークモデルを選択することができるが、これに限定されない。
スタイルベースの敵対的生成ネットワークを使用して画像を編集することは、まず、画像を潜在コードに変換し、次に、潜在コードを編集することで画像の編集を実現する必要がある。
本願の実施例では、前記敵対的生成ネットワークのS空間で前記編集対象画像をエンコードして、第1の潜在コードを取得するステップは、編集対象画像を逆変換エンコーダに入力し、前記逆変換エンコーダによって前記S空間で前記編集対象画像に対応する第1の潜在コードを生成するステップを含み、前記逆変換エンコーダは、画像再構成誤差に基づいて監視およびトレーニングされ、前記画像再構成誤差は、元の画像と、対応する再構成画像との間の誤差であり、前記再構成画像は、前記変換エンコーダから出力された潜在コードに基づいて前記StyleGANのジェネレータによって画像を再構成することによって得られる。
前記逆変換エンコーダの役割は、スタイルベースの敵対的生成ネットワークStyleGANのS空間で、編集対象画像に対応する第1の潜在コードを生成することである。
S203では、前記テキスト記述情報をエンコードして、対照言語画像事前トレーニング(CLIP)に基づくテキストコードを取得し、前記S空間で前記テキストコードをマッピングして、第2の潜在コードを取得する。
本願の実施例では、テキスト記述を対照言語画像事前トレーニング(CLIP)モデルのテキストエディタに入力して、テキストコード(code_text_clip)を取得する。
本願の実施例では、前記テキストコードを潜在コードマッパーに入力し、スタイルベースの敵対的生成ネットワークのS空間で前記テキストコードをマッピングして、第2の潜在コードを取得する。
前記潜在コードマッパーの役割は、テキスト記述のテキストコード(code_text_clip)をスタイルベースの敵対的生成ネットワークのS空間にマッピングすることである。
S204では、前記第1の潜在コードおよび第2の潜在コードに対して距離の最適化を行って、距離要件を満たすターゲット潜在コードを取得する。
本願の実施例では、前記第1の潜在コードおよび第2の潜在コードを画像再構成エディタに入力し、前記第1の潜在コードおよび第2の潜在コードに対して距離の最適化を行って、距離要件を満たすターゲット潜在コードを取得する。
可能な一実施形態として、画像再構成エディタによって、重み付けされた前記第1の潜在コードと第2の潜在コードとの間の距離の合計を最適化して、ターゲット潜在コードを取得する。
前記画像再構成エディタの役割は、画像編集機能を実現するために、画像に対応する第1の潜在コードとテキスト記述に対応する第2の潜在コードのいずれにも類似するコードベクトルをS空間で生成することである。
S205では、前記ターゲット潜在コードに基づいてターゲット画像を生成する。
可能な一実施形態として、前記ターゲット潜在コードをスタイルベースの敵対的生成ネットワークのジェネレータに入力して、ターゲット画像を生成する。例えば、StyleGAN2のジェネレータによって、前記ターゲット潜在コードを前記テキスト記述に合致するターゲット画像として生成することができる。
本願の実施例の画像処理方法は、まず、編集対象画像とテキスト記述とのStyleGANモデルのS空間の潜在コードを取得し、S空間の潜在コードはデカップリング効果が優れているため、画像の一部を編集する場合、編集する必要のない他の部分への影響が少なくなる。画像とテキストとの距離が最も近いターゲットエンコードを直接検索することで最適なエンコードを実現することは、元の画像を直接処理する場合と比較して、データの量と次元が元の画像よりも大幅に少ないため、最適化の速度を効果的に向上させることができる。
可能な一実施形態として、前記画像再構成エディタは畳み込みネットワークを含み、本願の実施例では、mobilenetネットワークモデルを使用するが、他の畳み込みネットワークモデルを選択してもよく、これに限定されない。前記画像再構成エディタの最適化過程は、小さな畳み込みネットワークを最適化して、重み付けされたコードベクトルの距離の合計を最小化することであり、この最適化過程の目的関数は、次のように示される。
L=(s-s_{image})+\lambda(s-s_{text})
ここで、sはターゲット潜在コードを示し、s_{image}は画像潜在コードを示し、s_{text}はテキスト潜在コードを示し、\lambdaは距離重みの経験値を示す。
図3は本願の実施例に係る画像処理モデルのトレーニング方法のフローチャートである。なお、図4に示すように、前記画像処理モデルは逆変換エンコーダ、対照言語画像事前トレーニング(CLIP)モデル、潜在コードマッパー、画像再構成エディタ及びスタイルベースの敵対的生成ネットワークのジェネレータを含む。
図3に示すように、前記画像処理モデルのトレーニング方法は、以下のステップS301~S305を含む。
S301では、敵対的生成ネットワークのS空間で元の画像によって逆変換エンコーダをトレーニングして、トレーニングされた逆変換エンコーダを取得する。ここで、前記敵対的生成ネットワークはスタイルベースの敵対的生成ネットワークである。
本願の実施例では、前記スタイルベースの敵対的生成ネットワークとしては、StyleGAN、又はStyleGAN2を選択することができる。
S302では、前記トレーニングされた逆変換エンコーダによって、前記S空間で前記元の画像をエンコードして、第3の潜在コードを取得し、前記CLIPモデルの画像エディタを使用して、前記元の画像を第4の潜在コードに変換する。
S303では、前記第3の潜在コードと前記第4の潜在コードとに基づいて、前記潜在コードマッパーをトレーニングして、トレーニングされた潜在コードマッパーを取得する。
S304では、前記元の画像とターゲット画像特性のテキスト記述情報とを取得し、前記CLIPモデルのテキストエディタによって、前記テキスト記述情報をエンコードして、テキストコードを取得し、前記トレーニングされた潜在コードマッパーによって、前記S空間で前記テキストコードをマッピングして、第5の潜在コードを取得する。
S305では、前記第3の潜在コードと前記第5の潜在コードとに基づいて、前記画像再構成エディタをトレーニングして、トレーニングされた画像再構成エディタを取得する。
本願の実施例の画像処理モデルのトレーニング方法は、モデル内のコンポーネントの一部を個別にトレーニングすることにより、より良いトレーニング効果を得る。
図5は本願の実施例に係る逆変換エンコーダのトレーニング方法のフローチャートである。構造では、前記逆変換エンコーダは、積み重ねられた複数の畳み込みおよび完全接続レイヤーを含み、同じエンコード機能を備えた従来のネットワークモデルを使用するか、複数の畳み込み及び完全接続レイヤーが積み重ねられることによって構成されるネットワーク構造を構築するかを選択することができ、本願の実施例ではmobilenetネットワークモデルを使用するが、これに限定されない。
可能な一実施形態として、前記逆変換エンコーダを生成する過程は、StyleGAN2モデルのジェネレータと組み合わせて、生成された画像の再構成の品質などの複数のメトリック次元を監視して、前記逆変換エンコーダの対応するレイヤーパラメーターの学習を実現する。図5に示すように、前記逆変換エンコーダのトレーニング方法は、前記元の画像によって、前記逆変換エンコーダをトレーニングするステップであって、前記逆変換エンコーダの目的関数の制約条件が画像再構成誤差を含み、ここで、前記画像再構成誤差を取得する方法が、前記逆変換エンコーダによって変換された第3の潜在コードをスタイルベースの敵対的生成ネットワークのジェネレータに入力して、再構成画像を取得することと、前記第3の潜在コードに対応する元の画像と前記再構成画像との間の画像再構成誤差を取得することと、を含むステップと、前記画像再構成誤差に基づいて、前記逆変換エンコーダのパラメーターを調整するステップと、を含む。
選択的に、前記逆変換エンコーダの目的関数の制約条件がID誤差をさらに含み、前記逆変換エンコーダのトレーニング方法は、前記元の画像と前記再構成画像との両方をID弁別器に入力して、前記元の画像の第1のベクトルと前記再構成画像の第2のベクトルとを取得するステップと、前記第1のベクトルと前記第2のベクトルとの間の誤差をID誤差として算出するステップと、をさらに含み、ここで、前記画像再構成誤差に基づいて、前記逆変換エンコーダのパラメーターを調整するステップは、前記ID誤差と前記画像再構成誤差とに基づいて、前記逆変換エンコーダのパラメーターを調整するステップを含む。
前記ID弁別器は2つの入力を有し、1つは元の画像であり、もう1つは前記再構成画像である。
顔画像を例にとると、AとBは2人の異なる人物であり、人物の場合、AとBのID情報IDentityを識別することができ、AとBが異なる人物である場合、IDは異なる。この場合、前記ID弁別器は、さまざまな人物を区別できる顔認識モデルにすることができる。前記ID弁別器は現在、識別ネットワークを使用し、A画像を入力すると、1つのベクトルを生成し、Bを入力すると、別のベクトルを生成し、AとBが同じ人物である場合、2つのベクトル間の距離は小さく、ID誤差が小さいことを示し、AとBが異なる人物である場合、ID誤差は比較的大きくなる。ID誤差は、前記逆変換エンコーダの目的関数への制約として追加され、ID誤差によって2つの画像が同じ人物であるか否かを判断する。
顔画像の編集を例にとると、前記逆変換エンコーダの最適化に用いられる目的関数は、次のように示される。
L=|G(E(I))-I|+Loss_{id}(G(E(I)),I)
ここで、Iは入力画像を示し、Eは逆変換エンコーダを示し、GはStyleGAN2のジェネレータを示し、Loss_{id}はID誤差を示す。
本願の実施例の逆変換エンコーダは、StyleGAN2のS空間で潜在コードの編集を実行し、画像を編集するときにテキスト記述以外の属性及び特性をよりよく維持することができる。S空間は、各特徴に対するデカップリングが優れている。現在の解決策はW+空間にあり、デカップリングがよくないため、W+空間が潜在コードの特定の次元(例えば目の色)を変更すると、目以外の他の位置でも色が変更される。
図6は本願の実施例に係る潜在コードマッパーのトレーニング方法のフローチャートである。構造では、前記潜在コードマッパーは線形マッパーであり、線形マッパーは画像とテキスト記述の間の関係を維持するために使用される。例えば、CLIPモデルを例にとると、画像は黒髪の人物であり、テキストはこれが黒髪の人物であると記述する場合、画像とテキストによって生成されるベクトルは非常に近くなり、テキストはこれが白髪の人物であると記述する場合、画像とテキスト記述によって生成されたベクトルが遠くになる。線形マッピングの場合、2つのベクトルが1つの行列を介して別の空間に線形にマッピングされた後、2つのベクトル間の相対的距離は変更されない。本願の実施例の画像編集方法は、2つのベクトル間の相対的距離が変化しないという条件の下でモデルをトレーニングする必要があるため、線形マッパーを選択する必要がある。図6に示すように、前記潜在コードマッパーのトレーニング方法は、前記第3の潜在コードと前記第4の潜在コードとに基づいて、前記潜在コードマッパーをトレーニングして、トレーニングされた潜在コードマッパーを取得するステップを含み、前記第3の潜在コードと前記第4の潜在コードとに基づいて、前記潜在コードマッパーをトレーニングして、トレーニングされた潜在コードマッパーを取得するステップは、
前記第4の潜在コードによって、前記潜在コードマッパーをトレーニングするステップであって、前記潜在コードマッパーの目的関数の制約条件が、前記第3の潜在コードと、入力された前記第4の潜在コードに基づいて前記潜在コードマッパーによって出力された第6の潜在コードとの間のコサイン距離を含むステップと、前記コサイン距離に基づいて、前記潜在コードマッパーのパラメーターを調整するステップと、を含む。
本願の実施例の潜在コードマッパーの生成過程は、主に、上記の逆変換エンコーダによって、画像セットの逆変換によって生成された潜在コードを監視およびトレーニングすることによって行われ、トレーニングに使用される目的関数は、前記潜在コードマッパーから出力されたコードベクトルと前記逆変換エンコーダから出力されたコードベクトルとの間のコサイン(cosine)距離を判断するために使用され、つまり、前記潜在コードマッパーは、CLIPモデル空間での画像の潜在コードをStyleGANモデルのS空間にマッピングすることができるとともに、逆変換エンコーダによって生成された潜在コードとの距離が可能な限り近く必要がある。
上記の画像処理方法の実施例に対応して、図7は本願の実施例に係る画像処理装置700のブロック図である。図7に示すように、前記画像処理装置は、テキスト取得モジュール701、第1のエンコードモジュール702、第2のエンコードモジュール703、最適化モジュール704及び生成モジュール705を備える。
具体的には、テキスト取得モジュール701は、画像編集要求に応答して、前記画像編集要求に基づいて、編集対象画像とターゲット画像特性のテキスト記述情報とを決定し、第1のエンコードモジュール702は、敵対的生成ネットワークのS空間で前記編集対象画像をエンコードして、第1の潜在コードを取得し、前記敵対的生成ネットワークはスタイルベースの敵対的生成ネットワークであり、第2のエンコードモジュール703は、前記テキスト記述情報をエンコードして、対照言語画像事前トレーニング(CLIP)のテキストコードを取得し、前記S空間で前記テキストコードをマッピングして、第2の潜在コードを取得し、最適化モジュール704は、前記第1の潜在コードおよび第2の潜在コードに対して距離の最適化を行って、距離要件を満たすターゲット潜在コードを取得し、生成モジュール705は、前記ターゲット潜在コードに基づいてターゲット画像を生成する。
本願のいくつかの実施例では、前記第1のエンコードモジュール702は、具体的には、編集対象画像を逆変換エンコーダに入力し、前記逆変換エンコーダによって前記S空間で前記編集対象画像に対応する第1の潜在コードを生成し、前記逆変換エンコーダは、画像再構成誤差に基づいて監視およびトレーニングされ、前記画像再構成誤差は、元の画像と、対応する再構成画像との間の誤差であり、前記再構成画像は、前記変換エンコーダから出力された潜在コードに基づいて、前記敵対的生成ネットワークのジェネレータによって画像を再構成することによって得られる。
本願のいくつかの実施例では、前記第2のエンコードモジュール703は、具体的には、テキスト記述情報を対照言語画像事前トレーニング(CLIP)モデルのテキストエディタに入力し、前記テキスト記述情報をエンコードして、テキストコードを取得し、前記テキストコードを潜在コードマッパーに入力し、前記S空間で前記テキストコードをマッピングして、第2の潜在コードを取得する。
本願のいくつかの実施例では、前記最適化モジュール704は、具体的には、前記第1の潜在コードおよび第2の潜在コードを画像再構成エディタに入力し、前記第1の潜在コードおよび第2の潜在コードに対して距離の最適化を行って、距離要件を満たすターゲット潜在コードを取得する。
本願のいくつかの実施例では、前記画像再構成エディタは畳み込みネットワークを含み、前記画像再構成エディタの目的関数は、次のように示される。
L=(s-s_{image})+\lambda(s-s_{text})
ここで、sはターゲット潜在コードを示し、s_{image}は第1の潜在コードを示し、s_{text}は第2の潜在コードを示し、\lambdaは距離重みの経験値を示す。
本願のいくつかの実施例では、前記生成モジュール705は、具体的には、
前記ターゲット潜在コードを前記敵対的生成ネットワークのジェネレータに入力して、前記ターゲット画像を生成する。
上記の実施例における装置について、各モジュールが操作を実行する特定の方法は、方法の実施例で詳細に説明されており、ここでは詳細に説明されない。
本願の実施例の画像処理装置は、画像の一部を編集する場合、編集する必要のない他の部分への影響が少なくなり、最適化の速度を効果的に向上させることができる。
上記の画像処理モデルのトレーニング方法に対応する実施例について、図8は本願の実施例に係る画像処理モデルのトレーニング装置800のブロック図である。図8に示すように、前記画像処理モデルのトレーニング装置は、第1のトレーニングモジュール801、第1の取得モジュール802、第2のトレーニングモジュール803、第1の取得モジュール804及び第3のトレーニングモジュール805を備える。
なお、前記画像処理モデルは逆変換エンコーダ、対照言語画像事前トレーニング(CLIP)モデル、潜在コードマッパー、画像再構成エディタ及びStyleGANのジェネレータを含む。
具体的には、前記装置は、敵対的生成ネットワークのS空間で元の画像によって逆変換エンコーダをトレーニングして、トレーニングされた逆変換エンコーダを取得する第1のトレーニングモジュール801であって、前記敵対的生成ネットワークはスタイルベースの敵対的生成ネットワークである第1のトレーニングモジュール801と、前記トレーニングされた逆変換エンコーダによって、前記S空間で前記元の画像をエンコードして、第3の潜在コードを取得し、前記CLIPモデルの画像エディタを使用して、前記元の画像を第4の潜在コードに変換する第1の取得モジュール802と、前記第3の潜在コードと前記第4の潜在コードとに基づいて、前記潜在コードマッパーをトレーニングして、トレーニングされた潜在コードマッパーを取得する第2のトレーニングモジュール803と、前記元の画像とターゲット画像特性のテキスト記述情報とを取得し、前記CLIPモデルのテキストエディタによって、前記テキスト記述情報をエンコードして、テキストコードを取得し、前記トレーニングされた潜在コードマッパーによって、前記S空間で前記テキストコードをマッピングして、第5の潜在コードを取得する第2の取得モジュール804と、前記第3の潜在コードと前記第5の潜在コードとに基づいて、前記画像再構成エディタをトレーニングして、トレーニングされた画像再構成エディタを取得する第3のトレーニングモジュール805とを備える。
本願のいくつかの実施例では、前記第1のトレーニングモジュール801は、具体的には、前記元の画像によって、前記逆変換エンコーダをトレーニングし、前記逆変換エンコーダの目的関数の制約条件が画像再構成誤差を含み、前記画像再構成誤差を取得する方法が、前記逆変換エンコーダによって変換された第3の潜在コードを前記スタイルベースの敵対的生成ネットワークのジェネレータに入力して、再構成画像を取得することと、前記第3の潜在コードに対応する元の画像と前記再構成画像との間の画像再構成誤差を取得することと、を含み、前記画像再構成誤差に基づいて、前記逆変換エンコーダのパラメーターを調整する。
本願のいくつかの実施例では、前記第1のトレーニングモジュール801は、さらに、前記元の画像と前記再構成画像との両方をID弁別器に入力して、前記元の画像の第1のベクトルと前記再構成画像の第2のベクトルとを取得し、前記第1のベクトルと前記第2のベクトルとの間の誤差をID誤差として算出し、前記画像再構成誤差に基づいて、前記逆変換エンコーダのパラメーターを調整することは、前記ID誤差と前記画像再構成誤差とに基づいて、前記逆変換エンコーダのパラメーターを調整することを含む。
本願のいくつかの実施例では、前記第2のトレーニングモジュール803は、具体的には、前記第4の潜在コードによって、前記潜在コードマッパーをトレーニングし、前記潜在コードマッパーの目的関数の制約条件が、前記第3の潜在コードと、入力された前記第4の潜在コードに基づいて前記潜在コードマッパーによって出力された第6の潜在コードとの間のコサイン距離を含み、前記コサイン距離に基づいて、前記潜在コードマッパーのパラメーターを調整する。
上記の実施例における装置について、各モジュールが操作を実行する特定の方法及び効果は、その方法の実施例で詳細に説明されており、ここでは詳細に説明されない。
本願の実施例によれば、本願は、電子機器、及び読み取り可能な記憶媒体をさらに提供する。
本願の実施例によれば、本願は、コンピュータプログラムをさらに提供し、コンピュータプログラムがプロセッサによって実行される場合、本願によって提供される画像処理方法または画像処理モデルのトレーニング方法が実現される。
図9は本願の実施例の画像処理方法を実現するための電子機器のブロック図である。電子機器は、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルディジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ及び他の適切なコンピュータなど、様々な形態のデジタルコンピュータを表すことを意図する。電子機器はさらに、例えば、携帯情報端末、携帯電話、スマートフォン、ウェアラブルデバイス及び他の同様のコンピューティング装置など、様々な形態の移動体装置を表すことができる。本明細書に示されるコンポーネント、それらの接続及び関係、並びにそれらの機能は、単なる例であり、本明細書に記載及び/又は請求される本願の実施を限定することを意図しない。
図9に示すように、該電子機器は、1又は複数のプロセッサ901、メモリ902、及び高速インターフェースと低速インターフェースを備える各コンポーネントを接続するためのインターフェースを備える。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボード上に実装されてもよいし、必要に応じて他の形態で実装されてもよい。プロセッサは、電子機器内で実行される命令を処理でき、この命令には、メモリ内に格納される又はメモリ上に格納されて外部入力/出力装置(例えば、インターフェースに結合された表示機器など)にGUIのグラフィック情報を表示する命令が含まれる。他の実施形態では、複数のプロセッサ及び/又は複数のバスが、必要に応じて、複数のメモリ及び複数のメモリとともに使用される。また、複数の電子機器が接続され、各機器が必要な動作の一部を提供するようにしてもよい(例えば、サーバアレイ、ブレードサーバの集合、マルチプロセッサシステムなど)。図9では、1つのプロセッサ901を例に挙げている。
メモリ902は、本願において提供される非一時的なコンピュータ読み取り可能な記憶媒体である。ここで、前記メモリには、前記少なくとも1つのプロセッサが本願において提供される画像処理方法を実行するように、少なくとも1つのプロセッサによって実行可能な命令が格納されている。本願の非一時的なコンピュータ読み取り可能な記憶媒体には、本願において提供される画像処理方法をコンピュータに実行させるためのコンピュータ命令が記憶されている。
非一時的なコンピュータ読み取り可能な記憶媒体としてのメモリ902は、本願の実施例における画像処理方法に対応するプログラム命令/モジュール(例えば、図7に示すテキスト取得モジュール701、第1のエンコードモジュール702、第2のエンコードモジュール703、最適化モジュール704及び生成モジュール705、または、図8に示す第1のトレーニングモジュール801、第1の取得モジュール802、第2のトレーニングモジュール803、第2の取得モジュール804及び第3のトレーニングモジュール805)などの非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能プログラム及びモジュールなどを記憶するために使用される。プロセッサ901は、メモリ902に格納された非一時的なソフトウェアプログラム、命令及びモジュールを実行することにより、サーバの各種機能アプリケーションやデータ処理を実行し、即ち、上記方法の実施例における画像処理方法を実現する。
メモリ902は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションを記憶することができるプログラム記憶領域と、画像処理方法の電子機器の使用に応じて作成されたデータなどを記憶することができるデータ記憶領域とを含む。また、メモリ902は、高速ランダムアクセスメモリを備えてもよく、また、少なくとも1つの磁気ディスクメモリデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートメモリデバイスなどの非一時的なメモリを備えてもよい。一部の実施形態では、メモリ902は、任意選択で、プロセッサ901から遠隔に配置されたメモリを備える。これらの遠隔メモリは、ネットワークを介して画像処理方法の電子装置に接続される。上記ネットワークの例としては、インターネット、イントラネット、ローカルエリアネットワーク、移動体通信ネットワーク、及びこれらの組み合わせが挙げられるが、これらに限定されない。
画像処理方法に係る電子機器は、入力装置903と出力装置904とを更に備えてもよい。プロセッサ901、メモリ902、入力装置903及び出力装置904は、バス又は他の方式で接続され、図9では、バスを介して接続される例が示される。
タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、1つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である入力装置903は、入力された数字又は文字情報を受信し、画像処理方法の電子機器のユーザ設定及び機能制御に関するキー信号入力を生成する。出力装置904は、ディスプレイ装置、補助照明装置(例えば、LED)、及び触覚フィードバック装置(例えば、振動モータ)などを含む。該表示装置は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを含むが、これらに限定されない。一部の実施形態では、表示装置は、タッチスクリーンであってもよい。
本明細書に記載されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現される。これらの様々な実施形態は、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、該記憶システム、該少なくとも1つの入力装置、及び該少なくとも1つの出力装置にデータ及び命令を送信することができる専用又は汎用のプログラマブルプロセッサである少なくとも1つのプログラマブルプロセッサを備えるプログラマブルシステム上で実行及び/又は解釈可能な1つ又は複数のコンピュータプログラムで実現することを含む。
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プラグラマブルプロセッサの機械命令を含み、これらのコンピュータプログラムは、高レベルのプロセス及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/機械言語で実現される。本明細書で使用される場合、用語「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」は、機械読み取り可能な信号として機械命令を受信する機械読み取り可能な媒体を含む、プラグラマブルプロセッサに機械命令及び/又はデータを提供するための任意のコンピュータプログラム、デバイス、及び/又は装置(例えば、磁気ディスク、光学ディスク、メモリ、プログラム可能論理デバイス(PLD))を指す。用語「機械読み取り可能な信号」は、機械命令及び/又はデータをプログラマブルプロセッサに提供するために使用される任意の信号を指す。
ユーザとの対話を提供するために、本明細書に記載されたシステム及び技術は、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、ユーザがコンピュータに入力を提供することができるキーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有するコンピュータ上で実施される。他の種類の装置を使用して、ユーザとの対話を提供してもよい。例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよい。ユーザからの入力は、音声入力、又は触覚入力を含む任意の形態で受信される。
本明細書に記載のシステム及び技術は、バックエンドコンポーネントを備えるコンピューティングシステム(例えば、データサーバとして)、又はミドルウェアコンポーネントを備えるコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを備えるコンピューティングシステム(例えば、ユーザが本明細書に記載のシステム及び技術の実施形態とやり取りするグラフィカルユーザインターフェース又はウェブブラウザを有するユーザコンピュータ)、又はそのようなバックエンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを備えるコンピューティングシステムにおいて実施される。システムのコンポーネントは、任意の形式又は媒体(例えば、通信ネットワーク)のデジタルデータ通信によって互いに接続される。通信ネットワークとしては、例えば、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、インターネットなどが挙げられる。
コンピュータシステムは、クライアント及びサーバを備える。クライアント及びサーバは、一般に、互いに離れており、通常、通信ネットワークを介して対話する。クライアントとサーバの関係は、それぞれのコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによって生成される。サーバは、クラウドサーバであってもよく、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおけるホスト製品であり、伝統的な物理ホスト及びVPS(「VirtuaL Private Server」、又は「VPS」と略称)サービスに存在する管理が難しく、サービスのスケーラビリティが弱い欠点を解決する。サーバは、さらに、分散システムのサーバか、またはブロックチェーンと組み合わせたサーバであってもよい。
上記に示された様々な形態のフローを使用して、ステップの並べ替え、追加、又は削除することができる。例えば、本願に記載された各ステップは、並列に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよく、本願に開示された技術的解決手段の所望の結果を実現できれば、本明細書では限定されない。
上述した具体的な実施形態は、本願の保護範囲への制限にならない。当業者にとって、設計の要求や他の要素によって様々な修正、組み合わせ、サブ組み合わせ及び置換を行うことができることは、明らかである。本願の趣旨や原則内に為した修正、均等置換及び改良などは、すべて本願の保護範囲に含まれるべきである。

Claims (23)

  1. 画像編集要求に応答して、前記画像編集要求に基づいて、編集対象画像とターゲット画像特性のテキスト記述情報とを決定するステップと、
    敵対的生成ネットワークのS空間で前記編集対象画像をエンコードして、第1の潜在コードを取得するステップであって、前記敵対的生成ネットワークはスタイルベースの敵対的生成ネットワークであるステップと、
    前記テキスト記述情報をエンコードして、対照言語画像事前トレーニング(CLIP)に基づくテキストコードを取得し、前記S空間で前記テキストコードをマッピングして、第2の潜在コードを取得するステップと、
    前記第1の潜在コードおよび第2の潜在コードに対して距離の最適化を行って、距離要件を満たすターゲット潜在コードを取得するステップと、
    前記ターゲット潜在コードに基づいてターゲット画像を生成するステップと、
    を含む画像処理方法。
  2. 前記敵対的生成ネットワークのS空間で前記編集対象画像をエンコードして、第1の潜在コードを取得するステップが、
    編集対象画像を逆変換エンコーダに入力し、前記逆変換エンコーダによって前記S空間で前記編集対象画像に対応する第1の潜在コードを生成するステップを含み、
    前記逆変換エンコーダが、画像再構成誤差に基づいて監視およびトレーニングされ、前記画像再構成誤差が、元の画像と、対応する再構成画像との間の誤差であり、前記再構成画像が、前記変換エンコーダから出力された潜在コードに基づいて、前記敵対的生成ネットワークのジェネレータによって画像を再構成することによって得られる請求項1に記載の画像処理方法。
  3. 前記テキスト記述情報をエンコードして、対照言語画像事前トレーニング(CLIP)に基づくテキストコードを取得し、前記S空間で前記テキストコードをマッピングして、第2の潜在コードを取得するステップが、
    テキスト記述情報をCLIPモデルのテキストエディタに入力し、前記テキスト記述情報をエンコードして、テキストコードを取得するステップと、
    前記テキストコードを潜在コードマッパーに入力し、前記S空間で前記テキストコードをマッピングして、第2の潜在コードを取得するステップと、
    を含む請求項1に記載の画像処理方法。
  4. 前記第1の潜在コードおよび第2の潜在コードに対して距離の最適化を行って、距離要件を満たすターゲット潜在コードを取得するステップが、
    前記第1の潜在コードおよび第2の潜在コードを画像再構成エディタに入力し、前記第1の潜在コードおよび第2の潜在コードに対して距離の最適化を行って、距離要件を満たすターゲット潜在コードを取得するステップを含む請求項1に記載の画像処理方法。
  5. 前記画像再構成エディタは畳み込みネットワークを含み、前記画像再構成エディタの目的関数が、次のように示され、
    L=(s-s_{image})+\lambda(s-s_{text})
    sはターゲット潜在コードを示し、s_{image}は第1の潜在コードを示し、s_{text}は第2の潜在コードを示し、\lambdaは距離重みの経験値を示す請求項4に記載の画像処理方法。
  6. 前記ターゲット潜在コードに基づいてターゲット画像を生成するステップが、
    前記ターゲット潜在コードを前記敵対的生成ネットワークのジェネレータに入力して、前記ターゲット画像を生成するステップを含む請求項1に記載の画像処理方法。
  7. 画像処理モデルのトレーニング方法であって、
    前記画像処理モデルが、逆変換エンコーダ、対照言語画像事前トレーニング(CLIP)モデル、潜在コードマッパー、画像再構成エディタ及びスタイルベースの敵対的生成ネットワークのジェネレータを含み、
    敵対的生成ネットワークのS空間で元の画像によって逆変換エンコーダをトレーニングして、トレーニングされた逆変換エンコーダを取得するステップであって、前記敵対的生成ネットワークはスタイルベースの敵対的生成ネットワークであるステップと、
    前記トレーニングされた逆変換エンコーダによって、前記S空間で前記元の画像をエンコードして、第3の潜在コードを取得し、前記CLIPモデルの画像エディタを使用して、前記元の画像を第4の潜在コードに変換するステップと、
    前記第3の潜在コードと前記第4の潜在コードとに基づいて、前記潜在コードマッパーをトレーニングして、トレーニングされた潜在コードマッパーを取得するステップと、
    前記元の画像とターゲット画像特性のテキスト記述情報とを取得し、前記CLIPモデルのテキストエディタによって、前記テキスト記述情報をエンコードして、テキストコードを取得し、前記トレーニングされた潜在コードマッパーによって、前記S空間で前記テキストコードをマッピングして、第5の潜在コードを取得するステップと、
    前記第3の潜在コードと前記第5の潜在コードとに基づいて、前記画像再構成エディタをトレーニングして、トレーニングされた画像再構成エディタを取得するステップと、
    を含む、画像処理モデルのトレーニング方法。
  8. 前記敵対的生成ネットワークのS空間で元の画像によって逆変換エンコーダをトレーニングするステップが、
    前記元の画像によって、前記逆変換エンコーダをトレーニングするステップであって、前記逆変換エンコーダの目的関数の制約条件が画像再構成誤差を含み、前記画像再構成誤差を取得する方法が、前記逆変換エンコーダによって変換された第3の潜在コードを前記スタイルベースの敵対的生成ネットワークのジェネレータに入力して、再構成画像を取得することと、前記第3の潜在コードに対応する元の画像と前記再構成画像との間の画像再構成誤差を取得することと、を含むステップと、
    前記画像再構成誤差に基づいて、前記逆変換エンコーダのパラメーターを調整するステップと、
    を含む請求項7に記載の画像処理モデルのトレーニング方法。
  9. 前記敵対的生成ネットワークのS空間で元の画像によって逆変換エンコーダをトレーニングするステップが、
    前記元の画像と前記再構成画像との両方をID弁別器に入力して、前記元の画像の第1のベクトルと前記再構成画像の第2のベクトルとを取得するステップと、
    前記第1のベクトルと前記第2のベクトルとの間の誤差をID誤差として算出するステップと、
    を含み、
    前記画像再構成誤差に基づいて、前記逆変換エンコーダのパラメーターを調整するステップが、
    前記ID誤差と前記画像再構成誤差とに基づいて、前記逆変換エンコーダのパラメーターを調整するステップを含む請求項8に記載の画像処理モデルのトレーニング方法。
  10. 前記第3の潜在コードと前記第4の潜在コードとに基づいて、前記潜在コードマッパーをトレーニングして、トレーニングされた潜在コードマッパーを取得するステップが、
    前記第4の潜在コードによって、前記潜在コードマッパーをトレーニングするステップであって、前記潜在コードマッパーの目的関数の制約条件が、前記第3の潜在コードと、入力された前記第4の潜在コードに基づいて前記潜在コードマッパーによって出力された第6の潜在コードとの間のコサイン距離を含むステップと、
    前記コサイン距離に基づいて、前記潜在コードマッパーのパラメーターを調整するステップと、
    を含む請求項7に記載の画像処理モデルのトレーニング方法。
  11. 画像編集要求に応答して、前記画像編集要求に基づいて、編集対象画像とターゲット画像特性のテキスト記述情報とを決定するテキスト取得モジュールと、
    敵対的生成ネットワークのS空間で前記編集対象画像をエンコードして、第1の潜在コードを取得する第1のエンコードモジュールであって、前記敵対的生成ネットワークはスタイルベースの敵対的生成ネットワークである第1のエンコードモジュールと、
    前記テキスト記述情報をエンコードして、対照言語画像事前トレーニング(CLIP)に基づくテキストコードを取得し、前記S空間で前記テキストコードをマッピングして、第2の潜在コードを取得する第2のエンコードモジュールと、
    前記第1の潜在コードおよび第2の潜在コードに対して距離の最適化を行って、距離要件を満たすターゲット潜在コードを取得する最適化モジュールと、
    前記ターゲット潜在コードに基づいてターゲット画像を生成する生成モジュールと、
    を備える画像処理装置。
  12. 前記第1のエンコードモジュールが、
    編集対象画像を逆変換エンコーダに入力し、前記逆変換エンコーダによって前記S空間で前記編集対象画像に対応する第1の潜在コードを生成し、
    前記逆変換エンコーダが、画像再構成誤差に基づいて監視およびトレーニングされ、前記画像再構成誤差が、元の画像と、対応する再構成画像との間の誤差であり、前記再構成画像が、前記変換エンコーダから出力された潜在コードに基づいて、前記敵対的生成ネットワークのジェネレータによって画像を再構成することによって得られる請求項11に記載の画像処理装置。
  13. 前記第2のエンコードモジュールが、
    テキスト記述情報を前記CLIPモデルのテキストエディタに入力し、前記テキスト記述情報をエンコードして、テキストコードを取得し、
    前記テキストコードを潜在コードマッパーに入力し、前記S空間で前記テキストコードをマッピングして、第2の潜在コードを取得する請求項11に記載の画像処理装置。
  14. 前記最適化モジュールが、
    前記第1の潜在コードおよび第2の潜在コードを画像再構成エディタに入力し、前記第1の潜在コードおよび第2の潜在コードに対して距離の最適化を行って、距離要件を満たすターゲット潜在コードを取得する請求項11に記載の画像処理装置。
  15. 前記画像再構成エディタが畳み込みネットワークを含み、前記画像再構成エディタの目的関数が、次のように示され、
    L=(s-s_{image})+\lambda(s-s_{text})
    sはターゲット潜在コードを示し、s_{image}は第1の潜在コードを示し、s_{text}は第2の潜在コードを示し、\lambda は距離重みの経験値を示す請求項14に記載の画像処理装置。
  16. 前記生成モジュールが、
    前記ターゲット潜在コードを前記敵対的生成ネットワークのジェネレータに入力して、前記ターゲット画像を生成する請求項11に記載の画像処理装置。
  17. 画像処理モデルのトレーニング装置であって、
    前記画像処理モデルが、逆変換エンコーダ、対照言語画像事前トレーニング(CLIP)モデル、潜在コードマッパー、画像再構成エディタ及びスタイルベースの敵対的生成ネットワークのジェネレータを含み、
    敵対的生成ネットワークのS空間で元の画像によって逆変換エンコーダをトレーニングして、トレーニングされた逆変換エンコーダを取得する第1のトレーニングモジュールであって、前記敵対的生成ネットワークはスタイルベースの敵対的生成ネットワークである第1のトレーニングモジュールと、
    前記トレーニングされた逆変換エンコーダによって、前記S空間で前記元の画像をエンコードして、第3の潜在コードを取得し、前記CLIPモデルの画像エディタを使用して、前記元の画像を第4の潜在コードに変換する第1の取得モジュールと、
    前記第3の潜在コードと前記第4の潜在コードとに基づいて、前記潜在コードマッパーをトレーニングして、トレーニングされた潜在コードマッパーを取得する第2のトレーニングモジュールと、
    前記元の画像とターゲット画像特性のテキスト記述情報とを取得し、前記CLIPモデルのテキストエディタによって、前記テキスト記述情報をエンコードして、テキストコードを取得し、前記トレーニングされた潜在コードマッパーによって、前記S空間で前記テキストコードをマッピングして、第5の潜在コードを取得する第2の取得モジュールと、
    前記第3の潜在コードと前記第5の潜在コードとに基づいて、前記画像再構成エディタをトレーニングして、トレーニングされた画像再構成エディタを取得する第3のトレーニングモジュールと、
    を備える、画像処理モデルのトレーニング装置。
  18. 前記第1のトレーニングモジュールが、
    前記元の画像によって、前記逆変換エンコーダをトレーニングし、前記逆変換エンコーダの目的関数の制約条件が画像再構成誤差を含み、前記画像再構成誤差を取得するための方法が、前記逆変換エンコーダによって変換された第3の潜在コードを前記スタイルベースの敵対的生成ネットワークのジェネレータに入力して、再構成画像を取得することと、前記第3の潜在コードに対応する元の画像と前記再構成画像との間の画像再構成誤差を取得することと、を含み、
    前記画像再構成誤差に基づいて、前記逆変換エンコーダのパラメーターを調整する請求項17に記載の画像処理モデルのトレーニング装置。
  19. 前記第1のトレーニングモジュールが、
    前記元の画像と前記再構成画像との両方をID弁別器に入力して、前記元の画像の第1のベクトルと前記再構成画像の第2のベクトルとを取得し、
    前記第1のベクトルと前記第2のベクトルとの間の誤差をID誤差として算出し、
    前記画像再構成誤差に基づいて、前記逆変換エンコーダのパラメーターを調整することが、
    前記ID誤差と前記画像再構成誤差とに基づいて、前記逆変換エンコーダのパラメーターを調整することを含む請求項18に記載の画像処理モデルのトレーニング装置。
  20. 前記第2のトレーニングモジュールが、
    前記第5の潜在コードによって、前記潜在コードマッパーをトレーニングし、前記潜在コードマッパーの目的関数の制約条件が、前記トレーニングされた逆変換エンコーダから出力された第3の潜在コードと前記潜在コードマッパーから出力された第4の潜在コードとの間のコサイン距離を含み、
    前記コサイン距離に基づいて、前記潜在コードマッパーのパラメーターを調整する請求項17に記載の画像処理モデルのトレーニング装置。
  21. 少なくとも1つのプロセッサと、
    該少なくとも1つのプロセッサと通信可能に接続されるメモリと、
    を備え、
    前記メモリには、前記少なくとも1つのプロセッサによって実行される命令が記憶されており、前記命令が、前記少なくとも1つのプロセッサが請求項1から6のいずれか一項に記載の画像処理方法または請求項7から10のいずれか一項に記載の画像処理モデルのトレーニング方法を実行できるように、前記少なくとも1つのプロセッサによって実行される電子機器。
  22. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令が、コンピュータに請求項1から6のいずれか一項に記載の画像処理方法または請求項7から10のいずれか一項に記載の画像処理モデルのトレーニング方法を実行させる非一時的なコンピュータ読み取り可能な記憶媒体。
  23. プロセッサによって実行される場合、請求項1から6のいずれか一項に記載の画像処理方法または請求項7から10のいずれか一項に記載の画像処理モデルのトレーニング方法が実現されるコンピュータプログラム。
JP2022149886A 2021-10-12 2022-09-21 画像処理方法、画像処理モデルのトレーニング方法、装置及び記憶媒体 Active JP7395686B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202111189380.4A CN113963087B (zh) 2021-10-12 2021-10-12 图像处理方法、图像处理模型训练方法、装置及存储介质
CN202111189380.4 2021-10-12

Publications (2)

Publication Number Publication Date
JP2022180519A true JP2022180519A (ja) 2022-12-06
JP7395686B2 JP7395686B2 (ja) 2023-12-11

Family

ID=79463603

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022149886A Active JP7395686B2 (ja) 2021-10-12 2022-09-21 画像処理方法、画像処理モデルのトレーニング方法、装置及び記憶媒体

Country Status (3)

Country Link
US (1) US20230022550A1 (ja)
JP (1) JP7395686B2 (ja)
CN (1) CN113963087B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116320459A (zh) * 2023-01-08 2023-06-23 南阳理工学院 一种基于人工智能的计算机网络通信数据处理方法及系统

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114943789A (zh) * 2022-03-28 2022-08-26 华为技术有限公司 一种图像处理方法、模型训练方法及相关装置
US11762622B1 (en) * 2022-05-16 2023-09-19 Adobe Inc. Interactive remote digital image editing utilizing a scalable containerized architecture
CN115631251B (zh) * 2022-09-07 2023-09-22 北京百度网讯科技有限公司 基于文本生成图像的方法、装置、电子设备和介质
CN115620303B (zh) * 2022-10-13 2023-05-09 杭州京胜航星科技有限公司 人事档案智慧管理系统
CN116091857B (zh) * 2022-10-17 2023-10-20 北京百度网讯科技有限公司 图像处理模型的训练方法、图像处理方法和装置
US11922550B1 (en) * 2023-03-30 2024-03-05 OpenAI Opco, LLC Systems and methods for hierarchical text-conditional image generation
CN116543074B (zh) * 2023-03-31 2024-05-17 北京百度网讯科技有限公司 图像处理方法、装置、电子设备及存储介质
CN116543075B (zh) * 2023-03-31 2024-02-13 北京百度网讯科技有限公司 图像生成方法、装置、电子设备及存储介质
CN116402067B (zh) * 2023-04-06 2024-01-30 哈尔滨工业大学 面向多语种文字风格保持的跨语言自监督生成方法
CN116363737B (zh) * 2023-06-01 2023-07-28 北京烽火万家科技有限公司 一种人脸图像属性编辑方法、系统、电子设备及存储介质
CN116702091B (zh) * 2023-06-21 2024-03-08 中南大学 基于多视图clip的多模态讽刺意图识别方法、装置和设备
CN116681630B (zh) * 2023-08-03 2023-11-10 腾讯科技(深圳)有限公司 图像处理方法、装置、电子设备及存储介质
CN117649338B (zh) * 2024-01-29 2024-05-24 中山大学 一种用于人脸图像编辑的生成对抗网络逆映射方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457994B (zh) * 2019-06-26 2024-05-10 平安科技(深圳)有限公司 人脸图像生成方法及装置、存储介质、计算机设备
CN111861955A (zh) * 2020-06-22 2020-10-30 北京百度网讯科技有限公司 构建图像编辑模型的方法以及装置
CN112017255A (zh) * 2020-08-21 2020-12-01 上海志唐健康科技有限公司 一种根据食谱生成食物图像的方法
CN112184851B (zh) * 2020-10-26 2023-09-26 北京百度网讯科技有限公司 图像编辑方法、网络训练方法、相关装置及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
OR PATASHNIK,外4名: "StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery", [ONLINE], JPN6023026972, 31 March 2021 (2021-03-31), ISSN: 0005100705 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116320459A (zh) * 2023-01-08 2023-06-23 南阳理工学院 一种基于人工智能的计算机网络通信数据处理方法及系统
CN116320459B (zh) * 2023-01-08 2024-01-23 南阳理工学院 一种基于人工智能的计算机网络通信数据处理方法及系统

Also Published As

Publication number Publication date
JP7395686B2 (ja) 2023-12-11
US20230022550A1 (en) 2023-01-26
CN113963087A (zh) 2022-01-21
CN113963087B (zh) 2023-10-27

Similar Documents

Publication Publication Date Title
JP7395686B2 (ja) 画像処理方法、画像処理モデルのトレーニング方法、装置及び記憶媒体
US11769482B2 (en) Method and apparatus of synthesizing speech, method and apparatus of training speech synthesis model, electronic device, and storage medium
JP7146991B2 (ja) 音声スペクトル生成モデルの学習方法、装置、電子機器及びコンピュータプログラム製品
KR102627802B1 (ko) 가상 형상 생성 모델의 트레이닝 방법 및 가상 형상 생성 방법
KR102566277B1 (ko) 이미지 편집 모델 구축 방법 및 장치
CN111259671B (zh) 文本实体的语义描述处理方法、装置及设备
US20210319335A1 (en) Question analysis method, device, knowledge base question answering system and electronic equipment
US20210232932A1 (en) Method and apparatus for generating image, device and medium
CN111767359B (zh) 兴趣点分类方法、装置、设备以及存储介质
JP2022058775A (ja) ターゲットオブジェクトの生成方法、装置、電子機器及び記憶媒体
US20220148239A1 (en) Model training method and apparatus, font library establishment method and apparatus, device and storage medium
CN114549935A (zh) 信息生成方法和装置
US11836837B2 (en) Video generation method, device and storage medium
JP2021111334A (ja) 検索データに基づくヒューマンコンピュータ対話型インタラクションの方法、装置及び電子機器
CN114820871B (zh) 字体生成方法、模型的训练方法、装置、设备和介质
CN111241838B (zh) 文本实体的语义关系处理方法、装置及设备
WO2023065731A1 (zh) 目标地图模型的训练方法、定位方法及相关装置
US20210334659A1 (en) Method and apparatus for adversarial training of machine learning model, and medium
CN111539897A (zh) 用于生成图像转换模型的方法和装置
JP2022172173A (ja) 画像編集モデルのトレーニング方法および装置、画像編集方法および装置、電子機器、記憶媒体並びにコンピュータプログラム
KR20220009338A (ko) 모델링 매개 변수의 설정 방법, 장치, 전자 기기 및 기록 매체
CN116611496A (zh) 文本到图像的生成模型优化方法、装置、设备及存储介质
US11836836B2 (en) Methods and apparatuses for generating model and generating 3D animation, devices and storage mediums
JP7121791B2 (ja) 言語生成方法、装置及び電子機器
JP7256857B2 (ja) 対話処理方法、装置、電子機器及び記憶媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220921

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230704

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230929

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231121

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231129

R150 Certificate of patent or registration of utility model

Ref document number: 7395686

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150