JP2022180519A

JP2022180519A - 画像処理方法、画像処理モデルのトレーニング方法、装置及び記憶媒体

Info

Publication number: JP2022180519A
Application number: JP2022149886A
Authority: JP
Inventors: ハンキグオ，; Hanqi Guo; ツィビンホン，; Zhibin Hong; ティアンシュフ，; Tianshu Hu
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-10-12
Filing date: 2022-09-21
Publication date: 2022-12-06
Anticipated expiration: 2042-09-21
Also published as: JP7395686B2; US20230022550A1; CN113963087A; CN113963087B

Abstract

【課題】画像編集の効果を向上させ、最適化の速度を向上させるために、画像処理方法、画像処理モデルのトレーニング方法、装置及び記憶媒体を提供する。【解決手段】方法は、敵対的生成ネットワークのＳ空間で編集対象画像をエンコードして、第１の潜在コードを取得する。前記敵対的生成ネットワークは、スタイルベースの敵対的生成ネットワークであり、テキスト記述情報をエンコードして、テキスト画像のテキストコードを取得し、前記Ｓ空間で前記テキストコードをマッピングして、第２の潜在コードを取得し、第１の潜在コードおよび第２の潜在コードに対して距離の最適化を行って、距離要件を満たすターゲット潜在コードを取得し、ターゲット潜在コードに基づいてターゲット画像を生成する。画像の一部を編集する場合、編集する必要のない他の部分への影響が少なくなり、最適化の速度を効果的に向上させることができる。【選択図】図２

Description

本願の実施例は、人工知能の分野に関し、さらに、コンピュータービジョン、深層学習などの分野に関し、具体的には、画像処理方法、画像処理モデルのトレーニング方法、装置及び記憶媒体に関する。

画像の編集および処理技術は広く使用されており、従来の編集方法では、目標を達成するために画像に対して複雑な操作を行う必要がある。敵対的生成ネットワーク（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ、ＧＡＮ）は、主にジェネレータとディスクリミネータを含む新しい画像生成技術であり、ジェネレータは、主に実際の画像の分布を学習して、それ自体で生成された画像をよりリアルにしてディスクリミネータをだますために使用される。ディスクリミネータは、受信した画像の真偽を判別する必要がある。時間の経過とともに、ジェネレータとディスクリミネータは絶えずに戦い、最終的に２つのネットワークは動的平衡に達する。

敵対的生成ネットワークと組み合わせた画像処理方法は、画像編集の分野で便利な画像編集方法を提供し、従来の画像編集の単一モードでの複雑な操作の問題を解決する。しかしながら、敵対的生成ネットワークと組み合わせた現在の画像処理方法は、使用効果を改善するためにさらに改善する必要がある。

本願は、画像編集の効果を向上させ、最適化の速度を向上させるために、画像処理方法、画像処理モデルのトレーニング方法、装置及び記憶媒体を提供する。

本願の第１の態様によれば、画像処理方法を提供し、画像編集要求に応答して、前記画像編集要求に基づいて、編集対象画像とターゲット画像特性のテキスト記述情報とを決定するステップと、敵対的生成ネットワークのＳ空間で前記編集対象画像をエンコードして、第１の潜在コードを取得するステップであって、前記敵対的生成ネットワークはスタイルベースの敵対的生成ネットワークであるステップと、前記テキスト記述情報をエンコードして、対照言語画像事前トレーニング（ＣＬＩＰ）に基づくテキストコードを取得し、前記Ｓ空間で前記テキストコードをマッピングして、第２の潜在コードを取得するステップと、前記第１の潜在コードおよび第２の潜在コードに対して距離の最適化を行って、距離要件を満たすターゲット潜在コードを取得するステップと、前記ターゲット潜在コードに基づいてターゲット画像を生成するステップと、を含む。

本願の第２の態様によれば、画像処理モデルのトレーニング方法を提供し、前記画像処理モデルは逆変換エンコーダ、対照言語画像事前トレーニング（ＣＬＩＰ）モデル、潜在コードマッパー、画像再構成エディタ及びスタイルベースの敵対的生成ネットワークのジェネレータを含み、前記方法は、敵対的生成ネットワークのＳ空間で元の画像によって逆変換エンコーダをトレーニングして、トレーニングされた逆変換エンコーダを取得するステップであって、前記敵対的生成ネットワークはスタイルベースの敵対的生成ネットワークであるステップと、前記トレーニングされた逆変換エンコーダによって、前記Ｓ空間で前記元の画像をエンコードして、第３の潜在コードを取得し、前記ＣＬＩＰモデルの画像エディタを使用して、前記元の画像を第４の潜在コードに変換するステップと、前記第３の潜在コードと前記第４の潜在コードとに基づいて、前記潜在コードマッパーをトレーニングして、トレーニングされた潜在コードマッパーを取得するステップと、前記元の画像とターゲット画像特性のテキスト記述情報とを取得し、前記ＣＬＩＰモデルのテキストエディタによって、前記テキスト記述情報をエンコードして、テキストコードを取得し、前記トレーニングされた潜在コードマッパーによって、前記Ｓ空間で前記テキストコードをマッピングして、第５の潜在コードを取得するステップと、前記第３の潜在コードと前記第５の潜在コードとに基づいて、前記画像再構成エディタをトレーニングして、トレーニングされた画像再構成エディタを取得するステップと、を含む。

本願の第３の態様によれば、画像処理装置を提供し、画像編集要求に応答して、前記画像編集要求に基づいて、編集対象画像とターゲット画像特性のテキスト記述情報とを決定するテキスト取得モジュールと、敵対的生成ネットワークのＳ空間で前記編集対象画像をエンコードして、第１の潜在コードを取得する第１のエンコードモジュールであって、前記敵対的生成ネットワークはスタイルベースの敵対的生成ネットワークである第１のエンコードモジュールと、前記テキスト記述情報をエンコードして、対照言語画像事前トレーニング（ＣＬＩＰ）のテキストコードを取得し、前記Ｓ空間で前記テキストコードをマッピングして、第２の潜在コードを取得する第２のエンコードモジュールと、前記第１の潜在コードおよび第２の潜在コードに対して距離の最適化を行って、距離要件を満たすターゲット潜在コードを取得する最適化モジュールと、前記ターゲット潜在コードに基づいてターゲット画像を生成する生成モジュールと、を備える。

本願の実施例の第４の態様によれば、画像処理モデルのトレーニング装置を提供し、前記画像処理モデルは逆変換エンコーダ、対照言語画像事前トレーニング（ＣＬＩＰ）モデル、潜在コードマッパー、画像再構成エディタ及びスタイルベースの敵対的生成ネットワークのジェネレータを含み、前記装置は、敵対的生成ネットワークのＳ空間で元の画像によって逆変換エンコーダをトレーニングして、トレーニングされた逆変換エンコーダを取得する第１のトレーニングモジュールであって、前記敵対的生成ネットワークはスタイルベースの敵対的生成ネットワークである第１のトレーニングモジュールと、前記トレーニングされた逆変換エンコーダによって、前記Ｓ空間で前記元の画像をエンコードして、第３の潜在コードを取得し、前記ＣＬＩＰモデルの画像エディタを使用して、前記元の画像を第４の潜在コードに変換する第１の取得モジュールと、前記第３の潜在コードと前記第４の潜在コードとに基づいて、前記潜在コードマッパーをトレーニングして、トレーニングされた潜在コードマッパーを取得する第２のトレーニングモジュールと、前記元の画像とターゲット画像特性のテキスト記述情報とを取得し、前記ＣＬＩＰモデルのテキストエディタによって、前記テキスト記述情報をエンコードして、テキストコードを取得し、前記トレーニングされた潜在コードマッパーによって、前記Ｓ空間で前記テキストコードをマッピングして、第５の潜在コードを取得する第２の取得モジュールと、前記第３の潜在コードと前記第５の潜在コードとに基づいて、前記画像再構成エディタをトレーニングして、トレーニングされた画像再構成エディタを取得する第３のトレーニングモジュールと、を備える。

本願の実施例の第５の態様によれば、電子機器を提供し、少なくとも１つのプロセッサと、該少なくとも１つのプロセッサと通信可能に接続されるメモリと、を備え、前記メモリには、前記少なくとも１つのプロセッサによって実行される命令が記憶されており、前記命令は、前記少なくとも１つのプロセッサが第１の態様または第２の態様に記載の方法を実行できるように、前記少なくとも１つのプロセッサによって実行される、

本願の実施例の第６の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、コンピュータに第１の態様または第２の態様に記載の方法を実行させる。

本願の実施例の第７の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムがプロセッサによって実行される場合、第１の態様または第２の態様に記載の方法が実現される。

本願の技術案によれば、画像を編集するときにテキスト記述以外の属性及び特性をよりよく維持し、最適化の速度を向上させる。

なお、この部分に記載の内容は、本開示の実施例の肝心または重要な特徴を特定することを意図しておらず、本開示の範囲を限定することも意図していない。本願の他の特徴は下記の明細書の記載を通して理解しやすくなる。

図面は、本願をより良く理解するためのものであり、本開示を限定するものではない。
ＳｔｙｌｅＧＡＮモデルの動作の原理の概略図である。本願の実施例に係る画像処理方法の概略フローチャートである。本願の実施例に係る画像処理モデルのトレーニング方法の概略フローチャートである。本願の実施例に係るモデルの概略構成図である。本願の実施例に係る逆変換エンコーダのトレーニング方法の概略図である。本願の実施例に係る潜在コードマッパーのトレーニング方法の概略図である。本願の実施例に係る画像処理装置のブロック図である。本願の実施例に係る画像処理モデルのトレーニング装置のブロック図である。本願の実施例を実現するための電子機器のブロック図である。

理解を容易にするために、まず本願に含まれる用語を紹介する。

敵対的生成ネットワーク（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ、ＧＡＮ）は、主に、ジェネレータ（ｇｅｎｅｒａｔｏｒ）とディスクリミネータ（ｄｉｓｃｒｉｍｉｎａｔｏｒ）との２つの部分で構成される。ジェネレータは、主に実際の画像の分布を学習して、それ自体で生成された画像をよりリアルにしてディスクリミネータをだますために使用される。ディスクリミネータは、受信した画像の真偽を判断する必要がある。プロセス全体で、ジェネレータは生成された画像をよりリアルにするために一生懸命働き、ディスクリミネーターは画像の真偽を識別するために一生懸命働き、時間の経過とともに、ジェネレータとディスクリミネータは絶えずに戦い、最終的に２つのネットワークは動的平衡に達する。

ＳｔｙｌｅＧＡＮ（Ｓｔｙｌｅ－ＢａｓｅｄＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓ、スタイルベースの敵対的生成ネットワーク）及び其Ｓ空間エンコードについては、ＳｔｙｌｅＧＡＮは、強力な画像生成機能を備えたモデルである。図１は、ＳｔｙｌｅＧＡＮモデルの動作の原理を示す概略図である。ＳｔｙｌｅＧＡＮは、画像の均一分布をサンプリングしてサンプルｚを取得し、８層の完全接続ネットワークを介してＷ空間の潜在コード（ｌａｔｅｎｔ
ｃｏｄｅ）ｗを取得し、ｗをアフィン変換して、１８個の潜在コード{ｓ_{ｉ}}_{ｉ＝１}^{１８}を取得し、対応する１８個のネットワークレイヤーを生成して、画像を生成し、実現プロセスを図１に示す。各潜在コード{ｓ_{ｉ}}_{ｉ＝１}^{１８}はＳ空間のサンプルであり、すべての{ｓ_{ｉ}}_{ｉ＝１}^{１８}が一緒になってＳ空間を構成する。Ｓ空間内の各潜在コードは生成された画像に対応するため、Ｓ空間における編集対象画像の対応する潜在コードを編集することにより、画像の編集を実現することができる。

ＳｔｙｌｅＣＬＩＰ（ＳｔｙｌｅＣｏｎｔｒａｓｔｉｖｅＬａｎｇｕａｇｅ－Ｉｍａｇｅ
Ｐｒｅ－ｔｒａｉｎｉｎｇ、スタイルベースの対照言語画像事前トレーニング）は、主に、ＣＬＩＰ（ＣｏｎｔｒａｓｔｉｖｅＬａｎｇｕａｇｅ－ＩｍａｇｅＰｒｅ－ｔｒａｉｎｉｎｇ、対照言語画像事前トレーニング）モデルを使用して、ユーザ入力言語の記述によって潜在コード（ｌａｔｅｎｔｃｏｄｅ）を編集することで、画像を編集するという目的を達成する。

対照言語画像事前トレーニング（ＣＬＩＰ）モデルは、対照学習を通じて４億の画像－テキストペア（ｉｍａｇｅ－ｔｅｘｔｐａｉｒ）でトレーニングされた大規模な事前トレーニングモデルであり、主に、テキストエンコーダと画像エンコーダとの２つの部分で構成され、これらの２つのエンコーダによって生成されたコードをそれぞれｃｏｄｅ_ｔｅｘｔ_ｃｌｉｐおよびｃｏｄｅ_ｉｍａｇｅ_ｃｌｉｐとして示す。画像のコンテンツがテキスト記述のコンテンツと一致している場合、ＣＬＩＰモデルによって生成されたｃｏｄｅ_ｔｅｘｔ_ｃｌｉｐとｃｏｄｅ_ｉｍａｇｅ_ｃｌｉｐの間の距離は非常に近く、そうでない場合は２つの間の距離は非常に遠くなる。

以下、図面と組み合わせて、本願の例示的な実施例を説明し、ここで、本願の実施例の様々な詳細が理解を容易にするために含まれており、それらは単なる例示とみなされるべきである。したがって、当業者は、本願の範囲及び精神から逸脱することなく、本明細書に記載された実施例に対して様々な変更及び修正を行うことができることを認識すべきである。同様に、以下の説明では、明瞭かつ簡明のために公知の機能および構造の説明を省略する。

現在の実施形態は、主にＳｔｙｌｅＣＬＩＰの方法を使用し、この方法は、ＳｔｙｌｅＧＡＮの編集機能、及びＣＬＩＰモデルのテキスト特徴と画像特徴のマッチング機能を使用することで、テキスト記述を使用して画像を編集する。具体的には、２つの実施形態があり、つまり潜在コードの最適化と潜在コードのマッピング方法がある。両方の主な主旨は、編集対象画像の潜在コードを参照として、ＳｔｙｌｅＧＡＮの潜在コード空間で新しい潜在コードを検索し、それを使用して生成された画像は、ＣＬＩＰ空間でテキスト記述のコードに最も近いものになるということである。

現在のＳｔｙｌｅＣＬＩＰの方法には２つの主な問題があり、即ち、まずは、独立した編集機能がわずかに不十分であるということである。これは主に、画像の特定の部分を変更する場合、テキスト記述に言及されていない部分はその特性が保持されていないため、予期しない変更や欠陥が発生することがある。次は、実行速度が遅いことである。これは主に、テキスト記述ごとに画像を編集する場合、その最適化プロセスでは元の画像データの関与が必要であり、処理時間が長くなるという問題が発生する。

上記の問題を解決するために、本願の実施例は、画像処理方法、装置及び記憶媒体を提供する。ＳｔｙｌｅＧＡＮのＳ空間で潜在コードの編集を行うことにより、テキスト記述以外の属性及び特性を編集中に適切に維持することができる。画像やテキストに最も近いコードを直接検索することで、最適なエンコードを実現し、最適化の速度を向上させることができる。

図２は本願の実施例に係る画像処理方法のフローチャートである。なお、本願の実施例の画像処理方法は本願の実施例の画像処理装置に適用可能である。この画像処理装置は電子機器に配置することができる。図２に示すように、前記画像処理方法は以下のステップＳ２０１～Ｓ２０５を含む。

Ｓ２０１では、画像編集要求に応答して、前記画像編集要求に基づいて、編集対象画像とターゲット画像特性のテキスト記述情報とを決定する。

画像編集要求に応答して、前記編集対象画像に対応するテキスト記述情報を取得し、前記テキスト記述情報に基づいて前記画像を編集する。

Ｓ２０２では、敵対的生成ネットワークのＳ空間で前記編集対象画像をエンコードして、第１の潜在コードを取得する。ここで、前記敵対的生成ネットワークはスタイルベースの敵対的生成ネットワークである。

本願の実施例では、前記スタイルベースの敵対的生成ネットワークとしては、ＳｔｙｌｅＧＡＮ、またはＳｔｙｌｅＧＡＮ２、または同じ機能を有する他のネットワークモデルを選択することができるが、これに限定されない。

スタイルベースの敵対的生成ネットワークを使用して画像を編集することは、まず、画像を潜在コードに変換し、次に、潜在コードを編集することで画像の編集を実現する必要がある。

本願の実施例では、前記敵対的生成ネットワークのＳ空間で前記編集対象画像をエンコードして、第１の潜在コードを取得するステップは、編集対象画像を逆変換エンコーダに入力し、前記逆変換エンコーダによって前記Ｓ空間で前記編集対象画像に対応する第１の潜在コードを生成するステップを含み、前記逆変換エンコーダは、画像再構成誤差に基づいて監視およびトレーニングされ、前記画像再構成誤差は、元の画像と、対応する再構成画像との間の誤差であり、前記再構成画像は、前記変換エンコーダから出力された潜在コードに基づいて前記ＳｔｙｌｅＧＡＮのジェネレータによって画像を再構成することによって得られる。

前記逆変換エンコーダの役割は、スタイルベースの敵対的生成ネットワークＳｔｙｌｅＧＡＮのＳ空間で、編集対象画像に対応する第１の潜在コードを生成することである。

Ｓ２０３では、前記テキスト記述情報をエンコードして、対照言語画像事前トレーニング（ＣＬＩＰ）に基づくテキストコードを取得し、前記Ｓ空間で前記テキストコードをマッピングして、第２の潜在コードを取得する。

本願の実施例では、テキスト記述を対照言語画像事前トレーニング（ＣＬＩＰ）モデルのテキストエディタに入力して、テキストコード（ｃｏｄｅ_ｔｅｘｔ_ｃｌｉｐ）を取得する。

本願の実施例では、前記テキストコードを潜在コードマッパーに入力し、スタイルベースの敵対的生成ネットワークのＳ空間で前記テキストコードをマッピングして、第２の潜在コードを取得する。

前記潜在コードマッパーの役割は、テキスト記述のテキストコード（ｃｏｄｅ_ｔｅｘｔ_ｃｌｉｐ）をスタイルベースの敵対的生成ネットワークのＳ空間にマッピングすることである。

Ｓ２０４では、前記第１の潜在コードおよび第２の潜在コードに対して距離の最適化を行って、距離要件を満たすターゲット潜在コードを取得する。

本願の実施例では、前記第１の潜在コードおよび第２の潜在コードを画像再構成エディタに入力し、前記第１の潜在コードおよび第２の潜在コードに対して距離の最適化を行って、距離要件を満たすターゲット潜在コードを取得する。

可能な一実施形態として、画像再構成エディタによって、重み付けされた前記第１の潜在コードと第２の潜在コードとの間の距離の合計を最適化して、ターゲット潜在コードを取得する。

前記画像再構成エディタの役割は、画像編集機能を実現するために、画像に対応する第１の潜在コードとテキスト記述に対応する第２の潜在コードのいずれにも類似するコードベクトルをＳ空間で生成することである。

Ｓ２０５では、前記ターゲット潜在コードに基づいてターゲット画像を生成する。

可能な一実施形態として、前記ターゲット潜在コードをスタイルベースの敵対的生成ネットワークのジェネレータに入力して、ターゲット画像を生成する。例えば、ＳｔｙｌｅＧＡＮ２のジェネレータによって、前記ターゲット潜在コードを前記テキスト記述に合致するターゲット画像として生成することができる。

本願の実施例の画像処理方法は、まず、編集対象画像とテキスト記述とのＳｔｙｌｅＧＡＮモデルのＳ空間の潜在コードを取得し、Ｓ空間の潜在コードはデカップリング効果が優れているため、画像の一部を編集する場合、編集する必要のない他の部分への影響が少なくなる。画像とテキストとの距離が最も近いターゲットエンコードを直接検索することで最適なエンコードを実現することは、元の画像を直接処理する場合と比較して、データの量と次元が元の画像よりも大幅に少ないため、最適化の速度を効果的に向上させることができる。

可能な一実施形態として、前記画像再構成エディタは畳み込みネットワークを含み、本願の実施例では、ｍｏｂｉｌｅｎｅｔネットワークモデルを使用するが、他の畳み込みネットワークモデルを選択してもよく、これに限定されない。前記画像再構成エディタの最適化過程は、小さな畳み込みネットワークを最適化して、重み付けされたコードベクトルの距離の合計を最小化することであり、この最適化過程の目的関数は、次のように示される。
Ｌ＝（ｓ－ｓ_{ｉｍａｇｅ}）^２＋＼ｌａｍｂｄａ（ｓ－ｓ_{ｔｅｘｔ}）^２

ここで、ｓはターゲット潜在コードを示し、ｓ_{ｉｍａｇｅ}は画像潜在コードを示し、ｓ_{ｔｅｘｔ}はテキスト潜在コードを示し、＼ｌａｍｂｄａは距離重みの経験値を示す。

図３は本願の実施例に係る画像処理モデルのトレーニング方法のフローチャートである。なお、図４に示すように、前記画像処理モデルは逆変換エンコーダ、対照言語画像事前トレーニング（ＣＬＩＰ）モデル、潜在コードマッパー、画像再構成エディタ及びスタイルベースの敵対的生成ネットワークのジェネレータを含む。

図３に示すように、前記画像処理モデルのトレーニング方法は、以下のステップＳ３０１～Ｓ３０５を含む。

Ｓ３０１では、敵対的生成ネットワークのＳ空間で元の画像によって逆変換エンコーダをトレーニングして、トレーニングされた逆変換エンコーダを取得する。ここで、前記敵対的生成ネットワークはスタイルベースの敵対的生成ネットワークである。

本願の実施例では、前記スタイルベースの敵対的生成ネットワークとしては、ＳｔｙｌｅＧＡＮ、又はＳｔｙｌｅＧＡＮ２を選択することができる。

Ｓ３０２では、前記トレーニングされた逆変換エンコーダによって、前記Ｓ空間で前記元の画像をエンコードして、第３の潜在コードを取得し、前記ＣＬＩＰモデルの画像エディタを使用して、前記元の画像を第４の潜在コードに変換する。

Ｓ３０３では、前記第３の潜在コードと前記第４の潜在コードとに基づいて、前記潜在コードマッパーをトレーニングして、トレーニングされた潜在コードマッパーを取得する。

Ｓ３０４では、前記元の画像とターゲット画像特性のテキスト記述情報とを取得し、前記ＣＬＩＰモデルのテキストエディタによって、前記テキスト記述情報をエンコードして、テキストコードを取得し、前記トレーニングされた潜在コードマッパーによって、前記Ｓ空間で前記テキストコードをマッピングして、第５の潜在コードを取得する。

Ｓ３０５では、前記第３の潜在コードと前記第５の潜在コードとに基づいて、前記画像再構成エディタをトレーニングして、トレーニングされた画像再構成エディタを取得する。

本願の実施例の画像処理モデルのトレーニング方法は、モデル内のコンポーネントの一部を個別にトレーニングすることにより、より良いトレーニング効果を得る。

図５は本願の実施例に係る逆変換エンコーダのトレーニング方法のフローチャートである。構造では、前記逆変換エンコーダは、積み重ねられた複数の畳み込みおよび完全接続レイヤーを含み、同じエンコード機能を備えた従来のネットワークモデルを使用するか、複数の畳み込み及び完全接続レイヤーが積み重ねられることによって構成されるネットワーク構造を構築するかを選択することができ、本願の実施例ではｍｏｂｉｌｅｎｅｔネットワークモデルを使用するが、これに限定されない。

可能な一実施形態として、前記逆変換エンコーダを生成する過程は、ＳｔｙｌｅＧＡＮ２モデルのジェネレータと組み合わせて、生成された画像の再構成の品質などの複数のメトリック次元を監視して、前記逆変換エンコーダの対応するレイヤーパラメーターの学習を実現する。図５に示すように、前記逆変換エンコーダのトレーニング方法は、前記元の画像によって、前記逆変換エンコーダをトレーニングするステップであって、前記逆変換エンコーダの目的関数の制約条件が画像再構成誤差を含み、ここで、前記画像再構成誤差を取得する方法が、前記逆変換エンコーダによって変換された第３の潜在コードをスタイルベースの敵対的生成ネットワークのジェネレータに入力して、再構成画像を取得することと、前記第３の潜在コードに対応する元の画像と前記再構成画像との間の画像再構成誤差を取得することと、を含むステップと、前記画像再構成誤差に基づいて、前記逆変換エンコーダのパラメーターを調整するステップと、を含む。

選択的に、前記逆変換エンコーダの目的関数の制約条件がＩＤ誤差をさらに含み、前記逆変換エンコーダのトレーニング方法は、前記元の画像と前記再構成画像との両方をＩＤ弁別器に入力して、前記元の画像の第１のベクトルと前記再構成画像の第２のベクトルとを取得するステップと、前記第１のベクトルと前記第２のベクトルとの間の誤差をＩＤ誤差として算出するステップと、をさらに含み、ここで、前記画像再構成誤差に基づいて、前記逆変換エンコーダのパラメーターを調整するステップは、前記ＩＤ誤差と前記画像再構成誤差とに基づいて、前記逆変換エンコーダのパラメーターを調整するステップを含む。

前記ＩＤ弁別器は２つの入力を有し、１つは元の画像であり、もう１つは前記再構成画像である。

顔画像を例にとると、ＡとＢは２人の異なる人物であり、人物の場合、ＡとＢのＩＤ情報ＩＤｅｎｔｉｔｙを識別することができ、ＡとＢが異なる人物である場合、ＩＤは異なる。この場合、前記ＩＤ弁別器は、さまざまな人物を区別できる顔認識モデルにすることができる。前記ＩＤ弁別器は現在、識別ネットワークを使用し、Ａ画像を入力すると、１つのベクトルを生成し、Ｂを入力すると、別のベクトルを生成し、ＡとＢが同じ人物である場合、２つのベクトル間の距離は小さく、ＩＤ誤差が小さいことを示し、ＡとＢが異なる人物である場合、ＩＤ誤差は比較的大きくなる。ＩＤ誤差は、前記逆変換エンコーダの目的関数への制約として追加され、ＩＤ誤差によって２つの画像が同じ人物であるか否かを判断する。

顔画像の編集を例にとると、前記逆変換エンコーダの最適化に用いられる目的関数は、次のように示される。
Ｌ＝|Ｇ（Ｅ（Ｉ））－Ｉ|＋Ｌｏｓｓ_{ｉｄ}（Ｇ（Ｅ（Ｉ）），Ｉ）

ここで、Ｉは入力画像を示し、Ｅは逆変換エンコーダを示し、ＧはＳｔｙｌｅＧＡＮ２のジェネレータを示し、Ｌｏｓｓ_{ｉｄ}はＩＤ誤差を示す。

本願の実施例の逆変換エンコーダは、ＳｔｙｌｅＧＡＮ２のＳ空間で潜在コードの編集を実行し、画像を編集するときにテキスト記述以外の属性及び特性をよりよく維持することができる。Ｓ空間は、各特徴に対するデカップリングが優れている。現在の解決策はＷ＋空間にあり、デカップリングがよくないため、Ｗ＋空間が潜在コードの特定の次元（例えば目の色）を変更すると、目以外の他の位置でも色が変更される。

図６は本願の実施例に係る潜在コードマッパーのトレーニング方法のフローチャートである。構造では、前記潜在コードマッパーは線形マッパーであり、線形マッパーは画像とテキスト記述の間の関係を維持するために使用される。例えば、ＣＬＩＰモデルを例にとると、画像は黒髪の人物であり、テキストはこれが黒髪の人物であると記述する場合、画像とテキストによって生成されるベクトルは非常に近くなり、テキストはこれが白髪の人物であると記述する場合、画像とテキスト記述によって生成されたベクトルが遠くになる。線形マッピングの場合、２つのベクトルが１つの行列を介して別の空間に線形にマッピングされた後、２つのベクトル間の相対的距離は変更されない。本願の実施例の画像編集方法は、２つのベクトル間の相対的距離が変化しないという条件の下でモデルをトレーニングする必要があるため、線形マッパーを選択する必要がある。図６に示すように、前記潜在コードマッパーのトレーニング方法は、前記第３の潜在コードと前記第４の潜在コードとに基づいて、前記潜在コードマッパーをトレーニングして、トレーニングされた潜在コードマッパーを取得するステップを含み、前記第３の潜在コードと前記第４の潜在コードとに基づいて、前記潜在コードマッパーをトレーニングして、トレーニングされた潜在コードマッパーを取得するステップは、
前記第４の潜在コードによって、前記潜在コードマッパーをトレーニングするステップであって、前記潜在コードマッパーの目的関数の制約条件が、前記第３の潜在コードと、入力された前記第４の潜在コードに基づいて前記潜在コードマッパーによって出力された第６の潜在コードとの間のコサイン距離を含むステップと、前記コサイン距離に基づいて、前記潜在コードマッパーのパラメーターを調整するステップと、を含む。

本願の実施例の潜在コードマッパーの生成過程は、主に、上記の逆変換エンコーダによって、画像セットの逆変換によって生成された潜在コードを監視およびトレーニングすることによって行われ、トレーニングに使用される目的関数は、前記潜在コードマッパーから出力されたコードベクトルと前記逆変換エンコーダから出力されたコードベクトルとの間のコサイン（ｃｏｓｉｎｅ）距離を判断するために使用され、つまり、前記潜在コードマッパーは、ＣＬＩＰモデル空間での画像の潜在コードをＳｔｙｌｅＧＡＮモデルのＳ空間にマッピングすることができるとともに、逆変換エンコーダによって生成された潜在コードとの距離が可能な限り近く必要がある。

上記の画像処理方法の実施例に対応して、図７は本願の実施例に係る画像処理装置７００のブロック図である。図７に示すように、前記画像処理装置は、テキスト取得モジュール７０１、第１のエンコードモジュール７０２、第２のエンコードモジュール７０３、最適化モジュール７０４及び生成モジュール７０５を備える。

具体的には、テキスト取得モジュール７０１は、画像編集要求に応答して、前記画像編集要求に基づいて、編集対象画像とターゲット画像特性のテキスト記述情報とを決定し、第１のエンコードモジュール７０２は、敵対的生成ネットワークのＳ空間で前記編集対象画像をエンコードして、第１の潜在コードを取得し、前記敵対的生成ネットワークはスタイルベースの敵対的生成ネットワークであり、第２のエンコードモジュール７０３は、前記テキスト記述情報をエンコードして、対照言語画像事前トレーニング（ＣＬＩＰ）のテキストコードを取得し、前記Ｓ空間で前記テキストコードをマッピングして、第２の潜在コードを取得し、最適化モジュール７０４は、前記第１の潜在コードおよび第２の潜在コードに対して距離の最適化を行って、距離要件を満たすターゲット潜在コードを取得し、生成モジュール７０５は、前記ターゲット潜在コードに基づいてターゲット画像を生成する。

本願のいくつかの実施例では、前記第１のエンコードモジュール７０２は、具体的には、編集対象画像を逆変換エンコーダに入力し、前記逆変換エンコーダによって前記Ｓ空間で前記編集対象画像に対応する第１の潜在コードを生成し、前記逆変換エンコーダは、画像再構成誤差に基づいて監視およびトレーニングされ、前記画像再構成誤差は、元の画像と、対応する再構成画像との間の誤差であり、前記再構成画像は、前記変換エンコーダから出力された潜在コードに基づいて、前記敵対的生成ネットワークのジェネレータによって画像を再構成することによって得られる。

本願のいくつかの実施例では、前記第２のエンコードモジュール７０３は、具体的には、テキスト記述情報を対照言語画像事前トレーニング（ＣＬＩＰ）モデルのテキストエディタに入力し、前記テキスト記述情報をエンコードして、テキストコードを取得し、前記テキストコードを潜在コードマッパーに入力し、前記Ｓ空間で前記テキストコードをマッピングして、第２の潜在コードを取得する。

本願のいくつかの実施例では、前記最適化モジュール７０４は、具体的には、前記第１の潜在コードおよび第２の潜在コードを画像再構成エディタに入力し、前記第１の潜在コードおよび第２の潜在コードに対して距離の最適化を行って、距離要件を満たすターゲット潜在コードを取得する。

本願のいくつかの実施例では、前記画像再構成エディタは畳み込みネットワークを含み、前記画像再構成エディタの目的関数は、次のように示される。
Ｌ＝（ｓ－ｓ_{ｉｍａｇｅ}）^２＋＼ｌａｍｂｄａ（ｓ－ｓ_{ｔｅｘｔ}）^２

ここで、ｓはターゲット潜在コードを示し、ｓ_{ｉｍａｇｅ}は第１の潜在コードを示し、ｓ_{ｔｅｘｔ}は第２の潜在コードを示し、＼ｌａｍｂｄａは距離重みの経験値を示す。

本願のいくつかの実施例では、前記生成モジュール７０５は、具体的には、
前記ターゲット潜在コードを前記敵対的生成ネットワークのジェネレータに入力して、前記ターゲット画像を生成する。

上記の実施例における装置について、各モジュールが操作を実行する特定の方法は、方法の実施例で詳細に説明されており、ここでは詳細に説明されない。

本願の実施例の画像処理装置は、画像の一部を編集する場合、編集する必要のない他の部分への影響が少なくなり、最適化の速度を効果的に向上させることができる。

上記の画像処理モデルのトレーニング方法に対応する実施例について、図８は本願の実施例に係る画像処理モデルのトレーニング装置８００のブロック図である。図８に示すように、前記画像処理モデルのトレーニング装置は、第１のトレーニングモジュール８０１、第１の取得モジュール８０２、第２のトレーニングモジュール８０３、第１の取得モジュール８０４及び第３のトレーニングモジュール８０５を備える。

なお、前記画像処理モデルは逆変換エンコーダ、対照言語画像事前トレーニング（ＣＬＩＰ）モデル、潜在コードマッパー、画像再構成エディタ及びＳｔｙｌｅＧＡＮのジェネレータを含む。

具体的には、前記装置は、敵対的生成ネットワークのＳ空間で元の画像によって逆変換エンコーダをトレーニングして、トレーニングされた逆変換エンコーダを取得する第１のトレーニングモジュール８０１であって、前記敵対的生成ネットワークはスタイルベースの敵対的生成ネットワークである第１のトレーニングモジュール８０１と、前記トレーニングされた逆変換エンコーダによって、前記Ｓ空間で前記元の画像をエンコードして、第３の潜在コードを取得し、前記ＣＬＩＰモデルの画像エディタを使用して、前記元の画像を第４の潜在コードに変換する第１の取得モジュール８０２と、前記第３の潜在コードと前記第４の潜在コードとに基づいて、前記潜在コードマッパーをトレーニングして、トレーニングされた潜在コードマッパーを取得する第２のトレーニングモジュール８０３と、前記元の画像とターゲット画像特性のテキスト記述情報とを取得し、前記ＣＬＩＰモデルのテキストエディタによって、前記テキスト記述情報をエンコードして、テキストコードを取得し、前記トレーニングされた潜在コードマッパーによって、前記Ｓ空間で前記テキストコードをマッピングして、第５の潜在コードを取得する第２の取得モジュール８０４と、前記第３の潜在コードと前記第５の潜在コードとに基づいて、前記画像再構成エディタをトレーニングして、トレーニングされた画像再構成エディタを取得する第３のトレーニングモジュール８０５とを備える。

本願のいくつかの実施例では、前記第１のトレーニングモジュール８０１は、具体的には、前記元の画像によって、前記逆変換エンコーダをトレーニングし、前記逆変換エンコーダの目的関数の制約条件が画像再構成誤差を含み、前記画像再構成誤差を取得する方法が、前記逆変換エンコーダによって変換された第３の潜在コードを前記スタイルベースの敵対的生成ネットワークのジェネレータに入力して、再構成画像を取得することと、前記第３の潜在コードに対応する元の画像と前記再構成画像との間の画像再構成誤差を取得することと、を含み、前記画像再構成誤差に基づいて、前記逆変換エンコーダのパラメーターを調整する。

本願のいくつかの実施例では、前記第１のトレーニングモジュール８０１は、さらに、前記元の画像と前記再構成画像との両方をＩＤ弁別器に入力して、前記元の画像の第１のベクトルと前記再構成画像の第２のベクトルとを取得し、前記第１のベクトルと前記第２のベクトルとの間の誤差をＩＤ誤差として算出し、前記画像再構成誤差に基づいて、前記逆変換エンコーダのパラメーターを調整することは、前記ＩＤ誤差と前記画像再構成誤差とに基づいて、前記逆変換エンコーダのパラメーターを調整することを含む。

本願のいくつかの実施例では、前記第２のトレーニングモジュール８０３は、具体的には、前記第４の潜在コードによって、前記潜在コードマッパーをトレーニングし、前記潜在コードマッパーの目的関数の制約条件が、前記第３の潜在コードと、入力された前記第４の潜在コードに基づいて前記潜在コードマッパーによって出力された第６の潜在コードとの間のコサイン距離を含み、前記コサイン距離に基づいて、前記潜在コードマッパーのパラメーターを調整する。

上記の実施例における装置について、各モジュールが操作を実行する特定の方法及び効果は、その方法の実施例で詳細に説明されており、ここでは詳細に説明されない。

本願の実施例によれば、本願は、電子機器、及び読み取り可能な記憶媒体をさらに提供する。
本願の実施例によれば、本願は、コンピュータプログラムをさらに提供し、コンピュータプログラムがプロセッサによって実行される場合、本願によって提供される画像処理方法または画像処理モデルのトレーニング方法が実現される。

図９は本願の実施例の画像処理方法を実現するための電子機器のブロック図である。電子機器は、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルディジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ及び他の適切なコンピュータなど、様々な形態のデジタルコンピュータを表すことを意図する。電子機器はさらに、例えば、携帯情報端末、携帯電話、スマートフォン、ウェアラブルデバイス及び他の同様のコンピューティング装置など、様々な形態の移動体装置を表すことができる。本明細書に示されるコンポーネント、それらの接続及び関係、並びにそれらの機能は、単なる例であり、本明細書に記載及び/又は請求される本願の実施を限定することを意図しない。

図９に示すように、該電子機器は、１又は複数のプロセッサ９０１、メモリ９０２、及び高速インターフェースと低速インターフェースを備える各コンポーネントを接続するためのインターフェースを備える。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボード上に実装されてもよいし、必要に応じて他の形態で実装されてもよい。プロセッサは、電子機器内で実行される命令を処理でき、この命令には、メモリ内に格納される又はメモリ上に格納されて外部入力／出力装置（例えば、インターフェースに結合された表示機器など）にＧＵＩのグラフィック情報を表示する命令が含まれる。他の実施形態では、複数のプロセッサ及び/又は複数のバスが、必要に応じて、複数のメモリ及び複数のメモリとともに使用される。また、複数の電子機器が接続され、各機器が必要な動作の一部を提供するようにしてもよい（例えば、サーバアレイ、ブレードサーバの集合、マルチプロセッサシステムなど）。図９では、１つのプロセッサ９０１を例に挙げている。

メモリ９０２は、本願において提供される非一時的なコンピュータ読み取り可能な記憶媒体である。ここで、前記メモリには、前記少なくとも１つのプロセッサが本願において提供される画像処理方法を実行するように、少なくとも１つのプロセッサによって実行可能な命令が格納されている。本願の非一時的なコンピュータ読み取り可能な記憶媒体には、本願において提供される画像処理方法をコンピュータに実行させるためのコンピュータ命令が記憶されている。

非一時的なコンピュータ読み取り可能な記憶媒体としてのメモリ９０２は、本願の実施例における画像処理方法に対応するプログラム命令/モジュール（例えば、図７に示すテキスト取得モジュール７０１、第１のエンコードモジュール７０２、第２のエンコードモジュール７０３、最適化モジュール７０４及び生成モジュール７０５、または、図８に示す第１のトレーニングモジュール８０１、第１の取得モジュール８０２、第２のトレーニングモジュール８０３、第２の取得モジュール８０４及び第３のトレーニングモジュール８０５）などの非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能プログラム及びモジュールなどを記憶するために使用される。プロセッサ９０１は、メモリ９０２に格納された非一時的なソフトウェアプログラム、命令及びモジュールを実行することにより、サーバの各種機能アプリケーションやデータ処理を実行し、即ち、上記方法の実施例における画像処理方法を実現する。

メモリ９０２は、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションを記憶することができるプログラム記憶領域と、画像処理方法の電子機器の使用に応じて作成されたデータなどを記憶することができるデータ記憶領域とを含む。また、メモリ９０２は、高速ランダムアクセスメモリを備えてもよく、また、少なくとも１つの磁気ディスクメモリデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートメモリデバイスなどの非一時的なメモリを備えてもよい。一部の実施形態では、メモリ９０２は、任意選択で、プロセッサ９０１から遠隔に配置されたメモリを備える。これらの遠隔メモリは、ネットワークを介して画像処理方法の電子装置に接続される。上記ネットワークの例としては、インターネット、イントラネット、ローカルエリアネットワーク、移動体通信ネットワーク、及びこれらの組み合わせが挙げられるが、これらに限定されない。

画像処理方法に係る電子機器は、入力装置９０３と出力装置９０４とを更に備えてもよい。プロセッサ９０１、メモリ９０２、入力装置９０３及び出力装置９０４は、バス又は他の方式で接続され、図９では、バスを介して接続される例が示される。

タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、１つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である入力装置９０３は、入力された数字又は文字情報を受信し、画像処理方法の電子機器のユーザ設定及び機能制御に関するキー信号入力を生成する。出力装置９０４は、ディスプレイ装置、補助照明装置（例えば、ＬＥＤ）、及び触覚フィードバック装置（例えば、振動モータ）などを含む。該表示装置は、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、及びプラズマディスプレイを含むが、これらに限定されない。一部の実施形態では、表示装置は、タッチスクリーンであってもよい。

本明細書に記載されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現される。これらの様々な実施形態は、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、該記憶システム、該少なくとも１つの入力装置、及び該少なくとも１つの出力装置にデータ及び命令を送信することができる専用又は汎用のプログラマブルプロセッサである少なくとも１つのプログラマブルプロセッサを備えるプログラマブルシステム上で実行及び/又は解釈可能な１つ又は複数のコンピュータプログラムで実現することを含む。

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる）は、プラグラマブルプロセッサの機械命令を含み、これらのコンピュータプログラムは、高レベルのプロセス及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/機械言語で実現される。本明細書で使用される場合、用語「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」は、機械読み取り可能な信号として機械命令を受信する機械読み取り可能な媒体を含む、プラグラマブルプロセッサに機械命令及び/又はデータを提供するための任意のコンピュータプログラム、デバイス、及び/又は装置（例えば、磁気ディスク、光学ディスク、メモリ、プログラム可能論理デバイス（ＰＬＤ））を指す。用語「機械読み取り可能な信号」は、機械命令及び/又はデータをプログラマブルプロセッサに提供するために使用される任意の信号を指す。

ユーザとの対話を提供するために、本明細書に記載されたシステム及び技術は、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、ユーザがコンピュータに入力を提供することができるキーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有するコンピュータ上で実施される。他の種類の装置を使用して、ユーザとの対話を提供してもよい。例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよい。ユーザからの入力は、音声入力、又は触覚入力を含む任意の形態で受信される。

本明細書に記載のシステム及び技術は、バックエンドコンポーネントを備えるコンピューティングシステム（例えば、データサーバとして）、又はミドルウェアコンポーネントを備えるコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンドコンポーネントを備えるコンピューティングシステム（例えば、ユーザが本明細書に記載のシステム及び技術の実施形態とやり取りするグラフィカルユーザインターフェース又はウェブブラウザを有するユーザコンピュータ）、又はそのようなバックエンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを備えるコンピューティングシステムにおいて実施される。システムのコンポーネントは、任意の形式又は媒体（例えば、通信ネットワーク）のデジタルデータ通信によって互いに接続される。通信ネットワークとしては、例えば、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、インターネットなどが挙げられる。

コンピュータシステムは、クライアント及びサーバを備える。クライアント及びサーバは、一般に、互いに離れており、通常、通信ネットワークを介して対話する。クライアントとサーバの関係は、それぞれのコンピュータ上で実行され、互いにクライアント－サーバ関係を有するコンピュータプログラムによって生成される。サーバは、クラウドサーバであってもよく、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおけるホスト製品であり、伝統的な物理ホスト及びＶＰＳ（「ＶｉｒｔｕａＬＰｒｉｖａｔｅＳｅｒｖｅｒ」、又は「ＶＰＳ」と略称）サービスに存在する管理が難しく、サービスのスケーラビリティが弱い欠点を解決する。サーバは、さらに、分散システムのサーバか、またはブロックチェーンと組み合わせたサーバであってもよい。

上記に示された様々な形態のフローを使用して、ステップの並べ替え、追加、又は削除することができる。例えば、本願に記載された各ステップは、並列に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよく、本願に開示された技術的解決手段の所望の結果を実現できれば、本明細書では限定されない。

上述した具体的な実施形態は、本願の保護範囲への制限にならない。当業者にとって、設計の要求や他の要素によって様々な修正、組み合わせ、サブ組み合わせ及び置換を行うことができることは、明らかである。本願の趣旨や原則内に為した修正、均等置換及び改良などは、すべて本願の保護範囲に含まれるべきである。

Claims

画像編集要求に応答して、前記画像編集要求に基づいて、編集対象画像とターゲット画像特性のテキスト記述情報とを決定するステップと、
敵対的生成ネットワークのＳ空間で前記編集対象画像をエンコードして、第１の潜在コードを取得するステップであって、前記敵対的生成ネットワークはスタイルベースの敵対的生成ネットワークであるステップと、
前記テキスト記述情報をエンコードして、対照言語画像事前トレーニング（ＣＬＩＰ）に基づくテキストコードを取得し、前記Ｓ空間で前記テキストコードをマッピングして、第２の潜在コードを取得するステップと、
前記第１の潜在コードおよび第２の潜在コードに対して距離の最適化を行って、距離要件を満たすターゲット潜在コードを取得するステップと、
前記ターゲット潜在コードに基づいてターゲット画像を生成するステップと、
を含む画像処理方法。
前記敵対的生成ネットワークのＳ空間で前記編集対象画像をエンコードして、第１の潜在コードを取得するステップが、
編集対象画像を逆変換エンコーダに入力し、前記逆変換エンコーダによって前記Ｓ空間で前記編集対象画像に対応する第１の潜在コードを生成するステップを含み、
前記逆変換エンコーダが、画像再構成誤差に基づいて監視およびトレーニングされ、前記画像再構成誤差が、元の画像と、対応する再構成画像との間の誤差であり、前記再構成画像が、前記変換エンコーダから出力された潜在コードに基づいて、前記敵対的生成ネットワークのジェネレータによって画像を再構成することによって得られる請求項１に記載の画像処理方法。
前記テキスト記述情報をエンコードして、対照言語画像事前トレーニング（ＣＬＩＰ）に基づくテキストコードを取得し、前記Ｓ空間で前記テキストコードをマッピングして、第２の潜在コードを取得するステップが、
テキスト記述情報をＣＬＩＰモデルのテキストエディタに入力し、前記テキスト記述情報をエンコードして、テキストコードを取得するステップと、
前記テキストコードを潜在コードマッパーに入力し、前記Ｓ空間で前記テキストコードをマッピングして、第２の潜在コードを取得するステップと、
を含む請求項１に記載の画像処理方法。
前記第１の潜在コードおよび第２の潜在コードに対して距離の最適化を行って、距離要件を満たすターゲット潜在コードを取得するステップが、
前記第１の潜在コードおよび第２の潜在コードを画像再構成エディタに入力し、前記第１の潜在コードおよび第２の潜在コードに対して距離の最適化を行って、距離要件を満たすターゲット潜在コードを取得するステップを含む請求項１に記載の画像処理方法。
前記画像再構成エディタは畳み込みネットワークを含み、前記画像再構成エディタの目的関数が、次のように示され、
Ｌ＝（ｓ－ｓ_{ｉｍａｇｅ}）^２＋＼ｌａｍｂｄａ（ｓ－ｓ_{ｔｅｘｔ}）^２
ｓはターゲット潜在コードを示し、ｓ_{ｉｍａｇｅ}は第１の潜在コードを示し、ｓ_{ｔｅｘｔ}は第２の潜在コードを示し、＼ｌａｍｂｄａは距離重みの経験値を示す請求項４に記載の画像処理方法。
前記ターゲット潜在コードに基づいてターゲット画像を生成するステップが、
前記ターゲット潜在コードを前記敵対的生成ネットワークのジェネレータに入力して、前記ターゲット画像を生成するステップを含む請求項１に記載の画像処理方法。
画像処理モデルのトレーニング方法であって、
前記画像処理モデルが、逆変換エンコーダ、対照言語画像事前トレーニング（ＣＬＩＰ）モデル、潜在コードマッパー、画像再構成エディタ及びスタイルベースの敵対的生成ネットワークのジェネレータを含み、
敵対的生成ネットワークのＳ空間で元の画像によって逆変換エンコーダをトレーニングして、トレーニングされた逆変換エンコーダを取得するステップであって、前記敵対的生成ネットワークはスタイルベースの敵対的生成ネットワークであるステップと、
前記トレーニングされた逆変換エンコーダによって、前記Ｓ空間で前記元の画像をエンコードして、第３の潜在コードを取得し、前記ＣＬＩＰモデルの画像エディタを使用して、前記元の画像を第４の潜在コードに変換するステップと、
前記第３の潜在コードと前記第４の潜在コードとに基づいて、前記潜在コードマッパーをトレーニングして、トレーニングされた潜在コードマッパーを取得するステップと、
前記元の画像とターゲット画像特性のテキスト記述情報とを取得し、前記ＣＬＩＰモデルのテキストエディタによって、前記テキスト記述情報をエンコードして、テキストコードを取得し、前記トレーニングされた潜在コードマッパーによって、前記Ｓ空間で前記テキストコードをマッピングして、第５の潜在コードを取得するステップと、
前記第３の潜在コードと前記第５の潜在コードとに基づいて、前記画像再構成エディタをトレーニングして、トレーニングされた画像再構成エディタを取得するステップと、
を含む、画像処理モデルのトレーニング方法。
前記敵対的生成ネットワークのＳ空間で元の画像によって逆変換エンコーダをトレーニングするステップが、
前記元の画像によって、前記逆変換エンコーダをトレーニングするステップであって、前記逆変換エンコーダの目的関数の制約条件が画像再構成誤差を含み、前記画像再構成誤差を取得する方法が、前記逆変換エンコーダによって変換された第３の潜在コードを前記スタイルベースの敵対的生成ネットワークのジェネレータに入力して、再構成画像を取得することと、前記第３の潜在コードに対応する元の画像と前記再構成画像との間の画像再構成誤差を取得することと、を含むステップと、
前記画像再構成誤差に基づいて、前記逆変換エンコーダのパラメーターを調整するステップと、
を含む請求項７に記載の画像処理モデルのトレーニング方法。
前記敵対的生成ネットワークのＳ空間で元の画像によって逆変換エンコーダをトレーニングするステップが、
前記元の画像と前記再構成画像との両方をＩＤ弁別器に入力して、前記元の画像の第１のベクトルと前記再構成画像の第２のベクトルとを取得するステップと、
前記第１のベクトルと前記第２のベクトルとの間の誤差をＩＤ誤差として算出するステップと、
を含み、
前記画像再構成誤差に基づいて、前記逆変換エンコーダのパラメーターを調整するステップが、
前記ＩＤ誤差と前記画像再構成誤差とに基づいて、前記逆変換エンコーダのパラメーターを調整するステップを含む請求項８に記載の画像処理モデルのトレーニング方法。
前記第３の潜在コードと前記第４の潜在コードとに基づいて、前記潜在コードマッパーをトレーニングして、トレーニングされた潜在コードマッパーを取得するステップが、
前記第４の潜在コードによって、前記潜在コードマッパーをトレーニングするステップであって、前記潜在コードマッパーの目的関数の制約条件が、前記第３の潜在コードと、入力された前記第４の潜在コードに基づいて前記潜在コードマッパーによって出力された第６の潜在コードとの間のコサイン距離を含むステップと、
前記コサイン距離に基づいて、前記潜在コードマッパーのパラメーターを調整するステップと、
を含む請求項７に記載の画像処理モデルのトレーニング方法。
画像編集要求に応答して、前記画像編集要求に基づいて、編集対象画像とターゲット画像特性のテキスト記述情報とを決定するテキスト取得モジュールと、
敵対的生成ネットワークのＳ空間で前記編集対象画像をエンコードして、第１の潜在コードを取得する第１のエンコードモジュールであって、前記敵対的生成ネットワークはスタイルベースの敵対的生成ネットワークである第１のエンコードモジュールと、
前記テキスト記述情報をエンコードして、対照言語画像事前トレーニング（ＣＬＩＰ）に基づくテキストコードを取得し、前記Ｓ空間で前記テキストコードをマッピングして、第２の潜在コードを取得する第２のエンコードモジュールと、
前記第１の潜在コードおよび第２の潜在コードに対して距離の最適化を行って、距離要件を満たすターゲット潜在コードを取得する最適化モジュールと、
前記ターゲット潜在コードに基づいてターゲット画像を生成する生成モジュールと、
を備える画像処理装置。
前記第１のエンコードモジュールが、
編集対象画像を逆変換エンコーダに入力し、前記逆変換エンコーダによって前記Ｓ空間で前記編集対象画像に対応する第１の潜在コードを生成し、
前記逆変換エンコーダが、画像再構成誤差に基づいて監視およびトレーニングされ、前記画像再構成誤差が、元の画像と、対応する再構成画像との間の誤差であり、前記再構成画像が、前記変換エンコーダから出力された潜在コードに基づいて、前記敵対的生成ネットワークのジェネレータによって画像を再構成することによって得られる請求項１１に記載の画像処理装置。
前記第２のエンコードモジュールが、
テキスト記述情報を前記ＣＬＩＰモデルのテキストエディタに入力し、前記テキスト記述情報をエンコードして、テキストコードを取得し、
前記テキストコードを潜在コードマッパーに入力し、前記Ｓ空間で前記テキストコードをマッピングして、第２の潜在コードを取得する請求項１１に記載の画像処理装置。
前記最適化モジュールが、
前記第１の潜在コードおよび第２の潜在コードを画像再構成エディタに入力し、前記第１の潜在コードおよび第２の潜在コードに対して距離の最適化を行って、距離要件を満たすターゲット潜在コードを取得する請求項１１に記載の画像処理装置。
前記画像再構成エディタが畳み込みネットワークを含み、前記画像再構成エディタの目的関数が、次のように示され、
Ｌ＝（ｓ－ｓ_{ｉｍａｇｅ}）^２＋＼ｌａｍｂｄａ（ｓ－ｓ_{ｔｅｘｔ}）^２
ｓはターゲット潜在コードを示し、ｓ_{ｉｍａｇｅ}は第１の潜在コードを示し、ｓ_{ｔｅｘｔ}は第２の潜在コードを示し、＼ｌａｍｂｄａは距離重みの経験値を示す請求項１４に記載の画像処理装置。
前記生成モジュールが、
前記ターゲット潜在コードを前記敵対的生成ネットワークのジェネレータに入力して、前記ターゲット画像を生成する請求項１１に記載の画像処理装置。
画像処理モデルのトレーニング装置であって、
前記画像処理モデルが、逆変換エンコーダ、対照言語画像事前トレーニング（ＣＬＩＰ）モデル、潜在コードマッパー、画像再構成エディタ及びスタイルベースの敵対的生成ネットワークのジェネレータを含み、
敵対的生成ネットワークのＳ空間で元の画像によって逆変換エンコーダをトレーニングして、トレーニングされた逆変換エンコーダを取得する第１のトレーニングモジュールであって、前記敵対的生成ネットワークはスタイルベースの敵対的生成ネットワークである第１のトレーニングモジュールと、
前記トレーニングされた逆変換エンコーダによって、前記Ｓ空間で前記元の画像をエンコードして、第３の潜在コードを取得し、前記ＣＬＩＰモデルの画像エディタを使用して、前記元の画像を第４の潜在コードに変換する第１の取得モジュールと、
前記第３の潜在コードと前記第４の潜在コードとに基づいて、前記潜在コードマッパーをトレーニングして、トレーニングされた潜在コードマッパーを取得する第２のトレーニングモジュールと、
前記元の画像とターゲット画像特性のテキスト記述情報とを取得し、前記ＣＬＩＰモデルのテキストエディタによって、前記テキスト記述情報をエンコードして、テキストコードを取得し、前記トレーニングされた潜在コードマッパーによって、前記Ｓ空間で前記テキストコードをマッピングして、第５の潜在コードを取得する第２の取得モジュールと、
前記第３の潜在コードと前記第５の潜在コードとに基づいて、前記画像再構成エディタをトレーニングして、トレーニングされた画像再構成エディタを取得する第３のトレーニングモジュールと、
を備える、画像処理モデルのトレーニング装置。
前記第１のトレーニングモジュールが、
前記元の画像によって、前記逆変換エンコーダをトレーニングし、前記逆変換エンコーダの目的関数の制約条件が画像再構成誤差を含み、前記画像再構成誤差を取得するための方法が、前記逆変換エンコーダによって変換された第３の潜在コードを前記スタイルベースの敵対的生成ネットワークのジェネレータに入力して、再構成画像を取得することと、前記第３の潜在コードに対応する元の画像と前記再構成画像との間の画像再構成誤差を取得することと、を含み、
前記画像再構成誤差に基づいて、前記逆変換エンコーダのパラメーターを調整する請求項１７に記載の画像処理モデルのトレーニング装置。
前記第１のトレーニングモジュールが、
前記元の画像と前記再構成画像との両方をＩＤ弁別器に入力して、前記元の画像の第１のベクトルと前記再構成画像の第２のベクトルとを取得し、
前記第１のベクトルと前記第２のベクトルとの間の誤差をＩＤ誤差として算出し、
前記画像再構成誤差に基づいて、前記逆変換エンコーダのパラメーターを調整することが、
前記ＩＤ誤差と前記画像再構成誤差とに基づいて、前記逆変換エンコーダのパラメーターを調整することを含む請求項１８に記載の画像処理モデルのトレーニング装置。
前記第２のトレーニングモジュールが、
前記第５の潜在コードによって、前記潜在コードマッパーをトレーニングし、前記潜在コードマッパーの目的関数の制約条件が、前記トレーニングされた逆変換エンコーダから出力された第３の潜在コードと前記潜在コードマッパーから出力された第４の潜在コードとの間のコサイン距離を含み、
前記コサイン距離に基づいて、前記潜在コードマッパーのパラメーターを調整する請求項１７に記載の画像処理モデルのトレーニング装置。
少なくとも１つのプロセッサと、
該少なくとも１つのプロセッサと通信可能に接続されるメモリと、
を備え、
前記メモリには、前記少なくとも１つのプロセッサによって実行される命令が記憶されており、前記命令が、前記少なくとも１つのプロセッサが請求項１から６のいずれか一項に記載の画像処理方法または請求項７から１０のいずれか一項に記載の画像処理モデルのトレーニング方法を実行できるように、前記少なくとも１つのプロセッサによって実行される電子機器。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令が、コンピュータに請求項１から６のいずれか一項に記載の画像処理方法または請求項７から１０のいずれか一項に記載の画像処理モデルのトレーニング方法を実行させる非一時的なコンピュータ読み取り可能な記憶媒体。
プロセッサによって実行される場合、請求項１から６のいずれか一項に記載の画像処理方法または請求項７から１０のいずれか一項に記載の画像処理モデルのトレーニング方法が実現されるコンピュータプログラム。