JP2021193546A

JP2021193546A - 画像生成方法および装置、電子機器、記憶媒体並びにコンピュータプログラム

Info

Publication number: JP2021193546A
Application number: JP2021032615A
Authority: JP
Inventors: ジャミンリウ，; Jiaming Liu; ティアンシュフ，; Tianshu Hu; シェンギュイヘ，; Shengyi He; ツィビンホン，; Zhibin Hong
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-08
Filing date: 2021-03-02
Publication date: 2021-12-23
Anticipated expiration: 2041-03-02
Also published as: CN111709470B; EP3839824B1; US20210232932A1; EP3839824A3; JP7308235B2; KR20210152371A; EP3839824A2; CN111709470A

Abstract

【課題】機械学習技術を画像処理に適用する場合に、大量の明確に分類された画像の自動的な生成を図るとともに、画像の多様性を向上させ、画像の分類コストも低減する画像生成方法及び装置、電子機器、記憶媒体並びにコンピュータプログラムを提供する。【解決手段】画像生成方法は、第１のランダムベクトル集合を取得するステップと、トレーニングされた分類器によって、第１のランダムベクトル集合における少なくとも１つのランダムベクトルの所属する画像クラスを確定するステップと、画像クラスに属するランダムベクトルをトレーニングされた画像生成器に入力し、画像クラスに属する仮想画像を生成するステップと、を含む。【選択図】図１Ａ

Description

本出願の実施例は画像処理技術、特に、人工知能の深層学習および画像処理分野に関し、具体的には、画像生成方法および装置、電子機器、記憶媒体並びにコンピュータプログラムに関している。

機械学習技術は、その急速な発展に従い、自体の利点により、益々多くの分野に幅広く適用されている。

機械学習技術を画像処理分野に適用する際に、通常は、ニューラルネットワークモデルが画像処理能力を有するように、ニューラルネットワークモデルをトレーニングするために使用されるサンプルデータとして、大量の分類された画像を取得することが必要とされる。

したがって、機械学習技術を画像処理の分野に適用する場合、分類された画像をどのように取得するかが緊急に解決されるべき技術的問題になる。

本出願は画像生成方法および装置、電子機器、記憶媒体並びにコンピュータプログラムを提供する。

本出願の一態様において、第１のランダムベクトル集合を取得するステップと、トレーニングされた分類器によって、前記第１のランダムベクトル集合における少なくとも１つのランダムベクトルの所属する画像クラスを確定するステップと、前記画像クラスに属するランダムベクトルをトレーニングされた画像生成器に入力し、前記画像クラスに属する仮想画像を生成するステップと、を含む画像生成方法を提供する。

本出願の他の一態様において、第１のランダムベクトル集合を取得するように構成される第１の集合取得モジュールと、トレーニングされた分類器によって、前記第１のランダムベクトル集合における少なくとも１つのランダムベクトルの所属する画像クラスを確定するように構成される画像クラス確定モジュールと、前記画像クラスに属するランダムベクトルをトレーニングされた画像生成器に入力し、前記画像クラスに属する仮想画像を生成するように構成される仮想画像生成モジュールと、を備える画像生成装置を提供する。

本出願の他の一態様において、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサに通信可能に接続されているメモリと、を備えており、前記メモリには前記少なくとも１つのプロセッサに実行され得る指令が記憶され、前記指令が前記少なくとも１つのプロセッサによって実行されると、本出願の実施例のいずれかに記載の方法が実行されることを特徴とする電子機器を提供する。

本出願の他の一態様において、コンピュータ指令が記憶されている非一時的なコンピュータ読取可能な記憶媒体であって、本出願の実施例のいずれかに記載の方法を前記コンピュータに実行させるように構成されることを特徴とする非一時的なコンピュータ読取可能な記憶媒体を提供する。

本出願の他の一態様において、プロセッサにより実行されると、本出願の実施例のいずれかに記載の方法を実現するコンピュータプログラムを提供する。

本出願に係る技術によれば、分類された画像を取得し難い問題を解決できる。

この部分に記載されている内容が本出願に係る実施例の肝心なまたは重要な特徴に対する識別を主旨とするものでもないし、本出願の範囲を限定するものでもないことを理解するべきである。本出願の他の特徴は以下の明細書により理解されやすくなるであろう。

図面はこの技術案をよりよく理解するために用いられるものであり、本出願を限定するものではない。
本出願の実施例に係る画像生成方法のフローチャートである。本出願の実施例に係るｓｔｙｌｅｇａｎトレーニングの構造図である。本出願の実施例に係るもう１つの画像生成方法のフローチャートである。本出願の実施例に係るもう１つの画像生成方法のフローチャートである。本出願の実施例に係る、トレーニングされた画像から画像の変換（ＩｍａｇｅｔｏＩｍａｇｅＴｒａｎｓｌａｔｉｏｎ）モデルを取得するフローチャートである。本出願の実施例に係る画像生成装置の構造模式図である。本出願の実施例に係る画像生成方法を実現するための電子機器のブロック図である。

以下、本出願の例示的な実施例について図面を合わせて説明を行う。ここで、理解の便宜上、本出願の実施例の様々な詳細が記載されているが、それらが例示的なものに過ぎないと理解すべきである。したがって、当業者は本出願の範囲および主旨を逸脱しない限りここに記載される実施例を様々に変更したり修正したりすることができると理解すべきである。同様に、以下の記載には周知の機能および構成についての説明を、明確性及び簡潔性のため省略する。

本出願の実施例によれば、本出願は画像生成方法を提供する。

図１Ａは、本出願の実施例に係る画像生成方法のフローチャートである。本実施例は明確に分類された画像を取得するためのシーンに適用可能であり、該方法は画像生成装置により実行されてもよい。該装置はソフトウェアおよび／またはハードウェアにより実現され得、通常は、コンピュータや携帯電話などの計算機能を有する電子機器に集積され得る。

具体的には、図１Ａを参照して、該方法は具体的にステップＳ１１０〜Ｓ１３０を含む。

ステップＳ１１０：第１のランダムベクトル集合を取得する。

画像処理分野に機械学習技術を適用するプロセスにおいて、具体的には、ニューラルネットワークモデルに対し教師ありトレーニングを行う際に、一般的には、大量の分類された高品質の画像を取得しなければならない。一実施形態としては、従来の公開されたデータセットをそのまま用いることが挙げられる。このような形態では、公開されたデータセットに含まれる画像データには限りがあるので、さまざまな実生産環境に適用できないので、実際の効果はあまり良くない。高品質の画像データを採集し、手動で分類しラベリングするというもう一つの実施形態がある。このような形態では、大量の高品質データを取得し難いだけでなく、手動によるラベリングのコストも高い。

上記の問題に対して、本実施例は分類器および画像生成器を組み合わせて用いることによって、明確に分類された大量の高品質画像を生成することは可能となる。

具体的には、先ず、第１のランダムベクトル集合を取得する。ここで、第１のランダムベクトル集合には少なくとも１つのランダムベクトルが含まれ得、各ランダムベクトルは対応する仮想画像の最終的な生成に用いられ得る。例示的には、第１のランダムベクトル集合を取得する方法は、ランダムに生成された多次元の所定の分布をサンプリングして、少なくとも１つの多次元ランダムベクトルを得るとともに、該少なくとも１つの多次元ランダムベクトルで第１のランダムベクトル集合を構成する方法が含まれ得るが、これに限定されるものではない。ここで、所定の分布は、例えば、均一分布や正規分布などであってもよく、ここでそれを限定しない。１つの実施例は、ランダムベクトルとしてランダムに生成された５１２次元の均一分布において５１２次元隠れ変数Ｚをサンプリングして、第１のランダムベクトル集合を構成する。

ステップＳ１２０：トレーニングされた分類器によって、第１のランダムベクトル集合における少なくとも１つのランダムベクトルの所属する画像クラスを確定する。

この実施例では、分類器は所定の初期分類モデルをトレーニングして得られた、画像分類機能を有するモデルであってもよい。具体的には、第１のランダムベクトル集合における少なくとも１つのランダムベクトルを分類器に入力し、分類器は、トレーニング時の事前設定された画像クラスに従ってランダムベクトルを分類してから入力されたランダムベクトルの所属する画像クラスを確定する。ここで、分類器は二項分類器や多項分類器であり得、これに限定されない。

あるいは、第２のランダムベクトル集合を取得するステップと、第２のランダムベクトル集合における少なくとも１つのランダムベクトルをトレーニングされた画像生成器に入力して、少なくとも１つのラベリング対象となる仮想画像を生成するステップと、前記ラベリング対象となる仮想画像および事前設定された画像クラスによって、前記ランダムベクトルを分類およびラベリングし、分類タグを有するランダムベクトルサンプルを得るステップと、分類タグを有するランダムベクトルサンプルを用いて事前設定された分類モデルをトレーニングして、トレーニングされた分類器を得るステップと、をさらに含む。

ここで、第２のランダムベクトル集合の取得方法は、ランダムに生成された多次元の所定の分布に対してサンプリングを行って少なくとも１つの多次元ランダムベクトルを取得するとともに、該少なくとも１つの多次元ランダムベクトル、または、多次元ランダムベクトルを複数の全結合層（ＦＣ層）に入力して得られたランダムベクトルから第２のランダムベクトル集合を構成する方法が含まれるが、これに限定されない。一例として、ランダムに生成された５１２次元の均一分布からランダムベクトルとして５１２次元の隠れ変数Ｚをサンプリングするか、または、一連のＦＣ層によって該隠れ変数Ｚを８＊５１２次元のＷに変換してランダムベクトルとして第２のランダムベクトル集合を構成することができる。

具体的には、分類器のトレーニング過程において、まず、第２のランダムベクトル集合に含まれるランダムベクトルを、トレーニングされた画像生成器に入力することにより、入力されたランダムベクトルに対応する仮想画像を生成することができ、該仮想画像は画像クラスが不明確な画像であって、ラベリング対象となる仮想画像である。その後、事前設定された画像クラスに従ってラベリング対象となる仮想画像を分類するとともに、該ラベリング対象となる仮想画像に対応するランダムベクトルをその所属する画像クラスに従ってラベリングして、分類タグを有するランダムベクトルサンプルを得る。ここで、二項分類の場合、事前設定された画像クラスは予め定義されたｄｏｍａｉｎＡおよびｄｏｍａｉｎＢであり得、例えば、画像が顔画像である場合、ｄｏｍａｉｎＡが大人、ｄｏｍａｉｎＢが子供であり得、または、ｄｏｍａｉｎＡが青年、ｄｏｍａｉｎＢが老人であり得、これに限定されない。分類およびラベリングをする方法は、手動分類および手動ラベリングなどを含むが、これらに限定されない。ラベリング対象となる仮想画像がｄｏｍａｉｎＡに属すると人為的に分類されると、該ラベリング対象となる仮想画像を生成するためのランダムベクトルをｄｏｍａｉｎＡとしてラベリングする。そして、分類タグを有するランダムベクトルサンプルを用いて事前設定された分類モデルをトレーニングし、モデルが収束すると該分類モデルをトレーニングされた分類器として確定することができる。ここで、事前設定された画像クラスが２つであれば、事前設定された分類モデルは二項分類モデル、例えば、リニア分類器ｌｉｎｅａｒＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ：サポートベクターマシン）であってもよい。事前設定された画像クラスが複数であれば、他の多分類モデルであってもよく、これに限定されない。

以下、二項分類を例として、分類器のトレーニング過程を実例によって説明する。ランダムに生成された均一分布から約５０００個の隠れ変数Ｚをサンプリングする。いずれの隠れ変数Ｚは、トレーニングされた画像生成器によって１枚の顔画像サンプルを生成する。予め定義されたｄｏｍａｉｎＡおよびｄｏｍａｉｎＢに基づいて、５０００枚の顔画像サンプルにおけるｄｏｍａｉｎＡに属する画像と、ｄｏｍａｉｎＢに属する画像とを分けるようにラベリング操作者に指示する。この２つのドメインの画像データを得た後、ｄｏｍａｉｎＡまたはｄｏｍａｉｎＢに従って隠れ変数Ｚを分類してトレーニングされた分類器を得るように、これらの２つのドメインの画像データに対応するランダム変数サンプルを用いてｌｉｎｅａｒＳＶＭに対して教師ありトレーニングを行うことができる。

ランダムベクトルを用いて分類器をトレーニングするメリットは、トレーニング過程が比較的簡単であり、モデルトレーニングの複雑さを低減可能であり、モデルが収束しやすく、必要となるトレーニングサンプルの数が少ないことにある。

あるいは、第２のランダムベクトル集合におけるランダムベクトルの数よりも第１のランダムベクトル集合におけるランダムベクトルの数は大きい。

この実施例では、第２のランダムベクトル集合におけるランダムベクトルの数を、第１のランダムベクトル集合におけるランダムベクトルの数よりも遥かに少なくすることはできる。このようにするメリットは、分類器のトレーニング時、少ないランダムベクトルサンプルをラベリングすれば、トレーニングされた分類器および画像生成器を用いて、大量の明確に分類された仮想画像を限りないまま生成でき、さらに、画像分類の過程を簡略化し、画像分類のコストを低減し、画像の多様性を向上できることである。

ステップＳ１３０：該画像クラスに属するランダムベクトルをトレーニングされた画像生成器に入力して、該画像クラスに属する仮想画像を生成する。

この実施例では、第１のランダムベクトル集合における少なくとも１つのランダムベクトルの所属する画像クラスが確定された後、目標画像クラスに属するランダムベクトルをそれぞれトレーニングされた画像生成器に入力し、目標画像クラスに属する仮想画像を対応して生成する。例示的には、第１のランダムベクトル集合に複数のランダムベクトルが含まれると、各画像クラスに別々に属するランダムベクトルをそれぞれトレーニングされた画像生成器に入力し、それぞれの画像クラスに属する仮想画像を出力する。

ここで、画像生成器は、事前設定された初期生成モデルをトレーニングして得られた、画像生成機能を有するモデルであってもよい。具体的には、トレーニングされた画像生成器に１つのランダムベクトルを入力することにより、該ランダムベクトルに対応する仮想画像を出力することができる。ここで、仮想画像は、画像生成器が実画像を学習することにより生成した現実に存在しない画像である。

あるいは、複数の分類タグ無しの実画像を含むサンプル画像データセットを取得するステップと、サンプル画像データセットを用いて、第１の敵対的生成ネットワークに対して教師無しトレーニングを行って、トレーニングされた画像生成器を得るステップと、を含む。

画像生成器のトレーニング過程において、複数の実画像からなるサンプル画像データセットをトレーニングサンプルとし、第１の敵対的生成ネットワークに対して教師無しトレーニングを行うことができる。ここで、サンプル画像データセットに含まれる実画像は高解像度画像であってもよく、サンプル画像データセットは、例えば、従来の公開されたデータセットであってもよい。また、第１の敵対的生成ネットワークは、例えば、スタイルベースの敵対的生成ネットワーク（ｓｔｙｌｅｇａｎ）であってもよい。高解像度のサンプル画像データセットを用いてｓｔｙｌｅｇａｎに対してトレーニングを行って得られる画像生成器は、使用中に生成した仮想画像も高解像度画像である。

具体的な例としては、図１Ｂに示すｓｔｙｌｅｇａｎのトレーニング構造を参照して、画像生成器のトレーニング過程は次のとおりである。即ち、５１２次元の均一分布からサンプリングされた５１２次元隠れ変数Ｚは、左側の一連のＦＣ層によって８＊５１２次元のＷに変換される。Ｗは４層ＡｄａＩＮのｂｅｔａ、ｇａｍｍａパラメータに分けられ、画像フォームまたはスタイル（ｓｔｙｌｅ）として中間の統合ネットワークｇ（ｓｙｎｔｈｅｓｉｓｎｅｔｗｏｒｋｇ）中に送入される。右側はランダムにサンプリングされるノイズ（Ｎｏｉｓｅ）であり、その次元が畳み込まれた特徴マップと一致している。ｇの畳み込み入力はブランクであり、ＷおよびＮｏｉｓｅにより制御されるｇネットワークを経由して、ランダムなＲＧＢ図を生成する。トレーニング時に、ＰＧＧＡＮトレーニング戦略を用いることができ、ここで、ＰＧＧＡＮトレーニング戦略は具体的に次のとおりである。即ち、先ず、ｓｔｙｌｅｇａｎにおける生成器をトレーニングしてサイズ４＊４の出力画像を生成し、ｓｔｙｌｅｇａｎにおける判定器でサイズ４＊４の画像を判定し、収束後、サイズ４＊４の上に１つの畳み込みブロックを積層する。本実施例では、出力が８＊８画像である１つの畳み込みブロックは２つのＡｄａＩＮ層で構成され得、同じサイズの判定器は該サイズにおいて判定を行う。生成される画像のサイズが１０２４＊１０２４に至るまで該ステップは繰り返して行われ、収束後のｓｔｙｌｅｇａｎはトレーニングされた画像生成器とされる。

画像生成器のトレーニング過程において、サンプル画像データセットを用いて第１の敵対的生成ネットワークに対して教師無しトレーニングを行うことは、サンプル画像の分類ラベリング過程を省略し、画像品質を確保するとともに、サンプル画像のラベリングコストを低減できるという有益な効果を有する。

この実施例に係る技術案によれば、第１のランダムベクトル集合を取得して、トレーニングされた分類器によって、第１のランダムベクトル集合における少なくとも１つのランダムベクトルの所属する画像クラスを確定するとともに、該画像クラスに属するランダムベクトルをトレーニングされた画像生成器に入力し、該画像クラスに属する仮想画像を生成する。分類器と画像生成器とを組み合わせて使用することで、従来技術における明確に分類された画像を取得し難い問題は解決され、大量の明確に分類された画像の自動的な生成は図れるとともに、画像の多様性は向上され、画像の分類コストも低減される。

本出願の実施例によれば、本出願は画像生成方法を更に提供する。

図２は本出願の実施例に係るもう１つの画像生成方法のフローチャートである。本実施例は、上記の任意の実施例を詳細化し、トレーニングされた画像生成器に前記画像クラスに属するランダムベクトルを入力し、前記画像クラスに属する仮想画像を生成する前に、前記第１のランダムベクトル集合における少なくとも１つのランダムベクトルを、その所属する画像クラスから前記画像クラス以外の他の画像クラスに編集して他の画像クラスに属する他のランダムベクトルを取得するステップをさらに含む。

具体的には、図２を参照して、この方法はステップＳ２１０〜Ｓ２４０を含む。

ステップＳ２１０：第１のランダムベクトル集合を取得する。

ステップＳ２２０：トレーニングされた分類器によって、第１のランダムベクトル集合における少なくとも１つのランダムベクトルの所属する画像クラスを確定する。

ステップＳ２３０：第１のランダムベクトル集合における少なくとも１つのランダムベクトルを、その所属する画像クラスから該画像クラス以外の他の画像クラスに編集して他の画像クラスに属する他のランダムベクトルを得る。

本実施例は、上記の実施例を基にして、生成された各画像クラスに対応する仮想画像の数を同様にするために、分類器によって第１のランダムベクトル集合における少なくとも１つのランダムベクトルを分類した後、各画像クラスに属するランダムベクトルのいずれも他の画像クラスに編集して、対応する他の画像クラスに属するランダムベクトルを得て、各画像クラスに属するランダムベクトルの数を等しくし、更に、各画像クラスに属するランダムベクトルに基づいて生成された仮想画像の数も等しくする。

例えば、ランダムベクトルａ_１が画像クラスＡに属し、ランダムベクトルｂ_１およびｃ_１が画像クラスＢに属する場合、ランダムベクトルａ１を画像クラスＡから画像クラスＢに編集して画像クラスＢに属するランダムベクトルａ_２を得られる。且つ、ランダムベクトルｂ_１を画像クラスＢから画像クラスＡに編集して画像クラスＡに属するランダムベクトルｂ_２を得られる。同時に、ランダムベクトルｃ_１を画像クラスＢから画像クラスＡに編集して画像クラスＡに属するランダムベクトルｃ_２を得られる。即ち、編集後、画像クラスＡはａ_１、ｂ_２およびｃ_２を含み、画像クラスＢは対応してａ_２、ｂ_１およびｃ_１を含み、更に、画像クラスＡおよび画像クラスＢのいずれにも３つのランダムベクトルが含まれるようになり、数のバランスが取られる。

あるいは、第１のランダムベクトル集合における少なくとも１つのランダムベクトルを、その所属する画像クラスから該画像クラス以外の他の画像クラスに編集して、他の画像クラスに属する他のランダムベクトルを得るステップは、画像生成器に対応する画像クラス空間の属性ベクトル軸を取得するステップであって、属性ベクトル軸は画像クラス空間における任意の２つの画像クラスに対応する分類面（ｃｌａｓｓｉｆｉｃａｔｉｏｎｐｌａｎｅ）の法線ベクトルであるステップと、属性ベクトル軸に基づいて、第１のランダムベクトル集合における少なくとも１つのランダムベクトルを、その所属する画像クラスから該画像クラス以外の他の画像クラスに編集して、他の画像クラスに属する他のランダムベクトルを得るステップと、を含む。

例えば、属性ベクトル軸は、画像生成器に対応する画像クラス空間におけるランダムベクトルの所属する画像クラスを変更するためのベクトル軸であってもよい。ここで、画像クラス空間は、各画像クラス同士間の分類面で区画された複数の空間であってもよい。二項分類を例として、１つの分類面は分類器の２つのパラメータによって確定されることができ、該分類面の法線ベクトルは画像生成器の空間における属性ベクトル軸である。画像クラスが複数である場合、相応に、属性ベクトル軸が複数存在してもよく、つまり、２つの画像クラス毎に１つの属性ベクトル軸が対応できる。

具体的には、該少なくとも１つの属性ベクトル軸によって、第１のランダムベクトル集合におけるランダムベクトルを、その所属する画像クラスから該画像クラスを除いた、属性ベクトル軸に対応する他の画像クラスに編集でき、更に、他の画像クラスに属する他のランダムベクトルを得られる。

属性ベクトル軸を用いて、ランダムベクトルをその所属する画像クラスから該画像クラス以外の他の画像クラスに編集するメリットは、各画像クラスに対応するランダムベクトルの数を同様にし、更に、生成された各画像クラスに対応する仮想画像の数を同様にすることによって、それを教師ありトレーニングのトレーニングサンプルとする際に、各クラス画像サンプルデータのバランスを向上し、より良いトレーニング効果を達成することができることにある。

あるいは、属性ベクトル軸に基づいて、第１のランダムベクトル集合における少なくとも１つのランダムベクトルを、その所属する画像クラスから該画像クラス以外の他の画像クラスに編集し、他の画像クラスに属する他のランダムベクトルを得るステップは、第１の画像クラスに属するランダムベクトルに、属性ベクトル軸と編集スケールパラメータとの積を加算し、第２の画像クラスに属するランダムベクトルを得るステップ、および／または、第２の画像クラスに属するランダムベクトルから、属性ベクトル軸と編集スケールパラメータとの積を減算して、第１の画像クラスに属するランダムベクトルを得るステップ、を含む。ここで、属性ベクトル軸は、第１の画像クラスに対応する画像クラス空間から第２の画像クラスに対応する画像クラス空間に指向する。

一例としては、属性ベクトル軸が第１の画像クラスと第２の画像クラスとの間の分類面の法線ベクトルであり、且つ、該法線ベクトルが第１の画像クラスに対応する画像クラス空間から第２の画像クラスに対応する画像クラス空間に指向する場合、第１の画像クラスに属するランダムベクトルに、属性ベクトル軸＊λの積を加算すれば、該ランダムベクトルを第２の画像クラスに編集でき、第２の画像クラスに属するランダムベクトルから、属性ベクトル軸＊λの積を減算すれば、該ランダムベクトルを第１の画像クラスに編集できる。ここで、λはランダムベクトルの編集度合いを決定するための編集スケールパラメータであり、λが大きいほど、編集度合いが深く、具体的には、必要に応じて設定することができる。

この実施例では、第１の画像クラスに属するランダムベクトルを属性ベクトル軸により第２の画像クラスに編集するが、逆も同様である。このように設定するメリットは、各画像クラスに対応するランダムベクトルの数を同様にし、更に、生成された各画像クラスに対応する仮想画像の数を同様にし、教師ありトレーニングのトレーニングサンプルとされる場合、各クラス画像サンプルデータのバランスが向上され、より良好なトレーニング効果を達成することができることにある。

ステップＳ２４０：該画像クラスに属するランダムベクトルをトレーニングされた画像生成器に入力し、該画像クラスに属する仮想画像を生成する。

本実施例に係る技術案によれば、上記の実施例を基にして、分類器によって第１のランダムベクトル集合における少なくとも１つのランダムベクトルを分類した後、各画像クラスに属するランダムベクトルのいずれを他の画像クラスに編集して、対応する他の画像クラスに属するランダムベクトルを得て、各画像クラスに属するランダムベクトルの数を同様にし、更に、各画像クラスに属するランダムベクトルに基づいて生成された仮想画像の数も同様にし、各クラス画像サンプルデータのバランスが向上される。

図３Ａは本出願の実施例に係るもう１つの画像生成方法のフローチャートである。本実施例は上記の任意の実施例を詳細化し、前記画像クラスに属するランダムベクトルをトレーニングされた画像生成器に入力して、前記画像クラスに属する仮想画像を生成した後、前記仮想画像をその所属する画像クラスに従ってラベリングして、分類タグを有する仮想画像サンプルを生成するステップと、前記仮想画像サンプルを用いて、第２の敵対的生成ネットワークに対して教師ありトレーニングを行い、入力された画像をその所属する画像クラスから他の画像クラスの画像に変換するための、トレーニングされた画像から画像の変換（ｉｍａｇｅ−ｔｏ−ｉｍａｇｅｔｒａｎｓｌａｔｉｏｎ）モデルを得るステップと、を含む。

具体的には、図３Ａを参照して、本方法は具体的にはステップＳ３１０〜Ｓ３５０を含む。

ステップＳ３１０：第１のランダムベクトル集合を取得する。

ステップＳ３２０：トレーニングされた分類器によって、第１のランダムベクトル集合における少なくとも１つのランダムベクトルの所属する画像クラスを確定する。

ステップＳ３３０：該画像クラスに属するランダムベクトルをトレーニングされた画像生成器に入力して、該画像クラスに属する仮想画像を生成する。

ステップＳ３４０：仮想画像をその所属する画像クラスに従ってラベリングして分類タグを有する仮想画像サンプルを生成する。

顔属性編集機能は、ショート動画、ライブ動画配信において幅広く適用され、比較的大きな実用的価値がある。顔編集モデルをトレーニングする過程において、数多くの、分類された高品質画像を必要とし、画像の品質および数が最終的にトレーニングされたモデルの画像編集効果に顕著に影響する。本実施例に関わる画像は顔画像であってもよく、顔属性編集モデルは画像から画像の変換モデルであってもよい。

例えば、各画像クラスに別々に属する仮想画像が生成された後、各画像クラスの仮想画像に対してその所属する画像クラスに従ってラベリングし、分類タグを有する仮想画像サンプルを生成することもできる。ここで、具体的なラベリング方法は、例えば、異なる文字または数字を用いて、異なる画像クラスの仮想画像を区別してラベリングする方法であってもよく、ここでは限定しない。

ステップＳ３５０：仮想画像サンプルを用いて、第２の敵対的生成ネットワークに対して教師ありトレーニングを行って、トレーニングされた画像から、入力された画像をその所属する画像クラスから他の画像クラスの画像に変換するための画像の変換モデルを得る。

具体的には、上記の生成された分類タグを有する仮想画像サンプルを用いて第２の敵対的生成ネットワークをトレーニングして、トレーニングされた画像から画像の変換モデルを得られる。ここで、第２の敵対的生成ネットワークは、例えば、ｃｙｃｌｅｇａｎであってもよく、ＵＧＡＴＩＴアーキテクチャであることが好ましい。ＵＧＡＴＩＴアーキテクチャを用いるメリットは、より安定的な変換効果を得られることにある。具体的には、２つの画像クラスのみがある場合、２つのドメイン（ｄｏｍａｉｎＡおよびｄｏｍａｉｎＢ）の間の変換問題については、画像から画像の変換モデルは２つの生成器（Ａ２Ｂ、Ｂ２Ａ）および２つの判定器（ＡおよびＢ）からなる。生成器は判定器を騙すための実物そっくりな偽画像を生成し、判定器は偽画像を識別するように構成される。

ここで、画像から画像の変換モデルの作動原理は次のとおりである。生成器側では、入力された画像が２つのダウンサンプリング畳み込み及び４つのクロスレイヤー接続ブロック（ｃｒｏｓｓ−ｌａｙｅｒｃｏｎｎｅｃｔｉｏｎｂｌｏｃｋ）からなるエンコーダー（ｅｎｃｏｄｅｒ）を通った後、Ｃ個のチャネルを有する特徴マップｘが取得され、ｘに対して最大プーリング（ｍａｘｐｏｏｌｉｎｇ）および平均プーリング（ａｖｅｒａｇｅｐｏｏｌｉｎｇ）が実行された後に２Ｃ次元特徴が得られ、補助分類器に送入されて、画像の由来がＡまたはＢであるかが判定される。補助分類器の重みＷが得られた後、それとｘにおける各画素の２Ｃチャネル特徴とをベクトル乗算し、注意ヒートマップ（ａｔｔｅｎｔｉｏｎｈｅａｔｍａｐ）ａは得られる。ヒートマップａとｘとを乗算して、加重した特徴マップｘ’を得て、ｘ’が全畳み込みネットワークによってｂｅｔａ、ｇａｍｍａという２つのベクトルを得る。デコーダー（ｄｅｃｏｄｅｒ）は、ＡｄａＬＩＮに基づく適応残差ブロック（ＡｄａｐｔｉｖｅＲｅｓｉｄｕａｌＢｌｏｃｋ、ＡＲＢ）およびアップサンプリング層からなる。ＡＲＢは畳み込みの入力としてｘ’を受け、その中のＡｄａＬＩＮ層がｂｅｔａ、ｇａｍｍａを受けて特徴調整を行う。ｘ’はＡＲＢおよびアップサンプリングを経由した後、変換された画像を出力する。

ＵＧＡＴＩＴアーキテクチャに対して教師ありトレーニングを行う場合、さらに、判定器側を用いる必要がある。具体的には、判定器側では、生成器により変換された画像を生成器に類似するｅｎｃｏｄｅｒにより処理して、加重特徴マップｘ’を得ることができ、ｘ’が畳み込み及びｓｉｇｍｏｉｄによって該画像が真または偽であるかについての出力を生成する。判定器のトレーニング時に、判定器は分類損失関数（ｌｏｓｓ）を最小化する必要があり、生成器のトレーニング時に、生成器は分類ｌｏｓｓを最大化する必要があるので、敵対性損失となる。ここで、ＵＧＡＴＩＴアーキテクチャをトレーニングするには必要な損失関数、すなわち、生成器のトレーニングにおける全体的な損失は、１、上記のような敵対性損失と、２、１枚の画像がＡ２ＢおよびＢ２Ａにより変換された後、生成画像と入力画像との損失（例えば、Ｌ１損失またはＬ２損失）であるサイクル一貫性損失（ｃｙｃｌｅｃｏｎｓｉｓｔｅｎｃｙｌｏｓｓ）と、３、画像が映写を介して画像自身のドメインに戻したときに、生成画像と入力画像との損失（例えば、Ｌ１損失またはＬ２損失）である自身不変損失（ｓｅｌｆ−ｉｎｖａｒｉａｎｔｌｏｓｓ）との３種類の損失を含む。

本実施例に係る技術案によれば、上記の実施例を基にして、生成された仮想画像をその所属する画像クラスに従ってラベリングして、分類タグを有する仮想画像サンプルを生成するとともに、仮想画像サンプルを用いて第２の敵対的生成ネットワークに対して教師ありトレーニングを行って、トレーニングされた画像から画像の変換モデルを得て、生成された分類タグを有する仮想画像サンプルを画像から画像の変換モデルのトレーニング過程に適用することにより、モデルのトレーニング時に、サンプル画像に対する大量の手動ラベリングを必要とせず、サンプル画像の多様性が向上されるとともに、画像サンプルラベリングコストが低減され、モデルトレーニング效率が向上されることができる。

上記の各実施例を基にして、図３Ｂに示すように、トレーニングされた画像から画像の変換モデルを取得するフローチャートを提供している。具体的には、数多くの教師無しの高解像度顔データを取得してｓｔｙｌｅｇａｎモデルをトレーニングするステップＳ３１と、トレーニングされたｓｔｙｌｅｇａｎモデルを基にして、ランダムベクトルをサンプリングして、少量の画像サンプルを生成し、分類タグを手動ラベリングしてｄｏｍａｉｎＡデータおよびｄｏｍａｉｎＢデータを得るとともに、得られた２組のデータに基づいて、リニア分類器をトレーニングし、収束した後、リニア分類器により確定された分類面の法線ベクトルをｓｔｙｌｅｇａｎ空間における属性ベクトル軸とするステップＳ３２と、属性ベクトル軸および分類器が得られた後、数多くのランダムベクトルをサンプリングにより取得するとともに、リニア分類器によってそのクラス（ＡまたはＢ）を判断し、Ａであればランダムベクトルを属性ベクトル軸に従ってＢに編集して新たなランダムベクトルを生成し、逆も同様であり、その後これらの２つの画像クラスのランダムベクトルをｓｔｙｌｅｇａｎに入力して基本的に同じ数の高解像度デュアルドメインデータセットを得るステップＳ３３と、得られた該高解像度デュアルドメインデータセットを用いて、ｃｙｃｌｅｇａｎモデルをトレーニングして、ペアではない画像から画像の変換モデルを得るとともにアプリケーションデプロイをするステップＳ３４と、を含む。

上記のトレーニング方法によって、顔属性データに対して大量の手動ラベリングを必要としないので、データラベリングコストを大幅に低減できる。これとともに、トレーニング過程が簡単で、処理ステップが少なく、モデルの研究開発効率も高い。なお、該方法によりトレーニングされたモデルは極めて容易に収束でき、且つ、一般化能力が良い。Ｓｔｙｌｅｇａｎによるデータ品質が比較的高いので、生成された仮想画像によりトレーニングされた画像から画像の変換モデルの画像変換効果もより優れている。

本出願の実施例によれば、本出願は画像生成装置を更に提供する。

図４は本出願の実施例に係る画像生成装置の構造模式図である。該装置は、ソフトウェアおよび／またはハードウェアにより実現され得、本出願のいずれかの実施例に記載の画像生成方法を実行する。具体的には、画像生成装置４００は、第１の集合取得モジュール４０１、画像クラス確定モジュール４０２、および仮想画像生成モジュール４０３を備える。

ここで、第１の集合取得モジュール４０１は第１のランダムベクトル集合を取得するように構成される。

画像クラス確定モジュール４０２は、トレーニングされた分類器により、前記第１のランダムベクトル集合における少なくとも１つのランダムベクトルの所属する画像クラスを確定するように構成される。

仮想画像生成モジュール４０３は、前記画像クラスに属するランダムベクトルをトレーニングされた画像生成器に入力し、前記画像クラスに属する仮想画像を生成するように構成される。

あるいは、画像生成装置４００は、さらに、
前記画像クラスに属するランダムベクトルをトレーニングされた画像生成器に入力し、前記画像クラスに属する仮想画像を生成する前に、前記第１のランダムベクトル集合における少なくとも１つのランダムベクトルを、その所属する画像クラスから前記画像クラスを除いた他の画像クラスに編集して、他の画像クラスに属する他のランダムベクトルを得るように構成される画像クラス編集モジュールを備える。

あるいは、ここで、画像クラス編集モジュールは具体的には、
前記画像生成器に対応する画像クラス空間の属性ベクトル軸を取得するように構成されるベクトル軸取得ユニットであって、前記属性ベクトル軸は、前記画像クラス空間における任意の２つの画像クラスに対応する分類面の法線ベクトルである、ベクトル軸取得ユニットと、
前記属性ベクトル軸に基づいて、前記第１のランダムベクトル集合における少なくとも１つのランダムベクトルを、その所属する画像クラスから前記画像クラスを除いた他の画像クラスに編集して、他の画像クラスに属する他のランダムベクトルを得るように構成されるクラス編集ユニットと、を備えてもよい。

あるいは、ここで、クラス編集ユニットは具体的には、
第１の画像クラスに属するランダムベクトルに、前記属性ベクトル軸と編集スケールパラメータとの積を加算し、第２の画像クラスに属するランダムベクトルを得るように構成される第１の編集サブユニット、および／または、
第２の画像クラスに属するランダムベクトルから、前記属性ベクトル軸と編集スケールパラメータとの積を減算し、第１の画像クラスに属するランダムベクトルを得るように構成される第２の編集サブユニットを、備えてもよい。

ここで、前記属性ベクトル軸は前記第１の画像クラスに対応する画像クラス空間から前記第２の画像クラスに対応する画像クラス空間へ指向する。

あるいは、画像生成装置４００はさらに、
第２のランダムベクトル集合を取得するための第２の集合取得モジュールと、
前記第２のランダムベクトル集合における少なくとも１つのランダムベクトルをトレーニングされた前記画像生成器に入力して少なくとも１つのラベリング対象となる仮想画像を生成するように構成されるラベリング対象画像生成モジュールと、
前記ラベリング対象となる仮想画像および事前設定された画像クラスに基づいて、前記ランダムベクトルを分類およびラベリングして、分類タグを有するランダムベクトルサンプルを得るように構成される画像分類ラベリングモジュールと、
前記の分類タグを有するランダムベクトルサンプルを用いて、事前設定された分類モデルをトレーニングしてトレーニングされた分類器を取得するように構成される分類モデルトレーニングモジュールと、を備えてもよい。

あるいは、前記第１のランダムベクトル集合におけるランダムベクトルの数は、前記第２のランダムベクトル集合におけるランダムベクトルの数より大きい。

あるいは、画像生成装置４００はさらに、
分類タグ無しの実画像を複数含むサンプル画像データセットを取得するように構成されるサンプル画像取得モジュールと、
前記サンプル画像データセットを用いて、第１の敵対的生成ネットワークに対して教師無しトレーニングを行って、トレーニングされた画像生成器を得るように構成される生成器トレーニングモジュールと、を備えてもよい。

あるいは、画像生成装置４００は、さらに、
前記画像クラスに属するランダムベクトルを、トレーニングされた画像生成器に入力して、前記画像クラスに属する仮想画像を生成した後、前記仮想画像をその所属する画像クラスに従ってラベリングして、分類タグを有する仮想画像サンプルを生成するように構成される仮想画像ラベリングモジュールと、
前記仮想画像サンプルを用いて、第２の敵対的生成ネットワークに対して教師ありトレーニングを行って、トレーニングされた画像から画像の変換モデルを得るように構成される変換モデルトレーニングモジュールであって、前記画像から画像の変換モデルは、入力された画像をその所属する画像クラスから他の画像クラスの画像に変換するように構成される、変換モデルトレーニングモジュールと、を備えてもよい。

本出願の実施例に係る画像生成装置は、本出願の任意の実施例に係る画像生成方法を実行でき、方法を実行するための機能モジュールおよび有益な効果を備える。

本出願の実施例によれば、本出願は電子機器および読み取り可能な記憶媒体をさらに提供している。

図５は、本出願の実施例に係る画像生成方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバー、大型コンピュータ、および他の適宜なコンピュータなどのような各種の形式のデジタルコンピュータを表す。電子機器はさらにパーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイスおよび他の類似の計算装置などのような各種の形式のモバイルデバイスを表すことができる。本出願に示すコンポーネント、それらの接続および関係、ならびにそれらの機能は例示だけであり、本出願に記載および／または要求された本出願の実施形態を限定するものではない。

図５に示すように、該電子機器は、１つ以上のプロセッサ５０１、メモリ５０２、および、各コンポーネントを接続するための、高速インターフェースおよび低速インターフェースを含むインターフェースを備える。各コンポーネントは、異なるバスにより互い接続され、且つ、共通マザーボードに取り付けられたり、必要に応じて他の方式にて取り付けられたりすることができる。プロセッサは、電子機器に実行される指令を処理することができ、指令は、外部入／出力装置（例えば、インターフェースに結合する表示装置）にＧＵＩのグラフィック情報を表示するためにメモリ中またはメモリ上に記憶されている指令を含む。他の実施形態において、必要に応じて、複数のプロセッサおよび／または数本のバスおよび複数のメモリを複数のメモリとともに用いることができる。同様に、それぞれ一部の必要な動作を提供できる複数の電子機器を接続することは可能である（例えば、サーバアレイ、１組のブレードサーバ、またはマルチプロセッサシステム）。図５では、１つのプロセッサ５０１を備える例を示す。

メモリ５０２は本出願に係る非一時的なコンピュータ読取可能な記憶媒体である。ここで、少なくとも１つのプロセッサに本出願に係る画像生成方法を実行させるように、前記メモリには少なくとも１つのプロセッサに実行させ得る指令が記憶されている。本出願に係る非一時的なコンピュータ読取可能な記憶媒体には、コンピュータに本出願に係る画像生成方法を実行させるためのコンピュータ指令が記憶されている。

メモリ５０２は、非一時的なコンピュータ読取可能な記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム、およびモジュール、例えば、本出願の実施例に係る画像生成方法に対応するプログラム指令／モジュール（例えば、図４に示す第１の集合取得モジュール４０１、画像クラス確定モジュール４０２および仮想画像生成モジュール４０３）を記憶するように構成される。プロセッサ５０１は、メモリ５０２に記憶されている非一時的なソフトウェアプログラム、指令、およびモジュールを稼働させることによって、サーバの各種の機能性アプリケーションおよびデータ処理を実行し、即ち、上記の方法実施例における画像生成方法を実現する。

メモリ５０２は、オペレーティングシステム、少なくとも１つの機能に要するアプリケーションプログラムを記憶可能なプログラムメモリエリア、および、画像生成方法を実行する電子機器の利用に応じて作成されたデータなどを記憶可能なデータメモリエリアを含んでもよい。なお、メモリ５０２としては、高速ランダムアクセスメモリを含んでもよいし、非一時的なメモリ、例えば、少なくとも１つの磁気ディスクメモリ、フラッシュメモリ、または他の非一時的な固体記憶装置を含んでもよい。一部の実施例において、メモリ５０２としては、プロセッサ５０１に対し遠隔に設置されているメモリを含んでもよく、これらのリモートメモリはネットワークを介して画像生成方法の電子機器に接続可能である。上記のネットワークの実例としては、インターネット、企業イントラネット、ローカルエリア・ネットワーク、移動通信ネットワークおよびそれらの組み合わせが挙げられるが、これらに限定されない。

画像生成方法の電子機器は、入力装置５０３および出力装置５０４を更に備える。プロセッサ５０１、メモリ５０２、入力装置５０３および出力装置５０４はバスまたは他の方式にて接続され得る。図５では、例としてバスによる接続を示している。

入力装置５０３は、入力された数字または文字情報を受信し、画像生成方法の電子機器のユーザ設置および機能制御に関するキー信号入力を生成することができ、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、指示ロッド、１つ以上のマウスボタン、トラックボール、ジョイスティックなどのような入力装置である。出力装置５０４は、表示装置、補助照明装置（例えば、ＬＥＤ）および触覚フィードバック装置（例えば、振動モータ）などを含んでもよい。該表示装置は、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイおよびプラズマディスプレイを含むがこれらに限定されるものではない。一部の実施形態において、表示装置はタッチスクリーンであってもよい。

ここに記載されているシステムおよび技術に係る各実施形態は、デジタル電子回路システム、集積回路システム、専用ＡＳＩＣ（専用集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組み合わせにより実現され得る。これらの各実施形態は、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムにおいて実行および／または解釈され得る１つ以上のコンピュータプログラムにより実施される実施形態を含んでもよく、該プログラマブルプロセッサが、記憶システム、少なくとも１つの入力装置、および少なくとも１つの出力装置からデータおよび指令の受信を可能とする専用または汎用的なプログラマブルプロセッサであってもよい。

これらの計算プログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも言われる）はプログラマブルプロセッサのメカ指令を含み、高級過程および／またはオブジェクト指向のプログラミング言語、および／またはアセンブリ言語／機械語により実現され得る。例えば、本出願で用いられる用語である「機械読取可能な媒体」および「コンピュータ読取可能な媒体」とは、プログラマブルプロセッサにメカ指令および／またはデータを提供するための如何なるコンピュータプログラム製品、デバイス、および／または装置（例えば、磁気ディスク、光ディスク、メモリ、プログラム可能論理回路（ＰＬＤ））を指し、機械読取可能な信号であるメカ指令を受信する機械読取可能な媒体を含む。用語である「機械読取可能な信号」とはプログラマブルプロセッサにメカ指令および／またはデータを提供するためのあらゆる信号を指す。

ユーザとのインタラクションを提供するために、ここに記載されているシステムおよび技術をコンピュータにおいて実施することができる。該コンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニター）、および、ユーザが入力をコンピュータに提供できるキーボードおよび指向装置（例えば、マウスまたはトラックボール）を備える。その他の種類の装置はユーザとのインタラクションの提供に用いられ、例えば、ユーザに提供されるフィードバックは如何なる形式の感覚フィードバック（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であってもよい。且つ、ユーザからの入力は如何なる形式（音響入力、音声入力、または、触覚入力を含む）にて受けられる。

ここに記載されているシステムおよび技術は、バックグラウンドコンポーネントを含む計算システム（例えば、データサーバとして）、ミドルウェアコンポーネントを含む計算システム（例えば、アプリケーションサーバ）、フロントエンドコンポーネントを含む計算システム（例えば、グラフィカル・ユーザー・インターフェースまたはネットワークブラウザを有するユーザコンピュータであって、ユーザが該グラフィカル・ユーザー・インターフェースまたは該ネットワークブラウザを介してここに記載されているシステムおよび技術の実施形態とインタラクションすることができる）、あるいは、このようなバックグラウンドコンポーネント、ミドルウェアコンポーネントまたはフロントエンドコンポーネントを含むあらゆる組み合わせの計算システムにおいて、実施され得る。システムのコンポーネントは如何なる形式または媒体のデジタルデータ通信（例えば、通信ネットワーク）を介して相互に接続され得る。通信ネットワークの例としては、ローカルエリア・ネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）及びインターネットが挙げられる。

コンピュータシステムは、クライアントおよびサーバを含んでもよい。クライアントおよびサーバは、通常は互いに離れて通信ネットワークを介してインタラクションする。対応するコンピュータにおいて、互いにクライアント−サーバ関係を有するコンピュータプログラムを実行することによりクライアントとサーバとの関係を生成する。

本出願の実施例に係る技術案によれば、第１のランダムベクトル集合を取得して、トレーニングされた分類器を基にして、第１のランダムベクトル集合における少なくとも１つのランダムベクトルの所属する画像クラスを確定するとともに、該画像クラスに属するランダムベクトルをトレーニングされた画像生成器に入力し、該画像クラスに属する仮想画像を生成する。分類器と画像生成器とを組み合わせて使用することで、従来技術における明確に分類された画像を取得し難い問題が解決され、大量の明確に分類された画像の自動的な生成が図れるとともに、画像の多様性が向上され、画像の分類コストも低減される。

上記のように示される各形式のプローを用いて、ステップを、改めてソートしたり、追加したり、削除したりすることができると理解すべきである。例えば、本出願に記載の各ステップは並行に実行されてもよいし、上記の順で実行されてもよいし、上記と異なる順で実行されてもよく、本出願に開示される技術案の所望の結果を実現できればよく、本出願はこれについて限定をしない。

上記の発明を実施するための形態は本出願の保護範囲を限定するものではない。当業者は、設計要件およびその他の要因に応じて、各種の変更、組合せ、再組合せおよび取替を行うことができることを理解すべきである。本出願の趣旨および原則を逸脱しない補正、同等取替や改良などはいずれも本出願の保護範囲に含まれるものである。

ステップＳ３５０：仮想画像サンプルを用いて、第２の敵対的生成ネットワークに対して教師ありトレーニングを行って、トレーニングされた、入力された画像をその所属する画像クラスから他の画像クラスの画像に変換するための画像から画像の変換モデルを得る。

Claims

第１のランダムベクトル集合を取得するステップと、
トレーニングされた分類器に基づいて、前記第１のランダムベクトル集合における少なくとも１つのランダムベクトルの所属する画像クラスを確定するステップと、
前記画像クラスに属するランダムベクトルをトレーニングされた画像生成器に入力し、前記画像クラスに属する仮想画像を生成するステップと、を含む画像生成方法。
前記画像クラスに属するランダムベクトルをトレーニングされた画像生成器に入力し、前記画像クラスに属する仮想画像を生成する前に、
前記第１のランダムベクトル集合における少なくとも１つのランダムベクトルを、その所属する画像クラスから前記画像クラスを除いた他の画像クラスに編集して、他の画像クラスに属する他のランダムベクトルを得るステップを、さらに含む、請求項１に記載の方法。
前記第１のランダムベクトル集合における少なくとも１つのランダムベクトルを、その所属する画像クラスから前記画像クラスを除いた他の画像クラスに編集して、他の画像クラスに属する他のランダムベクトルを得るステップは、
前記画像生成器に対応する画像クラス空間の属性ベクトル軸を取得するステップであって、前記属性ベクトル軸は、前記画像クラス空間におけるいずれか２つの画像クラスに対応する分類面の法線ベクトルである、ステップと、
前記属性ベクトル軸に基づいて、前記第１のランダムベクトル集合における少なくとも１つのランダムベクトルを、その所属する画像クラスから前記画像クラスを除いた他の画像クラスに編集して、他の画像クラスに属する他のランダムベクトルを得るステップと、を含む請求項２に記載の方法。
前記属性ベクトル軸に基づいて、前記第１のランダムベクトル集合における少なくとも１つのランダムベクトルを、その所属する画像クラスから前記画像クラスを除いた他の画像クラスに編集して、他の画像クラスに属する他のランダムベクトルを得るステップは、
第１の画像クラスに属するランダムベクトルに、前記属性ベクトル軸と編集スケールパラメータとの積を加算し、第２の画像クラスに属するランダムベクトルを得るステップ、および／または、
第２の画像クラスに属するランダムベクトルから、前記属性ベクトル軸と編集スケールパラメータとの積を減算し、第１の画像クラスに属するランダムベクトルを得るステップ、を含み、
前記属性ベクトル軸は、前記第１の画像クラスに対応する画像クラス空間から前記第２の画像クラスに対応する画像クラス空間に指向する、請求項３に記載の方法。
第２のランダムベクトル集合を取得するステップと、
前記第２のランダムベクトル集合における少なくとも１つのランダムベクトルを、トレーニングされた前記画像生成器に入力して、少なくとも１つのラベリング対象となる仮想画像を生成するステップと、
前記ラベリング対象となる仮想画像および事前設定された画像クラスによって、前記ランダムベクトルを分類およびラベリングし、分類タグを有するランダムベクトルサンプルを得るステップと、
前記の分類タグを有するランダムベクトルサンプルを用いて、事前設定された分類モデルをトレーニングして、トレーニングされた分類器を得るステップと、を含む請求項１に記載の方法。
前記第１のランダムベクトル集合におけるランダムベクトルの数が前記第２のランダムベクトル集合におけるランダムベクトルの数よりも大きい、請求項５に記載の方法。
分類タグ無しの実画像を複数含むサンプル画像データセットを取得するステップと、
前記サンプル画像データセットを用いて、第１の敵対的生成ネットワークに対して教師無しトレーニングを行って、トレーニングされた画像生成器を得るステップと、をさらに含む請求項１に記載の方法。
前記画像クラスに属するランダムベクトルをトレーニングされた画像生成器に入力して前記画像クラスに属する仮想画像を生成した後、さらに、
前記仮想画像をその所属する画像クラスに従ってラベリングして分類タグを有する仮想画像サンプルを生成するステップと、
前記仮想画像サンプルを用いて、第２の敵対的生成ネットワークに対して教師ありトレーニングを行って、入力された画像をその所属する画像クラスから他の画像クラスの画像に変換するための、トレーニングされた画像から画像の変換モデルを得るステップと、を含む請求項１〜７のいずれか１項に記載の方法。
第１のランダムベクトル集合を取得するように構成される第１の集合取得モジュールと、
トレーニングされた分類器によって、前記第１のランダムベクトル集合における少なくとも１つのランダムベクトルの所属する画像クラスを確定するように構成される画像クラス確定モジュールと、
前記画像クラスに属するランダムベクトルをトレーニングされた画像生成器に入力し、前記画像クラスに属する仮想画像を生成するように構成される仮想画像生成モジュールと、を備える画像生成装置。
前記画像クラスに属するランダムベクトルをトレーニングされた画像生成器に入力して前記画像クラスに属する仮想画像を生成する前に、前記第１のランダムベクトル集合における少なくとも１つのランダムベクトルを、その所属する画像クラスから前記画像クラスを除いた他の画像クラスに編集して、他の画像クラスに属する他のランダムベクトルを得るように構成される画像クラス編集モジュールを、さらに備える請求項９に記載の装置。
前記画像クラス編集モジュールは、
前記画像生成器に対応する画像クラス空間の属性ベクトル軸を取得するように構成されるベクトル軸取得ユニットであって、前記属性ベクトル軸は前記画像クラス空間におけるいずれか２つの画像クラスに対応する分類面の法線ベクトルである、ベクトル軸取得ユニットと、
前記属性ベクトル軸に基づいて、前記第１のランダムベクトル集合における少なくとも１つのランダムベクトルを、その所属する画像クラスから前記画像クラスを除いた他の画像クラスに編集して、他の画像クラスに属する他のランダムベクトルを得るように構成されるクラス編集ユニットと、を備える請求項１０に記載の装置。
前記クラス編集ユニットは、
第１の画像クラスに属するランダムベクトルに、前記属性ベクトル軸と編集スケールパラメータとの積を加算し、第２の画像クラスに属するランダムベクトルを得るように構成される第１の編集サブユニット、および／または、
第２の画像クラスに属するランダムベクトルから、前記属性ベクトル軸と編集スケールパラメータとの積を減算し、第１の画像クラスに属するランダムベクトルを得るように構成される第２の編集サブユニット、を備え、
前記属性ベクトル軸は、前記第１の画像クラスに対応する画像クラス空間から前記第２の画像クラスに対応する画像クラス空間に指向する、請求項１１に記載の装置。
第２のランダムベクトル集合を取得するように構成される第２の集合取得モジュールと、
前記第２のランダムベクトル集合における少なくとも１つのランダムベクトルをトレーニングされた前記画像生成器に入力して少なくとも１つのラベリング対象となる仮想画像を生成するように構成されるラベリング対象画像生成モジュールと、
前記ラベリング対象となる仮想画像および事前設定された画像クラスによって、前記ランダムベクトルを分類およびラベリングし、分類タグを有するランダムベクトルサンプルを得るように構成される画像分類ラベリングモジュールと、
前記の分類タグを有するランダムベクトルサンプルを用いて、事前設定された分類モデルをトレーニングして、トレーニングされた分類器を取得するように構成される分類モデルトレーニングモジュールと、をさらに備える請求項９に記載の装置。
前記第１のランダムベクトル集合におけるランダムベクトルの数が前記第２のランダムベクトル集合におけるランダムベクトルの数よりも大きい、請求項１３に記載の装置。
分類タグ無しの実画像を複数含むサンプル画像データセットを取得するように構成されるサンプル画像取得モジュールと、
前記サンプル画像データセットを用いて、第１の敵対的生成ネットワークに対して教師無しトレーニングを行って、トレーニングされた画像生成器を得るように構成される生成器トレーニングモジュールと、をさらに備える請求項９に記載の装置。
前記画像クラスに属するランダムベクトルを、トレーニングされた画像生成器に入力して、前記画像クラスに属する仮想画像を生成した後、前記仮想画像をその所属する画像クラスによってラベリングして分類タグを有する仮想画像サンプルを生成するように構成される仮想画像ラベリングモジュールと、
前記仮想画像サンプルを用いて、第２の敵対的生成ネットワークに対して教師ありトレーニングを行って、入力された画像をその所属する画像クラスから他の画像クラスの画像に変換するための、トレーニングされた画像から画像の変換モデルを得るように構成される変換モデルトレーニングモジュールと、をさらに備える請求項９〜１５のいずれか１項に記載の装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信可能に接続されているメモリと、を備えており、
前記メモリには前記少なくとも１つのプロセッサに実行され得る指令が記憶され、前記指令が前記少なくとも１つのプロセッサによって実行されると、請求項１〜８のいずれか１項に記載の方法が実行されることを特徴とする電子機器。
コンピュータ指令が記憶されている非一時的なコンピュータ読取可能な記憶媒体であって、
請求項１〜８のいずれか１項に記載の方法を前記コンピュータに実行させるように構成されることを特徴とする非一時的なコンピュータ読取可能な記憶媒体。
プロセッサにより実行されると、請求項１〜８のいずれか１項に記載の方法を実現する、コンピュータプログラム。