JP2021193546A - 画像生成方法および装置、電子機器、記憶媒体並びにコンピュータプログラム - Google Patents

画像生成方法および装置、電子機器、記憶媒体並びにコンピュータプログラム Download PDF

Info

Publication number
JP2021193546A
JP2021193546A JP2021032615A JP2021032615A JP2021193546A JP 2021193546 A JP2021193546 A JP 2021193546A JP 2021032615 A JP2021032615 A JP 2021032615A JP 2021032615 A JP2021032615 A JP 2021032615A JP 2021193546 A JP2021193546 A JP 2021193546A
Authority
JP
Japan
Prior art keywords
image
random vector
class
image class
random
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021032615A
Other languages
English (en)
Other versions
JP7308235B2 (ja
Inventor
ジャミン リウ,
Jiaming Liu
ティアンシュ フ,
Tianshu Hu
シェンギュイ ヘ,
Shengyi He
ツィビン ホン,
Zhibin Hong
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021193546A publication Critical patent/JP2021193546A/ja
Application granted granted Critical
Publication of JP7308235B2 publication Critical patent/JP7308235B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】機械学習技術を画像処理に適用する場合に、大量の明確に分類された画像の自動的な生成を図るとともに、画像の多様性を向上させ、画像の分類コストも低減する画像生成方法及び装置、電子機器、記憶媒体並びにコンピュータプログラムを提供する。【解決手段】画像生成方法は、第1のランダムベクトル集合を取得するステップと、トレーニングされた分類器によって、第1のランダムベクトル集合における少なくとも1つのランダムベクトルの所属する画像クラスを確定するステップと、画像クラスに属するランダムベクトルをトレーニングされた画像生成器に入力し、画像クラスに属する仮想画像を生成するステップと、を含む。【選択図】図1A

Description

本出願の実施例は画像処理技術、特に、人工知能の深層学習および画像処理分野に関し、具体的には、画像生成方法および装置、電子機器、記憶媒体並びにコンピュータプログラムに関している。
機械学習技術は、その急速な発展に従い、自体の利点により、益々多くの分野に幅広く適用されている。
機械学習技術を画像処理分野に適用する際に、通常は、ニューラルネットワークモデルが画像処理能力を有するように、ニューラルネットワークモデルをトレーニングするために使用されるサンプルデータとして、大量の分類された画像を取得することが必要とされる。
したがって、機械学習技術を画像処理の分野に適用する場合、分類された画像をどのように取得するかが緊急に解決されるべき技術的問題になる。
本出願は画像生成方法および装置、電子機器、記憶媒体並びにコンピュータプログラムを提供する。
本出願の一態様において、第1のランダムベクトル集合を取得するステップと、トレーニングされた分類器によって、前記第1のランダムベクトル集合における少なくとも1つのランダムベクトルの所属する画像クラスを確定するステップと、前記画像クラスに属するランダムベクトルをトレーニングされた画像生成器に入力し、前記画像クラスに属する仮想画像を生成するステップと、を含む画像生成方法を提供する。
本出願の他の一態様において、第1のランダムベクトル集合を取得するように構成される第1の集合取得モジュールと、トレーニングされた分類器によって、前記第1のランダムベクトル集合における少なくとも1つのランダムベクトルの所属する画像クラスを確定するように構成される画像クラス確定モジュールと、前記画像クラスに属するランダムベクトルをトレーニングされた画像生成器に入力し、前記画像クラスに属する仮想画像を生成するように構成される仮想画像生成モジュールと、を備える画像生成装置を提供する。
本出願の他の一態様において、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信可能に接続されているメモリと、を備えており、前記メモリには前記少なくとも1つのプロセッサに実行され得る指令が記憶され、前記指令が前記少なくとも1つのプロセッサによって実行されると、本出願の実施例のいずれかに記載の方法が実行されることを特徴とする電子機器を提供する。
本出願の他の一態様において、コンピュータ指令が記憶されている非一時的なコンピュータ読取可能な記憶媒体であって、本出願の実施例のいずれかに記載の方法を前記コンピュータに実行させるように構成されることを特徴とする非一時的なコンピュータ読取可能な記憶媒体を提供する。
本出願の他の一態様において、プロセッサにより実行されると、本出願の実施例のいずれかに記載の方法を実現するコンピュータプログラムを提供する。
本出願に係る技術によれば、分類された画像を取得し難い問題を解決できる。
この部分に記載されている内容が本出願に係る実施例の肝心なまたは重要な特徴に対する識別を主旨とするものでもないし、本出願の範囲を限定するものでもないことを理解するべきである。本出願の他の特徴は以下の明細書により理解されやすくなるであろう。
図面はこの技術案をよりよく理解するために用いられるものであり、本出願を限定するものではない。
本出願の実施例に係る画像生成方法のフローチャートである。 本出願の実施例に係るstyleganトレーニングの構造図である。 本出願の実施例に係るもう1つの画像生成方法のフローチャートである。 本出願の実施例に係るもう1つの画像生成方法のフローチャートである。 本出願の実施例に係る、トレーニングされた画像から画像の変換(Image to Image Translation)モデルを取得するフローチャートである。 本出願の実施例に係る画像生成装置の構造模式図である。 本出願の実施例に係る画像生成方法を実現するための電子機器のブロック図である。
以下、本出願の例示的な実施例について図面を合わせて説明を行う。ここで、理解の便宜上、本出願の実施例の様々な詳細が記載されているが、それらが例示的なものに過ぎないと理解すべきである。したがって、当業者は本出願の範囲および主旨を逸脱しない限りここに記載される実施例を様々に変更したり修正したりすることができると理解すべきである。同様に、以下の記載には周知の機能および構成についての説明を、明確性及び簡潔性のため省略する。
本出願の実施例によれば、本出願は画像生成方法を提供する。
図1Aは、本出願の実施例に係る画像生成方法のフローチャートである。本実施例は明確に分類された画像を取得するためのシーンに適用可能であり、該方法は画像生成装置により実行されてもよい。該装置はソフトウェアおよび/またはハードウェアにより実現され得、通常は、コンピュータや携帯電話などの計算機能を有する電子機器に集積され得る。
具体的には、図1Aを参照して、該方法は具体的にステップS110〜S130を含む。
ステップS110:第1のランダムベクトル集合を取得する。
画像処理分野に機械学習技術を適用するプロセスにおいて、具体的には、ニューラルネットワークモデルに対し教師ありトレーニングを行う際に、一般的には、大量の分類された高品質の画像を取得しなければならない。一実施形態としては、従来の公開されたデータセットをそのまま用いることが挙げられる。このような形態では、公開されたデータセットに含まれる画像データには限りがあるので、さまざまな実生産環境に適用できないので、実際の効果はあまり良くない。高品質の画像データを採集し、手動で分類しラベリングするというもう一つの実施形態がある。このような形態では、大量の高品質データを取得し難いだけでなく、手動によるラベリングのコストも高い。
上記の問題に対して、本実施例は分類器および画像生成器を組み合わせて用いることによって、明確に分類された大量の高品質画像を生成することは可能となる。
具体的には、先ず、第1のランダムベクトル集合を取得する。ここで、第1のランダムベクトル集合には少なくとも1つのランダムベクトルが含まれ得、各ランダムベクトルは対応する仮想画像の最終的な生成に用いられ得る。例示的には、第1のランダムベクトル集合を取得する方法は、ランダムに生成された多次元の所定の分布をサンプリングして、少なくとも1つの多次元ランダムベクトルを得るとともに、該少なくとも1つの多次元ランダムベクトルで第1のランダムベクトル集合を構成する方法が含まれ得るが、これに限定されるものではない。ここで、所定の分布は、例えば、均一分布や正規分布などであってもよく、ここでそれを限定しない。1つの実施例は、ランダムベクトルとしてランダムに生成された512次元の均一分布において512次元隠れ変数Zをサンプリングして、第1のランダムベクトル集合を構成する。
ステップS120:トレーニングされた分類器によって、第1のランダムベクトル集合における少なくとも1つのランダムベクトルの所属する画像クラスを確定する。
この実施例では、分類器は所定の初期分類モデルをトレーニングして得られた、画像分類機能を有するモデルであってもよい。具体的には、第1のランダムベクトル集合における少なくとも1つのランダムベクトルを分類器に入力し、分類器は、トレーニング時の事前設定された画像クラスに従ってランダムベクトルを分類してから入力されたランダムベクトルの所属する画像クラスを確定する。ここで、分類器は二項分類器や多項分類器であり得、これに限定されない。
あるいは、第2のランダムベクトル集合を取得するステップと、第2のランダムベクトル集合における少なくとも1つのランダムベクトルをトレーニングされた画像生成器に入力して、少なくとも1つのラベリング対象となる仮想画像を生成するステップと、前記ラベリング対象となる仮想画像および事前設定された画像クラスによって、前記ランダムベクトルを分類およびラベリングし、分類タグを有するランダムベクトルサンプルを得るステップと、分類タグを有するランダムベクトルサンプルを用いて事前設定された分類モデルをトレーニングして、トレーニングされた分類器を得るステップと、をさらに含む。
ここで、第2のランダムベクトル集合の取得方法は、ランダムに生成された多次元の所定の分布に対してサンプリングを行って少なくとも1つの多次元ランダムベクトルを取得するとともに、該少なくとも1つの多次元ランダムベクトル、または、多次元ランダムベクトルを複数の全結合層(FC層)に入力して得られたランダムベクトルから第2のランダムベクトル集合を構成する方法が含まれるが、これに限定されない。一例として、ランダムに生成された512次元の均一分布からランダムベクトルとして512次元の隠れ変数Zをサンプリングするか、または、一連のFC層によって該隠れ変数Zを8*512次元のWに変換してランダムベクトルとして第2のランダムベクトル集合を構成することができる。
具体的には、分類器のトレーニング過程において、まず、第2のランダムベクトル集合に含まれるランダムベクトルを、トレーニングされた画像生成器に入力することにより、入力されたランダムベクトルに対応する仮想画像を生成することができ、該仮想画像は画像クラスが不明確な画像であって、ラベリング対象となる仮想画像である。その後、事前設定された画像クラスに従ってラベリング対象となる仮想画像を分類するとともに、該ラベリング対象となる仮想画像に対応するランダムベクトルをその所属する画像クラスに従ってラベリングして、分類タグを有するランダムベクトルサンプルを得る。ここで、二項分類の場合、事前設定された画像クラスは予め定義されたdomainAおよびdomainBであり得、例えば、画像が顔画像である場合、domainAが大人、domainBが子供であり得、または、domainAが青年、domainBが老人であり得、これに限定されない。分類およびラベリングをする方法は、手動分類および手動ラベリングなどを含むが、これらに限定されない。ラベリング対象となる仮想画像がdomainAに属すると人為的に分類されると、該ラベリング対象となる仮想画像を生成するためのランダムベクトルをdomainAとしてラベリングする。そして、分類タグを有するランダムベクトルサンプルを用いて事前設定された分類モデルをトレーニングし、モデルが収束すると該分類モデルをトレーニングされた分類器として確定することができる。ここで、事前設定された画像クラスが2つであれば、事前設定された分類モデルは二項分類モデル、例えば、リニア分類器linear SVM(Support Vector Machine:サポートベクターマシン)であってもよい。事前設定された画像クラスが複数であれば、他の多分類モデルであってもよく、これに限定されない。
以下、二項分類を例として、分類器のトレーニング過程を実例によって説明する。ランダムに生成された均一分布から約5000個の隠れ変数Zをサンプリングする。いずれの隠れ変数Zは、トレーニングされた画像生成器によって1枚の顔画像サンプルを生成する。予め定義されたdomainAおよびdomainBに基づいて、5000枚の顔画像サンプルにおけるdomainAに属する画像と、domainBに属する画像とを分けるようにラベリング操作者に指示する。この2つのドメインの画像データを得た後、domainAまたはdomainBに従って隠れ変数Zを分類してトレーニングされた分類器を得るように、これらの2つのドメインの画像データに対応するランダム変数サンプルを用いてlinear SVMに対して教師ありトレーニングを行うことができる。
ランダムベクトルを用いて分類器をトレーニングするメリットは、トレーニング過程が比較的簡単であり、モデルトレーニングの複雑さを低減可能であり、モデルが収束しやすく、必要となるトレーニングサンプルの数が少ないことにある。
あるいは、第2のランダムベクトル集合におけるランダムベクトルの数よりも第1のランダムベクトル集合におけるランダムベクトルの数は大きい。
この実施例では、第2のランダムベクトル集合におけるランダムベクトルの数を、第1のランダムベクトル集合におけるランダムベクトルの数よりも遥かに少なくすることはできる。このようにするメリットは、分類器のトレーニング時、少ないランダムベクトルサンプルをラベリングすれば、トレーニングされた分類器および画像生成器を用いて、大量の明確に分類された仮想画像を限りないまま生成でき、さらに、画像分類の過程を簡略化し、画像分類のコストを低減し、画像の多様性を向上できることである。
ステップS130:該画像クラスに属するランダムベクトルをトレーニングされた画像生成器に入力して、該画像クラスに属する仮想画像を生成する。
この実施例では、第1のランダムベクトル集合における少なくとも1つのランダムベクトルの所属する画像クラスが確定された後、目標画像クラスに属するランダムベクトルをそれぞれトレーニングされた画像生成器に入力し、目標画像クラスに属する仮想画像を対応して生成する。例示的には、第1のランダムベクトル集合に複数のランダムベクトルが含まれると、各画像クラスに別々に属するランダムベクトルをそれぞれトレーニングされた画像生成器に入力し、それぞれの画像クラスに属する仮想画像を出力する。
ここで、画像生成器は、事前設定された初期生成モデルをトレーニングして得られた、画像生成機能を有するモデルであってもよい。具体的には、トレーニングされた画像生成器に1つのランダムベクトルを入力することにより、該ランダムベクトルに対応する仮想画像を出力することができる。ここで、仮想画像は、画像生成器が実画像を学習することにより生成した現実に存在しない画像である。
あるいは、複数の分類タグ無しの実画像を含むサンプル画像データセットを取得するステップと、サンプル画像データセットを用いて、第1の敵対的生成ネットワークに対して教師無しトレーニングを行って、トレーニングされた画像生成器を得るステップと、を含む。
画像生成器のトレーニング過程において、複数の実画像からなるサンプル画像データセットをトレーニングサンプルとし、第1の敵対的生成ネットワークに対して教師無しトレーニングを行うことができる。ここで、サンプル画像データセットに含まれる実画像は高解像度画像であってもよく、サンプル画像データセットは、例えば、従来の公開されたデータセットであってもよい。また、第1の敵対的生成ネットワークは、例えば、スタイルベースの敵対的生成ネットワーク(stylegan)であってもよい。高解像度のサンプル画像データセットを用いてstyleganに対してトレーニングを行って得られる画像生成器は、使用中に生成した仮想画像も高解像度画像である。
具体的な例としては、図1Bに示すstyleganのトレーニング構造を参照して、画像生成器のトレーニング過程は次のとおりである。即ち、512次元の均一分布からサンプリングされた512次元隠れ変数Zは、左側の一連のFC層によって8*512次元のWに変換される。Wは4層AdaINのbeta、gammaパラメータに分けられ、画像フォームまたはスタイル(style)として中間の統合ネットワークg(synthesis network g)中に送入される。右側はランダムにサンプリングされるノイズ(Noise)であり、その次元が畳み込まれた特徴マップと一致している。gの畳み込み入力はブランクであり、WおよびNoiseにより制御されるgネットワークを経由して、ランダムなRGB図を生成する。トレーニング時に、PGGANトレーニング戦略を用いることができ、ここで、PGGANトレーニング戦略は具体的に次のとおりである。即ち、先ず、styleganにおける生成器をトレーニングしてサイズ4*4の出力画像を生成し、styleganにおける判定器でサイズ4*4の画像を判定し、収束後、サイズ4*4の上に1つの畳み込みブロックを積層する。本実施例では、出力が8*8画像である1つの畳み込みブロックは2つのAdaIN層で構成され得、同じサイズの判定器は該サイズにおいて判定を行う。生成される画像のサイズが1024*1024に至るまで該ステップは繰り返して行われ、収束後のstyleganはトレーニングされた画像生成器とされる。
画像生成器のトレーニング過程において、サンプル画像データセットを用いて第1の敵対的生成ネットワークに対して教師無しトレーニングを行うことは、サンプル画像の分類ラベリング過程を省略し、画像品質を確保するとともに、サンプル画像のラベリングコストを低減できるという有益な効果を有する。
この実施例に係る技術案によれば、第1のランダムベクトル集合を取得して、トレーニングされた分類器によって、第1のランダムベクトル集合における少なくとも1つのランダムベクトルの所属する画像クラスを確定するとともに、該画像クラスに属するランダムベクトルをトレーニングされた画像生成器に入力し、該画像クラスに属する仮想画像を生成する。分類器と画像生成器とを組み合わせて使用することで、従来技術における明確に分類された画像を取得し難い問題は解決され、大量の明確に分類された画像の自動的な生成は図れるとともに、画像の多様性は向上され、画像の分類コストも低減される。
本出願の実施例によれば、本出願は画像生成方法を更に提供する。
図2は本出願の実施例に係るもう1つの画像生成方法のフローチャートである。本実施例は、上記の任意の実施例を詳細化し、トレーニングされた画像生成器に前記画像クラスに属するランダムベクトルを入力し、前記画像クラスに属する仮想画像を生成する前に、前記第1のランダムベクトル集合における少なくとも1つのランダムベクトルを、その所属する画像クラスから前記画像クラス以外の他の画像クラスに編集して他の画像クラスに属する他のランダムベクトルを取得するステップをさらに含む。
具体的には、図2を参照して、この方法はステップS210〜S240を含む。
ステップS210:第1のランダムベクトル集合を取得する。
ステップS220:トレーニングされた分類器によって、第1のランダムベクトル集合における少なくとも1つのランダムベクトルの所属する画像クラスを確定する。
ステップS230:第1のランダムベクトル集合における少なくとも1つのランダムベクトルを、その所属する画像クラスから該画像クラス以外の他の画像クラスに編集して他の画像クラスに属する他のランダムベクトルを得る。
本実施例は、上記の実施例を基にして、生成された各画像クラスに対応する仮想画像の数を同様にするために、分類器によって第1のランダムベクトル集合における少なくとも1つのランダムベクトルを分類した後、各画像クラスに属するランダムベクトルのいずれも他の画像クラスに編集して、対応する他の画像クラスに属するランダムベクトルを得て、各画像クラスに属するランダムベクトルの数を等しくし、更に、各画像クラスに属するランダムベクトルに基づいて生成された仮想画像の数も等しくする。
例えば、ランダムベクトルaが画像クラスAに属し、ランダムベクトルbおよびcが画像クラスBに属する場合、ランダムベクトルa1を画像クラスAから画像クラスBに編集して画像クラスBに属するランダムベクトルaを得られる。且つ、ランダムベクトルbを画像クラスBから画像クラスAに編集して画像クラスAに属するランダムベクトルbを得られる。同時に、ランダムベクトルcを画像クラスBから画像クラスAに編集して画像クラスAに属するランダムベクトルcを得られる。即ち、編集後、画像クラスAはa、bおよびcを含み、画像クラスBは対応してa、bおよびcを含み、更に、画像クラスAおよび画像クラスBのいずれにも3つのランダムベクトルが含まれるようになり、数のバランスが取られる。
あるいは、第1のランダムベクトル集合における少なくとも1つのランダムベクトルを、その所属する画像クラスから該画像クラス以外の他の画像クラスに編集して、他の画像クラスに属する他のランダムベクトルを得るステップは、画像生成器に対応する画像クラス空間の属性ベクトル軸を取得するステップであって、属性ベクトル軸は画像クラス空間における任意の2つの画像クラスに対応する分類面(classification plane)の法線ベクトルであるステップと、属性ベクトル軸に基づいて、第1のランダムベクトル集合における少なくとも1つのランダムベクトルを、その所属する画像クラスから該画像クラス以外の他の画像クラスに編集して、他の画像クラスに属する他のランダムベクトルを得るステップと、を含む。
例えば、属性ベクトル軸は、画像生成器に対応する画像クラス空間におけるランダムベクトルの所属する画像クラスを変更するためのベクトル軸であってもよい。ここで、画像クラス空間は、各画像クラス同士間の分類面で区画された複数の空間であってもよい。二項分類を例として、1つの分類面は分類器の2つのパラメータによって確定されることができ、該分類面の法線ベクトルは画像生成器の空間における属性ベクトル軸である。画像クラスが複数である場合、相応に、属性ベクトル軸が複数存在してもよく、つまり、2つの画像クラス毎に1つの属性ベクトル軸が対応できる。
具体的には、該少なくとも1つの属性ベクトル軸によって、第1のランダムベクトル集合におけるランダムベクトルを、その所属する画像クラスから該画像クラスを除いた、属性ベクトル軸に対応する他の画像クラスに編集でき、更に、他の画像クラスに属する他のランダムベクトルを得られる。
属性ベクトル軸を用いて、ランダムベクトルをその所属する画像クラスから該画像クラス以外の他の画像クラスに編集するメリットは、各画像クラスに対応するランダムベクトルの数を同様にし、更に、生成された各画像クラスに対応する仮想画像の数を同様にすることによって、それを教師ありトレーニングのトレーニングサンプルとする際に、各クラス画像サンプルデータのバランスを向上し、より良いトレーニング効果を達成することができることにある。
あるいは、属性ベクトル軸に基づいて、第1のランダムベクトル集合における少なくとも1つのランダムベクトルを、その所属する画像クラスから該画像クラス以外の他の画像クラスに編集し、他の画像クラスに属する他のランダムベクトルを得るステップは、第1の画像クラスに属するランダムベクトルに、属性ベクトル軸と編集スケールパラメータとの積を加算し、第2の画像クラスに属するランダムベクトルを得るステップ、および/または、第2の画像クラスに属するランダムベクトルから、属性ベクトル軸と編集スケールパラメータとの積を減算して、第1の画像クラスに属するランダムベクトルを得るステップ、を含む。ここで、属性ベクトル軸は、第1の画像クラスに対応する画像クラス空間から第2の画像クラスに対応する画像クラス空間に指向する。
一例としては、属性ベクトル軸が第1の画像クラスと第2の画像クラスとの間の分類面の法線ベクトルであり、且つ、該法線ベクトルが第1の画像クラスに対応する画像クラス空間から第2の画像クラスに対応する画像クラス空間に指向する場合、第1の画像クラスに属するランダムベクトルに、属性ベクトル軸*λの積を加算すれば、該ランダムベクトルを第2の画像クラスに編集でき、第2の画像クラスに属するランダムベクトルから、属性ベクトル軸*λの積を減算すれば、該ランダムベクトルを第1の画像クラスに編集できる。ここで、λはランダムベクトルの編集度合いを決定するための編集スケールパラメータであり、λが大きいほど、編集度合いが深く、具体的には、必要に応じて設定することができる。
この実施例では、第1の画像クラスに属するランダムベクトルを属性ベクトル軸により第2の画像クラスに編集するが、逆も同様である。このように設定するメリットは、各画像クラスに対応するランダムベクトルの数を同様にし、更に、生成された各画像クラスに対応する仮想画像の数を同様にし、教師ありトレーニングのトレーニングサンプルとされる場合、各クラス画像サンプルデータのバランスが向上され、より良好なトレーニング効果を達成することができることにある。
ステップS240:該画像クラスに属するランダムベクトルをトレーニングされた画像生成器に入力し、該画像クラスに属する仮想画像を生成する。
本実施例に係る技術案によれば、上記の実施例を基にして、分類器によって第1のランダムベクトル集合における少なくとも1つのランダムベクトルを分類した後、各画像クラスに属するランダムベクトルのいずれを他の画像クラスに編集して、対応する他の画像クラスに属するランダムベクトルを得て、各画像クラスに属するランダムベクトルの数を同様にし、更に、各画像クラスに属するランダムベクトルに基づいて生成された仮想画像の数も同様にし、各クラス画像サンプルデータのバランスが向上される。
本出願の実施例によれば、本出願は画像生成方法を提供する。
図3Aは本出願の実施例に係るもう1つの画像生成方法のフローチャートである。本実施例は上記の任意の実施例を詳細化し、前記画像クラスに属するランダムベクトルをトレーニングされた画像生成器に入力して、前記画像クラスに属する仮想画像を生成した後、前記仮想画像をその所属する画像クラスに従ってラベリングして、分類タグを有する仮想画像サンプルを生成するステップと、前記仮想画像サンプルを用いて、第2の敵対的生成ネットワークに対して教師ありトレーニングを行い、入力された画像をその所属する画像クラスから他の画像クラスの画像に変換するための、トレーニングされた画像から画像の変換(image−to−image translation)モデルを得るステップと、を含む。
具体的には、図3Aを参照して、本方法は具体的にはステップS310〜S350を含む。
ステップS310:第1のランダムベクトル集合を取得する。
ステップS320:トレーニングされた分類器によって、第1のランダムベクトル集合における少なくとも1つのランダムベクトルの所属する画像クラスを確定する。
ステップS330:該画像クラスに属するランダムベクトルをトレーニングされた画像生成器に入力して、該画像クラスに属する仮想画像を生成する。
ステップS340:仮想画像をその所属する画像クラスに従ってラベリングして分類タグを有する仮想画像サンプルを生成する。
顔属性編集機能は、ショート動画、ライブ動画配信において幅広く適用され、比較的大きな実用的価値がある。顔編集モデルをトレーニングする過程において、数多くの、分類された高品質画像を必要とし、画像の品質および数が最終的にトレーニングされたモデルの画像編集効果に顕著に影響する。本実施例に関わる画像は顔画像であってもよく、顔属性編集モデルは画像から画像の変換モデルであってもよい。
例えば、各画像クラスに別々に属する仮想画像が生成された後、各画像クラスの仮想画像に対してその所属する画像クラスに従ってラベリングし、分類タグを有する仮想画像サンプルを生成することもできる。ここで、具体的なラベリング方法は、例えば、異なる文字または数字を用いて、異なる画像クラスの仮想画像を区別してラベリングする方法であってもよく、ここでは限定しない。
ステップS350:仮想画像サンプルを用いて、第2の敵対的生成ネットワークに対して教師ありトレーニングを行って、トレーニングされた画像から、入力された画像をその所属する画像クラスから他の画像クラスの画像に変換するための画像の変換モデルを得る。
具体的には、上記の生成された分類タグを有する仮想画像サンプルを用いて第2の敵対的生成ネットワークをトレーニングして、トレーニングされた画像から画像の変換モデルを得られる。ここで、第2の敵対的生成ネットワークは、例えば、cycleganであってもよく、UGATITアーキテクチャであることが好ましい。UGATITアーキテクチャを用いるメリットは、より安定的な変換効果を得られることにある。具体的には、2つの画像クラスのみがある場合、2つのドメイン(domainAおよびdomainB)の間の変換問題については、画像から画像の変換モデルは2つの生成器(A2B、B2A)および2つの判定器(AおよびB)からなる。生成器は判定器を騙すための実物そっくりな偽画像を生成し、判定器は偽画像を識別するように構成される。
ここで、画像から画像の変換モデルの作動原理は次のとおりである。生成器側では、入力された画像が2つのダウンサンプリング畳み込み及び4つのクロスレイヤー接続ブロック(cross−layer connection block)からなるエンコーダー(encoder)を通った後、C個のチャネルを有する特徴マップxが取得され、xに対して最大プーリング(max pooling)および平均プーリング(average pooling)が実行された後に2C次元特徴が得られ、補助分類器に送入されて、画像の由来がAまたはBであるかが判定される。補助分類器の重みWが得られた後、それとxにおける各画素の2Cチャネル特徴とをベクトル乗算し、注意ヒートマップ(attention heat map)aは得られる。ヒートマップaとxとを乗算して、加重した特徴マップx’を得て、x’が全畳み込みネットワークによってbeta、gammaという2つのベクトルを得る。デコーダー(decoder)は、AdaLINに基づく適応残差ブロック(Adaptive Residual Block、ARB)およびアップサンプリング層からなる。ARBは畳み込みの入力としてx’を受け、その中のAdaLIN層がbeta、gammaを受けて特徴調整を行う。x’はARBおよびアップサンプリングを経由した後、変換された画像を出力する。
UGATITアーキテクチャに対して教師ありトレーニングを行う場合、さらに、判定器側を用いる必要がある。具体的には、判定器側では、生成器により変換された画像を生成器に類似するencoderにより処理して、加重特徴マップx’を得ることができ、x’が畳み込み及びsigmoidによって該画像が真または偽であるかについての出力を生成する。判定器のトレーニング時に、判定器は分類損失関数(loss)を最小化する必要があり、生成器のトレーニング時に、生成器は分類lossを最大化する必要があるので、敵対性損失となる。ここで、UGATITアーキテクチャをトレーニングするには必要な損失関数、すなわち、生成器のトレーニングにおける全体的な損失は、1、上記のような敵対性損失と、2、1枚の画像がA2BおよびB2Aにより変換された後、生成画像と入力画像との損失(例えば、L1損失またはL2損失)であるサイクル一貫性損失(cycle consistency loss)と、3、画像が映写を介して画像自身のドメインに戻したときに、生成画像と入力画像との損失(例えば、L1損失またはL2損失)である自身不変損失(self−invariant loss)との3種類の損失を含む。
本実施例に係る技術案によれば、上記の実施例を基にして、生成された仮想画像をその所属する画像クラスに従ってラベリングして、分類タグを有する仮想画像サンプルを生成するとともに、仮想画像サンプルを用いて第2の敵対的生成ネットワークに対して教師ありトレーニングを行って、トレーニングされた画像から画像の変換モデルを得て、生成された分類タグを有する仮想画像サンプルを画像から画像の変換モデルのトレーニング過程に適用することにより、モデルのトレーニング時に、サンプル画像に対する大量の手動ラベリングを必要とせず、サンプル画像の多様性が向上されるとともに、画像サンプルラベリングコストが低減され、モデルトレーニング效率が向上されることができる。
上記の各実施例を基にして、図3Bに示すように、トレーニングされた画像から画像の変換モデルを取得するフローチャートを提供している。具体的には、数多くの教師無しの高解像度顔データを取得してstyleganモデルをトレーニングするステップS31と、トレーニングされたstyleganモデルを基にして、ランダムベクトルをサンプリングして、少量の画像サンプルを生成し、分類タグを手動ラベリングしてdomainAデータおよびdomainBデータを得るとともに、得られた2組のデータに基づいて、リニア分類器をトレーニングし、収束した後、リニア分類器により確定された分類面の法線ベクトルをstylegan空間における属性ベクトル軸とするステップS32と、属性ベクトル軸および分類器が得られた後、数多くのランダムベクトルをサンプリングにより取得するとともに、リニア分類器によってそのクラス(AまたはB)を判断し、Aであればランダムベクトルを属性ベクトル軸に従ってBに編集して新たなランダムベクトルを生成し、逆も同様であり、その後これらの2つの画像クラスのランダムベクトルをstyleganに入力して基本的に同じ数の高解像度デュアルドメインデータセットを得るステップS33と、得られた該高解像度デュアルドメインデータセットを用いて、cycleganモデルをトレーニングして、ペアではない画像から画像の変換モデルを得るとともにアプリケーションデプロイをするステップS34と、を含む。
上記のトレーニング方法によって、顔属性データに対して大量の手動ラベリングを必要としないので、データラベリングコストを大幅に低減できる。これとともに、トレーニング過程が簡単で、処理ステップが少なく、モデルの研究開発効率も高い。なお、該方法によりトレーニングされたモデルは極めて容易に収束でき、且つ、一般化能力が良い。Styleganによるデータ品質が比較的高いので、生成された仮想画像によりトレーニングされた画像から画像の変換モデルの画像変換効果もより優れている。
本出願の実施例によれば、本出願は画像生成装置を更に提供する。
図4は本出願の実施例に係る画像生成装置の構造模式図である。該装置は、ソフトウェアおよび/またはハードウェアにより実現され得、本出願のいずれかの実施例に記載の画像生成方法を実行する。具体的には、画像生成装置400は、第1の集合取得モジュール401、画像クラス確定モジュール402、および仮想画像生成モジュール403を備える。
ここで、第1の集合取得モジュール401は第1のランダムベクトル集合を取得するように構成される。
画像クラス確定モジュール402は、トレーニングされた分類器により、前記第1のランダムベクトル集合における少なくとも1つのランダムベクトルの所属する画像クラスを確定するように構成される。
仮想画像生成モジュール403は、前記画像クラスに属するランダムベクトルをトレーニングされた画像生成器に入力し、前記画像クラスに属する仮想画像を生成するように構成される。
あるいは、画像生成装置400は、さらに、
前記画像クラスに属するランダムベクトルをトレーニングされた画像生成器に入力し、前記画像クラスに属する仮想画像を生成する前に、前記第1のランダムベクトル集合における少なくとも1つのランダムベクトルを、その所属する画像クラスから前記画像クラスを除いた他の画像クラスに編集して、他の画像クラスに属する他のランダムベクトルを得るように構成される画像クラス編集モジュールを備える。
あるいは、ここで、画像クラス編集モジュールは具体的には、
前記画像生成器に対応する画像クラス空間の属性ベクトル軸を取得するように構成されるベクトル軸取得ユニットであって、前記属性ベクトル軸は、前記画像クラス空間における任意の2つの画像クラスに対応する分類面の法線ベクトルである、ベクトル軸取得ユニットと、
前記属性ベクトル軸に基づいて、前記第1のランダムベクトル集合における少なくとも1つのランダムベクトルを、その所属する画像クラスから前記画像クラスを除いた他の画像クラスに編集して、他の画像クラスに属する他のランダムベクトルを得るように構成されるクラス編集ユニットと、を備えてもよい。
あるいは、ここで、クラス編集ユニットは具体的には、
第1の画像クラスに属するランダムベクトルに、前記属性ベクトル軸と編集スケールパラメータとの積を加算し、第2の画像クラスに属するランダムベクトルを得るように構成される第1の編集サブユニット、および/または、
第2の画像クラスに属するランダムベクトルから、前記属性ベクトル軸と編集スケールパラメータとの積を減算し、第1の画像クラスに属するランダムベクトルを得るように構成される第2の編集サブユニットを、備えてもよい。
ここで、前記属性ベクトル軸は前記第1の画像クラスに対応する画像クラス空間から前記第2の画像クラスに対応する画像クラス空間へ指向する。
あるいは、画像生成装置400はさらに、
第2のランダムベクトル集合を取得するための第2の集合取得モジュールと、
前記第2のランダムベクトル集合における少なくとも1つのランダムベクトルをトレーニングされた前記画像生成器に入力して少なくとも1つのラベリング対象となる仮想画像を生成するように構成されるラベリング対象画像生成モジュールと、
前記ラベリング対象となる仮想画像および事前設定された画像クラスに基づいて、前記ランダムベクトルを分類およびラベリングして、分類タグを有するランダムベクトルサンプルを得るように構成される画像分類ラベリングモジュールと、
前記の分類タグを有するランダムベクトルサンプルを用いて、事前設定された分類モデルをトレーニングしてトレーニングされた分類器を取得するように構成される分類モデルトレーニングモジュールと、を備えてもよい。
あるいは、前記第1のランダムベクトル集合におけるランダムベクトルの数は、前記第2のランダムベクトル集合におけるランダムベクトルの数より大きい。
あるいは、画像生成装置400はさらに、
分類タグ無しの実画像を複数含むサンプル画像データセットを取得するように構成されるサンプル画像取得モジュールと、
前記サンプル画像データセットを用いて、第1の敵対的生成ネットワークに対して教師無しトレーニングを行って、トレーニングされた画像生成器を得るように構成される生成器トレーニングモジュールと、を備えてもよい。
あるいは、画像生成装置400は、さらに、
前記画像クラスに属するランダムベクトルを、トレーニングされた画像生成器に入力して、前記画像クラスに属する仮想画像を生成した後、前記仮想画像をその所属する画像クラスに従ってラベリングして、分類タグを有する仮想画像サンプルを生成するように構成される仮想画像ラベリングモジュールと、
前記仮想画像サンプルを用いて、第2の敵対的生成ネットワークに対して教師ありトレーニングを行って、トレーニングされた画像から画像の変換モデルを得るように構成される変換モデルトレーニングモジュールであって、前記画像から画像の変換モデルは、入力された画像をその所属する画像クラスから他の画像クラスの画像に変換するように構成される、変換モデルトレーニングモジュールと、を備えてもよい。
本出願の実施例に係る画像生成装置は、本出願の任意の実施例に係る画像生成方法を実行でき、方法を実行するための機能モジュールおよび有益な効果を備える。
本出願の実施例によれば、本出願は電子機器および読み取り可能な記憶媒体をさらに提供している。
図5は、本出願の実施例に係る画像生成方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバー、大型コンピュータ、および他の適宜なコンピュータなどのような各種の形式のデジタルコンピュータを表す。電子機器はさらにパーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイスおよび他の類似の計算装置などのような各種の形式のモバイルデバイスを表すことができる。本出願に示すコンポーネント、それらの接続および関係、ならびにそれらの機能は例示だけであり、本出願に記載および/または要求された本出願の実施形態を限定するものではない。
図5に示すように、該電子機器は、1つ以上のプロセッサ501、メモリ502、および、各コンポーネントを接続するための、高速インターフェースおよび低速インターフェースを含むインターフェースを備える。各コンポーネントは、異なるバスにより互い接続され、且つ、共通マザーボードに取り付けられたり、必要に応じて他の方式にて取り付けられたりすることができる。プロセッサは、電子機器に実行される指令を処理することができ、指令は、外部入/出力装置(例えば、インターフェースに結合する表示装置)にGUIのグラフィック情報を表示するためにメモリ中またはメモリ上に記憶されている指令を含む。他の実施形態において、必要に応じて、複数のプロセッサおよび/または数本のバスおよび複数のメモリを複数のメモリとともに用いることができる。同様に、それぞれ一部の必要な動作を提供できる複数の電子機器を接続することは可能である(例えば、サーバアレイ、1組のブレードサーバ、またはマルチプロセッサシステム)。図5では、1つのプロセッサ501を備える例を示す。
メモリ502は本出願に係る非一時的なコンピュータ読取可能な記憶媒体である。ここで、少なくとも1つのプロセッサに本出願に係る画像生成方法を実行させるように、前記メモリには少なくとも1つのプロセッサに実行させ得る指令が記憶されている。本出願に係る非一時的なコンピュータ読取可能な記憶媒体には、コンピュータに本出願に係る画像生成方法を実行させるためのコンピュータ指令が記憶されている。
メモリ502は、非一時的なコンピュータ読取可能な記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム、およびモジュール、例えば、本出願の実施例に係る画像生成方法に対応するプログラム指令/モジュール(例えば、図4に示す第1の集合取得モジュール401、画像クラス確定モジュール402および仮想画像生成モジュール403)を記憶するように構成される。プロセッサ501は、メモリ502に記憶されている非一時的なソフトウェアプログラム、指令、およびモジュールを稼働させることによって、サーバの各種の機能性アプリケーションおよびデータ処理を実行し、即ち、上記の方法実施例における画像生成方法を実現する。
メモリ502は、オペレーティングシステム、少なくとも1つの機能に要するアプリケーションプログラムを記憶可能なプログラムメモリエリア、および、画像生成方法を実行する電子機器の利用に応じて作成されたデータなどを記憶可能なデータメモリエリアを含んでもよい。なお、メモリ502としては、高速ランダムアクセスメモリを含んでもよいし、非一時的なメモリ、例えば、少なくとも1つの磁気ディスクメモリ、フラッシュメモリ、または他の非一時的な固体記憶装置を含んでもよい。一部の実施例において、メモリ502としては、プロセッサ501に対し遠隔に設置されているメモリを含んでもよく、これらのリモートメモリはネットワークを介して画像生成方法の電子機器に接続可能である。上記のネットワークの実例としては、インターネット、企業イントラネット、ローカルエリア・ネットワーク、移動通信ネットワークおよびそれらの組み合わせが挙げられるが、これらに限定されない。
画像生成方法の電子機器は、入力装置503および出力装置504を更に備える。プロセッサ501、メモリ502、入力装置503および出力装置504はバスまたは他の方式にて接続され得る。図5では、例としてバスによる接続を示している。
入力装置503は、入力された数字または文字情報を受信し、画像生成方法の電子機器のユーザ設置および機能制御に関するキー信号入力を生成することができ、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、指示ロッド、1つ以上のマウスボタン、トラックボール、ジョイスティックなどのような入力装置である。出力装置504は、表示装置、補助照明装置(例えば、LED)および触覚フィードバック装置(例えば、振動モータ)などを含んでもよい。該表示装置は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイおよびプラズマディスプレイを含むがこれらに限定されるものではない。一部の実施形態において、表示装置はタッチスクリーンであってもよい。
ここに記載されているシステムおよび技術に係る各実施形態は、デジタル電子回路システム、集積回路システム、専用ASIC(専用集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせにより実現され得る。これらの各実施形態は、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムにおいて実行および/または解釈され得る1つ以上のコンピュータプログラムにより実施される実施形態を含んでもよく、該プログラマブルプロセッサが、記憶システム、少なくとも1つの入力装置、および少なくとも1つの出力装置からデータおよび指令の受信を可能とする専用または汎用的なプログラマブルプロセッサであってもよい。
これらの計算プログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも言われる)はプログラマブルプロセッサのメカ指令を含み、高級過程および/またはオブジェクト指向のプログラミング言語、および/またはアセンブリ言語/機械語により実現され得る。例えば、本出願で用いられる用語である「機械読取可能な媒体」および「コンピュータ読取可能な媒体」とは、プログラマブルプロセッサにメカ指令および/またはデータを提供するための如何なるコンピュータプログラム製品、デバイス、および/または装置(例えば、磁気ディスク、光ディスク、メモリ、プログラム可能論理回路(PLD))を指し、機械読取可能な信号であるメカ指令を受信する機械読取可能な媒体を含む。用語である「機械読取可能な信号」とはプログラマブルプロセッサにメカ指令および/またはデータを提供するためのあらゆる信号を指す。
ユーザとのインタラクションを提供するために、ここに記載されているシステムおよび技術をコンピュータにおいて実施することができる。該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニター)、および、ユーザが入力をコンピュータに提供できるキーボードおよび指向装置(例えば、マウスまたはトラックボール)を備える。その他の種類の装置はユーザとのインタラクションの提供に用いられ、例えば、ユーザに提供されるフィードバックは如何なる形式の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であってもよい。且つ、ユーザからの入力は如何なる形式(音響入力、音声入力、または、触覚入力を含む)にて受けられる。
ここに記載されているシステムおよび技術は、バックグラウンドコンポーネントを含む計算システム(例えば、データサーバとして)、ミドルウェアコンポーネントを含む計算システム(例えば、アプリケーションサーバ)、フロントエンドコンポーネントを含む計算システム(例えば、グラフィカル・ユーザー・インターフェースまたはネットワークブラウザを有するユーザコンピュータであって、ユーザが該グラフィカル・ユーザー・インターフェースまたは該ネットワークブラウザを介してここに記載されているシステムおよび技術の実施形態とインタラクションすることができる)、あるいは、このようなバックグラウンドコンポーネント、ミドルウェアコンポーネントまたはフロントエンドコンポーネントを含むあらゆる組み合わせの計算システムにおいて、実施され得る。システムのコンポーネントは如何なる形式または媒体のデジタルデータ通信(例えば、通信ネットワーク)を介して相互に接続され得る。通信ネットワークの例としては、ローカルエリア・ネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットが挙げられる。
コンピュータシステムは、クライアントおよびサーバを含んでもよい。クライアントおよびサーバは、通常は互いに離れて通信ネットワークを介してインタラクションする。対応するコンピュータにおいて、互いにクライアント−サーバ関係を有するコンピュータプログラムを実行することによりクライアントとサーバとの関係を生成する。
本出願の実施例に係る技術案によれば、第1のランダムベクトル集合を取得して、トレーニングされた分類器を基にして、第1のランダムベクトル集合における少なくとも1つのランダムベクトルの所属する画像クラスを確定するとともに、該画像クラスに属するランダムベクトルをトレーニングされた画像生成器に入力し、該画像クラスに属する仮想画像を生成する。分類器と画像生成器とを組み合わせて使用することで、従来技術における明確に分類された画像を取得し難い問題が解決され、大量の明確に分類された画像の自動的な生成が図れるとともに、画像の多様性が向上され、画像の分類コストも低減される。
上記のように示される各形式のプローを用いて、ステップを、改めてソートしたり、追加したり、削除したりすることができると理解すべきである。例えば、本出願に記載の各ステップは並行に実行されてもよいし、上記の順で実行されてもよいし、上記と異なる順で実行されてもよく、本出願に開示される技術案の所望の結果を実現できればよく、本出願はこれについて限定をしない。
上記の発明を実施するための形態は本出願の保護範囲を限定するものではない。当業者は、設計要件およびその他の要因に応じて、各種の変更、組合せ、再組合せおよび取替を行うことができることを理解すべきである。本出願の趣旨および原則を逸脱しない補正、同等取替や改良などはいずれも本出願の保護範囲に含まれるものである。
ステップS350:仮想画像サンプルを用いて、第2の敵対的生成ネットワークに対して教師ありトレーニングを行って、トレーニングされた入力された画像をその所属する画像クラスから他の画像クラスの画像に変換するための画像から画像の変換モデルを得る。

Claims (19)

  1. 第1のランダムベクトル集合を取得するステップと、
    トレーニングされた分類器に基づいて、前記第1のランダムベクトル集合における少なくとも1つのランダムベクトルの所属する画像クラスを確定するステップと、
    前記画像クラスに属するランダムベクトルをトレーニングされた画像生成器に入力し、前記画像クラスに属する仮想画像を生成するステップと、を含む画像生成方法。
  2. 前記画像クラスに属するランダムベクトルをトレーニングされた画像生成器に入力し、前記画像クラスに属する仮想画像を生成する前に、
    前記第1のランダムベクトル集合における少なくとも1つのランダムベクトルを、その所属する画像クラスから前記画像クラスを除いた他の画像クラスに編集して、他の画像クラスに属する他のランダムベクトルを得るステップを、さらに含む、請求項1に記載の方法。
  3. 前記第1のランダムベクトル集合における少なくとも1つのランダムベクトルを、その所属する画像クラスから前記画像クラスを除いた他の画像クラスに編集して、他の画像クラスに属する他のランダムベクトルを得るステップは、
    前記画像生成器に対応する画像クラス空間の属性ベクトル軸を取得するステップであって、前記属性ベクトル軸は、前記画像クラス空間におけるいずれか2つの画像クラスに対応する分類面の法線ベクトルである、ステップと、
    前記属性ベクトル軸に基づいて、前記第1のランダムベクトル集合における少なくとも1つのランダムベクトルを、その所属する画像クラスから前記画像クラスを除いた他の画像クラスに編集して、他の画像クラスに属する他のランダムベクトルを得るステップと、を含む請求項2に記載の方法。
  4. 前記属性ベクトル軸に基づいて、前記第1のランダムベクトル集合における少なくとも1つのランダムベクトルを、その所属する画像クラスから前記画像クラスを除いた他の画像クラスに編集して、他の画像クラスに属する他のランダムベクトルを得るステップは、
    第1の画像クラスに属するランダムベクトルに、前記属性ベクトル軸と編集スケールパラメータとの積を加算し、第2の画像クラスに属するランダムベクトルを得るステップ、および/または、
    第2の画像クラスに属するランダムベクトルから、前記属性ベクトル軸と編集スケールパラメータとの積を減算し、第1の画像クラスに属するランダムベクトルを得るステップ、を含み、
    前記属性ベクトル軸は、前記第1の画像クラスに対応する画像クラス空間から前記第2の画像クラスに対応する画像クラス空間に指向する、請求項3に記載の方法。
  5. 第2のランダムベクトル集合を取得するステップと、
    前記第2のランダムベクトル集合における少なくとも1つのランダムベクトルを、トレーニングされた前記画像生成器に入力して、少なくとも1つのラベリング対象となる仮想画像を生成するステップと、
    前記ラベリング対象となる仮想画像および事前設定された画像クラスによって、前記ランダムベクトルを分類およびラベリングし、分類タグを有するランダムベクトルサンプルを得るステップと、
    前記の分類タグを有するランダムベクトルサンプルを用いて、事前設定された分類モデルをトレーニングして、トレーニングされた分類器を得るステップと、を含む請求項1に記載の方法。
  6. 前記第1のランダムベクトル集合におけるランダムベクトルの数が前記第2のランダムベクトル集合におけるランダムベクトルの数よりも大きい、請求項5に記載の方法。
  7. 分類タグ無しの実画像を複数含むサンプル画像データセットを取得するステップと、
    前記サンプル画像データセットを用いて、第1の敵対的生成ネットワークに対して教師無しトレーニングを行って、トレーニングされた画像生成器を得るステップと、をさらに含む請求項1に記載の方法。
  8. 前記画像クラスに属するランダムベクトルをトレーニングされた画像生成器に入力して前記画像クラスに属する仮想画像を生成した後、さらに、
    前記仮想画像をその所属する画像クラスに従ってラベリングして分類タグを有する仮想画像サンプルを生成するステップと、
    前記仮想画像サンプルを用いて、第2の敵対的生成ネットワークに対して教師ありトレーニングを行って、入力された画像をその所属する画像クラスから他の画像クラスの画像に変換するための、トレーニングされた画像から画像の変換モデルを得るステップと、を含む請求項1〜7のいずれか1項に記載の方法。
  9. 第1のランダムベクトル集合を取得するように構成される第1の集合取得モジュールと、
    トレーニングされた分類器によって、前記第1のランダムベクトル集合における少なくとも1つのランダムベクトルの所属する画像クラスを確定するように構成される画像クラス確定モジュールと、
    前記画像クラスに属するランダムベクトルをトレーニングされた画像生成器に入力し、前記画像クラスに属する仮想画像を生成するように構成される仮想画像生成モジュールと、を備える画像生成装置。
  10. 前記画像クラスに属するランダムベクトルをトレーニングされた画像生成器に入力して前記画像クラスに属する仮想画像を生成する前に、前記第1のランダムベクトル集合における少なくとも1つのランダムベクトルを、その所属する画像クラスから前記画像クラスを除いた他の画像クラスに編集して、他の画像クラスに属する他のランダムベクトルを得るように構成される画像クラス編集モジュールを、さらに備える請求項9に記載の装置。
  11. 前記画像クラス編集モジュールは、
    前記画像生成器に対応する画像クラス空間の属性ベクトル軸を取得するように構成されるベクトル軸取得ユニットであって、前記属性ベクトル軸は前記画像クラス空間におけるいずれか2つの画像クラスに対応する分類面の法線ベクトルである、ベクトル軸取得ユニットと、
    前記属性ベクトル軸に基づいて、前記第1のランダムベクトル集合における少なくとも1つのランダムベクトルを、その所属する画像クラスから前記画像クラスを除いた他の画像クラスに編集して、他の画像クラスに属する他のランダムベクトルを得るように構成されるクラス編集ユニットと、を備える請求項10に記載の装置。
  12. 前記クラス編集ユニットは、
    第1の画像クラスに属するランダムベクトルに、前記属性ベクトル軸と編集スケールパラメータとの積を加算し、第2の画像クラスに属するランダムベクトルを得るように構成される第1の編集サブユニット、および/または、
    第2の画像クラスに属するランダムベクトルから、前記属性ベクトル軸と編集スケールパラメータとの積を減算し、第1の画像クラスに属するランダムベクトルを得るように構成される第2の編集サブユニット、を備え、
    前記属性ベクトル軸は、前記第1の画像クラスに対応する画像クラス空間から前記第2の画像クラスに対応する画像クラス空間に指向する、請求項11に記載の装置。
  13. 第2のランダムベクトル集合を取得するように構成される第2の集合取得モジュールと、
    前記第2のランダムベクトル集合における少なくとも1つのランダムベクトルをトレーニングされた前記画像生成器に入力して少なくとも1つのラベリング対象となる仮想画像を生成するように構成されるラベリング対象画像生成モジュールと、
    前記ラベリング対象となる仮想画像および事前設定された画像クラスによって、前記ランダムベクトルを分類およびラベリングし、分類タグを有するランダムベクトルサンプルを得るように構成される画像分類ラベリングモジュールと、
    前記の分類タグを有するランダムベクトルサンプルを用いて、事前設定された分類モデルをトレーニングして、トレーニングされた分類器を取得するように構成される分類モデルトレーニングモジュールと、をさらに備える請求項9に記載の装置。
  14. 前記第1のランダムベクトル集合におけるランダムベクトルの数が前記第2のランダムベクトル集合におけるランダムベクトルの数よりも大きい、請求項13に記載の装置。
  15. 分類タグ無しの実画像を複数含むサンプル画像データセットを取得するように構成されるサンプル画像取得モジュールと、
    前記サンプル画像データセットを用いて、第1の敵対的生成ネットワークに対して教師無しトレーニングを行って、トレーニングされた画像生成器を得るように構成される生成器トレーニングモジュールと、をさらに備える請求項9に記載の装置。
  16. 前記画像クラスに属するランダムベクトルを、トレーニングされた画像生成器に入力して、前記画像クラスに属する仮想画像を生成した後、前記仮想画像をその所属する画像クラスによってラベリングして分類タグを有する仮想画像サンプルを生成するように構成される仮想画像ラベリングモジュールと、
    前記仮想画像サンプルを用いて、第2の敵対的生成ネットワークに対して教師ありトレーニングを行って、入力された画像をその所属する画像クラスから他の画像クラスの画像に変換するための、トレーニングされた画像から画像の変換モデルを得るように構成される変換モデルトレーニングモジュールと、をさらに備える請求項9〜15のいずれか1項に記載の装置。
  17. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信可能に接続されているメモリと、を備えており、
    前記メモリには前記少なくとも1つのプロセッサに実行され得る指令が記憶され、前記指令が前記少なくとも1つのプロセッサによって実行されると、請求項1〜8のいずれか1項に記載の方法が実行されることを特徴とする電子機器。
  18. コンピュータ指令が記憶されている非一時的なコンピュータ読取可能な記憶媒体であって、
    請求項1〜8のいずれか1項に記載の方法を前記コンピュータに実行させるように構成されることを特徴とする非一時的なコンピュータ読取可能な記憶媒体。
  19. プロセッサにより実行されると、請求項1〜8のいずれか1項に記載の方法を実現する、コンピュータプログラム。

JP2021032615A 2020-06-08 2021-03-02 画像生成方法および装置、電子機器、記憶媒体並びにコンピュータプログラム Active JP7308235B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010514466.9 2020-06-08
CN202010514466.9A CN111709470B (zh) 2020-06-08 2020-06-08 图像生成方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
JP2021193546A true JP2021193546A (ja) 2021-12-23
JP7308235B2 JP7308235B2 (ja) 2023-07-13

Family

ID=72539880

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021032615A Active JP7308235B2 (ja) 2020-06-08 2021-03-02 画像生成方法および装置、電子機器、記憶媒体並びにコンピュータプログラム

Country Status (5)

Country Link
US (1) US20210232932A1 (ja)
EP (1) EP3839824B1 (ja)
JP (1) JP7308235B2 (ja)
KR (1) KR20210152371A (ja)
CN (1) CN111709470B (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112613411B (zh) * 2020-12-25 2022-05-27 浙江大学 基于生成对抗网络的行人重识别数据集姿态数据增广方法
CN112836755B (zh) * 2021-02-05 2024-04-16 中国科学院深圳先进技术研究院 基于深度学习的样本图像生成方法及其系统
CN114140603B (zh) * 2021-12-08 2022-11-11 北京百度网讯科技有限公司 虚拟形象生成模型的训练方法和虚拟形象生成方法
CN114155366B (zh) * 2022-02-07 2022-05-20 北京每日优鲜电子商务有限公司 动态柜图像识别模型训练方法、装置、电子设备和介质
CN115170807B (zh) * 2022-09-05 2022-12-02 浙江大华技术股份有限公司 一种图像分割、模型训练方法、装置、设备及介质
CN116011084B (zh) * 2023-02-20 2023-11-28 中国建筑西南设计研究院有限公司 结构平面布置整体生成方法、装置、电子设备及存储介质
CN117218034A (zh) * 2023-10-09 2023-12-12 脉得智能科技(无锡)有限公司 一种图像增强方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273978A (zh) * 2017-05-25 2017-10-20 清华大学 一种三模型博弈的产生式对抗网络模型的建立方法及装置
JP2019207561A (ja) * 2018-05-29 2019-12-05 日鉄ソリューションズ株式会社 情報処理装置、情報処理方法及びプログラム
JP2020016935A (ja) * 2018-07-23 2020-01-30 日本電信電話株式会社 画像認識学習装置、画像認識装置、方法、及びプログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9262853B2 (en) * 2013-03-15 2016-02-16 Disney Enterprises, Inc. Virtual scene generation based on imagery
JP6325405B2 (ja) * 2014-09-22 2018-05-16 株式会社東芝 特徴点検出装置、方法及びプログラム
CN108388925A (zh) * 2018-03-06 2018-08-10 天津工业大学 基于新型条件对抗生成网络的抗模式崩溃鲁棒图像生成方法
CN108763874A (zh) * 2018-05-25 2018-11-06 南京大学 一种基于生成对抗网络的染色体分类方法及装置
US11087174B2 (en) * 2018-09-25 2021-08-10 Nec Corporation Deep group disentangled embedding and network weight generation for visual inspection
CN109871888A (zh) * 2019-01-30 2019-06-11 中国地质大学(武汉) 一种基于胶囊网络的图像生成方法及系统
CN109919252B (zh) * 2019-03-26 2020-09-01 中国科学技术大学 利用少数标注图像生成分类器的方法
CN110097103A (zh) * 2019-04-22 2019-08-06 西安电子科技大学 基于生成对抗网络的半监督图像分类方法
CN110503703B (zh) * 2019-08-27 2023-10-13 北京百度网讯科技有限公司 用于生成图像的方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273978A (zh) * 2017-05-25 2017-10-20 清华大学 一种三模型博弈的产生式对抗网络模型的建立方法及装置
JP2019207561A (ja) * 2018-05-29 2019-12-05 日鉄ソリューションズ株式会社 情報処理装置、情報処理方法及びプログラム
JP2020016935A (ja) * 2018-07-23 2020-01-30 日本電信電話株式会社 画像認識学習装置、画像認識装置、方法、及びプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MARIANI,GIOVANNI、他4名: "BAGAN: Data Augmentation with Balancing GAN", ARXIV, JPN6022013489, 5 June 2018 (2018-06-05), pages 1 - 9, ISSN: 0004937917 *
RADFORD,ALEC、他1名: "Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks", UNDER REVIEW AS A CONFERENCE PAPER AT ICLR 2016, JPN6022013488, 7 January 2016 (2016-01-07), pages 1 - 16, XP055786755, ISSN: 0004937916 *

Also Published As

Publication number Publication date
CN111709470B (zh) 2023-10-03
EP3839824B1 (en) 2023-11-08
US20210232932A1 (en) 2021-07-29
EP3839824A3 (en) 2021-10-06
JP7308235B2 (ja) 2023-07-13
KR20210152371A (ko) 2021-12-15
EP3839824A2 (en) 2021-06-23
CN111709470A (zh) 2020-09-25

Similar Documents

Publication Publication Date Title
JP2021193546A (ja) 画像生成方法および装置、電子機器、記憶媒体並びにコンピュータプログラム
JP7373554B2 (ja) クロスドメイン画像変換
US20230022550A1 (en) Image processing method, method for training image processing model devices and storage medium
CN109086683B (zh) 一种基于点云语义增强的人手姿态回归方法和系统
Yang et al. Swaptext: Image based texts transfer in scenes
US20210201161A1 (en) Method, apparatus, electronic device and readable storage medium for constructing key-point learning model
KR102566277B1 (ko) 이미지 편집 모델 구축 방법 및 장치
CN111741330A (zh) 一种视频内容评估方法、装置、存储介质及计算机设备
KR102487260B1 (ko) 이미지 처리 방법, 장치, 전자 기기 및 저장 매체
US11641446B2 (en) Method for video frame interpolation, and electronic device
CN116721334B (zh) 图像生成模型的训练方法、装置、设备及存储介质
JP7337172B2 (ja) 音声パケット推薦方法、装置、電子機器およびプログラム
CN111539897A (zh) 用于生成图像转换模型的方法和装置
KR20220014865A (ko) 비디오 이벤트 인식 방법, 장치, 전자 기기 및 기록 매체
US11836836B2 (en) Methods and apparatuses for generating model and generating 3D animation, devices and storage mediums
JP2023545052A (ja) 画像処理モデルの訓練方法及び装置、画像処理方法及び装置、電子機器並びにコンピュータプログラム
JP2022002093A (ja) 顔編集方法、装置、電子デバイス及び可読記憶媒体
US20220222878A1 (en) Method and system for providing visual text analytics
CN113362409B (zh) 图像上色及其模型训练方法、装置、电子设备、存储介质
JP2021190088A (ja) 画像翻訳方法及び装置、画像翻訳モデルのトレーニング方法及び装置
JP2021190085A (ja) 画像翻訳方法及び装置、画像翻訳モデルトレーニング方法及び装置
Wei et al. Semantic Consistency Reasoning for 3-D Object Detection in Point Clouds
Liu et al. Prediction with Visual Evidence: Sketch Classification Explanation via Stroke-Level Attributions
US20240135630A1 (en) Image synthesis using diffusion models created from single or multiple view images
Tang et al. DPStyler: Dynamic PromptStyler for Source-Free Domain Generalization

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210302

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210310

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220412

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220708

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220803

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230620

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230703

R150 Certificate of patent or registration of utility model

Ref document number: 7308235

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150