JP7429101B2 - 意味的情報に基づいてフォトリアリスティックな合成画像を生成するためのシステムおよび方法 - Google Patents

意味的情報に基づいてフォトリアリスティックな合成画像を生成するためのシステムおよび方法 Download PDF

Info

Publication number
JP7429101B2
JP7429101B2 JP2019120832A JP2019120832A JP7429101B2 JP 7429101 B2 JP7429101 B2 JP 7429101B2 JP 2019120832 A JP2019120832 A JP 2019120832A JP 2019120832 A JP2019120832 A JP 2019120832A JP 7429101 B2 JP7429101 B2 JP 7429101B2
Authority
JP
Japan
Prior art keywords
composite image
image
generating
user interface
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019120832A
Other languages
English (en)
Other versions
JP2020013563A (ja
Inventor
ラジャ・バーラ
スリチャラン・カルーア・パリ・クマール
マシュー・エイ・シュリーブ
Original Assignee
パロ アルト リサーチ センター インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パロ アルト リサーチ センター インコーポレイテッド filed Critical パロ アルト リサーチ センター インコーポレイテッド
Publication of JP2020013563A publication Critical patent/JP2020013563A/ja
Application granted granted Critical
Publication of JP7429101B2 publication Critical patent/JP7429101B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04845Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range for image manipulation, e.g. dragging, rotation, expansion or change of colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04847Interaction techniques to control parameter settings, e.g. interaction with sliders or dials
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/10Interfaces, programming languages or software development kits, e.g. for simulating neural networks
    • G06N3/105Shells for specifying net layout
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/143Segmentation; Edge detection involving probabilistic approaches, e.g. Markov random field [MRF] modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/35Determination of transform parameters for the alignment of images, i.e. image registration using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)

Description

本開示は、一般に、人工知能(AI)の分野に関する。より具体的には、本開示は、意味的情報を組み込む強化型敵対的生成ネットワーク(GAN)を使用して合成画像を生成するためのシステムおよび方法に関する。
例えば、ニューラルネットワークのような、AIベースの技術の指数関数的な成長は、それらを様々な用途で使用される合成データを生成するためのポピュラーな媒体にした。敵対的生成ネットワーク(GAN)は、非構造化データの生成モデルを学習するための新たな技術である。GANは、合成とはいえリアリスティックな画像などの、合成データを生成するためにポピュラーになってきた。そうするために、GANは、典型的には、ジェネレータニューラルネットワーク(これはジェネレータと呼ばれる)およびディスクリミネータニューラルネットワーク(これはディスクリミネータと呼ばれる)を含む。
ジェネレータは、出力として合成画像サンプルを作成することができる。ジェネレータは、これらの画像がリアルな画像であることをディスクリミネータに「納得させる」ことによって合成画像サンプルの品質を改善することを試み得る。ディスクリミネータは、リアルな画像サンプルを生成された合成画像サンプルと区別することを任されている。ディスクリミネータは、画像が全体としてリアルであるか否かを決定する。その結果、複数の反復を通じて、ジェネレータは、リアルな画像の統計的特性を組み込む合成画像を生成することを学習する。
しかし、GANは、非リアリスティックな画像表現を作成することによって失敗を示すことがよくある。GANは、意味的情報を組み込んでいない可能性があるので、GANによって生成された合成画像は、総体的に「リアリスティックな」画像を作成することができる(すなわち、リアルな画像の統計的特性を有することができる)が、画像の局所的な領域において現れ得る意味的に非リアリスティックな態様を有し得る。
GANは、合成画像生成に多くの望ましい特徴をもたらすが、意味的な不正確さに対処するためのいくつかの問題が未解決のままである。
本明細書に説明される実施形態は、意味的に正確な合成画像を生成するためのシステムを提供する。動作の間、本システムは、第1の人工知能(AI)モデルを使用して第1の合成画像を生成し、ユーザインターフェースにおいて第1の合成画像を提示する。ユーザインターフェースは、意味的に不規則な第1の合成画像の画像単位をユーザが識別することを可能にする。次に、本システムは、ユーザインターフェースを介してユーザから意味的に不規則な画像単位についての意味的情報を取得し、意味的情報に基づいて第2のAIモデルを使用して第2の合成画像を生成する。第2の合成画像は、第1の合成画像と比較して改善された画像であり得る。
この実施形態の変形では、本システムは、ユーザインターフェースのための強調表示ツールの選択を取得する。強調表示ツールによってマークされた領域は、ユーザインターフェースを介して選択可能であり得る。この強調表示ツールは、グリッドベースのセレクタ、多角形ベースのセレクタ、およびフリーハンドセレクタのうちの1つに対応することができる。強調表示ツールがグリッドベースのセレクタである場合、本システムは、強調表示ツールをユーザインターフェースから取得した粒度に設定する。
さらなる変形では、本システムは、ユーザインターフェース内の強調表示ツールによって選択された領域の選択を取得し、その領域に割り当てられた重みを取得する。
この実施形態の変形では、第1および第2のAIモデルが、敵対的生成ネットワーク(GAN)である。
この実施形態の変形では、第2のAIモデルが、空間確率マップを出力するディスクリミネータを含む。空間確率マップの各要素は、第2の合成画像の画像単位がリアリスティックである確率を示す。
さらなる変形では、第2のAIモデルが、対応する画像単位が第1の合成画像の意味的に不規則な画像単位とは異なるように第2の合成画像を出力するジェネレータを含む。
さらなる変形では、本システムは、取得された意味的情報に基づいて空間重みマスクを生成する。空間重みマスクは、第1の合成画像の各画像単位に割り当てられた重みを含む。次いで、ジェネレータおよびディスクリミネータは、空間重みマスクに基づいて意味的に不規則な画像単位を決定する。
この実施形態の変形では、画像単位が、不規則な形状の画素、画素ブロック、および画素群のうちの1つ以上に対応する。
この実施形態の変形では、第1および第2の合成画像を生成することには、ノイズベクトルを合成画像サンプルにマッピングすることが含まれる。
この実施形態の変形では、本システムは、第1のAIモデルを使用して第3の合成画像を生成し、不規則性検出技術に基づいて、第3の合成画像の意味的に不規則な画像単位についての意味的情報を自動的に取得する。次に、本システムは、自動的に取得された意味的情報に基づいて、第2のAIモデルを使用して第4の合成画像を生成する。
本出願の実施形態による、意味的情報を組み込む例示的な合成画像生成システムを示す。 本出願の実施形態による、意味的情報を組み込む合成画像生成システムの例示的な構成要素を示す。 本出願の実施形態による、意味的情報を合成画像生成に組み込むことを容易にする例示的な特殊ユーザインターフェースを示す。 本出願の実施形態による、合成画像の画像領域への重みの例示的な割り当てを示す。 本出願の実施形態による、意味的情報に基づいて合成画像を生成する合成画像生成システムの構成要素間の例示的なデータフローを示す。 本出願の実施形態による、1つ以上の中間合成画像を生成する合成画像生成システムの方法を示すフローチャートを提示する。 本出願の実施形態による、1つ以上の中間合成画像と関連付けられた意味的情報を取得する合成画像生成システムの方法を示すフローチャートを提示する。 本出願の実施形態による、意味的情報に基づいて1つ以上の最終合成画像を生成する合成画像生成システムの方法を示すフローチャートを提示する。 本出願の実施形態による、意味的情報を組み込むことによって合成画像を生成するためにGANを使用する合成画像生成システムの方法を示すフローチャートを提示する。 本出願の実施形態による、意味的情報に基づく合成画像生成を容易にする例示的なコンピュータシステムを示す。 本出願の実施形態による、意味的情報に基づいて合成画像生成を容易にする例示的な装置を示す。
本明細書に説明される実施形態は、敵対的生成ネットワーク(GAN)を使用してフォトリアリスティックな合成画像を生成するという問題を、(i)ユーザが、特殊ユーザインターフェースを使用して意味的情報を提供できるようにすること、および(ii)意味的情報を使用してフォトリアリスティックな合成画像を生成することによって解決する。生成された画像がフォトリアリスティック(例えば、本物の写真のようにリアリスティック)である場合、その画像は、例えば、新しいインテリア/産業デザイン、衣類およびアクセサリのための新しいデザイン、コンピュータビジョンアルゴリズムの訓練、ならびにコンピュータゲームおよびアニメーション内のシーンの作成の視覚化などの多くの用途に使用できる。
典型的には、GAN内のジェネレータは、反復における出力として一組の合成画像サンプルを生成する。ジェネレータは、複数の反復を通じて、これらの画像がリアルな画像であることをディスクリミネータに「納得させる」ことによって合成画像の品質を改善することを試み得る。次に、ディスクリミネータは、生成された合成画像サンプルを一組のリアルな画像サンプルと区別する。ディスクリミネータからのフィードバックに基づいて、ジェネレータは、リアルな画像サンプルの統計的特性に従うように合成画像サンプルを生成する。
既存の技術では、ディスクリミネータは、画像が全体としてリアルであるか否かを示す勾配情報のみを提供する。その結果、ジェネレータは、各反復における画像全体の統計的特性に基づいて合成画像を生成することを学習する。したがって、ジェネレータが、リアルな画像の特性に近い統計的特性(例えば、分布)を有する合成画像を生成することができる場合、ディスクリミネータは、その合成画像をリアルな画像としてマークすることができる。しかしながら、ジェネレータは、通常、画像全体の総体的な統計的特性に基づいて動作するので、ジェネレータは、画像の一部に意味的情報を組み込むことができない。言い換えれば、ジェネレータは、画像の一部を正確にモデル化することができない。例えば、顔をモデル化するとき、ジェネレータは、頬の対称性または鼻に対する目の配置などのような、意味論的な意味を持つ特徴をモデル化することができない。さらに、ジェネレータは、しわ、目の下の線など、きめの細かい特徴をモデル化できない可能性がある。
これらの問題を解決するために、本明細書に説明される実施形態は、意味的情報に基づいてフォトリアリスティックな合成画像を生成する効率的な合成画像生成システムを提供する。本システムは、一次GANを使用して、意味的および/またはきめの細かい不規則性を含み得る中間合成画像を生成する。一次GANのディスクリミネータは、収束後、もはや中間画像をジェネレータによって生成された合成画像として区別することができない。
次に、本システムは、二次GANを使用して、意味的情報に基づいて改善された合成画像を生成する。この二次GANでは、ディスクリミネータは、合成画像の領域を識別することができ、それは、画像をリアルな画像または合成画像として分類するという決定を結果としてもたらす。この決定は、画像の意味的情報に基づいて行うことができる。次に、二次GANのジェネレータは、そのサンプルが合成されたものとして分類されたことを導いた部分に関するディスクリミネータからの情報を使用し、ディスクリミネータによって識別された特定の部分を改善することに集中するようにその重みを修正する。
人間は、画像の一部がリアリスティックであるか否かを見分けることに特に熟達しているので、いくつかの実施形態では、本システムは、ユーザから意味的情報を取得する。本システムは、中間画像を特殊ユーザインターフェースにおいて提示することができる。このユーザインターフェースは、ユーザが、不規則性を含み得る中間画像の領域を識別することを可能にする。ユーザは、不規則な画像領域として選択され得る画像領域の粒度を設定することができる。この粒度は、大きな画像ブロックから個々の画素まで変動させることができる。例えば、その領域は、矩形ブロックに属することに限定されず、代わりに、意味的対象物(例えば、画像上の人間の耳または目)の境界によって定義されてもよい。このようにして、ユーザは、意味的情報(例えば、画像が実際にどのように見えるべきか)を本システムに提供することができる。
いくつかの実施形態では、ユーザは、選択された画像領域のそれぞれに対して、重みが意味的情報(例えば、その領域の意味的品質)を反映するように、重みを割り当てる。例えば、特定の画像領域が意味的に不正確である(例えば、リアルな写真のようには見えない)場合、ユーザは、その領域に高い重みを割り当てることができる。例えば、中間画像が人間の顔を描写する場合、ユーザは、ユーザインターフェースを使用し、右目と右下の頬が非リアリスティックであることを示すことができる。グリッドの粒度により、ユーザは、矩形区画ではなく、意味的な領域を選択することが可能となり得る。ユーザからのこの情報は、次に、ジェネレータによって使用され、不規則である特定の領域に集中することによって、より良い合成画像を作成することができる。
例示的なシステム
図1Aは、本出願の実施形態による、意味的情報を組み込む例示的な合成画像生成システムを示す。この例では、環境100は、フォトリアリスティックな画像を使用する1つ以上のアプリケーションをホストすることができるアプリケーションサーバ134を含む。そのようなアプリケーションには、新しいインテリア/産業デザイン、衣類およびアクセサリのための新しいデザイン、ならびにコンピュータゲームおよびアニメーションにおけるシーンの視覚化が含まれるが、これらに限定されない。環境100の画像生成サーバ132は、合成画像を生成し、その合成画像をアプリケーションサーバ134に提供することができる。いくつかの実施形態では、画像生成サーバ132は、ローカルエリアネットワークまたはワイドエリアネットワークに成り得るネットワーク130を介して、アプリケーションサーバ134と通信する。
画像生成サーバ132は、GAN112を使用して、合成画像を生成することができる。典型的には、GAN112内のジェネレータ111は、反復における出力として一組の合成画像サンプルを生成する。ジェネレータ111は、複数の反復を通じて、GAN112のディスクリミネータ113にこれらの画像がリアルな画像であると「納得させる」ことによって、合成画像の品質を改善することを試み得る。次に、ディスクリミネータ113は、生成された合成画像サンプルを一組のリアルな画像サンプル102と区別する。ジェネレータ111およびディスクリミネータ113はまた、一組のノイズベクトルを含み得る一組の入力データ104を使用することができる。ディスクリミネータ113からのフィードバックに基づいて、ジェネレータ111は、合成画像サンプルが、入力データ104に基づいてリアルな画像サンプル102の統計的特性に従うように、合成画像サンプルを生成する。
既存の技術では、ディスクリミネータ113は、画像が全体としてリアルであるか否かを示す勾配情報のみを提供する。結果として、ジェネレータ111は、各反復において画像全体の統計的特性に基づいて合成画像を生成することを学習するだけである。したがって、ジェネレータ111が、一組のリアルな画像サンプル102の特性に近い統計的特性(例えば、分布)を有する合成画像106を生成することができる場合、ディスクリミネータ113は、その画像106がリアルな画像であると決定するかもしれない。しかしながら、ジェネレータ111は通常、画像全体の総体的な統計的特性に基づいて動作するので、ジェネレータ111は、画像106の一部に意味的情報を組み込むことができない可能性がある。言い換えれば、ジェネレータ111は、画像106の一部を正確にモデル化することができない場合がある。例えば、画像106が顔を含む場合、ジェネレータ111は、頬の対称性または鼻に対する目の配置などの意味論的な意味を有する特徴をモデル化することができない可能性がある。さらに、ジェネレータ111は、しわ、目の下の線などのような、きめの細かい特徴をモデル化することができない可能性がある。
これらの問題を解決するために、合成画像生成システム110は、GAN116を使用し、意味的情報に基づいて合成画像108を生成することができる。サーバ132は、プロセッサ(例えば、汎用またはシステムプロセッサ)、メモリデバイス(例えば、デュアル・インライン・メモリ・モジュールまたはDIMM)、および記憶デバイス(例えば、ハードディスクドライブまたはソリッドステートドライブ(SSD))などのような、一組のシステムハードウェアを含むことができる。オペレーティングシステムおよびデバイスファームウェアなどのような、システムソフトウェアは、システムハードウェア上で実行することができる。システム110は、システムハードウェア内のハードウェアモジュール、システムハードウェア上で動作することができるソフトウェアシステム、またはその両方とすることができる。システム110は、合成画像106を中間合成画像と見なし、中間合成画像(または中間画像)106と関連付けられた意味的情報を使用し、意味的に正確な画像を生成することができる。
GAN116では、ディスクリミネータ117は、画像106の領域を識別することができ、それは、その画像をリアルな画像または合成画像として分類するという決定を結果としてもたらす。例えば、ディスクリミネータ117は、画像106の異なる領域に異なる重み(例えば、非リアリスティックな領域に高い重み)を割り当てることができる。この決定は、画像の意味的情報に基づいて行うことができる。次に、GAN116のジェネレータ115は、画像106を合成されたものとして分類することに導いた部分に関するディスクリミネータ117からの情報を使用し、ジェネレータ115がディスクリミネータ117によって識別された特定の部分の改善に集中するように重みを修正する。
人間は、画像の一部がリアリスティックであるかどうかを見分けることに特に熟達しているので、いくつかの実施形態では、システム110は、ユーザから意味的情報を取得する。システム110は、一次GANとしてGAN112を使用し、中間画像として画像106を使用することができる。システム110は、次に、画像106と関連付けられた意味的情報を使用して、フォトリアリスティックな合成画像を生成する。ディスクリミネータ113は、収束後、もはや画像106をジェネレータ111によって生成された合成画像として区別することはできない。システム110は、画像106と関連付けられた意味的情報を解析する意味解析モジュール114を備えることができる。システム110は、ユーザインターフェース120において画像106を提示することができる。このユーザインターフェース120は、ユーザが不規則性を含み得る画像106の領域を識別することを可能にする特殊ユーザインターフェースとすることができる。
ユーザは、ユーザインターフェース120において不規則な画像領域として選択され得る画像領域の粒度を設定することができる。この粒度は、大きな画像ブロックから個々の画素まで変動させることができる。例えば、ユーザは、顔の中の目が意味論的に意味をなす具合に配置されていないことを示すための画像領域162と、顔の中の頬が不規則な形状であることを示すための画像領域164とを定義し得るフィードバック160を提供することができる。言い換えれば、画像106において、ユーザは、右目および右下の頬が非リアリスティックであることを示すためにユーザインターフェース120を使用することができる。モジュール114は、画像領域162および164についての追加の情報(例えば、それらが意味的に不規則である理由)をユーザから取得することができる。
画像106における意味的な不規則性を回避することによって、ジェネレータ115は、より洗練された合成画像108を最終的に生成する。合成画像108は意味的な不規則性を含まないので、合成画像108は、アプリケーションサーバ134によって使用され得るフォトリアリスティックな画像とすることができる。いくつかの実施形態では、システム110は、合成画像108をアプリケーションサーバ134に提供する前に、ユーザからの承認を受けるためにユーザインターフェース120において合成画像108を表示することができる。システム110は、ローカルデバイス上(例えば、サーバ132の表示デバイス上)またはリモートデバイス上(例えば、サーバ134の表示デバイス上)にユーザインターフェース120を表示することができる。このようにして、システム110は、分散的に動作し、合成画像を生成し、同じデバイスからまたは異なるデバイスからユーザフィードバックを取得することができる。
図1Bは、本出願の実施形態による、意味的情報を組み込む合成画像生成システムの例示的な構成要素を示す。システム110は、合成画像を作成するためにジェネレータ111を操作することによって一組のパラメータを用いて、生成ニューラルネットワーク、ジェネレータ111を訓練する。これらの画像は、それらが、画像がリアルな画像であることをディスクリミネータニューラルネットワーク、ディスクリミネータ113に納得させることができるように生成されるべきである。ジェネレータ111の出力は1つの画像とすることができ、ディスクリミネータ113の出力は画像がリアルである確率とすることができる。ジェネレータ111が画像106を生成し、画像106がリアルな画像である確率が閾値より大きいことをディスクリミネータ113が示すと、システム110は、意味解析のために中間画像106を意味解析モジュール114に提供する。
そうするために、システム110は、次に、ユーザフィードバック160を取得することができる。いくつかの実施形態では、ユーザは、重み170が所与の領域の意味的な品質を反映するように、重み170(例えば、0~5の間の値)を選択された画像領域162および164に割り当てることによって、ユーザフィードバック160を提供する。例えば、中間画像106上の顔の中の目および頬が意味的に不正確である(例えば、リアルな写真のようには見えない)ので、ユーザは、画像領域162および164に高い重みを割り当てることができる。このようにして、重み170は、画像領域162および164のそれぞれがどれほど非リアリスティックであるかを定量化する画像領域162および164についての不規則性の重大度の尺度として使用することができる。重み170は、画像領域162および164内の各画素について異なる重みを含むことができる。
ユーザインターフェース120は、ユーザが画像領域162および164を選択することを可能にする強調表示グリッドを中間画像106上に与えることができる。グリッドの粒度が(例えば、画素レベルで)細かい場合、ユーザインターフェース120は、ユーザが、矩形区画ではなく、意味的な領域を選択することを可能にし得る。次いで、ユーザからのこの情報は、ジェネレータ115によって使用され得、不規則である特定の領域に集中することによって、より良い合成画像を作成することができる。
システム110は、GAN116を訓練することができ、それにおいて、ディスクリミネータ117は、ジェネレータ115によって生成された合成画像と同じ寸法の空間確率マップを出力する。この寸法は、画素または画素群(例えば、5×5画素のブロックまたは任意形状の連結画素群)などのような、画像単位に基づいて表現することができる。画像全体について単一の確率を出力するディスクリミネータ113とは異なり、ディスクリミネータ117は、それぞれが画像の特定の画像単位がリアリスティックであるかどうかを示す一組の確率を出力する。これにより、広域レベルではなく局所レベルで画像品質とリアリズムを促進させることができる。
さらに、重み170は、空間確率マップと同じ寸法の空間重みマスクとして使用(またはその空間重みマスクに変換)することができる。例えば、ユーザが画像領域162に対して重みを割り当てると、その重みは、画像領域162内の各画像単位に割り当てられる。同様に、画像領域164に対する重みは、画像領域162内の各画像単位に割り当てられる。ユーザは、画像領域の各画像単位に個々の重みを与え得ることに留意されたい。中間画像106の残りの画像単位には、デフォルトのより低い重み(または提供されている場合にはユーザが割り当てた重み)を割り当てることができる。
このようにして、空間重みマスクは、低品質または非リアリスティックな外観であるとして特に識別された中間画像106の部分を強調する。空間確率マップと空間重みマスクの組み合わせにより、GAN116が、(例えば、GAN112によって)意味的品質の低い領域において以前に生成された合成画像にあまりにも類似している新しい合成画像を生成することを妨げる。例えば、ディスクリミネータ117によって計算された空間確率の加重平均は、ジェネレータ115によって生成された合成画像がリアリスティックであるか否かを示すことができる。このように、GAN116の計算は、依然として扱いやすい(すなわち、多項式時間アルゴリズムによって解くことができる)。
特殊ユーザインターフェース
図2は、本出願の実施形態による、意味的情報を合成画像生成に組み込むことを容易にする例示的な特殊ユーザインターフェースを示す。ユーザインターフェース120は、意味的ユーザフィードバック160を取得するために中間画像106をユーザ200に提示することができる。ユーザインターフェース120は、タッチスクリーン、ポインティングデバイス、ジェスチャ検出デバイス、カメラ、およびキーボードのうちの1つ以上からユーザフィードバック160を取得することができる。ユーザインターフェース120は、ユーザ200が画像領域162および164を選択することを可能にする強調表示グリッド210を中間画像106上に与えることができる。ユーザ200は、粒度セレクタ220を使用してグリッド210の粒度を選択することができる。粒度セレクタ220の例は、チャネル内にスライダを有するトラックバー、ドロップダウンメニュー、およびテキストボックスを含むが、これらに限定されない。グリッド210の粒度は、画像単位を示す。言い換えれば、各グリッド要素の寸法は、画像単位を表すことができる。
例えば、ユーザ200は、画素レベルでグリッド210の粒度を選択することができる。次いで、画像単位は、中間画像106の画素となる。一方、ユーザ200が5×5の画素ブロックにおいてグリッド210の粒度を選択する場合、画像単位は、その画素ブロックになる。グリッドの粒度が(例えば、画素レベルにおいて)細かい場合、ユーザインターフェース120は、矩形区画ではなく、意味的な領域をユーザ200が選択することを可能にし得る。次に、ユーザ200からのこの情報は、図1AのGAN116によって使用され得、不規則である特定の領域に集中することによって、より良い合成画像を作成することができる。
いくつかの実施形態では、システム110は、各グリッドに重みを事前に割り当てることができる。ユーザ200は、対応する画像単位が意味的に不規則であるかどうかを示すために個々のグリッド要素を選択して強調表示することができる。ユーザ200は、タッチスクリーン、ポインティングデバイス、および/またはジェスチャを使用して、グリッド要素の上をクリックすることによって、そのグリッド要素を選択することができる。ユーザ200がグリッド要素を選択すると、そのグリッド要素は、ユーザインターフェース120上で(陰影領域として示される)強調表示になり得、強調表示されたままとすることができる。ユーザインターフェース120は、強調表示されたグリッド要素に対する重みを入力するためのテキストボックス230および対応するプロンプトを提示することができる。ユーザ200は、テキストボックスに重みを入力することができ、その重みは、次いで、強調表示されたグリッド要素ひいては、対応する画像単位に割り当てられる。いくつかの実施形態では、システム110は、各グリッド要素に重みを事前に割り当てることができる。ユーザ200がグリッド要素を選択して重みを割り当てると、その重みが、そのグリッド要素に事前に割り当てられた重みと置き換わる。
ユーザ200は、強調表示グリッド210のうちのいくつかのグリッド要素を選択して、画像領域162および164を定義することができる。ここで、画像領域162は、顔の中の目が意味論的に意味をなす具合に配置されていないことを示し得、画像領域164は、顔の中の頬が不規則な形状であることを示し得る。言い換えれば、中間画像106において、ユーザ200は、強調表示グリッド210を使用して、右目および右下の頬が非リアリスティックであることを示し得る。特定のグリッド要素が一旦選択されると、そのグリッド要素は、強調表示されたままとすることができる。ユーザ200は、選択されたグリッド要素をクリックし、そのグリッド要素を選択解除してもよい。グリッド要素が選択解除される場合、システム110は、デフォルトの重みをそのグリッド要素に再び割り当ててもよい。ユーザインターフェース120はまた、ユーザ200が対象領域の非矩形領域(例えば、多角形)およびフリーハンドマークアップを選択することを可能にし得る。図2の例では、ユーザ200は、顔の右目を選択するために多角形状の領域252を選択し、右頬を選択するためにフリーハンドまたは不規則な形状の領域254を選択することができる。次いで、個々のグリッドを選択する代わりに、ユーザ200は、領域(例えば、領域252または254)全体を選択し、重みをその領域に割り当てることができる。
ユーザインターフェース120は、強調表示ツールセレクタ225(例えば、ドロップダウンメニュー)を使用して、ユーザ200が強調表示ツールの種類を選択することを可能にし得る。強調表示ツールの例には、強調表示グリッド、多角形ツール(例えば、ユーザ200が多角形を使用して領域252を選択することを可能にする)、およびフリーハンドツール(例えば、ユーザ200がタッチまたはポインティングデバイスを使用して領域254を選択することを可能にする)が含まれるが、そられに限定されない。ユーザインターフェース120はまた、強調表示グリッドおよび多角形ツールのために異なる形状(例えば、円形および六角形)を提供することができる。ユーザ200が1つのグリッド要素を選択して重みを与える場合、システム110は、その重みをローカル記憶デバイスに記憶する。異なるグリッド要素の選択および/または画像の送信は、記憶を始動させ得る。ユーザインターフェース120はまた、ユーザ200が画像106に対するユーザフィードバック160を送信することを可能にする「送信」ボタン240を含むこともできる。システム110のGAN112がより多くの合成画像を生成した場合、ユーザインターフェース120は、それらの画像から次の画像を表示することができる。このようにして、ユーザインターフェース120は、合成画像を表示し、対応するユーザフィードバックを取得し続ける。システム110は、1つ以上の選択方針に基づいて、ユーザインターフェース120内でユーザ200に提示するための画像を選択することができる。例えば、システム110は、閾値を下回るディスクリミネータスコアを有する各合成画像をユーザインターフェース120内で提示することができる。ここで、ディスクリミネータスコアは、合成画像がリアルである確率を示すことができる。システム110はまた、提示のために画像をランダムに選択することができる。
図3は、本出願の実施形態による、合成画像の画像領域への重みの例示的な割り当てを示す。この例では、グリッド要素の重みは、陰影矢印で表されている。各矢印の長さは、重みの値を示し得る。例えば、ユーザ200は、グリッド要素314が画像106に描かれている顔の不規則な形状の頬の大部分を表していると判断し、高い値を持つ重み304を割り当てることができる。一方、ユーザ200は、グリッド要素312が頬の小さな部分を表しており、グリッド要素の大部分が正しいと判断する可能性がある。次いで、ユーザ200は、比較的低い値を持つ重み302を割り当てることができる。
同様に、中間画像106の不規則に配置された目の意味的な不規則性のレベルに基づいて、ユーザ200は、目を表す異なるグリッド要素に異なる重み306および208を割り当ててもよい。ユーザ200がグリッド要素を選択しない場合、システム110は、そのグリッド要素にデフォルトの重みを割り当てることができる。例えば、グリッド要素320が、意味論的に意味をなしかつ正確である顔の一部を表すので、ユーザ200は、ユーザフィードバック160を提供している間にグリッド要素320を選択しなくてもよい。システム110は、デフォルトの重み310をグリッド要素320に、また、ユーザ200が重みを与えていない他の全てのグリッド要素に割り当てることができる。
意味的情報を使用する合成画像生成
図4は、本出願の実施形態による、意味的情報に基づいて合成画像を生成する合成画像生成システムの構成要素間の例示的なデータフローを示す。システム110は、合成画像を生成するために一次GAN112を使用する。GAN112は、ジェネレータ111およびディスクリミネータ113を含むことができる。システム110は、合成画像がリアルであるというΦによってパラメータ化される、ディスクリミネータ113、ディスクリミネータニューラルネットワークD’Φを納得させることができる合成画像を作成するためにジェネレータ111を操作することによって、パラメータθを用いて、ジェネレータ111、生成ニューラルネットワークG’θを訓練することができる。ジェネレータ111およびディスクリミネータ113は、競合する目標を持って、それぞれ、損失関数L’およびL’を最小化することを目指している。
ディスクリミネータ113は、一組の画像サンプル102(すなわち、リアルな画像)を使用して訓練され得る。ジェネレータ111は、一組の入力データ104を使用することもでき、これは一組のノイズベクトルを含み得る。ノイズベクトルは、ジェネレータ111が学習する一組の画像(または他の任意の情報)とすることができる。次いで、ジェネレータ111は、一組の合成画像サンプル420を生成するために、学習されたノイズベクトル特性を画像サンプル102に適用することができる。Xが、一組の画像サンプル102であり、zが、入力データ104における一組の対応するノイズベクトルであると仮定する。ここで、iは、一組の画像サンプル102および一組の対応するノイズベクトルに対する添え字とすることができる。合成画像サンプル420は、次いで、G’θ(z)によって示すことができる。GAN112は、損失関数L’およびL’を最小化することによって、G’θ(z)を生成する。
最小化される損失関数は以下となり得る。
式中、G’θ()の出力は、画像であり、D’Φ()の出力は、画像がリアルである確率(例えば、0~1の間の確率値)である。損失関数を最小化することによって、ジェネレータ111は、D’Φ(G’θ(z))が高い確率をもたらすことを保証することにより、その出力を改善することができる。このように、ディスクリミネータ113は、画像サンプル102を生成した合成画像サンプル420と区別することができない可能性がある。
しかしながら、中間画像106を含む合成画像サンプル420は、意味的な不規則性を含むことができる。例えば、顔をモデル化するとき、ジェネレータ111は、しわ、目の下の線などのような、きめの細かい特徴をモデル化することができない可能性がある。システム110は、合成画像サンプル420をユーザインターフェース120においてユーザ200に提示する。ユーザ200は、合成画像サンプル420の各画像において、意味的な不規則性を有する画像領域を識別することができる。ユーザ200は、識別された画像領域に重みを割り当てることによって、ユーザインターフェース120を介してユーザフィードバック160を提供することができる。システム110はまた、重みを取得するために画像品質または自然さの自動決定を容易にし得る意味解析技術を配備することができる。
システム110は、ユーザ200(または意味解析技術)からのフィードバックを組み込む二次GAN116を使用する。GAN116は、入力として、合成画像サンプル420、G’θ(z)を使用する。GAN116は、パラメータθを用いるジェネレータ115、生成ニューラルネットワークGθと、Φによってパラメータ化されるディスクリミネータ117、ディスクリミネータニューラルネットワークDΦを含む。ディスクリミネータ117(DΦ())は、ジェネレータ115により生成された合成画像と同じ寸法の空間的確率マップを出力する。この寸法は、画像単位に基づいて表現され得る。空間確率マップは、一組の確率を含み、それぞれが、画像の特定の画像単位がリアリスティックであるかどうかを示す。これにより、意味的な画像品質およびリアリズムを広域レベルではなく局所レベルで促進させることができる。ディスクリミネータ117は、G’θ(z)において各画像に対して1つのこのような空間確率マップを生成し、一組の空間確率マップ410を形成する。
さらには、ユーザ200によって与えられる重みは、空間確率マップと同じ寸法の、空間重みマスク、w、を生成するために使用することができる。G’θ(z)における各画像は、このような空間重みマスクと関連付けられ、一組の空間重みマスク412を形成する。wは、意味的に不規則としてユーザ200によって識別された画像領域を強調する。ジェネレータ115とディスクリミネータ117は、競合する目標を持っており、それぞれ、損失関数LおよびLを最小化することを目指している。
GAN116は、損失関数LおよびLを最小化することにより、一組の合成画像サンプル430、Gθ(z)、を生成する。これは、ノイズベクトルを合成画像サンプル420にマッピングすることを含み得る。最小化される損失関数は以下となり得る。
式中、E{}は、特定の合成画像Gθ(z)についての一組の画像単位にわたる期待値(すなわち、平均値)を示す。L(DΦ,Gθ)における項
は、合成画像サンプル430が、意味的に不規則である画像領域内の合成画像サンプル420にあまりにも類似することを妨げる。
このようにして、GAN116は、フォトリアリスティックな合成画像サンプル430を生成することができる。そのようなフォトリアリスティックな合成画像は、コンピュータビジョンシステムを訓練するためのデータ拡張および所望の属性によって特徴付けられる画像の視覚化を含む、様々な用途に使用することができる。GAN116により、システム110は、画像などの非構造化データについて非常に正確かつ視覚的にリアリスティックな生成モデルを学習することが可能になる。GAN116はまた、非構造化データについてのより良い分類子および視覚化モジュールを作成するために使用され得る。
動作
図5Aは、本出願の実施形態による、1つ以上の中間合成画像を生成する合成画像生成システムの方法を示すフローチャート500を提示する。訓練動作の間、本システムは、一組のリアルな訓練画像サンプルおよび対応する入力データを取得する(動作502)。入力データは、ノイズベクトルを含み得る。本システムは、一次GANのジェネレータおよびディスクリミネータの競合する目標を最小化するように取得されたデータに対して一次GANを訓練する(動作504)。次に、本システムは、ジェネレータによって生成され、かつディスクリミネータによって承認される1つ以上の中間合成画像を取り出す(動作506)。合成画像に対する承認は、その画像がどれほどリアリスティックであるかを示す確率に基づくことができる。確率が閾値よりも大きい場合、ディスクリミネータは、画像を承認することができる。本システムは、次に、ローカルまたはリモートコンピューティングシステムのユーザインターフェースにおいて1つ以上の中間合成画像を提示する(動作508)。
図5Bは、本出願の実施形態による、1つ以上の中間合成画像と関連付けられた意味的情報を取得する合成画像生成システムの方法を示すフローチャート530を提示する。動作の間、本システムは、ユーザからの意味的情報を組み込むことができる特殊ユーザインターフェースに成り得るユーザインターフェースにおいて、一次GANによって生成される中間画像と見なすことができる合成画像を提示する(動作532)。本システムは、次に、ユーザインターフェースを介してユーザから強調表示グリッドの粒度を取得する(動作534)。次いで、本システムは、各グリッド要素がユーザによって選択可能であり得るように、ユーザインターフェース内の中間画像上に強調表示グリッドを重ね合わせる(動作536)。
次に、本システムは、ユーザによるグリッド要素の選択を決定し、そのグリッド要素に対して、デフォルトの重みとすることができる現在の重みを提供する(動作538)。ユーザが重みを更新した場合、本システムは、任意選択的に、選択されたグリッド要素に対して更新された重みを受信して記憶することができる(動作540)。次いで、本システムは、ユーザが中間画像について、意味的情報を含むフィードバックを送信したかどうかを決定する(動作542)。ユーザがフィードバックを送信していない場合、本システムは、ユーザによるグリッド要素の選択を決定し続ける(動作538)。ユーザがフィードバックを送信した場合、本システムは、各グリッド要素のグリッド粒度および重みをローカル記憶デバイスに記憶する(動作544)。本システムは、次に、ジェネレータによって生成された一組の中間画像内の全ての画像がユーザによって解析されたかどうかを決定する(動作546)。全ての画像が解析されていない場合、本システムは、ユーザインターフェース内に次の合成画像を提示し続ける(動作532)。
全ての画像が解析されると、本システムは、ユーザから意味的情報を取得することを完了したことになる。図5Cは、本出願の実施形態による、意味的情報に基づいて1つ以上の改善された合成画像を生成する合成画像生成システムの方法を示すフローチャート550を提示する。動作の間、本システムは、一組のリアルな訓練画像サンプル、対応する入力データ、および中間画像用の一組の空間重みマスクを取得し(動作552)、その一組の空間重みマスクを中間画像に適用する(動作554)。本システムは、二次GANのジェネレータおよびディスクリミネータの競合する目標を最小化するように重み付けられたデータに二次GANを適用する(動作556)。次いで、本システムは、ジェネレータによって生成され、かつディスクリミネータによって承認される1つ以上の改善された合成画像を取り出す(動作558)。次いで、本システムは、ローカルまたはリモートコンピューティングシステムのユーザインターフェースにおいて1つ以上の最終合成画像を提示する(動作560)。
図6は、本出願の実施形態による、意味的情報を組み込むことによって合成画像を生成するためにGANを使用する合成画像生成システムの方法を示すフローチャート600を提示する。動作の間、本システムは、GANによって生成された各合成画像のための空間確率マップ(動作602)、およびその合成画像と関連付けられた各グリッド要素の重みに基づく空間重みマスク(動作604)を決定する。次いで、本システムは、空間確率マップの各点で評価することによって、GANのディスクリミネータの目標を最小化し、全ての評価にわたって期待値を計算する(動作606)。
本システムはまた、異なるGANによって生成され得る、空間確立マップの各点での評価および対応する中間画像に関しての空間重みマスクによって、GANのジェネレータの目標を最小化し、全ての評価にわたって期待値を計算する(動作608)。本システムは、GANが収束したかどうかをチェックする(動作610)。ディスクリミネータが合成画像をリアルな画像と区別しない場合、GANは収束し得る。GANが収束していない場合、本システムは、GANによって生成された各合成画像について空間確率マップを決定し続ける(動作602)。GANが収束した場合、本システムは、合成画像をGANによって生成された最終画像として提示する(動作612)。
例示的なコンピュータシステムおよび装置
図7は、本出願の実施形態による、意味的情報に基づいて合成画像生成を容易にする例示的なコンピュータシステムを示す。コンピュータシステム700は、プロセッサ702、メモリデバイス704、および記憶デバイス708を含む。メモリデバイス704は、揮発性メモリデバイス(例えば、デュアル・インライン・メモリ・モジュール(DIMM))を含むことができる。さらに、コンピュータシステム700は、表示デバイス710、キーボード712、およびポインティングデバイス714に連結され得る。記憶デバイス708は、オペレーティングシステム716、合成画像生成システム718、およびデータ736を記憶することができる。合成画像生成システム718は、一次GAN112、意味解析モジュール114、および二次GAN116のうちの1つ以上の動作を組み込むことができる。
合成画像生成システム718は、命令であって、コンピュータシステム700によって実行されるとき、コンピュータシステム700に本開示に説明されている方法および/またはプロセスを実行させ得る命令を含むことができる。具体的には、合成画像生成システム718は、中間合成画像を生成するための命令(初期画像生成モジュール720)を含むことができる。合成画像生成システム718はまた、ユーザが中間合成画像について意味的フィードバックを提供することを可能にする特殊ユーザインターフェースを動作させるための命令(ユーザインターフェースモジュール722)を含むこともできる。さらに、合成画像生成システム718は、ユーザインターフェースを介して意味的フィードバック(例えば、画像単位について割り当てられた重み)を取得するための命令(意味的フィードバックモジュール724)を含む。
さらに、合成画像生成システム718は、中間合成画像に対する意味的フィードバックを自動的に生成するための命令(意味的フィードバックモジュール724)を含む。合成画像生成システム718はまた、最終合成画像を生成するための命令(二次画像生成モジュール726)を含むことができる。合成画像生成システム718は、メッセージを送受信するための命令(通信モジュール728)をさらに含んでもよい。データ736は、一次GAN112、意味解析モジュール114、および二次GAN116のうちの1つ以上の動作を容易にすることができる任意のデータを含むことができる。データ736は、リアルな画像サンプル、ノイズベクトル、中間合成画像、グリッド粒度情報、各グリッド要素に割り当てられた重みおよび対応する空間重みマスク、空間確率マップ、ならびに最終合成画像のうちの1つ以上を含み得る。
図8は、本出願の実施形態による、意味的情報に基づいて合成画像生成を容易にする例示的な装置を示す。合成画像生成装置800は、有線、無線、量子光、または電気通信チャネルを介して互いに通信し得る複数のユニットまたは装置を備えることができる。装置800は、1つ以上の集積回路を使用して実現されてもよく、図8に示されるものよりも少ないかまたは多いユニットまたは装置を含んでもよい。さらに、装置800は、コンピュータシステムに集積されてもよく、または他のコンピュータシステムおよび/またはデバイスと通信することができる別個のデバイスとして実現されてもよい。具体的には、装置800は、一次画像ユニット802、ユーザインターフェースユニット804、意味的フィードバックユニット806、二次画像ユニット808、および通信ユニット810を含む、図7のコンピュータシステム700のモジュール720~728と同様の機能または動作を実行するユニット802~810を備えることができる。
この詳細な説明に記載されているデータ構造およびコードは、コンピュータシステムによる使用のためのコードおよび/またはデータを記憶することができる任意のデバイスまたは媒体であり得る、コンピュータ可読記憶媒体上に通常記憶されている。コンピュータ可読記憶媒体は、揮発性メモリ、不揮発性メモリ、例えば、ディスク、磁気テープ、CD(コンパクトディスク)、DVD(デジタルバーサタイルディスクまたはデジタルビデオディスク)などの磁気および光記憶デバイス、あるいは既知のまたは今後開発されるコンピュータ可読媒体を記憶することができる他の媒体を含むが、それらに限定されない。
詳細な説明の項に記載されている方法およびプロセスは、上記のようなコンピュータ可読記憶媒体に記憶され得る、コードおよび/またはデータとして具体化され得る。コンピュータシステムが、コンピュータ可読記憶媒体上に記憶されているコードおよび/またはデータを読み取り、実行すると、コンピュータシステムは、データ構造およびコードとして具体化され、かつコンピュータ可読記憶媒体内に記憶されている方法およびプロセスを行う。
さらに、上記の方法およびプロセスは、ハードウェアモジュールに含まれ得る。例えば、ハードウェアモジュールは、特定用途向け集積回路(ASIC)チップ、フィールドプログラマブルゲートアレイ(FPGA)、および既知のまたは今後開発される他のプログラマブルロジックデバイスを含むことができるが、それらに限定されない。ハードウェアモジュールが起動されると、ハードウェアモジュールは、ハードウェアモジュール内に含まれる方法およびプロセスを実行する。

Claims (20)

  1. 意味的に正確な合成画像を生成するための方法であって、
    第1の人工知能(AI)モデルを使用して第1の合成画像を生成することと、
    ユーザインターフェースにおいて前記第1の合成画像を提示することであって、前記ユーザインターフェースが、意味的に不規則な前記第1の合成画像のグリッド要素をユーザが識別することを可能にする、提示することと、
    前記ユーザインターフェースを介して前記ユーザから前記意味的に不規則なグリッド要素についての意味的情報を取得することと、
    前記意味的情報に基づいて第2のAIモデルを使用して第2の合成画像を生成することであって、前記第2の合成画像が、前記第1の合成画像と比較して改善された画像である、生成することと、を含む、方法。
  2. 前記ユーザインターフェースのための強調表示ツールの選択を取得することであって、前記強調表示ツールによってマークされ領域が、前記ユーザインターフェースを介して選択可能であり、前記強調表示ツールが、グリッドベースのセレクタ、多角形ベースのセレクタ、および、フリーハンドセレクタのうちの1つに対応する、取得することと、
    前記強調表示ツールが前記グリッドベースのセレクタであることに応答して、前記強調表示ツールを取得された粒度に設定することと、をさらに含む、請求項1に記載の方法。
  3. 前記ユーザインターフェース内の前記強調表示ツールによって選択された領域の選択を取得することと、
    前記領域に割り当てられた重みを取得することと、をさらに含む、請求項2に記載の方法。
  4. 前記第1のAIモデルおよび前記第2のAIモデルが、敵対的生成ネットワーク(GAN)である、請求項1に記載の方法。
  5. 前記第2のAIモデルが、空間確率マップを出力するディスクリミネータを含み、前記空間確率マップの各要素は、前記第2の合成画像のグリッド要素がリアリスティックである確率を示す、請求項1に記載の方法。
  6. 前記第2のAIモデルが、対応するグリッド要素が前記第1の合成画像の前記意味的に不規則なグリッド要素とは異なるように前記第2の合成画像を出力するジェネレータを含む、請求項5に記載の方法。
  7. 前記取得された意味的情報に基づいて空間重みマスクを生成することをさらに含み、前記空間重みマスクが、前記第1の合成画像の各グリッド要素に割り当てられた重みを含み、前記ジェネレータおよび前記ディスクリミネータが、前記空間重みマスクに基づいて前記意味的に不規則なグリッド要素を決定する、請求項6に記載の方法。
  8. グリッド要素が、不規則な形状を示す画素、画素ブロック、および画素群のうちの1つ以上に対応する、請求項1に記載の方法。
  9. 前記第1の合成画像および前記第2の合成画像を生成することが、ノイズベクトルを合成画像サンプルにマッピングすることを含む、請求項1に記載の方法。
  10. 前記第1のAIモデルを使用して第3の合成画像を生成することと、
    不規則性検出技術に基づいて、前記第3の合成画像の意味的に不規則なグリッド要素についての意味的情報を自動的に取得することと、
    前記自動的に取得された意味的情報に基づいて、前記第2のAIモデルを使用して第4の合成画像を生成することと、を含む、請求項1に記載の方法。
  11. コンピュータによって実行されるとき、前記コンピュータに、意味的に正確な合成画像を生成するための方法を実行させる命令を記憶する非一時的なコンピュータ可読記憶媒体であって、前記方法が、
    第1の人工知能(AI)モデルを使用して第1の合成画像を生成することと、
    ユーザインターフェースにおいて前記第1の合成画像を提示することであって、前記ユーザインターフェースが、意味的に不規則な前記第1の合成画像のグリッド要素をユーザが識別することを可能にする、提示することと、
    前記ユーザインターフェースを介して前記ユーザから前記意味的に不規則なグリッド要素についての意味的情報を取得することと、
    前記意味的情報に基づいて第2のAIモデルを使用して第2の合成画像を生成することであって、前記第2の合成画像が、前記第1の合成画像と比較して改善された画像である、生成することと、を含む、非一時的なコンピュータ可読記憶媒体。
  12. 前記方法が、
    前記ユーザインターフェースのための強調表示ツールの選択を取得することであって、前記強調表示ツールによってマークされ領域が、前記ユーザインターフェースを介して選択可能であり、前記強調表示ツールが、グリッドベースのセレクタ、多角形ベースのセレクタ、およびフリーハンドセレクタのうちの1つに対応する、取得することと、
    前記強調表示ツールが前記グリッドベースのセレクタであることに応答して、前記強調表示ツールを取得された粒度に設定することと、をさらに含む、請求項11に記載のコンピュータ可読記憶媒体。
  13. 前記方法が、
    前記ユーザインターフェース内の前記強調表示ツールによって選択された領域の選択を取得することと、
    前記領域に割り当てられた重みを取得することと、をさらに含む、請求項12に記載のコンピュータ可読記憶媒体。
  14. 前記第1のAIモデルおよび前記第2のAIモデルが、敵対的生成ネットワーク(GAN)である、請求項11に記載のコンピュータ可読記憶媒体。
  15. 前記第2のAIモデルが、空間確率マップを出力するディスクリミネータを含み、前記空間確率マップの各要素が、前記第2の合成画像のグリッド要素がリアリスティックである確率を示す、請求項11に記載のコンピュータ可読記憶媒体。
  16. 前記第2のAIモデルが、対応するグリッド要素が前記第1の合成画像の前記意味的に不規則なグリッド要素とは異なるように前記第2の合成画像を出力するジェネレータを含む、請求項15に記載のコンピュータ可読記憶媒体。
  17. 前記方法が、前記取得された意味的情報に基づいて空間重みマスクを生成することをさらに含み、前記空間重みマスクが、前記第1の合成画像の各グリッド要素に割り当てられた重みを含み、前記ジェネレータおよび前記ディスクリミネータが、前記空間重みマスクに基づいて前記意味的に不規則なグリッド要素を決定する、請求項16に記載のコンピュータ可読記憶媒体。
  18. グリッド要素が、不規則な形状を示す画素、画素ブロック、および画素群のうちの1つ以上に対応する、請求項11に記載のコンピュータ可読記憶媒体。
  19. 前記第1の合成画像および前記第2の合成画像を生成することが、ノイズベクトルを合成画像サンプルにマッピングすることを含む、請求項11に記載のコンピュータ可読記憶媒体。
  20. 前記方法が、
    前記第1のAIモデルを使用して第3の合成画像を生成することと、
    不規則性検出技術に基づいて、前記第3の合成画像の意味的に不規則なグリッド要素についての意味的情報を自動的に取得することと、
    前記自動的に取得された意味的情報に基づいて、前記第2のAIモデルを使用して第4の合成画像を生成することと、をさらに含む、請求項11に記載のコンピュータ可読記憶媒体。
JP2019120832A 2018-07-19 2019-06-28 意味的情報に基づいてフォトリアリスティックな合成画像を生成するためのシステムおよび方法 Active JP7429101B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/040,220 2018-07-19
US16/040,220 US11537277B2 (en) 2018-07-19 2018-07-19 System and method for generating photorealistic synthetic images based on semantic information

Publications (2)

Publication Number Publication Date
JP2020013563A JP2020013563A (ja) 2020-01-23
JP7429101B2 true JP7429101B2 (ja) 2024-02-07

Family

ID=67352494

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019120832A Active JP7429101B2 (ja) 2018-07-19 2019-06-28 意味的情報に基づいてフォトリアリスティックな合成画像を生成するためのシステムおよび方法

Country Status (3)

Country Link
US (2) US11537277B2 (ja)
EP (1) EP3598288A1 (ja)
JP (1) JP7429101B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11537277B2 (en) * 2018-07-19 2022-12-27 Palo Alto Research Center Incorporated System and method for generating photorealistic synthetic images based on semantic information
EP3867722A4 (en) 2018-10-17 2022-08-03 Cognata Ltd. SYSTEM AND METHOD FOR GENERATION OF REALISTIC SIMULATION DATA FOR TRAINING AN AUTONOMOUS DRIVER
US10825148B2 (en) * 2018-11-29 2020-11-03 Adobe Inc. Boundary-aware object removal and content fill
US11580673B1 (en) * 2019-06-04 2023-02-14 Duke University Methods, systems, and computer readable media for mask embedding for realistic high-resolution image synthesis
US20210065033A1 (en) * 2019-08-21 2021-03-04 Tata Consultancy Services Limited Synthetic data generation using bayesian models and machine learning techniques
US10977783B1 (en) * 2019-10-15 2021-04-13 Ford Global Technologies, Llc Quantifying photorealism in simulated data with GANs
WO2021220343A1 (ja) * 2020-04-27 2021-11-04 日本電気株式会社 データ生成装置、データ生成方法、学習装置及び記録媒体
JP2022032133A (ja) * 2020-08-11 2022-02-25 オムロン株式会社 画像処理装置および画像処理方法
CN113591917B (zh) * 2021-06-29 2024-04-09 深圳市捷顺科技实业股份有限公司 一种数据增强的方法及装置
US11972333B1 (en) * 2023-06-28 2024-04-30 Intuit Inc. Supervisory systems for generative artificial intelligence models

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11120337B2 (en) * 2017-10-20 2021-09-14 Huawei Technologies Co., Ltd. Self-training method and system for semi-supervised learning with generative adversarial networks
US11281976B2 (en) * 2018-07-12 2022-03-22 International Business Machines Corporation Generative adversarial network based modeling of text for natural language processing
US11481416B2 (en) * 2018-07-12 2022-10-25 International Business Machines Corporation Question Answering using trained generative adversarial network based modeling of text
US11537277B2 (en) * 2018-07-19 2022-12-27 Palo Alto Research Center Incorporated System and method for generating photorealistic synthetic images based on semantic information

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Chao Wang et al.,Discriminative Region Proposal Adversarial Networks for High-Quality Image-to-Image Translation,ARXIV.ORG, CORNELL UNIVERSITY LIBRARY,2017年11月27日

Also Published As

Publication number Publication date
US20230090801A1 (en) 2023-03-23
US20200026416A1 (en) 2020-01-23
EP3598288A1 (en) 2020-01-22
US11537277B2 (en) 2022-12-27
US11983394B2 (en) 2024-05-14
JP2020013563A (ja) 2020-01-23

Similar Documents

Publication Publication Date Title
JP7429101B2 (ja) 意味的情報に基づいてフォトリアリスティックな合成画像を生成するためのシステムおよび方法
JP6441980B2 (ja) 教師画像を生成する方法、コンピュータおよびプログラム
EP3686848A1 (en) Semantic image synthesis for generating substantially photorealistic images using neural networks
JP6182242B1 (ja) データのラベリングモデルに係る機械学習方法、コンピュータおよびプログラム
TW202046158A (zh) 語意融合
CN110637308A (zh) 用于虚拟化环境中的自学习代理的预训练系统
CN115769234A (zh) 基于模板从2d图像生成3d对象网格
US11068746B2 (en) Image realism predictor
KR20210030063A (ko) 준지도 학습을 기반으로 한 이미지 분류를 위한 적대적 이미지 생성 모델 구축 시스템 및 방법
WO2021144943A1 (ja) 制御方法、情報処理装置および制御プログラム
JP6978104B2 (ja) Ganを用いて仮想世界における仮想データから取得したトレーニングデータを生成して、自律走行用ニューラルネットワークの学習プロセスに必要なアノテーションコストを削減する学習方法や学習装置、それを利用したテスト方法やテスト装置
CN109919252A (zh) 利用少数标注图像生成分类器的方法
US20220156987A1 (en) Adaptive convolutions in neural networks
CN108109212A (zh) 一种文物修复方法、装置及系统
US20200334862A1 (en) Moving image generation apparatus, moving image generation method, and non-transitory recording medium
WO2016095068A1 (en) Pedestrian detection apparatus and method
CN112242002B (zh) 基于深度学习的物体识别和全景漫游方法
CN110782448A (zh) 渲染图像的评价方法及装置
JP7298825B2 (ja) 学習支援装置、学習装置、学習支援方法及び学習支援プログラム
KR102154425B1 (ko) 인공지능 학습을 위한 유사데이터 생성 방법 및 장치
JP7073171B2 (ja) 学習装置、学習方法及びプログラム
CN114373034A (zh) 图像处理方法、装置、设备、存储介质及计算机程序
JP7148078B2 (ja) 属性推定装置、属性推定方法、属性推定器学習装置、及びプログラム
CN113536991B (zh) 训练集生成、人脸图像处理方法、装置及电子设备
Jaszcz et al. Human-AI collaboration to increase the perception of VR

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20190709

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190710

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220628

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230710

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230713

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231013

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231227

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240126

R150 Certificate of patent or registration of utility model

Ref document number: 7429101

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150