JP7429101B2

JP7429101B2 - 意味的情報に基づいてフォトリアリスティックな合成画像を生成するためのシステムおよび方法

Info

Publication number: JP7429101B2
Application number: JP2019120832A
Authority: JP
Inventors: ラジャ・バーラ; スリチャラン・カルーア・パリ・クマール; マシュー・エイ・シュリーブ
Original assignee: パロアルトリサーチセンターインコーポレイテッド
Priority date: 2018-07-19
Filing date: 2019-06-28
Publication date: 2024-02-07
Anticipated expiration: 2039-06-28
Also published as: US20230090801A1; US20200026416A1; EP3598288A1; US11537277B2; US11983394B2; JP2020013563A

Description

本開示は、一般に、人工知能（ＡＩ）の分野に関する。より具体的には、本開示は、意味的情報を組み込む強化型敵対的生成ネットワーク（ＧＡＮ）を使用して合成画像を生成するためのシステムおよび方法に関する。

例えば、ニューラルネットワークのような、ＡＩベースの技術の指数関数的な成長は、それらを様々な用途で使用される合成データを生成するためのポピュラーな媒体にした。敵対的生成ネットワーク（ＧＡＮ）は、非構造化データの生成モデルを学習するための新たな技術である。ＧＡＮは、合成とはいえリアリスティックな画像などの、合成データを生成するためにポピュラーになってきた。そうするために、ＧＡＮは、典型的には、ジェネレータニューラルネットワーク（これはジェネレータと呼ばれる）およびディスクリミネータニューラルネットワーク（これはディスクリミネータと呼ばれる）を含む。

ジェネレータは、出力として合成画像サンプルを作成することができる。ジェネレータは、これらの画像がリアルな画像であることをディスクリミネータに「納得させる」ことによって合成画像サンプルの品質を改善することを試み得る。ディスクリミネータは、リアルな画像サンプルを生成された合成画像サンプルと区別することを任されている。ディスクリミネータは、画像が全体としてリアルであるか否かを決定する。その結果、複数の反復を通じて、ジェネレータは、リアルな画像の統計的特性を組み込む合成画像を生成することを学習する。

しかし、ＧＡＮは、非リアリスティックな画像表現を作成することによって失敗を示すことがよくある。ＧＡＮは、意味的情報を組み込んでいない可能性があるので、ＧＡＮによって生成された合成画像は、総体的に「リアリスティックな」画像を作成することができる（すなわち、リアルな画像の統計的特性を有することができる）が、画像の局所的な領域において現れ得る意味的に非リアリスティックな態様を有し得る。

ＧＡＮは、合成画像生成に多くの望ましい特徴をもたらすが、意味的な不正確さに対処するためのいくつかの問題が未解決のままである。

本明細書に説明される実施形態は、意味的に正確な合成画像を生成するためのシステムを提供する。動作の間、本システムは、第１の人工知能（ＡＩ）モデルを使用して第１の合成画像を生成し、ユーザインターフェースにおいて第１の合成画像を提示する。ユーザインターフェースは、意味的に不規則な第１の合成画像の画像単位をユーザが識別することを可能にする。次に、本システムは、ユーザインターフェースを介してユーザから意味的に不規則な画像単位についての意味的情報を取得し、意味的情報に基づいて第２のＡＩモデルを使用して第２の合成画像を生成する。第２の合成画像は、第１の合成画像と比較して改善された画像であり得る。

この実施形態の変形では、本システムは、ユーザインターフェースのための強調表示ツールの選択を取得する。強調表示ツールによってマークされた領域は、ユーザインターフェースを介して選択可能であり得る。この強調表示ツールは、グリッドベースのセレクタ、多角形ベースのセレクタ、およびフリーハンドセレクタのうちの１つに対応することができる。強調表示ツールがグリッドベースのセレクタである場合、本システムは、強調表示ツールをユーザインターフェースから取得した粒度に設定する。

さらなる変形では、本システムは、ユーザインターフェース内の強調表示ツールによって選択された領域の選択を取得し、その領域に割り当てられた重みを取得する。

この実施形態の変形では、第１および第２のＡＩモデルが、敵対的生成ネットワーク（ＧＡＮ）である。

この実施形態の変形では、第２のＡＩモデルが、空間確率マップを出力するディスクリミネータを含む。空間確率マップの各要素は、第２の合成画像の画像単位がリアリスティックである確率を示す。

さらなる変形では、第２のＡＩモデルが、対応する画像単位が第１の合成画像の意味的に不規則な画像単位とは異なるように第２の合成画像を出力するジェネレータを含む。

さらなる変形では、本システムは、取得された意味的情報に基づいて空間重みマスクを生成する。空間重みマスクは、第１の合成画像の各画像単位に割り当てられた重みを含む。次いで、ジェネレータおよびディスクリミネータは、空間重みマスクに基づいて意味的に不規則な画像単位を決定する。

この実施形態の変形では、画像単位が、不規則な形状の画素、画素ブロック、および画素群のうちの１つ以上に対応する。

この実施形態の変形では、第１および第２の合成画像を生成することには、ノイズベクトルを合成画像サンプルにマッピングすることが含まれる。

この実施形態の変形では、本システムは、第１のＡＩモデルを使用して第３の合成画像を生成し、不規則性検出技術に基づいて、第３の合成画像の意味的に不規則な画像単位についての意味的情報を自動的に取得する。次に、本システムは、自動的に取得された意味的情報に基づいて、第２のＡＩモデルを使用して第４の合成画像を生成する。

本出願の実施形態による、意味的情報を組み込む例示的な合成画像生成システムを示す。本出願の実施形態による、意味的情報を組み込む合成画像生成システムの例示的な構成要素を示す。本出願の実施形態による、意味的情報を合成画像生成に組み込むことを容易にする例示的な特殊ユーザインターフェースを示す。本出願の実施形態による、合成画像の画像領域への重みの例示的な割り当てを示す。本出願の実施形態による、意味的情報に基づいて合成画像を生成する合成画像生成システムの構成要素間の例示的なデータフローを示す。本出願の実施形態による、１つ以上の中間合成画像を生成する合成画像生成システムの方法を示すフローチャートを提示する。本出願の実施形態による、１つ以上の中間合成画像と関連付けられた意味的情報を取得する合成画像生成システムの方法を示すフローチャートを提示する。本出願の実施形態による、意味的情報に基づいて１つ以上の最終合成画像を生成する合成画像生成システムの方法を示すフローチャートを提示する。本出願の実施形態による、意味的情報を組み込むことによって合成画像を生成するためにＧＡＮを使用する合成画像生成システムの方法を示すフローチャートを提示する。本出願の実施形態による、意味的情報に基づく合成画像生成を容易にする例示的なコンピュータシステムを示す。本出願の実施形態による、意味的情報に基づいて合成画像生成を容易にする例示的な装置を示す。

本明細書に説明される実施形態は、敵対的生成ネットワーク（ＧＡＮ）を使用してフォトリアリスティックな合成画像を生成するという問題を、（ｉ）ユーザが、特殊ユーザインターフェースを使用して意味的情報を提供できるようにすること、および（ｉｉ）意味的情報を使用してフォトリアリスティックな合成画像を生成することによって解決する。生成された画像がフォトリアリスティック（例えば、本物の写真のようにリアリスティック）である場合、その画像は、例えば、新しいインテリア／産業デザイン、衣類およびアクセサリのための新しいデザイン、コンピュータビジョンアルゴリズムの訓練、ならびにコンピュータゲームおよびアニメーション内のシーンの作成の視覚化などの多くの用途に使用できる。

典型的には、ＧＡＮ内のジェネレータは、反復における出力として一組の合成画像サンプルを生成する。ジェネレータは、複数の反復を通じて、これらの画像がリアルな画像であることをディスクリミネータに「納得させる」ことによって合成画像の品質を改善することを試み得る。次に、ディスクリミネータは、生成された合成画像サンプルを一組のリアルな画像サンプルと区別する。ディスクリミネータからのフィードバックに基づいて、ジェネレータは、リアルな画像サンプルの統計的特性に従うように合成画像サンプルを生成する。

既存の技術では、ディスクリミネータは、画像が全体としてリアルであるか否かを示す勾配情報のみを提供する。その結果、ジェネレータは、各反復における画像全体の統計的特性に基づいて合成画像を生成することを学習する。したがって、ジェネレータが、リアルな画像の特性に近い統計的特性（例えば、分布）を有する合成画像を生成することができる場合、ディスクリミネータは、その合成画像をリアルな画像としてマークすることができる。しかしながら、ジェネレータは、通常、画像全体の総体的な統計的特性に基づいて動作するので、ジェネレータは、画像の一部に意味的情報を組み込むことができない。言い換えれば、ジェネレータは、画像の一部を正確にモデル化することができない。例えば、顔をモデル化するとき、ジェネレータは、頬の対称性または鼻に対する目の配置などのような、意味論的な意味を持つ特徴をモデル化することができない。さらに、ジェネレータは、しわ、目の下の線など、きめの細かい特徴をモデル化できない可能性がある。

これらの問題を解決するために、本明細書に説明される実施形態は、意味的情報に基づいてフォトリアリスティックな合成画像を生成する効率的な合成画像生成システムを提供する。本システムは、一次ＧＡＮを使用して、意味的および／またはきめの細かい不規則性を含み得る中間合成画像を生成する。一次ＧＡＮのディスクリミネータは、収束後、もはや中間画像をジェネレータによって生成された合成画像として区別することができない。

次に、本システムは、二次ＧＡＮを使用して、意味的情報に基づいて改善された合成画像を生成する。この二次ＧＡＮでは、ディスクリミネータは、合成画像の領域を識別することができ、それは、画像をリアルな画像または合成画像として分類するという決定を結果としてもたらす。この決定は、画像の意味的情報に基づいて行うことができる。次に、二次ＧＡＮのジェネレータは、そのサンプルが合成されたものとして分類されたことを導いた部分に関するディスクリミネータからの情報を使用し、ディスクリミネータによって識別された特定の部分を改善することに集中するようにその重みを修正する。

人間は、画像の一部がリアリスティックであるか否かを見分けることに特に熟達しているので、いくつかの実施形態では、本システムは、ユーザから意味的情報を取得する。本システムは、中間画像を特殊ユーザインターフェースにおいて提示することができる。このユーザインターフェースは、ユーザが、不規則性を含み得る中間画像の領域を識別することを可能にする。ユーザは、不規則な画像領域として選択され得る画像領域の粒度を設定することができる。この粒度は、大きな画像ブロックから個々の画素まで変動させることができる。例えば、その領域は、矩形ブロックに属することに限定されず、代わりに、意味的対象物（例えば、画像上の人間の耳または目）の境界によって定義されてもよい。このようにして、ユーザは、意味的情報（例えば、画像が実際にどのように見えるべきか）を本システムに提供することができる。

いくつかの実施形態では、ユーザは、選択された画像領域のそれぞれに対して、重みが意味的情報（例えば、その領域の意味的品質）を反映するように、重みを割り当てる。例えば、特定の画像領域が意味的に不正確である（例えば、リアルな写真のようには見えない）場合、ユーザは、その領域に高い重みを割り当てることができる。例えば、中間画像が人間の顔を描写する場合、ユーザは、ユーザインターフェースを使用し、右目と右下の頬が非リアリスティックであることを示すことができる。グリッドの粒度により、ユーザは、矩形区画ではなく、意味的な領域を選択することが可能となり得る。ユーザからのこの情報は、次に、ジェネレータによって使用され、不規則である特定の領域に集中することによって、より良い合成画像を作成することができる。

例示的なシステム
図１Ａは、本出願の実施形態による、意味的情報を組み込む例示的な合成画像生成システムを示す。この例では、環境１００は、フォトリアリスティックな画像を使用する１つ以上のアプリケーションをホストすることができるアプリケーションサーバ１３４を含む。そのようなアプリケーションには、新しいインテリア／産業デザイン、衣類およびアクセサリのための新しいデザイン、ならびにコンピュータゲームおよびアニメーションにおけるシーンの視覚化が含まれるが、これらに限定されない。環境１００の画像生成サーバ１３２は、合成画像を生成し、その合成画像をアプリケーションサーバ１３４に提供することができる。いくつかの実施形態では、画像生成サーバ１３２は、ローカルエリアネットワークまたはワイドエリアネットワークに成り得るネットワーク１３０を介して、アプリケーションサーバ１３４と通信する。

画像生成サーバ１３２は、ＧＡＮ１１２を使用して、合成画像を生成することができる。典型的には、ＧＡＮ１１２内のジェネレータ１１１は、反復における出力として一組の合成画像サンプルを生成する。ジェネレータ１１１は、複数の反復を通じて、ＧＡＮ１１２のディスクリミネータ１１３にこれらの画像がリアルな画像であると「納得させる」ことによって、合成画像の品質を改善することを試み得る。次に、ディスクリミネータ１１３は、生成された合成画像サンプルを一組のリアルな画像サンプル１０２と区別する。ジェネレータ１１１およびディスクリミネータ１１３はまた、一組のノイズベクトルを含み得る一組の入力データ１０４を使用することができる。ディスクリミネータ１１３からのフィードバックに基づいて、ジェネレータ１１１は、合成画像サンプルが、入力データ１０４に基づいてリアルな画像サンプル１０２の統計的特性に従うように、合成画像サンプルを生成する。

既存の技術では、ディスクリミネータ１１３は、画像が全体としてリアルであるか否かを示す勾配情報のみを提供する。結果として、ジェネレータ１１１は、各反復において画像全体の統計的特性に基づいて合成画像を生成することを学習するだけである。したがって、ジェネレータ１１１が、一組のリアルな画像サンプル１０２の特性に近い統計的特性（例えば、分布）を有する合成画像１０６を生成することができる場合、ディスクリミネータ１１３は、その画像１０６がリアルな画像であると決定するかもしれない。しかしながら、ジェネレータ１１１は通常、画像全体の総体的な統計的特性に基づいて動作するので、ジェネレータ１１１は、画像１０６の一部に意味的情報を組み込むことができない可能性がある。言い換えれば、ジェネレータ１１１は、画像１０６の一部を正確にモデル化することができない場合がある。例えば、画像１０６が顔を含む場合、ジェネレータ１１１は、頬の対称性または鼻に対する目の配置などの意味論的な意味を有する特徴をモデル化することができない可能性がある。さらに、ジェネレータ１１１は、しわ、目の下の線などのような、きめの細かい特徴をモデル化することができない可能性がある。

これらの問題を解決するために、合成画像生成システム１１０は、ＧＡＮ１１６を使用し、意味的情報に基づいて合成画像１０８を生成することができる。サーバ１３２は、プロセッサ（例えば、汎用またはシステムプロセッサ）、メモリデバイス（例えば、デュアル・インライン・メモリ・モジュールまたはＤＩＭＭ）、および記憶デバイス（例えば、ハードディスクドライブまたはソリッドステートドライブ（ＳＳＤ））などのような、一組のシステムハードウェアを含むことができる。オペレーティングシステムおよびデバイスファームウェアなどのような、システムソフトウェアは、システムハードウェア上で実行することができる。システム１１０は、システムハードウェア内のハードウェアモジュール、システムハードウェア上で動作することができるソフトウェアシステム、またはその両方とすることができる。システム１１０は、合成画像１０６を中間合成画像と見なし、中間合成画像（または中間画像）１０６と関連付けられた意味的情報を使用し、意味的に正確な画像を生成することができる。

ＧＡＮ１１６では、ディスクリミネータ１１７は、画像１０６の領域を識別することができ、それは、その画像をリアルな画像または合成画像として分類するという決定を結果としてもたらす。例えば、ディスクリミネータ１１７は、画像１０６の異なる領域に異なる重み（例えば、非リアリスティックな領域に高い重み）を割り当てることができる。この決定は、画像の意味的情報に基づいて行うことができる。次に、ＧＡＮ１１６のジェネレータ１１５は、画像１０６を合成されたものとして分類することに導いた部分に関するディスクリミネータ１１７からの情報を使用し、ジェネレータ１１５がディスクリミネータ１１７によって識別された特定の部分の改善に集中するように重みを修正する。

人間は、画像の一部がリアリスティックであるかどうかを見分けることに特に熟達しているので、いくつかの実施形態では、システム１１０は、ユーザから意味的情報を取得する。システム１１０は、一次ＧＡＮとしてＧＡＮ１１２を使用し、中間画像として画像１０６を使用することができる。システム１１０は、次に、画像１０６と関連付けられた意味的情報を使用して、フォトリアリスティックな合成画像を生成する。ディスクリミネータ１１３は、収束後、もはや画像１０６をジェネレータ１１１によって生成された合成画像として区別することはできない。システム１１０は、画像１０６と関連付けられた意味的情報を解析する意味解析モジュール１１４を備えることができる。システム１１０は、ユーザインターフェース１２０において画像１０６を提示することができる。このユーザインターフェース１２０は、ユーザが不規則性を含み得る画像１０６の領域を識別することを可能にする特殊ユーザインターフェースとすることができる。

ユーザは、ユーザインターフェース１２０において不規則な画像領域として選択され得る画像領域の粒度を設定することができる。この粒度は、大きな画像ブロックから個々の画素まで変動させることができる。例えば、ユーザは、顔の中の目が意味論的に意味をなす具合に配置されていないことを示すための画像領域１６２と、顔の中の頬が不規則な形状であることを示すための画像領域１６４とを定義し得るフィードバック１６０を提供することができる。言い換えれば、画像１０６において、ユーザは、右目および右下の頬が非リアリスティックであることを示すためにユーザインターフェース１２０を使用することができる。モジュール１１４は、画像領域１６２および１６４についての追加の情報（例えば、それらが意味的に不規則である理由）をユーザから取得することができる。

画像１０６における意味的な不規則性を回避することによって、ジェネレータ１１５は、より洗練された合成画像１０８を最終的に生成する。合成画像１０８は意味的な不規則性を含まないので、合成画像１０８は、アプリケーションサーバ１３４によって使用され得るフォトリアリスティックな画像とすることができる。いくつかの実施形態では、システム１１０は、合成画像１０８をアプリケーションサーバ１３４に提供する前に、ユーザからの承認を受けるためにユーザインターフェース１２０において合成画像１０８を表示することができる。システム１１０は、ローカルデバイス上（例えば、サーバ１３２の表示デバイス上）またはリモートデバイス上（例えば、サーバ１３４の表示デバイス上）にユーザインターフェース１２０を表示することができる。このようにして、システム１１０は、分散的に動作し、合成画像を生成し、同じデバイスからまたは異なるデバイスからユーザフィードバックを取得することができる。

図１Ｂは、本出願の実施形態による、意味的情報を組み込む合成画像生成システムの例示的な構成要素を示す。システム１１０は、合成画像を作成するためにジェネレータ１１１を操作することによって一組のパラメータを用いて、生成ニューラルネットワーク、ジェネレータ１１１を訓練する。これらの画像は、それらが、画像がリアルな画像であることをディスクリミネータニューラルネットワーク、ディスクリミネータ１１３に納得させることができるように生成されるべきである。ジェネレータ１１１の出力は１つの画像とすることができ、ディスクリミネータ１１３の出力は画像がリアルである確率とすることができる。ジェネレータ１１１が画像１０６を生成し、画像１０６がリアルな画像である確率が閾値より大きいことをディスクリミネータ１１３が示すと、システム１１０は、意味解析のために中間画像１０６を意味解析モジュール１１４に提供する。

そうするために、システム１１０は、次に、ユーザフィードバック１６０を取得することができる。いくつかの実施形態では、ユーザは、重み１７０が所与の領域の意味的な品質を反映するように、重み１７０（例えば、０～５の間の値）を選択された画像領域１６２および１６４に割り当てることによって、ユーザフィードバック１６０を提供する。例えば、中間画像１０６上の顔の中の目および頬が意味的に不正確である（例えば、リアルな写真のようには見えない）ので、ユーザは、画像領域１６２および１６４に高い重みを割り当てることができる。このようにして、重み１７０は、画像領域１６２および１６４のそれぞれがどれほど非リアリスティックであるかを定量化する画像領域１６２および１６４についての不規則性の重大度の尺度として使用することができる。重み１７０は、画像領域１６２および１６４内の各画素について異なる重みを含むことができる。

ユーザインターフェース１２０は、ユーザが画像領域１６２および１６４を選択することを可能にする強調表示グリッドを中間画像１０６上に与えることができる。グリッドの粒度が（例えば、画素レベルで）細かい場合、ユーザインターフェース１２０は、ユーザが、矩形区画ではなく、意味的な領域を選択することを可能にし得る。次いで、ユーザからのこの情報は、ジェネレータ１１５によって使用され得、不規則である特定の領域に集中することによって、より良い合成画像を作成することができる。

システム１１０は、ＧＡＮ１１６を訓練することができ、それにおいて、ディスクリミネータ１１７は、ジェネレータ１１５によって生成された合成画像と同じ寸法の空間確率マップを出力する。この寸法は、画素または画素群（例えば、５×５画素のブロックまたは任意形状の連結画素群）などのような、画像単位に基づいて表現することができる。画像全体について単一の確率を出力するディスクリミネータ１１３とは異なり、ディスクリミネータ１１７は、それぞれが画像の特定の画像単位がリアリスティックであるかどうかを示す一組の確率を出力する。これにより、広域レベルではなく局所レベルで画像品質とリアリズムを促進させることができる。

さらに、重み１７０は、空間確率マップと同じ寸法の空間重みマスクとして使用（またはその空間重みマスクに変換）することができる。例えば、ユーザが画像領域１６２に対して重みを割り当てると、その重みは、画像領域１６２内の各画像単位に割り当てられる。同様に、画像領域１６４に対する重みは、画像領域１６２内の各画像単位に割り当てられる。ユーザは、画像領域の各画像単位に個々の重みを与え得ることに留意されたい。中間画像１０６の残りの画像単位には、デフォルトのより低い重み（または提供されている場合にはユーザが割り当てた重み）を割り当てることができる。

このようにして、空間重みマスクは、低品質または非リアリスティックな外観であるとして特に識別された中間画像１０６の部分を強調する。空間確率マップと空間重みマスクの組み合わせにより、ＧＡＮ１１６が、（例えば、ＧＡＮ１１２によって）意味的品質の低い領域において以前に生成された合成画像にあまりにも類似している新しい合成画像を生成することを妨げる。例えば、ディスクリミネータ１１７によって計算された空間確率の加重平均は、ジェネレータ１１５によって生成された合成画像がリアリスティックであるか否かを示すことができる。このように、ＧＡＮ１１６の計算は、依然として扱いやすい（すなわち、多項式時間アルゴリズムによって解くことができる）。

特殊ユーザインターフェース
図２は、本出願の実施形態による、意味的情報を合成画像生成に組み込むことを容易にする例示的な特殊ユーザインターフェースを示す。ユーザインターフェース１２０は、意味的ユーザフィードバック１６０を取得するために中間画像１０６をユーザ２００に提示することができる。ユーザインターフェース１２０は、タッチスクリーン、ポインティングデバイス、ジェスチャ検出デバイス、カメラ、およびキーボードのうちの１つ以上からユーザフィードバック１６０を取得することができる。ユーザインターフェース１２０は、ユーザ２００が画像領域１６２および１６４を選択することを可能にする強調表示グリッド２１０を中間画像１０６上に与えることができる。ユーザ２００は、粒度セレクタ２２０を使用してグリッド２１０の粒度を選択することができる。粒度セレクタ２２０の例は、チャネル内にスライダを有するトラックバー、ドロップダウンメニュー、およびテキストボックスを含むが、これらに限定されない。グリッド２１０の粒度は、画像単位を示す。言い換えれば、各グリッド要素の寸法は、画像単位を表すことができる。

例えば、ユーザ２００は、画素レベルでグリッド２１０の粒度を選択することができる。次いで、画像単位は、中間画像１０６の画素となる。一方、ユーザ２００が５×５の画素ブロックにおいてグリッド２１０の粒度を選択する場合、画像単位は、その画素ブロックになる。グリッドの粒度が（例えば、画素レベルにおいて）細かい場合、ユーザインターフェース１２０は、矩形区画ではなく、意味的な領域をユーザ２００が選択することを可能にし得る。次に、ユーザ２００からのこの情報は、図１ＡのＧＡＮ１１６によって使用され得、不規則である特定の領域に集中することによって、より良い合成画像を作成することができる。

いくつかの実施形態では、システム１１０は、各グリッドに重みを事前に割り当てることができる。ユーザ２００は、対応する画像単位が意味的に不規則であるかどうかを示すために個々のグリッド要素を選択して強調表示することができる。ユーザ２００は、タッチスクリーン、ポインティングデバイス、および／またはジェスチャを使用して、グリッド要素の上をクリックすることによって、そのグリッド要素を選択することができる。ユーザ２００がグリッド要素を選択すると、そのグリッド要素は、ユーザインターフェース１２０上で（陰影領域として示される）強調表示になり得、強調表示されたままとすることができる。ユーザインターフェース１２０は、強調表示されたグリッド要素に対する重みを入力するためのテキストボックス２３０および対応するプロンプトを提示することができる。ユーザ２００は、テキストボックスに重みを入力することができ、その重みは、次いで、強調表示されたグリッド要素ひいては、対応する画像単位に割り当てられる。いくつかの実施形態では、システム１１０は、各グリッド要素に重みを事前に割り当てることができる。ユーザ２００がグリッド要素を選択して重みを割り当てると、その重みが、そのグリッド要素に事前に割り当てられた重みと置き換わる。

ユーザ２００は、強調表示グリッド２１０のうちのいくつかのグリッド要素を選択して、画像領域１６２および１６４を定義することができる。ここで、画像領域１６２は、顔の中の目が意味論的に意味をなす具合に配置されていないことを示し得、画像領域１６４は、顔の中の頬が不規則な形状であることを示し得る。言い換えれば、中間画像１０６において、ユーザ２００は、強調表示グリッド２１０を使用して、右目および右下の頬が非リアリスティックであることを示し得る。特定のグリッド要素が一旦選択されると、そのグリッド要素は、強調表示されたままとすることができる。ユーザ２００は、選択されたグリッド要素をクリックし、そのグリッド要素を選択解除してもよい。グリッド要素が選択解除される場合、システム１１０は、デフォルトの重みをそのグリッド要素に再び割り当ててもよい。ユーザインターフェース１２０はまた、ユーザ２００が対象領域の非矩形領域（例えば、多角形）およびフリーハンドマークアップを選択することを可能にし得る。図２の例では、ユーザ２００は、顔の右目を選択するために多角形状の領域２５２を選択し、右頬を選択するためにフリーハンドまたは不規則な形状の領域２５４を選択することができる。次いで、個々のグリッドを選択する代わりに、ユーザ２００は、領域（例えば、領域２５２または２５４）全体を選択し、重みをその領域に割り当てることができる。

ユーザインターフェース１２０は、強調表示ツールセレクタ２２５（例えば、ドロップダウンメニュー）を使用して、ユーザ２００が強調表示ツールの種類を選択することを可能にし得る。強調表示ツールの例には、強調表示グリッド、多角形ツール（例えば、ユーザ２００が多角形を使用して領域２５２を選択することを可能にする）、およびフリーハンドツール（例えば、ユーザ２００がタッチまたはポインティングデバイスを使用して領域２５４を選択することを可能にする）が含まれるが、そられに限定されない。ユーザインターフェース１２０はまた、強調表示グリッドおよび多角形ツールのために異なる形状（例えば、円形および六角形）を提供することができる。ユーザ２００が１つのグリッド要素を選択して重みを与える場合、システム１１０は、その重みをローカル記憶デバイスに記憶する。異なるグリッド要素の選択および／または画像の送信は、記憶を始動させ得る。ユーザインターフェース１２０はまた、ユーザ２００が画像１０６に対するユーザフィードバック１６０を送信することを可能にする「送信」ボタン２４０を含むこともできる。システム１１０のＧＡＮ１１２がより多くの合成画像を生成した場合、ユーザインターフェース１２０は、それらの画像から次の画像を表示することができる。このようにして、ユーザインターフェース１２０は、合成画像を表示し、対応するユーザフィードバックを取得し続ける。システム１１０は、１つ以上の選択方針に基づいて、ユーザインターフェース１２０内でユーザ２００に提示するための画像を選択することができる。例えば、システム１１０は、閾値を下回るディスクリミネータスコアを有する各合成画像をユーザインターフェース１２０内で提示することができる。ここで、ディスクリミネータスコアは、合成画像がリアルである確率を示すことができる。システム１１０はまた、提示のために画像をランダムに選択することができる。

図３は、本出願の実施形態による、合成画像の画像領域への重みの例示的な割り当てを示す。この例では、グリッド要素の重みは、陰影矢印で表されている。各矢印の長さは、重みの値を示し得る。例えば、ユーザ２００は、グリッド要素３１４が画像１０６に描かれている顔の不規則な形状の頬の大部分を表していると判断し、高い値を持つ重み３０４を割り当てることができる。一方、ユーザ２００は、グリッド要素３１２が頬の小さな部分を表しており、グリッド要素の大部分が正しいと判断する可能性がある。次いで、ユーザ２００は、比較的低い値を持つ重み３０２を割り当てることができる。

同様に、中間画像１０６の不規則に配置された目の意味的な不規則性のレベルに基づいて、ユーザ２００は、目を表す異なるグリッド要素に異なる重み３０６および２０８を割り当ててもよい。ユーザ２００がグリッド要素を選択しない場合、システム１１０は、そのグリッド要素にデフォルトの重みを割り当てることができる。例えば、グリッド要素３２０が、意味論的に意味をなしかつ正確である顔の一部を表すので、ユーザ２００は、ユーザフィードバック１６０を提供している間にグリッド要素３２０を選択しなくてもよい。システム１１０は、デフォルトの重み３１０をグリッド要素３２０に、また、ユーザ２００が重みを与えていない他の全てのグリッド要素に割り当てることができる。

意味的情報を使用する合成画像生成
図４は、本出願の実施形態による、意味的情報に基づいて合成画像を生成する合成画像生成システムの構成要素間の例示的なデータフローを示す。システム１１０は、合成画像を生成するために一次ＧＡＮ１１２を使用する。ＧＡＮ１１２は、ジェネレータ１１１およびディスクリミネータ１１３を含むことができる。システム１１０は、合成画像がリアルであるというΦによってパラメータ化される、ディスクリミネータ１１３、ディスクリミネータニューラルネットワークＤ’_Φを納得させることができる合成画像を作成するためにジェネレータ１１１を操作することによって、パラメータθを用いて、ジェネレータ１１１、生成ニューラルネットワークＧ’_θを訓練することができる。ジェネレータ１１１およびディスクリミネータ１１３は、競合する目標を持って、それぞれ、損失関数Ｌ’_ｇおよびＬ’_ｄを最小化することを目指している。

ディスクリミネータ１１３は、一組の画像サンプル１０２（すなわち、リアルな画像）を使用して訓練され得る。ジェネレータ１１１は、一組の入力データ１０４を使用することもでき、これは一組のノイズベクトルを含み得る。ノイズベクトルは、ジェネレータ１１１が学習する一組の画像（または他の任意の情報）とすることができる。次いで、ジェネレータ１１１は、一組の合成画像サンプル４２０を生成するために、学習されたノイズベクトル特性を画像サンプル１０２に適用することができる。Ｘ_ｉが、一組の画像サンプル１０２であり、ｚ_ｉが、入力データ１０４における一組の対応するノイズベクトルであると仮定する。ここで、ｉは、一組の画像サンプル１０２および一組の対応するノイズベクトルに対する添え字とすることができる。合成画像サンプル４２０は、次いで、Ｇ’_θ（ｚ_ｉ）によって示すことができる。ＧＡＮ１１２は、損失関数Ｌ’_ｇおよびＬ’_ｄを最小化することによって、Ｇ’_θ（ｚ_ｉ）を生成する。

最小化される損失関数は以下となり得る。

式中、Ｇ’_θ（）の出力は、画像であり、Ｄ’_Φ（）の出力は、画像がリアルである確率（例えば、０～１の間の確率値）である。損失関数を最小化することによって、ジェネレータ１１１は、Ｄ’_Φ（Ｇ’_θ（ｚ_ｉ））が高い確率をもたらすことを保証することにより、その出力を改善することができる。このように、ディスクリミネータ１１３は、画像サンプル１０２を生成した合成画像サンプル４２０と区別することができない可能性がある。

しかしながら、中間画像１０６を含む合成画像サンプル４２０は、意味的な不規則性を含むことができる。例えば、顔をモデル化するとき、ジェネレータ１１１は、しわ、目の下の線などのような、きめの細かい特徴をモデル化することができない可能性がある。システム１１０は、合成画像サンプル４２０をユーザインターフェース１２０においてユーザ２００に提示する。ユーザ２００は、合成画像サンプル４２０の各画像において、意味的な不規則性を有する画像領域を識別することができる。ユーザ２００は、識別された画像領域に重みを割り当てることによって、ユーザインターフェース１２０を介してユーザフィードバック１６０を提供することができる。システム１１０はまた、重みを取得するために画像品質または自然さの自動決定を容易にし得る意味解析技術を配備することができる。

システム１１０は、ユーザ２００（または意味解析技術）からのフィードバックを組み込む二次ＧＡＮ１１６を使用する。ＧＡＮ１１６は、入力として、合成画像サンプル４２０、Ｇ’_θ（ｚ_ｉ）を使用する。ＧＡＮ１１６は、パラメータθを用いるジェネレータ１１５、生成ニューラルネットワークＧ_θと、Φによってパラメータ化されるディスクリミネータ１１７、ディスクリミネータニューラルネットワークＤ_Φを含む。ディスクリミネータ１１７（Ｄ_Φ（））は、ジェネレータ１１５により生成された合成画像と同じ寸法の空間的確率マップを出力する。この寸法は、画像単位に基づいて表現され得る。空間確率マップは、一組の確率を含み、それぞれが、画像の特定の画像単位がリアリスティックであるかどうかを示す。これにより、意味的な画像品質およびリアリズムを広域レベルではなく局所レベルで促進させることができる。ディスクリミネータ１１７は、Ｇ’_θ（ｚ_ｉ）において各画像に対して１つのこのような空間確率マップを生成し、一組の空間確率マップ４１０を形成する。

さらには、ユーザ２００によって与えられる重みは、空間確率マップと同じ寸法の、空間重みマスク、ｗ_ｉ、を生成するために使用することができる。Ｇ’_θ（ｚ_ｉ）における各画像は、このような空間重みマスクと関連付けられ、一組の空間重みマスク４１２を形成する。ｗ_ｉは、意味的に不規則としてユーザ２００によって識別された画像領域を強調する。ジェネレータ１１５とディスクリミネータ１１７は、競合する目標を持っており、それぞれ、損失関数Ｌ_ｇおよびＬ_ｄを最小化することを目指している。

ＧＡＮ１１６は、損失関数Ｌ_ｇおよびＬ_ｄを最小化することにより、一組の合成画像サンプル４３０、Ｇ_θ（ｚ_ｉ）、を生成する。これは、ノイズベクトルを合成画像サンプル４２０にマッピングすることを含み得る。最小化される損失関数は以下となり得る。

式中、Ｅ｛｝は、特定の合成画像Ｇ_θ（ｚ_ｉ）についての一組の画像単位にわたる期待値（すなわち、平均値）を示す。Ｌ_ｇ（Ｄ_Φ，Ｇ_θ）における項

は、合成画像サンプル４３０が、意味的に不規則である画像領域内の合成画像サンプル４２０にあまりにも類似することを妨げる。

このようにして、ＧＡＮ１１６は、フォトリアリスティックな合成画像サンプル４３０を生成することができる。そのようなフォトリアリスティックな合成画像は、コンピュータビジョンシステムを訓練するためのデータ拡張および所望の属性によって特徴付けられる画像の視覚化を含む、様々な用途に使用することができる。ＧＡＮ１１６により、システム１１０は、画像などの非構造化データについて非常に正確かつ視覚的にリアリスティックな生成モデルを学習することが可能になる。ＧＡＮ１１６はまた、非構造化データについてのより良い分類子および視覚化モジュールを作成するために使用され得る。

動作
図５Ａは、本出願の実施形態による、１つ以上の中間合成画像を生成する合成画像生成システムの方法を示すフローチャート５００を提示する。訓練動作の間、本システムは、一組のリアルな訓練画像サンプルおよび対応する入力データを取得する（動作５０２）。入力データは、ノイズベクトルを含み得る。本システムは、一次ＧＡＮのジェネレータおよびディスクリミネータの競合する目標を最小化するように取得されたデータに対して一次ＧＡＮを訓練する（動作５０４）。次に、本システムは、ジェネレータによって生成され、かつディスクリミネータによって承認される１つ以上の中間合成画像を取り出す（動作５０６）。合成画像に対する承認は、その画像がどれほどリアリスティックであるかを示す確率に基づくことができる。確率が閾値よりも大きい場合、ディスクリミネータは、画像を承認することができる。本システムは、次に、ローカルまたはリモートコンピューティングシステムのユーザインターフェースにおいて１つ以上の中間合成画像を提示する（動作５０８）。

図５Ｂは、本出願の実施形態による、１つ以上の中間合成画像と関連付けられた意味的情報を取得する合成画像生成システムの方法を示すフローチャート５３０を提示する。動作の間、本システムは、ユーザからの意味的情報を組み込むことができる特殊ユーザインターフェースに成り得るユーザインターフェースにおいて、一次ＧＡＮによって生成される中間画像と見なすことができる合成画像を提示する（動作５３２）。本システムは、次に、ユーザインターフェースを介してユーザから強調表示グリッドの粒度を取得する（動作５３４）。次いで、本システムは、各グリッド要素がユーザによって選択可能であり得るように、ユーザインターフェース内の中間画像上に強調表示グリッドを重ね合わせる（動作５３６）。

次に、本システムは、ユーザによるグリッド要素の選択を決定し、そのグリッド要素に対して、デフォルトの重みとすることができる現在の重みを提供する（動作５３８）。ユーザが重みを更新した場合、本システムは、任意選択的に、選択されたグリッド要素に対して更新された重みを受信して記憶することができる（動作５４０）。次いで、本システムは、ユーザが中間画像について、意味的情報を含むフィードバックを送信したかどうかを決定する（動作５４２）。ユーザがフィードバックを送信していない場合、本システムは、ユーザによるグリッド要素の選択を決定し続ける（動作５３８）。ユーザがフィードバックを送信した場合、本システムは、各グリッド要素のグリッド粒度および重みをローカル記憶デバイスに記憶する（動作５４４）。本システムは、次に、ジェネレータによって生成された一組の中間画像内の全ての画像がユーザによって解析されたかどうかを決定する（動作５４６）。全ての画像が解析されていない場合、本システムは、ユーザインターフェース内に次の合成画像を提示し続ける（動作５３２）。

全ての画像が解析されると、本システムは、ユーザから意味的情報を取得することを完了したことになる。図５Ｃは、本出願の実施形態による、意味的情報に基づいて１つ以上の改善された合成画像を生成する合成画像生成システムの方法を示すフローチャート５５０を提示する。動作の間、本システムは、一組のリアルな訓練画像サンプル、対応する入力データ、および中間画像用の一組の空間重みマスクを取得し（動作５５２）、その一組の空間重みマスクを中間画像に適用する（動作５５４）。本システムは、二次ＧＡＮのジェネレータおよびディスクリミネータの競合する目標を最小化するように重み付けられたデータに二次ＧＡＮを適用する（動作５５６）。次いで、本システムは、ジェネレータによって生成され、かつディスクリミネータによって承認される１つ以上の改善された合成画像を取り出す（動作５５８）。次いで、本システムは、ローカルまたはリモートコンピューティングシステムのユーザインターフェースにおいて１つ以上の最終合成画像を提示する（動作５６０）。

図６は、本出願の実施形態による、意味的情報を組み込むことによって合成画像を生成するためにＧＡＮを使用する合成画像生成システムの方法を示すフローチャート６００を提示する。動作の間、本システムは、ＧＡＮによって生成された各合成画像のための空間確率マップ（動作６０２）、およびその合成画像と関連付けられた各グリッド要素の重みに基づく空間重みマスク（動作６０４）を決定する。次いで、本システムは、空間確率マップの各点で評価することによって、ＧＡＮのディスクリミネータの目標を最小化し、全ての評価にわたって期待値を計算する（動作６０６）。

本システムはまた、異なるＧＡＮによって生成され得る、空間確立マップの各点での評価および対応する中間画像に関しての空間重みマスクによって、ＧＡＮのジェネレータの目標を最小化し、全ての評価にわたって期待値を計算する（動作６０８）。本システムは、ＧＡＮが収束したかどうかをチェックする（動作６１０）。ディスクリミネータが合成画像をリアルな画像と区別しない場合、ＧＡＮは収束し得る。ＧＡＮが収束していない場合、本システムは、ＧＡＮによって生成された各合成画像について空間確率マップを決定し続ける（動作６０２）。ＧＡＮが収束した場合、本システムは、合成画像をＧＡＮによって生成された最終画像として提示する（動作６１２）。

例示的なコンピュータシステムおよび装置
図７は、本出願の実施形態による、意味的情報に基づいて合成画像生成を容易にする例示的なコンピュータシステムを示す。コンピュータシステム７００は、プロセッサ７０２、メモリデバイス７０４、および記憶デバイス７０８を含む。メモリデバイス７０４は、揮発性メモリデバイス（例えば、デュアル・インライン・メモリ・モジュール（ＤＩＭＭ））を含むことができる。さらに、コンピュータシステム７００は、表示デバイス７１０、キーボード７１２、およびポインティングデバイス７１４に連結され得る。記憶デバイス７０８は、オペレーティングシステム７１６、合成画像生成システム７１８、およびデータ７３６を記憶することができる。合成画像生成システム７１８は、一次ＧＡＮ１１２、意味解析モジュール１１４、および二次ＧＡＮ１１６のうちの１つ以上の動作を組み込むことができる。

合成画像生成システム７１８は、命令であって、コンピュータシステム７００によって実行されるとき、コンピュータシステム７００に本開示に説明されている方法および／またはプロセスを実行させ得る命令を含むことができる。具体的には、合成画像生成システム７１８は、中間合成画像を生成するための命令（初期画像生成モジュール７２０）を含むことができる。合成画像生成システム７１８はまた、ユーザが中間合成画像について意味的フィードバックを提供することを可能にする特殊ユーザインターフェースを動作させるための命令（ユーザインターフェースモジュール７２２）を含むこともできる。さらに、合成画像生成システム７１８は、ユーザインターフェースを介して意味的フィードバック（例えば、画像単位について割り当てられた重み）を取得するための命令（意味的フィードバックモジュール７２４）を含む。

さらに、合成画像生成システム７１８は、中間合成画像に対する意味的フィードバックを自動的に生成するための命令（意味的フィードバックモジュール７２４）を含む。合成画像生成システム７１８はまた、最終合成画像を生成するための命令（二次画像生成モジュール７２６）を含むことができる。合成画像生成システム７１８は、メッセージを送受信するための命令（通信モジュール７２８）をさらに含んでもよい。データ７３６は、一次ＧＡＮ１１２、意味解析モジュール１１４、および二次ＧＡＮ１１６のうちの１つ以上の動作を容易にすることができる任意のデータを含むことができる。データ７３６は、リアルな画像サンプル、ノイズベクトル、中間合成画像、グリッド粒度情報、各グリッド要素に割り当てられた重みおよび対応する空間重みマスク、空間確率マップ、ならびに最終合成画像のうちの１つ以上を含み得る。

図８は、本出願の実施形態による、意味的情報に基づいて合成画像生成を容易にする例示的な装置を示す。合成画像生成装置８００は、有線、無線、量子光、または電気通信チャネルを介して互いに通信し得る複数のユニットまたは装置を備えることができる。装置８００は、１つ以上の集積回路を使用して実現されてもよく、図８に示されるものよりも少ないかまたは多いユニットまたは装置を含んでもよい。さらに、装置８００は、コンピュータシステムに集積されてもよく、または他のコンピュータシステムおよび／またはデバイスと通信することができる別個のデバイスとして実現されてもよい。具体的には、装置８００は、一次画像ユニット８０２、ユーザインターフェースユニット８０４、意味的フィードバックユニット８０６、二次画像ユニット８０８、および通信ユニット８１０を含む、図７のコンピュータシステム７００のモジュール７２０～７２８と同様の機能または動作を実行するユニット８０２～８１０を備えることができる。

この詳細な説明に記載されているデータ構造およびコードは、コンピュータシステムによる使用のためのコードおよび／またはデータを記憶することができる任意のデバイスまたは媒体であり得る、コンピュータ可読記憶媒体上に通常記憶されている。コンピュータ可読記憶媒体は、揮発性メモリ、不揮発性メモリ、例えば、ディスク、磁気テープ、ＣＤ（コンパクトディスク）、ＤＶＤ（デジタルバーサタイルディスクまたはデジタルビデオディスク）などの磁気および光記憶デバイス、あるいは既知のまたは今後開発されるコンピュータ可読媒体を記憶することができる他の媒体を含むが、それらに限定されない。

詳細な説明の項に記載されている方法およびプロセスは、上記のようなコンピュータ可読記憶媒体に記憶され得る、コードおよび／またはデータとして具体化され得る。コンピュータシステムが、コンピュータ可読記憶媒体上に記憶されているコードおよび／またはデータを読み取り、実行すると、コンピュータシステムは、データ構造およびコードとして具体化され、かつコンピュータ可読記憶媒体内に記憶されている方法およびプロセスを行う。

さらに、上記の方法およびプロセスは、ハードウェアモジュールに含まれ得る。例えば、ハードウェアモジュールは、特定用途向け集積回路（ＡＳＩＣ）チップ、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、および既知のまたは今後開発される他のプログラマブルロジックデバイスを含むことができるが、それらに限定されない。ハードウェアモジュールが起動されると、ハードウェアモジュールは、ハードウェアモジュール内に含まれる方法およびプロセスを実行する。

Claims

意味的に正確な合成画像を生成するための方法であって、
第１の人工知能（ＡＩ）モデルを使用して第１の合成画像を生成することと、
ユーザインターフェースにおいて前記第１の合成画像を提示することであって、前記ユーザインターフェースが、意味的に不規則な前記第１の合成画像のグリッド要素をユーザが識別することを可能にする、提示することと、
前記ユーザインターフェースを介して前記ユーザから前記意味的に不規則なグリッド要素についての意味的情報を取得することと、
前記意味的情報に基づいて第２のＡＩモデルを使用して第２の合成画像を生成することであって、前記第２の合成画像が、前記第１の合成画像と比較して改善された画像である、生成することと、を含む、方法。
前記ユーザインターフェースのための強調表示ツールの選択を取得することであって、前記強調表示ツールによってマークされる領域が、前記ユーザインターフェースを介して選択可能であり、前記強調表示ツールが、グリッドベースのセレクタ、多角形ベースのセレクタ、および、フリーハンドセレクタのうちの１つに対応する、取得することと、
前記強調表示ツールが前記グリッドベースのセレクタであることに応答して、前記強調表示ツールを取得された粒度に設定することと、をさらに含む、請求項１に記載の方法。
前記ユーザインターフェース内の前記強調表示ツールによって選択された領域の選択を取得することと、
前記領域に割り当てられた重みを取得することと、をさらに含む、請求項２に記載の方法。
前記第１のＡＩモデルおよび前記第２のＡＩモデルが、敵対的生成ネットワーク（ＧＡＮ）である、請求項１に記載の方法。
前記第２のＡＩモデルが、空間確率マップを出力するディスクリミネータを含み、前記空間確率マップの各要素は、前記第２の合成画像のグリッド要素がリアリスティックである確率を示す、請求項１に記載の方法。
前記第２のＡＩモデルが、対応するグリッド要素が前記第１の合成画像の前記意味的に不規則なグリッド要素とは異なるように前記第２の合成画像を出力するジェネレータを含む、請求項５に記載の方法。
前記取得された意味的情報に基づいて空間重みマスクを生成することをさらに含み、前記空間重みマスクが、前記第１の合成画像の各グリッド要素に割り当てられた重みを含み、前記ジェネレータおよび前記ディスクリミネータが、前記空間重みマスクに基づいて前記意味的に不規則なグリッド要素を決定する、請求項６に記載の方法。
グリッド要素が、不規則な形状を示す画素、画素ブロック、および画素群のうちの１つ以上に対応する、請求項１に記載の方法。
前記第１の合成画像および前記第２の合成画像を生成することが、ノイズベクトルを合成画像サンプルにマッピングすることを含む、請求項１に記載の方法。
前記第１のＡＩモデルを使用して第３の合成画像を生成することと、
不規則性検出技術に基づいて、前記第３の合成画像の意味的に不規則なグリッド要素についての意味的情報を自動的に取得することと、
前記自動的に取得された意味的情報に基づいて、前記第２のＡＩモデルを使用して第４の合成画像を生成することと、を含む、請求項１に記載の方法。
コンピュータによって実行されるとき、前記コンピュータに、意味的に正確な合成画像を生成するための方法を実行させる命令を記憶する非一時的なコンピュータ可読記憶媒体であって、前記方法が、
第１の人工知能（ＡＩ）モデルを使用して第１の合成画像を生成することと、
ユーザインターフェースにおいて前記第１の合成画像を提示することであって、前記ユーザインターフェースが、意味的に不規則な前記第１の合成画像のグリッド要素をユーザが識別することを可能にする、提示することと、
前記ユーザインターフェースを介して前記ユーザから前記意味的に不規則なグリッド要素についての意味的情報を取得することと、
前記意味的情報に基づいて第２のＡＩモデルを使用して第２の合成画像を生成することであって、前記第２の合成画像が、前記第１の合成画像と比較して改善された画像である、生成することと、を含む、非一時的なコンピュータ可読記憶媒体。
前記方法が、
前記ユーザインターフェースのための強調表示ツールの選択を取得することであって、前記強調表示ツールによってマークされる領域が、前記ユーザインターフェースを介して選択可能であり、前記強調表示ツールが、グリッドベースのセレクタ、多角形ベースのセレクタ、およびフリーハンドセレクタのうちの１つに対応する、取得することと、
前記強調表示ツールが前記グリッドベースのセレクタであることに応答して、前記強調表示ツールを取得された粒度に設定することと、をさらに含む、請求項１１に記載のコンピュータ可読記憶媒体。
前記方法が、
前記ユーザインターフェース内の前記強調表示ツールによって選択された領域の選択を取得することと、
前記領域に割り当てられた重みを取得することと、をさらに含む、請求項１２に記載のコンピュータ可読記憶媒体。
前記第１のＡＩモデルおよび前記第２のＡＩモデルが、敵対的生成ネットワーク（ＧＡＮ）である、請求項１１に記載のコンピュータ可読記憶媒体。
前記第２のＡＩモデルが、空間確率マップを出力するディスクリミネータを含み、前記空間確率マップの各要素が、前記第２の合成画像のグリッド要素がリアリスティックである確率を示す、請求項１１に記載のコンピュータ可読記憶媒体。
前記第２のＡＩモデルが、対応するグリッド要素が前記第１の合成画像の前記意味的に不規則なグリッド要素とは異なるように前記第２の合成画像を出力するジェネレータを含む、請求項１５に記載のコンピュータ可読記憶媒体。
前記方法が、前記取得された意味的情報に基づいて空間重みマスクを生成することをさらに含み、前記空間重みマスクが、前記第１の合成画像の各グリッド要素に割り当てられた重みを含み、前記ジェネレータおよび前記ディスクリミネータが、前記空間重みマスクに基づいて前記意味的に不規則なグリッド要素を決定する、請求項１６に記載のコンピュータ可読記憶媒体。
グリッド要素が、不規則な形状を示す画素、画素ブロック、および画素群のうちの１つ以上に対応する、請求項１１に記載のコンピュータ可読記憶媒体。
前記第１の合成画像および前記第２の合成画像を生成することが、ノイズベクトルを合成画像サンプルにマッピングすることを含む、請求項１１に記載のコンピュータ可読記憶媒体。
前記方法が、
前記第１のＡＩモデルを使用して第３の合成画像を生成することと、
不規則性検出技術に基づいて、前記第３の合成画像の意味的に不規則なグリッド要素についての意味的情報を自動的に取得することと、
前記自動的に取得された意味的情報に基づいて、前記第２のＡＩモデルを使用して第４の合成画像を生成することと、をさらに含む、請求項１１に記載のコンピュータ可読記憶媒体。