JP7023669B2

JP7023669B2 - 画像生成方法、画像生成装置、及び画像生成プログラム

Info

Publication number: JP7023669B2
Application number: JP2017207606A
Authority: JP
Inventors: 岳宮戸
Original assignee: Preferred Networks Inc
Current assignee: Preferred Networks Inc
Priority date: 2017-10-26
Filing date: 2017-10-26
Publication date: 2022-02-22
Anticipated expiration: 2037-10-26
Also published as: JP2019079436A; US20210287073A1; US20190147321A1; US11048999B2

Description

本発明は、画像生成方法、画像生成装置、及び画像生成プログラムに関する。

層を深くしたニューラルネットワーク（以下、ディープラーニングともいう）を用いた技術として、物体認識技術、物体検出技術、セグメンテーション技術（画像に対してピクセルレベルでクラス分類を行う技術）、画像キャプション技術等の各技術が知られている。

近年では、更に、ディープラーニングを用いて、絵を「描かせる」研究も注目されている。例えば、「コンテンツ画像」と「スタイル画像」の2枚の画像を用いて、「スタイル画像」の描画スタイルを「コンテンツ画像」に適用するように指定して、新たな画像を生成する技術（非特許文献１）が知られている。このような「コンテンツ画像」と「スタイル画像」の2枚の画像を用いて新しい画像を生成する研究とは別に、新しい画像を生成する際に、何の画像も必要とせずに新たな画像を描き出す研究も行われている。何の画像も必要とせずに新たな画像を描き出す手法として、Generative Adversarial Networks(以下、GANs）等の手法が開示されている（非特許文献２）。

GANsでは、2つのニューラルネットワークを学習させることによって、生成モデルを作成する。これら２つのニューラルネットワークは、ジェネレータ（Generator）とディスクリミネータ（Discriminator, 以下D(x)ともいう。）と呼ばれ、これらが競合関係にある。
概略を説明すると、まず、ジェネレータが乱数zからデータxを生成する。GANsでは、データxは２箇所のソースから同時発生しており、データxは、「真のデータの確率分布」に従っているか、「ジェネレータが生成した確率分布」に従っている。ディスクリミネータは、「ジェネレータが生成したデータx」と、「真のデータx」を識別するように学習する。それに対して、ジェネレータは、ディスクリミネータが真のデータと区別できないようなデータを生成するように学習する。このように学習を続けて、ジェネレータの生成データを、真のデータにより近づけ、最終的には本物と見まがうレベルの画像が生成できるようにする。
より具体的には、GANsにおけるD(x)の役割は、「真の確率分布：q」と「ジェネレータのモデルから定まる確率分布：p」との距離もしくはダイバージェンスを測ることである。ジェネレータは、ディスクリミネータで代理的に測られた距離もしくはダイバージェンスを小さくするように学習する。
GANsに関し、新たな画像生成の他に、解像度が低下している画像をGANsで処理して画像の解像度を向上する（以下、超解像）手法も研究されている。

GANsのモデルの１つに、conditional GANs (以下、cGANs)が存在する（非特許文献３）。
GANsでは、上記のように、D(x)は、xを受け取って、そのxが、「真のデータの確率分布」に従っているか、「ジェネレータが生成した確率分布」に従っているかを識別するが、cGANsのディスクリミネータ（以下D(x,y)ともいう。）は、xの他に、コンディション情報yを受け取って、そのxが、「真のデータの確率分布」に従っているか、「ジェネレータが生成した確率分布」に従っているかを識別する。コンディション情報yとしては、例えば、カテゴリ情報等の情報が使用される。
これらのcGANsを、クラス・コンディション生成（非特許文献４）や、テキストからの画像生成(非特許文献５)などで用いる研究も開示されている。

従来のcGANsでは、図１に示すように、D(x,y)に対しxを入力する際にyを連結（concatenate）する手法や、図２に示すように、中間層を設けて中間層でyを連結（concatenate）する手法が採用されてきた。
しかし、これらの従来手法を用いた場合、D(x,y)で「真の確率分布：q」と「ジェネレータのモデルから定まる確率分布：p」との距離を正確に測ることができないケースが多く、生成画像を真の画像と見まがうレベルに近づけることはできない。

Neural Algorithm of Artistic Style. arXiv :1508.0657 Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks. arXiv :1511.06434 Conditional Generative Adversarial Nets. arXiv : 1411.1784. Proceedings of the 34th International Conference on Machine Learning, PMLR 70:2642-2651, 2017. Generative Adversarial Text to Image Synthesis. arXiv : 1605.05396.

本発明の課題は、従来のcGANsのモデルにおける上記の問題を解決し、D(x,y)で「真の確率分布：q」と「ジェネレータのモデルから定まる確率分布：p」との距離を正確に測ることができ、生成画像と真の画像をより近づけることのできる技術を提供することである。

本発明者らは、前記課題を解決するために鋭意研究を重ねた結果、特定のD(x,y)のモデルを用いることで、「真の確率分布：q」と「ジェネレータのモデルから定まる確率分布：p」との距離を正確に測ることができ、生成画像と真の画像をより近づけることのできることを見出し、本発明を完成させた。すなわち、本発明は以下のとおりである。

［１］ジェネレータとディスクリミネータの２つのニューラルネットワークから構成される条件付き敵対生成ネットワークを用いて画像生成を行う画像生成方法であって、前記ディスクリミネータが、下記式（１１）のモデルで演算を行った結果を出力する、画像生成方法。
［２］下記式（１１）のカテゴリーデータyとして、ワン・ホット・エンコードされたデータを用いる、［１］の画像生成方法。
［３］ジェネレータとディスクリミネータの２つのニューラルネットワークから構成される条件付き敵対生成ネットワークを内蔵した画像処理装置であって、前記ディスクリミネータが、下記式（１１）のモデルで演算を行う演算部を有する、画像生成装置。
［４］下記式（１１）のカテゴリーデータyが、ワン・ホット・エンコードされたデータである、［３］に記載の画像生成装置。
［５］コンピュータに［１］又は［２］に記載の画像生成方法を実行させる画像生成プログラム。

本発明によれば、cGANsを用いた画像生成に際し、D(x,y)で「真の確率分布：q」と「ジェネレータのモデルから定まる確率分布：p」との距離を正確に測ることができ、生成画像と真の画像をより近づけることができる。

従来技術のディスクリミネータモデル（concat）の説明図である。従来技術のディスクリミネータモデル（concat）の説明図である。本発明のディスクリミネータモデル（multiply）の説明図である。従来技術（concat）と本発明（multiply）の学習曲線を示す図である。 Intra FIDをクラスごとにプロットした図である。異なる手法での生成イメージの比較を示す図である。異なる手法での生成イメージの比較を示す図である。異なるクラスのモーフィング（Morphing）を示す図である。超解像の結果を示す図である。

（発明の概略）
前記のように、GANsにおけるD(x)の役割は、「真の確率分布：q」と「ジェネレータのモデルから定まる確率分布：p」との距離もしくはダイバージェンスを測ることである。
本発明では、y given x ; p(y|x) がガウス分布のような単峰型（unimodal）な分布や対数線形モデル（log linear model)で表せる離散分布だと仮定し、そのように想定できる場合における理論的な動機づけのあるcGANsにおけるD(x,y)のモデルを提案する。
本発明者の提案するモデルは暗黙的にD(x)の与えられたときの最適（optimial）な解が対数尤度比なっていることを考慮し、まずその対数尤度比を、条件付き分布の対数尤度比log q(y|x)/p(y|x)とxの対数尤度比log q(x)/p(x)に分けて考える。
次に、log q(y|x)/p(y|x)について、q(y|x)とp(y|x)が、それぞれ前記のように、ガウス分布のような単峰型（unimodal）な分布や対数線形モデル（log linear model)で表せる離散分布だと仮定する。
すると結果的に得られるD(x,y)のモデルは、図３に示すように、コンディション情報yをφの出力に掛けて足すという形になる。
この新たなD(x,y)モデルを用いたcGANsでは、図１や図２に示した従来のD(x,y)モデルを用いたcGANsに比べて、大幅に性能が向上する。
また、この新たなD(x,y)モデルを超解像のタスクに適用することで、従来技術に比べてよりも判別が容易（disciriminative）な画像を生成することができる。

以下、本発明を詳細に説明するが、本発明は下記の実施形態に限定されるものではない。

cGANsにおけるD(x)の損失関数（loss function）は、下記式（１）で表される。

損失関数（loss function）として下記式（２）が多く用いられる。

上記式（２）において損失を最小化する最適なD(x,y)は、下記式（３）で表される。

上記式（３）は下記式（４）で表すことができる。

本発明では、完全対数比(the full log ratio) r(y,x)を２つの対数比r(y|x),r(x)に分割し、q(y|x)とp(y|x)が、それぞれ、ガウス分布のような単峰型（unimodal）な分布や対数線形モデル（log linear model)で表せる離散分布だと仮定する。
r(y|x)を求めるf₁と、r(x) を求めるf₂を構築し、それらを組み合わせてDを作成することもできる。
従来の技術ではD(x,y)のモデルは、D([x,y]) of x and y; [x,y]で表されるが、従来のD(x,y)は、上記式（３）をモデル化するには過剰な柔軟性があり好ましくない。

（単一のカテゴリ変数ケース（Single categorical variable case））
クラス・コンディション・イメージ生成（the class-conditional image generation）において、カテゴリー変数がy∈｛1,…,C｝（Cはカテゴリー数）で表されるとすると、最もよく使われるp(y|x)のモデルは下記式（５）の対数線形モデルで表される。

このようにして、q(y|x)とp(y|x)が、それぞれ下記式（６）及び下記式（７）となる。

ここで、φ^ｑとφ^ｐを共有するφとすると、上記式（７）は、下記式（８）及び下記式（９）となる。

上記方程式の第2項はラベルy =cに依存しないので、log（q(y|x)/ p(y|x)）に対する近似推論を実行するために最初の項のみをモデル化する必要がある。

を陰関数（implicit）として、

とすると、

が得られる。ｗを、r（x）の最終層の重み（final layer of r(x)）とすると、cGANsのディスクリミネータ・モデルは下記式（１０）で表される。
下記式（１０）において、yとしてワン・ホット・エンコードされたデータを用いると、下記式（１１）で表されるモデルが導かれる。

（11）
ここで、
Vは、yの埋め込み行列、

は、xを引数にしてベクトルを出力する関数、

は、

を引数にしてスカラー値を出力する関数である。

は、学習パラメータであり、敵対的損失を最適化するように訓練されるパラメータである。

上記式（１１）及び図３に示すように、本発明では、コンディション情報yをφの出力に掛けて足すというモデルを使用する。

（連続可変ケース（Continuous variable case））

（AC- GANsおよびその他の補助的な損失ベースのGANsとの関係（Relation to AC-GANs and other auxiliary Loss-based GANs））

本発明のディスクリミネータモデルの有効性を示す実験を２つ行った。
１つは、ILSVRC2012データセット(ImageNet)でクラスconditional image generation、もう１つは同じデータセットを用いた超解像タスクである。どちらのタスクにもResNet(Heet al., 2016b)ベースのGulrajani et al. (2017)で使用されているディスクリミネータとジェネレータを用いた。
学習の目的関数には下記式（１６）及び下記式（１７）の敵対的損失（adversarial loss）を用いた。

またすべての実験でAdam optimizer (Kingma & Ba, 2015)を用いた。hyper parameter は過去の実験で使われているのと同じ通りα= 0.0002 ; β1 = 0 ; β2 = 0.9でジェネレータのアップデート（update）回数1に対する、ディスクリミネータのアップデート（update）回数を５とした。

（Class-Conditional Image Generation）
このタスクではImageNet datasetを用いてクラスで条件付きの生成モデルを学習した。クラス数は1000で、１クラスあたりの画像数はおよそ1300である。
評価に用いたのはVisual appearanceの良さを測る指標としてInception score、diversityをある程度はかる指標としてintra-class MSSSIM、intra-class FIDsである。
ここでは、state of the artのGANs モデルとしてAC-GANs (Odena et al., 2016)とconditionの与え方の違いによって性能がどのくらい違うかを見るためにhidden concatenationと提案するmultiplyの3つのモデルを試した。
図４に示すように、本発明（multiply）のほうがvisual qualityが高いことがわかる。

上記表１に、学習終了後の結果をそれぞれ示した。AC-GANs については学習途中に
学習（training）が崩壊（collapse）したのでいちばん最も開始スコア（inception score）が高かったときのモデルで各評価を行った。

まずVisual appearanceについては本発明（multiply）が従来技術（concat）を大きく上回っている。

図５に示すように、本発明（multiply）と従来技術（concat）を比較すると、ほとんどのクラスで本発明（multiply）の方がFIDが小さいつまり、特徴空間上でwasserstein distanceが小さいことがわかる。また、AC-GANsと本発明（multiply）を比較すると、AC-GANsはvisual qualityでは本発明（multiply）を上回っているが、Intra-MSSSIMの値がとても高い。

図６に示すように、AC-GANsは認識しやすいサンプルを生成するが、ほぼ単一のサンプルのみを生成しており生成モデルとしては程遠い結果となることがわかる。またIntra-FID scoreでは全体的に本発明（multiply）の方が、値が低い。これはFIDの２次の項によって多様性がないクラスはFIDの値が結果的に大きくなることに起因する。

（No obvious collapse by multiply method）
図７に示すように、本発明（multiply）のメソッドによって学習されたモデルでは、collapseしているクラスが認められなかった。従来技術（concat）のメソッドによって学習されたモデルは明らかにcollapseしているクラスが複数存在した。

（Class Morphing）
図８には、zを固定したのもと、異なるクラス間でモーフィング（morphing）した時の図を示している。全く異なるクラス間でも滑らか（smooth）にモーフィングが行われていることがわかる。

図９に示すように、Bicubicによる超解像はボケてしまっている。従来技術（concat）のメソッドによる超解像はある程度はっきりはしているものの、低解像度のギザギザ模様が残ってしまっていてうまく学習できていない。

Claims

ディスクリミネータの第１のネットワークに、少なくともジェネレータが生成した第１のデータ又は訓練データのいずれかを入力し、
前記第１のネットワークの出力とコンディション情報とに基づいて、第１のスカラー値を計算し、
前記ディスクリミネータの第２のネットワークに前記第１のネットワークの出力を入力することで第２のスカラー値を計算し、
前記第１のスカラー値と前記第２のスカラー値とに基づいて、損失を計算し、
前記損失に基づいて、少なくとも前記ディスクリミネータ又は前記ジェネレータのいずれかを更新する、
モデル生成方法。
ディスクリミネータの第１のネットワークに、少なくともジェネレータが生成した第１のデータ又は訓練データのいずれかを入力し、
前記第１のネットワークの出力とコンディション情報の積に基づいて、第１のスカラー値を計算し、
前記第１のスカラー値に基づいて、損失を計算し、
前記損失に基づいて、少なくとも前記ディスクリミネータ又は前記ジェネレータのいずれかを更新する、
モデル生成方法。
前記ディスクリミネータの第２のネットワークに前記第１のネットワークの出力を入力することで第２のスカラー値を計算し、
第１のスカラー値と前記第２のスカラー値とに基づいて、前記損失を計算する、
請求項２に記載のモデル生成方法。
前記第１のネットワークの出力と前記コンディション情報の内積によって、前記第１のスカラー値を計算する、
請求項１乃至３のいずれかに記載のモデル生成方法。
前記コンディション情報は、ワン・ホット・ベクトルである、
請求項１乃至４のいずれかに記載のモデル生成方法。
前記コンディション情報は、カテゴリーに関する情報を含む、
請求項１乃至５のいずれかに記載のモデル生成方法。
前記第１のデータは、画像データである、
請求項１乃至６のいずれかに記載のモデル生成方法。
前記ジェネレータにノイズを入力することで前記第１のデータを生成する、
請求項１乃至７のいずれかに記載のモデル生成方法。
請求項１乃至８のいずれかに記載のモデル生成方法で生成されたジェネレータにノイズを入力することでデータを生成するデータ生成方法。
少なくとも１台のコンピュータに請求項１乃至８のいずれかに記載のモデル生成方法を実行させるプログラム。
少なくとも１台のコンピュータに請求項９に記載のデータ生成方法を実行させるプログラム。
ジェネレータとディスクリミネータの２つのニューラルネットワークから構成される敵対生成ネットワークの生成方法であって、
前記ディスクリミネータが、下記式（１１）のモデルで演算を行った結果を出力する、
生成方法。

ここで、
xは、前記ジェネレータにより生成されたデータ又は訓練データ、
yは、xのコンディション情報、
Vは、yの埋め込み行列、

は、xを引数にしてベクトルを出力する関数、

は、

を引数にしてスカラー値を出力する関数、

は、学習パラメータであり、損失を最小化するように訓練されるパラメータである。
ディスクリミネータの第１のネットワークに、少なくともジェネレータが生成した第１のデータ又は訓練データのいずれかを入力し、
前記第１のネットワークの出力とコンディション情報とに基づいて、第１のスカラー値を計算し、
前記ディスクリミネータの第２のネットワークに前記第１のネットワークの出力を入力することで第２のスカラー値を計算し、
前記第１のスカラー値と前記第２のスカラー値とに基づいて、損失を計算し、
前記損失に基づいて、少なくとも前記ディスクリミネータ又は前記ジェネレータのいずれかを更新する、
モデル生成装置。
ディスクリミネータの第１のネットワークに、少なくともジェネレータが生成した第１のデータ又は訓練データのいずれかを入力し、
前記第１のネットワークの出力とコンディション情報の積に基づいて、第１のスカラー値を計算し、
前記第１のスカラー値に基づいて、損失を計算し、
前記損失に基づいて、少なくとも前記ディスクリミネータ又は前記ジェネレータのいずれかを更新する、
モデル生成装置。
前記ディスクリミネータの第２のネットワークに前記第１のネットワークの出力を入力することで第２のスカラー値を計算し、
第１のスカラー値と前記第２のスカラー値とに基づいて、前記損失を計算する、
請求項１４に記載のモデル生成装置。
前記第１のネットワークの出力と前記コンディション情報の内積によって、前記第１のスカラー値を計算する、
請求項１３乃至１５のいずれかに記載のモデル生成装置。
前記コンディション情報は、ワン・ホット・ベクトルである、
請求項１３乃至１６のいずれかに記載のモデル生成装置。
前記コンディション情報は、カテゴリーに関する情報を含む、
請求項１３乃至１７のいずれかに記載のモデル生成装置。
前記第１のデータは、画像データである、
請求項１３乃至１８のいずれかに記載のモデル生成装置。
前記ジェネレータにノイズを入力することで前記第１のデータを生成する、
請求項１３乃至１９のいずれかに記載のモデル生成装置。
請求項１３乃至２０のいずれかに記載のモデル生成装置で生成されたジェネレータにノイズを入力することでデータを生成するデータ生成装置。
１又は複数のプロセッサに、
ディスクリミネータの第１のネットワークに、少なくともジェネレータが生成した第１のデータ又は訓練データのいずれかを入力し、
前記第１のネットワークの出力とコンディション情報とに基づいて、第１のスカラー値を計算し、
前記ディスクリミネータの第２のネットワークに前記第１のネットワークの出力を入力することで第２のスカラー値を計算し、
前記第１のスカラー値と前記第２のスカラー値とに基づいて、損失を計算し、
前記損失に基づいて、少なくとも前記ディスクリミネータ又は前記ジェネレータのいずれかを更新する、
方法を実行させるプログラム。
１又は複数のプロセッサに、
ディスクリミネータの第１のネットワークに、少なくともジェネレータが生成した第１のデータ又は訓練データのいずれかを入力し、
前記第１のネットワークの出力とコンディション情報の積に基づいて、第１のスカラー値を計算し、
前記第１のスカラー値に基づいて、損失を計算し、
前記損失に基づいて、少なくとも前記ディスクリミネータ又は前記ジェネレータのいずれかを更新する、
方法を実行させるプログラム。