JP2022003423A

JP2022003423A - 学習方法、学習装置及びプログラム

Info

Publication number: JP2022003423A
Application number: JP2018150539A
Authority: JP
Inventors: 正一朗山口; Seiichiro Yamaguchi
Original assignee: Preferred Networks Inc
Current assignee: Preferred Networks Inc
Priority date: 2018-08-09
Filing date: 2018-08-09
Publication date: 2022-01-11
Also published as: WO2020031802A1

Abstract

【課題】敵対的生成ネットワークにおけるモード崩壊を軽減するための技術を提供することである。【解決手段】本開示の一態様は、プロセッサにより実行されるステップからなる学習方法であって、敵対的生成ネットワークに従って生成器と識別器とを学習するステップを有し、前記学習するステップは、前記生成器がサンプルしうる領域における、前記生成器の損失関数を凹化するように、前記識別器のパラメータを更新するステップを含む学習方法に関する。【選択図】図６

Description

本開示は、機械学習に関する。

敵対的生成ネットワーク（以下、GANs (Generative Adversarial Networks)と称する）は、画像生成及び動画生成の分野において驚くべき結果を残している一方、学習が困難であることが知られている。GANsの学習を困難にする現象としてモード崩壊（"mode collapse"）が知られている。

モード崩壊は、モデル分布から生成されるサンプルの多様性が小さくなってしまう現象である。例えば、手書き文字データセットMNISTにあるような手書き文字を生成する際、モデル分布は"0"〜"9"の10個のモードを有する分布になっていると考えられる。しかしながら、GANsの学習の結果として、モデル分布が特定の数字のみサンプルして失敗することがある。

"Generative Adversarial Nets", Ian J. Goodfellow, et. al., In NIPS 2014. "Conditional Generative Adversarial Nets", Mehdi Mirza, et. al., arXiv: 1411.1784, Nov. 6, 2014. "Temporal Generative Adversarial Nets with Singular Value Clipping", Masaki Saito, et. al., arXiv: 1611.06624, Aug. 18, 2017.

モード崩壊を回避する様々な手法が提案されている。例えば、spectral normalizationはGANsの学習不安定性を劇的に改善し、モード崩壊を大きく改善した。

しかしながら、spectral normalizationを用いた場合でも、生成されるサンプルの多様性を測る指標として用いられるinception score及びFID (Frechet Inspection Distance)は、学習に用いたデータのものを有意に下回っている。すなわち、GANsによって学習された生成器は依然として学習データが有する多様性を表現できていないことが分かる。

上述した問題点を鑑み、本開示の課題は、GANsにおけるモード崩壊を軽減するための技術を提供することである。

上記課題を解決するため、本開示の一態様は、プロセッサにより実行されるステップからなる学習方法であって、敵対的生成ネットワークに従って生成器と識別器とを学習するステップを有し、前記学習するステップは、前記生成器がサンプルしうる領域における、前記生成器の損失関数を凹化するように、前記識別器のパラメータを更新するステップを含む学習方法に関する。

本開示によると、GANsにおけるモード崩壊を軽減するための技術を提供することができる。

損失関数の表面上の凸部分への勾配ベクトル及び生成器の分布を示す概略図である。本開示の一実施例による凸部分の凹化による勾配ベクトル及び生成器の分布を示す概略図である。本開示の一実施例による学習システムを示す概略図である。本開示の一実施例による学習装置のハードウェア構成を示すブロック図である。本開示の一実施例によるGANsによる学習処理を示すフローチャートである。本開示の一実施例による凸部分の凹化を示す概略図である。

以下の実施例では、GANsによる学習装置及び方法が開示される。

本開示による学習装置及び方法を概略すると、GANsにおける生成器がサンプルしうる領域における、生成器の損失関数を凹化（concavify）又は正則化（regularize）するように識別器のパラメータが更新される。

具体的には、図１に示されるように、生成器の負の損失関数-L_gの表面上で生成器がサンプルしうる領域には、凸な部分が発生する可能性があり、確率勾配法が学習処理に適用される場合、図１（ａ）に示されるように、生成器の損失関数の勾配ベクトルは当該凸領域に移動することなる。この結果、図１（ｂ）に示されるように、生成器の生成分布は凸領域に集中することになり、特定のデータのみが生成されるモード崩壊が発生する。

本開示の学習装置及び方法によると、このような凸領域を凹化又は正則化し、図２に示されるように、生成器の損失関数の表面をスムース化する。この結果、図２（ａ）に示されるように、生成器の損失関数の勾配ベクトルは拡散され、図２（ｂ）に示されるように、生成器の生成分布は拡散され、モード崩壊が軽減又は解消される。

以下の説明において、凹凸は数学的な定義に基づくものであり、具体的には、関数fが凸であるとは、区間内の任意の異なる2点x, yと開区間(0, 1)内の任意のtに対して、
f(tx + (1-t)y) ≦ tf(x) + (1-t)f(y)
を満たすと定義される。また、-fが凸関数のとき、fを凹関数と呼ぶ。凸関数を「下に凸な関数」、凹関数を「上に凸な関数」と称することもある。

まず、図３及び４を参照して、本開示の一実施例によるGANsによる学習装置を説明する。図３は、本開示の一実施例による学習システムを示す概略図である。

図３に示されるように、本開示の一実施例による学習システム１０は、データベース（DB）５０及び学習装置１００を有する。

DB５０は、学習装置１００により利用される訓練データを格納する。具体的には、DB５０は、学習装置１００における生成器による生成対象であると共に、識別器による判別対象であるデータを格納する。例えば、学習装置１００により学習される生成モデルの性能をシミュレートする場合、DB５０には、MNIST, CIFAR-10, CIFAR-100などのシミュレーション用の画像データセットが格納されてもよい。

学習装置１００は、GANsにおける生成器及び識別器と呼ばれる２つのニューラルネットワークを有する。本開示による生成器及び識別器には、任意のニューラルネットワークが適用されてもよい。生成器及び識別器のニューラルネットワークは、学習処理の開始時には何れか適切な初期状態に設定され、学習処理が進捗するに従って、生成器及び識別器の各ニューラルネットワークの各種パラメータが、例えば、以下で詳細に説明されるように順次更新される。

一実施例のGANsによる学習処理では、まず乱数などの入力データzが生成器に入力され、生成器によって出力データが生成される。次に、生成器によって生成された出力データ又はDB５０における訓練データが入力データxとして識別器に入力され、識別器によって入力データxが生成器による出力データ又はDB５０からの訓練データの何れであるかを示す判別結果が出力される。例えば、生成器による出力データである場合には0が出力され、DB５０からの訓練データである場合には1が出力される。当該判別結果に応じて、識別器が正しい判別結果を出力するように、例えば、確率勾配法に基づくバックプロパゲーションに従って識別器のニューラルネットワークのパラメータが更新される。また、生成器の出力データが識別器によって訓練データと判別されるように、例えば、確率勾配法に基づくバックプロパゲーションに従って生成器のニューラルネットワークのパラメータが更新される。

すなわち、GANsでは、

となるように学習処理が実行される。ここで、gは生成器であり、fは識別器であり、xは入力データであり、L_gは生成器の活性化関数であり、L_rは識別器の活性化関数である。V(g,f)はベースライン目的関数として参照されうる。

また、f,gをそれぞれφ,θによってパラメータ化すると、GANsによる学習処理では、

に従って生成器及び識別器のパラメータが更新されていく。ここで、zは乱数又はノイズであり、αは学習率である。

また、上記の生成器のパラメータθの更新式の第２項について、

により書き換え可能である。ターゲット分布

と共に（ただし、全ての可測集合Aに対して、

である）、輸送関数を

として定義する。ここで、

はシード変数zに依存する分布である。このとき、

となる。

このことは、

とg(z)とのL₂距離の平方が減少するようにgが更新され続けることを意味し、すなわち、生成器の更新は、

を

に向かって移動させることを意味する。すなわち、上述したGANsによる学習処理は、関数勾配の観点から以下のように記述できる。

本開示によると、上述したfの目的関数（critic's objective）が、

により置き換えられ、当該目的関数により識別器のパラメータが更新される。ここで、V(g,f)は上述したベースライン目的関数であり、εは0から1の範囲内の値であり、αは定数である。また、L_regは、生成器の分布から２点x_1,x₂を独立にサンプリングし、x₁, x₂の間の生成器の損失関数L_gの表面における凹凸を

に従って評価することによって決定される。すなわち、上述したfの目的関数は、生成器の負の損失関数の表面上で生成器がサンプルしうる領域において当該損失関数を凹化するように、識別器のパラメータに正則化を加える。

所定の終了条件が充足されるまで、上述した生成器及び識別器のパラメータが更新され続け、所定の終了条件が充足されると、最終的な生成器が学習済み生成モデルとして取得される。しかしながら、本開示による学習処理は、これに限定されず、他の何れか適切なGANsに基づく学習処理が適用されてもよい。

ここで、学習装置１００は、例えば、図４に示されるように、CPU (Central Processing unit)、GPU (Graphics Processing Unit)などのプロセッサ１０１、RAM (Random Access Memory)、フラッシュメモリなどのメモリ１０２、ハードディスク１０３及び入出力(I/O)インタフェース１０４によるハードウェア構成を有してもよい。

プロセッサ１０１は、学習装置１００の各種処理を実行し、上述したGANsによる生成器及び識別器に対する学習処理、生成器及び識別器の実行、生成器、識別器及びDB５０の間のデータの入出力を含む、学習装置１００の全体制御などの各種処理を実行する。

メモリ１０２は、学習装置１００における各種データ及びプログラムを格納し、特に作業用データ、実行中のプログラムなどのためのワーキングメモリとして機能する。具体的には、メモリ１０２は、ハードディスク１０３からロードされた生成器及び識別器における学習処理を実行及び制御するためのプログラムを格納し、プロセッサ１０１によるプログラムの実行中にワーキングメモリとして機能する。

ハードディスク１０３は、学習装置１００における各種データ及びプログラムを格納し、生成器及び識別器における処理を実行及び制御するための各種データ及び／又はプログラムを格納する。

I/Oインタフェース１０４は、DB５０などの外部装置との間でデータを入出力するためのインタフェースであり、例えば、USB (Universal Serial Bus)、通信回線、キーボード、マウス、ディスプレイなどのデータを入出力するためのデバイスである。

しかしながら、本開示による学習装置１００は、上述したハードウェア構成に限定されず、他の何れか適切なハードウェア構成を有してもよい。例えば、上述した学習装置１００による学習処理は、これを実現するよう配線化された処理回路又は電子回路により実現されてもよい。

次に、図５及び６を参照して、本開示の一実施例によるGANsによる画像生成モデルの学習処理を説明する。図５は、本開示の一実施例によるGANsによる学習処理を示すフローチャートである。

図５に示されるように、ステップＳ１０１において、プロセッサ１０１は、乱数を生成器に入力する。プロセッサ１０１は、何れか適切な擬似乱数発生ルーチンを実行することによって、あるいは、学習装置１００に搭載された乱数発生器を利用することによって乱数を生成し、生成した乱数を生成器に入力してもよい。

ステップＳ１０２において、プロセッサ１０１は、入力された乱数から生成器によって生成された画像を取得する。例えば、生成器は、何れか適切な構造を有するニューラルネットワークであってもよい。

ステップＳ１０３において、プロセッサ１０１は、生成器によって生成された画像又はDB５０に格納されている訓練画像を識別器に入力する。

ステップＳ１０４において、プロセッサ１０１は、入力画像が生成器の出力画像であるか、あるいは、訓練画像であるか識別器に判別させる。例えば、識別器は、何れか適切な構造を有するニューラルネットワークであってもよい。

ステップＳ１０５において、プロセッサ１０１は、識別器による判別結果に応じて識別器及び生成器のパラメータを更新する。すなわち、プロセッサ１０１は、識別器が入力画像を正しく判別するように、確率勾配法に基づくバックプロパゲーションに従って識別器のパラメータを更新し、識別器が生成器によって生成された画像を訓練画像であると判別するように、確率勾配法に基づくバックプロパゲーションに従って生成器のパラメータを更新する。

具体的には、プロセッサ１０１は、生成器がサンプルしうる領域における、生成器の損失関数を凹化又は正則化するように、識別器のパラメータを更新する。例えば、プロセッサ１０１は、上述したように、識別器の目的関数が

となるように、生成器がサンプルしうる領域において損失関数を凹化又は正則化してもよい。すなわち、プロセッサ１０１は、図６に示されるように、生成器の損失関数の表面上の２点間の線分上の点の当該損失関数の値が２点の損失関数の各値の線形結合になるように、損失関数を凹化又は正則化してもよい。例えば、図６（ａ）に示されるように、生成器の損失関数の表面上に凸領域がある場合、すなわち、

が正値である場合、プロセッサ１０１は、

に従って生成器がサンプルしうる領域において損失関数を凹化し、図６（ｂ）に示されるように、損失関数の表面がスムース化されるように正則化を加えながら識別器のパラメータを更新する。

上述したように、このような凸領域は、図１（ａ）に示されるように、生成器の損失関数の勾配ベクトルを凸領域に向かって誘導させ、この結果、図１（ｂ）に示されるように、モード崩壊を発生させる。一方、本開示によると、生成器がサンプルしうる領域において損失関数を凹化することによって、図２（ａ）に示されるように、生成器の損失関数の勾配ベクトルが拡散され、図２（ｂ）に示されるように、生成器の生成モデルにおける分布が拡散され、モード崩壊の発生を回避できる。

その後、プロセッサ１０１は、上述したステップＳ１０１〜Ｓ１０５を繰り返し、所定の終了条件が充足されると、当該学習処理を終了する。例えば、所定の終了条件は、所定の回数の繰り返しを終了したこと、生成器及び／又は識別器の精度が所定の閾値を超えたこと、生成器及び／又は識別器の精度が収束したことなどであってもよい。

なお、上述した実施例では、画像データに対して生成器及び識別器が学習されたが、本開示による学習処理は、これに限定されず、動画データ、音響データなどの他の任意のタイプのデータにも適用可能である。

以上、本発明の実施例について詳述したが、本発明は上述した特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

５０データベース（DB）
１００学習装置

Claims

プロセッサにより実行されるステップからなる学習方法であって、
敵対的生成ネットワークに従って生成器と識別器とを学習するステップを有し、
前記学習するステップは、前記生成器がサンプルしうる領域における、前記生成器の損失関数を凹化するように、前記識別器のパラメータを更新するステップを含む学習方法。
前記更新するステップは、前記損失関数の表面上の２点間の線分上の点の前記損失関数の値が前記２点の損失関数の各値の線形結合になるように、前記損失関数を凹化する、請求項１記載の学習方法。
前記損失関数の凹化は、前記損失関数の勾配ベクトルを拡散させる、請求項１又は２記載の学習方法。
前記学習するステップは、
前記生成器によって、乱数から画像を生成するステップと、
前記識別器によって、入力画像が前記生成された画像又は訓練画像の何れであるか判別するステップと、
判別結果に応じて前記生成器と前記識別器とのパラメータを更新するステップと、
所定の終了条件が充足されるまで前記生成するステップ、前記判別するステップ及び前記更新するステップを繰り返すステップと、
を含む、請求項１乃至３何れか一項記載の学習方法。
前記生成器のパラメータは、前記識別器が前記生成された画像を前記訓練画像であると判別するように更新され、
前記識別器のパラメータは、前記識別器が前記入力画像を正しく判別するように更新される、請求項４記載の学習方法。
前記生成器及び前記識別器は、ニューラルネットワークである、請求項１乃至５何れか一項記載の学習方法。
メモリと、
前記メモリに結合されるプロセッサと、
を有し、
前記プロセッサは、
敵対的生成ネットワークに従って生成器と識別器とを学習し、
前記プロセッサは、前記生成器がサンプルしうる領域における、前記生成器の損失関数を凹化するように、前記識別器のパラメータを更新する学習装置。
敵対的生成ネットワークに従って生成器と識別器とを学習する処理をプロセッサに実行させ、
前記学習する処理は、前記生成器がサンプルしうる領域における、前記生成器の損失関数を凹化するように、前記識別器のパラメータを更新する処理を含むプログラム。