JP7464138B2

JP7464138B2 - 学習装置、学習方法及び学習プログラム

Info

Publication number: JP7464138B2
Application number: JP2022553337A
Authority: JP
Inventors: 真弥山口; 関利金井
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2024-04-09
Anticipated expiration: 2040-09-30
Also published as: US20230359904A1; JPWO2022070343A1; WO2022070343A1

Description

本発明は、学習装置、学習方法及び学習プログラムに関する。

従来、深層学習技術を基にした技術であり、学習させたデータの分布を学習することで本物に近いサンプルを生成する深層生成モデルが知られている。例えば、深層学習モデルとして、ＧＡＮ（Generative Adversarial Networks）が知られている（例えば、非特許文献１を参照）。

Goodfellow, Ian, et al. "Generative adversarial nets." Advances in neural information processing systems. 2014. (NIPS 2014)

しかしながら、従来の技術には、過学習が発生しモデルの精度が向上しない場合があるという問題がある。例えば、学習済みのＧＡＮの生成器が生成するサンプルには、実際の学習データには含まれない高周波成分が混入する。その結果、識別器が高周波成分に依存して真贋判定を行うようになり、過学習が発生する場合がある。

上述した課題を解決し、目的を達成するために、学習装置は、第１のデータを第１の周波数成分に変換し、敵対的学習モデルを構成する生成器によって生成された第２のデータを第２の周波数成分を変換する変換部と、前記生成器と、前記敵対的学習モデルを構成し、前記第１のデータと前記第２のデータとを識別する第１の識別器と、前記敵対的学習モデルを構成し、前記第１の周波数成分と前記第２の周波数成分とを識別する第２の識別器と、を同時最適化する損失関数を計算する計算部と、前記計算部によって計算された損失関数が最適化されるように、前記生成器、前記第１の識別器及び前記第２の識別器のパラメータを更新する更新部と、を有することを特徴とする。

本発明によれば、過学習の発生を抑止し、モデルの精度を向上させることができる。

図１は、第１の実施形態に係る深層学習モデルを説明する図である。図２は、高周波成分の影響を説明する図である。図３は、第１の実施形態に係る学習装置の構成例を示す図である。図４は、第１の実施形態に係る学習装置の処理の流れを示すフローチャートである。図５は、実験の結果を示す図である。図６は、実験の結果を示す図である。図７は、実験の結果を示す図である。図８は、学習プログラムを実行するコンピュータの一例を示す図である。

以下に、本願に係る学習装置、学習方法及び学習プログラムの実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。

ＧＡＮは、生成器Ｇと識別器Ｄの２つの深層学習モデルによってデータ分布ｐ＿ｄａｔａ（ｘ）を学習する技術である。ＧはＤを騙すように学習し、ＤはＧと学習データを区別できるように学習する。このような複数のモデルが敵対的な関係にあるモデルを、敵対的学習モデルと呼ぶ場合がある。

ＧＡＮのような敵対的学習モデルは、画像、テキスト及び音声等の生成において利用される。
参考文献１：Karras, Tero, et al. "Analyzing and improving the image quality of stylegan." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020. (CVPR 2020)
参考文献２：Donahue, Chris, Julian McAuley, and Miller Puckette. "Adversarial audio synthesis." arXiv preprint arXiv:1802.04208 (2018).(ICLR 2019)
参考文献３：Yu, Lantao, et al. "Seqgan: Sequence generative adversarial nets with policy gradient." Thirty-first AAAI conference on artificial intelligence. 2017. (AAAI 2017)

ここで、ＧＡＮには、学習が進むにつれてＤが学習サンプルに対して過学習するという問題がある。その結果、各モデルは、データ生成に対して意味のある更新が行えなくなり、生成器による生成品質は劣化していく。このことは、例えば参考文献４のFigure 1等に示されている。
参考文献４：Karras, Tero, et al. "Training Generative Adversarial Networks with Limited Data." arXiv preprint arXiv:2006.06676 (2020).

また、参考文献５には、学習済みのＣＮＮ出力が、入力の高周波成分に依存して予測を行っていることが記載されている。
参考文献５：Wang, Haohan, et al. "High-frequency Component Helps Explain the Generalization of Convolutional Neural Networks." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020.(CVPR 2020)

また、参考文献６には、ＧＡＮの生成器Ｇと識別器Ｄを構成するニューラルネットワークは低周波、高周波の順に学習する傾向があることが記載されている。
参考文献６：Rahaman, Nasim, et al. "On the spectral bias of neural networks." International Conference on Machine Learning. 2019. (ICML 2019)

そこで、第１の実施形態では、データの高周波成分の生成器Ｇ及び識別器Ｄへの影響を低減することで、過学習の発生を抑止し、モデルの精度を向上させることを１つの目的とする。図１は、第１の実施形態に係る深層学習モデルを説明する図である。また、図２は、高周波成分の影響を説明する図である。

図２に示すように、実在するデータ（Ｒｅａｌ）と生成器によって生成されたデータ（ＧＡＮ）とでは、CIFAR-10（二次元パワースペクトル）が異なる。また、参考文献７には、各種ＧＡＮで生成したデータは、実在のデータに比べ、高周波におけるパワースペクトルが増大することが示されている。
参考文献７：Durall, Ricard, Margret Keuper, and Janis Keuper. "Watch your Up-Convolution: CNN Based Generative Deep Neural Networks are Failing to Reproduce Spectral Distributions." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020. (CVPR 2020)

図１に戻り、本実施形態の深層学習モデルは、実在のデータ集合Ｘに含まれるデータ（Ｒｅａｌ）と、乱数ｚから生成器Ｇによって生成されたデータ（Ｆａｋｅ）について、識別器Ｄ_ｓが、いずれのデータがＲｅａｌ（又はＦａｋｅ）であるかを識別する。さらに、Ｄ_ｆは、Ｒｅａｌ及びＦａｋｅから変換された周波数成分を識別する。

従来のＧＡＮにおいては、１つの識別器の識別精度が向上するように、すなわち識別器ＤがＲｅａｌをＲｅａｌと識別する確率が大きくなるように識別器Ｄの最適化が行われる。また、生成器Ｇが生成器Ｇを騙す能力、すなわち識別器ＤがＲｅａｌをＦａｋｅと識別する確率が大きくなるように生成器Ｇの最適化が行われる。

本実施形態では、生成器Ｇ、識別器Ｄ_ｓ、識別器Ｄ_ｆの同時最適化が行われる。以下、本実施形態の学習装置の構成とともに、深層学習モデルの学習処理の詳細を説明する。

［第１の実施形態の構成］
図３は、第１の実施形態に係る学習装置の構成例を示す図である。学習装置１０は、学習用のデータの入力を受け付け、深層学習モデルのパラメータを更新する。また、学習装置１０は、更新済みのパラメータを出力してもよい。図３に示すように、学習装置１０は、入出力部１１、記憶部１２及び制御部１３を有する。

入出力部１１は、データの入出力を行うためのインタフェースである。例えば、入出力部１１は、ネットワークを介して他の装置との間でデータ通信を行うためのＮＩＣ（Network Interface Card）等の通信インタフェースであってもよい。また、入出力部１１は、マウス、キーボード等の入力装置、及びディスプレイ等の出力装置を接続するためのインタフェースであってもよい。

記憶部１２は、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、光ディスク等の記憶装置である。なお、記憶部１２は、ＲＡＭ（Random Access Memory）、フラッシュメモリ、ＮＶＳＲＡＭ（Non Volatile Static Random Access Memory）等のデータを書き換え可能な半導体メモリであってもよい。記憶部１２は、学習装置１０で実行されるＯＳ（Operating System）や各種プログラムを記憶する。また、記憶部１２は、モデル情報１２１を記憶する。

モデル情報１２１は、深層学習モデルを構築するためのパラメータ等の情報であり、学習処理において適宜更新される。また、更新済みのモデル情報１２１は、入出力部１１を介して他の装置等に出力されてもよい。

制御部１３は、学習装置１０全体を制御する。制御部１３は、例えば、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、ＧＰＵ（Graphics Processing Unit）等の電子回路や、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field Programmable Gate Array）等の集積回路である。また、制御部１３は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、内部メモリを用いて各処理を実行する。また、制御部１３は、各種のプログラムが動作することにより各種の処理部として機能する。例えば、制御部１３は、生成部１３１、変換部１３２、計算部１３３及び更新部１３４を有する。

生成部１３１は、乱数ｚを生成器Ｇに入力し第２のデータを生成する。

変換部１３２は、微分可能な関数を用いて、第１のデータ及び第２のデータを周波数成分に変換する。これは、逆誤差伝搬法によるパラメータの更新を可能にするためである。例えば、変換部１３２は、離散フーリエ変換（ＤＦＴ：discrete Fourier transform）又は離散コサイン変換（ＤＣＴ：discrete cosine transform）により第１のデータ及び第２のデータを周波数成分に変換する。

計算部１３３は、生成器Ｇと、敵対的学習モデルを構成し、第１のデータと第２のデータとを識別する第１の識別器Ｄ_ｓと、敵対的学習モデルを構成し、第１の周波数成分と第２の周波数成分とを識別する第２の識別器Ｄ_ｆと、を同時最適化する損失関数を計算する。ここでは、計算部１３３は、（１）式に示す損失関数を計算する。

Ｆ（・）は空間領域のデータを周波数成分に変換する関数である。ｘ及びＧ（ｚ）は、それぞれＲｅａｌのデータ及びＦａｋｅのデータであり、第１のデータ及び第２のデータの一例である。また、Ｆ（ｘ）は、第１の周波数成分に相当する。また、Ｆ（Ｇ（ｚ））は、第２の周波数成分に相当する。

Ｇ（・）は、引数を基に生成器Ｇによって生成されたデータ（Ｆａｋｅ）を出力する関数である。また、Ｄ_ｓ（・）及びＤ_ｆ（・）は、引数として入力されたデータを、それぞれ識別器Ｄ_ｓ及びＤ_ｆがＲｅａｌであると識別する確率を出力する関数である。

計算部１３３は、第１の識別器Ｄ_ｓの識別精度が高いほど小さくなる第１の項と、第２の識別器Ｄ_ｆの識別精度が高いほど小さくなる第２の項と、を有する損失関数をさらに計算する。このとき、計算部１３３は、第１の項に０より大きく１未満である第１の係数を掛け、第２の項に、第１の係数を１から引いた第２の係数を掛けた損失関数を計算してもよい。具体的には、計算部１３３は、（２）式に示すＬ_Ｇを計算する。αは、第１の係数の一例である。

ここで、変換部１３２による変換前のデータを空間ドメインのデータと呼び、変換後のデータ（周波数成分）を周波数ドメインのデータと呼ぶ。（１）式の損失関数は、空間ドメインと、周波数ドメインの両方で最適な生成器Ｇを得るためのものである。一方で、（１）式の最適は、必ずしも空間ドメイン及び周波数ドメイン単体について最適な生成器Ｇとなることを意味しない。

そこで、本実施形態では、空間ドメインでのデータ分布学習の安定化及び生成品質改善を図るため、（２）式のような生成器Ｇの損失関数において、空間ドメインを優先するためのトレードオフパラメータαを導入することができる。ただし、αはハイパーパラメータである。

さらに、計算部１３３は、第１の識別器Ｄ_ｓの識別精度と第２の識別器Ｄ_ｆの識別精度との差分が小さいほど小さくなる損失関数をさらに計算する。具体的には、計算部１３３は、（３）式のような損失関数を計算する。

（３）式のＬ_ｃは、空間ドメイン用の識別器Ｄ_ｓと、周波数ドメイン用の識別器Ｄ_ｆの一貫性損失ということができる。ここで、空間ドメインと周波数ドメインの両ドメインの識別器に入力されるデータはドメインが異なるだけで、元は同一のデータであり、学習するデータ分布も同じである。このことから、識別器Ｄ_ｓと識別器Ｄ_ｆの出力は一致していることが望ましい。

（３）式は、識別器Ｄ_ｓと識別器Ｄ_ｆの出力を互いに近づけるための損失であり、これにより、識別器Ｄ_ｓと識別器Ｄ_ｆ間で知識が共有される。

更新部１３４は、計算部１３３によって計算された損失関数が最適化されるように、生成器、第１の識別器Ｄ_ｓ及び第２の識別器Ｄ_ｆのパラメータを更新する。更新部１３４は、（１）式、（２）式及び（３）式の損失関数を最適化するように各モデルのパラメータを更新する。

［第１の実施形態の処理］
図４は、第１の実施形態に係る学習装置の処理の流れを示すフローチャートである。以下、図中のＤ＿ｓ及びＤ＿ｆは、Ｄｓ及びＤｆと同意である。図４に示すように、まず、学習装置１０は、学習データを読み込む（ステップＳ１０１）。ここでは、学習装置１０は、実在するデータ（Ｒｅａｌ）を学習データとして読み込む。

次に、学習装置１０は、正規分布から乱数ｚをサンプリングし、Ｇ（ｚ）によってサンプル（Ｆａｋｅ）を生成する（ステップＳ１０２）。学習装置１０は、ＲｅａｌとＦａｋｅをＦで周波数変換し、生成器Ｇと識別器Ｄ_ｆによるＧＡＮ損失を計算する（ステップＳ１０３）。生成器Ｇと識別器Ｄ_ｆによるＧＡＮ損失は、（１）式の右辺の第４項に相当する。

そして、学習装置１０は、生成器Ｇと識別器Ｄ_ｓによるＧＡＮ損失を計算する（ステップＳ１０４）。生成器Ｇと識別器Ｄ_ｓによるＧＡＮ損失は、（１）式の右辺の第２項に相当する。

ここで、学習装置１０は、ハイパーパラメータαを用いてＧに関する全体損失を計算する（ステップＳ１０５）。全体損失は、（２）式のＬ_Ｇに相当する。学習装置１０は、（２）式の全体損失の逆誤差伝搬法によりＧのパラメータ更新する（ステップＳ１０６）。

さらに、学習装置１０は、ＲｅａｌとＦａｋｅから識別器Ｄ_ｓと識別器Ｄ_ｆのＧＡＮ損失を計算する（ステップＳ１０７）。識別器Ｄ_ｓと識別器Ｄ_ｆのＧＡＮ損失は、（１）式に相当する。

また、学習装置１０は、識別器Ｄ_ｓ及び識別器Ｄ_ｆの出力値から一貫性損失を計算する（ステップＳ１０８）。一貫性損失は、（３）式の右辺の｜｜｜｜内に相当する。

学習装置１０は、ハイパーパラメータλ_ｃを用いてＤ_ｓに関する全体損失を計算する（ステップＳ１０９）。λ_ｃを用いたＤ_ｓに関する全体損失は、（３）式のＬ_ｃに相当する。

そして、学習装置１０は、ＤｆのＧＡＮ損失の逆誤差伝搬によりＤ_ｆのパラメータを更新する（ステップＳ１１０）。また、学習装置１０は、Ｄ_ｓの全体損失の逆誤差伝搬によりＤ_ｓのパラメータを更新する（ステップＳ１１１）。

このとき、最大学習ステップ数＞学習ステップ数である場合（ステップＳ１１２、Ｔｒｕｅ）、学習装置１０はステップＳ１０１に戻り処理を繰り返す。一方、最大学習ステップ数＞学習ステップ数でない場合（ステップＳ１１２、Ｆａｌｓｅ）、学習装置１０は処理を終了する。

［第１の実施形態の効果］
これまで説明してきたように、変換部１３２は、第１のデータを第１の周波数成分に変換し、敵対的学習モデルを構成する生成器によって生成された第２のデータを第２の周波数成分を変換する。計算部１３３は、生成器と、敵対的学習モデルを構成し、第１のデータと第２のデータとを識別する第１の識別器と、敵対的学習モデルを構成し、第１の周波数成分と第２の周波数成分とを識別する第２の識別器と、を同時最適化する損失関数を計算する。更新部１３４は、計算部１３３によって計算された損失関数が最適化されるように、生成器、第１の識別器及び第２の識別器のパラメータを更新する。このように、学習装置１０は、周波数成分の影響を学習に反映させることができる。これにより、本実施形態によれば、過学習の発生を抑止し、モデルの精度を向上させることができる。

計算部１３３は、第１の識別器の識別精度が高いほど小さくなる第１の項と、第２の識別器の識別精度が高いほど小さくなる第２の項と、を有する損失関数をさらに計算する。また、計算部１３３は、第１の項に０より大きく１未満である第１の係数を掛け、第２の項に、第１の係数を１から引いた第２の係数を掛けた損失関数を計算する。これにより、例えば空間ドメインと周波数ドメインの両方ではなく、空間ドメイン単体で生成器Ｇを最適化することができる。

計算部１３３は、第１の識別器の識別精度と第２の識別器の識別精度との差分が小さいほど小さくなる損失関数をさらに計算する。これにより、空間ドメインと周波数ドメインで識別器の出力を一致させることができる。

［実験］
上記の実施形態を実際に実施して行った実験について説明する。実験の設定は以下の通りである。
・実験設定
データセット：CIFAR-100（画像データセット、100クラス）
学習データセット：50,000枚
ニューラルネットワークアーキテクチャ：Resnet-SNGAN（参考文献８：Miyato, Takeru, et al. "Spectral normalization for generative adversarial networks." arXiv preprint arXiv:1802.05957 (ICLR 2018).）
・実験手順
（１）学習データを用いて100,000 iteration 学習
（２）1,000 iteration ごとに生成品質（ＦＩＤ）を計測（参考文献９：Heusel, Martin, et al. "Gans trained by a two time-scale update rule converge to a local nash equilibrium." Advances in neural information processing systems. 2017. (NIPS 2017)）
（３）最もＦＩＤのスコアが良いモデルを最終的な学習モデルとする
（４）全１０回施行し、ＦＩＤの平均と標準偏差を求める
・実験パターン
ＳＮＧＡＮ：ベースライン（通常のＧＡＮ）（参考文献８）
ＣＶＰＲ２０：生成画像の周波数成分を最小化する既存手法（１次元ＤＦＴ、Binary Cross-entropyを使用）（参考文献７）
ＦｒｅｑＭＳＥ：周波数成分一致損失（２次元ＤＣＴ、Mean Squared Errorを使用）
ＳＳＤ２ＧＡＮ：空間・周波数ドメインの同時学習（２次元ＤＣＴ）
ＳＳＤ２ＧＡＮ＋ Tradeoff：トレードオフ係数α を導入（α＝0.8を使用）
ＳＳＤ２ＧＡＮ＋ＳＳＣＲ：Ｄ_ｓとＤ_ｆの一貫性損失を導入（λ＝0.001 を使用）

ＳＳＤ２ＧＡＮ及びTradeoff又はＳＳＣＲを付加した手法は、第１の実施形態に相当する。Tradeoffは（２）式の損失関数である。また、ＳＳＣＲは（３）式の損失関数である。ＦｒｅｑＭＳＥは、第１の実施形態とは異なる方法により、周波数成分の影響を考慮してモデルの精度を向上させる他の手法である。

図５、図６、図７は、実験の結果を示す図である。図５に示すように、ＦｒｅｑＭＳＥ及びＳＳＤ２ＧＡＮ＋ Tradeoff ＋ＳＳＣＲでは、生成器ＧのＦＩＤが小さくなり、生成品質が改善されたということができる。

また、図６に示すように、ＳＮＧＡＮを除く各手法で過学習が抑制されている。ＳＮＧＡＮは、40,000 iteration以降に過学習が発生し、ＦＩＤが悪化し続けている。

図７に示すように、各周波数成分の変換関数について、ＦｒｅｑＭＳＥ及びＳＳＤ２ＧＡＮでは、生成されたサンプルに含まれる、存在しない高周波成分を抑制する効果が現れている。

［システム構成等］
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、ＣＰＵ（Central Processing Unit）及び当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。なお、プログラムは、ＣＰＵだけでなく、ＧＰＵ等の他のプロセッサによって実行されてもよい。

また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
一実施形態として、学習装置１０は、パッケージソフトウェアやオンラインソフトウェアとして上記の学習処理を実行する学習プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の学習プログラムを情報処理装置に実行させることにより、情報処理装置を学習装置１０として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal Handyphone System）等の移動体通信端末、さらには、ＰＤＡ（Personal Digital Assistant）等のスレート端末等がその範疇に含まれる。

また、学習装置１０は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の学習処理に関するサービスを提供する学習サーバ装置として実装することもできる。例えば、学習サーバ装置は、学習用のデータを入力とし、学習済みモデルの情報を出力とする学習サービスを提供するサーバ装置として実装される。この場合、学習サーバ装置は、Ｗｅｂサーバとして実装することとしてもよいし、アウトソーシングによって上記の学習処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。

図８は、学習プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ（Read Only Memory）１０１１及びＲＡＭ（Random Access Memory）１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（BASIC Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、学習装置１０の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、学習装置１０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid State Drive）により代替されてもよい。

また、上述した実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０は、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した実施形態の処理を実行する。

なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

１０学習装置
１１入出力部
１２記憶部
１２１モデル情報
１３制御部
１３１生成部
１３２変換部
１３３計算部
１３４更新部

Claims

第１のデータを第１の周波数成分に変換し、敵対的学習モデルを構成する生成器によって生成された第２のデータを第２の周波数成分を変換する変換部と、
前記生成器と、前記敵対的学習モデルを構成し、前記第１のデータと前記第２のデータとを識別する第１の識別器と、前記敵対的学習モデルを構成し、前記第１の周波数成分と前記第２の周波数成分とを識別する第２の識別器と、を同時最適化する損失関数を計算する計算部と、
前記計算部によって計算された損失関数が最適化されるように、前記生成器、前記第１の識別器及び前記第２の識別器のパラメータを更新する更新部と、
を有することを特徴とする学習装置。
前記計算部は、前記第１の識別器の識別精度が高いほど小さくなる第１の項と、前記第２の識別器の識別精度が高いほど小さくなる第２の項と、を有する損失関数をさらに計算することを特徴とする請求項１に記載の学習装置。
前記計算部は、前記第１の項に０より大きく１未満である第１の係数を掛け、前記第２の項に、前記第１の係数を１から引いた第２の係数を掛けた損失関数を計算することを特徴とする請求項２に記載の学習装置。
前記計算部は、前記第１の識別器の識別精度と前記第２の識別器の識別精度との差分が小さいほど小さくなる損失関数をさらに計算することを特徴とする請求項１に記載の学習装置。
学習装置によって実行される学習方法であって、
第１のデータを第１の周波数成分に変換し、敵対的学習モデルを構成する生成器によって生成された第２のデータを第２の周波数成分を変換する変換工程と、
前記生成器と、前記敵対的学習モデルを構成し、前記第１のデータと前記第２のデータとを識別する第１の識別器と、前記敵対的学習モデルを構成し、前記第１の周波数成分と前記第２の周波数成分とを識別する第２の識別器と、を同時最適化する損失関数を計算する計算工程と、
前記計算工程によって計算された損失関数が最適化されるように、前記生成器、前記第１の識別器及び前記第２の識別器のパラメータを更新する更新工程と、
を含むことを特徴とする学習方法。
コンピュータを、請求項１から４のいずれか１項に記載の学習装置として機能させるための学習プログラム。