JP2021082118A

JP2021082118A - 学習方法、プログラム、学習装置、および、学習済みウエイトの製造方法

Info

Publication number: JP2021082118A
Application number: JP2019210422A
Authority: JP
Inventors: 法人日浅; Norito Hiasa
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2019-11-21
Filing date: 2019-11-21
Publication date: 2021-05-27
Anticipated expiration: 2039-11-21
Also published as: JP7443030B2

Abstract

【課題】高品質な偽データを安定して生成可能な機械学習モデルの学習方法を提供する。【解決手段】学習方法は、複数の第１の入力データと、複数の実データとを取得する取得工程と、生成器に複数の前記第１の入力データそれぞれを入力することで、複数の偽データを生成する生成工程と、識別器に前記実データまたは前記偽データを入力することで、入力されたデータが生成器によって生成されたデータであるかを識別した識別出力を生成する識別工程と、生成器または識別器のウエイトを、実データに基づく識別出力に基づく値と偽データに基づく識別出力に基づく値との比較に基づく損失関数であって、複数の実データと複数の偽データのそれぞれの識別出力の分布の重なりか、複数の実データまたは複数の偽データの識別出力の外れ値による影響か、が低減されるように定義された損失関数を用いて更新する学習工程とを有する。【選択図】図４

Description

本発明は、敵対的生成ネットワーク（ＧＡＮ：ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）などの機械学習モデルの学習方法に関する。

非特許文献１には、ＧＡＮの学習を安定化する方法として、ＲａＧＡＮ（ＲｅｌａｔｉｖｉｓｔｉｃａｖｅｒａｇｅＧＡＮ）と呼ばれる手法が開示されている。

Ａ．Ｊｏｌｉｃｏｅｕｒ−Ｍａｒｔｉｎｅａｕ，Ｔｈｅｒｅｌａｔｉｖｉｓｔｉｃｄｉｓｃｒｉｍｉｎａｔｏｒ：ａｋｅｙｅｌｅｍｅｎｔｍｉｓｓｉｎｇｆｒｏｍｓｔａｎｄａｒｄＧＡＮ，ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１８０７．００７３４

しかし、非特許文献１に開示されたＲａＧＡＮは、学習が正しく機能せず、生成された偽データが低品質になる（実データと乖離した性質を有する）場合がある。

そこで本発明の目的は、高品質な（実データに近い）偽データを安定して生成可能な機械学習モデルの学習方法、プログラム、学習装置、および、学習済みウエイトの製造方法を提供することである。

本発明の一側面としての学習方法は、複数の第１の入力データと、複数の実データとを取得する取得工程と、生成器に複数の前記第１の入力データそれぞれを入力することで、複数の偽データを生成する生成工程と、識別器に前記実データまたは前記偽データを入力することで、入力されたデータが前記生成器によって生成されたデータであるかを識別した識別出力を生成する識別工程と、前記生成器または前記識別器のウエイトを、前記実データに基づく識別出力に基づく値と前記偽データに基づく識別出力に基づく値との比較に基づく損失関数であって、前記複数の実データと前記複数の偽データのそれぞれの前記識別出力の分布の重なりか、前記複数の実データまたは前記複数の偽データの前記識別出力の外れ値による影響か、が低減されるように定義された損失関数を用いて更新する学習工程とを有する。

本発明の他の側面としてのプログラムは、前記学習方法をコンピュータに実行させる。

本発明の他の側面としての学習装置は、複数の第１の入力データと、複数の実データとを取得する取得手段と、生成器に複数の前記第１の入力データそれぞれを入力することで、複数の偽データを生成する生成手段と、識別器に前記実データまたは前記偽データを入力することで、入力されたデータが前記生成器によって生成されたデータであるかを識別した識別出力を生成する識別手段と、前記生成器または前記識別器のウエイトを、前記実データに基づく識別出力に基づく値と前記偽データに基づく識別出力に基づく値との比較に基づく損失関数であって、前記複数の実データと前記複数の偽データのそれぞれの前記識別出力の分布の重なりか、前記複数の実データまたは前記複数の偽データの前記識別出力の外れ値による影響か、が低減されるように定義された損失関数を用いて更新する学習手段とを有する。

本発明の他の側面としての学習済みウエイトの製造方法は、複数の第１の入力データと、複数の実データとを取得する取得工程と、生成器に複数の前記第１の入力データそれぞれを入力することで、複数の偽データを生成する生成工程と、識別器に前記実データまたは前記偽データを入力することで、入力されたデータが前記生成器によって生成されたデータであるかを識別した識別出力を生成する識別工程と、前記生成器または前記識別器のウエイトを、前記実データに基づく識別出力に基づく値と前記偽データに基づく識別出力に基づく値との比較に基づく損失関数であって、前記複数の実データと前記複数の偽データのそれぞれの前記識別出力の分布の重なりか、前記複数の実データまたは前記複数の偽データの前記識別出力の外れ値による影響か、が低減されるように定義された損失関数を用いて更新する学習工程とを有する。

本発明の他の目的及び特徴は、以下の実施例において説明される。

本発明によれば、高品質な（実データに近い）偽データを安定して生成可能な機械学習モデルの学習方法、プログラム、学習装置、および、学習済みウエイトの製造方法を提供することができる。

各実施例における効果の説明図である。実施例１における画像処理システムのブロック図である。実施例１における画像処理システムの外観図である。実施例１におけるウエイトの学習に関するフローチャートである。各実施例における機械学習モデルの構成を示す図である。実施例１における偽画像の生成に関するフローチャートである。実施例２における画像処理システムのブロック図である。実施例２における画像処理システムの外観図である。実施例２および実施例３におけるウエイトの学習に関するフローチャートである。実施例２における偽画像の生成に関するフローチャートである。実施例３における画像処理システムのブロック図である。実施例３における画像処理システムの外観図である。実施例３における偽画像の生成に関するフローチャートである。

以下、本発明の実施例について、図面を参照しながら詳細に説明する。各図において、同一の部材については同一の参照符号を付し、重複する説明は省略する。

ＧＡＮ（敵対的生成ネットワーク）は、生成器と識別器を有する機械学習モデルである。生成器は、入力された生成器の入力データ（生成入力データ、第１の入力データ）ｚに基づいて、偽データｘ_ｆ＝Ｇ（ｚ）を生成する。識別器には、識別器の入力データ（識別入力データ）として、実データｘ_ｒか偽データｘ_ｆが入力される。識別器は、識別入力データが偽データ（生成器によって生成されたデータ）か否かの識別出力Ｃ（ｘ_ｊ）を生成する。ここで、ｊ＝ｒ，ｆである。一般的に識別出力Ｃ（ｘ_ｊ）は、シグモイド関数σなどの変換関数ｈに入力され、識別ラベルＤ（ｘ_ｊ）＝ｈ（Ｃ（ｘ_ｊ））に変換される。ＧＡＮの学習では、生成器は識別器が偽データを実データと識別するようにウエイト（バイアスも含む）を学習し、識別器は偽データと実データを正しく識別できるようにウエイトを学習する。このようにＧＡＮでは、生成器と識別器が互いに精度を敵対的に向上させて学習を行うことで、高品質な（実データに近い性質を有する）偽データを生成できるようになる。

非特許文献１のＲａＧＡＮは、学習時に最小化するロス関数をＧＡＮから変更することによって、学習の安定性を向上している。ＲａＧＡＮの識別器におけるロス関数Ｌ_Ｄは以下の式（１）、生成器のロス関数Ｌ_Ｇは以下の式（２）で表される。

ここで、Ｅは平均を表す。ここで、実データの正解ラベル（ｇｒｏｕｎｄｔｒｕｔｈｌａｂｅｌ）を１、偽データの正解ラベルを０とした。ｇ_ｋ（ｋ＝０，１）は、例えば以下の式（３）で表されるシグモイドクロスエントロピーなどである。

ここで、シグモイド関数σは以下の式（４）で表される。

式（１）及び（２）のように、実データの識別出力と偽データの識別出力の平均との差分を取ることで、実データが偽データの集合と比べて、より本物らしいか否かという相対的な観点で学習が行える。実データと偽データを入れ替えた、逆の関係でも同様である。これにより、従来のＧＡＮで起こり得る問題（実データを無視して、偽データのみから本物らしさを学習しようとする問題）を回避でき、学習の安定性が向上する。
しかし、非特許文献１に開示されたＲａＧＡＮは、学習が正しく機能せず、生成された偽データが低品質になる（実データと乖離した性質を有する）場合がある。この理由に関して、詳細に説明する。ここで、実データの正解ラベル（ｇｒｏｕｎｄｔｒｕｔｈｌａｂｅｌ）を１、偽データの正解ラベルを０、ｇ_ｋを式（３）のシグモイドクロスエントロピーとして説明するが、他の場合でも同様である。

図１は、本実施例における効果の説明図である。式（１）のロス関数Ｌ_Ｄで学習された識別器は、識別器単体で考えると、理想的には図１（Ａ）のような識別出力の分布となることが望ましい。図１（Ａ）は、ミニバッチ内の実データと偽データに対する識別出力のヒストグラムである。図１（Ａ）において、縦軸は頻度、横軸は識別出力Ｃ（ｘ_ｊ）をそれぞれ示す。ここで、ミニバッチとは、学習においてウエイトを１回更新する際に使用する複数の実データと偽データの集合である。横軸は識別出力Ｃ（ｘ_ｊ）、縦軸は頻度である。分かりやすくするため、図１（Ａ）では実データの識別出力Ｃ（ｘ_ｒ）の集合００１と、偽データの識別出力Ｃ（ｘ_ｆ）の集合００２と、を分けて描画している。破線が各横軸での同じ値を示す。実データと偽データの識別出力の集合００１及び００２は、互いに重なっていないため、完全に両者が識別されている。実データの識別出力の集合００１は全て、偽データの識別出力の平均０１２よりも正方向に存在するため、識別ラベルＤ（ｘ_ｒ）＝σ（Ｃ（ｘ_ｒ）−Ｅ［Ｃ（ｘ_ｆ）］）は全て０．５よりも大きく、正解ラベルである１に近い値をとる。同様に、偽データの識別出力の集合００２は全て、実データの識別出力の平均０１１より負方向に存在するため、識別ラベルＤ（ｘ_ｆ）＝σ（Ｃ（ｘ_ｆ）−Ｅ［Ｃ（ｘ_ｒ）］）は全て０．５よりも小さく、正解ラベルである０に近い値をとる。

しかし、式（１）のロス関数Ｌ_Ｄを最小化しても、必ずしも図１（Ａ）に示した分布になるわけではなく、図１（Ｂ）のような分布になることがある。図１（Ｂ）でも同様に、実データの識別ラベルσ（Ｃ（ｘ_ｒ）−Ｅ［Ｃ（ｘ_ｆ）］）は全て、正解ラベルである１に近い値となり、偽データの識別ラベルσ（Ｃ（ｘ_ｆ）−Ｅ［Ｃ（ｘ_ｒ）］）も０に近い値をとる。故に、式（１）で示されるロス関数は非常に小さい値となる。しかし、図１（Ｂ）の実データと偽データの識別出力の集合００１及び００２は、殆どが重なっている。つまり、図１（Ｂ）の識別器は実データと偽データを識別できない。実際、実データの識別ラベルの式に対して、敢えて偽データを入力すると、σ（Ｃ（ｘ_ｆ）−Ｅ［Ｃ（ｘ_ｆ）］）の値は殆どが実データの正解ラベルである１に近い値をとることが、図１（Ｂ）から読み取れる。逆も同様である。つまり、どのようなデータが入力されようと、差分をとる平均Ｅ［Ｃ（ｘ_ｊ）］と逆のデータと識別する。故に、図１（Ｂ）の識別器は、識別器としての機能を果たしていないため、データの本物らしさを抽出することもできない。故に、この識別器を用いて学習を行っても、生成器はデータの本物らしさを学習することができず、生成した偽データの低品質化（実データとの乖離）が発生する。

そこで本発明は、高品質な（実データに近い）偽データを安定して生成可能なＧＡＮの学習方法、学習装置、および、学習済みウエイトの製造方法を提供することを目的とする。

本実施例の具体的な説明を行う前に、本発明の要旨を説明する。本発明は、実データと偽データの両者からデータの本物らしさを学習し、かつ図１（Ｂ）を用いて説明した問題を回避することで、高品質な（実データに近い）偽データの生成を安定して可能とする。図１（Ｂ）で示される識別器は、入力されたデータの構造に関係なく、殆ど同程度の識別出力を生成する。しかし、ミニバッチ内に稀に出現する構造のデータ（出現頻度の低いデータ）に対して反応し、前記の同程度の識別出力とは乖離した値の識別出力を生成することがある。図１（Ｂ）の実データの識別出力の外れ値００１ａと、偽データの識別出力の外れ値００２ａがこれに該当する。実データの識別出力の外れ値００１ａは、実データの識別出力の集合００１から正方向に、偽データの識別出力の外れ値００２ａは、偽データの識別出力の集合００２から負方向に、乖離した値となる。これによって、実データと偽データの識別出力の平均０１１及び０１２はそれぞれ、重なり合った識別出力の集合００１及び００２の正方向と負方向にずれる。このヒストグラムの分布となることで、式（１）で示されるロス関数の値は非常に小さいにもかかわらず、実データと偽データを識別できない識別器となる。

問題は、識別器が実データと偽データを識別できない（両者の識別出力のヒストグラムが殆ど重なる）ことである。そして、この問題は、識別出力の外れ値によって発生する。故に、問題の対策として、以下の２つの方法がある。１つ目は、実データと偽データの識別出力における外れ値の、ロス関数に対する影響を弱める方法である。２つ目は、実データと偽データの識別出力の集合における重なりを減らす効果を、ロス関数に与える方法である。

上記どちらの方法においても、以下の特徴を有する第１の値に基づいて、識別器または生成器のウエイトを学習する。第１の値は、ミニバッチ内の第１の実データの識別出力に基づく値と、第１の実データとは異なる第２の実データの識別出力に基づく値との比較によって決定される。または、第１の値は、ミニバッチ内の第１の偽データの識別出力に基づく値と、第１の偽データとは異なる第２の偽データの識別出力に基づく値の比較によって決定される。この詳細に関しては、後述の各実施例で説明する。本発明の学習方法を用いることで、識別器が正しく識別できるように学習され、その結果、ＧＡＮで生成される偽データが高品質となる（実データに近くなる）。

なお、本発明でデータと呼ぶ対象は、数値の配列で表現される情報を指し、画像（写真や絵画など）、動画、音響、テキスト、試料のスペクトル、移動体（生物や物体など）の軌跡などが含まれる。偽データとは生成器によって生成されたデータを指し、実データは生成器によって再現したいデータを指す。画像の場合、例えば実データは、現実の被写体を撮像した写真や人間によって描かれた絵画などである。音響の場合、実データは人間の発話や作曲された音楽などの音声データである。テキストの場合、実データは人間が作成した文章や対訳などである。

以下の各実施例では、機械学習モデルのウエイトを学習する段階のことを学習フェーズとし、学習済みのウエイトを用いた偽データの生成を行う段階のことを推定フェーズとする。

本発明の実施例１における画像処理システムに関して説明する。本実施例では、実データと偽データの識別出力の集合における重なりを減らす効果をロス関数に追加することで、安定した高品質な偽データの生成を実現する。

まず、図２および図３を参照して、本実施例における画像処理システム１００の構成について説明する。図２は、画像処理システム１００のブロック図である。図３は、画像処理システム１００の外観図である。画像処理システム１００は、学習装置１０１、画像生成装置１０２、表示装置１０３、記録媒体１０４、および、出力装置１０５を有する。学習装置１０１は、記憶部１０１ａ、取得部１０１ｂ、演算部１０１ｃ、および、更新部１０１ｄを有し、偽画像（偽データ）を生成する生成器と、偽画像と実画像（実データ）を識別する識別器のウエイトを学習する。なお、ウエイトの学習、および学習済みのウエイトを用いた推定（偽画像の生成）に関する詳細は後述する。

画像生成装置１０２は、記憶部１０２ａ、取得部１０２ｂ、および、生成部１０２ｃを有する。画像生成装置１０２は、生成器に入力された潜在変数（生成入力データ、第１の入力データ）に対応する偽画像を生成する。学習装置１０１と画像生成装置１０２は、無線（または有線）によって接続されており、画像生成装置１０２は推定フェーズの実行時または事前に、学習済みのウエイトの情報を学習装置１０１から読み出す。生成された偽画像は、表示装置１０３、記録媒体１０４、または、出力装置１０５の少なくとも一つに出力される。

表示装置１０３は、例えば液晶ディスプレイやプロジェクタなどである。ユーザは表示装置１０３を介して、生成された偽画像を確認しながら潜在変数を調整することで、所望の偽画像を生成することができる。記録媒体１０４は、例えば半導体メモリ、ハードディスク、ネットワーク上のサーバ等である。出力装置１０５は、プリンタなどである。生成された偽画像は、例えば、著作権や肖像権のない建物や人物の画像として、広告などに商業利用することができる。或いは、他の機械学習モデルの学習用画像として追加すること（ＤａｔａＡｕｇｍｅｎｔａｔｉｏｎ）もできる。

次に、図４を参照して、学習装置１０１で実行されるウエイトの学習（学習フェーズ）に関して説明する。図４は、ウエイトの学習に関するフローチャートである。まずステップＳ１０１において、取得部（取得手段）１０１ｂは、複数の潜在変数（生成入力データ、第１の入力データ）を取得する。本実施例において、潜在変数は２次元の数値配列であり、各要素の値は乱数から決定する。ただし、生成入力データの次元数や取得方法はこれに限定されるものではない。なお生成入力データは、画像（撮像画像）に関するデータに限定されるものではなく、贋作、絵、ベクトルなどに関するデータであってもよい。

続いてステップＳ１０２において、演算部（生成手段）１０１ｃは、複数の潜在変数それぞれを生成器に入力し、複数の偽画像を生成する。ここで、図５を参照して、本実施例におけるＧＡＮのネットワーク構成を説明する。図５は、ＧＡＮのネットワーク構成（機械学習モデルの構成）を示す図である。複数の潜在変数２０１（生成入力データ）それぞれを生成器２０２へ入力し、複数の偽画像２０３を生成する。生成器２０２は、１層以上の畳み込み層またはフルコネクション層を有する。畳み込み層またはフルコネクション層のウエイト（バイアス含む）の初期値は、乱数で決定する。また、１層以上の畳み込み層またはフルコネクション層の後に、非線形変換を行う活性化関数を有する。

続いて、図４のステップＳ１０３において、取得部１０１ｂは、複数の実画像を取得する。取得部１０１ｂは、記憶部１０１ａから複数の実画像を読み込んで取得する。取得する実画像の枚数は、ステップＳ１０２で生成した偽画像の枚数と同一である。この枚数がミニバッチ数に相当する。ただし、偽画像と異なる枚数の実画像を取得してもよい。なお、ステップＳ１０３は、ステップＳ１０４の前であれば、いつ実行してもよい。

続いてステップＳ１０４において、演算部（識別手段）１０１ｃは、複数の実画像と偽画像それぞれ（識別入力データ）を識別器に入力し、複数の識別出力を生成する。図５に示されるように、複数の実画像２０４または複数の偽画像２０３のそれぞれ（識別入力データ）を、識別器２０５へ入力し、複数の識別出力２０６を生成する。識別器２０５は、１層以上の畳み込み層またはフルコネクション層を有する。畳み込み層またはフルコネクション層のウエイト（バイアス含む）の初期値は、乱数で決定する。また、１層以上の畳み込み層またはフルコネクション層の後に、非線形変換を行う活性化関数を有する。また、畳み込み層でバッチ正則化やスペクトラル正則化などを併用することで、学習の安定化や識別精度の向上を行うこともできる。

続いてステップＳ１０５において、更新部（学習手段）１０１ｄは、複数の識別出力と正解ラベルに基づいて、識別器のウエイトを更新する。本実施例において、識別器のロス関数（損失関数）Ｌ_Ｄは、以下の式（５）乃至式（７）を用いる。

ここで、λは重みである。式（６）および式（７）の第２項（第１の値）は、第１の実画像（または偽画像）の識別出力Ｃ（ｘ_ｊ）と、複数の実画像（または偽画像）の識別出力の平均Ｅ［Ｃ（ｘ_ｊ）］の比較に基づいて、決定される。複数の実画像（または偽画像）の識別出力の平均の算出には、複数の実画像（または偽画像）に含まれ、かつ第１の実画像（または偽画像）と異なる、第２の実画像（または偽画像）の識別出力が用いられる。故に、複数の実画像（または偽画像）の識別出力の平均Ｅ［Ｃ（ｘ_ｊ）］は、第２の実画像（または偽画像）の識別出力に基づく値である。なお、平均の代わりに、重み付き平均や最頻値など、その他の代表値を用いてもよい。

式（６）および式（７）の第２項は、複数の実画像（または偽画像）の識別出力が、その平均値の前後へ均等に散らばって分布する（或いは全て平均値と一致する）ほど、０に近付く。そのため、図１（Ｂ）のような、平均値に対する識別出力の分布の偏りを軽減する。これにより、実画像と偽画像の識別出力の集合における重なりが減少し、図１（Ａ）の分布に近付けることができる。ここで、式（６）および式（７）の第２項は、どちらか一方のみでもよい。また本実施例は、式（６）および式（７）に限定されるものではなく、平均値に対する識別出力の分布の偏りを軽減する効果を有すれば、他のロス関数でもよい。その例に関しては、後述する。また、ここでは実画像の正解ラベルを１、偽画像の正解ラベルを０としているが、本実施例はこれに限定されるものではない。求めたロス関数の値に基づいて、誤差逆伝搬法（ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）などを用いて識別器のウエイトを更新する。

続いてステップＳ１０６において、演算部１０１ｃは、複数の実画像と偽画像それぞれを識別器に入力し、複数の識別出力を生成する。識別器には、ステップＳ１０５で更新されたウエイトを使用する。

続いてステップＳ１０７において、更新部１０１ｄは、複数の識別出力と正解ラベルに基づいて、生成器のウエイトを更新する。本実施例において、生成器のロス関数Ｌ_Ｇは、以下の式（８）乃至式（１０）を用いる。

式（９）および式（１０）は、式（６）および式（７）とｇ_ｋ（ｋ＝０，１）の添字が入れ替わっている。つまり、実画像を０（Ｆａｋｅ）ラベル、偽画像を１（Ｒｅａｌ）ラベルと識別器が識別するように、生成器のウエイトが更新される。なお、式（９）および式（１０）は生成器のウエイトを更新するためのロス関数であるため、第２項（実画像と偽画像の識別出力の集合における重なりを減少させる項）を削除してもよい。

続いてステップＳ１０８において、更新部１０１ｄは、ウエイトの学習が完了したか否かを判定する。学習の完了は、学習（ウエイトの更新）の反復回数が規定の回数に達したかや、更新時のウエイトの変化量が規定値より小さいか、などによって判定することができる。学習が未完と判定された場合、ステップＳ１０１へ戻り、新たな生成入力データを取得する。一方、学習が完了と判定された場合、学習を終了し、ウエイトの情報を記憶部１０１ａに保存する。なお、推定フェーズでは生成器のみを使用するため、生成器のウエイトのみを保存してもよい。

次に、図６を参照して、画像生成装置１０２で実行される学習済みウエイトを用いた偽画像の生成（推定フェーズ）に関して説明する。図６は、偽画像の生成に関するフローチャートである。

まずステップＳ２０１において、取得部１０２ｂは、学習済みの生成器におけるウエイトの情報を取得する。ウエイトの情報は、予め記憶部１０１ａから読み出されて、記憶部１０２ａに保存されている。続いてステップＳ２０２において、取得部１０２ｂは、潜在変数（生成入力データ、第１の入力データ）を取得する。生成入力データの値は乱数によって決定してもよいし、ユーザによって指定された値を取得してもよい。続いてステップＳ２０３において、生成部１０２ｃは、生成器で偽画像（偽データ）を生成する。偽画像は、学習済みのウエイトを用いた生成器に、潜在変数を入力することによって生成される。ユーザは生成された偽画像を表示装置１０３で確認し、必要に応じて潜在変数の調整を行う。

次に、ロス関数（損失関数）の他の例を挙げる。例えば、式（６）、（７）、（９）、（１０）において、シグモイド関数σの代わりに、以下の式（１１）で示される変換関数ｈを用いてもよい。

また、識別器と生成器のロス関数として、以下の式（１２）および式（１３）を用いてもよい。

式（１２）は、偽画像の識別出力が、複数の実画像の識別出力の平均より負側に存在し、かつ実画像の識別出力が、複数の実画像の識別出力の平均より正側に存在するほど、値が小さくなる。式（１３）は、その逆である。式（１２）および式（１３）は、実画像と偽画像の識別出力がそれぞれ、複数の実画像の識別出力の平均を挟んで、正負のどちらか一方ずつに分布する効果を有する。故に、実画像と偽画像の識別出力の集合における重なりが減少する。式（１２）および式（１３）における第１項（第１の値）は、第１の実画像の識別出力Ｃ（ｘ_ｒ）と、複数の実画像の識別出力の平均Ｅ［Ｃ（ｘ_ｒ）］の比較に基づいて、決定される。複数の実画像の識別出力の平均の算出には、複数の実画像に含まれ、かつ第１の実画像と異なる、第２の実画像の識別出力が用いられる。故に、複数の実画像の識別出力の平均Ｅ［Ｃ（ｘ_ｒ）］は、第２の実画像の識別出力に基づく値である。

同様に、識別器と生成器のロス関数として、以下の式（１４）および式（１５）を用いてもよい。

式（１４）および式（１５）は、差分を取る平均を実画像でなく偽画像としていることが、式（１２）および式（１３）との違いである。式（１４）および式（１５）では、第２項（第１の値）が、第１の偽画像の識別出力Ｃ（ｘ_ｆ）と、複数の偽画像の識別出力の平均Ｅ［Ｃ（ｘ_ｆ）］の比較に基づいて、決定される。複数の偽画像の識別出力の平均Ｅ［Ｃ（ｘ_ｆ）］は、第２の偽画像の識別出力に基づく値である。

式（６）、（７）、（９）、（１０）、（１２）乃至（１５）はいずれも、識別器または生成器のウエイトが、第２の値に基づいて更新される。第２の値は、実画像の識別出力と、複数の偽画像それぞれの識別出力に基づく値と、の比較に基づいて決定される値である。または、第２の値は、偽画像の識別出力と、複数の実画像それぞれの識別出力に基づく値と、の比較に基づいて決定される値である。式（６）、（７）、（９）、（１０）では、第１項が第２の値である。実画像（または偽画像）の識別出力Ｃ（ｘ_ｊ）と、複数の偽画像（または実画像）それぞれの識別出力に基づく平均Ｅ［Ｃ（ｘ_ｉ≠ｊ）］と、の比較に基づいて、第２の値が決定される。同様に、式（１２）および式（１３）では第２項が、式（１４）および式（１５）では第１項が、第２の値である。第２の値によって、実画像が偽画像の集合と比べて、より本物らしいか否か（またはその逆）を相対的な観点で学習できるため、学習の安定性が増す。実施例２以降に示すロス関数も、同様に第２の値を有する。

また、もしＧＡＮで学習された識別器を未知の画像の識別に用いたい場合、以下のように使用するとよい。例えば、式（９）および式（１０）を用いて学習された識別器の識別ラベルは、Ｄ（ｘ_ｊ）＝σ（Ｃ（ｘ_ｊ）−Ｅ［Ｃ（ｘ_ｉ≠ｊ）］）で表される。故に、Ｅ［Ｃ（ｘ_ｉ≠ｊ）］の値が必要となる。この値は、ＧＡＮの最後のウエイトの更新で求められた値を使用すればよい。

次に、識別入力データｘ_ｊである未知の画像は、正解となるラベルも未知のため、Ｅ［Ｃ（ｘ_ｒ）］とＥ［Ｃ（ｘ_ｆ）］のどちらを減算すればよいのか分からない。そのため、それぞれを減算して２つの識別出力を求める。両者の符号がどちらも正ならば、σ（Ｃ（ｘ_ｊ）−Ｅ［Ｃ（ｘ_ｆ）］）を識別ラベルとし、負ならば、σ（Ｃ（ｘ_ｊ）−Ｅ［Ｃ（ｘ_ｒ）］）を識別ラベルとする。両者が異符号の場合、未知の画像１枚のみでは判定が困難なため、例えば識別ラベルを中間の０．５とする。未知の画像が複数ある（全て実データか、全て偽データのどちらか）場合、Ｅ［Ｃ（ｘ_ｒ）］とＥ［Ｃ（ｘ_ｆ）］それぞれを減算して求めた識別ラベルのばらつきが少ない方の識別ラベルを採用する。この際、データオーギュメンテーション（回転、シフト、トリミング、明るさやコントラストの変更などによる数増し）によって、未知の画像の枚数を増やしてもよい。

なお本実施例において、実データおよび偽データは画像としたが、動画、音響、テキスト、試料のスペクトル、移動体（生物や物体など）の軌跡など、その他に置き換えることが可能である。この点は、後述の実施例２および実施例３においても、同様である。また、生成入力データをテキストとし、テキストの内容に合致する偽画像を生成するｔｅｘｔ−ｔｏ−ｉｍａｇｅのタスクに本実施例を適用してもよい。

以上の構成により、高品質な（実データに近い）偽データを安定して生成可能な画像処理システムを提供することができる。

本発明の実施例２における画像処理システムに関して説明する。本実施例では、実データと偽データの識別出力における外れ値の、ロス関数に対する影響を弱めることで、安定した高品質な偽データの生成を実現する。

まず、図７および図８を参照して、本実施例における画像処理システムの構成について説明する。図７は、画像処理システム３００のブロック図である。図８は、画像処理システム３００の外観図である。画像処理システム３００は、学習装置３０１、画像推定装置３０２、および、撮像装置３０３を有する。学習装置３０１および画像推定装置３０２は、例えばサーバである。撮像装置３０３は、カメラ機能の搭載されたモバイル端末などである。画像処理システム３００は、機械学習モデルを用いて撮像装置３０３で撮像された撮像画像のノイズを低減するデノイズを行う。

学習装置３０１は、記憶部３０１ａ、取得部３０１ｂ、演算部３０１ｃ、および、更新部３０１ｄを有し、デノイズに用いる機械学習モデルのウエイトをＧＡＮによって学習する。なお、学習の詳細に関しては、後述する。ＧＡＮによるデノイズは、ＣＮＮ単体のデノイズよりも被写体の高周波成分の低下を抑制できる。これは、ＣＮＮ単体では入力に対してあり得る複数の正解の平均解を出力するため、出力がぼけるのに対し、ＧＡＮではあり得る解の１つを採用することでぼけが発生しにくいことに起因する。学習されたウエイトの情報は、記憶部３０１ａに保存される。撮像装置３０３は、光学系３０４によって被写体空間の光学像を形成し、撮像素子３０５で光学像を光電変換することで、撮像画像を取得する。撮像素子３０５は、例えばＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）センサや、ＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌ−ＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）センサなどである。撮像画像は、記憶部３０７に保存される。通信部３０９は、撮像画像とデノイズの実行に関する要求とを画像推定装置３０２へ送信する。

画像推定装置３０２は、記憶部３０２ａ、通信部３０２ｂ、取得部３０２ｃ、および、デノイズ部３０２ｄを有し、撮像画像に対して学習済みのウエイトを用いた機械学習モデルによるデノイズを実行する。なお、デノイズの詳細に関しては、後述する。撮像画像をデノイズしたデノイズ画像（偽画像、偽データ）は、再び撮像装置３０３へ送信される。デノイズ画像は、画像処理部３０６で必要に応じて現像処理や歪曲収差補正などを施され、記憶部３０７に保存、表示部３０８に表示される。撮像装置３０３の制御は、システムコントローラ３１０によって行われる。

次に、図９を参照して、学習装置３０１によって実行されるウエイトの学習（学習フェーズ）に関して説明する。図９は、ウエイトの学習に関するフローチャートである。なお、ＧＡＮは、図５に示される構成と同様である。

まずステップＳ３０１において、取得部３０１ｂは、１組以上の実データと生成入力データ（第１の入力データ）を取得する。本実施例において、実データはノイズのない正解画像（ｇｒｏｕｎｄｔｒｕｔｈｉｍａｇｅ）であり、生成入力データは正解画像と同一の被写体が存在し、ノイズのある画像（訓練画像）である。取得部３０１ｂは、記憶部３０１ａから正解画像と訓練画像の組を読み込んで取得する。

正解画像と訓練画像の生成方法に関して、例を挙げる。第一の方法は、シミュレーションによって生成する方法である。充分にノイズの小さい実写画像またはＣＧ（ＣｏｍｐｕｔｅｒＧｒａｐｈｉｃｓ）である原画像を１枚以上用意する。原画像に対して、撮像素子３０５で発生するノイズを付与することで、訓練画像を生成する。正解画像は、原画像をそのまま使用するとよい。第二の方法は、実写によって生成する方法である。撮像素子３０５で撮像した画像を訓練画像とし、同一の被写体をよりＳ／Ｎ比の高い条件（撮像素子３０５のＩＳＯ感度の変更や、より高感度な撮像素子の使用）で撮像した画像を正解画像とする。

機械学習モデルは、学習していないデータに対して精度が低下する可能性がある。故に、様々な被写体に対して高精度なデノイズを実現するため、訓練画像と正解画像には様々な明るさや空間周波数が含まれていることが望ましい。例えば、様々な向きと強さのエッジ、グラデーション、平坦部などである。また、ＩＳＯ感度の変更などによって撮像素子３０５で発生するノイズの強さが変化する場合、撮像素子３０５で発生しうる様々なノイズ量の訓練画像と正解画像の組を生成することが望ましい。なお、上記の方法で生成した訓練画像と正解画像から、既定の画素数の部分領域を抽出して学習に用いてもよい。

また、学習フェーズと推定フェーズの入力を合わせるため、訓練画像は撮像画像と同じ形式の画像である。例えば、撮像画像が未現像のＲＡＷ画像である場合、訓練画像もＲＡＷ画像である。逆に、撮像画像が現像後の画像であれば、訓練画像も現像後の画像である。正解画像は、訓練画像と同じ形式でもよいし、異なる形式でもよい。例えば、訓練画像がＲＡＷ画像で正解画像が現像後の画像の場合、生成器はデノイズと同時に現像処理も学習する。

続いてステップＳ３０２において、演算部（生成手段）３０１ｃは、訓練画像（生成入力データ）を生成器へ入力し、偽画像（偽データ）を生成する。偽画像は、訓練画像に対して推定したデノイズ画像である。

続いてステップＳ３０３において、更新部３０１ｄは、正解画像（実画像。実データ）と偽画像（偽データ）との誤差に基づいて、生成器のウエイトを更新する。ＧＡＮではない第１の学習において、正解画像と偽画像の各画素における信号値の平均二乗誤差をロス関数とする。ただし本実施例は、これに限定されるものではなく、Ｌ１ノルムなどその他のロス関数を用いてもよい。

続いてステップＳ３０４において、更新部３０１ｄは、第１の学習が完了したか否かを判定する。第１の学習とは、識別器を用いない生成器のみの学習である。学習が未完と判定された場合、ステップＳ３０１へ戻り、１組以上の新たな正解画像と訓練画像を取得する。一方、学習が完了したと判定された場合はステップＳ３０５へ進み、ＧＡＮによる第２の学習を開始する。なお、第１の学習を行わずに、第２の学習から始めてもよい。

ステップＳ３０５において、取得部３０１ｂは、複数の正解画像と訓練画像を取得する。続いてステップＳ３０６において、演算部３０１ｃは、複数の訓練画像それぞれを生成器に入力し、デノイズされた複数の偽画像を生成する。続いてステップＳ３０７において、演算部３０１ｃは、複数の正解画像と偽画像それぞれ（識別入力データ）を識別器に入力し、複数の識別出力を生成する。

続いてステップＳ３０８において、更新部３０１ｄは、複数の識別出力と正解ラベルに基づいて、識別器のウエイトを更新する。ここで、正解ラベルは、正解画像が１、偽画像が０とする。本実施例では、正解画像と偽画像の識別出力における外れ値の影響を低減したロス関数を用いることで、安定した学習を実現する。本実施例では、以下の式（１６）をロス関数として使用する。

ここで、Ｅ_{ｓｕｂｓｅｔ}は、複数の識別出力Ｃ（ｘ_ｊ）のうち外れ値を除外した一部（部分集合）の平均を指す。Ｅ_{ｓｕｂｓｅｔ}は、例えば、刈り込み平均（ｔｒｉｍｍｅｄｍｅａｎ）や中央平均などである。刈り込み平均では、例えば、両端から３％ずつ切り捨てる。さらに外れ値の影響を減らしたい場合は、５％、１０％、１５％のように切り捨てる割合を上げるとよい。或いは、各識別出力の偏差などに対して閾値を設定し、外れ値を検出することで平均をとる部分集合を決定してもよい。識別器は、第１の値（部分集合の平均Ｅ_{ｓｕｂｓｅｔ}［Ｃ（ｘ_ｊ）］）に基づいて、ウエイトが更新される。

部分集合の平均が、刈り込み平均や中央平均などの場合、値を算出する際、複数の識別出力Ｃ（ｘ_ｊ）を大きさに基づいて順番に並べる必要がある。順番に並べるためには、各識別出力Ｃ（ｘ_ｊ）の値を比較する必要がある。故に、第１の値は、第１の実画像（または偽画像）と第２の実画像（または偽画像）それぞれの識別出力に基づく値（識別出力そのもの）の比較によって決定される。また、識別出力の外れ値を検知する場合、例えば、偏差Ｃ（ｘ_ｊ）−Ｅ［Ｃ（ｘ_ｊ）］などを算出する必要がある。偏差は、第１の実画像（または偽画像）の識別出力Ｃ（ｘ_ｊ）と、平均Ｅ［Ｃ（ｘ_ｊ）］の比較である。さらに、平均Ｅ［Ｃ（ｘ_ｊ）］は、第２の実画像（または偽画像）の識別出力に基づく値である。故に、第１の値は、第１の実画像（または偽画像）と第２の実画像（または偽画像）それぞれの識別出力に基づく値の比較によって決定される。なお、外れ値を除外した部分集合に対して、平均以外の代表値を用いてもよい。

なお本実施例では、外れ値を除外した部分集合に対して平均をとったが、平均の重みを調整することで、外れ値の影響を低減してもよい。平均の重みは、識別出力の値に基づいて決定される。具体的には、複数の識別出力Ｃ（ｘ_ｊ）における外れ値の重みを、それ以外に対して小さくし、重み付き平均をとることで外れ値の影響を低減できる。この際も、外れ値の検出において、大きさに基づく並び替えや偏差などを用いる。故に、第１の実画像（または偽画像）と第２の実画像（または偽画像）それぞれの識別出力に基づく値の比較によって決定される第１の値に基づいて、識別器のウエイトが更新される。

続いてステップＳ３０９において、演算部３０１ｃは、複数の正解画像と偽画像それぞれをウエイトが更新された識別器に入力し、複数の識別出力を生成する。続いてステップＳ３１０において、更新部３０１ｄは、複数の正解画像と偽画像の誤差と、複数の識別出力と正解ラベルと、に基づいて、生成器のウエイトを更新する。以下の式（１７）で示されるロス関数を用いて、生成器のウエイトを更新する。

Ｌ_Ｆｉｄは、デノイズした偽画像とノイズのない正解画像の誤差を表すフィデリティ項であり、Ｌ_Aｄｖは、偽画像の識別出力と実画像の正解ラベルの誤差を表すアドバーサリアル項である。εは重みである。Ｌ_ＦｉｄとＬ_Aｄｖは、例えば以下の式（１８）及び（１９）を用いる。

式（１９）から、式（１６）と同様に、生成器のウエイトは、第１の値（部分集合の平均Ｅ_{ｓｕｂｓｅｔ}［Ｃ（ｘ_ｊ）］）に基づいて決定される。第１の値は、第１の実画像（または偽画像）と第２の実画像（または偽画像）それぞれの識別出力に基づく値の比較によって決定される。

続いてステップＳ３１１において、更新部３０１ｄは、第２の学習が完了したか否かを判定する。ステップＳ３０４と同様に、学習が未完の場合、ステップＳ３０５へ戻る。一方、学習が完了した場合、学習済みの生成器のウエイトの情報を記憶部３０１ａに保存する。なお、式（１６）および式（１９）における第２の値は、第１項と第２項の両方である。実画像（または偽画像）の識別出力Ｃ（ｘ_ｊ）と、複数の偽画像（または実画像）それぞれの識別出力に基づく平均Ｅ_{ｓｕｂｓｅｔ}［Ｃ（ｘ_ｉ≠ｊ）］と、の比較で第２の値が決定される。

次に、図１０を参照して、撮像装置３０３と画像推定装置３０２とで実行されるデノイズ（推定フェーズ）に関して説明する。図１０は、本実施例における偽画像の生成に関するフローチャートである。

まずステップＳ４０１において、通信部３０９は、画像推定装置３０２へ撮像画像とデノイズの実行に関する要求を送信する。続いてステップＳ５０１において、通信部３０２ｂは、送られてきた撮像画像とデノイズの要求を受信し、取得する。続いてステップＳ５０２において、取得部３０２ｃは、学習済みのウエイトの情報を記憶部３０２ａから取得する。該ウエイトの情報は、予め記憶部３０１ａから読み出され、記憶部３０２ａに記憶されている。続いてステップＳ５０３において、デノイズ部３０２ｄは、撮像画像を生成器に入力し、デノイズされた偽画像を生成する。生成器には、ウエイトの情報が使用される。続いてステップＳ５０４において、通信部３０２ｂは、偽画像を撮像装置３０３へ送信する。続いてステップＳ４０２において、通信部３０９は、偽画像を取得する。

以上の構成によって、高品質な（実データに近い）偽データを安定して生成可能な画像処理システムを提供することができる。なお本実施例の構成は、画像以外の音響などのデータに対するデノイズにも適用が可能である。

次に、本発明の実施例３における画像処理システムに関して説明する。本実施例では、実データと偽データの識別出力における外れ値の、ロス関数に対する影響を弱めることで、安定した高品質な偽データの生成を実現する。

まず、図１１および図１２を参照して、本実施例における画像処理システムの構成について説明する。図１１は、画像処理システム４００のブロック図である。図１２は、画像処理システム４００の外観図である。画像処理システム４００は、学習装置４０１、画像推定装置（第２の装置）４０２、制御装置（第１の装置）４０３、撮像装置４０４、および、レンズ装置４０５を有する。学習装置４０１および画像推定装置４０２は、例えばサーバである。制御装置４０３は、パーソナルコンピュータやモバイル端末などのユーザが操作する機器である。

学習装置４０１は、記憶部４０１ａ、取得部４０１ｂ、演算部４０１ｃ、および、更新部４０１ｄを有し、レンズ装置４０５と撮像装置４０４を用いて撮像された撮像画像のぼけを鮮鋭化する機械学習モデルのウエイトを学習する。なお、学習に関する詳細は、後述する。本実施例では、実施例２と同様に、ＧＡＮによるぼけ鮮鋭化を行うことで、ＣＮＮ単体よりも高周波成分を有するぼけ鮮鋭化画像（偽画像）を生成することができる。撮像装置４０４は撮像素子４０４ａを有し、撮像素子４０４ａがレンズ装置４０５の形成した光学像を光電変換して撮像画像を取得する。レンズ装置４０５と撮像装置４０４は着脱可能であり、互いに複数種類と組み合わることが可能である。制御装置４０３は、記憶部４０３ａ、通信部４０３ｂ、および、表示部４０３ｃを有し、有線または無線で接続された撮像装置４０４から取得した撮像画像に対して、実行する処理をユーザの操作に従って制御する。或いは、撮像装置４０４で撮像した撮像画像を予め記憶部４０３ａに記憶しておき、この撮像画像を読み出してもよい。

画像推定装置４０２は、記憶部４０２ａ、通信部４０２ｂ、取得部４０２ｃ、および、鮮鋭化部４０２ｄを有する。画像推定装置４０２は、ネットワーク等を介して接続された制御装置４０３の要求によって、撮像画像のぼけ鮮鋭化を実行する。画像推定装置４０２は、ネットワーク等を介して接続された学習装置４０１から、学習済みのウエイトの情報を鮮鋭化時または予め取得し、撮像画像の鮮鋭化に用いる。撮像画像が鮮鋭化された偽画像は、再び制御装置４０３へ伝送されて、記憶部４０３ａに記憶され、表示部４０３ｃに表示される。

次に、図９を参照して、学習装置４０１によって実行されるウエイトの学習（学習フェーズ）に関して説明する。図９は、本実施例におけるウエイトの学習に関するフローチャートである。なおＧＡＮは、図５に示される構成と同様である。

まずステップＳ３０１において、取得部４０１ｂは、１組以上の実データと生成入力データ（第１の入力データ）を取得する。本実施例において、実データはぼけのない正解画像であり、生成入力データは正解画像と同一の被写体が存在し、収差と回折によるぼけが作用した画像（訓練画像）である。ぼけは、レンズ装置４０５で発生する収差及び回折と、撮像素子４０４ａの光学ローパスフィルタや画素開口による劣化を合わせたぼけである。取得部４０１ｂは、記憶部４０１ａから正解画像と訓練画像の組を読み込んで取得する。本実施例では、ぼけ鮮鋭化のウエイトの学習を、レンズ装置４０５の種類ごとに一括で行う。このため、まずウエイトを学習するレンズ装置４０５の種類を決定し、それに対応する訓練画像の集合から、訓練画像を取得する。ある種類のレンズ装置４０５に対応する訓練画像の集合はそれぞれ、ズーム、絞り、フォーカス距離、像高とアジムス、光学ローパスフィルタ、画素ピッチなどが異なるぼけの作用した画像の集合である。

正解画像と訓練画像の生成方法に関して、以下に例を示す。第一の方法は、原画像を被写体として、撮像シミュレーションを行う方法である。正解画像は、原画像にぼけを作用させずに撮像シミュレーションを行った画像である。訓練画像は、レンズ装置４０５および撮像素子４０４ａで発生するぼけを原画像に作用させて、撮像シミュレーションを行った画像である。本実施例では、レンズ装置４０５の状態（Ｚ，Ｆ，Ｄ）で発生する収差と回折、撮像素子４０４ａの光学ローパスフィルタ及び画素開口による劣化を作用させる。ここで、Ｚはズーム、Ｆは絞り、Ｄはフォーカス距離の状態を示す。撮像素子４０４ａが複数の色成分を取得する場合、各色成分のぼけを原画像に作用させる。ぼけの作用は、原画像に対してＰＳＦ（ＰｏｉｎｔＳｐｒｅａｄＦｕｎｃｔｉｏｎ）を畳み込むか、または原画像の周波数特性とＯＴＦ（ＯｐｔｉｃａｌＴｒａｎｓｆｅｒＦｕｎｃｔｉｏｎ）の積をとることで実行できる。１枚以上の原画像に対し、複数の異なる（Ｚ，Ｆ，Ｄ）のぼけを作用させ、複数組の正解画像と訓練画像を生成する。

本実施例では、レンズ装置４０５で発生するぼけ全てに対する補正を、一括で学習する。故に、（Ｚ，Ｆ，Ｄ）をレンズ装置４０５が取り得る範囲で変化させ、複数組の正解画像と訓練画像を生成する。また、同一の（Ｚ，Ｆ，Ｄ）においても、像高とアジムスに依存して複数のぼけが存在するため、異なる像高とアジムスごとにも正解画像と訓練画像の組を生成する。また同様に、レンズ装置４０５と組み合わせ可能な撮像素子４０４ａが取り得る光学ローパスフィルタと画素ピッチごとにも、正解画像と訓練画像の組を生成する。光学ローパスフィルタは、存在の有無、分離方式（４点分離、垂直または水平２点分離）、カットオフ周波数などが撮像素子４０４ａの種類によって異なる。画素ピッチが変化すると、画素に対するぼけの大きさが相対的に変化する。

好ましくは、原画像は、撮像素子４０４ａの輝度飽和値よりも高い信号値を有しているとよい。これは、実際の被写体においても、特定の露出条件で撮像装置４０４により撮像を行った際、輝度飽和値に収まらない被写体が存在するためである。正解画像は、原画像を撮像素子４０４ａの輝度飽和値で信号をクリップすることによって生成する。訓練画像は、ぼけを作用させた後、輝度飽和値によってクリップすることで生成する。

また、正解画像と訓練画像の生成時に、原画像の縮小処理を実行してもよい。原画像として実写画像を使用する場合、既に収差や回折によってぼけが発生しているため、縮小することでぼけの影響を小さくし、高解像な正解画像を生成することができる。この場合、正解画像とスケールを合わせるために、訓練画像も同様に縮小する。縮小とぼけの作用の順序は、どちらが先でもよい。ぼけの作用を先に行う場合、縮小を考慮して、ぼけのサンプリングレートを細かくする必要がある。ＰＳＦならば空間のサンプリング点を細かくし、ＯＴＦならば最大周波数を大きくすればよい。なお、原画像に高周波成分が充分に含まれている場合、高精度な鮮鋭化が可能となるため、縮小は行わなくてもよい。

また、訓練画像の生成で作用させるぼけには、歪曲収差を含めない。歪曲収差が大きいと、被写体の位置が変化し、正解画像と訓練画像それぞれの画像内に収まった被写体が異なる可能性があるためである。このため、本実施例で学習するＧＡＮは、歪曲収差を補正しない。推定フェーズにおいて、歪曲収差はバイリニア補間やバイキュービック補間などを用いて、ぼけ鮮鋭化後に補正する。同様に、訓練画像の生成で作用させるぼけには、倍率色収差を含めない。推定フェーズにおいて、倍率色収差は各色成分のシフトなどを用いて、ぼけ鮮鋭化の前に補正する。

第二の方法としての正解画像と訓練入力データの生成方法は、レンズ装置４０５と撮像装置４０４による実写画像を使用する方法である。結像性能の優劣が異なる種類のレンズ装置４０５で同一の被写体を撮像することで、正解画像と訓練画像の組を得る。なお、上記２つの方法で生成した訓練画像と正解画像から、既定の画素数の部分領域を抽出して学習に用いてもよい。また、正解画像と訓練画像は、未現像のＲＡＷ画像でも現像後の画像でもよい。

続いてステップＳ３０２において、演算部４０１ｃは、訓練画像を生成器へ入力し、ぼけが鮮鋭化された偽画像（偽データ）を生成する。続いてステップＳ３０３において、更新部４０１ｄは、正解画像と偽画像の誤差に基づいて、生成器のウエイトを更新する。続いてステップＳ３０４において、更新部４０１ｄは、識別器を用いない第１の学習が完了したか否かを判定する。学習が未完と判定された場合、ステップＳ３０１へ戻り、１組以上の新たな正解画像と訓練画像を取得する。一方、学習が完了と判定された場合、ステップＳ３０５へ進み、ＧＡＮによる第２の学習を開始する。

ステップＳ３０５において、取得部４０１ｂは、複数の正解画像と訓練画像を取得する。続いてステップＳ３０６において、演算部４０１ｃは、複数の訓練画像それぞれを生成器に入力し、複数の偽画像を生成する。続いてステップＳ３０７において、演算部４０１ｃは、複数の正解画像と偽画像それぞれを識別器に入力し、複数の識別出力を生成する。続いてステップＳ３０８において、更新部４０１ｄは、複数の識別出力と正解ラベルに基づいて、識別器のウエイトを更新する。本実施例では、正解画像と偽画像の識別出力における外れ値の影響を低減したロス関数を用いることで、安定した学習を実現する。本実施例では、以下の式（２０）をロス関数として使用する。

ここで、Ｑ_ｑはｑ分位値（ｑ−ｑｕａｎｔｉｌｅ）であり、ｑ分位値とは分布をｑ：１−ｑに分割する値（ここで、ｑ∈［０，１］）を指す。特にｑ＝０．５におけるｑ分位値は、メディアンである。分位値は、複数の識別出力Ｃ（ｘ-_ｊ）を大きさの順に並べ、ｑで表される割合の位置での識別出力を採用する。故に、平均よりも外れ値の影響を受けにくい。そのため、識別出力のヒストグラムが図１（Ｂ）になりにくく、図１（Ａ）に近付く。なお、式（２０）の第１項と第２項で、異なるｑの値を使用してもよい。図１（Ａ）のように、実データと偽データの識別出力が完全に分離されている場合、第１項でｑ＝１、第２項でｑ＝０となる。しかし、複雑なタスクにおいて、完全に識別出力を分離することは難しいため、例えば、第１項では０．４≦ｑ≦１．０とし、第２項では０．０≦ｑ≦０．６などとするとよい。

識別器のウエイトは、第１の値（ｑ分位値Ｑ_ｑ［Ｃ（ｘ_ｊ）］）に基づいて、更新される。実施例２と同様に、分位値の決定には、複数の識別出力Ｃ（ｘ_ｊ）を大きさに基づいて順番に並べることから、各識別出力Ｃ（ｘ_ｊ）の値を比較する必要がある。故に、第１の値は、第１の正解画像（または偽画像）の識別出力と、第２の正解画像（または偽画像）の識別出力に基づく値（識別出力そのもの）と、の比較によって決定される。

続いてステップＳ３０９において、演算部４０１ｃは、複数の正解画像と偽画像それぞれをウエイトが更新された識別器に入力し、複数の識別出力を生成する。続いてステップＳ３１０において、更新部４０１ｄは、複数の正解画像と偽画像の誤差と、複数の識別出力と正解ラベルと、に基づいて、生成器のウエイトを更新する。生成器のウエイトは、式（１７）に式（１８）と以下の式（２１）を代入したロス関数を用いて更新する。

同様に、生成器のウエイトも、第１の値（ｑ分位値Ｑ_ｑ［Ｃ（ｘ_ｊ）］）に基づいて、更新される。第１の値は、第１の正解画像（または偽画像）の識別出力と、第２の正解画像（または偽画像）の識別出力に基づく値（識別出力そのもの）と、の比較によって決定される。

続いてステップＳ３１１において、更新部４０１ｄは、第２の学習が完了したか否かを判定する。ステップＳ３０４と同様に、学習が未完の場合、ステップＳ３０５へ戻る。一方、学習が完了した場合、学習済みの生成器のウエイトの情報を記憶部４０１ａに記憶する。

次に、図１３を参照して、制御装置４０３と画像推定装置４０２で実行されるぼけ鮮鋭化（推定フェーズ）に関して説明する。図１３は、本実施例における偽画像の生成に関するフローチャートである。

まずステップＳ６０１において、通信部４０３ｂは、画像推定装置４０２へ撮像画像（生成入力データ、第１の入力データ）、ウエイト指定情報、ぼけ鮮鋭化の実行に関する要求を送信する。撮像画像は、レンズ装置４０５の収差と回折、撮像素子４０４ａの光学ローパスフィルタ及び画素開口による劣化のため、ぼけが発生している。ぼけ鮮鋭化のウエイトは、レンズ装置４０５の種類ごとに学習されているため、撮像画像の撮像に用いたレンズ装置４０５の種類を特定できる情報をウエイト指定情報として送信する。

続いてステップＳ７０１において、通信部４０２ｂは、送られてきた撮像画像、ウエイト指定情報、ぼけ鮮鋭化の要求を受信し、取得する。続いてステップＳ７０２において、取得部４０２ｃは、ウエイト指定情報に基づいて、学習済みのウエイトの情報を記憶部４０２ａから取得する。ウエイトの情報は、予め記憶部４０１ａから読み出され、記憶部４０２ａに記憶されている。撮像画像を撮像したレンズ装置４０５の種類に対応するウエイトの情報が、取得される。続いてステップＳ７０３において、鮮鋭化部４０２ｄは、撮像画像を生成器に入力し、ぼけ鮮鋭化された偽画像を生成する。生成器には、取得されたウエイトの情報が使用される。続いてステップＳ７０４において、通信部４０２ｂは、偽画像を制御装置４０３へ送信する。続いてステップＳ６０２において、通信部４０３ｂは、偽画像を取得する。

以上の構成により、高品質な（実データに近い）偽データを安定して生成可能な画像処理システムを提供することができる。なお本実施例の構成は、画像以外の音響などのデータに対するぼけ鮮鋭化にも適用が可能である。また、実施例２および本実施例の構成は、アップサンプリングや高コントラスト化、高階調化、高フレームレート化などその他の処理に関しても適用が可能である。

（その他の実施例）
本発明は、上述の実施例の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

以上のように、各実施例の学習方法は、取得工程（Ｓ１０１、Ｓ３０５）、生成工程（Ｓ１０２、Ｓ３０６）、識別工程（Ｓ１０４、Ｓ１０６、Ｓ３０７、Ｓ３０９）、および、学習工程（Ｓ１０５、Ｓ１０７、Ｓ３０８、Ｓ３１０）を有する。取得工程では、複数の第１の入力データと、複数の実データと、を取得する。生成工程では、生成器に複数の第１の入力データそれぞれを入力することで、複数の偽データを生成する。識別工程では、識別器に実データまたは偽データを入力することで、入力されたデータが生成器によって生成されたデータであるかを識別した識別出力を生成する。学習工程では、生成器または識別器のウエイトを、実データに基づく識別出力と偽データに基づく識別出力との比較に基づく損失関数を用いて更新する。ここで損失関数は、複数の実データと複数の偽データのそれぞれの識別出力の分布の重なりか、複数の実データまたは複数の偽データの識別出力の外れ値による影響か、が低減されるように定義された関数である。

各実施例によれば、高品質な（実データに近い）偽データを安定して生成可能な機械学習モデルの学習方法、プログラム、学習装置、および、学習済みウエイトの製造方法を提供することができる。

以上、本発明の好ましい実施形態について説明したが、本発明はこれらの実施形態に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。

１０１学習装置
１０１ｂ取得部（取得手段）
１０１ｃ演算部（生成手段、識別手段）
１０１ｄ更新部（学習手段）

Claims

複数の第１の入力データと、複数の実データと、を取得する取得工程と、
生成器に複数の前記第１の入力データそれぞれを入力することで、複数の偽データを生成する生成工程と、
識別器に前記実データまたは前記偽データを入力することで、入力されたデータが前記生成器によって生成されたデータであるかを識別した識別出力を生成する識別工程と、
前記生成器または前記識別器のウエイトを、前記実データに基づく識別出力に基づく値と前記偽データに基づく識別出力に基づく値との比較に基づく損失関数であって、前記複数の実データと前記複数の偽データのそれぞれの前記識別出力の分布の重なりか、前記複数の実データまたは前記複数の偽データの前記識別出力の外れ値による影響か、が低減されるように定義された損失関数を用いて更新する学習工程と、を有することを特徴とする学習方法。
前記損失関数は、第１の値に基づく関数であり、
前記第１の値は、前記複数の実データに含まれる第１の実データと第２の実データそれぞれの前記識別出力に基づく値の比較か、または、前記複数の偽データに含まれる第１の偽データと第２の偽データそれぞれの前記識別出力に基づく値の比較か、に基づいて決定されることを特徴とする請求項１に記載の学習方法。
前記第１の値は、前記第１の実データの前記識別出力と、前記複数の実データそれぞれの前記識別出力に基づく値との比較か、または、前記第１の偽データの前記識別出力と、前記複数の偽データそれぞれの前記識別出力に基づく値との比較か、に基づいて決定されることを特徴とする請求項２に記載の学習方法。
前記学習工程は、前記生成器または前記識別器のウエイトを、第２の値に基づいて更新し、
前記第２の値は、前記実データの前記識別出力と、前記複数の偽データそれぞれの前記識別出力に基づく値との比較か、または、前記偽データの前記識別出力と、前記複数の実データそれぞれの前記識別出力に基づく値との比較か、に基づいて決定されることを特徴とする請求項２または３に記載の学習方法。
前記第１の値は、前記複数の実データまたは前記複数の偽データそれぞれの前記識別出力の分位値であることを特徴とする請求項２乃至４のいずれか一項に記載の学習方法。
前記第１の値は、前記複数の実データまたは前記複数の偽データそれぞれの前記識別出力の、重み付き平均または一部における代表値であることを特徴とする請求項１乃至４のいずれか一項に記載の学習方法。
前記重み付き平均の重みは、前記識別出力に基づいて決定されることを特徴とする請求項６に記載の学習方法。
前記代表値は、前記複数の識別出力のうち外れ値を除外した一部に基づいて決定されることを特徴とする請求項６に記載の学習方法。
前記第１の値は、前記第１の実データの前記識別出力と、前記複数の実データそれぞれの前記識別出力に基づく代表値との比較か、または、前記第１の偽データの前記識別出力と、前記複数の偽データそれぞれの前記識別出力に基づく代表値との比較か、に基づいて決定されることを特徴とする請求項２乃至４のいずれか一項に記載の学習方法。
前記損失関数は、前記複数の実データと前記複数の偽データのそれぞれにおける前記識別出力が、それぞれの前記識別出力の平均値に対して、分布の偏りが低減されるように定義されることを特徴とする請求項１乃至９のいずれか一項に記載の学習方法。
前記損失関数は、前記外れ値を除外した部分集合または前記外れ値の重みを小さくした部分集合の平均を用いることにより、前記識別出力の前記外れ値による影響が低減されるように定義されることを特徴とする請求項１乃至９のいずれか一項に記載の学習方法。
請求項１乃至１１のいずれか一項に記載の学習方法をコンピュータに実行させることを特徴とするプログラム。
複数の第１の入力データと、複数の実データと、を取得する取得手段と、
生成器に複数の前記第１の入力データそれぞれを入力することで、複数の偽データを生成する生成手段と、
識別器に前記実データまたは前記偽データを入力することで、入力されたデータが前記生成器によって生成されたデータであるかを識別した識別出力を生成する識別手段と、
前記生成器または前記識別器のウエイトを、前記実データに基づく識別出力に基づく値と前記偽データに基づく識別出力に基づく値との比較に基づく損失関数であって、前記複数の実データと前記複数の偽データのそれぞれの前記識別出力の分布の重なりか、前記複数の実データまたは前記複数の偽データの前記識別出力の外れ値による影響か、が低減されるように定義された損失関数を用いて更新する学習手段と、を有することを特徴とする学習装置。
複数の第１の入力データと、複数の実データと、を取得する取得工程と、
生成器に複数の前記第１の入力データそれぞれを入力することで、複数の偽データを生成する生成工程と、
識別器に前記実データまたは前記偽データを入力することで、入力されたデータが前記生成器によって生成されたデータであるかを識別した識別出力を生成する識別工程と、
前記生成器または前記識別器のウエイトを、前記実データに基づく識別出力に基づく値と前記偽データに基づく識別出力に基づく値との比較に基づく損失関数であって、前記複数の実データと前記複数の偽データのそれぞれの前記識別出力の分布の重なりか、前記複数の実データまたは前記複数の偽データの前記識別出力の外れ値による影響か、が低減されるように定義された損失関数を用いて更新する学習工程と、を有することを特徴とする学習済みウエイトの製造方法。