JP7414745B2

JP7414745B2 - 学習データの製造方法、学習方法、学習データ製造装置、学習装置、およびプログラム

Info

Publication number: JP7414745B2
Application number: JP2021003864A
Authority: JP
Inventors: 崇鬼木
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2020-03-09
Filing date: 2021-01-14
Publication date: 2024-01-16
Anticipated expiration: 2041-01-14
Also published as: JP2021140758A

Description

本発明は、ディープラーニングに用いる学習データの製造方法、およびディープラーニングを用いた学習方法に関する。

特許文献１には、ＲＡＷ画像を入力とする多層のニューラルネットワークを学習する際に、ガンマ補正の影響を考慮することで、高解像度化や高コントラスト化（鮮鋭化）に伴うアンダーシュートやリンギングを抑制する手法が開示されている。非特許文献１には、様々な回帰問題に対して汎用的に適用可能なネットワーク構成が開示されている。また非特許文献１には、ネットワークを用いて、入力画像のアップサンプリング、ＪＰＥＧデブロッキング（圧縮ノイズの除去）、デノイジング、ノンブラインドなデブラー、または、インペインティングを実行することが開示されている。

特開２０１９－１２１２５２号公報

Ｘ．Ｍａｏ，Ｃ．Ｓｈｅｎ，Ｙ．Ｙａｎｇ， "ＩｍａｇｅＲｅｓｔｏｒａｔｉｏｎＵｓｉｎｇＣｏｎｖｏｌｕｔｉｏｎａｌＡｕｔｏ－ｅｎｃｏｄｅｒｓｗｉｔｈＳｙｍｍｅｔｒｉｃＳｋｉｐＣｏｎｎｅｃｔｉｏｎｓ"，ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１６０６．０８９２１．

しかし、特許文献１および非特許文献１に開示された方法では、入力する画像によってはアンダーシュートやリンギング等を抑制できず、補正画像（推定画像）にこれらの弊害が生じることがある。具体的には、入力する画像に高輝度な被写体があった場合や、光学系の収差によって被写体が大きくぼけていた場合であり、特に被写体の輝度値が大きく輝度飽和している場合に弊害が発生しやすい。これらの画像を学習データとして用いた場合、補正量に伴うアンダーシュートやリンギング等の弊害が発生する可能性がある。

そこで本発明は、ニューラルネットワークに入力する画像に高輝度な被写体や、光学系の収差により大きくぼけた被写体を含む場合でも、弊害が発生する可能性を低減しつつ高精度な補正を実現することが可能な学習データの製造方法等を提供することを目的とする。

本発明の一側面としての学習データの製造方法は、ニューラルネットワークの学習に用いる学習データの製造方法であって、原画像を取得する工程と、前記原画像に対して第１のぼけを付加することで訓練画像を生成する工程と、前記原画像に対して第２のぼけを付加することで正解画像を生成する工程とを有し、前記第２のぼけの量は、前記第１のぼけの量よりも少なく、前記第１のぼけ及び前記第２のぼけは、互いに同じ光学情報に基づいて生成されることを特徴とする。

本発明の他の目的及び特徴は、以下の実施例において説明される。

本発明によれば、ニューラルネットワークに入力する画像に高輝度な被写体や、光学系の収差により大きくぼけた被写体を含む場合でも、弊害が発生する可能性を低減しつつ高精度な補正を実現することが可能な学習データの製造方法等を提供することができる。

実施例１における学習データの製造方法のフローチャートである。実施例１及び３における画像処理システムのブロック図である。実施例１及び３における画像処理システムの外観図である。各実施例における光学情報に関する説明図である。実施例及１及び３における補正マップに関する説明図である。各実施例における学習工程のフローチャートである。各実施例における畳み込みニューラルネットワークを示す図である。各実施例における画像の色成分に関する説明図である。実施例１及び２における推定工程のフローチャートである。実施例２における画像処理システムのブロック図である。実施例２における画像処理システムの外観図である。実施例２における学習データの製造方法のフローチャートである。実施例２における補正マップに関する説明図である。実施例３における学習データの製造方法のフローチャートである。実施例３における光学性能とぼかし量の説明図である。実施例３における推定工程のフローチャートである。

以下、本発明の実施例について、図面を参照しながら詳細に説明する。各図において、同一の部材については同一の参照符号を付し、重複する説明は省略する。

まず、以下に各実施例において使用される用語を定義する。各実施例は、ディープラーニングによって回帰問題を解き、入力画像から様々な出力画像を推定する方法に関する。ディープラーニングとは、多層のニューラルネットワークを用いた機械学習である。大量の訓練画像とそれに対応する正解画像（得たい出力）のペアから、ネットワークパラメータ（ウエイトとバイアス）を学習することで、未知の入力画像に対しても高精度な推定が可能となる。

多層のニューラルネットワークを用いた画像処理には、ネットワークパラメータ（ウエイトとバイアス）を更新するための処理工程と、更新されたパラメータを用いて未知の入力に対して推定を行う処理工程の二つが存在する。以下、前者を学習工程と呼び、後者を推定工程と呼ぶ。

次に、学習工程と推定工程における画像の名称を定める。ネットワークへ入力する画像を入力画像とし、特に学習工程の際に用いる、正解画像が既知の入力画像を訓練画像と呼称する。ネットワークから出力された画像を出力画像とし、特に推定工程の際の出力画像を推定画像と呼称する。ネットワークの入力画像と、正解画像はＲＡＷ画像である。ここでＲＡＷ画像とは、撮像素子から出力された未現像の画像データであり、各画素の光量と信号値とが略線型の関係にある。ユーザが画像を鑑賞する前にＲＡＷ画像は現像されるが、その際にガンマ補正が実行される。ガンマ補正は、例えば入力の信号値を冪乗する処理であり、その冪指数として１／２．２などが用いられる。また、各実施例の学習データ（学習画像）の製造方法では、弊害を抑制しつつ高精度な補正を実現するための学習に用いる調整された正解画像を生成する。各実施例において、正解画像または訓練画像を生成する際の元となる無劣化相当の画像を原画像と呼称する。

各実施例の具体的な説明へ入る前に、本発明の要旨を述べる。本発明では、画像に高輝度な被写体や、光学系の収差により大きくぼけた被写体を含むような場合であっても、弊害なく補正できるようなニューラルネットワークを構築すること、及びそのために必要な学習データを提供することを目的とする。そのために、学習データの正解画像に原画像をそのまま用いるのではなく、調整された正解画像を用いることを特徴とする。この調整された正解画像とは、高輝度部や高コントラスト部、収差の大きい領域等の弊害が発生しやすい場所において、原画像にぼけを付加した画像である。このような調整により、正解画像と訓練画像は鮮鋭度が画面の位置よって異なる。あるいは、訓練画像を鮮鋭化して生成してもよい。いずれかの方法により、正解画像を原画像と訓練画像の間のぼけ量（鮮鋭度）となるよう調整することができ、弊害が発生しやすい領域において原画像と訓練画像に比べて正解画像と訓練画像を差異が小さくことができる。このように作成した正解画像と訓練画像を用いて学習することにより、弊害の発生の可能性を低減しつつ高精度な補正を実現するための学習モデルの生成が可能となる。

本発明の実施例１における画像処理システムに関して説明する。本実施例では、まず多層のニューラルネットワークの学習に用いる学習データを生成する。そして、生成した学習データを用いて学習し、学習したモデルを用いて補正処理を実行する。

図２は、本実施例における画像処理システム１００のブロック図である。図３は、画像処理システム１００の外観図である。画像処理システム１００は、学習装置（画像処理装置）１０１、撮像装置１０２、画像推定装置（画像処理装置）１０３、表示装置１０４、記録媒体１０５、出力装置１０６、ネットワーク１０７、および、学習データ製造装置（画像処理装置）１０８を有する。

学習データ製造装置１０８は、学習工程に用いる学習データを製造する装置であり、記憶部１０８ａ、取得部１０８ｂ、および、生成部１０８ｃを有する。取得部１０８ｂは、原画像（第３の画像）、および学習データの生成に用いる光学系の特性情報（像高など）を取得する。生成部１０８ｃは、原画像に基づいて、訓練画像（第１の画像）および正解画像（第２の画像）を生成する。すなわち生成部１０８ｃは、訓練画像を取得する取得手段、および、訓練画像に対して光学特性が異なる正解画像を生成する生成手段としての機能を有する。生成部１０８ｃにより生成された訓練画像および正解画像は、記憶部１０８ａに記憶される。なお、学習データの生成に関する詳細は、図１のフローチャートを参照して後述する。

学習装置１０１は、学習工程を実行する画像処理装置であり、記憶部１０１ａ、取得部１０１ｂ、生成部（生成手段）１０１ｃ、および、更新部（更新手段）１０１ｄを有する。取得部１０１ｂは、訓練画像と正解画像を取得する。生成部１０１ｃは、訓練画像（第１の画像）を多層のニューラルネットワークへ入力して出力画像（処理画像）を生成する。更新部１０１ｄは、生成部１０１ｃにより生成された出力画像と正解画像との差（誤差）に基づいて、ニューラルネットワークのネットワークパラメータを更新する。なお、学習工程に関する詳細は、フローチャートを用いて後述する。学習されたネットワークパラメータは、記憶部１０１ａに記憶される。

撮像装置１０２は、光学系１０２ａと撮像素子１０２ｂを有する。光学系１０２ａは、被写体空間から撮像装置１０２へ入射した光を集光する。撮像素子１０２ｂは、光学系１０２ａを介して形成された光学像（被写体像）を受光して（光電変換して）撮像画像を取得する。撮像素子１０２ｂは、例えばＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）センサや、ＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌ－ＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）センサなどである。撮像装置１０２によって取得される撮像画像は、光学系１０２ａの収差や回折によるぼけと、撮像素子１０２ｂによるノイズを含む。

画像推定装置１０３は、推定工程を実行する装置であり、記憶部１０３ａ、取得部１０３ｂ、および、補正部（推定手段）１０３ｃを有する。画像推定装置１０３は、撮像画像を取得し、弊害を抑制したぼけ補正を行って推定画像を生成する。ぼけ補正には、多層のニューラルネットワークを使用し、ネットワークパラメータの情報は記憶部１０３ａから読み出される。ネットワークパラメータは学習装置１０１で学習されたものであり、画像推定装置１０３は、事前にネットワーク１０７を介して記憶部１０１ａからネットワークパラメータを読み出し、記憶部１０３ａに保存している。保存されるネットワークパラメータはその数値そのものでもよいし、符号化された形式でもよい。ネットワークパラメータの学習、およびネットワークパラメータを用いたぼけ補正処理に関する詳細は、後述する。

出力画像は、表示装置１０４、記録媒体１０５、および、出力装置１０６の少なくとも１つに出力される。表示装置１０４は、例えば液晶ディスプレイやプロジェクタなどである。ユーザは、表示装置１０４を介して、処理途中の画像を確認しながら編集作業などを行うことができる。記録媒体１０５は、例えば半導体メモリ、ハードディスク、ネットワーク上のサーバー等である。出力装置１０６は、プリンタなどである。画像推定装置１０３は、必要に応じて現像処理やその他の画像処理を行う機能を有する。

次に、図１を参照して、学習データ製造装置１０８で実行される学習データの製造方法に関して説明する。図１は、学習データの製造方法のフローチャートである。図１の各ステップは、学習データ製造装置１０８の各部（記憶部１０８ａ、取得部１０８ｂ、生成部１０８ｃ）により実行される。

まず、図１のステップＳ１０１において、取得部１０８ｂは複数の原画像（第３の画像）を取得する（第１の取得工程）。原画像は、記憶部１０８ａに事前に記憶しておき、そこから取得してもよいし、不図示の外部装置から取得してきてもよい。本実施例において、原画像は未現像のＲＡＷ画像である。ただし本実施例は、これに限定されるものではなく、現像後の画像でもよい。複数の原画像は、様々な被写体、すなわち、様々な強さと方向のエッジや、テクスチャ、グラデーション、平坦部などを有する画像である。原画像は、実写画像でもよいし、ＣＧ（ＣｏｍｐｕｔｅｒＧｒａｐｈｉｃｓ）により生成した画像でもよい。好ましくは、原画像は、撮像素子１０２ｂの輝度飽和値よりも高い信号値を有する。これは、実際の被写体においても、特定の露出条件で撮像装置１０２により撮影を行った際、輝度飽和値に収まらない被写体が存在するためである。

続いてステップＳ１０２において、取得部１０８ｂはステップＳ１０１で取得した原画像に対して、ぼけを付与（付加）するために用いる光学系１０２ａの光学情報を取得する（第４の取得工程）。光学系１０２ａは、複数のレンズステート（ズーム、絞り、合焦距離の状態）と像高、アジムスによって異なる収差や回折を有する。このため、原画像ごとに異なるレンズステートや像高、アジムスの収差や回折によるぼけを付与する必要がある。ステップＳ１０２では次のステップＳ１０３のぼけ付与で利用する光学系１０２ａのＰＳＦ（点像強度分布関数）を取得する。このとき取得部１０８ｂが取得する光学情報は、ＰＳＦの分布に対応する２次元データでもよいし、ＰＳＦを特異値分解等で分解して得られる１次元ベクトルの集合を取得してきてもよい。また、ＰＳＦを特定の関数でフィッティングして近似し、近似の際に得られる複数の係数データを光学情報として取得してもよい。この場合は取得した係数データと近似関数を用いて再構成することでＰＳＦを得ることができる。なお本実施例では、ぼけの付与にＰＳＦを用いる場合について説明するが、ＰＳＦではなくＯＴＦ（光学伝達関数）を用いてもよい。ＯＴＦを光学情報として取得する場合もＰＳＦの場合と同様に、２次元データとして取得してもよいし、１次元ベクトルや係数データとして取得することもできる。

図４は、原画像とＰＳＦの位置関係を示しており、図４の長方形の枠は原画像、白丸は取得または生成するＰＳＦの位置を表わしている。図４に示されるように原画像内でＰＳＦを変化させる場合は、各位置に応じたＰＳＦを取得または生成する。図４では９×９としているが、軽量化のため減らしてもよいし、より精度を重視して増やしてもよい。

続いてステップＳ１０３において、生成部１０８ｃは、ステップＳ１０２で取得した光学情報を用いて訓練画像（第１の画像）を生成する（第２の取得工程）。取得した光学情報がＰＳＦではなく、その元となる係数データ等ある場合はＰＳＦを生成する。そして、原画像に対してＰＳＦを用いてぼけを付与する。本実施例では、ＰＳＦをぼかしフィルタとして原画像に畳み込むことによりぼけの付与を実現する。像高に応じてぼけ方を変化させる場合は、原画像の画素毎にＰＳＦを変えて、ＰＳＦと原画像の対応する領域について線形和を全画素分計算すればよい。例えば、図４に示されるような位置に対応するＰＳＦを用いる場合、白丸の間に位置するある画素（注目画素）のぼけ付与後の画素値を求めるのであれば、まず近傍４点の白丸に対応したＰＳＦを取得する。そして、取得してきた４つのＰＳＦを補間して注目画素に対応するＰＳＦを計算し、このＰＳＦと原画像の線形和をとって、その値をぼけ付与後の注目画素値とする。補間方法としては、バイリニア、バイキュービック、ニアレストネイバー等の既存の手法を用いればよい。

次に、ぼけを付与した原画像を縮小する。このとき原画像が撮像素子１０２ｂの輝度飽和値よりも高い信号値を有する場合、撮像素子１０２ｂの輝度飽和値で信号をクリップする。特に、原画像として実写画像を使用する場合、既に収差や回折によってぼけが発生しているため、縮小することでぼけの影響を小さくし、高解像（高品位）な画像にすることができる。なお、原画像に高周波成分が充分に含まれている場合、縮小は行わなくてもよい。

続いてステップＳ１０４において、生成部１０８ｃは、正解画像の生成に用いる補正マップを生成する。図５は、本実施例における補正マップの模擬図であり、原画像を像高に応じてＡＢＣＤの４つの領域に分割している。図５において、実線の内側の領域をＡ領域、実線と破線で囲まれた領域をＢ領域、破線と２点鎖線で囲まれた領域をＣ領域、２点鎖線の外側の領域をＤ領域とする。本実施例では光学系の性能に基づき、原画像にぼけを付与して正解画像を生成する。補正マップ生成に用いる光学系の性能については、性能に関連する指標であれば何を用いてもよいが、本実施例では光学系のＯＴＦを用いて補正マップを生成する。

まず、図４の白丸に対応したＰＳＦに関してフーリエ変換を行い、白丸に対応した位置におけるＯＴＦを生成する。次に各ＯＴＦに対し、絶対値をとってＭＴＦ（変調伝達関数）を算出する。そして、ＭＴＦに対して撮像素子のナイキスト周波数までの平均値を計算し、この値を指標として補正マップを生成する。白丸以外の位置における指標値については、近傍の白丸に対応した指標値を補間することにより求める。なお、ここではナイキスト周波数までの平均ＭＴＦを使って指標を算出しているが、異なる周波数帯域で平均ＭＴＦを算出してもよいし、ある特定の周波数を指標として用いてもよい。本実施例の補正マップは、正解画像をぼかす際に用いるため、各画素におけるぼかし量に対応する。

図５では像高に応じて４つのエリアに分割されており、指標値である平均ＭＴＦの値によってこれらのエリアに分割されている。例えば、平均ＭＴＦが０．８以上の領域をＡ領域、平均ＭＴＦが０．６以上０．８未満の領域をＢ領域、平均ＭＴＦが０．４以上０．６未満の領域をＣ領域、０．４未満の領域をＤ領域とする。ここで、光学系１０２ａが共軸系であれば、光学性能が光軸に対して対称になるため、補正マップも図５のように回転対称となる。また、一般的に光学系の性能は光軸に近い画像の中心ほど（像高が低いほど）性能が高く、光軸から離れた画像の周辺部ほど（像高が高いほど）性能が低くなる傾向があるため、補正マップも図５に示されるような分布になることが多い。すなわち、正解画像は、像高が第１の像高の場合には鮮鋭度は第１の鮮鋭度（第１のぼけ量）であり、像高が第１の像高よりも高い第２の像高の場合には鮮鋭度は第１の鮮鋭度よりも低い第２の鮮鋭度（第１のぼけ量よりも大きい第２のぼけ量）である。

なお、光学ローパスフィルタや撮像素子１０２ｂの画素開口、光学系１０２ａの製造時のばらつき等を考慮した場合、このような対称性はなくなるため、補正マップが必ずしも円形の対称性を有するわけではない。また、本ステップでは指標を算出するためにＯＴＦを算出するが、指標は光学性能を反映できたものであればよいため、別の数値を指標としてもよい。例えばＰＳＦのピーク値を指標として用いることもできる。ＰＳＦのピーク値はＯＴＦの実部の積分値となるため、ＭＴＦと相関のある指標となる。他にもパーセバルの定理を利用して、ＰＳＦの二乗和を計算し、ＭＴＦの二乗和の平均値を算出してもよい。このようにＰＳＦからＯＴＦを介さず直接指標を計算し補正マップを生成すれば、フーリエ変換が不要になるため演算量を削減することができる。また、本実施例の補正マップは、図５に示されるように４つの領域に分割しているが、領域数は増やしてもよいし、減らしてもよい。また、指標を段階的に分割しているが、指標値をそのまま補正マップとしてもよく、連続値として利用することもできる。

続いてステップＳ１０５において、生成部１０８ｃは、ステップＳ１０４にて作成した補正マップに基づいて、正解画像（第２の画像）を生成する（第３の取得工程）。ディープラーニングによるぼけ補正を行う場合、学習する際に用いる学習データにおいて訓練画像と正解画像が乖離するほど、推定時に弊害が発生する可能性が増大する。光学系１０２ａの性能が低い領域ほど、ステップＳ１０３において訓練画像をよりぼかすことになるため、正解画像に原画像をそのまま用いた場合、訓練画像と正解画像が乖離することになる。本実施例では、この乖離を小さくすることによる弊害の発生の可能性を低減する。図５の補正マップにおいて、領域Ａは性能が高い領域であるため、この領域に対応する正解画像は原画像をぼかさずそのまま用いる。これにより、元々弊害の発生の可能性が低い性能の高い領域については、訓練画像と正解画像の乖離を維持ことで補正量を保つことができる。

次に、領域Ｂに関しては領域Ａよりも性能が低く、領域Ｃよりは高いため、原画像に対して少しぼけを付与する。例えば、各画素に対応したＰＳＦに対して３０％に縮小したＰＳＦを生成して、その縮小したＰＳＦを原画像に付与することで正解画像を生成する。続いて、領域Ｃについては領域Ｂよりも性能が低いため、さらにぼけ量を増やす。例えば、訓練画像に付与したＰＳＦに対して６０％に縮小したＰＳＦを生成して、その縮小したＰＳＦを原画像に付与することで正解画像を生成する。そして、領域Ｄについては、最も性能が低いため、縮小せず訓練画像に付与したＰＳＦで原画像をぼかして正解画像を生成する。この補正マップに対するＰＳＦの縮小量は一例であり、これに限定されるものではない。また、領域Ａについてはぼかさない領域としたが全領域をぼかしてもよい。ただし、正解画像に付与するぼけ量は訓練画像を生成する際に付与したぼけ量と比べて同等かそれ以下となる必要がある。すなわち訓練画像は、正解画像よりも鮮鋭度が低い（ぼけ量が大きい）。このため、正解画像にぼけを付与する場合、訓練画像を生成する際に用いたＰＳＦに対して等倍か縮小したものを用いる。

また、ステップＳ１０３において訓練画像を生成する際にぼけ付与後、縮小した場合は正解画像も同じ倍率で縮小する。このとき原画像が撮像素子１０２ｂの輝度飽和値よりも高い信号値を有する場合、撮像素子１０２ｂの輝度飽和値で信号をクリップする。

続いてステップＳ１０６において、ステップＳ１０３で生成した訓練画像とステップＳ１０５で生成した正解画像のペアを学習データとして記憶部１０８ａに格納する。なお、生成する訓練画像および正解画像は、分割して複数のパッチとして出力してもよい。パッチとは既定の画素数（例えば、６４×６４画素など）を有する画像を指す。また、正解パッチと訓練パッチの画素数は、必ずしも一致する必要はない。パッチとして出力する際は図１のフローチャートを通して出力された訓練画像および正解画像を分割してもよいし、ステップＳ１０１で原画像をそれぞれパッチに分解してからステップＳ１０２以降の処理を実施してもよい。

以上のように本実施例では、正解画像を生成する際にそのまま原画像を縮小して出力するのではなく、光学系の光学性能が低い領域については、あえてぼけを付与する（鮮鋭度を低くする）。ぼけを付与する際にはガウス分布等の回転対称なぼけでぼかしてもよいが、光学系の劣化に基づくぼけの方が望ましく、本実施例のように光学系のＰＳＦを用いた方がより高精度に補正することができる。

次に、図６を参照して、本実施例における学習装置１０１により実行されるネットワークパラメータの学習方法（学習済みモデルの製造方法）に関して説明する。図６は、ネットワークパラメータの学習に関するフローチャートである。図６の各ステップは、主に、学習装置１０１の取得部１０１ｂ、生成部１０１ｃ、または、更新部１０１ｄにより実行される。

まず、図６のステップＳ２０１において、取得部１０１ｂは、正解パッチ（第１の正解画像）と訓練パッチ（第１の訓練画像）を取得する。正解パッチは相対的にぼけが少ない画像であり、訓練パッチは相対的にぼけが多い画像である。本実施例では、多層のニューラルネットワークのネットワークパラメータの学習に、ミニバッチ学習を使用する。このためステップＳ１０１では、複数組の正解パッチと訓練パッチを取得する。ただし本実施例は、これに限定されるものではなく、オンライン学習またはバッチ学習を用いてもよい。

続いてステップＳ２０２において、取得部１０１ｂは、学習工程で用いられる補正強度に関する情報（補正強度情報）を取得する。本実施例において補正強度情報とは、学習データに紐付いた情報であり、推定時に補正量をコントロールできるようにするものである。例えば、補正強度情報として「強め」と「弱め」という２つの情報を推定時に設定できるようにする場合、それぞれに対応した学習データ（訓練画像と正解画像）を使って学習し、２種類のネットワークパラメータを用意しておく必要がある。なお、本実施例では、この２つの情報を使う場合について説明するが、設定できる数を増やしてもよいし、離散的な情報とするのではなく連続的に設定できるようにしてもよい。

続いてステップＳ２０３において、生成部１０１ｃは、ステップＳ２０１にて取得された複数の訓練画像のうち少なくとも一つの訓練画像を選択し、選択された訓練画像をネットワークへ入力して出力画像を算出（生成）する。複数の訓練画像の全てを選択する（訓練画像の全てをネットワークへ入力し、それら全ての出力を用いてネットワークパラメータを更新する）場合をバッチ学習と呼ぶ。この方法は、訓練画像の数が増えるにつれて、演算負荷が膨大になる。一枚の訓練画像のみを選択する場合（ネットワークパラメータの更新に一枚の訓練画像のみを用いて、更新ごとに異なる訓練画像を用いる）場合をオンライン学習と呼ぶ。この手法は、訓練画像の総数が増えても演算量が増大しないが、一枚の訓練画像に存在するノイズの影響を受けやすい。このため、複数の訓練画像から少数（ミニバッチ）を選択し、それらを用いてネットワークパラメータの更新を行なうミニバッチ法を用いることが好ましい。次の更新では、異なる少数の訓練画像を選択して用いる。この処理を繰り返すことにより、バッチ学習とオンライン学習の弱点を小さくすることができる。

ここで、図７を参照して、多層のニューラルネットワークで行われる処理に関して説明する。図７は、畳み込みニューラルネットワーク（ＣＮＮ）を示す図である。ただし本実施例は、これに限定されるものではなく、例えばＣＮＮに残差ネットワークを採用することができ、または、ＧＡＮ（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）などを用いてもよい。なお図７では、簡単のため、入力する訓練画像２０１を一枚だけ描画しているが、実際には選択された複数の訓練画像それぞれに対して、出力画像が生成される。訓練画像２０１は、ＲＡＷ画像を色成分ごとに三次元方向に配列した画像である。

図８は、画像の色成分に関する説明図である。本実施例において、訓練画像は図８（Ａ）に示されるようなＢａｙｅｒ配列の画像である。ここでＲＧＢは、それぞれ赤、緑、青を表す。図８（Ａ）のＢａｙｅｒ配列から、各色の成分だけを配列し直した構成が図８（Ｂ）である。Ｇは、Ｇ１とＧ２の２種類があるため、それぞれを抽出して配列する。図８（Ｂ）の四枚の画像を三次元方向に配列した４チャンネルの画像が、図７における訓練画像２０１である。この作業は必ずしも必要ではないが、収差・回折は波長によって変化するため、同一のぼけを持つ色成分を配列させた方が補正しやすい。また、ＲＧＢが同一次元内に配列されていると、局所的に異なる明るさを有する画素が混合されるため、推定精度が低下しやすい。このため、訓練画像を色成分ごとに分離することが好ましい。なお、ここではＢａｙｅｒ配列の場合を示しているが、その他の配列（ハニカム構造など）に関しても同様である。なお、モノクロの場合、色成分の再配列は実行しなくてよい。また本実施例では、複数の色成分を一括で学習、推定する例を示すが、各色で個別に学習、推定してもよい。図１では描画を簡略化するため、訓練画像２０１を４×４の４チャンネル画像としているが、縦横の画像サイズはこれに限定されるものではない。

本実施例において、訓練画像および正解画像はそれぞれ、周期的に配列された複数の色成分を有し、訓練画像または正解画像の各色成分のみで構成される色成分画像を生成する工程を設けてもよい。ここで、色成分画像を生成する工程は、訓練画像に対してニューラルネットワークへの入力前に実行され、正解画像に対して誤差の算出前に実行される。ＣＮＮは複数の層構造になっており、各層で線型変換と非線型変換が実行される。線型変換は、入力された画像（または特徴マップ）とフィルタの畳み込み、およびバイアス（図７中のｂｉａｓ）との和で表現される。各層におけるネットワークパラメータ（フィルタのウエイトとバイアス）を学習工程によって更新する。非線形変換は、活性化関数（ＡｃｔｉｖａｔｉｏｎＦｕｎｃｔｉｏｎ）と呼ばれる非線型関数による変換である（図７中のＡＦ）。活性化関数の例としては、シグモイド関数やハイパボリックタンジェント関数などがあり、本実施例では以下の式（１）で表されるＲｅＬＵ（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）が用いられる。

式（１）において、ｍａｘは、引数のうち最大値を出力するＭＡＸ関数を表す。

入力層に入力された訓練画像２０１は、第１畳み込み層で複数のフィルタ２０２それぞれとのコンボリューションと、バイアスとの和を取られる。フィルタ２０２それぞれのチャンネル数は、訓練画像２０１と一致し、訓練画像２０１のチャンネル数が２以上の場合、３次元フィルタとなる（三次元目がチャンネル数を表す）。なお、フィルタの縦横の大きさは任意である。コンボリューションと和の結果は、活性化関数によって非線形変換が施され、第１特徴マップ２０３が第１中間層に出力される。ここで、第１特徴マップ２０３のチャンネル数（三次元方向の配列数）は、フィルタ２０２の数と同じである。次に、第２畳み込み層へ第１特徴マップ２０３が入力され、前述と同様に複数のフィルタ２０４のそれぞれとのコンボリューションと、バイアスとの和が取られる。その結果を非線形変換し、以下同様に畳み込み層の数だけ繰り返す。一般に、畳み込み層が３層以上あるＣＮＮが、ディープラーニングに該当する。最後の畳み込み層から出力された結果が、ＣＮＮの出力画像２１１である。なお、最後の畳み込み層では、活性化関数による非線形変換を実行しなくてもよい。

続いてステップＳ２０４において、生成部１０１ｃは、出力画像２１１と正解画像２２１の誤差を算出する。このとき、本実施例では出力画像２１１と正解画像２２１に対してガンマ補正を実行してから誤差を算出する。ガンマ補正は、例えば入力の信号値を冪乗する処理であり、その冪指数として１／２．２などが用いられる。正解画像２２１は訓練画像２０１と同様に、色成分ごとに配列してチャンネル方向にスタックされている。本実施例において、生成部１０１ｃは、以下の式（２）を用いて誤差Ｌを算出する。

式（２）において、ｔは正解画像２２１の信号値、ｙは出力画像２１１の信号値、ｊは画素の番号、Ｎは総画素数、ｇはガンマ補正を示す。式（２）ではユークリッドノルムを用いているが、正解画像と出力画像の差異を表す値であれば、他の指標を用いてもよい。なお、本実施例では出力画像２１１と正解画像２２１に対してガンマ補正を実行してから誤差を算出しているが、この処理は必須ではなく、ガンマ補正を行わずに誤差を算出してもよい。

続いてステップＳ２０５において、更新部１０１ｄは、ステップＳ２０４にて算出された誤差からネットワークパラメータの更新量を算出し、ネットワークパラメータを更新する。ここでは、誤差逆伝搬法（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）が用いられる。誤差逆伝搬法では、誤差の微分に基づいて更新量を算出する。ただし、本実施例はこれに限定されるものではない。

続いてステップＳ２０６において、更新部１０１ｄは、所定の終了条件を満たすか否か、すなわち、ネットワークパラメータの最適化が終了したか否かを判定する。ここで所定の終了条件とは、例えば、学習工程が既定の時間に達した場合、パラメータの更新回数が既定の回数に達した場合、パラメータ更新には用いない訓練画像と正解画像を用意しておき、その出力画像と正解画像の誤差が所定の値以下になった場合などである。または、ユーザが最適化終了を指示してもよい。所定の終了条件を満たさない場合、ステップＳ２０３に戻り、更新部１０１ｄは新たなミニバッチを取得してネットワークパラメータを更新する。一方、所定の終了条件を満たす場合、ステップＳ２０７へ進む。

ステップＳ２０７において、更新部１０１ｄにて更新されたネットワークパラメータを記憶媒体１０５に出力する。本実施例では、異なる補正強度情報ごとにネットワークパラメータを学習するため、ネットワークパラメータとそれに対応する補正強度情報とを合わせて記憶媒体１０５に記憶する。以上の学習工程により、光学性能が低い領域を含む画像に対して補正処理を実行する場合であっても、弊害の発生の可能性を低減することが可能な多層のニューラルネットワークを得ることができる。

次に、図９を参照して、画像推定装置１０３で実行される推定工程に関して説明する。図９は、推定工程のフローチャートである。

まず、ステップＳ３０１において、取得部１０３ｂは、撮像装置１０２または記録媒体１０５から、撮像画像を取得する。撮像画像は、未現像のＲＡＷ画像である。ＲＡＷ画像の信号値が符号化されている場合、補正部１０３ｃは復号処理を実行する。また取得部１０３ｂは、撮像装置１０２または記録媒体１０５から、補正強度情報を取得する。前述のように補正強度情報は「強め」や「弱め」といった補正の強さに紐づくパラメータであり、撮像装置内の設定でユーザが自由に選択できる。なお、補正強度情報は撮影画像のヘッダー情報として、撮影画像内に保持させてもよい。以降の説明において、ヘッダー情報と記載されている場合には画像の付加情報を表しており、フッター情報であってもよい。また、ユーザに選択させるのではなく、撮像装置１０２が撮影シーンに応じて補正強度情報を自動で決めてもよい。

続いてステップＳ３０２において、補正部１０３ｃは、ステップＳ３０１にて取得した補正強度情報から、その情報に対応するネットワークパラメータを取得する。ネットワークパラメータは、学習装置１０１の記憶部１０１ａから読み出される。または、画像推定装置１０３の記憶部１０３ａに複数のネットワークパラメータを保存しておき、記憶部１０３ａから読み出してもよい。取得するネットワークパラメータは、ステップＳ３０１にて取得した補正強度情報と学習工程で用いられた補正強度情報とが互いに一致するもの、または、最も近いものである。

続いてステップＳ３０３において、補正部１０３ｃは、撮像画像からＣＮＮへ入力する入力画像を取得する。入力画像は、訓練画像と同様に、色成分ごとに配列して三次元方向にスタックされる。なお、推定工程の入力画像のサイズは、学習工程における訓練画像のサイズと、必ずしも一致する必要はない。

続いてステップＳ３０４において、補正部１０３ｃは、入力画像とネットワークパラメータに基づいて、推定画像を生成する。推定画像の生成には、学習工程と同様に、図７に示されるＣＮＮが用いられる。ただし、図７中の出力画像２１１が推定画像となり、それ以降の正解画像との誤差算出等の処理は行わない。

続いてステップＳ３０５において、補正部１０３ｃは、撮像画像の所定の領域に対して推定が完了したか否かを判定する。推定が完了していない場合、ステップＳ３０３へ戻り、補正部１０３ｃは、撮像画像の所定の領域から新たな入力画像を取得する。推定に用いられるＣＮＮにおいて、出力画像のサイズが入力画像よりも小さくなる場合、所定の領域からオーバーラップして入力画像を取得する必要がある。所定の領域は、撮像画像の全体または一部である。撮像画像はＲＡＷ画像であるため、受光して得られた画像の他に、ヘッダー情報（画像の画素数や撮影時刻などの情報）や撮像素子のオプティカルブラックの情報が含まれていることがある。ヘッダー情報やオプティカルブラックは、収差・回折のぼけと無関係であるため、所定の領域からそれらを除いてもよい。

続いてステップＳ３０６において、補正部１０３ｃは、生成された複数の推定画像を合成して、収差・回折によるぼけが補正された撮像画像を出力する。必要に応じて、補正部１０３ｃは、ヘッダー情報やオプティカルブラックの情報を含めて出力する。

以上の推定工程により、光学系の性能によって大きく劣化した画像を含む撮影画像に対して推定処理を実施した場合であっても、アンダーシュートやリンギングを抑制しつつ、収差・回折によるぼけを補正することができる。推定工程後、ユーザが任意で露出補正などの編集を行い、現像処理により最終的な現像画像を得る。本実施例では、補正強度情報によってネットワークパラメータを切り替えて補正を実施する方法について述べたが、複数のネットワークパラメータを取得して、入力画像をそれぞれのネットワークに入力することで複数の出力画像を生成してもよい。これにより、補正強度が異なる出力画像を複数生成することができるため、例えばそれらを補間することによって、中間の補正強度の出力画像を生成することができる。また、逆に補正強度情報は１つだけでもよく、特定のネットワークパラメータのみ撮像装置１０２または記録媒体１０５に保持しておいてもよい。

好ましくは、第２の画像は、鮮鋭度が像高に応じて異なる。より好ましくは、第２の画像は、像高が第１の像高の場合には鮮鋭度は第１の鮮鋭度であり、像高が第１の像高よりも高い第２の像高の場合には鮮鋭度は第１の鮮鋭度よりも低い第２の鮮鋭度である。

好ましくは、第２の画像は、鮮鋭度が輝度値に応じて異なる。より好ましくは、第２の画像は、輝度値が第１の輝度値の場合には鮮鋭度は第３の鮮鋭度であり、輝度値が第１の輝度値よりも低い第２の輝度値の場合には鮮鋭度は第３の鮮鋭度よりも高い第４の鮮鋭度である。

好ましくは、第１の画像は、第２の画像よりも鮮鋭度が低い。

好ましくは、学習データの製造方法は、更に、第３の画像（原画像）を取得する工程を有する。画像生成工程において、第３の画像をぼかすことにより２の画像を生成する。より好ましくは、画像生成工程において、第２の画像は、第３の画像に対して光学系の光学特性に応じてぼけ量を異ならせたぼけ付加処理により生成される。

次に、本発明の実施例２における画像処理システムに関して説明する。
図１０は、本実施例における画像処理システム３００のブロック図である。図１１は、画像処理システム３００の外観図である。画像処理システム３００は、ネットワーク３０３を介して接続されたサーバー３０１と撮像装置３０２を含む。

サーバー３０１は、学習部３１０および学習データ生成部（学習データ製造装置）３３０を有する。学習部３１０は、記憶部３１１、取得部３１２、生成部３１３、および、更新部３１４を有し、ニューラルネットワークで収差・回折によるぼけを補正するためのネットワークパラメータを学習する。学習データ生成部３３０は、記憶部３３１、取得部３３２、および、生成部３３３を有する。取得部３３２は、原画像、および学習データの生成に用いる光学系の特性情報を取得する。生成部３３３は、原画像に基づいて訓練画像および正解画像を生成する。すなわち生成部３３３は、訓練画像を取得する取得手段、および、訓練画像に対して光学特性が異なる正解画像を生成する生成手段としての機能を有する。生成部３３３により生成された訓練画像および正解画像は、記憶部３３１に記憶される。

撮像装置３０２は、被写体空間を撮像して撮像画像を取得し、読み出した前記ネットワークパラメータを用いて撮像画像中の収差・回折によるぼけを補正する。撮像装置３０２は、光学系３２１および撮像素子３２２を有する。画像推定部３２３は、取得部３２３ａと推定部３２３ｂを有し、記憶部３２４に保存されたネットワークパラメータを用いて、撮像画像の補正を実行する。ネットワークパラメータは、学習部３１０で事前に学習され、記憶部３１１に保存されている。撮像装置３０２は、記憶部３１１からネットワーク３０３を介してネットワークパラメータを読み出し、記憶部３２４に保存する。収差・回折によるぼけを補正した撮像画像（出力画像）は、記録媒体３２５に保存される。ユーザから出力画像の表示に関する指示が出された場合、保存された出力画像が読み出され、表示部３２６に表示される。なお、記録媒体３２５に既に保存された撮像画像を読み出し、画像推定部３２３でぼけ補正を行ってもよい。以上の一連の制御は、システムコントローラ３２７によって行われる。

次に、図１２を参照して、学習データ生成部３３０で実行される学習データ生成工程に関して説明する。図１２は、学習データ生成工程のフローチャートである。図１２の各ステップは、学習データ生成部３３０の各部（記憶部３３１、取得部３３２、生成部３３３）により実行される。

実施例１では、光学系の光学性能が低い領域については、正解画像を生成する際に原画像に対してあえてぼけを付与した。これにより、光学性能が低い領域においては訓練画像との差異が小さくなり、光学性能が高い領域では訓練画像と正解画像の際は確保できるため、弊害の発生の可能性を低減した学習データを生成した。一方、本実施例では、画像の輝度値に着目し、高輝度部周辺で発生するアンダーシュートやリンギング等の弊害の発生の可能性を低減するための学習データの製造方法について説明する。

図１２のステップＳ４０１、ステップＳ４０２、ステップＳ４０３については、図１のステップＳ１０１、ステップＳ１０２、ステップＳ１０３と同様の処理となるため、説明を省略する。なお、ステップＳ４０４で撮像素子３２２の輝度飽和値の情報を利用する場合は、ステップＳ４０１またはステップＳ４０２において、取得部３３２が撮像装置３０２から輝度飽和値の情報を取得してもよい。あるいは、輝度飽和値の情報をステップＳ４０１にて取得した原画像のヘッダー情報から取得してもよい。

次に、ステップＳ４０４において、正解画像の生成に用いる補正マップを生成する。図１３（Ａ）は本実施例における補正マップの模擬図であり、原画像を輝度値に応じてＡＢＣＤの４つの領域に分割している。図１３（Ａ）において、実線の内側の領域をＤ領域、Ｄ領域を除く破線の内側の領域をＣ領域、Ｄ領域およびＣ領域を除く２点鎖線の内側の領域をＢ領域、２点鎖線の外側の領域をＡ領域とする。また、図１３（Ｂ）は、図１３（Ａ）の太い実線に対応する原画像の断面図である。図１３（Ｂ）の実線、破線、２点鎖線はそれぞれ図１３（Ａ）の実線、破線、２点鎖線に対応している。本実施例では、撮像素子３２２の輝度飽和値以上の輝度値をＤ領域、輝度飽和値の６０％以上かつ輝度飽和値未満をＣ領域、輝度飽和値の２０％以上かつ６０％未満をＢ領域、輝度飽和値の２０％未満をＡ領域とする。本実施例の補正マップは、図１３（Ａ）に示されるように輝度値に応じて４つの領域に分割しているが、領域数は増やしてもよいし、減らしてもよい。また、指標を段階的に分割しているが、指標値をそのまま補正マップとしてもよく、連続値として利用することもできる。

続いて、ステップＳ４０５において、ステップＳ４０４で作成した補正マップに基づき正解画像を生成する。図１３（Ａ）の補正マップにおいて、Ａ領域は輝度値が低く弊害が発生しにくい領域であるため、この領域に対応する正解画像は原画像をぼかさずそのまま用いる。これにより、元々弊害の発生の可能性が低い性能の高い領域については、訓練画像と正解画像の乖離を維持することで補正量を保つことができる。

次に、Ｂ領域に関してはＡ領域よりも輝度が高く、Ｃ領域よりは低いため、原画像に対して少しぼけを付与する。例えば、各画素に対応したＰＳＦに対して２０％に縮小したＰＳＦを生成して、その縮小したＰＳＦを原画像に付与することで正解画像を生成する。続いて、Ｃ領域についてはＢ領域よりも輝度が高いため、さらにぼけ量を増やす。例えば、訓練画像に付与したＰＳＦに対して５０％に縮小したＰＳＦを生成して、その縮小したＰＳＦを原画像に付与することで正解画像を生成する。そして、Ｄ領域については、最も輝度が高いため、縮小せず訓練画像に付与したＰＳＦで原画像をぼかして正解画像を生成する。すなわち正解画像は、輝度値が第１の輝度値の場合、鮮鋭度は第３の鮮鋭度（第３のぼけ量）であり、輝度値が第１の輝度値よりも低い第２の輝度値の場合、鮮鋭度は第３の鮮鋭度よりも高い第４の鮮鋭度（第３のぼけ量よりも小さい第４のぼけ量）である。

なお、前述の補正マップに対するＰＳＦの縮小量は一例であり、これに限定されるものではない。また、Ａ領域についてはぼかさない領域としたが全領域をぼかしてもよい。ただし、正解画像に付与するぼけ量は訓練画像を生成する際に付与したぼけ量と比べて同等かそれ以下となる必要がある。すなわち訓練画像は、正解画像よりも鮮鋭度が低い（ぼけ量が大きい）。このため、正解画像にぼけを付与する場合、訓練画像を生成する際に用いたＰＳＦに対して等倍か縮小したものを用いる。また、ステップＳ４０３において訓練画像を生成する際にぼけ付与後、縮小した場合は正解画像も同じ倍率で縮小する。このとき原画像が撮像素子３２２の輝度飽和値よりも高い信号値を有していた場合、撮像素子３２２の輝度飽和値で信号をクリップする。

続いてステップＳ４０６において、ステップＳ４０３で生成した訓練画像とステップＳ４０５で生成した正解画像のペアを学習データとして記憶部３３１に格納する。ステップＳ４０６はステップＳ１０６と同様であるため、詳細説明は省略する。

本実施例において、学習工程は学習部３１０において実行され、推定工程は画像推定部３２３によって実行される。本実施例における学習工程では、図１２のフローで作成された学習データ（正解画像と訓練画像）が用いられる。それ以外の内容に関しては、実施例１の図６に示されるフローチャートと同様の処理になるため、詳細は省略する。また、推定工程についても、実施例１の図９に示されるフローチャートと同様の処理になるため、説明は省略する。

以上、輝度値に応じた補正マップを生成し、その補正マップに基づき正解画像を生成することで、高輝度部周辺で発生するアンダーシュートやリンギング等の弊害発生の可能性を低減可能な学習データを製造することができる。こうして作成した学習データを使ってネットワークパラメータを生成し、その情報を使って推定処理を実行することで、高輝度部を有する撮影画像に対しても前述の弊害の発生の可能性を低減しつつ、収差・回折によるぼけを高精度に補正することができる。なお、本実施例では、補正マップを４つに分割したが、輝度飽和部と輝度飽和部以外の２つに分割してもよい。このとき、例えば輝度飽和部に対して訓練画像に付与したＰＳＦで原画像をぼかして正解画像を生成したとすると、輝度飽和部に関しては訓練画像と正解画像に差異がなくなる。この学習データを利用してネットワークを学習し、そのネットワークパラメータを用いて推定処理を実行すれば、輝度飽和部は補正せずに輝度飽和部以外の領域を補正する処理を実現することができる。特に、撮影画像において輝度飽和部は情報が欠落している領域であり、他の領域と同様にそのまま補正しようとすると弊害が発生しやすくなる。そのため、このような学習を行うことで、高品質な推定画像を出力できるネットワークを実現することができる。また本実施例では、原画像の輝度値を用いて補正マップを生成したが、輝度値の変化に基づいて補正マップを生成してもよい。この場合、原画像に対して微分フィルタやプリューウィットフィルタ、ソーベルフィルタを適用することで微分画像を生成することができる。あるいはラプラシアンフィルタ等を用いて２階微分した画像を生成してもよい。このように、輝度の変化に基づいて補正マップを生成することで、コントラストの高いエッジ近傍で発生する弊害を抑制可能な学習データを生成することができる。

また、実施例１では性能に応じた補正マップの生成について説明し、本実施例では画像の輝度に応じた補正マップの生成について述べたが、この両方を実施してもよい。すなわち、ステップＳ４０４において、輝度に応じた補正マップを作成するだけでなく、光学系の光学情報に応じた補正マップも作成し、これら２つの補正マップを統合する。例えば、図５と図１３（Ａ）の補正マップを統合する場合、よりぼかす方に合わせることで統合したマップを作成することができる。つまり、図５でＢ領域、図１３（Ａ）でＤ領域であった領域では、Ｂ領域にするという方法である。あるいは、それぞれの補正マップにおけるＰＳＦの縮小率の平均値を統合した補正マップとしてもよい。統合の方法については、これらの手法に限らず、別の方法を用いて統合した補正マップを生成してもよい。このように２つの補正マップを用いることで、光学系の性能と画像の輝度値の両方の影響を加味した学習データを生成することができる。

次に、本発明の実施例３における画像処理システムに関して説明する。本実施例における画像処理システムの構成および学習工程は実施例１と同様であり、学習データ生成工程（学習データの製造方法）および推定工程が異なる。

図１４を参照して、本実施例で実行される学習データの製造方法に関して説明する。図１４は、学習データの製造方法のフローチャートである。

実施例１では、補正マップを作成し、その補正マップに基づいて正解画像を生成したが、本実施例では補正マップを用いずに正解画像および訓練画像を生成する。すなわち、本実施例における正解画像および訓練画像の原画像に対する補正量は画像内で一定である。ステップＳ６０１、ステップＳ６０２はそれぞれ、実施例１のステップＳ１０１、ステップＳ１０２と同様の処理であるため説明を割愛する。

ステップＳ６０３において、生成部１０８ｃは、ステップＳ６０２で取得した光学情報を用いて訓練画像（第１の画像）を生成する。本実施例における訓練画像は、例えば、光学系を用いた撮影により取得される画像（光学系の全画角に対応した画像）における一部のみを抜き出した画像（一部の像高に対応する画像）に対応する。実施例１では、画素位置ごとにＰＳＦを異ならせるためにＰＳＦを線形補間する方法を説明したが、本実施例では画素位置に応じてＰＳＦ変更することなく一律のぼけを付与する。その代わり、本実施例では像高に応じた光学性能（光学情報）の変動に対応するため、原画像の枚数を増やして生成する正解画像および訓練画像を増やす。推定する際に複数のレンズステート、像高、アジムスに対応する必要があれば、これらを混ぜて正解画像と訓練画像のペアを生成しておく。

続いてステップＳ６０４において、生成部１０８ｃは、ステップＳ６０３で生成された訓練画像のペアとなる正解画像（第２の画像）を生成する。本実施例における正解画像は、例えば、光学系を用いた撮影により取得される画像（光学系の全画角に対応した画像）における一部のみを抜き出した画像（一部の像高に対応する画像）に対応する。正解画像として抜き出される原画像の領域はペアとなる訓練画像と同等であり得る。本実施例では、光学系の性能としてＰＳＦのピーク値として用いて正解画像を生成する。光学系の性能が高ければ高いほどＰＳＦのピーク値も高くなり、逆に性能が低いとピーク値も下がるため、原画像から正解画像を生成する際の指標として適している。なお、実施例２に述べたように光学性能ではなく輝度飽和部の有無に基づいて正解画像を生成しても良い。

図１５は、光学系の性能（光学性能）と正解画像生成のために原画像に付与するＰＳＦのぼかし量との関係を示す模擬図であり、光学系の性能に応じて３つの領域（区間Ａ、Ｂ、Ｃ）に分割している。本実施例において、図１５の横軸はＰＳＦのピーク値に対応する光学性能である。光学性能が区間Ａに属する場合、ＰＳＦのピーク値が高く光学系の性能が十分に出ていると見做せる。正解画像として抜き出される原画像の領域の光学性能が区間Ａに属する場合は原画像をそのまま正解画像として用いる。このように光学性能が高く上述した弊害発生の可能性が低い場合には訓練画像と正解画像の乖離を維持する。その結果、光学性能が区間Ａに属する場合には訓練画像（入力画像）に対する補正量が比較的大きくなるように学習される。

正解画像として抜き出される原画像の領域の光学性能が区間Ｂに属する場合、ＰＳＦピーク値に応じてＰＳＦのぼかし量を変化させる。図１５に示すようにＰＳＦのピーク値が高いと原画像に付与するぼかし量は小さく、逆にピーク値が低いとぼかし量は大きくなるよう調整される。図１５の領域Ｂにおける変化は直線で表現されているが、これに限らず２次関数や指数関数等、非線形関数で表現してもよい。

区間Ｃは、最も光学系の性能が低い領域である。正解画像として抜き出される原画像の領域の光学性能が区間Ｃに属する場合には訓練画像を生成する際に用いたＰＳＦをそのまま用いて正解画像を生成する。すなわち、訓練画像と正解画像を同様の手法により生成する。区間Ｃのように光学性能が低い場合には、弊害が発生する可能性が高くなる。このため、訓練画像と正解画像を一致させることで、学習による訓練画像(入力画像)に対する補正効果を抑える。これにより、弊害を抑制することが可能となる。このように、光学系の性能に応じて原画像から正解画像を生成する際のぼけ付与量を調整することにより、弊害が発生しにくい条件では効果を大きく、逆に弊害が発生しやすい条件では効果を抑えて弊害抑制を優先することができる。

ここでは、ぼけ付与量を調整のためにＰＳＦのピーク値を指標にとったが、周波数特性を指標としてもよい。この場合は、ＰＳＦをフーリエ変換することでＯＴＦを生成し、絶対値をとってＭＴＦを算出する。ＭＴＦを指標とする際には特定の周波数におけるＭＴＦ値（例えばナイキスト周波数の半分におけるＭＴＦ値）でもよいし、ある区間の積分値（ナイキスト周波数までの積分値）や平均値でもよい。他の指標としてぼけの非対称性を用いてもよく、非対称性を数値化してその数値に応じてぼけ量を調整することもできる。基本的にＰＳＦが非対称なほど弊害が発生しやすくなるという傾向がある。非対称性を数値化する方法として、例えばＰＳＦからメリジオナル方向とサジタル方向のように直交する２断面のＬＳＦを算出し、２つのＬＳＦのピーク値の差を指標とする。この場合、ピーク値の差が大きいと非対称な形状であるため、よりぼかし量を増やし、逆に差が小さいほどぼかし量を減らす。ＬＳＦではなく周波数特性で評価し、メリジオナル方向とサジタル方向のＭＴＦ特性の平均値や特定の周波数における差分値を用いて非対称性の指標としてもよい。あるいは、ＰＳＦの歪度を用いることもできる。歪度の絶対値が大きいほど非対称性が高くなるためぼかし量を大きく、逆に絶対値が小さいほど非対称性が小さくなるため、ぼかし量を小さくすればよい。また、ぼけ付与量を調整のためのより簡便な指標として、正解画像の対応する像高（光学系の全画角に対応した画像における正解画像の位置）を用いても良い。一実施例１で述べたように、一般に像高が高くなると光学性能が低下する相関があるためである。

また、原画像の高周波成分が不充分な場合、原画像を縮小して正解画像を生成してもよい。この際、訓練画像でも同様に縮小を行う。

続いてステップＳ６０５において、ステップＳ６０３で生成した訓練画像とステップＳ６０４で生成した正解画像のペアを学習データとして記憶部１０８ａに格納する。

以上が、本実施例における学習データの製造方法となる。このように作成した正解画像と訓練画像を用いて学習することにより、弊害の発生の可能性を低減しつつ高精度な補正を実現するための学習モデルの生成が可能となる。

次に、図１６を参照して、画像推定装置１０３で実行される推定工程に関して説明する。図１６は、推定工程のフローチャートである。

実施例１では、補正強度情報に基づいてネットワークパラメータを取得する方法について説明した。本実施例では画像推定装置１０３のリソース情報に基づいてネットワークモデルを取得する方法について説明する。本実施例においてネットワークモデルとは、ネットワークパラメータとネットワークの構成（アーキテクチャ）を含むものとする。実施例１で述べたように、ＣＮＮに入力する入力画像のサイズは学習時と異ならせてもよい。もし、撮影画像の一部の領域を入力画像とする場合は、出力される推定画像を合成して補正された撮影画像を生成すればよい。このように推定処理を行う場合、入力画像のサイズを大きくすると撮影画像の分割数が減るため、より高速に推定処理を実行することができる。しかしながら、サイズを大きくすると、その分メモリ（ＲＡＭ）の使用量が増大する。画像推定装置のメモリ容量をオーバーすると処理速度が逆に低下したり、異常終了となったりする。つまり、より効率的に処理するためには、画像推定装置に合わせて入力サイズを設定した方がよく、ここではその一例について述べる。

まず、ステップＳ７０１において、取得部１０３ｂは、撮像装置１０２または記録媒体１０５から、撮像画像を取得する。撮像画像は、未現像のＲＡＷ画像である。ＲＡＷ画像の信号値が符号化されている場合、補正部１０３ｃは復号処理を実行する。また取得部１０３ｂは画像処理装置のメモリ情報（リソース情報）を取得する。取得するメモリ情報は物理メモリの容量でもよいが、他のプロセスによって使用できる容量が変化するため、空き容量を取得する方が好ましい。他のプロセスによる影響が小さいのであれば物理メモリの容量でもよいし、物理メモリと使用中のメモリ容量から使用できるメモリ容量を見積もってもよい。

続いてステップＳ７０２において、補正部１０３ｃは、ステップＳ７０１にて取得したメモリ情報に基づいて、適切なネットワークモデルを取得する。ここで、入力画像サイズが固定のネットワークモデルの場合、適切なネットワークモデルを選択する必要がある。たとえば、ステップＳ７０１にて取得したメモリの空き容量がＣＮＮによって使用するメモリ容量よりも十分に大きい場合、入力画像サイズが大きいネットワークモデルを取得する。逆に空き容量が少ない場合、入力画像サイズが小さいネットワークモデルを取得する。ネットワークパラメータは変える必要がないため、メモリ情報に基づいてネットワークの構成のみ取得してもよい。ネットワークモデルは様々なフォーマットが存在するが、入力画像サイズが固定の場合はこのように切り替えることで効率的に補正処理を実行することができる。入力画像サイズが可変のネットワークモデルであれば、特にネットワークモデルを変える必要はなく、入力画像サイズのみ適切な値を設定すればよい。ここでは、２つのネットワークモデルの選択について説明したが、ネットワークモデルのバリエーションを増やすことで、より画像処理装置に適したネットワークモデルを選択できるようになる。このネットワークモデルの選択については、メモリ情報より自動的に判定して対応したネットワークモデルを選定するだけでなく、ユーザの入力情報に基づいてもよい。例えば、高パフォーマンスモードと軽量モードを選択できるようにし、そのモード情報も加味することで、よりユーザが望む処理を実現することができる。

ステップＳ７０３以降については、実施例１のステップＳ３０３以降と同様であるため詳細説明は省略する。

以上が、本実施例における推定工程となる。画像処理装置のメモリ情報に基づいてネットワークモデルや構成を取得することにより、処理する環境に適した推定処理を実現することができる。

なお、本実施例においては訓練画像および正解画像を、光学系の全画角に対応した画像における一部の像高に対応するものとした。この場合、学習の際には、訓練画像に加えて訓練画像の像高に関する情報をニューラルネットワークに入力して学習するようにしても良い。これにより、光学系の全画角に対応した画像内の位置に応じた補正量をより精度よく学習することが可能となる。また、訓練画像の像高に関する情報をニューラルネットワークに入力して学習させる場合には、推定工程においても学習時と同様にして入力画像の像高に関する情報をニューラルネットワークに入力する。

（その他の実施例）
本発明は、上述の実施例の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

各実施例によれば、ニューラルネットワークに入力する画像に高輝度な被写体や、光学系の収差により大きくぼけた被写体を含む場合でも、弊害が発生する可能性を低減しつつ高精度な補正を実現することが可能な学習データの製造方法等を提供することができる。

以上、本発明の好ましい実施例について説明したが、本発明はこれらの実施例に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。

１０８学習データ製造装置
１０８ｃ生成部（取得手段、生成手段）

Claims

ニューラルネットワークの学習に用いる学習データの製造方法であって、
原画像を取得する工程と、
前記原画像に対して第１のぼけを付加することで訓練画像を生成する工程と、
前記原画像に対して第２のぼけを付加することで正解画像を生成する工程とを有し、
前記第２のぼけの量は、前記第１のぼけの量よりも少なく、
前記第１のぼけ及び前記第２のぼけは、互いに同じ光学情報に基づいて生成されることを特徴とする製造方法。
前記光学情報は像高に応じて異なる複数の値であることを特徴とする請求項１に記載の製造方法。
前記複数の値は、光学伝達関数または点像分布関数に基づく値であることを特徴とする請求項２に記載の製造方法。
前記第２のぼけの量は、前記原画像の位置に応じて異なることを特徴とする請求項１乃至３のいずれか一項に記載の製造方法。
前記第２のぼけの量は、前記原画像の第１の像高に対応する位置よりも、該第１の像高よりも高い第２の像高に対応する位置において多いことを特徴とする請求項４に記載の製造方法。
前記第１のぼけの量は、前記原画像の位置に応じて異なることを特徴とする請求項１乃至５のいずれか一項に記載の製造方法。
前記第１のぼけの量は、前記原画像の第１の像高に対応する位置よりも、該第１の像高よりも高い第２の像高に対応する位置において多いことを特徴とする請求項６に記載の製造方法。
前記第２のぼけの量は、前記原画像の輝度値に基づいて決定されることを特徴とする請求項１乃至４のいずれか一項に記載の製造方法。
前記第２のぼけの量は、前記原画像における第１の輝度値の領域よりも、該第１の輝度値よりも低い第２の輝度値の領域において少ないことを特徴とする請求項８に記載の製造方法。
請求項１乃至９のいずれか一項に記載の製造方法により生成された学習データを用いたニューラルネットワークの学習を行う学習方法であって、
前記訓練画像を前記ニューラルネットワークに入力することで処理画像を生成する工程と、
前記正解画像と前記処理画像とに基づいて前記ニューラルネットワークのパラメータを更新する工程とを有することを特徴とする学習方法。
ニューラルネットワークの学習に用いる学習データを製造する製造装置であって、
原画像を取得する第１の生成手段と、
前記原画像に対して第１のぼけを付加することで訓練画像を生成する第２の生成手段と、
前記原画像に対して第２のぼけを付加することで正解画像を生成する第３の生成手段とを有し、
前記第２のぼけの量は、前記第１のぼけの量よりも少なく、
前記第１のぼけ及び前記第２のぼけは、互いに同じ光学情報に基づいて生成されることを特徴とする製造装置。
請求項１乃至９のいずれか一項に記載の製造方法により生成された学習データを用いたニューラルネットワークの学習を行う学習装置であって、
前記訓練画像を前記ニューラルネットワークに入力することで処理画像を生成する生成手段と、
前記正解画像と前記処理画像とに基づいて前記ニューラルネットワークのパラメータを更新する更新手段とを有することを特徴とする学習装置。
請求項１乃至９のいずれか一項に記載の製造方法をコンピュータに実行させることを特徴とするプログラム。
請求項１３に記載のプログラムを記憶していることを特徴とする記憶媒体。
請求項１乃至９のいずれか一項に記載の製造方法により生成された学習データを用いたニューラルネットワークの学習により学習済みモデルを製造する製造方法であって、
前記訓練画像を前記ニューラルネットワークに入力することで処理画像を生成する工程と、
前記正解画像と前記処理画像とに基づいて前記ニューラルネットワークのパラメータを更新する工程と、を有することを特徴とする製造方法。
請求項１２に記載の学習装置からニューラルネットワークを取得する工程と、
入力画像を前記ニューラルネットワークに入力することで推定画像を生成する工程とを有することを特徴とする画像処理方法。
前記入力画像は撮像により得られた画像であり、
前記推定画像は、前記ニューラルネットワークによって前記撮像において発生した前記入力画像におけるぼけを補正することで生成されることを特徴とする請求項１６に記載の画像処理方法。
請求項１６又は１７に記載の画像処理方法をコンピュータに実行させることを特徴とするプログラム。