JP7458857B2

JP7458857B2 - 画像処理装置、画像処理方法及びプログラム

Info

Publication number: JP7458857B2
Application number: JP2020066048A
Authority: JP
Inventors: 泰弘奥野
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2020-04-01
Filing date: 2020-04-01
Publication date: 2024-04-01
Anticipated expiration: 2040-04-01
Also published as: US11941862B2; US20210312593A1; JP2021163319A

Description

本発明は、特に、画像処理モデルを学習するために用いて好適な画像処理装置、画像処理方法及びプログラムに関する。

近年、デジタルカメラ等の撮像装置に対して、暗所や夜間などの環境下でも高画質な画像を得ることに対する要求が高まりつつある。このような環境下ではＩＳＯ感度を上げることで、明るい画像を撮影することができる。しかしながら、ＩＳＯ感度を上げると光に対する反応が高くなり、明るい画像を得ることができるが、ノイズに対する反応も高くなり、ノイズ量が増えるという課題がある。このような課題を解決するために、高感度で撮影した画像のノイズを画像処理によって低減するノイズ低減手法の開発が行われてきている。

非特許文献１には、ＣＮＮ（Convolutional Neural Network）を用いた機械学習の手法によるノイズ低減手法が開示されている。この手法では、同シーンの低ノイズ画像を教師画像として学習することで、高ノイズ画像を入力して低ノイズ画像を出力するようなニューラルネットワークを学習するとしている。

Mao, Xiaojiao, Chunhua Shen, and Yu-Bin Yang. "Image restoration using very deep convolutional encoder-decoder networks with symmetric skip connections." Advances in neural information processing systems. 2016.

非特許文献１に記載の手法においては、入力する高ノイズ画像のノイズ強度が強い場合、高ノイズ画像のノイズパターンに起因した偽模様が出力されるような弊害が起こりやすい。これは、ノイズ強度が高まるに従って教師画像中の弱い輝度値のテクスチャと入力データのノイズの輝度値とが接近して、互いの区別がつきにくくなることに起因する。教師画像中の弱い輝度値のテクスチャに対してはそのテクスチャを再現するように学習されているため、入力データ中の弱い輝度値のノイズが教師画像中のテクスチャに偶然似たパターンを示すと、誤反応してしまう可能性がある。その結果、実際のシーンには存在しない偽模様を出力することがある。

本発明は前述の問題点に鑑み、ノイズを低減する処理を行う際に、ノイズパターンに起因する偽模様を出力するような弊害を低減できるように画像処理モデルを学習することを目的としている。

本発明に係る画像処理装置は、ノイズを含む画像からノイズを除去するための画像処理モデルを学習する画像処理装置であって、前記画像処理モデルを学習するための学習データである低ノイズ画像と、前記低ノイズ画像のシーンに対応し、ノイズのパターンが異なる複数の高ノイズ画像とを取得する取得手段と、前記複数の高ノイズ画像をそれぞれ前記画像処理モデルに入力することによって得られる複数の出力画像と前記低ノイズ画像との誤差をそれぞれ算出する誤差算出手段と、前記複数の出力画像の間の誤差に基づいて、ノイズに対する安定度を算出する安定度算出手段と、前記誤差算出手段によって算出された誤差と前記安定度算出手段によって算出された安定度とを含む損失関数を用いて前記画像処理モデルを学習する学習手段とを有することを特徴とする。

本発明によれば、ノイズを低減する処理を行う際に、ノイズパターンに起因する偽模様を出力するような弊害を低減できるように画像処理モデルを学習することができる。

第１の実施形態の画像処理装置の内部構成例を示すブロック図である。学習処理の基本的な処理手順の一例を示すフローチャートである。学習データを取得する処理手順の一例を示すフローチャートである。フィードフォワード処理の手順の一例を示すフローチャートである。未知の画像に対してノイズ低減の画像処理を行う処理手順の一例を示すフローチャートである。第３の実施形態の画像処理装置の内部構成例を示すブロック図である。第４の実施形態の画像処理装置の内部構成例を示すブロック図である。第４の実施形態におけるフィードフォワード処理の手順の一例を示すフローチャートである。

（第１の実施形態）
以下、本発明の第１の実施形態について、図面を参照しながら説明する。本実施形態で説明する画像処理装置は、画像のノイズ低減を行うものとして説明する。

図１は、本実施形態における画像処理装置１００の内部構成例を示すブロック図である。
図１において、ＣＰＵ１０１は画像処理装置１００全体を制御する。入力部１０５は、キーボード・タッチパネル等で構成されており、画像処理の対象となる画像の指定などユーザからの入力を受け付ける。表示部１０６は、液晶ディスプレイ等で構成されており、処理対象の画像や処理結果の画像を表示する。通信部１０７は、他の装置との通信により、データの送受信を行う。

第１のメモリ１０３には主に制御プログラム１０８が格納され、第２のメモリ１０４には主に後述の各種データが格納されている。また、これらの構成はバス１０２で接続されている。なお、第１のメモリ１０３及び第２のメモリ１０４に格納されているデータ等は図１に示す例に限定されるものではない。

第２のメモリ１０４には、学習データセット１２１が予め格納されており、学習データセット１２１は低ノイズ画像が一つ以上保持されているデータセットである。また、第２のメモリ１０４には、本実施形態における画像処理モデルの一例であるＣＮＮ等の多層のニューラルネットワーク１２０も格納されている。詳細は後述するが、学習部１１０によりこの画像処理モデルを学習し、学習されるニューラルネットワーク１２０のパラメータが第２のメモリ１０４に保存され、学習するに従ってこのパラメータが更新される。また、ニューラルネットワーク１２０は画像を入力して画像を出力するような構成になっている。なお、本実施形態では、画像処理モデルの一例としてニューラルネットワークを用いるが、画像処理モデルは学習可能なものであれば、ニューラルネットワークに限定されない。

第１のメモリに格納されている制御プログラム１０８は、少なくとも本実施形態に係る処理を実行させるためのプログラムが含まれている。ＣＰＵ１０１が制御プログラム１０８を実行することにより、学習部１１０、学習データ取得部１１１、推定誤差算出部１１２、安定度算出部１１３、損失値算出部１１４、及び画像処理部１１５として機能する。なお、これらの各部はＣＰＵ１０１を用いてソフトウェアで実現しても良いし、一部を電子回路などのハードウェアで実現するようにしてもよい。また、これらの各部における処理は、フローチャートの説明で後述する。

本実施形態においては、画像処理部１１５は、学習部１１０によって学習された画像処理モデル（ニューラルネットワーク１２０）を用いて画像処理を行う。ニューラルネットワーク１２０では、実写画像またはＣＧ画像に人工的なノイズを付加した高ノイズ画像を入力とし、ノイズを付加する前の低ノイズ画像を教師画像とすることで、高ノイズ画像からノイズが除去された画像を出力する。これにより、ニューラルネットワーク１２０を学習する。なお、学習の基本的な処理は公知の技術と同様であり、所定の損失関数によって算出された損失値に基づいて誤差逆伝搬法などの方法を用いてニューラルネットワークを学習する。これについては周知の技術であるので詳細な説明は省略する。本実施形態においては、損失値の算出方法に特徴があり、以下ではその方法について重点的に説明する。

図２は、本実施形態における学習処理の基本的な処理手順の一例を示すフローチャートである。
まず、ステップＳ２０１において、学習データ取得部１１１により、学習データを取得する。ここで、学習データ取得部１１１による処理の詳細について説明する。

図３は、図２のステップＳ２０１の詳細な処理手順の一例を示すフローチャートである。
まず、ステップＳ３０１において、学習データ取得部１１１により、学習データセット１２１から低ノイズ画像を１つ取り出し、第２のメモリ１０４に低ノイズ画像１２２として格納する。

続いてステップＳ３０２において、学習データ取得部１１１により、低ノイズ画像１２２からノイズ強度を生成し、第２のメモリ１０４にノイズ強度１３４として格納する。ここでノイズ強度は、ノイズモデルによって定義されるノイズの強度を表す値であり、ノイズモデルはデジタル画像の撮像過程におけるイメージセンサの暗電流ノイズやショットノイズをモデル化した関数である。例えば、ノイズ強度をノイズの標準偏差として表し、低ノイズ画像の輝度値を変数Ｉとして、ノイズの標準偏差Ｉσを以下の式（１）で定義するような関数である。

ここで、式（１）中のＩ₀とＫは定数であり、イメージセンサにおけるノイズの性質によって事前に決められた値である。なお、ノイズモデルにどのような関数を用いるかいついては特に限定されない。本実施形態においては、低ノイズ画像１２２の輝度値を式（１）のノイズモデルの関数にあてはめることでノイズ強度を算出する。このように、ノイズ強度は輝度値に応じた値になり、低ノイズ画像１２２のノイズ強度１３４は、低ノイズ画像１２２と同じ要素数のマップとして表現される。

次に、ステップＳ３０３において、学習データ取得部１１１により、低ノイズ画像１２２に対してノイズを与えた第１の高ノイズ画像を生成し、第２のメモリ１０４に第１の高ノイズ画像１２３として格納する。この処理では、前のステップＳ３０２で生成したノイズ強度１３４の標準偏差に従ってノイズ強度１３４と同数要素の乱数マップを発生させ、これを低ノイズ画像１２２に要素ごとに加算すればよい。

ステップＳ３０４において、学習データ取得部１１１により、低ノイズ画像１２２に対してステップＳ３０３で与えたノイズとは異なるパターンのノイズを与えた第２の高ノイズ画像を生成し、メモリ１０４に第２の高ノイズ画像１２４として格納する。この処理では、ノイズ強度１３４からステップＳ３０３とは異なる乱数系列を用いてステップＳ３０３とは異なる乱数マップを発生させ、前のステップＳ３０３と同様に、低ノイズ画像１２２に要素ごとに加算すればよい。

第１の高ノイズ画像１２３と第２の高ノイズ画像１２４は、元の画像はいずれも同じ低ノイズ画像１２２であり、与えられたノイズのパターンがそれぞれ異なるだけである。なお、本実施形態では、１つの低ノイズ画像から２つの高ノイズ画像を生成するが、予め２つの高ノイズ画像が生成されていてもよい。例えば、学習データセット１２１の中に、同じシーンに対する低ノイズ画像と２つの高ノイズ画像とが予め保持されていてもよい。この場合、同じシーンに対して低ＩＳＯ感度設定で１枚、高ＩＳＯ感度設定で２枚の撮影を行い、３枚の画像がファイル名などで対応付けられた状態で保持されていればよい。また、この場合には、学習データ取得部１１１は、ステップＳ２０１の処理として、学習データセット１２１から、対応付けられた１枚の低ノイズ画像と２枚の高ノイズ画像を取り出してそれぞれ第２のメモリ１０４に格納すればよい。

図２の説明に戻り、次に、ステップＳ２０２において、学習部１１０により、フィードフォワード処理を行う。ここでフィードフォワード処理とは、ニューラルネットワーク１２０に入力データを入力し、その出力値を得る処理である。

図４は、図２のステップＳ２０２の詳細な処理手順の一例を示すフローチャートである。
まず、ステップＳ４０１において、学習部１１０により、第２のメモリ１０４に格納されている第１の高ノイズ画像１２３をニューラルネットワーク１２０に入力し、得られた最終出力を第１の推定出力値１２５として第２のメモリ１０４に格納する。

続いてステップＳ４０２において、学習部１１０により、第２のメモリ１０４に格納されている第２の高ノイズ画像１２４をニューラルネットワーク１２０に入力し、得られた最終出力を第２の推定出力値１２６として第２のメモリ１０４に格納する。一般的なニューラルネットワークの学習処理におけるフィードフォワード処理は一つの入力データに対して一つの出力を得る処理であるが、本実施形態においては、２つの入力データに対して２つの出力を得るようにしている。

図２の説明に戻り、次に、ステップＳ２０３において、推定誤差算出部１１２により、推定誤差の算出を行う。この処理では、推定誤差算出部１１２は、低ノイズ画像１２２を教師値として、推定出力値と教師値との誤差を算出する。具体的にはまず、推定誤差算出部１１２により、低ノイズ画像１２２と第１の推定出力値１２５との間の誤差を算出し、第１の推定誤差１２７として第２のメモリ１０４に格納する。そして、推定誤差算出部１１２により、低ノイズ画像１２２と第２の推定出力値１２６との間の誤差を算出し、第２の推定誤差１２８として第２のメモリ１０４に格納する。ここで、推定誤差は、例えば、低ノイズ画像と推定出力値との各要素（ピクセル）ごとの値の差のＬ１距離やＬ２距離で定義するなど、どのように推定誤差を定義してもよい。本実施形態では、例えば、推定誤差は以下の式（２）に従って算出する。

ここで、式（２）中の差分演算（－）では、要素ごとに差分算出するものとする。すなわち、推定誤差は、要素ごとの差分の絶対値の総和をとり、総要素数で割って平均をとるものとする。

次にステップＳ２０４において、安定度算出部１１３により、対ノイズ安定度を算出し、対ノイズ安定度１２９として第２のメモリ１０４に格納する。この処理では、安定度算出部１１３は、第２のメモリ１０４に格納されている第１の推定出力値１２５と第２の推定出力値１２６との間の誤差を算出することにより対ノイズ安定度を算出する。ここで、誤差は、例えば、第１の推定出力値１２５及び第２の推定出力値１２６の要素ごとの値の差のＬ１距離やＬ２距離で定義するなど、どのように誤差を定義してもよい。本実施形態においては、対ノイズ安定度は、第１の推定出力値１２５と第２の推定出力値１２６とが互いに似ているほど値が小さくなる。例えば、以下の式（３）に従って、要素ごとに差分をとって平均をとるなどして２つの推定出力値の誤差を算出して対ノイズ安定度を算出する。

次に、ステップＳ２０５において、損失値算出部１１４により、損失値を算出し、損失値１３１として第２のメモリ１０４に格納する。この処理では、損失値算出部１１４は、第１の推定誤差１２７と第２の推定誤差１２８と対ノイズ安定度１２９との重み付け和を損失値として算出する。重み付け和の算出には、第２のメモリ１０４に予め保持されている重み係数１３０を用いる。本実施形態においては、損失値は３つの値の重みづけ和となるので、重み係数１３０は３つの重み係数からなる。それぞれの重み係数をα、β、γとすると、損失値算出部１１４は、以下の式（４）を用いて損失値を算出する。

ここで、式（４）中の第１項と第２項は、ニューラルネットワーク１２０の出力結果が教師画像である低ノイズ画像１２２にどれくらい近いかという損失を表している。これは一般的に再構成損失と呼ばれるものである。この項の値が小さいほど、高ノイズ画像に含まれるノイズが適切に除去されたことになる。

一方で、式（４）中の第３項は、ニューラルネットワークがノイズの差異に対してどれくらい安定しているかという性質を表している。この第３項が大きくなるほど、ニューラルネットワーク１２０はわずかなノイズの違いによって異なる出力結果が得られやすくなる。本実施形態では、さらに第３項が小さくなるように学習することによって、低ノイズ画像に与えたノイズのパターンがどのようなものであっても、同じような結果を出力するように学習される。したがって、ノイズパターンに起因する偽模様を出力しないように学習される。

弱い輝度値のパターンは、教師画像においてもノイズパターンにおいても存在する。このため、第１項および第２項のみからなる損失関数では、教師画像に元々含まれているようなパターンに類似したノイズパターンが入力されると、偽模様が出力されるように学習されてしまう。そこで本実施形態では、損失関数に第３項を含むようにすることによって、ノイズパターンが変わっても出力結果が変動しないように制約を付すようにしている。これにより、ノイズのパターンと類似するパターンが教師画像に含まれていたとしてもそのパターンには反応しないように学習される。なお、低ノイズ画像をどの程度再現し、偽模様の発生をどの程度抑制するかは、重み係数１３０の設定によって調整できる。

次に、ステップＳ２０６において、学習部１１０により、前のステップＳ２０５で算出された損失値に基づいてニューラルネットワーク１２０のパラメータを更新する。これは、ニューラルネットワークの学習で一般的に行われている誤差逆伝搬法などを用いる学習処理であり、公知の手法を用いるものとする。

以上のようにステップＳ２０１～Ｓ２０６までの処理で一つの学習データに対する学習が完了すると、ステップＳ２０７において、学習部１１０により、学習が終了したかどうかを判定する。この判定の結果、学習が終了した場合は処理を終了する。学習の終了条件としては、例えば、損失値が所定値以上下がらなくなった場合などを終了条件とする。この判定の結果、学習が終了していない場合はステップＳ２０１に戻り、学習データセット１２１から新たな学習データを取り出して処理を継続する。このとき、学習データセット１２１中のすべての学習データを処理し終わったら初めの学習データに戻って繰り返せばよい。

なお、本実施形態では、学習処理において、高ノイズ画像を２種類生成し、推定誤差および対ノイズ安定度を算出する際には２種類の推定出力値に対してそれぞれ算出したが、この数は３種類以上であってもよい。

次に、学習部１１０などによって学習された学習済みのニューラルネットワーク１２０を用いて、未知の画像に対してノイズ低減の画像処理を行う手順について説明する。
図５は、本実施形態における画像処理部１１５による処理手順の一例を示すフローチャートである。
まず、ステップＳ５０１において、画像処理部１１５により、入力部１０５を介して画像処理の対象となる画像を取得し、入力画像１３２として第２のメモリ１０４に格納する。なお、画像の取得方法については、特に限定されない。本実施形態の画像処理装置１００が撮像部を備えている場合には、入力部１０５を介さず撮像部（図示せず）から直接画像を取得して第２のメモリ１０４に格納してもよい。また、他の装置から通信部１０７を介して画像を取得して第２のメモリ１０４に格納してもよい。

次に、ステップＳ５０２において、画像処理部１１５により、入力画像１３２をニューラルネットワーク１２０に入力し、その出力を出力画像１３３として第２のメモリ１０４に格納する。そして、ステップＳ５０３において、画像処理部１１５は、第２のメモリ１０４から出力画像１３３を読み出して表示部１０６に出力して表示する。なお、表示部１０６に出力するかわりに、通信部１０７を介して他の装置に送信するなどしてもよい。

以上のように本実施形態によれば、ノイズパターンによらず安定した出力結果が得られるように画像処理モデルの学習および画像処理を行うことができる。

（第２の実施形態）
以下、本発明の第２の実施形態について説明する。なお、第１の実施形態と同一構成部分についてはその説明を省略し、第１の実施形態と異なる点について説明する。本実施形態においては、安定度算出部１１３の算出方法が第１の実施形態と異なる。

対ノイズ安定度は、ノイズパターンによってニューラルネットワークの推定結果が変動する度合を表す指標である。第１の実施形態では、式（３）に示すように、２つの推定出力値の要素ごとの差分絶対値の平均値を対ノイズ安定度と定義した。

一方、ノイズの違う入力画像に対する推定出力値の変動量は、高ノイズ画像を生成する際に与えたノイズの量との正相関があるため、ノイズ量が小さい領域での変動量は小さめに出る傾向がある。したがって、式（４）の損失関数における対ノイズ安定度の項（第３項）は、ノイズ量がもともと小さい領域では小さい値になり、ノイズ安定度の指標として不十分なものとなってしまう。そこで本実施形態では、このような問題の対策として、第２のメモリ１０４に格納されたノイズ強度１３４を用いて対ノイズ安定度を正規化し、以下のような式（５）で対ノイズ安定度を算出する。

式（５）において、ノイズ強度による除算は要素ごとに行うものとする。なお、ノイズ強度１３４で除算する代わりに、図３のステップＳ３０３、Ｓ３０４で高ノイズ画像を生成する際に低ノイズ画像１２２に加算した乱数マップで除算してもよい。

また、以下のような式（６）を用い、推定出力値の特徴量の差異によって対ノイズ安定度を算出してもよい。ここで、特徴量としては何らかの統計量を用いる。

式（６）中の関数Ｆは、引数である推定出力値の各要素に対してその要素近傍での特徴量を算出する関数であり、例えば、その要素近傍での標準偏差の値を算出する関数である。画像中の統計量がおおむね同じであれば人間には同じ印象を与えることが多い。例えば、２つの画像領域が同じ程度に乱雑であれば、要素ごとの値が一致していなくても、同程度の印象を与える。この性質を用い、要素ごとの対ノイズ安定度を要素近傍の標準偏差の値として算出することで、対ノイズ安定度を過剰に制約しないで学習することができる。なお、特徴量として標準偏差を用いる例を説明したが、それに限るものではない。近傍領域の平均、最大値、最小値、中央値などの各種統計量や、その他の何らかの特徴量を用いて対ノイズ安定度を算出してもよい。

また、以下のような式（７）を用い、推定誤差の大きさで重みを付けて対ノイズ安定度を算出してもよい。

ここで、式（７）中の平均推定誤差とは、第１の推定誤差１２７と第２の推定誤差１２８とに対し、要素ごとに平均をとったものである。上記の平均推定誤差による除算では、要素ごとに除算を行うものとする。この式（７）によれば、平均推定誤差が小さい要素ほど対サイズ安定度が大きく算出されるようになる。すなわち、推定出力値が教師画像に近く、再構成損失による学習が行われにくいもの（式（４）の損失関数の第１、第２項が小さいもの）ほど、第３項の対ノイズ安定度の損失が効くようになる。従来の学習方法では、再構成損失のみを基準にしてニューラルネットワークが学習されており、それだけだと偽模様の弊害が出力される。本実施形態では、再構成損失では正しく学習できなくなっている部分に対して、対ノイズ安定度の損失を大きく効かせるようにすることで、偽模様の弊害を抑制することができる。

以上のように本実施形態によれば、より適切に対ノイズ安定度を算出するようにしたので、偽模様などの弊害をより抑制した画像処理モデルを学習することができる。

（第３の実施形態）
以下、本発明の第３の実施形態について説明する。本実施形態では、第１の実施形態と同様の処理については説明を省略し、第１の実施形態と異なる点についてのみ説明する。

図６は、本実施形態における画像処理装置６００の内部構成例を示すブロック図である。
本実施形態では、第１のメモリ１０３に格納された制御プログラム１０８において、特徴抽出部１１６を有する。特徴抽出部１１６は、教師画像である低ノイズ画像１２２に対して特徴抽出処理を行い、その結果を特徴強度１３５として第２のメモリ１０４に格納する。特徴抽出処理とは、例えばエッジ抽出処理などが該当するが、それに限定されるものでなく、各要素近傍のコントラストなどの特徴を抽出するようにしてもよい。特徴強度１３５は低ノイズ画像１２２において特徴が強い領域ほど大きい値を持つマップとして保持される。また、特徴強度１３５の要素数は低ノイズ画像１２２と同じであり、第１の推定出力値１２５及び第２の推定出力値１２６の要素数とも同じものとなる。

本実施形態において、安定度算出部１１３により、以下の式（８）によって対ノイズ安定度を算出する。

ここで式（８）において、特徴強度１３５による除算は、要素ごとに行われるものとする。式（８）によれば、エッジなどの特徴が多い部分では対ノイズ安定度は小さめに算出されるようになる。偽模様を出力するような弊害は、特徴が強い領域であれば、そのような領域に弱い偽模様が出ていても目立たないため、大きな問題にならないことが多い。逆に、特徴が小さい領域では、偽模様が目立つことから、対ノイズ安定度が大きくなるように算出される。

以上のように本実施形態によれば、特徴の大きさに基づいて偽模様などの弊害が大きな問題となる領域を重点的に評価することができる。これにより、より弊害の少ない画像処理モデルを学習することができる。

（第４の実施形態）
以下、本発明の第４の実施形態について説明する。本実施形態では、第１の実施形態と同様の処理については説明を省略し、第１の実施形態と異なる点についてのみ説明する。

図７は、本実施形態における画像処理装置７００の内部構成例を示すブロック図である。本実施形態においては、第１の中間推定出力値１３６と、第２の中間推定出力値１３７とを第２のメモリ１０４に格納する点が第１の実施形態と異なっている。また、本実施形態における学習処理の基本的な流れは、図２と同様であるが、ステップＳ２０２におけるフィードフォワード処理が図４で説明した手順と異なっている。

図８は、本実施形態におけるフィードフォワード処理の詳細な手順の一例を示すフローチャートである。
まず、ステップＳ８０１において、学習部１１０により、第２のメモリ１０４に格納されている第１の高ノイズ画像１２３をニューラルネットワーク１２０に入力し、得られた最終出力を第１の推定出力値１２５として第２のメモリ１０４に格納する。さらに、ニューラルネットワーク１２０の所定の中間層からの出力を、第１の中間推定出力値１３６として第２のメモリ１０４に格納する。ここで、出力する中間層は予め設定されておくものとし、中間層はどの層であってもよく、複数であってもよい。

続いて、ステップＳ８０２において、学習部１１０により、第２のメモリ１０４に格納されている第２の高ノイズ画像１２４をニューラルネットワーク１２０に入力し、得られた最終出力を第２の推定出力値１２６として第２のメモリ１０４に保持する。さらに、ニューラルネットワーク１２０の所定の中間層からの出力を、第２の中間推定出力値１３７として第２のメモリ１０４に格納する。出力を保持する中間層の設定についてはステップＳ８０１の設定と同様である。第１～第３の実施形態においては、ニューラルネットワーク１２０の最終出力のみを第２のメモリ１０４に格納していたが、本実施形態では、中間層からの出力も第２のメモリ１０４に格納している。

次に、本実施形態における安定度算出部１１３の処理について説明する。本実施形態では、以下の式（９）に従って対ノイズ安定度を算出する。

式（９）中のａ、ｂは重み係数であり、式（４）の３つの重み係数α、β、γとともに、重み係数１３０の一部として第２のメモリ１０４に予め保持されている。また、ステップＳ８０１及びＳ８０２でそれぞれ複数の中間層から中間推定出力値を得る場合には、式(９)中の中間推定出力の誤差を算出している項をその分追加し、それに応じた数の重み係数も保持しておくものとする。

以上のように本実施形態によれば、ノイズパターンだけが異なる２つの入力に対して、所定の中間層からの出力結果も反映して画像処理モデルを学習することができる。多層のニューラルネットワークは層ごとに反応する対象が異なっており、特定の層が特定の弊害と関連がある場合がある。そのような層の出力がノイズパターンの差によって変動しないように制約づけて学習することで、効率良く弊害を抑制することができる。なお、第２又は第３の実施形態において、本実施形態を組み合わせてもよい。

（その他の実施形態）
上述の各実施形態では、イメージセンサの暗電流ノイズやショットノイズのようなノイズを低減する処理を学習するものとして説明したが、ノイズの種類はこれに限定しない。教師画像に対してなんらかの変動を加えた画像を入力画像として教師画像の復元を学習させる場合には、その変動をノイズと定義して学習することもできる。そのような変動が与えられた入力画像を高ノイズ画像とみなすことによって、上述の各実施形態での処理が適用できる。

変動の一例としては、大気のゆらぎ補正処理などにも適用できる。この場合、教師画像に対して異なる複数のゆらぎ付与処理を加えた複数の画像をそれぞれ高ノイズ画像とみなして学習を行えばよい。変動の別の例としては、画像の欠落を補完するインペインティング処理にも適用できる。その場合は教師画像に対して複数の異なる画像欠落処理を行った複数の画像をそれぞれ高ノイズ画像とみなせばよい。さらに変動の別の例としては、低解像度画像から高解像度画像を復元する超解像処理にも適用できる。その場合は教師画像である高解像度画像に対して複数の異なる方法で低解像度化した複数の低解像度画像をそれぞれ高ノイズ画像とみなせばよい。いずれの場合も、上述の各実施形態で説明した構成をとることにより、学習時に与えた変動に対して安定した出力をするように学習され、偽模様を出力するなどの弊害を抑制することができる。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１１０学習部、１１１学習データ取得部、１１２推定誤差算出部、１１３安定度算出部、１１４損失値算出部

Claims

ノイズを含む画像からノイズを除去するための画像処理モデルを学習する画像処理装置であって、
前記画像処理モデルを学習するための学習データである低ノイズ画像と、前記低ノイズ画像のシーンに対応し、ノイズのパターンが異なる複数の高ノイズ画像とを取得する取得手段と、
前記複数の高ノイズ画像をそれぞれ前記画像処理モデルに入力することによって得られる複数の出力画像と前記低ノイズ画像との誤差をそれぞれ算出する誤差算出手段と、
前記複数の出力画像の間の誤差に基づいて、ノイズに対する安定度を算出する安定度算出手段と、
前記誤差算出手段によって算出された誤差と前記安定度算出手段によって算出された安定度とを含む損失関数を用いて前記画像処理モデルを学習する学習手段とを有することを特徴とする画像処理装置。
前記安定度算出手段は、さらにノイズ強度に基づいて前記安定度を算出することを特徴とする請求項１に記載の画像処理装置。
前記安定度算出手段は、さらに前記誤差算出手段によって算出された誤差に基づいて前記安定度を算出することを特徴とする請求項１に記載の画像処理装置。
前記安定度算出手段は、前記複数の出力画像の間の特徴量の差異に基づいて前記安定度を算出することを特徴とする請求項１に記載の画像処理装置。
前記低ノイズ画像から特徴を抽出して特徴強度を算出する特徴抽出手段をさらに有し、
前記安定度算出手段は、さらに前記特徴抽出手段によって算出された特徴強度に基づいて前記安定度を算出することを特徴とする請求項１に記載の画像処理装置。
前記画像処理モデルは多層のニューラルネットワークであり、
前記安定度算出手段は、前記多層のニューラルネットワークの中の少なくとも１つの中間層から得られる出力結果に基づいて前記安定度を算出することを特徴とする請求項１～５の何れか１項に記載の画像処理装置。
前記学習手段によって学習された画像処理モデルに基づいて、ノイズを除去した画像を出力する画像処理手段をさらに有することを特徴とする請求項１～６の何れか１項に記載の画像処理装置。
ノイズを含む画像からノイズを除去するための画像処理モデルを学習する画像処理方法であって、
前記画像処理モデルを学習するための学習データである低ノイズ画像と、前記低ノイズ画像のシーンに対応し、ノイズのパターンが異なる複数の高ノイズ画像とを取得する取得工程と、
前記複数の高ノイズ画像をそれぞれ前記画像処理モデルに入力することによって得られる複数の出力画像と前記低ノイズ画像との誤差をそれぞれ算出する誤差算出工程と、
前記複数の出力画像の間の誤差に基づいて、ノイズに対する安定度を算出する安定度算出工程と、
前記誤差算出工程において算出された誤差と前記安定度算出工程において算出された安定度とを含む損失関数を用いて前記画像処理モデルを学習する学習工程とを有することを特徴とする画像処理方法。
ノイズを含む画像からノイズを除去するための画像処理モデルを学習する画像処理装置を制御するためのプログラムであって、
前記画像処理モデルを学習するための学習データである低ノイズ画像と、前記低ノイズ画像のシーンに対応し、ノイズのパターンが異なる複数の高ノイズ画像とを取得する取得工程と、
前記複数の高ノイズ画像をそれぞれ前記画像処理モデルに入力することによって得られる複数の出力画像と前記低ノイズ画像との誤差をそれぞれ算出する誤差算出工程と、
前記複数の出力画像の間の誤差に基づいて、ノイズに対する安定度を算出する安定度算出工程と、
前記誤差算出工程において算出された誤差と前記安定度算出工程において算出された安定度とを含む損失関数を用いて前記画像処理モデルを学習する学習工程とをコンピュータに実行させるためのプログラム。