JP2021086284A

JP2021086284A - 画像処理装置、画像処理方法、及びプログラム

Info

Publication number: JP2021086284A
Application number: JP2019213321A
Authority: JP
Inventors: 典朗多和田; Noriaki Tawada
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2021-06-03

Abstract

【課題】より好適な画質を実現するノイズ低減の処理モデルを学習するための生徒画像を生成可能にする。【解決手段】画像処理装置（１００）は、画像のノイズ低減を行う処理モデルを学習するためのデータを生成する装置であって、ノイズ低減のターゲットとするノイズレベルを取得する取得手段（２０１）と、教師画像の特徴を検出する検出手段（２０４）と、教師画像に付加するノイズのノイズレベルを決定する決定手段（２０５）と、決定されたノイズレベルに対応するノイズを教師画像に付加して生徒画像を生成する生成手段（２０９）と、を有し、決定手段（２０５）は、検出手段（２０４）で検出した教師画像の特徴に応じて、ターゲットのノイズレベルとは異なるノイズレベルを決定する。【選択図】図２

Description

本発明は、画像のノイズを低減するための画像処理技術に関する。

近年、多層のニューラルネットワークで学習を行う深層学習（ディープラーニング）が、画像、音声、言語といった様々な分野で高い性能を実現している。
特許文献１では、画像のノイズ低減にニューラルネットワークを利用する例が開示されており、低ノイズの教師画像にノイズ低減のターゲットとするノイズレベルに対応するノイズを付加し、学習における生徒画像を生成している。

特開２０１２−２４４４４９号公報

深層学習を用いたノイズ低減を行うためには、教師画像にノイズを付加した生徒画像のノイズ低減結果が教師画像に近づくように、ノイズ低減の処理モデル（ニューラルネットワーク）を学習することが望まれる。しかしながら、ノイズ低減のターゲットとするノイズレベルを用い、そのターゲットするレベルのノイズを教師画像に付加して学習したとしても、画像によってはノイズ低減後の画質が劣化してしまうことがある。

そこで、本発明は、より好適な画質を実現するノイズ低減の処理モデルを学習するための生徒画像を生成可能にすることを目的とする。

本発明は、画像のノイズ低減を行う処理モデルを学習するためのデータを生成する画像処理装置であって、ノイズ低減のターゲットとするノイズレベルを取得する取得手段と、教師画像の特徴を検出する検出手段と、前記教師画像に付加するノイズのノイズレベルを決定する決定手段と、前記決定されたノイズレベルに対応するノイズを前記教師画像に付加して生徒画像を生成する生成手段と、を有し、前記決定手段は、前記検出手段で検出した前記教師画像の特徴に応じて、前記ターゲットのノイズレベルとは異なるノイズレベルを決定することを特徴とする。

本発明によれば、より好適な画質を実現するノイズ低減の処理モデルを学習するための生徒画像を生成可能となる。

実施形態の情報処理装置のハードウェア構成例を示す図である。第１の実施形態に係る情報処理装置の機能構成を示す図である。第１の実施形態に係る処理の流れを示すフローチャートである。ノイズ低減結果の画像例の説明図である。生徒画像生成例の説明図である。画像特徴と付加ノイズレベルの関係例の説明図である。ニューラルネットワークの構造の一例を示すブロック図である。第２の実施形態に係る情報処理装置の機能構成を示す図である。第２の実施形態に係る処理の流れを示すフローチャートである。第２の実施形態に係る付加ノイズレベル分布例の説明図である。

以下、本発明の実施形態について、図面を参照して説明する。なお、以下の実施形態は本発明を限定するものではなく、また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものと限定されるものではない。なお、同一の構成については、同じ参照符号を付して説明する。

＜第１の実施形態＞
図１は、本発明の画像処理装置が適用される情報処理装置１００のハードウェア構成の一例を示す図である。本実施形態において、情報処理装置１００は、画像のノイズ低減を行う処理モデルを学習するためのデータを生成する。

本実施形態の情報処理装置１００は、ＣＰＵ１０１、ＲＡＭ１０２、ＲＯＭ１０３、二次記憶装置１０４、入力インターフェース１０５、及び出力インターフェース１０６を含む。情報処理装置１００の各構成要素は、システムバス１０７によって相互に接続されている。また、情報処理装置１００は、入力インターフェース１０５を介して外部記憶装置１０８および操作部１１０に接続されている。また、情報処理装置１００は、出力インターフェース１０６を介して外部記憶装置１０８および表示装置１０９に接続されている。

ＣＰＵ１０１は、ＲＡＭ１０２をワークメモリとして、ＲＯＭ１０３に格納されたプログラムを実行し、システムバス１０７を介して情報処理装置１００の各構成要素を統括的に制御する。これにより、後述する様々な処理が実行される。二次記憶装置１０４は、情報処理装置１００で取り扱われる種々のデータを記憶する記憶装置であり、本実施形態ではＨＤＤが用いられる。ＣＰＵ１０１は、システムバス１０７を介して二次記憶装置１０４へのデータの書き込みおよび二次記憶装置１０４に記憶されたデータの読出しを行う。なお、二次記憶装置１０４にはＨＤＤの他に、光ディスクドライブやフラッシュメモリなど、様々な記憶デバイスを用いることが可能である。

入力インターフェース１０５は、例えばＵＳＢやＩＥＥＥ１３９４等のシリアルバスインターフェースである。情報処理装置１００は、入力インターフェース１０５を介して、外部装置からデータや命令等を入力する。本実施形態では、情報処理装置１００は、入力インターフェース１０５を介して、外部記憶装置１０８（例えば、ハードディスク、メモリカード、ＣＦカード、ＳＤカード、ＵＳＢメモリなどの記憶媒体）からデータを取得する。また本実施形態では、情報処理装置１００は、操作部１１０に入力されたユーザの指示を、入力インターフェース１０５を介して取得する。操作部１１０は、マウスやキーボードなどの入力装置であり、ユーザの指示を入力する。

出力インターフェース１０６は、入力インターフェース１０５と同様にＵＳＢやＩＥＥＥ１３９４等のシリアルバスインターフェースである。なお、出力インターフェース１０６は、例えばＤＶＩやＨＤＭＩ（登録商標）等の映像出力端子であってもよい。情報処理装置１００は、出力インターフェース１０６を介して、外部装置にデータ等を出力する。本実施形態では、情報処理装置１００は、出力インターフェース１０６を介して表示装置１０９（液晶ディスプレイなどの各種画像表示デバイス）に、ＣＰＵ１０１によって処理されたデータ（例えば、画像データ）を出力する。なお、情報処理装置１００の構成要素は上記以外にも存在するが、それらの説明は省略する。

以下、第１の実施形態の情報処理装置１００で行われる処理について、図２に示される機能ブロック図と、図３に示されるフローチャートを参照して説明する。
図２は、第１の実施形態の情報処理装置１００の機能ブロック図である。情報処理装置１００は、ターゲットレベル取得部２０１、教師画像取得部２０２、画像記憶部２０３、特徴検出部２０４、ノイズレベル算出部２０５、関係パラメータ記憶部２０６、モデル学習部２０７、モデル記憶部２０８、及び生徒画像生成部２０９を含む。各機能部の詳細は、図３のフローチャートを参照しながら後述する。

図３のフローチャートで示される一連の処理は、ＣＰＵ１０１がＲＯＭ１０３などの記憶領域に格納されたプログラムコードをＲＡＭ１０２に読み出して実行することにより実現される。あるいはまた、フローチャートにおけるステップの一部または全部の機能は、ＡＳＩＣや電子回路等のハードウェアで実現されてもよい。

ステップＳ３０１では、ターゲットレベル取得部２０１が、ノイズ低減のターゲットとするノイズレベル（ターゲットノイズレベル）を取得する。本実施形態においてノイズレベルは、画像撮影時のＩＳＯ感度に応じて生ずるノイズレベルを用いる。このため本実施形態では、ノイズレベルを、例えばＩＳＯ５１２００のように画像撮影時のＩＳＯ感度で表すようにする。ノイズレベルとして他の物理パラメータが用いられてもよい。ターゲットノイズレベルは、例えば、情報処理装置１００の操作部１１０を介してユーザにより指定される。

ステップＳ３０２〜ステップＳ３０５は、教師画像ごとの処理であるため、教師画像ループの中で行う。
ステップＳ３０２では、教師画像取得部２０２が、画像記憶部２０３が保持している教師画像を取得する。ここで教師画像とは、典型的にはクリーン（低ノイズ）な画像から切り出された比較的小さな（例えば６４×６４ピクセルの）画像パッチであり、ノイズ低減の処理モデルの学習における学習用データを構成する。なお、教師画像はＣＧ（コンピュータグラフィックス）で生成されたＣＧ画像であってもよい。

ここで、本実施形態における教師画像とターゲットノイズレベル、さらに生徒画像について説明する。
図４は、図５に示した教師画像５００に対して、ノイズ低減のターゲットレベル、ターゲットレベルより低いレベル、またはターゲットレベルより高いレベルのノイズをそれぞれ付加して学習した場合の、ノイズ低減結果の各画像を模式的に示した図である。なお図４の画像４０１，４０２，４０３は、それぞれ対応した図５に示す教師画像５００の画像５０１，５０２，５０３に対して、ノイズ低減のターゲットノイズレベルより低いレベルのノイズを付加して学習した場合のノイズ低減結果の画像例を示している。また図４の画像４１１，４１２，４１３は、それぞれ対応した教師画像５００の画像５０１，５０２，５０３に対して、ノイズ低減のターゲットノイズレベルのノイズを付加して学習した場合のノイズ低減結果の画像を示している。さらに図４の画像４２１，４２２，４２３は、それぞれ対応した教師画像５００の画像５０１，５０２，５０３に対して、ノイズ低減のターゲットノイズレベルより高いレベルのノイズを付加して学習した場合のノイズ低減結果の画像例を示している。

例えばターゲットノイズレベルのノイズを付加して学習した場合のノイズ低減結果の各画像４１１〜４１３のうち、教師画像として比較的はっきりした丸の図形を含む画像５０２が用いられた場合の画像４１２は、概ね適切にノイズ低減された画像となる。しかしながら、教師画像として細いエッジ（細線）を含む画像５０１が用いられた場合の画像４１１は、細線の一部が欠き消えてしまっている。また教師画像として暗い水面などの低コントラストで低輝度の画像５０３が用いられた場合の画像４１３は、本来とは異なるテクスチャが作り出されるいわゆるアーティファクトが生じている。このように、教師画像にノイズ低減のターゲットノイズレベルのノイズを付加して学習した場合には、例えば細線消失やアーティファクト発生などのような画質劣化が生ずることがある。

一方で、例えばターゲットノイズレベルより低いレベルのノイズを付加して学習した場合には、ターゲットノイズレベルのノイズが付加された場合よりも、ノイズを低減しようとはしなくなる。このため、ターゲットノイズレベルより低いレベルのノイズを付加して学習した場合のノイズ低減結果の各画像４０１〜４０３は、教師画像の各画像５０１〜５０３に対してそれぞれ僅かにノイズが残った画像となる。

ここで、これらターゲットノイズレベルのノイズを付加して学習した場合のノイズ低減結果の各画像４１１〜４１３と、ターゲットノイズレベルより低いレベルのノイズを付加して学習した場合の画像４０１〜４０３とを比較してみる。
例えば、教師画像が比較的はっきりした丸の図形を含む画像５０２であった場合、それに対応した画像４１２と画像４０２とを比較した場合、画像４０２は画像４１２に比べてノイズが残っている。すなわち、ターゲットノイズレベルより低いレベルのノイズを付加して学習した場合における画像４０２は、ターゲットノイズレベルのノイズを付加して学習した場合における画像４１２よりも好適な画質になっているとは言えない。

これに対し、教師画像が細いエッジ（細線）を含む画像５０１であった場合、それに対応した画像４１１と画像４０１とを比較した場合、画像４１１は細線の一部が消えているのに対し、画像４０１では多少のノイズは残っているものの細線は維持されている。このため、ターゲットノイズレベルより低いレベルのノイズを付加して学習した場合における画像４０１は、ターゲットノイズレベルのノイズを付加して学習した場合における画像４０１よりも好適な画質になっていると言える。すなわち、教師画像が細いエッジ（細線）を含む画像５０１であった場合、ノイズ低減のターゲットノイズレベルより低いレベルのノイズを付加して学習することで、細線が維持された好適な画質を実現することができることになる。

また例えば、ターゲットノイズレベルより高いレベルのノイズを付加して学習した場合には、ターゲットノイズレベルのノイズが付加された場合よりも、さらにノイズを低減しようとすることになる。このため、ターゲットノイズレベルより高いレベルのノイズを付加して学習した場合のノイズ低減結果の各画像４２１〜４２３は、ターゲットノイズレベルのノイズを付加して学習した場合における各画像４１１〜４１３よりも平滑化された画像となる。

ここで、ターゲットノイズレベルのノイズを付加して学習した場合のノイズ低減結果の各画像４１１〜４１３と、ターゲットノイズレベルより高いレベルのノイズを付加して学習した場合の画像４２１〜４２３とを比較してみる。
例えば、教師画像が細いエッジ（細線）を含む画像５０１であった場合、それに対応した画像４２１と画像４１１とを比較した場合、画像４２１は細線が消えてしまっているのに対し、画像４１１では一部消えてはいるものの細線が存在することは確認できる。すなわち、ターゲットノイズレベルより高いレベルのノイズを付加して学習した場合における画像４２２は、ターゲットノイズレベルのノイズを付加して学習した場合における画像４１１よりも好適な画質になっているとは言えない。

また、教師画像が比較的はっきりした丸の図形を含む画像５０２であった場合、それに対応した画像４２２と画像４１２とを比較した場合、画像４２２は丸の図形が暈けてしまっているのに対し、画像４１２では丸の図形がはっきりと維持されている。すなわちターゲットノイズレベルより高いレベルのノイズを付加して学習した場合における画像４２２は、ターゲットノイズレベルのノイズを付加して学習した場合における画像４１２よりも好適な画質になっているとは言えない。

これに対し、教師画像が暗い水面などの低コントラストで低輝度の画像５０３であった場合、それに対応した画像４２３と画像４１３とを比較した場合、画像４１３の方には本来とは異なるテクスチャが作り出されるアーティファクトが生じている。一方、画像４２３は、画像が暈けてはいるもののアーティファクトは生じていない。このため、ターゲットノイズレベルより高いレベルのノイズを付加して学習した場合における画像４２３は、ターゲットノイズレベルのノイズを付加して学習した場合における画像４１３よりも好適な画質になっていると言える。すなわち、教師画像が暗い水面などの低コントラストで低輝度の画像５０３であった場合、ノイズ低減のターゲットノイズレベルより高いレベルのノイズを付加して学習することで、アーティファクトの発生が抑制された好適な画質を実現することができる。

以上述べたようなことを踏まえて、本実施形態では、画像のエッジやコントラスト・輝度といった、教師画像の特徴に応じて、教師画像に付加するノイズのノイズレベルを制御する。これにより、本実施形態においては、細線維持やアーティファクトの発生抑制といった、より好適な画質を実現するノイズ低減を可能にする処理モデルを学習するための生徒画像を生成する。

図３のフローチャートに説明を戻す。
ステップＳ３０３に進むと、特徴検出部２０４は、ステップＳ３０２で取得した教師画像からエッジ幅マップを算出する。特徴検出部２０４は、具体的には例えば、方向ごと（例えば４５°ごとの８方向）に複数の幅のエッジ画像（例えば７×７ピクセル）を用意して、エッジ検出フィルタのカーネルとして用いる。そして、特徴検出部２０４は、教師画像と各エッジ検出フィルタの２次元畳み込みを行い、その畳み込み出力（の絶対値）が所定値（エッジ検出の閾値）以上かつ最大となったときのエッジ検出フィルタの幅を、教師画像の注目画素におけるエッジ幅とする。特徴検出部２０４は、このようにして教師画像の各画素のエッジ幅を記録したエッジ幅マップを算出する。

次にステップＳ３０４では、特徴検出部２０４が、ステップＳ３０２で取得した教師画像から局所コントラストマップを算出する。特徴検出部２０４は、教師画像の注目画素における局所コントラストＣを、例えば次の式（１）で算出する。

Ｃ＝（Ｉｍａｘ−Ｉｍｉｎ）／（Ｉｍａｘ＋Ｉｍｉｎ）式（１）

ここで、式（１）のＩｍａｘは、注目画素を中心とする参照画素（例えば１５×１５ピクセル）の輝度の最大値であり、Ｉｍｉｎは、注目画素を中心とする参照画素（１５×１５ピクセル）の輝度の最小値である。特徴検出部２０４は、このようにして教師画像の各画素の局所コントラストを記録した局所コントラストマップを算出する。
ここで、式（１）のＩｍａｘとＩｍｉｎはそれぞれ、注目画素を中心とする参照画素（例えば１５×１５ピクセル）の輝度の最大値と最小値である。特徴検出部２０４は、このようにして教師画像の各画素の局所コントラストを記録した局所コントラストマップを算出する。

なお、教師画像が例えば符号化された画像を元にしている場合、画像特徴量の情報を有している場合があるため、特徴検出部２０４は、その情報を検出して画像特徴量を取得するようにしてもよい。

次にステップＳ３０５では、ノイズレベル算出部２０５が、教師画像に付加するノイズのノイズレベル（付加ノイズレベル）を算出する。ここで、ノイズレベル算出部２０５は、関係パラメータ記憶部２０６が保持している、画像特徴と付加ノイズレベルとの関係を用いて、ステップＳ３０３〜Ｓ３０４で算出した画像特徴から教師画像に対する付加ノイズレベルを算出する。なお、画像特徴と付加ノイズレベルの関係を示す情報は、例えば予め外部から取得されて関係パラメータ記憶部２０６に保持されている。

まずノイズレベル算出部２０５は、画像特徴のうちエッジ幅が細いほどノイズ低減においてエッジ（細線）が消失しやすいという知見に基づき、例えば図６（ａ）のようなエッジ幅と付加ノイズレベルとの関係を用いてエッジ幅から付加ノイズレベルを算出する。

ここで、図６（ａ）は、ターゲットノイズレベルがＩＳＯ５１２００のノイズレベルの場合における、付加ノイズレベルとエッジ幅との関係を示した図である。図６（ａ）は、縦軸が付加ノイズレベル（ＩＳＯ感度）、横軸がエッジ幅を表し、ノイズレベル算出部２０５は、図中実線６００で示すようにエッジ幅に応じた付加ノイズレベルを取得する。すなわち図６（ａ）に示すように、ノイズレベル算出部２０５は、画像特徴のうちエッジ幅が細いほど、教師画像に対する付加ノイズレベルをターゲットノイズレベル（ＩＳＯ５１２００のノイズレベル）より低くする。なおノイズレベル算出部２０５は、エッジ幅が細くなるほど付加ノイズレベルをターゲットノイズレベルより低くするが、付加ノイズレベルを下げ過ぎるとノイズ低減結果がノイジーに感じられようになる場合がある。図６（ａ）の例の場合、ＩＳＯ５１２００のターゲットノイズレベルより１／３段低いＩＳＯ４００００のノイズレベルが、付加ノイズレベルの下限値となされている。

ノイズレベル算出部２０５は、前述のようにして、教師画像のエッジ幅マップから、教師画像の各画素の付加ノイズレベルを算出する。なお、ノイズレベル算出部２０５は、エッジが検出されていない画素については付加ノイズレベルをターゲットノイズレベルと同じにする。またノイズレベル算出部２０５は、画素単位ではなく画像単位で付加ノイズレベルを算出する場合には、例えば教師画像の各画素で検出されたエッジ幅の最小値、平均値、中央値などを用いて付加ノイズレベルを算出する。

またノイズレベル算出部２０５は、画像特徴のうちコントラストと輝度についてはコントラスト・輝度が低いほどノイズ低減においてアーティファクトが発生しやすいという知見に基づき、コントラストと輝度に係る指標を基に付加ノイズレベルを算出する。ノイズレベル算出部２０５は、図６（ｂ）に示すコントラスト・輝度と付加ノイズレベルとの関係を基に、コントラスト・輝度から付加ノイズレベルを算出する。

ここで、図６（ｂ）は、ターゲットノイズレベルがＩＳＯ５１２００のノイズレベルの場合における、付加ノイズレベルと、コントラストおよび輝度との関係を示した図である。図６（ｂ）は、縦軸が付加ノイズレベル（ＩＳＯ感度）、横軸がコントラストおよび輝度を表し、ノイズレベル算出部２０５は、図中実線６１０で示すようにコントラストおよび輝度に係る指標に応じた付加ノイズレベルを取得する。図６（ｂ）の横軸のコントラスト・輝度に係る指標は、例えばコントラストと輝度の（重み付き）和や積として算出する。ノイズレベル算出部２０５は、図６（ｂ）に示すように、コントラスト・輝度に係る指標の値が低いほど、教師画像に対する付加ノイズレベルをターゲットノイズレベルより高くする。ノイズレベル算出部２０５は、コントラスト・輝度に係る指標の値が低いほど、付加ノイズレベルをターゲットノイズレベルより高くするが、付加ノイズレベルを上げ過ぎるとノイズ低減結果が過平滑に感じられるようになる場合がある。図６（ｂ）の例の場合、ＩＳＯ５１２００のターゲットノイズレベルより２／３段高いＩＳＯ８００００のノイズレベルが、付加ノイズレベルの上限値となされている。

なお、ノイズ低減結果の画質の観点から、付加ノイズレベルの限度値（つまり下限値および上限値）とターゲットノイズレベルとの（段数）差の絶対値は、下限値の方が小さくなるように定めるのが好適である。
ノイズレベル算出部２０５は、このようにして、教師画像の局所コントラストマップおよび輝度から、教師画像の各画素の付加ノイズレベルを決定する。なお、ノイズレベル算出部２０５は、画素単位ではなく画像単位で付加ノイズレベルを算出する場合には例えば局所コントラストマップや輝度の全画素に亘る最小値、平均値、中央値などを用いて付加ノイズレベルを算出する。

以上のようにして、エッジ幅から算出した付加ノイズレベルＮ１と、コントラスト・輝度から算出した付加ノイズレベルＮ２とが得られるため、ノイズレベル算出部２０５は、これらを用いて最終的な付加ノイズレベルＮを例えば次式（２）のように算出する。なお、式（２）のＴ（＝５１２００）はターゲットノイズレベルである。

Ｎ＝Ｔ＋（Ｎ１−Ｔ）＋（Ｎ２−Ｔ）＝Ｎ１＋Ｎ２−Ｔ式（２）

例えば、Ｎ１＝４００００、Ｎ２＝５１２００の場合、Ｎ＝４００００である。また、Ｎ１＝５１２００、Ｎ２＝８００００の場合、Ｎ＝８００００である。また、Ｎ１＝４００００、Ｎ２＝８００００の場合、Ｎ＝６８８００である。Ｎ１およびＮ２が画素単位で算出されていればＮも画素単位で算出でき、Ｎ１およびＮ２が画像単位で算出されていればＮも画像単位で算出される。

さらに、各画像特徴から算出される付加ノイズレベルが合計Ｋ個となる場合に式（２）を一般化すると、次式（３）のようになる。ここで、ｋ（＝１〜Ｋ）は付加ノイズレベルのインデックスである。

Ｎ＝Ｔ＋Σ_k（Ｎｋ−Ｔ）＝Σ_kＮｋ−（Ｋ−１）Ｔ式（３）

なお図６（ａ）、図６（ｂ）の図中の双方向矢印６０１，６０２，６０３または６１１，６１２，６１３で示すように、画像特徴と付加ノイズレベルの関係パラメータは、例えば情報処理装置１００の操作部１１０を介してユーザが調整できるようになされてもよい。例えば図６（ａ）では、横方向の２つの双方向矢印６０１，６０２で調整するパラメータを同値にすれば、エッジ幅が所定値以下となった場合に付加ノイズレベルをターゲットノイズレベルから下限値に切替える構成となる。図６（ｂ）の横方向の２つの双方向矢印６１１，６１２で調整するパラメータを同値にすれば、コントラストと輝度に係る指標が所定値以下の場合、付加ノイズレベルをターゲットノイズレベルから上限値に切替える構成となる。

ここで、本実施形態でノイズ低減の処理モデルとして用いる、ニューラルネットワーク（以下、ＮＮとする）の構造と学習について概論的な説明を行う。
図７（ａ）は、ＮＮの全体構造の一例を示した図である。本実施形態では、畳み込みニューラルネットワーク（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮＮ）を例に用いて説明するが、この構造には限定されない。
図７（ａ）に示した構造では、最初に、入力層にノイズを含む画像が入力される。その後、逐次的にブロック１からブロックＮまでの処理が実行される。最後に、出力層にデータが出力される。ブロック間を伝達するデータは、入力データと同サイズ、またはより低い解像度の複数チャネルの画像の形態をとる。出力データは、推定されたノイズ、もしくはノイズが低減された画像である。出力データが、推定されたノイズである場合、入力データから出力データを差し引くことで、ノイズが低減された画像が得られる。

図７（ｂ）は、ブロック１からブロックＮまでの各ブロックの構造を示した図である。各ブロックは、畳み込み層、正規化層、及び活性化層を連結した構造となっているが、必ずしも全てを含む必要はなく、ブロックによって構造が異なっていてもよい。また、ＮＮの全体構造は、入力層または任意のブロックの出力と、別のブロックの出力とを加算または連結するようなスキップ接続を有してもよい。図７（ｃ）は、ノイズが低減された画像が出力されるＮＮの構造の一例として、入力層とブロックの出力とを加算するスキップ接続を有する構造を示した図である。

畳み込み層は、入力されるデータの各チャネルに対し所定のフィルタを畳み込んだ結果を加算し出力する。フィルタ係数は後述する学習によって決定する。畳み込み層の出力のチャネル数は任意に決めることができ、出力チャネル数に応じた種類のフィルタを用意すればよい。
正規化層は、入力データの平均と分散を補正する線形変換を行う。例えば、学習用データを入力したときの正規化層の出力が、平均が０、分散が１になるように線形変換の係数を、後述する学習によって決定する。
活性化層は、入力されるデータに対し、要素ごとに独立に非線形変換を行う。非線形変換は具体的には、ｓｉｇｍｏｉｄ関数、ｔａｎｈ関数、ＲｅＬＵ（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）など一般に知られている関数を用いることができる。

次に、ＮＮの学習について説明する。
ＮＮの学習とは、具体的には、ＮＮを構成するパラメータを、学習用データを用いて決定することを指す。パラメータとしては、例えば、畳み込み層のフィルタ係数、正規化層の線形変換の係数が挙げられる。
学習用データは、入力データ（生徒データ）と出力データの正解値（教師データ）のペアの集合である。ノイズ低減を目的とする場合には、生徒データ（生徒画像）は実写画像またはＣＧ画像に人工的なノイズを付加して得られるノイズ画像とし、教師データ（教師画像）はノイズを付加する前の元画像、または付加したノイズ自体とする。
人工ノイズは、一般的に、分散値が同一のガウス乱数を画素ごと独立に加算して生成されるが、輝度依存性ノイズなど、より現実に近いノイズモデルを用いて生成してもよい。この人工ノイズにおける分散値は、特定のＩＳＯ感度に対応した値とする。
一般にＣＮＮにおいては、学習はパッチ（画像から抽出された小領域）単位で行うが、学習後の処理時には画像全体をそのままのサイズで入力し、同じサイズの出力画像を得ることができる。

図３のフローチャートに説明を戻す。
ステップＳ３０６では、モデル学習部２０７が、ターゲットノイズレベルに対応するノイズ低減を行うための処理モデル（ニューラルネットワーク）について、学習前の初期設定を行う。モデル学習部２０７は、典型的には、処理モデルのパラメータを乱数で初期化する。また、既存の処理モデルから追加学習を行う場合は、モデル学習部２０７が、モデル記憶部２０８が保持している、ターゲットノイズレベルに対応する処理モデルを読み込む。

次に、ステップＳ３０７〜Ｓ３０８は、処理モデル学習中の処理であるため、学習ループ（例えば学習用データを所定のエポック数学習する）の中で行う。さらに、ステップＳ３０７〜Ｓ３０８は、教師画像ごとの処理であるため、教師画像ループの中で行う。

ステップＳ３０７では、生徒画像生成部２０９が、ステップＳ３０５で算出した付加ノイズレベルに対応するノイズを教師画像に付加することで、教師画像の対となる生徒画像を生成する。

以下、ノイズを与えるための式について説明する。
画像に含まれるノイズは、主として撮像素子の内部で発生しており、一般的に用いられるモデルとして、各画素値のノイズは画素間で独立であり、輝度によって決定される標準偏差を有する正規分布に従う乱数で与えられる。このようなノイズを、輝度依存性ノイズと呼ぶ。輝度依存性ノイズの標準偏差σの二乗は、一般的に以下の式（４）によって与えられる。

σ（ｘ）＾２＝ｍａｘ（０，ａｘ＋ｂ）式（４）

ここで、式（４）において、ｘはノイズが付加される前の画素値、ａおよびｂはＩＳＯ感度やカメラ機種によって異なるモデルパラメータ、ｍａｘは引数のうち大きい方の値を返す関数である。
本ステップで教師画像に付加するノイズは、各画素が独立に式（４）で与えられる標準偏差σをもつ正規乱数として与えることができる。ＩＳＯ感度（本実施形態ではノイズレベルとして用いている）が大きいほど、式（４）の比例係数ａも大きくなる傾向があるため、付加ノイズレベルが大きいほど、強い（標準偏差σが大きい）ノイズを教師画像に付加することになる。なお、画素単位で付加ノイズレベルが算出されていれば、式（４）のａおよびｂも画素単位で異なる値となり、画像単位で付加ノイズレベルが算出されていれば、ａおよびｂは全画素で共通の値となる。

次にステップＳ３０８では、モデル学習部２０７が、ステップＳ３０７で生成された生徒画像のノイズ低減結果が教師画像に近づくように、典型的には誤差逆伝播法を用いて処理モデルのパラメータを更新する。なお、１枚の教師画像ごとにパラメータ更新を行うオンライン学習のほか、所定枚数の教師画像ごとにパラメータ更新を行うミニバッチ学習等が行われてもよい。学習（パラメータ更新）が終了して学習ループを抜けたときの処理モデルは、モデル記憶部２０８に保存される。

以上説明した本実施形態の情報処理装置１００によれば、教師画像の特徴に応じて教師画像に付加するノイズのノイズレベルを制御することで、より好適な画質を実現するノイズ低減の処理モデルを学習するための生徒画像を生成することができる。

ここで、本実施形態における生徒画像の生成について、図５を用いて説明する。
まず本実施形態において、生徒画像の生成は、ターゲットノイズレベルごとに行われる。図５は、ＩＳＯ５０００〜ＩＳＯ８００００の付加ノイズレベル５３１〜５３６の例と、ターゲットノイズレベルがＩＳＯ６４００の場合の生徒画像５１０と、ターゲットノイズレベルがＩＳＯ５１２００の場合の生徒画像５２０の例を示している。なお、生徒画像５１０の画像５１１，５１２，５１３は、教師画像５００の画像５０１，５０２，５０３にそれぞれ対応した画像である。同様に、生徒画像５２０の画像５２１，５２２，５２３は、教師画像５００の画像５０１，５０２，５０３にそれぞれ対応した画像である。各ターゲットノイズレベル用の各生徒画像の生成において、教師画像の特徴に応じて、ターゲットノイズレベルとは異なる付加ノイズレベルで教師画像にノイズが付加される。

例えば、教師画像として図５の細いエッジ（細線）を含む画像５０１に対する付加ノイズレベルは、ターゲットノイズレベルより低いノイズレベルとする。例えばターゲットノイズレベルより１／３段低くするとして、ターゲットノイズレベルがＩＳＯ６４００の場合には付加ノイズレベルはＩＳＯ５０００とし、ターゲットノイズレベルがＩＳＯ５１２００の場合には付加ノイズレベルはＩＳＯ４００００とする。

また例えば、教師画像として図５の低コントラスト・低輝度の画像５０３に対する付加ノイズレベルは、ターゲットノイズレベルより高いノイズレベルとする。例えばターゲットノイズレベルより２／３段高くするとして、ターゲットノイズレベルがＩＳＯ６４００の場合には付加ノイズレベルはＩＳＯ１００００とし、ターゲットノイズレベルがＩＳＯ５１２００の場合には付加ノイズレベルはＩＳＯ８００００とする。
なお教師画像として、前述以外の例えば画像５０２に対する付加ノイズレベルは、ターゲットノイズレベルと同じ付加ノイズレベルとする。

本実施形態の情報処理装置１００では、図５で説明したようにして生成した生徒画像を用いて学習した処理モデルでノイズ低減を行う。これにより、図４中に太枠で囲まれた画像４０１、画像４１２、画像４２３のように、図中の画像４１１や画像４１３などに比べて細線維持やアーティファクト抑制が実現された、より好適な画質が得られる。

なお、低コントラスト・低輝度の画像のアーティファクト抑制については、平滑化された図４の画像４２３の方が、画像４１３よりも好適であるが、ノイズが残る画像４０３も画像４１３よりは悪くないとする考え方もあり得る。このため、コントラスト・輝度が低いほど付加ノイズレベルをターゲットノイズレベルより高くするのではなく、コントラスト・輝度が低いほど付加ノイズレベルをターゲットノイズレベルより低くするようにしてもよい。

＜第２の実施形態＞
前述したように情報処理装置１００は、教師画像の特徴から付加ノイズレベルを算出するが、学習に用いる全教師画像の画像特徴のバランスによっては、付加ノイズレベルの分布に偏りが生じることがある。また、付加ノイズレベルの分布に偏りがあると、特定のノイズレベルの過学習や、ノイズ低減効果の不連続性につながる可能性がある。そこで第２の実施形態では、付加ノイズレベルの分布の偏りを解消するために、教師画像の水増し処理を行う。

以下、第２の実施形態の情報処理装置１００で行われる処理について、図８に示される機能ブロック図と、図９に示されるフローチャートを参照して説明する。
図８は、第２の実施形態に係る情報処理装置１００の機能ブロック図である。図８において、前述した図２と同じ機能部については図２と同じ参照符号を付してそれらの説明は省略する。第２の実施形態の情報処理装置１００において、図２に示した第１の実施形態の情報処理装置１００との違いは、生徒画像生成部８０９の機能と、分布算出部８１０及び教師画像制御部８１１が設けられていることである。各機能部の詳細は、図９のフローチャートを参照しながら後述する。なお、ステップＳ９０１〜Ｓ９０５の処理は、第１の実施形態における図３のステップＳ３０１〜Ｓ３０５と同じであるためそれらの説明を省略する。

第２の実施形態に係る図９のフローチャートにおいて、教師画像ループの処理後に進むステップＳ９０６では、分布算出部８１０が、全教師画像の付加ノイズレベルのヒストグラムを算出する。図１０は、全教師画像の付加ノイズレベルのヒストグラムの一例を示した図であり、横軸が付加ノイズレベルを、縦軸が教師画像枚数を示している。また、図１０において、ドット模様が付されたビンが教師画像水増し前のヒストグラムに対応する。

次にステップＳ９０７に進むと、教師画像制御部８１１が、ステップＳ９０６で算出されたヒストグラムの偏りを解消するために、教師画像の水増し設定を行う。
ここでまず、教師画像制御部８１１は、公知の外れ値検出技術等を用いて、教師画像枚数が不足している付加ノイズレベルのビンを特定する。図１０の例では、左から３番目のビンと、右から３番目のビンが該当する。

次に、教師画像制御部８１１は、教師画像枚数が不足しているビンについて、例えば近傍のビンの教師画像枚数を補間することで、教師画像水増し後の教師画像枚数を決定する。これにより、図１０のビンの白い部分に対応する、必要な水増し枚数が決まる。

ここで、教師画像の水増し処理としては、同じビンに属する教師画像を用いる方法と、他のビンに属する教師画像を用いる方法が考えられる。
前者の方法は、反転や回転といった幾何変換を用いるものであり、例えばエッジを含む教師画像の場合、エッジ方向のバリエーションが増えることになる。この方法は、付加ノイズレベルが変わらない水増し処理であるため、図１０ではビンの白い部分に向かう上向きの矢印１００１，１００２に対応する。

後者の方法は、教師画像の特徴から算出される付加ノイズレベルが所定値となるように、これまでと逆の考え方で教師画像の特徴を制御するものである。すなわち、教師画像制御部８１１は、前述した図６（ａ）や図６（ｂ）に示した画像特徴と付加ノイズレベルとの関係を逆方向に用いて、所定の付加ノイズレベルとするためのエッジ幅やコントラスト・輝度を算出する。そして、教師画像制御部８１１は、例えばモルフォロジー変換（収縮／膨張）を利用してエッジ幅を制御したり、コントラスト・輝度を制御したりすることで、教師画像の特徴から算出される付加ノイズレベルが所定値となるようにする。この方法は、付加ノイズレベルが変わる水増し処理であるため、図１０ではビンの白い部分に向かう斜め方向の矢印１０１１，１０１２に対応する。これは、教師画像枚数が不足していたビンにおいて、教師画像の被写体のバリエーションが増えることになる。

また図１０の例において、真ん中のビンがターゲットノイズレベルを含むビンであるとすると、それより左のビンほどエッジ幅が細い教師画像に対応し、右のビンほど低コントラスト・低輝度の画像に対応する。このため、教師画像制御部８１１は、図１０の左から３番目のビンの白い部分に向かう左斜め上方向の矢印１０１１に示すように例えば収縮処理によってエッジ幅を細くする水増し処理を行う。また、教師画像制御部８１１は、右から３番目のビンの白い部分に向かう右斜め上方向の矢印１０１２に示すように、教師画像の低コントラスト化・低輝度化による水増し処理を行う。

教師画像制御部８１１は、以上のような水増し処理による画像の変換を適宜組み合わせて必要枚数分の水増し処理が行えるように、教師画像の水増し設定を行う。水増し処理で生成するように設定された教師画像には、元になる教師画像や、水増し処理の方法、付加ノイズレベルが紐づけられる。

図９のフローチャートに説明を戻す。
ステップＳ９０８の処理は、第１の実施形態の図３に示したフローチャートのステップＳ３０６と同じであるため説明を省略する。
ステップＳ９０９〜Ｓ９１２は処理モデル学習中の処理であるため、学習ループの中で行う。さらに、ステップＳ９０９〜Ｓ９１２は、ステップＳ９０７で水増し設定された教師画像ごとの処理であるため、水増し教師画像ループの中で行う。

ステップＳ９０９では、教師画像制御部８１１が、現在の水増し教師画像ループで対象としている教師画像が、水増し処理で生成するように設定されているかを判定する。そして、教師画像制御部８１１は、ステップＳ９０９において、教師画像が水増し処理で生成するように設定されていると判定した場合にはステップＳ９１０に、一方、設定されていないと判定した場合にはステップＳ９１１に進む。

ステップＳ９１０に進んだ場合、教師画像制御部８１１が、ステップＳ９０７で設定された水増し設定に従い、元になる教師画像に水増し処理（画像変換）を適用することで、現在の水増し教師画像ループで学習に用いるための教師画像を生成する。このステップＳ９１０の後、ステップＳ９１１に処理が進む。

ステップＳ９１１に進むと、生徒画像生成部８０９が、入力された教師画像に対応する付加ノイズレベルのノイズを付加することで、教師画像の対となる生徒画像を生成する。
ステップＳ９１２の処理は、第１の実施形態の図３のフローチャートのステップＳ３０８と同様であるため説明を省略する。

以上説明した本実施形態によれば、教師画像の水増し処理を行うことで、教師画像に対する付加ノイズレベルの分布の偏りを解消することができる。
なお、教師画像の水増し処理や生徒画像の生成は、必ずしも学習ループの中で動的に行う必要はなく、学習前に行っておいて、水増し処理された教師画像やノイズ付加された生徒画像を、全て画像記憶部２０３が保持しておくようにしてもよい。

本発明は、前述の各実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。
前述の実施形態は、何れも本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。即ち、本発明は、その技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。

１００：情報処理装置、２０１：ターゲットレベル取得部、２０２：教師画像取得部、２０３：画像記憶部、２０４：特徴検出部、２０５：ノイズレベル算出部、２０６：関係パラメータ記憶部、２０７：モデル学習部、２０８：モデル記憶部、２０９：生徒画像生成部

Claims

画像のノイズ低減を行う処理モデルを学習するためのデータを生成する画像処理装置であって、
ノイズ低減のターゲットとするノイズレベルを取得する取得手段と、
教師画像の特徴を検出する検出手段と、
前記教師画像に付加するノイズのノイズレベルを決定する決定手段と、
前記決定されたノイズレベルに対応するノイズを前記教師画像に付加して生徒画像を生成する生成手段と、を有し、
前記決定手段は、前記検出手段で検出した前記教師画像の特徴に応じて、前記ターゲットのノイズレベルとは異なるノイズレベルを決定することを特徴とする画像処理装置。
画像のノイズ低減を行う処理モデルを学習するための画像処理装置であって、
ノイズ低減のターゲットとするノイズレベルを取得する取得手段と、
教師画像の特徴を検出する検出手段と、
前記教師画像に付加するノイズのノイズレベルを決定する決定手段と、
前記決定されたノイズレベルに対応するノイズを前記教師画像に付加して生徒画像を生成する生成手段と、
前記生徒画像のノイズ低減結果と前記教師画像との差が小さくなるように前記処理モデルの学習を行う学習手段と、を有し、
前記決定手段は、前記検出手段で検出した前記教師画像の特徴に応じて、前記ターゲットのノイズレベルとは異なるノイズレベルを決定することを特徴とする画像処理装置。
前記処理モデルはニューラルネットワークであることを特徴とする請求項１または請求項２に記載の画像処理装置。
前記ノイズレベルはＩＳＯ感度に応じたレベルであることを特徴とする請求項１から請求項３のいずれか１項に記載の画像処理装置。
前記検出手段が検出した前記特徴であるエッジ幅が所定値以下の場合に、前記決定手段は、前記ターゲットのノイズレベルより低いノイズレベルを決定することを特徴とする請求項１から請求項４のいずれか１項に記載の画像処理装置。
前記検出手段で検出した前記特徴であるエッジ幅が細いほど、前記決定手段は、前記ターゲットのノイズレベルより低いノイズレベルを決定することを特徴とする請求項１から請求項５のいずれか１項に記載の画像処理装置。
前記検出手段が検出した前記特徴であるコントラストと輝度に係る指標が所定値以下の場合に、前記決定手段は、前記ターゲットのノイズレベルより高いノイズレベルを決定することを特徴とする請求項１から請求項６のいずれか１項に記載の画像処理装置。
前記検出手段で検出した前記特徴であるコントラストと輝度に係る指標が低いほど、前記決定手段は、前記ターゲットのノイズレベルより高いノイズレベルを決定することを特徴とする請求項１から請求項７のいずれか１項に記載の画像処理装置。
前記決定手段で決定する前記ノイズレベルの限度値の前記ターゲットのノイズレベルとの差は、前記ターゲットのノイズレベルより低い側の方が小さいことを特徴とする請求項１から請求項８のいずれか１項に記載の画像処理装置。
前記決定手段は、前記教師画像の複数の特徴からそれぞれ検出される複数のノイズレベルを用いて、前記教師画像に付加するノイズのノイズレベルを決定することを特徴とする請求項１から請求項９のいずれか１項に記載の画像処理装置。
前記検出手段で検出する前記教師画像の特徴と、前記決定手段で決定する前記ノイズレベルとの関係パラメータを調整する調整手段をさらに有することを特徴とする請求項１から請求項１０のいずれか１項に記載の画像処理装置。
前記決定手段で決定する前記ノイズレベルの分布に偏りが生じないよう、前記教師画像の変換を行う変換手段をさらに有することを特徴とする請求項１から請求項１１のいずれか１項に記載の画像処理装置。
前記変換手段は、前記決定手段で決定される前記ノイズレベルが所定値となるように、前記教師画像の変換を行うことを特徴とする請求項１２に記載の画像処理装置。
画像のノイズ低減を行う処理モデルを学習するためのデータを生成する画像処理装置が実行する画像処理方法であって、
ノイズ低減のターゲットとするノイズレベルを取得する取得工程と、
教師画像の特徴を検出する検出工程と、
前記教師画像に付加するノイズのノイズレベルを決定する決定工程と、
前記決定されたノイズレベルに対応するノイズを前記教師画像に付加して生徒画像を生成する生成工程と、を有し、
前記決定工程では、前記検出工程で検出した前記教師画像の特徴に応じて、前記ターゲットのノイズレベルとは異なるノイズレベルを決定することを特徴とする画像処理方法。
画像のノイズ低減を行う処理モデルを学習するための画像処理装置が実行する画像処理方法であって、
ノイズ低減のターゲットとするノイズレベルを取得する取得工程と、
教師画像の特徴を検出する検出工程と、
前記教師画像に付加するノイズのノイズレベルを決定する決定工程と、
前記決定されたノイズレベルに対応するノイズを前記教師画像に付加して生徒画像を生成する生成工程と、
前記生徒画像のノイズ低減結果と前記教師画像との差が小さくなるように前記処理モデルの学習を行う学習工程と、を有し、
前記決定工程では、前記検出工程で検出した前記教師画像の特徴に応じて、前記ターゲットのノイズレベルとは異なるノイズレベルを決定することを特徴とする画像処理方法。
コンピュータを、請求項１から請求項１３のいずれか１項に記載の画像処理装置の各手段として機能させるためのプログラム。