JP2021114180A

JP2021114180A - 画像処理装置、画像処理方法、およびプログラム

Info

Publication number: JP2021114180A
Application number: JP2020006899A
Authority: JP
Inventors: 雄太生清; Yuta Narikiyo
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2020-01-20
Filing date: 2020-01-20
Publication date: 2021-08-05

Abstract

【課題】推論された画像に対してダイナミックレンジを拡張する処理が行われても、画像の色味に変化が生じ難いニューラルネットワークを取得可能にする。【解決手段】画像処理装置は、訓練画像と正解画像を取得する画像取得手段（Ｓ１０１）と、訓練画像をニューラルネットワークへ入力して出力画像を生成する生成手段（Ｓ１０３）と、正解画像と出力画像のそれぞれに色域処理と輝度処理を実行し実行し、その処理後の正解画像と出力画像の誤差を取得する誤差取得手段（Ｓ１０４）と、取得された誤差に基づいてニューラルネットワークのパラメータを更新する更新手段（Ｓ１０５）と、を有する。【選択図】図２

Description

本発明は、ディープラーニングを用いた画像処理技術に関する。

近年、機械学習におけるディープラーニングを用いて、入力画像から所望の出力画像を推論する画像処理技術が提案されている。ディープラーニングとは、例えばいわゆるニューラルネットワークを用いた機械学習である。また、ニューラルネットワークにＲＡＷ画像を入力して所望の出力画像を推論しようとする場合には、そのニューラルネットワークの学習もＲＡＷ画像を用いて行われることになる。

特許文献１には、ＲＡＷ画像を用いた入力画像から、ニューラルネットワークによって解像度やコントラストなどを向上させた画像を推論する技術が開示されている。特許文献１では、ニューラルネットワークにＲＡＷ画像を入力して学習する際、ユーザが鑑賞する出力形式に合わせたガンマ補正を行うことで、推論精度が向上したニューラルネットワークの学習を可能としている。

特開２０１９−１２１２５２号公報

ここで、ユーザが実際に鑑賞等する場合、ＲＡＷ画像を現像処理した画像に対して、いわゆるＨＤＲ（ＨｉｇｈＤｙｎａｍｉｃＲａｎｇｅ）処理などのダイナミックレンジを拡張する画像処理が実行されることがある。しかしながら、ニューラルネットワークを用いて推論されたＲＡＷ画像を現像処理した画像にダイナミックレンジを拡張する処理が行われた場合、その画像処理後の画像の色味が変化してしまうことがある。

そこで本発明は、推論された画像に対してダイナミックレンジを拡張する処理が行われても、画像の色味に変化が生じ難いニューラルネットワークを取得可能にすることを目的とする。

本発明の画像処理装置は、訓練画像と正解画像を取得する画像取得手段と、前記訓練画像をニューラルネットワークへ入力して出力画像を生成する生成手段と、前記正解画像と前記出力画像のそれぞれに色域処理と輝度処理を実行し、その処理後の前記正解画像と前記出力画像との誤差を取得する誤差取得手段と、前記取得された前記誤差に基づいて、前記ニューラルネットワークのパラメータを更新する更新手段と、を有することを特徴とする。

本発明によれば、推論された画像に対してダイナミックレンジを拡張する処理が行われても、画像の色味に変化が生じ難いニューラルネットワークを取得可能となる。

実施形態の画像処理装置を含むシステムの構成例を示す図である。第１の実施形態に係る学習工程のフローチャートである。ニューラルネットワークの概念説明に用いる図である。推論工程のフローチャートである。第２の実施形態に係る学習工程のフローチャートである。第３の実施形態に係る放送制御システムの構成例を示す図である。

以下、本発明の一実施形態について、図面を参照しながら詳細に説明する。なお、各図において同一の構成要素または処理については同一の参照符号を付し、重複する説明は省略する。
本実施形態では、ニューラルネットワークによる機械学習であるディープラーニングを用いて、入力画像から所望の出力画像を推論するような画像処理を例に挙げる。ニューラルネットワークの学習では、訓練画像とそれに対応する教師画像とを複数用意し、訓練画像の特徴分布を教師画像の特徴分布に近づけるなどの学習が行われて、重みやバイアスなどのネットワークパラメータを最適化することが行われる。これにより、学習されていない入力画像に対しても精度よい推論が可能となる。なお本実施形態では、ニューラルネットワークを用いた画像処理において、ネットワークパラメータを更新する学習を行う処理工程を学習工程と呼ぶ。また、本実施形態では、学習工程等において更新されたネットワークパラメータを用いて、未知の入力画像に対する推論を行って推論画像を取得する処理工程を推論工程と呼ぶ。

また本実施形態では、ニューラルネットワークを用いた推論工程において、ＲＡＷ画像が入力されて所望の出力画像を推論する例を挙げる。このため、ニューラルネットワークの学習工程では、訓練用のＲＡＷ画像をニューラルネットワークへ入力して得られた出力ＲＡＷ画像と、正解のＲＡＷ画像との誤差を最小化するようにして、ネットワークパラメータを最適化するような学習が行われる。つまり、ニューラルネットワークの学習時の誤差は、ＲＡＷ画像の状態で最小化される。なお、本実施形態では、ニューラルネットワークを用いて、ノイズが低減された画像を推論（生成）するような画像処理が行われる例を挙げる。

また本実施形態において、ユーザが実際に画像を鑑賞する際、ニューラルネットワークにより推論されたＲＡＷ画像は、現像処理された後、ＨＤＲ処理等のような画像のダイナミックレンジを拡張する画像処理が行われた後に表示装置等に表示されるものとする。

ここで、例えば静止画におけるＨＤＲ処理は、あるダイナミックレンジにおける低輝度部の黒つぶれや高輝度部の白飛びを改善するために、複数の露光量で撮像された画像を合成することでダイナミックレンジが拡張されたような表現を可能にする処理である。またＳＤＲ（ＳｔａｎｄａｒｄＤｙｎａｍｉｃＲａｎｇｅ）の動画においても、あるダイナミックレンジにおいて輝度表現を改善するためにガンマカーブ等を適用するような処理が行われることがある。これらの画像処理は、結果的に、人間の見た目に近い、またはあたかもダイナミックレンジが拡張されたかのような画像を作り出す処理である。

またそれらＨＤＲ技術やＳＤＲでの表現等に対し、ディスプレイなどの表示装置における輝度のダイナミックレンジを拡張するための画像処理もある。これも人間の見た目に近いダイナミックレンジを表現するための画像処理であり、例としてＨＤＲ１０やＨＤＲ１０＋などに規定された処理が挙げられる。ＨＤＲ処理においては、色域のＲｅｃ．２０２０、ガンマカーブのＰＱ方式またはＨＬＧ方式などあるが、他の色域やガンマカーブが用いられても良い。また、ＳＤＲ処理においては、色域のＲｅｃ．７０９、ガンマカーブとしてＩＴＵ−ＲＢＴ．７０９に規定されているものがある。

しかしながら、ニューラルネットワークを用いて推論されたＲＡＷ画像を現像処理し、ＨＤＲ処理などの画像処理が行われると、その画像処理後の画像の色味が変化してしまうことがある。これは、以下のような理由によって生ずることを本出願の発明者は見出した。

前述したＨＤＲ処理などの画像処理では、画像に対して色域処理と輝度処理とが実行されるため、各カラーチャネルの信号量が変化する。すなわち、それら画像処理が行われた画像は、ニューラルネットワークによって推論されたＲＡＷ画像に対して各カラーチャネルの信号量が変化している。また、それら画像処理によって各カラーチャネルの信号量や輝度の信号量が変化すると、ニューラルネットワークによる推論誤差が拡大され、その推論誤差の拡大は推論画像の低輝度部などで生じ易い。そして、ニューラルネットワークによる推論誤差が推論画像の低輝度部などで拡大すると、その低輝度部に特定の色味がついてしまう現象となって表れる。またニューラルネットワークを用いてノイズが低減された画像を推論できたとしても、前述の画像処理後の画像は低輝度部にノイズが残った画像になってしまい、その結果、見かけ上、ニューラルネットワークによる推論精度は低いものとなる。本実施形態ではＨＤＲやＳＤＲにおける画像処理を例に挙げているが、それ以外の色域処理と輝度処理を含む画像処理が行われた場合も、前述同様の色味の変化が生ずると考えられる。

なお前述した特許文献１に記載の技術の場合、誤差を最小化する際に考慮される現像処理はガンマ補正であり、色域処理や高輝度化などの画像処理は行われない。このため、特許文献１の技術では、画像に特定の色味が付いてしまうという課題は生じない。

これらのことを踏まえ、本実施形態の画像処理装置は、以下に説明する構成及び処理により、推論画像に色域処理と輝度処理を含む画像処理が行われても、画像の色味の変化が生じ難いニューラルネットワークを取得可能としている。これにより、本実施形態の画像処理装置は、ニューラルネットワークを用いてノイズ低減された画像を推論する場合の推論精度を向上させている。

＜第１の実施形態＞
図１は、第１の実施形態における画像処理システム１００の全体構成例を示すブロック図である。画像処理システム１００は、図１に示すように、本実施形態に係る画像処理装置１０１、撮像装置１１１、ストレージ装置１２１、及び表示装置１３１を備える。

まず、本実施形態に係る画像処理システム１００について説明する。
画像処理装置１０１は、学習工程と推論工程のいずれをも実行可能な処理装置であり、画像入出力部１０２、学習部１０３、推論部１０４、および記憶部１０５を有する。
画像入出力部１０２は、撮像装置１１１やストレージ装置１２１からの画像の入力、ストレージ装置１２１や表示装置１３１への画像の出力を行う。

学習部１０３は、推論工程で用いるニューラルネットワークのネットワークパラメータを算出する学習工程を実行する。学習部１０３における学習工程では、記憶部１０５に記憶された複数の訓練画像と正解画像とを用いてネットワークパラメータを更新するような学習が行われる。本実施形態のようにニューラルネットワークを用いてノイズが低減された画像を推定（取得）する場合、訓練画像と正解画像は、ノイズの有無によって異なる画像である。訓練画像と正解画像の詳細は後述する。また本実施形態の場合、訓練画像と正解画像は、それぞれＲＡＷ画像である。

推論部１０４は、学習によって算出されたネットワークパラメータのニューラルネットワークを用いて推論した画像を出力する推論工程を実行する。
記憶部１０５は、学習部１０３によって算出されたネットワークパラメータ、出力画像、学習に使用する訓練画像、及び訓練画像に対応する正解画像などを記憶する。

撮像装置１１１は、撮像光学系、ＣＭＯＳセンサやＣＣＤセンサなどの撮像素子等を有する。撮像装置１１１は、撮像素子によって撮像された撮像画像を出力する。撮像装置１１１や画像処理装置１０１は、その他に現像処理などを行う機能を有していてもよい。

ストレージ装置１２１は、学習に用いる大量の訓練画像と正解画像のペアや、学習部１０３によって更新されたネットワークパラメータなどを保存する。
表示装置１３１は、例えば液晶ディスプレイやプロジェクタなどからなり、画像処理装置１０１から受け取った画像を表示する。

次に、画像処理装置１０１について詳しく説明する。
画像処理装置１０１は、有線または無線で接続された撮像装置１１１、またはストレージ装置１２１から、ＲＡＷ画像である撮像画像を取得して、記憶部１０５に記憶する。推論時の推論部１０４は、撮像画像から入力画像を取得してニューラルネットワークへ入力し、ノイズが低減された推論画像を生成する。画像処理装置１０１は、ストレージ装置１２１に記憶されたネットワークパラメータを記憶部１０５に格納し、その記憶部１０５に記録されたネットワークパラメータを読み出して、推論工程に用いる。ネットワークパラメータは撮像装置１１１が記憶してもよい。画像処理装置１０１は、撮像画像からノイズが低減された画像を生成し、その生成された撮像画像はストレージ装置１２１、表示装置１３１、または撮像装置１１１の少なくとも一つに出力される。

本実施形態において、訓練画像はベイヤー配列のＲＡＷ画像であるが、三板式の撮像センサを用いて撮像されたＲＡＷ画像を使用しても良いし、ＦＯＶＥＯＮ（登録商標）センサのように垂直色分子方式の撮像センサなどで撮像されたＲＡＷ画像でも良い。また、訓練画像における画素配列は、ベイヤー配列にとどまらず、その他の配列（ハニカム構造、Ｘ−Ｔｒａｎｓ（登録商標）ＣＭＯＳセンサのフィルタ配列など）であっても良い。また訓練画像は、ベイヤー配列のＲＡＷ画像の場合、ベイヤー配列の１ｃｈのままとしても良いし、カラーチャネルごとに分離した画像としても良い。本実施形態では、複数のカラーチャネルをまとめて学習と推論を実行するが、各色で個別に学習と推論が実行されても良い。

なお、画像処理装置１０１は、例えばＣＰＵや専用または汎用のプロセッサを備える装置であっても良い。プロセッサは、記憶部に記憶された各種のプログラムを実行することによって、本実施形態の画像処理装置１０１の各部の機能を実現することができる。また画像処理装置１０１は、ＦＰＧＡやＡＳＩＣ等のハードウェアで構成されていても良い。これらのハードウェアによっても本実施形態の画像処理装置１０１の各部の機能が実現されてもよい。また画像処理装置１０１は、プロセッサとプログラムによるソフトウェア処理と、ハードウェア処理とを組み合わせて、本実施形態の画像処理に係る各部の機能を現するものであっても良い。

図２は、学習部１０３で実行される学習工程に関するフローチャートである。
まず、ステップＳ１０１において、学習部１０３は、画像取得処理として記憶部１０５から訓練画像と正解画像とを取得する。訓練画像と正解画像は、それぞれ、未現像のＲＡＷ画像である。また本実施形態の場合、訓練画像はノイズを含んだ画像である。正解画像は、訓練画像と同一の被写体が写っており、且つノイズの無い（または非常に少ない）画像である。訓練画像は、正解画像に対して、シミュレーションでノイズを付与することで生成できる。

また訓練画像は、正解画像と同一の被写体を実際にノイズが発生しうる状況（例えば高感度設定）で撮像した画像が用いられてもよい。この場合、正解画像は、例えば低感度で撮像された画像とする。一方、訓練画像は、高感度で撮像された画像、または低照度で撮像された画像に感度補正を行って正解画像と同程度の明るさになるよう補正された画像を用いることができる。なお、学習工程では、画像に含まれていないノイズパターンや被写体の構造（エッジなど）は、後の推論工程で精度よく推論することができない可能性が高い。このため、学習部１０３は、様々なノイズパターンや被写体の構造が含まれるように、ステップＳ１０１において複数の訓練画像と正解画像を取得する。なお、ノイズ量は、単一のノイズ量でも良いし、複数のノイズ量が混ぜられたノイズ量でもよい。

また、訓練画像と正解画像は、それぞれ、信号の上限値（飽和輝度値）で割ることで規格化（正規化）することが好ましい。この場合、学習部１０３は、上限値取得処理として訓練画像と正解画像のそれぞれの信号値が取り得る上限値を取得し、さらに規格化処理としてその取得した上限値に基づいて訓練画像と正解画像のそれぞれの信号値を規格化する。

続いてステップＳ１０２において、画像処理装置１０１は、例えばストレージ装置１２１から、学習工程で用いられる情報として、色域処理と輝度処理に関する情報を取得して記憶部１０５に記憶する。本実施形態の場合、色域処理と輝度処理に関する情報は、前述したＨＤＲ処理またはＳＤＲ処理などによる色域変化と輝度変化などを表した情報である。ステップＳ１０２では、学習工程で得るニューラルネットワークがＨＤＲ処理を対象とする場合には、ＨＤＲ処理における色域変化と輝度変化に関する情報が取得される。一方、学習工程で得るニューラルネットワークがＳＤＲ処理を対象とする場合には、ステップＳ１０２ではＳＤＲ処理における色域変化と輝度変化に関する情報が取得される。また本実施形態の場合、推論部１０４で生成された推論画像の現像処理後に用いる色域処理および輝度処理と、後述するステップＳ１０４で正解画像と出力画像に行う色域処理および輝度処理とは、それぞれ同じ処理になされる。このように推論画像に対する色域処理および輝度処理と、正解画像と出力画像に対する色域処理および輝度処理とを合わせることで、色域処理と輝度処理を含む画像処理後のカラーチャネル間のノイズ量や信号量に依らない安定した精度での推論が可能となる。なお、ステップＳ１０２の処理は、ステップＳ１０４の処理前であれば、いつ実行してもよい。

続いてステップＳ１０３において、出力画像生成処理として、学習部１０３は、ステップＳ１０１で取得された複数の訓練画像のうちの少なくとも一つを選択し、その選択した訓練画像をニューラルネットワークへ入力して出力画像を生成する。このとき学習工程で用いる訓練画像のノイズ量を複数パターン用意して学習を行うことで、推論工程時に学習外のノイズ量を持つ撮像画像が入力されても、効果的にノイズ低減を行うことが可能となる。なお、訓練画像の枚数が十分でない場合は、訓練画像から切り取りや回転、反転などの水増し処理を行った画像を訓練画像として用意しても良い。なおこの場合は、正解画像に対しても同一の処理が施される。

ここで、図３を参照して、ニューラルネットワーク２００で行われる処理について説明する。図３は、入力画像に対するニューラルネットワーク２００の説明に用いる図である。一例として、畳み込みニューラルネットワーク（以降、ＣＮＮとする）を例にとるが、本実施形態はこれに限定されるものではない。ニューラルネットワークは、例えば、ＧＡＮ（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）などが用いられてもよいし、スキップコネクションなどを有してもよい。またニューラルネットワークは、ＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）などのように再帰型であってもよい。

図３において、入力画像２０１は、ニューラルネットワークに入力する画像または後述の特徴マップを表す。記号２０２は、畳み込み演算を表す。畳み込み行列２０３は、入力画像２０１に対して畳み込み演算を行うフィルタである。バイアス２０４は、入力画像２０１と畳み込み行列２０３との畳み込み演算によって出力された結果に加算される値である。特徴マップ２０５は、バイアス２０４が加算された後の畳み込み演算結果である。

なお、図３では、簡単のために各ニューロンや中間層、チャネル数が少なく描かれているが、ニューロンや層の数、またニューロン間の結合の数や重みなどは、この例に限定されるものではない。また、ニューラルネットワーク２００がＦＰＧＡなどに実装される際には、ニューロン間の結合や重みが削減されてもよい。

ＣＮＮでは、入力画像に対し、あるフィルタによって畳み込み演算を実行することで、入力画像の特徴マップが得られる。なお、フィルタの大きさは任意である。次の層では、前層の特徴マップに対し、別のフィルタによる畳み込み演算を実行することで、異なる特徴マップが得られる。また各層では、ある入力信号をフィルタと掛け合わせ、バイアスとの和が求められる。そして、その結果に対して活性化関数が適用されることにより、各ニューロンにおける出力信号が得られる。各層における重みとバイアスがネットワークパラメータと呼ばれ、学習工程ではその値（ネットワークパラメータ）を更新する処理が行われる。また活性化関数の例としては、シグモイド関数やＲｅＬＵ関数などがあり、本実施形態では以下の式（１）に示すＬｅａｋｙＲｅＬＵ関数が用いられるが、これに限定されるものではない。なお、式（１）において、ｍａｘは、引数のうち最大値を出力する関数を表す。

ｆ（ｘ）＝ｍａｘ（ｘ，ｘ×０．２）式（１）

続いてステップＳ１０４において、学習部１０３は、ニューラルネットワークの出力画像と正解画像とに対してそれぞれ色域処理と輝度処理を実行し、誤差取得処理としてそれら色域処理と輝度処理がなされた出力画像と正解画像との誤差を取得する。なお、正解画像も訓練画像と同様の並びの色成分の配列である。学習部１０３は、誤差取得処理において、例えば各画素の平均二乗誤差、或いは各画素の差分の絶対値の総和による算出処理によって誤差を取得する。誤差取得処理は、それら平均二乗誤差や差分の絶対値の総和以外の算出処理が用いられても良い。

続いてステップＳ１０５において、学習部１０３は、ステップＳ１０４で算出された誤差が小さくなるように、誤差逆伝播法を用いて各ネットワークパラメータを更新する。ただし、本実施形態はこれに限定されるものではない。また、各ネットワークパラメータの更新量は、固定でも良いし、変動させてもよい。

続いてステップＳ１０６において、学習部１０３は、所定の終了条件を満たしたかを判断し、条件を満たさない場合にはステップＳ１０１に戻り、さらに学習を進める。一方、所定の終了条件を満たす場合、学習部１０３は、ステップＳ１０７に処理を進める。所定の終了条件とは、学習回数が規定値に達したかを示す条件でも良いし、誤差がある所定の値以下になったかを示す条件でも良い。または、所定の終了条件は、誤差の減少がほとんどなくなったかを示す条件でも良いし、ユーザからの終了指示があったかを示す条件でも良い。

次に、ステップＳ１０７において、学習部１０３は、学習によって更新されたネットワークパラメータやニューラルネットワークの構造などに関する情報を、ストレージ装置１２１に出力する。ストレージ装置１２１は、学習部１０３から出力されたネットワークパラメータを保存する。

以上説明したように、本実施形態の画像処理装置１０１は、ニューラルネットワークの学習工程において、ニューラルネットワークの出力画像と正解画像とにそれぞれ同じ色域処理と輝度処理を実行する。そして、画像処理装置１０１は、それら色域処理と輝度処理が行われた後の出力画像と正解画像との誤差を最小化するようにして、ネットワークパラメータを更新（つまりネットワークパラメータ最適化）するような学習処理を行う。これにより、本実施形態の画像処理装置１０１においては、現像された画像の色域処理と輝度処理に対し、推論精度が影響され難く画像に特定の色味が付き難いニューラルネットワークを取得することが可能となる。

なお本実施形態では、ニューラルネットワークを用いたノイズ低減を例に挙げたが、以下に挙げるようなノイズ低減以外の処理に関しても、訓練画像と正解画像のペアを用意することで、学習工程を実行することができる。以下のノイズ低減以外の処理の場合も、現像された画像に対する色域処理と輝度処理等の画像処理が行われても画像の色味が変化し難いニューラルネットワークを学習することが可能となる。

例えば、入力画像より高い解像度の出力画像を生成するような超解像処理を実現するニューラルネットワークの学習工程では、正解画像をダウンサンプリングすることで正解画像よりも解像度を下げた訓練画像を用意することができる。なおこの場合、正解画像と訓練画像とはサイズを合わせが行われても良いし、サイズ合わせが行われなくてもよい。
例えば、入力画像からボケ低減やブレ低減（デブラー）された出力画像を生成するようなニューラルネットワークの学習工程では、正解画像に対してボケまたはブレを付与する処理を施すことで訓練画像を用意することができる。なお、正解画像に対するボケの付与は、いわゆるボケ関数を用いた処理を施すことで実現可能である。
例えば、入力画像からホワイトバランスが適切になされた出力画像を生成するようなニューラルネットワークの学習工程では、正解画像をホワイトバランスが適切に設定されて撮像された画像とする。訓練画像は、ホワイトバランスを適切に合わせていない、またはホワイトバランスを補正していない画像を用いれば良い。
例えば、入力画像からカラーマトリクス補正による色補正がなされた出力画像を生成するようなニューラルネットワークの学習工程では、色補正が適切な正解画像に対し、色補正を適切に合わせていない、または色補正していない画像を訓練画像とすれば良い。
例えば、入力画像から欠損画素が補間された出力画像を生成するようなニューラルネットワークの学習工程では、欠損画素がない正解画像から画素を欠損させた訓練画像を生成すれば良い。
例えば、入力画像からデモザイキングされた出力画像を生成するようなニューラルネットワークの学習工程では、三板式の撮像素子などを用いて得られた正解画像に対し、ベイヤー配列などで再サンプリングを行った訓練画像を用意すれば良い。正解画像は、三板式の撮像素子で得られた画像に限定されず、画素毎に複数の色情報を有する画像であれば他の手法によって取得された画像でも良い。また訓練画像は、画素毎に一つの色情報を有する画像であれば、他の手法によって取得された画像でもよい。
例えば、入力画像から色成分を推定した出力画像を生成するようなニューラルネットワークの学習工程では、正解画像から色成分を減らすことで訓練画像を用意することができる。
例えば、入力画像からディヘイズされた出力画像を生成するようなニューラルネットワークの学習工程では、霞のようなヘイズ成分を含まない正解画像に対し、物理現象のシミュレーションによる散乱光等のヘイズ成分を付与することで、訓練画像を用意できる。
その他にも、動画などの複数フレームが連続する場合においては、所望のフレーム数を時間順の奥行き方向にまとめてニューラルネットワークに入力すると、より効果的なノイズ低減や前述のようなノイズ低減以外の処理が可能となる。

次に、図４を参照して、推論部１０４で実行される推論工程に関して説明する。図４は、推論部１０４で実行される推論工程に関するフローチャートである。
まず、ステップＳ２０１において、推論部１０４は、学習工程で更新されて保存されたネットワークパラメータを取得する。このとき、推論部１０４は、ストレージ装置１２１からネットワークパラメータを読み込んでもよいし、ストレージ装置１２１から読み出されて記憶部１０５に記憶されたネットワークパラメータを取得しても良い。推論部１０４が取得するネットワークパラメータは、学習工程で学習されたときのネットワーク構造と同じ構造が使用されていれば、学習部１０３で学習されたものでなく、別の画像処理装置などで学習されたものでも良い。

続いてステップＳ２０２において、推論部１０４は、撮像装置１１１またはストレージ装置１２１または記憶部１０５から、撮像画像を取得する。このときの撮像画像とは、未現像のＲＡＷ画像である。なお、ＲＡＷ画像に符号化処理が施されている場合、推論部１０４は復号処理を行う。

次に、ステップＳ２０３において、推論部１０４は、ＲＡＷ画像（撮像画像）をニューラルネットワークへ入力する入力画像に変換する。このときの推論部１０４は、入力画像に対し、学習工程において訓練画像に行われるのと同様の処理を施す。なお、入力画像のサイズは、訓練画像のサイズと必ずしも一致する必要はない。学習工程において訓練画像に行われるのと同様の処理には、信号の規格化や、色成分ごとの分離処理などが含まれる。なお、撮像画像がそのまま学習工程で利用された場合、ステップＳ２０３の処理は必ずしも行う必要はない。

続いてステップＳ２０４において、推論部１０４は、入力画像を、学習工程で使用したニューラルネットワークと同様の構造を持つニューラルネットワークに入力する。そして、推論部１０４は、そのニューラルネットワークのネットワークパラメータを基に、入力画像から推論画像を生成する。

続いてステップＳ２０５において、推論部１０４は、生成した推論画像をストレージ装置１２１、撮像装置１１１、或いは表示装置１３１の少なくとも一つに出力する。このとき、推論部１０４は、先のステップＳ２０２において撮像画像に施した処理を元に戻す処理を施してもよい。

以上説明したように第１の実施形態によれば、現像された画像の色域と輝度に対して、推論精度が影響されにくいニューラルネットワークを取得し、そのニューラルネットワークを用いて推論を行うことが可能な画像処理システムを実現することができる。

＜第２の実施形態＞
次に、第２の実施形態における画像処理システムについて説明する。第２の実施形態では、学習工程における訓練画像の色域処理と輝度処理を、ニューラルネットワークに入力する前に実行する点が第１の実施形態とは異なる。以下では、第１の実施形態とは異なる点を中心に説明し、第１の実施形態と同様の構成や処理についての詳細の説明は省略する。

図５のフローチャートを参照して、第２の実施形態における学習部１０３が実行する学習工程について説明する。図５のステップＳ３０１〜ステップＳ３０２およびステップＳ３０４、ステップＳ３０６〜ステップＳ３０８の処理は、第１の実施形態における図２のステップＳ１０１〜ステップＳ１０３、ステップＳ１０５〜ステップＳ１０７の処理とそれぞれ同様である。

図５のステップＳ３０２の後に進むステップＳ３０３において、学習部１０３は、訓練画像と正解画像とに対してそれぞれ色域処理と輝度処理を実行する。このとき、色域処理と輝度処理に必要な係数は、訓練画像と正解画像のどちらも同一のものが用いられる。ステップＳ３０３の後、学習部１０３は、ステップＳ３０４の処理を行った後、ステップＳ３０５の処理に進む。

ステップＳ３０５において、学習部１０３は、正解画像とニューラルネットワークの出力画像との誤差を算出する。第２の実施形態の場合、このとき色域処理と輝度処理は実行されない。誤差の算出方法は、図２のステップＳ１０４と同様である。

前述したように、第２の実施形態の画像処理装置１０１では、学習工程において、訓練画像と正解画像とにそれぞれ同じ色域処理と輝度処理を実行し、それらの画像処理後の訓練画像をニューラルネットワークで処理する。そして、画像処理装置１０１は、正解画像とニューラルネットワークの出力画像との誤差を最小化するようにして、ネットワークパラメータを更新（ネットワークパラメータ最適化）するような学習処理を行う。これにより、第２の実施形態の画像処理装置１０１においても、現像された画像の色域と輝度に対して、推論精度が影響されにくいニューラルネットワークを取得することが可能となる。

なお、第２の実施形態において、推論部１０４で実行される推論工程は、第１の実施形態において図４を参照して説明した推論工程と同様であるため、その説明は省略する。

＜第３の実施形態＞
次に、第３の実施形態に係る画像処理システムについて説明する。第３の実施形態は、放送現場等で行われている、ＳＤＲ映像とＨＤＲ映像とにおけるサイマル放送に向けた放送制御システムを想定している。本実施形態では、ニューラルネットワークの学習時に、ユーザが鑑賞する編集済みの映像に合わせた処理を施すことで、推論精度の向上を行っている。そのため、ＳＤＲ映像とＨＤＲ映像とでは色域や輝度の範囲が大きく異なり、推論精度に影響が生じることになる。そこで、第３の実施形態では、色域や輝度の範囲が大きく異なる場合でも、推論精度が高いニューラルネットワークを取得可能とする例を説明する。なお、第１の実施形態と同様の構成や処理についての詳細の説明は省略する。

図６は、第３の実施形態に係る放送制御システム３００の概略構成を示した図である。以下、図６を参照して、第３の実施形態における放送制御システム３００で行われる工程を説明する。
放送制御システム３００は、一つ以上の撮像装置等で撮影された映像を管理する。
撮像システム３０１にて撮影されて出力された映像は、ＳＤＲ用推論部３０２とＨＤＲ用推論部３０３とに入力する。

ＳＤＲ用推論部３０２は、ＳＤＲ用の映像で学習したニューラルネットワークのネットワークパラメータを持ち、そのニューラルネットワークを用いて入力映像に応じた推論を実行する。そして、ＳＤＲ用推論部３０２による推論結果はＳＤＲ放送システム３０４に出力され、当該ＳＤＲ放送システム３０４により放送される。

ＨＤＲ用推論部３０３は、ＨＤＲ用の映像で学習したニューラルネットワークのネットワークパラメータを持ち、そのニューラルネットワークを用いて入力映像に応じた推論を実行する。そして、ＨＤＲ用推論部３０３による推論結果はＨＤＲ放送システム３０５に出力され、当該ＨＤＲ放送システム３０５により放送される。

なお図６の構成例はＳＤＲ用推論部３０２とＨＤＲ用推論部３０３とが分かれているが、処理速度等が仕様等を満足するならば、ＳＤＲ用推論部３０２とＨＤＲ用推論部３０３が１つの推論部に統合されていてもよい。この場合、当該一つの推論部では、ＳＤＲ用の映像で学習されたネットワークパラメータとＨＤＲ用の映像で学習されたネットワークパラメータとを、切り替えて推論を実行する。

前述した第１、第２の実施形態の画像処理システムは、デジタルカメラやデジタルビデオカメラ等の撮像装置だけでなく、工業用カメラ、車載カメラ、医療用カメラ、監視カメラ、カメラ機能を備えたスマートフォンやタブレット端末等にも適用可能である。また、本実施形態に係る画像処理装置１０１は、これらの撮像装置で撮像されて、ストレージ装置等に保存された後に読み出した画像、または通信回線等のネットワークを介してダウンロード等した画像に対して前述した処理を行うことも可能である。

本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読み出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

上述の実施形態は、何れも本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。即ち、本発明は、その技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。

１００：画像処理システム、１０１：画像処理装置、１０２：画像入出力部、１０３：学習部、１０４：推論部、１０５：記憶部、１１１：撮像装置、１２１：ストレージ装置、１３１：表示装置

Claims

訓練画像と正解画像を取得する画像取得手段と、
前記訓練画像をニューラルネットワークへ入力して出力画像を生成する生成手段と、
前記正解画像と前記出力画像のそれぞれに色域処理と輝度処理を実行し、その処理後の前記正解画像と前記出力画像との誤差を取得する誤差取得手段と、
前記取得された前記誤差に基づいて、前記ニューラルネットワークのパラメータを更新する更新手段と、
を有することを特徴とする画像処理装置。
訓練画像と正解画像を取得する画像取得手段と、
前記訓練画像と前記正解画像のそれぞれに色域処理と輝度処理を実行する実行手段と、
前記実行手段による処理後の前記訓練画像をニューラルネットワークへ入力して出力画像を生成する生成手段と、
前記正解画像と前記出力画像との誤差を取得する誤差取得手段と、
前記取得された前記誤差に基づいて、前記ニューラルネットワークのパラメータを更新する更新手段と、
を有することを特徴とする画像処理装置。
前記色域処理と輝度処理は画像のダイナミックレンジを拡張する際に行われる処理であることを特徴とする請求項１または請求項２に記載の画像処理装置。
前記訓練画像と前記正解画像のそれぞれの信号値が取り得る上限値を取得する上限値取得手段と、
前記取得した上限値に基づいて、前記訓練画像と前記正解画像のそれぞれの前記信号値を規格化する規格化手段と、
を更に有することを特徴とする請求項１から請求項３のいずれか１項に記載の画像処理装置。
前記色域処理と輝度処理に関する情報と、前記更新手段にて前記更新された前記パラメータとを、記憶する記憶手段を、更に有することを特徴とする請求項１から請求項４のいずれか１項に記載の画像処理装置。
前記取得手段は、ノイズを含まない画像である前記正解画像と、前記正解画像にノイズが含まれた画像である前記訓練画像とを取得し、
前記生成手段は、前記訓練画像よりもノイズが低減された前記出力画像を生成することを特徴とする請求項１から請求項５のいずれか１項に記載の画像処理装置。
前記取得手段は、前記正解画像と、前記正解画像の解像度を下げた画像である前記訓練画像とを取得し、
前記生成手段は、前記訓練画像よりも解像度が高い前記出力画像を生成することを特徴とする請求項１から請求項５のいずれか１項に記載の画像処理装置。
前記取得手段は、前記正解画像と、前記正解画像にボケまたはブレを付与した画像である前記訓練画像とを取得し、
前記生成手段は、前記訓練画像よりも前記ボケまたはブレが低減された前記出力画像を生成することを特徴とする請求項１から請求項５のいずれか１項に記載の画像処理装置。
前記取得手段は、ホワイトバランスが適切に設定されて撮像された画像である前記正解画像と、ホワイトバランスが適切でない設定で前記撮像がなされた画像である前記訓練画像とを取得し、
前記生成手段は、前記訓練画像よりもホワイトバランスが適切な前記出力画像を生成することを特徴とする請求項１から請求項５のいずれか１項に記載の画像処理装置。
前記取得手段は、適切な色補正を行った画像である前記正解画像と、前記色補正が適切でない画像である前記訓練画像とを取得し、
前記生成手段は、前記訓練画像よりも色補正が適切な前記出力画像を生成することを特徴とする請求項１から請求項５のいずれか１項に記載の画像処理装置。
前記取得手段は、前記正解画像と、前記正解画像から画素を欠損させた画像である前記訓練画像とを取得し、
前記生成手段は、前記訓練画像よりも画素の欠損が少ない前記出力画像を生成することを特徴とする請求項１から請求項５のいずれか１項に記載の画像処理装置。
前記取得手段は、画素毎に複数の色を有する画像である前記正解画像と、画素毎に一つの色が配列された画像である前記訓練画像とを取得し、
前記生成手段は、前記訓練画像をデモザイキングした前記出力画像を生成することを特徴とする請求項１から請求項５のいずれか１項に記載の画像処理装置。
前記取得手段は、前記正解画像と、前記正解画像から色成分を減らした画像である前記訓練画像とを取得し、
前記生成手段は、前記訓練画像から、推定した色成分を含む前記出力画像を生成することを特徴とする請求項１から請求項５のいずれか１項に記載の画像処理装置。
前記取得手段は、前記正解画像と、前記正解画像にヘイズ成分を付与した画像である前記訓練画像とを取得し、
前記生成手段は、前記訓練画像にディヘイズを行った前記出力画像を生成することを特徴とする請求項１から請求項５のいずれか１項に記載の画像処理装置。
画像処理装置が実行する画像処理方法であって、
訓練画像と正解画像を取得する画像取得工程と、
前記訓練画像をニューラルネットワークへ入力して出力画像を生成する生成工程と、
前記正解画像と前記出力画像のそれぞれに色域処理と輝度処理を実行し、その処理後の前記正解画像と前記出力画像との誤差を取得する誤差取得工程と、
前記取得された前記誤差に基づいて、前記ニューラルネットワークのパラメータを更新する更新工程と、
を有することを特徴とする画像処理方法。
画像処理装置が実行する画像処理方法であって、
訓練画像と正解画像を取得する画像取得工程と、
前記訓練画像と前記正解画像のそれぞれに色域処理と輝度処理を実行する実行工程と、
前記実行工程による処理後の前記訓練画像をニューラルネットワークへ入力して出力画像を生成する生成工程と、
前記正解画像と前記出力画像との誤差を取得する誤差取得工程と、
前記取得された前記誤差に基づいて、前記ニューラルネットワークのパラメータを更新する更新工程と、
を有することを特徴とする画像処理方法。
コンピュータを、請求項１から請求項１４のいずれか１項に記載の画像処理装置の各手段として機能させるためのプログラム。