JP7451443B2

JP7451443B2 - 画像処理方法および装置、機械学習モデルの訓練方法および装置、並びにプログラム

Info

Publication number: JP7451443B2
Application number: JP2021018697A
Authority: JP
Inventors: 法人日浅
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2021-02-09
Filing date: 2021-02-09
Publication date: 2024-03-18
Anticipated expiration: 2041-02-09
Also published as: US20220254139A1; CN114943648A; EP4047548A1; JP2022121797A

Description

本発明は、ぼけの発生した画像に対して、機械学習モデルを用いた認識または回帰のタスクを実行する画像処理方法に関する。

非特許文献１には、機械学習モデルの１つである畳み込みニューラルネットワーク（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）を用いて、撮像画像のぼけを先鋭化する方法が開示されている。撮像画像の輝度飽和値以上の信号値を有する画像をぼかすことで訓練データセットを生成し、訓練データセットでＣＮＮを訓練することで、輝度飽和領域の周辺でも弊害を抑制して、ぼけ先鋭化を行うことができる。

ＬｉＸｕ，ｅｔａｌ．，ＤｅｅｐＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｆｏｒＩｍａｇｅＤｅｃｏｎｖｏｌｕｔｉｏｎ，ＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ２７，ＮＩＰＳ２０１４

しかし、非特許文献１に開示された方法では、輝度飽和と無関係な位置の被写体にアーティファクト（偽構造）が発生する可能性がある。アーティファクトとは、具体的には、実際の被写体の構造とは異なる局所的な信号値の減少または増大である。なお、アーティファクトとその発生理由の詳細については後述する。ぼけ先鋭化以外のぼけが発生した画像に対するタスクにおいても、同様に輝度飽和の影響によってタスクの精度が低下する。

そこで本発明は、ぼけの発生した画像に対する機械学習を用いた認識または回帰のタスクにおいて、輝度飽和によるタスクの精度低下を抑制することが可能な画像処理方法などを提供することを目的とする。

本発明の一側面としての画像処理方法は、撮像により得られた撮像画像を取得する工程と、機械学習モデルを用いて、前記撮像画像に基づき第１のマップを生成し、該撮像画像及び該第１のマップに基づきモデル出力を生成する工程とを有し、前記第１のマップは、前記撮像画像の輝度飽和領域における被写体が前記撮像において発生したぼけによって広がった領域と、該領域における信号値とを表す情報である。

本発明の他の目的及び特徴は、以下の実施例において説明される。

本発明によれば、ぼけの発生した画像に対する機械学習を用いた認識または回帰のタスクにおいて、輝度飽和によるタスクの精度低下を抑制することが可能な画像処理方法などを提供することができる。

実施例１における機械学習モデルの構成図である。実施例１乃至３における被写体と撮像画像との関係、および第１のマップの説明図である。実施例１における画像処理システムのブロック図である。実施例１における画像処理システムの外観図である。実施例１におけるアーティファクトの説明図である。実施例１乃至３における機械学習モデルの訓練のフローチャートである。実施例１、２におけるモデル出力の生成のフローチャートである。実施例２における画像処理システムのブロック図である。実施例２における画像処理システムの外観図である。実施例２における機械学習モデルの構成図である。実施例３における画像処理システムのブロック図である。実施例３における画像処理システムの外観図である。実施例３における機械学習モデルの構成図である。実施例３におけるモデル出力の生成のフローチャートである。

以下、本発明の実施例について、図面を参照しながら詳細に説明する。各図において、同一の部材については同一の参照符号を付し、重複する説明は省略する。

各実施例を詳述する前に、本発明の課題に関して説明する。画像に対する認識または回帰のタスクにおいて、理論ベースの手法では、仮定や近似によって無視された要素（モデル化された要素）によって精度が低下し得る。これに対して、機械学習モデルを用いた手法では、それらの要素も含む訓練データを用いて機械学習モデルを訓練することで、仮定や近似のない訓練データに即した推定が実現できるため、タスクの精度が向上する。すなわち、画像に対する認識または回帰のタスクにおいて、機械学習モデルを用いた手法は理論ベースの手法に対して高い精度を実現できる。

例えば、ぼけの発生した撮像画像のぼけを先鋭化する技術では、前記要素として撮像画像の輝度飽和（白飛びとも呼ばれる）が挙げられる。Ｗｉｅｎｅｒフィルタなどの理論ベースの手法では、輝度飽和はないと仮定されているため、輝度飽和領域の周辺でぼけが正しく先鋭化されず、リンギングなどの弊害が発生する。これに対して、機械学習による手法は非特許文献１のように、輝度飽和が存在してもぼけを補正することができることが知られている。ただし、非特許文献１の手法では補正後の画像にアーティファクトが生じてしまい、十分な精度が得られない場合があった。

このように本発明の課題は、ぼけの発生した撮像画像に対して機械学習モデルで認識または回帰のタスクを行った際、輝度飽和に起因して発生するタスクの精度が低下することである。ここで、ぼけとは、撮像画像の撮像に用いた光学系の収差、回折、デフォーカスいずれかによるぼけ、光学ローパスフィルタによるぼけ、撮像素子の画素開口によるぼけ、撮像時の手ぶれまたは被写体ぶれによるぼけ等のいずれか、または複数の組み合わせを指す。また、認識タスクとは、入力された画像に対応するクラスを求めるタスクである。例えば、画像中の被写体を人、犬、車などに分類するタスクや、顔画像から笑顔、泣き顔などの表情に分類するタスクなど、被写体の性質や意味を認識するタスクが挙げられる。クラスは一般に離散変数である。また、クラスはスカラー値である認識ラベル、またはセグメンテーションマップなどの認識ラベルが空間的に配列された信号列である。これに対して回帰は、入力された画像に対応する連続変数が空間的に配列された信号列を求めるタスクである。例えば、ぼけの発生した画像からぼけの先鋭化された画像を推定するタスクや、画像から被写体空間のデプスマップを推定するタスクなどが挙げられる。

図２（Ａ）を参照して、ぼけの発生した撮像画像における、輝度飽和の周辺とそれ以外の領域における性質の差異に関して説明する。図２（Ａ）は、被写体と撮像画像の輝度分布の関係を示す図である。図２（Ａ）において、横軸は空間座標、縦軸は輝度をそれぞれ示す。実線がぼけのない場合の撮像画像、破線がぼけの発生した実際の撮像画像である。一点鎖線は、輝度飽和でクリップされる前の輝度分布を表している。被写体２５１は撮像過程でぼけても、輝度飽和値以下の輝度しか有さない。そのため、輝度飽和値によるクリップは発生せず、非飽和ぼけ像２６１となる。これに対し、被写体２５２は撮像過程でぼけた結果、輝度飽和値以上の輝度を有するため、輝度飽和値によるクリップが発生し、飽和ぼけ像２６２となる。非飽和ぼけ像２６１は、ぼけによって被写体の情報が減衰する。これに対し、飽和ぼけ像２６２は、ぼけだけでなく輝度飽和による信号値のクリップでも被写体の情報が減衰する。故に、輝度飽和の有無によって、被写体情報の減衰の仕方が異なる。これが輝度飽和の周辺とそれ以外の領域で、性質が異なる１つ目の要因である。

次に、性質が異なる２つ目の要因に関して説明する。それは、輝度飽和領域の端において、信号値のクリップにより被写体には本来存在しない偽エッジが発生することである。飽和ぼけ像２６２は本来、輝度飽和値以上の領域において一点鎖線で表される輝度分布となるため滑らかな分布をしているが、輝度飽和値のクリップによって不連続なエッジが形成される。

さらに撮像画像は、輝度飽和領域にある被写体２５２から、ぼけによってその周辺に信号値が漏れ出している。この漏れ出した信号値の大きさと範囲は、輝度飽和領域にある被写体２５２の輝度が大きいほど大きくなるが、輝度飽和によって信号値がクリップされているため、漏れ出した信号値の大きさと範囲は容易には分からない。故に、性質が異なる３つ目の要素は、輝度飽和領域の周辺において、被写体の信号値とぼけによって漏れ出してきた信号値を（仮にぼけの形状が既知だとしても）分離できないことである。

これら３つの要素（要因）によって、輝度飽和領域の周辺とそれ以外の領域では性質が異なるため、それぞれに対して異なる処理を実行しなければ、高精度なタスクは実現できない。

機械学習モデルは、入力された画像に対して画一的な効果の処理でなく、画像の特徴に応じて効果の異なる処理を実行することができる。そのため、例えば撮像画像のぼけを先鋭化する例を考えた場合、機械学習モデルは、注目した領域が輝度飽和を含むぼけ像（飽和ぼけ像）か、それ以外のぼけ像（非飽和ぼけ像）かを内部で判定し、異なる先鋭化処理を実行する。これによって、どちらのぼけ像も先鋭化することができる。しかし、機械学習モデルの判定が正しく行われない場合がある。例えば、図２（Ａ）の飽和ぼけ像２６２において、輝度飽和領域の近傍が注目領域だった場合、機械学習モデルは、注目領域の近傍に輝度飽和領域があるため、注目領域が輝度飽和の影響を受けた領域と判定可能である。しかし、輝度飽和領域から離れた位置２７１が注目領域の場合、位置２７１が輝度飽和の影響を受けているか否かを判定することは容易でなく、曖昧性が高くなる。その結果、輝度飽和領域から離れた位置では、機械学習モデルが誤判定を起こすことがある。これによって、タスクがぼけの先鋭化の場合、非飽和ぼけ像に対して、飽和ぼけ像に対応する先鋭化処理を実行する。この際、ぼけを先鋭化した画像にアーティファクトが発生し、タスクの精度が低下する。このアーティファクトに関しては、実施例１で詳細に説明する。

ぼけの先鋭化以外のタスクに関しても同様で、機械学習モデルが輝度飽和の影響を受けている領域と、それ以外の領域を誤判定することで、タスクの精度が低下する。例えば、認識タスクでは、非飽和ぼけ像を飽和ぼけ像と誤判定すると、ぼけ像に輝度飽和領域からぼけによって漏れ出した信号値が加算されていると状態であると判定するため、実際の非飽和ぼけ像とは異なる特徴量を抽出し、タスクの精度が低下する。

次に、この課題を解決する本発明の要旨に関して説明する。本発明では、機械学習モデルを用いて、ぼけが発生した撮像画像から第１のマップを生成する。第１のマップは、撮像画像の輝度飽和領域の被写体が、撮像画像の撮像過程で発生したぼけによって広がった領域の信号値の大きさと範囲を表すマップ（空間的に配列された信号列）である。換言すると、第１のマップは、撮像画像の輝度飽和領域を含む高輝度領域の輝度値の拡がりを表すマップである（輝度飽和するほどに高輝度な被写体が撮像過程で生じたぼけにより広がった分布表すマップである）。

例として、図２（Ａ）の撮像画像に対する第１のマップを図２（Ｂ）に破線で示す。機械学習モデルに第１のマップを明示的に生成させることで、機械学習モデルは、撮像画像中の輝度飽和の影響の有無とその大きさを高精度に推定することができる。第１のマップが生成されることで、機械学習モデルは、輝度飽和の影響を受けた領域に実行すべき処理と、それ以外の領域に実行すべき処理を、それぞれ適切な領域に実行することができる。そのため、機械学習モデルに第１のマップを生成させることで、第１のマップの生成を介さない（撮像画像から直接、認識ラベルやぼけ先鋭化画像のみを生成する）場合に対して、タスクの精度が向上する。

なお以下では、訓練データセットに基づいて機械学習モデルのウエイトを決定する段階のことを訓練と呼び、訓練済みのウエイトを用いた機械学習モデルで撮像画像から認識または回帰のタスクを実行する段階のことを推定と呼ぶ。機械学習モデルは、例えば、ニューラルネットワーク、遺伝的プログラミング、ベイジアンネットワークなどを含む。ニューラルネットワークは、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）、ＧＡＮ（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）、ＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）などを含む。

まず、本発明の実施例１における画像処理システムに関して説明する。本実施例では、機械学習モデルによるタスクを、輝度飽和を含む撮像画像に対するぼけの先鋭化とする。また、先鋭化するぼけは、光学系で発生する収差や回折、光学ローパスフィルタによるぼけを対象とする。ただし、画素開口やデフォーカス、ぶれによるぼけを先鋭化する場合も、同様に発明の効果を得ることができる。また、ぼけ先鋭化以外のタスクに関しても、同様に発明を実施し、効果を得ることが可能である。

図３は、本実施例における画像処理システム１００のブロック図である。図４は、画像処理システム１００の外観図である。画像処理システム１００は、有線または無線のネットワークで接続された訓練装置１０１と画像処理装置１０３とを有する。訓練装置１０１は、記憶部１０１ａ、取得部１０１ｂ、演算部１０１ｃ、および更新部１０１ｄを有する。画像処理装置１０３は、記憶部１０３ａ、取得部１０３ｂ、および先鋭化部１０３ｃを有する。画像処理装置１０３には、有線または無線によって、撮像装置１０２、表示装置１０４、記録媒体１０５、および出力装置１０６が接続される。

撮像装置１０２を用いて被写体空間を撮像した撮像画像は、画像処理装置１０３に入力される。撮像画像には、撮像装置１０２内の光学系１０２ａによる収差および回折と、撮像素子１０２ｂの光学ローパスフィルタとにより、ぼけが発生しており、被写体の情報が減衰している。画像処理装置１０３は、機械学習モデルを用いて、撮像画像に対してぼけ先鋭化を行い、第１のマップとぼけ先鋭化画像（モデル出力）を生成する。機械学習モデルは、訓練装置１０１で訓練されたものである。画像処理装置１０３は、機械学習モデルに関する情報を予め訓練装置１０１から取得し、記憶部１０３ａに記憶している。また画像処理装置１０３は、ぼけ先鋭化の強度を調整する機能を有する。なお、機械学習モデルの訓練と推定、およびぼけ先鋭化の強度調整の詳細に関しては、後述する。

ユーザは、表示装置１０４に表示された画像を確認しながら、ぼけ先鋭化の強度調整を行うことができる。強度調整が施されたぼけ先鋭化画像は、記憶部１０３ａまたは記録媒体１０５に保存され、必要に応じてプリンタなどの出力装置１０６に出力される。なお、撮像画像は、グレースケールでも、複数の色成分を有していてもよい。また、未現像のＲＡＷ画像でも、現像後の画像でもよい。

次に、図５（Ａ）乃至（Ｃ）を参照して、機械学習モデルによって、ぼけ先鋭化を行う際に発生するアーティファクトに関して説明する。アーティファクトとは、実際の被写体の構造とは異なる局所的な信号値の減少、または増大である。図５（Ａ）乃至（Ｃ）は、アーティファクトの説明図であり、横軸は空間座標、縦軸は信号値をそれぞれ示す。図５（Ａ）乃至（Ｃ）は、画像の信号値の空間変化を示し、Ｒ、Ｇ、Ｂ（Ｒｅｄ、Ｇｒｅｅｎ、Ｂｌｕｅ）の色成分にそれぞれ対応する。ここで、画像は８ｂｉｔに現像された画像であるため、飽和値は２５５である。

図５（Ａ）乃至（Ｃ）において、一点鎖線は撮像画像（ぼけ画像）、細い実線はぼけのない正解画像をそれぞれ示す。いずれの画素も輝度飽和値に達していないため、輝度飽和の影響はない。点線は、本実施例を適用しない従来の機械学習モデルを用いて、撮像画像のぼけを先鋭化したぼけ先鋭化画像である。点線で表されるぼけ先鋭化画像では、エッジのぼけが先鋭化されているが、中央付近に正解画像にはない信号値の減少が発生している。この減少は、エッジと隣接せず、離れた位置で発生しており、さらに発生領域が広いことから、アンダーシュートとは異なる弊害である。これが、ぼけ先鋭化の際に発生するアーティファクトである。

また、図５（Ａ）乃至（Ｃ）の比較から分かるように、色成分によって信号値の減少の度合いが異なる。図５（Ａ）乃至（Ｃ）では、Ｇ、Ｒ、Ｂの順に、信号値の減少の度合いが大きくなっている。これは、未現像のＲＡＷ画像でも同様の傾向を示す。そのため、正解画像では平坦部にもかかわらず、点線で表される従来のぼけ先鋭化画像では緑に色づいた暗い領域がアーティファクトとして発生する。なお、図５（Ａ）乃至（Ｃ）では正解画像よりも信号値が減少する例を示しているが、逆に信号値が増大する場合もある。

このアーティファクトが発生する原因は、前述したように、機械学習モデルが輝度飽和の影響を受けた領域とそれ以外の領域を誤判定し、飽和ぼけ像にかけるべきぼけ先鋭化を、非飽和ぼけ像に対して誤って実行したためである。図２（Ａ）から分かるように、被写体の輝度が大きいほど、ぼけ先鋭化の残差成分（撮像画像とぼけのない撮像画像の差）の絶対値は大きくなる。そのため、飽和ぼけ像にかけるべきぼけ先鋭化を、非飽和ぼけ像に対して実行すると過剰に信号値を変化させることになる。その結果、図５（Ａ）乃至（Ｃ）の点線のように、正解画像（実線）より信号値が小さくなった領域が発生する。

また、一般的に、可視光を対象とした光学系は、ＲＧＢのうちＧの性能が最も良くなるように設計されていることが多い。すなわち、ＲやＢの方がＧよりぼけ（ＰＳＦ：点像強度分布）の広がりが大きいため、高輝度な被写体を撮像した飽和ぼけ像の端はＲやＢに色付きやすい（パープルフリンジがこれに該当する）。この飽和ぼけ像を補正する場合、ＧよりＲやＢにおけるぼけ先鋭化の残差成分が大きくなる。故に、非飽和ぼけ像を飽和ぼけ像と誤判定した場合、ＧよりＲやＢの信号値の減少が大きくなり、図５（Ａ）乃至（Ｃ）に示されるように、緑に色付いた暗い領域としてアーティファクトが発生する。

これに対して、図５（Ａ）乃至（Ｃ）中に示される破線は、本実施例の第１のマップを推定する機械学習モデルを用いて、ぼけの先鋭化を行った結果である。アーティファクトの発生を抑制して、ぼけが先鋭化されていることが分かる。これは、機械学習モデルに第１のマップを明示的に推定させることによって、機械学習モデルが輝度飽和の影響を受けた領域とそれ以外の領域を誤判定しにくくなるためである。図５（Ａ）乃至（Ｃ）から、本実施例によって、タスクの精度低下が抑制されていることが分かる。

次に、図６を参照して、訓練装置１０１で実行される機械学習モデルの訓練に関して説明する。図６は、機械学習モデルの訓練のフローチャートである。図６の各ステップは、訓練装置１０１の記憶部１０１ａ、取得部１０１ｂ、演算部１０１ｃ、または更新部１０１ｄにより実行される。

まずステップＳ１０１において、取得部（取得手段）１０１ｂは、記憶部１０１ａから１枚以上の原画像を取得する。原画像は、第２の信号値よりも高い信号値を有する画像である。ここで第２の信号値は、撮像画像の輝度飽和値に相当する信号値である。ただし、機械学習モデルに入力する際、信号値を規格化してもよいため、第２の信号値と撮像画像の輝度飽和値とが一致してなくてもよい。原画像を基にして機械学習モデルの訓練を行うため、原画像は様々な周波数成分（異なる向きと強度のエッジ、グラデーション、平坦部など）を有する画像であることが望ましい。原画像は実写画像でもよいし、ＣＧ（ＣｏｍｐｕｔｅｒＧｒａｐｈｉｃｓ）でもよい。

続いてステップＳ１０２において、演算部（ぼけ生成手段）１０１ｃは、原画像にぼけを付与し、ぼけ画像を生成する。ぼけ画像は、訓練時に機械学習モデルに入力される画像であり、推定時の撮像画像に相当する。付与するぼけは、先鋭化の対象となるぼけである。本実施例では、光学系１０２ａの収差と回折、および撮像素子１０２ｂの光学ローパスフィルタによって発生するぼけを付与する。光学系１０２ａの収差と回折によるぼけの形状は、像面座標（像高とアジムス）によって変化する。また、光学系１０２ａの変倍、絞り、フォーカスの状態によっても変化する。これらのぼけ全てを先鋭化する機械学習モデルを一括で訓練したい場合、光学系１０２ａで発生する複数のぼけを用いて、複数のぼけ画像を生成するとよい。また、ぼけ画像において、第２の信号値を超える信号値はクリップされる。これは、撮像画像の撮像過程で起きる輝度飽和を再現するために行う。必要に応じて、撮像素子１０２ｂで発生するノイズをぼけ画像に付与してもよい。

続いてステップＳ１０３において、演算部（設定手段）１０１ｃは、原画像に基づく画像と信号値の閾値とに基づいて、第１の領域を設定する。本実施例では、原画像に基づく画像として、ぼけ画像を用いるが、原画像そのものなどを用いてもよい。ぼけ画像の信号値と、信号値の閾値と、を比較することで、第１の領域を設定する。より具体的には、ぼけ画像の信号値が、信号値の閾値以上となっている領域を第１の領域とする。本実施例において、信号値の閾値は第２の信号値である。故に、第１の領域は、ぼけ画像の輝度飽和領域を表す。ただし、信号値の閾値と第２の信号値とは一致していなくてもよい。信号値の閾値を、第２の信号値よりやや小さい値（例えば、０．９倍）に設定してもよい。

続いてステップＳ１０４において、演算部（画像生成手段）１０１ｃは、第１の領域に原画像の信号値を有する第１の画像を生成する。第１の画像は、第１の領域以外の領域において、原画像とは異なる信号値を有する。さらに望ましくは、第１の画像は、第１の領域以外の領域において、第１の信号値を有する。本実施例において、第１の信号値は０であるが、これに限定されるものではない。すなわち本実施例において、第１の画像は、ぼけ画像が輝度飽和領域のみに原画像の信号値を有し、それ以外の領域の信号値は０である。

続いてステップＳ１０５において、演算部（マップ生成手段）１０１ｃは、第１の画像にぼけを付与し、第１の正解マップを生成する。付与されるぼけは、ぼけ画像に付与したぼけと同じである。これにより、ぼけ画像の輝度飽和領域にある被写体から、ぼけによって周辺に漏れ出した信号値の大きさと範囲を表すマップ（空間的に配列された信号列）である第１の正解マップが生成される。本実施例では、ぼけ画像と同様に、第１の正解マップを第２の信号値でクリップするが、クリップを行わなくてもよい。

続いてステップＳ１０６において、取得部１０１ｂは、正解モデル出力を取得する。本実施例ではタスクがぼけ先鋭化のため、正解モデル出力はぼけ画像よりぼけの小さい画像である。本実施例では、原画像を第２の信号値でクリップすることで、正解モデル出力を生成する。原画像に高周波成分が不足している場合、原画像を縮小した画像を正解モデル出力としてもよい。この場合、ステップＳ１０２にてぼけ画像を生成する際にも同様に縮小を行う。また、ステップＳ１０６は、ステップＳ１０１よりも後であって、かつステップＳ１０７より前であれば、いつ実行してもよい。

続いてステップＳ１０７において、演算部１０１ｃは、機械学習モデルを用いて、ぼけ画像に基づき、第１のマップとモデル出力を生成する。図１は、機械学習モデルの構成図である。本実施例では、図１に示される機械学習モデルを使用するが、これに限定されるものではない。図１において、ぼけ画像２０１と輝度飽和マップ２０２が、機械学習モデルに入力される。輝度飽和マップ２０２は、ぼけ画像２０１の輝度飽和した（信号値が第２の信号値以上である）領域を示すマップ（第２のマップ）である。例えば、第２の信号値で、ぼけ画像２０１を二値化することにより生成することができる。ただし、輝度飽和マップ２０２を用いなくてもよい。ぼけ画像２０１と輝度飽和マップ２０２は、チャンネル方向に連結されて、機械学習モデルに入力される。ただし、本実施例はこれに限定されるものではない。例えば、ぼけ画像２０１と輝度飽和マップ２０２をそれぞれ特徴マップに変換し、それらの特徴マップをチャンネル方向に連結してもよい。また、輝度飽和マップ２０２以外の情報を入力に追加してもよい。

機械学習モデルは複数の層を有し、各層で層の入力とウエイトの線型和が取られる。ウエイトの初期値は、乱数などで決定することができる。本実施例は、線型和として入力とフィルタの畳み込み（フィルタの各要素の値がウエイトに該当し、またバイアスとの和を含んでいてもよい）を用いるＣＮＮを機械学習モデルとして用いるが、これに限定されるものではない。また、各層では必要に応じて、ＲｅＬＵ（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）やシグモイド関数などの活性化関数による非線型変換が実行される。さらに、機械学習モデルは必要に応じて、残差ブロックやＳｋｉｐＣｏｎｎｅｃｔｉｏｎ（ＳｈｏｒｔｃｕｔＣｏｎｎｅｃｔｉｏｎともいう）を有していてもよい。複数の層（本実施例では畳み込み層１６層）を介した結果、第１のマップ２０３が生成される。本実施例では、層２１１の出力と輝度飽和マップ２０２の要素毎の和を取ることで第１のマップ２０３とするが、構成はこれに限定されるものではない。第１のマップが直接、層２１１の出力として生成されてもよい。或いは、層２１１の出力に対して任意の処理を施した結果を第１のマップ２０３としてもよい。

次に、第１のマップ２０３とぼけ画像２０１をチャンネル方向に連結して後続の層に入力し、複数の層（本実施例では畳み込み層１６層）を介した結果、モデル出力２０４を生成する。モデル出力２０４も、層２１２の出力とぼけ画像２０１の要素ごとの和を取ることで生成されるが、これに限定されるものではない。なお本実施例では、各層で３×３のフィルタ６４種類（ただし、層２１１と層２１２は、フィルタ種類の数がぼけ画像２０１のチャンネル数と同数）との畳み込みを実行するが、これに限定されるものではない。

続いて、図６のステップＳ１０８において、更新部（訓練手段）１０１ｄは、誤差関数に基づいて、機械学習モデルのウエイトを更新する。本実施例において、誤差関数は、第１のマップ２０３と第１の正解マップとの誤差と、モデル出力２０４と正解モデル出力との誤差と、の重み付き和である。誤差の算出には、ＭＳＥ（ＭｅａｎＳｑｕａｒｅｄＥｒｒｏｒ）を使用する。重みは両者１とする。ただし、誤差関数と重みはこれに限定されるものではない。ウエイトの更新には、誤差逆伝搬法（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）などを用いることができる。また、誤差は残差成分に対してとってもよい。残差成分の場合、第１のマップ２０３と輝度飽和マップ２０２との差分成分と、第１の正解マップと輝度飽和マップ２０２との差分成分と、の誤差を用いる。同様に、モデル出力２０４とぼけ画像２０１との差分成分と、正解モデル出力とぼけ画像２０１との差分成分と、の誤差を用いる。

続いてステップＳ１０９において、更新部１０１ｄは、機械学習モデルの訓練が完了したか否かを判定する。訓練の完了は、ウエイトの更新の反復回数が既定の回数に達したかや、更新時のウエイトの変化量が既定値より小さいかなどによって、判定することができる。ステップＳ１０９にて訓練が完了していないと判定された場合、ステップＳ１０１へ戻り、取得部１０１ｂは１枚以上の新たな原画像を取得する。一方、訓練が完了したと判定された場合、更新部１０１ｄは訓練を終了し、機械学習モデルの構成とウエイトの情報を記憶部１０１ａに記憶する。

以上の訓練方法によって、機械学習モデルは、ぼけ画像（推定時には撮像画像）の輝度飽和領域の被写体がぼけによって広がった信号値の大きさと範囲を表す第１のマップを推定することができる。第１のマップを明示的に推定することで、機械学習モデルは、飽和ぼけ像と非飽和ぼけ像それぞれに対するぼけの先鋭化を、適切な領域に実行できるようになるため、アーティファクトの発生が抑制される。

次に、図７を参照して、画像処理装置１０３で実行される、訓練済みの機械学習モデルを用いた撮像画像のぼけ先鋭化に関して説明する。図７は、モデル出力の生成のフローチャートである。図７の各ステップは、画像処理装置１０３の記憶部１０３ａ、取得部１０３ｂ、または先鋭化部１０３ｃにより実行される。

まずステップＳ２０１において、取得部（取得手段）１０３ｂは、撮像画像と機械学習モデルを取得する。機械学習モデルの構成とウエイトの情報は、記憶部１０３ａから取得される。

続いてステップＳ２０２において、先鋭化部（生成手段）１０３ｃは、機械学習モデルを用いて、撮像画像から、第１のマップと、撮像画像のぼけが先鋭化されたぼけ先鋭化画像（モデル出力）とを生成する。機械学習モデルは、訓練時と同様に、図１に示される構成を有する。訓練時と同様に、撮像画像の輝度飽和領域を表す輝度飽和マップを生成して入力し、第１のマップとモデル出力を生成する。

続いてステップＳ２０３において、先鋭化部１０３ｃは、第１のマップに基づいて、撮像画像とモデル出力を合成する。撮像画像の輝度飽和領域の周辺は、それ以外の領域に対して、輝度飽和による被写体の情報の減衰があるため、ぼけの先鋭化（減衰した被写体情報の推定）の難度が高い。そのため、輝度飽和領域の周辺は、ぼけの先鋭化に伴う弊害（リンギングやアンダーシュートなど）が発生しやすい。この弊害を抑制するために、モデル出力と撮像画像とを合成する。この際、第１のマップに基づいて合成することにより、非飽和ぼけ像のぼけ先鋭化効果の低下を抑制しつつ、弊害が出やすい輝度飽和領域の周辺のみ撮像画像の重みを強くすることができる。本実施例では、以下の方法で合成を行う。第１のマップを第２の信号値で規格化し、これを撮像画像の重みマップとして、モデル出力と加重平均する。この際、モデル出力に対しては、全て１のマップから撮像画像の重みマップを減算した重みマップを使用する。第１のマップを規格化する信号値を変化させることで、ぼけ先鋭化効果と弊害のバランスを調整することも可能である。また他に、第１のマップが既定の信号値以上の値を有する領域のみ、モデル出力を撮像画像に置換する合成方法などを用いてもよい。

以上の構成により、機械学習モデルを用いたぼけ先鋭化において、輝度飽和による精度低下を抑制することが可能な画像処理システムを提供することができる。

次に、本発明の実施例２における画像処理システムに関して説明する。本実施例では、機械学習モデルによるタスクを、輝度飽和を含む撮像画像に対するぼけ味の変換とする。ぼけ味の変換とは、撮像画像に作用しているデフォーカスによるぼけを、該ぼけとは異なる形状のぼけに変換するタスクである。例えば、デフォーカスぼけに二線ぼけやヴィネッティングが発生している際に、これを円形のディスク（強度がフラットな形状）やガウシアンで表されるぼけに変換する。ぼけ味の変換では、デフォーカスのぼけをより大きくし、ぼけの先鋭化（減衰した被写体情報の推定）は行わない。本実施例に記載の方法は、ぼけ味の変換以外のタスクに関しても、同様に効果を得ることが可能である。

図８は、本実施例における画像処理システム３００のブロック図である。図９は、画像処理システム３００の外観図である。画像処理システム３００は、訓練装置３０１、撮像装置３０２、および画像処理装置３０３を有する。訓練装置３０１と画像処理装置３０３、画像処理装置３０３と撮像装置３０２はそれぞれ、有線または無線のネットワークで接続される。訓練装置３０１は、記憶部３１１、取得部３１２、演算部３１３、および更新部３１４を有する。撮像装置３０２は、光学系３２１、撮像素子３２２、記憶部３２３、通信部３２４、および表示部３２５を有する。画像処理装置３０３は、記憶部３３１、通信部３３２、取得部３３３、および変換部３３４を有する。

撮像装置３０２で撮像された撮像画像は、光学系３２１に応じた形状のデフォーカスぼけが作用している。撮像画像は、通信部（送信手段）３２４を介して画像処理装置３０３へ送信される。画像処理装置３０３は、通信部（受信手段）３３２を介して撮像画像を受信し、記憶部３３１に記憶された機械学習モデルの構成とウエイトの情報を用いて、ぼけ味の変換を行う。機械学習モデルの構成とウエイトの情報は、訓練装置３０１によって訓練されたものであり、予め訓練装置３０１から取得され、記憶部３３１に記憶されている。撮像画像のぼけ味が変換されたぼけ味変換画像（モデル出力）は、撮像装置３０２に送信され、記憶部３２３に記憶、表示部３２５に表示される。

次に、図６を参照して、訓練装置３０１で実行される機械学習モデルの訓練に関して説明する。なお、実施例１と同様の箇所の説明は省略する。

まずステップＳ１０１において、取得部３１２は、記憶部３１１から１枚以上の原画像を取得する。続いてステップＳ１０２において、演算部３１３は、原画像に対してデフォーカス量を設定し、デフォーカス量に対応したデフォーカスぼけを原画像に付与したぼけ画像を生成する。デフォーカスぼけは、光学系３２１の変倍と絞りによって、形状が変化する。また、デフォーカスぼけは、光学系３２１のフォーカス距離と、その時の被写体のデフォーカス量と、によっても変化する。さらに、像高とアジムスによっても、デフォーカスぼけは変化する。これらのデフォーカスぼけ全てを変換可能な機械学習モデルを一括で訓練したい場合、光学系３２１で発生する複数のデフォーカスぼけを用いて、複数のぼけ画像を生成するとよい。また、ぼけ味の変換において、デフォーカスしていないフォーカス被写体は、変換前後で不変となることが望ましい。故に、フォーカス被写体は変化させないように機械学習モデルを訓練する必要があるため、デフォーカス量が０の場合のぼけ画像も生成する。デフォーカス量が０のぼけ画像は、ぼけの付与がなくてもよいし、光学系３２１のフォーカス面における収差や回折によるぼけを付与してもよい。

続いてステップＳ１０３において、演算部３１３は、ぼけ画像と信号値の閾値に基づいて、第１の領域を設定する。続いてステップＳ１０４において、演算部３１３は、第１の領域に原画像の信号値を有する第１の画像を生成する。続いてステップＳ１０５において、演算部３１３は、第１の画像にぼけ画像と同じデフォーカスぼけを付与し、第１の正解マップを生成する。続いてステップＳ１０６において、取得部３１２は、正解モデル出力を取得する。本実施例では、デフォーカスぼけがディスクぼけ（円形でフラットな強度分布を有するぼけ）に変換されるように機械学習モデルを訓練する。そのため、原画像に対してディスクぼけを付与して、正解モデル出力を生成する。ただし、付与するぼけの形状はこれに限定されない。ぼけ画像のデフォーカス量に対応した広がりを有するディスクぼけを付与する。付与するディスクぼけは、ぼけ画像の生成で付与したデフォーカスぼけより、ぼけが大きい。言い換えると、ディスクぼけはぼけ画像の生成で付与したデフォーカスぼけより、ＭＴＦ（変調伝達関数）が低い。また、デフォーカス量が０の場合は、ぼけ画像の生成と同様である。

続いてステップＳ１０７において、演算部３１３は、機械学習モデルを用いて、ぼけ画像から第１のマップとモデル出力を生成する。図１０は、本実施例における機械学習モデルの構成図である。本実施例では、図１０に示される構成の機械学習モデルを用いるが、これに限定されるものではない。図１０において、ぼけ画像４０１と、ぼけ画像４０１の輝度飽和領域を示す輝度飽和マップ（第２のマップ）４０２をチャンネル方向に連結して入力し、複数の層（畳み込み層１９層）を介して、第１の特徴マップ４１１を生成する。さらに、第１の特徴マップに基づいて、第１のマップ４０３とモデル出力４０４を生成する。本実施例では、機械学習モデルの途中で層を分岐させ、それぞれに第１の特徴マップ４１１を入力する。第１のマップ４０３は第１の特徴マップ４１１から１層（畳み込み層１層）を介して生成され、モデル出力４０４は複数の層（畳み込み層２０層）を介して生成されるが、各層の数はこれに限定されるものではない。また、層を分岐させず、第１の特徴マップ４１１から、第１のマップ４０３とモデル出力４０４をチャンネル方向に連結した状態で生成してもよい。

図１０の構成では、モデル出力４０４の生成に関して、第１のマップ４０３が直接的には用いられない。しかし、第１のマップ４０３を生成する元となる第１の特徴マップ４１１に、輝度飽和の影響を受けた領域とそれ以外の領域を切り分けられる情報が含まれている。そのため、第１の特徴マップ４１１に基づいて、モデル出力４０４を生成することで、図１の構成と同様の効果を得ることができる。なお本実施例では、各層で３×３のフィルタ３２種類（ただし、層４２１と層４２２は、フィルタ種類の数がぼけ画像４０１のチャンネル数と同数）との畳み込みを実行するが、構成はこれに限定されるものではない。

好ましくは、ぼけ画像４０１から第１のマップ４０３を生成するまでに実行される線型和（本実施例では畳み込み）の回数は、ぼけ画像４０１からモデル出力４０４を生成するまでに実行される線型和の回数以下であるとよい。これは、輝度飽和の影響を受けた領域とそれ以外の領域を切り分けられる情報を有する第１の特徴マップ４１１をモデルの途中で生成し、その後のモデルで所望のタスク（本実施例ではぼけ味変換）を行うことを可能にするためである。本実施例では、ぼけ画像４０１から第１の特徴マップ４１１を生成するまでに実行される線型和の回数は共通で、差異はその後の線型和の回数である。第１のマップ４０３とモデル出力４０４はそれぞれ、第１の特徴マップ４１１から１層と２０層を介して生成されるため、第１のマップ４０３を生成するまでに実行される線型和の回数の方が少ない。これは推定の際も、同様である（ぼけ画像４０１を撮像画像に置き換えることができる）。

続いてステップＳ１０８において、更新部３１４は、誤差関数から機械学習モデルのウエイトを更新する。続いてステップＳ１０９において、更新部３１４は、機械学習モデルの訓練が完了したか否かを判定する。訓練済みの機械学習モデルの構成およびウエイトの情報は、記憶部３１１に記憶される。

次に、図７を参照して、画像処理装置３０３で実行される、訓練済みの機械学習モデルを用いた撮像画像のぼけ味の変換に関して説明する。なお、実施例１と同様の箇所の説明は省略する。

まずステップＳ２０１において、取得部３３３は、撮像画像と機械学習モデルを取得する。続いてステップＳ２０２において、変換部３３４は、機械学習モデルを用いて、撮像画像から、第１のマップと、撮像画像のデフォーカスぼけが異なる形状のぼけに変換されたぼけ味変換画像（モデル出力）とを生成する。機械学習モデルは、訓練時と同様に、図１０に示される構成である。訓練時と同様に、撮像画像の輝度飽和領域を表す輝度飽和マップを生成して入力し、第１のマップとモデル出力を生成する。続いてステップＳ２０３において、変換部３３４は、第１のマップに基づいて、撮像画像とモデル出力を合成する。なお、ステップＳ２０３を実行しない（ステップＳ２０２のモデル出力を最終的なぼけ味変換画像とする）場合、第１のマップは不要である。この場合、図１０中の破線で囲われた部分は実行する必要がない。そのため、破線で囲われた部分の計算を省き、処理の負荷を軽減してもよい。

以上の構成により、機械学習モデルを用いたぼけ味の変換において、輝度飽和による精度低下を抑制することが可能な画像処理システムを提供することができる。

次に、本発明の実施例３における画像処理システムに関して説明する。本実施例では、機械学習モデルによるタスクを、撮像画像に対するデプスマップの推定とする。光学系はデフォーカス量によってぼけの形状が変化するため、ぼけの形状とデプス（デフォーカス量）を対応付けることができる。機械学習モデルは、入力された撮像画像の各領域におけるぼけの形状をモデル内で（陽に又は暗に）推定することで、被写体空間のデプスマップを生成することができる。なお、本実施例に記載の方法は、デプスマップの推定以外のタスクに関しても、同様に効果を得ることが可能である。

図１１は、本実施例における画像処理システム５００のブロック図である。図１２は、画像処理システム５００の外観図である。画像処理システム５００は、有線または無線で接続された訓練装置５０１と撮像装置５０２を有する。訓練装置５０１は、記憶部５１１、取得部５１２、演算部５１３、および更新部５１４を有する。撮像装置５０２は、光学系５２１、撮像素子５２２、画像処理部５２３、記憶部５２４、通信部５２５、表示部５２６、およびシステムコントローラ５２７を有する。画像処理部５２３は、取得部５２３ａ、推定部５２３ｂ、および、ぼかし部５２３ｃを有する。

撮像装置５０２は、光学系５２１を介して被写体空間の像を形成し、該像を撮像素子５２２で撮像画像として取得する。撮像画像には、光学系５２１の収差とデフォーカスによるぼけが発生している。画像処理部５２３は、機械学習モデルを用いて、撮像画像から被写体空間のデプスマップを生成する。機械学習モデルは訓練装置５０１によって訓練されたものであり、その構成とウエイトの情報は、通信部５２５を介して予め訓練装置５０１から取得され、記憶部５２４に記憶されている。撮像画像と推定されたデプスマップは、記憶部５２４に記憶され、必要に応じて表示部５２６に表示される。デプスマップは、撮像画像のぼけ味の付与や被写体の切り出しなどに用いられる。一連の制御は、システムコントローラ５２７によって行われる。

次に、図６を参照して、訓練装置５０１によって実行される機械学習モデルの訓練に関して説明する。なお、実施例１と同様の箇所の説明は省略する。

まずステップＳ１０１において、取得部５１２は、１枚以上の原画像を取得する。続いてステップＳ１０２において、演算部５１３は、原画像にぼけを付与し、ぼけ画像を生成する。原画像に対応するデプスマップ（デフォーカスマップでもよい）と光学系５２１のフォーカス距離を設定し、光学系５２１のフォーカス距離とそこからのデフォーカス量に対応したぼけを付与する。絞り値を固定した場合、デフォーカス量の絶対値が大きいほど、デフォーカスによるぼけは大きくなる。さらに、球面収差の影響によって、フォーカス面の前後でぼけの形状は変化する。球面収差が負方向に出ている場合、被写体空間においてフォーカス面より光学系５２１から離れる方向（物体側）では二線ぼけになり、近づく方向（像側）では中心にピークを有する形状のぼけになる。球面収差が正の場合は、逆の関係になる。また、光軸上以外では非点収差などの影響によって、デフォーカス量に応じてさらにぼけの形状が変化する。

続いてステップＳ１０３において、演算部５１３は、ぼけ画像と信号の閾値に基づいて、第１の領域を設定する。続いてステップＳ１０４において、演算部５１３は、第１の領域に原画像の信号値を有する第１の画像を生成する。続いてステップＳ１０５において、演算部５１３は、第１の画像にぼけを付与し、第１の正解マップを生成する。なお本実施例では、第１の正解マップを第２の信号値でクリップしない。これにより、機械学習モデルは、第１のマップの生成の際に、輝度飽和領域のクリップされる前の輝度も推定するように訓練される。続いてステップＳ１０６において、取得部５１２は、正解モデル出力を取得する。正解モデル出力は、ステップＳ１０２で設定したデプスマップである。

続いてステップＳ１０７において、演算部５１３は、機械学習モデルを用いて、第１の正解マップとモデル出力を生成する。機械学習モデルは、図１３の構成を用いる。図１３は、本実施例における機械学習モデルの構成図である。ぼけ画像６０１から、複数の層（本実施例は畳み込み層１０層）を介して第１の特徴マップ６１１を生成し、第１の特徴マップ６１１に基づいて、第１のマップ６０３とモデル出力６０４を生成する。第１のマップ６０３は、第１の特徴マップ６１１から複数の層（畳み込み層２層）で生成され、モデル出力６０４は、第１の特徴マップ６１１から複数の層（畳み込み層２０層）で生成される。本実施例では、各層で５×５のフィルタ４８種類（ただし、層６２１は、フィルタ種類の数がぼけ画像６０１のチャンネル数と同数であり、層６２２は、フィルタの数が１である）との畳み込みを実行するが、これに限定されるものではない。

続いてステップＳ１０８において、更新部５１４は、誤差関数を用いて、機械学習モデルのウエイトを更新する。続いてステップＳ１０９において、更新部５１４は、機械学習モデルの訓練が完了した否かを判定する。

次に、図１４を参照して、画像処理部５２３で実行される、機械学習モデルを用いた撮像画像のデプスマップの推定と、撮像画像に対するぼけ味の付与とに関して説明する。図１４は、本実施例におけるモデル出力の生成のフローチャートである。なお、実施例１と同様の箇所の説明は省略する。

まずステップＳ４０１において、取得部５２３ａは、撮像画像と機械学習モデルを取得する。記憶部５２４から、機械学習モデルの構成とウエイトの情報を取得する。機械学習モデルは、図１３に示される構成である。続いてステップＳ４０２において、推定部５２３ｂは、機械学習モデルを用いて、撮像画像から、モデル出力（デプスマップ）と第１のマップを生成する。

続いてステップＳ４０３において、ぼかし部５２３ｃは、モデル出力と第１のマップに基づいて、撮像画像にぼけを付与し、ぼけ味が付与された（被写界深度が浅くなった）画像を生成する。モデル出力であるデプスマップから、撮像画像の各領域に対して、デフォーカス量に応じたぼけを設定する。フォーカス領域にはぼけを付与せず、デフォーカス量が大きい領域ほど大きなぼけを付与する。また、第１のマップには、撮像画像の輝度飽和領域のクリップ前の輝度が推定されている。撮像画像の輝度飽和領域の信号値をこの輝度に置換してから、ぼけの付与を行う。これによって、木漏れ日や水面などの反射光、また夜景のライトなどがぼけの付与によって暗くならず、自然なぼけ味の画像を生成することができる。

以上の構成により、機械学習モデルを用いたデプスマップの推定において、輝度飽和による精度低下を抑制することが可能な画像処理システムを提供することができる。
（その他の実施例）
本発明は、上述の実施例の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

各実施例によれば、ぼけの発生した撮像画像に対する機械学習モデルを用いた認識または回帰のタスクにおいて、輝度飽和による精度低下を抑制可能な画像処理方法および装置、機械学習モデルの訓練方法および装置、並びにプログラムを提供することができる。

以上、本発明の好ましい実施例について説明したが、本発明はこれらの実施例に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。

例えば、各実施例の画像処理装置（第１の装置）と、クラウド上の装置（第２の装置）とが互いに通信可能に構成されており、第１の装置からの要求に基づいて第２の装置が図７または図１４の処理を実行する画像処理システムであってもよい。この場合、第１の装置は、撮像画像および処理の実行に関する要求を第２の装置へ送信する送信手段を有する。第２の装置は、第１の装置から撮像画像および要求を受信する受信手段、および、受信した要求に応じて、機械学習モデルを用いて撮像画像に基づき第１のマップを生成する生成手段を有する。

１０３画像処理装置
１０３ｂ取得部（取得手段）
１０３ｃ先鋭化部（生成手段）

Claims

撮像により得られた撮像画像を取得する工程と、
機械学習モデルを用いて、前記撮像画像に基づき第１のマップを生成し、該撮像画像及び該第１のマップに基づきモデル出力を生成する工程とを有し、
前記第１のマップは、前記撮像画像の輝度飽和領域における被写体が前記撮像において発生したぼけによって広がった領域と、該領域における信号値とを表す情報であることを特徴とする画像処理方法。
撮像により得られた撮像画像を取得する工程と、
機械学習モデルを用いて、前記撮像画像に基づき第１の特徴マップを生成し、該第１の特徴マップに基づき第１のマップとモデル出力とを生成する工程とを有し、
前記第１のマップは、前記撮像画像の輝度飽和領域における被写体が前記撮像において発生したぼけによって広がった領域と、該領域における信号値とを表す情報であることを特徴とする画像処理方法。
前記第１の特徴マップは、前記撮像画像の輝度飽和の影響を受けた領域とそれ以外の領域を切り分けるための情報が含まれていることを特徴とする請求項２に記載の画像処理方法。
前記第１のマップは、前記輝度飽和領域を表す第２のマップに基づいて、生成されることを特徴する請求項１乃至３のいずれか一項に記載の画像処理方法。
前記モデル出力は、前記撮像画像に対応する認識ラベルまたは信号列の少なくとも一方を含むことを特徴とする請求項１乃至４のいずれか一項に記載の画像処理方法。
前記モデル出力は、先鋭化された前記撮像画像、前記ぼけとは異なるぼけを有する画像、及び前記撮像画像に対応する被写体空間のデプスマップのうち少なくとも一つを含むことを特徴とする請求項１乃至５のいずれか一項に記載の画像処理方法。
前記撮像画像に基づいて前記第１のマップを生成する際に実行される線型和の回数は、前記撮像画像に基づいて前記モデル出力を生成する際に実行される線型和の回数以下であることを特徴とする請求項１乃至６のいずれか一項に記載の画像処理方法。
前記第１のマップに基づいて、前記撮像画像と前記モデル出力とを合成することで出力画像を生成する工程を更に有することを特徴とする請求項１乃至７のいずれか一項に記載の画像処理方法。
請求項１乃至８のいずれか一項に記載の画像処理方法をコンピュータに実行させることを特徴とするプログラム。
撮像により得られた撮像画像を取得する取得手段と、
機械学習モデルを用いて、前記撮像画像に基づき第１のマップを生成し、該撮像画像及び該第１のマップに基づきモデル出力を生成する生成手段とを有し、
前記第１のマップは、前記撮像画像の輝度飽和領域における被写体が前記撮像において発生したぼけによって広がった領域と、該領域における信号値とを表す情報であることを特徴とする画像処理装置。
原画像を取得する工程と、
前記原画像にぼけを付与することで、ぼけ画像を生成する工程と、
前記ぼけ画像に対応する正解画像を取得する工程と、
前記原画像に基づく画像に対して、信号値の閾値に基づいて第１の領域を設定する工程と、
前記第１の領域に対応する領域の信号値が前記原画像の信号値と同じである第１の画像を生成する工程と、
前記第１の画像に前記ぼけを付与することで、第１の正解マップを生成する工程と、
機械学習モデルを用いて、前記ぼけ画像に基づき第１のマップ及び出力画像を生成する工程と、
前記第１のマップと前記第１の正解マップとの誤差、及び前記出力画像と前記正解画像との誤差を用いて機械学習モデルを訓練する訓練工程とを有することを特徴とする訓練方法。
前記第１の画像の第１の領域以外の領域における信号値は、前記原画像とは異なることを特徴とする請求項１１に記載の訓練方法。
前記第１の画像の第１の領域以外の領域における信号値は、すべて第１の信号値であることを特徴とする請求項１１または１２のいずれか一項に記載の訓練方法。
前記ぼけ画像において、第２の信号値を超える信号値はクリップされ、
前記原画像は、前記第２の信号値よりも大きい信号値を有する画像であることを特徴とする請求項１１乃至１３のいずれか一項に記載の訓練方法。
前記第２の信号値は、前記閾値と等しいことを特徴とする請求項１４に記載の訓練方法。
前記正解画像は、前記ぼけ画像よりもぼけが少ない画像、前記ぼけ画像とは異なる形状のぼけが前記原画像に付与された画像、または前記ぼけ画像に対応するデプスマップを含むことを特徴とする請求項１１乃至１５のいずれか一項に記載の訓練方法。
請求項１１乃至１６のいずれか一項に記載の訓練方法をコンピュータに実行させることを特徴とするプログラム。
原画像を取得する第１の取得手段と、
前記原画像にぼけを付与することで、ぼけ画像を生成する第１の生成手段と、
前記ぼけ画像に対応する正解画像を取得する第２の取得手段と、
前記原画像に基づく画像に対して、信号値の閾値に基づいて第１の領域を設定する設定手段と、
前記第１の領域に対応する領域の信号値が前記原画像の信号値と同じである第１の画像を生成する画像生成手段と、
前記第１の画像に前記ぼけを付与することで、第１の正解マップを生成するマップ生成手段と、
機械学習モデルを用いて、前記ぼけ画像に基づき第１のマップ及び出力画像を生成する第２の生成手段と、
前記第１のマップと前記第１の正解マップとの誤差、及び前記出力画像と前記正解画像との誤差を用いて機械学習モデルを訓練する訓練手段と、を有することを特徴とする訓練装置。
撮像画像を取得する工程と、
請求項１１乃至１６のいずれか一項に記載された訓練方法によって訓練された機械学習モデルを用いて、前記撮像画像に基づきモデル出力を生成する工程とを有することを特徴とする画像処理方法。
請求項１０に記載の画像処理装置と、該画像処理装置と通信可能な装置とを有する画像処理システムであって、
前記装置は、前記撮像画像および処理の実行に関する要求を前記画像処理装置へ送信する送信手段を有し、
前記画像処理装置は、前記装置から前記撮像画像および前記要求を受信する受信手段を有し、
前記生成手段は、前記要求に応じて前記モデル出力を生成することを特徴とする画像処理システム。