JP2022121775A

JP2022121775A - 画像処理方法、プログラム、画像処理装置、および学習済みモデルの製造方法

Info

Publication number: JP2022121775A
Application number: JP2021018670A
Authority: JP
Inventors: 正和小林; Masakazu Kobayashi
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2021-02-09
Filing date: 2021-02-09
Publication date: 2022-08-22

Abstract

【課題】視差量の変化が小さい場合でも、撮像画像のデフォーカスによるぼけを変換して良好なぼけ味の画像を得ることが可能な画像処理方法を提供する。【解決手段】撮像画像のデフォーカスぼけを異なる形状のぼけに変換する画像処理方法であって、原画像を取得する工程と、デフォーカス量を設定する工程と、デフォーカス量と原画像とに基づいて、訓練画像と正解画像とを生成する工程と、訓練画像を機械学習モデルに入力して生成された出力画像と、正解画像とを比較して機械学習モデルを学習する工程とを有し、デフォーカス量に関する値が閾値よりも小さい場合、正解画像の解像度は訓練画像の解像度以上であり、デフォーカス量に関する値が閾値よりも大きい場合、正解画像の解像度は訓練画像の解像度よりも低い。【選択図】図１

Description

本発明は、撮像された画像に対して、デフォーカスによるぼけを変換し、良好なぼけ味の画像を得る画像処理方法に関する。

特許文献１には、光学系の異なる瞳を介して得られる視差画像と機械学習モデルを用いて、画像のデフォーカスによるぼけを変換し、良好なぼけ味の画像を得る方法が開示されている。

特開２０２０－３６３１０号公報

特許文献１に開示された方法は、光学系の異なる瞳を介して得られる視差画像を機械学習モデルに入力することで、撮像画像のデフォーカスによるぼけを変換し、良好なぼけ味の画像を得ることができる。視差画像を用いることで、画像内の合焦面とデフォーカスを区別することができる。しかし、撮像に用いる光学系によっては視差量の変化が小さい場合があり、機械学習モデルが合焦面とデフォーカスを区別することができず、学習誤差が生じることがある。そのため、視差量の変化が小さい場合は変換の精度が低下する。

そこで本発明は、視差量の変化が小さい場合でも、撮像画像のデフォーカスによるぼけを変換して良好なぼけ味の画像を得ることが可能な画像処理方法、プログラム、画像処理装置、および学習済みモデルの製造方法を提供することを目的とする。

本発明の一側面としての画像処理方法は、撮像画像のデフォーカスぼけを異なる形状のぼけに変換する画像処理方法であって、原画像を取得する工程と、デフォーカス量を設定する工程と、前記デフォーカス量と前記原画像とに基づいて、訓練画像と正解画像とを生成する工程と、前記訓練画像を機械学習モデルに入力して生成された出力画像と、前記正解画像とを比較して前記機械学習モデルを学習する工程とを有し、前記デフォーカス量に関する値が閾値よりも小さい場合、前記正解画像の解像度は前記訓練画像の解像度以上であり、前記デフォーカス量に関する値が前記閾値よりも大きい場合、前記正解画像の解像度は前記訓練画像の解像度よりも低い。

本発明の他の目的及び特徴は、以下の実施例において説明される。

本発明によれば、視差量の変化が小さい場合でも、撮像画像のデフォーカスによるぼけを変換して良好なぼけ味の画像を得ることが可能な画像処理方法、プログラム、画像処理装置、および学習済みモデルの製造方法を提供することができる。

実施例１における機械学習モデルの構成図である。実施例１における画像処理システムのブロック図である。実施例１における画像処理システムの外観図である。実施例１における撮像装置の説明図である。実施例１における学習データの生成方法に関するフローチャートである。実施例１におけるウエイトの学習方法に関するフローチャートである。実施例１、２における推定画像の生成方法に関するフローチャートである。実施例１における第１の瞳で形成されたＰＳＦと第２の瞳で形成された点像分布関数を示す図である。実施例１における視差量と被写体距離との関係を示す図である。実施例１における合焦被写体の輝度値変化を示す図である。実施例２における機械学習モデルの構成図である。実施例２における画像処理システムのブロック図である。実施例２における画像処理システムの外観図である。実施例２における学習データの生成方法に関するフローチャートである。実施例２におけるウエイトの学習方法に関するフローチャートである。実施例２におけるデフォーカスマップの精度を示す図である。実施例２における推定画像の生成方法に関するフローチャートである。実施例３における画像処理システムのブロック図である。実施例３における画像処理システムの外観図である。実施例３における推定画像の生成に関するフローチャートである。各実施例におけるデフォーカス距離での点像強度分布を示す図である。

以下、本発明の実施例について、図面を参照しながら詳細に説明する。各図において、同一の部材については同一の参照符号を付し、重複する説明は省略する。

実施例の具体的な説明を行う前に、本発明の要旨を説明する。本発明は、撮像画像のデフォーカスぼけを、機械学習モデルを用いて変換する。機械学習モデルは例えば、ニューラルネットワーク、遺伝的プログラミング、ベイジアンネットワークなどを含む。ニューラルネットワークは、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）、ＧＡＮ（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）、ＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）などを含む。デフォーカスぼけの変換とは、二線ぼけからガウスぼけや玉ぼけへの変換などが含まれる。

図２１（Ａ）～（Ｃ）を参照して、二線ぼけ、玉ぼけ、ガウスぼけについて説明する。図２１（Ａ）は、二線ぼけのＰＳＦ（点像分布関数）を示す図である。図２１（Ａ）において、横軸は空間座標（位置）、縦軸は強度を示す。この点は、後述の図２１（Ｂ）、（Ｃ）に関しても同様である。図２１（Ａ）に示されるように、二線ぼけは、ピークが分離したＰＳＦを有する。デフォーカス距離におけるＰＳＦが図２１（Ａ）のような形状を有する場合、本来は１本の線である被写体が、デフォーカスした際に２重にぼけているように見える。被写体が点像である場合はデフォーカスした際にリング状に見えるため、リングぼけとも呼ばれる。図２１（Ｂ）は、玉ぼけのＰＳＦを示す図である。玉ぼけは、強度がフラットなＰＳＦを有し、ディスクぼけとも呼ばれる。図２１（Ｃ）は、ガウスぼけのＰＳＦを示す図である。ガウスぼけは、ガウス分布のようにエッジが滑らかなＰＳＦを有する。変換の対象とする他のデフォーカスぼけには、例えば、ヴィネッティングによって欠けたデフォーカスぼけ、カタディオプトリックレンズなどの瞳遮蔽によるリング状のデフォーカスぼけなどが挙げられる。なお、変換の対象とするデフォーカスぼけの形状に制限はない。

各実施例におけるデフォーカスぼけの変換とは、被写界深度の深いパンフォーカス画像に対してデフォーカスぼけを付与し、被写界深度の浅い画像を再現するものではない。既にデフォーカスぼけしている被写体を、所望のデフォーカスぼけに変換する。つまり、既に作用しているデフォーカスぼけと所望のデフォーカスぼけの差分を満たすデフォーカスぼけを作用させる必要があり、より高度な処理が必要となる。

機械学習モデルを用いたデフォーカスぼけの変換においては、合焦面とデフォーカスを区別して変換できるかが重要な課題になる。そのため、撮像画像と共にデフォーカス量に関する情報を使用することが好ましい。例えば、撮像画像と共に、光学系の異なる瞳を介して取得した視差画像を機械学習モデルに入力する。光学系の異なる瞳を介して取得した視差画像は、合焦面からのずれ量に応じて視差量が変化する。したがって、合焦面とデフォーカスを区別することができる。光学系の瞳を分割して情報を取得する撮像素子については、実施例１で詳細に説明する。

しかし、撮像に用いる光学系によっては視差量の変化が小さく、機械学習モデルが合焦面とデフォーカスを区別することができずに学習誤差が生じることがある。この場合、機械学習モデルは視差量の違いを認識できず、複数の正解画像の平均値を出力するように学習してしまう。特に、合焦面近傍では合焦面がぼけることになり、撮像画像の画質に与える影響が大きい。そこで各実施例では、合焦面とデフォーカスを区別して変換できるように、閾値を設定して学習画像を生成し、学習を行う。これにより、視差量の変化が小さい場合でも、高精度に撮像画像のデフォーカスぼけを変換することが可能な学習を行うことができる。

なお以下では、機械学習モデルのウエイトを学習する段階のことを学習フェーズとし、学習済みのウエイトを用いた機械学習モデルでデフォーカスぼけの変換を行う段階のことを推定フェーズとする。

まず、図２および図３を参照して、本発明の実施例１における画像処理システムに関して説明する。図２は、画像処理システム１００のブロック図である。図３は、画像処理システム１００の外観図である。画像処理システム１００は、学習装置（画像処理装置）１０１、撮像装置１０２、画像推定装置１０３、表示装置１０４、記録媒体１０５、出力装置１０６、およびネットワーク１０７を有する。学習装置１０１は、記憶部１０１ａ、取得部１０１ｂ、生成部１０１ｃ、および更新部１０１ｄを有し、デフォーカスぼけ変換に用いる機械学習モデルのウエイトを学習する。なお、ウエイトの学習、およびウエイトを用いたデフォーカスぼけ変換処理に関する詳細は後述する。撮像装置１０２は、光学系１０２ａと撮像素子１０２ｂを有し、被写体空間を撮像して撮像画像を取得する。光学系１０２ａは、被写体空間から入射した光を集光し、光学像（被写体像）を形成する。撮像素子１０２ｂは、光学像を光電変換することによって、撮像画像を取得する。

ここで、図４（Ａ）、（Ｂ）を参照して、撮像装置１０２の構成について説明する。図４（Ａ）、（Ｂ）は、撮像装置１０２の説明図である。図４（Ａ）は、撮像部１０２の断面図を示し、一点鎖線は軸上光束を表している。図４（Ｂ）は、撮像素子１０２ｂの上面図を示す。撮像素子１０２ｂは、マイクロレンズアレイ１２２と複数の画素１２１とを有する。マイクロレンズアレイ１２２は、光学系１０２ａを介して被写体面１２０と共役の位置に配置されている。図４（Ｂ）に示されるように、マイクロレンズアレイ１２２を構成するマイクロレンズ１２２ａ（マイクロレンズ１２２ａのみ表記し、１２２ｂ以降は省略）は、複数の画素１２１（画素１２１ａのみ表記し、１２１ｂ以降は省略）のそれぞれと対応している。ここで、複数の部位をまとめて指定する際は番号のみを付し、そのうちの１つを示す際は番号とａなどの記号を付す。

複数の画素１２１のそれぞれは、光学系１０２ａを介して形成された光学像を光電変換する第１の光電変換部１２３および第２の光電変換部１２４を有する。これにより、例えば画素１２１ａに入射した光は、その入射角に依存して、第１の光電変換部１２３ａと第２の光電変換部１２４ａに分離して受光される（第１の光電変換部１２３ａと第２の光電変換部１２４ａは、互いに異なる入射角で入射する光を受光する）。光の入射角は、その光が光学系１０２ａにおける瞳のいずれの位置を通過したかにより決定される。このため、光学系１０２ａの瞳は２つの光電変換部により２つの部分瞳に分割され、一つの画素内の２つの光電変換部は互いに異なる視点（瞳の位置）から被写体空間を観察した情報を取得する。なお本実施例において、瞳の分割方向は水平方向であるが、これに限定されるものではなく、垂直方向や斜め方向などの他の方向であってもよい。

撮像素子１０２ｂは、第１の光電変換部１２３で取得された信号（Ａ画像）と、この信号（Ａ画像）と第２の光電変換部１２４で取得された信号（Ｂ画像）との加算信号（Ａ＋Ｂ画像）を出力する。このように本実施例において、Ａ＋Ｂ画像およびＡ画像は、光学系１０２ａを介して被写体空間を同時に撮像して得られた画像である。Ａ＋Ｂ画像は光学系１０２ａの瞳の全域（第１の瞳）を介して取得された画像であり、Ａ画像は瞳の一部である部分瞳（第２の瞳）を介して取得された画像である。また本実施例において、Ａ＋Ｂ画像およびＡ画像は、同一の撮像素子１０２ｂにより撮像された画像である。

画像推定装置１０３は、記憶部１０３ａ、取得部１０３ｂ、ぼけ変換部１０３ｃ、および生成部１０３ｄを有する。画像推定装置１０３は、撮像装置１０２で撮像された撮像画像（またはその少なくとも一部）に対して、デフォーカスぼけを変換した推定画像を生成する。デフォーカスぼけ変換には、学習装置１０１で学習済みのウエイトを用いた機械学習モデルを使用する。学習装置１０１と画像推定装置１０３はネットワーク１０７によって接続されており、画像推定装置１０３はデフォーカスぼけ変換時または事前に、学習済みのウエイトの情報を学習装置１０１から読み出す。推定画像は、表示装置１０４、記録媒体１０５、出力装置１０６の少なくともいずれかに出力される。表示装置１０４は、例えば液晶ディスプレイやプロジェクタなどである。ユーザは、表示装置１０４を介して、処理途中の画像を確認しながら編集作業などを行うことができる。編集作業時のユーザインターフェースの詳細は後述する。記録媒体１０５は、例えば半導体メモリ、ハードディスク、ネットワーク上のサーバ等であり、推定画像を保存する。出力装置１０６は、プリンタなどである。

次に、図５を参照して、学習装置１０１で実行される学習データの生成に関して説明する。図５は、学習データの生成方法に関するフローチャートである。

まずステップＳ１０１において、取得部（取得手段）１０１ｂは、原画像を取得する。原画像は、１枚でも複数枚でもよい。原画像は、実写画像やＣＧ（ＣｏｍｐｕｔｅｒＧｒａｐｈｉｃｓ）画像などである。以降のステップで、原画像にぼけを作用させて、訓練画像と正解画像を作り出す。そのため、様々な被写体に対して正しくデフォーカスぼけの形状変換が行えるように、原画像は、様々な強度と方向を有するエッジや、テクスチャ、グラデーション、平坦部などを有する画像であることが望ましい。

好ましくは、原画像は、撮像素子１０２ｂの輝度飽和値よりも高い信号値を有している。これは、実際の被写体においても、特定の露出条件で撮像装置１０２により撮像を行った際、輝度飽和値に収まらない被写体が存在するためである。正解画像と訓練画像は、デフォーカスぼけを作用させた後、撮像素子１０２ｂの輝度飽和値によってクリップすることで、実際の輝度飽和値に収まらない被写体を再現できる。

続いてステップＳ１０２において、取得部（設定手段）１０１ｂは、デフォーカス量を設定して取得する。あらゆる撮像画像に対応するため、様々なデフォーカス量を設定することが好ましい。続いてステップＳ１０３において、生成部１０１ｃは、取得したデフォーカス量に基づいて第１の瞳を介して形成される光学特性を生成し、記憶部１０１ａに保存する。第１の瞳は、光学系１０２ａの瞳の全域である。光学特性とは、ＰＳＦまたはＯＴＦ（光学伝達関数）を含む。続いてステップＳ１０４において、生成部１０１ｃは、取得したデフォーカス量に基づいて第２の瞳を介して形成される光学特性を生成し、記憶部１０１ａに保存する。第２の瞳は、光学系１０２ａの瞳の一部である部分瞳である。

続いてステップＳ１０５において、取得部１０１ｂは、第１の瞳の光学特性と第２の瞳の光学特性の視差量を取得する。視差量は、光学特性をＰＳＦとした場合、各重心の差分を取ることで取得できる。図８（Ａ）、（Ｂ）は、第１の瞳で形成されたＰＳＦと第２の瞳で形成されたＰＳＦを示す。図８（Ａ）は、合焦面の第１の瞳のＰＳＦ（実線７００１）と第２の瞳のＰＳＦ（点線７００２）の断面図である。図８（Ｂ）は、デフォーカスの第１の瞳のＰＳＦ（実線７００３）と第２の瞳のＰＳＦ（点線７００４）である。合焦面では視差量が小さく、デフォーカスでは視差量が大きい。

続いて、図５のステップＳ１０６において、更新部１０１ｄは、取得した視差量（ステップＳ１０２にて設定されたデフォーカス量に関する値）と閾値とを比較する。視差量と閾値を比較するのは、撮像条件によって視差量の変化が小さい場合があるためである。例えば、光学系１０２ａの合焦位置が遠くなるほど視差量の変化は小さくなる。

図９は、光学系１０２ａが焦点距離５０ｍｍ、Ｆ値１．４、合焦位置２５００ｍｍ、撮像素子１０２ｂの画素ピッチ５．５μｍにおける視差量と被写体距離との関係を示す。図９において、横軸は被写体距離（ｍ）、縦軸は視差量（画素）をそれぞれ示す。合焦位置２５００ｍｍと３０００ｍｍでは、視差量の差は約２画素である。ここで、合焦位置２５００ｍｍの被写体を変化させず、３０００ｍｍのデフォーカスぼけを変換するように学習したとする。このとき、視差量の変化が小さいため、機械学習モデルが合焦面とデフォーカスを区別することができずに学習誤差が生じる。この場合、機械学習モデルは視差量の違いを認識できず、複数の正解画像の平均値を出力するように学習する。

そのため、本実施例では閾値を設定し、視差量と閾値との比較に基づき学習画像を生成する。具体的には、閾値を５画素とし、視差量が閾値以下である場合、正解画像と訓練画像とは同一の解像度とする。一方、視差量が閾値以上である場合、正解画像の解像度を訓練画像の解像度よりも小さくする。ここで解像度とは、画像の周波数特性を指し、解像度が高いとは画像に高周波成分が多く含まれることを意味する。これにより、合焦面とデフォーカスを区別して変換するように学習することができる。なお閾値は、撮像画像の撮像に用いる撮像装置の焦点深度に対応する値以上の値である。焦点深度は、光学系１０２ａのＦ値（絞り値）と撮像素子１０２ｂの画素ピッチとで決まる。Ｆ値をＦ、画素ピッチをδとした場合、焦点深度ｆ_ｓは以下の（１）式で求められる。

例えば、Ｆ値１．４、画素ピッチ５．５μｍの場合、焦点深度は７．７μｍとなる。本実施例における閾値である視差量５画素は、被写体距離が４０００ｍｍの場合である。このときの結像位置は、幾何光学的に撮像素子から前方約２９０μｍと求めることができる。すなわち閾値（視差量５画素）は、撮像装置の焦点深度以上に対応する値である。

また、学習するデフォーカス量は、閾値から焦点深度に対応する値以上離れている（デフォーカス量と閾値とは、焦点深度に対応する値以上の間隔を有する）ことが好ましい。これにより、合焦面として学習する視差量とデフォーカスとして学習する視差量を切り分けることができるため、閾値近傍のデフォーカス量における変換の精度を向上させることができる。

ここで、図１０を参照して、合焦被写体の輝度値変化について説明する。図１０は、閾値を設定せずに学習したウエイトを用いて撮像画像を変換した場合の合焦被写体の輝度値変化（一点鎖線１００３）と、視差量と閾値の比較に基づき学習したウエイトを用いた場合の輝度値変化（点線１００２）を示す図である。図１０において、実線１００１は、撮像画像の合焦被写体の輝度値である。閾値を設定せずに学習した場合にはエッジが失われ、合焦被写体がぼけている。一方、視差量と閾値の比較に基づき学習した場合はエッジが保たれ、合焦被写体はぼけていない。

続いて、図５のステップＳ１０７において、生成部１０１ｃは、変換情報を生成する。変換情報とは、正解画像を生成する際に、原画像に作用させる光学特性である。本実施例では、視差量が閾値以下である場合、正解画像と訓練画像は同一の解像度とする。一方、視差量が閾値よりも大きい場合、正解画像の解像度を訓練画像の解像度よりも低くする。なお合焦面を鮮鋭化したい場合、視差量が閾値以下である場合、正解画像の解像度を訓練画像の解像度以上の解像度としてもよい。これにより、合焦面の鮮鋭化とデフォーカスぼけを両立して変換することが可能になる。ここで鮮鋭化とは、ぼけによって低下または消失した被写体の周波数成分を復元する処理を指す。

続いてステップＳ１０８において、生成部１０１ｃは、訓練画像を生成し、訓練画像を記憶部１０１ａに保存する。訓練画像は、第１の瞳の光学特性と第２の瞳の光学特性をそれぞれ原画像に作用させて撮像シミュレーションを行った視差画像（Ａ＋Ｂ画像、Ａ画像）である。なお本実施例において、訓練画像はＡ＋Ｂ画像とＡ画像とするが、Ａ画像とＢ画像またはＡ＋Ｂ画像とＢ画像でもよい。光学特性の作用は、原画像に対してＰＳＦを畳み込むか、または原画像の周波数特性とＯＴＦの積をとることで実行できる。

続いてステップＳ１０９において、生成部１０１ｃは、正解画像を生成し、正解画像を記憶部１０１ａに保存する。正解画像は、原画像に変換情報を作用させて撮像シミュレーションを行った画像である。正解画像と訓練画像は、未現像のＲＡＷ画像でも現像後の画像でもよい。また、訓練画像、正解画像の生成する順序は入れ替えてもよい。

以上が、学習データ生成の説明である。なお、訓練画像と正解画像から、既定の画素数の部分領域を抽出して学習に用いてもよい。

次に、図６を参照して、機械学習モデルにおけるウエイトの学習（学習フェーズ）について説明する。図６は、ウエイトの学習方法に関するフローチャートである。なお本実施例では、機械学習モデルとしてＣＮＮを使用するが、これに限定されるものではなく、他のモデルについても同様に適用可能である。

まずステップＳ１１１において、取得部１０１ｂは、記憶部１０１ａから１組以上の正解画像と訓練画像を取得する。訓練画像は、ＣＮＮの学習フェーズにおける入力データである。続いてステップＳ１１２において、生成部１０１ｃは、訓練画像をＣＮＮへ入力し、出力画像を生成する。

ここで、図１を参照して、本実施例における出力画像の生成に関して説明する。図１は、本実施例における機械学習モデルの構成図である。訓練画像２０１は、グレースケールでも、複数のチャンネル成分を有していてもよい。本実施例において、ＣＮＮ２０２は、１層以上の畳み込み層またはフルコネクション層を有する。学習の初回において、ＣＮＮ２０２のウエイト（フィルタの各要素とバイアスの値）は、乱数によって生成する。図１に示されるように、訓練画像２０１がＣＮＮ２０２へ入力されることにより、出力画像２０３が生成される。

続いて、図６のステップＳ１１３において、更新部（学習手段）１０１ｄは、出力画像と正解画像の誤差に基づいて（ロス関数を用いて）、ＣＮＮのウエイトを更新する。本実施例では、出力画像と正解画像における信号値の差のユークリッドノルムをロス関数とする。ただし、ロス関数はこれに限定されるものではない。ステップＳ１１１で複数組の訓練画像と正解画像を取得している場合、各組に対してロス関数の値を算出する。算出されたロス関数の値から、誤差逆伝播法（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）などによってウエイトを更新する。

続いてステップＳ１１４において、更新部１０１ｄは、ウエイトの学習が完了したか否かを判定する。ウエイトの学習の完了は、学習（ウエイトの更新）の反復回数が規定の回数に達したか否か、または更新時のウエイトの変化量が規定値より小さいか否かなどによって判定することができる。学習が完了していない判定された場合、ステップＳ１１１へ戻り、取得部１０１ｂは１組以上の新たな訓練画像と正解画像を取得する。一方、学習が完了したと判定された場合、学習装置１０１は学習を終了し、ウエイトの情報を記憶部１０１ａに保存する。

次に、図７を参照して、画像推定装置１０３で実行される撮像画像のデフォーカスぼけ変換（推定フェーズ）に関して説明する。図７は、推定画像の生成方法に関するフローチャートである。なお、推定は必ずしも画像推定装置１０３で行われる必要はなく、撮像装置１０２内でエッジ処理してもよい。

まずステップＳ１２１において、取得部１０３ｂは、撮像画像とウエイトの情報を取得する。撮像画像は、Ａ＋Ｂ画像およびＡ画像を含む。または、学習時にＡ＋Ｂ画像とＢ画像を訓練画像とした場合はＡ＋Ｂ画像とＢ画像でもよいし、Ａ画像とＢ画像を訓練画像とした場合はＡ画像とＢ画像でもよい。取得する撮像画像は、撮像画像全体の一部分でもよい。該ウエイトの情報は、予め記憶部１０１ａから読み出され、記憶部１０３ａに記憶されている。続いてステップＳ１２２において、ぼけ変換部１０３ｃは、撮像画像をＣＮＮに入力し、推定画像を生成する。推定画像は、撮像画像のデフォーカスぼけが変換された画像である。学習時と同様に、図１に示したＣＮＮを用いて推定画像を生成する。ＣＮＮには、取得された学習済みのウエイトが使用される。生成された複数の推定画像は、記憶部１０３ａに保存される。以上の構成により、視差量の変化が小さい場合でも、デフォーカスによるぼけを変換し、良好なぼけ味の画像を得ることができる。

次に、本実施例の効果を高めるために好ましい条件に関して説明する。入力データはさらに、輝度飽和マップを含むことが好ましい。輝度飽和マップは、画像の輝度飽和画素領域を示し、画像と同じサイズである。学習フェーズでは、訓練画像から輝度飽和マップを生成する。推定フェーズでは、撮像画像から輝度飽和マップを生成する。輝度飽和部には、輝度飽和による被写体の構造とは異なる偽エッジが存在するため、機械学習モデルはこれを、高周波成分を有するデフォーカスぼけやピント位置など、エッジを有するものと区別することが難しい。輝度飽和マップにより、輝度飽和部と高周波成分を有するデフォーカスぼけ、ピント位置を機械学習モデルが区別できるようになり、高精度な変換が可能になる。なお、高周波成分を有するデフォーカスぼけは、二線ぼけなど鋭いピークを持ったＰＳＦが作用した際に発生しやすい。

入力データはさらに、ステートマップを含むことが望ましい。ステートマップは、撮像時の光学系１０２ａの状態を（Ｚ，Ｆ，Ｄ）で表した情報である。（Ｚ，Ｆ，Ｄ）において、Ｚはズーム、Ｆは絞り、Ｄはフォーカス距離に対応する。

入力データはさらに、位置マップを含むことが望ましい。位置マップは、画像の各画素に対する像面座標を示すマップである。位置マップは、直交座標系でもよいし、極座標系（像高とアジムスに対応）でもよい。

デフォーカスぼけはレンズステートおよび像高・アジムスによって変化する。ＣＮＮは学習データに含まれる全てのデフォーカスぼけを平均的に変換するように学習されるため、異なる形状のデフォーカスぼけ各々に対する変換の精度は低下する。そこで、ステートマップと位置マップを機械学習モデルに入力することで、撮像画像に作用しているＰＳＦを機械学習モデルが特定することができる。これにより、学習フェーズでは、機械学習モデルは、学習の訓練画像に様々な形状のデフォーカスぼけが含まれていても、それらのデフォーカスぼけを平均的に変換するようなウエイトでなく、デフォーカスぼけの形状ごとに異なる変換を行うウエイトを学習する。これにより、推定フェーズでは、各デフォーカスぼけに対して高精度な変換が可能となる。このため、変換の精度低下を抑制して、様々な形状のデフォーカスぼけを変換可能な学習データを一括で学習できる。

次に、図１２および図１３を参照して、本発明の実施例２における画像処理システムに関して説明する。本実施例では、撮像画像のデフォーカス量に関する情報として、デフォーカスマップを使用する。実施例１で説明した視差量の変化が小さいことは、本実施例ではデフォーカスマップの分解能が低いことに相当する。図１２は、画像処理システム３００のブロック図である。図１３は、画像処理システム３００の外観図である。画像処理システム３００は、学習装置（画像処理装置）３０１、撮像装置３０２、画像推定装置３０３、およびネットワーク３０４、３０５を有する。

学習装置３０１は、記憶部３０１ａ、取得部３０１ｂ、生成部３０１ｃ、および更新部３０１ｄを有し、デフォーカスぼけ変換に用いる機械学習モデルのウエイトを学習する。ウエイトの学習、およびウエイトを用いたデフォーカスぼけ変換に関する詳細は後述する。撮像装置３０２は、光学系３０２ａ、撮像素子３０２ｂ、取得部３０２ｃ、記録媒体３０２ｄ、表示部３０２ｅ、およびシステムコントローラ３０２ｆを有する。光学系３０２ａは、被写体空間から入射した光を集光し、光学像（被写体像）を形成する。撮像素子３０２ｂは、光学像を光電変換によって電気信号へ変換し、撮像画像を生成する。

画像推定装置３０３は、記憶部３０３ａ、ぼけ変換部３０３ｂ、取得部３０３ｃ、および生成部３０３ｄを有する。画像推定装置３０３は、撮像装置３０２で撮像された撮像画像（またはその少なくとも一部）に対して、デフォーカスぼけを変換した推定画像を生成する。推定画像の生成には、学習装置３０１で学習された学習済みのウエイトの情報が用いられる。ウエイトの情報は、記憶部３０３ａに記憶されている。取得部３０２ｃは推定画像を取得し、記録媒体３０２ｄは推定画像を保存する。システムコントローラ３０２ｆは、撮像装置３０２の一連の動作を制御する。

次に、図１４を参照して、学習装置３０１で実行される学習データの生成に関して説明する。図１４は、学習データの生成方法に関するフローチャートである。

まずステップＳ２０１において、取得部３０１ｂは、原画像を取得する。続いてステップＳ２０２において、取得部３０１ｂは、デフォーカス量を設定して取得する。続いてステップＳ２０３において、生成部３０１ｃは、取得したデフォーカス量に基づいて第１の瞳を介して形成される光学特性を生成し、記憶部３０１ａに保存する。第１の瞳は、光学系３０２ａの瞳の全域である。

続いてステップＳ２０４において、生成部３０１ｃは、取得したデフォーカス量に基づいてデフォーカスマップを生成する。デフォーカスマップは、訓練画像の１つのチャンネル成分と同じ要素数（画素数）であり、被写体のデフォーカス量を数値で示す。本実施例では、この数値をデフォーカス値とする。撮影時には、デフォーカスマップはＴｏＦ（ＴｉｍｅＯｆＦｌｉｇｈｔ）センサや視差画像、ＤＦＤ（ＤｅｐｔｈｆｒｏｍＤｅｆｏｃｕｓ）などを利用することで取得できる。一例として、デフォーカスマップが、被写体距離の取り得る範囲に基づいて正規化された数値を有する場合を示す。Ｌを被写体距離とし、被写体距離の最小値をＬ_ｍｉｎ、最大値をＬ_ｍａｘとするとき、正規化された被写体距離Ｌ_ｎは、以下の式（２）で求められる。

なお、数値の取り方に制限はなく、最至近を１とし、撮像装置から最も離れた距離を０としてもよい。本実施例では、合焦面のデフォーカス値を０、最至近を－１、撮像装置から最も離れた距離を１とする。

続いてステップＳ２０５において、取得部３０１ｂは、デフォーカスマップからデフォーカス値の絶対値を取得する。続いてステップＳ２０６において、更新部３０１ｄは、取得したデフォーカス値の絶対値と閾値とを比較する。

ここで、図１６（Ａ）、（Ｂ）を参照して、デフォーカスマップの精度について説明する。図１６（Ａ）、（Ｂ）は、デフォーカスマップの精度を示す図である。図１６（Ａ）、（Ｂ）において、横軸はデフォーカス量、縦軸はデフォーカス値をそれぞれ示す。理想的なデフォーカスマップは、図１６（Ａ）に示されるように、デフォーカス量に応じてデフォーカス値が連続的に変化する。しかし、実際に撮影時に取得できるデフォーカス値は、分解能に限界があるため、図１６（Ｂ）に示されるように離散的である。そのため、デフォーカス量は異なるがデフォーカス値が同一になる。例えば、分解能が１ｍの場合、合焦面から後方１ｍは共通のデフォーカス値を有する。このとき、合焦面は変化させず、後方１ｍまでのデフォーカスぼけを変換するように学習すると、機械学習モデルは１種類の訓練画像に対して複数の正解画像を学習することになり、変換の精度が低下する。そのため、合焦面のデフォーカス値を０とする場合、デフォーカス値の絶対値が閾値未満を合焦面、閾値以上をデフォーカスとして学習する。上記のように、分解能が１ｍの場合は、後方１ｍにおけるデフォーカス値の絶対値を閾値とすることが好ましい。すなわち、閾値は撮像時に取得するデフォーカスマップの分解能により決定する。これにより、デフォーカスマップの分解能が低い場合でも、合焦面を大きく変化させずにデフォーカスぼけの変換ができる。

続いて、図１４のステップＳ２０７において、生成部３０１ｃは、変換情報を生成する。デフォーカス値の絶対値（ステップＳ２０２にて設定されたデフォーカス量に関する値）が閾値よりも小さい場合、正解画像と訓練画像は同一の解像度とする。一方、デフォーカス値の絶対値が閾値以上である場合、正解画像の解像度を訓練画像の解像度よりも低くする。

続いてステップＳ２０８において、生成部３０１ｃは、訓練画像を生成し、訓練画像を記憶部３０１ａに保存する。訓練画像は、原画像に第１の瞳の光学特性を作用させて生成される。続いてステップＳ２０９において、生成部３０１ｃは、正解画像を生成し、正解画像を記憶部３０１ａに保存する。正解画像は、原画像に変換情報を作用させて生成される。正解画像と訓練画像は、未現像のＲＡＷ画像でも現像後の画像でもよい。また、訓練画像、正解画像の生成する順序は入れ替えてもよい。

次に、図１５を参照して、学習装置３０１で行うウエイトの学習（学習フェーズ）に関して説明する。図１５は、ウエイトの学習方法に関するフローチャートである。本実施例では、機械学習モデルとしてＧＡＮを使用するが、これに限定されるものではなく、他のモデルについても同様に適用可能である。なお、実施例１と同様の箇所の説明は省略する。ＧＡＮとは、画像を生成する生成器と、生成された画像を識別する識別器で構成される、敵対的生成ネットワークである。

まずステップＳ２１１において、取得部３０１ｂは、１組以上の正解画像と訓練入力データを記憶部３０１ａから取得する。正解画像と訓練画像の生成は、実施例１と同様である。図１１は、本実施例の機械学習モデル（ＧＡＮ）の構成図である。連結層４０６は、訓練画像４０１とデフォーカスマップ４０２とをチャンネル方向に既定の順序で連結し、訓練入力データ４０３を生成する。

続いてステップＳ２１２において、生成部３０１ｃは、訓練入力データ４０３を生成器４０７に入力して、出力画像４０４を生成する。生成器４０７は、例えばＣＮＮである。続いてステップＳ２１３において、更新部３０１ｄは、出力画像４０４と正解画像４０５との誤差に基づいて（ロス関数を用いて）、生成器４０７のウエイトを更新する。ロス関数には、各画素における差分のユークリッドノルムを使用する。

続いてステップＳ２１４において、更新部３０１ｄは、第１の学習が完了したか否かを判定する。第１の学習が完了していない場合、ステップＳ２１１へ戻る。一方、第１の学習が完了した場合、ステップＳ２２１へ進み、学習装置３０１は第２の学習を実行する。

ステップＳ２２１において、取得部３０１ｂは、ステップＳ２１１と同様に、１組以上の正解画像４０５と訓練入力データ４０３を記憶部３０１ａから取得する。続いてステップＳ２２２において、生成部３０１ｃは、ステップＳ２１２と同様に、訓練入力データ４０３を生成器４０７に入力して、出力画像４０４を生成する。

続いてステップＳ２２３において、更新部３０１ｄは、出力画像４０４と正解画像４０５から識別器４０８のウエイトを更新する。識別器４０８は、入力された画像が生成器４０７によって生成されたフェイク画像か、正解画像４０５であるリアル画像かを識別する。出力画像４０４または正解画像４０５を識別器４０８に入力し、識別ラベル（フェイクかリアルか）を生成する。識別ラベルと正解ラベル（出力画像４０４はフェイク、正解画像４０５がリアル）の誤差に基づいて（ロス関数を用いて）、識別器４０８のウエイトを更新する。ロス関数としてはｓｉｇｍｏｉｄｃｒｏｓｓｅｎｔｒｏｐｙを使用するが、これに限定されるものではなく、他のロス関数を用いてもよい。

続いてステップＳ２２４において、更新部３０１ｄは、出力画像４０４と正解画像４０５とに基づいて、生成器４０７のウエイトを更新する。ロス関数は、ステップＳ２１３のユークリッドノルムと、以下の２項の重み付き和とする。１項目はＣｏｎｔｅｎｔＬｏｓｓと呼ばれる、出力画像４０４と正解画像４０５を特徴マップに変換し、その要素毎の差分のユークリッドノルムをとった項である。特徴マップでの差分をロス関数に加えることで、出力画像４０４のより抽象的な性質を正解画像４０５へ近づけることができる。２項目はＡｄｖｅｒｓａｒｉａｌＬｏｓｓと呼ばれる、出力画像４０４を識別器４０８へ入力して得られた識別ラベルのｓｉｇｍｏｉｄｃｒｏｓｓｅｎｔｒｏｐｙである。識別器４０８が、リアルと識別するように学習することで、より主観的に正解画像４０５らしく見える出力画像４０４が得られるようになる。

続いてステップＳ２２５において、更新部３０１ｄは、第２の学習が完了したか否かを判定する。ステップＳ２１４と同様に、第２の学習が完了していない場合、ステップＳ２２１へ戻る。一方、第２の学習が完了した場合、学習装置３０１は、学習済みの生成器４０７のウエイトの情報を記憶部３０１ａに記憶する。

次に、図１７を参照して、画像推定装置３０３で実行されるデフォーカスぼけ変換（推定フェーズ）に関して説明する。図１７は、推定画像の生成方法に関するフローチャートである。まずステップＳ２３１において、取得部３０３ｃは、撮像画像（またはその少なくとも一部）、デフォーカスマップ、および学習済みのウエイトの情報を取得する。ウエイトの情報は、予め記憶部３０１ａから読み出され、記憶部３０３ａに記憶されている。続いてステップＳ２３２において、ぼけ変換部３０３ｂは、入力データを生成器４０７に入力し、推定画像を生成する。

以上の構成により、デフォーカスマップの分解能が低い場合でも、デフォーカスによるぼけを変換し、良好なぼけ味の画像を得ることができる。

次に、図１８および図１９を参照して、本発明の実施例３における画像処理システムに関して説明する。本実施例の画像処理システムは、画像推定装置に対して画像処理の対象である撮像画像を送信し、処理済みの出力画像を画像推定装置から受信する処理装置（コンピュータ）を有する点で、実施例１、２と異なる。図１８は、画像処理システム５００のブロック図である。図１９は、画像処理システム５００の外観図である。画像処理システム５００は、学習装置（画像処理装置）５０１、撮像装置５０２、レンズ装置５０３、制御装置（第１の装置）５０４、画像推定装置（第２の装置）５０５、およびネットワーク５０６、５０７を有する。

学習装置５０１および画像推定装置５０５はそれぞれ、例えばサーバである。制御装置５０４は、パーソナルコンピュータである。学習装置５０１は、記憶部５０１ａ、取得部５０１ｂ、生成部５０１ｃ、および更新部５０１ｄを有し、撮像装置５０２を用いて撮像された撮像画像のデフォーカスぼけを変換する機械学習モデルのウエイトを学習する。なお、学習に関する詳細は、後述する。撮像装置５０２は撮像素子５０２ａを有し、撮像素子５０２ａがレンズ装置５０３の形成した光学像を光電変換して撮像画像を取得する。レンズ装置５０３と撮像装置５０２は着脱可能であり、互いに複数種類と組み合わせることが可能である。

制御装置５０４は、通信部５０４ａ、表示部５０４ｂ、および記憶部５０４ｃを有し、有線または無線で接続された撮像装置５０２から取得した撮像画像に対して、実行する処理をユーザの操作に従って制御する。或いは、撮像装置５０２で撮像した撮像画像を予め記憶部５０４ｃに記憶しておき、撮像画像を読み出してもよい。

画像推定装置５０５は、通信部５０５ａ、取得部５０５ｂ、記憶部５０５ｃ、および変換部５０５ｄを有する。画像推定装置５０５は、ネットワーク５０６を介して接続された制御装置５０４の要求によって、撮像画像のデフォーカスぼけ変換処理を実行する。画像推定装置５０５は、ネットワーク５０７を介して接続された学習装置５０１から、学習済みのウエイトの情報をデフォーカスぼけ変換時または予め取得し、撮像画像のデフォーカスぼけ変換に用いる。デフォーカスぼけ変換後の推定画像は、再び制御装置５０４へ伝送されて、記憶部５０４ｃに記憶され、表示部５０４ｂに表示される。なお、学習装置５０１で行う学習データの生成とウエイトの学習（学習フェーズ）は実施例１と同様のため、その説明を省略する。

次に、図２０を参照して、制御装置５０４および画像推定装置５０５で実行される撮像画像のデフォーカスぼけ変換（推定フェーズ）に関して説明する。図２０は、推定画像の生成に関するフローチャートである。

まずステップＳ３０１において、制御装置５０４の通信部５０４ａは、画像推定装置５０５へ撮像画像と処理の要求を送信する。続いてステップＳ３０２において、画像推定装置５０５の通信部５０５ａは、制御装置５０４から撮像画像と処理の要求を受信し、取得する。続いてステップＳ３０３において、取得部５０５ｂは、学習済みのウエイトの情報を記憶部５０５ｃから取得する。ウエイトの情報は、予め記憶部５０１ａから読み出され、記憶部５０５ｃに記憶されている。続いてステップＳ３０４において、変換部５０５ｄは、入力データをＣＮＮに入力し、撮像画像のデフォーカスぼけを変換した推定画像を生成する。続いてステップＳ３０５において、通信部５０５ａは、推定画像を制御装置５０４へ送信する。続いてステップＳ３０６において、通信部５０４ａは、画像推定装置５０５から送信された推定画像を取得し、記憶部５０４ｃに保存する。

以上の構成により、視差量の変化が小さい場合でも、デフォーカスによるぼけを変換し、良好なぼけ味の画像を得ることができる。

各実施例において、デフォーカス量に関する値が閾値よりも小さい場合、正解画像の解像度は訓練画像の解像度以上である（正解画像の解像度は訓練画像の解像度と同一であるか、訓練画像の解像度よりも高い）。一方、デフォーカス量に関する値が閾値よりも大きい場合、正解画像の解像度は訓練画像の解像度よりも低い。好ましくは、閾値は０ではない。また好ましくは、デフォーカス量に関する値は、設定されたデフォーカス量に対応する視差量、または、設定されたデフォーカス量に基づくデフォーカスマップから取得したデフォーカス値の絶対値である。

（その他の実施例）
本発明は、上述の実施例の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

各実施例によれば、視差量の変化が小さい場合でも、撮像画像のデフォーカスによるぼけを変換して良好なぼけ味の画像を得ることが可能な画像処理方法、プログラム、画像処理装置、および学習済みモデルの製造方法を提供することができる。

以上、本発明の好ましい実施例について説明したが、本発明はこれらの実施例に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。

デフォーカス量に関する値と閾値との比較は、視差量と閾値との比較、またはデフォーカス値の絶対値と閾値との比較に限定されるものではなく、例えば、設定されたデフォーカス量そのものと閾値との比較であってもよい。

１０１学習装置（画像処理装置）
１０１ｂ取得部（取得手段）
１０１ｃ生成部（生成手段）
１０１ｄ更新部（学習手段）

Claims

撮像画像のデフォーカスぼけを異なる形状のぼけに変換する画像処理方法であって、
原画像を取得する工程と、
デフォーカス量を設定する工程と、
前記デフォーカス量と前記原画像とに基づいて、訓練画像と正解画像とを生成する工程と、
前記訓練画像を機械学習モデルに入力して生成された出力画像と、前記正解画像とを比較して前記機械学習モデルを学習する工程と、を有し、
前記デフォーカス量に関する値が閾値よりも小さい場合、前記正解画像の解像度は前記訓練画像の解像度以上であり、
前記デフォーカス量に関する値が前記閾値よりも大きい場合、前記正解画像の解像度は前記訓練画像の解像度よりも低いことを特徴とする画像処理方法。
前記閾値は０ではないことを特徴とする請求項１に記載の画像処理方法。
前記閾値は、前記撮像画像の撮像に用いる撮像装置の焦点深度に対応する値以上であることを特徴とする請求項１または２に記載の画像処理方法。
前記デフォーカス量と前記閾値は、前記撮像画像の撮像に用いる撮像装置の焦点深度に対応する値以上の間隔を有することを特徴とする請求項１乃至３のいずれか一項に記載の画像処理方法。
前記デフォーカス量が前記閾値よりも小さい場合、前記正解画像は同一の解像度であることを特徴とする請求項１乃至４のいずれか一項に記載の画像処理方法。
前記焦点深度は、前記撮像画像の撮像に用いる光学系のＦ値と前記撮像画像の画素ピッチとに基づくことを特徴とする請求項３または４に記載の画像処理方法。
前記デフォーカス量に関する値は、設定された前記デフォーカス量であることを特徴とする請求項１乃至６のいずれか一項に記載の画像処理方法。
前記デフォーカス量に対応する視差量を取得する工程を更に有し、
前記デフォーカス量に関する値は、前記視差量であることを特徴とする請求項１乃至６のいずれか一項に記載の画像処理方法。
前記デフォーカス量に基づくデフォーカスマップからデフォーカス値の絶対値を取得する工程を更に有し、
前記デフォーカス量に関する値は、前記デフォーカス値の絶対値であることを特徴とする請求項１乃至６のいずれか一項に記載の画像処理方法。
請求項１乃至９のいずれか一項に記載の画像処理方法により学習された前記機械学習モデルに前記撮像画像を入力し、前記撮像画像の前記デフォーカスぼけを変換することを特徴とする画像処理方法。
請求項１乃至１０のいずれか一項に記載の画像処理方法をコンピュータに実行させることを特徴とするプログラム。
撮像画像のデフォーカスぼけを異なる形状のぼけに変換する画像処理装置であって、
原画像を取得する取得手段と、
デフォーカス量を設定する設定手段と、
前記デフォーカス量と前記原画像とに基づいて、訓練画像と正解画像とを生成する生成手段と、
前記訓練画像を機械学習モデルに入力して生成された出力画像と、前記正解画像とを比較して前記機械学習モデルを学習する学習手段と、を有し、
前記デフォーカス量に関する値が閾値よりも小さい場合、前記正解画像の解像度は前記訓練画像の解像度以上であり、
前記デフォーカス量に関する値が前記閾値よりも大きい場合、前記正解画像の解像度は前記訓練画像の解像度よりも低いことを特徴とする画像処理装置。
撮像画像のデフォーカスぼけを異なる形状のぼけに変換する学習済みモデルの製造方法であって、
原画像を取得する工程と、
デフォーカス量を設定する工程と、
前記デフォーカス量と前記原画像とに基づいて、訓練画像と正解画像とを生成する工程と、
前記訓練画像を機械学習モデルに入力して生成された出力画像と、前記正解画像とを比較して前記機械学習モデルを学習する工程と、を有し、
前記デフォーカス量に関する値が閾値よりも小さい場合、前記正解画像の解像度は前記訓練画像の解像度以上であり、
前記デフォーカス量に関する値が前記閾値よりも大きい場合、前記正解画像の解像度は前記訓練画像の解像度よりも低いことを特徴とする学習済みモデルの製造方法。