JP2021056678A

JP2021056678A - 画像処理方法、プログラム、画像処理装置、学習済みモデルの製造方法、および、画像処理システム

Info

Publication number: JP2021056678A
Application number: JP2019178047A
Authority: JP
Inventors: 小林　正和; Masakazu Kobayashi; 正和小林
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2019-09-27
Filing date: 2019-09-27
Publication date: 2021-04-08
Anticipated expiration: 2039-09-27
Also published as: JP7455542B2; US11508038B2; US20210097650A1; CN112581382A

Abstract

【課題】機械学習モデルの学習負荷と保持データ量の増大を抑制しつつ、撮像画像のデフォーカスぼけを種々の形状に整形することが可能な画像処理方法を提供する。【解決手段】撮像画像のデフォーカスぼけの形状を整形した推定画像を生成する画像処理方法であって、撮像画像と、推定画像のデフォーカスぼけの形状を指定する形状指定情報と、を含む入力データを取得する第１の工程と、入力データに基づいて推定画像を生成する第２の工程とを有する。【選択図】図１

Description

本発明は、撮像された画像に対して、デフォーカスによるぼけを整形し、良好なぼけ味の画像を得る画像処理方法に関する。

特許文献１には、光学系の瞳を複数に分割して、各分割瞳から被写体空間を観察した複数の視差画像を撮像し、複数の視差画像を合成する際の重みを調整することで、デフォーカスによるぼけ（デフォーカスぼけ）の形状を整形する方法が開示されている。

特開２０１６−２２００１６号公報

しかしながら、特許文献１に開示された方法は、各分割瞳の重みを調整して複数の視差画像を合成するため、光学系の瞳よりも大きい瞳に対応するデフォーカスぼけを再現することができない。すなわち、この方法では、ヴィネッティングによるデフォーカスぼけの欠けを埋めることができない。また、複数の視差画像の合成の重みが不均一になると、ノイズが増大する。また、二線ぼけ等は構造が細かいため、それらの影響を軽減するには、光学系の瞳を細かく分割する必要がある。この場合、各視差画像における空間解像度の低下、又はノイズの増大が生じる。

ところで、デフォーカスぼけは、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）などの機械学習モデルを用いて整形することができる。このとき、ユーザが好むデフォーカスぼけの形状には個人差があるため、正解画像として様々な形状のデフォーカスぼけを学習する必要がある。しかし、１枚の訓練画像に対応する正解画像が複数種類混在する学習データを、１つの機械学習モデルにおけるウエイトのみで学習することは難しい。この場合、学習済みＣＮＮに撮像画像を入力しても、正解画像とした様々なデフォーカスぼけ形状の平均が、推定画像として出力される。これは、ＣＮＮは複数の正解画像を平均的に学習するためである。このため、正解画像とするデフォーカスぼけの形状ごとに異なるウエイトを学習する必要があるが、学習負荷と保持データ量が増大する。

そこで本発明の目的は、機械学習モデルの学習負荷と保持データ量の増大を抑制しつつ、撮像画像のデフォーカスぼけを種々の形状に整形することが可能な画像処理方法などを提供することである。

本発明の一側面としての画像処理方法は、撮像画像のデフォーカスぼけの形状を整形した推定画像を生成する画像処理方法であって、前記撮像画像と、前記推定画像のデフォーカスぼけの形状を指定する形状指定情報とを含む入力データを取得する第１の工程と、前記入力データに基づいて前記推定画像を生成する第２の工程とを有する。

本発明の他の側面としてのプログラムは、前記画像処理方法をコンピュータに実行させる。

本発明の他の側面としての画像処理装置は、撮像画像のデフォーカスぼけの形状を整形した推定画像を生成する画像処理装置であって、前記撮像画像と、前記推定画像のデフォーカスぼけの形状を指定する形状指定情報とを含む入力データを取得する取得手段と、前記入力データに基づいて前記推定画像を生成する生成手段とを有する。

本発明の他の側面としての学習モデルの製造方法は、同一の被写体が存在し、異なる形状のデフォーカスぼけを有する訓練画像と正解画像を取得する工程と、前記正解画像のデフォーカスぼけの形状を指定する形状指定情報を取得する工程と、前記訓練画像と前記正解画像と前記形状指定情報とに基づいて、機械学習モデルを学習する工程とを有する。

本発明の他の側面としての画像処理装置は、同一の被写体が存在し、異なる形状のデフォーカスぼけを有する訓練画像と正解画像を取得する第１の取得手段と、前記正解画像のデフォーカスぼけの形状を指定する形状指定情報を取得する第２の取得手段と、前記訓練画像と前記正解画像と前記形状指定情報に基づいて、機械学習モデルを学習する学習手段とを有する。

本発明の他の側面としての画像処理システムは、互いに通信可能な第１の装置と第２の装置を有する画像処理システムであって、前記第１の装置は、撮像画像に対する処理の実行に関する要求を前記第２の装置へ送信する送信手段を有し、前記第２の装置は、前記要求を受信する受信手段と、前記撮像画像と、推定画像のデフォーカスぼけの形状を指定する形状指定情報とを含む入力データを取得する取得手段と、前記要求に応じて、前記入力データに基づいて前記撮像画像のデフォーカスぼけの形状を整形した前記推定画像を生成する生成手段とを有する。

本発明の他の目的及び特徴は、以下の実施例において説明される。

本発明によれば、機械学習モデルの学習負荷と保持データ量の増大を抑制しつつ、撮像画像のデフォーカスぼけを種々の形状に整形することが可能な画像処理方法などを提供することができる。

実施例１における機械学習モデルの構成を示す図である。実施例１における画像処理システムのブロック図である。実施例１における画像処理システムの外観図である。実施例１乃至４における学習データの生成方法に関するフローチャートである。実施例１、３、４におけるウエイトの学習に関するフローチャートである。実施例１における推定画像の生成に関するフローチャートである。実施例１における撮像画像の編集に関するフローチャートである。実施例１におけるユーザインタフェースを示す図である。実施例２における機械学習モデルの構成を示す図である。実施例２における画像処理システムのブロック図である。実施例２における画像処理システムの外観図である。実施例２におけるウエイトの学習に関するフローチャートである。実施例２における推定画像の生成に関するフローチャートである。実施例２におけるユーザインタフェースを示す図である。実施例３における機械学習モデルの構成を示す図である。実施例３における画像処理システムのブロック図である。実施例３における画像処理システムの外観図である。実施例３における推定画像の生成に関するフローチャートである。実施例３におけるユーザインタフェースを示す図である。実施例４における機械学習モデルの構成を示す図である。実施例４における画像処理システムのブロック図である。実施例４における画像処理システムの外観図である。実施例４における推定画像の生成に関するフローチャートである。実施例４におけるユーザインタフェースを示す図である。各実施例におけるデフォーカス距離での点像強度分布を示す図である。

以下、本発明の実施例について、図面を参照しながら詳細に説明する。各図において、同一の部材については同一の参照符号を付し、重複する説明は省略する。

本実施例の具体的な説明を行う前に、本発明の要旨を説明する。本発明は、撮像された画像のデフォーカスぼけを、機械学習モデルを用いて整形する。機械学習モデルは例えば、ニューラルネットワーク、遺伝的プログラミング、ベイジアンネットワークなどを含む。ニューラルネットワークは、ＣＮＮ、ＧＡＮ（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）、ＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）などを含む。デフォーカスぼけの整形とは、周波数成分の復元を伴わない、デフォーカスぼけの形状の整形を指す。例えば、二線ぼけからガウスぼけや玉ぼけへの整形などが含まれる。各種デフォーカスぼけ形状の詳細については後述する。整形の対象とする他のデフォーカスぼけには、例えば、ヴィネッティングによって欠けたデフォーカスぼけ、カタディオプトリックレンズなどの瞳遮蔽によるリング状のデフォーカスぼけなどが挙げられる。なお本発明において、整形の対象とするデフォーカスぼけの形状は限定されるものではなく、整形後のデフォーカスぼけの形状も限定されるものではない。

続いて、スマートフォン等で行われるデフォーカスぼけ付加との差異について説明する。広角レンズかつ小さいセンサーサイズを有するスマートフォンはぼけにくい。このため、デフォーカスぼけを付加して、所望のデフォーカスぼけを作り出している。一方、本発明におけるデフォーカスぼけの整形は、既にデフォーカスぼけしている被写体を、所望のデフォーカスぼけに整形する。すなわち、既に作用しているデフォーカスぼけと所望のデフォーカスぼけの差分を満たすデフォーカスぼけを作用させる必要があり、より高度な処理が必要となる。

機械学習モデルに入力される入力データは、撮像画像と、整形後のデフォーカスぼけの形状を指定する情報（形状指定情報）を含む。形状とは、デフォーカスぼけの種類と大きさを指す。機械学習モデルの学習において、訓練画像と共に形状指定情報を入力することで、機械学習モデルは１枚の訓練画像に対して、異なるデフォーカスぼけ形状を有する複数の正解画像を区別して学習できる。すなわち、正解画像に様々な形状のデフォーカスぼけが含まれていても、それらのデフォーカスぼけの平均的な形状に整形するようなウエイトでなく、デフォーカスぼけの形状ごとに異なる整形を行うウエイトを学習する。このため、様々な形状のデフォーカスぼけを含む学習データを高精度に一括で学習できる。その結果、学習負荷と保持データ量を抑制しつつ、ユーザの好みに合わせた種々の形状のデフォーカスぼけに整形することができる。

なお以下では、機械学習モデルのウエイトを学習する段階のことを学習フェーズとし、学習済みのウエイトを用いた機械学習モデルでデフォーカスぼけの整形を行う段階のことを推定フェーズという。

まず、図２および図３を参照して、本発明の実施例１における画像処理システムについて説明する。図２は、画像処理システム１００のブロック図である。図３は、画像処理システム１００の外観図である。

画像処理システム１００は、学習装置１０１、撮像装置１０２、画像推定装置１０３、表示装置１０４、記録媒体１０５、出力装置１０６、および、ネットワーク１０７を有する。学習装置１０１は、記憶部１０１ａ、取得部１０１ｂ、生成部１０１ｃ、および、更新部１０１ｄを有し、デフォーカスぼけ整形に用いる機械学習モデルのウエイトを学習する（学習モデルを製造する）。なお、ウエイトの学習、およびウエイトを用いたデフォーカスぼけ整形処理に関する詳細については、後述する。

撮像装置１０２は、光学系１０２ａと撮像素子１０２ｂを有し、被写体空間を撮像して撮像画像を取得する。光学系１０２ａは、被写体空間から入射した光を集光し、光学像（被写体像）を形成する。撮像素子１０２ｂは、前記光学像を光電変換することによって、撮像画像を取得する。撮像素子１０２ｂは、例えばＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）センサや、ＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌ−ＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）センサなどである。

画像推定装置（画像処理装置）１０３は、記憶部１０３ａ、取得部（取得手段）１０３ｂ、ぼけ整形部（生成手段）１０３ｃ、および、生成部１０３ｄを有する。画像推定装置１０３は、撮像装置１０２で撮像された撮像画像（またはその少なくとも一部）に対して、デフォーカスぼけを整形した推定画像を生成する。デフォーカスぼけ整形には、学習装置１０１で学習済みのウエイトを用いた機械学習モデルを使用する。学習装置１０１と画像推定装置１０３はネットワーク１０７によって接続されており、画像推定装置１０３はデフォーカスぼけ整形時または事前に、学習済みのウエイトの情報を学習装置１０１から読み出す。推定画像は、表示装置１０４、記録媒体１０５、または、出力装置１０６の少なくとも一つに出力される。

表示装置１０４は、例えば液晶ディスプレイやプロジェクタなどである。ユーザは表示装置１０４を介して、処理途中の画像を確認しながら編集作業などを行うことができる。なお、編集作業時のユーザインタフェースの詳細については、後述する。記録媒体１０５は、例えば半導体メモリ、ハードディスク、ネットワーク上のサーバ等であり、推定画像を保存する。出力装置１０６は、プリンタなどである。

次に、図４を参照して、学習装置１０１で実行される学習データの生成に関して説明する。図４は、学習データの生成方法に関するフローチャートである。図４の各ステップは、主に、学習装置１０１の各部により実行される。なお本実施例では、機械学習モデルとしてＣＮＮを使用するが、他のモデルについても同様に適用可能である。

まずステップＳ１０１において、取得部１０１ｂは、原画像を取得する。原画像は、１枚でも複数枚でもよい。原画像は、実写画像やＣＧ（ＣｏｍｐｕｔｅｒＧｒａｐｈｉｃｓ）画像などである。以降のステップで、原画像にデフォーカスぼけを作用させて、訓練画像と正解画像を作り出す。このため、様々な被写体に対して正しくデフォーカスぼけの形状変換が行えるように、原画像は、様々な強度と方向を有するエッジや、テクスチャ、グラデーション、平坦部などを有する画像であることが望ましい。

好ましくは、原画像は、撮像素子１０２ｂの輝度飽和値よりも高い信号値を有しているとよい。これは、実際の被写体においても、特定の露出条件で撮像装置１０２により撮像を行った際、輝度飽和値に収まらない被写体が存在するためである。正解画像と訓練画像は、デフォーカスぼけを作用させた後、撮像素子１０２ｂの輝度飽和値によってクリップすることで、実際の輝度飽和値に収まらない被写体を再現できる。

続いてステップＳ１０２において、生成部（第２の取得手段）１０１ｃは、形状指定情報（すなわち、正解画像のデフォーカスぼけの形状を指定する形状指定情報）を生成（取得）し、記憶部１０１ａに保存する。形状指定情報は、整形後のデフォーカスぼけの大きさ、または種類を指定する。種類とは、ＰＳＦ（ＰｏｉｎｔＳｐｒｅａｄＦｕｎｃｔｉｏｎ）の強度分布の違いによる、ガウスぼけ、玉ぼけ、二線ぼけ等の違いを指す。

ここで、図２５を参照して、二線ぼけ、玉ぼけ、ガウスぼけについて説明する。図２５（Ａ）は、二線ぼけの点像強度分布（ＰＳＦ）を示す図である。図２５（Ａ）において、横軸は空間座標（位置）、縦軸は強度を示す。この点は、後述の図２５（Ｂ）、（Ｃ）に関しても同様である。図２５（Ａ）に示されるように、二線ぼけは、ピークが分離したＰＳＦを有する。デフォーカス距離におけるＰＳＦが図２５（Ａ）のような形状を有する場合、本来は１本の線である被写体が、デフォーカスした際に２重にぼけているように見える。図２５（Ｂ）は、玉ぼけのＰＳＦを示す図である。玉ぼけは、強度がフラットなＰＳＦを有する。図２５（Ｃ）は、ガウスぼけのＰＳＦを示す図である。ガウスぼけは、ガウス分布のＰＳＦを有する。また、大きさとは、ＰＳＦが強度を持つ範囲を指す。

大きさの指定は、仮想的に光学系１０２ａのＦ値（絞り値）を変更することに相当する。Ｆ値を変えると、光学系１０２ａの瞳の大きさが変わるため、デフォーカスぼけの大きさが変わる。デフォーカスぼけを整形する画像処理によって、撮像画像から光学系１０２ａが物理的には取れないＦ値に変更することも可能である。種類の指定は、仮想的に光学系１０２ａを異なるレンズ構成へ変更することに相当する。二線ぼけ、玉ぼけ、ガウスぼけなどのデフォーカスぼけの種類は、光学系１０２ａのレンズ構成によって決まる瞳関数に依存している。すなわち、整形後のデフォーカスぼけの大きさ、または種類の指定は、仮想のレンズパラメータを指定することに相当する。さらに詳述すると、Ｆ値の指定は、瞳関数の広がりを変化させることに相当する。また、二線ぼけ、玉ぼけなどの種類の指定は、瞳関数の振幅または位相を変化させることに相当する。

形状指定情報は、スカラーまたはマップのいずれでもよいが、本実施例ではマップである。形状指定情報がスカラーの場合、画像の領域ごとにデフォーカスぼけの形状を指定することができない。一方、形状指定情報がマップの場合、画像の領域ごとに指定することができる。このため、形状指定情報はマップの方が望ましい。形状指定情報がマップの場合、少なくとも１チャンネル以上であり、デフォーカスぼけの種類と大きさを数値で示し、数値は正規化されている。例えば、ぼけの種類を１チャンネルのマップで指定する場合は、０をガウスぼけとし、１を玉ぼけとすればよい。一方、複数チャンネルのマップで指定する場合、１チャンネル目でガウスぼけにしたい領域を１とし、２チャンネル目では玉ぼけにしたい領域を１とすればよい。また、ぼけの大きさを１チャンネルのマップで指定する場合は、０をＦ１．０相当の大きさとし、１をＦ２．０相当の大きさとすればよい。一方、複数チャンネルのマップで指定する場合、１チャンネル目でＦ２．０相当の大きさにしたい領域を１とし、２チャンネル目ではＦ１．０相当の大きさにしたい領域を１とすればよい。

形状指定情報には平滑化フィルタ等を作用させることが望ましい。これにより、異なる形状を指定している境界部を高精度に整形することができる。また、形状指定情報は、様々なデフォーカスぼけの形状を指定するものを複数生成する。本実施例において、様々なデフォーカスぼけの形状とは、ユーザインタフェースを示す図８中のデフォーカスぼけ形状指定タブ１０４ａで選択可能な形状である。

続いて、図４のステップＳ１０３において、生成部１０１ｃは、訓練画像を生成し、記憶部１０１ａに保存する。訓練画像は、整形の対象とするデフォーカスぼけを原画像に作用させて撮像シミュレーションを行った画像である。あらゆる撮像画像に対応するためには、様々なデフォーカス量に対応するデフォーカスぼけを作用させることが好ましい。デフォーカスぼけの作用は、原画像に対してＰＳＦを畳み込むか、または原画像の周波数特性とＯＴＦ（ＯｐｔｉｃａｌＴｒａｎｓｆｅｒＦｕｎｃｔｉｏｎ）の積をとることで実行できる。また、フォーカス面では、デフォーカスぼけ整形の前後で画像は変化しないことが望ましいので、デフォーカスぼけを作用させない訓練画像と正解画像も生成する。

続いてステップＳ１０４において、生成部１０１ｃは、１枚の訓練画像対して、複数の形状指定情報それぞれに対応した複数の正解画像を生成し、記憶部１０１ａに保存する。正解画像は、原画像に整形後のデフォーカスぼけを作用させて撮像シミュレーションを行った画像である。整形後のデフォーカスぼけの形状は、形状指定情報に対応した、大きさや種類を変えた様々なパターンを用意する。例えば、Ｆ２．０相当の玉ぼけ、Ｆ１．０相当のガウスぼけなどである。正解画像と訓練画像は、未現像のＲＡＷ画像でも現像後の画像でもよい。また、訓練画像、正解画像、形状指定情報の生成する順序は入れ替えてもよい。

なお、学習データの生成には、光学系１０２ａと撮像素子１０２ｂによる実写画像を使用してもよい。例えば、光学系１０２ａを用いて、訓練画像を得る。正解画像は、光学系１０２ａとはデフォーカスぼけ形状の異なる別の結像光学系を用いて、訓練画像と同一の被写体を撮像することで得られる。すなわち、訓練画像と正解画像は、同一の被写体が存在し、異なる形状のデフォーカスぼけを有すればよい。この場合、形状指定情報は、光学系１０２ａとはデフォーカスぼけ形状の異なる別の結像光学系ごとに複数生成し、それぞれ異なる数値を有する。また、上記２つの方法で生成した訓練画像と正解画像から、既定の画素数の部分領域を抽出して学習に用いてもよい。形状指定情報についても、訓練画像と正解画像と同じタイミングで、既定の画素数の部分領域を抽出する。或いは、訓練画像と正解画像から既定の画素数の部分領域を抽出した後に、それに合わせて生成してもよい。

次に、図５を参照して、ウエイトの学習（学習フェーズ）について説明する。図５は、ウエイトの学習（学習モデルの製造方法）に関するフローチャートである。図５の各ステップは、主に、学習装置１０１の各部により実行される。

まずステップＳ１１１において、取得部１０１ｂは、記憶部１０１ａから１組以上の正解画像と訓練入力データを取得する。訓練入力データは、ＣＮＮの学習フェーズにおける入力データである。訓練入力データは、訓練画像と形状指定情報を含む。複数の正解画像のうち、形状指定情報と対応するデフォーカスぼけを有する正解画像を選択して取得する。

続いてステップＳ１１２において、生成部１０１ｃは、訓練入力データをＣＮＮへ入力し、出力画像を生成する。ここで、図１を参照して、本実施例における出力画像の生成に関して説明する。図１は、機械学習モデルの構成を示す図である。訓練入力データは、訓練画像２０１と形状指定情報２０２を含む。訓練画像２０１は、グレースケールでも、複数のチャンネル成分を有していてもよい。

本実施例において、ＣＮＮ（畳み込みニューラルネットワーク）２０６は、１層以上の畳み込み層またはフルコネクション層を有する。学習の初回において、ＣＮＮ２０６のウエイト（フィルタの各要素とバイアスの値）は、乱数によって生成する。連結層（ｃｏｎｃａｔｅｎａｔｉｏｎｌａｙｅｒ）２０５は、訓練画像２０１と形状指定情報２０２をチャンネル方向に規定の順番で連結する。なお、訓練画像２０１と形状指定情報２０２の間に他のデータを連結しても構わない。ＣＮＮ２０６は、訓練画像２０１と形状指定情報２０２を連結した訓練入力データ２０３を入力とし、出力画像２０４を生成する。ステップＳ１１１で、複数組の訓練入力データを取得している場合、それぞれに対して出力画像２０４を生成する。同一の訓練画像２０１に対しても、出力画像２０４は形状指定情報２０２によって異なる。訓練画像２０１または形状指定情報２０２をネットワークに入力する位置に制限はない。また、形状指定情報２０２をサブネットワークで特徴マップに変換してから入力してもよい。例えば、形状指定情報２０２をサブネットワークで特徴マップに変換し、ＣＮＮ２０６の中間層から入力してもよい。なお、形状指定情報がスカラーの場合、スカラーをサブネットワークで特徴マップに変換してから、図１の形状指定情報２０２と同様に処理を行う。

続いて、図５のステップＳ１１３において、更新部１０１ｄは、出力画像と正解画像の誤差から、ＣＮＮのウエイトを更新する。本実施例では、出力画像と正解画像における信号値の差のユークリッドノルムをロス関数とする。ただし、ロス関数はこれに限定されるものではない。ステップＳ１１１にて複数組の訓練入力データと正解画像を取得している場合、各組に対してロス関数の値を算出する。算出されたロス関数の値から、誤差逆伝播法（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）などによってウエイトの更新を行う。

続いてステップＳ１１４において、更新部１０１ｄは、ウエイトの学習が完了したかを判定する。完了は、学習（ウエイトの更新）の反復回数が規定の回数に達したかや、更新時のウエイトの変化量が規定値より小さいかなどによって、判定することができる。未完と判定された場合はステップＳ１１１へ戻り、１組以上の新たな訓練入力データと正解画像を取得する。完了と判定された場合は学習を終了し、ウエイトの情報を記憶部１０１ａに保存する。

次に、画像推定装置１０３で実行される撮像画像のデフォーカスぼけ整形（推定フェーズ）とユーザインタフェースに関して説明する。本実施例では、ユーザが撮像画像内のデフォーカスぼけを整形する領域である、置換領域を決定する。そして、生成部１０３ｄが置換領域を推定画像で置換することで、ユーザの指定した任意の領域のデフォーカスぼけを整形した画像を生成することができる。図８に示されるように、表示装置１０４は、デフォーカスぼけ形状指定タブ１０４ａ、ブラシ１０４ｂ、撮像画像１０４ｃを表示する。ユーザは、表示装置１０４の表示を確認しながら、デフォーカスぼけの整形を行うことができる。

まず、図６を参照して、推定画像の生成について説明する。図６は、推定画像の生成に関するフローチャートである。図６の各ステップは、主に、画像推定装置１０３の各部により実行される。

まずステップＳ２０１において、取得部１０３ｂは、撮像画像とウエイトの情報を取得する。取得する撮像画像は、撮像画像全体の一部分でもよい。ウエイトの情報は、予め記憶部１０１ａから読み出され、記憶部１０３ａに記憶されている。

続いてステップＳ２０２において、取得部１０３ｂは、撮像画像のデフォーカスマップを取得する。デフォーカスマップは、撮像画像において被写体に作用したデフォーカスぼけの情報を示すマップであり、被写体のデフォーカス量を数値で示す。デフォーカスマップは、視差画像の撮像やＤＦＤ（ＤｅｐｔｈｆｒｏｍＤｅｆｏｃｕｓ）などを利用することで取得できる。デフォーカスマップの役割は主に２つある。１つは、各被写体のデフォーカス量が異なることを利用して、撮像画像に混在する被写体の領域を抽出し、置換領域の決定に用いることである。もう１つは、機械学習モデルに入力し、ピント位置の被写体とデフォーカスぼけを高精度に区別した整形を可能にすることである。本実施例では、前者の、撮像画像に混在する被写体の領域を抽出するために利用する。なお、後者の詳細については後述する。

続いてステップＳ２０３において、生成部１０３ｄは、デフォーカスぼけの形状指定タブ１０４ａで選択できる形状に対応した、形状指定情報を生成する。本実施例では、ユーザが置換領域を指定するため、形状指定情報は、空間的に分布を持たず、マップ内全て同じ値でよい。

続いてステップＳ２０４において、ぼけ整形部１０３ｃは、入力データをＣＮＮに入力し、推定画像を生成する。入力データは、撮像画像と、推定画像のデフォーカスぼけの形状を指定する形状指定情報とを含む。推定画像は、撮像画像のデフォーカスぼけが整形された画像であり、その形状は形状指定情報で決定される。学習時と同様に、図１に示されるＣＮＮ２０６を用いて推定画像を生成する。ＣＮＮ２０６においては、取得された学習済みのウエイトが使用される。図８中のデフォーカスぼけ形状指定タブ１０４ａで選択できるデフォーカスぼけに対応した複数の形状指定情報に対して、それぞれ推定画像を生成する。ここで、デフォーカスぼけの大きさ、または種類を指定する第１の形状指定情報と第１の形状指定情報とは異なるデフォーカスぼけの大きさ、または種類を指定する第２の形状指定情報に対して、ＣＮＮは同一のウエイトを用いる。生成された複数の推定画像は、記憶部１０３ａに保存される。

次に、図７および図８を参照して、ユーザによる撮像画像の編集について説明する。図７は、撮像画像の編集に関するフローチャートである。図７の各ステップは、主に、画像推定装置１０３の各部により実行される。

まずステップＳ２１１において、取得部１０３ｂは、図８に示される形状指定タブ１０４ａを用いてユーザが指定した、整形後のデフォーカスの形状を指定する情報を取得する。

続いてステップＳ２１２において、取得部１０３ｂは、ユーザがブラシ１０４ｂを用いて選択した、撮像画像１０４ｃの領域情報（置換領域）を取得する。この領域は、ユーザが１画素ずつ決定するか、ユーザがブラシ１０４ｂで大まかに選択した領域から、撮像画像の信号値の分布またはデフォーカスマップに基づいて決定する。撮像画像の信号値の分布またはデフォーカスマップに基づくことで、整形の対象とする被写体領域を抽出することができる。撮像画像の信号値の分布に基づくとは、撮像画像の画素値が不連続に変化している箇所を特定し、被写体の領域を抽出することである。

続いてステップＳ２１３において、生成部１０３ｄは、ユーザが選択した置換領域を、指定されたデフォーカスぼけの形状をした推定画像で置換する。このように本実施例では、撮像画像に対する置換領域に関する情報を取得し、撮像画像の置換領域を推定画像で置換する。これにより、置換領域が選択されるたびに推定画像を生成するよりも、推定画像を生成する回数が減り、短時間でユーザが好むデフォーカスぼけへの整形が可能になる。推定画像は、記憶部１０３ａに保存したものを使用する。

以上の構成により、学習負荷と保持データ量を抑制しつつ、デフォーカスぼけの形状を整形することができる。ただし、ユーザが形状指定タブ１０４ａとブラシ１０４ｂとで選択したデフォーカスぼけの形状と置換領域から形状指定情報のマップを生成し、ステップＳ２０４を実行する構成としてもよい。形状指定情報が空間的に異なる分布を有する場合に関しては、実施例２以降で詳述する。

次に、本実施例の効果を高める好ましい条件に関して説明する。入力データはさらに、輝度飽和マップを含むことが望ましい。輝度飽和マップは、画像の輝度飽和画素領域を示し、画像と同じサイズである。学習フェーズでは、訓練画像から輝度飽和マップを生成する。推定フェーズでは、撮像画像から輝度飽和マップを生成する。輝度飽和部には、輝度飽和による被写体の構造とは異なる偽エッジが存在するため、機械学習モデルはこれを、高周波成分を有するデフォーカスぼけやピント位置など、エッジを有するものと区別することが難しい。輝度飽和マップにより、輝度飽和部と高周波成分を有するデフォーカスぼけ、ピント位置を機械学習モデルが区別できるようになり、高精度な整形が可能になる。なお、高周波成分を有するデフォーカスぼけは、二線ぼけなど鋭いピークを持ったＰＳＦが作用した際に発生しやすい。

入力データはさらに、デフォーカスマップを含むことが望ましい。デフォーカスマップは、撮像画像における被写体に作用したデフォーカスぼけの情報を示すマップである。学習フェーズでは、訓練画像に作用させたデフォーカスぼけに対応するデフォーカス量を数値に換算する。例えば、フォーカス面を０とし、撮像装置から離れる方向を負、近づく方向を正とすればよい。推定フェーズでは、視差画像の撮像やＤＦＤ（ＤｅｐｔｈｆｒｏｍＤｅｆｏｃｕｓ）などを利用して撮像画像のデフォーカスマップを取得する。このときのデフォーカスマップの数値は、学習フェーズでの数値と対応させる。デフォーカスマップにより、ピント位置の被写体とデフォーカスぼけを高精度に区別した整形が可能になる。デフォーカスマップが無い場合は、ピント位置の被写体と高周波成分を有するデフォーカスぼけが区別できず、ピント位置の被写体がぼけてしまう。

入力データはさらに、ステートマップを含むことが望ましい。ステートマップは、撮像時の光学系１０２ａの状態を（Ｚ，Ｆ，Ｄ）で表した情報である。（Ｚ，Ｆ，Ｄ）において、Ｚはズーム、Ｆは絞り、Ｄはフォーカス距離に対応する。

入力データはさらに、位置マップを含むことが望ましい。位置マップは、画像の各画素に対する像面座標を示すマップである。位置マップは、極座標系（像高とアジムスに対応）でもよい。

デフォーカスぼけはレンズステートおよび像高・アジムスによって変化する。ＣＮＮは学習データに含まれる全てのデフォーカスぼけを平均的に整形するように学習されるため、異なる形状のデフォーカスぼけ各々に対する整形の精度は低下する。そこで、ステートマップと位置マップを機械学習モデルに入力することで、撮像画像に作用しているＰＳＦを機械学習モデルが特定することができる。これによって、学習フェーズでは、機械学習モデルは、学習の訓練画像に様々な形状のデフォーカスぼけが含まれていても、それらのデフォーカスぼけを平均的に整形するようなウエイトでなく、デフォーカスぼけの形状ごとに異なる整形を行うウエイトを学習する。これにより、推定フェーズでは、各デフォーカスぼけに対して高精度な整形が可能となる。このため、整形の精度低下を抑制して、様々な形状のデフォーカスぼけを整形可能な学習データを一括で学習することができる。

次に、図１０および図１１を参照して、本発明の実施例２における画像処理システムに関して説明する。図１０は、本実施例における画像処理システム３００のブロック図である。図１１は、画像処理システム３００の外観図である。

画像処理システム３００は、学習装置３０１、撮像装置３０２、画像推定装置３０３、および、ネットワーク３０４、３０５を有する。学習装置３０１は、記憶部３０１ａ、取得部３０１ｂ、生成部３０１ｃ、および、更新部３０１ｄを有し、デフォーカスぼけ整形に用いる機械学習モデルのウエイトを学習する。なお、ウエイトの学習、およびウエイトを用いたデフォーカスぼけ整形に関する詳細については後述する。

撮像装置３０２は、光学系３０２ａ、撮像素子３０２ｂ、取得部３０２ｃ、記録媒体３０２ｄ、表示部３０２ｅ、および、システムコントローラ３０２ｆを有する。光学系３０２ａは、被写体空間から入射した光を集光し、光学像（被写体像）を形成する。撮像素子３０２ｂは、光学像を光電変換によって電気信号へ変換し、撮像画像を生成する。

画像推定装置（画像処理装置）３０３は、記憶部３０３ａ、ぼけ整形部（生成手段）３０３ｂ、取得部（取得手段）３０３ｃ、および、生成部３０３ｄを有する。画像推定装置３０３は、撮像装置３０２で撮像された撮像画像（またはその少なくとも一部）に対して、デフォーカスぼけを整形した推定画像を生成する。推定画像の生成には、学習装置３０１で学習された学習済みのウエイトの情報が用いられる。ウエイトの情報は、記憶部３０３ａに記憶されている。取得部３０２ｃは推定画像を取得し、記録媒体３０２ｄは推定画像を保存する。システムコントローラ３０２ｆは、撮像装置３０２の一連の動作を制御する。

次に、図１２を参照して、学習装置３０１で行うウエイトの学習（学習フェーズ）に関して説明する。図１２は、ウエイトの学習（学習モデルの製造方法）に関するフローチャートである。図１２の各ステップは、主に、学習装置３０１の各部により実行される。本実施例では、機械学習モデルとしてＧＡＮを使用するが、他のモデルについても同様に適用可能である。ＧＡＮとは、画像を生成する生成器と、生成された画像を識別する識別器で構成される、敵対的生成ネットワークである。なお本実施例において、実施例１と同様の箇所の説明は省略する。

まずステップＳ３０１において、取得部３０１ｂは、１組以上の正解画像と訓練入力データを記憶部３０１ａから取得する。正解画像と訓練画像の生成は、実施例１と同様である。ここで、図９を参照して、本実施例における訓練入力データの生成に関して説明する。図９は、機械学習モデルとしてのＧＡＮの構成を示す図である。連結層４０６は、訓練画像４０１と形状指定情報４０２をチャンネル方向に既定の順序で連結し、訓練入力データ４０３を生成する。

続いて、図１０のステップＳ３０２において、生成部３０１ｃは、訓練入力データ４０３を生成器４０７に入力して、出力画像４０４を生成する。生成器４０７は、例えばＣＮＮである。続いてステップＳ３０３において、更新部３０１ｄは、出力画像４０４と正解画像４０５の誤差から、生成器４０７のウエイトを更新する。ロス関数には、各画素における差分のユークリッドノルムを使用する。続いてステップＳ３０４において、更新部３０１ｄは、第１の学習が完了したか否かを判定する。第１の学習が完了していない場合、ステップＳ３０１へ戻る。一方、第１の学習が完了した場合、ステップＳ３０５へ進み、第２の学習を実行する。

続いてステップＳ３０５において、取得部３０１ｂは、ステップＳ３０１と同様に、１組以上の正解画像４０５と訓練入力データ４０３を記憶部３０１ａから取得する。続いてステップＳ３０６において、生成部３０１ｃは、ステップＳ３０２と同様に、訓練入力データ４０３を生成器４０７に入力して、出力画像４０４を生成する。

ステップＳ３０７において、更新部３０１ｄは、出力画像４０４と正解画像４０５から識別器４０８のウエイトを更新する。識別器４０８は、入力された画像が生成器４０７によって生成されたフェイク画像か、正解画像４０５であるリアル画像かを識別する。出力画像４０４または正解画像４０５を識別器４０８に入力し、識別ラベル（フェイクかリアルか）を生成する。識別ラベルと正解ラベル（出力画像４０４はフェイク、正解画像４０５がリアル）の誤差に基づいて、識別器４０８のウエイトを更新する。ロス関数にはｓｉｇｍｏｉｄｃｒｏｓｓｅｎｔｒｏｐｙを使用するが、その他のロス関数を用いてもよい。

続いてステップＳ３０８において、更新部３０１ｄは、出力画像４０４と正解画像４０５から生成器４０７のウエイトを更新する。ロス関数は、ステップＳ３０３のユークリッドノルムと、以下の２項の重み付き和とする。１項目はＣｏｎｔｅｎｔＬｏｓｓと呼ばれる、出力画像４０４と正解画像４０５を特徴マップに変換し、その要素毎の差分のユークリッドノルムをとった項である。特徴マップでの差分をロス関数に加えることで、出力画像４０４のより抽象的な性質を正解画像４０５へ近づけることができる。２項目はＡｄｖｅｒｓａｒｉａｌＬｏｓｓと呼ばれる、出力画像４０４を識別器４０８へ入力して得られた識別ラベルのｓｉｇｍｏｉｄｃｒｏｓｓｅｎｔｒｏｐｙである。識別器４０８が、リアルと識別するように学習することで、より主観的に正解画像４０５らしく見える出力画像４０４が得られるようになる。

続いてステップＳ３０９において、更新部３０１ｄは、第２の学習が完了したか否かを判定する。ステップＳ３０４と同様に、第２の学習が完了していない場合、ステップＳ３０５へ戻る。一方、第２の学習が完了した場合、学習済みの生成器４０７のウエイトの情報を記憶部３０１ａに記憶する。

次に、図１３および図１４を参照して、画像推定装置３０３で実行されるデフォーカスぼけ整形（推定フェーズ）とユーザインタフェースに関して説明する。図１３は、本実施例における推定画像の生成に関するフローチャートである。図１４は、本実施例におけるユーザインタフェースを示す図である。本実施例では、ユーザはしきい値を指定して撮像画像の領域を分割し、分割した領域ごとにデフォーカスぼけの形状を指定することでデフォーカスぼけを整形することができる。

図１４に示されるように、表示部３０２ｅは、撮像画像３０２ｅ−１、輝度値ヒストグラム３０２ｅ−２、領域分割画像３０２ｅ−３、および、デフォーカスぼけ形状指定タブ３０２ｅ−４を表示する。本実施例における撮像画像３０２ｅ−１は、ピント位置に人物を有し、背景の高輝度被写体とその他被写体がデフォーカスぼけしている。

まず、図１３のステップＳ４０１において、取得部３０３ｃは、撮像画像（またはその少なくとも一部）を取得する。続いてステップＳ４０２において、取得部３０３ｃは、ユーザが撮像画像３０２ｅ−１のヒストグラム３０２ｅ−２を見て指定したしきい値を取得する。続いてステップＳ４０３において、生成部３０３ｄは、取得したしきい値に基づき、領域分割画像３０２ｅ−３を生成する。例えば、０から２５５までの輝度値を持つ撮像画像に対して、２５０から２５５を領域Ａ、０から２５０を領域Ｂとする。これにより、背景の高輝度被写体とその他被写体を分割することができる。画像内一律にデフォーカスぼけ整形する場合は、領域分割はしなくてもよい。

続いてステップＳ４０４において、取得部３０３ｃは、ユーザがデフォーカスぼけの形状指定タブ３０２ｅ−４で指定した、整形後のデフォーカスぼけの形状を取得する。形状は、ステップＳ４０３で分割した領域ごとに指定する。指定する情報は大きさ、種類である。大きさは、Ｆ１．０またはＦ２．０のように指定する。種類は、ガウスぼけまたは玉ぼけのように各種デフォーカスぼけ形状を指定する。例えば、領域ＡをＦ１．０の玉ぼけ、領域ＢをＦ２．０のガウスぼけと指定する。

続いてステップＳ４０５において、生成部３０３ｄは、取得した領域分割情報と整形後のデフォーカスぼけの形状を指定する情報に基づき、形状指定情報を生成する。続いてステップＳ４０６において、取得部３０３ｃは、入力データと学習済みのウエイトの情報を取得する。入力データは、撮像画像と形状指定情報を含む。ウエイトの情報は、予め記憶部３０１ａから読み出され、記憶部３０３ａに記憶されている。

続いてステップＳ４０７において、ぼけ整形部３０３ｂは、入力データをＣＮＮに入力し、推定画像を生成する。ステップＳ４０４において、領域ＡをＦ１．０の玉ぼけ、領域ＢをＦ２．０のガウスぼけと指定した場合、撮像画像３０２ｅ−１のデフォーカスぼけを、指定した形状に整形した推定画像を生成することができる。

以上の構成により、学習負荷と保持データ量を抑制しつつ、デフォーカスぼけの形状を様々な形状に整形することができる。

次に、図１６および図１７を参照して、本発明の実施例３における画像処理システムに関して説明する。図１６は、本実施例における画像処理システム５００のブロック図である。図１７は、画像処理システム５００の外観図である。

画像処理システム５００は、学習装置５０１、撮像装置５０２、レンズ装置５０３、制御装置（第１の装置）５０４、画像推定装置（第２の装置）５０５、および、ネットワーク５０６、５０７を有する。制御装置５０４と画像推定装置５０５は、ネットワーク５０６を介して互いに通信可能である。学習装置５０１と画像推定装置５０５は、ネットワーク５０７を介して互いに通信可能である。学習装置５０１および画像推定装置５０５はそれぞれ、例えばサーバである。制御装置５０４は、ユーザ端末（スマートフォン、タブレットなど）である。学習装置５０１は、記憶部５０１ａ、取得部５０１ｂ、生成部５０１ｃ、および、更新部５０１ｄを有し、撮像装置５０２を用いて撮像された撮像画像のデフォーカスぼけを整形する機械学習モデルのウエイトを学習する。なお、学習に関する詳細については、後述する。

撮像装置５０２は撮像素子５０２ａを有し、撮像素子５０２ａがレンズ装置５０３の形成した光学像を光電変換して撮像画像を取得する。レンズ装置５０３は撮像装置５０２に対して着脱可能であり、レンズ装置５０３と撮像装置５０２は互いに複数種類と組み合わることができる。制御装置５０４は、通信部５０４ａ、表示部５０４ｂ、記憶部５０４ｃ、および、取得部５０４ｄを有し、有線または無線で接続された撮像装置５０２から取得した撮像画像に対して、実行する処理をユーザの操作に従って制御する。または、撮像装置５０２で撮像した撮像画像を予め記憶部５０４ｃに記憶しておき、記憶した撮像画像を読み出してもよい。

画像推定装置５０５は、通信部５０５ａ、取得部（取得手段）５０５ｂ、記憶部５０５ｃ、および、整形部（生成手段）５０５ｄを有する。画像推定装置５０５は、ネットワーク５０６を介して接続された制御装置５０４の要求に応じて、撮像画像のデフォーカスぼけ整形処理を実行する。画像推定装置５０５は、ネットワーク５０７を介して接続された学習装置５０１から、学習済みのウエイトの情報をデフォーカスぼけ整形時または予め取得し、撮像画像のデフォーカスぼけ整形に用いる。デフォーカスぼけ整形後の推定画像は、再び制御装置５０４へ伝送されて、記憶部５０４ｃに記憶され、表示部５０４ｂに表示される。

次に、学習装置５０１で行うウエイトの学習（学習フェーズ）に関して説明する。本実施例における形状指定情報の入力方法は、実施例１と異なる。なお、ウエイトの学習に関するフローチャートの各ステップは、図５と同様である。

図１５を参照して、形状指定情報の入力方法を説明する。図１５は、本実施例における機械学習モデルの構成を示す図である。訓練入力データは、訓練画像６０１と形状指定情報６０２である。訓練画像６０１と形状指定情報６０２をそれぞれ、サブネットワーク６０７、６０８を用いて特徴マップ６０３、６０４へ変換する。連結層６０９は、特徴マップ６０３と特徴マップ６０４をチャンネル方向に既定の順序で連結する。ＣＮＮ６１０は、連結した特徴マップ６０３と特徴マップ６０４を入力とし、出力画像６０５を生成する。

次に、図１８および図１９を参照して、本実施例における制御装置５０４と画像推定装置５０５で実行される撮像画像のデフォーカスぼけ整形（推定フェーズ）とユーザインタフェースに関して説明する。図１８は、本実施例における推定画像の生成に関するフローチャートである。図１８の各ステップは、主に、画像推定装置５０５の各部により実行される。図１９は、本実施例におけるユーザインタフェースを示す図である。

本実施例では、ユーザは事前に設定したモードを選択することで、撮像画像のデフォーカスぼけを整形することができる。図１９に示されるように、表示部５０４ｂは、モード選択タブ５０４ｂ−１および撮像画像５０４ｂ−２を表示する。本実施例における撮像画像５０４ｂ−２は、ピント位置に３名の人物を有し、背景がデフォーカスぼけしている。

まず、図１８のステップＳ５０１において、取得部５０４ｄは、ユーザがモード選択タブ５０４ｂ−１で選択した情報を取得する。例えば、（１）全てガウスぼけ（Ｆ値１．０）、（２）全て玉ぼけ（Ｆ値２．０）、（３）輝度飽和部は玉ぼけ、その他はガウスぼけ（Ｆ値１．０）の３つを選択可能なモードとして事前に設定しておく。モードの選択は、形状指定情報の選択に相当する。その他のモードとして、デフォーカスマップのデフォーカス量に応じて領域分割し、デフォーカス量が大きい領域ほどＦ値を下げるような設定をしてもよい。これにより、距離感を強調した画像を作成することができる。

続いてステップＳ５０２において、通信部（送信手段）５０４ａは、画像推定装置５０５へ、撮像画像、デフォーカスマップ、選択されたモードの情報、および、推定画像を生成する要求（撮像画像に対する処理の実行に関する要求）を送信する。デフォーカスマップは、実施例１に記載した方法で生成することができる。

続いてステップＳ５０３において、通信部５０５ａは、送信された撮像画像、デフォーカスマップ、モードの情報、および、処理の要求を受信し、取得する。続いてステップＳ５０４において、取得部５０５ｂは、学習済みのウエイトの情報を記憶部５０５ｃから取得する。ウエイトの情報は、予め記憶部５０１ａから読み出され、記憶部５０５ｃに記憶されている。続いてステップＳ５０５において、取得部５０５ｂは、撮像画像から輝度飽和マップを取得する。

続いてステップＳ５０６において、整形部５０５ｄは、選択されたモードの情報から形状指定情報を生成する。形状指定情報の生成には、輝度飽和マップまたはデフォーカスマップを利用することが望ましい。輝度飽和マップまたはデフォーカスマップに基づいた場合は、被写体領域を抽出することができ、形状指定情報は空間的に分布を有する。しかし、輝度飽和マップまたはデフォーカスマップのみで被写体領域を抽出すると、被写体領域に欠損が発生する可能性がある。例えば、街灯などの光源領域を輝度飽和マップで抽出しようとすると、光源の輝度ムラや作用しているデフォーカスぼけの分布により、一部が輝度飽和していない場合がある。その際は、オープニング処理を用いることで、領域の欠損を埋めることができる。このため、被写体領域の抽出には、オープニング処理を用いることが望ましい。

続いてステップＳ５０７において、整形部５０５ｄは、入力データをＣＮＮに入力し、撮像画像のデフォーカスぼけを整形した推定画像を生成する。入力データは、撮像画像と形状指定情報を含む。ステップＳ５０１において、（１）全てガウスぼけ（Ｆ値１．０）を選択した場合、撮像画像５０４ｂ−２のデフォーカスぼけを、Ｆ１．０のガウスぼけに整形した推定画像を生成することができる。続いてステップＳ５０８において、通信部５０５ａは、推定画像を制御装置５０４へ送信する。

続いてステップＳ５０９において、通信部５０４ａは、送信された推定画像を取得し、記憶部５０４ｃへ保存する。または、ステップＳ５０２において、撮像画像と事前に設定した選択可能なモードの推定画像を全て生成する要求を送信し、以降のステップで生成された複数の推定画像を記憶部５０５ｃに保存してもよい。ユーザによってモードが選択された場合、該当する推定画像を制御装置５０４へ送信する。

次に、図２１および図２２を参照して、本発明の実施例４における画像処理システムに関して説明する。図２１は、画像処理システム７００のブロック図である。図２２は、画像処理システム７００の外観図である。

画像処理システム７００は、学習装置７０１、撮像装置７０２、レンズ装置７０３、制御装置（第１の装置）７０４、画像推定装置（第２の装置）７０５、および、ネットワーク７０６、７０７を有する。学習装置７０１は、記憶部７０１ａ、取得部７０１ｂ、生成部７０１ｃ、および、更新部７０１ｄを有する。撮像装置７０２は、撮像素子７０２ａを有する。制御装置７０４は、通信部７０４ａ、表示部７０４ｂ、記憶部７０４ｃ、および、取得部７０４ｄを有する。画像推定装置７０５は、通信部７０５ａ、取得部（取得手段）７０５ｂ、記憶部７０５ｃ、および、整形部（生成手段）７０５ｄを有する。なお、画像処理システム７００における各装置の構成および動作は実施例３の画像処理システム５００と同様のため、それらの説明を省略する。本実施例では、ユーザ端末としてパーソナルコンピュータを使用する。

次に、学習装置７０１で行うウエイトの学習（学習フェーズ）に関して説明する。本実施例は、形状指定情報の入力方法の点で、実施例１と異なる。その他のステップは同様である。

図２０を参照して、形状指定情報の入力方法を説明する。図２０は、本実施例における機械学習モデルの構成を示す図である。訓練入力データは、訓練画像８０１と形状指定情報８０２である。本実施例において、形状指定情報８０２は、サブネットワーク８０６を用いて特徴マップ８０３に変換する。連結層８０７は、訓練画像８０１と特徴マップ８０３をチャンネル方向に既定の順序で連結する。ＣＮＮ８０８は、連結した訓練画像８０１と特徴マップ８０３を入力とし、出力画像８０４を生成する。

次に、図２３および図２４を参照して、制御装置７０４と画像推定装置７０５で実行される撮像画像のデフォーカスぼけ整形（推定フェーズ）とユーザインタフェースに関して説明する。図２３は、本実施例における推定画像の生成に関するフローチャートである。図２３の各ステップは、主に、画像推定装置７０５の各部により実行される。図２４は、本実施例におけるユーザインタフェースを示す図である。

本実施例では、ユーザはカーソル等で撮像画像を領域分割し、分割した領域ごとにデフォーカスぼけ形状を指定することでデフォーカスぼけを整形することができる。図２４に示されるように、表示部７０４ｂは、撮像画像７０４ｂ−１、領域分割画像７０４ｂ−２、および、デフォーカスぼけ形状指定タブ７０４ｂ−３を表示する。本実施例における撮像画像７０４ｂ−１は、ピント位置に人物を有し、背景の高輝度被写体とその他被写体がデフォーカスぼけしている。

まず、図２３のステップＳ６０１において、取得部７０４ｄは、ユーザが指定した領域分割に関する情報を取得して、撮像画像の領域分割を行う。ユーザは、表示部７０４ｂを見ながら撮像画像の領域分割に関する情報を指定する。例えば、領域Ａを抽出したい場合、ユーザは領域Ａの周囲をカーソル等で大まかに選択する。続いて、大まかに選択された領域から、輝度飽和マップまたはデフォーカスマップを利用して、領域Ａを取得する。取得（抽出）しようとする領域が輝度飽和部である場合、輝度飽和マップを用いる。また、取得しようとする領域が特定の被写体の領域である場合、デフォーカスマップを用いる。また、輝度飽和した領域を取得する場合、デフォーカスマップでは輝度飽和部以外の領域が含まれる可能性があるため、輝度飽和マップを用いる。ユーザがカーソル等で領域を高精度に指定することは難しいため、このようなマップを用いる。

続いてステップＳ６０２において、取得部７０４ｄは、ユーザが指定した整形後のデフォーカスぼけの形状に関する情報を取得する。これは、ユーザがぼけ形状指定タブ７０４ｂ−３を用いて、分割した領域ごとに指定する。例えば、領域ＡはＦ１．４の玉ぼけ、領域ＢはＦ２．８のガウスぼけと指定する。続いてステップＳ６０３において、通信部（送信手段）７０４ａは、画像推定装置７０５へ撮像画像、推定画像を生成する要求（撮像画像に対する処理の実行に関する要求）、領域分割に関する情報、整形後のデフォーカスぼけの形状に関する情報を送信する。

続いてステップＳ６０４において、通信部７０５ａは、送られてきた撮像画像、処理の要求、領域分割に関する情報、整形後のデフォーカスぼけの形状に関する情報を受信し、取得する。続いてステップＳ６０５において、取得部（取得手段）７０５ｂは、学習済みのウエイトの情報を記憶部７０５ｃから取得する。ウエイトの情報は、予め記憶部７０１ａから読み出され、記憶部７０５ｃに記憶されている。続いてステップＳ６０６において、整形部（生成手段）７０５ｄは、領域分割に関する情報、整形後のデフォーカスぼけの形状に関する情報に基づき形状指定情報を生成する。続いてステップＳ６０７において、整形部７０５ｄは、入力データをＣＮＮに入力し、デフォーカスぼけが整形された推定画像を生成する。ステップＳ６０２にて、領域ＡはＦ１．４の玉ぼけ、領域ＢはＦ２．８のガウスぼけと指定した場合、撮像画像７０４ｂ−１のデフォーカスぼけを、指定した形状に整形した推定画像を生成することができる。

続いてステップＳ６０８において、通信部７０５ａは、推定画像を制御装置７０４へ送信する。そしてステップＳ６０９において、通信部７０４ａは、送信されてきた推定画像を取得し、記憶部７０４ｃへ保存する。

（その他の実施例）
本発明は、上述の実施例の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

各実施例によれば、機械学習モデルの学習負荷と保持データ量の増大を抑制しつつ、撮像画像のデフォーカスぼけを種々の形状に（ユーザの好みに合わせて）整形することが可能な画像処理方法を提供することができる。また各実施例によれば、同様の効果を得るためのプログラム、画像処理装置、画像処理システム、および、学習済みモデルの製造方法を提供することができる。

以上、本発明の好ましい実施例について説明したが、本発明はこれらの実施例に限定されたものではなく、その要旨の範囲内で様々な変形、及び変更が可能である。

１０３画像推定装置（画像処理装置）
１０３ｂ取得部（取得手段）
１０３ｃぼけ整形部（生成手段）

Claims

撮像画像のデフォーカスぼけの形状を整形した推定画像を生成する画像処理方法であって、
前記撮像画像と、前記推定画像のデフォーカスぼけの形状を指定する形状指定情報と、を含む入力データを取得する第１の工程と、
前記入力データに基づいて前記推定画像を生成する第２の工程と、を有することを特徴とする画像処理方法。
前記形状指定情報は、前記デフォーカスぼけの大きさ、または種類を指定する情報を含むことを特徴とする請求項１に記載の画像処理方法。
前記大きさおよび種類は、仮想のレンズパラメータに相当することを特徴とする請求項２に記載の画像処理方法。
前記形状指定情報は、前記撮像画像の信号値に基づいて決定されることを特徴とする請求項１乃至３のいずれか一項に記載の画像処理方法。
前記形状指定情報は、前記撮像画像の信号値の分布に基づいて決定されることを特徴とする請求項４に記載の画像処理方法。
前記形状指定情報は、前記撮像画像のデフォーカスマップに基づいて決定されることを特徴とする請求項１乃至５のいずれか一項に記載の画像処理方法。
前記形状指定情報は、空間的に分布を持つことを特徴とする請求項１乃至６のいずれか一項に記載の画像処理方法。
前記形状指定情報は、少なくとも１チャンネル以上のマップであり、デフォーカスぼけの大きさ、または種類を数値で示し、前記数値は正規化されていることを特徴とする請求項１乃至７のいずれか一項に記載の画像処理方法。
前記撮像画像に対する置換領域に関する情報を取得し、前記撮像画像の前記置換領域を前記推定画像で置換する第３の工程を更に有することを特徴とする請求項１乃至８のいずれか一項に記載の画像処理方法。
前記置換領域は、前記撮像画像の信号値またはデフォーカスマップに基づいて決定されることを特徴とする請求項９に記載の画像処理方法。
前記入力データは、更に、前記撮像画像のデフォーカスマップまたは輝度飽和マップを含むことを特徴とする請求項１乃至１０のいずれか一項に記載の画像処理方法。
前記第２の工程において、前記入力データを予め学習された機械学習モデルに入力し、前記推定画像を生成することを特徴とする請求項１乃至１１のいずれか一項に記載の画像処理方法。
前記機械学習モデルは、デフォーカスぼけの大きさ、または種類を指定する第１の形状指定情報と、前記第１の形状指定情報とは異なる前記デフォーカスぼけの大きさ、または種類を指定する第２の形状指定情報と、に対して、同一のウエイトを用いることを特徴とする請求項１２に記載の画像処理方法。
請求項１乃至１３のいずれか一項に記載の画像処理方法をコンピュータに実行させることを特徴とするプログラム。
撮像画像のデフォーカスぼけの形状を整形した推定画像を生成する画像処理装置であって、
前記撮像画像と、前記推定画像のデフォーカスぼけの形状を指定する形状指定情報と、を含む入力データを取得する取得手段と、
前記入力データに基づいて前記推定画像を生成する生成手段と、を有することを特徴とする画像処理装置。
同一の被写体が存在し、異なる形状のデフォーカスぼけを有する訓練画像と正解画像を取得する工程と、
前記正解画像のデフォーカスぼけの形状を指定する形状指定情報を取得する工程と、
前記訓練画像と前記正解画像と前記形状指定情報とに基づいて、機械学習モデルを学習する工程と、を有する学習モデルの製造方法。
同一の被写体が存在し、異なる形状のデフォーカスぼけを有する訓練画像と正解画像を取得する第１の取得手段と、
前記正解画像のデフォーカスぼけの形状を指定する形状指定情報を取得する第２の取得手段と、
前記訓練画像と前記正解画像と前記形状指定情報に基づいて、機械学習モデルを学習する学習手段と、を有することを特徴とする画像処理装置。
互いに通信可能な第１の装置と第２の装置を有する画像処理システムであって、
前記第１の装置は、撮像画像に対する処理の実行に関する要求を前記第２の装置へ送信する送信手段を有し、
前記第２の装置は、
前記要求を受信する受信手段と、
前記撮像画像と、推定画像のデフォーカスぼけの形状を指定する形状指定情報と、を含む入力データを取得する取得手段と、
前記要求に応じて、前記入力データに基づいて前記撮像画像のデフォーカスぼけの形状を整形した前記推定画像を生成する生成手段と、を有することを特徴とする画像処理システム。