JP2022175419A

JP2022175419A - 画像処理方法、画像処理装置、プログラム、学習済みモデルの製造方法、および画像処理システム

Info

Publication number: JP2022175419A
Application number: JP2021081785A
Authority: JP
Inventors: 良範木村; Yoshinori Kimura
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2021-05-13
Filing date: 2021-05-13
Publication date: 2022-11-25
Also published as: US20220368877A1

Abstract

【課題】ＤＬを用いて２視点画像から高精度にリフォーカス画像を生成する画像処理方法を提供する。【解決手段】画像処理方法は、視差情報を有する少なくとも１枚の第１の画像とリフォーカス情報とを取得する第１の工程（Ｓ２０１、Ｓ２０２）と、第１の画像とリフォーカス情報とを機械学習モデルに入力し、リフォーカス情報に基づいて第１の画像の合焦位置を移動した第２の画像を生成する第２の工程（Ｓ２０３）とを有し、リフォーカス情報は、第１の画像と第２の画像の合焦位置の間隔に関する情報である。【選択図】図５

Description

本発明は、機械学習ＤＬ（ＤｅｅｐＬｅａｒｎｉｎｇ）を用いて２視点画像から高精度にリフォーカス（Ｒｅｆｏｃｕｓ）画像を生成する画像処理方法に関する。

非特許文献１には、ＤＬを用いて２視点画像からデプスを推定した後、そのデプスに基づいて２視点画像のどちらかをデプス方向に分解し、デプス毎にぼけを加えて足し合わせることで、リフォーカス画像を生成する方法が開示されている。ここで、リフォーカスとは、２視点画像の合焦位置（ＦｏｃｕｓＰｌａｎｅ）を仮想的に移動した画像を推定する画像処理である。また、２視点画像とは、同一被写体を左右の異なる視点から撮影された画像、すなわち横方向に視差の付いた画像である。

特許第６３７０３４８号公報

ＢｅｎｊａｍｉｎＢｕｓａｍ、ＭａｔｔｈｉｅｕＨｏｇ、ＳｔｅｖｅｎＭｃＤｏｎａｇｈ、 "ＳｔｅＲｅＦｏ：ＥｆｆｉｃｉｅｎｔＩｍａｇｅＲｅｆｏｃｕｓｉｎｇｗｉｔｈＳｔｅｒｅｏＶｉｓｉｎ"、ＩＣＣＶ（２０１９年）．

非特許文献１に開示された方法では、ＤＬの学習に２視点画像と対応したデプスマップが必要となる。一般にデプスマップは有限の分解能を有するものであるため、特許文献１に開示された方法では、任意の合焦位置にリフォーカスさせたリフォーカス画像を生成することが難しい。このため、高精度なリフォーカス画像を生成することができない。

そこで本発明は、ＤＬを用いて２視点画像から高精度にリフォーカス画像を生成する画像処理方法、画像処理装置、プログラム、学習済みモデルの製造方法、および画像処理システムを提供することを目的とする。

本発明の一側面としての画像処理方法は、視差情報を有する少なくとも１枚の第１の画像とリフォーカス情報とを取得する第１の工程と、前記第１の画像と前記リフォーカス情報とを機械学習モデルに入力し、前記リフォーカス情報に基づいて前記第１の画像の合焦位置を移動した第２の画像を生成する第２の工程とを有し、前記リフォーカス情報は、前記第１の画像と前記第２の画像の合焦位置の間隔に関する情報である。

本発明の他の目的及び特徴は、以下の実施例において説明される。

本発明によれば、ＤＬを用いて２視点画像から高精度にリフォーカス画像を生成する画像処理方法、画像処理装置、プログラム、学習済みモデルの製造方法、および画像処理システムを提供することができる。

実施例１におけるニューラルネットワークの学習の流れを示す図である。実施例１における画像処理システムのブロック図である。実施例１におけるニューラルネットワークの学習の流れを示す図である。実施例１におけるウエイトの学習に関するフローチャートである。実施例１における多視点画像の推定に関するフローチャートである。実施例２における画像処理システムのブロック図である。実施例２における画像処理システムの外観図である。実施例３における画像処理システムのブロック図である。実施例３における多視点画像の推定に関するフローチャートである。各実施例における概要の説明図である。

以下、本発明の実施例について、図面を参照しながら詳細に説明する。各図において、同一の部材については同一の参照符号を付し、重複する説明は省略する。

まず、実施例の具体的な説明を行う前に、各実施例の要旨を説明する。各実施例は、ＤＬを用いて２視点画像から高精度にリフォーカス画像を生成する。ＤＬによる画像処理では、ニューラルネットワークを用いる。ニューラルネットワークでは、画像に対して畳み込むフィルタと足し合わせるバイアス、非線形変換する活性化関数を用いる。フィルタおよびバイアスはウエイトと呼ばれ、訓練画像から学習により生成される。各実施例では、訓練画像として２視点画像とそれに対応したフォーカスブラケット画像を用いる。ここで、フォーカスブラケット画像とは、２視点画像の合焦位置を実際に移動して撮影した複数枚の画像である。画像に対してフィルタを畳み込み、バイアスを足し合わせ、非線形変換することを繰り返した結果、ニューラルネットワークの中間層で得られる多次元配列は、特徴マップ（ｆｅａｔｕｒｅｍａｐ）と呼ばれる。特徴マップの次元のうち、１次元目と２次元目は縦横、３次元目は深さまたはチャンネルと呼ばれる。

次に、図１０を参照して、各実施例の概要に関して説明する。各実施例では、２視点画像（第１の画像）とリフォーカス情報をニューラルネットワークに入力しリフォーカス画像（第２の画像）を生成する。ここで、リフォーカス画像は２視点画像の合焦位置を仮想的に移動した画像である。または、２視点画像の合焦位置を実際に移動して撮影した複数枚のフォーカスブラケット画像のうち、１枚を推定した画像がリフォーカス画像と見てもよい。合焦位置の移動量はリフォーカス情報で指定される。

各実施例では、ニューラルネットワークを用いて、２視点画像から抽出した横方向の視差情報とリフォーカス情報から、正解画像であるフォーカスブラケット画像が有する縦方向の視差情報を推定することで、高精度にリフォーカス画像を生成する。なお、前述の画像処理方法は一例であり、各実施例はこれに限定されるものではない。その他の画像処理方法などの詳細は、以下の各実施例で述べる。

まず、本発明の実施例１における画像処理システムに関して説明する。本実施例では、ニューラルネットワークを用いて２視点画像からリフォーカス画像を生成する画像処理を学習、実行させる。

図２は、本実施例における画像処理システム１００のブロック図である。図３は、画像処理システム１００の外観図である。画像処理システム１００は、学習装置１０１、撮像装置１０２、画像推定装置１０３、表示装置１０４、記録媒体１０５、入力装置１０６、出力装置１０７、およびネットワーク１０８を有する。

学習装置（画像処理装置）１０１は、記憶部１０１ａ、画像取得部１０１ｂ、リフォーカス情報取得部１０１ｃ、および学習部１０１ｄを有する。

撮像装置１０２は、光学系１０２ａおよび撮像素子１０２ｂを有する。光学系１０２ａは、被写体から撮像装置１０２へ向かう光を集光する。撮像素子１０２ｂは、光学系１０２ａを介して形成された被写体の光学像を受光して撮像画像（２視点画像）を取得する。撮像素子１０２ｂは、例えば撮像面位相差センサである。ここで、撮像面位相差センサとは、１つの画素が１つのマイクロレンズと複数の光電変換素子（フォトダイオードなど）により形成されたイメージセンサである。光学系（撮像光学系）の異なる瞳領域を通過した光束を光電変換素子が記録することで、複数視点の画像を同時に取得することができる。なお、本実施例では１画素が左右に独立した２個の光電変換素子で構成され、右目と左目で同一被写体を見た２視点画像が同時に取得することができるとする。なお、撮像面位相差センサを備えた撮像装置１０２は、被写体に自動で焦点を合わせる（オートフォーカス）目的で主に用いられている。なお本実施例の撮像装置１０２は、このような構成に限定されるものではなく、２視点画像が取得可能であれば、例えばステレオカメラでもよい。その場合、撮像素子１０２ｂは、ＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）センサやＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌ－ＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）センサなどである。また、取得した２視点画像を保存する記憶部や表示する表示部、外部に送信する送信部、外部の記憶媒体に保存させる出力部、などは不図示である。また、撮像装置１０２の各部を制御する制御部も不図示である。

画像推定装置（画像処理装置）１０３は、記憶部１０３ａ、画像取得部１０３ｂ、リフォーカス情報取得部１０３ｃ、および画像処理部（生成部）１０３ｄを有する。画像推定装置１０３は、画像取得部１０３ｂが取得した２視点画像と、リフォーカス情報取得部１０３ｃが取得したリフォーカス情報とに基づいて、画像処理部１０３ｄがリフォーカス画像を生成する画像処理を行う。なお２視点画像は、撮像装置１０２で撮影された画像でもよいし、記録媒体１０５に保存された画像でもよい。

リフォーカス情報は、２視点画像の合焦位置を移動する量である。すなわち、２視点画像の合焦位置を仮想的に移動して、リフォーカス画像を生成する際の、合焦位置の移動量がリフォーカス情報である。または、リフォーカス画像はフォーカスブラケット画像のうち１枚の推定なので、２視点画像と異なる合焦位置で同一被写体を撮影して複数枚のフォーカスブラケット画像を得ることを考え、その際の合焦位置の移動量のうち１つをリフォーカス情報としてもよい。リフォーカス情報は既定の量を用いてもよいし、入力装置１０６を介してユーザから指定された量を用いてもよい。

画像処理には、ニューラルネットワークを使用し、ウエイトの情報は記憶部１０３ａから読み出される。ウエイトは学習装置１０１で学習されたものであり、画像推定装置１０３は、事前にネットワーク１０８を介して記憶部１０１ａからウエイトの情報を読み出し、記憶部１０３ａに保存している。保存されるウエイトの情報は、ウエイトの数値そのものでもよいし、符号化された形式でもよい。ウエイトの学習、およびウエイトを用いた画像処理に関する詳細は、後述する。

リフォーカス画像は、表示装置１０４、記録媒体１０５、および出力装置１０７の少なくとも１つに出力される。表示装置１０４は、例えば液晶ディスプレイやプロジェクタなどである。ユーザは、表示装置１０４を介して、処理途中の画像を確認しながら編集作業などを行うことができる。記録媒体１０５は、例えば半導体メモリ、ハードディスク、ネットワーク上のサーバなどである。出力装置１０７は、プリンタなどである。画像推定装置１０３は、必要に応じて現像処理やその他の画像処理（深度拡大など）を行う機能を有する。

次に、図１および図４を参照して、本実施例における学習装置１０１により実行されるウエイトの学習方法（学習済みモデルの製造方法）に関して説明する。図１は、ニューラルネットワークのウエイトの学習の流れ（機械学習モデル）を示す図である。図４は、ウエイトの学習に関するフローチャートである。図４の各ステップは、主に、画像取得部１０１ｂ、リフォーカス情報取得部１０１ｃ、および学習部１０１ｄにより実行される。

まず、図４のステップＳ１０１において、画像取得部１０１ｂは、２視点パッチ（第１の画像）と、２視点パッチに対応する複数枚のフォーカスブラケットパッチ（正解画像）を取得する。本実施例において、２視点パッチは、同一被写体を異なる２視点で撮影した画像、フォーカスブラケットパッチは、２視点パッチとは合焦位置が互いに異なる１つ以上の合焦位置で同一被写体を撮影した画像である。２視点パッチは２枚の画像であるが、本実施例はこれに限定されるものではない。例えば、２視点パッチの画素値を横方向に交互に配置して１枚の画像としてもよい。その場合、２視点パッチはフォーカスブラケットパッチより横長になるため、後述するニューラルネットワーク内部で横方向にダウンサンプリングするなどによりサイズを合わせればよい。フォーカスブラケットパッチの視点は２視点パッチの中間の視点であるが、本実施例はこれに限定されるものではない。例えば、２視点のうち左視点の合焦位置を移動した画像がフォーカスブラケットパッチであってもよい。２視点パッチとフォーカスブラケットパッチは、例えば撮像装置のフォーカスリングを複数回回して撮影（フォーカスブラケット撮影）することで取得される。また、パッチとは既定の画素数（例えば、１２８×１２８画素など）を有する画像である。

続いてステップＳ１０２において、リフォーカス情報取得部１０１ｃは、リフォーカス情報を取得する。本実施例において、リフォーカス情報は、２視点パッチとフォーカスブラケットパッチをフォーカスブラケット撮影した際の、合焦位置の移動量を撮像装置の像面の移動量として表した量を用いる。例えば、２視点パッチの合焦位置を基準として、像面を±８０μｍ移動してフォーカスブラケットパッチを撮影した場合、リフォーカス情報は±８０でもよい。また、撮像光学系の絞り値Ｆと許容錯乱円の径δで与えられる焦点深度Ｆδで規格化した量をリフォーカス情報として用いてもよい。例えば、撮像光学系の絞り値が４、許容錯乱円の径が２０μｍで、像面を±８０μｍ移動してフォーカスブラケットパッチを撮影した場合、リフォーカス情報は±１でもよい。また、基準の合焦位置である２視点パッチのリフォーカス情報は０でもよい。

続いてステップＳ１０３において、学習部１０１ｄは、第１のニューラルネットワーク（第１の機械学習モデル）を用いて、２視点パッチ（第１の画像）の各々から特徴マップを生成し、それらを比較する。これにより学習部１０１ｄは、２視点パッチの対応点に関する情報、すなわち２視点パッチの視差情報を抽出する。なお本実施例では、特徴マップの比較方法は行列積であるが、本実施例はこれに限定されるものではない。例えば、ＳＩＦＴやＳＵＲＦ、ＨｏＧなど位置合わせに用いられてきた古典的な特徴量を用いてもよいし、特徴マップを相対的に横方向にシフトした後にチャンネル方向に連結してもよい。または、２視点パッチの一方を固定して他方を相対的に横方向にシフトした後にチャンネル方向に連結して、第１のニューラルネットワークへ入力することで、２視点パッチの視差情報を抽出してもよい。または、２視点パッチの画素値を横方向に交互に配置した１枚の画像を第１のニューラルネットワークへ入力することで、２視点パッチの視差情報を抽出してもよい。

続いてステップＳ１０４において、学習部１０１ｄは、第２のニューラルネットワーク（第２の機械学習モデル）を用いて、リフォーカスパッチ（第２の画像）２０２を生成する。より具体的には、学習部１０１ｄは、ステップＳ１０２で得られたリフォーカス情報２０４と、第２のニューラルネットワークを用いて、ステップＳ１０３で得られた視差情報２０５とに基づいてリフォーカスパッチ２０２を生成する。なお本実施例では、リフォーカス情報２０４を画素値として有する画像と、視差情報２０５である特徴マップとをチャンネル方向に連結した後、第２のニューラルネットワークへ入力しているが、本実施例はこれに限定されるものではない。また、リフォーカスパッチ２０２はフォーカスブラケットパッチ２００の推定であり、理想的には両者は一致する。

なお本実施例では、図１に示されるニューラルネットワークの構成を使用するが、本実施例はこれに限定されるものではない。例えば、第１のニューラルネットワークと第２のニューラルネットワークの機能を有する１つのニューラルネットワークを用いて、２視点パッチ（第１の画像）２０１とリフォーカス情報２０４とに基づいてリフォーカスパッチ（第２の画像）２０２を生成してもよい。なお図１において、前半の分岐したネットワークが第１のニューラルネットワーク（第１の機械学習モデル）、後半のネットワークが第２のニューラルネットワーク（機械学習モデル）を表す。

図１中のＣＮは畳み込み層を表す。ＣＮは、入力とフィルタの畳み込み、およびバイアスとの和が算出され、その結果を活性化関数によって非線形変換する。フィルタの各成分とバイアスの初期値は任意であり、本実施例では乱数によって決定する。活性化関数は、例えばＲｅＬＵ（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）やシグモイド関数などを使うことができる。最終層を除く各層で出力される多次元配列が特徴マップである。そのため、本実施例では視差情報２０５も特徴マップである。スキップコネクション２０３は、連続していない層から出力された特徴マップを合成する。特徴マップの合成は要素ごとの和をとってもよいし、チャンネル方向に連結（ｃｏｎｃａｔｅｎａｔｉｏｎ）してもよい。本実施例では要素ごとの和を採用する。

図１中の２０６は、２視点パッチ（第１の画像）２０１の各々から第１のニューラルネットワーク（特徴量生成部）により生成される特徴マップ（第１の特徴量）を比較する比較部である。前述したように、本実施例では特徴マップの比較方法は行列積であるが、本実施例はこれに限定されるものではない。
図１中の点線枠内の要素（ブロックまたはモジュール）は残差ブロック（ＲｅｓｉｄｕａｌＢｌｏｃｋ）を表す。残差ブロックを多層化したネットワークは残差ネットワークと呼ばれており、ＤＬによる画像処理において広く用いられている。ただし、本実施例はこれに限定されるものではない。例えば、互いに異なる畳み込みフィルタサイズを有する畳み込み層を並置し、得られる複数の特徴マップを統合して最終的な特徴マップとするインセプションモジュール（ＩｎｃｅｐｔｉｏｎＭｏｄｕｌｅ）を構成してもよい。または、密にスキップコネクションを有するデンスブロック（ＤｅｎｓｅＢｌｏｃｋ）など、その他の要素を多層化しネットワークを構成してもよい。
また、入力に近い層で特徴マップをダウンサンプリング、出力に近い層で特徴マップをアップサンプリングし、中間層での特徴マップのサイズを小さくすることで処理負荷（～畳み込み回数）を軽減させてもよい。ここで、特徴マップのダウンサンプリングには、プーリング（Ｐｏｏｌｉｎｇ）やストライド（Ｓｔｒｉｄｅ）、逆ピクセルシャッフル（Ｄｅ―ＰｉｘｅｌＳｈｕｆｆｌｅ）などを使うことができる。また、特徴マップのアップサンプリングには、逆畳み込み（ＤｅｃｏｎｖｏｌｕｔｉｏｎまたはＴｒａｎｓｐｏｓｅｄＣｏｎｖｏｌｕｔｉｏｎ）、ピクセルシャッフル（ＰｉｘｅｌＳｈｕｆｆｌｅ）、補間などを使うことができる。

続いて、図４のステップＳ１０５において、学習部１０１ｄは、フォーカスブラケットパッチ２００とその推定であるリフォーカスパッチ（第２の画像）２０２との誤差に基づいて、図１に示されるニューラルネットワークのウエイトを更新する。ここで、ウエイトは、各層のフィルタの成分とバイアスを含む。ウエイトの更新には誤差逆伝搬法（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）を使用するが、本実施例はこれに限定されるものではない。ミニバッチ学習では、複数のフォーカスブラケットパッチ２００とそれらに対応するリフォーカスパッチ２０２の誤差を求め、ウエイトを更新する。誤差関数（Ｌｏｓｓｆｕｎｃｔｉｏｎ）には、例えばＬ２ノルムやＬ１ノルムなどを用いればよい。ウエイト更新方法（学習方法）はミニバッチ学習に限らず、バッチ学習でもオンライン学習でもよい。なお、以前に学習した第１のニューラルネットワークのウエイトを用いて、第２のニューラルネットワークだけ学習してもよい。すなわち、第１のニューラルネットワークのウエイトは学習せずに固定し、第２のニューラルネットワークだけ学習してもよい。

続いてステップＳ１０６において、学習部１０１ｄは、ウエイトの学習が完了したか否かを判定する。完了は、学習（ウエイトの更新）の反復回数が規定値に達したか、または、更新時のウエイトの変化量が規定値より小さいかなどにより判定することができる。未完と判定された場合、ステップＳ１０１へ戻り、新たな２視点パッチ（第１の画像）２０１とフォーカスブラケットパッチ２００を複数枚取得する。一方、完了と判定された場合、学習装置１０１は学習を終了し、ウエイトの情報を記憶部１０１ａに保存する。

次に、図５を参照して、本実施例における画像推定装置１０３で実行されるリフォーカス画像の生成に関して説明する。図５は、リフォーカス画像の生成に関するフローチャートである。図５の各ステップは、主に、画像推定装置１０３の画像取得部１０３ｂ、リフォーカス情報取得部１０３ｃ、および画像処理部１０３ｄにより実行される。

まずステップＳ２０１において、画像取得部１０３ｂは、撮像画像を取得する。撮像画像は、学習と同様に２視点画像であり、本実施例では撮像装置１０２から送信される。

続いてステップＳ２０２において、リフォーカス情報取得部１０３ｃは、リフォーカス情報を取得する。リフォーカス情報は例えばユーザが任意に設定する。リフォーカス情報は、撮像画像である２視点画像の合焦位置を仮想的に移動する量であり、学習と同様に撮像装置の像面の移動量として表した量を用いる。

続いてステップＳ２０３において、画像処理部１０３ｄは、ニューラルネットワークを用いて、撮像画像とリフォーカス情報から、リフォーカス画像（出力画像）を生成する。リフォーカス画像は、撮像画像と異なる合焦位置で仮にフォーカスブラケット撮影したとして、得られるフォーカスブラケット画像のうち１枚の推定である。リフォーカス画像の生成には、図１に示される構成と同様のニューラルネットワークを使用する。ウエイト情報は学習装置１０１から送信されて記憶部１０３ａに保存されたものである。ニューラルネットワークへ撮像画像を入力する際は、学習時に使用した２視点パッチと同サイズに切り出す必要はないが、処理の高速化のため、撮影画像を互いに重複した複数枚のパッチに分解したのち処理してもよい。この場合、処理後に得られるパッチを融合してリフォーカス画像とすればよい。

本実施例において、任意に設定可能なリフォーカス情報を用いてリフォーカス画像の推定を行う。このため、リフォーカスに対するユーザの要求を高精度に反映させることができる。このため本実施例によれば、ＤＬを用いて２視点画像から高精度にリフォーカス画像を生成することが可能である。

最後に、従来技術に対する本実施例のその他の優位性について説明する。特許文献１には、ＤＬを用いずに２視点画像からリフォーカス画像を生成する方法が開示されている。しかし、特許文献１に開示された方法では、２視点画像には横方向の視差情報しかなく、縦方向の視差情報がないため、縦方向にはぼけが変化せず、ぼけが不自然となる。一方、本実施例によれば、２視点画像から抽出した横方向の視差情報とリフォーカス情報から、正解画像であるフォーカスブラケット画像が有する縦方向の視差情報を推定することができるため、高精度にリフォーカス画像を生成することが可能である。

次に、非特許文献１に開示された方法では、撮影画像をデプス方向に分解しデプス毎にぼけを加えている。しかし、一般にデプスの分解能は低いため撮影画像をデプス方向に連続的に分解することができず、合焦位置を連続的に（任意に）移動させたリフォーカス画像を生成することは難しい。一方、本実施例では、合焦位置を連続的に移動したフォーカスブラケット画像を正解画像として用いて学習する。これにより、リフォーカス情報を指定すれば、合焦位置を連続的に（任意に）移動したリフォーカス画像を生成することができる。

また、非特許文献１に開示された方法では、撮影画像をデプス方向に分解しデプス毎にぼけを加えるため、撮影画像が全焦点画像である必要があり、一般の画像において高精度にリフォーカス画像が生成できない。一方、本実施例では、視差情報とリフォーカス情報に基づいて、例えば撮影画像の前景を先鋭化して背景を平滑化などするため、撮像画像が全焦点画像である必要がない。このため本実施例によれば、前景・背景にさまざまなぼけが加わった一般の画像からでも高精度にリフォーカス画像が生成できる。

また、非特許文献１に開示された方法では、学習に撮像画像と対応したデプスマップが必要となり、これが原因で高精度に処理できない。それに対して、本実施例では高精度にリフォーカス画像が生成できるように２視点画像から抽出する情報が視差情報なので、正解の視差（～デプス）画像が必要ない。これにより、用意することの難しい正解の視差画像が必要ないため、高精度な処理が可能である。

なお本実施例では、学習装置１０１と画像推定装置１０３とが別体である場合を例に説明したが、これに限定されるものではない。学習装置１０１と画像推定装置１０３とが一体に構成されていてもよい。すなわち、一体の装置内で学習（図４に示す処理）と推定（図５に示す処理）を行ってもよい。

以上のように、本実施例において、画像処理装置（画像推定装置１０３）は、取得部（画像取得部１０３ｂ、リフォーカス情報取得部１０３ｃ）および生成部（画像処理部１０３ｄ）を有する。取得部は、視差情報を有する少なくとも１枚の第１の画像（撮影画像など）とリフォーカス情報とを取得する。生成部は、第１の画像とリフォーカス情報とを機械学習モデルに入力し、リフォーカス情報に基づいて第１の画像の合焦位置を移動した第２の画像（リフォーカス画像）を生成する。ここでリフォーカス情報は、第１の画像と第２の画像の合焦位置の間隔に関する情報である。好ましくは、第１の画像は、同一被写体を異なる２つの視点で撮影したステレオ画像、光学系の異なる２つの瞳領域を通過した光束を記録して生成される２つの視差画像、または、ステレオ画像もしくは２つの視差画像を１枚にまとめた画像である。

また本実施例において、画像処理装置（学習装置１０１）は、画像取得部１０１ｂ、リフォーカス情報取得部１０１ｃ、および学習部１０１ｄを有する。画像取得部は、視差情報を有する少なくとも１枚の第１の画像と正解画像（フォーカスブラケット画像など）とを取得する。リフォーカス情報取得部は、第１の画像と正解画像の合焦位置の間隔に関するリフォーカス情報を取得する。学習部は、第１の画像とリフォーカス情報とを機械学習モデルに入力して生成された第２の画像と正解画像とを用いて機械学習モデルを学習する。また学習部は、第１の画像を機械学習モデルに入力し、リフォーカス情報に基づいて第１の画像の合焦位置を移動した第２の画像を生成し、第２の画像と正解画像との誤差に基づいて機械学習モデルを学習する。

次に、本発明の実施例２における画像処理システムに関して説明する。本実施例では、実施例１と同様に、ニューラルネットワークを用いて２視点画像からリフォーカス画像を推定するＤＬ画像処理を学習、実行させる。本実施例の画像処理システムは、撮像装置が撮像画像（２視点画像）を取得して画像処理を行う点で、実施例１と異なる。

図６は、本実施例における画像処理システム３００のブロック図である。図７は、画像処理システム３００の外観図である。画像処理システム３００は、ネットワーク３０３を介して接続された学習装置３０１と撮像装置３０２とを含む。なお、学習装置３０１と撮像装置３０２は、ネットワーク３０３を介して常に接続されている必要はない。

学習装置３０１は、記憶部３１１、画像取得部３１２、リフォーカス情報取得部３１３、および学習部３１４を有する。これらを用いて、２視点画像からリフォーカス画像を推定する画像処理を行うため、ニューラルネットワークのウエイトを学習する。

撮像装置３０２は、被写体空間を撮像して撮像画像（２視点画像）を取得し、２視点画像からリフォーカス画像を生成する。撮像装置３０２で実行される画像処理に関する詳細は後述する。撮像装置３０２は、光学系３２１および撮像素子３２２を有する。画像推定部３２３は、画像取得部３２３ａ、リフォーカス情報取得部３２３ｂ、および画像処理部３２３ｃを有する。

なお本実施例において、学習装置３０１で実行される、ニューラルネットワークのウエイトの学習は実施例１と同様である。撮像装置３０２で実行される画像処理に関する詳細のみ後述する。

ニューラルネットワークのウエイトの情報は、学習装置３０１で事前に学習され、記憶部３１１に保存されている。撮像装置３０２は、記憶部３１１からネットワーク３０３を介してウエイトの情報を読み出し、記憶部３２４に保存する。画像推定部３２３は、記憶部３２４に保存された学習済みのニューラルネットワークのウエイトの情報と、リフォーカス情報取得部３２３ｂが取得したリフォーカス情報を用いて、画像処理部３２３ｃで２視点画像からリフォーカス画像を生成する。生成されたリフォーカス画像は、記録媒体３２５ａに保存される。ユーザからリフォーカス画像の表示に関する指示が出された場合、保存された画像が読み出され、表示部３２５ｂに表示される。なお、記録媒体３２５ａに保存される撮像画像を読み出して、画像推定部３２３でリフォーカス画像の生成を行ってもよい。また、ユーザから指示が出された場合、合焦位置の異なる複数枚のリフォーカス画像を合成した深度拡大画像を生成してもよい。以上の一連の制御は、システムコントローラ３２７によって行われる。

次に、本実施例における画像推定部３２３で実行されるリフォーカス画像の生成に関して説明する。画像処理の手順は実施例１の図５とほぼ同様である。画像処理の各ステップは、主に、画像推定部３２３の画像取得部３２３ａ、リフォーカス情報取得部３２３ｂ、および画像処理部３２３ｃにより実行される。

まずステップＳ２０１において、画像取得部３２３ａは、撮像画像（２視点画像）を取得する。２視点画像は、撮像装置３０２で取得され、記憶部３２４に保存されている。

続いてステップＳ２０２において、リフォーカス情報取得部３２３ｂは、リフォーカス情報を取得する。リフォーカス情報は、撮像画像である２視点画像の合焦位置を仮想的に移動する量であり、入力部３２６を介してユーザから指示された量を用いてもよいし、記憶部３２４に保存された既定の量を用いてもよい。

続いてステップＳ２０３において、画像処理部３２３ｃは、ニューラルネットワークを用いて、撮像画像とリフォーカス情報とに基づいて、リフォーカス画像を生成する。ニューラルネットワークの学習済みのウエイトは、記憶部３２４に保存されたものを用いる。本実施例のニューラルネットワークは、図１に示される構成と同様である。
本実施例によれば、２視点画像から高精度にリフォーカス画像を生成する画像処理システムを提供することが可能である。

次に、本発明の実施例３における画像処理システムに関して説明する。本実施例の画像処理システムは、画像推定装置に対して画像処理の対象である撮像画像（２視点画像）を送信し処理済みの出力画像（リフォーカス画像）を画像推定装置から受信する処理装置（コンピュータ）を有する点で、実施例１、２と異なる。

図８は、本実施例における画像処理システム４００のブロック図である。画像処理システム４００は、学習装置４０１、撮像装置４０２、画像推定装置（第２の装置）４０３、およびコンピュータ（処理装置、第１の装置）４０４を有する。学習装置４０１および画像推定装置４０３は、例えばサーバである。コンピュータ４０４は、例えばユーザ端末（パーソナルコンピュータまたはスマートフォン）である。コンピュータ４０４は、ネットワーク４０５を介して画像推定装置４０３に接続されている。画像推定装置４０３は、ネットワーク４０６を介して学習装置４０１に接続されている。すなわち、コンピュータ４０４と画像推定装置４０３とは通信可能に構成され、画像推定装置４０３と学習装置４０１とは通信可能に構成されている。

学習装置４０１の構成は、実施例１の学習装置１０１と同様のため説明を省略する。また、撮像装置４０２の構成は、実施例１の撮像装置１０２と同様のため説明を省略する。

画像推定装置４０３は、記憶部４０３ａ、画像取得部４０３ｂ、リフォーカス情報取得部４０３ｃ、画像処理部４０３ｄ、および通信部（受信部）４０３ｅを有する。記憶部４０３ａ、画像取得部４０３ｂ、リフォーカス情報取得部４０３ｃ、および画像処理部４０３ｄは、実施例１の画像推定装置１０３の記憶部１０３ａ、画像取得部１０３ｂ、リフォーカス情報取得部１０３ｃ、および画像処理部１０３ｄとそれぞれ同様である。通信部４０３ｄは、コンピュータ４０４から送信される要求を受信する機能、および、画像推定装置４０３によって生成された出力画像（リフォーカス画像）をコンピュータ４０４に送信する機能を有する。

コンピュータ４０４は、通信部（送信部）４０４ａ、表示部４０４ｂ、入力部４０４ｃ、画像処理部４０４ｄ、および記録部４０４ｅを有する。通信部４０４ａは、撮像画像（２視点画像）に対する処理を画像推定装置４０３に実行させるための要求を画像推定装置４０３に送信する機能、および、画像推定装置４０３によって処理された出力画像（リフォーカス画像）を受信する機能を有する。表示部４０４ｂは、種々の情報を表示する機能を有する。表示部４０４ｂによって表示される情報は、例えば、画像推定装置４０３に送信する撮像画像（２視点画像）、および画像推定装置４０３から受信した出力画像（リフォーカス画像）を含む。入力部４０４ｃは、ユーザから画像処理開始の指示などが入力される。画像処理部４０４ｄは、画像推定装置４０３から受信した出力画像（リフォーカス画像）に対してさらに画像処理を施す機能を有する。ここで画像処理として、合焦位置の異なる複数枚のリフォーカス画像を合成する深度拡大などが含まれる。記録部４０４ｅは、撮像装置４０２から取得した撮像画像、画像推定装置４０３から受信した出力画像などを保存する。

次に、本実施例における画像処理について説明する。本実施例における画像処理は、実施例１に説明した画像処理（図５）と同等である。

図９に示される画像処理は、コンピュータ４０４を介してユーザにより画像処理開始の指示が成されたことを契機として開始される。まず、コンピュータ４０４における動作について説明する。

まずステップＳ４０１において、コンピュータ４０４は、撮像画像（２視点画像）に対する処理の要求を画像推定装置４０３へ送信する。なお、処理対象である２視点画像を画像推定装置４０３に送信する方法は問わない。例えば、２視点画像はステップＳ４０１と同時に画像推定装置４０３にアップロードされてもよく、または、ステップＳ４０１以前に画像推定装置４０３にアップロードされていてもよい。また、２視点画像は、画像推定装置４０３とは異なるサーバ上に保存された画像でもよい。なおステップＳ４０１において、コンピュータ４０４は２視点画像に対する処理の要求と共に、ユーザを認証するＩＤや、撮像条件に関する情報などを送信してもよい。

続いてステップＳ４０２において、コンピュータ４０４は、画像推定装置４０３内で生成された出力画像（リフォーカス画像）を受信する。

次に、画像推定装置４０３の動作について説明する。まずステップＳ５０１において、画像推定装置４０３は、コンピュータ４０４から送信された撮像画像（２視点画像）に対する処理の要求を受信する。画像推定装置４０３は、２視点画像に対する処理が指示されたと判定し、ステップＳ５０２以降の処理を実行する。

続いてステップＳ５０２において、画像取得部４０３ｂは、撮像画像を取得する。撮像画像は、コンピュータ４０４から送信される。続いてステップＳ５０３において、リフォーカス情報取得部４０３ｃは、リフォーカス情報を取得する。リフォーカス情報は、撮像画像である２視点画像の合焦位置を仮想的に移動する量である。リフォーカス情報は、入力部４０４ｃを介してユーザの指示された量を用いてもよく、または、記憶部４０３ａに保存された既定の量を用いてもよい。続くステップＳ５０４は、実施例１のステップＳ２０３と同様である。続いてステップＳ５０５において、画像推定装置４０３は、出力画像（リフォーカス画像）をコンピュータ４０４へ送信する。

以上のように、画像推定装置４０３は、画像推定装置４０３と通信可能に接続されたコンピュータ４０４を用いて制御されるように構成してもよい。

（その他の実施例）
本発明は、上述の実施例の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

各実施例において、リフォーカス情報は、ユーザが任意に設定可能であるため、リフォーカスに対するユーザの要求を高精度に反映させることができる。このため各実施例によれば、ＤＬを用いて２視点画像から高精度にリフォーカス画像を生成する画像処理方法、画像処理装置、プログラム、学習済みモデルの製造方法、および画像処理システムを提供することができる。

以上、本発明の好ましい実施例について説明したが、本発明はこれらの実施例に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。

１０３画像推定装置（画像処理装置）
１０３ｂ画像取得部（取得部）
１０３ｃリフォーカス取得部（取得部）
１０３ｄ画像処理部（生成部）

Claims

視差情報を有する少なくとも１枚の第１の画像とリフォーカス情報とを取得する第１の工程と、
前記第１の画像と前記リフォーカス情報とを機械学習モデルに入力し、前記リフォーカス情報に基づいて前記第１の画像の合焦位置を移動した第２の画像を生成する第２の工程と、を有し、
前記リフォーカス情報は、前記第１の画像と前記第２の画像の合焦位置の間隔に関する情報であることを特徴とする画像処理方法。
前記機械学習モデルは、第１の機械学習モデルと第２の機械学習モデルとを含み、
前記第２の工程は、
前記第１の画像から得られる２枚の視点画像を前記第１の機械学習モデルに入力し、前記視差情報を抽出する工程と、
前記視差情報と前記リフォーカス情報とを前記第２の機械学習モデルに入力し、前記リフォーカス情報に基づいて前記第２の画像を生成する工程と、を有することを特徴とする請求項１に記載の画像処理方法。
前記第１の画像は、同一被写体を異なる２つの視点で撮影したステレオ画像、光学系の異なる２つの瞳領域を通過した光束を記録して生成される２つの視差画像、または、前記ステレオ画像もしくは前記２つの視差画像を１枚にまとめた画像であることを特徴とする請求項１または２に記載の画像処理方法。
前記第２の工程において、前記第１の画像、または前記第１の画像を前記機械学習モデルに入力して得られる特徴マップの少なくとも１つと、前記第１の画像と前記第２の画像の合焦位置の前記間隔を画素値として有する画像に関する前記リフォーカス情報とを、チャンネル方向に連結して前記機械学習モデルで処理することを特徴とする請求項１乃至３のいずれか一項に記載の画像処理方法。
前記第２の工程において、前記第１の画像の前記視差情報に関する特徴マップと、前記第１の画像と第２の画像の合焦位置の間隔を画素値として有する画像に関する前記リフォーカス情報とを、チャンネル方向に連結して前記機械学習モデルに入力することを特徴とする請求項１乃至３のいずれか一項に記載の画像処理方法。
前記機械学習モデルは、
前記第１の画像から得られる２枚の視点画像をニューラルネットワークに入力し、２つの特徴マップに関する第１の特徴量を生成する特徴量生成部と、
前記第１の特徴量を比較して前記視差情報を生成する比較部と、を有することを特徴とする請求項２に記載の画像処理方法。
前記第２の工程において、前記比較は前記２つの特徴マップの行列積に基づく処理により前記第１の特徴量を比較することを特徴とする請求項６に記載の画像処理方法。
前記第２の工程において、前記第１の画像から得られる２枚の視点画像をチャンネル方向に連結して前記機械学習モデルに入力することを特徴とする請求項１乃至３のいずれか一項に記載の画像処理方法。
前記第２の工程において、前記第１の画像から得られる２つの視点画像のうち一方を固定して他方をシフトしチャンネル方向に連結して前記機械学習モデルに入力することを特徴とする請求項１乃至３のいずれか一項に記載の画像処理方法。
前記合焦位置の間隔は、前記第１の画像と異なる合焦位置で同一被写体を撮影した前記第２の画像を、仮想的にフォーカスブラケット撮影で取得した際の、撮像装置の撮像面の移動量に基づく量であることを特徴とする請求項１乃至９のいずれか一項に記載の画像処理方法。
請求項１乃至１０のいずれか一項に記載の画像処理方法をコンピュータに実行させることを特徴とするプログラム。
視差情報を有する少なくとも１枚の第１の画像とリフォーカス情報とを取得する取得部と、
前記第１の画像と前記リフォーカス情報とを機械学習モデルに入力し、前記リフォーカス情報に基づいて前記第１の画像の合焦位置を移動した第２の画像を生成する生成部と、を有し、
前記リフォーカス情報は、前記第１の画像と前記第２の画像の合焦位置の間隔に関する情報であることを特徴とする画像処理装置。
視差情報を有する少なくとも１枚の第１の画像と正解画像とを取得する画像取得部と、
前記第１の画像と前記正解画像の合焦位置の間隔に関するリフォーカス情報を取得するリフォーカス情報取得部と、
前記第１の画像と前記リフォーカス情報とを機械学習モデルに入力して生成された第２の画像と前記正解画像とを用いて前記機械学習モデルを学習する学習部と、を有し、
前記学習部は、前記第１の画像を前記機械学習モデルに入力し、前記リフォーカス情報に基づいて前記第１の画像の合焦位置を移動した前記第２の画像を生成し、前記第２の画像と前記正解画像との誤差に基づいて前記機械学習モデルを学習することを特徴とする画像処理装置。
前記機械学習モデルは、第１の機械学習モデルと第２の機械学習モデルとを含み、
前記学習部は、
前記第１の画像から得られる２枚の視点画像を前記第１の機械学習モデルに入力して前記視差情報を抽出し、
前記視差情報と前記リフォーカス情報とを前記第２の機械学習モデルに入力して前記第２の画像を生成し、
前記第２の画像と前記正解画像との誤差に基づいて、前記第１の機械学習モデルと前記第２の機械学習モデルとを学習することを特徴とする請求項１３に記載の画像処理装置。
前記正解画像は、前記第１の画像と異なる合焦位置で同一被写体を撮影したフォーカスブラケット画像であることを特徴とする請求項１３または１４に記載の画像処理装置。
視差情報を有する少なくとも１枚の第１の画像と正解画像とを取得する第１の工程と、
前記第１の画像と前記正解画像の合焦位置の間隔に関するリフォーカス情報を取得する第２の工程と、
前記第１の画像と前記リフォーカス情報とを機械学習モデルに入力して生成された第２の画像と前記正解画像とを用いて前記機械学習モデルを学習する第３の工程と、を有し、
前記第３の工程において、前記第１の画像を前記機械学習モデルに入力し、前記リフォーカス情報に基づいて前記第１の画像の合焦位置を移動した前記第２の画像を生成し、前記第２の画像と前記正解画像との誤差に基づいて前記機械学習モデルを学習することを特徴とする学習済みモデルの製造方法。
第１の装置と、前記第１の装置と通信可能な第２の装置とを有する画像処理システムであって、
前記第１の装置は、視差情報を有する少なくとも１枚の第１の画像に対する処理を前記第２の装置に実行させるための要求を送信する送信部を有し、
前記第２の装置は、
前記送信部により送信された前記要求を受信する受信部と、
前記第１の画像とリフォーカス情報とを取得する取得部と、
前記第１の画像と前記リフォーカス情報とを機械学習モデルに入力し、前記リフォーカス情報に基づいて前記第１の画像の合焦位置を移動した第２の画像を生成する生成部と、を有し、
前記リフォーカス情報は、前記第１の画像と前記第２の画像の合焦位置の間隔に関する情報であることを特徴とする画像処理システム。