JP2023019521A

JP2023019521A - 学習方法、プログラム及び画像処理装置

Info

Publication number: JP2023019521A
Application number: JP2021124296A
Authority: JP
Inventors: 直三島; Sunao Mishima; 晃仁関; Akihito Seki
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2021-07-29
Filing date: 2021-07-29
Publication date: 2023-02-09
Anticipated expiration: 2041-07-29
Also published as: JP7451465B2; CN115700611A; US20230032387A1

Abstract

【課題】被写体までの距離を取得するための統計モデルにおける学習の容易性を向上させることが可能な学習方法、プログラム及び画像処理装置を提供することにある。【解決手段】実施形態に係る学習方法は、撮像装置によって第１被写体を多視点から撮像した多視点画像を取得することと、多視点画像のうちの第１画像を入力として統計モデルから出力される第１ぼけ値及び多視点画像のうちの第２画像を入力として統計モデルから出力される第２ぼけ値に基づいて統計モデルを学習させることとを具備する。学習させることは、多視点画像から、第１画像に含まれる第１被写体までの第１距離及び第２画像に含まれる第１被写体までの第２距離を取得することと、第１ぼけ値と第２ぼけ値との大小関係が第１距離と第２距離との大小関係と等しくなるように統計モデルを学習させることを含む。【選択図】図１１

Description

本発明の実施形態は、学習方法、プログラム及び画像処理装置に関する。

被写体までの距離を取得するために、２つの撮像装置（カメラ）やステレオカメラ（複眼のカメラ）で撮像された画像を用いることが知られていたが、近年では、１つの撮像装置（単眼のカメラ）で撮像された画像を用いて被写体までの距離を取得する技術が開発されている。

ここで、上記したように画像を用いて被写体までの距離を取得するために、ニューラルネットワーク等の機械学習アルゴリズムを適用して生成される統計モデルを用いることが考えられる。

しかしながら、高い精度の統計モデルを生成するためには、膨大な学習用のデータセット（学習用画像と当該学習用画像中の被写体までの距離に関する正解値とのセット）を統計モデルに学習させる必要があるが、当該データセットを用意することは容易ではない。

M.Kashiwagi et al., "Deep Depth From Aberration Map", Proceedings of the IEEEE International Conference on Computer Vision, 2019 Mishima et al. "Physical Cue based Depth-Sensing by Color Coding with Deaberration Network", BMVC2019

そこで、本発明が解決しようとする課題は、被写体までの距離を取得するための統計モデルにおける学習の容易性を向上させることが可能な学習方法、プログラム及び画像処理装置を提供することにある。

実施形態によれば、被写体を含む画像を入力として当該被写体までの距離に応じて当該画像に生じるぼけを示すぼけ値を出力するための統計モデルを学習させる学習方法が提供される。前記学習方法は、撮像装置によって第１被写体を多視点から撮像した第１多視点画像を取得することと、前記第１多視点画像のうちの第１画像を入力として前記統計モデルから出力される第１ぼけ値及び前記第１多視点画像のうちの第２画像を入力として前記統計モデルから出力される第２ぼけ値に基づいて前記統計モデルを学習させることとを具備する。前記学習させることは、前記第１多視点画像から、前記第１画像を撮像した際の前記撮像装置から当該第１画像に含まれる第１被写体までの第１距離及び前記第２画像を撮像した際の前記撮像装置から当該第２画像に含まれる第１被写体までの第２距離を取得することと、前記第１距離と前記第２距離との大小関係を判別することと、前記第１ぼけ値と前記第２ぼけ値との大小関係が前記判別された大小関係と等しくなるように前記統計モデルを学習させることを含む。

第１実施形態における測距システムの構成の一例を示す図。画像処理装置のシステム構成の一例を示す図。測距システムの動作の概要について説明するための図。被写体までの距離を取得する原理について説明するための図。統計モデルにおいて予測されるぼけ値について具体的に説明するための図。撮像画像からぼけを予測する方式の一例について説明するための図。画像パッチに関する情報の一例を示す図。一般的な統計モデルの学習方法の概要について説明するための図。学習用のデータセットについて説明するための図。本実施形態に係る統計モデルの学習方法の概要について説明するための図。学習処理部の機能構成の一例を示すブロック図。多視点画像について説明するための図。統計モデルを学習させる際の画像処理装置の処理手順の一例を示すフローチャート。ＳｆＭの概要を示す図。スケールパラメータとぼけ値との関係性について説明するための図。撮像画像から距離情報を取得する際の画像処理装置の処理手順の一例を示すフローチャート。複数のシーンで撮像された多視点画像を用いて統計モデルを学習させる場合について説明するための図。第２実施形態において統計モデルを学習させる際の画像処理装置の処理手順の一例を示すフローチャート。

以下、図面を参照して、各実施形態について説明する。
（第１実施形態）
図１は、第１実施形態における測距システムの構成の一例を示す。図１に示す測距システム１は、画像を撮像し、当該撮像された画像を用いて撮像地点から被写体までの距離を取得（測定）するために使用される。

図１に示すように、測距システム１は、撮像装置２及び画像処理装置３を備える。本実施形態においては、測距システム１が別個の装置である撮像装置２及び画像処理装置３を備えるものとして説明するが、当該測距システム１は、撮像装置２が撮像部として機能し、画像処理装置３が画像処理部として機能する１つの装置（測距装置）として実現されていてもよい。また、画像処理装置３は、例えば各種クラウドコンピューティングサービスを実行するサーバとして動作するものであってもよい。

撮像装置２は、各種画像を撮像するために用いられる。撮像装置２は、レンズ２１及びイメージセンサ２２を備える。レンズ２１及びイメージセンサ２２は、撮像装置２の光学系（単眼カメラ）に相当する。

レンズ２１には、被写体で反射した光が入射する。レンズ２１に入射した光は、レンズ２１を透過する。レンズ２１を透過した光は、イメージセンサ２２に到達し、当該イメージセンサ２２によって受光（検出）される。イメージセンサ２２は、受光した光を電気信号に変換（光電変換）することによって、複数の画素から構成される画像を生成する。

なお、イメージセンサ２２は、例えばＣＣＤ（Charge Coupled Device）イメージセンサ及びＣＭＯＳ（Complementary Metal Oxide Semiconductor）イメージセンサ等により実現される。イメージセンサ２２は、例えば赤色（Ｒ）の波長帯域の光を検出する第１センサ（Ｒセンサ）２２１、緑色（Ｇ）の波長帯域の光を検出する第２センサ（Ｇセンサ）２２２及び青色（Ｂ）の波長帯域の光を検出する第３センサ（Ｂセンサ）２２３を含む。

イメージセンサ２２は、第１～第３センサ２２１～２２３により対応する波長帯域の光を受光して、各波長帯域（色成分）に対応するセンサ画像（Ｒ画像、Ｇ画像及びＢ画像）を生成することができる。すなわち、撮像装置２によって撮像される画像はカラー画像（ＲＧＢ画像）であり、当該画像にはＲ画像、Ｇ画像及びＢ画像が含まれる。

なお、本実施形態においてはイメージセンサ２２が第１～第３センサ２２１～２２３を含むものとして説明するが、イメージセンサ２２は、第１～第３センサ２２１～２２３のうちの少なくとも１つを含むように構成されていればよい。また、イメージセンサ２２は、第１～第３センサ２２１～２２３に代えて、例えばモノクロ画像を生成するためのセンサを含むように構成されていてもよい。

本実施形態においてレンズ２１を透過した光に基づいて生成された画像は、光学系（レンズ２１）の収差の影響を受けた画像であり、当該収差により生じるぼけを含む。

図１に示す画像処理装置３は、機能構成として、統計モデル格納部３１、画像取得部３２、距離取得部３３、出力部３４及び学習処理部３５を含む。

統計モデル格納部３１には、被写体までの距離を撮像装置２によって撮像された画像から取得するために用いられる統計モデルが格納されている。統計モデル格納部３１に格納されている統計モデルは、上記した光学系の収差の影響を受けた画像に生じる、当該画像中の被写体までの距離に応じて非線形に変化するぼけを学習することによって生成されている。このような統計モデルによれば、画像が当該統計モデルに入力されることによって、当該画像に対応する予測値として、当該画像に含まれ被写体までの距離に応じて当該画像に生じるぼけを示すぼけ値を予測（出力）することができる。

なお、統計モデルは、例えばニューラルネットワークまたはランダムフォレスト等の既知の様々な機械学習アルゴリズムを適用して生成することができるものとする。また、本実施形態において適用可能なニューラルネットワークには、例えば畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）、全結合ニューラルネットワーク及び再帰型ニューラルネットワーク等が含まれていてもよい。

画像取得部３２は、上記した撮像装置２によって撮像された画像を、当該撮像装置２（イメージセンサ２２）から取得する。

距離取得部３３は、画像取得部３２によって取得された画像を用いて、当該画像中の被写体までの距離を示す距離情報を取得する。この場合、距離取得部３３は、画像を統計モデル格納部３１に格納されている統計モデルに入力することによって当該統計モデルから出力されるぼけ値（当該画像に含まれる被写体までの距離に応じて当該画像に生じるぼけを示すぼけ値）に基づいて距離情報を取得する。

出力部３４は、距離取得部３３によって取得された距離情報を、例えば画像と位置的に対応づけて配置したマップ形式で出力する。この場合、出力部３４は、距離情報によって示される距離を画素値とする画素から構成される画像データを出力する（つまり、距離情報を画像データとして出力する）ことができる。このように距離情報が画像データとして出力される場合、当該画像データは、例えば色で距離を示す距離画像として表示されることができる。出力部３４によって出力される距離情報は、例えば撮像装置２によって撮像された画像中の被写体のサイズを算出するために利用することも可能である。

学習処理部３５は、例えば画像取得部３２によって取得される画像を用いて統計モデル格納部３１に格納されている統計モデルを学習させる処理を実行する。学習処理部３５によって実行される処理の詳細については後述する。

なお、図１に示す例では、画像処理装置３が各部３１～３５を含むものとして説明したが、当該画像処理装置３は、例えば画像取得部３２、距離取得部３３及び出力部３４を含む測距装置と、統計モデル格納部３１、画像取得部３２及び学習処理部３５を含む学習装置とから構成されていてもよい。

図２は、図１に示す画像処理装置２のシステム構成の一例を示す。画像処理装置３は、ＣＰＵ３０１、不揮発性メモリ３０２、ＲＡＭ３０３及び通信デバイス３０４を備える。また、画像処理装置３は、ＣＰＵ３０１、不揮発性メモリ３０２、ＲＡＭ３０３及び通信デバイス３０４を相互に接続するバス３０５を有する。

ＣＰＵ３０１は、画像処理装置３内の様々なコンポーネントの動作を制御するためのプロセッサである。ＣＰＵ３０１は、単一のプロセッサであってもよいし、複数のプロセッサで構成されていてもよい。ＣＰＵ３０１は、不揮発性メモリ３０２からＲＡＭ３０３にロードされる様々なプログラムを実行する。これらプログラムは、オペレーティングシステム（ＯＳ）や様々なアプリケーションプログラムを含む。アプリケーションプログラムは、画像処理プログラム３０３Ａを含む。

不揮発性メモリ３０２は、補助記憶装置として用いられる記憶媒体である。ＲＡＭ３０３は、主記憶装置として用いられる記憶媒体である。図２においては不揮発性メモリ３０２及びＲＡＭ３０３のみが示されているが、画像処理装置３は、例えばＨＤＤ（Hard Disk Drive）及びＳＳＤ（Solid State Drive）等の他の記憶装置を備えていてもよい。

なお、本実施形態において、図１に示す統計モデル格納部３１は、例えば不揮発性メモリ３０２または他の記憶装置等によって実現される。

また、本実施形態において、図１に示す画像取得部３２、距離取得部３３、出力部３４及び学習処理部３５の一部または全ては、ＣＰＵ３０１（つまり、画像処理装置３のコンピュータ）に画像処理プログラム３０３Ａを実行させること、すなわち、ソフトウェアによって実現されるものとする。この画像処理プログラム３０３Ａは、コンピュータ読み取り可能な記憶媒体に格納して頒布されてもよいし、ネットワークを通じて画像処理装置３にダウロードされてもよい。

ここでは、ＣＰＵ３０１に画像処理プログラム３０３Ａを実行させるものとして説明したが、各部３２～３５の一部または全ては、ＣＰＵ３０１の代わりに例えばＧＰＵ（図示せず）を用いて実現されてもよい。また、各部３２～３５の一部または全ては、ＩＣ（Integrated Circuit）等のハードウェアによって実現されてもよいし、ソフトウェア及びハードウェアの組み合わせによって実現されてもよい。

通信デバイス３０４は、有線通信または無線通信を実行するように構成されたデバイスである。通信デバイス３０４は、信号を送信する送信部及び信号を受信する受信部を含む。通信デバイス３０４は、ネットワークを介した外部機器との通信、周辺に存在する外部機器との通信等を実行する。この外部機器には、撮像装置２が含まれる。この場合、画像処理装置３は、通信デバイス３０４を介して、撮像装置２から画像を受信することができる。

図２においては省略されているが、画像処理装置３は、例えばマウスまたはキーボードのような入力デバイス及びディスプレイのような表示デバイスを更に備えていてもよい。

次に、図３を参照して、本実施形態における測距システム１の動作の概要について説明する。

測距システム１において、撮像装置２（イメージセンサ２２）は、上記したように光学系（レンズ２１）の収差の影響を受けた画像を生成する。

画像処理装置３（画像取得部３２）は、撮像装置２によって生成された画像を取得し、当該画像を統計モデル格納部３１に格納されている統計モデルに入力する。

ここで、本実施形態における統計モデルによれば、上記したように入力された画像中の被写体までの距離に応じて当該画像に生じるぼけを示すぼけ値（ぼけ情報）が出力される。後述するように画像中の被写体までの距離と当該距離に応じて画像に生じるぼけの色、サイズ及び形状とは相関があり、画像処理装置３（距離取得部３３）は、統計モデルから出力されたぼけ値を距離に変換することによって当該被写体までの距離を示す距離情報を取得することができる。なお、本実施形態において統計モデルから出力されるぼけ値とは、画像に生じるぼけの色、サイズ及び形状を含むぼけ量を表すスカラー量である。

このように本実施形態においては、統計モデルを用いて、撮像装置２によって撮像された画像から距離情報を取得することができる。

ここで、図４を参照して、本実施形態において被写体までの距離（を示す距離情報）を取得する原理について簡単に説明する。

撮像装置２によって撮像された画像（以下、撮像画像と表記）には、上記したように当該撮像装置２の光学系の収差（レンズ収差）に起因するぼけが生じている。具体的には、収差のあるレンズ２１を透過する際の光の屈折率は波長帯域毎に異なるため、例えば被写体の位置がピント位置（撮像装置２においてピントが合う位置）からずれているような場合には、各波長帯域の光が１点に集まらず異なった点に到達する。これが、画像上でぼけ（色収差）として現れる。

また、撮像画像においては、当該撮像画像中の被写体までの距離（つまり、撮像装置２に対する被写体の位置）に応じて非線形に変化するぼけ（色、サイズ及び形状）が観察される。

このため、本実施形態においては、図４に示すように撮像画像４０１に生じるぼけ（ぼけ値）４０２を被写体４０３までの距離に関する物理的な手掛かりとして統計モデルで分析することによって当該被写体４０３までの距離を取得する。

具体的には、本実施形態における統計モデルは撮像画像４０１が入力されることによって当該撮像画像４０１に生じるぼけ４０２を予測（推定）するが、本実施形態においては、当該ぼけ４０２を被写体４０３までの距離に変換することによって、当該撮像画像４０１中の被写体４０３までの距離を取得することができる。

ここで、図５を参照して、統計モデルにおいて予測されるぼけ値について具体的に説明する。

撮像画像に生じるぼけのサイズ（ピクセル）の絶対値は、被写体の位置がピント位置よりも近い場合及び被写体の位置がピント位置よりも遠い場合のいずれの場合においても、被写体がピント位置から離れるほど大きくなる。一方、ぼけの色及び形状は、被写体の位置がピント位置よりも近い場合と被写体の位置がピント位置よりも遠い場合とで異なる。

このため、本実施形態においては、被写体がピント位置よりも近い（手前にある）場合に生じるぼけ（の色、サイズ及び形状）を示すぼけ値をマイナスの値で示し、被写体がピント位置よりも遠い（奥にある）場合に生じるぼけ（の色、サイズ及び形状）を示すぼけ値をプラスの値で示すものとする。

すなわち、本実施形態における統計モデルにおいては、被写体までの距離が近い場合にはぼけ値として小さな値が予測され、被写体までの距離が遠い場合にはぼけ値として大きな値が予測されるものとする。

以下、図６を参照して、統計モデルにおいて撮像画像から被写体までの距離に応じて当該撮像画像に生じるぼけ（を示すぼけ値）を予測する方式の一例について説明する。ここでは、パッチ方式について説明する。

図６に示すように、パッチ方式においては、撮像画像４０１から局所領域（以下、画像パッチと表記）４０１ａが切り出される（抽出される）。

この場合、例えば撮像画像４０１の全体領域をマトリクス状に分割し、当該分割後の部分領域を画像パッチ４０１ａとして順次切り出すようにしてもよいし、撮像画像４０１を認識して、被写体（像）が検出された領域を網羅するように画像パッチ４０１ａを切り出してもよい。なお、画像パッチ４０１ａは、他の画像パッチ４０１ａとの間で一部がオーバーラップしていてもよい。

パッチ方式においては、上記したように切り出された画像パッチ４０１ａに対応する予測値としてぼけ値が出力される。すなわち、パッチ方式においては、撮像画像４０１から切り出された画像パッチ４０１ａの各々に関する情報を入力として、当該画像パッチ４０１ａの各々に含まれる被写体に生じているぼけ４０２が予測される。

図７は、上記したパッチ方式において統計モデルに入力される画像パッチ４０１ａに関する情報の一例を示す。

パッチ方式においては、撮像画像４０１に含まれるＲ画像、Ｇ画像及びＢ画像のそれぞれについて、当該撮像画像４０１から切り出された画像パッチ４０１ａの勾配データ（Ｒ画像の勾配データ、Ｇ画像の勾配データ及びＢ画像の勾配データ）が生成される。統計モデルには、このように生成された勾配データが入力される。

なお、勾配データは、各画素と当該画素に隣接する画素との画素値の差分（差分値）に相当する。例えば画像パッチ４０１ａがｎ画素（Ｘ軸方向）×ｍ画素（Ｙ軸方向）の矩形領域として抽出される場合、当該画像パッチ４０１ａ内の各画素について算出した例えば右隣の画素との差分値をｎ行×ｍ列のマトリクス状に配置した勾配データ（つまり、各画素の勾配データ）が生成される。

統計モデルは、Ｒ画像の勾配データと、Ｇ画像の勾配データと、Ｂ画像の勾配データとを用いて、当該画素に生じているぼけを予測する。図７においてはＲ画像、Ｇ画像及びＢ画像の各々の勾配データが統計モデルに入力される場合について示しているが、ＲＧＢ画像の勾配データが統計モデルに入力される構成であってもよい。

なお、上記したように各画素の勾配データが統計モデルに入力される場合、当該統計モデルは、画素毎にぼけ値を出力する。

ここで、本実施形態においては、上記したように統計モデルを用いることによって画像から当該画像に含まれる被写体までの距離に応じて当該画像に生じるぼけ（を示すぼけ値）を予測することが可能であるが、当該ぼけ値の精度を向上させるためには、当該統計モデルを学習させる必要がある。

以下、図８を参照して、一般的な統計モデルの学習方法の概要について説明する。統計モデルの学習は、当該学習のために用意された画像（以下、学習用画像と表記）５０１に関する情報を統計モデルに入力し、当該統計モデルによって予測されたぼけ値５０２と正解値５０３との誤差を当該統計モデルにフィードバックすることによって行われる。なお、正解値５０３とは、学習用画像５０１の撮像地点から当該学習用画像５０１に含まれる被写体までの実際の距離（実測値）に応じて当該学習用画像５０１に生じるぼけを示すぼけ値（つまり、当該実際の距離を変換することによって得られるぼけ値）をいい、例えば正解ラベル等とも称される。また、フィードバックとは、誤差が減少するように統計モデルのパラメータ（例えば、重み係数）を更新することをいう。

具体的には、統計モデルにおいて撮像装置からぼけ値を予測する方式として上記したパッチ方式が適用される場合、学習用画像５０１から切り出された画像パッチ（局所領域）毎に、当該画像パッチに関する情報（勾配データ）が統計モデルに入力され、当該統計モデルによって各画像パッチに対応する予測値としてぼけ値５０２が出力される。このように出力されたぼけ値５０２と正解値５０３とが比較されることによって得られる誤差が、統計モデルにフィードバックされる。

ところで、上記した一般的な統計モデルの学習方法においては、例えば図９に示すような正解ラベルが付与された学習用画像（つまり、学習用画像と当該学習用画像から予測されるべき実際の距離を変換することによって得られる正解値とを含む学習用のデータセット）を用意する必要があり、当該正解ラベルを得るためには、学習用画像を撮像する度に当該学習用画像に含まれる被写体までの実際の距離を計測しなければならない。統計モデルの精度を向上させるためには多数の学習用のデータセットを統計モデルに学習させる必要があるため、このような多数の学習用データセットを用意することは容易ではない。

ここで、統計モデルの学習においては学習用画像（画像パッチ）が入力されることによって当該統計モデルから出力されるぼけ値に基づいて計算される損失（誤差）を評価（フィードバック）する必要があるところ、本実施形態においては、学習用画像に含まれる被写体までの距離の大小関係を用いて計算される順位損失（ランクロス）による弱教師学習を行うものとする。

なお、順位損失による弱教師学習とは、データ間の相対的な順序関係（順位）に基づいて学習を行う方法である。本実施形態においては、撮像装置２から被写体までの距離（相対距離）に基づく２つの画像の各々の順位に基づいて統計モデルを学習させるものとする。

このような学習方法であれば、学習用画像に含まれる被写体までの距離の大小関係が判明していれば、当該距離の実測値（実際の距離）は不明であってもよい。

ここで、図１０に示すように、撮像装置２からの実際の距離は不明であるが、当該距離の大小関係（順位）が判明している５つの被写体Ｓ_１～Ｓ_５があるものとする。なお、被写体Ｓ_１～Ｓ_５のうち、被写体Ｓ_１が撮像装置２から最も近い位置にあり、被写体Ｓ_５が撮像装置２から最も遠い位置にある。このような被写体Ｓ_１～Ｓ_５の各々を撮像装置２で撮像し、当該被写体Ｓ_１～Ｓ_５の各々を含む画像を画像ｘ_１～ｘ_５とすると、当該画像ｘ_１～ｘ_５の各々に含まれる被写体Ｓ_１～Ｓ_５までの距離に応じた各画像の順位（ランク）は、画像ｘ_１が「１」、画像ｘ_２が「２」、画像ｘ_３が「３」、画像ｘ_４が「４」、画像ｘ_５が「５」となる。

このような画像ｘ_１～ｘ_５において、例えば画像ｘ_２に含まれる被写体Ｓ_２までの距離に応じて当該画像ｘ_２に生じるぼけを示すぼけ値と、画像ｘ_５に含まれる被写体Ｓ_５までの距離に応じて当該画像ｘ_５に生じるぼけを示すぼけ値とを統計モデルを用いて予測する場合を想定する。

この場合、上記した図５において説明したような距離とぼけ値との関係性によれば、十分に学習が行われ、高い精度を有する統計モデルが用いられるのであれば、画像ｘ_２を入力することによって当該統計モデルから出力されるぼけ値は、画像ｘ_５を入力することによって当該統計モデルから出力されるぼけ値よりも小さくなるはずである。

そこで、本実施形態においては、例えば画像ｘ_ｉに含まれる被写体までの距離（画像ｘ_ｉを撮像した際の撮像装置２から当該被写体までの距離）と画像ｘ_ｊに含まれる被写体までの距離（画像ｘ_ｊを撮像した際の撮像装置２から当該被写体までの距離）との大小関係を判別し、「ｒａｎｋ（ｘ_ｉ）＞ｒａｎｋ（ｘ_ｊ）であればｆ_θ（ｘ_ｉ）＞ｆ_θ（ｘ_ｊ）」という関係が成り立つという前提に基づいて、このような関係が維持されるような損失（順位損失）を用いて統計モデルを学習させるものとする。

なお、ｒａｎｋ（ｘ_ｉ）＞ｒａｎｋ（ｘ_ｊ）は、画像ｘ_ｉに含まれる被写体までの距離が画像ｘ_ｊに含まれる被写体までの距離よりも大きいことを表している。また、ｆ_θ（ｘ_ｉ）は画像ｘ_ｉを入力することによって統計モデルｆ_θから出力されるぼけ値ｆ_θ（ｘ_ｉ）（つまり、画像ｘ_ｉに対応する予測値）を表しており、ｆ_θ（ｘ_ｊ）は画像ｘ_ｊを入力することによって統計モデルｆ_θから出力されるぼけ値ｆ_θ（ｘ_ｊ）（つまり、画像ｘ_ｊに対応する予測値）を表している。また、ｆ_θにおけるθは、統計モデルのパラメータである。

図９及び図１０においては、便宜的に、平面形状を有する被写体が示されているが、被写体は他の形状を有する他の物体等であってもよい。

以下、図１に示す画像処理装置３に含まれる学習処理部３５について具体的に説明する。図１１は、学習処理部３５の機能構成の一例を示すブロック図である。

図１１に示すように、学習処理部３５は、距離取得部３５ａ、判別部３５ｂ、計算部３５ｃ及び学習部３５ｄを含む。

ここで、本実施形態においては複数の学習用画像を用いて計算される順位損失による弱教師学習が行われるが、このような学習を行うためには、上記したように当該複数の学習用画像の各々に含まれる被写体までの距離の大小関係を判別する必要がある。

この場合、画像取得部３２は、撮像装置２によって撮像された多視点画像を取得するものとする。距離取得部３５ａは、この多視点画像を当該画像取得部３２から取得し、当該取得された多視点画像から当該多視点画像の各々に含まれる被写体までの距離（奥行き）を取得する。本実施形態における多視点画像とは、図１２に示すように同一の被写体を異なる視点（つまり、多視点）から撮像した複数の画像（２つ以上の画像）である。なお、距離取得部３５ａによって取得される距離の詳細については後述する。

判別部３５ｂは、距離取得部３５ａによって取得された距離に基づいて、多視点画像のうちの例えば２つの画像の各々に含まれる被写体までの距離の大小関係（以下、単に画像間の距離の大小関係と表記）を判別する。

計算部３５ｃは、判別部３５ｂによって大小関係が判別された２つの画像の各々を統計モデルに入力することによって出力されたぼけ値と、判別部３５ｂによって判別された当該画像間の距離の大小関係に基づいて、順位損失を計算する。

学習部３５ｄは、計算部３５ｃによって計算された順位損失に基づいて、統計モデル格納部３１に格納されている統計モデルを学習させる。学習部３５ｄによる学習が完了した統計モデルは、統計モデル格納部３１に格納される（つまり、統計モデル格納部３１に格納されている統計モデルに上書きされる）。

次に、図１３のフローチャートを参照して、統計モデルを学習させる際の画像処理装置３の処理手順の一例について説明する。

ここでは、統計モデル格納部３１に事前に学習済みである統計モデル（事前学習済みモデル）が格納されているものとして説明するが、当該統計モデルは、例えば撮像装置２で撮像された画像を学習することによって生成されていてもよいし、当該撮像装置２とは異なる撮像装置（またはレンズ）で撮像された画像を学習することによって生成されていてもよい。すなわち、本実施形態においては、少なくとも画像を入力として当該画像に含まれる被写体までの距離に応じて当該画像に生じるぼけを示すぼけ値（つまり、当該距離に対応するぼけ値）を出力（予測）するための統計モデルが事前に用意されていればよい。

まず、距離取得部３５ａは、画像取得部３２によって取得された多視点画像（撮像装置２によって被写体を多視点から撮像した画像）を学習用画像集合として取得する（ステップＳ１）。ステップＳ１において取得される多視点画像は、可能な限り静止している同一の被写体を互いに相違なる位置から撮像した画像であることが好ましい。また、本実施形態において、多視点画像（複数の画像）は、撮像装置２のフォーカス（つまり、レンズ２１とイメージセンサ２２との距離に基づくピント位置）が固定された状態で撮像されているものとし、被写体に様々なぼけが生じるように撮像されていることが好ましい。

なお、多視点画像を撮像する撮像装置２は、任意のレンズが取り付けられた任意のカメラシステムであればよく、上記した統計モデルに事前にぼけを学習させた画像を撮像した撮像装置である必要はない。

ステップＳ１の処理が実行されると、距離取得部３５ａは、当該ステップＳ１において取得された多視点画像から、当該多視点画像の各々に含まれる被写体までの距離（当該画像を撮像した際の撮像装置２から当該被写体までの距離）を取得する（ステップＳ２）。

なお、ステップＳ２における多視点画像からの距離の取得（奥行き推定）には、ＳｆＭ（Structure from Motion）及び多視点ステレオと称される技術を用いることができる。

図１４は、ＳｆＭの概要を示している。ＳｆＭにおいては、多視点画像（多視点から撮像された複数の画像）の各々から被写体の特徴点（被写体の形状を表す特徴点）が抽出される。図１４においては、３つの画像から、被写体の特徴点としてＰ１～Ｐ７が抽出されていることが示されている。このように抽出された特徴点は、多視点画像間で対応づけられる。ＳｆＭによれば、このように対応づけられた特徴点に基づく３次元点群（の座標）と、当該対応づけられた特徴点間の変位に基づいて各画像が撮像された際の撮像装置２の位置及び姿勢（つまり、各視点における撮像装置２の位置及び姿勢）を計算することができる。ＳｆＭにおいては、多視点画像を用いることにより、３次元点群の座標のずれを最小化することができる。

なお、ＳｆＭでは粗い３次元点群の座標が計算されるため、本実施形態においては、上記した各視点における撮像装置２の位置及び姿勢を用いた多視点ステレオ技術により、より詳細な３次元点群（の座標）を計算するものとする。

この場合、上記したＳｆＭ及び多視点ステレオ技術における１つの視点（撮像装置２）の位置（並進成分）及び姿勢（回転成分）をそれぞれｔ及びＲとし、多視点画像から計算された３次元点の座標を（Ｘ，Ｙ，Ｚ）とすると、多視点画像（各視点における画像）中の座標位置（ｘ，ｙ）と当該座標位置に存在する被写体までの距離（奥行き）ｚ_０は、以下の式（１）及び式（２）の関係にある。

なお、式（１）におけるＫは、撮像装置２の内部パラメータであり、例えば撮像装置２に備えられるレンズ２１とイメージセンサ２２との距離を含む。

ステップＳ２においては、上記した式（１）及び式（２）を用いることによって、多視点画像の各々に含まれる被写体までの距離が上記した特徴点毎に計算される。

ただし、上記したステップＳ２において取得（計算）された距離は、スケールが不定の距離である。このスケールが不定の距離ｚ_０と実スケールに基づく距離ｚとは以下の式（３）の関係にある。

上記した式（３）のβは、スケールが不定の距離ｚ_０を実スケールに基づく距離ｚに変換するためのスケールパラメータである。一般的には、画像に含まれている被写体のサイズに関する情報（事前情報）や他のセンサから得られる情報（値）等がない場合、撮像装置２（単眼カメラ）の情報だけではスケールパラメータβを求めることはできない。

一般的な統計モデルの学習時にはカメラパラメータを用いて実スケールに基づく距離（実測値）から変換されたぼけ値を正解値として用いるが、このようにスケールパラメータβが不定である場合には、図１５に示すように例えば同一の距離に存在する被写体を撮像した場合であっても距離が異なるぼけ値に変換される場合があり、統計モデルを適切に学習させることができない（つまり、スケールが不定の距離ｚ_０から変換されたぼけ値を正解値として用いることはできない）。

しかしながら、多視点画像の各々に含まれる被写体（特徴点）までのスケールが不定の距離ｚ_０は、当該被写体までの距離の大小関係の判別には利用することができる。

次に、学習処理部３５は、ステップＳ１において取得された多視点画像（複数の学習用画像）の中から、例えば任意の２つの画像をランダムに選択（取得）する（ステップＳ３）。以下の説明においては、ステップＳ３において選択された２つの画像を画像ｘ_ｉ及び画像ｘ_ｊとする。

なお、ステップＳ３において選択される画像ｘ_ｉ及び画像ｘ_ｊは、例えば多視点画像（のうちの任意の画像）から切り出された少なくとも一部の領域（例えば、ｎ画素×ｍ画素の画像パッチ）であるものとする。また、画像ｘ_ｉ及び画像ｘ_ｊは、多視点画像のうちの同一の画像から切り出された画像パッチであってもよいし、異なる画像から切り出された画像パッチであってもよい。

次に、判別部３５ｂは、ステップＳ２において取得された多視点画像の各々に含まれる被写体までのスケールが不定の距離に基づいて、ステップＳ３において選択された画像ｘ_ｉ及び画像ｘ_ｊ間の距離の大小関係（画像ｘ_ｉ及び画像ｘ_ｊの各々に含まれる被写体までの距離の大小関係）を判別する（ステップＳ４）。

なお、ステップＳ２においては多視点画像の各々に含まれる特徴点毎に距離が計算されるため、ステップＳ３においては、特徴点を含む画像パッチが画像ｘ_ｉ及び画像ｘ_ｊとして選択されているものとする。これにより、画像ｘ_ｉ及び画像ｘ_ｊ間の距離の大小関係は、当該画像ｘ_ｉ及び画像ｘ_ｊの各々に含まれる特徴点について計算された距離に基づいて判別される。

具体的には、例えば図１４の下部中央に示されている画像中の特徴点Ｐ２を含む画像パッチが画像ｘ_ｉであり、当該画像中の特徴点Ｐ４を含む画像パッチが画像ｘ_ｊであるような場合には、画像ｘ_ｉに含まれる被写体（特徴点Ｐ２）までの距離よりも画像ｘ_ｊに含まれる被写体（特徴点Ｐ４）までの距離の方が大きいという画像ｘ_ｉ及び画像ｘ_ｊ間の距離の大小関係が判別される。

ここでは、便宜的に、同一の画像から切り出された画像パッチが画像ｘ_ｉ及び画像ｘ_ｊである場合について説明したが、上記したようにステップＳ２においては多視点画像の各々に含まれる特徴点毎に距離が計算されるため、画像ｘ_ｉ及び画像ｘ_ｊが多視点画像のうちの異なる画像から切り出された画像パッチであっても、画像ｘ_ｉ及び画像ｘ_ｊ間の距離の大小関係を判別することは可能である。

ステップＳ４の処理が実行されると、計算部３５ｃは、統計モデル格納部３１に格納されている統計モデルを用いて、画像ｘ_ｉに含まれている被写体までの距離応じて当該画像ｘ_ｉに生じるぼけを示すぼけ値（予測値）及び画像ｘ_ｊに含まれている被写体までの距離に応じて生じるぼけ値（予測値）を取得する（ステップＳ５）。

この場合、画像ｘ_ｉ（つまり、ｎ画素×ｍ画素の画像パッチ）を入力することによって統計モデルから出力されるぼけ値ｆ_θ（ｘ_ｉ）及び画像ｘ_ｊ（つまり、ｎ画素×ｍ画素の画像パッチ）を入力することによって統計モデルから出力されるぼけ値ｆ_θ（ｘ_ｊ）が取得される。

次に、計算部３５ｃは、ステップＳ５において取得されたぼけ値（以下、画像ｘ_ｉのぼけ値及び画像ｘ_ｊのぼけ値と表記）に基づいて順位損失（画像ｘ_ｉ及び画像ｘ_ｊ間の距離の大小関係を考慮した損失）を計算する（ステップＳ６）。

ステップＳ６においては、画像ｘ_ｉのぼけ値ｆ_θ（ｘ_ｉ）及び画像ｘ_ｊのぼけ値ｆ_θ（ｘ_ｊ）の大小関係がステップＳ４において判別された画像ｘ_ｉ及び画像ｘ_ｊ間の距離の大小関係と等しいか否かが反映された損失（順位損失）が計算される。

ここで、例えば「Chris Burges, Tal Shaked, Erin Renshaw, Ari Lazier, Matt Deeds, Nicole Hamilton, and Greg Hullender. Learning to rank using gradient descent. In Proceedings of the 22^nd international conference on Machinelearning, pages 89-96, 2005.」によれば、順位損失を表す関数（順位損失関数）は以下の式（４）によって定義される。

この式（４）において、Ｌ_ｒａｎｋ（ｘ_ｉ，ｘ_ｊ）は順位損失を表しており、ｙ_ｉｊは上記した画像ｘ_ｉのぼけ値ｆ_θ（ｘ_ｉ）及び画像ｘ_ｊのぼけ値ｆ_θ（ｘ_ｊ）の大小関係が画像ｘ_ｉ及び画像ｘ_ｊ間の距離の大小関係と等しい（つまり、統計モデルの予測値であるぼけ値がステップＳ４において判別された大小関係を満たす）か否かを表すラベルに相当する。なお、ｙ_ｉｊは、式（５）に示すように、ｒａｎｋ（ｘ_ｉ）＞ｒａｎｋ（ｘ_ｊ）である（画像ｘ_ｉに含まれる被写体までの距離が画像ｘ_ｊに含まれる被写体までの距離よりも大きい）場合に１であり、ｒａｎｋ（ｘ_ｉ）＜ｒａｎｋ（ｘ_ｊ）である（画像ｘ_ｉに含まれる被写体までの距離が画像ｘ_ｊに含まれる被写体までの距離よりも小さい）場合に０である。また、式（５）のｏｔｈｅｒｗｉｓｅは、ｒａｎｋ（ｘ_ｉ）＝ｒａｎｋ（ｘ_ｊ）（つまり、画像ｘ_ｉに含まれる被写体までの距離と画像ｘ_ｊに含まれる被写体までの距離とが等しい）場合を想定しており、この場合におけるｙ_ｉｊは０．５とする。ｒａｎｋ（ｘ_ｉ）＞ｒａｎｋ（ｘ_ｊ）、ｒａｎｋ（ｘ_ｉ）＜ｒａｎｋ（ｘ_ｊ）及びｏｔｈｅｒｗｉｓｅは、上記したステップＳ５における画像ｘ_ｉ及び画像ｘ_ｊ間の距離の大小関係の判別結果に相当する。

また、式（４）のｓｏｆｔｐｌｕｓは、活性化関数として用いられるソフトプラスと称される関数であり、式（６）のように定義される。

このような順位損失関数によれば、画像ｘ_ｉ及び画像ｘ_ｊの各々のぼけ値の大小関係（つまり、画像ｘ_ｉ及び画像ｘ_ｊ間のぼけ値の大小関係）が画像ｘ_ｉ及び画像ｘ_ｊ間の距離の大小関係と等しい場合には計算される順位損失（の値）が小さくなり、画像ｘ_ｉ及び画像ｘ_ｊ間のぼけ値の大小関係が画像ｘ_ｉ及び画像ｘ_ｊ間の距離の大小関係と等しくない場合には計算される順位損失（の値）が大きくなる。

次に、学習部３５ｄは、ステップＳ６において計算された順位損失を用いて、統計モデルを学習させ、当該統計モデルを更新する（ステップＳ７）。統計モデルの学習は当該統計モデルのパラメータθを更新することによって行われるが、当該パラメータθの更新は、以下の式（７）のような最適化問題に従って行われる。

ここで、式（７）におけるＮは、上記した多視点画像（学習用画像集合）を表している。図１３においては省略されているが、ステップＳ３～Ｓ７の処理は、多視点画像Ｎから選択される２つの画像ｘ_ｉ及び画像ｘ_ｊ（多視点画像Ｎから切り出される２つの画像パッチ）の組毎に実行されるものとする。

この場合、式（７）により、画像ｘ_ｉ及び画像ｘ_ｊの組毎に計算される順位損失Ｌ_ｒａｎｋ（ｘ_ｉ，ｘ_ｊ）の合計が最も小さくなるパラメータθ´（つまり、更新後のパラメータ）を求めることができる。

なお、本実施形態における統計モデルにニューラルネットワークまたは畳み込みニューラルネットワーク等が適用されている（つまり、統計モデルがニューラルネットワークまたは畳み込みニューラルネットワーク等で構成されている）場合、当該統計モデルの学習（パラメータθの更新）には、上記した式（７）を逆方向に計算する誤差逆伝播法が用いられる。この誤差逆伝播法によれば、順位損失の勾配が計算され、当該勾配に従ってパラメータθが更新される。

ステップＳ７においては、統計モデルのパラメータθを上記した式（７）を用いて求められたパラメータθ´に更新することによって、ステップＳ１において取得された多視点画像を統計モデルに学習させることができる。このようにパラメータが更新された統計モデルは、統計モデル格納部３１に格納される（つまり、統計モデルが更新される）。

なお、本実施形態においては、例えば予め定められた数の画像ｘ_ｉ及び画像ｘ_ｊの組を対象として図１３に示す処理が実行されるが、当該図１３に示す処理を繰り返すことによって、統計モデルを更に学習させてもよい。

また、上記した式（４）のような順位損失関数を用いた学習方法はＲａｎｋＮｅｔと称されるが、本実施形態においては、他の学習方法により統計モデルを学習させてもよい。具体的には、本実施形態に係る統計モデルの学習方法としては、例えばＦＲａｎｋ、ＲａｎｋＢｏｏｓｔ、ＲａｎｋｉｎｇＳＶＭまたはＩＲＳＶＭ等が利用されてもよい。すなわち、本実施形態においては、上記したように画像ｘ_ｉ及び画像ｘ_ｊ間のぼけ値の大小関係が画像ｘ_ｉ及び画像ｘ_ｊ間の距離の大小関係と等しくなるように統計モデルを学習させる（つまり、学習用画像の各々の順位に関する制約の下で学習を行う）のであれば、様々な損失関数を利用することができる。

なお、図１３に示すステップＳ３においては、多視点画像から切り出される画像パッチ（画像の一部の領域）が画像ｘ_ｉ及び画像ｘ_ｊとして選択されるものとして説明したが、当該画像の全体を占める領域（つまり、画像全体）が画像ｘ_ｉ及び画像ｘ_ｊとして選択されてもよい。この場合、例えばステップＳ４においては画像ｘ_ｉに含まれる１つの特徴点及び画像ｘ_ｊに含まれる１つの特徴点について計算された距離に基づいて大小関係が判別され、ステップＳ５においては画像ｘ_ｉ及び画像ｘ_ｊを構成する画素毎に統計モデルから出力されたぼけ値のうちの当該特徴点に対応する画素について出力されたぼけ値が取得されればよい。

次に、図１６のフローチャートを参照して、上記した図１３に示す処理が実行されることによって多視点画像（学習用画像集合）を学習させた統計モデルを用いて撮像画像から距離情報を取得する際の画像処理装置３の処理手順の一例について説明する。

まず、撮像装置２（イメージセンサ２２）は、撮像装置２からの距離を測定する被写体を撮像することによって当該被写体を含む撮像画像を生成する。この撮像画像は、上記したように撮像装置２の光学系（レンズ２１）の収差の影響を受けた画像である。

画像処理装置３に含まれる画像取得部３２は、撮像画像を撮像装置２から取得する（ステップＳ１１）。

次に、距離取得部３３は、ステップＳ１１において取得された撮像画像（画像パッチの各々）に関する情報を、統計モデル格納部３１に格納されている統計モデルに入力する（ステップＳ１２）。なお、ステップＳ１２において統計モデルに入力される撮像画像に関する情報は、当該撮像画像を構成する各画素の勾配データを含む。

ステップＳ１２の処理が実行されると、統計モデルにおいて被写体までの距離に応じて生じるぼけを示すぼけ値が予測され、当該統計モデルは、当該予測されたぼけ値を出力する。これにより、距離取得部３３は、統計モデルから出力されたぼけ値を取得する（ステップＳ１３）。なお、ステップＳ１３においては、ステップＳ１１において取得された撮像画像を構成する画素毎のぼけ値が取得される。

ステップＳ１３の処理が実行されると、距離取得部３３は、ステップＳ１３において取得されたぼけ値を、当該ぼけ値に対応する距離に変換する（ステップＳ１４）。

ここで、ぼけ値をｂ（＝ｆ_θ（ｘ））、被写体までの距離（実スケールに基づく距離）をｚとした場合、当該ぼけ値ｂと距離ｚとには以下の式（８）の関係があるため、距離取得部３３は、当該式（８）を用いてステップＳ１３において取得されたぼけ値から距離を計算することができる。

なお、式（８）におけるｆは焦点距離、ｖは撮像装置２に備えられるレンズ２１とイメージセンサ２２との距離、ｐは画素ピッチ、Ｆは絞り（値）である。

上記したようにステップＳ１３においては撮像画像を構成する画素毎のぼけ値が取得されているため、ステップＳ１４の処理は、当該画素毎のぼけ値に対して実行される。すなわち、ステップＳ１４においては、撮像画像を構成する画素毎にぼけ値が距離に変換される。なお、ステップＳ１４の処理が実行される場合において、ぼけ値を距離に変換するために必要なパラメータ（撮像装置２の焦点距離ｆ、レンズ２１とイメージセンサ２２との距離ｖ、画素ピッチｐ及び絞りＦ）は、予め求められているものとする。

ステップＳ１４の処理が実行されると、出力部３４は、当該ステップＳ１４においてぼけ値から変換された距離を示す距離情報を、例えば撮像画像と位置的に対応づけて配置したマップ形式で出力する（ステップＳ１５）。なお、本実施形態においては距離情報がマップ形式で出力されるものとして説明したが、当該距離情報は、他の形式で出力されても構わない。

ここで説明したように統計モデルから出力されるぼけ値を距離に変換する構成によれば、当該変換時に距離をキャリブレーションすることによって、様々な環境において撮像された撮像画像に対して適切に対応することができ、汎用性が向上する。

上記したように本実施形態においては、撮像装置によって被写体を多視点から撮像した多視点画像（複数の画像）を取得し、当該多視点画像のうちの画像ｘ_ｉ（第１画像）を入力として統計モデルから出力されるぼけ値（第１ぼけ値）及び当該多視点画像のうちの画像ｘ_ｊ（第２画像）を入力として統計モデルから出力されるぼけ値（第２ぼけ値）に基づいて統計モデルを学習させる。また、本実施形態においては、画像ｘ_ｉを撮像した際の撮像装置２から当該画像ｘ_ｉに含まれる被写体までの距離（第１距離）及び画像ｘ_ｊを撮像した際の撮像装置２から当該ｘ_ｊに含まれる被写体までの距離（第２距離）を多視点画像から取得し、画像ｘ_ｉ及び画像ｘ_ｊ間の距離の大小関係（第１距離と第２距離との大小関係）を判別し、画像ｘ_ｉ及び画像ｘ_ｊ間のぼけ値の大小関係（画像ｘ_ｉのぼけ値と画像ｘ_ｊのぼけ値との大小関係）が画像ｘ_ｉ及び画像ｘ_ｊ間の距離の大小関係と等しくなるように統計モデルを学習させる。

本実施形態においては、このような構成により、正解ラベル（教示ラベル）が付与されていない学習用画像であっても統計モデルを学習させることができるため、当該統計モデルにおける学習の容易性を向上させることが可能となる。

また、本実施形態においては画像ｘ_ｉ及び画像ｘ_ｊを統計モデルに学習させる際に、当該画像ｘ_ｉに含まれる被写体までの距離と当該画像ｘ_ｊに含まれる被写体までの距離との大小関係（画像ｘ_ｉ及び画像ｘ_ｊ間の距離の大小関係）を把握しておく必要があるが、当該大小関係については、同一の被写体が異なる視点から撮像されることによって得られる多視点画像から計算される各画像に含まれる被写体までの距離に基づいて自動的に判別される。このような構成によれば、上記した画像ｘ_ｉ及び画像ｘ_ｊの各々に含まれる被写体までの距離の大小関係を人手により確認するような作業も必要なく、ユーザは、多視点画像を用意するのみでオンラインで統計モデルを学習させることができる。

更に、本実施形態における多視点画像は同一の被写体を多視点から撮像した複数の画像であればよいため、本実施形態においては、当該多視点画像を撮像するために特別な環境を用意する必要はない。この場合、多視点画像は、例えばドローン等に搭載された撮像装置２（カメラ）によって自動的に撮像された複数の画像であってもよい。これによれば、学習用画像を用意する困難性を更に低下させることができる。

また、多視点画像は、例えば所定の形式に従って圧縮（符号化）された画像（つまり、所定の情報が欠如した画像）であってもよい。本実施形態においては、このような多視点画像を統計モデルに学習させることによって、より実用的なデータ形式に対応可能な統計モデルを得ることができる。

なお、本実施形態においては、撮像装置２のフォーカス（レンズ２１とイメージセンサ２２との距離）が固定された状態で多視点画像が撮像されるものとする。このような構成によれば、多視点画像から取得される距離と当該多視点画像に生じるぼけとの関係性を維持することによって適切に統計モデルを学習させることができるとともに、様々なぼけが生じている多視点画像を比較的容易に撮像することができる。この撮像装置２のフォーカスは、例えばユーザが撮像装置２で多視点画像を撮像する際に学習用画像モードとして自動的に設定されるようにしてもよい。

更に、本実施形態においては、多視点画像に生じている様々なぼけを学習することが好ましいため、例えば画像ｘ_ｉ及び画像ｘ_ｊを入力として統計モデルから出力されたぼけ値に基づいて統計モデルを学習させた後に、当該画像ｘ_ｉ及び画像ｘ_ｊとは異なる視点から撮像した画像の画像パッチ（第４及び第５画像）を選択し、当該画像パッチを入力として統計モデルから出力されたぼけ値（第４及び第５ぼけ値）に基づいて統計モデルを学習させるようにしてもよい。すなわち、本実施形態においては、例えば同じ被写体であっても視点によって異なるぼけ（の色、サイズ及び形状）を効率的に学習することが可能となる。

また、本実施形態においては上記したように多視点画像に生じている様々なぼけを学習する構成であるため、例えばユーザが撮像装置２を用いて多視点画像を撮影する場合には、手前から奥までの様々な位置（複数の位置）にフォーカスを合わせるように通知する（つまり、被写体のエッジのフォーカス具合に応じて撮影をガイドする）ようにしてもよい。この場合、例えばフォーカスが合っている位置がユーザに対して通知されることによって、当該ユーザは、様々な位置にフォーカスを合わせながら多視点画像を撮影することができる。

また、多視点画像は同一の被写体を多視点から撮像した複数の画像であるため、当該多視点画像（複数の画像）がユーザによって撮影されている間に、当該被写体を含む画像が撮像されるように通知する（つまり、同一の被写体を撮影するように誘導する）ようにしてもよい。この場合、例えばユーザが撮影する画像に被写体が含まれていない状態を、ユーザに対して警告するようなことが可能となる。

なお、上記した通知は、例えば撮像装置２を介してユーザに対して行うことができるが、他の手法で行われても構わない。

更に、光学系の収差により画像に生じるぼけは位置依存性を有する（画像上の位置によってぼけの色、サイズ及び形状等が異なる）が、本実施形態においては、ＳｆＭにおいて抽出された特徴点について計算された距離の大小関係を利用するため、当該特徴点に対応する画素について統計モデルから出力されたぼけ値に基づいて当該統計モデルを学習させる。このため、特徴点が含まれない領域に生じるぼけについては効率よく統計モデルを学習させることができない場合がある。この場合、統計モデルの学習に用いられた多視点画像を蓄積しておき、当該多視点画像から抽出された特徴点の分布に基づいて当該特徴点が少ない領域（例えば、当該特徴点の数が予め定められた値未満である領域等）を通知するような構成としてもよい。このような構成によれば、ユーザは通知された領域に被写体（特徴点）が含まれるような多視点画像を撮像することができ、効率的に統計モデルを学習させることが可能となる。また、上記したように通知された領域に特徴点を含む画像を自動的に選択し、当該選択された画像を用いて学習を行うようにしてもよい。

ところで、本実施形態においては単一のシーン（ドメイン）において撮像された多視点画像（つまり、１組の多視点画像）を用いて統計モデルを学習させる場合について説明したが、本実施形態に係る画像処理装置３（学習処理部３５）は、複数のシーンにおいて撮像された多視点画像（つまり、複数の組の多視点画像）を用いて統計モデルを学習させるように構成されていてもよい。

なお、本実施形態におけるシーンとは、特定の被写体までの距離（スケールが不定の距離）を取得するために撮像装置２によって撮像される多視点画像の単位である。すなわち、本実施形態において「複数のシーンにおいて多視点画像が撮像される」とは、例えば複数の被写体の各々に対して多視点画像が撮像されるような場合が含まれる。

ここで、図１７は、第１シーンで第１被写体を撮像した第１多視点画像６０１及び第２シーンで第２被写体を撮像した第２多視点画像６０２を示している。

この場合、例えば第１多視点画像６０１から画像ｘ_ｉ及び画像ｘ_ｊ（第１及び第２画像）が選択された場合、当該画像ｘ_ｉに含まれる第１被写体（例えば、特徴点Ｐ２）までの距離と当該画像ｘ_ｊに含まれる第１被写体（例えば、特徴点Ｐ４）までの距離との大小関係を判別することができる。同様に、第２多視点画像６０２から画像ｘ_ｉ及び画像ｘ_ｊ（第６及び第７画像）が選択された場合、当該画像ｘ_ｉに含まれる第２被写体（例えば、特徴点Ｐ２´）までの距離と当該画像ｘ_ｊに含まれる第２被写体（例えば、Ｐ４´）までの距離との大小関係を判別することができる。

しかしながら、上記したように多視点画像から計算される距離はスケールが不定の距離である（つまり、実スケールに基づく距離ではない）ため、例えば第１多視点画像６０１から画像ｘ_ｉが選択され、第２多視点画像６０２から画像ｘ_ｊが選択された場合、当該画像ｘ_ｉに含まれる第１被写体（例えば、特徴点Ｐ２）までの距離と当該画像ｘ_ｊに含まれる第２被写体（例えば、特徴点Ｐ４´）までの距離とを比較することができず、当該距離の大小関係（画像ｘ_ｉ及び画像ｘ_ｊ間の距離の大小関係）を判別することはできない。

すなわち、本実施形態においては上記したように複数の組の多視点画像（第１及び第２多視点画像）を用いて統計モデルを学習させることができるが、大小関係が判別される画像ｘ_ｉ及び画像ｘ_ｊは、同一のシーンで撮像された多視点画像から選択される必要がある。換言すれば、本実施形態における統計モデルは、第１多視点画像のうちの画像を入力として当該統計モデルから出力されるぼけ値（第１または第２ぼけ値）及び第２多視点画像のうちの画像を入力として当該統計モデルから出力されるぼけ値（第６または第７ぼけ値）に基づいて学習しない（つまり、第１及び第２多視点画像間では学習しない）ものとする。

なお、複数のシーンで撮像された複数の組の多視点画像を用いて統計モデルを学習させる場合には、図１３に示すステップＳ１において当該複数の組の多視点画像が取得され、ステップＳ２の処理は、当該多視点画像の組毎に実行される。また、この場合におけるステップＳ３においては、例えばランダムに１つのシーンが選択され、当該選択されたシーンで撮像された多視点画像から画像ｘ_ｉ及び画像ｘ_ｊが選択されるものとする。

ここでは画像ｘ_ｉ及び画像ｘ_ｊが同一のシーンで撮像された多視点画像から選択されるものとして説明したが、例えば第１シーンで撮像された第１多視点画像（のうちの少なくとも一部）及び第２シーンで撮像された第２多視点画像（のうちの少なくとも一部）に共通の既知の被写体（第３被写体）が含まれている場合、第１多視点画像から計算される距離と第２多視点画像から計算される距離との比較が可能となるため、第１多視点画像から画像ｘ_ｉを選択し、第２多視点画像から画像ｘ_ｊを選択する（つまり、第１多視点画像から選択された画像ｘ_ｉのぼけ値及び第２多視点画像から選択された画像ｘ_ｊのぼけ値に基づいて統計モデルを学習させる）構成とすることも可能である。

更に、本実施形態においては、統計モデルの学習時に、多視点画像（学習用画像集合）の中から任意の２つの画像が選択される（つまり、ランダムに画像が選択される）ものとして説明したが、当該２つの画像としては、例えば被写体までの距離（スケールが不定の距離）の差分が予め定められた値以上となる画像が優先的に選択されてもよい。これによれば、画像間の距離の大小関係が誤って判別されることを回避することができる。また、上記した２つの画像（画像パッチ）は、例えば多視点画像中の位置や画素値等に応じた所定の規則性に基づいて選択されてもよい。

また、本実施形態においては、統計モデルにおいて画像からぼけ値を予測する方式の一例としてパッチ方式を説明したが、画像から距離を予測する方式としては、例えば画像の全体領域が統計モデルに入力され、当該全体領域に対応する予測値（ぼけ値）が出力される画面一括方式等が採用されてもよい。

また、本実施形態においては、統計モデルが光学系の収差の影響を受けた多視点画像（当該画像に含まれる被写体までの距離に応じて非線形に変化するぼけ）を学習することによって生成されるものとして説明したが、当該統計モデルは、例えば撮像装置２の開口部に設けられたフィルタ（カラーフィルタ等）を透過した光に基づいて生成される多視点画像（つまり、当該フィルタによって意図的に画像に生じさせた、被写体までの距離に応じて非線形に変化するぼけ）を学習することによって生成されるものであってもよい。

なお、本実施形態においては、被写体を含む画像を入力した統計モデルが当該被写体までの距離に応じて当該画像に生じるぼけを示すぼけ値を出力するものとして説明したが、当該統計モデルは、画像を入力として当該画像に含まれる被写体までの距離を出力するように生成されていてもよい。このような統計モデルの学習は、上記したぼけ値に代えて、当該統計モデルから出力される距離に基づいて行われる。

（第２実施形態）
次に、第２実施形態について説明する。本実施形態における測距システム（撮像装置及び画像処理装置）の構成等については前述した第１実施形態と同様であるため、本実施形態において測距システムの構成について説明する場合には、適宜、図１等を用いる。ここでは、前述した第１実施形態とは異なる点について主に述べる。

前述した第１実施形態においては統計モデルが画像に含まれる被写体までの距離に応じて当該画像に生じるぼけを示すぼけ値を出力するものとして説明したが、本実施形態における統計モデルは、当該ぼけ値（予測値）に対する不確実性の度合い（以下、不確実度と表記）を当該ぼけ値とともに出力するものとする。本実施形態は、このように統計モデルから出力される不確実度を反映した順位損失（順位損失関数）を用いて統計モデルを学習させる点で、前述した第１実施形態とは異なる。なお、不確実度は例えば０以上の実数によって表され、値が大きいほど不確実性が高いことを表すものとする。不確実度の算出方法は、特定の方法に限定されず、既知の様々な方法を適用することができる。

以下、図１８のフローチャートを参照して、本実施形態において統計モデルを学習させる際の画像処理装置３の処理手順の一例について説明する。

まず、前述した図１３に示すステップＳ１～Ｓ４の処理に相当するステップＳ２１～Ｓ２４の処理が実行される。

ステップＳ２４の処理が実行されると、計算部３５ｃは、統計モデル格納部３１に格納されている統計モデルを用いて、画像ｘ_ｉに含まれている被写体までの距離に応じて当該画像ｘ_ｉに生じるぼけを示すぼけ値及び当該ぼけ値に対する不確実度と、画像ｘ_ｊに含まれている被写体までの距離に応じて当該画像ｘ_ｊに生じるぼけを示すぼけ値及び当該ぼけ値に対する不確実度とを取得する（ステップＳ２５）。

ここで、上記した不確実度をσで表すものとすると、ステップＳ２５においては、画像ｘ_ｉを入力することによって統計モデルｆ_θから出力されるぼけ値ｆ_θ（ｘ_ｉ）及び不確実度σ_ｉと、画像ｘ_ｊを入力することによって統計モデルｆ_θから出力されるぼけ値ｆ_θ（ｘ_ｊ）及び不確実度σ_ｊとが取得される。

次に、計算部３５ｃは、ステップＳ２５において取得されたぼけ値及び不確実度に基づいて、順位損失を計算する（ステップＳ２６）。

前述した第１実施形態においては式（４）を用いて順位損失が計算されるものとして説明したが、本実施形態における順位損失を表す関数（順位損失関数）は以下の式（９）のように定義される。

この式（９）において、Ｌ_{ｕｎｃｒｔ}（ｘ_ｉ，ｘ_ｊ）は本実施形態において計算される順位損失を表しており、Ｌ_ｒａｎｋ（ｘ_ｉ，ｘ_ｊ）は前述した第１実施形態における式（４）のＬ_ｒａｎｋ（ｘ_ｉ，ｘ_ｊ）と同様である。

ここで、例えばテクスチャのない領域や光が飽和している（つまり、白飛びしている）領域（画像パッチ）が画像ｘ_ｉまたは画像ｘ_ｊとして選択されている場合には、統計モデルを用いて精度の高いぼけ値が出力される（つまり、正しいぼけ値を予測し、精度の高い距離を取得する）ことが困難であるが、前述した第１実施形態においては、このようなぼけ値を予測するための手掛かりがないまたは少ない領域（以下、予測困難領域と表記）であっても画像ｘ_ｉ及び画像ｘ_ｊ間の距離の大小関係を満たすように学習しようとするため、過学習が発生する可能性がある。この場合、統計モデルが予測困難領域に最適化されてしまい、当該統計モデルの汎用性が低下する。

そこで、本実施形態においては、上記した式（９）に示すように不確実度σを損失関数に加えることで、上記した予測困難領域における予測困難性（予測不可能性）を考慮した順位損失を計算する。なお、式（９）のσは、式（１０）に定義されるように、不確実度σ_ｉ及び不確実度σ_ｊのうちの値が大きい不確実度である。

式（９）のような順位損失関数（不確実性順位損失関数）によれば、予測困難領域においてＬ_ｒａｎｋ（ｘ_ｉ，ｘ_ｊ）を下げる（小さくする）ことができない場合には、不確実度σ_ｉ及び不確実度σ_ｊのうちの少なくとも一方（つまり、不確実度σ）を高くすることによって、本実施形態における順位損失であるＬ_{ｕｎｃｒｔ}（ｘ_ｉ，ｘ_ｊ）を下げるように調整することができる。ただし、不確実度σを過度に高くすることによりＬ_{ｕｎｃｒｔ}（ｘ_ｉ，ｘ_ｊ）が下がりすぎることを防止するため、ペナルティとして式（９）の右辺に第２項が加えられている。

なお、式（９）に示す順位損失関数は、例えば不均一分散の定義式を拡張することによって得ることができる。

ステップＳ２６の処理が実行されると、前述した図１３に示すステップＳ７の処理に相当するステップＳ２７の処理が実行される。なお、このステップＳ２７においては、前述した第１実施形態において説明した式（７）のＬ_ｒａｎｋ（ｘ_ｉ，ｘ_ｊ）をＬ_{ｕｎｃｒｔ}（ｘ_ｉ，ｘ_ｊ）として統計モデルを学習させればよい。

上記したように本実施形態においては画像ｘ_ｉ及び画像ｘ_ｊのぼけ値（第１及び第２ぼけ値）に基づいて計算される順位損失を最小化するように統計モデルを学習させる際に、画像ｘ_ｉ及び画像ｘ_ｊが入力された統計モデルから出力される不確実度（第１及び第２不確実度）のうちの少なくとも一方に基づいて当該順位損失を調整する。

本実施形態においては、このような構成により、上記した予測困難領域が統計モデルの学習に対して与える影響を緩和することができるため、精度の高い統計モデルの学習を実現することが可能となる。

（第３実施形態）
次に、第３実施形態について説明する。本実施形態における測距システム（撮像装置及び画像処理装置）の構成等については前述した第１実施形態と同様であるため、本実施形態において測距システムの構成について説明する場合には、適宜、図１等を用いる。ここでは、前述した第１実施形態とは異なる点について主に述べる。

本実施形態は、前述した第１実施形態において説明したように異なる距離に位置する被写体を含む２つの画像（学習用画像）間の距離の大小関係を満たし、かつ、同程度の距離に位置する被写体を含む２つの画像（学習用画像）のぼけ値のばらつきが最小となるように統計モデルを学習させる点で、当該第１実施形態とは異なる。

以下、本実施形態において統計モデルを学習させる際の画像処理装置３の処理手順の一例について説明する。ここでは、便宜的に、図１３のフローチャートを用いて説明する。

まず、前述した第１実施形態において説明したステップＳ１及びＳ２の処理が実行される。

ここで、前述した第１実施形態においては画像ｘ_ｉ及び画像ｘ_ｊの２つの画像が選択されるものとして説明したが、本実施形態において、学習処理部３５は、ステップＳ１において取得された多視点画像の中から３つの画像を選択する（ステップＳ３）。

ステップＳ３において選択された３つの画像を画像ｘ_ｉ、画像ｘ_ｊ及び画像ｘ_ｋとすると、画像ｘ_ｉ、画像ｘ_ｊ及び画像ｘ_ｋは、例えば画像ｘ_ｉに含まれる被写体までの距離と画像ｘ_ｊに含まれる被写体までの距離とが異なり、画像ｘ_ｉに含まれる被写体までの距離と画像ｘ_ｋに含まれる被写体までの距離とが略同一であるという関係を有する。すなわち、ステップＳ３において、学習処理部３５は、例えばステップＳ２において取得されたスケールが不定の距離に基づいて、上記した関係を有する画像ｘ_ｉ、画像ｘ_ｊ及び画像ｘ_ｋを選択する。

なお、本実施形態において「画像ｘ_ｉに含まれる被写体までの距離と画像ｘ_ｋに含まれる被写体までの距離とが略同一である」は、例えば当該２つの距離の差分が予め定められた値以下であることを含む。

また、本実施形態における画像ｘ_ｉ、画像ｘ_ｊ及び画像ｘ_ｋは、前述した第１実施形態において説明した画像ｘ_ｉ及び画像ｘ_ｊと同様に、多視点画像のうちの少なくとも１つの画像から切り出された画像パッチであるが、当該画像全体であってもよい。

ステップＳ３の処理が実行されると、前述した第１実施形態において説明したステップＳ４及びＳ５の処理が実行される。

なお、ステップＳ５においては、画像ｘ_ｉを入力することによって統計モデルｆ_θから出力されるぼけ値ｆ_θ（ｘ_ｉ）、画像ｘ_ｊを入力することによって統計モデルｆ_θから出力されるぼけ値ｆ_θ（ｘ_ｊ）及び画像ｘ_ｋを入力することによって統計モデルｆ_θから出力されるぼけ値ｆ_θ（ｘ_ｋ）が取得される。

次に、計算部３５ｃは、ステップＳ５において取得されたぼけ値（つまり、画像ｘ_ｉのぼけ値ｆ_θ（ｘ_ｉ）、画像ｘ_ｊのぼけ値ｆ_θ（ｘ_ｊ）及び画像ｘ_ｋのぼけ値ｆ_θ（ｘ_ｋ））に基づいて順位損失を計算する（ステップＳ６）。

ここで、画像ｘ_ｉ、画像ｘ_ｊ及び画像ｘ_ｋにおいては、上記したように画像ｘ_ｉに含まれる被写体までの距離と画像ｘ_ｊに含まれる被写体までの距離とが異なり、画像ｘ_ｉに含まれる被写体までの距離と画像ｘ_ｋに含まれる被写体までの距離とが略同一である。本実施形態においては、この点に着目し、画像ｘ_ｉ及び画像ｘ_ｊ間の距離の大小関係を満たし、かつ、画像ｘ_ｉ及び画像ｘ_ｋのぼけ値のばらつきが最小化するように統計モデルを学習させるものとする。

この場合、本実施形態における順位損失を表す関数（順位損失関数）は、以下の式（１１）のように定義される。

この式（１１）において、Ｌ_{ｉｎｔｒａ}（ｘ_ｉ，ｘ_ｊ，ｘ_ｋ）は本実施形態において計算される順位損失を表しており、Ｌ_ｒａｎｋ（ｘ_ｉ，ｘ_ｊ）は前述した第１実施形態における式（４）のＬ_ｒａｎｋ（ｘ_ｉ，ｘ_ｊ）に相当する。

また、式（１１）の右辺の第２項は画像ｘ_ｉのぼけ値と画像ｘ_ｋのぼけ値とのばらつき（差分）を表しており、当該第２項中のλは、当該右辺の第１項とのバランスを取るための任意の係数（λ＞０）である。

なお、式（１２）は、本実施形態において画像ｘ_ｉ、画像ｘ_ｊ及び画像ｘ_ｋが満たしている関係（つまり、画像ｘ_ｉ、画像ｘ_ｊ及び画像ｘ_ｋの各々に含まれる被写体までの距離の大小関係）を示している。

ステップＳ６の処理が実行されると、前述した第１実施形態において説明したステップＳ７の処理が実行される。このステップＳ７においては、前述した第１実施形態において説明した式（７）のＬ_ｒａｎｋ（ｘ_ｉ，ｘ_ｊ）をＬ_{ｉｎｔｒａ}（ｘ_ｉ，ｘ_ｊ，ｘ_ｋ）として統計モデルを学習させればよい。

上記したように本実施形態においては、略同一の距離（差分が予め定められた値以下である距離）に位置する被写体を含む２つの画像ｘ_ｉ及び画像ｘ_ｋ（第１及び第３画像）の各々を入力として統計モデルから出力されるぼけ値（第１及び第３ぼけ値）の差分が最小化されるように統計モデルを学習させる構成により、前述した第１実施形態と比較して、当該画像ｘ_ｉ及び画像ｘ_ｋのぼけ値のばらつきを考慮したより精度の高い統計モデルの学習を実現することができる。

本実施形態においては、画像ｘ_ｉ及び画像ｘ_ｋに含まれる被写体までの距離のばらつきを考慮して順位損失を計算するものとして説明したが、例えば以下の式（１３）のように、画像ｘ_ｊに含まれる被写体と同程度の距離に位置する被写体を含む画像ｘ_ｌを更に選択し、当該画像ｘ_ｊ及び画像ｘ_ｌのぼけ値のばらつきを更に考慮した順位損失を計算する順位損失関数を用いてもよい。

なお、式（１３）の順位損失関数を用いる場合、上記したステップＳ３においては、４つの画像（画像ｘ_ｉ、画像ｘ_ｊ、画像ｘ_ｋ及び画像ｘ_ｌ）が選択される。また、この画像ｘ_ｉ、画像ｘ_ｊ、画像ｘ_ｋ及び画像ｘ_ｌは、画像ｘ_ｉに含まれる被写体までの距離と画像ｘ_ｊに含まれる被写体までの距離とが異なり、画像ｘ_ｉに含まれる被写体までの距離と画像ｘ_ｋに含まれる被写体までの距離とが略同一であり、画像ｘ_ｊに含まれる被写体までの距離と画像ｘ_ｌに含まれる被写体までの距離とが略同一であるという関係を有しているものとする。

式（１３）の右辺の第３項は画像ｘ_ｊのぼけ値と画像ｘ_ｌのぼけ値とのばらつき（差分）を表しており、当該第３項中のλは、当該右辺の第１項とのバランスを取るための任意の係数（λ＞０）である。

なお、本実施形態は、前述した第２実施形態と組み合わせた構成としてもよい。この場合には、以下の式（１４）のような順位損失関数を用いることができる。

以上述べた少なくとも１つの実施形態によれば、被写体までの距離を取得するための統計モデルにおける学習の容易性を向上させることが可能な学習方法、プログラム及び画像処理装置を提供することができる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

１…測距システム、２…撮像装置、３…画像処理装置、２１…レンズ、２２…イメージセンサ、３１…統計モデル格納部、３２…画像取得部、３３…距離取得部、３４…出力部、３５…学習処理部、３５ａ…距離取得部、３５ｂ…判別部、３５ｃ…計算部、３５ｄ…学習部、２２１…第１センサ、２２２…第２センサ、２２３…第３センサ、３０１…ＣＰＵ、３０２…不揮発性メモリ、３０３…ＲＡＭ、３０３Ａ…画像処理プログラム、３０４…通信デバイス、３０５…バス。

Claims

被写体を含む画像を入力として当該被写体までの距離に応じて当該画像に生じるぼけを示すぼけ値を出力するための統計モデルを学習させる学習方法であって、
撮像装置によって第１被写体を多視点から撮像した第１多視点画像を取得することと、
前記第１多視点画像のうちの第１画像を入力として前記統計モデルから出力される第１ぼけ値及び前記第１多視点画像のうちの第２画像を入力として前記統計モデルから出力される第２ぼけ値に基づいて前記統計モデルを学習させることと
を具備し、
前記学習させることは、
前記第１多視点画像から、前記第１画像を撮像した際の前記撮像装置から当該第１画像に含まれる第１被写体までの第１距離及び前記第２画像を撮像した際の前記撮像装置から当該第２画像に含まれる第１被写体までの第２距離を取得することと、
前記第１距離と前記第２距離との大小関係を判別することと、
前記第１ぼけ値と前記第２ぼけ値との大小関係が前記判別された大小関係と等しくなるように前記統計モデルを学習させること
を含む
学習方法。
前記統計モデルは、前記第１画像を入力として前記第１ぼけ値及び当該第１ぼけ値の第１不確実度を出力し、前記第２画像を入力として前記第２ぼけ値及び当該第２ぼけ値の第２不確実度を出力し、
前記学習させることは、前記統計モデルから出力される第１ぼけ値及び第２ぼけ値に基づいて計算される順位損失を最小化するように統計モデルを学習させることを含み、
前記順位損失は、前記第１不確実度及び前記第２不確実度とのうちの少なくとも一方に基づいて調整される
請求項１記載の学習方法。
前記統計モデルは、前記第１多視点画像のうちの第３画像を入力として前記統計モデルから出力される第３ぼけ値を出力し、
前記学習させることは、前記第１ぼけ値と前記第３ぼけ値との差分が最小化されるように前記統計モデルを学習させることを含み、
前記第１画像を撮像した際の前記撮像装置から当該第１画像に含まれる第１被写体までの第１距離及び前記第３画像を撮像した際の前記撮像装置から当該第３画像に含まれる第１被写体までの第３距離の差分は、予め定められた値以下である
請求項１または２記載の学習方法。
前記第１多視点画像は、前記撮像装置のフォーカスが固定された状態で撮像される請求項１～３のいずれか一項に記載の学習方法。
前記学習させることは、前記第１及び第２ぼけ値に基づいて前記統計モデルを学習させた後に、前記第１多視点画像のうちの前記第１画像とは異なる視点から撮像した第４画像を入力として前記統計モデルから出力される第４ぼけ値及び前記第１多視点画像のうちの前記第２画像とは異なる視点から撮像した第５画像を入力として前記統計モデルから出力される第５ぼけ値に基づいて前記統計モデルを学習させることを含む請求項１～４のいずれか一項に記載の学習方法。
前記撮像装置によって第２被写体を多視点から撮像した第２多視点画像を取得することを更に具備し、
前記学習させることは、前記第２多視点画像のうちの第６画像を入力として前記統計モデルから出力される第６ぼけ値及び前記第２多視点画像に含まれる第７画像を入力として前記統計モデルから出力される第７ぼけ値に基づいて前記統計モデルを学習させることを更に含む
請求項１～５のいずれか一項に記載の学習方法。
前記統計モデルは、前記第１または第２ぼけ値及び前記第６または第７ぼけ値に基づいて学習しない請求項６記載の学習方法。
前記学習させることは、前記第１多視点画像のうちの少なくとも一部と前記第２多視点画像のうちの少なくとも一部とに前記第１及び第２被写体とは異なる第３被写体が含まれている場合、前記第１ぼけ値及び前記第６ぼけ値に基づいて前記統計モデルを学習させることを含む請求項６または７記載の学習方法。
前記第１多視点画像が前記撮像装置によって撮像される場合に、手前から奥までの複数の位置にフォーカスを合わるように通知することを更に具備する請求項１～８のいずれか一項に記載の学習方法。
前記第１多視点画像が前記撮像装置によって撮像される場合に、前記第１被写体を含む画像が撮像されるように通知することを更に具備する請求項１～９のいずれか一項に記載の学習方法。
画像処理装置のコンピュータによって実行されるプログラムであって、
前記コンピュータに、
被写体を含む画像を入力として当該被写体までの距離に応じて当該画像に生じるぼけを示すぼけ値を出力するための統計モデルを学習させる学習方法であって、
撮像装置によって被写体を多視点から撮像した多視点画像を取得することと、
前記多視点画像のうちの第１画像を入力として前記統計モデルから出力される第１ぼけ値及び前記多視点画像のうちの第２画像を入力として前記統計モデルから出力される第２ぼけ値に基づいて前記統計モデルを学習させることと
を実行させ、
前記学習させることは、
前記多視点画像から、前記第１画像を撮像した際の前記撮像装置から当該第１画像に含まれる被写体までの第１距離及び前記第２画像を撮像した際の前記撮像装置から当該第２画像に含まれる被写体までの第２距離を取得することと、
前記第１距離と前記第２距離との大小関係を判別することと、
前記第１ぼけ値と前記第２ぼけ値との大小関係が前記判別された大小関係と等しくなるように前記統計モデルを学習させること
を含む
プログラム。
被写体を含む画像を入力として当該被写体までの距離に応じて当該画像に生じるぼけを示すぼけ値を出力するための統計モデルを学習させる画像処理装置において、
撮像装置によって被写体を多視点から撮像した多視点画像を取得する第１取得手段と、
前記多視点画像のうちの第１画像を入力として前記統計モデルから出力される第１ぼけ値及び前記多視点画像のうちの第２画像を入力として前記統計モデルから出力される第２ぼけ値に基づいて前記統計モデルを学習させる学習手段と
を具備し、
前記学習手段は、
前記多視点画像から、前記第１画像を撮像した際の前記撮像装置から当該第１画像に含まれる被写体までの第１距離及び前記第２画像を撮像した際の前記撮像装置から当該第２画像に含まれる被写体までの第２距離を取得する第２取得手段と、
前記第１距離と前記第２距離との大小関係を判別する判別手段と
を含み、
前記第１ぼけ値と前記第２ぼけ値との大小関係が前記判別された大小関係と等しくなるように前記統計モデルを学習させる
画像処理装置。