JP7446985B2

JP7446985B2 - 学習方法、プログラム及び画像処理装置

Info

Publication number: JP7446985B2
Application number: JP2020207634A
Authority: JP
Inventors: 直三島; 正子柏木
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2024-03-11
Anticipated expiration: 2040-12-15
Also published as: CN114638354A; US20220188571A1; JP2022094636A

Description

本発明の実施形態は、学習方法、プログラム及び画像処理装置に関する。

被写体までの距離を取得するために、２つの撮像装置（カメラ）やステレオカメラ（複眼のカメラ）で撮像された画像を用いることが知られていたが、近年では、１つの撮像装置（単眼のカメラ）で撮像された画像を用いて被写体までの距離を取得する技術が開発されている。

ここで、上記したように画像を用いて被写体までの距離を取得するために、ニューラルネットワーク等の機械学習アルゴリズムを適用して生成される統計モデルを用いることが考えられる。

しかしながら、高い精度の統計モデルを生成するためには、膨大な学習用のデータセット（学習用画像と当該学習用画像中の被写体までの距離に関する正解値とのセット）を統計モデルに学習させる必要があるが、当該データセットを用意することは容易ではない。

M.Kashiwagi et al., "Deep Depth From Aberration Map", Proceedings of the IEEEE International Conference on Computer Vision, 2019 Mishima et al. "Physical Cue based Depth-Sensing by Color Coding with Deaberration Network", BMVC2019

そこで、本発明が解決しようとする課題は、統計モデルにおける学習の容易性を向上させることが可能な学習方法、プログラム及び画像処理装置を提供することにある。

実施形態によれば、被写体を含む画像を入力として当該被写体までの距離を出力するための統計モデルを学習させる学習方法が提供される。前記学習方法は、撮像装置によって撮像された被写体を含む第１及び第２画像を取得することと、前記第１画像の少なくとも一部である第１領域を入力として前記統計モデルから出力される第１距離及び前記第２画像の少なくとも一部である第２領域を入力として前記統計モデルから出力される第２距離に基づいて前記統計モデルを学習させることとを具備する。前記第１画像に含まれる被写体までの第３距離の正解値は前記第１画像に付与されておらず、前記第２画像に含まれる被写体までの第４距離の正解値は前記第２画像に付与されておらず、前記第３距離と前記第４距離との大小関係は既知であり、前記学習させることは、前記第３距離の正解値及び前記第４距離の正解値を用いることなく、前記第１距離と前記第２距離との大小関係が前記第３距離と前記第４距離との大小関係と等しくなるように前記統計モデルを学習させることを含む。

第１実施形態における測距システムの構成の一例を示す図。画像処理装置のシステム構成の一例を示す図。測距システムの動作の概要について説明するための図。被写体までの距離を予測する原理について説明するための図。撮像画像から距離を予測するパッチ方式について説明するための図。画像パッチに関する情報の一例を示す図。一般的な統計モデルの学習方法の概要について説明するための図。学習用のデータセットについて説明するための図。本実施形態に係る統計モデルの学習方法の概要について説明するための図。統計モデルが学習する学習用画像について説明するための図。学習処理部の機能構成の一例を示すブロック図。統計モデルを学習させる際の画像処理装置の処理手順の一例を示すフローチャート。撮像画像から距離情報を取得する際の画像処理装置の処理手順の一例を示すフローチャート。第２実施形態において統計モデルを学習させる際の画像処理装置の処理手順の一例を示すフローチャート。

以下、図面を参照して、実施形態について説明する。
（第１実施形態）
まず、第１実施形態について説明する。図１は、本実施形態における測距システムの構成の一例を示す。図１に示す測距システム１は、画像を撮像し、当該撮像された画像を用いて撮像地点から被写体までの距離を取得（測定）するために使用される。なお、本実施形態において説明する距離は、絶対的な距離を表すものであってもよいし、相対的な距離を表すものであってもよい。

図１に示すように、測距システム１は、撮像装置２及び画像処理装置３を備える。本実施形態においては、測距システム１が別個の装置である撮像装置２及び画像処理装置３を備えるものとして説明するが、当該測距システム１は、撮像装置２が撮像部として機能し、画像処理装置３が画像処理部として機能する１つの装置（測距装置）として実現されていてもよい。また、画像処理装置３は、例えば各種クラウドコンピューティングサービスを実行するサーバとして動作するものであってもよい。

撮像装置２は、各種画像を撮像するために用いられる。撮像装置２は、レンズ２１及びイメージセンサ２２を備える。レンズ２１及びイメージセンサ２２は、撮像装置２の光学系（単眼カメラ）に相当する。

レンズ２１には、被写体で反射した光が入射する。レンズ２１に入射した光は、レンズ２１を透過する。レンズ２１を透過した光は、イメージセンサ２２に到達し、当該イメージセンサ２２によって受光（検出）される。イメージセンサ２２は、受光した光を電気信号に変換（光電変換）することによって、複数の画素から構成される画像を生成する。

なお、イメージセンサ２２は、例えばＣＣＤ（Charge Coupled Device）イメージセンサ及びＣＭＯＳ（Complementary Metal Oxide Semiconductor）イメージセンサ等により実現される。イメージセンサ２２は、例えば赤色（Ｒ）の波長帯域の光を検出する第１センサ（Ｒセンサ）２２１、緑色（Ｇ）の波長帯域の光を検出する第２センサ（Ｇセンサ）２２２及び青色（Ｂ）の波長帯域の光を検出する第３センサ（Ｂセンサ）２２３を含む。イメージセンサ２２は、第１～第３センサ２２１～２２３により対応する波長帯域の光を受光して、各波長帯域（色成分）に対応するセンサ画像（Ｒ画像、Ｇ画像及びＢ画像）を生成することができる。すなわち、撮像装置２によって撮像される画像はカラー画像（ＲＧＢ画像）であり、当該画像にはＲ画像、Ｇ画像及びＢ画像が含まれる。

なお、本実施形態においてはイメージセンサ２２が第１～第３センサ２２１～２２３を含むものとして説明するが、イメージセンサ２２は、第１～第３センサ２２１～２２３のうちの少なくとも１つを含むように構成されていればよい。また、イメージセンサ２２は、第１～第３センサ２２１～２２３に代えて、例えばモノクロ画像を生成するためのセンサを含むように構成されていてもよい。

本実施形態においてレンズ２１を透過した光に基づいて生成された画像は、光学系（レンズ２１）の収差の影響を受けた画像であり、当該収差により生じるぼけを含む。

図１に示す画像処理装置３は、機能構成として、統計モデル格納部３１、画像取得部３２、距離取得部３３、出力部３４及び学習処理部３５を含む。

統計モデル格納部３１には、被写体までの距離を撮像装置２によって撮像された画像から取得するために用いられる統計モデルが格納されている。統計モデル格納部３１に格納されている統計モデルは、上記した光学系の収差の影響を受けた画像に生じる、当該画像中の被写体までの距離に応じて非線形に変化するぼけを学習することによって生成されている。このような統計モデルによれば、画像が当該統計モデルに入力されることによって、当該画像に対応する予測値として当該画像中の被写体までの距離を予測（出力）することができる。

なお、統計モデルは、例えばニューラルネットワーク、線形識別器またはランダムフォレスト等の既知の様々な機械学習アルゴリズムを適用して生成することができるものとする。また、本実施形態において適用可能なニューラルネットワークには、例えば畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）、全結合ニューラルネットワーク及び再帰型ニューラルネットワーク等が含まれていてもよい。

画像取得部３２は、上記した撮像装置２によって撮像された画像を、当該撮像装置２（イメージセンサ２２）から取得する。

距離取得部３３は、画像取得部３２によって取得された画像を用いて、当該画像中の被写体までの距離を示す距離情報を取得する。この場合、距離取得部３３は、画像を統計モデル格納部３１に格納されている統計モデルに入力することによって、当該画像中の被写体までの距離を示す距離情報を取得する。

出力部３４は、距離取得部３３によって取得された距離情報を、例えば画像と位置的に対応づけて配置したマップ形式で出力する。この場合、出力部３４は、距離情報によって示される距離を画素値とする画素から構成される画像データを出力する（つまり、距離情報を画像データとして出力する）ことができる。このように距離情報が画像データとして出力される場合、当該画像データは、例えば色で距離を示す距離画像として表示することができる。出力部３４によって出力される距離情報は、例えば撮像装置２によって撮像された画像中の被写体のサイズを算出するために利用することも可能である。

学習処理部３５は、例えば画像取得部３２によって取得される画像を用いて統計モデル格納部３１に格納されている統計モデルを学習させる処理を実行する。学習処理部３５によって実行される処理の詳細については後述する。

なお、図１に示す例では、画像処理装置３が各部３１～３５を含むものとして説明したが、当該画像処理装置３は、例えば画像取得部３２、距離取得部３３及び出力部３４を含む測距装置と、統計モデル格納部３１、画像取得部３２及び学習処理部３５を含む学習装置とから構成されていてもよい。

図２は、図１に示す画像処理装置３のシステム構成の一例を示す。画像処理装置３は、ＣＰＵ３０１、不揮発性メモリ３０２、ＲＡＭ３０３及び通信デバイス３０４を備える。また、画像処理装置３は、ＣＰＵ３０１、不揮発性メモリ３０２、ＲＡＭ３０３及び通信デバイス３０４を相互に接続するバス３０５を有する。

ＣＰＵ３０１は、画像処理装置３内の様々なコンポーネントの動作を制御するためのプロセッサである。ＣＰＵ３０１は、単一のプロセッサであってもよいし、複数のプロセッサで構成されていてもよい。ＣＰＵ３０１は、不揮発性メモリ３０２からＲＡＭ３０３にロードされる様々なプログラムを実行する。これらプログラムは、オペレーティングシステム（ＯＳ）や様々なアプリケーションプログラムを含む。アプリケーションプログラムは、画像処理プログラム３０３Ａを含む。

不揮発性メモリ３０２は、補助記憶装置として用いられる記憶媒体である。ＲＡＭ３０３は、主記憶装置として用いられる記憶媒体である。図２においては不揮発性メモリ３０２及びＲＡＭ３０３のみが示されているが、画像処理装置３は、例えばＨＤＤ（Hard Disk Drive）及びＳＳＤ（Solid State Drive）等の他の記憶装置を備えていてもよい。

なお、本実施形態において、図１に示す統計モデル格納部３１は、例えば不揮発性メモリ３０２または他の記憶装置等によって実現される。

また、本実施形態において、図１に示す画像取得部３２、距離取得部３３、出力部３４及び学習処理部３５の一部または全ては、ＣＰＵ３０１（つまり、画像処理装置３のコンピュータ）に画像処理プログラム３０３Ａを実行させること、すなわち、ソフトウェアによって実現されるものとする。この画像処理プログラム３０３Ａは、コンピュータ読み取り可能な記憶媒体に格納して頒布されてもよいし、ネットワークを通じて画像処理装置３にダウンロードされてもよい。

ここでは、ＣＰＵ３０１に画像処理プログラム３０３Ａを実行させるものとして説明したが、各部３２～３５の一部または全ては、ＣＰＵ３０１の代わりに例えばＧＰＵ（図示せず）を用いて実現されてもよい。また、各部３２～３５の一部または全ては、ＩＣ（Integrated Circuit）等のハードウェアによって実現されてもよいし、ソフトウェア及びハードウェアの組み合わせによって実現されてもよい。

通信デバイス３０４は、有線通信または無線通信を実行するように構成されたデバイスである。通信デバイス３０４は、信号を送信する送信部と信号を受信する受信部とを含む。通信デバイス３０４は、ネットワークを介して外部機器との通信、周辺に存在する外部機器との通信等を実行する。この外部機器には、撮像装置２が含まれる。この場合、画像処理装置３は、通信デバイス３０４を介して、撮像装置２から画像を受信することができる。

図２においては省略されているが、画像処理装置３は、例えばマウスまたはキーボードのような入力デバイス及びディスプレイのような表示デバイスを更に備えていてもよい。

次に、図３を参照して、本実施形態における測距システム１の動作の概要について説明する。

測距システム１において、撮像装置２（イメージセンサ２２）は、上記したように光学系（レンズ２１）の収差の影響を受けた画像を生成する。

画像処理装置３（画像取得部３２）は、撮像装置２によって生成された画像を取得し、当該画像を統計モデル格納部３１に格納されている統計モデルに入力する。

ここで、本実施形態における統計モデルによれば、上記したように入力された画像中の被写体までの距離（予測値）が出力される。これにより、画像処理装置３（距離取得部３３）は、統計モデルから出力された距離（画像中の被写体までの距離）を示す距離情報を取得することができる。

このように本実施形態においては、統計モデルを用いて、撮像装置２によって撮像された画像から距離情報を取得することができる。

ここで、図４を参照して、本実施形態において被写体までの距離を予測する原理について簡単に説明する。

撮像装置２によって撮像された画像（以下、撮像画像と表記）には、上記したように当該撮像装置２の光学系の収差（レンズ収差）に起因するぼけが生じている。具体的には、収差のあるレンズ２１を透過する際の光の屈折率は波長帯域毎に異なるため、例えば被写体の位置がピント位置（撮像装置２においてピントが合う位置）からずれているような場合には、各波長帯域の光が１点に集まらず異なった点に到達する。これが、画像上でぼけ（色収差）として現れる。

また、撮像画像においては、当該撮像画像中の被写体までの距離（つまり、撮像装置２に対する被写体の位置）に応じて非線形に変化するぼけ（色、サイズ及び形状）が観察される。

このため、本実施形態においては、図４に示すように撮像画像４０１に生じるぼけ（ボケ情報）４０２を被写体４０３までの距離に関する物理的な手掛かりとして統計モデルで分析することによって当該被写体４０３までの距離４０４を予測する。

以下、図５を参照して、統計モデルにおいて撮像画像から距離を予測する方式の一例について説明する。ここでは、パッチ方式について説明する。

図５に示すように、パッチ方式においては、撮像画像４０１から局所領域（以下、画像パッチと表記）４０１ａが切り出される（抽出される）。

この場合、例えば撮像画像４０１の全体領域をマトリクス状に分割し、当該分割後の部分領域を画像パッチ４０１ａとして順次切り出すようにしてもよいし、撮像画像４０１を認識して、被写体（像）が検出された領域を網羅するように画像パッチ４０１ａを切り出すようにしてもよい。なお、画像パッチ４０１ａは、他の画像パッチ４０１ａとの間で一部がオーバーラップしていてもよい。

パッチ方式においては、上記したように切り出された画像パッチ４０１ａに対応する予測値として距離が出力される。すなわち、パッチ方式においては、撮像画像４０１から切り出された画像パッチ４０１ａの各々に関する情報を入力として、当該画像パッチ４０１ａの各々に含まれる被写体までの距離４０４が予測される。

図６は、上記したパッチ方式において統計モデルに入力される画像パッチ４０１ａに関する情報の一例を示す。

パッチ方式においては、撮像画像４０１に含まれるＲ画像、Ｇ画像及びＢ画像のそれぞれについて、当該撮像画像４０１から切り出された画像パッチ４０１ａの勾配データ（Ｒ画像の勾配データ、Ｇ画像の勾配データ及びＢ画像の勾配データ）が生成される。統計モデルには、このように生成された勾配データが入力される。

なお、勾配データは、各画素と当該画素に隣接する画素との画素値の差分（差分値）に相当する。例えば画像パッチ４０１ａがｎ画素（Ｘ軸方向）×ｍ画素（Ｙ軸方向）の矩形領域として抽出される場合、当該画像パッチ４０１ａ内の各画素について算出した例えば右隣の画素との差分値をｎ行×ｍ列のマトリクス状に配置した勾配データ（つまり、各画素の勾配データ）が生成される。

統計モデルは、Ｒ画像の勾配データと、Ｇ画像の勾配データと、Ｂ画像の勾配データとを用いて、当該各画像に生じているぼけから距離を予測する。図６においてはＲ画像、Ｇ画像及びＢ画像の各々の勾配データが統計モデルに入力される場合について示しているが、ＲＧＢ画像の勾配データが統計モデルに入力される構成であってもよい。

ここで、本実施形態においては、上記したように統計モデルを用いることによって画像から当該画像に含まれる被写体までの距離（を示す距離情報）を取得することが可能であるが、当該統計モデルから出力される距離の精度を向上させるためには、当該統計モデルを学習させる必要がある。

以下、図７を参照して、一般的な統計モデルの学習方法の概要について説明する。統計モデルの学習は、当該学習のために用意された画像（以下、学習用画像と表記）５０１に関する情報を統計モデルに入力し、統計モデルから出力（予測）された距離５０２と正解値５０３との誤差（損失）を当該統計モデルにフィードバックすることによって行われる。なお、正解値５０３とは、学習用画像５０１の撮像地点から当該学習用画像５０１に含まれる被写体までの実際の距離（実測値）をいい、例えば正解ラベル等とも称される。また、フィードバックとは、誤差が減少するように統計モデルのパラメータ（例えば、重み係数）を更新することをいう。

具体的には、統計モデルにおいて撮像画像から距離を予測する方式として上記したパッチ方式が適用される場合、学習用画像５０１から切り出された画像パッチ（局所領域）毎に、当該画像パッチに関する情報（勾配データ）が統計モデルに入力され、当該統計モデルによって各画像パッチに対応する予測値として距離５０２が出力される。このように出力された距離５０２と正解値５０３とが比較されることによって得られる誤差が、統計モデルにフィードバックされる。

上記した一般的な統計モデルの学習方法においては、図８に示すような正解ラベルが付与された学習用画像（つまり、学習用画像と当該学習用画像から取得されるべき距離である正解ラベルとを含む学習用のデータセット）を用意する必要があり、当該正解ラベルを得るためには、学習用画像を撮像する度に当該学習用画像に含まれる被写体までの実際の距離を計測しなければならない。統計モデルの精度を向上させるためには多数の学習用のデータセットを統計モデルに学習させる必要があるため、このような多数の学習用データセットを用意することは容易ではない。

ここで、統計モデルを学習するためには学習用画像（画像パッチ）が入力されることによって当該統計モデルから出力される距離に基づいて計算される損失（誤差）を評価（フィードバック）する必要があるところ、本実施形態においては、学習用画像に含まれる被写体までの距離の実測値は不明であるが、当該距離の大小関係が既知である複数の学習用画像を用いて計算される順位損失（ランクロス）による弱教師学習を行うものとする。

なお、順位損失による弱教師学習とは、データ間の相対的な順序関係（順位）に基づいて学習を行う方法である。本実施形態においては、撮像装置２から被写体までの距離に基づく２つの画像の各々の順位に基づいて統計モデルを学習させるものとする。

ここで、図９に示すように、撮像装置２からの実際の距離は不明であるが、当該距離の大小関係（順位）が既知である５つの被写体Ｓ_１～Ｓ_５があるものとする。なお、被写体Ｓ_１～Ｓ_５のうち、被写体Ｓ_１が撮像装置２から最も近い位置にあり、被写体Ｓ_５が撮像装置２から最も遠い位置にある。このような被写体Ｓ_１～Ｓ_５の各々を撮像装置２で撮像し、当該被写体Ｓ_１～Ｓ_５の各々を含む画像を画像ｘ_１～ｘ_５とすると、当該画像ｘ_１～ｘ_５の各々に含まれる被写体Ｓ_１～Ｓ_５までの距離に応じた各画像の順位（ランク）は、画像ｘ_１が「１」、画像ｘ_２が「２」、画像ｘ_３が「３」、画像ｘ_４が「４」、画像ｘ_５が「５」となる。

このような画像ｘ_１～ｘ_５において、例えば画像ｘ_２に含まれる被写体Ｓ_２までの距離と、画像ｘ_５に含まれる被写体Ｓ_５までの距離とを、統計モデルを用いて予測する場合を想定する。

この場合、十分に学習が行われ、高い精度を有する統計モデルが用いられるのであれば、画像ｘ_２を入力することによって当該統計モデルから出力される距離は、画像ｘ_５を入力することによって当該統計モデルから出力される距離よりも小さくなるはずである。

すなわち、本実施形態においては、例えば２つの画像ｘ_ｉと画像ｘ_ｋとの大小関係が既知である場合には「ｒａｎｋ（ｘ_ｉ）＞ｒａｎｋ（ｘ_ｋ）であればｆ_θ（ｘ_ｉ）＞ｆ_θ（ｘ_ｋ）」という関係が成り立つという前提に基づいて、このような関係が維持されるような損失（順位損失）を用いて統計モデルを学習させるものとする。

この場合、ｒａｎｋ（ｘ_ｉ）は画像ｘ_ｉに付されている順位（ランク）を表しており、ｒａｎｋ（ｘ_ｋ）は画像ｘ_ｋに付されている順位（ランク）を表している。また、ｆ_θ（ｘ_ｉ）は画像ｘ_ｉを入力することによって統計モデルｆ_θから出力される距離（つまり、画像ｘ_ｉに対応する予測値）を表しており、ｆ_θ（ｘ_ｋ）は画像ｘ_ｋを入力することによって統計モデルｆ_θから出力される距離（つまり、画像ｘ_ｋに対応する予測値）を表している。また、ｆ_θにおけるθは、統計モデルのパラメータである。

なお、上記した撮像装置２から被写体までの距離の大小関係が既知である画像は、例えば図１０に示すように所定の位置に固定された被写体Ｓから遠ざかる方向に撮像装置２を移動しながら順次撮像することで容易に取得することができる。

一般的に撮像装置２によって撮像された画像には当該撮像された順番に識別番号（例えば、連続する番号）が付されるため、本実施形態においては、この画像に付される識別番号を当該画像の順位として用いる。すなわち、識別番号が小さい場合には当該識別番号が付されている画像に含まれる被写体までの距離が小さい（近い）ことを判別することができ、当該識別番号が大きい場合には当該識別番号が付されている画像に含まれる被写体までの距離が大きい（遠い）ことを判別することができる。

なお、撮像装置２によって撮像された画像には、上記した識別番号以外に当該画像が撮像された日時が付されている。このため、上記したように被写体から遠ざかる方向に撮像装置２を移動しながら順次画像が撮像されている場合には、画像の各々に含まれる被写体までの距離の大小関係（つまり、当該画像の順位の前後関係）は、当該画像に付されている日時に基づいて判別することも可能である。

ここでは、被写体から遠ざかる方向に撮像装置２を移動しながら画像が撮像されるものとして説明したが、被写体に近づく方向に撮像装置２を移動しながら画像が順次撮像されるようにしてもよい。この場合には、識別番号が小さい場合には当該識別番号が付されている画像に含まれる被写体までの距離が大きい（遠い）ことを判別することができ、当該識別番号が大きい場合には当該識別番号が付されている画像に含まれる被写体までの距離が小さい（近い）ことを判別することができる。

なお、図１０においては平面形状を有する被写体が示されているが、このような被写体としては例えばテレビモニタ等を利用することができる。ここでは平面形状を有する被写体について説明したが、当該被写体は、他の形状を有する他の物体等であってもよい。

以下、図１に示す画像処理装置３に含まれる学習処理部３５について具体的に説明する。図１１は、学習処理部３５の機能構成の一例を示すブロック図である。

図１１に示すように、学習処理部３５は、判別部３５ａ、計算部３５ｂ及び学習部３５ｃを含む。

ここで、本実施形態において統計モデルの学習を行う場合、画像取得部３２は、上記した正解ラベルが付与されていない複数の学習用画像を取得する。なお、学習用画像には、上記した識別番号が付されているものとする。

判別部３５ａは、画像取得部３２によって取得された複数の学習用画像のうちの２つの学習用画像の各々に付されている識別番号（順位）に基づいて、当該学習用画像の各々に含まれる被写体までの距離の大小関係（以下、単に画像間の大小関係と表記）を判別する。

計算部３５ｂは、判別部３５ａによって大小関係が判別された２つの学習用画像の各々を統計モデルに入力することによって出力された距離と、判別部３５ａによって判別された当該学習用画像間の大小関係に基づいて、順位損失を計算する。

学習部３５ｃは、計算部３５ｂによって計算された順位損失に基づいて、統計モデル格納部３１に格納されている統計モデルを学習させる。学習部３５ｃによる学習が完了した統計モデルは、統計モデル格納部３１に格納される（つまり、統計モデル格納部３１に格納されている統計モデルに上書きされる）。

次に、図１２のフローチャートを参照して、統計モデルを学習させる際の画像処理装置３の処理手順の一例について説明する。

ここでは、統計モデル格納部３１に事前に学習済みである統計モデル（事前学習済みモデル）が格納されているものとして説明するが、当該統計モデルは、例えば撮像装置２で撮像された画像を学習することによって生成されていてもよいし、当該撮像装置２とは異なる撮像装置（またはレンズ）で撮像された画像を学習することによって生成されていてもよい。すなわち、本実施形態においては、少なくとも画像を入力として当該画像に含まれる被写体までの距離を出力するための統計モデルが事前に用意されていればよい。なお、本実施形態において事前に用意される統計モデルは、例えばランダム初期化された状態の統計モデル（未学習な統計モデル）等であってもよい。

まず、画像取得部３２は、複数の学習用画像（以下、学習用画像集合と表記）を取得する（ステップＳ１）。ステップＳ１において取得される学習用画像集合は、例えば撮像装置２によって撮像された画像の集合である。

ステップＳ１の処理が実行されると、学習処理部３５は、ステップＳ１において取得された学習用画像集合の中から、例えば任意の２つの学習用画像を選択（取得）する（ステップＳ２）。以下の説明においては、ステップＳ２において選択された２つの学習用画像を画像ｘ_ｉ及び画像ｘ_ｋとする。

ステップＳ２の処理が実行されると、学習処理部３５は、画像ｘ_ｉ及び画像ｘ_ｋの各々から任意の領域を切り出す（ステップＳ３）。具体的には、学習処理部３５は、画像ｘ_ｉから、当該画像ｘ_ｉの少なくとも一部である領域を切り出す。同様に、学習処理部３５は、画像ｘ_ｋから、当該画像ｘ_ｋの少なくとも一部である領域を切り出す。なお、ステップＳ３において画像ｘ_ｉ及び画像ｘ_ｋの各々から切り出される領域は上記した画像パッチに相当し、例えばｎ画素×ｍ画素の矩形領域である。

ここでは、画像ｘ_ｉ及び画像ｘ_ｋの各々から所定の領域（画像パッチ）が切り出されるものとして説明したが、当該所定の領域は画像ｘ_ｉ及び画像ｘ_ｋの全体を占める領域であっても構わない。

なお、以下の説明においては、便宜的に、ステップＳ３において画像ｘ_ｉから切り出された領域を単に画像ｘ_ｉ、当該ステップＳ３において画像ｘ_ｋから切り出された領域を単に画像ｘ_ｋとする。

ここで、本実施形態においては学習用画像に含まれる被写体までの距離の大小関係は既知であるため、学習処理部３５に含まれる判別部３５ａは、ステップＳ２において選択された画像ｘ_ｉ及び画像ｘ_ｋ間の大小関係（画像ｘ_ｉ及び画像ｘ_ｋの各々に含まれる被写体までの距離の大小関係）を判別する（ステップＳ４）。この画像ｘ_ｉ及び画像ｘ_ｋ間の大小関係は、当該画像ｘ_ｉ及び画像ｘ_ｋの各々に付されている識別番号に基づいて判別可能である。

ステップＳ４の処理が実行されると、学習処理部３５に含まれる計算部３５ｂは、統計モデル格納部３１に格納されている統計モデルを用いて、画像ｘ_ｉに含まれている被写体までの距離（予測値）及び画像ｘ_ｋに含まれている被写体までの距離（予測値）を取得する（ステップＳ５）。

ステップＳ５においては、画像ｘ_ｉ（つまり、画像ｘ_ｉから切り出されたｎ画素×ｍ画素の画像パッチ）を入力することによって統計モデルから出力される距離ｆ_θ（ｘ_ｉ）及び画像ｘ_ｋ（つまり、画像ｘ_ｋから切り出されたｎ画素×ｍ画素の画像パッチ）を入力することによって統計モデルから出力される距離ｆ_θ（ｘ_ｋ）が取得される。

次に、計算部３５ｂは、ステップＳ５において取得された距離（以下、画像ｘ_ｉ及び画像ｘ_ｋの各々に対応する予測値と表記）に基づいて順位損失（画像ｘ_ｉ及び画像ｘ_ｋ間の大小関係を考慮した損失）を計算する（ステップＳ６）。

ステップＳ６においては、画像ｘ_ｉ及び画像ｘ_ｋの各々に対応する予測値の大小関係が画像ｘ_ｉ及び画像ｘ_ｋ間の大小関係と等しいか否かが反映された損失（順位損失）が計算される。

ここで、例えば「Chris Burges, Tal Shaked, Erin Renshaw, Ari Lazier, Matt Deeds, Nicole Hamilton, and Greg Hullender. Learning to rank using gradient descent. In Proceedings of the 22^nd international conference on Machinelearning, pages 89-96, 2005.」によれば、順位損失を表す関数（順位損失関数）は以下の式（１）によって定義される。

この式（１）において、Ｌ_ｒａｎｋ（ｘ_ｉ，ｘ_ｋ）は順位損失を表しており、ｙ_ｉｋは上記した画像ｘ_ｉ及び画像ｘ_ｋの各々に対応する予測値の大小関係が画像ｘ_ｉ及び画像ｘ_ｋ間の大小関係と等しい（つまり、統計モデルの予測値が既知の大小関係を満たす）か否かを表すラベルに相当する。なお、ｙ_ｉｋは、式（２）に示すように、ｒａｎｋ（ｘ_ｉ）＞ｒａｎｋ（ｘ_ｋ）である場合に１であり、ｒａｎｋ（ｘ_ｉ）＜ｒａｎｋ（ｘ_ｋ）である場合に０である。ｒａｎｋ（ｘ_ｉ）＞ｒａｎｋ（ｘ_ｋ）及びｒａｎｋ（ｘ_ｉ）＜ｒａｎｋ（ｘ_ｋ）は、上記したステップＳ４における画像ｘ_ｉ及び画像ｘ_ｋ間の大小関係の判別結果に相当する。

また、式（１）のｓｏｆｔｐｌｕｓは、活性化関数として用いられるソフトプラスと称される関数であり、式（３）のように定義される。

このような順位損失関数によれば、画像ｘ_ｉ及び画像ｘ_ｋの各々に対応する予測値の大小関係が画像ｘ_ｉ及び画像ｘ_ｋ間の大小関係と等しい場合には計算される順位損失（の値）が小さくなり、画像ｘ_ｉ及び画像ｘ_ｋの各々に対応する予測値の大小関係が画像ｘ_ｉ及び画像ｘ_ｋ間の大小関係と等しくない場合には計算される順位損失（の値）が大きくなる。

次に、学習処理部３５に含まれる学習部３５ｃは、ステップＳ６において計算された順位損失を用いて、統計モデルを学習させる（ステップＳ７）。統計モデルの学習は当該統計モデルのパラメータθを更新することによって行われるが、当該パラメータθの更新は、以下の式（４）のような最適化問題に従って行われる。

ここで、式（４）におけるＮは、上記した学習用画像集合を表している。図１２においては省略されているが、ステップＳ２～Ｓ６の処理は、当該学習用画像集合Ｎから選択される任意の画像ｘ_ｉ及び画像ｘ_ｋ（の各々から切り出される領域）の組毎に実行されるものとする。

この場合、式（４）により、画像ｘ_ｉ及び画像ｘ_ｋの組毎に計算される順位損失Ｌ_ｒａｎｋ（ｘ_ｉ，ｘ_ｋ）の合計が最も小さくなるパラメータθ´（つまり、更新後のパラメータ）を求めることができる。

なお、本実施形態における統計モデルにニューラルネットワークまたは畳み込みニューラルネットワーク等が適用されている（つまり、統計モデルがニューラルネットワークまたは畳み込みニューラルネットワーク等で構成されている）場合、当該統計モデルの学習（パラメータθの更新）には、上記した式（４）を逆方向に計算する誤差逆伝播法が用いられる。この誤差逆伝播法によれば、順位損失の勾配が計算され、当該勾配に従ってパラメータθが更新される。

ステップＳ７においては、統計モデルのパラメータθを上記した式（４）を用いて求められたパラメータθ´に更新することにより、ステップＳ１において取得された学習用画像集合を統計モデルに学習させることができる。

なお、本実施形態においては、例えば予め定められた数の画像ｘ_ｉ及び画像ｘ_ｋの組を対象として図１２に示す処理が実行されるが、当該図１２に示す処理を繰り返すことによって、統計モデルを更に学習させてもよい。

また、上記した式（１）のような順位損失関数を用いた学習方法はＲａｎｋＮｅｔと称されるが、本実施形態においては、他の学習方法により統計モデルを学習させてもよい。具体的には、本実施形態に係る統計モデルの学習方法としては、例えばＦＲａｎｋ、ＲａｎｋＢｏｏｓｔ、ＲａｎｋｉｎｇＳＶＭまたはＩＲＳＶＭ等が利用されてもよい。すなわち、本実施形態においては、上記したように画像ｘ_ｉ及び画像ｘ_ｋの各々に対応する予測値の大小関係が画像ｘ_ｉ及び画像ｘ_ｋ間の大小関係と等しくなるように学習モデルを学習させる（つまり、学習用画像の各々の順位に関する制約の下で学習を行う）のであれば、様々な損失関数を利用することができる。

次に、図１３のフローチャートを参照して、上記した図１１に示す処理が実行されることによって学習用画像集合を学習させた統計モデルを用いて撮像画像から距離情報を取得する際の画像処理装置３の処理手順の一例について説明する。

まず、撮像装置２（イメージセンサ２２）は、撮像装置２からの距離を測定する被写体を撮像することによって当該被写体を含む撮像画像を生成する。この撮像画像は、上記したように撮像装置２の光学系（レンズ２１）の収差の影響を受けた画像である。

画像処理装置３に含まれる画像取得部３２は、撮像画像を撮像装置２から取得する（ステップＳ１１）。

次に、距離取得部３３は、ステップＳ１１において取得された撮像画像（画像パッチの各々）に関する情報を、統計モデル格納部３１に格納されている統計モデルに入力する（ステップＳ１２）。なお、ステップＳ１２において統計モデルに入力される撮像画像に関する情報は、当該撮像画像を構成する各画素の勾配データを含む。

ステップＳ１２の処理が実行されると、統計モデルにおいて被写体までの距離が予測され、当該統計モデルは、当該予測された距離を出力する。これにより、距離取得部３３は、統計モデルから出力された距離を示す距離情報を取得する（ステップＳ１３）。なお、ステップＳ１３において取得された距離情報は、例えばステップＳ１１において取得された撮像画像を構成する画像パッチ毎の距離を含む。

ステップＳ１３の処理が実行されると、出力部３４は、当該ステップＳ１３において取得された距離情報を、例えば撮像画像と位置的に対応づけて配置したマップ形式で出力する（ステップＳ１４）。なお、本実施形態においては距離情報がマップ形式で出力されるものとして説明したが、当該距離情報は、他の形式で出力されても構わない。

上記したように本実施形態においては、撮像装置２によって撮像された被写体を含む画像ｘ_ｉ及び画像ｘ_ｋ（第１及び第２画像）を取得し、当該画像ｘ_ｉ（当該画像ｘ_ｉの少なくとも一部である第１領域）を入力として統計モデルから出力された距離（第１距離）及び当該画像ｘ_ｋ（当該画像ｘ_ｋの少なくとも一部である第２領域）を入力として統計モデルから出力された距離（第２距離）に基づいて統計モデルを学習させる。本実施形態においては、画像ｘ_ｉに含まれる被写体までの距離（第３距離）と画像ｘ_ｋに含まれる被写体までの距離（第４距離）との大小関係（つまり、画像ｘ_ｉ及び画像ｘ_ｋ間の大小関係）が既知であり、画像ｘ_ｉに対応する予測値（第１距離）と画像ｘ_ｋに対応する予測値（第２距離）との大小関係が、画像ｘ_ｉ及び画像ｘ_ｋ間の前後関係と等しくなるように統計モデルを学習させる。

本実施形態においては、このよう構成により、正解ラベル（教示ラベル）が付与されていない学習用画像であっても統計モデルを学習させることができるため、当該当該モデルにおける学習の容易性を向上させることが可能となる。

また、本実施形態においては、画像ｘ_ｉ及び画像ｘ_ｋを含む複数の学習用画像を、例えば所定の位置に固定された被写体から遠ざかる方向に撮像装置２を移動しながら撮像するものとする。これによれば、撮像された順番に従って当該学習用画像の各々に付される識別番号（例えば、連続する番号）に基づいて各学習用画像に含まれる被写体までの距離の大小関係を容易に判別することができる。

なお、画像ｘ_ｉ及び画像ｘ_ｋを含む複数の学習用画像は、例えば被写体に近づく方向に撮像装置２を移動しながら撮像されてもよい。

また、本実施形態においては複数の学習用画像の各々に含まれる被写体までの距離の大小関係が当該学習用画像に付されている識別番号に基づいて判別されるものとして説明したが、当該大小関係は、上記したように被写体の位置を固定している場合における当該学習用画像を撮像した際の撮像装置２の位置に基づいて判別されてもよい。このような撮像装置２の位置は、学習用画像に付されていればよい。

ここで、例えば撮像装置２には内界センサ（ジャイロセンサまたは加速度センサ等）が搭載されている場合があり、当該内界センサによって検出される信号によれば当該撮像装置２の動き（軌跡）を算出することができる。この場合、上記した学習用画像を撮像した際の撮像装置２の位置は、内界センサによって得られる信号から算出された撮像装置２の動きに基づいて取得することができる。

また、例えば撮像装置２を移動させる移動機構を有するステージを用いて学習用画像を撮像するような場合には、学習用画像を撮像した際の撮像装置２の位置は、当該ステージの位置に基づいて取得されてもよい。

また、本実施形態における学習用画像に含まれる被写体としては、例えば平面形状を有するテレビモニタ等を利用することができる。このようにテレビモニタを被写体として利用した場合、当該テレビモニタには様々な画像を切り替えて表示することができるため、様々な色パターン（の学習用画像）を統計モデルに学習させることが可能となる。

更に、本実施形態においては、統計モデルの学習時に、学習用画像集合の中から任意の２つの学習用画像が選択される（つまり、ランダムに学習用画像が選択される）ものとして説明したが、当該２つの学習用画像としては、例えば被写体までの距離の差分が予め定められた値以上となる学習用画像が優先的に選択されてもよい。なお、各学習用画像に含まれる被写体までの距離（実測値）は不明であるが、当該学習用画像の各々が撮像された順番（つまり、被写体までの距離の大小関係）は識別番号により既知であるため、例えば学習用画像に付されている識別番号の差分が予め定められた値以上の２つの学習用画像が選択することによって、被写体までの距離の差分が予め定められた値以上であると推定される画像を選択することができる。これによれば、学習用画像間の大小関係の誤認（混乱）を排除することができる。

また、学習用画像を撮像する際には撮像装置２の動作によっては被写体が移動していないにもかかわらず連続的に画像が撮像されるような事態が生じ得る。このため、撮像された時刻（日時）の差分が予め定められた値以上となる２つの学習用画像が優先的に選択されるようにしてもよい。

また、統計モデルの学習時には、学習用画像集合の中から選択された２つの学習用画像の各々から任意の領域が切り出される（つまり、ランダムに領域が切り出される）が、この領域は、例えば各学習用画像中の位置や画素値等に応じた所定の規則性に基づいて切り出されてもよい。

なお、本実施形態においては、統計モデルにおいて画像から距離を予測する方式の一例としてパッチ方式を説明したが、画像から距離を予測する方式としては、例えば画像の全体領域が統計モデルに入力され、当該全体領域に対応する予測値（距離）が出力される画面一括方式等が採用されてもよい。

また、本実施形態においては、統計モデルが光学系の収差の影響を受けた学習用画像（当該学習用画像に含まれる被写体までの距離に応じて非線形に変化するぼけ）を学習することによって生成されるものとして説明したが、当該統計モデルは、例えば撮像装置２の開口部に設けられたフィルタ（カラーフィルタ等）を透過した光に基づいて生成される学習用画像（つまり、当該フィルタによって意図的に画像に生じさせた、被写体までの距離に応じて非線形に変化するぼけ）を学習することによって生成されるものであってもよい。

（第２実施形態）
次に、第２実施形態について説明する。本実施形態における測距システム（撮像装置及び画像処理装置）の構成等については前述した第１実施形態と同様であるため、本実施形態において測距システムの構成について説明する場合には、適宜、図１等を用いる。ここでは、前述した第１実施形態とは異なる点について主に述べる。

前述した第１実施形態においては統計モデルが画像に含まれる被写体までの距離を出力するものとして説明したが、本実施形態における統計モデルは、当該距離（つまり、予測値）に対する不確実性の度合い（以下、不確実度と表記）を当該距離とともに出力するものとする。本実施形態は、このように統計モデルから出力される不確実度を反映した順位損失（順位損失関数）を用いて統計モデルを学習させる点で、前述した第１実施形態とは異なる。なお、不確実度は例えば０以上の実数によって表され、値が大きいほど不確実性が高いことを表すものとする。不確実度の算出方法は、特定の方法に限定されず、既知の様々な方法を適用することができる。

以下、図１４のフローチャートを参照して、本実施形態において統計モデルを学習させる際の画像処理装置３の処理手順の一例について説明する。

まず、前述した図１２に示すステップＳ１～Ｓ４の処理に相当するステップＳ２１～Ｓ２４の処理が実行される。

ステップＳ２４の処理が実行されると、学習処理部３５に含まれる計算部３５ｂは、統計モデル格納部３１に格納されている統計モデルを用いて、画像ｘ_ｉに含まれている被写体までの距離及び当該距離に対する不確実度（画像ｘ_ｉに対応する予測値及び不確実度）と、画像ｘ_ｋに含まれている被写体までの距離及び当該距離に対する不確実度（画像ｘ_ｋに対応する予測値及び不確実度）とを取得する（ステップＳ２５）。

ここで、上記した不確実度をσで表すものとすると、ステップＳ５においては、画像ｘ_ｉ（つまり、画像ｘ_ｉから切り出されたｎ画素×ｍ画素の画像パッチ）を統計モデルに入力することによって統計モデルｆ_θから出力される距離ｆ_θ（ｘ_ｉ）及び不確実度σ_ｉと、画像ｘ_ｋ（つまり、画像ｘ_ｋから切り出されたｎ画素×ｍ画素の画像パッチ）を入力することによって統計モデルｆ_θから出力される距離ｆ_θ（ｘ_ｋ）及び不確実度σ_ｋとが取得される。

次に、計算部３５ｂは、ステップＳ２５において取得された距離及び不確実度に基づいて、順位損失を計算する（ステップＳ２６）。

前述した第１実施形態においては式（１）を用いて順位損失が計算されるものとして説明したが、本実施形態における順位損失を表す関数（順位損失関数）は以下の式（５）のように定義される。

この式（５）において、Ｌ_{ｕｎｃｒｔ}（ｘ_ｉ，ｘ_ｋ）は本実施形態において計算される順位損失を表しており、Ｌ_ｒａｎｋ（ｘ_ｉ，ｘ_ｋ）は前述した第１実施形態における式（１）のＬ_ｒａｎｋ（ｘ_ｉ，ｘ_ｋ）と同様である。

ここで、例えばテクスチャのない領域や光が飽和している（つまり、白飛びしている）領域がステップＳ２３において切り出されている場合には、統計モデルから精度の高い距離が出力される（つまり、正しい距離を予測する）ことが困難であるが、前述した第１実施形態においては、このような距離を予測するための手掛かりがないまたは少ない領域（以下、予測困難領域と表記）であっても画像ｘ_ｉ及び画像ｘ_ｋ間の大小関係を満たすように学習しようとするため、過学習が発生する可能性がある。この場合、統計モデルが予測困難領域に最適化されてしまい、当該統計モデルの汎用性が低下する。

そこで、本実施形態においては、上記した式（５）に示すように不確実度σを損失関数に加えることで、上記した予測困難領域における予測困難性（予測不可能性）を考慮した順位損失を計算する。なお、式（５）のσは、式（６）に定義されるように、不確実度σ_ｉ及び不確実度σ_ｋのうちの値が大きい不確実度である。

式（５）のような順位損失関数（不確実性順位損失関数）によれば、予測困難領域においてＬ_ｒａｎｋ（ｘ_ｉ，ｘ_ｋ）を下げる（小さくする）ことができない場合には、不確実度σ_ｉ及び不確実度σ_ｋのうちの少なくとも一方（つまり、不確実度σ）を高くすることによって、本実施形態における順位損失であるＬ_{ｕｎｃｒｔ}（ｘ_ｉ，ｘ_ｋ）を下げるように調整することができる。ただし、不確実度σを過度に高くすることによりＬ_{ｕｎｃｒｔ}（ｘ_ｉ，ｘ_ｋ）が下がりすぎることを防止するため、ペナルティとして式（５）の右辺に第２項が加えられている。

なお、式（５）に示す順位損失関数は、例えば不均一分散の定義式を拡張することによって得ることができる。

ステップＳ２６の処理が実行されると、前述した図１２に示すステップＳ７の処理に相当するステップＳ２７の処理が実行される。なお、このステップＳ２７においては、前述した第１実施形態において説明した式（４）のＬ_ｒａｎｋ（ｘ_ｉ，ｘ_ｋ）をＬ_{ｕｎｃｒｔ}（ｘ_ｉ，ｘ_ｋ）として統計モデルを学習させればよい。

上記したように本実施形態においては画像ｘ_ｉ及び画像ｘ_ｋに対応する予測値（第１距離及び第２距離）に基づいて計算される順位損失を最小化するように統計モデルを学習させる際に、統計モデルから出力される画像ｘ_ｉ及び画像ｘ_ｋに対応する不確実度（第１及び第２不確実度）のうちの少なくとも一方に基づいて当該順位損失を調整する。

本実施形態においては、このような構成により、上記した予測困難領域が統計モデルの学習に対して与える影響を緩和することができるため、精度の高い統計モデルの学習を実現することが可能となる。

（第３実施形態）
次に、第３実施形態について説明する。本実施形態における測距システム（撮像装置及び画像処理装置）の構成等については前述した第１実施形態と同様であるため、本実施形態において測距システムの構成について説明する場合には、適宜、図１等を用いる。ここでは、前述した第１実施形態とは異なる点について主に述べる。

本実施形態は、２つの学習用画像間の大小関係を満たし、かつ、同一の学習用画像内の異なる２つの領域に対応する距離（予測値）のばらつきが最小となるように統計モデルを学習させる点で、前述した第１実施形態とは異なる。なお、本実施形態においては、学習用画像に含まれる被写体として平面形状を有するテレビモニタ等を利用する場合を想定している。

以下、本実施形態において統計モデルを学習させる際の画像処理装置３の処理手順の一例について説明する。ここでは、便宜的に、図１２のフローチャートを用いて説明する。

まず、前述した第１実施形態において説明したステップＳ１及びＳ２の処理が実行される。以下の説明においては、ステップＳ２において選択された２つの学習用画像を画像ｘ_ｉ及び画像ｘ_ｋとする。

ステップＳ２の処理が実行されると、学習処理部３５は、画像ｘ_ｉ及び画像ｘ_ｋの各々から任意の領域を切り出す（ステップＳ３）。

ここで、前述した第１実施形態においては画像ｘ_ｉ及び画像ｘ_ｋからそれぞれ１つの領域が切り出されるものとして説明したが、本実施形態においては、例えば画像ｘ_ｉから２つの領域が切り出され、画像ｘ_ｋから１つの領域が切り出される。

なお、前述した第１実施形態においては画像ｘ_ｉ及び画像ｘ_ｋの全体を占める領域が切り出されてもよいものとして説明したが、本実施形態においては、画像ｘ_ｉ及び画像ｘ_ｋの一部の領域（画像パッチ）が切り出されるものとする。

以下の説明においては、便宜的に、ステップＳ３において画像ｘ_ｉから切り出された２つの領域を画像ｘ_ｉ１及び画像ｘ_ｉ２、当該ステップＳ３において画像ｘ_ｋから切り出された領域を単に画像ｘ_ｋとする。

ステップＳ３の処理が実行されると、前述した第１実施形態において説明したステップＳ４及びＳ５の処理が実行される。なお、ステップＳ５においては、画像ｘ_ｉ１を入力することによって統計モデルｆ_θから出力される距離ｆ_θ（ｘ_ｉ１）、画像ｘ_ｉ２を入力することによって統計モデルｆ_θから出力される距離ｆ_θ（ｘ_ｉ２）及び画像ｘ_ｋを入力することによって統計モデルｆ_θから出力される距離ｆ_θ（ｘ_ｋ）が取得される。

次に、計算部３５ｂは、ステップＳ５において取得された距離（画像ｘ_ｉ１、画像ｘ_ｉ２及び画像ｘ_ｋの各々に対応する予測値）に基づいて順位損失を計算する（ステップＳ６）。

ここで、本実施形態における学習用画像に含まれる被写体は平面形状を有しているため、同一の学習用画像に含まれる被写体までの距離は同一である。本実施形態においては、この点に着目し、画像ｘ_ｉ１及び画像ｘ_ｉ２（つまり、同一の画像ｘ_ｉから切り出された２つの領域）に対応する予測値のばらつきが最小化するように統計モデルを学習させるものとする。

この場合、本実施形態における順位損失を表す関数（順位損失関数）は以下の式（７）のように定義される。

この式（７）において、Ｌ_{ｉｎｔｒａ}（ｘ_ｉ１，ｘ_ｉ２，ｘ_ｋ）は本実施形態において計算される順位損失を表しており、Ｌ_ｒａｎｋ（ｘ_ｉ１，ｘ_ｋ）は前述した第１実施形態における式（１）のＬ_ｒａｎｋ（ｘ_ｉ，ｘ_ｋ）に相当する。すなわち、Ｌ_ｒａｎｋ（ｘ_ｉ１，ｘ_ｋ）は、式（１）における画像ｘ_ｉを画像ｘ_ｉ１として計算される。

また、式（７）の右辺の第２項は画像ｘ_ｉ１に対応する距離（予測値）と画像ｘ_ｉ２に対応する距離（予測値）とのばらつき（差分）を表しており、当該第２項中のλは、当該右辺の第１項とのバランスを取るための任意の係数（λ＞０）である。

なお、本実施形態においては画像ｘ_ｉ１及び画像ｘ_ｉ２はそれぞれ同一の画像ｘ_ｉから切り出された領域であるため、画像ｘ_ｉ１、画像ｘ_ｉ２及び画像ｘ_ｋ間の大小関係（つまり、画像ｘ_ｉ１、画像ｘ_ｉ２及び画像ｘ_ｋの各々の順位の前後関係）は、式（８）を満たす。

ステップＳ６の処理が実行されると、前述した第１実施形態において説明したステップＳ７の処理が実行される。このステップＳ７においては、前述した第１実施形態において説明した式（４）のＬ_ｒａｎｋ（ｘ_ｉ，ｘ_ｋ）をＬ_{ｉｎｔｒａ}（ｘ_ｉ１，ｘ_ｉ２，ｘ_ｋ）として統計モデルを学習させればよい。

上記したように本実施形態においては、画像ｘ_ｉから切り出された２つの領域（第１及び第３領域）の各々を入力として統計モデルから出力される距離（第１距離及び第５距離）の差分が最小化されるように統計モデルを学習させる構成により、前述した第１実施形態と比較して、同一の学習用画像内の各領域に対応する距離のばらつきを考慮したより精度の高い統計モデルの学習を実現することが可能となる。

本実施形態においては、画像ｘ_ｉ及び画像ｘ_ｋのうちの画像ｘ_ｉ内の各領域に対応する距離のばらつきを考慮して順位損失を計算するものとして説明したが、例えば以下の式（９）のように、画像ｘ_ｋ内の各領域に対応する距離のばらつきを更に考慮した順位損失を計算する順位損失関数を用いてもよい。

なお、式（９）においては、画像ｘ_ｋから切り出される２つの領域をそれぞれ画像ｘ_ｋ１及び画像ｘ_ｋ２として表している。

また、本実施形態は、前述した第２実施形態と組み合わせた構成としてもよい。この場合には、以下の式（１０）のような順位損失関数を用いることができる。

以上述べた少なくとも１つの実施形態によれば、統計モデルにおける学習の容易性を向上させることが可能な学習方法、プログラム及び画像処理装置を提供することができる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

１…測距システム、２…撮像装置、３…画像処理装置、２１…レンズ、２２…イメージセンサ、３１…統計モデル格納部、３２…画像取得部、３３…距離取得部、３４…出力部、３５…学習処理部、３５ａ…判別部、３５ｂ…計算部、３５ｃ…学習部、２２１…第１センサ、２２２…第２センサ、２２３…第３センサ、３０１…ＣＰＵ、３０２…不揮発性メモリ、３０３…ＲＡＭ、３０３Ａ…画像処理プログラム、３０４…通信デバイス、３０５…バス。

Claims

被写体を含む画像を入力として当該被写体までの距離を出力するための統計モデルを学習させる学習方法であって、
撮像装置によって撮像された被写体を含む第１及び第２画像を取得することと、
前記第１画像の少なくとも一部である第１領域を入力として前記統計モデルから出力される第１距離及び前記第２画像の少なくとも一部である第２領域を入力として前記統計モデルから出力される第２距離に基づいて前記統計モデルを学習させることと
を具備し、
前記第１画像に含まれる被写体までの第３距離の正解値は前記第１画像に付与されておらず、
前記第２画像に含まれる被写体までの第４距離の正解値は前記第２画像に付与されておらず、
前記第３距離と前記第４距離との大小関係は既知であり、
前記学習させることは、前記第３距離の正解値及び前記第４距離の正解値を用いることなく、前記第１距離と前記第２距離との大小関係が前記第３距離と前記第４距離との大小関係と等しくなるように前記統計モデルを学習させることを含む
学習方法。
前記統計モデルは、前記第１領域を入力として前記第１距離及び当該第１距離の第１不確実度を出力し、前記第２領域を入力として前記第２距離及び当該第２距離の第２不確実度を出力し、
前記学習させることは、前記統計モデルから出力される第１距離及び第２距離に基づいて計算される順位損失を最小化するように当該統計モデルを学習させることを含み、
前記順位損失は、前記第１不確実度及び前記第２不確実度のうちの少なくとも一方に基づいて調整される
請求項１記載の学習方法。
前記統計モデルは、前記第１画像の少なくとも一部であり、前記第１領域とは異なる第３領域を入力として第５距離を出力し、
前記学習させることは、前記第１距離と前記第５距離との差分が最小化されるように前記統計モデルを学習させることを含む
請求項１または２記載の学習方法。
前記第１画像及び前記第２画像は、前記被写体から遠ざかる方向に前記撮像装置を移動しながら当該撮像装置によって撮像され、
前記撮像装置によって撮像された順番を表す識別番号が前記第１画像及び前記第２画像に付されており、
前記第３距離と前記第４距離との大小関係は、前記第１画像及び前記第２画像に付されている識別番号に基づいて判別される
請求項１～３のいずれか一項に記載の学習方法。
前記第１画像及び前記第２画像は、前記被写体に近づく方向に前記撮像装置を移動しながら当該撮像装置によって撮像され、
前記撮像装置によって撮像された順番を表す識別番号が前記第１画像及び前記第２画像に付されており、
前記前記第３距離と前記第４距離との大小関係は、前記第１画像及び前記第２画像に付されている識別番号に基づいて判別される
請求項１～３のいずれか一項に記載の学習方法。
前記第３距離と前記第４距離との大小関係は、前記撮像装置によって前記第１画像及び前記第２画像が撮像された際の当該撮像装置の位置に基づいて判別される請求項１～３のいずれか一項に記載の学習方法。
前記撮像装置によって前記第１画像及び前記第２画像が撮像された際の当該撮像装置の位置は、当該撮像装置に搭載されたセンサによって取得される請求項６記載の学習方法。
前記撮像装置によって前記第１画像及び前記第２画像が撮像された際の当該撮像装置の位置は、当該撮像装置を移動させる移動機構の位置に基づいて取得される請求項６記載の学習方法。
前記被写体の形状は、平面形状である請求項１～８のいずれか一項に記載の学習方法。
前記第３距離と前記第４距離との差分は、予め定められた値以上である請求項１～９のいずれか一項に記載の学習方法。
前記第１画像が撮像された第１時刻と前記第２画像が撮像された第２時刻との差分は、予め定められた値以上である請求項１～１０のいずれか一項に記載の学習方法。
前記統計モデルは、光学系の収差の影響を受けた画像に生じる、当該画像に含まれる被写体までの距離に応じて非線形に変化するぼけを学習することによって生成される請求項１～１１のいずれか一項に記載の学習方法。
前記統計モデルは、フィルタを透過した光に基づいて生成される画像に生じる、当該画像に含まれる被写体までの距離に応じて非線形に変化するぼけを学習することによって生成される請求項１～１１のいずれか一項に記載の学習方法。
被写体を含む画像を入力として当該被写体までの距離を出力するための統計モデルを学習させるプログラムであって、
コンピュータに、
撮像装置によって撮像された被写体を含む第１及び第２画像を取得することと、
前記第１画像の少なくとも一部である第１領域を入力として前記統計モデルから出力される第１距離及び前記第２画像の少なくとも一部である第２領域を入力として前記統計モデルから出力される第２距離に基づいて前記統計モデルを学習させることと
を実行させ、
前記第１画像に含まれる被写体までの第３距離の正解値は前記第１画像に付与されておらず、
前記第２画像に含まれる被写体までの第４距離の正解値は前記第２画像に付与されておらず、
前記第３距離と前記第４距離との大小関係は既知であり、
前記学習させることは、前記第３距離の正解値及び前記第４距離の正解値を用いることなく、前記第１距離と前記第２距離との大小関係が前記第３距離と前記第４距離との大小関係と等しくなるように前記統計モデルを学習させることを含む
プログラム。
被写体を含む画像を入力として当該被写体までの距離を出力するための統計モデルを学習させる画像処理装置であって、
撮像装置によって撮像された被写体を含む第１及び第２画像を取得する取得手段と、
前記第１画像の少なくとも一部である第１領域を入力として前記統計モデルから出力される第１距離及び前記第２画像の少なくとも一部である第２領域を入力として前記統計モデルから出力される第２距離に基づいて前記統計モデルを学習させる学習手段と
を具備し、
前記第１画像に含まれる被写体までの第３距離の正解値は前記第１画像に付与されておらず、
前記第２画像に含まれる被写体までの第４距離の正解値は前記第２画像に付与されておらず、
前記第３距離と前記第４距離との大小関係は既知であり、
前記学習手段は、前記第３距離の正解値及び前記第４距離の正解値を用いることなく、前記第１距離と前記第２距離との大小関係が前記第３距離と前記第４距離との大小関係と等しくなるように前記統計モデルを学習させる
画像処理装置。