JP7370922B2

JP7370922B2 - 学習方法、プログラム及び画像処理装置

Info

Publication number: JP7370922B2
Application number: JP2020069159A
Authority: JP
Inventors: 直三島; 正子柏木
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2020-04-07
Filing date: 2020-04-07
Publication date: 2023-10-30
Anticipated expiration: 2040-04-07
Also published as: US20210312233A1; JP2021165944A

Description

本発明の実施形態は、学習方法、プログラム及び画像処理装置に関する。

被写体までの距離を取得するために、２つの撮像装置（カメラ）やステレオカメラ（複眼のカメラ）で撮像された画像を用いることが知られていたが、近年では、１つの撮像装置（単眼のカメラ）で撮像された画像を用いて被写体までの距離を取得する技術が開発されている。

ここで、上記したように画像を用いて被写体までの距離を取得するために、ニューラルネットワーク等の機械学習アルゴリズムを適用して生成される統計モデルを用いることが考えられる。

しかしながら、高い精度の統計モデルを生成するためには、膨大な学習用のデータセット（学習用画像と当該学習用画像中の被写体までの距離に関する正解値とのセット）を統計モデルに学習させる必要があるが、当該データセットを用意することは容易ではない。

Lee, Dong-Hyun. "Pseudo-label: The simple and efficient semi-supervised learning method for deep neural networks."Workshop on Challenges in Representation Learning, ICML. Vol.3. 2013.

そこで、本発明が解決しようとする課題は、統計モデルにおける学習の容易性を向上させることが可能な学習方法、プログラム及び画像処理装置を提供することにある。

実施形態によれば、被写体を含む画像を入力として当該被写体までの距離を出力するための統計モデルを学習させる画像処理装置が実行する学習方法が提供される。前記学習方法は、形状が既知である被写体を含む学習用画像を取得することと、前記学習用画像から当該学習用画像に含まれる被写体までの第１距離を取得することと、前記第１距離に対して前記学習用画像に含まれる被写体の形状で拘束をかけることで前記統計モデルを学習させることとを具備する。前記学習させることは、前記第１距離を前記学習用画像に含まれる被写体の形状に基づいて第２距離に補正することと、前記学習用画像及び前記第２距離を前記統計モデルに学習させることとを含む。前記学習させることは、前記統計モデルを正則化することを含む。前記統計モデルを正則化することは、前記第２距離の相対値と、前記学習用画像を前記統計モデルに入力することによって当該統計モデルから出力される第３距離の相対値との誤差を最小化するように前記統計モデルのパラメータを更新することを含む。

実施形態における測距システムの構成の一例を示す図。画像処理装置のシステム構成の一例を示す図。測距システムの動作の概要について説明するための図。被写体までの距離を予測する原理について説明するための図。撮像画像から距離を予測するパッチ方式について説明するための図。画像パッチに関する情報の一例を示す図。撮像画像から距離を予測する画面一括方式について説明するための図。一般的な統計モデルの学習方法の概要について説明するための図。学習処理部の機能構成の一例を示すブロック図。学習処理部の動作の概要を示す図。統計モデルを学習させる際の画像処理装置の処理手順の一例を示すフローチャート。撮像画像から距離情報を取得する際の画像処理装置の処理手順の一例を示すフローチャート。

以下、図面を参照して、実施形態について説明する。
図１は、本実施形態における測距システムの構成の一例を示す。図１に示す測距システム１は、画像を撮像し、当該撮像された画像を用いて撮像地点から被写体までの距離を取得（測定）するために使用される。なお、本実施形態において説明する距離は、絶対的な距離を表すものであってもよいし、相対的な距離を表すものであってもよい。

図１に示すように、測距システム１は、撮像装置２及び画像処理装置３を備える。本実施形態においては、測距システム１が別個の装置である撮像装置２及び画像処理装置３を備えるものとして説明するが、当該測距システム１は、撮像装置２が撮像部として機能し、画像処理装置３が画像処理部として機能する１つの装置（測距装置）として実現されていてもよい。また、画像処理装置３は、例えば各種クラウドコンピューティングサービスを実行するサーバとして動作するものであってもよい。

撮像装置２は、各種画像を撮像するために用いられる。撮像装置２は、レンズ２１及びイメージセンサ２２を備える。レンズ２１及びイメージセンサ２２は、撮像装置２の光学系（単眼カメラ）に相当する。

レンズ２１には、被写体で反射した光が入射する。レンズ２１に入射した光は、レンズ２１を透過する。レンズ２１を透過した光は、イメージセンサ２２に到達し、当該イメージセンサ２２によって受光（検出）される。イメージセンサ２２は、受光した光を電気信号に変換（光電変換）することによって、複数の画素から構成される画像を生成する。

なお、イメージセンサ２２は、例えばＣＣＤ（Charge Coupled Device）イメージセンサ及びＣＭＯＳ（Complementary Metal Oxide Semiconductor）イメージセンサ等により実現される。イメージセンサ２２は、例えば赤色（Ｒ）の波長帯域の光を検出する第１センサ（Ｒセンサ）２２１、緑色（Ｇ）の波長帯域の光を検出する第２センサ（Ｇセンサ）２２２及び青色（Ｂ）の波長帯域の光を検出する第３センサ（Ｂセンサ）２２３を含む。イメージセンサ２２は、第１～第３センサ２２１～２２３により対応する波長帯域の光を受光して、各波長帯域（色成分）に対応するセンサ画像（Ｒ画像、Ｇ画像及びＢ画像）を生成することができる。すなわち、撮像装置２によって撮像される画像はカラー画像（ＲＧＢ画像）であり、当該画像にはＲ画像、Ｇ画像及びＢ画像が含まれる。

なお、本実施形態においてはイメージセンサ２２が第１～第３センサ２２１～２２３を含むものとして説明するが、イメージセンサ２２は、第１～第３センサ２２１～２２３のうちの少なくとも１つを含むように構成されていればよい。また、イメージセンサ２２は、第１～第３センサ２２１～２２３に代えて、例えばモノクロ画像を生成するためのセンサを含むように構成されていてもよい。

本実施形態においてレンズ２１を透過した光に基づいて生成された画像は、光学系（レンズ２１）の収差の影響を受けた画像であり、当該収差により生じるぼけを含む。

図１に示す画像処理装置３は、機能構成として、統計モデル格納部３１、画像取得部３２、距離取得部３３、出力部３４及び学習処理部３５を含む。

統計モデル格納部３１には、被写体までの距離を撮像装置２によって撮像された画像から取得するために用いられる統計モデルが格納されている。統計モデル格納部３１に格納されている統計モデルは、上記した光学系の収差の影響を受けた画像に生じる、当該画像中の被写体までの距離に応じて非線形に変化するぼけを学習することによって生成されている。このような統計モデルによれば、画像が当該統計モデルに入力されることによって、当該画像に対応する予測値として当該画像中の被写体までの距離を予測（出力）することができる。

なお、統計モデルは、例えばニューラルネットワークまたはランダムフォレスト等の既知の様々な機械学習アルゴリズムを適用して生成することができるものとする。また、本実施形態において適用可能なニューラルネットワークには、例えば畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）、全結合ニューラルネットワーク及び再帰型ニューラルネットワーク等が含まれていてもよい。

画像取得部３２は、上記した撮像装置２によって撮像された画像を、当該撮像装置２（イメージセンサ２２）から取得する。

距離取得部３３は、画像取得部３２によって取得された画像を用いて、当該画像中の被写体までの距離を示す距離情報を取得する。この場合、距離取得部３３は、画像を統計モデル格納部３１に格納されている統計モデルに入力することによって、当該画像中の被写体までの距離を示す距離情報を取得する。

出力部３４は、距離取得部３３によって取得された距離情報を、例えば画像と位置的に対応づけて配置したマップ形式で出力する。この場合、出力部３４は、距離情報によって示される距離を画素値とする画素から構成される画像データを出力する（つまり、距離情報を画像データとして出力する）ことができる。このように距離情報が画像データとして出力される場合、当該画像データは、例えば色で距離を示す距離画像として表示することができる。出力部３４によって出力される距離情報は、例えば撮像装置２によって撮像された画像中の被写体のサイズを算出するために利用することも可能である。

学習処理部３５は、例えば画像取得部３２によって取得される画像を用いて統計モデル格納部３１に格納されている統計モデルを学習させる処理を実行する。学習処理部３５によって実行される処理の詳細については後述する。

なお、図１に示す例では、画像処理装置３が各部３１～３５を含むものとして説明したが、当該画像処理装置３は、例えば画像取得部３２、距離取得部３３及び出力部３４を含む測距装置と、統計モデル格納部３１、画像取得部３２及び学習処理部３５を含む学習装置とから構成されていてもよい。

図２は、図１に示す画像処理装置３のシステム構成の一例を示す。画像処理装置３は、ＣＰＵ３０１、不揮発性メモリ３０２、ＲＡＭ３０３及び通信デバイス３０４を備える。また、画像処理装置３は、ＣＰＵ３０１、不揮発性メモリ３０２、ＲＡＭ３０３及び通信デバイス３０４を相互に接続するバス３０５を有する。

ＣＰＵ３０１は、画像処理装置３内の様々なコンポーネントの動作を制御するためのプロセッサである。ＣＰＵ３０１は、単一のプロセッサであってもよいし、複数のプロセッサで構成されていてもよい。ＣＰＵ３０１は、不揮発性メモリ３０２からＲＡＭ３０３にロードされる様々なプログラムを実行する。これらプログラムは、オペレーティングシステム（ＯＳ）や様々なアプリケーションプログラムを含む。アプリケーションプログラムは、画像処理プログラム３０３Ａを含む。

不揮発性メモリ３０２は、補助記憶装置として用いられる記憶媒体である。ＲＡＭ３０３は、主記憶装置として用いられる記憶媒体である。図２においては不揮発性メモリ３０２及びＲＡＭ３０３のみが示されているが、画像処理装置３は、例えばＨＤＤ（Hard Disk Drive）及びＳＳＤ（Solid State Drive）等の他の記憶装置を備えていてもよい。

なお、本実施形態において、図１に示す統計モデル格納部３１は、例えば不揮発性メモリ３０２または他の記憶装置等によって実現される。

また、本実施形態において、図１に示す画像取得部３２、距離取得部３３、出力部３４及び学習処理部３５の一部または全ては、ＣＰＵ３０１（つまり、画像処理装置３のコンピュータ）に画像処理プログラム３０３Ａを実行させること、すなわち、ソフトウェアによって実現されるものとする。この画像処理プログラム３０３Ａは、コンピュータ読み取り可能な記憶媒体に格納して頒布されてもよいし、ネットワークを通じて画像処理装置３にダウンロードされてもよい。

ここでは、ＣＰＵ３０１に画像処理プログラム３０３Ａを実行させるものとして説明したが、各部３２～３５の一部または全ては、ＣＰＵ３０１の代わりに例えばＧＰＵ（図示せず）を用いて実現されてもよい。また、各部３２～３５の一部または全ては、ＩＣ（Integrated Circuit）等のハードウェアによって実現されてもよいし、ソフトウェア及びハードウェアの組み合わせによって実現されてもよい。

通信デバイス３０４は、有線通信または無線通信を実行するように構成されたデバイスである。通信デバイス３０４は、信号を送信する送信部と信号を受信する受信部とを含む。通信デバイス３０４は、ネットワークを介した外部機器との通信、周辺に存在する外部機器との通信等を実行する。この外部機器には、撮像装置２が含まれる。この場合、画像処理装置３は、通信デバイス３０４を介して、撮像装置２から画像を受信することができる。

図２においては省略されているが、画像処理装置３は、例えばマウスまたはキーボードのような入力デバイス及びディスプレイのような表示デバイスを更に備えていてもよい。

次に、図３を参照して、本実施形態における測距システム１の動作の概要について説明する。

測距システム１において、撮像装置２（イメージセンサ２２）は、上記したように光学系（レンズ２１）の収差の影響を受けた画像を生成する。

画像処理装置３（画像取得部３２）は、撮像装置２によって生成された画像を取得し、当該画像を統計モデル格納部３１に格納されている統計モデルに入力する。

ここで、本実施形態における統計モデルによれば、上記したように入力された画像中の被写体までの距離（予測値）が出力される。これにより、画像処理装置３（距離取得部３３）は、統計モデルから出力された距離（画像中の被写体までの距離）を示す距離情報を取得することができる。

このように本実施形態においては、統計モデルを用いて、撮像装置２によって撮像された画像から距離情報を取得することができる。

ここで、図４を参照して、本実施形態において被写体までの距離を予測する原理について簡単に説明する。

撮像装置２によって撮像された画像（以下、撮像画像と表記）には、上記したように当該撮像装置２の光学系の収差（レンズ収差）に起因するぼけが生じている。具体的には、収差のあるレンズ２１を透過する際の光の屈折率は波長帯域毎に異なるため、例えば被写体の位置がピント位置（撮像装置２においてピントが合う位置）からずれているような場合には、各波長帯域の光が１点に集まらず異なった点に到達する。これが、画像上でぼけ（色収差）として現れる。

また、撮像画像においては、当該撮像画像中の被写体までの距離（つまり、撮像装置２に対する被写体の位置）に応じて非線形に変化するぼけ（色、サイズ及び形状）が観察される。

このため、本実施形態においては、図４に示すように撮像画像４０１に生じるぼけ（ぼけ情報）４０２を被写体４０３までの距離に関する物理的な手掛かりとして統計モデルで分析することによって当該被写体４０３までの距離４０４を予測する。

以下、統計モデルにおいて撮像画像から距離を予測する方式の一例について説明する。ここでは、パッチ方式及び画面一括方式について説明する。

まず、図５を参照して、パッチ方式について説明する。パッチ方式においては、撮像画像４０１から局所領域（以下、画像パッチと表記）４０１ａが切り出される（抽出される）。

この場合、例えば撮像画像４０１の全体領域をマトリクス状に分割し、当該分割後の部分領域を画像パッチ４０１ａとして順次切り出すようにしてもよいし、撮像画像４０１を認識して、被写体（像）が検出された領域を網羅するように画像パッチ４０１ａを切り出すようにしてもよい。なお、画像パッチ４０１ａは、他の画像パッチ４０１ａとの間で一部がオーバーラップしていてもよい。

パッチ方式においては、上記したように切り出された画像パッチ４０１ａに対応する予測値として距離が出力される。すなわち、パッチ方式においては、撮像画像４０１から切り出された画像パッチ４０１ａの各々を入力として、当該画像パッチ４０１ａの各々に含まれる被写体までの距離４０４が予測される。

図６は、上記したパッチ方式において統計モデルに入力される画像パッチ４０１ａに関する情報の一例を示す。

パッチ方式においては、撮像画像４０１に含まれるＲ画像、Ｇ画像及びＢ画像のそれぞれについて、当該撮像画像４０１から切り出された画像パッチ４０１ａの勾配データ（Ｒ画像の勾配データ、Ｇ画像の勾配データ及びＢ画像の勾配データ）が生成される。統計モデルには、このように生成された勾配データが入力される。

なお、勾配データは、各画素と当該画素に隣接する画素との画素値の差分（差分値）に相当する。例えば画像パッチ４０１ａがｎ画素（Ｘ軸方向）×ｍ画素（Ｙ軸方向）の矩形領域として抽出される場合、当該画像パッチ４０１ａ内の各画素について算出した例えば右隣の画素との差分値をｎ行×ｍ列のマトリクス状に配置した勾配データ（つまり、各画素の勾配データ）が生成される。

統計モデルは、Ｒ画像の勾配データと、Ｇ画像の勾配データと、Ｂ画像の勾配データとを用いて、当該各画像に生じているぼけから距離を予測する。図６においてはＲ画像、Ｇ画像及びＢ画像の各々の勾配データが統計モデルに入力される場合について示しているが、ＲＧＢ画像の勾配データが統計モデルに入力される構成であってもよい。

次に、図７を参照して、画面一括方式について説明する。画面一括方式においては、上記した画像パッチ４０１ａの切り出しは行われない。

画面一括方式においては、撮像画像４０１の全体領域（に関する情報）が統計モデルに入力され、当該統計モデルから当該全体領域に対応する予測値として距離が出力される。すなわち、画面一括方式においては、撮像画像４０１の全体領域を入力として、撮像画像４０１の全体領域に含まれる被写体までの距離４０４が予測される。

なお、画面一括方式において統計モデルに入力される全体領域に関する情報は、例えば上記したＲ画像、Ｇ画像及びＢ画像（を構成する各画素の）の勾配データである。

また、画面一括方式においては、撮像画像４０１の全体領域が統計モデルに入力されるため、上記した距離の予測に当該撮像画像４０１（全体領域）から抽出されるコンテクストを利用することが可能である。なお、コンテクストとは、撮像画像４０１中の線分や色の分布等に関する特徴量に相当する。また、コンテクストには、被写体についての特徴（人物の形状及び建物の形状等）も含まれる。

ここで、本実施形態においては、上記したように統計モデルを用いることによって画像から当該画像に含まれる被写体までの距離（を示す距離情報）を取得することが可能であるが、当該統計モデルから出力される距離の精度を向上させるためには、当該統計モデルを学習させる必要がある。

以下、図８を参照して、一般的な統計モデルの学習方法の概要について説明する。上記したパッチ方式及び画面一括方式のいずれの方式を用いる場合においても、統計モデルの学習は、基本的に、図８に示すような流れで行われる。具体的には、統計モデルの学習は、当該学習のために用意された画像（以下、学習用画像と表記）５０１に関する情報を統計モデルに入力し、当該統計モデルから出力（予測）された距離５０２と正解値５０３との誤差を当該統計モデルにフィードバックすることによって行われる。なお、正解値５０３とは、学習用画像５０１の撮像地点から当該学習用画像５０１に含まれる被写体までの実際の距離（実測値）をいい、例えば正解ラベル等とも称される。また、フィードバックとは、誤差が減少するように統計モデルのパラメータ（例えば、重み係数）を更新することをいう。

具体的には、パッチ方式が適用される場合には、学習用画像５０１から切り出された画像パッチ（局所領域）毎に、当該画像パッチに関する情報（勾配データ）が統計モデルに入力され、当該統計モデルによって各画像パッチに対応する画素の距離５０２が出力される。このように出力された距離５０２と正解値５０３とが比較されることによって得られる誤差が、統計モデルにフィードバックされる。

また、画面一括方式が適用される場合には、学習用画像５０１の全体領域に関する情報（勾配データ）が一括して統計モデルに入力され、当該統計モデルによって当該学習用画像５０１を構成する各画素の距離５０２が出力される。このように出力された距離５０２と正解値５０３とが比較されることによって得られる誤差が、統計モデルにフィードバックされる。

ところで、統計モデルを学習させるためには、図８において説明した正解ラベル（正解値）が付与された学習用画像（つまり、学習用画像と当該学習用画像から取得されるべき距離である正解ラベルとを含む学習用のデータセット）を用意する必要があるが、当該正解ラベルを得るためには、学習用画像を撮像する度に当該学習用画像に含まれる被写体までの実際の距離を計測する必要があり、煩雑である。また、統計モデルの精度を向上させるためには多数の学習用のデータセットを統計モデルに学習させる必要があるため、このような多数の学習用データセットを用意することは容易ではない。

そこで、本実施形態においては、正解ラベルを必要としない統計モデルの学習を実現するための構成を有する。

以下、図１に示す画像処理装置３に含まれる学習処理部３５について具体的に説明する。図９は、学習処理部３５の機能構成の一例を示すブロック図である。

図９に示すように、学習処理部３５は、距離取得部３５ａ、疑似ラベル生成部３５ｂ及び統計モデル学習部３５ｃを含む。

ここで、本実施形態において統計モデルの学習を行う場合、画像処理装置３に含まれる画像取得部３２は、学習用画像として、上記した正解ラベルが付与されていない画像（つまり、教示なしの画像）を取得する。なお、本実施形態において、学習用画像には、既知の形状の被写体（既知形状を有する被写体）が含まれているものとする。

距離取得部３５ａは、画像取得部３２によって取得された学習用画像から当該学習用画像に含まれる被写体までの距離を取得する。この場合、距離取得部３５ａは、学習用画像を統計モデル格納部３１に格納されている統計モデルに入力し、当該統計モデルから出力された学習用画像を構成する画素毎の距離を取得する。

ここでは距離取得部３５ａが統計モデルを利用して距離を取得するものとして説明したが、当該距離は、学習用画像から取得される距離（の予測値）であればよく、例えば当該学習用画像に含まれる被写体に付されたＡＲマーカのような二次元コード等に基づいて取得される距離（当該ＡＲマーカまでの距離）であってもよい。

疑似ラベル生成部３５ｂは、距離取得部３５ａによって取得された距離に対して学習用画像に含まれる被写体の形状（既知形状）で拘束をかけることによって疑似ラベルを生成する。

上記した距離取得部３５ａにおいては学習用画像を構成する画素毎の距離が取得されるが、本実施形態において、「距離に対して被写体の既知形状で拘束をかける」とは、距離に対して被写体の既知形状の情報を与えることをいい、具体的には、被写体の既知形状に基づいて、学習用画像を構成する画素毎の距離が当該既知形状に適合するように当該距離を補正することをいう。また、疑似ラベルは、被写体の既知形状に基づいて拘束をかけることによって補正された距離をいう。

統計モデル学習部３５ｃは、疑似ラベル生成部３５ｂによって生成された疑似ラベルを正解ラベルとして用いて統計モデル格納部３１に格納されている統計モデルを再学習させる。統計モデル学習部３５ｃによる再学習が完了した統計モデルは、統計モデル格納部３１に格納される（つまり、統計モデル格納部３１に格納されている統計モデルに上書きされる）。

上記したように学習処理部３５は、形状が既知である被写体までの距離を学習用画像から取得し、当該距離に対して被写体の既知形状で拘束をかけることで統計モデルを学習させるように構成されている。

次に、学習処理部３５の動作について説明する。図１０は、統計モデルを学習させる場合の学習処理部の動作の概要を示している。

本実施形態においては、事前に学習済みの統計モデルが用意されており、当該統計モデルを更に学習させる場合を想定している。

具体的には、学習処理部３５は、図１０に示すように、事前に学習済みの統計モデル（統計モデル格納部３１に格納されている統計モデル）に学習用画像（正解ラベルが付されていない画像）を入力することによって当該統計モデルから出力される学習用画像を構成する画素毎の距離（例えば、マップ形式の距離）を取得する。

更に、学習処理部３５は、このような画素毎の距離に対して被写体の既知形状（例えば、平面形状）で拘束をかけることによって疑似ラベルを生成し、当該生成された疑似ラベルを正解ラベルとして用いて当該統計モデルのファインチューニング（再学習）を行う。

本実施形態においては、学習処理部３５が上記したように動作することによって、学習用画像に正解ラベル（つまり、実際に計測された距離）が付されていない場合であっても、当該学習用画像を統計モデルに学習させることが可能となる。

図１１のフローチャートを参照して、統計モデルを学習させる際の画像処理装置３の処理手順の一例について説明する。

ここでは、統計モデル格納部３１に事前に学習済みである統計モデル（事前学習済みモデル）が格納されているものとして説明するが、当該統計モデルは、例えば撮像装置２で撮像された画像を学習することによって生成されていてもよいし、当該撮像装置２とは異なる撮像装置（またはレンズ）で撮像された画像を学習することによって生成されていてもよい。すなわち、本実施形態においては、少なくとも画像を入力として当該画像に含まれる被写体までの距離を出力するための統計モデルが事前に用意されていればよい。

まず、距離取得部３５ａは、画像取得部３２によって取得された学習用画像（撮像装置２で撮像された画像）を取得する（ステップＳ１１）。なお、学習用画像を撮像する撮像装置２は、任意のレンズが取り付けられた任意のカメラシステムであればよく、上記した統計モデルに事前に学習させた画像を撮像した撮像装置である必要はない。また、ステップＳ１において取得される学習用画像は、複数であってもよいし、１つであってもよい。

ここで、このステップＳ１１において取得される学習用画像には上記したように既知形状を有する被写体が含まれているが、本実施形態において、既知形状には例えば平面形状が含まれる。この場合、学習用画像に含まれる被写体としては、テレビモニタを利用することができる。このようにテレビモニタを被写体として利用した場合、当該テレビモニタには様々な画像を切り替えて表示することができるため、様々な色パターン（の学習用画像）を統計モデルに学習させることが可能となる。

ここでは、平面形状を有するテレビモニタを被写体として利用する場合について説明するが、当該被写体は、例えば立方体、直方体、球体等の任意の形状を有する他の物体であってもよい。

次に、距離取得部３５ａは、ステップＳ１１において取得された学習用画像（に関する情報）を統計モデルに入力することによって当該統計モデルから出力された距離を取得する（ステップＳ２）。このステップＳ２においては、学習用画像を構成する各画素の勾配データが統計モデルに入力されることによって当該統計モデルから出力される画素毎の距離が取得される。

ここで、本実施形態において、ステップＳ２において距離を取得するために用いられる統計モデルは例えば学習用画像を撮像した撮像装置２とは異なる撮像装置（またはレンズ）で撮像した画像を学習した統計モデル（すなわち、撮像装置２で撮像された画像の学習については不十分な統計モデル）であるため、当該ステップＳ２において取得される距離は、比較的精度の低い値となる。

このため、疑似ラベル生成部３５ｂは、ステップＳ２において取得された距離に対してステップＳ１において取得された学習用画像に含まれる被写体の既知形状で拘束をかけることにより疑似ラベルを生成する（ステップＳ３）。なお、学習用画像に含まれる被写体の既知形状（を示す情報）は、例えば画像処理装置３の外部から入力され、当該画像処理装置３（学習処理部３５）の内部で予め管理されていればよい。

以下、ステップＳ３の処理について詳細に説明する。ステップＳ３においては、学習用画像に含まれる被写体の既知形状（つまり、拘束させるべき形状）のパラメータ表現を生成（または取得）し、ステップＳ２において取得された距離に当該パラメータ表現をフィッティングさせることで、当該距離を被写体の既知形状で拘束させる。この場合、ステップＳ２において取得された距離は、パラメータ表現に用いられるパラメータに基づいて補正され、当該補正された距離を疑似ラベルとして利用することができる。

ここで、被写体の既知形状が平面形状である場合を想定する。この場合、３次元空間上の点の座標値をｘ，ｙ，ｚとすると、当該３次元空間上の平面は、式（１）のようなパラメータ表現（関数）によって表すことができ、当該式（１）は更に式（２）のように表すことができる。

この式（２）におけるφは、式（１）におけるａ，ｂ，ｃに相当し、平面形状のパラメータである。この式（１）及び（２）は、パラメータφを満たす点（ｘ，ｙ，ｚ）の集合によって平面形状を表している。なお、上記した式（２）によれば、ｚ座標（つまり、距離）は、ｘ座標、ｙ座標及びパラメータφを用いて表す（算出する）ことができる。

ここで、本実施形態において、ステップＳ２において取得された画素毎の距離をｚとすると、当該距離ｚに対する上記したパラメータφのフィッティング問題は以下の式（３）のような最適化問題に帰着する。

この式（３）においては一般的な最小二乗法を用いており、当該式（３）によれば、学習用画像を構成する各画素（座標値がｘ，ｙである各画素）について式（２）を用いて算出される距離（ｇ（ｘ，ｙ；φ））とステップＳ２において取得された当該画素の距離ｚとの誤差の合計が最も小さくなるパラメータφ´（つまり、フィッティング後のパラメータ）を求めることができる。

なお、上記したステップＳ２において取得された距離にはノイズが多く含まれているため、式（３）を用いて求められるパラメータφ´がノイズの影響を受けることが考えられる。このため、例えばノイズに対して高いロバスト性を有するＲＡＮＳＡＣ（Random Sample Consensus）等をパラメータφ´を求める際に用いてもよい。

次に、疑似ラベル生成部３５ｂは、上記した式（３）によって求められたパラメータφ´（フィッティング後のパラメータ）を用いて、学習用画像を構成する各画素の疑似ラベルを生成する。例えば座標値がｘ，ｙである画素（以下、単に画素（ｘ，ｙ）と表記）の疑似ラベルｚ´は、以下の式（４）を用いて生成（算出）される。

この式（４）によれば、画素（ｘ，ｙ）の疑似ラベルｚ´は、上記した式（２）に対して式（３）を用いて求められたパラメータφ´を当てはめることで生成（算出）することができる。

ここでは学習用画像に含まれる被写体の既知形状が平面形状である場合について説明したが、当該既知形状は、パラメータ表現（複数のパラメータからなる任意の関数で表現すること）が可能であれば他の形状であってもよい。

ステップＳ３の処理が実行されると、統計モデル学習部３５ｃは、当該ステップＳ３において生成された疑似ラベル（画素毎の距離）を正解ラベルとして用いて、統計モデル格納部３１に格納されている統計モデルを学習させる（ステップＳ４）。換言すれば、統計モデル学習部３５ｃは、ステップＳ１において取得された学習用画像とステップＳ３において生成された当該学習用画像を構成する各画素の疑似ラベルとを含む学習用データセットを統計モデルに学習させる。

以下、ステップＳ４の処理について詳細に説明する。ここでは、学習用画像Ｉに含まれる被写体の距離を取得するために用いられる統計モデルであって、パラメータ（例えば、重み等）がθである統計モデルをｆ（Ｉ，ｘ，ｙ；θ）と表現する。この統計モデルｆ（Ｉ，ｘ，ｙ；θ）は、学習用画像Ｉを構成する画素（座標値がｘ，ｙである画素）の勾配データを入力すると、当該画素に対応する距離を出力する。以下の説明においては、学習用画像Ｉを構成する画素の勾配データが入力されることによって統計モデルから出力される当該画素に対応する距離を単に当該画素に対応する予測値と表記する。

本実施形態においては、統計モデルを学習させる方法として第１～第３学習方法を説明する。

まず、第１学習方法について説明する。第１学習方法は、上記した疑似ラベルで統計モデルを直接教示する方法に相当する。具体的には、第１学習方法においては、損失関数の値を最小化するための以下の式（５）を用いて統計モデルを学習させる。

ここで、式（５）におけるＮは、学習用画像Ｉの集合を表し、当該学習用画像Ｉを構成する画素の座標値ｘ，ｙ、当該画素の疑似ラベルｚ´及び学習用画像Ｉのタプル（ｘ，ｙ，ｚ´，Ｉ）を含む。また、式（５）中のｆ（Ｉ，ｘ，ｙ；θ）は上記したように統計モデルを表している。

すなわち、式（５）における損失関数は、学習用画像Ｉを構成する画素の疑似ラベルｚ´と当該画素に対応する予測値（統計モデルから出力される距離）との誤差を、Ｎに含まれる学習用画像Ｉを構成する全ての画素について算出して合計することを表しており、このような式（５）によれば、当該誤差の合計が最も小さくなるパラメータθ´を求めることができる。

第１学習方法においては、統計モデルのパラメータθを上記した式（５）を用いて求められたパラメータθ´に更新することにより、学習用画像を統計モデルに学習させることができる。

なお、式（５）においてはＬ１ノルムを用いた損失関数が示されているが、パラメータθ´を求めるための損失関数は、Ｌ２ノルムを用いる損失関数であってもよいし、例えば不均一分散を用いる損失関数等であってもよい。

次に、第２学習方法について説明する。上記した第１学習方法においては疑似ラベルで統計モデルを直接教示するものとして説明したが、第２学習方法は、更に正則化項を追加することで、統計モデルのパラメータに既知形状の拘束をかける方法に相当する。具体的には、第２学習方法においては、損失関数に正規化項を加えた目的関数の値を最小化するための以下の式（６）を用いて統計モデルを学習させる（正則化する）。

ここで、第２学習方法においては、学習用画像Ｉを構成する１つの画素（以下、第１画素と表記）の座標値をｘ１，ｙ１、当該学習用画像Ｉを構成する画素であって当該第１画素とは異なる１つの画素（以下、第２画素と表記）の座標値をｘ２，ｙ２とする。また、第１画素の疑似ラベルをｚ１´、第２画素の疑似ラベルをｚ２´とする。

この場合、式（６）における損失関数は、上記した第１学習方法で用いられる式（５）における損失関数中のｘ、ｙ、ｚ´をｘ１、ｙ１、ｚ１´とした点以外は当該式（５）における損失関数と同様である。

一方、式（６）における正則化項中のＮは、学習用画像Ｉの集合を表し、当該学習用画像Ｉを構成する第１画素のタプル（ｘ１，ｙ１，ｚ１´，Ｉ）及び第２画素のタプル（ｘ２，ｙ２，ｚ２´，Ｉ）を含む。

また、式（６）における正則化項は、疑似ラベルの相対値と予測値の相対値との誤差を、Ｎに含まれる学習用画像Ｉを構成する全ての画素について算出して合計することを表している。なお、疑似ラベルの相対値とは、上記した第１画素の疑似ラベルｚ１´と、第２画素の疑似ラベルｚ２´との差分に相当する。また、予測値の相対値とは、第１画素に対応する予測値と、第２画素に対応する予測値との差分に相当する。また、式（６）における正則化項において「誤差をＮに含まれる学習用画像Ｉを構成する全ての画素について算出する」とは、当該学習用画像Ｉを構成する画素の各々を第１画素として誤差を算出することをいう。なお、この場合における第２画素としては、第１画素に対して任意の１つの画素が選択されればよい。

上記した式（６）によれば、当該式（６）における損失関数の値に正則化項の値を加算した値が最も小さくなるパラメータθ´を求めることができる。

第２学習方法においては、統計モデルのパラメータθを上記した式（６）を用いて求められたパラメータθ´に更新することにより、学習用画像を統計モデルに学習させることができる。

なお、式（６）における損失関数（第１項）は任意のパラメータλ_１で重みづけられ、式（６）における正則化項（第２項）は、任意のパラメータλ_２で重みづけられるが、当該パラメータλ_１及びλ_２は、それぞれ０以上の値であればよい。すなわち、例えばλ_２＝０とした場合には、第１学習方法（つまり、式（５））と同様の学習を行うことができ、λ_１＝０とした場合には、正則化項のみ（を含む目的関数）を用いた学習を行うことができる。

次に、第３学習方法について説明する。上記した第１及び第２学習方法は正解ラベルが付されていない学習用画像を学習するため、一般的に教師なし学習と称されるが、第３学習方法は、学習用画像の一部（を構成する画素）に正解ラベルが付されている半教師あり学習に相当する。

すなわち、第３学習方法が適用される場合、上記したステップＳ１においては正解ラベルが付されている学習用画像（第１学習用画像）及び正解ラベルが付されていない学習用画像（第２学習用画像）が取得される。なお、正解ラベルが付されている学習用画像及び正解ラベルが付されていない学習用画像には、同一の形状の被写体が含まれているものとする。また、上記したステップＳ２及びＳ３の処理は、正解ラベルが付されている学習用画像及び正解ラベルが付されていない学習用画像の両方に対して実行される。

ここで、疑似ラベルは絶対値としてみたときに正解ラベル（実際に計測された被写体までの距離）と一致していない可能性がある。このため、第３学習方法においては、疑似ラベルは絶対値としては用いずに、相対値として用い、絶対値は正解ラベルで同定する方法を採用する。

具体的には、第３学習方法においては、以下に説明する損失関数の値を最小化するための式（７）を用いて統計モデルを学習させる。

ここで、式（７）における損失関数は、任意のパラメータλ_１で重みづけられる第１項及び任意のパラメータλ_２で重みづけられる第２項を含む。

式（７）における第１項中のＮ_ＧＴは、上記したＮ（学習用画像の集合）のうちの正解ラベルが付されている学習用画像Ｉの集合を表し、当該学習用画像Ｉを構成する画素の座標値ｘ，ｙ、当該画素の疑似ラベルｚ´及び学習用画像Ｉのタプル（ｘ，ｙ，ｚ´，Ｉ）を含む。また、式（７）における第１項中のｚ_ＧＴは、Ｎ_ＧＴのうちの学習用画像Ｉを構成する画素に付されている正解ラベル（つまり、実際の距離）である。

すなわち、式（７）における第１項は、学習用画像Ｉを構成する画素に付されている正解ラベルｚ_ＧＴと当該画素に対応する予測値との誤差を、Ｎ_ＧＴに含まれる学習用画像Ｉを構成する全ての画素について算出して合計することを表している。

一方、式（７）における第２項中のＮは、全ての学習用画像Ｉ（正解ラベルが付されている学習用画像及び正解ラベルが付されていない学習用画像）の集合を表し、ｉ番目の学習用画像Ｉのタプル（ｘ，ｙ，ｚ´，Ｉ）_ｉ及びｉ＋１番目の学習用画像Ｉのタプル（ｘ，ｙ，ｚ´，Ｉ）_ｉ＋１を含む。なお、ｉ番目の学習用画像Ｉのタプル中のｘ，ｙは当該学習用画像Ｉを構成する画素の座標値を表し、ｚ´は当該画素の疑似ラベルを表している。ｉ＋１番目の学習用画像Ｉのタプルについても同様である。

更に、式（７）中の第２項におけるｚ_ｉ＋１´はｉ＋１番目の学習用画像Ｉを構成する画素（ｘ，ｙ）の疑似ラベルを表し、ｚ_ｉ´はｉ番目の学習用画像Ｉを構成する画素（ｘ，ｙ）の疑似ラベルを表している。

また、式（７）における第２項中のｆ（Ｉ_ｉ＋１，ｘ，ｙ；θ）はｉ＋１番目の学習用画像Ｉを構成する画素（ｘ，ｙ）に対する予測値（つまり、統計モデルｆ（Ｉ_ｉ＋１，ｘ，ｙ；θ）から出力される距離）を表し、ｆ（Ｉ_ｉ，ｘ，ｙ；θ）はｉ番目の学習用画像Ｉを構成する画素（ｘ，ｙ）に対する予測値（つまり、統計モデルｆ（Ｉ_ｉ，ｘ，ｙ；θ）から出力される距離）を表している。

すなわち、このような式（７）によれば、上記した第１項の値に第２項の値を加算した値が最も小さくなるパラメータθ´を求めることができる。

第３学習方法においては、統計モデルのパラメータθを上記した式（７）を用いて求められたパラメータθ´に更新することにより、学習用画像を事前学習済みモデルに学習させることができる。

なお、式（７）に含まれる第１項に対する重みパラメータλ_１及び第２項に対する重みパラメータλ_２は、それぞれ０以上の値であればよい。

また、第３学習方法は、第２学習方法と組み合わせても構わない。この場合、式（７）における第１項及び第２項に式（６）における正則化項を更に加えた式を用いてパラメータθ´を求めるようにすればよい。

上記した図１１に示す処理が実行されることによって、正解ラベルが付されていない学習用画像を用いた統計モデルの学習を実現することができる。

次に、図１２のフローチャートを参照して、上記した図１１に示す処理が実行されることによって学習用画像を学習させた統計モデルを用いて撮像画像から距離情報を取得する際の画像処理装置３の処理手順の一例について説明する。

まず、撮像装置２（イメージセンサ２２）は、被写体を撮像することによって当該被写体を含む撮像画像を生成する。この撮像画像は、上記したように撮像装置２の光学系（レンズ２１）の収差の影響を受けた画像である。

画像処理装置３に含まれる画像取得部３２は、撮像画像を撮像装置２から取得する（ステップＳ１１）。

次に、距離取得部３３は、ステップＳ１１において取得された撮像画像に関する情報を、統計モデル格納部３１に格納されている統計モデルに入力する（ステップＳ１２）。なお、ステップＳ１２において統計モデルに入力される撮像画像に関する情報は当該撮像画像を構成する各画素の勾配データを含む。

ステップＳ１２の処理が実行されると、統計モデルにおいて被写体までの距離が予測され、当該統計モデルは、当該予測された距離を出力する。これにより、距離取得部３３は、統計モデルから出力された距離を示す距離情報を取得する（ステップＳ１３）。なお、ステップＳ１３において取得された距離情報は、ステップＳ１１において取得された撮像画像を構成する画素毎の距離を含む。

ステップＳ１３の処理が実行されると、出力部３４は、当該ステップＳ１３において取得された距離情報を、例えば撮像画像と位置的に対応づけて配置したマップ形式で出力する（ステップＳ１４）。なお、本実施形態においては距離情報がマップ形式で出力されるものとして説明したが、当該距離情報は、他の形式で出力されても構わない。

上記したように本実施形態においては、形状が既知である被写体を含む学習用画像を取得し、当該学習用画像から被写体までの距離（第１距離）を取得し、当該距離に対して学習用画像に含まれる被写体の形状で拘束をかけることで統計モデルを学習させる。

ここで、本実施形態においては、学習用画像から取得された距離に対して当該学習用画像に含まれる被写体の形状で拘束をかけることによって、当該距離から疑似ラベルが生成される（つまり、第１距離を第２距離に補正する）。なお、本実施形態において学習用画像に含まれる被写体の形状はパラメータを含む任意の関数で表現可能な形状であるものとし、疑似ラベルは、学習用画像から取得された距離に対して、当該被写体の形状を表すために用いられるパラメータをフィッティングさせることによって生成される。

本実施形態においては、このような構成により、学習用画像に正解ラベルが付されていない場合であっても当該学習用画像及び疑似ラベル（第２距離）を含むデータセットを用いて統計モデルを学習させることが可能となるため、統計モデルにおける学習の容易性を向上させることが可能となる。

また、本実施形態においては、第１～第３学習方法のうちの少なくとも１つを適用して統計モデルを学習させることができる。

第１学習方法においては、疑似ラベルと、学習用画像を統計モデルに入力することによって当該統計モデルから出力される距離（第３距離）との誤差（つまり、式（５）中の損失関数の値）を最小化するように当該統計モデルのパラメータを更新する。このような第１学習方法によれば、疑似ラベルで統計モデルを直接教示することにより、学習用画像（観測画像）に対して精度の高い距離を出力可能な統計モデルを得ることが可能となる。

第２学習方法においては、統計モデルを正則化する。具体的には、第２学習方法においては、疑似ラベルの相対値と学習用画像を統計モデルに入力することによって当該統計モデルから出力される距離（予測値）の相対値との誤差（つまり、式（６）中の正則化項の値）を最小化するように当該統計モデルのパラメータを更新する。このような第２学習方法においては、学習用画像上の各画素（座標点）の疑似ラベルの相対値及び当該画素に対応する予測値の相対値で正則化をかけることにより、絶対的な誤差（疑似ラベルと予測値との誤差）が大きい場合であっても、被写体の形状を主体的に観測した形で統計モデルを学習させることができる。

なお、第２学習方法において説明した式（６）では、上記した第１学習方法における損失関数に正則化項を加えた目的関数の値を最小化するパラメータを求めるものとして説明したが、当該損失関数及び正則化項に対する重みパラメータ（λ_１及びλ_２）はそれぞれ調整することができる。これによれば、第２学習方法が適用される場合に、絶対値の誤差（つまり、損失関数）を重視して統計モデルを学習させるか、相対値の誤差（つまり、正則化項）を重視して統計モデルを学習させるかを選択（設定）することが可能となる。

第３学習方法においては、正解ラベルと学習用画像（第１学習用画像）を統計モデルに入力することによって当該統計モデルから出力される距離（予測値）との誤差に、学習用画像（第２学習用画像）から取得された距離から生成された疑似ラベルの相対値と学習用画像（第２学習用画像）を統計モデルに入力することによって当該統計モデルから出力される距離（予測値）の相対値との誤差を加算した値を最小化するように統計モデルのパラメータを更新する。このような第３学習方法においては、正解ラベル（絶対値）と疑似ラベル（相対値）とを組み合わせて統計モデルを学習させるため、より精度の高い距離を出力可能な統計モデルを得ることが可能となる。

すなわち、本実施形態においては、例えば１つのレンズ（撮像装置）によって撮像された学習用画像及び当該学習用画像に付されている正解ラベルを含むデータセットで一旦統計モデル（事前学習済みモデル）を生成しておけば、正解ラベルが付されていない学習用画像を用いた当該統計モデルの再学習を容易に行うことが可能となる。

なお、本実施形態においては第１～第３学習方法のうちの少なくとも１つを適用して統計モデルを学習するものとして説明したが、本実施形態において適用される学習方法については、例えば学習用画像に含まれる被写体の種別等に応じて選択されるようにしてもよく、学習対象レンズの特性（望遠、魚眼等）に応じて選択されるようにしてもよい。

また、本実施形態においては、例えば統計モデル格納部３１に格納されている統計モデルを用いて学習用画像から取得された距離に基づいて疑似ラベルを生成し、当該学習用画像及び疑似ラベルを用いて当該統計モデルを再学習させるものとして説明したが、当該学習用画像及び疑似ラベル（を含むデータセット）は、他の統計モデルを学習させる（生成する）ために用いられてもよい。

更に、本実施形態においては、統計モデル格納部３１に格納されている統計モデルを用いて学習用画像から被写体までの距離を取得して疑似ラベルを生成するものとして説明したが、当該距離は、学習用画像に含まれる被写体に付されているＡＲマーカのような二次元コードに基づいて取得されてもよい。すなわち、本実施形態に係る画像処理装置３は被写体までの距離の予測値（正確さについて保証が得られていない値）を学習用画像から取得する構成であればよく、当該学習用画像から距離を取得する方法については本実施形態において説明した以外の方法であってもよい。なお、疑似ラベルを生成するために用いられる被写体までの距離は、当該被写体にレーザを照射すること（つまり、レーザ計測）等によって計測されてもよい。

また、本実施形態においては、統計モデルが光学系の収差の影響を受けた画像（当該画像に含まれる被写体までの距離に応じて非線形に変化するぼけ）を学習することによって生成されるものとして説明したが、当該統計モデルは、例えば撮像装置２の開口部に設けられたフィルタ（カラーフィルタ等）を透過した光に基づいて生成される画像（つまり、当該フィルタによって意図的に画像に生じさせた、被写体までの距離に応じて非線形に変化するぼけ）を学習することによって生成されるものであってもよい。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

１…測距システム、２…撮像装置、３…画像処理装置、２１…レンズ、２２…イメージセンサ、３１…統計モデル格納部、３２…画像取得部、３３…距離取得部、３４…出力部、３５…学習処理部、３５ａ…距離取得部、３５ｂ…疑似ラベル生成部、３５ｃ…統計モデル学習部、２２１…第１センサ、２２２…第２センサ、２２３…第３センサ、３０１…ＣＰＵ、３０２…不揮発性メモリ、３０３…ＲＡＭ、３０３Ａ…画像処理プログラム、３０４…通信デバイス、３０５…バス。

Claims

被写体を含む画像を入力として当該被写体までの距離を出力するための統計モデルを学習させる画像処理装置が実行する学習方法であって、
形状が既知である被写体を含む学習用画像を取得することと、
前記学習用画像から当該学習用画像に含まれる被写体までの第１距離を取得することと、
前記第１距離に対して前記学習用画像に含まれる被写体の形状で拘束をかけることで前記統計モデルを学習させることと
を具備し、
前記学習させることは、
前記第１距離を前記学習用画像に含まれる被写体の形状に基づいて第２距離に補正することと、
前記学習用画像及び前記第２距離を前記統計モデルに学習させることと
を含み、
前記学習させることは、前記統計モデルを正則化することを含み、
前記統計モデルを正則化することは、前記第２距離の相対値と、前記学習用画像を前記統計モデルに入力することによって当該統計モデルから出力される第３距離の相対値との誤差を最小化するように前記統計モデルのパラメータを更新することを含む
学習方法。
被写体を含む画像を入力として当該被写体までの距離を出力するための統計モデルを学習させる画像処理装置が実行する学習方法であって、
形状が既知である被写体を含む学習用画像を取得することと、
前記学習用画像から当該学習用画像に含まれる被写体までの第１距離を取得することと、
前記第１距離に対して前記学習用画像に含まれる被写体の形状で拘束をかけることで前記統計モデルを学習させることと
を具備し、
前記学習させることは、
前記第１距離を前記学習用画像に含まれる被写体の形状に基づいて第２距離に補正することと、
前記学習用画像及び前記第２距離を前記統計モデルに学習させることと
を含み、
前記学習用画像は、正解ラベルが付されている第１学習用画像及び正解ラベルが付されていない第２学習用画像を含み、
前記第１及び第２学習用画像は、同一の形状の被写体を含み、
前記第１距離を取得することは、前記第２学習用画像から当該第２学習用画像に含まれる被写体までの第１距離を取得することを含み、
前記第１距離は、前記第２学習用画像に含まれる被写体の形状に基づいて第２距離に補正され、
前記学習させることは、正解ラベルと前記第１学習用画像を前記統計モデルに入力することによって当該統計モデルから出力される第３距離との誤差に、前記第２距離の相対値と前記第２学習用画像を前記統計モデルに入力することによって当該統計モデルから出力される第３距離の相対値との誤差を加算した値を最小化するように当該統計モデルのパラメータを更新することを含む
学習方法。
前記補正することは、前記第１距離に対して前記被写体の形状を表すために用いられるパラメータをフィッティングさせることによって当該第１距離を前記第２距離に補正することを含む請求項１または２記載の学習方法。
前記被写体の形状は、前記パラメータを含む任意の関数で表現される請求項３記載の学習方法。
前記統計モデルは、光学系の収差の影響を受けた画像に生じる、当該画像に含まれる被写体までの距離に応じて非線形に変化するぼけを学習することによって生成される請求項１～４のいずれか一項に記載の学習方法。
前記統計モデルは、フィルタを透過した光に基づいて生成される画像に生じる、当該画像に含まれる被写体までの距離に応じて非線形に変化するぼけを学習することによって生成される請求項１～４のいずれか一項に記載の学習方法。
前記取得することは、前記学習用画像を前記統計モデルに入力することによって当該統計モデルから出力される距離を取得することを含む請求項１～６のいずれか一項に記載の学習方法。
前記取得することは、前記学習用画像に含まれる被写体に付されたマーカに基づいて距離を取得することを含む請求項１～６のいずれか一項に記載の学習方法。
被写体を含む画像を入力として当該被写体までの距離を出力するための統計モデルを学習させるプログラムであって、
コンピュータに、
形状が既知である被写体を含む学習用画像を取得することと、
前記学習用画像から当該学習用画像に含まれる被写体までの第１距離を取得することと、
前記第１距離に対して前記学習用画像に含まれる被写体の形状で拘束をかけることで前記統計モデルを学習させることと
を実行させ、
前記学習させることは、
前記第１距離を前記学習用画像に含まれる被写体の形状に基づいて第２距離に補正することと、
前記学習用画像及び前記第２距離を前記統計モデルに学習させることと
を含み、
前記学習させることは、前記統計モデルを正則化することを含み、
前記統計モデルを正則化することは、前記第２距離の相対値と、前記学習用画像を前記統計モデルに入力することによって当該統計モデルから出力される第３距離の相対値との誤差を最小化するように前記統計モデルのパラメータを更新することを含む
プログラム。
被写体を含む画像を入力として当該被写体までの距離を出力するための統計モデルを学習させるプログラムであって、
コンピュータに、
形状が既知である被写体を含む学習用画像を取得することと、
前記学習用画像から当該学習用画像に含まれる被写体までの第１距離を取得することと、
前記第１距離に対して前記学習用画像に含まれる被写体の形状で拘束をかけることで前記統計モデルを学習させることと
を実行させ、
前記学習させることは、
前記第１距離を前記学習用画像に含まれる被写体の形状に基づいて第２距離に補正することと、
前記学習用画像及び前記第２距離を前記統計モデルに学習させることと
を含み、
前記学習用画像は、正解ラベルが付されている第１学習用画像及び正解ラベルが付されていない第２学習用画像を含み、
前記第１及び第２学習用画像は、同一の形状の被写体を含み、
前記第１距離を取得することは、前記第２学習用画像から当該第２学習用画像に含まれる被写体までの第１距離を取得することを含み、
前記第１距離は、前記第２学習用画像に含まれる被写体の形状に基づいて第２距離に補正され、
前記学習させることは、正解ラベルと前記第１学習用画像を前記統計モデルに入力することによって当該統計モデルから出力される第３距離との誤差に、前記第２距離の相対値と前記第２学習用画像を前記統計モデルに入力することによって当該統計モデルから出力される第３距離の相対値との誤差を加算した値を最小化するように当該統計モデルのパラメータを更新することを含む
プログラム。
被写体を含む画像を入力として当該被写体までの距離を出力するための統計モデルを学習させる画像処理装置であって、
形状が既知である被写体を含む学習用画像を取得する第１取得手段と、
前記学習用画像から当該学習用画像に含まれる被写体までの第１距離を取得する第２取得手段と、
前記第１距離に対して前記学習用画像に含まれる被写体の形状で拘束をかけることで前記統計モデルを学習させる学習手段と
を具備し、
前記学習手段は、
前記第１距離を前記学習用画像に含まれる被写体の形状に基づいて第２距離に補正する手段と、
前記学習用画像及び前記第２距離を前記統計モデルに学習させる手段と
を含み、
前記学習させる手段は、前記統計モデルを正則化する手段を含み、
前記統計モデルを正則化する手段は、前記第２距離の相対値と、前記学習用画像を前記統計モデルに入力することによって当該統計モデルから出力される第３距離の相対値との誤差を最小化するように前記統計モデルのパラメータを更新する
画像処理装置。
被写体を含む画像を入力として当該被写体までの距離を出力するための統計モデルを学習させる画像処理装置であって、
形状が既知である被写体を含む学習用画像を取得する第１取得手段と、
前記学習用画像から当該学習用画像に含まれる被写体までの第１距離を取得する第２取得手段と、
前記第１距離に対して前記学習用画像に含まれる被写体の形状で拘束をかけることで前記統計モデルを学習させる学習手段と
を具備し、
前記学習手段は、
前記第１距離を前記学習用画像に含まれる被写体の形状に基づいて第２距離に補正する手段と、
前記学習用画像及び前記第２距離を前記統計モデルに学習させる手段と
を含み、
前記学習用画像は、正解ラベルが付されている第１学習用画像及び正解ラベルが付されていない第２学習用画像を含み、
前記第１及び第２学習用画像は、同一の形状の被写体を含み、
前記第２取得手段は、前記第２学習用画像から当該第２学習用画像に含まれる被写体までの第１距離を取得し、
前記第１距離は、前記第２学習用画像に含まれる被写体の形状に基づいて第２距離に補正され、
前記学習させる手段は、正解ラベルと前記第１学習用画像を前記統計モデルに入力することによって当該統計モデルから出力される第３距離との誤差に、前記第２距離の相対値と前記第２学習用画像を前記統計モデルに入力することによって当該統計モデルから出力される第３距離の相対値との誤差を加算した値を最小化するように当該統計モデルのパラメータを更新する
画像処理装置。