JP6971934B2

JP6971934B2 - 画像処理装置

Info

Publication number: JP6971934B2
Application number: JP2018151247A
Authority: JP
Inventors: 直三島; 貴之佐々木
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2018-08-10
Filing date: 2018-08-10
Publication date: 2021-11-24
Anticipated expiration: 2038-08-10
Also published as: JP2020026990A; US20200051264A1; US11100662B2

Description

本発明の実施形態は、画像処理装置に関する。

二つのカメラやステレオカメラ（複眼のカメラ）で撮像された画像から、被写体までの距離を取得する技術が知られている。また、近時、一つのカメラ（単眼のカメラ）で一度に撮像された画像から、被写体までの距離を取得する技術が提案されている。

特開平８−４３０５５号公報特開２０１６−１０２７３３号公報

一つのカメラで一度に撮像された画像から、被写体までの距離を取得する場合、マルチショットが不要であることから、動物体へも適用することができる。当該一つのカメラで一度に撮像された画像から、被写体までの距離を取得する方法の一つとして、ぼけ情報を用いて距離を取得する方法が存在する。例えば、ぼけ情報をモデル化することによって距離を算出することができる。しかしながら、画像に含まれるぼけ情報がモデルから外れる場合、算出される距離の誤差が大きくなる可能性がある。

本発明が解決しようとする課題は、一つのカメラで一度に撮像された画像からのロバストな距離検出が可能な画像処理装置を提供することである。

実施形態によれば、画像処理装置は、画像取得部と、距離取得部とを具備する。画像取得部は、単一の結像光学系による一度の撮像によって得られる、非対称の第１形状のぼけを含む被写体の第１画像と、非対称の第２形状のぼけを含む前記被写体の第２画像とを取得する。距離取得部は、前記第１画像および前記第２画像を入力し、事前に学習された統計モデルによって、前記被写体までの距離情報を取得する。

実施形態に係る画像処理装置（画像処理部）を適用する測距装置の構成を示すブロック図。同実施形態の画像処理装置を適用する測距装置内の撮像装置（撮像部）に設けられるフィルタの構成の例を示す図。図２のフィルタの透過率特性の例を示す図。図２のフィルタが配置されたカラー開口の光線変化と、ぼけの形状とを説明するための図。同実施形態の画像処理装置のシステム構成の例を示すブロック図。同実施形態の画像処理装置の画像からの距離検出に関する基本構造を示す図。同実施形態の画像処理装置を適用する測距装置によって撮像される画像が距離に関して物理的な手がかり（ぼけ情報）を与えることを示す図。同実施形態の画像処理装置が距離に関する物理的な手がかりであるぼけ情報を統計モデルで分析して被写体までの距離を推定することを示す図。同実施形態の画像処理装置で適用し得る、統計モデルによって撮影画像から距離情報を推定する方式の第１例（パッチ方式）を示す図。同実施形態の画像処理装置における統計モデルに対する撮影画像の情報の第１入力例を示す図。同実施形態の画像処理装置で適用し得る、統計モデルによって撮影画像から距離情報を推定する方式の第２例を示す図。同実施形態の画像処理装置における統計モデルに対する撮影画像の情報の第２入力例を示す図。同実施形態の画像処理装置で適用し得る、統計モデルによって撮影画像から距離情報を推定する方式の第３例（画面一括方式）を示す図。同実施形態の画像処理装置が備える統計モデルの学習方法の一例を示す図。ぼけと距離との関係の一例を示す図。同実施形態の画像処理装置が備える統計モデルの学習の流れを示すフローチャート。同実施形態の画像処理装置における統計モデルによる画像からの距離検出の流れを示すフローチャート。同実施形態の画像処理装置の一変形例の概要を説明するための図。同実施形態の画像処理装置の一変形例における統計モデルの学習方法の一例を示す図。同実施形態の画像処理装置の一変形例における統計モデルによる画像からの距離検出の流れを示すフローチャート。同実施形態の画像処理装置を適用する測距装置を備える移動体の構成を示すブロック図。同実施形態の画像処理装置を適用する測距装置を備える自動車の外観の例を示す斜視図。同実施形態の画像処理装置を適用する測距装置を備えるドローンの外観の例を示す斜視図。同実施形態の画像処理装置を適用する測距装置を備えるロボットの外観の例を示す斜視図。同実施形態の画像処理装置を適用する測距装置を備えるロボットアームの外観の例を示す斜視図。

以下、実施の形態について図面を参照して説明する。
まず、図１を参照して、一実施形態に係る画像処理装置を適用する測距装置の構成を説明する。この測距装置１は、画像を撮像し、撮像された画像を用いて撮像地点から被写体までの距離（奥行きとも称する）を推定する。

この測距装置１は、画像を撮像する撮像部１１と、撮像された画像を処理する画像処理部１２とを備える。測距装置１は、撮像部１１と画像処理部１２とを備える一つの装置として実現されてもよいし、撮像部１１に相当する撮像装置と、画像処理部１２に相当する画像処理装置とのような複数の装置で構成されるシステムであってもよい。

図１に示すように、撮像部１１は、フィルタ２１とレンズ２２とイメージセンサ２３とを備える単眼カメラにより構成される。フィルタ２１は、互いに異なる波長帯域（色成分）の光を透過する複数のフィルタ領域を含む。フィルタ２１は、例えば、二色のカラーフィルタ領域である第１フィルタ領域２１１と第２フィルタ領域２１２とで構成される。

イメージセンサ２３は、フィルタ２１とレンズ２２とを透過した光を受光し、受光した光を電気信号に変換（光電変換）する。イメージセンサ２３には、例えばＣＣＤ（Charge Coupled Device）やＣＭＯＳ（Complementary Metal Oxide Semiconductor）が用いられる。イメージセンサ２３は、少なくとも二種類の撮像素子を含み、例えば、赤色（Ｒ）の光を受光する撮像素子を含む第１センサ２３１と、緑色（Ｇ）の光を受光する撮像素子を含む第２センサ２３２と、青色（Ｂ）の光を受光する撮像素子を含む第３センサ２３３とを備える。各撮像素子は、対応する波長帯域の光を受光し、受光した光を電気信号に変換する。この電気信号をＡ／Ｄ変換することによりカラー画像を生成することができる。以下では、画像のＲ成分、Ｇ成分、Ｂ成分である色成分画像（波長成分画像とも称する）を、それぞれＲ画像、Ｇ画像、Ｂ画像とも称する。なお、赤色、緑色、青色の撮像素子毎の電気信号を用いて、Ｒ画像、Ｇ画像、Ｂ画像をそれぞれ生成することもできる。つまり、撮像部１１は、一度の撮像（ワンショット）で、カラー画像、Ｒ画像、Ｇ画像、およびＢ画像の少なくとも一つを生成することができる。

次いで、図２は、フィルタ２１の構成の例を示す。フィルタ２１は、互いに異なる光の波長帯域（色成分）を透過する複数のフィルタ領域を有し、２以上のフィルタ領域は、撮像部１１の光学中心２１３に対して非点対称な形状である。フィルタ２１は、例えば、二色のカラーフィルタ領域である第１フィルタ領域２１１と第２フィルタ領域２１２とで構成される。フィルタ２１の中心は、撮像部１１（レンズ２２）の光学中心２１３と一致している。第１フィルタ領域２１１および第２フィルタ領域２１２はそれぞれ、光学中心２１３に対して非点対称である形状を有している。また、例えば、二つのフィルタ領域２１１，２１２は重複せず、且つ二つのフィルタ領域２１１，２１２によってフィルタ２１の全領域を構成している。図２に示す例では、第１フィルタ領域２１１および第２フィルタ領域２１２はそれぞれ、円形のフィルタ２１が光学中心２１３を通る線分で分割された半円の形状を有している。第１フィルタ領域２１１は、例えばイエロー（Ｙ）のフィルタ領域であり、第２フィルタ領域２１２は、例えばシアン（Ｃ）のフィルタ領域である。なお、第１フィルタ領域２１１がマゼンタ（Ｍ）のフィルタ領域であって、第２フィルタ領域２１２がイエロー（Ｙ）のフィルタ領域であってもよい。さらに、第１フィルタ領域２１１がシアン（Ｃ）のフィルタ領域であって、第２フィルタ領域２１２がマゼンタ（Ｍ）のフィルタ領域であってもよい。

各カラーフィルタが透過する波長帯域は異なる。一つのフィルタ領域が透過する光の波長帯域の一部と、別の一つのカラーフィルタ領域が透過する光の波長帯域の一部は、例えば重複する。一つのカラーフィルタ領域が透過する光の波長帯域は、例えば別の一つのカラーフィルタ領域が透過する光の波長帯域を含んでもよい。

なお、第１フィルタ領域２１１と第２フィルタ領域２１２とは、任意の波長帯域の透過率を変更するフィルタ、任意方向の偏光光を通過させる偏光フィルタ、または任意の波長帯域の集光パワーを変更するマイクロレンズであってもよい。例えば、任意の波長帯域の透過率を変更するフィルタは、原色フィルタ（ＲＧＢ）、補色フィルタ（ＣＭＹ）、色補正フィルタ（ＣＣ−ＲＧＢ／ＣＭＹ）、赤外線・紫外線カットフィルタ、ＮＤフィルタ、または遮蔽板であってもよい。第１フィルタ領域２１１や第２フィルタ領域２１２がマイクロレンズである場合は、レンズ２２により光線の集光の分布に偏りが生じることでぼけの形状が変化する。

以下では、説明を分かりやすくするために、図２に示すフィルタ２１において、第１フィルタ領域２１１がイエロー（Ｙ）のフィルタ領域であり、第２フィルタ領域２１２がシアン（Ｃ）のフィルタ領域である場合を主に例示する。
たとえば図２に示したフィルタ２１がカメラの開口部に配置されることにより、開口部が二色で二分割された構造開口であるカラー開口が構成される。このカラー開口を透過する光線に基づいて、イメージセンサ２３は画像を生成する。イメージセンサ２３に入射する光の光路上において、フィルタ２１とイメージセンサ２３との間にレンズ２２が配置されてもよい。イメージセンサ２３に入射する光の光路上において、レンズ２２とイメージセンサ２３との間にフィルタ２１が配置されてもよい。レンズ２２が複数設けられる場合、フィルタ２１は、２つのレンズ２２の間に配置されてもよい。

第２センサ２３２に対応する波長帯域の光は、イエローの第１フィルタ領域２１１とシアンの第２フィルタ領域２１２の両方を透過する。第１センサ２３１に対応する波長帯域の光は、イエローの第１フィルタ領域２１１を透過し、シアンの第２フィルタ領域２１２を透過しない。第３センサ２３３に対応する波長帯域の光は、シアンの第２フィルタ領域２１２を透過し、イエローの第１フィルタ領域２１１を透過しない。

なお、ある波長帯域の光がフィルタまたはフィルタ領域を透過するとは、フィルタまたはフィルタ領域が高い透過率でその波長帯域の光を透過し、そのフィルタまたはフィルタ領域による当該波長帯域の光の減衰（すなわち、光量の低下）が極めて小さいことを意味する。また、ある波長帯域の光がフィルタまたはフィルタ領域を透過しないとは、光がフィルタまたはフィルタ領域に遮蔽されることであり、たとえば、フィルタまたはフィルタ領域が低い透過率でその波長帯域の光を透過し、そのフィルタまたはフィルタ領域による当該波長帯域の光の減衰が極めて大きいことを意味する。たとえばフィルタまたはフィルタ領域は、ある波長帯の光を吸収することにより光を減衰させる。

図３は、第１フィルタ領域２１１および第２フィルタ領域２１２の透過率特性の例を示す。なお、可視光の波長帯域のうち７００ｎｍより長い波長の光に対する透過率は図示を省略してあるが、その透過率は７００ｎｍの場合に近いものである。図３に示すイエローの第１フィルタ領域２１１の透過率特性２１５では、波長帯域が６２０ｎｍから７５０ｎｍ程度のＲ画像に対応する光と、波長帯域が４９５ｎｍから５７０ｎｍ程度のＧ画像に対応する光とが高い透過率で透過され、波長帯域が４５０ｎｍから４９５ｎｍ程度のＢ画像に対応する光がほとんど透過されていない。また、シアンの第２フィルタ領域２１２の透過率特性２１６では、Ｂ画像およびＧ画像に対応する波長帯域の光が高い透過率で透過され、Ｒ画像に対応する波長帯域の光がほとんど透過されていない。

したがって、Ｒ画像（第１センサ２３１）に対応する波長帯域の光はイエローの第１フィルタ領域２１１のみを透過し、Ｂ画像（第３センサ２３３）に対応する波長帯域の光はシアンの第２フィルタ領域２１２のみを透過する。Ｇ画像（第２センサ２３２）に対応する波長帯域の光は、第１フィルタ領域２１１と第２フィルタ領域２１２を透過する。

このようなＲ画像、Ｂ画像および画像上のぼけの形状は被写体までの距離ｄに応じて、より詳細には、距離ｄと合焦距離ｄｆとの差分に応じて変化する。合焦距離ｄｆは、撮像位置から、画像上にぼけが発生しない（すなわち、ピントが合う）合焦位置までの距離である。また、各フィルタ領域２１１，２１２が光学中心２１３に対して非点対称な形状であるので、Ｒ画像上およびＢ画像上のぼけの形状は、被写体が合焦距離ｄｆよりも手前にあるか、それとも奥にあるかによって異なり、また偏っている。Ｒ画像上およびＢ画像上のぼけの偏りの方向は、撮像位置から見て、被写体が合焦距離ｄｆよりも手前にあるか、それとも奥にあるかによってそれぞれ反転する。

図４を参照して、フィルタ２１が配置されたカラー開口による光線変化と、ぼけの形状とについて説明する。
被写体２１０が合焦距離ｄｆよりも奥にある場合（ｄ＞ｄｆ）、イメージセンサ２３によって撮像された画像にはぼけが発生する。この画像のぼけの形状は、Ｒ画像、Ｇ画像およびＢ画像でそれぞれ異なっている。例えば、Ｒ画像のぼけの形状（２０１Ｒ）は左側に偏り、Ｇ画像のぼけの形状（２０１Ｇ）は偏りがなく、Ｂ画像のぼけの形状（２０１Ｂ）は右側に偏っている。また、被写体２１０が合焦距離ｄｆから奥に離れる程、ぼけのサイズは大きくなる。ぼけは、隣接する画素との画素値の差分（勾配）を用いて検出することができる。

また、被写体２１０が合焦距離ｄｆにある場合（ｄ＝ｄｆ）、イメージセンサ２３によって撮像された画像にはほとんどぼけが発生しない。この画像のぼけの形状は、Ｒ画像、Ｇ画像およびＢ画像でほぼ同じである。Ｒ画像のぼけの形状（２０１Ｒ）、Ｇ画像のぼけの形状（２０１Ｇ）およびＢ画像のぼけの形状（２０１Ｂ）のいずれも偏りがない。

また、被写体２１０が合焦距離ｄｆよりも手前にある場合（ｄ＜ｄｆ）、イメージセンサ２３によって撮像された画像にはぼけが発生する。この画像のぼけの形状は、Ｒ画像、Ｇ画像およびＢ画像でそれぞれ異なっている。例えば、Ｒ画像のぼけの形状（２０１Ｒ）は右側に偏り、Ｇ画像のぼけの形状（２０１Ｇ）は偏りがなく、Ｂ画像のぼけの形状（２０１Ｂ）は左側に偏っている。また、被写体２１０が合焦距離ｄｆから手前に離れる程、ぼけのサイズは大きくなる。

このように、被写体２１０が合焦距離ｄｆよりも手前または奥にある場合、イエローの第１フィルタ領域２１１を透過した光線に基づくＲ画像のぼけの形状（２０１Ｒ，２０３Ｒ）は非対称であり、またシアンの第２フィルタ領域２１２を透過した光線に基づくＢ画像のぼけの形状（２０１Ｂ，２０３Ｂ）も非対称である。そして、そのＲ画像のぼけの形状（２０１Ｒ，２０３Ｒ）は、Ｂ画像のぼけの形状（２０１Ｂ，２０３Ｂ）とは異なっている。また、被写体２１０が合焦距離ｄｆから離れる程、ぼけのサイズは大きくなる。

一方、画像処理部１２は、図１に示すように、画像取得部１２１、距離取得部１２２および出力部１２３を備える。画像処理部１２は、例えば、コンピュータまたは各種電子機器に内蔵される組み込みシステムとして実現され得る。画像処理部１２は、その一部またはすべてがソフトウェア（プログラム）によって実現されても良いし、ハードウェア（電子回路）によって実現されても良い。

画像取得部１２１は、撮像部１１によって生成され得るカラー画像、Ｒ画像、Ｇ画像およびＢ画像のうち、ぼけの形状が左側または右側に偏るＲ画像およびＢ画像を少なくとも取得する（撮影画像ａ１）。ここでは、撮像部１１によってＲ画像、Ｇ画像およびＢ画像が生成され、画像取得部１２１は、これら３つの画像を取得するものと想定する。

距離取得部１２２は、画像取得部１２１によって取得される、ぼけの形状が左側または右側に偏るＲ画像およびＢ画像を少なくとも用いて、被写体までの距離を取得する。より詳しくは、距離取得部１２２は、事前に学習された統計モデル１２２Ａによって、少なくともＲ画像およびＢ画像の２つの画像から被写体までの距離を取得する。統計モデル１２２Ａは、ニューラルネットワークやランダムフォレストなどといった既知の様々な機械学習のアルゴリズムを適用することができる。ここでは、距離取得部１２２は、Ｒ画像、Ｇ画像およびＢ画像の３つの画像を用いて、被写体までの距離を取得するものと想定する。Ｒ画像、Ｇ画像およびＢ画像の３つの画像を用いた統計モデル１２２Ａによる距離の取得の詳細については後述する。

出力部１２３は、距離取得部１２２によって取得された距離（距離情報ａ２）を、例えば、画像と位置的に対応づけて配置したマップ形式で出力する。例えば、画素値が距離を示す画像データとして、出力部１２３は、画素単位に取得される距離を出力する。画像データとして距離が出力される場合、この画像データを使って、色で距離を示す距離画像を表示することができる。出力部１２３から出力される距離を用いれば、例えば、被写体のサイズを算出することなども可能である。

図５は、画像処理部（画像処理装置）１２のシステム構成を例示する。画像処理部１２は、ＣＰＵ３１、ＲＡＭ３２、不揮発性メモリ３３、および通信部３４を備える。また、画像処理部１２は、ＣＰＵ３１、ＲＡＭ３２、不揮発性メモリ３３、および通信部３４を相互に接続するバス３５を有している。

ＣＰＵ３１は、画像処理部１２内の様々なコンポーネントの動作を制御する。ＣＰＵ３１は、単一のプロセッサであってもよいし、複数のプロセッサで構成されていてもよい。ＣＰＵ３１は、不揮発性メモリ３３からＲＡＭ３２にロードされる様々なプログラムを実行する。これらプログラムは、オペレーティングシステム（ＯＳ）や様々なアプリケーションプログラムを含む。アプリケーションプログラムは、画像処理プログラム３２Ａを含む。この画像処理プログラム３２Ａは、被写体を撮像した画像を用いて、被写体までの距離を推定するための命令群を含む。また、ＲＡＭ３２は、主記憶装置として用いられる記憶媒体である。不揮発性メモリ３３は、補助記憶装置として用いられる記憶媒体である。

通信部３４は、有線通信または無線通信を実行するように構成されたデバイスである。通信部３４は、信号を送信する送信部と信号を受信する受信部とを含む。通信部３４は、ネットワークを介した外部機器との通信、周辺に存在する外部機器との通信等を実行する。この外部機器には撮像部１１も含まれ得る。したがって、通信部３４は、撮像部１１から画像を受信してもよい。

図６は、本実施形態の画像処理装置（画像処理部１２）を適用する測距装置１の画像からの距離検出に関する基本構造を示す図である。
測距装置１は、互いに異なる波長帯域の光を透過する複数のフィルタ領域を含むフィルタ２１を備える撮像部１１によって、ぼけが互いに異なる形状で発生する複数の画像を生成する（撮影画像ａ１）。画像処理部１２は、この複数の画像の情報を、事前に学習された統計モデル１２２Ａに入力し、統計モデル１２２Ａによって、被写体までの距離を取得する（距離情報ａ２）。

図７は、互いに異なる波長帯域の光を透過する複数のフィルタ領域を含むフィルタ２１を備える撮像部１１によって生成される、ぼけが互いに異なる形状で発生する複数の画像（撮影画像ａ１）は、距離に関して物理的な手がかり（ほけ情報ｂ１）を与えるものであることを示す図である。

図４を参照して説明した通り、被写体２１０がピント位置よりも奥にある場合、フィルタ２１およびレンズ２２を透過した光がイメージセンサ２３に受光されて生成される複数の画像（撮影画像ａ１）のうち、Ｒ画像のぼけの形状（ぼけ情報ｂ１）は左側に偏り、Ｂ画像のぼけの形状（ぼけ情報ｂ１）は右側に偏る。一方、被写体２１０がピント位置よりも手前にある場合、フィルタ２１およびレンズ２２を透過した光がイメージセンサ２３に受光されて生成される複数の画像（撮影画像ａ１）のうち、Ｒ画像のぼけの形状（ぼけ情報ｂ１）は右側に偏り、Ｂ画像のぼけの形状（ぼけ情報ｂ１）は左側に偏る。

つまり、本実施形態の画像処理装置１の撮像部１１によって生成される複数の画像においては、Ｒ画像上およびＢ画像上のぼけの偏りの方向が、被写体２１０がピント位置よりも奥か手前かで反転するので、第１に、ぼけの色（形状）によって、被写体２１０がピント位置よりも奥か手前かを区別することができる。

また、被写体２１０がピント位置から離れる程、ぼけのサイズは大きくなるので、第２に、ぼけのサイズによって、ピント位置から被写体２１０までの距離を取得することができる。被写体２１０がピント位置よりも奥か手前かを区別することができ、かつ、ピント位置から被写体２１０までの距離を取得することができれば、撮影地点から被写体２１０までの距離を取得することができる。

このように、互いに異なる波長帯域の光を透過する複数のフィルタ領域を含むフィルタ２１を備える撮像部１１によって生成される、ぼけが互いに異なる形状で発生する複数の画像（撮影画像ａ１）は、距離に関して物理的な手がかり（ほけ情報ｂ１）を与えるものである。

図８は、本実施形態の画像処理装置１が、距離に関する物理的な手がかりである撮影画像ａ１中のぼけ情報ｂ１を統計モデル１２２Ａで分析し、被写体２１０までの距離（距離情報ａ２）を推定することを示す図である。
図７を参照して説明した通り、この画像処理装置１の撮像部１１によって生成される複数の画像（撮影画像ａ１）上のぼけ（ぼけ情報ｂ１）は、被写体２１０までの距離に関する物理的な手がかりとなる。具体的には、ぼけの色（形状）やサイズが、被写体２１０までの距離に関する手がかりとなる。画像処理装置１の画像処理部１２、より詳しくは、距離取得部１２２は、当該物理的な手がかりである撮影画像ａ１中のぼけ情報ｂ１を統計モデル１２２Ａで分析し、被写体２１０までの距離（距離情報ａ２）を推定する。

図９は、本実施形態の画像処理装置１で適用し得る、統計モデル１２２Ａによって撮影画像ａ１から距離情報ａ２を推定する方式の第１例（パッチ方式）を示す図である。
第１例においては、距離取得部１２２は、撮影画像ａ１から局所領域（画像パッチａ１１）を抽出し、当該局所領域ごとに、撮影画像ａ１の情報を統計モデル１２２Ａへ入力して距離情報ａ２を推定する。局所領域の抽出は、例えば、撮影画像ａ１の全領域をマトリックス状に分割し、分割後の部分領域を順次抽出することであってもよいし、撮影画像ａ１を認識して、被写体像が検出された領域を網羅するように、複数の局所領域を抽出することであってもよい。また、局所領域は、他の局所領域との間で一部がオーバーラップしていてもよい。

一方、撮影画像ａ１の情報が局所領域ごとに入力される統計モデル１２２Ａは、その局所領域について画素ごとに距離を推定する。局所領域がオーバーラップして抽出される場合、オーバーラップ領域については、例えば、平均値を算出してもよいし、（３以上の局所領域がオーバーラップする場合）多数決で値を決定してもよい。

図１０は、第１例における統計モデル１２２Ａに対する撮影画像ａ１の情報の一入力例を示す図である。
撮影画像ａ１から局所領域（画像パッチａ１１）を抽出する距離取得部１２２は、Ｒ画像、Ｇ画像およびＢ画像のそれぞれについて、当該局所領域の勾配データΔａ１（Δａ１−Ｒ，Δａ１−Ｇ，Δａ１−Ｂ）を生成して、この勾配データΔａ１を統計モデル１２２Ａに入力する。勾配データΔａ１は、各画素の隣接する画素との画素値の差分を示す。例えば、局所領域が、ｎ画素（Ｘ軸方向）×ｍ画素（Ｙ軸方向）の矩形領域として抽出される場合、局所領域内の各画素について算出した例えば右隣の画素との差分値をｎ行×ｍ列のマトリックス状に配置した勾配データΔａ１が生成されて、統計モデル１２２Ａに入力される。統計モデル１２２Ａは、Ｒ画像の勾配データΔａ１−Ｒと、Ｇ画像の勾配データΔａ１−Ｇと、Ｂ画像の勾配データΔａ１−Ｂとを使って、ぼけから距離情報を抽出する。なお、原理的には、Ｒ画像の勾配データΔａ１−ＲとＧ画像の勾配データΔａ１−Ｇとのペア、Ｇ画像の勾配データΔａ１−ＧとＢ画像の勾配データΔａ１−Ｂとのペア、または、Ｂ画像の勾配データΔａ１−ＢとＲ画像の勾配データΔａ１−Ｒとのペア、のいずれかが入力されれば、ペアの偏り具合から距離を判断できるので、ぼけから距離情報を抽出する条件は成立する。

図１１は、本実施形態の画像処理装置１で適用し得る、統計モデル１２２Ａによって撮影画像ａ１から距離情報ａ２を推定する方式の第２例を示す図である。
第２例においては、撮影画像ａ１の情報として、第１例における局所領域（画像パッチａ１１）ごとの勾配データΔａ１の入力に加え、当該局所領域の撮影画像ａ１上における位置情報ａ１２をさらに統計モデル１２２Ａへ入力する。位置情報ａ１２は、例えば、局所領域の中心点に対応するものであってもよいし、例えば左上辺などの予め定められた一辺に対応するものであってもよいし、画像パッチａ１１に含まれる画素それぞれの撮影画像ａ１上での位置情報を用いてもよい。

位置情報ａ１２をさらに統計モデル１２２Ａへ入力することで、例えば、レンズ２２の中心部を透過する光によって結像された被写体像のぼけと、レンズ２２の端部を透過する光によって結像された被写体像のぼけとの間で違いが生じる場合に、その違いが距離の推定に影響を及ぼすことを除去することができる。つまり、この第２例は、ぼけ、距離および画像上の位置の相関が学習された統計モデル１２２Ａによって、撮影画像ａ１から距離情報ａ２を、より確実に推定することができる。

図１２は、第２例における統計モデル１２２Ａに対する撮影画像ａ１の情報の一入力例を示す図である。
例えば、ｎ画素（Ｘ軸方向）×ｍ画素（Ｙ軸方向）の矩形領域を局所領域として抽出する場合、距離取得部１２２は、当該局所領域の例えば中心点に対応する撮影画像ａ１上のＸ座標値を、ｎ×ｍ個、ｎ行×ｍ列のマトリックス状に配置したＸ座標データａ１２−１と、当該局所領域の例えば中心点に対応する撮影画像ａ１上のＹ座標値を、ｎ×ｍ個、ｎ行×ｍ列のマトリックス状に配置したＹ座標データａ１２−２とを生成して、勾配データΔａ１（Δａ１−Ｒ，Δａ１−Ｇ，Δａ１−Ｂ）とともに、統計モデル１２２Ａに入力する。

図１３は、本実施形態の画像処理装置１で適用し得る、統計モデル１２２Ａによって撮影画像ａ１から距離情報ａ２を推定する方式の第３例（画面一括方式）を示す図である。
第３例においては、距離取得部１２２は、第１例や第２例のような、撮影画像ａ１からの局所領域（画像パッチａ１１）の抽出は行わず、撮影画像ａ１の全領域について、撮影画像ａ１の情報（勾配データΔａ１（Δａ１−Ｒ，Δａ１−Ｇ，Δａ１−Ｂ））を統計モデル１２２Ａに入力する。

局所領域ごとに距離（距離情報ａ２）が推定される第１例や第２例と比較して、統計モデル１２２Ａによる推定の不確実性が高まる可能性はあるが、撮影画像ａ１からの局所領域の抽出を行わない当該第３例においては、距離取得部１２２の負荷を軽減することができる。

図１４は、本実施形態の画像処理装置１が備える統計モデル１２２Ａの学習方法の一例を示す図である。
図９を参照して説明した第１例、図１１を参照して説明した第２例、図１３を参照して説明した第３例のいずれの方式が適用される場合においても、統計モデル１２２Ａの学習方法は、基本的に、撮影画像ａ１の情報を統計モデル１２２Ａに入力し、統計モデル１２２Ａによって推定された距離情報ａ２と正解値ｃ１との誤差を統計モデル１２２Ａにフィードバックするというものである。フィードバックとは、誤差が減少するように統計モデル１２２Ａのパラメータを更新することである。

図９を参照して説明した第１例の方式が適用される場合、統計モデル１２２Ａの学習時においても、局所領域（画像パッチａ１１）ごとに、撮影画像ａ１の情報（勾配データΔａ１）が統計モデル１２２Ａに入力され、統計モデル１２２Ａによって推定された各局所領域内の各画素の距離情報ａ２と正解値ｃ１とが比較される。また、図１１を参照して説明した第２例の方式が適用される場合には、撮影画像ａ１の情報として、さらに、各局所領域の撮影画像ａ１上における位置情報ａ１２が統計モデル１２２Ａに入力される。図１３を参照して説明した第３例の方式が適用される場合は、撮影画像ａ１の情報（勾配データΔａ１）が全領域分一括して統計モデル１２２Ａに入力され、統計モデル１２２Ａによって推定された各画素の距離情報ａ２と正解値ｃ１とが比較される。

図１５は、ぼけと距離との関係を示す。図１５では、被写体がピント位置よりも手前にある場合に発生するぼけのサイズをＸ軸上においてマイナスの値で示し、被写体がピント位置よりも奥にある場合に発生するぼけのサイズをＸ軸上においてプラスの値で示している。つまり、ぼけの色（形状）を正負で示している。被写体がピント位置よりも手前にある場合または被写体がピント位置よりも奥にある場合のいずれの場合においても、被写体がピント位置から離れる程、ぼけのサイズ（ピクセル）の絶対値は大きくなる。図１５の例では、ピント位置が約１５００ｍｍであることを想定している。例えば、約−４．８ピクセルのぼけは、約１０００ｍｍの距離に対応し、０ピクセルのぼけは、１５００ｍｍの距離に対応し、約４．８ピクセルのぼけは、約２７５０ｍｍの距離に対応する。

統計モデル１２２Ａの学習時に、撮影画像ａ１の情報を統計モデル１２２Ａに入力する場合、その撮影画像ａ１を撮影した際の被写体までの距離に対応する、色（形状）を正負で示すぼけのサイズが正解値ｃ１として用いられる。換言すると、統計モデル１２２Ａは、距離情報ａ２として、ぼけのサイズを出力する。図１５の線分ｄ１で示されるように距離とぼけのサイズとは相関があるので、距離を推定することと、ぼけのサイズを推定することとは同義である。しかしながら、撮影画像ａ１と、この撮影画像ａ１に含まれるぼけとは線形の関係にあるので、統計モデル１２２Ａに直接的に距離を推定させる場合と比較して、統計モデル１２２Ａにぼけのサイズを推定させる場合の方が、統計モデル１２２Ａによる推定の精度を高めることができる。統計モデル１２２Ａは、例えば、ｎ画素（Ｘ軸方向）×ｍ画素（Ｙ軸方向）の局所領域ごとに撮影画像ａ１の情報が入力される場合、その局所領域の各画素について推定したぼけのサイズをｎ行×ｍ列に配列した距離情報ａ２を出力する。

正解値ｃ１は、入力した撮影画像ａ１の情報から統計モデル１２２Ａによって推定された距離情報ａ２と比較される。例えば、本実施形態の画像処理装置１において取得可能な距離の下限値（手前）から上限値（奥）まで極力細かい粒度で被写体を各距離で撮影した撮影画像ａ１を用意し、これらの情報を統計モデル１２２Ａに入力するとともに、それらを撮影した時の被写体までの距離に対応するぼけのサイズを正解値ｃ１として用いる。統計モデル１２２Ａの学習のための撮影画像ａ１は、被写体が異なる様々な撮影画像ａ１が用意されることが好ましい。

図１６は、本実施形態の画像処理装置１が備える統計モデル１２２Ａの学習の流れを示すフローチャートである。
まず、撮影画像ａ１の情報、より詳しくは、ぼけの形状が左側または右側に偏るＲ画像およびＢ画像の勾配データ（Δａ１−Ｒ，Δａ１−Ｂ）を少なくとも含む２種類以上の勾配データΔａ１を統計モデル１２２Ａへ入力する（ステップＡ１）。撮影画像ａ１の情報を、撮影画像ａ１から抽出した局所領域（画像パッチａ１１）ごとに入力する場合、当該局所領域の撮影画像ａ１上における位置情報ａ１２をさらに統計モデル１２２Ａへ入力してもよい。

統計モデル１２２Ａに対して撮影画像ａ１の情報を入力すると、統計モデル１２２Ａによって、被写体までの距離（距離情報ａ２）が推定される（ステップＡ２）。統計モデル１２２Ａによって推定された距離（距離情報ａ２）は、正解値ｃ１と比較され（ステップＡ３）、その誤差が、統計モデル１２２Ａへフィードバックされる（ステップＡ４）。より詳しくは、誤差が減少するように統計モデル１２２Ａのパラメータが更新される。

図１７は、本実施形態の画像処理装置１における統計モデル１２２Ａによる撮影画像ａ１からの距離情報ａ２の取得の流れを示すフローチャートである。
画像処理装置１は、互いに異なる波長帯域の光を透過する２以上のフィルタ領域（第１フィルタ領域２１１、第２フィルタ領域２１２）を含むフィルタ２１を開口部に備えたカメラ（撮像部１１）で画像（撮影画像ａ１）を撮影する（ステップＢ１）。

画像処理装置１は、撮影画像ａ１の情報、より詳しくは、ぼけの形状が左側または右側に偏るＲ画像およびＢ画像の勾配データ（Δａ１−Ｒ，Δａ１−Ｂ）を少なくとも含む２種類以上の勾配データΔａ１を統計モデル１２２Ａへ入力する（ステップＢ２）。

統計モデル１２２Ａに対して撮影画像ａ１の情報を入力すると、統計モデル１２２Ａによって、被写体までの距離（距離情報ａ２）が推定される（ステップＢ３）。画像処理装置１は、統計モデル１２２Ａによって推定された距離（距離情報ａ２）を、例えば、撮影画像ａ１と位置的に対応づけて配置したマップ形式で出力する（ステップＢ４）。

このように、本実施形態の画像処理装置１は、撮像部１１が、距離に関する物理的な手がかりであるぼけ情報ｂ１を含む撮影画像ａ１を生成し、画像処理部１２が、この撮影画像ａ１の情報を基に、統計モデル１２２Ａによって距離（距離情報ａ２）を推定する。撮像部１１によって生成される撮影画像ａ１中のぼけ情報ｂ１は、被写体までの物理的な距離（距離情報ａ２）と相関があるため、例えば錯視に騙されるようなことのない、ロバストな距離検出が可能となる。また、統計情報に基づき、距離（距離情報ａ２）を推定することで、ぼけ情報をモデル化して距離を算出する場合のような、画像に含まれるぼけ情報がモデルから外れると、算出される距離の誤差が大きくなる可能性があるといった懸念材料を生じさせることがない。

次に、本実施形態の画像処理装置１の一変形例について説明する。図１８は、当該一変形例の概要を説明するための図である。
図１８に示すように、この変形例では、統計モデル１２２Ａが、撮影画像ａ１の情報から距離情報ａ２を推定する際、その推定の不確実性の度合いを画素ごとに算出して、その値を不確実性情報ａ３として距離情報ａ２とともに出力する。統計モデル１２２Ａによる推定の不確実性の度合いの算出方法は、特定の方法に限定されず、既知の様々な方法を適用することができる。

距離取得部１２２は、統計モデル１２２Ａから出力される不確実性情報ａ３を調べ、その値が閾値以上であった場合、例えば、距離情報ａ２を破棄したり、不確実性情報ａ３の値が閾値未満であった、撮影画像ａ１上での周辺の距離情報ａ２を使って、その値が閾値以上の当該距離情報ａ２を補正したり、といった処置を施し、これらの処置が施された距離情報ａ２を出力部１２３へ転送する。補正は、例えば、周辺の距離情報ａ２の平均値を補正値としてもよいし、多数決で補正値を決定してもよい。破棄する場合は、例えば、その画素に対応する位置に無効を示す値を配置する。

このように、この変形例では、さらに、推定の不確実性の度合いの高い距離情報ａ２がそのまま使われてしまうことなどを防止することができる。
図１９は、この変形例における統計モデル１２２Ａの学習方法の一例を示す図である。
図１９に示すように、統計モデル１２２Ａが不確実性情報ａ３を出力する本変形例においても、基本的には、撮影画像ａ１の情報を統計モデル１２２Ａに入力し、統計モデル１２２Ａによって推定された距離情報ａ２と正解値ｃ１との誤差を統計モデル１２２Ａにフィードバックする。不確実性を学習する際には、距離情報と正解値との誤差を不確実性の二乗で割り算した誤差を用いることで学習時の偏りを減少させることができる。ただしそのままでは不確実性を無限大とすることで誤差をゼロにできてしまうため、不確実性の二乗をペナルティとして誤差に加算する。つまり、推定された距離情報ａ２と正解値ｃ１との誤差を不確実性で補正した値が減少するように統計モデル１２２Ａのパラメータを更新する。さらに、この変形例では、不確実性情報ａ３を用いて、学習の偏りをなくすことができる。例えば、推定された距離情報ａ２と正解値ｃ１との誤差が無い一方で、不確実性情報ａ３で示される推定の不確実性の度合いが高い場合、その距離情報ａ２は偶然に推定された可能性があり、その距離の学習が不足していることを認識することができる。

図２０は、この変形例における統計モデル１２２Ａによる撮影画像ａ１からの距離情報ａ２の取得の流れを示すフローチャートである。
先に説明した図１６のフローチャートとの違いを説明すると、まず、ステップＢ３において、統計モデル１２２Ａによって、推定された距離（距離情報ａ２）の不確実性情報ａ３が出力される。

また、このステップＢ３とステップＢ４との間において、ステップＢ１１とステップＢ１２とが実行される。即ち、画像処理装置１は、推定された距離の中に不確実性が閾値以上のものが存在するか否かを調べる（ステップＢ１１）。存在する場合（ステップＢ１１：ＹＥＳ）、画像処理装置１は、例えば、撮影画像ａ１上の周辺の不確実性が閾値未満の距離を使って、当該不確実性が閾値以上の距離を補正する（ステップＢ１２）。なお、画像処理装置１は、当該不確実性が閾値以上の距離を破棄してもよい。

このように、統計モデル１２２Ａが不確実性情報ａ３を出力することで、学習時においては、学習の偏りをなくすことができ、実働時においては、誤って推定された距離がそのまま使用されることなどを防止することができる。
（応用例）
以下、前述のような構成を有する測距装置１が適用される応用例についていくつか説明する。

図２１は、測距装置１を含む移動体９の機能構成例を示す。移動体９は、例えば、自動運転機能を有する自動車、無人航空機、自律型の移動ロボット等として実現され得る。無人航空機は、人が乗ることができない飛行機、回転翼航空機、滑空機、飛行船であって、遠隔操作または自動操縦により飛行させることができるものであり、例えば、ドローン（マルチコプター）、ラジコン機、農薬散布用ヘリコプター等を含む。自律型の移動ロボットは、無人搬送車（ＡｕｔｏｍａｔｅｄＧｕｉｄｅｄＶｅｈｉｃｌｅ：ＡＧＶ）のような移動ロボット、床を掃除するための掃除ロボット、来場者に各種案内を行うコミュニケーションロボット等を含む。移動体９にはさらに、ロボット本体が移動するものだけでなく、ロボットアームのような、ロボットの一部分の移動・回転用の駆動機構を有する産業用ロボットも含まれ得る。

図２１に示すように、移動体９は、例えば、測距装置１と制御信号生成部１４と駆動機構１５とを有する。測距装置１の内、少なくとも撮像部１１は、例えば、移動体９またはその一部分の進行方向の被写体を撮像するように設置される。
図２２に示すように、移動体９が自動車９Ａである場合、撮像部１１は、前方を撮像するいわゆるフロントカメラとして設置され得るほか、バック時に後方を撮像するいわゆるリアカメラとしても設置され得る。もちろん、これら両方が設置されてもよい。また、撮像部１１は、いわゆるドライブレコーダーとしての機能を兼ねて設置されるものであってもよい。すなわち、撮像部１１は録画機器であってもよい。

次いで、図２３は、移動体９がドローン９Ｂである場合の例を示す。ドローン９Ｂは、駆動機構１５に相当するドローン本体９１と四つのプロペラ部９２１，９２２，９２３，９２４とを備える。各プロペラ部９２１，９２２，９２３，９２４はプロペラとモータとを有する。モータの駆動がプロペラに伝達されることによって、プロペラが回転し、その回転による揚力によってドローン９Ｂが浮上する。ドローン本体９１の、例えば下部には、撮像部１１（あるいは、撮像部１１を含む測距装置１）が搭載されている。

また、図２４は、移動体９が自律型の移動ロボット９Ｃである場合の例を示す。移動ロボット９Ｃの下部には、駆動機構１５に相当する、モータや車輪等を含む動力部９５が設けられている。動力部９５は、モータの回転数や車輪の向きを制御する。移動ロボット９Ｃは、モータの駆動が伝達されることによって、路面または床面に接地する車輪が回転し、当該車輪の向きが制御されることにより任意の方向に移動することができる。撮像部１１は、例えば、人型の移動ロボット９Ｃの頭部に、前方を撮像するように設置され得る。なお、撮像部１１は、後方や左右を撮像するように設置されてもよいし、複数の方位を撮像するように複数設置されてもよい。また、センサ等を搭載するためのスペースが少ない小型ロボットに少なくとも撮像部１１を設けて、自己位置、姿勢および被写体の位置を推定することにより、デッドレコニングを行うこともできる。

なお、移動体９の一部分の移動および回転を制御する場合、図２５に示すように、撮像部１１は、例えば、ロボットアーム９Ｄで把持される物体を撮像するように、ロボットアームの先端等に設置されてもよい。画像処理部１２は、把持しようとする物体までの距離を推定する。これにより、物体の正確な把持動作を行うことができる。

制御信号生成部１４は、測距装置１から出力される被写体までの距離に基づいて、駆動機構１５を制御するための制御信号を出力する。駆動機構１５は、制御信号により、移動体９または移動体の一部分を駆動する。駆動機構１５は、例えば、移動体９またはその一部分の移動、回転、加速、減速、推力（揚力）の加減、進行方向の転換、通常運転モードと自動運転モード（衝突回避モード）の切り替え、およびエアバック等の安全装置の作動の内の少なくとも一つを行う。駆動機構１５は、例えば、被写体までの距離がしきい値未満である場合、移動、回転、加速、推力（揚力）の加減、物体に近寄る方向への方向転換、および自動運転モード（衝突回避モード）から通常運転モードへの切り替えの内の少なくとも一つを行ってもよい。

自動車９Ａの駆動機構１５は、例えばタイヤである。ドローン９Ｂの駆動機構１５は、例えばプロペラである。移動ロボット９Ｃの駆動機構１５は、例えば脚部である。ロボットアーム９Ｄの駆動機構１５は、例えば撮像部１１が設けられた先端を支持する支持部である。

移動体９は、さらに画像処理部１２からの被写体までの距離に関する情報が入力されるスピーカやディスプレイを備えていてもよい。スピーカやディスプレイは、被写体までの距離に関する音声または画像を出力する。スピーカやディスプレイは、測距装置１と有線または無線で接続されている。さらに、移動体９は、画像処理部１２からの被写体までの距離に関する情報が入力される発光部を有していていもよい。発光部は、例えば、画像処理部１２からの被写体までの距離に応じて点灯したり消灯したりする。

また、例えば、移動体９がドローンである場合、上空から、地図（物体の三次元形状）の作成、ビルや地形の構造調査、ひび割れや電線破断等の点検等が行われる際に、撮像部１１は対象を撮影した画像を取得し、被写体までの距離が閾値以上であるか否かを判定する。制御信号生成部１４は、この判定結果に基づいて、点検対象との距離が一定になるようにドローンの推力を制御するための制御信号を生成する。ここで、推力には揚力も含まれる。駆動機構１５が、この制御信号に基づいてドローンを動作させることにより、ドローンを点検対象に並行して飛行させることができる。移動体９が監視用のドローンである場合、監視対象の物体との距離を一定に保つようにドローンの推力を制御するための制御信号を生成してもよい。

また、ドローンの飛行時に、撮像部１１は地面方向を撮影した画像を取得し、地面との距離が閾値以上であるか否かを判定する。制御信号生成部１４は、この判定結果に基づいて、地面からの高さが指定された高さになるようにドローンの推力を制御するための制御信号を生成する。駆動機構１５が、この制御信号に基づいてドローンを動作させることにより、ドローンを指定された高さで飛行させることができる。農薬散布用ドローンであれば、ドローンの地面からの高さを一定に保つことで、農薬を均等に散布しやすくなる。

また、移動体９がドローンまたは自動車である場合、ドローンの連携飛行や自動車の連隊走行時に、撮像部１１は、周囲のドローンや前方の自動車を撮影した画像を取得し、そのドローンや自動車までの距離が閾値以上であるか否かを判定する。制御信号生成部１４は、この判定結果に基づいて、その周囲のドローンや前方の自動車との距離が一定になるように、ドローンの推力や自動車の速度を制御するための制御信号を生成する。駆動機構１５が、この制御信号に基づいてドローンや自動車を動作させることにより、ドローンの連携飛行や自動車の連隊走行を容易に行うことができる。移動体９が自動車である場合、ドライバーが閾値を設定できるように、ユーザインタフェースを介してドライバーの指示を受理することで、閾値を変化させてもよい。これにより、ドライバーが好む車間距離で自動車を走行させられる。あるいは、前方の自動車との安全な車間距離を保つために、自動車の速度に応じて閾値を変化させてもよい。安全な車間距離は、自動車の速度によって異なる。そこで、自動車の速度が速いほど閾値を長く設定することができる。また、移動体９が自動車である場合に、進行方向の所定の距離を閾値に設定しておき、その閾値の手前に物体が現れた場合にブレーキが自動で作動したり、エアバック等の安全装置が自動で作動したりする制御信号生成部１４を構成するとよい。この場合、自動ブレーキやエアバック等の安全装置が駆動機構１５に設けられる。

以上説明したように、本実施形態によれば、一つのカメラで一度に撮像された画像からのロバストな距離検出が可能であるため、例えば、自動車、ドローン、ロボット等の各種の移動体９の動作を容易に制御することができる。
また、本実施形態に記載された様々な機能の各々は、回路（処理回路）によって実現されてもよい。処理回路の例には、中央処理装置（ＣＰＵ）のような、プログラムされたプロセッサが含まれる。このプロセッサは、メモリに格納されたコンピュータプログラム（命令群）を実行することによって、記載された機能それぞれを実行する。このプロセッサは、電気回路を含むマイクロプロセッサであってもよい。処理回路の例には、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、マイクロコントローラ、コントローラ、他の電気回路部品も含まれる。本実施形態に記載されたＣＰＵ以外の他のコンポーネントの各々もまた処理回路によって実現されてもよい。

また、本実施形態の各種処理はコンピュータプログラムによって実現することができるので、このコンピュータプログラムを格納したコンピュータ読み取り可能な記憶媒体を通じてこのコンピュータプログラムをコンピュータにインストールして実行するだけで、本実施形態と同様の効果を容易に実現することができる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１…画像処理装置、１１…撮像部、１２…画像処理部、２１…フィルタ、２２…レンズ、２３…イメージセンサ、１２１…画像取得部、１２２…距離取得部、１２２Ａ…統計モデル、１２３…出力部、２１１…第１フィルタ領域、２１２…第１フィルタ領域、２３１…第１センサ、２３２…第２センサ、２３３…第３センサ。

Claims

単一の結像光学系による一度の撮像によって得られる、非対称の第１形状のぼけを含む被写体の第１画像と、非対称の第２形状のぼけを含む前記被写体の第２画像とを取得する画像取得部と、
前記第１画像および前記第２画像を入力し、事前に学習された統計モデルによって、前記被写体までの距離情報を取得する距離取得部と、
を具備する画像処理装置。
前記結像光学系は、第１波長帯域の光を透過し、第２波長帯域の光を遮蔽する第１フィルタ領域と、前記第１波長帯域の光を遮蔽し、前記第２波長帯域の光を透過する第２フィルタ領域とを有するフィルタを被写体光の光路上に備え、
前記第１画像は、前記第１波長帯域の光を受光して被写体像を結像する第１イメージセンサによって撮像され、
前記第２画像は、前記第１フィルタ領域および前記第２フィルタ領域を透過する第３波長帯域の光を受光して被写体像を結像する第２イメージセンサまたは前記第２波長帯域の光を受光して被写体像を結像する第３イメージセンサによって撮像される、
請求項１に記載の画像処理装置。
前記統計モデルは、ニューラルネットワークまたはランダムフォレストである請求項１または２に記載の画像処理装置。
前記距離取得部は、前記第１画像および前記第２画像から局所領域を抽出し、前記局所領域の前記第１画像および前記第２画像の情報を前記統計モデルに入力して、前記局所領域内の距離情報を取得する請求項１乃至３のいずれか１項に記載の画像処理装置。
前記統計モデルに入力される前記第１画像および前記第２画像の情報は、各画素の隣接する画素との画素値の差分を示す情報である請求項４に記載の画像処理装置。
前記距離取得部は、前記第１画像および前記第２画像の情報とともに、前記局所領域の位置情報を前記統計モデルに入力する請求項４または５に記載の画像処理装置。
前記位置情報は、前記第１画像上および前記第２画像上における前記局所領域の中心点の座標を示す情報である請求項６に記載の画像処理装置。
前記統計モデルは、前記第１画像および前記第２画像の少なくとも１画素以上について前記被写体までの距離を推定して前記距離情報を出力し、かつ、前記推定した距離の不確実性情報を出力する請求項１乃至７のいずれか１項に記載の画像処理装置。
前記距離取得部は、閾値以上の不確実性を示す前記不確実性情報とともに前記統計モデルから出力された距離情報を破棄する請求項８に記載の画像処理装置。
前記距離取得部は、閾値以上の不確実性を示す前記不確実性情報とともに前記統計モデルから出力された距離情報を、前記閾値未満の不確実性を示す前記不確実性情報とともに前記統計モデルから出力された前記第１画像上および前記第２画像上における周辺の距離情報を用いて補正する請求項８に記載の画像処理装置。