JP7379299B2

JP7379299B2 - 位置姿勢推定装置、位置姿勢推定方法及びプログラム

Info

Publication number: JP7379299B2
Application number: JP2020144877A
Authority: JP
Inventors: 佑典田副; 智也鶴山; 晃仁関
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2020-08-28
Filing date: 2020-08-28
Publication date: 2023-11-14
Anticipated expiration: 2040-08-28
Also published as: US11710253B2; US20220067961A1; JP2022039719A

Description

本発明の実施形態は、位置姿勢推定装置、位置姿勢推定方法及びプログラムに関する。

近年、例えば自動車及びロボットのような移動体に設置された撮像装置（例えば、カメラ）によって撮像された画像から、当該移動体（撮像装置）の位置及び姿勢を推定する技術（以下、位置姿勢推定技術と表記）が知られている。

このような位置姿勢推定技術は、例えば移動体の効率的な移動経路を生成するような用途に利用することが可能である。

ところで、現実の空間内を移動体が移動する場合において当該移動体の移動経路を生成（決定）するためには、位置姿勢推定技術によって推定される移動体の位置及び姿勢が実スケールに基づいている必要がある。

具体的には、上記した位置姿勢推定技術によれば、例えば起点となる位置からの移動体の位置及び姿勢（つまり、移動距離及び撮像装置の向き）を得ることができるが、このような移動体の位置及び姿勢が実スケールに基づいていない場合には、当該移動体の移動距離の単位（スケール）が不定であるため、当該移動体の移動経路を適切に生成することが困難である。

特開２０１９－０１１９７１号公報

そこで、本発明が解決しようとする課題は、実スケールに基づく移動体の位置及び姿勢を容易に推定することが可能な位置姿勢推定装置、位置姿勢推定方法及びプログラムを提供することにある。

実施形態に係る位置姿勢推定装置は、取得手段と、第１推定手段と、第２推定手段と、補正手段とを具備する。前記取得手段は、移動体に設置された撮像装置によって連続的に撮像された第１及び第２画像を含む時系列の画像を取得する。前記第１推定手段は、前記第１及び第２画像に基づいて、前記第１画像が撮像された時点の前記移動体の第１位置及び姿勢からの当該移動体の移動を推定し、当該推定された移動に基づいて、前記第２画像が撮像された時点の前記移動体の第２位置及び姿勢を推定する。前記第２推定手段は、前記第１及び第２画像に含まれる被写体までの距離を推定する。前記補正手段は、前記推定された距離に基づいて、前記推定された第２位置及び姿勢を実スケールに基づく第３位置及び姿勢に補正する。前記第２推定手段は、光学系の収差の影響を受けた第３画像に生じる当該第３画像中の被写体までの距離に応じて非線形に変化するぼけを学習することによって生成された第１統計モデルに前記第１及び第２画像を入力することによって当該第１統計モデルから出力される距離を前記推定された距離として取得する。

第１実施形態に係る位置姿勢推定装置において推定される移動体の位置及び姿勢の概要を説明するための図。位置姿勢推定装置のシステム構成の一例を示す図。位置姿勢推定装置の機能構成の一例を示すブロック図。位置姿勢推定装置の処理手順の一例を示すフローチャート。位置姿勢推定処理の処理手順の一例を示すフローチャート。撮像装置の構成の一例を示す図。距離推定処理の概要について説明するための図。単レンズを用いた場合における被写体までの距離と色収差により画像に生じるぼけとの関係性を示す図。色消しレンズを用いた場合における被写体までの距離と色収差により画像に生じるぼけとの関係性を示す図。撮像装置の光学系に備えられている絞り機構の開口部の大きさとＰＳＦ形状との関係性を示す図。各チャネルの画像に生じるＰＳＦ形状の一例を示す図。各チャネルの画像に生じるＰＳＦ形状の別の例を示す図。画像中の各位置に生じるＰＳＦ形状の一例を示す図。レンズの種別に応じたＰＳＦ形状の位置依存性について具体的に説明するための図。ＰＳＦ形状の非線形性と絞り機構の開口部の形状との関係を表す図。距離を推定する動作の概要を示す図。対象画像から距離を推定する第１方式を説明するための図。第１方式において統計モデルに入力される情報の一例を示す図。対象画像から距離を推定する第２方式を説明するための図。第２方式において統計モデルに入力される情報の一例を示す図。対象画像から距離を推定する第３方式を説明するための図。統計モデルの学習方法の一例を示す図。画像から推定される被写体までの距離について具体的に説明するための図。統計モデルを生成する処理の処理手順の一例を示すフローチャート。距離推定処理の処理手順の一例を示すフローチャート。位置姿勢補正処理の処理手順の一例を示すフローチャート。第２実施形態に係る位置姿勢推定装置の機能構成の一例を示すブロック図。位置姿勢推定装置の処理手順の一例を示すフローチャート。第３実施形態に係る位置姿勢推定装置の機能構成の一例を示すブロック図。位置姿勢推定装置の処理手順の一例を示すフローチャート。

以下、図面を参照して、各実施形態について説明する。
（第１実施形態）
まず、第１実施形態について説明する。本実施形態においては、現実の空間内を移動体が移動（自律走行）する場合を想定しており、当該移動体には撮像装置が設置されている。

ここで、本実施形態において、撮像装置が設置される移動体としては例えば自動車等を想定しているが、自律的に移動するものであればロボットまたはドローンのような無人航空機（飛行体）等であってもよい。

また、移動体に設置される撮像装置は、例えばレンズ及びイメージセンサを備える単眼カメラであり、画像を撮像するために用いられる。なお、撮像装置は、例えば魚眼カメラ等であってもよい。撮像装置は、例えば移動体の進行方向に存在する被写体（観察物）を含む画像を撮像する位置に設置されている。

本実施形態に係る位置姿勢推定装置は、上記した移動体に設置されている撮像装置と通信可能に接続されており、当該撮像装置によって撮像された画像に基づいて、当該移動体の位置及び姿勢を推定するために用いられる。

なお、本実施形態において、位置姿勢推定装置によって推定される移動体の位置及び姿勢には、例えば起点となる位置からの移動体の位置及び姿勢（の変化）が含まれる。すなわち、本実施形態において「移動体の位置及び姿勢を推定する」とは、当該移動体の移動距離及び撮像装置の向き（移動方向）を推定することを含む概念である。

ここで、上記した位置姿勢推定装置によって推定される移動体の位置及び姿勢は、例えば当該移動体が現実の空間内を移動する際の当該移動体の移動経路を決定する際に利用することができるが、この場合における移動体の位置及び姿勢は実スケールに基づいている必要がある。

しかしながら、例えばＧＰＳ（Global Positioning System）機能等の利用が制限されているような環境下において、上記したように画像に基づいて実スケールに基づく移動体の位置及び姿勢を推定するためには、ＡＲ（Augmented Reality）マーカ及びチェッカーボードのような既知の物体（被写体）、または予め辞書データに登録した被写体（の３次元形状）を含む画像を撮像する必要がある。

また、撮像装置によって撮像される被写体を限定しない場合には、慣性計測装置（ＩＭＵ：Inertial Measurement Unit）のような物理量を直接計測することが可能なセンサとフュージョンする必要がある。

更に、例えば複数の撮像装置（カメラ）または複数のセンサを移動体に設置することによって実スケールに基づく移動体の位置及び姿勢を推定することは可能であるが、このような構成の場合には、複数の撮像装置または複数のセンサを設置するためのスペースを移動体に確保しなければならない上に、当該複数の撮像装置及び複数のセンサ間でデータを同期する必要がある。

そこで、本実施形態においては、単眼カメラである撮像装置によって撮像された画像を用いて、実スケールに基づく移動体の位置及び姿勢を容易に推定することが可能な位置姿勢推定装置を提供する。

図１は、本実施形態に係る位置姿勢推定装置において推定される移動体の位置及び姿勢の概要を説明するための図である。

ここでは、図１に示すように、移動体（自動車）１に撮像装置（単眼カメラ）２が設置されており、当該移動体１が移動している間に当該撮像装置２が連続的に画像を撮像する場合を想定する。

ここで、時刻ｔにおいて撮像装置２によって撮像された画像及び時刻ｔ１において撮像装置２によって撮像された画像から、時刻ｔから時刻ｔ１の間に移動した移動体１の位置及び姿勢（つまり、移動距離及び撮像装置２の向き）を推定することができる。

しかしながら、このように推定された移動体１の位置及び姿勢は実スケールに基づくものではない場合がある。

このため、本実施形態においては、時刻ｔにおいて撮像装置２によって撮像された画像に含まれる被写体３までの距離及び時刻ｔ＋１において撮像装置２によって撮像された画像に含まれる被写体３までの距離を推定し、当該推定された距離に基づいて移動体１の位置及び姿勢を実スケール化（つまり、補正）する。

なお、本実施形態において、実スケールとは現実空間で用いられる単位を含む概念であり、例えば実スケールに基づく位置及び姿勢とは現実空間で用いられる単位に基づいて定められる位置及び姿勢（移動距離及び撮像装置２の向き）を意味している。

以下、本実施形態に係る位置姿勢推定装置について詳細に説明する。本実施形態において、位置姿勢推定装置は、例えばパーソナルコンピュータ等の情報処理装置（電子機器）であるが、撮像装置２とともに移動体１に搭載されるように構成されていてもよい。

図２は、位置姿勢推定装置１０のシステム構成の一例を示す。位置姿勢推定装置１０は、ＣＰＵ１１、不揮発性メモリ１２、ＲＡＭ１３及び通信デバイス１４等を備える。なお、ＣＰＵ１１、不揮発性メモリ１２、ＲＡＭ１３及び通信デバイス１４は、バス１５を介して相互に接続されている。

ＣＰＵ１１は、位置姿勢推定装置１０内の様々なコンポーネントの動作を制御するためのプロセッサである。ＣＰＵ１１は、単一のプロセッサであってもよいし、複数のプロセッサで構成されていてもよい。ＣＰＵ１１は、不揮発性メモリ１２からＲＡＭ１３にロードされる様々なプログラムを実行する。これらプログラムは、オペレーティングシステム（ＯＳ）や様々なアプリケーションプログラムを含む。このようにＣＰＵ１１によって実行されるアプリケーションプログラムには、移動体１の位置及び姿勢を推定するための位置姿勢推定プログラム１３Ａが含まれる。

不揮発性メモリ１２は、補助記憶装置として用いられる記憶媒体である。ＲＡＭ１３は、主記憶装置として用いられる記憶媒体である。図２においては不揮発性メモリ１２及びＲＡＭ１３のみが示されているが、位置姿勢推定装置１０は、例えばＨＤＤ（Hard Disk Drive）及びＳＳＤ（Solid State Drive）等の他の記憶装置を備えていてもよい。

通信デバイス１４は、有線通信または無線通信を実行するように構成されたデバイスである。位置姿勢推定装置１０は、この通信デバイス１４を介して撮像装置２との通信を実行し、当該撮像装置２によって撮像された画像を受信（取得）することができる。

図２においては省略されているが、位置姿勢推定装置１０は、例えばマウスまたはキーボードのような入力デバイス及びディスプレイのような表示デバイスを更に備えていてもよい。

図３は、位置姿勢推定装置１０の機能構成の一例を示すブロック図である。図３に示すように、位置姿勢推定装置１０は、撮像装置２と通信可能に接続されており、画像取得部１０１、位置姿勢推定部１０２、距離推定部１０３及び位置姿勢補正部１０４を含む。

本実施形態において、位置姿勢推定装置１０に含まれる各部１０１～１０４の一部または全ては、ＣＰＵ１１（つまり、位置姿勢推定装置１０のコンピュータ）に位置姿勢推定プログラム１３Ａを実行させること、すなわち、ソフトウェアによって実現されるものとする。なお、位置姿勢推定プログラム１３Ａは、コンピュータ読み取り可能な記憶媒体に格納して頒布されてもよいし、ネットワークを通じて位置姿勢推定装置１０にダウンロードされてもよい。

ここでは、ＣＰＵ１１に位置姿勢推定プログラム１３Ａを実行させるものとして説明したが、各部１０１～１０４の一部または全ては、例えばＩＣ（Integrated Circuit）等のハードウェアによって実現されてもよいし、ソフトウェア及びハードウェアの組み合わせによって実現されてもよい。

画像取得部１０１は、撮像装置２によって撮像された被写体３を含む画像を当該撮像装置２から取得（受信）する。なお、画像取得部１０１は、撮像装置２によって連続的に撮像された時系列の画像（少なくとも２つの画像）を取得する。

位置姿勢推定部１０２は、画像取得部１０１によって取得された時系列の画像に基づいて、当該画像を撮像した撮像装置２が設置されている移動体１の位置及び姿勢を推定する。

距離推定部１０３は、画像取得部１０１によって取得された時系列の画像の各々に含まれる被写体（画像に投影される観測物）３までの距離を推定する。なお、距離推定部１０３によって推定される被写体３までの距離は、実スケールに基づく距離（現実空間で用いられる単位に基づく距離）である。

ここで、上記した位置姿勢推定部１０２によって推定された移動体１の位置及び姿勢は、実スケールに基づいておらず、例えば起点となる位置からの相対的な位置及び姿勢を示すものである。

このため、本実施形態において、位置姿勢補正部１０４は、距離推定部１０３によって推定された距離に基づいて、位置姿勢推定部１０２によって推定された移動体１の位置及び姿勢を実スケールに基づく位置及び姿勢に補正する（つまり、位置姿勢推定部１０２によって推定された移動体１の位置及び姿勢を実スケール化する）。

次に、図４のフローチャートを参照して、本実施形態に係る位置姿勢推定装置１０の処理手順の一例について説明する。

まず、位置姿勢推定装置１０において移動体１の位置及び姿勢を推定する場合、当該移動体１に設置されている撮像装置２が起動される。これにより、撮像装置２は、移動体１が移動している間に、当該移動体１の進行方向に存在する被写体３を含む画像を連続的に撮像する。

なお、本実施形態において撮像装置２によって撮像される画像は、例えば赤色（Ｒ）の波長帯域の光を検出することによって生成される画像（Ｒ画像）、緑色（Ｇ）の波長帯域の光を検出することによって生成される画像（Ｇ画像）及び青色（Ｂ）の波長帯域の光を検出することによって生成される画像（Ｂ画像）で構成されたカラー画像（つまり、ＲＧＢの３チャネルで構成された画像）であってもよいし、モノクロ画像（グレースケールで表現された１チャネルの画像）であってもよい。

画像取得部１０１は、撮像装置２によって連続的に撮像された時系列の画像を取得する（ステップＳ１）。ステップＳ１において取得される時系列の画像は、少なくとも２つの画像（フレーム）を含む。以下の説明においては、ステップＳ１において取得された時系列の画像を、便宜的に、対象画像と称する。

ステップＳ１の処理が実行されると、位置姿勢推定部１０２は、対象画像に基づいて、移動体１の位置及び姿勢を推定する処理（以下、位置姿勢推定処理と表記）を実行する（ステップＳ２）。

このステップＳ２においては、例えば対象画像（少なくとも２つの画像の各々）から複数の特徴点を検出し、当該検出された複数の特徴点を当該対象画像間で対応づけることによって移動体１の相対的な位置及び姿勢を推定（算出）する。なお、ステップＳ２において実行される位置姿勢推定処理の詳細については後述する。

また、ステップＳ１の処理が実行されると、距離推定部１０３は、対象画像に含まれる被写体３までの距離を推定する処理（以下、距離推定処理と表記）を実行する（ステップＳ３）。

ステップＳ３においては、例えば対象画像に生じるぼけ（ぼけ情報）を物理的な手掛かりとして被写体３までの距離を推定することができる。なお、ステップＳ３において実行される距離推定処理の詳細については後述する。

ステップＳ２及びＳ３の処理が実行されると、位置姿勢補正部１０４は、ステップＳ３の処理（距離推定処理）が実行されることによって推定された距離に基づいて、ステップＳ２の処理（位置姿勢推定処理）が実行されることによって推定された移動体１の位置及び姿勢を補正する処理（以下、位置姿勢補正処理と表記）を実行する（ステップＳ４）。このステップＳ４の処理（位置姿勢補正処理）が実行されることによって補正された移動体１の位置及び姿勢は、実スケールに基づく移動体１の位置及び姿勢である。なお、位置姿勢補正処理の詳細については後述する。

本実施形態においては、上記した図４に示す処理が実行されることによって単眼カメラである撮像装置２を用いて実スケールに基づく移動体１の位置及び姿勢を得る（推定する）ことができるが、当該図４に示す処理においてステップＳ２の位置姿勢推定処理及びステップＳ３の距離推定処理はそれぞれ独立して（または並列に）実行される。

ここで、例えば移動体１が移動する現実空間内の環境等によっては、撮像装置２によって撮像される画像から移動体１の位置及び姿勢や被写体３までの距離を得る（推定する）ことが困難な場合がある。

しかしながら、本実施形態によれば、位置姿勢推定処理及び距離推定処理が独立して実行される構成であるため、例えばステップＳ１において距離を推定することができない画像が取得されたような場合であっても、ステップＳ２の位置姿勢推定処理が実行されることによって移動体１の位置及び姿勢を推定することができる。同様に、例えばステップＳ１において移動体１の位置及び姿勢を推定することができない画像が取得されたような場合であっても、ステップＳ３の距離推定処理が実行されることによって被写体３までの距離を推定することができる。

なお、位置姿勢推定処理及び距離推定処理の一方のみが実行されたような場合には、ステップＳ４の処理を実行する（つまり、実スケールに基づく移動体１の位置または姿勢を得る）ことはできないが、当該位置姿勢推定処理及び距離推定処理の一方が実行されることによって得られた情報（移動体１の位置及び姿勢または被写体３までの距離）は、他の処理等に利用することができる。

次に、図５のフローチャートを参照して、上記した位置姿勢推定処理（図４に示すステップＳ２の処理）の処理手順の一例について説明する。なお、図５に示す処理は、移動体１の位置及び姿勢を推定するために対象画像に対してＳＬＡＭ（Simultaneous Localization And Mapping）が適用された場合に実行される処理であり、ＳＬＡＭ処理等と称される。

まず、位置姿勢推定部１０２は、対象画像（図４に示すステップＳ１において取得された時系列の画像）から第１キーフレームを探索する（ステップＳ１１）。ステップＳ１１において探索される第１キーフレームは、対象画像（に含まれる複数のフレーム）のうち、移動体１の位置及び姿勢を推定するためのキーとなる画像（フレーム）である。

ここで、ステップＳ１１の処理について説明する。ステップＳ１１においては、まず、対象画像（時系列の画像）のうちの１つのフレーム（以下、対象フレームと表記）から特徴点群が抽出される。なお、本実施形態において、特徴点には、対象フレームにおける局所的な特徴量を用いて検出される当該対象フレーム上のエッジ及び角（コーナー）等が含まれる。このような特徴点は、対象フレームから複数抽出される。また、特徴点を抽出するために用いられる特徴量としては、例えばＯＲＢ、ＢＲＩＥＦ、ＦＡＳＴ、ＡＫＡＺＥまたはＳＩＦＴ等を用いることができる。

次に、対象フレームから抽出された特徴点群に含まれる特徴点の数が予め定められた値（以下、第１閾値と表記）以上であるか否かが判定される。この第１閾値は動的に変更される値であってもよい。

特徴点の数が第１閾値以上であると判定された場合、対象フレームが第１キーフレームとして探索（特定）される。

一方、特徴点の数が第１閾値以上でない（つまり、第１閾値未満である）と判定された場合、対象フレームは第１キーフレームとして認識（探索）されず、対象画像に含まれる他のフレームを対象フレームとして上記した処理が繰り返される。

位置姿勢推定部１０２は、ステップＳ１１において探索された第１キーフレームと、当該第１キーフレームから抽出された特徴点（画像特徴点）とを、当該第１キーフレームに関する情報として保持する（ステップＳ１２）。

次に、位置姿勢推定部１０２は、対象画像から第２キーフレームを探索する（ステップＳ１３）。この場合、第２キーフレームは、対象画像（時系列の画像）に含まれるフレームのうちの上記した第１キーフレームに後続するフレームの中から探索される。なお、ステップＳ１３の処理はステップＳ１１の処理と同様の処理であるため、ここではその詳しい説明を省略する。

位置姿勢推定部１０２は、ステップＳ１３において探索された第２キーフレームと、当該第２キーフレームから抽出された特徴点とを、当該第２キーフレームに関する情報として保持する（ステップＳ１４）。

次に、位置姿勢推定部１０２は、第１キーフレームから抽出された特徴点の各々に対応する第２キーフレームから抽出された特徴点を検出することによって、第１キーフレームと第２キーフレームとの間で、特徴点の対応付け（特徴点追跡）を行う（ステップＳ１５）。なお、特徴点の対応付けは、例えばテンプレートマッチング、Ｌｕｃａｓ－Ｋａｎａｄｅ法またはＳＩＦＴ等を用いることによって実現可能である。以下の説明においては、ステップＳ１５において対応付けられた２つの特徴点を、便宜的に対応点と称する。

ステップＳ１５の処理が実行されると、位置姿勢推定部１０２は、当該ステップＳ１５において対応付けられた対応点の数が予め定められた値（以下、第２閾値と表記）以上であるか否かを判定する（ステップＳ１６）。

対応点の数が第２閾値以上でない（つまり、第２閾値未満である）と判定された場合（ステップＳ１６のＮＯ）、ステップＳ１３に戻って処理が繰り返される。この場合、ステップＳ１３において新たな第２キーフレームが探索される。なお、ステップＳ１１に戻って処理が繰り返されることによって、第２キーフレームだけでなく、第１キーフレームも再度探索されるようにしてもよい。

一方、対応点の数が第２閾値以上であると判定された場合（ステップＳ１６のＹＥＳ）、位置姿勢推定部１０２は、対応点群間の変位が予め定められた値（以下、第３閾値と表記）以上であるか否かを判定する（ステップＳ１７）。この場合、位置姿勢推定部１０２は、例えば対応点（２つの特徴点）間の変位を対応点毎に算出し、当該算出された変位の総和が第３閾値以上であるか否かを判定する。

対応点群間の変位が第３閾値以上でない（つまり、第３閾値未満である）と判定された場合（ステップＳ１７のＮＯ）、ステップＳ１３に戻って処理が繰り返される。なお、上記したようにステップＳ１１に戻って処理が繰り返される構成であってもよい。

対応点群間の変位が第３閾値以上であると判定された場合（ステップＳ１７のＹＥＳ）、位置姿勢推定部１０２は、上記した対応点を用いて、移動体１の位置及び姿勢を推定（算出）する（ステップＳ１８）。

このステップＳ１８においては、例えば複数の特徴点のカメラ座標（第１及び第２キーフレーム上の座標）の組に基づく基本行列、基礎行列または射影変換行列等を用いて、移動体１の位置及び姿勢を算出することが可能である。この場合、例えば第１キーフレーム（に対応する画像）が撮像された時点の移動体１の位置及び姿勢から、第２キーフレーム（に対応する画像）が撮像された時点の移動体１の位置及び姿勢への移動体１の移動を推定し、当該推定された移動に基づいて、移動体１の相対的な位置及び姿勢が推定される。

位置姿勢推定部１０２は、上記した図５に示す処理（ＳＬＡＭ処理）を実行することによって、少なくとも２つの画像（第１及び第２キーフレーム）の各々から検出された複数の特徴点を当該２つの画像間で対応付けることによって算出される相対的な位置及び姿勢を、移動体１の位置及び姿勢として推定することができる。

なお、ステップＳ１８において推定される移動体１の位置及び姿勢は、例えば３次元空間中の座標（つまり、３次元座標）と回転（向き）とを表す４元数の組み合わせによって表現される。

ただし、例えば移動体１の移動が平面上で行われる（つまり、移動体１が床面でのみ移動する）と仮定することができる場合には、並進に関する２自由度と、回転に関する１自由度とを合わせた３自由度で移動体１の位置及び姿勢が表現されてもよい。

また、例えば３次元空間中の移動体１の位置及び姿勢を表現するために、上記した４元数の代わりに回転行列、回転軸及び回転方向を表すベクトル、またはオイラー角等を用いても構わない。

上記した図５に示す処理によれば移動体１の位置及び姿勢を推定することが可能であるが、当該処理においては、例えば上記した各特徴点（各対応点）の３次元座標を推定し、当該推定された各特徴点の３次元座標と移動体１の位置及び姿勢とを最適化する処理が更に実行されても構わない。

なお、本実施形態においては、撮像装置２によって撮像された時系列の画像にＳＬＡＭを適用する（つまり、ＳＬＡＭ処理が実行される）ことにより、移動体１の位置及び姿勢を推定する場合について説明したが、当該移動体１の位置及び姿勢は、他の処理が実行されることによって推定されても構わない。

具体的には、例えば対象画像（時系列の画像）に対してＳｆＭ（Structure from Motion）適用することによって、対象画像が撮像されたときの移動体１の位置及び姿勢を推定するようにしてもよい。

次に、上記した距離推定処理（図４に示すステップＳ３の処理）について詳細に説明する。

ここで、図６は、移動体１に設置される撮像装置２の構成の一例を示す。撮像装置２は、上記したように移動体１の進行方向に存在する被写体３を含む画像を撮像するために用いられる。撮像装置２は、レンズ２１とイメージセンサ２２とを備える。レンズ２１及びイメージセンサ２２は、撮像装置２の光学系（単眼カメラ）に相当する。

レンズ２１には、被写体３で反射した光が入射する。レンズ２１に入射した光は、レンズ２１を透過する。レンズ２１を透過した光は、イメージセンサ２２に到達し、当該イメージセンサ２２によって受光（検出）される。イメージセンサ２２は、受光した光を電気信号に変換（光電変換）することによって、複数の画素から構成される画像を生成する。

なお、イメージセンサ２２は、例えばＣＣＤ（Charge Coupled Device）イメージセンサ及びＣＭＯＳ（Complementary Metal Oxide Semiconductor）イメージセンサ等により実現される。イメージセンサ２２は、例えば赤色（Ｒ）の波長帯域の光を検出する第１センサ（Ｒセンサ）２２１、緑色（Ｇ）の波長帯域の光を検出する第２センサ（Ｇセンサ）２２２及び青色（Ｂ）の波長帯域の光を検出する第３センサ（Ｂセンサ）２２３を含む。イメージセンサ２２は、第１～第３センサ２２１～２２３により対応する波長帯域の光を受光して、各波長帯域（色成分）に対応するセンサ画像（Ｒ画像、Ｇ画像及びＢ画像）を生成することができる。すなわち、撮像装置２によって撮像される画像はカラー画像（ＲＧＢ画像）であり、当該画像はＲ画像、Ｇ画像及びＢ画像から構成される。

なお、本実施形態においてはイメージセンサ２２が第１～第３センサ２２１～２２３を含むものとして説明するが、イメージセンサ２２は、第１～第３センサ２２１～２２３のうちの少なくとも１つを含むように構成されていればよい。また、イメージセンサ２２は、第１～第３センサ２２１～２２３に代えて、例えばモノクロ画像を生成するためのセンサを含むように構成されていてもよい。

本実施形態においてレンズ２１を透過した光に基づいて生成された画像（つまり、撮像装置２によって撮像された画像）は、光学系（に含まれるレンズ２１）の収差の影響を受けた画像であり、当該収差により生じるぼけを含む。なお、画像に生じるぼけの詳細については後述する。

図６においては示されていないが、撮像装置２は、例えばレンズ２１の位置を調整することによりピント位置を制御するためのピント調整機構（レンズ駆動回路）及び撮像装置２の光学系に取り込まれる光の量（入光量）を調節するための開口部を有する絞り機構（絞り制御回路）等を更に備えている。

次に、図７を参照して、距離推定処理の概要について説明する。本実施形態において、撮像装置２（イメージセンサ２２）は、上記したように光学系（レンズ２１）の収差の影響を受けた画像を撮像（生成）する。

ここで、本実施形態において、位置姿勢推定装置１０（または距離推定部１０３）内には、被写体３までの距離を撮像装置２によって撮像された画像から推定するために用いられる統計モデルが保持されているものとする。この統計モデルは、上記した光学系の収差の影響を受けた画像に生じる、当該画像に含まれる被写体３までの距離に応じて非線形に変化するぼけを学習することによって生成されている。

なお、統計モデルは、例えばニューラルネットワークまたはランダムフォレスト等の既知の様々な機械学習のアルゴリズムを適用して生成することができるものとする。また、本実施形態において適用可能なニューラルネットワークには、例えば畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）、全結合ニューラルネットワーク及び再帰型ニューラルネットワーク等が含まれていてもよい。

このため、距離推定部１０３は、撮像装置２によって撮像された画像（つまり、対象画像）を取得し、当該画像を統計モデルに入力する。

この場合、距離推定部１０３は、画像が入力された統計モデルから出力される当該画像に含まれる被写体３までの距離を取得する。

このように本実施形態においては、上記した統計モデルを用いて、撮像装置２によって撮像された画像から被写体３までの距離を推定することができる。

ここで、本実施形態において、撮像装置２によって撮像された画像には、上記したように当該撮像装置２の光学系の収差（レンズ収差）に起因するぼけが生じている。

以下、撮像装置２によって撮像された画像に生じるぼけについて説明する。まず、撮像装置２の光学系の収差に起因するぼけのうち、色収差について説明する。

図８は、被写体までの距離と色収差により画像に生じるぼけとの関係性について示している。以下の説明では、撮像装置２においてピントが合う位置をピント位置と称する。

収差のあるレンズ２１を透過する際の光の屈折率は波長帯域毎に異なるため、例えば被写体の位置がピント位置からずれているような場合には、各波長帯域の光が１点に集まらず異なった点に到達する。これが画像上で色収差（ぼけ）として現れる。

図８の上段は、撮像装置２（イメージセンサ２２）に対する被写体の位置がピント位置よりも遠い（つまり、被写体の位置がピント位置よりも奥にある）場合を示している。

この場合、赤色の波長帯域の光４０１に関しては、イメージセンサ２２（第１センサ２２１）において比較的小さいぼけｂ_Ｒを含む画像が生成される。一方、青色の波長帯域の光４０２に関しては、イメージセンサ２２（第３センサ２２３）において比較的大きいぼけｂ_Ｂを含む画像が生成される。なお、緑色の波長帯域の光４０３に関しては、ぼけｂ_Ｒとぼけｂ_Ｂとの中間大きさのぼけを含む画像が生成される。したがって、このような被写体の位置がピント位置よりも遠い状態で撮像された画像においては、当該画像中の被写体の外側に青色のぼけが観察される。

一方、図８の下段は、撮像装置２（イメージセンサ２２）に対する被写体の位置がピント位置よりも近い（つまり、被写体の位置がピント位置よりも手前にある）場合を示している。

この場合、赤色の波長帯域の光４０１に関しては、イメージセンサ２２（第１センサ２２１）において比較的大きいぼけｂ_Ｒを含む画像が生成される。一方、青色の波長帯域の光４０２に関しては、イメージセンサ２２（第３センサ２２３）において比較的小さいぼけｂ_Ｂを含む画像が生成される。なお、緑色の波長帯域の光４０３に関しては、ぼけｂ_Ｒとぼけｂ_Ｂとの中間の大きさのぼけを含む画像が生成される。したがって、このような被写体の位置がピント位置よりも近い状態で撮像された画像においては、当該画像中の被写体の外側に赤色のぼけが観察される。

ここで、図８はレンズ２１が単純な単レンズの例を示しているが、一般的に、撮像装置２においては、例えば色収差補正が施されたレンズ（以下、色消しレンズと表記）が用いられる場合がある。なお、色消しレンズとは、低分散の凸レンズと高分散の凹レンズを組み合わせたレンズであり、色収差を補正するレンズとして最もレンズ枚数が少ないレンズである。

図９は、レンズ２１として上記した色消しレンズを用いた場合における被写体までの距離と色収差により画像に生じるぼけとの関係性を示している。色消しレンズにおいては青色の波長と赤色の波長の焦点位置を揃える設計がされているが、色収差は完全には除去することができない。このため、被写体の位置がピント位置よりも遠い場合には図９の上段に示すように緑色のぼけが発生し、被写体の位置がピント位置よりも近い場合には図９の下段に示すように紫色のぼけが発生する。

なお、図８及び図９の中段は、撮像装置２（イメージセンサ２２）に対する被写体の位置とピント位置とが一致している場合を示している。この場合には、イメージセンサ２２（第１～第３センサ２２１～２２３）においてぼけの少ない画像が生成される。

ここで、撮像装置２（の光学系）には上記したように絞り機構が備えられているが、当該撮像装置２によって撮像された画像に生じるぼけの形状は、当該絞り機構の開口部の大きさによっても異なる。なお、ぼけの形状は、ＰＳＦ（Point Spread Function）形状と称され、点光源が撮像されたときに生じる光の拡散分布を示している。

なお、以下の説明において、焦点距離とは、レンズから、当該レンズに対して平行に光が入射したときに当該光が収束する位置までの距離をいう。また、Ｆ値とは、絞り機構に応じて撮像装置２に取り込まれる光の量を数値化したものである。なお、Ｆ値は、値が小さくなるにつれて、撮像装置２に取り込まれる光の量が多くなる（つまり、開口部の大きさが大きくなる）ことを示す。

図１０の上段は、焦点距離が５０ｍｍのレンズを用いた撮像装置２（の光学系）においてピント位置を１５００ｍｍ、Ｆ値（絞り）をＦ１．８とした場合に当該撮像装置２によって撮像された画像の中央部に生じるＰＳＦ形状を、被写体の位置が撮像装置２から近い順に左から示している。図１０の下段は、焦点距離が５０ｍｍのレンズを用いた撮像装置２（の光学系）においてピント位置を１５００ｍｍ、Ｆ値（絞り）をＦ４とした場合に当該撮像装置２によって撮像された画像に生じるＰＳＦ形状を、被写体の位置が撮像装置２から近い順に左から示している。なお、図１０の上段及び下段の中央は、被写体の位置がピント位置と一致している場合のＰＳＦ形状を示している。

図１０の上段及び下段の対応する位置に示されているＰＳＦ形状は撮像装置２に対する被写体の位置が同一である場合のＰＳＦ形状であるが、当該被写体の位置が同一である場合であっても、上段のＰＳＦ形状（Ｆ値をＦ１．８として撮像した画像に生じるＰＳＦ形状）と下段のＰＳＦ形状（Ｆ値をＦ４として撮像した画像に生じるＰＳＦ形状）とでは形状が異なっている。

更に、図１０の最も左側のＰＳＦ形状と最も右側のＰＳＦ形状に示すように、例えば被写体の位置からピント位置までの距離が同程度である場合であっても、当該被写体の位置がピント位置よりも近い場合と当該被写体の位置がピント位置よりも遠い場合とで、ＰＳＦ形状が異なっている。

なお、上記したように絞り機構の開口部の大きさや撮像装置２に対する被写体の位置に応じてＰＳＦ形状が異なる現象は、各チャネル（ＲＧＢ、Ｒ画像、Ｇ画像及びＢ画像）においても同様に生じる。図１１は、焦点距離が５０ｍｍのレンズを用いた撮像装置２においてピント位置を１５００ｍｍ、Ｆ値をＦ１．８とした場合に当該撮像装置２によって撮像された各チャネルの画像に生じるＰＳＦ形状を、被写体の位置がピント位置よりも近い（手前にある）場合と被写体の位置がピント位置よりも遠い（奥にある）場合とに分けて示している。図１２は、焦点距離が５０ｍｍのレンズを用いた撮像装置２においてピント位置を１５００ｍｍ、Ｆ値をＦ４とした場合に当該撮像装置２によって撮像された各チャネルの画像に生じるＰＳＦ形状を、被写体の位置がピント位置よりも近い場合と被写体の位置がピント位置よりも遠い場合とに分けて示している。

更に、撮像装置２によって撮像された画像に生じるＰＳＦ形状は、当該画像中の位置によっても異なる。

図１３の上段は、焦点距離が５０ｍｍのレンズを用いた撮像装置２においてピント位置を１５００ｍｍ、Ｆ値をＦ１．８とした場合に当該撮像装置２によって撮像された画像中の各位置に生じるＰＳＦ形状を、被写体の位置がピント位置よりも近い場合と被写体の位置がピント位置よりも遠い場合とに分けて示している。

図１３の中段は、焦点距離が５０ｍｍのレンズを用いた撮像装置２においてピント位置を１５００ｍｍ、Ｆ値をＦ４とした場合に当該撮像装置２によって撮像された画像中の各位置に生じるＰＳＦ形状を、被写体の位置がピント位置よりも近い場合と被写体の位置がピント位置よりも遠い場合とに分けて示している。

図１３の上段及び中段に示すように、撮像装置２によって撮像された画像の端部近傍（特に、左上等の角部近傍）においては、例えば画像中央付近に位置するＰＳＦ形状とは異なるＰＳＦ形状を観察することができる。

また、図１３の下段は、焦点距離が１０５ｍｍのレンズを用いた撮像装置２においてピント位置を１５００ｍｍ、Ｆ値をＦ４とした場合に当該撮像装置２によって撮像された画像中の各位置に生じるＰＳＦ形状を、被写体の位置がピント位置よりも近い場合と被写体の位置がピント位置よりも遠い場合とに分けて示している。

上記した図１３の上段及び中段は同一のレンズを用いて撮像された画像に生じるＰＳＦ形状を示しているが、図１３の下段に示すように、焦点距離が異なるレンズを用いた場合には当該レンズに応じた異なるＰＳＦ形状（図１３の上段及び中段とは異なるＰＳＦ形状）が観察される。

次に、図１４を参照して、上記した撮像装置２の光学系に用いるレンズの種別に応じたＰＳＦ形状（レンズの収差）の位置依存性について具体的に説明する。図１４は、焦点距離が異なる複数のレンズの各々を用いて撮像された画像の中央付近（画面中央）及び端部付近（画面端）に生じるＰＳＦ形状を、被写体の位置がピント位置よりも近い場合と被写体の位置がピント位置よりも遠い場合とに分けて示している。

図１４に示すように、画像の中央付近に生じるＰＳＦ形状は、レンズの種別が異なる場合であっても概ね円形で同一であるが、画像の端部付近に生じるＰＳＦ形状は、画像の中央付近に生じるＰＳＦ形状と異なる形状を有し、かつ、レンズの種別に応じてそれぞれ特性（特徴）が異なる。なお、上記した図９において説明した被写体の位置がピント位置よりも近い場合にはＰＳＦ形状のふち付近に紫色のぼけが発生し、被写体の位置がピント位置よりも遠い場合にはＰＳＦ形状のふち付近に緑色のぼけが発生する点については、レンズの種別が異なる場合であっても共通している。

また、図１４においては、焦点距離が５０ｍｍのレンズに関しては２つの例（＃１及び＃２）が示されているが、これは、焦点距離が５０ｍｍで同一であるが、レンズの製造元が異なる（つまり、異なる製品である）ことを示している。焦点距離が８５ｍｍのレンズについても同様である。

ここで、本実施形態においては、画像に生じるぼけを学習することによって生成された統計モデルを用いて被写体３までの距離を推定するが、上記したようにレンズの種別によって特に画像の端部近傍のＰＳＦ形状が大きく異なることから、当該レンズの種別を考慮することなく生成された１つの統計モデルを用いて距離を推定する構成では、画像から推定される距離の精度が低下する場合がある。

このため、本実施形態においては、上記した対象画像に含まれる被写体３までの距離（つまり、撮像装置２に対する被写体３の位置）に応じて非線形に変化するぼけに着目して撮像装置２の光学系に用いられるレンズ毎に生成された統計モデルを用いて、被写体３までの距離を当該撮像装置２によって撮像された画像から推定するものとする。

本実施形態において、被写体３までの距離に応じて非線形に変化するぼけには、上記した図８及び図９において説明した撮像装置２の光学系の色収差により生じるぼけ、図１０～図１２において説明した撮像装置２の光学系に取り込まれる光の量を調節する絞り機構の開口部の大きさ（つまり、Ｆ値）に応じて生じるぼけ、図１３及び図１４において説明した撮像装置２によって撮像された画像中の位置に応じて変化するぼけ等が含まれる。

なお、ＰＳＦ形状は、絞り機構の開口部の形状によっても異なる。ここで、図１５は、ＰＳＦ形状の非線形性（非対称性）と絞り機構の開口部の形状との関係を表している。上記したＰＳＦ形状の非線形性は、絞り機構の開口部の形状が円以外の場合に生じやすい。特に、ＰＳＦ形状の非線形性は、開口部の形状が奇数角形、或いはイメージセンサ２２の水平または垂直軸に対して非対称に配置された偶数角形の場合により生じやすい。

ここで、上記した図１３においては、画像に含まれる被写体までの距離及び当該画像中の位置に依存するＰＳＦ形状（つまり、距離依存性及び位置依存性を有するぼけ）を画像上に表しているが、当該画像の各々は、収差マップと称される。

収差マップは、光学系の収差を受けた画像に生じるぼけであって、当該画像に含まれる被写体までの距離及び当該画像中の位置に依存するぼけの分布を表すマップ形式の情報である。換言すれば、収差マップとは、収差によって生じる画像中のぼけ（つまり、光学系の収差）の距離依存性と位置依存性とを示す情報である。

なお、本実施形態において、収差マップには、当該収差マップによって示される距離依存性及び位置依存性を有するぼけを生じさせるレンズに応じた統計モデル（つまり、当該距離依存性及び位置依存性を有するぼけを学習した統計モデル）が紐づけられている。収差マップは、統計モデルと同様に、位置姿勢推定装置１０（または距離推定部１０３）内に保持されている。

図１６は、本実施形態において対象画像から被写体までの距離を推定する動作の概要を示す。

図１６に示す対象画像５０１に生じるぼけ（ぼけ情報）５０２は、被写体５０３までの距離に関する物理的な手掛かりとなる。具体的には、ぼけの色、ＰＳＦのサイズ及び形状が、被写体５０３までの距離に関する手掛かりとなる。

距離推定部１０３においては、このような物理的な手掛かりである対象画像５０１に生じるぼけ５０２を統計モデルで分析（解析）することによって被写体５０３までの距離５０４を推定する。

以下、本実施形態において統計モデルによって対象画像から距離を推定する方式の一例について説明する。ここでは、第１～第３方式について説明する。

まず、図１７を参照して、第１方式について説明する。第１方式において、距離推定部１０３は、対象画像５０１から局所領域（画像パッチ）５０１ａを抽出する。

この場合、例えば対象画像５０１の全領域をマトリクス状に分割し、当該分割後の部分領域を局所領域５０１ａとして順次抽出するようにしてもよいし、対象画像５０１を認識して、被写体（像）が検出された領域を網羅するように局所領域５０１ａを抽出してもよい。また、局所領域５０１ａは、他の局所領域５０１ａとの間で一部がオーバーラップしていてもよい。

距離推定部１０３は、抽出された局所領域５０１ａ毎に、当該局所領域５０１ａに関する情報（対象画像５０１の情報）を統計モデルへ入力することによって、当該局所領域５０１ａ中の被写体までの距離５０４を推定する。

このように局所領域５０１ａに関する情報が入力される統計モデルは、当該局所領域５０１ａを構成する画素毎に距離を推定する。

ここで、例えば特定の画素が第１局所領域５０１ａ及び第２局所領域５０１ａの両方に属する（つまり、第１局所領域５０１ａ及び第２局所領域５０１ａとの間で当該画素を含む領域がオーバーラップしている）場合、当該画素が第１局所領域５０１ａに属するものとして推定された距離と、当該画素が第２局所領域５０１ａに属するものとして推定された距離とでは異なる場合がある。

このため、例えば上記したように一部がオーバーラップする複数の局所領域５０１ａが抽出されている場合、当該複数の局所領域５０１ａがオーバーラップしている領域を構成する画素の距離は、例えば当該オーバーラップしている一方の局所領域５０１ａの一部の領域（画素）について推定された距離と他方の局所領域５０１ａの一部の領域（画素）について推定された距離との平均値としてもよい。また、一部がオーバーラップする３以上の局所領域５０１ａが抽出されている場合、当該オーバーラップしている３以上の局所領域５０１ａの一部の領域毎に推定された距離による多数決で決定されてもよい。

図１８は、上記した第１方式において統計モデルに入力される局所領域５０１ａに関する情報の一例を示す。

距離推定部１０３は、対象画像５０１に含まれるＲ画像、Ｇ画像及びＢ画像のそれぞれについて、当該対象画像５０１から抽出された局所領域５０１ａの勾配データ（Ｒ画像の勾配データ、Ｇ画像の勾配データ及びＢ画像の勾配データ）を生成する。このように距離推定部１０３によって生成された勾配データが統計モデルに入力される。

なお、勾配データは、各画素と当該画素に隣接する画素との画素値の差分（差分値）を示す。例えば、局所領域５０１ａがｎ画素（Ｘ軸方向）×ｍ画素（Ｙ軸方向）の矩形領域として抽出される場合、当該局所領域５０１ａ内の各画素について算出した例えば右隣の画素との差分値をｎ行×ｍ列のマトリクス状に配置した勾配データが生成される。

統計モデルは、Ｒ画像の勾配データと、Ｇ画像の勾配データと、Ｂ画像の勾配データとを用いて、当該各画像に生じているぼけから距離を推定する。図１８においてはＲ画像、Ｇ画像及びＢ画像の各々の勾配データが統計モデルに入力される場合について示しているが、対象画像５０１（ＲＧＢ画像）の勾配データが統計モデルに入力される構成であってもよい。

次に、図１９を参照して、第２方式について説明する。第２方式においては、第１方式における局所領域５０１ａに関する情報として、当該局所領域（画像パッチ）５０１ａ毎の勾配データ及び対象画像５０１における当該局所領域５０１ａの位置情報が統計モデルに入力される。

位置情報５０１ｂは、例えば局所領域５０１ａの中心点を示すものであってもよいし、左上辺等の予め定められた一辺を示すものであってもよい。また、位置情報５０１ｂとして、局所領域（画像パッチ）５０１ａを構成する画素それぞれの対象画像５０１上での位置情報を用いてもよい。

上記したように位置情報５０１ｂを更に統計モデルに入力することで、例えばレンズ２１の中心部を透過する光によって結像された被写体像のぼけと、当該レンズ２１の端部を透過する光によって結像された被写体像のぼけとの間の差異を考慮して距離を推定することができる。

つまり、この第２方式によれば、ぼけ、距離及び画像上の位置の相関に基づいて対象画像５０１から距離をより確実に推定することができる。

図２０は、上記した第２方式において統計モデルに入力される局所領域５０１ａに関する情報の一例を示す。

例えばｎ画素（Ｘ軸方向）×ｍ画素（Ｙ軸方向）の矩形領域が局所領域５０１ａとして抽出される場合、距離推定部１０３は、当該局所領域５０１ａの例えば中心点に対応する対象画像５０１上のＸ座標値（Ｘ座標データ）と、当該局所領域５０１ａの例えば中心点に対応する対象画像５０１上のＹ座標値（Ｙ座標データ）とを取得する。

第２方式においては、このように距離推定部１０３によって取得されたＸ座標データ及びＹ座標データが、上記したＲ画像、Ｇ画像及びＢ画像の勾配データとともに、統計モデルに入力される。

更に、図２１を参照して、第３方式について説明する。第３方式においては、上記した第１方式及び第２方式のような対象画像５０１からの局所領域（画像パッチ）５０１ａの抽出は行われない。第３方式において、距離推定部１０３は、対象画像５０１の全領域に関する情報（Ｒ画像、Ｇ画像及びＢ画像の勾配データ）を統計モデルに入力する。

局所領域５０１ａ毎に距離５０４を推定する第１方式及び第２方式と比較して、第３方式は、統計モデルによる推定の不確実性が高くなる可能性があるが、距離推定部１０３の負荷を軽減することができる。

以下の説明においては、上記した第１～第３方式において統計モデルに入力される情報を、便宜的に画像に関する情報と称する。

図２２は、本実施形態における統計モデルの学習方法の一例を示す。ここでは、撮像装置２によって撮像された画像を用いた統計モデルの学習について説明するが、当該統計モデルの学習は、例えば撮像装置２の光学系と同様の光学系を有する他のデバイス（カメラ等）によって撮像された画像を用いて行われてもよい。

なお、以下の説明において、距離に応じて非線形に変化するぼけを統計モデルが学習するための画像を、便宜的に、学習用画像と称する。

上記した図１７を参照して説明した第１方式、図１９を参照して説明した第２方式、図２１を参照して説明した第３方式のいずれの方式を用いる場合においても、統計モデルの学習は、基本的に、学習用画像６０１に関する情報を統計モデルに入力することによって当該統計モデルによって推定された距離６０２と正解値６０３との誤差を当該統計モデルにフィードバックすることによって行われる。なお、誤差がフィードバックされた場合、統計モデルのパラメータ（例えば、重み係数）は、当該誤差が減少するように更新される。

上記した対象画像から距離を推定する方式として第１方式が適用される場合には、統計モデルの学習時においても、学習用画像６０１から抽出された局所領域（画像パッチ）毎に、当該局所領域に関する情報（勾配データ）が統計モデルに入力され、当該統計モデルによって各局所領域内の各画素の距離６０２が推定される。このように推定された距離６０２と正解値６０３とが比較されることによって得られる誤差が、統計モデルにフィードバックされる。

同様に、対象画像から距離を推定する方式として第２方式が適用される場合には、統計モデルの学習時においても、学習用画像６０１から抽出された局所領域（画像パッチ）毎に、当該局所領域に関する情報として勾配データ及び位置情報が統計モデルに入力され、当該統計モデルによって各局所領域内の各画素の距離６０２が推定される。このように推定された距離６０２と正解値６０３とが比較されることによって得られる誤差が、統計モデルにフィードバックされる。

また、対象画像から距離を推定する方式として第３方式が適用される場合には、統計モデルの学習時においても、学習用画像６０１の全領域に関する情報（勾配データ）が一括して統計モデルに入力され、当該統計モデルによって当該学習用画像６０１内の各画素の距離６０２が推定される。このように推定された距離６０２と正解値６０３とが比較されることによって得られる誤差が、統計モデルにフィードバックされる。

本実施形態における統計モデルは、例えばピント位置を固定した状態で撮像装置２から被写体までの距離を変化させながら撮像される画像を用いた学習が繰り返し実行されることによって生成される。また、１つのピント位置についての学習が完了した場合には、他のピント位置についても同様に学習を実行することによって、より精度の高い統計モデルを生成することができる。

ここで、図２３を参照して、画像（対象画像または学習用画像）から推定される被写体までの距離について具体的に説明する。

図２３においては、被写体がピント位置よりも近い（手前にある）場合に生じるぼけのサイズをＸ軸上においてマイナスの値で示し、被写体がピント位置よりも遠い（奥にある）場合に生じるぼけのサイズをＸ軸上においてプラスの値で示している。つまり、図２３においては、ぼけの色及びサイズを正負の値で示している。

図２３においては、被写体の位置がピント位置よりも近い場合及び被写体の位置がピント位置よりも遠い場合のいずれの場合においても、被写体がピント位置から離れるほど、ぼけのサイズ（ピクセル）の絶対値が大きくなることが示されている。

図２３に示す例では、画像を撮像した光学系におけるピント位置が約１５００ｍｍである場合を想定している。この場合、例えば約－４．８ピクセルのぼけは光学系から約１０００ｍｍの距離に対応し、０ピクセルのぼけは光学系から１５００ｍｍの距離に対応し、約４．８ピクセルのぼけは光学系から約７５０ｍｍの距離に対応する。

ここでは、便宜的に、ぼけのサイズ（ピクセル）をＸ軸上に示す場合について説明したが、上記した図１０～図１４において説明したように、画像に生じるぼけの形状（ＰＳＦ形状）は、当該被写体がピント位置よりも近い場合と当該被写体がピント位置よりも遠い場合とで異なるし、画像中の位置によっても異なる。このため、図２３においてＸ軸上に示す値は、実際には当該ぼけの形状（ＰＳＦ形状）を反映した値である。

なお、統計モデルの学習時に、学習用画像に関する情報が統計モデルに入力される場合には、当該学習用画像が撮像された際の被写体までの実際の距離に対応する、ぼけの色、サイズ及び形状を正負で示す値（以下、ぼけ値と表記）が正解値として用いられる。このような学習が行われた統計モデルによれば、画像に含まれる被写体までの距離として、上記したぼけ値が出力される。

例えば図２３の線分ｄ１によって示されるように被写体までの距離とぼけの色、サイズ及び形状とは相関があるため、距離を推定することと、ぼけの色、サイズ及び形状を推定することとは同義である。

なお、統計モデルに直接的に距離を推定させる場合と比較して、当該統計モデルにぼけの色、サイズ及び形状を推定させる場合の方が、統計モデルによる推定の精度を高めることができる。この場合、例えばｎ画素（Ｘ軸方向）×ｍ画素（Ｙ軸方向）の局所領域毎に当該局所領域に関する情報が統計モデルに入力される場合、当該統計モデルは、その局所領域を構成する各画素について推定したぼけの色、サイズ及び形状（を示すぼけ値）をｎ行×ｍ列に配列した距離を出力するものとする。

また、統計モデルの学習においては、距離推定部１０３において推定可能な距離の下限値（手前）から上限値（奥）まで極力細かい粒度で被写体を各距離で撮像した学習用画像を用意し、これらの学習用画像に関する情報を統計モデルに入力する。統計モデルの学習において用いられる正解値としては、このような学習用画像が撮像されたときの被写体までの距離に対応するぼけの色、サイズ及び形状を示すぼけ値を用いる。なお、統計モデルの学習には、被写体が異なる様々な学習用画像が用意されることが好ましい。

次に、図２４に示すフローチャートを参照して、距離推定部１０３において用いられる統計モデルを生成する処理の処理手順の一例について説明する。なお、図２４に示す処理は、例えば位置姿勢推定装置１０において実行されてもよいし、他の装置等において実行されてもよい。

まず、予め用意された学習用画像に関する情報が統計モデルに入力される（ステップＳ２１）。この学習用画像は、例えば撮像装置２に備えられるレンズ２１を透過した光に基づいてイメージセンサ２２によって生成された画像であって、撮像装置２の光学系（レンズ２１）の収差の影響を受けた画像である。具体的には、学習用画像には、上記した図８～図１４において説明した被写体までの距離に応じて非線形に変化するぼけが生じている。

なお、学習用画像に生じるぼけと相関がある当該学習用画像を撮像した光学系の情報（例えば、焦点距離、Ｆ値、ピント位置等）については、図２４に示す処理を実行する位置姿勢推定装置１０または他の装置等において把握されているものとする。

対象画像から距離を推定する方式として上記した第１方式が適用される場合には、学習用画像に関する情報として、当該学習用画像の局所領域毎に、Ｒ画像、Ｇ画像及びＢ画像の勾配データが統計モデルに入力される。

対象画像から距離を推定する方式として上記した第２方式が適用される場合には、学習用画像に関する情報として、学習用画像の局所領域毎に、Ｒ画像、Ｇ画像及びＢ画像の勾配データと当該局所領域の学習用画像上における位置情報とが統計モデルに入力される。

対象画像から距離を推定する方式として上記した第３方式が適用される場合には、学習用画像に関する情報として、当該学習用画像の全領域分のＲ画像、Ｇ画像及びＢ画像の勾配データが統計モデルに入力される。

なお、本実施形態においてはＲ画像、Ｇ画像及びＢ画像の勾配データが統計モデルに入力されるものとして説明するが、上記した学習用画像に生じるぼけの形状（ＰＳＦ形状）の観点から距離を推定する場合には、Ｒ画像、Ｇ画像及びＢ画像の勾配データのうちの少なくとも１つの勾配データが統計モデルに入力されればよい。一方、色収差により学習用画像に生じるぼけの色及びサイズの観点から距離を推定する場合には、Ｒ画像、Ｇ画像及びＢ画像の勾配データのうちの少なくとも２つの勾配データが統計モデルに入力されればよい。

統計モデルに対して学習用画像に関する情報が入力されると、統計モデルによって、被写体までの距離が推定される（ステップＳ２２）。この場合、統計モデルにより、学習用画像に生じているぼけが当該学習用画像から抽出され、当該ぼけに応じた距離が推定される。

ステップＳ２において推定された距離は、学習用画像の撮像時に得られている正解値と比較される（ステップＳ２３）。

ステップＳ２３における比較結果（誤差）は、統計モデルにフィードバックされる（ステップＳ２４）。これにより、統計モデルにおいては、誤差が減少する用にパラメータが更新される（つまり、学習用画像に生じているぼけが学習される）。

上記した図２４に示す処理が学習用画像毎に繰り返し実行されることによって、当該学習用画像中の被写体までの距離に応じて非線形に変化するぼけ（の距離依存性及び位置依存性）を学習した統計モデルが生成される。このように生成された統計モデルは、位置姿勢推定装置１０内において保持される。

ここでは１つの統計モデルの学習について説明したが、本実施形態においては、上記したように撮像装置２の光学系に用いられるレンズ毎に統計モデルが用意される。ここで、移動体１に設置される撮像装置２において例えば第１レンズまたは第２レンズが用いられるものとすると、第１レンズに応じた統計モデルは、当該第１レンズを用いた撮像装置２によって撮像される画像（学習用画像）を用いた学習を繰り返すことによって生成される。一方、第２レンズに応じた統計モデルは、当該第２レンズを用いた撮像装置２によって撮像される画像（学習用画像）を用いた学習を繰り返すことによって生成される。他のレンズについても同様である。すなわち、本実施形態においては、例えば撮像装置２の光学系に用いられるレンズを交換しながら学習を繰り返すことによって、当該レンズの各々に応じた統計モデルを生成することができる。

なお、ここでは複数のレンズを交換しながら撮像された画像を学習用画像として利用する場合について説明したが、本実施形態においては、各レンズの焦点距離、Ｆ値、ピント値に応じた距離依存性及び位置依存性を示す複数の収差マップが位置姿勢推定装置１０内に保持されている。この複数の収差マップは複数のレンズの各々を用いて撮像された画像に生じるぼけの分布を表すものであるため、所定の画像にこれらの収差マップが畳み込まれた画像（カラー画像）を学習用画像として利用して、各レンズに応じた統計モデルの学習を行うことも可能である。このような構成によれば、学習用画像を収集する手間を軽減することが可能となる。

次に、図２５のフローチャートを参照して、上記した距離推定処理の処理手順の一例について説明する。なお、以下の説明においては、対象画像を撮像する撮像装置２の光学系に用いられているレンズ２１（つまり、撮像装置２に装着されているレンズ２１）を対象レンズ２１と称する。また、本実施形態において、距離推定処理は、例えば対象画像（時系列の画像）の各々に対して実行されるものとする。

まず、距離推定部１０３は、例えば対象レンズ２１を用いた撮像装置２によって撮像された画像（以下、サンプル画像と表記）から当該対象レンズ２１の収差マップ（ＰＳＦ形状）を推定する（ステップＳ３１）。

ここで、ステップＳ３１において用いられるサンプル画像は、例えば白点画像や白黒ストライプ等のテストパターンを撮像することによって得られる画像（テストパターン画像）であるものとする。この場合、距離推定部１０３は、このようなサンプル画像の各位置に生じているぼけ（ＰＳＦ形状）を抽出することによって対象レンズ２１の収差マップを推定する。サンプル画像は、例えば撮像装置２に備えられているメモリ等に保持されていてもよいし、位置姿勢推定装置１０（または距離推定部１０３）内に保持されていてもよい。

なお、ステップＳ３１においては、サンプル画像全体の収差マップを推定するようにしてもよいし、当該サンプル画像の一部の領域の収差マップを推定するようにしてもよい。また、サンプル画像の一部の領域の収差マップを推定する場合、当該一部の領域は、特徴的な形状のぼけが生じるサンプル画像の端部近傍の領域であってもよい。

次に、距離推定部１０３は、ステップＳ３１において推定された対象レンズ２１の収差マップを、当該距離推定部１０３において保持されている収差マップの各々と照合する（ステップＳ３２）。ステップＳ３２において、距離推定部１０３は、対象レンズ２１の収差マップと、当該距離推定部１０３において保持されている収差マップの各々との類似度を算出し、当該類似度が高い収差マップを特定する。

なお、上記したステップＳ３１及びＳ３２の処理が実行されることによって収差マップが特定されるが、収差マップは、例えば撮像装置２の光学系（対象レンズ２１）の収差を受けた第１サンプル画像（ぼけが生じている画像）と、撮像装置２に取り込まれる光の量を少なくする（つまり、開口部の大きさを小さくする）ことによって得られる収差の影響が少ない第２サンプル画像（ぼけが生じていない画像）とを用いて特定されてもよい。具体的には、第１サンプル画像（デフォーカスした画像）と、第２サンプル画像に対して距離推定部１０３において保持されている収差マップの各々を畳み込むことによって生成される画像との類似度を算出し、当該類似度が高い画像の生成に用いられた収差マップ（当該画像に畳み込まれた収差マップ）を特定するようにしてもよい。

ここで、位置姿勢推定装置１０内に保持されている収差マップの各々は、上記したように統計モデルに紐づけられている。このため、距離推定部１０３は、位置姿勢推定装置１０において保持されている複数の統計モデルの中から、上記したように特定された収差マップに紐づけられている統計モデルを選定する（ステップＳ３３）。ステップＳ３３において選定された統計モデルは、対象レンズ２１を用いた撮像装置２によって撮像された対象画像に対して高い精度で距離を推定可能な統計モデルに相当し、対象レンズ２１に応じた統計モデルとして設定されている。

ステップＳ３３の処理が実行されると、距離推定部１０３は、対象画像に関する情報（勾配データ）を、ステップＳ３３において選定された統計モデルに入力する（ステップＳ３４）。

ステップＳ３４の処理が実行されると、対象画像に含まれる被写体３までの距離が当該統計モデルから出力される。なお、被写体３までの距離は、対象画像を構成する画素毎に出力される。これにより、距離推定部１０３は、対象画像に含まれる被写体３までの距離を推定する（ステップＳ３５）。

なお、図２５に示す処理においては位置姿勢推定装置１０内に保持されている収差マップを用いて統計モデルが選定されるものとして説明したが、距離推定部１０３が対象レンズ２１を把握している場合には、収差マップを用いることなく、当該対象レンズ２１に応じた統計モデルを選定する構成としてもよい。

また、撮像装置２にメモリが備えられている場合において、当該メモリに対象レンズ２１に関するレンズ情報が保持されている場合がある。このレンズ情報は、例えば対象レンズ２１の使用値（カタログ値）に相当し、当該対象レンズ２１の焦点距離やＦ値を含む。また、レンズ情報には、現在のピント位置等の情報が含まれていてもよい。この場合には、このようなレンズ情報を用いて対象レンズ２１を特定し、当該対象レンズ２１に応じた統計モデルを選定する構成とすることも可能である。

更に、対象レンズ２１の製造元（レンズメーカー）から対象レンズ２１の収差マップに相当する収差情報を取得することができる場合がある。この場合には、この収差情報を用いてステップＳ３２に相当する処理を実行することによって統計モデルを選定してもよい。

また、ユーザが手動で焦点距離、Ｆ値及びピント位置を設定し、当該設定された値を用いて統計モデルを選定するようにしてもよい。

なお、本実施形態における距離推定処理（統計モデル）においては対象画像を構成する画素毎に被写体３までの距離が推定されるものとして説明したが、当該被写体３までの距離は、例えば複数の画素から構成される領域毎に推定される構成であってもよい。

更に、ここでは統計モデルを用いて被写体３までの距離を推定するものとして説明したが、本実施形態における距離推定処理においては、例えば撮像装置２の開口部に特殊なカラーフィルタを設ける、当該開口部の形状を加工する、または任意の色収差を得るためにカスタマイズされたレンズを設ける等によって生じるぼけの幅及び色の組み合わせに基づいて被写体３までの距離が推定されてもよい。また、実スケールに基づく被写体３までの距離を推定することが可能であれば、本実施形態において説明した距離推定処理以外の処理が実行されても構わない。

次に、図２６のフローチャートを参照して、上記した位置姿勢補正処理（図４に示すステップＳ４の処理）の処理手順の一例について説明する。

なお、図４に示すように、位置姿勢補正処理が実行される場合には、既に位置姿勢推定処理及び距離推定処理が実行されているが、位置姿勢推定処理においては、上記した図５において説明したように、対象画像（時系列の画像）を構成する第１キーフレーム（に対応する画像）が撮像された時点の移動体１の位置及び姿勢から第２キーフレーム（に対応する画像）が撮像された時点の移動体１の位置及び姿勢への移動体１の移動に基づいて、移動体１の相対的な位置及び姿勢が推定されている。また、距離推定処理においては、対象画像（時系列の画像）の各々に含まれる被写体３までの距離が画素毎に推定されている。

以下、対象画像のうちの第１キーフレームに対応する画像を第１画像、対象画像のうちの第２キーフレームに対応する画像を第２画像と称する。また、第１画像が撮像された時点を時刻ｔ、第２画像が撮像された時点を時刻ｔ＋１とする。

この場合、位置姿勢補正部１０４は、上記した距離推定処理において推定された第１画像に含まれる被写体３までの距離及び第２画像に含まれる被写体３までの距離に基づいて、第１及び第２距離マップを生成する（ステップＳ４１）。

なお、第１距離マップは、第１画像中の被写体３の位置に当該被写体３までの距離を割り当てる（つまり、当該距離に対応する値を当該距離が推定された画素に対応する位置に配置する）ことによって生成されるマップ形式の画像（データ）である。

同様に、第２距離マップは、第２画像中の被写体３の位置に当該被写体３までの距離を割り当てる（つまり、当該距離に対応する値を当該距離が推定された画素に対応する位置に配置する）ことによって生成されるマップ形式の画像（データ）である。

上記した第１及び第２距離マップは、例えば距離を推定する際に物理的な手がかりとして利用したぼけのヒストグラムの信頼区間が輝度値の値域（例えば、０～２５５）に分布されるように正規化した上で、キャリブレーション時に最小及び最大輝度値に相当する実距離を紐づけておく方式で生成することも可能である。また、第１及び第２距離マップは、例えばカメラ設計値（理論値）に基づく方法で生成することも可能である。

また、本実施形態においては、第１及び第２距離マップが位置姿勢補正処理において生成されるものとして説明したが、対象画像の各々に含まれる被写体３までの距離に基づく複数の距離マップは、距離推定処理において生成されていてもよい。

次に、位置姿勢補正部１０４は、ステップＳ４１において生成された第１及び第２距離マップのうちの一方の距離マップ（例えば、第１距離マップ）をワーピング（変形）する（ステップＳ４２）。この第１距離マップのワーピングは、例えば第１及び第２画像に基づく時刻ｔから時刻ｔ＋１までの間のフロー（変形式）に基づいて行われる。

ここで、位置姿勢推定処理において推定されている移動体１の位置及び姿勢は、上記したように第１画像（第１キーフレーム）が撮像された時点（時刻ｔ）の移動体１の位置及び姿勢から第２画像（第２キーフレーム）が撮像された時点（時刻ｔ＋１）の移動体１の位置及び姿勢への移動体１の移動に基づいて推定されたものである。

このため、上記したステップＳ４２において第１距離マップをワーピングするための当該時刻ｔから時刻ｔ＋１までの間のフローとしては、位置姿勢推定処理が実行されることによって推定された移動体１の位置及び姿勢を利用することができる。

この場合、ステップＳ４２においては、第１距離マップに移動体１の位置及び姿勢を適用することによって、当該第１距離マップがワーピングされた距離マップ（以下、第３距離マップと表記）が生成される。

なお、第１距離マップをワーピングする前の画素（位置）をｐ_ｔ、ワーピングした後の当該画素（位置）をｐ_ｓとすると、ｐ_ｓは、以下の式（１）によって求めることができる。

なお、位置姿勢推定処理において推定された移動体１の位置及び姿勢は３次元座標と回転とによって表されるところ、式（１）のＴ_ｔ→ｓは当該並進及び回転を表しており、Ｄ_ｔは画素に割り当てられている距離を表している。また、Ｋは、撮像装置２に対して設定されている既知のパラメータ（カメラパラメータ）である。

ここで、上記したステップＳ４１において第１及び第２距離マップの生成に用いられた距離（つまり、距離推定処理が実行されることによって推定された距離）は実スケールに基づいているところ、上記した位置姿勢推定処理が実行されることによって推定された移動体１の位置及び姿勢が実スケールに基づくものであれば、当該移動体１の位置及び姿勢を適用することによって第１距離マップがワーピングされた第３距離マップは、第２距離マップと等しくなるはずである。

一方、位置姿勢推定処理において推定された移動体１の位置及び姿勢が実スケールに基づいていないのであれば、当該移動体１の位置及び姿勢を適用することによって第１距離マップがワーピングされた第３距離マップは第２距離マップと等しくならず、当該第２距離マップと第３距離マップとの残差は、移動体１の位置及び姿勢の実スケールとのずれに相当するといえる。

このため、位置姿勢補正部１０４は、ステップＳ４１において生成された第２距離マップとステップＳ４２の処理が実行されることによって生成された第３距離マップとを比較し、当該比較結果として当該第２及び第３距離マップの残差を計算する（ステップＳ４３）。第２及び第３距離マップは画素毎に距離が割り当てられた画像であるところ、ステップＳ４３において残差（距離の残差）は、第２及び第３距離マップを構成する画素毎に計算される。

次に、位置姿勢補正部１０４は、ステップＳ４３において計算された残差に基づいて、位置姿勢推定処理において推定された移動体１の位置及び姿勢を実スケールに基づく移動体１の位置及び姿勢に補正する（ステップＳ４４）。なお、ステップＳ４４における移動体１の位置及び姿勢の補正は、ステップＳ４３において画素毎に計算された残差の平均値を用いて実行される。

具体的には、実スケールに基づく移動体１の位置及び姿勢（つまり、補正後の位置及び姿勢）をＲｅａｌＳｃａｌｅＰｏｓｅ（Ｒ_{ｔ→ｔ＋１}，Ｔ_{ｔ→ｔ＋１}）と表現すると、このＲｅａｌＳｃａｌｅＰｏｓｅ（Ｒ_{ｔ→ｔ＋１}，Ｔ_{ｔ→ｔ＋１}）は、以下の式（２）を用いて求められる。

なお、式（２）においてＰｏｓｅ（Ｒ_{ｔ→ｔ＋１}，Ｔ_{ｔ→ｔ＋１}）は位置姿勢推定処理が実行されることによって推定された移動体１の位置及び姿勢（つまり、補正前の位置及び姿勢）を示しており、Ｐ（ｔｚ）は当該移動体１の位置及び姿勢における３次元座標のｚ成分（つまり、奥行き）を示しており、ｄｉｆｆは上記した残差の平均値を表している。

このような式（２）によれば、位置姿勢推定処理において推定された移動体１の位置及び姿勢を実スケール化することが可能となる。

なお、ここでは移動体１の位置及び姿勢を実スケール化するために式（２）が用いられるものとして説明したが、当該移動体１の位置及び姿勢の実スケール化は他の手法によって行われても構わない。

また、図２６に示す位置姿勢補正処理においては、第１距離マップをワーピングすることによって第３距離マップを生成し、当該第３距離マップを第２距離マップと比較するものとして主に説明したが、第２距離マップをワーピングすることによって第３距離マップを生成し、当該第３距離マップを第１距離マップと比較する構成としても構わない。

更に、位置姿勢推定処理が実行されることによって推定された移動体１の位置及び姿勢はステップＳ４３において画素毎に計算された残差の平均値に基づいて補正されるが、当該残差に外れ値（適切でない値）が存在する場合には、例えば残差のヒストグラムにおいて頻度が上位の残差のみをピックアップすることによって外れ値を除外する構成とすることも可能である。また、このような残差における外れ値の除外は、例えばロバスト推定のアルゴリズムであるＲａｎｓａｃを利用して行うようにしてもよい。また、残差計算の際にオクルージョンの影響を考慮する構成とすることも可能である。具体的には、例えば撮像装置２が前進している場合、時刻ｔ→ｔ＋１において撮像装置２から被写体３までの距離はｔ＋１の方が近くなるが、オクルージョンによって距離関係が逆転する場合があるため、そのような画素に対しては残差計算に含めない方法を取ることで実現可能である。

上記したように本実施形態においては、移動体１に設置された撮像装置２によって連続的に撮像された時系列の画像に基づいて、移動体１の位置及び姿勢（第１位置及び姿勢）を推定する位置姿勢推定処理が実行されるとともに、当該時系列の画像に含まれる被写体３までの距離（実スケールに基づく距離）を推定する距離推定処理が実行される。本実施形態において、位置姿勢推定処理が実行されることによって推定された移動体１の位置及び姿勢は、距離推定処理が実行されることによって推定された距離に基づいて、実スケールに基づく移動体１の位置及び姿勢（第２位置及び姿勢）に補正される。

なお、本実施形態においては、時系列の画像が第１及び第２画像を含み、第１画像に含まれる被写体３までの第１距離及び第２画像に含まれる被写体３までの第２距離が推定される。また、第１画像に含まれる被写体３の位置に第１距離が割り当てられた第１距離マップ及び第２画像に含まれる被写体３の位置に第２距離が割り当てられた第２距離マップが生成され、当該第１距離マップに位置姿勢推定処理が実行されることによって推定された移動体１の位置及び姿勢を適用することによって第３距離マップが生成される。この場合、第２距離マップと第３距離マップとの比較結果（つまり、第２距離マップと第３距離マップとの画素毎の距離の残差）に基づいて、位置姿勢推定処理が実行されることによって推定された移動体１の位置及び姿勢を補正することができる。

本実施形態においては、このような構成により、単眼カメラを用いた場合であっても、実スケールに基づく移動体の位置及び姿勢を容易に得る（推定する）ことが可能となり、当該移動体の位置及び姿勢を移動体１の移動経路等の生成に利用することが可能となる。

また、本実施形態においては、例えば少なくとも２つの画像（第１及び第２キーフレーム）から複数の特徴点を検出し、当該検出された複数の特徴点を当該２つの画像間で対応付けることによって算出される相対的な位置及び姿勢を、移動体１の位置及び姿勢として推定する。このような構成によれば、幾何ベースで移動体１の位置及び姿勢を推定することが可能である。

なお、本実施形態においては、例えば少なくとも２つの画像を入力した場合に当該２つの画像間における移動体１の位置及び姿勢の移動に基づく相対的な位置及び姿勢を出力することが可能な深層学習モデル（第２統計モデル）を予め用意しておくことによって、当該深層学習モデルを用いた移動体１の位置及び姿勢の推定を行う（つまり、深層学習ベースで移動体１の位置及び姿勢を推定する）ようにしてもよい。

（第２実施形態）
次に、第２実施形態について説明する。図２７は、本実施形態に係る位置姿勢推定装置の機能構成の一例を示すブロック図である。なお、前述した図３と同様の部分には同一参照符号を付してその詳しい説明を省略する。ここでは、図３と異なる部分について主に述べる。

なお、本実施形態に係る位置姿勢推定装置において推定される移動体の位置及び姿勢の概要及び当該位置姿勢推定装置のハードウェア構成は、前述した第１実施形態と同様であるため、適宜、図１及び図２を用いて説明する。

図２７に示すように、本実施形態に係る位置姿勢推定装置１０は、前述した第１実施形態において説明した画像取得部１０１、位置姿勢推定部１０２、距離推定部１０３及び位置姿勢補正部１０４に加えて、領域抽出部１０５を更に含む。すなわち、本実施形態に係る位置姿勢推定装置１０は、領域抽出部１０５を含む点で前述した第１実施形態とは異なる。

なお、本実施形態において、位置姿勢推定装置１０に含まれる領域抽出部１０５の一部または全ては、ＣＰＵ１１（つまり、位置姿勢推定装置１０のコンピュータ）に位置姿勢推定プログラム１３Ａを実行させること、すなわち、ソフトウェアによって実現されるが、例えばハードウェアによって実現されてもよいし、ソフトウェア及びハードウェアの組み合わせによって実現されてもよい。

ここで、距離推定部１０３は、前述した第１実施形態において説明したように画像取得部１０１によって取得された時系列の画像の各々に含まれる被写体３までの距離を推定する際に、当該推定された距離（実スケールに基づく距離）に対する信頼度を算出する。

領域抽出部１０５は、距離推定部１０３によって算出された信頼度に基づいて、画像取得部１０１によって取得された時系列の画像の各々から信頼度が予め定められた値以上である距離が推定された領域（実スケールに基づく推定距離が高信頼度である領域）を抽出する。

位置姿勢補正部１０４は、領域抽出部１０５によって抽出された領域（に含まれる被写体３までの距離）に基づいて、位置姿勢推定部１０２によって推定された移動体１の位置及び姿勢を実スケールに基づく移動体１の位置及び姿勢に補正する。

次に、図２８のフローチャートを参照して、本実施形態に係る位置姿勢推定装置１０の処理手順の一例について説明する。

まず、前述した図４に示すステップＳ１～Ｓ３の処理に相当するステップＳ５１～Ｓ５３の処理が実行される。

ここで、前述した図４に示すステップＳ３において距離推定処理が実行されると、ステップＳ１において取得された時系列の画像（対象画像）を構成する画素毎に距離が推定されるが、図２８に示すステップＳ５３において実行される距離推定処理においては、当該対象画像を構成する画素毎に距離が推定されるとともに、当該画素毎に信頼度（当該距離に対する信頼度）が算出される。信頼度は距離に対する妥当性を表現する指標であればよく、当該信頼度の算出方法は、特定の方法に限定されない。すなわち、信頼度は、既知の様々な方法を適用して算出することができる。

なお、距離推定処理においては例えば複数の画素から構成される領域毎に距離が推定されてもよいが、この場合には、信頼度も当該領域毎に算出されればよい。この場合、領域毎に算出される信頼度は、当該領域を構成する複数の画素のうちの代表画素について算出された信頼度であってもよいし、当該領域を構成する複数の画素の各々について算出された信頼度の代表値（例えば、平均値等）であってもよい。

ステップＳ５３において実行される距離推定処理は、信頼度が算出される以外の点では前述した図４に示すステップＳ３において実行される距離推定処理と同様であるので、ここではその詳しい説明を省略する。

ステップＳ５３の処理が実行されると、領域抽出部１０５は、ステップＳ５３において距離推定処理が実行されることによって算出された信頼度に基づいて、対象画像（時系列の画像の各々）から高信頼度領域を抽出する（ステップＳ５４）。なお、高信頼度領域とは、例えば予め定められた値（閾値）以上の信頼度が算出された画素を含む領域をいう。具体的には、高信頼度領域は、対象画像を構成する複数の画素のうちの例えば信頼度が閾値未満である画素に対するブール値を０とし、当該ブール値が０である領域をマスク領域として対象画像から分離することで抽出することができる。

次に、位置姿勢補正部１０４は、位置姿勢補正処理を実行する（ステップＳ５５）。この位置姿勢補正処理においては、ステップＳ５４において抽出された高信頼度領域（を構成する画素について推定された距離）に基づいて、ステップＳ５２において位置姿勢推定処理が実行されることによって推定された移動体１の位置及び姿勢が実スケールに基づく移動体１の位置及び姿勢に補正される（つまり、実スケール化される）。

具体的には、前述した第１実施形態における位置姿勢補正処理（図２６に示す処理）においては、第１距離マップをワーピングすることによって生成される第３距離マップと第２距離マップとを比較することによって第２及び第３距離マップを構成する全ての画素について残差が計算されるが、本実施形態においては、第２及び第３距離マップを構成する画素のうち、ステップＳ５４において第１画像から抽出された高信頼度領域以外の領域（マスク領域）を構成する複数の画素及び第２画像から抽出された高信頼度領域以外の領域（マスク領域）を構成する複数の画素について推定された距離については残差を計算しないものとする。

なお、ステップＳ５５において実行される位置姿勢補正処理は、ここで説明した以外の点では前述した図４に示すステップＳ４（図２６に示す処理）と同様であるので、ここではその詳しい説明を省略する。

上記したように本実施形態においては、対象画像に含まれる第１及び第２画像を構成する画素（領域）毎に距離が推定される際に、当該画素毎に推定された距離の各々の信頼度が算出され、当該第１及び第２画像の各々から当該信頼度が予め定められた値以上である距離が推定された領域が抽出される。本実施形態においては、このように第１及び第２画像から抽出された領域に基づいて、位置姿勢推定処理において推定された移動体１の位置及び姿勢（相対的な位置及び姿勢）が実スケールに基づく位置及び姿勢に補正される。

本実施形態においては、上記したように信頼度が高い距離に基づいて移動体１の位置及び姿勢を補正する構成であるため、実スケールに基づくより精度の高い移動体１の位置及び姿勢を得ることが可能となる。

（第３実施形態）
次に、第３実施形態について説明する。図２９は、本実施形態に係る位置姿勢推定装置の機能構成の一例を示すブロック図である。なお、前述した図３と同様の部分には同一参照符号を付してその詳しい説明を省略する。ここでは、図３と異なる部分について主に述べる。

図２９に示すように、本実施形態に係る位置姿勢推定装置１０は、前述した第１実施形態において説明した画像取得部１０１、位置姿勢推定部１０２及び位置姿勢補正部１０４に加えて、第１距離推定部１０６、第２距離推定部１０７及び距離補正部１０８を更に含む。すなわち、本実施形態に係る位置姿勢推定装置１０は、第１距離推定部１０６、第２距離推定部１０７及び距離補正部１０８を含む点で前述した第１実施形態とは異なる。

なお、本実施形態において、位置姿勢推定装置１０に含まれる第１距離推定部１０６、第２距離推定部１０７及び距離補正部１０８の一部または全ては、ＣＰＵ１１（つまり、位置姿勢推定装置１０のコンピュータ）に位置姿勢推定プログラム１３Ａを実行させること、すなわち、ソフトウェアによって実現されるが、例えばハードウェアによって実現されてもよいし、ソフトウェア及びハードウェアの組み合わせによって実現されてもよい。

第１距離推定部１０６は、画像取得部１０１によって取得された時系列の画像の各々に含まれる被写体３までの距離を推定する。なお、距離推定部１０３によって推定される被写体３までの距離は、実スケールに基づく距離である。

第２距離推定部１０７は、画像取得部１０１によって取得された時系列の画像の各々含まれる被写体３までの距離を推定する。なお、距離推定部１０３によって推定される被写体３までの距離は、スケールが不定な距離（以下、スケール不定の距離と表記）である。本実施形態において、スケール不定の距離とは、当該距離の単位（スケール）が定められていないことを意味し、前述した現実空間で用いられる単位に基づく距離（実スケールに基づく距離）ではないものをいう。

なお、本実施形態において、第１距離推定部１０６は、前述した第１実施形態における距離推定部１０３に相当する機能部であり、前述した第１実施形態において説明した距離推定部１０３と同様の方式で被写体３までの距離を推定するものとする。一方、第２距離推定部１０７は、第１距離推定部１０６とは異なる方式で被写体３までの距離を推定するものとする。

距離補正部１０８は、第２距離推定部１０７によって推定された距離（スケール不定の距離）を第１距離推定部１０６によって推定された距離（実スケールに基づく距離）を用いて補正する（実スケール化する）。

次に、図３０のフローチャートを参照して、本実施形態に係る位置姿勢推定装置１０の処理手順の一例について説明する。

まず、前述した図４に示すステップＳ１及びＳ２の処理に相当するステップＳ６１及びＳ６２の処理が実行される。

また、ステップＳ６１の処理が実行されると、第１距離推定部１０６は、対象画像（時系列の画像の各々）に含まれる被写体３までの距離を推定する処理（以下、第１距離推定処理と表記）を実行する（ステップＳ６３）。なお、このステップＳ６３において実行される第１距離推定処理は前述した第１実施形態において説明した距離推定処理と同様であるため、ここではその詳しい説明を省略する。

更に、ステップＳ６１の処理が実行されると、第２距離推定部１０７は、対象画像（時系列の画像の各々）に含まれる被写体３までの距離を推定する処理（以下、第２距離推定処理と表記）を実行する（ステップＳ６４）。

なお、この第２距離推定処理は上記した第１距離推定処理とは異なる方式で被写体３までの距離（スケール不定の距離）を推定する処理であればよいが、当該第２距離推定処理においては、第１距離推定処理と同様に、画素毎に距離が推定されるものとする。ただし、第１距離推定処理において例えば複数の画素から構成される領域毎に距離が推定される場合には、第２距離推定処理においても当該領域毎に距離が推定されればよい。すなわち、第２距離推定処理は、第１距離推定処理と同程度の密度で対象画像に含まれる被写体の距離を推定可能であればよい。

具体的には、第２距離推定処理においては、例えば対象画像のコンテクスト情報（対象画像中の線分や色の分布等に関する特徴量または被写体の形状等）を距離の手掛かりとして、１つの画像から距離を推定することが可能な深層学習ベースの推定方式が採用されていてもよい。

また、第２距離推定処理においては、例えば対象画像に含まれる連続する２つの画像間のオプティカルフロー（移動体１が移動することによって生じる被写体の視覚的な流れ）を距離の手掛かりとして、当該２つの画像から距離を推定することが可能な深層学習ベースの推定方式が採用されていてもよい。

すなわち、本実施形態においては、対象画像（時系列の画像）のうちの少なくとも１つの画像を入力することによってスケール不定の距離を出力する深層学習モデルを用いて、当該対象画像に含まれる被写体３までの距離を推定する構成とすることができる。なお、このような深層学習モデルは、距離マップの形式（つまり、マップ形式）で被写体３までの距離を出力するように構築されていてもよい。

また、第２距離推定処理においては、ここで説明した以外の推定方式が採用されていてもよい。

ここで、上記した第１距離推定処理（前述した第１実施形態において説明した距離推定処理）が実行されることによって推定される距離は、比較的高い精度を有する実スケールに基づく距離であるが、当該画素毎に推定される距離の中には精度が低いものも含まれる（つまり、画素毎に推定された全ての距離が正確に実スケールに基づく距離でない場合がある）。

このため、距離補正部１０８は、ステップＳ６４の処理（第２距離推定処理）が実行されることによって画素毎に推定された距離を、ステップＳ６３の処理（第１距離推定処理）が実行されることによって画素毎に推定された距離を用いて補正する（ステップＳ６５）。このステップＳ６５においては、第２距離推定処理が実行されることによって画素毎に推定された距離（スケール不定の距離）が、第１距離推定処理が実行されることによって画素毎に推定される距離（実スケールに基づく距離）に近づくようなスケール値を算出（最適化）し、当該スケール値を第２距離推定処理が実行されることによって推定された距離に適用することによって、実スケール化された距離を得ることができる。

ステップＳ６５の処理が実行されると、図４に示すステップＳ４の処理に相当するステップＳ６６の処理が実行される。

なお、上記した図３０に示す処理においてステップＳ６２の位置姿勢推定処理、ステップＳ６３の第１距離推定処理及びステップＳ６４の第２距離推定処理は、それぞれ独立して（または並列に）実行可能である。

上記したように本実施形態においては、第１距離推定処理が実行されることによって推定された実スケールに基づく距離に基づいて、第２距離推定処理が実行されることによって推定されたスケール不定の距離（スケールが不定な距離）を補正する構成により、より精度の高い実スケールに基づく距離に基づいて移動体１の位置及び姿勢を補正することが可能となるため、実スケールに基づくより精度の高い移動体１の位置及び姿勢を得ることが可能となる。

また、前述した第２実施形態を本実施形態に適用してもよい。この場合、第１距離推定部１０６によって画素毎に推定された実スケールに基づく距離のうち、信頼度が予め定められた値以上である距離に基づいて、第２距離推定部１０７によって推定された距離を補正する構成とすることができる。このような構成の場合には、信頼度が予め定められた値以上である実スケールに基づく距離（第１距離）及び当該距離が推定された画素（領域）について推定されたスケール不定の距離（第２距離）に基づいて、当該スケール不定の距離を実スケールに基づく距離に近づけるためのスケール値が算出されればよい。なお、このように算出されたスケール値を第２距離推定部１０７によって画素毎に推定された全ての距離に適用すれば、マスク領域（高信頼度領域以外の領域）を構成する画素に対して推定されたスケール不定の距離を補正することも可能である。

また、前述した第２実施形態が本実施形態に適用される場合には、図３０に示すステップＳ６６の処理の代わりに、図２８に示すステップＳ５５の処理が実行されてもよい。これによれば、更に精度の高い移動体１の位置及び姿勢を得ることができる。

なお、本実施形態においては第２距離推定処理が実行されることによってスケール不定の距離が推定されるものとして説明したが、上記した第１距離推定処理が実行されることによって推定される距離と第２距離推定処理が実行されることによって推定される距離とが互いに補完し合い、より精度の高い実スケールに基づく距離を取得することが可能であれば、第２距離推定処理が実行されることによって推定される距離は実スケールに基づく距離であっても構わない。すなわち、第２距離推定処理が実行されることによって推定される距離は、第１距離推定処理が実行されることによって推定される距離と特性（性質）が異なるものであればよい。

以上述べた少なくとも１つの実施形態によれば、実スケールに基づく移動体の位置及び姿勢を容易に推定することが可能な位置姿勢推定装置、位置姿勢推定方法及びプログラムを提供することにある。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

１…移動体、２…撮像装置、１０…位置姿勢推定装置、１１…ＣＰＵ、１２…不揮発性メモリ、１３…ＲＡＭ、１３Ａ…位置姿勢推定プログラム、１４…通信デバイス、２１…レンズ、２２…イメージセンサ、２２１…第１センサ、２２２…第２センサ、２２３…第３センサ、１０１…画像取得部、１０２…位置姿勢推定部、１０３…距離推定部、１０４…位置姿勢補正部、１０５…領域抽出部、１０６…第１距離推定部、１０７…第２距離推定部、１０８…距離補正部。

Claims

移動体に設置された撮像装置によって連続的に撮像された第１及び第２画像を含む時系列の画像を取得する取得手段と、
前記第１及び第２画像に基づいて、前記第１画像が撮像された時点の前記移動体の第１位置及び姿勢からの当該移動体の移動を推定し、当該推定された移動に基づいて、前記第２画像が撮像された時点の前記移動体の第２位置及び姿勢を推定する第１推定手段と、
前記第１及び第２画像に含まれる被写体までの距離を推定する第２推定手段と、
前記推定された距離に基づいて、前記推定された第２位置及び姿勢を実スケールに基づく第３位置及び姿勢に補正する第１補正手段と
を具備し、
前記第２推定手段は、光学系の収差の影響を受けた第３画像に生じる当該第３画像中の被写体までの距離に応じて非線形に変化するぼけを学習することによって生成された第１統計モデルに前記第１及び第２画像を入力することによって当該第１統計モデルから出力される距離を前記推定された距離として取得する
位置姿勢推定装置。
前記第２推定手段は、前記第１画像に含まれる被写体までの第１距離及び前記第２画像に含まれる被写体までの第２距離を推定し、
前記第１補正手段は、
前記第１画像に含まれる被写体の位置に前記第１距離が割り当てられた第１距離マップ及び前記第２画像に含まれる被写体の位置に前記第２距離が割り当てられた第２距離マップを生成し、
前記第１距離マップに前記移動体の第２位置及び姿勢を適用することによって第３距離マップを生成し、
前記第２距離マップと前記第３距離マップとの比較結果に基づいて、前記第２位置及び姿勢を前記第３位置及び姿勢に補正する
請求項１記載の位置姿勢推定装置。
抽出手段を更に具備し、
前記第２推定手段は、前記第１及び第２画像を構成する領域毎に距離を推定し、前記領域毎に推定された距離の各々の信頼度を算出し、
前記抽出手段は、前記第１及び第２画像の各々から前記信頼度が予め定められた値以上である距離が推定された領域を抽出し、
前記第１補正手段は、前記第１及び第２画像から抽出された領域に基づいて、前記第２位置及び姿勢を前記第３位置及び姿勢に補正する
請求項２記載の位置姿勢推定装置。
前記第２推定手段は、前記被写体までの実スケールに基づく距離を推定する請求項３記載の位置姿勢推定装置。
前記第１及び第２画像に含まれる被写体までのスケールが不定な距離を推定する第３推定手段と、
前記推定されたスケールが不定な距離を前記推定された実スケールに基づく距離に基づいて補正する第２補正手段と
を更に具備する請求項４記載の位置姿勢推定装置。
前記第１補正手段は、前記補正された距離に基づいて前記第２位置及び姿勢を前記第３位置及び姿勢に補正する請求項５記載の位置姿勢推定装置。
前記第２補正手段は、前記領域毎に推定された実スケールに基づく距離のうち、前記信頼度が予め定められた値以上である距離に基づいて、前記推定されたスケールが不定な距離を補正する請求項５または６記載の位置姿勢推定装置。
前記第３推定手段は、前記第１及び第２画像を構成する領域毎にスケールが不定な距離を推定し、
前記第２補正手段は、前記領域毎に推定された実スケールに基づく距離のうちの前記信頼度が予め定められた値以上である第１距離及び当該第１距離が推定された領域について推定されたスケールが不定な第２距離に基づいて当該第２距離を当該第１距離に近づけるためのスケール値を算出し、当該算出されたスケール値に基づいて前記領域毎に推定されたスケールが不定な距離を補正する
請求項７記載の位置姿勢推定装置。
前記第３推定手段は、前記第１及び第２画像のうちの少なくとも１つの画像を入力することによってスケールが不定な距離を出力する第２統計モデルを用いて、前記画像に含まれる被写体までのスケールが不定な距離を推定する請求項５～８のいずれか一項に記載の位置姿勢推定装置。
前記第１推定手段は、前記第１及び第２画像の各々から複数の特徴点を検出し、前記検出された複数の特徴点を当該第１及び第２画像間で対応づけることによって算出される相対的な位置及び姿勢を前記第２位置及び姿勢として推定する請求項１～９のいずれか一項に記載の位置姿勢推定装置。
前記第１推定手段は、前記第１及び第２画像を入力した場合に相対的な位置及び姿勢を出力する第３統計モデルを用いて、前記第２位置及び姿勢を推定する
請求項１～９のいずれか一項に記載の位置姿勢推定装置。
移動体に設置された撮像装置によって連続的に撮像された第１及び第２画像を含む時系列の画像を取得するステップと、
前記第１及び第２画像に基づいて、前記第１画像が撮像された時点の前記移動体の第１位置及び姿勢からの当該移動体の移動を推定し、当該推定された移動に基づいて、前記第２画像が撮像された時点の前記移動体の第２位置及び姿勢を推定するステップと、
前記第１及び第２画像に含まれる被写体までの距離を推定するステップと、
前記推定された距離に基づいて、前記推定された第２位置及び姿勢を実スケールに基づく第３位置及び姿勢に補正するステップと
を具備し、
前記距離を推定するステップは、光学系の収差の影響を受けた第３画像に生じる当該第３画像中の被写体までの距離に応じて非線形に変化するぼけを学習することによって生成された第１統計モデルに前記第１及び第２画像を入力することによって当該第１統計モデルから出力される距離を前記推定された距離として取得するステップを含む
位置姿勢推定方法。
前記距離を推定するステップは、前記第１画像に含まれる被写体までの第１距離及び前記第２画像に含まれる被写体までの第２距離を推定するステップを含み、
前記補正するステップは、
前記第１画像に含まれる被写体の位置に前記第１距離が割り当てられた第１距離マップ及び前記第２画像に含まれる被写体の位置に前記第２距離が割り当てられた第２距離マップを生成するステップと、
前記第１距離マップに前記移動体の第１位置及び姿勢を適用することによって第３距離マップを生成するステップと、
前記第２距離マップと前記第３距離マップとの比較結果に基づいて、前記第２位置及び姿勢を前記第３位置及び姿勢に補正するステップと
を含む
請求項１２記載の位置姿勢推定方法。
前記第１及び第２画像を構成する領域毎に距離を推定するステップと、
前記領域毎に推定された距離の各々の信頼度を算出するステップと、
前記第１及び第２画像の各々から前記信頼度が予め定められた値以上である距離が推定された領域を抽出するステップと
を更に具備し、
前記補正するステップは、前記第１及び第２画像から抽出された領域に基づいて、前記第２位置及び姿勢を前記第３位置及び姿勢に補正するステップを含む
請求項１３記載の位置姿勢推定方法。
前記距離を推定するステップは、前記被写体までの実スケールに基づく距離を推定するステップを含む請求項１４記載の位置姿勢推定方法。
前記第１及び第２画像に含まれる被写体までのスケールが不定な距離を推定するステップと、
前記推定されたスケールが不定な距離を前記推定された実スケールに基づく距離に基づいて補正するステップと
を更に具備する請求項１５記載の位置姿勢推定方法。
前記第３位置及び姿勢に補正するステップは、前記補正された距離に基づいて前記第２位置及び姿勢を前記第３位置及び姿勢に補正するステップを含む請求項１６記載の位置姿勢推定方法。
前記距離を補正するステップは、前記領域毎に推定された実スケールに基づく距離のうち、前記信頼度が予め定められた値以上である距離に基づいて、前記推定されたスケールが不定な距離を補正するステップを含む請求項１６または１７記載の位置姿勢推定方法。
前記スケールが不定な距離を推定するステップは、前記第１及び第２画像を構成する領域毎にスケールが不定な距離を推定するステップを含み、
前記距離を補正するステップは、前記領域毎に推定された実スケールに基づく距離のうちの前記信頼度が予め定められた値以上である第１距離及び当該第１距離が推定された領域について推定されたスケールが不定な第２距離に基づいて当該第２距離を当該第１距離に近づけるためのスケール値を算出し、当該算出されたスケール値に基づいて前記領域毎に推定されたスケールが不定な距離を補正するステップを含む
請求項１８記載の位置姿勢推定方法。
前記スケールが不定な距離を推定するステップは、前記第１及び第２画像のうちの少なくとも１つの画像を入力することによってスケールが不定な距離を出力する第２統計モデルを用いて、前記画像に含まれる被写体までのスケールが不定な距離を推定するステップを含む請求項１６～１９のいずれか一項に記載の位置姿勢推定方法。
前記第２位置及び姿勢を推定するステップは、前記第１及び第２画像の各々から複数の特徴点を検出し、前記検出された複数の特徴点を当該第１及び第２画像間で対応づけることによって算出される相対的な位置及び姿勢を前記第２位置及び姿勢として推定するステップを含む請求項１２～２０のいずれか一項に記載の位置姿勢推定方法。
前記第２位置及び姿勢を推定するステップは、前記第１及び第２画像を入力した場合に相対的な位置及び姿勢を出力する第３統計モデルを用いて、前記第２位置及び姿勢を推定するステップを含む
請求項１２～２０いずれか一項に記載の位置姿勢推定方法。
コンピュータに、
移動体に設置された撮像装置によって連続的に撮像された第１及び第２画像を含む時系列の画像を取得するステップと、
前記第１及び第２画像に基づいて、前記第１画像が撮像された時点の前記移動体の第１位置及び姿勢からの当該移動体の移動を推定し、当該推定された移動に基づいて、前記第２画像が撮像された時点の前記移動体の第２位置及び姿勢を推定するステップと、
前記第１及び第２画像に含まれる被写体までの距離を推定するステップと、
前記推定された距離に基づいて、前記推定された第２位置及び姿勢を実スケールに基づく第３位置及び姿勢に補正するステップと
を実行させ、
前記距離を推定するステップは、光学系の収差の影響を受けた第３画像に生じる当該第３画像中の被写体までの距離に応じて非線形に変化するぼけを学習することによって生成された第１統計モデルに前記第１及び第２画像を入力することによって当該第１統計モデルから出力される距離を前記推定された距離として取得するステップを含む
プログラム。