JP7103357B2

JP7103357B2 - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JP7103357B2
Application number: JP2019532382A
Authority: JP
Inventors: 彰彦貝野; 公志江島; 太記山中
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2017-07-26
Filing date: 2018-05-07
Publication date: 2022-07-20
Anticipated expiration: 2038-05-07
Also published as: EP3660449A1; WO2019021569A1; EP3660449A4; JPWO2019021569A1; US20200226774A1; US11189042B2

Description

本開示は、情報処理装置、情報処理方法、及びプログラムに関する。

近年、画像認識技術の高度化に伴い、デジタルカメラ等のような撮像部により撮像された画像に基づき、実空間上の物体（以降では、「実オブジェクト」とも称する）の位置、姿勢、及び形状等を３次元的に推定（または計測）することが可能となってきている。また、このような推定結果を利用することで、実オブジェクトの３次元形状を、ポリゴン等によりモデルとして再現（再構成）することも可能となってきている。

また、上述のような技術の応用により、実オブジェクトの画像を撮像する撮像部等のような所定の視点の実空間上における位置や姿勢（即ち、自己位置）を推定（認識）することも可能となってきている。例えば、特許文献１には、物体の３次元形状をモデルとして再現した３次元形状データを自己位置推定に利用する技術の一例が開示されている。

特開２０１１－２０３８２４号公報

一方で、上述した物体の３次元形状の推定に係る処理は、一般的には処理負荷が高く、推定結果に応じて当該３次元形状を再現したデータ（例えば、３次元形状をモデル化したデータ）のデータ量もより大きくなる傾向にある。また、従来の手法では、物理的な境界の認識が困難となり、結果として物体の３次元形状の推定に係る精度が低下するような場合もある。

そこで、本開示では、実空間上の物体の３次元形状をより好適な態様で推定可能とする技術を提案する。

本開示によれば、幾何構造情報がマッピングされた、実空間上の視点に対応する画像平面を、当該幾何構造情報の分布に応じて１以上の領域に分割する分割部と、前記視点の位置及び姿勢のうち少なくともいずれかを示す姿勢情報を取得する取得部と、前記画像平面が分割された少なくとも一部の前記領域を注目領域として抽出する抽出部と、互いに異なる複数の視点間で対応付けられる、当該複数の視点それぞれに対応する前記画像平面における前記注目領域中の前記幾何構造情報に基づき、実空間上の物体の形状を推定する推定部と、を備え、前記幾何構造情報は、偏光方向が互いに異なる複数の偏光それぞれの検出結果に応じた情報である、情報処理装置が提供される。

また、本開示によれば、コンピュータが、幾何構造情報がマッピングされた画像平面を、当該幾何構造情報の分布に応じて１以上の領域に分割することと、実空間上の視点における視点の位置及び姿勢のうち少なくともいずれかを示す姿勢情報を取得することと、前記画像平面が分割された少なくとも一部の前記領域を注目領域として抽出することと、互いに異なる複数の視点間で対応付けられる、当該複数の視点それぞれに対応する前記画像平面における前記注目領域中の前記幾何構造情報に基づき、実空間上の物体の形状を推定することと、を含み、前記幾何構造情報は、前記視点における偏光方向が互いに異なる複数の偏光それぞれの検出結果に応じた情報である、情報処理方法が提供される。

また、本開示によれば、コンピュータに、幾何構造情報がマッピングされた画像平面を、当該幾何構造情報の分布に応じて１以上の領域に分割することと、実空間上の視点における視点の位置及び姿勢のうち少なくともいずれかを示す姿勢情報を取得することと、前記画像平面が分割された少なくとも一部の前記領域を注目領域として抽出することと、互いに異なる複数の視点間で対応付けられる、当該複数の視点それぞれに対応する前記画像平面における前記注目領域中の前記幾何構造情報に基づき、実空間上の物体の形状を推定することと、を実行させ、前記幾何構造情報は、前記視点における偏光方向が互いに異なる複数の偏光それぞれの検出結果に応じた情報である、プログラム。
が提供される。

以上説明したように本開示によれば、実空間上の物体の３次元形状をより好適な態様で推定可能とする技術が提供される。

なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本実施形態に係る情報処理システムの概略的なシステム構成の一例について説明するための説明図である。物体の形状の推定に係る手法の一例について説明するための説明図である。物体の形状の推定に係る手法の一例について説明するための説明図である。本実施形態に係る情報処理装置の機能構成の一例について示したブロック図である。偏光画像の一例について説明するための説明図である。同実施形態に係る情報処理装置における偏光画像の画像平面の領域分割に係る処理について説明するための説明図である。同実施形態に係る情報処理装置における偏光画像の画像平面の領域分割に係る処理について説明するための説明図である。同実施形態に係る情報処理装置における偏光画像の画像平面の領域分割に係る処理について説明するための説明図である。同実施形態に係る情報処理装置による物体の形状の推定に係る処理について説明するための説明図である。同実施形態に係る情報処理装置による物体の形状の推定に係る処理について説明するための説明図である。同実施形態に係る情報処理装置の一連の処理の流れの一例を示したフローチャートである。変形例に係る情報処理装置による物体の形状の推定に係る処理について説明するための説明図である。本開示の一実施形態に係る情報処理システムを構成する情報処理装置のハードウェア構成の一構成例を示す機能ブロック図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

なお、説明は以下の順序で行うものとする。
１．概略構成
２．３次元形状の推定に関する検討
３．技術的特徴
３．１．機能構成
３．２．処理
３．３．変形例
４．ハードウェア構成
５．応用例
６．むすび

＜＜１．概略構成＞＞
まず、図１を参照して、本実施形態に係る情報処理システム１の概略的なシステム構成の一例について説明する。図１は、本実施形態に係る情報処理システム１の概略的なシステム構成の一例について説明するための説明図である。

図１に示すように、本実施形態に係る情報処理システム１は、情報取得装置２００と、情報処理装置１００とを含む。情報処理装置１００と情報取得装置２００とは、例えば、所定のネットワークを介して互いに情報を送受信可能に構成されている。なお、情報処理装置１００と情報取得装置２００とを接続するネットワークの種別は特に限定されない。具体的な一例として、当該ネットワークは、ＬＴＥ、Ｗｉ－Ｆｉ（登録商標）等の規格に基づくネットワークのような、所謂無線のネットワークにより構成されていてもよい。また、当該ネットワークは、インターネット、専用線、ＬＡＮ（Local Area Network）、または、ＷＡＮ（Wide Area Network）等により構成されていてもよい。また、当該ネットワークは、複数のネットワークを含んでもよく、少なくとも一部が有線のネットワークとして構成されていてもよい。

また、図１において、参照符号Ｍ１１１～Ｍ１１４は、実空間上に位置する物体（実オブジェクト）を模式的に示している。

情報取得装置２００は、実空間上を移動可能に構成されている。具体的な一例として、情報取得装置２００は、所謂ウェアラブルデバイスやスマートフォン等のように携行可能に構成されていてもよい。この場合には、ユーザが情報取得装置２００を携行して移動することで、当該情報取得装置２００は、実空間上を移動することとなる。また、情報取得装置２００は、車両等のような移動体のように自身が移動可能に構成されていてもよい。

また、図１に示すように、情報取得装置２００は、デプスセンサ２１０と、偏光センサ２３０とを含む。

デプスセンサ２１０は、所定の視点と実空間上に位置する物体との間の距離を推定するための情報を取得し、取得した当該情報を情報処理装置１００に送信する。なお、以降の説明では、デプスセンサ２１０により取得される、所定の視点と実空間上に位置する物体との間の距離を推定するための情報を、「深度情報」とも称する。

例えば、図１に示す例では、デプスセンサ２１０は、複数の撮像部２１０ａ及び２１０ｂを備えた所謂ステレオカメラとして構成されており、当該撮像部２１０ａ及び２１０ｂにより、互いに異なる視点から実空間上に位置する物体の画像（光学像）を撮像する。この場合には、デプスセンサ２１０は、撮像部２１０ａ及び２１０ｂそれぞれにより撮像された画像（例えば、ステレオ画像）を情報処理装置１００に送信することとなる。

このようにして互いに異なる視点から撮像された複数の画像を利用することで、例えば、当該複数の画像間の視差に基づき、所定の視点（例えば、情報取得装置２００の実空間上の位置）と被写体（即ち、画像中に撮像された実オブジェクト）との間の距離を推定（算出）することが可能となる。そのため、例えば、所定の視点と被写体との間の距離の推定結果が撮像平面にマッピングされた所謂デプスマップを生成することも可能となる。

なお、所定の視点と実空間上の物体（実オブジェクト）との間の距離を推定すること可能であれば、デプスセンサ２１０に相当する部分の構成や、当該距離の推定に係る方法は特に限定されない。具体的な一例として、マルチカメラステレオ、移動視差、ＴＯＦ（Time Of Flight）、Structured Light等の方式に基づき、所定の視点と実オブジェクトとの間の距離が測定されてもよい。ここで、ＴＯＦとは、被写体（即ち、実オブジェクト）に対して赤外線等の光を投光し、投光した光が当該被写体で反射して戻るまでの時間を画素ごとに測定することで、当該測定結果に基づき被写体までの距離（深度）を含めた画像（即ち、デプスマップ）を得る方式である。また、Structured Lightは、被写体に対して赤外線等の光によりパターンを照射しそれを撮像することで、撮像結果から得られる当該パターンの変化に基づき、被写体までの距離（深度）を含めたデプスマップを得る方式である。また、移動視差とは、所謂単眼カメラにおいても、視差に基づき被写体までの距離を測定する方法である。具体的には、カメラを移動させることで、被写体を互いに異なる視点から撮像し、撮像された画像間の視差に基づき被写体までの距離を測定する。なお、このとき各種センサによりカメラの移動距離及び移動方向を認識することで、被写体までの距離をより精度良く測定することが可能となる。なお、距離の測定方法に応じて、デプスセンサ２１０の構成（例えば、単眼カメラ、ステレオカメラ等）を変更してもよい。

偏光センサ２３０は、実空間上に位置する物体で反射した光のうち、所定の偏光方向に偏光された光（以下、単に「偏光」とも称する）を検知し、当該偏光の検知結果に応じた情報を情報処理装置１００に送信する。なお、本実施形態に係る情報処理システム１においては、偏光センサ２３０は、偏光方向が互いに異なる複数の偏光を検知可能に構成されている。また、以降の説明においては、偏光センサ２３０による偏光の検知結果に応じた情報を「偏光情報」とも称する。

具体的な一例として、偏光センサ２３０は、所謂偏光カメラとして構成されており、所定の偏光方向に偏光された光に基づく偏光画像を撮像する。ここで、偏光画像とは、偏光情報が偏光カメラの撮像平面（換言すると、画像平面）上にマッピングされた情報に相当する。なお、この場合には、偏光センサ２３０は、撮像した偏光画像を情報処理装置１００に送信することとなる。

また、偏光センサ２３０は、デプスセンサ２１０による距離を推定するための情報の取得対象となる実空間上の領域と少なくとも一部が重畳する領域（理想的には、略一致する領域）から到来する偏光を撮像可能に保持されるとよい。なお、デプスセンサ２１０及び偏光センサ２３０のそれぞれが所定の位置に固定されている場合には、デプスセンサ２１０及び偏光センサ２３０それぞれの実空間上の位置を示す情報をあらかじめ取得しておくことで、それぞれの位置を既知の情報として扱うことも可能である。

なお、図１に示す例では、デプスセンサ２１０及び偏光センサ２３０が共通の装置（即ち、情報取得装置２００）に保持される例について示しているが、必ずしも同構成には限定されない。具体的な一例として、デプスセンサ２１０と偏光センサ２３０とが互いに異なる装置に設けられていてもよい。なお、この場合には、デプスセンサ２１０が情報の取得対象とする実空間上の領域と、偏光センサ２３０が情報（偏光）の取得対象とする実空間上の領域と、が重畳し、デプスセンサ２１０と偏光センサ２３０との相対的な位置関係を認識可能であることが望ましい。

また、本実施形態に係る情報処理システム１では、所謂自己位置推定と呼ばれる技術を応用することで、情報取得装置２００の実空間上における位置及び姿勢が推定されてもよい。

ここで、所定の装置の実空間上における位置及び姿勢を推定する技術のより具体的な一例として、ＳＬＡＭ（simultaneous localization and mapping）と称される技術について説明する。ＳＬＡＭとは、カメラ等の撮像部、各種センサ、エンコーダ等を利用することにより、自己位置推定と環境地図の作成とを並行して行う技術である。より具体的な一例として、ＳＬＡＭ（特に、ＶｉｓｕａｌＳＬＡＭ）では、撮像部により撮像された動画像に基づき、撮像されたシーン（または、被写体）の３次元形状を逐次的に復元する。そして、撮像されたシーンの復元結果を、撮像部の位置及び姿勢の検出結果と関連付けることで、周囲の環境の地図の作成と、当該環境における撮像部の位置及び姿勢の推定とが行われる。なお、撮像部の位置及び姿勢については、例えば、当該撮像部が保持された装置に加速度センサや角速度センサ等の各種センサを設けることで、当該センサの検出結果に基づき相対的な変化を示す情報として推定することが可能である。もちろん、撮像部の位置及び姿勢を推定可能であれば、その方法は、必ずしも加速度センサや角速度センサ等の各種センサの検知結果に基づく方法のみには限定されない。

情報処理装置１００は、デプスセンサ２１０から深度情報を取得し、取得した深度情報に基づき、所定の視点（例えば、情報取得装置２００）の位置及び姿勢のうち少なくともいずれかを推定する。なお、以降の説明では、所定の視線の位置及び姿勢のうち少なくともいずれかの推定結果に応じた情報を「姿勢情報」とも称する。即ち、以降の説明では、「所定の視点の姿勢情報」と記載した場合には、当該姿勢情報は、当該視点の位置及び姿勢のうち少なくともいずれかの推定結果に応じた情報を含むものとする。

また、情報処理装置１００は、偏光センサ２３０から偏光情報を取得し、取得した偏光情報と、所定の視点の姿勢情報と、に基づき、実オブジェクトの３次元的な形状を推定する。また、情報処理装置１００は、実オブジェクトの３次元的な形状の推定結果に基づき、当該実オブジェクトの３次元的な形状を再現したモデルを生成してもよい。なお、情報処理装置１００の動作の詳細については別途後述する。

なお、上述した構成はあくまで一例であり、本実施形態に係る情報処理システム１のシステム構成は、必ずしも図１に示す例のみには限定されない。例えば、前述したように、デプスセンサ２１０及び偏光センサ２３０が、移動可能に構成された装置の一部として一体的に構成されていてもよい。また、デプスセンサ２１０及び偏光センサ２３０と、情報処理装置１００とが一体的に構成されていてもよい。

また、図１に示す例では、情報処理装置１００は、デプスセンサ２１０による深度情報の取得結果に基づき、所定の視点（例えば、情報取得装置２００）の姿勢情報を取得していたが、当該姿勢情報を取得可能であればその構成や方法は必ずしも限定されない。即ち、所定の視点の姿勢情報を取得するための構成として、デプスセンサ２１０に替えて他の構成が設けられていてもよい。また、偏光センサ２３０が、デプスセンサ２１０の機能を代替してもよい。たとえば、偏光方向が互いに異なる複数の偏光それぞれに基づく偏光画像を合成することで実空間の光学像を模擬した画像を生成し、当該画像に基づき所定の視点の姿勢情報を取得することも可能である。

以上、図１を参照して、本実施形態に係る情報処理システム１の概略的なシステム構成の一例について説明した。

＜＜２．３次元形状の推定に関する検討＞＞
続いて、実空間上の物体の３次元形状の推定に係る技術の一例について概要を説明したうえで、本実施形態に係る情報処理システムの課題について整理する。

実空間上の物体の３次元形状を推定するための技術の一例としては、主に、アクティブ型のセンサを利用した技術と、パッシブ型のセンサを利用した技術とが挙げられる。

具体的には、アクティブ型のセンサを利用した３次元形状の推定に係る技術としては、例えば、「Structured Light」、「Patterned Light」、「Time of Flight」、「ＩＣＰ（Iterative Closest Point）」、「ＴＳＤＦ（Truncated Signed Distance Function）」等が挙げられる。より具体的な一例として、アクティブ照射方式を採用した深度推定では、実空間上の物体に対して能動的に光を照射し、当該物体で反射した反射光を検出することで、当該物体との間の距離を推定する。

以上のような特性から、アクティブ型のセンサを利用する場合においては、光の照射パワーに応じて深度推定の精度が変化し、より安定した深度推定を実現するためには、電力消費がより大きくなる傾向にある。具体的な一例として、数ｍ程度離間した物体との間の距離を安定して推定する場合には、数十Ｗ程度の電力が必要となる場合がある。また、アクティブ型のセンサを利用する場合には、複数のデバイスが動作する状況下において、当該複数のデバイスそれぞれが光を照射することで干渉が生じる場合がある。また、アクティブ型のセンサを利用する場合には、上述した物体との間の距離推定に係る仕組みの特性上、外部環境の明るさが物体との間の深度の推定に影響する場合がある。特に、太陽光の影響が強い屋外環境においては、物体に対して光の反射光を検出することが困難となり、ひいては当該物体との間の距離の推定が困難となる場合もある。

これに対して、パッシブ型のセンサを利用した３次元形状の推定に係る技術としては、例えば、ステレオカメラ等を利用した多視点間側に伴う三角測量に基づく手法が挙げられる。パッシブ型のセンサを利用した手法では、アクティブ型のセンサを利用した手法のように、物体に対する能動的な光の照射は行わず、例えば、物体を被写体として撮像した画像から当該物体の特徴点を抽出することで、当該物体との間の距離の推定が行われる。

以上のような特性からの、パッシブ型のセンサを利用する場合には、滑らかに連続した面のように、特徴点として抽出可能な部分が少ない物体において、当該物体との間の距離を安定的に推定することが困難となる場合がある。また、パッシブ型のセンサを利用する場合においては、マッチングの誤りや、深度推定に係る量子化誤差等の影響が顕在化する場合もある。

また、アクティブ型及びパッシブ型のいずれのセンサを利用する場合においても、実空間上の物体の形状をより均質に表現するためには、データ量がより大きくなる傾向にある。また、物体の表面形状を推定するための手法として、当該物体の表面の法線に関する情報を利用する手法が挙げられるが、物体との間の距離（即ち、深度）の推定結果を利用した法線の推定に係る処理は、計算コストがより大きくなる傾向にある。また、物体との間の距離の推定結果を利用することで、当該物体の形状を３次元モデルで再現する場合には、例えば、複数の物体が、当該複数の物体それぞれの表面がつながった一連のポリゴンとして再現され、物理的な境界でのセグメンテーションが困難となる場合もある。なお、本説明において、物理的な境界とは、空間の連続性が不連続な部分の境界に相当し、例えば、実空間上における物体間の境界や、物体を構成する複数の面の間の境界等を示す。

また、所謂デジタルカメラ（例えば、ステレオカメラ等）により撮像された物体の光学像に基づき、当該物体の形状を推定する手法が挙げられるが、このような場合においても、物理的な境界を認識してセグメンテーションを行うことが困難な場合がある。例えば、図２及び図３は、物体の形状の推定に係る手法の一例について説明するための説明図である。

具体的には、図２は、実空間上に物体が載置されている環境を模式的に示している。図２において、参照符号Ｍ２０１及びＭ２０３は、実空間上の壁面を示している。また、参照符号Ｍ２０５は、実空間上の底面に示している。また、参照符号Ｍ２１１～２１７は、壁面Ｍ２０１及びＭ２０３に囲まれた空間に載置された物体（実オブジェクト）を示している。また、図２に示す例では、壁面Ｍ２０１及びＭ２０３と、底面Ｍ２０５と、物体Ｍ２１１～Ｍ２１７と、のそれぞれの表面には図柄や模様（換言すると、テクスチャ）が付されている。なお、図２に示す例では、便宜上、壁面Ｍ２０１及びＭ２０３のそれぞれと、底面Ｍ２０５と、物体Ｍ２１１～Ｍ２１７それぞれの各面と、の間の物理的な境界を太線で示し、各面の表面に付された図柄や模様を細線で示している。

また、図３は、図２に示す環境の光学像をデジタルカメラ等により撮像し、当該撮像結果に基づき境界検出を行い、当該境界検出の結果に基づきセグメンテーションを行った場合の一例を示している。図３に示すように、物体の光学像に基づく境界検出を行う場合においては、物理的な境界と、各面の表面に付された図柄や模様の線と、識別することが困難となる。即ち、図３に示す例では、物理的な境界を識別してセグメンテーションを行うことが困難となり、結果として物体（例えば、壁面Ｍ２０１及びＭ２０３、底面Ｍ２０５、並びに物体Ｍ２１１～Ｍ２１７等）の形状の推定が困難となる場合もある。

以上のような状況を鑑み、本開示では、実空間上の物体の３次元形状をより好適な態様で推定可能とし、当該推定結果に応じて当該３次元形状をより好適な態様でモデル化することを可能とする技術を提案する。具体的には、本開示では、実空間上の物体の３次元形状の推定に係る処理負荷やデータ量の低減と、当該３次元形状の推定に係る精度の向上と、を両立することが可能な仕組みの一例について提案する。

＜＜３．技術的特徴＞＞
以下に、本実施形態に係る情報処理システムの技術的特徴について説明する。

＜３．１．機能構成＞
まず、図４を参照して、本実施形態に係る情報処理システムの機能構成の一例について、特に、図１に示した情報処理装置１００の構成に着目して説明する。図４は、本実施形態に係る情報処理装置の機能構成の一例について示したブロック図である。

図４に示すように、本実施形態に係る情報処理装置１００は、前処理部１０１と、姿勢推定部１０３と、領域分割部１０５と、推定部１０７とを含む。また、推定部１０７は、マッチング処理部１０９と、領域パラメタ推定部１１１と、３次元モデル更新部１１３と、記憶部１１５と、３次元形状推定部１１７とを含む。

前処理部１０１は、実空間上の物体の形状推定に使用する各種情報を入力データとして取得する。具体的な一例として、前処理部１０１は、図１に示す情報取得装置２００により取得された各種情報、例えば、偏光センサ２３０により取得された偏光画像（偏光情報）や、撮像部２１０ａ及び２１０ｂにより撮像された被写体の画像（例えば、ステレオ画像）等を入力データとして取得する。前処理部１０１は、取得した入力データに対して所定の前処理を施し、当該前処理後のデータを姿勢推定部１０３及び領域分割部１０５に出力する。

より具体的には、前処理部１０１は、図１に示す偏光センサ２３０により偏光方向が互いに異なる複数の偏光それぞれについて撮像された偏光画像（例えば、Ｎ枚のＲａｗ画像）を入力データとして当該偏光センサ２３０から取得する。前処理部１０１は、取得した当該偏光画像に対してガウシアンフィルタやバイラテラルフィルタ等の所定のフィルタを適用することで、当該偏光画像のノイズ除去を行う。また、前処理部１０１は、取得した偏光画像に対して事前に取得されたキャリブレーション情報に基づき、幾何的な歪補正を施してもよい。

前処理部１０１は、図１に示す撮像部２１０ａ及び２１０ｂにより撮像されたステレオ画像を入力データとして取得してもよい。この場合には、前処理部１０１は、当該入力データに対して、所謂平行化処理を施してもよい。

また、前処理部１０１は、複数の偏向それぞれに対応する偏光画像を重ねあわせることで、当該偏光画像中に撮像された物体の光学像が撮像された画像を生成してもよい。

また、前処理部１０１は、偏光画像が示す光の強度（即ち、複数の偏光の光強度に相当し、上記偏光情報に相当する）に対して、コサインカーブフィッティングに基づく偏光イメージング処理を施すことで、当該偏光画像に撮像された物体の幾何構造に関する情報（以降では、「幾何構造情報」とも称する）を算出する。

なお、上記幾何構造情報としては、例えば、上記コサインカーブフィッティングの結果として得られる振幅及び位相に応じた情報や、当該振幅及び当該位相に基づき算出される当該物体の表面の法線に関する情報（以下、「法線情報」とも称する）が挙げられる。また、法線情報としては、法線ベクトルを天頂角及び方位角で示した情報や、当該ベクトルを３次元の座標系で示した情報等が挙げられる。なお、天頂角については、コサインカーブの振幅から算出することが可能である。また、方位角については、コサインカーブの位相から算出することが可能である。また、天頂角及び方位角については、ｘｙｚ等で示される３次元の座標系に変換可能であることは言うまでもない。また、上記法線情報が偏光画像の画像平面上にマッピングされた当該法線情報の分布を示す情報が、所謂法線マップに相当する。また、上記偏光イメージング処理が施される前の情報、即ち、偏光情報が幾何構造情報として使用されてもよい。

上記を踏まえ、以降の説明においては、偏光センサ２３０により取得された偏光画像と、上記偏光イメージング処理に基づき算出された上記幾何構造情報が当該偏光画像の画像平面上にマッピングされた情報と、を総じて「偏光画像」と称する場合がある。即ち、以降においては、単に「偏光画像」と記載した場合には、特に説明が無い限りは、偏光センサ２３０により取得された偏光画像と、上記前処理が施された偏光画像と、のいずれも含み得るものとする。

そして、前処理部１０１は、入力データに対して各種処理（即ち、前処理）を施すことで取得した上記した各種情報を、後段に位置する姿勢推定部１０３や領域分割部１０５に出力する。

姿勢推定部１０３は、所定の視点の実空間上における位置及び姿勢のうち少なくともいずれかを推定する。なお、当該所定の視点とは、実空間上における位置や姿勢の推定の対象を示しており、例えば、図１に示す偏光センサ２３０、撮像部２１０ａ及び２１０ｂ、並びに、当該偏光センサ２３０や撮像部２１０ａ及び２１０ｂが保持された情報取得装置２００等が相当し得る。なお、以降では、姿勢推定部１０３は、情報取得装置２００の実空間上における位置や姿勢を推定するものとして説明する。

具体的な一例として、姿勢推定部１０３は、実空間上の物体が撮像された画像を入力情報として、前処理部１０１から取得する。上記入力情報としては、例えば、複数の偏向それぞれに対応する偏光画像の重ねあわせにより生成された画像や、撮像部２１０ａ及び２１０ｂにより撮像されたステレオ画像等が挙げられる。姿勢推定部１０３は、取得した入力情報に基づき、ＳＬＡＭやＳｆＭ（Structure from Motion）等のような画像情報に基づく自己位置推定の技術を利用することで、情報取得装置２００の実空間上における位置や姿勢を推定する。

なお、情報取得装置２００の実空間上における位置や姿勢を推定することが可能であれば、当該推定のための構成や方法は特に限定されない。具体的な一例として、デプスセンサにより取得された深度情報に基づき、ＩＣＰ（Iterative Closest Point）等の技術を利用することで、情報取得装置２００の実空間上における位置や姿勢が推定されてもよい。また、上記推定のための構成に応じて、前処理部１０１が入力データとして取得するデータのうち少なくとも一部のデータの種別や、当該前処理部１０１が当該少なくとも一部のデータに対して施す処理の内容が適宜変更されてもよい。また、当該少なくとも一部のデータを取得するための構成（例えば、情報取得装置２００に保持される構成）についても、適宜変更されてもよい。

そして、姿勢推定部１０３は、情報取得装置２００の実空間上における位置及び姿勢のうち少なくともいずれかの推定結果を示す情報を推定部１０７（マッチング処理部１０９）に出力する。なお、以降の説明では、情報取得装置２００等の対象となる物体の実空間上における位置及び姿勢のうち少なくともいずれかを示す場合に、単に「物体の姿勢」（例えば、情報取得装置２００の姿勢）とも称する。また、対象となる物体の姿勢の推定結果を示す情報、「姿勢情報」とも称する。また、姿勢推定部１０３のように、当該姿勢情報を取得する構成が「取得部」の一例に相当する。

領域分割部１０５は、前処理部１０１から偏光画像を含む各種情報を取得する。領域分割部１０５は、取得した偏光画像中の幾何構造情報を入力として、当該偏光画像中における空間連続性を判定して物理的な境界を検出することで、当該偏光画像の画像平面を複数の領域に分割する。なお、物理的な境界を検出するための手法としては、例えば、Connected－Component－labeling法、Mean－Shift法、ＲＡＮＳＡＣ（Random sample consensus）を用いた手法や、Graph－Cuts法等の手法を利用することが可能である。

また、領域分割部１０５は、偏光画像の画像平面が分割された各領域を識別するための情報として、当該各領域に対してラベル付けを行ってもよい。例えば、図５は、偏光画像の一例について説明するための説明図であり、図２に示す環境が撮像された偏光画像の一例を模式的に示している。図５において、参照符号Ｍ２０１～Ｍ２１７のそれぞれは、図２において同様の符号が付された対象を示している。図５と図２及び図３と比較するとわかるように、偏光画像を利用することで、物体の表面に図柄や模様が付されているか否かに関わらず、実空間上の物体間の境界や、当該物体を構成する複数の面の境界等の物理的な境界を検出することが可能となる。

また、図６は、本実施形態に係る情報処理装置における偏光画像の画像平面の領域分割に係る処理について説明するための説明図であり、図５に示す偏光画像を物体の境界の検出結果に基づき複数の領域に分割した結果の一例を示している。

そして、領域分割部１０５は、偏光画像の画像平面が分割された複数の領域それぞれが識別可能となるように、当該複数の領域それぞれに対してラベル付けを行う。

なお、物体の表面が曲面を含む場合には、当該曲面においては、幾何構造情報が互いに異なる値を示す（即ち、法線方向が互いに異なる）部分が存在するが、空間的な連続性を有している（即ち、一連の面として構成されている）。具体的には、互いに隣接する複数の面の間のように、空間的な連続性を有していない場合には、当該複数の面の境界のように空間的に不連続な部分を境に、幾何構造情報が大きく変化する。これに対して、曲面のように空間的な連続性を有している場合には、当該曲面に対応する領域中において幾何構造情報が連続的に変化する。即ち、空間的な連続性を有している場合においては、偏光画像中の互いに近傍に位置する画素間（例えば、隣接する画素間）において、幾何構造情報の変化が、空間的に不連続な部分に比べて小さい。このような特性を利用し、例えば、領域分割部１０５は、隣接する画素間において幾何構造情報の変化が閾値以下の部分については、同一面上の領域として近似したうえで、上記ラベル付けを行ってもよい。

例えば、図７は、本実施形態に係る情報処理装置における偏光画像の画像平面の領域分割に係る処理について説明するための説明図であり、上述した近似処理について説明するための説明図である。具体的には、図７の左側の図に示した円筒形の物体の側面Ｍ３０１は曲面として形成されているため、円周方向の位置に応じて法線方向が異なる。一方で、側面Ｍ３０１のうち、円周方向に沿って互いに近傍に位置する部分においては法線方向の変化が小さい。即ち、偏光画像中において、側面Ｍ３０１に対応する領域では、隣接する画素間において幾何像情報の変化が小さくなる。そのため、上記近似処理により、曲面として形成された側面Ｍ３０１を１つの面として認識できるように、ラベル付けを行うことが可能となる。例えば、図７の右側の図は、当該ラベル付けの結果の一例を示しており、左側の図における側面Ｍ３０１に対応する領域Ｍ３０３が１つの面として認識できるようにラベル付けが行われている。

また、具体的な一例として、図６に示す例では、底面Ｍ２０５の一部に、幾何構造情報の値が異なる領域が存在している。このような場合においても、上述した処理に基づき、空間的な連続性を有する底面Ｍ２０５を、１つの面として認識することが可能となる。即ち、上述した処理により、平面のみに限らず曲面等のように空間的な連続性を有する１つの面を、１つの領域として偏光画像の画像平面から分割することが可能となる。

例えば、図８は、本実施形態に係る情報処理装置における偏光画像の画像平面の領域分割に係る処理について説明するための説明図であり、図６に示す領域分割の結果に対してラベル付けが行われた結果の一例を示している。即ち、上述した処理により、図８に示すように、図２に示した環境を撮像した偏光画像の画像平面が物理的な境界により分割された複数の領域それぞれを識別することが可能となる。また、図８に示す例においては、図６において幾何構造情報の値が異なる領域が存在する底面Ｍ２０５を、空間的な連続性を有する１つの面として識別可能となっていることがわかる。

そして、領域分割部１０５は、取得した偏光画像に基づく上記領域分割の結果を示す情報を、推定部１０７（マッチング処理部１０９）に出力する。

続いて、推定部１０７の動作について説明する。推定部１０７は、領域分割部１０５による上記領域分割の結果と、姿勢推定部１０３による上記推定の結果と、を逐次取得する。推定部１０７は、取得した上記情報に基づき、実空間上の物体をモデル化した３次元モデルを逐次更新し、当該３次元モデルに基づき当該物体の形状を推定する。なお、３次元モデルのデータについては、例えば、記憶部１１５に記憶される。記憶部１１５は、各種データを、一時的または恒常的に記憶するための記憶領域である。ここで、推定部１０７の動作について、以下により詳細に説明する。

マッチング処理部１０９は、領域分割部１０５から、取得された偏光画像の画像平面が分割された複数の領域に関する情報を逐次取得する。また、マッチング処理部１０９は、姿勢推定部１０３から、所定の視点（例えば、情報取得装置２００）の姿勢情報を逐次取得する。そして、マッチング処理部１０９は、領域分割部１０５及び姿勢推定部１０３から取得した上記各情報に基づき、上記視点と、偏光画像中に撮像された物体と、の間の実空間上の位置関係を推定する。

マッチング処理部１０９は、視点の姿勢の推定結果と、記憶部１１５に記憶された過去に推定済みの３次元モデル（即ち、偏光画像中に撮像された物体の３次元モデル）と、の位置関係に応じて、当該３次元モデルの各表面領域（例えば、物体の各面に対応する領域）を当該視点の姿勢に射影させる。以上のようにして、マッチング処理部１０９は、偏光画像の画像平面から分割された各領域と、上記３次元モデルの各表面領域と、の間でマッチングを行う。また、このときマッチング処理部１０９は、当該マッチングに基づき（換言すると、過去に推定された３次元モデルを考慮して）、過去に３次元モデルが推定された既知の領域について詳細分割化や拡張を行ってもよい。

マッチング処理部１０９は、偏光画像の画像平面から分割された各領域のうちいずれかの領域を注目領域として逐次抽出する。そして、マッチング処理部１０９は、抽出した注目領域に関する情報と、当該注目領域について３次元モデルの各表面領域とのマッチングの結果を示す情報と、視点の姿勢の推定結果を示す情報（即ち、情報取得装置２００の姿勢情報）と、を領域パラメタ推定部１１１に逐次出力する。なお、マッチング処理部１０９（ひいては、推定部１０７）のうち上記注目領域を抽出する部分が「抽出部」の一例に相当する。

領域パラメタ推定部１１１は、上記注目領域に関する情報と、当該注目領域と３次元モデルの各表面領域とのマッチングの結果を示す情報と、観測フレームにおける情報取得装置２００の姿勢情報と、をマッチング処理部１０９から取得する。

領域パラメタ推定部１１１は、注目領域の幾何構造情報（例えば、法線情報）に基づき、当該注目領域に対応する実空間上の面（以下、単に「注目領域に対応する面」とも称する）の領域パラメタを推定する。注目領域に対応する面の領域パラメタは、以下に示す（式１）で表される。

なお、１つの視点からの偏光画像に基づく情報のみでは、注目領域に対応する面の法線は特定できるものの、当該視点と当該面との間の距離（即ち、奥行き方向の距離であり、換言すると深度）は未知の値となる。そこで、本実施形態に係る情報処理装置１００においては、当該視点とは異なる他の視点からの情報をあわせて利用し、注目領域に対応する面の法線と深度とからなる３自由度の非線形最適化問題を解くことで、当該注目領域に対応する面の実空間上の位置を推定する。なお、以降の説明では、上記複数の視点それぞれに対応するフレームのうち、基準となるフレームを「基準フレーム」と称し、基準フレーム以外の他のフレームを「観測フレーム」と称する。

具体的には、領域パラメタ推定部１１１は、基準フレームに対応する視点の姿勢（情報取得装置２００の姿勢）と、注目領域に対応する面の領域パラメタと、に応じて、観測フレームに対応する画像平面上に、当該面（換言すると、基準フレームに対応する注目領域）を投影する。ここで、観測フレームに対応する画像平面とは、当該観測フレームに対応する視点から撮像された上記偏光画像の画像平面、または、当該視点から撮像され得る上記偏光画像の画像平面に相当する。これは、基準フレームに対応する画像平面についても同様である。

例えば、図９は、本実施形態に係る情報処理装置による物体の形状の推定に係る処理について説明するための説明図であり、基準フレーム及び観測フレームそれぞれに対応する視点の姿勢と、注目領域に対応する面と、の間の関係について示している。図９において、参照符号Ｄ２０１は、注目領域に対応する面を模式的に示している。また、参照符号Ｄ２０３は、注目領域に対応する面中の注目している位置（以降では、「注目位置」とも称する）を模式的に示している。参照符号Ｐ１０１ａは、基準フレームに対応する視点を示している。参照符号Ｄ１０１ａは、基準フレームに対応する画像平面を模式的に示している。参照符号Ｐ１０３ａは、注目位置Ｐ２０３に対応する画像平面Ｄ１０１ａ上の画素を模式的に示している。即ち、画素Ｐ１０３ａは、画像平面Ｄ１０１ａ上の注目領域（即ち、面Ｄ２０１に対応する領域）中の画素に相当する。参照符号Ｐ１０１ｂは、観測フレームに対応する視点の姿勢を示している。参照符号Ｄ１０１ｂは、観測フレームに対応する画像平面を模式的に示している。参照符号Ｐ１０３ｂは、注目位置Ｐ２０３に対応する画像平面Ｄ１０１ｂ上の画素を模式的に示している。即ち、画素Ｐ１０３ｂは、画像平面Ｄ１０１ｂ上の注目領域中の画素に相当する。

また、図１０は、本実施形態に係る情報処理装置による物体の形状の推定に係る処理について説明するための説明図であり、基準フレーム及び観測フレームそれぞれに対応する画像平面が分割された各領域を模式的に示している。図１０において、参照符号Ｄ１０１ａ及びＤ１０１ｂは、図９に示す画像平面Ｄ１０１ａ及びＤ１０１ｂの一例を示している。また、図１０において参照符号Ｄ２０１ａは、画像平面Ｄ１０１ａ上における注目領域を模式的に示している。同様に、参照符号Ｄ２０１ｂは、画像平面Ｄ１０１ｂ上における注目領域を模式的に示している。即ち、注目領域Ｄ２０１ａ及びＤ２０１ｂのそれぞれは、実空間上における同一平面を示している。また、参照符号Ｐ１０３ａは、図９に示す画像平面Ｄ１０１ａ上の画素Ｐ１０３ａを示している。同様に、参照符号Ｐ１０３ｂは、図９に示す画像平面Ｄ１０１ｂ上の画素Ｐ１０３ｂを示している。

ここで、基準フレームに対応する画像平面Ｄ１０１ａ上における、注目位置Ｐ２０３に対応する画素Ｐ１０３ａ（即ち、注目領域Ｄ２０１ａ中の画素）の当該画像平面Ｄ１０１ａ上における位置ｕ_０（以降では、「画素位置」とも称する）を、以下に示す（式２）で表すものとする。

また、観測フレームに対応する画像平面Ｄ１０１ｂにおける面Ｄ２０１の法線ベクトル（即ち、図１０に示す注目領域Ｄ２０１ｂの法線ベクトル）をｑ^－で示すものとする。なお、本説明において、「ｑ^－」は、「ｑ」の上にバーが付された文字を示すものとする。また、以降の説明においては、法線ベクトルｑ^－を「平面法線ベクトルの初期値」とも称する。

なお、平面法線ベクトルの初期値ｑ^－については、取得方法は特に限定されない。例えば、偏光画像に基づく幾何構造情報の分布（例えば、法線マップ）から注目領域の法線に関する情報が取得され、当該注目領域と視点との間の距離についてはユーザ設定の固定値を利用されることで、平面法線ベクトルの初期値ｑ^－が取得されてもよい。また、他の一例として、注目領域に対応する平面に対する相対的な視点の姿勢（情報取得装置２００の姿勢）が固定であるものとして、固定の法線及び距離が利用されてもよい。また、他の一例として、視点の姿勢の変化を加速度センサ等により検出可能な場合には、注目領域に対応する平面が特定の向きを向いているものと想定して（例えば、注目領域が地面や壁面であるものと想定して）、重力方向のベクトルと視点の姿勢とに基づき算出される当該平面の法線と固定の距離とが利用されてもよい。また、過去の観測及び推定に基づく注目領域の３次元モデルが利用可能な場合には、視点の姿勢を利用することで偏光画像の画像平面上における当該注目領域を当該３次元モデルに射影することで、法線と距離とを得ることも可能である。

上記に基づき、観測フレームに対応する画素Ｐ１０１ｂの画像平面Ｄ１０１ｂにおける画素位置は、例えば、基準フレームに対応する画素Ｐ１０１ａの画素位置ｕ_０と、平面法線ベクトルの初期値ｑ^－とに基づき、Ｗ_Ｑ（ｕ_０，ｑ^－）で表される。なお、Ｗ_Ｑは、射影を示す関数である。

領域パラメタ推定部１１１は、基準フレームに対応する注目領域Ｄ２０１ａ中の注目位置Ｐ２０３に対応する画素Ｐ１０３ａを逐次変更し、当該画素Ｐ１０３ａと、観測フレーム側の対応する画素Ｐ１０３ｂと、の間において、画素値（即ち、幾何構造情報）の差分和を算出する。そして、領域パラメタ推定部１１１は、基準フレームと観測フレームとの間における上記注目位置Ｐ２０３に対応する画素の画素値の差分和（即ち、画素Ｐ１０３ａ及びＰ１０３ｂ間における画素値の差分和）をコストとした最小化問題を解くことで、当該注目領域に対応する面の実空間上の位置及び姿勢（特に、当該面の深度）を推定する。

ここで、平面法線ベクトルの初期値ｑ^－に対する当該平面法線ベクトルの補正量Δｑとする。即ち、補正量Δｑは、注目領域に対応する面の法線ベクトルｑと、上記平面法線ベクトルの初期値ｑ^－と、の間の変化量に相当する。このとき、上記コストは、例えば、以下に（式３）として示す計算式により算出される。

なお、上記（式３）において、左辺に示すｅ（ｑ^－＋Δｑ）が上記コストに相当する。また、ｕ_０ｉは、基準フレームに対応する画像平面Ｄ１０１ａ上における注目領域Ｄ２０１ａ内のｉ番目の画素の画素位置を示している。また、Ｉ_Ｒ［ｕ_０ｉ］は、基準フレームに対応する画像平面Ｄ１０１ａにおける、画素位置ｕ_０ｉの画素Ｐ１０３ａの画素値を示している。同様に、Ｉ_Ｑ［ｗ_Ｑ（ｕ_０ｉ，ｑ^－＋Δｑ）］は、観測フレームに対応する画像平面Ｄ１０１ｂにおいて、画素位置ｗ_Ｑ（ｕ_０ｉ，ｑ^－＋Δｑ）の画素Ｐ１０３ｂの画素値を示している。なお、画素位置ｗ_Ｑ（ｕ_０ｉ，ｑ^－＋Δｑ）は、前述した通り、基準フレームに対応する画像平面Ｄ１０１ａの画素Ｐ１０３ａが、観測フレームに対応する画像平面Ｄ１０１ｂに射影された画素Ｐ１０３ｂの画素位置を示している。なお、基準フレームに対応する画像平面Ｄ１０１ａの画素Ｐ１０３ａが「第１の画素」の一例に相当し、当該画素Ｐ１０３ａが観測フレームに対応する画像平面Ｄ１０１ｂに射影された画素Ｐ１０３ｂが「第２の画素」の一例に相当する。

以上のようにして、領域パラメタ推定部１１１は、平面法線ベクトルの初期値ｑ^－の条件を変えながら、上記コストの計算を反復して実行し、よりコストの小さくなる条件を探索する。上記計算に基づき、平面法線ベクトルの初期値ｑ^－に対する補正量Δｑが得られる。これにより、領域パラメタ推定部１１１は、注目領域に対応する面の実空間上の位置及び姿勢（換言すると、当該面の上記（式１）で示した領域パラメタ）を推定することが可能となる。

そして、領域パラメタ推定部１１１は、注目領域に対応する面の実空間上の位置及び姿勢の推定結果を示す情報と、当該注目領域と３次元モデルの表面領域とのマッチングの結果を示す情報と、を３次元モデル更新部１１３に出力する。

３次元モデル更新部１１３は、注目領域に対応する面の実空間上の位置及び姿勢の推定結果を示す情報と、当該注目領域と３次元モデルの表面領域とのマッチングの結果を示す情報と、を領域パラメタ推定部１１１から取得する。３次元モデル更新部１１３は、取得した当該情報に基づき、記憶部１１５にデータが保持された３次元モデルのうち、対応する表面領域の位置及び姿勢を、上記推定結果を示す情報に基づき補正することで、当該３次元モデルを更新する。

なお、注目領域に対応する面が、３次元モデル表面領域のうち、位置及び姿勢が過去に推定されていない（即ち、モデル化が行われていない）場合もある。このような場合には、マッチング処理部１０９から、領域パラメタ推定部１１１を介して３次元モデル更新部１１３に、上記マッチングの結果を示す情報が通知されなくてもよい。なお、この場合には、３次元モデル更新部１１３は、上記推定結果を示す情報に基づき、対象領域に対応する面をモデル化した表面領域を、上記３次元モデルに付加的に形成すればよい。

以上のようにして、偏光画像の画像平面から分割された各領域について、当該領域に対応する実空間上の面の位置及び姿勢が推定され、当該推定結果に基づき、記憶部１１５にデータが保持された３次元モデルが更新される。また、視点の姿勢（情報取得装置２００の姿勢）が変化した場合においても、当該姿勢の推定結果と、当該視点において取得された偏光画像と、に応じて上述した一連の処理が実行されることで、３次元モデルが更新されることとなる。

３次元形状推定部１１７は、記憶部１１５にデータが保持された３次元モデルに基づき、実空間上の物体の形状（例えば、表面形状）を推定する。また、３次元形状推定部１１７は、当該３次元モデルに基づき、実空間上の物体の形状を模擬したデータを生成してもよい。具体的な一例として、３次元形状推定部１１７は、当該３次元モデルに基づき、実空間上の物体の３次元的な形状を、頂点、辺、及び面の集合として再現したポリゴンメッシュを生成してもよい。そして、３次元形状推定部１１７は、上記物体の形状の推定結果を示す情報や、上記物体の形状を模擬したデータを、出力データとして所定の出力先に出力する。

なお、図４に示した情報処理装置１００の機能構成はあくまで一例であり、必ずしも図４に示す例のみには限定されない。具体的な一例として、図４に示した情報処理装置１００の各構成のうち、一部の構成が当該情報処理装置１００とは異なる装置（例えば、外部のサーバ等）に設けられていてもよい。また、上述した情報処理装置１００の各機能が、複数の装置が連携することにより実現されてもよい。また、情報処理装置１００と情報取得装置２００とが一体的に構成されていてもよい。

以上、図４～図１０を参照して、本実施形態に係る情報処理システムの機能構成の一例について、特に、図１に示した情報処理装置１００の構成に着目して説明した。

＜３．２．処理＞
続いて、本実施形態に係る情報処理システムの一連の処理の流れの一例について、特に、図１に示した情報処理装置１００の処理に着目して説明する。例えば、図１１は、本実施形態に係る情報処理装置の一連の処理の流れの一例を示したフローチャートである。

図１１に示すように、情報処理装置１００（前処理部１０１）は、偏光センサ２３０により取得された偏光画像（偏光情報）や、撮像部２１０ａ及び２１０ｂにより撮像された被写体の画像（例えば、ステレオ画像）等を含む入力データを、情報取得装置２００から取得する。情報処理装置１００は、入力データとして取得した各種情報に対して所定の前処理を施してもよい。なお、当該前処理の内容については前述したため詳細な説明は省略する（Ｓ１０１）。

情報処理装置１００（領域分割部１０５）は、取得した偏光画像中における空間連続性を判定して物理的な境界を検出することで、当該偏光画像の画像平面を複数の領域に分割する。また、情報処理装置１００は、偏光画像の画像平面が分割された複数の領域それぞれが識別可能となるように、当該複数の領域それぞれに対してラベル付けを行う。このとき、情報処理装置１００は、隣接する画素間において幾何構造情報の変化が閾値以下の部分については、同一面上の領域として近似したうえで、当該ラベル付けを行ってもよい（Ｓ１０３）。

また、情報処理装置１００（姿勢推定部１０３）は、所定の視点の姿勢を推定する。なお、当該推定の方法は特に限定されない。例えば、情報処理装置１００は、撮像部２１０ａ及び２１０ｂにより撮像された被写体のステレオ画像における視差を利用し、被写体と所定の視点との間の距離を推定することで、当該視点の姿勢を推定してもよい（Ｓ１０５）。

情報処理装置１００（マッチング処理部１０９）は、視点の姿勢の推定結果と、過去に推定済みの３次元モデルと、の位置関係に応じて、偏光画像の画像平面が分割された複数の領域それぞれと、当該次元モデルの各表面領域と、の間でマッチングを行う（Ｓ１０７）。

情報処理装置１００（マッチング処理部１０９）は、偏光画像の画像平面から分割された各領域のうちいずれかの領域を注目領域として抽出する。情報処理装置１００（領域パラメタ推定部１１１）は、注目領域の何構造情報に基づき、当該注目領域に対応する面の領域パラメタを推定する。情報処理装置１００は、基準フレームに対応する視点の姿勢と、注目領域に対応する面の領域パラメタと、に応じて、観測フレームに対応する画像平面上に、当該面を投影する。情報処理装置１００は、基準フレームに対応する注目領域中の注目位置に対応する画素を逐次変更し、当該画素と、当該画素が投影された観測フレーム側の画素と、の間において画素値（即ち、幾何構造情報）の差分和を算出する。そして、情報処理装置１００は、基準フレームと観測フレームとの間における上記注目位置に対応する画素の画素値の差分和をコストとした最小化問題を解くことで、当該注目領域に対応する面の実空間上の位置及び姿勢を推定する。なお、当該推定に係る処理については前述したため、詳細な説明は省略する（Ｓ１０９）。

情報処理装置１００（３次元モデル更新部１１３）は、注目領域に対応する面の実空間上の位置及び姿勢の推定結果に基づき、過去に推定された３次元モデルのうち、対応する表面領域の位置及び姿勢を補正することで、当該３次元モデルを更新する（Ｓ１１１）。

なお、参照符号Ｓ１０９及びＳ１１１で示した処理については、偏光画像の画像平面から分割された複数の領域のうち２以上の領域を対象として、当該領域を注目領域として実行されてもよい。

以上のような処理により、情報処理装置１００は、例えば、逐次更新される上記３次元モデルに基づき、実空間上の物体の形状（例えば、表面形状）を推定することが可能となる。また、他の一例として、情報処理装置１００は、当該３次元モデルに基づき、実空間上の物体の形状を模擬したデータ（例えば、ポリゴンメッシュ等）を生成することも可能となる。

情報処理装置１００は、一連の処理の終了が指示されるまで（Ｓ１１３、ＮＯ）、参照符号Ｓ１０１～Ｓ１１１で示した一連の処理を実行する。そして、情報処理装置１００は、一連の処理の終了が指示されると（Ｓ１１３、ＹＥＳ）、上述した処理の実行を終了する。

以上、図１１を参照して、本実施形態に係る情報処理システムの一連の処理の流れの一例について、特に、図１に示した情報処理装置１００の処理に着目して説明した。

＜３．３．変形例＞
続いて、本実施形態に係る情報処理システムの変形例について説明する。本変形例では、複数の観測フレームを利用する場合の一例について説明する。例えば、図１２は、変形例に係る情報処理装置による物体の形状の推定に係る処理について説明するための説明図であり、基準フレーム及び観測フレームそれぞれに対応する視点の姿勢と、注目領域に対応する面と、の間の関係について示している。

図１２において、参照符号Ｄ２０１及びＰ２０３は、図９を参照して説明した例と同様の対象を示している。また、図１２においては、参照符号Ｐ１０１ａが基準フレームに対応する視点を示しており、参照符号Ｐ１０１ｂ及びＰ１０１ｃのそれぞれが観測フレームに対応する視点を示している。即ち、参照符号Ｄ１０１ａが基準フレームに対応する画像平面を模式的に示しており、参照符号Ｄ１０１ｂ及びＤ１０１ｃのそれぞれが各観測フレームに対応する画像平面を模式的に示している。また、参照符号Ｐ１０３ａ、Ｐ１０３ｂ、及びＰ１０３ｃは、画像平面Ｄ１０１ａ、Ｄ１０１ｂ、及びＤ１０１ｃそれぞれにおける、注目位置Ｐ２０３に対応する画素を模式的に示している。

即ち、変形例に係る情報処理装置１００は、基準フレームに対応する注目領域中の注目位置Ｐ２０３に対応する画素Ｐ１０３ａを、複数の観測フレームそれぞれに対応する画像平面Ｄ１０１ｂ及びＤ１０１ｃに射影する。そして、変形例に係る情報処理装置１００は、基準フレームと、複数の観測フレームのそれぞれと、の間で、注目位置Ｐ２０３に対応する画素の画素値の差分和をそれぞれ算出し、当該差分和に基づきコストｅ（ｑ^－＋Δｑ）を算出する。このとき、当該コストｅ（ｑ^－＋Δｑ）は、以下に（式４）として示す計算式で表される。

なお、上記（式４）において、Ｉ_Ｒ［ｕ_０ｉ］は、基準フレームに対応する画像平面Ｄ１０１ａにおける、画素位置ｕ_０ｉの画素Ｐ１０３ａの画素値を示している。また、ｗ_ＱＡ（ｕ_０ｉ，ｑ^－＋Δｑ）及びｗ_ＱＢ（ｕ_０ｉ，ｑ^－＋Δｑ）は、図１２に示す２つの観測フレームに対応する画素Ｐ１０３ｂ及びＰ１０３ｃそれぞれの画素位置を示している。なお、本説明では、便宜上、ｗ_ＱＡ（ｕ_０ｉ，ｑ^－＋Δｑ）が、画像平面Ｄ１０１ｂにおける画素Ｐ１０３ｂの画素位置を示しており、ｗ_ＱＢ（ｕ_０ｉ，ｑ^－＋Δｑ）が、画像平面Ｄ１０１ｃにおける画素Ｐ１０３ｃの画素位置を示しているものとする。即ち、Ｉ_ＱＡ［ｗ_ＱＡ（ｕ_０ｉ，ｑ^－＋Δｑ）］は、画像平面Ｄ１０１ｂにおいて、画素位置ｗ_ＱＡ（ｕ_０ｉ，ｑ^－＋Δｑ）の画素Ｐ１０３ｂの画素値を示している。同様に、Ｉ_ＱＢ［ｗ_Ｑｂ（ｕ_０ｉ，ｑ^－＋Δｑ）］は、画像平面Ｄ１０１ｃにおいて、画素位置ｗ_ＱＢ（ｕ_０ｉ，ｑ^－＋Δｑ）の画素Ｐ１０３ｂの画素値を示している。

そして、情報処理装置１００は、平面法線ベクトルの初期値ｑ^－の条件を変えながら、上記コストの計算を反復して実行し、よりコストの小さくなる条件を探索することで、注目領域に対応する面の実空間上の位置及び姿勢（換言すると、当該面の領域パラメタ）を推定すればよい。

以上のように、観測フレームを複数利用することで、観測フレームが１つのみの場合に比べて、注目領域に対応する面の実空間上の位置及び姿勢の推定に係るロバスト性をより向上させることが可能となる。

なお、上記推定に際し、各画像平面において注目領域は１つの面を示す領域として分割されているため、当該注目領域中の隣接画素間において、当該隣接画素それぞれに対応する深度は連続することとなる（即ち、不連続とはならない）。そこで、このような隣接画素それぞれに対応する深度の連続性に関する条件を、上記コスト算出の拘束条件として利用してもよい。このような処理を適用することで、注目領域に対応する面の実空間上の位置及び姿勢の推定に係るロバスト性をさらに向上させることも可能となる。

以上、本実施形態に係る情報処理システムの変形例として、図１２を参照して、複数の観測フレームを利用する場合の一例について説明した。

＜＜４．ハードウェア構成＞＞
続いて、図１３を参照しながら、前述した情報処理装置１００のように、本開示の一実施形態に係る情報処理システムを構成する情報処理装置のハードウェア構成の一例について、詳細に説明する。図１３は、本開示の一実施形態に係る情報処理システムを構成する情報処理装置のハードウェア構成の一構成例を示す機能ブロック図である。

本実施形態に係る情報処理システムを構成する情報処理装置９００は、主に、ＣＰＵ９０１と、ＲＯＭ９０２と、ＲＡＭ９０３と、を備える。また、情報処理装置９００は、更に、ホストバス９０７と、ブリッジ９０９と、外部バス９１１と、インタフェース９１３と、入力装置９１５と、出力装置９１７と、ストレージ装置９１９と、ドライブ９２１と、接続ポート９２３と、通信装置９２５とを備える。

ＣＰＵ９０１は、演算処理装置及び制御装置として機能し、ＲＯＭ９０２、ＲＡＭ９０３、ストレージ装置９１９又はリムーバブル記録媒体９２７に記録された各種プログラムに従って、情報処理装置９００内の動作全般又はその一部を制御する。ＲＯＭ９０２は、ＣＰＵ９０１が使用するプログラムや演算パラメタ等を記憶する。ＲＡＭ９０３は、ＣＰＵ９０１が使用するプログラムや、プログラムの実行において適宜変化するパラメタ等を一次記憶する。これらはＣＰＵバス等の内部バスにより構成されるホストバス９０７により相互に接続されている。例えば、図４に示す前処理部１０１、姿勢推定部１０３、領域分割部１０５、マッチング処理部１０９、領域パラメタ推定部１１１、３次元モデル更新部１１３、及び３次元形状推定部１１７は、ＣＰＵ９０１により構成され得る。

ホストバス９０７は、ブリッジ９０９を介して、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バスなどの外部バス９１１に接続されている。また、外部バス９１１には、インタフェース９１３を介して、入力装置９１５、出力装置９１７、ストレージ装置９１９、ドライブ９２１、接続ポート９２３及び通信装置９２５が接続される。

入力装置９１５は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、レバー及びペダル等、ユーザが操作する操作手段である。また、入力装置９１５は、例えば、赤外線やその他の電波を利用したリモートコントロール手段（いわゆる、リモコン）であってもよいし、情報処理装置９００の操作に対応した携帯電話やＰＤＡ等の外部接続機器９２９であってもよい。さらに、入力装置９１５は、例えば、上記の操作手段を用いてユーザにより入力された情報に基づいて入力信号を生成し、ＣＰＵ９０１に出力する入力制御回路などから構成されている。情報処理装置９００のユーザは、この入力装置９１５を操作することにより、情報処理装置９００に対して各種のデータを入力したり処理動作を指示したりすることができる。

出力装置９１７は、取得した情報をユーザに対して視覚的又は聴覚的に通知することが可能な装置で構成される。このような装置として、ＣＲＴディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ＥＬディスプレイ装置及びランプ等の表示装置や、スピーカ及びヘッドホン等の音声出力装置や、プリンタ装置等がある。出力装置９１７は、例えば、情報処理装置９００が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処理装置９００が行った各種処理により得られた結果を、テキスト又はイメージで表示する。他方、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して出力する。

ストレージ装置９１９は、情報処理装置９００の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置９１９は、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス又は光磁気記憶デバイス等により構成される。このストレージ装置９１９は、ＣＰＵ９０１が実行するプログラムや各種データ等を格納する。例えば、図４に示す記憶部１１５は、ストレージ装置９１９により構成され得る。

ドライブ９２１は、記録媒体用リーダライタであり、情報処理装置９００に内蔵、あるいは外付けされる。ドライブ９２１は、装着されている磁気ディスク、光ディスク、光磁気ディスク又は半導体メモリ等のリムーバブル記録媒体９２７に記録されている情報を読み出して、ＲＡＭ９０３に出力する。また、ドライブ９２１は、装着されている磁気ディスク、光ディスク、光磁気ディスク又は半導体メモリ等のリムーバブル記録媒体９２７に記録を書き込むことも可能である。リムーバブル記録媒体９２７は、例えば、ＤＶＤメディア、ＨＤ－ＤＶＤメディア又はＢｌｕ－ｒａｙ（登録商標）メディア等である。また、リムーバブル記録媒体９２７は、コンパクトフラッシュ（登録商標）（ＣＦ：ＣｏｍｐａｃｔＦｌａｓｈ）、フラッシュメモリ又はＳＤメモリカード（ＳｅｃｕｒｅＤｉｇｉｔａｌｍｅｍｏｒｙｃａｒｄ）等であってもよい。また、リムーバブル記録媒体９２７は、例えば、非接触型ＩＣチップを搭載したＩＣカード（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔｃａｒｄ）又は電子機器等であってもよい。

接続ポート９２３は、情報処理装置９００に直接接続するためのポートである。接続ポート９２３の一例として、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（ＳｍａｌｌＣｏｍｐｕｔｅｒＳｙｓｔｅｍＩｎｔｅｒｆａｃｅ）ポート等がある。接続ポート９２３の別の例として、ＲＳ－２３２Ｃポート、光オーディオ端子、ＨＤＭＩ（登録商標）（Ｈｉｇｈ－ＤｅｆｉｎｉｔｉｏｎＭｕｌｔｉｍｅｄｉａＩｎｔｅｒｆａｃｅ）ポート等がある。この接続ポート９２３に外部接続機器９２９を接続することで、情報処理装置９００は、外部接続機器９２９から直接各種のデータを取得したり、外部接続機器９２９に各種のデータを提供したりする。

通信装置９２５は、例えば、通信網（ネットワーク）９３１に接続するための通信デバイス等で構成された通信インタフェースである。通信装置９２５は、例えば、有線若しくは無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）又はＷＵＳＢ（ＷｉｒｅｌｅｓｓＵＳＢ）用の通信カード等である。また、通信装置９２５は、光通信用のルータ、ＡＤＳＬ（ＡｓｙｍｍｅｔｒｉｃＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒＬｉｎｅ）用のルータ又は各種通信用のモデム等であってもよい。この通信装置９２５は、例えば、インターネットや他の通信機器との間で、例えばＴＣＰ／ＩＰ等の所定のプロトコルに則して信号等を送受信することができる。また、通信装置９２５に接続される通信網９３１は、有線又は無線によって接続されたネットワーク等により構成され、例えば、インターネット、家庭内ＬＡＮ、赤外線通信、ラジオ波通信又は衛星通信等であってもよい。

以上、本開示の実施形態に係る情報処理システムを構成する情報処理装置９００の機能を実現可能なハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。なお、図１３では図示しないが、情報処理システムを構成する情報処理装置９００に対応する各種の構成を当然備える。

なお、上述のような本実施形態に係る情報処理システムを構成する情報処理装置９００の各機能を実現するためのコンピュータプログラムを作製し、パーソナルコンピュータ等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリなどである。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信してもよい。また、当該コンピュータプログラムを実行させるコンピュータの数は特に限定されない。例えば、当該コンピュータプログラムを、複数のコンピュータ（例えば、複数のサーバ等）が互いに連携して実行してもよい。

＜＜５．応用例＞＞
続いて、上述した本実施形態に係る技術の応用例について説明する。前述したように、本実施形態に係る情報処理システムに依れば、実空間上の物体の３次元的な形状を、当該物体に付された図柄や模様に依存せずに、より正確に推定することが可能である。このような特性から、本実施形態に係る情報処理システムは、多様な技術に応用することが可能である。

（ＡＲ／ＶＲへの応用）
具体的な一例として、上述した本実施形態に係る技術を、ヘッドマウントディスプレイやメガネ側のウェアラブルデバイスを利用した、ＡＲ（Augmented Reality）やＶＲ（Virtual Reality）のアプリケーションに応用することが可能である。例えば、ＡＲに着目した場合には、実空間上の物体の３次元的な形状をより精度良く推定することが可能であるため、物体の表面に沿って仮想情報（例えば、仮想ディスプレイ、仮想オブジェクト等）を重畳させるといった表現を、より精度良く実現することが可能となる。即ち、当該仮想オブジェクトがあたかもその場に存在するようなリアリティのある表現が可能となる。

また、本実施形態に係る技術を、物体の形状を利用した３Ｄ物体認識技術と組み合わせることで、実空間上の物体の特性に応じた表現も可能となる。

また、仮想オブジェクトと実空間上の物体との間のインタラクションをより好適な態様で実現することも可能となる。具体的な一例として、仮想的なキャラクタが床や壁に沿って歩くような動作や、当該キャラクタがテーブルや椅子の上に乗るような動作を、より自然に（即ち、よりリアリティのあるように）表現することが可能となる。また、壁や床に仮想的な窓を重畳させ、当該窓の先に現実世界の空間とは異なる仮想的な空間をより自然に表現することも可能となる。また、例えば、「壁や床に仮想的なディスプレイやキャンバスを設置する」、「仮想的なキャラクタが実空間上の物体の物陰に隠れる」、「実空間上の壁や床に投げられた仮想的なボールが当該壁や当該床で跳ね返る」、といったような表現をより自然に実現することも可能となる。また、階段等のような注意を要する場所に対して、ユーザに注意喚起を促す報知情報（例えば、警告等）を重畳表示させることも可能となる。

特に、本実施形態に係る情報処理システムにおいては、偏光画像を利用して物体の表面の幾何学的な構造（例えば、物体の表面の法線）を推定する構成となっており、物体の光学像に基づき当該物体の構造を推定する場合に比べて、当該推定に係る処理負荷を低減することが可能である。また、本実施形態に係る情報処理システムにおいては、図７を参照して説明した近似処理により、一連の連続する曲面が１つの面として認識される。そのため、当該曲面を３次元モデルとして再現する場合に、従来の手法に比べてデータ量をより低減することが可能となる。そのため、ヘッドマウントディスプレイやメガネ側のウェアラブルデバイス等のような、利用可能な電力が制限されている装置（例えば、バッテリー駆動の装置）や、処理能力が比較的低い装置においても、上述した各種処理を実現することが可能となる。

（自律移動体への応用）
また、本実施形態に係る技術を、自律走行車、ドローン、及びロボット等のような自律移動体の動作や制御に応用することも可能である。

具体的な一例として、本実施形態に係る技術を利用することで、実空間上の環境構造の３次元モデルを取得することが可能である。これにより、例えば、自律移動体は、当該３次元モデルに基づき障害物のより少ない安全な移動経路を認識し、当該移動経路に沿って移動することも可能となる。また、自律移動体は、当該３次元モデルに基づき、段差や階段等の形状変化を認識し、当該形状変化に対してより適切な動きや制御を行うことも可能となる。

また、ドローン等の自律飛行体に応用する場合においては、着陸時における接地面の形状を推定することで、安定した着陸動作を実現することも可能となる。

（創作支援への応用）
また、本実施形態に係る技術を、創作支援に応用することも可能である。具体的には、３Ｄプリンティング等を利用した製作において、原形モデルの作成に、本実施形態に係る技術を応用することが可能である。

（検査への応用）
また、本実施形態に係る技術を、各種検査に応用することも可能である。具体的には、物体の表面等のような連続領域に生じた部分的な損傷やひび割れ等の検出に、本実施形態に係る技術を応用することが可能である。

以上、本実施形態に係る技術の応用例について説明した。

＜＜６．むすび＞＞
以上説明したように、本実施形態に係る情報処理装置は、偏光方向が互いに異なる複数の偏光それぞれの検出結果に応じた幾何構造情報がマッピングされた、実空間上の視点に対応する画像平面を、当該幾何構造情報の分布に応じて１以上の領域に分割する。例えば、情報処理装置は、上記視点に保持された所定の偏光センサによる偏光画像の撮像結果に基づく幾何構造情報の分布に応じて、当該視点に対応する画像平面を１以上の領域に分割してもよい。また、情報処理装置は、上記視点の位置及び姿勢のうち少なくともいずれかを示す姿勢情報を取得する。そして、情報処理装置は、画像平面が分割された少なくとも一部の領域を注目領域として、互いに異なる複数の視点間で対応付けられる、当該複数の視点それぞれに対応する画像平面における当該注目領域中の幾何構造情報に基づき、実空間上の物体の形状を推定する。

以上のような構成により、実空間上の物体間の境界や、当該物体を構成する複数の面の境界等の物理的な境界を検出することが可能となる。そのため、実空間上の物体の表面に図柄や模様が付されているか否かに関わらず、上記画像平面を物理的な境界で１以上の領域に分割することが可能となる。即ち、本実施形態に係る情報処理装置に依れば、実空間上の物体の３次元的な形状を、当該物体に付された図柄や模様に依存せずに、より精度良く（即ち、より正確に）推定することが可能となる。

また、本実施形態に係る情報処理装置では、例えば、偏光画像の撮像結果に応じた幾何構造情報の分布に基づき物体の表面の幾何学的な構造を推定する。そのため、物体の光学像に基づき当該物体の構造を推定する場合に比べて、当該推定に係る処理負荷をより低減することが可能である。

また、本実施形態に係る情報処理装置は、画像平面において互いに隣接する複数の画素それぞれに対応する幾何構造情報に応じて、当該複数の画素が、物体の表面領域のうち同一面上の位置に対応しているものと近似してもよい。このような近似処理により、一連の連続する曲面のように、空間的な連続性を有する１つの面（特に、位置に応じて法線方向が異なる１つの面）を、１つの領域として画像平面から分割することが可能となる。そのため、例えば、曲面を３次元モデルとして再現する場合に、従来の手法に比べてデータ量をより低減することが可能となる。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

なお、以下のような構成も本開示の技術的範囲に属する。
（１）
幾何構造情報がマッピングされた、実空間上の視点に対応する画像平面を、当該幾何構造情報の分布に応じて１以上の領域に分割する分割部と、
前記視点の位置及び姿勢のうち少なくともいずれかを示す姿勢情報を取得する取得部と、
前記画像平面が分割された少なくとも一部の前記領域を注目領域として抽出する抽出部と、
互いに異なる複数の視点間で対応付けられる、当該複数の視点それぞれに対応する前記画像平面における前記注目領域中の前記幾何構造情報に基づき、実空間上の物体の形状を推定する推定部と、
を備え、
前記幾何構造情報は、偏光方向が互いに異なる複数の偏光それぞれの検出結果に応じた情報である、
情報処理装置。
（２）
前記推定部は、前記複数の視点間で対応付けられる、当該複数の視点それぞれに対応する前記画像平面における前記注目領域間において、当該注目領域中の画素に対応する前記幾何構造情報の差に応じたコストに基づき、実空間上の物体の表面領域のうち、当該注目領域に対応する面の実空間上における位置及び姿勢のうち少なくともいずれかを推定する、前記（１）に記載の情報処理装置。
（３）
前記推定部は、
第１の視点に対応する前記画像平面における前記注目領域中の第１の画素を、前記第１の視点及び第２の視点それぞれの前記姿勢情報に応じて、当該第２の視点に対応する前記前記画像平面における前記注目領域中に射影することで第２の画素を特定し、
前記第１の画素に対応する前記幾何構造情報と、前記第２の画素に対応する前記幾何構造情報と、の差に応じた前記コストを算出する、
前記（２）に記載の情報処理装置。
（４）
前記推定部は、
互いに異なる複数の前記第２の視点それぞれについて、前記第１の画素に対応する前記幾何構造情報と、当該第２の視点について特定した前記第２の画素に対応する前記幾何構造情報と、の差に応じた前記コストを算出し、
当該複数の第２の視点それぞれについて算出された前記コストに基づき、前記注目領域に対応する前記面の実空間上における位置及び姿勢のうち少なくともいずれかを推定する、
前記（３）に記載の情報処理装置。
（５）
前記推定部は、前記コストに基づき、前記注目領域に対応する前記面の、前記視点に対する深度を推定する、前記（２）～（４）のいずれか一項に記載の情報処理装置。
（６）
前記分割部は、前記幾何構造情報の分布に応じて、実空間上における物理的な境界を推定することで、前記画像平面を複数の前記領域に分割する、前記（１）～（５）のいずれか一項に記載の情報処理装置。
（７）
前記分割部は、
前記画像平面において互いに隣接する複数の画素それぞれに対応する前記幾何構造情報に応じて、当該複数の画素が、前記物体の表面領域のうち同一面上の位置に対応しているものと近似し、
当該近似の結果に応じて、当該画像平面を複数の前記領域に分割する、
前記（６）に記載の情報処理装置。
（８）
前記分割部は、前記近似の結果に応じて、前記物体の表面領域のうち空間的な連続性を有する１つの面を、１つの前記領域として前記画像平面から分割する、前記（７）に記載の情報処理装置。
（９）
前記空間的な連続性を有する１つの面は、平面または曲面である、前記（８）に記載の情報処理装置。
（１０）
前記幾何構造情報は、前記偏光の光強度に応じて算出される、前記（１）～（９）のいずれか一項に記載の情報処理装置。
（１１）
前記幾何構造情報は、前記物体の表面の法線に関する情報である、前記（１０）に記載の情報処理装置。
（１２）
前記分割部は、前記視点に保持された所定の偏光センサによる偏光画像の撮像結果に基づく前記幾何構造情報の分布に応じて、当該視点に対応する前記画像平面を１以上の前記領域に分割する、前記（１）～（１１）のいずれか一項に記載の情報処理装置。
（１３）
前記視点は、移動可能に構成され、
前記偏光画像及び前記姿勢情報は、移動前後の前記視点それぞれについて取得される、
前記（１２）に記載の情報処理装置。
（１４）
コンピュータが、
幾何構造情報がマッピングされた画像平面を、当該幾何構造情報の分布に応じて１以上の領域に分割することと、
実空間上の視点における視点の位置及び姿勢のうち少なくともいずれかを示す姿勢情報を取得することと、
前記画像平面が分割された少なくとも一部の前記領域を注目領域として抽出することと、
互いに異なる複数の視点間で対応付けられる、当該複数の視点それぞれに対応する前記画像平面における前記注目領域中の前記幾何構造情報に基づき、実空間上の物体の形状を推定することと、
を含み、
前記幾何構造情報は、前記視点における偏光方向が互いに異なる複数の偏光それぞれの検出結果に応じた情報である、
情報処理方法。
（１５）
コンピュータに、
幾何構造情報がマッピングされた画像平面を、当該幾何構造情報の分布に応じて１以上の領域に分割することと、
実空間上の視点における視点の位置及び姿勢のうち少なくともいずれかを示す姿勢情報を取得することと、
前記画像平面が分割された少なくとも一部の前記領域を注目領域として抽出することと、
互いに異なる複数の視点間で対応付けられる、当該複数の視点それぞれに対応する前記画像平面における前記注目領域中の前記幾何構造情報に基づき、実空間上の物体の形状を推定することと、
を実行させ、
前記幾何構造情報は、前記視点における偏光方向が互いに異なる複数の偏光それぞれの検出結果に応じた情報である、
プログラム。

１情報処理システム
１００情報処理装置
１０１前処理部
１０３姿勢推定部
１０５領域分割部
１０７推定部
１０９マッチング処理部
１１１領域パラメタ推定部
１１３次元モデル更新部
１１５記憶部
１１７次元形状推定部
２００情報取得装置
２１０デプスセンサ
２１０ａ、２１０ｂ撮像部
２３０偏光センサ

Claims

幾何構造情報がマッピングされた、実空間上の視点に対応する画像平面を、当該幾何構造情報の分布に応じて１以上の領域に分割する分割部と、
前記視点の位置及び姿勢のうち少なくともいずれかを示す姿勢情報を取得する取得部と、
前記画像平面が分割された少なくとも一部の前記領域を注目領域として抽出する抽出部と、
互いに異なる複数の視点間で対応付けられる、当該複数の視点それぞれに対応する前記画像平面における前記注目領域中の前記幾何構造情報に基づき、実空間上の物体の形状を推定する推定部と、
を備え、
前記幾何構造情報は、偏光方向が互いに異なる複数の偏光それぞれの検出結果に応じた情報である、
情報処理装置。
前記推定部は、前記複数の視点間で対応付けられる、当該複数の視点それぞれに対応する前記画像平面における前記注目領域間において、当該注目領域中の画素に対応する前記幾何構造情報の差に応じたコストに基づき、実空間上の物体の表面領域のうち、当該注目領域に対応する面の実空間上における位置及び姿勢のうち少なくともいずれかを推定する、請求項１に記載の情報処理装置。
前記推定部は、
第１の視点に対応する前記画像平面における前記注目領域中の第１の画素を、前記第１の視点及び第２の視点それぞれの前記姿勢情報に応じて、当該第２の視点に対応する前記前記画像平面における前記注目領域中に射影することで第２の画素を特定し、
前記第１の画素に対応する前記幾何構造情報と、前記第２の画素に対応する前記幾何構造情報と、の差に応じた前記コストを算出する、
請求項２に記載の情報処理装置。
前記推定部は、
互いに異なる複数の前記第２の視点それぞれについて、前記第１の画素に対応する前記幾何構造情報と、当該第２の視点について特定した前記第２の画素に対応する前記幾何構造情報と、の差に応じた前記コストを算出し、
当該複数の第２の視点それぞれについて算出された前記コストに基づき、前記注目領域に対応する前記面の実空間上における位置及び姿勢のうち少なくともいずれかを推定する、
請求項３に記載の情報処理装置。
前記推定部は、前記コストに基づき、前記注目領域に対応する前記面の、前記視点に対する深度を推定する、請求項２に記載の情報処理装置。
前記分割部は、前記幾何構造情報の分布に応じて、実空間上における物理的な境界を推定することで、前記画像平面を複数の前記領域に分割する、請求項１に記載の情報処理装置。
前記分割部は、
前記画像平面において互いに隣接する複数の画素それぞれに対応する前記幾何構造情報に応じて、当該複数の画素が、前記物体の表面領域のうち同一面上の位置に対応しているものと近似し、
当該近似の結果に応じて、当該画像平面を複数の前記領域に分割する、
請求項６に記載の情報処理装置。
前記分割部は、前記近似の結果に応じて、前記物体の表面領域のうち空間的な連続性を有する１つの面を、１つの前記領域として前記画像平面から分割する、請求項７に記載の情報処理装置。
前記空間的な連続性を有する１つの面は、平面または曲面である、請求項８に記載の情報処理装置。
前記幾何構造情報は、前記偏光の光強度に応じて算出される、請求項１に記載の情報処理装置。
前記幾何構造情報は、前記物体の表面の法線に関する情報である、請求項１０に記載の情報処理装置。
前記分割部は、前記視点に保持された所定の偏光センサによる偏光画像の撮像結果に基づく前記幾何構造情報の分布に応じて、当該視点に対応する前記画像平面を１以上の前記領域に分割する、請求項１に記載の情報処理装置。
前記視点は、移動可能に構成され、
前記偏光画像及び前記姿勢情報は、移動前後の前記視点それぞれについて取得される、
請求項１２に記載の情報処理装置。
コンピュータが、
幾何構造情報がマッピングされた画像平面を、当該幾何構造情報の分布に応じて１以上の領域に分割することと、
実空間上の視点における視点の位置及び姿勢のうち少なくともいずれかを示す姿勢情報を取得することと、
前記画像平面が分割された少なくとも一部の前記領域を注目領域として抽出することと、
互いに異なる複数の視点間で対応付けられる、当該複数の視点それぞれに対応する前記画像平面における前記注目領域中の前記幾何構造情報に基づき、実空間上の物体の形状を推定することと、
を含み、
前記幾何構造情報は、前記視点における偏光方向が互いに異なる複数の偏光それぞれの検出結果に応じた情報である、
情報処理方法。
コンピュータに、
幾何構造情報がマッピングされた画像平面を、当該幾何構造情報の分布に応じて１以上の領域に分割することと、
実空間上の視点における視点の位置及び姿勢のうち少なくともいずれかを示す姿勢情報を取得することと、
前記画像平面が分割された少なくとも一部の前記領域を注目領域として抽出することと、
互いに異なる複数の視点間で対応付けられる、当該複数の視点それぞれに対応する前記画像平面における前記注目領域中の前記幾何構造情報に基づき、実空間上の物体の形状を推定することと、
を実行させ、
前記幾何構造情報は、前記視点における偏光方向が互いに異なる複数の偏光それぞれの検出結果に応じた情報である、
プログラム。