JP7420135B2

JP7420135B2 - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JP7420135B2
Application number: JP2021509021A
Authority: JP
Inventors: 遵五味田
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2019-03-27
Filing date: 2020-03-12
Publication date: 2024-01-23
Anticipated expiration: 2040-03-12
Also published as: JPWO2020195875A1; CN113474819A; DE112020001434T5; KR20210145734A; US20220198697A1; WO2020195875A1

Description

本技術は、実世界のモデリング等に適用可能な情報処理装置、情報処理方法、及びプログラムに関する。

従来、スマートフォン等の携帯端末や、ヘッドマウントディスプレイ等のウェアラブル端末等の位置及び姿勢を推定する自己位置推定技術として、ＳＬＡＭ（Simultaneous Localization and Mapping）が知られている。ＳＬＡＭは、自己位置の推定と、環境地図の作成とを同時に行う技術であり、ＡＲ（Augmented Reality：拡張現実）やＶＲ（Virtual Reality：仮想現実）を実現するための技術として用いられることも多い。例えば特許文献１には、ロバスト性の高い自己位置推定が可能な技術が開示されている。

特開２０１６－４５８７４号公報

ＳＬＡＭ等の技術を用いることで実世界をモデリングすることが可能である。例えばスマートフォン等の携帯端末を用いて、通路の幅等の２つの対象物の間の距離を簡単に精度よく測定可能となる技術が求められている。

以上のような事情に鑑み、本技術の目的は、２つの対象物の間の距離を簡単に精度よく測定することを可能とする情報処理装置、情報処理方法、及びプログラムを提供することにある。

上記目的を達成するため、本技術の一形態に係る情報処理装置は、出力制御部を備える。
前記出力制御部は、実距離に関するスケール情報と、第１の撮像装置の位置及び姿勢に関する第１の位置情報と、第２の撮像装置の位置及び姿勢に関する第２の位置情報とに基づいて、前記第１の撮像装置により撮影された第１の対象物と、前記第２の撮像装置により撮影された第２の対象物との間の、前記実距離に基づいた距離情報を出力する。

この情報処理装置では、スケール情報と、第１の撮像装置の第１の位置情報と、第２の撮像装置の第２の位置情報とに基づいて、第１の撮像装置により撮影された第１の対象物と、第２の撮像装置により撮影された第２の対象物との間の、実距離に基づいた距離情報が生成される。これにより第１の対象物と第２の対象物との間の距離を簡単に精度よく測定することが可能となる。

前記第１の撮像装置及び前記第２の撮像装置は、所定の位置関係となるように配置されてもよい。この場合、前記出力制御部は、前記第１の撮像装置と前記第２の撮像装置との位置関係に関する情報に基づいて、前記距離情報を出力してもよい。

前記第１の撮像装置は、第１の方向を撮影方向として構成されてもよい。この場合、前記第２の撮像装置は、前記第１の方向とは異なる第２の方向を撮影方向として構成されてもよい。

前記第１の方向及び前記第２の方向は、交差角度が９０°から１８０°の範囲に含まれるように設定されてもよい。

前記第１の位置情報は、前記第１の撮像装置により撮影された前記第１の対象物の画像に基づいて算出されてもよい。この場合、前記第２の位置情報は、前記第２の撮像装置により撮影された前記第２の対象物の画像に基づいて算出されてもよい。

前記スケール情報は、前記第１の撮像装置及び前記第２の撮像装置の少なくとも一方と所定の位置関係となるように配置されたモーションセンサの検出結果に基づいて取得されてもよい。

前記出力制御部は、前記モーションセンサの検出結果に基づいて、前記第１の位置情報及び前記第２の位置情報の少なくとも一方を算出してもよい。

前記スケール情報は、前記第１の撮像装置又は前記第２の撮像装置の少なくとも一方により、実距離に関する情報が関連付けられた既知対象物が撮影された画像に基づいて取得されてもよい。

前記スケール情報は、前記第１の撮像装置及び前記第２の撮像装置の少なくとも一方と所定の位置関係となるように配置された測距センサの検出結果に基づいて取得されてもよい。

前記出力制御部は、前記測距センサの検出結果に基づいて、前記第１の位置情報及び第２の位置情報の少なくとも一方を算出してもよい。

前記第１の撮像装置は、デジタルカメラ、又はＴｏＦ（Time of Flight）センサの少なくとも一方の構成を含んでもよい。この場合、前記第２の撮像装置は、デジタルカメラ、又はＴｏＦセンサの少なくとも一方の構成を含んでもよい。

前記第１の対象物及び前記第２の対象物は、通路を挟んで配置される壁面であってもよい。この場合、前記距離情報は、前記通路の幅を含んでもよい。

前記情報処理装置は、さらに、第１の面と、前記第１の面とは反対側の第２の面と、前記第１の面の表面側に向けて配置された前記第１の撮像装置と、前記第２の面の表面側に向けて配置された前記第２の撮像装置とを備えてもよい。この場合、前記情報処理装置は、ユーザが携帯可能な携帯端末として構成されていてもよい。

前記情報処理装置は、さらに、前記携帯端末に搭載されているデバイスに関する情報を取得するデバイス情報取得部を備えてもよい。この場合、前記出力制御部は、前記デバイスに関する情報に基づいて、前記距離情報を出力してもよい。

前記出力制御部は、前記スケール情報と、前記第１の位置情報と、前記第２の位置情報とに基づいて、前記第１の対象物及び前記第２の対象物のモデリングを実行することで前記距離情報を出力してもよい。

前記出力制御部は、前記第１の撮像装置により撮影された第１の対象物の画像、及び前記第２の撮像装置により撮影された第２の対象物の画像に基づいて、ＳＬＡＭを実行することで、前記距離情報を出力してもよい。

前記情報処理装置は、さらに、前記距離情報の出力が不利な状況であるか否かを判定し、前記不利な状況である場合には、ユーザにその旨を通知する通知部を備えてもよい。

前記通知部は、前記不利な状況である場合に、前記不利な状況を解消するための情報を通知してもよい。

本技術の一形態に係る情報処理方法は、コンピュータシステムにより実行される情報処理方法であって、実距離に関するスケール情報と、第１の撮像装置の位置及び姿勢に関する第１の位置情報と、第２の撮像装置の位置及び姿勢に関する第２の位置情報とに基づいて、前記第１の撮像装置により撮影された第１の対象物と、前記第２の撮像装置により撮影された第２の対象物との間の、前記実距離に基づいた距離情報を出力することを含む。

本技術の一形態に係るプログラムは、コンピュータシステムに以下のステップを実行させる。
実距離に関するスケール情報と、第１の撮像装置の位置及び姿勢に関する第１の位置情報と、第２の撮像装置の位置及び姿勢に関する第２の位置情報とに基づいて、前記第１の撮像装置により撮影された第１の対象物と、前記第２の撮像装置により撮影された第２の対象物との間の、前記実距離に基づいた距離情報を出力するステップ。

本技術に係る情報処理システムの概要を説明するための模式図である。本技術に係る距離情報生成システムの適用例を説明するための模式図である。本技術に係る距離情報生成システムの適用例を説明するための模式図である。携帯端末の構成例を示す模式的なブロック図である。携帯端末のソフトウェア構成の一例を示す模式的なブロック図である。ＩＭＵを用いた場合の距離情報の算出例を示すフローチャートである。ＩＭＵを用いた場合の距離情報の算出例を示すフローチャートである。携帯端末のソフトウェア構成の一例を示す模式的なブロック図である。既知対象物を用いたい場合の距離情報の算出例を示すフローチャートである。既知対象物を用いたい場合の距離情報の算出例を示すフローチャートである。携帯端末のソフトウェア構成の一例を示す模式的なブロック図である。測距センサを用いた場合の距離情報の算出例を示すフローチャートである。デバイスに基づいた３つの方法の切替えと、不利な状況の判定処理を含む処理例を示すフローチャートである。第１の撮像装置及び第２の撮像装置の撮影方向の交差角度について説明するための模式的な図である。

以下、本技術に係る実施形態を、図面を参照しながら説明する。

＜本技術の概要＞
図１は、本技術に係る情報処理システムの概要を説明するための模式図である。ここでは、情報処理システムの一実施形態として距離情報生成システム１００を例に挙げる。距離情報生成システム１００は、第１の撮像装置５、及び第２の撮像装置６を含む。

本開示において、撮像装置とは、光を受光する受光素子を有し、対象物の像を含む画像を生成可能な任意の装置を含む。例えば、撮像装置として、ＣＭＯＳ（Complementary Metal-Oxide Semiconductor）センサやＣＣＤ（Charge Coupled Device）センサ等のイメージセンサを備えるデジタルカメラを用いることが可能である。

また、対象物までの距離（デプス）を取得可能なＴｏＦ（Time of Flight）カメラ等が、撮像装置として用いられてもよい。その他、ステレオカメラ、単眼カメラ、赤外線カメラ、偏光カメラ等が用いられてもよい。

すなわち本技術に係る第１の撮像装置５及び第２の撮像装置６として、デジタルカメラ、又はＴｏＦセンサの少なくとも一方の構成を含む装置を採用することが可能である。第１の撮像装置５と第２の撮像装置６とが、互いに同じ構成を有する場合に限定されない。第１の撮像装置５と第２の撮像装置６とは、互い異なる構成を有していてもよい。

また、画像は、静止画像及び動画像を含む。もちろん動画像に含まれる複数のフレーム画像も、画像に含まれる。以下の説明において、撮像装置により対象物を撮影し対象物の画像を生成することを、対象物の画像を撮影すると記載する場合がある。

図１に示す第１の撮像装置５により撮影される対象物を第１の対象物とする。また第２の撮像装置６により撮影される対象物を第２の対象物とする。

典型的には、第１の撮像装置５は、第１の方向を撮影方向として構成される。第２の撮像装置６は、第１の方向とは異なる第２の方向を撮影方向として構成される。従って、第１の撮像装置５により撮影される第１の対象物は、第２の撮像装置６により撮影される第２の対象物とは、異なる撮影対象となる。

第１の方向及び第２の方向は、例えば、１８０°異なる方向にそれぞれ設定される。従って、第１の撮像装置５と第２の撮像装置６とは、互いに反対方向に向けられて設置される。もちろんこのような方向の設定に限定されず、第１の方向及び第２の方向の交差角度が、１８０°とは異なる角度に設定されてもよい。この点については、後に改めて説明する。

図１に示すように、第１の撮像装置５により撮影された第１の対象物の画像（以下、第１の画像と記載する）が取得される（ステップ１０１）。取得された第１の画像に基づいて、第１の撮像装置の第１の位置情報が算出される（ステップ１０２）。

また、第２の撮像装置６により撮影された第２の対象物の画像（以下、第２の画像と記載する）が取得される（ステップ１０３）。取得された第２の画像に基づいて、第２の撮像装置の第２の位置情報が算出される（ステップ１０４）

本開示において、位置情報は、位置及び姿勢に関する情報を意味する。例えば位置情報として、位置に関する情報のみが算出される場合もあり得るし、姿勢に関する情報のみが算出される場合もあり得る。もちろん位置に関する情報と姿勢に関する情報の両方を含む情報が算出されてもよい。その他、位置及び姿勢の変化等の、位置及び姿勢に関する任意の情報が位置情報として算出されてよい。

例えば、ステップ１０２では、第１の対象物に対する第１の撮像装置５の相対的な位置及び姿勢が算出される。ステップ１０４では、第２の対象物に対する第２の撮像装置６の相対的な位置及び姿勢が算出される。

例えば、第１の撮像装置５を基準としてＸＹＺ座標系が設定され、当該座標系のｘｙｚ座標値を用いて、第１の対象物に対する第１の撮像装置５の相対的な位置情報を算出することが可能である。

同様に、第２の撮像装置６を基準としてＸＹＺ座標系が設定され、当該座標系のｘｙｚ座標値を用いて、第２の対象物に対する第２の撮像装置６の相対的な位置情報を算出することが可能である。

例えば第１の対象物の動画像（複数のフレーム画像）に基づいてＳＬＡＭが実行され、第１の撮像装置５の自己位置の推定と、環境地図の作成とが実行されてもよい。この場合、自己位置の推定結果及び作成された環境地図は、本技術に係る位置情報に含まれる。

同様に、第２の対象物の動画像（複数のフレーム画像）に基づいてＳＬＡＭが実行され、第２の撮像装置６の自己位置の推定と、環境地図の作成とが実行されてもよい。この場合、自己位置の推定結果及び作成された環境地図は、本技術に係る位置情報に含まれる。

第１の画像に基づいて第１の位置情報を生成する方法、及び第２の画像に基づいて第２の位置情報を生成する方法は限定されず、任意のアルゴリズムが採用されてよい。例えばＤＮＮ（Deep Neural Network：深層ニューラルネットワーク）等を用いた任意の機械学習アルゴリズムが用いられてもよい。例えばディープラーニング（深層学習）を行うＡＩ（人工知能）等を用いることで、第１の位置情報及び第２の位置情報の算出精度を向上させることが可能となる。

また距離情報生成システムでは、図１に示すように、実距離に関するスケール情報が取得される（ステップ１０５）。実距離に関するスケール情報は、例えばステップ１０２及び１０４にて算出される第１の位置情報及び第２の位置情報に基づいて、実距離に基づく情報を出力することが可能な任意の情報を含む。

例えば、第１の撮像装置５を基準として設定されたＸＹＺ座標系の座標値により表される第１の撮像装置５の位置及び姿勢を、実距離に基づく情報として出力可能な任意の情報が含まれる。

同様に、第２の撮像装置６を基準として設定されたＸＹＺ座標系の座標値により表される第２の撮像装置６の位置及び姿勢を、実距離に基づく情報として出力可能な任意の情報が含まれる。その他、実世界の物理的なスケールに関する任意の情報が含まれる。

スケール情報を取得する方法は限定されず、任意の方法が採用されてよい。例えばモーションセンサを用いた方法、サイズ等が予め既知である既知対象物を用いた方法、ＴｏＦセンサ等の測距センサを用いた方法等が挙げられる。もちろん他の方法が用いられてもよい。

図１に示すように、ステップ１０２にて算出された第１の位置情報、ステップ１０４にて算出された第２の位置情報、及びステップ１０５にて取得されたスケール情報に基づいて、第１の対象物と第２の対象物との間の、実距離に基づいた距離情報が生成される（ステップ１０６）。

ここで記載する「距離情報」は、第１の対象物と第２の対象物との間の距離に関する任意の情報を含む。例えば第１の対象物から第１の撮像装置５までの距離、第２の対象物から第２の撮像装置６までの距離、第１の対象物から第２の対象物までの距離等が、含まれる。また第１の対象物から第２の対象物までの距離等、最大値、最小値、分布等の統計情報等、任意の情報が含まれてよい。また「実距離に基づいた」というのは、取得されたスケール情報に基づいて算出される実距離として表現可能な情報であることを意味する。

例えば第１の画像及び第２の画像にＳＬＡＭを実行することで、距離情報が生成されてもよい。すなわちスケール情報と、第１の位置情報と、第２の位置情報とに基づいて、第１の対象物及び第２の対象物のモデリングが実行されてもよい。そしてそのモデリングの結果に基づいて、距離情報が生成されてもよい。これにより、例えば、第１の対象物と第２の対象物とに挟まれる空間に関する形状等の詳しい情報を生成することが可能となる。

例えば第１の対象物及び第２の対象物の間に通路が構成されている場合は、通路の幅や形状等の情報を簡単に精度よく生成することが可能となる。

距離情報を生成して出力するための方法等は限定されず、任意のアルゴリズム等が用いられてよい。また機械学習等が実行されてもよい。

図１に示すように、ステップ１０６にて生成された距離情報がユーザへ通知される（ステップ１０７）。通知方法は限定されず、例えばディスプレイ表示や、音声通知等が実行される。

＜通路幅の測定への適用例＞
図２及び図３は、本技術に係る距離情報生成システムの適用例を説明するための模式図である。ここでは、本技術を通路１０の幅ｔの測定に適用する場合を説明する。

図２及び図３に示すように、ユーザ１は、内向きカメラ２４と外向きカメラ２５とを備えた携帯端末２０を利用する。例えば本技術に係るアプリケーションプログラムが起動される。そうすると、携帯端末２０の主面２０ａ側に構成されたタッチパネル２７上に、通路１０の幅ｔを測定するための方法を通知するための通知情報が表示される。

例えば図２及び図３に例示するように、通路１０を挟んで配置された第１の壁面１１及び第２の壁面１２の各々に、内向きカメラ２４及び外向きカメラ２５が向くように、携帯端末２０を保持する旨の指示が通知される。そして、携帯端末２０を保持した状態で、通路１０の中央を移動する旨の指示が通知される。

ここで、図１を参照して説明した各要素と、図２及び図３における実施例における各要素との対応付けを以下に記載する。
内向きカメラ２４…第１の撮像装置５
外向きカメラ２５…第２の撮像装置６
内向きカメラ２４の撮影方向（矢印ｈ１）…第１の方向
外向きカメラ２５の撮影方向（矢印ｈ２）…第２の方向
第１の壁面１１…第１の対象物
第２の壁面１２…第２の対象物

なお本例では、内向きカメラ２４を第１の撮像装置５とし、外向きカメラ２５を第２の撮像装置６に対応するものとした。もちろん、このような対応付けに限定される訳ではなく、逆の対応付けも可能である。

ユーザ１が携帯可能な携帯端末２０は、本技術の情報処理装置の一実施形態として用いられる。携帯端末２０の主面２０ａは第１の面に相当し、主面２０ａとは反対側の背面２０ｂは第２の面に相当する。内向きカメラ２４は主面２０ａの表面側に向けて配置され、外向きカメラ２５は背面２０ｂの表面側に向けて構成される。従って、内向きカメラ２４の撮影方向及び外向きカメラ２５の撮影方向の交差角度は１８０°となる。

携帯端末２０により、図１に例示する各ステップが実行され、第１の壁面１１と第２の壁面１２との間の、実距離に基づいた距離情報が算出される。例えば、ＳＬＡＭ等が実行される場合には、図２に例示するように、携帯端末２０の姿勢（向き）が通路の延在方向に対して傾く場合であっても、第１の壁面１１及び第２の壁面１２を高精度にモデリングすることが可能となる。この結果、通路１０の幅等を含む距離情報を高精度に生成することが可能となる。

生成された距離情報は、例えば、経路全体をモデリングした簡易的な３Ｄマップ中の情報として、表示部２８に表示される。表示方法としては、距離情報に基づいて、道幅の大きさに応じて色を変更して表示することや、ユーザが指定した経路幅よりも小さい値の道幅の箇所を色や文字で強調して表示することが考えられる。この場合、経路マップ全体の中での搬入する際のリスクの度合いを可視化することが可能である。

また携帯端末２０を用いた測定時に、リアルタイムに、現在ユーザがいる地点の道幅を数値で表示することや、数値を音声情報として出力こともできる。また、ユーザが指定した道幅未満になった際に音で通知することも可能である。

以下、図１のステップ１０５に示すスケール情報を取得する方法のバリエーション例を中心に、本技術に係る距離情報の生成例をいくつか説明する。具体的には、距離情報を取得する方法として、モーションセンサを用いた方法、サイズ等が予め既知である既知対象物を用いた方法、ＴｏＦセンサ等の測距デバイスを用いた方法について順番に説明する。

＜モーションセンサを用いた方法＞
図４は、携帯端末２０の構成例を示す模式的なブロック図である。携帯端末２０は、コントローラ２１、スピーカ２２、マイク２３、内向きカメラ２４、外向きカメラ２５、及びセンサ部２６を有する。また携帯端末２０は、表示部２８、操作部２９、Ｉ/Ｆ（インタフェース）部３０、通信部３１、及び記憶部３２を有する。

スピーカ２２は、種々の音を出力可能である。スピーカ２２の具体的な構成は限定されない。

マイク２３は、周辺で発生する音声を取得することが可能である。例えば、マイク２３により、ユーザが発話した音声や、周囲の環境音を検出して取得することが可能である。マイク２３の具体的な構成は限定されない。

表示部２８は、例えば液晶、ＥＬ（Electro-Luminescence）等を用いた表示デバイスであり、種々の画像や種々のＧＵＩ（Graphical User Interface）等が表示される。操作部２９は、例えばキーボード、ポインティングデバイス、その他の操作装置である。

図３に示すように、本実施形態では、携帯端末２０の主面２０ａにタッチパネル２７が配置される。タッチパネル２７は、図３に示す表示部２８及び操作部２９の両方の機能を有するデバイスとなる。

内向きカメラ２４は、携帯端末２０の主面２０ａ側に配置される。内向きカメラ２４は、携帯端末２０から見て主面２０ａ側の空間を撮影し、その画像（画像データ）を生成することが可能である。

外向きカメラ２５は、携帯端末２０の背面２０ｂ側に配置される。外向きカメラ２５は、携帯端末２０から見て背面２０ｂ側の空間を撮影し、その画像（画像データ）を生成することが可能である。

内向きカメラ２４及び外向きカメラ２５により、第１の壁面１１及び第２の壁面１２の画像を、同時に、共通の時系列に沿って撮影することが可能である。

センサ部２６は、ＩＭＵ（Inertial Measurement Unit：慣性計測センサユニット）３３及びＧＰＳ３４を含む。ＩＭＵ３３は、モーションセンサの１つであり、３軸における加速度と角速度とを検出することが可能である。ＩＭＵ３３の具体的な構成は限定されず、ジャイロセンサ、加速度センサ、コンパスセンサ等を含む任意の構成が採用されてよい。ＩＭＵ３３として、６軸ＩＭＵが用いられてもよいし、９軸ＩＭＵが用いられてもよい。

ＩＭＵ３３は、実距離に基づいて加速度及び角速度を算出することが可能である。すなわちＩＭＵ３３の検出結果に基づいて、携帯端末２０の位置及び姿勢の変化等を、実距離に基づいて検出することが可能である。

本実施形態では、ＩＭＵ３３による検出結果に基づいて、実距離に関するスケール情報を取得することが可能である。具体的には、ＩＭＵ３３により検出される携帯端末２０の位置及び姿勢に関する位置情報が、スケール情報として用いられる。以下、実距離に関するスケール情報を物理スケールと記載する場合がある。

このように本実施形態では、モーションセンサとしてＩＭＵ３３が用いられる。そしてモーションセンサの検出結果に基づいてスケール情報を取得する一例として、ＩＭＵ３３の検出結果に基づいてスケール情報を取得する場合を説明する。

もちろん、モーションセンサの種類はＩＭＵに限定されない。携帯端末２０の動きを検出可能な任意のセンサ用いられてよい。例えば携帯端末２０の加速度、角速度、方向等を実距離に基づいて検出可能な、任意のセンサを用いることが可能である。例えばＩＭＵを構成する、ジャイロセンサ、加速度センサ、コンパスセンサ等が、単体で、本技術に係るモーションセンサとして用いられてもよい。ＩＭＵ以外のモーションセンサが用いられる場合でも、スケール情報を取得することが可能である。

ＧＰＳ３４は、携帯端末２０の位置情報を出力することが可能である。ＧＰＳ３４の具体的な構成は限定されず、任意の構成が採用されてもよい。

なお、センサ部２６として設けられるセンサの種類は限定されず、任意のセンサが設けられてもよい。例えばユーザ１の体温及び脈拍数等を検出可能な生体センサ等が設けられてもよい。また周囲の環境の温度や湿度等を測定可能な温度センサや湿度センサ等が設けられてもよい。なお図４に示すマイク２３、内向きカメラ２４、及び外向きカメラ２５がセンサ部２６として機能してもよい。

Ｉ／Ｆ部３０は、ＵＳＢ（Universal Serial Bus）端子やＨＤＭＩ（登録商標）（High-Definition Multimedia Interface）端子等の、他のデバイスや種々のケーブルが接続されるインタフェースである。

通信部３１は、他のデバイスと通信するための通信モジュールであり、例えばＷｉＦｉ等の無線ＬＡＮ（Local Area Network）モジュールや、Bluetooth（登録商標）等の近距離無線通信用の通信モジュールが用いられる。

記憶部３２は、不揮発性の記憶デバイスであり、例えばＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）等が用いられる。

記憶部３２には、携帯端末２０の全体の動作を制御するための制御プログラム３５が記憶される。制御プログラム３５を、携帯端末２０にインストールする方法は限定されない。例えば、種々の記録媒体を介してインストールが実行されてもよいし、インターネット等を介してプログラムのインストールが実行されてもよい。

なお、本技術に係るプログラムが記録される記録媒体の種類等は限定されず、コンピュータが読み取り可能な任意の記録媒体が用いられてよい。例えば非一時的にデータを記録する任意の記録媒体が用いられてよい。

コントローラ２１は、携帯端末２０が有する各ブロックの動作を制御する。コントローラ２１は、例えばＣＰＵ（プロセッサ）、ＲＯＭ、ＲＡＭ、及びＨＤＤ等のコンピュータの構成に必要なハードウェアを有する。ＣＰＵがＲＯＭ等に予め記録されている本技術に係るプログラム（例えばアプリケーションプログラム）をＲＡＭにロードして実行することにより、本技術に係る情報処理方法が実行される。

コントローラ２１の具体的な構成は限定されず、例えばＧＰＵ、ＦＰＧＡ（Field Prog
rammable Gate Array）、ＡＳＩＣ（Application Specific Integrated Circuit）等の任
意のハードウェアが用いられてもよい。

携帯端末２０は、例えばスマートフォン、タブレット端末、ウェアラブル装置、センサ装置等により実現することが可能である。もちろんこれに限定されず、任意のコンピュータ装置が用いられてよい。

図５は、携帯端末２０のソフトウェア構成の一例を示す模式的なブロック図である。

コントローラ２１のＣＰＵが本実施形態に係るプログラム（例えばアプリケーションプログラム）を実行することで、機能ブロックとして、推定ブロック４０及び４１と、積分部４２と、カルマンフィルタ４３と、３次元再構成部４４とが実現される。そしてこれらの機能ブロックにより、本実施形態に係る情報処理方法が実行される。なお各機能ブロックを実現するために、ＩＣ（集積回路）等の専用のハードウェアが適宜用いられてもよい。

推定ブロック４０は、特徴点検出部４６と、メモリ部４７及び４８と、動きマッチング部４９と、距離推定部５０と、Δポーズ推定部５１とを有する。推定ブロック４１は、推定ブロック４０と等しい構成を有する。

なお、携帯端末２０内において、内向きカメラ２４及び外向きカメラ２５は、所定の位置関係となるように配置される。また内向きカメラ２４及び外向きカメラ２５に対して、ＩＭＵ３３も、所定の位置関係となるように配置される。例えば携帯端末２０自体の位置及び姿勢の変化に連動して、内向きカメラ２４、外向きカメラ２５、及びＩＭＵ３３の位置及び姿勢も変化する。

例えば内向きカメラ２４及び外向きカメラ２５の位置及び姿勢のオフセット等の、内向きカメラ２４及び外向きカメラ２５の位置関係に関する情報に基づいて、距離情報を算出することも可能である。これにより距離情報の精度を向上させることが可能となる。

一方、内向きカメラ２４及び外向きカメラ２５が同じ位置にあると見做して、すなわち位置及び姿勢のオフセットを考慮せずに、本技術を適用して距離情報を生成して出力することも可能である。これにより、処理の簡素化や処理時間の短縮化を図ることが可能である。

ＩＭＵ３３に対しても同様に、内向きカメラ２４、外向きカメラ２５、及びＩＭＵ３３間の位置及び姿勢のオフセットに関する情報に基づいて、距離情報が算出されてもよい。一方、オフセットを考慮せず、距離情報を算出することも可能である。

図６及び図７は、距離情報の算出例を示すフローチャートである。以下、推定ブロック４０の動作を説明する。推定ブロック４１の動作は、推定ブロック４０と同様に実行される。

特徴点検出部４６により、ステップ２０１～２０３のループが実行される。すなわち現在時刻の画像（以下、現在フレーム画像と記載する）が取得され、自己位置推定に利用可能な特徴的な点（以下、特徴点と記載する）が検出される。典型的には、コントラストが高く、周囲に似たような構造をもたない模様等が、特徴点として検出される。特徴点の検出及び特徴量の表現方法としては、例えばＨａｒｒｉｓ等のコーナー検出やＳＩＦＴ（Scale Invariant Feature Transform）等の方法が挙げられる。もちろんこれに限定されず、任意の方法が採用されてよく、機械学習等が実行されてもよい。

現在フレーム画像上にて検出された特徴点の情報は、メモリ部４７に保存される。この特徴点情報は時間的に、次のフレーム画像が取得されたときに、過去フレーム画像上の特徴点の情報として扱われる。

動きマッチング部４９により、ステップ２０４及び２０５が実行される。すなわちメモリ部４７から「過去画像（過去フレーム画像に相当）上の特徴点」情報が取得される。そして、過去フレーム画像上の各特徴点に対して、現在フレーム画像上で対応する特徴点が探索される。以下、ステップ２０５にて検出された対応する特徴点を対応点と記載する。

ここで対応点が見つかったものは、２つの異なる視点（現在フレーム画像及び過去フレーム画像）から同一のものを見たものと考えられ、見え方の違いは、カメラの時間的な位置及び姿勢の変化によるものである。

なお過去フレーム画像と現在フレーム画像とが、時間的に連続するフレーム画像である必要はなく、それらの間に別のフレーム画像があってもよい。すなわち撮像フレームレートより、推定ブロック４０の出力レート（差分ポーズの推定レート）が低くてもよい。

現在フレーム画像が特徴点検出部４６及び動きマッチング部４９に入力される前に、光学歪み等の各種補正やゲイン調整等の事前処理が実行されてもよい。これにより特徴点の検出精度や、マッチング精度を向上させることが可能となる。

Δポーズ推定部５１により、ステップ２０６及び２０７が実行される。すなわちメモリ部４８から「過去フレーム画像上の特徴点の３次元位置」情報が取得される。そして、「過去フレーム画像上の特徴点の３次元位置」情報と、「現在フレーム画像上の対応点の２次元位置」情報との組み合わせにより、差分ポーズが推定される。

なお、特徴点の３次元位置とは、内向きカメラ２４を基準として設定されたＸＹＺ座標上の位置（ｘｙｚ座標）である。特徴点の２次元位置は、フレーム画像上の特徴点の位置（例えばｕｖ座標）である。差分ポーズは、過去フレーム画像の撮影時刻（以下、過去時刻と記載する）から現在フレーム画像の撮影時刻（以下、現在時刻と記載する）までの内向きカメラ２４の位置及び姿勢の変化を含む情報である。

３次元空間上の点群（３次元位置）と、その点群に対応する（すなわち、３次元空間上の点群を２次元面に投影した）２次元平面上の点群（２次元位置）が与えられたとき、その投影面の位置及び姿勢（すなわち、内向きカメラ２４の位置及び姿勢）を求める方法は、例えば各特徴点を２次元面に投影したときの画像上の誤差をコストとした最小化問題を解くことで可能である。

積分部４２により、ステップ２０８及び２０９が実行される。すなわちＩＭＵ３３から、過去時刻から現在時刻までのＩＭＵデータ（加速度及び角速度を含むデータ）が取得される。取得されたＩＭＵデータが積分され、積分ポーズが算出される。

カルマンフィルタ４３により、ステップ２１０が実行される。すなわち推定ブロック４０のΔポーズ推定部５１により算出された差分ポーズと、推定ブロック４１のΔポーズ推定部により算出された差分ポーズと、積分部４２により算出された積分ポーズとが統合される。

カルマンフィルタ４３には、２つの差分ポーズと、積分ポーズとが入力される。また各ポーズにあわせて、そのポーズが含み得る推定誤差の確率分布が入力される。カルマンフィルタ４３とは、モデル化された誤差確率分布をもつ複数の観測を統合し、最も尤度の高い現在状態を推定するフィルタである。すなわち、カルマンフィルタ４３は、入力された３つのポーズから最も尤度の高いポーズを現在状態として推定する。

ＩＭＵ３３により取得される加速度及び角速度には、バイアスと呼ばれるオフセット誤差（静止していても０を返さず、常にある値が足された値を出力する）が含まれる場合が多い。この誤差が含まれる場合には、ＩＭＵ３３で取得した加速度及び角速度をただ積分しただけの位置及び姿勢は、誤差を含むものとなる。

カルマンフィルタ４３では、バイアスの影響がない内向きカメラ２４及び外向きカメラ２５から求めた差分ポーズと、バイアスの影響があるＩＭＵ３３から求めた積分ポーズとの差分から、ＩＭＵ３３のバイアスを推定し、それを相殺してバイアスによる誤差が除かれた統合ポーズを求めることが可能である。

また、２つのカメラの差分ポーズを統合することにより、いずれか一方の差分ポーズがずれた場合でも、もう一方の差分ポーズとＩＭＵ３３のポーズとによって、尤度が高い（誤差が小さい）方向へ修正される。これにより精度の高いポーズ推定を実行することが可能となる。

またカルマンフィルタ４３では、ＩＭＵ３３のバイアスの他、各デバイス間の位置及び姿勢のオフセット（あるデバイスからみた他のデバイスの位置及び姿勢）を状態変数とすることで、これらを同時推定することもできる。例えば内向きカメラ２４、外向きカメラ２５、及びＩＭＵ３３間の位置及び姿勢のオフセットを同時に推定することが可能である。

例えばスマートフォン等の既製品を利用する場合、内向きカメラ２４や外向きカメラ２５等のデバイスの配置をメカ設計値として記憶しておき、型番等のデバイスＩＤからそれらを読み出してカルマンフィルタ４３の初期値として用いることも可能である。そうすることで、フィルタでの推定値が収束するまでの間の誤差を小さくすることができる。この結果、ポーズ推定の精度を向上させることが可能となる。

距離推定部５０により、ステップ２１１及び２１２が実行される。すなわち運動視差によって「現在フレーム画像上の各特徴点の距離（３次元位置）」情報が算出される。ここでは、「過去フレーム画像上の特徴点の２次元位置」情報と、「現在フレーム画像上の対応点の２次元位置」情報と、それら２つのフレーム画像（過去～現在）間の差分ポーズ（カルマンフィルタ４３からの統合ポーズ）とに基づいて、運動視差によって各特徴点の距離が推定される。カルマンフィルタ４３により算出された統合ポーズが用いられるので、実距離に基づいた距離（３次元位置）が算出される。

２つのフレーム画像で対応する点（特徴点）の２次元位置と、そのフレーム画像間の差分ポーズとが与えられるとする。このとき、以下に示すように、各フレーム画像上の点を３次元空間に投影する式を連立させる（投影した点は同一の点である）ことで、３次元位置、すなわち距離を求めることが可能である。

現在フレーム画像上の点の３次元位置を３ｄＣｕｒｒ（ｘ，ｙ，ｚ）、その点を過去フレーム画像上からみた場合の３次元位置を３ｄＰｒｅｖ（ｘ，ｙ，ｚ）、２フレーム画像間のポーズ差分をｃＰｂ（並進ベクトル）及びｃＲｂ（回転行列）で表したとき、２つの３次元位置の間に次式が成り立つ。

また、各フレーム画像における各点の３次元位置３ｄＣｕｒｒ（ｘ，ｙ，ｚ）及び３ｄＰｒｅｖ（ｘ，ｙ，ｚ）と、その点を画像上（２次元面）に投影した２次元位置２ｄＣｕｒｒ（ｕ，ｖ）及び２ｄＰｒｅｖ（ｕ，ｖ）の間には、カメラの内部パラメタ行列をＫとしたとき、次式が成り立つ。

ここで、カメラの内部行列Ｋは、焦点距離ｆ（ｘ，ｙ）及び光学中心ｃ（ｘ，ｙ）より、次式で表される。

式（数１）及び式（数２）により、以下の連立方程式が成り立つ。

式（数４）の連立方程式は、２つの変数（３ｄＣｕｒｒ．ｚ及び３ｄＰｒｅｖ．ｚ）に対して３つの式となる。従って連立方程式を、３ｄＣｕｒｒ．ｚに対して解くことにより、現在フレーム画像における各点の距離が求まる。距離３ｄＣｕｒｒ．ｚが求まったとき、その点の３次元位置は、式（数２）により求めることができる。

ステップ２１１にて算出された特徴点の３次元位置は、点群情報としてメモリ部４８に記憶され、将来のポーズ推定時に用いられる。例えばステップ２０６にて、Δポーズ推定部５１により取得される過去フレーム画像上の特徴点の３次元位置は、過去フレーム画像が「現在フレーム画像」であったタイミングで、ステップ２１２にて保存された情報である。

３次元再構成部４４により、ステップ２１３が実行される。すなわちステップ２１１にて算出される特徴点の３次元位置を時間方向に統合することで、距離情報が算出される。具体的には、カルマンフィルタ４３から出力される「各時刻における統合ポーズ」情報と、推定ブロック４０から出力される「内向きカメラ２４から見た第１の壁面１１までの距離（各特徴点の３次元座標）」情報と、推定ブロック４１から出力される「外向きカメラ２５から見た第２の壁面１２までの距離（各特徴点の３次元座標）」情報とが、時間方向に統合される。

２つのカメラｃ₀及びｃ₁が搭載されている場合、ある時刻ｔにおけるｃ₀の位置及び姿勢をＰｃ₀［ｔ］（並進ベクトル）及びＲｃ₀［ｔ］（回転行列）とし、カメラｃ₀から見たカメラｃ₁の位置及び姿勢のオフセットを、ｃ₀Ｐｃ₁及びｃ₀Ｒｃ₁とする。このとき、カメラｃ₁の位置Ｐｃ₁［ｔ］及びＲｃ₁［ｔ］は、以下の式により求まる。

カメラｃ₀から見える対象物（壁面）上の特徴点の３次元位置をｃ₀Ｐｘ₀とし、同様にカメラｃ₁見える対象物の３次元位置をｃ₁Ｐｘ₁とする。ここで、添え字にあるｘは各特徴点を表し、特徴点の数だけ存在するが、簡単のため、まとめてｘ₀／ｘ₁と表記する。このとき、これら各特徴点の３次元位置を固定座標系（カメラの位置姿勢の変化によらない固定された座標系）上の座標値Ｐｘ₀／Ｐｘ₁へ変換する式は以下となる。

このように各時刻における統合ポーズを用いて、各カメラから見た対象物の３次元位置を、ある1つの座標系へと投影していく。これにより時間方向での統合が可能となり、対象物（壁面）上にうたれた複数の特徴点より面を構成できるようになる。この面から法線を求め、その法線ベクトル（単位ベクトル）をＮ₀とすると、カメラｃ₀とその面との距離ｄ₀は以下の式より求まる。式中の演算子「・」はベクトルの内積を表す。

なお式中にて、ｃ₀Ｐｘ₀はこの「法線ベクトルがＮ₀である面」を構成する特徴点ｘ₀へのカメラｃ₀から見た３次元位置であり、カメラｃ₀からその点への並進ベクトルである。一方、カメラｃ₁から見えるもう一方の面については、同様に、その面の法線ベクトルをＮ₁とすると、カメラｃ₁とその面との距離ｄ₁は以下の式より求まる。

式中にて、ｃ₀Ｐｘ₁はこの「法線ベクトルがＮ₁である面」を構成する特徴点ｘ₁へのカメラｃ₀から見た３次元位置であり、以下の式より求まる。Ｒ^Tは、回転行列Ｒの転置を表す。

以上より、「法線ベクトルがＮ₀である面」と「法線ベクトルがＮ₁である面」とに挟まれた通路１０の幅ｔは、距離ｄ₀と距離ｄ₁との和として求めることができる。例えば距離情報として、通路の幅ｔの値を用途に応じてリアルタイムに出力する。あるいは、距離情報として、これまでの経路上で最も狭い箇所の幅を出力する等、利用することができる。

ステップ２１３における距離情報の算出方法は限定されず、任意のアルゴリズム等が用いられてよい。また機械学習等が実行されてもよい。

図４～図７に示す例では、図５に示す各ブロックが協働することで、スケール情報を取得する「取得部」及び「出力制御部」が実現される。また推定ブロック４０により出力される差分ポーズ、積分ポーズ、及び統合ポーズは、第１の位置情報に含まれる。また推定ブロック４１により出力される差分ポーズ、積分ポーズ、及び統合ポーズは、第２の位置情報に含まれる。すなわち積分ポーズ及び統合ポーズは、第１の位置情報及び第２の位置情報の両方に含まれる。

従って、本例では、内向きカメラ２４により撮影された第１の画像に基づいて、第１の位置情報が算出される。また外向きカメラ２５により撮影された第１の画像に基づいて、第１の位置情報が算出される。さらに、ＩＭＵ３３の検出結果に基づいて、第１の位置情報及び第２の位置情報が算出される。

また上記したように、内向きカメラ２４や外向きカメラ２５等のデバイスの配置をメカ設計値として記憶しておき、デバイスＩＤからそれらを読み出して用いるとする。この場合、読み出される情報は、内向きカメラ２４と外向きカメラ２５との位置関係に関する情報に相当する。また読み出される情報は、携帯端末２０に搭載されているデバイスに関する情報に相当する。

またメカ設計値を記憶するブロックや読み出すブロックにより、デバイス情報取得部が実現される（図示は省略）。また読み出された情報をカルマンフィルタ４３の初期値として用いる処理等が、内向きカメラ２４と外向きカメラ２５との位置関係に関する情報に基づいて距離情報を出力する処理、及びデバイスに関する情報に基づいて距離情報を出力する処理に相当する。

もちろんこれらは、デバイス情報取得部、デバイスに関する情報、デバイスに関する情報に基づいた距離情報の一例であり、他の任意の情報やアルゴリズムが採用されてよい。

＜既知対象物を用いた方法＞
例えば単一のカメラを用いて自己位置（あるいは距離）推定をする場合等において、実世界の実距離に関するスケール情報（物理スケール）を取得する方法がないと、スケール不定性の問題が発生し得る。上記した例では、ＩＭＵ３３により取得されるＩＭＵデータが実世界の物理スケールをもっており、これを用いることで不定性が解消されている。

次に、サイズが分かっている既知対象物を用いた方法を説明する。既知対象物は、既知物体やマーカー等と言うことも可能である。サイズが分かっている既知対象物は、実距離に関する情報が関連付けられた既知対象物に相当する。例えば既知対象物に含まれる特徴点間の実距離が分かっている既知対象物等が用いられてもよい。

既知物体の検出は、例えば機械学習を用いた画像マッチングにより実現される。また、Ｅコマースサイトで購入した履歴がサーバーに存在する場合、購入履歴のデータに基づいて物体認識を行うことで、既知物体を特定することも可能である。

既知物体の例としては、家具などのＥコマースサイトで購入した製品や、規格化されている工業製品(ペットボトル、畳、コンセントの差込口、消火器等)が挙げられる。

図８は、携帯端末２０のソフトウェア構成の一例を示す模式的なブロック図である。図５に示した例では、推定ブロック４０の距離推定部５０に、カルマンフィルタ４３から出力された統合ポーズが入力された。本例では、図８に示すように、ポーズ推定ブロック５５が構築される。そしてポーズ推定ブロック５５により推定されたポーズが、距離推定部５０に入力される。

ポーズ推定ブロック５５は、特徴点検出部５６と、特徴量記述部５７と、特徴量マッチング部５８と、メモリ部５９及び６０と、ポーズ推定部６１とを有する。メモリ部５９及び６０は、コントローラ２１内に構成されてもよいし、記憶部３２内に構成されてもよい。

図９及び図１０は、距離情報の算出例を示すフローチャートである。図９及び図１０では、既知対象物のことを既知物体と記載している。まずステップ３０４、３０７、及び３１７に着目する。物理スケールが取得されている状態では、ステップ３０４及び３０７にて、ＹＥＳの判定となる。この場合、ステップ３１７に示すように、画像間マッチングによる差分ポーズが用いられる。

画像間マッチングによる差分ポーズの算出は、ステップ３０１～３０３、３０５、３０６、３０８、及び３０９により実行される。この処理は、図６及び図７に示すステップ２０１～２０７と同様の処理である。すなわち推定ブロック４０のΔポーズ推定部５１により、「過去フレーム画像上の特徴点の３次元位置」情報と、「現在フレーム画像上の対応点の２次元位置」情報との組み合わせにより、差分ポーズが推定される。

カルマンフィルタ４３により、推定ブロック４０のΔポーズ推定部５１により算出された差分ポーズと、もう一方の推定ブロック４１のΔポーズ推定部５１により算出された差分ポーズとが統合される。なお、カルマンフィルタ４３による統合を実行することなく、いずれか一方のΔポーズ推定部５１により推定された差分ポーズが用いられてもよい。

物理スケールが取得されていない状態の処理を説明する。すなわちステップ３０４及び３０７にて、ＮＯの判定となる場合を説明する。

特徴点検出部５６及び特徴量記述部５７により、ステップ３１０が実行される。すなわち特徴点検出部５６にて、撮影されたフレーム画像上から特徴点が検出される。そして検出された各特徴点に対して、特徴量記述部５７にて、マッチングのための特徴量の記述が行われる。

ここでは、回転、拡大縮小、輝度変化等、見た目の変化に対してもマッチングができるよう、特徴点をいかに表現するかが重要となる。そのために様々な記述方法が考案されており、SIFTやORB（Oriented FAST and Rotated BRIEF）等を用いることが可能である。

既知物体を構成する各特徴点の特徴量や３次元位置等の情報は、データベース化されメモリ部５９に記憶されている。既知物体として採用される具体的な物体は限定されず、任意の物体が採用されてよい。もちろん物体上に図示されたマーク等が採用されてもよい。

特徴量マッチング部５８により、ステップ３１２が実行される。すなわち既知物体上の各特徴点に対して現在フレーム画像上で対応する点がマッチングされる。具体的には、特徴量記述部５７の出力の各特徴点の特徴量と、メモリ部５９内の既知物体ＤＢから取得した特徴量とがマッチングされ、現在フレーム画像上の各特徴点に対応する既知物体上の対応点が求められる。

ポーズ推定部６１により、ステップ３１３～３１６が実行される。既知物体上の対応点は既知物体ＤＢから３次元位置を取得することができる。従って、３次元空間上の点群と、その点群に対応する２次元平面上の点群から、２次元平面の位置及び姿勢（すなわちカメラの位置及び姿勢）を求めることができる。なお、ここで求められるのは、既知物体に対するカメラの位置及び姿勢である。以下、「既知物体に対するカメラの位置及び姿勢」を相対ポーズと記載する。

現在フレーム画像の既知物体から算出された相対ポーズは、メモリ部６０に保存される。差分ポーズを算出する際には、メモリ部６０に保存された過去フレーム画像における、既知物体から算出された相対ポーズが取得される。そして未来の時点において同様に求めた相対ポーズとの差分が算出される。これにより２つのフレーム画像（過去～現在）間の差分ポーズを算出することが可能となる。

ステップ３１７に示すように、出力された差分ポーズは、運動視差に用いるポーズとして選択され、推定ブロック４０の距離推定部５０に入力される。この差分ポーズは、既知物体由来の物理スケールを有したものであり、これを移動量として距離推定部５０にて用いることで、推定ブロック４０の出力に、物理スケールが取り込まれる。

ステップ３１８～３２０の処理は、図６及び図７に示すステップ２１１～２１３と同様の処理である。

このように、本例では、実距離に関する情報（物理スケール）が関連付けられた既知対象物が、内向きカメラ２４及び外向きカメラ２５の各々で撮影された画像に基づいて、スケール情報が取得される。

典型的には、内向きカメラ２４に対応する推定ブロック４０と、外向きカメラ２５に対応する推定ブロック４１との各々に対して、２つのポーズ推定ブロック５５が構成される。そして、内向きカメラ２４及び外向きカメラ２５の各々にて撮影された既知対象物の撮影画像に基づいて、スケール情報が取得される。

これに限定されず、いずれか一方の推定ブロックに対してにのみポーズ推定ブロック５５が構成され、その推定結果が他の推定ブロックの距離推定部５０に入力されてもよい。すなわち内向きカメラ２４及び外向きカメラ２５のいずれか一方により撮影された既知対象物の撮影画像に基づいて、スケール情報が取得されてもよい。

また物理スケールが取得されていないと判定された場合、既知物体の撮影を指示する旨の通知情報がユーザに通知されてもよい。

図８～図１０に示す例では、ポーズ推定ブロック５５が、スケール情報を取得する「取得部」及び「出力制御部」の一部として機能する。すなわちポーズ推定ブロック５５により、実距離に関する情報が関連付けられた既知対象物を内向きカメラ２４又は外向きカメラ２５の少なくとも一方により撮影された画像に基づいて、スケール情報を取得することが可能である。またポーズ推定ブロック５５により出力される差分ポーズは、第１の位置情報及び第２の位置情報の両方に含まれる。

＜測距センサを用いた方法＞
次に、ＴｏＦセンサ等の測距センサを用いた方法を説明する。本例では、図２に例示するセンサ部２６に、ＴｏＦ等の測距センサ６５（図１１参照）が構成される。測距センサ６５の具体的な構成は限定されず、任意の構成が採用されてよい。

図１１は、携帯端末２０のソフトウェア構成の一例を示す模式的なブロック図である。本例では、内向きカメラ２４に対応して推定ブロック７０が構成される。推定ブロック７０は、特徴点検出部７１と、メモリ部７２及び７３と、動きマッチング部７３と、距離取得部７５、Δポーズ推定部７６とを有する。

本例では、測距センサ６５により直接的に距離を算出することが可能である。従って、推定ブロック７０は、図５に例示した推定ブロック４０と比較し得、距離推定部５０が、距離取得部７５に置き換えられた構成となっている。なお、外向きカメラ２５に対応して、推定ブロック７０と同じ構成の推定ブロックが構築される。

なお、内向きカメラ２４及び外向きカメラ２５に対して、測距センサ６５は、所定の位置関係となるように配置される。例えば携帯端末２０自体の位置及び姿勢の変化に連動して、内向きカメラ２４、外向きカメラ２５、及び測距センサ６５の位置及び姿勢も変化する。

図１２は、距離情報の算出例を示すフローチャートである。例えば、測距センサ６５としてＴｏＦセンサが用いられるとする。ＴｏＦセンサは、発光部にて発した光が、対象物に反射して受光部に返ってくるまでの所要時間を測定することにより、対象物までの物理的な距離を取得することができるデバイスである。

内向きカメラ２４及びＴｏＦセンサ間がキャリブレーションされていれば、内向きカメラ２４により撮影されるフレーム画像上の画素と、ＴｏＦ受光部上の画素とを対応づけることが可能となる。これにより、フレーム画像上から抽出した各特徴点の距離を、ＴｏＦセンサから得ることができるようになる。

距離取得部７５では、この画素の対応づけを行い、ＴｏＦセンサから、各特徴点の距離を取得する。もちろんＴｏＦセンサ以外の測距センサが用いられる場合でも、各特徴点の距離を直接的に取得することは可能である。

図１２のフローチャートにおいて、ステップ４０８及び４０９が、距離取得部７５により実行される処理である。測距センサ６５から得られる物理スケールに基づいて距離を取得することができるので、推定ブロック７０の出力（各特徴点の３次元位置、及び差分ポーズ）に物理スケールが取り込まれる。

ステップ４１０では、推定ブロック７０の出力に基づいて、特徴点の３次元位置が時間方向に統合され、距離情報が算出される。その他のステップについては、図５を参照して説明した処理と同様である。

なお、図１１に示す例では、本技術に係る撮像装置として内向きカメラ２４が用いられ、内向きカメラ２４とは別個に測距センサ６５が用いられている。例えば撮像装置として、ＴｏＦセンサの構成が採用されてもよい。例えばＴｏＦの受光部がカメラと同一となるように構成されてもよい。この場合、第１の撮像装置自体が、測距センサとしても機能する。

例えば、撮像装置としてＴｏＦセンサが用いられる場合には、ＴｏＦセンサを測距センサとしても機能させることが可能となるので、図１１及び図１２を参照して説明した処理を実行することが可能となる。

図１１及び図１２に示す例において、距離取得部７５は、スケール情報を取得する「取得部」及び「出力制御部」の一部として機能する。また推定ブロック７０により出力される差分ポーズは第１の位置情報に含まれる。また他方の推定ブロックにより出力される差分ポーズは、第２の位置情報に含まれる。

従って本例では、測距センサ６５の検出結果に基づいて、スケール情報が取得される。また測距センサ６５の検出結果に基づいて、第１の位置情報及び第２の位置情報が算出される。

＜搭載されるデバイスに基づいた３つの方法の組み合わせ＞
「モーションセンサを用いた方法」「既知対象物を用いた方法」「測距センサを用いた方法」が適宜組み合わされて実行されてもよい。

スマートフォン等で採用されている一般的なＯＳ（オペレーティングシステムソフトウェア）は、接続されているデバイスを利用するために、どのようなデバイスが接続されているかの情報と、それを利用するための各種ＡＰＩを備えている。ＯＳに問い合わせれば、どのようなデバイスが利用可能であるかは判別可能であり、それらをもとに本技術を実施するための構成を変更（選択）することもできる。

例えば、携帯端末の表側は、搭載されているＴｏＦを使用して距離を測定し、裏側はＴｏＦもＩＭＵもないので物理スケール取得用のマーカーを利用する、等の組み合わせもできる。その他、組み合わせを決定する方法として任意の方法が採用されてもよい。ユーザにより実距離に関するスケール情報の取得方法が指定可能であってもよい。

例えば距離精度や、テクスチャレスな環境に対するロバスト性はＴｏＦが非常に有利であると考えられる。従ってＴｏＦが利用できる場合はそれを優先的に選択するなどの制御が実行されてもよい。

なお、ＯＳに問い合わせて、デバイスに関する情報を取得するブロックは、デバイス情報取得部に相当する。またデバイスに関する情報に基づいて、スケール情報を選択する処理は、デバイスに関する情報に基づいて距離情報を出力する処理に相当する。

＜自己位置の推定が不利な状況の通知＞
カメラの自己位置を推定するには、まず対象物被写体までの距離を推定する必要がある。しかし、この距離の推定精度は基線長の長さ（単眼カメラの場合は視線方向に垂直な向きに並進する移動量）に依存しており、カメラの視線方向に対して垂直の方向に並進する（カメラを壁面に向けた場合、壁面に沿って並進する）のが最も精度を良くする動かし方である。

従って、通路１０幅を最も効率よくモデリングするには、図２及び図３に示すように、主面２０ａの内向きカメラ２４、及び背面２０ｂの外向きカメラ２５がそれぞれ通路１０を挟む第１の壁面１１及び第２の壁面１２へ向くように保持し、そのまま第１の壁面１１及び第２の壁面１２に沿って並進することである。

このように携帯端末２０を保持しつつ通路１０を歩いてモデリングしていくことになるが、その通路１０上では、暗かったり、第１の壁面１１や第２の壁面１２に十分な特徴点がとれなかったり、動きが速すぎてフレーム間のオーバーラップがなくなったりといった、自己位置（あるいは距離）推定がうまくいかなくなるケースが考えられる。

例えば内向きカメラ２４及び外向きカメラ２５のうちの一方のカメラが一時的にこのような状況に陥っても、反対側を見ている他方のカメラが有効な画を撮れることで、推定精度の低下を抑えることが可能な場合もあり得る。しかしながら、状況が長く続くようだと自己位置（あるいは距離）推定に失敗する可能性が高くなる。

そこで、自己位置推定に不利な状況であるか否かを判定し、不利な状況である場合には、ユーザ１にその旨を通知する。そして不利な状況である場合に、不利な状況を解消するための情報を通知する。これにより、距離情報の生成を効率よく高精度に実行することが可能となる。

例えば、図５に例示する推定ブロック４０等において、特徴点検出部４６にて検出できた点、あるいは、動きマッチング部４９にてマッチングできた点の点数が少なくなった場合に、推定が不利な状況であると判定する。

またカルマンフィルタ４３にてポーズを統合する際にＩＭＵ３３の積分ポーズとカメラによる差分ポーズとの差分（誤差確率分布を考慮したマハラノビス距離等）が大きくなった場合、推定が不利な状況であると判定する。

例えば、上記したような不利な状況（暗い、無地である、動きが速い等）等においては、マッチングに失敗したり、ポーズを推定できても誤差が大きく（ＩＭＵ３３の積分ポーズとの乖離が大きく）なるため、推定に不利な状況と判定することが可能である。

自己位置の推定が不利な状況であると判定された場合には、その旨を音、光、あるいは振動等などでユーザに通知する。例えばディスプレイ表示や音声出力等が実行されてもよい。そして、明るくしてもらったり、カメラを違う面に向けてもらったり、動きを遅めにしてもらう等の指示によりユーザを誘導することで、不利な状況が続かないようにする。これにより距離情報の生成精度を向上することが可能となる。

自己位置の推定が不利な状況は、距離情報の出力が不利な状況に含まれる概念である。例えば、自己位置の推定とは異なる処理の実行が不利な状況が判定され、適宜ユーザに通知することも可能である。

また自己位置の推定等が不利な状況であるか否かを判定するブロック、及びその旨を通知するブロックは、本技術に係る通知部に相当するブロックとなる。また明るくしてもらったり、カメラを違う面に向けてもらったり、動きを遅めにしてもらう等の指示は、不利な状況を解消するための情報の通知に相当する。もちろんこれらの通知等に限定されず、他の任意の情報が不利な状況を解消するための情報として通知されてもよい。

図１３は、デバイスに基づいた３つの方法の切替えと、不利な状況の判定処理を含む処理例を示すフローチャートである。図１３に例示する処理は、距離情報の生成のための全体の処理例とも言える。

ＯＳ等に問い合わせることで、利用可能なデバイスの情報が取得される（ステップ５０１）。デバイス情報がデータベース化されている場合には、ＤＢが照会され、各デバイス間の位置オフセット等が既知のものは、それをカルマンフィルタ等の初期値に設定される（ステップ５０２）。

デバイス情報に基づいて、測距センサが利用可能であると判定された場合には、図１１及び図１２を参照して説明したような測距センサを用いた方法にて、各フレーム処理が実行される（ステップ５０３のＹＥＳからステップ５０４）。

測距センサが利用不可であり、ＩＭＵが利用可能な場合には、図４～図７を参照して説明したようなＩＭＵを用いた方法にて、各フレーム処理が実行される（ステップ５０５のＹＥＳからステップ５０６）。

測距センサ及びＩＭＵが利用不可である場合には、図８～図１０を参照して説明したような既知対象物を用いた方法にて、各フレーム処理が実行される（ステップ５０５のＮＯからステップ５０７）。

カメラが不利な状況であると判定された場合は、その旨が音、光、あるいは振動等などでユーザに通知される（ステップ５０８のＹＥＳからステップ５０９）。カメラが不利な状況ではないと判定された場合は、通路幅等を含む距離情報が出力される（ステップ５０８のＮＯからステップ５１０）。

なお図１３に示す例において、ステップ５０１及び５０２の処理を実行するブロックがデバイス情報取得部に相当する。またステップ５０８及び５０９の処理を実行するブロックが通知部に相当する。これらのブロックは、例えばコントローラ２１のＣＰＵが所定のプログラムを実行することで実現可能である。またこれらのブロックを実現するために、ＩＣ（集積回路）等の専用のハードウェアが適宜用いられてもよい。

＜２つの撮像装置の撮影方向の向き＞
図１４は、第１の撮像装置５及び第２の撮像装置６の撮影方向の交差角度について説明するための模式的な図である。

スマートフォン等の携帯端末２０のカメラ構成として、図１４Ｃに示すように、２つのカメラ（第１の撮像装置５及び第２の撮像装置６）が背中合わせに反対を向いている配置、すなわち２つのカメラのなす角が１８０°となる配置を採用している場合が多い。このカメラ配置は広く普及していて、利用可能性が高く、導入コストの面でも優れる（既存のスマートフォンがそのまま使える）。

なお２つのカメラのなす角は、第１の撮像装置５の撮影方向である第１の方向ｈ１と、第２の撮像装置６の撮影方向である第２の方向ｈ２の交差角度である。

２つのカメラが背中合わせに反対を向いて配置されるので、一度の動作で通路脇の両面までの距離を同時に、かつ比較的精度よく求めることができる。カメラから各壁面までの距離がわかれば、それを足し合わせることで、壁面に挟まれた通路の幅が求められる。

一方で、本技術の処理内容自体はこのカメラ配置に制限されたものではなく、その他の場合でも利用可能である。例えば、図１４Ａに例示するように、２つのカメラのなす角が９０°となるような配置が挙げられる。カメラが奥行き方向に移動した場合に見た目の違いが小さいことに起因して、一般的に、カメラを用いた自己位置推定は奥行き方向の移動に感度が低い。

２つのカメラのなす角が９０度となる配置では、一方の奥行き方向が他方の水平（あるいは鉛直）方向となるため、互いの弱点を補うことができる利点がある。この観点では２つのカメラのなす角が９０°なるのが非常に有利であると考えられ、それより鋭角になる場合も鈍角になる場合も、不利の度合いは同等であると考えらえる。

例えば２つのカメラの角度が鋭角である方が、２つのカメラで見る面が同一となる確率が高く、その面がテクスチャレスだった場合への耐性が低くなりがちである（鈍角であれば、テクスチャのある別の面を観測できる可能性が上がる）。従って図１４Ａ～Ｃに例示するように、カメラ配置としては、２つのカメラのなす角が９０°から１８０°の範囲に含まれるような構成が望ましいと考えられる。

以上、本実施形態に係る距離情報生成システム１００では、スケール情報と、第１の撮像装置５の第１の位置情報と、第２の撮像装置６の第２の位置情報とに基づいて、第１の撮像装置により撮影された第１の対象物と、第２の撮像装置により撮影された第２の対象物との間の、実距離に基づいた距離情報が生成される。これにより第１の対象物と第２の対象物との間の距離を簡単に精度よく測定することが可能となる。

例えば、大型家具を購入した場合等、それを設置場所まで搬入できるかという問題が生じる。一般的にこの問題は、入り口や曲がり角等、搬入経路上でボトルネックになりそうな箇所の通路幅を実際に巻尺などで測定することで対応されてきた。しかしながらこの方法では、経路長が長くなり、測定箇所が増えるほど負担が大きくなる。また測定していなかった箇所が実は狭かったなど、測定漏れの危険性もある。

例えば、ＳＬＡＭ等の技術により、カメラが向いている方向の面をモデリングすることは可能である。例えば１つのカメラを用いて通路幅を測定するためには、少なくとも通路の両側の２面をモデリングする必要があるので、経路を２回（それぞれ異なる面にカメラをむけて）歩く必要がある。また環境をモデリングする際にカメラの自己位置を同時推定するのだが、これがドリフトとよばれる移動量に比例する誤差をもち、モデリングする経路が長くなるほど誤差が広がり、モデリングされた結果も歪んでしまう問題がある。

本技術では、互いに異なる方向を向いた２つのカメラ（例えば、スマートフォンの内向きカメラ及び外向きカメラ）を用いて、通路の両側の壁面をモデリングする。従って２つのカメラを両側の壁面に向けた状態で保持しつつ搬入経路を歩くことで、その経路の幅を容易に精度よく把握することが可能となる。

今歩いている経路の幅をリアルタイムで知ることが可能となる他、これまでの経路で最も狭い箇所などがわかり、物品搬入の可否を容易に判断することが可能となる。また特別な道具を用意することなく、一般的なスマートフォン等で通路幅を簡易的にモデリングすることができる。またスマートフォンを保持したまま経路を歩くだけという簡便な方法であり、一般消費者でも独力で簡単に実施可能である。

また経路の始点から終点までを連続にモデリングできるため、一部が狭い箇所などの測定漏れを防くことが可能である。また一動作で通路の両脇をモデリングできるため、片面ずつ実施する場合に比べて負担が半分ですむ。

１つのカメラで片面ずつモデリングを実行する場合、推定誤差も動作ごとに発生するものが蓄積するため、精度の面でも一動作で行えるほうが有利である。また、片面ずつモデリングを実行した場合、片面ずつのモデリング結果をどのように結合するかという問題もあり、この結合も誤差の発生源となり得る。

通路幅を知るには、その通路を構成する両脇の壁の対応をつける必要があるが、片面ずつモデリングを実行する場合、それらを接続するための接続領域（通路の両脇の壁に対して、床や天井部分）もモデリングして１つに結合しないと、両壁を対応づけることは非常に難しい。

本技術では、両面のモデリングを同時に実行可能であるため、一方の壁に対応する壁の対応づけが容易であり、結合・対応づけに係るこれらの問題は生じない。また一般にカメラによる自己位置（あるいは距離）推定は、視線方向に誤差を生じやすい。互いに反対側をむいたカメラによる推定結果を統合することで、たまたまお互いが同じ方向に間違えない限り、一方の誤差が打ち消されて、精度の向上効果が期待できる。

＜その他の実施形態＞
本技術は、以上説明した実施形態に限定されず、他の種々の実施形態を実現することができる。

３つ以上のカメラにより撮影された画像により複数の対象物の間の距離に関する距離情報が生成されてもよい。例えば３つのカメラが用いられて、通路を挟む２つの壁面の間の距離等が算出されてもよい。あるいは、３つ以上の対象物間の距離情報が生成されてもよい。

本技術は、通路幅の測定に限定されず、他の用途に用いられてもよい。例えば所定の装置のサイズ測定や、収容スペースのサイズ測定等に、本技術が適用されてもよい。

上記では、１つの装置に対して、第１の撮像装置及び第２の撮像装置が配置される場合を例に挙げた。これに限定されず、第１の撮像装置と第２の撮像装置とが別個に構成されてもよい。この場合でも、例えば第１の撮像装置と第２の撮像装置との位置関係に関する情報を適宜用いることで、本技術を適用することが可能である。

第１の撮像装置及び第２の撮像装置が別個に構成される場合、ＩＭＵ（モーションセンサ）、ポーズ測定ブロック、又は測距センサ等の、実距離に関するスケール情報を取得するためのデバイスやブロックが、各撮像装置にそれぞれ搭載されてもよい。

例えば第１の撮像装置に対して所定の位置関係となるように、ＩＭＵ（モーションセンサ）や測距センサが配置される場合や、第２の撮像装置に対して所定の位置関係となるように、ＩＭＵ（モーションセンサ）や測距センサが配置される場合があり得る。すなわち第１の撮像装置又は第２の撮像装置のいずれか一方のみに対して所定の位置関係となるように、ＩＭＵ（モーションセンサ）や測距センサが配置される場合もあり得る。

上記では、本技術に係る情報処理装置の一実施形態として、携帯端末を例に挙げた。しかしながら、携帯端末とは別に構成され、有線又は無線を介して携帯端末に接続される任意のコンピュータにより、本技術に係る情報処理装置が実現されてもよい。例えば携帯端末と他のコンピュータとが連動して、本技術に係る情報処理方法が実行されてもよい。

すなわち本技術に係る情報処理方法、及びプログラムは、単体のコンピュータにより構成されたコンピュータシステムのみならず、複数のコンピュータが連動して動作するコンピュータシステムにおいても実行可能である。なお本開示において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれもシステムである。

コンピュータシステムによる本技術に係る情報処理方法、及びプログラムの実行は、例えばスケール情報の取得、第１及び第２の位置情報の算出、距離情報の算出、デバイスに関する情報の取得、不利な状況である旨の通知の実行等が、単体のコンピュータにより実行される場合、及び各処理が異なるコンピュータにより実行される場合の両方を含む。また所定のコンピュータによる各処理の実行は、当該処理の一部または全部を他のコンピュータに実行させその結果を取得することを含む。

すなわち本技術に係る情報処理方法及びプログラムは、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成にも適用することが可能である。

各図面を参照して説明した情報処理装置等の構成や距離情報の生成フロー等はあくまで一実施形態であり、本技術の趣旨を逸脱しない範囲で、任意に変形可能である。すなわち本技術を実施するための他の任意の構成やアルゴリズム等が採用されてよい。

本開示において、「等しい」「同じ」「９０°」「１８０°」等は、「実質的に等しい」「実質的に同じ」「実質的に９０°」「実質的に１８０°」を含む概念とする。例えば「完全に等しい」「完全に同じ」「完全に９０°」「完全に１８０°」等を基準とした所定の範囲（例えば±１０％の範囲）に含まれる状態も含まれる。

以上説明した本技術に係る特徴部分のうち、少なくとも２つの特徴部分を組み合わせることも可能である。すなわち各実施形態で説明した種々の特徴部分は、各実施形態の区別なく、任意に組み合わされてもよい。また上記で記載した種々の効果は、あくまで例示であって限定されるものではなく、また他の効果が発揮されてもよい。

なお、本技術は以下のような構成も採ることができる。
（１）実距離に関するスケール情報と、第１の撮像装置の位置及び姿勢に関する第１の位置情報と、第２の撮像装置の位置及び姿勢に関する第２の位置情報とに基づいて、前記第１の撮像装置により撮影された第１の対象物と、前記第２の撮像装置により撮影された第２の対象物との間の、前記実距離に基づいた距離情報を出力する出力制御部
を備える情報処理装置。
（２）（１）に記載の情報処理装置であって、
前記第１の撮像装置及び前記第２の撮像装置は、所定の位置関係となるように配置され、
前記出力制御部は、前記第１の撮像装置と前記第２の撮像装置との位置関係に関する情報に基づいて、前記距離情報を出力する
情報処理装置。
（３）（１）又は（２）に記載の情報処理装置であって、
前記第１の撮像装置は、第１の方向を撮影方向として構成され、
前記第２の撮像装置は、前記第１の方向とは異なる第２の方向を撮影方向として構成される
情報処理装置。
（４）（３）に記載の情報処理装置であって、
前記第１の方向及び前記第２の方向は、交差角度が９０°から１８０°の範囲に含まれるように設定される
情報処理装置。
（５）（１）から（４）のうちいずれか１つに記載の情報処理装置であって、
前記第１の位置情報は、前記第１の撮像装置により撮影された前記第１の対象物の画像に基づいて算出され、
前記第２の位置情報は、前記第２の撮像装置により撮影された前記第２の対象物の画像に基づいて算出される
情報処理装置。
（６）（１）から（５）のうちいずれか１つに記載の情報処理装置であって、
前記スケール情報は、前記第１の撮像装置及び前記第２の撮像装置の少なくとも一方と所定の位置関係となるように配置されたモーションセンサの検出結果に基づいて取得される
情報処理装置。
（７）（６）に記載の情報処理装置であって、
前記出力制御部は、前記モーションセンサの検出結果に基づいて、前記第１の位置情報及び前記第２の位置情報の少なくとも一方を算出する
情報処理装置。
（８）（１）から（７）のうちいずれか１つに記載の情報処理装置であって、
前記スケール情報は、前記第１の撮像装置又は前記第２の撮像装置の少なくとも一方により、実距離に関する情報が関連付けられた既知対象物が撮影された画像に基づいて取得される
情報処理装置。
（９）（１）から（８）のうちいずれか１つに記載の情報処理装置であって、
前記スケール情報は、前記第１の撮像装置及び前記第２の撮像装置の少なくとも一方と所定の位置関係となるように配置された測距センサの検出結果に基づいて取得される
情報処理装置。
（１０）（９）に記載の情報処理装置であって、
前記出力制御部は、前記測距センサの検出結果に基づいて、前記第１の位置情報及び第２の位置情報の少なくとも一方を算出する
情報処理装置。
（１１）（１）から（１０）のうちいずれか１つに記載の情報処理装置であって、
前記第１の撮像装置は、デジタルカメラ、又はＴｏＦ（Time of Flight）センサの少なくとも一方の構成を含み、
前記第２の撮像装置は、デジタルカメラ、又はＴｏＦセンサの少なくとも一方の構成を含み、
情報処理装置。
（１２）（１）から（１１）のうちいずれか１つに記載の情報処理装置であって、
前記第１の対象物及び前記第２の対象物は、通路を挟んで配置される壁面であり、
前記距離情報は、前記通路の幅を含む
情報処理装置。
（１３）（１２）に記載の情報処理装置であって、さらに、
第１の面と、前記第１の面とは反対側の第２の面と、前記第１の面の表面側に向けて配置された前記第１の撮像装置と、前記第２の面の表面側に向けて配置された前記第２の撮像装置とを備え、
ユーザが携帯可能な携帯端末として構成されている
情報処理装置。
（１４）（１）から（１３）のうちいずれか１つに記載の情報処理装置であって、さらに、
前記携帯端末に搭載されているデバイスに関する情報を取得するデバイス情報取得部を備え、
前記出力制御部は、前記デバイスに関する情報に基づいて、前記距離情報を出力する
情報処理装置。
（１５）（１）から（１４）のうちいずれか１つに記載の情報処理装置であって、
前記出力制御部は、前記スケール情報と、前記第１の位置情報と、前記第２の位置情報とに基づいて、前記第１の対象物及び前記第２の対象物のモデリングを実行することで前記距離情報を出力する
情報処理装置。
（１６）（１）から（１５）のうちいずれか１つに記載の情報処理装置であって、
前記出力制御部は、前記第１の撮像装置により撮影された第１の対象物の画像、及び前記第２の撮像装置により撮影された第２の対象物の画像に基づいて、ＳＬＡＭを実行することで、前記距離情報を出力する
情報処理装置。
（１７）（１）から（１６）のうちいずれか１つに記載の情報処理装置であって、さらに、
前記距離情報の出力が不利な状況であるか否かを判定し、前記不利な状況である場合には、ユーザにその旨を通知する通知部を備える
情報処理装置。
（１８）（１７）に記載の情報処理装置であって、
前記通知部は、前記不利な状況である場合に、前記不利な状況を解消するための情報を通知する
情報処理装置。
（１９）
実距離に関するスケール情報と、第１の撮像装置の位置及び姿勢に関する第１の位置情報と、第２の撮像装置の位置及び姿勢に関する第２の位置情報とに基づいて、前記第１の撮像装置により撮影された第１の対象物と、前記第２の撮像装置により撮影された第２の対象物との間の、前記実距離に基づいた距離情報を出力する
ことをコンピュータシステムが実行する情報処理方法。
（２０）
実距離に関するスケール情報と、第１の撮像装置の位置及び姿勢に関する第１の位置情報と、第２の撮像装置の位置及び姿勢に関する第２の位置情報とに基づいて、前記第１の撮像装置により撮影された第１の対象物と、前記第２の撮像装置により撮影された第２の対象物との間の、前記実距離に基づいた距離情報を出力するステップ
をコンピュータシステムに実行させるプログラム。

１…ユーザ
５…第１の撮像装置
６…第２の撮像装置
１０…通路
１１…第１の壁面
１２…第２の壁面
２０…携帯端末
２０ａ…主面
２０ｂ…背面
２１…コントローラ
３２…記憶部
３３…ＩＭＵ
４０、４１、７０…推定ブロック
４２…積分部
４３…カルマンフィルタ
４４…３次元再構成部
５５…ポーズ推定ブロック
６５…測距センサ
１００…距離情報生成システム

Claims

実距離に関するスケール情報と、第１の撮像装置の位置及び姿勢に関する第１の位置情報と、第２の撮像装置の位置及び姿勢に関する第２の位置情報とに基づいて、前記第１の撮像装置により撮影された第１の対象物と、前記第２の撮像装置により撮影された第２の対象物との間の、前記実距離に基づいた距離情報を出力する出力制御部
を備える情報処理装置。
請求項１に記載の情報処理装置であって、
前記第１の撮像装置及び前記第２の撮像装置は、所定の位置関係となるように配置され、
前記出力制御部は、前記第１の撮像装置と前記第２の撮像装置との位置関係に関する情報に基づいて、前記距離情報を出力する
情報処理装置。
請求項１に記載の情報処理装置であって、
前記第１の撮像装置は、第１の方向を撮影方向として構成され、
前記第２の撮像装置は、前記第１の方向とは異なる第２の方向を撮影方向として構成される
情報処理装置。
請求項３に記載の情報処理装置であって、
前記第１の方向及び前記第２の方向は、交差角度が９０°から１８０°の範囲に含まれるように設定される
情報処理装置。
請求項１に記載の情報処理装置であって、
前記第１の位置情報は、前記第１の撮像装置により撮影された前記第１の対象物の画像に基づいて算出され、
前記第２の位置情報は、前記第２の撮像装置により撮影された前記第２の対象物の画像に基づいて算出される
情報処理装置。
請求項１に記載の情報処理装置であって、
前記スケール情報は、前記第１の撮像装置及び前記第２の撮像装置の少なくとも一方と所定の位置関係となるように配置されたモーションセンサの検出結果に基づいて取得される
情報処理装置。
請求項６に記載の情報処理装置であって、
前記出力制御部は、前記モーションセンサの検出結果に基づいて、前記第１の位置情報及び前記第２の位置情報の少なくとも一方を算出する
情報処理装置。
請求項１に記載の情報処理装置であって、
前記スケール情報は、前記第１の撮像装置又は前記第２の撮像装置の少なくとも一方により、実距離に関する情報が関連付けられた既知対象物が撮影された画像に基づいて取得される
情報処理装置。
請求項１に記載の情報処理装置であって、
前記スケール情報は、前記第１の撮像装置及び前記第２の撮像装置の少なくとも一方と所定の位置関係となるように配置された測距センサの検出結果に基づいて取得される
情報処理装置。
請求項９に記載の情報処理装置であって、
前記出力制御部は、前記測距センサの検出結果に基づいて、前記第１の位置情報及び第２の位置情報の少なくとも一方を算出する
情報処理装置。
請求項１に記載の情報処理装置であって、
前記第１の撮像装置は、デジタルカメラ、又はＴｏＦ（Time of Flight）センサの少なくとも一方の構成を含み、
前記第２の撮像装置は、デジタルカメラ、又はＴｏＦセンサの少なくとも一方の構成を含む
情報処理装置。
請求項１に記載の情報処理装置であって、
前記第１の対象物及び前記第２の対象物は、通路を挟んで配置される壁面であり、
前記距離情報は、前記通路の幅を含む
情報処理装置。
請求項１２に記載の情報処理装置であって、さらに、
第１の面と、前記第１の面とは反対側の第２の面と、前記第１の面の表面側に向けて配置された前記第１の撮像装置と、前記第２の面の表面側に向けて配置された前記第２の撮像装置とを備え、
ユーザが携帯可能な携帯端末として構成されている
情報処理装置。
請求項１３に記載の情報処理装置であって、さらに、
前記携帯端末に搭載されているデバイスに関する情報を取得するデバイス情報取得部を備え、
前記出力制御部は、前記デバイスに関する情報に基づいて、前記距離情報を出力する
情報処理装置。
請求項１に記載の情報処理装置であって、
前記出力制御部は、前記スケール情報と、前記第１の位置情報と、前記第２の位置情報とに基づいて、前記第１の対象物及び前記第２の対象物のモデリングを実行することで前記距離情報を出力する
情報処理装置。
請求項１に記載の情報処理装置であって、
前記出力制御部は、前記第１の撮像装置により撮影された第１の対象物の画像、及び前記第２の撮像装置により撮影された第２の対象物の画像に基づいて、ＳＬＡＭを実行することで、前記距離情報を出力する
情報処理装置。
請求項１に記載の情報処理装置であって、さらに、
前記距離情報の出力が不利な状況であるか否かを判定し、前記不利な状況である場合には、ユーザにその旨を通知する通知部を備える
情報処理装置。
請求項１７に記載の情報処理装置であって、
前記通知部は、前記不利な状況である場合に、前記不利な状況を解消するための情報を通知する
情報処理装置。
実距離に関するスケール情報と、第１の撮像装置の位置及び姿勢に関する第１の位置情報と、第２の撮像装置の位置及び姿勢に関する第２の位置情報とに基づいて、前記第１の撮像装置により撮影された第１の対象物と、前記第２の撮像装置により撮影された第２の対象物との間の、前記実距離に基づいた距離情報を出力する
ことをコンピュータシステムが実行する情報処理方法。
実距離に関するスケール情報と、第１の撮像装置の位置及び姿勢に関する第１の位置情報と、第２の撮像装置の位置及び姿勢に関する第２の位置情報とに基づいて、前記第１の撮像装置により撮影された第１の対象物と、前記第２の撮像装置により撮影された第２の対象物との間の、前記実距離に基づいた距離情報を出力するステップ
をコンピュータシステムに実行させるプログラム。