JP5709906B2

JP5709906B2 - 視覚障害者支援用拡張現実パノラマ

Info

Publication number: JP5709906B2
Application number: JP2012555144A
Authority: JP
Inventors: ディアラメ，オラング; ミラー，ダグラス; ブランチャード，チャールズ; シー．ドーシー，ティモシー; エム．スドル，ジェレミ
Original assignee: アイピープレックスホールディングスコーポレーション
Priority date: 2010-02-24
Filing date: 2011-02-24
Publication date: 2015-04-30
Anticipated expiration: 2031-02-24
Also published as: KR101487944B1; JP2013520757A; CN102906810B; US20200152083A1; US20140218493A1; WO2011106520A1; KR20130039720A; KR20150008840A; US11348480B2; US8605141B2; CN102906810A; US20220270512A1; EP2539883A1; US20170069227A1; US9526658B2; US20110216179A1; US10535279B2

Description

本願は、２０１１年２月２４日出願の米国特許仮出願第６１／３０７，６７５号及び２０１０年２月２６日出願の米国特許仮出願第６１／３３９，０７１号に対する優先権の利益を主張する。これらの仮出願及び本明細書で議論される他の全ての付帯的要素は、その全体が参照によって援用される。援用される参照における用語の定義又は使用法が、本明細書において規定されたその用語の定義と矛盾する場合、又は相反する場合は、本明細書において規定された用語の定義が適用され、参照における用語の定義は適用されない。

本発明の分野は、障害者のための支援技術に関する。

コンピュータ・ヴィジョン、マシン・ヴィジョンなど、どのように名づけられるにしても、自動化された物体認識を提供するシステムは、伝統的に、工業及び軍事用途における導入のための大きな関心を集める主題であった。物体認識を提供するあらゆるシステムが直面した継続中の課題の一つは、天候パターン、季節的変遷、及び一日の経過を通した日光の推移によって生み出される光と陰影の変化のような環境要因に起因する、同一の物体、更にいえば同一の視点から見た同一の物体によってもたらされる像における変動性である。この課題及び他の重要な技術的課題に対処するために、信頼性のある物体認識を提供するシステムの殆どは、その実行に相当な計算資源を必要とする、１又は複数の複雑なアルゴリズムを用いる。その結果、物体認識を達成するための従来的なアプローチの多くは、相当な遅延の後にのみ関心対象の物体の識別を提供しうるものであり、物体像の処理のために高価で洗練された計算プラットフォームを必要とするか、又は両方の不利益に悩まされうる。２００５年１月５日出願の、「ＤｉｇｉｔａｌＯｂｊｅｃｔＲｅｃｏｇｎｉｔｉｏｎＡｕｄｉｏ−ＡｓｓｉｓｔａｎｔｆｏｒｔｈｅＶｉｓｕａｌｌｙＩｍｐａｉｒｅｄ」と題されたＦｉｎｋらによる米国特許出願公開第２００５／０２０８４５７号明細書で議論されたように、今もなお、物体認識を提供するためのいくつかの試みがなされてきている。

残念ながら、この技術における従来的な状況を踏まえると、物体認識システムは、例えば目の見えない、又は視覚に障害を持った人々のような、感覚障害に苦しむ人に対する特定の援助を提供していた。原理上は、視覚障害者の視野は、その機能を提供する電子補助型デバイスの物体認識性能によって効果的に改善しうる。しかしながら、物体認識を提供する電子デバイスが視覚障害者にこの上なく十分な利益をもたらすために、デバイスは少なくとも三つの基準に取り組まなければならない。それらの基準の一つは、視覚障害者が所望に応じて容易にデバイスを運ぶことができるように、電子的な視野の改善を提供するデバイスは、携帯可能であることが望ましいということである。それらの基準の一つは、デバイスは、視覚障害者がデバイスの物体認識機能を起動し制御することが可能な、柔軟で使いやすいインターフェースを提供するものであることが望ましいということである。更に、視覚障害者に、彼らの安全も保護しながら、殆ど十分な力を与えるために、物体認識を提供するデバイスは、確実に、かつリアルタイムでそれを行い、そうして視覚障害を持ったユーザが、彼又は彼女の現在の環境における特徴に関与することを可能にするものであることが望ましい。

しかしながら、上述のように、従来的なアプローチによって物体認識を達成するために必要とされる計算資源は、殆どの場合、非常に大きなものである。そうした計算能力要件は、比較的緩和された性能基準においてさえ、単一の携帯デバイスの資源を大きく超過しうる。２００５年４月１日出願の、「ＧｅｓｔｕｒｅＰｒｏｃｅｓｓｉｎｇｗｉｔｈＬｏｗＲｅｓｏｌｕｔｉｏｎＩｍａｇｅｓｗｉｔｈＨｉｇｈＲｅｓｏｌｕｔｉｏｎＰｒｏｃｅｓｓｉｎｇｆｏｒＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎｆｏｒａＲｅａｄｉｎｇＭａｃｈｉｎｅ」と題されたＫｕｒｚｗｅｉｌらの米国特許第７，６２７，１４２号明細書において議論されたように、文字認識のための最小限の支援を提供する携帯デバイスがせいぜいである。物体認識機能を提供するシステムのユーザの個人的安全性及び有効性が、物体の識別に対して高度な信頼性とリアルタイムの提供を要求する場合、必要とされる計算資源は、単一の携帯電子デバイスにおいて利用可能な計算資源を遥かに上回る。

視覚障害を持ったユーザの補助のための考えうる一つの手段は、遠隔アシスタントとの情報のやり取りを含む。理想的には、遠隔アシスタントは、視覚障害を持つユーザの全ての環境と情報のやり取りが可能なものであるべきである。他の人々は、視覚障害を持つユーザと遠隔アシスタントとの間で情報のやり取りを可能とすることに向けた取り組みを行ってきた。２００７年４月６日出願の、「ＳｙｓｔｅｍａｎｄＭｅｔｈｏｄｆｏｒＡｓｓｉｓｔｉｎｇａＶｉｓｕａｌｌｙＩｍｐａｉｒｅｄＩｎｄｉｖｉｄｕａｌ」と題されたＥｓｐｅｎｌａｕｂらの米国特許第７，８６４，９９１号明細書は、視覚障害者が状況についての視聴覚情報をアシスタントにワイヤレスで送信することについて議論している。アシスタントは、その後、状況に対する解決法を返信する。残念ながら、アシスタントは、視覚障害者を取り巻く環境についての完全な視野を欠いている。

別の例として、２００６年８月４日出願の、「ＣｏｍｍｕｎｉｃａｔｉｏｎｓＤｅｖｉｃｅｆｏｒＶｉｓｕａｌｌｙＩｍｐａｉｒｅｄＰｅｒｓｏｎｓ」と題されたＧａｌｌｉｃｋの米国特許出願公開第２００８／００４３９３４号明細書が含まれ、そこでは視覚障害者に対して表面センサーを有するデバイスを提供することが議論され、遠隔アシスタントは視覚障害者とデバイスとの情報のやり取りを観察することが可能である。

より進歩的な試みとして、２００８年２月４日出願の、「ＳｙｓｔｅｍａｎｄＭｅｔｈｏｄｆｏｒＴｅｌｅ−ｐｒｅｓｅｎｃｅ」と題されたＧｏｗｄａの米国特許出願公開第２００８／０１９８２２２号明細書が含まれ、そこでは遠隔アシスタントの概念が更に少し進められている。Ｇｏｗｄａは、視覚障害を持つ対象がガイドと接続されることが可能であり、ガイドは、場合によっては対象を物体に向けて案内することによって、対象を補助するために、対象の環境についての複数様式の情報を使用することが可能であることを示している。それでもやはり、アシスタントは対象によって提供される視野を制限されており、環境についての追加的データを獲得する能力も欠いている。

興味深いことに、これまでになされた視覚障害者の補助のために拡張現実システムを用いる試みは僅かなものであった。これまでのところ評価されるべきは、遠隔アシスタントは、視覚障害者の環境及びその中の物体を表す拡張現実パノラマと情報のやり取りが可能であるということである。拡張現実パノラマは、視覚障害者のスマートフォン又は環境データについての他の情報源を介して収集されたセンサーデータに基づいて作り上げることが可能である。アシスタントは、物体や、拡張現実パノラマにおける他の側面と情報のやり取りをすることができ、視覚障害者を支援するため、又は環境についての更なる情報を得るために、視覚障害者のスマートフォンにデバイス命令を送信することが可能である。

文脈がその反対を指し示している場合を除き、本明細書で説明される全ての幅はその短点を包含するものとして解釈されるべきであり、制約の無い幅は、工業的に実用的な数値を含むものと解釈されるべきである。同様に、あらゆる数値のリストは、文脈がその反対を指し示している場合を除き、中間値を包含するものとみなされるべきである。

このように、視覚障害者のための遠隔アシスタントの必要性は依然として存在する。

この発明的な主題は、視覚障害者が有視力アシスタントからの支援を求めることが可能な装置、システム、及び方法を提供する。この発明的主題の一態様は、遠隔環境及びその中の物体のモデルを表す拡張現実パノラマを構成することが可能なパノラマエンジンを備える拡張現実エンジンを含む。このパノラマは、遠隔の視覚障害者のスマートフォン又は視覚障害者に近接する他の移動可能な検知デバイスから収集される環境センサーデータに少なくとも部分的に基づいて構成されることが可能である。好適には、環境センサーデータはその人物の遠隔環境を反映し、場合により、画像、ビデオ、音声、加速度、向き、位置、積算距離、又は他のセンサーデータに関連付けられたデータを備える。有視力アシスタントは、拡張現実パノラマ及びその中の物体と情報のやり取りを行うために有視力アシスタントインターフェースを利用して、遠隔の視覚障害者に支援フィードバックを提供する。アシスタントインターフェースは、統合された遠隔の人物の検知デバイスの現在の視野と共に、拡張現実パノラマを提示する。人間の、又は自動化された有視力アシスタントは、遠隔の視覚障害者の経験を共有し、拡張現実パノラマ内の物体と情報のやり取りを行って、その人物のスマートフォンへの１又は複数のデバイス命令を送信する。デバイス命令は、スマートフォン又は他の携帯検知デバイスに対して、対応する現実世界の物体に関する追加情報を獲得するように指示することが可能である。例えば、デバイス命令は、視覚障害者に対して、１又は複数の物体への近接を示す、触覚的又は可聴式のフィードバックを提供することが可能であり、あるいは、追加データを獲得するために、１又は複数の適用可能な物体認識アルゴリズム又はルーティンの選択を制御することが可能である。

いくつかの実施形態において、拡張現実パノラマは複数様式のパノラマデータを含み、このとき、拡張現実内の物体は、視覚データ、触覚データ、運動感覚データ、可聴データ、又は他の種類の感覚データを含みうる複数種類の感覚データを含む。また、物体には、不可視データを含むメタデータのタグを付けることも可能である。不可視データの例には、視覚障害を持つユーザを補助するためにアシスタントによって利用されることが可能な触覚メタデータタグ、可聴メタデータタグ、又は他の種類のタグが含まれる。複数様式のメタデータタグ又は不可視タグは、デバイス命令の形を取って、遠隔の視覚障害者のデバイスに送信することが可能である。このようにして、視覚障害者は、不可視フィードバックに基づいて個人化された自身の環境を通して移動することができる。

この発明的主題の様々な目的、特徴、態様及び利点は、同様の参照番号が同様の構成要素を表す添付の図面に加えて、以下の好適な実施形態の詳細な説明によってより明らかとなるであろう。

本発明の一実施形態による、リアルタイム物体認識及び改善された視野を提供するためのシステムを示す図である。本発明の別の実施形態による、リアルタイム物体認識及び改善された視野を提供するためのシステムを示す図である。本発明の一実施形態による、図１の認識アプリケーション１２４によって生成された表示例が取得されている視覚フレームを示す。本発明の一実施形態による、リアルタイム物体認識及び改善された視野を提供するためのシステムの機能的概略を示す図である。本発明の一実施形態による、リアルタイム物体認識及び改善された視野を提供するための方法を示すフローチャートである。視覚障害者に改善された視野を提供することが可能な別のシステムを示す図である。遠隔環境の拡張現実パノラマを示すように構成された、可能な有視力アシスタントインターフェースを示す図である。

以下の詳細な説明において、コンピュータ／サーバを基礎とする拡張現実エンジンを取り上げるが、種々の代替の構成もまた適するものと考えられ、また、それらの構成は、サーバ、インターフェース、システム、データベース、エンジン、アダプタ、コントローラ、又は独立してもしくは集合的に動作する他の種類のコンピューティングデバイスを含む種々のコンピューティングデバイスを利用しうることに留意されたい。それらのコンピューティングデバイスは、有形又は無形のコンピュータ可読記憶媒体（例えば、ハードドライブ、ソリッドステートドライブ、ＲＡＭ、フラッシュ、ＲＯＭなど）に記憶されたソフトウェア命令を実行するように構成されたプロセッサを備えることが理解されるべきである。ソフトウェア命令は、好適には、コンピューティングデバイスを、開示する装置に関して以下に議論されるような役割、責務、又は他の機能を提供するように設定する。特に好適な実施形態において、種々のサーバ、システム、データベース、又はインターフェースは、場合により、ＨＴＴＰ、ＨＴＴＰＳ、ＡＥＳ、公開鍵−秘密鍵交換、ウェブサービスＡＰＩ、公知の金融取引プロトコル、又は他の電子的情報交換方法に基づき、標準プロトコル又はアルゴリズムを使用して、データを交換する。好適には、データ交換は、パケット交換ネットワーク、インターネット、ＬＡＮ、ＷＡＮ、ＶＰＮ、又は他の種類のパケット交換ネットワーク上で実行される。

開示の手法は、視覚障害者を支援するように遠隔検知デバイスを設定することを含む多くの技術的効果を提供することが理解されるべきである。例えば、拡張現実エンジンは、遠隔の視覚障害者のスマートフォンにデバイス命令を発するために、遠隔の有視力アシスタントによって利用されることが可能である。これらの命令は、スマートフォンに対して、視覚障害者に対する案内を提供するように指示することが可能である。

本明細書で用いられる場合、文脈が異なるものを指し示していない限り、「〜と接続される」という言葉は、直接接続（この場合、互いに接続される２つの要素が、互いに接触する）及び間接接続（この場合、少なくとも１つの付加的要素が２つの要素間に位置する）の両方を含むことが意図されている。したがって、「〜と接続される」及び「〜に接続される」という言葉は、同義語として用いられる。

本願は、リアルタイム物体認識及び視野の改善を提供するシステム及び方法を対象とする。以下の詳細な説明は、本発明の実装に関連する具体的な情報を含む。当業者は、本発明が、本願において具体的に議論されたものとは異なる様式で実装されうることに気づくであろう。更に、本発明を不明瞭とするのを避けるために、本発明の具体的な細部のうちのいくらかについては議論されていない。本願において説明されていない具体的細部は、当業者の知識の範囲内のものである。本願における図面及びそれに付随する詳細な説明は、ただ単に本発明の例示的な実施形態を示すに過ぎないものである。簡明であることを維持するために、本発明の原理を用いる本発明の他の実施形態は、本願において具体的に説明はされず、また、図面において具体的に示されてもいない。異なる言及がなされていない限り、図面間における同様の、又は対応する要素は、同様の、又は対応する参照番号によって示されうることに留意されたい。

本発明者らは、コンピュータを介在させた物体認識を提供する従来的なアプローチは、多くの場合、最適なユーザの体験には満たない結果となることを実感してきた。更に、本発明者らは、視覚に障害を持つ人々のための視野の改善に対するアプローチの一部として、繊細で洗練された物体認識ソリューションの実現に対する当分野における強い必要性を認識してきた。本願は、視野の補強に対する統合されたアプローチの一部として、正確かつ便利に、物体、顔、背景、及び環境の認識を提供するように構成された、柔軟、強力、かつユーザに対する反応性の良いソリューションの提供を対象とするシステム及び方法を開示する。例えば、一実施形態において、本発明概念によるシステム及び方法は、顔の特徴を含む視覚的イメージを取得し、そのような特徴を有する人物のリアルタイム識別を提供することが可能でありうる。更に、一実施形態において、本発明概念によるシステム及び方法は、環境特性を含む視覚的イメージを取得し、位置のリアルタイム識別を提供し、場合によっては、その位置に従って、遠隔のユーザに対してナビゲーション情報を提供することが可能でありうる。

多くの利点のうち、本願で開示されるのは、携帯デバイスのユーザに、アクセス可能なインターフェースを通じて、リアルタイムで観測された支援、情報、及び通信を提供するためのデバイス、システム、及び方法である。例えば、一実施形態において、ユーザのパーソナルコンピュータ（ＰＣ）及び／又は他の集中型もしくは分散型の計算・通信サービスに接続された、カメラを使用可能な携帯通信デバイスを用いて、拡張現実及び改善された視野サービスを提供可能である。

例えば、本明細書において具体化されるシステムは、視覚障害を持つユーザが、彼らがリアルタイムで物体、ランドマーク、専用のタグ、テキスト、標識、又はバーコードを検出、認識、及び追跡すること（これらは、低解像度のビデオ解析によっては実現可能性がきわめて低いであろう）を可能とする、有視力アシスタント又は自動化されたコンピュータ・ヴィジョンエンジンとのリアルタイムの通信のために、カメラを使用可能な、例えば携帯電話又は携帯情報端末（ＰＤＡ）のような携帯通信デバイスを利用することを可能とする。本システムの実施形態は、例えば、秒間およそ５〜１０フレーム（ｆｐｓ）かそれ以上というように、きわめて高い速度で高解像度の画像認識を提供する。本発明の一実施形態によれば、かかる性能は、ユーザＰＣの処理能力の利用によって可能とされる。

いくつかの実施形態においては、物体又は環境認識処理の結果は、テキスト読み上げ又は事前録音タグを用いて、音声として発音可能である。すなわち、物体は、リアルタイムの物体についての発話識別を提供することによって識別されうる。処理及び認識は、本発明の実施形態に割り当てられた、又は本発明の実施形態を通してアクセス可能な識別データベースを使用して進行することができる。そうしたデータベースは、例えば、殆どのユーザに知られる多数のデフォルト・エントリを含みうる。いくつかの実施形態において、識別データベースは、そのユーザにとって個人的に重要な情報についての追加層が、ユーザＰＣに局在するストレージ・リソース、又は中央の共有されたコミュニティデータベース上のストレージ・リソースのいずれかに記憶され、アクセスされることが可能なように、オープンでありうる。

発話識別に加えて、ハイパーリンク、画像、二次元（２Ｄ）及び三次元（３Ｄ）グラフィックスなどといったグラフィック要素を、低いレイテンシ及び高いフレームレートで、ビデオストリーム中の特徴にリアルタイムに添付し、登録することが可能である。更に、グラフィックスを用いてアクセス可能なインターフェースの実装は、触覚感知及び発話可能なタッチスクリーンインターフェースと同様に、音声認識及びジェスチャー認識と組み合わされた場合に、視覚障害者、高齢者、及び他のコミュニケーション又は認識に障害を持つ人々などの、広範囲の障害を持つユーザによる使用を可能とする。

専用タグは、ユーザが、そのままではシステムに認識不能な種々の物体又はランドマークに対して容易にタグを添付することが可能なシステムにおいて、事前に学習させることが可能である。このタグ付けアプローチは、例えば、ＳＩＦＴアルゴリズム（ｓｃａｌｅ−ｉｎｖａｒｉａｎｔｆｅａｔｕｒｅｔｒａｎｓｆｏｒｍａｔｉｏｎ）、ＳＵＲＦアルゴリズム（ｓｐｅｅｄｅｄｕｐｒｏｂｕｓｔｆｅａｔｕｒｅ），又は他の簡単な色もしくは形に基づく手法などの様々な物体認識アルゴリズムに最適なものとして識別された画像のような、リアルタイムのビデオ解析を通じて認識可能な特徴を用いることが可能である。ユーザが携帯通信デバイスのカメラを１又は複数の場面内の１又は複数の物体に向けると、システムは、１又は複数の物体を識別するために、リアルタイムにその物体を自動的に解析することが可能である。システムは、携帯通信デバイスのディスプレイ内に、図式的に、又は音声及び触覚感知インターフェースを通じて、識別された物体に関するリンクされた情報又は行動の選択肢を提供するように更に構成されることが可能である。例えば、物体、テキスト、電話番号、Ｅメール、ＳＭＳ連絡先、もしくは道路標識、又はユーザによる以前の入力として存在するものの認識に基づいて生成されたリンクは、追加情報層へのアクセス、又は通信もしくは位置に基づくサービスの開始のためのより多くの選択肢をユーザにもたらすことできる。

本発明の実施形態は、ハイブリッド・ピアツーピア（Ｐ２Ｐ）及び中央処理アーキテクチャを実装し、それにより、中央でホストされる実装に関連するコストを回避しながら、カメラを使用可能な携帯通信デバイスの限界を超えた処理能力及び記憶資源を使用可能とする。例えば、ユーザＰＣ又はＰＣクラスターにおける処理のため、階層化され、符号化され、圧縮されたビデオを移動すること、及び高解像度画像の中から関心対象である選択領域を取得することによって、ビデオ画像は、そのままでは携帯通信デバイス単体の処理能力を超えるような、奥行きのある解析を受けることができる。このようにして、例えば、物体、ランドマーク、テキスト、バーコード、及び顔が、リアルタイムで解析され識別されることが可能となる。

本発明の一実施形態によれば、遠隔参加及び改善された視野のサービスは、遠隔アシスタントが、携帯通信デバイスによって取得された画像又はライブビデオのディスプレイを通して、遠隔で支援すること及びトレーニングすることを可能とする。さらに、遠隔アシスタントは、例えばＰＣを通じて携帯通信デバイスにリンクされて、遠隔から、着信する画像に基づいて、携帯通信デバイスを用いた高解像度画像を得ることができる。さらに、ＰＣを用いる遠隔アシスタントは、システムによって提供される分散処理機能及び階層化された符号化を用い、着信する画像又はビデオ・フレームの登録及び自動スティッチングに基づいて形成される、漸進的な高解像度及びアルファブレンドされたパノラマを可能とすることによって、ほぼリアルタイムでパノラマを生成することが可能である。

そのようなパノラマは、その後、ライブ着信ビデオの位置に基づいてパン・チルトされ、また、拡大・縮小されることが可能であり、携帯デバイスのユーザ又は彼らの遠隔アシスタントがより高い解像度の場面表示を得ること、及び、それによって、例えば、以前の画像へのアクセスによって、より離れた距離で見ること、正常な視力を有するものでも見えないような標識を読むこと、又は暗所を見通すことなどの改善された視野の能力を持つことを可能とする。遠隔アシスタントのためのライブ拡張現実は、遠隔アシスタントが、例えば地理情報システム（ＧＩＳ）を用いることによって、携帯デバイスのユーザのリアルタイム位置情報へのアクセスを有しながら、ライブ双方向音声／ビデオ通信が可能な場合に可能となりうる。

個人化されたトレーニングは、携帯デバイスユーザが、携帯通信デバイスを利用して、又は遠隔でユーザのためのトレーニングを実施することが可能な有視力アシスタントの援助の下で、物体を１又は複数のデータベースに学習させることを可能とする。そうしたデータベースのコミュニティ共有は、中央に設けられたデータベースへのアクセスと同様に、上述のリアルタイム動作を可能とするための、携帯通信デバイス／ＰＣに基づくシステム上のローカルデータベースの作成を可能とする。システムの実施形態は、例えば、追加的な電子工学製品カタログ情報、又は他のユーザ生成情報へのアクセスのために、統一商品コード（ＵＰＣ）バーコード検出及び認識用に構成することが可能である。システムの実施形態は、そうした情報を、本明細書で開示されるリアルタイム認識エンジン及び分散アーキテクチャがサポートする画像・特徴データベースにさらに関連付けることが可能である。携帯デバイスユーザは、アクセス可能なインターフェースを通して関心対象の物体の画像を得ることができ、その後、携帯デバイスユーザ又は彼らの遠隔有視力アシスタントは、高解像度の写真を取得するために、手動で、及び／又は初期視覚機能を使用して、バーコードを見つけることができる。例えばＵＰＣパーコードを含む領域などの関心対象の領域は、その後、バーコードをそれ自体として認識するＰＣベース・ステーションに送信されることが可能であり、ＵＰＣデータベースが、ローカルに、又はネットワークを介してアクセスされる。

上述のとおり、リアルタイムの検出、認識、追跡、及び（ハイパーリンクなどの）グラフィック・オーバーレイ要素の使用に必要な、高いフレームレートのビデオ及び高速な高解像度写真の解析をサポートするために必要とされる処理資源は、適切に構成されたカメラ使用可能な携帯通信デバイスをユーザのＰＣ又はソーシャル・ネットワーク化されたＰＣに接続することによって、効果的かつ信頼性を持って得ることが可能である。そうした接続は、かかる資源共有を許可する、携帯通信デバイス、ＰＣ、又はＰＣクラスターによる処理をサポートする、インターネット・プロトコル（ＩＰ）に基づくオーバーレイ・ネットワークを介して提供されうるものであり、かかる分散アーキテクチャは、使われていない中央でホストされたサービス・セットによって補強される。例えば携帯通信デバイスと携帯インターネット機器（ＭＩＤ）又はネットブックとによって共有されるデバイス間ネットワークを可能とするローカルサーバは、上述の分散型のライブビデオ及び高解像度画像の認識処理のためのスタンドアロン・システムをもたらすことが可能である。

一実施形態において、携帯通信デバイスとＰＣ（群）との間で分散された初期視覚システムは、低解像度ビデオの解析、並びに、物体及び場面、及びテキスト、バーコード、数、色などの情報に接触しそうな領域の認識のために使用されることが可能である。この初期視覚システムの結果は、例えば携帯デバイスユーザの選択、携帯デバイスユーザの位置、時刻などと同様に、ＩＰ・オーバーレイ・ネットワーク上の画像取得及び送信機能の効率的な制御のために用いられることが可能である。関心の推定領域は、その後、既に受信され解析されたビデオ又は低解像度画像におけるその領域の特定のため、画像取得制御部に伝えられうるが、携帯通信デバイスからの高解像度画像の転送を必要とする。それらの高解像度画像は、その後、ＰＣ（群）への配信のために優先順位を付けられることが可能である。復号された画像及びビデオは、バックエンド認識及び動的データベース生成エンジンにも向けられることが可能である。上層で生成された待ち行列に基づいて動的に認識するデータベースは、認識性能に対する顕著な影響力を有することが可能である。

上述のとおり、携帯通信デバイスからのリアルタイムビデオの解析、及び物体認識は、ＳＩＦＴやＳＵＲＦのようなアルゴリズムを用いながら、同時にテキスト、バーコード、又は他の細かな特徴領域のビデオ解析を実行することで実行されうる。テキストやバーコードなどの細かな特徴検出は、光学式文字認識（ＯＣＲ）などの手法のための、関心領域の高解像度画像化の優先順位付けのトリガーとして用いられることが可能である。一実施形態において、最適とはいえないＯＣＲ解析であっても認識性能の改善のために用いることが可能なように、物体認識の解析と特定の細かな特徴の解析とが組み合わされる。

本発明者らは、ユーザが彼らの個人的なトレーニング・データベースを投稿することが可能なｗｉｋｉタイプのコミュニティデータベースを想定している。そうしたコミュニティデータベースは、ＵＰＣ並びに電子工学製品カタログ及び情報を用いて標準化されること、及び／又はユーザが生成し点検したデータベースによって注釈を付けられることが可能である。データベースのエントリは、例えばビデオ内容、高解像度画像又は関心対象の領域、位置、時間情報、テキスト、及び音声を含みうる。さらに、データベースのエントリは、上述の、及び以下でより詳しく説明される、パン−チルト−ズーム（ＰＴＺ）シーケンスのタグ、注釈、又はナレーションを付けられたパノラマを含みうる。本システムの実施形態におけるアクセス可能なインターフェースによって構成された携帯通信デバイスを含むことは、携帯デバイスユーザ又はその有視力遠隔アシスタントが、直接、１又は複数のデータベースエントリを携帯通信デバイス及びベース・ステーションＰＣに動的にダウンロードすることを可能にする。

本発明の実施形態は、広範な種々の特定用途のために実施されることが可能である。例えば、音声によって発音されるタッチスクリーン並びに発話及びジェスチャー認識インターフェースを通じて、また同様に個人向緊急時対応サービス及び遠隔患者モニタリングサービスとの互換性を通じて、健康管理及び緊急時対応インターフェースが可能である。さらに、本発明の実施形態は、３Ｇ又は４Ｇのモバイルネットワーク品質を対象とするように、及び、信頼性のあるストリーミングと潜在的に劣化を伴うリアルタイムのデータ転送とを切り替えるように、構成されることが可能である。さらに、本発明の実施形態は、遠隔治療及び／又は遠隔支援のような危険を伴う用途における冗長性と信頼性の増大のために、既存のＰＤＡ、スマートフォン、又はＭＩＤに付加される周辺機器を通じて、３Ｇ及び／又は４Ｇ並びにそれ以上のものといった複数のネットワーク接続、回路交換式のグローバル・システム・フォー・モバイル・コミュニケーションズ（ＧＳＭ（登録商標））、及び公衆交換電話網（ＰＳＴＮ）標準を使用するように構成されることが可能である。いくつかの実施形態において、ファインダーとしてのビデオ内容の使用、及び高解像度画像の遠隔取得（例えば、遠隔カメラマン機能）の使用は、薬剤摂取モニタリング、遠隔検査、現場修理のような遠隔参加機能にとってとりわけ有益でありうる。また、確実な方法による音声／ビデオ内容及び位置データの記録は、遠隔の人材によって使用されるマルチメディア位置情報サービス（ＬＢＳ）タイムカードシステムと共に用いられる場合に、価値を付加することが可能である。

図１は、本発明の一実施形態による、リアルタイムの物体認識及び改善された視野を提供するためのシステム１００を示す。図１に示されるように、システム１００は、携帯通信デバイス１１０、クライアント−サーバ・ホストデバイス１２０、及び中央ホストサーバ１３０を含む。携帯通信デバイス１１０、クライアント−サーバ・ホストデバイス１２０、及び中央ホストサーバ１３０の組み合わせは、概念的な明瞭さのために示されるものであり、決して限定されることを意図したものではないことに留意されたい。例えば、一実施形態において、システム１００は、携帯デバイス１００及び１又は複数のクライアント−サーバ・ホストデバイス１２０を含むが中央ホストサーバ１３０を含まないものでありうるが、別の実施形態においては、システム１００は携帯デバイス１１０及び中央ホストサーバ１３０を含むがクライアント−サーバ・ホストデバイス１２０を含まないものでありうる。さらに、当分野で知られるように、携帯通信デバイス１１０、クライアント−サーバ・ホストデバイス１２０、及び中央ホストサーバ１３０の各々の作動は、各デバイス又はサーバ内の記憶装置（図示せず）に記憶されたソフトウェアを実行する、各デバイス又はサーバに設置されたマイクロプロセッサ又は中央演算処理装置（図示せず）によって実行される。

図１に示されるように、クライアント−サーバ・ホストデバイス１２０及び中央ホストサーバ１３０は、携帯デバイス１１０の遠隔にある。カメラ１１２を備える携帯デバイス１１０は、ネットワーク通信リンク１０２及び１０４の各々を用いて、クライアント−サーバ・ホスト及び／又は中央ホストサーバ１３０にアクセスするように構成される。さらに、クライアント−サーバ・ホストデバイス１２０と中央ホストサーバ１３０の両方が存在する実施形態において、ネットワーク通信リンク１０６がこれらのシステム要素間の通信を仲介しうる。本発明の様々な実施形態において、ネットワーク通信リンク１０２、１０４、及び１０６は、同じネットワーク、又は異なるネットワーク上の通信に対応しうる。例えば、ネットワーク通信リンク１０２はＷｉ−ＦｉやＷｉＭＡＸのような局所化されたネットワーク上の通信に対応しうるし、ネットワーク通信リンク１０４はデータ帯域通信をサポートする携帯電話会社のワイヤレスネットワークに対応しうるし、ネットワーク通信リンク１０６はインターネットのようなパケットネットワーク上のデータ転送に対応しうる。

携帯デバイス１１０は、カメラ１１２と携帯デバイス版認識アプリケーション１１４とを含むものとして示される。携帯デバイス１１０には、例えば、カメラを備えるスマートフォン又は携帯情報端末（ＰＤＡ）が含まれうる。カメラ１１２には、ビデオカメラ及び／又はスチルカメラが含まれうるものであり、高解像度のビデオ及び／又は静止画像の取得が可能でありうる。図１の実施形態によれば、携帯デバイス版認識アプリケーション１１４は、例えばＨＴＣのウィンドウズ（登録商標）スマートフォン端末上で、又は他の適切に構成された携帯通信デバイス上で動作することが可能である。そのようなデバイスは、アメリカ合衆国内及び国際的に運営を行っているほぼ全ての携帯通信プロバイダによって提供される。携帯デバイス版認識アプリケーション１１４は、通信及びトレーニング目的で携帯デバイスユーザが遠隔アシスタントに接続すること、又は一般にトレーニング及びリアルタイム物体認識を実行する、携帯デバイスユーザの住居内のＰＣなどのユーザのベースステーション・クライアント−サーバ・ホストデバイス１２０に接続することを可能とする、アクセス可能なインターフェースを提供するように構成されることが可能である。また、クライアント−サーバ・ホストデバイス１２０は、携帯デバイスユーザ及び遠隔アシスタントの両者が、携帯デバイスユーザのトレーニング及びデータベースの管理の必要性を容易に管理することを可能とするアクセス可能なインターフェースも有することが可能である。

図１に更に示されるように、本実施形態によれば、クライアント−サーバ・ホストデバイス１２０は、認識アプリケーション１２４と認識データベース１２６とを含む。認識データベース１２６はクライアント−サーバ・ホストデバイス１２０上に存在するものとして示されているが、必ずしもこれに該当しなくてもよい。むしろ、本発明概念は、ネットワーク通信リンク１０６上で、又は、Ｐ２Ｐネットワーク接続（図１には図示せず）上でクライアント−サーバ・ホストデバイス１２０によってアクセス可能な別のクライアント−サーバ・ホストデバイス（図１には図示せず）上に内在する認識データベース１２６を通して、クライアント−サーバ・ホストデバイスによるアクセスが可能である認識データベース１３６のような、認識データベース１２６に対応する認識データベースがクライアント−サーバ・ホストデバイス１２０によって単にアクセス可能であるようなシステム１００の変形例を通して実施することが可能である。クライアント−サーバ・ホストデバイス１２０上に存在する認識アプリケーション１１４は、携帯通信デバイス１１０を用いて取得された視覚的イメージのリアルタイム認識を遠隔の携帯通信デバイス１１０の携帯デバイスユーザに提供するために、認識データベース１２６及び１３６のいずれかを利用するように構成される。

中央ホストサーバ１３０は、サーバ版認識アプリケーション１３４、認識データベース１３６、及び他の機能を含むものとして示される。中央ホストサーバ１３０によって提供されるサービスもまた図１に表され、これにはクライアント−サーバ・ホストデバイス１２０と携帯版認識アプリケーション１１４との間の通信を確立するための安全な手段が含まれうる。開示されるネットワークアーキテクチャのＰ２Ｐ転送は、大きな処理能力を要するホスティングの必要性を解消し、それによってシステム１００のユーザのための経済的なクライアント−サーバ構成を可能とする。それでもなお本発明者らは、クライアント−サーバ・ホストデバイス１２０のような、例えば認識アプリケーション１２４を実行しているコンピュータなどの、ユーザ自身のパーソナルベースステーションコンピュータが利用不可能となった場合のユーザによるアクセスのために、中央ホストサーバ１３０のような中央ホストサーバの使用を同様に想定する。

また、中央ホストサーバ版の認識アプリケーション１３４は、例えば、携帯通信デバイス１１０が、認識アプリケーション１２４と同様に、サーバ版認識アプリケーション１３４を実行するネットブック又はＰＣに接続することが可能なほぼ自己充足型の構成を可能とする、クライアント−サーバ・ホストデバイス１２０上で動作するようにも構成可能である。これは、携帯通信デバイス及びＰＣ又はネットブック間のＰ２ＰＷｉ−Ｆｉ接続を介して達成可能である。かかる構成は、ユーザが携帯電話会社のデータ帯域受信可能範囲の問題に対処すること、又は費用節減目的に取り組むことを可能とする。ホーム設定において、これはきわめて実用的なシステム構成を可能とする。

システム１００は、携帯デバイスユーザが、遠隔認識又はトレーニングのエンジンとして自身のネットブック又はＰＣの処理能力を利用するような個人向けクラウドコンピューティングモデルの基礎についても具体化する。本実施形態によれば、ユーザは、その利用がユーザに対する追加の金銭的コストに結び付けられうるような、中央ホストサーバ１３０によって提供される中央でホストされるオプションへのアクセスを有する一方で、自身のＰＣ又は家族もしくは友人のＰＣをクライアント−サーバとして選択することが可能である。説明された構成は、ユーザにとっての利用可能性の高い柔軟なシステムをもたらす。

図２に示されるように、本発明のいくつかの実施形態は、図１の携帯通信デバイス１１０と、クライアント−サーバ・ホスト１２０及び／又は中央ホストサーバ１３０との間の情報のやり取りを可能とするために、商標登録されたｉＶｉｓｉｔ（商標）ネットワークアーキテクチャのような、分散／集中ハイブリッド計算プラットフォームを利用する。図２は、本発明の一実施形態による、クライアント−サーバ・ホストデバイス２２０及び／又は中央ホストサーバ２３０と通信する携帯通信デバイス２１０ａ及び２１０ｂを含むシステム２００を示す。携帯通信デバイス２１０ａ及び２１０ｂ、クライアント−サーバ・ホストデバイス２２０、並びに中央ホストサーバ２３０は、それぞれ図１における携帯通信デバイス１１０、クライアント−サーバ・ホストデバイス１２０、及び中央ホストサーバ１３０に対応することに留意されたい。

図２に示されるように、一実施例において、携帯通信デバイス２１０ａのような携帯通信デバイスは、複数のクライアント−サーバ・ホストデバイス２２０、及び中央ホストサーバ２３０と通信しうる。あるいは、携帯通信デバイス２１０ａは、複数のクライアント−サーバ・ホストデバイス２２０と通信しうるが、中央ホストサーバ２３０からは一時的に切断されうる。どちらの状況においても、中央ホストサーバ２３０及び／又は複数のクライアント−サーバ・デバイス２２０は、例えば携帯通信デバイス２１０ａを用いて取得された視覚的イメージを処理する、分散型計算プラットフォームを提供するように構成される。図２において更に示されるように、別の実施例において、携帯通信デバイス２１０ｂのような携帯通信デバイスは、専ら中央ホストサーバ２３０とのみ通信してもよい。この場合、サーバ版認識アプリケーション１３４を実行し、認識データベース１３６を利用する中央ホストサーバ２３０は、例えば、通信携帯デバイス２１０ｂを用いて取得された視覚的イメージの処理のための計算プラットフォームを提供するように構成されうる。

ｉＶｉｓｉｔによって提供される機能の概説として、ｉＶｉｓｉｔ（ｗｗｗ．ｉｖｉｓｉｔ．ｃｏｍ）は、ＩＰビデオ会議開催の草分け的存在の一つであり、最初のインターネットＩＰビデオ会議サービスの一つを、これまでに２０億分、４００万ダウンロード以上にわたって行ってきた。現在、ｉＶｉｓｉｔは、商業的に利用可能なサービスの他に、その優れたＰ２Ｐネットワークアーキテクチャを使用して、一月に２０００万分以上の多者間ビデオ会議を無料でホストしている。ｉＶｉｓｉｔは、拡張可能なクライアント−サーバ・プラットフォームを開発・運営しており、携帯通信デバイス及びＰＣ上で稼働するＩＰネットワーク上のサービスをホストしている。ｉＶｉｓｉｔは、８０万人以上のユーザ、及び業務用サーバソフトウェアによって自身のサービスを運営する５０以上のクライアント−サーバ・ライセンシーを登録している。近頃完成した、本発明の実施形態における使用のために構成されたモバイル・クライアントのベータ版は、全二重ビデオ通話（すなわち、１４ｆｐｓにおける１６０×１２０の解像度）を実証するウィンドウズ（登録商標）携帯通信デバイスにサポートされる。かかる性能は、ウィンドウズ（登録商標）携帯ＰＤＡにおいて、理想的なネットワーク性能条件下のＥＶ−ＤＯＲｅｖ．Ａ上で実証された。さらに、Ｗｉ−Ｆｉ解像度３２０×２４０は、ＰＤＡ電話におけるライブビデオ会議のためのフルスクリーンモードをサポート可能である。

再度図１を参照すると、クライアント−サーバ・ホストデバイス１２０及び携帯通信デバイス１１０は、統合された多者間音声／ビデオ会議、プレゼンテーション、及びデスクトップ共有、位置情報サービス、プッシュ・ツー・トーク、メッセージングなどを提供するように構成されることが可能である。ウィンドウズ（登録商標）モバイル、ｉＰｈｏｎｅ、ＰＣ，Ｍａｃ設定のクライアントのベータ版は、ワイヤレスネットワーク又はデバイスに対する悪影響を回避しながら、ライブ、保存、及び転送の通信における優れた性能を実証している。２４時間の連続待ち受け時間及び２時間以上のアクティブ・ビデオ通話が、高性能携帯通信デバイス上でサポート可能である。また、集中／分散ハイブリッドメディア転送、適応帯域幅管理、階層化マルチ・ビットレートビデオ／音声符号化は、本発明の実施形態を３Ｇ及び４Ｇアプリケーションサービス、又はそれ以上のもののための有望なプラットフォームとする。端的に言えば、本アプローチの拡張性が、本明細書で開示されるリアルタイム物体認識及び視野向上の機能を実用的なものとする。本発明者らは、本明細書で開示される本発明が、現在、固定のモバイルプラットフォーム上で１０ｆｐｓに迫るフレームレートでリアルタイム物体認識を実行することが可能な唯一の解決法を提供するものであると信じる。

固定ブロードバンドをサポートすることに加えて、本発明の実施形態は、Ｗｉ−Ｆｉ、ＷｉＭＡＸ、及び任意の３Ｇモバイルネットワークをサポートする。ＷｉＭＡＸのためのサポートは、これが地方環境における採用を見せている理想的なブロードバンドソリューションとして、地方及び十分なサービスを受けていない地域へと届くことを可能とするであろう。非同期ビデオメッセージングは、１０ｋｂｐｓオーダーのデータ転送速度を可能とする適度に一貫性のある接続性が利用可能である場合、１Ｘネットワーク上にも存在することが可能である。携帯通信デバイスの処理限界に到達するまで上昇するビデオ画質のために、又は、開示された分散型メディア転送を利用するユーザ数の増加をサポートするために、より高い帯域幅を用いることが可能である。また、本発明の実施形態は、相当数のユーザがＰＣクライアント上にいることも考慮に入れており、それらのＰＣユーザ間の通信が、その処理能力及び高帯域幅をサポートする能力に基づき、より高い品質であることを可能とするであろう。例えば、大きく、かつ高精細度（ＨＤ）のビデオフォーマットは、ＡＴＯＭ／ＳｎａｐＤｒａｇｏｎ、ＣｏｒｅＤｕｏ、又は同様のプロセッサを有するＰＣ、ネットブック、又はＭＩＤ上でのみでのみ可能でありうる。

本発明の実施形態における使用に適する音声及びビデオ転送は、高速かつ高効率のユーザ・データグラム・プロトコル（ＵＤＰ）上で作り上げることが可能である。本発明の実施形態によれば、クライアントの帯域幅要件は、カメラ、明暗、動き、及びビデオウィンドウのサイズに基づき、帯域幅使用を最適化するために自動的に適応することが可能である。例えば、システム１００のクライアントサーバ及びホストサーバに基づくサービスは、簡単な基礎構造の拡張によって、数万から数百万の同時ユーザを許容するように拡張可能である。さらに、本システムの実施形態において生じる通信は、暗号化して、医療保険の携行性と責任に関する法律（ＨＩＰＰＡ）に準拠させることが可能である。開示される実施形態は、プライベートＬＡＮ、ＷＡＮ、又はＶＰＮ上で安全に動作することが可能である。プライベートドメインへのアクセスを許可されたユーザのみが、そのドメインベースステーション・サーバ上で他のユーザと通信することができる。いくつかの実施形態において、認証は、ケルベロス類似のチケットに基づき、ＡＥＳ（ＡｄｖａｎｃｅｄＥｎｃｒｙｐｔｉｏｎＳｔａｎｄａｒｄ）暗号を用いる。

本発明の実施形態によって可能な多者間ビデオ通話は、例えば、言語障害者及び聴覚障害者のための相談、翻訳、通訳サービスを可能とする。ユーザオプションの下の簡単な「通話に追加（ａｄｄｔｏｃａｌｌ）」ボタンは、ユーザが、通話に参加するようにさらなるユーザを招待することを可能とする。「会議に参加（ｊｏｉｎｍｅｅｔｉｎｇ）」機能は、コールイン・カンファレンス・ブリッジと同様の役割を果たす。これらのＰ２Ｐビデオ会議サービスは、ユーザに対する付加的なアップセルとして、又は基本パッケージの一部として、商品の発売時にサポート可能である。

本発明の実施形態は、通話又はメッセージングの間に、ユーザが高解像度写真を「スナップして送信（ｓｎａｐａｎｄｓｅｎｄ）」することを可能とする。これらの画像転送の間、ビデオの伝送は影響を受けうる。しかしながら、「スナップして送信」機能は、メッセージ及び録音の間に、通話中に送信されうる、又は音声／ビデオの注釈が付けられた写真として送信されうる非常に高品質の画像を配信することが可能である。さらに、本発明のいくつかの実施形態は、統合された全地球測位システム（ＧＰＳ）及びマッピングサービスを含む。これらのオプションは、例えば、許可されたグループ、コンタクトリスト、又は特定の個人に対する携帯デバイスユーザのＧＰＳ位置の通信を可能とする。ライブの、又は記録されたＧＰＳ位置はアップロードされ、地図上に表示されることが可能であり、これにより、様々な他の位置情報サービスが可能である。それらの接続された位置情報サービスは、例えば、「フォロー・ミー（ＦｏｌｌｏｗＭｅ）」又は「フレンドファインダー（ＦｒｉｅｎｄＦｉｎｄｅｒ）」形式のサービスを可能とするために、又は企業向けフリート・マネジメント及び遠隔従業員管理の用途のために使用されることが可能である。

上述のように、本発明のいくつかの実施形態は、例えば初心者の、高齢者の、又は視覚障害を持つ遠隔ユーザのような感覚障害を持つユーザによるアクセスの容易さのために構成された機能を含む。これらは、新参者がアクセス可能なタッチスクリーンインターフェース、新参者がアクセス可能な携帯通信デバイス状態表示機（電力、ネットワーク状態、着信又は受信メッセージなど）の追加を含む。高齢者の、及び／又は初心者の視覚障害を持つユーザのため、システムがボタンの一押し又は他の入力に対応して自動的にメッセージを送信可能なように、１又は複数の遠隔有視力アシスタントの連絡先情報を前もってプログラムすることが可能である。より上級者ユーザのため、指示キー、及び、ユーザ向け音声メニューという形でオプションのグリッドを発声する、アクセス可能なタッチスクリーンインターフェースが、階層的音声メニュー選択を通してユーザが全てのシステム機能にアクセスすることを可能とする。録音された人の声は、騒々しい環境にいる携帯デバイスユーザによってこのような発声のために用いられて、大きな成功と理解をもたらす。

いくつかの実施形態において、適切なテキスト読み上げエンジン（例えば、Ａｃｃａｐｅｌａ）と組み合わされたキーボードインターフェースを、システムをよりアクセスしやすいものとするために用いることが可能である。話者独立型名前呼び出し（ＳＩＮＤ：Ｓｐｅａｋｅｒｉｎｄｅｐｅｎｄｅｎｔｎａｍｅｄｉａｌｉｎｇ）及び音声命令もまた、音声始動のインターフェースを可能とするために使用可能である。例えば、ノキア・ビデオ接続ケーブル（ＣＡ−７５Ｕ）又はワイヤレスＬＡＮ／ＵｐｎＰを介した互換性のあるＴＶとの直接接続は、デジタル拡大鏡用途を可能とする。

本システムのいくつかの実施形態で用いられる認識アプリケーション１２４は、トレーニング過程の間の遠隔アシスタントによる多大な制御を可能とするであろう。そのような制御としては、例えば、トレーニング中に携帯デバイスカメラの解像度を遠隔で選択する能力、検出された特徴を削除する能力、検出・認識された物体の距離及び向きの情報を知らせる能力、及び、音を用いて、以前に検出された物体がもはや視野に存在しないことを素早く発声する能力などの機能が包含される。また、本システムは、携帯デバイスユーザに光の状況に関して知らせるほか、携帯デバイスユーザが、発光ダイオード（ＬＥＤ）カメラフラッシュ又は「懐中電灯（ｆｌａｓｈｌｉｇｈｔ）」アプリケーションなどといった、殆どのカメラを備えた携帯通信デバイスにおいて利用可能な照明機能を制御することを可能とするようにも構成される。

１又は複数の遠隔有視力アシスタントによる遠隔トレーニングは、視覚に障害を持つ、携帯通信デバイス１１０のユーザによる独立使用のためのシステムを構成するための一つの方法であるため、トレーニング・データベースを同期させることが重要でありうる。メタタグを用いるアプローチは、データベースエントリの各々が、トレーニングのための距離入力をそれぞれ有する複数の画像のインスタンスを持つことを可能とする。その結果、システムの範囲を拡張すること、及び、様々な距離で物体から、そうでない場合と比較してより正確な距離推定を得ることが可能となる。より離れた距離におけるより小さな物体の認識のために、高解像度画像が使用可能である。現在では５メガピクセルカメラの携帯通信デバイスが市場に存在するので、ユーザがそのようなデータが送信されるのを待つことが可能ならば、より長い距離からの物体の検出及び認識が可能であるだろう。在宅使用向けのＷｉ−Ｆｉ構成は、このモードをより実用的なものとすることが可能である。

図３は、本発明の一実施形態による、基本的なコンピュータスキルを有する遠隔アシスタントによる使用に適したアクセス可能なユーザインターフェースを含む、図１の認識アプリケーション１２４によって生成された表示例が取得されている視覚フレームを示す。インターフェース３２４は、有視力アシスタントインターフェースであると考えることが可能である。二回のボタン押しに基づき、携帯デバイスユーザは、音声及び一方向ビデオ接続によって遠隔アシスタントと接続することが可能であり、遠隔アシスタントがシステムをトレーニングするための遠隔カメラマンとして振舞うことが可能となる。例えば、遠隔アシスタントは、はじめに、小型視聴ウィンドウ３２２内の携帯通信デバイス１１０からのライブビデオを用いて、関心対象の物体を視野内に収めるように、音声命令によって携帯通信デバイス１１０の携帯デバイスユーザに指示することが可能である。関心対象の物体の全体が見えるようになると、遠隔アシスタントは、ビデオのフレームを記録するか、又は例えば取得視覚イメージ３２５などの高解像度画像を要求するために、画像取得ボタン３２３ａ又は３２３ｂのうちの１つを押すことができる。その後、遠隔アシスタントは、システムが認識モードにある場合に物体を発声するために用いることが可能な物体ＩＤを、テキスト記述フィールド３２８内に入力することができる。

本発明のいくつかの実施形態は、ナビゲーション、位置確認、マッピング、及び視覚サービスをサポートするために遠隔ロボットに用いられるものに類似する、例えばＳＩＦＴのような物体認識アルゴリズムを実装する。一般に、物体認識アルゴリズムは、平面的で質感を持った物体に適用される場合に最も良く機能する。また、このアルゴリズムは、平面的で質感を持った構造で構成された３次元の物体、又は僅かに湾曲した構成要素で構成された３次元物体についても信頼性を持って認識する。物体認識アルゴリズムの利点の一つは、それらが、光の状況、オクルージョン、及び向きが劇的に変化する現実的環境における信頼性のある認識を提供可能なことである。しかしながら、人間の顔などの３次元の変形可能な物体については、一般的には確実な様式で処理することができない。

多くの物体認識アルゴリズムは、一対一の照合の状況、及び小規模なデータベースにおいて、高い認識性能を達成することが可能である。また、そうした一対一の状況は、複数の画像がマッチングのために用いられること、及びトレーニングセットとして用いられることをより容易に可能とし、システムが光及び物体の向きにおける変動に対してよりロバストになることを可能とする。しかしながら、それらの同じアルゴリズムは、例えば影のかかった物体を識別しようとするとき、非常に大きなデータベースを比較しようとするとき、及び、データベースが非常に類似した物体（例えば、ダイエットコーラのボトルと従来のコーラのボトルなど）を含むとき、認識率をおよそ８０％から９５％ほど低下させうる。本発明概念は、説明された欠陥に対するいくつかの改善法を包含する。

かかる改善法の一つは、例えば物体認識アルゴリズムとＯＣＲの融合などの、画像処理アルゴリズムの統合を含む。ダイエットコーラと従来のコーラの区別、又は建物もしくは道路標識の認識は、他の物体と非常に類似するパターンを有するか、又は物体認識アルゴリズム単体にとって十分なだけの顕著な特徴を示さないものでありうる物体を示す。類似性問題、又は十分な顕著な特徴の欠如に悩まされる物体の多くは、テキストを含みうる。その結果、上述の課題の多くは、種々の融合ストラテジーを用いて対処されうる。

一般にＯＣＲは、読み取られるテキストに対し、およそ３メガピクセルの画像又は約１００〜２００ｄｐｉを要求する。本システムは、物体認識を支援するための、及び、ＯＣＲのために要求される解像度を得るための３メガピクセル画像取得モードへと自動的に切り替えるための、ライブビデオモード用に構成することが可能である。例えば、携帯通信デバイスカメラのデジタルズームは、推定される物体認識に基づく距離測定に基づいて調整されることが可能である。

種々の物体ラベル上のテキストの読み取りのためのＯＣＲの使用に加えて、ＵＰＣバーコードを別の照合手段として用いることが可能である。製品上のバーコードは、ライブビデオ解析モード中に検出されることが可能であり、その後、システムは、高解像度の静止画像を取得するための静止画像モードへと切り替えることが可能である。高解像度の静止画像は、ＵＰＣデータベースへの照合のためのＵＰＣバーコードの読み取りを可能とする。さらに、一対一照合の状況において、トレーニングのために複数の画像を利用し、それによって、光条件及び／又は向きの広範囲にわたる物体認識を可能とすることが実現可能でありうる。例えば建物の入り口などのような、ある固定された構造を有する物体のために、異なってはいるが繰り返し可能性のある遭遇しうる光条件を表している、異なる時刻における異なる向きから、トレーニング画像を取得することが可能でありうる。また、フォーカスグループ交流に基づくと、視覚障害を有する携帯デバイスユーザにとっては、９０％に満たない認識率でさえ非常に大きな有用性を持ちうることにも留意されたい。

人間はおよそ１３５×２００度の視野を有するが、標準的なコンパクトカメラは、およそ３５×５０度の視野しか持たない。その故、ライブビデオ又は高解像度画像から自動的なパノラマ生成を提供する機能を含む本発明の実施形態は、遠隔アシスタントなどの、遠隔のクライアント−サーバ・ホストデバイスのユーザに対する大きな有用性を持ちうる。例えば、パノラマ機能は、遠隔アシスタントにおけるトンネル視野の問題を克服するため、並びに、視覚障害を有する携帯デバイスユーザにとっての、カメラを向けることに起因する、標識検出及び認識における画像トリミングの問題を克服するために用いられうる。

パノラマ生成のための解決法の一つは、オート・スティッチ手法を用いるものであり、現在この手法は、普通のカメラを使用して多数の画像を取得し、個々の画像を一つに縫い合わせることで、例えば最大３６０度までの、非常に広い視野を有する合成画像を形成することによって機能する。オート・スティッチングの結果は、携帯デバイスユーザ又は遠隔アシスタントが任意の方向から眺めることが可能なコンピュータグラフィックモデルとして表示されることが可能である。あるいは、画像は、３６０度写真を提供するように、球体又は円柱の表面にマップされることが可能である。

本発明のいくつかの実施形態において、クライアント−サーバ・ホストデバイスの認識アプリケーション１２４は、例えばおよそ５ｆｐｓ、およそ８ｆｐｓ、又はおよそ１０ｆｐｓのレートで無損失のビデオ・フレームを受け取るように構成される。それらのビデオ・フレームは、正しい順序であることを要求されることが可能である。結果として、画像の登録を実行するように構成されたオート・スティッチ・ソフトウェアモジュールは、ライブ画像シーケンスの受け取り次第順次の処理のために実装されることが可能である。少なくとも１つのオート・スティッチの実装は、新しいパノラマとして認識される不連続な場面変化を可能とする。本発明の実施形態に包含されるクライアント−サーバ・ホストデバイスの認識アプリケーション１２４のいくつかのバージョンは、そうした場面変化が検出されると、自動的に新たなパノラマを開始するように構成されることが可能である。加えて、遠隔アシスタントは、例えば、手動で、又は携帯デバイスユーザの位置に基づいて、パノラマ間を行き来してナビゲートすることが可能とされうる。

画像のＳＩＦＴ登録は、マルチ・バンド混合よりも時間消費が少ない。その結果、いくつかの実施形態において、はじめに未混合の結果物及び未完成なパノラマを表示し、追加画像が届き次第、それらを埋めていくことが有利であることが判明しうる。例えば、ライブビデオデータは、ＳＩＦＴ登録モジュールによって解析され、携帯通信デバイスカメラが指し示しているとシステムによって認識されるパノラマの部分上に表示されることが可能な、グラフィック・オーバーレイを提供しうる。有視力アシスタントからの遠隔要求に基づいて、又は、関心領域の位置を識別するための自動的な画像解析に応答して、本システムは、パノラマの任意の部分のより高い解像度の画像を得ることが可能である。階層符号化は、関心領域のための、送信される高解像度画像の追加層を許容し、システムのデータ転送プロファイルを減少させることを可能とするために用いられうる。

画像解析アルゴリズムは、信頼性を持って、場所特有の特徴を認識すること、及び、ＳＩＦＴ法を用いて、画像に基づくランドマークの向き及び距離を測定することにおける大きな見込みを示してきた。ＳＩＦＴ法は、任意の回転、拡大縮小、輝度及びコントラストの変化、並びに他の変換により、雑然とした小さな画像部分を効率的にマッチさせるために、局所的な不変の特徴を相互に関連付けるために用いられることが可能である。一般に画像は、重なり合う小さな断片に分割され、それぞれの断片は、行われうる変換に対して不変な様式で表される。その後、それぞれの断片は個々にマッチングされ、マッチングされた断片は再構築されることが可能である。説明された処理シーケンスは、画像を大きなデータベースとマッチングする場合でさえ、１秒未満のうちに実行されることが可能である。

また、ＳＩＦＴアルゴリズムは、屋内環境内の携帯デバイスユーザの全地球測位という課題にも適用されることが可能である。例えば、ＳＩＦＴランドマークは、時間と共に徐々にデータベースに取得されうるものであって、システムが測位のために３Ｄランドマークを用いることを可能とする環境の３Ｄマップの生成をもたらす。３Ｄ全地球測位の結果の探索を減らすために積算距離を用いることが可能であるが、システムはＳＩＦＴ特徴のみに基づいて測位することも十分に可能である。本システムの実施形態に関して、本発明者らは、視覚障害を有する携帯デバイスユーザが、確認手段として彼らが意図したルートに沿ったランドマークにアクセスする必要がありうること、又は、彼らが最終目的地を識別し特定する必要がありうることを想定している。それらの必要性は、非常に僅かなマップを用いて満たされることが可能である。加えて、例えばワイヤレスネットワークから入手可能な、ルート制限、おおよそのＧＰＳ位置の推定、又は位置情報サービス（ＬＢＳ）のような効率化手法の実装を通して、関連するランドマークのデータベースの探索空間を縮小し、積算距離の必要性を解消することが可能でありうる。

さらに、一部の視覚障害を有する携帯デバイスユーザ用途にとっては、２Ｄマップが適切なものでありうる。例えば、ランドマークは、２Ｄマップ及び測位を可能とするＧＩＳデータのタグを付けられることが可能である。あるいは、そのようなランドマークはＧＩＳデータベースとは無相関とされるが、ルートのランドマーク及び目的地の１Ｄ表現に対する進捗を報告することも可能である。たとえＧＩＳデータのタグを付けられない場合であっても、ＳＩＦＴランドマークは、例えば街区上での家までの最終案内に役立つ、相対距離及び向きの情報を提供することが可能である。ＳＩＦＴ特徴は雑音及びオクルージョンに対して非常にロバストであるが、明暗、反射、又は他の固有のＳＩＦＴ特徴の不足における予測不能な変化から特に影響を受けやすいランドマークが存在しうる。そのような場合、ランドマーク又は場面の認識を増大させるために、テキスト標識検出及びＯＣＲを用いることが可能である。

先に述べたように、テキスト及び標識の認識は、本発明のいくつかの実施形態の特徴である。しかしながら、無差別の自動化されたテキスト又は標識の認識は、視覚障害を有する携帯デバイスユーザにとっての情報過多という重大なリスクを生じる。自身の要求又は関心に一致するテキスト又は標識に焦点を合わせることに無関係な視覚的イメージを遮断することが可能な目の見えるユーザとは異なり、視覚に障害を持つユーザはそのような初期区別を行うことが不可能である。その結果として、本システムの実施形態は、例えば交通信号や横断歩道の起動ボタンのような、標識及び特定のナビゲーション補助、並びに安全機能の「オンデマンド式の」認識を含む。

自然環境において特徴を「オンデマンド」で自動的に検出し読み取る能力は、環境条件における大きな変動性、及び、「オンデマンド」のテキスト自体の特徴における変動性のため、従来から非常に困難であった。本システムの実施形態は、調節可能なカスケード型の強力な分類器を用いて実装される「オンデマンド」認識機能を含み、ビデオストリームによって、及び高解像度の静止画像における非常に高い精度によって、リアルタイムで動作する。例えば、１８０×１２０、３２０×２４０、又は６４０×４８０のビデオストリームをリアルタイムで解析するクライアント−サーバ・ホストデバイス認識アプリケーション１２４は、最初に検出された領域を超えて、可能な関心対象のテキスト領域を拡張可能であり、その後、ＯＣＲ又は他の改善された検出及び認識アルゴリズムのために使用されることが可能な、１メガピクセル以上の高解像度の静止画像の取得及び転送を開始する。

関心対象のテキスト領域が画像の境界を越えて拡張する状況において、検出器は携帯デバイスユーザに対して指向性の走査ガイダンスを提供し、別の高解像度画像が取得され、クライアント−サーバ・ホストデバイス認識アプリケーション１２４に転送されること、及び、隣接領域の画像と縫い合わされ、それによって意図せずにトリミングされる画像の問題を克服することを可能とする。このようなアプローチの目的の一つは、適切な関心領域が走査されること、及び、不完全な（例えば、トリミングされ過ぎた）テキスト領域がＯＣＲエンジンに提示されないことを確実にするための補助として、視覚障害を有する携帯デバイスユーザのための自動化されたシステム支援を可能とすることである。こうした目的のために、クライアント−サーバ・ホストデバイス認識アプリケーション１２４は、関心対象のテキスト領域の向きを判断するように、及び、携帯デバイスユーザにその標識又はテキスト領域に対する彼らの位置を変更するためのガイダンスを提供するように構成されることが可能である。

さらに、クライアント−サーバ・ホストデバイス認識アプリケーション１２４は、テキスト領域、遠くのランドマーク、又は標識をうまく認識するために必要とされる最も低解像度の画像を判断する。かかる関心領域は、例えば、遠隔アシスタントに基づいて、クライアント−サーバ・ホストデバイスによるより高速の漸増的な解像度の向上を可能とするために、階層化された様式で符号化されることが可能である。これらの関心領域は、その後、二値化され、例えばＡＢＢＹＹ商業エンジンのような、ファインリーダーＯＣＲエンジンへと伝達されることが可能である。その結果は、それらが完全な語、又は句を作成したことを確認するために解析されることが可能であり、意味のない結果はそれ自体が特定され、廃棄されることが可能である。

「オンデマンド」のテキスト及び標識の認識のために、トレーニングデータ及び試験データが必要とされるであろうことに留意されたい。そうしたトレーニングデータは、例示的な縫い合わされたパノラマの他、収集されたプロキシ、シミュレーションビデオストリーム、及び画像のデータセットを具備しうるものであり、また、所望のテキスト領域の特定のためのビデオ、画像、及び／又はパノラマの手入力によるラベル付けを含みうる。例えば、トレーニングは、多くのトレーニングセットのアセンブリのためのアクティブラーニングを含むことが可能であり、また、ＰＣ／ネットブック・クライアントに基づく遠隔アシスタントが携帯デバイスユーザと連携してデータを取得し、ラベル付けを行うことを可能とする追加的インターフェースを利用しうる。

一実施形態において、実装は、性能のために最適化されたＣ＋＋で行われることが可能である。本発明のいくつかの実施形態で実装される認識アルゴリズムは、高解像度メガピクセル画像に対してそれらをパッチに分割することによって作用し、それらを様々な尺度で解析する。結果として、それらの実施形態は、ライブビデオストリーム解像度と、より高解像度のメガピクセル画像の両方を処理するように構成される。

以下では、本発明のシステムの実施形態のいくつかの特徴、性能、能力、及び利点を要約する。本システムの実施形態は、カメラを使用可能な携帯通信デバイス１１０（例えばスマートフォン、ＰＤＡ）から、遠隔のクライアント−サーバ・ホストデバイス１２０へのビデオ伝送速度として、１６０×１２０における３０ｆｐｓ、３２０×２４０における１５ｆｐｓ、及び６４０×４８０における５ｆｐｓをサポートする。例えばＷｉ−Ｆｉを介したクライアント−サーバ・ホストデバイス１２０への高解像度画像の転送は、３．５Ｇモバイルネットワークにおける４００ｋｂｐｓアップストリームの回線容量を想定すると、１メガピクセルのおよそ２秒未満での転送、５メガピクセルのおよそ８秒未満での転送に相当する速度でサポートされることが可能である。さらに、自動パノラマ生成モードにおいて、転送速度は、およそ３６秒で１メガピクセル、およそ３分で５メガピクセル画像を転送する速度に相当しうる。ライブビデオ１＋メガピクセルパノラマに基づくほぼリアルタイムの低解像度パノラマ生成が、３．５Ｇネットワーク上で、僅か２秒程から数分までの範囲の時間間隔で作り出されることが可能である。ライブの低解像度パノラマから１＋メガピクセルパノラマへの移行は、バックグラウンド処理として徐々に実行されることが可能であり、自動化された視野改善システム、又は、時間と共に向上する解像度へのアクセスを有するクライアント−サーバ・ホストデバイスに基づく遠隔アシスタントを提供する。

自動モードのために、本システムは、ライブパノラマについての以前のＳＩＦＴアルゴリズム解析に基づき、関心領域のみが抽出され、転送されるように構成されることが可能である。例えば、本発明の実施形態は、１６０×１２０における２０ｆｐｓ、３２０×２４０における１０ｆｐｓ、及び６４０×４８０における５ｆｐｓを達成するために、１．５ＧＨｚペンティアム（登録商標）プロセッサを用いて、数百のエントリのデータセットに対するＳＩＦＴ解析向けに構成されることが可能である。距離の離れた物体のためには高解像度が必要とされ、これが、ランドマークの距離に応じて、システムの動作を遅くするであろう。テキスト及び標識検出は、ライブビデオ画像に基づき、およそ２〜１５ｆｐｓの検出速度、およそ１〜２ｆｐｓの認識速度で実行されることが可能である。関心領域命令は、ＰＣ／ネットブックから携帯通信デバイスへと、およそ１〜１５ｆｐｓの速度で送信されることが可能である。ポインティング命令は、およそ２秒で発せられることが可能である。１メガピクセル画像の取得及び転送は、Ｗｉ−Ｆｉ上でおよそ２秒、又は３．５Ｇネットワーク上ではおよそ３６秒で、実行可能である。メガピクセル関心領域のトリミングは、データサイズ及び転送速度における５〜１０倍の改善をもたらすことが可能である。ＯＣＲは、およそ１〜２秒に標識内容のテキスト読み上げ発声の実行に必要とされる時間を加えた時間で実行されることが可能である。

近くのランドマーク及び物体のＳＩＦＴ特徴は低解像度であっても認識されることが可能であり、それ故、先に言及したシステムビデオ転送及びバックエンド画像認識の速度を想定すると、リアルタイムで認識されることが可能である。ＳＩＦＴは、ランドマークの認識と、その距離及び向きの判定の両方が可能である。本発明の実施形態において実装されるトレーニングデータセットは、複数の距離及び向きを用いてランドマークを表現するように構成されることが可能である。しかしながら、離れた物体は、より高解像度の画像を必要としうるものであり、また、圧縮による画像の乱れがありうる。その結果として、一般にそうした離れた物体は、３．５Ｇモバイルネットワーク上の転送に多くの時間を必要とする。携帯デバイスユーザが遭遇する典型的な距離及びテキストサイズを想定すると、上首尾のテキスト標識のＯＣＲでは、殆ど常にメガピクセル画像解像度を必要とするであろう。クライアント−サーバ・ホストデバイス構成は、携帯通信デバイスからクライアント−サーバ・ホストデバイス認識アプリケーション１２４へのＷｉ−Ｆｉ接続の使用を可能とすることによって、モバイルネットワークの遅延を克服することが可能であるが、３．５Ｇモバイルワットワークにおける認識及びデータ転送を高速化するために、インテリジェントな複数解像度のビデオ及び場面取得、符号化、及び転送において、他の方法を使用しうる。

上述のように、様々な解像度におけるリアルタイムビデオは、携帯通信デバイスによって提供されることが可能である。リアルタイムビデオは、自動化された視野改善システム、クライアント−サーバ・ホストデバイスに基づく遠隔アシスタント、又は携帯デバイスユーザもしくは携帯通信デバイス１１０によって、個別に要求されることが可能である。また、携帯通信デバイスの携帯ユーザ、クライアント−サーバ・ホストデバイス（例えば、ＰＣ／ネットブック）に基づく遠隔アシスタント、又は視野改善システムは、パノラマ生成を開始することも可能であり、パノラマ生成は、ライブビデオを表示することと、個別に上述のＳＩＦＴオート・スティッチ方法を用いてパノラマにタイルを張ることを開始することの両方が可能でありうる。ライブビデオの位置／視点は、これを取り巻くパノラマに対して中央を維持するように、調整されることが可能である。オート・スティッチＳＩＦＴマッチング及び認識の段階は、一般的には大きな処理時間を必要とせず、ビデオビデオが携帯通信デバイスから受信されたときに順序付けられることが可能であることを前提として、パノラマ生成は、クライアント−サーバ・ホストデバイス１２０上で、ほぼリアルタイムであることが可能である。

混合及び色補正はより時間がかかるものでありえ、これらは一般にバックグラウンドで生じるであろう。携帯デバイスユーザ又はクライアント−サーバ・ホストデバイスに基づく遠隔アシスタントが高解像度（例えば、メガピクセル）のパノラマを選択する場合、システムは、自身の周囲を走査している携帯デバイスユーザをガイドしながら、走査の間に選択されたポイントにおいて携帯デバイスユーザ又はクライアント−サーバ・ホストデバイスに基づくアシスタントの選択したものの高解像度画像を自動的に取得して、ライブビデオパノラマを表示するように構成されることが可能である。これらの高解像度画像は、追加のストリームがバックグラウンドで送信され、それによってクライアント−サーバ・ホストデバイスに基づく遠隔アシスタントのために解像度の漸進的な改善を可能とすることが可能なように、ピラミッド様式で符号化されることが可能である。自動視野改善モードにおいて、これらのライブビデオは、例えば、認識データベース１２６／１３６及び画像解析のための訓練された検出器を利用して、及び、近くのランドマーク認識のために同様の低解像度ＳＩＦＴ法を利用して、携帯通信デバイス１１０の携帯デバイスユーザの遠隔で、クライアント−サーバ・ホストデバイス１２０上でリアルタイムに解析されることが可能である。その解析の結果は、リアルタイムで利用可能な解像度で認識可能なランドマークを決定するために用いられることが可能であり、一方で、関心対象のテキスト領域が視野内にある場合、テキスト標識検出器がリアルタイムでユーザに指示を出すことも可能である。その後、携帯デバイスユーザは、携帯通信デバイスカメラの狙いを調整するためにテキスト検出器による指示を受けることが可能であり、視野改善システムは、標識やランドマークの不完全な切り取りを回避できる可能性が最も高いものと判断された視点からの高解像度画像を取得することができる。

ライブビデオ及び構成されたパノラマの解析に基づいて、携帯デバイスユーザにカメラ照準の手がかりを提供するために、様々な関心領域拡張ストラテジーを用いることが可能である。その場合、携帯デバイスユーザは、視野改善システムがメガピクセル画像を取得するために、携帯通信デバイスカメラをしっかりと保持するようにトレーニングを受けることが可能である。これらの高解像度画像は、追加のストリームがバックグラウンドで送信され、ＯＣＲ認識バックエンドのために漸進的に解像度を向上させるように処理されるように、ピラミッド様式で再度符号化されることが可能である。いくつかの実施形態において、識別された関心領域の認識のために必要とされる、最も可能性の高い解像度を決定するために、低解像度検出器が利用されることが可能である。しかしながら、自動的な初期設定は、携帯デバイスユーザ及び／又はクライアント−サーバ・ホストデバイスに基づく遠隔アシスタントによる手動入力によって無効とされることが可能であり、ユーザが選択された視距離に適する解像度を選択することを可能とする。

図４は、本発明の一実施形態による、説明された視野改善システムの機能的概略を示す。視野改善システム４００は、携帯通信デバイス４１０によって提供される機能、クライアント−サーバ・ホストデバイス４２０によって提供される機能、及び、それらのシステムノード間の相互関係を含む。再度図１を参照すると、図４の携帯通信デバイス４１０及びクライアント−サーバ・ホストデバイス４２０によって提供される機能は、図１の携帯通信デバイス１１０上の携帯デバイス版認識アプリケーション１１４及びクライアント−サーバ・ホストデバイス１２０上の認識アプリケーション１２４の作用とそれぞれ対応すると見ることができる。上で概要を示したアプローチは、ヒトの周辺視及び中心視に対応するようにデザインされており、したがって、視覚に障害を持つ者の神経生理学的システムの拡張を可能とするようにデザインされている。例えば、説明した低解像度ライブビデオ解析は、大まかな形状及びランドマークを認識するために周辺視を用いるという有視力者の能力に対応するものと見ることが可能であるが、一方で、テキスト、離れた物体、又はきめ細かな細部を有する物体の読み取り及び認識には、より鋭敏な中心視が必要とされる。本発明の実施形態において、関心領域の検出は、より時間のかかる高解像度認識に処理資源を渡す前に、ライブビデオ又は低解像度パノラマを用いて実行されることが可能である。

本発明のいくつかの実施形態によれば、空間的及び時間的に階層化されたビデオ及び静止画像の符号化及び復号を、例えば、Ｈ２６３＋ビデオコーデックなどの性能を向上させるために実装することが可能である。ピラミッド様式で符号化された漸増的解像度アルゴリズムは、ブロードバンド及びダイヤルアップ接続の異種混合を最適にサポートするために実装されることが可能である。例えば、二点間環境において、メディア伝送速度は、二点間のパスにおいて利用可能な能力を最適に利用するために、継続的に調整されることが可能である。このアプローチは、パスを共有する他のトラフィックに対する過度の影響を有することなく、システムが最適なユーザ体験を実現させることを可能とする。複数の受信者が存在する場合、それぞれの受信者が任意の瞬間に受信可能なデータ量に変動があることがほぼ確実である。これは、大きなグループの会議の状況における、ブロードバンドユーザ対ダイヤルアップユーザの異種混合に起因するものでありうるか、又は単にネットワークの混雑及び／又は遅延に起因するものでありうる。もし、送信者が全てのクライアント・ノードに対して同一のデータを送信しようとするならば、送信者は、一般に、最も低い能力の受信ノードに照準を合わせ、それによってより設備の整った受信者の体験を悪化させるか、又は、より設備の整っていない受信者のパスが過負荷となるであろうことを知りながら、高速で転送を行うか、の間で選択しなければならない。

この問題に対処するため、本発明の実施形態は、復号されるビデオの整合性を保ちながら、異なる速度のデータストリームを作り出すために選択的に転送されることが可能な、複数の階層でビデオを符号化するように構成される。こうした階層化は、単一のストリームから異なるフレームレートが選択されることを可能とする、Ｈ２６３＋に対する修正を通して達成されることが可能である。本アプローチは、およそ６対１（６：１）の比率の範囲内で変化するデータ転送速度をサポートするように構成される（例えば、もしビデオが６０ｋｂｐｓで符号化されるならば、１０ｋｂｐｓから６０ｋｂｐｓの範囲内のデータ転送速度で受信者に提供することが可能である）。その結果、様々な受信者が、同一の空間的品質で、しかし異なるフレームレートで、ビデオを受信できる。同様の符号化スキームを、様々な空間的階層をサポートするために実装することも可能である。したがって、例えば、ある受信者は１６０×１２０の解像度でビデオを受信しうる一方で、別の受信者は３２０×２４０の解像度を可能とする付加的な強化層を受信しうる。

本発明の実施形態は、ルーティング能力におけるいくつかの重要な進歩を提供する、新しいレプリケーション・アンド・フォワーディング・プロトコル（ＲＦＰ）を含む。例えばインターネットを介した中央ホストサーバへの同時アクセスが利用不可能であるか、又は望ましくない環境における、ＰＣ／ネットブック・クライアント−サーバ資源に対する分散処理及びアクセスは、ビデオ及び画像が、例えばワイヤレスＬＡＮ上などにあるデバイス間で転送されることが可能な自己充足型クラスターの使用可能性を必要とする。これを達成するために、Ｐ２Ｐメディア転送を用いる自己充足型のクライアント−サーバ・アーキテクチャを、（１）それぞれのメディア源を別々に処理して、クラスターにおける異なるメンバーのためにネットワークにおける異なった地点でデータのレプリケーションが生じうるように、及び、（２）可変深度の配信木を作り出すためのデータのレプリケーションの多地点のカスケーディングを可能とするように、効率的に用いることが可能である。

上述した２つの進歩により、本システムアーキテクチャの一実施形態は、各メディアの起点ノードがレプリケーション及びフォワーディングノードによって同一の場所に配置されるように構成される。実際には、各クライアント（例えば、携帯デバイス・クライアント又はＰＣ／ネットブック・クライアント−サーバ）は、それらのクライアントで作り出されたメディアのためのメディア配信サーバとして振舞う。このアプローチは、レプリケーションの代わりの地点が分散型経路木を介して利用可能となったときにはいつでも、データ・レプリケーションの地点がその発生源ノードから容易に離れることが可能であるような様式における、対称性Ｐ２Ｐ配信モデルをサポートする。

ルーティング能力におけるこれらの変更に加えて、本システムＲＦＰの実施形態は、現実世界における配置に不可欠でありうるトランスポートレベル・サービスをサポートするように設計される。それらは、例えば、ダウンストリームのノードに、これらがうまく受信可能なものよりも高速でデータが送信されないことを確実とするために、ホップ・バイ・ホップのフロー制御／混雑回避を含むことができる。さらに、本システムＲＦＰの実施形態は、必ずしも発生源ノードからの再伝送を必要とすることのない、確実に届けられなければならないデータの確認応答及び再伝送のための機能を含む。したがって、本システムＲＦＰの実施形態は、従来的なアプリケーションレベルの配信サーバとネットワークレベルのマルチキャストソリューションのハイブリッドとみなされることが可能である。ＩＰマルチキャストと同様に、開示されるＲＦＰは、任意の数のレプリケーション地点を有する配信木の作成を可能とすることができる。しかしながら、ＩＰマルチキャストとは異なり、開示されるＲＦＰは、１から任意のＮのルーティング状況において解決することが困難な、主要なトランスポートレベルの問題に対処することも可能である。現在、配備され試験されている、基本的転送能力を用いて、本発明者らは本明細書において、メディア起点クライアント（例えば、ソース・ノード）の外部に配置されたＲＦＰノードを用いる配信スキーマの、３つの追加的実施形態を開示する。

かかる実施形態の一つは、高速ネットワーク接続を有する中央配置のＲＦＰノードが、スター型トポロジーにおける会議クラスターの全てのメンバーのためのレプリケーションサービスを提供する「会議サーバ」モデルとして特徴付けられることが可能である。第２の実施形態は、受信者のクラスターの近くに配置された専用ＲＦＰノードが、そのクラスターに向かう全てのメディアのためのレプリケーションサービスを提供する「ローカル・プロキシ／キャッシュ」モデルとして特徴付けられることが可能である。例えば、キャンパスに、又はＬＡＮ上に配置されたＲＦＰノードが、全てのローカルの受信者にレプリケーションサービスを提供することができる。第３の実施形態は、エンドユーザ・クライアントが、同じストリームを受信する他のクライアントのためのレプリケーション及びフォワーディングサービスを実行する動的Ｐ２Ｐモデルの形態を取る。

図５は、本発明の一実施形態による、リアルタイム物体認識及び改善された視野を提供するための方法のステップを説明するフローチャート５００を示す。当業者に明白な特定の細部及び特徴は、フローチャート５００から省略されている。例えば、当業者に知られるとおり、一つのステップは、１又は複数の下位ステップを含みうるし、あるいは、特別な装置又は機材を含みうる。フローチャート５００に示されるステップ５１０から５５０は、本方法の一実施形態を説明するのに十分である一方で、他の実施形態は、フローチャート５００に示されるものとは異なるステップを用いうるし、あるいは、より多くの、又はより少ないステップを含みうる。

フローチャート５００のステップ５１０を図１と共に参照すると、ステップ５１０は、カメラを含む携帯通信デバイスから物体の視覚的イメージを取得することを含む。ステップ５１０は、カメラ１１２を含む携帯通信デバイス１１０を用いて実行されうる。具体例として、携帯通信デバイス１１０が、高解像度画像を取得することが可能なビデオカメラを備えるスマートフォンであると考える。この例において、ステップ５１０は、高解像度ビデオカメラを用いてビデオを撮影するスマートフォンユーザに対応しうる。

フローチャート５００の方法は、ネットワークを介して、視覚的イメージを少なくとも一つのクライアント−サーバ・ホストデバイスへと送ることを含む、ステップ５２０へと続く。ステップ５２０は、取得された視覚的イメージをクライアント−サーバ・ホストデバイス１２０へと送るためにネットワーク通信リンク１０２を使用して、携帯通信デバイス１１０によって実行されうる。例えば図２に示されるように、いくつかの実施形態において、携帯通信デバイス１１０は、例えばＰ２Ｐネットワークを介して、複数のクライアント−サーバ・ホストデバイスにリンクされうる。

続いて、図５のステップ５３０を参照すると、フローチャート５００のステップ５３０は、物体認識データを生成するために、クライアント−サーバ・ホストデバイス上の認識アプリケーションを用いて、視覚的イメージを処理することを含む。一実施形態において、ステップ５３０は、クライアント−サーバ・ホストデバイス１２０上の認識アプリケーション１２４によって実行されうる。さらに、図２を参照すると、一実施形態において、それぞれが認識アプリケーション１２４を実行する複数のクライアント−サーバ・ホストデバイス２２０が、ステップ５３０で実行される処理のための分散型計算プラットフォームとして機能しうる。あるいは、一実施形態において、この処理は、中央ホストサーバ１３０によって、サーバ版認識アプリケーション１３４を用いて実行されうる。先に述べたように、ステップ５３０の処理は、ＳＩＦＴアルゴリズム、ＳＵＲＦアルゴリズム、及びＯＣＲのうちの一つ又は複数を用いて実行されうる。

フローチャート５００のステップ５４０へと進むと、ステップ５４０は、ネットワークを介して、携帯通信デバイスによって、少なくとも一つのクライアント−サーバ・ホストデバイスから物体認識データを受信することを含む。図１からわかるように、ステップ５４０は、ネットワーク通信リンク１０２を介した、携帯通信デバイス１１０による認識アプリケーション１２４によって生成された物体認識データの受信に対応しうる。

フローチャート５００のステップ５５０において、遠隔の携帯通信デバイス１１０のユーザのために、物体がリアルタイムで識別される。ステップ５５０は、携帯通信デバイス１１０を用いて実行される。一実施形態において、携帯通信デバイス１１０は、携帯デバイス版認識アプリケーション１１４を含みうるものであり、これは、発声される物体の発話識別を提供するように、及び／又は視覚障害を持つ遠隔のユーザによる本方法の使用を可能とするように構成されたインターフェースを含みうる。一実施形態において、視覚的イメージは環境の特徴を含み、物体の識別は位置の識別を含む。後者の実施形態において、本方法は、識別された位置に従って、遠隔ユーザにナビゲーション情報を提供することを更に含む。

図６において、システム６００は、図１及び図２を参照して説明されたシステムと同じように、拡張現実エンジン６００との情報のやり取りを通して、視覚障害を持つ人物６０５に改善された検知機能を提供する。拡張現実エンジン６００は、アシスタントインターフェース６５０を介して有視力アシスタントに直接提示される物体を含む、遠隔環境６３５の拡張現実パノラマを構成する。以下の検討の中で説明されるように、視覚障害者６０５のみが拡張現実パノラマと情報のやり取りを持つのではなく、視覚障害者６０５を支援するために、有視力アシスタントもまた拡張現実パノラマと直接情報のやり取りを行う。

以下の検討は、有視力アシスタントの視点から提示される。したがって、視覚障害者６０５及び遠隔環境６３５は、有視力アシスタントから見て遠隔と考えられる。「遠隔」という言葉は、有視力アシスタントが、物理的な支援が不可能であることを表すのに十分な、典型的にはおよそ５０メートル以上の距離で視覚障害者６０５から物理的に離れていることを婉曲に示すために用いられる。例えば、視覚障害者６０５は、アシスタントインターフェース６５０とは異なる大陸に位置しうる。このように、有視力アシスタントは、視覚障害者６０５から地理的に隔てられていることが可能である。

視覚障害者６０５は、１又は複数のセンサーを介して環境センサーデータを取得するために、携帯検知デバイス６１０を用いる。上述のとおり、携帯検知デバイス６１０は、スマートフォン又は他の種類の携帯デバイスを含むことが可能である。他の携帯デバイスの例としては、眼鏡、専用デバイス、又は、ネットワーク６１５を介してデータを取得及び送信するように構成された他のコンピューティングデバイスを含むことが可能である。携帯検知デバイス６１０は、少なくとも１つのセンサー、好適にはカメラを含み、センサーデータを取得することが可能である。携帯検知デバイス６１０は、加速度計、マイクロフォン、磁力計、生体センサー、バーコードリーダー、ＲＦＩＤリーダー、積算距離計、ＧＰＳ、ラジオ、又は他の種類のセンサーを含む他の種類のセンサーを含むことが可能である。また、いくつかの実施形態において、センサーは、例えば視覚障害者６０５の肉体的健全性、血圧、神経作用、心拍数、体温、呼吸速度、血流データ、又は他の健康状態の測定基準に関するデータを得るように構成された１又は複数の相互接続された生体センサーのパーソナルエリア・センサーウェブも含むことが可能である。携帯検知デバイス６１０は、これらのセンサーの各々からデータを取得し、ネットワーク６１５を介して拡張現実エンジン６６０へとセンサーデータを転送するための準備をする。

いくつかの実施形態において、携帯検知デバイス６１０は、補助アダプタ６１２を介して、その意図された目的を超えた機能を得るように構成されることが可能である。補助アダプタ６１２は、有線又は無線で（例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）又は８０２．１５ｘ、ＵＳＢ、ワイヤレスＵＳＢ、Ｆｉｒｅｗｉｒｅ、ＰＣＩｅ、ＬｉｇｈｔＰｅａｋ、ＲＳ−２３２、Ｚｉｇｂｅｅ（登録商標）、ｅＳＡＴＡ、イーサネット（登録商標）など）、１又は複数の接続インターフェースを介して、携帯検知デバイス６１０と接続される。アダプタ６１２は、携帯検知デバイス６１０内にはない追加的なセンサーを含むことが可能である。例えば、ｉＰｈｏｎｅ（商標）は、ＲＦＩＤリーダーを有さない。アダプタ６１２は、ＵＳＢ接続を介してｉＰｈｏｎｅと接続するように構成されたＲＦＩＤリーダーを含みうるものであり、ＲＦＩＤリーダーはワイヤレスＲＦＩＤデータを取得することが可能であって、例えばＩＤＢＬＵＥ（商標）リーダーは、開示された主題と共に使用するように適合させられうる（ＵＲＬｗｗｗ．ｉｄｂｌｕｅ．ｃｏｍを参照されたい）。加えて、アダプタ６１２は、広帯域通信（例えば、ＷｉＭＡＸ、ＷｉＧＩＧ、アドホックネットワーク、ＵＷＢ、ワイヤレスＨＤなど）、反響定位機能、触覚フィードバック作動装置（例えば、振動子、点字インターフェースなど）、拡張音声出力／入力（例えば、ステレオ、フィルターなど）、又は他の拡張機能を含みうる他の種類の拡張機能を提供することが可能である。

場合によりアダプタ６１２又は他の外部センサーと協働する携帯検知デバイス６１０は、好適には、遠隔環境６３５、又はより具体的には、現在の視野（ＦｏＶ）６３０を表す環境センサーデータを取得するように構成される。このセンサーデータは、携帯検知デバイス６１０が、視覚障害者６０５から動作を指示されることなく、そのセンサーからデータを継続的に取得するように構成されることが可能な、視野内の環境センサーデータとみなされることが可能である。環境センサーデータは、センサー・バイ・センサー（ｓｅｎｓｏｒ−ｂｙ−ｓｅｎｓｏｒ）に基づく場合でさえ、能動的又は受動的に収集されることが可能である。能動的に収集されるセンサーデータは、視覚障害者６０５の命令の下で、又は有視力アシスタントの命令の下で収集されるデータを含むものと考えられる。受動的に収集されるセンサーデータは、単にセンサーがアクティブであるときに収集されるデータを含む。例えば、携帯検知デバイス６１０は、全てのセンサーを、携帯検知デバイス６１０が遠隔環境６３５の状況にかかわらずに環境センサーデータを取得する、「収集」モードにしうる。

また、遠隔環境６３５を表す環境センサーデータは、携帯検知デバイス６１０又はアダプタ６１２を超えて、他のデータ源から収集されることも可能である。例えば、公的にアクセス可能なライブカメラ供給にアクセスすることも可能であり、拡張現実エンジン６６０は、そうした「外部の」環境データを、拡張現実パノラマの構成に統合する。システム６００における他のデータ源は、政府データベース（例えば、地理調査など）、軍用又は自家用の車両（例えば、無人機、航空機、自動車など）、地方自治体のセンサー（例えば、警察無線、ライブ・ハイウェイ・カメラ供給、消防署など）、警備員、人工衛星、Ｇｏｏｇｌｅ（登録商標）ＳｔｒｅｅｔＶｉｅｗ（商標）、又は他の公的もしくは私的な環境センサーデータ源を含むことが可能である。

環境センサーデータは、ネットワーク６１５を介して拡張現実エンジン６６０へと送信され、拡張現実エンジン６６０は、遠隔デバイスインターフェース６２２、パノラマエンジン６２０、パノラマデータベース６２４、又は物体登録モジュール６２６を含むことが可能である。ネットワーク６１５は、インターネット、セル・ネットワーク、ＷＡＮ、ＬＡＮ、ＶＰＮ、ＰＡＮ、又は他の種類のネットワークを含む、１又は複数の有線又は無線のネットワーク・インフラを含むことが可能であることが理解されるであろう。遠隔デバイスインターフェース６２２は、様々な所望の方法に従って、携帯検知デバイス６１０から環境センサーデータを受信するように構成されることが可能である。いくつかの実施形態において、遠隔デバイスインターフェース６２２は、携帯検知デバイス６１０にアクセス可能なＵＲＬ又はウェブサービスＡＰＩを提供するウェブサーバを含むことが可能である。他の実施形態においては、遠隔デバイスインターフェース６２２は、１又は複数の独占プロトコルをサポートする専用通信リンクを含むことが可能である。例えば、携帯検知デバイス６１０は、遠隔デバイスインターフェース６２２（例えば、図１の認識アプリケーション１２４又は１３４）として機能する補完的アプリケーションと直接的に通信するように構成された、インストールされたアプリケーション（例えば、図１の認識アプリケーション１１４）を有することが可能である。

開示されたインフラは、ピアツーピア様式でも動作可能であることを想起されたい（図２を参照）。同様に、パノラマエンジン６２０は、ネットワーク上で互いに接続された複数の構成要素を含むことが可能である。例えば、ピア６２０Ａは、ネットワーク６１５上に配置された１又は複数の独立したコンピューティングデバイスを表すことが可能であり、場合により、有視力アシスタントから遠隔のコンピュータ、又は視覚障害者６０５に対してローカル又は遠隔のコンピュータさえも含む。さらに、ピア６２０Ａは、場合により、Ｇｏｏｇｌｅ、Ｓａｌｅｓｆｏｒｃｅ（登録商標）、Ｍｉｃｒｏｓｏｆｔ（登録商標）、Ａｍａｚｏｎ（登録商標）、又は他のサービスによって提供されるクラウドベースのシステムに基づいて、クラウドコンピューティングアーキテクチャの１又は複数のノードにわたって分散されることが可能である。複数のピア６２０Ａの各々は、少なくともいくつかのレベルで、取得された環境センサーデータ内の物体認識に対するサポートを提供することが可能である。例えば、１又は複数の物体登録モジュール６２６は、複数のピア６２０Ａの間で分散されうるものであり、複数のピア６２０Ａの各々は、上述のように、異なる物体認識又は登録に対する責任を持つ。例えば、複数のピア６２０Ａを経由する通信パスは、ピア６２０Ａの各々がピラミッド符号化／復号のスキーム（図４を参照されたい）に従い、異なる画像解像度で登録情報を提供するように構成されうる。他の実施形態においては、パノラマエンジン６２０は、遠隔の視覚障害を持つ人々にサービスを提供する、ネットワークに基づくサーバとして機能する単一のコンピューティングデバイスを表すことが可能である。

パノラマエンジン６２０は、携帯検知デバイス６１０から環境センサーデータを取得し、好適には、センサーデータは、現在の視野（ＦｏＶ）６３０に関する情報を含む。ＦｏＶ６３０は、現在の遠隔環境６３５の一部についてのデータ収集を表す。「現在の」という言葉は、ＦｏＶ６３０が、レイテンシの影響を受けて、センサーデータのほぼリアルタイムの表現を表すという概念を伝えることを意図している。許容されるレイテンシは、現在という概念が１分未満であること、より好ましくは１０秒未満であること、更に好ましくは１秒未満であること、また更に好ましくは０．２５秒未満であることが可能な範囲内であると考えられる。

ＦｏＶ６３０は、携帯検知デバイス６１０に関連付けられたセンサーから取得される画像データ（例えば、静止画像、ビデオなど）及び位置データによって表されることが可能である。パノラマエンジン６２０は、画像データ、及び、場合により向きデータを含む位置データを、アシスタントインターフェース６５０を介した有視力アシスタントへの提示のために、レンダリングされたＦｏＶへと変換する。さらに、パノラマエンジン６２０は、環境センサーデータに少なくとも部分的に基づき、遠隔環境６３５、及びそれに関連する物体のモデルを表現する拡張現実パノラマを構築するように構成される。また、拡張現実パノラマは、統合された現在のＦｏＶ６３０を含むことが可能である。上述のように、パノラマエンジン６２０は、拡張現実パノラマが複数様式のデータを含むことが可能なように、視覚データに加えて、他の種類の環境データを拡張現実パノラマに統合することも可能であることを理解されたい。

パノラマエンジン６２０が環境データを収集、又は取得すると、パノラマエンジン６２０は、視覚データ、音声データ、触覚データ、運動感覚データ、メタデータ、又は他の種類のデータを含む複数様式のパノラマを作り出すために、そのデータを一つに縫い合わせる。視覚データは、画像を合成するために、場合によりＳＩＦＴ登録を通した物体特徴の認識を含む種々の適切な手法を用いて、一つに縫い合わされることが可能である。本発明の主題と共に用いるために適合されうる、画像データからパノラマを構築するための適切な方法の一つには、２００５年７月２８日出願の「Ｒｅａｌ−ＴｉｍｅＰｒｅｖｉｅｗｆｏｒＰａｎｏｒａｍｉｃＩｍａｇｅｓ」と題されたＢａｕｄｉｓｈの米国特許第７，４２４，２１８号明細書において説明されたものが含まれる。

拡張現実パノラマを構築するとき、パノラマエンジン６２０は異なる種類のデータを一つに縫い合わせることも可能である。例えば、基本的な街路画像がＧｏｏｇｌｅＳｔｒｅｅｔＶｉｅｗから収集されうる一方で、街路内の物体は、サービス加入者によって使用される１又は複数の携帯検知デバイス６１０から受信された画像データから収集されうる。いくつかの物体が永続的でありうる（例えば、街灯柱）一方で、他の物体は一時的なものでありうる（例えば、左下角の新聞販売機）。そうした物体は、拡張現実パノラマを形成するために、他のデータと重ね合わされることが可能である。さらに、環境センサーデータ内の音声データは、同じように物体と結合されることが可能である。自動車又はトラックの通過を考えてみる。車両からの音は、音声又は画像データ（例えば、位置、向き、サイズ、形状、型式、モデルなど）によって表される物体に関連付けられた一般的な属性又は特徴を比較することを通して、車両の画像と自動的に結合されることが可能である。

また、パノラマエンジン６２０は、好適には、遠隔環境６３５のセンサー範囲内の物体を識別するように構成される。物体は、画像データ、音声データ、ワイヤレスデータ（例えば、Ｗｉ−Ｆｉ、ＲＦＩＤなど）、又は他の種類のデータを含む、様々な様式、又は様式の組み合わせを用いて識別されることが可能である。例えば、画像データ内の物体は、場合により、２００１年１１月５日出願の「ＩｍａｇｅＣａｐｔｕｒｅａｎｄＩｄｅｎｔｉｆｉｃａｔｉｏｎＳｙｓｔｅｍａｎｄＰｒｏｃｅｓｓ」と題されたＢｏｎｃｙｋらの米国特許第７，０１６，５３２号明細書において説明された手法に基づき、ＳＩＦＴ特徴を通じて決定されることが可能である。物体がどのように識別されるかにかかわらず、パノラマ物体は、パノラマデータベース６２４内の他のパノラマパラメータと共に保存されることが可能である。物体は、属性を備える管理可能なデータ物体として保存されることが可能である。属性には、物体特徴、名称、メタデータ、タイムスタンプ、位置、レンダリング命令、又は他の情報が含まれうる。

拡張現実パノラマが、時間的な情報を含みうること、又は動的構造とみなされうることに留意されたい。パノラマの一部分は、過去の環境センサーデータを表す履歴的部分を含むことが可能である。履歴的部分は、現在の環境センサーデータが収集されたときに更新されることが可能である。パノラマが過去の内容を有することから、賢明な読者は、拡張現実パノラマが、遠隔環境６３５内の視覚障害者６０５の体験の動きを止めるため、さらには再生するために、又は遠隔環境６３５の一部を再生するために、時間移動されることが可能であることを理解するであろう。拡張現実パノラマは、遠隔環境６３５の仮想的な「ブラックボックス」拡張現実とみなされることが可能である。

また、パノラマエンジン６２０は、所望の場合又は必要な場合、構築された拡張現実パノラマ内の内容にフィルターをかけることが可能である。ある状況において、環境センサーデータは、公的というよりもむしろ私的なものとみなされうる。私的なデータは、視覚障害者６０５、又は、適切な承認、認証、許可レベルを前提とした権原を与えられた個人の管理下又は制御下にあるべきと考えられるデータを表す。環境データが私的なデータを含みうることから、拡張現実パノラマは、視覚障害者６０５又は権限を与えられた有視力アシスタントに関連付けられた個人化されたパノラマを含むことが可能である。必要に応じて、拡張現実パノラマは、私的なセンサーデータの関数としてフィルターにかけられた部分を含むことができる。例えば、視覚障害者６０５がＡＴＭ機器のキーパッドと情報のやり取りを行う場合、パノラマエンジン６２０は、有視力アシスタントのキーパッドに対する見え方にフィルターをかけたり、ディザー処理を行ったり、又は他の方法で見えにくくすることが可能である。

拡張現実パノラマはアシスタントインターフェース６５０を介して有視力アシスタントに提示するために構築されるものであるが、拡張現実パノラマを、視覚障害者６０５と共有される拡張現実パノラマとして考えることも可能である。パノラマエンジン６２０は、携帯検知デバイス６１０に適切な動作を行うように指示するデバイス命令という形で、携帯検知デバイス６１０に物体情報を提供することが可能である。動作には、視覚障害者６０５に物体との近接を通知すること（例えば、聴覚又は触覚フィードバック）、センサーの収集率を調整すること、センサーデータにフィルターをかけること、又は、他の方法で拡張現実パノラマ情報の提示のためにパノラマエンジン６２０から携帯検知デバイス６１０を制御することが含まれうる。かかる状況において、有視力アシスタントと視覚障害者６０５の両者は、構築された拡張現実パノラマを共有する。また、追加的動作には、携帯検知デバイス６１０に現実世界の物体（例えば、自動販売機、医療機器、キオスク、プリンタなど）と情報のやり取りを行うよう指示することも含まれうる。

図３と同様に、図７は、それを通してパノラマエンジンが構築された拡張現実パノラマ７７０を有視力アシスタントに提示する、有視力アシスタントインターフェース７５０を示す。示される例において、アシスタントインターフェース７５０は、場合によりデスクトップコンピュータ上で実行される２Ｄデスクトップアプリケーションとして示される。しかしながら、他の実施形態においては、インターフェース７５０は、眼鏡又は他の適切な視聴機器を介して、ウェブページ、ヘルメット、もしくは４πステラジアンの視野を提供する部屋、又は他の望ましいインターフェース内で、３Ｄインターフェースとして携帯デバイス上に示されることが可能である。有視力アシスタントは、遠隔の視覚障害者のための自動的又は手動による支援を提供するために、アシスタントインターフェース７５０を用いる。

拡張現実パノラマ７７０は、視覚障害者が現在の自身をその中に見つける遠隔環境の平坦な２Ｄ画像として提示されるが、拡張現実パノラマ７７０が遠隔環境のデジタルモデルを現すこと、及び環境内の物体のモデルを含むことが理解されるべきである。拡張現実パノラマ７７０内に提示される物体は、アシスタントが所望に応じて物体情報を更新することが可能な、相互作用的な物体であると考えられる。さらに、先に示唆されたように、拡張現実パノラマ７７０は、一時的な構成要素も含みうる環境の３Ｄデジタルモデルであると考えられることが可能である。したがって、拡張現実パノラマ７７０は、遠隔環境の４Ｄモデルであると考えられることが可能である。

拡張現実パノラマ７７０は、１又は複数の環境データ源から受信された、一つに縫い合わされた情報を表す。拡張現実パノラマ７７０は、現在の更新された部分、及び、以前に受信された環境センサーデータを反映する履歴的部分の両方を含むことが可能である。好適には、拡張現実パノラマ７７０は、図のように、場合により拡張現実パノラマ７７０上に重ねられた、統合された現在のＦｏＶ７３０を含み、ＦｏＶ７３０は、遠隔の視覚障害者によって、使用中の携帯検知デバイスで取得された現在のＦｏＶにほぼ対応する。

先に述べたように、遠隔環境からのセンサーデータの取得と、拡張現実パノラマ７７０の各部の提示の間には、レイテンシが存在しうる。レイテンシは、実に様々な粒度のレベルにおいて、パノラマの１又は複数の部分に示されうる。例において、レイテンシはＦｏＶ７３０に示される。しかしながら、レイテンシは、拡張現実パノラマ７７０の現在の部分、拡張現実パノラマ７７０の履歴的部分、又は拡張現実パノラマ７７０内の物体に示されうる。有視力アシスタントが、遠隔環境内の視覚障害者を補助する際に役立ちうる、モデルの古い部分又は最新の部分が実際にどのようなものであるかについての理解を得ることが可能となるため、レイテンシ情報を提示することは有益と考えられる。

有視力アシスタントは、場合により１又は複数のパノラマ命令７５３を通して、所望に応じて拡張現実パノラマ７７０と情報のやり取りを行うことが可能である。拡張現実パノラマ７７０が単純な画像よりも複雑な遠隔環境及びその中の物体のモデルを表すことから、アシスタントは、視覚障害者とは別に、拡張現実パノラマ７７０の至る所をナビゲートすることが可能である。例えば、拡張現実パノラマ７７０が追加的センサーデータに基づく部分を含むことを前提として、アシスタントは、障害物が取り除かれているかどうかを判断するため視覚障害者の前方を比喩的に歩くために、拡張現実パノラマ７７０を拡大・縮小しうる。他のパノラマ命令７５３は、パン、チルト、回転、フィルター、時間移動、又は別の方法で拡張現実パノラマ７７０の提示を調整することを含むことが可能である。

拡張現実パノラマ７７０は、場合により図のようにリスト形式で提示される、１又は複数の拡張現実物体７５２を含む。拡張現実物体７５２は、場合によりＦｏＶ７３０内の物体とＦｏＶ７３０の外側の物体というように、所望に応じて分離されることが可能である。この構成は、拡張現実パノラマ７７０内のどの物体が他のものよりも一時的に関連性を有するかについての有視力アシスタントの洞察をもたらすため、このようなスキーマに従って物体を分けることは有益であると考えられる。ＦｏＶ７３０の外側の拡張現実物体７５２（例えば、新聞販売機）は、以前のデータに基づく古いものでありうる。

また、拡張現実パノラマ７７０は、拡張現実物体７５２に関する追加情報を提示することも可能である。また、拡張現実物体７５２の各々は、所望に応じて、関連付けられた属性又はメタデータと共に提示されることも可能である。例えば、タグ７６１は、物体に関連付けられた属性又はメタデータを表すものとして婉曲的に示されている。物体情報は、所望に応じて、多数の異なるスキーマに従って提示されることが可能である。物体情報の例には、物体名称、物体位置、物体更新のタイムスタンプ、関連する特徴又は物体ランドマーク（例えば、ＳＩＦＴ登録、境界、角など）、メタデータ割り当て、物体寸法、色、又は拡張現実物体７５２に結合されうる他の種類の情報が含まれる。

拡張現実パノラマ７７０の生成を担うパノラマエンジンは、拡張現実パノラマ７７０に拡張現実物体７５２を自動追加すること、及びその物体の属性を自動追加することも可能である。拡張現実物体７５２が、その特徴（例えば、ＳＩＦＴ登録ランドマーク、位置、色など）によって認識されると、エンジンはその属性を物体に結合させることが可能である。示される例において、自動追加される属性の種類には、ＦｏＶ７３０の原点から種々の物体までの相対距離が含まれる。パノラマエンジンがどの程度最近に環境センサーデータを収集したかに応じて、いくつかの距離は、他のものよりもより正確でありうる。例えば、収集されるデータの低いレイテンシによって、物体を動的に移動させているならば、ＦｏＶ７３０内の拡張現実物体７５２はより正確な距離を有するであろうが、一方、ＦｏＶ７３０の外側の物体は、より精度の低い距離推定をもたらしうる古いデータと関連付けられるであろう。

人間の有視力アシスタントが拡張現実物体７５２を手動で管理することも可能であることに留意されたい。例えば、アシスタントインターフェース７５０は、人間の有視力アシスタントに、アシスタントが拡張現実物体７５２を管理することを可能とする１又は複数の物体命令を提示することも可能である。想定される物体命令は、追加、削除、メタデータ割り当て、更新、選択、フィルター、保存、又は別の方法で物体を管理するものを含む。街灯柱が未だ識別されていない、又は拡張現実パノラマ７７０内に自動追加されていないという状況を考えてみたい。有視力アシスタントは、マウスポインタを用いて街灯柱の輪郭をトレースし、パノラマエンジンに街灯柱を物体として作成又は追加するように指示しうる。さらに、アシスタントは所望に応じて１又は複数のメタタグを物体に割り当てることが可能であり、あるいは、パノラマエンジンが、アシスタントからの入力を定義された物体の特徴又は登録ランドマークと比較することに基づいて、物体にメタタグ（例えば、位置、色、形状など）を割り当てることも可能である。別の状況としては、アシスタントが拡張現実パノラマ７７０内に、後に視覚障害者のデバイスに送信されることが可能な仮想的なウェイポイント・物体を配置することが含まれうる。対応する現実世界をナビゲートするために、視覚障害者は、ウェイポイント・物体からの聴覚又は触覚フィードバック（すなわち、デバイス命令）を用いることが可能である。

ＦｏＶ７３０は、環境センサーデータの範囲内で受信される携帯検知デバイス位置情報の関数として、拡張現実パノラマ７７０内に統合されることが可能である。より好適な実施形態において、パノラマエンジンは、現在、遠隔の携帯検知デバイスが拡張現実パノラマ７７０内の拡張現実物体７５２に対してどのように位置付けられているかということについて、有視力アシスタントが理解することを確実とするために、ＦｏＶ７３０を拡張現実パノラマ７７０内に重ね合わせる。ＦｏＶ７３０の位置及び向きは、環境センサーデータ内に受信される対応するデータから判断されることが可能である。いくつかの実施形態において、位置データはＧＰＳ座標を含むことが可能であり、向きデータは加速度計データ又は磁力計データから取得されることが可能である。ＦｏＶ７３０の配置は、その位置を補正、調整、又は改善するために、複数様式のデータを組み合わせることによって改善されることが可能である。１又は複数の様式の組み合わせは、より正確な配置を提供するものと考えられる。例えば、物体特徴（例えば、物体ランドマーク、ＳＩＦＴ登録ランドマークなど）は、物体ランドマークに対する三角測量によってＦｏＶ７３０の配置を補正するために、ＧＰＳデータと組み合わされることが可能である。さらに、場合により振幅、周波数、又は位相の情報（例えば、反響定位、ドップラーなど）を含む、音声データは、物体又はＦｏＶ７３０の配置を決定するために、画像データと、又は加速度計データとさえ、組み合わされることが可能である。加速度計データは、速度を判断するために１度、又は進んだ距離を判断するために２度、積分されることが可能であり、次いで、位置又は向きの判断における誤差を減少させるために、ＧＰＳ情報又は他の種類のデータと組み合わされることが可能である。要約すれば、ＦｏＶ７３０の配置は、少なくとも２つのセンサーデータタイプに基づいて補正されることが可能である。センサーデータタイプには、ＧＰＳ位置、画像登録データ、加速度計データ、磁力計データ、ワイヤレスデータ（例えば、Ｗｉ−Ｆｉ位置調整、ＲＦＩＤデータ、ワイヤレス三角測量など）、積算距離データ、音声データ（例えば、音波、反響定位など）又は他のデータタイプが含まれうる。有視力アシスタントが拡張現実パノラマ７７０を通じてナビゲートを行うとき、アシスタントがその視野を回転させた場合でさえ、ＦｏＶ７３０は、拡張現実パノラマ７７０に対する適切な位置又は向きを保持することが可能であることに留意されたい。したがって、図のように、アシスタントインターフェース７５０が現在のＦｏＶ７３０を個別に提示することも可能であることが想定される。

重ねられたタグ７６１によって婉曲に表現されるように、拡張現実物体７５２は、拡張現実パノラマ７７０内で強調表示されることも可能である。拡張現実物体７５２の強調表示は、様々な方法を通じて達成されうる。いくつかの実施形態において、物体は、強調表示された輪郭、アイコン、又は拡張現実物体７５２が拡張現実パノラマ７７０内に存在することを示す他のインジケータを備える。特に好適なインジケータは、拡張現実パノラマ７７０の履歴的部分と拡張現実パノラマ７７０の最近更新された部分との間の差異を示す強調表示を備える。こうしたアプローチは、遠隔の視覚障害者が、拡張現実物体７５２が移動又は変化しうる動的な環境へと入った場合に役立つ。例えば、右下角の新聞販売機は、タグ７６１の存在によって示されるように、街路上に新しく配置されたものでありうる。

先に簡潔に述べたように、有視力アシスタントは、タグ命令７５４を介して、例えばタグ７６１のようなメタタグを、拡張現実パノラマ７７０内の拡張現実物体７５２に対するメタデータとして割り当てることが可能である。タグには、可視タグ又は不可視タグが含まれうる。可視タグは、アイコン、又は有視力アシスタントの目に見える他のインジケータとして表されることが可能であり、物体特性のリストを提供することが可能である。不可視タグは、聴覚又は触覚のメタデータを含むことが可能であり、これらは、遠隔の視覚障害者が物体を識別するために使用されることが可能であることもまた理解されるべきである。想定されるタグ命令は、作成、削除、修正、移動、保存、フィルタリング、又は物体タグを管理する他の方法を含む、多くの異なるタグ管理動作を備えることが可能である。物体へのメタタグの割り当ては、特定のクライアントのための拡張現実パノラマ７７０の個人化に関する多大な柔軟性をもたらす。

有視力アシスタント又は視覚障害者が共有された拡張現実パノラマ７７０と情報のやり取りを行う際、上述のとおり、拡張現実物体７５２は動的に更新されることが可能である。多くの拡張現実物体７５２が、公的な物体であるとみなされることが可能であり、これらはサービスの他のクライアント又は加入者からの他の拡張現実パノラマに組み込まれることが可能であることを想起されたい。したがって、拡張現実パノラマ７７０又はその中の拡張現実物体７５２は、プライバシーの問題を条件として、複数のユーザの間で共有されることが可能である。さらに、拡張現実パノラマ７７０は、拡張現実パノラマ７７０の共有された、又は公的に利用可能な、もしくは更新可能な側面を反映するＷｉｋｉ部分を含むものとみなされることも可能である。Ｗｉｋｉ的な部分の例としては、注釈、物体、改訂、又は他のユーザによって投稿された拡張現実内容が含まれうる。

例示目的のため、拡張現実パノラマ７７０は、拡張現実パノラマ７７０内の人々の顔の空白によって示されるようなフィルターにかけられた部分を提示し、ここで、少なくともこの例においては、顔データは私的データであるとみなされる。私的画像データが取得された場合であっても、パノラマエンジンは私的データ（例えば、顔、セキュリティ事項など）を認識可能であり、プライバシーの問題のために、私的データを除去するか、又は他の方法で見えなくする。拡張現実パノラマ７７０は、所望に応じて、又は構成に応じて、他の種類のフィルター部分を含むことが可能である。フィルター部分の使用の例には、家庭環境を見えなくすること、特定個人を見えなくすること、セキュリティ入力を見えなくすること、又は私的であると考えられる他の事項を見えなくすることが含まれうる。また、不明化は、音声データ、位置データ、目的地、移動速度、又は他の情報を含む他の種類のデータにも適用されうる。パノラマエンジンは、物体特徴（例えば、ＳＩＦＴ登録、音声署名など）を物体と相互比較可能である。特徴がフィルタリングの基準を満たす場合、その物体は拡張現実パノラマ内で見えなくされることが可能である。

有視力アシスタントは、遠隔の視覚障害者を補助するために利用可能な多くの選択肢を有する。選択肢の１つは、単に視覚障害者のスマートフォンを介した声の通信リンクを確立することを含む。有視力アシスタントは、視覚障害者の現在の状況を検討し、口頭による補助を提供することが可能である。より好適なアプローチは、遠隔の携帯検知デバイスに１又は複数のデバイス命令７５１を送信してデバイスの動作を制御するために、アシスタントインターフェース７５０を用いることを含む。デバイス命令７５１には、携帯検知デバイスに、拡張現実物体７５２又は拡張現実パノラマ７７０内の未だ識別されていない物体に関連付けられる追加的物体情報を取得するように指示する、広範囲の指示が含まれうる。

デバイス命令７５１は、アシスタントの要求又は要望に応じて、多くの異なる形態を取ることが可能である。命令の例には、ビデオのデータ取得フレームレートを変更すること、取得画像の解像度を調整すること、音声取得のサンプリングレートを変更すること、やり取りされるデータの圧縮又は暗号化パラメータを調整すること、遠隔の検知デバイスとパノラマエンジン間の通信パスを変えること、デバイス又は追加の作動装置（例えば、重りのついたプランジャー、振動子、点字パッドなど）のトリガーをオンにするよう指示すること、物体の近接を表す可聴信号を発すること、又は他の制御命令が含まれうる。したがって、有視力アシスタントは、拡張現実パノラマ７７０の改良、及び遠隔の視覚障害者の支援のために、遠隔の検知デバイスを制御することが可能である。視覚障害者が新聞を購入することを望んでいる状況を考えてみる。有視力アシスタントは、視覚障害者が新聞販売機に接近した際に、デバイスを振動させる、又は音を発生させるデバイス命令７５１を、デバイスに対して発することができる。

図１に関連して議論したように、物体認識技術の態様は、遠隔の検知デバイス又は追加アダプタ内に配備することが可能である。デバイスベースの認識アプリケーションはデバイスに近接して、あるいはデバイス内に置かれることが可能であることから、デバイス命令７５１は、アプリケーションの動作を制御又は管理するための、認識アプリケーションを対象とした高次の命令を含むことも可能である。例えば、アシスタントは、デバイスに対して、遠隔環境、又は遠隔環境内の物体についての追加情報の取得により適した１又は複数の認識アプリケーションの動作を切り替えるように指示することが可能である。あるアルゴリズムは、顔認識又は物体認識よりも、ＯＣＲにより適合するものでありうる。遠隔の視覚障害者が金銭を扱う作業を行う状況を考えてみる。有視力アシスタントは、遠隔デバイスに対して、追加の処理能力を必要とする一般的な物体認識アルゴリズムではなく、場合により地理的な位置に基づいて、貨幣を識別するように調整された認識アルゴリズムを採用するように指示することが可能である。こうしたアプローチは、目下の状況のために、選択されたアルゴリズムが他のものよりも効率的に用いられることが可能な、現実世界の物体との最適化された交流をもたらす。

上述の議論では、アシスタントを人間のオペレータとして言及してきたが、パノラマエンジン、あるいはアシスタントインターフェース７５０の一部でさえ、自動化された有視力アシスタントとして機能することが可能であることが理解されるべきである。遠隔の視覚障害者と拡張現実パノラマ７７０の間の情報のやり取りの多くは、自動化されることが可能である。上述のとおり、自動化された様式で動作する場合のアシスタントインターフェース７５０は、視覚障害者に対して、拡張現実パノラマ７７０内の既知の、又は発見された物体との相対距離を知らせるフィードバックを送信することが可能である。そのような実施形態において、アシスタントインターフェース７５０はパノラマエンジン内のモジュールとして機能することが可能であり、このとき、モジュールは、１又は複数のアプリケーションプログラムインターフェースを介して視覚障害者に提案を行うエキスパートシステムとして機能する。さらに、視覚障害者又は人間の有視力アシスタントは、現実世界を通じた視覚障害者の移動に基づく自動化された反応又は動作をプログラムで構成可能であり、これらは、拡張現実パノラマ７７０内の物体特徴（例えば、ＳＩＦＴ登録、音声署名、テクスチャなど）に応じた基準に基づいて動作を開始させる。

このように、本願は、特に共有された拡張現実パノラマにおける、視野の補強に対する統合されたアプローチの一部として、正確かつ便利に、物体、顔、背景、又は環境の認識を提供するように構成された、柔軟、強力、かつユーザに対する反応性の良いソリューションの提供を対称とするシステム及び方法を開示する。多くの利点のうち、本願で開示されるのは、携帯デバイスのユーザに、アクセス可能なインターフェースを通じて、リアルタイムで観測された支援、情報、又は通信を提供するためのデバイス、システム、及び方法である。例えば、カメラ又はセンサーを使用可能な、ユーザのパーソナルコンピュータ（ＰＣ）及び／又は他の集中型もしくは分散型の計算・通信サービスに接続された携帯通信デバイスを用いて、拡張現実又は改善された視野サービスを提供することが可能である。

既に説明されたものに加えて、さらに多くの修正が本明細書中の発明概念から逸脱することなく可能であることが、当業者には明白であろう。それ故、本発明主題は、添付の特許請求の範囲以外のものによって制限を受けるべきではない。さらに、本明細書及び特許請求の範囲の解釈において、全ての用語は、文脈に即して可能な最も広範な方法で解釈されるべきである。特に、「含む」及び「含んでいる」という言葉は、構成要素、構成部品、又はステップを非排他的な様式で述べており、言及された構成要素、構成部品、又はステップは、明示的に言及されていない他の構成要素、構成部品、又はステップと共に存在し、又は用いられ、又は組み合わされうることを示しているものと解釈されるべきである。本明細書及び特許請求の範囲が、Ａ、Ｂ、Ｃ・・・及びＮからなる群から選択される少なくとも１つのものに言及する場合、その文章は、ＡプラスＮ、又はＢプラスＮなどではなく、その群からの１つの構成要素のみを要求しているものと解釈されるべきである。

Claims

拡張現実エンジンであって、
ネットワークを介して遠隔携帯検知デバイスから環境センサーデータを受信するように構成された遠隔デバイスインターフェースであって、前記環境センサーデータは、視覚障害者の遠隔環境を反映し、かつ現在の視野及びデバイス位置のデータを含む、遠隔デバイスインターフェースと、
前記デバイス位置の関数として拡張現実パノラマ内に統合された現在の視野を有する環境センサーデータに少なくとも部分的に基づいて、前記拡張現実パノラマを構築するように構成されたパノラマエンジンであって、前記拡張現実パノラマは、前記遠隔環境の３Ｄデジタルモデルを表し、かつその物体のうちのいくつかを含む、パノラマエンジンと、
有視力アシスタントインターフェースであって、
有視力アシスタントに、前記統合された現在の視野と共に前記拡張現実パノラマの３Ｄデジタルモデルを視覚的に提示するステップと、
前記有視力アシスタントと、前記現在の視野の外側にある前記３Ｄデジタルモデル内の少なくとも１つの物体との間の相互作用に基づいて、センサー制御デバイス命令を生成するステップと、
前記遠隔デバイスインターフェースを介して、前記遠隔携帯検知デバイスに前記センサー制御デバイス命令を送信するステップであって、前記センサー制御デバイス命令は、前記統合された現在の視野の外側にある前記拡張現実パノラマ内の有視力アシスタントに選択された物体に関連付けられた追加的センサーデータを取得するように、前記遠隔携帯検知デバイスに指示する、ステップと、
前記追加的センサーデータを前記３Ｄデジタルモデルに組み込むことにより、前記拡張現実パノラマを更新するステップと、
を実行するように構成された、有視力アシスタントインターフェースと、
を備える、エンジン。
前記現在の視野が、前記遠隔携帯検知デバイスによって取得されたイメージデータを含む、請求項１に記載のエンジン。
前記拡張現実パノラマが、複数様式のパノラマデータを含む、請求項１に記載のエンジン。
前記複数様式のパノラマデータが触覚データを含み、前記センサー制御デバイス命令が、前記視覚障害者に近接する、前記拡張現実パノラマ内の物体に対応する前記遠隔環境における現実世界の物体に関連付けられた触覚フィードバック命令を含む、請求項３に記載のエンジン。
前記遠隔携帯検知デバイスがスマートフォンを含む、請求項１に記載のエンジン。
前記拡張現実パノラマが、前記視覚障害者に関連付けられた個人化されたパノラマを含む、請求項１に記載のエンジン。
前記個人化されたパノラマが、前記視覚障害者の管理下にある私的環境センサーデータを含む、請求項６に記載のエンジン。
前記個人化されたパノラマが、前記私的環境センサーデータの関数としてフィルターにかけられた部分を含む、請求項７に記載のエンジン。
前記拡張現実パノラマが、過去の環境センサーデータを表す履歴的部分を含む、請求項１に記載のエンジン。
前記拡張現実パノラマが、前記履歴的部分と、前記拡張現実パノラマの現在の視野に基づいて最近更新された部分との差異を示す強調表示された物体を含む、請求項９に記載のエンジン。
前記拡張現実パノラマが、公に収集されたセンサーデータを表す公的部分を含む、請求項１に記載のエンジン。
前記有視力アシスタントインターフェースが、前記環境センサーデータの取得と前記現在の視野の提示の間の時差を示すレイテンシを提示するように更に構成される、請求項１に記載のエンジン。
前記有視力アシスタントインターフェースが、ＧＰＳ位置データ、画像登録データ、加速度計データ、磁力計データ、ワイヤレス信号データ、積算距離データ、及び音声データといった前記環境センサーデータのうちの少なくとも２つに基づいて、前記拡張現実パノラマにおける前記現在の視野の配置を補正するように更に構成される、請求項１に記載のエンジン。
前記拡張現実パノラマが、前記拡張現実パノラマ内の物体に割り当てられたメタタグを含む、請求項１に記載のエンジン。
前記メタタグが、前記有視力アシスタントに対して可視であり、かつ前記拡張現実パノラマ上に重ね合わされた、メタデータを含む、請求項１４に記載のエンジン。
前記メタタグが不可視のメタデータを含む、請求項１４に記載のエンジン。
前記有視力アシスタントインターフェースが、前記現在の視野に対する前記物体の距離を示すように更に構成される、請求項１に記載のエンジン。
前記センサー制御デバイス命令が、前記遠隔携帯検知デバイスに対する物体の位置を示す作動装置を始動させるための前記遠隔携帯検知デバイスに対する指示を含む、請求項１に記載のエンジン。
前記センサー制御デバイス命令が、前記遠隔携帯検知デバイスに対する物体の位置を示す可聴信号を発信させるための前記遠隔携帯検知デバイスに対する指示を含む、請求項１に記載のエンジン。
前記パノラマエンジンが、前記環境センサーデータを前記拡張現実パノラマ内の物体ランドマークへと変換するように構成される物体特徴登録モジュールを含む、請求項１に記載のエンジン。
前記拡張現実パノラマ内の物体ランドマークが、画像登録ランドマークを含む、請求項２０に記載のエンジン。
前記画像登録ランドマークが、ＳＩＦＴ（Ｓｃａｌｅ−ＩｎｖａｒｉａｎｔＦｅａｔｕｒｅＴｒａｎｓｆｏｒｍａｔｉｏｎ）ランドマークを含む、請求項２１に記載のエンジン。
前記デバイス位置データがデバイスの向きのデータを含む、請求項１に記載のエンジン。