JP4321455B2

JP4321455B2 - 状況認識装置、システム

Info

Publication number: JP4321455B2
Application number: JP2005000115A
Authority: JP
Inventors: クラークソンブライアン; 誠村田; 環児嶋; 文武趙
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2004-06-29
Filing date: 2005-01-04
Publication date: 2009-08-26
Anticipated expiration: 2025-01-04
Also published as: JP2006048629A; EP1612719A3; KR20060048624A; US20060088187A1; US7421092B2; EP1612719A2

Description

本発明は、状況認識装置、システムに係り、特に、光学的な情報を用いて現在と過去の状況を比較することで状況を認識する状況認識装置、システムに関する。

ロボット工学の技術分野においては、例えば、下記の非特許文献２〜４に例示されているように、視野角３６０°のパラボリックビデオカメラと画像記録技術とを組み合わせて、ロボットの位置測定を行う場合がある。これら技術では、取得した画像又は画像群と、いわゆるイメージアトラス（image atlas）と呼ばれる参照画像データベース空間における特定の位置とを対応付けるための詳細な較正処理が行われる。

上記対応付けのために行われる画像間のマッチング処理は、局所的で高解像度の画像を用いて行われる。このため、イメージアトラスには地図空間中の全ての点に関する情報が含まれ、さらに各点での情報がセンサ方向に依存しない形態で表現されている必要がある。

また、ウエアラブルコンピューティングの技術分野では、適切なタイミングで行動をトリガするためのコンテキスト認識（context awareness）や、類似した状況でユーザや他の者が行ったことを思い起こしたり、繰り返し起こっている状況や新たに起こった状況を特定する、いわゆるエピソード記憶（episodic memory）を実現するための手法として、センサやその他の様々な手段を用いて現在の状況と過去の状況とのマッチングをとる技術が提案されている。

ここで、「場所」に関する情報はコンテキスト上、非常に有益である。すなわち、ユーザの位置だけでも認識できれば、その認識結果と過去の状況に関する情報とを併せて用いて、現在の状況を特定することも可能となる。

上述した方法の中で視覚的な情報を使用しない技術としては、例えば下記がある。
・無線周波数タグ（ＲＦタグ：特許文献２）
・赤外線タグ（ＩＲタグ：非特許文献５）
・環境内の基準マーカ（特許文献３）
・全世界測位システム（ＧＰＳ）
・超音波ビーコン
・パーソナル携帯電話システム（ＰＨＳ）
・８０２．１１無線ネットワーク

Thrun, S., D. Fox, et al. (2001). "Robust Monte Carlo localization for mobile robots." Artificial Intelligence 128(1-2): 99-141. Betke, M. and L. Gurvits (1997). "Mobile Robot Localization Using Landmarks." IEEE Transactions on Robotics and Automation 13(2): 251-261. Jogan, M. and A. Leonardis (2000). "Robust localization using panoramic view-based recognition." 15th International Conference on Pattern Recognition 4: 136-139. Pajdla, T. and V. Hlavac (1999). "Zero-Phase Representation of Panoramic Images for Image-based Localization." 8th International Conference on Computer Analysis of Images and Patterns: 550-557. Starner, T., D. Kirsh, et al. (1997). "The Locust Swarm: An Environmentally-powered, Network-less Location and Messaging System." International Symposium on Wearable Computers, Cambridge MA. Aoki, H., B. Schiele, et al. (1999). "Realtime Personal Positioning System for Wearable Computers." International Symposium on Wearable Computers '99. Rungsarityotin, W. and T. Starner (2000). "Finding location using omnidirectional video on a wearable computing platform." Proceedings of IEEE International Symposium on Wearable Computing (ISWC 2000), Atlanta, GA. U.S. Patent No. 4,737,794, "Method and apparatus for determining remote object orientation and position". U.S. Patent No. 6,680,702, "Radio frequency resonant tags with conducting patterns connected via a dielectric film" U.S. Patent No. 6,073,044, "Method for determining the location in physical space of a point of fiducial marker that is selectively detachable to a base"

ロボット工学の技術分野においては、レーザレンジファインダを利用して状況認識をする技術がある（非特許文献１）。非特許文献１に開示されているシステムでは、ロボットの測位を行うためにレーザレンジファインダを用い、過去から現在までの測定結果と現在の測定結果のコンテキストとに基づいて、現在の位置推定を行っている。

これは、上記従来のシステムを搭載するロボットが同一の位置にとどまっている場合、レーザレンジファインダが取得可能な周囲の環境についての測定結果は限定されており、緻密な情報ではないからである。すなわち、レーザレンジファインダの機器特性上の制約から、同一場所での測定結果だけでは場所の識別が難しく、より詳細な識別を行うには、さらなる追加的情報が必要となる。追加的情報は、通常、上記従来のシステムが取得した過去の測定結果や位置推定結果から導き出される。また、上述したようなレーザレンジファインダは、屋内環境にのみ有効である。

したがって、屋内環境だけで無く、それ以外の環境でも有効な状況認識方法及び装置を提供することが望ましい。

また、上述したようなロボットの状況認識方法では、ロボット自身が所定の動作を実行することが必要となる場合がある。例えば、ロボットが備えている狭視野角のレーザレンジファインダを利用して信頼性の高い深さ測定を実施するために、該ロボットの動きを制御し、その中心軸の周りを複数回回転させる場合がある。また、他の例としては、ロボット自身が備える地図データベースを向上させるために、地図が無い地域や正確な地図が作成されていない地域を予め探検させる場合もある。

しかしながら、上述したようなロボット自身の動作、すなわちシステムが搭載されるプラットホームに規定の動作を行わせることなく、該システムの移動に伴い受動的に取得される測定結果だけを利用して状況認識をすることが望ましい。

一方、上述したウエアラブルコンピューティングに関する技術では、実施のための環境、例えば、軌道上の通信衛星やユーザがいる空間に配置された無線中継器等を、予め整備しておく必要がある。しかし、上記のような環境整備は多くの場合高価であり、整備そのものが困難な場合もある。例えば、ＧＰＳは屋内では機能せず、上記基準マーカのシステムを実際に利用するためには非常に多くの基準マーカが必要となる。

また、これら従来のシステムでは、位置に関する情報が得られるだけであり、該位置での状況やその変化については、（ノイズが問題となる場合を除き）何の情報ももたらさない。例えば、上記８０２．１１による測位システムでは、該システムにより特定した場所が会議室であることを伝えることができるが、会議室に人がたくさんいるのか又は照明が暗くなっているかなどについては、全く伝えることができない。

このため、状況をより詳細に認識するためには、光学的な状況認識も併せて行うことが望ましい。

また、上記ウエアラブルコンピューティングの技術分野では、位置決定をするためにカメラを含むシステムが利用される場合がある（非特許文献６、７）。非特許文献６に開示された技術では、粗く低い解像度の光学的特徴を画像マッチング処理への入力として用いている。しかし、非特許文献６に記載された技術では、広視野角センサを用いておらず、またマッチング処理で参照されるデータベースには手作業で選択及び分割されたビデオクリップを格納している。

システムの利便性を考慮すると、上記のように手作業に大きく依存するデータベースの構築方法は望ましいものではなく、システムを利用するに従い記録されるデータが自然に増えていくことがより好ましい。

さらに、非特許文献６に記載された技術では、狭視野角センサの使用に起因する指向性の影響を少なくするためにヒストグラムを用いている。しかし、上記ヒストグラムが使用された場合、ほとんど全ての空間的な情報が失われる。このため、例えば、ある場所に存在し、その場所の識別を容易にする特徴要素まで削除してしまう可能性がある。

マッチング処理を実行する際に上記のような光学的な特徴的要素を活用することが望ましい。

非特許文献７に開示された技術では、広視野角カメラで撮像された画像間の類似性を用いている。しかし、非特許文献７の技術では、画像間の類似性を最大化するために撮像された画像の方向性に関する情報を取り除いている。このような計算処理は非常に負荷が大きい。方向性に関する識別能力を犠牲にして学習用ビデオのデータベースの効果の最大化を目指すことが妥当な場合もある。しかし、実用上は、学習のための事例をいかに充実させるかが問題ではなく、類似した位置や状況をいかに正確に識別するかが重要なのは明らかである。実際のシステムが完成されれば、新たな学習用事例を取得することは容易である。

また、非特許文献７では、圧縮処理により連続動作及び位置パターンを推測しようとしている。この圧縮処理はビタビアルゴリズムの連続的アナログに対するモンテカルロ解である。ここでの精度はモデルを伝播していくサンプル数に依存するため、ビタビ処理に比較して計算負荷が非常に大きい。

なお、非特許文献７の技術では、単に記録された過去のビデオのデータベースと現在の瞬間とをマッチングさせるのではなく、ユーザの動きベクトルを推定している。このため、上記のような計算負荷の大きさは当然予想される。このため、非特許文献７の技術では、画像データベースの大きさを押さえることが要求される。換言すれば、ユーザの位置がある程度分かっていることが前提条件となっている。しかし、動きベクトルを高精度に検出する必要が無い場合、すなわち現時点の状況を概略的に認識する場合に、このような前提条件は望ましいものではない。

本発明は上述した点を鑑みてなされたものである。

さらに本願発明者は、本発明の適用対象であるシステム（例えばロボットやユーザに装着されたウエアラブルコンピュータ等）が空間中を移動する場合に習慣的にたどる経路には所定のパターンが存在することに着目した。すなわち、より効果的な状況認識を行うためには、単なる時間的な瞬間を比較するのではなく、ある期間中の履歴又はコンテキストを考慮したマッチングを行うことが望ましい。また、空間中のある特定な「場所」に対して近づく又は離れていくルートが複数存在するような状況においても有効に動作するシステムを提供できることが望ましい。

本発明の一実施形態によれば、光学情報を用いて現在の状況を認識する状況認識装置が提供される。本状況認識装置は、光学情報を取得する光学情報取得部と、複数の光学情報を格納する記憶部と、前記記憶部に格納されている複数の光学情報と前記光学情報取得部によって新たに取得された光学情報とのマッチングを行う処理部と、前記マッチングの結果を提示する出力部とを備える。前記記憶部は、前記複数の光学情報の変化を数値化した確率モデルをさらに格納する。前記処理部は、前記マッチングに用いられる光学情報のデータ量を圧縮するための、今回取得された光学情報と当該コーディング処理部を最後に通過した光学情報との差異を示す値が予め定めたしきい値よりも大きい場合、該今回取得された光学情報を出力するコーディング処理部と、前記格納されている複数の光学情報の各々と前記新たに取得された光学情報との差異をそれぞれ求め、該差異を示す値を算出する差異算出部と、前記算出された差異を示す値を複数個、時間的に新しい順に格納する差異記憶部と、前記格納された複数の差異を示す値の時系列と前記モデルとを用いてマッチングを行うマッチング処理部とを備えていることを特徴とする。

前記モデルでは、各状態が前記格納されている複数の光学情報の各々に対応し、状態間の遷移パラメータが予め定められた値に設定されている構成としても良い。また、前記処理部は、前記モデルを、前記記憶部に格納されている複数の光学情報に基づき生成するモデル生成部をさらに備えている構成としても良い。前記モデルとしては、例えば隠れマルコフモデルを用いても良い。

また、上記実施形態の状況認識装置において、前記マッチング処理部では、ビタビアルゴリズムを用いて、前記格納された複数の光学情報を前記複数の差異を示す値の時系列とマッチングさせる最適状態列を決定する構成としても良い。ここで、前記最適状態列の決定は、ビタビトレリス線図上を最も現在に近い状態から時間的に逆方向にパスを伸ばすことで実行される構成としても良い。さらに、前記マッチング処理では、ビタビトレリス線図上を伝播する実質的に全てのパス（略全てのパス）が通る一つの状態が存在する場合、該状態をランドマークとして検出し、該ランドマークを利用して該マッチング処理で使用する前記複数の差異を示す値の時系列の長さを設定する構成としても良い。なお、上記「略全てのパス」か否かを判断するために、パスの数に関して予め定めたしきい値を設定し、該パスに関するしきい値を用いて判断する構成としても良い。

また、上記実施形態の状況認識装置において、前記マッチング処理部では、前記格納されている複数の光学情報のいずれかと、予め定めたしきい値よりも高い確実性でマッチングしている光学情報を、前記複数の差異を示す値に対応する複数の光学情報の中に見つけた場合、これをランドマークとして検出し、該ランドマークを利用して前記複数の差異を示す値の時系列の長さを設定する構成としても良い。

また、上記実施形態の状況認識装置において、前記記憶部に格納されている複数の光学情報の少なくとも一部は、対応する状況を示すためのラベル付けがされている構成としても良い。また、前記記憶部に格納されている複数の光学情報の少なくとも一部は、対応する状況を示すためのラベル付けがされていない構成としても良い。ここで、前記出力部は、前記新たに取得された光学情報と前記ラベル付けされていない光学情報とがマッチングされた場合、前記ラベル付けされていない光学情報と時間的に近い１又は複数のラベル付けされている光学情報に対応するラベルが示す情報を用いて、該マッチング結果をユーザに提示する構成とすることがより好ましい。また、前記処理部が、前記ラベル付けされていない光学情報と時間的に近い１又は複数のラベル付けされている光学情報に対応するラベルが示す情報を用いて、該ラベル付けされていない光学情報をラベル付けする構成としても良い。

また、上記実施形態の状況認識装置において、前記光学情報取得部は複数の光センサを備えていてもよい。また、前記光学情報取得部は、前記複数の光センサの各々に集光するための集光手段をさらに備える構成としても良い。

本発明の他の実施形態によれば、状況認識部を備え、該状況認識部から出力された認識結果を用いて予め定めた処理を実行する処理実行部を備えるシステムが提供される。本システムでは、状況認識部として上述した実施形態による状況認識装置を用いることを特徴とする。本システムとしては、例えばウエアラブルコンピュータやロボット等がある。

本発明によれば、光学的な情報を用いて過去と現在の状況をマッチングする際に、単なる時間的な瞬間を比較するのではなく、ある期間中の履歴を考慮したマッチングを行うことで、現在の状況を認識する状況認識装置、システムを提供することができる。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

本発明の一実施形態によれば、順次取得された光学情報の時系列に係るコンテキストを考慮した上で、現在の状況と過去の状況とを関連付けることができる状況認識装置１が提供される。

本実施形態の状況認識装置１は、例えば図１に示すように、光学的な情報を取得して出力する光学情報取得部１０と、該出力に対して予め定めた処理を実施して状況認識を行う処理部２０と、該処理に必要となる情報を記録する記憶部３０と、該状況認識の結果をユーザへ提示すると共にユーザの操作入力を受け付けるユーザインターフェース部４０とを備えている。本装置１の処理部２０、記憶部３０及びユーザインターフェース部４０は、例えば、ＣＰＵ、メモリ、マン−マシンインターフェースを備えたコンピュータシステムにおいて、状況認識のための予め定めた処理を実現するためのソフトウエアを実行させることで実現できる。

光学情報取得部１０は、その配置方向に大きく依存することなく外部環境に関する光学的な情報を抽出する。光学情報取得部１０は、例えば図２に示すように、複数の光センサ１０１−１〜１０１−nと、該複数の光センサ１０１−１〜１０１−nからの出力を合成して出力するマルチプレクサ１０２とを備えている。複数の光センサ１０１〜１０１−nは、例えば、２次元又は３次元的に配置する。２次元的に配置する場合には予め定めたマトリックス状又は格子状に配置し、３次元的に配置する場合にはバルーン形状又は球体を構成するように配置することが好適である。なお、各光センサ間の間隔は各光センサの視野角に応じて決定しても良い。

複数の光センサ１０１〜１０１−nには、集光のための手段、例えば集光レンズ、ピンホール、スリットなどが設けられていることがより好ましい。また、より広い視野角をカバーするために複数の光センサ１０１〜１０１−n全体で単一の広視野角レンズ又は魚眼レンズを共有するか、又は各々が集束レンズ等を備える構成としても良い。これら複数の光センサは本装置１の周囲、あるいは本装置１を運ぶユーザ又はプラットホーム上に配置され、外部環境の光学的状況をより効率的に取得できる構成を備えていることが好ましい。

各光センサ１０１は、例えば、単一色又は複数色（例えばＲＧＢ）の光を検出するフォトダイオードで構成される。また、複数の光センサの代わりに、２次元的な光学情報である画像を取得するＣＣＤ等の撮像装置を利用するか、又は視野角が非常に広い例えば全方位カメラを用いても良い。また、本装置１全体を携帯可能とするか（図３（Ａ））、又は自走機能を設ける（図３（Ｂ））構成としても良い。なお、ユーザ５０が本装置１を携帯する図３（Ａ）の場合、光学情報取得部１０として機能する光学情報取得部１１０ｒ及び１１０ｆをユーザの体の前後に配置している。また、図３（Ｂ）の場合、カメラ１２１と全方向をカメラへ投射するためのミラー１２２とを備えた全方位カメラを、自走式のプラットホームに搭載している。

また、本発明ではコンテキストを利用したマッチング処理を行っているため高い解像度の情報を必要としない。このため、通常の撮像装置を利用して光学情報を取得する場合には、より低い解像度（例えばマッチング処理で最低限必要とされる解像度）へ変換した後、以下に説明する本実施形態の処理に用いる構成とすることがより好ましい。

また、本実施形態の光学情報取得部１０では複数の光センサ１０１−１〜１０１−nからの出力を合成してマルチプレクサ１０２から出力しているが、代わりに、光センサ間の差分値を利用したり、基準化等をして検出した光の相対値を用いる構成としても良い。

処理部２０は、光学情報取得部１０から出力された光学情報の入力を受けて、該光学情報の時系列におけるコンテキストを考慮したマッチング処理を行い、該マッチング処理の結果をユーザインターフェース部４０へ出力する。処理部２０は、例えば図４に示すように、コーディング処理部２０１と、距離ベクトル算出部２０２と、距離ベクトル記憶部２０３と、マッチング処理部２０４と、隠れマルコフモデル（ＨＭＭ）生成部２０５とを備えている。また、記憶部３０は、光学情報記憶部３０１とＨＭＭ記憶部３０２とを備えている。

本実施形態において、距離ベクトル算出部２０２、距離ベクトル記憶部２０３はそれぞれ、上記課題を解決するための手段の欄に記載した、差異算出部、差異記憶部に相当する構成要素である。すなわち、本実施形態では複数の光学情報の差異を示す値の一例として、以下に詳細説明される距離ベクトルが用いられる。もちろん、本実施形態で使用できる「差異を示す値」は、以下の距離ベクトルに限定されるものではなく、本実施形態で対象となる複数の光学情報の差異を示すことができる値であれば任意の形態の数値的表現を用いることができる。

また、本実施形態では、上記課題を解決するための手段の欄に記載した、複数の光学情報の変化を数値化した確率モデルとして、該複数の光学情報を各状態に対応付けた隠れマルコフモデルを用いている。ここで隠れマルコフモデルは、ある記号（本例では光学情報）の出現確率が直前の記号のみに依存するというマルコフ過程に従って遷移する内部状態、および、各状態における記号の出現確率分布から構成される確率モデルである。なお、本実施形態で用いることができる確率モデルは、隠れマルコフモデルに限定されるものではなく、本実施形態で対象とする複数の光学情報が変化又は遷移していく状況を数値化できるものであれば、任意のモデルを使用することができる。

コーディング処理部２０１は、本実施形態のマッチング処理に、より適した効果的なデータベースの構築を図るために、新たな情報を提供しない光学情報や状況認識には不要又は冗長と考えられる光学情報を省いてデータ量を圧縮する等のコーディング処理を行う。コーディング処理部２０１から出力された光学情報は、光学情報記憶部３０１に格納されると共に、距離ベクトル算出部２０２へ送られる。距離ベクトル算出部２０２では、コーディング処理部２０１から出力された光学情報を特徴付けるための特徴ベクトルが求められる。本実施形態では、特徴ベクトルとして、記憶部３０に格納されている複数の光学情報各々との距離を求め、該求められた各距離をベクトル要素とする距離ベクトルが算出される。距離ベクトル記憶部２０３は、予め定めた個数の距離ベクトルをコーディング処理部２０１から出力された順に格納する。この格納された順序は、光学情報が取得された時間的な順序に対応している。すなわち、距離ベクトル記憶部２０３に格納されている内容は、距離ベクトルの時系列を示すものであり、過去の状況とマッチングしようとしている現在の状況へ至るまでの時間的コンテキストを表している。以下、本明細書では、記憶部３０に格納されている光学情報に対応する過去の時期を遠過去、距離ベクトル記憶部２０３に格納されている、現在の状況及び現在に至るまでの時期を近過去と呼ぶ。

マッチング処理部２０４は、例えば過去の光学情報群から生成されたＨＭＭとビタビアルゴリズムとを利用して、距離ベクトルの時系列である近過去の系列と最適にマッチングしている過去の系列を検出する。本実施形態でのマッチング処理については図６を参照して後述する。

コーディング処理部２０１から出力された光学情報は光学情報記憶部３０１に格納され、所定の周期又は外部からの指示により、本実施形態のマッチング処理で使用されるＨＭＭの生成処理のために読み出される。ＨＭＭ生成部２０５は、ＨＭＭ（λ）を生成し、ＨＭＭ記憶部３０２に格納する。ＨＭＭ記憶部３０２には、例えば図５に示すように、過去のＭ個の画像（１〜Ｍ）が各状態に各々対応するよう構成されたＨＭＭ（λ）が格納される。本実施形態におけるＨＭＭの生成方法については図９を参照して後述する。

本装置１の動作について説明する。

本実施形態の装置１は、本発明の一実施形態に係る光学的な状況のマッチング処理を実施する。本実施形態のマッチング処理において考慮される「類似性」とは、２つの状況間における光学的（又は視覚的）な類似性と、時間的なコンテキストにおける類似性とを含んでいる。ここで、時間的なコンテキストとは、例えば、光学情報の時系列パターンに対応するものであって、どのような過去の状況（光学情報）の系列によって現在の状況へ到達したかを意味している。

以下では、本実施形態による状況認識方法を位置認識に適用した例を挙げて説明する。

上記光センサ１０１が、例えば人間、ロボット、自動車等のモバイルプラットホームに装着又は搭載されているようなアプリケーションでは、光学的状況と位置との相関は非常に高い。このような場合、位置認識は、例えば以下の手順（１）〜（３）に沿って行われる。なお、以下の例では光学情報として画像情報を利用するものとする。

（１）過去の状況に対応して既に取得された画像情報について、位置情報のラベル付けをする。なお、本処理は一度だけ実行すればよいが、新たな状況にも対応できるよう定期的に更新を行う構成としても良い。本処理は、例えば新たな画像が格納された段階でユーザへ告知し、位置情報のラベル付けを促す構成としても良い。また、GPS等、位置情報を出力可能な測位装置からの出力が利用可能な場合には、該位置情報を用いて自動的にラベル付けする構成としても良い。さらにまた、予めラベル付けされた画像情報を、通信や記録媒体を介して、予め外部から取り込んでおく構成としても良い。

（２）本実施形態の状況認識方法を用いて、過去の状況の中で現在の状況に最も類似している状況と、該類似（マッチング）の確実性（confidence of match）を決定する。

（３）マッチングの確実性が予め定めた値よりも高い場合、該当する過去の状況に対応する画像情報にラベル付けされている位置情報が示す位置が、現在の状況に対応する位置であると判断する。

上記（２）で行われる本実施形態のマッチング処理は、例えば、図６のフローチャートに示す手順に沿って進められる。

最初、ステップ１１０１において、現時点での光学情報として画像情報が取得される。本例では、周囲環境の状況をできるだけ忠実に把握すると共にマッチング処理の計算負荷の増加を押さえるための一つの手段として、低解像度ではあるが比較的視野角が広くサイズの小さい画像情報の入力を受け付けることを想定している。また、ウエアラブルコンピューティングの分野に本実施形態を適用する場合、上記図３（Ａ）に示すように、ユーザの体の前後にそれぞれカメラを取り付け、前後の画像情報を取得する構成としても良い。

本例の光学情報取得部１０においては、上記ＣＣＤカラーカメラがデジタルカメラであっても良く、また光センサのアレイであっても良いが、その測定結果が各ピクセル毎のＲＧＢの情報が連続配置された値、例えば（Ｒ_i、Ｇ_i、Ｂ_i）として記録されるＲＧＢパック形式（RGB packed format）を用いることが望ましい。このような構成によれば、後述する計算処理での負荷の軽減が可能となる。

また、光学情報取得部１０は、例えば、ＣＣＤカラーカメラの前に超広角レンズ（魚眼レンズ）又はパラボリックミラーを取り付け、フィルタリングや間引き処理を行い、所望の解像度の画像を取得することで実現してもよい。このような構成によれば、取得された画像中の詳細な特徴の見分けがつかなくなるが、センサの配置方向に依存せず光学的な環境についての概略特徴を抽出することが可能となる。

本明細書の以下の説明では、ｌがセンサ番号（画像の場合にはピクセル位置に対応）、ｃが色チャンネル番号（通常１、２、３はそれぞれ赤、緑、青を示す）、ｉが新たな測定が行われる毎にインクリメントされる測定番号であるとすると、単一の測定結果はx_i(l,c)と表される。なお、光学情報取得部１０で使用されるセンサが画像情報を取得する撮像装置である場合には、前記センサ番号はピクセル位置に対応する。また、ｔ_iはｉ番目の測定を行った時の時間（例えば、秒）を示す。

本ステップ１１０１での測定は予め定めた周期で定期的に行われる。ここでの測定周期は、光学的な環境の構造が変化する速さ又は想定される速さに応じて決定される。例えば、本実施形態の装置１が車載システムに適用された場合、ユーザが本システムを装着するウエアラブルシステムに比較して、より短い周期で画像情報を取得することが望ましい。例えば、本願発明者の実験結果によると、本装置１をユーザが着用して歩くウエアラブルシステムでは、５Ｈｚ又は同程度の撮像周期が好適であることが分かった。

ステップ１１０１で取得された複数の測定結果は、本装置１の処理部２０へ送られ、専用ハードウエアにて又は汎用情報処理ユニットに予め定めたソフトウエアを実行させることで、処理が実行される。

次に、ステップ１１０３では、コーディング処理部２０１により、取得された画像のコーディング処理が行われる。本処理では、今回取得された画像と前回最後に本ステップ１１０３を通過した画像との比較が行われ、これら２つの画像間で予め定めたしきい値以上の変化があった場合に限りその画像を出力するという処理が実行される。本処理によれば、有用な画像情報を失うことなく、実質的に画像情報の圧縮を実現することができる。すなわち、本処理によれば、新たな情報をもたらすことの無い冗長な画像の取り込みを防ぐことができるため、光学情報記憶部３０１に格納すべき画像のデータ量の増加を抑えることが可能になる。さらに、本処理によれば、マッチング処理で利用可能な過去に関する情報を効率的に多数含む、より大きなＨＭＭを作成することが可能となる。

さらに本処理の圧縮効果により、本装置１における計算負荷を減少させると共に、後述するステップ１１０９の処理で使用される隠れマルコフモデル（ＨＭＭ）のモデル機能を向上させることが可能となる。

コーディング処理部２０１は、例えば、今回取得された画像Zと前回最後に出力された画像ｘ_iとの間の非類似度及び時間間隔に基づき、変化の有無を判断する。上記非類似度及び時間間隔のいずれか一方が十分大きい場合、例えば予め定めたしきい値よりも大きい場合（ステップ１１０３でＹ）には、その画像は以降の処理への入力となる。

上記非類似度を使用する理由は、同一又はほぼ同一の画像が長くつづくことを防ぐためである。また、時間間隔を利用する理由は、取得画像を示す信号に変化が起こった場合、その変化に適応して非類似度の評価基準を調整するためである。

ステップ１１０３では下記の数１を用いて画像変化を検出する。

ここで、Ｄ_maxはＤ（x_i-1，Z）の最大値、ρはｘ_i-1及びZの受付に必要となるパーセンテージ変化である。関数Ｄは後述する数３で定義される。また、Zは今回取得された画像、ｘ_i-1はコーディング処理部２０１から最後に出力された画像である。βは適応速度を調整するためのファクタである。本願発明者の実験結果によると、一般的な条件ではΔτ＝５秒、ρ＝０．０５に設定されることが好ましいことが分かった。これは、現在の測定画像を受け付けるか否を判断するために必要な変化は、最初５％必要であるが、５秒後には２．５％になるという意味である。

上記の結果として得られる変化検出のための適応曲線を図７に示す。コーディング処理部２０１から出力された最後の画像の受付からの経過時間が増加するのに従って、新たな画像情報が受付されるために必要な変化のしきい値は指数関数的に減少し、最終的にはセンサの潜在的雑音によっても測定画像の受付が行われる。このような構成によれば、本処理での最小処理レートを保証することができる。さらに上記構成によれば、光学情報記憶部３０１に格納されている過去の測定結果群（以下、画像アーカイブと呼ぶ）及びそれに基づいて生成されたＨＭＭにおいて、環境に変化が全く無いか又はあまり無い長い期間（疎な状態であったとしても）を表すことができるだけでなく、密に変化が起こっている期間についても同様に表すことが可能となる。

なお、上記コーディング処理部２０１では非類似性及び時間を考慮した処理をおこなうものを例として説明したが、本発明で利用可能なコーディング処理はこれに限定されるものではない。本発明では、光学情報を圧縮することが可能なものであれば任意のコーディング処理、例えば、ＪＰＥＧコーディング、ランレングスコーディング等を用いることが可能である。

コーディング処理部２０１から出力された画像は、光学情報記憶部３０１に保存されると共に、図６のステップ１１０５において、その特徴量が算出される。本例では、前記特徴量として、今回上記コーディング処理部２０１から出力された測定画像と画像アーカイブに記録されている全ての過去画像の各々との差異をベクトル要素とした距離ベクトルを算出する。本実施形態においては、このような差異を検出することにより、後述するマッチング処理の実施前に、該測定画像と過去画像の各々との光学的な類似性を評価することが可能となる。

なお、本実施形態においては計算速度向上のために、本ステップの段階で画像アーカイブに記録されている過去の画像系列が、後述する処理によって容易にアクセス可能な場所に連続して格納されている構成とする。

本ステップにおいて、コーディング処理部２０１から出力された画像と画像アーカイブの各過去画像との差異を示す距離ベクトルは下記の数２によって得られる。ここで、画像アーカイブに含まれている画像群を｛x₁,…,x_M｝とする。これら過去の画像群は、例えば、コーディング処理部２０１から出力された測定画像を単に連続して並べて構成してもよい。このようにコーディングされた画像と格納されている各画像との距離を計算することで、下記の数２で定義されたＭ次元の距離ベクトルが得られる。

数２において、Ｄ（ｘ、ｙ）は画像情報取得のために使用されたセンサの測定空間における、ある種のゆがみ（distortion）を含んだ測定の結果を表しているが、２つの画像ｘ、ｙ間の差異を示すことができるものであれば、任意の関数を用いることができ、計量（metric）のための厳密な要件を満たす必要はない。本実施形態では以下のL1計量を用いている。ここで、ＨＷはセンサ番号における高さ方向及び幅方向の最大値である。

x_i(l,c)のいずれかの要素が高い相関性を示すか又は広いばらつきを示す場合（すなわちｘ_iの共分散行列が単位行列と大きく異なっている場合）、実際の運用では、周知のＰＣＡ法（Principle Components Analysis：主成分分析法）の手順に従い、センサの測定結果を該センサの固有空間に投影することがより望ましい。

ＰＣＡ法によれば、上記のようなゆがみ計算において、センサの測定結果の中の単一の要素又は要素グループが過大な影響を及ぼすことを防ぐことができる。このような場合、数３のゆがみ測定は以下のようになる。

数４において、Λは固有ベクトルに基づく投影行列であり、センサの測定結果を「白色化」するものである。また、Λは典型的なセンサの測定結果を学習することで取得できるものである。

ステップ１１０７では、上記ステップ１１０５で算出された距離ベクトルｄ_iが距離ベクトル記憶部２０３に格納される。距離ベクトル記憶部２０３は、例えばＦＩＦＯバッファで構成されるが、算出された距離ベクトルを時間的に新しい順に予め定めた個数だけ格納でき、後述する計算処理中のアクセスが容易であれば、任意の構成の記憶手段を用いることができる。本例ではＦＩＦＯバッファには常に、時間的に新しい順に得られたＮ個の距離ベクトルが格納されている。これらＮ個の距離ベクトルは、次のステップ１１０９で行われる処理で使用される。ＦＩＦＯバッファの内容は、近過去（本実施形態では最近のＮ個の画像）と遠過去（本実施形態では画像アーカイブに格納されているＭ個の画像）との距離を表す行列Ｈを表している。なお、本実施形態の近過去及び遠過去の画像は、例えば図８に示すような時系列的関係にあるものとする。

次に、ステップ１１０９では、マッチング処理部２０４は、距離ベクトル記憶部２０３に格納されている行列Ｈで表された近過去と、ＨＭＭ記憶部３０２に格納されている隠れマルコフモデル（ＨＭＭ）λで表された遠過去とのマッチングを行う。

ＨＭＭ（λ）は、例えば図９のフローチャートに示す手順に沿って、画像アーカイブのコンテンツから直接構築されている。すなわち、上記図６のステップ１１０１、１１０３と同様に、新たな画像が取得されると（ステップ１００１）、それ以前にコーディング処理部２０１から出力された画像との比較が行われ、変化の有無が上記数１によって判断される（ステップ１００３）。変化が有ると判断された画像は画像アーカイブに格納される（ステップ１００５）。ステップ１００７において、ＨＭＭ生成部２０１は、画像アーカイブのコンテンツが変化するたびに、ＨＭＭ（λ）を再構築し、ＨＭＭ記憶部３０２に格納する。

ＨＭＭを生成する際、ＨＭＭのパラメータは、多くの場合、部分的にラベル付けされたデータから期待値最大化法（Expectation-Maximization）等を用いて推定される。これに対し、本実施形態では、ＨＭＭの各状態を直接単一の画像に対応させると共に、その遷移パラメータとして予め定めた値を設定する。ここで、通常のように学習を行わずに遷移パラメータに予め定めたものを使用する理由は次の通りである。ＨＭＭの各状態に対応する画像（光学情報）は時間的経過に従い順次取得されたものである。ここで、時間的経過とは、上記ステップ１１０３のため連続的ではない期間も含む場合もある。また、上記数１を用いて、画像変化及び時間経過も考慮された変化検出を行っている。このため、時間的に遠い状態への遷移がおこる可能性は小さいか又はゼロであると考えられるためである。この結果、本実施形態では、遷移パラメータの最適化処理を行う必要が無いため、計算コストを大幅に削減することが可能となる。

ＨＭＭの遷移パラメータは、例えば以下の数５で示されるように、２つの画像間の時間的な距離に対する、裾部を切詰めた形状を備え平均値をゼロ値としたガウス分布（zero-mean truncated Gaussian：以下、トランケートガウス分布と呼ぶ）に基づき算出する。

本実施形態のＨＭＭにおいて、時間的に近い状態間だけでの遷移が許され、時間的に離れている２つの画像間で遷移を行うことは非常にコストがかかることとなる。

図６のステップ１１０９へ戻る。本ステップでは、例えばビタビアルゴリズムを用いて、上記距離ベクトルの行列Ｈとして表されている近過去のＮ個の画像と遠過去の画像をマッチングさせる最適状態系列（optimal state sequence）が決定される。行列Ｈは以下の状態信頼値（state belief）の計算に使用される。

ビタビアルゴリズムは以下のような最大化問題への解を提供する。ここで、ｓ_iはｉ番目の画像ｘ_iに対応する状態であり、ｓ_i ^*は最適化された状態を示している。本実施形態では、上記最大化問題の解を得るためにビタビアルゴリズムと呼ばれる動的計画法を適用する。

ステップ１１１１では、上記マッチングの結果得られる最終状態ｓ_M ^*（以下、コンテキストマッチと呼ぶ）の値を出力する。本実施形態の場合、マッチングの結果得られた過去の類似系列のうち時間的に最も新しい状態ｓ_M ^*に対応する画像x_SM、又は該画像に対応する位置／状況が認識結果として出力される。

ここで、本実施形態で用いるビタビアルゴリズムについて説明する。ビタビアルゴリズムは、与えられたＨＭＭと対となる画像間の距離Ｈに従い、２つの画像群｛x₁,…,x_M｝と｛x_i-N,…,x_i｝との間で１対１の最適対応関係（best match）を与える。ここで、ＭやＮが大きい場合、上記ビタビアルゴリズムは近似することができる。最も良く行われる近似方法は、ビタビビーム検索法（Viterbi beam search）である。ビタビビーム検索法によれば、最適対応関係を求めることはできないが、許容可能な程度にマッチしている対応関係を見出すことができる。なお、本実施形態においては、上記２つの画像群の１対１の対応関係を決定することができる処理であれば、ビタビアルゴリズムの代わりに、任意の処理を用いることができる。ここで任意の処理とは、時間的な連続性を維持した状態で、｛x_i-N,…,x_i｝に含まれている各画像と該画像に対応する｛x₁,…,x_M｝の画像との距離を最小化するものである。本実施形態のビタビアルゴリズムでは、上記時間連続性をＨＭＭの遷移行列により維持している。

標準的なビタビアルゴリズムの実施では、その確率計算は直接的に行われない。これは、ビタビアルゴリズムにおいて、確率を順次乗算していくとコンピュータの計算能力を超えてしまう場合があるためである。このため実用に際しては、以下のように、全ての確率について自然対数をとることで、ビタビアルゴリズムの数式を「対数確率」で表現するように書き直している。この結果、全ての乗算が加算になるが、最適化は同じように実現される。

ビタビアルゴリズムの処理の具体的な例については後述する。

ところで、上述したマッチング処理において、近過去の画像系列における順序が、遠過去における画像系列の順序と大きく異なっている場合がある。このように基本的に異なるイベント（異なる状況での画像）を含む２つの画像系列をマッチングしようとした場合、マッチングの確実性が低くなれば問題が無い。このような場合には、例えば低い確実性が得られたということを示すか又は「マッチング画像検出失敗」等のメッセージを出力すればよい。

しかし最悪の場合、逆にマッチングの確実性が高くなり、誤った結果が導かれる場合がある。このような最悪の結果は、視覚的な類似性があるものの物理的には場所が離れているか又は状況が異なっている場合に起こりやすい。

また、誤ったマッチングが行われる場合としては、遠過去の画像系列（トレーニング例）と、近過去の画像系列（テスト例）とにおいて見られるように、状況の順序に関するミスマッチが存在する場合である（図１０参照）。このようなミスマッチを減少させるために、本実施形態では、ランドマークという概念を利用している。例えば、比較されている２つの画像がマッチングしている度合いが高く、ランドマーク（特徴的な目印）として認識できる画像又は光学情報か否かという点を考慮してマッチング処理を行う。さらに、本実施形態では、ランドマークを利用することで、マッチングに使用すべき近過去の画像系列の長さをインテリジェントに決定することで、マッチング処理の効率化及び高速化を図っている。

図１０の例において、点線９１０、９４０で表された経路はトレーニング例であり、一点鎖線９２０の経路はテスト例である。画像アーカイブには、部屋Ａ９０２から部屋Ｂ９０３へ向けて廊下９０１を進んでいく場合と、ドア９０２ｄ？２、９０３ｄ？２を通過して部屋Ａ９０２から部屋Ｃ９０４へ進んでいく、という２つのトレーニング例の経路に沿って得られた画像だけが含まれているものとする。一方、テスト例の経路９２０は、廊下９０１からスタートし、その後ドア９０２ｄ−１を通って部屋Ａ９０２の中へ入り、ドア９０２ｄ−２を通過して部屋Ｂ９０３へ移動、その後ドア９０３ｄ−１を通過して廊下９０１に戻ってくるというものである。

ここで、テスト例の経路９２０の全体とトレーニング例の経路９１０又は９４０とを、ランドマークを使用しない従来の方法でマッチングしようとすると、画像の順番が互いに異なっているためミスマッチがおこりやすく、正しい結果が得られるかどうかは不明である。さらに、マッチングされたとしても、その確実性は低いものになる可能性が高い。

このような問題点への解決策として、本願発明者は、光学画像を時間経過に沿って次々に取得していく場合、多くの経路において、ランドマークとして機能可能な地点が存在していることに着目した。例えば、図１０の例では点９３０〜９３３で示された地点にランドマーク（例えば特色のあるドア）が存在するような場合、近過去の画像系列として該ランドマークまでの画像系列を使用することにより、より精度の高い結果が得られることが判明した。例えば、テスト例の経路９２０中で部屋Ｂ９０３に入った状況（位置９５０）で、これまでに取得された全てのデータを使用して通常のマッチング処理を行った場合、トレーニング例の経路９１０にいるのか経路９４０にいるのかが判断できない。これに対し、ランドマークを使用したマッチング処理では、テスト例の経路として最後のランドマーク９３２までの画像系列だけを用いる。このため、現時点ではトレーニング例の経路９４０に沿った位置にいることが正しく認識される。なお、画像系列の長さをランドマークまでとする代わりに、ランドマークの位置に応じて、マッチング処理に用いる近過去の画像系列の長さを設定する構成としても良い。

本実施形態によれば、上記ランドマークを利用することにより、マッチング処理において使用すべき近過去の画像系列として、該近過去の画像系列の履歴をどの地点まで遡るべきかを決定することができる。この結果、上述されたような画像の順番が異なるような場合でも、より正確にマッチング処理が行われる。

本実施形態ではビタビアルゴリズムを利用しているため、上記ランドマークの検出を容易に行うことができる。通常のビタビアルゴリズムの場合、前方向（時間の順方向）にビタビトレリス線図上でパスを伸ばし、状態スコアを伝播（propagate）していく。これに対し、本実施形態では、時間を逆にして後方向へ、現在位置から過去へ向かってパスを伸ばしていく構成としている。

本実施形態によるランドマークの検出及びそれを利用したマッチング処理を図１１及び図１２を用いて説明する。図１１は、本実施形態のマッチング処理で用いられるビタビトレリス線図の一例であって、縦方向は遠過去画像ｘ₁〜ｘ_M、横方向は近過去画像ｘ_i〜ｘ_i-Nに対応する。マッチング処理は現在位置７１から開始され、ランドマークマッチ７０が検出されるまで、状態スコアを時間的に逆方向に伝播していく。さらに、各ステップでは、上記数５で予め設定された遷移パラメータに従い、ゼロではない遷移確率を持つＫ個の状態だけが考慮される。

図１２（Ａ）にランドマークマッチの検出を利用した、ビタビアルゴリズムによるマッチング処理の一例を示す疑似コードを示す。本例の擬似コードでは、以下の対数確率（log-probability）にて表現されたビタビ式を参照して説明する。

初期化

帰納

終了

図１２（Ａ）に示す擬似コードにおいて、ステップ１〜３は初期化処理、特にalpha変数の初期化である。ステップ４〜１２は帰納処理である。ここで、alpha(prev, j)はα_i(j)、alpha(now, j)はα_i+1(j)、temp(k)はα_i(k)＋Ｂ_jkである。また、ステップ１３〜１６は終了処理である。

本例の擬似コードと標準的なビタビ数式との違いは、以下の通り。
１．時間の進む方向が逆である。
２．ステップ１０のランドマーク検出は、帰納ループを早い時期に停止させる。このランドマーク検出処理に使用されるIs-Landmark-Present(i,pred,threshold)については、図１２（Ｂ）を用いて説明する。
３．本例の擬似コードでは、alpha行列の今回と前回のコラムだけが保持されている。

本実施形態においては、ランドマークマッチが検出された場合、この時点までに見つかった最適なパスを現在位置まで戻ることで解を得る。なお、本実施形態では、ビタビトレリス線図において最適なパスを含む全てのパス、又は、実質的に全てのパスが同一の状態を通過した場合、その時点でランドマークマッチが検出されたと定義する。なお、「実質的に全てのパス」とは、アプリケーションに応じて本処理に要求される誤差範囲のなかで「全てのパス」と同等に判断できる状態を意味している。また、低いマッチング精度でも許容されるような状態では、他のいずれの状態よりも非常に多くのパスが通過した状態が見つかった場合について、ランドマークマッチが検出されたと判断する構成としても良い。

なお、ビタビトレリス線図において前方向にパスを伸ばしランドマークに到達したとしても大きな利益は無い。なぜなら、依然としてパスは任意に分散する可能性があり、ビタビトレリス線図の最後にどのような解が得られるかは不明だからである。これに対し、本実施形態では時間的に逆方向にパスを伸ばしている。このため、ランドマークマッチが検出された時点で、ビタビトレリス線図上ではそれ以上パスを伸ばす必要は無くなる。これは、ビタビトレリス線図上の開始点に関する解は変化しないからである。

上記ランドマークを利用することにより、画像アーカイブに画像として記録されている過去の状況に、ユーザの現在の状況と精度良くマッチングできる状況が元々存在しない場合であっても、画像アーカイブには記録されていない現在の状況への他のアプローチ方法を自動的に特定することが可能となる。

すべての遷移確率がゼロではない場合には、上述したランドマークマッチの検出を利用したマッチング処理は問題なく実現できる。しかしながら、本実施形態では実用性を考慮して、所定の幅を持ちそれを超えた領域では遷移確率をゼロとするトランケートガウス分布（truncated Gaussian）を使用している。このため、全ての状態から他の全ての状態へのアクセスが可能とはなっていない。そこで本実施形態では、マッチングの度合いの判断にしきい値を設け、該しきい値を利用してランドマークマッチの検出を行っている。

例えば、本実施形態では、図１２（Ｂ）に示す処理により、遷移確率がゼロの場合でもランドマークの存在の有無を検出している。図１２（Ｂ）の処理では、ステップ１でカウントを初期化し、ステップ２〜３で、各状態を通るパスの数をカウントし、最大のカウント値がしきい値（threshold）より大きいか否かが判断される。

遷移確率の全てがゼロではない場合には、上記thresholdをＭ−１に設定することができる。このような設定によれば、全てのパスが同一状態を通って遷移した場合に限りランドマークが検出される。遷移確率がゼロの場合を含み、上述した状況が適用されない場合には、一つの状態を多くのパス又は実質的に全てのパスが通るようにＭ−１よりも低い、例えば０．５×Ｍを上記thresholdとして設定しても良い。

実用に際しては、上記マッチング処理で使用するビタビトレリス線図が非常に大きくなる場合がある。このような場合、計算処理の複雑さ（ビタビアルゴリズムの場合、時間的にはＯ（ＮＭ²））が無限大に大きくなることを防ぐために、パスの刈り込み（pruning）が必要となる。ここでＭは画像アーカイブに含まれる画像の枚数、Ｎは近過去時系列に含まれる画像の枚数を示す。このため、多くのバリエーションを示すような複雑な環境では、上記複雑さは非常に大きなものになる。

本実施形態では、上記計算処理の複雑さを減少させるために様々な手段を講じている。その一つは、上述したコーディング処理部２０１によるコーディング処理である。本処理では、画像の変化を検出することで画像の冗長性を除き、実質的に画像アーカイブに格納されるべき画像の情報量を損なうことなく、そのデータ量を圧縮している。さらに本実施形態では、遷移関数としてトランケートガウス分布（truncated Gaussian）を使用しており、ゼロの確率の遷移を通過するパスについては計算をしない。これらの手段を講じることで、ビタビアルゴリズムの計算処理の実際のコストはＯ（ＮＫＭ）となる。ここで、Ｋは隠れマルコフモデルλの各状態から出る場合の確率がゼロではない遷移の数（定数）である。したがって、本実施形態のビタビアルゴリズムの計算処理の複雑さは、時間において、画像アーカイブの大きさに対し線形となる。

さらに、ｋ近傍法（ｋ−ＮＮ）で用いられる木構造のデータを利用した最適化処理を行うことで、上記複雑さを対数時間で、ほぼ画像アーカイブの大きさＭまで減少させることができる。

上記最適化処理は、例えば、マッチングの度合いが高くなると期待される、画像アーカイブのサブセット（例えば大きさＬ）を設定することで実現される。このような処理はＫ近傍法が元来目指したものである。その後、画像アーカイブ全体に対してビタビアルゴリズムを実行する代わりに、上記大きさＬのサブセットに対してのみビタビアルゴリズムを実行する。このような処理によれば、上記複雑さはＯ（ＮＫＬ²ｌｏｇＭ）となる。

ここで、サブセットは、｛x_i-N,…,x_i｝に含まれている各画像に対し最も近い、画像アーカイブ｛x₁,…,x_M｝の内のＬ個からなる。なお、該最も近いＬ個の画像はL1計量によって決定される。サブセットは各画像ｘ_iによって異なる。より具体的には、上記画像アーカイブに含まれる全ての画像を各画像ｘ_i毎に考慮する代わりに、該画像ｘ_iに最も近いＬ個の画像だけを考慮する。このため、行列Ｈの全てのコラムを計算することは無く、ＨＭＭにおける全ての状態が考慮されない。

画像ｘ_iに対し｛x₁,…,x_M｝の中で最も近いＬ個の画像を決定する方法としては、例えば、任意の標準的なｋ近傍法（ｋ＝Ｌ）を用いることができる。

なお、対数確率空間でビタビ計算が行われた場合、１６ビットの整数を用いて全ての計算が可能となる。ここでは、取得されたセンサデータが整数の形式で表されている場合を仮定しているが、通常の撮像及びアナログデジタル変換で画像データが得られる場合はこれに相当する。

それほど大きくない画像アーカイブを利用する場合には、上記のような最適化処理を実行することで、いわゆるワンチップコンピュータ等の低価格の内蔵型ハードウエアによってもリアルタイムでの処理が可能となる。また、上記アルゴリズムのトレリス構造はＦＰＧＡ（Field Programmable Gate Array）での実施に最適である。

上述した実施形態のマッチング処理では、画像の時系列パターンを用いてコンテキストマッチを行っている。このため、高解像度の画像データは必要としない。すなわち、本実施形態の装置は、光学情報取得部１０で使用されるセンサの解像度が高いものである必要はない。この結果、本実施形態では、顔や文字そのものを認識しないため、ユーザやその周囲の環境のプライバシーを侵害することなく状況認識を行うことが可能である。本実施形態の装置は、通常の解像度の画像を必要とする従来の装置に比較して、より低い解像度の画像データを用いた場合でも効率的に状況認識ができるという有利な効果を奏する。

以上説明したように、上述した実施形態によれば、画像等の光学情報を用いた記憶機能を備えたシステムが提供される。上述した実施形態によれば、例えばロボット、ウエアラブルコンピュータ、環境監視システムのような各種情報処理システムにおいて、次のような機能を実現することができる。

（１．１）記憶想起（RECALL）：現在の状況と過去の状況とをマッチングさせることで、過去の状況でのコンテキストを自動的に呼び戻す。例えば、図１３に示すように、現在から最後のランドマークまでの近過去の画像系列１２００と画像アーカイブに格納されている遠過去１２１０とをマッチングして、近過去１２００とマッチングの度合いの高い類似系列１２１１を算出する。また、遠過去１２１０において、例えば図１４に示すように、画像に状況を示すラベル付けがされている場合には、マッチングの結果見つかった類似系列１２１１の中で現在の状況と対応する時点１２２０が特定される。この結果、現在の状況（本例では駅の中）と同様の状況に関する記憶想起が可能となる。

（１．２）ジャストインタイム情報提供（JIT）：状況を認識し、該認識した状況で必要となる情報を提供する。本機能では、例えば、認識された位置に基づくタグ付けを利用する。

（１．３）異常検出（ANAMOLY DETECTION）：上述した記憶想起とは逆のもので、過去の状況とのマッチングが成功しなかった場合、本装置が今までに遭遇したことがない新たな状況にいる確率が非常に高いと判断する（図１５（Ｂ））。本機能を用いることで、通常とは異なる状況を検出して記録装置等を起動させることが可能となる。

（１．４）予期（PREDICTION）：過去において状況Ａの次に状況Ｂがおこっており、現状が状況Ａに該当すると認識された場合、次に状況Ｂがおこることを予期することが可能となる（図１５（Ａ））。本機能は、ガイダンス装置等の将来予想に基づき動作する装置に適用して、ユーザの意図や次の行動を予想することで、タイミング良く適切なサービスを提供することを可能にする。

（１．５）比較：例えば壁にかかっている絵が変わっている等、過去と現在の状況を比較して変化した点を検出する（図１５（Ｃ））。

なお、本発明において上記機能の実現をするために、画像アーカイブに格納されている全てのデータにラベル付けをする必要は無く、本発明においては、例えばマニュアルでのラベル付けがされていないデータについても、本発明を利用するユーザやアプリケーションにとって特定の値を持ち得る。すなわち、ラベル付けされていないデータであっても、その他のラベル付けされているデータとの相対的な時間的関係が一義的に定義づけすることができるためである。

例えば、上記（１．１）の「記憶想起」機能において、図１４に示すように「家」と「駅」との間にある状況と近過去（現在）の状況とがマッチングされた場合、現在の状況は「家と駅との間」であると認識することができる。もちろん、「家」や「駅」等、マニュアルでラベル付けされた後、本発明のシステム側にて、ラベル付けされていない画像データに対して、例えば「家と駅との間」等のように予め自動的にラベル付けをする構成としても良い。

より具体的には、ラベル付けされていない状況と現在の状況とがマッチングされた場合、画像アーカイブに格納されている状況のうち該マッチングされた状況と時間的に近い１又は複数の状況にラベル付けされた情報を用いて、該マッチング結果をユーザに対して提示する場合に表示または告知すべきメッセージを生成する構成としても良い。

さらに、上記１又は複数の状況にラベル付けされた情報を用いて新たに生成した情報を、該マッチングされた状況に対してラベル付けする構成としても良い。

また、上記（１．４）の「予期」機能では、現在の状況と過去の状況とをマッチングし、その時点から先を予期する構成であるため、予期をしない過去の状況に対応する画像データ、例えば図１５（Ａ）における予期した未来１２３０よりも前のデータへのラベル付けは必要としない。また、図１５（Ｂ）、図１５（Ｃ）に示すような「異常検出」や「比較」機能においてはラベル付けは必要ではない。

上述した実施形態が、ユーザの環境を撮像するように配置された光学センサを備えたウエアラブルコンピュータに適用されたものである場合、以下のような利用方法がある。
（２．１）メタ−タグ付け（META-TAGGING）：電話での会話、受信したテキストメッセージ、撮影された写真等の他の形態の記録情報に対する、当該状況に関連する情報のタグ付け。
（２．２）状況認識：ソフトウエアエージェントのための状況認識（位置認識も含む）。
（２．３）異常検知：危険である可能性の高い状況や特別な行動を必要とする状況（例えば、救急や犯罪）の認識。
（２．４）予期：例えば、過去にユーザがレストランを出た後にタクシーを呼んでいた場合、これに対応したサービスを行う等、過去のイベントに基づく次のユーザの状況の予期。

上述した実施形態がロボットの環境を撮像するように配置された光学センサを備えたロボットに適用されたものである場合、以下のような利用方法がある。
（３．１）ロボット用画像メモリ機能：分析的な計画のサポート、及び所定の行動を完了しようとする場合に、その行動を不成功に導く可能性のある状況を不愉快に感じるような感情機能のサポート。
（３．２）予期：所定の状況で特定の行動をした場合、次の状況がどうなるかを予期するための確率ルールをモデル化することで実現するロボットの行動予期（例えばナビゲーションのように、自身の行動の結果を予測することで、所望の状況に自分を導いていく）。

上述した実施形態は、移動機能を持たない装置、セキュリティモニタ装置、患者モニタ装置、又は空間や対象物を視覚的にモニタするその他の任意の装置に対しても適用することができる。このような場合には、主にモニタリング処理が行われているため、例えば上述した異常検出機能が役立つ。また、例えば患者が就寝中に発作を起こした場合に看護士に通知する等、検出した状況に応じて他のシステムを起動するために本実施形態を用いることも可能である。

なお、上述した本発明の実施形態による装置は、さらに通信部を備える構成としても良い。通信部は、例えば、有線及び／又は無線にて外部装置と通信を行い、上述した本発明の実施形態の画像アーカイブと同等の形態を備えた複数の光学情報系列及び／又はそれに基づいて生成された隠れマルコフモデルを読み込み、マッチング処理で使用する構成としても良い。

また、上述した本発明の実施形態による装置を用いる代わりに、演算処理ユニット、メモリ、ユーザインターフェースを含む汎用コンピュータシステムに、上述したような光学情報取得部を接続し、本実施形態による状況認識を実現するための処理を該汎用のコンピュータに行わせるためのコンピュータプログラムを提供しても良い。コンピュータプログラムは、通信にて直接又はネットワークを介して各コンピュータシステムに送信しても良く、又は、記録媒体に格納して配付する構成としても良い。

また、上述した本発明の実施形態による装置を用いる代わりに、本発明をモバイル型の電子機器に適用して状況認識処理を実行させ、その結果を該電子機器の本来の用途に利用する構成としても良い。本発明が適用可能な電子機器としては、例えば携帯電話、ＰＤＡ、ＣＤやＤＶＤなどの記憶媒体を再生する携帯型記憶媒体再生装置、デジタルカメラやカムコーダ等の撮像装置がある。

本発明の一実施形態による状況認識装置の構成を示すブロック図である。本発明の一実施形態による光学情報取得部の構成の一例を示すブロック図である。図３（Ａ）：本発明の一実施形態による光学情報取得部の構成の一例を示す説明図である。図３（Ｂ）：本発明の一実施形態による光学情報取得部の構成の他の例を示す説明図である。本発明の一実施形態による処理部及び記憶部の構成の一例を示すブロック図である。本発明の一実施形態による隠れマルコフモデルの一例を示す説明図である。本発明の一実施形態によるマッチング処理の一例を示すフローチャートである。本発明の一実施形態によるマッチング処理で使用される変化検出のためのしきい値の時間変化を示すグラフである。本発明の一実施形態による測定された画像データの構成の一例を示す説明図である。本発明の一実施形態によるＨＭＭ生成処理の一例を示すフローチャートである。本発明の一実施形態によるランドマークを利用したマッチング処理を説明するための説明図である。本発明の一実施形態によるランドマークマッチを利用したマッチング処理を説明するためのビタビトレリス線図である。図１２（Ａ）：本発明の一実施形態によるマッチング処理を実現するプログラムの一例を示す疑似コードである。図１２（Ｂ）：本発明の一実施形態によるランドマークを検出するプログラムの一例を示す疑似コードである。本発明の一実施形態によるマッチング処理を模式的に示した説明図である。本発明の一実施形態の適用方法の一例を模式的に示した説明図である。図１５（Ａ）：本発明の一実施形態の適用方法の一例を模式的に示した説明図である。図１５（Ｂ）：本発明の一実施形態の適用方法の他の例を模式的に示した説明図である。図１５（Ｃ）：本発明の一実施形態の適用方法の他の例を模式的に示した説明図である。

符号の説明

１０：光学情報取得部、２０：処理部、３０：記憶部、４０：ユーザインターフェース部、１０１：光センサ、１０２：マルチプレクサ、２０１：コーディング処理部、２０２：距離ベクトル算出部、２０３：距離ベクトル記憶部、２０４：マッチング処理部、２０５：ＨＭＭ生成部、３０１：光学情報記憶部、３０２：ＨＭＭ記憶部

Claims

光学情報を用いて現在の状況を認識する装置において、
光学情報を取得する光学情報取得部と、
複数の光学情報を格納する記憶部と、
前記記憶部に格納されている複数の光学情報と前記光学情報取得部によって新たに取得された光学情報とのマッチングを行う処理部と、
前記マッチングの結果を提示する出力部とを備え、
前記記憶部は、前記複数の光学情報の変化を数値化した確率モデルをさらに格納し、
前記処理部は、
前記マッチングに用いられる光学情報のデータ量を圧縮するための、今回取得された光学情報と当該コーディング処理部を最後に通過した光学情報との差異を示す値が予め定めたしきい値よりも大きい場合、該今回取得された光学情報を出力するコーディング処理部と、
前記格納されている複数の光学情報の各々と前記新たに取得された光学情報との差異をそれぞれ求め、該差異を示す値を算出する差異算出部と、
前記算出された差異を示す値を複数個、時間的に新しい順に格納する差異記憶部と、
前記格納された複数の差異を示す値の時系列と前記モデルとを用いてマッチングを行うマッチング処理部とを備えている
状況認識装置。
前記モデルでは、各状態が前記格納されている複数の光学情報の各々に対応し、状態間の遷移パラメータが予め定められた値に設定されている
請求項１に記載の状況認識装置。
前記処理部は、前記モデルを前記記憶部に格納されている複数の光学情報に基づき生成するモデル生成部をさらに備える
請求項２に記載の状況認識装置。
前記モデルは、隠れマルコフモデルである
請求項１に記載の状況認識装置。
前記マッチング処理部では、ビタビアルゴリズムを用いて、前記格納された複数の光学情報を前記複数の差異を示す値の時系列とマッチングさせる最適状態列を決定する
請求項１に記載の状況認識装置。
前記最適状態列の決定は、ビタビトレリス線図上を最も現在に近い状態から時間的に逆方向にパスを伸ばすことで実行される
請求項５に記載の状況認識装置。
前記マッチング処理では、ビタビトレリス線図上を伝播する略全てのパスが通る一つの状態が存在する場合、該状態をランドマークとして検出し、該ランドマークを用いて該マッチング処理で用いる前記複数の差異を示す時系列の長さを決定する
請求項５に記載の状況認識装置。
前記マッチング処理部では、前記格納されている複数の光学情報のいずれかと、予め定めたしきい値よりも高い確実性でマッチングしている光学情報を、前記複数の差異を示す値に対応する複数の光学情報の中に見つけた場合、これをランドマークとして検出し、
前記ランドマークを用いて、前記マッチング処理で用いる前記複数の差異を示す値の時系列の長さを設定する
請求項１に記載の状況認識装置。
前記記憶部に格納されている複数の光学情報の少なくとも一部は、対応する状況を示すためのラベル付けがされている
請求項１に記載の状況認識装置。
前記記憶部に格納されている複数の光学情報の少なくとも一部は、対応する状況を示すためのラベル付けがされておらず、
前記出力部は、前記新たに取得された光学情報と前記ラベル付けされていない光学情報とがマッチングされた場合、前記ラベル付けされていない光学情報と時間的に近い１又は複数のラベル付けされている光学情報に対応するラベルが示す情報を用いて、該マッチング結果をユーザに提示する
請求項９に記載の状況認識装置。
前記記憶部に格納されている複数の光学情報の少なくとも一部は、対応する状況を示すためのラベル付けがされておらず、
前記処理部は、前記ラベル付けされていない光学情報と時間的に近い１又は複数のラベル付けされている光学情報に対応するラベルが示す情報を用いて、該ラベル付けされていない光学情報のラベル付けを行う
請求項９に記載の状況認識装置。
前記光学情報取得部は、複数の光センサから構成される
請求項１に記載の状況認識装置。
前記光学情報取得部は、前記複数の光センサの各々に集光するための集光手段をさらに備える
請求項１２に記載の状況認識装置。
状況認識部を備え、該状況認識部から出力された認識結果を用いて予め定めた処理を実行する処理実行部を備えるシステムにおいて、
前記状況認識部は、
光学情報を取得する光学情報取得部と、
複数の光学情報を格納する記憶部と、
前記記憶部に格納されている複数の光学情報と前記光学情報取得部によって新たに取得された光学情報とのマッチングを行う処理部とを備え、
前記記憶部は、前記複数の光学情報の変化を数値化した確率モデルをさらに格納し、
前記処理部は、
前記マッチングに用いられる光学情報のデータ量を圧縮するための、今回取得された光学情報と当該コーディング処理部を最後に通過した光学情報との差異を示す値が予め定めたしきい値よりも大きい場合、該今回取得された光学情報を出力するコーディング処理部と、
前記格納されている複数の光学情報の各々と前記新たに取得された光学情報との差異をそれぞれ求め、該差異を示す値を算出する差異算出部と、
前記算出された差異を示す値を複数個、時間的に新しい順に格納する差異記憶部と、
前記格納された複数の差異を示す値の時系列と前記モデルとを用いてマッチングを行うマッチング処理部とを備えている
システム。