JP5166316B2

JP5166316B2 - 状況認識装置及び状況認識方法

Info

Publication number: JP5166316B2
Application number: JP2009038204A
Authority: JP
Inventors: 一成大内; 美和子土井; 和範井本; 匡晃菊池; 倫佳穂坂
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2009-02-20
Filing date: 2009-02-20
Publication date: 2013-03-21
Anticipated expiration: 2029-02-20
Also published as: JP2010190861A; US20100217588A1; US8521681B2

Description

本発明は、音情報に基づく対象物の状況認識に関する。

各種センサの小型化及び低消費電力化、センサ信号処理技術の発展に伴って、対象物の状況（例えば対象物の位置情報）に応じて適切なサービスを提供する状況依存型のアプリケーションが注目されている。状況依存型のアプリケーションとして、例えば工場のパトロール者に対して作業支援を提供する特定用のアプリケーション、携帯電話機のユーザに対して日常生活支援（例えば、天気予報の配信）を提供する一般用のアプリケーションなどが考えられる。このような状況依存型のアプリケーションにおける品質を向上させるためには、対象物の状況を正確に認識することが重要である。

対象物が位置情報を取得する手法の１つとしてＧＰＳが広く知られている。しかしながら、対象物が建物に入ってしまうとＧＰＳによる測位が困難になるという問題がある。例えば、前述した工場のパトロール者に対する作業支援を提供するアプリケーションの品質向上のためには、対象物（パトロール者が携行する端末）の屋内（工場内）における位置情報も利用可能となることが望ましい。

そこで、屋内において対象物が位置情報を取得する手法として、屋内に設置された機器から送信されるビーコン（無線、超音波）や無線電波強度に基づく測位が考えられる。しかし、ビーコンや無線電波強度に基づく測位は、遮蔽や反射の影響が大きく、機器の導入コストがかさむという問題がある。また、ＲＦＩＤ技術を用いて屋内において対象物の位置情報を取得する手法も考えられる。しかし、いわゆるパッシブ型ＲＦＩＤは通信可能距離が比較的短いので、対象物の位置情報を取得するためにユーザによる能動的な動作が必要となるという問題がある。一方、アクティブ型ＲＦＩＤも配置次第で死角やマルチパスの影響が大きく、パッシブ型ＲＦＩＤに比べて導入コストがかさむという問題がある。

また、音情報を利用して対象物が状況を認識する手法も提案されている。具体的には、対象物はマイクロホンによって周囲の音情報を取得し、当該音情報の特徴量と特定の状況に対応付けられる特徴量とを比較することにより状況を推定している（例えば、特許文献１、非特許文献１、非特許文献２）。マイクロホンは導入コストが小さいという利点がある。

特開２００２−３２３３７１号公報

V. Peltonen, et al., "Computational Auditory Scene Recognition," Proc. of ICASSP2002, pp. 1941-1944, 2002. C. Clavel, et al., "Events Detection for An Audio-Based Surveillance System," Proc. of ICME2005, pp. 1306-1309, 2005.

前述した音情報に基づく対象物の状況認識において、特徴量の比較を行うために音情報を分析する必要がある。ここで、分析対象とする音情報をどのように定めるかが問題となる。従来技術は、ボタン操作等のユーザの能動的な動作によって分析対象を指定する手法か、常時分析する（即ち、全ての音情報を分析対象と指定する）手法のいずれかを採っている。

ユーザの能動的な動作によって分析対象を指定する手法は、分析処理のための計算量や消費電力を節約するためには有効であるが操作性に問題がある。一方、常時分析する手法は、ユーザの操作負担は小さいが分析処理のための計算量や消費電力量が大きく、対象物が計算能力及び電力に余裕のない携帯型端末である場合に特に問題である。また、そもそもユーザと共に対象物が移動している期間は、動きに伴う雑音が混入しやすいので状況認識の精度が劣化するおそれがある。

従って、本発明は対象物の状況を低消費電力かつ低計算量で高精度に認識することを目的とする。

対象物の動き情報を入力する第１の入力部と、前記対象物の周囲の音情報を入力する第２の入力部と、前記動き情報に基づいて前記対象物の動作状態を認識する認識部と、前記動作状態に基づいて選択的に前記音情報を抽出する第１の抽出部と、前記第１の抽出部が抽出した音情報から第１の特徴量を抽出する第２の抽出部と、前記第２の抽出部が前記第１の特徴量よりも以前に抽出した第２の特徴量と予め入力された特定の状況とが対応付けられているモデルが蓄積される蓄積部と、前記第１の特徴量と最も類似する第２の特徴量に対応付けられる特定の状況を、前記対象物の現在の状況として判定する判定部と、前記現在の状況を出力する出力部とを具備する。

本発明によれば、対象物の状況を低消費電力かつ低計算量で高精度に認識できる。

第１の実施形態に係る状況認識装置を示すブロック図。図１の状況認識装置の一実装例を示す図。図１の状況認識装置の一実装例を示す図。図１の状況認識装置の一実装例を示す図。図１の状況認識装置の動作を示すフローチャート。図１の状況認識装置の使用例を示す図。図１の動き情報入力部が入力する加速度の一例を示すグラフ図。図１の動き情報入力部が入力する加速度の一例を示すグラフ図。図７の加速度に基づく微分加速度を示すグラフ図。図８の加速度に基づく微分加速度を示すグラフ図。図７の加速度に基づくスカラーを示すグラフ図。図８の加速度に基づくスカラーを示すグラフ図。図１の状況認識装置の操作画面の一例を示す図。図１の識別モデル蓄積部に蓄積される識別モデルの一例を示す図。第２の実施形態に係る状況認識装置を示すブロック図。図１５の状況認識装置の動作を示すフローチャート。第３の実施形態に係る状況認識システムを示すブロック図。

以下、図面を参照して、本発明の実施形態について説明する。
（第１の実施形態）
図１に示すように、本発明の第１の実施形態に係る状況認識装置１００は、動き情報入力部１０１、音情報入力部１０２、動作状態認識部１０３、音情報抽出部１０４、特徴抽出部１０５、モード切替部１０６、状況入力部１０７、状況判定部１０８、判定結果出力部１０９及び識別モデル蓄積部１１０を有する。

状況認識装置１００は、例えば図２に示すような腕時計型の独立した専用の装置として実装されてもよいし、図３に示すような携帯電話機の一機能として実装されてもよいし、図４に示すようなＰＤＡの一機能として実装されてもよい。状況認識装置１００は、ユーザによって携行されるものとするが、その態様は問わない。状況認識装置１００が図２に示すような腕時計型の装置として実装されていればユーザは手首に装着すればよいし、状況認識装置１００が図３及び図４に示すような携帯端末の一機能として実装されていればユーザは当該携帯端末をポケットや鞄に収納してもよいし手で直接保持してもよい。

状況認識装置１００の使用態様は特に限定されないが、例えば工場内の装置点検作業の支援及び安全管理作業の支援に用いられる。具体的には図６に示すように、ユーザは管理棟を出発して建家Ａ乃至Ｃに設けられている装置１乃至７に対して所定の点検作業を所定の順序で行って管理棟に戻るという使用態様を想定してよい。即ち、状況認識装置１００は、ユーザが装置１乃至７のいずれに対する点検作業を行っているか（より正確には、状況認識装置１００が装置１乃至７のいずれかの周辺に位置すること）を認識して適切な操作画面や音声アナウンスを提示したり（装置点検作業の支援）、状況認識装置１００を携行するユーザの位置情報を外部に報知したり（安全管理作業の支援）したりする。

動き情報入力部１０１は、例えば加速度センサ、角速度センサ等の動きセンサで構成される。動き情報入力部１０１は、状況認識装置１００の動き情報として加速度情報や角速度情報を取得する。前述したように状況認識装置１００はユーザに携行されるため、上記動き情報にはユーザの動きが反映される。動き入力部１０１は動き情報を動作状態認識部１０３に入力する。以下の説明において、上記動き情報は３軸加速度であるものとするが、角速度または３軸以外の加速度（例えば１軸または２軸）でもよいし、これらの組み合わせであってもよい。また、動き情報入力部１０１による動き情報のサンプリング周期は任意でよいが、例えば５０[ms]とする。

音情報入力部１０２は、例えばマイクロホンのような音センサで構成される。音情報入力部１０２は、状況認識装置１００の周囲の音情報を取得する。尚、音情報入力部１０２が電力駆動する構成であれば、後述する音情報抽出部１０４の作用によって電力供給が停止／再開されてもよい。音情報入力部１０２は、音情報を音情報抽出部１０４に入力する。

動作状態認識部１０３は、動き情報入力部１０１からの動き情報に基づいて状況認識装置１００を携行するユーザの動作状態を認識する。ここで、動作状態認識部１０３が認識可能な動作状態は、静止状態及び移動状態を少なくとも含むものとするが、これらに限られず歩行状態、走行状態、交通機関（自動車、自転車、電車等）による移動状態等の様々な動作状態を含んでもよい。動作状態認識部１０３は、例えば静止状態のような音情報の分析に適した動作状態を認識すると、音情報抽出部１０４の動作を開始させる。

以下、動作状態認識部１０３が利用可能な動作認識技術をいくつか紹介する。
動き情報入力部１０１が入力する動き情報（３軸加速度データ）は、例えば図７及び図８に示す通りである。具体的には、図７はユーザが静止した状態から歩き始めるとき（即ち、動作状態が静止状態から移動状態に遷移するとき）に得られる動き情報を示し、図８はユーザが歩みを止めて静止するとき（即ち、動作状態が移動状態から静止状態に遷移するとき）に得られる動き情報を示す。図７及び図８を概括すると、静止状態のときに得られる加速度の変動は小さく、移動状態のときに得られる加速度の変動は大きいといえる。

動作状態の第１の認識手法は、加速度の生波形または微分波形を利用する。図７及び図８に示す加速度の生波形を微分する（実際には、各データポイントに対応する加速度から、時間的に１つ前のデータポイントに対応する加速度を減算する）と、図９及び図１０に示す加速度の微分波形（実際には、各データポイントに対応する微分加速度に相当する複数の値）が夫々得られる。第１の認識手法は、静止状態のときに加速度の変動が小さいことを利用する。例えば、１軸以上の微分加速度の絶対値に閾値を設け、所定の期間内に当該閾値を超える微分加速度の絶対値が得られれば当該期間の動作状態を移動状態として認識可能であり、当該閾値を超える微分加速度の絶対値が得られなければ当該期間の動作状態を静止状態として認識可能である。また、微分加速度でなく加速度の絶対値に対して同様の閾値処理を行うことも可能である。但し、加速度の絶対値（特に、Ｚ軸加速度）に対して閾値処理を施す場合には、重力加速度の影響を考慮する必要がある。

動作状態の第２の認識手法は、加速度のスカラーを利用する。具体的には、次の数式（１）に示す演算を行うことにより、３軸加速度のスカラーＡを得ることができる。

数式（１）において、Ｘn、Ｙn及びＺnは任意のデータポイントｎにおけるＸ軸、Ｙ軸及びＺ軸加速度を夫々表し、Ｘn-1、Ｙn-1及びＺn-1は上記データポイントｎの直前（１つ前）のデータポイントｎ−１におけるＸ軸、Ｙ軸及びＺ軸加速度を夫々表す。図７及び図８に示す加速度データに対して数式（１）の演算を施すと、図１１及び図１２に示す加速度のスカラーが夫々得られる。第２の認識手法は、静止状態のときに得られる加速度のスカラーＡが小さいことを利用する。例えば、加速度のスカラーＡに閾値を設け、所定の期間内に当該閾値を超えるスカラーＡが得られれば当該期間の動作状態を移動状態として認識可能であり、当該閾値を超える加速度のスカラーＡが得られなければ当該期間の動作状態を静止状態として認識可能である。

その他、文献「K.Ouchi, et al., "LifeMinder: A wearable healthcare support system with timely instruction based on the user's context," IEICE Transactions on Information and Systems, Vol. E87-D, No. 6, pp. 1361-1369, 2004.」、文献「T. Iso, et al., Gait Analyzer based on a Cell Phone with a Single Threeaxis Accelerometer, Proceedings of MobileHCI' 06, pp. 141-144, 2006.」及び文献「池谷他、３軸加速度センサを用いた移動状況推定方式、情報処理学会研究報告 2008-UBI-19(14)、pp. 75-80、2008.」に記載されている既存の動作認識手法も適用可能である。

音情報抽出部１０４は、動作状態認識部１０３が静止状態を認識すると動作を開始する。具体的には、音情報抽出部１０４は音情報入力部１０２から音情報を抽出する。ここで、音情報入力部１０２が電力駆動する構成であれば、音情報抽出部１０４が動作を開始するときに初めて音情報入力部１０２に電力供給が開始されることが望ましい。一方、音情報入力部１０２が電力駆動しない構成であれば、音情報抽出部１０４は動作を開始するまで音情報入力部１０２からの音情報を受理しないことが望ましい。音情報抽出部１０４は、抽出した音情報を特徴抽出部１０５に入力する。音情報抽出部１０４が抽出する音情報は、特徴抽出部１０５による特徴量の分析対象となる。前述したように音情報抽出部１０４は、動作状態が静止状態であるときに音情報を抽出するので、ユーザの動きに伴う雑音の混入の少ないクリアな音情報が特徴抽出部１０５に入力される。

特徴抽出部１０５は、音情報抽出部１０４からの音情報の特徴量を抽出する。特徴抽出部１０５が抽出可能な特徴量は特に限定されないが、例えば周波数解析（ＦＦＴ（Fast Fourier Transform）、ウェーブレット変換等）によって得られる周波数成分毎のパワースペクトル、ラウドネス、シャープネス、ラフネス、変動強度等の音質メトリクス等を含んでよい。また、特徴抽出部１０５による特徴量抽出処理の開始タイミングは任意であるが、例えば特徴量を抽出するために必要最低限のデータ量に相当する音情報を音情報抽出部１０４が抽出した時点が開始タイミングとなる。特徴抽出部１０５による特徴量抽出処理の終了タイミングも任意であるが、例えば静止状態が終了（即ち、音情報抽出部１０４による音情報抽出処理の終了）した時点、後述する判定モードにおいて状況判定部１０８の判定処理が終了した時点、後述する学習モードにおいて状況入力部１０７の入力処理が終了した時点等が終了タイミングとなる。特徴抽出部１０５は、開始タイミングから終了タイミングまでの間に所定の間隔で特徴量抽出処理を行う。

ここで、状況認識装置１００の動作モードは、学習モードと判定モードとを少なくとも含む。学習モードとは、後述する識別モデルを生成し、識別モデル蓄積部１１１に蓄積することを目的とする動作モードである。判定モードとは、学習モードにおいて蓄積された識別モデルと特徴抽出部１０５が抽出した特徴量とを照合して現在の状況を判定することを目的とする動作モードである。学習モードにおいて、特徴抽出部１０５は特徴量を抽出すると、後述する状況入力部１０７が入力する特定の状況に対応付けて識別モデルとして識別モデル蓄積部１１０に蓄積させる。一方、判定モードにおいて、特徴抽出部１０５は特徴量を抽出すると、状況判定部１０８に入力する。

モード切替部１０６は、判定モードと学習モードとの間で状況認識装置１００の動作モードの切替を行う。動作モードの切替を実現するための態様は特に限定されないが、例えばユーザが状況認識装置１００の操作画面またはボタンを介して設定したい動作モードを指定してよい。

状況入力部１０７は、学習モードにおいて、識別モデルのパラメータとして特定の状況を予め入力する。図６の例であれば、状況入力部１０７は、状況認識装置１００が装置１の周辺に位置すること等を入力する。状況入力部１０７は、例えば図１３に示すようなユーザインタフェースを備えてもよい。図１３に示すインタフェースでは、図６の装置１乃至７の各々の周辺に位置することを特定の状況として入力可能であり、学習モードにおいてユーザが適切な装置をプルダウンメニューで選択する。また、特定の装置の周辺で得られる音情報が当該装置の稼働中／非稼働中とで大きく異なる場合には、当該装置の周辺に位置することに加えて当該装置が稼働中であること／非稼働中であることも特定の状況の一パラメータとして入力してもよい。このように、特定の状況は１つのパラメータに限らず２以上のパラメータによって定義されてもよい。図１３に示すインタフェースであれば、例えば操作画面に表示されている登録ボタンの押下によって識別モデルが生成されて識別モデル蓄積部１１０に蓄積される。

状況判定部１０８は、判定モードにおいて、状況認識装置１００の現在の状況を判定する。具体的には、状況判定部１０８は、特徴抽出部１０５からの特徴量を、識別モデル蓄積部１１０から読み出した識別モデルのパラメータとしての特徴量とを比較し、最も類似する特徴量に対応付けられている特定の状況を現在の状況として判定する。ここで、類似の指標（類似度）は任意に定めてよい。例えば、特徴量が周波数成分毎のパワースペクトルであれば、状況判定部１０８は特徴抽出部１０５から入力されるパワースペクトルとの間の差分が最も小さくなるパワースペクトルに対応付けられている特定の状況を現在の状況として判定してもよい。また、状況判定部１０８は、ＭＦＣＣ（Mel-Frequency Cepstrum Coefficient）、隠れマルコフモデル（ＨＭＭ；Hidden Markov Model）等を利用してもよい。

状況判定部１０８の動作タイミングは任意であるが、特徴抽出部１０５が連続動作する場合には状況判定部１０８も並行して連続動作することにより、現在の状況をリアルタイムに判定してもよい。

状況判定部１０８は、判定結果を判定結果出力部１０９に入力する。尚、状況判定部１０８は現在の状況を常に判定しなくてもよい。例えば、特徴抽出部１０５からの特徴量と最も類似する特徴量との間に比較的大きな差異（予め定められた差異）があれば、状況判定部１０８はエラーを示す判定結果を判定結果出力部１０９に入力してもよい。また、エラー判定の基準となる差異の程度は、設計的／実験的に定められてよい。

判定結果出力部１０９は、状況判定部１０８からの判定結果を出力する。判定結果の出力態様は特に限定されないが、判定結果出力部１０９は例えば状況認識装置１００に備えられる画面に判定結果を示すテキストまたは画像を表示したり、無線ＬＡＮのような通信手段を介して外部（例えば、管理棟に設置される端末）に判定結果を示すデータを送信したりする。更に、判定結果出力部１０９は、状況判定部１０８からの判定結果に応じて適切な操作画面または音声アナウンスを自動的に提示してもよい。

識別モデル蓄積部１１０には、状況認識装置１００が認識可能な特定の状況を識別するための識別モデルが蓄積される。識別モデル蓄積部１１０には、前述したように、学習モードにおいて、状況入力部１０７から入力される特定の状況と特徴抽出部１０５から入力される特徴量とが対応付けて蓄積される。そして、識別モデル蓄積部１１０に蓄積されている識別モデルは、判定モードにおいて、状況判定部１０８によって適宜読み出される。

識別モデルは、例えば図１４に示すようなデータセットとして識別モデル蓄積部１１０に蓄積される。図１４のデータセットにおいて、数値１及び数値２は周波数及び当該周波数のパワーを夫々表す。

以下、図５を用いて状況認識装置１００の動作を説明する。
まず、学習モード及び判定モードのいずれにおいても、音情報抽出部１０４は音情報入力部１０２からの音情報の入力をＯＦＦにし（ステップＳ２０１）、処理はステップＳ２０２に進む。

ステップＳ２０２において、動き情報入力部１０１は動き情報を入力する。具体的には、動き情報入力部１０１は状況認識装置１００の３軸加速度を計測する。次に、動作状態に認識部１０３はステップＳ２０２において抽出された動き情報に基づいて状況認識装置１００を携行するユーザの動作状態を認識する。ステップＳ２０３における動作状態の認識結果が所定時間以上連続して静止状態であれば処理はステップＳ２０５に進み、そうでなければ処理はステップＳ２０２に戻る（ステップＳ２０４）。

ステップＳ２０５において、音情報抽出部１０４は音情報入力部１０２からの音情報の入力をＯＮにする。次に、音情報抽出部１０４は音情報入力部１０２から入力される音情報を抽出する（ステップＳ２０６）。次に、特徴抽出部１０５はステップＳ２０６において抽出された音情報の特徴量を抽出する（ステップＳ２０７）。次に、状況認識装置１００の動作モードが学習モードであれば処理はステップＳ２０９に進み、判定モードであれば処理はステップＳ２１０に進む（ステップＳ２０８）。

ステップＳ２０９において、状況入力部１０７は識別モデルのパラメータとなる特定の状況を入力する。次に、識別モデル蓄積部１１０において、ステップＳ２０７において抽出された特徴量と、ステップＳ２０９において入力された特定の状況とが対応付けられ、識別モデルとして蓄積され（ステップＳ２１０）、処理は終了する。

ステップＳ２１１において、状況判定部１０８はステップＳ２０７において抽出された特徴量を、識別モデル蓄積部１１０から読み出した識別モデルと照合し、現在の状況を判定する。次に、判定結果出力部１０９がステップＳ２１１における判定結果を出力し（ステップＳ２１２）、処理は終了する。

以上説明したように本実施形態に係る状況認識装置は、静止状態における音情報を抽出し、特徴量分析に基づく状況認識を行っている。従って本実施形態に係る状況認識装置によれば、ユーザの動きに伴う雑音混入の少ないクリアな音情報を分析対象として利用できるので、低計算量かつ低消費電力で高精度に状況を認識できる。

（第２の実施形態）
図１５に示すように、本発明の第２の実施形態に係る状況認識装置３００は、上記図１に示す状況認識装置１００において、動作状態認識部１０３を動作状態認識部３０３、判定結果出力部１０９を判定結果出力部３０９に夫々置き換え、位置検出部３１１を更に設けている。以下の説明では、図１５において図１と同一部分には同一符号を付して示し、異なる部分を中心に述べる。

位置検出部３１１は、状況認識装置３００の位置情報を検出する。位置検出部３１１は、ＧＰＳ、ビーコン（無線、超音波）、無線電波強度、ＲＦＩＤ技術等を利用して状況認識装置３００の位置情報を検出する。尚、以下の説明において位置検出部３１１が利用する位置検出手法はＧＰＳであるものとする。

ＧＰＳは、周知の通り衛星を利用して測位（緯度及び経度）を行う技術であって、特別な機器を別途設ける必要がないため、導入コストが低く抑えられる利点がある。特に、屋外においてＧＰＳを利用した位置検出は有効である。従って、状況認識装置３００は、屋外においてＧＰＳを利用した位置検出を定期的に行い、屋内のように衛星が見通せない位置において前述した第１の実施形態と同様の状況認識を行うこととする。具体的には、位置検出部３１１が位置検出に成功している期間において動作状態認識部３０３は動作せず、位置検出部３１１による位置検出結果が判定結果出力部３０９を介して出力される。尚、位置検出部３１１による位置検出結果は、状況判定部１０８による状況判定処理に利用されてもよい。例えば、識別モデルのパラメータとして位置情報を特定の状況に対応付けておけば、状況判定部１０８は上記位置検出結果に基づいて現在の状況の判定精度を向上させることができる。尚、特定の状況に対応付けられる位置情報は、学習モードにおいて検出されてもよいし、学習モードを経ずに直接指定されてもよい。

以下、位置検出部３１１による位置検出結果の活用例を紹介する。
図６のような使用環境において、位置検出部３１１は、管理棟から建家Ａに至るまでの期間と、建家Ａから建家Ｂに至るまでの期間と、建家Ｂから建家Ｃに至るまでの期間と、建家Ｃから管理棟に戻るまでの期間とにおける位置情報を検出できるものと想定される。従って、位置検出部３１１の最新の位置検出結果を利用すれば、状況判定部１０８が照合対象とする識別モデルを絞り込んで計算量を削減したり、特定の識別モデルの優先度を高くして状況認識精度を向上させたりすることができる。具体的には、位置検出部３１１の最新の（最も遅い）位置検出結果が建家Ａの入り口周辺であれば、状況判定において状況判定部１０８は装置１及び装置２に関する識別モデルを照合の対象として絞り込んだり、他の装置に関する識別モデルに比べて高い類似度を与えたりすればよい。

また、何らかの原因で位置情報が正しく検出されなかったため、最新の位置検出結果が建家Ｂの入り口周辺であるにも関わらず、装置３、装置４及び装置５に関する識別モデルの特徴量と特徴抽出部１０５が現在抽出している特徴量とが大きく異なる場合も想定される。このような場合には、状況判定部１０８は最新の位置検出結果が得られてからの経過時間、点検作業のルート等に基づいて現在位置が建家Ｃ内であることを推定し、装置６及び装置７に関する識別モデルを照合の対象に加えたり、他の装置に関する識別モデルに比べて高い類似度を与えたりしてもよい。

一方、最新の位置検出結果が得られてからの経過時間が比較的短いにも関わらず、当該位置検出結果に基づき特定される建家内の装置に関する識別モデルの特徴量と特徴抽出部１０５が現在抽出している特徴量とが大きく異なる場合には、ユーザが倒れている、ルートを誤っている、装置が異常音を発している等の状況が考えられるため状況判定部１０８は現在の状況が異常であることを判定してもよい。

以下、図１６を用いて状況認識装置３００の動作を説明する。
まず、学習モード及び判定モードのいずれにおいても、音情報抽出部１０４は音情報入力部１０２からの音情報の入力をＯＦＦにし（ステップＳ４０１）、処理はステップＳ４０２に進む。

ステップＳ４０２において、位置検出部３１１が状況認識装置３００の位置情報を検出可能であれば処理はステップＳ４０３に進み、そうでなければ処理はステップＳ４０４に進む。ステップＳ４０３において、位置検出部３１１は状況認識装置３００の位置情報を検出し、処理はステップＳ４０２に戻る。

ステップＳ４０４において、動き情報入力部１０１は動き情報を入力する。具体的には、動き情報入力部１０１は状況認識装置３００の３軸加速度を計測する。次に、動作状態に認識部３０３はステップＳ４０４において抽出された動き情報に基づいて状況認識装置３００を携行するユーザの動作状態を認識する。ステップＳ４０５における動作状態の認識結果が所定時間以上連続して静止状態であれば処理はステップＳ４０７に進み、そうでなければ処理はステップＳ４０２に戻る。

ステップＳ４０７において、音情報抽出部１０４は音情報入力部１０２からの音情報の入力をＯＮにする。次に、音情報抽出部１０４は音情報入力部１０２から入力される音情報を抽出する（ステップＳ４０８）。次に、特徴抽出部１０５はステップＳ４０８において抽出された音情報の特徴量を抽出する（ステップＳ４０９）。次に、状況認識装置３００の動作モードが学習モードであれば処理はステップＳ４１１に進み、判定モードであれば処理はステップＳ４１２に進む（ステップＳ４１０）。

ステップＳ４１１において、状況入力部１０７は識別モデルのパラメータとなる特定の状況を入力する。次に、識別モデル蓄積部１１０において、ステップＳ４０９において抽出された特徴量と、ステップＳ４１１において入力された特定の状況とが対応付けられ、識別モデルとして蓄積され（ステップＳ４１２）、処理は終了する。

ステップＳ４１３において、状況判定部１０８はステップＳ４０９において抽出された特徴量を、識別モデル蓄積部１１０から読み出した識別モデルと照合し、現在の状況を判定する。次に、判定結果出力部１０９がステップＳ４１３における判定結果を出力し（ステップＳ４１４）、処理は終了する。

以上説明したように、本実施形態に係る状況認識装置は、音情報だけでなく位置検出結果を利用して状況認識を行っている。従って、本実施形態に係る状況認識装置によれば、前述した第１の実施形態に係る状況認識装置に比べて更に低計算量かつ高精度に状況を認識できる。

尚、本実施形態において特定の位置を基準とした高度を検出可能な高度検出部が更に設けられてもよい。例えば、気圧センサを利用する場合には点検作業のスタート時点における管理棟出口の気圧を基準値とすることにより、相対的な高度を検出できる。高度検出部を設ければ、平面位置のみならず高度（建屋内のフロア）も利用できるため、本実施形態に係る状況認識装置の計算量を更に削減し、状況認識の精度を更に向上させることができる。また、ある状況（例えば装置１周辺に位置すること）から別の状況（例えば装置２周辺に位置すること）に至るまでの移動時間、歩数等の移動情報や動作認識結果（例えば、動作状態の遷移）も状況判定に利用されてもよい。

（第３の実施形態）
図１７に示すように、本発明の第３の実施形態に係る状況認識システムは、端末５００及びサーバ６００で構成される。以下の説明では、図１７において図１５と同一部分には同一符号を付して示し、異なる部分を中心に述べる。

端末５００は、動き情報入力部１０１、音情報入力部１０２、動作状態認識部３０３、音情報抽出部１０４、判定結果出力部３０９、位置検出部３１１及び通信部５１２を有する。端末５００は、前述した状況認識装置１００及び状況認識装置３００と同様にユーザが携行するものとする。サーバ６００は、特徴抽出部１０５、モード切替部１０６、状況判定部１０８、識別モデル蓄積部１１０及び通信部６１３を有する。通信部５１２及び通信部６１３を介して端末５００とサーバ６００との間で適宜無線通信が行われる。

以上説明したように、本実施形態に係る状況認識システムは、端末が動き情報、音情報、位置情報等を抽出し、サーバが状況認識処理を行っている。従って、本実施形態に係る状況認識システムによれば、消費電力及び計算量の負担の大きい状況認識処理をサーバに行わせるため、ユーザに携行させる端末に要求される演算処理性能やバッテリ性能を低く抑えることができる。

尚、本発明は上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また上記各実施形態に開示されている複数の構成要素を適宜組み合わせることによって種々の発明を形成できる。また例えば、各実施形態に示される全構成要素からいくつかの構成要素を削除した構成も考えられる。さらに、異なる実施形態に記載した構成要素を適宜組み合わせてもよい。

１００・・・状況認識装置
１０１・・・動き情報入力部
１０２・・・音情報入力部
１０３・・・動作状態認識部
１０４・・・音情報抽出部
１０５・・・特徴抽出部
１０６・・・モード切替部
１０７・・・状況入力部
１０８・・・状況判定部
１０９・・・判定結果出力部
１１０・・・識別モデル蓄積部
３００・・・状況認識装置
３０３・・・動作状態認識部
３０９・・・判定結果出力部
３１１・・・位置検出部
５００・・・端末
５１２・・・通信部
６００・・・サーバ
６１３・・・通信部

Claims

対象物の動き情報を入力する第１の入力部と、
前記対象物の周囲の音情報を入力する第２の入力部と、
前記動き情報に基づいて前記対象物の動作状態を認識する認識部と、
前記動作状態に基づいて選択的に前記音情報を抽出する第１の抽出部と、
前記第１の抽出部が抽出した音情報から第１の特徴量を抽出する第２の抽出部と、
前記第２の抽出部が前記第１の特徴量よりも以前に抽出した第２の特徴量と予め入力された特定の状況とが対応付けられているモデルが蓄積される蓄積部と、
前記第１の特徴量と最も類似する第２の特徴量に対応付けられる特定の状況を、前記対象物の現在の状況として判定する判定部と、
前記現在の状況を出力する出力部と、
第１のモードと第２のモードとの間で動作モードを切り替える切替部と、
前記第２のモードにおいて前記特定の状況を入力する第３の入力部と
を具備し、
前記第２の抽出部は、前記第１のモードにおいて前記第１の特徴量を抽出し、前記第２のモードにおいて前記第２の特徴量を抽出して前記第３の入力部が入力する特定の状況と対応付けて前記モデルとして前記蓄積部に蓄積し、
前記第２のモードにおいて前記第３の入力部が入力する特定の状況の少なくとも一部は、前記対象物が特定の装置の周辺に位置することを示すパラメータによって定義される、
ことを特徴とする状況認識装置。
前記特定の状況の少なくとも一部は、前記対象物が前記特定の装置の周辺に位置することを示すパラメータに加えて当該特定の装置が稼働中または非稼働中であることを示すパラメータによって定義されることを特徴とする請求項１記載の状況認識装置。
前記第２の抽出部は、前記第１の特徴量を抽出するために必要最低限なデータ量に相当する音情報を前記第１の抽出部が抽出した時点から前記第１の特徴量の抽出を開始することを特徴とする請求項１または２記載の状況認識装置。
前記対象物の位置情報を検出する位置検出部を更に具備し、
前記モデルは、前記第２の特徴量及び当該第２の特徴量が抽出される以前に検出された位置情報と、前記特定の状況とが対応付けられていることを特徴とする請求項１乃至３のいずれか１項記載の状況認識装置。
前記モデルは、前記第２の特徴量及び当該第２の特徴量が抽出される以前において最も遅く検出された位置情報と、前記特定の状況とが対応付けられていることを特徴とする請求項４記載の状況認識装置。
前記モデルは、前記特定の状況と、前記第２の特徴量及び当該特定の状況に至るまでに前記認識部によって認識された動作状態とが対応付けられていることを特徴とする請求項１乃至５のいずれか１項記載の状況認識装置。
前記判定部は、前記位置検出部が最も遅く検出した位置情報に基づき候補となるモデルを絞り込み、前記候補となるモデルに含まれる第２の特徴量のいずれとも前記第１の特徴量が類似しない場合には現在の状況が異常であることを判定することを特徴とする請求項１乃至６のいずれか１項記載の状況認識装置。
前記対象物の高度情報を検出する高度検出部を更に具備し、
前記モデルは、前記第２の特徴量及び当該第２の特徴量が抽出される以前において最も遅く検出された高度情報と、前記特定の状況とが対応付けられていることを特徴とする請求項１乃至７のいずれか１項記載の状況認識装置。
対象物の動き情報を入力することと、
前記対象物の周囲の音情報を入力することと、
前記動き情報に基づいて前記対象物の動作状態を認識することと、
第１の抽出部が、前記動作状態に基づいて選択的に前記音情報を抽出することと、
第２の抽出部が、前記第１の抽出部が抽出した音情報から第１の特徴量を抽出することと、
前記第２の抽出部が前記第１の特徴量よりも以前に抽出した第２の特徴量と予め入力された特定の状況とが対応付けられているモデルを蓄積部に蓄積することと、
前記第１の特徴量と最も類似する第２の特徴量に対応付けられる特定の状況を、前記対象物の現在の状況として判定することと、
前記現在の状況を出力することと
第１のモードと第２のモードとの間で動作モードを切り替えることと、
前記第２のモードにおいて前記特定の状況を入力することと
を具備し、
前記第２の抽出部は、前記第１のモードにおいて前記第１の特徴量を抽出し、前記第２のモードにおいて前記第２の特徴量を抽出して入力される特定の状況と対応付けて前記モデルとして前記蓄積部に蓄積し、
前記第２のモードにおいて入力される特定の状況の少なくとも一部は、前記対象物が特定の装置の周辺に位置することを示すパラメータによって定義される、
ことを特徴とする状況認識方法。