JP5001930B2

JP5001930B2 - 動作認識装置及び方法

Info

Publication number: JP5001930B2
Application number: JP2008297598A
Authority: JP
Inventors: 俊彦森田; 真司神田; 直之沢崎; 章博今井; 岳今井; 雅幸稲葉; 慧岡田
Original assignee: Fujitsu Ltd; University of Tokyo NUC
Current assignee: Fujitsu Ltd; University of Tokyo NUC
Priority date: 2008-11-21
Filing date: 2008-11-21
Publication date: 2012-08-15
Anticipated expiration: 2028-11-21
Also published as: JP2010123019A

Description

本発明は、人物の動作を認識する動作認識装置及び方法に関する。

近年、人物の行動やスケジュールを管理して生活を支援するロボットが提案されている。例えば、人物の行為を認識し、不適切な行動を指摘したり、適切な行動を促したりするロボットである。

映像による人物の行為認識技術としては、人物の動きのパターンや姿勢に基づいて動作要素を抽出し、動作要素の出現頻度により「食べる」、「飲む」等の行為を認識する方法が知られている。この場合、例えば、画像に含まれる色情報を基に肌色（顔、手、足）や衣服の色を抽出し、これを基に姿勢・動き情報が抽出される。

また、画像中のある領域が顔領域か否かを判定する顔画像判定方法も知られている。
さらに、時系列の低解像度画像から移動領域の高解像度映像を抽出する方法や、中心部の解像度が高い特殊なレンズも知られている。
特開２００５−２１５９２７号公報特開２００５−２８４３４８号公報特開２００７−０００２０５号公報 Active Stereo Vision System with Foveated Wide Angle Lenses, Y. Kuniyoshi, N. Kita, S. Rougeaux and T. Suehiro, Proc. of Asian Conf. on Computer Vision (1995), pp. 359-363.

上述した従来の行為認識技術には、次のような問題がある。
色情報を基に姿勢・動き情報を抽出する方法では、衣服の色や照明の状況等の条件が悪いと、色情報で顔領域とその他の領域とを区別することが困難な場合がある。この場合、画像中で人物の腕領域等を特定することができず、姿勢・動き情報を正確に抽出することができない。

本発明の課題は、映像による人物の行為認識において、色情報で顔領域とその他の領域とを区別することが困難な場合でも、人物の動作を認識できるようにすることである。

開示の動作認識装置は、第１及び第２の撮像手段、視差計算手段、検出手段、及び認識手段を備える。
第１及び第２の撮像手段は、人物を撮像する。視差計算手段は、第１及び第２の撮像手段の各々により得られた画像を複数の小領域に分割し、人物の同じ部分を撮像したものと認識した、それぞれの画像の小領域同士を対応付ける。そして、対応付けられた２つの小領域の対応点の距離を視差として計算する。

検出手段は、人物の顔を撮像したものと認識した顔領域の視差と、人物の顔以外の肌色部分を撮像したものと認識した肌色領域の視差とを比較する。そして、顔領域との距離が第１の閾値より小さく、かつ、顔領域との視差の差が第２の閾値より小さい肌色領域を、腕領域として検出する。

認識手段は、顔領域に対する腕領域の相対的な位置、及び、顔領域の視差と腕領域の視差の差に基づいて、人物の腕の動作を認識する。
第１及び第２の撮像手段は、人物の画像を視差計算手段に出力し、視差計算手段は、対応付けられた小領域の対応点の距離を視差として、検出手段及び認識手段に出力する。検出手段は、顔領域及び腕領域の情報を認識手段に出力し、認識手段は、認識された動作の情報を出力する。

第１及び第２の撮像手段の画像を併用することで、それぞれの小領域の視差を求めることができる。また、顔領域と肌色領域の視差の差が小さければ、画像の奥行き方向における顔と肌色部分の距離が小さいと考えられる。したがって、顔領域の視差と肌色領域の視差を比較することで、奥行き位置の離れた別人等の肌色領域を除外して、同一人物の腕領域に相当する肌色領域を検出することができる。

開示の動作認識装置によれば、映像による人物の行為認識において、色情報で顔領域とその他の領域とを区別することが困難な場合でも、腕領域を特定して人物の腕の動作を認識することができる。

以下、図面を参照しながら、最良の実施形態を詳細に説明する。
図１は、実施形態の動作認識装置の構成例を示している。図１の動作認識装置は、広視野撮影部１０１、高解像度撮影部１０２、動き／顔検知部１０３、注視点制御部１０４、姿勢推定部１０５、及び行為認識部１０６を備える。

広視野撮影部１０１は、人物、物体等の対象物を含む広域の映像を撮影し、動き／顔検知部１０３は、撮影した映像から人物の動きや顔を検知する。注視点制御部１０４は、高解像度撮影部１０２の注視点を注目する対象物に合わせる制御を行い、高解像度撮影部１０２は、注視点周辺の映像を高解像度で撮影する。姿勢推定部１０５は、高解像度撮影部１０２により撮影された映像から人物の姿勢を推定し、行為認識部１０６は、推定された姿勢から人物の行為を特定する。

広視野撮影部１０１及び高解像度撮影部１０２により撮影された映像には、時系列の画像が含まれる。広視野撮影部１０１及び高解像度撮影部１０２の構成としては、例えば、以下のようなものが用いられる。
（１）広視野撮影用カメラ及び高解像度撮影用カメラの２種類のカメラを設ける。
（２）中心部の解像度が高い特殊なレンズにより、広視野及び高解像度の映像を同時に撮影可能なカメラを使用する。
（３）ズーム機能を持つカメラにより同一のカメラで広視野映像と高解像度映像の撮影を行う。ただし、この場合、広視野映像と高解像度映像を同時に参照することはできない。（４）広視野映像と高解像度映像を撮影可能なカメラを使用した場合でも、それらの映像をリアルタイムで画像処理できないときは、縮小して解像度を落とした広域映像と、縮小しない部分映像とを利用する。
（５）広視野撮影用カメラと、超解像技術による注目点の高解像度映像を利用する。超解像技術としては、例えば、時系列の低解像度画像から移動領域の高解像度映像を抽出する方法を用いることができる。

広視野撮影部１０１による広視野映像を利用することで、広域で起こっている現象を把握することができ、高解像度撮影部１０２による高解像度映像を利用することで、人物の行為及びその対象物を精度良く識別することができる。

動き／顔検知部１０３は、画像から対象物の色情報等を抽出することで対象物の大まかな動きを検知し、肌色抽出、顔画像判定等の方法により、画像から人物の顔領域等を抽出する。

注視点制御部１０４は、動き／顔検知部１０３から注視すべき対象物の大まかな動きを示す情報を取得し、対象物の色情報や、対象物の動きを示すベクトル情報であるオプティカルフロー等を用いて、最終的に対象物を高解像度撮影部１０２の視野に捕捉する。

例えば、注視している人物が高解像度撮影部１０２の視野から外れた際に、広視野撮影部１０１で注視点周辺の物体の動き情報（例えば、オプティカルフロー）を取得する。そして、高解像度撮影部１０２の注視点を動きに合わせて移動させることにより、継続的に人物の高解像度画像と周辺の物体との相対位置情報を得ることができる。

姿勢推定部１０５は、人物の姿勢として、例えば、人物の向きと手や腕の位置を推定する。高解像度撮影部１０２としてステレオカメラを用いた場合は、ステレオ視による３次元計測により人物の姿勢を推定する。高解像度で撮影する場合は２台のカメラの各々の視野が狭くなり、３次元計測可能なステレオカメラの映像の重なりが限定されるため、必要に応じて各カメラの輻輳制御を行う。

高解像度カメラは視野が狭いため、３次元計測において通常の視差による位置計算を行う場合、輻輳制御の精度の影響が大きく、キャリブレーションも困難である。一方、人物の行為を認識する場合に必要となるのは、人物の姿勢や、腕の位置、周辺の物体との相対的な位置関係であり、人物や物体の絶対的な位置ではない。

そこで、姿勢推定部１０５は、３次元の絶対位置を計算する代わりに、注視点付近での相対距離を測定するために、各カメラのステレオ特徴点の相対視差に注目し、注視点付近での相対的な位置関係を取得する。

これにより、各カメラが目標物を視野に捕らえてさえいれば、輻輳制御の精度やキャリブレーションによる影響を受けることなく、人物の姿勢を推定することが可能になる。また、絶対位置を計算するために必要であったキャリブレーションそのものも不要になる。

行為認識部１０６は、人物の姿勢の時系列情報のパターン等に基づいて、人物の行為を認識する。行為によっては、行為対象を識別する必要がある。そこで、姿勢の時系列情報に加えて、周囲の状況や対象物の詳細映像等を用いることで、詳細な行為を認識する。

例えば、「薬を飲む」行為を認識する場合には、「飲む」動作のパターンを認識した際に、直前に手が触れた物体を高解像度で撮影し、薬の容器であることが認識できればよい。また、「扉を開ける」行為を認識する場合には、腕や手の動作パターンと同時に、広域の映像で、扉が開いたことをオプティカルフローのパターン等により認識できればよい。

このような動作認識装置によれば、広視野映像と部分的な高解像度映像を同時に利用し、人物の姿勢の履歴と周囲の状況等により、柔軟な行為認識が可能になる。また、人物と周辺の物体との相対的な位置関係を測定することにより、高精度な輻輳制御やキャリブレーションが不要になる。さらに、輻輳制御を採用することで３次元計測可能な範囲が拡大し、動きに強い認識処理が実現される。

図２は、図１の動作認識装置のより具体的な構成例を示している。図２の動作認識装置は、カメラヘッド２０１、パン・チルト制御モータ２０２、カメラ制御装置２０３、画像処理装置２０４、行為推定装置２０５、及びホスト装置２０６を備える。カメラヘッド２
０１は、高解像度カメラ２１１、２１３、輻輳制御モータ２１２、２１４、及び広視野カメラ２１５を含む。

広視野カメラ２１５は、図１の広視野撮影部１０１に対応し、高解像度カメラ２１１及び２１３は、高解像度撮影部１０２に対応する。画像処理装置２０４及び行為推定装置２０５は、動き／顔検知部１０３、姿勢推定部１０５、及び行為認識部１０６に対応し、カメラ制御装置２０３及びホスト装置２０６は、注視点制御部１０４に対応する。

パン・チルト制御モータ２０２は、カメラ制御装置２０３により駆動され、カメラヘッド２０１にパン・チルト動作を行わせる。カメラヘッド２０１全体がパン・チルト動作を行うことで、撮影方向が変化する。なお、パン・チルト動作が不要な場合には、パン・チルト制御モータ２０２を省略してもよい。

高解像度カメラ２１１及び２１３は、例えば、両方で１台のステレオカメラを構成し、輻輳制御モータ２１２及び２１４は、カメラ制御装置２０３により駆動され、高解像度カメラ２１１及び２１３に輻輳運動を行わせる。

画像処理装置２０４は、広視野カメラ２１５及び高解像度カメラ２１１、２１３により撮影された映像に含まれる画像から、対象物の色やオプティカルフロー等の画像情報を抽出し、行為推定装置２０５に出力する。

行為推定装置２０５は、画像処理装置２０４からの画像情報をホスト装置２０６に出力するとともに、その画像情報を用いて対象物の大まかな動きを検知し、人物の顔領域、腕領域等を抽出する。そして、抽出された顔領域、腕領域等を用いて人物の姿勢を推定し、推定された姿勢から行為を認識して、認識結果をホスト装置２０６に出力する。

ホスト装置２０６は、行為推定装置２０５からの画像情報に基づいて、パン・チルト動作及び輻輳制御をカメラ制御装置２０３に指示し、カメラ制御装置２０３は、その指示に従って、輻輳制御モータ２１２、２１４及びパン・チルト制御モータ２０２を駆動する。また、ホスト装置２０６は、行為推定装置２０５に対して行為認識開始を指示し、行為推定装置２０５から認識結果を受け取る。

カメラ制御装置２０３、画像処理装置２０４、行為推定装置２０５、及びホスト装置２０６としては、例えば、情報処理装置（コンピュータ）が用いられる。また、これらの装置の全部を１つの情報処理装置を用いて実現することも可能である。

この場合、広視野カメラ２１５及び高解像度カメラ２１１、２１３により取得された映像データや、対象物の色やオプティカルフロー等の画像情報は、処理対象のデータとしてメモリに格納される。

図３は、高解像度カメラ２１１及び２１３の配置例を示している。図３では、左カメラ３１２及び右カメラ３２２が高解像度カメラ２１１及び２１３にそれぞれ対応する。輻輳制御は、左カメラ３１２及び右カメラ３２２の各々が垂直軸周りに回転する運動の制御である。高解像度で対象人物３０１を撮影する場合、３次元計測のために必要な左カメラ３２１及び右カメラ３２２の映像の重なりを確保するために、左カメラ３２１及び右カメラ３２２の輻輳制御が個別に行われる。

図４は、図３の配置における相対視差の概念を示している。左カメラ３２１及び右カメラ３２２が人物３０１を撮影するとき、左カメラ３２１は画像４０１を取得し、右カメラ３２２は画像４０２を取得する。画像４０１及び４０２には、人物３０１の顔３１１、右
腕３１２、及び左腕３１３の画像が含まれている。

画像４０１及び４０２の水平方向をｘ軸とし、垂直方向をｙ軸とすると、３次元空間内の１点が両カメラで撮影されたとき、その点の相対視差は、例えば、次式で定義される。

相対視差＝左カメラのｘ座標−右カメラのｘ座標（１）

輻輳制御では垂直軸周りの回転運動しか行われないため、ｙ座標に関しては視差は生じない。

図４に示すように、画像４０１及び４０２のｘ座標を仮に０、１、２、及び３と定義すると、点４１１、４１２、４１３、及び４１４の相対視差はそれぞれ０、１、２、及び３となる。また、点４２１、４２２、４２３、４２４、４３１、４３２、４３３、４４１、及び４４２の相対視差はそれぞれ−１、０、１、２、−１、０、１、−１、及び０となる。したがって、左カメラ３２１及び右カメラ３２２に近い点ほど相対視差が大きくなり、左カメラ３２１及び右カメラ３２２から遠い点ほど相対視差が小さくなることが分かる。

また、点４１２、４２３、及び４３３のように、画像４０１及び４０２の奥行き方向の位置が近い点同士の相対視差の差は小さいか又は０であり、点４１２及び４３１のように、奥行き方向の位置が離れている点同士の相対視差の差は大きい。したがって、顔３１１、右腕３１２、及び左腕３１３の相対視差同士を比較することで、これらの部分の奥行き方向の相対的な位置関係を判定することができる。

図５は、カメラ制御装置２０３及びホスト装置２０６による注視点制御処理の例を示すフローチャートである。人物３０１等の対象物を左カメラ３２１及び右カメラ３２２で撮影している状態において（ステップ５０１）、ホスト装置２０６は、対象物の色情報に基づいて左カメラ３２１が対象物を捕捉しているか否かをチェックする（ステップ５０２）。

左カメラ３２１が対象物を捕捉していなければ（ステップ５０２，ＮＯ）、行為推定装置２０５を介して画像処理装置２０４にオプティカルフローの計算を指示する。画像処理装置２０４は、広視野カメラ２１５の広域映像を用いて対象物のオプティカルフローを計算し、行為推定装置２０５を介してホスト装置２０６に出力する（ステップ５０３）。

ホスト装置２０６は、カメラ制御装置２０３を介してカメラヘッド２０１のパン・チルト制御を行うことで、オプティカルフローが示す方向に視線を動かしながら、左カメラ３２１で対象物を探索する（ステップ５０４）。そして、ステップ５０２以降の処理を繰り返す。

一方、左カメラ３２１が対象物を捕捉していれば（ステップ５０２，ＹＥＳ）、ホスト装置２０６は、対象物の色情報に基づいて右カメラ３２２が対象物を捕捉しているか否かをチェックする（ステップ５０５）。

右カメラ３２２が対象物を捕捉していなければ（ステップ５０５，ＮＯ）、カメラ制御装置２０３を介して右カメラ３２２の輻輳制御を行うことで、水平方向に右カメラ３２２の視線を動かしながら、右カメラ３２２で対象物を探索する（ステップ５０６）。そして、ステップ５０５以降の処理を繰り返す。

一方、右カメラ３２２が対象物を捕捉していれば（ステップ５０５，ＹＥＳ）、ステップ５０１以降の処理を繰り返す。
このような注視点制御処理を継続することで、対象物を左右のカメラで常に捕捉することができる。なお、図５の注視点制御処理では、パン・チルト制御のために左カメラ３２１の映像を用い、輻輳制御のために右カメラ３２２の映像を用いているが、左カメラ３２１と右カメラ３２２の制御順序を入れ替えても構わない。

図６は、図２の動作認識装置による動作認識処理の例を示すフローチャートである。動作認識装置は、図５に示した注視点制御処理を行って、対象人物を左カメラ３２１及び右カメラ３２２の視野に捕らえる（ステップ６０１）。次に、行為推定装置２０５は、ステップ６０１〜６０６の処理を行う。

行為推定装置２０５は、まず、ステレオマッチングにより、左カメラ３２１の画像と右カメラ３２２の画像の対応点を探索する（ステップ６０２）。ここでは、例えば、左カメラ３２１及び右カメラ３２２の各画像を複数の小領域に分割し、それぞれの画像の小領域同士の相関を求める。そして、相関の高い小領域同士を同じ部分を撮像したものと認識し、それらの小領域同士を対応付ける。そして、対応付けられた２つの小領域内のそれぞれの対応点（対応画素）について（１）式により相対視差を計算し、メモリに格納する。小領域の形状としては、例えば、一定数の画素からなる矩形が用いられる。

次に、左カメラ３２１又は右カメラ３２２のいずれかの画像を用いて、人物の顔領域及び腕領域（又は手領域）を特定する（ステップ６０３）。以下では、手領域の場合も含めて腕領域と記載することにする。

ここでは、例えば、肌色抽出により人物の肌色部分の領域（肌色領域）を抽出し、顔画像判定により人物の顔領域を抽出する。そして、抽出された顔領域に含まれる点の相対視差の平均値（平均視差）と、それぞれの肌色領域の平均視差とを比較し、顔領域の周辺で顔領域の平均視差に近い平均視差を有する肌色領域を腕領域として検出する。

例えば、顔領域及び各肌色領域の重心座標を計算し、顔領域の重心と肌色領域の重心の距離を計算し、その距離が閾値より小さければ、その肌色領域は顔領域の周辺にあると判定される。また、顔領域の平均視差と肌色領域の平均視差の差を計算し、その差が閾値より小さければ、その肌色領域の視差は顔領域の視差に近いと判定される。こうして抽出された顔領域及び腕領域の情報は、メモリに格納される。

次に、顔領域の幅、高さ、及び視差のばらつきの範囲を計算し（ステップ６０４）、各腕領域の顔領域に対する相対的な位置関係を推定する（ステップ６０５）。ここでは、例えば、以下のような手順で位置関係が推定される。
１．顔領域の重心座標（ｆｘ、ｆｙ）、顔領域の幅ｆｗ及び高さｆｈ、顔領域の平均視差ｆｍｄ、及び視差のばらつきの範囲ｆｄｄを計算する。視差のばらつきの範囲は、顔領域内の視差の最大値と最小値の差として求められる。このとき、外れ値を除く等、誤差の考慮を行ってもよい。
２．未処理の腕領域を１つ選択する。
３．腕領域の重心座標（ａｘ，ａｙ）及び腕領域の平均視差ａｍｄを計算する。
４．左右の位置関係の判定（αは正の定数）
ｆｘ−ａｘ＜−α×ｆｗであれば、腕領域は顔領域より右にあると判定する。
ｆｘ−ａｘ＞α×ｆｗであれば、腕領域は顔領域より左にあると判定する。
−α×ｆｗ≦ｆｘ−ａｘ≦α×ｆｗであれば、腕領域は顔領域の中央にあると判定する。
５．上下の位置関係の判定（βは正の定数）
ｆｙ−ａｙ＜−β×ｆｈであれば、腕領域は顔領域より上にあると判定する。
ｆｙ−ａｙ＞β×ｆｈであれば、腕領域は顔領域より下にあると判定する。
−β×ｆｈ≦ｆｙ−ａｙ≦β×ｆｈであれば、腕領域は顔領域の中央にあると判定する。
６．奥行きの位置関係の判定（γは正の定数）
ｆｍｄ−ａｍｄ＜−γ×ｆｄｄであれば、腕領域は顔領域より手前にあると判定する。
ｆｍｄ−ａｍｄ＞γ×ｆｄｄであれば、腕領域は顔領域より奥にあると判定する。
−γ×ｆｄｄ≦ｆｍｄ−ａｍｄ≦γ×ｆｄｄであれば、腕領域は顔領域の中央にあると判定する。
７．別の腕領域（又は手領域）について上記３〜６の処理を行ってもよい。

このような位置関係推定処理によれば、簡単なパラメータを計算するだけで顔と腕の相対位置を推定することができる。また、シミュレーション等に基づいて適切なα、β、及びγの値を設定することで、閾値−α×ｆｗ、α×ｆｗ、−β×ｆｈ、β×ｆｈ、−γ×ｆｄｄ、及びγ×ｆｄｄを調整し、推定精度を向上させることが可能になる。

なお、顔領域、肌色領域、及び腕領域の平均視差の代わりに、加重平均等の別の統計演算により求めた視差を用いてもよい。
腕領域の顔領域に対する相対的な位置関係が推定されると、次に、腕の位置の時系列情報と人物周辺の物体等の状況から、人物の行為を推定する（ステップ６０６）。ここでは、例えば、腕領域の顔領域に対する相対的な位置を時系列にメモリに記録して、記録された時系列情報と予め登録された動作パターンを照合することで、人物の行為を認識する。

例えば、薬を飲む行為における腕の動作パターンとしては、手が薬→口→コップ→口の順に移動するパターンが考えられる。この場合、行為推定装置２０５の格納装置には、図７に示すような認識テーブルが動作パターンとして登録され、図８に示すような物体テーブルが物体の位置として登録される。

図７の認識する行為の段階は、行為に含まれるそれぞれの動作の時間的な前後関係を表し、腕の位置は、図６のステップ６０５で説明した相対的な位置関係として定義される位置を表す。例えば、“中央／中央／中央”は、左右、上下、及び奥行きの３方向において、腕が顔の位置（口の位置）にあることを示している。

また、“薬”及び“コップ”は、図８の物体テーブルにより定義される物体の位置を示している。この例では、薬は“右／下／手前”の位置、つまり、顔より右、顔より下、かつ顔より手前の位置にあり、コップは“中央／下／手前”の位置、つまり、左右方向では顔と一致し、顔より下かつ顔より手前の位置にある。これらの物体の位置は、広視野カメラ２１５の映像、事前知識、過去の映像履歴、又はその他のセンサ情報により、予め取得されているものとする。図８のテーブルは、物体の位置に応じて随時更新することも可能である。

図７の所要時間は、各段階における腕の位置が継続する時間を表す。例えば、腕が薬の位置にある時間は２秒に設定され、薬からコップまで移動する時間は３秒に設定される。
薬を飲む行為をモデルケースとして撮影した映像から図６の動作認識処理により推定した相対的な位置を時系列に記録し、記録された位置と行為の各段階を対応付けることで、図７の動作パターンの情報を生成することも可能である。

図９は、認識テーブル及び物体テーブルを用いた行為認識処理の例を示すフローチャートである。行為推定装置２０５は、まず、認識する行為の段階を０に初期化し（ステップ
９０１）、現在の段階の腕の位置を認識テーブルから取得する（ステップ９０２）。取得した位置が物体である場合は、その物体の位置を物体テーブルから取得する（ステップ９０３）。

次に、図６のステップ６０１〜６０５の処理により人物の姿勢を推定し（ステップ９０５）、推定された腕の位置が取得した腕の位置と一致するか否かをチェックする（ステップ９０６）。

推定された腕の位置が取得した腕の位置と一致すれば（ステップ９０６，ＹＥＳ）、現在の段階を１だけインクリメントして（ステップ９０７）、現在の段階が終了段階に達したか否かをチェックする（ステップ９０８）。図７の場合は、段階“５”が終了段階に対応する。現在の段階が終了段階に達していなければ（ステップ９０８，ＮＯ）、現在の時刻を記録して（ステップ９０９）、ステップ９０２以降の処理を繰り返す。

一方、推定された腕の位置が取得した腕の位置と一致しなければ（ステップ９０６，ＮＯ）、現在の段階の所要時間を認識テーブルから取得し、現在の段階になってから所要時間以上経過しているか否かをチェックする（ステップ９１０）。

所要時間以上経過していなければ（ステップ９１０，ＮＯ）、ステップ９０３以降の処理を繰り返し、所要時間以上経過していれば（ステップ９１０，ＹＥＳ）、ステップ９０１以降の処理を繰り返す。

そして、現在の段階が終了段階に達すると（ステップ９０８，ＹＥＳ）、処理を終了する。このとき、認識テーブルに登録された動作パターンの行為が認識結果として、ホスト装置２０６に出力される。図７の場合は、薬を飲む行為が認識結果として出力される。

図１及び図２の動作認識装置は、例えば、人物の行為を認識し生活を支援する生活支援ロボットに適用することができる。これにより、対象人物が薬を飲む行為を認識し、薬の重複服用や服用忘れを防止する支援を行う等のサービスを提供することが可能になる。

なお、薬を飲む行為は認識対象の一例に過ぎず、認識テーブル及び物体テーブルの内容を変更することで、様々な行為の動作パターンを定義することができる。動作認識装置には、アプリケーションに応じて１つ又は複数の動作パターンが予め登録される。

さらに、腕の動作パターンに加えて、人物の周辺における物体の移動を検出することで、認識対象の範囲を拡大することも可能である。例えば、扉又は家具を開閉する行為を認識する場合には、広域映像を用いて扉又は家具のオプティカルフローを計算し、予め登録されたオプティカルフローのパターンと照合することにより、その開閉を検出することができる。

図２のカメラ制御装置２０３、画像処理装置２０４、行為推定装置２０５、及びホスト装置２０６は、例えば、図１０に示すような情報処理装置を用いて実現することが可能である。図１０の情報処理装置は、Central Processing Unit（ＣＰＵ）１００１、メモリ１００２、入力装置１００３、出力装置１００４、外部記憶装置１００５、媒体駆動装置１００６、及びネットワーク接続装置１００７を備え、それらはバス１００８により互いに接続されている。

メモリ１００２は、例えば、Read Only Memory（ＲＯＭ）、Random Access Memory（ＲＡＭ）等を含み、動作認識処理に用いられるプログラム及びデータを格納する。例えば、ＣＰＵ１００１は、メモリ１００２を利用してプログラムを実行することにより、動作認
識処理を行う。

入力装置１００３は、例えば、キーボード、ポインティングデバイス等であり、オペレータからの指示や情報の入力に用いられる。出力装置１００４は、例えば、ディスプレイ、プリンタ、スピーカ等であり、オペレータへの問い合わせや処理結果の出力に用いられる。

外部記憶装置１００５は、例えば、磁気ディスク装置、光ディスク装置、光磁気ディスク装置、テープ装置等である。情報処理装置は、この外部記憶装置１００５に、プログラム及びデータを格納しておき、必要に応じて、それらをメモリ１００２にロードして使用する。外部記憶装置１００５は、認識テーブル及び物体テーブルを格納するデータベースとしても使用される。

媒体駆動装置１００６は、可搬記録媒体１００９を駆動し、その記録内容にアクセスする。可搬記録媒体１００９は、メモリカード、フレキシブルディスク、光ディスク、光磁気ディスク等の任意のコンピュータ読み取り可能な記録媒体である。オペレータは、この可搬記録媒体１００９にプログラム及びデータを格納しておき、必要に応じて、それらをメモリ１００２にロードして使用する。

ネットワーク接続装置１００７は、通信ネットワークに接続され、通信に伴うデータ変換を行う。情報処理装置は、必要に応じて、プログラム及びデータを外部の装置からネットワーク接続装置１００７を介して受け取り、それらをメモリ１００２にロードして使用する。

図１１は、図１０の情報処理装置にプログラム及びデータを提供する方法を示している。可搬記録媒体１００９や外部装置１１０１のデータベース１１１１に格納されたプログラム及びデータは、情報処理装置１１０２のメモリ１００２にロードされる。外部装置１１０１は、そのプログラム及びデータを搬送する搬送信号を生成し、通信ネットワーク上の伝送媒体を介して情報処理装置１１０２に送信する。ＣＰＵ１００１は、そのデータを用いてそのプログラムを実行し、上述した処理を行う。

開示の実施形態とその利点について詳しく説明したが、当業者は、特許請求の範囲に明確に記載した発明の範囲から逸脱することなく、様々な変更、追加、省略をすることができるであろう。

第１の動作認識装置の構成図である。第２の動作認識装置の構成図である。左カメラ及び右カメラの配置を示す図である。相対視差を示す図である。注視点制御処理のフローチャートである。動作認識処理のフローチャートである。認識テーブルを示す図である。物体テーブルを示す図である。行為認識処理のフローチャートである。情報処理装置の構成図である。プログラム及びデータを提供する方法を示す図である。

符号の説明

１０１広視野撮影部
１０２高解像度撮影部
１０３動き／顔検知部
１０４注視点制御部
１０５姿勢推定部
１０６行為認識部
２０１カメラヘッド
２０２パン・チルト制御モータ
２０３カメラ制御装置
２０４画像処理装置
２０５行為推定装置
２０６ホスト装置
２１１、２１３高解像度カメラ
２１２、２１４輻輳制御モータ
２１５広視野カメラ
３０１人物
３１１顔
３１２右腕
３１３左腕
３２１左カメラ
３２２右カメラ
４０１、４０２画像
４１１、４１２、４１３、４１４、４２１、４２２、４２３、４２４、４３１、４３２、４３３、４４１、４４２点
１００１ＣＰＵ
１００２メモリ
１００３入力装置
１００４出力装置
１００５外部記憶装置
１００６媒体駆動装置
１００７ネットワーク接続装置
１００８バス
１００９可搬記録媒体
１１０１外部装置
１１０２情報処理装置
１１１１データベース

Claims

人物を撮像する第１の撮像手段と、
前記人物を撮像する第２の撮像手段と、
前記第１及び第２の撮像手段の各々により得られた画像を複数の小領域に分割し、前記人物の同じ部分を撮像したものと認識した、それぞれの画像の小領域同士を対応付け、対応付けられた２つの小領域の対応点の距離を視差として計算する視差計算手段と、
前記人物の顔を撮像したものと認識した顔領域の視差と、前記人物の顔以外の肌色部分を撮像したものと認識した肌色領域の視差とを比較し、該顔領域との距離が第１の閾値より小さく、かつ、該顔領域との視差の差が第２の閾値より小さい肌色領域を、腕領域として検出する検出手段と、
前記顔領域に対する前記腕領域の相対的な位置、及び、該顔領域の視差と該腕領域の視差の差に基づいて、前記人物の腕の動作を認識する認識手段と
を備えることを特徴とする動作認識装置。
前記認識手段は、前記第１又は第２の撮像手段により得られた画像内で、前記顔領域の座標値と前記腕領域の座標値の差を第３の閾値と比較することで、前記顔領域に対する前記腕領域の前記相対的な画像内位置を求め、前記顔領域の視差と前記腕領域の視差の差を第４の閾値と比較することで、前記人物の顔に対する腕の相対的な奥行き位置を求め、得られた画像内位置及び奥行き位置から該人物の姿勢を求めることを特徴とする請求項１記載の動作認識装置。
顔領域に対する腕領域の相対的な画像内位置と、顔に対する腕の相対的な奥行き位置の時系列パターンを格納する格納手段をさらに備え、前記認識手段は、前記得られた画像内位置及び奥行き位置を時系列に記録し、記録された画像内位置及び奥行き位置の時系列パターンと、前記格納手段に格納された時系列パターンとを照合することで、前記人物の動作を認識することを特徴とする請求項２記載の動作認識装置。
第１及び第２の撮像手段を制御して人物を撮像させ、
前記第１及び第２の撮像手段の各々により得られた画像を複数の小領域に分割し、
前記人物の同じ部分を撮像したものと認識した、それぞれの画像の小領域同士を対応付け、
対応付けられた２つの小領域の対応点の距離を視差として計算し、
前記人物の顔を撮像したものと認識した顔領域の視差と、前記人物の顔以外の肌色部分を撮像したものと認識した肌色領域の視差とを比較し、
前記顔領域との距離が第１の閾値より小さく、かつ、該顔領域との視差の差が第２の閾値より小さい肌色領域を、腕領域として検出し、
前記顔領域に対する前記腕領域の相対的な位置、及び、該顔領域の視差と該腕領域の視差の差に基づいて、前記人物の腕の動作を認識する
処理をコンピュータに実行させるためのプログラム。
第１及び第２の撮像手段が人物を撮像し、
コンピュータが、
前記第１及び第２の撮像手段の各々により得られた画像を複数の小領域に分割し、
前記人物の同じ部分を撮像したものと認識した、それぞれの画像の小領域同士を対応付け、
対応付けられた２つの小領域の対応点の距離を視差として計算し、
前記人物の顔を撮像したものと認識した顔領域の視差と、前記人物の顔以外の肌色部分を撮像したものと認識した肌色領域の視差とを比較し、
前記顔領域との距離が第１の閾値より小さく、かつ、該顔領域との視差の差が第２の閾
値より小さい肌色領域を、腕領域として検出し、
前記顔領域に対する前記腕領域の相対的な位置、及び、該顔領域の視差と該腕領域の視差の差に基づいて、前記人物の腕の動作を認識する
ことを特徴とする動作認識方法。