JP5001930B2 - 動作認識装置及び方法 - Google Patents

動作認識装置及び方法 Download PDF

Info

Publication number
JP5001930B2
JP5001930B2 JP2008297598A JP2008297598A JP5001930B2 JP 5001930 B2 JP5001930 B2 JP 5001930B2 JP 2008297598 A JP2008297598 A JP 2008297598A JP 2008297598 A JP2008297598 A JP 2008297598A JP 5001930 B2 JP5001930 B2 JP 5001930B2
Authority
JP
Japan
Prior art keywords
parallax
face
person
image
arm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008297598A
Other languages
English (en)
Other versions
JP2010123019A (ja
Inventor
俊彦 森田
真司 神田
直之 沢崎
章博 今井
岳 今井
雅幸 稲葉
慧 岡田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
University of Tokyo NUC
Original Assignee
Fujitsu Ltd
University of Tokyo NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd, University of Tokyo NUC filed Critical Fujitsu Ltd
Priority to JP2008297598A priority Critical patent/JP5001930B2/ja
Publication of JP2010123019A publication Critical patent/JP2010123019A/ja
Application granted granted Critical
Publication of JP5001930B2 publication Critical patent/JP5001930B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Processing (AREA)
  • Image Analysis (AREA)

Description

本発明は、人物の動作を認識する動作認識装置及び方法に関する。
近年、人物の行動やスケジュールを管理して生活を支援するロボットが提案されている。例えば、人物の行為を認識し、不適切な行動を指摘したり、適切な行動を促したりするロボットである。
映像による人物の行為認識技術としては、人物の動きのパターンや姿勢に基づいて動作要素を抽出し、動作要素の出現頻度により「食べる」、「飲む」等の行為を認識する方法が知られている。この場合、例えば、画像に含まれる色情報を基に肌色(顔、手、足)や衣服の色を抽出し、これを基に姿勢・動き情報が抽出される。
また、画像中のある領域が顔領域か否かを判定する顔画像判定方法も知られている。
さらに、時系列の低解像度画像から移動領域の高解像度映像を抽出する方法や、中心部の解像度が高い特殊なレンズも知られている。
特開2005−215927号公報 特開2005−284348号公報 特開2007−000205号公報 Active Stereo Vision System with Foveated Wide Angle Lenses, Y. Kuniyoshi, N. Kita, S. Rougeaux and T. Suehiro, Proc. of Asian Conf. on Computer Vision (1995), pp. 359-363.
上述した従来の行為認識技術には、次のような問題がある。
色情報を基に姿勢・動き情報を抽出する方法では、衣服の色や照明の状況等の条件が悪いと、色情報で顔領域とその他の領域とを区別することが困難な場合がある。この場合、画像中で人物の腕領域等を特定することができず、姿勢・動き情報を正確に抽出することができない。
本発明の課題は、映像による人物の行為認識において、色情報で顔領域とその他の領域とを区別することが困難な場合でも、人物の動作を認識できるようにすることである。
開示の動作認識装置は、第1及び第2の撮像手段、視差計算手段、検出手段、及び認識手段を備える。
第1及び第2の撮像手段は、人物を撮像する。視差計算手段は、第1及び第2の撮像手段の各々により得られた画像を複数の小領域に分割し、人物の同じ部分を撮像したものと認識した、それぞれの画像の小領域同士を対応付ける。そして、対応付けられた2つの小領域の対応点の距離を視差として計算する。
検出手段は、人物の顔を撮像したものと認識した顔領域の視差と、人物の顔以外の肌色部分を撮像したものと認識した肌色領域の視差とを比較する。そして、顔領域との距離が第1の閾値より小さく、かつ、顔領域との視差の差が第2の閾値より小さい肌色領域を、腕領域として検出する。
認識手段は、顔領域に対する腕領域の相対的な位置、及び、顔領域の視差と腕領域の視差の差に基づいて、人物の腕の動作を認識する。
第1及び第2の撮像手段は、人物の画像を視差計算手段に出力し、視差計算手段は、対応付けられた小領域の対応点の距離を視差として、検出手段及び認識手段に出力する。検出手段は、顔領域及び腕領域の情報を認識手段に出力し、認識手段は、認識された動作の情報を出力する。
第1及び第2の撮像手段の画像を併用することで、それぞれの小領域の視差を求めることができる。また、顔領域と肌色領域の視差の差が小さければ、画像の奥行き方向における顔と肌色部分の距離が小さいと考えられる。したがって、顔領域の視差と肌色領域の視差を比較することで、奥行き位置の離れた別人等の肌色領域を除外して、同一人物の腕領域に相当する肌色領域を検出することができる。
開示の動作認識装置によれば、映像による人物の行為認識において、色情報で顔領域とその他の領域とを区別することが困難な場合でも、腕領域を特定して人物の腕の動作を認識することができる。
以下、図面を参照しながら、最良の実施形態を詳細に説明する。
図1は、実施形態の動作認識装置の構成例を示している。図1の動作認識装置は、広視野撮影部101、高解像度撮影部102、動き/顔検知部103、注視点制御部104、姿勢推定部105、及び行為認識部106を備える。
広視野撮影部101は、人物、物体等の対象物を含む広域の映像を撮影し、動き/顔検知部103は、撮影した映像から人物の動きや顔を検知する。注視点制御部104は、高解像度撮影部102の注視点を注目する対象物に合わせる制御を行い、高解像度撮影部102は、注視点周辺の映像を高解像度で撮影する。姿勢推定部105は、高解像度撮影部102により撮影された映像から人物の姿勢を推定し、行為認識部106は、推定された姿勢から人物の行為を特定する。
広視野撮影部101及び高解像度撮影部102により撮影された映像には、時系列の画像が含まれる。広視野撮影部101及び高解像度撮影部102の構成としては、例えば、以下のようなものが用いられる。
(1)広視野撮影用カメラ及び高解像度撮影用カメラの2種類のカメラを設ける。
(2)中心部の解像度が高い特殊なレンズにより、広視野及び高解像度の映像を同時に撮影可能なカメラを使用する。
(3)ズーム機能を持つカメラにより同一のカメラで広視野映像と高解像度映像の撮影を行う。ただし、この場合、広視野映像と高解像度映像を同時に参照することはできない。(4)広視野映像と高解像度映像を撮影可能なカメラを使用した場合でも、それらの映像をリアルタイムで画像処理できないときは、縮小して解像度を落とした広域映像と、縮小しない部分映像とを利用する。
(5)広視野撮影用カメラと、超解像技術による注目点の高解像度映像を利用する。超解像技術としては、例えば、時系列の低解像度画像から移動領域の高解像度映像を抽出する方法を用いることができる。
広視野撮影部101による広視野映像を利用することで、広域で起こっている現象を把握することができ、高解像度撮影部102による高解像度映像を利用することで、人物の行為及びその対象物を精度良く識別することができる。
動き/顔検知部103は、画像から対象物の色情報等を抽出することで対象物の大まかな動きを検知し、肌色抽出、顔画像判定等の方法により、画像から人物の顔領域等を抽出する。
注視点制御部104は、動き/顔検知部103から注視すべき対象物の大まかな動きを示す情報を取得し、対象物の色情報や、対象物の動きを示すベクトル情報であるオプティカルフロー等を用いて、最終的に対象物を高解像度撮影部102の視野に捕捉する。
例えば、注視している人物が高解像度撮影部102の視野から外れた際に、広視野撮影部101で注視点周辺の物体の動き情報(例えば、オプティカルフロー)を取得する。そして、高解像度撮影部102の注視点を動きに合わせて移動させることにより、継続的に人物の高解像度画像と周辺の物体との相対位置情報を得ることができる。
姿勢推定部105は、人物の姿勢として、例えば、人物の向きと手や腕の位置を推定する。高解像度撮影部102としてステレオカメラを用いた場合は、ステレオ視による3次元計測により人物の姿勢を推定する。高解像度で撮影する場合は2台のカメラの各々の視野が狭くなり、3次元計測可能なステレオカメラの映像の重なりが限定されるため、必要に応じて各カメラの輻輳制御を行う。
高解像度カメラは視野が狭いため、3次元計測において通常の視差による位置計算を行う場合、輻輳制御の精度の影響が大きく、キャリブレーションも困難である。一方、人物の行為を認識する場合に必要となるのは、人物の姿勢や、腕の位置、周辺の物体との相対的な位置関係であり、人物や物体の絶対的な位置ではない。
そこで、姿勢推定部105は、3次元の絶対位置を計算する代わりに、注視点付近での相対距離を測定するために、各カメラのステレオ特徴点の相対視差に注目し、注視点付近での相対的な位置関係を取得する。
これにより、各カメラが目標物を視野に捕らえてさえいれば、輻輳制御の精度やキャリブレーションによる影響を受けることなく、人物の姿勢を推定することが可能になる。また、絶対位置を計算するために必要であったキャリブレーションそのものも不要になる。
行為認識部106は、人物の姿勢の時系列情報のパターン等に基づいて、人物の行為を認識する。行為によっては、行為対象を識別する必要がある。そこで、姿勢の時系列情報に加えて、周囲の状況や対象物の詳細映像等を用いることで、詳細な行為を認識する。
例えば、「薬を飲む」行為を認識する場合には、「飲む」動作のパターンを認識した際に、直前に手が触れた物体を高解像度で撮影し、薬の容器であることが認識できればよい。また、「扉を開ける」行為を認識する場合には、腕や手の動作パターンと同時に、広域の映像で、扉が開いたことをオプティカルフローのパターン等により認識できればよい。
このような動作認識装置によれば、広視野映像と部分的な高解像度映像を同時に利用し、人物の姿勢の履歴と周囲の状況等により、柔軟な行為認識が可能になる。また、人物と周辺の物体との相対的な位置関係を測定することにより、高精度な輻輳制御やキャリブレーションが不要になる。さらに、輻輳制御を採用することで3次元計測可能な範囲が拡大し、動きに強い認識処理が実現される。
図2は、図1の動作認識装置のより具体的な構成例を示している。図2の動作認識装置は、カメラヘッド201、パン・チルト制御モータ202、カメラ制御装置203、画像処理装置204、行為推定装置205、及びホスト装置206を備える。カメラヘッド2
01は、高解像度カメラ211、213、輻輳制御モータ212、214、及び広視野カメラ215を含む。
広視野カメラ215は、図1の広視野撮影部101に対応し、高解像度カメラ211及び213は、高解像度撮影部102に対応する。画像処理装置204及び行為推定装置205は、動き/顔検知部103、姿勢推定部105、及び行為認識部106に対応し、カメラ制御装置203及びホスト装置206は、注視点制御部104に対応する。
パン・チルト制御モータ202は、カメラ制御装置203により駆動され、カメラヘッド201にパン・チルト動作を行わせる。カメラヘッド201全体がパン・チルト動作を行うことで、撮影方向が変化する。なお、パン・チルト動作が不要な場合には、パン・チルト制御モータ202を省略してもよい。
高解像度カメラ211及び213は、例えば、両方で1台のステレオカメラを構成し、輻輳制御モータ212及び214は、カメラ制御装置203により駆動され、高解像度カメラ211及び213に輻輳運動を行わせる。
画像処理装置204は、広視野カメラ215及び高解像度カメラ211、213により撮影された映像に含まれる画像から、対象物の色やオプティカルフロー等の画像情報を抽出し、行為推定装置205に出力する。
行為推定装置205は、画像処理装置204からの画像情報をホスト装置206に出力するとともに、その画像情報を用いて対象物の大まかな動きを検知し、人物の顔領域、腕領域等を抽出する。そして、抽出された顔領域、腕領域等を用いて人物の姿勢を推定し、推定された姿勢から行為を認識して、認識結果をホスト装置206に出力する。
ホスト装置206は、行為推定装置205からの画像情報に基づいて、パン・チルト動作及び輻輳制御をカメラ制御装置203に指示し、カメラ制御装置203は、その指示に従って、輻輳制御モータ212、214及びパン・チルト制御モータ202を駆動する。また、ホスト装置206は、行為推定装置205に対して行為認識開始を指示し、行為推定装置205から認識結果を受け取る。
カメラ制御装置203、画像処理装置204、行為推定装置205、及びホスト装置206としては、例えば、情報処理装置(コンピュータ)が用いられる。また、これらの装置の全部を1つの情報処理装置を用いて実現することも可能である。
この場合、広視野カメラ215及び高解像度カメラ211、213により取得された映像データや、対象物の色やオプティカルフロー等の画像情報は、処理対象のデータとしてメモリに格納される。
図3は、高解像度カメラ211及び213の配置例を示している。図3では、左カメラ312及び右カメラ322が高解像度カメラ211及び213にそれぞれ対応する。輻輳制御は、左カメラ312及び右カメラ322の各々が垂直軸周りに回転する運動の制御である。高解像度で対象人物301を撮影する場合、3次元計測のために必要な左カメラ321及び右カメラ322の映像の重なりを確保するために、左カメラ321及び右カメラ322の輻輳制御が個別に行われる。
図4は、図3の配置における相対視差の概念を示している。左カメラ321及び右カメラ322が人物301を撮影するとき、左カメラ321は画像401を取得し、右カメラ322は画像402を取得する。画像401及び402には、人物301の顔311、右
腕312、及び左腕313の画像が含まれている。
画像401及び402の水平方向をx軸とし、垂直方向をy軸とすると、3次元空間内の1点が両カメラで撮影されたとき、その点の相対視差は、例えば、次式で定義される。

相対視差=左カメラのx座標−右カメラのx座標 (1)

輻輳制御では垂直軸周りの回転運動しか行われないため、y座標に関しては視差は生じない。
図4に示すように、画像401及び402のx座標を仮に0、1、2、及び3と定義すると、点411、412、413、及び414の相対視差はそれぞれ0、1、2、及び3となる。また、点421、422、423、424、431、432、433、441、及び442の相対視差はそれぞれ−1、0、1、2、−1、0、1、−1、及び0となる。したがって、左カメラ321及び右カメラ322に近い点ほど相対視差が大きくなり、左カメラ321及び右カメラ322から遠い点ほど相対視差が小さくなることが分かる。
また、点412、423、及び433のように、画像401及び402の奥行き方向の位置が近い点同士の相対視差の差は小さいか又は0であり、点412及び431のように、奥行き方向の位置が離れている点同士の相対視差の差は大きい。したがって、顔311、右腕312、及び左腕313の相対視差同士を比較することで、これらの部分の奥行き方向の相対的な位置関係を判定することができる。
図5は、カメラ制御装置203及びホスト装置206による注視点制御処理の例を示すフローチャートである。人物301等の対象物を左カメラ321及び右カメラ322で撮影している状態において(ステップ501)、ホスト装置206は、対象物の色情報に基づいて左カメラ321が対象物を捕捉しているか否かをチェックする(ステップ502)。
左カメラ321が対象物を捕捉していなければ(ステップ502,NO)、行為推定装置205を介して画像処理装置204にオプティカルフローの計算を指示する。画像処理装置204は、広視野カメラ215の広域映像を用いて対象物のオプティカルフローを計算し、行為推定装置205を介してホスト装置206に出力する(ステップ503)。
ホスト装置206は、カメラ制御装置203を介してカメラヘッド201のパン・チルト制御を行うことで、オプティカルフローが示す方向に視線を動かしながら、左カメラ321で対象物を探索する(ステップ504)。そして、ステップ502以降の処理を繰り返す。
一方、左カメラ321が対象物を捕捉していれば(ステップ502,YES)、ホスト装置206は、対象物の色情報に基づいて右カメラ322が対象物を捕捉しているか否かをチェックする(ステップ505)。
右カメラ322が対象物を捕捉していなければ(ステップ505,NO)、カメラ制御装置203を介して右カメラ322の輻輳制御を行うことで、水平方向に右カメラ322の視線を動かしながら、右カメラ322で対象物を探索する(ステップ506)。そして、ステップ505以降の処理を繰り返す。
一方、右カメラ322が対象物を捕捉していれば(ステップ505,YES)、ステップ501以降の処理を繰り返す。
このような注視点制御処理を継続することで、対象物を左右のカメラで常に捕捉することができる。なお、図5の注視点制御処理では、パン・チルト制御のために左カメラ321の映像を用い、輻輳制御のために右カメラ322の映像を用いているが、左カメラ321と右カメラ322の制御順序を入れ替えても構わない。
図6は、図2の動作認識装置による動作認識処理の例を示すフローチャートである。動作認識装置は、図5に示した注視点制御処理を行って、対象人物を左カメラ321及び右カメラ322の視野に捕らえる(ステップ601)。次に、行為推定装置205は、ステップ601〜606の処理を行う。
行為推定装置205は、まず、ステレオマッチングにより、左カメラ321の画像と右カメラ322の画像の対応点を探索する(ステップ602)。ここでは、例えば、左カメラ321及び右カメラ322の各画像を複数の小領域に分割し、それぞれの画像の小領域同士の相関を求める。そして、相関の高い小領域同士を同じ部分を撮像したものと認識し、それらの小領域同士を対応付ける。そして、対応付けられた2つの小領域内のそれぞれの対応点(対応画素)について(1)式により相対視差を計算し、メモリに格納する。小領域の形状としては、例えば、一定数の画素からなる矩形が用いられる。
次に、左カメラ321又は右カメラ322のいずれかの画像を用いて、人物の顔領域及び腕領域(又は手領域)を特定する(ステップ603)。以下では、手領域の場合も含めて腕領域と記載することにする。
ここでは、例えば、肌色抽出により人物の肌色部分の領域(肌色領域)を抽出し、顔画像判定により人物の顔領域を抽出する。そして、抽出された顔領域に含まれる点の相対視差の平均値(平均視差)と、それぞれの肌色領域の平均視差とを比較し、顔領域の周辺で顔領域の平均視差に近い平均視差を有する肌色領域を腕領域として検出する。
例えば、顔領域及び各肌色領域の重心座標を計算し、顔領域の重心と肌色領域の重心の距離を計算し、その距離が閾値より小さければ、その肌色領域は顔領域の周辺にあると判定される。また、顔領域の平均視差と肌色領域の平均視差の差を計算し、その差が閾値より小さければ、その肌色領域の視差は顔領域の視差に近いと判定される。こうして抽出された顔領域及び腕領域の情報は、メモリに格納される。
次に、顔領域の幅、高さ、及び視差のばらつきの範囲を計算し(ステップ604)、各腕領域の顔領域に対する相対的な位置関係を推定する(ステップ605)。ここでは、例えば、以下のような手順で位置関係が推定される。
1.顔領域の重心座標(fx、fy)、顔領域の幅fw及び高さfh、顔領域の平均視差fmd、及び視差のばらつきの範囲fddを計算する。視差のばらつきの範囲は、顔領域内の視差の最大値と最小値の差として求められる。このとき、外れ値を除く等、誤差の考慮を行ってもよい。
2.未処理の腕領域を1つ選択する。
3.腕領域の重心座標(ax,ay)及び腕領域の平均視差amdを計算する。
4.左右の位置関係の判定(αは正の定数)
fx−ax<−α×fwであれば、腕領域は顔領域より右にあると判定する。
fx−ax>α×fwであれば、腕領域は顔領域より左にあると判定する。
−α×fw≦fx−ax≦α×fwであれば、腕領域は顔領域の中央にあると判定する。
5.上下の位置関係の判定(βは正の定数)
fy−ay<−β×fhであれば、腕領域は顔領域より上にあると判定する。
fy−ay>β×fhであれば、腕領域は顔領域より下にあると判定する。
−β×fh≦fy−ay≦β×fhであれば、腕領域は顔領域の中央にあると判定する。
6.奥行きの位置関係の判定(γは正の定数)
fmd−amd<−γ×fddであれば、腕領域は顔領域より手前にあると判定する。
fmd−amd>γ×fddであれば、腕領域は顔領域より奥にあると判定する。
−γ×fdd≦fmd−amd≦γ×fddであれば、腕領域は顔領域の中央にあると判定する。
7.別の腕領域(又は手領域)について上記3〜6の処理を行ってもよい。
このような位置関係推定処理によれば、簡単なパラメータを計算するだけで顔と腕の相対位置を推定することができる。また、シミュレーション等に基づいて適切なα、β、及びγの値を設定することで、閾値−α×fw、α×fw、−β×fh、β×fh、−γ×fdd、及びγ×fddを調整し、推定精度を向上させることが可能になる。
なお、顔領域、肌色領域、及び腕領域の平均視差の代わりに、加重平均等の別の統計演算により求めた視差を用いてもよい。
腕領域の顔領域に対する相対的な位置関係が推定されると、次に、腕の位置の時系列情報と人物周辺の物体等の状況から、人物の行為を推定する(ステップ606)。ここでは、例えば、腕領域の顔領域に対する相対的な位置を時系列にメモリに記録して、記録された時系列情報と予め登録された動作パターンを照合することで、人物の行為を認識する。
例えば、薬を飲む行為における腕の動作パターンとしては、手が薬→口→コップ→口の順に移動するパターンが考えられる。この場合、行為推定装置205の格納装置には、図7に示すような認識テーブルが動作パターンとして登録され、図8に示すような物体テーブルが物体の位置として登録される。
図7の認識する行為の段階は、行為に含まれるそれぞれの動作の時間的な前後関係を表し、腕の位置は、図6のステップ605で説明した相対的な位置関係として定義される位置を表す。例えば、“中央/中央/中央”は、左右、上下、及び奥行きの3方向において、腕が顔の位置(口の位置)にあることを示している。
また、“薬”及び“コップ”は、図8の物体テーブルにより定義される物体の位置を示している。この例では、薬は“右/下/手前”の位置、つまり、顔より右、顔より下、かつ顔より手前の位置にあり、コップは“中央/下/手前”の位置、つまり、左右方向では顔と一致し、顔より下かつ顔より手前の位置にある。これらの物体の位置は、広視野カメラ215の映像、事前知識、過去の映像履歴、又はその他のセンサ情報により、予め取得されているものとする。図8のテーブルは、物体の位置に応じて随時更新することも可能である。
図7の所要時間は、各段階における腕の位置が継続する時間を表す。例えば、腕が薬の位置にある時間は2秒に設定され、薬からコップまで移動する時間は3秒に設定される。
薬を飲む行為をモデルケースとして撮影した映像から図6の動作認識処理により推定した相対的な位置を時系列に記録し、記録された位置と行為の各段階を対応付けることで、図7の動作パターンの情報を生成することも可能である。
図9は、認識テーブル及び物体テーブルを用いた行為認識処理の例を示すフローチャートである。行為推定装置205は、まず、認識する行為の段階を0に初期化し(ステップ
901)、現在の段階の腕の位置を認識テーブルから取得する(ステップ902)。取得した位置が物体である場合は、その物体の位置を物体テーブルから取得する(ステップ903)。
次に、図6のステップ601〜605の処理により人物の姿勢を推定し(ステップ905)、推定された腕の位置が取得した腕の位置と一致するか否かをチェックする(ステップ906)。
推定された腕の位置が取得した腕の位置と一致すれば(ステップ906,YES)、現在の段階を1だけインクリメントして(ステップ907)、現在の段階が終了段階に達したか否かをチェックする(ステップ908)。図7の場合は、段階“5”が終了段階に対応する。現在の段階が終了段階に達していなければ(ステップ908,NO)、現在の時刻を記録して(ステップ909)、ステップ902以降の処理を繰り返す。
一方、推定された腕の位置が取得した腕の位置と一致しなければ(ステップ906,NO)、現在の段階の所要時間を認識テーブルから取得し、現在の段階になってから所要時間以上経過しているか否かをチェックする(ステップ910)。
所要時間以上経過していなければ(ステップ910,NO)、ステップ903以降の処理を繰り返し、所要時間以上経過していれば(ステップ910,YES)、ステップ901以降の処理を繰り返す。
そして、現在の段階が終了段階に達すると(ステップ908,YES)、処理を終了する。このとき、認識テーブルに登録された動作パターンの行為が認識結果として、ホスト装置206に出力される。図7の場合は、薬を飲む行為が認識結果として出力される。
図1及び図2の動作認識装置は、例えば、人物の行為を認識し生活を支援する生活支援ロボットに適用することができる。これにより、対象人物が薬を飲む行為を認識し、薬の重複服用や服用忘れを防止する支援を行う等のサービスを提供することが可能になる。
なお、薬を飲む行為は認識対象の一例に過ぎず、認識テーブル及び物体テーブルの内容を変更することで、様々な行為の動作パターンを定義することができる。動作認識装置には、アプリケーションに応じて1つ又は複数の動作パターンが予め登録される。
さらに、腕の動作パターンに加えて、人物の周辺における物体の移動を検出することで、認識対象の範囲を拡大することも可能である。例えば、扉又は家具を開閉する行為を認識する場合には、広域映像を用いて扉又は家具のオプティカルフローを計算し、予め登録されたオプティカルフローのパターンと照合することにより、その開閉を検出することができる。
図2のカメラ制御装置203、画像処理装置204、行為推定装置205、及びホスト装置206は、例えば、図10に示すような情報処理装置を用いて実現することが可能である。図10の情報処理装置は、Central Processing Unit(CPU)1001、メモリ1002、入力装置1003、出力装置1004、外部記憶装置1005、媒体駆動装置1006、及びネットワーク接続装置1007を備え、それらはバス1008により互いに接続されている。
メモリ1002は、例えば、Read Only Memory(ROM)、Random Access Memory(RAM)等を含み、動作認識処理に用いられるプログラム及びデータを格納する。例えば、CPU1001は、メモリ1002を利用してプログラムを実行することにより、動作認
識処理を行う。
入力装置1003は、例えば、キーボード、ポインティングデバイス等であり、オペレータからの指示や情報の入力に用いられる。出力装置1004は、例えば、ディスプレイ、プリンタ、スピーカ等であり、オペレータへの問い合わせや処理結果の出力に用いられる。
外部記憶装置1005は、例えば、磁気ディスク装置、光ディスク装置、光磁気ディスク装置、テープ装置等である。情報処理装置は、この外部記憶装置1005に、プログラム及びデータを格納しておき、必要に応じて、それらをメモリ1002にロードして使用する。外部記憶装置1005は、認識テーブル及び物体テーブルを格納するデータベースとしても使用される。
媒体駆動装置1006は、可搬記録媒体1009を駆動し、その記録内容にアクセスする。可搬記録媒体1009は、メモリカード、フレキシブルディスク、光ディスク、光磁気ディスク等の任意のコンピュータ読み取り可能な記録媒体である。オペレータは、この可搬記録媒体1009にプログラム及びデータを格納しておき、必要に応じて、それらをメモリ1002にロードして使用する。
ネットワーク接続装置1007は、通信ネットワークに接続され、通信に伴うデータ変換を行う。情報処理装置は、必要に応じて、プログラム及びデータを外部の装置からネットワーク接続装置1007を介して受け取り、それらをメモリ1002にロードして使用する。
図11は、図10の情報処理装置にプログラム及びデータを提供する方法を示している。可搬記録媒体1009や外部装置1101のデータベース1111に格納されたプログラム及びデータは、情報処理装置1102のメモリ1002にロードされる。外部装置1101は、そのプログラム及びデータを搬送する搬送信号を生成し、通信ネットワーク上の伝送媒体を介して情報処理装置1102に送信する。CPU1001は、そのデータを用いてそのプログラムを実行し、上述した処理を行う。
開示の実施形態とその利点について詳しく説明したが、当業者は、特許請求の範囲に明確に記載した発明の範囲から逸脱することなく、様々な変更、追加、省略をすることができるであろう。
第1の動作認識装置の構成図である。 第2の動作認識装置の構成図である。 左カメラ及び右カメラの配置を示す図である。 相対視差を示す図である。 注視点制御処理のフローチャートである。 動作認識処理のフローチャートである。 認識テーブルを示す図である。 物体テーブルを示す図である。 行為認識処理のフローチャートである。 情報処理装置の構成図である。 プログラム及びデータを提供する方法を示す図である。
符号の説明
101 広視野撮影部
102 高解像度撮影部
103 動き/顔検知部
104 注視点制御部
105 姿勢推定部
106 行為認識部
201 カメラヘッド
202 パン・チルト制御モータ
203 カメラ制御装置
204 画像処理装置
205 行為推定装置
206 ホスト装置
211、213 高解像度カメラ
212、214 輻輳制御モータ
215 広視野カメラ
301 人物
311 顔
312 右腕
313 左腕
321 左カメラ
322 右カメラ
401、402 画像
411、412、413、414、421、422、423、424、431、432、433、441、442 点
1001 CPU
1002 メモリ
1003 入力装置
1004 出力装置
1005 外部記憶装置
1006 媒体駆動装置
1007 ネットワーク接続装置
1008 バス
1009 可搬記録媒体
1101 外部装置
1102 情報処理装置
1111 データベース

Claims (5)

  1. 人物を撮像する第1の撮像手段と、
    前記人物を撮像する第2の撮像手段と、
    前記第1及び第2の撮像手段の各々により得られた画像を複数の小領域に分割し、前記人物の同じ部分を撮像したものと認識した、それぞれの画像の小領域同士を対応付け、対応付けられた2つの小領域の対応点の距離を視差として計算する視差計算手段と、
    前記人物の顔を撮像したものと認識した顔領域の視差と、前記人物の顔以外の肌色部分を撮像したものと認識した肌色領域の視差とを比較し、該顔領域との距離が第1の閾値より小さく、かつ、該顔領域との視差の差が第2の閾値より小さい肌色領域を、腕領域として検出する検出手段と、
    前記顔領域に対する前記腕領域の相対的な位置、及び、該顔領域の視差と該腕領域の視差の差に基づいて、前記人物の腕の動作を認識する認識手段と
    を備えることを特徴とする動作認識装置。
  2. 前記認識手段は、前記第1又は第2の撮像手段により得られた画像内で、前記顔領域の座標値と前記腕領域の座標値の差を第3の閾値と比較することで、前記顔領域に対する前記腕領域の前記相対的な画像内位置を求め、前記顔領域の視差と前記腕領域の視差の差を第4の閾値と比較することで、前記人物の顔に対する腕の相対的な奥行き位置を求め、得られた画像内位置及び奥行き位置から該人物の姿勢を求めることを特徴とする請求項1記載の動作認識装置。
  3. 顔領域に対する腕領域の相対的な画像内位置と、顔に対する腕の相対的な奥行き位置の時系列パターンを格納する格納手段をさらに備え、前記認識手段は、前記得られた画像内位置及び奥行き位置を時系列に記録し、記録された画像内位置及び奥行き位置の時系列パターンと、前記格納手段に格納された時系列パターンとを照合することで、前記人物の動作を認識することを特徴とする請求項2記載の動作認識装置。
  4. 第1及び第2の撮像手段を制御して人物を撮像させ、
    前記第1及び第2の撮像手段の各々により得られた画像を複数の小領域に分割し、
    前記人物の同じ部分を撮像したものと認識した、それぞれの画像の小領域同士を対応付け、
    対応付けられた2つの小領域の対応点の距離を視差として計算し、
    前記人物の顔を撮像したものと認識した顔領域の視差と、前記人物の顔以外の肌色部分を撮像したものと認識した肌色領域の視差とを比較し、
    前記顔領域との距離が第1の閾値より小さく、かつ、該顔領域との視差の差が第2の閾値より小さい肌色領域を、腕領域として検出し、
    前記顔領域に対する前記腕領域の相対的な位置、及び、該顔領域の視差と該腕領域の視差の差に基づいて、前記人物の腕の動作を認識する
    処理をコンピュータに実行させるためのプログラム。
  5. 第1及び第2の撮像手段が人物を撮像し、
    コンピュータが、
    前記第1及び第2の撮像手段の各々により得られた画像を複数の小領域に分割し、
    前記人物の同じ部分を撮像したものと認識した、それぞれの画像の小領域同士を対応付け、
    対応付けられた2つの小領域の対応点の距離を視差として計算し、
    前記人物の顔を撮像したものと認識した顔領域の視差と、前記人物の顔以外の肌色部分を撮像したものと認識した肌色領域の視差とを比較し、
    前記顔領域との距離が第1の閾値より小さく、かつ、該顔領域との視差の差が第2の閾
    値より小さい肌色領域を、腕領域として検出し、
    前記顔領域に対する前記腕領域の相対的な位置、及び、該顔領域の視差と該腕領域の視差の差に基づいて、前記人物の腕の動作を認識する
    ことを特徴とする動作認識方法。
JP2008297598A 2008-11-21 2008-11-21 動作認識装置及び方法 Active JP5001930B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008297598A JP5001930B2 (ja) 2008-11-21 2008-11-21 動作認識装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008297598A JP5001930B2 (ja) 2008-11-21 2008-11-21 動作認識装置及び方法

Publications (2)

Publication Number Publication Date
JP2010123019A JP2010123019A (ja) 2010-06-03
JP5001930B2 true JP5001930B2 (ja) 2012-08-15

Family

ID=42324292

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008297598A Active JP5001930B2 (ja) 2008-11-21 2008-11-21 動作認識装置及び方法

Country Status (1)

Country Link
JP (1) JP5001930B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9293060B2 (en) 2010-05-06 2016-03-22 Ai Cure Technologies Llc Apparatus and method for recognition of patient activities when obtaining protocol adherence data
US9875666B2 (en) 2010-05-06 2018-01-23 Aic Innovations Group, Inc. Apparatus and method for recognition of patient activities
US9883786B2 (en) 2010-05-06 2018-02-06 Aic Innovations Group, Inc. Method and apparatus for recognition of inhaler actuation
KR101792866B1 (ko) 2011-04-06 2017-11-20 삼성전자주식회사 이벤트 센서와 칼라 센서를 이용한 동작 인식 장치 및 그 방법
AU2014236592B2 (en) * 2013-03-14 2018-06-28 AI Cure Technologies, Inc. Apparatus and method for recognition of suspicious activties
JPWO2015186436A1 (ja) * 2014-06-06 2017-04-20 コニカミノルタ株式会社 画像処理装置、画像処理方法、および、画像処理プログラム
WO2018163555A1 (ja) * 2017-03-07 2018-09-13 コニカミノルタ株式会社 画像処理装置、画像処理方法、及び画像処理プログラム
WO2019235350A1 (ja) * 2018-06-06 2019-12-12 日本電気株式会社 情報処理システム、情報処理方法及び記憶媒体
CN113196292B (zh) * 2020-12-29 2024-09-20 商汤国际私人有限公司 对象检测方法和装置、电子设备及计算机可读存储介质
WO2023175764A1 (ja) * 2022-03-16 2023-09-21 日本電気株式会社 画像処理装置、画像処理方法、および記録媒体

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3996015B2 (ja) * 2002-08-09 2007-10-24 本田技研工業株式会社 姿勢認識装置及び自律ロボット
JP2008165595A (ja) * 2006-12-28 2008-07-17 Sumitomo Electric Ind Ltd 障害物検出方法、障害物検出装置、障害物検出システム

Also Published As

Publication number Publication date
JP2010123019A (ja) 2010-06-03

Similar Documents

Publication Publication Date Title
JP5001930B2 (ja) 動作認識装置及び方法
JP6695503B2 (ja) 車両の運転者の状態を監視するための方法及びシステム
WO2019179441A1 (zh) 智能设备的焦点跟随方法、装置、智能设备及存储介质
US8639020B1 (en) Method and system for modeling subjects from a depth map
US9031327B2 (en) Information processing device, method, and program that recognizes a predetermined part of a body
KR101035055B1 (ko) 이종 카메라를 이용한 객체 추적 시스템 및 방법
CN110853073A (zh) 确定关注点的方法、装置、设备、系统及信息处理方法
CN105915784A (zh) 信息处理方法和装置
JP5598751B2 (ja) 動作認識装置
CN112257696B (zh) 视线估计方法及计算设备
JP6822482B2 (ja) 視線推定装置、視線推定方法及びプログラム記録媒体
CN111488775B (zh) 注视度判断装置及方法
JP2007074033A (ja) 撮像装置及びその制御方法及びプログラム及び記憶媒体
JP2006343859A (ja) 画像処理装置及び画像処理方法
JP7230345B2 (ja) 情報処理装置及び情報処理プログラム
JP2021071769A (ja) 物体追跡装置および物体追跡方法
JP2002366958A (ja) 画像認識方法および画像認識装置
JP6288770B2 (ja) 顔検出方法、顔検出システム、および顔検出プログラム
JP7488674B2 (ja) 物体認識装置、物体認識方法及び物体認識プログラム
JP2019185556A (ja) 画像解析装置、方法およびプログラム
JP5482412B2 (ja) ロボット、位置推定方法及びプログラム
Park et al. Facial and eye gaze detection
NL2004878C2 (en) System and method for detecting a person's direction of interest, such as a person's gaze direction.
JP2009009404A (ja) 画像処理装置、画像処理方法及び画像処理プログラム
JP6468755B2 (ja) 特徴点検出システム、特徴点検出方法、および特徴点検出プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110616

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120413

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120424

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120518

R150 Certificate of patent or registration of utility model

Ref document number: 5001930

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150525

Year of fee payment: 3