JP3784474B2

JP3784474B2 - ジェスチャー認識方法および装置

Info

Publication number: JP3784474B2
Application number: JP30933896A
Authority: JP
Inventors: 嶐一岡; 拓一西村
Original assignee: NEC Corp; Sharp Corp
Current assignee: NEC Corp; Sharp Corp
Priority date: 1996-11-20
Filing date: 1996-11-20
Publication date: 2006-06-14
Anticipated expiration: 2016-11-20
Also published as: JPH10149447A

Description

【０００１】
【発明の属する技術分野】
本発明は、被写体を撮像装置により撮影し、画像処理装置において上記撮影画像の特徴パターンを解析することにより被写体のジェスチャーを認識するジェスチャー認識方法および装置に関する。
【０００２】
【従来の技術】
人間の身ぶり手振りを認識する技術は、柔軟なＭａｎ−ＭｃｈｉｎｅＩｎｔｅｒｆａｃｅＳｙｓｔｅｍ（マンマシンインタフェースシステム）を構築する上で重要である（黒川隆夫、ノンバーバルインターフェース、オーム社、１９９４）。特に、動作者にデータグローブ等の接触型センサやマーカーを装着させることなく、人間の動作を捉えた動画像を用いいたジェスチャー認識が試みられている（高橋勝彦、関進、小島浩、岡隆一、ジェスチャー動画像のスポッティング認識、信学論（Ｄ−ＩＩ）、Ｖｏｌ．Ｊ７７−Ｄ−ＩＩｎｏ．８，ｐｐ１５５２−１５６１，１９９４．）。
【０００３】
これまでは、１人の人物のジェスチャー認識が試みられているが、近年では複数人物と計算機のマルチモーダル対話（伊藤慶明、木山次郎、関進、小島浩、帳健新、岡隆一、同時複数対話者の会話音声およびジェスチャーのリアルタイム統合理解によるＮｏｖｅｌＩｎｔｅｒｆａｃｅＳｙｓｔｅｍ、音声言語処理７―３、ｐｐ１７−２２、１９９５）が重要になっている。すなわち、複数人物間におけるジェスチャーや音声による対話を認識理解し、この対話の円滑化に必要な情報をデータベースから提供するシステムが求められている。そのためには、実時間かつ同時的に複数人物のジェスチャーと音声を認識する必要があった。複数人物間での音声と単一人物のジェスチャー認識については統合が実現されている。また長屋等（長屋茂喜、関進、岡隆一、多重解像度特徴によるジェスチャー認識、信学技報、ＰＲＵ９５−９９、ｐｐ１２１−１２６および長屋茂喜、関進、岡隆一、ジェスチャー認識のための動作軌跡特徴の提案、信学技報、ＮＬＣ９５−３７、ＰＲＵ９５ー１４２、ｐｐ４５−５０）により動作者の位置や人数を特定する手法が提案されている。しかしながら複数人物の実時間ジェスチャー認識システムの実現には現在、到っていない。
【０００４】
このようなシステムの実現において第１に問題となることは、対象とされる人間の数に等しいカメラと認識システムを用意するかどうかと言うことである。なぜなら上記のジェスチャー動画像のスポッティング認識の報告にも述べられてたように、単一人物の４種類のジェスチャー認識の実時間化に汎用画像処理ボード（ＩｍａｇｉｎｇＴｃｈｎｏｌｏｇｙＳｅｒｉｅｓ１５０／４０）とワークステーション（ＩｒｉｓＣｒｉｍｓｏｎ）を用いるという負担を強いられるからである。
【０００５】
さらにカメラ毎に特定の人物を捉えることは極めて不便であり、対話者が互いに顔を見て話す場合に、それらを捉えることはさらに困難を増すといった状況がある。
【０００６】
なお、従来技術として、単一人物のジェスチャー認識を目的とした研究についてはいくつか報告されている。大和ら（Ｊ．Ｙａｍｔｏ，Ｊ．Ｏｈｙａ，Ｋ．Ｉｓｉｉ，ＲｅｃｏｇｎｉｚｉｎｇＨｕｍａｎＡｃｔｉｏｎｉｎＴｉｍｅ−ＳｅｑｕｅｎｔｉａｌＩｍａｇｅｓＵｓｉｎｇＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ，Ｐｒｏｃ．ＣＶＰＲ、ｐｐ３７９―３８５、１９９２）は、テニスプレーヤーのスイング動作を対象として、ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌを用いた動作認識法を提案している。この方法では、動作モデルの学習が可能であるが、動作を行っている時間空間のセグメンテーションを人手で行う必要がある。
【０００７】
また、Ｄａｒｒｅｌｌら（Ｔ．Ｊ．ＤａｒｅｌｌａｎｄＡ．Ｐ．Ｐｅｎｔｌａｎｄ，Ｓｐａｃｅ−ＴｉｍｅＧｅｓｔｕｒｅｓ，Ｐｒｏｃ．ＩＪＣＡＩ’９３ＬｏｏｋｉｎｇａｔＰｅｏｐｌｅＷｏｒｋｓｈｏｐ（Ａｕｇ．１９９３））は手のひらの動きをその見え方の遷移系列で表し、観測された見え方系列と動作モデルとの対応付けをＤｙｎａｍｉｃＴｉｍｅＷａｒｐｉｎｇで行うことで複数のジェスチャーを認識した。しかしながらこの提案では入力画像の背景が無地である必要が有り、また、同作間の時間的セグメンテーションの方法が示されていない。
【０００８】
また、石井ら（Ｈ．Ｉｓｈｉ，Ｋ．ＭｏｃｈｉｚｕｋｉａｎｄＦ．Ｋｓｈｉｎｏ，ＡＭｏｔｉｏｎＲｅｃｏｇｎｉｔｉｏｎＭｅｔｈｏｄｆｒｏｍＳｔｅｒｅｏＩｍａｇｅｓｆｏｒＨｕｍａｎＩｍａｇｅＳｙｎｔｈｅｓｉｓ，ＴｈｅＴｒａｎｓ．ｏｆｔｈｅＥＴＣ，Ｊ７６−Ｄ−ＩＩ，８，ｐｐ１８０５−１８１２（１９９３−０８））は、カラー画像処理とステレオマッチングにより手や顔などの肌色部分の３次元位置を求め、その移動量を計測している。しかし、専用の画像処理装置を用いている石井やＤａｒｅｌｌらのシステムでもビデオレートでの動作認識は実現されていない。
【０００９】
【発明が解決しようとする課題】
複数人物のジェスチャーを同時に認識する場合、その使用環境を自然で良好なものとするために以下の２つの制約を満足する必要がある。
【００１０】
制約１複数人物が自然な形で対話できる環境を保証する単一カメラの使用できること
これは、例えば、複数の人物を単一のカメラで撮影しようとすると、顔を正面にして複数人物が一列にならなければならず、これは自然な形で対話できる環境ではない。例えば、３人が互いに向き合っている姿を側面から撮影しようとすると、２人のジェスチャーをカメラで撮影することはできないであろう。
【００１１】
制約２複数人物のジェスチャリングをリアルタイムでジェスチャー認識すること
これは複数人物のジェスチャー認識に限らないが、認識対象の数が複数になるほど、ジェスチャー認識処理の高速に行わないとリアルタイムで認識結果を得ることはできない。
【００１２】
そこで、本発明の第１の目的は、単一カメラで互いに向き合っている複数人物のジェスチャーを撮影できるジェスチャー認識方法および装置を提供することにある。
【００１３】
本発明の第２の目的は、ジェスチャー認識精度を損なうことなくその認識処理を高速化できるジェスチャー認識方法および装置を提供する事にある。
【００１５】
【課題を解決するための手段】
このような目的を達成するために、本発明は、被写体を時系列的に撮像装置により撮像し、当該撮像の結果について画像処理装置において時系列的な時間差分画像を取得し、当該取得した時系列的な時間差分画像を前記画像処理装置において作成し、当該作成した時系列的な時間差分画像をビット１／０に２値化した時系列的な２値化画像を前記画像処理装置において作成し、当該作成した時系列的な２値化画像の各々を前記画像処理装置において複数の領域に分割し、当該分割した各領域の中のビット１の個数を前記画像処理装置において計数し、当該計数した個数がしきい値以上のときは前記画像処理装置においてその計数結果を前記しきい値に飽和させてその飽和結果を前記画像処理装置のビット１の計数の結果となし、前記領域の各々の時系列的なビット１の計数結果をジェスチャー認識における特徴パターンとすることを特徴とする。
【００１６】
本発明は、さらに、前記被写体は複数であって、当該複数の被写体を全方位視覚センサにより撮像し、当該撮像の結果を前記画像処理装置において各々の被写体を含む画像に分割し、当該分割した画像を前記時間差分画像を取得するステップに引き渡すことを特徴とする。
【００１８】
さらに、本発明は、被写体を時系列的に撮像する撮像手段と、当該撮像の結果について時系列的な時間差分画像を取得する第１の画像処理手段と、当該取得した時系列的な時間差分画像を作成する第２の画像処理手段と、当該作成した時系列的な時間差分画像をビット１／０に２値化した時系列的な２値化画像を作成する第３の画像処理手段と、当該作成した時系列的な２値化画像の各々を複数の領域に分割する第４の画像処理手段と、当該分割した各領域の中のビット１の個数を計数する第５の画像処理手段と、当該計数した個数がしきい値以上のときは前記画像処理装置おいてその計数結果を前記しきい値に飽和させてその飽和結果を前記第５の画像処理手段の計数結果とする第６の画像処理手段とを有し、前記領域の各々の時系列的なビット１の計数結果をジェスチャー認識における特徴パターンとすることを特徴とする。
【００１９】
本発明は、さらに、前記被写体は複数であって、当該複数の被写体を撮像する全方位視覚センサと、当該撮像の結果を各々の被写体を含む画像に分割する分割手段とを有し、当該分割した画像を前記時間差分画像を取得する第１の画像処理手段に引き渡すことを特徴とする。
【００２０】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態を詳細に説明する。本実施の形態では全方位視覚センサを使用して複数の被写体を撮像したことに第１の特徴がある。
【００２１】
全方位視覚センサは双曲面ミラー（円錐形ミラー）を介してＣＣＤカメラに全方位の画像を導く撮像装置（図１３の符号１０６参照）であり、最近は移動ロボットに搭載することが提案されている（山沢一誠、八木康史等、移動ロボットのナビゲーションのための全方位視覚センサＨｙｐｅｒＯｍｎｉＶｉｓｉｏｎの提案、信学論（Ｄ−ＩＩ）、ＶｏｌＪ７９−Ｄ−ＩＩ，ｎｏ５，ｐｐ６９８−７０７，１９９６）。この全方位視覚センサをジェスチャー認識に適用する。また、特徴パターンの抽出時に飽和処理（後述）を施すようにしたことに第２の特徴がある。
【００２２】
図１に全方位視覚センサの設置例を示す。符号（ａ）は円卓での会議中の環境で中央に置かれた全方位視覚センサ１をが全ての出席者のジェスチャーを一つの画像中で捕捉している。符号（ｂ）は自律走行ロボット３の上部に全方位視覚センサ１が設置され。自律走行ロボット３周辺の複数人物のジェスチャーが１つの画像中に撮影される。参考のために全方位視覚センサ１により撮影された映像を図８に示す。
【００２３】
このように取得されたイメージは画像処理装置において個々の被写体毎に分割され、次に個々の被写体画像からジェスチャーの特徴パターンが抽出される。この抽出プロセスを従来手法と比較しながら説明する。図２に従来の処理プロセスを示す。図３に本実施の形態の処理プロセスを示す。撮像装置はたとえば、時刻ｔにおいてｉ×ｊ画素の画像データを取得するものとする。
【００２４】
ある時刻ｔの入力画像Ｉ（ｉ，ｊ，ｔ）が得られると、前時刻ｔ−１の入力画像Ｉ（ｉ，ｊ，ｔ−１）との時間差分画像が作成され。この時間差分画像をしきい値と比較すると２値画像Ｉ_b（ｉ，ｊ，ｔ）（０≦ｉ，ｊ＜Ｌ，０≦ｔ）が求められる。これを数式で表すと数１式となる。
【００２５】
【数１】

【００２６】
ただし、ｈ_cは画素値が変化したかを決定するしきい値である。さらに２値画像Ib(i,j,t) をＮ₂×Ｎ₂に空間リダクションし、特徴ベクトルｆ（ｋ，ｖ，ｔ）（０≦ｋ，ｖ＜Ｎ₂）を求める。
【００２７】
【数２】

【００２８】
ここで、ｐとｑはともに整数、ｈ＝Ｎ₁／Ｎ₂である。この特徴ベクトルｆ（ｋ，ｖ，ｔ）はサイズＮ₂×Ｎ₂のリダクション画像中の各領域において画素値が変化した割合、つまり、被写体の身体部分が動いた画像の割合を示す。この特徴ベクトルf(k,v,t)３フレーム分の平均をとって、その対数をとったものがジェスチャー認識に使用する特徴パターンとなる。
【００２９】
図２の例では６４×６４画素の入力画像を１６×１６個のデータに圧縮する例を示している。
【００３０】
これに対して、本実施の形態では、空間リダクションした各領域のデータ、すなわち、特徴ベクトルの値の内、しきい値ｈｍより多き値を飽和させて、しきい値に押さえる。これを式で表すと次式となる。
【００３１】
【数３】
f'(k,v,t) ＝min {f(k,v,t), h_m}
このようにして時刻ｔの特徴パターンが得られ、次の時刻ｔ＋１でも同様の処理を行って、特徴パターンが抽出される。ジェスチャー認識に使用する標準パターンも同様の処理で特徴パターンが抽出される。
【００３２】
ジェスチャー認識では上記標準パターンの時系列的な複数組の特徴パターンと認識対象の被写体の映像から抽出した複数組の特徴パターンとマッチングが行われる。このマッチング手法としては連続ＤＰと呼ばれる手法がよく知られている。
【００３３】
連続ＤＰによるスポッティング認識では、上述のようにして入力画像から特徴抽出を行い特徴ベクトルを求める。次に、この入力された特徴ベクトル列と、各ジェスチャーに対応した標準パターンとを連続ＤＰでマッチングする。この標準パターンは、事前に標準動作を捕らえた画像列から入力画像と同様の特徴抽出法で作成した特徴ベクトル列である。最後に、すべての標準パターンとの連続ＤＰマッチングの結果を比較し、最も適合したものをその時点のマッチング結果として出力する。
【００３４】
以下に、連続ＤＰによる特徴ベクトル列のマッチング方法を具体的に示す。入力の特徴パターンと標準パターンのフレーム間距離をｄ（ｔ，τ）として累積距離Ｓ（ｔ，τ）を以下のように適宜する。
【００３５】
初期条件：
【００３６】
【数４】
S(-1,τ) ＝S(0,τ) ∞ （１≦τ＝Ｔ）
漸化式（１≦ｔ）：
【００３７】
【数５】
S(t,1)＝3・d(t,1)
【００３８】
【数６】

【００３９】
【数７】

【００４０】
ここで、ｔは入力の離散時刻を表し、τは標準パターンの長さに対応するパラメータで１≦τ≦Ｔ（Ｔはパターン長）である。連続ＤＰの出力Ａ（ｔ）は
【００４１】
【数８】
A(t)＝1/(3T)S(t,T)
として定める。
【００４２】
このようなジェスチャー認識を行うための実験装置として、ＳＧＩ社のＩｎｄｙ（Ｒ４４００２００ＭＨｚ）と、付属のＩｎｄｙＣｏｍというカメラを用いた。実験は、オフィス内で椅子に座った１人の被験者に対して行った。カメラの視野は被験者のジェスチャーが適切に入るように設定した。また、照明は建物の天井に設置されている蛍光灯のみを用いた。
【００４３】
ＣＣＤカメラの出力映像をＡＤ変換して得られる画像は、サイズ１６０×１２０、１画素２５６階調のＲＧＢ画像であるが、認識には比較的輝度に強い影響を与えるグリーン成分のみを用いた。この画像を空間的リダクションしサイズＮ₁×Ｎ₁の画像を特徴抽出部への入力とした。また、数３式の特徴ベクトルを飽和させるｈ_mは０．３とした。
【００４４】
実験に用いたジェスチャーは、（１）ばんざい（両手）、（２）バイバイ（右手）、（３）まる（両手）、（４）手をたたく（両手）、（５）こちらへ（右手）、（６）左へ（左手）、（７）右へ（右手）、（８）いいえ（右手）の８種類である。これを、ジェスチャーｖ（ｖ＝１，２，…，８）と表記する。図４に各ジェスチャーのスナップショット、図５にジェスチャー「バンザイ」の画像系列を示す。被験者は各動作を通常のスピードで行い、画像は１５Ｈｚでサンプリングした。また、数１式の閾値ｈc はカメラの熱雑音を考慮し１０とした。
【００４５】
標準パターンｖ（ｖ＝１，２，…，８）は、それぞれのジェスチャーを捉ええた画像系列から人手でジェスチャー部分のみを切り出し作成した。この実験で用いた標準パターンのフレーム長Ｔは１１から１５であった。また、同じジェスチャーを２０回繰り返した入力画像列ｖを作成した。次に、入力画像列ｖを認識システムに入力し、１位認識率と正解候補率を求めた。
【００４６】
【数９】

【００４７】
【数１０】

【００４８】
ここで、正答ジェスチャー数ｖは入力画像列ｖ中の２０個のジェスチャーの内で正しく認識できたジェスチャー数である。また、３フレーム以上連続して同じ認識結果になった場合に「検出」されたとした。
【００４９】
ここで、入力画像サイズＮ₁＝６４として、特徴ベクトルの次元数（Ｎ₂×Ｎ₂）の最適な値を求めるため、Ｎ₂＝｛１，２，３，４，５，７，１０，１６｝と変化させた。ここで得られた最適値を用いて入力サイズをＮ₁＝｛３，６，９，１２，１５，３０，６４｝と変化させ最適値を求めた。ここで、衣服および背景の影響を調べるため、
Ｓ１標準パターンの作成時と衣服および背景が等しい場合
Ｓ２標準パターンの作成時と衣服および背景の明るさがともに異なる場合を設定した（図６）。衣服の色はＳ１のときに灰色、Ｓ２のときに黄色であった。標準パターンはＳ１の場合に作成し、しきい値ｈｖはＳ１の１位認識率が極力大きくなるよう人手で設定した。Ｓ２にはこのＳ１で作成した標準パターンとしきい値を用いて認識実験を行った。
【００５０】
認識実験の結果を図７に示す。衣服と背景が異なる場合（Ｓ２）でも、Ｎ₂＝３，４，５で約８０％と高い１位認識率が得られたため、本手法が衣服と背景の変化にロバストであることが示せた。
【００５１】
約２０％の誤差の原因は、衣服と背景が異なる場合に生じる。（１）服のしわのできかたの違い、（２）手の影の違い、（３）着膨れによる人物の大きさの違いが考えられる。計算量を考慮すると、Ｎ₂が３のときに今回用いた８種類のジェスチャーに対する最適な認識システムとなる。また、Ｎ₂が７以上で１位認識率が低下しているがこれはリダクションサイズが大きすぎて動作の軌跡の変動を吸収できなかったためと考えられる。
【００５２】
次にＮ₂＝３に固定してＮ₁を変化させたときの認識結果を表１に示す。
【００５３】
【表１】

【００５４】
この結果から１２≦Ｎ₁において約８０％の認識率があり、Ｎ₁≦９では認識率が低下している。Ｎ₂＝１２のとき、特徴ベクトル値はＮ₁／Ｎ₂＝１２／３＝４となり、４×４＝１６段階となっており、連続ＤＰによる認識には十分であるために認識率が悪化しなかったと思われる。
【００５５】
この結果からＮ₁＝１２程度と小さな人物画像からでも高い認識率でジェスチャーを認識することが示せた。
【００５６】
複数人物の認識実験をも行った。実験は自律移動ロボット上に全方位視覚センサを設置し（図１（ｂ）参照）、自律移動ロボットの周辺に椅子に座った４人の被験者を配置した。書く被験者は自律移動ロボットの方を向いて、ジェスチャーを行う。光源、画像サイズ、しきい値などの実験条件は上述の認識実験と同様とした。このときの全方位視覚センサの映像の一例を図８に模式的に示す。
【００５７】
４人の人物は図９に示すように映っている。各人物のセグメンテーションは人物範囲内を３×３に等分割し、各分割領域内に重心がある画素を用いて特徴抽出を行った。この図８のように全方位視覚センサまでの距離により人物の大きさが異なるため、各人物の特徴抽出部ｂへの入力サイズＮ₁×Ｎ₁は異なる。もっとも離れた人物（符号５１）までの距離が４ｍであり、そのときの人物の画像サイズは１８×１５であった。この入力画像から上述の特徴パターンの抽出方法により３×３次元の特徴ベクトルを算出した。なお、全方位視覚センサの歪みは修正していない。
【００５８】
実験に用いたジェスチャーは上述の実験と同様で８種類とした。図１０にジェスチャー“ばんざい”の３フレーム毎の画像系列を示す。入力画像系列は標準パターンの撮影時と同じ服装にて４人の人物が思い思いにジェスチャーを行い撮影した。この入力画像系列のフレーム数は４５７、この間に４人が行ったジェスチャーは１０回から１３回であった。
【００５９】
表２に各人物の認識率を示す。
【００６０】
【表２】

【００６１】
服装と背景が標準パターン作成時と同様であるものの、約８０％という高い認識率で認識できており、本実施の形態のジェスチャ認識方法が有効であることが示せた。
【００６２】
さらに、図１１に４人の人物動作に対する連続ＤＰの出力値例を示す。横軸はフレーム数であり、この上に描かれた横線は実際に被験者が行ったジェスチャーとその時間区間を示している。また、縦軸のＣＤＰ（連続ＤＰ）出力はそれぞれのしきい値を引いた値である。したがって、ＣＤＰ出力の値が負になった場合に認識されたことになる。図１１から認識もれの場合でも適切な標準パターンのＣＤＰ出力が減少していることがわかる。
【００６３】
Ｉｎｄｙを１台を用い本手法を用い本手法を用いた実時間ジェスチャー認識システムを作成した。図１２にその外観を示す。
【００６４】
Ｎ₁＝１２、Ｎ₂＝３、サンプリングレートは１５Ｈｚであり、入力画像を実時間で表示、認識し結果を表示する。実時間での認識実験を行った結果、衣服、背景が異なっても約７割の認識率が得られた。
【００６５】
図１３に本実施の形態の一システム構成を示す。図１３において、ＣＰＵ１００はシステムメモリ１０１の中のシステムプログラムに基づきシステム全体の制御を行うほか、システムメモリ１０１にローディングされたジェスチャー認識プログラムに従って本発明に係わるジェスチャ認識処理を実行する。
【００６６】
システムメモリ１０１はＲＯＭおよびＲＡＭを有し、上記システムプログラム、システム制御に使用するパラメータ、ＣＰＵ１００に対する入出力データおよびディスプレイ１０２に表示するイメージをも格納する。ディスプレイ１０２は全方位視覚センサ１０６から入力された撮影画像を表示する。また、後述の入力装置１０５から入力された情報、ジェスチャー認識結果等を表示する。
【００６７】
ハードディスク記憶装置（ＨＤＤ）１０３は保存用のジェスチャー認識プログラム（図１４、図１５）およびジェスチャー認識に使用する標準パターンを記憶する。なお、標準パターンは予め１人の被写体が動作の判明しているジェスチャーを行い、その撮影画像から上述の特徴パターン抽出方法により取得する。標準パターンはジェスチャーの異なる特徴パターンと対応のジェスチャー内容を示す識別コードとから構成される。
【００６８】
入出力インタフェース（Ｉ／Ｏ）１０４は全方位視覚センサ１０６と接続し、撮影画像をＣＰＵ１００に引き渡す。入力装置１０５はキーボードおよびマウスを有し、情報入力を行う。
【００６９】
このようなシステム構成において、実行するジェスチャー認識処理を図１３および図１４を参照して説明する。ジェスチャー認識処理の起動が入力装置１０５により指示されると、ＣＰＵ１００はＨＤＤ１０３からジェスチャー認識プログラムを読み出してシステムメモリ１０１にローディングし、実行を開始する。
【００７０】
最初に、ＣＰＵ１００はジェスチャー認識処理で使用する各種パラメータを初期化する（ステップＳ１０）。ＣＰＵ１００はＩ／Ｏ１０４を介して１画面分の撮影画像（フレームとも称す）を取り込み、複数の被写体を画像分割してシステムメモリ１０１に一時記憶する（ステップＳ２０）。
【００７１】
次に２番目の撮影画像が同様に画像分割されたシステムメモリ１０１に格納される。ＣＰＵ１００は最初に取得したフレームの第１番目の被写体の画像とと２番目に取得したフレームの第１番目の被写体の時間差分画像を作成し、その作成結果をシステムメモリ１０１に記憶する（ステップＳ３０→４０）。
【００７２】
ＣＰＵ１００は時間差分画像を２値化用のしきい値と比較してビット１／０のデータに変換する。１画面が１６×１６個の画素から構成されているとすると、次に予めパラメータとして用意されている圧縮率にしたがって、１６×１６の画素群を４つの領域、すなわち、縦横２分割した４つの領域に分割する。これにより１つの領域には８×８個の画素が含まれることになる。この１つの領域の中に含まれるビット１の個数をＣＰＵ１００により計数する。同様にして全ての領域についてビット１の個数を計数する。この個数として仮に１、２０１、１００、５９が得られたとする。これにより１６×１６個の多値（たとえば１６ビット）の画像データが４個の１６ビットのデータに空間圧縮される（ステップＳ６０）。
【００７３】
次にＣＰＵ１００は上記空間圧縮されたデータ、（１、２０１、１００、５９）をしきい値１５０と個々に比較する。これにより１５０を超える値２０１はしきい値と同じ値に変換され、ビット１の個数が１５０とみなされる。したがって、このような飽和処理の後の空間圧縮データは（１、１５０、１００、５９）となる。この空間圧縮データが第１の被写体の時刻ｔのジェスチャーの特徴パターンとして、システムメモリ１０１に格納される。
【００７４】
ＣＰＵ１００は連続ＤＰの手法と、取得した上記特徴パターンおよび前の時刻に取得した特徴パターンを使用して標準パターンのパターンマッチングを行う。被写体が１人の場合のジェスチャー認識のためのパターンマッチング処理は先に簡単に説明したが周知であり、詳細な説明を要しないであろう（ステップＳ８０）。
【００７５】
パターンマッチングの結果、特定の標準パターンに類似していると判定された場合には、その識別コードがディスプレイ１０２に表示される（ステップＳ９０→Ｓ１００）。
【００７６】
以下、時刻ｔのフレームについて他の被写体のジェスチャー認識がステップＳ４０〜Ｓ１１０のループ処理により実行される。このようにして時刻ｔの全被写体のジェスチャー認識処理が行われると、次に時刻ｔ＋１での全方位視覚センサ１０６の撮影画像が取り込まれ、上述と同様にしてジェスチャー認識処理が行われる（ステップＳ３０〜Ｓ１２０のループ処理）。
【００７７】
入力装置１０５から終了の指示に応じて図１４および図１５の処理手順を終了する。
【００７８】
以上、述べた実施の形態の他に次の形態を実施できる。
【００７９】
１）上記実施の形態では、個々の被写体に画像分割する際に、手動操作で分割位置を知らせていたが、画像処理装置において自動的に画像分割することができる。その一例としては、時間差分画像では静止画部分が除去される。その除去部分は２値化画像においてビット０となって現れる。この性質を利用すると、被写体と他の被写体の間は静止画像なので、この間隙部分は２値画像においてはビット０の集合となる。そこで、画像の中心位置から画像の外端部までビット０が連続する画素群を画像処理装置により検出する。この画素群が個々の被写体の区切り部分となるので区切り部分で区切られる画像データを取り出す。
【００８０】
２）全方位視覚センサでは被写体画像をセンサに導くミラーを使用するがミラーの形状は円錐に限らずこれまでに知られている種々のものを使用することができる。
【００８１】
３）図１３の処理手順では、被写体ごとの画像分割処理を全方位視覚センサ１０６からの入力画像について行っているが２値化処理までを１画面全体で行って、２値画像について被写体ごとの画像分割を行うこともできる。
【００８２】
４）本実施の形態では入力画像の画素数や空間リダクション後のデータ数を固定的に使用したが任意の値に可変設定できる。この場合には、入力装置１０５から所望の値を入力し、ＨＤＤ１０３にパラメータとして保存しておけばよい。
【００８３】
【発明の効果】
本発明によれば、全方位視覚センサにより複数の被写体のジェスチャー画像が重複することなく、撮像されるので、その撮像結果を分割することで個々の被写体の画像を取得できる。この結果、単一の撮像装置でも複数の被写体のジェスチャーを認識できる。
【００８４】
さらに、本発明によれば、飽和処理の結果ビット１の個数が一定の数値範囲の中に収まるので、入力画像の画素の個数をたとえば、従来の６４×６４から１６×１６というように低くしても確実に特徴パターンを補足できる。この結果、入力画像のデータ量が従来より減少するので、人のジェスチャー認識時間が短くなり、複数の人間の被写体のジェスチャーを実時間（リアルタイム）で認識できる。
【００８５】
以上述べた発明により、円形に並ぶ複数の人間のジェスチャーをすべて認識できることによりたとえば、手話による会話を認識したり、市場のせりの内容を認識し、その認識結果を通信することに遠隔地の人間にもその場の内容を知らせることができる。
【図面の簡単な説明】
【図１】全方位視覚センサの設置例を示す斜視図である。
【図２】飽和処理を行わない場合の画像処理プロセスを示す説明図である。
【図３】飽和処理を行う場合の画像処理プロセスを示す説明図である。
【図４】時系列的な撮像結果を示す説明図である。
【図５】時系列的な撮像結果を示す説明図である。
【図６】衣服と背景の異なる標準パターンを説明すための説明図である。
【図７】リダクションサイズと認識率の関係を示す説明図である。
【図８】コンピュータの画像処理対象となる全方位視覚センサの撮像結果を示す写真である。
【図９】全方位視覚センサの撮像結果の中の被写体の位置を模式的に示す説明図である。
【図１０】ばんざいのジェスチャー画像を示す写真である。
【図１１】連続ＤＰの出力値を示す説明図である。
【図１２】実時間ジェスチャー認識システムの正面外観をを示す正面図である。
【図１３】実時間ジェスチャー認識システムのシステム構成を示すブロック図である。
【図１４】特徴パターン抽出処理手順およびジェスチャー認識処理手順を示すフローチャートである。
【図１５】特徴パターン抽出処理手順およびジェスチャー認識処理手順を示すフローチャートである。
【符号の説明】
１全方位視覚センサ
２対話者
３自律走行ロボット
１００ＣＰＵ
１０１システムメモリ
１０３ＨＤＤ
１０４Ｉ／Ｏ
１０５入力装置
１０６全方位視覚センサ

Claims

被写体を時系列的に撮像装置により撮像し、
当該撮像の結果について画像処理装置において時系列的な時間差分画像を取得し、
当該取得した時系列的な時間差分画像を前記画像処理装置において作成し、
当該作成した時系列的な時間差分画像をビット１／０に２値化した時系列的な２値化画像を前記画像処理装置において作成し、
当該作成した時系列的な２値化画像の各々を前記画像処理装置において複数の領域に分割し、
当該分割した各領域の中のビット１の個数を前記画像処理装置において計数し、
当該計数した個数がしきい値以上のときは前記画像処理装置においてその計数結果を前記しきい値に飽和させてその飽和結果を前記画像処理装置のビット１の計数の結果となし、
前記領域の各々の時系列的なビット１の計数結果をジェスチャー認識における特徴パターンとすることを特徴とするジェスチャー認識方法。
請求項１に記載のジェスチャー認識方法において、前記被写体は複数であって、当該複数の被写体を全方位視覚センサにより撮像し、当該撮像の結果を前記画像処理装置において各々の被写体を含む画像に分割し、当該分割した画像を前記時間差分画像を取得するステップに引き渡すことを特徴とするジェスチャー認識方法。
被写体を時系列的に撮像する撮像手段と、
当該撮像の結果について時系列的な時間差分画像を取得する第１の画像処理手段と、
当該取得した時系列的な時間差分画像を作成する第２の画像処理手段と、
当該作成した時系列的な時間差分画像をビット１／０に２値化した時系列的な２値化画像を作成する第３の画像処理手段と、
当該作成した時系列的な２値化画像の各々を複数の領域に分割する第４の画像処理手段と、
当該分割した各領域の中のビット１の個数を計数する第５の画像処理手段と、
当該計数した個数がしきい値以上のときは前記画像処理装置おいてその計数結果を前記しきい値に飽和させてその飽和結果を前記第５の画像処理手段の計数結果とする第６の画像処理手段とを有し、
前記領域の各々の時系列的なビット１の計数結果をジェスチャー認識における特徴パターンとすることを特徴とするジェスチャー認識装置。
請求項３に記載のジェスチャー認識装置において、前記被写体は複数であって、当該複数の被写体を撮像する全方位視覚センサと、当該撮像の結果を各々の被写体を含む画像に分割する分割手段とを有し、当該分割した画像を前記時間差分画像を取得する第１の画像処理手段に引き渡すことを特徴とするジェスチャー認識装置。